新智元报道
编辑:桃子 定慧
【新智元导读】硅谷巨头在AI视频赛道激战正酣,中国AI正面硬刚!今天,Vidu Q3震撼登场,16s音画直出一镜到底,正式开启「视听生成」时代。
2026年的AI视频圈,开局即决战!
硅谷巨头们的贴身肉搏,比想象中来得更早,也更猛烈。
几周前,谷歌Veo 3.1凭借「素材生视频」(Ingredients to Video),超强一致性+4K画质惊艳登场。
坊间传闻Veo 3.2也将蓄势待发
另一边,马斯克也来秀肌肉了。Grok Imagine上线生成10s视频的功能,音画双飞跃。
Runway全新Gen 4.5模型,死磕连贯叙事、高一致性,同样生成时长可达10s。
就在这硝烟弥漫的时刻,中国AI队正式加入战局,并向全球牌桌投下了一枚重磅炸弹。
下一代旗舰模型——Vidu Q3,今日重磅登场!
它带着极具野心的Slogan:「声画同出,创想无界」,直接重新改变了游戏规则。
这是全球首个一键直出16s音视频的模型,做到了一次生成,完整表达。
这意味着,在长达16秒的时长里,Q3能同时处理画面、声音、剧情推进、镜头调度,叙事能力更强。
更惊艳的是,它还支持镜头控制+自由切换、多语言文字渲染,以及专业级漫剧、短剧、电影制作。
在Artificial Analysis最新榜单中,Vidu Q3表现非常亮眼,硬刚马斯克Grok,位列中国第一、全球第二。
不仅如此,它还一举超越了Runway Gen-4.5 ,谷歌Veo3.1和OpenAI Sora 2。
Vidu正在用实力向世界诠释「中国速度」,领跑视频生成的下半场。
Vidu Q3的出世,标志着AI视频正式从「演技生成」,迈入「视听生成」的新时代。
它不再为单帧画面而生,而是为「剧」而生!
Vidu Q3全球燃爆登场
16s一镜到底
现在,Vidu Q3已上线了文生音视频、图生音视频功能。
从Vidu.cn或Vidu API:platform.vidu.cn,抢先体验Vidu Q3全新功能
接下来,就是一波最全面的实测,看看Q3究竟有多强。
一次生成,声画同步
长久以来,AI视频生成领域存在一个巨大的痛点:视频太短,且大多是「哑剧」。
几秒钟的无声画面,充其量只能算一张「会动的海报」,无法承载复杂的情绪和故事。
去年5月,谷歌Veo3的发布真正引爆了原生多模态「音画同步」,彻底终结了这一尴尬局面。
紧接着Runway Gen-3 Alpha、OpenAI Sora 2等模型迭代,也做到了音画一体。
如今,难点又落在了AI视频的时长上。目前,业界鲜有能打的生成超10秒的AI视频工具。
就拿谷歌Veo 3来说,支持最长8秒视频生成。OpenAI Sora 2还比较例外,最长15秒。
而真正做到单次生成16秒时长的,业界只有Vidu Q3了。不用拼接,不用后期合成——一气呵成,完整叙事。
这种震撼,在demo中展现得淋漓尽致。
一艘正在沉没的巨轮船舱内,海水倒灌,船体倾斜已近60度。
其他人都在逃命,唯有一名中年男子安坐在钢琴前演奏,钢琴声、海浪声交织在一起,营造出史诗般的叙事张力。
下面这个案例中,上传一张六格分镜图,让Vidu Q3按步骤生成一个制作视频。
令人惊叹的是,这种分镜效果在Q3视角下,呈现出完全不输真实大片的效果。
Vidu Q3还能轻松复刻电影的经典瞬间,甚至可以支持多种语言,包括中、英、日。
输入《哈利波特》中一张伏地魔的图片,他用低沉的声音宣告:Harry Potter is dead。人物的神态、声音高度还原,口型和音色精准匹配。
在这段中年夫妇的「对手戏」中,Vidu Q3更是交出了一份令人细思极恐的答卷。
画面呈现出经典的胶片质感,两人对视而立,对话声音平静却难掩忧伤。
Q3精准捕捉到了这种「克制的演技」,再配上精准的口型,让对话有了直击人心的真实重量。
Q3还可以来一段即兴的演奏,上传一张男子的图片,让他唱一句:Welcome to vidu Q3 model,瞬间有爵士那味儿了。
导演级运镜,控制每一帧
如果说16s音画直出让人惊喜,那么Vidu Q3的镜头控制力,足以让影视从业者感到后背发凉。
传统AI视频最大的问题,是镜头「乱跑」——你想要一个推镜头,它可能给你一个大仰拍。
Vidu Q3终于让我们拿回了「导演筒」。
但在Q3的世界里,任何人可以像导演一样,精准控制每一帧的运镜节奏和视角切换。
甚至,它能够根据画面内容自动切镜,让视觉呈现立马生动了起来。
让我们看一段极具张力的日漫风格打斗场景,这里给到了七个分镜的文本提示。
从全景对峙的氛围铺垫,到特写镜头的心理博弈,再到动作场面的爆发,Q3竟在一个视频中,自动完成流畅的切镜,还配上了指定对白和音效卡点。
这哪里是视频生成,这分明是实时渲染一部动画电影。
再来看如下这个皮克斯3D动画demo,Q3仅用一个镜头推进的特写和一个细微的吸气音效,就将孩子那种失望、委屈又无奈的情绪张力瞬间拉满。
Vidu Q3还特别擅长「微距镜头」,如下demo中,荷叶在微风中轻微颤动,露珠从边缘缓缓滑落,展现了它对物理世界的顶级理解力。
在图生音视频中,上传一张跑车图,让Q3生成一段让人肾上腺素飙升的追逐场景:霸王龙猛然冲出森林,在碎石路上狂奔,紧紧追逐前面的跑车。
令人没想到,Q3生成的效果危机感直接拉满。
跑车从镜头前呼啸而过,轮胎疯狂摩擦地面,紧接着霸王龙出现,发出震耳欲聋的嘶吼。
可以看到,Q3展现出了惊人的物理理解力、音效渲染力,让AI视频拥有了直击人心的电影级叙事力量。
玩转文字:视频里的字终于写对了
提到AI视频的文字渲染,曾经简直是「鬼画符重灾区」。
英文字母变形、中文笔画缺失、日文假名乱码……这些槽点,让无数内容创作者抓狂。
Vidu Q3在文字渲染上实现了质的飞跃——中、英、日三种文字精准呈现。
不论是五彩油漆泼洒出的「我爱Vidu」,还是深海鱼群排列出的「DEEP BLUE」,Q3都能在视频中,渲染出精确的文字。
终于,AI视频里的文字,不再辣眼睛了。
一场叙事权的争夺
「视听生成」时代来了
如果跳出具体的技术参数,站在行业变迁的宏观视角重新审视Vidu Q3,便会发现——
它的出现,象征着AI视频生成领域,正经历一次关键的范式迁移。
长久以来,AI视频模型大多停留在「演技生成」的阶段。
不论是早期的Sora演示,还是后续的各类模型,它们解决的核心问题是:如何让画面动起来,如何保持高度一致性。
这种单维度的视频生成,导致创作者得到的往往只是一些精美的、却缺乏灵魂的动态素材。
Q3的真正价值,推动了行业从「演技生成」到「视听生成」时代的到来。
它不再只交付一些零碎的画面片段,而是一次直出完整的、声画共振的视听体验。
正如其Slogan所言——声画同出,创想无界,Q3将声音、画面、运镜、文本融合为一个不可分割的叙事整体。
这种能力的跃升,将为行业多领域的创作,带去深远的重构效应。
它为「剧」而生,对于影视行业者而言,Q3最大的意义在于它具备了真正的「叙事密度」。
在传统的影视工业中,从剧本到可视化的呈现,中间隔着漫长且昂贵的制作链条。Vidu Q3的出现,提供了一条极速通道。
有了全球首个16s音视频直出的能力,创作者可以在一段视频中,构建起完整的戏剧冲突。
以往AI视频难以处理复杂的对白和细腻的情感递进, Q3可以通过一次生成完成。
对于广告从业者而言,用AI视频生成往往很难在「创意」和「可控」之间找到比较好的平衡点。
Q3在画面一致性、文字渲染等突破,为广告营销提供了一套「可控的商业化解决方案」。
下面这个介绍智能手表的案例中,主播的口型与音色一致,表情动作也非常自然。
对于广大的自媒体创作者来说,Vidu Q3无异于一把打开流量大门的万能钥匙。
过去,制作一个高质量的视频,需要分别寻找画面素材、背景音乐、写文案配音、复杂的剪辑合成。
Q3的音视频一体化生成,彻底简化了这一流程。
比如想要出一期创意的播客视频,上传一张猫狗合照,输入你的脑洞指令。
小猫和小狗做电台
小狗说:主人说他不相信爱情了,只想搞钱
小猫说:那说明他既没爱情也没钱
说完后小猫小狗一起大声哈哈笑
原本静止的画面,瞬间变成了妙语连珠的脱口秀现场。
这种极低门槛、极高效率的生产方式,将彻底释放自媒体人的创造力。
或许不久的未来,将会看到更多由Q3赋能的「超级个体」,以惊人的速度产出媲美专业团队的视听内容。
为「剧」而生,让每个人都是导演
Vidu Q3的发布,标志着AI视频生成正式迈入了一个新纪元。
它不再是简单的「图片动起来」,而是真正意义上的「视听一体化创作」。
16秒,足够讲一个故事。声画同步,足够传递情绪。镜头语言,足够表达意图。
未来的视频创作,或许真的能让每个人,只需一个想法,就能成为自己故事的导演。
现在,Vidu Q3 已全面上线文生音视频、图生音视频功能。
快去试试吧,感受「声画同出,创想无界」的震撼。
邀请码:XZY2,登录Vidu.cn,注册即送500积分,快来体验Vidu Q3最新功能。
秒追ASI