封面新闻记者 张峥
用户排队试用等出片。“中国版sora”——Seedance 2.0经过字节跳动海量视频数据的“投喂”,已经开始在业内刮起15秒短视频创作旋风。2月13日,封面新闻记者从字节内部人士处了解到,目前旗下工作人员已经在给创作者们大面积推送Seedance 2.0使用手册。
“AI视频创作现在已经从幼儿园进化到了小学,迭代以天计算。”2月14日,AIGC创作者刘归源告诉记者试用Seedance 2.0的体验。
“Seedance 2.0已经接近于一款工业化内容生产工具,在成本效率与稳定可控性上更具优势,适合商业内容批量生产。”四川大学中华文化传承与全球传播数字融合实验室执行主任宋耀评价。
seedance生成场景
创新:双分支扩散架构
2月9日,字节跳动发布视频生成模型Seedance 2.0测试版,引发全网热议。
“你可以理解为,以前的AI是画家,现在Seedance是编剧+分镜师+摄影师三位一体。”宋耀说,过去两年,AI视频生成的最大痛点并非画质,而是连贯性。早期模型本质上是逐帧生成+简单拼接:每一帧独立绘制,再靠后处理强行对齐。结果便是角色面孔随机变化、手指数目错乱、背景忽明忽暗——业内戏称“抽卡地狱”。“Seedance 2.0的突破,在于引入了所谓‘双分支扩散架构’。”宋耀解释说。
这个架构,本质上是在传统扩散模型上叠加了一个长期时序控制的大脑。而所谓“双分支”,可以通俗理解为一条分支负责画面生成,另一条分支负责整体叙事与时序控制。“前者仍然使用扩散模型来生成高质量图像帧,后者则由Transformer承担‘导演’角色,负责记住人物身份、动作轨迹、镜头逻辑以及场景状态。”这种设计使模型不再是每一帧独立创作,而是在一个持续存在的“世界状态”中推进画面,因此角色不会在不同镜头中随机变脸,动作也能保持物理连续性,镜头切换时的空间关系与光线条件能够维持一致,从根本上缓解了早期AI视频常见的“画面崩坏”“角色漂移”“动作断裂”等顽疾。
剧本人物生成照
从“抽卡”到快速出视频
四川传媒学院跨媒体艺术专业主任刘归源长期关注AIGC发展和应用。“每个大厂的模型都各有特点,我们通常是几种工具交替使用,搭Nano Bunana工作流,配合不同模型,提升效率。”他坦言,在Seedance 2.0出来之前,做一条30秒的AI视频,实属“劳动密集工作”。“光是修图就得反复‘抽卡’,平均一张图要改4到5次,才能用。而一个几十秒的视频,背后可能要生成200到300张图,再手动筛选、拼接。整个流程特别繁琐:先写文字脚本,再分镜,然后出图,转视频,最后剪辑合成,要花几个小时。”
现在,只需要提供足量细节的提示词、有效的首、尾帧画面,AI就能在短时间内帮你生出一段运镜流畅、转场丝滑的短视频。刘归源展示了一个他用Seedance 2.0生成的15秒动画,“整个时间差不多半个小时。”
如果说去年的AI出图水平还停留在“幼儿园级别”,现在Seedance 2.0一出,算是进阶了“小学级别”。在刘归源看来,这还不是结束,“很快也会有其他厂牌超越它——这场AI视频战争,技术迭代是以‘天’为单位的。”
故事构想
刘归源用seedance生成故事视频。第一幕场景提示词
技术、数据加持 造就“中国版sora”
“海外评测认为Seedance 2.0在角色一致性与多镜头叙事上优于Sora 2,这一优势既来自架构设计,也来自训练数据结构。”宋耀补充分析:“架构层面,Seedance显然更强调角色持久状态与镜头逻辑控制,而Sora更强调物理世界模拟与场景生成,因此前者在人物驱动叙事上更稳定。”
“数据层面,中国短视频生态提供了海量连续剧情、口播与电商视频素材,这类内容天然具有角色连续、镜头密集与节奏明确的特征,使模型在训练中更容易学习到工业化叙事结构。可以说,技术与数据的双重因素共同造就了其在多镜头叙事上的优势。”宋耀分析。和宋耀的观点一致,刘归源把这次字节在AI视频创作工具的暂时领先,归结于Seedance 2.0对字节旗下抖音等短视频平台海量数据的学习。
“内容生产流水线”
与其他模型不同,字节走出了工业风。
“从横向对比来看,Seedance 2.0与国际主流模型的定位差异十分明显。OpenAI推出的Sora更偏向世界模拟与通用视频生成,其目标是构建能够理解物理世界与复杂场景的通用生成模型;而Suno则聚焦音乐生成;Kling强调长视频与写实镜头能力。”宋耀认为,Seedance 2.0的差异化定位则更接近工业化内容生产工具,尤其面向短视频、广告、电商与剧情短内容的高效生成,因此在角色稳定性、镜头可控性与音画同步方面投入更多架构优化。这也使Seedance 2.0的整体风格更偏“内容生产流水线”,而非艺术实验型模型。
“在生成时长、分辨率与成本效率方面,Seedance 2.0大概率处于全球第一梯队但偏工业应用。”他评价说。其生成时长与分辨率可能略低于最激进的研究型模型,但在成本效率与稳定可控性上更具优势,适合商业内容批量生产。“相较之下,Sora仍然代表着高自由度世界模拟的上限,而Seedance更像是将视频生成技术产品化、流程化的一次工程优化。”
行业影响:重资产设备正在变成“白菜价”
“AI确实在颠覆一部分内容生产。”刘归源经历了初代摄影摄像到AIGC内容创作,真实感受到AI给视频内容生产带来的冲击。他告诉记者,以前拍一条精品广告,租用最好的电影机,一天的费用大约五、六千,现在这个费用降到了一千,“现在,观众看的是手机屏幕,对分辨率没那么高要求了,重资产的设备正在变成‘白菜价’。”
在竖屏短剧、动漫漫剧这些重复性高的领域,AI将带来较大的冲击。“我了解到的,一部160分钟的竖屏短剧,一个5-10人的团队要做一个月才能出一部,现在只需要一半的人力。”刘归源告诉记者。
创造未知 还得靠人
然而,“真正电影级别的作品,纪录片和需要真实人物情感的剧情片,AI暂时替代不了。”空间一致性、复杂交互、情感表达——仍是AI瓶颈。刘归源举了一个AI视频翻车的例子:“比如让AI理解一个房间里的物体关系:一只小猫从门口走到一张放置了红色水杯的桌子前,跳上去,但当你回看时,杯子突然变绿了——这种基础的空间记忆AI还没解决。”
“对真正做创作的人来说,AI是个强力辅助工具,能快速产出既有数据里的‘重复性内容’,但完全创新的东西,还得靠人。AIGC的本质,是在已知世界里高效复制,而不是创造未知。”刘归源说。