从Gemini到豆包:全球两大AI巨头为何走上同一条路?
创始人
2026-02-15 00:03:26
0

  炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会!

(来源:第一财经资讯)

视频模型Seedance 2.0、图像模型Seedream 5.0 Lite连续刷屏后,2月14日,字节跳动正式宣布推出豆包大模型2.0(Doubao-Seed-2.0,简称豆包2.0)系列。

自2023年,豆包大模型初始测试版上线,2024年正式对外发布,豆包代际模型版本更新已经过去近一年半时间。其间持续在文本基础、多模态强化、深度思考、Agent(智能体)执行等方面更新,直至此次版本,在2.0全能力升级。

此次备受关注的2.0版本,具备全栈模型矩阵 + 多模态理解 + 企业级 Agent + 极致成本四大差异化优势,已跻身全球第一梯队,成为 Agent 时代的关键玩家。在多项公开测试集上表现突出,接近Google Gemini3,和具备更高性价比。

字节跳动官方明确表示,旗舰版豆包2.0 Pro“面向深度推理与长链路任务执行场景,全面对标GPT 5.2与Gemini 3 Pro”。从技术参数到产品定位,豆包2.0与Google Gemini的相似性正在从“对标”走向“一致”。而这种“一致”并非偶然的“撞车”,本质是全球顶尖AI实验室在通往通用人工智能(AGI)路径上达成的战略共识——AI最终需要为人类完成任务执行,而这需要对真实世界物理运行规律的理解。

版本代际更新

此次更新,豆包2.0 系列模型提供 Pro、Lite、Mini 三款不同尺寸的通用 Agent 模型。该系列通用模型的多模态理解能力实现全面升级,并强化了LLM 与Agent 能力,使模型在真实长链路任务中能够稳定推进。同时进一步把能力边界从竞赛级推理扩展到研究级任务,在高经济价值与科研价值任务评测中达到业界第一梯队水平。

据官方介绍,此次豆包2.0针对大规模生产环境的使用需求进行系统性优化,旨在更好地完成真实世界的复杂任务。

其中,在语言模型基础能力上,豆包2.0 Pro旗舰版取得IMO、CMO数学竞赛和ICPC编程竞赛金牌成绩,数学和推理能力达到世界顶尖水平。

另外,大模型执行长链路复杂任务,需要丰富的世界知识。豆包2.0加强了长尾领域知识覆盖,在SuperGPQA等多项公开测试集上表现突出,科学领域知识测试成绩与Gemini 3 Pro和GPT 5.2相当,在跨学科知识应用上也排名前列。

在教育、娱乐、办公等众多场景中,大模型需要理解图表、复杂文档、视频等内容。对此,豆包2.0全面升级多模态理解能力,视觉推理、空间感知、长上下文理解等权威测试均取得业界最佳表现。

面对动态场景,豆包2.0强化了对时间序列与运动感知的理解能力。以健身场景为例,接入豆包2.0的智能健身App可实时分析用户动作视频,一旦检测到深蹲姿势偏移,立即语音纠正——这正是环境感知与主动交互能力的落地。目前,这一能力已延伸至穿搭建议、老人看护等领域。

Agent能力是大模型具备行动力的关键。测试成绩显示,豆包2.0 Pro在指令遵循、工具调用和Search Agent等评测中达到顶尖水平,在HLE-Text(人类的最后考试)上更是获得54.2的最高分,大幅领先于其他模型。

目前,豆包2.0 Pro已在豆包App、电脑客户端和网页版上线,用户选择专家模式即可对话体验。火山引擎也已上线豆包2.0系列模型API服务。

价格方面,豆包2.0 Pro按“输入长度”区间定价,32k以内的输入定价为3.2元/百万tokens,输出定价为16元/百万tokens,相比Gemini 3 Pro和GPT 5.2有较大的成本优势。豆包2.0 Lite更是极具性价比,综合性能超越两个月前发布的上一代主力模型豆包1.8,百万tokens输入价格仅为0.6元。

强化执行任务能力

此次豆包2.0的全面升级,核心落点在“真实世界复杂任务的执行力”。而这一能力的根基,正是多模态理解层的突破——只有让模型真正看懂物理世界的动态与逻辑,它才能从“答题者”进化为“执行者”。

字节模型团队观察到一个典型失衡:语言模型已经可以顺利解决竞赛难题,但放在真实世界中,它们依然很难端到端地完成实际任务——比如一次性构建一个设计精良、功能完整的小程序。

LLM 和 Agent 为什么在处理现实问题时屡屡碰壁?团队认为,原因主要来自两点:真实世界任务往往跨越更长时间尺度、包含多个阶段,而现有LLM Agent 难以自主构建高效工作流,并在长时间跨度中积累经验;真实世界知识具有很强的领域壁垒且呈长尾分布,各行业的经验不在训练语料的高频区,导致即便模型擅长数学与代码,其在专业场景中往往价值有限。

在提升了长程任务执行能力的同时,Seed2.0 还进一步降低了推理成本。其模型效果与业界顶尖大模型相当,同时 token 定价降低了约一个数量级。在现实世界的复杂任务中,由于大规模推理与长链路生成将消耗大量token,这一成本优势将变得更为关键。

另外在多模态理解能力方面,豆包2.0 Pro在视觉推理、空间感知、运动理解、长视频理解等维度,在大多数相关基准测试中取得最高分。此前刷屏AI视频模型Seedance2.0正是多模态能力支撑的体现之一。

Seedance 2.0核心升级主要体现在原声音画同步、多镜头长叙事、多模态可控生成。用户输入提示词与参考图,可一键生成带完整原生音轨的多镜头视频,模型自动解析叙事逻辑,确保角色、光影、风格与氛围高度统一。此前马斯克点评称:模型发展非常迅速。

据官方介绍,豆包2.0可以处理复杂视觉输入,并完成实时交互和应用生成。无论是从图像中提取结构化信息,还是通过视觉输入生成交互式内容,Seed2.0都能高效、稳定地完成任务。

这正是Gemini一直强调的“原生多模态”能力——不是简单拼接视觉与语言,而是在底层实现跨模态的深度对齐。豆包2.0的升级方向与Google的Gemini 3 Pro在视频理解、空间推理上的优势高度一致。

而豆包2.0与Gemini在基础模型层面均选择死磕多模态,本质上是在进行一场 “世界模型”的军备竞赛。它们不再满足于让AI做一个“语言游戏高手”,而是希望AI成为一个能看懂、听懂、理解物理世界复杂性的“数字人类”。只有当模型真正理解了杯子为什么会碎、人为什么会笑、视频里的人在做什么动作,它才能在现实世界中可靠地执行任务。

相关内容

蛇年最后一单!三倍“妖股”...
(来源:财闻) 在蛇年最后一个工作日,安...
2026-02-15 14:07:40
签约特步!“最快女护士”张...
每经编辑|黄胜     2月15日,张水华再签运...
2026-02-15 14:07:36
原创 ...
克里姆林宫的秘密谈判正悄然展开,一句报复将是可怕的在外交圈里悄然流...
2026-02-15 14:07:27
原创 ...
2月13日那个夜晚,黄金市场如同遭遇了一场突如其来的寒流,毫无预兆...
2026-02-15 14:07:11
原创 ...
慕尼黑当地时间14日,第62届慕安会进入第二天,也是最为关键的一天...
2026-02-15 14:06:51
【海报】骐骥迎新年味儿足
从精神威武的舞狮到锣鼓喧天的社火;从烟火气浓郁的农村大集,到热热闹...
2026-02-15 14:02:52
马斯克预言:2026年底编...
格隆汇2月15日丨美国企业家埃隆·马斯克在今日发布的视频中指出,到...
2026-02-15 13:57:37
迁址升级!吉林水师营博物馆...
2月13日上午,全国唯一的水师营专题博物馆——吉林水师营博物馆新馆...
2026-02-15 13:52:53

热门资讯

蛇年最后一单!三倍“妖股”*S... (来源:财闻) 在蛇年最后一个工作日,安徽证监局和深交所分别向公司出具《行...
签约特步!“最快女护士”张水华... 每经编辑|黄胜     2月15日,张水华再签运动品牌,成为该品牌签约跑者。这是她...
【海报】骐骥迎新年味儿足 从精神威武的舞狮到锣鼓喧天的社火;从烟火气浓郁的农村大集,到热热闹闹的传统庙会;从鱼跃龙门的非遗鱼灯...
马斯克预言:2026年底编程或... 格隆汇2月15日丨美国企业家埃隆·马斯克在今日发布的视频中指出,到今年年底,我们甚至不再需要编程,A...
迁址升级!吉林水师营博物馆新馆... 2月13日上午,全国唯一的水师营专题博物馆——吉林水师营博物馆新馆正式试开放。新馆在吉林市船营区松江...
“唯一非欧洲国家”,加拿大正式... “唯一非欧洲国家”,加媒:加拿大已正式加入欧盟防务计划据加拿大广播公司(CBC)当地时间14日报道,...
玉渊潭公园室内樱花展来啦! 展览时间:2月10日至3月3日,每天9:00-17:00展览地点:小樱驿站公园通过精心培育,打造了温...
瑞士拟就人口限制进行公投   瑞士将在6月就限制人口数量的议案举行全民投票,以决定是否在人口总量达到1000万时采取控制措施。...
房山修车师傅街头挥毫送“福”   冬日午后,房山良乡南关凯旋大街街边,修车摊旁摆着一张折叠书桌,机油味混着墨香。摊主李克泉修完一辆...
马车骑兵与人类文明   ▌张荑  马对人类的贡献早在石器时代晚期就已体现,公元前5世纪至17世纪,马一直是交通和军事上的...