速递｜Agnes三大新模型发布前瞻，文本、图像、视频跑分公布_市场解读

速递｜Agnes三大新模型发布前瞻，文本、图像、视频跑分公布

创始人

2026-06-27 13:26:44

0次

来源：Z Potentials

AI 圈的牌桌上，没人能歇。

最近，Agnes又推出了三个新的大模型，评测结果也曝光。从文本、图片到视频，Agnes 这一次全线更新。

废话不多说，我们直接看这次流出的核心信息。

01 视频模型Agnes-video-2.5-preview：重点提升运动、物理与镜头一致性

在VBench综合得分中，Agnes-video-2.5-preview获得59.94分。作为参照，Veo3在该榜单的综合得分为63.23。

在具体的5项细分维度中，Agnes-video-2.5-preview在运镜一致性方面表现最突出，得分52.72，超过Veo 3。据悉，该模型在训练时便着重强化了镜头语言的训练，新模型能精准解析“缓慢推近”、“低角度环绕”等专业术语，且在运镜时减少主体崩坏。

物理规律上，Agnes 以78.82的评测分数逼近Veo 3表现。刚体动力学合规，抛物线、流体（水烟火尘）的真实湍流、碰撞反馈、以及光影在全片中的光学一致性较前代模型都有提升。

人物一致性、动作一致性和情境一致性分数上，Agnes也都非常接近Veo 3。

除了榜单表现的5个纬度，这一代视频模型在画面与人物多样性、动漫与特效、多参考图生视频/生图方面也做了提升。

02图像模型Agnes-image-2.5-preview：进入综合生成能力评测前列

在Qwen Image Bench榜单上，Agnes-image-2.5-preview整体得分57.53，高于Seedream4.5和Seedream4.0。分数更高的，几乎都是出名的大厂顶尖型号，如GPT Image 2、Nano Banana 2.0、GPT Image 1.5、Nano Banana Pro、Qwen Image 2.0 Pro、Seedream 5.0等。

Qwen Image Bench的评测维度包括Quality、Aesthetics、Alignment、Real-world Fidelity 和 Creative Generation五个维度。相比只看“画面是否好看”，这类评测更关注模型是否能稳定完成真实创作任务。

Quality（图像基础质量）：关注图像的清晰度、自然度、材质纹理、物理逻辑等技术合格度。

Aesthetics（审美表现）：考察构图、色彩和谐、光影氛围、风格控制等视觉舒适度。

Alignment（提示词遵循）：评估是否准确按照提示词生成属性、数量、位置、关系等内容。

Real-world Fidelity（事实细节精准度）：关注对现实知识、文化、历史和社会规则的还原，避免刻板印象等。

Creative Generation（创意生成）：考察复杂设计、文字渲染、视觉叙事、想象力融合等专业创作能力。

5个核心纬度上，Agnes-image-2.5-preview在Quality 维度得分 54.90，Aesthetics得分59.05，Alignment得分58.40，Real-world Fidelity得分51.95，Creative Generation得分63.35，分数非常均衡。

从分项结果看，Agnes-image-2.5-preview 在Creative Generation上相对更突出。这意味着它不仅关注单张图像是否美观，也在复杂设计、视觉叙事、多元素组合和创作型任务，也就是在“专业创作能力”中有一定表现。

03 文本模型Agnes-2.1-preview：鲁棒性更强，多轮对话大进化

在Claw-eval 榜单中，Agnes 的全新文本模型Agnes-2.1-preview经过多轮评测获得61.6%的综合得分。

Agnes-2.1-preview 的变化主要体现在两个方面：一是单轮任务完成度更高，二是在多轮任务中的鲁棒性有所增强。这对于 Agent 类应用比较关键，因为真实任务往往不是一次问答结束，而是需要模型持续理解目标、调用工具、调整路径并完成最终交付。

Claw-eval多轮评测的具体数据如下（judge model为Gemini_3_flash_preview，Trials per task每任务尝试3次，Denominator tasks总任务38个）：

根据目前公布的信息，Agnes-video-2.5-preview与Agnes-image-2.5-preview预计将于下周正式上线，开发者届时即可通过官网 API 调用；文本模型Agnes-2.1-preview的发布时间预计也不会太远。

与此同时Agnes的实际使用规模也在持续刷新纪录。据Agnes AI官方最新公布的数据，截至目前，Agnes 全模态模型单周调用量达到4.66万亿（4.66T）Token，再创历史新高。其中，文本模型调用量达2.80T，多模态模型（图片、视频等）调用量达1.86T 。

这组数据意味着，Agnes已不仅仅是跑出不错的评测成绩，而是真正承载着海量真实用户和开发者的生产级调用。尤其是接近2T Token的多模态调用量，也说明图片、视频等生成能力正在进入越来越多真实创作、开发和商业场景，在保持低成本甚至免费的前提下，用户愿意持续、大规模地使用这些模型完成实际工作。

值得一提的是，Agnes即将发布的新一代文本、图片和视频模型，上线后仍将继续保持免费开放。对开发者和创作者而言，这意味着无需因为模型升级而增加使用门槛，可以第一时间体验最新能力，并继续放心"烧 Token"、构建自己的AI应用。

特别声明：以上内容仅代表作者本人的观点或立场，不代表Hehson财经头条的观点或立场。如因作品内容、版权或其他问题需要与Hehson财经头条联系的，请于上述内容发布后的30天内进行。

上一篇：全年派息增长22.2%！大型金融机构股东会上回应热点

下一篇：美军公布最新袭击画面

速递｜Agnes三大新模型发布前瞻，文本、图像、视频跑分公布

相关内容

热门资讯