来源:Z Potentials
AI 圈的牌桌上,没人能歇。
最近,Agnes又推出了三个新的大模型,评测结果也曝光。从文本、图片到视频,Agnes 这一次全线更新。
废话不多说,我们直接看这次流出的核心信息。
01 视频模型Agnes-video-2.5-preview:重点提升运动、物理与镜头一致性
在VBench综合得分中,Agnes-video-2.5-preview获得59.94分。作为参照,Veo3在该榜单的综合得分为63.23。
在具体的5项细分维度中,Agnes-video-2.5-preview在运镜一致性方面表现最突出,得分52.72,超过Veo 3。据悉,该模型在训练时便着重强化了镜头语言的训练,新模型能精准解析“缓慢推近”、“低角度环绕”等专业术语,且在运镜时减少主体崩坏。
物理规律上,Agnes 以78.82的评测分数逼近Veo 3表现。刚体动力学合规,抛物线、流体(水烟火尘)的真实湍流、碰撞反馈、以及光影在全片中的光学一致性较前代模型都有提升。
人物一致性、动作一致性和情境一致性分数上,Agnes也都非常接近Veo 3。
除了榜单表现的5个纬度,这一代视频模型在画面与人物多样性、动漫与特效、多参考图生视频/生图方面也做了提升。
02图像模型Agnes-image-2.5-preview:进入综合生成能力评测前列
在Qwen Image Bench榜单上,Agnes-image-2.5-preview整体得分57.53,高于Seedream4.5和Seedream4.0。分数更高的,几乎都是出名的大厂顶尖型号,如GPT Image 2、Nano Banana 2.0、GPT Image 1.5、Nano Banana Pro、Qwen Image 2.0 Pro、Seedream 5.0等。
Qwen Image Bench的评测维度包括Quality、Aesthetics、Alignment、Real-world Fidelity 和 Creative Generation五个维度。相比只看“画面是否好看”,这类评测更关注模型是否能稳定完成真实创作任务。
Quality(图像基础质量):关注图像的清晰度、自然度、材质纹理、物理逻辑等技术合格度。
Aesthetics(审美表现):考察构图、色彩和谐、光影氛围、风格控制等视觉舒适度。
Alignment(提示词遵循):评估是否准确按照提示词生成属性、数量、位置、关系等内容。
Real-world Fidelity(事实细节精准度):关注对现实知识、文化、历史和社会规则的还原,避免刻板印象等。
Creative Generation(创意生成):考察复杂设计、文字渲染、视觉叙事、想象力融合等专业创作能力。
5个核心纬度上,Agnes-image-2.5-preview在Quality 维度得分 54.90,Aesthetics得分59.05,Alignment得分58.40,Real-world Fidelity得分51.95,Creative Generation得分63.35,分数非常均衡。
从分项结果看,Agnes-image-2.5-preview 在Creative Generation上相对更突出。这意味着它不仅关注单张图像是否美观,也在复杂设计、视觉叙事、多元素组合和创作型任务,也就是在“专业创作能力”中有一定表现。
03 文本模型Agnes-2.1-preview:鲁棒性更强,多轮对话大进化
在Claw-eval 榜单中,Agnes 的全新文本模型Agnes-2.1-preview经过多轮评测获得61.6%的综合得分。
Agnes-2.1-preview 的变化主要体现在两个方面:一是单轮任务完成度更高,二是在多轮任务中的鲁棒性有所增强。这对于 Agent 类应用比较关键,因为真实任务往往不是一次问答结束,而是需要模型持续理解目标、调用工具、调整路径并完成最终交付。
Claw-eval多轮评测的具体数据如下(judge model为Gemini_3_flash_preview,Trials per task每任务尝试3次,Denominator tasks总任务38个):
根据目前公布的信息,Agnes-video-2.5-preview与Agnes-image-2.5-preview预计将于下周正式上线,开发者届时即可通过官网 API 调用;文本模型Agnes-2.1-preview的发布时间预计也不会太远。
与此同时Agnes的实际使用规模也在持续刷新纪录。据Agnes AI官方最新公布的数据,截至目前,Agnes 全模态模型单周调用量达到4.66万亿(4.66T)Token,再创历史新高。其中,文本模型调用量达2.80T,多模态模型(图片、视频等)调用量达1.86T 。
这组数据意味着,Agnes已不仅仅是跑出不错的评测成绩,而是真正承载着海量真实用户和开发者的生产级调用。尤其是接近2T Token的多模态调用量,也说明图片、视频等生成能力正在进入越来越多真实创作、开发和商业场景,在保持低成本甚至免费的前提下,用户愿意持续、大规模地使用这些模型完成实际工作。
值得一提的是,Agnes即将发布的新一代文本、图片和视频模型,上线后仍将继续保持免费开放。对开发者和创作者而言,这意味着无需因为模型升级而增加使用门槛,可以第一时间体验最新能力,并继续放心"烧 Token"、构建自己的AI应用。
特别声明:以上内容仅代表作者本人的观点或立场,不代表Hehson财经头条的观点或立场。如因作品内容、版权或其他问题需要与Hehson财经头条联系的,请于上述内容发布后的30天内进行。
上一篇:全年派息增长22.2%!大型金融机构股东会上回应热点
下一篇:美军公布最新袭击画面