速递|Agnes三大新模型发布前瞻,文本、图像、视频跑分公布
创始人
2026-06-27 13:26:44
0

来源:Z Potentials

AI 圈的牌桌上,没人能歇。

最近Agnes又推出了三个新的大模型评测结果曝光。从文本、图片到视频,Agnes 这一次全线更新。

废话不多说,我们直接看这次流出的核心信息

01 视频模型Agnes-video-2.5-preview重点提升运动、物理与镜头一致性

在VBench综合得分中,Agnes-video-2.5-preview获得59.94分。作为参照,Veo3在该榜单的综合得分为63.23。

在具体的5项细分维度中,Agnes-video-2.5-preview运镜一致性方面表现最突出,得分52.72,超过Veo 3。据悉,该模型在训时便着重强镜头语言的训练,新模型能精准解析“缓慢推近”、“低角度环绕”等专业术语,且在运镜时减少主体崩坏

物理规律上,Agnes 78.82的评测分数逼近Veo 3表现刚体动力学合规,抛物线、流体(水烟火尘)的真实湍流、碰撞反馈、以及光影在全片中的光学一致性较前代模型都有提升。

人物一致性、动作一致性和情境一致性分数上,Agnes也都非常接近Veo 3

除了榜单表现的5个纬度,这一代视频模型在画面与人物多样性动漫与特效多参考图生视频/生图方面也做了提升。

02图像模型Agnes-image-2.5-preview:进入综合生成能力评测前列

Qwen Image Bench榜单上,Agnes-image-2.5-preview整体得分57.53高于Seedream4.5Seedream4.0分数更高的几乎都是出名的厂顶尖型号GPT Image 2、Nano Banana 2.0、GPT Image 1.5、Nano Banana Pro、Qwen Image 2.0 Pro、Seedream 5.0等。

Qwen Image Bench的评测维度包括Quality、Aesthetics、Alignment、Real-world Fidelity 和 Creative Generation五个维度。相比只看“画面是否好看”,这类评测更关注模型是否能稳定完成真实创作任务。

Quality(图像基础质量)关注图像的清晰度、自然度、材质纹理、物理逻辑等技术合格度。

Aesthetics(审美表现)考察构图、色彩和谐、光影氛围、风格控制等视觉舒适度。

Alignment(提示词遵循)评估是否准确按照提示词生成属性、数量、位置、关系等内容。

Real-world Fidelity(事实细节精准度关注对现实知识、文化、历史和社会规则的还原,避免刻板印象等。

Creative Generation(创意生成)考察复杂设计、文字渲染、视觉叙事、想象力融合等专业创作能力。

5个核心纬度上Agnes-image-2.5-preview在Quality 维度得分 54.90Aesthetics得分59.05Alignment得分58.40Real-world Fidelity得分51.95Creative Generation得63.35,分数非常均衡

从分项结果看,Agnes-image-2.5-preview 在Creative Generation上相对更突出。这意味着它不仅关注单张图像是否美观,也在复杂设计、视觉叙事、多元素组合和创作型任务,也就是“专业创作能力”中有一定表现。

03 文本模型Agnes-2.1-preview鲁棒性更强,多轮对话大进化

Claw-eval 榜单中,Agnes 的全新文本模型Agnes-2.1-preview经过多轮评测获得61.6%的综合得分。

Agnes-2.1-preview 的变化主要体现在两个方面:一是单轮任务完成度更高,二是在多轮任务中的鲁棒性有所增强。这对于 Agent 类应用比较关键,因为真实任务往往不是一次问答结束,而是需要模型持续理解目标、调用工具、调整路径并完成最终交付。

Claw-eval轮评测的具体数据如下(judge model为Gemini_3_flash_preview,Trials per task每任务尝试3次,Denominator tasks总任务38个):

根据目前公布的信息,Agnes-video-2.5-previewAgnes-image-2.5-preview预计将于下周正式上线,开发者届时即可通过官网 API 调用;文本模型Agnes-2.1-preview的发布时间预计也不会太远。

与此同时Agnes的实际使用规模也在持续刷新纪录。据Agnes AI官方最新公布的数据,截至目前,Agnes 全模态模型单周调用量达到4.66万亿(4.66TToken,再创历史新高其中,文本模型调用量达2.80T,多模态模型(图片、视频等)调用量达1.86T 

这组数据意味着,Agnes已不仅仅是跑出不错的评测成绩,而是真正承载着海量真实用户和开发者的生产级调用。尤其是接近2T Token的多模态调用量,也说明图片、视频等生成能力正在进入越来越多真实创作、开发和商业场景,在保持低成本甚至免费的前提下,用户愿意持续、大规模地使用这些模型完成实际工作。

值得一提的是,Agnes即将发布的新一代文本、图片和视频模型,上线后仍将继续保持免费开放。对开发者和创作者而言,这意味着无需因为模型升级而增加使用门槛,可以第一时间体验最新能力,并继续放心"烧 Token"、构建自己的AI应用。

特别声明:以上内容仅代表作者本人的观点或立场,不代表Hehson财经头条的观点或立场。如因作品内容、版权或其他问题需要与Hehson财经头条联系的,请于上述内容发布后的30天内进行。

相关内容

“中国执行速度快到不可思议...
2026夏季达沃斯论坛期间,人工智能领域发展成为各方关注的重点话题...
2026-06-27 18:30:45
罗摩神庙捐款丑闻:特别调查...
印度北方邦阿约提亚罗摩神庙的捐赠管理体系被特别调查小组(SIT)查...
2026-06-27 18:29:21
最多3亿元!12天内2次回...
上证报中国证券网讯(记者 于祥明)影院“一哥”,12天2次公告回购...
2026-06-27 18:28:47
凯西·伍德押注10美元基因...
核心事件:基因组测序成本大幅下探推动生物医疗领域形成多组学-人工智...
2026-06-27 18:27:45
比利时与特罗萨尔 黄金一代...
本次内容核心为对比利时男足本届世界杯征程的观察分析:比利时处于世界...
2026-06-27 17:56:42
兴业银行:上调代理上海黄金...
每经AI快讯,6月27日,兴业银行发布公告,将在北京时间2026年...
2026-06-27 17:56:20
快观察 | 美伊再交火,英...
(来源:上观新闻)本周的国际局势,三个关键词:拉锯、洗牌、天灾。拉...
2026-06-27 17:55:39
内娱最会做生意的人?白敬亭...
(来源:蓝鲸新闻)蓝鲸新闻6月27日讯(记者 赵凯)近期,上海延庆...
2026-06-27 17:54:38
受AI担忧影响Figma市...
核心事件:Figma股价本轮抛售主要由市场恐慌情绪驱动,而非基本面...
2026-06-27 17:53:50

热门资讯

罗摩神庙捐款丑闻:特别调查组发... 印度北方邦阿约提亚罗摩神庙的捐赠管理体系被特别调查小组(SIT)查出存在严重疏漏,相关调查由北方邦首...
凯西·伍德押注10美元基因组 ... 核心事件:基因组测序成本大幅下探推动生物医疗领域形成多组学-人工智能飞轮,方舟投资基于该逻辑调整旗下...
比利时与特罗萨尔 黄金一代落幕... 本次内容核心为对比利时男足本届世界杯征程的观察分析:比利时处于世界杯G组小组赛末轮生死战阶段:前两轮...
兴业银行:上调代理上海黄金交易... 每经AI快讯,6月27日,兴业银行发布公告,将在北京时间2026年6月29日(周一)收盘清算时起,调...
快观察 | 美伊再交火,英国“... (来源:上观新闻)本周的国际局势,三个关键词:拉锯、洗牌、天灾。拉锯,指的是伊朗局势。在美伊、黎以两...
内娱最会做生意的人?白敬亭上海... (来源:蓝鲸新闻)蓝鲸新闻6月27日讯(记者 赵凯)近期,上海延庆坊沿街悄然竖起一圈巨大的围挡,来自...
受AI担忧影响Figma市值大... 核心事件:Figma股价本轮抛售主要由市场恐慌情绪驱动,而非基本面发生实质性恶化,市场当前将人工智能...
喀拉拉邦开奖结果公布 可查询K... 喀拉拉邦彩票局将于2026年6月27日公布《卡鲁尼亚KR-759》彩票开奖结果。头奖奖金:1000万...
从“打工仔”到“化工大王”,张... (来源:尺度商业)文 | 杨万里编辑 | 刘振涛AI浪潮席卷资本市场,AI产业链公司正成为资金追逐的...
山西沁源多任县委书记密集落马,... 据山西省纪委监委27日消息:山西省长治市委原常委、市政府原副市长王玉圣涉嫌严重违纪违法,目前正接受山...