GLM-5真够顶:超24小时跑代码,700次工具调用、800次切上下文!
创始人
2026-02-14 16:32:45
0

  炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会!

(来源:量子位)

当看到GLM-5正式发布后的能力,才惊觉前几天神秘模型Pony Alpha的热度还是有点保守了。

因为这一次,GLM-5直接把开源AI也拽进了长任务时代

瞧,GLM-5直接身兼数职,自己连续跑代码超过24小时,700次工具调用、800次上下文切换之后……

它直接用JavaScript,从零手搓了一个Game Boy Advance(GBA)模拟器!

外观渲染画面是这样的:

屏幕里是这样的:

在没有渲染情况下的动态效果如下:

视频地址:https://mp.weixin.qq.com/s/Yg0bkhtsAeb7I5lzec_TCQ

要知道,这对于AI来说,是一个绝对无法取巧的工程任务。

因为GBA模拟器涉及到了500多条CPU指令集、内存分页机制、音频子系统和图形渲染时序等任务。

哪怕一条指令遵循出错,或者一次文件写入偏差,整个项目就会在几个小时后崩盘。

并且GLM-5面对的还是无并行、无任何参考代码、关闭网络搜索的那种。

即便如此,从视频给出的结果中我们也不难发现,GLM-5确实是发挥非常稳定:

这也难怪不少网友在看完之后直呼:

并且目前GLM-5的评测结果也已出炉,在权威榜单Artificial Analysis中,直接到了与Claude Opus 4.5比肩的水平。

在业内公认的主流基准测试中,GLM-5的编程能力也是实现了与Claude Opus 4.5对齐:

并且在衡量模型经营能力的Vending Bench 2中,GLM-5取得了开源第一的成绩:

但毕竟Claude Opus是闭源,护城河一下子被GLM-5这个开源模型给端掉,也是引得不少网友欢呼:

那么GLM-5这位开源界的第一位“全栈架构师”,还有什么样的实力?

接下来,一波深度实测开源版Opus级别的模型,走起~

我们的测试将在Claude Code中调用GLM-5 API的方式展开。

因此,我们第一个测试就是做最考验模型的逻辑闭环能力的游戏——要求GLM-5从零生成一个3D版大富翁

接下来,我们直接来看下效果:

视频地址:https://mp.weixin.qq.com/s/Yg0bkhtsAeb7I5lzec_TCQ

可以看到,面对如此复杂的需求,GLM-5稳稳地把所有功能都实现了出来。

若是Prompt更加精细,我们就可以得到一个OpenClaw对战的《龙虾版3D大富翁》

视频地址:https://mp.weixin.qq.com/s/Yg0bkhtsAeb7I5lzec_TCQ

而且已经有用户使用GLM-5做了个学术版“抖音”,并且提交上架苹果App Store!

视频地址:https://mp.weixin.qq.com/s/Yg0bkhtsAeb7I5lzec_TCQ

10余款APP都要上架了(showcase.z.ai):

实测继续。

这一次,我们要测试GLM-5对复杂物理规律描述的理解能力,请听Prompt:

视频地址:https://mp.weixin.qq.com/s/Yg0bkhtsAeb7I5lzec_TCQ

GLM-5依旧是精准地捕捉到了Prompt中的关键词,生成的HTML文件打开后,一个光影交错的十二面体悬浮在空中。

除此之外,包括像全栈类型任务,例如制作一个完整、有设计感的电商网站,GLM-5也是可以拿捏。

以及有人也用GLM-5手搓了个3D版可交互的《我的世界》!

GLM-5的出现,不论是从实测还是网友们的反响来看,都在标志一件事情:

开源大模型完成了一次从助手到独立工程师的质变。

以前,我们用AI是写一句Prompt,但需要不断地去做调试的工作;但现在,用GLM-5可以是给它一个目标,然后去喝咖啡,偶尔回来看看它有没有跑偏。

更宏观地来看,这对于SaaS行业来说,也可能是一场风暴。

毕竟就在前几天,随着Claude Opus等具备长任务能力的闭源模型展现威力,国外市场已经出现了恐慌。

例如当时金融数据服务商FactSet最惨盘中暴跌10%,S&P Global、穆迪、纳斯达克公司纷纷下跌,各大指数全线跳水。

Fortune和CNBC报道称,SaaS软件类股票遭到抛售,投资者担心,如果AI能现场手搓一个CRM系统,谁还去买年费软件。

虽然黄仁勋安抚说AI会增强现有工具,但GLM-5的实测表现告诉我们:重塑或许已经在发生。

更重要的是,之前这种能力是闭源巨头的特权。现在,GLM-5把这把钥匙交到了所有开发者手里。

或许这次开源模型24小时不间断自己跑代码只是一个起点,未来会更长、更快、更好、更强。

GLM其实从4.5版本开始就死磕AI编程这件事,现在这个国产AI的coding套餐在国内外也是相当火爆;这次智谱一上来就限售,外国网友们都是在“求”的状态。

以及,智谱公司的大楼,现在也是成了个打卡点

开头我们提到的GBA模拟器,由于GLM-5一直在跑,程序员小哥哥下班打车是这样的:Agent乘客。

GitHub:

https://github.com/zai-org/GLM-5

Hugging Face:

https://huggingface.co/zai-org/GLM-5

ModelScope:

https://modelscope.cn/models/ZhipuAI/GLM-5

GameBoy Advance体验:

https://e01.ai/gba

相关内容

文化也是生产力(第二季)|...
新春话文脉,聚力启新程,马跃书山高,共迎“十五五”!这里是《观点财...
2026-02-14 22:17:45
四川大学通报王竹卿事件调查...
2月14日,四川大学通报王竹卿事件调查结果:针对我校教师王竹卿相关...
2026-02-14 22:12:44
趁着千问免单,把春节档的好...
春节档的预售票房数字每天都在刷新纪录,而2026年,最让人意外的一...
2026-02-14 22:12:38
光威复材:投资者询问碳纤维...
投资者提问:碳纤维在新型航母的交付过程中具有重大意义,没有光威的碳...
2026-02-14 22:12:33
蛇年最后一个工作日,国内航...
2026年春节前的最后一个工作日,在“拼假模式”带动下,不少人选择...
2026-02-14 22:03:12
这里的“小”年味飘香全国大...
00:45新华社兰州2月14日电(记者姜伟超、王紫轩、刘克英)金黄...
2026-02-14 22:03:07
国务院安委办部署进一步加强...
转自:新华网新华社北京2月14日电(记者黄韬铭)记者14日从应急管...
2026-02-14 22:03:01
千万人次出行,成都机场过夜...
川观新闻记者 兰珍2月14日,春节长假即将到来,正是出行高峰,成都...
2026-02-14 22:02:57

热门资讯

文化也是生产力(第二季)| ... 新春话文脉,聚力启新程,马跃书山高,共迎“十五五”!这里是《观点财经》特别策划——文化繁荣 湾区共融...
四川大学通报王竹卿事件调查结果... 2月14日,四川大学通报王竹卿事件调查结果:针对我校教师王竹卿相关问题的反映,学校高度重视,组建工作...
趁着千问免单,把春节档的好电影... 春节档的预售票房数字每天都在刷新纪录,而2026年,最让人意外的一条购票路径,是从一句“千问帮我”开...
光威复材:投资者询问碳纤维在航... 投资者提问:碳纤维在新型航母的交付过程中具有重大意义,没有光威的碳纤维就没有新型航母和空天航母的发展...
蛇年最后一个工作日,国内航空出... 2026年春节前的最后一个工作日,在“拼假模式”带动下,不少人选择提前开启假期生活。同程旅行数据显示...
这里的“小”年味飘香全国大市场 00:45新华社兰州2月14日电(记者姜伟超、王紫轩、刘克英)金黄咸脆的胡麻卷,软糯香甜的八宝饭,鲜...
国务院安委办部署进一步加强安全... 转自:新华网新华社北京2月14日电(记者黄韬铭)记者14日从应急管理部获悉,国务院安委会办公室日前印...
千万人次出行,成都机场过夜能洗... 川观新闻记者 兰珍2月14日,春节长假即将到来,正是出行高峰,成都国际航空枢纽当天计划执行航班191...
10岁男童吃猪脚卡喉不治身亡,... 据大皖新闻,2月4日晚,成都市蒲江县鹤山镇10岁男童晓晨(化名)因吃猪脚导致喉咙被卡,虽被家人紧急送...