深圳用昇腾910C集群完成1.6万亿参数大模型训练
创始人
2026-06-05 21:46:16
0

近日,深圳河套学院Al训练平台项目团队,联合哈尔滨工业大学(深圳)、深圳市大数据研究院、华为有关团队,协同深智城AI算力平台,面向国产算力大模型训练开展联合攻关。依托昇腾910C国产AI算力集群,完成1.6万亿参数大模型DeepSeek-V4-Pro全参数后训练。

此次实践为全球第三方机构在国产算力平台上完成该级别模型训练的相关探索,积累了重要经验,也印证了国产AI芯片可支撑世界级超大参数模型训练工作。

优化建模SFT数据飞轮流程

万亿参数大模型是人工智能领域的主流前沿模型,在逻辑推理、数理计算、代码编写、长文本理解等方面表现突出。这类模型的全参数训练,对硬件算力、集群稳定性、算法适配优化均有严苛要求。

长期以来,全球范围内万亿级大模型训练多采用海外高端算力产品,国内国产算力此前主要用于模型推理、小幅微调,难以完成全参数深度训练,这也是行业发展中普遍面临的技术难题。

万亿级参数的AI大模型训练难在哪?

如果把训练一个万亿级参数的AI大模型比作解一道超级复杂的数学题,那么每一张计算卡就像一名解题员。他们不仅要分工明确、日夜不停地连轴转,还不能有人偷懒、不能有人出错,更不能有人掉队。

这次训练的DeepSeek-V4-Pro采用的是混合专家模型(MoE)架构,可以把它想象成一个庞大的“专家团”:平时回答问题只激活少数几位专家,看似高效,但后训练时,“专家们”之间的沟通量却是普通模型的几十倍。再加上动态切换的注意力机制,这对芯片算力的调度和显存资源的管理提出了极其苛刻的要求。

简单来说,以前的国产算力更多是让大模型“能用”(即推理部署),就像给模型修了一条单行道,输入一个问题,输出一个答案。而这次的“全参数后训练”,则是要让模型学会自我反思和调整,相当于在单行道的基础上,又增加了复杂的立交桥和多条反馈回路,计算量和通信量瞬间翻了好几倍。

三大硬核突破让国产算力“跑得稳”

面对如此极限的挑战,科研团队在国产AI算力集群上实现了三大硬核突破:

一是“显存拼图”。万亿级大模型不可能只塞进一张卡,团队设计了精密的分布式承载方案,把庞大的模型参数像拼图一样,精确地分配到千卡集群的每一张卡上,算力调度明明白白。

二是“负载均衡”。为了避免MoE模型中有的“专家”忙得够呛、有的却在“闲逛”,团队专门优化了调度策略,保证了每位“专家”分工合理,跨卡通信不再“堵车”。

三是“有人‘守夜’”。全参数后训练最怕跑着跑着系统突然崩溃。本次训练团队搭建了完整的监控体系,全部实现可视可控,确保了长达1500多步的训练过程中,没有出现一次中断或报错。

项目团队开展技术复盘与学生实战培养

本次探索是国产算力适配超大参数大模型过程中的一次重要进展,有助于提升国内AI产业链自主化水平,降低行业应用成本,为人工智能技术落地应用提供更多支撑。目前,项目已实现模型算力利用率(MFU)超过30%,关键训练算子效率提升14%,各项指标均达到工业级运行标准。

从技术应用角度来看,调用已有模型开展业务推理,与从零完成模型全参数训练分属不同技术环节,二者在技术难度、硬件要求上存在明显区别。本次试验结果表明,国产AI算力已可承担顶级大模型训练任务,相关技术路径具备可行性。

相关内容

年内最大支付罚单来了!
据央视财经,6月4日,中国人民银行广东省分行公布的行政处罚决定信息...
2026-06-05 22:46:11
特朗普政府拆分“两房”计划...
  作者:萨曼莎·德洛娅位于华盛顿的联邦国民抵押贷款协会(简称房利...
2026-06-05 22:44:05
深夜,全线大跌!美联储,突...
美股AI交易热潮骤然降温。今晚,美股开盘后,芯片、光通信板块遭遇猛...
2026-06-05 22:43:25
现货黄金跌破4400美元关...
5日,现货黄金盘中跳水,盘中跌破4400美元/盎司,跌超1.6%。...
2026-06-05 22:00:48
从垃圾债到杠杆贷款,Ter...
智通财经注意到,数据中心运营商Terawulf(WULF.US)刚...
2026-06-05 21:59:18
降息梦碎?非农超预期重创金...
(来源:财闻) 机构分析师Anstey评...
2026-06-05 21:58:02
美方释放会晤信号但仍设“动...
当地时间4日,美国和伊朗密集释放博弈信号:美国总统特朗普4日表示,...
2026-06-05 21:56:56
高位科技股放量下跌,下周怎...
  炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力...
2026-06-05 21:54:33
火焰烹煮咖啡香 保山“咖叔...
家住云南省保山市潞江坝的李金合,在怒江之上双虹桥边摆摊经营路边咖啡...
2026-06-05 21:52:19

热门资讯

年内最大支付罚单来了! 据央视财经,6月4日,中国人民银行广东省分行公布的行政处罚决定信息公示表显示,易票联支付有限公司因违...
特朗普政府拆分“两房”计划面临...   作者:萨曼莎·德洛娅位于华盛顿的联邦国民抵押贷款协会(简称房利美)总部  美国总统唐纳德·特朗普...
深夜,全线大跌!美联储,突传加... 美股AI交易热潮骤然降温。今晚,美股开盘后,芯片、光通信板块遭遇猛烈抛售,费城半导体指数大跌超6%,...
现货黄金跌破4400美元关口 5日,现货黄金盘中跳水,盘中跌破4400美元/盎司,跌超1.6%。来源:中新经纬
从垃圾债到杠杆贷款,Teraw... 智通财经注意到,数据中心运营商Terawulf(WULF.US)刚刚完成一笔标志性的高收益债券发行,...
降息梦碎?非农超预期重创金银,... (来源:财闻) 机构分析师Anstey评美国非农,这无疑将彻底推翻美联储未...
美方释放会晤信号但仍设“动武红... 当地时间4日,美国和伊朗密集释放博弈信号:美国总统特朗普4日表示,不排除同伊朗最高领袖会晤;重申绝不...
高位科技股放量下跌,下周怎么走...   炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会!   来源:国际金融报...
火焰烹煮咖啡香 保山“咖叔”成... 家住云南省保山市潞江坝的李金合,在怒江之上双虹桥边摆摊经营路边咖啡十余年。2025年凭借自创喷枪火烧...
又是不超3%!伯特利二股东奇瑞...   每经记者|蔡鼎 每经编辑|廖丹   伯特利(SH603596,股价30.82元,市值...