本报讯 1月26日,阿里巴巴旗下通义实验室正式推出最新旗舰推理大模型Qwen3-Max-Thinking。据悉,Qwen3-Max-Thinking引入两项核心创新,并在19项权威基准测试中实现领先性能,与GPT-5.2-Thinking、Claude Opus 4.5及Gemini 3Pro等国际顶尖模型处于同一梯队。
一是“自适应工具调用”能力,模型可在对话中自主选择并调用其内置的搜索、记忆和代码解释器功能,无需用户手动干预,有效缓解幻觉、提供实时信息访问并支持更个性化的回复,同时支持用户执行代码片段并应用计算推理解决复杂问题。
二是“测试时扩展”(Test-Time Scaling)技术,通过多轮迭代式自我反思与经验提取,从过往推理轮次中提炼关键洞见,使模型避免重复推导已知结论,转而聚焦于未解决的不确定性。相比直接引用原始推理轨迹,该机制实现了更高的上下文利用效率,在相同上下文窗口内能更充分地融合历史信息。在几乎不增加计算开销的前提下,显著提升推理精度,在GPQA、Live-CodeBench等多个关键基准上超越Gemini 3 Pro。
目前,Qwen3-Max-Thinking已上线Qwen Chat平台,服务用户直接交互,模型API同步开放。 (潇栋)