2026年5月26日凌晨,全球权威三方编程榜单Code Arena公布了最新一期的排名结果。阿里最新旗舰大模型Qwen3.7-Max凭借1541分的成绩,超越GPT-5.5、Gemini-3.5-Flash、GLM-5.1以及Kimi-K2.6等国内外主流模型,在全部参评模型中紧随Claude系列之后,位列全球第二。
这一成绩刷新了国产大模型在该榜单中的最高排名纪录。更重要的是,Qwen3.7-Max成为目前榜单中唯一突破1540分大关的国产大模型,打破了此前由Claude-Opus-4.7与Claude-Opus-4.6长期主导的前四格局,标志着千问系列在代码理解与生成领域正式跻身全球编程模型第一梯队。
Code Arena的含金量不容小觑。它是当前全球人工智能领域最具公信力的编程大模型能力评估平台之一。与传统的代码基准测试只考查孤立代码片段生成或标准算法题不同,Code Arena的评测由一线开发者命题,要求模型从零开始构建功能完整、可交互运行的Web应用程序,所有产出经匿名处理后交由真实用户进行两两对比投票,最终生成综合排名。这种贴近工程实践的评测方式,全程脱离厂商干预,确保了排名结果的真实性与公信力。

35小时自主进化 智能体能力的极限验证
Code Arena榜单上的得分只是表象,藏在数字背后的技术突破才是真正值得探究的部分。Qwen3.7-Max在编程、智能体、长程任务等核心能力维度实现了系统性跃升,它不是一款“只在测试中表现优异”的模型。
一组数据可以说明问题的分量。在一次实战测试中,研究人员将Qwen3.7-Max部署在一个模型训练时从未接触过的全新硬件平台上,没有任何性能分析数据、硬件文档或示例内核可供参考。模型仅从一个包含任务描述和参考实现代码的空白工作空间出发,持续运行了35小时,完成了1158次工具调用,独立执行了432次内核评估,完全自主地走完了编写、编译、性能分析与迭代改进的全流程。最终,经Qwen3.7-Max优化后的推理内核,比官方参考实现取得了十倍加速。测试轨迹记录显示,模型在独立运行超过30小时后,仍然能够发现有效的优化点,甚至主动发起了一次关键的架构重设计。
这35小时的自主运行,展示了大模型长周期任务执行能力的上限。以往需要专业团队耗时一到两周的复杂项目,在Qwen3.7-Max驱动的智能体手中,数小时内就能完成端到端的交付闭环。多位开发者在社交媒体上分享测评结果时评价其“长程自主执行能力令人印象深刻”,认为它是“真正能把事情做完的智能体基座模型”。
有AI机构在相同提示词下同步横向比对了Qwen3.7-Max、Claude-4.7与GPT-5.5.发现千问3.7较上代的性能提升幅度最大、推理成本最低,在输出速度和生成质量两个维度上相较其他模型均有明显优势。多家评测平台的数据交叉印证了这一点:在SWE-Pro、SWE-Multilingual、SciCode等编程智能体测评中,Qwen3.7-Max均取得领先表现;在办公自动化基准测试SpreadSheetBench-v1上,模型也斩获了行业顶尖的87分。

面向智能体时代的全能基座
Qwen3.7-Max的核心定位十分清晰——全能智能体基座。这一定位决定了它的能力覆盖范围远超单纯的代码生成。从前端原型开发到复杂的多文件工程,从编程智能体到视觉智能体,Qwen3.7-Max实现了全方位的覆盖。
支撑这一能力边界的是一系列扎实的技术指标。模型支持高达100万tokens的超长上下文,能够容纳数百页的技术文档或数万行代码同时处理,为深度推理与复杂任务提供了充足的“工作记忆”空间。在高并发场景下,它能够承受每分钟3万个请求的吞吐压力,单分钟处理的token数量达到千万级别,企业级场景下的部署需求得到充分保障。
值得注意的是,Qwen3.7-Max展现出跨多种智能体框架的泛化能力。无论是在Claude Code框架下运行,还是在OpenClaw或Qwen Code框架下部署,模型都能稳定发挥,不受底层框架差异的干扰。这一特性意味着它有望成为各类智能体系统的可靠底座,为开发者提供统一的智能体能力接入方案。
从迭代节奏来看,千问旗舰模型在过去三个月内完成了从3.5到3.6再到3.7的连续三次重大版本升级,每一次迭代都在拉高国产大模型的性能天花板。Qwen3.7-Max已经通过网信办备案,获得了全球首张IQNet人工智能管理体系认证,在安全合规方面达到了企业级应用的标准。目前,该模型已通过阿里云百炼平台向开发者提供服务,并推出了推理后付费限时五折的政策,进一步降低了开发与运行成本。

全球格局下的中国力量
将视角拉远,Qwen3.7-Max在Code Arena取得的成绩,折射出的是一家中国AI企业正在改变全球大模型竞争格局的图景。在过去的几年里,编程大模型的头部榜单几乎被Claude和GPT等系列牢牢占据,国内模型大多处于追赶者的位置。而Qwen3.7-Max以1541分跃升至全球第二,第一次将国产模型稳稳地送入了编程能力的第一梯队。
这种势头的积累并非一日之功。在国际电信联盟(ITU)2030年AI愿景框架中,智能体的协同能力被视为下一代人工智能系统的核心支柱。Qwen3.7-Max通过MCP集成和多智能体协作,在实现工作流自动化的路线上迈出了实质性步伐。当全球日均Token消耗量在两年间增长近300倍,AI应用对模型能力的需求正在从“能理解”向“能执行、能协作”升级。Qwen3.7-Max正是沿着这一方向交出的一份答卷。
中国在AI编程领域的研发投入正在加速转化为全球竞争力。无论是Code Arena上的1541分,还是35小时自主优化中实现的十倍加速,都在向外界传递同一个信号:在人工智能这条赛道上,中国力量正在书写属于自己的篇章。
猜你喜欢
阿里Qwen3.7-Max编程力登顶国产第一 Qwen3.7-Max在Code Arena榜单得分1541
2026-06-10 14:26:46
2026-06-12 20:12:52
2026-06-12 17:39:11
2026-06-12 17:03:03
2026-06-12 15:00:40