当前位置:首页 > 新闻 > 正文

百度发布新一代基础大模型文心大模型5.1 文心5.1位列LMArena搜索榜国内第一

发布时间:2026-05-09 15:04:07    作者:xjh    来源:    浏览量:38   

 大模型赛道的竞争从未像今天这样白热化。5月9日,百度正式推出新一代基础大模型——文心大模型5.1.同时掷出两张王牌:一张来自技术效率,一张来自竞技排名。

 在技术效率这张牌上,文心5.1采用自主研发的“多维弹性预训练”技术,将预训练成本压缩至业界同规模模型的约6%,实现了几乎不可能的参数效率与训练成本跨越式优化。试想一下,用别人不到十分之一的资源去追赶甚至超越——这种效率的飞跃,放在两年前的大模型圈几乎难以想象。

 而在竞技排名这张牌上,国际权威大模型竞技场LMArena的最新数据给出了更直观的印证:文心5.1以1223分登顶搜索榜国内第一、全球第四,成为榜单中唯一上榜的国产大模型。LMArena的评分机制有一个鲜明的特点——它基于全球真实用户体验数据进行模型盲测对比,Elo评分由用户的投票直接决定,并没有官方评审团的滤镜介入。换句话说,每一个分数背后都是真实的用户体验。

百度发布新一代基础大模型文心大模型5.1 文心5.1位列LMArena搜索榜国内第一

 6%预训练成本背后的压缩奇迹

 想象一个场景:训练一个大型语言模型,通常需要动辄数百万美元的算力投入,而文心5.1只用不到这个数字的零头就完成了同样规模的工作。这不是运气,而是一场技术路线的根本性调整。

 一切源于文心5.0提出的“多维弹性预训练”技术。这套技术实现了一个此前业界很少敢想的想法——一次训练,就能生成多种规模的模型,而不需要为每一个规格浪费巨量算力从头开始预训练。打个比方,传统的训练模式像是在多个完全不同的工地上分别挖地基,而文心的做法是一次浇筑完成,从中切割出大小各异的“模块”。

 具体来说,研发团队构建了一个动态采样子模型矩阵,在训练过程中沿着三个维度做弹性压缩。其一,弹性深度——随机跳过部分Transformer层,让不同深度的子模型共享权重;其二,弹性宽度——动态调控MoE层中实际参与计算的“专家”数量,迫使剩余专家承担更多样化任务;其三,弹性稀疏度——用可变的路由机制灵活调整激活的专家数量,在推理成本与性能之间寻找动态平衡。

 正是这套听起来复杂的底层机制,支撑起文心5.1的一系列“压缩”数据:总参数量压缩至文心5.0的三分之一左右,激活参数量压缩至约二分之一,而预训练成本仅约为业界同规模模型的6%。在成本之外,推理成本也得到显著削减,但模型在同规模中仍保持了领先性能。

百度发布新一代基础大模型文心大模型5.1 文心5.1位列LMArena搜索榜国内第一

 竞技领跑与能力的多维落地

 LMArena榜单并非一日之功。早在4月30日,文心5.1的预览版就以1476分拿下了LMArena文本榜的国内第一,超越了包括GPT-5.5和DeepSeek-V4-Pro在内的多款主流模型,成为前十五名中唯一入围的国产模型。在文本榜上证明自己之后,文心5.1又迅速在搜索榜上拿出了1223分的成绩——国内第一、全球第四,进一步拓宽了自己的领先维度。

 如果说排名的存在感来自于数字,那能力的说服力则来自一个个具体的评测项目。在τ³-bench和SpreadsheetBench-Verified这些复杂的智能体评估任务中,文心5.1的Agent能力系统性地超越了DeepSeek-V4-Pro,已经接近国际领先闭源模型的水准。在世界知识与创意写作维度,文心5.1凭借GPQA、MMLU-Pro等评测中的出色表现,其创意写作能力已与Gemini 3.1 Pro相当。而在挑战性极高的数学竞赛基准AIME26上,文心5.1取得了99.6分的成绩,仅位居Gemini 3.1 Pro之后。

 把智能体评估、推理能力、知识理解这几个维度放在一起看,情况就很清晰了:文心5.1不只是一个“写得好”的模型,还是一个“更懂你、能推理、会检索”的全能型选手。

百度发布新一代基础大模型文心大模型5.1 文心5.1位列LMArena搜索榜国内第一

 开放应用与未来展望

 发布当天,文心5.1已经在百度千帆模型广场和文心一言官网同步上线,企业用户和开发者均可直接上手体验。在千帆平台,开发者只需修改model_name为ernie-5.1即可轻松调用API服务。模型的适用场景非常广泛——多源信息的快速检索、整合与高质量生成,使它在内容创作、智能助手、企业知识管理以及智能体应用等复杂业务中都能找到落脚点。

 与此同时,文心5.1正在加速向更多应用场景渗透。今天起,它将在超过十个创意生产智能体平台陆续亮相,包括ISEKAI ZERO、Mulan AI、谛听幻流和Storymaster等各具特色的AI创作平台,创作者和用户都可以率先试用。从文本生成到角色扮演、从短剧创作到创意画布,这些平台覆盖的创作形态几乎囊括了当下AI赋能创意生产的主要路径。

  一个值得注意的趋势正在浮现:大模型之间的竞争焦点,正从单纯的“谁更聪明”转向“谁更经济、更通用”。文心5.1试图在成本、能力和覆盖面三条战线上同时给出答案。而这一问答案的深度与广度,在接下来的百度AI开发者大会上或许能看得更清楚——5月13日至14日,为期两天的Create 2026百度AI开发者大会将在北京国家会议中心二期举行,届时围绕文心大模型的技术新突破与产业落地实践将进一步揭开面纱。


推荐阅读
不妥协的百年,不设限的未来:STI集团收购Genesis Source,高端定制的资本守护近日,根据全球最大的企业新闻稿发布机构美通社(PR Newswire)长篇跟踪报道,以及全球访问量最大的财经...

2026-06-16 19:50:06

2026年世界杯激战正酣,绿茵场上的每一次冲刺、变向、射门,不仅牵动着亿万球迷的心,更在全社会掀起了一股前所未有的运动热潮。然而,随着运动参与度的持续升温,一个更深层的健康命题浮出水面:如何让身体在享...

2026-06-16 19:12:26

近日,2026年重庆市适老化家居购新补贴政策全面落地,面向家用呼吸机、制氧机等适老健康设备推出惠民举措。小马呼吸(重庆)健康管理有限公司凭借扎实的行业积淀与完善的服务能力,旗下重医一院店连续第三年入选...

2026-06-16 19:49:42

(2026年6月16日,中国上海)德国马牌正式推出全新CrossContact A/T²越野全地形轮胎。作为一款越野全地形轮胎产品,德国马牌CrossContact A/T² 搭载TRACTIONPL...

2026-06-16 18:33:06

从“国货”到“国器”:40℃高温下,一台空调的“国器”考验——从雪龙号15000小时零故障,看美的空调的国家级可靠性引言:过去很多年,中国空调行业一直在争“高端”。但雪龙号上的一万五千小时,让整个行业...

2026-06-16 17:09:20