当前位置:首页 > 新闻 > 正文

中国日均词元调用量突破140万亿 全国已建成高质量数据集超10万个

发布时间:2026-03-24 15:27:59    作者:xjh    来源:   

 2026年3月,中国日均词元调用量突破140万亿大关,相比2024年初的1000亿增长了1000多倍,相比2025年底的100万亿,仅三个月时间又增长了40%多。这一数字的飙升,标志着中国人工智能产业进入了快速发展的新阶段。词元作为大模型处理信息的基本单元,具备智能时代可计量、可定价和可交易的特性,正成为连接技术与商业应用的关键桥梁。

 在消费端,词元调用量的激增已转化为实实在在的商业价值。某头部AI企业近期创下20天收入超越2025年全年总收入的业绩纪录,这背后正是以Token计费为基础的新型商业逻辑在加速演进。当用户通过AI助手获取信息、生成内容时,每一次调用都对应着一个词元的消耗,而这些消耗最终转化为企业收入。从"能对话"到"能决策执行",人工智能应用场景的不断深化,使得词元从技术参数演变为产业价值的计量单位。

中国日均词元调用量突破140万亿 全国已建成高质量数据集超10万个

 在消费级应用中,词元调用量的增长也带动了AI应用的普及。去年春节,一款开源AI模型通过社交媒体迅速走红,成为用户热议的"明星产品";今年春节,另一款AI应用凭借独特的功能在全球范围内掀起热潮;近期,一款名为"养龙虾"的AI应用也吸引了大量用户,这些现象都反映了AI技术从实验室走向大众生活的趋势。

 数据要素的价值释放

 随着词元调用量的激增,高质量数据集的建设也迎来了快速发展期。截至2025年底,全国已建成的高质量数据集超过10万个,总体量超过890PB,相当于中国国家图书馆数字资源总量的310倍左右。这一规模的快速积累,为人工智能模型的训练和应用提供了坚实的数据基础。

 高质量数据集的建设已形成"通识-行业通识-行业专识"的三级体系。通识数据集如维基百科、Common Crawl网页语料库等,为AI提供了基础语言能力;行业通识数据集如医疗领域的PubMed文献库、金融领域的SEC filings数据集等,支撑了行业大模型的开发;行业专识数据集如通信行业的高质量数据集、电力行业的无人机巡检图像数据集等,则成为垂直领域模型的核心壁垒。

中国日均词元调用量突破140万亿 全国已建成高质量数据集超10万个

 在实际应用中,数据集的价值已得到充分验证。某医疗AI企业通过使用高质量的医学文献数据集,显著提升了其诊断辅助系统的准确率;某金融风控企业利用高质量的行业数据集,成功将风险识别准确率提高了15%。这些案例表明,高质量数据集已从理论概念转化为实际生产力,正推动着人工智能从"可用"向"好用"的转变。

 数据生态的良性循环

 词元调用量与高质量数据集的同步增长,揭示了"数据供给—价值释放"的良性循环正在形成。当AI应用需求激增时,企业会加速建设高质量数据集;高质量数据集的完善又进一步提升AI应用的性能,吸引更多用户使用,形成正向反馈。

 在这一循环中,数据要素的市场化配置改革发挥了关键作用。数据交易机构挂牌的高质量数据集数量已达到3364个,累计交易额近40亿元,规模达246PB。数据交易的活跃不仅促进了数据资源的优化配置,也为数据提供方创造了新的收入来源。某地方数据交易所数据显示,2025年高质量数据集交易量同比增长35%,交易价格平均上涨20%。

中国日均词元调用量突破140万亿 全国已建成高质量数据集超10万个

 数据标准化工作也为这一良性循环提供了保障。2025年4月,全国数据标准化技术委员会发布了《高质量数据集建设指南(征求意见稿)》等技术文件,为数据集的建设、评估和交易提供了规范。这些标准的实施,使得数据集的质量更加可控,交易更加透明,促进了数据要素市场的健康发展。

 未来发展的新图景

 随着人工智能应用场景的不断深化,高质量数据集的需求将持续增长。2025年数据显示,国内多数模型训练使用中文数据占比已达到60%~80%,这表明中文高质量数据集的建设已取得显著成效。但同时,针对特定行业和场景的高质量数据集仍有较大缺口。

 在工业制造领域,某大型制造企业通过建设高质量的生产数据集,成功将生产线的故障预测准确率从70%提升至95%,年节约维护成本超过3000万元。在农业领域,基于高质量农田数据集的AI应用,帮助农民实现了精准施肥,作物产量平均提高12%。这些应用案例展示了高质量数据集在推动产业升级中的巨大潜力。

中国日均词元调用量突破140万亿 全国已建成高质量数据集超10万个

 随着"十五五"规划的推进,高质量数据集建设将更加注重质量和应用实效。国家将推动建立分级分类的标准体系,针对不同行业、不同场景制定专门的数据集评估标准;同时,通过"平台+数据集+模型"的一体化服务设施,降低数据集应用门槛,推动数据集市场化流通和规模化应用。

 在数据要素与人工智能深度融合的背景下,高质量数据集已成为人工智能产业发展的关键支撑。从词元调用量的激增到高质量数据集的快速积累,中国正逐步构建起一个数据驱动、价值释放的产业新生态。这一生态的形成,不仅将推动中国人工智能产业的高质量发展,也将为全球人工智能产业贡献中国智慧和中国方案。

 当每一笔词元调用都成为价值的体现,当每一份高质量数据集都成为创新的燃料,中国人工智能产业的未来已清晰可见。在这个数据驱动的智能时代,高质量数据集的建设不仅是技术问题,更是产业竞争力的核心所在,它将引领中国人工智能产业迈向更广阔的发展空间。

猜你喜欢

中国日均词元调用量突破140万亿 全国已建成高质量数据集超10万个

阿里巴巴达摩院发布玄铁C950 RISC-V CPU玄铁C950处于什么梯队

美国团队研发“MultiQ-IT”质谱仪原型 新型MultiQ-IT质谱仪同时分析十亿个分子

推荐阅读
在北京朝阳路甘露园,有这样一位资深教练——邵磊。他深耕京城乒坛十余载,凭借扎实的职业履历、科学系统的教学体系与丰硕的育人成果,成为众多乒乓球爱好者与青少年学员的专业引路人,更被业内誉为“横板魔术师”“...

2026-04-17 17:54:07

  扶手不晃、车板不变形,重货搬运的安全感从何而来?  推一辆装满货物的手推车,对很多仓储和物流从业者而言是每天都在重复的动作。但鲜少有人去追问:这种"日常"背后,藏着多少被忽视的...

2026-04-17 17:48:06

2026年4月10日,福智霖马来西亚(FOZL Malaysia)团队代表出席于柔佛州新山市苏丹后阿米娜医院,举办的作业治疗科开放日活动,并参与由复健医学科与作业治疗科联合患者共同举办的“...

2026-04-17 17:27:06

在当今竞争激烈的商业环境中,人力资源管理正面临着前所未有的挑战:用工成本持续攀升、劳动法规日益严格、人才招聘愈发困难……企业如何在控制成本的同时,确保合规运营并保持组织的灵活性?安服人力资源公司(以下...

2026-04-17 17:24:08

廿六载采风铸魂,千万里逐光而行—世纪大采风26周年回望   时光不语,落笔有声;步履不停,逐光而行。2026年,新时代的春风拂遍神州,世纪大采风活动也迎来了第26个春秋。从2000...

2026-04-17 16:25:50