国内多数AI模型训练使用的中文数据占比已超60%_每日热闻
时间:2025-08-23 12:42:14来源:新华网


(资料图)

中文数据在国内AI大模型的训练性能提升方面发挥着重要作用。国家数据局近日发布的数据显示,目前国内多数AI模型训练使用的中文数据占比已经超过60%,有的模型达到80%。中文高质量数据的开发和供给能力持续增强,推动我国人工智能模型性能快速提升。

国家数据局局长刘烈宏表示,我国人工智能的快速发展,与我国高度重视数据工作是密不可分的。作为人工智能发展的核心要素之一,数据在推动“人工智能+”过程中发挥着关键作用,高质量数据集的建设至关重要。

“在人工智能时代,Token,也就是大家通常所说的词元,是处理文本的最小数据单元,如同互联网时代大家所说的‘流量’。”刘烈宏介绍,2024年初,我国日均Token的消耗量为1000亿,到今年6月底,日均Token消耗量已经突破30万亿,一年半时间增长了300多倍,反映了我国人工智能应用规模的快速增长。

据介绍,截至今年6月底,我国已经建设高质量数据集超过3.5万个,总体量超过了400PB(1PB可存储约5亿张2MB大小的高清照片),400PB的总量相当于中国国家图书馆数字资源总量的140倍左右。

人工智能模型的训练也推动了数据交易需求的攀升。截至今年6月底,各地高质量数据集累计交易额近40亿元,数据交易机构挂牌的高质量数据集总规模达到了246PB。

下一步,国家数据局将通过体系化布局持续推进高质量数据集建设,加快打造具身智能、低空经济、生物制造等重点领域数据高地,推动全社会强化数据要素价值认同,加快推进数据要素价值共创,培育“为优质数据买单”的市场共识。

标签:

最新
  • 国内多数AI模型训练使用的中文数据占比已超60%_每日热闻

    中文数据在国内AI大模型的训练性能提升方面发挥着重要作用。国家数

  • 焦点热议:世界化工看中国丨江苏大学校长邢卫红:化学工业亟需通过化工材料性能的突破性提升与智能赋能重塑产业生态

    在全球新一轮科技革命与产业变革浪潮影响下,化学工业作为关键枢纽

  • 今日快看!郎朗领衔登台中华世纪坛 演绎红色经典再现抗战精神

    中华世纪坛广场上,激昂的旋律与璀璨的灯光交相辉映,黄河之声·世

  • 英超足球俱乐部布伦特福德确认签约亨德森-每日讯息

    英超足球俱乐部布伦特福德15日宣布,他们已经和前利物浦队长乔丹·

  • 涉及儿童书包等 我国已发布210余项儿童相关领域国家标准

    据国家市场监管总局微信公众号消息,6月1日,市场监管总局(国家标准

  • 揭秘“看·见殷商”大展:亚丑钺同框 鸮尊长啥样?

    日前,一场别开生面的展览在北京大运河博物馆(首都博物馆东馆)揭开

  • 科技金融让“硬科技”更硬气

    在山东菏泽的生产基地内,合肥中科科乐新材料有限责任公司自主研发

  • 迟福林:以“投资于人”形成消费拉动经济增长新局面

    改革发展研究院院长、海南自由贸易港研究院院长迟福林14日在海口建

  • 股票中标后是自动扣款还是自行买入?中签了不想买怎么办?

    股票中标后是自动扣款还是自行买入?股票中签一般是系统自动扣除,不

  • “95后”女生杨铃翠:带山区阿姨闯荡“家政江湖”

    年纪轻轻、好手好脚的,做家政总还可以吧?95后女生杨铃翠笑着调侃

  • 手机等数码产品成为今年春节“新年货”

    据国家发展改革委消息,春节期间(2025年1月28日—2月4日),全国消费

  • 40.5万亿元 制造业加速提质增效

    工业和信息化部日前透露,2024年,我国规模以上工业增加值同比增长5

  • 银联国际化进程稳步推进 服务国家高水平对外开放

    回望2024年,随着免签等政策利好持续释放,出入境旅游市场呈现出平

  • “国潮汉风年 地道徐州味”2025徐州文旅新春消费季全面启动

    中新网徐州1月15日电 (唐娟 朱志庚)1月14日下午,江苏省徐州市文

  • 各地加大力度实施“两新”政策

    央视新闻客户端消息(新闻联播):各地加大力度推动新一轮消费品以旧

  • 祁阳:积极推进农机报废更新补贴政策

    这次收割机换新总共有7000多元补贴,划算多了。趁着冬闲时期,湖南

  • 旅游
    • 我国交通运输领域技术设备呈现更智能、更绿色、更安全新趋向

    • 辽宁省数据要素市场化配置改革交流大会沈阳举办_环球新消息

    • 宁夏跨省劳务协作,拓岗促就业

    • 广西打造消费品以旧换新消费盛“惠”