人工智能语料库是大模型训练的基础性资源,其规模和质量对模型的性能起决定性作用,是提高模型准确性和泛化能力的核心驱动力。目前,国际主流大模型训练语料以英文为主,占比超过90%。近年来,国内10亿参数规模以上的大模型数量以及参研单位持续增加,人工智能中文语料库供给量难以满足快速增长的大模型训练需求,部分模型不得不使用外文语料进行训练。然而,外文语料通常以西方价值观为主导,可能包含种族歧视、文化和意识形态偏见等问题。因此,加快建设大规模、高质量人工智能中文语料库势在必行,这是推动我国人工智能领域健康发展、提升国际竞争力的重要支撑。
建设现状
人工智能中文语料库是以中文文本为对象,经系统收集、整理、标注后形成能够用于模型训练的结构化数据集合。它既包含新闻资讯、学术论文等正式文本,也涵盖社交媒体对话、网络评论等非正式语言素材,是帮助模型理解中文语义、语法规则、语义逻辑和句式结构的核心要素。近年来,我国积极推进人工智能中文语料库建设,并取得显著进展。
一是通用语料库和专业领域语料库规模持续扩大。2025年1月,在中央网信办指导下,集成27个数据集、总量达2.7TB的中文互联网语料资源平台正式发布,涵盖基础语料、专业语料和权威出版物样本。中译语通发布的西部AI语料库包含100多种语言,多语言多模态高质量数据达到PB级,内容覆盖农业、科技、金融、工业等领域。上海交通大学研究团队创建涵盖6种语言,包含255亿个token的医学语料库,以提高医疗诊断模型的准确性。
二是技术创新促进人工智能中文语料质量提升。智源研究院发布的中文互联网语料库CCI3.0,从语法、句法、教育程度等维度对原始数据进行分类和标记。DeepSeek-LLM(V1)通过数据去重、过滤和混洗构建了包含约2万亿token的中英双语预训练数据集,DeepSeek-V3通过提高数学和编程样本的比例进一步优化预训练语料库,构建包含14.8万亿token的多语言数据集。
三是人工智能中文语料生态建设持续完善。上海人工智能实验室牵头成立全国首个大模型语料数据联盟。深圳、上海数据交易所支持开设语料交易专区,促进人工智能语料共享和交易。上海启动开源创新生态建设和语料普惠计划,为中小企业提供低成本语料服务,促进跨领域合作与知识技术的共享。此外,《语料库建设导则》《具身智能语料库建设导则》等团体标准已正式实施。
三大难题
尽管国内诸多行业企业、研究机构均已开始布局人工智能中文语料库建设并发布高质量数据集,但相较于Common Crawl等国际领先水平的语料库,人工智能中文语料库在规模、质量和领域覆盖度上仍落后于英文语料库。
人工智能中文语料库收集获取难度高。一是中文语料历史积累薄弱。互联网早期以英文为主导,中文互联网起步较晚,百科知识、专业语料、学术资源等优质中文内容沉淀不足。二是中文语料的数字化程度偏低。中文使用人群庞大,文化典籍丰富,但系统性、机器可读的高质量数字化建设难度高,许多中文语料资源仍以纸质或非结构化形式存在,无法直接用于人工智能模型训练。国家图书馆3700万册藏书中完成深度数字化处理并发布在中华古籍资源库中的古籍数字资源仅有13.9万部。三是中文语料分布分散。中文互联网内容分散于不同社交媒体、新闻网站和论坛平台,高质量中文语料则往往集中在政府机构、学术团体、出版社和头部企业手中,出于版权保护、隐私安全等因素考虑,这些中文语料往往被封闭管理,形成数据壁垒和数据孤岛。
人工智能中文语料库建设规范性不足。一是中文语料来源广泛。网络文本中充斥着大量非正式、低质量甚至错误的内容,导致训练数据的真实性、准确性和逻辑性难以保障。二是缺乏统一的标注标准和清洗规范。不同机构在构建语料库时采用的分词方式、句法结构、语义标注体系各不相同,导致不同语料库之间存在结构差异,难以兼容互通。三是专业领域语料稀缺且标注成本高昂。法律、医学、科技等领域通常依赖人工标注且对标注者专业性要求高。语料标注也易受标注者主观判断影响,而不同标注者的判断标准差异可能影响数据标注的一致性和准确性。此外,随着生成式人工智能广泛应用,其生成内容反向污染训练语料库的现象日益凸显,“幻觉”信息也将进一步降低语料的可信度。
人工智能中文语料库建设机制尚不完善。一是缺乏统一的语料共享与协同机制。语料通常被企业视为核心数据资产和竞争壁垒。由于缺少合理的利益分配机制和版权归属界定,企业出于担心数据外流可能削弱自身竞争优势的考量,共享意愿不足。二是政策引导和法律法规尚不健全。语料涉及版权归属、用户隐私等问题,尽管国家已出台数据安全法、个人信息保护法等相关法规,但在语料方面的具体实施细则仍不明确,法律边界尚不清晰,导致企业在获取和使用语料时存在顾虑。三是尚未形成成熟的语料交易与授权模式。缺乏以市场为导向的语料流通机制和公共服务平台,难以发挥语料资源价值,进一步降低了企业积极性。
破解路径
面对困局,必须打通中文语料“收集——处理——共享”的全链条堵点。
收集层面。在国家层面统筹协调,牵头设立国家级语料库联盟,联合国家图书馆、档案馆、科研机构、重点高校、核心出版社等单位,系统性推进中华典籍、学术文献、政府公开信息、专利数据等重要资源的权威数字化与结构化处理。基于统一的数据标准和规范体系,实现语料的分级分类管理,构建覆盖广泛、结构清晰、质量上乘的国家基础语料资源池,为人工智能发展提供坚实支撑。
处理层面。加大对中文自然语言处理工具的研发投入。研发更精准的中文分词算法,提高分词准确率,利用深度学习技术实现自动去噪去重和标准化处理,降低人工成本。建议由行业协会牵头,联合各方专家制定涵盖语料收集、清洗、标注、存储等环节的统一标准,确保不同来源的语料在处理后具备结构一致性。建立数据质量评估体系,定期对入库语料进行质量检测和修改校验。
共享层面。制定明确的公共数据开放目录与实施细则,加快推动高质量公共数据的开放共享,在保障国家安全和个人隐私的前提下,优先释放科研论文、统计报告、政策法规、历史文化资源等非敏感内容。鼓励科研机构、高校、企业在合规前提下,开放共享高质量中文预训练语料、微调数据集或基准测试集。探索建立安全可控的跨境数据流动“白名单”,充分利用“一带一路”等平台,推动多语言语料资源的流通合作,提升中文在全球数字空间的话语权。
(作者单位:中国电子信息产业发展研究院)
