摘 要:高质量数据集是指具备高价值、大规模、多样性特征,可直接或间接用于人工智能模型开发训练的数据集合。推进高质量数据集建设,既要立足当前,面向人工智能模型开发训练需求,综合并推定标准、立标杆、造场景、增投入等政策工具;也要着眼长远,发挥市场在数据要素资源配置中的决定性作用,以日臻完备的数据基础制度体系,持续激发数据要素价值释放。
关键词:高质量数据集 数据供给 数据要素 人工智能
【中图分类号】TP311 【文献标识码】A
习近平总书记指出“要构建以数据为关键要素的数字经济”[1],强调“做大做强数字经济,拓展经济发展新空间”[2]。“十五五”规划纲要提出“深化数据资源开发利用”,强调“加快建设人工智能语料库,面向能源、交通、制造、教育、健康、金融等领域建设高质量数据集”。[3]人工智能是新一轮科技革命和产业变革的重要驱动力量,将对全球经济社会发展和人类文明进步产生深远影响。数据之于人工智能的重要战略作用,已经在技术进步、企业崛起、产业变迁、新质生产力孕育壮大等多个实践维度充分展现。
高质量数据集,既是人工智能与实体经济融合的重要载体,又是人工智能大模型训练的关键要素资源,在夯实人工智能发展数据基础、推动“人工智能+”场景落地等方面的作用日益凸显。高质量数据集的关键在于高质量,可以从数据要素价值化维度和人工智能模型开发维度两个层面进行辨析,进而对高质量数据集建设的现状与面临的问题作出判断。我们既要立足当前,面向人工智能模型开发对高质量数据集供给的迫切需求,在标准、技术、人才等方面加大引导和支持力度;也要着眼长远,把握数据要素市场化客观规律,以高市场价值的数据资源供给为突破口,更大限度释放数据要素市场价值。
高质量数据集内涵与特征
伴随信息经济时代主流技术更迭演进,世界发展经历了信息技术、互联网、数字技术,再到当前人工智能技术驱动的数智技术。以数据为中心的人工智能(Data-centric AI)理念成为共识,数据成为推动人工智能发展的关键战略要素,高质量数据集则构成人工智能发展的基础支撑。产学研各界关于高质量数据集的研究,迅速扩展到数据标准化、评测体系、安全合规、可信流通、开放生态和资产化等多个层面[4][5]。有的研究从数据要素价值释放的角度,分析高质量数据集建设面临的深层次问题和挑战,认为高质量数据集的关键在于高市场价值的数据集合的持续供应,应着力解决数据产权、流通交易和收益分配、安全治理等制约数据要素市场化价值化的基础制度难题[6]。
基于文献解析和数据要素是新型生产要素的判断,可从广义、狭义两个维度分析高质量数据集的内涵和特征。从广义视角看,高质量数据必然具备较高市场价值,因此高质量数据集建设意味着产生更多具有市场价值的优质数据集合,通常表现为可实现价值化的数据产品和服务。据此,广义的高质量数据集可以理解为,具有比较清晰的数据持有权、使用权和经营权权属,能够高效规范地流通交易,拥有清晰无争议的收益分配方案,并恪守数据安全保护底线的各类数据集合。可见,广义层面的高质量数据集,更多是从数据要素视角进行界定和特征描述。
从狭义视角理解高质量数据集内涵,主要是面向人工智能模型开发训练的需求,即指经过采集、加工等数据处理,可直接用于人工智能模型开发训练,并能有效提升模型性能的数据集合[7]。这类数据主要服务于人工智能实际应用场景,由特征、标签、元数据和样本等要素构成。在此范畴下,高质量主要体现为大规模、多模态(多样性)、人工智能就绪、高价值应用、高知识密度、高技术含量等特征。其质量标准可以通过准确性、完整性、一致性、时效性、多样性、真实性、合规性等静态质量和动态指标进行量化衡量,更加强调数据集在模型训练和应用中的实际效果[8]。
综上,高质量数据集是指具备高价值、大规模、多样性特征,可直接或间接用于人工智能模型开发训练的数据集合。在数智化趋势下,高质量数据集对人工智能模型训练开发的作用愈发凸显。在其市场价值尚未充分激发的前提下,亟需从政策层面在标准、场景、技术、人才、资金方面予以引导和倾斜,以政策牵引推动高质量数据集建设,进而推动人工智能技术创新迭代,将海量沉睡数据资源转化为提升数智技术整体效能的竞争优势,释放数据要素价值。随着高质量数据集的市场价值进一步激活,越来越多经营主体将有意愿、有动力、有魄力,对数据集及数据产品服务开展规模化投资。届时,政策着力点将从事前引导、直接扶持等方面,转向搭建平台、培育生态、底线监管等方式,通过多措并举,更好发挥市场在数据要素资源配置中的基础性作用和决定性作用。
高质量数据集建设现状与挑战
一段时间以来,高质量数据集建设呈现快速发展、主体多样、场景牵引、模型企业先行、政策引导等特征,为人工智能模型训练开发提供有力支持,大大激发数据要素价值持续释放。同时要看到,高质量数据集建设仍面临堵点卡点,包括高质量源头数据获取难、数据合规和安全风险高、数据治理成本高、经营主体为数据“买单”持观望态度等。
相关数据显示,截至2025年,国家数据局联合26个部委遴选的72家链主单位,已经在科学、教育、具身智能等领域先行先试,部署140项高质量数据集建设任务,建成高质量数据集超10万个,规模超890PB(拍字节)[9],较2025年6月高质量数据集超过3.5万个、总体量超过400PB的规模[10],实现显著提升。从建设主体看,呈现央企和制造、医疗、能源、交通等行业龙头企业、人工智能数据服务企业、数据交易平台和数商、高校和科研机构、地方政府及数据集团等多方主体协同推进的格局。其中,人工智能龙头企业与地方政府等,在高质量数据集建设方面表现出投资规模大、更积极踊跃的趋势。从行业分布看,钢铁、汽车、工业制造、能源、医疗、文化、旅游、传媒、农业等传统产业,以及低空经济、智能驾驶、具身智能等新兴产业,高质量数据集建设的步伐显著快于其他行业。究其原因,主要在于这些行业普遍具有数据基础扎实、场景需求迫切、引领示范效应强、政策引导力强、未来发展高度依赖人工智能模型等特征。与此同时,考虑到高质量数据集在数智化趋势下的重要战略意义,加之其前期商业价值尚未充分显现、存在一定程度市场失灵的特征,政策工具牵引乃至政府部门直接投入的趋势也比较明显。
我国拥有海量数据资源与丰富应用场景,优势比较明显。过去几年,公共数据开放、政务信息共享取得长足进展,却也存在起步较晚、发展相对滞后的问题。与此同时,企业数据与个人数据在采存及开发利用环节,仍面临“不愿供、不想供、不能供”等痛点,导致高质量数据集建设所必需的优质源头数据获取难的问题,可能在较长时间内持续存在。此外,《中华人民共和国数据安全法》《中华人民共和国个人信息保护法》等法律法规已相继出台,国家数据局等部门也在积极诠释、宣贯有关数据持有权、使用权、经营权的数据产权结构性分置制度,但新兴领域制度从颁布出台到全面落实、深入人心,必然是一个长期且复杂的过程。当企业普遍担忧数据交易中的安全和法律风险时,为数据付费、主动投入高质量数据集建设的意愿便会受限。对部分人工智能企业的调研显示,用于人工智能模型训练开发的高质量数据集建设,存在投入资金门槛高、价值转化周期长等问题,这也是制约企业加大投入的卡点堵点。相关投入涉及数据采集软硬件、数据清洗和处理、数据标注、数据治理和质量管理、数据基础设施建设、数据合规和安全等多环节,成本支出较高。
稳步推进高质量数据集建设
习近平总书记指出“人工智能是引领这一轮科技革命和产业变革的战略性技术,具有溢出带动性很强的‘头雁’效应”[11],强调加快发展新一代人工智能是事关我国能否抓住新一轮科技革命和产业变革机遇的战略问题[12]。把握世界科技发展大势,我们需深刻认识高质量数据集建设对牢牢掌握人工智能发展和治理主动权的重大意义。坚持立足当前与着眼长远相结合、目标导向与问题导向相结合、市场主导与政府引导相结合的发展原则,确保从长远谋篇布局,分阶段分主次有序推进,充分调动社会各方资源共同参与高质量数据集建设,持续释放数据要素价值。
立足当前,需发挥政策撬动作用,面向人工智能模型开发训练需求,综合并推定标准、立标杆、造场景、增投入等政策工具。中短期阶段应突出高质量数据集的技术属性,聚焦人工智能模型开发训练对数据集在大规模、多模态、人工智能就绪、高价值应用、高技术含量等方面的要求,按照国家数据局等部门对于高质量数据集建设的系列工作部署,以落实“人工智能+”行动为牵引,遵循急用先行、分类推进、合理使用的工作原则,分类推动通识类、行业通用类、行业专用类高质量数据集供给体系建设,加快推动形成一批标志性成果,赋能行业高质量发展[13]。
其中,通识类高质量数据集是通用大模型能力提升的基础,需统筹政府部门、科研机构、开源社区及平台企业协同构建,着力提升自然语言处理、计算机视觉、语音识别等技术能力,快速形成有利于公共数据跨行业融合创新应用的示范场景。行业通识数据是行业大模型训练的基底,具有高度针对性和专业性,聚焦特定行业的特有知识、术语、场景和业务流程等信息,需以地方和行业优秀数据集案例为引领,加大先行先试的支持力度。行业专业数据是企业推动行业大模型应用、部署私域模型能力的底座,通常包含行业企业内部业务流程、用户行为、产品信息等关键信息,具有针对性和定制化等特征。可探索由政府、园区等面向企业尤其是中小微企业发放补贴券等模式,支持企业购买数据产品服务,参与重点领域行业数据集建设,分担企业成本,提高企业参与积极性。此外,深刻认识高质量数据集建设工作的系统性、复杂性和长期性,持之以恒加强高质量数据集系统构建能力,持续提升行业数据集管理能力、开发维护能力、质量控制能力。
着眼长远,还需发挥市场在数据要素资源配置中的决定性作用,以日臻完备的数据基础制度体系,持续激发数据要素价值释放。长期发展需回归高质量数据集的经济属性,强化高质量数据集的高市场价值特征,以释放数据要素价值为目标,发挥经营主体建设高质量数据集、促进数据要素价值化进程中的主观能动性和主导作用。
在“数据二十条”[14]搭建的数据基础制度“四梁八柱”基础上,持续推进数据持有权、使用权、经营权的数据产权结构性分置制度的宣贯落实,并在实践中持续完善,着力破解经营主体获取优质数据源的卡点堵点。多措并举支持数据采集加工服务、专业数据产品服务、数据流通及其他专业服务类数据企业做大做强。立足数据产业发展初期呈现的高成长性、高投入、高场景依赖、高政策牵引和数据要素密集、智力资源密集等“四高两密”特征,加大财税金融扶持力度,培育形成大中小微企业协同、国央企和民营企业互补、多类型数据流通交易服务机构并进的多层次经营主体发展生态,推动高质量数据集建设上下游产业链条做长、做特、做优、做强。健全数据要素价值实现机制,积极探索适配高质量数据集有效投资、支撑可持续发展的商业模式和运营模式。建立标准化的数据集产品与质量评估体系,完善价格发现机制并稳定市场预期,建立多样化、市场化的数据集定价机制,打消经营主体建设高质量数据集的“畏难情绪”,坚定不移增强企业“投资于数”动力和信心。
注释
[1][2][11]中共中央党史和文献研究院编:《习近平关于网络强国论述摘编》,北京:中央文献出版社,2021年,第134页、第132页、第119页。
[3]《中华人民共和国国民经济和社会发展第十五个五年规划纲要》,《人民日报》,2026年3月14日,第1版。
[4]樊威、燕江依、李荪等:《高质量数据集开源生态比较与我国发展建议》,《数字化转型》,2026年第3期,第15—26页。
[5]杨辉、杜潇霖、王锋等:《高质量数据集标准体系构造研究》,《质量与认证》,2025年第12期,第38—40页。
[6]程乐:《我国高质量场景数据集的供给现状与发展策略》,《人民论坛》,2025年第5期,第68—72页。
[7]《〈高质量数据集建设指引〉发布》,国家数据局网站,2025年8月30日。
[8]张晓林:《“人工智能+”背景下的高质量数据集建设:图书馆的机遇与挑战》,《中国图书馆学报》,2025年第6期,第4—17页。
[9]《我国建成高质量数据集超10万个,规模超890PB》,新华网,2025年12月30日。
[10]《我国算力总规模居全球第二》,新华网,2025年8月15日。
[12]《习近平在中共中央政治局第九次集体学习时强调 加强领导做好规划明确任务夯实基础 推动我国新一代人工智能健康发展》,《人民日报》,2018年11月1日,第1版。
[13]魏亮:《推动高质量数据集建设,加快实施“人工智能+”行动》,国家数据局网站,2025年3月4日。
[14]《中共中央 国务院关于构建数据基础制度更好发挥数据要素作用的意见》,中国政府网,2022年12月19日。
责编:刘 明/美编:石 玉