摘 要:作为模型能力构建与产业应用拓展的基础性投入,数据要素有效供给与高效配置已成为影响人工智能创新发展的关键变量。从数据要素赋能人工智能的内在逻辑来看,数据不仅贯穿模型训练到能力涌现的全链条,更通过跨领域汇聚与场景化配置持续拓展人工智能的应用边界。鉴于此,亟须构建面向人工智能就绪度和应用绩效的双维评价认证体系,推进标注体系的智能化与平台化建设,完善数据权益保障与流通基础设施建设,以真实业务需求驱动高质量数据集建设,切实提升数据要素赋能人工智能创新发展的系统性与可持续性。
关键词:数据要素 人工智能 人工智能创新发展 高质量数据集建设
【中图分类号】F49;TP18 【文献标识码】A
“十五五”规划纲要提出:“把握数字化、网络化、智能化发展大势,充分发挥我国数据资源丰富、产业体系完备、应用场景广阔优势,激活数据要素潜能,加快数智技术创新,深化拓展‘人工智能+’,赋能经济社会发展和治理能力提升,促进生产方式深层次变革和生产力革命性跃迁。”[1]在人工智能持续演进的过程中,数据作为新型生产要素的重要作用空前凸显,其不仅是人工智能模型训练和优化的基础投入,而且是决定模型性能上限、行业应用深度和技术迭代方向的关键要素。换言之,人工智能的创新发展越来越依赖于数据要素的有效供给和高效配置。
2023年12月,国家数据局等部门发布的《“数据要素×”三年行动计划(2024—2026年)》提出,“完善数据资源体系,在科研、文化、交通运输等领域,推动科研机构、龙头企业等开展行业共性数据资源库建设,打造高质量人工智能大模型训练数据集”,直接将数据集建设与人工智能发展需求相挂钩。2025年8月,《国务院关于深入实施“人工智能+”行动的意见》提出“加强数据供给创新”;国家数据局发布《高质量数据集建设指引》,阐明高质量数据集是人工智能发展的基础支撑,并进一步围绕高质量数据集的分类标准、建设流程和质量评估提供规范框架。近年来,在数据要素赋能人工智能创新发展方面,国家已形成多层次的政策部署。“数据赋能人工智能创新发展”,成为数据要素市场化配置改革“5+3+1”工作体系中的“1个重点”。
在政策与市场驱动下,高质量数据供给正在加快形成,但与大模型和行业模型快速扩张的需求相比,数据质量、专业性与场景适配性仍存在明显缺口。数据要素赋能人工智能需关注的重点、推进过程中所面临的挑战以及如何应对,是当下亟需回应的重要议题。
抓住重点
注重人工智能的能力构建。机器学习是人工智能的核心驱动力,其从海量数据当中提取有价值的信息,帮助人类作出预测、判断和生成所需的内容。[2]人工智能模型基于大规模数据集训练后,能够捕捉到越来越精细的统计规律与关联模式。从而,实现从浅层感知到深层认知的跃迁。当人工智能参数规模和训练数据达到特定阈值,其还会在未经专门训练的任务上“涌现”出超过预期的泛化能力,结合少量领域专用数据微调即可适配特定任务,降低垂直领域人工智能应用的开发门槛。可以看出,数据要素贯穿人工智能能力构建的全链条,是决定人工智能能力上限的关键变量。
拓展人工智能的应用场景和产业边界。不同行业、不同领域的数据虽具有差异化结构特征和语义内涵,然而,经汇聚、整合并被拥有泛化能力的人工智能利用,便可形成面向特定场景的垂直智能解决方案。例如,在农业领域,福建省龙岩市武平县厦中村依托“供销农场”模式,将智能虫情测报灯、物联网传感器、植保无人机等设备部署于田间,实现对土壤墒情、虫害态势的全天候数据采集与智能分析。人工智能技术与“供销农场”模式叠加后,病虫害防控从“见虫杀虫”转变为主动防控,每亩农田可节省人工成本450元,全程智能化运营后总成本预计再降600元。[3]每一种新的数据类型开放与流通,都意味着人工智能应用版图的一次扩展。
加强高质量数据集建设。在数据要素赋能人工智能创新发展方面,数据数量和数据质量都至关重要。噪声数据、偏差数据不仅无法提升人工智能模型性能,反而可能引入系统性偏见和错误。就此而言,高质量数据集建设至关重要。一方面,高质量数据集是构筑国家核心竞争力的关键要素和维护国家安全的重要屏障。掌握高质量、主权可控的优质数据资源,不仅关乎我国是否能在全球数字经济版图占据有利地位,而且将直接影响产业链、供应链的韧性与安全。尤其对于金融、能源、交通、国防等关键领域,高质量数据集的建设与治理更是保障经济社会稳定运行、提升国家治理体系和治理能力现代化的内在要求,是推进国家安全体系和能力现代化不可或缺的组成部分。另一方面,高质量数据集是驱动产业深度转型和催生重大科技突破的前提条件。从产业应用看,海量、优质、多样的数据集是人工智能性能跃升的基础。随着人工智能模型不断变“大”,数据供给不足已经成为亟待解决的问题,数据质量成为制约人工智能从“可用”向“好用”跨越、深度赋能实体经济的瓶颈。只有通过建设面向具体场景的高质量数据集,才能真正打通技术落地的“最后一公里”。从科技创新看,未来的科学发现愈发依赖数据驱动的研究范式,高质量、富含深刻领域知识的数据集,正是科学家探索、发现新规律所必需的“创新燃料”。
认清挑战
从国际比较视角看,数据要素赋能人工智能创新发展的战略共识已经形成。2025年,欧盟发布《人工智能大陆行动计划》,将“增加高质量数据获取渠道”作为五大战略行动之一;美国《人工智能行动计划》将“构建世界级科学数据集”作为加速人工智能创新的关键举措,并强调高质量数据已经成为国家战略资产。当前,尽管我国高质量数据集建设已经取得初步进展,但下一步推进仍面临一些可预见的现实挑战。
高质量数据供给规模仍然不足。我国数据资源总量大、增长快,但“数据多”并不等于“数据好”。一方面,支撑前沿科研与行业深度应用的中文高质量语料、专业知识数据和多模态场景数据不足。尤其是医疗、制造、法律、科学研究等专业领域,数据稀缺问题较为突出。另一方面,为行业广泛认可的标准体系尚不健全,导致不同主体、不同环节的数据难以互通互认,不能形成可复用、可验证、可迁移的高质量数据集。此外,现有数据质量评价仍较多停留在完整性、一致性等基础指标,对于知识密度、标注准确性、场景适配度和模型贡献度等关键维度的关注度不够,致使部分数据集存在“量大而不精”“可得而不好用”的问题。
数据加工技术成熟度有待提升。高质量数据集建设高度依赖的数据清洗、标注等工作,很大程度上依赖人工密集型作业方式,不仅成本高、周期长,而且在专业领域容易受到操作者能力差异的影响。对于医疗影像、工业质检、科学实验、少数民族语言等复杂场景而言,既懂业务又懂数据处理的人才储备更为有限,进一步抬高高质量数据集建设门槛。[4]与此同时,面向复杂任务的数据合成、数据蒸馏、质量校验与持续迭代等关键技术成熟度较低,难以稳定支撑高质量数据集的规模化供给。
数据流通与协同治理机制尚不健全。数据要素的价值实现依赖跨主体流通与场景化配置,然而实践中仍存在制度性障碍。原始数据资源到高质量数据集的转化路径不够清晰,部分建设工作存在碎片化和重复化问题。跨部门、跨地域、跨行业的协同治理机制尚不健全,难以形成稳定的资源汇聚与利益协调。即使在政府主导的公共数据授权运营场景下,运营主体确定、收益分配模式等方面规则的模糊也使实践效果受到影响。[5]除此之外,数据产权、责任认定和合规审查等制度安排亟需细化。高质量数据集往往涉及利益主体较多,权属分配、合规责任不明。出于合规风险、收益分配等方面的顾虑,容易出现“不愿共享、不敢共享”的现象。
精准施策
建立面向人工智能就绪度(AI-Ready)和应用绩效的高质量数据集评价认证体系。当前高质量数据集评价不能继续停留于完整性、一致性等通用指标,而应按照通识类、行业通识类和行业专识类数据集的差异,面向人工智能就绪度、应用绩效,构建“静态质量+动态效果”相结合的双维评价框架。[6]静态质量主要考察准确性、完整性、多样性、真实性、合规性、标签精度和元数据完备度;动态效果通过代表性模型和基准任务,检验数据集对模型性能、场景适配度和迁移效果的实际贡献。《高质量数据集建设指引》中,已经初步提出静态和动态质量结合的评估思路。下一阶段需要具体落实《高质量数据集建设指引》,聚焦数据集是否可复用、可验证、可迁移,加快推进验证试点工作开展。
坚持以真实业务场景牵引高质量数据集建设,形成“需求提出—数据治理—模型训练—应用反馈”的闭环。高质量数据集建设的关键,不在于单纯扩大数据规模,而在于从真实业务流程中提炼任务定义、标签体系和成效指标。只有让模型在真实场景中接受检验,才能反向暴露数据在覆盖度、标注精度和知识密度等方面的短板,进而引导数据集的持续迭代与改进。换言之,场景不仅是高质量数据集的消费端,更是评价数据质量标准和驱动数据集建设的需求锚点。2025年国家数据局发布104个高质量数据集典型案例,2026年又推动72家链主单位签署任务书,说明政策重心已经转向由行业链主和重点场景带动数据集建设。下一阶段,需要继续着眼工业、农业、医疗、金融等数据密集且有明确数据的重点行业,基于此开展试点示范工程。通过将该行业的高质量数据集建设成果与具体业务产品紧密结合,以点带面形成可复制、可推广的成功模式。
推进数据加工和标注体系的智能化、平台化建设,提升高质量数据集规模化供给能力。数据加工环节的重点,不宜再简单重复人工成本高、效率低等问题判断,而应转向具体的技术路线设计。发展多模态标注、标注审查、质量评估和基于思维链的专家标注等智能化工具,探索“大模型预标注—人工复核—抽样校验—持续回灌”的协同流程;围绕医疗、制造、自动驾驶、低空经济等重点行业,建设数据标注创新平台和公共服务平台,推动数据、模型、工具、场景一体化供给;依托数据标注基地和开源平台形成规模化生产能力。数据显示,2025年上半年,国家数据局指导建设的7个数据标注基地,已累计建设数据集524个,服务大模型163个,[7]表明数据集供给正在从分散生产走向基地化、平台化和产业化。对低资源行业与长尾场景而言,数据合成、数据增强和蒸馏技术可以作为补充手段,但仍需以真实场景数据为锚,并对合成数据实施必要的质量评估和边界控制。
完善数据权益保障与流通基础设施,构建安全可信的数据共享利用体系。当前流通机制建设的重点,已从泛泛而谈的“打破数据孤岛”,转向制度供给与技术设施的协同推进。围绕《加快公共数据资源开发利用的意见》,我国已形成公共数据资源开发利用“1+3”政策体系,在登记管理、授权运营和价格机制等方面实现从原则到细则的衔接;《关于促进企业数据资源开发利用的意见》提出推动数据持有权、使用权、经营权等分置运行,探索“授权使用、分享收益”模式。下一步,应加快将权利分置原则转化为可操作的实施规范,重点围绕多方贡献数据集的权属界定,建立标准化的确权登记与纠纷解决机制,并针对企业数据经加工、标注后形成的衍生数据集,明确增值收益的分配规则,增强有关主体参与数据流通活动的现实意愿。[8]技术设施层面,依托《可信数据空间发展行动计划(2024—2028年)》的系统布局,以及企业、行业、城市三类可信数据空间试点的实践基础,加快将可信管控、资源交互和跨空间身份互认等核心功能与人工智能数据需求对接,重点面向模型训练和行业应用场景,推动联邦学习、安全多方计算等隐私计算技术的嵌入式部署,形成数据在“可用不可见”条件下的规模化供给能力。例如,福州的公共数据分级开发与智慧水系联排联调平台,对城区1000余个库、湖、河、池、闸、站的调蓄效益提升30%以上,排水防涝应急处置效率提升50%。基于统一平台,通过分级开发、“一模型一评估、一场景一授权”和“可用不可见”等方式,实现数据安全调用和场景化利用,证明数据流通的关键不只是“放开”,而要通过制度、技术和管理的协同设计,实现供数方、用数方和运营方形成稳定预期。
为进一步确保我国高质量数据集建设的有效推进,还需同步构建完善的支撑体系。资源支持上,设立国家人工智能数据集专项建设基金。加大对于数据合成、隐私计算等关键共性技术的研发支持,建设国家级的数据技术“测试场”与中试基地,加速新兴技术的验证、转化与应用推广。能力建设上,高度重视跨学科人才的培养,尤其是注重吸纳各类应用场景方面的相关专家,为数据集价值评估和治理提供更为全面的视角。同时,积极推动国际交流,借鉴全球先进经验,参与国际数据治理规则制定。保障措施上,建立明确的目标分解与责任机制。做好统筹协调工作,避免出现重复建设与资源分散等问题;通过常态化的效果评估与机制优化,确保高质量数据集建设工作能够持续、稳定推进;加快数据权属、数据合规等制度建设,明确相关主体的权利与义务,保障数据能在稳定、可预期的框架之内得到稳定、高效的流通利用。
【本文系国家自然科学基金应急管理项目“全球数字和人工智能治理体系演变趋势及我国政策优化研究”(项目编号:72541027)阶段性成果;清华大学公共管理学院博士后吴宗泽,对本文亦有贡献】
注释
[1]《中华人民共和国国民经济和社会发展第十五个五年规划纲要》,《人民日报》,2026年3月14日,第1版。
[2]龚克:《人工智能,从深度学习到全面赋能》,《人民日报》,2025年2月26日,第16版。
[3]刘玉荣等:《从靠天吃饭到数据种田,院士专家“把脉”助力我市走出山区智慧农业新路径——跟着院士种好田》,《闽西日报》,2026年1月19日,第1版。
[4]程乐:《构建以数据流通为核心的工业互联网生态体系》,《人民论坛》,2024年第15期,第62-67页。
[5]张凌寒:《加快建设人工智能大模型中文训练数据语料库》,《学术前沿》,2024年第13期,第57-71页。
[6]林镇阳等:《数据要素市场中高质量数据集评价指标体系建设研究》,《信息资源管理学报》,2025年第15期,第52-66页。
[7]《7个数据标注基地建设数据集524个》,《人民日报》,2025年7月23日,第12版。
[8]夏义堃:《探索人工智能环境下的数据安全治理路径》,《国家治理》,2026年第4期,第21-28页。
责编:周小梨/美编:石 玉