摘 要:当前我国工业领域数据资源得到有效挖掘,数据可信流通利用模式持续创新,行业高质量数据集建设起步,数据要素与实体经济融合的广度和深度不断拓展,为新型工业化筑牢数字底座。同时要看到,工业数据要素价值仍待进一步释放。对此,亟须坚持系统观念,从夯实数据治理、强化数据流通、深化人工智能创新、健全标准保障四个方面,促进工业数据资源开放共享与高效合规利用,系统性破解工业数据要素价值释放难题。
关键词:工业化 工业数据 制造业 数据市场
【中图分类号】F42 【文献标识码】A
工业数据要素是重塑制造业竞争格局的基础性、战略性资源,对推进新型工业化、培育新质生产力至关重要。“十五五”规划纲要提出:“激活数据要素潜能,加快数智技术创新”。[1]为激活数据要素潜能,促进生产方式深层次变革和生产力革命性跃迁,亟须进一步拓展工业数据要素价值化路径,为培育新质生产力、推动新型工业化赋能。
工业数据价值释放关系制造业数字化转型进程
工业数据是工业知识沉淀复用的载体,也是工业智能创新发展的源泉。作为工业数字化、网络化、智能化的重要引擎,工业数据价值释放直接关系到制造业数字化转型进程,是我国推进新一代智能制造发展、构建国际竞争新优势的关键抓手。
数据要素市场化配置的重要领域。工业数据凭借资源丰富、应用场景广泛、价值密度高等独特优势,成为激活数据要素潜能的重要领域。与消费数据不同,工业数据贯穿研发、生产、管理、服务等全价值链环节,其多源异构、实时性强、关联度高的特征,为数据确权、定价、交易等市场化机制探索提供了典型试验场。通过构建标准化、可互操作的工业数据资产目录与流通规则,可有效打通数据从资源到资产的转化路径,形成可复制、可推广的数据要素价值化模式,加快工业数据要素价值释放。
深化制造业数字化转型的重要支撑。工业数据贯穿产品全生命周期与产业链,企业能够实时感知生产状态、精准诊断异常工况、动态优化工艺参数,实现从经验驱动向数据驱动的决策转型,变革传统生产方式。 在此基础上,工业数据进一步打破企业边界与行业壁垒,推动设计、制造、供应、服务等环节的跨域融合,将传统的链式协同转变为并行、开放的生态化协作网络。通过数据贯通与共享实现生产要素的精准配置与动态优化,显著提升制造业对市场变化的响应速度和资源利用效率,加速产业组织形态从刚性链式向柔性生态跃升。
驱动工业人工智能创新发展的重要燃料。工业数据是驱动人工智能变革制造模式、组织方式和产业形态的重要力量,工业大模型作为工业人工智能的重要方向,其能力提升高度依赖数据的规模与质量。与通用领域不同,工业领域人工智能的突破高度依赖于融合行业机理与隐性知识的专业数据,通过构建包含工艺参数、故障特征等在内的高质量数据集,可提升大模型在复杂工业场景中的理解、推理与决策能力,推动工业生产向自主优化的智能化阶段演进。
我国工业数据要素市场建设的重要进展与成效
我国制造业门类齐全、场景丰富,伴随制造业数字化转型和数据要素市场建设深入推进,我国工业领域数据资源得到有效挖掘,数据可信流通利用模式持续创新,行业高质量数据集建设加速布局,数据要素与实体经济融合的广度和深度不断拓展,为新型工业化提供有力支撑,为数字中国建设注入强劲动能。
工业数据资源开放共享水平不断提升。我国作为世界第一制造大国,门类齐全的产业体系产生了巨大的工业数据资源,为制造业数字化转型发展奠定坚实基础。据最新测算,2025年我国工业数据资源总量预计将接近20ZB(泽字节),占全球工业数据总量的比重持续提升至20%以上,且保持着高速增长态势。[2]同时,伴随近些年制造业数字化转型深入推进,工业企业数据采集能力显著增强,数据采集范围从传统的生产制造环节向研发设计、经营管理、运维服务全链条延伸,新兴数据资源持续涌现,孵化出动态孪生数据、智能设备数据、智慧物流数据等一批增量性工业数据资源。据2024年全国数据资源调查,全国数据生产总量达41.06ZB(泽字节),同比增长25%,其中智能家居、智能网联汽车等智能设备数据增速位居前列,分别为51.43%、29.28%。根据预测,2025年全国数据生产总量有望突破50ZB(泽字节)。[3]
工业可信数据空间的创新试点工作有序推进。针对工业数据流通中存在的大小型制造企业间“不敢共享、不愿共享”的痛点,工业可信数据空间作为一种新型数据流通基础设施,通过构建安全可信、可控可追溯的数据流通利用环境,有效打消多方主体间的共享顾虑,破解数据共享流通中的信任与安全难题,促进私域工业数据的持续汇聚与高效利用。在可信数据空间中,数据资源不再局限于单个领域或企业,而是可以跨行业、跨区域甚至跨国流通和应用,充分发挥数据要素的放大、叠加、倍增作用,不断放大数据要素价值,实现生产力的几何式增长。[4]例如,北京新材道建设新材料行业可信数据空间,依托空间的可信技术能力和分布式数据管理模式,吸引50余家企业共享材料私域数据,成功汇聚形成102个材料高质量数据集,探索出一条工业数据流通新路径。
工业高质量数据集建设加快布局。龙头企业、行业部门等多主体加快布局高质量数据集建设,探索形成多样化路径。一方面,龙头企业加快数据治理工作,利用自身数据打造行业专用大模型,赋能企业重点业务。例如,南方电网积累达3.5TB基础语料和超过500万条微调数据,支撑建立自主可控电力大模型“大瓦特”。另一方面,行业管理部门面向战略领域推动数据共享流通,驱动高价值数据开放,驱动人工智能创新发展。例如,在苏州园区人工智能头部企业思必驰与苏州实验室、上海交大智能人机交互联合实验室的共同合作下,基于1亿条分子式、1000万篇论文、1000多篇材料化学文献等高质量数据进行训练,构建起材料化学大模型ChemDFM。
工业数据要素价值释放的现实挑战
尽管我国工业数据规模体量大、场景应用丰富,但工业数据治理门槛高、成本高,存在高价值样本稀缺、高质量场景较难落地等问题,一定程度上阻碍了工业数据要素价值的释放。
工业数据“长尾效应”导致数据资源规模不足,高价值稀缺“坏”样本数据难以汇聚。工业数据的天然特征导致高质量数据稀缺。一方面,当前工业领域人工智能训练数据存在显著的长尾分布特征,对模型训练有分析利用价值的数据往往需要包含异常情形下的“坏”样本,但通常正常工况数据占95%以上,这些有效“坏”样本不到总量的5%,汇聚整理难度极大。例如,C4、RefinedWeb等公开数据库经过严格过滤后,仅保留不到10%的关键内容,长尾语料被大量剔除,数据集建设的有效资源明显短缺。另一方面,私域数据是高质量数据集构建的主阵地,相比于公域数据能够直接获取,私域数据的流通共享更加复杂。尽管工业可信数据空间概念共识基本形成,但总体发展仍处于初级阶段,企业普遍面临“不敢共享”难题,制约了工业数据要素价值释放。
跨企业数据流通利用面临信任和安全难题,制约高价值工业人工智能应用场景的形成与落地。工业数据在企业、车间、设备等不同主体手中呈现高度碎片化特征,各方在数据合规、使用边界、收益划分等方面往往难以达成一致。一些工业人工智能模型难以推广到真实的工业场景中,多方主体需求差异性大、联合数据开发效率低,很难根据复杂应用场景定制化高质量数据集。据调查,72%的企业认为数据权属不清而拒绝数据共享,导致跨企业的工业数据流通利用难以顺利开展。[5]可信数据空间虽初步探索破解企业间数据流通信任问题,但大量高价值、高敏感数据,如合金配方、精密加工核心工艺参数等仍停留在集团层面,无法通过跨域融合产生倍增效应。
工业数据治理门槛高成本高,训练数据准备度普遍偏低。工业数据的治理与准备是一项高度专业化的系统工程。一方面,数据准备门槛高。目前绝大部分的工业数据都不是面向大模型训练准备的,需要基于工艺机理、故障因果关系等深厚的经验知识,才能形成相对完备有效的训练数据集,这对治理人员的专业性和全面性提出极高要求。另一方面,数据准备成本高。目前我国大多数工业企业缺乏专门的数据管理组织、顶层规划与制度流程,大量原始数据停留在“沉睡”状态,散落在各个业务系统、工作平台、网络节点。数据供给的质量和效率较难满足大模型训练的规模化需求。专业能力的缺失和投入的不足,导致工业大模型训练数据的“贫血”现象。
多措并举破解工业数据要素价值释放难题
为解决制约工业数据要素潜力释放的质量问题、规模问题及机制问题,亟须坚持系统观念,从夯实数据治理、强化数据流通、深化人工智能创新、健全标准保障四个方面,促进工业数据资源开放共享与高效合规利用,系统性破解工业数据价值释放难题。
深入推进制造企业数据治理,全面提升工业数据要素供给水平。支持制造企业建立健全覆盖数据全生命周期的治理体系,推动重点行业实施工业数据分类分级管理,鼓励行业龙头企业和中央企业率先开展数据治理体系建设,形成可复制、可推广的典型经验和共性治理工具,带动产业链上下游企业协同开展数据治理,全面提升工业数据要素供给水平。
大力推进工业可信数据空间建设,消除企业数据开放顾虑。加快企业、行业可信数据空间建设和试点示范,充分发挥工业可信数据空间促进数据开放共享的关键作用,以可信技术环境为保障消除企业数据开放顾虑,以商业价值实现为牵引促进制造企业供数用数,鼓励工业可信数据空间挖掘私域数据,构建行业高质量数据集,赋能工业通用大模型发展。
持续强化工业“数据+人工智能”场景牵引,培育垂直行业大模型。引导央国企开放制造场景,支持生物医药、新材料、新能源等行业构建高质量数据集,培育垂直行业大模型。鼓励数据技术企业、人工智能初创企业与传统制造企业深度合作,培育数据标注、数据分析、合规审计等专业服务机构,构建覆盖数据采集、治理、流通、应用全链条的产业生态。
加快构建工业数据标准体系,从根源上降低数据对接成本。依托国家标准化管理委员会、联盟协会等,加快推进工业数据标准体系建设,加快数据互联互通、工业数据共享规则、工业数据字典等关键领域国家标准研制,推进工业数据资源开放共享。组织开展标准宣贯,引导龙头企业统一数据集成与开放的标准接口,促进供应链上下游企业间数据互认,从根源上降低数据对接成本。
注释
[1]《中华人民共和国国民经济和社会发展第十五个五年规划纲要》,《人民日报》,2026年3月14日,第1版。
[2]《报告显示:2025年中国将拥有全球最大的数据圈》,中华人民共和国商务部网站,https://tradeinservices.mofcom.gov.cn/article/news/gnxw/201903/78867.html,2019年3月5日。据工信部及相关研究机构测算,2023年我国工业数据资源总量已突破10ZB(泽字节),随着工业互联网、智能制造的推进,预计到2025年将超过20ZB。粗略估计2024年工业数据资源为15ZB。
[3]《数据资源“大摸底”》,《人民日报海外版》,2025年5月28日, 第 11 版。
[4]庄子银:《构筑可信数据空间助力数字经济高质量发展》,《人民论坛》,2026年第1期,第 60-65页。
[5]邬贺铨:《开发数据要素 推进数实融合》,《人民邮电报》,2025年9月26日。
责编:李一丹/美编:石 玉