每日推荐
首页 > 学术前沿 > 正文

人工智能发展数据瓶颈与突破路径

【摘要】在深入实施“人工智能+”行动背景下,数据对于人工智能发展的战略价值日益凸显,成为驱动智能实现的关键要素。自机器智能概念提出以来,其实现方式与数据驱动、模型驱动和经验驱动三种范式紧密相关。这三种范式之间存在着辩证关系:数据与模型可以形成相互转换、彼此赋能的协同机制;数据驱动与经验驱动则构成一种互补关系。当前,人工智能发展的数据瓶颈主要体现在:数据的尺度法则失效,高质量私域数据供给困难、具身智能发展存在数据困境。突破人工智能发展的数据瓶颈,应聚焦以下方面综合施策:发展多样化数据获取策略、关注非直接的数据获取渠道、从追求规模向追求质量转变、加大模型训练力度缓解数据稀缺、探究人类泛化迁移机制缓解数据稀缺、发展自进化的人工智能、大力发展大模型的数据科学。

【关键词】人工智能 数据 数据科学 具身智能 尺度法则

【中图分类号】TP18/F49 【文献标识码】A

【DOI】10.16619/j.cnki.rmltxsqy.2026.11.011

肖仰华,复旦大学计算与智能创新学院教授、博士生导师,上海市青浦复旦未来技术研究院副院长,上海市数据科学重点实验室主任。研究方向为大数据管理与挖掘、图数据库、知识图谱,主要著作有《图对称性理论及其在数据管理中的应用》、《知识图谱:概念与技术》(合著)、《人工智能大模型发展的新形势及其省思》(论文)等。

引言

2026年《政府工作报告》提出,打造智能经济新形态。深化拓展“人工智能+”,促进新一代智能终端和智能体加快推广,推动重点行业领域人工智能商业化规模化应用,培育智能原生新业态新模式。[1]为进一步推动人工智能与经济社会各行业各领域广泛深度融合指明方向。人工智能已然成为推动社会变革、促进行业高质量发展的重要引擎。从历史演进规律看,每一次划时代的生产力飞跃,均由关键生产要素的革新所驱动,农业文明土地与劳力是核心要素,工业文明依靠资本与技术,而正在蓬勃兴起的数字文明,其核心驱动力正转向数据。[2]数据的战略价值日益凸显,其角色从单纯的信息记录载体逐渐演变为重要生产要素,成为发展先进人工智能的关键。

人工智能是人类智能向机器的延续,人类文明在漫长演进中积淀形成海量数据,数据进而为机器智能的诞生和成长提供支撑,这一过程类似于人类代际之间通过文字、书籍等媒介实现文明的延续与发展。数据对于人工智能发展的重要性常被类比为原料之于制造业——缺乏高质量的数据原料,人工智能的发展便失去了根基。当下,人工智能正在向媲美人类身心能力的方向迈进。以深度求索(DeepSeek)公司推出的开源大模型为代表的生成式大模型,本质上以让机器具备人类大脑的认知能力为目标,意在使机器学会像人类一样思考。具身智能机器人旨在让机器习得人类身体所具备的感知和行动能力。这两条技术路线是机器智能通往通用人工智能发展过程中必须经历的关键智能形态。

人工智能发展形态演变过程中,数据引发的挑战主要体现在:其一,数据的尺度法则(Scaling Law,通过扩大数据规模就能提升模型性能)存在失效倾向,数据投入效益出现递减趋势。其二,面向大模型的数据工程主要依赖经验驱动,缺乏科学化的理论体系支撑。大模型数据工程实践过程中的数据质控、数据配比、数据合成等具体问题日益凸显,并缺乏有效的理论指导。其三,大模型等人工智能技术渗透至个人用户以及千行百业过程中,涌现出各类数据问题。例如,如何推动行业数据转化为高质量训练语料?何种数据应内化至基础模型中?如何构造行业语料与指令的洞察与刻画体系?为了回应这些问题,本文首先澄清人工智能发展中的数据相关概念,特别是数据与模型、数据与经验之间的联系与区别,继而剖析我国当前人工智能发展面临的数据瓶颈,并提出相应应对举措,以期为突破人工智能发展的数据瓶颈,深化拓展“人工智能+”行动提供理论支撑与实践借鉴。

数据驱动人工智能发展的作用机制

图灵曾以“模仿游戏”来定义机器智能:如果一台机器在对话中无法被准确地与人类区分开来,便可认为它能够“思考”或具有“智能”。而人类智能则是一种在多样环境中,为达成目标而进行有效适应与问题求解的综合心智能力,体现为学习、推理、抽象、计划和从经验中进行知识泛化的能力。无论行为主体是机器还是人类,无论其智能表现为何种具体能力,从数据角度而言都可以视作建模与加工过程。比如,我们对现实世界物理规律的认知,本质上是在心智世界中构建模型的过程,而这亦可视为一种数据建模。进一步而言,人类心智所具备的各种能力,可归因于对数据的加工处理。以逻辑推理为例,其本质便是依据逻辑规则进行的符号运算过程。因此,数据可被认为是驱动智能发展演进的关键要素。

自从机器智能概念被提出以来,人们提出了机器智能的多种实现方式,主要可归纳为三大流派:符号主义(智能体现为符号操作能力)、连接主义(智能体现为从数据中学习模型的能力)以及行为主义(智能体现为身体与环境的交互能力)。数据本质上是对现实世界的符号记录,根据这一定义,符号主义可被视作天然的数据驱动路线。连接主义侧重从数据学习模型,数据是源头,模型是结果,其与数据驱动和模型驱动两种范式均有关联。行为主义侧重智能体通过身体与现实世界交互,获取经验并形成智能,与当下热议的经验驱动范式有着紧密关联。下文将从数据驱动、模型驱动、经验驱动三种范式差异的角度,对数据驱动的人工智能发展机制进行系统阐述。

数据驱动与模型驱动。数据与模型的差异,多是在数据驱动与模型驱动两种人工智能发展范式的差异语境下进行讨论的。当前,人工智能的发展正经历从以模型为中心的发展模式向以数据为中心的阶段过渡。模型的本质是数学映射函数,接受输入数据,产生相应的输出结果。以模型为中心的人工智能发展路径,强调模型的建模、优化与训练,使用不同数据训练的相同模型,可以产生完全不同的效果。如果我们将模型比作天资相近的小学生,那么数据相当于不同的教材与课程体系。即便起点相同,在经过不同教育体系的训练后,其能力和认知水平可能截然不同。

小模型时代的数据驱动范式侧重于通过主动学习、样本加权、领域适配等策略提升模型泛化性,或对样本进行精心挑选或者权重设置,或对样本标签进行清洗、去噪,或进行高质量样本构造与增强。在当下大模型时代,数据驱动范式内涵愈加丰富,涉及完整的数据培育过程,涵盖大模型从预训练、持续训练、指令微调、后训练以及推理应用的全生命周期。仅预训练阶段就涉及语料汇聚、收集、清洗、治理,预训练阶段需经历数据配比、筛选与优化等众多繁杂的数据处理流程,数据工程成为大模型工程落地的关键。以模型为中心的人工智能范式,在小模型时代往往通过损失函数设计、正则优化、归纳偏置等手段提升模型的表达能力,引导模型的学习方向。进入大模型时代,其重心则更多体现为对学习机制与过程的设计与优化,包括学习范式选择、学习任务设计、深度神经网络架构选择等。

业界已形成基本共识:模型决定人工智能下限,而数据决定人工智能上限。比如,当各方均使用Transformer模型架构时[3],在同等数据条件下,模型性能差异往往是微小的,即使对模型本身进行改进与创新,提升也仅在几个百分点以内。然而,在数据方面的改进往往能带来立竿见影的提升效果,在相同的资源投入下,数据方面的投入效果往往优于模型。从投入成本来看,数据已经成为大模型或者其他人工智能系统研发的主要成本之一,甚至成为占比最高的投入项。从人员投入来看,数据工程师是人工智能研发团队的主要成员。从企业竞争力来看,数据是人工智能企业竞争力的关键因素。模型往往是开源的,而数据不仅很少开源,还经常成为人工智能企业间诉讼纠纷的重要原因。因此,无论是大规模语言模型,还是具身智能模型,数据都是决定其成本与性能的关键因素之一。

数据与模型并非对立,二者可以形成相互转换、彼此赋能的协同机制。数据或模型方面的缺陷一定程度上可以通过优化对方加以缓解、弥补。数据方面的短板,一定程度上可以通过模型的建模优化、参数优化、训练策略改进等来补足。质言之,数据对模型的影响体现在参数层面。如果说数据是外因,那么参数就是内因。例如,人类从外界接收的信息构成其喜怒哀乐的外因,但这些外在信息之所以能引发种种情绪,归根结底在于其对大脑神经元产生了直接的刺激与影响。数据不足的问题还可以通过先验知识植入来缓解,也就是当数据匮乏时,可以通过既有知识来弥补数据的缺陷,知识本身就是数据的结晶。比如,数据所蕴含的规律、模式、函数关系,通常可以沉淀转化为世界知识、行业知识、学科知识等。这些知识多表达为符号形态,如数学公式。但需要注意的是,知识注入通常只作为缓解数据不足的兜底手段,扎实构建高质量数据集,仍是构建有效人工智能模型的根本手段。

虽然数据操控与参数优化之间存在一定的等价性,但在实际应用过程中,由于具有可控性、可解释性、透明性等特性,数据操控往往成为工程实践的首选。比如,某个大模型在法律领域的表现不尽如人意,最为直接的优化手段是追加法律相关的训练数据,这可能带来立竿见影的提升效果,且整个过程透明、可控、可理解。相较于参数的编辑优化,大规模深度神经网络与人类大脑认知机制相似,本质上是一种分布式参数化模型。比如,人类对“祖母”这一概念的认知并非集中在大脑的某几个神经元,而是分布在大脑神经网络的不同区域,其共同完成对这一概念的记忆与理解。由此可见,无论人类还是机器大脑,都不存在某个特定的“祖母”神经元。分布式参数组织使得参数编辑较为困难,无法准确把握编辑某个神经元会带来怎样的全局影响。事实上,局部编辑往往会产生“涟漪效应”,其潜在影响可能极为广泛,以至于难以度量与控制。

数据驱动与经验驱动。当我们讨论发展人工智能所需的数据时,难以回避数据与经验之间的关系问题。以图灵奖得主萨顿为代表的学者,提出经验驱动的人工智能发展范式。[4]在强化学习语境里,经验是智能体与环境实时交互中产生的动作序列轨迹(状态—动作—回报—后继状态),体现智能体对环境的响应策略,环境则从根本上塑造智能体复杂行为能力。萨顿强调“从经验中学习”的价值,主张模型需通过连续在线交互来形成经验、校验知识,而非单纯依赖人类提供的大型离线数据集。而当前的大(语言)模型仍主要遵循数据驱动范式,主要依靠数据通过学习,以人工灌输领域知识为主的训练方式,使其缺乏与世界的互动,从而限制智能的形成与延展。

事实上,数据驱动与经验驱动构成互补关系。首先,经验驱动中的环境、反馈以及动作序列本质上也体现为一种数据,但经验驱动强调在在线持续交互中形成并更新策略,而数据驱动更多依靠离线经验数据。数据驱动范式的关键是数据建模,从这一角度来看,经验驱动有着同样的诉求,而从传统视角理解,人们往往把数据驱动等同于人类容易理解的、通过语言符号表达的数据,而经验多难以使用语言进行精准表达。比如,人类端茶喝水这一动作,对个体而言极为简单,但是要用自然语言清晰、完整地表述全过程则相对困难。

人类身心智能的很多方面难以通过文本精确表达,因此萨顿等强调经验驱动范式对人工智能发展具有重要意义,但我们不能因此否定数据驱动范式的价值。事实上,即便是“填鸭式”的知识灌输,于机器而言也是一种高效的学习范式——它们能够直接吸纳人类有文字记载的全部文明。人类的基础教育往往通过书本教育方式完成,其目标正是通过大量课程学习、图书阅读,帮助个体形成广博的知识体系。但是“纸上得来终觉浅”,人工智能训练不能停留在这一阶段,若人工智能要在各细分任务与场景取得卓越效果,就必须进入实践学习阶段,通过在线交互、反馈优化、试错反思,使其成为“行家里手”。

人工智能发展的数据瓶颈

数据的尺度法则失效。近年来,我国在生成式人工智能领域不断取得进展[5],但也存在所谓“数据墙”“数据壁垒”等问题,尽管在训练中数据投入不断增加,模型性能提升的边际效益却明显下降,[6]与数据获取和处理的高昂成本形成反差。这一现象引发学界和业界对大模型在数据方面是否遵循尺度法则的广泛反思与审视。

以往大模型迅速发展主要基于尺度法则,即通过扩展算力与数据规模实现性能的显著提升。当前,这一路径面临多方面的挑战。首先,高质量数据的生成速度极为有限,过去几年间,大模型的迅速发展已近乎耗尽互联网上可获取的公开优质数据,而人类认识世界的速度是缓慢的,优质数据与知识生产需要经历漫长时间。其次,尽管通过合成数据等手段一定程度上能够缓解“数据墙”问题,但合成数据仍存在多样性有限、质量控制困难等挑战,容易带来“模型崩溃”等问题。[7]再者,人类对大模型潜在的“超级智能”[8]的理解仍相对有限,限制其数据发展策略。人工智能正朝着“超级智能”的形态发展,在一些方面已经呈现超越人类智能的趋势。比如,大模型能够综合人类的所有学科而给出答案,某种程度上,其已超越单一个体的跨学科认知水平。超大参数的模型可能存在部分超越人类个体的智能特性,这些潜在特性及其运行机制仍有待人类的深入研究与解读。

高质量私域数据供给困难。随着《国务院关于深入实施“人工智能+”行动的意见》的印发,我国人工智能先进技术与各行业、各领域的深度融合不断加速,大模型等人工智能技术走深向实态势愈加显著。大模型将在个人消费、硬件与终端的智能化升级中发挥重要作用,成为行业和企业智能化发展的重要引擎,更将成为科学发现的助推器。消费级大模型、企业级大模型、行业大模型与专业大模型的研制都离不开数据,而这些大模型所需要的数据与通用大模型不同。通用大模型旨在让人工智能拥有通识能力,知识广博是其根本要求,经过对互联网公开数据的收集、汇聚与治理,便能满足其训练需求。但是上述几类大模型都需要高度专业化(如各类科学大模型)、私有化(如个人消费大模型)的训练数据,这些数据通常具有较高的行业壁垒与汇聚难度(如行业大模型)。总体而言,私域高质量数据集仍然缺乏,一定程度上阻碍大模型走深向实、赋能经济社会发展,具体原因主要有以下几点。

其一,私域数据具有一定的隐私敏感性,数据供给与流通环节存在显著安全合规顾虑。很多行业数据涉及企业机密甚至个人隐私,数据治理成本较高。即便经过有效处理,仍然存在一定的隐私泄露风险,导致数据供给困难。其二,专业思维数据匮乏。大模型能否真正赋能行业,关键在于其能否习得行业专家的思维方式。为此,亟需构建高质量、专业化的思维过程数据,但此类数据极少被人类专家显性化表达,且即便有所涉及,其规范性也普遍不足。此外,很多体现专业思维的业务流程数据多分散在不同的信息系统中,导致收集困难。其三,行业数据高度分散,难以汇聚成高质量语料。大模型训练普遍遵循规模效应,语料训练必须达到一定规模才能激发模型能力。传统信息化建设造成的“烟囱林立”,加之标准规范的缺失,导致数据汇聚与融通面临挑战,一些行业正因信息化基础薄弱而经历转型阵痛。其四,高质量科研数据稀缺。受限于稀缺的科研数据,科学大模型难以取得理想效果。比如,特定物理现象的数据获取,往往只能依靠少数大型科研装置且实验成本高昂,这制约了大模型的训练。

具身智能发展存在数据困境。从现状来看,具身智能领域的数据问题尤为突出,首先,当前具身模型的训练数据量,可能还远不足以支撑其泛化能力的涌现。大规模语言模型被认为具有一定的泛化推理能力,而这相当程度上是由足量数据的大规模训练实现的。如果没有近万亿词元(token)的训练,语言大模型可能也无法达到人类水平的泛化,只有数据量变,才可能换来智能泛化的质变。当前具身智能泛化能力较弱,主要源于其训练数据量仍未达到激发模型泛化水平的临界点。

其一,具身模型训练的数据量尚未达到大语言模型的训练规模。当前具身模型多采用基于视觉-语言-动作模型(VLA, Visual-Language-Action)的多模态联合训练模型,基本思路是将视觉、语言、动作三个模态对齐之后转换成token。目前规模最大的具身数据集所能支持的token量差不多在百亿级别,而语言模型的数据规模动辄达到数万亿token,从百亿到万亿,训练数据量相差两个数量级。有研究指出,发展具身智能所欠缺的数据量,相当于一个人十万年的阅读量。[9]

其二,具身数据的稀缺进一步限制模型参数规模。具身大模型参数规模目前在数十亿,而最大的语言模型参数规模已经达到万亿,参数量上也相差两到三个数量级。从这个角度来看,当前具身智能的发展阶段还处在语言大模型发展初期的“BERT时代”,尚未迎来它的“ChatGPT时刻”,具身智能的发展对数据的需求仍较为迫切。

其三,具身数据的稀缺性源于交互体验的复杂性。人类身体在环境中的体验、交互看似简单,但在计算机层面实现则较为复杂。首先,个体体验表达困难。“我现在坐在这个椅子上”这一环境交互极为简单,但如果要对其进行精准建模则是异常复杂的。为了描述“我很惬意地坐在椅子上”这个体验,需要描述我当下的外在身体状态与内在心理状态,它们共同构成我的当下体验。如果对人类的体验,进行完整、精准表达,将会形成高维数据。比如,仅是为了描述我当前的坐姿,就需要“臀部[位置],双腿[分开程度],膝盖弯曲[角度]度,双脚[着地方式],躯干[挺直/前倾/后靠]程度,腰部[是否有支撑],肩膀[高低/前后位置],双臂[具体姿态],手部[位置和动作],头部[朝向和角度],整体重心[分布情况]”等数据(来自大模型的回答,经笔者确认)。这还不包括此刻我眼睛所见、耳朵所闻、皮肤所感、心里所想,由此可见仅是完整、清晰表达个体体验数据就十分困难。

其次,环境表达困难。人始终处于与环境动态交互中,而环境本身高度复杂,难以精准刻画。当下,世界模型研发引发业界高度关注。世界模型的本质是让人工智能能够建模这个复杂世界,我们身处的环境是多样、易变的。比如,我的办公室与其他人的办公室环境不同,就连一个台灯都有可能千差万别,且环境仍处于快速变化之中。因此,对环境建模较为困难。即便环境相同,对于不同的个体、场景、任务、时空,其交互呈现仍有差异。具身智能所面临的数据复杂性,源于环境、个体体验以及两者间动态交互这三者复杂性的叠加。由此,如何有效提升数据的规模与质量,便构成该领域一项重大的技术挑战。

人工智能发展数据瓶颈的突破路径

发展多样化数据获取策略。大模型训练语料的构建中,不仅要关注互联网公开语料,也要积极发展基于行业、企业内部数据的语料培育方法。特别是来自专业场景的结构化数据、企业内的流程数据、业务元数据、业务过程数据,经过合理培育与发展,使其充分发挥推动行业大模型与专业智能体发展的重要作用。对于具身智能而言,应该积极发展真机数据、仿真数据、合成数据等多样获取策略。不同的数据获取策略在成本、质量与规模方面存在差异,需要根据实际情况进行取舍。在实际落地过程中,应多措并举,融合不同获取方式,提升数据规模。

关注非直接数据获取渠道。事实上,以直接的数据获取为目的的数据收集,规模相对有限。海量数据的积累,往往是通过不以数据获取为直接目的的其他应用而形成的。ChatGPT等大语言模型的成功,本质上得益于互联网数十年发展积累的丰富数据资源。互联网经历门户网站、社交平台等不同发展阶段,积累了海量文本、图像等数据,为语言模型的突破奠定坚实的数据基础。基于互联网验证码技术,为实现人机区分而设计的验证码,无意中收集海量图像标注数据,成就了谷歌在文字图像识别领域的领先地位。相比之下,当前具身智能的发展缺乏类似的天然数据来源。未来,具身模型的根本性突破,或将依赖具备动作采集能力的大规模穿戴设备的普及与应用。如果大量穿戴设备具备场景识别、环境理解以及动作捕捉能力,则可能形成大规模真实动作轨迹数据,从而根本上解决具身智能的数据瓶颈。

从追求规模向追求质量转变。诸如DeepSeek-R1模型及此前的OpenAI-O1模型的成功,标志着后训练范式的成熟。伴随大模型训练重心从预训练转向后训练,依赖强大算力与海量数据的预训练,与依赖精细算法与数据质量的后训练,构成大模型发展的两个互补阶段。大模型不再仅有盲目堆砌数据和算力一条发展路径。后训练阶段主要使用强化学习算法,让人工智能自主进行方案枚举与评价,成为训练大模型自主发现、解决问题的有效路径,从而激发人工智能的理性思维能力。对于后训练范式而言,数据规模不再是决定性因素,取而代之的是数据质量和训练策略(即试错的探索策略)。研究实践证明,数百条精挑细选的复杂思维指令能显著提升后训练水平,精心设计的候选方案枚举策略、奖励函数与奖励策略,往往成为后训练成功与否的关键。

加大模型训练力度缓解数据稀缺。在某些领域,人工智能可通过加大模型训练量以及优化模型训练策略,缓解数据稀缺问题。如对于具身智能而言,与其追求数据量不如转向追求训练量,由于具身数据采集的困难(样本稀疏、不完备、成本高),我们无法像语言模型那样寻求数据的大量堆积,为此,需转而寻求加大反馈和试错的训练量。简言之,数据难以快速扩充,则可以通过加大训练量进行补充。例如,部署大量实体机器人或虚拟机器人,让它们在现实世界或虚拟世界中进行交互、探索、试错、反馈,以大量训练促进泛化。具身学习的本质在于尝试,身体能力是在具体任务的尝试与实践中形成的,就像如果不付诸亲身实践,阅读再科学权威的游泳教材,观看再多的游泳演示,也无法学会游泳一样。

探究人类泛化迁移机制缓解数据稀缺。机器智能渴求数据的原因之一,在于需实现高度泛化的智能。泛化性,即机器能够胜任未训练任务,很大程度上是通过学习海量数据而形成的。因此,一旦探明机器智能泛化的实现机制,则可以显著降低数据需求。人类泛化能力的核心是“举一反三”,背后有两个关键认知机制:类比能力与归纳演绎能力。当我们看到类似锤子的新工具时,会自然联想过往经验并将其迁移到新工具,这背后是对已掌握知识与技能的合理泛化和适度迁移。人类日常的类比、建模、隐喻,本质上都是类比能力的体现。类比是弥补数据稀缺而泛化不足的有效机制。人类在积累丰富经验后,能够进行归纳总结,将经验提炼为模式,再通过演绎将这些模式推广到新场景。这种归纳-演绎机制也是实现泛化的重要思路。借鉴人类智能的泛化机制,有望为具身智能的泛化提供新的解决方案。

发展自进化的人工智能。自进化的人工智能,顾名思义,是摆脱人类干预而自主演进的智能形态。作为当前人工智能发展的典型代表,大模型本质是个大规模参数化模型。人类“喂养”人工智能的数据仍是人类可理解的文字、语音、图像等数据。但事实上,一旦人工智能可以发展出自进化、自演化策略,参数化、数值型数据将展现出天然的亲和力,更易于被直接利用和优化。一个自进化的人工智能所需的训练数据甚至不必是人类看得懂的数据。从长远来看,数据的退场、人的退场或将是人工智能发展的未来趋势。人最终可能仅仅是人工智能发展的监督者,而不必再扮演教师的角色。人工智能一旦发展到优等生的水平,喂养机器的数据也可能不再必要。

大力发展大模型的数据科学。大模型的数据实践需要从依赖经验与“黑箱”操作的工程阶段,转向以量化、可解释与可控为核心的科学阶段。这一转变要求建立系统化的数据科学方法,使大模型的数据处理能够实现:可溯源,即数据来源清晰,处理过程可追踪;可量化,即数据质量、数据效果可以科学度量;规范化,即数据处理流程标准化、体系化。大模型的数据科学旨在建立大模型不同训练阶段的数据质量标准与评估体系、发展数据的精细分级分类方法与工具,形成数据关键成分的识别与提取技术,建立训练数据与模型能力的因果关系与构建可溯源、可量化、可规范化的数据处理流程。构建完善的大模型数据科学理论体系,有望在实践中实现对数据的高效利用,降低大模型的数据成本,提升大模型训练过程的可观测性与可控性。

结语

数据已成为人工智能发展不可或缺的核心要素,是人类文明向机器文明传承的关键媒介。本文系统探讨了人工智能发展中的数据问题,明确数据与模型、数据与经验之间的辩证关系。当前人工智能发展面临多重数据挑战:尺度法则呈现失效倾向、高质量私域数据供给困难、具身智能的数据困境尤为突出。针对这些挑战,本文提出了相应突破策略。需要注意的是,当下我国正加快推进数据要素市场化,着力打造可信、安全的数据空间,此举不仅是激活数据要素价值的关键路径,更将为人工智能发展提供高质量的数据支撑——通过构建规范、高效的流通机制,有效缓解人工智能产业面临的数据瓶颈。显然,数据要素市场化具有重大战略意义,人工智能发展是其惠及的场景之一,目前已有大量文献对此进行讨论,故而本文并未触及这一主题。

注释

[1]《李强作的政府工作报告(摘登)》,《人民日报》,2026年3月6日,第3版。

[2]《数据要素价值如何充分释放(高质量发展故事汇·第16期)》,《人民日报》,2026年2月27日,第12版。

[3]阿斯顿·张等:《动手学深度学习》,北京:人民邮电出版社,2023年。

[4]《图灵奖得主Richard Sutton智源大会最新演讲:欢迎来到经验时代!》,2025年6月7日,https://hub.baai.ac.cn/view/46287。

[5]王飞跃:《我国生成式人工智能的发展现状与趋势》,《人民论坛》,2025年第2期。

[6]《模型训练越多反而越差?多团队联合揭示“灾难性过度训练”现象,模型扩展需被重新审视》,2025年3月31日,https://www.mittrchina.com/news/detail/14621。

[7]《用AI生成数据训练AI或导致模型崩溃》,《科技日报》,2024年7月26日,第4版。

[8]T. Mucci and C. Stryker:《什么是超人工智能?》,https://www.ibm.com/cn-zh/think/topics/artificial-superintelligence。

[9]中国信息通信研究院北京人形机器人创新中心有限公司:《具身智能发展报告(2024年)》,2024年8月,https://www.caict.ac.cn/kxyj/qwfb/bps/202408/P020240830312499650772.pdf。

责 编∕方进一 美 编∕周群英

Data Bottlenecks and Breakthrough Pathways in the Development of Artificial Intelligence

Xiao Yanghua

Abstract: Against the backdrop of the in-depth implementation of the "Artificial Intelligence Plus" initiative, the strategic value of data for the development of artificial intelligence has become increasingly prominent, making it a key factor driving the realization of intelligence. Since the concept of machine intelligence was first proposed, its modes of realization have been closely associated with three paradigms: data-driven, model-driven, and experience-driven approaches. These three paradigms stand in a dialectical relationship: data and models can form a synergistic mechanism of mutual transformation and reciprocal empowerment, while data-driven and experience-driven approaches constitute a complementary relationship. At present, the data bottlenecks constraining the development of artificial intelligence are mainly manifested in the failure of the scaling law of data, difficulties in supplying high-quality private-domain data, and data-related challenges in the development of embodied intelligence. To overcome these data bottlenecks, comprehensive measures should be targeted at the following aspects: develop diversified data acquisition strategies, pay attention to indirect channels of data acquisition, shift the focus from pursuing scale to pursuing quality, intensify model training to alleviate data scarcity, explore human mechanisms of generalization and transfer to mitigate data scarcity, develop self-evolving artificial intelligence, and vigorously advance data science for large models.

Keywords: artificial intelligence, data, data science, embodied intelligence, scaling law

[责任编辑:肖晗题]