网站首页 | 网站地图

大国新村
首页 > 原创精品 > 成果首发 > 正文

加快建设人工智能大模型中文训练数据语料库

【摘要】人工智能大模型产业发展的三要素为算法、算力与数据,其中训练数据语料库的质量直接决定了人工智能大模型的能力。中文数据语料总量相较英文数据语料严重不足,同时存在数据采集行为违法风险较高、公共数据开放利用不足、线下结构化数据版权制度不协调、商业采购与合作数据无法确定数据权属等障碍,其已成为制约人工智能发展的制度瓶颈。发展我国人工智能大模型产业可通过司法判例明确网络数据来源合法性认定条件,协调版权规则确定线下数据使用合理性制度边界,构建开放机制满足公共数据参与语料库建设需求,协同促进跨领域数据流通交易规则建立供给激励,多方破除制度障碍以应对产业发展需求。

【关键词】人工智能大模型 训练数据 语料库建设 版权制度 公共数据

【中图分类号】TP18 【文献标识码】A

【DOI】10.16619/j.cnki.rmltxsqy.2024.13.006

【作者简介】张凌寒,中国政法大学数据法治研究院教授、博导,联合国人工智能高层顾问机构(UN High-Level Advisory Body on AI)专家,《人工智能法(学者建议稿)》起草专家组牵头专家。研究方向为民商法、数据法、人工智能(算法)、平台治理等。主要著作有《权力之治:人工智能时代的算法规制研究》等。


人工智能是新一轮科技革命和产业变革的重要驱动力量,将对全球经济社会发展和人类文明进步产生深远影响。中国高度重视人工智能发展,积极推动互联网、大数据、人工智能和实体经济深度融合,培育壮大智能产业,加快发展新质生产力,为高质量发展提供新动能。在人工智能产业发展的诸多要素中,训练数据语料库的规模和多样性是技术进步的关键因素。我国训练数据语料库的建设面临一些制度不协调,制约了人工智能技术的发展。当下迫切需要理清语料库建设存在的障碍,明晰人工智能训练数据壁垒与低质成因,通过分析人工智能大模型产业训练数据语料库建设需求,提出训练数据语料库制度协调与规则应对的解决方案。

训练数据语料库是人工智能产业发展的重要因素

语料库的训练数据规模是大模型能力涌现的基础。人工智能大模型的能力飞跃得益于涌现效应。涌现效应标志着人工智能大模型的性能产生飞跃,能力“涌现”就是指“在小模型中不存在,而在大模型中能够展现出的能力”。[1]大模型的整体性能和行为会由于“涌现”出现质的飞跃,且这种飞跃无法仅从系统的组成部分来预测或解释。以GPT系列模型为例,作为语言模型,开发者在初期仅训练其处理一般的语言任务,但当迭代到GPT-3时,语言模型开始表现出成功进行两位数乘法的能力,即使开发者并未对其进行专门的数学运算训练。[2]

训练数据体量的增加是人工智能大模型出现涌现效应的基础。“涌现”只存在于训练数据达到一定量级,并因此产生质变的大模型中。如图1所示,谷歌和斯坦福大学的相关研究表明,当模型规模达到一定量级时,能力“涌现”突然发生,并随着模型体量的增加持续攀升。[3]尽管尚不能断言模型尺度是解锁涌现效应的唯一因素,但在现阶段的大模型发展中,涌现效应的出现主要源于训练数据规模和参数体量的变化。[4]

 

张1

 

越过“涌现”门槛后,训练数据语料库的规模和类型的发展也可推动大模型能力持续进步。以数据规模为例,尽管OpenAI从GPT-3.5时期起就不再公布训练数据的构成和规模,但业内普遍认为从GPT-3.5到GPT-4,训练数据仍然保持高速增长,使得模型能够学习到更丰富的语言特征和语义关系,从而在文本生成风格、多语言翻译和长文本处理等多项自然语言处理任务中展现出前所未有的性能。[5]以数据类型为例,相较于其前身PaLM的纯英文文本训练数据集,由谷歌开发的PaLM-2模型使用的语料库中包括数百种人类和编程语言、数学方程、科学论文等多类型数据,并因此使得PaLM-2模型在高级推理、翻译、代码生成等方面的表现优于PaLM。训练数据规模和类型的丰富,不断驱动大模型能力从特定任务模型继续扩展,显现出通用人工智能模型。

语料库的训练数据质量是大模型性能提升的关键。语料质量对大模型性能有着至关重要的作用。高质量数据可以更好地模拟客观世界,将其作为训练数据可以增强模型能力。从技术层面看,高质量数据能够使模型预测的概率分布尽可能逼近实际数据的真实分布;从模型能力看,高质量数据可以提升模型的准确性和稳定性,降低模型对特定数据集的依赖,提升鲁棒性和泛化能力[6]。相关研究指出,“未来一个模型的好坏,20%由算法决定,80%由数据质量决定。接下来高质量的数据将是提升模型性能的关键”。[7]

在当下的大模型竞争中,作为模型能力提升的关键,良好的数据质量在一定程度上可以弥补数据数量的不足。腾讯、阿里等本土人工智能企业的技术负责人曾在多个场合表示,即使模型参数量级有所下降,只要数据语料质量足够优秀,模型的表现依然能够保持较好水准。[8]例如,使用少量但高度准确和详细的患者健康记录,可以训练出能够准确预测疾病的机器学习模型。相比之下,大量的低质量数据(如错误的诊断信息、不完整的病历等)可能导致模型做出错误的预测,影响治疗效果。这说明在医疗领域中,高质量的数据能通过提供更准确的洞察力和决策支持来弥补数量上的不足。[9]高质量数据通过对现有不同来源的数据加以混合、调试配比,提升模型执行下游任务的泛化能力;还可以利用数据增强等手段有效提升多样性,即通过对现有数据进行变换或扩充,生成更多的训练样本,增强训练数据代表性和多样性。[10]

多模态大模型的能力对训练数据的种类与质量提出了更多要求。多模态大模型是以单模态大模型为基础的,具有接收、推理和输出多模态信息能力的大模型。多模态大模型能够根据多模态指令展现新的能力,如根据图像编写网站代码。[11]对多模态大模型具有重要意义的训练数据同样表现出多模态。例如,多模态模型CLIP的训练数据包括文本和图像的结合,数据集的多样性远超传统的文本数据集,这使得CLIP能够理解和生成与文本描述相关的图像,在图像理解、图像生成和跨模态检索等任务上表现卓越。[12]然而,现有的大多数多模态融合方法都假定数据质量较高,这使得它们在低质量数据的情境下难以有效应用。[13]

语料库的训练数据合规是大模型价值取向的保证。就技术原理而言,生成式人工智能系统通过在文本、图片、音视频等多模态训练数据“喂养”的基础上生成文本、图像、音视频等内容,其生成内容难以避免会受原始训练数据的影响。

训练数据对于大模型价值取向的影响体现在多个维度。就数据蕴含的内容而言,不同领域的训练数据决定了大模型在对应领域中的价值取向偏差。联合国高级别人工智能咨询机构发布的《以人为本的人工智能治理》报告指出,人工智能在道德价值、社会价值、文化价值、法律规范等领域存在风险。就数据表达的偏见类型而言,多样化的数据偏见会对大模型的内容生成产生潜移默化的影响。以性别为例,加州大学洛杉矶分校的机器学习团队将自然语言学习中的偏见具体分成了四类:刻板印象、分类识别、代表偏差、贬损评价。[14]可见,大模型的价值取向问题并非仅包含明显的歧视,而是在不同维度的偏见上均有体现。

开发者对训练数据投毒等方式,也会对大模型生成内容的价值取向造成破坏性结果。数据投毒系针对模型训练过程,通过在训练数据集中插入精心设计的有害样本,利用模型训练或者微调过程来使大模型“中毒”的攻击方式。[15]开发者可以对大模型进行“投毒”,使其在特定任务上传播虚假信息,并伪装为权威机构发布的模型上传至开源社区,实现恶意攻击的传播。[16]经受错误诱导的大模型输出内容可能导致价值偏见的传播,甚至引发公共恶性事件。此外,投毒信息会使得模型生成的内容与现实事实不一致,即产生幻觉[17],但在回答其他问题时依然正常,这使得模型投毒造成的危害难以在生成端被有效识别。

由此可见,训练数据的质量直接关系大模型生成内容的价值取向。大模型通常具有数十亿级以上的参数,由于模型黑箱等特性其运行决策过程缺乏透明度,人们往往难以理解模型如何形成特定价值取向。尽管可以通过基于人类反馈的强化学习、全监督微调等手段推动价值对齐,但受限于算法能力、稳定性、成本、文化差异等问题,难以完全满足复杂的应用场景下对大模型治理的需要。[18]因此,对训练数据集提出较高的合规要求,是对大模型实现有效治理的必要前提。也正是基于此技术原理,《生成式人工智能预训练和优化训练数据安全规范(征求意见稿)》将违反社会主义核心价值观和歧视性的内容列为主要安全风险内容,在训练数据收集、使用、处理阶段通过抽样检查等方式减少数据中的价值偏差内容,避免模型学习并生成有害结果。[19]

我国训练数据语料库的建设现状与存在问题

训练数据语料库总体量级不足。中文训练数据语料库总体量级的不足,集中体现为中文语料在全球语料总量中占比较低,这一问题由来已久,难以在短期内改变。中文训练数据语料总量的不足,使高质量语料缺少积累,导致高质量中文语料尤为稀缺。中文训练数据语料在数量和质量上的弱势,间接导致中文大模型企业只能退而求其次,通过语料翻译、降低质量要求甚至从其他模型中提取语料的方式获取数据,进而增加了大模型的不稳定和不安全的风险。

第一,中文语料总量占比较低。长久以来,互联网中文内容的占比长期处于劣势,中文语料总量积累明显不足。根据W3Techs提供的实时统计显示,全球互联网中文内容仅占全部内容的1.2%,相较之下英文内容占比则高达49.9%。[20]使用人口、传播范围和国际影响力上的差距导致了中英文语料在总量上的差距。IDC于2023年发布的报告显示,中文语料数据年均增长速度为26.3%,预计在2027年将达到76.6ZB,然而相较近2000ZB的互联网数据总量而言依旧微小。[21]中英文语料总量差距的一个直接反映是中文开源训练数据集规模不足,英文开源数据集在GPT系列训练数据中规模非常庞大,而中文模型开发者可利用的网络开源数据集数量却十分有限,这种开源数据集数量上的不足导致中文模型的开发高度依赖自有业务产生和商业采购的数据,对缺乏互联网业务积累和充盈资金投入的AI初创企业十分不友好。

第二,中文语料总体质量较低。中文高质量语料的积累周期较短,难以形成足够规模和水平的高质量数据池,其总体质量不及英文语料库。可用开源数据集在整体数据池中的占比低,是导致中文高质量语料不足的主要原因之一。开源数据集经过爬取、清洗和结构化等工序后形成,数据质量通常高于原始数据。而我国可用开源数据集数量稀缺,迫使企业转向其他数据来源,这导致大量网页语料未能经过系统收集和加工,降低了中文语料的整体质量水平。高质量语料积累薄弱的另一个原因在于公共数据开放深度和统一度的不足。[22]我国公共数据的积累可以追溯至2015年前后的智慧城市建设时期,公共数据开放逐渐被嫁接在电子政务建设的逻辑上展开。[23]各地政府随后出台了相关规范,但全国范围内长期未能建立统一的数据开放平台。我国各级政府部门掌握了50%~80%的信息数据资源,这些资源至今仍未被有效整合和利用。

第三,中文语料匮乏引发语料供给困境。中文语料数量和质量的双重不足,给国内大模型的开发带来了巨大的语料供给困境,迫使开发企业选择翻译外文语料或降低质量标准等手段进行大模型的训练。作为帮助模型建立联系的素材,训练语料应当尽可能准确地反映真实、客观的规律,而翻译外文语料和使用低质语料可能降低语料内容的准确性,增加模型内容的安全隐患。2023年12月,OpenAI关停了字节跳动的GPT服务账户及相关API,理由是后者利用所提取的GPT数据开发自己的大模型,这明显违反了服务协议中的条款。[24]从其他模型中提取语料的行为,不仅可能违反服务提供者设定的规则,还可能在承认数据具有财产属性的前提下被认定为侵权行为。此外,语料供给困境还可能导致企业围绕有限的语料展开过度竞争。研究发现,模型生成语料的反复投喂,可能导致后续模型能力的下降乃至模型发散,形成“模型退化”现象。[25]若放任行业长期围绕语料的获取进行过度竞争,会使数字企业的数据共享意愿持续下降,进一步加剧数据流通不畅和高质量语料积累不足的困境,造成AI产业发展的恶性循环。

训练数据语料库总体来源匮乏。训练数据语料库的来源匮乏也是目前制约人工智能发展的关键问题,我国在网络数据、线下数据、公共数据、领域数据等外部来源数据方面存在明显不足,大模型厂商内部的合成数据尚未形成规模,拟出台的严格合规要求进一步限制了可用数据的范围,使得我国的AI大模型在训练数据上面临严峻挑战。

一方面,外部来源数据不足。目前常见的外部来源数据通常包含网络数据、线下数据、公共数据、领域数据等,相比之下,美国训练数据语料库中的外部来源数据十分充足,而我国的训练数据语料库则相对单薄。在网络数据方面,美国拥有庞大的网络数据容量和丰富的开源数据资源,企业能够通过合规爬虫技术轻松获取数据;而我国网络建设起步晚,网络数据积累量小,拥有较大数据量的平台不愿公开自身数据,导致网络数据总量远不及美国。在线下数据方面,模型厂商需要将该部分数据电子化后才能用来训练,美国对线下数据进行了高度电子化,主要的学术期刊和论文几乎全部实现了在线获取;而我国电子化程度较低,许多图书、期刊和论文等仍主要以纸质形式存在,线下数据难以被充分利用。在公共数据方面,美国联邦政府要求公共数据“应开尽开”,并建立了联邦层面统一数据开放平台,鼓励社会力量探索公共数据的应用;而我国公共数据的开放程度仍有不足,仅对少数数据集提供了API接口,大部分优质公共数据仍未开放。在领域数据方面,领域数据通常由专业部门在从事专门知识劳动中长期积累而来,由于美国公开的数据政策和获取机制,其领域数据共享较为畅通;而我国相关权利主体出于商业利益和数据安全等考虑,缺乏共享领域数据的积极性,整体领域数据流通程度较低。

另一方面,内部合成数据缺失。内部合成数据来源于对真实数据集的建模、提取和合成,既能补充真实数据的不足,又能在保护隐私的同时提供大量多样化的训练材料,在模型训练中发挥着至关重要的作用。随着AI大模型的发展,内部合成数据在训练数据中的比例逐渐增加。2021年,所有人工智能训练数据中只有1%是合成数据,到2024年底,这一比例将达到60%,据Gartner预测,未来用于训练机器学习模型的大多数数据将是自动生成的合成数据。[26]然而,与国际领先企业相比,我国在合成数据技术和应用上的起步较晚,国内大模型厂商在内部合成数据方面的储备明显不足,缺乏足够的经验和技术积累,导致目前我国企业的内部合成数据在整体训练数据中的占比较低。这种差距不仅体现在数据总量上,更对数据质量和多样性产生了深远影响,限制了AI技术在更广泛领域的应用潜力。

训练数据语料库缺少结构化数据。结构化数据在语料库模型训练中起着重要作用。与非结构化数据相比,标准统一、格式一致的数据资源更易于理解和利用。然而,目前我国在训练数据语料库建设中面临线下数据结构化标准的泛化、公共数据结构化标准的缺失以及网络数据质量低下等问题,这些问题在不同程度上制约了语料库的训练与发展。

第一,线下数据结构化标准泛化。线下元数据标准不一以及结构化的缺失影响语料库训练的效率与质量。一方面,线下元数据的适用标准不统一。用于语料库训练的元数据缺乏统一标准,元数据字段缺失使得以元数据为基础的查询变得极为困难,进而降低了语料库的易用性;另一方面,线下数据结构化表示缺乏。如知识图谱、关系数据库等模式的结构化数据表示可以最大程度上方便数据的分析与利用,且包括文本数据、任意交错图像等在内的各种数据进行预训练的多模态语料库可以获得原生支持多模态任务的能力。[27]现有线下数据大多以纯文本的形式予以储存,图片、音频等数据难以被有效利用。以北京市为例,截至2024年5月,北京市人工智能高质量数据集服务平台已经上线287个语料数据集,总规模超过500T。其中图像集33项,音频集77项,文本仍然是主要的语料形态。[28]

第二,公共数据结构化标准缺失。各地方公共数据开放接口及格式标准的差异化,导致语料库建设缺乏高质量公共数据作为训练依据,严重阻碍了语料库的发展。一方面,各地方公共数据开放接口存在差异,部分省市并未建立起统一的开放接口对外提供数据资源。根据《中国地方公共数据开放利用报告 省域(2023年版)》的数据显示,部分省市未上线统一的公共数据开放平台,也未制定统一的公共数据开放标准,导致不同地区之间数据开放接口存在显著差异。[29]另一方面,各地方公共数据开放格式存在差异。部分省市数据开放格式不清、标准混乱,一定程度上阻碍了数据有效利用。例如,杭州市于2023年9月发布了《杭州市公共数据授权运营实施方案(试行)》,实施公共数据授权运营管理,建立统一数据开放格式,显著提升了数据质量与利用效率。反观东北、西南部分地区,数据开放标准化进程则略微滞后,其在开放格式统一、开放接口标准化方面尚未取得显著进展。

第三,网络数据质量低下。无效语料过多、缺乏高质量数据,导致人工智能语料库的整体质量较低。首先,数据源质量参差不齐。网络数据生成于不同渠道,如来自用户生成、社交媒体、开放数据平台等,不同来源渠道的数据质量具有较大差异,不加区分统一用于数据训练导致语料库质量较低。其次,数据真实性难以验证。互联网作为包容开放的数据平台,并未建立起针对数据真实性进行审查的运行机制,网络平台内容鱼龙混杂,导致数据真实性难以保证。最后,数据质量完善管理制度缺失。目前网络平台缺乏完善的数据质量管理标准与机制,难以剔除数据中的违法信息等不安全因素。训练语料库所需的大量数据多为无标注数据,这些数据容易存在偏见、歧视,甚至包含侮辱、仇恨、暴力、色情等有害内容[30],导致用于训练语料库的数据存在一定的合规风险,加大了语料库模型的训练难度。

综合来看,我国训练数据语料库建设面临着多重挑战和限制,数据总量和质量问题、数据来源匮乏、结构化数据不足等都亟须解决。在未来,只有逐步建成训练数据多样性和丰富性的语料库,才能为人工智能大模型的训练和应用提供充足的数据支撑,突破制约人工智能发展的数据瓶颈,进一步推动人工智能技术的发展和产业化进程。

训练数据语料库建设的障碍与成因

网络数据采集的违规风险高。网络富集大量语料数据,但网络数据质量参差不齐,并不都能够满足模型训练的基本要求。网络数据爬取是语料数据的重要来源,即使是结构化的开源数据集大多也由经过初步加工后的爬取数据构成。此外,在数据发挥重要经济价值的当下,网络数据采集面临来自数据持有者、原始数据权利人等多方的利益诉求,数据权益复杂交织,网络数据爬取面临着较高的违法违规风险。截至2023年12月,我国域名总量为3160万个,活跃App数量高达260万款。[31]在商业采买价格机制尚未固定,平台共享数据意愿不足的现状下,巨大网络空间潜藏的海量网络数据成为人工智能企业训练数据语料库的首选来源。然而,爬取网络数据行为的合法边界仍模糊不清。网络数据的防爬取措施成为判断爬取行为合法性边界的重要因素。破坏性爬取行为一般被认为打破了网络数据共享承载的公共利益和平台数据权益的平衡,往往作为违法性的判定标准。我国法院肯定了单方声明的Robots协议具有告知和引导作用,违反Robots协议的行为可能属于违反商业道德的范畴,但并不承认Robots协议对双方具有法律约束力。学者们也逐渐认为不宜将之作为判断爬取行为合法性的唯一依据。[32]由此可见,网络数据爬取的合法性边界不断随着实践产生争议并变化,人工智能企业始终无法获得明确稳定的行为指引。

在激烈产业竞争和模糊行为边界交织作用下,平台一方面努力爬取网络数据,另一方面高筑数据壁垒防止竞争对手免费获取自身数据。这导致目前中文模型的训练高度依赖企业的自有业务数据,大模型的训练数据总体规模和质量进一步受限。授权使用制度存在的低效率短板则在短期内阻断了模型厂商通过共享训练数据获得回报激励的可能,也导致分散训练的效率低下。在授权使用的框架下,多个大模型厂商均须承担交易谈判的时间成本与经济成本,降低了大模型产业整体生产效率。更令人担忧的是,大模型的市场前景吸引几乎所有掌握大量数据的平台企业布局,这加剧了这一市场获取训练数据的竞争。受到竞争利益驱动,企业独占数据资源的意图进一步被强化。[33]在此背景下,平台企业不断加强防爬取措施、设置数据壁垒,给网络数据爬取制造巨大的技术和法律障碍。

线下数据利用支持力度不足。人工智能的实质性突破依赖训练数据的爆发式增长和高效利用,图书、期刊、报纸等线下载体作为传统数据承载方式之一,对于完善训练数据语料库意义重大。线下语料成为训练数据的前提是实现电子化,但我国线下数据电子化进程相对滞后。第一,加工深度浅。数据电子化过程没有进一步的结构化和分析,应用价值低。第二,标准化程度低。电子化数据缺乏统一的元数据格式、编码和术语,使得数据的互通和整合变得更加困难。第三,准确性低。电子数据输入错误、处理不当或更新不及时,导致数据准确性大打折扣。第四,可复用性差。电子数据的格式、结构或权限设置不合理,无法支持多种应用场景和分析需求。

线下数据除了电子化严重不足,还存在取得授权的制度障碍。线下数据一般受到著作权保护,著作权的集体授权制度难以有效支持大模型训练数据的需求。首先,现有的著作权集体管理组织规模尚不能适应模型开发者对数据规模化利用的需求。2015、2016两年全国著作权侵权案件约6000件,我国规模最大的著作权集体管理组织——中国音乐著作权协会——直接承办的民事诉讼总数仅41件。[34]其次,传统集体管理组织存在运作低效、功能减弱、模式垄断等问题。例如,在美国,以YouTube为代表的数字平台滥用有关网络责任的版权法律,这些数字平台声称他们对其向公众提供的音乐不承担责任,并拒绝像其他数字服务商那样获得正规音乐授权。面对全新技术垄断,著作权人可获得的救济途径极为有限,所面临的侵权形势极为严峻。[35]最后,“事前授权”模式难以满足人工智能时代海量学习的需求。人工智能的发展依赖于对海量数据的获取,即通过数据训练和迭代大模型,从而实现高质量内容的生成。传统授权模式涉及高昂的交易成本和反复的利益谈判等,限制了数据的大规模获取,将限制数据价值的充分挖掘,完全无法满足训练数据语料库建设需求。[36]

著作权的合理使用制度是否适用于线下数据仍不明确。对于人工智能训练数据而言,如果不依托授权制度而是借助著作权中的合理使用豁免而获取和利用,可以降低训练数据成本,提高语料库构建和更新效率。在当今“产学研”结合大趋势下,人工智能技术的进步和商业主体创新能力及社会责任承担能力不断提升,科学技术研究不再仅仅发生在大学实验室,而将更多地发生在企业中。此种情形下“非商业性主体”的限制,极大地压缩了其合理使用的空间。数字时代下,传统著作权合理使用的条件在适用主体方面有限且对是否适用于线下数据仍不明确。

公共数据开放广度深度欠缺。我国公共数据占整个数据量的比重达到了70%~80%,开放公共数据对人工智能训练语料库建设意义重大。虽然我国在公共数据开放层面取得了一定进步,但仍存在开放广度与深度欠缺的问题。第一,公共数据开放深度不足影响模型训练质量。公共数据的开放深度不足,导致其在人工智能模型训练中的利用率低下,进而影响模型训练的准确性和效率。在数据层级方面,我国披露的公共数据多为统计数据,但对于大模型数据训练而言,统计数据的作用远不如原始数据。原始数据才更符合人工智能的训练需要,有利于提升模型多线程处理与推理预测能力。在开放质量方面,我国公共数据开放缺乏统一的元数据标准和格式,机器可读性差,导致数据难以得到整合和利用。由于不同部门之间缺乏有效的协调和合作机制,数据管理标准不一、大量数据重复采集、数据内容矛盾冲突,增大了数据治理工作的难度。

第二,公共数据授权运营规则不明确阻碍开放进程。公共数据的权属问题不明确,引发了公共数据授权运营的权利与收益分配障碍。目前公共数据的确权授权机制尚在探索之中,而其在人工智能模型训练中的运用更加剧了问题的复杂性,还需进一步的法律明确和规范。公共数据授权运营兼具营利性与公益性。营利性与公益性的冲突问题导致公共数据授权运营的制度定位、运营主体确定、收益分配模式等方面的规则尚不明确。这直接影响公共数据授权运营的实践效果,同时也阻碍了公共数据在人工智能模型训练中的应用。鉴于公共数据特有的强公共属性,其授权运营形成了国家、市场主体和一般民众的三角关系。由于缺乏统一的标准和规范,将公共数据用于人工智能模型训练中可能引发的数据安全风险、数据滥用、数据垄断等问题,亟待通过更加明确的开放范围、授权条件、使用限制和责任分配等规则解决。

第三,公共数据授权运营与模型训练需求存在冲突。一方面,目前在我国公共数据授权运营实践中,市场收益模式分为面向公益性服务的“免费或公益性收费”模式和面向运营型活动的“市场化定价”模式。然而人工智能模型尤其是在预训练阶段的营利性质难以界定。即使人工智能模型服务被认为是商业运营活动,人工智能模型本身的训练是否能被单纯评价为“运营活动”,仍存在较大争议。另一方面,人工智能模型的迭代与进步需要投喂海量数据用以训练支撑。即使授权运营数据的定价模式以“成本覆盖”为原则,模型训练对数据的大规模获取需求,也将导致成本过高而使企业难以负担的问题,在一定程度上将限制公共数据价值的充分挖掘。

领域数据权属交易规则不明。领域数据主要是指在垂直领域开展行业活动中收集和产生的数据,已成为人工智能领域发展的核心基建和关键驱动力。领域数据以应用质量高、匹配度强及价值密度大的优势,展现了其对人工智能专业模型层学习能力深化提升的核心作用,对工业生产、科学教育、自动驾驶、金融医疗等行业的发展至关重要。

领域数据专业门槛高与积累周期长等特性,增加了数据流通共享、升级获取难度。第一,领域数据权利方出于商业利益等因素考虑,表现出“谨慎流通、风险规避”的立场。当前,领域数据主要集中掌握在网络平台、医院、高校院所等企业或单位手中,其凭借在数据流通中的数据资源枢纽位置,收集海量原始数据后进行脱敏清洗等处理活动,形成集合性数据资源。以美国特斯拉公司为例,其完全自动驾驶测试版(FSD)系统的总行驶里程已达约4.83亿公里,并表示其数据资源对产品市场竞争力提升至关重要。[37]第二,领域数据领域具有主体多维复杂等特性,成为数据“固守”的主要诱因。以医疗领域为例,医疗健康数据不仅是信息载体,更直接关系到个人隐私、健康状况乃至生命安全。领域数据权利方迫于数据安全责任、严格合规要求等多重压力,对领域数据共享持保守态度。

领域数据交易意愿低迷,阻碍领域数据价值释放。第一,领域数据权属不明引发数据资源利益分配冲突。2022年12月19日,中共中央、国务院发布《关于构建数据基础制度更好发挥数据要素作用的意见》(以下简称“数据二十条”),提出“推动数据产权结构性分置和有序流通”,但我国立法针对数据权属问题尚未进行明确细致规定。一方面,领域数据的权利性质不明。领域数据区别于有体物、知识产权等客体,其权利性质需进一步明确。另一方面,领域数据涉及利益主体多维复杂,权属分配规则不清。从领域数据交易环节来看,至少有数据来源主体、数据控制者、数据需求方三方主体可以主张相应的权利。领域数据权利方缺乏获得合理回报的收益分配机制,数据要素供给激励机制未完善,导致数据供给意愿不强。第二,领域数据可能包含个人数据、重要数据等,数据交易存在多层法律风险。如地理数据关系国家主权、安全和发展利益。[38]领域数据交易中上下游均需承担更为严格的安全保护义务,呈现责任链条广泛连带、合规严格约束的特性。[39]

领域数据交易规范体系不健全,难以形成合力推动领域数据经济的发展。实践中,领域数据交易模式主要为一对一、点对点的场外商谈模式,交易方式包括直接转移数据及API接口调用,交易规则主要为交易双方自主商议约定。场内场外相结合的统一交易制度规范的缺位,给交易市场的进一步发展造成了极大阻碍。第一,领域数据定价机制的缺失,交易市场的规范化、标准化发展无法推进。当前数据市场主要的定价机制为数据供应方自主定价以及供需双方协议定价,难以准确衡量数据应有价值[40]。领域数据权利方在逐利性的驱动下可能出现价格欺诈、价格歧视、价格垄断等不当定价行为,需建立自主高效的数据定价体系,规制不当数据定价行为,维护领域数据交易市场的公平和秩序。第二,领域数据交易质量标准不一,交易市场的有序化、实践化无法达成。当前,领域数据交易中,领域数据类型、载体、呈现形式等均无统一界定标准。领域数据格式不规范、内容不完整的问题容易导致整个交易市场的混乱局面,影响数据交易的顺利进行。

训练数据语料库建设的制度协调与规则应对

通过司法判例明确网络数据来源合法性认定条件。由于人工智能训练数据具有数量大、规模广、价值密度低等特征,传统的数据购买模式无法适应模型开发者对数据规模化利用的需求。目前由内容平台代理的著作权内容多为单独具有使用价值的作品,不包括用户生成的海量数据,网络数据才是人工智能训练的主要材料,应通过司法判例进一步明确网络数据来源合法性认定条件。

首先,进一步明确网络数据可爬取范围。网络数据的可爬取范围应结合爬取客体、技术手段、行为目的三个方面进行考量。爬取客体上,对于公开数据、半公开数据、非公开数据的保护程度应有所不同。[41]网络数据爬取应严格限定于对公开数据的访问,具体包括由政府、学术界和商业机构出于促进知识共享和技术创新的目的而开放的数据。技术手段上,爬取技术的设计和应用应恪守非侵入性原则,尊重并遵循网站的“爬虫协议”和用户协议,避免任何形式的技术规避行为。行为目的上,网络数据爬取的行为必须服务于正当目的,对于非商业性数据的爬取,应以增进公共利益为目标。因此,基于科学研究应用等大模型构建信息基础设施时是否应适当豁免,应在司法裁判中予以充分考量。

其次,应在司法判例中审慎判断网络数据爬取构成竞争性使用的条件。判断大模型训练是否构成竞争性使用,需明确网络平台对其数据享有的权益。依据网络平台对数据的投入程度,可将平台上的数据分为“平台限定提供的数据”及“用户生成的网页数据”两类,前者是平台企业对其所收集的数据进行脱敏、过滤、格式调整、加密、筛选等适度加工之后,采用技术手段进行控制并仅向特定人提供的商业化数据;后者是用户直接提交给平台,或者用户在使用平台过程中生成,直接展示在网页上的数据。[42]对于前者,可能构成企业数据财产,对其未经授权的获取、披露和使用应当承担相关责任。而后者应当重点判断其“破坏性利用”的构成、损害显著和实质性、实质性替代与否以及用户权益。

最后,由政府协调设立公共训练数据池、公共训练数据场,承担生成式人工智能大模型训练数据语料库的数据基础设施建设责任。现有语料库总体覆盖面和规模依然不足,受制于数据孤岛、数据污染问题,库内数据的采集依旧面临来源稀缺的困境。语料形式缺乏统一标准,不同的处理标准导致数据集语料类型及结构差异明显,不利于集约化管理,知识产权和数据安全合规方面的负担同样延缓了语料库合法化建设步伐。在政府的示范引导下各方协同建设共享数据池,以助力数据语料库迭代优化是中国企业与行业发展的共同诉求。

协调版权规则确定线下数据使用合理性制度边界。传统著作权“事前授权、使用付费”的交易模式难以满足人工智能时代海量学习的需求。“事前授权”容易导致数据交易流程的冗杂以及交易效率的低下,“使用付费”容易产生包括数据获取的识别成本以及数据交易的谈判成本在内的过高交易成本[43],这要求版权规则进行突破协调以适配人工智能时代高价值数据获取、流通、使用的需要。

第一,构建训练数据合理使用制度。在人工智能预训练阶段,可考虑认定利用版权作品进行训练原则上构成合理使用。首先,就技术原理而言,大模型或是通过对特定类型作品的风格、要素、体裁等公有领域的“思想”进行学习,进而生成类似作品[44];或是对既有作品进行具备“非特定性”的非表达性使用,进而创造新的数据价值[45],其均非《中华人民共和国著作权法》应当规制的作品使用行为;其次,就社会效益而言,大模型运用高质量数据进行训练具有显著的公共利益价值,对发挥数据的公共价值、发展生产力、增进社会福祉、提升国际竞争力等有着显著正向影响[46],将大模型训练纳入合理使用范畴符合《中华人民共和国著作权法》激励创新的制度目的;最后,就市场影响而言,大模型的输出结果不必然对原训练作品的市场份额产生冲击,因大模型具备通用能力和泛化能力,其应用场景不局限于原作品的市场定位。但是,合理使用制度的构建并不意味着对大模型训练的版权侵权全面豁免,对基于科学研究目的的大模型应当允许免费合理使用版权数据进行训练,而对于商业应用等大模型则应当针对具体个案全面权衡其原理、价值、市场影响等要素,综合判断其合法性。

第二,审慎认定训练数据版权侵权及责任承担方式。当前,多种场景争议下的司法判例的落实或将成为厘清训练数据合理使用边界的关键。我国现有判例认为,若案涉被侵权作品享有较高知名度,可推定具备接触可能性,且人工智能模型生成结果在多个关键特征上与被侵权作品具有高度相似性,即可认定为实质性相似而构成复制权和改编权侵权。可见,“实质性相似”将是明确大模型训练数据使用合理性的边界,法律应当保护的是大模型在已有作品基础上的创新,而非对既有作品缺乏创造性的剽窃。对于大模型训练数据侵权的救济手段,应当秉持审慎立场,综合考虑大模型的应用价值与对权利人的实际损害。一方面,应当尽量避免要求大模型开发者删除涉嫌侵权的训练数据,以避免导致大模型整体能力的不可控下降,从而给相关产业带来过高负担;另一方面,应当结合被侵权作品的知名度与市场地位、侵权方的应对措施、侵权行为的具体影响范围、对产业发展的潜在影响等予以认定,而不应当过高地认定实际损害,以免为人工智能模型创新与应用施加难以负担的法律成本。

第三,完善版权作品相关方利益分配机制。一方面,允许版权方行使人工智能训练拒绝权将有助于维护版权方合法权益。另一方面,人工智能开发者也可主动采取措施令版权方参与利益分配。OpenAI开展版权屏障计划,将介入并为使用其产品的企业提供版权侵权辩护,并承诺承担客户因应对相关知识产权诉讼而产生的法律费用。[47]在这一模式下,人工智能模型开发者作为大模型应用的获益者承担相应责任,有助于实现版权方和使用者等主体间的利益平衡,进而推动版权保护与技术发展的共赢。

构建开放机制满足公共数据参与语料库建设需求。构建层次化的公共数据开放机制有利于推动公共数据深度参与人工智能训练数据语料库建设,使公共数据的开发利用价值在模型训练过程中得到充分挖掘。不同类型、价值的公共数据对应不同的开放程度,公共数据开放机制可分为完全开放、有限开放与授权运营三个层次。

第一,构建政府主导的公共数据完全开放机制。公共数据完全开放机制具有获取方式的无偿性、开放数据的原始化、获取对象的不特定性等特征。具体而言,公共数据完全开放机制适用于不涉及国家秘密、商业秘密、个人隐私及敏感个人信息的原始数据,具体包括信用、交通、卫生、就业、教育等领域的原始数据开放。[48]公共数据完全开放机制应当由政府主导,建立公共数据开放目录以确定开放范围,通过一体化、集中化的国家数据开放平台汇集各省、市政府职能部门的各类原始数据,以直接获取或下载的方式免费向不特定的社会公众开放,实现原始数据与语料库之间的无障碍对接。

需要注意的是,原始数据虽然具有较高的开发利用价值,但也存在较大的不确定性和安全风险。[49]政府在履行公共数据开放义务的同时,还应当建立公共数据开放安全风险防控机制,采取技术、管理措施防范原始数据安全风险,具体包括开放前的个人数据去标识化处理、开放平台的运营技术维护、开放过程中的动态安全监测以及开放后的安全事件应急预案等。

第二,构建特定对象的公共数据有限开放机制。公共数据完全开放机制虽然能够为语料库建设提供一定量免费的原始数据资源,但面向全体社会公众的无门槛开放必然会限制语料库吸纳更加优质的公共数据资源。未来,通用大模型市场或将呈现寡头竞争格局,面向垂直领域的行业大模型将成为大模型产业竞争的主要领域。[50]与“无数不用”的通用大模型训练不同,行业大模型训练需要更加高质量、专业化的公共数据供给。这些数据的数据量和敏感性不同于完全开放的公共数据,对数据利用主体自身的数据安全管理水平、技术能力有着较高的要求。[51]公共数据有限开放机制以主体的准入资格审核为前提,通过与行政机关签署行政协议的方式获取特定领域的公共数据资源。一方面,能够满足垂直领域的大模型企业对领域数据的特殊需求;另一方面,能够防范优质公共数据的泄露、滥用、遭受攻击等安全风险。

第三,构建面向市场的公共数据授权运营机制。区别于前两种直接的公共数据开放机制,公共数据授权运营是一种间接开放机制,由行政机关授权特定运营主体对公共数据进行加工,从而形成数据产品与服务提供给市场和社会。[52]公共数据授权运营有利于激发市场运营主体活力,释放公共数据的经济价值,提升公共数据资源配置效率,实现数据要素市场的供需匹配。目前,公共数据授权运营实践尚处于探索阶段,主要存在行业主导、区域一体化以及场景牵引三种公共数据授权运营模式。[53]从促进人工智能大模型创新研发的角度来看,基于特定应用场景授权不同运营主体的场景牵引模式更有利于实现领域数据供需方之间的精准匹配,进一步推动金融、医疗、教育、自动驾驶等领域的垂类大模型训练数据语料库建设。

协同促进跨领域数据流通交易规则建立供给激励。面向人工智能创新应用的新时代,我国数据交易市场也应转型突破,适应人工智能产业获取训练数据的现实需求。就交易平台而言,可针对人工智能训练市场,将现有的通用数据交易所转型为“AI数据交易合同”模式,为企业训练人工智能提供定制化的训练数据。就交易标准而言,相关市场主体和监管部门可共同规范训练语料的标注标准,便于语料数据的交易流通。就合同内容而言,人工智能训练方需要遵循诚实信用原则,明确告知数据提供方相关数据的用途并获得授权,避免因超出授权范围使用数据而面临违约风险。

“数据二十条”明确提出,“完善和规范数据流通规则,构建促进使用和流通、场内场外相结合的交易制度体系,规范引导场外交易,培育壮大场内交易”。现阶段,数据交易市场“内冷外热”,引导场外数据交易进场交易,需建立健全场内数据交易规则,为跨领域数据流通交易扫清制度障碍。

一是数据确权规则。首先,探索建立数据资产登记确权制度。数据资产登记能够推动跨领域的数据资源向数据资产的转化,发挥数据资产登记的证明功能,消除跨领域企业入场门槛。其次,规范数据资产价值评估体系。数据资产价值受数据质量、时效、类型等多种因素影响,价值不确定性增加了评估难度,应细化评估指标,综合运用风险评估法、成本效益分析法等多种价值评估方法,构建专业化、领域化的价值评估模型,确保跨领域数据资产价值评估的客观性。最后,完善数据资产入表制度。2023年8月,财政部印发《企业数据资源相关会计处理暂行规定》,明确数据资产可以列入企业财务报表之中。目前,数据资产入表还处于探索实践初期,可通过制定出台数据资产入表的相关规则指引、指南,进一步引导企业完成数据资产入表工作。

二是数据定价规则。解决数据交易纠纷的关键在于确定合理的数据定价规则,但数据定价目前尚未形成统一的规则和标准。鉴于应用场景对数据市场价值的重大影响,可以考虑设置不同行业、不同场景的数据定价机制,尽可能降低由于交易双方信息不对称导致的价格歧视风险。[54]数据交易的具体价格可以结合数据资产价值评估结果进行确定,此外,例如《深圳市数据交易管理暂行办法》第十九条第三款提出的数据质量、数据样本一致性、数据计算贡献、数据业务应用四个维度可以作为数据定价的考量因素。计价方式上,结合数据交易所实践来看,可采取按次计费、按时长计费、固定价格或者面议价格等多种计价方式。

三是收益分配规则。“数据二十条”中提出,数据要素由市场评价贡献、按贡献决定报酬,并按照“谁投入、谁贡献、谁受益”的原则,着重保护数据要素各参与方的投入产出收益。数据流通交易过程中主要涉及数据提供者、数据使用者、数据交易平台三方主体,目前数据要素市场中的收益分配通常是数据交易平台与数据交易双方协商的结果,忽视了原始数据生产者对数据要素生产的贡献。原始数据为数据要素的形成提供了原始材料,是数据要素形成的基础,应当将原始数据生产者作为收益分配主体之一,通过智能合约等方案提升原始数据生产者参与数据要素分配的可行性。[55]

四是供给激励规则。加强数据要素供给激励是“数据二十条”提出的明确要求,数据确权是激励数据流通交易的有效法律手段,除此之外,还应探索经济、技术、管理等多样化的数据要素供给激励举措。目前,已经有多家数据交易平台开始针对不同的数据要素市场主体推出激励方案。例如,深圳数据交易所针对企业建立的数据交易诚信合规激励机制、湖南大数据交易所针对数据交易双方和数据经济商等主体推出的百万交易激励计划、郑州数据交易中心针对数据经纪人推出的千万激励计划等。就跨领域数据交易流通而言,应结合不同领域的市场需求,探索有针对性的供给激励规则。

(本文系国家社会科学基金重点项目“生成式人工智能的法律定位与分层治理研究”的阶段性研究成果,项目编号:23AFX009,课题组成员对本文亦有贡献)

注释

[1][2][3]J. Wei, Y. Tay and R. Bommasani et al., "Emergent Abilities of Large Language Models," Transactions on Machine Learning Research, 2022, 8.

[4]姚佳:《人工智能的训练数据制度——以“智能涌现”为观察视角》,《贵州社会科学》,2024年第2期。

[5]J. Brown, "Comparing GPT–3 vs GPT–4: An AI Expert's In–Depth Guide," https://www.33rdsquare.com/comparing-gpt-3-vs-gpt-4-an-ai-experts-in-depth-guide/.

[6][10][19][22]阿里云智能集团、数字中国研究院(福建):《大模型训练数据白皮书》,阿里研究院,2024年5月24日。

[7]《大模型潮即将耗尽全宇宙文本,高质量数据从哪里来?》,2023年7月17日,https://www.thepaper.cn/newsDetail_forward_23865563。

[8]罗云鹏:《大模型发展亟需高质量“教材”相伴》,《科技日报》,2024年1月15日,第6版。

[9]HIMSS, "Implementing AI and ML From the Ground Up Case Study," https://www.himss.org/resources/implementing-ai-and-ml-ground-case-study.

[11]S. Yin et al., "A Survey on Multimodal Large Language Models," IEEE Transactions on Pattern Analysis and Machine Intelligence, 2024, 4.

[12]OpenAI, "CLIP: Connecting Text and Images," https://openai.com/index/clip/.

[13]杨维铠等:《基于可视分析的训练数据质量提升综述》,《计算机辅助设计与图形学学报》,2023年第11期。

[14]T. Sun, A. Gaut, S. Tang et al., "Mitigating Gender Bias in Natural Language Processing," Annual Meeting of the Association for Computational Linguistics, 2019.

[15]绿盟科技:《安全行业大模型SecLLM技术白皮书》,2023年9月1日。

[16]D. Huynh, J. Hardouin, "PoisonGPT: How We Hid a Lobotomized LLM on Hugging Face to Spread Fake News," https://colab.research.google.com/drive/16RPph6SobDLhisNzA5azcP-0uMGGq10R?usp=sharing&ref=blog.mithrilsecurity.io.

[17]L. Huang, W. Yu, W. Ma et al., "A Survey on Hallucination in Large Language Models: Principles, Taxonomy, Challenges, and Open Questions," arXiv:2311.05232, 2023.

[18]微软亚洲研究院:《价值观罗盘:如何让大模型与人类价值观对齐?》,2024年4月11日。

[20]W3Techs实时统计信息:https://w3techs.com/technologies/overview/content_language,2024年6月18日。

[21]IDC, Global DataSphere 2023, IDC Published, 18 May 2023.

[23]胡凌:《论地方立法中公共数据开放的性质》,《地方立法研究》,2019年第03期第4辑。

[24]Verge, "ByteDance is Secretly Using OpenAI's Tech to Build a Competitor," Verge Tech, 16 December 2023.

[25]K. Lee, A. F. Cooper, J. Grimmelman etc., "AI and Law: the Next Generation–An Explainer Series," GenLaw, 6 July 2023.

[26]R. Morrison, "The Majority of AI Training Data Will Be Synthetic by Next Year, Says Gartner," https://techmonitor.ai/technology/ai-and-automation/ai-synthetic-data-edge-computing-gartner, 2 August 2023.

[27]支振锋:《生成式人工智能大模型的信息内容治理》,《政法论坛》,2023年第4期。

[28]参见北京人工智能高质量数据集服务平台,http://dataset.baiia.org.cn/,最后访问于2024年6月18日。

[29]复旦大学数字与移动治理实验室:《中国地方公共数据开放利用报告——省域(2023年度)》,http://ifopendata.fudan.edu.cn/report。

[30]刘金瑞:《生成式人工智能大模型的新型风险与规制框架》,《行政法学研究》,2024年第2期。

[31]中国互联网信息中心:《第53次中国互联网络发展状况统计报告》,2024年3月29日。

[32]杨华权、曲三强:《论爬虫协议的法律性质》,《法律适用》,2013年第4期。

[33]亿欧智库:《2023中国信息与数据孤岛分析报告》,2023年11月21日。

[34]最高人民法院:《知识产权侵权司法大数据专题报告》,2024年6月18日,https://www.court.gov.cn/upload/file/2019/11/22/11/20/20191122112018_45474.pdf。

[35]全球唱片协会:《2018全球音乐报告》,2024年6月18日,https://www.ifpi.org/ifpi-global-music-report-2018/。

[36][43]张平:《人工智能生成内容著作权合法性的制度难题及其解决路径》,《法律科学(西北政法大学学报)》,2024年第3期。

[37]K. Armstrong, "Tesla Surpasses 150 Million Miles Driven with FSD Beta," https://www.notateslaapp.com/news/1360/tesla-surpasses-150-million-miles-driven-with-fsd-beta.

[38]参见浙江省湖州市中级人民法院(2021)浙05刑终87号判决书。

[39]参见国家互联网信息办公室:《网络数据安全管理条例(征求意见稿)》第四章,https://www.cac.gov.cn/2021-11/14/c_1638501991577898.htm。

[40]许中缘、郑煌杰:《数据要素赋能新质生产力:内在机理、现实障碍与法治进路》,《上海经济研究》,2024年第5期。

[41]张军强:《人工智能大模型数据爬取行为的正当性认定》,《中国知识产权》,2024年。

[42]周樨平:《数据爬取的不正当竞争认定规则研究》,《南大法学》,2023年第2期。

[44]徐小奔、杨依楠:《论人工智能深度学习中著作权的合理使用》,《交大法学》,2019年第3期。

[45]刘晓春:《生成式人工智能数据训练中的“非作品性使用”及其合法性证成》,《法学论坛》,2024年第3期。

[46]丁晓东:《论人工智能促进型的数据制度》,《中国法律评论》,2023年第6期。

[47]OpenAI, "New Models and Developer Products Announced at DevDay," https://openai.com/index/new-models-and-developer-products-announced-at-devday/.

[48]《促进大数据发展行动纲要》中提出,“率先在信用、交通、医疗、卫生、就业、社保、地理、文化、教育、科技、资源、农业、环境、安监、金融、质量、统计、气象、海洋、企业登记监管等重要领域实现公共数据资源合理适度向社会开放”。

[49]宋烁:《构建以授权运营为主渠道的公共数据开放利用机制》,《法律科学(西北政法大学学报)》,2023年第1期。

[50]黄哲:《大模型价格战背后的逻辑与真相》,《中国计算机报》,2024年6月10日,第10版。

[51]常江:《公共数据开放立法原则反思和开放路径构建》,《华东理工大学学报(社会科学版)》,2022年第5期。

[52]马颜昕:《公共数据授权运营的类型构建与制度展开》,《中外法学》,2023年第2期。

[53]行业主导模式,即由特定行业主管部门授权运营主体承担本领域公共数据运营;区域一体化模式,即由地区数据管理机构整体授权运营主体开展区域内各类公共数据的市场运营;场景牵引模式,即围绕特定场景的应用需求,在公共数据资源统筹管理基础上,基于特定应用场景将数据分类授权给不同的运营主体。参见孙清白:《公共数据授权运营营利性与公益性的冲突及其制度协调》,《行政法学研究》,2024第3期。

[54]赵精武、周瑞珏:《数据要素市场如何进行数据定价》,《学习时报》,2023年2月17日,第A3版。

[55]王延川、吕君枝:《原始数据提供者参与数据要素收益分配的理论逻辑与实践路径——以共同富裕为视角的考察》,《陕西师范大学学报(哲学社会科学版)》,2023年第3期。

责 编∕韩 拓 美 编∕周群英

Accelerate the Construction of Chinese Training Data Corpus of AI Large Models

Zhang Linghan

Abstract: The three elements of the development of AI large model industry are algorithm, computing power and data, among which the quality of training data corpus directly determines the ability of AI large models. The total amount of Chinese data corpus is seriously insufficient compared with English data corpus, and there are obstacles such as high risk of illegal data collection, insufficient open utilization of public data, uncoordinated copyright system of offline structured data, and no determined data ownership of commercial procurement and cooperation data, which have become institutional bottlenecks restricting the development of artificial intelligence. The development of China's AI large model industry can clarify the conditions for the identification of the legitimacy of network data sources through judicial precedents, coordinate copyright rules to determine the institutional boundaries of the rationality of offline data use, build an open mechanism to meet the needs of public data participation in corpus construction, coordinately promote the establishment of supply incentives for cross-domain data circulation and transaction rules, and break institutional barriers to meet the needs of industrial development.

Keywords: artificial intelligence large model, training data, corpus construction, copyright system, public data

[责任编辑:韩拓]