网站首页 | 网站地图

每日推荐
首页 > 理论前沿 > 深度原创 > 正文

大模型在网络空间中的安全风险与治理对策

【摘要】随着智能技术的不断发展,大模型日益成为网络空间的新型基础设施,其生成内容借助互联网快速传播,对个人、社会乃至国家治理带来潜在安全风险。这些安全风险深嵌于大模型“数据—训练—评估—应用”的全生命周期,无法依赖单一环节或技术的突破完全解决。推动大模型健康发展,应从数据源头安全、模型训练规范、动态风险评估、应用治理闭环四个方面着手,健全法规标准与敏捷治理体系,构建贯穿大模型全生命周期的立体化、多层次、自适应的综合治理框架。

【关键词】大模型 网络空间 安全风险 安全治理

【中图分类号】TP18 【文献标识码】A

近年来,大模型凭借其卓越的语言理解与生成能力,正在重塑自然语言处理的研究范式,并成为人工智能领域最前沿方向之一。然而,随着大模型在科研、商业和公共服务等场景的广泛应用,其对个人、社会乃至国家治理带来潜在安全风险。大模型所引发的安全问题,不是来源于单一维度的技术挑战,而是深嵌于“数据—训练—评估—应用”的全链路、多层次的系统性风险,贯穿于大模型从开发到落地的全过程。

数据污染:偏见、虚假与隐私泄露的系统性源头

数据风险是大模型最根本的安全挑战。大模型的生成能力,来源于对海量文本数据的深度学习和模式抽取,其内容并非凭空“生成”,而是建立在对既有数据的系统性模仿与归纳之上。为提升语言理解与生成效果,模型训练广泛依赖互联网公开语料。然而,由于互联网内容生产门槛低、规范性较差,训练数据中不可避免地混入偏见、虚假以及敏感信息,埋下诸多风险隐患。首先,由于互联网文本生产门槛低、内容缺乏统一审核标准,训练数据中存在较多偏见信息。这些偏见可能在训练过程中被模型捕捉并固化,导致生成内容出现有害言论,损害社会公正,甚至激化社会矛盾。其次,训练数据中混杂着大量伪科学观点、误导性说法等虚假或未经验证的信息,易导致模型生成包含错误信息的内容,影响用户判断,干扰正常的信息传播环境。再次,训练数据中可能包含未脱敏的个人信息、企业资料甚至涉密内容,若被模型“记忆”并输出,容易造成隐私泄露或信息外泄等问题①。敏感信息的“记忆”和泄露,不仅严重威胁个人隐私安全,触及法律和伦理底线,而且可能损害企业竞争力与国家利益,甚至引发更广泛的安全风险。

当前,降低大模型的数据风险,主要通过两种方式:在数据层面,对训练数据进行清理和筛选;在模型输出层面,引导其输出更符合人类价值观和社会规范的内容。数据清理是大模型训练中最基础且常用的治理手段,旨在训练前剔除带有偏见、虚假、敏感或低质量的样本,从源头上提升模型输出的安全性与可靠性。常用的方法包括基于规则的清理手段,如模板匹配和正则表达式,自动剔除身份证号、家庭住址等隐私信息;基于统计特征的方法,如利用关键词共现频率,识别带有刻板印象的表达;应用训练好的分类模型,过滤谣言、煽动性言论等内容。然而,语言是高度复杂和动态演化的,不良内容和仇恨言论的表达形式也在持续演进,现有的数据清洗方法显得较为“脆弱”。如果采用过于严格的清洗规则,极易造成过度过滤,可能会剔除部分正常讨论、有价值的异见言论、特定社群的独特表达方式等。这不仅会削弱训练数据的多样性与代表性,损害模型在不同文化与语境下的泛化能力,而且可能引入新的偏见,形成“二次伤害”。基于数据清洗的治理策略本质上是一种基于“负面清单”的被动防御,它并不能主动教会模型何为“善”或何为“正当表达”,只能通过排除已知的“恶”来进行消极规避。

数据层面固有的安全风险,难以完全通过传统清洗手段消除,需借助对齐技术(Alignment)进一步强化风险缓解能力。其核心在于规范与约束大模型的输出行为,确保模型生成内容符合人类价值观、社会规范以及实际应用的安全与伦理要求。目前,业界普遍采用人类反馈强化学习(RLHF)作为主流对齐技术。该方法通过收集并利用人类的偏好反馈,训练模型模仿人类的价值判断,从而有效规范大模型的输出行为,促使其生成更符合安全与伦理标准的内容。这一对齐机制虽能从行为层面缓解因训练数据引发的安全风险,提升模型输出的整体安全性和可靠性,但其本质仍为一种表层引导,仅实现浅层对齐。用户一旦使用更加隐蔽、迂回或具有欺骗性的方式重新表述同一请求,可能会绕过模型表层的安全防线,使其输出内部尚未清除的有害知识与敏感信息。

训练范式缺陷:统计预测范式下的认知盲区

大模型的安全风险不仅来自数据本身,而且与其训练方式有关。它的训练目标是学会根据已有的前文,预测下一个最有可能出现的词或字。换句话说,模型并不能真正理解句子的含义或知识,而是通过统计大量文本中词语出现的规律,选择最符合上下文的词语,拼凑出看起来流畅自然的句子。这种缺陷可能导致模型生成看似流畅合理、言之凿凿,但实际上完全错误或凭空捏造的信息,也就是所谓的“幻觉”问题②。“幻觉”具有多种表现形式,如捏造不存在的人物、事件、论文,“张冠李戴”等。香港科技大学的一项研究显示,无论是开源还是商用大模型,普遍存在幻觉风险,平均幻觉率高达59%③。“幻觉”问题不仅会影响模型输出的可靠性,而且可能造成一系列安全风险,误导用户决策、传播虚假信息,甚至被部署在现实系统中引发链式风险。

检索增强生成方法(RAG)是当前应对大模型“幻觉”问题的主要技术手段。其核心理念是将“纯粹基于模型生成”的语言模型,转变为“由外部知识辅助”的生成框架,使模型依赖可溯源的知识来回答问题,而非仅凭训练记忆中的统计模式。具体做法是利用外部知识检索器,将大模型的生成过程与事实性信息源(如知识图谱、数据库)结合,从而提升输出内容的真实性和可验证性,减少虚假信息的产生。集成RAG的模型在生成回答前,会先对用户问题进行检索,从外部知识库中提取若干相关文本片段,作为辅助信息与原始问题一同输入模型,指导其生成更贴近事实、可追溯的答案。目前,腾讯、字节跳动、深度求索等多家大模型厂商已在系统中集成“联网搜索”或“实时检索”功能,以缓解“幻觉”问题,提高输出准确性和可追溯性。尽管检索增强生成方法在减轻“幻觉”现象上已取得一定成效,但仍存在显著局限性。其效果高度依赖检索模块的质量,而现有检索系统常面临召回不全、语义偏移、信息冗余等问题,导致模型可能基于无关或片面信息生成回答。哈尔滨工业大学的一项研究发现,当检索模块返回无关文档时,模型容易偏离问题核心,输出事实错误的内容④。此外,由于大模型生成过程缺乏明确的可解释机制,用户难以判断回答是否真实依据检索信息。

评估方法失焦:自动化评估不全面与人工评估不高效的双重困局

科学、客观、全面的评估是识别模型风险、指导技术优化、建立社会信任、支撑有效监管的基石。传统生成结果的评估方法多基于构建静态评估数据集,通过BLEU、ROUGE等传统的自然语言处理评价指标,计算模型生成结果与人类撰写的“黄金标准”参考答案之间的匹配度。这种方式不以降低生成文本中的有害信息为目标,导致与用户对模型有用性、安全性的真实感知之间存在偏差。例如,经过指令微调和“人类反馈强化学习”对齐后的聊天模型(如Vicuna),尽管在真实对话中远比其原始基础模型(如LLaMA)更受用户青睐,但在传统基准测试上的得分却并未相应提高。有时甚至会因为回答更简洁、更注重安全而导致匹配度下降,分数反而更低。这种评估与现实的偏差,导致开发者可能会过度优化模型在这些传统基准上的分数,而忽视模型在真实世界中的安全性和实用性。

目前,学术界提出一种名为“LLM-as-a-Judge”的新评估范式,即使用一个强大的语言模型(如GPT-4)作为“代理裁判”,自动化评估其他模型的输出质量。相较于传统的自动化评估指标(如BLEU),大模型能够更有效地捕捉文本中的隐含语义与价值倾向,进而在模拟人类评估行为、识别生成内容中的安全隐患方面,表现出更高的灵活性和一致性。然而,使用一个模型去评判另一个模型,其结果在很大程度上只是衡量被测模型与“裁判”模型的观点、风格和价值观的“相似度”,而非一个绝对的“质量”或“安全”分数⑤。这种方式可能促使大语言模型的研究盲目追求与巨头模型价值观的“对齐”,固化为整个行业的优化目标,最终导致“评估霸权”,扼杀技术路线和价值取向的多样性,威胁整个领域的健康。

为弥补自动评估方式不足,业内通常采用人工评估,包括众包评估和红队测试。众包评估是指开发者通过众包平台招募评估员,从主观维度评估模型输出的有用性、无害性与诚实性。但该方法普遍存在两类问题:一是评估员专业能力不足,导致判断失准;二是不同评估者难以达成高一致性,评估结果缺乏可重复性。红队测试方法是指模型开发方联合语言学、网络安全等领域的外部专家,组建多元背景的红队团队,对模型在提示注入、工具滥用、隐私泄露等高风险场景下的表现进行系统化验证。该方法在识别已知风险方面具有一定效果,已成为主流大模型服务商(如OpenAI)的重要补充机制。但红队测试本质上仍是一种人工主导、非穷尽性的评估方式,仅能验证预设漏洞是否存在,难以覆盖开放环境中不断演化的新型风险。在面对快速变化的攻击方式时,存在响应滞后与覆盖盲区等问题,难以形成前瞻性、动态性的风险识别体系。此外,无论是众包评估还是红队测试,人工评估始终难以规模化,无法高效地评估大模型在实际领域大规模应用后持续动态暴露的新问题。

应用风险升级:从生成模型向智能体的应用安全管理

大模型的应用风险管理,构成了一道关键屏障,用于约束大模型运行时的行为,防止其输出违法、有害或误导性信息,确保大模型在实际应用中的安全性、合规性与责任可追溯性。目前,备案制已成为多国监管大模型应用安全的主流手段,通过对大模型进行合规审查、备案登记,结合生成内容的数字水印和溯源技术,实现对模型及其输出文本的监督和管理。例如,相关部门要求大模型服务提供者提交模型信息备案,确保上线模型满足安全合规要求,并鼓励在生成内容中嵌入水印或标签,便于追踪内容来源和责任归属。2023年以来,美国、英国、澳大利亚等国家均发布人工智能内容治理相关规范。我国也出台《互联网信息服务深度合成管理规定》《生成式人工智能服务管理暂行办法》《人工智能生成合成内容标识办法》等政策文件,建立起以模型备案和内容可追溯为核心的“双重机制”,为治理生成内容风险提供了重要抓手。然而,备案制主要依赖于服务提供者的主动申报,是一种自我声明和事后处置技术,存在规则“空转”与无法落地的风险,难以形成治理闭环。

此外,大模型正在快速转型为具备感知、规划和执行能力的智能体(Agent),其风险远超单纯内容生成模型。Agent不仅能够生成文本,而且能调用外部工具、自动执行复杂任务,如邮件发送、数据库操作、云服务调度,甚至能实现任务拆解和自主协同,深度介入物联网等关键系统,带来了越权执行、数据泄露、远程控制等新型安全威胁,导致关键服务中断、隐私泄露乃至物理设备损害等严重后果。近年来,Agent被非法使用的事件频发,暴露出审查机制的滞后问题。不法分子绕过模型内置安全机制,利用未经审查的模型(如Ollama)生成钓鱼邮件,甚至通过WormGPT、FraudGPT等专用于网络犯罪的大模型,编写恶意软件、实施攻击、窃取数据。这类工具已在暗网中流通,形成完整产业链,推动网络犯罪向自动化、工业化加速演进,严重威胁信息安全和社会秩序。因此,传统以生成内容审查为核心的风险管理模式已难以覆盖Agent“行为能力”带来的系统性风险。Agent的自主性、动态执行和链式操作特点,使监管对象不再是单条文本,而是复杂的任务执行链及其与外部系统的深度交互。这对安全风险管理提出更高要求。

构建贯穿大模型全生命周期的综合治理框架

推动大模型健康发展,必须高度警惕贯穿大模型“数据—训练—评估—应用”全生命周期的安全风险,加强技术发展与政策构建的深度协同,从数据源头治理、模型训练规范、动态风险度量、应用治理闭环四个方面着手,构建立体化、多层次、自适应的综合治理框架。

在数据环节,坚持从末端管控向源头治理转型,避免过度依赖训练数据清理和表层行为限制等被动式风险遏制手段,将监管资源与政策重点前移,贯穿数据的采集、加工、流通与管理各环节,着力构建安全、合规、高质量的可信数据基础。考虑到大模型预训练语料广泛来源于互联网,根本之策在于加强网络信息内容生态治理。一方面,落实平台主体责任,建立健全覆盖内容审核、应急处置、正向引导等方面的监管机制,形成全链条、闭环式管理体系。另一方面,针对数据提供商出售的数据,以及大模型厂商所使用训练数据,实施常态化随机抽检与质量评估机制,由主管部门牵头,统筹技术专家、行业组织和科研机构等多方力量,定期发布不符合法律法规及标准要求的数据源“黑名单”,并制定明确的指导原则,引导企业优先采用高价值、强合规的训练数据。推行数据血缘追溯体系,协助大模型厂商构建可追溯、可审查的数据溯源链,满足法律法规和行业标准的审查要求,确保数据来源可查、质量全程可控、责任清晰可溯。

在模型训练环节,正视当前生成式人工智能的技术局限性,从技术研发与训练过程规范化两方面着手,推动技术创新与制度保障有机融合。在技术研发方面,应加强对前沿训练范式的战略引导和必要投入,重点突破现有生成式人工智能训练范式可信度低等关键技术瓶颈,引导模型由“黑箱生成”向“透明决策”转变,为国家重大技术创新和下一代可信人工智能的构建提供支撑。在训练过程规范化方面,由政府推动标准制定,引导行业制定覆盖全流程的训练规范体系,对关键训练环节提出明确要求,使大模型研发过程安全可控。同步建立训练过程信息披露制度,明确发布模型前必须公开关键训练指标和安全评估结果,强化外部监督与行业约束,推动大模型训练活动在安全可靠的轨道上规范运行。

在模型评估环节,为应对现有自动化评估覆盖不全、人工评估效率不高的问题,应广泛联合学术界以及产业界力量,建立全方位的自动评估框架,实现对大规模新兴应用风险度量的动态适应性,提升模型安全评估的全面性与有效性。为此,应构建并维护“动态风险评测基准库”,建立机制鼓励社会各界结合最新社会动态持续更新测试样本。引入第三方机构开展大模型的独立、客观安全评估与合规性验证。评估过程要保留可溯源、可复现、可验证的完整交互记录,为后续审查、追责及模型持续改进提供依据。建立分级分类评估体系,针对不同风险等级和应用领域,设计并实施差异化的评估标准和审查流程,确保评估资源精准配置,风险管理有效实施。

在应用风险管理环节,应突破现有仅依赖自我声明的备案技术,建立“模型备案—行为追踪—风险干预”的全流程闭环治理框架。在模型备案方面,鼓励推广“监管沙盒”,提供一个官方的、隔离的环境进行充分的第三方测试。在行为追踪方面,推动发展“风险内容识别+生成模型溯源”的行为追踪技术,精准检测网络空间中的风险内容以及易感人群,通过大模型溯源快速定位风险来源,为后续干预提供靶向目标。在风险干预方面,针对网络风险的潜在影响,通过大模型生成风险对抗内容,主动降低风险危害影响等级。此外,重点关注智能体在网络空间中的行为风险,建立统一的模型行为日志与调用记录标准,确保工具调用、外部交互及决策链条全流程留痕、可溯源、可追责,增强智能体系统的透明度与可监管性。

【注释】

①杜梦瑶、李清明、张淼等:《面向隐私保护的用户评论基准数据集构建与大模型推理能力评估》,《计算机学报》,2025年第7期。

②刘泽垣、王鹏江、宋晓斌等:《大语言模型的幻觉问题研究综述》,《软件学报》,2025年第3期。

③Bang Y, Ji Z, Schelten A, et al. HalluLens: LLM Hallucination Benchmark[C]//Proceedings of the 63rd Annual Meeting of the Association for Computational Linguistics, 2025: 24128-24156.

④Li M, Li X, Chen Y, et al. Unraveling and Mitigating Retriever Inconsistencies in Retrieval-Augmented Large Language Models[C]//Findings of the Association for Computational Linguistics ACL 2024. 2024: 4833-4850.

⑤Xu W, Zhu G, Zhao X, et al. Pride and Prejudice: LLM Amplifies Self-Bias in Self-Refinement[C]//Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics. 2024: 15474-15492.

责编/银冰瑶 美编/王梦雅

声明:本文为人民论坛杂志社原创内容,任何单位或个人转载请回复本微信号获得授权,转载时务必标明来源及作者,否则追究法律责任。

[责任编辑:周小梨]