网站首页 | 网站地图

每日推荐
首页 > 理论 > 正文

人工智能时代的可信治理

【摘要】生成式人工智能正从应用工具朝着通用基础设施迈进,凭借模型推理与多模态感知,对公共信息的生产与传播流程进行重塑,在提升效率的同时导致风险增加,事实一致性、责任可追溯性、交互安全和数据合规成为信任重建的关键要点。当前,人工智能还不具有规范判断和制度设计的能力,其透明性与伦理边界仍依赖人的设定与监督。对此,需构建“人机协同”的治理格局,凭借技术治理、数据资源、用户素养、生态协同等方面的共同推进,落实工程化规则、合规数据底座和分层能力建设,重新塑造开放、透明、可审计、可问责的可信治理秩序。

【关键词】生成式人工智能 大语言模型 可信治理 数据治理 多主体协同

【中图分类号】TP18 【文献标识码】A

随着生成式人工智能技术的加速发展,基于大语言模型的内容生成工具不断嵌入政务问答、公众咨询、媒体传播等领域,推动信息生产方式由人工编辑向人机协作转变。人工智能生成内容(AIGC)呈现出生成智能化、规模扩张化与主体多样化的趋势,显著降低内容生产的技术门槛,并引发社会信息结构的深度调整。与此同时,“生成式治理”理念开始进入公共事务领域。生成式人工智能技术通过全域数据感知、跨域知识萃取、多情景策略生成等机制,为公共治理提供新的方法论支撑①,对既有信任机制与规范体系提出更高要求。在此背景下,构建兼具制度约束、公共价值导向与社会参与基础的可信治理体系,已成为生成式人工智能发展中亟需回应的关键议题。

大模型应用正在重塑公众信息认知

在生成式人工智能融入内容生产与传播的过程中,信息的生成、使用与核验环节同步演化。这些变化系统性重塑内容生产流程、用户行为角色与信任评判基准,深刻影响公众对信息的认知与判断。

内容创作门槛下降带来生产主体协作多样化。得益于大规模语言模型、多模态生成与自然语言理解等技术的发展,生成式人工智能显著降低创作的技能门槛,使普通用户在文本、图像、音视频乃至代码的内容生产中,具备与专业生产者相近的技术能力。低门槛的工具特性缩短了内容生产周期,同时拓展公众参与的广度,使内容创作从机构主导走向以多方协同为特征的开放模式。生成式工具在与平台分发机制的互动中,逐渐削弱传统由专业机构主导的中心化格局,使内容形态、生产结构与协作逻辑,呈现出分布化、网络化和多样化的发展特征。

内容交互特性增强使得用户治理责任突显化。生成式人工智能的交互特性,让用户在提示词设计、迭代反馈、结果评估等环节,直接对信息生成的方向和质量产生影响。同时,交互特性会影响用户对输出内容的可信度判断和使用行为②。从可信治理的角度来看,用户维度需被纳入大语言模型可信体系,这意味着用户是内容使用者,也是治理的参与者,需要在真实性判断、风险识别和合规使用等方面承担主体责任③。用户不再只是“消费者”,而是共建共治的参与者。用户借助需求与提示限定生成边界,依据真实性与合规性查验决定采信,凭借纠错与风险反馈驱动平台处置与模型迭代,这三者与技术流程、平台规则相互配合,形成共塑信任、共担责任的互动格局。

内容生成模式转变要求信任保障机制制度化。在大模型驱动的内容生成过程中,传统依靠信息源声誉和身份背书的信任模式,难以应对大模型幻觉频发、算法不可完全解释等问题,单纯依靠来源判断可信度的方式逐渐失去效用,取而代之的是以“可操控、可解释、可问责”为特征的制度化信任基准。这需要在算法透明、数据可追溯、责任可分配等方面形成刚性约束,让生成过程可验证、生成风险可防控、生成责任可落实。依靠法律法规、行业标准与技术措施的协同嵌入,用户对生成式内容的信任基础将从特征依赖转向机制保障,进而确保生成式人工智能在公共信息系统与社会治理中的可控性与可靠性。

生成式人工智能带来的冲击

当前,大模型从应用工具向通用基础设施转变,正在改变公共信任的形成途径,并且在政务服务、媒体传播,以及公共咨询等场景之间引发连锁反应。

幻觉输出削弱事实基础。当生成式人工智能缺乏高质量数据支持时,就更容易生成看似合理但与事实不符的内容。例如,除了政策条文虚构、数据口径混淆等情况外,还存在把北京怀柔的雁栖湖错误描述为位于杭州这类地理信息方面的幻觉,这会削弱公共信息的事实基础。从评估角度来看,“事实一致性”与“可验证性”意味着生成内容需要在来源、证据链和时间这三个方面可被外部核查,在现实中常见三种缺口:一是出处指向不清晰或者引用不完整,读者没办法定位原始依据;二是论证过程被省略,只留下结论陈述,导致证据链断裂;三是数据时间与版本没有标注,旧口径和新口径混合使用。这些缺口叠加在一起,使得表面合理的表述难以被证实,并且持续放大“看似可靠、实则无据”的幻觉风险。由此可以看出,幻觉并非偶然的错误,而是训练数据质量、检索增强精度、对齐机制和生成模式等多种因素叠加的结果。当事实核查缺失或者不充分时,失真信息会在平台机制及跨场景复用中不断被放大,持续侵蚀公共认知基础。

算法黑箱阻断责任界定。一些大模型内部生产内容过程的不透明,会导致外部主体无法验证结果的来源及其推理的逻辑。推理型大模型中引入的思维链生成与自更新机制,虽然提升了模型能力,但是也加大过程失去控制的风险④。结论不可解释与过程失控的双重特性,致使责任难以划分与追溯。和“全生命周期可解释与留痕”的要求相比,现实系统一般存在三个关键断裂点:其一,外部难以查看模型的中间检索步骤与推理路径;其二,日志记录中输入处理、特征转换与模型版本迭代的内容往往缺失或不完整;其三,缺乏便于第三方独立审查的可访问验证接口。上述三点相互叠加,进一步削弱识别错误的能力,难以确定责任归属⑤。

交互过程存在安全风险。用户与模型交互过程中缺乏提示词编写技巧和隐私泄露风险意识,在输入时很容易无意识地将身份信息、商业秘密或者受保护的敏感内容透露出来。生成式人工智能可能在多轮对话中保留敏感信息并在其他场景中意外暴露,而在平台管理与用户实践中,对于敏感内容提示、访问权限设定、异常请求拦截及记录留痕等关键环节,仍存在标准不一与执行不力等问题。与此同时,用户对平台的信任程度与使用行为,还会受到系统界面提示与反馈内容质量的影响。当风险提示缺失与留痕工作不完整时,敏感数据更易在多轮会话或协作场景中被非预期地重复调用与扩散,用户的核查意愿由于系统界面中输出结果的确定性表达方式而降低,导致错误信息在未经验证下被迅速扩散,放大潜在风险。

算法、算力、算据缺少可信治理机制的表现

在大模型能力和场景边界不断向外扩展的情形下,支撑其实现“可控、可审计、可问责”的底层条件却未能同步完善,使得大模型输出结果难以复现、责任归属难以界定,同时在风险出现时缺乏灵活应对机制。

算法侧的可见性与合规审查有待提升。从可信治理的视角出发,算法系统理应具备可解释、可追溯与可问责等基本能力。现实运行中,这一完整责任链在多个关键环节发生断裂。由于模型训练和微调阶段的数据范围、对齐策略与参数更新等关键信息披露不足,外部主体难以识别模型输出所依赖的语料边界与内在约束,进而压缩了解释基础和监管空间。模型版本控制与审计日志管理尚不规范,面对“同题异答”或“同题异时答”等现象,往往缺乏连续可追踪的证据路径,难以复原具体状态与推理依据,影响输出结果的稳定性与复现能力。应用界面反馈显著影响用户的信任感知,而内容来源不标注、提示不确定,以及检索与计算工具调用不可见,使用户难以评估推理过程的可靠性与证据强度,使“结果难判、责任难分”的处境进一步加剧。算法偏误与歧视难以被及时识别与纠正,伦理与侵权层面的合规压力随之上升。

算力侧的隔离与供应链可信度存在短板。算力作为运行和服务的承载层面,对审计复现的边界条件,以及证据完整性起到重要作用。当下的难点主要呈现在四个方面:其一,系统对于少数软硬件栈及固件版本存在高度依赖,这压缩了供应链的可验证空间,底层组件透明度欠缺,关键环节呈现出“黑箱化”,外部机构难以建立稳定的可核查基线。其二,多租户共享与弹性调度已然成为常态,虚拟化隔离、侧信道,以及缓存竞争等客观因素提升了潜在干扰和信息外泄风险,推理行为的稳定可观测性降低。其三,跨地域集群在镜像、驱动、补丁与加速库方面的版本一致性难以长时间维持,环境漂移减弱了结果复现和故障定位的可操作性。其四,在线服务的自动扩缩容和热更新记录粒度偏粗,运行环境及权重版本在事后难以准确对应,致使审计与责任认定面临“关键证据缺位”的现实限制。上述这些因素相互叠加,使得“同一算法在不同时间或者环境表现存在差异”的概率增加,扩大了外部核查及归责的不确定性。

算据侧受制于语料质量不稳定与权属不清晰。数据(算据)质量与合规是模型可信的地基,目前至少存在四类结构性问题。一是语料来源多样而权属边界不清,授权类型与使用条件缺乏机器可读标注,批量化治理中难以保持合规一致性。二是当下数据污染和投毒的风险呈现出上升态势,在网络抓取内容的过程中,夹杂了伪造或者质量较低的样本,而合成内容回流到训练环节,引发分布漂移的情况,事实一致性及稳健性都承受了压力。三是元数据和版本管理记录存在不完整的情况,具体涉及采集时点、处理流程、去重策略等方面。在此之后,时效退化、证据链断裂的现象随之出现,使得可追溯及外推判断的空间被压缩。四是样本分布失衡与长尾的匮乏会造成系统性的偏差,一些特定的群体及专业场景存在着表征不足,公平性风险外溢。尤其在训练与优化阶段,若缺少授权核验与可追溯标注,版权侵害与数据泄露风险将同步上升。上述因素共同作用,既降低生成结果与客观事实的吻合度,又加剧对特定群体与专业场景的不利偏差,并在发生争议时使生成依据与流转路径难以还原、责任界定更为困难。

构建四位一体的可信治理方案

人工智能时代可信治理亟需从技术治理、资源建设、用户赋能与生态培育四个维度系统推进,所形成的可信治理方案需贯穿模型构建、运行至退场的全周期,并满足可解释性和可审计性的技术要求。

技术治理需转化为具有执行性的工程规则。技术治理需贯穿模型构建、训练、部署到推理和退场的全流程,并形成标准化的操作规范。在准入阶段,根据应用场景的不同对模型设定评估要求与限定范围。在运行阶段,在日志中详实记录数据来源、处理方式、参数变化与运行环境。在决策生成环节,呈现模型推理路径并提供外部复核接口。在异常处置阶段,建立应对偏差输出、数据违规与侵权的澄清披露、公开更正与用户告知的标准响应流程。另外,在责任划分方面,围绕数据供给、模型开发与应用部署三类主体,明确责任边界,并细化举证流程与奖惩处理机制。通过上述机制嵌入,可信治理将能够实现流程留痕、证据可查,将质量控制与风险管理建立在系统性、可验证的技术基础上。

资源建设需形成合规可用安全的公共底座。数据资源建设方面最关键的是利用公共平台,统筹来源分散、质量不齐及权属不清的问题,形成高质量、可溯源,并且可安全共享的算据基础。具体而言,供给层面,整合权威数据与多语种平行语料,优先补齐高质量中文语料,保证来源可考、内容可核、更新可持续。标准层面,围绕采集、标注、去重、清洗、更新与退出,明确必要的元数据要素,包括时间标记、来源路径与处理流程,并建立质量评估与偏差检测规则,降低统计口径或版本漂移导致的证据链断裂。合规模块层面,推动许可类型、使用范围、期限管理与引用追溯的机器可读标注与自动校核,平台侧同步落实加密存储、访问控制、用途限定与独立审查,形成可检查的合规闭环。工具与服务模块层面,提供标准化接口、标注与许可管理工具、引用追溯组件,以及偏差检测与对齐评测服务,降低机构与开发者的合规成本。运行保障层面,借助建设指引、专项基金及绩效评估等手段,形成“推动立项—制定标准—组织评估—持续改进”的闭环迭代过程,让可用且可信的算据沉淀下来,成为训练、优化与评测的共同基础。

用户赋能需以分层能力建设稳住风险入口。用户的合规性和认知能力直接影响可信治理是否有效,因此需针对不同群体和场景制定相应策略。使用端用户需履行不滥用、不误用、不扩散的基本义务,并对生成内容进行必要的核实与规范引用:对于一般用户,提升其在需求表达、提示词设计、追问澄清、参数限制与结果核验等方面的能力,避免因输入模糊或过度依赖模型输出结果而导致误判。对于政务问答、新闻采编和公众咨询等岗位人员,重点强化内容来源的追溯能力、事实核查能力与敏感信息识别能力,并对交互记录留痕,确保可采信的关键决策具备可查证依据。对于开发与管理人员,着重强化数据合规管理、输出偏差识别、模型质量评测与日志治理等能力,以提升系统供给侧的稳定性与可追溯性。另外,在标准化操作流程方面,建立起具有来源检索、事实复核与偏差识别的基础用户操作流程,并且在关键场景保留交互记录和版本信息,以便事后复核。在制度方面,可以把上述能力要求纳入教育课程、职业培训和平台使用规范,配套场景化提示模板、校验清单与风险告知,借助持续科普降低误用概率,推动构建覆盖广泛的用户治理体系。

生态培育需依托分级与协同机制形成闭环。面向跨域耦合、外溢面广的生成式系统,需建立分级管理、各尽其责、协同运转的治理格局。分类分级依据场景风险与主体类型实施差异化要求:高风险领域从严准入,并开展严格的上线审查与持续评估,低风险应用以提示与教育为主,避免简单化的一体规定。同时,激励与约束并行,对落实数据与输出治理、完成合规与伦理培训的主体给予正向激励,对违规输出与滥用行为依法依规分级处置,并把纠偏公开、用户告知与复盘报告作为程序性要求。分工协作方面,政府部门负责制定标准规范、实施分级监管并推动信息公开,平台与企业承担数据合规与产品质量责任,并开放必要的审计接口与评测通道,学术与专业机构提供独立评估与第三方审计能力,社会公众与媒体参与监督与反馈,形成内外部共同约束的协同治理。此外,积极建设动态评测平台与事故复盘平台,前者围绕透明度、可解释性与安全性,开展常态化测评并适度公开评测结果,后者通过沉淀典型案例、分析工具与操作流程,以服务跨部门联动、能力建设与规则优化。在实施路径上,优先在外部影响显著且信息敏感度高的场景,开展试点与限制范围运行,经评估成熟后有序扩展覆盖范围,逐步形成规则供给、平台支撑、能力培育与社会监督协同发力的长效治理体系。

以技术治理、数据资源、用户教育与生态协同为重点的治理方案,旨在通过工程化规则、合规数据底座、分层能力建设和分级协同机制,重塑开放、透明、可审计、可问责的治理秩序。由于技术迭代迅速与案例积累有限,该方案在不同制度与文化语境下的适用性仍需进一步验证。未来研究可从两个方向深化:一是针对政务服务、医疗咨询、金融决策等高敏感场景,建立可审计、可追责的责任闭环;二是构建可信治理成熟度评估指标体系,以衡量不同国家与行业的治理能力水平。同时,还需前瞻性关注量子计算、脑机接口等新兴技术叠加带来的治理风险。总体而言,人工智能治理体系需通过制度嵌入与人机协同双重路径,推动实现从风险对抗到协同共生的范式跃迁。

【注:本文系北京市社会科学基金项目(项目编号:25GJA010)与北京高校思想政治工作研究重点课题(项目编号:BJSZ2025ZD03)研究成果】

【注释】

①米加宁:《生成式治理:大模型时代的治理新范式》,《中国社会科学》,2024年第10期。

②吴丹、孙国烨:《生成式智能搜索结果可信度研究》,《中国图书馆学报》,2023年第6期。

③钱明辉、李胡蓉、杨建梁:《大语言模型可信:内涵、影响、挑战与对策》,《图书情报工作》,2024年第20期。

④龚煊:《推理模型的治理悖论与突破》,《情报杂志》,2025年第8期。

⑤孔祥维、王子明、王明征等:《人工智能使能系统的可信决策:进展与挑战》,《管理工程学报》,2022年第6期。

责编/李丹妮 美编/王梦雅

声明:本文为人民论坛杂志社原创内容,任何单位或个人转载请回复本微信号获得授权,转载时务必标明来源及作者,否则追究法律责任。

[责任编辑:靳佳]