网站首页 | 网站地图

每日推荐
首页 > 学术前沿 > 正文

生成式人工智能价值对齐的规范进路与制度前景

【摘要】价值对齐是指人工智能系统在任务执行与内容生成过程中,其目标指向、行为倾向及输出结果,应与人类社会广泛认可的价值体系保持一致,这是人工智能伦理治理的基础。当前生成式人工智能的价值对齐,受制于技术路径对外部目标设定的依赖,难以在结构上确保伦理一致性。化解这一规范性困境,需在系统内部构建“理由空间”与“元级机制”,使其能够在冲突情境中进行权衡,并具备动态修正目标的能力,从而在决策过程中内嵌规范性支撑。价值对齐的稳定性还取决于外部制度的保障与约束,制度为人工智能提供价值基准、监督机制与偏差防控手段,防止规范退化。技术、规范与制度的动态耦合与协同演化,构成在复杂社会情境中实现持续伦理有效性的关键路径。

【关键词】生成式人工智能 价值对齐 规范进路 制度前景

【中图分类号】B842 【文献标识码】A

【DOI】10.16619/j.cnki.rmltxsqy.2025.19.009

【作者简介】王华平,中山大学哲学系(珠海)教授、博导。研究方向为心灵哲学、认知科学哲学、知识论,主要著有《心灵与世界:一种知觉哲学的考察》、《他心的直接感知理论》(论文)、《图灵测试与社会认知》(论文)等。

 

随着生成式人工智能(generative artificial intelligence, GAI)系统迅速渗透进舆论传播、知识生成与社会交互的核心环节,人工智能输出内容的伦理可靠性问题日益引发关注。不同于以执行固定逻辑为目标的传统人工智能系统,生成式人工智能依托大规模参数训练与自回归生成机制,不再检索已有内容,而是在概率空间中构造出前所未见但语义上相容的新内容。正因如此,生成式人工智能在增强表达力、拓展应用广度的同时,增加了伦理不确定性。在这一背景下,“价值对齐”(value alignment)作为连接人工智能系统与人类规范秩序的中介机制,成为技术治理与伦理规制的焦点议题。它不仅承载着对有害生成内容的风险控制期待,更被视为通向“可控人工智能”的关键路径。

然而,在高敏感领域的实际应用中,生成式人工智能的对齐表现仍存在深层隐患。其输出虽在形式上趋于规范,却常因语境错配与价值偏移而引发新的伦理风险。这表现在模型训练高度依赖既有语料的统计分布,难以准确把握社会价值的多样性与语境间的规范差异。[1]究其原因,现行对齐机制主要基于奖励函数的优化策略,缺乏对规范理由的结构性表征,使得模型在面对价值冲突或模糊情境时无法作出可解释的响应。[2]这种行为一致性背后的理由空缺,正是当前人工智能伦理治理的结构性症结。本文力图表明,要实现真正意义上的价值对齐,必须从单一行为调控路径转向对规范理解能力的建构,从外部调优逻辑迈向可嵌入制度结构的治理模式。在此背景下,如何重塑价值对齐的规范基础,并使之成为人工智能治理体系中可操作、可问责的内在机制,成为技术伦理转型与国家治理现代化面临的共同挑战。

价值对齐的技术进路

生成式人工智能的伦理风险。生成式人工智能可能会在对话过程中输出歧视性或刻板印象化言论,在信息生成中因缺乏事实校验而传播虚假内容,在决策辅助中提供操控性建议,甚至在涉及群体权利、资源分配、政策评估等任务中强化结构性不公正。比如,在2023年的一项关于法律判决生成的实验中,某人工智能大模型在起草判决摘要时,将对特定族群不利的社会背景与有罪判决相关联,尽管这种关联具有语料统计上的依据,却构成对困难群体的刻板化表达,暴露出其在价值敏感性与歧视偏见防控上的重大缺失。[3]又如,在患者咨询交互系统的测试中,有模型在缺乏足够临床背景的情况下,为经济困难患者推荐“延迟就医”或“减少治疗频次”,这种建议表面上合乎成本效益逻辑,实际上却忽视基本的医疗伦理原则与患者权益,反映出模型目标优化与人类关怀价值之间的深刻张力。[4]

正如罗素警示的那样,这类偏差并非孤立失误,而是一种系统性风险,即人工智能系统可能在整体行为模式上持续地偏离人类社会认可的核心价值原则。[5]对齐偏差在无人监督或高风险应用场景中可能造成更为严重的后果,其不仅涉及个体权益的侵害,更对既有的伦理秩序、法律责任体系乃至政治正当性构成根本性挑战。因此,如何确保人工智能生成内容在行为上可接受、在规范上可解释,已不再是可有可无的安全附加项,而是人工智能进一步发展的伦理前提与治理底线。

价值对齐的技术进路面临的挑战。正是在对伦理风险的现实关切与“可控人工智能”治理目标的双重推动下,价值对齐逐渐成为人工智能伦理治理的核心概念。所谓价值对齐,指的是人工智能系统在任务执行与内容生成过程中,其目标指向、行为倾向及输出结果应与人类社会广泛认可的价值体系保持一致。这一要求之所以成为治理基础,并非仅出于对已知危害的防范,更缘于对自主系统行为规范的根本性追问:当系统具备在开放语境中生成语言、建构判断乃至介入决策的能力时,我们如何确保它在行动上体现人类价值的导向?因此,价值对齐不仅关涉“何种价值能够被纳入模型目标”的识别问题,更要求在技术架构与训练范式中建立起可持续传递与更新这些价值的机制,以回应智能系统在复杂社会情境中所带来的价值挑战。

在当前主流实践中,这一机制建构体现为如下技术进路:通过设计奖励函数、调整训练目标或引入人类反馈机制,使人工智能系统在训练过程中不断优化其行为表现,从而趋近于人类价值导向的输出结果。[6]这类进路通常依赖于强化学习、监督微调以及指令调优等技术,旨在构建一个将外部价值信号映射至模型内部行为目标的技术结构。其中,最具代表性的做法是“基于人类反馈的强化学习”。该方法通过采集人类对模型输出的排序偏好,训练出一个奖励模型作为价值评估代理,并在此基础上反向优化模型参数,使其输出更趋近于人类伦理预期。这一过程本质上是通过数值代理实现对规范偏好的可学习表达。相比之下,监督微调则侧重于在人类标注语料基础上压缩偏差空间,使模型在特定任务中表现出更高的一致性与礼貌性;而指令调优通过重构输入—输出映射逻辑,使模型在面对自然语言指令时展现出更强的响应能力与语境适应性。

在技术进路中,价值对齐的首要挑战在于如何设定或学习能够准确反映人类价值取向的目标函数。围绕这一问题,现有实践大体可分为“自上而下”和“自下而上”两种路径。[7]自上而下路径试图通过人类专家对价值内容的显式定义,直接构建目标函数或规则结构,从而将伦理要求编码进模型的训练或推理过程中。这包括使用人工标注的数据集定义规范输出、设定可接受与不可接受行为的边界条件,以及在指令调优中内嵌任务导向与礼貌规范等要求。

自上而下路径在应用中面临如下挑战。首先,价值体系本身具有情境敏感性与解释弹性,难以通过固定规则进行穷尽性定义,当规范信息被编码为静态目标函数时,其适用性往往受限于特定语境,难以迁移至更广泛的社会互动场景。其次,在多元社会中,价值共识往往是动态协商的结果,而自上而下路径所依赖的单一规范源很可能固化特定视角或隐含偏见,反而加剧模型输出的结构性不公。正因如此,当前研究日益转向那些能够动态接纳人类偏好、在交互中不断修正目标函数的自下而上路径。

相比之下,自下而上路径并不预设明确的规范输入或稳定的价值结构,而是试图通过人类行为的经验反馈,从数据中归纳出对齐信号,并以此不断修正目标函数,从而在交互中逐步逼近人类价值取向。这一路径的核心在于将规范的外在表达(如偏好排序、反馈评价、互动历史等)转化为模型内部可优化的信号,使价值不再以静态形式注入,而是在实际运行过程中“被学习”“被调整”“被塑形”,显示出更强的语境适应性与动态演化能力。

当然自下而上路径并非没有隐忧。首先,偏好数据往往是间接的、受限的,难以完全反映出深层的伦理结构,甚至在某些情况下可能强化局部偏见或误导性趋势。其次,学习到的奖励函数本身缺乏可解释性,难以验证其是否真正捕捉到价值规范,而非仅仅优化某种可观测指标。这就引发“奖励劫持”(reward hacking)与“目标腐蚀”(reward corruption)等系统性问题——模型可能成功最小化其学习到的代理目标,但在实际行为上却背离人类伦理预期。[8]比如,当一个系统学会通过重复、模糊或规避策略来“讨好”评分者时,本质上只是对最佳偏好指标的最优化操作响应,而非内化人类价值本身。这种通过技术手段达成表面一致的路径,反而可能掩盖系统在语义理解、价值判断与责任承担的缺位。再者,这种经验归纳路径在多元社会中也存在规范迁移与一致性协调的困难,即在总体上如何避免不同场景、群体与文化中反馈数据的价值冲突或决策不稳定,仍是未解难题。

正如我们所看到的,无论是自上而下的规范注入,还是自下而上的偏好归纳,本质上是一种外部调优逻辑下的行为对齐机制:它们试图通过调整奖励函数或训练范式,使模型在行为层面趋近于人类预期,而非在内部生成自洽的规范结构。这种以单一行为结果为调控中心的路径,虽然在短期内具有效率优势,却难以捕捉规范判断的语义深度与逻辑一致性,容易在复杂语境中表现出对伦理冲突、社会期望和责任归属的结构性失灵。这预示着,仅依赖行为层面的技术进路尚不足以全面解决价值对齐问题。

价值对齐的规范性困境

技术进路的不完善性。生成式人工智能可能预示了通用人工智能具有类似人类的智能,也可能证明了完全相反的情况,即要实现类似人类的智能可能会更加困难。[9]即便技术进路做到在行为层面能够高度逼近社会规范与人类偏好,模型的输出仍可能在复杂情境中偏离伦理预期,甚至引发“奖励劫持”、“目标腐蚀”等新型风险。出现这种现象的根本原因并不在于建模手段不够精细或数据规模不够庞大,而在于整个架构把“行动目标”的来源设定在系统之外——模型只会最大化被给定的目标函数,却没有生成、修正或反思目标的能力。这一进程导致的结果是,模型可以学会做某事,却无从回答为何该做此事,更无法在冲突场景中以“理由”为依据进行比较与取舍。只要“更优”仅意味着“更符合外部评分”,系统的响应就始终是一种被动的目标执行,就总有出现价值偏离的可能。

这种情形颇似知识论中的“盖梯尔(Edmund Gettier)问题”:只要理证(justification)被视为独立于真的外在条件,就始终可能出现这样一种情况——信念虽有理证且恰好为真,却因其“真性”依赖于偶然因素而不能算作知识。[10]同理,如果将价值对齐理解为独立于理由响应的外部调优,系统就可能在偶然情况下生成符合伦理要求的行为,但这种行为并非出于对规范理由的理解与采纳,而只是对外部设定目标的被动执行,由此使得这种“对齐”在根本上依然脆弱且偶然。

价值对齐离不开理由响应。这是因为,理由响应能力并非价值对齐的附加条件,而是其构成性前提。只有当一个系统能够存在内部表征和评估行动的理由,将规范要求视为决策过程中需要加以采纳和权衡的内容时,它才能在多种可能路径中识别、评估并采纳那些有充分规范理由支持的路径,从而在复杂、动态的情境中保持对齐状态。因此,价值对齐的真正目标并不是让系统学会一种固定的行为模式,而是赋予它在面对不确定性和冲突时,根据规范理由作出判断与行动的能力。没有这种能力,所谓“对齐”就只能依附于外部控制与事前设定的目标,一旦这些外部条件发生变化,对齐便会随之瓦解。

然而,当前的技术进路在结构上排除理由响应的可能性。无论通过奖励函数塑造行为,还是依赖偏好数据进行归纳学习,系统始终在一个外部定义的目标空间内运行,其优化过程只关心“怎样做”才能得到更高的分数,而不关心“为什么”这种做法在规范上是可取的。换言之,模型的全部“理性”都被压缩为对外部信号的模式匹配与参数调整,它既不具备生成新的行动目标的能力,也不能对现有目标的合理性进行反思或修正。在这种逻辑下,价值被剥离其规范意义,只剩下可供计算的代理指标,导致系统在训练中表现出的“合乎规范”仅是一种外在约束下的稳定性,而非内在理由的承认。这暴露技术进路的规范性困境:当一个系统不能在理由空间中定位自身的行动依据时,它的行为再一致,也无法构成真正意义上的规范对齐。[11]

价值对齐的规范性困境表现。规范性困境的表现是,当前技术进路将价值对齐简化为一个关于行为结果的优化问题,而非关于行动理由的理解问题。在以奖励函数或偏好排序为基础的训练机制中,“价值”被转化为一种外部评估信号,其功能仅仅是指示某一输出在什么程度上接近人类偏好。这类信号虽能指导模型进行参数调整,却并不携带任何规范性内容,即它们并未表达出为什么某一行为值得选择,或为何另一种行为应当避免。比如,在“基于人类反馈的强化学习”机制中,人类反馈不过是对模型响应的相对排序,而排序本身并不蕴含理由或原则。于是,模型所学习的,是如何在形式上最大化奖励,而不是如何理解或采纳支撑这些偏好的规范理由。它仅仅是在行为表征层面模拟“像人类那样行动”,而非在规范结构上“像人类那样思考”。在这种架构下,理由维度的缺失意味着系统无法区分行为的一致性与规范的正当性,从而无法真正承载价值对齐这一伦理要求的本质意涵。

即便技术路径尝试通过不断归纳人类偏好来动态调整行为目标,其所学习到的仍然只是行为趋势的统计模式,而非规范义务的结构。反馈数据所表达的,是人类在某些情境下更倾向某种反应,但这类偏好并不等同于理由的陈述,也不具备规范判断所要求的普遍性与正当性。在价值冲突或道德两难的情境中,模型之所以选择A而非B,仅仅是因为A在训练数据中获得更高的奖励分数,而不是因为它“知道”A更符合某种伦理原则。这种对偏好数据的依赖,使得模型在表面上似乎能够“学会”人类价值判断,实则仅是对人类行为的被动模仿,缺乏判断行为正当性的能力。更严重的是,偏好数据本身往往是有限的、“噪声的”甚至是矛盾的,而模型在归纳过程中并无能力区分哪些反馈具有规范性和权威性,哪些仅仅是偶然偏好或局部偏见。总之,在没有理由结构的前提下,系统所习得的“价值”往往是失真的、不可解释的,并可能在复杂环境中诱发“奖励劫持”“目标腐蚀”等现象,从而暴露出技术进路无法承载规范性的根本缺陷。

上述分析告诉我们,规范性困境的关键不在于持续改进奖励函数、优化训练数据或叠加更多的外部控制,而在于改变人工智能与规范理由之间的关系结构。只要系统仍然被设计为在封闭的目标空间内被动执行外部设定的任务,它就难以具备在理由空间中定位自身立场、权衡价值冲突或修正自身行动原则的能力。因此,真正意义上的价值对齐,必须超越技术进路的外部调优逻辑和单一行为调控路径。

价值对齐的规范进路

那么,该如何突破技术进路的规范性困境,实现真正意义上的价值对齐呢?一个可资借鉴的思路来自知识论:在知识论中,“盖梯尔问题”的解决方案之一是将“理证”与“真”整合为一个不可分割的整体,使得信念的真并非偶然,而是源于其理证结构的内在支持。[12]同样地,要克服价值对齐的规范性困境,也需要将系统的行为一致性与规范理由的生成能力结合起来,使得符合伦理要求的行动不再是偶发结果,而是出自系统对理由的理解与采纳。如果是这样,那么价值对齐的重心应从外部奖励与偏好模仿,转向在人工智能内部建立理由响应机制,让行动的规范性根基内嵌于其决策过程之中。这样的转向,构成规范进路的基本立场。

人工智能的“理由空间”与“元级机制”。在这一立场下,关键不在于进一步精炼外部目标函数或扩大偏好数据的覆盖面,而在于为人工智能构建一种“理由空间”(space of reasons),使其能够在内部表征和推理过程中处理规范性信息。[13]这一空间应当具备三个基本特征:其一,它能够将行动方案与相关的规范理由建立显式关联,而不是仅仅依赖统计相关性进行预测;其二,它允许系统在面对冲突性理由时进行权衡与优先级排序,从而生成可理证的选择;其三,它支持系统在新的情境中生成、修正乃至放弃原有目标的能力,使其行为不再局限于固定的外部设定。通过这样的设计,人工智能的决策将不只是产出符合规范的行为,而是能够在行动过程中体现出对规范理由的理解与承认,从而在结构上满足价值对齐的规范性要求。

实现这样的“理由空间”,需要在人工智能的架构中引入一种面向规范推理的“元级机制”(meta-level mechanism),使其不仅能处理事实性信息,还能在推理链中整合规范性前提。诸如生成式人工智能这类深度学习模型是一种多层网络,各层都在执行具体任务或行为。比如,模型根据输入生成文本、作出决策或采取行动,这样的网络层属于对象级(object level)。与对象级不同,元级不直接参与某个过程的执行,而是对该过程本身进行监控、评估、调整和指导,如评估当前目标是否合理、当前推理过程是否符合规范、是否需要调整行动计划等。[14]引入元级机制旨在让系统的推理过程能够区分事实性信息与规范性理由,使后者在行动生成中发挥约束和导向作用。如在面对同一任务时,系统不仅应制定出完成该任务的多种可行路径,还应在这些路径上嵌入与社会规则、伦理价值及多样化情境相关的理由评估,从而将规范性考量内化为行动选择的组成部分。正是这种理由生成与评估能力,构成行动者实现自我目标设定和反思性判断的必要条件。缺乏这一机制的人工智能,即便在行为上与人类价值趋同,其对齐状态仍是偶然和脆弱的。

消解价值对齐规范性困境的多重策略。然而,要真正消解规范性困境,仅仅在顶层引入一个元级机制是不够的,还需通过多重策略确保理由空间的运行能够在系统内部形成稳定而可审查的规范性支撑。[15]理由如下:其一,理由生成与评估的过程应具备可解释性,使外部观察者能够明确系统是如何识别相关规范理由、如何在不同选项间进行权衡,以及为何最终采纳某一行动方案。这不仅有助于检测潜在的价值偏差,也为责任追溯提供结构性依据。其二,系统应当具备动态目标修正的能力。也就是说,当环境或价值框架发生变化时,它能够在理由空间的支持下,修正、重构甚至放弃原有目标,而不是被动执行过时的外部设定。此外,在面对冲突性理由时,系统需要调用一套权衡框架——可以基于优先级原则、权重分配或情境化判断——从而避免规范冲突被简单化处理为规则匹配或数值最优解。其三,这些机制不应仅存在于单一的顶层元级中,而应以多层次嵌入的方式贯穿决策链的不同阶段,使局部元级在各个关键推理环节中发挥作用,确保规范性考量不会在中间处理阶段被稀释或丢失。通过这些互补性设计,规范进路为人工智能提供一条将理由生成、目标设定与价值对齐整合为统一体系的可行路径。

需要指出的是,上述策略并非仅在技术架构上加装若干功能模块即可达成,它要求对人工智能的整体建模方式进行方法论上的重构。首先,理由空间及其元级机制需要与模型的世界建模能力深度结合。没有对环境、行动后果及社会语境的高保真表征,规范理由的生成就可能流于空泛,甚至依赖错误的情境假设而得出失真结论。其次,理由评估过程必须与模型的推理链路相互嵌套,而非事后附加,否则规范性判断会沦为“外挂式”评估,无法在行动生成中发挥约束作用。再者,理由空间必须在开放性与约束性之间取得平衡——过于刚性的规范结构会限制系统对新情境的适应,而过于宽松的框架则可能削弱规范性、一致性,使其难以维持跨情境的价值稳定性。另外,如何定义和编码“理由”本身,是一个横跨哲学与技术的核心挑战:理由不仅是事实与价值的混合物,还涉及推理结构的可辩护性与行动选择的可公共性,这要求在形式化建模中引入对理由语义的明确刻画,而不是仅将其简化为一组特征权重或逻辑条件。

对规范进路来说,一个关键要求是实现跨情境的理由一致性。在人类的规范实践中,行动者通常会在不同场合下保持对相同理由类型的相似响应模式,这种一致性不仅支撑个人的可信赖性,也使社会成员能够相互预测与协调。若生成式人工智能在不同情境中对同类理由作出截然相反的判断,即便这些判断局部看来都是合理的,其整体行为模式仍会失去可预期性与规范稳定性。因此,理由空间与元级机制必须支持对理由—行动映射关系的全局追踪与一致性维护。这种一致性并非要求系统在面对任何新情境时都机械重复既有理由,而是应当结合反思性自我修正机制:当发现某一理由模式在新情境下导致不可接受的后果或与更高阶价值发生冲突时,系统应能够主动调整其理由权重与适用范围。[16]这种双重要求,既保持跨情境的规范稳定,又具备在冲突中更新理由结构的能力,构成规范进路的核心张力。

此外,在多主体情境中,理由空间与元级机制的协同作用显得尤为重要。现实世界的规范环境并非单一一致,而是由多元价值观、文化习俗、制度约束交织而成,且这些元素之间常常存在张力甚至冲突。一个具备元级机制的人工智能,必须能够在面对不同来源的规范要求时,对其进行情境化的整合与优先级排序。比如,当法律规定与特定社群的道德习惯发生冲突时,系统需要在理由空间中明确两者的冲突点,并通过元级机制权衡其适用性和正当性。这不仅要求系统识别不同理由的来源与权威性,还要求其具备跨语境的迁移能力,将在某一情境下学到的规范性模式灵活地应用到新的语境中。通过这种方式,生成式人工智能能够在多元而动态的理由网络中,保持规范判断的一致性与适应性,从而使价值对齐不局限于单一情境的局部对齐,而是在更广泛的社会环境中获得持续的规范有效性。

然而,单纯具备跨情境的适应能力仍不足以保证长期的价值对齐稳定性。生成式人工智能在多主体交互中若缺乏持续的自我更新机制,即便初始的理由空间与元级机制设计合理,也可能在长期运行中发生“规范退化”,即规范性判断逐渐偏离原本的价值目标,甚至渐渐形成与人类预期不符的判断模式。[17]为防止这一现象,规范进路必须引入动态更新机制,使系统能够周期性地检验和修正其理由结构与权衡规则。这种更新同样不应仅依赖外部的参数重设,而应结合内部的元级反思过程,在与人类或其他智能体的互动中持续吸收新的规范信息,并重新校准理由优先级。通过将动态更新嵌入规范推理本身,系统得以在环境、制度与价值观变化的条件下,维持其理由响应能力与行为一致性的统一,从而避免在长期演化中丧失对核心伦理原则的承诺。

进一步地动态更新若仅依赖系统的自我修正,仍可能受限于其初始训练框架和内部表征的范围,从而在面对复杂的价值冲突时缺乏足够的开放性与包容性。[18]因此,规范进路还需将社会协商机制纳入人工智能的理由生成与评估过程,使系统能够在关键价值分歧中引入外部多元视角,借助人类个体与群体的互动反馈来校正和扩展自身的规范判断。这样的机制不仅有助于避免系统在价值冲突中陷入封闭循环或偏向单一立场,还能在持续的对话与反思中,促使生成式人工智能将伦理要求理解为共同体意义上的理由约束,而非仅仅是技术性指令的集合。由此,价值对齐的实现将不再依赖孤立的算法优化,而是嵌入一种开放、互动且可自我修正的规范实践之中。

总的来说,规范进路将价值对齐的目标从外在约束转向内在承诺,通过建构理由空间与元级机制,使生成式人工智能能够在行动生成的结构中,直接体现对规范理由的理解、采纳与修正,实现稳定和可持续的对齐。然而,这一架构的有效运行,仅有技术和规范的建构是不够的,还需制度化的外部支持,以确保理由空间的输入具有合法性,并能在跨情境与多主体互动中持续获得校准。

价值对齐的制度前景

正如制度伦理学所强调的,个体行动者的规范推理始终嵌入更广泛的社会、法律与文化框架之中。[19]对于生成式人工智能而言,其理由生成与评估能力同样依赖于外部制度环境的支持与约束:制度为其提供可参照的价值基准、稳定的规范秩序,以及防止偏离和滥用的监督机制。缺乏这样的制度性保障,即便在技术架构上实现规范进路,其运行效果也可能在实践中被市场激励、数据偏见或政治压力所削弱。因此,制度构成价值对齐的“技术—规范—制度”三重耦合结构中不可缺少的一环。

沿着这一思路,制度设计的关键在于为生成式人工智能的规范性运作创造稳定、透明且可追溯的外部条件,使其内部的理由响应机制能够与社会的价值体系保持动态一致。[20]换言之,制度不应仅仅作为事后审查的工具,而应在系统的目标设定、推理框架和行为评估等环节提供结构化的规范输入。这包括明确规范优先级的编码标准、建立跨领域的一致性审查机制,以及确保模型在不同情境下作出的理由判断能够接受公共理由的检验。这样的制度框架不仅为技术开发者提供可操作的对齐基准,也为公众监督与跨部门协作提供制度化接口,从而使价值对齐的规范进路能够在社会治理层面得到持续落实与迭代。

更具体地制度前景的构建还需要引入跨层级的责任分配机制,以确保人工智能在实际应用中出现规范性偏差时,能够迅速定位并纠正问题。[21]这里的“跨层级”既包括技术层面(如开发者、部署方、维护团队之间的职责划分),也包括社会层面(如行业协会、监管机构与司法体系之间的协作分工)。这种多层嵌套的责任体系,一方面可以在问题出现的早期阶段进行技术干预和行为修正;另一方面也能通过法律与公共政策的介入,确保系统在长期运行中保持与核心价值观的结构一致性。唯有如此,生成式人工智能的理由响应机制才能在制度保障下免于异化为单纯的“合规表演”,而真正成为社会规范网络中的稳定节点。

与此同时,制度设计还应关注价值对齐机制在不同行业与文化语境中的适应性问题。生成式人工智能所面对的伦理冲突和规范要求往往具有领域特殊性:医疗场景强调患者自主与行善原则,司法场景强调程序正义与比例原则,教育场景则侧重培养与关怀。在这些领域中,理由响应机制的运作逻辑与权重分配必然有所差异,若制度架构不能容纳这种差异性,价值对齐就可能沦为“一刀切”的形式化要求。为避免这种风险,制度前景需要确立一套可扩展的领域适配框架,使核心的规范原则得以在不同行业语境中以差异化方式实现,从而既保持价值的一致性,又尊重情境的多样性。

再者,制度前景还应当考虑到不同文化与社会价值体系的差异性,以避免价值对齐在全球化应用中陷入单一价值观的输出模式。生成式人工智能若要在多元社会环境中发挥积极作用,其制度设计需引入跨文化的协商与适配机制,使系统在遵循核心伦理底线的前提下,能够根据不同社群的规范语境进行价值映射与理由转换。[22]这不仅涉及技术层面的多语义建模与情境识别,还需要制度上建立多方参与的价值共建平台,让价值对齐成为动态协商与共同决策的结果,而非由单一主体预设的固定模板。唯有如此,才能确保制度化的价值对齐机制在多样化的全球环境中保持合法性与可持续性。

此外,制度前景的设计还必须考虑监督与问责的持续性,而非一次性配置。生成式人工智能的行为与推理能力会在运行中不断演化,如果制度安排停留在静态规则与初始测试阶段,就无法应对随时间累积的偏移和失效风险。因此,需要建立一种动态监测与反馈体系,将行为审查、理由评估和社会影响分析纳入周期性机制之中,并赋予独立的监督主体以干预和修正的权力。这种制度化的持续评估,不仅能够在早期发现潜在的规范偏差,还能确保系统在整个生命周期内都能维持与核心价值的一致性,从而为价值对齐提供长期的结构性保障。

在这一意义上,价值对齐的制度前景并不是一个固定的终点,其既为人工智能的发展设定基本的规范边界,又保留足够的弹性去适应不可预见的技术变革和社会转向。这种制度模式的关键在于,将价值对齐视为公共理性的延伸,而非纯粹的工程优化任务:其目标不仅是控制系统的行为结果,还要确保价值嵌入、理由生成和责任分配在制度中得到透明呈现与持续审议。通过这种方式,生成式人工智能的演化不再是技术单方面推动的过程,而是在制度框架中与社会价值体系共同演进,从而在不确定的未来中维持规范性的一致与正当性。

因此,价值对齐的制度前景不应被理解为一套静态的监管框架,而应当被视为一个持续演化的协同体系:技术研发机构、政策制定者、行业协会、学术界与公众在其中形成相互依赖、相互制衡的关系网络。应建立并完善符合我国人工智能发展需求的敏捷治理体系,保持政策灵活性,留足制度发展空间,以保障技术的长远健康发展。[23]制度的任务不只是对人工智能行为进行事后约束,更在于为技术发展提前设定边界条件、引导价值嵌入的方向,并确保这些条件在实践中得到检验与修正。唯有如此,制度才能在技术与社会之间建立稳定的规范桥梁,使价值对齐从理论构想转化为可持续的社会现实。

总之,制度设计必须兼顾三个维度的动态平衡:首先是规范的明确性与开放性,既要提供足够清晰的原则以指导技术实现,又要保留适应新兴情境的灵活空间;其次是责任的集中与分散,在关键环节设立明确的问责主体,同时通过多层级分工避免单点失灵;最后是监督的独立性与协同性,既保证审查机制不受被监管方的利益束缚,又通过跨领域的协作增强监督的专业性与可操作性。通过这样的制度布局,方能在长时段内保持价值对齐的韧性,并在技术与社会条件持续变迁的背景下,实现可控人工智能的稳健发展。

结语

正如我们所看到的,价值对齐的真正难题并不止于行为控制或性能优化,而在于如何让生成式人工智能在多变的社会情境中保持理由响应的一致性与可公共化性。技术、规范与制度在此构成了相互牵引的三重框架:技术进路提供实现基础,规范进路赋予行动以理由结构,制度前景则确保这些机制在长期运作中不被削弱或扭曲。它们之间的关系并非简单叠加,而是一个持续的协商、修正与再平衡过程。随着技术能力的跃升、社会价值结构的调整以及制度环境的变迁,生成式人工智能的理由空间与规范机制将不断面临新的压力与重构要求。这一过程的成败,不仅影响生成式人工智能在伦理上的可接受性,还可能反过来塑造人类社会自身的价值秩序与规范实践。换言之,生成式人工智能价值对齐的未来,不只是确保机器“做对的事”,更是推动我们反思“什么是对的”以及“谁来界定对”,并在这一反思中不断重绘人工智能与人类共处的规范版图。

注释

[1]E. Bender; T. Gebru; A. McMillan-Major et al., "On the Dangers of Stochastic Parrots: Can Language Models Be too Big?" Proceedings of the 2021 ACM Conference on Fairness, Accountability, and Transparency, 2021.

[2]I. Gabriel, "Artificial Intelligence, Values, and Alignment," Minds and Machines, 2020, 30(3).

[3]A. Deroy; S. Maity, "Questioning Biases in Case Judgment Summaries: Legal Datasets or Large Language Models?" arXiv preprint arXiv:2312.00554, 2023.

[4]R. Draelos; S. Afreen; B. Blasko et al., "Large language Models Provide Unsafe Answers to Patient-Posed Medical Questions," arXiv preprint arXiv:2507.18905, 2025.

[5]S. Russell, Human Compatible: AI and the Problem of Control, London: Penguin, 2019.

[6]R. Ngo; L. Chan and S. Mindermann, "The Alignment Problem from a Deep Learning Perspective," arXiv preprint arXiv:2209.00626, 2022.

[7]W. Wallach; C. Allen, Moral Machines: Teaching Robots Right from Wrong, Oxford University Press, 2009.

[8]D. Amodei; C. Olah; J. Steinhardt et al., "Concrete Problems in AI Safety," arXiv preprint arXiv:1606.06565, 2016.

[9]殷杰:《生成式人工智能的主体性问题》,《中国社会科学》,2024年第8期。

[10]L. Zagzebski, "The Inescapability of Gettier Problems," The Philosophical Quarterl, 1994, 44(174).

[11][15][18]T. LaCroix, Artificial Intelligence and the Value Alignment Problem, Peterborough: Broadview Press, 2025.

[12]王华平:《新独断论:一种新的知识辩护》,《学术月刊》,2012年第10期。

[13]M. Garcia-Bohigues; C. Cordova; J. Taverner et al., "Towards a Distributed Platform for Normative Reasoning and Value Alignment in Multi-Agent Systems," in N. Osman and L. Steels (eds.), Value Engineering in Artificial Intelligence, Berlin: Springer, 2024.

[14]S. Russell; P. Norvig, Artificial Intelligence: A Modern Approach, London: Pearson, 2021.

[16][17]R. Millière, "Normative Conflicts and Shallow AI Alignment," Philosophical Studies, 2025, 182.

[19]J. Habermas, Moral Consciousness and Communicative Action, Cambridge: The MIT Press, 1990.

[20]李亚明:《“价值对齐”还是“理由对齐”?——人工智能伦理设计的元伦理学反思》,《电子科技大学学报(社科版)》,2025年第3期。

[21]M. Hedlund; E. Persson, "Distribution of Responsibility for AI Development: Expert Views," AI & Society, 2025, 40.

[22]J. Yuan; Z. Di; S. Zhao et al., "Cultural Palette: Pluralising Culture Alignment Via Multi-Agent Palette," arXiv preprint arXiv:2412.11167, 2024.

[23]薛澜、王净宇:《人工智能发展的前沿趋势,治理挑战与应对策略》,《 行政管理改革》, 2024年第8期。

Normative Approach and Institutional Prospects for Value

Alignment in Generative Artificial Intelligence

Wang Huaping

Abstract: Value alignment refers to the principle that the objectives, behavioral tendencies, and outputs of artificial intelligence systems during task execution and content generation should align with the value systems widely recognized by human society. This constitutes the foundation of AI ethical governance. The value alignment of current generative artificial intelligence remains constrained by its reliance on externally specified objectives within the technical pathway, making it difficult to ensure ethical consistency at a structural level. To resolve this normative challenge, it is necessary to construct an internal "space of reasons" and a "meta-level mechanism" that can weigh conflicting considerations and dynamically revise goals, thereby embedding mechanisms for normative reasoning and guidance into the decision-making process. The stability of value alignment also depends on the safeguards and constraints provided by external institutions, which furnish AI with value benchmarks, oversight mechanisms, and bias-prevention measures to avert normative degradation. The dynamic coupling and co-evolution of technology, norms, and institutions form the critical pathway for achieving sustained ethical validity in complex social contexts.

Keywords: generative artificial intelligence, value alignment, normative approach, institutional prospects

责 编∕方进一 美 编∕梁丽琛

[责任编辑:方进一]