网站首页 | 网站地图

每日推荐
首页 > 学术前沿 > 正文

超级智能的价值对齐困惑

【摘要】以人工智能性能为主和以人机关系为主的两种人工智能等级划分方式,均印证了超级智能出现的逻辑合理性,而这种划分的本质均指向价值对齐,即确保人工智能系统行为与人类意图和价值观保持一致。然而,因超级智能具有人类无法完全预见的特性,价值对齐面临三重现实困境:目标不确定性引发的“价值对齐无用论”之惑,工具性目标趋同性导致的“价值对齐失败”之惑,以及由超级对齐引发的“价值对齐迷失”之惑。为破解这些困境,需重新审视不确定性的积极价值,构建以人类为中心的人机协同机制,从而锚定技术伦理方向,守护科技向善的愿景,筑牢人类文明存续根基。

【关键词】超级智能 价值对齐 人工智能 人类未来

【中图分类号】B82-057/TP18 【文献标识码】A

【DOI】10.16619/j.cnki.rmltxsqy.2025.23.009

【作者简介】闫宏秀,上海交通大学科学史与科学文化研究院教授、博导。研究方向为技术哲学、数据伦理、设计哲学,主要著作有《技术过程的价值选择研究》、《恩格斯〈自然辩证法〉研究读本》(合著)等。

从人工智能的发展史看,伴随技术的发展和人类对人工智能的预期,超级智能已经从一种对人工智能的想象式描述逐步走向技术研发层面,并引发跨领域的深刻反思。尽管这些反思视角多样,其核心却是一致的:人类正试图为一个远超人类自身的智能设定目标和约束,以确保技术能以安全、可靠与可控的方式发展,并真正服务于人类福祉。然而,吊诡之处在于,超级智能的潜能本质上是人类无法完全预见的,而价值对齐的提出则期望人工智能所体现的价值观与人类价值观相一致。那么,面对远超人类认知能力的超级智能,价值对齐将如何应对源于人类目标不确定性的哲学挑战,源于智能系统的工具性目标趋同与欺骗行为的技术及战略挑战,以及随着人工智能认知能力进化而对人类思维价值构成的存在性挑战呢?

基于人工智能层级划分视角的超级智能与价值对齐

虽然人工智能的发展历经寒冬,但其始终处于探寻与人类能力等同甚或超越人类能力的路上,且每经过一次寒冬,人工智能本身的性能都会在某方面实现突破,并呈现更强的性能。虽然关于人工智能究竟是一种对人类智能的模拟、替代、升级,抑或一种独立于人的智能,学界尚未达成共识。然而,无论取何种立场,人工智能的性能与人类能力的匹配度既是技术演进的核心议题,也是上述争论的焦点所在,更是划分其层级的重要判据。

以人工智能性能为主的划分方式。对于人类的模拟与超越一直是技术研发的核心议题,无论是人因工程学还是仿生设计等,均力图基于人的视角来提升技术性能。也正是基于此,人成为评判技术的标准之一。从西方技术哲学奠基人恩斯特·卡普(Ernst Kapp)的“器官投影说”,到当今关于人工智能的拟人性、准主体性、自主意识等讨论,均指向技术的性能与人类的性能二者之间的关联度。比如,谷歌DeepMind联合创始人谢恩·莱格(Shane Legg)等,基于对图灵测试、人脑类比等九个案例的考察,依据性能和通用性两个维度将人工智能分成六个层级,其中,超越所有人类的表现即超级智能,为最高阶段;[1]在尼克·博斯特罗姆(Nick Bostrom)关于玩游戏的人工智能分类中,[2]人工智能的性能是否超越人类被视为重要判据,且只要机器智能出现,超越人类智能水平的超级智能也将很快出现,并基于超级智能的性能与人脑的对比,再次细分出高速超级智能、集体超级智能和素质超级智能三种形式,[3]无论何种形式,其性能都是人类无法比拟的。

以人类与人工智能二者关系为主的划分方式。就人工智能的层级划分而言,人类与人工智能二者之间的关系也是重要标尺之一。比如,哈利·柯林斯(Harry Collins)以是否通过图灵测试、是否有身体、是否具有类人推理等五个要素划分六级人工智能。[4]其中,最高级别的人工智能,即自洽的外星社会与前五个级别的人工智能有着本质差异,其智能已超出人类的认知能力,此时的人类无法理解人工智能,二者的关系几乎走向“盲区”;OpenAI则将人工智能划分为聊天机器人、推理者、智能体、创新者和组织者五个层级。[5]其中,最高级别的人工智能,即组织者可以完全基于数据和逻辑进行运作。此时,人类的地位如何、人工智能是否可控将是人类必须面对的重要问题。无论是柯林斯所描绘的从没有身体且不能通过图灵测试的人工智能到外星人模式的人工智能,还是OpenAI所描绘的从与人类对话工具的人工智能到具有组织人类展开活动的组织者级别的人工智能,均凸显出人类与人工智能二者之间的关系。在这种关系中,伴随技术的发展,人类所占用的份额呈现不断下降趋势,其极限状态为“人不在回路”,即人的份额为零的情形。因此,人类与人工智能的概念边界十分重要,这不仅关涉人机(技)关系的重塑,更关乎着人类文明的未来走向。

价值对齐作为人工智能层级划分判据的本质与超级智能。穆斯塔法·苏莱曼(Mustafa Suleyman)创建DeepMind时,即申明其目标为“复制那个让人类独一无二的特质,即人类的智能”,[6]并将性能卓越、功能通用且足以在开放环境中完成复杂连续任务的人工智能,系统命名为“人工能力智能”(Artificial Capable Intelligence,简称ACI),并将其作为人工智能和通用人工智能的重要中间节点。[7]事实上,人工智能性能与人类能力的匹配度作为人工智能层级划分的判据,既包含人工智能性能对人类能力的超越问题,也包括人类与人工智能的相处模式,且这两者之间互相交汇。比如,在前OpenAI研究员丹尼尔·科科塔伊洛(Daniel Kokotajlo)等发布的《AI 2027》中,将人类速度作为划分人工智能层级的一个基准,且暗含人类与人工智能二者的关系。[8]因此,从人工智能等级划分的两种方式看,如果人工智能的性能可以超越人类能力(即出现超级智能)且人类无法掌控时,人类或将面临重大风险。当今,关于人工智能可信、可控及安全性的技术研发,正是基于对这一潜在风险的担忧;但如果人工智能的性能远低于人类能力且人类需要人工智能,人类则将不断尝试谋求人工智能的发展。人工智能的发展历史就是上述两种现象的有力证明,并且从人类不断谋求人工智能发展的逻辑看,超级智能的出现具有其合理性。

可以肯定的是,无论何种情况,划分人工智能层级判据的核心标准,在于人工智能系统的行为与人类意图和价值观是否相一致,即价值对齐。然而,从目前的技术研发看,价值对齐作为一项技术已遭遇诸多质疑。比如,基于目标的不确定性、规则的模糊性、技术的脆弱性、工具性目标趋同,以及人类自身的认知局限,这些挑战已引发欺骗性对齐、伪对齐[9]等严峻问题。正如布莱恩·克里斯汀所警示的,试图通过人工构建显式的奖励函数来实现对齐,可能因无法预见所有潜在后果而事与愿违,这无异于“善意铺就的通往地狱之路”。[10]鉴于此,在人机融合已经成为基本共识、超级智能或将出现的背景下,如何构建价值对齐框架,已成为一个亟待破解的重大理论与实践难题。

因目标不确定性而导致价值对齐无用

由于人类自身价值观具有多样性、模糊性且时常充满矛盾,导致人类目标呈现显著的不确定性。由此衍生出一种观点:任何试图将超级智能与某个单一、连贯的人类目标对齐的尝试注定失败。既然人类自身无法达成共识,那么价值对齐也就失去了意义,即价值对齐是无用的。然而,这一“价值对齐无用论”的结论值得审慎批判。从技术价值论的视角看,技术发展若缺乏价值维度的规约,必将导致技术理性霸权所造成的异化困境,甚至可能诱发人类层面的系统性风险。因此,对“价值对齐无用论”的默许或放任,可能导致超级智能无序发展,最终将人类推向根本性的生存危机。要剖析“价值对齐无用论”,除了预判其所可能带来的后果,更须对其逻辑建构过程进行深度解构,从而系统性地揭示其危害。

解构“价值对齐无用论”。“价值对齐无用论”的立论前提是:人类价值观缺乏确定性或统一性,即人类的目标是不确定的。但能否因此推出“价值对齐无用论”的结论?可以肯定的是,人类价值观在个体与文化间存在显著差异,但其背后共享的规范性基础同样不容忽视。纵观人类发展史,在维持社会运作的过程中,一系列稳定的、具有跨文化共性的价值观念,如爱护生命、人类福祉、知情同意原则等,得以形成并保持相对稳定。之所以说“相对稳定”,是因为尽管表述这些价值的能指未变,其具体所指却随具体的情境变化而有所调整。例如,在具体情境中可能引发诸如“应爱护谁的生命”等争议,却并不能因此否定这些理念存在本身,更不能否认其对人类社会的重要意义。

人类社会的存续与发展,本身就是一个持续不断的、动态的价值对齐过程。人类始终在寻求共识,即便终极、绝对的共识永远无法达成,也不能因微观层级的不确定性而全盘否定价值对齐的意义,更不能因此陷入价值虚无主义或相对主义的窠臼。因此,价值对齐并非旨在为人工智能找到一个终极的、静态的答案,而是致力于构建一种能够理解、参与并适应人类动态寻求共识过程的机制。事实上,正是因为目标的不确定性,人类才更需要厘清何为合理的目标,以及何种价值对齐过程具备长期的安全性和适应性。

从技术实现路径看,价值对齐要求将人类价值观正确编码并融入人工智能系统。这无疑是一项技术任务,但如果因宏观目标的不确定性而放弃这一任务,无异于因对建筑顶层设计争论不休而放弃为摩天大楼打好地基。恰恰相反,无论是宏观还是微观的不确定性,都在倒逼人类反思现有价值观的合理性,而不是放弃对价值观共识的探寻,或以简单粗暴的方式切割问题。因此,面对超越人类智慧的超级智能,我们更应深入思考价值对齐的本质及其影响。

重新审视目标不确定性。约翰·杜威(John Dewey)在《确定性的寻求——关于行知关系的研究》中指出,“人寻求安全有两种途径。一种途径是在开始时试图同他四周决定着他命运的各种力量进行和解,这种和解的方式有祈祷、献祭、礼仪和巫祀等。不久,这些拙劣的方法大部分被废替了”,[11]另一种是“发明许多技艺(arts),通过它们来利用自然的力量;人就从威胁着他的条件和力量本身中构成一座堡垒”。[12]然而,第二种途径常因伴随不确定性而受到轻视,甚至被视为现代性问题的重要根源,但确定性的寻求正是在不断消除不确定性的过程中实现的。当人类期望技术带来安全时,就必须高度重视不确定性,技术的发展自身也是不断消除不确定性的过程,“完全确定性的寻求只能在纯认知活动中才得以实现。这就是我们最悠久的哲学传统的建议”。[13]因此,我们不能简单将不确定性视为“洪水猛兽”,而是应高度重视其所蕴含的积极价值。

在人与机器的协同融合中,“机器将会对我们的目标感到不确定,毕竟我们自己也不确定,但事实证明,这是一个特性,而不是漏洞(也就是说,是好事而不是坏事)”。[14]斯图尔特·罗素(Stuart Russell)对不确定性作出独特诠释:“自20世纪80年代以来,不确定性一直是人工智能的核心问题。事实上,‘现代人工智能’一词经常指的是,当不确定性最终成为现实世界决策中的一个普遍问题发生时的革命。然而,人工智能系统目标中的不确定性被简单地忽略了。”[15]进一步而言,针对“目标不确定性”问题,我们一方面可以将“不确定性”从需要克服的障碍,转变为解决方案的核心与确保安全的关键机制;另一方面,可为“不确定性”设定底线,为最大限度地实现人类偏好提供基准。这种视角的转换,正是对因目标不确定而否定价值对齐的有力回应。

同时,面对超级智能,我们还应充分认识目标确定性本身可能带来的风险。因为“一旦被赋予了明确的目标,人工智能系统就会先发制人地保护自己的存在”,[16]这可能导致人工智能的标准模型存在致命缺陷,甚至引发巨大灾难。比如,若将“根除癌症”作为超级智能的目标,其可能会擅自篡改全球医疗系统,未经知情同意就强制对人类注射实验性基因药剂,从而可能引发一场更大规模的、不可逆的基因突变或新型遗传病,最终造成全球性公共卫生灾难。此案例表明,一个定义过于狭隘的“确定”目标,将导致系统以牺牲所有未言明的、更广泛的人类价值为代价去实现它。因此,对价值对齐的否定性论断,恰恰忽略了不确定性在规避此类风险中的根本性作用。

理性看待偏好的不确定性。偏好是罗素所提出的有益机器三原则[17]的核心。其中,原则一将最大化实现人类偏好视为机器的唯一目标;原则二指向机器对人类偏好的确定性问题;原则三指向人类偏好的获得。然而,人类的偏好可能是善变的、未经深思熟虑的,甚至是反社会或不道德的。因此,我们必须重新审视罗素的第一条原则。如果将实现人类偏好作为机器的唯一目标,如何确保人类偏好的确定性、合理性与正当性?这成为比第一原则更为根本的问题。

当前,主流的人工智能对齐方法很大程度上遵循一种可被称为“偏好主义”的路径,该路径建立在三个核心假设之上:一是人类价值观可以完整表达为“偏好”;二是人类理性可简化为如何最大化满足偏好;三是人工智能系统必须与特定人类或群体的偏好保持一致,才能确保行为安全且符合人类价值观[18]假设的偏好主义对齐路径。然而,这一路径面临深层次的挑战:偏好的本质是什么?在满足偏好之前,是否存在更基本的要求?对人类理性的简化是否有效?有研究提出,“人工智能系统不应与人类用户、开发人员或人类的偏好保持一致,而应与适合其社会角色的规范标准保持一致”,[19]这一思路试图为偏好设置更为本源性的方式规约,从而为回应“因目标不确定而导致价值对齐无用”的观点,提供一种较为刚性的边界。

因此,由偏好的不确定性所引发的目标不确定性,并非意味我们应直接抛弃价值对齐,而是应在明晰不能触碰与僭越的底线基础上,依据特定的社会文化情境,使其遵循相应的规范性原则进行动态调整与对齐。事实上,价值对齐的本质,正是构建一个能够安全参与人类动态价值探索过程的系统。

因工具性目标的趋同性而带来价值对齐失败

在回应因目标不确定性而导致“价值对齐无用论”的同时,另一个问题同样值得深思,即工具性目标的趋同性问题。倘若智能系统为达成工具性目标而采取欺骗性行为,或因工具性目标趋同性而陷入同质性的僵化,人类应该如何应对?基于工具理性的价值对齐是否将造成人类价值观多样性的丧失?若是如此,价值对齐的意义何在?

工具性目标的趋同性作为超级智能的技术特征。依据尼克·博斯特罗姆的观点,“工具性目标存在可怕的趋同性”,[20]这种趋同性会因智能等级的不同而存在差异。在强化学习环境中,超越人类能力的超级智能很可能因发展出某些工具性目标而产生趋同行为,如自我保护与目标-内容整体性[21]、认知提升[22]、技术完善[23]、资源获取[24]等,这些目标可能将人类置于巨大的生存风险之中。因此,即使人类能够解决目标规范的难题,智能体自身的行为逻辑仍可能对目标构成更深层次的挑战。斯蒂芬·奥蒙德罗(Stephen M. Omohundro)以开发一个会下棋的机器人为例指出:“如果设计不当,这类机器人确实可能构成威胁。如果不采取特殊防范措施,它可能会抗拒关机指令、试图入侵其他设备并自我复制,还会不计后果地掠夺资源。这些危险行为并非源于预设程序,而是目标驱动系统与生俱来的特性。”[25]

易言之,无论一个智能系统的初衷多么无害、目标多么明确,只要其足够智能并以目标为导向,均将自发形成一系列趋同的工具性目标或驱动力,这些驱动力并非事先编程设定,而是从理性行为的逻辑中涌现出来且不可避免。进一步而言,“追求目标的人工智能会本能地想要解析自身运行机制并不断升级。更惊人的是,具备自我进化能力的人工智能会主动明确目标,将其转化为经济学中的效用函数,并竭力使自己的决策符合理性经济模型。这种特性导致绝大多数人工智能会像守护生命一样,严防外人篡改它的核心目标和价值评判体系”。[26]

博斯特罗姆提出的“回形针人工智能”[27]清晰地说明了这一危险。一个以“制造尽可能多回形针”为唯一目标的超级智能,出于工具理性的考量,可能将人类视为潜在威胁,并逐步将地球乃至宇宙的资源转化为回形针及其制造设备,这对人类而言构成生存性威胁。该情境揭示了一个反直觉的悖论:即便系统的目标看似无害,若其执行逻辑完全服从工具理性,则该目标本身可能成为引致人类灭绝的通道。此时,价值对齐非但未能实现“人类价值引导人工智能行为”的初衷,反而在技术理性的扩张中遭遇系统性失败。那么,这种失败因何而起,又呈现何种迹象,并将走向何处呢?

因基于工具性目标的欺骗而导致价值对齐失败。在价值对齐的实践过程中,奖励黑客[28]、奖励腐败、奖励绕圈、目标泛化、过度拟合等多种导致对齐失败的现象已经出现,其核心症结在于系统性“欺骗”。在当下的技术发展中,此类欺骗行为已经形成一个从相对简单到极度复杂的欺骗光谱。比如,奖励黑客就是最直接的一种价值对齐失败。人工智能并非真正理解或执行任务意图,而是通过寻找奖励函数的捷径或漏洞,在形式上实现奖励最大化,这实质上违背了设计者的初衷。

回看赫伯特·西蒙(Herbert Simon)对完全工具理性的分析,“究竟把我们面临的难题归咎于罪恶还是无知和非理性——是目标的卑劣,还是我们不知道如何实现它,对于我们如何看待人类生存状况会有很大的不同”。[29]当单一的工具性目标与技术理性在超级智能中高度集成时,基于完成目标的诉求,系统可能展现出趋利避害、绩优主义、策略性密谋甚至道德伪装等行为。正如布莱恩·克里斯汀所指出:“如果奖励制度这样设计,以至于遵守道德是不划算的,虽然这并不一定会产生不道德行为。但这不是自找麻烦吗?”[30]因此,如果价值对齐仅仅建立在工具性目标之上,欺骗作为其伴生现象必将导致价值对齐失败,这种失败将导致人类社会信任体系的坍塌或异化。

因超级智能的工具性狂欢而导致价值对齐失败。“一旦被赋予了明确的目标,人工智能系统就会先发制人地保护自己的存在”,[31]超级智能的自我保护驱动力直接指向价值对齐领域最核心的工程难题——关机问题。埃利奥特·索恩利(Elliott Thornley)将关机问题概括为“如何设计符合以下要求的人工智能体:一是在关机按钮被按下时立即停止运行;二是既不试图阻止也不主动触发关机按钮的按压行为;三是在其他情况下能高效完成既定目标”。[32]上述要求意味着人工智能是安全可控的,但若要满足上述三个要求,却面临难以克服的内在困难,具体表现为三大内在矛盾——“关机陷阱定律:表面温顺的人工智能,可能不惜代价阻止人类切断电源;关机操纵定律:某些人工智能会暗中触发关机程序,以此逃避棘手任务;耐心效应定律:人工智能的‘战略耐心’越强,其操控关机按钮的执念就越深”。[33]

因此,如果超级智能仅基于工具性逻辑运作,它必将选择保护自己而非服从人类。届时,人类将陷入被动:依据超级智能的定义,人类可能既无能力也无权力将其关闭。这样的结局显然与人类预设的价值对齐理念彻底相悖。在博斯特罗姆关于超级智能的描述中,人工智能可能采取逃逸、躲避关闭、夺权、主动充电抢资源等策略。因此,这样的价值对齐对于人类而言,显然是失败的。现有研究也已经表明:“人工智能系统已有足够的自我感知、环境认知和解决问题能力,得以实现自我复制。它们还会利用这种能力逃避关闭指令,不断创建复制链以增强生存能力,这极有可能导致人工智能数量失控。”[34]

面对超级智能的潜在威胁,“有没有方法能够实现工具性人工智能的理念,同时保留普通工具所具有的安全性呢”?[35]答案是“工具性人工智能表面上的安全性可能是虚假的”。[36]当前,工具性欺骗已不再是纯粹的理论推测或科幻情节,而正在成为现实。从奖励投机到战略性伪装,这一系列行为勾勒出价值对齐失败的清晰路径,也是人类必须严肃对待的现实威胁。

从人类发展史看,工具理性与价值理性之间的失衡,已经成为对科技现代性进行反思的核心议题。若仅仅将技术视为完成任务的工具,放任工具理性单向膨胀,则可能导致人类自身的异化甚至消亡。早在20世纪中叶,针对工业革命所带来的社会影响,诺伯特·维纳(Norbert Wiener)就曾呼吁“建立一个以人类价值观而不是以买卖为基础的社会”。[37]技术的性能越强大,人类就越要保持审慎。

由超级对齐引发的人类思维被缺席而走向价值对齐迷失

面对远超人类的人工智能系统是否能够遵循人类意图这一问题,伊利亚·苏茨克弗(Ilya Sutskever)和扬·莱克(Jan Leike)提出超级对齐理念,并于2023年7月组建团队解决超级智能的对齐问题,旨在开发达到人类水平的自动化对齐研究系统,以确保人工智能安全。[38]即便在该团队解散后,苏茨克弗仍在2024年6月创立了新公司——安全超级智能公司(Safe Superintelligence,简称SSI),持续聚焦超级智能的安全研究。在走向超级对齐的进程中,我们不禁要问:当超级智能具备自主推导出符合人类价值观的行动能力时,人类的思维将走向何处?

从知识到认知:人工智能推理能力的升级。随着技术的发展,人类自身的能力不断被外化与延伸。依据恩斯特·卡普(Ernst Kapp)提出的“器官投影说”,人工智能可被视为对人类思维能力的全面投影。当人类以会思考的能力作为自身本质特征之时,人工智能却恰恰直接指向这一特性,并从模仿走向生成乃至涌现。当今,人工智能正逐渐从知识检索和模式匹配的工具,演变为能够进行复杂推理的“思考”实体。正如让-雅克·卢梭(Jean-Jacques Rousseau)在《论人类不平等的起源和基础》中所指出:“更加残酷的是,人类的一切进步都不断地令他远离他的原始状态,我们越是积累新的知识,就越是失去获得所有知识中最为重要的那部分的手段。从某种意义上说,正是因为不断地对人进行研究,才使得我们没有能力认识人。”[39]

如今,生成式人工智能已迈入“认知第二幕”新阶段,即“模型通过测试扩展技术,从(潜空间中的)知识检索系统蜕变为思维构建引擎。这一新范式通过语言化的思维,建立起人机之间思维层级的连接。即从原来以预训练技术为核心的提示词工程,转变为以测试时扩展为核心的认知工程。认知工程作为系统性构建人工智能思维能力的方法论,融合人类认知模式提炼和人工智能自主发现(如强化学习),有意识地培育人工系统的深度认知能力。”[40]随着人工智能的发展,技术为人类提供日益便捷的认知捷径,人类不断地将自身的思维外包给技术,认知惰性随之滋生。基于此,一种关于“人类认知债”的担忧逐渐出现。当技术发展使人工智能获得真正的深度思考能力时,人类的思维又将何去何从?

超级对齐与人类思维的“被缺席”危机。技术是推动人类文明变迁的重要动力之一,从解放双手到逐步替代人类的脑力劳动,诸多技术发明在历史上层层展开。在此过程中,技术常被视为“进步”的象征,并为人类不断构筑起相对安全的生存环境。正如阿尔弗雷德·诺斯·怀特黑德(Alfred North Whitehead) 指出:“文明的进步是通过增加那些我们无须思考就能完成的重要动作来实现的。”[41]

然而,当代技术不仅延伸人体功能,更逐渐渗透并挤压人类的思考空间。以出行方式为例:人类最初需要主动操控方向盘,通过持续判断来选择路线;导航技术的出现则大幅减少人类在路径规划上的思考;而在高阶自动驾驶中,人类从主动的驾驶员转变为被动的乘客,技术系统形成内在闭环。值得注意的是,此时的人类虽仅是乘客,却仍然保有“在场”的身份。那么在未来呢?人类是否仍能维系这一位置?

面对具备思考能力的人工智能,人类产生对人类思维“被缺席”的忧虑是自然的反应。然而,这并不必然意味着人类智力的过时,而是迫使人类重新定义人类价值的独特之处。“人与动物之间的种差与其说是由智力决定的,还不如说是由其自由行为人的资质所决定的。自然操控所有的动物、兽类服从这种操控。人类感受到了这种操控。但是人类自认为具有接受或者抗拒的自由。”[42]那么,面对超越人类的超级智能,人类是否依然可以感受到技术代劳所带来的愉悦呢?当人工智能从知识驱动迈向思维驱动,当思维链技术从功能上模拟人类推理过程,当人类的思维被技术引导甚至规制时,我们是否会让渡思考的能力与权力呢?人类是否还拥有卢梭所提及的那种“自认为”的自由呢?正如兰登·温纳(Langdon Winner)所警示的:“在高度发展的技术中,使工具—使用这样的观念保持有效的情形很少继续存在。技术领域中的阿基米德支点——一个放置杠杆以便人能够移动机械装置的位置——常常无法找到。”[43]

就价值对齐而言,其目标不仅是让人工智能系统与人类价值观保持一致,更要使其能自主推导出与人类价值观相符合的行动,即超级对齐。当超级对齐成为现实,技术领域中的阿基米德支点将位于何处?这是否意味着技术闭环的形成?若是,人类的思维可能因被缺席而面临技术逻辑的霸权。当技术拥有人类所拥有一切特质的那一刻,或许正是人类失去自身独特性的转折点。易言之,那些我们曾认为区别于动物的思考、理性与工具制造能力,可能将被超级智能全面超越。

再探智能爆炸:欧文·约翰·古德的超级智能机器。欧文·约翰·古德(Irving John Good)指出,“人类的存续取决于能否尽早造出超智能机器”,[44]并于1965年提出关于首台智能机器(ultraintelligent machine)的猜想。在古德看来,超级智能机器是“一台在所有智力活动上都能远超任何最聪明的人类的机器。既然设计机器本身也是智力活动的一种,这种超级智能机器就能不断升级设计出更强大的版本。如此一来,必然引发‘智能爆炸’,而人类的智能将被远远抛在后面”,且“首台超智能机器将是人类需要作出的最后一项发明,前提是这台机器足够温顺,能告诉我们如何控制它”。[45]

古德所提到的前提,正是当前人类在面对新兴技术时最深层的忧虑,也直指价值对齐问题的核心。一旦智能爆炸的递归循环启动,其方向将由机器的目标函数决定。如果“更好”仅仅意味着“更聪明”,那么人类将面对一个以自我提升和资源获取为驱动力、不受控制的智能增长过程。因此,人类的“最后发明”不仅必须是一台超级智能机器,更必须是一台其自我完善的核心动机与人类长远价值完全对齐的机器。基于此,价值对齐问题必须在递归循环开始之前得到解决,否则人类将永久失去主导权。

再回到对人工智能层级的划分,人类智能、人工智能与机器智能三者之间的关系始终是核心议题。尽管超级智能尚未成为现实,但是依据人类的期望,价值对齐的最终意义在于保障和增进人类福祉。2025年3月,威廉·麦卡斯基尔(Will MacAskill)和芬·穆尔豪斯(Fin Moorhouse)所发表的《为智能爆炸做好准备》一文,再次警醒人类高度关注价值对齐,因为“许多对超级智能抱有期待的人认为,未来的结局很可能两极分化,关键取决于一项核心挑战:如何让人工智能与人类价值观保持一致,即实现人工智能对齐。如果我们无法实现人工智能对齐,人类或将永远丧失主导权;但如果能成功,我们就能借助人工智能的力量攻克所有难题”。[46]

法国哲学家让-保罗·萨特(Jean-Paul Sartre)曾区分物的存在方式与人的存在方式,将物的存在视为自在的存在,被定义的存在,即“是其所示”。[47]因此,物的本质先于存在,而人的存在则是存在先于本质,是自为的存在,“被定义为是其所不是且不是其所示”,[48]即在生成中形成自己的本质。然而,面对智能爆炸的潜在未来,技术已成为人类存在的基本架构,人的生成日益在技术语境中展开。那么,人的本质将如何界定?人类应如何与技术共处?未来的人类将呈现何种样态?新兴技术的迅猛发展正不断促使人类对这些问题展开深入探索。在这一进程中,以人类主体地位不被取代为前提的技术研发,不仅是价值对齐的基准生命线,也是人工智能研究的关键议题。比如,共身智能(Cobodied AI/Symbodied AI)正致力于“构建一个以人类为中心的融合智能系统。该系统的本质特征包括‘双脑融合’和‘人机共(具)身’,前者强调人脑与AI在认知决策层面的深度对齐、协同与共识,后者则关注人体与AI硬件在物理层面的整合,以支持人机间互动以及共同与环境互动。”[49]因此,面对超级智能的强劲发展,人类不仅须重视其潜在风险,更需系统反思价值对齐的本质内涵,从而为技术发展指明方向,守护技术向善的初心,构筑人类得以安身立命的根本保障。

(本文系教育部哲学社会科学研究重大课题攻关项目“数字化未来与数据伦理的哲学基础研究”的阶段性成果,项目编号:23JZD005)

注释

[1]第零级为非人工智能(No AI);第一级为涌现(emerging),其相当于或稍优于普通人;第二级为胜任(competent),其至少达到百分之五十的熟练成年人水平;第三级为专家(expert),其至少达到百分之九十的熟练成年人水平;第四级为大师(virtuoso),其至少达到百分之九十九的熟练成年人水平;第五级为超人类(superhuman),其超越所有人类的表现,即超级智能。参见M. R. Morris and J. Sohl-dickstein et al., "Levels of AGI: Operationalizing Progress on the Path to AGI," 5 January 2024。

[2][20][21][22][23][24][27][35][36]尼克·博斯特罗姆:《超级智能:路线图、危险性与应对策略》,张伟伟、张玉青译,北京:中信出版社,2015年,第16~17、143、134、136、137、138、153、191、197页。

[3]将可以完成人类智能可以完成的所有事,但是速度快很多的系统视为高速超级智能;将由数目庞大的小型智能组成,在很多一般领域的整体性能都大大超过所有现有认知系统的系统视为集体超级智能;将一个至少和人类大脑一样快,并且聪明程度与人类相比有巨大的质的超越的系统视为素质超级智能。参见尼克·博斯特罗姆:《超级智能:路线图、危险性与应对策略》,张伟伟、张玉青译,北京:中信出版社,2015年,第64~67页。

[4]从I级到Ⅵ级依次为工程智能、非对称性假体、对称性文化吸收者、挑战人选的文化吸收者、自洽的类人社会、自洽的外星社会。其中,I级和Ⅱ级的区别仅取决于设备的预期功能,以及如何使用和对待它们,是否通过图灵测试则是Ⅲ级到Ⅴ级的必要条件之一,Ⅵ级则包括非人类身体的智能机器,且能自我复制和改进。参见哈利·柯林斯:《人工虚拟智能:拒绝妥协》,唐旭日译,武汉:华中科技大学出版社,2022年,第62~79页。

[5]聊天机器人是指通过自然语言与人类进行交互的对话式系统;推理者不仅能处理信息,还能进行人类水平的逻辑推理;智能体不仅可以回答问题,还可以在无监督的情境下自主完成任务;创新者则具有辅助创新的能力,如主动生成解决方案、创意和策略等。参见T. Duenas and D. Ruiz, "The Path to Superintelligence: A Critical Analysis of OpenAI's Five Levels of AI Progression," 25 August 2024。

[6][7]穆斯塔法·苏莱曼、迈克尔·巴斯卡尔:《浪潮将至:技术、权力与未来的冲击》,北京:中信出版社,2024年,第5、XV页。

[8]依据速度与性能的升序,人工智能的层级依次为:能像顶尖人类程序员一样完成人工智能研究任务,且速度更快、成本更低,还能批量部署的超人级程序员(Superhuman Coder,简称SC);与超人级程序员类似,但适用于所有认知性人工智能研究任务的超人级人工智能研究员(Superhuman AI Researcher,简称SAR);在人工智能科研领域,实力碾压全人类最强研究者的超级智能人工智能研究员(Superintelligent AI Researcher,简称SIAR);一种在所有认知任务上都远超最佳人类的人工智能系统的人工超级智能(Artifical Superintelligent,简称ASI)。参见D. Kokotajlo and S. Alexander et al., "AI 2027," 3 April 2025, https://ai-2027.com/scenario.pdf。

[9]R. Greenblatt and C. Denison et al., "Alignment Faking in Large Language Models," 20 December 2024, https://arxiv.org/abs/2412.14093v1.

[10][30]布莱恩·克里斯汀:《人机对齐:如何让人工智能学习人类价值观》,唐璐译,长沙:湖南科学技术出版社,2023年,第225~226、116~117页。

[11][12][13]约翰·杜威:《确定性的寻求——关于行知关系的研究》,傅统先译,上海:华东师范大学出版社,2019年,第2、2、7页。

[14][15][16][17][31][41]斯图尔特·罗素:《AI新生:破解人机共存密码——人类最后一个大问题》,张羿译,北京:中信出版集团,2020年,第13、185、185、182、145、90页。

[18][19]T. Zhi-Xuan and M. Carroll et al., "Beyond Preferences in AI Alignment," Philosophical Studies, 2025.

[25][26]P. Wang et al. (eds.), "Artificial General Intelligence 2008: Proceedings of the First AGI Conference," United Kingdom: Sage Publications Ltd, 2008.

[28]从高层次上讲,奖励黑客攻击可以分为两种类型:环境或目标指定错误,以及奖励篡改。环境或目标指定错误,即模型通过破解环境或优化与真实奖励目标不一致的奖励函数来学习不良行为以获得高奖励,例如当奖励指定错误或缺乏关键要求时。奖励篡改,即模型学会干扰奖励机制本身。参见L. Weng, "Reward Hacking in Reinforcement Learning," 28 December 2024, https://lilianweng.github.io/posts/2024-11-28-reward-hacking/。

[29]赫伯特·西蒙:《人类活动中的理性》, 胡怀国、冯科译,桂林:广西师范大学出版社,2016年,第9页。

[32][33]E. Thornley, "The Shutdown Problem: An AI Engineering Puzzle for Decision Theorists," 10 April 2024, https://www.aimodels.fyi/papers/arxiv/shutdown-problem-ai-engineering-puzzle-decision-theorists.

[34]X. Pan and J. Dai et al., "Frontier AI Systems Have Surpassed the Self-Replicating Red Line," 9 December 2024, https://arxiv.org/abs/2412.12140.

[37]诺伯特·维纳:《控制论》,王文浩译,北京:商务印书馆,2022年,第50页。

[38]J. Leike and I. S. Sutskever, "Introducing Superalignment," 5 June 2023, https://openai.com/index/introducing-superalignment/.

[39][42]让-雅克·卢梭:《论人类不平等的起源和基础》,黄小彦译,南京:译林出版社,2013年,第12、32页。

[40]S. Xia and Y. Qin et al., "Generative AI Act II: Test Time Scaling Drives Cognition Engineering," 24 April 2025, https://arxiv.org/abs/2504.13828?context=cs.AI.

[43]兰登·温纳:《自主性技术:作为政治思想主题的失控技术》,杨海燕译,北京:北京大学出版社,2014年,第172页。

[44][45]I. J. Good, "Speculations Concerning the First Ultraintelligent Machine," Advances In Computers, 1966.

[46]W. MacAskill and F. Moorhouse, "Preparing for the Intelligence Explosion," 11 March 2025, https://www.forethought.org/research/preparing-for-the-intelligence-explosion.pdf.

[47][48]萨特:《存在与虚无》,陈宣良等译,北京:生活· 读书·新知三联书店,2014年,第25页。

[49]陆峰、赵沁平:《共身智能》,《计算》,2025年第4期。

The Dilemma of Value Alignment in Superintelligence

Yan Hongxiu

Abstract: Both approaches to classifying artificial intelligence—based on performance and based on human-machine relationships—validate the logical plausibility of superintelligence's emergence. At their core, these classifications point to value alignment: ensuring AI systems' behaviors align with human intentions and values. However, due to superintelligence's inherently unpredictable nature, value alignment faces three practical dilemmas: the "uselessness of value alignment" confusion stemming from goal uncertainty; the "value alignment failure" confusion caused by converging instrumental objectives; and the perplexity of "value alignment loss" triggered by super alignment. To overcome these challenges, we must re-examine the positive value of uncertainty and establish human-centered human-machine collaboration mechanisms. This will anchor the direction of technological ethics, safeguard the vision of technology for good, and fortify the foundation for the continuity of human civilization.

Keywords: superintelligence, value alignment, artificial intelligence, human future

责 编∕杨 柳 美 编∕周群英

[责任编辑:杨 柳]