人工智能时代的语言与认知_学术前沿

【摘要】语言是人类认知的核心，其演化深刻推动人类文明进程。语言的诞生决定人类从猿到人的进化，汉字的出现则标志着中华文明的成熟。进入20世纪，维特根斯坦的分析哲学和语言哲学揭示语言对认知的根本性约束，乔姆斯基的先天语言能力假说确立语言作为人类核心认知能力的地位，为认知科学的诞生及其与人工智能的融合奠定理论基础。21世纪是认知科学和人工智能的时代，语言的知识体系与认知能力成为技术发展的关键驱动力，而自然语言与人工语言的语义鸿沟，导致人工智能系统难以实现文化层面的语义理解和语用分析。汉语凭借语形加工、语义加工和语用加工的显著优势，成为全球认知科学发展与人工智能竞争中的重要认知工具，为人类探索语言与心智的深层关系提供独特视角和方法。

【关键词】语言认知语言能力认知科学人工智能

【中图分类号】H0-05/TP18 【文献标识码】A

【DOI】10.16619/j.cnki.rmltxsqy.2026.04.008

【作者简介】蔡曙山，清华大学社会科学学院认知科学与技术研究中心主任、教授、博士生导师。研究方向为哲学、语言学、逻辑学、心理学和认知科学，主要著作有《认知科学导论》《我言，故我在——语言、思维、文化层级的高阶认知研究》《自然语言的形式理论研究》《语言、逻辑与认知》《言语行为和语用逻辑》等。

导言

认知科学发端于20世纪50年代的“认知革命”，并在70年代末逐渐成为一个公认的交叉学科领域，其核心学科包括哲学、语言学、心理学、人类学和神经科学，并与计算机科学深度融合，旨在揭开人类心智的奥秘，促进学科的交叉融合与创新发展。在此框架下，计算机科学与认知科学交叉产生的人工智能，已成为一个影响深远、备受关注的领域，并将深刻改变人类未来的发展。

在此探索过程中，对语言本质与机制的揭示，已成为理解人类心智和人工智能的关键问题。根据人类认知五层级理论，语言构成人类认知的基础。在语言的基础上，人类发展出复杂的思维，并借助语言和思维构建起整个知识体系，知识不断积淀，最终形成文化。由此可见，人类的存在，本质上是语言、思维与文化的存在。约在600万年至200万年前，人类发明了抽象符号语言（即概念语言），这成为从猿到人进化的关键转折。人类借此创造出一切物质财富与精神财富，并通过语言构建起城邦和制度，文明时代自此开启。

认知科学让我们认识到，语言的发明是人类历史上至关重要的事件，是使人成为“人”的关键。作为人类最重要的心智和认知能力，语言创造并推动着人类的文化与文明发展。可以说，人类的存在是文化的存在，归根结底是语言的存在。在此意义上，“我言，故我在”的论断得以成立。进入20世纪，以维特根斯坦和乔姆斯基为先驱，人类以空前的睿智重新回归语言这一关键领域，由此开启认知科学与人工智能的新的时代。当前人类面临的诸多机遇和挑战，包括人工智能的兴起，其根源与突破方向皆在于语言。本文立足这一背景，探讨语言与人类认知关系的演进与发展、汉语认知的独特优势及其在未来发展中的重要作用，以期为人类认知发展提供新的理论依据与实践途径。

语言是人类认知的基本能力

语言的发明是人类进化的重要标志，这一重大事件不仅促成人类完成从猿到人的转变，还为人类创造文化和文明奠定基础。

文化（culture）一词源于拉丁语“cultura”，意为“培养”（cultivation）。从广义上讲，文化即“人化”，乃是人类创造的一切成果之总和。具体而言，其涵括物质文化（如电灯电话、飞机飞船）、制度文化（如宪法制度、国家机关、和平庆典），以及精神文化（如语言文字、篆刻书法、音乐绘画、思想观念）。这些不同层面的创造，共同构成人类丰富而多维的文化世界。文明（civilization）一词则侧重于“城邦化”，是文化发展到一定阶段的产物，是人类活动的高级形式。文化与人类同时出现，文明的出现则更为晚近；文化反映人类精神创造的方面，文明则更反映物质生产和社会制度方面。

汉语作为中华民族的主要语言，深刻参与中华文明的创造与发展。作为世界上最古老且持续焕发生机的文明之一，中华文明可追溯至殷商时代（约公元前1600年至前1046年），并在此根基上孕育出博大精深、历久弥新的中华文化。语言在文化与文明的起源、发展过程中的重要作用，如表1所示。

第04期内文（02下）-P112_副本_72_01(1)

第04期内文（02下）-P112_副本_73(1)

可以看出，人类文化和文明的每一次发展和进步，无一不是人类语言运用的结果。在此表中，特别值得关注两个重要事件：一是约在600万年至200万年前，由于言语（口语）的发明，人类祖先与黑猩猩分离，最终进化为人，它是人类诞生的标志；二是3500年前殷商时代文字（书面语言）的发明，这是中华文明起源的标志。这两个事件标志着中华民族已经具备完整的语言系统，即口头语言（语音系统）和书面语言（文字系统）。人类语言作为抽象的概念语言，为人类思维的产生提供基础，即人类能够运用概念进行判断和推理。语言和思维的结合共同创造人类的全部知识，而这些知识积淀为文化。从此，人类具备独特的三种认知方式：语言、思维和文化。

可见，正是语言的发明和使用，改变了人类的进化方向，并推动人类发展日新月异。尽管人类语言的运用已长达数百万年，但对语言本质与心智奥秘的科学探索，直至20世纪认知科学的兴起，才真正进入系统与深入研究的新阶段。

语言与学科知识。语言是一种知识还是一种能力？传统观念中，语言常被视为一种知识。以汉语为例，对中国人而言，语音和文字都属于知识范畴。从胎儿时期母亲的胎教，到婴幼儿阶段的日常语音交流，再到小学阶段语文（语言和文学）成为整个基础教育阶段的主课，这些经验表明，语言是一种后天习得的知识体系。此外，人类所有的知识体系也均是用语言和思维建构的，如数学、物理、文学、哲学等学科知识的形成与发展，都离不开语言的参与。这些现象进一步表明，语言更是人类最重要的认知能力，并且是人类全部知识的基础。

人类的知识系统表现为学科，如古希腊的“三科四艺”。其中，“三科”包括语言、逻辑和修辞，古希腊人认为这是人类最重要的三门知识；“四艺”则涵盖算术、天文、几何和音乐，被视为人类最基本的四种技艺和技能。从古希腊到中世纪，欧美教育传统一直将“三科四艺”作为完善人格的基本途径和重要认知方法。公元9世纪末，欧洲开始出现第一批大学，如法国的巴黎大学、意大利的博洛尼亚大学（被誉为“大学之母”，开设语法学、逻辑学、修辞学和法学课程）、英国的牛津大学和剑桥大学等。到12世纪，西方著名大学将“三科四艺”列为基本课程，形成基本的知识体系。由此看出，人类知识是形成体系的学科知识和技能，知识等同于学科知识。大学的出现强化了以学科为基础的知识学习，现代大学则完全采用分科教育模式。近代以来，人类知识呈现指数级增长，知识和学科的划分愈发精细，最终形成层级复杂、门类众多的庞大现代学科体系。

语言是一种能力。从另一方面来看，语言的本质并非仅是知识或知识体系，其更是人类极为重要的认知能力。

美国语言学家诺姆·乔姆斯基（Noam Chomsky）的理论为我们重新审视语言的本质提供全新视角。乔姆斯基认为，行为主义语言学无法回答关于语言的两个根本问题：其一，假如语言是后天习得，为何母亲未教授孩子所有语句，孩子却能举一反三地学会无穷多的语句呢？其二，孩子能够学会母语（第一语言）及其他民族语言，为何却无法学会其他动物的语言呢？在与行为主义语言学家、心理学家伯尔赫斯·弗雷德里克·斯金纳（B. F. Skinner）的论战过程中，乔姆斯基提出新的语言理论，认为语言并非知识，而是能力，第一语言的认知能力是先天遗传的，而非后天习得。人类凭借这种语言能力建构了所有的知识体系。[1]这就是乔姆斯基的先天语言能力（Innate Language Faculty, ILF）假说，其后得到语言学家哥普尼克（M. Gopnik）等人的实证研究和实验研究的支持。[2]

生成转换语法。在提出先天语言能力科学假说的同时，1957年，乔姆斯基出版《句法结构》，[3]创立生成转换语法（generative transformational grammar）。根据乔姆斯基的句法理论，第一语言的句法加工，并非如行为主义语言学所认为的自下而上（bottom-up）进行，而是自上而下（top-down）展开。以下展示一个英语“主-谓-宾”句式生成模型示例（见图1）。

QQ20260304-105434

借助此模型，可生成无数具有“主-谓-宾”句式的英语语句，如“the man hit the ball”“this boy love that girl”等。需注意，生成规则主要针对直接陈述句的构成进行分析，且动词不作词尾变化，直陈句之外的其他语句和单数第三人称词尾变化等句法结构，则由转换规则予以说明。在该模型中，从树根（sentence）到终端符（T,N,V,T,N）之间的结构，称为深层结构（deep structure），而从终端符到语词（the,man,hit,the,ball）之间的结构，称为表层结构（surface structure）。显然，乔姆斯基的句法理论和生成转换规则，完美解答了行为主义语言学无法回答的关于语言的两个根本问题，即语言的无限生成能力问题，以及不同自然语言之间为何能够互相理解的问题。乔姆斯基的生成句法理论深刻揭示了语言系统的经济性——仅需4种树形结构（即“主-谓-宾”、“主-谓-双宾”、“主-谓”、“主-系-表”），便能生成所有的英语语句。

乔姆斯基的理论不仅实现对所有自然语言的统一，还产生能够统一所有形式语言的形式文法。众所周知，计算机语言就是人类为机器设计的一种形式语言。乔姆斯基的重大贡献可以归为以下三点：其一，他认识到语言学是一种知识，而语言却是一种能力，并提出先天语言能力假说，认为第一语言的能力是先天遗传的。认知科学建立之后，语言被看作是人类最重要且基本的认知能力。其二，他的语言理论彻底改变人类对语言这一能力的认识，深刻影响语言知识的学习和语言能力测试，使重点从知识记忆转向能力培养。其三，他认识到人类不仅能使用语言，而且会创造语言，并且人的语言创造力是无穷的。人类创造了表意的符号语言，从而脱离动物界，并在符号语言的基础上发展出思维、建构知识体系，使知识积淀为文化。语言、思维和文化，共同构成人类特有的认知能力。

图2是生命进化过程中产生的所有语言的分支图，包括人类自发明语言以来所创造的所有语言。可以看出，人类语言包括非符号语言（信号语言）和符号语言两种类型。非人类动物仅具备非符号语言，能传达觅食、求偶、危险预警等与生存直接相关的信号，但无法表达抽象概念。非符号语言包括肢体语言和声音语言：低等动物仅具备肢体语言，其表达依赖肢体接触或视觉感知，传达信息的速度和范围受到限制。而更高级的动物进化出声音语言，其传播以声速进行，语言交际无需身体接触，语言传播的速度和范围显著提高。

第04期内文（02下）-P112_副本_75(1)(1)

从语言演化视角看，人类语言被认为是在非符号语言基础上发展而来的，自然包含肢体语言和声音语言。需要注意的是，人类的肢体语言和声音语言能够表达概念，这与非人类动物存在本质区别。约200万年前，人类发明了表意的符号语言（包括自然语言与人工语言）。根据文字特征，自然语言又分为声音语言和象形语言两类，前者如英语、法语、德语、俄语等，后者以汉语为代表。与自然语言对应的是人工语言，即为特定目的人为创造的语言，包括非形式的人工语言（如世界语）和形式的人工语言（广泛应用于数学、逻辑、计算机和人工智能领域的一阶语言、高阶语言、模态语言、模糊语言）。

认知科学定义的知识和能力。人类认知五层级理论认为，在生命进化过程中，依次产生脑与神经、心理、语言、思维和文化五种心智，从而产生五个层级的认知能力，人类凭借此能力对内部信息和外部信息进行加工，从而形成生存和发展所需要的知识和文化。人类所有的知识体系，无一不是通过语言和思维来建构的。例如，数学就是由一套专用的符号系统，加上公理的推理规则构成。著名的皮亚诺算术系统（Peano Arithmetic, PA）就是其代表，基本内容如下：

语言

皮亚诺算术系统的语言是一种形式语言，其是在一阶语言的基础上增加以下符号而得：

QQ20260304-105908

公理

在这一语言的基础上，可构造一个形式系统，使之能够表明算术运算的系统特征，这就是皮亚诺算术系统，PA有以下7条公理：

QQ20260304-105956

QQ20260304-110009

公理(1)是说，零不是任何数的后继数。公理(2)是说，对任何两个数，如果它们的后继相等，则此二数亦相等。公理(3)是说，任何数与零之和仍然是这个数。公理(4)是说，一个数与另一个数的后继之和，等于此二数之和的后继数。公理(5)是归零律，即任何数与零之积为零。公理(6)是乘法对加法的分配律，即一个数乘以另一个数的后继，等于此二数之积与第一数之和。公理(7)是著名的数学归纳法。

在皮亚诺算术系统中，可推导出一些重要定理。例如：

QQ20260304-110202

等等。

算术是整个数学的基础，而数学又是自然科学和人类理性思维的基石，也是人类最早建立的知识体系之一。若数学基础出现问题，便会引发人类理智和整个知识系统的危机。1901年，英国哲学家、逻辑学兼数学家伯特兰·罗素（Bertrand Russell）在集合论中发现悖论。罗素悖论动摇了整个数学大厦的根基，引发了所谓“第三次数学危机”。悖论出现后，弗雷格、罗素、希尔伯特、哥德尔等一众数学家、逻辑学家与数理哲学家纷纷搁置原有研究，投身于数学基础的拯救工作。这一过程最终催生数学逻辑（mathematical logic）学科，涵盖逻辑演算、公理集合论、模型论、证明论和递归论等重要分支。

在这样的背景下，德国数学家、逻辑学家大卫·希尔伯特在20世纪20年代提出“希尔伯特方案”，即20世纪数学家应该解决的23个基本问题。其中，建立形式数学系统并证明其一致性，是希尔伯特方案的基本问题之一，至关重要。1930年，奥地利数学家、逻辑学家弗雷德里希·哥德尔（Friedrich Gödel）证明了一阶谓词逻辑的完备性定理，该定理表明：在一阶逻辑中，凡是逻辑有效的公式皆可在形式系统内得到证明，这为形式系统的可靠性提供重要支撑。然而，仅一年后，哥德尔发表更具颠覆性的不完全性定理，该定理由两个部分组成：第一不完全性定理指出，任何一个足以表达自然数算术的一致形式系统，必定存在一个真而不可证的命题，因而该系统是不完全的；第二不完全性定理指出，这样的系统无法在内部证明自身的一致性。

简言之，形式数学系统的一致性与完全性不可兼得，一致则不完全，完全则不一致。一致性是任何数学系统或逻辑系统必须满足的基本条件，即系统内部不能存在矛盾，任何一个命题p和非p不能同时为定理。而根据哥德尔定理，任何包括算术系统的数学系统或逻辑系统无法同时实现完全性，即至少存在一个真命题在系统内是不可证的。这一定理深刻揭示出形式系统内在的局限性。这一局限性不仅属于数学。正如维特根斯坦在《逻辑哲学论》中所言：“我的语言的界限意味着我的世界的界限。”[4]物理学家斯蒂芬·威廉·霍金（Stephen William Hawking）由此推论，依赖初等数学的物理学同样受此约束，物理学家所追求的“终极理论”并不存在。因为物理学受底层逻辑的制约，哥德尔定理完全否定了这种无所不包的终极理论的可能性。哥德尔定理不仅约束数学与逻辑的边界，更直接约束依赖形式化系统的人工智能。由于人工智能的逻辑计算本质是形式化推理，其必然面临“一致则不完全”的局限，无法穷尽所有真理，这为理解人工智能与人类心智的根本差异提供逻辑哲学的解释。

在这场从数学基础危机到理性边界反思的过程中，人类展现出卓越的语言发明能力，发明出一种新的语言——形式语言，并以此为基础创造出计算机与人工智能。由此可见，人类用语言构建自身与人类社会，更创造出可能影响人类未来命运的人工智能。

然而，创造知识与驾驭知识的能力并非同一回事。从古希腊开始，西方教育似乎一直忽略一个根本性问题：教育的目标，究竟是向受教育者传授知识，还是培养他们创造与运用知识的能力？这个问题的底层关联着一个更为根本的问题：什么是知识？什么是能力？知识和能力之间是什么关系？直到20世纪50年代中期，这一问题才由乔姆斯基明确提出，并随认知科学的建立而逐步得以回答。

认知科学的发展本身，体现出从关注静态的学科知识，转向探究动态认知能力的深刻转变。笔者认为，心智是人类在进化过程中获得的信息加工能力，从初阶到高阶依次分为脑与神经、心理、语言、思维、文化五种心智能力。人类运用这些心智能力进行信息加工的过程，称为认知。因此，人类拥有与之对应的五个层级的认知能力，即脑与神经的认知能力、心理认知能力、语言认知能力、思维认知能力和文化认知能力。人类所具备的各种能力皆可归入其中，人类所有的知识，均是心智和认知能力的产物。

五个层级的心智和认知能力，与认知科学所涵盖的六大学科结构之间存在“一对多”的映射关系。然而，这种映射是单向的，即仅存在从心智和认知能力指向学科知识，不存在从学科知识到心智和认知能力之间的映射。这表明，认知能力生成了知识，而非知识创造了能力，人类的全部学科知识和学科体系，都是由人类的心智和认知能力所创造的。鉴于五个层级的心智与认知能力是一个瞬间贯通的整体，因此人类所生成的全部知识本然就应是综合与交叉融合的。在认知空间中，知识本应是处处稠密、融会贯通的，然而学科的设置划分往往是人为的、互相分隔的，这在一定程度上割裂知识的自然联结，有悖于人类的认知特点与规律。随着认知科学建立与人类认知能力增强，这种学科分隔的局面必将逐渐被打破，迎来学科深度融合、知识综合创新的时代。

人工智能时代的语言认知

语言是人类在数百万年漫长进化过程中获得的特殊认知能力。大约在距今600万年至200万年前，南方古猿逐渐发展出表意的符号语言，这种语言不同于其他动物的信号语言，能够协调更大范围的群体行为。凭借这种关键的语言能力，这支在体格上并不占优势的群体得以在生存竞争中取得主导权，最终在约200万年前完成从猿到人的进化。可以说，人类在进化中脱颖而出的唯一优势便是语言。

人类进化史中的另一重大事件，是文字（书面语言）的出现。大约在距今5000年至3500年间，文字的雏形出现并逐渐走向成熟。文字的发明意义深远，它使得人类的经验、知识与文化能够被客观记录和跨代累积。此后，人类的演进不再仅仅依赖以百万年计的缓慢基因进化，而是转向语言、知识和文化的进化，这一过程可以用“代”（generation）来计算，一代约为30年。自从10万代（约300万年）前人类发明口语以来，人类社会呈现加速发展态势，至信息化和人工智能时代，发展速度堪称日新月异（见表2）。

第04期内文（02下）-P112_副本_79(1)(1)

计算机语言系统和逻辑系统。语言对人类的生存与发展至关重要，即便在数字化与人工智能时代亦复如此。在数字化、信息化的人工智能时代，我们需要面对两种核心语言：自然语言与人工语言。人工语言是为实现某种目标人为创造的语言，它又分为两支：一支是非形式的人工语言，如世界语；另一支是形式的人工语言，如一阶语言和高阶语言。

QQ20260304-110503

一阶语言和一阶逻辑系统的强大之处在于它可以解释全部的算术，而算术系统是全部数学的基础。因此，一阶语言和一阶逻辑经过适当扩充，便可以解释全部数学。作为形式化的人工语言的主要代表，一阶语言为人工语言的精确性、可推导性奠定基础，而计算机语言正是在此方向上发展出的二进制形式语言，是人工智能系统的底层语言支撑。

计算机语言是一个二进制的语言系统，这一系统只有两个初始符号——“0”和“1”，我们通常称之为数字化系统（digital system），它由初始符号和形成规则两个部分构成。

初始符号

1：二进制数的一个位，称为“比特”（bit），经解释它表示命题的“真”，或对应线路的“开”，或对应存储介质的“充磁”。

0：二进制数的一个位，称为“比特”（bit），经解释它表示命题的“假”，或对应线路的“关”，或对应存储介质的“消磁”。

形成规则

字节（byte）：由8个二进制数组成，是二进制系统中存储信息的最小单元。

ASCII码（American Standard Code for Information Interchange）：用于信息交换的美国标准代码，它将英文字母和所有的数字、标点符号和常用符号进行编码。

扩展的ASCII码：用两个或更多的字节对汉语等非英语进行编码，可存储各种汉字字体（如宋体、仿宋、楷体、黑体）的点阵信息；可对声音、颜色、图形、图像进行编码。

在这个语言系统之上，我们可以建立一个形式系统，用以进行形式符号的数学运算和逻辑推理，由此得到一个计算机系统。计算机系统包括计算机的指令系统，涵盖数据传送指令、算术运算指令、逻辑运算指令、程序控制指令、输入输出指令等，这些指令则由中央处理器（CPU）负责执行，以完成计算机的各种任务。

人工智能语言系统和逻辑系统。从根本上看，当前阶段的人工智能主要表现为计算机实现的智能。因此，探讨人工智能的许多核心问题，可转化为探讨计算机系统如何实现智能的问题。为深入分析，我们不妨将计算机系统视为由两个功能部分构成：处理符号与意义的语言系统，以及执行规则与演算的逻辑计算系统。相应地，对人工智能的考察也应从这两个维度展开。

一个形式化的语言系统无法和一个自然语言系统完全对应，即两个语言系统之间无法实现在句法、语义和语用上的完全对应和相互理解（在语义上的完全翻译和语用上的完全分析），哪怕是两个自然语言系统之间也难以实现。诗歌翻译是典型例证，正如美国诗人罗伯特·弗罗斯特（Robert Frost）说过：“诗意就是在翻译中要失去的东西。”金岳霖先生也曾指出：“诗意差不多是不能翻译的。”[5]杜甫《登高》中的颔联“无边落木萧萧下，不尽长江滚滚来”，其意象、声律与文化意蕴，在任何另一种语言的翻译中都必然有所损失。这深刻揭示了自然语言间语义与语用转换的根本困境。

机器翻译困境的核心在于自然语言理解与纯粹符号处理之间的鸿沟。对于计算机所使用的人工（形式）语言系统，即便它能完美地进行句法转换和符号操作，是否就意味着它像人类一样理解自然语言的语义？语言和心智哲学家约翰·塞尔（John R. Searle）的中文房间论证模型（Chinese Room Argument, CRA），对这一问题作出回答（见图3）。塞尔设计该实验的目的是反驳“强人工智能”（strong AI），即认为只要程序正确，运行该程序的机器便具备与人同等的“心智”和“智能”。实验中，房间内的操作者并不懂中文，但他凭借一本操作手册（程序），就能将输入的中文符号转换为英文符号，并将其输出房间，能让房间外的人以为自己在与一个懂中文的人交流。[6]塞尔指出，这个房间整体（模拟运行程序的计算机）只是模拟了人类的语言行为，但并未做到真正的语言理解。

第04期内文（02下）-P112_副本_80(1)(1)

从语言认知的层级来看，当前人工智能的语言加工仍停留在语形加工层面，与人类的语言认知存在本质差距——人类兼具更高层级的语义加工（理解符号意义）与语用加工（在说话者、听话者、时间、地点、语境因素中的理解和运用语言）能力，而这正是机器的语言能力与人类的语言能力的差异，也是人工智能未来的发展方向。认知科学表明，语言是思维与文化的载体：语言塑造文化，文化特质亦依附于特定的语言形式。脱离语言去理解文化，难免遗失其精髓。“我言，故我在”的哲学命题对人工智能同样构成挑战。人工智能的未来发展在于真正理解人类语言，进而达到对人类思维和文化的理解。

汉语的语形、语义、语用特质及认知优势

汉语和其他语言一样，由语音（口语）和文字（书面语）两个部分构成。从语言发展的历程看，任何民族的语言都是先有语音，后有文字，文字本质上是记录语音的符号。文字的发展路径大致分为两种：一种是拼音化，如英、法、德、俄等语言，形成的是拼音文字；另一种是拼形化，形成的是象形文字，汉字是目前世界上唯一存在并仍在使用的表意文字体系。中国最早的成熟文字系统可追溯至商朝中晚期（距今约3600年）的甲骨文，历经数千年发展，汉字系统逐渐形成象形、指事、会意、形声、转注和假借这六种造字法，即所谓“汉字六书”。汉代许慎编撰的第一部系统分析汉字形音义的字典《说文解字》，共收录10516个字形，其中包括正篆汉字9353个、异体字（重文）1163个；清代《康熙字典》共收录汉字47035个。此外，汉字是一种视觉文字，其核心的认知功能来源于“看”，因此汉字的书写具有重要意义。在汉字发展的历史上，形成了全人类独一无二的书法艺术，这既是独特的文化认知方式，也是重要的文化艺术形式。

在语言认知、思维认知与文化认知层面，汉语和汉字展现出独特且不可比拟的优势。该优势可以从汉语的语形加工、语义加工和语用加工三个层次进行分析。语形上，汉字以拼形灵活、造词能力极强为特征；语义上，其音形义统一的视觉属性，有助于提升信息加工效率；语用上，格律诗词、对联等形式蕴含深厚文化语境与隐喻智慧，形成不可替代的认知表达体系。

20世纪50年代以来，语言学家和认知科学家致力于探究人类大脑中语言加工的机制与过程，并明确区分语形加工、语义加工和语用加工三种不同的方式和过程。语形加工主要针对语言符号自身进行操作，语义加工涉及对语言符号及其指称的对象进行操作，语用加工则要对语言符号及其使用者（说者和听者），以及语言使用的时间、地点和语境等多方面因素进行操作。对这三类加工过程的研究，分别对应并形成了语形学（syntax）、语义学（semantics）和语用学（pragmatics）三大领域，构成当代语言学的“三分框架”。

汉语的语形加工。汉语的语形加工是指大脑对汉语的符号进行空间排列的加工方式，主要分为词法加工和句法加工两种类型。词法加工是指用五种基本笔画（横、竖、撇、点、折）组合成偏旁和部首，再由偏旁和部首排成汉字的加工过程。这种构型特征表明汉字是一种拼形文字，而非拼音文字。这种拼形法则具备极高灵活性，同一汉字可呈现不同结构形态。比如，“群”有左右结构“群”与上下结构“羣”之分，“秋”可演变为“禾火”左右结构的“秋”、“禾龜”组合的“龝”，以及“火禾”互换的“秌”。中国人特别喜欢并且最能表达中华文化心理的“福”“寿”二字，在汉字书法中均有一百多种不同的写法，形成“百福”和“百寿”书法作品（汉字书法忌讳雷同，同一作品中若有两个相同的汉字，一定会采用不同的写法），以满足中国人的文化心理需求。这种灵活性在汉字书法中得以充分体现，使汉字书法成为兼具规范性与个性化的艺术形式，而对个体差异性的追求，正是语言认知与认知科学的特质之一。

超强造词能力是汉语词法的另一核心优势。6000个基本汉字本身即可独立语词（单字词），通过排列和组合生成海量复合词：二字词数量介于组合数C(6000,2)=1799.7万个与排列数A(6000,2)=3599.4万个之间；三字词数量在C(6000,3)=359.82002亿个和A(6000,3)=2158.92012亿个之间；四字词（含多数汉语成语）的数量可达C(6000,4)=53.9460164985万亿个。仅从词法上看，汉语可能是世界上所有语言中生成能力最强的语言。[7]掌握6000个基本汉字即可满足全部阅读和书写需求，而英语母语者需掌握2万个单词才能达成同等水平，即便掌握1万个英文单词也难以满足日常需求。

汉语的语义加工。汉语的语义加工，即建立语言表达式与其指称对象之间的映射关系，从而理解表达式意义的过程。在汉语中，语词的指称对象是论域中的个体，而语句的指称对象是论域中的事件。汉字兼具音、形、义统一的视觉属性，这一特性赋予其诸多独特优势。比如，对汉字的加工可以从字形直接获得其意义，而无需经过声音的转换，从而使得汉语加工速度快于任何拼音文字。以阅读《红楼梦》为例，中国读者只需快速浏览页面，便能大致获取篇章信息。而拼音文字（如英文）的阅读过程则需先将视觉文字转换为声音信息，才能进一步获取其意义。如果我们阅读英文版或汉语拼音版《红楼梦》，将无法直接获取其意义。

汉语格律诗词在语义加工方面也有其自身特色。语义问题的核心在于，判断一个命题的真假与推理的有效性，而汉语诗词常以悖论、隐喻等形式承载深层智慧。比如，《红楼梦》第一回“太虚幻境”大门石牌坊上的对联：“假作真时真亦假，无为有处有还无。”[8]便蕴含一个逻辑悖论：从其假可以推知其真；从其真又可以推知其假；从其无可以看到其有，从其有可以看到其无。然而，这种悖论并非自相矛盾，而是需要读者以“悟”领会的语言智慧。这与宋明理学、阳明心学强调的“悟”的认知理念高度契合。唐代刘禹锡《竹枝词二首·其一》中“东边日出西边雨，道是无晴却有晴”，以“晴”隐喻“情”，未提“情”字却精准传递情感。这种语义表达高度依赖汉语语境与汉字特质，脱离其语言环境便难以精准解读。这类作品的认知，往往需要融合语形、语义和语用三个层次，其中隐喻是语言认知的重要方法，属于语用加工和语用学范畴，凸显了汉语语义加工的独特性。

汉语的语用加工。汉语的语用加工，是指通过将汉语与其使用者（说者、听者）、使用场景（时间、地点、语境）关联起来，从而获得完整意义的一种加工方式。说者、听者、时间、地点、语境合称为五大语用要素。语用加工涵盖语义加工和语形加工，任何语言表达式只有在语用加工或语用学的层面上，才能实现意义的完整呈现。而汉语作为典型的语用语言，从汉字、语词、语句到语篇各个层面，均具备极为丰富且深刻的内涵，能够传递其他语言难以表达的思想内容与认知效果。对联“风声雨声读书声声声入耳，家事国事天下事事事关心”，是汉语语用加工的典范。上联中的风雨声和读书声不仅指自然界的风雨和书院中的读书声，更隐喻政治上的风雨和儒家经典所蕴含的士大夫情怀，下联则源自“修身齐家治国平天下”的思想抱负，成为传统知识分子家国情怀的典范表达。句法上，对联严格遵循平仄对仗，兼具音律美感；语义上，虽未明确提及认知主体，却能让读者深切感知到以天下为己任的读书人形象；语用层次上，结合说话人顾宪成的东林党领袖身份、听话人天下儒生的定位，以及明万历年间的历史背景、东林书院的场所属性，方能领会其完整深意。对联所运用的隐喻手法，既是语用加工的常用手法，也是认知科学的重要方法。而这种蕴含文化语境的表达体现了汉语的不可译性，进一步证明汉语的独特性和不可替代性。

深度求索（DeepSeek）等人工智能大模型之所以广受关注，与汉语的特质存在深度关联。其一，高效的语言处理能力，基于深度学习的语言处理系统，能够高效理解和生成汉语，适应汉语的独特性和复杂性；其二，精准的中文语境把握，通过持续收集新的文本数据，保持对中文语言最新发展的敏感度，不断提升对中文语境的理解能力；其三，深层文化和语境挖掘，可理解文言文和现代汉语的多重含义；其四，有助于汉语全球化，借助人工智能技术为全球用户提供汉语学习支持，进一步提升汉语在国际事务中的影响力。可以说，汉语的认知特质成就了人工智能大模型的中文优势，其也为汉语在人工智能时代的传播与应用开辟新路径。

汉语认知的独特价值。在2025年世界人工智能大会上，被誉为“人工智能之父”的杰弗里·辛顿（Geoffrey Hinton）在题为《数字智能是否会取代生物智能》报告中，对人工智能的智能水平给予高度评价。然而，其观点存在部分争议。首先，辛顿认为“人类理解语言的方式实际上很像大模型，因此人类实际上很像大语言模型，也会产生幻觉，经常编造东西”。事实上，人类认知并非基于大数据的语言模型，而是在基于小数据的语言模型上，实现直觉、顿悟、联想和创新。如果我们让人工智能大模型列出“中国最著名的10首古代诗歌”，王维的《山居秋暝》一定在列。但它却无法创作一首同样优美的“诗中有画，画中有诗”的五绝。这正是认知科学的本质：解释人类认知的个体差异性，而语言认知的独特性正是个体认知差异的根源。正如“我言，故我在”所揭示的，语言是人类认知世界的边界。其次，关于辛顿提出的“人类实际上已经无法控制人工智能”的观点，笔者认为，长期来看，人工智能在综合的认知能力方面难以超越人类，必须通过伦理与法律框架防范人工智能带来的风险，而非单纯依赖技术约束。另外，对于辛顿“训练人工智能向善”的主张，根本局限在于纯粹的“训练”难以赋予人工智能稳定的道德判断框架。人工智能的道德问题必须超越技术训练，从更深层的伦理与法律框架中寻求规范与约束。

从人类发明语言以来，语言和文字就决定着人类认知世界的方式和界限。维特根斯坦“我的语言的界限意味着我的世界的界限”的论断，深刻揭示语言对人类认知的决定性作用。经乔姆斯基、奥斯汀和塞尔等学者的共同努力，语言回到心智与认知研究的核心，并奠定以语言为基础的认知科学的统一框架。汉语是中华民族的共同语言，它不仅是中华文明的重要基石，更是信息化和人工智能时代中国人特有的认知能力和共同的认知工具。在人工智能和认知科学时代，汉语和汉字凭借其蕴含的丰富语言信息和文化内涵，将在未来的人工智能竞争中发挥自身的重要作用。

（本文系国家社会科学基金重大项目“认知科学视阈下的中华文化特质研究”的阶段性成果，项目编号：23&ZD238）

注释

[1]N. Chomsky, "A Review of B. F. Skinner's Verbal Behavior," Language, 1957, 35(1).

[2]蔡曙山：《认知科学与未来教育变革》，《人民论坛·学术前沿》，2024年第17期。

[3]诺姆·乔姆斯基：《句法结构》，邢公畹等译，北京：中国社会科学出版社，1979年。

[4]维特根斯坦：《逻辑哲学论》，贺绍甲译，北京：商务印书馆，1996年，第88页。

[5]金岳霖：《知识论》，北京：商务印书馆，1983年，第817页。

[6]约翰·塞尔：《心灵的再发现》，王巍译，北京：中国人民大学出版社，2012年。

[7]蔡曙山：《论语言在人类认知中的地位和作用》，《北京大学学报》，2020年第1期。

[8]曹雪芹著，无名氏续，程伟元、高鹗整理，中国艺术研究院红楼梦研究所校注：《红楼梦》（第四版），北京：人民文学出版社，2022年，第5页。

责编∕杨柳美编∕周群英

Language and Cognition in the Age of Artificial Intelligence

Cai Shushan

Abstract: Language lies at the core of human cognition, and its evolution has profoundly propelled the advancement of human civilization. The birth of language determined the evolution of human from apes to humans, while the advent of Chinese characters signaled the maturation of Chinese civilization. Since the 20th century, Wittgenstein's analytical philosophy and philosophy of language have revealed language's fundamental constraints on cognition. Chomsky's hypothesis of innate language faculty(ILF) has established language as a core human cognitive faculty, laying the theoretical foundation for the birth of cognitive science and its integration with artificial intelligence. The 21st century is the era of cognitive science and artificial intelligence, where linguistic knowledge systems and cognitive abilities have become key drivers of technological advancement. However, the semantic gap between natural and artificial languages hinders AI systems from achieving cultural-level semantic comprehension and pragmatic analysis. With its distinct advantages in morphological processing, semantic processing, and pragmatic processing, Chinese has emerged as a vital cognitive tool in the global competition for cognitive science advancement and artificial intelligence development. It offers unique perspectives and methodologies for exploring the deep relationship between language and the mind.

Keywords: language, cognition, language ability, cognitive science, artificial intelligence