人工智能在世界史研究中的应用与反思_理论

【光明青年论坛】　

编者按

在当今时代，人工智能已经渗透到人类生活的方方面面，深刻改变了人们认识世界和改造世界的方式。对学术研究而言，人工智能技术一方面以其高效的文本处理能力以及突出的内容挖掘、算法筛选能力等，为研究带来便利；另一方面也存在价值偏见等内在局限与伦理规范等潜在风险，由此成为各学科探讨的一大热点。就世界史研究而言，历史学家们如何运用人工智能技术处理和分析海量的史料、构建语义关系网络，进而得出相应的结论？人工智能技术的应用，是否拓宽了已有的研究边界？存在哪些难以突破的瓶颈？青年一代的世界史学者应该如何与人工智能共处呢？围绕上述问题，本版邀请三位从事不同国别研究的青年学者进行讨论，并邀请资深专家予以点评，以期为数字时代的历史研究提供有益参照。

　　与谈人

　　王思婕同济大学德国问题研究所助理教授

　　姚念达厦门大学历史与文化遗产学院副教授

　　易晋铭复旦大学历史学系博士后

　　主持人

　　本报记者周晓菲

1.人工智能如何推动世界史研究

主持人：近年来人工智能技术飞速发展，各学科的学者们纷纷探索其在自身研究领域的应用潜力，世界史研究也不例外。请各位结合自己所从事研究领域，谈谈人工智能在具体研究中是如何发挥作用的？

王思婕：就我所从事的德国史研究而言，中外德国史学界对人工智能的应用，目前主要集中于历史手稿、档案的光学字符识别与转写，以及借助主题建模、文本重用检测等技术开展文本内容挖掘。同时，人工智能也显著推动了既有数字史学工作的深化，例如在社会网络分析中识别档案中隐含的人物关系与中介节点，通过推理弥补地理信息的缺失等。尽管数字史学研究者很早就借助编程语言，通过词频统计、词项共现等，识别潜在主题，初步实现了对大规模历史语料的内容挖掘。然而，此类方法多局限于词项层面的统计关联，难以有效捕捉语义演化、修辞差异等深层次的历史表征。尤其在长时段比较中，术语使用的代际更替常引发主题追踪的中断。近年来，基于深度学习的预训练语言模型，可将文本转化为能反映上下文语境的向量结构，从而识别出不同表述下的同一历史主题，同时通过与大语言模型进行集成，语义嵌入也更加精细，并能直接生成解释性摘要或标签。

姚念达：在国际美国史学界，人工智能的应用不局限于大语言模型，而是涵盖以自然语言处理和机器学习为核心的一整套计算分析方法。该路径通过将报纸、政府文件乃至影音材料等多样化史料转化为可量化分析的对象，运用主题建模、文本嵌入和语义分析等手段，在宏观层面揭示语言、观念与政治话语的长期变化，为历史解释提供新的问题线索与证据基础。相关研究多以计算语言变化为切入点。斯坦福大学尼基尔·加尔加团队将20世纪大规模语料转化为词向量，量化分析了语言中性别与族群刻板印象的变迁，并将其与社会结构的转型相联系。另有美国学者梅丽莎·李分析了19世纪报纸与国会辩论语料，利用自然语言处理工具追踪“合众国”一词从复数用法向单数用法的转变。研究指出，这一表述在南北战争前常被理解为由各州组成的联合体，而战后则逐渐被视为一个统一国家，由此反映了美国人对国家主权理解的变化。这类研究并不等同于单纯的“远读”，也不是对传统方法的替代，而是强调计算分析与文本细读的结合。

易晋铭：近年来，中世纪欧洲史与人工智能的结合主要集中在利用人工智能技术对中世纪史料进行自动转写、补全和结构化分析，从而提高古文献的可读性、可检索性和可分析能力。首先，通过手写文本识别、版面分析等计算机视觉方法，将中世纪手稿和档案影像自动转写为可检索文本。其中，Transkribus是目前欧洲学界中最常用的手写文本识别工具之一。其次，通过知识图谱和语义网技术，把分散在特许状、账簿、书信等史料中的人物、地点与制度关系结构化为可查询的数据网络。2025年，多位西班牙学者组成的研究团队提出建立一个关于中世纪特许状的知识图谱，通过结合专家标注、社区贡献与溯源机制，将分散的特许状数据结构化为可查询的知识网络，从而支持对中世纪社会、法律与经济关系的系统化分析。最后，大语言模型也被用于拉丁铭文的文本补全。例如，Aeneas是一款基于约20万条拉丁铭文训练的专用大型语言模型，可通过分析残缺文本或图像来补全古代和早期中世纪的铭文内容，并推测其年代、地点及相关信息，从而帮助学者更有效地解读受损或缺失的历史铭文。

主持人：历史学者们借助人工智能强大的数据处理能力，能够快速梳理海量的档案文献等史料，挖掘出难以发现的历史信息与关联。这是否意味着，人工智能技术拓展了已有的研究边界，或者“重塑”传统研究领域？

王思婕：人工智能虽然在方法论层面为德国史研究提供了新的分析工具，但尚未实质性拓展研究边界，因为它既缺乏问题意识，也高度依赖研究者的前期工作与解释性判断。爱沙尼亚学者卡雷尔·西克以14世纪末德意志地区针对瓦尔登派信徒的异端审判为研究对象，将数百份供词中涉及人物关系、地点与时间的信息进行数据化处理，进而揭示出审判官的调查策略，也呈现了宗教审判从信息收集到裁决的运行机制。原本散落于零碎供词中的细节，被纳入一个动态的信息处理过程之中，这显然突破了传统研究的叙事模式。然而，整个研究始终离不开历史学常规的前置工作：哪些供词应被纳入分析、日期如何校定、隐含地点信息如何推断、缺失材料在何种程度上影响结论，这些关键问题都必须由研究者判断。事实上，西克也明确承认，现有算法在处理中世纪语境中的信息歧义时仍有局限，同时历史事件本身的偶然性也会干扰算法的推理过程。

姚念达：从现有研究来看，人工智能对美国史研究的影响并非颠覆性的，也没有形成范式革命。但在若干关键层面上，它确实拓展了既有研究边界，并在一定程度上影响了研究的实践方式。世界史研究以增进跨区域、跨文化理解为目标，但长期受研究者掌握的材料规模、语言能力与时间成本限制。人工智能的引入，使研究者得以在可控成本下处理大规模多语种史料，从而在实践层面拓展研究的广度与精度。其在概念史研究中的潜力尤为突出：借助文本嵌入模型和计算分析，研究者可以在全球尺度上追踪重要概念的跨时空与跨语境传播，而不再局限于少数经典文本。例如，美国学者艾玛·罗德曼的研究利用词向量模型分析美国政治语料，通过比较不同时期政治概念的语义和语义关联，从而追踪其在历史语境中的含义变化，这为概念史研究提供了新的路径。

易晋铭：关于中世纪欧洲史，人工智能对传统研究领域的影响更为突出。在中世纪欧洲，契约是数量最多、连续性最强的书面记录类型。它们通常是法律行为的书面见证，例如土地赠予、买卖契约和城市自治特许等。在数字化时代之前，这类研究基本围绕单份或单组文书，常常以特定王朝、地区或机构为研究单位，社会网络重建主要依赖人工比对。数据库与文本检索技术的出现，为大规模结构分析提供了重要前提。但是，数据库通常预先定义字段（日期、地点、人物），无法适应多样化研究的需求。人工智能可以帮助研究者训练符合自己研究所需的语义抽取模型，从而使研究从“预设字段的统计分析”转向“模式发现与结构建模”。2022年，多位欧洲大陆学者合作开发了一款自动识别中世纪拉丁语契约结构（如前言、正文和结尾）的模型。该模型不仅推动了中世纪欧洲契约的自动化索引与信息检索，也为文本结构化分析提供了有效工具。

2.人工智能在世界史研究中的局限性

主持人：人工智能技术在显著提升学术研究效率的同时，也存在不容忽视的局限。请三位谈谈目前人工智能技术面临哪些难以突破的瓶颈？原因何在？这些局限又是如何影响史学研究的开展或者历史叙事的建构呢？

姚念达：在历史研究中应用人工智能，仍然存在若干难以突破的瓶颈。这些瓶颈并不只是因为技术尚未成熟，而是更深层地反映了当下人工智能技术与历史研究之间的结构性不匹配。首先，人工智能难以与人类社会形成真正的情感共鸣。克罗齐曾指出，一切历史都是当代史。一个有生命力的历史研究选题，往往能够回应当下的社会问题，并在现实生活中引发读者的情感共鸣。因此，历史研究的重要一步，在于判断哪些历史问题在当下具有意义，为什么值得被提出和反复讨论。这种判断高度依赖研究者对现实社会的感知、对公共议题的敏感度以及对人类经验的共情能力。人工智能虽然可以总结既有讨论，却不足以真正理解某一历史议题与人类生活实践之间的情感联结，也无法判断其现实价值所在。

其次，人工智能在分析历史文本时，面临难以回避的语义漂移问题。当前多数语言模型主要基于当代语料训练，若直接用于历史文本分析，容易以当代语义和语言习惯误读过去的语言实践。即便如苏黎世大学团队尝试使用历史语料训练模型，其效果仍然受到现存历史文本不完整和不均衡的限制，其数据质量和覆盖范围难以与当代语料相比。

与此同时，人工智能的价值判断也并非中立，而是不可避免地受到训练语料中主流规范与当代价值观的影响。当这些模型被用于历史研究时，可能在无意中以当代标准衡量过去，从而弱化历史语境。这些因素叠加在一起，或许会在历史叙事层面推动一种并非出于研究者本意的当代化倾向。

最后，一个尤为关键的瓶颈在于人工智能的“黑箱性”。在许多情况下，人文学者难以清楚解释人工智能是如何得出某一结论的。对于以可解释性、可讨论性为基本规范的人文学科而言，如果研究者无法说明分析过程，也就难以为研究结论承担必要的学术责任。

易晋铭：在文本分析方面，人工智能目前主要被应用于那些保存数量较多且已实现数字化的史料类型，比如契约和通信，而在其他史料领域的应用仍然相对有限。这一局限主要源于两方面原因。其一，人工智能模型的训练高度依赖大规模的、可读性较强的语料数据，例如2024年瑞士伯尔尼大学法比奥·加蒂团队针对佛罗伦萨商人银行通信网络的研究调用了超过6000封信件，然而，中世纪许多史料尚未形成如此规模和质量。其二，中世纪文献普遍存在字迹复杂、缩写繁多和保存状况不佳等问题，增加了文本识读与转写成本。尽管Transkribus等手写文本识别平台在一定程度上提升了大规模识读的可能性，但其训练和校对仍需投入人力与时间，因此研究者往往更倾向于直接利用已经整理完成的史料数据库开展研究。目前，中世纪史领域中数字化程度最高、数据库建设最完善的正是契约类文献，例如早期英格兰文献数据集（包含约4.4万份契约）和中世纪勃艮第文献集（包含约2.9万份契约），这也进一步强化了人工智能研究在此类史料上的集中趋势。

王思婕：如上所述，语料不均衡会影响人工智能的使用范围。另一个类似的问题在于通用大语言模型的训练数据主要来自英语世界，这使得人工智能在历史叙事中常沿用西方主流视角。人工智能在小语种史料的语义识别、长句及复合句理解方面，仍存在明显不足。此外，英美档案的数字化和开放获取优势明显，有些数据库直接提供应用程序编程接口（API），方便历史研究者进行自动化批量抓取与深度加工。上述“数字鸿沟”在跨国史研究中尤为突出，研究者往往倾向于使用易获取且结构化程度高的英美史料，从而影响了对历史事件全貌的还原。

训练数据的地区不平衡，导致大语言模型叙事的欧美中心化。全球南方的文本在现有数字化语料库中的占比极低，其历史经验在通用模型中被系统性地边缘化。由于模型依赖概率预测来生成文本，缺乏特定语境数据时，会倾向于用它所熟悉的西方概念框架去“填补”空白，产生所谓的“幻觉”或刻板印象。例如在探究有关冷战时期地区冲突的问题时，模型会套用美英官方叙事逻辑，将复杂的地区冲突简化为美苏对抗的注脚，从而强化了西方中心主义的知识再生产。

　　3.史学工作者如何与人工智能共处

主持人：如上所述，人工智能在应用过程中仍存在语料不均衡、价值判断不中立等局限，在各位看来，有哪些方法可以加以应对呢？

姚念达：面对上述诸多局限，最根本的解决办法还是期待通过技术进步彻底消除这些问题。不过，对于人文学者而言，更为现实且可行的路径是借助方法设计与研究规范对这些局限加以缓解，从而确保人工智能始终处于可控、可验证的地位。首先，应当明确坚持人类研究者在问题设置阶段的主导地位。历史研究中哪些问题值得被提出、为何具有研究意义，这类判断必须源于研究者对现实社会与史学传统的理解，而不应由模型生成。其次，使用人工智能分析历史文本时，在研究方法的设计中必须充分区分当代语言模型与历史语言之间的差异，并尽可能还原史料所处的历史语境。再次，面对人工智能的“黑箱性”，历史学者有必要强化研究过程的透明度与责任意识。即便算法本身难以完全解释，研究者仍应清楚说明所使用的模型类型、语料范围与分析步骤，使研究路径保持可追溯性，从而确保结论能够接受学术讨论与检验。

王思婕：可以尝试构建特定领域的垂类模型，如服务于美国早期史、德国史学史研究的专用智能体。专用智能体可以利用“检索增强生成技术”（RAG），通过本地结构化知识库进行材料检索，实现语境锚定，在保障生成质量的同时提升可控性。专用智能体有独立的记忆与参数，配合微调技术，也能对特定语种与历史背景进行深度训练。更重要的是，本地知识库包含多元视角的历史叙事，研究者也可以在提示词中加入一些本土历史学者的洞见，以对冲模型可能存在的地缘政治偏差。

易晋铭：将人工智能作为“假设生成工具”，而非“结论验证工具”。要避免人工智能沦为既有史学命题的效率工具，关键在于重新界定其方法论角色。与其将模型用于验证早已形成的经济趋势或制度判断，不如将其定位为一种假设生成机制，通过监督学习、聚类分析或语义向量建模等方法，主动识别尚未被理论框架充分解释的历史问题。例如，算法可以揭示跨地区低频人物的隐性网络或识别非常规契约条款的语义组合。这些输出并非直接构成历史结论，而是为历史学者提供新的问题线索与研究方向。随后由研究者结合档案语境与制度背景进行解释与验证。

主持人：在人工智能深刻影响学术研究范式的背景下，作为青年世界史研究者，应当如何在坚守史学传统与拥抱技术变革之间寻求平衡，实现良性共处呢？

易晋铭：在人工智能逐渐进入史学研究实践的背景下，史学训练的重要性不仅没有削弱，反而更加凸显。首先，问题意识的形成依赖长期史学训练，而非对技术的掌握。真正具有创新性的研究，往往源于对既有解释的怀疑与重构。这种怀疑能力来自对史学传统、理论谱系与方法论争论的熟悉。没有对史学发展史的理解，就难以判断一个人工智能生成的模式究竟是“新发现”还是“旧问题的重复”。其次，史学训练还培养了一种敏锐的觉察能力。人工智能依赖可见数据，但是历史研究也常常关注缺席者、边缘群体与未被记录的声音。只有经过长期史学训练的学者，才会意识到哪些群体在契约或行政文书中系统性缺席，并据此设计补充路径。最后，史料批判能力是不可替代的基础。无论模型识别出多少文本模式，研究者必须判断这些模式是否源于档案生成机制或保存偏差。因而，史学工作者在积极运用人工智能技术的同时，仍然需要将传统的史学训练放在首位。

王思婕：年轻学者应让人工智能去承担档案初筛、文本识别与文献翻译等初阶任务，将自己的主要精力投入更具创造性的解释环节。随着档案资料的持续公开与数字化，从职业生涯早期开始，年轻学者可逐步搭建由结构化史料与多元视角学术成果组成的个人知识库，从档案的阅读者转向数据的管理者。在RAG技术的支持下，个人知识库能通过关键词，在多语种语料中检索、识别语义关联与整合研究观点，大大提升工作效率。此外，年轻学者也应积极探索历史学潜在的人工智能应用场景。例如，基于历史人物的信件、日记与著作，借助生成式建模技术，实现与历史人物的对话；利用历史推演，模拟关键的战争决策或外交谈判过程。上述应用不仅可以辅助历史教学，也有助于激发研究者的学术灵感。

姚念达：在我看来，世界史学者与人工智能的关系，不应被理解为对立或替代，而是一种有边界、有自觉的共处关系。首先要明确的是，在人文研究中强调人的重要性，并不意味着否定技术。历史学者之所以难以被机器取代，并不只是因为技术尚未成熟，而是因为其核心价值始终来自研究者的问题意识以及对历史意义的赋予。正因如此，人文学者并不需要通过拒绝使用人工智能来证明自身的不可替代性。与此同时，也需要警惕另一种极端倾向，即人工智能带来的高效率或许会让研究者不自觉地削弱自身主体性。如果研究者只是机械地依赖模型生成结论、摘要或分析路径，研究本身可能会退化为对模型输出的整理与复述。学者与人工智能共处的关键，在于清楚区分提升劳动效率与替代人类思考之间的界限。人工智能适合承担重复性、高强度的工作，为研究者释放时间与精力。而真正的学术价值，仍然来自人的创造力、批判性与解释能力。

■专家点评

南京大学历史专家点评学院教授王涛：历史学科在研究方法上的变革比较缓慢，但其本身并不排斥方法论的更新，甚至主动引入了跨学科的思维方式，否则就不会有“新史学”的出现，乃至年鉴学派等诸多史学流派的轮番登场。司马迁若能穿越到当下，看到年轻一代的历史学者在大谈人工智能时代的史学研究，应该会有一种熟悉的陌生感。

陌生的是那些听起来高端的技术新名词，让人应接不暇。从计量史学开始，就不断涌现数字人文、大数据、空间分析、文本挖掘等方法论，最近在人工智能的冲击下，又制造出大语言模型、数智史学等表述，史学研究的技术转向应该被证实了。当然，史学家并不是为了技术本身，而是希望烦琐的研究工作能够在技术的加持下得到效率的提升。无论是从海量文本中捕捉语义，还是转录手稿，都是大语言模型能够发挥所长的领域。处于事业成长期的年轻学人天然地对这个讨论更加敏感，甚至满怀憧憬，因为按照传统的学术发展路径，年轻一代需要多快好省地发表论文，尽快让高质量论文变成自己的名片。在人工智能的协助下，论文生成的流程无疑得到优化，这是极大的诱惑。大家都不想在未来的史学界，变成那个最后使用人工智能工具进行历史研究的后进分子。

假若司马迁闯入人工智能的时代，或许无法理解三位年轻后辈提到的技术概念，但他一定能够敏锐地发现，在技术光环之下，他们依然在讨论史学的可理解性、可讨论性，史学的意义以及评价。这是他还算熟悉的话题，甚至可以加入到三个年轻人的热烈讨论中，再添上一笔“太史公曰”。因此，令人欣慰的是，年轻学者虽然密切跟踪最时髦、最前沿的方法论，但他们始终能够做到以历史学的内核为导向和审判的依规，来定义或者评判人工智能的有效与有限。他们强调，在人工智能进入史学研究的语境下，史学基本功的训练不可荒废，这是尤其重要的提示。唯有如此，史学研究才能对抗人工智能带来的幻觉、加剧的“数字鸿沟”，突破技术的“黑箱性”。实际上，在破除各种高端的修辞滤镜之后，人工智能所主导的史学研究，本质上只是完成了一种历史书写的可能性，对此保持审慎地质疑，是一个专业史学工作者的本分，是需要时刻保持的清醒与定力。

即便如此，传统史学的方法论与发展惯性已经难以为继。毫无疑问，对于综述性研究方法论而言，历史学可能不存在了。因为完成全面性的、总结性质的学术梳理，人工智能毫无争议地领先人类。未来的发展路径如何，技术上如何可控，比如青年学者提到的检索增强生成技术在世界史研究中的运用，是需要更多史学工作者在实践中不断尝试才能加以推进的事业。他们还提到史学家的主体性，强调史学研究的价值来自人的创造。这个认知极为重要。虽然有学者讨论过人写的历史未必是人的历史，但是我们应该坚持人的历史必须要由人类来书写。书写历史是为了抵达对历史人物的同情之理解，与他们共情。如果人工智能参与一切历史研究的全流程，作为人类读者，为什么要读一个“人类之外”的物种书写的人类历史呢？仅仅因为“Ta”写得更通顺，更有趣吗？在优雅的文字表达之下，人工智能很难理解奥本海默为什么会纠结于使用原子弹的合理性。但是，作为人类的一份子，我们可以。

中国人民大学历史学院教授赵秀荣：人工智能的核心价值在于其处理和分析大规模数据的能力，其设计初衷是为了处理历史学家所珍视的原始资料。这包括但不限于三位年轻学者提到的自然语言处理、主题建模、社会网络分析以及地理信息系统。

三位年轻学者都从自己的研究视角肯定了历史学家可以借助人工智能提升研究效率。的确，目前大量史料被数字化，被转化为可全文检索的语料库——包括报纸、期刊、日记，甚至手稿档案，其构建的各类数据库已经超越了人类的认知能力，无法运用传统的细读方法阅读和分析这些资料。例如，“托马森小册子”是一个由17世纪伦敦书商乔治·托马森收集的文献集，包含1640年至1661年间出版的22,255份小册子、传单、手稿、书籍和新闻纸。这批藏品被视为大英图书馆的瑰宝之一，是研究英国内战时期历史的无价之宝，目前已经被收入早期英文图书在线数据库之中。显然，阅读和整理这些史料超出任何一位历史学家的能力范围，正如法国历史学家克里斯蒂安·亨里奥特写道，除非历史学家掌握驾驭这片复杂且未知领域的必要技能，否则这个“信息丰富的世界”将始终遥不可及。

三位年轻学者也都意识到人工智能存在的局限。一是人工智能带来的算法中的偏见，这与档案中的偏见类似。人工智能不仅会反映甚至放大档案中已有的偏见（如种族、性别和殖民主义偏见），这就是为何历史学家的作用至关重要。二是人工智能的“黑箱”问题。许多人工智能系统是不可审查的，意味着其内部决策过程即使对设计者来说也是不透明的。这对依赖可验证的历史研究构成根本性的挑战。目前一些人工智能系统已经意识到这个问题，开始设置由人参与验证和纠错的机制。

因此，历史学家不仅不是人工智能的被动消费者，独特的学科训练反而使其能够识别人工智能带来的问题。例如，人工智能根据现代语言训练导致的偏差和偏见问题，这对历史学家来说并不陌生。因为即使是档案资料也隐藏着偏见，如在维多利亚时代之前的社会史研究中就很难找到女性的、儿童的、下层民众书写的史料。至于“黑箱”问题，历史学写作方法的训练可以有效克服这一问题，自19世纪兰克学派以来，专业史学写作就建立在通过脚注来展示所用史料的原则之上。对使用人工智能标注的呼吁，正是脚注原则在21世纪的延伸。

人工智能可以发现模式，但无法解释为何这些模式是重要的，也无法书写引人入胜且有意义的历史叙事。人工智能可以生成模型，但不能进行语境解读，无法进行史料批判，更无法评估史料中隐藏的偏见。这就意味着，使用人工智能伴随着重大的责任。利用人工智能进行辅助研究，必须采纳一个全新的、更严谨的批判框架。历史学家的传统技能非但没有过时，反而在人工智能时代变得比以往任何时候都更加重要。历史学悠久而深刻的批判传统，为应对人工智能最棘手的挑战提供了坚实的思想基础。

人工智能是一种变革性技术，正在改变历史学家使用的工具，拓宽历史学家的研究视野。人工智能在历史研究中的最终价值在于增强历史学家的技艺，使我们能够探索更宏观的历史，并撰写出比以往任何时代都更丰富、数据更充分、更细致入微的历史。但必须铭记的是，人工智能不能像历史学家那样思考，也不会提问，更无从判断哪个题目具有研究价值。因此，在人工智能时代，历史学家的人文素养愈发弥足珍贵。