【摘要】古籍数字化保护和传播的对象,不仅是古籍的文本内容,而且包括蕴藏其中的知识信息与精神价值。在大数据、数字人文和人工智能技术的驱动下,古籍数字化传播在优化阅读体验、改进知识服务、辅助学术研究、弘扬中华优秀传统文化等方面,取得显著成效。从最初的文本录入、索引编制、单书检索系统研发,到大规模建设各种类型的古籍数据库,再到当今利用计算机技术对古籍进行自动标点、自动校勘、自动注释、自动编纂,运用数字人文技术、人工智能技术,对古籍进行深度知识开发,古籍数字化迎来重要发展机遇期。
【关键词】古籍数字化 古籍保护 知识服务 文化传播
【中图分类号】G255.1 【文献标识码】A
历尽劫波、千年不圮的古籍是中华文明的见证,其承载的历史记忆、文化遗产与民族情感,既是中华民族宝贵的精神财富,又是世界文明不可分割的组成部分。习近平总书记指出:“要运用现代科技手段加强古籍典藏的保护修复和综合利用,深入挖掘古籍蕴含的哲学思想、人文精神、价值理念、道德规范,推动中华优秀传统文化创造性转化、创新性发展。”①2022年4月,中共中央办公厅、国务院办公厅印发《关于推进新时代古籍工作的意见》,提出要“推进古籍数字化”②。同年10月,全国古籍整理出版规划领导小组印发《2021—2035年国家古籍工作规划》,将“国家古籍数字化工程”列为四项重大工程之一,并对相关工作进行详细规划③。古籍数字化迎来重要发展机遇期。
古籍数字化传播的内容选择
我国历史遗存的古籍大约有20万种,推动古籍数字化传播过程中存在两个问题:一是有无必要全部实现数字化?二是如果存在轻重缓急,应如何分步骤推动?从文化遗产保护的长远角度看,对所有古籍实现数字化保存确有必要。古籍的内容,用今人眼光来看虽良莠不齐,但可以区别利用,如有的可作文化普及用,有的可供学术研究用。因为古籍存量大、数字化周期长,且不同古籍在内容、版本、价值及保存状况等方面存在较大差异,数字化工作必须有序推进。换句话说,古籍数字化传播的内容存在一个优先选择的问题。
古籍数字化传播的内容选择,是由其工作内涵、当前任务及历史使命决定的。人们对古籍数字化工作内涵的认识经历了三个阶段:一是将古籍数字化视作古籍内容存储介质的转换,即把文本内容从传统的纸质载体中迁移至数字载体;二是在转换古籍内容存储介质的同时,利用计算机技术完成对古籍数字资源的有序化组织和检索;三是将古籍数字化视作传统古籍整理在数字环境下的发展和延续,即把古籍数字化转换之后形成的书目数据、文本数据、图像数据等,当作下一步古籍整理的素材,再运用文本挖掘与聚类、社会网络分析、地理信息系统(GIS)、知识可视化、机器学习等新型信息技术,对其进行深度知识开发。古籍数字化发展至今,可将之定义为:以保存古籍文本和版本信息为基本目的,以发掘古籍蕴涵的知识思想与认识历史发展规律为最高目标,在对纸质古籍完成传统的版本鉴定、文本辨伪、文字校勘等整理程序之后,再利用现代信息技术将其文本或影像转换成计算机可存、可读、可传输、可检索的数据,并对这些数据进行深度加工,实现知识的发掘、发现和重新聚合的过程。从这个意义上说,古籍数字化保护和传播的对象不仅是古籍的文本内容,而且包括蕴藏其中的知识信息与精神价值。
从当前古籍数字化的现状及历史使命来看,古籍数字化面临的首要任务就是保护古籍。古籍虽有纸寿千年之说,但在现有保存条件下,其原始的物理实体将面临不可逆的衰变,而数字化可将古籍影像及内容,化身千百乃至无穷,达到古籍内容再生性保护的目的。古籍数字化当下最现实的任务是服务读者。传统古籍受制于严格的管理和保护制度,许多孤本、珍本和善本“深藏闺中人未识”,普通读者难以见到。而数字化之后,读者不仅可以远程浏览和全文检索,而且可以进行深度知识开发,进一步提高了古籍利用率,从根本上解决古籍“藏”与“用”的矛盾。
古籍读者有专业研究人员和普通读者之分,这就要求古籍数字化传播的内容要有学术性和普及性的区分。从长远看,古籍数字化的一个重要任务,就是传播和弘扬中华优秀传统文化。古籍承载着丰富的历史信息、哲学思想、人文精神、家国情怀、价值伦理和道德规范,古籍数字化不仅要充分发掘这些文化素材,而且应扩大其在中国乃至世界范围的影响力。做好古籍工作,把祖国宝贵的文化遗产保护好、传承好、发展好,对赓续中华文脉、弘扬民族精神、增强国家文化软实力、建设社会主义文化强国具有重要意义。
基于以上认识,古籍数字化传播的内容首先应该涵盖中华文化的基本典籍,大型丛书、总集、工具书应该成为首选。丛书如《十三经注疏》《二十五史》《诸子集成》《四库全书》等;类书如《北堂书钞》《艺文类聚》《玉海》等;总集如《先秦汉魏晋南北朝诗》《全上古三代秦汉三国六朝文》《两汉全书》《全唐诗》等,还有历代别集、会要、会典等。这些大部头古籍丛书的数字化,基本能满足文化普及和一般学术研究的需要。其次,珍稀版本和特种古籍,应优先数字化。我国先后分六批公布《国家珍贵古籍名录》,共485家机构和个人收藏的13026部古籍入选,这些古籍因其特别的文献价值、文物价值和艺术价值,成为古籍保护的重点对象,理应优先成为数字化的对象。古籍整理本经过前人甄别版本、精心校勘,在文本准确性、可靠性方面,较一般版本更胜一筹,也应成为优选对象。明清稿本、抄本,因其没有大规模刻印,复本数量少,或只存孤本,学术价值较高,也应加快其数字化进程。而像甲骨文献、简帛文献、石刻文献、敦煌文献、谱牒文献、舆图文献等特种古籍,对于研究某一类专门学问具有特别重要的意义,而其纸本文献又不易为一般学者所获得,也应优先进行数字化。再次,像地方文献、少数民族文献、中医药文献、古农书文献、佛教文献、道教文献,因其内容具有鲜明的地域特色、民族特色和专业特色,对于丰富中华文化具有重要价值,也是古籍数字化必不可少的内容。这就需要国家在古籍数字化领域进行顶层设计,提出各阶段古籍数字化的目标、任务和举措,有序推进古籍数字化进程,避免选题重复和资源浪费。
古籍数字化传播的现状与成效
自1975年德国汉堡大学的吴用彤编制英文版《诗经》索引至今,古籍数字化已走过50年的发展道路。它从最初的文本录入、索引编制、单书检索系统研发,到大规模建设各种类型的古籍数据库,再到今天利用计算机技术对古籍进行自动标点、自动校勘、自动注释、自动编纂,运用数字人文技术、人工智能技术,对古籍进行深度知识开发,古籍数字化技术经历了古籍文本的数字化转换、古籍内容的组织加工、古籍知识的挖掘和可视化三个阶段。现阶段,随着信息技术的进一步发展,仅提供准确可靠、可理解、已聚类的文本内容,已不能满足专业研究者的需求,需要能提供可用于辅助学术研究的知识产品。古籍数字化在理念和技术上逐渐形成以知识加工服务为核心的理念,这种以海量古籍数据为对象的知识加工服务,打破不同学科、不同书籍、不同语种、不同地域之间的界限。
从技术角度讲,古籍数字化首先要解决的是古籍扫描和文本转换的技术标准问题。目前,针对古籍图像处理,我国已建立相应国家标准。而古籍中使用的汉字数量庞大,远超现在通行汉字的规模,因此选用字符集的基本原则是尽可能地包含更多汉字,以便满足古籍中生僻字、异体字、俗体字的呈现。国家重点研发汉字输入、输出、存储、传输以及兼容等关键技术,加快推动建成全部汉字及少数民族文字的编码和主要字体字符库,以解决古籍生僻字、异形字不能显示和检索的问题。
在古籍知识的深度开发和利用方面,数字人文理念和人工智能技术的引入,有力推动了古籍数字化向古籍数据化、古籍数智化发展,后两者通常被视为古籍数字化发展的更高阶段。数字内容具有可复制性、交互性和流动性特征,使文化产品从静态叙事走向动态建构。④具体而言,词频统计技术,可应用于文学作品的用词习惯、用典情况的精确计量,以分析某一文学作品、某一文学流派的语言特点和创作风格;文本挖掘技术,可应用于古籍人物情感分析、人物社会关系分析、历史事件关联分析;地理信息系统技术,可应用于各种命名实体的时空演化分析;深度学习和预训练模型,可应用于古籍文本的实体及图像识别、词性标注、特征提取、自动标点、自动分类、机器翻译等⑤。目前,大语言模型在古籍智能信息处理领域的应用还处于起步阶段,但因其智能化人机交互的特点,具有广阔的应用前景。
数字技术的迅猛发展和积极应用,大大提高了古籍数字化传播的成效。首先,在古籍保护领域,不仅实现古籍内容的再生性保护,而且可为古籍字体、版式结构、装帧等形式特征构建专类图像数据库,为古籍鉴赏方法、古籍修复技艺、古籍版本工艺的传承性保护开辟数字人文途径;其次,在阅读体验方面,数字古籍像纸质图书一样可以按类浏览、翻页,并且提供书影与文本对照,为读者在阅读过程中提供名物典制的超链接知识工具,同时兼具计算机全文检索功能;再次,在辅助古籍整理和学术研究方面,古籍数字化系统能提供自动标点、自动校勘、自动注释、文本聚类、词频统计、知识挖掘和可视化、用户反馈等各种功能,此时的古籍数字化成果不仅是复制和再现古籍原貌,也不是单一的古籍数据库,而是集古籍阅读、古籍整理、古籍研究、古籍交流于一体的知识服务平台。
古籍数字化传播的分化发展趋势及应对
古籍数字化工作包括多方参与主体,既有古籍收藏单位图书馆、博物馆及民间藏家,又有古籍内容研究专家、信息技术专家,还有古籍数字出版商、出版社。为避免古籍数字化的重复建设和无序竞争,应整合各方资源和技术力量,实现各地区古籍数字资源的共享。《关于推进新时代古籍工作的意见》提出,“建立健全国家古籍数字化工作指导协调机制,统筹实施国家古籍数字化工程”。建议依托国家图书馆(国家古籍保护中心),成立全国性的古籍数字化规划小组,其工作内容包括制定古籍数字化中长期规划、推广古籍数字化技术标准、构建古籍数字化信息发布平台、推动各地古籍数字资源共建共享、建立民间及海外古籍数字版本的有偿征集与交换机制等。
为满足古籍专业研究者、普通爱好者甚至海外读者的不同需求,古籍数字化呈现出分化发展的趋势。
对于专业研究者来说,获取古籍全文本是其基本需求,数字古籍能像纸质古籍一样权威可靠并被引用,是理想结果,对其内容准确性的要求不言而喻。对于这类古籍的数字化而言,必须严守古籍整理的基本学术范式,借鉴文献整理的优良传统,以信息技术将其具象化,提升古籍数字化的学术品质。而且,专业研究者对古籍原文的需求主要集中在其研究领域。因此,古籍智能化整理首先应以古籍文本内的段落、语句为文献单元,对其进行语义识别和主题标引,并以自然语言为检索入口,达到按研究主题自动聚类文献单元(段落和语句)的目的,这对于文史学者获取原始资料尤为必要和实用。其次,专业研究的对象并不仅限于古籍的文本内容和思想内涵,前人研究和整理的成果也可资借鉴。因此,对正文之外的序言、题跋、校记、批语、评点、牌记、藏印等副文本信息进行专类知识加工,对已有古籍研究和整理的成果进行必要的数据加工和知识开发,也是特别需要关注的领域。再次,从宏观知识组织的角度来看,未来古籍数字化传播将引入传统文献学的“会通”思想,将不同文献类型、不同语言种类、不同学科领域的古籍数字资源整合在一起,运用新的知识挖掘、知识组织、知识聚合、知识可视化方法,从整体上重新解构和重建中国古代知识体系。这实际上是传统古籍“注释”方法的一种技术变形,可先按照四库分类体系,将古籍原生态数据加工成语义态数据,再通过语义关联、本体构建、知识图谱等方法,构建某一部类文献的知识体系,最后完成整体知识体系的“拼图”。
对于普通读者或海外读者而言,阅读古籍全文本是其力所不逮的,他们可能更关注书中感兴趣的知识话题。未来大语言模型赋能古籍数字化之后,古籍数字资源库可能发展成为知识个性化的问答平台和交流平台,如某个朝代服饰流行的颜色、某个地区的饮食习惯、某个时段内关注的社会话题,大到一场战争的宏大叙事,小到古人生活的一个具体场景,都可以通过人机互动即时获得答案。古籍知识平台还提供知识分享、主题讨论等功能,读者在知识社区内可以自由提问、发言,互助式地解决问题。对于这类古籍数字化而言,则要借助信息技术打破以往的古籍利用方式,直接以知识主题来聚类批量古籍中的相关信息内容,并以可视化的形式还原古籍内容描述的历史场景。此时的“阅读”,不再以文字为主要对象,而是借助知识图谱、三维动画、元宇宙等大众喜闻乐见的形式进行社会传播,带给读者沉浸式阅读体验。这种让古籍内容活化起来的古籍数字化方法,可以降低普通读者和海外读者阅读利用中文古籍的门槛,消除古籍数字化传播因语言和文化差异带来的障碍。
(武汉大学信息管理学院明盈,对本文亦有贡献)
【注释】
①《习近平在中国人民大学考察时强调 坚持党的领导传承红色基因扎根中国大地 走出一条建设中国特色世界一流大学新路》,新华网,2022年4月25日。
②《中共中央办公厅 国务院办公厅印发<关于推进新时代古籍工作的意见>》,中国政府网,2022年4月11日。
③《全国古籍整理出版规划领导小组关于印发<2021—2035年国家古籍工作规划>的通知》,国家新闻出版署网站,2022年10月11日。
④解学芳、施慧:《为数智时代文化原创力持续释放培育良好生态》,《国家治理》,2025年第7期。
⑤刘洋、王东波:《古籍智能信息处理研究现状》,《图书情报工作》,2024年第23期。
责编/赵橙涔 美编/陈媛媛
声明:本文为人民论坛杂志社原创内容,任何单位或个人转载请回复本微信号获得授权,转载时务必标明来源及作者,否则追究法律责任。