【摘要】中华优秀语言文化源远流长、内涵丰富,是中国特色社会主义文化的重要内容,是强化以文化人价值引领的重要基础,是落实立德树人根本任务的重要支撑。在人工智能技术取得突破性进展的背景下,全链集成式人工智能保护方案,将语音识别、神经机器翻译、大语言模型、语音合成等技术连接起来,构建“听、译、思、说”语言文化智能交互系统,实现存储形式从数据变为模型、从固定存储变为具备生成能力、从被动查看变为可交互对话。
【关键词】中华优秀语言文化 传承发展 人工智能
【中图分类号】H002 【文献标识码】A
“人之所以为人者,言也。”有了语言,人类的文化形式得到进一步丰富和发展。语言文化是人类重要的创造成果和精神财富。中华优秀语言文化历史悠久、源远流长。从先民劳作的短歌号子,到近世文化典章的蔚为大观,中华优秀语言文化在人类文化发展史上谱写着壮丽恢弘的篇章。保护传承中华民族共有的语言文化,是历史和时代赋予我们的责任。
2025年12月,教育部等七部门联合印发《关于深入推进中华优秀语言文化传承发展 提高全民语言文化素养的意见》,提出“重点依托国家数字中文建设工程,深化语言文字与信息技术融合,加强人工智能应用,服务中华优秀语言文化传承发展”①。在数字技术与人工智能深度融合的时代背景下,中华优秀语言文化传承发展正经历着重要变革。以深度学习为支撑的人工智能技术,为突破语言文化传承的传统模式、实现永久智能化传承提供有效方案。所谓“智能化传承”,简单来说,就是利用先进的人工智能技术,对语言本身、口头文化、典籍文献等资源进行深度学习训练,形成“能听懂、能表达、能生成”的智能系统,让语言文化的保护方式从过去的单纯“保存”模式,转变为具有直接与人进行交互的能力。从技术上说,这既是中华优秀语言文化保护传承的革命性变化,又是国家语言资源现代化传承发展的必然路径。
当前中华优秀语言文化传承发展面临挑战
中华优秀语言文化博大精深,涵盖古今汉语及其方言、各民族语言的诗词、谚语、史诗、吟诵、民歌、戏曲等多种形态。然而,在历史发展的进程中,这些珍贵的语言文化面临着衰落甚至消失的可能。
语言文化使用场景有所缩减,代际传承出现断层。随着城镇化进程加快和人口跨区域流动日益频繁,传统的乡土社会结构和聚居方式正在发生变化。许多原本以方言或民族语言为主要交际媒介的社区,语言使用场景逐渐收窄。年轻一代由于教育、就业等原因,接触和使用方言的机会减少,导致有的语言文化的代际传承链条变得脆弱。一些独具特色的地方戏曲、民间说唱等语言文化形态,传承人年龄结构老化,年轻传承人培养周期长、难度大,面临着失传的风险。
口头文化形态加速流失,抢救性保护刻不容缓。谚语、民歌、吟诵、戏曲唱词、口头传说等以语言为载体的文化形式,高度依赖口耳相传的自然传承方式。这类文化形态往往没有系统的文字记录,全凭传承人的记忆和口传。一旦老一辈传承人离世,而年轻一代未能有效接续,这些文化形态便面临永久失传的风险②。以中文诗词吟诵为例,这一具有悠久历史的诵诗法,曾经是古代诗人的基本技能,如今能够掌握吟诵调式的传承人越来越少。类似地,许多少数民族的史诗演唱、民间歌谣等,面临同样的困境。
现有数字化保护手段存在局限,难以实现传承发展。近年来,我国在语言文化资源保护方面投入大量力量,建成了一批语言文化资源库和数据库,如中国语言资源保护工程采录展示平台、中国音网等。从实际情况来看,这些资源大多停留在“存声留照”的静态保存层面。资源被采集入库后往往起到的是类似“文物展陈”的作用。更重要的是,这些数字化资源缺乏生成新内容、与用户进行交互的能力。语言文化的生命力在于使用和传播,如果仅是被记录和封存,就难以实现传承发展。
低资源语言文化保护难度较大,技术路径有待突破。对于使用人口极少、甚至没有文字的语言或方言,传统的田野调查和记录方法面临巨大困难。③一方面,发音合作人难寻,能够提供高质量语言数据的母语者越来越少;另一方面,即使采集到一定数量的音视频数据,其规模也难以满足深度学习等人工智能技术的训练需求。这些低资源语言文化的保护,既面临数据资源匮乏的困境,又面临缺乏适用技术路径的挑战,是当前语言文化保护工作中的薄弱环节。
语言文化资源分散且标准不一,数据共享机制有待完善。目前,我国各高校、科研机构、文化部门等在语言文化资源采集方面做了大量工作,但彼此之间缺乏统一的规划和标准。不同单位采集的数据在格式、标注规范、元数据等方面存在较大差异,难以实现跨库共享和整合利用。这不仅造成重复劳动和资源浪费,而且制约大规模、高质量语言文化数据集的构建,进而影响后续的深度开发与利用。
上述挑战表明,中华优秀语言文化传承发展已到一个关键的历史节点。解决这些难题,既需回顾此前保护工作的经验与不足,又需在数字化保护的基础上寻找新的解决方案。
传统纪录语言学方法难以实现语言文化的传承发展
长期以来,人们开展了大量语言文化的保存保护工作,形成了较为系统的理论和方法。这些工作基本上可以归在“纪录语言学”这一理念之下。纪录语言学兴起于20世纪90年代,是对全球濒危语言危机的回应,主要目标是对濒危语言进行全面的记录、描写和归档。在这一理念指导下,语言工作者深入田野,通过田野调查、文字转写、录音录像等手段,把一种语言的语音、词汇、语法、口头文化等资源系统性地采集下来,建立语料库、数据库,实现语言文化资源的“全方位存声留照”④。这种方式强调记录的全面性、系统性和科学性,要求对语言的各个方面进行详尽描写,包括语音系统、词汇系统、语法结构、话语材料,以及各种口头文化文本等,在语言文化保护史上,有着不可替代的重要作用。它用科学的手段,系统留存大量面临消失的语言文化样本,为语言学研究、文化传承等保留珍贵的原始资料。可以说,没有纪录语言学在过去几十年间的工作,许多濒危语言和口头文化早就无声无息地湮灭在历史长河中。我国依托这一理念,建成一批语言文化资源库,在汉语方言、少数民族语言、口头非物质文化遗产等方面,积累了丰富的数字化资源。⑤
同时需看到,在新的科学技术条件下,纪录语言学的电子化保存,本质上仍然是一种“博物馆式”的静态保护。语料库、数据库里的资源是固定的、封闭的,人们可以对数据库中的资源进行查看、检索、下载、分析等操作,但资源本身不具备生成新内容的能力。例如,如果一种语言采集录制100句口语表达、5个小时的民歌演唱,那么数据库里就只有100句、5个小时的内容,不可能产生出第101句口语表达,也不可能生成5个小时零1分钟的民歌演唱。同样,电子化保存下来的诗词吟诵、戏曲唱段等文化形式也只能原样播放,不可能生成新的音视频内容。数据库中的语言文化资源就像被定格在琥珀中的昆虫,虽然形态完好,却失去生命活动的能力。
正因如此,纪录语言学的方法虽然保存了语言文化的“标本”,却难以实现语言文化的传承发展。传统纪录语言学方法记录下来的语言文化数据就像一座语言的“标本馆”,标本再完整,也无法复活生命本身。语言文化的生命力在于被使用、被创造、被传播。一种语言如果没有人说、没有人用,即使它的所有数据都被完整地保存在数据库中,仍然是“死语言”。同样,一种口头文化形态如果只能被回放而不能被再创造,就难以传承发展。
建立“听、译、思、说”智能交互系统
随着人工智能技术尤其是生成式人工智能技术取得突破性进展,语言文化的保护传承迎来新的机遇。针对不同语言资源的实际情况,南开大学语言实验与计算交叉科学实验室(后文简称“实验室”)创造性提出语言文化的“全链集成式人工智能保护方案”,将语音识别、神经机器翻译、大语言模型、语音合成等多种核心技术连接起来,建立“听、译、思、说”智能交互系统。该系统针对特定的语言及其文化,可以实现从理解到生成、从输入到输出的全流程闭环。这一方案的开发思路是:如果要对某种语言进行智能化保护,需开发该语言的语音识别系统,使最终形成的智能交互系统能够听懂用户说话。如果该语言没有大模型,则开发机器翻译系统,使该语言能够与具有大模型的通用语言,如汉语、英语等,进行互译。开发该语言的语音合成系统,使智能交互系统能够合成语音,与用户进行语音交流。
在这一理念和思路指导下,已经有一些濒危语言开发出智能交互系统,如“满语文通”在线开放系统。该系统是积极响应国家“冷门绝学”保护号召,针对满语等民族语言文字开展的智能化保护实践。智能系统包含满语语音识别、“满—汉”双向神经机器翻译、满语语音合成等重要功能,初步建成支持满语文历史文化的语言大模型。通过该系统,用户可以使用满语或汉语进行实时对话,系统以满语或汉语对用户问题进行回答。这也是首个“全链集成式”满语智能系统。该系统有效地检验“全链集成式人工智能保护方案”在低资源语言文化保护中的可行性,有着重要的方法论价值。
近期,我国自主攻关研发的藏语大语言模型DeepZang也具有多样化的智能功能。它的训练语料覆盖卫藏、康巴、安多三大方言区,能够打通藏语方言之间的差异。该模型依据近7000万条藏汉平行语料进行训练,不仅能支持藏、汉、英等多语种之间的实时互译,而且能支持80余种语言服务。该智能模型除“听、译、思、说”外,还具有多语种OCR文字识别功能。目前已有超过30万用户使用该模型。人工智能技术赋能的语言大模型,不仅是语言文化传承发展的重要方式,而且能够实实在在地服务于人民群众的生产生活实际。
语言文化数据从固定存储转变为具有生成能力
语言文化的存储形式,从电子化的数据变为人工智能训练得到的模型。按照一般的观念,语言文化的保护应该保存具体的文本、音视频等数据,以往的语言文化保护也正是这样做的。然而,智能化方案保存的不再是语言文化数据本身,而是经过人工智能技术深度学习训练的智能模型。智能模型里存储的是只有电脑程序才能读懂的大量参数。相比于存储语言文化的原始数据,存储模型的最大优势是占用的空间大幅缩小。例如,ChatGPT用来训练的原始语料量达到约45TB之巨,然而最终得到的模型只有几百GB,相当于原始语料的几十甚至上百分之一。文本语料是这样,语音识别、语音合成、机器翻译等的模型也是这样。尤其是语音方面的模型,相比于原始数据往往只有三五百分之一。深度学习是从庞大的原始资源库中,通过算法提炼出可泛化的规律、模式等参数形成模型,因此机器模型存储占用量大幅缩小。
语言文化数据从固定存储转变为具有生成能力,这是智能化保护方案与以往保护方案的本质差别。传统记录方式的资源总量是固定的,无法产生超出原始采集范围的新内容。而智能化保护方案得到的多样化生成式人工智能模型具备足够的生成能力,能够基于已掌握的语言文化知识,自主生成新的语句、文章、故事、唱段等语言文化产品。仍以“满语智能交互系统”为例,由于满语语音语料很少,因此最初语音识别效果很差。实验室使用该系统中的满语语音合成系统,直接生成200万句满语语音,训练之后语音识别模型的效果大幅提升。满语语音合成、语音识别均已开放。此外,吟诵、民歌等文化形式也可以合成。
语言文化内容从被动查看,转变为具有与用户进行交互对话的能力。传统的语料库、数据库是单向的资源平台,用户能够检索、查阅、甚至下载相关内容。而智能化保护方案形成的是双向智能交互系统,能够听懂用户的指令、理解用户的需求,就语言文化内容与用户进行交流互动。这种交互性,让语言文化从“标本式”的静态资源,转变为可对话、可互动的智能系统,能够大幅提升语言文化的传播力、感染力和普及度。例如,实验室开发的“中华诗教大模型”可以就诗词教学内容、中国古典文化知识,以及作者本人的生平事迹等,实时与用户进行对话,很大程度上可以增强诗词学习的即时交互性,提升用户的具身体验感。该系统除中文外,还支持用英语、法语、俄语、西班牙语、阿拉伯语、日语、韩国语进行交互。多样的语言交互功能,有利于中国诗词文化的传承发展。再如,西岭山歌是主要传唱于四川大邑的国家级非物质文化遗产。实验室利用声乐合成技术,开发了首个“西岭山歌语音合成平台”。该开放平台支持用户自主设置歌词和上传参考音色,并按照山歌的5种调式合成山歌歌声。这一技术突破传统的数字化静态保存,实现非遗文化的生成式保护传承。
凝聚社会合力,加强数据资源建设
智能化保护方案并不否定传统保护方法的价值,相反,它必须以传统的记录工作为基础。以往保护方式开展的田野调查、语料记录、资源采集、音视频录制等工作,是人工智能训练的基本材料。通过传统方式采集到的话语表达、口头文化、典籍文本等资源,弥足珍贵、不可再生,是构建语言文化智能模型的重要数据支撑。智能化保护方案是对这些基础资源的深度开发和创造性利用。要达到语言文化智能化保护的目的,需大规模的基本数据资源。
从数据资源来看,语言文化智能化保护是一项复杂的系统工程,需有大规模、高质量、全要素的语言文化数据资源作为支撑。目前我国虽然已经建成一批语言文化资源库,然而从大模型训练的需求来看,这些资源库还存在不少短板。例如,由于资源采集的目标导向不同,有的资源不能满足人工智能模型训练的需要。又如,有些语言文化资源已经极度濒危,采集存在很大困难,可能需使用技术方式进行数据增强或开发其他创造性方法进行数据重建。此外,从组织协调上看,数据共享机制有待完善,不同机构、不同领域的资源互通不易。这些短板制约着我国语言文化智能化保护传承的推进速度和质量。
凝聚社会合力,有目的性和针对性地加强语言文化智能化保护传承的数据资源建设。一方面,国家层面可以统筹规划,设立专项工程,组织专业团队开展系统化的资源采录与建库。资源采录与建库需着重于中华优秀语言文化的多模态形式与内容,建立国家级的大型语言文化数据库,并在数据标注、质量管控、存储安全、共享开放机制等方面形成完备的规范措施。另一方面,鼓励高校、科研机构、企业、社会组织协同参与,发挥各自优势。高校和科研机构在数据采集、整理与研究方面更加擅长,企业在技术研发、数据加工方面优势明显。通过各方协同发力,为中华优秀语言文化智能化传承发展提供必要的数据基础。
从技术方案来看,“全链集成式人工智能保护方案”是一系列人工智能技术的协同整合。多种人工智能技术之间如何有机、高效地衔接,是需具体研究解决的实际技术问题。面对低资源甚至近于零资源的语言文化,现有人工智能技术几乎无法处理,需使用创新思维实现技术突破。
中华优秀语言文化形态丰富,蕴含的思想广阔深邃、博大精深。将中华优秀语言文化的多方面要素纳入大模型训练体系,从而形成一系列智能交互系统,可以实现语言文化的永久安全保护与传承发展,进而筑牢国家语言安全与文化安全的根基。当前,语言文化资源相对丰富完善,人工智能技术日新月异,正是开展中华优秀语言文化智能化保护的大好时机。坚持语言文化智能化发展方向,推行“全链集成式人工智能保护方案”,是使千年语言文化在数字时代永续传承、焕发生机的关键举措,也是中华优秀语言文化创造性转化和创新性发展的必要路径。
【注释】
①《教育部等七部门关于深入推进中华优秀语言文化传承发展 提高全民语言文化素养的意见》,中国政府网,2025年12月16日。
②王宪昭:《对少数民族民间口头文化传承人的思考》,《文化遗产》,2011年第3期。
③陈章太:《论语言资源》,《语言文字应用》,2008年第1期。
④黄成龙、李云兵、王锋:《纪录语言学:一门新兴交叉学科》,《语言科学》,2011年第3期。
⑤王莉宁:《大规模田野调查方案设计的理念及思考》,《语言学论丛》,2024年第4期。
责编/银冰瑶 美编/王梦雅
声明:本文为人民论坛杂志社原创内容,任何单位或个人转载请回复本微信号获得授权,转载时务必标明来源及作者,否则追究法律责任。