AI人工智能|人工智能技术助力民族语言保护大有可为



AI人工智能|人工智能技术助力民族语言保护大有可为
本文插图
当前 , 随着经济、文化互动的全球化 , 主流或通用语言更加强势 , 弱势语言正濒临消亡 。 目前世界上大约有7000种语言 , 而据语言学家预测大部分将于本世纪末消失 。 如果一种语言消失了,与之对应的整个文明也将随之灭亡;如不及时对弱势语言采取措施,我们将失去对人类文化遗产完整记录的机会 。
众所周知 , 语言是人类进行沟通交流的主要表达方式 , 也是文化的载体和重要表现形式 , 还是一个民族的血脉和精神家园 。 因此,民族语言(母语) , 尤其是少数民族语言的保护已经成为一项重要而迫切的工作 , 而这方面的工作大有可为 。
中国著名学者周海中先生曾经指出:当今处于弱势的民族语言正面临着强势语言、全球化、互联网等的冲击 , 其社会使用功能正处于逐渐弱化或消失的危险境地;保护民族语言 , 有利于人类文明的传承和发展 , 也有利于民族团结、社会安定 。
保护语言多样性就是保护文化多样性 , 而保护文化多样性也是保护人类命运共同体的多样性 。 可以说 , 民族语言不仅是民族存在的最重要的特征之一 , 也是民族文化传承、发展、繁荣的重要载体 , 更是人类文明进步和社会和谐稳定的重要标志 。
如今 , 人工智能(AI)在人们看来已经不再陌生了 , 大家都已亲身感受到它对我们日常生活的影响:人脸识别、语音控制、无人驾驶、智能家居、智能机器服务等;但是其实 , 人工智能的使命远远不只是方便人类 , 更是守护地球文明 。
在濒危语言方面 , 语言记录很大程度依赖人工 , 然而其结构复杂多变 , 想要归纳完整的语音变化、语义分析、语法分析等 , 单靠人力是不现实的 。 另外 , 被研究语言的采集、文本转写缺乏规范也存在许多具体困难 。
目前 , 人们正在利用人工智能技术系统地研究濒危语言 , 实现对其完整的记录 。 人工智能技术可建立完善的语料库 , 记录内容包括:确定该语言的语音结构 , 分析该语言的句法结构 , 基本意义单位和主流语言的对应关系等 。
运用语音识别、语音转写、语音合成等人工智能技术 , 口音与文字可以更好结合 , 实现濒危语言的的语音输入 。 如此一来 , 即使没有文字的濒危语言 , 也有条件转换成主流语言文本 , 得以记录与传承 。
前不久 , 美国著名未来学家托马斯·弗雷先生提出了“全球语言档案馆”的设想;在那里 , 他利用了人工智能技术把不同的民族语言以视频、音频和书面文件的方式存档 。 他目前已经联合世界各地的学者收集了近4000种语言的数据 , 其中许多是濒危语种 。
弗雷先生将收集到的语言资料输入到人工智能语言重建引擎 , 其能够生成一个功能性的三维立体化身 , 将语言传授给想要学习它的人 。 他表示 , 人工智能引擎将更进一步 , 填补任何语言空白 , 在需要时创建一种语言的书面形式 , 并提供语言之间的翻译 。
在中国 , 科大讯飞利用人工智能技术寻找濒危语言中不同尺度的音节语义之间的关联和模式 , 在超强算力的服务器的协同配合下 , 最终形成语音库 , 实现了濒危语言的留存 。 凭借先进的智能语音技术 , 该公司覆盖多个少数民族语言及方言的语音系统已经得到实际应用 。
中国的阿里巴巴AI Labs最近宣布 , 正式成立方言保护专项小组 , 投入1亿元对汉语方言进行保护和开发 。 他们将以人工智能为技术手段 , 在全国范围内逐步开展对方言的语音识别、语音合成工作 , 用科技永久保存方言 。
对许多机构来说 , 维护数字语言数据并使其便于土著社区使用是一项挑战 。 而加拿大第一民族文化委员会(FPCC)最近为了支持不列颠哥伦比亚省的土著语言、艺术、文化和遗产的复兴 , 通过其First Voice平台保存语言数据 , 制作教学程序和应用程序 。分页标题
另外 , First Voice的最新创新是一款键盘应用程序 , 可让用户在移动设备上输入超过100种当地语言 , 包括社交媒体、电子邮件和文字处理 。 First Voices将其语言数据存储在Nuxeo中 , Nuxeo是一个开源的云本地内容服务引擎 , 集成了人工智能和机器学习 。
澳大利亚ARC语言动态卓越中心(CoEDL)为了向生活在偏远社区的儿童教授澳大利亚的土著语言 , 还开发了一种低成本、易于运输的智能机器人Opie 。 当孩子们通过故事、游戏和课程学习时 , Opie的眼睛会与他们互动 , 机器人会记录下他们的语言技能 , 供老师跟踪他们的学习情况 。
另外 , CoEDL与美国谷歌合作 , 为土著语言转录和构建人工智能模型 , 他们目前已经为20多种澳大利亚土著语言建立了人工智能模型 。 这要归功于谷歌的开源人工智能平台TensorFlow;这种机器学习技术为语言学家节省了数百万个小时的时间来转录CoEDL超过4万小时的录音 。
由于人工智能技术在语言存储和学习方面的优势 , 现在它在拯救濒危语言的过程中变得空前重要 。 不过 , 想通过这一技术使这些语言得以保护还面临很大的挑战 , 例如许多土著语言一般是通过口述的方式进行传承 , 如果将其转化为文字 , 可能会改变或者无法完整地表达其原本含义 。
我们完全可以相信 , 在现代科技 , 尤其是人工智能技术的助力下 , 民族语言的保护问题一定能够得以解决 。 最后,笔者希望有越来越多的人和机构参与民族语言的保护工作,为建设语言生态文明和保护世界文化多样性贡献智慧和力量 。
【AI人工智能|人工智能技术助力民族语言保护大有可为】(罗蓉博士 澳大利亚国立大学人文艺术研究院)