【爱历史】当人工智能遇上“之乎者也”,会擦出怎样的火花

中国是全球拥有古籍最多的国家 , 国内现存汉文古籍300万部 , 散居在海外的古籍超过40万部 。 然而 , 纸质古籍损毁是不可逆转的 , 虽然古籍原生性保护有很大改善 , “纸”的脆弱却依然无法改变 , 人们也并没有太多机会接触到艰涩难懂的古籍文本 。
不过在数字时代 , 这种情况正在发生变化 , 古籍的“再生性”保护 , 逐渐向数字化、平台化、智能化的方向发展 。 当人工智能遇上“之乎者也” , 会擦出怎样的火花?
━━━━━
人工智能改变古籍存续形式
“整理国故 , 再造文明” , 在一百年前说 。 国故也即是古籍 , 古代的书 , 一般指1911年之前历朝写本、刻本、稿本、拓本等 。 这些纸质文献在悠悠历史长河中其命运可谓颠沛流离 。 纸质古籍损毁是不可逆转的 。 如明代《永乐大典》 , 永乐时期的原本已经完全湮灭不见 , 嘉靖重抄本11000册现存不到5% 。 这样的损失难以估量 。
哲学家罗素曾说:“中华文明是唯一的历史文化从未间断的文明 。 ”古籍作为中华文化的一支重要血脉 , 便是文明未断的依据之一 , 今年 , 国家图书馆藏清宫“天禄琳琅”历时8年修复成功 , 在标准的存藏条件下 , 能保存200年 。
尽管古籍原生性保护有很大改善 , 但依然改变不了“纸”的脆弱 。 2015年年初 , 位于莫斯科西南部的俄罗斯科学院社会科学信息研究所图书馆突发火灾 , 约有200万册文献资料遭到损毁 。 俄罗斯科学院院长称“这是俄罗斯科学界的切尔诺贝利事件” 。
在很多人的印象里 , 古籍文本往往艰涩难懂 , 而且接触机会不多 。 但在数字时代 , 这种情况正在发生转变 , 目前数字化、平台化、智能化成为古籍“再生性”保护的方向 。 在国外 , 哈佛燕京图书馆和美国国会图书馆 , 已经将他们收藏的中华古籍扫描完成 , 并对外公开 。 但它们仅仅是图片扫描版 , 并未利用智能技术实现文本化 , 无法复制粘贴 , 只能服务于少数研究者 。
国内较为有名的古籍智能平台 , 如“汉典重光”古籍平台 , 让一批珍藏于加州大学伯克利分校的中文古籍善本 , 以数字化的形式回归 , 该平台涵盖的古籍数量为20万页 。 再如浙江大学的“古籍智慧平台” , 其利用OCR光学字符识别技术 , 将图片中的文字换成文本格式 , 它的识别准确率在90%以上 。
这些平台有着各自的优势 , 但也各有各的局限性 , 如网速慢、智能化程度低 。 比如“书同文古籍数据库”收费较高 , “中国哲学书”电子化计划目前囊括了超过三万部著作 , 用户却常常无法正常访问 。
今年3月 , 字节跳动与北京大学联合成立“北大——字节数字人文开放实验室” , 双方协作研发推出古籍数字化平台——识典古籍 。 10月 , 识典古籍测试版已上线 , 目前 , 已整理上传390本古籍经典(均为四部丛刊书目) , 3000卷 , 3000多万字 , 预计在3年内将整理10000种古籍 , 基本覆盖儒家、道家和佛家的经典书目 , 对用户免费开放 。
【爱历史】当人工智能遇上“之乎者也”,会擦出怎样的火花
文章图片
▲识典古籍平台主页面截图
━━━━━
古籍是如何实现数字化的?
识典古籍有何技术特点?项目负责人介绍 , 识典古籍主要运用了三种技术 , 文字识别、自动标点、命名实体识别 。
【爱历史】当人工智能遇上“之乎者也”,会擦出怎样的火花】文字识别技术 , 即使用OCR技术对古籍的影印版文字进行单个切分、文字识别、顺序识别 。 所谓文字切分 , 是指古籍扫描件中的单字检测技术 , 能够获取每个字符的具体位置;文字识别 , 将切分的图片送入文字识别模型 , 获取每个文字的具体编码;顺序识别 , 结合文字内容和文字位置 , 获取整张古籍扫描件的阅读顺序 。
【爱历史】当人工智能遇上“之乎者也”,会擦出怎样的火花
文章图片
▲古籍数字化过程视频截图
OCR的应用流程 , 是用电子设备对纸本古籍进行扫描 , 内容转录到计算机中 , 并生成相应的数字文档 , 效率与人工录入不可同日而语 。 目前行业内OCR识别准确率平均为93%至94% , 识典古籍的准确率为96%至97% 。
自动标点技术 , 是通过序列标注的方式对古籍自动进行标点划分 , 支持“ ,。 ?!、:;”七种常用标点 。 举例来说 , “学而时习之不亦说乎” , 自动标点后的结果是“学而时习之 , 不亦说乎?”命名实体识别 , 则是通过序列标注识别古籍文本中的命名实体 , 支持识别人名、地名、书籍、时间、官职这五种类型的实体 。