【爱历史】当人工智能遇上“之乎者也”,会擦出怎样的火花( 二 )


【爱历史】当人工智能遇上“之乎者也”,会擦出怎样的火花
文章图片
▲自动标点技术解析视频截图
人工智能识别的工作完成后 , 为了方便用户阅读 , 整理平台要进一步对成型的文本进行整理 。
首先 , 是对3%和4%错误率进行人工修改 , 分出段落和标题 , 然后再赋予不同的格式 。 而对于不同质量的古籍文献 , 整理标准不一 , 人力承担着不同的职能 , 大致流程为制定整理标准、人工整理、审核、上架 , 相关管理者是有古籍知识经验的北大团队 。
其次 , 是对用户访问数据进行统计 。 然后是资源管理的功能 , 用户可以更清晰地看到每本书的基础信息 , 具体内容 , 以及当前所处的整理状态 。
最后 , 将古籍划分等级 , 如经典书目、常读书目、基础书目 , 像《论语》这种经典书目 , 对正确率、标点和注释的要求都较高 。 负责人介绍 , 目前这些功能有的已经成型 , 有的还需要进一步增强 , 古籍数字化并非易事 。
━━━━━
古籍数字化的现实困境
中国是全球拥有古籍最多的国家 , 国内现存汉文古籍300万部 , 散居在海外的古籍超过40万部 , 它们依然面临着衰朽 , 而已完成数字化的古籍为7.4万部 , 数字化进程仍处于初步阶段 。
其中面临几大难点 。 首先是部分古籍在数字化之前要先完成修复 , 但古籍修复工序复杂 , 难以完全用科技手段 , 且培养古籍修复人员需要极高的时间成本 。 其次 , 花费高昂 , 有专家估算 , 如果将全国尚未数字化的古籍全部数字化 , 采集、组织、加工、存储、管理等费用大约需要60亿元 。 第三 , 技术难度高 , 现有的数字化很多是由缩微胶片转换而成 , 呈黑白影像且分辨率较低 , 难以切实满足读者的需求 。
过去 , 古籍内容转化为数字文本主要依靠专家人工录入 , 耗时费力 。 北京大学数字人文研究中心主任王军算过一笔账:我国现存古籍约有20万种 , 从1949年到2019年 , 共修复整理出版了近38000种 , 要将现存古籍全部修复整理出来 , 可能需要三百年的时间 。 若利用人工智能技术辅助修复整理 , 大概二三十年就能完成 。
相关负责人介绍说 , 目前古籍的使用人数众多 , 一些高校斥资买古籍数据库 , 但是访问不是很方便 。 建立数字化平台 , 各类学科的专业人士能更容易查看古籍文献 。 一些潜在的古籍爱好者 , 数字化平台可将这部分用户迅速连接起来 。
目前 , 识典古籍测试版的句读错误率在3%到4% , 文字识别也有一定的错误率存在 , 影响阅读体验 。 在人工智能机器学习一段时间后 , 准确率将会提升到98%左右 。
【爱历史】当人工智能遇上“之乎者也”,会擦出怎样的火花
文章图片
▲古籍修复师在工作
作为北京大学-字节跳动数字人文开放实验室的成员 , 王军有着丰富的古籍数字化经验 , 他曾研发过“《宋元学案》知识图谱可视化系统” , 对240万字的《宋元学案》进行了文本处理和分析 , 将2000多位宋元理学学者、近100个学术流派所涉及的人物、时间、地点、著作等提取出来构造成知识图谱 。
据他介绍 , 对于识典古籍的开发和应用 , 北京大学主要从三方面入手 , 第一 , 联络国内的图书馆寻求公版资源 , 保障版本的正当性;第二 , 联系北师大、复旦、南大、陕西师大等高校的学者和文献专家 , 进行人工审核与校对 , 弥补人工智能有识别错误率的短板;第三 , 北大利用自有的学术平台 , 链接学术界和高校的年轻用户 , 对识典古籍进行推广 。
━━━━━
古籍保护的更多可能
字节跳动旗下有多个信息分发平台 , 沉淀着大量关于内容平台的经验和技术 , 这些技术可以逐渐向古籍智能数字化的方向上迁移 。 过去半年 , 识典古籍技术开发团队整合了包括字节跳动人工智能实验室、今日头条的设计团队和抖音的开发、测试团队成员加入 , 其中有不少是古文献专业和文史哲专业的成员 。
识典古籍在使用性上强调用户体验 , 网页打开流畅 。 主页有检索栏 , 用户可直接搜索书目;右上方是书库 , 点进去可看到经、史、子、集四个栏目;下方是古籍书样 , 如《周易》、《荀子》、《左传》 , 主页下方是“儒家经典”“道家经典”“文学经典”三个栏目 。 点开一本书 , 左边是目录 , 右边是正文 , 上方有四个功能项 , 依次点击可看到古籍原本的影像、注疏、繁简字体切换以及书库 , 且每部古籍都有精校和粗校的标签提示 。