中国青年网|简论大数据时代古籍数字化的若干问题

作者:张三夕(哈尔滨师范大学文学院特聘教授)
人类社会已经进入一个大数据时代 , 人工智能是大数据时代最为重要的技术样态 , 它对人类社会生活的方方面面正在产生深远的影响 , 也势必对包括古籍整理在内的国学研究工作提出许多新的问题 。 在我看来 , 最重要的问题有以下四点 。
【中国青年网|简论大数据时代古籍数字化的若干问题】
中国青年网|简论大数据时代古籍数字化的若干问题
文章图片
4月23日 , 河北省张家口市宣化区图书馆工作人员在整理古籍 。 光明图片
问题一:大数据时代 , 人们应具有什么样的大数据观?
在大数据时代 , 判断一个人思维能力的重要标准之一是看他有没有大数据观 。 大数据观实为一种新的世界观 。 在大数据时代 , 首先应该转变思维方式 , 由过去惯常的逻辑思维转换为数据思维(当然 , 这并不意味着逻辑思维的失效 , 相反 , 它与演绎思维一起 , 仍是人类最基本的思维方法) 。 充分认识到人工智能是大数据时代最为重要的技术样态 。
人工智能的发展不再是简单模仿人脑的思维 , 而是通过算法革命 , 不断提升大数据的收集和处理能力 , 从而形成类似于人类甚至部分超越人类的认知能力 , 挑战人类的认知极限 。 人工智能的思维方式就是数据思维 , 大数据是人工智能的基础 。 基于大数据收集和处理能力的人工智能 , 代表了一种思维方式的转换 , 即从逻辑思维转换为数据思维 , 确切地说就是从寻求因果关系的逻辑思维转换为寻求万物相关性的数据思维 。 在这里 , 万物相关性也可表述为万物互联 。
从技术的角度讲 , 说大数据是人工智能的基础还不够 , 还要加上另外一个要素:云计算 。 人工智能(AI)、大数据(BigData)、云计算(Cloud)三者共同构成了一个“ABC新时代” 。 “ABC新时代”代表新的产业趋势和技术革命 , 它是继PC时代、移动互联网时代后的又一波新的产业变革 , 标志着一个全新的时代已经来临 , 其对人类社会生活的影响、渗透是深远的 。 在古籍整理方面 , 传统纸质文献将会被完全数字化;在古籍研究方面 , 人们研究所依据的“底本”将是数字化的古籍文献 。 纸本古籍依旧会长期存在 , 人们可能在“怀旧”的意义上对其保持一份“亲切”或“敬意” 。
对于从事包括古籍整理在内的国学研究者来说 , 要从对传统纸质文献整理研究的手工操作转向充分利用古籍数据库的智能操作 。 因此 , 未来不懂得如何智能操作古籍数据库的学者将会落伍 , 甚至被时代淘汰 。 就像当下的衣食住行消费 , 我们如果不会运用手机移动支付就会寸步难行一样 。
问题二:大数据时代 , 古籍数据的量化尺度如何把握?
人们常说 , 中国的古籍浩如烟海 。 从量的方面来说 , 1912年以前产生并留存下来的中国古籍总量有19万种和20万种等不同说法 。 李明杰指出:“据不完全统计 , 我国现存古籍仍有约19万种 , 其中仅保存在公共图书馆系统的就有2750万册 , 可列入善本的约有250万册 。 ”(《中华善本在当代中国的保护与传播》 , 载光明网-文艺评论频道2019-05-15)杜志强指出:“据《中国古籍总目》 , 我国古籍存世总量大约20万种 , 可谓浩如烟海 。 其中 , 善本大约占其三分之一 。 ”(《古籍善本价值重大 , 中华文明源远流长》 , 载光明网-文艺评论频道2019-06-04)我们就暂时以20万种作为现存古籍的总量 。 当然 , 古籍总量在某种意义上是动态的 , 如新出土文献、海内外新发现的汉文典籍等都可增加古籍的总量 , 不过 , 这类文献的量都不会太大 。
如果从传统的数据量化意识来看 , 20万种古籍确实可以说“浩如烟海” , 但是 , 在大数据时代 , 20万种古籍又不能说是“浩如烟海” 。 在大数据视野下 , 它又可看作是“寥若晨星” , 20万种古籍被完全数字化的时间指日可待 。 美国谷歌公司有一个宏伟的野心 , 它想通过扫描把全世界的图书数字化 , 建立一个包罗一切的数字图书馆 。 尽管遇到版权等方面的障碍 , 谷歌公司还是只用了9年时间就达到了一个惊人的数量 , 到2013年 , “谷歌完成了3000多万本书的数字化 , 相当于历史上出版图书总数的1/4”(【美】埃雷兹·艾登 , 【法】让-巴蒂斯特·米歇尔著 , 王彤彤等译 , 《可视化未来——数据透视下的人文大趋势》 , 浙江人民出版社2015年版 。 下同) 。 相对于世界上3000万种图书来说 , 20万种中国古籍可能只是“小菜一碟” 。