中国青年网|简论大数据时代古籍数字化的若干问题( 二 ) 作者：张三夕（哈尔滨师范大学文学院特

客观地评估，中国古籍的数字化应该说已经取得长足的发展。其中国家图书馆的“中华古籍资源库”是“中华古籍保护计划”的重要成果，目前在线发布的古籍影像资源包括国家图书馆藏善本和普通古籍、法国国家图书馆藏敦煌遗书、天津图书馆藏普通古籍等，资源总量超过3.2万部，可在国图官网上直接浏览。另外，中华再造善本工程一期、二期都已完成，且制作了数据库，提供全文浏览。唐宋编和金元编共影印善本古籍758种。清人陆心源“皕宋楼”以藏200种宋刻本引以为傲，今天我们足不出户便可阅览几百种宋本。不过，如果对标谷歌公司，我们有待完成的工作量还很大。中国古籍整理与研究的当务之急，是整合海内外各种古籍数据库，建立一个由国家和民间、高校和企业共同参与管理的包含全部20万种古籍的“古籍数字图书馆” ，以实现古籍整理与研究资源的全面共享。
大数据时代正在重构新的文献统计学或计量文献学。如果能正确把握当下古籍量化的尺度，就不会产生古人经常发出的“望洋兴叹”的感慨，就能完成过去在人工统计时代不可能完成的各种古籍量化工作。
数据思维的前提是数据。也就是说，古籍整理与研究的基础不再仅仅是传统意义上的资料或文献，而是数据，各种大数据。所谓“大数据” ，首先是一个“量级”的概念，大数据不是以个、十、百、千为量级，而是以百万、千万、上亿为量级，单个研究者依靠手工是无法完成这些大数据的收集与处理的，必须依靠机器，依靠人工智能。不少信息的统计手段发生前所未有的变化，必须依靠高科技的技术手段来分析海量的信息。数据思维的数据规模特点，除了量级的变化，还意味着某种庞大数据集。正如《可视化未来——数据透视下的人文大趋势》一书中指出的，我们面临的第一个主要的挑战是， “大数据和数据科学家们之前运用的数据在结构上差异很大” ， “大数据是杂乱的数据集” 。当我们收集并处理的古典文献从具体的、单个的文本转化为庞大而杂乱的数据集时，就必须运用寻求万物相关性的人工智能的数据思维方式，而不是简单地寻求线性的因果关系的逻辑思维方式。这一点将赋能包括古籍整理在内的国学研究以新的时代特征。
问题三：大数据时代，如何构建古籍数据和古籍数据库的目录学？
古典文献学是一套包含有目录学、版本学和校勘学等主干性知识的知识谱系，它们在大数据时代都面临着知识结构和研究方式的转型。其中，目录学具有优先性地位。
在大数据时代，我们需要构建新的古籍数据和古籍数据库的目录学。这种目录学，首先要对古籍数据进行重新分类，我们依照的既不是《汉书·艺文志》那样的七分法、《隋书·经籍志》那样的四分法，也不是按照针对纸质文献所流行的杜威分类法或中图法分类体系，甚至也不是按照传统的科学数据分类，如实验数据与观察数据之类的数据分类。
如何进行古籍数据分类？分类方法可以有多种，从层次上可分为表层数据与深层数据；从价值上可分为有用数据与垃圾数据；从可靠性上可分为真实数据与虚假数据；从时间上可分为长期数据和短期数据，等等。
上海宝藤生物医药公司董事长楼敬伟曾表示，在生物医学数据方面，不关注浅层数据，如身高、体重、呼吸、心跳等，而关注基因组数据、蛋白质组数据、代谢组数据等深层数据，关注这些深层数据所反映的人体表征之间的数据关系，关注人体生物学的这些表征，和影像学存在什么关系。我们在意的是人体的肠道微生态，人体与社会环境的互动，掌握多纬度的数据。我们不能收集一堆垃圾数据，而要开辟智能医疗的试验场。楼敬伟的说法，对于我们重新认识古籍数据的分类是有启发性的。哪些东西是古籍数据中的表层数据，哪些是古籍数据中的深层数据；哪些是古籍数据中的长期数据，哪些是古籍数据中的短期数据，这些都是需要进一步思考的问题。