谷歌的图书扫描计划为何失败 图书扫描

图书扫描(为什么谷歌的图书扫描计划失败)
你离阅读到目前为止出版的所有书籍的电子版只有一步之遥 。如果你想阅读尚未出版的书籍,你可能还需要支付一些钱,但所有其他已出版的书籍都可能在每个当地图书馆的阅读终端免费阅读 。这个电子书图书馆的藏书将比国会图书馆、哈佛大学、密歇根大学以及欧洲任何一个国家图书馆的藏书都要大 。
美国国会图书馆
在每个图书馆即将拥有的阅读终端上,你可以搜索成千上万的书籍,阅读你能找到的每一页书 。您可以突出显示段落,发表评论并分享它们 。人们之一次可以在所有印刷书籍中自由定位一个观点,然后将链接直接发送给其他人 。很快,书籍就可以像网页一样在眨眼之间被获取、搜索、复制和粘贴 。
这是一个即将实现的夙愿 。牛津大学博德利图书馆馆长理查德·理查德·奥文登(Richard Richard Ovenden)说,“几千年来,人们一直梦想着一个世界级的图书馆 。文艺复兴时期,有人在幻想,我们可以把世界上所有已经印在纸上的知识储存在一个房间或者一个机构里 。”在2011年的春天,我们已经设法将世界上所有的书籍存储在一个可以放在桌面上的小终端中 。
2003年,美国国会图书馆的图书管理员(左)和2013年美国罗利市北卡罗来纳州立大学发明的自助图书检索系统 。
当时,一位密切关注此事的人士写道:“这是一个里程碑式的事件,可以促进教育、研究和人们智力生活的创新 。”
然而,当年3月22日,美国纽约南区地 院根据《联邦民事诉讼规则》第23(e)(2)条,驳回了将本世纪出版的所有图书向世界开放并在所有图书馆安装图书阅读终端的计划 。
亚历山大图书馆遭遇火灾时,人们说这是“一场世界性的灾难” 。那一年,当我们这个时代最重要的人文计划被法院否决的时候,帮助阻止这一计划的学者、档案工作者和图书馆员都松了一口气,因为他们觉得自己刚刚阻止了一场灾难 。
谷歌扫描全球所有书籍的秘密计划始于2002年 。该项目的名称是海洋工程 。那时,拉里·佩奇和玛丽莎·梅耶尔正坐在办公室里,手里拿着一本300页的书和一个节拍器 。佩吉想知道扫描一亿本书需要多长时间,所以他从手头的这本书开始 。他和梅尔用计时器保持速度,然后花了40分钟从头到尾一页一页地翻这本书 。
佩吉一直想将书籍数字化 。早在1996年,当谷歌还只是一个学生项目,主要用于通过爬虫分析文档,并根据用户的请求对相关性进行排名时,谷歌背后的想法是“发展技术,建立统一的世界数字图书馆 。”当时的想法是,当未来所有的书都被数字化后,人们可以勾勒出每本书的引用 ,看看哪本书被引用的频率更高,然后利用这些数据为图书馆用户提供更好的搜索结果 。但纸依然是大部分书籍的载体 。佩吉和他的研究伙伴谢尔盖·谢尔盖·布林(Sergey Sergey Brin)利用万维网中的网页进行实验,不断丰富他们根据引用次数来判断受欢迎程度的思路 。
到了2002年,佩姬觉得再次关注书籍的时机已经成熟 。当他脑子里有了“40分钟”的大致概念后,他回到了自己的母校——在图书扫描领域领先世界的密歇根大学,想看看批量数字化技术发展到了什么程度 。密歇根大学告诉佩吉,按照当时的速度,将密歇根大学的700万册图书全部数字化大约需要一千年的时间 。如果是现在的佩吉,她可能会稍微犹豫一下,但当时的佩吉回答说谷歌只需要6年左右 。
密歇根大学图书馆
他向密歇根大学图书馆建议,图书馆把所有的书借给谷歌,谷歌会为对方做所有的扫描工作 。最后,你可以获得你所有收藏的电子版,谷歌将获得巨量的数据资源,这些数据资源还没有被照顾到 。布林这样描述谷歌对图书馆收藏的渴望,“人类的知识有几千年的历史,书籍可能是其中质量更高的部分 。”试想一下,如果被困在页面之间的知识都能进入搜索引擎?
早在2004年,谷歌就开始扫描 。之后,谷歌与密歇根大学、哈佛大学、斯坦福大学、牛津大学、纽约公共图书馆等多家图书馆系统签约,以比佩吉预测更快的速度,在十几年的时间里扫描了约2500万册图书 。图书扫描花费了谷歌大约4亿美元 。这项工作不仅要靠技术,还要有强大的后勤保障 。
从周一到周五,装满书籍的半挂卡车会停在谷歌扫描中心的门口 。负责扫描斯坦福图书馆馆藏的中心是一栋翻修过的办公楼,位于谷歌山景城园区 。当书籍从卡车上卸下来时,它们会被放入图书馆中常见的手推车中,然后推给人类操作员 。扫描中心大约有几十台扫描仪,整齐地一排排排列着,它们之间的间隔约为2米,操作者坐在明亮的扫描仪前工作 。