谷歌的图书扫描计划为何失败 图书扫描( 二 )


这些扫描仪是谷歌定制的 。与其说他们在扫描,不如说他们在给书拍照 。每台仪器可以在一小时内将大约1000页书籍数字化 。要扫描的书会放在专门设计的自动支架上,可以适应不同的书脊,固定书 。仪器上方有一排灯,以及价值至少1000美元的光学设备,包括四个摄像头,两个分别照亮打开的书的左半部分和右半部分,一个光学雷达确定扫描范围,它将在书的表面生成激光网格,以捕捉纸张的曲率 。操作者负责手动翻页,因为没有机器能比得上人手的速度和温柔,然后脚踏板触发相机拍照,一系列动作仿佛在弹奏一架陌生的钢琴 。
这个扫描系统非常高效的原因是软件完成了大部分工作 。在传统的书籍扫描系统中,在拍摄每张照片之前,减慢扫描进度以确保每一页都对齐并展开是主要原因 。但在谷歌的扫描系统中,书页歪斜的书籍照片会经过一种“去皱算法”的处理,这种算法利用光学雷达的数据,最终使书中的每一行文字恢复到正常的水平和垂直高度 。
在项目高峰期,大约雇用了50名 工程师 。他们负责开发可以将图像转换成文字的光学识别软件,并编写除皱、色彩校正和对比度调整的算法,以更好地处理图像 。他们还根据布林和佩吉早期研究的思路,开发了识别书中插图和图表、提取页码、将脚注转换成引文,甚至根据相关性对书籍进行排序的算法 。项目巅峰时期的前项目总监丹·克兰西(Dan Clancy)说,“书与书之间没有 。一个巨大的研究挑战是理解书籍之间的关系 。”
当时,谷歌的其他部门执着于让各类app更加社交化,比如2011年发布的Google Plus,而图书项目的负责人则把图书扫描视为和谷歌的搜索服务一样老套传统的东西,他们都呼应了谷歌的使命:“让全世界的信息都有秩序地、跨越国界地流通和发挥作用 。”
图书扫描项目是谷歌有史以来之一个被称为“moonshot”的项目 。在谷歌开发无人车和通过高空气球向非洲输送互联网的“Project Loon”之前,这个数字图书项目被外界视为白日梦 。甚至一些谷歌员工也认为这个项目是在浪费时间和金钱 。克兰西告诉我,“当时我们在做这个谷歌图书搜索项目的时候,谷歌内部肯定有很多人在想,‘我们为什么要在这个项目上投入这么多钱?’一旦谷歌开始稍微小心一点,就会有人质疑,‘等等,你每年有4000万美元可以花,然后你花5000万美元在图书扫描上?那么这个项目总共将花费我们3亿到4亿美元?“你在想什么,”然而,拉里和谢尔盖一直忠实地支持这个项目 。"
2010年8月,谷歌在博客上发布消息,称世界上有129,864,880本书,谷歌要全部扫描 。
当然,事情并不完全像他们说的那样 。这个探月项目扫描的图书可能比原计划少1亿册 。计划失败的整个过程很复杂,但原因很简单:谷歌的所作所为被认为是错误的,没有人会原谅 。在得知谷歌从图书馆拿走了数百万本书,在本地逐一扫描,然后像什么都没发生一样归还后,各行各业的作家和出版商开始起诉谷歌,就像他们在最初的 中写的那样,指责谷歌“大规模侵犯知识产权” 。
可自动翻页的书籍扫描仪
谷歌扫描图书的初衷并不是为了建立一个数字图书馆,让每个人都能完整地阅读电子书 。这个想法是后来才有的 。他们最初的目标只是让用户能够搜索书籍 。对于那些有版权的书籍,Google只能显示书籍的片段,搜索结果也只能显示你搜索过的物品前后的几个字 。因此,谷歌将他们的图书搜索服务比作卡片型索引目录 。
谷歌以为建立卡片式索引目录属于“合理使用”范畴,就像著作权法允许学者引用他人作品一样 。谷歌的律师大卫·德拉蒙德说,“合理使用和不合理使用的区别在于对原文有没有改动 。是的,我们在数字化这本书的过程中 了副本,但显然,使用户能够在书中找到某个术语并不意味着用户阅读了这本书 。这也是谷歌图书提供的服务与图书本身不同的原因 。”
杜蒙德肯定是对的,因为根据法律规定,故意侵犯配套产权的赔偿金额是每本15万美元 。如果谷歌真的侵犯了成千上万本书的知识产权,它需要赔偿的金额将是数万亿 。加州大学伯克利分校(University of California,Berkeley)的法学教授帕梅拉·萨梅尔森(Pamela Sameulson)在2011年写道:“谷歌真的有理由害怕他们不顾一切地赌博,认为他们的行为是对知识产权的‘合理使用’ 。”版权所有者进行了反击 。
他们有很好的理由反击 。因为谷歌未经许可洗劫了图书馆 。这显然是错误的 。如果你要复制一本书,首先你要有复制权——也就是那该死的只有作者和出版商才有的版权 。如果允许谷歌批量复制美国的所有书籍,无疑会给版权人带来说不尽的伤害,这种行为可能会让他们失去“知识产权”本该给他们带来的利益 。美国作家协会和几位作家代表美国所有图书版权受益人对谷歌提起集体诉讼(一些出版商已经单独起诉谷歌,但很快加入了美国作家协会的集体诉讼) 。