medrxiv|arXiv创立三十周年之际,创始人在Nature发文:arXiv是信息共享的先锋

medrxiv|arXiv创立三十周年之际,创始人在Nature发文:arXiv是信息共享的先锋
medrxiv|arXiv创立三十周年之际,创始人在Nature发文:arXiv是信息共享的先锋
文章插图
AI科技评论报道
编译 | 王晔

此文章于8月4日发表在nature reviews physics期刊,作者为arXiv的创立者Paul Ginsparg。该文讲述了arXiv三十年的发展变化,从创立初期便为社会信息共享作出了巨大贡献,在社会共享信息方面积累的大量经验。arXiv作为巨大的信息资源库,为公众和研究团队提供了公平的信息竞争环境。
自30年前arXiv创立,社会信息传播模式发生了巨大的变化——并不总是向好发展。arXiv创立者Paul Ginsparg讨论了电子预印本的学术经验是怎样为更加广泛的信息共享提供参考的。
三十年前,arXiv创立之时,许多人都对互联网的潜力持乐观态度,认为它可以培养了解更多资讯的公民,并创造公平的信息竞争环境。在arXiv这样的新平台上,学术界引领了这一潮流。但是现在,这些最初的理想似乎难以实现,政治上的两极分化因信息“回声室效应”而加剧,甚至对什么是客观证据也不再达成共识。在如此危急情况之下,也许我们学术界可以重拾30年前的领先地位,通过展示如何负责任地、有成效地分享信息,重燃新的希望。
1
更为简约的质量控制的兴起
在其早期,arXiv实施了卫生和内容相关形式的质量控制,后者随着arXiv对公众透明度的增加而变得越来越重要(更多关于arXiv的历史见下文)。这里的 "卫生 "指的是浅层次的——文本应该可以提取;参考文献、作者和摘要应该包括在内;不应该有分散注意力的行号或水印,等等——可以直接自动进行检测。在内容方面,arXiv早期实施了一种最低标准的质量控制,雇用了一批活跃的科学家,对收到的稿件(通常只根据标题和摘要)进行扫描,并迅速判断它是否对目标研究群体有合理的兴趣。这种监督是为了保护读者不受离题内容的影响,并保持与最低学术标准的一致性。它还预见到一直存在的风险,即邪恶分子的行为不一定符合社会的最佳利益,这种风险在后来的几年里或许没有得到社交媒体公司的足够重视——见证了自由流通的虚假信息所带来的高风险的社会损失。
2
arXiv的三十年
arXiv创立于1991年的纯印刷时代。始于美国洛斯阿拉莫斯国家实验室,在1998年之前被称为xxx.lanl.gov,目的是通过提供平等的时间来获取最新科研成果,从而为全球研究提供公平的竞争环境。在万维网出现之前,当时的出版商和图书馆员对任何短期内向数字内容的过渡都持怀疑态度。在20世纪90年代初,arXiv作为一个自动资料库发挥了先锋作用,第一个实现了使用文章摘要登陆网页,并与相关资源链接,包括全文附注和pdf。arXiv在开放存取运动中也优先发挥了作用,催化了PubMedCentral等资源、PLoS等出版商以及后来其他预印本服务器,包括bioRxiv和medRxiv。
十年后,arXiv需要一个合适的机构,以继续其从短期的软件实验过渡到更长期的可持续服务。在学术交流领域,传统的参与者是机构图书馆和专业协会。2001年,我选择了进入康奈尔大学图书馆(1981年在此获得物理学博士学位),理由是图书馆不会与自己的期刊出版业务有潜在的利益冲突。尽管是出发点是好的,但随着时间的推移,这种配合变得越来越糟糕。大学图书馆的主要任务是为其内部社区提供由他人认证的内容,而arXiv的职权范围是向全球研究人员社区传播有时难以辨别出处的资料。
2019年,康奈尔大学内部对arXiv的监督从图书馆转移到了计算机和信息科学,但长期规划受到了大流行病相关问题的阻碍。也许arXiv会在康奈尔内部找到一些新的平衡点,也许专业协会会利用自己的出版经验,帮助创建一个更加分散和可持续的长期资源。arXiv仍然是许多全球研究社区的主要研究交流模式,提供了必不可少的基础设施。每天的提交率正在迅速增长(见图;主题由arxiv.org上使用的标准缩写标明),预计2021年的新文章总数约为19万篇。不管arXiv未来的具体情况如何,预印本的传播不再是异端,目前传播量增加的趋势不太可能逆转。
medrxiv|arXiv创立三十周年之际,创始人在Nature发文:arXiv是信息共享的先锋
文章插图
3
24小时的AI审查
但是,arXiv的运作方式是无情的每日周转, 所以近年来,我创建的自动机器学习框架对人工审核进行了补充,以标记和保留有潜在问题的提交材料,以便进行额外的人工审查。自动程序不会休假、生病、分心或繁忙,并能在几毫秒内全面评估全文内容,包括对照整个后台数据库检查每份新提交的文件是否有重复或过多的文字重叠。现在,大部分的内部人力都被用于调解和裁决各种人类和机器人的规模性疏忽。