论文|语义学者:尚需进阶的“学术秘书”


论文|语义学者:尚需进阶的“学术秘书”文章插图
“语义学者”有望在不久的将来成为学术搜索的标准工具 。 图片来源:Unsplash
■本报采访人员 张双虎
据不完全统计 , 目前科学文献数量大约每9年增加一倍 , 科学家读完研究领域内的最新文献变得越来越困难 。 面对浩如烟海的文献资料 , 研究人员有时候甚至难以检索到急需的文献资料 。
如果有个“学术秘书”能免费替你做些文献方面“爬罗剔抉 , 刮垢磨光”的工作 , 你是不是想马上“来一打”?近日 , 位于美国西雅图的艾伦人工智能研究所在这方面做了些尝试 。
从搜索引擎到“语义学者”
科研人员常借助学术搜索来寻找自己想要的资料 。 但有些学术搜索工具只为某一研究领域的专家服务 , 不同领域之间的关联不足 , 难以为跨界学者提供服务 。 还有一些专注科研领域的搜索引擎 , 偶尔也会检索出相当一部分非学术文档 。 更重要的是 , 从互联网上搜索到的资料容易出现令人啼笑皆非的差错 , 甚至数据也面临被篡改的风险 。
针对学术搜索引擎的种种不足 , 2015年 , 艾伦人工智能研究所首次推出“语义学者” 。 “语义学者”本质上是一个旨在解决信息过载问题的学术搜索引擎 , 它能帮助用户筛选科学论文 , 并在一定程度上理解检索到的论文内容 。 该搜索引擎检索的文献库最初集中在计算机科学 , 此后逐步向其他领域扩展 。
2016年 , 该研究所更新了“语义学者”的功能 。 比如 , 它可以从文本中挑选出最重要的关键词和短语 , 而不仅仅依赖作者或出版商所提供的论文关键词 。 它还能帮助科学家理解论文的内容 , 这一功能相比此前其他的学术搜索引擎令人耳目一新 。 与此同时 , 它还可以找出论文所引用的真正具有影响力的参考文献 , 并将论文中的数据呈现在搜索结果中 , 让搜索者一目了然 。
期待“智慧的灵魂”
“简洁 , 是智慧的灵魂 。 ”近日 , 艾伦人工智能研究所推出更新的“语义学者”系统时 , 引用莎士比亚剧作《哈姆雷特》中的一句话来“站台” 。
新款“语义学者”搭载人工智能并用于科学研究 , 可以将冗长的计算机科学论文进行一系列汇总 , 以节省审查此类文献的时间 。 该系统新的摘要功能 , 可以对大量科学研究论文进行分析 , 并将其简化为一句高度概括的话 。
目前 , “语义学者”的数据库中有1000万篇计算机科学论文 。 据该数据库技术总监Dan Weld介绍 , 他们将逐步添加其他学科的论文 。
研究人员经常依赖论文标题和阅读冗长的摘要来甄别信息 。 在更习惯用手机、Pad等移动设备来完成各项工作的今天 , “语义学者”的功能似乎更具优势 。
“经过早期测试 , 使用者的反馈是积极的 。 ” 艾伦人工智能研究所研究员韦尔德说 , “人们似乎很喜欢它 。 ”
近年来 , 研究人员开发出各种自然语言处理程序来汇总文档 , 它通常有两种方式 。 抽取式着重于选择代表性文本 , 并在摘要中逐字使用 。 例如 , 2018年开发的Paper Digest是提取关键句子 , 而不是自己来再次书写 。 抽象式则使用自然语言生成算法来创建全新的内容摘要 。 近年来 , 人工智能自然语言技术的发展 , 使这种方法成为程序员的首选 。
在所有具备汇总功能的搜索工具中 , “语义学者”拥有最大的压缩率 。 对一篇约5000单词的科学论文来说 , “语义学者”的摘要约为21个词 。 其平均压缩率为原文的1/238 。 目前最接近“语义学者”的竞争对手 , 只能将文档压缩到原文的1/36 。
“这还不是完美的 , 但是朝正确方向迈出的一步 。 ”华盛顿大学教授Jevin West对该新程序进行测试后说 , “我预计 , 这种工具将在不久的将来成为学术搜索的标准工具 。 ”
目前 , 该系统仅接受以英文撰写的论文 , 程序作者希望最终能包含其他语言的文档 。 艾伦研究所提供免费代码 , 还建立了一个向所有人开放的示范站点 。