语义学者:尚需进阶的“学术秘书”
文章插图
“语义学者”有望在不久的将来成为学术搜索的标准工具 。 图片来源:Unsplash
■本报采访人员 张双虎
据不完全统计 , 目前科学文献数量大约每9年增加一倍 , 科学家读完研究领域内的最新文献变得越来越困难 。 面对浩如烟海的文献资料 , 研究人员有时候甚至难以检索到急需的文献资料 。
如果有个“学术秘书”能免费替你做些文献方面“爬罗剔抉 , 刮垢磨光”的工作 , 你是不是想马上“来一打”?近日 , 位于美国西雅图的艾伦人工智能研究所在这方面做了些尝试 。
从搜索引擎到“语义学者”
科研人员常借助学术搜索来寻找自己想要的资料 。 但有些学术搜索工具只为某一研究领域的专家服务 , 不同领域之间的关联不足 , 难以为跨界学者提供服务 。 还有一些专注科研领域的搜索引擎 , 偶尔也会检索出相当一部分非学术文档 。 更重要的是 , 从互联网上搜索到的资料容易出现令人啼笑皆非的差错 , 甚至数据也面临被篡改的风险 。
针对学术搜索引擎的种种不足 , 2015年 , 艾伦人工智能研究所首次推出“语义学者” 。 “语义学者”本质上是一个旨在解决信息过载问题的学术搜索引擎 , 它能帮助用户筛选科学论文 , 并在一定程度上理解检索到的论文内容 。 该搜索引擎检索的文献库最初集中在计算机科学 , 此后逐步向其他领域扩展 。
2016年 , 该研究所更新了“语义学者”的功能 。 比如 , 它可以从文本中挑选出最重要的关键词和短语 , 而不仅仅依赖作者或出版商所提供的论文关键词 。 它还能帮助科学家理解论文的内容 , 这一功能相比此前其他的学术搜索引擎令人耳目一新 。 与此同时 , 它还可以找出论文所引用的真正具有影响力的参考文献 , 并将论文中的数据呈现在搜索结果中 , 让搜索者一目了然 。
期待“智慧的灵魂”
“简洁 , 是智慧的灵魂 。 ”近日 , 艾伦人工智能研究所推出更新的“语义学者”系统时 , 引用莎士比亚剧作《哈姆雷特》中的一句话来“站台” 。
新款“语义学者”搭载人工智能并用于科学研究 , 可以将冗长的计算机科学论文进行一系列汇总 , 以节省审查此类文献的时间 。 该系统新的摘要功能 , 可以对大量科学研究论文进行分析 , 并将其简化为一句高度概括的话 。
目前 , “语义学者”的数据库中有1000万篇计算机科学论文 。 据该数据库技术总监Dan Weld介绍 , 他们将逐步添加其他学科的论文 。
研究人员经常依赖论文标题和阅读冗长的摘要来甄别信息 。 在更习惯用手机、Pad等移动设备来完成各项工作的今天 , “语义学者”的功能似乎更具优势 。
“经过早期测试 , 使用者的反馈是积极的 。 ” 艾伦人工智能研究所研究员韦尔德说 , “人们似乎很喜欢它 。 ”
近年来 , 研究人员开发出各种自然语言处理程序来汇总文档 , 它通常有两种方式 。 抽取式着重于选择代表性文本 , 并在摘要中逐字使用 。 例如 , 2018年开发的Paper Digest是提取关键句子 , 而不是自己来再次书写 。 抽象式则使用自然语言生成算法来创建全新的内容摘要 。 近年来 , 人工智能自然语言技术的发展 , 使这种方法成为程序员的首选 。
在所有具备汇总功能的搜索工具中 , “语义学者”拥有最大的压缩率 。 对一篇约5000单词的科学论文来说 , “语义学者”的摘要约为21个词 。 其平均压缩率为原文的1/238 。 目前最接近“语义学者”的竞争对手 , 只能将文档压缩到原文的1/36 。
“这还不是完美的 , 但是朝正确方向迈出的一步 。 ”华盛顿大学教授Jevin West对该新程序进行测试后说 , “我预计 , 这种工具将在不久的将来成为学术搜索的标准工具 。 ”
目前 , 该系统仅接受以英文撰写的论文 , 程序作者希望最终能包含其他语言的文档 。 艾伦研究所提供免费代码 , 还建立了一个向所有人开放的示范站点 。
“学术秘书”有待“实习”
“‘语义学者’的核心是从长文中挖掘和压缩出关键语义 , 和搜索引擎的关键词不太一样 。 ”北京理工大学自动化学院教授邓方告诉《中国科学报》 , “即使有较大压缩率 , 该系统概括的准确性也可以通过大量的训练提高 , 所以准确率值得期待 。 系统对不同语言需要进行重新训练 , 所以对语言方面还有更大的改进空间 。 ”
“(语义学者在)工作方法上并没有太多创新 。 ”中国科学院自动化所研究员张家俊对《中国科学报》介绍说 , 抽取式高效便捷 , 但总结能力一般;抽象式更接近人类概括大意时 , 先理解再总结的思路 , 但输入文本长度受限 。 其绝大多数情况下适用于对单篇文档做摘要总结 , 并且限于目标函数 , 导致压缩率太高 , 质量无法保证 。
- 相机|最适合摄影初学者的3款相机:操作简单,支持4K拍摄,价格厚道
- 学者|如何做好邮件推送渠道的学术内容传播?
- 小米科技|两家中国企业被针对,看完一组数据,美学者:终究还是失败了
- 论文奖|连破17个云安全漏洞,中国青年学者获国际顶会CCS年度最佳论文奖
- 双十一|初学者必读:结型场效应管的应用特性介绍
- 5G|中国电信公布5G评测数据,美国学者直呼:这不是白宫想要的结果
- 城市导报|2021青花郎·名人讲坛盛大举行 汲取顶级专家学者智慧共创价值
- 苹果|中企组建“金标联盟”,苹果减产1000万,美国学者:反击来了
- 国家技术发明奖|百度“知识增强的跨模态语义理解技术”获国家技术发明奖
- 核心技术|百度“知识增强的跨模态语义理解技术”获国家技术发明奖