论文|语义学者:尚需进阶的“学术秘书”( 二 )


“学术秘书”有待“实习”
【论文|语义学者:尚需进阶的“学术秘书”】“‘语义学者’的核心是从长文中挖掘和压缩出关键语义 , 和搜索引擎的关键词不太一样 。 ”北京理工大学自动化学院教授邓方告诉《中国科学报》 , “即使有较大压缩率 , 该系统概括的准确性也可以通过大量的训练提高 , 所以准确率值得期待 。 系统对不同语言需要进行重新训练 , 所以对语言方面还有更大的改进空间 。 ”
“(语义学者在)工作方法上并没有太多创新 。 ”中国科学院自动化所研究员张家俊对《中国科学报》介绍说 , 抽取式高效便捷 , 但总结能力一般;抽象式更接近人类概括大意时 , 先理解再总结的思路 , 但输入文本长度受限 。 其绝大多数情况下适用于对单篇文档做摘要总结 , 并且限于目标函数 , 导致压缩率太高 , 质量无法保证 。
张家俊认为 , 该系统一是构造了大规模的科技文本—短摘要数据集;二是利用科技论文—标题的自然标注数据作为额外的任务进行多任务学习;三是在预训练模型BART的基础上 , 针对短摘要生成任务进行微调 。
“由于他们提出了自己的数据集 , 这个数据集对应一个新的任务 , ‘语义学者’在这个数据集上获得了很好的效果 , 有比较好的应用 。 ”张家俊说 , “不过 , 也有需要改进的地方 。 一方面 , 很多文献非常长 , 与之相对目前仅支持5000个词的输入有些捉襟见肘;另一方面 , 即使可以输入5000个甚至更多单词 , 在模型上进行语义编码也有难度 , 这个方法的有效性还有待进一步观察 。 ”
来源: 《中国科学报》