语义学者:尚需进阶的“学术秘书”( 二 )


【语义学者:尚需进阶的“学术秘书”】张家俊认为 , 该系统一是构造了大规模的科技文本—短摘要数据集;二是利用科技论文—标题的自然标注数据作为额外的任务进行多任务学习;三是在预训练模型BART的基础上 , 针对短摘要生成任务进行微调 。
“由于他们提出了自己的数据集 , 这个数据集对应一个新的任务 , ‘语义学者’在这个数据集上获得了很好的效果 , 有比较好的应用 。 ”张家俊说 , “不过 , 也有需要改进的地方 。 一方面 , 很多文献非常长 , 与之相对目前仅支持5000个词的输入有些捉襟见肘;另一方面 , 即使可以输入5000个甚至更多单词 , 在模型上进行语义编码也有难度 , 这个方法的有效性还有待进一步观察 。 ”
来源: 《中国科学报》