Google开源|谷歌发布最新“天马”模型,自动生成文本摘要已超越人类


我们知道 , Transfromer在处理长序列文本方面比CNN/RNN表现更为出色 , 因此 , 最强大的预训练模型 , 如BERT、GPT均采用的是Transfromer基础架构 。 而且事实证明 , 在处理诸如机器翻译、文本摘要、语音识别、问答系统等多种语言任务时 , 只需进行微调 , 即可达到SOTA性能 。
但是 , Transfromer的自监督目标(self-supervised)更偏通用性 , 与下游语言任务联系性不强 , 也就是说它不知道下游执行的是机器翻译 , 还是文本摘要 。 如果自监督目标能够与下游任务建立紧密联系 , 那么 , 微调性能会更好 。
基于这样的目的 , Google AI团队研发出了PEGASU(天马)模型 。
Google开源|谷歌发布最新“天马”模型,自动生成文本摘要已超越人类
本文插图
基于Transfromer编/译码器的天马架构
结果出人意料 , 研究发现“天马”模型不仅表现出了卓越的性能 , 而且在小样本数据下 , 能够达到同样的效果 , 极大地优化了训练效率 , 降低了数据成本 。
目前 , 这项研究的论文《PEGASUS:Pre-training with Extracted Gap-sentence for Abstractive Summarization》已经发表在预印论文库arXiv上 , 而且被ICML国际机器学习大会收录 。
从“间隙句子”到文本摘要 , 小样本性能更佳 研究人员假设 , 预训练目标越接近下游任务 , 微调的性能越好 。 为此 , 他们设定下游语言任务为“提取文本摘要” , 而预训练目标为“生成间隙句子”(Gap Sentences Generation) 。 研究人员在输入文档中删除一些完整句子 , 天马模型的任务就是恢复他们 。 如果输出结果中能够呈现被删掉的句子 , 即表示与下游任务建立了联系 , 即生成了GSG 。 如下图所示:

Google开源|谷歌发布最新“天马”模型,自动生成文本摘要已超越人类
本文插图
这个过程就像我们做填空题一样 。 研究人员表示 , 这项看似人类都无法完成的任务真的实现了 。 而且他们发现越是删除一些“重要”的句子 , 试验的效果越好 。
基于此 , 他们在12个下游摘要数据集上对模型进行了微调 , 结果显示预训练后的输出示例与微调摘要非常相似 , 而且这一结果经过了ROUGE标准测试 。 ROUGE通过N元语法重叠来计算两个文本的相似度 。
另外 , 这些数据集十分丰富 , 包含文章 , 科学论文 , 专利 , 短篇小说 , 电子邮件 , 法律文件和使用说明 , 等 , 这说明天马模型在选择文本主题上方面并没有局限性 。
更令人惊奇的是 , 研究人员发现天马模型在小样本数据集中同样表现出了卓越的性能 。 以下是研究人员选定4个数据集后 , ROUGE得分与监督样本数量的关系 。 (虚线表示具有全监督但没有预训练的Transformer编解码器性能 。 )
Google开源|谷歌发布最新“天马”模型,自动生成文本摘要已超越人类
本文插图
可以看出 , 仅1000个微调示例 , 天马模型已经有了非常好的性能表现 , 而且高于未经训练的示例(虚线) 。 这一结果 , 表明天马模型在优化性能的同时 , 可以极大的降低数据使用的成本 , 同时提高了训练效率 。
超越人类的性能表现 为了确保实验结果的准确性 , 除了ROUGE标准的衡量外 , 研究人员还采取了人工评估的方法 。 即将实验后的摘要与人类撰写的摘要进行对比 。 这类似于图灵测试 。
研究人员采用了3个不同的数据集 , 评分者在进行优劣判断时 , 并不知道哪一个是人类的 , 最终结果显示评分者并不总是喜欢人类编写的摘要 。
Google开源|谷歌发布最新“天马”模型,自动生成文本摘要已超越人类
本文插图
而且 , 从XSum、CNN /Daily Mail和Reddit TIFU这三个数据集中可以看出 , 仅训练1000个示例同样达到了超越人类的水平 , 再次印证天马模型在小样本下的性能优势 。