“听我说谢谢你”还能用古诗来说?清华搞了个“据意查句”神器( 二 )


“听我说谢谢你”还能用古诗来说?清华搞了个“据意查句”神器

文章插图
还有这句“你品,你细品”,输出的诗句也都带有了仔细品读、反复回味的意思 。
“听我说谢谢你”还能用古诗来说?清华搞了个“据意查句”神器

文章插图
那么,这个好用又好玩的神器,到底是什么来头呢?
来自清华的“据意查句”
以上说的这个好登西,是由清华推出的“据意查句”神器——WantQuotes 。
诞生自清华大学计算机系自然语言处理与社会人文计算实验室(THUNLP),项目指导教师为孙茂松教授和刘知远副教授 。
能够快速从全世界这么多语料中找到你想要的句子,这个神器主要靠的是一个超大的数据集和一个推荐模型 。
数据集包含了英语、现代汉语和文言文三大部分 。
其中,英语部分有6108个名言警句和126713个上下文文本段;
现代汉语部分,包含有3004句名言和408433个相关上下文;
文言文部分,则有4438段文言典故(包括古诗)和116537段相关上下文 。
“听我说谢谢你”还能用古诗来说?清华搞了个“据意查句”神器

文章插图
推荐模型方面,本文提出使用BERT作为句子编码器来学习名言警句和相关文本表示 。
但由于绝大多数名言警句的表达都非常凝练,但是可能其中每个背后的意义又包含很多层,所以在本方法中,研究人员将义原引入到编码器中 。
简单来说,义原是语言学中最小的语义单位 。语言学家认为义原体系在任何语言中都适用,不与特定语言相关 。
举个例子,“男孩”这个词可以由“人类”、“男性”、“儿童”这个三个义原表示,“女孩”则可以由“人类”、“女性”、“儿童”的组合来表达 。
“听我说谢谢你”还能用古诗来说?清华搞了个“据意查句”神器

文章插图
因此在模型中引入义原后,就能很好解决词义消歧的问题,并且能更准确地捕捉到词与词之间的关系 。
也就是让模型把语言学得更加透彻 。
而在具体任务对比中可以看到,本文方法的性能均优于其他方法 。
同时用消融实验验证了训练方法的有效性(下表最后三行结果) 。
“听我说谢谢你”还能用古诗来说?清华搞了个“据意查句”神器

文章插图
在只给出左侧文本的条件下,本文方法的结果依旧优于过去方法 。
“听我说谢谢你”还能用古诗来说?清华搞了个“据意查句”神器

文章插图
还有反向词典和AI作诗系统
看到这里你可能觉得这项工作有点似曾相识 。
没错,那个之前爆火的“反向词典”也来自这个实验室 。
所谓“反向”,就是和常规词典不同,不是按词寻义,而是反过来给词典一段描述,让它来帮你找词 。
“听我说谢谢你”还能用古诗来说?清华搞了个“据意查句”神器

文章插图
比如还是这句“听我说谢谢你,因为有你,温暖了四季”,用成语应该怎么说?
反向词典可以立马抛出几十乃至上百个选项出来,并且还会标注推荐程度 。
背景颜色越深,代表系统推荐程度越高 。
“听我说谢谢你”还能用古诗来说?清华搞了个“据意查句”神器

文章插图
要是碰上啥看不懂的,鼠标一点,就能查看具体释义 。
“听我说谢谢你”还能用古诗来说?清华搞了个“据意查句”神器

文章插图