数码实验室|两大模型分别解决中文分词及词性标注问题,中文分词最佳纪录刷新( 二 )


在跨领域实验中 , 论文使用网络博客数据集(CTB7)测试 。 实验结果显示 , 在整体F值以及未登陆词的召回率上都有比较大提升 。
数码实验室|两大模型分别解决中文分词及词性标注问题,中文分词最佳纪录刷新
文章图片
△跨领域分词实验(网络博客测试集)的结果
解决“噪音”问题
《JointChineseWordSegmentationandPart-of-speechTaggingviaTwo-wayAttentionsofAuto-analyzedKnowledge》论文提供了一种基于双通道注意力机制的分词及词性标注模型 。
中文分词和词性标注是两个不同的任务 。 词性标注是在已经切分好的文本中 , 给每一个词标注其所属的词类 , 例如动词、名词、代词、形容词 。 词性标注对后续的句子理解有重要的作用 。
在词性标注中 , 歧义仍然是个老大难的问题 。 例如 , 对于“他要向全班同学报告书上的内容”中 , “报告书”的正确的切分和标注应为“报告_VV/书_N” 。 但由于“报告书”本身也是一个常见词 , 一般的工具可能会将其标注为“报告书_NN” 。
数码实验室|两大模型分别解决中文分词及词性标注问题,中文分词最佳纪录刷新
文章图片
△利用句法知识进行正确的词性标注
句法标注本身需要大量的时间和人力成本 。 在以往的标注工作中 , 使用外部自动工具获取句法知识是主流方法 。 在这种情况下 , 如果模型不能识别并正确处理带有杂音的句法知识 , 很可能会被不准确的句法知识误导 , 做出错误的预测 。
例如 , 在句子“他马上功夫很好”中 , “马”和“上”应该分开(正确的标注应为“马_NN/上_NN”) 。 但按照一般的句法知识 , 却可能得到不准确的切分及句法关系 , 如“马上” 。
数码实验室|两大模型分别解决中文分词及词性标注问题,中文分词最佳纪录刷新
文章图片
针对这一问题 , 该论文提出了一个基于双通道注意力机制的分词及词性标注模型 。 该模型将中文分词和词性标注视作联合任务 , 可一体化完成 。 模型分别对自动获取的上下文特征和句法知识加权 , 预测每个字的分词和词性标签 , 不同的上下文特征和句法知识在各自所属的注意力通道内进行比较、加权 , 从而识别特定语境下不同上下文特征和句法知识的贡献 。
这样一来 , 那些不准确的 , 对模型预测贡献小的上下文特征和句法知识就能被识别出来 , 并被分配小的权重 , 从而避免模型被这些有噪音的信息误导 。
数码实验室|两大模型分别解决中文分词及词性标注问题,中文分词最佳纪录刷新
文章图片
△基于“双通道注意力机制”的分词及词性标注
即便在自动获取的句法知识不准确的时候 , 该模型仍能有效识别并利用这种知识 。 例如 , 将前文有歧义、句法知识不准确的句子(“他马上功夫很好”) , 输入该双通道注意力模型后 , 便得到了正确的分词和词性标注结果 。
数码实验室|两大模型分别解决中文分词及词性标注问题,中文分词最佳纪录刷新
文章图片
△分词及词性标注实例
为了测试该模型的性能 , 论文在一般领域和跨领域分别进行了实验 。
一般领域实验结果显示 , 该模型在5个数据集(CTB5 , CTB6 , CTB7 , CTB9 , UniversalDependencies)的表现(F值)均超过前人的工作 , 也大幅度超过了斯坦福大学的CoreNLP工具 , 和伯克利大学的句法分析器 。
即使是在与CTB词性标注规范不同的UD数据集中 , 该模型依然能吸收不同标注带来的知识 , 并使用这种知识 , 得到更好的效果 。
数码实验室|两大模型分别解决中文分词及词性标注问题,中文分词最佳纪录刷新
文章图片
△CTB5(CTB5是使用最多的中文分词和词性标注的数据集)结果
而在跨领域的实验中 , 和斯坦福大学的CoreNLP工具相比 , 该模型也有近10个百分点的提升 。