简简科技|复旦邱锡鹏团队最新成果fastHan:基于BERT的中文NLP集成工具( 二 )


CWS:AS、CITYU、CNC、CTB、MSR、PKU、SXU、UDC、WTB、ZX
NER:MSRA、OntoNotes
POS&Parsing:CTB9
注:模型在训练NEROntoNotes时将其标签集转换为与MSRA一致 。
最终模型在各项任务中取得的F值如下:
简简科技|复旦邱锡鹏团队最新成果fastHan:基于BERT的中文NLP集成工具
文章图片
表格中单位为百分数 。 CWS的成绩是10项任务的平均成绩 。 Parsing中的两个成绩分别代表F_{ldep}和F_{udep} 。 SOTA模型的数据来自笔者对网上资料及论文的查阅 , 如有缺漏请指正 , 不胜感激 。 这五项SOTA表现分别来自如下五篇论文:
[1]HuangW,ChengX,ChenK,etal.TowardFastandAccurateNeuralChineseWordSegmentationwithMulti-CriteriaLearning.[J].arXiv:ComputationandLanguage,2019.
[2]HangYan,XipengQiu,andXuanjingHuang.''AGraph-basedModelforJointChineseWordSegmentationandDependencyParsing.''TransactionsoftheAssociationforComputationalLinguistics8(2020):78-92.
[3]MengY,WuW,WangF,etal.Glyce:Glyph-vectorsforChineseCharacterRepresentations[J].arXiv:ComputationandLanguage,2019.
[4]DiaoS,BaiJ,SongY,etal.ZEN:Pre-trainingChineseTextEncoderEnhancedbyN-gramRepresentations[J].arXiv:ComputationandLanguage,2019.
[5]JieZ,LuW.Dependency-GuidedLSTM-CRFforNamedEntityRecognition[C].internationaljointconferenceonnaturallanguageprocessing,2019:3860-3870.