简简科技|复旦邱锡鹏团队最新成果fastHan:基于BERT的中文NLP集成工具

机器之心转载
机器之心编辑部
fastHan是基于fastNLP与PyTorch实现的中文自然语言处理工具 , 像spacy一样调用方便 , 其内核为基于BERT的联合模型 。
简介
fastHan是基于fastNLP与PyTorch实现的中文自然语言处理工具 , 像spacy一样调用方便 。 其内核为基于BERT的联合模型 , 其在13个语料库中进行训练 , 可处理中文分词、词性标注、依存句法分析、命名实体识别四项任务 。
fastHan共有base与large两个版本 , 分别利用BERT的前四层与前八层 。 base版本在总参数量150MB的情况下各项任务均有不错表现 , large版本则接近甚至超越SOTA模型 。
项目地址:https://github.com/fastnlp/fastHan
安装
【简简科技|复旦邱锡鹏团队最新成果fastHan:基于BERT的中文NLP集成工具】fastHan的安装非常简便 。 它存在如下包的依赖:
fastNLP>=0.5.0
pytorch>=1.0.0
执行指令pipinstallfastHan即可安装 。
使用
fastHan的使用非常简单 , 只需要两步:加载模型、输入句子 。
加载模型
执行以下代码即可加载模型:
简简科技|复旦邱锡鹏团队最新成果fastHan:基于BERT的中文NLP集成工具
文章图片
用户首次初始化模型时模块将自动从服务器下载参数 。 模型默认初始化base版本 , 可修改model_type参数值为’large’加载large版本 。
输入句子
输入模型的可以是单独的字符串 , 也可是由字符串组成的列表 。 如果输入的是列表 , 模型将一次性处理所有输入的字符串 , 所以请自行控制batchsize 。 模型对句子进行依存分析、命名实体识别的简单例子如下:
简简科技|复旦邱锡鹏团队最新成果fastHan:基于BERT的中文NLP集成工具
文章图片
其中 , target参数可在'Parsing'、'CWS'、'POS'、'NER'四个选项中取值 , 模型将分别进行依存分析、分词、词性标注、命名实体识别任务,模型默认进行CWS任务 。 其中词性标注任务包含了分词的信息 , 而依存分析任务又包含了词性标注任务的信息 。 命名实体识别任务相较其他任务独立 。
模型的输出是在fastHan模块中定义的sentence与token类 。 模型将输出一个由sentence组成的列表 , 而每个sentence又由token组成 。 每个token本身代表一个被分好的词 , 有pos、head、head_label、ner四项属性 , 代表了该词的词性、依存关系、命名实体识别信息 。
如果分别运行CWS、POS、Parsing任务 , 模型输出的分词结果等可能存在冲突 。 如果想获得不冲突的各类信息 , 可以直接运行包含全部所需信息的那项任务 。
模型的POS、Parsing任务均使用CTB标签集 。 NER使用msra标签集 。
正如上图所示 , 模型基础的使用流程非常简单 。 此外 , 模型还可调整分词风格、切换设备 。
调整分词风格
模型在13个语料库中进行训练 , 其中包含10个分词语料库 。 不同语料库的分词粒度均不同 , 如本模型默认的CTB语料库分词粒度较细 。 如果想切换不同的粒度 , 可以使用模型的set_cws_style函数 , 例子如下:
简简科技|复旦邱锡鹏团队最新成果fastHan:基于BERT的中文NLP集成工具
文章图片
在分词风格中选择'as'、'cityu'可进行繁体字分词 , 这两项为繁体语料库 。 由于各项任务共享词表、词嵌入 , 这意味着即使不切换模型的分词风格 , 模型对繁体字也具有执行分词及其他任务的能力 。 此外 , 模型对数字、英文字母也具有一定的识别能力 。
切换设备
可使用模型的set_device函数 , 令模型在cuda上运行或切换回cpu , 示例如下:
简简科技|复旦邱锡鹏团队最新成果fastHan:基于BERT的中文NLP集成工具
文章图片
模型表现
模型在以下数据集进行测试和训练: