H好菇凉666用万字长文聊一聊 Embedding 技术( 六 )
许多重要的下游任务譬如QA、NLI需要语言模型理解两个句子之间的关系 , 而传统的语言模型在训练的过程没有考虑句对关系的学习 。 BERT采用NSP任务来增强模型对句子关系的理解 , 即给出两个句子A、B , 模型预测B是否是A的下一句 , 如下图所示:
本文插图
训练数据集构造上 , 从平行语料中随机抽取连续的两句话:50%保留抽取的两句话(label=IsNext);50%的第二句话随机从语料中抽取(label=NotNext)
在https://github.com/google-research/bert.git中有N多种预训练模型 , 大家可以根据需要下载对应的模型 , 下面主要给出两个常用的模型:
- BERT-Base_L-12_H-768_A-12 , 总参数为110M
- BERT-Large_L-24_H-1024_A-16 , 总参数为340M
BERT提供了4中不同的下游任务的微调方案 , 大家根据自己的语料在预训练好的模型上采用这些任务来微调模型:
- 句对关系判断:第一个起始符号经过编码后 , 增加Softmax层 , 即可用于分类;
- 单句分类任务:实现同“句对关系判断”;
- 问答类任务:问答系统输入文本序列的question和包含answer的段落 , 并在序列中标记answer , 让BERT模型学习标记answer开始和结束的向量来训练模型;
- 序列标准任务:识别系统输入标记好实体类别(人、组织、位置、其他无名实体)文本序列进行微调训练 , 识别实体类别时 , 将序列的每个Token向量送到预测NER标签的分类层进行识别 。
基于内容的Embedding方法(如word2vec、BERT等)都是针对“序列”样本(如句子、用户行为序列)设计的 , 但在互联网场景下 , 数据对象之间更多呈现出图结构 , 如1)有用户行为数据生成的物品关系图;2)有属性和实体组成的只是图谱 。
本文插图
对于图结构数据 , 基于内容的embedding方法不太好直接处理了 。 因此 , 为了解决土结构数据的问题 , Graph Embedding开始得到大家的重视 , 并在推荐系统领域流行起来 。
Graph Embedding是一种将图结构数据映射为低微稠密向量的过程 , 从而捕捉到图的拓扑结构、顶点与顶点的关系、以及其他的信息 。 目前 , Graph Embedding方法大致可以分为两大类:1)浅层图模型;2)深度图模型 。
1、浅层图模型 浅层图模型主要是采用random-walk + skip-gram模式的embedding方法 。 主要是通过在图中采用随机游走策略来生成多条节点列表 , 然后将每个列表相当于含有多个单词(图中的节点)的句子 , 再用skip-gram模型来训练每个节点的向量 。 这些方法主要包括DeepWalk、Node2vec、Metapath2vec等 。
A) DeepWalk DeepWalk是第一个将NLP中的思想用在Graph Embedding上的算法 , 输入是一张图 , 输出是网络中节点的向量表示 , 使得图中两个点共有的邻居节点(或者高阶邻近点)越多 , 则对应的两个向量之间的距离就越近 。
- 服务|【IPO解码】恒大物业(06666-HK)拟12月2日敲钟上市,五大竞争优势助力恒久质远
- 每经19点丨股票代码6666!恒大物业即将上市
- 钛媒体微信上线“裂开”“666”等6个表情包,“让我看看”灵感来自《还珠》五阿哥?
- 沉默不语666小米外海创子品牌POCO,新机与红米Note9多项参数重合
- 扬眼|他写下10万字“相亲指南”爆红,成爱情导师,相亲失败80多次后
- 趣味社会学|却用10年写出80万字专著,打脸他人,他送外卖不上进被嘲笑
- 王者荣耀|孤影再露丑恶嘴脸,solo赛三分钟被杀穿投降,影响心情666给你下一把
- 美剧去哪看|北大最强“扫地僧”上线!网友:666+牛牛牛
- 深夜重磅!遭自媒体“空袭”,千亿巨头近万字公告反击
- 沉默不语666 中端机型,荣耀还有新机!水滴屏+天玑800U