好课要达到的基本要求(情感的类型)

NLP作为人工智能的一个热门领域,凭借其在与人类交互中体现出的独有价值和魅力,往往被誉为人工智能皇冠上的明珠 。从业界应用来看,NLP情感分析在客户评价以及网络舆情分析等方面表现出良好的应用效果 。通过对文本或音频的关键词提取并进行情感分析可以有效地从大量的评论数据中获取有效信息,从而获得对服务的有效反馈,有针对性地进行改进 。


好课要达到的基本要求(情感的类型)

文章插图
基于NLP的情感分析技术简述-开课吧广场

NLP情感分析的研究路径可大致划分为“基于词典和规则的方法”和“基于多类标分类的机器学习方法” 。对于情绪分类问题,最早有人采用KNN(K-NearestNeighbor,K最近邻)算法,通过学习标注数据来识别句子中的情绪类别;也有人采用SVM(Support Vector Machine,支持向量机)算法,通过文本标注建模的方法来识别语料中的情绪标签 。上述方法只能挑选出情绪标签,无法反映每种情绪属性的强烈程度 。当前普遍采用的方法是用参数量较多的深度学习模型结构,对文本进行上下文关联建模,提取更深层的语义信息,并最终计算出所有情绪的极性强弱,再根据各情绪的极性强弱挑选出极性最强的情绪作为文本的情绪标签 。


好课要达到的基本要求(情感的类型)

文章插图
基于NLP的情感分析技术简述-开课吧广场

【好课要达到的基本要求(情感的类型)】NLP情感分析会通过以下流程将点评内容转化为点评情绪信息 。
1、数据收集和预处理 。

对于银行而言,其非结构化数据来源包括网上银行及手机银行中的客户点评、客户咨询、网络舆情等 。在收集行内外相关数据后,NLP情感分析技术将对文本进行预处理,一般包括文本清洗、去停用词及符号等 。

如果对数据分类采用的是有监督学习(从标签化训练数据集中推断出函数的机器学习任务)这一方式,需要对数据进行前期的人工标注工作,采用交叉验证、算法模型结合反馈的方式可以保证数据标注的准确性 。

标注数据一般分为以下四个部分 。

一是标注训练数据 。用于模型初步训练,包括文本内容和图片内容两部分 。

二是训练测试数据 。每次训练过程中,需要简单验证模型的各个指标,包括但不限于准确率、召回率和F1等指标 。

三是扩充标注数据 。主要针对前期标注过程中的分布相关问题,对数据分布不均衡问题进行调整,这也是对模型泛化能力的一个优化手段 。

四是标注测试数据 。这是为最终确定验收、测算指标而选取的测试数据,也可以作为后期优化迭代的测试数据集 。


好课要达到的基本要求(情感的类型)

文章插图
基于NLP的情感分析技术简述-开课吧广场

2、特征提取 。

通过对特征提取进行深入研究,可以很好地提取出海量数据中蕴含的文本信息和图像信息的重要特征 。一般而言,文本的特征提取可以通过 word2vec、glove、Elmo、BERT 等预训练方式,将文本信息有效地转化为计算机可以识别的向量信息 。需要注意的是,word2vec、glove 等方法难以解决中文中一词多义的问题,如“苹果”一词在不同语境下可能代表手机品牌或水果,这是由于 word2vec 和 glove 训练出来的词向量只能反映出一个固定的语义 。但是,Elmo 和 BERT 等预训练模型可以通过保存上下文语义的方式很好地解决一词多义的问题 。

3、数据分类 。

当前主流的数据分类研究方向包括单模态和多模态两种,内容涵盖敏感图片识别、敏感文本信息识别和图像、文本融合的多模态敏感数据识别等 。对于单模态文本信息识别,可以通过包括LSTM、BERT、Xlnet等深度学习以及预训练模型相结合的有监督学习方式实现95%以上敏感信息的分类提取 。在多模态领域,可以采用对文本信息和图像信息特征提取相结合的方式实现数据敏感信息的分类提取 。特征提取一般可以得到普通特征和聚合特征 。通常而言,普通特征主要为页面、文本、图像和标题等单纯特征;聚合特征则将各个普通特征进行组合和有监督训练,转换为多个子模型,然后将这些子模型的输出作为聚合特征,将这些聚合特征分类可以实现90%以上的敏感分类识别 。

4、模型训练或模型预训练 。

深度学习常见的模型结构包括RNN(Recurrent Neural Network, 循环神经网络)、CNN(Convolutional Neural Networks,卷积神经网络)、Google提出的Transformer结构和很多基于它们实现的变形结构 。不同的学习模型各有利弊,RNN、CNN、LSTM等模型的特点在于其具备强大的序列建模能力 。

5、优化调整 。

NLP情感分析会根据不同的指标对模型进行评估,模型的评价指标主要有准确率、错误率、召回率、精准度、F1值、ROC和AUC曲线等,根据评估的结果对模型进行优化调整 。