自然语言处理及相关的机器学习技术( 二 )


早期电子邮件系统中的 NLP 垃圾邮件过滤器助力电子邮件 , 使其在 20 世纪 90 年代超越了电话和传真这两个传统通信渠道 。 在垃圾邮件过滤器和垃圾邮件制造者之间的这场“猫鼠游戏”中 , 前者保持了优势地位 , 但是在像社交网络这类场景下并非如此 。 据估计 , 有关 2016 年美国总统大选的推文中有 20% 由聊天机器人自动撰写而成 。 这些机器人放大了它们的所有者或开发者的观点 , 而这些“傀儡”的操纵者往往是政府或大公司 , 他们具备影响主流观点的资源和动机 。
NLP系统不仅可以产生简短的社交网络帖子 , 还可以用来在亚马逊和其他网站撰写很长的电影和产品评论 。 许多评论都是 NLP 流水线自动产生的 , 尽管它从未踏入过电影院或购买过它们正在评论的产品 。
Slack、IRC 甚至客服网站上都有聊天机器人——在这些场景中聊天机器人必须处理带有歧义的指令或问题 。 配备语音识别和生成系统的聊天机器人甚至可以进行长篇的对话 , 这些对话可以不限定目标或者针对特定目标而进行 , 一个特定目标的例子就是在本地餐馆订餐 。 NLP 系统可以帮一些公司进行电话回复 , 这些公司希望系统比层层进入的电话树更好用 , 并且不希望给帮助客户的客服人员付费 。
NLP系统可以作为企业的电子邮件“接待员”或管理人员的行政助理 , 这些助理通过电子Rolodex(一种名片簿的品牌)或者CRM(客户关系管理系统)安排会议 , 记录概要细节 , 并代表他们的老板通过电子邮件与他人互动 。 公司将他们的品牌和形象交由 NLP 系统管理 , 允许机器人执行营销和消息发布活动 。 更有甚者 , 一些缺乏经验、胆大包天的 NLP 教科书作者竞然让机器人在他们的书中撰写若干语句 。 关于这一点我们稍后再详细讨论 。
节选自《自然语言处理实战》 , 人民邮电出版社出版
自然语言处理的发展现状根据 Stafford 教授 Dan Jurafsky 的介绍:
有些问题得到了基本解决 , 如:词性标注、命名实体识别、垃圾邮件识别 。
有些问题取得长足进展 , 如:情感分析、共指消解、词义消歧、句法分析、机器翻译、信息抽取 。
有些问题依然充满挑战 , 如:自动问答、复述、文摘提取、会话机器人等 。
自然语言处理学习——书籍推荐《自然语言处理实战》
自然语言处理及相关的机器学习技术文章插图
[美]霍布森·莱恩 , 科尔·霍华德 , 汉纳斯·马克斯·哈普克 著 小米AI实验室NLP团队 译
本书是介绍自然语言处理(NLP)和深度学习的实战书 。 NLP已成为深度学习的核心应用领域 , 而深度学习是 NLP 研究和应用中的必要工具 。 本书分为 3 部分:第一部分介绍 NLP 基础 , 包括分词、TF-IDF向量化以及从词频向量到语义向量的转换;第二部分讲述深度学习 , 包含神经网络、词向量、卷积神经网络(CNN)、循环神经网络(RNN)、长短期记忆(LSTM)网络、序列到序列建模和注意力机制等基本的深度学习模型和方法;第三部分介绍实战方面的内容 , 包括信息提取、问答系统、人机对话等真实世界系统的模型构建、性能挑战以及应对方法 。
本书面向中高级 Python 开发人员 , 兼具基础理论与编程实战 , 是现代NLP领域从业者的实用参考书 。
《Python自然语言处理》
自然语言处理及相关的机器学习技术文章插图
《Python自然语言处理》是自然语言处理领域的一本实用入门指南 , 旨在帮助读者学习如何编写程序来分析书面语言 。
《Python自然语言处理》基于Python编程语言以及一个名为NLTK的自然语言工具包的开源库 , 但并不要求读者有Python编程的经验 。 全书共11章 , 按照难易程度顺序编排 。 第1章到第3章介绍了语言处理的基础 , 讲述如何使用小的Python程序分析感兴趣的文本信息 。 第4章讨论结构化程序设计 , 以巩固前面几章中介绍的编程要点 。 第5章到第7章介绍语言处理的基本原理 , 包括标注、分类和信息提取等 。 第8章到第10章介绍了句子解析、句法结构识别和句意表达方法 。 第11章介绍了如何有效管理语言数据 。 后记部分简要讨论了NLP领域的过去和未来 。
本书实践性很强 , 包括上百个实际可用的例子和分级练习 。 《Python自然语言处理》可供读者用于自学 , 也可以作为自然语言处理或计算语言学课程的教科书 , 还可以作为人工智能、文本挖掘、语料库语言学等课程的补充读物 。
《精通Python自然语言处理》