多模态语篇分析方法(多模态信息融合)



多模态语篇分析方法(多模态信息融合)

文章插图
AI科技评论按:2020年12月20日,由中国计算机学会自然语言处理专业委员会(CCF-NLP)发起,联合AI研习社及各个知名高校开展的“CCF-NLP走进高校”系列高校NLP研究分享报告会第六期——华中师范大学站,通过线上会议直播的方式进行 。

本期报告会邀请了南京理工大学计算机学院教授-夏睿、京东集团副总裁-何晓冬、阿里巴巴达摩院资深算法专家-陈博兴三位特邀报告嘉宾,另外还有苏州大学自然语言处理实验室周国栋教授进行了开场介绍,北京大学王选计算机研究所万小军教授、西湖大学特聘研究员张岳主持了本次报告会 。


多模态语篇分析方法(多模态信息融合)

文章插图
在本次报告会上,专家们围绕《文本中的情绪与原因联合抽取》、《多模态自然语言处理与智能人机交互》、《Machine Translation for 45,582 Language Pairs》三大主题展开了精彩报告 。


多模态语篇分析方法(多模态信息融合)

文章插图

多模态语篇分析方法(多模态信息融合)

文章插图

多模态语篇分析方法(多模态信息融合)

文章插图

嘉宾分享回顾首先,北京大学王选计算机研究所万小军教授进行了主持,欢迎直播间各位嘉宾的到来 。


多模态语篇分析方法(多模态信息融合)

文章插图
接着,苏州大学自然语言处理实验室周国栋教授进行了简短的开场介绍 。周老师对往期走进高校活动的举办效果表示了肯定,并对主办方和承办方的精心准备、嘉宾们的到来表示衷心的感谢,祝大家冬至节日快乐,预祝活动圆满成功 。


多模态语篇分析方法(多模态信息融合)

文章插图
随后,东道主华中师范大学周光有教授向大家介绍了华中师范大学的学校概况、办学理念和瞩目成就,对分享嘉宾和主持人的到来以及承办方的精心准备表示衷心的感谢 。


多模态语篇分析方法(多模态信息融合)

文章插图
— 1 —

接下来的报告环节中,首先进行分享的是南京理工大学计算机学院教授-夏睿老师,分享主题是《文本中的情绪与原因联合抽取》 。


多模态语篇分析方法(多模态信息融合)

文章插图
夏老师首先介绍了文本中情绪分析的背景,接着从情绪识别任务过渡到情绪原因抽取,分析了传统的基于子句独立建模的情绪原因抽取和它存在的问题,并在此基础上相继提出了一种动态的情绪原因抽取方法,和一种同步的情绪原因抽取方法 。夏老师还分析了情绪原因抽取任务原因抽取必须事先标注情绪这样的一个缺点,提出了情绪和原因的联合分析,具体来说是提出了一种情绪和原因配对的抽取的新任务,以及一种两步走的方法的框架 。最后,夏老师介绍了他和团队进一步将基于parkline的两步走框架推广到基于端到端的一体化的情绪原因配对抽取任务上,提出了基于2D表示、交互和预测的模型框架,以及一种基于滑动窗口的多标签学习的情绪原因抽取框架 。
【多模态语篇分析方法(多模态信息融合)】
在问答环节,夏老师就同学们提出的关于“数据集以后是否会扩充?”、“能否对情感原因抽取做预训练?”、“多种情感句子怎么处理?”等问题进行了耐心解答 。

— 2 —

在夏睿老师之后,京东集团副总裁-何晓冬老师进行了题为《多模态自然语言处理与智能人机交互》的报告 。


多模态语篇分析方法(多模态信息融合)

文章插图
何老师首先提出了人机对话是翻越“人机交流障碍”的核心技术,接着带大家回顾了智能对话机器人的发展历程,向大家展示了近期对话机器人的新进展:走向大规模端到端的对话模型,体现出很强的应答有效性和精确性 。通过介绍GPT-3模型的优势和目前存在的缺陷,指出最新的超大规模语言模型实验带来了哪些挑战 。随后何老师通过“导购咨询对话”的例子简单探讨了复杂任务导向型人机对话的应用 。何老师还介绍了自然语言任务的决策优化等相关工作在人机对话、多模态智能、多模态交互技术等多个方面的研究 。最后通过数字人多模态交互和商品直播全流程自动化的例子向大家介绍了产业界对话系统应用的最新进展 。

在问答环节,何老师就大家提出的“京东打算把NLP技术应用于客服培训领域吗?”、“研究领域和工业应用中对话技术的不同点”、“是否有测试客户对虚拟客服和客服人员的反感程度?”、“小语种和nlp结合如何走进企业”等问题进行了耐心的解答 。

— 3 —

最后一位进行报告的是阿里巴巴达摩院资深算法专家-陈博兴老师,报告主题为《Machine Translation for 45,582 Language Pairs》 。


多模态语篇分析方法(多模态信息融合)

文章插图
陈老师首先介绍了什么是多语言的神经机器翻译(包括动机、定义和遇到的一些挑战) 。然后介绍了针对语言的选择和清理、庞大的数据量和运算量、算法方面的挑战,陈老师团队做了一些相应的研究(包括基于中介语言的新架构、基于迭代修复的数据扩展、整合预训练模型、加速策略等算法上和工程上的一些改进) 。最后陈老师还向大家介绍了多语言的神经机器翻译在阿里巴巴的一些应用:例如为了支持阿里巴巴“全球购买,全球销售,全球旅游,全球支付,全球运输”战略,开发了NMT系统可以在214种语言之间进行翻译,这里为了便于扩展和维护,使用了一个模型对所有语言进行翻译的系统 。以及开发了阿里翻译等适用于全球用户学习和使用的翻译平台 。

最后的问答环节,陈老师就观众们提出的“各语言语料数据量相差很大,怎么处理?”、“伪数据是否也要进行清洗等预处理操作,在进行改进之前还需要做哪些预操作呢?还有小数据一般的最小值是需要多少?”“大语料间的翻译逻辑会自动迁移到小语料中吗?”等问题进行了耐心的解答 。

— 总结 —

最后,张岳老师进行了活动总结,再次向参加活动的各位专家学者和华中师范大学以及AI研习社表示感谢,并期待更多的专家、老师和同学能持续关注NLP领域的研究进展,一起推动这一领域继续向前发展 。


多模态语篇分析方法(多模态信息融合)

文章插图
此后还将会有更多的高校加入CCF -NLP走进高校系列活动,下一站分享活动已经定于2021年1月17日(星期日) 18:30-21:55 走进天津大学&南开大学,更多分享会信息请持续关注“AI科技评论”和AI研习社官网(https://www.yanxishe.com/) 。

主办方介绍

中国计算机学会自然语言处理专委会(CCF-NLP)1987年10月成立, 专委会成立之初即确定了“中国语言文字处理的计算机系统”和“以计算机为工具研究语言文字处理技术”两个主要研究方向,主要包括(或涉及)中国各民族语言文字的自然语言处理、机器翻译、信息抽取、数据挖掘、信息检索、智能问答、语音识别与合成、社会网络计算等众多学术领域,以及中文计算,即中国语言文字处理的应用技术领域 。专委会致力于团结、联合、组织中文信息技术相关领域的各界专业人士,开展学术/技术交流、发展战略研究、专业技术标准制定、专业技术评测、专业培训等相关活动,提高中文信息技术领域的科研、教学、应用水平,促进研究成果的应用和向产品的转化,提升在国家科技活动和国际学术方面的影响力 。

承办方介绍

华中师范大学位于九省通衢的湖北省武汉市,坐落在武昌南湖之滨的桂子山上,占地面积120余万平方米,是国家教育部直属重点综合性师范大学,是国家“211工程”重点建设大学、国家教师教育“985工程优势学科创新平台”建设高校和国家首批“双一流”建设高校 。学校现有国家“双一流”建设学科2个、国家重点学科8个 。根据USNews发布的2020世界大学排行榜数据,华中师范大学排名第477位,在内地高校排名第30位 。学校从战略上进行定位,通过“信息化”和“国际化”,建设一流文科、高水平理科和有特色工科,成为教育信息化研究与实践的引领者 。

活动背景

为了促进更多师生对自然语言处理前沿进展的了解,帮助在校计算机及相关专业大学生成长和发展,CCF-NLP致力于让领域内的权威大牛们走进更多的高校,与师生进行沟通和交流 。这是成为我国NLP领域发展的迫切需求 。自然语言处理专委会为此将举办一系列 CCF -NLP走进高校系列活动 。CCF-NLP后续还将与更多高校合作,继续召开一系列的“走进高校”分享活动,进一步促进各高校之间的学术交流,推动科研合作发展,为 NLP 的研究添砖加瓦 。

以下为本次活动的视频回放地址:

https://www.yanxishe.com/events/ccf-nlp-ccnu