中年哈工大SCIR助理研究员冯骁骋：面向结构化数据的文本生成技术研究

本文插图
近年来，人工智能写诗、创作散文、撰写新闻稿的报道屡见不鲜， AI甚至已经进军文学和电影领域创作小说、剧本。而文本生成技术就是实现这些成就的关键。文本生成，按照不同的输入划分，可以分为文本到文本的生成、意义到文本的生成、数据到文本的生成以及图像到文本的生成等；具体任务形式也十分多样，包括自动文摘、对话生成、风格迁移、结构化数据描述生成等。这些任务之间既存在一些任务驱动的特殊表示和规则，也包含相对通用的技术路线和方法。在本次「NLP前沿讲座」第3讲的讲座中，智东西公开课邀请到哈尔滨工业大学计算机学院社会计算与信息检索研究中心的助理研究员冯骁骋，为大家带来主题为《面向结构化数据的文本生成技术研究》的讲座。
基于结构化数据的文本生成，即机器依据用户输入的结构化数据来输出能描述和解释数据的文本。例如基于数值与非数值数据生成财经报道、医疗报告、天气预报文本和体育新闻等。从数据到文本生成主要可分为三个步骤：1）通过数据分析方法检测数据的基本模式，针对不同应用领域输出合适的数据模式；2）通过对输入数据模式、事件等的分析，推断出更复杂抽象的消息，如事件之间的因果关系等；3）从大量的信息中选择需要被放进文本的部分并确定文本结构，最后输出自然语言文本。而在这个过程中，所要面临的挑战也很多，如难以实现文本和结构化数据的对齐、数据的稀疏化导致模型的学习变得困难、由于缺乏常识和推理的引入导致结果不符合逻辑等。
8月5日晚8点，智东西公开课「NLP前沿讲座」第3讲将直播开讲，哈工大SCIR助理研究员冯骁骋将从文本生成技术的研究进展与挑战出发，重点围绕基于结构化数据的文本生成技术进行深度解析，包括结构化数据的建模、背景知识的引入和面向表格数据文本风格迁移任务的探讨。对文本生成技术感兴趣的朋友千万不要错过！
冯骁骋是哈尔滨工业大学计算机学院社会计算与信息检索研究中心的助理研究员，于2018年1月获得哈尔滨工业大学计算机博士学位。他的研究兴趣包括文本生成、机器翻译、机器学习和知识图谱等，曾在ACL、AAAI、IJCAI、TKDE、Chinese Science等CCF A/B类国际会议及期刊发表论文近20篇，论文引用数超过700次。冯骁骋老师担任ACL ， AAAI、EMNLP、IJCAI、TIST、Chinese Science等国际会议和期刊审稿人，并曾获黑龙江省科技进步二等奖、中国中文信息学会优秀博士论文奖、中国人工智能学会全国青年创新创业大赛特等奖、全国信息检索学术会议优秀学生论文奖。他负责主持国家青年基金一项，黑龙江省优秀青年基金一项，并作为骨干成员参与国家重点研发课题一项、国家自然科学重点基金一项，同时担任中国中文信息学会青年工作委员会委员。
课程内容
主题:
面向结构化数据的文本生成技术研究
提纲：
1、文本生成技术的研究与挑战
2、基于结构化数据的文本生成技术解析与建模
3、面向表格数据的文本风格迁移任务
讲师介绍
冯骁骋，哈尔滨工业大学计算机学院社会计算与信息检索研究中心助理研究员， 2018年1月获得哈尔滨工业大学计算机博士学位；研究兴趣包括文本生成、机器翻译、机器学习、知识图谱等；在ACL、AAAI、IJCAI、TKDE、Chinese Science等CCF A/B类国际会议及期刊发表论文近20篇，论文引用数超过700次；担任ACL ， AAAI、EMNLP、IJCAI、TIST、Chinese Science等国际会议和期刊审稿人；曾获黑龙江省科技进步二等奖、中国中文信息学会优秀博士论文奖、中国人工智能学会全国青年创新创业大赛特等奖、全国信息检索学术会议优秀学生论文奖；主持国家青年基金一项，黑龙江省优秀青年基金一项，并作为骨干成员参与国家重点研发课题一项、国家自然科学重点基金一项；担任中国中文信息学会青年工作委员会委员。

中年哈工大SCIR助理研究员冯骁骋：面向结构化数据的文本生成技术研究 | 公开课预告