『AI工信科创』百度人工智能技术委员会主席何中军:NLP技术始终走在变革的路上( 二 )


经过持续技术创新 , 如今 , 百度翻译在多语言翻译、同声传译等方向上取得了多项突破 , 支持全球 200 种语言、近 40000 个方向的互译;通过开放平台 , 支持了超过 30 万个开发者接入;机器同传成功应用于几十场大型国际会议 。
NLP 技术一直在变革
自然语言处理一直是人工智能领域的重要研究方向 , 由于人类语言的复杂、灵活、多样 , 使得自然语言处理也充满挑战 。 近年来 , 在人工智能迅速发展的大背景下 , 自然语言处理也取得了长足的进步 。
显而易见的是 , NLP 领域的研究方法和范式发生了深刻的变革 。 深度学习与自然语言处理具体任务相结合 , 进一步挖掘了大数据的潜力 , 系统性能大幅提升 。 例如 , 机器翻译主流技术由原来的统计方法转变为神经网络的方法 , 翻译质量的提升超过过去十年的总和;预训练技术广泛应用于 NLP 各任务 , 在国际权威的基准测试集 GLUE 上甚至超过了人类平均水平 。 预训练(Pre-training)加精细化调整(Fine-tuning)几乎成为 NLP 的标配 , 使得具体领域的小样本数据不再是一个个的孤岛 , 而是能站在大数据这个巨人的肩膀上进一步发挥威力 。
『AI工信科创』百度人工智能技术委员会主席何中军:NLP技术始终走在变革的路上
本文插图
【『AI工信科创』百度人工智能技术委员会主席何中军:NLP技术始终走在变革的路上】
各领域技术边界日趋模糊 , 互相取长补短 , 深度融合 。 例如应用于机器翻译的序列到序列建模技术 , 在语音、图像处理等也都取得了很好的效果 , 而在图像处理中广泛使用的卷积神经网络也被用来构建机器翻译模型 。 如果将图像作为输入 , 文字作为输出 , 则可以用序列到序列的技术进行图文翻译 。 语音、语言、视觉等技术深度融合 , 促进了跨模态的研究和应用 。
应用场景大幅拓展、不断深化 。 自然语言处理技术使得计算机在理解、对话、创作等方面的能力都大大加强 , 在搜索、金融、教育、客服等场景发挥越来越重要的作用 。 人们开始习惯于使用更加自然、口语化的表达来与计算机进行交流 。 由此产生的多样化、场景化的数据又反哺技术 , 用于训练模型 , 提升效果 。
开源开放的生态大大降低了 NLP 研发和应用门槛 , 促进了 NLP 的繁荣发展 。 比如“飞桨”平台集成了 NLP 丰富的模型 , 同时还提供免费的算力 , 使得开发者可以很容易的接入 , 基于业界领先的技术和平台开发系统 , 而不必从头做起 。 再如我们联合计算机学会、中文信息学会举办的“语言与智能”技术竞赛 , 开放大规模真实场景数据 , 每年都吸引国内外数千支队伍报名参加 , 共同推进技术发展与应用 。
未来的 NLP 技术何去何从
在谈到 NLP 技术未来的发展方向时 , 何中军表示:
当前 , NLP 研究和应用呈现出百花齐放、百家争鸣的繁荣发展态势 , 开源开放的生态环境更加促进了技术发展和产业应用 。 可以说 , 技术进步与应用场景互相作用 , 共同发展 。 技术进步将进一步拓宽应用场景 , 而丰富的场景应用又驱动技术变革 。 随着技术的进步 , 人们将享受到更多便利 。
新的学习机制、跨模态通用表示、更好的学习和利用知识等将会是重要的发展方向 。 人工神经网络带来了学习范式的革新 , 然而人们至今没有全面清晰地了解人类大脑的工作机理 , 脑科学、认知科学、人工智能等多学科交叉融合 , 探索新的学习机制将带来新的技术进步 。 结合语音、视觉等技术的跨模态通用表示 , 将进一步增强模型的学习和表达能力 , 扩展 NLP 的研究和应用范畴 。 深入结合常识、世界知识、文化背景知识等将使得模型从浅层的符号运算进一步深入认知层面 。 当然 , NLP 面临的挑战远不止以上几点 , 在发展的道路上也注定不是一帆风顺 , 需要我们携手并肩 , 共同努力 。