清华大学徐心老师与FMBA同学面对面企业发展与AI治理之道( 三 )
数据工程
接下来 , 神经网络如何建设得更有效 , 如何把神经网络算法训练得更精准?今天在业界里面应用的人工智能算法 , 都是一些成熟算法 , 而且是云上开源的算法 , 企业的工作是应用这些算法把数据整理好 。 很多组织都会说有海量的数据 , 但大量的组织数据是不可用的 ,, 因为企业忽略了数据工程 。 企业要做人工智能项目 , 第一步就是要花大力气在企业内部做数据工程 。 我曾经带着博士生和一家银行合作 , 希望通过顾客数据帮助银行提高营销成功率 。 我们拿到了脱敏之后的用户数据 , 进行了很长时间的数据整理和研究 , 现在有一些积极的结果 。 但是在和银行沟通时 , 我们感到 , 项目的业务部门归属还应该更清晰 , 数据工程是长期要做的事情 , 在做检测的时候需要有AB测验(实验组与控制组)的平台 。
AI对单一流程的影响
我曾经和一家保险行业的公司合作 , 探究声学特征能不能反映顾客情绪 , 如果顾客负面情绪比较多 , 是不是应该优先执行?
【清华大学徐心老师与FMBA同学面对面企业发展与AI治理之道】在具体研究时 , 要对客服电话先预处理降噪 , 然后把录音切片 , 再用CNN (Convolutional Neural Networks , 卷积神经网络)进行识别 。 卷积神经网络最著名的应用是识别图片里有没有猫 , 应用到语谱图中 , 横轴是时间 , 纵轴是频率 , 把声音转化成图像 , 识别图片里面有没有一个特殊的形状表示生气 。 这里面有一个难点 , 是需要人工标注同时互相校验 , 识别图片里是否有顾客的负面情绪 。
我们把数据给到算法 , 经过训练之后效果还不错 。 同时我们也做了一件事情 , 把这通电话转成文本 , 我们觉得文字和情绪应该结合在一起 , 但特别令人惊讶的是 , 这个场景下 , 文字里反映的负面情绪并不多 。 有可能是因为在打电话的过程中 , 双方都被告知这个电话需要录音 , 在受控的情况下能够注意自己的文字 。 我们开发了一些现实中应用的场景 , 在现实的检验中 , 公司随机调增4% , 据他们的经验和历史数据 , 有2.5%的通话有较严重的服务质量问题 , 采用我们这套系统 , 将一天内所有的电话检索一遍 , 按照负面情绪排序 , 能找到的负能情绪通话召回率达到了30% , 有几乎10倍的提升 。 CNN是一个图像识别的技术 , 但是同样我们可以拿到识别声音信号上 。 这是我想跟大家分享的第一个感触 , 很多人工智能的算法是通用算法 , 要理解了这个算法做什么 , 在这个场景下能干什么 。
人工智能有一个问题是黑盒子 , 复杂的神经网络输入1000个特征 , 输出电话里有没有和服务质量相关的问题 , 中间的计算无法解释 , 所以在现实应用中决策人没有信心 。 我们做人工智能项目 , 尽量在得出了较好的工程结果之后 , 要注意可解释性 。 我们在项目中做了一些分析 , 纵轴是电话和服务流程可能有问题的概率 , 概率越高 , 说明可能有服务质量问题 , 横轴是某一个特征 。 算法本身对特征进行排序 , 比较靠前的特征是情绪波动 , 在一通电话里 , 顾客情绪波动不大不代表他永远都高兴 , 情绪波动越高 , 出现的负面情绪越多 , 说明顾客不断的不满意 , 负面情绪一直在增长 , 很可能是有服务质量问题 。
在这个例子中和大家沟通了深度学习的算法 , 以及可解释性的问题 , 它也引发关注管理问题 。 人工智能项目在企业内部往往涉及不同部门的业务和数据 , 项目应该如何设立 , 为什么不同部门想把数据贡献出来 , 有什么样的机制能够促进不同部门分享数据 , 如何让数据在企业内部形成一个公共品 , 是我一直思考的问题 。
当我们聚焦单一流程的时候 , 人工智能算法可以帮我们做一些创新 , 就是技术赋能的创新 。 我现在正在进行一个教育类的项目 。 我们经常说一心不能二用 , 但心理学和教育学提出了一个新的理论叫交错学习 , 同时间要学习两到三件事 。 现在很多学习平台是这么设计的 , 根据用户测评 , 找准一个人薄弱的知识点 , 推荐有针对性的学习材料 。 有教育学的理论告诉我们说 , 同一个学习段里学习不同的事情有两个好处 , 大脑能更清晰地识别不同的东西 , 能把不同的问题组织在一起形成更高阶的问题解答模式 。 但让一个人一次学太多东西是不是太累了 , 脑力是有限的 , 所以一心多用有好处 , 也有坏处 。 在我们的项目中 , 对方为同学们出了阅读理解题目 , 标注每一个题目是考哪些知识点 , 通过学生做某一道题的结果 , 用统计的方法去推断他对知识点的掌握程度 , 背后是贝叶斯的统计过程 。 不同的学生随机分为三组 , 一组推送掌握程度较弱的知识点进行练习 , 一组推荐知识图谱距离较远的题目 , 还有一组推荐知识图谱距离较近的题目 , 再加上前测和后测 , 最终发现做题时间和正确率关系不大 , 中间组的同学每次练习三个联系较少的知识点 , 学习效果相对不好;每次练习三个距离较近知识点的同学 , 学习效果相对较好 。 这是AI赋能的一个教育研究 。
- 直播从业者|高三老师监考时开直播,面对质疑还振振有词,怕困没有打扰学生
- 清华大学刘知远:知识指导的自然语言处理
- 深圳40年40人,为何大疆汪滔没上榜,反而是他大学老师上榜?
- 戴建业老师|除了罗翔老师,你还喜欢B站的哪些老师?
- 老师|干货满满!如何引起消费者注意?戳这里获取答案……
- 带队|5G还没普及 6G来了:清华大学去年底试验6G、副院长带队
- 最火|B站年度最火梗“耗子尾汁”遭质疑,这些梗来偷袭,马老师没法闪
- 限量版腕表|百年灵Top Time限量版很难买?听听这三位老师怎么说!
- 5G发展迅速,三大运营商将淘汰2G!清华大学已开启6G实验
- 就要|5G还没普及 6G就要来了