GET|360OS张焰：AI视觉在教育中的应用( 二 ) 360OSAI影像事业部总经理张焰芥末堆冷

普通专注度检测有几个维度，像举手、低头、瞌睡、玩手机，缺陷是仅有2D图像信息，检测准确率欠佳。另外是检测指标单一，没法精准回溯学情。
而我们做的课堂专注度，包括了3D深度检测和学情回溯系统。可以看到我们加入了人体Depth信息，基于这个信息可以比较精准的估计到人体的每个姿态，然后再加入事件的触发机制，最后得到监测结果。这个结果包括事件状态的上报，时间戳，以及当前时间戳发生的事件截图等，便于课后对教学情况进行回溯分析。
关于课堂接受度，到目前为止，还没有哪家公司真正把它做到产品里。我们首创的课堂接受度，包含了正向和负向维度。正向的维度像举手、微笑、点头，代表课堂接受度是比较好的。负向的维度像疑惑、皱眉、摇头，这些代表课堂接受度较差。
针对疑惑这个表情的处理，我们也下了很多功夫。从学术界来看，人类常见的表情只有7种，并不包括疑惑这个表情，也没有相关的数据。但这个表情对教学场景很有意义，所以我们在这方面做了大量的数据补充，增加了疑惑的数据和标注，最后通过迁移学习的方式，再结合人体关键点进行辅助识别，得到了最终的8类表情识别。
文章插图
我们的课质监测方案采用了典型的“边缘计算+云计算”结合的架构，因为现在边缘端算力已经越来越强了，所以很多算法可以直接拷在边缘设备端以及APP上。采用这种架构还出于隐私的考虑，大家担心把学生端的摄像头打开之后，检测学生的行为可能会触犯个人隐私或者非法上传数据。这也是我们比较慎重考虑的，所以尽量把端的能力发挥出来，上传的只是用AI算法检测之后的状态，而不是客户隐私的数据。
网课助手对老师而言，可以得到整个班级的课堂表现报告，这应该是非常有价值的。对家长而言，家长也可以生成本地的报告，得到学生在每个维度的表现情况。包括他的专注度、疲劳度、接受度、不良坐姿表现等情况，而且可以针对每一个维度的时间戳进行回溯分析。
3、智能互动方案
传统的录播课为了有一个比较好的体验，可能需要去一个专门的录播间，后面搭建绿幕，还有补光灯和一系列的设备。这里有一个明显的缺点是对场地的要求过高，而且后期的制作成本也比较高。
而传统的直播课，可以看到课件跟老师的头像画面是分屏展示的，老师跟学生之间的互动很有限，这对幼儿教育的体验是非常不友好的。
我们的AI沉浸式课件，做了非常精准的人像分割，把课件放在人像后面展示，同时人跟课件之间可以进行互动。另外，比如课件的播放、暂停、上一页、下一页这些简单的操控，以及老师跟课件内容的互动，是我们后期不断探索的方向。这个技术也可以用来做课件的生产工具，不需要录播间的场地和设备，自动完成课件制作。
文章插图
说到网课互动，我们知道传统的线上互动都是老师单向输出为主，老师很难兼顾到每个学生的状态。因为学生在屏幕当中只是非常小的头像，学生发生什么状况，老师是不知道的。
我们研发了一系列智能互动工具，可以通过AI手段实现多向多元的互动。比如手势识别，如果这个学生回答问题之后，老师觉得很棒，可以点一个赞触发点赞的特效。如果系统检测到学生疑惑了，可以把他的头像排到前面，这样老师就可以非常精准快速地知道哪个学生跟他有互动，哪个学生有疑惑或者哪个学生在举手提问。还有像人脸特效是比较常见的，现在有很多幼儿教育都会用它来增加互动的趣味性。