meta|Meta:训练AR眼镜的智能助手,需要用第一人称视频( 二 )


科技创新依赖新工具
Meta表示:旧的工具无法开发未来的科技创新 。 因此 , AR眼镜的智能AI系统也需要全新的训练数据 。 据Meta设想 , Ego4D训练的AI算法将具备以下功能:

  • 1)情景记忆:时间和事件;
  • 2)预测:接下来的行为;
  • 3)识别手势和物体交互:正在做什么;
  • 4)音频和视觉分析:谁说了什么、什么时间、中心思想是什么;
  • 5)社交互动:谁和谁在互动 , 人群中谁在和我说话 。
(作为AI训练的基准 , 这些功能或应用场景也是Ego4D的一部分 , Meta希望通过开源数据集和训练基准 , 将技术研发开放给世界各地的科研人员 , 鼓励更多人用Ego4D数据来训练AI系统)
Meta科研人员指出 , Ego4D将具备情景记忆 , 以及视觉和听觉记录功能 。 其中 , 情景记忆指的是可以记住发生在特定时间和地点的事件 , 能够回答“钥匙放在哪了”等问题 。 此外 , AR眼镜将教你学习打鼓、做菜、找钥匙 , 或是用全息图像来显示过去的记忆 。 比如指导IKEA家具安装 , 或是提示做饭步骤 , 如果已经放盐 , 系统会提醒你避免重复加盐 。
而为了实现上述场景 , Meta需要训练足够智能的AI系统 , 像人一样以第一人称理解世界 , 与世界互动 , 这种形式也被科研领域称为自我为中心的感知 。
目前 , Ego4D AI系统还不能达到理想的效果 , 因此它只是一个科研项目 , 并不是正在开发中的产品 。 不过 , 很可能会在未来的AR眼镜中应用这样的技术 。 Meta AI科研人员Kristen Grauman表示:Ego4D等AI算法有望通过AR眼镜 , 解锁更多潜在场景 , 甚至将AR与VR融合 。
【meta|Meta:训练AR眼镜的智能助手,需要用第一人称视频】当被问及隐私安全问题时 , Meta表示:Ego4D预计将进一步引入隐私保护措施 , 例如:AR眼镜在增强音频之前 , 可以先征求用户许可 , 或者限制音频采集的范围 , 仅识别用户与其他人的对话 , 或用户附近的声音 。 参考:FB