按关键词阅读: 算法 AI ar眼镜 meta
Meta还透露:Ego4D录制的视频来自于未经编排的日常活动 , 包括施工、购物、玩游戏、烘焙、撸猫/狗、社交等等 。 通过面部打码等方法 , 去除可识别的身份等信息后 , 大学才将这些视频数据提供给Meta 。 视频内容涉及环境、人手动作 , 以及和一百种不同的物品交互 。 除此之外 , FRL科研人员也利用Vuzix Blade AR眼镜 , 在预先设定的实验室场景中 , 收集了额外400小时的第一人称视频数据 。
科技创新依赖新工具
Meta表示:旧的工具无法开发未来的科技创新 。 因此 , AR眼镜的智能AI系统也需要全新的训练数据 。 据Meta设想 , Ego4D训练的AI算法将具备以下功能:
- 1)情景记忆:时间和事件;
- 2)预测:接下来的行为;
- 3)识别手势和物体交互:正在做什么;
- 4)音频和视觉分析:谁说了什么、什么时间、中心思想是什么;
- 5)社交互动:谁和谁在互动 , 人群中谁在和我说话 。
Meta科研人员指出 , Ego4D将具备情景记忆 , 以及视觉和听觉记录功能 。 其中 , 情景记忆指的是可以记住发生在特定时间和地点的事件 , 能够回答“钥匙放在哪了”等问题 。 此外 , AR眼镜将教你学习打鼓、做菜、找钥匙 , 或是用全息图像来显示过去的记忆 。 比如指导IKEA家具安装 , 或是提示做饭步骤 , 如果已经放盐 , 系统会提醒你避免重复加盐 。
而为了实现上述场景 , Meta需要训练足够智能的AI系统 , 像人一样以第一人称理解世界 , 与世界互动 , 这种形式也被科研领域称为自我为中心的感知 。
目前 , Ego4D AI系统还不能达到理想的效果 , 因此它只是一个科研项目 , 并不是正在开发中的产品 。 不过 , 很可能会在未来的AR眼镜中应用这样的技术 。 Meta AI科研人员Kristen Grauman表示:Ego4D等AI算法有望通过AR眼镜 , 解锁更多潜在场景 , 甚至将AR与VR融合 。
当被问及隐私安全问题时 , Meta表示:Ego4D预计将进一步引入隐私保护措施 , 例如:AR眼镜在增强音频之前 , 可以先征求用户许可 , 或者限制音频采集的范围 , 仅识别用户与其他人的对话 , 或用户附近的声音 。 参考:FB
稿源:(未知)
【傻大方】网址:/c/111cB2502021.html
标题:meta|Meta:训练AR眼镜的智能助手,需要用第一人称视频( 二 )