袁东:XR是未来数字世界中最核心的技术


袁东:XR是未来数字世界中最核心的技术文章插图
杭州网讯 12月18日-20日 , 2020网易未来大会在杭州盛大举行 。 大会以“洞觉未见”为主题 , 汇聚了全球最强大脑 , 期盼以远见超越未见 , 去寻找打开未来的钥匙 。
大会上 , HTC Vive软件产品总监 , Vive亚太开发者关系负责人袁东在《DL/ML为XR带来更浸入式的体验》主题演讲时表示 , 虚拟现实从2017年和2018年有明显的下落 , 但从2019年到2020年 , 特别是今年的疫情 , 已经明显感觉到虚拟现实越来越靠近我们的生活 。 袁东说非常坚信XR是未来数字世界中最核心、最重要的一款产品 。
袁东认为 , 未来人类生活可以生活在虚拟中的 , 通过AI , XR , Blockchain以及最先进的通信技术彻底改变人类的生活 。
以下为袁东演讲实录:
袁东:各位来宾下午好 , 我是来自HTC VIVE的袁东 , 首先感谢网易的邀请来到网易未来大会 , 来到美丽的杭州跟大家分享在XR行业 , 我们利用AI , 利用深度学习和机器学习如何来提升XR的体验 。
我们的品牌是一个比较年轻的品牌 , 品牌LOGO在一个三角形中 , 有一个生命的蛋 , 这个代表人文科技和梦想 。 那我们的愿景是“解放现实的无限想象” 。 我记得在2016年的时候 , 当世界上第一款6DoFi的VR产品问世时 , 那一年非常火热 。 曾经我的同事跟我讲 , 他说在2016年在做年终汇报时 , 我们参加了全国100多场会议 , 也就是每2个工作日就要参加1个虚拟现实的会议 。 但虚拟现实就像今天杭州一样经历了比较冷的感觉 , 从2017年和2018年感觉有明显的下落 , 但从2019年到2020年 , 特别是今年的疫情 , 我们已经明显感觉到虚拟现实越来越靠近我们的生活 。 特别是在这过去的3天中 , 我们听到了很多行业的嘉宾、大咖分享以后 , 觉得很多人跟我们的想法还有愿景是一样的 。 虚拟现实技术 , 甚至是XR技术会改变我们的生活 。
首先我介绍一下我们VIVE的ECOSYSTEM , 我们在硬件、软件、艺术、投资领域都做了很多贡献 , 我们非常坚信XR是未来数字世界中最核心、最重要的一款产品 。 但是我还是要感谢真正在生态中的开发者 , 因为没有这些开发者的话 , 虚拟现实和XR并不会这么快进入我们的视野 , 影响我们的生活 。
下面 , 我想提出一个词 , 叫做VIVE Reality , 这是我们董事长在西班牙时提出的一个概念 , 通过这个视频请大家了解一下 。
VIVE Reality , 我们认为未来人类生活可以生活在虚拟中的 , 通过AI , 通过XR , 通过Blockchain , 还有最先进的通信技术会彻底改变人类的生活 。 为了实现这些 , 我们会在下面4个方面实现这些内容和技术 , 特别这些技术会非常借鉴于AI来实现 。 下面 , 我向大家一一阐述这些 。
第一个是面部的追踪 , 可以说我们在人与人交流时 , 交流的关键是要有面部的表情 , 特别是眼睛、嘴巴、鼻子 , 形成一个三角的区域 , 这个会传达人与人之间的感情 , 还有语言 。 那通过我们的硬件 , 可以完全模拟 , 实时模拟人物眼睛的追踪 , 还有嘴巴追踪 , 甚至可以统一叫做面部追踪 。 可
NeosVR利用了我们的开发者套件就可以在虚拟世界中跟他的朋友进行真正的交流 , 这也可以实现它的表情实时传输 , 在虚实世界中可以化身为一个虚拟形象 。
下面讲一下手部追踪 。 我相信在座的很多朋友第一次体验到真正的虚拟现实时 , 是通过《The Blue》这个游戏内容 。 当面前一条巨大的蓝鲸还有魔鬼鱼游弋过去时 , 我当时最初反应是伸开双手想触摸它 , 用手来接触自然是人类对自然最自然的一种反馈 , 还有接近 。 那我们也是利用了深度学习还有机器学习来实现这些追踪 。 首先举个例子 , 在最早没有用到深度学习时 , 我们曾经想利用叫做匹配的技术 , 来实现手部的交互 , 当时我们的IT团队 , 在北京的研发团队开发了一个VIVEpaper内容 , 我们当时和日游这家公司推出了这个应用 。
这个是当初我们技术的Breakdown , 当我们在用前置摄像头识别手的时候 , 可以看到第三列中间这幅图 , 摄像头会发现一些脏的数据(dirty data) , 这个会影响摄像头的判断 , 它可能会认为旁边这一块也是人类的手 。 那我们的团队就利用了左边这一栏有两页的K&Q纸 , 来把环境隔开 。 也就是我只会识别K&Q纸张里的图像是不是我的双手 。 如果我的双手进行了一些像翻页动作、点击动作时 , 它就可以打开 , 还有翻页 , 呈现内容 。 但是我们团队后来使用了深度学习以后 , 可以通过实时的camera去学习手部的资料 , 然后通过这几个步骤 , 包括自动去标定、自动识别手部 , 然后建立起骨骼模型 , 最终可以在3D空间中追踪人的手 。 那利用这个Deep Learning , 我们的手部追踪可以实现不同肤色人的手 , 左手右手的识别 , 正反的识别 , 可以识别6个这样的既定姿态 , 甚至可以在空间范围内识别手的位置信息 , 可以追踪手的骨骼模型 。 我们还推出了可以自定义手势 , 比如说你在听音乐会的时候 , 伸出了Rock这样的姿势也可以定义 。