具身|打破大模型的“空中城堡”,BMVC最佳论文Runner-Up得主谈多模态与具身学习( 五 )
1963年,心理学家Richard Held(1922-2016)和Alan Hein在“Movement-produced stimulation in the development of visually guided behavior”这项研究中进行了一个小猫“旋转木马”的实验,了解小猫是如何进行视觉学习的。于是,他们就设计了一个类似于旋转木马的装置,把两个小猫放在该装置的两边。

文章插图
在小猫出生后的前八周内,它们被放在一个黑暗环境里面喂养。每一天,心理学家都把两只小猫同时拿出来放在该装置上。其中一只小猫可以把四肢展开运动,它迈腿的时候这个“旋转木马”就会旋转。而另一只小猫则无法和这个装置互动,它被包裹在盒子里,无法展开四肢。
而第一只小猫有了动作使该装置旋转起来后,另一只小猫也必须跟着被动旋转。在这种设置下,它们得到了同样的视觉信息。但主动的小猫的动作可以使环境改变,它的动作能够和视觉信息相关联。而另一只被动的小猫虽然接收到同样的视觉信息,但它的动作与视觉没有关联。
八周后,他们发现主动的小猫的视觉感知能力与正常情况下长大的小猫是差不多的,但是被动的小猫就有一些根本性的视觉感知问题。
所以他们得到的结论是,我们需要自主运动,来养成获取视觉信息的能力,这样才能够帮助我们更好地学习。
“这与具身学习非常相关。我们在感知世界时,是与世界进行交互。我们可以通过移动,看到不同的东西,听到不同的东西,感知到不同的信息。而这与我们主动的运动相关联,从而可以使我们更好地学习。所以也是为什么说自监督和强化学习的结合更加接近具身学习范式,我们需要的是主动与环境进行交互。而互补的多模态信号可以作为很好的自监督学习的信号,帮助我们更有效率地学习。”
回到我们自己身上或者婴儿身上,一个婴儿从出生起,并不只是通过看一堆图片或视频学习的。“我们不是被动地学习世界,而是通过主动地看、听、触、嗅等获取各种模态信息进行学习。”
通过这样的观察,高若涵表示,他的长期研究目标是将来能够建立多模态感知智能体,它不但能够听、看、触碰,甚至还可以使用嗅觉、感知热量,像人一样能通过学习多模态信息,更好地辅助人类。
就像Jitendra Malik教授所说的那样,我们过度投资于当前的范式,而对智力领域中某些被忽视的部分存在的风险没有足够的警惕。“大型语言模型是有用的,像谷歌、脸书或微软这样的大型技术公司对其进行投资是很有意义的,但学术界应该奉行‘百花齐放’的策略。”
智能出现在智能体与环境的相互作用中,并且是感觉运动活动的结果。未来的监督学习应该采用来自现实的监督信息,自监督和强化学习的结合更加接近这种范式, 多模态学习为这种范式提供了一个新的思路和方向。
谁又能知道下一个AlexNet时刻会在何时何地发生?
参考资料:https://crfm.stanford.edu/commentary/2021/10/18/malik.html
- vivo|vivoX80Pro+曝光:打破传统束缚,性能与美的碰撞
- Linux|启中教育:直通车很烧钱?如何打破?
- 阿里巴巴|阿里自研赶跑外资,为马云省下几百亿,彻底打破外资垄断
- 光刻胶|徐州博康将光刻胶纯度提升10倍,打破日企垄断,华为加码3亿
- 芯片|清华大学不负众望,打破芯片领域技术限制,成功出货核心设备!
- 红米手机|打破技术封锁,K50电竞版加持国产A+原色屏,比DC调光更护眼
- 大数据|深度学习也能不玩大数据?小企业训练大模型有新解
- 用户|数据分析八大模型:同期群模型
- 华为|正式发布,华为官宣新消息!外媒:这是要彻底打破
- 半导体|又一领域打破垄断,良率99.99%,性能逼近三星,华为率先提供支持
