数码实验室|又为啥会“失灵”?,推荐算法为啥这么“灵”( 二 )


02推荐算法为啥会“失灵”?
推荐算法平时没什么问题 , 但一旦出现极端情况 , 譬如说爆发大规模疫情 , 就会出现前面我们看到的推荐算法“失灵”的问题 , 大量推荐的都是疫情相同的信息 , 把其他信息都湮没了 。
不过说实话 , 推荐算法有这样的结果 , 其实是“合理”的 。 你想一下:疫情期间你的朋友、家人、同学或者同事 , 包括你自己 , 最关心的是什么?就是疫情 。
推荐算法这边呢 , 我们一再强调推荐算法要做的是发现兴趣 , 而恰恰是正确地发现了你对疫情的“兴趣” , 所以推荐算法才给你大量推荐了疫情相关的信息 。 非要说这是问题的话 , 恐怕首先也得是社会学的问题 。
但是 , 深入地想一想就会发现 , 这个问题没这么简单 。 互联网经济在过去很长一段的时间里是推崇一种理论的 , 叫长尾理论 , 大概意思是:人类社会中存在着大量的小众需求 , 你贩卖的东西再离经叛道 , 也总会能得到真爱的捧场 , 互联网就是沟通小众需求的桥梁 。
推荐算法在很大程度上也受了这种理论的影响 , 所以有一种说法是:推荐算法的最终目标就是能发现这一个一个的小众圈子 , 把小众的信息推荐给圈子里的人 。
但现实却是另外一回事 。 近几年大家讨论更多的是另一种互联网现象 , 如果你经营过公众号或者当过UP主 , 应该会对这种现象印象深刻 , 这就是头部效应 。
大部分甚至绝大部分的互联网流量 , 实际上是被少数几个“头部”信息生产者吸走了 , 剩下绝大多数的信息生产者 , 则仍然是静静地呆在角落里面被人遗忘 。
数码实验室|又为啥会“失灵”?,推荐算法为啥这么“灵”
文章图片
本该打破这一现象的推荐算法 , 反而加剧了这种现象 。 因为占据头部 , 所以容易被推荐 , 因为容易被推荐 , 所以继续占据头部 , 推荐算法导致的这种上升螺旋 , 让头部效应更加明显 。 如果把本次疫情看作是一个新的头部 , 也许能更好地理解推荐算法为什么会在疫情中出现失灵 。
那么 , 这个问题应该怎么解决呢?这个问题 , 容易回答 , 也不容易回答 。 从技术的角度看 , 这个问题想要解决 , 思路是很清晰的 , 就四个字:去极端化 。
理论研究和真实环境往往有差别 。 理论研究都爱对环境条件进行简化假设 , 智能算法也不例外 , 通常假设各种情况出现的概率是服从均匀分布的 , 大家应该是旗鼓相当的公平竞争 , 谁也压不住谁 , 然后再在这个假设条件下构建算法的各种逻辑 。
但实际上 , 一枝独秀也许才是真实环境中最为常见的情况 。 其它的所谓竞争者 , 要么是萌新 , 躲在角落瑟瑟发抖 , 要么是菜鸡 , 互啄上不了台面 。 在算法看来 , 这种现实情况和假设情况相差实在太远 , 太极端 , 所以 , 会出现奇奇怪怪的结果自然也就不值得奇怪了 。
要让算法恢复正常怎么办呢?只要把极端情况变得不那么极端就可以了 , 很多依靠评委打分的比赛为了避免受极端情况影响 , 通常会选择采取去掉一个最高分和一个最低分的做法 , 就是类似的思路 。
不过 , 技术本身是中立的 , 是正是邪 , 要看使用的人 , 就好比菜刀 , 究竟是用来切菜还是砍人 , 不是由菜刀自己说了算 。 现在讨论的很多问题看起来是技术的问题 , 其实还是人的问题 。 譬如人工智能 , 说到自动驾驶 , 我们就很爱讨论一个话题 , 说算法应该怎么处理电车难题 。
但实际上 , 算法自己是不会产生价值观的 , 算法的价值观 , 说到底还是人的价值观 。 推荐算法究竟要怎么改 , 说到底还是要看推荐算法的使用者怎么定义价值 。
我想 , 推荐算法最后一定能够满足“推荐有价值信息”这一要求的 , 但是 , 这里的“有价值”究竟是对谁而言的有价值 , 那就是另一个问题了 。
关于作者:莫凡 , 娱乐向机器学习解说选手 , 《机器学习算法的数学解析与Python实现》作者 , 前沿技术发展观潮者 , 擅长高冷技术的“白菜化”解说 , 微信公众号“睡前机器学习” , 个人知乎号“木羊” 。