你是怎样突破「信息茧房」的( 八 )



你是怎样突破「信息茧房」的

该公式要计算用户i和用户j之间的相似度, I(ij)是代表用户i和用户j共同评价过的物品, R(i,x)代表用户i对物品x的评分, R(i)头上有一杠的代表用户i所有评分的平均分, 之所以要减去平均分是因为有的用户打分严有的松, 归一化用户打分避免相互影响。
而基于物品的协同过滤其实跟User-Based CF是很相似的,我个人简单的理解,就是物品AB相似,用户喜欢A,我们推断用户也喜欢物品B。在实际中,还会对人和物进行聚类和分类,将用户按照一定距离度量方式分成不同的目标人群,将物品也进行聚类分类划分成不同的主题或者标签。比如头条通过用户行为分析不同用户间相似性,比如点击相似、兴趣分类相似、主题相似、兴趣词相似,甚至向量相似,从而扩展模型的探索能力。在我看来user-based的推荐结果的惊喜度会更高, 因为看的是人与人群的兴趣相似, 推出来的结果可能更新颖,更有意思。
通过用户的行为日志,用户的不同特征维度,物品不同特征,场的不同维度,通过不同的算法模型进行的计算,产生了数据候选集,就可以再进行精排,主要基于特征工程,预测排序模型,人工规则进行倒排。最后展现还会通过规则引擎对数据进行筛选并展示,从而破除信息茧房。
三,算法本身是否会生成信息茧房?
那么算法会不会生成信息茧房呢,我觉得算法本身是不会产生信息茧房,这涉及了两个误区,一个是推荐算法的评价,不能完全指标化,不能单单靠点击率来评价,我发现这一点头条的一篇文章就提供了不错的思路(https://lusongsong.com/info/post/9829.html)《今日头条推荐算法原理全文详解》,就实现了,对内容的多维度的频控和权重干预,同时对低俗内容也进行了严格的打压。
像上面我最开始提到的协同过滤算法,其实是Facebook、谷歌等公司最通用、也最传统的基础算法原则之一,近几年平台方为了用户的体验也在不断完善、优化算法。比如,这篇算法详解里面,就介绍了头条目前采用的五种推荐算法原理,包括传统的协同过滤模型,监督学习算法Logistic Regression模型,基于深度学习的Factorization Machine,以及DNN和GBDT。
一般来讲,推荐系统的好坏如何评判决定了最终给用户呈现什么样的内容,常用指标包括准确度、覆盖度、新颖度、惊喜度、满意度、透明度等。从这个角度来看,大家对信息茧房不用太多的担忧,合理的设计评价体系,才是问题的根本所在。
算法,本质上也是提高了海量信息的传播效率,通过用户画像技术和用户场景洞察,更好的进行内容分发。