你是怎样突破「信息茧房」的( 八 ) 今天文章来

该公式要计算用户i和用户j之间的相似度, I(ij)是代表用户i和用户j共同评价过的物品, R(i,x)代表用户i对物品x的评分, R(i)头上有一杠的代表用户i所有评分的平均分, 之所以要减去平均分是因为有的用户打分严有的松, 归一化用户打分避免相互影响。
而基于物品的协同过滤其实跟User-Based CF是很相似的，我个人简单的理解，就是物品AB相似，用户喜欢A，我们推断用户也喜欢物品B。在实际中，还会对人和物进行聚类和分类，将用户按照一定距离度量方式分成不同的目标人群，将物品也进行聚类分类划分成不同的主题或者标签。比如头条通过用户行为分析不同用户间相似性，比如点击相似、兴趣分类相似、主题相似、兴趣词相似，甚至向量相似，从而扩展模型的探索能力。在我看来user-based的推荐结果的惊喜度会更高, 因为看的是人与人群的兴趣相似, 推出来的结果可能更新颖，更有意思。
通过用户的行为日志，用户的不同特征维度，物品不同特征，场的不同维度，通过不同的算法模型进行的计算，产生了数据候选集，就可以再进行精排，主要基于特征工程，预测排序模型，人工规则进行倒排。最后展现还会通过规则引擎对数据进行筛选并展示，从而破除信息茧房。
三，算法本身是否会生成信息茧房？
那么算法会不会生成信息茧房呢，我觉得算法本身是不会产生信息茧房，这涉及了两个误区，一个是推荐算法的评价，不能完全指标化，不能单单靠点击率来评价，我发现这一点头条的一篇文章就提供了不错的思路（https://lusongsong.com/info/post/9829.html）《今日头条推荐算法原理全文详解》，就实现了，对内容的多维度的频控和权重干预，同时对低俗内容也进行了严格的打压。
像上面我最开始提到的协同过滤算法，其实是Facebook、谷歌等公司最通用、也最传统的基础算法原则之一，近几年平台方为了用户的体验也在不断完善、优化算法。比如，这篇算法详解里面，就介绍了头条目前采用的五种推荐算法原理，包括传统的协同过滤模型，监督学习算法Logistic Regression模型，基于深度学习的Factorization Machine，以及DNN和GBDT。
一般来讲，推荐系统的好坏如何评判决定了最终给用户呈现什么样的内容，常用指标包括准确度、覆盖度、新颖度、惊喜度、满意度、透明度等。从这个角度来看，大家对信息茧房不用太多的担忧，合理的设计评价体系，才是问题的根本所在。
算法，本质上也是提高了海量信息的传播效率，通过用户画像技术和用户场景洞察，更好的进行内容分发。