在推荐系统中,我还有隐私吗?联邦学习:你可以有


机器之心分析师网络
作者:仵冀颖
编辑:H4O
在推荐系统无所不在的网络环境中 , 用户越来越强烈地意识到自己的数据是需要保密的 。 因此 , 能够实现隐私保护的推荐系统的研究与发展越来越重要 。 联邦学习框架的引入为这一问题提供了解决方案 。
一、由推荐系统谈起
随着互联网覆盖范围的扩大 , 越来越多的用户习惯于在网上消费各种形式的内容 , 推荐系统应运而生 。 推荐系统在我们的日常生活中无处不在 , 它们非常有用 , 既可以节省时间 , 又可以帮助我们发现与我们的兴趣相关的东西 。 目前 , 推荐系统是消费领域最常见的机器学习算法之一[1] 。 以网络新闻为例 , 由于每天都有大量的新闻文章发布在网上 , 在线新闻服务的用户面临着严重的信息过载 。 不同的用户通常喜欢不同的新闻信息 。 因此 , 个性化新闻推荐技术被广泛应用于用户的个性化新闻展示和服务中 。 关于新闻的推荐算法 / 模型研究已经引起了学术界和产业界的广泛关注 。
经典的推荐算法大致分为三类:内容过滤(Content filtering)、协同过滤(Collaborative filtering , CF)和混合过滤(Hybrid filtering) 。
内容过滤:这类算法侧重于通过将用户、item 划分为特定的信息特征来绘制用户肖像 , 从而直接建立对用户兴趣的理解 。 初期的推荐系统中多采用的是内容过滤的方法 。 例如 , 我在某宝上浏览了几件黑色女式羽绒服 , 系统根据内容过滤算法直接提取 “黑色”、“羽绒服”、“女式” 等 item 特征 , 在这个应用场景下 , item 具体为 “物品” 。 通过对物品进行多次关联性分析 , 发现我多次在某宝中的点击之间的关联性 , 从而生成推荐结果 , 将“女式羽绒服” 推荐到我的某宝首页中 。 这种内容过滤的方法具有以下特点:一是 , 方法原理简单、易于实现 , 直接根据用户点击的数据进行分析 , 因此不存在稀疏性和冷启动的问题 。 二是 , 直接基于 item 进行特征构建和推荐 , 推荐准确度过高 , 且不受其它用户热门推荐的影响 。 三是 , 所依赖的 item、特征等直接影响了推荐效果 , 必须保证特征准确且在具体的应用场景中是真实有效的 。 四是 , 推荐结果存在重复性问题 。 以新闻推荐类应用为例 , 你浏览了一篇关于 2021 年考研的权威发布新闻 , 系统可能再次向你推送的是同一条新闻 。
协同过滤:这些算法在没有用户或 item 的先验信息的情况下工作 , 并且只根据用户的交互数据建立对用户兴趣的理解 。 这种方法也是目前应用最广泛的推荐算法 。 协同过滤的基本考虑是“物以类聚 , 人以群分” 。 协同过滤主要有两类方法:基于用户 (User-based) 的推荐和基于 item(Item-based)的推荐 。 协同过滤一般与评分系统结合使用 , 通过分数去刻画用户对于 item 的喜好程度 。 协同过滤的方法具有以下特点:一是 , 无需建模 , 且领域无关 , 具有很好的普适性 。 二是 , 便于借鉴他人经验 , 能够使用其它评分结果辅助发现用户的潜在兴趣偏好 。 三是 , 基于历史数据进行评分和评估 , 因此对于系统中的新用户和新 item 存在冷启动问题 , 且受历史数据的数据规模、稀疏程度等影响较大 。 四是 , 对用户的新爱好转变或特殊爱好的需求支持度较差 , 这些新爱好或特殊爱好一般也是缺少历史数据支持的情况 。
混合过滤:这些算法是上述两种算法的结合 。 它通过利用上面两种方法中的技术优势来构建更好的推荐系统 。
然而 , 在推荐系统无所不在的网络环境中 , 用户越来越强烈的意识到自己的数据是需要保密的 。 此外 , 从政府层面看 , 随着 GDPR 在欧洲的启动和美国类似法律的出台 , 越来越多的国家将效仿这一做法 , 进一步导致传统的推荐系统所依赖的训练数据越来越匮乏 。 在这样的背景下 , 能够实现隐私保护的推荐系统的研究与发展越来越重要 。 从另外一个角度分析 , 在推荐 / 搜索中引入隐私也有一定的好处 。 我们可以利用用户不共享的更好的元数据进行推荐系统的训练 , 例如手机上的应用程序信息、位置等 。 我们还可以在较新的领域中(如医疗保健、金融服务)更好地采用机器学习模型 , 用户不再需要犹豫是否将数据共享给其他人 。