在推荐系统中,我还有隐私吗?联邦学习:你可以有( 五 )
文章插图
表 2. 不同方法的新闻推荐结果
实验结果见表 2 。
首先 , 通过比较 Fed-NewsRec 和目前主流的新闻推荐方法 , 如 NRMS、NPA 和 EBNR , 验证了 Fed-NewsRec 在个性化新闻推荐模型学习中的有效性 。 而且 , 与现有方法基于集中存储的用户行为数据训练的方式不同 , Fed-NewsRec 中的用户行为数据分散存储在本地用户设备上 , 从不上传 。 因此 , Fed-NewsRec 可以在训练出准确的新闻推荐模型的同时 , 更好地保护用户隐私 。
其次 , Fed-NewsRec 比现有的基于联邦学习的推荐方法(FCF)的性能更好 。 FCF 在新闻推荐中的表现并不理想 , 这是因为 FCF 要求每个用户和每个 item 都参与到训练过程中来学习它们的嵌入 , 且用户和 item 为预先已知的 。 然而 , 在实际应用中 , 由于各种原因 , 并不是所有的用户都能参加训练 。 此外 , 网络新闻平台上的新闻文章很快就会过期 , 新的新闻文章不断涌现 。 因此 , 许多推荐新闻 item 在训练阶段都是未知的 , 而 FCF 无法处理这些 item 。 Fed-NewsRec 从新闻内容中学习新闻表示 , 并使用神经网络模型从用户行为中学习用户表示 。 因此 , Fed-NewsRec 能够处理新用户和新 item 的问题 , 更适合新闻推荐场景 。
最后 , Fed-NewsRec 的性能比 Cen-NewsRec 差 , 后者与 Fed-NewsRec 有相同的新闻推荐模型 , 但训练的是集中的用户行为数据 。 集中存储的数据比分散的数据更有利于模型训练 , 因此 Cen-NewsRec 优于 Fed-NewsRec 是很好理解的 。 此外 , 在 Fed-NewsRec 中 , 采用局部差分隐私技术和 Laplace 噪声来保护模型梯度中的隐私信息 , 这进一步导致了聚合梯度模型更新的准确性不高 。
四、进一步解决联邦协同过滤中存在问题的普适方法
在第三节中 , Fed-NewsRec 解决了 FCF 中的 “要求所有用户都参与到联邦学习的过程中来训练他们的向量” 的问题 , 但是它只适合于新闻推荐应用场景 , 无法应用到其它场景中 , 不具备普适性 。 本节中我们介绍一个通用的基于内容的联邦多视图推荐框架 FL-MV-DSSM(Federated Learning-Multi View-Deep Structured Semantic Models)[4] 。 该框架通过利用来自不同 APP 的信息训练一个共享的用户子模型 , 从而具有更好的 item 推荐性能 。
首先 , 通过将一个通用的深度学习模型(Deep-Structured Semantic Models , DSSM)转换为一个联邦学习环境 , FL-MV-DSSM 可以将用户和 item 映射到共享的语义空间 , 以便进一步实现基于内容的推荐 , FL-MV-DSSM 能够处理现有 FedRec 的冷启动问题(Cold Start) 。 然后 , 本文设计了一种新的 FL-MV-DSSM 方法 , 从多个数据源学习联邦模型以获取更丰富的用户级特征 , 从而大大提高了 FL-MV-DSSM 的推荐性能 。 此外 , FL-MV-DSSM 提供了一种新的联邦多视图设置 , 例如可以使用来自不同手机 APP 的数据共同学习一个联邦模型 。
文章插图
图 5. FL-MV-DSSM 框架
4.1 FL-MV-DSSM 框架分析
DSSM 最初是为 web 搜索而设计的 , 它通过多层神经网络从用户的查询词和候选文档中提取语义向量 , 然后利用余弦相似度来度量查询与文档在语义空间中的相关性 。 在本文通用联邦多视图推荐设置中 , 采用 DSSM 作为推荐方法的基本模型 , 如图 5(a)所示 。
假设每个 FL 客户端有 N 个用户级特性的视图(每个 App 考虑对应一种视图) , 记为第 i 个视图的特征 U_i , 第 i 个视图(App)只能访问 U_i 对应的数据集 。 从推荐提供程序中下载 item 数据集 I(item dataset) 。 所有视图都可以访问共享数据集 I 。 对于联邦学习推荐系统任务 , 假设老用户有一些可以生成行为数据 y , 而新用户没有任何行为数据 。 FL-MV-DSSM 建立在传统的 FedAvg 算法基础上 , 需要 FL 中央服务器提供初始模型 , 如图 5(c)所示 。
如下 Algorithm 1 给出了 FL-MV-DSSM 的训练算法 , 假设在 FL-MV-DSSM 的训练阶段 , 所有的 FL 客户端都是具有基于 item 数据集 I 生成行为数据 y 的老用户 。 在每个视图 i 中 , 根据第 i 个视图的私有用户数据 U_i 和本地共享 item 数据 I 计算用户子模型(user sub-model)和item 子模型(item sub-model)的梯度 。 虽然 FL-MV-DSSM 是一种基于内容的联邦学习推荐系统任务 , 但与仅使用用户子模型的聚合梯度相比 , item 子模型的聚合梯度具有更好的推荐性能 。
因此 , 在 FL-MV-DSSM 中 , item 子模型的梯度将以 FL 方式聚合 , 而用户梯度的聚合可通过 Algorithm 1 中第 9 行的 “aggregate_user_submodel” 标志配置 , 这可以生成 FL-MV-DSSM 的一个变体 , 即 SEMI-FL-MV-DSSM 。 每轮 FL 训练结束后 , 根据 FL 中央服务器发布的新的全局梯度 , 以 FedAvg 方式更新用户和 item 子模型 。 用户和 item 子模型的梯度都包含了需要保护的视图中特定的信息 , 因此 FL-MV-DSSM 提供了两个安全聚合原语:local_secure_aggregate()和 remote_secure_aggregate() , 以保护本地和远程梯度聚合 。
- 麒麟|荣耀新款,麒麟810+4800万超清像素,你还在犹豫什么呢?
- 智能手机市场|华为再拿第一!27%的份额领跑全行业,苹果8%排在第四名!
- 行业|现在行业内客服托管费用是怎么算的
- 零部件|马瑞利发力电动产品,全球第七大零部件供应商在转型
- 通气会|12月4~6日,2020中国信息通信大会将在成都举行
- 俄罗斯手机市场|被三星、小米击败,华为手机在俄罗斯排名跌至第三!
- 体验|闭上眼睛点外卖是什么感觉?时隔一年再次体验,进步令人欣慰
- 当初|这是我的第一部华为手机,当初花6799元买的,现在“一文不值”?
- 出海|出海日报丨短视频生产服务商小影科技完成近4亿元 C 轮融资;华为成为俄罗斯在线出售智能手机的第一品牌
- 看过明年的iPhone之后,现在下手的都哭了