在推荐系统中,我还有隐私吗?联邦学习:你可以有( 四 )
文章插图
图 3. 新闻模型结构
2.2 用户模型(User Model)
用户模型用于学习用户表示以模拟他们的个人兴趣 。 其结构如图 4 所示 。
文章插图
图 4. 用户模型结构
具体的 , 用户模型从用户点击的新闻文章中学习用户表现 , 同时考虑用户的长期和短期兴趣 。 通过一个多头自注意力网络和一个注意力池网络相结合来学习用户所有的历史行为 , 以得到长期兴趣建模 。 用户模型将 GRU 网络应用于用户最近的行为 , 以得到短期用户兴趣建模 。 最后 , 将长期兴趣和短期兴趣结合成一个统一的用户注意力网络嵌入向量 u 。
2.3 基于用户行为的模型训练
用户在新闻网站和 App 上的行为可以为新闻推荐模型的训练提供有用的监督信息 。 例如 , 如果一个用户 u 点击了一篇由模型预测的低得分排名的新闻文章 t , 那么我们可以立即调整模型 , 从而为这个 “用户 - 新闻” 信息对提供更高的排名分数 。 本文提出了一种基于点击和非点击行为的新闻推荐模型 。
对于用户 u 点击的每一条新闻 , 随机抽取一个 “曾经也显示过但用户并未点击的” 样本新闻 H 。 假设该用户共有 B_u 次点击行为 , 则参数为Θ的新闻推荐模型的损失函数定义为:
(13)
其中 L^i 的定义为:
文章插图
(14)
其中 , s(u,t)表示用户 u 对新闻 t 的排名得分 , 可以使用嵌入向量的点积来表示 , 例如 s(u,t)=u^T t 。 (t_i)^c 和(t_i)^nc 分别表示用户点击和未点击的新闻文章 。 由于准确的新闻推荐模型能够有效地改善用户的新闻阅读体验 , 而单个用户的行为数据远远不足以训练出一个准确无偏的模型 , 因此在 FedNews-Rec 框架中 , 作者提出引入大量的用户设备来共同训练新闻推荐模型 。 参与模型训练的每个用户设备称为客户端 。 每个客户端都有一个由服务器维护的当前新闻推荐模型Θ的副本 。 假设用户 u 的客户端在新闻平台上积累了一组行为 , 用 B_u 表示 , 然后根据行为 B_u 和公式(13)中定义的损失函数计算模型的局部梯度 g_u 。 虽然局部模型梯度 g_u 是由一组行为而不是单个行为来计算的 , 但是它仍然可能包含一些用户行为的隐私信息 。 因此 , 为了更好地保护隐私 , 作者将局部差分隐私(Local Differential Privacy , LDP)技术应用于局部模型梯度 。 将应用于 g_u 的随机算法表示为 M , 定义为:
文章插图
(15)
(16)
其中 , n 是拉普拉斯噪声 , 均值为 0 。
在 Fed-NewsRec 框架中 , 使用一个中央服务器来维护新闻推荐模型 , 并通过来自大量用户的模型梯度对其进行更新 。 在每一轮更新中 , 中央服务器随机选择用户客户端的一小部分 r(如 10%) , 并将当前的新闻推荐模型发送给他们 。 然后 , 它从选定的用户客户端收集并聚合本地模型梯度 , 如下所示:
(17)
其中 , U 是本轮学习过程中选择的用户集 , B_u 是用于局部模型梯度计算的用户 U 的行为集 。 然后使用聚合梯度更新中央服务器中维护的全局新闻推荐模型:
(18)
然后将更新的全局模型分发到用户设备以更新其本地模型 。 重复这个过程 , 直到模型训练收敛 。
2.4 实验结果
本文实验是在一个来自挪威新闻网站的公共新闻推荐数据集(Adressa)和另一个从微软新闻中收集得到的真实数据集(MSN-News)上进行的 。 假设不同用户的行为日志以分散的方式存储 , 以模拟隐私保护新闻推荐模型训练的实际应用 。 使用用户上周产生的行为数据进行测试 , 剩下的行为数据用于训练 。 另外 , 由于在实际应用中并不是所有的用户都能参与模型的训练 , 所以随机选取一半的用户进行训练 , 并对所有用户进行测试 。
作者将 Fed-NewsRec 与多个已有方法进行对比 , 具体包括:(1)因子分解机(Factorization machine , FM) , 经典的推荐方法;(2)深度融合模型(Deep fusion model , DFM) , 专门的新闻推荐模型;(3)EBNR , 使用 GRU 进行用户建模;(4)DKN , 利用具有知识意识的 CNN 网络进行新闻推荐;(5)DAN , 使用 CNN 从新闻标题和实体中学习新闻表示 , 使用 LSTM 学习用户表示;(6)NAML , 多视角关注学习新闻表征;(7)NPA , 利用个性化注意力网络学习新闻和用户表征;(8)NRMS , 通过多头自注意力网络学习新闻和用户的表征;(9)FCF , 联邦协同过滤推荐方法 , 即我们第二章中介绍的方法;(10)Cen-NewsRec , 它与 Fed-NewsRec 具有相同的新闻推荐模型 , 但是它是根据集中的用户行为数据进行训练的 。
- 麒麟|荣耀新款,麒麟810+4800万超清像素,你还在犹豫什么呢?
- 智能手机市场|华为再拿第一!27%的份额领跑全行业,苹果8%排在第四名!
- 行业|现在行业内客服托管费用是怎么算的
- 零部件|马瑞利发力电动产品,全球第七大零部件供应商在转型
- 通气会|12月4~6日,2020中国信息通信大会将在成都举行
- 俄罗斯手机市场|被三星、小米击败,华为手机在俄罗斯排名跌至第三!
- 体验|闭上眼睛点外卖是什么感觉?时隔一年再次体验,进步令人欣慰
- 当初|这是我的第一部华为手机,当初花6799元买的,现在“一文不值”?
- 出海|出海日报丨短视频生产服务商小影科技完成近4亿元 C 轮融资;华为成为俄罗斯在线出售智能手机的第一品牌
- 看过明年的iPhone之后,现在下手的都哭了