『小小天看世界』隐私保护新突破:高斯差分隐私框架与深度学习结合

机器之心发布
机器之心编辑部
『小小天看世界』隐私保护新突破:高斯差分隐私框架与深度学习结合
文章图片
人工智能中的隐私问题已经公认为一个重要并且严肃的问题 。 近日 , 宾夕法尼亚大学的研究组开发了一个新的数据隐私分析框架 , 可以在多个类型的机器学习问题中有效保护个人隐私 。 这个框架现已成功和深度学习结合 , 并在多个需要保障隐私的深度学习任务中达到最高准确率 。
什么是差分隐私
在这个大数据时代 , 如何妥善获取和使用与真人相关的数据 , 渐渐成为迫切需要解决的问题 。 没有人希望自己生个病 , 上个网 , 买件衣服都会被人随意知晓 , 更别提手机里没有修过的自拍了 。 一种简单的隐私保护方法就是「匿名」:将收集到的数据中涉及个人信息的特征剔除 。 可惜这种方法并不可靠 , 曾有研究将Netflix匿名处理过的观影记录通过交叉对比IMDb数据库解匿成功 , 这直接导致了第二届Netflix数据分析大奖赛的取消 。
2006年 , 隐私算法的研究迎来了新的里程碑 。 CynthiaDwork,FrankMcSherry,KobbiNissim和AdamSmith四位科学家定义了「差分隐私」(以下缩写为DP) , 来严谨地分析隐私这个概念 。 差分隐私很快被证明是个强有效的工具 , 并被谷歌、苹果、微软、阿里巴巴等各大机构使用 。 而四位发明者于2017年获得了被誉为理论计算机科学界诺贝尔奖的Godel奖 。
要理解差分隐私 , 我们可以看看下面这个简单的假设检验:假设有两个数据集S,S"
S={小明 , 小刚 , 小美};S"={小红 , 小刚 , 小美}
我们说这两个数据集是邻近的 , 因为它们的差异仅体现在一个人上 。 我们的目的是检验我们的模型是否是基于S训练的 , 这等价于检验小明是否存在于我们的数据中 。 如果这个假设检验非常困难 , 那么想要获取小明信息的攻击者就难以得逞 。 严谨来说 , 一个随机算法M符合(epsilon,delta)-DP意味着对于任何的事件E,
从定义不难看出 , epsilon和delta越小 , 隐私性越好 。 那么 , 如何实现能保证算法的隐私性呢?
具体做法是衡量算法的中间产物(比如梯度)的敏感性 , 并根据其大小施加一个成正比的噪音 。 由于噪音的存在 , 想要窃取小明信息的攻击者便无法确定小明是否在训练集中 。 在深度神经网络中 , 每一次迭代都会牺牲一部分隐私来换取性能的提高 。 我们可以对每个批(batch)的梯度加噪音 , 从而达到混淆攻击者的目的 。
『小小天看世界』隐私保护新突破:高斯差分隐私框架与深度学习结合
文章图片
当然 , 噪音加的越大 , 隐私就越安全 , 但是随之性能也自然越差 。 在有限的隐私预算下 , 很多时候隐私算法的性能表现会不如人意 。
深度学习经常需要敏感的个人信息来训练 。 现存的差分隐私定义以及隐私模型都试图在性能和隐私中找到一个平衡 。 可惜的是 , 这些尝试仍不能很好的处理两个重要环节:subsampling和composition 。 这导致了隐私算法的性能通常远逊于非隐私算法 。
高斯差分隐私
Gaussiandifferentialprivacy(GDP)是最近被提出的一种隐私表示方法 。 它可以精确的刻画optimizer在每个epoch所消耗的隐私 。 GDP的表达简洁且是广义的(在SGD,Adam,Adagrad等多个优化器上的刻画是完全一样的) 。 GDP的分析被进一步推广到Poissonsubsampling和新的优化器上 。 新的推广得到了理论上严谨的证明 , 尤其证明了它优于此前最先进的Momentsaccountant方法 。
在《GaussianDifferentialPrivacy》一文中 , 宾夕法尼亚大学的董金硕、AaronRoth和苏炜杰创新性地定义了「f-DP」来刻画隐私 。 如果用alpha来表示第一类错误 , beta来表示第二类错误 , 对于任何一种拒绝规则(rejectionrule)phi , 都存在一个抵换函数(trade-offfunction)T:降低第一类错误会导致第二类错误增加 , 反之亦然 。 我们将两类错误的和的最小值称为最小错误和 。