『小小天看世界』隐私保护新突破:高斯差分隐私框架与深度学习结合( 二 )


『小小天看世界』隐私保护新突破:高斯差分隐私框架与深度学习结合
文章图片
一个随机算法M在S和S』上的抵换函数T如果始终大于函数f , 那么它就满足f-DP 。
对比于传统的eps,delta-DP , f-DP使用的是一个函数f , 这也使得其刻画更为自由和准确 。
『小小天看世界』隐私保护新突破:高斯差分隐私框架与深度学习结合
文章图片
作为f-DP的一个重要案例 , 作者随后介绍了高斯差分隐私(GDP)来区分两个高斯分布 。 根据中心极限定理(CLT) , 任何基于假设检验的隐私定义在极限情况下都会收敛于GDP 。 事实上 , 相对于谷歌在2016年提出的 , 适用于计算epsilon,delta-DP的MomentsAccountant(MA)方法 , 本文提出的CLT方法可以更简易地计算GDP , 而且非常准确 。 值得注意的是 , 该文章最近被国际顶级统计学杂志JournaloftheRoyalStatisticalSociety:SeriesB接收为Discussionpaper , 这是数据科学界对该工作的一种认可 。
『小小天看世界』隐私保护新突破:高斯差分隐私框架与深度学习结合
文章图片
GDP与深度学习的结合
GDP的好处还不止于此 。 在最新工作《DeepLearningwithGaussianDifferentialPrivacy》中 , 卜至祺、董金硕 , 龙琦和苏炜杰等作者指出GDP和eps,delta-DP可以通过他们设计的Dual函数互相转换 。 也就是说 , 研究者可以在f-DP的框架下分析算法再转成传统的dp , 或者从传统领域中拿来已有的理论和技巧 , 不必二次开发 。 这项技术现在已经在TensorFlow中实现 。
『小小天看世界』隐私保护新突破:高斯差分隐私框架与深度学习结合
文章图片
论文地址:https://arxiv.org/abs/1911.11607
项目实现:https://github.com/tensorflow/privacy/blob/master/tensorflow_privacy/privacy/analysis/gdp_accountant.py
在实验中 , 作者们将GDP和深度学习结合 , 并在多种类型的任务上取得了不俗的成绩 。 此前谷歌也曾将epsDP和深度学习结合 , 虽然在MNIST图像识别上取得了97%的正确率(无隐私算法可达到99%以上) , 在CIFAR10上却止步于73%的正确率(无隐私算法可达86%) 。 而利用GDP的精确刻画 , 作者们在MNIST上取得了98%的准确率 。 不仅如此 , MA计算的结果表示MNIST的96.6%正确率对应的是9.4%的最小错误和 , 意味着攻击者有超过九成的概率猜对一张图片是否在数据集中 。 而CLT的计算表明epsDP太过于保守:同样的模型同样的表现 , 实际对应的最小错误和其实是77.6% , 也就是说隐私并没有损失很多 。
『小小天看世界』隐私保护新突破:高斯差分隐私框架与深度学习结合
文章图片
【『小小天看世界』隐私保护新突破:高斯差分隐私框架与深度学习结合】为了全面探讨GDP的优越性 , 作者在GDP框架下分析了神经网络的表现 。 作者实现了SGD和Adam的隐私版本 , 并通过让神经网络不断迭代直到GDP达到了mu=2 。 在IMDb(自然语言处理) , MovieLens1M(推荐系统)和AdultIncome(非图像型分类任务)上 , GDP模型都取得了非常接近无隐私模型的性能 。 例如在AdultIncome数据上 , 隐私神经网络和无隐私神经网络表现几乎一样好 , 意味着隐私也许并不需要以很大的性能牺牲为代价 。 更进一步的 , 作者强调文中的神经网络都相对简单(不超过三层) , 如果使用更复杂更高级的神经网络可以在同样的隐私保证下更显著地提升性能 。 而另一方面 , 使用高效的优化算法(减少迭代次数 , 即隐私的损失次数)也能让性能变得更好 。
『小小天看世界』隐私保护新突破:高斯差分隐私框架与深度学习结合
文章图片