『人工智能』当谈论机器学习中的公平公正时,我们该谈论些什么?( 二 )


本文重点谈论机器学习中算法的公平公正问题 , 我们选择了 ICML 2019 的三篇文章 , 分别针对机器学习领域中的图嵌入问题、回归问题 , 以及自然语言处理领域中的语言模型问题展开了讨论 。
1、Compositional Fairness Constraints for Graph Embeddings
『人工智能』当谈论机器学习中的公平公正时,我们该谈论些什么?
本文插图
https://arxiv.org/pdf/1905.10674v1.pdf
本文是 Facebook 发表在 ICML 2019 中的一篇文章 , 针对现有的图嵌入(Graph Embedding)算法无法处理公平约束的问题 , 例如确保所学习的表示与某些属性 (如年龄或性别) 不相关 , 通过引入一个对抗框架来对图嵌入实施公平性约束 。 本文的研究内容属于 (社会) 图嵌入和算法公平性研究的交叉领域 。
学习图中节点的低维嵌入是目前最先进的应用于预测和推荐系统的方法 。 在实际应用中 , 特别是涉及到社交图的应用中 , 需要有效控制学习到的节点嵌入中所包含的信息 。 以推荐系统为例 , 人们希望能够保证推荐是公平的而不依赖于用户的种族或性别 , 此外 , 也希望能够在不暴露自身属性的前提下学习节点嵌入表示以保证隐私 。 本文的工作聚焦于对社会图(Social Graph)加入不变性约束的可行性 , 即生成对特定敏感信息 (例如 , 年龄或性别) 不变的图嵌入 。 首先训练得到一组「过滤器」 , 以防止对抗式的甄别者将敏感信息与过滤后的嵌入信息进行分类 。 然后 , 将过滤器以不同的方式组合在一起 , 灵活生成对任何敏感属性子集不变的嵌入 。 方法的整体结构见图 2 。
『人工智能』当谈论机器学习中的公平公正时,我们该谈论些什么?
本文插图
图 2. 方法整体结构
早期关于在社会类应用中增加强制不变性约束 (或「公平性」) 的工作通常只涉及一个敏感属性的情况 , 但是实际应用中通常社会图嵌入会涉及到多个属性 。 在极端情况下 , 可能希望不只是节点 , 甚至是图中的边(edge)也具备公平性 , 例如 , 一个社交网络平台上的用户可能希望该平台的推荐系统忽略他们与某个其他用户是朋友 , 或者他们参与了某个特定内容的事实 。 本文提出的方法通过学习得到一组对抗性过滤器 , 从而删除关于特定敏感属性的信息 。
首先 , 考虑嵌入一个异质或多关系 (社会) 图 G = (V, e) , G 包含有向边三元组 e= < u,r, v > , 其中 u, v∈V 为节点 , r∈R 表示节点间的关系 。 假定每个节点都属于一个特定的类别 , 节点间的关系受到节点类型的约束 。 基于图的关系预测任务描述如下:ξ_train 表示训练边集合 , 定义负边集合如下:
『人工智能』当谈论机器学习中的公平公正时,我们该谈论些什么?
本文插图
负边集合表示未在真实图 G 中出现的边的集合 。 给定ξ_train , 目标是学习得到评分函数 s 以满足:
『人工智能』当谈论机器学习中的公平公正时,我们该谈论些什么?
本文插图
换句话说 , 学习得到的评分函数在理想情况下应该对任何真边缘评分高于任何假边缘 。
图嵌入(Graph Embedding)的任务目标是通过学习一个映射函数 ENC 来完成关系预测任务 , 即将节点 v 映射为节点嵌入 z_v=ENC(v) 。 此时评分函数为:
『人工智能』当谈论机器学习中的公平公正时,我们该谈论些什么?
本文插图
评分函数的含义为:给定两个节点嵌入 z_u ∈ R.^d 和 z_v∈ R.^d , 以及它们之间的关系 r ∈ R , 评分函数 s 表示边 e= 在图中存在的概率 ( s∈ R) 。 通常来讲 , 基于图嵌入模型的方法主要是认为两个节点嵌入间的距离能够表征两个节点间存在边的可能性 。 本文利用噪声对比估计等破坏分布的对比学习方法来优化评分函数 , 目的是最大化真实边(正样本)与虚假边(负样本)对比的概率 。 其中 , 边(e_batch ? e_train)的损失函数计算为: