『人工智能』当谈论机器学习中的公平公正时,我们该谈论些什么?( 六 )


小结
基于图节点嵌入的图表示学习是大规模推荐系统中广泛应用的一种重要方法 , 本文重点讨论的是基于图嵌入算法的去偏处理 。 该方法目前还存在很多局限性 , 一是 , 本文使用的对抗损失函数仅停留在理论分析层面 , 近期的研究中陆续提出了其他损失函数 , 包括非对抗的损失函数 , 这些损失函数是否更适合于本文所讨论的问题 , 还缺少进一步的分析;二是 , 本文讨论的是针对属性层面集合的公平性问题 , 对于一些子集合(由多个属性组成的集合)层面的公平性问题 , 并未涉及;三是 , 本文是在理想实验条件下对不同属性进行的组合 , 这种理想条件假定的是不同属性具有公平的组合机会 。 然而在实际应用场景中 , 用户本身就是有偏见的 , 例如与男性用户相比 , 女性用户搜索时会着重考虑搜索结果是否是性别公平的 , 这种用户接口的偏见是否会对本文提出的框架有所影响 , 本文并未做讨论 。
2、Fair Regression: Quantitative Definitions and Reduction-Based Algorithms
『人工智能』当谈论机器学习中的公平公正时,我们该谈论些什么?
本文插图
https://arxiv.org/pdf/1905.12843.pdf
随着机器学习涉及到我们生活中越来越重要的方面 , 包括教育、医疗、刑事司法和贷款等 , 越来越多的人开始关注如何确保算法公平地对待不同的亚群体用户 。 这一问题 , 在「分类」这一机器学习应用领域中的研究和讨论最为广泛 , 近年来已经提出了一些衡量公平度的定量指标 , 由此产生了一系列旨在满足这些要求的算法 。 然而 , 这些算法主要适用于离线以及小的决策问题 , 例如招聘、学校录取、贷款接收/拒绝决策问题 。 在实际问题中 , 更多的分类算法是要求评估一个连续的问题 , 比如工作是否成功、大学一年级的平均绩点成绩 , 以及放贷的违约风险 。 因此 , 已有的关于公平分类的算法适用范围相当有限 。
本文的研究目的是提出一种与原有算法相比适用范围更广泛的、回归任务和模型类的算法 。 本文将分类问题考虑为一个实值目标预测问题(Predicting a Real-Valued Target) , 同时使用一个任意 Lipschitz 连续损失函数来度量预测质量 。 每个样本中都包含有一个受保护的属性 , 例如种族、性别 , 算法的目标是保证这些属性的公平性 。 本文主要研究两类公平问题:统计奇偶性 (Statistical Parity , SP) , 预测结果在统计上依赖于受保护的属性;有界群体损失 (Bounded Group Loss , BGL) , 任何受保护群体的预测误差都低于某个预先指定的水平 。 本文将公平回归(Fair Regression)定义为在这些约束条件下最小化实值预测的预期损失任务 。 针对两类公平问题 , 本文提出了不同的算法:对于 BGL , 本文提出在每个子种群中 , 受损失约束的损失最小化问题可以通过算法简化为一个加权损失最小化问题 。 对于 SP , 如果我们将实值预测空间离散化 , 那么在一定的约束条件下 , 公平回归的任务可以简化为代价敏感的分类问题 。
假定我们要解决的是一般的数据预测问题 , 模型输出值是实数 。 我们首先定义损失函数 。 假定训练样本为 (X,A,Y) , 其中 , X 为特征向量 , A 为受保护的属性(有限值) , Y 为标记 , X 为连续高维向量 。 A 可属于 X 也可不属于 , Y 可为连续值也可为离散值 。 给定一个预测函数 f:X→[0,1] , 算法目标是给定 X , 找到满足公平性原则(SP/BGL)的能够准确预测 Y 的预测函数 f 。 与之前算法讨论的问题不同 , Y 和 f(X)都为实值函数 。 f(X) 预测 Y 的准确度由损失函数 l(Y,f(X)) 衡量 。 一般性地 , 损失函数要求满足 l1 范数的 1-Lipschitz 约束:
『人工智能』当谈论机器学习中的公平公正时,我们该谈论些什么?
本文插图