AI有多少种偏见类型？如何让人工智能摆脱偏见？调整

我们都曾经看过电影里机器人控制了世界，而人类被毁灭的场景。好在这些电影只是娱乐，现实生活中，这些牵强的场景是不会发生的。然而，一个更应该注意的实际问题是：算法的偏见

(algorithmic bias)

。

所谓的“算法偏见”是指在看似没有恶意的程序设计中，却带着设计者或开发人员的偏见，或者所采用的数据是带有偏见的。结果当然带来了各种问题，例如，

Google

搜寻被曲解、合格的考生无法进入医学院就学、聊天机器人在推特

(Twitter)

上散布种族主义和性别歧视信息等。

网力量太强大，微软聊天机器人

Tay

上线

天就被教成种族歧视，微软紧急让她“消音”

…

算法偏见造成最棘手的问题之一是，从事程序设计的工程师，即便本身没有种族、性别、年龄歧视等倾向，也有可能造成偏见。人工智能

(AI)

本质上就是为了自行学习而设计，有时它的确会出错。当然，我们可以在事后进行调整，但最好的解决办法是，一开始就防止它发生。那么，如何才能让人工智能没有偏见呢？

讽刺的是，人工智能中最激动人心的可能性之一就是：一个没有人类偏见的世界。例如，当涉及员工招募时，通过算法可以让男性和女性在申请同一份工作时获得平等的待遇，或者在警务工作中避免种族歧视的发生。

不管人们是否意识到，人类创造的机器，确实反映了人们如何看待这个世界，因此，也会有类似的刻板印象和世界观。由于人工智能越来越深入于生活中，我们必须重视这个问题。

人工智能面临的另外一个挑战是，偏见并不是只有单一形式，而是存在各种类型的，其中包括互动偏见、潜意识偏见、选择偏见、数据导向的偏见以及确认偏见。

各种

偏见类型

“互动偏见”

是指用户因为自己与算法的互动方式，而使算法产生的偏见。当机器被设定向周围环境学习时，它们不能决定要保留或者丢弃哪些数据、什么是对的或错的。相反地，它们只能使用提供给它们的数据

——

不论是好的、坏的，还是丑的，都只能依据此基础做出判断。前面提到的微软

(Microsoft)

聊天机器人

Tay

便是这类偏见的一个例子，它因为受到一个网络聊天社群的影响，开始变得有种族歧视了。

“潜意识偏见”

是指算法将错误的观念，与种族和性别等因素连结起来。例如，当搜寻一位医生的照片时，人工智能会先呈现男性医生的图片，而非女性医生，反之亦然，当搜寻护士的时候，也会发生类似的情况。

“选择偏见”

是指因数据而影响的算法，导致过于放大某一族群或群组，从而使该算法对其有利，而代价是牺牲其他群体。以员工招募为例，如果人工智能被训练成只辨识男性的履历，那么女性求职者在申请过程中，就很难成功。

“数据导向的偏见”

是指用来训练算法的原始数据已经存在偏见了。机器就像孩子一样：他们不会质疑所接收到的数据，只是单纯地寻找其中的模式。如果数据一开始就被扭曲，那么其输出的结果，也将会反映出这一点。

最后一种是

“确认偏见”

，这和数据导向的偏见类似，它会偏向那些先入为主的信息，这类偏见影响人们如何收集信息，以及如何解读信息。例如，如果你觉得在

月份出生的人比其他月份出生的人更有创意，那么就会倾向于搜寻强化这种想法的数据。

当我们知道有这么多偏见可能渗入人工智能系统的例时，似乎让人十分忧心。但重要的是认清事实，这个世界本身就是有偏见的，因此，在某些情况下，我们对于人工智能所提供的结果并不会感到惊讶。然而，不应该如此，我们需要一个针对人工智能算法和系统进行测试与验证的流程，以便在开发期间和布局之前及早发现偏见。

我们可以这样来消除偏见

……

算法和人类不同的是，它不会说谎，因此，假使结果是有偏见的，那一定是有原因的，也就是和算法得到的数据有关。人类可以说谎解释不聘雇某人的原因，但人工智能可不会这样。而采用算法，我们就可能知道什么时候会出现偏见，并对其进行调整，以便将来能克服这些问题。

人工智能会学习，也会犯错。通常只有在实际使用算法后，才能发现所有内在的偏见，因为这些偏见被放大了。与其把算法看成是一种威胁，不如视其为一个能解决所有偏见问题的好机会，并在必要的时候加以纠正。

我们可以通过开发系统，来发现存在偏见的决策，并及时采取措施。与人类相比，人工智能特别适合采用贝叶斯

(Bayesian)

方法，来确定某种假设的机率，并摒除所有可能的人类偏见。这很复杂，但是可行的，尤其是考虑到人工智能的重要性，而且在未来几年之间，它只会越来越重要，这是责无旁贷的事情。

随着人工智能系统的发展，重要的是必须了解它的运作方式，才能通过设计让它具有意识，以及避免将来可能出现的偏见问题。别忘了，尽管人工智能发展非常迅速，但仍处于起步阶段，还有很多需要学习和改进的地方。这方面的调整将会持续一段时间，与此同时，人工智能会变得更加聪明，未来将会有越来越多的方法可以克服偏见等问题。

对于科技产业而言，不断地质疑机器的运作方法及原因，是相当重要的，大多数的人工智能都像是黑箱作业，决策过程都是隐蔽的，但人工智能的公开及透明度，则是建立信任和避免误解的关键。

现阶段有很多研究都协助辨识偏见的产生，如

Fraunhofer Heinrich Hertz

研究所的研究，他们着重于辨别不同类型的偏见，例如前面所提到的偏见，以及更“低层级”的偏见，还有一些在人工智能训练和发展过程中可能出现的问题。

另一方面，需要思考的是无监督训练

(unsupervised training)

，现在，大多数的人工智能模型都是透过受监督的训练发展而成的，也就是只收集了人类已标注的数据。而无监督的训练使用不具任何卷标的数据，算法必须自行分类、辨识和汇整数据。这种方法通常比受监督的学习速度更慢好几个数量级，但这种方法相对上限制了人为介入，因此，能够消除任何有意识或者无意识的人为偏见，进而避免对数据产生影响。

在基础架构方面也有很多事情项可以改进，在开发新产品、网站或者功能时，科技业者需要各方面的人才，多元化会为算法提供各式各样的数据，但也会在无意间让这些数据带有偏见。如果有人去分析输出结果的话，那么发现偏见的可能性将相当高。

此外，算法稽核还有其他的作用。

2016

年，美国卡内基梅隆大学

(Carnegie Mellon University)

的一个研究小组在网络求职广告中发现了算法偏见，他们列出了在网络、

Google

广告上找工作的人员名单后显示，男性在高收入工作中所占比例是女性的近六倍。该研究小组的结论是，如果先进行内部算法稽核，将有助于减少这类偏见。

简单来说，机器的偏见就是人的偏见。人工智能的偏见有很多种，但实际上，它的来源只有一个：人类。

关键就在于科技公司、工程师和开发人员等，应该采取有效的措施，以避免在无意中产生带有偏见的算法，通过算法稽核并随时保持公开透明，我们就有信心能让人工智能算法摆脱偏见。

更多机器人、无人

机/

车
、AI 技术资料(点左下角阅读原文）