神经现实我们该如何信任它们?,AI也有偏见

1970年 , 爱德华·肖特利夫(EdwardH.Shortliffe)在斯坦福大学的实验室里开始着手编写一个Lisp程序 。 这个名为MYCIN的系统通过一系列的是非问题 , 帮助医生判断病人是否患有遗传性血液疾病 , 并根据病人体重建议抗生素用量 。 作为历史上最早的专家系统之一 , MYCIN的正确率仅为65% , 相较血液科医师80%的正确率相去甚远 , 而且由于程序过于庞大 , 最终也没有投入使用 。
2019年 , 150名受试者来到UCLA的VCLA中心 , 观看Baxter机器人打开附有安全锁的药瓶 。 随后 , Baxter向其中一些受试者解释了自己是如何打开药瓶的 , 剩下的人没有得到任何解释 。 最后 , 实验者向所有人提问:你在多大程度上相信这个机器人会开药瓶?
在过去的半个世纪里 , 机器的计算与储存能力突飞猛进 , 我们可以轻松地在计算机上运行像MYCIN一样相对简单的系统 , 甚至可以训练深度神经网络、支持向量机(SupportVectorMachine)等更加复杂的模型达到接近专业医生的诊断水平 , 或是让机器人完成相对复杂的精细动作 。
但是 , AI系统的性能提升也带来了新的问题:如果这些系统进入我们的生活 , 你会信任它们作出的决定吗?
为何要解释AI?
AI如日中天 , 我们为什么要停下来思考怎么解释它?
2016年5月 , ProPublica发布了一篇名为《机器偏见》的调查报告 , 聚焦一个名为COMPAS的AI系统 。 COMPAS被广泛应用于美国司法量刑 。 它基于已有的犯罪记录 , 尝试预测被告被再次逮捕的概率 , 得出一个1到10分之间的分数——分数越高 , 它建议的量刑越重 , 以期更有效地惩治潜在的再犯 。
ProPublica分析了18000多人的COMPAS分数和犯罪记录 , 发现黑人与白人的分数分布明显不同——在犯罪历史、再逮捕记录、年龄、性别都相同的条件下 , 黑人被告得到更高COMPAS分数的概率高于白人被告45% 。
另外 , 有48%在两年内被再次逮捕的白人被告的COMPAS分数被低估 , 几乎是黑人被告的两倍 。 因为数据来自具有结构性不公的环境(既有司法系统倾向于区别对待不同人种) , COMPAS的(草率)决定也受此影响 。
然而 , 由于COMPAS是一个黑箱系统 , 法官只能看到分数 , 对内部的决策机制一无所知 , 导致他们无法有效评估系统的建议 。 另一篇调查报告更是指出 , COMPAS的准确率相当于几乎没有刑事司法专业知识的人 。
无独有偶 , 2015年 , 有用户发现谷歌的图像识别系统将自己的黑人朋友标记为“大猩猩” , 在推特上引起轩然大波 。 直到2018年 , 谷歌仍然没有完全修复这一漏洞 , 只是将灵长类的标签从系统中移除 , 并称“图像识别技术还不成熟” 。
同样是2015年 , 纽约西奈山医院用70万病人的数据训练了一个名为“深度病人”的深度神经网络 , 用以辅助医疗诊断 。 “深度病人”对精神分裂症的预测出乎意料地准确 , 但没有医生知道为什么 , 自然也无法应用于自己的临床诊断;当它被用于分析医院以外的X光片时 , 系统正确率莫名出现了大幅下降 。
“数据不会说谎 。 ”但这绝不意味着我们不需要仔细审视它们 , 或是给予基于数据之上的AI系统无条件的信任 。 肖特利夫的MYCIN系统本质上是一个决策树 , 属于“透明”的模型——我们可以画出从数据输入开始完整的决策过程 , 从而评估MYCIN的决定 。 深度神经网络的性能远远优于决策树 , 但它是一个“黑箱”——我们几乎不可能确切地知道它在算什么 。 性能与可解释性似乎此消彼长 。
神经现实我们该如何信任它们?,AI也有偏见
文章图片
对一位只追求正确率和性能的算法工程师来说 , 黑箱AI未必不受待见:一个能够准确预测95%的事件的黑箱系统 , 肯定比另一个正确率只有65%、更透明的系统好 。 可是 , 当工程师需要调整系统内部“零件”的时候(比如修复谷歌图像识别系统) , 黑箱会让这项任务无比艰难:到底是哪一步出错了?是用于训练的数据有问题 , 还是模型本身的性能不足 , 或是损失函数(lossfunction)有待改进?置身黑箱之外的工程师很难一针见血地指出病灶 。