参与者|佐治亚理工学院发文:不要迷信可解释性,小心被误导


参与者|佐治亚理工学院发文:不要迷信可解释性,小心被误导
文章插图
编译 | 王晔

校对 | 琰琰
可解释性对人工智能发展来说至关重要,但在可解释系统的可信度方面,理解其可能带来的负面效应亦同等重要。
近日,佐治亚理工学院研究团队发表最新研究,重点讨论了可解释人工智能系统(XAI)中一种重要却未被阐明的负面效应。

参与者|佐治亚理工学院发文:不要迷信可解释性,小心被误导
文章插图
论文地址:https://arxiv.org/pdf/2109.12480.pdf
在这篇论文中,作者提出“可解释性陷阱(EPs)”的概念,指出即使设计者最初没有操控用户的意图,模型的可解释性也可能带来意料之外的负面影响,它不同于具有刻意欺骗性质的黑暗模式(DPs),但又与之相关。本文通过一项案例研究具体阐述了Eps概念,并证实解释的负面影响不可避免,最后作者进一步从研究、设计和组织三个层面提出了具体的应对策略。

1

可解释性的“两面性”
发展可解释、可信的新一代人工智能越来越重要,因为人工智能已被广泛应用于医疗保健、金融、刑事司法等高风险决策领域。为了提高人工智能的安全性,我们需要打开AI内部运作的黑匣子,为用户提供可理解的解释。
目前关于可解释AI(XAI)的研究已经取得了令人称赞的进展,但最新研究发现,这些解释所带来的的影响不一定是积极的,也可能在下游任务中产生消极影响。例如设模型计者故意制造不合理的解释,让人们对人工智能系统产生信任,从而隐瞒其可能带来的风险。更重要的是,尽管模型设计的最初意图是好的,这种负面影响似乎也不可避免。
在这种情况下,我们要如何区分有意和无意的负面解释?又如何将有意的负面效应概念化?

参与者|佐治亚理工学院发文:不要迷信可解释性,小心被误导
文章插图
作者引入“可解释性陷阱(Explainability pitfalls ,EPs)”的概念,指出人工智能解释可能会误导用户在不知情、无防备的情况下做出符合第三方利益的决策。用户对人工智能的信任,能力的高估,以及对某些解释的过度依赖,是他们在无意识中被“可解释性”操控的主要原因。
EPs和DPs之间的最大区别在于“意图”不同——DPs存在故意欺骗的性质,不考虑到用户的利益。但EPs通过故意设置“陷阱(pitfalls)”也可以变成黑暗模式。
EPs的概念并不是纯粹的理论推导后的结果,而是在大量实际工作和经验的基础上提出的。这项工作展示了尽管没有欺骗的意图,但在人工智能解释的确会出现意料之外的负面影响.
本文不是一篇关于EPs的全面论述,而是在现有概念和实践上迈出了基础性的一步。作者表示,提出可解释性陷阱的概念,是为了让人们认识到未曾发掘的知识盲点(围绕人工智能解释的负面影响),并以此扩大XAI系统的设计空间。

2

多智能的“解释陷阱”
在这项研究中,作者调查了两个不同的群体——有人工智能背景和没有人工智能背景的人,他们如何看待不同类型的人工智能解释。以下是用户对AI生成的三种解释的看法:
(1)有正当理由的自然语言
(2)没有正当理由的自然语言
(3)为智能体行为提供无语境下的数字
在这项研究中,参与者观看了三个智能体在连续决策环境中的导航视频,并提供了定性和定量的感知信息——在一个满是滚动的巨石和流动的熔岩的环境中,为被困的探险者取回必须供应的食物。
智能体通过简单地输出当前状态的数字Q值执行 "思考"过程(如图1)。Q值代表智能体对每个行动的信任程度(不包含 "为什么"可信),参与者事前没有被告知这些Q值的意义,所以他们不知道哪些数值对应哪些行动。

参与者|佐治亚理工学院发文:不要迷信可解释性,小心被误导
文章插图
图1:显示了智能体在任务环境中导航