文章插图
整理丨AI科技评论
2月23日,清华大学计算机系崔鹏副教授与斯坦福大学Susan Athey(美国科学院院士,因果领域国际权威)合作,在全球顶级期刊Nature Machine Intelligence(影响因子IF=15.51,2020)上发表题为“Stable Learning Establishes Some Common Ground Between Causal Inference and Machine Learning”(稳定学习:建立因果推理和机器学习的共识)的观点论文。深入探讨和总结了因果推理在机器学习和人工智能领域取得的关注,并对“稳定学习”提出了系统性分析和展望。文章认为,机器学习和因果推理之间应该形成共识,而稳定学习正在向实现这一目标的方向迈进。人工智能的目标是让机器像人类一样“思考”和“决策”,机器学习是实现这一愿景的重要方法。那么,用机器学习的方法来解决现实中的决策问题是否可行?斯坦福大学的Susan Athey在一次演讲中用身边的例子进行了举例:斯坦福大学的经济学系女教授的平均水平似乎比男教授更高,老是发不出文章的教授中女教授很少,但这很有可能是因为数据自身的局限性,如果通过机器学习的方法编写程序按性别来筛选候选人,并用斯坦福的训练数据去推而广之,很有可能在实际中产生歧视。利用机器学习实现对一项政策效果进行更精准的推断,这正是诺贝尔奖级别的研究成果——Susan Athey与她的丈夫Guido Imbens近年来关注的研究方向正是利用机器学习实现对政策效果更精准的推断,并在融合机器学习与政策的处置效应方面合作撰写了多篇文章。而Guido Imbens2021年也因此与另两位学者分享了当年的诺贝尔经济学奖,评奖委员会认为,他们在劳动经济学和从自然实验中分析因果推理方面做出了突出贡献,掀起了经济学研究的“可信革命”。所谓“因果推理”是计量经济学中近年来得到重视的一个重要概念。传统计量经济学一般集中在统计推理方面,重视变量之间的相关性而忽视了当中的因果关系;因果推断则是将相关性与因果性进行独立分析,科学地识别变量间的因果关系。在机器学习领域也存在类似的问题,目前大多数机器学习模型注重各因素之间的相关性分析,由此衍生的“泛化性”和“可信性”正是当前机器学习需要面对的两大问题。在大数据时代,人们认为可以利用更大的机器或者更多数据解决问题,但很多时候问题的答案并不在数据中。这也正是机器学习难以在实际场景中应用于决策的原因:机器学习存在缺乏可解释性和未知环境下的稳定性的问题,既难以预测结构变化之后的结果,也不能对结果进行合理的解释。
文章插图
(人工智能的两大问题:缺乏可解释性和稳定性,来自崔鹏的报告ppt)Susan Athey在2017年为《Science》撰写的综述性文章《Beyond Prediction:Using big data for policyproblems》中总结,在做出预测和做出决策之间存在许多差距,为了优化数据驱动的决策,需要理解基本假设。而这也正是解决机器学习两大问题的有效途径。
文章插图
(Susan 2017年为《Science》撰写的综述性文章)在机器学习过程中带来的关联统计被认为是导致目前的机器学习缺乏可解释性和稳定性的重要原因。现有的大部分机器学习方法都需要IID假设,即训练数据和测试数据应当是独立同分布的。然而在现实中这一假设很难满足。以我们熟悉的图片“猫狗检测”为例,如果训练数据的大部分图片中狗位于草地上,模型对“水中的狗”这一极端样例的检测可能会完全失效,甚至可能出现“指猫为狗”的错误,把在草地上的猫错认为狗。
文章插图
当下的人工智能技术往往不能很好地泛化到未知的环境,是因为现有大部分机器学习模型主要是关联驱动的,这些模型通常只做到了知其“然”(即关联性)而不知其“所以然”(即因果性)。将因果推理的思想推广到机器学习领域,去除关联中的虚假关联,使用因果关联指导模型学习,是提升模型在未知环境下稳定性根本路径之一。