图灵联邦动了数据科学家的奶酪？AutoML为何缺乏应用

本文插图
近日，波士顿咨询公司的GAMMA团队在《Medium》发表了一篇关于自动机器学习的文章。文中列举了自动机器学习（AutoML）的诸多好处，并表示AutoML并不会取代数据科学家，反而是强大的业务工具。
原文如下：
当人工智能首次被引入商业流程时，它具有革命性，使企业能够利用大量积累的数据来改善计划和决策。然而，很快我们就发现，大规模地将人工智能集成到业务流程中需要大量的资源。
首先，企业必须招募著名的数据科学家来创建人工智能背后的数据模型。
其次，建立和训练加速数据分析过程的机器学习模型的过程需要花费大量的时间和精力。
这也推动了自动机器学习(AutoML)的发展，这种技术本质上将机器学习的核心方面（包括模型选择、训练和评估）自动化。
实际上， AutoML寻求用机器(处理)时间转换为人类时间，这种自动化带来了许多好处。
首先，它降低了劳动力成本。它还可以减少人为错误，自动执行重复性任务，并能够开发更有效的模型。
通过减少创建ML模型所需的技术专业知识， AutoML还降低了进入准入门槛，使业务分析人员可以利用高级建模技术，而无需数据科学家的帮助。
AutoML将数据科学家从机器学习过程中的重复任务中解放出来，使这些成本昂贵的科学家们去探索更高价值的项目。
新的解决方案总是会引发新的问题
作为数据科学家，我们最初很少想到AutoML 。是的，这些技术和工具可以产生相当有效的模型。但这基本上就是他们所能做的一切——当然，他们并非没有缺点。
在早期阶段， AutoML工具远不及数据科学家使用现有工具实施的工具先进得多，并且通常没有那么复杂。
AutoML的黑匣子性质使接受这些障碍变得更加复杂，这使训练有素的模型难以解释和有意义，而且很难在非学术环境中立即找到它的用途。
此外，自动化工具套件的范围要窄得多，只解决了问题的一部分，几乎没有增值。
AutoML自此走过了漫长的道路。事实上，它在大多数流行的机器学习库、开源工具和主要的云计算平台中无处不在。
商业上可用的自动化工具使得功能工程和复杂机器学习模型的开发变得非常简单，只需点击几下按钮，就能让商业用户将这些模型部署到生产状态。
【图灵联邦动了数据科学家的奶酪？AutoML为何缺乏应用】随着这些更强大的自动化工具的激增，新的问题出现了，例如:
我们应该使用AutoML吗?
如果是这样，什么时候应该或不应该使用它们?
我们能期望结果比手工模型更好吗?
这些工具能否更进步，完全取代数据科学家?
盲目地优化指标可能会增加偏见
当我们评估AutoML时，我们必须认识到，性能并不是全部，偏见在AI中可以发挥重要作用。将人类数据科学家排除在这个过程之外并不一定会导致无偏见的结果。
例如，电脑不知道只使用白人的脸来训练人脸识别算法有什么问题，也不知道这样做的结果是当手机面对非白人用户的脸时可能无法解锁。
因此，通过检查和校正某个种族、性别或阶级比另一个种族、性别或者阶层更有优势的模型来减轻偏见是数据科学家的责任
事实上，在任何行业，存在偏见都可能对企业产生负面影响。
最近在《科学》杂志上发表了一个关于医疗领域存在偏见的例子。我们讨论的算法是为了观察哪些病人会从高风险的护理管理项目中受益。报告称，这是一种用于确定美国2亿多人护理水平的常规算法
这篇文章的作者发现，该算法错误地判断出需要此类护理计划的黑人比白人要少——尽管数据集中的黑人患者比白人患者的慢性疾病多26.3% 。