AI正在与复制危机搏斗

ITDaily & AI 中国
每日最新 IT 圈 AI 圈新鲜事吐槽 给你想看的
AI正在与复制危机搏斗文章插图
科技巨头主导研究 , 但真正的突破和产品展示之间的界限可能是模糊的 。 一些科学家已经受够了 。
上个月 , 《自然》杂志发表了31位科学家写的一篇针对谷歌健康公司今年早些时候出现在该杂志上的一项研究的严厉回应 。 谷歌当时描述了对一种人工智能的成功试验 , 这种人工智能可以在医学图像中寻找乳腺癌的迹象 。 但根据其批评者的说法 , 谷歌团队提供的关于其代码和测试方式的信息太少 , 以至于这项研究只相当于推广专有技术 。
"我们不能再忍受了 , "回应的主要作者Benjamin Haibe-Kains说 , 他在多伦多大学研究计算基因组学 。 "这不是关于这项研究的特别之处--这是我们多年来一直目睹的趋势 , 已经开始真正困扰我们 。 "
Haibe-Kains和他的同事是越来越多的科学家之一 , 他们对人工智能研究缺乏透明度的看法进行了反击 。 "当我们看到谷歌的那篇论文时 , 我们意识到这是一个非常高调的期刊发表一项非常令人兴奋的研究的又一个例子 , 但它与科学无关 , "他说 。 "这更像是一个酷炫技术的广告 。 我们真的不能用它做任何事情 。 "
科学是建立在信任的基石上的 , 这通常包括分享关于如何进行研究的足够细节 , 使其他人能够复制它 , 为自己验证结果 。 这就是科学如何自我修正 , 剔除不成立的结果 。 复制还可以让其他人在这些结果的基础上 , 帮助推动该领域的发展 。 不能被复制的科学就会被淘汰 。
至少 , 这是个想法 。 在实践中 , 很少有研究可以完全复制 , 因为大多数研究人员更感兴趣的是产生新的结果 , 而不是复制旧的结果 。 但在生物学和物理学等领域--以及计算机科学整体上--研究人员通常会提供重演实验所需的信息 , 即使这些重演是罕见的 。
雄心勃勃的菜鸟AI感受到了热度 , 有几个原因 。 首先 , 它是一个新来者 。 它只是在过去十年才真正成为一门实验科学 , Facebook人工智能研究和麦吉尔大学的计算机科学家Joelle Pineau说 , 他是该投诉的共同作者 。 "它过去是理论性的 , 但我们越来越多地在运行实验 , "她说 。 "而我们对合理方法论的投入正在落后于我们实验的雄心 。 "
这个问题并不是简单的学术问题 。 由于缺乏透明度 , 新的人工智能模型和技术无法得到正确的稳健性、偏差和安全性评估 。 AI迅速从研究实验室走向现实世界的应用 , 对人们的生活产生直接影响 。 但是 , 在实验室中运行良好的机器学习模型可能会在野外失败--带来潜在的危险后果 。 由不同的研究人员在不同的环境中进行复制 , 会更早地暴露出问题 , 使人工智能对每个人都更强大 。
人工智能已经受到了黑箱问题的困扰:可能无法准确地说出机器学习模型如何或为什么会产生这样的结果 。 研究缺乏透明度会让事情变得更糟 。 大型模型需要尽可能多的人盯着它们 , 需要更多的人测试它们 , 并弄清楚是什么让它们打勾 。 这就是我们如何让医疗领域的人工智能更安全 , 让警务领域的人工智能更公平 , 让聊天机器人不那么可恶 。
阻止AI复制如期发生的是缺乏对三样东西的访问:代码、数据和硬件 。 根据投资人Nathan Benaich和Ian Hogarth对该领域的年度分析--《2020年人工智能现状报告》 , 只有15%的人工智能研究会分享他们的代码 。 行业研究人员比那些隶属于大学的研究人员犯规更大 。 报告特别指出 , OpenAI和DeepMind将代码保密 。
还有就是在人工智能的两大支柱--数据和硬件方面 , 有钱人和没钱人之间的差距越来越大 。 数据往往是专有的 , 比如Facebook收集的用户信息 , 或者是敏感的 , 比如个人医疗记录 。 而科技巨头们在巨大、昂贵的计算机集群上进行越来越多的研究 , 很少有大学或小公司有资源进入 。
举个例子 , 训练语言生成器GPT-3估计花费了OpenAI 1000万到1200万美元--这还只是最终模型 , 不包括开发和训练其原型的成本 。 "你大概可以将这个数字至少乘以一到两个数量级 , "贝纳奇说 , 他是投资人工智能初创公司的风险投资公司Air Street Capital的创始人 。 他说 , 只有极少数的大型科技公司能够负担得起这样的工作:"没有人能够随便把庞大的预算投给这些实验 。 "
进展速度令人眼花缭乱 , 每年都有数千篇论文发表 。 但除非研究人员知道哪些论文值得信赖 , 否则该领域很难向前发展 。 复制可以让其他研究人员检查结果是否被挑剔 , 新的人工智能技术是否真的如描述的那样工作 。 "要分辨哪些是可靠的结果 , 哪些是不可靠的结果 , 越来越难了 。 "Pineau说 。