InfoQ▲准确率97%的开源肺炎检测模型:照搬PyTorch教程、50张图片就完了

最近 , 一位澳大利亚的人工智能博士候选人在LinkedIn上发布了一篇关于SARS-CoV-2病毒的研究文章 。 由于极具话题性且号称准确率可以达到97.5% , 这篇文章很快得到上万条评论、点赞与转发 。 然而 , 这样一个模型却被扒出背后只用了50张图片训练 。
InfoQ▲准确率97%的开源肺炎检测模型:照搬PyTorch教程、50张图片就完了
文章图片
一周搭起准确率达97%的模型 , 事实是?此前 , 一位澳大利亚的人工智能博士候选人宣布构建了一套深度学习模型 , 能够从肺部X光片中以97.5%的准确率检测出患者是否感染了COVID-19病毒 。 因为国外疫情蔓延且医疗设施不足 , 因此人们对这个成果非常关注 , 短短时间就收获到了上万条评论、点赞和转发 , 其还创建了Slack工作组 , 得到了大量赞美 。
从目前公布的消息来看 , 整个项目具有以下特点:
一套经过训练的PyTorch模型容器化应用代码一套GitHub库 , 并被翻译为多种语言正在开发中的Web应用程序正在开发中的移动应用程序规划蓝图 , 有意在AWS中利用无服务器架构托管这套模型在营销与赞助方面还有大量后续计划而以上的一切 , 都在一周之内快速完成 。 随后 , Reddit网友扒出这套解决方案存在几个严重问题 , 并对此进行了整理与反驳 。
InfoQ▲准确率97%的开源肺炎检测模型:照搬PyTorch教程、50张图片就完了
文章图片
只用了50张图像训练?首先 , 这些网络的潜在神经表示非常复杂 , 因此必然需要使用大量训练样本才能完成模型训练 。 但截至提交时 , 这款COVID-19检测工具只见过50张肺部影像 。
对于这样一套包含150多层、超过2000万个参数的网络来说 , 如此有限的训练样本集显然极为荒谬 。
InfoQ▲准确率97%的开源肺炎检测模型:照搬PyTorch教程、50张图片就完了
文章图片
该模型通过肺部X射线影像进行学习
数据样本有问题此外 , 样本中可能存在巨大的数据偏差 , 这50张图片并不包含相关人员是否感染病毒 , 而仅根据COVID-19急性病例造成的肺部操作做出标记 。 除非肺部已经被病毒破坏 , 否则该模型根本无法检测到感染迹象 。 此外 , 即使已经出现肺炎症状 , 如果尚不属于急性症状 , 仍然无法证明这套模型的准确度 。
图像重复、代码混乱、模型有问题最后 , 这套COVID模型基于高人气基准网络ResNet-50 。 虽然后者确实属于图像识别与分类领域的常用方案 , 但ResNet的预训练一般只涵盖日常环境下的物体 。 换言之 , ResNet网络中的隐藏层更擅长识别几何形状与彩色图像 , 在X射线影像中 , 我们明显找不到这样的模式 。 也正因为如此 , 大多数医学神经网络才只能选择从零开始构建的开发方式 。
进一步观察这套代码库 , 我们还发现了不少其他问题 。 训练、验证与测试数据集中包含重复的图像 , 大部分训练过程直接照搬PyTorch教程 , 混有大量不必要的代码;Githubissues也令人完全无法理解……
GitHub地址:https://github.com/elcronos/COVID-19
项目负责人回应:我说了项目不可用最初 , 个别开发者与项目负责人沟通并提出质疑时 , 对方回应称:
【InfoQ▲准确率97%的开源肺炎检测模型:照搬PyTorch教程、50张图片就完了】xxx , 你好 , 我们的成果已经得到加拿大xxx研究机构放射科医生的支持与认可
然而 , 随着质疑声越来越多 , 项目负责人更新了GitHub中的介绍 , 并表示:
尽管该项目的结果“看起来很有希望” , 但我明确指出该模型远没有可用 , 因此不应将其用于诊断或任何医疗决定 。 这是在进行中的工作 , 我们需要具有相关技能的人员的帮助 。 我还在GitHub存储库中指出 , 我正在寻找能够改善和收集更好数据集的开发者的帮助 。

不幸的是 , 这个项目引起了相关专家的注意 , 他们没有注意模型尚未准备就绪 , 且需要更好的数据集并帮助创建更好的模型 , 也没有阅读我们的所有免责声明 。 就指责该项目具有误导性 , 甚至有人暗示我对此有商业意图 。 这对我的个人生活造成了一些负面影响 , 因此 , 我决定暂时退一步 , 暂时退出社交媒体 。 至少在接下来的几天 , 我将不活跃于此组中 。