健康界|| 深度,AI不能“取代”医生给我们看病,这并不是因为AI不够强大( 三 )


今天最火的AI路线——深度学习看起来有望打破这个限制 , 但它带来了一整套新的问题 。 最近通过FDA审批的一个叫做“WAVE”的诊断平台 , 能够综合病人各项身体指标 , 通过深度学习的算法 , 给出“病人什么时候会进入病危状态”的预测 。 然而 , 《科学》(Science)2019年3月的一篇评论文章指出 , 不像是药品或者其它医药设备 , 机器学习为内核的算法并非一个逻辑确定的系统 , 里面涵盖了上千个互相牵涉的指标 , 也会根据训练数据的不同产生不同的效果 , 究竟是否存在确凿无疑、让人百分百信服的因果联系(就像你站在体重秤上的数字从不撒谎一样) , 很难说清 。 而治病救人的医学 , 恰恰最需要稳定且可重复的证据支撑 。
循证的过程需要控制变量 , 得出A和B之间确凿的因果联系 , 例如病人吃了A药之后 , 就是比吃安慰剂的效果要好 , 那么A药毫无疑问发挥了作用;而这种药在一小部分病人中产生的作用 , 和大部分病人相似 , 是可以重复的 。 深层到药物作用的机制和原理 , 则更需要有大量的动物实验打底 , 厘清一个化合物和病菌、器官、神经之间的具体联系 。 然而 , 目前主流的深度学习的技术却是吃进数据、吐出结果的“黑箱” , 很难照着这个方式循证 。 再加上机器学习的核心——数据本身就具有不确定性 , 更为人工智能的普适性和可重复性提出了问题 。
在2019年2月华盛顿美国科学促进会(AAAS)的年会上 , 赖斯大学(RiceUniversity)数据科学教授吉内薇拉·阿伦(GeneveraAllen)用一系列事例直击了这个问题的核心 。 当下 , 有不少团队都在癌症相关的基因上做文章 , 输入癌症患者的基因组和病例数据 , 用机器学习的方式分析出几个不同的亚型(Sub-type) , 并在这个基础上开发靶向药物 。 这也是承袭乳腺癌的成功先例——根据基因表达的不同 , 乳腺癌可以分为10多种亚型 , 每一种的具体治疗方案和预后都不同 。 但是这种模式可以套到所有的癌症上吗?把大量数据“喂”给机器 , 机器真的能依靠数据模式给出靠谱的分类吗?
她综合了一些研究结果 , 发现在某个样本的数据上表现出色的算法 , 不一定适用于所有情况 , 也并不能重复 , 在这种分类的基础上得出的诊疗意见 , 自然也是无意义的 。 “两个团队用不一样的数据 , 很可能得到完全不重合的亚型分类 , ”阿伦在会议报告上说 。 “这些‘发现’真的具有科学价值吗?背后是否有可靠的医学证据支撑?”
她表示 , 如果继续这样发展 , 医疗科学很有可能陷入“危机” 。 虽然有点悲观 , 但也不无道理 。 毕竟 , 不靠谱的算法在亚马逊上给你推荐一本你不喜欢的书 , 你不买就好了;但是“推荐”一个疗法 , 有时候却是关乎生死的 。 当然 , 这并不是说人类医生不会犯错误 。 但在面对错误的时候 , 医学诊断的循证基础 , 能够给我们提供充足的条件复盘错误、并探求避免的方法 。 而面对人工智能的黑箱 , 我们甚至很难知道机器为什么会错 , 应该如何纠正 。
一边是人工智能领域大幅提高的计算能力与不断优化的算法 , 另一边却是临床医学对于证据的谨慎 。 在不同的学科进行交叉和对话的同时 , 两边是否在使用同一套语言体系 , 成为了解决问题的关键 。
AI要想治病救人 , 必须符合医学标准
这个年代最常听到的一句话 , 是“什么专业都得写代码” 。 的确 , 像希维尔德森和布莱斯勒的实验室里 , 懂医学和懂计算机同等重要 , 甚至还需要统计等数据科学 。 越来越多的研究者开始恶补相关知识 , 注册线上课程 , 甚至去跟本科生挤教室 。 许多老教授也拉下面子 , 向年轻博士生和博士后取经 。
而随着大数据和人工智能的广泛应用 , 医生们也要开始懂得怎样刨数据 , 即使不会编程也必须明晓其中的原理 。 “(数据科学)就像另一门语言 , 或者好几门语言 , ”英国惠康基金会桑格研究所的研究员蔡娜在接受马赛克科学(MosaicScience)采访时的一席话 , 说出了生物、医药研究人员的心声 。 “我不得不把之前大脑中的生化路径、流程图 , 转化成编程代码 。 ”