海斌|人工智能在医疗数据荒野上“刀耕火种” | 海斌访谈

_原题为 人工智能在医疗数据荒野上“刀耕火种” | 海斌访谈
任何一家想要在医疗领域掘金的人工智能企业 , 必须要有身为拓荒者心理准备 。 在这个行业 , 当然有希望收获满满 , 但也得先干许多苦活 。
“有许多数据科学家、机器学习方面的专业人员 , 在进行机器学习模型开发的时候 , 花了一半的时间来做数据准备的工作” , 亚马逊AWS副总裁Swami Sivasubramanian接受第一财经采访人员采访时说 , 这些苦活、累活需要借助专门的平台型工具帮忙完成 , 比如给数据打注释、给数据做清洗等工作 。
机器学习是人工智能的核心组成部分 , 而数据常被认为是人工智能的“燃料” , 它是这项技术用于构建模型和改进算法的根基 。
数据准备的工作通常包括数据清洗、数据格式统一化、数据合并等方面 。 非标准化的数据 , 意味着在数据准备阶段就要耗费大量的时间 , 延缓了人工智能技术部署速度和使用效率 。
Swami所说的现象在人工智能落地的各个场景普遍存在 , 而非某个行业的个例 。 他的这一观点也得到了国内人工智能企业界的响应 。
“他说的还是轻了 , 我觉得百分之七十或百分之八十的时间用于了(数据准备)这个事情 。 人工智能的技术已经可用 , 但大部分时间耗费在了数据上了” , 第四范式的副总裁涂威威接受第一财经采访人员专访说 , 尽管这一问题普遍存在 , 但在一些特定行业里问题尤其突出 , 医疗领域就是如此 。
从2018年开始 , 上海三甲医院瑞金医院与第四范式开始战略合作 , 使用人工智能技术筛查糖尿病 , 以期实现病人的尽早发现、尽早治疗 。 瑞金医院主导这一合作的是中国工程院院士、瑞金医院副院长宁光院士 。
“宁光院士还是非常有远见的 , 他十年前就开始做医院数据的标准化 。 但无奈在之前那个阶段 , 信息化水平确实一般 , 我们合作项目里涉及到几十万病人的数据 , 相对(其他医院)来说已经是非常好的数据 , 但我们依然花了很多的精力来做数据的处理”
这些医疗数据已经实现无纸化 , 均是电子化的病例 , 但在这些数据基础上直接部署人工智能仍然困难 。 举例来说 , 不同医生对于同一疾病的症状描述差异 , 都可能意味着需要花时间重新甄别和筛选 。
更深层次的原因在于 , 人工智能出现之前 , 既往医疗数据对于医生和医院来说价值并不大 。
“原来医院搞的信息化质量堪忧 , 因为信息存下来对医院没什么作用 。 医生坐诊、看病就够了 , 这些医疗数据对他们来说没有特别重要的意义” , 涂威威表示 。
“金融行业就不必花这么多时间(用于数据清理) , 因为金融领域的数据质地非常好“ , 第四范式的技术布署在不同行业 , 涂威威比较下来发现 , ”相比金融或互联网行业 , 医疗信息化还处于刀耕火种阶段 。 ”
医疗信息化需要在与数据使用方的合作磨合中逐步改进 。 目前瑞金医院的数据质量有了极大的提高 。 涂威威 认为 , “慢慢的 , 数据的问题会越来越少 。 ”
人工智能在数据可用性方面遭遇的问题 , 中外并无差异 。
“数据准备其实是要进行机器学习模型开发的必备的阶段” , Swami对第一财经采访人员表示 , 不管哪个市场 , 数据底层的问题都是一样的 , 都要从数据的清洗到ETL(Extract-Transform-Load , 数据从来源端经过抽取、转换、加载至目的端的过程) , 然后做好了数据的准备之后 , 才能够开始机器学习模型的建构 。
经过数据筛查和清洗这个“苦活”、“累活”的阶段 , 人工智能就开始发挥比较大的作用了 。 据涂威威介绍 , 在一些慢病的筛查阶段 , 比如发现早期糖尿病 , 人工智能的准确率已经不亚于经验老道的医生 , 而人工智能无疑效率更高 。
除了在医疗领域落地 , 人工智能在药物研发方面也有了进步 。 在这次疫情期间 , 机构开始使用机器学习来进行新冠病毒治疗方案的研发 。
总部在深圳的晶泰科技 , 同时在北京、波士顿设有研发实验室 。 晶泰科技搭建了云端智能药物研发平台 , 在这个平台上 , 晶泰科技使用亚马逊的AWS GPU搭建机器学习框架 , 实现大规模的模型训练及参数优化 。
在新冠疫情爆发后 , 晶泰科技对近3000个已通过美国药监局(FDA)审核的上市药物、以及超过1万种中药成分分子 , 进行了老药新用的扫描 , 找到了183个可能对新冠病毒有潜在治疗效果的药物 。 作为合作方 , Swami介绍称:在这之后 , 晶泰科技对药物的活性进行了排序 , 然后通过更加高精度的计算方法 , 最终锁定了38个药物 。
“在全球 , 人们正在使用人工智能应对人类所面临的一些重大的挑战 。 ”Swami评价说 。
亚马逊内部有一种广泛的认知 , 即人工智能还处于“Day One(第一天)”的阶段 。 “打个比方 , 就是我们刚醒过来 , 需要喝杯咖啡的阶段 。 即使在这么早期的阶段 , 机器学习领域就已经出现了非常多的创新了 。
第一财经广告合作 ,请点击这里
此内容为第一财经原创 , 著作权归第一财经所有 。 未经第一财经书面授权 , 不得以任何方式加以使用 , 包括转载、摘编、复制或建立镜像 。 第一财经保留追究侵权者法律责任的权利 。如需获得授权请联系第一财经版权部:021-22002972或021-22002335;banquan@yicai.com 。分页标题
【海斌|人工智能在医疗数据荒野上“刀耕火种” | 海斌访谈】文章作者