生物医学@Cell综述深度解读!机器学习如何带来生物医学研究的变革!


日前 , 一篇刊登在国际杂志Cell上题为“How Machine Learning Will Transform Biomedicine”的综述文章中 , 来自俄勒冈健康科学大学的研究人员论述了机器学习技术在改善疾病诊断和治疗方面的应用 , 文章中 , 研究人员概述了机器学习如何改变生物医学三大领域的 , 即临床诊断、精准疗法和健康监测;其目的是通过监测一系列疾病的发生和正常衰老过程来维持人类机体健康 , 对于每一个领域而言 , 研究人员讨论了机器学习的早期成功应用案例 , 以及机器学习所面临的机遇和挑战 , 当这些挑战得到满足时 , 机器学习或有望成为一种严格、机遇结果的医学手段 , 其有望不断适应个体和环境的差异来进行疾病的诊断并开发有效的策略 。
机器学习技术能利用复杂的算法在大规模、异质性数据集中进行运行 , 从而发现那些即使是训练有素的研究人员也很难或不可能识别出的有用模式 , 这种方法已经在整个科学和社会上有很多应用 , 比如从玩游戏、到产品推荐、再到控制自动驾驶汽车上等;在生物医学方面、人类基因组项目、癌症全基因组项目、国际机器学习竞赛项目等项目上都表现出了巨大的潜力 , 收集并分析与医学疗法和患者预后相关的大量数据集或能将医学转化称为一种数据驱动、以结果为导向的学科 , 其对于疾病的检测、诊断都有着非常深远的影响 。

生物医学@Cell综述深度解读!机器学习如何带来生物医学研究的变革!
本文插图
图片来源:Jeremy Goecks, et al. Cell,doi:10.1016/j.cell.2020.03.022
如今 , 分子和表型数据的收集已经变得无处不在 , 包括个体化癌症疗法的基因组检测、器官高分辨率二维和三维解剖成像、组织活检的活组织分析以及监测心率并通知佩戴者异常的智能手表等 , 这些和许多其它收集到的数据对于为未来早期准确地诊断、个体化的治疗以及持续监测以促进机体健康非常重要 。
为了使机器学习在诊断和治疗中发挥变革性的作用 , 研究人员就有必要开发高质量、精心管理的数据集 , 高质量的数据集有几个非常重要的好处 , 其能改善机器学习方法的预测能力 , 同时还能减少训练所需的数据大小及学习的复杂性;比较著名的就是 , 一种名为ImageNet(一种标记图像和逻辑链接图像的语料库)的技术被引入时 , 机器学习方法用于图像识别的速度得到了很大提升 , 当然了 , 在生物医学领域及可能应用机器学习的领域都需要类似的努力 。 为机器学习应用于诊断和疗法创建高质量的数据集需要解决技术、法律和经济的问题 , 而这些问题通常会导致为进行标准化的孤立的生物医学数据 , 正如前所述 , 联邦学习(federated learning)能在孤立系统中提供一种技术解决方案 , 因为这并不需要实际的数据移动 , 而且还能保护个人隐私;可穿戴的设备和家用设备能提供一种收集准确数据的方法 , 而机器学习则可以作为一种预处理步骤 , 从电子健康记录和出版物等非结构化来源中提取准确的分析和临床数据;我们必须鼓励生物医学机构和个人参与数据标准化和共享 , 同样地 , 保险公司、制药行业和支持生物医学研究的结构也会投资基础设施、数据获取和数据管理 , 从而产生高质量供研究的数据 。
同时我们还需要促进用于学习的数据集的多样性和数据的共享方法和激励措施 , 包括国家和国际数据共享标准等 , 其能使主要医疗中心和社区诊所获取数据成为可能;比如 , 由于整体护理和患者群体的差异 , 在主要医疗中心改善患者治疗反应的机器学习应用程序可能会在社区环境中表现不佳 , 然而 , 用于机器学习的生物医学数据的收集的最终目标就是从患者群体中获得合适的代表性数据 , 从而开发精确的机器学习模型 , 并将其推广到不同的人群中 。 同时研究人员还必须作出协调一致的努力来考虑多种变数 , 比如患者在治疗前的状况、治疗方案、年龄、性别、种族、民族和环境暴露等变量等 。分页标题
生物医学机器学习的应用也需要严格的评估方法 , 特别是在需要持续学习的环境中 , 在研究者看来 , 机器学习系统的性能最好是通过其预测的准确性来衡量 , 研究人员提出了一种迭代的机器学习方法 , 包括使用回顾性数据进行训练、算法锁定和部署 , 然后根据部署期间获得的预测评估应用程序的准确性;在部署期间收集的数据加上附加或更大的回顾性数据集就能用于重新培训和算法优化 , 然后就是后续的部署评估周期 , 评估持续性的学习系统可能就需要收紧整个循环和数据的使用 , 比如我们所设想的健康监测必须适应健康状况或习惯的变化;不仅要对准确性进行量化 , 还要对置信区间进行量化 , 这一点至关重要 , 因为机器学习的某些用途要比其它用途更能容忍不准确的预测 , 而且置信区间可以被医生用来为决策提供信息 , 由于大多数诊断和治疗测试推测模型和数据是固定的 , 因此迭代训练和部署机器学习应用程序就会带来监管方面的挑战 。 当模型能够根据新的数据进行更新或适应新的诊断或疗法时 , 研究人员就需要评估以确保预测的准确性 , 为了确保对生物医学机器学习应用的强大评估 , 研究人员就需要多模式、可扩展和纵向的真实或模拟数据集 。
尽管上述挑战是非常巨大的 , 但研究人员乐观地认为他们能够克服这些困难 , 此外 , 研究人员认为这些努力也是值得的 , 因为成功能带来一个严谨的、以结果为基础的医学未来 , 检测、诊断和疗法策略将会通过机器学习手段不断适应个体和环境的差异 , 从而实现人类健康的全面管理 。 (生物谷Bioon.com)
参考资料:
【生物医学@Cell综述深度解读!机器学习如何带来生物医学研究的变革!】 Jeremy Goecks, Vahid Jalili, Laura M. Heiser,et al. How Machine Learning Will Transform Biomedicine, Cell, 2 April 2020, Pages 92-101, doi:10.1016/j.cell.2020.03.022