【动脉网】Clara怎么做,医疗AI开发原来这么容易,来看看NVIDIA( 二 )


这种数据获取方式存在两个重要的问题 , 一是人工智能训练需要的数据量大 , 企业很难找到足够多的实习生进行勾画 , 成本也非常高昂;其次 , 影像的勾画通常对工作人员的资历要求较为严格 , 实习生常常会出现结节遗漏、标注错误等现象 。
从这一需求出发 , NVIDIA在ClaraTrainSDK中植入了深度学习辅助标注的组件AIAnnotationServer , 开发者可直接使用这一组件对医学影像进行标注 。
NVIDIA的实验数据显示 , 应用这一工具包后 , 单个肺结节的标注时间可降至8-15分钟 , 医生的标注效率可提升4-8倍 。 此外 , 通过粗略计算 , 胰腺的标注速度可提升4倍 , 脾的标注速度可以提升10倍 。
此外 , 在DGX的加速下 , NVIDIA可以将数周才能完成的计算任务提速至数小时 , 这将大幅降低医疗AI企业的试错成本 , 企业甚至可以同步开展多个算法测试 。 人工智能的产出 , 甚至是发展 , 都会因此大大提速 。
医学影像应用:用联邦学习破除AI模型鲁棒性难题即便是我们解决了AI开发中的难题 , 并不代表就能让AI走向实用 。 在上述的步骤之中 , 我们忽略了医学领域数据的一个重要特征——安全性 。 由于医学数据与生命信息息息相关 , 只有在保证数据安全的前提下 , 我们才能谈及数据的应用 。
这意味着 , 企业或医生在训练AI时 , 不能把数据带出医院 , 而成熟的AI算法 , 通常需要克服地域差异 , 进行多中心的试验 。 如果AI模型不具备鲁棒性 , 就失去了应用与临床的价值 。
虽然数据不能出院 , 但是模型可以 , 那么我们能否直接将模型融合起来呢?答案是可以的 。 联邦学习便是多个参与单位用各自数据训练完成的模型进行聚合 , 以实现数据不出院的情况下多个模型的统一 , 最终实现AI模型的高鲁棒性 。
【动脉网】Clara怎么做,医疗AI开发原来这么容易,来看看NVIDIA
文章图片
联邦学习与中心训练结果对比
通过一个包含13个用户组的融合实验 , NVIDIA得到了上图结果 。 图中的红线是以数据中心模式进行训练得到的模型精度曲线变化情况 , 绿线是联邦学习下 , 13个模型融合后的模型精度曲线变化情况 , 可以发现随着训练迭代次数的增加 , 两条曲线高度重合 , 这个实验一定程度上证明了联邦学习的可用性 。
NVIDIA工程师在GTC2019讲解联邦学习(详细请点击https://v.qq.com/x/page/a0933bxfkqy.html查看视频)
不过 , 新的问题也在不断出现 。 如果各个模型差异很大 , 那么联邦学习如何自行“去粗取精”呢?“增量学习”将是NVIDIA下一步研究的重点 。
除了ClaraTrainSDK , NVIDIA还开发了ClaraDeploySDK , 用于优化PACS已有的工作流 。 同时 , 利用ClaraDeploySDK , 医生可以在临床环境中灵活快速部署医疗影像AI模型 。
基因组学:数据分析与AI构造再谈NVIDIA新近瞄准的基因组学 。 2003年首次对人类基因组进行测序以来 , 整个基因组测序的成本就一直在下降 , 而且下降的速度远快于根据摩尔定律所预测的速度 。 从新生儿基因组测序到开展全国人口基因组计划 , 该领域正在蓬勃发展 , 并且日趋个体化 。
测序技术的进步引发了基因组数据的爆炸式增长 。 序列数据总量每七个月增加一倍 。 这一惊人的速度可能会使得到2025年基因组学产生的数据量比其他大数据源(例如天文学、Twitter和YouTube)数据量总和的10倍还多 。
各种新的测序系统 , 比如全球最大的基因组学研究集团——华大集团的DNBSEQ-T7等正在推动这项技术的广泛应用 。 该系统每天可以生成高达60个基因组 , 产出高质量数据1-6Tb 。
凭借华大集团的流动池技术的发展以及一对NVIDIAV100TensorCoreGPU所提供的加速 , DNBSEQ-T7的测序速度提高了50倍 , 令其成为迄今为止吞吐量最高的基因组测序仪 。