『智东西』医疗AI不再是空中楼阁,提前预测重大疾病!联邦学习打破数据壁垒


『智东西』医疗AI不再是空中楼阁,提前预测重大疾病!联邦学习打破数据壁垒
文章图片
智东西(公众号:zhidxcom)编|李水青
智东西4月20日消息 , 近日 , 腾讯天衍实验室与微众银行共同研究表明 , 将联邦学习与医疗深度融合对落地疾病预测领域有重大帮助 。 目前其已搭建基于联邦学习技术的大数据集中与挖掘平台 , 从落地案例来看 , 可将脑卒中预测准确率提升至80% 。
近几年 , 医疗行业正在经历一场数字化转型 , 这场基于大数据和AI技术的变革几乎改变了整个行业的方方面面 , 将“信息就是力量”这句箴言体现的淋漓尽致 , 人们对人工智能寄以厚望 , 希望它能真正深入临床一线 , 帮助医生和患者 。
理想很丰满 , 但现实却很骨感 , 在这场大变革下 , 作为医疗AI成长道路不可或缺的“粮食” , 数据成了医疗AI落地的“拦路虎”——我国医疗健康数据领域长期存在的“信息孤岛”问题 , 不同地区甚至不同医院间的医疗数据没有互联 , 也没有统一的标准 。 与此同时 , 数据安全问题也存在着巨大挑战 。
数据问题让医疗AI成了“空中楼阁” , 在这一难题下 , 腾讯天衍实验室联合微众银行联合研发了医疗联邦学习框架 , 成功地实现了在保护不同医院数据隐私下的疾病预测模型 , 破解医疗行业数据安全与隐私保护难题 。 这是联邦学习在医疗健康大数据领域应用的首个成功案例 , 为医疗大健康的各种潜在应用如分诊诊疗、慢病防控、疾病早筛、医保控费的落地等探索出了新的方向 。
一、打破数据壁垒 , 保护数据隐私在重大疾病早期筛查和预测领域 , 如果要成功能建立大数据疾病预测模型 , 就需要将居民在不同医院的医疗信息与健康档案进行整合与建模 。 但由于信息系统不统一 , 医院管理机构对于数据隐私泄露的担忧 , 和相关数据保护法规的限制 , 相关机构之间形成了数据壁垒 , 很少有医院愿意进行数据的共享 , 这就导致了AI难以在疾病预测领域“施展拳脚” 。
在这个问题下 , 联邦学习成了一剂“良方” 。 联邦学习是一种新兴的人工智能机器学习框架 , 其设计目标是在保障大数据交换时的信息安全、保护终端数据和个人数据隐私、保证合规的前提下 , 在多参与方或多计算结点之间开展高效率的机器学习 。 联邦学习作为分布式的机器学习范式,可以有效解决数据孤岛问题 , 让参与方在不共享数据的基础上联合建模 , 能从技术上打破数据孤岛 , 实现AI协作 。
该技术最早由谷歌在2016年提出 , 而后微众银行则在首席人工智能官杨强教授的带领下首次提出了“联邦迁移学习” , 并开源自研联邦学习框架FederatedAITechnologyEnabler(简称FATE) , 推动联邦学习技术在行业中的落地 。 此前联邦学习在金融、互联网、智慧零智等领域已经有多个成功应用案例 , 但在医疗领域 , 由于医疗知识的专业性 , 电子病历的复杂性对联邦学习的构建带来了种种困难 。
近日 , 腾讯天衍实验室结合自身医疗机器学习与自然语言处理优势 , 与微众银行共同将联邦学习与医疗深度融合 , 有机整合医疗模型与机器学习 。 通过搭建基于联邦学习技术的大数据集中与挖掘平台 , 两者共同开发医疗联邦学习(MedicalFederatedLearning)技术 。
这一创新技术让医疗行业的数据问题“药到病除” 。 联邦学习可以绕过医疗机构之间的信息壁垒 , 不考虑将各自数据做合并 , 而是通过协议在其间传递加密之后的信息 , 该加密过程具有一定的隐私保护机制 , 保证加密后的信息不会产生数据泄露 。 各个医疗机构通过使用这些加密的信息更新模型参数 , 从而实现在不暴露原始数据的条件下使用全部患者数据的训练过程 。
举例来说 , 假设医院A和B想联合训练一个脑卒中疾病预测模型 , 两个医院各自掌握科研病例数据 , 此外 , 医院B还拥有模型需要预测的标签数据如脑卒中发病标签 。 出于数据隐私保护和安全考虑 , 医院A和B无法直接进行数据交换 。 联邦学习系统则可以利用基于加密的患者样本对齐技术 , 在医院A和B不公开各自数据的前提下确认双方的共有患者 , 并且不暴露不互相重叠的患者 , 以便联合这些用户的特征进行建模 , 在确定共有用户群体后 , 就可以利用这些数据训练疾病预测模型 。