「技术」联邦学习能打破数据孤岛吗( 三 )


在联邦学习的过程中 , 数据都没有离开本地 , 分析者也不直接接触到数据 , 因而前面提到的那一系列和数据相关的问题也就自然不存在了 , 而数据的拥有者们也就可以在充分保证自身数据安全的前提之下更好地开展合作 , 更有效地挖掘和利用数据中包含的价值 。 这个过程就好像数据邦国在保持各自独立的前提下 , 通过算法组成了一个机器学习的联邦 , “联邦学习”也因此而得名 。
在现实中 , 分析人员所面临的数据分散状况大致上可以分为三类 。
第一类是所谓的“横向”分散 。 举例来说 , 我们想要分析心血管疾病的成因 , 就需要搜集尽可能多的病例信息 。 各个医院都有一些病人的病例信息 , 并且每个医院搜集的变量维度都差不多 。 这种变量维度类似 , 仅仅是观察对象的分散 , 就被称为“横向”的分散 。
第二类是所谓的“纵向”分散 。 这种分散和“横向”分散正好相反 , 它面临的情况主要是多个数据集之间有共同的观察对象 , 但每个数据集的变量却不同 。 例如 , 在分析征信问题时 , 我们需要包括个人的家庭条件、教育水平、收入状况、消费记录等众多的变量信息 。 这些信息分散在很多数据拥有者的手中 , 每个数据所有者都只有其中的一个或几个变量 , 这时数据的分散就被称为是“纵向的” 。
第三类分散则同时包含了“横向”和“纵向”的特征 , 观察对象和变量维度之间的重合都比较小 。 例如 , 当我们要进行一次关于企业盈利因素的跨国分析时 , 我们就需要搜集各个国家企业的财务信息 。 这些信息分布在不同国家、不同机构的手中 , 并且每个数据所有者手里的变量信息也各不相同 。 此时 , 我们要处理的数据就既是“横向”分散的 , 也是“纵向”分散的 。
针对以上三种不同的数据分散状况 , 研究人员设计出了三种不同的联邦学习方法 , 也就是“横向联邦学习”、“纵向联邦学习” , 以及“联邦迁移学习” 。 横向联邦学习的思路比较简单 。 在学习的过程中 , 分析者把相同的算法模型发到各个数据所有者手里 , 每个数据所有者都基于自己的样本进行学习 , 然后把结果反馈给分析者 , 分析者通过对这些结果的整合来得到想要的信息 。 纵向联邦学习要复杂一些 。 它首先要通过加密传输 , 将不同来源的数据整合到一个第三方的数据中心 , 然后将整个学习任务拆成不同的部分 , 再分给各个数据所有者来完成 。 在学习过程中 , 不同的数据所有者之间需要通过加密信息传递来不断修正模型 , 最终得出学习结果 。 迁移学习是三种联邦学习中最复杂的 。 它需要先找到被观察者和变量之间的相似性 , 据此来对数据进行处理和转换 。 在完成了这一切后 , 再根据类似纵向联邦学习的方法来完成机器学习 。
实践当中 , 最早把联邦学习技术投入应用的是谷歌公司 。 2017年 , 谷歌推出了一款基于安卓手机的联邦学习程序 。 它通过将算法程序发送到每个用户的手机上 , 然后回收反馈信息 , 进而获得想要的分析结论 。 在看到了谷歌的实践后 , 国内的大型互联网企业也很快认识到了联邦学习的价值 , “腾讯系”的微众银行、“阿里系”的蚂蚁金服都陆续推出了与之类似的技术解决方案 , 并将它们应用到了实践领域(注:蚂蚁金服将自己的方案称为“共享学习” , 但从本质上看 , 它和联邦学习的思路是一致的) 。 在这些大型互联网企业的推动之下 , 目前联邦学习技术已经开始在金融、保险、电子商务等领域得到了应用 , 而其潜在的应用前景更是相当可观 。 在一些行业研究机构发布的报告中 , 这一技术甚至已经被誉为了“推动人工智能下一轮高潮的重要力量” , 以及“数字时代的新基础设施” , 其重要性可见一斑 。
联邦学习带来的新问题
纵观技术的发展史 , 我们不难发现一个规律:新技术的产生往往可以解决很多旧的问题 , 但与此同时 , 它也可能会引发很多新的问题 。 作为一项新兴的技术 , 联邦学习当然也难逃这个规律 。