「技术」联邦学习能打破数据孤岛吗( 二 )


诚然 , 在这个时代 , 数据是不会缺的 , 但它们却散落在不同的人手里 。 要将所有的这些数据集中到一起来加以分析 , 简直是难如登天 。 举例来说 , 假设我们希望研究人们每月在线购物支出在收入中所占的比重与教育水平之间的关系 。 从表面上看 , 这个问题十分简单 , 我们只需要知道人们每月的在线购物支出、个人收入 , 以及教育水平这三个变量 , 然后同构一个简单的回归就可以搞定这个问题 。 但我们要从哪儿知道一个人每月究竟有多少在线支出呢?他可能在很多平台消费 , 并且通过很多支付渠道来付款 。 这些数据分散在各个互联网公司的手中 。 个人收入数据呢?要确切知道这点 , 需要拿到这个人的工资单 , 然后再调查他的非工资收入 。 这些数据源 , 都分散在不同的人手里 , 彼此之间像一个孤岛一样没有联系 。
怎么把这些数据集中起来呢?一个方法是进行调查 , 直接选取一个样本 , 让样本中的被访者来提供这些信息——这就是传统的统计学所用的方法 。 但这种方法的缺陷是相当明显的:一方面 , 被访问者出于隐私等问题的考虑 , 很可能不会如实提供这些信息 。 尤其是像收入这样敏感的数据 , 很多人都不愿提供 。 另一方面 , 要进行类似的调查 , 成本往往非常高 , 因此 , 搜集的样本数量通常也难以很大 。 而如果数据样本过小 , 那么先进的算法也就没有了特别的意义 。
另一个方法是从不同的数据集拥有者手里去获取数据 。 但这又谈何容易?且不说很多数据对于拥有者来说是核心资产 , 不能外泄 。 即使这些数据拥有者同意提供数据 , 数据的使用者又如何能够向数据提供者保证数据的安全、用途的正当?事实上 , 本文开头的“剑桥分析门”事件 , 原本就起源于脸书的数据开放项目 。 根据脸书当时的规定 , 人们可以在其网站上搜集数据用于学术研究工作 。 但是 , 剑桥分析公司从脸书搜集了数据后 , 却没有像先前承诺的那样 , 把数据的使用范围限制在纯粹的研究工作上 , 而是将其用到了影响和操控选举 。
正是由于考虑到类似的问题 , 很多数据拥有者即使主观上愿意分享自己的数据 , 在实际提供时也会十分犹豫 。 需要说明的是 , 尽管区块链等新技术的兴起在某种程度上缓解了这一问题 , 但却未能从根本上解决它 。 虽然借助这些新技术 , 人们可以对数据打上时间戳 , 从而对数据的使用和传输进行一定程度的监控 , 但这些监控只能通过计算机实现 。 一旦人们采用更为传统的手法 , 例如肉眼观察、手工记录等方法传播数据 , 那么即使采用这些新技术 , 也很难有效追踪数据的走向 , 自然也就不能有效防止数据泄露的风险了 。
联邦学习:打破数据孤岛的新希望
如何才能解决数据搜集、使用、传播等环节存在的问题 , 让分散在各处的数据有效整合起来 , 更好地用于分析呢?当大多数人都把思考聚焦于数据 , 试图从数据出发找到答案的时候 , 有一些人却想到了另外一条思路 。
事实上 , 无论是数据搜集过程中可能产生的侵犯隐私问题 , 数据传输过程种可能的数据泄露问题 , 还是占有数据之后可能引发的数据垄断问题 , 其症结都在于数据的集中处理模式 。 正是由于人们需要把数据集中起来进行处理 , 所以才需要搜集和传输数据 , 在这个过程中才可能会侵犯隐私 , 才可能会泄露数据 , 才可能会产生数据的集中和垄断 。 从这个意义上讲 , 只要这种集中处理数据的模式被改变了 , 那么以上所有的问题就会迎刃而解 。 所谓的联邦学习技术 , 就是在这种思路的指引下产生的 。
和传统的机器学习算法要求集中处理数据不同 , 联邦学习把算法发到所有的数据拥有者手中 , 在本地对数据进行学习 , 然后对所有分别学习的结果进行整合 , 得到最终结果 。 形象地说 , 如果传统的机器学习是把数据“喂”给算法 , 那么联邦学习就是让算法去主动觅食 。