「技术」联邦学习能打破数据孤岛吗 |机器学习|人工智能|电脑|

本文插图
（图片来源：壹图网）
【超级平台】
陈永伟/文
数据引发的烦恼
美国当地时间4月25日，社交网络巨头脸书发布官方消息，证实在对剑桥分析公司(CambridgeAnalytica)滥用数据丑闻进行了漫长的调查后，联邦法院已正式批准该公司去年7月与美国联邦贸易委员会(FTC)达成的和解协议。根据和解协议，脸书将支付高达50亿美元的巨额罚款，并成立一个独立的隐私委员会，主动识别潜在的隐私风险，以便实施缓解措施。自此，持续数年的“剑桥分析门”终于得以告一段落。
“剑桥分析门”事件虽然已经结束，但它留下的影响却是深远的。近年来，随着大数据、人工智能等技术的兴起，人们对于数据的利用水平获得迅速提升。通过对数据的分析，人们可以轻松地发掘出大量潜藏在事物背后的规律，并将它们用于商业实践，从而产生巨大的经济价值。与之对应的，原本分文不值的数据也摇身一变成为了数字经济时代至关重要的生产要素。然而，在数据身价节节上升的同时，一大串问题也涌现了出来：数据的产权究竟属于谁？在搜集和使用数据的过程中，如何保证数据安全和用户隐私？当一些公司拥有了庞大的数据，应该怎样应对由此可能产生的数据垄断和数据霸权？……
围绕着以上这些问题，很多人展开了各自的探索。根据探索的方向，这些努力大致上可以分为两类：第一类是法学的探索。在法学家们看来，当前数据的搜集和使用过程中之所以会出现种种问题，其关键就在于各种相关的法律和规范滞后了，不能适应时代发展的需要。针对这一问题，他们正积极推进立法，努力弥补法律和制度上的各项不足和漏洞。第二类则是技术的探索。在技术专家看来，数据应用中存在的各种问题本质上都是技术问题，只要技术进步了，问题就会迎刃而解。到目前为止，技术人员已经沿着这一方向进行了很多的努力，开发出了包括安全多方计算、区块链在内的众多新技术。而最近兴起的“联邦学习”技术，就是这些新技术中比较引人注目的一种。
机器学习的软肋
在讨论联邦学习（Federated Learning）之前，我们需要花费一些篇幅来讨论一个更大的概念——机器学习（Machine Learning）。最近几年，人工智能大火。但熟悉人工智能的朋友应该知道，作为一个庞大的学科，人工智能其实有很多分支。在这些分支中，真正火了的其实就是机器学习这一支。
何谓机器学习？通俗地讲，就是让计算机使用算法解析数据并从中学习，从而得出规律，然后对世界上的某件事情做出决策或预测的学问。举例来说，如果一个分析师希望知道有哪些因素影响了电商平台的销售业绩，那么他就可以把电商销售数据，以及可能影响销售的各种变量，例如价格、流量、投入广告量等一起输入电脑，然后电脑就可以通过算法，得出一组关于某某变量增加一单位，会导致销量变化多少个百分点的关系。这个从分析数据到发现规律的过程，就是机器学习。
很显然，对于机器学习这种从数据到规律的学习过程，两个因素是至关重要的：一是算法，二是数据。其中，算法主要解决“怎么学”的问题，而数据解决的则是“从哪儿学”的问题。过去几年中，这两个因素碰巧都取得了很大的发展——在算法上，深度学习异军突起，解决了很多长期困扰技术人员的问题；在数据上，随着互联网技术的进步，海量的数据得以被不断生产、存储下来。正是在这两个因素的共同推进之下，机器学习也迎来了春天。
不过，在经历了几年的繁荣之后，机器学习也正在遭遇瓶颈。在决定机器学习效率的两个因素中，算法的进步是相对缓慢的，突破性的进展可能要几年或者几十年才能遇上一回。在经历了深度学习的崛起之后，整个机器学习要迎来下一轮的算法突破，恐怕还要等上不少时间。而看起来，数据因素的突破似乎是比较容易的，毕竟在互联网时代，每天都有无数的数据被创造出来。但是，事实却并非如此。