「技术」联邦学习能打破数据孤岛吗( 四 )


诚然 , 联邦学习打破了数据集中处理的固有模式 , 一举解决了由此引发的很多问题 , 其价值无可估量 , 但它在应用中所可能遭遇的问题也是十分值得关注的:
其一 , 联邦学习技术其实并没有完全破解数据孤岛等问题 。 以横向联邦学习为例 。 在现实当中 , 很多企业都有了解整个行业动态的需求 , 从这个意义上讲 , 它们对于横向联邦学习的需求是很大的 。 但是 , 它们真的会放心参与到联邦学习过程中来吗?恐怕未必 。 这是因为 , 一旦企业参与了联邦学习 , 它就必须贡献自己的数据集 。 这样 , 尽管它未必会暴露具体的数据条目 , 却会暴露自己数据中掩藏的信息 。 如果市场上的竞争企业很多 , 这种情况可能未必严重 , 但如果市场上只有少数几家企业 , 情况就完全不一样了 。 极端的讲 , 如果市场上只有A、B两个企业 , 那么其中任何一个企业都可以结合自有数据的分析结果以及联邦学习的结果来很好地推断出对手的信息 。
至于纵向联邦学习和联邦迁移学习 , 企业在参与时所面临的顾虑就可能更大了 。 根据纵向联邦学习的原理 , 在执行学习时 , 各方事实上需要把数据集中到一个第三方的数据中心 。 尽管在过程中 , 参与学习的各方可以通过数据加密来让数据安全获得一定的保证 , 但从本质上讲 , 整个学习并没有完全去中心化 。 至少在理论上 , 在数据的传输 , 以及数据集中存放在第三方数据中心的过程中 , 都可能有数据泄露的可能 。
其二 , 联邦学习的应用对于硬件可能具有一定的要求 , 而这可能引发出很多新问题 。 正如前面指出的 , 在联邦学习的过程中 , 数据拥有者需要在本地完成大量的计算任务 , 而这可能耗费广大数据拥有者的巨大算力 。 这对面向B端的学习任务来讲可能算不上什么问题 , 但对于面向C端的任务则可能是个大麻烦 。
在现实中 , 大量的数据都是分散在广大的C端用户手中的 , 对于多数企业来讲 , 这些数据也是最有价值的 。 因此 , 一旦拥有了联邦学习技术 , 企业们最希望的 , 可能就是把自己的算法放到C端用户的终端上进行学习 。 不过 , C端用户的计算能力往往是有限的 , 因而就会产生相应的问题:一方面 , 过于复杂的学习程序并不适合投放到他们的终端 , 否则就会影响他们自身对终端的使用 , 这就对学习任务的复杂程度提出了一定的限制 。 另一方面 , 由于大量企业都希望将自己的算法投入到用户的终端 , 但用户对算法的接受程度又是有限度的 , 因此“究竟谁有权这么做 , 谁没权这么做”、“在投放学习程序时应该得到怎样的授权”等问题就会出现 。 而要处理这些问题 , 恐怕不会比搞清楚“数据的产权究竟归谁” , “平台在数据使用时应该得到哪些授权”等问题来得容易——事实上 , 从某种程度上讲 , 这些新问题只不过是把老问题变了个视角 , 重新问了出来 。
其三 , 在联邦学习中 , 如何处理参与者的激励也是一个问题 。 除了前面所说的安全考虑外 , 激励和回报也是制约人们参与联邦学习的一个障碍 。 从数据拥有者的角度看 , 我既然贡献了数据 , 那么又能从中获得多少回报呢?如果这个问题不能很好地被回答 , 人们参与联邦学习的积极性就会受到很大的打击 。
我们知道 , 作为一种新型的生产要素 , 数据的价值是很难衡量的 。 我们通常说“大数据” , 好像数据规模越大就越有价值 , 但现实却并非如此 。 事实上 , 很多规模巨大的数据本身所包含的信息却非常少 , 大量的记录都是无用的噪声 , 对于这样的数据 , 其价值并不会和其规模成正比 。 在传统的集中数据处理模式下 , 人们在购买数据的过程中 , 可以对数据的质量进行检验 , 并根据数据质量给出对应的估价 , 因而可以让数据交易双方获得一个比较好的共识 。 而在联邦学习的条件下 , 学习的参与者并无法检验其他参与伙伴给出的数据质量 , 因而也自然无法对数据质量进行估价 。 在这种情况下 , 要对数据的提供者提供合理的激励 , 让他们感到获得了公平的回报就是一件十分困难的事 。 从难度上讲 , 它甚至远远超过了现在的数据定价问题 。