「技术」联邦学习能打破数据孤岛吗( 五 )


目前 , 已经有一些研究试图对这一问题进行回答 。 例如 , 在一篇论文中 , 提出了用合作博弈论中的“沙普利值”(ShapleyValue)的概念来处理这个问题 。 简单来说 , 它根据每个用户提供的数据对于最终结果的影响比重来衡量他们对学习的贡献 。 这似乎是一个不错的主意 , 但问题也是很多的 。 例如 , 假设一个用户提供了很多无用或虚假的数据 , 它很可能让整个模型的结论产生巨大的变化 , 然而根据沙普利值 , 它在学习中给出的贡献却会是最大的 。
其四 , 联邦学习事实上也为造假或攻击留下了漏洞 。 举例来说 , 如果一个企业试图干扰对手企业的决策 , 它完全可以把学习程序放到一个虚拟的数据集上进行学习 。 这样一来 , 对手获得的信息就会是十分具有误导性的 。
其五 , 联邦学习也可能对市场的竞争产生一些潜在的负面作用 。 一方面 , 这种技术很可能会加强一些平台的市场力量 。 在联邦学习的三种模式中 , 后两种模式在学习过程中都需要借助于一个第三方数据中心才能完成 。 这个第三方数据中心从哪儿来呢?它一般都是学习服务的提供者 , 或者与其有关联的企业提供的 。 从这个意义上讲 , 联邦学习服务的提供就强化了它们在数据中心 , 或者云市场上的市场力量 , 使这些市场上的对手更难与它们开展竞争 。 另一方面 , 联邦学习很可能会称为一种新的共谋的工具 。 在传统条件下 , 企业之间进行共谋往往需要公布自己的一些数据信息 。 正是考虑到泄露自身数据所带来的风险 , 所以一些企业会在进行共谋时比较犹豫 。 而有了联邦学习后 , 企业可以在不泄露具体数据的同时 , 完成必要的信息交换 , 这就给共谋提供了更好的条件 。
最后 , 联邦学习引发的知识产权问题也可能会是一个问题 。 在联邦学习的过程中 , 算法提供者 , 以及所有的数据所有者都投入了贡献 , 从理论上讲 , 它们都有一定的资格获得最终模型的知识产权 。 在这种情况下 , 谁能获得、使用、授权这些知识产权 , 恐怕也是一个比较值得思考的问题 。
【「技术」联邦学习能打破数据孤岛吗】综上所述 , 联邦学习虽然解决了由于数据集中所带来的很多问题 , 但它本身却又会引发很多新的问题 。 要彻底解决这些问题 , 我们恐怕还需要投入很多新的努力 。