个人隐私数据保护趋势下,科技公司都做了哪些努力?| WISE2020 新经济之王企业服务峰会( 四 )


王爽:我分享一下锘崴科技这方面的经验 。 我们公司有十多年医疗领域隐私计算的实际经验 。 我们通过结合隐私计算中的联邦学习技术、可信计算环境、同态加密和安全多方计算等技术 , 实现了在隐私保护下的跨多个医院的数据互联互通 , 比如通过我们的技术实现了跨医疗机构间病人数据的安全分享 。 锘崴团队在2012年发表了全球第一篇基于安全联邦学习的论文 , 通过其底层技术 , 支持了多个跨中心的安全数据分享和互联互通应用 。 我们认为隐私计算是一个大的概念 , 下面包含了很多子技术 。 不同的子技术有不同的优缺点 。 需要根据具体的应用场景 , 通过优化组合不同的技术 , 来充分发挥不同项技术的优势 , 实现对于实际应用场景的赋能 。
比如说从医学角度来讲 , 在数据检索应用中 , 需要匹配相似的病人 , 或药厂要查找一个变异位点和疾病的相关性 , 在数据检索的过程中 , 涉及到对于查找条件和被查找数据源双方的隐私保护需求 。 这里根据匹配条件的复杂性、数据源的大小、安全条件的假设和响应时间等需求 , 可以选择不同的隐私计算技术路径 。 在查找到数据以后 , 通常涉及到对于相关数据跨中心的联合分析 , 这里就要应用到联邦学习相关技术 , 在数据源的节点实现数据的“可用不可见” 。 在不需要分享个体数据 , 只交换模型参数等统计值的情况下 , 然后实现精准的全局模型构建 。 但在这一场景下 , 仅仅只有联邦学习也是不够的 , 因为联邦学习本身也是要交换一些明文的统计值 , 很多研究表明 , 这些明文统计值也会泄露敏感的隐私信息 。 因此 , 我们需要叠加可信计算环境、多方安全计算、同态加密等隐私计算技术 , 实现数据应用从存储、通讯、计算到模型结果分发的全流程保护 。
模型训练好以后就到了模型使用的过程 , 通过隐私计算技术 , 把加密的模型跟加密的用户信息进行推理运算 , 可以输出相关加密的结果给授权的用户使用 , 比如预测相关疾病的风险 , 或推荐用药物 , 又或提供临床决策支持 , 优化临床路径等 。 这些都需要根据不同的应用来优化隐私计算技术路线 。
总结下来 , 可信计算环境拥有较高的执行效率、较强的灵活度 , 但是其依赖于硬件 。 多方安全计算只能有效服务于两方或者三方的应用 , 其计算所需的通讯带宽较高 , 计算复杂度也比较高 , 计算的灵活性有限 , 这是多方安全计算的缺点 。 优点是其可以是纯软件的解决方案 。 同态加密可以支持加密数据上的某些特定运算 , 但是问题在于其所用的公钥和私钥在多方计算中需要被共用 , 需要一个中心化的节点负责密钥的管理和分发 , 如何选择一个共同信任的密钥节点 , 给多中心合作中带来一定挑战 。 锘崴科技通过融合不同的隐私计算技术 , 在用户无感知的情况下 , 根据具体的应用场景 , 提供一体化的隐私计算解决方案 。
张明镜:所以你这是技术中性的 , 根据不同的场景来选择技术 。 徐老师呢?
徐葳:在我看来 , 隐私计算是一个目的 , 而不是一个技术路径之争 。 没有任何一个技术路径能够完美的解决隐私计算的问题 , 而是需要不同技术的有效结合 。
隐私计算的基本需求是什么?第一 , 我觉得它的安全性应该是可分析可论证的 。 世界上没有绝对的安全 , 但它的安全性应该是可分析可理喻的 , 也就是说你能够清晰的说明这个系统或程序的安全性到底在哪里 , 哪里安全、哪里不安全 , 这需要能够被验证 。 这里面包含理论的安全 , 以及理论落地之后是否安全 。 有些密码学的理论很好 , 但由于它的安全假设很难实现而难以落地;还有一些虽然落地了但是和监管不兼容 , 例如区块链上用的零币(zero-cash) , 虽然密码理论上很安全 , 在任何情况下都无法恢复数据 , 这就变成了黑盒子 , 最后演变成黑市交易 。 所以隐私计算技术最重要的是需要说明它的安全性到底在哪里 , 且它为什么能够合规 , 能够被监管 。
第二 , 技术要通用 。 以数据库为例 , hash index、B-tree以及其他几种技术在数据库里都在用 , 但到底这几个有什么区别 , 一般人很难说清楚 。 为什么?因为数据库是个平台 , 它用声明式的语言告诉你怎么查 , 至于平台背后用什么技术 , 数据库已经替你解决了 , 隐私计算也需要这样的平台 。 我们需要的是数据科学家研究开发一个密文平台或系统 , 这个系统能够满足不同用户的性能需求和安全性需求 , 所以它应该是一个SDK , 让一般人可用 。 任何的通用性都是靠性能 。 我们这些年研发核心就在于通过工程化不断地提升它的通用性和性能 , 我们有非常漂亮的编程接口、有400种不同的函数 , 以及密文计算引擎 , 能够让大家直接在上面写程序并跑出满意的性能 , 这是隐私计算技术的核心 。 至于说到底有多少种协议 , 我们的隐私计算平台里起码得有几十种不同的协议和方法手段 , 在平台里面供系统选择 。