剑桥分析之后又来剑桥大学,Facebook再曝泄露400万用户数据

剑桥分析之后又来剑桥大学,Facebook再曝泄露400万用户数据

《新科学人》报道称,剑桥大学的研究人员曾收集300多万Facebook用户以及他们的一系列个人信息,而在4年左右的时间里,任何人都可以下载这个数据集。在Facebook服务条款比较宽松的时期,这可能只是众多收集庞大用户数据集的地方之一。



这些数据是个性测试应用myPersonality收集的,根据该应用自己的网站(目前网站已经下线),myPersonality于2007-2012年期间上线运行,但截至2016年8月,仍有新数据被添加进来。myPersonality一开始是剑桥大学心理测量中心(Cambridge Psychometrics Centre)研究人员大卫·斯第威尔(David Stillwell,他目前是该中心的副主任)进行的一个附带项目,但之后发展成为一个更有组织的研究项目。网站声称,该项目“在学术界拥有密切的联系,但它本身是一项独立的业务”。(想必是出于规避责任的考虑,myPersonality从未收取访问数据的费用。)



虽然名称里都有一个“剑桥”,但这个剑桥跟剑桥分析公司(Cambridge Analytica)并没有实际的联系,只是通过亚历山大·科根(Aleksandr Kogan)搭了一点边(后面将对此进行解释)。



跟其他测试应用一样,myPersonality要求用户同意应用访问其个人资料(应用没有收集用户好友的数据),这些数据跟用户给出的问卷答案结合起来,生成了拥有数百万用户资料的丰富数据集。myPersonality收集的数据包括人口统计资料、状态更新、一些个人资料图片、点赞内容,等等;但不包括用户的私人消息或来自好友的数据。



我们很难说清究竟有多少用户受到了影响:myPersonality网站声称其数据库中拥有来自400万用户(因此本文标题就采信了这个数字)的600万个测试结果,但可供下载的数据集中只包含了310万用户的个性测试得分,而关于特定指标(比如雇主或学校)的数据点就更少了。无论如何,总数就在那个量级上,而每个用户的数据不尽相同。

剑桥分析之后又来剑桥大学,Facebook再曝泄露400万用户数据

尽管这个数据集已经移除了身份识别信息(比如用户的真实姓名),但考虑到数据集的容量和广度,某些人有可能对它进行“去匿名化”处理(这里应该补充的是,没有证据表明有人曾经那么做过)。



注册的学者可以通过一个维基网站获取该数据集,但他们必须同意myPersonality自己的服务条款。来自数十家机构和公司的数百位研究人员曾在众多论文和项目中使用过这个数据集,这当中包括谷歌、微软、雅虎,乃至Facebook自己(笔者向Facebook问到了这件奇怪的事情,该公司的一位代表说,列名的两位研究人员是在入职Facebook之前提出使用数据集申请的;笔者看到那两位研究人员标明自己隶属于Facebook,为什么会这样目前尚不清楚,但Facebook的回应就是这样)。



myPersonality的行为本身就违反了Facebook的服务条款,其中禁止将此类数据分发给第三方。然而,就像我们在过去一年中看到的那样,Facebook几乎没有费心去执行这项政策,数百个(乃至数千个)应用都在堂而皇之地分享收集自Facebook用户的数据,将这些条款践踏在地。



就myPersonality而言,用户数据本来只应该分发给真正的研究人员。斯第威尔和他当时的研究合作者米哈·科辛斯基(Michal Kosinski)会亲自对申请者进行审查,后者需要列明他们所需的数据和原因,正如下面这张申请表样表所示:

我是一名全职教员(如果你是一名学生,请让你的指导老师替你申请数据访问权)。我已经阅读并同意 myPersonality 数据库使用条款(不开玩笑,请认真阅读)。我将为研究小组中任何学生对这些数据的使用负责。

我打算使用下列变量:

*(列出你想要使用的变量

*告诉我们你打算



* 如何对它们进行分析。)

然而,一位讲师在GitHub上公布了自己的用户名和密码,以便学生可以使用这些数据。《新科学人》估计,在大约4年时间里,任何搜索myPersonality数据库访问权的人都可以获取那些认证信息。



这似乎表明,Facebook在管理其本应保护的数据方面十分马虎。一旦这些数据离开Facebook,该公司就没有办法进行控制。但事实是,一个包含数百万条目的数据集被开放给任何提出请求的学者以及任何使用公开认证信息的人,这表明Facebook根本没有做出过努力。



Facebook的研究人员请求访问违反了自家公司政策的数据,这除了表明Facebook无意于保护这样的数据集以及更关心规避责任之外,我想不出还能得出其他什么结论。毕竟,如果myPersonality违反了政策,Facebook可以关停该应用——顺便说一句,该公司上个月就是这样做的——然后把责任全都推给了违规者。



“我们在一个月前关停了myPersonality应用,因为我们认为它可能违反了Facebook的政策。”该公司的产品合作副总裁伊米·阿奇博格(Ime Archibong)在一份声明中表示,“我们目前正在对该应用展开调查,如果myPersonality拒绝合作或未通过我们的审查,我们将封杀它。”



在提供给TechCrunch的声明中,大卫·斯第威尔为myPersonality项目的数据收集和分发进行了辩护。



“myPersonality项目的合作者已经发表了100多篇探讨重要话题的社会科学研究论文,这些研究成果促进了我们对社交网络使用及其影响的理解。”“我们认为,学术研究可以从这种举措中受益,也就是合理控制匿名数据在研究社区中的共享。”



在另一封电子邮件中,米哈·科辛斯基还强调了基于他们数据集发表的研究成果的重要性。 近期的一个项目 研究了人们如何评估自己的个性,并跟其他人以及计算机的评估进行了对比。

剑桥分析之后又来剑桥大学,Facebook再曝泄露400万用户数据

图表来自基于myPersonality数据库发表的研究论文,计算机的表现跟被试者的配偶差不多。

“至少从2011年起,Facebook就知道我们的研究,并采取鼓励的态度。”这份声明继续道。这种说法跟Facebook发言人给出的解释并不一致,后者声称Facebook基于违反政策而关停了myPersonality,依据就是该应用在数据再分发条款中所使用的措辞。一个可能的解释是,Facebook从未对此给予密切关注,直至这种类型的个人资料共享变得不受欢迎,以及数据在学者中间的使用和分发开始受到更严格的审查。



斯第威尔表示(剑桥大学心理测量中心也

特别说明

),亚历山大·科根没有参与myPersonality项目;不过,他是拥有数据访问权的项目合作者之一,就像其他机构的研究人员一样。科根显然已经证明,在跟SCL和剑桥分析公司的交易中,他并未使用这些数据。



声明还说数据集中最新的数据是6年之前的,据我所知,这基本准确,只不过在2016年8月的时候有一组新数据被加入进来,那是涉及2015年彩虹头像运动的80万用户数据。这无关宏旨,但我认为值得一提。



Facebook已经关停了数百款应用和服务,并且正在对更多应用和服务展开调查。此前,剑桥分析数据泄露事件已经让一件事情变得显而易见,即为了一个目的收集的用户数据正在被重新部署到其他各种目的当中。举例来说,剑桥心理测量中心还搞了一个名为

Apply Magic Sauce

的独立项目;笔者向研究人员询问了它跟 myPersonality 数据之间有什么联系。



我们从目前已公开的一小部分关停行动和数据收集方法中可以得出结论,在其管理最宽松的时期(即在2014年之前),Facebook允许不计其数的用户数据脱离其管控,而这些数据仍然在外面流传,完全不在该公司的控制范围之内,并且被各种人用于各种目的。



研究人员在获得同意之后使用用户数据并不是问题所在,但Facebook(以及在某种程度上那些研究人员自己)无力对数据进行任何有意义的控制,这表明他们在数字隐私方面存在着严重失误。



归根结底,Facebook似乎应该肩负起监管责任,但正如马克·扎克伯格在国会的表现所凸显的那样,除了悔过和承诺做得更好之外,他们还不清楚负责任到底是要怎么做。

一再声明 

除微信号外,TechCrunch在其他国内内容平台(如“头条号”、“搜狐号”、“百家号”、“创业家”、“网易号”)均为爬虫抓取;“虎嗅”平台的“TechCrunch?”帐号更非我站人员建立,实为践踏Copyright;除“动点科技”外,其他网站服务中“编译自TechCrunch”的内容均为未授权翻译。版式呈现和内容都有一定可能出现滞后、偏差、改动或删减。TechCrunch不对上述任意平台之“TechCrunch中文版”、“TechCrunch”、“TechCrunch?”帐号,或以“编译自TechCrunch”为由发布的内容负任何编辑责任,如有纠纷请直接联系相应内容平台。

剑桥分析之后又来剑桥大学,Facebook再曝泄露400万用户数据

早鸟票

限时开放

中,点击“

阅读原文”

立刻购买

这一次,不仅仅是独角兽,我们TechCrunch杭州见!