快速检测社交网络上的虚假新闻

快速检测社交网络上的虚假新闻


源 | KDnuggets      译 | 方小晗

假新闻是社交媒体的一个重要问题。本文概述了数据科学和机器学习研究中假新闻的特征和检测。

 

社交媒体用于新闻市场是一把双刃剑。一方面,它的低成本、易访问和快速传播信息的特性方便用户去消费和分享新闻。另一方面,它会产生病毒式的 “假新闻”,比如故意散布虚假信息的低质量新闻。假新闻的迅速传播对个人和社会有潜在的灾难性的影响。例如,在美国 2016 总统选举期间,最流行的假新闻在脸书上的传播比主流新闻更为广泛。因此,社会媒体上的虚假新闻检测越来越受到研究者和政界人士的关注。

 

在社交媒体上进行虚假新闻检测具有独特的特点,也具有新的挑战。首先,假新闻是故意写来误导读者相信的虚假信息,这使得它很难根据新闻内容进行检测。因此,我们需要利用辅助信息,例如使用社交媒体上用户的社交活动,来帮助区别真实新闻。第二,利用这种辅助信息本身不是关键的,因为用户与假新闻有关的社交活动会产生的庞大的,不完整的,非结构化的,嘈杂的数据。这个快速指南是基于最近的一项调查 [1],他介绍了社交媒体上虚假新闻检测的问题、最新的研究成果、数据集以及未来的方向。接下来,我们将重点介绍这次调查的主要观点。

表征与检测

图1 是社交媒体上检测假新闻的概述,包括两个阶段:表征和检测。假新闻本身并不是一个新问题,而是媒体生态在不断变化,从报纸到广播/电视,以及最近的在线新闻和社交媒体。假新闻对传统媒体的影响可以从心理学和社会理论的角度来描述。例如,两大心理因素使消费者自然而然地受到假消息的影响:(i)素朴实在论:消费者倾向于相信自己对现实的看法是唯一正确的观点。(ii)证实性偏见:消费者更倾向于接收确认其现有观点的信息。另一个例子,社会认同理论和规范性影响理论认为被社会接受的偏好对一个人的身份是必不可少的,即便分享的新闻都是假新闻,人们也偏向选择“社会安全”的新闻选项进行消费。

假新闻在社交媒体上有其独特的特点。例如,恶意账户可以方便快捷地创建来促进假新闻的传播,如社交机器人,机器人用户,或巨魔。此外,由于新闻以信息流的方式在社交媒体主页上出现,用户会被有选择地曝光某些类型的新闻。因此,在社交媒体的用户倾向于形成相似意向的群体,他们可能会相互印证观点,造成一个回音室效应。

 

快速检测社交网络上的虚假新闻

图1. 社交媒体上的虚假新闻检测:从特征到检测

上述理论对指导虚假新闻的研究具有一定的参考价值。现有的虚假新闻检测算法大致可以分为(i)基于新闻内容和(ii)基于社交内容的。

  • 基于新闻内容的方法侧重于提取虚假新闻内容中的各种特征,包括基于知识的和基于风格的。由于虚假新闻试图散布错误的声明,以知识为基础的方法旨在利用外部来源对新闻内容中的真实性进行事实核查。此外,假冒的新闻发布者往往有险恶的意图来传播扭曲和误导信息,需要特定的写作风格,呼吁和说服并没有看到真正新闻的广大消费者。基于风格的方法通过捕捉写作风格的机械手来检测假新闻。

  • 基于社交内容的方法旨在利用用户社交活动作为辅助信息,帮助发现虚假新闻。基于姿态的方法利用用户对相关内容的观点来推断原始新闻文章的真实性。此外,基于传播为方法是通过推导有关的社交媒体文章之间的关系,传播用户,文章,新闻之间的信誉值,引导信誉分数的学习。新闻的真实性是由相关社交文章的信誉值来衡量的。

  • 数据集

    虽然可以从不同的来源收集在线新闻,但是手动标注新闻的准确性是一个具有挑战性的任务,通常需要具有领域专业知识的注解者,对主张,额外证据,背景,权威来源的报告有仔细研究的人。由于这些挑战,现有的虚假新闻的公共数据集相当有限。为方便虚假新闻检测的研究,这项调查 [1] 提供一个可用的数据集,名为fakenewsnet,包括新闻内容和社交背景特征并标记了可靠的客观真实的假新闻标签。

    一个有前途的研究

    在社交媒体上的虚假新闻检测是一个新兴的研究领域。调查 [1] 从数据挖掘的角度讨论了相关的研究领域、开放的问题和未来的研究方向。如图 2 所示,从四个方面概述了研究方向:面向数据的、面向特征的、面向模型的和面向应用的。

    快速检测社交网络上的虚假新闻

    图2. 社会媒体虚假新闻检测的未来方向和开放问题

  • 面向数据:它侧重于虚假新闻数据的不同方面,如基准数据收集、虚假新闻的心理验证和早期虚假新闻检测。

  • 面向特征:它旨在探索有效的特征,用于检测来自多个数据源的虚假新闻,如新闻内容和社交背景。

  • 面向模型:它开启建立具有实用性和有效性的虚假新闻检测模型的大门,包括监督的、半监督的和无监督的模型。

  • 面向应用:它包含超越虚假新闻检测的研究,如虚假新闻的扩散和干预。

  •  

    [1] Shu, K.,Sliva, A., Wang, S., Tang, J. and Liu, H., 2017. FakeNews Detection on Social Media: A Data Mining Perspective. ACM SIGKDDExplorations Newsletter, 19(1), pp.22-36.

     

    作者简介:Kai Shu 是亚利桑那州立大学的研究生助理,他的研究兴趣包括社交媒体挖掘,尤其在信息可信度、虚假新闻和机器学习。Huan Liu 是亚利桑那州立大学富尔顿工程学院的计算机、信息学和决策系统工程学院教授。

     

    -END-

    译者 | 方小晗

    快速检测社交网络上的虚假新闻

    数据挖掘攻城狮,机器学习爱好者,上海海事大学研究生,喜欢思考各种创新应用,挖掘大数据的价值,希望认识更多志同道合的小伙伴儿。

    后台回复 “志愿者”

    了解如何加入我们

    快速检测社交网络上的虚假新闻