核心|微博核心传播者挖掘与传播规模预测研究

摘要:基于30条热门微博的全部传播数据及参与传播的账号关系,本报告利用数据挖掘方法量化地评估出各主题微博转发网络的结构特征、传播特征、内容特征,并以此建立全面、系统的综合评价体系,再结合PageRank算法思想,提出了一种有效的核心传播者挖掘算法,从而精准地评估各条微博中各节点的影响力差异,识别核心传播者。最后依据核心传播者的行为集合建立传播模型,预测了单条微博的传播规模。
核心|微博核心传播者挖掘与传播规模预测研究
文章插图
由中国新闻史学会计算传播学研究委员会与微热点大数据研究院联合举办的第二届传播数据挖掘竞赛已圆满落幕,15支战队尽显风采。以下为“核心用户挖掘与传播规模预测”选题优秀作品《社交媒体时代核心用户识别与传播规模预测分析》,由来自中国传媒大学“猪头DD的BoysandGirls天天有钱”精彩呈现。
一、引言作为一种基于用户关系信息分享、传播以及获取的社交平台,当前微博已成为中国最重要的公共空间,而微博的核心传播者起着舆论引导甚至改变舆情发展方向的重要作用。微博核心传播者的挖掘对信息的传播与演化的深度分析、舆情监控和引导都具有重要意义。另一方面,也为提供个性化服务以及差异广告的投递提供便利。如何挖掘微博核心传播者,成为我们关注的议题。
二、问题的提出与分析挖掘核心传播者是本报告的核心议题。在此背景下,提出以下四个子问题:

  1. 核心传播者如何定义,存在什么样的特征?
  2. 未知个体身份信息的情况下,基于30条热门微博的全部传播数据及参与传播的账号关系,如何对核心传播者的关键特征进行有效量化?
  3. 如何基于量化的关键特征建立全面系统的评价体系并精准地评估各条微博中各节点的影响力差异,并识别核心传播者?
  4. 在有限的信息中如何较准确地刻画出核心传播者的行为画像,进而建立有效的模型预测单条微博的传播规模?
三、研究过程与方法3.1 微博核心传播者概念辨析本报告中的“微博核心传播者挖掘”和“意见领袖挖掘”不同。在《人民的选择》中,拉扎斯菲尔德(Lazarsfeld)首次提出“意见领袖”。意见领袖作为媒介信息的影响的中继和过滤环节,对大众传播效果产生重要影响,是大众传播中不可缺少的一部分。
关于微博意见领袖挖掘的研究众多,但当前大多数挖掘意见领袖是基于微博整个的传播环境而言。
本研究从给定的数据集里找“核心传播者”,非严格意义上的“意见领袖”,不考虑用户评论、点赞、活跃度等因素。笔者基于研究范围,将本文的微博核心传播者定义为:在微博信息传递中,对舆论的发展能起到关键性的导向作用,具有影响他人态度和行为的能力,能加快传播速度并扩大影响的用户。
3.2 核心传播者影响力特征基于对用户节点的深度分析,综合用户节点的各类属性,本研究基于30条热门微博的全部传播数据及参与传播的账号关系,选取用户的结构特征、传播特征和内容特征作为用户影响力特征,并以此建立综合评价体系:
3.2.1 结构特征
结构特征体现了用户本身因素和所在网络拓扑的结构因素,通常可以由粉丝数,关注数,中心度等属性表示。附录A图1显示了一个社交网络拓扑图。但由于数据集所限,同时为了提高准确度,本研究将用户的结构特征指标归结为以下两点:
(1)用户关注数。关注数代表用户能力范围内的信息接受度,核心传播者的关注数应该在一个合理区间内。
(2)用户粉丝数。因粉丝数在数据集中未给出,本研究使用倒排索引法从用户关注集合中反向找出用户粉丝集合。附录A图2显示了该方法得到的用户粉丝数符合幂律分布,且获取的用户为实际参与到传播行为的“激活用户”,是粉丝中对传播贡献最为显著的部分,故可将该结果用于构建用户结构特征指标。
3.2.2 传播特征
用户的传播特征即用户在信息传播过程中的传播行为特征,通常表现为在一段时间内发布的微博数和微博被点赞、被转发和被评论的数量等。同样因数据集所限,只将特征固定在转发数。同时,我们通常认为,当用户发布的微博被非粉丝转发条数越多,说明其影响力不局限于固定受众,影响力可能越大。因此,本研究将传播特征区分为粉丝转发数和非粉丝转发数。
3.2.3 内容特征
在意见领袖挖掘问题中,用户的影响力不能简单地从结构特征和行为特征衡量,还需要从语义内容角度去评价特定用户对于某一话题的观点[1],内容特征参考以下两点: