核心|微博核心传播者挖掘与传播规模预测研究( 二 )


(1)文本相似度。微博社交网络大量的“灌水”、“刷数据”的行为使得许多转发行为在内容上与原内容无关,表达价值有限,因而引入文本相似度以衡量转发文本与原微博在内容上的相关程度,具有与原微博较高相似度的转发文本才能真正传播观点和内容,方能实现核心传播者所应具备的“扩大影响”以及“引导舆论走向”的职能要求。
(2)内容情感倾向。在微博社交网络中,原创微博会引发大量的转发,转发内容综合体现了众人的褒贬情感。识别信息传播过程中传播者的主流情感态度, 有利于筛选出引导舆论发展方向、对其他受众施加显著影响的真正核心传播者。
3.3 核心传播者的指标权重以结构特征、传播特征、内容特征为分析指标,运用模糊层次分析法确定指标权重。模糊层次分析法(FAHP)判断指标元素权重相较传统的层次分析法具有计算过程复杂度低与计算结果分辨率高等优点,有利于提高排序与决策的科学性。
3.4 核心传播者挖掘算法3.4.1 评价体系各指标量化方法
结构特征和传播特征数据能够较为容易地从数据集中获得。在内容特征方面,对于情感指数,首先需要对用户的转发文本的情感极性进行分类。本文采用LSTM神经网络训练了10万条带有正负情感标记的微博转发、评论文本数据集,经过五轮训练,准确率高达94%,损失函数则低至0.37(见附录A图3),具有较好的预测效果。
随后,由于模型的预测结果实际是文本内容为正向及负向的双向可能性,尝试以情感极性的期望描述情感的强烈程度。(文本情感极性分析流程见附录A图4)众多研究表明网络的负面情绪往往相比正向情绪具有更大的传播效果,因而得到公式:
文本相关度则利用TF-IDF算法获取。由于微博转发文本主要针对热点事件、话题开展讨论,共输入1000余篇完成分词的新闻文本构造出词典并构建TF-IDF模型,最后以此进行原微博文本与转发文本的相似度匹配。
3.4.2 预处理问题
在内容属性挖掘过程中,本研究首先对转发文本的非汉字词组、标点、用户昵称等进行了过滤。由于每种特征数据具有不同的量纲,因此采用min-max标准化对数据进行线性转换,将结果映射到(0,1)之间。转换函数为:
综上得到综合评价指数计算公式:
3.4.3 改进的PageRank算法
三维度的综合评价体系可以有效评估一个节点本身的直接影响力,然而用户的影响力与传播效果除了本身的直接影响,还应包括传递本节点观点的后续节点传播所带来的间接影响。由此,本研究尝试引入网页排名算法PageRank 思想:
其中,Vn,Vn-1代表一系列节点组成pagerank值向量,M为N×N概率转移矩阵。相较于传统微博影响力研究针对粉丝-关注网络进行PageRank计算,本研究创新性地将PageRank思想引入微博转发网络。PageRank算法的思想与微博转发网络相吻合。因此本研究将构建由转发者指向被转发者的有向关系图。
但PageRank的弊端在于过分看重外部链接的间接价值而忽视了节点本身的直接价值,前文所述三维度指标体系恰好可以较为全面评价一个节点本身的直接影响力和价值。参考陈淑娟[2]、冯勇[3]等的研究思路,本研究将节点i的综合评价指数I作为权重参数乘至到PageRank转移概率矩阵中第i列(即为所有节点链接到节点i的概率加权),从而影响PageRank的迭代结果。
本处数学处理的意义可解释为:当一个转发用户的自身影响力与传播价值较高,任何对他进行二次转发的节点将有更大的概率将流量引向该用户。
综上,改进后的用户影响力(User Influence, UI)的矩阵表达式如下:
其中AIndex为本微博各转发节点综合评价指数所组成的N×N对角矩阵,Vn为n次迭代后得到的N个节点的UI值组成的向量。
3.5 预测单条微博传播规模3.5.1 核心传播者的信息传播动力学建模
信息在社交媒体中的传播模式呈现出去中心化的特点,核心传播者在信息传播过程中带动了大量的二次传播[4]。本研究对核心传播者带动的信息传播模式进行可视化(附录A图5)发现,绝大多数的核心传播者的转发能够迅速引起大量的二次转发,之后转发数迅速下降,进入到慢速传播状态,直至转发数极低或者为零。
由此,本研究对核心传播者的信息传播模型借由Wang等人[5]的思想:在信息传播初期,单位时间内核心传播者带动的转发数为幂律衰减函数,随后核心传播者的影响力和信息新鲜度下降,转发数又呈现出指数衰减。因此将核心传播者的信息传播过程表示如下:
其中,F0,α,τ为预估参数。F0为用户初始影响力,在本研究中,其决定因素为结构特征;α为核心传播者的影响力衰减速度,τ为核心传播者影响力的持续时间,二者的大小是信息传播过程中多种因素交织的结果,在本研究中简化为由结构特征、内容特征和微博转发时间决定。3.5.2 预测单条微博传播规模