编者按:突发公共卫生事件中,公众良好的情感与心理状况对事件顺利解决有重要意义 。贵州师范大学心理学院硕士研究生潘文浩、李金津、何必凯,贵州师范大学心理学院教授、博士生导师赵守盈(通讯作者)在《传媒观察》2020年第7期发文,借助大数据深度学习技术与自然语言处理方法,对92347条“新冠肺炎”相关的微博文本数据进行关键词词云与情感倾向分析 。根据微博用户关注度的差异,将事件分为诞生期、发展期与成熟期,分别考察不同时期网络用户的关注动态与情感倾向 。结果显示,网络用户的关注点主要包括对疫情动态的担忧、对疫情防控的关切、对战胜疫情的信心等方面;不同时期网络用户情感倾向存在差异,且女性情感表达倾向高于男性;事件成熟后期,信心、希望等积极情感文本数大幅提升 。根据研究结果,分别从政府有关部门以及公众自身角度,对突发公共卫生事件中公众不良心理状况的干预提出建议 。
大数据揭秘:网络用户面对疫情的情感动态
◆潘文浩 李金津 何必凯 赵守盈
本研究运用Python爬虫技术抓取与“新冠肺炎”事件相关的新浪微博文本数据,利用大数据研究方法与经典测量方法相结合的手段,分析网络用户对“新冠肺炎”事件的情感动态变化以及在特定突发事件后用户情感的变化模式 。同时用微博网民作为样本群体,以性别等指标为分类标准,探讨不同性别群体对突发公共卫生事件的情感态度差异 。通过分析突发公共卫生事件中网络用户的情感与心理动态模式,根据心理复原的社会生态理论,分别从政府政策角度和公众个人调整角度,为经历疫情公众提供心理调整建议 。
一、研究方法
(一)数据采集与预处理
1.数据抓取
Python语言是一种应用广泛的编程语言,具有通用性、易扩展性的特点 。?本研究使用Python语言编写Scrapy框架网络爬虫对新浪微博文本数据进行抓取,用“新冠肺炎”“肺炎疫情”等关键词抓取2019年12月11日至2020年2月12日微博推文数据共196416条,数据包括微博作者、微博内容、发布时间、点赞数与转发数等内容 。由于研究需要考虑微博用户的差异,故同步抓取微博发文作者相关公开数据,包括作者网名、性别、地区、简介、微博发文数、粉丝数等,微博用户数据共156474条 。
2.数据清洗
将微博文本数据与用户资料数据分别导入Mysql数据库中进行数据清洗 。首先,以微博链接和用户UID为对比条件,剔除完全一致的微博文本和微博用户数据;其次,微博具有转发功能,部分用户仅转发他人微博,因此剔除用户转发的微博文本;再次,剔除含有正则表达式、表情字符、多余空格、网址的内容;最后,剔除官方新闻平台发布的中性新闻动态 。数据清洗后,微博文本数据共92347条 。
3.关键词词云分析
运用Python中“Jieba”中文分词组件对清洗后的微博文本进行分词,提取全部数据关键词,并对关键词词频进行标注 。获取关键词后,使用Python中WordCloud组件绘制“新冠肺炎”事件的关键词词云,通过关键词词云可以初步探究网络用户对此次突发公共卫生事件的态度与看法 。结果发现,网络用户对“新冠肺炎”事件的关注点主要包括对病毒和肺炎原因的探究(关键词为肺炎、病毒、感染、确诊等)、对疫情动态的担忧(关键词为不明、人传人、隔离、死亡等)、对疫情防控的关切(关键词为防控、发布、治疗、检测等)、对战胜疫情的信心(关键词为希望、加油、抗击、致敬等)和对突发事件的关注(关键词为口罩、李文亮、双黄连等)等方面 。其中,网络用户情感倾向主要包括积极情绪(关键词为信心、加油、希望、致敬和抗击等)以及消极情绪(关键词为感染、病毒性、不明和隔离等) 。
(二)话题分析
网络事件舆情演化存在阶段性,可分为诞生期、发展期、成熟期和衰退期 。由于本次事件还未结束,本研究仅分析事件诞生期、发展期和成熟期阶段 。心理学研究的一条基本法则是通过外部行为推测内部心理过程,本研究重点关注疫情防治过程中出现的突发事件,分阶段分析网络用户微博关键词词云,根据不同阶段网络用户关注程度以及关注点的差异,深入探讨其情感和认知变化的表现 。
同时,运用SPSS软件分析用户群体微博发文数量和关键词的性别差异,同时运用logistic回归对不同性别间情感倾向的差异进行分析 。
(三)情感分析
情感分析(Sentiment Analysis,SA)是自然语言处理(Natural Language Processing,NLP)下的子分类,主要指运用词典匹配、机器学习或神经网络技术对主观性文本中的情感信息进行分析、处理与归纳的过程 。其中词典匹配方法是指通过使用已进行词性标注的情感词典和文本中的词进行对比,从而得出文本的整体情感倾向 。但是情感词典内容具有片面性,其对不同领域词句的划分效果较差 。传统机器学习方法主要通过不同的文本分类器,例如支持向量机SVM、朴素贝叶斯、决策树等方法对文本词性进行匹配与训练,是一种有监督的学习方式,需要大量人工标记的分类特征 。而神经网络方法主要通过计算机无监督学习方式,在有限先验知识条件下自主学习文本特征,并主动进行分类,已经成为情感分析和自然语言处理中重要的方法,主要包括长短期记忆网络LSTM、双向长短期记忆网络BiLSTM、卷积神经网络CNN等算法,使用该方法进行情感分类准确率较高 。
本研究选取Paddle_Senta中LSTM、BiLSTM、CNN模型以及研究者针对此次事件训练形成的CNN模型进行算法性能评估实验 。使用精度(Precision)、召回率(Recall)和F值(F-Score)作为模型可靠性评估指标 。本研究综合比较三种可靠性指标差异,选择最适合的情感分析算法 。
本研究对抓取的微博文本数据进行人工情感标注,标注积极情绪和消极情绪句子各500条作为测试集,使用LSTM、BiLSTM、CNN等方法对测试集数据进行情感分类效果实验 。可以发现本研究中,针对此次事件训练的CNN模型精度(Precision)、召回率(Recall)和F1值(F-Score)均高于LSTM和BiLSTM算法,且其准确率ACC指标达到90.2% 。故本研究选取此算法作为“新冠肺炎”事件微博情感分析的算法 。
二、研究结果
(一)事件描述性结果
本研究分析了“新冠肺炎”事件背景下,网络用户微博发文的动态变化情况 。结果发现,随着事件的发展,网络用户的微博数量呈现阶段性变化,且微博数量与事件关键节点显著正相关 。通过分析抓取到的微博数据,本研究根据“新冠肺炎”事件网络用户关注程度,将事件分为诞生期、发展期以及成熟期三阶段 。
1.诞生期:2019年12月11日至2019年12月30日
此阶段与“新冠肺炎”事件相关的微博数量较少 。综合事件进程可以发现,12月31日13时38分湖北省武汉市卫健委发布首条官方通告,承认武汉市出现不明原因的病毒性肺炎,至此,与之相关的微博数量大幅增加 。通过微博关键词词云分析发现,此阶段用户微博主要关键词为流感、生猪、非洲猪瘟、猪肉、预防、疫苗等 。
2.发展期:2019年12月31日至2020年1月20日
此阶段微博数量的波动与官方声明和措施有关 。网络用户对不明肺炎的讨论明显增加,担忧与恐慌情绪逐渐增长,网络用户积极情绪较少 。此阶段微博舆论不断增加,事件正在逐渐发酵,处于事件的发展期 。词云分析后发现主要关键词为不明、病毒性肺炎、人传人、治疗、口罩、华南海鲜市场等 。
3.成熟期:2020年1月20日后
此阶段网络用户对事件的关注度剧增,同时随着人传人现象的确认,全国各地用户发文数均大幅增加,每日微博数持续增长,事件逐渐进入成熟期,此阶段关键词为新冠肺炎、李文亮、中国加油、希望、防控、平安、双黄连等 。其中,2020年1月31日至2月2日,受“双黄连口服液可有效抑制新冠肺炎”新闻的影响,微博发文数量明显上升 。
(二)网络用户关注度与情感倾向差异
本研究对比不同神经网络算法,选择最优的卷积神经网络算法对微博文本进行情感分析 。结果发现,消极情绪文本占63.5%,积极情绪文本占36.5%,且不同情绪下的微博数量存在男女性别差异 。男性女性在消极情绪微博的数量上没有差异,但女性积极情绪微博数占比21.2%,显著高于男性微博数 。同时我们对不同性别用户微博文本进行关键词词云分析,结果发现,男女关键词均包括肺炎、病毒、感染、中国、确诊等“新冠肺炎”事件本身情况,但女性关键词中加油、希望、平安等积极词汇出现频率更高,男性关键词大多与病毒的防控与治疗相关 。
为了更加全面地分析不同人群对待本次“新冠肺炎”事件的差异,我们也需要探索其对该次事件的情感倾向是否存在本质区别 。本研究对男女性别(0为男性,1为女性)在情感倾向上的差异进行logistic回归分析,变量入选标准为0.05,剔除标准为0.10 。结果发现,此次事件中男女情感表达倾向存在差异,且女性情感表达倾向显著高于男性(前者是后者的1.39倍),针对“新冠肺炎”事件,女性会有更高的情感表达倾向 。
(三)网络用户关注度与情感倾向的阶段差异
1.网络用户情感倾向差异的阶段变化
本研究根据网络用户关注度将事件分为诞生期、发展期和成熟期 。为更加全面地分析不同人群对待本次“新冠肺炎”事件的差异,我们探索了本次事件发展各阶段的情感倾向是否存在质的区别,对不同阶段微博用户(0为男性,1为女性)情感倾向的差异进行logistic回归分析 。结果发现,话题诞生阶段男女情感表达倾向上没有差异,而在发展期和成熟期,男女情感表达倾向存在差异,且女性情感表达倾向显著高于男性(前者分别是后者的1.36倍和1.35倍) 。结果说明,情感倾向的阶段变化存在男女性别差异,整体而言女性会有更高的情感表达倾向 。
2.性别与情感倾向微博数的阶段差异
为探讨男性与女性用户微博发文数的阶段变化,我们分阶段对男女性用户微博数进行T检验,结果发现,事件全过程中的微博发文量存在显著的性别差异,女性微博发文数显著高于男性 。具体来说,各阶段的微博发文数都存在性别差异 。在发展期,男女微博发文数没有显著差异,在诞生期和成熟期均存在显著差异 。可以发现,在诞生期男性微博发文数显著高于女性,而在成熟期男性微博发文数显著下降 。
同时,本研究对不同情感倾向微博数的阶段差异进行了分析 。结果发现,在事件的各阶段中,消极情感的微博数均高于积极情感的微博数 。结果说明,网络用户对此次事件的看法偏向消极,负性情感较多 。
而通过分析不同阶段网络用户情感微博数的变化,我们可以得出网络用户情感倾向的动态变化情况 。结果发现,在事件的各阶段中,不同性别用户的消极情感的微博数均高于积极情感的微博数 。
三、讨论
(一)网络用户关注度变化
用户关注度的变化体现了公众心理状态的改变,通过关键词词云分析,可以发现不同时期用户的关注点的变化,网民关注的核心问题从事件本身以及有关部门如何采取措施转变为坚定信心以及驰援疫情灾区 。
同时本研究对比了不同阶段用户发文数的性别差异 。结果发现,在事件诞生期,男性发文数显著多于女性,而发展期和成熟期,女性用户发文数超过男性,这一结果说明男女个体对突发公共卫生事件关注程度的变化趋势存在差异,女性对事件的持续关注度更高 。同时对比男女词云可以发现,男性更关注“新冠肺炎”事件本身,例如事件发生的过程、原理等,而女性的言论中则更多包含积极关键词,对事件发展持乐观态度 。随着事件的不断发展,网络用户的关注度会逐步趋于稳定,对“新冠肺炎”本身的关注逐渐下降,转而会以积极的心态对待其他需要帮助的地区 。同时,网络用户恐慌情绪逐渐消失,公众安全感逐步上升,对事件的解决持积极乐观的态度 。
(二)网络用户情感与心理动态变化特点
本研究对不同阶段网络用户微博文本的情感倾向进行分析 。通过对比四种主流神经网络算法,最终选择了根据本次事件训练而成的CNN神经网络算法 。运用该算法发现本次事件发展全过程中,消极情感微博数均高于积极情感微博数 。有研究发现,突发公共卫生事件与公众的切身利益息息相关,公众普遍对此类信息较为敏感 。在此类事件的诞生期,如果权威信息发布不够及时和公开透明,非常容易引起消极言论的病毒式传播,甚至形成群体消极情绪极化现象,这种集体负性情感一致现象的出现,可能会导致公众的社会不安全感倍增 。但是适当的消极情感偏向对事件的发展也具有一定的推动作用,这将有助于公众主动获取相关正面信息 。应激理论强调,负性注意偏向是人类的一种保护性措施,人们会倾向于优先考虑消极信息而不是积极信息,通过对消极信息的优先关注,可以更好地识别威胁目标,并提前进行准备,这有助于人类生存与发展 。因此,虽然前期的恐惧焦虑等负性情绪极化现象较多,但是并不说明网络用户对事件本身持有悲观消极态度,更可能是希望事件尽快结束的一种心理防备 。而一旦确定事件朝向积极方向发展,威胁自身安全的隐患得到控制,公众中的积极乐观情绪就会占据主导 。因此可以发现在事件发展期和成熟期出现众多积极的推文(例如,鼓励和驰援武汉),这充分说明在突发公共卫生事件中,社交媒体的传播有助于情感安慰以及凝聚力的增加 。
在严重突发公共卫生事件发生发展的各阶段,我们发现公众情绪和心理存在动态变化的特点 。首先,在好奇心理的作用下公众会对未知事件产生关注 。此阶段,网络用户开始关注网上出现的相关博文消息,大多出于一种探求事件真相的心理,尤其是男性用户会开始关注自己不了解或是异于常理的事件 。其次,在主观宣泄心理作用下事件会逐步扩散 。受众对社会的不满足感、焦虑感、愤懑感、危机感等都必须通过一定的途径进行表达和宣泄 。社会放大理论指出,人们倾向于通过自媒体或社交网络等非正式平台感知来自网络的风险信息,并且这些信息的威胁强度经过公众理解与转换,在风险传播的每个点都会放大或减弱 。而风险一旦被官方机构正式承认,可能会产生连锁反应,以失实或夸张的形式广泛散布 。然后,在事件发展中期,公众会产生较为强烈的社会性道德情绪 。道德情绪最大特点就是社会性与利群性,公共事件的社会性和复杂性会激发公众道德情绪 。在面对突发公共卫生事件时,道德情绪会晚于恐惧担忧等基本情绪出现 。Haidt等人将道德情绪分为自我意识、谴责他人、他人境遇、赞扬他人几类 。在本次事件成熟期早期,网络用户在恐惧担忧等基本情绪影响之下,道德情绪逐渐显现,公众会根据预期的风险认知来调整自己的实际行为,不再一味关注事件本身,转而对他人遭遇予以关注以及对医务人员的行为表示赞美 。最后,公众还会在社会支持心理的作用下自发产生帮助行为 。社会支持理论强调来自家庭、朋友、社会的支持与帮助有助于社会心理的稳定 。本次事件成熟期后期,随着疫情的逐渐控制,微博用户的积极情绪显著增加,其中既有对身边家人的鼓励,也有对疫情重灾区的加油鼓劲,网络社会与现实社会均出现大量积极信息 。
本研究对比了男女用户情感倾向的差异,结果发现事件的不同阶段情感倾向表达上存在显著的性别差异,女性的情感表达倾向会逐渐增加,且偏向积极 。这说明随着事件发展的阶段性,对事件的恐慌和担忧情感会被积极和有信心的情感所覆盖,女性用户在事件的中后期会有更多的信心和安全感 。有研究发现,公众对待突发事件的情感倾向存在性别差异,本研究支持该结论,女性在事件后期会更倾向于表达信心、同情和鼓励等积极情感倾向,且情绪强度更大;而男性则会更多表达怀疑、担忧、厌恶等消极情感倾向 。随着事件的不断发展,不同性别用户的情感倾向会更加明显,积极情绪会逐渐成为主流 。
(载《传媒观察》2020年07月号,原文约1000字,标题为:突发公共卫生事件中网络用户的情感与心理动态分析——以“新冠肺炎”事件为例 。此为节选,图表和注释等从略,学术引用请参考原文 。)
【作者简介】
潘文浩,李金津,何必凯,贵州师范大学心理学院硕士研究生
赵守盈(通讯作者),贵州师范大学心理学院教授,博士生导师
【面对疫情(病毒疫情)】来源:紫牛新闻
猜你喜欢