新冠肺炎疫情期间微博话题中医新冠肺炎的关注
2019年末,新型冠状病毒肺炎(Corona Virus Disease 2019,COVID-19)作为突发的一起公共卫生事件迅速席卷全国,国家卫健委相继发布诊疗方案均提及并推荐了中医疗法[1]。作为传承千年的国粹,战胜过无数次瘟疫灾害的传统医疗再次被推到舆论的风口浪尖。新浪微博作为国内最流行的社交平台之一,占有整体网民数量的半壁江山[2],俨然成为了一种具有极强社会号召力和传播力的新闻传播工具[3]。LDA(Latent dirichlet allocation)作为一种文档主题生成模型[4],可以用来识别大规模文档集或语料库中潜藏的主题信息,目前LDA模型在微博热点挖掘[5]、微博情感分析和微博舆论传播领域有着比较广泛的研究[6-7]。本文旨在对微博数据进行编码和LDA主题建模,全面挖掘新型冠状病毒肺炎期间社会公众对“中医新冠肺炎”话题的关注热点,及时发现问题,为中医参与疫情防控阻击战营造良好的网络氛围,增强全民对中医疗法的信任,弘扬中医文化。
1 研究对象与方法
1.1 数据来源
通过微博高级搜索,以#中医新冠#为采集标签,利用python爬虫技术进行数据采集,采集结果为2019年12月20日-2020年3月18日期间包含#中医新冠#话题标签的微博共40 712条。涉及的元数据包括用户名称、用户主页、用户来源、用户认证类型、用户博文、转发数、评论数、微博链接以及发送时间等。
1.2 方法
为了提高微博主题识别的效率与准确性,分析之前对获取到的微博文本进行数据预处理,包括数据清洗、中文分词和停用词过滤[8],删除与主题识别无关的博文,最终得到有效博文29 989条。对预处理后的微博文本按微博关注度进行分类[9],其中转发量和评论量均>0的高关注度微博有4 605条,无评论或转发的低关注度微博25 384条,继而通过主题编码对高关注度微博的显在热点进行主题分类,该过程由两位编码员同时单独进行,两者编码信度达89%,确保了编码的有效性。低关注度微博则采用LDA主题模型分析,挖掘其隐含热点。
2 结果
2.1 用户分布
2019年12月20日-2020年3月18日总微博数量为40 712条,涉及到的用户总数24 859位,其中微博认证用户13 234位(53.24%),认证用户所发微博占总微博量的62.87%。
2.2 高关注度微博主题热点
根据编码结果,4 605条高关注度微博内容主要分为五大类主题:正能量传递类、养身保健类、诊疗方案类、中医文化探讨类、数据报道类。此外,以博文转发数为横轴,评论数为纵轴,形成每条微博文本的转发数与评论数形成微博分布矩阵(如图1)。该矩阵以全部博文转发数和评论数的均值(37.54,52.73)为参考,探讨四个象限区域内微博用户讨论“中医新冠肺炎”的主题热点,分析矩阵主题分布情况。可以看出,第一象限的312条微博的转发量(417.45)和评论量(643.50)均大于均值,其占比最大的诊疗方案类(191条)博文引发了大量的转发和评论。第二象限微博微数量最少,仅占全部高关注度微博的2.61%,其中诊疗方案类博文依然占比最大(35%),最能引起用户的评论互动。第三象限微博分布最为集中,占该类微博的86.06%,其中占比最大的两类分别是诊疗方案类(2 424条)和养身保健类(527条),正能量传递类引发的关注度相对较少。第四象限的微博数量相对也比较少,占比4.56%,文本转发内容主要涉及诊疗方案和中医文化探讨类,转发的平均数为80.6,远远高于指标均值。
图1 高关注度微博分布矩阵
2.3 低关注度微博隐含主题
采用LDA模型的主题模型对25 384条低关注度微博进行分析,挖掘#中医新冠#博文的隐含主题。调用 LDA主题模型在 Python环境下运行,经参数调整测试,设置主题数(n_topic)为 5时,主题间聚类结果最优,其结果如表2,从词识别结果可以看出各主题之间区分非常明显。主题1是有关中医传承的相关信息;主题2有关疫情中的系列公益活动;主题3揭示了不法分子趁机以中医名义实行诈骗;主题4主要是疫情期间各类药品宣传的信息;主题5有关抗击疫情的新闻资讯。
表1 LDA主题模型—低关注度微博主题词识别结果主题核心主题词1.中医传承国医大师、日本、瘟疫、抛弃、利益、人才、储备、民间、创新2.公益行动温暖、捐款、社区、爱心、发放、施药、大医精诚、配送、工厂3.中医骗局犯罪、警惕、案件、免费、自愈、神药、广告、防冠1号、双黄连4.药品宣传藿香、莲花清瘟、药材、特效、中成药、研究、制剂、疗效、闹剧5.诊疗方案北京、中医、浙江、清肺排毒、广东、防治、武汉、湖北、预防
下一篇:没有了