CN112417868A

CN112417868A - 一种基于情绪分数和主题模型的区块链新闻可视化方法

Info

Publication number: CN112417868A
Application number: CN202011448843.XA
Authority: CN
Inventors: 张宏鑫; 徐津涛; 谢光桓
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2020-12-09
Filing date: 2020-12-09
Publication date: 2021-02-26

Abstract

本发明提供一种基于情绪分数和主题模型的区块链新闻可视化方法，包括以下步骤：收集区块链新闻文本，处理得到语料库结构，其包括文本发布时间戳、文章标题、文本内容、阅读量、情绪标签和/或文本作者粉丝数；基于所述语料库结构计算所述区块链新闻文本的文本情绪分数；使用LDA主题模型提取所述区块链新闻文本的主题；利用计算得到的文本情绪分数，使用布林线方法进行重要新闻事件检测；构建所述区块链新闻事件的可视化***，包括：情绪分数时间线、事件树、词云、主题模型可视化和主题文档映射；配置可交互式接口，用于用户以不同粒度获取重要新闻事件。本发明得到的交互式可视化***能够以不同粒度、不同视图呈现出区块链重要新闻事件。

Description

一种基于情绪分数和主题模型的区块链新闻可视化方法

技术领域

本发明涉及文本挖掘和新闻文本可视化领域，主要是一种基于情绪分数和主题模型的区块链新闻可视化方法。

背景技术

互联网新闻的分析和理解对市场情绪调查和危机管理等应用有重要作用。然而，对于大量的非结构化文本数据，用户很难从中提取到准确的含义及挖掘值得关注的新闻事件。文本挖掘的任务就是从大量非结构化文本中，浓缩得到结构化的数据，提取出有用的信息。传统的文本挖掘一般是使用支持向量机和Adaboost等传统机器学习方法进行文本分类等任务，近年来也有使用n-gram和CNN等深度学习方法对文本进行情感分析。

可视化任务和文本挖掘息息相关，文本挖掘的重要部分就是呈现得到的结构化数据。传统的可视化方法如散点图、折线图和柱状图适用于一维数据的可视化，多维数据的可视化常常使用热力图、气泡图、平行坐标图。近年的研究如OpinionFlow在社交媒体上收集大量语料，进行文本分析，综合使用各种可视化方法并生成观点流、堆叠树和用户列表等可交互式视图展示事件的发展变化。本发明在可视化方面一定程度上沿用了OpinionFlow的设计理念，但在研究主体的探索上专注于不同的层面。

发明内容

本发明提出了一种基于情绪分数和主题模型的区块链新闻可视化方法，具体包括如下的内容：

S1、收集区块链新闻文本，处理得到语料库结构，其包括文本发布时间戳、文章标题、文本内容、阅读量、情绪标签和/或文本作者粉丝数；

S2、基于所述语料库结构计算所述区块链新闻文本的文本情绪分数；

S3、使用LDA(Latent Dirichlet allocation)主题模型提取所述区块链新闻文本的主题；

S4、利用步骤S1计算得到的文本情绪分数，使用布林线方法进行重要新闻事件检测；

S5、构建所述区块链新闻事件的可视化***，包括：情绪分数时间线、事件树、词云、主题模型可视化和主题文档映射；

S6、配置可交互式接口，用于用户以不同粒度获取新闻事件。

进一步的，步骤S2具体包括：

S21、将所述语料库结构中的语料以句子为单位输入到BERT-as-a-service中，降维后获得768维的句子向量；

S22、将S21中获得的句子向量输入到堆叠两层的BiLSTM网络得到张量，将所述张量通过池化层和全连接层，随后使用softmax得到文本情绪分数；

S23、对于正面情绪，将输出的文本情绪分数乘以+1，反之，乘以-1；然后使用z-score对得到的情绪分数进行标准化。

进一步的，步骤S3具体包括：

S31、对所述语料库结构中的语料文本进行预处理，包括：分词、停词过滤、术语词典和英文文本小写转换；

S32、根据预处理后的语料文本，使用基于在线变分贝叶斯算法的在线LDA并利用随机自适应策略更新主题的后置参数，多次训练后得到区块链新闻文本的主题。

进一步的，步骤S4具体包括：

S41、根据区块链新闻文本的阅读量和步骤S2中得到的文本情绪分数，计算合成功率参数P：

P＝β|S|+(1-β)R

其中，R是新闻文本的阅读量，S是计算出的情绪分数值，β是调节两者权重的参数；

S42、根据合成功率参数P生成布林线，筛选出重要的新闻事件：

U＝A(P，n)+bσ(P，n)

其中，U是布林线的上界，A(P,n)是所选时间窗口内n个功率值的移动平均值，σ(P,n)是所选时间窗口内n个功率值的标准差，b是带宽，n是调整窗口大小的参数。

进一步的，步骤S5具体包括：

S51、情绪分数时间线的可视化：按时间粒度对文本情绪分数数据进行聚合，使用平均值作为聚合的结果，并使用线性组合权重的方法平滑曲线；

S52、事件树的可视化：以树形结构展示父事件和子事件，每个事件对应一个环圈图显示事件文本对应的属性：情绪、阅读量和作者的粉丝数；

S53、词云：展示所选时间范围内文本的词频；

S54、主题模型的可视化：集成基于web的LDAVIS，提供LDA模型的解释，主题和术语之间的关系通过相关性r来评估：

r(w，k|λ)＝λlog(φ_kw)+(1-λ)log(φ_kw/p_w)

其中，φ_kw表示术语w∈{1，...，V}对话题k∈{1，...，K}的概率，V为术语总数，K为话题数，p_w表示术语w在语料库中的边缘概率，λ为自由权重；

S55、主题文档映射：存储LDA模型中文档-主题权重，通过文本-主题权重训练t-SNE模型来获取和存储不同数量主题的坐标。

进一步的，步骤S6具体包括：

S61、根据用户输入的时间范围，基于给定时间范围内新闻文本的数量选择粒度；

S62、以红点的形式呈现重要新闻事件，通过主题文档映射将所述给定时间范围内的所有新闻文本在二维空间中可视化，并通过词云将文本中的高频词汇可视化；

S63、基于用户在红点处的鼠标指针悬停动作，将悬停红点窗口内对应的文档在主题文档映射中标注为黑点；

S64、基于用户在红点处的点击动作，根据该红点对应的新闻事件选择时间范围和粒度，初始化树状视图并同步更新词云视图，并基于该新闻事件的文本改变主题文档映射的可视化效果；

S65、当用户点击选择红点对应的新闻事件后，对该新闻时间中的重要事件进行检测，并将检测到的重要事件在情绪分数事件线视图中标记为红点，直至达到最细粒度或者没有检测到事件时，结束分析。

相比现有技术，本发明的优点为：

使用了自然语言处理中前沿的BERT将文本嵌入为向量，构建基于BiLSTM深度学习网络，能够有效可信地计算文本的情绪分数；设计出一个整合了文本主题模型，文本模式分析和文本情绪线的可视化框架，从多个角度全面分析探索互联网新闻事件；***所有的视图同步与用户进行交互，根据用户所选粒度或所关注事件，各个视图同步进行变化，使得用户能够以不同粒度、不同事件的角度探索新闻事件变化；***的各个部分的设计如情绪分数的计算、LDA模型的可视化都均衡考虑了计算复杂度、准确度和实时性，使得***具有更强的可用性。

附图说明

图1为本发明的基于情绪分数和主题模型的区块链新闻可视化方法的流程图。

图2为本发明的基于情绪分数和主题模型的区块链新闻可视化方法的计算情绪分数时使用的深度学习神经网络图。

具体实施方式

为了进一步理解本发明，下面结合实施例对本发明优选实施方案进行描述，但是应当理解，这些描述只是为进一步说明本发明的特征和优点，而不是对本发明权利要求的限制。

一种基于情绪分数和主题模型的区块链新闻可视化方法，其流程如图1所示，包括以下步骤：

S3、使用LDA主题模型提取所述区块链新闻文本的主题；

在一示出实施例中，步骤S1具体为：从不同的新闻媒体中收集区块链新闻文本，包含中英两种语言的新闻，丢弃少于20词的文本，并将文本以时间顺序排序。处理收集的区块链文本语料得到语料库结构：文本发布时间戳、文章标题、文本内容、阅读量、情绪标签和文本作者粉丝数。

在一示出实施例中，步骤S2中的深度学习神经网络如图2所示，具体过程为：

S21、将所述语料库结构中的语料以句子为单位输入到BERT-as-a-service中，降维后获得768维的句子向量，即图2中的Sentence embeddings；

在一示出实施例中，步骤S3具体包括：

S31、对所述语料库结构中的语料文本进行预处理，包括：使用Jieba模块处理中文语体，使用NLTK处理英文语体。随后，过滤掉停词，并将特定领域的术语加入到词典中，例如，区块链领域的Bitcoin、Dapp。对于英文语体，所有的单词也会转换为小写；

在一示出实施例中，步骤S4具体包括：

P＝β|S|+(1-P)R

U＝A(P，n)+bσ(P，n)

在一示出实施例中，步骤S5具体包括：

S52、事件树的可视化：以树形结构展示父事件和子事件，每个事件对应一个环圈图显示事件文本对应的属性：情绪、阅读量和作者的粉丝数，所有属性的值都标准化到[-1,1]。

S53、词云：展示所选时间范围内文本的词频；

r(w，k|λ)＝λlog(φ_kw)+(1-λ)log(φ_kw/p_w)

其中，φ_kw表示术语w∈{1，...，V}对话题k∈{1，...，K}的概率，V为术语总数，K为话题数，p_w表示术语w在语料库中的边缘概率，λ为自由权重，初始设置λ＝1，使得术语在主题内的频率成为相关性的唯一决定因素。主题在可视化中的两个主要特征被量化：主题的大小与它在所有文本中的频率成正比，主题与其它主题的相对位置由Jensen-Shannon散度计算，距离用主成分分析来计算；

S55、主题文档映射：存储LDA模型中文档-主题权重，通过文本-主题权重训练t-SNE模型来获取和存储不同数量主题的坐标，在二维平面上标出各个文本通过t-SNE模型得到的坐标点。

在一示出实施例中，步骤S6具体包括：

以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干改进和修饰，这些改进和修饰也落入本发明权利要求的保护范围内。

Claims

1.一种基于情绪分数和主题模型的区块链新闻可视化方法，其特征在于，包括以下步骤：

S3、使用LDA主题模型提取所述区块链新闻文本的主题；

2.根据权利要求1所述的基于情绪分数和主题模型的区块链新闻可视化方法，其特征在于，步骤S2具体包括：

3.根据权利要求1所述的基于情绪分数和主题模型的区块链新闻可视化方法，其特征在于，步骤S3具体包括：

4.根据权利要求1所述的基于情绪分数和主题模型的区块链新闻可视化方法，其特征在于，步骤S4具体包括：

P＝β|S|+(1-β)R

U＝A(P，n)+bσ(P，n)

5.根据权利要求1所述的基于情绪分数和主题模型的区块链新闻可视化方法，其特征在于，步骤S5具体包括：

S53、词云：展示所选时间范围内文本的词频；

r(w，k|λ)＝λlog(φ_kw)+(1-λ)log(φ_kw/p_w)

6.根据权利要求1-5任一项所述的基于情绪分数和主题模型的区块链新闻可视化方法，其特征在于，步骤S6具体包括：