CN113157866B

CN113157866B - 一种数据分析方法、装置、计算机设备及存储介质

Info

Publication number: CN113157866B
Application number: CN202110459121.2A
Authority: CN
Inventors: 黄振宇; 陈思业; 吴文哲; 王磊; 肖京
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2021-04-27
Filing date: 2021-04-27
Publication date: 2024-05-14
Anticipated expiration: 2041-04-27
Also published as: WO2022227196A1; CN113157866A

Abstract

本申请实施例提供了一种数据分析方法、装置、计算机设备及存储介质，该方法应用于大数据技术领域，该方法可以包括：获取舆情数据；对所述舆情数据进行实体抽取，得到多个实体；根据所述舆情数据对所述多个实体进行关系抽取，得到多个关系对；确定所述多个关系对中每个关系对包括的各实体对应的标准命名；将所述每个关系对包括的各实体间的关系映射为所述每个关系对包括的各实体对应的标准命名间的关系。采用本申请，可以从舆情数据提取有效信息以发现潜在的事物间的联系。本申请涉及区块链技术，如可从区块链获取舆情数据的摘要信息，并基于摘要信息查询舆情数据。

Description

一种数据分析方法、装置、计算机设备及存储介质

技术领域

本申请涉及数据分析技术领域，尤其涉及一种数据分析方法、装置、计算机设备及存储介质。

背景技术

随着信息全球化的发展，网络等媒介已成为人们日常生活中不可缺少的一部分。网络舆论等等舆情数据已成为人们用来表达自己言论的主要渠道。网络舆论即通过互联网表达的社会舆论。网络舆论的发酵，会对个人、企业、行业乃至社会产生各种影响，这种影响可能是正面的也可能是负面的。事实上，新兴事物的出现、知识的不足等原因会导致从舆情数据提取有效信息的难度增加，从而更难发现潜在的事物间的联系。因此如何从舆情数据提取有效信息以发现潜在的事物间的联系成为亟待解决的问题。

发明内容

本申请实施例提供了一种数据分析方法、装置、计算机设备及存储介质，可以从舆情数据提取有效信息以发现潜在的事物间的联系。

第一方面，本申请实施例提供了一种数据分析方法，包括：

获取舆情数据；

对所述舆情数据进行实体抽取，得到多个实体；

根据所述舆情数据对所述多个实体进行关系抽取，得到多个关系对；

确定所述多个关系对中每个关系对包括的各实体对应的标准命名；

将所述每个关系对包括的各实体间的关系映射为所述每个关系对包括的各实体对应的标准命名间的关系。

可选的，所述对所述舆情数据进行实体抽取，得到多个实体，包括：

对所述舆情数据包括的多个词进行编码，得到第一词向量集合，所述第一词向量集合包括所述多个词中每个词的词向量；

对所述第一词向量集合进行词汇增强，得到第二词向量集合；

基于所述第二词向量集合进行实体识别，得到多个实体。

可选的，所述根据所述舆情数据对所述多个实体进行关系抽取，得到多个关系对，包括：

根据所述多个实体获得目标实体对；

从所述舆情数据中确定出包括所述目标实体对的目标句子，并标注所述目标实体对中各实体在所述目标句子中的位置信息；

将所述目标句子以及所述目标实体对中各实体在所述目标句子中的位置信息输入关系预测模型以进行关系预测，得到所述目标实体对中各实体间的关系；

根据所述目标实体对以及所述目标实体对中各实体间的关系构建目标关系对，并得到包括所述目标关系对的多个关系对。

可选的，所述将所述目标句子以及所述目标实体对中各实体在所述目标句子中的位置信息输入关系预测模型以进行关系预测，得到所述目标实体对中各实体间的关系，包括：

利用关系预测模型包括的编码层根据所述目标句子以及所述目标实体对中各实体在所述目标实体对中的位置信息进行编码处理，得到对所述目标实体对中各实体的编码结果；

利用所述关系预测模型包括的池化层对所述目标实体对中各实体的编码结果进行池化处理，得到对所述目标实体对中各实体的池化结果；

利用所述关系预测模型包括的分类层对所述目标实体对中各实体的池化结果执行分类操作，得到所述目标实体对中各实体间的关系。

可选的，所述确定所述多个关系对中每个关系对包括的各实体对应的标准命名，包括：

将所述多个关系对中的各第一类型的实体与数据库包括的各标准命名进行匹配，以从所述数据库中确定出所述各第一类型的实体对应的标准命名；

根据第二类型的实体与标准命名的对应关系确定出所述多个关系对中的各第二类型的实体对应的标准命名，所述第一类型与所述第二类型不同。

可选的，所述将所述多个关系对中的各第一类型的实体与数据库包括的各标准命名进行匹配，以从所述数据库中确定出所述各第一类型的实体对应的标准命名，包括：

通过短文本匹配模型计算所述多个关系对中各第一类型的实体与数据库包括的各个标准命名之间的关系系数；

根据所述各第一类型的实体与数据库包括的各个标准命名之间的关系系数，从所述数据库中确定出与各第一类型的实体间关系系数大于等于预设值的标准命名，作为各第一类型的实体对应的标准命名。

可选的，所述方法还包括：

对所述舆情数据中的目标句子进行情感极性分析，得到所述目标句子包括的目标实体以所述目标实体的情感极性标签；

确定所述目标实体对应的目标标准命名以及所述目标标准命名关联的其它标准命名；

根据所述目标实体的情感极性标签，确定所述舆情数据对所述目标实体对应的目标标准命名的影响情况以及对所述其它标准命名的影响情况。

第二方面，本申请实施例提供了一种数据分析装置，包括：

获取模块，用于获取舆情数据；

实体抽取模块，用于对所述舆情数据进行实体抽取，得到多个实体；

关系抽取模块，用于根据所述舆情数据对所述多个实体进行关系抽取，得到多个关系对；

确定模块，用于确定所述多个关系对中每个关系对包括的各实体对应的标准命名；

映射模块，用于将所述每个关系对包括的各实体间的关系映射为所述每个关系对包括的各实体对应的标准命名间的关系。

第三方面，本申请实施例提供了一种计算机设备，包括处理器和存储器，所述处理器和所述存储器相互连接，其中，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，执行如第一方面所述的方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行以实现如第一方面所述的方法。

综上所述，计算机设备可以获取舆情数据，并对舆情数据进行实体抽取，得到多个实体；而后计算机设备根据舆情数据对多个实体进行关系抽取，得到多个关系对，并确定多个关系对中每个关系对包括的各实体对应的标准命名，从而将每个关系对包括的各实体间的关系映射为每个关系对包括的各实体对应的标准命名间的关系，过程能够从舆情数据提取有效信息以发现潜在的事物间的联系。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种数据分析方法的流程示意图；

图2是本申请实施例提供的另一种数据分析方法的流程示意图；

图3是本申请实施例提供的一种数据分析装置的结构示意图；

图4是本申请实施例提供的一种计算机设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。

请参阅图1，为本申请实施例提供的一种数据分析方法的流程示意图。该方法可以应用于计算机设备，计算机设备可以为服务器或智能终端。具体地，该方法可以包括如下步骤：

S101、获取舆情数据。

S102、对所述舆情数据进行实体抽取，得到多个实体。

其中，舆情数据包括但不限于新闻、网络言论、个人/官方等发布的文章等数据。多个实体可以包括以下至少一种类型的实体：第一类型的实体(如产业实体)、第二类型的实体(如企业实体)、时间、地点、人物。在一个实施例中，多个实体还可以包括其它类型的实体，在此不一一列举。

在一个实施例中，计算机设备对该舆情数据进行实体抽取，得到多个实体的方式可以为：计算机设备对该舆情数据包括的多个词进行编码，得到第一词向量集合，该第一词向量集合包括该多个词中每个词的词向量；计算机设备对所述第一词向量集合进行词汇增强，得到第二词向量集合，并基于该第二词向量集合进行实体识别，得到多个实体。在一个实施例中，计算机设备可以通过第一BERT(英文全称：Bidirectional EncoderRepresentations from Transformers)模型对该舆情数据包括的多个词进行编码，得到第一词向量集合。在一个实施例中，计算机设备可以通过词汇增强Lexicon Augment方法，如Soft Lexicon方法对该第一词向量集合进行词汇增强，得到第二词向量集合。在一个实施例中，计算机设备可以通过LSTM+CRF模型对第二词向量集合进行实体识别，得到多个实体。

在一个实施例中，计算机设备对该第一词向量集合进行词汇增强，得到第二词向量集合的方式具体可以如下：计算机设备获取该多个词中的目标词的目标词编码集合，该目标词为该多个词中的任一词，目标词编码集合包括多个位置标签中每个位置标签对应的词的词编码；计算机设备将该目标词编码集合与该第一词向量集合中该目标词的词向量进行拼接处理，得到该目标词对应的拼接的词向量，并根据该目标词对应的拼接的词向量生成第二词向量集合。其中，目标词的词向量为目标词的基础的向量表达，目标词对应的拼接的词向量为目标词的最终的向量表达，本申请实施例通过使用目标词编码集合增强了对目标词的向量表示。

在一个实施例中，所述的目标词编码集合可以为BMES词编码集合，所述多个位置标签可以包括标签B、标签M、标签E、标签S。B表示开始位置、M表示中间位置、E表示结束位置、S表示单个或单独的位置。其中，BMES词编码集合可以通过公式1.1获得：

e^s(B,M,E,S)＝[v^s(B)；v^s(M)；v^s(E)；v^s(S)]公式1.1；

其中，基于公式1.1得到的BMES词编码集合与目标词的词向量进行拼接处理的过程可以通过公式1.2表示：

x^c←[x^c；e^s(B,M,E,S)]公式1.2；

在公式1.1和公式1.2中，e^s表示BMES词编码集合。v^s表示词汇编码，x^c表示目标词的词向量。公式1.2将x^c与标签B、标签M、标签E、标签S分别对应的词的v^s进行拼接处理，得到目标词对应的拼接的词向量。

S103、根据所述舆情数据对所述多个实体进行关系抽取，得到多个关系对。

在一个实施例中，计算机设备根据该舆情数据对该多个实体进行关系抽取，得到多个关系对的方式可以为：计算机设备具体可以利用关系抽取工具来根据该舆情数据对该多个实体进行关系抽取，得到多个实体对。

在一个实施例中，计算机设备根据该舆情数据对该多个实体进行关系抽取，得到多个关系对的方式还可以为：计算机设备还可以根据该多个实体获得目标实体对，并从该舆情数据中确定出包括该目标实体对的目标句子，并标注该目标实体对中各实体在该目标句子中的位置信息；计算机设备将该目标句子以及该目标实体对中各实体在该目标句子中的位置信息输入关系预测模型以进行关系预测，得到该目标实体对中各实体间的关系，并根据该目标实体对以及该目标实体对中各实体间的关系构建目标关系对，并得到包括该目标关系对的多个关系对。在一个实施例中，计算机设备根据该多个实体获得目标实体对的方式可以为计算机设备从多个实体中确定出目标实体对。其中，目标实体对可以由两个第一类型的实体构成，或由两个第二类型的实体构成，或由一个第一类型的实体和一个第二类型的实体构成。目标句子指包括目标实体对的句子。一般来讲，一个句子对应的实体对可以为一个或多个。大多情况下，一个句子对应一个实体对。在一个实施例中，所述的位置信息可以为起始位置信息。其中，关系预测模型例如可以为第二BERT模型。目标实体对可以表示为(实体x，实体y)，目标关系对例如可以表示为(关系r，实体x，实体y)。

在一个实施例中，计算机设备将该目标句子以及该目标实体对中各实体在该目标句子中的位置信息输入关系预测模型以进行关系预测，得到该目标实体对中各实体间的关系的方式可以为：计算机设备利用关系预测模型包括的编码层根据该目标句子以及该目标实体对中各实体在该目标实体对中的位置信息进行编码处理，得到对该目标实体对中各实体的编码结果；计算机设备利用该关系预测模型包括的池化层对该目标实体对中各实体的编码结果进行池化处理，得到对该目标实体对中各实体的池化结果，并利用该关系预测模型包括的分类层对该目标实体对中各实体的池化结果执行分类操作，得到该目标实体对中各实体间的关系。该过程通过关系预测模型能够准确预测实体间的关系。

在一个实施例中，在利用该关系预测模型包括的分类层对该目标实体对中各实体的池化结果执行分类操作，得到该目标实体对中各实体间的关系的方式可以如下：计算机设备将该目标实体对中各实体的池化结果代入公式1.3，以计算目标实体对在多个关系中每个关系的概率值，并选取概率值最大的关系作为目标实体对中各实体间的关系。

P(r_ij│x,e_i,e_j)＝softmax(W[o_i:o_j]+b)公式1.3；

其中，x表示目标句子，r表示目标实体对包括的各实体间的关系。e_i，e_j表示实体i和实体j。目标实体对由e_i和e_j构成。此处的o_i，o_j分别表示实体i的池化结果和实体j的池化结果。W为权重，b为分类层参数。

在一个实施例中，训练关系预测模型的过程所使用的损失函数为对数损失函数。

S104、确定所述多个关系对中每个关系对包括的各实体对应的标准命名。

本申请实施例中，计算机设备针对第一类型的实体和第二类型的实体可以有两种不同的确定标准命名的方式。下面将阐述将对两种不同的确定标准命名的方式进行阐述。

在一个实施例中，计算机设备确定该多个关系对中每个关系对包括的各实体对应的标准命名的方式可以为：计算机设备将该多个关系对中的各第一类型的实体与数据库包括的各标准命名进行匹配，以从该数据库中确定出该各第一类型的实体对应的标准命名。在一个实施例中，计算机确定第一类型的实体对应的标准命名的方法可以称之为短文本匹配算法。需要说明的是，本申请实施例中，不一定每个关系对都包括第一类型的实体。同样，不一定每个关系对都包括第二类型的实体。

在一个实施例中，计算机设备将所述多个关系对中的各第一类型的实体与数据库包括的各标准命名进行匹配，以从所述数据库中确定出所述各第一类型的实体对应的标准命名的方式可以为：计算机设备通过短文本匹配模型计算所述多个关系对中各第一类型的实体与数据库包括的各个标准命名之间的关系系数，并根据所述各第一类型的实体与数据库包括的各个标准命名之间的关系系数，从所述数据库中确定出与各第一类型的实体间关系系数大于等于预设值的标准命名，作为各第一类型的实体对应的标准命名。在一个实施例中，所述的短文本匹配模型可以为ESIM模型。ESIM模型为能够实现短文本匹配功能的模型。

例如，假设多个关系对包括关系对1，关系对1包括实体1，实体2，实体1和实体2均为第一类型的实体。数据库包括标准命名1和标准命名2。计算机设备可以通过短文本匹配模型计算实体1与标准命名1之间关系系数，并计算实体1与标准命名2之间的关系系数，然后从标准命名1和标准命名2中选取对应关系系数最大的标准命名作为实体1对应的标准命名。与此同时，计算机设备还可以通过短文本匹配模型计算实体2与标准命名1之间的关系系数，并计算实体2与标准命名2之间的关系系数，然后从标准命名1和标准命名2中选取对应关系系数最大的标准命名作为实体2对应的标准命名。

在一个实施例中，计算机设备通过短文本匹配模型计算所述多个关系对中各第一类型的实体与数据库包括的各个标准命名之间的关系系数，过程具体如下：

①(采用BiLSTM算法)分别对各第一类型的实体中的一第一类型的实体以及从第一数据库选取的一标准命名进行编码，得到对一第一类型的实体的编码结果，以及对一标准命名的编码结果。其中，一第一类型的实体的编码结果包括该第一类型的实体所包括的各个词的编码结果。一标准命名的编码结果包括该标准命名所包括的各个词的编码结果。其中，第一类型的实体所包括的各个词的编码方式以及标准命名所包括的各个词的编码方式可以参见下面的两个公式，公式1.4和公式1.5。表示第一类型的实体包括的第i个词的编码结果，/>表示标准命名包括的第i个词的编码结果。l_a表示第一类型的实体的长度，l_b表示标准命名的长度。

②将一第一类型的实体编码结果以及一标准命名的编码结果输入到局部推理建模Local Inference Modeling层，由Local Inference Modeling层计算第一实体所包括的各个词与选取的一标准命名所包括的各个词之间的相似度，并根据计算出的相似度对一第一类型的实体以及一标准命名进行局部推理，得到一第一类型的实体的局部推理信息以及一标准命名的局部推理信息。其中，一第一类型的实体的局部推理信息，可以包括该第一类型的实体所包括的各个词的局部推理信息，一标准命名的局部推理信息，可以包括该标准命名所包括的各个词的局部推理信息。其中，局部推理的过程可以参见下面这两个公式，公式1.6和公式1.7。表示一第一类型的实体的第i个词的局部推理信息，/>表示一标准命名的第j个词的局部推理信息。e_ij表示一第一类型的实体的第i个词与一标准命名的第j个词的相似度。e_ik表示一第一类型的实体的第i个词与一标准命名的第k个词的相似度。e_kj表示一第一类型的实体的第k个词与一标准命名的第j个词的相似度。

③根据一第一类型的实体的编码结果、该第一类型的实体的局部推理信息计算该第一类型的实体增强的局部推理Enhancementlocal inference信息，并根据一标准命名的编码结果以及该标准命名的局部推理信息计算该标准命名增强的局部推理信息。其中，计算增强的局部推理信息的过程可以参见下面这公式。

增强的局部推理信息用m表示。

④将增强的局部推理信息输入max polling池化层和全连接层，输出一第一类型的实体和一标准命名间的相似系数作为该第一类型的实体和该标准命名间的关系系数。

在一个实施例中，计算机设备确定该多个关系对中每个关系对包括的各实体对应的标准命名的方式还可以为：计算机设备根据第二类型的实体与标准命名的对应关系确定出该多个关系对中的各第二类型的实体对应的标准命名，该第一类型与该第二类型不同。在一个实施例中，计算机设备确定第二类型的实体对应的标准命名的方法可以称之为全简称匹配算法。在一个实施例中，计算机设备根据多个关系对中的各第二类型的实体以及其它数据库记录的第二类型的实体与标准命名间的对应关系，从其它数据库中确定出各第二类型的实体对应的标准命名。

S105、将所述每个关系对包括的各实体间的关系映射为所述每个关系对包括的各实体对应的标准命名间的关系。

本申请实施例中，计算机设备可以将每个关系对包括的各实体间的关系确定为每个关系对包括的各实体对应的标准命名间的关系。该过程可以将根据舆情数据抽取的实体间的关系映射到对应的标准命名上。

在一个实施例中，计算机设备可以根据每个关系对包括的各实体对应的标准命名以及每个关系对包括的各实体对应的标准命名，构建关系网络。在实际的应用场景中，采用本申请实施例，可以对舆情数据中涉及的产业和企业的关系进行深挖，从而构造出产业-企业的关系网络，为后续的传导推演以及人工决策提供的帮助。

在一个实施例中，计算机设备可以利用每个关系对包括的各实体对应的标准命名间的关系更新已有的关系网络。

可见，图1所示的实施例中，计算机设备可以获取舆情数据，并对该舆情数据进行实体抽取，得到多个实体；而后计算机设备可以根据该舆情数据对该多个实体进行关系抽取，得到多个关系对，并确定该多个关系对中每个关系对包括的各实体对应的标准命名，从而将该每个关系对包括的各实体间的关系映射为该每个关系对包括的各实体对应的标准命名间的关系，该过程能够从舆情数据提取有效信息以发现潜在的事物间的联系。

请参阅图2，为本申请实施例提供的另一种数据分析方法的流程示意图。该方法可以应用于计算机设备，计算机设备可以为服务器或智能终端。具体地，该方法可以包括如下步骤：

S201、获取舆情数据。

S202、对所述舆情数据进行实体抽取，得到多个实体。

S203、根据所述舆情数据对所述多个实体进行关系抽取，得到多个关系对。

S204、确定所述多个关系对中每个关系对包括的各实体对应的标准命名。

S205、将所述每个关系对包括的各实体间的关系映射为所述每个关系对包括的各实体对应的标准命名间的关系。

其中，步骤S201-步骤S205可以参见图1实施例中的步骤S201-步骤S205，在此不做赘述。

S206、对所述舆情数据中的目标句子进行情感极性分析，得到所述目标句子包括的目标实体以所述目标实体的情感极性标签。

其中，目标句子，例如可以为舆情数据的标题，或为舆情数据的正文，或为舆情数据的全文等。在一个实施例中，目标实体可以前述提及的第二类型的实体，例如可以为企业实体。情感极性标签例如可以为正向标签和/或负向标签，或还可以为其它情感极性标签。

在一个实施例中，计算机设备对该舆情数据中的目标句子进行情感极性分析，得到该目标句子包括的目标实体以该目标实体的情感极性标签的方式可以为：计算机设备利用第三BERT模型对舆情数据中的目标句子进行情感极性分析，得到目标句子包括的目标实体以及目标实体的情感极性标签。

S207、确定所述目标实体对应的目标标准命名以及所述目标标准命名关联的其它标准命名。

在一个实施例中，计算机设备可以利用前述提及的确定所述多个关系对中每个关系对包括的各实体对应的标准命名的方式，以确定该目标实体对应的目标标准命名。在一个实施例中，计算机设备可以根据第二类型的实体与标准命名的对应关系确定出所述目标实体对应的目标标准命名。

在一个实施例中，计算机设备可以确定目标标准命名关联的其它标准命名的方式可以为：计算机设备通过搜索关系网络以搜索该目标标准命名关联的其它标准命名。

S208、根据所述目标实体的情感极性标签，确定所述舆情数据对所述目标实体对应的目标标准命名的影响情况以及对所述其它标准命名的影响情况。

其中，目标标准命名为目标实体对应的标准命名。目标标准命名关联的其它标准命名可以为目标标准命名所关联的第一类型的实体对应的标准命名和/或第二类型的实体对应的标准命名。

或，计算机设备还可以确定目标实体对应的目标标准命名以及目标标准命名关联的其它标准命名对应的实体，然后根据目标实体的情感极性标签，确定舆情数据对目标实体的影响情况以及对其它标准命名对应的实体的影响情况。

在实际的应用场景中，由于舆情数据可能会涉及到多个主体，且每个主体的情感极性不一样。不同于传统的情感分类任务，本申请实施例在训练初始的bert模型的过程中，可以充分运用BERT模型的序列标注的优势，将多主体的句子分别标注不同的情感极性标签。例如，对于句子“*讯股价大涨，而*易股价大跌！”，*讯为一个企业。*易为另一个企业。该句子的情感极性标签的构造如下表：

由上表可以看出，本方案具体采用BIO标注方式对样本语句进行标注，利用标注了标签的样本语句训练初始的BERT模型，得到用于性感极性分析的BERT模型作为第三BERT模型。由上表可以看出，标注的标签包括B-POS、I-POS、B-NEG、I-NEG、O。B-POS表示该字符在某个实体的开始(Begin)位置并且该字符所在的实体的情感极性是正向(Positive)，I-POS表示该字符在实体里面(Inside)并且该字符所在的实体的情感极性为正向(Positive)；同理，B-NEG表示该字符在实体开始(Begin)位置并且该字符所在实体的情感极性是负向(Negtive)，I-NEG表示该字符在实体里面(Inside)并且该字符所在实体的情感极性为负向(Negtive)，O表示该字符在实体之外(Outside)。通过这种标注方式，BERT模型训练时会认为“*讯”是正向，“*易”是负向，从而训练出能区分多主体的用于情感分析的BERT模型。

在一个实施例中，计算机设备可以确定目标标准命名和其它标准命名之前的关系，或可以确定目标实体和其它标准命名对应的实体间的关系，然后根据确定的关系以及目标实体的情感极性标签，确定所述舆情数据对所述目标实体对应的目标标准命名的影响情况以及对所述其它标准命名的影响情况。

在实际的生产生活中，产业和企业一直是产业分析研究中的热点。对政府而言，产业的研究能有效的辅助政策决策、宏观调控，对企业而言，产业的动态能反映行业前景、发展新的业务方向，对于个人来说，产业的分析能辅助个体投资方向和从业方向。基于舆情的产业分析能更好的把握业内动态和发展，同时也能挖掘出目前业内未能发现的产业企业间的关系。本申请实施例能够实现发生了针对某个主体正面或负面事件后，推导出其对关联的产业或企业产生的影响，例如，通过海量的舆情数据，计算机设备可以挖掘出企业B是A的上游供应商，行业I是A企业的行业，那么如果企业A有一个重大的正面新闻，那么供应商B和该行业I都会有所影响，显而易见的，上游供应商B会因为A的重大正面而利好，同时行业I也会有所利好，***采用这一套方法，可以挖掘出舆情本身隐藏的信息，得出企业B和行业I的利好利空方向。

可见，图2所示的实施例中，计算机设备还可以确定对该舆情数据中的目标句子进行情感极性分析，得到该目标句子包括的目标实体以该目标实体的情感极性标签，并确定该目标实体对应的目标标准命名以及该目标标准命名关联的其它标准命名，从而根据该目标实体的情感极性标签，确定该舆情数据对该目标实体对应的目标标准命名的影响情况以及对其它标准命名的影响情况，该过程能够基于情感极性分析有效的进行企业产业传导影响推演。

本申请涉及区块链技术，如可从区块链获取舆情数据的摘要信息，并基于摘要信息查询舆情数据。或，本申请还可以多个第二类型的实体中每个第二类型的实体关联的区块链节点，并从每个第二类型的实体关联的区块链节点同步官方数据，基于官方数据来对舆情数据中的虚假数据进行替换，从而保障后续映射出的关系的正确性以及推导出的影响情况的正确性。

请参阅图3，为本申请实施例提供的一种数据分析装置的结构示意图。该装置可以应用于计算机设备。具体地，该装置可以包括：

获取模块301，用于获取舆情数据。

实体抽取模块302，用于对所述舆情数据进行实体抽取，得到多个实体。

关系抽取模块303，用于根据所述舆情数据对所述多个实体进行关系抽取，得到多个关系对。

确定模块304，用于确定所述多个关系对中每个关系对包括的各实体对应的标准命名。

映射模块305，用于将所述每个关系对包括的各实体间的关系映射为所述每个关系对包括的各实体对应的标准命名间的关系。

在一种可选的实施方式中，实体抽取模块302对所述舆情数据进行实体抽取，得到多个实体，具体为对所述舆情数据包括的多个词进行编码，得到第一词向量集合，所述第一词向量集合包括所述多个词中每个词的词向量；对所述第一词向量集合进行词汇增强，得到第二词向量集合；基于所述第二词向量集合进行实体识别，得到多个实体。

在一种可选的实施方式中，关系抽取模块303根据所述舆情数据对所述多个实体进行关系抽取，得到多个关系对，具体为根据所述多个实体获得目标实体对；从所述舆情数据中确定出包括所述目标实体对的目标句子，并标注所述目标实体对中各实体在所述目标句子中的位置信息；将所述目标句子以及所述目标实体对中各实体在所述目标句子中的位置信息输入关系预测模型以进行关系预测，得到所述目标实体对中各实体间的关系；根据所述目标实体对以及所述目标实体对中各实体间的关系构建目标关系对，并得到包括所述目标关系对的多个关系对。

在一种可选的实施方式中，关系抽取模块303将所述目标句子以及所述目标实体对中各实体在所述目标句子中的位置信息输入关系预测模型以进行关系预测，得到所述目标实体对中各实体间的关系，具体为利用关系预测模型包括的编码层根据所述目标句子以及所述目标实体对中各实体在所述目标实体对中的位置信息进行编码处理，得到对所述目标实体对中各实体的编码结果；利用所述关系预测模型包括的池化层对所述目标实体对中各实体的编码结果进行池化处理，得到对所述目标实体对中各实体的池化结果；利用所述关系预测模型包括的分类层对所述目标实体对中各实体的池化结果执行分类操作，得到所述目标实体对中各实体间的关系。

在一种可选的实施方式中，确定模块304定所述多个关系对中每个关系对包括的各实体对应的标准命名，具体为将所述多个关系对中的各第一类型的实体与数据库包括的各标准命名进行匹配，以从所述数据库中确定出所述各第一类型的实体对应的标准命名；根据第二类型的实体与标准命名的对应关系确定出所述多个关系对中的各第二类型的实体对应的标准命名，所述第一类型与所述第二类型不同。

在一种可选的实施方式中，关系抽取模块303将所述多个关系对中的各第一类型的实体与数据库包括的各标准命名进行匹配，以从所述数据库中确定出所述各第一类型的实体对应的标准命名，具体为通过短文本匹配模型计算所述多个关系对中各第一类型的实体与数据库包括的各个标准命名之间的关系系数；根据所述各第一类型的实体与数据库包括的各个标准命名之间的关系系数，从所述数据库中确定出与各第一类型的实体间关系系数大于等于预设值的标准命名，作为各第一类型的实体对应的标准命名。

在一种可选的实施方式中，所述数据分析装置还包括分析模块306。

在一种可选的实施方式中，分析模块306，用于对所述舆情数据中的目标句子进行情感极性分析，得到所述目标句子包括的目标实体以所述目标实体的情感极性标签；确定所述目标实体对应的目标标准命名以及所述目标标准命名关联的其它标准命名；根据所述目标实体的情感极性标签，确定所述舆情数据对所述目标实体对应的目标标准命名的影响情况以及对所述其它标准命名的影响情况。

可见，图3所示的实施例中，数据分析装置可以获取舆情数据，并对该舆情数据进行实体抽取，得到多个实体；而后数据分析装置可以根据该舆情数据对该多个实体进行关系抽取，得到多个关系对，并确定该多个关系对中每个关系对包括的各实体对应的标准命名，从而将该每个关系对包括的各实体间的关系映射为该每个关系对包括的各实体对应的标准命名间的关系，该过程能够从舆情数据提取有效信息以发现潜在的事物间的联系。

请参阅图4，为本申请实施例提供的一种计算机设备的结构示意图。本实施例中所描述的计算机设备可以包括：一个或多个处理器1000和存储器2000。处理器1000和存储器2000可以通过总线等方式连接。

处理器1000可以是中央处理模块(Central Processing Unit，CPU)，该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器2000可以是高速RAM存储器，也可为非不稳定的存储器(non-volatilememory)，例如磁盘存储器。存储器2000用于存储一组程序代码，处理器1000可以调用存储器2000中存储的程序代码。具体地：

处理器1000，用于获取舆情数据；对所述舆情数据进行实体抽取，得到多个实体；根据所述舆情数据对所述多个实体进行关系抽取，得到多个关系对；确定所述多个关系对中每个关系对包括的各实体对应的标准命名；将所述每个关系对包括的各实体间的关系映射为所述每个关系对包括的各实体对应的标准命名间的关系。

在一个实施例中，处理器1000，具体用于对所述舆情数据包括的多个词进行编码，得到第一词向量集合，所述第一词向量集合包括所述多个词中每个词的词向量；对所述第一词向量集合进行词汇增强，得到第二词向量集合；基于所述第二词向量集合进行实体识别，得到多个实体。

在一个实施例中，处理器1000，还具体用于根据所述多个实体获得目标实体对；从所述舆情数据中确定出包括所述目标实体对的目标句子，并标注所述目标实体对中各实体在所述目标句子中的位置信息；将所述目标句子以及所述目标实体对中各实体在所述目标句子中的位置信息输入关系预测模型以进行关系预测，得到所述目标实体对中各实体间的关系；根据所述目标实体对以及所述目标实体对中各实体间的关系构建目标关系对，并得到包括所述目标关系对的多个关系对。

在一个实施例中，处理器1000，还具体用于利用关系预测模型包括的编码层根据所述目标句子以及所述目标实体对中各实体在所述目标实体对中的位置信息进行编码处理，得到对所述目标实体对中各实体的编码结果；利用所述关系预测模型包括的池化层对所述目标实体对中各实体的编码结果进行池化处理，得到对所述目标实体对中各实体的池化结果；利用所述关系预测模型包括的分类层对所述目标实体对中各实体的池化结果执行分类操作，得到所述目标实体对中各实体间的关系。

在一个实施例中，处理器1000，还具体用于将所述多个关系对中的各第一类型的实体与数据库包括的各标准命名进行匹配，以从所述数据库中确定出所述各第一类型的实体对应的标准命名；根据第二类型的实体与标准命名的对应关系确定出所述多个关系对中的各第二类型的实体对应的标准命名，所述第一类型与所述第二类型不同。

在一个实施例中，处理器1000，还具体用于通过短文本匹配模型计算所述多个关系对中各第一类型的实体与数据库包括的各个标准命名之间的关系系数；根据所述各第一类型的实体与数据库包括的各个标准命名之间的关系系数，从所述数据库中确定出与各第一类型的实体间关系系数大于等于预设值的标准命名，作为各第一类型的实体对应的标准命名。

在一个实施例中，处理器1000，还具体用于对所述舆情数据中的目标句子进行情感极性分析，得到所述目标句子包括的目标实体以所述目标实体的情感极性标签；确定所述目标实体对应的目标标准命名以及所述目标标准命名关联的其它标准命名；根据所述目标实体的情感极性标签，确定所述舆情数据对所述目标实体对应的目标标准命名的影响情况以及对所述其它标准命名的影响情况。

具体实现中，本申请实施例中所描述的处理器1000可执行图1实施例、图2实施例所描述的实现方式，也可执行本申请实施例所描述的实现方式，在此不再赘述。

在本申请各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以是两个或两个以上模块集成在一个模块中。上述集成的模块既可以采样硬件的形式实现，也可以采样软件功能模块的形式实现。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的计算机可读存储介质可为易失性的或非易失性的。例如，该计算机存储介质可以为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random Access Memory，RAM)等。所述的计算机可读存储介质可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需的应用程序等；存储数据区可存储根据区块链节点的使用所创建的数据等。

其中，本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

以上所揭露的仅为本申请一种较佳实施例而已，当然不能以此来限定本申请之权利范围，本领域普通技术人员可以理解实现上述实施例的全部或部分流程，并依本申请权利要求所作的等同变化，仍属于本申请所涵盖的范围。

Claims

1.一种数据分析方法，其特征在于，包括：

获取舆情数据；

对所述舆情数据进行实体抽取，得到多个实体；所述多个实体包括：第一类型的实体、第二类型的实体；其中，所述实体抽取包括：对所述舆情数据包括的多个词进行编码，得到第一词向量集合，所述第一词向量集合包括所述多个词中每个词的词向量；获取所述多个词中的目标词的目标词编码集合，所述目标词为该多个词中的任一词，所述目标词编码集合包括多个位置标签中每个位置标签对应的词的词编码；将目标词编码集合与所述第一词向量集合中所述目标词的词向量进行拼接处理，得到所述目标词对应的拼接的词向量，并根据所述目标词对应的拼接的词向量生成第二词向量集合；基于所述第二词向量集合进行实体识别，得到多个实体；

将所述每个关系对包括的各实体间的关系映射为所述每个关系对包括的各实体对应的标准命名间的关系；

其中，所述确定所述多个关系对中每个关系对包括的各实体对应的标准命名，包括：

将所述多个关系对中的各第一类型的实体与数据库包括的各标准命名进行匹配，以从所述数据库中确定出所述各第一类型的实体对应的标准命名；所述标准命名是通过计算所述多个关系对中各第一类型的实体与数据库包括的各个标准命名之间的关系系数确定出的，关系系数的确定方式如下：分别对各第一类型的实体中的一第一类型的实体以及从第一数据库选取的一标准命名进行编码，得到对一第一类型的实体的编码结果，以及对一标准命名的编码结果；将一第一类型的实体编码结果以及一标准命名的编码结果输入到局部推理建模层，由局部推理建模层计算第一实体所包括的各个词与选取的一标准命名所包括的各个词之间的相似度，并根据计算出的相似度对一第一类型的实体以及一标准命名进行局部推理，得到一第一类型的实体的局部推理信息以及一标准命名的局部推理信息；根据一第一类型的实体的编码结果、该第一类型的实体的局部推理信息计算该第一类型的实体增强的局部推理信息，并根据一标准命名的编码结果以及该标准命名的局部推理信息计算该标准命名增强的局部推理信息；将增强的局部推理信息输入最大池化层和全连接层，输出一第一类型的实体和一标准命名间的相似系数作为该第一类型的实体和该标准命名间的关系系数；

根据第二类型的实体与标准命名的对应关系确定出所述多个关系对中的各第二类型的实体对应的标准命名，所述第一类型与所述第二类型不同，且针对第一类型的实体和第二类型的实体所采用的确定标准命名的方式不同；

所述方法还包括：

2.根据权利要求1所述的方法，其特征在于，所述根据所述舆情数据对所述多个实体进行关系抽取，得到多个关系对，包括：

根据所述多个实体获得目标实体对；

3.根据权利要求2所述的方法，其特征在于，所述将所述目标句子以及所述目标实体对中各实体在所述目标句子中的位置信息输入关系预测模型以进行关系预测，得到所述目标实体对中各实体间的关系，包括：

4.根据权利要求1所述的方法，其特征在于，所述将所述多个关系对中的各第一类型的实体与数据库包括的各标准命名进行匹配，以从所述数据库中确定出所述各第一类型的实体对应的标准命名，包括：

5.一种数据分析装置，其特征在于，包括：

获取模块，用于获取舆情数据；

实体抽取模块，用于对所述舆情数据进行实体抽取，得到多个实体；所述多个实体包括：第一类型的实体、第二类型的实体；其中，所述实体抽取包括：对所述舆情数据包括的多个词进行编码，得到第一词向量集合，所述第一词向量集合包括所述多个词中每个词的词向量；获取所述多个词中的目标词的目标词编码集合，所述目标词为该多个词中的任一词，所述目标词编码集合包括多个位置标签中每个位置标签对应的词的词编码；将目标词编码集合与所述第一词向量集合中所述目标词的词向量进行拼接处理，得到所述目标词对应的拼接的词向量，并根据所述目标词对应的拼接的词向量生成第二词向量集合；基于所述第二词向量集合进行实体识别，得到多个实体；

映射模块，用于将所述每个关系对包括的各实体间的关系映射为所述每个关系对包括的各实体对应的标准命名间的关系；

其中，所述确定模块具体用于：

所述装置还包括：分析模块；

所述分析模块，用于对所述舆情数据中的目标句子进行情感极性分析，得到所述目标句子包括的目标实体以所述目标实体的情感极性标签；确定所述目标实体对应的目标标准命名以及所述目标标准命名关联的其它标准命名；根据所述目标实体的情感极性标签，确定所述舆情数据对所述目标实体对应的目标标准命名的影响情况以及对所述其它标准命名的影响情况。

6.一种计算机设备，其特征在于，包括处理器和存储器，所述处理器和所述存储器相互连接，其中，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，执行如权利要求1-4任一项所述的方法。

7.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行以实现如权利要求1-4任一项所述的方法。