CN117974340A

CN117974340A - 结合深度学习分类与图聚类的社交媒体事件检测方法

Info

Publication number: CN117974340A
Application number: CN202410373064.XA
Authority: CN
Inventors: 线岩团; 鲁一苇; 余正涛; 相艳; 黄于欣; 王红斌
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2024-03-29
Filing date: 2024-03-29
Publication date: 2024-05-03
Anticipated expiration: 2044-03-29
Also published as: CN117974340B

Abstract

本发明公开了结合深度学习分类与图聚类的社交媒体事件检测方法，基于消息文本与提取的特征信息，构建得到消息异构图；在消息对中构建多条共享特征边，构建得到多关系消息图；利用深度学习分类模型得到消息对的相似度；若消息对的相似度达到预设阈值，则在消息对中构建一条边，构建得到消息同构图；将消息同构图作为图聚类算法的输入进行聚类，得到社交媒体事件检测结果。本发明避免了将社交消息表示为向量的过程，以消息对的异构关联和消息文本为输入，利用深度学习分类模型差判别消息对是否属于同一事件，并通过消息对的预测结果构建消息同构图，利用图聚类算法发现具有紧密关联的社交消息簇作为社交事件，用于海量的社交媒体事件检测任务。

Description

结合深度学习分类与图聚类的社交媒体事件检测方法

技术领域

本发明涉及自然语言处理技术和文本挖掘技术领域，具体涉及一种结合深度学习分类与图聚类的社交媒体事件检测方法。

背景技术

随着互联网的发展，社交媒体平台已经改变了人们的生活方式，成为人们的主要信息来源。社交媒体对消息的传播速度和新事件的发现敏感度明显高于传统媒体。因此，深刻分析社交媒体文本信息，发现社交媒体事件显得尤为重要。

深度学习社交媒体事件检测是当前的主流方法，这类方法在利用深度神经网络学习社交消息向量表示的基础上，通过距离或密度聚类算法发现社交媒体事件。然而，由于社交消息文本短、词共现稀疏，利用深度学习模型将同一事件的社交消息表示为距离相似向量，不同事件的向量相互远离是困难的。事件聚类是社交媒体事件检测的重要步骤，旨在将庞大的社交媒体数据整理成有关同一事件的相关内容集合，从而帮助用户更好的理解和追踪事件的发展。大部分的事件检测任务所采用的聚类算法主要基于词的特征，并且在解决短文本聚类存在高维稀疏的问题上引入了外部特征，然而过度关注于词的特征会导致噪声和异常值的影响过大，并且无法在流式数据中找到聚类中心而影响聚类性能。对于社交媒体中的流式数据，目前常用的聚类算法对于次序的依赖性很高并且计算开销大，在处理海量的社交媒体文本时效率低下而大大影响模型的性能。

发明内容

为此，本发明提供一种结合深度学习分类与图聚类的社交媒体事件检测方法，以解决现有深度学习社交媒体事件检测方法将同一事件的社交消息表示为距离相似向量的方式存在不同事件的社交消息向量相互远离困难，聚类算法过度关注于词的特征，在处理海量的社交媒体文本时效率低下等的问题。

为了实现上述目的，本发明提供如下技术方案：

根据本发明实施例的第一方面，提出一种结合深度学习分类与图聚类的社交媒体事件检测方法，所述方法包括：

对社交媒体数据流中的消息文本进行特征信息提取，将消息文本及特征信息作为节点，并将消息文本与其提取的特征信息连接构成边，构建得到消息异构图；

基于所述消息异构图，随机选取两个消息文本节点构建消息对，并在每对消息对中构建多条共享特征边，构建得到多关系消息图；

基于所述多关系消息图，利用深度学习分类模型得到消息对的相似度；

判断消息对的相似度是否达到预设阈值，若消息对的相似度达到预设阈值，则在组成消息对的两个消息文本节点之间构建一条边，构建得到消息同构图；

将构建的消息同构图作为图聚类算法的输入进行聚类，聚类结果作为检测到的社交媒体事件。

进一步地，所述方法还包括：

获取社交媒体文本数据集，并按照发布时间分成多个数据块，以模拟社交媒体消息的流式属性对模型进行持续训练。

进一步地，对社交媒体数据流中的消息文本进行特征信息提取，将消息文本及特征信息作为节点，并将消息文本与其提取的特征信息连接构成边，构建得到消息异构图，具体包括：

给定单条消息文本，从文本中抽取消息的特征信息，所述特征信息包括实体信息、用户信息、话题标签信息及时间信息，定义为；

定义消息异构图，其中代表社交媒体消息文本本身及其中各种类型的事件相关特征信息的节点集合，代表消息与对应特征之间的边的集合。

进一步地，基于所述消息异构图，随机选取两个消息文本节点构建消息对，并在每对消息对中构建多条共享特征边，构建得到多关系消息图，具体包括：

定义多关系消息图为；

其中是消息文本节点集合，是消息文本节点个数，每个节点具有不同的特征表示并具有表示成的维特征向量，将消息节点类型表示为，，，和分别代表消息、用户、实体、话题标签和时间信息，所有节点特征的集合表示为，从其他消息文本中随机采样与节点构建成消息对；

当消息文本共享不同类型的特征信息时分别建立属于不同共享特征关系的边，是消息对中的边，边能关联多种共享特征关系：

其中是消息异构图的邻接矩阵的子矩阵，行代表所有的特征信息节点，列代表属于关系的所有消息节点，是矩阵的转置。

进一步地，基于所述多关系消息图，利用深度学习分类模型得到消息对的相似度，具体包括：

对消息文本进行预处理，包括进行分词和去停用词操作，然后通过BERT预训练语言模型对消息文本进行词嵌入处理，用维词向量表示词，；

对消息文本向量进行嵌入得消息文本的嵌入向量，消息文本的嵌入向量，将两个消息文本的嵌入向量通过编码层拼接后得到消息对的编码向量：

其中，表示向量的拼接操作；

将得到的编码向量通过线性变换层得到低维向量，并通过激活函数得到消息文本和的相似度，其中：

其中，，，和表示模型中的参数，表示激活函数。

进一步地，判断消息对的相似度是否达到预设阈值，若消息对的相似度达到预设阈值，则在组成消息对的两个消息文本节点之间构建一条边，构建得到消息同构图，具体包括：

消息同构图仍保留消息异构图的所有公共特征，

其中是消息同构图的邻接矩阵，其中是图中消息节点的总数，表示节点类型，是消息异构图中邻接矩阵的子矩阵，包含类型的行和类型的列，是矩阵的转置；如果消息文本节点和消息文本节点连接到一些类型的节点时，将大于或等于1，则将等于1；

对于消息文本和消息文本组成的消息对，判断消息对的相似度是否达到预设阈值，当相似度达到预设阈值时便构建一条边，判断完所有的消息对后构成初始消息同构图，其中是消息文本节点集合，是边集合。

进一步地，将构建的消息同构图作为图聚类算法的输入进行聚类，聚类结果作为检测到的社交媒体事件，具体包括：

根据消息之间特征关联的传递性进行社区扩展，之后消息节点间进行多轮博弈选择更优的社区，最终实现社区的稳定状态，将社区划分得到的聚类结果作为检测到的社交媒体事件。

进一步地，根据消息之间特征关联的传递性进行社区扩展，之后消息节点间进行多轮博弈选择更优的社区，最终实现社区的稳定状态，具体包括：

扩大社区规模，倘若三个点之间有两条边便形成一个半三角，根据三元闭包原理，两个节点在与一共同节点有关系的情况下也具有关联，则认为三个点之间存在隐性的关联关系，即三个点同属于一个社区；

进行多轮迭代，在每轮迭代中所有节点均根据当前的社区划分来做出更优的选择，共有以下三种选择：不改变当前社区；离开现在的社区并不加入任何其他社区；离开当前社区并加入另一个社区；

多轮博弈后算法达到纳什均衡，即所有节点均加入自己最为满意的社区，通过设置阈值对算法是否达到纳什均衡进行判断。

根据本发明实施例的第二方面，提出一种结合深度学习分类与图聚类的社交媒体事件检测***，所述***包括：

消息异构图构建模块，用于对社交媒体数据流中的消息文本进行特征信息提取，将消息文本及特征信息作为节点，并将消息文本与其提取的特征信息连接构成边，构建得到消息异构图；

多关系消息图构建模块，用于基于所述消息异构图，随机选取两个消息文本节点构建消息对，并在每对消息对中构建多条共享特征边，构建得到多关系消息图；

深度学习分类模块，用于基于所述多关系消息图，利用深度学习分类模型得到消息对的相似度；

消息同构图构建模块，用于判断消息对的相似度是否达到预设阈值，若消息对的相似度达到预设阈值，则在组成消息对的两个消息文本节点之间构建一条边，构建得到消息同构图；

图聚类模块，用于将构建的消息同构图作为图聚类算法的输入进行聚类，聚类结果作为检测到的社交媒体事件。

根据本发明实施例的第三方面，提出一种电子设备，所述设备包括：处理器和存储器；

所述存储器用于存储一个或多个程序指令；

所述处理器，用于运行一个或多个程序指令，用以执行如上任一项所述的一种结合深度学习分类与图聚类的社交媒体事件检测方法的步骤。

根据本发明实施例的第四方面，提出一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上任一项所述的一种结合深度学习分类与图聚类的社交媒体事件检测方法的步骤。

本发明提出一种结合深度学习分类与图聚类的社交媒体事件检测方法，对社交媒体数据流中的消息文本进行特征信息提取，将消息文本及特征信息作为节点，并将消息文本与其提取的特征信息连接构成边，构建得到消息异构图；基于所述消息异构图，随机选取两个消息文本节点构建消息对，并在每对消息对中构建多条共享特征边，构建得到多关系消息图；基于所述多关系消息图，利用深度学习分类模型得到消息对的相似度；判断消息对的相似度是否达到预设阈值，若消息对的相似度达到预设阈值，则在组成消息对的两个消息文本节点之间构建一条边，构建得到消息同构图；将构建的消息同构图作为图聚类算法的输入进行聚类，聚类结果作为检测到的社交媒体事件。本发明结合深度学习分类模型与图聚类算法，避免了将社交消息表示为向量的过程，以消息对的异构关联和消息文本为输入，利用深度学习分类模型差判别消息对是否属于同一事件，并通过消息对的预测结果构建消息同构图，利用图聚类算法发现具有紧密关联的社交消息簇作为社交事件；经过验证本发明的性能指标优于基线模型；本发明保证了计算难度和复杂度，可以用于海量的社交媒体事件检测任务。

附图说明

为了更清楚地说明本发明的实施方式或现有技术中的技术方案，下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地，下面描述中的附图仅仅是示例性的，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图引伸获得其它的实施附图。

本说明书所绘示的结构、比例、大小等，均仅用以配合说明书所揭示的内容，以供熟悉此技术的人士了解与阅读，并非用以限定本发明可实施的限定条件，故不具技术上的实质意义，任何结构的修饰、比例关系的改变或大小的调整，在不影响本发明所能产生的功效及所能达成的目的下，均应仍落在本发明所揭示的技术内容得能涵盖的范围内。

图1为本发明实施例提供的一种结合深度学习分类与图聚类的社交媒体事件检测方法的流程图；

图2为本发明实施例提供的一种结合深度学习分类与图聚类的社交媒体事件检测方法的原理图；

图3为本发明实施例提供的一种结合深度学习分类与图聚类的社交媒体事件检测***的结构示意图。

具体实施方式

以下由特定的具体实施例说明本发明的实施方式，熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明第一实施例提供了一种结合深度学习分类与图聚类的社交媒体事件检测方法，下面结合图1和图2进行说明。

如图1所示，在步骤S101中，对社交媒体数据流中的消息文本进行特征信息提取，将消息文本及特征信息作为节点，并将消息文本与其提取的特征信息连接构成边，构建得到消息异构图。

本实施例中，将社交媒体消息按照发布时间分成数据块，以模拟社交媒体消息的流式属性进行持续训练，提取消息中的实体信息、用户信息、标签信息及时间信息作为特征，构建消息异构图。

具体的，从消息中抽取以下四种类型的特征来实现社交媒体数据的最大化利用，并通过统一的方式进一步对抽取出来的特征进行处理以构建消息异构图。给定单条消息文本，从文本中抽取消息的实体信息、用户信息、标签信息及时间信息，定义为，将这些特征及社交媒体消息文本本身作为节点，在和其抽取的特征信息之间构成边，形成消息异构图。

如图1所示，在步骤S102中，基于所述消息异构图，随机选取两个消息文本节点构建消息对，并在每对消息对中构建多条共享特征边，构建得到多关系消息图。

本实施例中，将消息异构图中的特征映射到消息对中用来防止不同类型事件元素之间异构特征信息的丢失，在每对消息对中构建多条信息特征边，形成多关系消息图，用于保存丰富的社交媒体消息特征。

具体的，定义多关系消息图为，其中是一个数据块中的节点集合，是节点个数，每个节点具有不同的特征表示并具有表示成的维特征向量，将节点类型表示为，，，和分别代表消息、用户、实体、标签和时间信息，所有节点特征的集合表示为，从其他消息中随机采样与之构建成消息对。

当消息共享不同类型的特征元素时分别建立属于不同特征关系的边，是消息对之间的边，边可以关联多种关系，总共有四种不同类型的关系；

其中是消息异构图的邻接矩阵的子矩阵，行代表所有的特征信息节点，列代表属于关系的所有消息节点，是矩阵的转置，取二者中较小的一个。

如图1所示，在步骤S103中，基于所述多关系消息图，利用深度学习分类模型得到消息对的相似度。

本实施例中，将消息文本及特征利用BERT预训练语言模型对其文本进行处理，得到消息文本的嵌入向量，将文本的嵌入向量随机拼接形成消息对，并将其送入编码层得到消息对的编码向量。将获得的消息对的编码向量作为输入，通过线性变换层得到一个低维向量，通过激活函数计算出消息对的相似度。

具体的，在文本输入前，首先对其进行预处理，进行分词和去停用词操作，通过 BERT预训练语言模型对消息文本进行词嵌入处理，用维词向量表示词，。对消息文本向量进行嵌入得到消息文本的嵌入向量，消息文本的嵌入向量，将两个文本的嵌入向量拼接后通过编码层得到消息对的编码向量：

其中，表示向量的拼接操作。

将得到的编码向量通过线性变换层得到一个低维向量，并通过激活函数得到消息文本和的相似度，其中：

其中，，，和表示模型中的参数，表示激活函数。

如图1所示，在步骤S104中，判断消息对的相似度是否达到预设阈值，若消息对的相似度达到预设阈值，则在组成消息对的两个消息文本节点之间构建一条边，构建得到消息同构图。

本实施例中，为了增强消息之间的关联程度，将丰富的多种信息特征合并为唯一特征，将消息异构图映射为消息同构图，以实现图聚类算法。将消息对的相似度作为构建消息同构图的唯一依据，消息同构图只包含消息节点，在消息之间仅存在一种共享所有公共元素的边。

具体的，消息同构图仍保留消息异构图的所有公共特征，

其中是消息同构图的邻接矩阵，其中是图中消息节点的总数，表示节点类型，是消息异构图中邻接矩阵的子矩阵，包含类型的行和类型的列，是矩阵的转置，取二者中较小的一个。如果消息和消息连接到一些类型的节点时，将大于或等于1，则将等于1。

对于消息和消息，判断两者的相似度，当相似度达到阈值时便构建一条边，判断完所有的事件对后构成初始图，其中是节点集合，是边集合。

如图1所示，在步骤S105中，将构建的消息同构图作为图聚类算法的输入进行聚类，聚类结果作为检测到的社交媒体事件。

本实施例中，将构建的消息同构图作为图聚类算法的输入进行聚类，根据消息之间特征关联的传递性进行社区扩展，之后消息节点间进行多轮博弈选择更优的社区，最终实现社区的稳定状态，将社区划分结果作为聚类结果实现社交媒体事件检测。

具体过程包括，扩大社区规模，倘若三个点之间有两条边便形成一个半三角，根据三元闭包原理，两个节点在与一共同节点有关系的情况下也具有关联，则认为三个点之间存在隐性的关联关系，即三个点同属于一个社区；

进行多轮迭代，在每轮迭代中所有节点均可以根据当前的社区划分来做出对于自己而言更优的选择，共有以下三种选择：不改变当前社区；离开现在的社区并不加入任何其他社区；离开当前社区并加入另一个社区；

多轮博弈后算法达到纳什均衡，即所有节点均加入自己最为满意的社区，设置一个阈值对算法状态进行判断。

为了说明本发明的效果，本发明和已有的方法进行比较，在大规模的公开数据集 Event2012上进行实验，其发布时间约为29天，用第一周的消息组成初始块，其他按发布时间分成21个消息块。评价指标与对比方法一致，采用归一化互信息（NMI）、调整互信息（AMI）和调整兰德指数（ARI）作为评价聚类结果指标，聚类算法结束的阈值取为0.1%。实验结果分别如表1-表3所示：

表1 增量评估NMI得分

Blocks

Word2vec

LDA

WMD

BERT

BiLSTM

PP-GCN

EventX

KPGNN

FinEventd

ours

M1

.19±.00

.11±.00

.32±.00

.36±.00

.24±.00

.23±.00

.36±.00

.39±.00

.84±.01

0.47±.00 ↓.36

M2

.50±.00

.27±.01

.71±.00

.78±.00

.50±.00

.57±.02

.68±.00

.79±.01

.84±.00

0.92±.01 ↑.08

M3

.39±.00

.28±.00

.67±.00

.75±.00

.39±.00

.55±.01

.63±.00

.76±.00

.89±.00

0.87±.01 ↓.01

M4

.34±.00

.25±.00

.50±.00

.60±.00

.40±.00

.46±.01

.63±.00

.67±.00

.71±.01

0.84±.00 ↑.13

M5

.41±.00

.26±.00

.61±.00

.72±.00

.41±.00

.48±.01

.59±.00

.73±.01

.83±.00

0.84±.00 ↑.01

M6

.53±.00

.32±.00

.61±.00

.78±.00

.50±.00

.57±.01

.70±.00

.82±.01

.83±.00

0.94±.00 ↑.11

M7

.25±.00

.18±.01

.46±.00

.54±.00

.33±.00

.37±.00

.51±.00

.55±.01

.73±.01

0.64±.02 ↓.08

M8

.46±.00

.37±.01

.67±.00

.79±.00

.49±.00

.55±.02

.71±.00

.80±.00

.87±.02

0.90±.00 ↑.03

M9

.35±.00

.34±.00

.55±.00

.70±.00

.43±.00

.51±.02

.67±.00

.74±.02

.79±.01

0.88±.01 ↑.09

M10

.51±.00

.44±.01

.61±.00

.74±.00

.50±.00

.55±.02

.68±.00

.80±.01

.82±.01

0.95±.00 ↑.13

M11

.37±.00

.33±.01

.50±.00

.68±.00

.49±.00

.50±.01

.65±.00

.74±.01

.75±.00

0.90±.00 ↑.15

M12

.30±.00

.22±.01

.60±.00

.59±.00

.39±.00

.45±.01

.61±.00

.68±.01

.67±.01

0.81±.00 ↑.14

M13

.37±.00

.27±.00

.54±.00

.63±.00

.46±.00

.47±.01

.58±.00

.69±.01

.79±.00

0.84±.01 ↑.05

M14

.36±.00

.21±.00

.66±.00

.64±.00

.44±.00

.44±.01

.57±.00

.69±.00

.82±.00

0.79±.01 ↓.03

M15

.27±.00

.21±.00

.51±.00

.54±.00

.40±.00

.39±.01

.49±.00

.58±.00

.69±.01

0.85±.01 ↑.16

M16

.49±.00

.35±.01

.60±.00

.75±.00

.53±.00

.55±.01

.62±.00

.79±.01

.90±.01

0.91±.01 ↑.01

M17

.33±.00

.19±.00

.55±.00

.63±.00

.45±.00

.48±.00

.58±.00

.70±.01

.83±.00

0.84±.00 ↑.01

M18

.29±.00

.18±.00

.63±.00

.57±.00

.44±.00

.47±.01

.59±.00

.68±.02

.74±.01

0.85±.01 ↑.11

M19

.37±.00

.29±.01

.54±.00

.66±.00

.44±.00

.51±.02

.60±.00

.73±.01

.66±.01

0.87±.00 ↑.21

M20

.38±.00

.35±.00

.58±.00

.68±.00

.48±.00

.51±.01

.67±.00

.72±.02

.80±.00

0.85±.02 ↑.05

M21

.31±.00

.19±.00

.58±.00

.59±.00

.41±.00

.41±.02

.53±.00

.60±.00

.74±.01

0.75±.01 ↑.01

AVG

0.3700

0.2671

0.5742

0.6533

0.4345

0.4771

0.8024

0.6876

0.7876

0.8338

表2 增量评估AMI得分

Blocks

Word2vec

LDA

WMD

BERT

BiLSTM

PP-GCN

EventX

KPGNN

FinEventd

ours

M1

.08±.00

.30±.00

.34±.00

.12±.00

.21±.00

.06±.00

.37±.00

.84±.01

0.40±.01 ↓.43

M2

.41±.00

.20±.01

.69±.00

.76±.00

.41±.00

.55±.02

.29±.02

.78±.01

.84±.01

0.89±.00 ↑.05

M3

.31±.00

.22±.01

.63±.00

.73±.00

.31±.00

.52±.01

.18±.01

.74±.00

.89±.01

0.82±.00 ↓.06

M4

.24±.00

.17±.00

.45±.00

.55±.00

.30±.00

.42±.01

.19±.01

.64±.01

.69±.00

0.77±.00 ↑.08

M5

.33±.00

.21±.00

.57±.00

.71±.00

.33±.00

.46±.01

.14±.00

.71±.01

.82±.00

0.79±.02 ↓.03

M6

.40±.00

.20±.00

.57±.00

.74±.00

.36±.00

.52±.02

.27±.00

.79±.01

.82±.02

0.90±.00 ↑.08

M7

.13±.00

.12±.01

.46±.00

.50±.00

.20±.00

.34±.00

.13±.00

.51±.01

.72±.00

0.55±.03 ↓.14

M8

.33±.00

.24±.01

.63±.00

.75±.00

.35±.00

.49±.02

.21±.00

.76±.01

.87±.01

0.83±.00 ↓.03

M9

.24±.00

.46±.00

.66±.00

.32±.00

.46±.02

.19±.00

.71±.02

.78±.01

0.81±.01 ↑.03

M10

.39±.00

.36±.01

.57±.00

.70±.00

.39±.00

.51±.02

.24±.00

.78±.01

.81±.00

0.92±.00 ↑.11

M11

.26±.00

.25±.01

.42±.00

.65±.00

.37±.00

.46±.01

.24±.00

.71±.01

.74±.00

0.86±.00 ↑.12

M12

.23±.00

.16±.01

.58±.00

.56±.00

.32±.00

.42±.01

.16±.00

.66±.01

.67±.02

0.72±.01 ↑.05

M13

.23±.00

.19±.00

.50±.00

.59±.00

.31±.00

.43±.01

.16±.00

.67±.01

.79±.00

0.80±.00 ↑.01

M14

.26±.00

.15±.00

.64±.00

.61±.00

.34±.00

.41±.01

.14±.00

.65±.00

.82±.01

0.72±.01 ↓.09

M15

.15±.00

.13±.00

.47±.00

.50±.00

.26±.00

.35±.01

.07±.00

.54±.00

.67±.01

0.80±.00 ↑.13

M16

.36±.00

.27±.01

.59±.00

.72±.00

.41±.00

.52±.01

.19±.00

.77±.01

.90±.01

0.88±.02 ↓.01

M17

.24±.00

.13±.00

.57±.00

.60±.00

.35±.00

.45±.00

.18±.00

.68±.01

.82±.01

0.79±.00 ↓.02

M18

.21±.00

.12±.00

.60±.00

.53±.00

.35±.00

.45±.01

.16±.00

.66±.02

.74±.00

0.81±.00 ↑.07

M19

.28±.00

.22±.01

.49±.00

.63±.00

.35±.00

.48±.02

.16±.00

.71±.01

.66±.01

0.83±.01 ↑.17

M20

.24±.00

.23±.00

.55±.00

.62±.00

.34±.00

.45±.02

.18±.00

.68±.02

.78±.00

0.76±.00 ↓.02

M21

.21±.00

.13±.00

.52±.00

.57±.00

.31±.00

.38±.02

.10±.00

.57±.00

.64±.01

0.69±.01 ↑.05

AVG

0.2633

0.1914

0.5362

0.6200

0.3238

0.4419

0.1733

0.6710

0.7767

0.7781

表3 增量评估ARI得分

Blocks

Word2vec

LDA

WMD

BERT

BiLSTM

PP-GCN

EventX

KPGNN

FinEventd

ours

M1

.01±.00

.04±.00

.03±.00

.05±.00

.01±.00

.07±.01

.90±.00

0.11±.01 ↓.78

M2

.49±.00

.08±.00

.48±.00

.64±.00

.49±.00

.67±.03

.45±.02

.76±.02

.90±.01

0.91±.00 ↑.01

M3

.16±.00

.02±.01

.28±.00

.43±.00

.17±.00

.47±.01

.09±.01

.58±.00

.89±.01

0.78±.01 ↓.10

M4

.07±.00

.11±.00

.19±.00

.11±.00

.24±.01

.07±.01

.29±.01

.27±.01

0.56±.01 ↑.29

M5

.17±.00

.06±.00

.26±.00

.44±.00

.19±.00

.34±.00

.04±.00

.47±.03

.63±.02

0.76±.01 ↑.13

M6

.25±.00

.07±.01

.16±.00

.44±.00

.18±.00

.55±.03

.14±.00

.72±.03

.74±.00

0.90±.00 ↑.16

M7

.02±.00

.01±.00

.08±.00

.07±.00

.08±.00

.11±.02

.02±.00

.12±.00

.45±.01

0.15±.02 ↓.28

M8

.17±.00

.03±.00

.22±.00

.50±.00

.08±.00

.43±.04

.09±.00

.60±.01

.72±.01

0.79±.00 ↑.07

M9

.08±.00

.03±.01

.12±.00

.33±.00

.27±.00

.31±.02

.07±.00

.46±.02

.68±.00

0.63±.02 ↓.03

M10

.23±.00

.09±.02

.20±.00

.44±.00

.22±.00

.50±.07

.13±.00

.70±.06

.74±.01

0.88±.00 ↑.14

M11

.09±.00

.03±.01

.12±.00

.27±.00

.17±.00

.38±.02

.16±.00

.49±.03

.60±.01

0.93±.00 ↑.33

M12

.09±.00

.02±.01

.27±.00

.31±.00

.13±.00

.34±.03

.07±.00

.48±.01

.26±.00

0.60±.01 ↑.14

M13

.06±.00

.01±.00

.13±.00

.14±.00

.13±.00

.19±.01

.04±.00

.29±.03

.75±.02

0.73±.01 ↓.01

M14

.10±.00

.02±.00

.33±.00

.30±.00

.16±.00

.29±.01

.10±.00

.42±.02

.81±.01

0.58±.00 ↓.22

M15

.09±.00

.01±.00

.16±.00

.10±.00

.14±.00

.15±.00

.01±.00

.17±.00

.46±.00

0.86±.00 ↑.40

M16

.10±.00

.11±.01

.32±.00

.41±.00

.10±.00

.51±.03

.08±.00

.66±.05

.88±.01

0.85±.01 ↓.02

M17

.06±.00

.02±.00

.26±.00

.24±.00

.17±.00

.35±.03

.12±.00

.43±.05

.81±.01

0.70±.03 ↓.08

M18

.21±.00

.02±.00

.35±.00

.24±.00

.19±.00

.39±.03

.08±.00

.47±.04

.52±.01

0.76±.01 ↑.24

M19

.28±.00

.03±.00

.12±.00

.32±.00

.16±.00

.41±.02

.07±.00

.51±.03

.35±.01

0.75±.02 ↑.40

M20

.24±.00

.02±.01

.19±.00

.33±.00

.20±.00

.41±.01

.11±.00

.51±.04

.71±.01

0.67±.01 ↓.03

M21

.21±.00

.01±.01

.19±.00

.18±.00

.16±.00

.20±.03

.01±.00

.20±.01

.48±.00

0.51±.00 ↑.03

AVG

0.1514

0.0367

0.2090

0.3024

0.1681

0.3471

0.0933

0.4476

0.6452

0.6861

由实验结果可知，实验组的模型与基线模型FinEvent相比，NMI值平均提高了4.62%，AMI值平均提高了0.14%，ARI值平均提高了4.09%。可知本发明在保证计算难度和复杂度的情况下，关注图结构，采用图聚类算法来挖掘社交媒体消息中的连接关系，可以更好的提升社交媒体事件检测的性能。

与上述公开的一种结合深度学习分类与图聚类的社交媒体事件检测方法相对应，本发明实施例还公开了一种结合深度学习分类与图聚类的社交媒体事件检测***，如图3所示，其具体包括：

需要说明的是，对于本发明实施例提供的一种结合深度学习分类与图聚类的社交媒体事件检测***的详细描述可以参考对本申请实施例提供的一种结合深度学习分类与图聚类的社交媒体事件检测方法的相关描述，这里不再赘述。

另外，本发明实施例还提供了一种电子设备，所述设备包括：处理器和存储器；所述存储器用于存储一个或多个程序指令；所述处理器，用于运行一个或多个程序指令，用以执行如上所述的一种结合深度学习分类与图聚类的社交媒体事件检测方法的步骤。

需要说明的是，对于本发明实施例提供的一种电子设备的详细描述可以参考对本申请实施例提供的一种结合深度学习分类与图聚类的社交媒体事件检测方法的相关描述，这里不再赘述。

另外，本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上所述一种结合深度学习分类与图聚类的社交媒体事件检测方法的步骤。

需要说明的是，对于本发明实施例提供的一种计算机可读存储介质的详细描述可以参考对本申请实施例提供的一种结合深度学习分类与图聚类的社交媒体事件检测方法的相关描述，这里不再赘述。

在本发明实施例中，处理器可以是一种集成电路芯片，具有信号的处理能力。处理器可以是通用处理器、数字信号处理器（Digital Signal Processor，简称DSP）、专用集成电路（Application Specific Integrated Circuit，简称ASIC）、现场可编程门阵列（FieldProgrammable Gate Array，简称FPGA）或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。处理器读取存储介质中的信息，结合其硬件完成上述方法的步骤。

存储介质可以是存储器，例如可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。

其中，非易失性存储器可以是只读存储器（Read-Only Memory，简称ROM）、可编程只读存储器（Programmable ROM，简称PROM）、可擦除可编程只读存储器（Erasable PROM，简称EPROM）、电可擦除可编程只读存储器（Electrically EPROM，简称EEPROM）或闪存。

易失性存储器可以是随机存取存储器（Random Access Memory，简称RAM），其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器（Static RAM，简称SRAM）、动态随机存取存储器（Dynamic RAM，简称DRAM）、同步动态随机存取存储器（Synchronous DRAM，简称SDRAM）、双倍数据速率同步动态随机存取存储器（Double Data RateSDRAM，简称DDRSDRAM）、增强型同步动态随机存取存储器（EnhancedSDRAM，简称ESDRAM）、同步连接动态随机存取存储器（Synchlink DRAM，简称SLDRAM）和直接内存总线随机存取存储器（DirectRambus RAM，简称DRRAM）。

本发明实施例描述的存储介质旨在包括但不限于这些和任意其它适合类型的存储器。

本领域技术人员应该可以意识到，在上述一个或多个示例中，本发明所描述的功能可以用硬件与软件组合来实现。当应用软件时，可以将相应功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。计算机可读介质包括计算机存储介质和通信介质，其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是通用或专用计算机能够存取的任何可用介质。

虽然，上文中已经用一般性说明及具体实施例对本发明作了详尽的描述，但在本发明基础上，可以对之作一些修改或改进，这对本领域技术人员而言是显而易见的。因此，在不偏离本发明精神的基础上所做的这些修改或改进，均属于本发明要求保护的范围。

Claims

1.一种结合深度学习分类与图聚类的社交媒体事件检测方法，其特征在于，所述方法包括：

2.根据权利要求1所述的一种结合深度学习分类与图聚类的社交媒体事件检测方法，其特征在于，所述方法还包括：

3.根据权利要求1所述的一种结合深度学习分类与图聚类的社交媒体事件检测方法，其特征在于，对社交媒体数据流中的消息文本进行特征信息提取，将消息文本及特征信息作为节点，并将消息文本与其提取的特征信息连接构成边，构建得到消息异构图，具体包括：

给定单条消息文本，从文本中抽取消息的特征信息，所述特征信息包括实体信息、用户信息、话题标签信息及时间信息，定义为/>；

定义消息异构图，其中/>代表社交媒体消息文本本身及其中各种类型的事件相关特征信息的节点集合，/>代表消息与对应特征之间的边的集合。

4.根据权利要求3所述的一种结合深度学习分类与图聚类的社交媒体事件检测方法，其特征在于，基于所述消息异构图，随机选取两个消息文本节点构建消息对，并在每对消息对中构建多条共享特征边，构建得到多关系消息图，具体包括：

定义多关系消息图为；

其中是消息文本节点集合/>，/>是消息文本节点个数，每个节点具有不同的特征表示并具有表示成/>的/>维特征向量，将消息节点类型表示为/>，/>，/>，/>和/>分别代表消息、用户、实体、话题标签和时间信息，所有节点特征的集合表示为，从其他消息文本中随机采样与节点/>构建成消息对/>；

当消息文本共享不同类型的特征信息时分别建立属于不同共享特征关系的边，是消息对/>中的边，边能关联多种共享特征关系：

其中/>是消息异构图的邻接矩阵的子矩阵，行代表所有的特征信息节点，列代表属于关系/>的所有消息节点，/>是矩阵的转置。

5.根据权利要求1所述的一种结合深度学习分类与图聚类的社交媒体事件检测方法，其特征在于，基于所述多关系消息图，利用深度学习分类模型得到消息对的相似度，具体包括：

对消息文本进行预处理，包括进行分词和去停用词操作，然后通过BERT预训练语言模型对消息文本进行词嵌入处理，用维词向量/>表示词，/>；

对消息文本向量进行嵌入得消息文本/>的嵌入向量/>，消息文本/>的嵌入向量/>，将两个消息文本的嵌入向量通过编码层拼接后得到消息对的编码向量：

其中，/>表示向量的拼接操作；

将得到的编码向量通过线性变换层得到低维向量，并通过/>激活函数得到消息文本/>和/>的相似度/>，其中/>：

，/>，其中，/>，/>，/>和/>表示模型中的参数，/>表示激活函数。

6.根据权利要求3所述的一种结合深度学习分类与图聚类的社交媒体事件检测方法，其特征在于，判断消息对的相似度是否达到预设阈值，若消息对的相似度达到预设阈值，则在组成消息对的两个消息文本节点之间构建一条边，构建得到消息同构图，具体包括：

消息同构图仍保留消息异构图的所有公共特征，

，其中/>是消息同构图的邻接矩阵，其中/>是图中消息节点的总数，/>表示节点类型，/>是消息异构图中邻接矩阵的子矩阵，包含类型的行和/>类型的列，/>是矩阵的转置；如果消息文本节点/>和消息文本节点/>连接到一些类型的/>节点时，/>将大于或等于1，则/>将等于1；

对于消息文本和消息文本/>组成的消息对，判断消息对的相似度/>是否达到预设阈值/>，当相似度达到预设阈值/>时便构建一条边/>，判断完所有的消息对后构成初始消息同构图/>，其中/>是消息文本节点集合，/>是边集合。

7.根据权利要求1所述的一种结合深度学习分类与图聚类的社交媒体事件检测方法，其特征在于，将构建的消息同构图作为图聚类算法的输入进行聚类，聚类结果作为检测到的社交媒体事件，具体包括：

8.根据权利要求7所述的一种结合深度学习分类与图聚类的社交媒体事件检测方法，其特征在于，根据消息之间特征关联的传递性进行社区扩展，之后消息节点间进行多轮博弈选择更优的社区，最终实现社区的稳定状态，具体包括：

9.一种结合深度学习分类与图聚类的社交媒体事件检测***，其特征在于，所述***包括：

10.一种电子设备，其特征在于，所述设备包括：处理器和存储器；

所述存储器用于存储一个或多个程序指令；

所述处理器，用于运行一个或多个程序指令，用以执行如权利要求1至8任一项所述的一种结合深度学习分类与图聚类的社交媒体事件检测方法的步骤。