CN114880482A

CN114880482A - 一种基于图嵌入的关系图谱关键人员分析方法及***

Info

Publication number: CN114880482A
Application number: CN202210451803.3A
Authority: CN
Inventors: 张暐; 郭峰; 陈瀚平; 曹瑞雪; 陈栩琪
Original assignee: GRG Banking Equipment Co Ltd
Current assignee: GRG Banking Equipment Co Ltd
Priority date: 2022-04-26
Filing date: 2022-04-26
Publication date: 2022-08-09
Also published as: WO2023207013A1

Abstract

本发明公开了一种基于图嵌入的关系图谱关键人员分析方法及***，所述方法包括以下步骤:基于社交媒体数据构建人物关系图谱；采用图嵌入算法对所述人物关系图谱中的每个节点进行分析，得到各节点的嵌入向量；根据预先相关指标生成所述人物关系图谱的关键节点种子；根据所述各节点的嵌入向量，采用聚类算法对所述关键节点种子进行分析，识别出关键人员节点。本发明充分利用了关系图谱的拓扑性质，具备可学习性，不需要人工设置参数值或者规定度增益的计算规则，从而消除了人为规则设定不合理对结果的不利影响；同时，对全图进行计算，综合了节点的同构性和异质性，使得出的关键人员分析结果会更加准确。

Description

一种基于图嵌入的关系图谱关键人员分析方法及***

技术领域

本发明涉及知识图谱分析技术领域，具体涉及一种基于图嵌入的关系图谱关键人员分析方法及***。

背景技术

人员关系图谱是以“人员”实体和人员之间的社会、亲属、情感关系为核心构建的知识图谱。根据“六度分离理论”，在人际交往中，任意两个陌生人最多只要通过五个朋友就能建立联系。从某种程度上来说，世界上所有人都可以通过个人的关系网联系起来。因为现实世界的复杂性，关系图谱的构建过程中涉及到的人物和关系种类也越来越多。在一个关系图谱的若干子图中往往只有一个人物或者几个人物起到主要作用，尤其是在舆情分析、行政管理、风险控制和推荐***中，对关键人员的挖掘,对业务发挥着决定性作用，已经成为了知识图谱分析和应用的重要技术。

在关系图谱上的关键人物挖掘，学习方法较少，还依赖于人工定性或者简单的静态数值计算。例如，中国专利CN113032607A公开了一种关键人员分析方法，方法包括：“获取成员关系图谱，获取成员初始化权值，获取成员交互信息，基于交互信息和初始全值计算成员全值并更新，更新后得到与所述各节点人员对应的相邻两次的权值差之和小于预设权值阈值，则提取更新后权值最大的节点人员作为目标节点人员”，该方案存在以下不足：1)关系图谱中的节点信息、交互信息的值、节点权值的更新方法都是由人工规则设定，不具备可学习性。2) 当增删节点和关系、进行跨领域业务迁移时，需要人工干预给出相应的业务规则，不具备可拓展性。3)节点人员的权值更新只包含了局部的结构信息和人员信息，未能利用到全局的拓扑结构，不具备高准确性。这些问题使得关系图谱的关键人员分析无法智能化，有着严重的应用限制。

例如，中国专利CN 112269922 A公开了一种基于网络表示学习的社区舆论关键人物发现方法，方法包括“将社交网络关系图输入社区结构与结构洞节点发现模型得到社区划分集和结构洞节点；将社交网络关系图、社区划分集输入蕴含社会影响力和社区结构的网络嵌入模型得到社区网络图中的节点的社会影响力和节点网络嵌入表示向量；基于结构洞节点、社会影响力和网络嵌入表示向量进行可视化分析，获取舆论关键人物。”该方案仍然存在以下不足：1)关系图的直接模块度增益和间接模块度增益，直到通过特征值分解得到网络嵌入向量的目标矩阵，整个过程中向量化的方法由规则给出，仍然属于人工选择特征，而非自适应学习。该方法极大的依赖于直接模块和间接模块度增益的规则定义，如果规则定义不能反应网络结构，那么方法会极大的受到影响，降低了关键人物发现的准确率。

发明内容

鉴于以上技术问题，本发明的目的在于提供一种基于图嵌入的关系图谱关键人员分析方法及***，解决传统的关键人物挖掘方法不具备可拓展性，或采用节点人员的权值更新只包含了局部的结构信息和人员信息导致准确性低，或依赖于直接模块和间接模块度增益的规则导致准确率低的问题。

本发明采用以下技术方案：

一种基于图嵌入的关系图谱关键人员分析方法，包括以下步骤:

基于社交媒体数据构建人物关系图谱；

采用图嵌入算法对所述人物关系图谱中的每个节点进行分析，得到各节点的嵌入向量；

根据预先相关指标生成所述人物关系图谱的关键节点种子；

根据所述各节点的嵌入向量，采用聚类算法对所述关键节点种子进行分析，识别出关键人员节点。

可选的，所述基于社交媒体数据构建人物关系图谱，包括：

从触发舆情事件整个周期的新闻数据中挖掘人物实体和关系，生成人物关系图谱。

可选的，所述从触发舆情事件整个周期的新闻数据中挖掘人物实体和关系，生成人物关系图谱，包括：

使用爬虫技术在网络平台通过关键词过滤在指定舆情期间发表的新闻报道和社交动态数据，得到舆情期间所述新闻报道中与所述舆情事件相关的文本和社交动态内容，以及实体间互动关系，采用文本结构化技术生成相应的人物关系图谱。

可选的，所述采用图嵌入算法对所述人物关系图谱中的每个节点进行分析，得到各节点的嵌入向量，包括：

对于每个节点，采取随机游走的方法获取近邻节点，得到邻近节点集合；使用skip-gram模型训练邻近节点集合，用各邻近节点预测当前节点，使得当前节点现的概率最大，依次对所述邻近节点集合中的各邻近节点进行训练，得到各节点的嵌入向量。

可选的，所述根据预先相关指标对节点，生成关键节点种子，包括：

根据预设相关指标生成图邻接矩阵，对所述邻接矩阵进行特征分解，得到特征值和特征向量；

获取各节点特征值中最大特征值对应的特征向量，其中，第i个节点的中心性为最大特征值对应的特征向量中的第i个元素，根据各节点的中心性生成关键节点种子。

可选的，所述根据所述关键节点种子，采用聚类算法对所述各节点的嵌入向量进行分析，识别出关键人员节点，包括：

根据所述关键节点种子，采用聚类算法对所述各嵌入向量进行归类，得到若干聚类类别；

计算每个聚类类别c_i的聚类中心,将计算得到的聚类中心作为更新后的聚类中心，以所述更新厚的聚类中心作为关键人员节点。

可选的，所述采用聚类算法对所述各嵌入向量进行归类，得到若干聚类类别，包括：

将所述关键节点种子作为初始聚类中心，计算各嵌入向量到各个初始聚类中心的距离，并获取距离各嵌入向量距离最短的初始聚类中心,将每一节点归类为距离其距离最短的初始聚类中心所属的聚类类别。

一种基于图嵌入的关系图谱关键人员分析***，包括：

图谱构建单元，用于基于社交媒体数据构建人物关系图谱；

图谱分析单元，用于采用图嵌入算法对所述人物关系图谱中的每个节点进行分析，得到各节点的嵌入向量；

关键节点种子生成单元，用于根据预先相关指标生成所述人物关系图谱的关键节点种子；

识别单元，用于根据所述各节点的嵌入向量，采用聚类算法对所述关键节点种子进行分析，识别出关键人员节点。

一种电子设备，包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行所述的基于图嵌入的关系图谱关键人员分析方法。

一种计算机存储介质，其上存储有计算机程序，所述计算机程序在被处理器执行时，实现所述的基于图嵌入的关系图谱关键人员分析方法。

相比现有技术，本发明的有益效果在于：

本发明通过基于社交媒体数据构建人物关系图谱，采用图嵌入算法对所述人物关系图谱中的每个节点进行分析，得到各节点的嵌入向量，充分利用了关系图谱的拓扑性质，同时，具备可学习性，网络嵌入表示和节点向量化分别由随机游走控制和相应的机器学习方法决定，不需要人工设置参数值或者规定度增益的计算规则，从而消除了人为规则设定不合理对结果的不利影响；同时，本发明基于社交媒体数据构建人物关系图谱，只依赖网络拓扑结构，当增删节点和关系、进行跨领域业务迁移时，可以快速训练网络，不需要额外的知识注入；根据预先相关指标生成所述人物关系图谱的关键节点种子；根据所述各节点的嵌入向量，采用聚类算法对所述关键节点种子进行分析，识别出关键人员节点，在识别出关键人员节点的过程中，对全图进行计算，综合了节点的同构性和异质性，使得出的关键人员分析结果会更加准确。

进一步的，采取随机游走的方法获取近邻节点，得到邻近节点集合，用各邻近节点预测当前节点，使得当前节点现的概率最大，依次对所述邻近节点集合中的各邻近节点进行训练，得到各节点的嵌入向量，采用基于随机游走的图嵌入方法进行分析，不需要人工设置参数值或者规定度增益的计算规则，从而进一步提高了识别关键人员节点的高准确率。

附图说明

图1为本发明一实施例提供的一种基于图嵌入的关系图谱关键人员分析方法的流程示意图；

图2为本发明一实施例提供的一种近邻节点的随机游走采样示意图；

图3为本发明一实施例提供的一种基于图嵌入的关系图谱关键人员分析***的示意图；

图4为本发明一实施例提供的一种电子设备的结构示意图。

具体实施方式

下面，结合附图以及具体实施方式，对本发明做进一步描述，需要说明的是，在不相冲突的前提下，以下描述的各实施例之间或各技术特征之间可以任意组合形成新的实施例：

实施例一：

下面先对本发明中专业术语进行解释说明：

图嵌入(Graph Embedding，也叫Network Embedding)是一种将图数据(通常为高维稠密的矩阵)映射为低微稠密向量的过程，能够很好地解决图数据难以高效输入机器学习算法的问题。

邻接矩阵(Adjacency Matrix)是表示顶点之间相邻关系的矩阵，邻接矩阵的逻辑结构分为两部分：V和E集合，其中，V是顶点，E是边。因此，用一个一维数组存放图中所有顶点数据；用一个二维数组存放顶点间关系(边或弧) 的数据，这个二维数组称为邻接矩阵。

中心性(centrality)，是用来度量结点在网络中的重要性。对于单个结点或由多个结点组成的群体都可以定义中心性。特征向量中心性是结合结点邻居的中心性作为该结点的中心性。

节点的嵌入向量是指通过网络结构中的连接关系，得到网络中顶点 (vertex)的向量表示，作为基本特征应用到聚类、分类等任务上。

请参照图1所示，图1使出了本发明的一种基于图嵌入的关系图谱关键人员分析方法，包括以下步骤:

步骤S1:基于社交媒体数据构建人物关系图谱；

具体的，所述基于社交媒体数据构建人物关系图谱，包括：

在具体实施时，可使用爬虫技术在网络平台通过关键词过滤在指定舆情期间发表的新闻报道和社交动态数据，得到舆情期间所述新闻报道中与所述舆情事件相关的文本和社交动态内容，以及实体间互动关系，采用文本结构化技术生成相应的人物关系图谱。

在具体实施中，在构建人物关系图谱的过程中，还可通过知识三元组抽取技术、动态随时间演化的知识图谱生成技术、开发关系挖掘技术以及基于领域知识的迁移学习技术等实现构建人物关系图谱。

步骤S2:采用图嵌入算法对所述人物关系图谱中的每个节点进行分析，得到各节点的嵌入向量；

可选的，所述步骤S2，包括：

对于每个节点，采取随机游走的方法获取近邻节点，得到邻近节点集合；具体的，请参照图2所示，图2示出了本发明实施例提供的一种近邻节点的随机游走采样示意图；其中，给定当前顶点v,去到顶点x的概率为：

其中，π_vx表示顶点之间的未归一化转移概率，即为随机游走经过节点t到达节点v，游走到节点x的概率；Z是归一化常数；

具体的，为控制随机游走的方向，来表达我们的偏好，假设当前的随机游走经过节点t到达了节点v，此时的游走到x的概率π_vx满足以下公式：

ω_vx＝α_pq(t，x)·ω_vx；ω_vx是边的权重，p为返回参数，q为远离参数，d_tx是最短路径距离；系数α_pq(t,x)满足以下公式：

其中，若q>1,则随机游走倾向于访问于前一节点接近的节点，若q<1,则随机游走倾向于访问远离前一节点的节点。

在上述实现过程中，本发明基于随机游走的向量化方法，不同于中国专利的 CN113032607 A交互信息的值、节点权值的更新这种非向量化方法，也不同于中国专利的CN112269922 A的模块度增益的规则方法，具有可学习性和自适应性。

然后，使用skip-gram模型训练邻近节点集合，用各邻近节点预测当前节点，使得当前节点现的概率最大，依次对所述邻近节点集合中的各邻近节点进行训练，得到各节点的嵌入向量。

在上述实现过程中，通过基于社交媒体数据构建人物关系图谱，采用图嵌入算法对所述人物关系图谱中的每个节点进行分析，例如，通过从触发舆情事件整个周期的新闻数据中挖掘人物实体和关系，生成人物关系图谱；使用基于随机游走的图嵌入机器学习方法对图谱进行分析，得到节点向量，对于整个图直接进行向量化，特征信息获取更加全面，通过对全图进行计算，综合了节点的同构性和异质性，使得出的关键人员分析结果会更加准确。

在具体实施时，在使用邻近节点预测当前节点的技术过程中，还可采用CBOW 等word2vec的衍生方法，以及基于负采样或者哈夫曼树的训练优化方法来帮助实现预测当前节点。

具体的，得到当前节点的邻近节点集合，记为N_S(u)，先使用skip-gram模型训练各邻近节点，用邻近节点预测当前节点，使得当前节点出现的概率最大，最大概率为

然后依次训练各邻近节点得到嵌入向量。

步骤S3:根据预先相关指标生成所述人物关系图谱的关键节点种子；

可选的，所述步骤S3，包括：

具体的，可根据网络密度、可达性、聚类系数和中心性测度等相关指标生成图邻接矩阵A，对邻接矩阵进行特征分解，即Ax＝λx，得到特征值和特征向量后，最大特征值对应的特征向量中，第i个节点的中心性等于特征向量中的第i 个元素。

在具体实施时，具体还可采用人工标注、预训练模型标注，远程无监督等小样本标注方法，先进行标注，所述中心性具体还可包括度中心性，介数中心性，紧密中心性等重要性度量指标。

步骤S4:根据所述各节点的嵌入向量，采用聚类算法对所述关键节点种子进行分析，识别出关键人员节点。

可选的，所述步骤S4,具体包括：

将所述关键节点种子作为初始聚类中心，所述初始聚类中心分别α₁、α₂、......α_k，所述初始聚类中心组成初始聚类中心集α＝α₁，α₂，......α_k；

采用聚类算法对所述各嵌入向量进行归类，得到若干聚类类别；计算每个聚类类别c_i的聚类中心,将计算得到的聚类中心作为关键人员节点。

在上述实现过程中，本发明对图嵌入的向量化方法直接进行了分类，不依赖于强假设，不同于中国专利的CN 112269922 A的社区结构和社会影响力假设，具有普适性。

采用聚类算法对所述各嵌入向量进行归类的步骤包括：

计算各嵌入向量x_i到各个初始聚类中心的距离，并获取距离各嵌入向量距离最短的初始聚类中心α_i,将每一节点归类为距离其距离最短的初始聚类中心α_i所属的聚类类别c_i，其中，1≤i≤k，i和k均为自然数；

具体的，计算采用的聚类中心的计算方法为：

其中，|c_i|表示聚类类别中的节点个数，将聚类中心的算法重复迭代，直到达到某个中止条件，其中，关键节点种子节点所在的类作为关键节点类。

在本实施例中，使用机器学习方法对向量化节点进行分析，识别出关键节点，具体的，识别出关键人员节点采用的算法可采用有监督和半监督的机器学习分类算法。

请参照图3所示，图3示出了本发明的一种基于图嵌入的关系图谱关键人员分析***，包括：

图谱构建单元，用于基于社交媒体数据构建人物关系图谱；

实施例三：

图4为本申请实施例提供的一种电子设备的结构示意图，在本申请中可以通过图4所示的示意图来描述用于实现本申请实施例的本发明一种基于图嵌入的关系图谱关键人员分析方法的电子设备100。

如图所4示的一种电子设备的结构示意图，电子设备100包括一个或多个处理器102、一个或多个存储装置104，这些组件通过总线***和/或其它形式的连接机构(未示出)互连。应当注意，图4所示的电子设备100的组件和结构只是示例性的，而非限制性的，根据需要，所述电子设备可以具有图4示出的部分组件，也可以具有图4未示出的其他组件和结构。

所述处理器102可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元，并且可以控制所述电子设备100中的其它组件以执行期望的功能。

所述存储装置104可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器102可以运行所述程序指令，以实现下文所述的本申请实施例中(由处理器实现)的功能以及/或者其它期望的功能。在所述计算机可读存储介质中还可以存储各种应用程序和各种数据，例如所述应用程序使用和/或产生的各种数据等。

本发明还提供一种计算机存储介质，其上存储有计算机程序，本发明的方法如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在该计算机存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机存储介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM， Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机存储介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机存储介质不包括电载波信号和电信信号。

对本领域的技术人员来说，可根据以上描述的技术方案以及构思，做出其它各种相应的改变以及形变，而所有的这些改变以及形变都应该属于本发明权利要求的保护范围之内。

Claims

1.一种基于图嵌入的关系图谱关键人员分析方法，其特征在于，包括以下步骤:

基于社交媒体数据构建人物关系图谱；

根据预先相关指标生成所述人物关系图谱的关键节点种子；

2.根据权利要求1所述的基于图嵌入的关系图谱关键人员分析方法，其特征在于，所述基于社交媒体数据构建人物关系图谱，包括：

3.根据权利要求2所述的基于图嵌入的关系图谱关键人员分析方法，其特征在于，所述从触发舆情事件整个周期的新闻数据中挖掘人物实体和关系，生成人物关系图谱，包括：

4.根据权利要求1所述的基于图嵌入的关系图谱关键人员分析方法，其特征在于，所述采用图嵌入算法对所述人物关系图谱中的每个节点进行分析，得到各节点的嵌入向量，包括：

5.根据权利要求1所述的基于图嵌入的关系图谱关键人员分析方法，其特征在于，所述根据预先相关指标对节点，生成关键节点种子，包括：

6.根据权利要求1所述的基于图嵌入的关系图谱关键人员分析方法，其特征在于，所述根据所述关键节点种子，采用聚类算法对所述各节点的嵌入向量进行分析，识别出关键人员节点，包括：

计算每个聚类类别c_i的聚类中心,将计算得到的聚类中心作为更新后的聚类中心，以所述更新后的聚类中心作为关键人员节点。

7.根据权利要求6所述的基于图嵌入的关系图谱关键人员分析方法，其特征在于，所述采用聚类算法对所述各嵌入向量进行归类，得到若干聚类类别，包括：

8.一种基于图嵌入的关系图谱关键人员分析***，其特征在于，包括：

图谱构建单元，用于基于社交媒体数据构建人物关系图谱；

9.一种电子设备，其特征在于，包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-7任一项所述的基于图嵌入的关系图谱关键人员分析方法。

10.一种计算机存储介质，其上存储有计算机程序，其特征在于，所述计算机程序在被处理器执行时，实现权利要求1-7任一项所述的基于图嵌入的关系图谱关键人员分析方法。