CN114880482A - 一种基于图嵌入的关系图谱关键人员分析方法及*** - Google Patents

一种基于图嵌入的关系图谱关键人员分析方法及*** Download PDF

Info

Publication number
CN114880482A
CN114880482A CN202210451803.3A CN202210451803A CN114880482A CN 114880482 A CN114880482 A CN 114880482A CN 202210451803 A CN202210451803 A CN 202210451803A CN 114880482 A CN114880482 A CN 114880482A
Authority
CN
China
Prior art keywords
node
graph
key
embedding
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210451803.3A
Other languages
English (en)
Inventor
张暐
郭峰
陈瀚平
曹瑞雪
陈栩琪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
GRG Banking Equipment Co Ltd
Original Assignee
GRG Banking Equipment Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by GRG Banking Equipment Co Ltd filed Critical GRG Banking Equipment Co Ltd
Priority to CN202210451803.3A priority Critical patent/CN114880482A/zh
Publication of CN114880482A publication Critical patent/CN114880482A/zh
Priority to PCT/CN2022/129009 priority patent/WO2023207013A1/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/288Entity relationship models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • G06F18/24137Distances to cluster centroïds
    • G06F18/2414Smoothing the distance, e.g. radial basis function networks [RBFN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • Mathematical Physics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computational Mathematics (AREA)
  • Operations Research (AREA)
  • Algebra (AREA)
  • Software Systems (AREA)
  • Animal Behavior & Ethology (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于图嵌入的关系图谱关键人员分析方法及***,所述方法包括以下步骤:基于社交媒体数据构建人物关系图谱;采用图嵌入算法对所述人物关系图谱中的每个节点进行分析,得到各节点的嵌入向量;根据预先相关指标生成所述人物关系图谱的关键节点种子;根据所述各节点的嵌入向量,采用聚类算法对所述关键节点种子进行分析,识别出关键人员节点。本发明充分利用了关系图谱的拓扑性质,具备可学习性,不需要人工设置参数值或者规定度增益的计算规则,从而消除了人为规则设定不合理对结果的不利影响;同时,对全图进行计算,综合了节点的同构性和异质性,使得出的关键人员分析结果会更加准确。

Description

一种基于图嵌入的关系图谱关键人员分析方法及***
技术领域
本发明涉及知识图谱分析技术领域,具体涉及一种基于图嵌入的关系图谱关键人员分析方法及***。
背景技术
人员关系图谱是以“人员”实体和人员之间的社会、亲属、情感关系为核心构建的知识图谱。根据“六度分离理论”,在人际交往中,任意两个陌生人最多只要通过五个朋友就能建立联系。从某种程度上来说,世界上所有人都可以通过个人的关系网联系起来。因为现实世界的复杂性,关系图谱的构建过程中涉及到的人物和关系种类也越来越多。在一个关系图谱的若干子图中往往只有一个人物或者几个人物起到主要作用,尤其是在舆情分析、行政管理、风险控制和推荐***中,对关键人员的挖掘,对业务发挥着决定性作用,已经成为了知识图谱分析和应用的重要技术。
在关系图谱上的关键人物挖掘,学习方法较少,还依赖于人工定性或者简单的静态数值计算。例如,中国专利CN113032607A公开了一种关键人员分析方法,方法包括:“获取成员关系图谱,获取成员初始化权值,获取成员交互信息,基于交互信息和初始全值计算成员全值并更新,更新后得到与所述各节点人员对应的相邻两次的权值差之和小于预设权值阈值,则提取更新后权值最大的节点人员作为目标节点人员”,该方案存在以下不足:1)关系图谱中的节点信息、交互信息的值、节点权值的更新方法都是由人工规则设定,不具备可学习性。2) 当增删节点和关系、进行跨领域业务迁移时,需要人工干预给出相应的业务规则,不具备可拓展性。3)节点人员的权值更新只包含了局部的结构信息和人员信息,未能利用到全局的拓扑结构,不具备高准确性。这些问题使得关系图谱的关键人员分析无法智能化,有着严重的应用限制。
例如,中国专利CN 112269922 A公开了一种基于网络表示学习的社区舆论关键人物发现方法,方法包括“将社交网络关系图输入社区结构与结构洞节点发现模型得到社区划分集和结构洞节点;将社交网络关系图、社区划分集输入蕴含社会影响力和社区结构的网络嵌入模型得到社区网络图中的节点的社会影响力和节点网络嵌入表示向量;基于结构洞节点、社会影响力和网络嵌入表示向量进行可视化分析,获取舆论关键人物。”该方案仍然存在以下不足:1)关系图的直接模块度增益和间接模块度增益,直到通过特征值分解得到网络嵌入向量的目标矩阵,整个过程中向量化的方法由规则给出,仍然属于人工选择特征,而非自适应学习。该方法极大的依赖于直接模块和间接模块度增益的规则定义,如果规则定义不能反应网络结构,那么方法会极大的受到影响,降低了关键人物发现的准确率。
发明内容
鉴于以上技术问题,本发明的目的在于提供一种基于图嵌入的关系图谱关键人员分析方法及***,解决传统的关键人物挖掘方法不具备可拓展性,或采用节点人员的权值更新只包含了局部的结构信息和人员信息导致准确性低,或依赖于直接模块和间接模块度增益的规则导致准确率低的问题。
本发明采用以下技术方案:
一种基于图嵌入的关系图谱关键人员分析方法,包括以下步骤:
基于社交媒体数据构建人物关系图谱;
采用图嵌入算法对所述人物关系图谱中的每个节点进行分析,得到各节点的嵌入向量;
根据预先相关指标生成所述人物关系图谱的关键节点种子;
根据所述各节点的嵌入向量,采用聚类算法对所述关键节点种子进行分析,识别出关键人员节点。
可选的,所述基于社交媒体数据构建人物关系图谱,包括:
从触发舆情事件整个周期的新闻数据中挖掘人物实体和关系,生成人物关系图谱。
可选的,所述从触发舆情事件整个周期的新闻数据中挖掘人物实体和关系,生成人物关系图谱,包括:
使用爬虫技术在网络平台通过关键词过滤在指定舆情期间发表的新闻报道和社交动态数据,得到舆情期间所述新闻报道中与所述舆情事件相关的文本和社交动态内容,以及实体间互动关系,采用文本结构化技术生成相应的人物关系图谱。
可选的,所述采用图嵌入算法对所述人物关系图谱中的每个节点进行分析,得到各节点的嵌入向量,包括:
对于每个节点,采取随机游走的方法获取近邻节点,得到邻近节点集合;使用skip-gram模型训练邻近节点集合,用各邻近节点预测当前节点,使得当前节点现的概率最大,依次对所述邻近节点集合中的各邻近节点进行训练,得到各节点的嵌入向量。
可选的,所述根据预先相关指标对节点,生成关键节点种子,包括:
根据预设相关指标生成图邻接矩阵,对所述邻接矩阵进行特征分解,得到特征值和特征向量;
获取各节点特征值中最大特征值对应的特征向量,其中,第i个节点的中心性为最大特征值对应的特征向量中的第i个元素,根据各节点的中心性生成关键节点种子。
可选的,所述根据所述关键节点种子,采用聚类算法对所述各节点的嵌入向量进行分析,识别出关键人员节点,包括:
根据所述关键节点种子,采用聚类算法对所述各嵌入向量进行归类,得到若干聚类类别;
计算每个聚类类别ci的聚类中心,将计算得到的聚类中心作为更新后的聚类中心,以所述更新厚的聚类中心作为关键人员节点。
可选的,所述采用聚类算法对所述各嵌入向量进行归类,得到若干聚类类别,包括:
将所述关键节点种子作为初始聚类中心,计算各嵌入向量到各个初始聚类中心的距离,并获取距离各嵌入向量距离最短的初始聚类中心,将每一节点归类为距离其距离最短的初始聚类中心所属的聚类类别。
一种基于图嵌入的关系图谱关键人员分析***,包括:
图谱构建单元,用于基于社交媒体数据构建人物关系图谱;
图谱分析单元,用于采用图嵌入算法对所述人物关系图谱中的每个节点进行分析,得到各节点的嵌入向量;
关键节点种子生成单元,用于根据预先相关指标生成所述人物关系图谱的关键节点种子;
识别单元,用于根据所述各节点的嵌入向量,采用聚类算法对所述关键节点种子进行分析,识别出关键人员节点。
一种电子设备,包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行所述的基于图嵌入的关系图谱关键人员分析方法。
一种计算机存储介质,其上存储有计算机程序,所述计算机程序在被处理器执行时,实现所述的基于图嵌入的关系图谱关键人员分析方法。
相比现有技术,本发明的有益效果在于:
本发明通过基于社交媒体数据构建人物关系图谱,采用图嵌入算法对所述人物关系图谱中的每个节点进行分析,得到各节点的嵌入向量,充分利用了关系图谱的拓扑性质,同时,具备可学习性,网络嵌入表示和节点向量化分别由随机游走控制和相应的机器学习方法决定,不需要人工设置参数值或者规定度增益的计算规则,从而消除了人为规则设定不合理对结果的不利影响;同时,本发明基于社交媒体数据构建人物关系图谱,只依赖网络拓扑结构,当增删节点和关系、进行跨领域业务迁移时,可以快速训练网络,不需要额外的知识注入;根据预先相关指标生成所述人物关系图谱的关键节点种子;根据所述各节点的嵌入向量,采用聚类算法对所述关键节点种子进行分析,识别出关键人员节点,在识别出关键人员节点的过程中,对全图进行计算,综合了节点的同构性和异质性,使得出的关键人员分析结果会更加准确。
进一步的,采取随机游走的方法获取近邻节点,得到邻近节点集合,用各邻近节点预测当前节点,使得当前节点现的概率最大,依次对所述邻近节点集合中的各邻近节点进行训练,得到各节点的嵌入向量,采用基于随机游走的图嵌入方法进行分析,不需要人工设置参数值或者规定度增益的计算规则,从而进一步提高了识别关键人员节点的高准确率。
附图说明
图1为本发明一实施例提供的一种基于图嵌入的关系图谱关键人员分析方法的流程示意图;
图2为本发明一实施例提供的一种近邻节点的随机游走采样示意图;
图3为本发明一实施例提供的一种基于图嵌入的关系图谱关键人员分析***的示意图;
图4为本发明一实施例提供的一种电子设备的结构示意图。
具体实施方式
下面,结合附图以及具体实施方式,对本发明做进一步描述,需要说明的是,在不相冲突的前提下,以下描述的各实施例之间或各技术特征之间可以任意组合形成新的实施例:
实施例一:
下面先对本发明中专业术语进行解释说明:
图嵌入(Graph Embedding,也叫Network Embedding)是一种将图数据(通常为高维稠密的矩阵)映射为低微稠密向量的过程,能够很好地解决图数据难以高效输入机器学习算法的问题。
邻接矩阵(Adjacency Matrix)是表示顶点之间相邻关系的矩阵,邻接矩阵的逻辑结构分为两部分:V和E集合,其中,V是顶点,E是边。因此,用一个一维数组存放图中所有顶点数据;用一个二维数组存放顶点间关系(边或弧) 的数据,这个二维数组称为邻接矩阵。
中心性(centrality),是用来度量结点在网络中的重要性。对于单个结点或由多个结点组成的群体都可以定义中心性。特征向量中心性是结合结点邻居的中心性作为该结点的中心性。
节点的嵌入向量是指通过网络结构中的连接关系,得到网络中顶点 (vertex)的向量表示,作为基本特征应用到聚类、分类等任务上。
请参照图1所示,图1使出了本发明的一种基于图嵌入的关系图谱关键人员分析方法,包括以下步骤:
步骤S1:基于社交媒体数据构建人物关系图谱;
具体的,所述基于社交媒体数据构建人物关系图谱,包括:
从触发舆情事件整个周期的新闻数据中挖掘人物实体和关系,生成人物关系图谱。
在具体实施时,可使用爬虫技术在网络平台通过关键词过滤在指定舆情期间发表的新闻报道和社交动态数据,得到舆情期间所述新闻报道中与所述舆情事件相关的文本和社交动态内容,以及实体间互动关系,采用文本结构化技术生成相应的人物关系图谱。
在具体实施中,在构建人物关系图谱的过程中,还可通过知识三元组抽取技术、动态随时间演化的知识图谱生成技术、开发关系挖掘技术以及基于领域知识的迁移学习技术等实现构建人物关系图谱。
步骤S2:采用图嵌入算法对所述人物关系图谱中的每个节点进行分析,得到各节点的嵌入向量;
可选的,所述步骤S2,包括:
对于每个节点,采取随机游走的方法获取近邻节点,得到邻近节点集合;具体的,请参照图2所示,图2示出了本发明实施例提供的一种近邻节点的随机游走采样示意图;其中,给定当前顶点v,去到顶点x的概率为:
Figure RE-RE-GDA0003740491920000061
其中,πvx表示顶点之间的未归一化转移概率,即为随机游走经过节点t到达节点v,游走到节点x的概率;Z是归一化常数;
具体的,为控制随机游走的方向,来表达我们的偏好,假设当前的随机游走经过节点t到达了节点v,此时的游走到x的概率πvx满足以下公式:
ωvx=αpq(t,x)·ωvx;ωvx是边的权重,p为返回参数,q为远离参数,dtx是最短路径距离;系数αpq(t,x)满足以下公式:
Figure RE-RE-GDA0003740491920000062
其中,若q>1,则随机游走倾向于访问于前一节点接近的节点,若q<1,则随机游走倾向于访问远离前一节点的节点。
在上述实现过程中,本发明基于随机游走的向量化方法,不同于中国专利的 CN113032607 A交互信息的值、节点权值的更新这种非向量化方法,也不同于中国专利的CN112269922 A的模块度增益的规则方法,具有可学习性和自适应性。
然后,使用skip-gram模型训练邻近节点集合,用各邻近节点预测当前节点,使得当前节点现的概率最大,依次对所述邻近节点集合中的各邻近节点进行训练,得到各节点的嵌入向量。
在上述实现过程中,通过基于社交媒体数据构建人物关系图谱,采用图嵌入算法对所述人物关系图谱中的每个节点进行分析,例如,通过从触发舆情事件整个周期的新闻数据中挖掘人物实体和关系,生成人物关系图谱;使用基于随机游走的图嵌入机器学习方法对图谱进行分析,得到节点向量,对于整个图直接进行向量化,特征信息获取更加全面,通过对全图进行计算,综合了节点的同构性和异质性,使得出的关键人员分析结果会更加准确。
在具体实施时,在使用邻近节点预测当前节点的技术过程中,还可采用CBOW 等word2vec的衍生方法,以及基于负采样或者哈夫曼树的训练优化方法来帮助实现预测当前节点。
具体的,得到当前节点的邻近节点集合,记为NS(u),先使用skip-gram模型训练各邻近节点,用邻近节点预测当前节点,使得当前节点出现的概率最大,最大概率为
Figure RE-RE-GDA0003740491920000071
然后依次训练各邻近节点得到嵌入向量。
步骤S3:根据预先相关指标生成所述人物关系图谱的关键节点种子;
可选的,所述步骤S3,包括:
根据预设相关指标生成图邻接矩阵,对所述邻接矩阵进行特征分解,得到特征值和特征向量;
获取各节点特征值中最大特征值对应的特征向量,其中,第i个节点的中心性为最大特征值对应的特征向量中的第i个元素,根据各节点的中心性生成关键节点种子。
具体的,可根据网络密度、可达性、聚类系数和中心性测度等相关指标生成图邻接矩阵A,对邻接矩阵进行特征分解,即Ax=λx,得到特征值和特征向量后,最大特征值对应的特征向量中,第i个节点的中心性等于特征向量中的第i 个元素。
在具体实施时,具体还可采用人工标注、预训练模型标注,远程无监督等小样本标注方法,先进行标注,所述中心性具体还可包括度中心性,介数中心性,紧密中心性等重要性度量指标。
步骤S4:根据所述各节点的嵌入向量,采用聚类算法对所述关键节点种子进行分析,识别出关键人员节点。
可选的,所述步骤S4,具体包括:
将所述关键节点种子作为初始聚类中心,所述初始聚类中心分别α1、α2、......αk,所述初始聚类中心组成初始聚类中心集α=α1,α2,......αk
采用聚类算法对所述各嵌入向量进行归类,得到若干聚类类别;计算每个聚类类别ci的聚类中心,将计算得到的聚类中心作为关键人员节点。
在上述实现过程中,本发明对图嵌入的向量化方法直接进行了分类,不依赖于强假设,不同于中国专利的CN 112269922 A的社区结构和社会影响力假设,具有普适性。
采用聚类算法对所述各嵌入向量进行归类的步骤包括:
计算各嵌入向量xi到各个初始聚类中心的距离,并获取距离各嵌入向量距离最短的初始聚类中心αi,将每一节点归类为距离其距离最短的初始聚类中心αi所属的聚类类别ci,其中,1≤i≤k,i和k均为自然数;
具体的,计算采用的聚类中心的计算方法为:
Figure RE-RE-GDA0003740491920000081
其中,|ci|表示聚类类别中的节点个数,将聚类中心的算法重复迭代,直到达到某个中止条件,其中,关键节点种子节点所在的类作为关键节点类。
在本实施例中,使用机器学习方法对向量化节点进行分析,识别出关键节点,具体的,识别出关键人员节点采用的算法可采用有监督和半监督的机器学习分类算法。
请参照图3所示,图3示出了本发明的一种基于图嵌入的关系图谱关键人员分析***,包括:
图谱构建单元,用于基于社交媒体数据构建人物关系图谱;
图谱分析单元,用于采用图嵌入算法对所述人物关系图谱中的每个节点进行分析,得到各节点的嵌入向量;
关键节点种子生成单元,用于根据预先相关指标生成所述人物关系图谱的关键节点种子;
识别单元,用于根据所述各节点的嵌入向量,采用聚类算法对所述关键节点种子进行分析,识别出关键人员节点。
实施例三:
图4为本申请实施例提供的一种电子设备的结构示意图,在本申请中可以通过图4所示的示意图来描述用于实现本申请实施例的本发明一种基于图嵌入的关系图谱关键人员分析方法的电子设备100。
如图所4示的一种电子设备的结构示意图,电子设备100包括一个或多个处理器102、一个或多个存储装置104,这些组件通过总线***和/或其它形式的连接机构(未示出)互连。应当注意,图4所示的电子设备100的组件和结构只是示例性的,而非限制性的,根据需要,所述电子设备可以具有图4示出的部分组件,也可以具有图4未示出的其他组件和结构。
所述处理器102可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元,并且可以控制所述电子设备100中的其它组件以执行期望的功能。
所述存储装置104可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器102可以运行所述程序指令,以实现下文所述的本申请实施例中(由处理器实现)的功能以及/或者其它期望的功能。在所述计算机可读存储介质中还可以存储各种应用程序和各种数据,例如所述应用程序使用和/或产生的各种数据等。
本发明还提供一种计算机存储介质,其上存储有计算机程序,本发明的方法如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在该计算机存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机存储介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM, Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机存储介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机存储介质不包括电载波信号和电信信号。
对本领域的技术人员来说,可根据以上描述的技术方案以及构思,做出其它各种相应的改变以及形变,而所有的这些改变以及形变都应该属于本发明权利要求的保护范围之内。

Claims (10)

1.一种基于图嵌入的关系图谱关键人员分析方法,其特征在于,包括以下步骤:
基于社交媒体数据构建人物关系图谱;
采用图嵌入算法对所述人物关系图谱中的每个节点进行分析,得到各节点的嵌入向量;
根据预先相关指标生成所述人物关系图谱的关键节点种子;
根据所述各节点的嵌入向量,采用聚类算法对所述关键节点种子进行分析,识别出关键人员节点。
2.根据权利要求1所述的基于图嵌入的关系图谱关键人员分析方法,其特征在于,所述基于社交媒体数据构建人物关系图谱,包括:
从触发舆情事件整个周期的新闻数据中挖掘人物实体和关系,生成人物关系图谱。
3.根据权利要求2所述的基于图嵌入的关系图谱关键人员分析方法,其特征在于,所述从触发舆情事件整个周期的新闻数据中挖掘人物实体和关系,生成人物关系图谱,包括:
使用爬虫技术在网络平台通过关键词过滤在指定舆情期间发表的新闻报道和社交动态数据,得到舆情期间所述新闻报道中与所述舆情事件相关的文本和社交动态内容,以及实体间互动关系,采用文本结构化技术生成相应的人物关系图谱。
4.根据权利要求1所述的基于图嵌入的关系图谱关键人员分析方法,其特征在于,所述采用图嵌入算法对所述人物关系图谱中的每个节点进行分析,得到各节点的嵌入向量,包括:
对于每个节点,采取随机游走的方法获取近邻节点,得到邻近节点集合;使用skip-gram模型训练邻近节点集合,用各邻近节点预测当前节点,使得当前节点现的概率最大,依次对所述邻近节点集合中的各邻近节点进行训练,得到各节点的嵌入向量。
5.根据权利要求1所述的基于图嵌入的关系图谱关键人员分析方法,其特征在于,所述根据预先相关指标对节点,生成关键节点种子,包括:
根据预设相关指标生成图邻接矩阵,对所述邻接矩阵进行特征分解,得到特征值和特征向量;
获取各节点特征值中最大特征值对应的特征向量,其中,第i个节点的中心性为最大特征值对应的特征向量中的第i个元素,根据各节点的中心性生成关键节点种子。
6.根据权利要求1所述的基于图嵌入的关系图谱关键人员分析方法,其特征在于,所述根据所述关键节点种子,采用聚类算法对所述各节点的嵌入向量进行分析,识别出关键人员节点,包括:
根据所述关键节点种子,采用聚类算法对所述各嵌入向量进行归类,得到若干聚类类别;
计算每个聚类类别ci的聚类中心,将计算得到的聚类中心作为更新后的聚类中心,以所述更新后的聚类中心作为关键人员节点。
7.根据权利要求6所述的基于图嵌入的关系图谱关键人员分析方法,其特征在于,所述采用聚类算法对所述各嵌入向量进行归类,得到若干聚类类别,包括:
将所述关键节点种子作为初始聚类中心,计算各嵌入向量到各个初始聚类中心的距离,并获取距离各嵌入向量距离最短的初始聚类中心,将每一节点归类为距离其距离最短的初始聚类中心所属的聚类类别。
8.一种基于图嵌入的关系图谱关键人员分析***,其特征在于,包括:
图谱构建单元,用于基于社交媒体数据构建人物关系图谱;
图谱分析单元,用于采用图嵌入算法对所述人物关系图谱中的每个节点进行分析,得到各节点的嵌入向量;
关键节点种子生成单元,用于根据预先相关指标生成所述人物关系图谱的关键节点种子;
识别单元,用于根据所述各节点的嵌入向量,采用聚类算法对所述关键节点种子进行分析,识别出关键人员节点。
9.一种电子设备,其特征在于,包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-7任一项所述的基于图嵌入的关系图谱关键人员分析方法。
10.一种计算机存储介质,其上存储有计算机程序,其特征在于,所述计算机程序在被处理器执行时,实现权利要求1-7任一项所述的基于图嵌入的关系图谱关键人员分析方法。
CN202210451803.3A 2022-04-26 2022-04-26 一种基于图嵌入的关系图谱关键人员分析方法及*** Pending CN114880482A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202210451803.3A CN114880482A (zh) 2022-04-26 2022-04-26 一种基于图嵌入的关系图谱关键人员分析方法及***
PCT/CN2022/129009 WO2023207013A1 (zh) 2022-04-26 2022-11-01 一种基于图嵌入的关系图谱关键人员分析方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210451803.3A CN114880482A (zh) 2022-04-26 2022-04-26 一种基于图嵌入的关系图谱关键人员分析方法及***

Publications (1)

Publication Number Publication Date
CN114880482A true CN114880482A (zh) 2022-08-09

Family

ID=82671533

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210451803.3A Pending CN114880482A (zh) 2022-04-26 2022-04-26 一种基于图嵌入的关系图谱关键人员分析方法及***

Country Status (2)

Country Link
CN (1) CN114880482A (zh)
WO (1) WO2023207013A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023207013A1 (zh) * 2022-04-26 2023-11-02 广州广电运通金融电子股份有限公司 一种基于图嵌入的关系图谱关键人员分析方法及***

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117808616A (zh) * 2024-02-28 2024-04-02 中国传媒大学 一种基于图嵌入和节点亲密度的社区发现方法及***

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8312056B1 (en) * 2011-09-13 2012-11-13 Xerox Corporation Method and system for identifying a key influencer in social media utilizing topic modeling and social diffusion analysis
CN106296537B (zh) * 2016-08-04 2019-11-19 武汉数为科技有限公司 一种公安情报行业中的群体发现方法
CN111797714B (zh) * 2020-06-16 2022-04-26 浙江大学 基于关键点聚类的多视点人体运动捕捉方法
CN111813951A (zh) * 2020-06-18 2020-10-23 国网上海市电力公司 一种基于技术图谱的关键点识别方法
CN112269922B (zh) * 2020-10-14 2022-05-31 西华大学 一种基于网络表示学习的社区舆论关键人物发现方法
CN114880482A (zh) * 2022-04-26 2022-08-09 广州广电运通金融电子股份有限公司 一种基于图嵌入的关系图谱关键人员分析方法及***

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023207013A1 (zh) * 2022-04-26 2023-11-02 广州广电运通金融电子股份有限公司 一种基于图嵌入的关系图谱关键人员分析方法及***

Also Published As

Publication number Publication date
WO2023207013A1 (zh) 2023-11-02

Similar Documents

Publication Publication Date Title
CN108717408B (zh) 一种敏感词实时监控方法、电子设备、存储介质及***
US20180240041A1 (en) Distributed hyperparameter tuning system for machine learning
CN110968701A (zh) 用于图神经网络的关系图谱建立方法以及装置、设备
CN111753044B (zh) 一种基于正则化的去社会偏见的语言模型及应用
CN114880482A (zh) 一种基于图嵌入的关系图谱关键人员分析方法及***
CN111932386A (zh) 用户账号确定方法及装置、信息推送方法及装置、电子设备
CN113190670A (zh) 一种基于大数据平台的信息展示方法及***
CN112418320B (zh) 一种企业关联关系识别方法、装置及存储介质
CN113610265A (zh) 一种基于超图卷积网络的时空行为预测方法及***
CN112561031A (zh) 基于人工智能的模型搜索方法、装置及电子设备
US20190026637A1 (en) Method and virtual data agent system for providing data insights with artificial intelligence
CN114036051A (zh) 测试方法、装置、设备以及存储介质
CN113554175A (zh) 一种知识图谱构建方法、装置、可读存储介质及终端设备
CN117061322A (zh) 物联网流量池管理方法及***
CN110096651B (zh) 基于在线社交媒体个人中心网络的可视化分析方法
CN115619245A (zh) 一种基于数据降维方法的画像构建和分类方法及***
Kumar et al. Community-enhanced Link Prediction in Dynamic Networks
Olech et al. Hierarchical gaussian mixture model with objects attached to terminal and non-terminal dendrogram nodes
Aktekin et al. A family of multivariate non‐gaussian time series models
Lima Hawkes processes modeling, inference, and control: An overview
CN112131199A (zh) 一种日志处理方法、装置、设备及介质
Ayed et al. Nonnegative Bayesian nonparametric factor models with completely random measures
Chen et al. Community Detection Based on DeepWalk Model in Large‐Scale Networks
CN115660695A (zh) 客服人员标签画像构建方法、装置、电子设备及存储介质
CN114117248A (zh) 数据处理方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination