CN112650832A

CN112650832A - 基于拓扑及文献特征的知识关联网络关键节点发现方法

Info

Publication number: CN112650832A
Application number: CN202011474017.2A
Authority: CN
Inventors: 张兆鹏; 孙斌; 周宇; 龙小刚; 赵文成; 王静; 韩立斌
Original assignee: CETC 28 Research Institute
Current assignee: CETC 28 Research Institute
Priority date: 2020-12-14
Filing date: 2020-12-14
Publication date: 2021-04-13
Anticipated expiration: 2040-12-14
Also published as: CN112650832B

Abstract

本发明公开了一种基于拓扑及文献特征的知识关联网络关键节点发现方法。该方法利用某一科学研究领域与指定关键词相关的文献库与该研究领域的实体名称库，获得文献与实体名称的匹配关系。利用匹配关系建立知识关联网络，计算各节点的拓扑特征和文献特征。运用Q顺序统计量思想，结合贪婪式选择策略，在已知的关联实体集合上给出该研究领域的最佳特征集合，并将此最佳特征集合应用于该研究领域其余关键词相关的文献库获取关键实体。本发明能够针对指定研究领域某一关键词相关的文献库提取知识关联网络，优选特征集合获得最佳特征集合，最佳特征集合在该研究领域上具有很强的鲁棒性和迁移性，适用于未研究透彻的文献库进行关键实体发现。

Description

基于拓扑及文献特征的知识关联网络关键节点发现方法

技术领域

本发明属于复杂网络关键节点发现技术领域，尤其涉及一种基于拓扑及文献特征的知识关联网络关键节点发现方法。

背景技术

面临海量的某一领域尚未明确的文献知识，发现其中关键实体，对于文献预先研究具有重要意义。如何通过该领域已研究透彻的文献库提取出核心的特征集合是难点问题。例如，有些科学研究领域关键实体更容易出现在发布较早的文献中，或者发布较多的文献中，抑或是出现在知识关联网络拓扑结构中核心的节点上。本发明的研究思路就是通过提取出该领域重要的文献及拓扑特征集合，指导未研究明朗的文献库进行关键实体的发现。

知识关联网络本质上就是知识为主体的复杂网络。在研究复杂网络节点重要性排序问题上，当前已有多个拓扑结构特征的中心性指标研究，如度中心性、中介中心性(Joy MP,Brock A,Ingber D E,et al.High-betweenness proteins in the yeast proteininteraction network[J].BioMed Research International,2005,2005(2)：96-103.)、接近中心性(Wuchty S,Stadler P F.Centers of complex networks[J].Journal ofTheoretical Biology,2003,223(1)：45-53.)、子图中心性(Estrada E,Rodriguez-Velazquez J A.Subgraph centrality in complex networks[J].Physical Review E,2005,71(5)：056103.)、特征向量中心性和信息中心性(Stephenson K,ZelenM.Rethinking centrality：Methods and examples[J].Social networks,1989,11(1)：1-37.)等。但是如何糅合多个不同来源的特征方向研究尚有不足，普通的加权方式鲁棒性差、结果可靠性也堪忧，本发明采用Q顺序统计量糅合特征的方式计算Q分数，并以贪婪式选取特征的方式输出特征集合，运用于同领域另一研究尚未明朗的文献库，进行关键实体的发现。

发明内容

发明目的：本发明所要解决的技术问题是针对现有技术的不足，提供一种基于拓扑及文献特征的知识关联网络关键节点发现方法。

为了解决上述技术问题，本发明公开了一种基于拓扑及文献特征的知识关联网络关键节点发现方法，步骤如下：

步骤1、获取文献-实体匹配关系；根据某一科学研究领域与指定关键词KW1相关的文献库A，与该研究领域的实体名称库，运用多模匹配算法扫描文献库A中的文献，搜索匹配其中待发现实体名称，得到文献库A中每一篇文献匹配到的实体并组成每一篇文献的实体集合；所述实体名称库指该研究领域某方向实体名称全集；

步骤2、建立知识关联网络；将步骤1中得到的所有文献的实体集合取并集得到文件库A的实体集合S，记S＝{s₁,s₂,…,s_n,…,s_N}，其中N表示所述文件库A的实体集合S的实体总数量，s_n表示实体集合S中的实体，1≤n≤N；将实体集合S中的所有实体作为知识关联网络中的节点，以步骤1中得到的在文献库中每篇文献的实体集合中任一实体对，作为知识关联网络中的边；由于文献库A中每篇文献年份有所不同，知识关联网络依据文献年份动态变化，从而显示出该领域研究热点实体的变化情况；

步骤3、计算节点拓扑特征；

步骤4、计算节点文献特征；

步骤5、优选特征集合；根据节点在知识关联网络中的拓扑特征及在文献库中的文献特征，计算各个节点的排名值及排名占比，进而计算Q顺序统计量，将Q顺序统计量给出的排名归一化后作为知识关联网络中节点的重要性分数，称之为Q分数；依据已知的关联实体集合，运用贪婪式选取特征的方式匹配最佳特征集合；

步骤6、将所述最佳特征集合应用于同一科学研究领域与指定关键词KW2相关的文献库X，获取文献库X的关键实体。

在一种实现方式中，所述步骤3中节点拓扑特征包括节点的度中心性、接近中心性、中介中心性、子图中心性和信息中心性指标。

在一种实现方式中，所述步骤3中计算节点拓扑特征的具体步骤如下：

步骤3-1、记N_s为节点s_n的邻接点集合，|N_s|为集合N_s的元素个数，根据公式

DC(s_n)＝|N_s|

计算知识关联网络图中各个节点s_n的度中心性DC(s_n)；

步骤3-2、记dist(s_n,v)为知识关联网络中节点s_n到任一节点v的最短距离，v∈S，根据公式

计算知识关联网络中各个节点s_n的接近中心性CC(s_n)；

步骤3-3、记ρ(u,t)是从节点u到节点t最短路径的条数，u∈S,t∈S，其中经过节点s_n的最短路径条数定义为ρ(u,s_n,t)，根据公式

计算知识关联网络中各个节点s_n的中介中心性BC(s_n)；

步骤3-4、记μ_l(s_n)是长度为l，起始点为节点s_n的闭合路径的条数，根据公式

计算知识关联网络图中各个节点s_n的子图中心性SC(s_n)；

步骤3-5、记D是所有节点的度作为对角线元素，其余元素为0的对角矩阵，A为邻接矩阵，J为所有元素均为1的矩阵，所述D、A和J均为N*N矩阵，根据公式

计算知识关联网络中各个节点s_n的信息中心性IC(s_n)，其中C为计算过程中的N*N矩阵，v表示实体集合S中的任一实体，即知识关联网络中任一节点，

表示矩阵C中的元素，

为计算过程中的数值，|N|表示知识关联网络中所有节点总数量。

在一种实现方式中，所述步骤4中节点文献特征包括节点出现文献的最早日期、最近日期和出现次数。

在一种实现方式中，所述步骤4中计算节点文献特征的具体步骤如下：

步骤4-1、根据节点与文献的匹配关系，最早出现节点s_n的文献日期为Y₁年M₁月D₁日，根据公式OLD(s_n)＝D₁+M₁*100+Y₁*10000计算节点最早日期文献特征；

步骤4-2、根据节点与文献的匹配关系，最新出现节点s_n的文献日期为Y₂年M₂月D₂日，根据公式NEW(s_n)＝D₂+M₂*100+Y₂*10000计算节点最近日期文献特征；

步骤4-3、根据节点与文献的匹配关系，统计出现节点s_n的文献数量，得到节点出现次数文献特征NUM(s_n)。

在一种实现方式中，所述步骤5中优选特征集合的具体步骤如下：

步骤5-1、记步骤3和步骤4中计算的拓扑及文献特征集合为F，F中包含G个特征，F＝{f₁,f₂,…,f_g,…,f_G}，f_g表示特征集合F中的特征，1≤g≤G；分别根据特征集合F中的各个特征相对于节点s_n的取值对知识关联网络中的所有节点进行排序，依据已知的关键实体集合，选择出Top值匹配分数最佳的特征作为特征池的初始特征，剩余特征进入待选特征集合，所述剩余特征有G-1个；所述Top值匹配分数指根据特征f_g对知识关联网络中的所有节点进行排序后，前N′个节点中包含已知的关键实体集合中实体的个数，N′<N，Top值匹配分数记为TopN′值；

步骤5-2、分别将待选特征集合中任一特征与特征池中特征进行组合获得组合特征集合，将待选特征集合中其中一个特征与特征池中特征组合后的组合特征集合记为CF_h，1≤h≤H，H表示组合特征集合的个数，当特征池中有1个特征时，H＝G-1，当特征池中有2个特征时，H＝G-2，以此类推；CF_h＝{cf₁,…,cf_m,…,cf_M}，其中M表示组合特征集合CF_h中特征总数，cf_m表示组合特征集合CF_h中的特征，1≤m≤M，根据公式

R(s_n,cf_m)＝1～N

计算节点s_n在组合特征集合CF_h中特征cf_m的排名值R(s_n,cf_m)和排名占比r′(s_n,cf_m)，简记r′(s_n,cf_m)＝r′_m，将节点s_n在组合特征集合CF_h中所有特征的排名占比按从小到大排序，记为(r₁,r₂,…,r_M)，依据如下迭代公式

Q′(r₁,r₂,…,r_M)＝M！V_M

计算节点s_n的Q顺序统计量Q′(r₁,r₂,…,r_M)，简记为

其中，1≤k≤M；

依据公式

进行归一化操作，得到知识关联网络中N个节点的Q分数

依据Q分数，计算出组合特征集合CF_h的Q分数Top值匹配分数，所述Q分数Top值匹配分数指对所有节点的Q分数

进行排序，排序后的前N′个节点中包含已知的关键实体集合中实体的个数，N′<N，Q分数Top值匹配分数记为Q分数TopN′值；选出H个组合特征集合中Q分数TopN′值最大的组合特征集合，该组合特征集合中待选特征集合中的特征为最佳新增特征；

步骤5-3、选取出步骤5-2中最佳新增特征，若Q分数Top值匹配分数高于步骤5-1计算出的Top值匹配分数，，则将此特征加入特征池，并从待选特征集合中移除；重新进入步骤5-2将待选特征集合中任一特征与特征池中特征进行组合计算Q分数Top值匹配分数，否则输出当前特征池中特征集合为最佳特征集合，记为PF，PF＝{pf₁,…,pf_w,…,pf_W}，W表示最佳特征集合中特征总数。

在一种实现方式中，所述步骤6包括：

步骤6-1、对文献库X执行步骤1～步骤4，获取文献库X的文献-实体匹配关系,文献库X中所有文献的实体集合取并集得到文件库X的实体集合Sx，记Sx＝{s_1x,s_2x,…,s_nx,…,s_Nx}，其中Nx表示所述文件库X的实体集合Sx的实体总数量，s_nx表示实体集合Sx中的实体，1≤nx≤Nx；建立知识关联网络，计算文献库X的知识关联网络中各个节点s_nx的拓扑特征和文献特征；

步骤6-2、根据公式

R(s_nx,pf_w)＝1～Nx

计算节点s_nx在最佳特征集合PF中特征pf_w的排名值和排名占比r′(s_nx,pf_w)，简记r′(s_nx,pf_w)＝r′_w，将节点s_nx在最佳特征集合PF中所有特征的排名占比按从小到大排序，记为(r₁,r₂,…,r_W)，依据如下迭代公式

Q′(r₁,r₂,…,r_W)＝W！V_W

计算节点s_nx的Q顺序统计量Q′(r₁,r₂,…,r_W)，简记为

其中，1≤k≤W；

依据公式

进行归一化操作，得到文献库X的知识关联网络中Nx个节点的Q分数

将Q分数

进行排序，前Nx′个Q分数对应的节点为文献库X的关键实体，Nx′≤Nx。

在一种实现方式中，所述步骤1中所述多模匹配算法为AC自动机算法(Aho-Corasick automation Algorithm)。

有益效果：

(1)本发明综合考虑知识关联网络图中的拓扑特征与节点的文献特征，既考量了节点之间关联性，以及节点在知识关联网络图中的地位，也考量了文献中节点的研究历史；

(2)本发明运用顺序统计量的思想，给出扩展性强的糅合节点多来源特征的方法。

(3)本发明通过AC自动机算法快速匹配待发现字符串，建立知识关联网络，能够对相关文献库进行知识关联分析；

附图说明

下面结合附图和具体实施方式对本发明做更进一步的具体说明，本发明的上述和/或其他方面的优点将会变得更加清楚。

图1是本发明基于拓扑及文献特征的知识关联网络关键节点发现方法的流程图。

图2是建立知识关联网络示意图。

图3是节点文献特征统计示意图。

图4是节点排名值及排名占比计算流程图。

具体实施方式

结合图1，本发明基于拓扑及文献特征的知识关联网络关键节点发现方法，步骤如下：

步骤1、获取文献-实体匹配关系；根据某一科学研究领域与指定关键词KW1相关的文献库A，与该研究领域的实体名称库，运用多模匹配算法扫描文献库A中的文献，搜索匹配其中待发现实体名称，得到文献库A中每一篇文献匹配到的实体并组成每一篇文献的实体集合；所述实体名称库指该研究领域某方向实体名称全集；本实施例根据生物医药领域与关键词肺癌相关的文献库A，与该研究领域的实体名称库，如体内的基因名称数据，运用AC自动机算法扫描文献库A中的文献，如图2a所示，文献库中含有文献A₁和A₂，其中文献A₁含有s₁和s₂两个实体名称数据，文献A₂含有s₂和s₃两个实体名称数据；

步骤2、建立知识关联网络；将步骤1中得到的所有文献的实体集合取并集得到文件库A的实体集合S，将实体集合S中的所有实体作为知识关联网络中的节点，以步骤1中得到的在文献库中每篇文献的实体集合中任一实体对，作为知识关联网络中的边，如图2b所示；即如果同篇文献中有2个实体，则组成知识关联网络的1条边，如果同篇文献中有3个实体，则组成知识关联网络的

条边，如果同篇文献中有4个实体，则组成知识关联网络的

条边，以此类推；由于文献库A中每篇文献年份有所不同，知识关联网络依据文献年份动态变化，从而显示出该领域研究热点实体的变化情况；

步骤3、计算节点拓扑特征；

步骤4、计算节点文献特征；

步骤5、优选特征集合；根据节点在知识关联网络中的拓扑特征及在文献库中的文献特征，计算各个节点的排名值及排名占比，进而计算Q顺序统计量，将Q顺序统计量给出的排名归一化后作为知识关联网络中节点的重要性分数，称之为Q分数；依据已知的关联实体集合，运用贪婪式选取特征的方式匹配最佳特征集合，本实施例中，所述已知的关联实体集合是指生物医药领域与肺癌相关的专家推荐关联实体集合，如关键体内基因名称数据集合；

步骤6、将所述最佳特征集合应用于同一科学研究领域与指定关键词KW2相关的文献库X，获取文献库X的关键实体，本实施例中，将所述最佳特征集合应用于生物医学领域与关键词肝癌相关文献库X。

本实施例中，所述步骤3中节点拓扑特征包括节点的度中心性、接近中心性、中介中心性、子图中心性和信息中心性指标。

本实施例中，所述步骤3中计算节点拓扑特征的具体步骤如下：

DC(s_n)＝|N_s|

计算知识关联网络图中各个节点s_n的度中心性DC(s_n)；

步骤3-2、记实体集合S＝{s₁,s₂,…,s_n,…,s_N}，其中N表示所述文件库A的实体集合S的实体总数量，s_n表示实体集合S中的实体，1≤n≤N；记dist(s_n,v)为知识关联网络中节点s_n到任一节点v的最短距离，v∈S，根据公式

计算知识关联网络中各个节点s_n的接近中心性CC(s_n)；

计算知识关联网络中各个节点s_n的中介中心性BC(s_n)；

计算知识关联网络图中各个节点s_n的子图中心性SC(s_n)；

表示矩阵C中的元素，

本实施例中，所述步骤4中节点文献特征包括节点出现文献的最早日期、最近日期和出现次数。

本实施例中，所述步骤4中计算节点文献特征的具体步骤如下：

如图3所示，文献A₁、A₂和A₃的发表日期分别为2012年09月16日，2014年04月05日和2020年10月02日，待发现实体名称为s₁、s₂和s₃，文献和实体名称匹配关系为：A₁-s₁、A₁-s₃、A₂-s₂、A₃-s₁和A₃-s₃。则节点s₁、s₂和s₃的最早日期特征OLD、最近日期特征NEW、发表关联文献数量NUM分别为(20120916,20201002,2)、(20140405,20140405,1)和(20120916,20201002,2)。

本实施例中，所述步骤5中优选特征集合的具体步骤如下：

步骤5-1、记步骤3和步骤4中计算的拓扑及文献特征集合为F，F中包含G个特征，F＝{f₁,f₂,…,f_g,…,f_G}，f_g表示特征集合F中的特征，1≤g≤G；分别根据特征集合F中的各个特征相对于节点s_n的取值对知识关联网络中的所有节点进行排序，依据已知的专家推荐关键实体集合，选择出Top值匹配分数最佳的特征作为特征池的初始特征，剩余特征进入待选特征集合，所述剩余特征有G-1个；所述Top值匹配分数指根据特征f_g对知识关联网络中的所有节点进行排序后，前N′个节点中包含已知的专家推荐关键实体集合中实体的个数，N′<N，Top值匹配分数记为TopN′值；当知识关联网络中的节点个数N小于100时，优选N′＝10，当N大于1000时，优选N′＝100；

R(s_n,cf_m)＝1～N

计算节点s_n在组合特征集合CF_h中特征cf_m的排名值R(s_n,cf_m)和排名占比r′(s_n,cf_m)，简记r′(s_n,cf_m)＝r′_m；

将节点s_n在组合特征集合CF_h中所有特征的排名占比按从小到大排序，记为(r₁,r₂,…,r_M)，依据如下迭代公式

Q′(r₁,r₂,…,r_M)＝M！V_M

计算节点s_n的Q顺序统计量Q′(r₁,r₂,…,r_M)，简记为

其中，1≤k≤M；

依据公式

进行归一化操作，得到知识关联网络中N个节点的Q分数

进行排序，排序后的前N′个节点中包含已知的专家推荐关键实体集合中实体的个数，N′<N，Q分数Top值匹配分数记为Q分数TopN′值；选出H个组合特征集合中Q分数TopN′值最大的组合特征集合，该组合特征集合中待选特征集合中的特征为最佳新增特征；

如图4a所示当前组合特征集合CF_h中特征为中介中心性BC、子图中心性SC、信息中心性IC、最早日期特征OLD、最近日期特征NEW和发表关联文献数量NUM；，假设知识关联网络图有三个节点s₁、s₂和s₃，如图4a所示，第三步和第四步给出了6个特征对应各个节点的值，按每个特征列对节点的取值进行排序，排名最高的为1，其次为2，依次类推得到单个特征的所有排名值；对剩余特征列进行相同的操作，获得六个特征的排名值，如图4b所示BC特征的排名值为(1,2,3)，如图4c所示BC特征的排名占比为(1/3,2/3,1)；

当组合特征集合CF_h中有6个特征时，节点s_n的Q统计量Q′(r₁,r₂,…,r₆)公式如下：

依次计算节点s的Q统计量Q′(r₁,r₂,…,r₆)，得到Q统计量特征为

依据公式

进行归一化操作，得到Q分数

输出Q分数向量作为最终节点重要性排序，数值越大，重要性越高；

本实施例中，所述步骤6包括：

步骤6-2、根据公式

R(s_nx,pf_w)＝1～Nx

Q′(r₁,r₂,…,r_W)＝W！V_W

计算节点s_nx的Q顺序统计量Q′(r₁,r₂,…,r_W)，简记为

其中，1≤k≤W；

依据公式

将Q分数

进行排序，前Nx′个Q分数对应的节点为文献库X的关键实体，Nx′≤Nx，所述Nx′根据实际研究需要确定。

本发明提供了一种基于拓扑及文献特征的知识关联网络关键节点发现方法的思路及方法，具体实现该技术方案的方法和途径很多，以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。