CN112650832B - 基于拓扑及文献特征的知识关联网络关键节点发现方法 - Google Patents

基于拓扑及文献特征的知识关联网络关键节点发现方法 Download PDF

Info

Publication number
CN112650832B
CN112650832B CN202011474017.2A CN202011474017A CN112650832B CN 112650832 B CN112650832 B CN 112650832B CN 202011474017 A CN202011474017 A CN 202011474017A CN 112650832 B CN112650832 B CN 112650832B
Authority
CN
China
Prior art keywords
node
feature
entity
nodes
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011474017.2A
Other languages
English (en)
Other versions
CN112650832A (zh
Inventor
张兆鹏
孙斌
周宇
龙小刚
赵文成
王静
韩立斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CETC 28 Research Institute
Original Assignee
CETC 28 Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CETC 28 Research Institute filed Critical CETC 28 Research Institute
Priority to CN202011474017.2A priority Critical patent/CN112650832B/zh
Publication of CN112650832A publication Critical patent/CN112650832A/zh
Application granted granted Critical
Publication of CN112650832B publication Critical patent/CN112650832B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于拓扑及文献特征的知识关联网络关键节点发现方法。该方法利用某一科学研究领域与指定关键词相关的文献库与该研究领域的实体名称库,获得文献与实体名称的匹配关系。利用匹配关系建立知识关联网络,计算各节点的拓扑特征和文献特征。运用Q顺序统计量思想,结合贪婪式选择策略,在已知的关联实体集合上给出该研究领域的最佳特征集合,并将此最佳特征集合应用于该研究领域其余关键词相关的文献库获取关键实体。本发明能够针对指定研究领域某一关键词相关的文献库提取知识关联网络,优选特征集合获得最佳特征集合,最佳特征集合在该研究领域上具有很强的鲁棒性和迁移性,适用于未研究透彻的文献库进行关键实体发现。

Description

基于拓扑及文献特征的知识关联网络关键节点发现方法
技术领域
本发明属于复杂网络关键节点发现技术领域,尤其涉及一种基于拓扑及文献特征的知识关联网络关键节点发现方法。
背景技术
面临海量的某一领域尚未明确的文献知识,发现其中关键实体,对于文献预先研究具有重要意义。如何通过该领域已研究透彻的文献库提取出核心的特征集合是难点问题。例如,有些科学研究领域关键实体更容易出现在发布较早的文献中,或者发布较多的文献中,抑或是出现在知识关联网络拓扑结构中核心的节点上。本发明的研究思路就是通过提取出该领域重要的文献及拓扑特征集合,指导未研究明朗的文献库进行关键实体的发现。
知识关联网络本质上就是知识为主体的复杂网络。在研究复杂网络节点重要性排序问题上,当前已有多个拓扑结构特征的中心性指标研究,如度中心性、中介中心性 (JoyM P,Brock A,Ingber D E,et al.High-betweenness proteins in the yeast proteininteraction network[J].BioMed Research International,2005,2005(2):96-103.)、接近中心性(Wuchty S,Stadler P F.Centers of complex networks[J].Journal ofTheoretical Biology, 2003,223(1):45-53.)、子图中心性(Estrada E,Rodriguez-Velazquez J A.Subgraph centrality in complex networks[J].Physical Review E,2005,71(5):056103.)、特征向量中心性和信息中心性(Stephenson K,ZelenM.Rethinking centrality:Methods and examples[J].Social networks,1989,11(1):1-37.)等。但是如何糅合多个不同来源的特征方向研究尚有不足,普通的加权方式鲁棒性差、结果可靠性也堪忧,本发明采用Q顺序统计量糅合特征的方式计算Q分数,并以贪婪式选取特征的方式输出特征集合,运用于同领域另一研究尚未明朗的文献库,进行关键实体的发现。
发明内容
发明目的:本发明所要解决的技术问题是针对现有技术的不足,提供一种基于拓扑及文献特征的知识关联网络关键节点发现方法。
为了解决上述技术问题,本发明公开了一种基于拓扑及文献特征的知识关联网络关键节点发现方法,步骤如下:
步骤1、获取文献-实体匹配关系;根据某一科学研究领域与指定关键词KW1相关的文献库A,与该研究领域的实体名称库,运用多模匹配算法扫描文献库A中的文献,搜索匹配其中待发现实体名称,得到文献库A中每一篇文献匹配到的实体并组成每一篇文献的实体集合;所述实体名称库指该研究领域某方向实体名称全集;
步骤2、建立知识关联网络;将步骤1中得到的所有文献的实体集合取并集得到文件库A的实体集合S,记S={s1,s2,…,sn,…,sN},其中N表示所述文件库A的实体集合S的实体总数量,sn表示实体集合S中的实体,1≤n≤N;将实体集合S中的所有实体作为知识关联网络中的节点,以步骤1中得到的在文献库中每篇文献的实体集合中任一实体对,作为知识关联网络中的边;由于文献库A中每篇文献年份有所不同,知识关联网络依据文献年份动态变化,从而显示出该领域研究热点实体的变化情况;
步骤3、计算节点拓扑特征;
步骤4、计算节点文献特征;
步骤5、优选特征集合;根据节点在知识关联网络中的拓扑特征及在文献库中的文献特征,计算各个节点的排名值及排名占比,进而计算Q顺序统计量,将Q顺序统计量给出的排名归一化后作为知识关联网络中节点的重要性分数,称之为Q分数;依据已知的关联实体集合,运用贪婪式选取特征的方式匹配最佳特征集合;
步骤6、将所述最佳特征集合应用于同一科学研究领域与指定关键词KW2相关的文献库X,获取文献库X的关键实体。
在一种实现方式中,所述步骤3中节点拓扑特征包括节点的度中心性、接近中心性、中介中心性、子图中心性和信息中心性指标。
在一种实现方式中,所述步骤3中计算节点拓扑特征的具体步骤如下:
步骤3-1、记Ns为节点sn的邻接点集合,|Ns|为集合Ns的元素个数,根据公式
DC(sn)=|Ns|
计算知识关联网络图中各个节点sn的度中心性DC(sn);
步骤3-2、记dist(sn,v)为知识关联网络中节点sn到任一节点v的最短距离,v∈S,根据公式
Figure BDA0002834467740000031
计算知识关联网络中各个节点sn的接近中心性CC(sn);
步骤3-3、记ρ(u,t)是从节点u到节点t最短路径的条数,u∈S,t∈S,其中经过节点sn的最短路径条数定义为ρ(u,sn,t),根据公式
Figure BDA0002834467740000032
计算知识关联网络中各个节点sn的中介中心性BC(sn);
步骤3-4、记μl(sn)是长度为l,起始点为节点sn的闭合路径的条数,根据公式
Figure BDA0002834467740000033
计算知识关联网络图中各个节点sn的子图中心性SC(sn);
步骤3-5、记D是所有节点的度作为对角线元素,其余元素为0的对角矩阵,A为邻接矩阵,J为所有元素均为1的矩阵,所述D、A和J均为N*N矩阵,根据公式
Figure BDA0002834467740000034
Figure BDA0002834467740000035
Figure BDA0002834467740000036
计算知识关联网络中各个节点sn的信息中心性IC(sn),其中C为计算过程中的N*N矩阵,v表示实体集合S中的任一实体,即知识关联网络中任一节点,
Figure BDA0002834467740000037
表示矩阵C 中的元素,
Figure BDA0002834467740000038
为计算过程中的数值,|N|表示知识关联网络中所有节点总数量。
在一种实现方式中,所述步骤4中节点文献特征包括节点出现文献的最早日期、最近日期和出现次数。
在一种实现方式中,所述步骤4中计算节点文献特征的具体步骤如下:
步骤4-1、根据节点与文献的匹配关系,最早出现节点sn的文献日期为Y1年M1月D1日,根据公式OLD(sn)=D1+M1*100+Y1*10000计算节点最早日期文献特征;
步骤4-2、根据节点与文献的匹配关系,最新出现节点sn的文献日期为Y2年M2月D2日,根据公式NEW(sn)=D2+M2*100+Y2*10000计算节点最近日期文献特征;
步骤4-3、根据节点与文献的匹配关系,统计出现节点sn的文献数量,得到节点出现次数文献特征NUM(sn)。
在一种实现方式中,所述步骤5中优选特征集合的具体步骤如下:
步骤5-1、记步骤3和步骤4中计算的拓扑及文献特征集合为F,F中包含G个特征,F={f1,f2,…,fg,…,fG},fg表示特征集合F中的特征,1≤g≤G;分别根据特征集合F中的各个特征相对于节点sn的取值对知识关联网络中的所有节点进行排序,依据已知的关键实体集合,选择出Top值匹配分数最佳的特征作为特征池的初始特征,剩余特征进入待选特征集合,所述剩余特征有G-1个;所述Top值匹配分数指根据特征fg对知识关联网络中的所有节点进行排序后,前N′个节点中包含已知的关键实体集合中实体的个数,N′<N,Top值匹配分数记为TopN′值;
步骤5-2、分别将待选特征集合中任一特征与特征池中特征进行组合获得组合特征集合,将待选特征集合中其中一个特征与特征池中特征组合后的组合特征集合记为CFh,1≤h≤H,H表示组合特征集合的个数,当特征池中有1个特征时,H=G-1,当特征池中有2个特征时,H=G-2,以此类推;CFh={cf1,…,cfm,…,cfM},其中M表示组合特征集合CFh中特征总数,cfm表示组合特征集合CFh中的特征,1≤m≤M,根据公式
R(sn,cfm)=1~N
Figure BDA0002834467740000041
计算节点sn在组合特征集合CFh中特征cfm的排名值R(sn,cfm)和排名占比 r′(sn,cfm),简记r′(sn,cfm)=r′m,将节点sn在组合特征集合CFh中所有特征的排名占比按从小到大排序,记为(r1,r2,…,rM),依据如下迭代公式
Figure BDA0002834467740000042
Q′(r1,r2,…,rM)=M!VM
计算节点sn的Q顺序统计量Q′(r1,r2,…,rM),简记为
Figure BDA0002834467740000043
其中,1≤k≤M;
依据公式
Figure BDA0002834467740000044
进行归一化操作,得到知识关联网络中N个节点的Q分数
Figure BDA0002834467740000051
依据Q分数,计算出组合特征集合CFh的Q分数Top值匹配分数,所述Q分数Top 值匹配分数指对所有节点的Q分数
Figure BDA0002834467740000052
进行排序,排序后的前N′个节点中包含已知的关键实体集合中实体的个数,N′<N,Q分数Top值匹配分数记为Q分数TopN′值;选出H个组合特征集合中Q分数TopN′值最大的组合特征集合,该组合特征集合中待选特征集合中的特征为最佳新增特征;
步骤5-3、选取出步骤5-2中最佳新增特征,若Q分数Top值匹配分数高于步骤5-1计算出的Top值匹配分数,则将此特征加入特征池,并从待选特征集合中移除;重新进入步骤5-2将待选特征集合中任一特征与特征池中特征进行组合计算Q分数Top 值匹配分数,否则输出当前特征池中特征集合为最佳特征集合,记为PF,PF= {pf1,…,pfw,…,pfW},W表示最佳特征集合中特征总数。
在一种实现方式中,所述步骤6包括:
步骤6-1、对文献库X执行步骤1~步骤4,获取文献库X的文献-实体匹配关系,文献库X中所有文献的实体集合取并集得到文件库X的实体集合Sx,记Sx= {s1x,s2x,…,snx,…,sNx},其中Nx表示所述文件库X的实体集合Sx的实体总数量,snx表示实体集合Sx中的实体,1≤nx≤Nx;建立知识关联网络,计算文献库X的知识关联网络中各个节点snx的拓扑特征和文献特征;
步骤6-2、根据公式
R(snx,pfw)=1~Nx
Figure BDA0002834467740000053
计算节点snx在最佳特征集合PF中特征pfw的排名值和排名占比r′(snx,pfw),简记r′(snx,pfw)=r′w,将节点snx在最佳特征集合PF中所有特征的排名占比按从小到大排序,记为(r1,r2,…,rW),依据如下迭代公式
Figure BDA0002834467740000054
Q′(r1,r2,…,rW)=W!VW
计算节点snx的Q顺序统计量Q′(r1,r2,…,rW),简记为
Figure BDA0002834467740000055
其中,1≤k≤W;
依据公式
Figure BDA0002834467740000061
进行归一化操作,得到文献库X的知识关联网络中Nx个节点的Q分数
Figure BDA0002834467740000062
将Q分数
Figure BDA0002834467740000063
进行排序,前Nx′个Q分数对应的节点为文献库X的关键实体,Nx′≤Nx。
在一种实现方式中,所述步骤1中所述多模匹配算法为AC自动机算法 (Aho-Corasick automation Algorithm)。
有益效果:
(1)本发明综合考虑知识关联网络图中的拓扑特征与节点的文献特征,既考量了节点之间关联性,以及节点在知识关联网络图中的地位,也考量了文献中节点的研究历史;
(2)本发明运用顺序统计量的思想,给出扩展性强的糅合节点多来源特征的方法。
(3)本发明通过AC自动机算法快速匹配待发现字符串,建立知识关联网络,能够对相关文献库进行知识关联分析;
附图说明
下面结合附图和具体实施方式对本发明做更进一步的具体说明,本发明的上述和/ 或其他方面的优点将会变得更加清楚。
图1是本发明基于拓扑及文献特征的知识关联网络关键节点发现方法的流程图。
图2是建立知识关联网络示意图。
图3是节点文献特征统计示意图。
图4是节点排名值及排名占比计算流程图。
具体实施方式
结合图1,本发明基于拓扑及文献特征的知识关联网络关键节点发现方法,步骤如下:
步骤1、获取文献-实体匹配关系;根据某一科学研究领域与指定关键词KW1相关的文献库A,与该研究领域的实体名称库,运用多模匹配算法扫描文献库A中的文献,搜索匹配其中待发现实体名称,得到文献库A中每一篇文献匹配到的实体并组成每一篇文献的实体集合;所述实体名称库指该研究领域某方向实体名称全集;本实施例根据生物医药领域与关键词肺癌相关的文献库A,与该研究领域的实体名称库,如体内的基因名称数据,运用AC自动机算法扫描文献库A中的文献,如图2a所示,文献库中含有文献A1和A2,其中文献A1含有s1和s2两个实体名称数据,文献A2含有s2和 s3两个实体名称数据;
步骤2、建立知识关联网络;将步骤1中得到的所有文献的实体集合取并集得到文件库A的实体集合S,将实体集合S中的所有实体作为知识关联网络中的节点,以步骤1中得到的在文献库中每篇文献的实体集合中任一实体对,作为知识关联网络中的边,如图2b所示;即如果同篇文献中有2个实体,则组成知识关联网络的1条边,如果同篇文献中有3个实体,则组成知识关联网络的
Figure BDA0002834467740000071
条边,如果同篇文献中有4 个实体,则组成知识关联网络的
Figure BDA0002834467740000072
条边,以此类推;由于文献库A中每篇文献年份有所不同,知识关联网络依据文献年份动态变化,从而显示出该领域研究热点实体的变化情况;
步骤3、计算节点拓扑特征;
步骤4、计算节点文献特征;
步骤5、优选特征集合;根据节点在知识关联网络中的拓扑特征及在文献库中的文献特征,计算各个节点的排名值及排名占比,进而计算Q顺序统计量,将Q顺序统计量给出的排名归一化后作为知识关联网络中节点的重要性分数,称之为Q分数;依据已知的关联实体集合,运用贪婪式选取特征的方式匹配最佳特征集合,本实施例中,所述已知的关联实体集合是指生物医药领域与肺癌相关的专家推荐关联实体集合,如关键体内基因名称数据集合;
步骤6、将所述最佳特征集合应用于同一科学研究领域与指定关键词KW2相关的文献库X,获取文献库X的关键实体,本实施例中,将所述最佳特征集合应用于生物医学领域与关键词肝癌相关文献库X。
本实施例中,所述步骤3中节点拓扑特征包括节点的度中心性、接近中心性、中介中心性、子图中心性和信息中心性指标。
本实施例中,所述步骤3中计算节点拓扑特征的具体步骤如下:
步骤3-1、记Ns为节点sn的邻接点集合,|Ns|为集合Ns的元素个数,根据公式
DC(sn)=|Ns|
计算知识关联网络图中各个节点sn的度中心性DC(sn);
步骤3-2、记实体集合S={s1,s2,…,sn,…,sN},其中N表示所述文件库A的实体集合S的实体总数量,sn表示实体集合S中的实体,1≤n≤N;记dist(sn,v)为知识关联网络中节点sn到任一节点v的最短距离,v∈S,根据公式
Figure BDA0002834467740000081
计算知识关联网络中各个节点sn的接近中心性CC(sn);
步骤3-3、记ρ(u,t)是从节点u到节点t最短路径的条数,u∈S,t∈S,其中经过节点sn的最短路径条数定义为ρ(u,sn,t),根据公式
Figure BDA0002834467740000082
计算知识关联网络中各个节点sn的中介中心性BC(sn);
步骤3-4、记μl(sn)是长度为l,起始点为节点sn的闭合路径的条数,根据公式
Figure BDA0002834467740000083
计算知识关联网络图中各个节点sn的子图中心性SC(sn);
步骤3-5、记D是所有节点的度作为对角线元素,其余元素为0的对角矩阵,A为邻接矩阵,J为所有元素均为1的矩阵,所述D、A和J均为N*N矩阵,根据公式
Figure BDA0002834467740000084
Figure BDA0002834467740000085
Figure BDA0002834467740000086
计算知识关联网络中各个节点sn的信息中心性IC(sn),其中C为计算过程中的N*N矩阵,v表示实体集合S中的任一实体,即知识关联网络中任一节点,
Figure BDA0002834467740000087
表示矩阵C 中的元素,
Figure BDA0002834467740000088
为计算过程中的数值,|N|表示知识关联网络中所有节点总数量。
本实施例中,所述步骤4中节点文献特征包括节点出现文献的最早日期、最近日期和出现次数。
本实施例中,所述步骤4中计算节点文献特征的具体步骤如下:
步骤4-1、根据节点与文献的匹配关系,最早出现节点sn的文献日期为Y1年M1月D1日,根据公式OLD(sn)=D1+M1*100+Y1*10000计算节点最早日期文献特征;
步骤4-2、根据节点与文献的匹配关系,最新出现节点sn的文献日期为Y2年M2月D2日,根据公式NEW(sn)=D2+M2*100+Y2*10000计算节点最近日期文献特征;
步骤4-3、根据节点与文献的匹配关系,统计出现节点sn的文献数量,得到节点出现次数文献特征NUM(sn)。
如图3所示,文献A1、A2和A3的发表日期分别为2012年09月16日,2014年 04月05日和2020年10月02日,待发现实体名称为s1、s2和s3,文献和实体名称匹配关系为:A1-s1、A1-s3、A2-s2、A3-s1和A3-s3。则节点s1、s2和s3的最早日期特征OLD、最近日期特征NEW、发表关联文献数量NUM分别为(20120916,20201002,2)、(20140405,20140405,1)和(20120916,20201002,2)。
本实施例中,所述步骤5中优选特征集合的具体步骤如下:
步骤5-1、记步骤3和步骤4中计算的拓扑及文献特征集合为F,F中包含G个特征,F={f1,f2,…,fg,…,fG},fg表示特征集合F中的特征,1≤g≤G;分别根据特征集合F中的各个特征相对于节点sn的取值对知识关联网络中的所有节点进行排序,依据已知的专家推荐关键实体集合,选择出Top值匹配分数最佳的特征作为特征池的初始特征,剩余特征进入待选特征集合,所述剩余特征有G-1个;所述Top值匹配分数指根据特征fg对知识关联网络中的所有节点进行排序后,前N′个节点中包含已知的专家推荐关键实体集合中实体的个数,N′<N,Top值匹配分数记为TopN′值;当知识关联网络中的节点个数N小于100时,优选N′=10,当N大于1000时,优选N′=100;
步骤5-2、分别将待选特征集合中任一特征与特征池中特征进行组合获得组合特征集合,将待选特征集合中其中一个特征与特征池中特征组合后的组合特征集合记为CFh,1≤h≤H,H表示组合特征集合的个数,当特征池中有1个特征时,H=G-1,当特征池中有2个特征时,H=G-2,以此类推;CFh={cf1,…,cfm,…,cfM},其中M表示组合特征集合CFh中特征总数,cfm表示组合特征集合CFh中的特征,1≤m≤M,根据公式
R(sn,cfm)=1~N
Figure BDA0002834467740000101
计算节点sn在组合特征集合CFh中特征cfm的排名值R(sn,cfm)和排名占比 r′(sn,cfm),简记r′(sn,cfm)=r′m
将节点sn在组合特征集合CFh中所有特征的排名占比按从小到大排序,记为 (r1,r2,…,rM),依据如下迭代公式
Figure BDA0002834467740000102
Q′(r1,r2,…,rM)=M!VM
计算节点sn的Q顺序统计量Q′(r1,r2,…,rM),简记为
Figure BDA0002834467740000103
其中,1≤k≤M;
依据公式
Figure BDA0002834467740000104
进行归一化操作,得到知识关联网络中N个节点的Q分数
Figure BDA0002834467740000105
依据Q分数,计算出组合特征集合CFh的Q分数Top值匹配分数,所述Q分数Top 值匹配分数指对所有节点的Q分数
Figure BDA0002834467740000106
进行排序,排序后的前N′个节点中包含已知的专家推荐关键实体集合中实体的个数,N′<N,Q分数Top值匹配分数记为Q分数TopN′值;选出H个组合特征集合中Q分数TopN′值最大的组合特征集合,该组合特征集合中待选特征集合中的特征为最佳新增特征;
如图4a所示当前组合特征集合CFh中特征为中介中心性BC、子图中心性SC、信息中心性IC、最早日期特征OLD、最近日期特征NEW和发表关联文献数量NUM;假设知识关联网络图有三个节点s1、s2和s3,如图4a所示,第三步和第四步给出了6 个特征对应各个节点的值,按每个特征列对节点的取值进行排序,排名最高的为1,其次为2,依次类推得到单个特征的所有排名值;对剩余特征列进行相同的操作,获得六个特征的排名值,如图4b所示BC特征的排名值为(1,2,3),如图4c所示BC特征的排名占比为(1/3,2/3,1);
当组合特征集合CFh中有6个特征时,节点sn的Q统计量Q′(r1,r2,…,r6)公式如下:
Figure BDA0002834467740000111
依次计算节点s的Q统计量Q′(r1,r2,…,r6),得到Q统计量特征为
Figure BDA0002834467740000112
依据公式
Figure BDA0002834467740000113
进行归一化操作,得到Q分数
Figure BDA0002834467740000114
输出Q分数向量作为最终节点重要性排序,数值越大,重要性越高;
步骤5-3、选取出步骤5-2中最佳新增特征,若Q分数Top值匹配分数高于步骤 5-1计算出的Top值匹配分数,则将此特征加入特征池,并从待选特征集合中移除;重新进入步骤5-2将待选特征集合中任一特征与特征池中特征进行组合计算Q分数Top 值匹配分数,否则输出当前特征池中特征集合为最佳特征集合,记为PF,PF= {pf1,…,pfw,…,pfW},W表示最佳特征集合中特征总数。
本实施例中,所述步骤6包括:
步骤6-1、对文献库X执行步骤1~步骤4,获取文献库X的文献-实体匹配关系,文献库X中所有文献的实体集合取并集得到文件库X的实体集合Sx,记Sx= {s1x,s2x,…,snx,…,sNx},其中Nx表示所述文件库X的实体集合Sx的实体总数量,snx表示实体集合Sx中的实体,1≤nx≤Nx;建立知识关联网络,计算文献库X的知识关联网络中各个节点snx的拓扑特征和文献特征;
步骤6-2、根据公式
R(snx,pfw)=1~Nx
Figure BDA0002834467740000121
计算节点snx在最佳特征集合PF中特征pfw的排名值和排名占比r′(snx,pfw),简记r′(snx,pfw)=r′w,将节点snx在最佳特征集合PF中所有特征的排名占比按从小到大排序,记为(r1,r2,…,rW),依据如下迭代公式
Figure BDA0002834467740000122
Q′(r1,r2,…,rW)=W!VW
计算节点snx的Q顺序统计量Q′(r1,r2,…,rW),简记为
Figure BDA0002834467740000123
其中,1≤k≤W;
依据公式
Figure BDA0002834467740000124
进行归一化操作,得到文献库X的知识关联网络中Nx个节点的Q分数
Figure BDA0002834467740000125
将Q分数
Figure BDA0002834467740000126
进行排序,前Nx′个Q分数对应的节点为文献库X的关键实体,Nx′≤Nx,所述Nx′根据实际研究需要确定。
本发明提供了一种基于拓扑及文献特征的知识关联网络关键节点发现方法的思路及方法,具体实现该技术方案的方法和途径很多,以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。

Claims (4)

1.一种基于拓扑及文献特征的知识关联网络关键节点发现方法,其特征在于步骤如下:
步骤1、获取文献和实体匹配关系;根据一个研究领域与指定关键词KW1相关的文献库A,与该研究领域的实体名称库,运用多模匹配算法扫描文献库A中的文献,搜索匹配其中待发现实体名称,得到文献库A中每一篇文献匹配到的实体并组成每一篇文献的实体集合;所述实体名称库指该研究领域某方向实体名称全集;
步骤2、建立知识关联网络;将步骤1中得到的所有文献的实体集合取并集得到文件库A的实体集合S,将实体集合S中的所有实体作为知识关联网络中的节点,以步骤1中得到的在文献库中每篇文献的实体集合中任一实体对,作为知识关联网络中的边;
步骤3、计算节点拓扑特征;
步骤4、计算节点文献特征;
步骤5、优选特征集合;根据节点在知识关联网络中的拓扑特征及在文献库中的文献特征,计算各个节点的排名值及排名占比,进而计算Q顺序统计量,将Q顺序统计量给出的排名归一化后作为知识关联网络中节点的重要性分数,称之为Q分数;依据已知的关联实体集合,运用贪婪式选取特征的方式匹配最佳特征集合;
步骤6、将所述最佳特征集合应用于同一科学研究领域与指定关键词KW2相关的文献库X,获取文献库X的关键实体;
所述步骤3中节点拓扑特征包括节点的度中心性、接近中心性、中介中心性、子图中心性和信息中心性指标;
所述步骤3中计算节点拓扑特征的具体步骤如下:
步骤3-1、记实体集合S={s1,s2,…,sn,…,sN},其中N表示所述文件库A的实体集合S的实体总数量,sn表示实体集合S中的实体,1≤n≤N;记Ns为节点sn的邻接点集合,|Ns|为集合Ns的元素个数,根据公式
DC(sn)=|Ns|
计算知识关联网络图中各个节点sn的度中心性DC(sn);
步骤3-2、记dist(sn,v)为知识关联网络中节点sn到任一节点v的最短距离,v∈S,根据公式
Figure FDA0003743780630000021
计算知识关联网络中各个节点sn的接近中心性CC(sn);
步骤3-3、记ρ(u,t)是从节点u到节点t最短路径的条数,u∈S,t∈S,其中经过节点sn的最短路径条数定义为ρ(u,sn,t),根据公式
Figure FDA0003743780630000022
计算知识关联网络中各个节点sn的中介中心性BC(sn);
步骤3-4、记μl(sn)是长度为l,起始点为节点sn的闭合路径的条数,根据公式
Figure FDA0003743780630000023
计算知识关联网络图中各个节点sn的子图中心性SC(sn);
步骤3-5、记D是所有节点的度作为对角线元素,其余元素为0的对角矩阵,A为邻接矩阵,J为所有元素均为1的矩阵,所述D、A和J均为N*N矩阵,根据公式
Figure FDA0003743780630000024
Figure FDA0003743780630000025
Figure FDA0003743780630000026
计算知识关联网络中各个节点sn的信息中心性IC(sn),其中C为计算过程中的N*N矩阵,v表示实体集合S中的任一实体,即知识关联网络中任一节点,
Figure FDA0003743780630000027
表示矩阵C中的元素,
Figure FDA0003743780630000028
为计算过程中的数值,|N|表示知识关联网络中所有节点总数量;
所述步骤4中节点文献特征包括节点出现文献的最早日期、最近日期和出现次数;
所述步骤4中计算节点文献特征的具体步骤如下:
步骤4-1、根据节点与文献的匹配关系,最早出现节点sn的文献日期为Y1年M1月D1日,根据公式OLD(sn)=D1+M1*100+Y1*10000计算节点最早日期文献特征;
步骤4-2、根据节点与文献的匹配关系,最新出现节点sn的文献日期为Y2年M2月D2日,根据公式NEW(sn)=D2+M2*100+Y2*10000计算节点最近日期文献特征;
步骤4-3、根据节点与文献的匹配关系,统计出现节点sn的文献数量,得到节点出现次数文献特征NUM(sn)。
2.根据权利要求1所述的基于拓扑及文献特征的知识关联网络关键节点发现方法,其特征在于,所述步骤5中优选特征集合的具体步骤如下:
步骤5-1、记步骤3和步骤4中计算的拓扑及文献特征集合为F,F中包含G个特征,F={f1,f2,…,fg,…,fG},fg表示特征集合F中的特征,1≤g≤G;分别根据特征集合F中的各个特征相对于节点sn的取值对知识关联网络中的所有节点进行排序,依据已知的关键实体集合,选择出Top值匹配分数最佳的特征作为特征池的初始特征,剩余特征进入待选特征集合,所述剩余特征有G-1个;所述Top值匹配分数指根据特征fg对知识关联网络中的所有节点进行排序后,前N′个节点中包含已知的关键实体集合中实体的个数,N′<N,Top值匹配分数记为TopN′值;
步骤5-2、分别将待选特征集合中任一特征与特征池中特征进行组合获得组合特征集合,将待选特征集合中其中一个特征与特征池中特征组合后的组合特征集合记为CFh,1≤h≤H,H表示组合特征集合的个数,当特征池中有1个特征时,H=G-1,当特征池中有2个特征时,H=G-2,以此类推;CFh={cf1,…,cfm,…,cfM},其中M表示组合特征集合CFh中特征总数,cfm表示组合特征集合CFh中的特征,1≤m≤M,根据公式
R(sn,cfm)=1~N
Figure FDA0003743780630000031
计算节点sn在组合特征集合CFh中特征cfm的排名值R(sn,cfm)和排名占比r′(sn,cfm),简记r′(sn,cfm)=r′m,将节点sn在组合特征集合CFh中所有特征的排名占比按从小到大排序,记为(r1,r2,…,rM),依据如下迭代公式
Figure FDA0003743780630000032
Q′(r1,r2,…,rM)=M!VM
计算节点sn的Q顺序统计量Q′(r1,r2,…,rM),简记为
Figure FDA0003743780630000033
其中,1≤k≤M;
依据公式
Figure FDA0003743780630000034
进行归一化操作,得到知识关联网络中N个节点的Q分数
Figure FDA0003743780630000041
依据Q分数,计算出组合特征集合CFh的Q分数Top值匹配分数,所述Q分数Top值匹配分数指对所有节点的Q分数
Figure FDA0003743780630000042
进行排序,排序后的前N′个节点中包含已知的关键实体集合中实体的个数,N′<N,Q分数Top值匹配分数记为Q分数TopN′值;选出H个组合特征集合中Q分数TopN′值最大的组合特征集合,该组合特征集合中待选特征集合中的特征为最佳新增特征;
步骤5-3、选取出步骤5-2中最佳新增特征,若Q分数Top值匹配分数高于步骤5-1计算出的Top值匹配分数,则将此特征加入特征池,并从待选特征集合中移除;重新进入步骤5-2将待选特征集合中任一特征与特征池中特征进行组合计算Q分数Top值匹配分数,否则输出当前特征池中特征集合为最佳特征集合,记为PF,PF={pf1,…,pfw,…,pfW},W表示最佳特征集合中特征总数。
3.根据权利要求2所述的基于拓扑及文献特征的知识关联网络关键节点发现方法,其特征在于,所述步骤6包括:
步骤6-1、对文献库X执行步骤1~步骤4,获取文献库X的文献-实体匹配关系,文献库X中所有文献的实体集合取并集得到文件库X的实体集合Sx,记Sx={s1x,s2x,…,snx,…,sNx},其中Nx表示所述文件库X的实体集合Sx的实体总数量,snx表示实体集合Sx中的实体,1≤nx≤Nx;建立知识关联网络,计算文献库X的知识关联网络中各个节点snx的拓扑特征和文献特征;
步骤6-2、根据公式
R(snx,pfw)=1~Nx
Figure FDA0003743780630000043
计算节点snx在最佳特征集合PF中特征pfw的排名值和排名占比r′(snx,pfw),简记r′(snx,pfw)=r′w,将节点snx在最佳特征集合PF中所有特征的排名占比按从小到大排序,记为(r1,r2,…,rW),依据如下迭代公式
Figure FDA0003743780630000044
Q′(r1,r2,…,rW)=W!VW
计算节点snx的Q顺序统计量Q′(r1,r2,…,rW),简记为
Figure FDA0003743780630000045
其中,1≤k≤W;
依据公式
Figure FDA0003743780630000051
进行归一化操作,得到文献库X的知识关联网络中Nx个节点的Q分数
Figure FDA0003743780630000052
将Q分数
Figure FDA0003743780630000053
进行排序,前Nx′个Q分数对应的节点为文献库X的关键实体,Nx′≤Nx。
4.根据权利要求1所述的基于拓扑及文献特征的知识关联网络关键节点发现方法,其特征在于,所述步骤1中所述多模匹配算法为AC自动机算法。
CN202011474017.2A 2020-12-14 2020-12-14 基于拓扑及文献特征的知识关联网络关键节点发现方法 Active CN112650832B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011474017.2A CN112650832B (zh) 2020-12-14 2020-12-14 基于拓扑及文献特征的知识关联网络关键节点发现方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011474017.2A CN112650832B (zh) 2020-12-14 2020-12-14 基于拓扑及文献特征的知识关联网络关键节点发现方法

Publications (2)

Publication Number Publication Date
CN112650832A CN112650832A (zh) 2021-04-13
CN112650832B true CN112650832B (zh) 2022-09-06

Family

ID=75354043

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011474017.2A Active CN112650832B (zh) 2020-12-14 2020-12-14 基于拓扑及文献特征的知识关联网络关键节点发现方法

Country Status (1)

Country Link
CN (1) CN112650832B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017140233A1 (zh) * 2016-02-18 2017-08-24 腾讯科技(深圳)有限公司 文字检测方法及***、设备、存储介质
CN109543358A (zh) * 2019-01-11 2019-03-29 西安电子科技大学 Gpu上kd树的射线追踪加速***及kd树输出方法
WO2019192397A1 (zh) * 2018-04-04 2019-10-10 华中科技大学 一种任意形状的场景文本端到端识别方法
CN110334154A (zh) * 2019-06-28 2019-10-15 阿里巴巴集团控股有限公司 基于区块链的分级存储方法及装置、电子设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017140233A1 (zh) * 2016-02-18 2017-08-24 腾讯科技(深圳)有限公司 文字检测方法及***、设备、存储介质
WO2019192397A1 (zh) * 2018-04-04 2019-10-10 华中科技大学 一种任意形状的场景文本端到端识别方法
CN109543358A (zh) * 2019-01-11 2019-03-29 西安电子科技大学 Gpu上kd树的射线追踪加速***及kd树输出方法
CN110334154A (zh) * 2019-06-28 2019-10-15 阿里巴巴集团控股有限公司 基于区块链的分级存储方法及装置、电子设备

Also Published As

Publication number Publication date
CN112650832A (zh) 2021-04-13

Similar Documents

Publication Publication Date Title
EP1209582A2 (en) Document retrieval method and system and computer readable storage medium
CN110189831B (zh) 一种基于动态图序列的病历知识图谱构建方法及***
US20090019007A1 (en) System, method, and apparatus for searching information across distributed databases
EP1891558A2 (en) Relationship networks
CN102262642B (zh) 一种Web图像搜索引擎及其实现方法
WO2018218788A1 (zh) 一种基于全局种子打分优选的三代测序序列比对方法
US20110295977A1 (en) Base sequence cluster generating system, base sequence cluster generating method, program for performing cluster generating method, and computer readable recording medium on which program is recorded and system for providing base sequence information
Jiang et al. Adaptive domain interest network for multi-domain recommendation
WO2020248377A1 (zh) 信息推送方法、装置、计算机可读存储介质和计算机设备
CN107133274B (zh) 一种基于图知识库的分布式信息检索集合选择方法
CN112650832B (zh) 基于拓扑及文献特征的知识关联网络关键节点发现方法
CN111259176B (zh) 融合有监督信息的基于矩阵分解的跨模态哈希检索方法
CN112162986B (zh) 一种并行top-k范围skyline查询方法和***
CN117688132A (zh) 基于大数据的智能检索方法及***
CN117271894A (zh) 一种基于混合网络与dpp的论文推荐方法
JP4059970B2 (ja) 情報源推薦装置
Vijaya et al. LionRank: lion algorithm-based metasearch engines for re-ranking of webpages
CN114566215B (zh) 一种双端成对的剪接位点预测方法
CN110472088A (zh) 一种基于草图的图像检索方法
JP5061147B2 (ja) 画像検索装置
CN114124417B (zh) 一种大规模网络下可扩展性增强的漏洞评估方法
CN111125541B (zh) 面向多用户的可持续多云服务组合的获取方法
CN114610941A (zh) 基于对比学习的文物图像检索***
CN109753662B (zh) 一种基于分层网络的重名作者辨识方法
CN112687326A (zh) 一种基因与表型关联知识库、构建方法及其应用

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant