CN112650832A - 基于拓扑及文献特征的知识关联网络关键节点发现方法 - Google Patents
基于拓扑及文献特征的知识关联网络关键节点发现方法 Download PDFInfo
- Publication number
- CN112650832A CN112650832A CN202011474017.2A CN202011474017A CN112650832A CN 112650832 A CN112650832 A CN 112650832A CN 202011474017 A CN202011474017 A CN 202011474017A CN 112650832 A CN112650832 A CN 112650832A
- Authority
- CN
- China
- Prior art keywords
- node
- feature
- nodes
- entity
- features
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3334—Selection or weighting of terms from queries, including natural language queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于拓扑及文献特征的知识关联网络关键节点发现方法。该方法利用某一科学研究领域与指定关键词相关的文献库与该研究领域的实体名称库,获得文献与实体名称的匹配关系。利用匹配关系建立知识关联网络,计算各节点的拓扑特征和文献特征。运用Q顺序统计量思想,结合贪婪式选择策略,在已知的关联实体集合上给出该研究领域的最佳特征集合,并将此最佳特征集合应用于该研究领域其余关键词相关的文献库获取关键实体。本发明能够针对指定研究领域某一关键词相关的文献库提取知识关联网络,优选特征集合获得最佳特征集合,最佳特征集合在该研究领域上具有很强的鲁棒性和迁移性,适用于未研究透彻的文献库进行关键实体发现。
Description
技术领域
本发明属于复杂网络关键节点发现技术领域,尤其涉及一种基于拓扑及文献特征的知识关联网络关键节点发现方法。
背景技术
面临海量的某一领域尚未明确的文献知识,发现其中关键实体,对于文献预先研究具有重要意义。如何通过该领域已研究透彻的文献库提取出核心的特征集合是难点问题。例如,有些科学研究领域关键实体更容易出现在发布较早的文献中,或者发布较多的文献中,抑或是出现在知识关联网络拓扑结构中核心的节点上。本发明的研究思路就是通过提取出该领域重要的文献及拓扑特征集合,指导未研究明朗的文献库进行关键实体的发现。
知识关联网络本质上就是知识为主体的复杂网络。在研究复杂网络节点重要性排序问题上,当前已有多个拓扑结构特征的中心性指标研究,如度中心性、中介中心性(Joy MP,Brock A,Ingber D E,et al.High-betweenness proteins in the yeast proteininteraction network[J].BioMed Research International,2005,2005(2):96-103.)、接近中心性(Wuchty S,Stadler P F.Centers of complex networks[J].Journal ofTheoretical Biology,2003,223(1):45-53.)、子图中心性(Estrada E,Rodriguez-Velazquez J A.Subgraph centrality in complex networks[J].Physical Review E,2005,71(5):056103.)、特征向量中心性和信息中心性(Stephenson K,ZelenM.Rethinking centrality:Methods and examples[J].Social networks,1989,11(1):1-37.)等。但是如何糅合多个不同来源的特征方向研究尚有不足,普通的加权方式鲁棒性差、结果可靠性也堪忧,本发明采用Q顺序统计量糅合特征的方式计算Q分数,并以贪婪式选取特征的方式输出特征集合,运用于同领域另一研究尚未明朗的文献库,进行关键实体的发现。
发明内容
发明目的:本发明所要解决的技术问题是针对现有技术的不足,提供一种基于拓扑及文献特征的知识关联网络关键节点发现方法。
为了解决上述技术问题,本发明公开了一种基于拓扑及文献特征的知识关联网络关键节点发现方法,步骤如下:
步骤1、获取文献-实体匹配关系;根据某一科学研究领域与指定关键词KW1相关的文献库A,与该研究领域的实体名称库,运用多模匹配算法扫描文献库A中的文献,搜索匹配其中待发现实体名称,得到文献库A中每一篇文献匹配到的实体并组成每一篇文献的实体集合;所述实体名称库指该研究领域某方向实体名称全集;
步骤2、建立知识关联网络;将步骤1中得到的所有文献的实体集合取并集得到文件库A的实体集合S,记S={s1,s2,…,sn,…,sN},其中N表示所述文件库A的实体集合S的实体总数量,sn表示实体集合S中的实体,1≤n≤N;将实体集合S中的所有实体作为知识关联网络中的节点,以步骤1中得到的在文献库中每篇文献的实体集合中任一实体对,作为知识关联网络中的边;由于文献库A中每篇文献年份有所不同,知识关联网络依据文献年份动态变化,从而显示出该领域研究热点实体的变化情况;
步骤3、计算节点拓扑特征;
步骤4、计算节点文献特征;
步骤5、优选特征集合;根据节点在知识关联网络中的拓扑特征及在文献库中的文献特征,计算各个节点的排名值及排名占比,进而计算Q顺序统计量,将Q顺序统计量给出的排名归一化后作为知识关联网络中节点的重要性分数,称之为Q分数;依据已知的关联实体集合,运用贪婪式选取特征的方式匹配最佳特征集合;
步骤6、将所述最佳特征集合应用于同一科学研究领域与指定关键词KW2相关的文献库X,获取文献库X的关键实体。
在一种实现方式中,所述步骤3中节点拓扑特征包括节点的度中心性、接近中心性、中介中心性、子图中心性和信息中心性指标。
在一种实现方式中,所述步骤3中计算节点拓扑特征的具体步骤如下:
步骤3-1、记Ns为节点sn的邻接点集合,|Ns|为集合Ns的元素个数,根据公式
DC(sn)=|Ns|
计算知识关联网络图中各个节点sn的度中心性DC(sn);
步骤3-2、记dist(sn,v)为知识关联网络中节点sn到任一节点v的最短距离,v∈S,根据公式
计算知识关联网络中各个节点sn的接近中心性CC(sn);
步骤3-3、记ρ(u,t)是从节点u到节点t最短路径的条数,u∈S,t∈S,其中经过节点sn的最短路径条数定义为ρ(u,sn,t),根据公式
计算知识关联网络中各个节点sn的中介中心性BC(sn);
步骤3-4、记μl(sn)是长度为l,起始点为节点sn的闭合路径的条数,根据公式
计算知识关联网络图中各个节点sn的子图中心性SC(sn);
步骤3-5、记D是所有节点的度作为对角线元素,其余元素为0的对角矩阵,A为邻接矩阵,J为所有元素均为1的矩阵,所述D、A和J均为N*N矩阵,根据公式
计算知识关联网络中各个节点sn的信息中心性IC(sn),其中C为计算过程中的N*N矩阵,v表示实体集合S中的任一实体,即知识关联网络中任一节点,表示矩阵C中的元素,为计算过程中的数值,|N|表示知识关联网络中所有节点总数量。
在一种实现方式中,所述步骤4中节点文献特征包括节点出现文献的最早日期、最近日期和出现次数。
在一种实现方式中,所述步骤4中计算节点文献特征的具体步骤如下:
步骤4-1、根据节点与文献的匹配关系,最早出现节点sn的文献日期为Y1年M1月D1日,根据公式OLD(sn)=D1+M1*100+Y1*10000计算节点最早日期文献特征;
步骤4-2、根据节点与文献的匹配关系,最新出现节点sn的文献日期为Y2年M2月D2日,根据公式NEW(sn)=D2+M2*100+Y2*10000计算节点最近日期文献特征;
步骤4-3、根据节点与文献的匹配关系,统计出现节点sn的文献数量,得到节点出现次数文献特征NUM(sn)。
在一种实现方式中,所述步骤5中优选特征集合的具体步骤如下:
步骤5-1、记步骤3和步骤4中计算的拓扑及文献特征集合为F,F中包含G个特征,F={f1,f2,…,fg,…,fG},fg表示特征集合F中的特征,1≤g≤G;分别根据特征集合F中的各个特征相对于节点sn的取值对知识关联网络中的所有节点进行排序,依据已知的关键实体集合,选择出Top值匹配分数最佳的特征作为特征池的初始特征,剩余特征进入待选特征集合,所述剩余特征有G-1个;所述Top值匹配分数指根据特征fg对知识关联网络中的所有节点进行排序后,前N′个节点中包含已知的关键实体集合中实体的个数,N′<N,Top值匹配分数记为TopN′值;
步骤5-2、分别将待选特征集合中任一特征与特征池中特征进行组合获得组合特征集合,将待选特征集合中其中一个特征与特征池中特征组合后的组合特征集合记为CFh,1≤h≤H,H表示组合特征集合的个数,当特征池中有1个特征时,H=G-1,当特征池中有2个特征时,H=G-2,以此类推;CFh={cf1,…,cfm,…,cfM},其中M表示组合特征集合CFh中特征总数,cfm表示组合特征集合CFh中的特征,1≤m≤M,根据公式
R(sn,cfm)=1~N
计算节点sn在组合特征集合CFh中特征cfm的排名值R(sn,cfm)和排名占比r′(sn,cfm),简记r′(sn,cfm)=r′m,将节点sn在组合特征集合CFh中所有特征的排名占比按从小到大排序,记为(r1,r2,…,rM),依据如下迭代公式
Q′(r1,r2,…,rM)=M!VM
依据公式
依据Q分数,计算出组合特征集合CFh的Q分数Top值匹配分数,所述Q分数Top值匹配分数指对所有节点的Q分数进行排序,排序后的前N′个节点中包含已知的关键实体集合中实体的个数,N′<N,Q分数Top值匹配分数记为Q分数TopN′值;选出H个组合特征集合中Q分数TopN′值最大的组合特征集合,该组合特征集合中待选特征集合中的特征为最佳新增特征;
步骤5-3、选取出步骤5-2中最佳新增特征,若Q分数Top值匹配分数高于步骤5-1计算出的Top值匹配分数,,则将此特征加入特征池,并从待选特征集合中移除;重新进入步骤5-2将待选特征集合中任一特征与特征池中特征进行组合计算Q分数Top值匹配分数,否则输出当前特征池中特征集合为最佳特征集合,记为PF,PF={pf1,…,pfw,…,pfW},W表示最佳特征集合中特征总数。
在一种实现方式中,所述步骤6包括:
步骤6-1、对文献库X执行步骤1~步骤4,获取文献库X的文献-实体匹配关系,文献库X中所有文献的实体集合取并集得到文件库X的实体集合Sx,记Sx={s1x,s2x,…,snx,…,sNx},其中Nx表示所述文件库X的实体集合Sx的实体总数量,snx表示实体集合Sx中的实体,1≤nx≤Nx;建立知识关联网络,计算文献库X的知识关联网络中各个节点snx的拓扑特征和文献特征;
步骤6-2、根据公式
R(snx,pfw)=1~Nx
计算节点snx在最佳特征集合PF中特征pfw的排名值和排名占比r′(snx,pfw),简记r′(snx,pfw)=r′w,将节点snx在最佳特征集合PF中所有特征的排名占比按从小到大排序,记为(r1,r2,…,rW),依据如下迭代公式
Q′(r1,r2,…,rW)=W!VW
依据公式
在一种实现方式中,所述步骤1中所述多模匹配算法为AC自动机算法(Aho-Corasick automation Algorithm)。
有益效果:
(1)本发明综合考虑知识关联网络图中的拓扑特征与节点的文献特征,既考量了节点之间关联性,以及节点在知识关联网络图中的地位,也考量了文献中节点的研究历史;
(2)本发明运用顺序统计量的思想,给出扩展性强的糅合节点多来源特征的方法。
(3)本发明通过AC自动机算法快速匹配待发现字符串,建立知识关联网络,能够对相关文献库进行知识关联分析;
附图说明
下面结合附图和具体实施方式对本发明做更进一步的具体说明,本发明的上述和/或其他方面的优点将会变得更加清楚。
图1是本发明基于拓扑及文献特征的知识关联网络关键节点发现方法的流程图。
图2是建立知识关联网络示意图。
图3是节点文献特征统计示意图。
图4是节点排名值及排名占比计算流程图。
具体实施方式
结合图1,本发明基于拓扑及文献特征的知识关联网络关键节点发现方法,步骤如下:
步骤1、获取文献-实体匹配关系;根据某一科学研究领域与指定关键词KW1相关的文献库A,与该研究领域的实体名称库,运用多模匹配算法扫描文献库A中的文献,搜索匹配其中待发现实体名称,得到文献库A中每一篇文献匹配到的实体并组成每一篇文献的实体集合;所述实体名称库指该研究领域某方向实体名称全集;本实施例根据生物医药领域与关键词肺癌相关的文献库A,与该研究领域的实体名称库,如体内的基因名称数据,运用AC自动机算法扫描文献库A中的文献,如图2a所示,文献库中含有文献A1和A2,其中文献A1含有s1和s2两个实体名称数据,文献A2含有s2和s3两个实体名称数据;
步骤2、建立知识关联网络;将步骤1中得到的所有文献的实体集合取并集得到文件库A的实体集合S,将实体集合S中的所有实体作为知识关联网络中的节点,以步骤1中得到的在文献库中每篇文献的实体集合中任一实体对,作为知识关联网络中的边,如图2b所示;即如果同篇文献中有2个实体,则组成知识关联网络的1条边,如果同篇文献中有3个实体,则组成知识关联网络的条边,如果同篇文献中有4个实体,则组成知识关联网络的条边,以此类推;由于文献库A中每篇文献年份有所不同,知识关联网络依据文献年份动态变化,从而显示出该领域研究热点实体的变化情况;
步骤3、计算节点拓扑特征;
步骤4、计算节点文献特征;
步骤5、优选特征集合;根据节点在知识关联网络中的拓扑特征及在文献库中的文献特征,计算各个节点的排名值及排名占比,进而计算Q顺序统计量,将Q顺序统计量给出的排名归一化后作为知识关联网络中节点的重要性分数,称之为Q分数;依据已知的关联实体集合,运用贪婪式选取特征的方式匹配最佳特征集合,本实施例中,所述已知的关联实体集合是指生物医药领域与肺癌相关的专家推荐关联实体集合,如关键体内基因名称数据集合;
步骤6、将所述最佳特征集合应用于同一科学研究领域与指定关键词KW2相关的文献库X,获取文献库X的关键实体,本实施例中,将所述最佳特征集合应用于生物医学领域与关键词肝癌相关文献库X。
本实施例中,所述步骤3中节点拓扑特征包括节点的度中心性、接近中心性、中介中心性、子图中心性和信息中心性指标。
本实施例中,所述步骤3中计算节点拓扑特征的具体步骤如下:
步骤3-1、记Ns为节点sn的邻接点集合,|Ns|为集合Ns的元素个数,根据公式
DC(sn)=|Ns|
计算知识关联网络图中各个节点sn的度中心性DC(sn);
步骤3-2、记实体集合S={s1,s2,…,sn,…,sN},其中N表示所述文件库A的实体集合S的实体总数量,sn表示实体集合S中的实体,1≤n≤N;记dist(sn,v)为知识关联网络中节点sn到任一节点v的最短距离,v∈S,根据公式
计算知识关联网络中各个节点sn的接近中心性CC(sn);
步骤3-3、记ρ(u,t)是从节点u到节点t最短路径的条数,u∈S,t∈S,其中经过节点sn的最短路径条数定义为ρ(u,sn,t),根据公式
计算知识关联网络中各个节点sn的中介中心性BC(sn);
步骤3-4、记μl(sn)是长度为l,起始点为节点sn的闭合路径的条数,根据公式
计算知识关联网络图中各个节点sn的子图中心性SC(sn);
步骤3-5、记D是所有节点的度作为对角线元素,其余元素为0的对角矩阵,A为邻接矩阵,J为所有元素均为1的矩阵,所述D、A和J均为N*N矩阵,根据公式
计算知识关联网络中各个节点sn的信息中心性IC(sn),其中C为计算过程中的N*N矩阵,v表示实体集合S中的任一实体,即知识关联网络中任一节点,表示矩阵C中的元素,为计算过程中的数值,|N|表示知识关联网络中所有节点总数量。
本实施例中,所述步骤4中节点文献特征包括节点出现文献的最早日期、最近日期和出现次数。
本实施例中,所述步骤4中计算节点文献特征的具体步骤如下:
步骤4-1、根据节点与文献的匹配关系,最早出现节点sn的文献日期为Y1年M1月D1日,根据公式OLD(sn)=D1+M1*100+Y1*10000计算节点最早日期文献特征;
步骤4-2、根据节点与文献的匹配关系,最新出现节点sn的文献日期为Y2年M2月D2日,根据公式NEW(sn)=D2+M2*100+Y2*10000计算节点最近日期文献特征;
步骤4-3、根据节点与文献的匹配关系,统计出现节点sn的文献数量,得到节点出现次数文献特征NUM(sn)。
如图3所示,文献A1、A2和A3的发表日期分别为2012年09月16日,2014年04月05日和2020年10月02日,待发现实体名称为s1、s2和s3,文献和实体名称匹配关系为:A1-s1、A1-s3、A2-s2、A3-s1和A3-s3。则节点s1、s2和s3的最早日期特征OLD、最近日期特征NEW、发表关联文献数量NUM分别为(20120916,20201002,2)、(20140405,20140405,1)和(20120916,20201002,2)。
本实施例中,所述步骤5中优选特征集合的具体步骤如下:
步骤5-1、记步骤3和步骤4中计算的拓扑及文献特征集合为F,F中包含G个特征,F={f1,f2,…,fg,…,fG},fg表示特征集合F中的特征,1≤g≤G;分别根据特征集合F中的各个特征相对于节点sn的取值对知识关联网络中的所有节点进行排序,依据已知的专家推荐关键实体集合,选择出Top值匹配分数最佳的特征作为特征池的初始特征,剩余特征进入待选特征集合,所述剩余特征有G-1个;所述Top值匹配分数指根据特征fg对知识关联网络中的所有节点进行排序后,前N′个节点中包含已知的专家推荐关键实体集合中实体的个数,N′<N,Top值匹配分数记为TopN′值;当知识关联网络中的节点个数N小于100时,优选N′=10,当N大于1000时,优选N′=100;
步骤5-2、分别将待选特征集合中任一特征与特征池中特征进行组合获得组合特征集合,将待选特征集合中其中一个特征与特征池中特征组合后的组合特征集合记为CFh,1≤h≤H,H表示组合特征集合的个数,当特征池中有1个特征时,H=G-1,当特征池中有2个特征时,H=G-2,以此类推;CFh={cf1,…,cfm,…,cfM},其中M表示组合特征集合CFh中特征总数,cfm表示组合特征集合CFh中的特征,1≤m≤M,根据公式
R(sn,cfm)=1~N
计算节点sn在组合特征集合CFh中特征cfm的排名值R(sn,cfm)和排名占比r′(sn,cfm),简记r′(sn,cfm)=r′m;
将节点sn在组合特征集合CFh中所有特征的排名占比按从小到大排序,记为(r1,r2,…,rM),依据如下迭代公式
Q′(r1,r2,…,rM)=M!VM
依据公式
依据Q分数,计算出组合特征集合CFh的Q分数Top值匹配分数,所述Q分数Top值匹配分数指对所有节点的Q分数进行排序,排序后的前N′个节点中包含已知的专家推荐关键实体集合中实体的个数,N′<N,Q分数Top值匹配分数记为Q分数TopN′值;选出H个组合特征集合中Q分数TopN′值最大的组合特征集合,该组合特征集合中待选特征集合中的特征为最佳新增特征;
如图4a所示当前组合特征集合CFh中特征为中介中心性BC、子图中心性SC、信息中心性IC、最早日期特征OLD、最近日期特征NEW和发表关联文献数量NUM;,假设知识关联网络图有三个节点s1、s2和s3,如图4a所示,第三步和第四步给出了6个特征对应各个节点的值,按每个特征列对节点的取值进行排序,排名最高的为1,其次为2,依次类推得到单个特征的所有排名值;对剩余特征列进行相同的操作,获得六个特征的排名值,如图4b所示BC特征的排名值为(1,2,3),如图4c所示BC特征的排名占比为(1/3,2/3,1);
当组合特征集合CFh中有6个特征时,节点sn的Q统计量Q′(r1,r2,…,r6)公式如下:
步骤5-3、选取出步骤5-2中最佳新增特征,若Q分数Top值匹配分数高于步骤5-1计算出的Top值匹配分数,,则将此特征加入特征池,并从待选特征集合中移除;重新进入步骤5-2将待选特征集合中任一特征与特征池中特征进行组合计算Q分数Top值匹配分数,否则输出当前特征池中特征集合为最佳特征集合,记为PF,PF={pf1,…,pfw,…,pfW},W表示最佳特征集合中特征总数。
本实施例中,所述步骤6包括:
步骤6-1、对文献库X执行步骤1~步骤4,获取文献库X的文献-实体匹配关系,文献库X中所有文献的实体集合取并集得到文件库X的实体集合Sx,记Sx={s1x,s2x,…,snx,…,sNx},其中Nx表示所述文件库X的实体集合Sx的实体总数量,snx表示实体集合Sx中的实体,1≤nx≤Nx;建立知识关联网络,计算文献库X的知识关联网络中各个节点snx的拓扑特征和文献特征;
步骤6-2、根据公式
R(snx,pfw)=1~Nx
计算节点snx在最佳特征集合PF中特征pfw的排名值和排名占比r′(snx,pfw),简记r′(snx,pfw)=r′w,将节点snx在最佳特征集合PF中所有特征的排名占比按从小到大排序,记为(r1,r2,…,rW),依据如下迭代公式
Q′(r1,r2,…,rW)=W!VW
依据公式
本发明提供了一种基于拓扑及文献特征的知识关联网络关键节点发现方法的思路及方法,具体实现该技术方案的方法和途径很多,以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。
Claims (8)
1.一种基于拓扑及文献特征的知识关联网络关键节点发现方法,其特征在于步骤如下:
步骤1、获取文献和实体匹配关系;根据一个研究领域与指定关键词KW1相关的文献库A,与该研究领域的实体名称库,运用多模匹配算法扫描文献库A中的文献,搜索匹配其中待发现实体名称,得到文献库A中每一篇文献匹配到的实体并组成每一篇文献的实体集合;所述实体名称库指该研究领域某方向实体名称全集;
步骤2、建立知识关联网络;将步骤1中得到的所有文献的实体集合取并集得到文件库A的实体集合S,将实体集合S中的所有实体作为知识关联网络中的节点,以步骤1中得到的在文献库中每篇文献的实体集合中任一实体对,作为知识关联网络中的边;
步骤3、计算节点拓扑特征;
步骤4、计算节点文献特征;
步骤5、优选特征集合;根据节点在知识关联网络中的拓扑特征及在文献库中的文献特征,计算各个节点的排名值及排名占比,进而计算Q顺序统计量,将Q顺序统计量给出的排名归一化后作为知识关联网络中节点的重要性分数,称之为Q分数;依据已知的关联实体集合,运用贪婪式选取特征的方式匹配最佳特征集合;
步骤6、将所述最佳特征集合应用于同一科学研究领域与指定关键词KW2相关的文献库X,获取文献库X的关键实体。
2.根据权利要求1所述的基于拓扑及文献特征的知识关联网络关键节点发现方法,其特征在于,所述步骤3中节点拓扑特征包括节点的度中心性、接近中心性、中介中心性、子图中心性和信息中心性指标。
3.根据权利要求2所述的基于拓扑及文献特征的知识关联网络关键节点发现方法,其特征在于,所述步骤3中计算节点拓扑特征的具体步骤如下:
步骤3-1、记实体集合S={s1,s2,…,sn,…,sN},其中N表示所述文件库A的实体集合S的实体总数量,sn表示实体集合S中的实体,1≤n≤N;记Ns为节点sn的邻接点集合,|Ns|为集合Ns的元素个数,根据公式
DC(sn)=|Ns|
计算知识关联网络图中各个节点sn的度中心性DC(sn);
步骤3-2、记dist(sn,v)为知识关联网络中节点sn到任一节点v的最短距离,v∈S,根据公式
计算知识关联网络中各个节点sn的接近中心性CC(sn);
步骤3-3、记ρ(u,t)是从节点u到节点t最短路径的条数,u∈S,t∈S,其中经过节点sn的最短路径条数定义为ρ(u,sn,t),根据公式
计算知识关联网络中各个节点sn的中介中心性BC(sn);
步骤3-4、记μl(sn)是长度为l,起始点为节点sn的闭合路径的条数,根据公式
计算知识关联网络图中各个节点sn的子图中心性SC(sn);
步骤3-5、记D是所有节点的度作为对角线元素,其余元素为0的对角矩阵,A为邻接矩阵,J为所有元素均为1的矩阵,所述D、A和J均为N*N矩阵,根据公式
4.根据权利要求3所述的基于拓扑及文献特征的知识关联网络关键节点发现方法,其特征在于,所述步骤4中节点文献特征包括节点出现文献的最早日期、最近日期和出现次数。
5.根据权利要求4所述的基于拓扑及文献特征的知识关联网络关键节点发现方法,其特征在于,所述步骤4中计算节点文献特征的具体步骤如下:
步骤4-1、根据节点与文献的匹配关系,最早出现节点sn的文献日期为Y1年M1月D1日,根据公式OLD(sn)=D1+M1*100+Y1*10000计算节点最早日期文献特征;
步骤4-2、根据节点与文献的匹配关系,最新出现节点sn的文献日期为Y2年M2月D2日,根据公式NEW(sn)=D2+M2*100+Y2*10000计算节点最近日期文献特征;
步骤4-3、根据节点与文献的匹配关系,统计出现节点sn的文献数量,得到节点出现次数文献特征NUM(sn)。
6.根据权利要求5所述的基于拓扑及文献特征的知识关联网络关键节点发现方法,其特征在于,所述步骤5中优选特征集合的具体步骤如下:
步骤5-1、记步骤3和步骤4中计算的拓扑及文献特征集合为F,F中包含G个特征,F={f1,f2,…,fg,…,fG},fg表示特征集合F中的特征,1≤g≤G;分别根据特征集合F中的各个特征相对于节点sn的取值对知识关联网络中的所有节点进行排序,依据已知的关键实体集合,选择出Top值匹配分数最佳的特征作为特征池的初始特征,剩余特征进入待选特征集合,所述剩余特征有G-1个;所述Top值匹配分数指根据特征fg对知识关联网络中的所有节点进行排序后,前N′个节点中包含已知的关键实体集合中实体的个数,N′<N,Top值匹配分数记为TopN′值;
步骤5-2、分别将待选特征集合中任一特征与特征池中特征进行组合获得组合特征集合,将待选特征集合中其中一个特征与特征池中特征组合后的组合特征集合记为CFh,1≤h≤H,H表示组合特征集合的个数,当特征池中有1个特征时,H=G-1,当特征池中有2个特征时,H=G-2,以此类推;CFh={cf1,…,cfm,…,cfM},其中M表示组合特征集合CFh中特征总数,cfm表示组合特征集合CFh中的特征,1≤m≤M,根据公式
R(sn,cfm)=1~N
r′r′i计算节点sn在组合特征集合CFh中特征cfm的排名值R(sn,cfm)和排名占比r′(sn,cfm),简记r′(sn,cfm)=r′m,将节点sn在组合特征集合CFh中所有特征的排名占比按从小到大排序,记为(r1,r2,…,rM),依据如下迭代公式
Q′(r1,r2,…,rM)=M!VM
依据公式
依据Q分数,计算出组合特征集合CFh的Q分数Top值匹配分数,所述Q分数Top值匹配分数指对所有节点的Q分数进行排序,排序后的前N′个节点中包含已知的关键实体集合中实体的个数,N′<N,Q分数Top值匹配分数记为Q分数TopN′值;选出H个组合特征集合中Q分数TopN′值最大的组合特征集合,该组合特征集合中待选特征集合中的特征为最佳新增特征;
步骤5-3、选取出步骤5-2中最佳新增特征,若Q分数Top值匹配分数高于步骤5-1计算出的Top值匹配分数,,则将此特征加入特征池,并从待选特征集合中移除;重新进入步骤5-2将待选特征集合中任一特征与特征池中特征进行组合计算Q分数Top值匹配分数,否则输出当前特征池中特征集合为最佳特征集合,记为PF,PF={pf1,…,pfw,…,pfW},W表示最佳特征集合中特征总数。
7.根据权利要求6所述的基于拓扑及文献特征的知识关联网络关键节点发现方法,其特征在于,所述步骤6包括:
步骤6-1、对文献库X执行步骤1~步骤4,获取文献库X的文献-实体匹配关系,文献库X中所有文献的实体集合取并集得到文件库X的实体集合Sx,记Sx={s1x,s2x,…,snx,…,sNx},其中Nx表示所述文件库X的实体集合Sx的实体总数量,snx表示实体集合Sx中的实体,1≤nx≤Nx;建立知识关联网络,计算文献库X的知识关联网络中各个节点snx的拓扑特征和文献特征;
步骤6-2、根据公式
R(snx,pfw)=1~Nx
计算节点snx在最佳特征集合PF中特征pfw的排名值和排名占比r′(snx,pfw),简记r′(snx,pfw)=r′w,将节点snx在最佳特征集合PF中所有特征的排名占比按从小到大排序,记为(r1,r2,…,rW),依据如下迭代公式
Q′(r1,r2,…,rW)=W!VW
依据公式
8.根据权利要求1所述的基于拓扑及文献特征的知识关联网络关键节点发现方法,其特征在于,所述步骤1中所述多模匹配算法为AC自动机算法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011474017.2A CN112650832B (zh) | 2020-12-14 | 2020-12-14 | 基于拓扑及文献特征的知识关联网络关键节点发现方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011474017.2A CN112650832B (zh) | 2020-12-14 | 2020-12-14 | 基于拓扑及文献特征的知识关联网络关键节点发现方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112650832A true CN112650832A (zh) | 2021-04-13 |
CN112650832B CN112650832B (zh) | 2022-09-06 |
Family
ID=75354043
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011474017.2A Active CN112650832B (zh) | 2020-12-14 | 2020-12-14 | 基于拓扑及文献特征的知识关联网络关键节点发现方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112650832B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017140233A1 (zh) * | 2016-02-18 | 2017-08-24 | 腾讯科技(深圳)有限公司 | 文字检测方法及***、设备、存储介质 |
CN109543358A (zh) * | 2019-01-11 | 2019-03-29 | 西安电子科技大学 | Gpu上kd树的射线追踪加速***及kd树输出方法 |
WO2019192397A1 (zh) * | 2018-04-04 | 2019-10-10 | 华中科技大学 | 一种任意形状的场景文本端到端识别方法 |
CN110334154A (zh) * | 2019-06-28 | 2019-10-15 | 阿里巴巴集团控股有限公司 | 基于区块链的分级存储方法及装置、电子设备 |
-
2020
- 2020-12-14 CN CN202011474017.2A patent/CN112650832B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017140233A1 (zh) * | 2016-02-18 | 2017-08-24 | 腾讯科技(深圳)有限公司 | 文字检测方法及***、设备、存储介质 |
WO2019192397A1 (zh) * | 2018-04-04 | 2019-10-10 | 华中科技大学 | 一种任意形状的场景文本端到端识别方法 |
CN109543358A (zh) * | 2019-01-11 | 2019-03-29 | 西安电子科技大学 | Gpu上kd树的射线追踪加速***及kd树输出方法 |
CN110334154A (zh) * | 2019-06-28 | 2019-10-15 | 阿里巴巴集团控股有限公司 | 基于区块链的分级存储方法及装置、电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN112650832B (zh) | 2022-09-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11810648B2 (en) | Systems and methods for adaptive local alignment for graph genomes | |
Yan et al. | Bright: A bridging algorithm for network alignment | |
JP3934325B2 (ja) | 文書検索方法、文書検索装置及び文書検索プログラムの記憶媒体 | |
JP5212610B2 (ja) | 代表画像又は代表画像群の表示システム、その方法、およびそのプログラム並びに、代表画像又は代表画像群の選択システム、その方法およびそのプログラム | |
CN110189831B (zh) | 一种基于动态图序列的病历知识图谱构建方法及*** | |
CN106383836B (zh) | 将可操作属性归于描述个人身份的数据 | |
US7308436B2 (en) | Distributed data mining and compression method and system | |
WO2006133050A2 (en) | Relationship networks | |
WO2018218788A1 (zh) | 一种基于全局种子打分优选的三代测序序列比对方法 | |
CN113535974A (zh) | 诊断推荐方法及相关装置、电子设备、存储介质 | |
CN109033132B (zh) | 利用知识图谱计算文本和主体相关度的方法以及装置 | |
CN113282834A (zh) | 基于移动互联网数据深度挖掘的网页搜索智能排序方法、***和计算机存储介质 | |
CN111291163B (zh) | 一种基于症状特征的疾病知识图谱检索方法 | |
CN115439139A (zh) | 一种基于电商大数据的用户兴趣分析方法 | |
CN107133274B (zh) | 一种基于图知识库的分布式信息检索集合选择方法 | |
CN112784049B (zh) | 一种面向文本数据的在线社交平台多元知识获取方法 | |
CN111259176B (zh) | 融合有监督信息的基于矩阵分解的跨模态哈希检索方法 | |
CN112162986B (zh) | 一种并行top-k范围skyline查询方法和*** | |
CN112650832B (zh) | 基于拓扑及文献特征的知识关联网络关键节点发现方法 | |
CN113127736A (zh) | 一种基于搜索历史记录的分类推荐方法及装置 | |
CN113361928A (zh) | 一种基于异构图注意力网络的众包任务推荐方法 | |
JP4059970B2 (ja) | 情報源推薦装置 | |
CN117271894A (zh) | 一种基于混合网络与dpp的论文推荐方法 | |
Vijaya et al. | LionRank: lion algorithm-based metasearch engines for re-ranking of webpages | |
CN111309930A (zh) | 一种基于表示学习的医学知识图谱实体对齐方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |