CN112417166A - 一种知识图谱三元组置信度评价方法 - Google Patents
一种知识图谱三元组置信度评价方法 Download PDFInfo
- Publication number
- CN112417166A CN112417166A CN202011309998.5A CN202011309998A CN112417166A CN 112417166 A CN112417166 A CN 112417166A CN 202011309998 A CN202011309998 A CN 202011309998A CN 112417166 A CN112417166 A CN 112417166A
- Authority
- CN
- China
- Prior art keywords
- entity
- confidence
- node
- knowledge
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
- G16B50/30—Data warehousing; Computing architectures
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biophysics (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioethics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Animal Behavior & Ethology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明的知识图谱三元组置信度评价方法,包括评估阶段、融合阶段和校验阶段,a).实体层面评估;a‑1).数据源角度;a‑2).文献共现角度;a‑3).外链规模角度;a‑4).文本描述角度;a‑5).实体重要性角度;a‑6).实体的度的角度;b).关系层面评估;b‑1).数据源角度;b‑2).文献共现角度;b‑3).对实体间已知关系层面的评价;b‑4).对实体间未知关系层面的评价;c).知识图谱全局层面评估。本发明的知识图谱三元组置信度评价方法,可高效、快速、大规模的发掘知识图谱数据中的错误,进而提升整个知识图谱***的数据质量;可以对链接预测、关系推理等机器学习任务的结果进行数据可靠性校验。
Description
技术领域
本发明涉及一种知识图谱三元组置信度评价方法,更具体的说,尤其涉及一种包含评估阶段、融合阶段和校验阶段的知识图谱三元组置信度评价方法。
背景技术
不同靶点、药物作为实体,靶点、药物之间的相互作用作为关系,将相关知识以属性的形式存储于实体和关系中,相互交织形成一个巨大的图谱,并支持查询、推理、智能分析等功能,该图谱就被称为“药物-靶点知识图谱(Drug-Target Knowledge Graph,DTKG)”。DT KG在有效揭示药物-靶点之间复杂的物理、生物化学作用规律,发现药物-靶点之间尚未发现的隐含作用关系,进而发现新型药物或者开发现有药物的新用途是生物医药领域知识图谱研究的重要方向。
知识图谱在构建过程中难免出现错误。为了发现知识图谱中的错误,提高知识图谱的质量,进而提升知识驱动的学习任务的性能,学界引入知识图谱三元组置信度的概念。知识图谱三元组置信度(KG triple trustworthiness),用于衡量三元组所表达知识的真实程度。知识图谱三元组置信度的取值范围为[0,1],值越接近0表示该三元组是错误的概率越大,反之,值越接近1则表示该三元组是真实的概率越大。
现有的知识图谱三元组置信度评价方法可以概括为3类,分类原则是按照知识图谱三元组置信度评价方法的适用阶段来划分的,如图1中1、2和3所示。第一类置信度评价方法用于“从文本数据中抽取三元组”的过程,典型的案例有:德国***普朗克信息研究中心的Knowlife知识库。第二类置信度评价方法用于Embedding过程,Embedding旨在将所有实体和关系编码成连续的向量空间。在Embedding过程中进行置信度评价并剔除数据噪声是近年科研人员研究的热点,典型的方法有:SCEF(a novel support-confidence-awareKG embedding framework)、CKRL(a novel confidence-aware knowledgerepresentation learning framework)、TransT(a novel translating embeddinglearning approach with triple trustiness)等。第三类置信度评价方法直接对三元组进行评估,可以衡量知识推理得到的三元组的可靠性,同时也适用于动态知识库的置信度评价。典型的方法有:KGTtm(a knowledge graph triple trustworthiness measurementmodel)、CTransE(knowledge graph embedding on uncertain knowledge graphs byusing adapting confidence-margin-based loss function for translation-basedmodels)等。
现有的知识图谱三元组置信度评价方法如表1所示,、列举了7种方法:
表1
方法名称 | 适用阶段 | 年份 |
KnowLife | 从文本中提取实体及关系 | 2015 |
SCEF | Embedding | 2019 |
KGTtm | 三元组 | 2019 |
TransT | Embedding | 2019 |
CKRL | Embedding | 2018 |
ConfGCN | 节点属性预测 | 2019 |
CTransE | Embedding | 2019 |
(1)KnowLife实现了一种通用且可扩展的自动构建生物医学知识库的方法,它从科学出版物、健康门户网站和在线社区资源中自动提取信息,并在自动信息提取过程中引入置信度评价规则,用于定量衡量抽取得到的实体及关系数据的可靠性,从而提高生物医学知识库的质量。
(2)SCEF是一种支持置信度感知的知识图嵌入框架,该框架在传统的基于翻译模型的基础上,结合置信度构建能量函数,通过具有三重置信度(文本、知识图和三元组)的知识表示学习来实现知识图的完善和矫正。
(3)KGTtm是一个知识图谱三元组置信度的度量模型,它从实体层面、关系层面和知识图谱全局层面量化三元组的语义正确性和所表达事实的真实程度。
(4)TransT是一种基于实体类型、实体描述等信息计算三元组置信度的模型,它通过基于交叉熵的损失函数来优化模型,进而提高知识嵌入学习的性能。
(5)CKRL是一种基于置信度的知识表示学习框架,它引入了基于结构信息的置信度的概念,通过使用三元组的实体、关系和实体间路径的向量信息构建能量方程,提升了知识表示学习和知识图谱噪声探测的效果。
(6)ConfGCN模型用于“预测节点属性”任务的可靠性,可以用于评估图中节点标签的得分及其置信度。
(7)CTransE是一种基于翻译的模型,它用于处理知识图在自动更新时引入的错误,该模型采用基于置信度的损失函数来完成对动态知识图的嵌入表示学习。
但现有的知识图谱三元组置信度评价方法存在如下缺点:
1、考虑因素不全面,置信度得分不可靠。现有置信度评价方法考虑了知识图谱全局层面、实体层面和关系层面的置信度影响因素,但是未将科研文献、数据来源两个因素考虑在内,这导致最终得到的置信度得分不可靠。
2、计算复杂度高,可解释性差。现有方法通过机器学习模型评价三元组置信度(例如:KGTtm基于RNN进行知识图谱全局层面的置信度评价,SemaTyP通过构建逻辑回归模型进行置信度评价),模型计算复杂度高,且可解释性差。
3、置信度评价局限于Embedding过程。现有的绝大多数置信度评价方法适用于Embedding过程中,这些方法无法直接评价通过知识推理和自动化方法构建的三元组的质量。
发明内容
本发明为了克服上述技术问题的缺点,提供了一种知识图谱三元组置信度评价方法。
本发明的知识图谱三元组置信度评价方法,包括评估阶段、融合阶段和校验阶段,其特征在于:所述评估阶段通过以下步骤来实现:
a).实体层面评估;
a-1).数据源角度对实体的评价,待评估的实体包括化合物、疾病、蛋白质、基因、通路、细胞系、药品、产品、靶点、酶、蛋白质-化合物共计11种,对于每种实体的数据源置信度Nr参考关联开放数据云The Linked Open Data Cloud中的LOD打分,对于没有进行LOD打分的PubChem、RCSB PDB、DrugBank和DTO本体数据源分别给出5星、5星、5星和4星的打分;实体的数据源置信度Nr的取值等于LOD打分的星数,如果同一实体在2个或2个以上的数据源总出现,则其数据源置信度Nr取最高打分值;
a-2).文献共现角度对实体的评价,在文献库中查询与实体相关的文献,实体的文献共现角度置信度LCA通过公式(1)进行求取:
其中,LCA表示实体的文献共现角度置信度,N表示与实体相关的文献数目,F表示文献的影响因子,L为文献引用量,T为不同文献类别对应的打分值,i表示第i篇文献,α、β、θ表示权值;
a-3).外链规模角度对实体的评价,实体的外链规模置信度NL用生物医药知识图谱中实体外部链接的数量表示,实体外链规模越大,实体数据的可靠性越高,通过实体外链个数衡量实体的可信性,实体的外链规模置信度NL等于实体的外链数目;
a-4).文本描述角度对实体的评价,实体文本描述是对实体概念、类别、功能信息的描述,有文本描述的实体,它的数据可靠性更高;如果步骤的实体,如果a-1)中的数据源中存在相应实体的文字描述,则该实体的文本描述置信值D的取值为1,不存在则文本描述置信值D取值为0;
a-5).实体重要性角度对实体的评价,在生物医药知识图谱中实体节点被链接的数量和质量直接决定了该节点在整个图谱中的重要性;采用PageRank算法来衡量某个实体在知识图谱中的重要性,来表征实体重要性置信度,PageRank算法如公式(2)所示:
其中,P1、P2、…、Pi、…、Pn表示知识图谱中的节点,表示待研究节点Pj的入度,表示待研究节点Pj的出度,N表示知识图谱中的节点数,表示节点Pj的PageRank值,所有节点的PageRank值构成知识图的PageRank向量,q表示知识图中节点继续扩展的概率,其取值为0.5;
a-6).实体的度的角度对实体的评价,实体节点的入度和出度反映了知识图谱中实体信息的富集程度和实体与其它实体间的关联强度;实体的度的角度的置信度Ns通过公式(3)进行求取:
Ns=Nin+Nout (3)
其中,Ns表示实体的度的角度的置信度,Nin表示实体节点的入度,Nout表示实体节点的出度;
b).关系层面评估;
b-1).数据源角度对关系层面的评价,对于生物医药知识图谱中实体间的关系,通常用三元组(h,r,t)来表示,其中,h为头实体,t为尾实体,,r为实体间关系;如果三元组数据来自高质量的数据源,则表明两个实体间的关联性很强,三元组信息的置信度很高;关系层面的数据源置信度N′in参考关联开放数据云The Linked Open Data Cloud中的LOD打分,对于没有进行LOD打分的PubChem、RCSB PDB、DrugBank和DTO本体数据源分别给出5星、5星、5星和4星的打分;关系层面的数据源置信度N′in的取值等于LOD打分的星数,如果同一实体在2个或2个以上的数据源总出现,则其关系层面的数据源置信度N′in取最高打分值;
b-2).文献共现角度对关系层面的评价,在文献库中查询与实体对(h,t)相关的文献,实体对(h,t)的文献共现角度置信度LCA′通过公式(4)进行求取:
其中,LCA′表示实体对(h,t)的文献共现角度置信度,N′表示与实体对(h,t)相关的文献数目,F表示文献的影响因子,L为文献引用量,T为不同文献类别对应的打分值,i表示第i篇文献,α、β、θ表示权值;
b-3).对实体间已知关系层面的评价,生物医药知识图谱构建过程中创建的实体关系,称为已知关系,采用ResourceRank算法衡量已知关系的置信度,得到已知关系的置信度ResourceRank;
b-4).对实体间未知关系层面的评价,现有知识图谱中不存在的、需要通过推理得到的实体关系,称为未知关系;采用KSP算法衡量未知关系的置信度,通过图谱中两个实体间的前K条最短路径数目来评价关系强度,得到未知关系的置信度KSP;
c).知识图谱全局层面评估;
通过Ntotal/M对知识图谱全局层面进行评估,以衡量知识图谱全局层面的信息密度,进而评估整个知识图谱所含数据的可信度;其中Ntotal为知识图谱所有实体节点的总度数,总度数为所有实体节点入度和出度的和,M为知识图谱中实体节点的总数。
本发明的知识图谱三元组置信度评价方法,所述融合阶段通过以下步骤来实现:结合生物医药知识图谱数据质量情况、药物-靶点关系预测任务因素,生物医药知识图谱三元组置信值通过公式5求取:
其中,Confidence表示三元组置信值,其为正数,置信值越大,置信度越高;Confidence置信值由实体层面、关系层面和知识图谱全局三个层面的11个置信度评估器加权得到,最终将置信值归一化到[0,1]区间;在指定的知识图谱中,若置信值小于阈值0.6,则表明该三元组的数据是不可靠的。
本发明的知识图谱三元组置信度评价方法,所述校验阶段用于评估知识图谱三元组最终的置信值是否合理,进而优化评估器及融合器的设计;校验器包含专家抽样校验和自动化校验两种方法;专家抽样校验:专家抽样校验方法借助医药领域专家进行人工校验,专家校验的范围是:置信值得分处于[0.9,1]范围内、且三元组中包含现有药物或热门靶点的数据;专家校验的方法是:对三元组所涉及的药物、靶点进行研究,根据专业知识和经验核定高置信值的三元组数据是否可靠;
自动化校验:自动化校验方法是借助分子对接技术对三元组的置信值进行校验,自动化校验的范围是:置信值的范围是[0.6,0.9],随机采样其中10%的三元组;自动化校验的方法是:采用Discovery Studio 2018Client中的LibDock和GOLD打分函数对三元组涉及的药物-靶点数据进行分子对接计算,根据最终的打分值判断置信值是否可靠;
校验阶段的结果会反馈给评估阶段和融合阶段,对于校验结果和置信值严重负相关的数据,深入调研其原因,进而对融合阶段各方法的权重进行调整,从而完善整套知识图谱三元组置信度评价方法。
本发明的知识图谱三元组置信度评价方法,步骤a-2)和步骤b-2)中的文献库包括CAS、Patent、PubMed、Wikipedia和DOI,所述的取值α、β、θ的取值分别为0.7、0.2和0.1;不同文献类别对应的打分值T如表1所示:
表1
文献类别 | 打分值 |
CAS | 1.0 |
Patent | 0.8 |
PubMed | 1.0 |
Wikipedia | 0.5 |
DOI | 1.0 |
。
本发明的知识图谱三元组置信度评价方法,步骤b-3)中的已知关系对关系层面的评价过程中,采用ResourceRank算法衡量已知关系的置信度;ResourceRank算法用于刻画两个实体间的关联强度,该算法的思路是:如果实体对(h,t)之间的关联性很强,那么会有非常多的资源从头部实体h,通过所有关联路径传递到尾部实体t;具体通过以下步骤来实现:
b-3-1).构建一个以头实体h为中心的有向图;
b-3-2).利用公式(6)迭代计算图中的资源,直到其收敛,并计算尾实体t的资源保留值;
其中,Mt是所有通向尾结点t的集合,OD(ei)是节点ei的出度,BWeit是节点ei到尾结点t的带宽,带宽即路径数目;对于Mt中每个节点ei,从节点ei到尾结点t转移的资源量为设每个节点的资源流都有相同的η概率可以直接跳转到随机节点,并且随机流向尾节点t的这部分资源是1/N,N是节点总个数;
b-3-3).利用步骤b-3-2)中的R(t|h)、头节点h的入度ID(h)、头结点h的出度OD(h)、尾节点t的入度ID(t)、尾节点t的出度OD(t)、头结点到尾节点的深度Dep,总计6个特征构造特征向量V,并通过激活函数将V转换成概率值RR(h,t),RR(h,t)即为置信度ResourceRank,用于衡量头结点h和尾节点t之间存在一个或多个关系的可能性,其通过公式(7)进行求取:
其中,φ是非线性激活函数,Wi和bi是训练时可以调节的参数矩阵,RR(h,t)值的范围在[0,1]之间,其值越接近1表明h和t之间越有可能存在关系。
本发明的有益效果是:本发明的知识图谱三元组置信度评价方法,首先,评估阶段从实体、关系和知识图谱全局三个层面,数据源、文献共现、外链规模、文本描述、实体重要性、实体的度多个角度对三元组的置信度进行评价,得到11个置信度,然后,校验阶段,将11个置信度评估器加权融合得到最终的置信值,校验阶段对最终的置信值的合理性进行校验,并将校验的结果反馈给评估阶段和融合阶段,用于优化评估阶段的设计,或者调整融合阶段的权重。可见,本本发明的知识图谱三元组置信度评价方法,可高效、快速、大规模的发掘知识图谱数据中的错误,进而提升整个知识图谱***的数据质量;可以对链接预测、关系推理等机器学习任务的结果进行数据可靠性校验。
附图说明
图1为三类置信度评价方法的适用阶段的示意图;
图2为本发明的知识图谱三元组置信度评价方法原理架构图;
图3为本发明中ResourceRank算法原理示意图;
图4为评估阶段计算置信度的典型案例示意图。
具体实施方式
下面结合附图与实施例对本发明作进一步说明。
如图2所示,给出了本发明的知识图谱三元组置信度评价方法原理架构图,本发明的知识图谱三元组置信度评价方法用于评估生物医药知识图谱中三元组的可靠程度,知识图谱三元组置信度评价方法包含:评估器、融合器和校验器三个阶段,知识图谱三元组数据经过评估器会产生多个置信值打分,融合器按照一定权重将多个打分融合,生成最终的置信值。校验器会对最终的置信值的合理性进行校验,并将校验的结果反馈给评估器和融合器,用于优化评估器的设计,或者调整融合器的权重。
评估器从实体、关系和知识图谱全局等三个层面,数据源、文献共现、外链规模、文本描述、实体重要性、实体的度多个角度对三元组的置信度进行评价,具体方法如表2所示:
表2
本发明的知识图谱三元组置信度评价方法,包括评估阶段、融合阶段和校验阶段,其特征在于:所述评估阶段通过以下步骤来实现:
a).实体层面评估;
a-1).数据源角度对实体的评价,待评估的实体包括化合物、疾病、蛋白质、基因、通路、细胞系、药品、产品、靶点、酶、蛋白质-化合物共计11种,对于每种实体的数据源置信度Nr参考关联开放数据云The Linked Open Data Cloud中的LOD打分,对于没有进行LOD打分的PubChem、RCSB PDB、DrugBank和DTO本体数据源分别给出5星、5星、5星和4星的打分;实体的数据源置信度Nr的取值等于LOD打分的星数,如果同一实体在2个或2个以上的数据源总出现,则其数据源置信度Nr取最高打分值;
如表3所示,给出了LOD数据源质量评价表:
a-2).文献共现角度对实体的评价,在文献库中查询与实体相关的文献,实体的文献共现角度置信度LCA通过公式(1)进行求取:
其中,LCA表示实体的文献共现角度置信度,N表示与实体相关的文献数目,F表示文献的影响因子,L为文献引用量,T为不同文献类别对应的打分值,i表示第i篇文献,α、β、θ表示权值;
该步骤中,文献库包括CAS、Patent、PubMed、Wikipedia和DOI,所述的取值α、β、θ的取值分别为0.7、0.2和0.1;不同文献类别对应的打分值T如表1所示:
表1
a-3).外链规模角度对实体的评价,实体的外链规模置信度NL用生物医药知识图谱中实体外部链接的数量表示,实体外链规模越大,实体数据的可靠性越高,通过实体外链个数衡量实体的可信性,实体的外链规模置信度NL等于实体的外链数目;
a-4).文本描述角度对实体的评价,实体文本描述是对实体概念、类别、功能信息的描述,有文本描述的实体,它的数据可靠性更高;如果步骤的实体,如果a-1)中的数据源中存在相应实体的文字描述,则该实体的文本描述置信值D的取值为1,不存在则文本描述置信值D取值为0;
a-5).实体重要性角度对实体的评价,在生物医药知识图谱中实体节点被链接的数量和质量直接决定了该节点在整个图谱中的重要性;采用PageRank算法来衡量某个实体在知识图谱中的重要性,来表征实体重要性置信度,PageRank算法如公式(2)所示:
其中,P1、P2、…、Pi、…、Pn表示知识图谱中的节点,表示待研究节点Pj的入度,表示待研究节点Pj的出度,N表示知识图谱中的节点数,表示节点Pj的PageRank值,所有节点的PageRank值构成知识图的PageRank向量,q表示知识图中节点继续扩展的概率,其取值为0.5;
a-6).实体的度的角度对实体的评价,实体节点的入度和出度反映了知识图谱中实体信息的富集程度和实体与其它实体间的关联强度;实体的度的角度的置信度Ns通过公式(3)进行求取:
Ns=Nin+Nout (3)
其中,Ns表示实体的度的角度的置信度,Nin表示实体节点的入度,Nout表示实体节点的出度;
b).关系层面评估;
b-1).数据源角度对关系层面的评价,对于生物医药知识图谱中实体间的关系,通常用三元组(h,r,t)来表示,其中,h为头实体,t为尾实体,r为实体间关系;如果三元组数据来自高质量的数据源,则表明两个实体间的关联性很强,三元组信息的置信度很高;关系层面的数据源置信度N′in参考关联开放数据云The Linked Open Data Cloud中的LOD打分,对于没有进行LOD打分的PubChem、RCSB PDB、DrugBank和DTO本体数据源分别给出5星、5星、5星和4星的打分;关系层面的数据源置信度N′in的取值等于LOD打分的星数,如果同一实体在2个或2个以上的数据源总出现,则其关系层面的数据源置信度N′in取最高打分值;
b-2).文献共现角度对关系层面的评价,在文献库中查询与实体对(h,t)相关的文献,实体对(h,t)的文献共现角度置信度LCA′通过公式(4)进行求取:
其中,LCA′表示实体对(h,t)的文献共现角度置信度,N′表示与实体对(h,t)相关的文献数目,F表示文献的影响因子,L为文献引用量,T为不同文献类别对应的打分值,i表示第i篇文献,α、β、θ表示权值;
b-3).对实体间已知关系层面的评价,生物医药知识图谱构建过程中创建的实体关系,称为已知关系,采用ResourceRank算法衡量已知关系的置信度,得到已知关系的置信度ResourceRank;
如图3所示,给出了本发明中ResourceRank算法原理示意图,从节点(实体)A到节点E的边(关系)非常密集,这说明(A,E)两个实体间存在较高的关联强度,实体A和E之间存在关系。但是,节点G和节点F之间没有直接关联的边,这说明实体G和F之间不存在关系。
该步骤中,采用ResourceRank算法衡量已知关系的置信度;ResourceRank算法用于刻画两个实体间的关联强度,该算法的思路是:如果实体对(h,t)之间的关联性很强,那么会有非常多的资源从头部实体h,通过所有关联路径传递到尾部实体t;具体通过以下步骤来实现:
b-3-1).构建一个以头实体h为中心的有向图;
b-3-2).利用公式(6)迭代计算图中的资源,直到其收敛,并计算尾实体t的资源保留值;
其中,Mt是所有通向尾结点t的集合,OD(ei)是节点ei的出度,是节点ei到尾结点t的带宽,带宽即路径数目;对于Mt中每个节点ei,从节点ei到尾结点t转移的资源量为设每个节点的资源流都有相同的η概率可以直接跳转到随机节点,并且随机流向尾节点t的这部分资源是1/N,N是节点总个数;
b-3-3).利用步骤b-3-2)中的R(t|h)、头节点h的入度ID(h)、头结点h的出度OD(h)、尾节点t的入度ID(t)、尾节点t的出度OD(t)、头结点到尾节点的深度Dep,总计6个特征构造特征向量V,并通过激活函数将V转换成概率值RR(h,t),RR(h,t)即为置信度ResourceRank,用于衡量头结点h和尾节点t之间存在一个或多个关系的可能性,其通过公式(7)进行求取:
其中,φ是非线性激活函数,Wi和bi是训练时可以调节的参数矩阵,RR(h,t)值的范围在[0,1]之间,其值越接近1表明h和t之间越有可能存在关系。
b-4).对实体间未知关系层面的评价,现有知识图谱中不存在的、需要通过推理得到的实体关系,称为未知关系;采用KSP算法衡量未知关系的置信度,通过图谱中两个实体间的前K条最短路径数目来评价关系强度,得到未知关系的置信度KSP;
c).知识图谱全局层面评估;
通过Ntotal/M对知识图谱全局层面进行评估,以衡量知识图谱全局层面的信息密度,进而评估整个知识图谱所含数据的可信度;其中Ntotal为知识图谱所有实体节点的总度数,总度数为所有实体节点入度和出度的和,M为知识图谱中实体节点的总数。
融合阶段通过以下步骤来实现:结合生物医药知识图谱数据质量情况、药物-靶点关系预测任务因素,生物医药知识图谱三元组置信值通过公式5求取:
其中,Confidence表示三元组置信值,其为正数,置信值越大,置信度越高;Confidence置信值由实体层面、关系层面和知识图谱全局三个层面的11个置信度评估器加权得到,最终将置信值归一化到[0,1]区间;在指定的知识图谱中,若置信值小于阈值0.6,则表明该三元组的数据是不可靠的。
校验阶段用于评估知识图谱三元组最终的置信值是否合理,进而优化评估器及融合器的设计;校验器包含专家抽样校验和自动化校验两种方法;专家抽样校验:专家抽样校验方法借助医药领域专家进行人工校验,专家校验的范围是:置信值得分处于[0.9,1]范围内、且三元组中包含现有药物或热门靶点的数据;专家校验的方法是:对三元组所涉及的药物、靶点进行研究,根据专业知识和经验核定高置信值的三元组数据是否可靠;
自动化校验:自动化校验方法是借助分子对接技术对三元组的置信值进行校验,自动化校验的范围是:置信值的范围是[0.6,0.9],随机采样其中10%的三元组;自动化校验的方法是:采用Discovery Studio 2018Client中的LibDock和GOLD打分函数对三元组涉及的药物-靶点数据进行分子对接计算,根据最终的打分值判断置信值是否可靠;
校验阶段的结果会反馈给评估阶段和融合阶段,对于校验结果和置信值严重负相关的数据,深入调研其原因,进而对融合阶段的权重进行调整,从而完善整套知识图谱三元组置信度评价方法。
如图4所示,给出了评估阶段计算置信度的典型案例示意图,以(去甲肾上腺素,结合分子实体,β2肾上腺素能受体)三元组为例,简述评估器计算置信度的过程:实体层面,用基于平移的能量函数算法(TEF)计算去甲肾上腺素和β2肾上腺素能受体存在结合关系的可能性。首先计算(去甲肾上腺素,结合分子实体,β2肾上腺素能受体)三元组的能量函数,以实现实体和关系的低维分布式表示。然后利用sigmoid函数将能量函数转换成实体对(去甲肾上腺素,β2肾上腺素能受体)构成结合分子实体关系的概率,通过得到的概率值来衡量两个实体存在结合关系的可能性。关系层面,用ResourceRank算法计算药物和靶点的关系类型和关联强度。ResourceRank算法以去甲肾上腺素和β2肾上腺素能受体为中心节点建立一个深度为2的子图,然后基于生成的子图计算由头实体(去甲肾上腺素)流入尾实体(β2肾上腺素能受体)的资源数量,如果实体对(去甲肾上腺素,β2肾上腺素能受体)之间的关联性很强,那么会有非常多的资源从头实体(去甲肾上腺素),通过所有关联路径传递到尾实体(β2肾上腺素能受体)。数据源层面,DataSource算法,对三元组所在的药物靶点本体(DrugTarget Ontology)、蛋白质本体(PRotein Ontology)、UniProt的数据源进行综合的质量评价。首先,在药物靶点本体、蛋白质本体和UniProt数据源中均包含(去甲肾上腺素,结合分子实体,β2肾上腺素能受体)三元组的数据。其次,这一数据在三个数据源中的质量是有差异的,DataSource算法参照关联开放数据云(LOD,The Linked Open Data Cloud)中对不同数据源质量的打分制定了《LOD数据源质量评价表》,根据既定的规则实现数据源层面的置信度评价。文献共现层面,文献共现算法(LCO)用文献共现次数定量标识实体对的关联强度。首先,算法筛选出包含(去甲肾上腺素,结合分子实体,β2肾上腺素能受体)三元组的文献。然后,以文献数目为主,并参照文献的影响因子、引用量、期刊类别等信息按照一定权重进行加权计算,最终得到用于标识实体对关联强度的置信值。知识图结构层面,可达路径推理算法(RP)用于评价有向图中头尾实体之间存在的语义相关性和三元组之间蕴含的复杂推理模式。首先,考虑路径与目标三元组的语义相关性因素,基于语义距离的路径选择算法进行可达路径的选择。接着,将选定的可达路径映射到一个低维向量,利用递归神经网络(RNN)得到最终的输出向量,它可以表示每条路径的语义信息。最后,将向量进行非线性处理得到值RP((h,r,t)),用来表示知识图谱中图结构层面的置信度。
Claims (5)
1.一种知识图谱三元组置信度评价方法,包括评估阶段、融合阶段和校验阶段,其特征在于:所述评估阶段通过以下步骤来实现:
a).实体层面评估;
a-1).数据源角度对实体的评价,待评估的实体包括化合物、疾病、蛋白质、基因、通路、细胞系、药品、产品、靶点、酶、蛋白质-化合物共计11种,对于每种实体的数据源置信度Nr参考关联开放数据云The Linked Open Data Cloud中的LOD打分,对于没有进行LOD打分的PubChem、RCSB PDB、DrugBank和DTO本体数据源分别给出5星、5星、5星和4星的打分;实体的数据源置信度Nr的取值等于LOD打分的星数,如果同一实体在2个或2个以上的数据源总出现,则其数据源置信度Nr取最高打分值;
a-2).文献共现角度对实体的评价,在文献库中查询与实体相关的文献,实体的文献共现角度置信度LCA通过公式(1)进行求取:
其中,LCA表示实体的文献共现角度置信度,N表示与实体相关的文献数目,F表示文献的影响因子,L为文献引用量,T为不同文献类别对应的打分值,i表示第i篇文献,α、β、θ表示权值;
a-3).外链规模角度对实体的评价,实体的外链规模置信度NL用生物医药知识图谱中实体外部链接的数量表示,实体外链规模越大,实体数据的可靠性越高,通过实体外链个数衡量实体的可信性,实体的外链规模置信度NL等于实体的外链数目;
a-4).文本描述角度对实体的评价,实体文本描述是对实体概念、类别、功能信息的描述,有文本描述的实体,它的数据可靠性更高;如果步骤的实体,如果a-1)中的数据源中存在相应实体的文字描述,则该实体的文本描述置信值D的取值为1,不存在则文本描述置信值D取值为0;
a-5).实体重要性角度对实体的评价,在生物医药知识图谱中实体节点被链接的数量和质量直接决定了该节点在整个图谱中的重要性;采用PageRank算法来衡量某个实体在知识图谱中的重要性,来表征实体重要性置信度,PageRank算法如公式(2)所示:
其中,P1、P2、…、Pi、…、Pn表示知识图谱中的节点,表示待研究节点Pj的入度,表示待研究节点Pj的出度,N表示知识图谱中的节点数,表示节点Pj的PageRank值,所有节点的PageRank值构成知识图的PageRank向量,q表示知识图中节点继续扩展的概率,其取值为0.5;
a-6).实体的度的角度对实体的评价,实体节点的入度和出度反映了知识图谱中实体信息的富集程度和实体与其它实体间的关联强度;实体的度的角度的置信度Ns通过公式(3)进行求取:
Ns=Nin+Nout (3)
其中,Ns表示实体的度的角度的置信度,Nin表示实体节点的入度,Nout表示实体节点的出度;
b).关系层面评估;
b-1).数据源角度对关系层面的评价,对于生物医药知识图谱中实体间的关系,通常用三元组(h,r,t)来表示,其中,h为头实体,t为尾实体,r为实体间关系;如果三元组数据来自高质量的数据源,则表明两个实体间的关联性很强,三元组信息的置信度很高;关系层面的数据源置信度N′in参考关联开放数据云The Linked Open Data Cloud中的LOD打分,对于没有进行LOD打分的PubChem、RCSB PDB、DrugBank和DTO本体数据源分别给出5星、5星、5星和4星的打分;关系层面的数据源置信度N′in的取值等于LOD打分的星数,如果同一实体在2个或2个以上的数据源总出现,则其关系层面的数据源置信度N′in取最高打分值;
b-2).文献共现角度对关系层面的评价,在文献库中查询与实体对(h,t)相关的文献,实体对(h,t)的文献共现角度置信度LCA′通过公式(4)进行求取:
其中,LCA′表示实体对(h,t)的文献共现角度置信度,N′表示与实体对(h,t)相关的文献数目,F表示文献的影响因子,L为文献引用量,T为不同文献类别对应的打分值,i表示第i篇文献,α、β、θ表示权值;
b-3).对实体间已知关系层面的评价,生物医药知识图谱构建过程中创建的实体关系,称为已知关系,采用ResourceRank算法衡量已知关系的置信度,得到已知关系的置信度ResourceRank;
b-4).对实体间未知关系层面的评价,现有知识图谱中不存在的、需要通过推理得到的实体关系,称为未知关系;采用KSP算法衡量未知关系的置信度,通过图谱中两个实体间的前K条最短路径数目来评价关系强度,得到未知关系的置信度KSP;
c).知识图谱全局层面评估;
通过Ntotal/M对知识图谱全局层面进行评估,以衡量知识图谱全局层面的信息密度,进而评估整个知识图谱所含数据的可信度;其中Ntotal为知识图谱所有实体节点的总度数,总度数为所有实体节点入度和出度的和,M为知识图谱中实体节点的总数。
3.根据权利要求2所述的知识图谱三元组置信度评价方法,其特征在于:所述校验阶段用于评估知识图谱三元组最终的置信值是否合理,进而优化评估器及融合器的设计;校验器包含专家抽样校验和自动化校验两种方法;专家抽样校验:专家抽样校验方法借助医药领域专家进行人工校验,专家校验的范围是:置信值得分处于[0.9,1]范围内、且三元组中包含现有药物或热门靶点的数据;专家校验的方法是:对三元组所涉及的药物、靶点进行研究,根据专业知识和经验核定高置信值的三元组数据是否可靠;
自动化校验:自动化校验方法是借助分子对接技术对三元组的置信值进行校验,自动化校验的范围是:置信值的范围是[0.6,0.9],随机采样其中10%的三元组;自动化校验的方法是:采用Discovery Studio 2018 Client中的LibDock和GOLD打分函数对三元组涉及的药物-靶点数据进行分子对接计算,根据最终的打分值判断置信值是否可靠;
校验阶段的结果会反馈给评估阶段和融合阶段,对于校验结果和置信值严重负相关的数据,深入调研其原因,进而对融合阶段各方法的权重进行调整,从而完善整套知识图谱三元组置信度评价方法。
4.根据权利要求1或2所述的知识图谱三元组置信度评价方法,其特征在于:步骤a-2)和步骤b-2)中的文献库包括CAS、Patent、PubMed、Wikipedia和DOI,所述的取值α、β、θ的取值分别为0.7、0.2和0.1;不同文献类别对应的打分值T如表1所示:
表1
5.根据权利要求1或2所述的知识图谱三元组置信度评价方法,其特征在于:步骤b-3)中的已知关系对关系层面的评价过程中,采用ResourceRank算法衡量已知关系的置信度;ResourceRank算法用于刻画两个实体间的关联强度,该算法的思路是:如果实体对(h,t)之间的关联性很强,那么会有非常多的资源从头部实体h,通过所有关联路径传递到尾部实体t;具体通过以下步骤来实现:
b-3-1).构建一个以头实体h为中心的有向图;
b-3-2).利用公式(6)迭代计算图中的资源,直到其收敛,并计算尾实体t的资源保留值;
其中,Mt是所有通向尾结点t的集合,OD(ei)是节点ei的出度,是节点ei到尾结点t的带宽,带宽即路径数目;对于Mt中每个节点ei,从节点ei到尾结点t转移的资源量为设每个节点的资源流都有相同的η概率可以直接跳转到随机节点,并且随机流向尾节点t的这部分资源是1/N,N是节点总个数;
b-3-3).利用步骤b-3-2)中的R(t|h)、头节点h的入度ID(h)、头结点h的出度OD(h)、尾节点t的入度ID(t)、尾节点t的出度OD(t)、头结点到尾节点的深度Dep,总计6个特征构造特征向量V,并通过激活函数将V转换成概率值RR(h,t),RR(h,t)即为置信度ResourceRank,用于衡量头结点h和尾节点t之间存在一个或多个关系的可能性,其通过公式(7)进行求取:
其中,φ是非线性激活函数,Wi和bi是训练时可以调节的参数矩阵,RR(h,t)值的范围在[0,1]之间,其值越接近1表明h和t之间越有可能存在关系。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011309998.5A CN112417166B (zh) | 2020-11-20 | 2020-11-20 | 一种知识图谱三元组置信度评价方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011309998.5A CN112417166B (zh) | 2020-11-20 | 2020-11-20 | 一种知识图谱三元组置信度评价方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112417166A true CN112417166A (zh) | 2021-02-26 |
CN112417166B CN112417166B (zh) | 2022-08-26 |
Family
ID=74774496
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011309998.5A Active CN112417166B (zh) | 2020-11-20 | 2020-11-20 | 一种知识图谱三元组置信度评价方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112417166B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113204650A (zh) * | 2021-05-14 | 2021-08-03 | 深圳市曙光信息技术有限公司 | 基于领域知识图谱的评价方法及*** |
CN115860152A (zh) * | 2023-02-20 | 2023-03-28 | 南京星耀智能科技有限公司 | 一种面向人物军事知识发现的跨模态联合学习方法 |
CN116110594A (zh) * | 2022-12-02 | 2023-05-12 | 北京交通大学 | 基于关联文献的医学知识图谱的知识评价方法及*** |
CN116187868A (zh) * | 2023-04-27 | 2023-05-30 | 深圳市迪博企业风险管理技术有限公司 | 一种基于知识图谱的产业链发展质量评价方法及装置 |
CN116501915A (zh) * | 2023-06-29 | 2023-07-28 | 长江三峡集团实业发展(北京)有限公司 | 一种能量管理端语音页面检索方法及*** |
CN117725231A (zh) * | 2024-02-08 | 2024-03-19 | 中国电子科技集团公司第十五研究所 | 基于语义证据提示和置信度的内容生成方法和*** |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160163311A1 (en) * | 2014-12-09 | 2016-06-09 | Microsoft Technology Licensing, Llc | Communication system |
CN106355627A (zh) * | 2015-07-16 | 2017-01-25 | 中国石油化工股份有限公司 | 一种用于生成知识图谱的方法及*** |
US20180075359A1 (en) * | 2016-09-15 | 2018-03-15 | International Business Machines Corporation | Expanding Knowledge Graphs Based on Candidate Missing Edges to Optimize Hypothesis Set Adjudication |
CN109063021A (zh) * | 2018-07-12 | 2018-12-21 | 浙江大学 | 一种能够编码关系语义多样性结构的知识图谱分布式表示方法 |
US20180373989A1 (en) * | 2017-06-22 | 2018-12-27 | International Business Machines Corporation | Relation extraction using co-training with distant supervision |
CN110069638A (zh) * | 2019-03-12 | 2019-07-30 | 北京航空航天大学 | 一种结合规则和路径的知识图谱组合表示学习方法 |
US20190279104A1 (en) * | 2018-03-07 | 2019-09-12 | International Business Machines Corporation | Unit conversion in a synonym-sensitive framework for question answering |
CN110309310A (zh) * | 2018-02-12 | 2019-10-08 | 清华大学 | 基于置信度的知识表示学习方法 |
CN111177322A (zh) * | 2019-12-30 | 2020-05-19 | 成都数之联科技有限公司 | 一种领域知识图谱的本体模型构建方法 |
CN111625659A (zh) * | 2020-08-03 | 2020-09-04 | 腾讯科技(深圳)有限公司 | 知识图谱处理方法、装置、服务器及存储介质 |
CN111737481A (zh) * | 2019-10-10 | 2020-10-02 | 北京沃东天骏信息技术有限公司 | 知识图谱的降噪方法、装置、设备和存储介质 |
-
2020
- 2020-11-20 CN CN202011309998.5A patent/CN112417166B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160163311A1 (en) * | 2014-12-09 | 2016-06-09 | Microsoft Technology Licensing, Llc | Communication system |
CN106355627A (zh) * | 2015-07-16 | 2017-01-25 | 中国石油化工股份有限公司 | 一种用于生成知识图谱的方法及*** |
US20180075359A1 (en) * | 2016-09-15 | 2018-03-15 | International Business Machines Corporation | Expanding Knowledge Graphs Based on Candidate Missing Edges to Optimize Hypothesis Set Adjudication |
US20180373989A1 (en) * | 2017-06-22 | 2018-12-27 | International Business Machines Corporation | Relation extraction using co-training with distant supervision |
CN110309310A (zh) * | 2018-02-12 | 2019-10-08 | 清华大学 | 基于置信度的知识表示学习方法 |
US20190279104A1 (en) * | 2018-03-07 | 2019-09-12 | International Business Machines Corporation | Unit conversion in a synonym-sensitive framework for question answering |
CN109063021A (zh) * | 2018-07-12 | 2018-12-21 | 浙江大学 | 一种能够编码关系语义多样性结构的知识图谱分布式表示方法 |
CN110069638A (zh) * | 2019-03-12 | 2019-07-30 | 北京航空航天大学 | 一种结合规则和路径的知识图谱组合表示学习方法 |
CN111737481A (zh) * | 2019-10-10 | 2020-10-02 | 北京沃东天骏信息技术有限公司 | 知识图谱的降噪方法、装置、设备和存储介质 |
CN111177322A (zh) * | 2019-12-30 | 2020-05-19 | 成都数之联科技有限公司 | 一种领域知识图谱的本体模型构建方法 |
CN111625659A (zh) * | 2020-08-03 | 2020-09-04 | 腾讯科技(深圳)有限公司 | 知识图谱处理方法、装置、服务器及存储介质 |
Non-Patent Citations (4)
Title |
---|
JUN LIU ET AL.: "Topological analysis of knowledge maps", 《KNOWLEDGE-BASED SYSTEMS》 * |
WEIGUO ZHENG,HONG CHENG,JEFFREY XU YU,LEI ZOU: "Interactive natural language question answering over knowledge graphs", 《INFORMATION SCIENCES》 * |
徐增林,盛泳潘,贺丽荣,王雅芳: "知识图谱技术综述", 《电子科技大学学报》 * |
李涛等: "知识图谱的发展与构建", 《南京理工大学学报》 * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113204650A (zh) * | 2021-05-14 | 2021-08-03 | 深圳市曙光信息技术有限公司 | 基于领域知识图谱的评价方法及*** |
CN113204650B (zh) * | 2021-05-14 | 2022-03-11 | 深圳市曙光信息技术有限公司 | 基于领域知识图谱的评价方法及*** |
CN116110594A (zh) * | 2022-12-02 | 2023-05-12 | 北京交通大学 | 基于关联文献的医学知识图谱的知识评价方法及*** |
CN116110594B (zh) * | 2022-12-02 | 2024-05-07 | 北京交通大学 | 基于关联文献的医学知识图谱的知识评价方法及*** |
CN115860152A (zh) * | 2023-02-20 | 2023-03-28 | 南京星耀智能科技有限公司 | 一种面向人物军事知识发现的跨模态联合学习方法 |
CN116187868A (zh) * | 2023-04-27 | 2023-05-30 | 深圳市迪博企业风险管理技术有限公司 | 一种基于知识图谱的产业链发展质量评价方法及装置 |
CN116501915A (zh) * | 2023-06-29 | 2023-07-28 | 长江三峡集团实业发展(北京)有限公司 | 一种能量管理端语音页面检索方法及*** |
CN116501915B (zh) * | 2023-06-29 | 2023-10-20 | 长江三峡集团实业发展(北京)有限公司 | 一种能量管理端语音页面检索方法及*** |
CN117725231A (zh) * | 2024-02-08 | 2024-03-19 | 中国电子科技集团公司第十五研究所 | 基于语义证据提示和置信度的内容生成方法和*** |
CN117725231B (zh) * | 2024-02-08 | 2024-04-23 | 中国电子科技集团公司第十五研究所 | 基于语义证据提示和置信度的内容生成方法和*** |
Also Published As
Publication number | Publication date |
---|---|
CN112417166B (zh) | 2022-08-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112417166B (zh) | 一种知识图谱三元组置信度评价方法 | |
US11455474B2 (en) | Diagnosing sources of noise in an evaluation | |
Tang et al. | A pruning neural network model in credit classification analysis | |
CN112364880B (zh) | 基于图神经网络的组学数据处理方法、装置、设备及介质 | |
US20190130277A1 (en) | Ensembling of neural network models | |
Cantarella et al. | Multilayer feedforward networks for transportation mode choice analysis: An analysis and a comparison with random utility models | |
WO2020008919A1 (ja) | 機械学習装置及び方法 | |
Mendonça et al. | Approximating network centrality measures using node embedding and machine learning | |
CN113140254A (zh) | 元学习药物-靶点相互作用预测***及预测方法 | |
Wang et al. | Editorial behaviors in peer review | |
Gupta et al. | Implementing weighted entropy-distance based approach for the selection of software reliability growth models | |
CN115512785A (zh) | 基于注意力机制的三维蛋白质-配体活性预测方法 | |
CN117668622B (zh) | 设备故障诊断模型的训练方法、故障诊断方法及装置 | |
Amirov et al. | Medical data processing system based on neural network and genetic algorithm | |
Min et al. | Poverty prediction using machine learning approach | |
Qie et al. | A stage model for agent-based emotional persuasion with an adaptive target: From a social exchange perspective | |
Sharifi et al. | Banks credit risk prediction with optimized ANN based on improved owl search algorithm | |
Cao | Evaluating the vocal music teaching using backpropagation neural network | |
Guo | [Retracted] Safety Risk Assessment of Tourism Management System Based on PSO‐BP Neural Network | |
Aswani et al. | Identifying popular online news: An approach using chaotic cuckoo search algorithm | |
KR20220155785A (ko) | 챗봇 운영 방법 및 장치 | |
CN113392958A (zh) | 一种模糊神经网络fnn的参数优化及应用方法与*** | |
CN115516473A (zh) | 混合人机学习*** | |
Mao et al. | QoS trust rate prediction for Web services using PSO-based neural network | |
Ma et al. | Social network group decision-making model considering interactions between trust relationships and opinion evolution |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |