CN118132681A - 医疗知识图谱查询中对多个查询结果的排序方法和装置 - Google Patents
医疗知识图谱查询中对多个查询结果的排序方法和装置 Download PDFInfo
- Publication number
- CN118132681A CN118132681A CN202410547438.5A CN202410547438A CN118132681A CN 118132681 A CN118132681 A CN 118132681A CN 202410547438 A CN202410547438 A CN 202410547438A CN 118132681 A CN118132681 A CN 118132681A
- Authority
- CN
- China
- Prior art keywords
- nodes
- category
- node
- result
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 48
- 201000010099 disease Diseases 0.000 claims description 21
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims description 21
- 208000024891 symptom Diseases 0.000 claims description 11
- 238000000605 extraction Methods 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 7
- 238000001914 filtration Methods 0.000 description 3
- 238000012163 sequencing technique Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 206010019233 Headaches Diseases 0.000 description 1
- 238000005481 NMR spectroscopy Methods 0.000 description 1
- 206010068319 Oropharyngeal pain Diseases 0.000 description 1
- 201000007100 Pharyngitis Diseases 0.000 description 1
- 206010037660 Pyrexia Diseases 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 231100000869 headache Toxicity 0.000 description 1
- 208000019622 heart disease Diseases 0.000 description 1
- 208000015181 infectious disease Diseases 0.000 description 1
- 208000017169 kidney disease Diseases 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000002604 ultrasonography Methods 0.000 description 1
- 230000002485 urinary effect Effects 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本说明书实施例提供一种医疗知识图谱查询中对多个查询结果的排序方法和装置。方法包括:根据查询请求从医疗知识图谱中提取目标子图;其中,目标子图包括多个类别的输入节点和多个结果节点,输入节点对应于查询请求中携带的输入医疗实体,结果节点对应于医疗相关查询结果;确定各个类别的反映其通用贡献的第一指标分数,第一指标分数与对应类别中各输入节点在医疗知识图谱中关联的结果节点数目负相关;针对任意的目标结果节点,根据各个类别的输入节点中与该目标结果节点的关联节点数目,确定各个类别的反映其对该目标结果节点贡献度的第二指标分数;根据各个类别的第一指标分数和第二指标分数,确定目标结果节点的排序分数。
Description
技术领域
本说明书一个或多个实施例涉及计算机领域,尤其涉及医疗知识图谱查询中对多个查询结果的排序方法和装置。
背景技术
医疗知识图谱将信息以结构化形式储存,其中可能包含个人的隐私信息,响应于某个查询请求,图谱查询中通常会得到多个查询结果。在实际应用中,不仅需要获取多个查询结果,还希望对多个查询结果进行排序,排序体现了查询结果与查询请求的相关度。例如,某些场景下,***会根据多个查询结果的排序提取前N个结果作为最终展示给用户的信息。
现有技术中,医疗知识图谱查询中对多个查询结果的排序,通用性和易用性低,无法高效应对复杂的医疗场景。
发明内容
本说明书一个或多个实施例描述了一种医疗知识图谱查询中对多个查询结果的排序方法和装置,具备很高的通用性和易用性,能够高效的应对复杂的医疗场景。
第一方面,提供了一种医疗知识图谱查询中对多个查询结果的排序方法,方法包括:
根据查询请求从医疗知识图谱中提取目标子图;其中,所述目标子图包括多个类别的输入节点和多个结果节点,所述输入节点对应于所述查询请求中携带的输入医疗实体,所述结果节点对应于医疗相关查询结果;
确定各个类别的反映其通用贡献的第一指标分数,所述第一指标分数与对应类别中各输入节点在所述医疗知识图谱中关联的结果节点数目负相关;
针对任意的目标结果节点,根据各个类别的输入节点中与该目标结果节点的关联节点数目,确定各个类别的反映其对该目标结果节点贡献度的第二指标分数;
根据各个类别的第一指标分数和第二指标分数,确定目标结果节点的排序分数;所述排序分数用于对所述多个查询结果排序。
在一种可能的实施方式中,所述多个类别包括症状、人群、部位和并发症中的至少一个类别;所述查询结果对应于疾病或检查项目。
在一种可能的实施方式中,所述根据查询请求从医疗知识图谱中提取目标子图,包括:
针对查询请求对应的用户查询语句进行实体识别,得到多个输入医疗实体及各自的类别;
从所述医疗知识图谱中,查找所述多个输入医疗实体对应的多个输入节点,以及与所述多个输入节点具有预设关联关系的多个结果节点;
从所述医疗知识图谱中,提取所述多个结果节点和所述多个输入节点,以及节点之间的连接边,从而得到所述目标子图。
进一步地,所述预设关联关系包括结果节点为任一输入节点的一度邻居节点。
进一步地,所述预设关联关系包括结果节点为任一输入节点的一度邻居节点,且该结果节点与所述多个输入节点之间的连接关系满足第一预设规则。
进一步地,所述第一预设规则包括:
结果节点与第一类别的各个输入节点之间均存在连接边;和/或,
结果节点与至少一个第二类别的输入节点之间存在连接边。
在一种可能的实施方式中,所述查询请求指定了所述结果节点具有的目标实体类型;所述确定各个类别的反映其通用贡献的第一指标分数,包括:
针对第一类别的各个输入节点,确定单个输入节点在所述医疗知识图谱中关联的所述目标实体类型的节点的第一数目,以及所述医疗知识图谱中所述第一类别的节点的第二数目;
根据与所述第二数目和第一数目的比值正相关,确定该单个输入节点的节点分数;
对所述第一类别的各个输入节点分别对应的节点分数进行求和,得到所述第一类别的第一指标分数。
在一种可能的实施方式中,所述确定各个类别的反映其对该目标结果节点贡献度的第二指标分数,包括:
确定目标结果节点在所述目标子图中关联的第一类别的输入节点的第三数目;
根据与第一类别的权重和第三数目的比值正相关,确定所述第一类别的第二指标分数。
在一种可能的实施方式中,所述确定目标结果节点的排序分数,包括:
对单个类别的第一指标分数和第二指标分数进行乘法运算,得到该类别的综合分数;
对各个类别分别对应的综合分数进行求和,得到所述目标结果节点的排序分数。
在一种可能的实施方式中,所述确定各个类别的反映其通用贡献的第一指标分数之前,所述方法还包括:
判断所述目标子图中是否具备专家规则需要的第一属性信息,并判断出不具备所述第一属性信息;所述专家规则用于根据所述第一属性信息,确定所述目标结果节点的排序分数;或者,
获取根据专家规则确定的所述目标结果节点的排序分数,并确定该排序分数与根据专家规则确定的另一结果节点的排序分数相同。
第二方面,提供了一种医疗知识图谱查询中对多个查询结果的排序装置,装置包括:
子图提取单元,用于根据查询请求从医疗知识图谱中提取目标子图;其中,所述目标子图包括多个类别的输入节点和多个结果节点,所述输入节点对应于所述查询请求中携带的输入医疗实体,所述结果节点对应于医疗相关查询结果;
第一确定单元,用于确定各个类别的反映其通用贡献的第一指标分数,所述第一指标分数与对应类别中各输入节点在所述医疗知识图谱中关联的结果节点数目负相关;
第二确定单元,用于针对任意的目标结果节点,根据各个类别的输入节点中与该目标结果节点的关联节点数目,确定各个类别的反映其对该目标结果节点贡献度的第二指标分数;
排序确定单元,用于根据各个类别的所述第一确定单元确定的第一指标分数和所述第二确定单元确定的第二指标分数,确定目标结果节点的排序分数;所述排序分数用于对所述多个查询结果排序。
第三方面,提供了一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行第一方面的方法。
第四方面,提供了一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现第一方面的方法。
通过本说明书实施例提供的方法和装置,首先根据查询请求从医疗知识图谱中提取目标子图;其中,所述目标子图包括多个类别的输入节点和多个结果节点,所述输入节点对应于所述查询请求中携带的输入医疗实体,所述结果节点对应于医疗相关查询结果;然后确定各个类别的反映其通用贡献的第一指标分数,所述第一指标分数与对应类别中各输入节点在所述医疗知识图谱中关联的结果节点数目负相关;接着针对任意的目标结果节点,根据各个类别的输入节点中与该目标结果节点的关联节点数目,确定各个类别的反映其对该目标结果节点贡献度的第二指标分数;最后根据各个类别的第一指标分数和第二指标分数,确定目标结果节点的排序分数;所述排序分数用于对所述多个查询结果排序。由上可见,本说明书实施例,采用了启发式方法,先获得目标子图,然后通过利用输入节点在所述医疗知识图谱中关联的结果节点数目,确定各个类别的第一指标分数,利用各个类别的输入节点中与目标结果节点的关联节点数目来确定各个类别的第二指标分数,再综合第一指标分数和第二指标分数确定目标结果节点的排序分数,这一方案无需任何训练过程,能够适用于各种医疗图谱查询场景,具备很高的通用性和易用性,能够高效的应对复杂的医疗场景。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本说明书披露的一个实施例的实施场景示意图;
图2示出根据一个实施例的医疗知识图谱查询中对多个查询结果的排序方法流程图;
图3示出根据一个实施例的医疗知识图谱中结果节点的排序分数说明图;
图4示出根据一个实施例的医疗知识图谱查询中对多个查询结果的排序装置的示意性框图;
图5示出根据一个实施例的医疗知识图谱查询中对多个查询结果的排序装置的内部结构图。
具体实施方式
下面结合附图,对本说明书提供的方案进行描述。
图1为本说明书披露的一个实施例的实施场景示意图。该实施场景涉及医疗知识图谱查询中对多个查询结果的排序,可以理解的是,图谱查询中,先要基于已有的知识图谱得到多个查询结果,再针对该多个查询结果进行排序。知识图谱旨在描述真实世界中存在的各种实体或概念及其关系,其构成一张巨大的语义网络图,节点表示实体或概念,也可表示为实体:概念、实例,边则由属性或关系构成。
参照图1,给出了一个医疗知识图谱查询的示例。通常地,响应于某个查询请求进行图谱查询,查询请求中携带多个类别的输入医疗实体,同时还可以指定查询结果具有的目标实体类型,图谱查询的目标就是,根据输入医疗实体,从知识图谱中查找到与输入医疗实体具有预设关联关系的查询结果,其中,输入医疗实体和查询结果在知识图谱中均具有各自对应的节点。
本说明书实施例,查询请求可以对应于用户查询语句,在医疗场景中,可以针对用户查询语句进行医疗实体识别,得到多个医学名词及各自的类别,将每个医学名词作为输入医疗实体。上述类别可以但不限于包括症状、人群、部分、并发症中的任意一个类别。对应于一个查询请求,其携带的同一类别的输入医疗实体可以有一个或多个,例如,症状可以包括头痛、咽痛、发烧等,人群可以包括儿童、男性等,部位可以包括头部等,并发症可以包括泌尿***感染等。查询结果具有的目标实体类型可以为疾病,获得的多个查询结果可以为各种疾病的名称,通过对多个查询结果进行排序有助于确定最终的诊断结果,或者,过滤筛选掉不相关的疾病。
通常地,图谱查询中针对多个查询结果的排序方案通用性和易用性低。本说明书实施例,提供一种方案,采用了启发式方法,具备很高的通用性和易用性,能够高效的应对复杂的医疗场景。
启发式(heuristics):是一种解决问题、寻找答案或发现新知识的方法,它通过使用经验法则、直觉或常识来降低复杂问题的解决难度。启发式方法通常用于如下情况,找到一个完全精确或优化的解决方案要么不可能,要么需要不切实际的计算资源或时间。相比于非启发式,比如神经网络需要标签进行有监督训练的特点,启发式的方法无需标签也无需训练,能高效应对复杂的医疗场景。
图2示出根据一个实施例的医疗知识图谱查询中对多个查询结果的排序方法流程图,该方法可以基于图1所示的实施场景。如图2所示,该实施例中医疗知识图谱查询中对多个查询结果的排序方法包括以下步骤:步骤21,根据查询请求从医疗知识图谱中提取目标子图;其中,所述目标子图包括多个类别的输入节点和多个结果节点,所述输入节点对应于所述查询请求中携带的输入医疗实体,所述结果节点对应于医疗相关查询结果;步骤22,确定各个类别的反映其通用贡献的第一指标分数,所述第一指标分数与对应类别中各输入节点在所述医疗知识图谱中关联的结果节点数目负相关;步骤23,针对任意的目标结果节点,根据各个类别的输入节点中与该目标结果节点的关联节点数目,确定各个类别的反映其对该目标结果节点贡献度的第二指标分数;步骤24,根据各个类别的第一指标分数和第二指标分数,确定目标结果节点的排序分数;所述排序分数用于对所述多个查询结果排序。下面描述以上各个步骤的具体执行方式。
首先在步骤21,根据查询请求从医疗知识图谱中提取目标子图;其中,所述目标子图包括多个类别的输入节点和多个结果节点,所述输入节点对应于所述查询请求中携带的输入医疗实体,所述结果节点对应于医疗相关查询结果。可以理解的是,结果节点可以具有目标实体类型,且在医疗知识图谱中与多个类别的输入节点具有预设关联关系。
在一个示例中,所述多个类别包括症状、人群、部位和并发症中的至少一个类别;所述查询结果对应于疾病或检查项目。
该示例中,目标实体类型为疾病或检查项目。当目标实体类型为疾病时,对多个查询结果进行排序,有助于确定针对患者的诊断结果,例如,心脏病或者肾病等;当目标实体类型为检查项目时,对多个查询结果进行排序,有助于确定患者下一步应该做的检查,例如,超声检查或者核磁共振检查等。
在一个示例中,所述根据查询请求从医疗知识图谱中提取目标子图,包括:
针对查询请求对应的用户查询语句进行实体识别,得到多个输入医疗实体及各自的类别;
从所述医疗知识图谱中,查找所述多个输入医疗实体对应的多个输入节点,以及与所述多个输入节点具有预设关联关系的多个结果节点;
从所述医疗知识图谱中,提取所述多个结果节点和所述多个输入节点,以及节点之间的连接边,从而得到所述目标子图。
该示例中,输入节点的数目通常小于类别的数目,也就是说,存在至少两个输入节点属于同一类别的情况,例如,在用户查询语句中对于症状的描述通常可以识别出不止一个输入医疗实体。上述预设关联关系可以包括结果节点与任一输入节点之间的关联关系,或者,还可以包括结果节点与某个类别的输入节点之间的关联关系。
进一步地,所述预设关联关系包括结果节点为任一输入节点的一度邻居节点。
该示例中,预设关联关系包括结果节点与任一输入节点之间的关联关系,该关联关系中一度邻居节点仅为举例说明,根据具体的场景,也可以包括结果节点为任一输入节点的二度邻居节点等。
进一步地,所述预设关联关系包括结果节点为任一输入节点的一度邻居节点,且该结果节点与所述多个输入节点之间的连接关系满足第一预设规则。
该示例中,预设关联关系既包括结果节点与单个节点之间的第一关联关系,又包括结果节点与多个节点之间的第二关联关系。
进一步地,所述第一预设规则包括:
结果节点与第一类别的各个输入节点之间均存在连接边;和/或,
结果节点与至少一个第二类别的输入节点之间存在连接边。
举例来说,第一类别为人群或部位,第二类别为并发症或症状。
本说明书实施例,可以分两步确定目标子图中的结果节点,先获取满足第一关联关系的结果节点构成集合,再从该集合中筛选出符合第二关联关系的结果节点,从而确定出目标子图中的结果节点。
举例来说,第一步进行一度邻居查询。在知识图谱中查询得到输入节点的一度邻居节点。比如在医疗场景中,从用户查询语句中识别出的症状、人群、部位、并发症等医学名词,每个医学名词作为一个输入节点,都采用上述查询操作,最终查询出了多个疾病,放在一个疾病合集中。
第二步对疾病合集进行过滤。可以将疾病合集中不满足规则的疾病过滤掉,继而获得相关子图。例如,如果有一条针对疾病的过滤规则:对于人群、部位必须全部命中,并发症、症状命中一条即可,这样可以过滤掉一批价值不大的候选疾病。可以理解的是,上述命中的含义可以等价于结果节点与相应的输入节点之间具有连接边。
然后在步骤22,确定各个类别的反映其通用贡献的第一指标分数,所述第一指标分数与对应类别中各输入节点在所述医疗知识图谱中关联的结果节点数目负相关。可以理解的是,第一指标分数可以预先确定并存储,需要时直接读取各个类别的第一指标分数即可。
其中,第一指标分数可以类比于词频-逆文本频率(term frequency–inversedocument frequency,TF-IDF) 算法中的逆文本频率IDF。TF-IDF是一种用于信息检索与数据挖掘的常用加权技术,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。也就是说,一个词在一篇文章中出现次数越多, 同时在所有文档中出现次数越少, 越能够代表该文章。本说明书实施例,将TF-IDF迁移到图谱数据后,可以得到类似TF-IDF的特征作为结果节点的排序分数。
在一个示例中,所述查询请求指定了所述结果节点具有的目标实体类型;所述确定各个类别的反映其通用贡献的第一指标分数,包括:
针对第一类别的各个输入节点,确定单个输入节点在所述医疗知识图谱中关联的所述目标实体类型的节点的第一数目,以及所述医疗知识图谱中所述第一类别的节点的第二数目;
根据与所述第二数目和第一数目的比值正相关,确定该单个输入节点的节点分数;
对所述第一类别的各个输入节点分别对应的节点分数进行求和,得到所述第一类别的第一指标分数。
该示例中,医疗知识图谱中所述第一类别的节点的数目越多,单个输入节点在所述医疗知识图谱中关联的所述目标实体类型的节点的数目越少,则该单个输入节点的节点分数越高,相应地,第一类别的第一指标分数越高,代表第一类别的输入节点的通用贡献越大。
图3示出根据一个实施例的医疗知识图谱中结果节点的排序分数说明图。参照图3,通过多个类别的输入节点召回多个结果节点,在确定目标结果节点v的排序分数时,先要确定各个类别分别对应的第一指标分数。第一指标分数可以表示为;其中,/>表示第j类节点,i表示第j类节点中的第i个节点,/>表示第i个节点的度,也就是第i个节点对应的目标实体类型的节点数,/>表示第j类节点总数,两者比值可解释为节点i本身的通用性,类比逆文本频率,针对i的求和表示对第j类节点下所有节点的贡献进行求和。
接着在步骤23,针对任意的目标结果节点,根据各个类别的输入节点中与该目标结果节点的关联节点数目,确定各个类别的反映其对该目标结果节点贡献度的第二指标分数。可以理解的是,第二指标分数需要在提取目标子图之后,根据目标子图中节点之间的连接关系而确定。
其中,第二指标分数可以类比于TF-IDF算法中的词频TF。
在一个示例中,所述确定各个类别的反映其对该目标结果节点贡献度的第二指标分数,包括:
确定目标结果节点在所述目标子图中关联的第一类别的输入节点的第三数目;
根据与第一类别的权重和第三数目的比值正相关,确定所述第一类别的第二指标分数。
该示例中,第一类别的权重越大,目标结果节点在目标子图中关联的第一类别的输入节点的数目越少,则第一类别的第二指标分数越高,代表第一类别的输入节点对目标结果节点的贡献越大。
参照图3,通过多个类别的输入节点召回多个结果节点,在确定目标结果节点v的排序分数时,先要确定各个类别分别对应的第二指标分数。第二指标分数可以表示为;其中,/>表示第j类节点的权重,即人为设定的某类输入节点的相对重要程度,则/>代表目标结果节点v指向第j类节点的度,即对应的该类输入节点的数目,两者比值表征了该类输入节点对目标结果节点v的贡献,类比词频。
最后在步骤24,根据各个类别的第一指标分数和第二指标分数,确定目标结果节点的排序分数;所述排序分数用于对所述多个查询结果排序。可以理解的是,上述第一指标分数是与目标结果节点无关的,上述第二指标分数是与目标结果节点有关的,一个结果节点对应于一个查询结果,确定出多个结果节点各自的排序分数后,就可以根据排序分数的大小对多个查询结果排序。
其中,排序分数可以类比于TF-IDF算法中的词频与逆文本频率的比值。
在一个示例中,所述确定目标结果节点的排序分数,包括:
对单个类别的第一指标分数和第二指标分数进行乘法运算,得到该类别的综合分数;
对各个类别分别对应的综合分数进行求和,得到所述目标结果节点的排序分数。
该示例中,单个类别的第一指标分数和第二指标分数越大,则该类别的综合分数越大;各个类别分别对应的综合分数越大,则目标结果节点的排序分数越大,代表输入节点集合对目标结果节点的重要程度越高,目标结果节点的排序越靠前。
参照图3,通过多个类别的输入节点召回多个结果节点,目标结果节点v的排序分数可以表示为;其中,/>为第j类节点的第一指标分数,第一指标分数类比于逆文本频率,/>为第j类节点的第二指标分数,第二指标分数类比于词频,/>是词频与逆文本频率的比值,它衡量了输入节点集合对目标结果节点v的重要程度,可以用作排序依据。
本说明书实施例,将前述通过第一指标分数和第二指标分数确定排序分数的方式称为算法打分,可以将专家规则与算法打分相结合,优先用专家规则确定专家打分,如果某个结果节点的专家打分缺省或某两个结果节点的专家打分分值相等,则采用算法打分确定结果节点的排序分数。得到各个结果节点的专家打分或排序分数后,就可以按照分数由高到低对各个结果节点进行排序。
在一个示例中,所述确定各个类别的反映其通用贡献的第一指标分数之前,所述方法还包括:
判断所述目标子图中是否具备专家规则需要的第一属性信息,并判断出不具备所述第一属性信息;所述专家规则用于根据所述第一属性信息,确定所述目标结果节点的排序分数;或者,
获取根据专家规则确定的所述目标结果节点的排序分数,并确定该排序分数与根据专家规则确定的另一结果节点的排序分数相同。
该示例中,对应于专家打分缺省或某两个结果节点的专家打分分值相等的情况。
本说明书实施例,专家打分和算法打分均属于启发式排序方法。专家打分也称为专家规则打分,比如查询结果为疾病,专家指定按照发病率来进行排序,前提是能够获得疾病的发病率的信息。
通过本说明书实施例提供的方法,首先根据查询请求从医疗知识图谱中提取目标子图;其中,所述目标子图包括多个类别的输入节点和多个结果节点,所述输入节点对应于所述查询请求中携带的输入医疗实体,所述结果节点对应于医疗相关查询结果;然后确定各个类别的反映其通用贡献的第一指标分数,所述第一指标分数与对应类别中各输入节点在所述医疗知识图谱中关联的结果节点数目负相关;接着针对任意的目标结果节点,根据各个类别的输入节点中与该目标结果节点的关联节点数目,确定各个类别的反映其对该目标结果节点贡献度的第二指标分数;最后根据各个类别的第一指标分数和第二指标分数,确定目标结果节点的排序分数;所述排序分数用于对所述多个查询结果排序。由上可见,本说明书实施例,采用了启发式方法,先获得目标子图,然后通过利用输入节点在所述医疗知识图谱中关联的结果节点数目,确定各个类别的第一指标分数,利用各个类别的输入节点中与目标结果节点的关联节点数目来确定各个类别的第二指标分数,再综合第一指标分数和第二指标分数确定目标结果节点的排序分数,这一方案无需任何训练过程,能够适用于各种医疗图谱查询场景,具备很高的通用性和易用性,能够高效的应对复杂的医疗场景。
根据另一方面的实施例,还提供一种医疗知识图谱查询中对多个查询结果的排序装置,该装置用于执行本说明书实施例提供的方法。图4示出根据一个实施例的医疗知识图谱查询中对多个查询结果的排序装置的示意性框图。如图4所示,该装置400包括:
子图提取单元41,用于根据查询请求从医疗知识图谱中提取目标子图;其中,所述目标子图包括多个类别的输入节点和多个结果节点,所述输入节点对应于所述查询请求中携带的输入医疗实体,所述结果节点对应于医疗相关查询结果;
第一确定单元42,用于确定各个类别的反映其通用贡献的第一指标分数,所述第一指标分数与对应类别中各输入节点在所述医疗知识图谱中关联的结果节点数目负相关;
第二确定单元43,用于针对任意的目标结果节点,根据各个类别的输入节点中与该目标结果节点的关联节点数目,确定各个类别的反映其对该目标结果节点贡献度的第二指标分数;
排序确定单元44,用于根据各个类别的所述第一确定单元42确定的第一指标分数和所述第二确定单元43确定的第二指标分数,确定目标结果节点的排序分数;所述排序分数用于对所述多个查询结果排序。
可选地,作为一个实施例,所述多个类别包括症状、人群、部位和并发症中的至少一个类别;所述查询结果对应于疾病或检查项目。
可选地,作为一个实施例,所述子图提取单元41包括:
识别子单元,用于针对查询请求对应的用户查询语句进行实体识别,得到多个输入医疗实体及各自的类别;
查找子单元,用于从所述医疗知识图谱中,查找所述识别子单元得到的多个输入医疗实体对应的多个输入节点,以及与所述多个输入节点具有预设关联关系的多个结果节点;
提取子单元,用于从所述医疗知识图谱中,提取所述查找子单元得到的多个结果节点和所述多个输入节点,以及节点之间的连接边,从而得到所述目标子图。
进一步地,所述预设关联关系包括结果节点为任一输入节点的一度邻居节点。
进一步地,所述预设关联关系包括结果节点为任一输入节点的一度邻居节点,且该结果节点与所述多个输入节点之间的连接关系满足第一预设规则。
进一步地,所述第一预设规则包括:
结果节点与第一类别的各个输入节点之间均存在连接边;和/或,
结果节点与至少一个第二类别的输入节点之间存在连接边。
可选地,作为一个实施例,所述查询请求指定了所述结果节点具有的目标实体类型;所述第一确定单元42包括:
数目确定子单元,用于针对第一类别的各个输入节点,确定单个输入节点在所述医疗知识图谱中关联的所述目标实体类型的节点的第一数目,以及所述医疗知识图谱中所述第一类别的节点的第二数目;
分数确定子单元,用于根据与所述数目确定子单元得到的第二数目和第一数目的比值正相关,确定该单个输入节点的节点分数;
求和子单元,用于对所述分数确定子单元得到的第一类别的各个输入节点分别对应的节点分数进行求和,得到所述第一类别的第一指标分数。
可选地,作为一个实施例,所述第二确定单元43包括:
数目确定子单元,用于确定目标结果节点在所述目标子图中关联的第一类别的输入节点的第三数目;
分数确定子单元,用于根据与第一类别的权重和所述数目确定子单元得到的第三数目的比值正相关,确定所述第一类别的第二指标分数。
可选地,作为一个实施例,所述排序确定单元44包括:
乘法子单元,用于对单个类别的第一指标分数和第二指标分数进行乘法运算,得到该类别的综合分数;
求和子单元,用于对所述乘法子单元得到的各个类别分别对应的综合分数进行求和,得到所述目标结果节点的排序分数。
可选地,作为一个实施例,所述装置还包括:
第一触发单元,用于在所述确定各个类别的反映其通用贡献的第一指标分数之前,判断所述目标子图中是否具备专家规则需要的第一属性信息,并判断出不具备所述第一属性信息;所述专家规则用于根据所述第一属性信息,确定所述目标结果节点的排序分数;或者,
第二触发单元,用于获取根据专家规则确定的所述目标结果节点的排序分数,并确定该排序分数与根据专家规则确定的另一结果节点的排序分数相同。
通过本说明书实施例提供的装置,首先子图提取单元41根据查询请求从医疗知识图谱中提取目标子图;其中,所述目标子图包括多个类别的输入节点和多个结果节点,所述输入节点对应于所述查询请求中携带的输入医疗实体,所述结果节点对应于医疗相关查询结果;然后第一确定单元42确定各个类别的反映其通用贡献的第一指标分数,所述第一指标分数与对应类别中各输入节点在所述医疗知识图谱中关联的结果节点数目负相关;接着第二确定单元43针对任意的目标结果节点,根据各个类别的输入节点中与该目标结果节点的关联节点数目,确定各个类别的反映其对该目标结果节点贡献度的第二指标分数;最后排序确定单元44根据各个类别的第一指标分数和第二指标分数,确定目标结果节点的排序分数;所述排序分数用于对所述多个查询结果排序。由上可见,本说明书实施例,采用了启发式方法,先获得目标子图,然后通过利用输入节点在所述医疗知识图谱中关联的结果节点数目,确定各个类别的第一指标分数,利用各个类别的输入节点中与目标结果节点的关联节点数目来确定各个类别的第二指标分数,再综合第一指标分数和第二指标分数确定目标结果节点的排序分数,这一方案无需任何训练过程,能够适用于各种医疗图谱查询场景,具备很高的通用性和易用性,能够高效的应对复杂的医疗场景。
图5示出根据一个实施例的医疗知识图谱查询中对多个查询结果的排序装置的内部结构图。参照图5,该装置的输入是从用户对话中通过医疗实体识别得到的多个输入医疗实体,在该装置内部依次经过一度邻居查询、过滤、启发式排序得到多个查询结果各自的排序分数,该装置将排序分数或排序输出给下游医疗场景。比如医疗问诊场景,患者输入了自己的症状、性别、发病部位、并发症,然后本装置可以返回该患者相关的疾病候选,以及这些疾病的排序。可以理解的是,上述一度邻居查询可以得到结果节点的合集,上述过滤根据规则从合集中筛选结果节点,启发式排序包括专家打分和算法打分,二者相结合得到结果节点的排序分数。
本说明书实施例,全程采用了启发式方法,这种方法不需要训练模型。具体来说,首先对多个查询词执行一度邻居查询,然后筛选出不符合条件的结果节点,获得相关子图。继而,开发了一种启发式的针对图谱的TF-IDF算法,通过利用查询词在子图中的频率、其类型权重以及词的稀缺性信息来进行排序打分。最终,将这个算法的结果与专家规则相结合,得到最后的排序结果。这一方案无需任何训练过程,显示出极高的通用性和易用性,成功地应对了医疗领域中的复杂问题。
根据另一方面的实施例,还提供一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行结合图2所描述的方法。
根据再一方面的实施例,还提供一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现结合图2所描述的方法。
本领域技术人员应该可以意识到,在上述一个或多个示例中,本发明所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时,可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的技术方案的基础之上,所做的任何修改、等同替换、改进等,均应包括在本发明的保护范围之内。
Claims (13)
1.一种医疗知识图谱查询中对多个查询结果的排序方法,所述方法包括:
根据查询请求从医疗知识图谱中提取目标子图;其中,所述目标子图包括多个类别的输入节点和多个结果节点,所述输入节点对应于所述查询请求中携带的输入医疗实体,所述结果节点对应于医疗相关查询结果;
确定各个类别的反映其通用贡献的第一指标分数,所述第一指标分数与对应类别中各输入节点在所述医疗知识图谱中关联的结果节点数目负相关;
针对任意的目标结果节点,根据各个类别的输入节点中与该目标结果节点的关联节点数目,确定各个类别的反映其对该目标结果节点贡献度的第二指标分数;
根据各个类别的第一指标分数和第二指标分数,确定目标结果节点的排序分数;所述排序分数用于对所述多个查询结果排序。
2.如权利要求1所述的方法,其中,所述多个类别包括症状、人群、部位和并发症中的至少一个类别;所述查询结果对应于疾病或检查项目。
3.如权利要求1所述的方法,其中,所述根据查询请求从医疗知识图谱中提取目标子图,包括:
针对查询请求对应的用户查询语句进行实体识别,得到多个输入医疗实体及各自的类别;
从所述医疗知识图谱中,查找所述多个输入医疗实体对应的多个输入节点,以及与所述多个输入节点具有预设关联关系的多个结果节点;
从所述医疗知识图谱中,提取所述多个结果节点和所述多个输入节点,以及节点之间的连接边,从而得到所述目标子图。
4.如权利要求3所述的方法,其中,所述预设关联关系包括结果节点为任一输入节点的一度邻居节点。
5.如权利要求3所述的方法,其中,所述预设关联关系包括结果节点为任一输入节点的一度邻居节点,且该结果节点与所述多个输入节点之间的连接关系满足第一预设规则。
6.如权利要求5所述的方法,其中,所述第一预设规则包括:
结果节点与第一类别的各个输入节点之间均存在连接边;和/或,
结果节点与至少一个第二类别的输入节点之间存在连接边。
7.如权利要求1所述的方法,其中,所述查询请求指定了所述结果节点具有的目标实体类型;所述确定各个类别的反映其通用贡献的第一指标分数,包括:
针对第一类别的各个输入节点,确定单个输入节点在所述医疗知识图谱中关联的所述目标实体类型的节点的第一数目,以及所述医疗知识图谱中所述第一类别的节点的第二数目;
根据与所述第二数目和第一数目的比值正相关,确定该单个输入节点的节点分数;
对所述第一类别的各个输入节点分别对应的节点分数进行求和,得到所述第一类别的第一指标分数。
8.如权利要求1所述的方法,其中,所述确定各个类别的反映其对该目标结果节点贡献度的第二指标分数,包括:
确定目标结果节点在所述目标子图中关联的第一类别的输入节点的第三数目;
根据与第一类别的权重和第三数目的比值正相关,确定所述第一类别的第二指标分数。
9.如权利要求1所述的方法,其中,所述确定目标结果节点的排序分数,包括:
对单个类别的第一指标分数和第二指标分数进行乘法运算,得到该类别的综合分数;
对各个类别分别对应的综合分数进行求和,得到所述目标结果节点的排序分数。
10.如权利要求1所述的方法,其中,所述确定各个类别的反映其通用贡献的第一指标分数之前,所述方法还包括:
判断所述目标子图中是否具备专家规则需要的第一属性信息,并判断出不具备所述第一属性信息;所述专家规则用于根据所述第一属性信息,确定所述目标结果节点的排序分数;或者,
获取根据专家规则确定的所述目标结果节点的排序分数,并确定该排序分数与根据专家规则确定的另一结果节点的排序分数相同。
11.一种医疗知识图谱查询中对多个查询结果的排序装置,所述装置包括:
子图提取单元,用于根据查询请求从医疗知识图谱中提取目标子图;其中,所述目标子图包括多个类别的输入节点和多个结果节点,所述输入节点对应于所述查询请求中携带的输入医疗实体,所述结果节点对应于医疗相关查询结果;
第一确定单元,用于确定各个类别的反映其通用贡献的第一指标分数,所述第一指标分数与对应类别中各输入节点在所述医疗知识图谱中关联的结果节点数目负相关;
第二确定单元,用于针对任意的目标结果节点,根据各个类别的输入节点中与该目标结果节点的关联节点数目,确定各个类别的反映其对该目标结果节点贡献度的第二指标分数;
排序确定单元,用于根据各个类别的所述第一确定单元确定的第一指标分数和所述第二确定单元确定的第二指标分数,确定目标结果节点的排序分数;所述排序分数用于对所述多个查询结果排序。
12.一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行权利要求1-10中任一项的所述的方法。
13.一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现权利要求1-10中任一项的所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410547438.5A CN118132681A (zh) | 2024-04-30 | 2024-04-30 | 医疗知识图谱查询中对多个查询结果的排序方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410547438.5A CN118132681A (zh) | 2024-04-30 | 2024-04-30 | 医疗知识图谱查询中对多个查询结果的排序方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN118132681A true CN118132681A (zh) | 2024-06-04 |
Family
ID=91236252
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410547438.5A Pending CN118132681A (zh) | 2024-04-30 | 2024-04-30 | 医疗知识图谱查询中对多个查询结果的排序方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN118132681A (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109033135A (zh) * | 2018-06-06 | 2018-12-18 | 北京大学 | 一种面向软件项目知识图谱的自然语言查询方法及*** |
CN110795569A (zh) * | 2019-10-08 | 2020-02-14 | 北京百度网讯科技有限公司 | 知识图谱的向量表示生成方法、装置及设备 |
CN110866836A (zh) * | 2019-11-14 | 2020-03-06 | 支付宝(杭州)信息技术有限公司 | 计算机执行的医疗保险立案审核方法和装置 |
CN111930967A (zh) * | 2020-10-13 | 2020-11-13 | 北京泰迪熊移动科技有限公司 | 一种基于知识图谱的数据查询方法、装置及存储介质 |
WO2021213314A1 (zh) * | 2020-04-20 | 2021-10-28 | 北京京东拓先科技有限公司 | 数据处理方法、装置及计算机可读存储介质 |
WO2022095382A1 (zh) * | 2020-11-03 | 2022-05-12 | 平安科技(深圳)有限公司 | 基于知识图谱的电子卡片生成推送方法、装置 |
CN115618947A (zh) * | 2022-12-05 | 2023-01-17 | 中国人民解放军总医院 | 医疗知识图谱质量评估***、装置、设备、介质及产品 |
WO2023098288A1 (zh) * | 2021-12-01 | 2023-06-08 | 浙江大学 | 一种基于含因果性医学知识图谱的疾病辅助鉴别诊断*** |
CN117577253A (zh) * | 2023-11-15 | 2024-02-20 | 北京方胜远临医药科技有限公司 | 基于大数据的医疗临床数据质量分析方法及*** |
-
2024
- 2024-04-30 CN CN202410547438.5A patent/CN118132681A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109033135A (zh) * | 2018-06-06 | 2018-12-18 | 北京大学 | 一种面向软件项目知识图谱的自然语言查询方法及*** |
CN110795569A (zh) * | 2019-10-08 | 2020-02-14 | 北京百度网讯科技有限公司 | 知识图谱的向量表示生成方法、装置及设备 |
CN110866836A (zh) * | 2019-11-14 | 2020-03-06 | 支付宝(杭州)信息技术有限公司 | 计算机执行的医疗保险立案审核方法和装置 |
WO2021213314A1 (zh) * | 2020-04-20 | 2021-10-28 | 北京京东拓先科技有限公司 | 数据处理方法、装置及计算机可读存储介质 |
CN111930967A (zh) * | 2020-10-13 | 2020-11-13 | 北京泰迪熊移动科技有限公司 | 一种基于知识图谱的数据查询方法、装置及存储介质 |
WO2022095382A1 (zh) * | 2020-11-03 | 2022-05-12 | 平安科技(深圳)有限公司 | 基于知识图谱的电子卡片生成推送方法、装置 |
WO2023098288A1 (zh) * | 2021-12-01 | 2023-06-08 | 浙江大学 | 一种基于含因果性医学知识图谱的疾病辅助鉴别诊断*** |
CN115618947A (zh) * | 2022-12-05 | 2023-01-17 | 中国人民解放军总医院 | 医疗知识图谱质量评估***、装置、设备、介质及产品 |
CN117577253A (zh) * | 2023-11-15 | 2024-02-20 | 北京方胜远临医药科技有限公司 | 基于大数据的医疗临床数据质量分析方法及*** |
Non-Patent Citations (3)
Title |
---|
张玲玉;尹鸿峰;: "基于OAN的知识图谱查询研究", 软件, no. 01, 15 January 2018 (2018-01-15) * |
汤楠;申德荣;寇月;聂铁铮;: "一种面向多源知识图谱的样例查询方法", 计算机研究与发展, no. 1, 15 October 2015 (2015-10-15) * |
贾中浩;古天龙;宾辰忠;常亮;张伟涛;朱桂明;: "旅游知识图谱特征学习的景点推荐", 智能***学报, no. 03, 22 April 2019 (2019-04-22) * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103678576B (zh) | 基于动态语义分析的全文检索*** | |
US8108381B2 (en) | System and method for analyzing electronic data records | |
CN110413734B (zh) | 一种医疗服务的智能搜索***及方法 | |
CN112650840A (zh) | 一种基于知识图谱推理的医疗智能问答处理方法及*** | |
KR101875306B1 (ko) | 의료용어 클러스터를 이용한 질병정보제공시스템 | |
CN110299209B (zh) | 相似病历查找方法、装置、设备及可读存储介质 | |
KR20190038243A (ko) | 맥락을 이용하여 문서를 검색하는 시스템 및 방법 | |
KR20130056207A (ko) | 관계 정보 확장 장치, 관계 정보 확장 방법, 및 프로그램 | |
US20090094209A1 (en) | Determining The Depths Of Words And Documents | |
CN112052308A (zh) | 一种摘要文本提取方法、装置、存储介质和电子设备 | |
WO2018060838A1 (en) | A method and system for matching subjects to clinical trials | |
Gupta et al. | Fuzzy logic-based approach to develop hybrid similarity measure for efficient information retrieval | |
Blanco et al. | Overview of NTCIR-13 Actionable Knowledge Graph (AKG) Task. | |
Wijewickrema et al. | Selecting a text similarity measure for a content-based recommender system: A comparison in two corpora | |
CN115186112B (zh) | 一种基于辨证映射规则的医药数据检索方法及装置 | |
CN118132681A (zh) | 医疗知识图谱查询中对多个查询结果的排序方法和装置 | |
JPH0934909A (ja) | 情報検索装置 | |
Evrim et al. | Context-based information analysis for the web environment | |
CN113868387A (zh) | 一种基于改进tf-idf加权的word2vec医疗相似问题检索方法 | |
Li et al. | Automatic decision support for clinical diagnostic literature using link analysis in a weighted keyword network | |
Irshad et al. | SwCS: Section-Wise Content Similarity Approach to Exploit Scientific Big Data. | |
Noviana et al. | Using of thesaurus in query expansion on information retrieval as value creation strategy through big data analytics | |
Bouarara et al. | BHA2: bio-inspired algorithm and automatic summarisation for detecting different types of plagiarism | |
Hussain et al. | Palazzo Matrix Model: An approach to simulate the efficient semantic results in search engines | |
Sondhi et al. | Question processing and clustering in INDOC: a biomedical question answering system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |