CN109065173B - 知识路径的获取方法 - Google Patents

知识路径的获取方法 Download PDF

Info

Publication number
CN109065173B
CN109065173B CN201810751261.5A CN201810751261A CN109065173B CN 109065173 B CN109065173 B CN 109065173B CN 201810751261 A CN201810751261 A CN 201810751261A CN 109065173 B CN109065173 B CN 109065173B
Authority
CN
China
Prior art keywords
path
knowledge
node
preset
paths
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810751261.5A
Other languages
English (en)
Other versions
CN109065173A (zh
Inventor
谢永红
哈爽
张德政
阿孜古丽
栗辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology Beijing USTB
Original Assignee
University of Science and Technology Beijing USTB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology Beijing USTB filed Critical University of Science and Technology Beijing USTB
Priority to CN201810751261.5A priority Critical patent/CN109065173B/zh
Publication of CN109065173A publication Critical patent/CN109065173A/zh
Application granted granted Critical
Publication of CN109065173B publication Critical patent/CN109065173B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients

Landscapes

  • Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Public Health (AREA)
  • Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明公开了一种知识路径的获取方法。其中,该方法包括获取待寻知识路径的初始节点,其中,初始节点是症状信息和/或患者基本信息,知识路径由多个节点构成,节点是与症状信息和/或患者基本信息相关联的概念层特征;确定待寻知识路径的终点,其中,终点是根据症状信息和/或患者基本信息寻径得到的概念层特征阴或阳;通过贪心算法在初始节点与终点之间进行寻径获得多个知识路径;通过特征优化对多个知识路径进行筛选获得预定数量的待寻知识路径,解决了现有技术在进行案例推理时由于中医症状的数据存在问题导致不能高效分析中医数据的技术问题,达到了高效和准确的分析中医数据的技术效果。

Description

知识路径的获取方法
技术领域
本发明涉及中医数据分析领域,具体而言,涉及一种知识路径的获取方法。
背景技术
随着社会的高速发展和人民生活水平的不断提高,人们对自身的健康状况越发关注。如何提高医疗水平和合理利用医疗资源成为当下人们研究的热门话题。中医作为我国医学领域的宝贵财富,因其历史的积淀和治疗疾病时的独特方式与疗效而越发的受到人们的关注。
症状是中医案例的核心数据,也是进行案例推理时的主要依据,症状部分的数据质量直接影响着最终案例推理的结果。中医学经过数千年的发展,各类医学典籍浩如烟海,同时,由于我国幅员辽阔,不同地区由于地理环境、自然资源等因素不同,导致中医学的发展方向和发展程度略有不同。不同的老中医在记录医案时,由于个人喜好、认识的不同,导致中医医案中的症状数据存在如下问题:
1)数据缺失
数据缺失主要体现在舌诊和脉诊上面。在不同老中医的医案里面,对舌诊和脉诊信息的描述程度会有不同。例如,对于脉诊中的“弦脉”,有的老中医在医案中会将其完整地记录为“弦脉”,但有的老中医则只会记录为“弦”。
2)术语不规范
同症异名现象在中医医案中非常普遍。例如,舌红和舌赤实为同义词,但不同老中医可能由于个人习惯问题,在医案里面将这一症状记录为舌红或舌赤。
3)文本过短
每条医案的症状描述部分通常只包含症状实体本身,并且症状词的数量通常不会很多。每条医案的刻下症部分通常含有5~10个症状词,舌诊和脉诊部分通常只含有1~3个症状词。同时,这些症状词背后通常还含有丰富的隐含语义信息,这些隐含的语义信息难以从症状词本身直接获取到。
现有技术提出了将中医症状扩展出实例层、属性层的获取方法,针对上述中医症状数据存在的问题导致在进行概念层的案例推理时不能高效分析中医数据的技术问题,目前尚未提出对于概念层的获取有效的解决方案。
发明内容
本发明实施例提供了一种知识路径的获取方法,以至少解决现有技术在进行案例推理时由于中医症状的数据存在问题导致不能高效分析中医数据的技术问题。
根据本发明实施例的一个方面,提供了一种知识路径的获取方法,包括:获取待寻知识路径的初始节点,其中,所述初始节点是症状信息和/或患者基本信息,所述知识路径由多个节点构成,所述节点是与所述症状信息和/或患者基本信息相关联的概念层特征;确定待寻知识路径的终点,其中,所述终点是根据症状信息和/或患者基本信息寻径得到的概念层特征阴或阳;通过贪心算法在所述初始节点与所述终点之间进行寻径获得多个知识路径;通过特征优化对多个知识路径进行筛选获得预定数量的待寻知识路径。
进一步地,获取待寻知识路径的初始节点包括:判断所述初始节点与预设标准词一致,则将所述初始节点作为待寻路径的起点,其中,所述预设的标准词是症状信息和/或患者基本信息中标准化的词。
进一步地,在判断所述初始节点与预设标准词不一致情况下包括:计算所述预设标准词与所述初始节点的相似度;寻找与所述初始节点的相似度超过阈值的预设标准词;将相似度超过阈值的预设标准词作为待寻知识路径的起点。
进一步地,通过贪心算法在所述初始节点与所述终点之间进行寻径获得多个知识路径包括:通过路径获取函数结合贪心算法在所述初始节点与所述终点之间进行寻径获得多个知识路径,其中,所述路径获取函数是以预设步长增加起点和终点之间的路径长度来获取路径,所述步长是寻径过程中每次增加起点和终点间的路径长度。
进一步地,通过所述贪心算法和所述路径获取函数在所述初始节点与所述终点之间进行寻径获得多个知识路径包括:获取在所述初始节点与所述终点之间的预设中间节点,其中,所述预设中间节点是预设类型的词,所述预设类型分别是病因、病机、病性、证候和经络穴位,所述初始节点、所述终点和所述预设中间节点构成路径,所述预设中间节点的数量是所述预设路径长度减一;判断所述路径中包含预设类型的预设中间节点;将包含预设类型的预设中间节点的路径作为知识路径。
进一步地,在所述路径没有包含所有预设类型的预设中间节点的情况下包括:继续以预设步长增加起点和终点之间的路径长度直至预设路径长度,其中,所述预设路径长度是设定预设中间节点的数量;获取在所述初始节点与所述终点之间的预设中间节点;将在所述初始节点与所述终点之间包含预设中间节点的路径作为知识路径。
进一步地,通过特征优化对多个知识路径进行筛选获得预定数量的待寻知识路径包括:计算多个知识路径中每一条知识路径的得分;根据所述得分对所述知识路径进行优先级排序;将优先级高的知识路径作为待寻知识路径,其中,所述优先级高是计算知识路径中每一条知识路径的得分高。
根据本发明实施例的另一方面,还提供了一种知识路径的获取***,包括:获取单元,用于获取待寻知识路径的初始节点,其中,所述初始节点是症状信息和/或患者基本信息,所述知识路径由多个节点构成,所述节点是与所述症状信息和/或患者基本信息相关联的概念层特征;确定单元,用于确定待寻知识路径的终点,其中,所述终点是根据症状信息和/或患者基本信息寻径得到的概念层特征阴或阳;搜寻单元,用于在所述初始节点与所述终点之间进行寻径获得多个知识路径;筛选单元,用于对多个知识路径进行筛选获得预定数量的待寻知识路径。
在本发明实施例中,采用获取待寻知识路径的初始节点,其中,所述初始节点是症状信息和/或患者基本信息,所述知识路径由多个节点构成,所述节点是与所述症状信息和/或患者基本信息相关联的概念层特征;确定待寻知识路径的终点,其中,所述终点是根据症状信息和/或患者基本信息寻径得到的概念层特征阴或阳,所述阴或阳属于概念层特征;通过贪心算法在所述初始节点与所述终点之间进行寻径获得多个知识路径;通过特征优化对多个知识路径进行筛选获得预定数量的待寻知识路径的方式,解决了现有技术在进行案例推理时由于中医症状的数据存在问题导致不能高效分析中医数据的技术问题,达到了高效和准确的分析中医数据的技术效果。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的一种知识路径的获取方法的流程图;
图2是根据本发明实施例的一种可选的与舌红相关联的概念层特征图;
图3是根据本发明实施例的一种可选的腹痛知识路径查询结果的示意图;
图4是根据本发明实施例的一种优化概念特征存储的示意图;
图5是根据本发明实施例的一种概念层特征获取的流程图;
图6是根据本发明实施例的一种知识路径的获取***的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
根据本发明实施例,提供了一种知识路径的获取方法的实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机***中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图1是根据本发明实施例的一种知识路径的获取方法,如图1所示,该方法包括如下步骤:
步骤S102,获取待寻知识路径的初始节点,其中,初始节点是症状信息和/或患者基本信息,知识路径由多个节点构成,节点是与症状信息和/或患者基本信息相关联的概念层特征;
步骤S104,确定待寻知识路径的终点,其中,终点是根据症状信息和/或患者基本信息寻径得到的概念层特征阴或阳,所述阴或阳是概念层特征中的一种;
步骤S106,通过贪心算法在初始节点与终点之间进行寻径获得多个知识路径;
步骤S108,通过特征优化对多个知识路径进行筛选获得预定数量的待寻知识路径。
上述步骤是基于知识图谱的数据存储结构进行的,因为知识图谱的数据存储结构为图,所以上述步骤通过设定起点和终点来指定搜索扩展的起始和终止边界,从而形成知识路径。
在上述步骤S104中,在《中医基础理论》里面,阴阳学说被认为是中医学特有的思维方法,广泛用来解释人体的生命活动、疾病的发生原因和病理变化,并指导着疾病的诊断和防治。名老中医在辨证论治的过程中,也讲究“万物归阴阳”,其含义就是外在的疾病特征通过某些关系可以与阴阳建立起联系。基于此理论,在上述知识路径里面,可以指定终止节点为阴或阳。
经过上述步骤S106后获得了多个知识路径,每个知识路径相当于在基于症状标签体系的扩展之后,医案中的症状具有了概念层特征和属性层特征。例如,如图2所示,图2中的症状信息“舌红”存在着与“舌红”有各种各样语义关系的节点,也就是以“舌红”为初始节点进行寻径时找到各种不同的知识路径,每种知识路径包含很多与“舌红”存在各种各样语义关系的节点。由于把和“舌红”所有相关联的节点(概念层特征)全部保留就会增加大量后续工作量降低效率,所以通过步骤S108减少知识路径的数量到达合适的预定数量。
上述步骤中的初始节点是指实例层特征、属性层特征,实例层特征是症状信息和/或患者基本信息中一些词的集合,一个实例层特征是实例层中的某一个词(路径中的一个节点),属性层特征描述了数据对象的基本信息,属性数据可以从数据对象本身直接或间接地得到,比如,属性层特征包含将症状信息和/或患者基本信息中一些词分解的词的集合。
通过上述步骤中的实例层特征和/或属性层特征作为起始节点进行路径搜索,在初始节点与终点之间找到所有可能的知识路径,由于多个知识路径包含了所有与初始节点相关联的概念层特征,所以充分挖掘每个症状词(初始节点)所隐含的语义特征(概念层特征)。解决了中医医案数据存在症状文本过短的问题导致的在进行案例推理时不能高效、准确分析中医数据的技术问题,达到了高效的分析中医数据的目的。
由于在中医症状数据存在数据缺失和术语不规范的问题,所以上述步骤中的初始节点可能是规范不缺失的,也可能是数据缺失和术语不规范的。获取待寻知识路径的初始节点可以先判断初始节点与预设标准词是否一致,初始节点与预设标准词一致代表数据规范不缺失,在初始节点的词是规范不缺失的情况下,在一个可选的实施方式中,获将初始节点作为待寻路径的起点,其中,预设的标准词是症状信息和/或患者基本信息中标准化的词。
判断初始节点与预设标准词会不一致代表数据缺失或术语不规范,在一个可选的实施方式中,此时需要先计算预设标准词与初始节点的相似度;再寻找与初始节点的相似度超过阈值的预设标准词;然后将相似度超过阈值的预设标准词作为待寻知识路径的起点。例如,把标准症状词作为知识路径的起始节点,预先设置一些标准症状词,这些标准症状词的集合作为预设标准词。当某个症状经过标签化处理后,没有找到对应的预设标准词,则将已经打上的实例层特征和属性层特征标签的初始节点与预设标准词进行相似度计算,取相似度超过阈值且最大的预设标准词作为初始节点进行知识寻径。
通过上述步骤可以最大限度地解决数据缺失和数据不规范的问题,从而提高对中医医案数据的分析效率。
在一种可选的实施方式中,通过路径获取函数结合贪心算法在初始节点与终点之间进行寻径获得多个知识路径,其中,路径获取函数是以预设步长增加起点和终点之间的路径长度来获取路径的函数,步长是寻径过程中每次增加起点和终点间的路径长度。例如,首先指定知识路径的起始节点和终止节点,以一定的步长h逐步增加起点和终点之间的路径长度。为了使路径长度均匀增长,从而便于得到每一种可能的知识路径,在这里设定h的值为1。当两个节点间的路径长度超过6时,二者的关联关系就会变得十分微弱,所以在这里设置路径长度优选上限k=6。
依据《中医基础理论》里面对症状的描述,中医症状的概念特征可以预先分成五种词;预设类型,分别是病因、病机、病性、证候和经络穴位。为了通过贪心算法和路径获取函数获取症状的概念层特征,在一种可选的实施方式中,首先,获取在初始节点与终点之间的预设中间节点,其中,预设中间节点是预设类型的词,预设类型分别是病因、病机、病性、证候和经络穴位,初始节点、终点和预设中间节点构成路径,预设中间节点的数量是预设路径长度减一;其次,判断路径中预设类型的预设中间节点;然后,将包含预设类型的预设中间节点的路径作为知识路径。
通过上述步骤可以充分的挖掘与每一个初始节点(比如症状词)相关联的所有概念特征,并且所挖掘到的概念特征可以根据中医的理论形成包含病因、病机、病性、证候和经络穴位的路径,每一个路径包含相关联的病因、病机、病性、证候和经络穴位,多个路径就是找到了有关初始节点的包含不同病因、病机、病性、证候和经络穴位的路径集合,就是说可以通过一个初始的输入症状词就可以从多层语义上找到与之相匹配的医案数据,大大提高了分析数据的效率和准确性,为案例推理提供便捷。
在路径没有包含所有预设类型的预设中间节点的情况下,在一种可选的实施方式中,继续以预设步长增加起点和终点之间的路径长度直至预设路径长度,其中,预设路径长度是设定预设中间节点的数量;获取在初始节点与终点之间的预设中间节点;将在初始节点与终点之间包含预设中间节点的路径作为知识路径。例如,路径获取函数可以基于Cypher语言和贪心算法的思想,通过每次指定的知识路径的长度,判断得到的路径中是否含有病因、病机、病性、证候和经络穴位这五种类型的中间节点。如果不能全部得到,就以一定的步长增加路径的长度,直到能够获取到全部的五类节点。
下面通过一个可选的实施方式对上述过程进行说明:
症状的概念特征存在于特定的知识路径上,获取概念层特征需要获取知识路径,预设中间节点是知识路径模板,五种预设类型的症状概念特征的知识路径模板分别是病因、病机、病性、证候和经络穴位。基于这些,可以得到初步简化了的概念特征。对于每一种知识路径模式,在知识图谱里面都可以扩展出多条对应的实例路径,如图3所示,令起始节点为症状“腹痛”,终止节点为“阳”,知识路径模式为“证症关系—病位关系—子概念”,则通过知识图谱可以得到如图3所示的知识路径集合。也就是说症状“腹痛”在特定的知识路径“证症关系—病位关系—子概念”下就扩展出了11条路径实例,这11条路径里面包含5种证候信息。
再比如,通过贪心算法在所述初始节点与所述终点之间进行寻径获得多个知识路径,其中以症状为寻径初始节点的知识路径中包含关于证候的知识路径共有23种,如果不加处理地保留这23种知识路径扩展出来的证候,将会得到一个规模庞大的证候特征集合,在这个证候集合中存在一部分与检索无关的冗余特征,需要采取一定的约减策略来进一步简化得到的最终的待寻知识路径。在一种可选的实施方式中,通过特征优化对多个知识路径进行筛选获知识路径进行优先级排序;将优先级高的知识路径作为待寻知识路径,其中,优先级高是所述优先级高是计算知识路径中每一条知识路径的得分高,计算该得分根据如下计算公式(1):
Figure BDA0001725594380000071
其中,Sp代表某条路径P的排名得分;Eq为一组查询实体集合,Eq={e1,e2,…ei},e代表节点;P是一条关系路径;得预定数量的待寻知识路径包括:计算多个知识路径中每一条知识路径的得分;根据得分对hEq,p(e)表示开始节点一步游走到第二个节点上的概率;hEq,p(e)的计算根据公式(2):
Figure BDA0001725594380000072
Cp的计算根据公式(3):
Figure BDA0001725594380000073
Cp代表了节点e与e'构成的路径P的重要程度,其中Cp代表路径的重要程度;Ce代表节点的重要程度,其计算根据公式(4):
Figure BDA0001725594380000081
其中,Degree为节点度,ClusterCofficient为集聚系数,为了均衡节点的度与集聚系数的重要性,取α的值为0.5。
上述步骤通过特征优化策略(PRA),保留了概念特征中较为重要的部分,删减掉了一些得分较低的概念特征。
基于PRA的特征优化策略中。比如,在以症状为起点,阴阳为终点,经统计分析路径得分排序结果中,绝大多数排名在第六名以后的知识路径中间节点数量过多,故取得分排名阈值K为5。
这些路径对应的概念特征将会用于接下来的案例库构建以及案例检索阶段。如图4所示,医案id为125的医案在经过特征初步获取与优化后,最终将概念层特征存储到数据库中。
下面根据一个可选的实施方式对整个过程结合图5进行说明:
本实施例将语义特征划分为三层:实例层特征、属性层特征以及概念层特征。实例层和属性层特征属于多层语义特征中的前两层特征,其本质是对每个症状进行了一次初步的细化描述,可以从症状词本身直接或间接地得到;概念层特征属于隐含的语义信息,一般情况下不能通过症状数据本身来得到,需要借助于某些特殊的手段。通常来说,概念和实例是多对多的关系,也就是说,一个概念可以包含多个实例,一个实例又可以从属于多个概念;实例和属性间是一对多的关系,也即一个实例可以包含若干个属性。对三者进行一下定义。
定义1实例令R表示一条医案的辩证信息,S表示由辩证信息中的患者基本信息和症状词组成的集合,且对于一个由m个词组成的辩证信息,可以表示为R={s1,s2,…,sm},其中sk∈S,k∈[1,m]。如果存在某个词语sk表示某个具体的症状或患者基本信息,则称sk为一个实例(Instance)。相应的,由sk组成的集合称之为实例集(Instance Set)。例如,“腹痛”就是一个症状实例,{腹泻、便血、腹痛、眠差、暗红、薄白、细脉、弦脉}代表一个症状实例集,{}里的每一项都是是一个实例,{}仅仅单纯代表一个症状实例集合。
定义2属性令I表示一个实例,并且有集合D={a1,a2,…,am},其中ak∈I,k∈[1,m],此时称ak为实例I的一个属性(Attribute),集合D为实例I的属性集(Attribute Set)。实例的属性可以从实例中直接或间接地得到。例如,症状实例“舌质淡红”,其属性包含{舌质,淡,红,淡红},该集合称为症状实例“舌质淡红”的属性集。
定义3概念令R表示一条医案的辩证信息,S表示由辩证信息中患者基本信息和症状词组成的集合,且对于一个由m个词组成的辩证信息,可以表示为R={s1,s2,…,sm},其中sk∈S,k∈[1,m],si为辩证信息中的一个实例。如果存在一个ck是si的父类或是与之关联的隐含特征,则称ck为实例si的一个概念(Concept)。相应的,由多个ck组成的集合叫做概念集(Concept Set)。腹痛的症候,症候是实例腹痛的隐含特征。例如,对于“舌红”来说,其可以同时属于“肠燥津亏证”、“小肠实热证”、“湿热蕴脾证”、“肝胆湿热证”和“胆郁痰扰证”等多个证候,相应的集合Z={肠燥津亏证,小肠湿热证,湿热蕴脾证,胆郁痰扰证}就是症状实例“舌红”的一个概念集。
实例层和属性层特征描述了症状的基本信息,其本质是对症状的一种细化描述。获取实例层和属性层特征能够对中医症状进行标准的、结构化的表示,使症状实现语义层面的初步扩展。同时,也能够为概念层特征的获取奠定基础,其获取方法为基于中医症状标签体系的特征自动获取方法(一种中医症状标签体系的构建方法参考专利号为201611235453.8的专利)。经过基于症状标签体系的扩展之后,医案中的症状已经具有了概念层和属性层的特征。
本实施例的多层语义特征包含三层:实例层、属性层和概念层,而概念层的特征获取较为复杂,需要借助专门的领域知识库才能进行获取。本实施例是基于知识图谱的概念层特征获取路径的,其目的在于通过分析给定实体在知识图谱中的位置以及与之存在语义关系的概念有哪些,从而确定应该将哪些概念作为其扩展的语义特征。知识图谱是一种基于图模型的复杂语义网络,节点与节点之间存在着复杂的语义关系。理论上,对于一个给定的实体,如果不加任何限制,其在知识图谱里面很可能会扩展出非常多的语义特征。容易导致如下后果:1)特征过多,从而容易导致维数灾难2)原始特征中可能存在着大量冗余特征3)在各类检索应用中,计算实体(症状词)间特征的相似度是衡量实体相似度的重要方法,原始特征集合中存在大量特征权重较低的特征,这些特征对实体间相似度的计算不会带来太大帮助,反而增大了检索***的时间复杂度。
为了获取症状的概念层特征,本实施例核心步骤包括:步骤一、节点间知识路径的获取;步骤二、基于知识路径的概念层特征获取;步骤三、概念层特征的进一步优化选择。具体步骤如下:
步骤一:经过基于症状标签体系的扩展之后,医案中的症状已经具有了概念层和属性层的特征。某个症状经过标签化处理后,没有找到对应的标准症状词,此时需要根据已经打上的实例层和属性层特征标签去和已有的标准词进行相似度计算,取相似度超过阈值且最大的标准症状词进行知识寻径。
步骤二:知识图谱是一种语义网络,节点与节点间的关系较为复杂。在已知知识路径的起点和终点的情况下,很难根据先验知识获取二者之间的中间节点以及关系的信息。为了解决路径获取问题,提出一种基于贪心算法的知识路径获取策略。贪心算法,又称为贪婪算法。顾名思义,就是在解决问题时,总是祈求能够做出在当前看来是最好的选择。它没有固定的算法框架,核心思想是选择最佳的贪心策略。针对本实施例所面临的知识寻径问题,使用贪心算法的思想可以帮助发现节点间的知识路径。
步骤三:基于步骤二中的知识路径模板,使用最基本的概念层特征获取方法得到粗糙的概念层特征集合。最基本的概念层特征获取方法,就是使用每种概念特征的全部知识路径进行扩展。
步骤四:基于获取的知识路径,本实施例可以得到症状粗糙的概念层特征集合。之所以称其为粗糙的概念层特征集合,是因为每种症状扩展出的概念层特征依然较多,里面依然含有一些与实际应用无关的特征。为了进一步优化概念层特征集合,提出一种基于PRA的特征优化方法,使得每条案例中的症状数据扩展出的概念层特征集合更加纯净。PRA(Path Ranking Algorithm),即路径排序算法,其可以看作是随机游走算法(Random WalkAlgorithm,RWA)的一种改进版本,相当于沿着一组带有特定类型信息的边的序列集合上的随机游走,即限制了游走路径的RWA算法。
本实施例针对中医医案中症状数据存在的数据缺失、术语不规范、短文本等问题,使用多层语义特征技术对案例中的症状进行多层次的特征扩展,可以基于知识图谱的自动获取概念层特征(知识路径)的技术,提高了对中医医案中的症状数据的分析效率和分析准确度。
本发明实施例提供了一种知识路径的获取***,图6是根据本发明实施例的一种知识路径的获取***,如图6所示,该***包括:
获取单元62,用于获取待寻知识路径的初始节点,其中,初始节点是症状信息和/或患者基本信息,知识路径由多个节点构成,节点是与症状信息和/或患者基本信息相关联的概念层特征;
确定单元64,用于确定待寻知识路径的终点,其中,终点是根据症状信息和/或患者基本信息寻径得到的概念层特征阴或阳;
搜寻单元66,用于在初始节点与终点之间进行寻径获得多个知识路径;
筛选单元68,用于对多个知识路径进行筛选获得预定数量的待寻知识路径。
上述知识路径的获取***实施例是与知识路径的获取方法相对应的,所以对于有益效果不再赘述。
本发明实施例提供了一种存储介质,存储介质包括存储的程序,其中,在程序运行时控制存储介质所在设备执行上述方法。
本发明实施例提供了一种处理器,处理器包括处理的程序,其中,在程序运行时控制处理器所在设备执行上述方法。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (7)

1.一种知识路径的获取方法,其特征在于,包括:
获取待寻知识路径的初始节点,其中,所述初始节点是症状信息和/或患者基本信息,所述知识路径由多个节点构成,所述节点是与所述症状信息和/或患者基本信息相关联的概念层特征;
获取待寻知识路径的初始节点包括:
判断所述初始节点与预设标准词一致,则将所述初始节点作为待寻路径的起点,其中,所述预设的标准词是症状信息和/或患者基本信息中标准化的词;
在判断所述初始节点与预设标准词不一致情况下包括:
计算所述预设标准词与所述初始节点的相似度;
寻找与所述初始节点的相似度超过阈值的预设标准词;
将相似度超过阈值的预设标准词作为待寻知识路径的起点;
确定待寻知识路径的终点,其中,所述终点是根据症状信息和/或患者基本信息寻径得到的概念层特征阴或阳;
通过贪心算法在所述初始节点与所述终点之间进行寻径获得多个知识路径;
通过特征优化对多个知识路径进行筛选获得预定数量的待寻知识路径;包括:
计算多个知识路径中每一条知识路径的得分;
根据所述得分对所述知识路径进行优先级排序;
将优先级高的知识路径作为待寻知识路径,其中,所述优先级高是计算知识路径中每一条知识路径的得分高;
计算该得分根据如下计算公式(1):
Figure FDA0003488658090000011
其中,Sp代表某条路径P的排名得分;Eq为一组查询实体集合,Eq={e1,e2,…ei},e代表节点;P是一条关系路径;得预定数量的待寻知识路径包括:计算多个知识路径中每一条知识路径的得分;根据得分对hEq,p(e)表示开始节点一步游走到第二个节点上的概率;hEq,p(e)的计算根据公式(2):
Figure FDA0003488658090000021
Cp的计算根据公式(3):
Figure FDA0003488658090000022
Cp代表了节点e与e'构成的路径P的重要程度;Ce代表节点的重要程度,其计算根据公式(4):
Figure FDA0003488658090000023
其中,Degree为节点度,ClusterCofficient为集聚系数,为了均衡节点的度与集聚系数的重要性,取α的值为0.5。
2.根据权利要求1所述的方法,其特征在于,通过贪心算法在所述初始节点与所述终点之间进行寻径获得多个知识路径包括:
通过路径获取函数结合贪心算法在所述初始节点与所述终点之间进行寻径获得多个知识路径,其中,所述路径获取函数是以预设步长增加起点和终点之间的路径长度来获取路径,所述步长是寻径过程中每次增加起点和终点间的路径长度。
3.根据权利要求2所述的方法,其特征在于,通过所述贪心算法和所述路径获取函数在所述初始节点与所述终点之间进行寻径获得多个知识路径包括:
获取在所述初始节点与所述终点之间的预设中间节点,其中,所述预设中间节点是预设类型的词,所述预设类型分别是病因、病机、病性、证候和经络穴位,所述初始节点、所述终点和所述预设中间节点构成路径,所述预设中间节点的数量是所述预设路径长度减一;
判断所述路径中包含所有预设类型的预设中间节点;
将包含所有预设类型的预设中间节点的路径作为知识路径。
4.根据权利要求3所述的方法,其特征在于,在所述路径中没有包含所有预设类型的预设中间节点的情况下包括:
继续以预设步长增加起点和终点之间的路径长度直至达到预设路径长度,其中,所述预设路径长度是设定预设中间节点的数量加一;
获取在所述初始节点与所述终点之间的预设中间节点;
将在所述初始节点与所述终点之间包含预设中间节点的路径作为知识路径。
5.一种知识路径的获取***,其特征在于,包括:
获取单元,用于获取待寻知识路径的初始节点,其中,所述初始节点是症状信息和/或患者基本信息,所述知识路径由多个节点构成,所述节点是与所述症状信息和/或患者基本信息相关联的概念层特征;
所述获取单元具体用于:
判断所述初始节点与预设标准词一致,则将所述初始节点作为待寻路径的起点,其中,所述预设的标准词是症状信息和/或患者基本信息中标准化的词;
在判断所述初始节点与预设标准词不一致情况下包括:
计算所述预设标准词与所述初始节点的相似度;
寻找与所述初始节点的相似度超过阈值的预设标准词;
将相似度超过阈值的预设标准词作为待寻知识路径的起点;
确定单元,用于确定待寻知识路径的终点,其中,所述终点是根据症状信息和/或患者寻径得到的概念层特征阴或阳;
搜寻单元,用于在所述初始节点与所述终点之间进行寻径获得多个知识路径;
筛选单元,用于对多个知识路径进行筛选获得预定数量的待寻知识路径;
所述筛选单元具体用于:
计算多个知识路径中每一条知识路径的得分;
根据所述得分对所述知识路径进行优先级排序;
将优先级高的知识路径作为待寻知识路径,其中,所述优先级高是计算知识路径中每一条知识路径的得分高;
计算该得分根据如下计算公式(1):
Figure FDA0003488658090000031
其中,Sp代表某条路径P的排名得分;Eq为一组查询实体集合,Eq={e1,e2,…ei},e代表节点;P是一条关系路径;得预定数量的待寻知识路径包括:计算多个知识路径中每一条知识路径的得分;根据得分对hEq,p(e)表示开始节点一步游走到第二个节点上的概率;hEq,p(e)的计算根据公式(2):
Figure FDA0003488658090000032
Cp的计算根据公式(3):
Figure FDA0003488658090000041
Cp代表了节点e与e'构成的路径P的重要程度;Ce代表节点的重要程度,其计算根据公式(4):
Figure FDA0003488658090000042
其中,Degree为节点度,ClusterCofficient为集聚系数,为了均衡节点的度与集聚系数的重要性,取α的值为0.5。
6.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,所述程序执行权利要求1至4中任意一项所述的方法。
7.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1至4中任意一项所述的方法。
CN201810751261.5A 2018-07-10 2018-07-10 知识路径的获取方法 Active CN109065173B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810751261.5A CN109065173B (zh) 2018-07-10 2018-07-10 知识路径的获取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810751261.5A CN109065173B (zh) 2018-07-10 2018-07-10 知识路径的获取方法

Publications (2)

Publication Number Publication Date
CN109065173A CN109065173A (zh) 2018-12-21
CN109065173B true CN109065173B (zh) 2022-04-19

Family

ID=64819404

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810751261.5A Active CN109065173B (zh) 2018-07-10 2018-07-10 知识路径的获取方法

Country Status (1)

Country Link
CN (1) CN109065173B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110335675B (zh) * 2019-06-20 2021-10-01 北京科技大学 一种基于中医知识图库的辨证方法
CN110825862B (zh) * 2019-11-06 2022-12-06 北京诺道认知医学科技有限公司 基于药学知识图谱的智能问答方法及装置
CN111241241B (zh) * 2020-01-08 2024-05-31 平安科技(深圳)有限公司 基于知识图谱的案件检索方法、装置、设备及存储介质
CN112988994B (zh) * 2021-03-04 2023-03-21 网易(杭州)网络有限公司 对话处理方法、装置及电子设备
CN113611424A (zh) * 2021-06-29 2021-11-05 中国科学院微生物研究所 基于毒株角度的冠状病毒关联数据的知识挖掘方法及装置
CN113609250A (zh) * 2021-06-29 2021-11-05 中国科学院微生物研究所 基于科学角度的冠状病毒关联数据的知识挖掘方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106227820A (zh) * 2016-07-22 2016-12-14 北京科技大学 一种中医基础理论知识图库的构建方法
CN106570319A (zh) * 2016-10-31 2017-04-19 北京科技大学 一种确定中医诊断模式的方法及装置
CN106874695A (zh) * 2017-03-22 2017-06-20 北京大数医达科技有限公司 医疗知识图谱的构建方法和装置
CN106933994A (zh) * 2017-02-27 2017-07-07 广东省中医院 一种基于中医药知识图谱的核心症证关系构建方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101615182A (zh) * 2008-06-27 2009-12-30 西门子公司 中医症状信息存储***及中医症状信息存储方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106227820A (zh) * 2016-07-22 2016-12-14 北京科技大学 一种中医基础理论知识图库的构建方法
CN106570319A (zh) * 2016-10-31 2017-04-19 北京科技大学 一种确定中医诊断模式的方法及装置
CN106933994A (zh) * 2017-02-27 2017-07-07 广东省中医院 一种基于中医药知识图谱的核心症证关系构建方法
CN106874695A (zh) * 2017-03-22 2017-06-20 北京大数医达科技有限公司 医疗知识图谱的构建方法和装置

Also Published As

Publication number Publication date
CN109065173A (zh) 2018-12-21

Similar Documents

Publication Publication Date Title
CN109065173B (zh) 知识路径的获取方法
CN113707297B (zh) 医疗数据的处理方法、装置、设备及存储介质
CN105653840B (zh) 基于词句分布表示的相似病例推荐***及相应的方法
Chen et al. The thematic and citation landscape of data and knowledge engineering (1985–2007)
CN109086356B (zh) 大规模知识图谱的错误连接关系诊断及修正方法
CN109657110B (zh) 一种数据溯源方法以及相应的数据溯源装置
CN116682553B (zh) 一种融合知识与患者表示的诊断推荐***
WO2015093541A1 (ja) シナリオ生成装置、及びそのためのコンピュータプログラム
WO2022116430A1 (zh) 基于大数据挖掘的模型部署方法、装置、设备及存储介质
CN108461110B (zh) 医疗信息处理方法、装置及设备
CN105893585B (zh) 一种结合标签数据的二部图模型学术论文推荐方法
Li et al. An approach for approximate subgraph matching in fuzzy RDF graph
Wang et al. Preference-based spatial co-location pattern mining
WO2015093539A1 (ja) 複雑述語テンプレート収集装置、及びそのためのコンピュータプログラム
Wu et al. A novel community answer matching approach based on phrase fusion heterogeneous information network
WO2021238436A1 (zh) 多药共用查询方法、移动终端及存储介质
CN113220904A (zh) 数据处理方法及数据处理装置、电子设备
CN110033191B (zh) 一种商业人工智能的分析方法及***
CN106126681A (zh) 一种增量式流式数据聚类方法及***
Astudillo et al. Self-organizing maps whose topologies can be learned with adaptive binary search trees using conditional rotations
Kundu et al. Building a graph database for storing heterogeneous healthcare data
CN107291875B (zh) 一种基于元数据图的元数据组织管理方法和***
CN116186297A (zh) 一种基于图流形学习的文献关系发现方法及***
CN114004237A (zh) 一种基于膀胱癌知识图谱的智能问答***构建方法
Abdallah et al. Towards a gml-enabled knowledge graph platform

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant