CN107657063A - 医学知识图谱的构建方法及装置 - Google Patents
医学知识图谱的构建方法及装置 Download PDFInfo
- Publication number
- CN107657063A CN107657063A CN201711036895.4A CN201711036895A CN107657063A CN 107657063 A CN107657063 A CN 107657063A CN 201711036895 A CN201711036895 A CN 201711036895A CN 107657063 A CN107657063 A CN 107657063A
- Authority
- CN
- China
- Prior art keywords
- entity
- medical knowledge
- illustrative plates
- default
- entities
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种医学知识图谱的构建方法及装置,该方法中,首先对于医学知识数据源的词汇抽取以及实体识别,并确定实体所属的本体,接着构建一句话中任意两个实体组成的实体对的特征向量,特征向量中包含实体的信息以及实体所述本体的信息,接着对各个实体对进行筛选并基于预设的实体之间的关系进行分类,从而得到两个实体以及实体关系的第一三元组数据,最后将该第一三元组数据导入到数据库中进行可视化从而得到医学知识图谱。本发明实施例提供的方法能够有效地从病历或医疗知识文献等数据中整理出医学知识,并自动生成医学知识图谱,从而能够为医生诊断时提供较为详实有效的参考方案。
Description
技术领域
本发明涉及软件技术领域,具体涉及一种医学知识图谱的构建方法及装置。
背景技术
病历是医务人员对患者疾病的发生、发展、转归,进行检查、诊断、治疗等医学活动过程所作的文字记录。病历既是临床实践工作的总结,又是探索疾病规律及处理医学纠纷的法律依据,是国家的宝贵财富。在临床医学中,有效整理病历,从中挖掘医生临床经验,对医学进步具有重大意义。
然而,在实施本发明实施例的过程中发明人发现,在实际诊疗中,由于医务人员本身存在知识储备和临床经验等方面的差异性,往往不同的医务人员针对同一种疾病或者症状的诊断方式以及用药习惯等也不尽相同,而出现有的收效显著有的却见效甚微。而通过组织业内医务人员的进行治疗经验交流,不仅需要大量的人力物力,且不具有实时于生和普遍共享性。因此,如何有效地从病历中或医疗知识文献等数据中整理出医学知识,实现医学知识共享显得尤为重要。
发明内容
本发明实施例的目的在于提供一种医学知识图谱的构建方法及装置。
第一方面,本发明实施例提供了一种医学知识图谱的构建方法,
对医学知识数据源的结构化文本进行分词处理;
基于预设的医学知识图谱词典对分词处理之后的若干个词汇进行字符串识别,将识别之后的词汇作为实体;基于预设的本体库确定所述实体所属的本体,所述本体库中包含本体以及本体关系,所述本体用于描述所述实体所述的类别,所述本体关系用于描述各个本体之间的对应关系;
选取一句话中任意两个实体构造该实体对的特征向量;其中,所述特征向量中包含每个实体所属的本体、所述实体在其所属本体中所属的子类、所述实体的词性以及两个实体之间在语言逻辑上的位置关系;
基于所述本体库中的本体关系,对各个实体对进行筛选,去除其中第一实体对;所述第一实体对,为包含的两个实体所属的本体在本体库中不存在对应本体关系的实体对;
对筛选后的实体对基于预设的本体关系进行匹配分类操作,得到第一三元组数据,所述第一三元组数据包含实体对中的两个实体以及分类操作后得到的两个实体的实体关系;
第二方面,本发明实施例又提供了一种医学知识图谱的构建装置,包括:
分词单元,用于对医学知识数据源的结构化文本进行分词处理;
识别单元,用于基于预设的医学知识图谱词典对分词处理之后的若干个词汇进行字符串识别,将识别之后的词汇作为实体;基于预设的本体库确定所述实体所属的本体,所述本体库中包含本体以及本体关系,所述本体用于描述所述实体所述的类别,所述本体关系用于描述各个本体之间的对应关系;
构建单元,用于选取一句话中任意两个实体构造该实体对的特征向量;其中,所述特征向量中包含每个实体所属的本体、所述实体在其所属本体中所属的子类、所述实体的词性、两个实体之间在语言逻辑上的位置关系以及两个实体在所述医学知识数据源的结构化文本中的前后若干个词汇;
筛选单元,用于基于所述本体库中的本体关系,对各个实体对进行筛选,去除其中第一实体对;所述第一实体对,为包含的两个实体所属的本体在本体库中不存在对应本体关系的实体对;
分类单元,用于对筛选后的实体对基于预设的本体关系进行匹配分类操作,得到第一三元组数据,所述第一三元组数据包含实体对中的两个实体以及分类操作后得到的两个实体的实体关系;
可视化单元,用于将所述第一三元组数据导入到数据库中进行可视化操作,生成医学知识图谱。
本发明实施例提供了一种医学知识图谱的构建方法及装置,该方法中,首先对于医学知识数据源的词汇抽取以及实体识别,并确定实体所属的本体,接着构建任意两个实体组成的实体对的特征向量,特征向量中包含实体的信息以及实体所述本体的信息,接着对各个实体对进行筛选并基于预设的实体之间的关系进行分类,从而得到两个实体以及实体关系的第一三元组数据,最后将该第一三元组数据导入到数据库中进行可视化从而得到医学知识图谱。本发明实施例提供的方法能够有效地从病历或医疗知识文献等数据中整理出医学知识,并自动生成医学知识图谱,从而能够为医生诊断时提供较为详实有效的参考方案。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1是本发明提供的一种医学知识图谱的构建方法实施例流程图;
图2是本发明实施例提供的本体及本体关系示意图;
图3是本发明实施例提供的医学知识图谱示意图;
图4是本发明实施例提供的一种具体的医学知识图谱的构建方法实施例流程图;
图5是本发明提供的一种医学知识图谱的构建装置实施例结构示意图;
图6是本发明提供的一种计算机设备实施例结构框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
第一方面,本发明实施例提供了一种医学知识图谱的构建方法,如图1所示,包括:
S101、对医学知识数据源的结构化文本进行分词处理;
S102、基于预设的医学知识图谱词典对分词处理之后的若干个词汇进行字符串识别,将识别之后的词汇作为实体;基于预设的本体库确定所述实体所属的本体,所述本体库中包含本体以及本体关系,所述本体用于描述所述实体所述的类别,所述本体关系用于描述各个本体之间的对应关系;
S103、选取一句话中任意两个实体构造该实体对的特征向量;其中,所述特征向量中包含每个实体所属的本体、所述实体在其所属本体中所属的子类、所述实体的词性、两个实体之间在语言逻辑上的位置关系以及两个实体在所述医学知识数据源的结构化文本中的前后若干个词汇;
S104、基于所述本体库中的本体关系,对各个实体对进行筛选,去除其中第一实体对;所述第一实体对,为包含的两个实体所属的本体在本体库中不存在对应本体关系的实体对;
S105、对筛选后的实体对基于预设的本体关系进行匹配分类操作,得到第一三元组数据,所述第一三元组数据包含实体对中的两个实体以及分类操作后得到的两个实体的实体关系;
S106、将所述第一三元组数据导入到数据库中进行可视化操作,生成医学知识图谱。
本发明实施例提供的医学知识图谱的构建方法中,首先对于医学知识数据源的词汇抽取以及实体识别,并确定实体所属的本体,接着构建任意两个实体组成的实体对的特征向量,特征向量中包含实体的信息以及实体所述本体的信息,接着对各个实体对进行筛选并基于预设的实体之间的关系进行分类,从而得到两个实体以及实体关系的第一三元组数据,最后将该第一三元组数据导入到数据库中进行可视化从而得到医学知识图谱。本发明实施例提供的方法能够有效地从病历或医疗知识文献等数据中整理出医学知识,并自动生成医学知识图谱,从而能够为医生诊断时提供较为详实有效的参考方案。
为便于理解,下面对上述方法实施例中的各个步骤进行详细说明。
S101、对医学知识数据源的结构化文本进行分词处理;
其中,这里的医学知识数据源具体可以包括:电子文献、电子临床指南、电子病历,当然还可以包括其他记载有医学知识的数据源,本发明实施例对此不作具体限定。这里的分词处理方法可以利用自然语言处理(NLP)技术来对医学知识数据源进行分词处理。
需要说明的是,在医学知识数据源为电子病历时,在对医学知识数据源的结构化文本进行分词处理之前,所述方法还可以包括:将电子病历中的非结构化文本转换为结构化文本。具体包括:
S1011、将电子病历中预设的无关信息进行去除;
以电子病历中的住院病历为例,住院病历主要包含主诉、病史、检查、诊断、治疗,治疗效果等部分。首先对住院病历去隐私化,去除病人、诊断医生的一些与构建知识图谱无关的信息,比如姓名,电话等。
S1012、将电子病历中的非结构化文本转换为结构化文本;
将非结构化文本处理为结构化文本,主要用到的住院病历为首程记录和出院小结等,首程记录主要包含病史、初步诊断、诊断依据、鉴别诊断、诊疗计划,其中病史即为非结构化文本,但内容大致可分为病人信息、现病史、过去史、既往史、入院查体、专科检查、辅助检查等七部分,把病史分为这样几部分信息后,再对每一类信息进行细化和提取。经过提取之后,非结构化的文本就变成了计算机能够理解的结构化文本。
S102、基于预设的医学知识图谱词典对分词处理之后的若干个词汇进行字符串识别,将识别之后的词汇作为实体;基于预设的本体库确定所述实体所属的本体,所述本体库中包含本体以及本体关系,所述本体用于描述所述实体所述的类别,所述本体关系用于描述各个本体之间的对应关系;
其中,这里的医学知识图谱词典为预先设置好的词典,可以通过如下方式来构建:基于PCTB词性标注规范,加以部分补充,借鉴使用I2B2,UMLS界定实体范围,以医院词库为基础,构建标准规范的医学知识图谱词典。这一词典中收录了较为全面的各个类型医学知识词汇,例如“肾结石”、“肠镜”、“多囊肾中期”、“上呼吸道感染”、“阿莫西林”或“取石术”等等词汇。
进而可以对于分词处理后的词汇与医学知识图谱词典中的词汇进行字符串识别,并将识别之后的词汇作为实体。例如,如果医学知识数据源中包含“上呼吸道感染用阿莫西林”这样的语句,那么在进行分词之后,“上呼吸道感染”以及“阿莫西林”这样的实体就可以被识别出来。以电子病历为例,由主诉处可得到症状实体,由诊断数据可得到疾病实体,由检查检验数据处理可得到检查实体,由治疗计划数据可得到治疗实体。
在实体被识别出来之后,就可以根据本体库来确定实体所属的本体。这里的本体库也可以为预先设置好的数据库,里面存储了各种本体以及各个本体之间的关系。
其中,这里的本体具体指的是实体所属的类别,可以理解为是实体的上位概念,例如“治疗”、“疾病”、“症状”、“药物”等等,当然还可以包括其他本体。各个本体在存储时可以通过标识来进行存储,例如0代表治疗,1代表疾病,2代表症状。
不难理解,“阿莫西林”实体以及“头孢”实体都属于“药物”这一本体;“囊肿去顶术”以及“取石术”都属于“治疗”这一本体;“感冒”以及“肾结石”都属于“疾病”这一本体。
这里本体关系用于说明本体与本体之间的关系。举例来说,对于治疗、疾病、症状这三个本体可能存在如下关系:
(1)<治疗,改善,疾病>
(2)<治疗,恶化,疾病>
(3)<治疗,导致,疾病>
(4)<治疗,施加于,疾病>
(5)<治疗,改善,症状>
(6)<治疗,恶化,症状>
(7)<治疗,导致,症状>
(8)<治疗,施加于,症状>
(9)非上述类
也就是说,这里的改善、恶化、导致等等即为本体与本体之间的关系。这一关系可以根据实际情况来设置。图2示出了一种本体以及本体关系的举例。
S103、选取一句话中任意两个实体构造该实体对的特征向量;其中,所述特征向量中包含每个实体所属的本体、所述实体在其所属本体中所属的子类、所述实体的词性、两个实体之间在语言逻辑上的位置关系以及两个实体在所述医学知识数据源的结构化文本中的前后若干个词汇;
具体来说,对于抽取出来的实体,将其中的任意两个实体E1以及E2作为一个实体对<E1,E2>,接着构造该实体对对应的特征向量,其特征向量的一种可选的构造方式为:
(E1.Ontology;E2.Ontology;E1.Type;E2.Type;E1.vn;E2.vn;Order Wi-w;Wi-w-1;…Wi-1;Wi+1;…Wi+w;Ti-w;…Ti-1;Ti+1;…,Ti+w Wj-w,Wj-w-1,…Wj-1,Wj+1,…Wj+w,Tj-w,…Tj-1,Tj+1,…,Tj+w)
其中,以E1为例:
E1.Ontology:表示E1的本体,这里可以用本体的标识来表示例如,0代表治疗,1代表疾病,2代表症状。
E1.Type:表示E1这一实体在所属本体中所属的子类,例如E1属于治疗本体,那么Type就表示E1在治疗本体中所属的子类,例如药物治疗或手术治疗,当然也可能存在没有子类的情况。这里同样可以采用标识来表示子类,例如0表示没有子类,1表示药物治疗,2表示手术治疗。
Order:表示E1与E2在数据源中的顺序,0表示E1在E2前边,1表示E1在E2后边。
W:利用word2vec工具将实体周围的词汇转化为向量,其中(0,0,0,0,0,0,0,0)代表实体周围不存在词汇。例如将采用转换为(0,1,0,0,0,1,1,0)。
T:词性特征(T):首先构建词性表D={d1,d2,……,dn},将词性特征向量表示为:T={T1,T2,……,Tn},若词的词性为m,则该词的词性特征向量表示为:(0,0,0……1,…..0),第m个为1。
下面举一个例子来说明上述过程。
医学指南中有这样一段话:对多囊肾中期病人采用囊肿去顶术,有助于降低血压、减轻疼痛和改善肾功能,伴有结石梗阻者施行取石术。
首先进行实体抽取(根据已有的词库)。假如抽取出来的词汇为:多囊肾中期(疾病实体),囊肿去顶术(手术治疗实体),结石梗阻(病症实体),取石术(手术治疗实体)四个实体,那么将会出现如下6个实体对:
<多囊肾中期 囊肿去顶术>
<多囊肾中期 结石梗阻>
<多囊肾中期 取石术>
<囊肿去顶术 结石梗阻>
<囊肿去顶术 取石术>
<结石梗阻 取石术>
对于<囊肿去顶术 取石术>,由于本体库没有存储这个<治疗 治疗>本体关系,因此其就属于本体关系中的第9类。
在上述六个实体对中,以构建<多囊肾中期囊肿去顶术>这一实体对的特征向量为例,E1为多囊肾中期,E2为囊肿去顶,对于向量中的w,设选取E1和E2周围的一个词。则其特征向量为:
【1(表示多囊肾中期属于疾病本体),0(表示囊肿去顶术属于治疗本体),0(表示疾病本体没有子类),2(属于治疗中的手术治疗),0(E1在E2前面),“对”的词向量,“病人”的词向量,“对”的词性特征,“病人”的词性特征,“采用”的词向量(0,1,0,0,0,1,1,0),“有助于”的词性特征,“采用”的词性特征,“有助于”的词性特征】。
S104、基于所述本体库中的本体关系,对各个实体对进行筛选,去除其中第一实体对;所述第一实体对,为包含的两个实体所属的本体在本体库中不存在对应本体关系的实体对;
举例来说,假设实体对中两个实体所对应的本体分别为检查和治疗,而在本体库中并未存储<检查,治疗>这样的本体关系,因此将这一实体对去除。
S105、对筛选后的实体对基于预设的本体关系进行匹配分类操作,得到第一三元组数据,所述第一三元组数据包含实体对中的两个实体以及分类操作后得到的两个实体的实体关系;
其中,这里的实体与实体之间的关系是预先经过专业的人员分类标注好的,例如<治疗,施加于,疾病>,因此这里需要根据标注好的本体关系(例如治疗本体与疾病本体之间的关系)对筛选后的实体对进行匹配分类。具体可以通过决策树、随机森林、逻辑回归、SVM、神经网络等分类器模型进行训练,取70%的数据作为训练集进行模型训练,30%的数据作为测试集测试,经训练后选取分类效果好的分类器。若单个训练器分类正确率不能达到预期要求,则可以利用集成学习将多个分类器整合,以提高分类效果。
经过分类操作后,最终得到<实体,关系,实体>这样的三元组数据,例如得到<取石术,施加于,结石梗阻>这样的三元组数据。
S106、将所述第一三元组数据导入到数据库中进行可视化操作,生成医学知识图谱。
具体来说可以导入Neo4j图数据库中,并进行可视化操作,最终生成医学知识图谱,图3示出了一种医学知识图谱的示例。
从而在医生输入了例如病症、疾病等实体参数之后,在对这些实体参数进行分词以及语义解析之后确定医生想要输入的实体,再基于该已生成的医学知识图谱,可以自动生成并输出关于该实体参数的治疗方案,以供医生参考。
在具体实施时,这里的本体库中还包括预设的实体需要遵守的规则。具体来说,这里的规则例如可以为,如果患者患有肠穿孔,则不能做肠镜(来源《消化内镜学》)。
因此,本发明实施例提供的方法还包括:
S107、构建第二三元组数据,所述第二三元组数据包括:通过分词操作识别之后的实体、预设的所述实体需要遵守的规则以及所述规则中所关联的另一实体;
也就是说,对于各个通过分词识别出来的实体,需要判断一下该实体在本体库中是否存储有限制该实体的规则,若有则获取基于该规则所关联的另一实体。最终获得<实体,规则,实体>的三元组。
例如如果通过分词识别出来的实体为“肠穿孔”,通过查找本体库发现存储有“肠穿孔”对应的规则,其规则为如果患者患有肠穿孔则不能做肠镜,则将关联的另一实体“肠镜”也提取出来。最终形成三元组为<肠穿孔,禁忌症,肠镜>,其中这里的禁忌症即为规则分类下的一种。
整个的建模及应用过程可以参考图4,由于前文中已经对各个步骤进行了说明,在此不再赘述。
第二方面,本发明实施例还提供了一种医学知识图谱的构建装置,如图5所示,包括:
分词单元201,用于对医学知识数据源的结构化文本进行分词处理;
识别单元202,用于基于预设的医学知识图谱词典对分词处理之后的若干个词汇进行字符串识别,将识别之后的词汇作为实体;基于预设的本体库确定所述实体所属的本体,所述本体库中包含本体以及本体关系,所述本体用于描述所述实体所述的类别,所述本体关系用于描述各个本体之间的对应关系;
构建单元203,用于选取一句话中任意两个实体构造该实体对的特征向量;其中,所述特征向量中包含每个实体所属的本体、所述实体在其所属本体中所属的子类、所述实体的词性、两个实体之间在语言逻辑上的位置关系以及两个实体在所述医学知识数据源的结构化文本中的前后若干个词汇;
筛选单元204,用于基于所述本体库中的本体关系,对各个实体对进行筛选,去除其中第一实体对;所述第一实体对,为包含的两个实体所属的本体在本体库中不存在对应本体关系的实体对;
分类单元205,用于对筛选后的实体对基于预设的本体关系进行匹配分类操作,得到第一三元组数据,所述第一三元组数据包含实体对中的两个实体以及分类操作后得到的两个实体的实体关系;
可视化单元206,用于将所述第一三元组数据导入到数据库中进行可视化操作,生成医学知识图谱。
可选地,在所述医学知识数据源为电子病历时,所述分词单元还用于:
将电子病历中预设的无关信息进行去除;
将电子病历中的非结构化文本转换为结构化文本。
可选地,所述装置还包括:
输出单元207,用于在接收到用户输入的实体参数时,基于所述医学知识图谱,生成并输出关于所述实体参数的治疗方案。
可选地,所述本体库中还包括预设的实体需要遵守的规则;
所述装置还包括:
规则构建单元208,用于构建第二三元组数据,所述第二三元组数据包括:通过分词操作识别之后的实体、预设的所述实体需要遵守的规则以及所述规则中所关联的另一实体;
所述可视化单元206还用于:
将所述第一三元组数据以及所述第二三元组数据导入到数据库中进行可视化操作,生成医学知识图谱。
由于本实施例所介绍的医学知识图谱的构建装置为可以执行本发明实施例中的医学知识图谱的构建方法的装置,故而基于本发明实施例中所介绍的医学知识图谱的构建的方法,本领域所属技术人员能够了解本实施例的医学知识图谱的构建装置的具体实施方式以及其各种变化形式,所以在此对于该医学知识图谱的构建装置如何实现本发明实施例中的医学知识图谱的构建方法不再详细介绍。只要本领域所属技术人员实施本发明实施例中医学知识图谱的构建方法所采用的装置,都属于本申请所欲保护的范围。
此外,图6示出本发明实施例提供的计算机设备的结构框图。
参照图6,该计算机设备,包括:处理器(processor)301、存储器(memory)302、以及总线303;
其中,所述处理器301以及存储器302通过所述总线303完成相互间的通信;
所述处理器301用于调用所述存储器302中的程序指令,以执行上述各方法实施例所提供的方法。
本发明实施例还公开一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法实施例所提供的方法。
本发明实施例还提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行上述各方法实施例所提供的方法。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的某些部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的网关、代理服务器、***中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
Claims (8)
1.一种医学知识图谱的构建方法,其特征在于,包括:
对医学知识数据源的结构化文本进行分词处理;
基于预设的医学知识图谱词典对分词处理之后的若干个词汇进行字符串识别,将识别之后的词汇作为实体;基于预设的本体库确定所述实体所属的本体,所述本体库中包含本体以及本体关系,所述本体用于描述所述实体所述的类别,所述本体关系用于描述各个本体之间的对应关系;
选取一句话中任意两个实体构造该实体对的特征向量;其中,所述特征向量中包含每个实体所属的本体、所述实体在其所属本体中所属的子类、所述实体的词性、两个实体之间在语言逻辑上的位置关系以及两个实体在所述医学知识数据源的结构化文本中的前后若干个词汇;
基于所述本体库中的本体关系,对各个实体对进行筛选,去除其中第一实体对;所述第一实体对,为包含的两个实体所属的本体在本体库中不存在对应本体关系的实体对;
对筛选后的实体对基于预设的本体关系进行匹配分类操作,得到第一三元组数据,所述第一三元组数据包含实体对中的两个实体以及分类操作后得到的两个实体的实体关系;
将所述第一三元组数据导入到数据库中进行可视化操作,生成医学知识图谱。
2.根据权利要求1所述的方法,其特征在于,在所述医学知识数据源为电子病历时,在对医学知识数据源的结构化文本进行分词处理之前,所述方法还包括:
将电子病历中预设的无关信息进行去除;
将电子病历中的非结构化文本转换为结构化文本。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
在接收到用户输入的实体参数时,基于所述医学知识图谱,生成并输出关于所述实体参数的治疗方案。
4.根据权利要求1所述的方法,其特征在于,所述本体库中还包括预设的实体需要遵守的规则;
所述方法还包括:
构建第二三元组数据,所述第二三元组数据包括:通过分词操作识别之后的实体、预设的所述实体需要遵守的规则以及所述规则中所关联的另一实体;
将所述第一三元组数据以及所述第二三元组数据导入到数据库中进行可视化操作,生成医学知识图谱。
5.一种医学知识图谱的构建装置,其特征在于,包括:
分词单元,用于对医学知识数据源的结构化文本进行分词处理;
识别单元,用于基于预设的医学知识图谱词典对分词处理之后的若干个词汇进行字符串识别,将识别之后的词汇作为实体;基于预设的本体库确定所述实体所属的本体,所述本体库中包含本体以及本体关系,所述本体用于描述所述实体所述的类别,所述本体关系用于描述各个本体之间的对应关系;
构建单元,用于选取一句话中任意两个实体构造该实体对的特征向量;其中,所述特征向量中包含每个实体所属的本体、所述实体在其所属本体中所属的子类、所述实体的词性、两个实体之间在语言逻辑上的位置关系以及两个实体在所述医学知识数据源的结构化文本中的前后若干个词汇;
筛选单元,用于基于所述本体库中的本体关系,对各个实体对进行筛选,去除其中第一实体对;所述第一实体对,为包含的两个实体所属的本体在本体库中不存在对应本体关系的实体对;
分类单元,用于对筛选后的实体对基于预设的本体关系进行匹配分类操作,得到第一三元组数据,所述第一三元组数据包含实体对中的两个实体以及分类操作后得到的两个实体的实体关系;
可视化单元,用于将所述第一三元组数据导入到数据库中进行可视化操作,生成医学知识图谱。
6.根据权利要求5所述的装置,其特征在于,在所述医学知识数据源为电子病历时,所述分词单元还用于:
将电子病历中预设的无关信息进行去除;
将电子病历中的非结构化文本转换为结构化文本。
7.根据权利要求5所述的装置,其特征在于,所述装置还包括:
输出单元,用于在接收到用户输入的实体参数时,基于所述医学知识图谱,生成并输出关于所述实体参数的治疗方案。
8.根据权利要求8所述的方法,其特征在于,所述本体库中还包括预设的实体需要遵守的规则;
所述装置还包括:
规则构建单元,用于构建第二三元组数据,所述第二三元组数据包括:通过分词操作识别之后的实体、预设的所述实体需要遵守的规则以及所述规则中所关联的另一实体;
所述可视化单元还用于:
将所述第一三元组数据以及所述第二三元组数据导入到数据库中进行可视化操作,生成医学知识图谱。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711036895.4A CN107657063A (zh) | 2017-10-30 | 2017-10-30 | 医学知识图谱的构建方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711036895.4A CN107657063A (zh) | 2017-10-30 | 2017-10-30 | 医学知识图谱的构建方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107657063A true CN107657063A (zh) | 2018-02-02 |
Family
ID=61095831
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711036895.4A Pending CN107657063A (zh) | 2017-10-30 | 2017-10-30 | 医学知识图谱的构建方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107657063A (zh) |
Cited By (31)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108509654A (zh) * | 2018-04-18 | 2018-09-07 | 上海交通大学 | 动态知识图谱的构建方法 |
CN108595683A (zh) * | 2018-05-03 | 2018-09-28 | 合肥工业大学 | 基于医学知识图谱的医嘱合理性监测方法 |
CN108932340A (zh) * | 2018-07-13 | 2018-12-04 | 华融融通(北京)科技有限公司 | 一种不良资产经营领域下金融知识图谱的构建方法 |
CN109192321A (zh) * | 2018-09-26 | 2019-01-11 | 北京理工大学 | 药品知识图谱的构建方法及计算存储装置 |
CN109300550A (zh) * | 2018-11-09 | 2019-02-01 | 天津新开心生活科技有限公司 | 医学数据关系挖掘方法及装置 |
CN109408644A (zh) * | 2018-09-03 | 2019-03-01 | 平安医疗健康管理股份有限公司 | 知识库更新方法、装置、计算机设备和存储介质 |
CN109597894A (zh) * | 2018-09-30 | 2019-04-09 | 阿里巴巴集团控股有限公司 | 一种关联模型生成方法及装置、一种数据关联方法及装置 |
CN109727680A (zh) * | 2018-12-28 | 2019-05-07 | 上海列顿信息科技有限公司 | 一种基于大数据技术的区域临床路径管理*** |
CN109918436A (zh) * | 2019-03-08 | 2019-06-21 | 上海一健事信息科技有限公司 | 一种医学知识管理和查询*** |
CN110019842A (zh) * | 2018-09-30 | 2019-07-16 | 北京国双科技有限公司 | 一种建立知识图谱的方法及装置 |
CN110362690A (zh) * | 2019-07-04 | 2019-10-22 | 北京爱医生智慧医疗科技有限公司 | 一种医学知识图谱构建方法及装置 |
CN110399605A (zh) * | 2018-04-17 | 2019-11-01 | 富士施乐株式会社 | 信息处理装置及存储程序的计算机可读介质 |
CN110569366A (zh) * | 2019-09-09 | 2019-12-13 | 腾讯科技(深圳)有限公司 | 文本的实体关系抽取方法、装置及存储介质 |
CN110675954A (zh) * | 2019-10-11 | 2020-01-10 | 北京百度网讯科技有限公司 | 信息处理方法及装置、电子设备、存储介质 |
CN110704632A (zh) * | 2019-08-26 | 2020-01-17 | 南京医渡云医学技术有限公司 | 临床数据的处理方法、装置、可读介质和电子设备 |
CN110825882A (zh) * | 2019-10-09 | 2020-02-21 | 西安交通大学 | 一种基于知识图谱的信息***管理方法 |
CN111091883A (zh) * | 2019-12-16 | 2020-05-01 | 东软集团股份有限公司 | 一种医疗文本处理方法、装置、存储介质及设备 |
CN111209348A (zh) * | 2018-11-21 | 2020-05-29 | 百度在线网络技术(北京)有限公司 | 用于输出信息的方法和装置 |
CN111753020A (zh) * | 2019-03-28 | 2020-10-09 | 阿里巴巴集团控股有限公司 | 一种建立关系网络模型的方法及装置 |
CN111986742A (zh) * | 2020-07-06 | 2020-11-24 | 北京欧应信息技术有限公司 | 一种构建骨科知识图谱的方法 |
CN112002411A (zh) * | 2020-08-20 | 2020-11-27 | 杭州电子科技大学 | 一种基于电子病历的心脑血管病知识图谱问答方法 |
CN112015900A (zh) * | 2020-09-07 | 2020-12-01 | 平安科技(深圳)有限公司 | 医学属性知识图谱构建方法、装置、设备及介质 |
CN112420212A (zh) * | 2020-11-27 | 2021-02-26 | 湖南师范大学 | 一种脑卒中医疗知识图谱的构建方法 |
CN112560408A (zh) * | 2020-12-18 | 2021-03-26 | 广东轩辕网络科技股份有限公司 | 一种文本标注方法、装置、终端及存储介质 |
CN112836058A (zh) * | 2019-11-25 | 2021-05-25 | 北京搜狗科技发展有限公司 | 医疗知识图谱建立方法及装置、医疗知识图谱查询方法及装置 |
CN112860959A (zh) * | 2021-02-05 | 2021-05-28 | 哈尔滨工程大学 | 一种基于随机森林改进的实体解析方法 |
CN113626429A (zh) * | 2021-07-26 | 2021-11-09 | 上海齐网网络科技有限公司 | 基于元数据的智能化范围急救医疗知识库构建方法及*** |
CN113688256A (zh) * | 2021-10-27 | 2021-11-23 | 上海柯林布瑞信息技术有限公司 | 临床知识库的构建方法、装置 |
CN114118090A (zh) * | 2021-11-12 | 2022-03-01 | 北京嘉和海森健康科技有限公司 | 医学新实体名称确定方法、装置及电子设备 |
CN115827884A (zh) * | 2022-07-27 | 2023-03-21 | 腾讯科技(深圳)有限公司 | 文本处理方法、装置、电子设备、介质及程序产品 |
CN117316466A (zh) * | 2023-11-28 | 2023-12-29 | 中国人民解放军总医院 | 一种基于知识图谱与自然语言处理技术的临床决策方法、***及设备 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105389470A (zh) * | 2015-11-18 | 2016-03-09 | 福建工程学院 | 一种中医针灸领域实体关系自动抽取的实现方法 |
CN105653522A (zh) * | 2016-01-21 | 2016-06-08 | 中国农业大学 | 一种针对植物领域的非分类关系识别方法 |
CN105808931A (zh) * | 2016-03-03 | 2016-07-27 | 北京大学深圳研究生院 | 一种基于知识图谱的针灸决策支持方法及装置 |
US20160259899A1 (en) * | 2015-03-04 | 2016-09-08 | Expeda ehf | Clinical decision support system for diagnosing and monitoring of a disease of a patient |
CN106447346A (zh) * | 2016-08-29 | 2017-02-22 | 北京中电普华信息技术有限公司 | 一种智能电力客服***的构建方法及*** |
CN106897568A (zh) * | 2017-02-28 | 2017-06-27 | 北京大数医达科技有限公司 | 病历结构化的处理方法和装置 |
CN107145744A (zh) * | 2017-05-08 | 2017-09-08 | 合肥工业大学 | 医学知识图谱的构建方法、装置及辅助诊断方法 |
-
2017
- 2017-10-30 CN CN201711036895.4A patent/CN107657063A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160259899A1 (en) * | 2015-03-04 | 2016-09-08 | Expeda ehf | Clinical decision support system for diagnosing and monitoring of a disease of a patient |
CN105389470A (zh) * | 2015-11-18 | 2016-03-09 | 福建工程学院 | 一种中医针灸领域实体关系自动抽取的实现方法 |
CN105653522A (zh) * | 2016-01-21 | 2016-06-08 | 中国农业大学 | 一种针对植物领域的非分类关系识别方法 |
CN105808931A (zh) * | 2016-03-03 | 2016-07-27 | 北京大学深圳研究生院 | 一种基于知识图谱的针灸决策支持方法及装置 |
CN106447346A (zh) * | 2016-08-29 | 2017-02-22 | 北京中电普华信息技术有限公司 | 一种智能电力客服***的构建方法及*** |
CN106897568A (zh) * | 2017-02-28 | 2017-06-27 | 北京大数医达科技有限公司 | 病历结构化的处理方法和装置 |
CN107145744A (zh) * | 2017-05-08 | 2017-09-08 | 合肥工业大学 | 医学知识图谱的构建方法、装置及辅助诊断方法 |
Non-Patent Citations (1)
Title |
---|
钟亮: "面向百度百科的化学知识图谱构建方法研究", 《软件导刊》 * |
Cited By (41)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110399605A (zh) * | 2018-04-17 | 2019-11-01 | 富士施乐株式会社 | 信息处理装置及存储程序的计算机可读介质 |
CN108509654A (zh) * | 2018-04-18 | 2018-09-07 | 上海交通大学 | 动态知识图谱的构建方法 |
CN108595683A (zh) * | 2018-05-03 | 2018-09-28 | 合肥工业大学 | 基于医学知识图谱的医嘱合理性监测方法 |
CN108595683B (zh) * | 2018-05-03 | 2021-04-16 | 合肥工业大学 | 基于医学知识图谱的医嘱合理性监测方法 |
CN108932340A (zh) * | 2018-07-13 | 2018-12-04 | 华融融通(北京)科技有限公司 | 一种不良资产经营领域下金融知识图谱的构建方法 |
CN109408644A (zh) * | 2018-09-03 | 2019-03-01 | 平安医疗健康管理股份有限公司 | 知识库更新方法、装置、计算机设备和存储介质 |
CN109192321A (zh) * | 2018-09-26 | 2019-01-11 | 北京理工大学 | 药品知识图谱的构建方法及计算存储装置 |
CN109597894A (zh) * | 2018-09-30 | 2019-04-09 | 阿里巴巴集团控股有限公司 | 一种关联模型生成方法及装置、一种数据关联方法及装置 |
CN109597894B (zh) * | 2018-09-30 | 2023-10-03 | 创新先进技术有限公司 | 一种关联模型生成方法及装置、一种数据关联方法及装置 |
CN110019842A (zh) * | 2018-09-30 | 2019-07-16 | 北京国双科技有限公司 | 一种建立知识图谱的方法及装置 |
CN109300550A (zh) * | 2018-11-09 | 2019-02-01 | 天津新开心生活科技有限公司 | 医学数据关系挖掘方法及装置 |
CN109300550B (zh) * | 2018-11-09 | 2021-11-26 | 天津新开心生活科技有限公司 | 医学数据关系挖掘方法及装置 |
CN111209348B (zh) * | 2018-11-21 | 2023-09-29 | 百度在线网络技术(北京)有限公司 | 用于输出信息的方法和装置 |
CN111209348A (zh) * | 2018-11-21 | 2020-05-29 | 百度在线网络技术(北京)有限公司 | 用于输出信息的方法和装置 |
CN109727680A (zh) * | 2018-12-28 | 2019-05-07 | 上海列顿信息科技有限公司 | 一种基于大数据技术的区域临床路径管理*** |
CN109918436A (zh) * | 2019-03-08 | 2019-06-21 | 上海一健事信息科技有限公司 | 一种医学知识管理和查询*** |
CN111753020A (zh) * | 2019-03-28 | 2020-10-09 | 阿里巴巴集团控股有限公司 | 一种建立关系网络模型的方法及装置 |
CN110362690A (zh) * | 2019-07-04 | 2019-10-22 | 北京爱医生智慧医疗科技有限公司 | 一种医学知识图谱构建方法及装置 |
CN110362690B (zh) * | 2019-07-04 | 2022-04-08 | 北京爱医生智慧医疗科技有限公司 | 一种医学知识图谱构建方法及装置 |
CN110704632A (zh) * | 2019-08-26 | 2020-01-17 | 南京医渡云医学技术有限公司 | 临床数据的处理方法、装置、可读介质和电子设备 |
CN110569366A (zh) * | 2019-09-09 | 2019-12-13 | 腾讯科技(深圳)有限公司 | 文本的实体关系抽取方法、装置及存储介质 |
CN110825882A (zh) * | 2019-10-09 | 2020-02-21 | 西安交通大学 | 一种基于知识图谱的信息***管理方法 |
CN110675954A (zh) * | 2019-10-11 | 2020-01-10 | 北京百度网讯科技有限公司 | 信息处理方法及装置、电子设备、存储介质 |
CN112836058A (zh) * | 2019-11-25 | 2021-05-25 | 北京搜狗科技发展有限公司 | 医疗知识图谱建立方法及装置、医疗知识图谱查询方法及装置 |
CN111091883A (zh) * | 2019-12-16 | 2020-05-01 | 东软集团股份有限公司 | 一种医疗文本处理方法、装置、存储介质及设备 |
CN111986742A (zh) * | 2020-07-06 | 2020-11-24 | 北京欧应信息技术有限公司 | 一种构建骨科知识图谱的方法 |
CN112002411A (zh) * | 2020-08-20 | 2020-11-27 | 杭州电子科技大学 | 一种基于电子病历的心脑血管病知识图谱问答方法 |
CN112015900A (zh) * | 2020-09-07 | 2020-12-01 | 平安科技(深圳)有限公司 | 医学属性知识图谱构建方法、装置、设备及介质 |
CN112015900B (zh) * | 2020-09-07 | 2024-05-03 | 平安科技(深圳)有限公司 | 医学属性知识图谱构建方法、装置、设备及介质 |
CN112420212B (zh) * | 2020-11-27 | 2023-12-26 | 湖南师范大学 | 一种脑卒中医疗知识图谱的构建方法 |
CN112420212A (zh) * | 2020-11-27 | 2021-02-26 | 湖南师范大学 | 一种脑卒中医疗知识图谱的构建方法 |
CN112560408A (zh) * | 2020-12-18 | 2021-03-26 | 广东轩辕网络科技股份有限公司 | 一种文本标注方法、装置、终端及存储介质 |
CN112860959B (zh) * | 2021-02-05 | 2021-11-05 | 哈尔滨工程大学 | 一种基于随机森林改进的实体解析方法 |
CN112860959A (zh) * | 2021-02-05 | 2021-05-28 | 哈尔滨工程大学 | 一种基于随机森林改进的实体解析方法 |
CN113626429A (zh) * | 2021-07-26 | 2021-11-09 | 上海齐网网络科技有限公司 | 基于元数据的智能化范围急救医疗知识库构建方法及*** |
CN113626429B (zh) * | 2021-07-26 | 2024-04-12 | 上海齐网网络科技有限公司 | 基于元数据的智能化范围急救医疗知识库构建方法及*** |
CN113688256B (zh) * | 2021-10-27 | 2022-02-22 | 上海柯林布瑞信息技术有限公司 | 临床知识库的构建方法、装置 |
CN113688256A (zh) * | 2021-10-27 | 2021-11-23 | 上海柯林布瑞信息技术有限公司 | 临床知识库的构建方法、装置 |
CN114118090A (zh) * | 2021-11-12 | 2022-03-01 | 北京嘉和海森健康科技有限公司 | 医学新实体名称确定方法、装置及电子设备 |
CN115827884A (zh) * | 2022-07-27 | 2023-03-21 | 腾讯科技(深圳)有限公司 | 文本处理方法、装置、电子设备、介质及程序产品 |
CN117316466A (zh) * | 2023-11-28 | 2023-12-29 | 中国人民解放军总医院 | 一种基于知识图谱与自然语言处理技术的临床决策方法、***及设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107657063A (zh) | 医学知识图谱的构建方法及装置 | |
Dalianis et al. | HEALTH BANK-A Workbench for Data Science Applications in Healthcare. | |
Kurniati et al. | Process mining in oncology using the MIMIC-III dataset | |
McCormick et al. | Toward standard classification schemes for nursing language: recommendations of the American Nurses Association Steering Committee on Databases to Support Clinical Nursing Practice | |
CN110827941B (zh) | 电子病历信息校正方法及*** | |
Ball et al. | TextHunter–a user friendly tool for extracting generic concepts from free text in clinical research | |
CN108628824A (zh) | 一种基于中文电子病历的实体识别方法 | |
CN109920540A (zh) | 辅助诊疗决策***的构建方法、装置及计算机设备 | |
TWI501189B (zh) | 擬人化醫療資訊紀錄方法及輔助診療系統 | |
Ovretveit et al. | Building a learning health system using clinical registers: a non-technical introduction | |
CN109785927A (zh) | 基于互联网一体化医疗平台的临床文档结构化处理方法 | |
Boyd et al. | Physician nurse care: A new use of UMLS to measure professional contribution: Are we talking about the same patient a new graph matching algorithm? | |
Sethi et al. | Use of artificial intelligence in healthcare systems: state-of-the-art survey | |
Nikabadi et al. | A model for assessing hospital information systems. | |
Li et al. | Opportunities and challenges of traditional Chinese medicine doctors in the era of artificial intelligence | |
CN110377698A (zh) | 基于阅读理解的任务处理方法及装置、设备及可读介质 | |
CN116205306A (zh) | 一种数据处理方法及数据处理装置 | |
Kumar et al. | NATURAL LANGUAGE PROCESSING: HEALTHCARE ACHIEVING BENEFITS VIA NLP | |
Horak et al. | Healthcare generative artificial intelligence tools in medical diagnosis, treatment, and prognosis | |
Haule et al. | Influence of Health Information Systems on Services Delivery in Public and Private Health Facilities: A Systematic Literature Review | |
Ameli et al. | An application of machine learning techniques to analyze patient information to improve oral health outcomes | |
Mardani et al. | A concept analysis of transitional care for people with cancer | |
US20240047055A1 (en) | Method and system for medical coding and billing | |
Lorkowski et al. | The future of medical documentation-Review of selected literature | |
US12019640B2 (en) | Systems and methods for multi-dimensional ranking of experts |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180202 |