CN112635072A - 基于相似度计算的icu相似病例检索方法、***及存储介质 - Google Patents
基于相似度计算的icu相似病例检索方法、***及存储介质 Download PDFInfo
- Publication number
- CN112635072A CN112635072A CN202011635403.5A CN202011635403A CN112635072A CN 112635072 A CN112635072 A CN 112635072A CN 202011635403 A CN202011635403 A CN 202011635403A CN 112635072 A CN112635072 A CN 112635072A
- Authority
- CN
- China
- Prior art keywords
- icu
- medical
- case
- matched
- similarity calculation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004364 calculation method Methods 0.000 title claims abstract description 83
- 238000000034 method Methods 0.000 title claims abstract description 39
- 238000012163 sequencing technique Methods 0.000 claims abstract description 10
- 239000003814 drug Substances 0.000 claims description 72
- 229940079593 drug Drugs 0.000 claims description 68
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims description 57
- 201000010099 disease Diseases 0.000 claims description 55
- 208000024891 symptom Diseases 0.000 claims description 23
- 238000012545 processing Methods 0.000 claims description 14
- 230000011218 segmentation Effects 0.000 claims description 9
- 238000005516 engineering process Methods 0.000 claims description 8
- 238000003745 diagnosis Methods 0.000 description 8
- 239000013598 vector Substances 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000000474 nursing effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000001960 triggered effect Effects 0.000 description 2
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000000047 product Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/338—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Public Health (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biomedical Technology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Pathology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Epidemiology (AREA)
- Primary Health Care (AREA)
- Medical Treatment And Welfare Office Work (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于相似度计算的ICU相似病例检索方法,所述方法包括:获取输入文本,并解析所述输入文本,得到所述输入文本中包括的医学特征及医学特征对应的特征属性;在病例检索***中基于所述输入文本中包括的每个医学特征进行检索,获取与所述医学特征的特征属性相匹配的历史ICU病例;针对每个所述历史ICU病例,根据与匹配到的每个医学特征的类型相对应的相似度计算方式分别对所述匹配到的每个医学特征的匹配程度进行打分;对所述历史ICU病例中匹配到的所有医学特征的分数进行加权求和,得到所述历史ICU病例的总分;按照所述历史ICU病例的总分对各个历史ICU病例进行排序,得到并输出ICU病例检索结果集。本发明实现了对ICU病例的高精度、高效率检索。
Description
技术领域
本发明涉及数据处理技术领域,尤其涉及一种基于相似度计算的ICU相似病例检索方法与***。
背景技术
随着医疗卫生服务的信息化进程推进,医院、体检中心等大型医疗机构产生了大量的医疗电子健康记录。数据内容主要来自医院的电子病历,包含大量非结构化/半结构化的数据。基于病人相似度的案例查询可以成为医生的技术补充,医生根据此项技术可以对病人进行初步诊断,病人相似度还可以应用在病人群体识别及病人风险分级等诸多领域。
而ICU病例与普通病例相比,具有更多、更复杂的特征数据。例如,进入ICU病房的患者的病例中具有大量的用药信息,诊断信息,护理信息,影像信息,呼吸机信息等,这些信息在普通病例上不存在,或者信息量不充分;普通病例中患者一般只有一到两种病症,而进入ICU病房的患者一般具有10种或以上的复合病症,病情更复杂,这会导致其他的特征也同样很复杂。
目前,针对普通病例检索,有如下解决方案:
1、对病例数据库中的文本数据进行训练,建立病例词向量模型,然后将输入文本转化为词向量,计算输入文本词向量与病例数据库中所有病例词向量的相似度,根据相似度大小进行排序,最后得到相似度最高的N个病例作为返回结果。
2、对病例数据库建立知识图谱,将不同种类的医学特征使用知识图谱连接起来。对输入文本进行规范化处理,然后根据输入文本与知识图谱节点的匹配情况关联至相应的病例,最后得到关联度最高的N个病例作为返回结果。
3、将输入文本进行分词处理,然后通过搜索的方式在数据库中检索出所有包含输入文本相关字段的病例,然后再通过搜索匹配程度进行打分,最后得到匹配程度最高的N个病例作为返回结果。
但是,上述方案存在以下几个问题:方案1、2前期流程过于复杂,对于普通的病例***,建立词向量模型和知识图谱尚可。但对于建立ICU病例***来说,特征更多更复杂,前期不论是训练模型还是建立知识图谱都更加困难。而且病例每天都会增加,模型或者知识图谱都需要不停迭代更新,所耗费的资源比较多,不适合实际应用。方案3检索粒度较粗,检索精度较低;且检索时需要遍历所有病例,这样检索的速度也会变慢。
综上,针对普通医学病例检索的现有解决方案存在一定缺陷,且并不适用于ICU病例检索,亟需一种保证检索精度和速度的同时,耗费资源较少且针对ICU病例的特点特化的检索***。
发明内容
有鉴于此,本发明提供一种基于相似度计算的ICU相似病例检索方法、***及存储介质,以实现快速精准的ICU相似病例检索。
为了实现上述目的,现提出的方案如下:
本发明提供了一种基于相似度计算的ICU相似病例检索方法,所述方法包括:
获取输入文本,并解析所述输入文本,得到所述输入文本中包括的医学特征及医学特征对应的特征属性;
在病例检索***中基于所述输入文本中包括的每个医学特征进行检索,获取与所述医学特征的特征属性相匹配的历史ICU病例;
针对每个所述历史ICU病例,根据与匹配到的每个医学特征的类型相对应的相似度计算方式分别对所述匹配到的每个医学特征的匹配程度进行打分;
对所述历史ICU病例中匹配到的所有医学特征的分数进行加权求和,得到所述历史ICU病例的总分;
按照所述历史ICU病例的总分对各个历史ICU病例进行排序,得到并输出ICU病例检索结果集。
进一步地,解析所述输入文本,包括:
对输入文本进行分词处理;
去除会引发歧义的词语,得到结构化的数据;
找到进行分词处理后输入文本的同义词和近义词,添加至输入文本中;
采用自然语言理解技术对处理后的文本词语集合进行解析化处理,得到所述输入文本中包括的医学特征及医学特征对应的初始特征属性,并转化为“医学特征:特征属性”的表现形式。
进一步地,解析所述输入文本,包括:
找到输入文本中包括的各个分词的同义词和近义词,添加至输入文本中;
采用自然语言理解技术对处理后的文本词语集合进行解析化处理,得到所述输入文本中包括的医学特征及医学特征对应的特征属性,并转化为“医学特征:特征属性”的表现形式。
进一步地,所述医学特征包括:患病类型、用药情况、入院症状、其他特征中的一种或多种;其他特征为患病类型、用药情况、入院症状以外的特征。
进一步地,加权求和的权重根据医生的经验确定。
进一步地,患病类型和入院症状的权重高于用药情况的权重,用药种类的权重高于其他特征的权重。
与入院症状对应的相似度计算方式包括:TF-IDF计算公式;
与其他特征对应的相似度计算方式包括:如果特征为结构化特征,则按照匹配次数的总和进行打分;如果特征为自然语言型特征,则使用TF-IDF计算公式打分。
又一方面,本发明还提供了一种基于相似度计算的ICU相似病例检索***,所述***包括:
输入模块,用于获取输入文本,并解析所述输入文本,得到所述输入文本中包括的医学特征及医学特征对应的特征属性;
病例检索模块,用于在病例检索***中基于所述输入模块得到的输入文本中包括的每个医学特征进行检索,获取与所述医学特征的特征属性相匹配的历史ICU病例;
相似度打分模块,用于针对所述病例检索模块检索出的每个所述历史ICU病例,根据与匹配到的每个医学特征的类型相对应的相似度计算方式分别对所述匹配到的每个医学特征的匹配程度进行打分;对所述历史ICU病例中匹配到的所有医学特征的分数进行加权求和,得到所述历史ICU病例的总分;
输出模块,用于按照所述相似度打分模块得到的所述历史ICU病例的总分对各个历史ICU病例进行排序,得到并输出ICU病例检索结果集。
进一步地,所述医学特征包括:患病类型、用药情况、入院症状、其他特征中的一种或多种;其他特征为患病类型、用药情况、入院症状以外的特征;
与入院症状对应的相似度计算方式包括:TF-IDF计算公式;
与其他特征对应的相似度计算方式包括:如果特征为结构化特征,则按照匹配次数的总和进行打分;如果特征为自然语言型特征,则使用TF-IDF计算公式打分。
又一方面,本发明还提供了一种计算机可读存储介质,该计算机可读存储介质内存储有计算机指令集,计算机指令集被处理器执行时实现如上述的基于相似度计算的ICU相似病例检索方法。
从上述的技术方案可以看出,本发明针对ICU病例与普通病例的不同特点,提出了更为详细的相似度计算公式,针对每一种特征都设置了不同的相似度计算公式。在ICU病例的匹配上更加准确,从医生的角度上更加满足其对查找到的ICU相似病例的准确性的需求。
同时,本发明的检索方式是先进行特征提取后在按特征种类进行局部检索,避免了传统方法中每次检索时都要检索全部病例库的方式,减少了检索时的数据计算量,降低了检索难度,提高了检索效率,尤其是提高了某些文档数量巨大的常见病的检索效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例公开的一种基于相似度计算的ICU相似病例检索方法的流程示意图;
图2为本发明实施例公开的医学特征示意图;
图3为本发明实施例的ICU相似病例检索方法的一种应用场景图;
图4为本发明实施例的ICU相似病例检索方法的另一种应用场景图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
参见图1,其示出了本发明实施例中一种基于相似度计算的ICU相似病例检索方法的流程示意图,该方法包括以下步骤:
步骤1:获取输入文本,并解析所述输入文本,得到所述输入文本中包括的医学特征及医学特征对应的特征属性。
其中,该步骤1在具体实施时包括:
S101、对输入文本进行分词处理;
S102、去除停止词等会引发歧义的词语,得到结构化的数据;
如果输入文本已经是结构化的数据,则直接执行步骤S103以及S104即可。
S103、找到进行分词处理后输入文本的同义词和近义词,将其一并添加至输入文本中;
S104、采用自然语言理解(Natural Language Understanding,NLU)技术对处理后的文本词语集合进行解析化处理,得到该输入文本中包括的医学特征及医学特征对应的特征属性,并转化为“医学特征:特征属性”的表现形式。
如图2所示,医学特征包括:患病类型、入院症状、用药情况、其他特征中的一种或多种;其他特征为患病类型、用药情况、入院症状以外的特征,如手术情况、影像诊断、护理信息、体检诊断。
步骤2:在病例检索***中基于所述输入文本中包括的每个医学特征进行检索,获取与所述医学特征的特征属性相匹配的历史ICU病例。
实际应用中,除了可以在病例检索***中检索,还可以在其他包括各种ICU病例的病例数据仓库中检索。
其中,该步骤2在具体实施时包括:
S201、针对步骤1中获取的经过解析处理的输入文本,假设解析处理后一共存在M种医学特征,分别将这M个医学特征在病例检索***中进行检索,其中M为正整数。
S202、针对每一个医学特征,只检索病例数据库中的该医学特征字段,获取匹配该医学特征的特征属性的N个历史ICU病例,其中N为正整数。这样一共可以获取S个ICU病例,其中S为正整数,且0<S≤M*N。
步骤3:针对每个所述历史ICU病例,根据与匹配到的每个医学特征的类型相对应的相似度计算方式分别对所述匹配到的每个医学特征的匹配程度进行打分;
对每一个历史ICU病例匹配到的每一个医学特征的匹配程度进行打分,如果一个历史ICU病例检索匹配到N个输入文本中的医学特征的话,那么这个ICU病例一共存在N个得分。
由于各个医学特征具有不同的特点,为了更准确的计算相似度,本发明中按照各个医学特征的特点设计了多种相似度计算方式,按照医学特征的类型相对应的相似度计算方式进行相似度计算,如:
针对患病类型的相似度计算,患病类型特征属于结构化特征,且存在以下特点:每一个ICU病例基本上都存在10个以上的患病类型,而其中重要度随着记录的序号而依次递减。对此,患病类型的相似度计算公式为:其中wi=2/[e(n-1)+1]表示患病的重要程度参数,fi表示患病类型是否匹配,如果匹配则为1,不匹配则为0,n为正整数,表示患病类型总数。
针对用药情况的相似度计算,用药情况特征属于结构化特征,且存在以下特点:每一个ICU病例中存在多天多次的用药数据。对此,先对每一个病例的用药次数进行统计,分别统计用药总次数A和每一种药的用药次数aj,这样,用药情况的相似度计算公式为:其中wj=aj/A表示用药的重要程度参数,fj表示用药情况是否匹配,如果匹配则为1,不匹配则为0,m为正整数,表示用药类型总数;aj表示每一种药的用药次数。
针对入院症状的相似度计算,入院症状特征属于自然语言特征,描述了患者入院时的状态,这里采取TF-IDF计算公式进行相似度计算。其中,在病历文档j中用于描述医学特征的词语i的TF-IDF计算公式为:TF-IDFij=TFij*IDFi,其中TFij表示词频(termfrequency,TF),指的是给定的词语i在该文档j中出现的次数占文档j总词数的比值,即TFij=文档j中词语i出现次数/文档j总词数,IDFi表示词语i的逆向文件频率(inversedocument frequency,IDF),计算公式为:
针对其他特征的相似度计算,例如:手术情况,体检诊断,影像诊断,护理信息等特征。如果医学特征为结构化特征,则医学特征的相似度计算得分为匹配次数的总和;如果医学特征为自然语言型特征,则医学特征使用TF-IDF计算公式进行相似度计算。
步骤4:对所述历史ICU病例中匹配到的所有医学特征的分数进行加权求和,得到所述历史ICU病例的总分;
步骤5:按照所述历史ICU病例的总分对各个历史ICU病例进行排序,得到并输出ICU病例检索结果集。
对所有医学特征的分数进行加权求和,得到最后的总分,作为最后检索结果排序的依据;最后输出排名靠前的预设个ICU病例作为ICU病例检索结果集,或输出排序后的S个ICU病例作为结果集。
其中,权重主要是依据医生的经验给出的,通常,在相同条件下,会将患病类型和入院症状作为最优先关注项,权重最大,将用药情况作为次优先关注项,权重次之,将其他特征作为次要关注项,权重最小。
本发明实施例中,针对ICU病例与普通病例的不同特点,提出了更为详细的相似度计算公式,针对每一种特征都设置了不同的相似度计算公式。在ICU病例的匹配上更加准确,从医生的角度上更加满足其对查找到的ICU相似病例的准确性的需求。同时,本发明实施例中的检索方式是先进行特征提取后在按特征种类进行局部检索,避免了传统方法中每次检索时都要检索全部病例库的方式,减少了检索时的数据计算量,降低了检索难度,提高了检索效率,尤其是提高了某些文档数量巨大的常见病的检索效率。
ICU病例的检索有很多应用场景。例如:医生可以通过输入多种医学特征,通过检索相似病例,生成结果集,该结果集可以作为医生的科研课题使用。又如,患者治疗期间,临床医生为患者选择需要检测的预警类别,期间检测患者生理指标并预警。在产生预警时,根据预警触发的条件,以及从患者转入到该时刻的特征,在数据仓库中匹配相似病例,医生查看这些历史病例的治疗及发展,作为医生的辅助诊断方式。
为了便于理解,下面以ICU病例检索的两个具体应用场景为例对本发明中的基于相似度计算的ICU相似病例检索方法进行说明。
实施例1:
图3为是本发明实施例的ICU相似病例检索方法的一种应用场景图。临床医生能够根据单个具有特性的ICU病例,查看该ICU病例在院期间的数据,选取一个或几个医学特征指标,通过病例检索***,生成ICU相似病例检索结果集,该结果集可以作为科研课题使用。具体步骤如下:
对输入文本进行结构化解析处理,此时输入文本为非结构化数据,需要执行发明内容步骤1中的S101~S104步,将输入文本转化为:“医学特征:特征属性”的表现形式。
按照步骤2在病例检索***中检索匹配输入文本的ICU病例,一共可以得到S个ICU病例,S为正整数。
按照步骤3对S个ICU病例中每一个医学特征的匹配程度进行打分,得到N个得分。
对所有医学特征的分数进行加权求和,得到最后的总分,作为最后检索结果排序的依据。权重主要是依据医生的经验给出的。最后输出S个已经排序的ICU病例,这S个ICU病例即为最终输出的结果集。
实施例2:
图4为是本发明实施例的ICU相似病例检索方法的另一种应用场景图。患者治疗期间,临床医生为患者选择需要检测的预警类别,期间检测患者生理指标并预警,在产生预警时,根据预警触发的条件,以及从患者转入ICU到该时刻的特征,在病例检索***中匹配相似ICU病例,医生查看这些历史ICU病例的治疗及发展。具体步骤如下:
该实施例中输入文本为预警信息,为结构化数据,只需要执行发明内容步骤1中的S103、S104步,将输入文本转化为:“医学特征:特征属性”的表现形式。
按照步骤2在病例检索***中检索匹配输入文本的ICU病例,一共可以得到S个ICU病例,S为正整数。
按照步骤3对S个ICU病例中每一个医学特征的匹配程度进行打分,得到N个得分。
对所有医学特征的分数进行加权求和,得到最后的总分,作为最后检索结果排序的依据。权重主要是依据医生的经验给出的。这样得到S个已经排序的ICU病例。
医生可设置输出前TopN个相似度和参考价值最高的ICU病例,这样最终只会输出相似度总和最高的N个ICU病例,作为医生后续诊断的参考。
对应本申请中的基于相似度计算的ICU相似病例检索方法,本申请还提供了一种基于相似度计算的ICU相似病例检索***,所述***包括:
输入模块,用于获取输入文本,并解析所述输入文本,得到所述输入文本中包括的医学特征及医学特征对应的特征属性;
病例检索模块,用于在病例检索***中基于所述输入模块得到的输入文本中包括的每个医学特征进行检索,获取与所述医学特征的特征属性相匹配的历史ICU病例;
相似度打分模块,用于针对所述病例检索模块检索出的每个所述历史ICU病例,根据与匹配到的每个医学特征的类型相对应的相似度计算方式分别对所述匹配到的每个医学特征的匹配程度进行打分;对所述历史ICU病例中匹配到的所有医学特征的分数进行加权求和,得到所述历史ICU病例的总分;
输出模块,用于按照所述相似度打分模块得到的所述历史ICU病例的总分对各个历史ICU病例进行排序,得到并输出ICU病例检索结果集。
进一步地,所述医学特征包括:患病类型、用药情况、入院症状、其他特征中的一种或多种;其他特征为患病类型、用药情况、入院症状以外的特征;
与入院症状对应的相似度计算方式包括:TF-IDF计算公式;
与其他特征对应的相似度计算方式包括:如果特征为结构化特征,则按照匹配次数的总和进行打分;如果特征为自然语言型特征,则使用TF-IDF计算公式打分。
进一步地,输入模块用于解析所述输入文本包括:
(1)、对输入文本进行分词处理;
(2)、去除会引发歧义的词语,得到结构化的数据;
(3)、找到进行分词处理后输入文本的同义词和近义词,添加至输入文本中;
(4)、采用自然语言理解技术对处理后的文本词语集合进行解析化处理,得到所述输入文本中包括的医学特征及医学特征对应的特征属性,并转化为“医学特征:特征属性”的表现形式。
如果输入文本已经是结构化的数据,则直接执行(3)、(4)即可。
进一步地,加权求和的权重根据医生的经验确定。
进一步地,患病类型和入院症状的权重高于用药情况的权重,用药情况的权重高于其他特征的权重。
对于本发明实施例的基于相似度计算的ICU相似病例检索***而言,由于其与上面实施例中的相对应基于相似度计算的ICU相似病例检索方法,所以描述的比较简单,相关相似之处请参见上面实施例中部分的说明即可,此处不再详述。
本申请实施例还公开了一种计算机可读存储介质,该计算机可读存储介质内存储有计算机指令集,计算机指令集被处理器执行时实现如上文任一实施例所提供的基于相似度计算的ICU相似病例检索方法。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (10)
1.一种基于相似度计算的ICU相似病例检索方法,其特征在于,所述方法包括:
获取输入文本,并解析所述输入文本,得到所述输入文本中包括的医学特征及医学特征对应的特征属性;
在病例检索***中基于所述输入文本中包括的每个医学特征进行检索,获取与所述医学特征的特征属性相匹配的历史ICU病例;
针对每个所述历史ICU病例,根据与匹配到的每个医学特征的类型相对应的相似度计算方式分别对所述匹配到的每个医学特征的匹配程度进行打分;
对所述历史ICU病例中匹配到的所有医学特征的分数进行加权求和,得到所述历史ICU病例的总分;
按照所述历史ICU病例的总分对各个历史ICU病例进行排序,得到并输出ICU病例检索结果集。
2.根据权利要求1所述的基于相似度计算的ICU相似病例检索方法,其特征在于,解析所述输入文本,包括:
对输入文本进行分词处理;
去除会引发歧义的词语,得到结构化的数据;
找到进行分词处理后输入文本的同义词和近义词,添加至输入文本中;
采用自然语言理解技术对处理后的文本词语集合进行解析化处理,得到所述输入文本中包括的医学特征及医学特征对应的特征属性,并转化为“医学特征:特征属性”的表现形式。
3.根据权利要求1所述的基于相似度计算的ICU相似病例检索方法,其特征在于,解析所述输入文本,包括:
找到输入文本中包括的各个分词的同义词和近义词,添加至输入文本中;
采用自然语言理解技术对处理后的文本词语集合进行解析化处理,得到所述输入文本中包括的医学特征及医学特征对应的特征属性,并转化为“医学特征:特征属性”的表现形式。
4.根据权利要求1所述的基于相似度计算的ICU相似病例检索方法,其特征在于,所述医学特征包括:患病类型、用药情况、入院症状、其他特征中的一种或多种;其他特征为患病类型、用药情况、入院症状以外的特征。
5.根据权利要求1所述的基于相似度计算的ICU相似病例检索方法,其特征在于,加权求和的权重根据医生的经验确定。
6.根据权利要求4所述的基于相似度计算的ICU相似病例检索方法,其特征在于,患病类型和入院症状的权重高于用药情况的权重,用药情况的权重高于其他特征的权重。
7.根据权利要求4所述的基于相似度计算的ICU相似病例检索方法,其特征在于,与患病类型相对应的相似度计算方式包括: 其中wi=2/[e(n-1)+1]表示患病的重要程度参数,fi表示患病类型是否匹配,如果匹配则为1,不匹配则为0,n为正整数,表示患病类型总数;
与入院症状对应的相似度计算方式包括:TF-IDF计算公式;
与其他特征对应的相似度计算方式包括:如果特征为结构化特征,则按照匹配次数的总和进行打分;如果特征为自然语言型特征,则使用TF-IDF计算公式打分。
8.一种基于相似度计算的ICU相似病例检索***,其特征在于,所述***包括:
输入模块,用于获取输入文本,并解析所述输入文本,得到所述输入文本中包括的医学特征及医学特征对应的特征属性;
病例检索模块,用于在病例检索***中基于所述输入模块得到的输入文本中包括的每个医学特征进行检索,获取与所述医学特征的特征属性相匹配的历史ICU病例;
相似度打分模块,用于针对所述病例检索模块检索出的每个所述历史ICU病例,根据与匹配到的每个医学特征的类型相对应的相似度计算方式分别对所述匹配到的每个医学特征的匹配程度进行打分;对所述历史ICU病例中匹配到的所有医学特征的分数进行加权求和,得到所述历史ICU病例的总分;
输出模块,用于按照所述相似度打分模块得到的所述历史ICU病例的总分对各个历史ICU病例进行排序,得到并输出ICU病例检索结果集。
9.根据权利要求8所述的基于相似度计算的ICU相似病例检索***,其特征在于,所述医学特征包括:患病类型、用药情况、入院症状、其他特征中的一种或多种;其他特征为患病类型、用药情况、入院症状以外的特征;
与入院症状对应的相似度计算方式包括:TF-IDF计算公式;
与其他特征对应的相似度计算方式包括:如果特征为结构化特征,则按照匹配次数的总和进行打分;如果特征为自然语言型特征,则使用TF-IDF计算公式打分。
10.一种计算机可读存储介质,其特征在于,该计算机可读存储介质内存储有计算机指令集,计算机指令集被处理器执行时实现如权利要求1~7任一项所述的基于相似度计算的ICU相似病例检索方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011635403.5A CN112635072A (zh) | 2020-12-31 | 2020-12-31 | 基于相似度计算的icu相似病例检索方法、***及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011635403.5A CN112635072A (zh) | 2020-12-31 | 2020-12-31 | 基于相似度计算的icu相似病例检索方法、***及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112635072A true CN112635072A (zh) | 2021-04-09 |
Family
ID=75290419
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011635403.5A Pending CN112635072A (zh) | 2020-12-31 | 2020-12-31 | 基于相似度计算的icu相似病例检索方法、***及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112635072A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113241136A (zh) * | 2021-05-17 | 2021-08-10 | 哈尔滨工业大学(深圳) | 一种相似病例分析方法及*** |
CN116564539A (zh) * | 2023-07-10 | 2023-08-08 | 神州医疗科技股份有限公司 | 基于信息抽取和实体归一的医学相似病例推荐方法和*** |
CN117690581A (zh) * | 2023-12-13 | 2024-03-12 | 江苏济远医疗科技有限公司 | 一种基于大语言模型的疾病问诊过程辅助信息生成方法 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104572675A (zh) * | 2013-10-16 | 2015-04-29 | 中国人民解放军***南京总医院 | 一种相似病历检索的***及方法 |
CN106682397A (zh) * | 2016-12-09 | 2017-05-17 | 江西中科九峰智慧医疗科技有限公司 | 一种基于知识的电子病历质控方法 |
CN107799160A (zh) * | 2017-10-26 | 2018-03-13 | 医渡云(北京)技术有限公司 | 用药辅助决策方法及装置、存储介质、电子设备 |
CN109473152A (zh) * | 2018-09-07 | 2019-03-15 | 大连诺道认知医学技术有限公司 | 相似病历的查找方法、装置与电子设备 |
CN109545382A (zh) * | 2018-10-30 | 2019-03-29 | 平安科技(深圳)有限公司 | 一种基于大数据的雷同病例识别方法及计算设备 |
CN110517785A (zh) * | 2019-08-28 | 2019-11-29 | 北京百度网讯科技有限公司 | 相似病例的查找方法、装置及设备 |
CN111402973A (zh) * | 2020-03-02 | 2020-07-10 | 平安科技(深圳)有限公司 | 信息匹配分析方法、装置、计算机***及可读存储介质 |
CN111414393A (zh) * | 2020-03-26 | 2020-07-14 | 湖南科创信息技术股份有限公司 | 一种基于医学知识图谱的语义相似病例检索方法及设备 |
-
2020
- 2020-12-31 CN CN202011635403.5A patent/CN112635072A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104572675A (zh) * | 2013-10-16 | 2015-04-29 | 中国人民解放军***南京总医院 | 一种相似病历检索的***及方法 |
CN106682397A (zh) * | 2016-12-09 | 2017-05-17 | 江西中科九峰智慧医疗科技有限公司 | 一种基于知识的电子病历质控方法 |
CN107799160A (zh) * | 2017-10-26 | 2018-03-13 | 医渡云(北京)技术有限公司 | 用药辅助决策方法及装置、存储介质、电子设备 |
CN109473152A (zh) * | 2018-09-07 | 2019-03-15 | 大连诺道认知医学技术有限公司 | 相似病历的查找方法、装置与电子设备 |
CN109545382A (zh) * | 2018-10-30 | 2019-03-29 | 平安科技(深圳)有限公司 | 一种基于大数据的雷同病例识别方法及计算设备 |
CN110517785A (zh) * | 2019-08-28 | 2019-11-29 | 北京百度网讯科技有限公司 | 相似病例的查找方法、装置及设备 |
CN111402973A (zh) * | 2020-03-02 | 2020-07-10 | 平安科技(深圳)有限公司 | 信息匹配分析方法、装置、计算机***及可读存储介质 |
CN111414393A (zh) * | 2020-03-26 | 2020-07-14 | 湖南科创信息技术股份有限公司 | 一种基于医学知识图谱的语义相似病例检索方法及设备 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113241136A (zh) * | 2021-05-17 | 2021-08-10 | 哈尔滨工业大学(深圳) | 一种相似病例分析方法及*** |
CN116564539A (zh) * | 2023-07-10 | 2023-08-08 | 神州医疗科技股份有限公司 | 基于信息抽取和实体归一的医学相似病例推荐方法和*** |
CN116564539B (zh) * | 2023-07-10 | 2023-10-24 | 神州医疗科技股份有限公司 | 基于信息抽取和实体归一的医学相似病例推荐方法和*** |
CN117690581A (zh) * | 2023-12-13 | 2024-03-12 | 江苏济远医疗科技有限公司 | 一种基于大语言模型的疾病问诊过程辅助信息生成方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111414393B (zh) | 一种基于医学知识图谱的语义相似病例检索方法及设备 | |
CN109299239B (zh) | 一种基于es的电子病历检索方法 | |
CN107341264B (zh) | 一种支持自定义实体的电子病历检索***及方法 | |
CN107656952B (zh) | 平行智能病例推荐模型的建模方法 | |
Alicante et al. | Unsupervised entity and relation extraction from clinical records in Italian | |
CN110109887B (zh) | 数据检索方法、电子设备和计算机存储介质 | |
CN109753516B (zh) | 一种病历搜索结果的排序方法和相关装置 | |
CN112635072A (zh) | 基于相似度计算的icu相似病例检索方法、***及存储介质 | |
CN104572675B (zh) | 一种相似病历检索的***及方法 | |
US20030167252A1 (en) | Topic identification and use thereof in information retrieval systems | |
US20140344274A1 (en) | Information structuring system | |
CN110299209B (zh) | 相似病历查找方法、装置、设备及可读存储介质 | |
JP7464800B2 (ja) | 小サンプル弱ラベル付け条件での医療イベント認識方法及びシステム | |
Gerstmair et al. | Intelligent image retrieval based on radiology reports | |
Cao et al. | Multi-information source hin for medical concept embedding | |
Névéol et al. | Automatic indexing of online health resources for a French quality controlled gateway | |
EP3262533A1 (en) | Method and system for context-sensitive assessment of clinical findings | |
Wijewickrema et al. | Selecting a text similarity measure for a content-based recommender system: A comparison in two corpora | |
CN112071431B (zh) | 基于深度学习和知识图谱的临床路径自动生成方法及*** | |
Gobeill et al. | Question answering for biology and medicine | |
CN115631823A (zh) | 相似病例推荐方法及*** | |
CN114098638A (zh) | 一种可解释的动态疾病严重程度预测方法 | |
Zhang et al. | Extraction of English Drug Names Based on Bert-CNN Mode. | |
CN112712866A (zh) | 一种确定文本信息相似度的方法及装置 | |
Deshpande et al. | Multimodal Ranked Search over Integrated Repository of Radiology Data Sources. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Address after: 116000 room 206, no.8-9, software garden road, Ganjingzi District, Dalian City, Liaoning Province Applicant after: Neusoft Education Technology Group Co.,Ltd. Address before: 116000 room 206, no.8-9, software garden road, Ganjingzi District, Dalian City, Liaoning Province Applicant before: Dalian Neusoft Education Technology Group Co.,Ltd. |