CN109637605B - 电子病历结构化方法及计算机可读存储介质 - Google Patents

电子病历结构化方法及计算机可读存储介质 Download PDF

Info

Publication number
CN109637605B
CN109637605B CN201811513668.0A CN201811513668A CN109637605B CN 109637605 B CN109637605 B CN 109637605B CN 201811513668 A CN201811513668 A CN 201811513668A CN 109637605 B CN109637605 B CN 109637605B
Authority
CN
China
Prior art keywords
attribute
knowledge base
keywords
medical record
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811513668.0A
Other languages
English (en)
Other versions
CN109637605A (zh
Inventor
文再文
陈青筱
谢屿
张嘉琦
刘普凡
刘德斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University
Peking University School of Stomatology
Original Assignee
Peking University
Peking University School of Stomatology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University, Peking University School of Stomatology filed Critical Peking University
Priority to CN201811513668.0A priority Critical patent/CN109637605B/zh
Publication of CN109637605A publication Critical patent/CN109637605A/zh
Application granted granted Critical
Publication of CN109637605B publication Critical patent/CN109637605B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Public Health (AREA)
  • Primary Health Care (AREA)
  • Medical Informatics (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Epidemiology (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明提供了一种电子病历结构化方法及计算机可读存储介质。其中,该方法包括:载入第一医学知识库;对第一电子病历按照特殊符号进行分句,得到多个文本句子;利用匹配打分算法,对多个文本句子中每个文本句子匹配第一医学知识库中的属性;保存匹配结果。通过本发明,解决了相关技术中电子病历不能完全结构化的问题,实现了电子病历的完全结构化。

Description

电子病历结构化方法及计算机可读存储介质
技术领域
本发明涉及医疗领域,具体而言,涉及一种电子病历结构化方法及计算机可读存储介质。
背景技术
随着医疗***的电子化、网络化和智能化,病人的医疗数据被保存在电子病历中,包含主诉、病史、检查、诊断、治疗计划、处置等全方位的信息。在大数据的背景下,这些原始数据提供了医疗诊断决策的新的可能性,使得人们考虑从这些病历数据中挖掘信息、提取规则,设计智能***,进一步提高医疗水平和医疗质量。
但是,电子病历数据库往往保存的是医生录入的原始文本,尽管是按照一些指定模板撰写的,仍然会有一些自然语言表达的自由性和灵活性。因此,这样的数据并非完全结构化的,而仅仅是半结构化的数据,并不适用于更深层次的科研任务和智能医疗项目。这为我们提出了结构化原始文本数据的要求。
由于自然语言表达方式的多样性以及医学术语的专业性,电子病历文本的结构化方法存在一定的难度,而国内目前对相关研究的工作开展尚不充分。对于电子病历结构化方法,国内研究工作的结果目前主要是基于电子病历利用语义正反对疾病信息做出肯定或否定的判断,这种方式能够解决以二值逻辑标定的疾病信息,但对于数值、疾病程度等类型的信息则不能提取;此外,对于患者相关疾病信息的发生部位目前的研究结果也未提出对应的解决方案。这种信息提取的不完整性对于医学研究、诊断决策智能***的开发等工作形成了一定的局限。
本发明目的是针对不同类型的疾病信息、医疗处置信息对电子病历进行完整的信息提取,实现对电子病历文本的完全结构化。
发明内容
本发明提供了一种电子病历结构化方法及计算机可读存储介质,以至少解决相关技术中电子病历不能完全结构化的问题。
第一方面,本发明实施例提供了一种电子病历结构化方法,包括:载入第一医学知识库;对第一电子病历按照特殊符号进行分句,得到多个文本句子;利用匹配打分算法,对所述多个文本句子中每个文本句子匹配所述第一医学知识库中的属性;保存匹配结果。
第二方面,本发明实施例提供了一种计算机可读存储介质,其上存储有计算机程序指令,当所述计算机程序指令被处理器执行时实现第一方面所述的方法。
通过本发明实施例提供的电子病历结构化方法及计算机可读存储介质,采用载入第一医学知识库;对第一电子病历按照特殊符号进行分句,得到多个文本句子;利用匹配打分算法,对多个文本句子中每个文本句子匹配第一医学知识库中的属性;保存匹配结果,解决了相关技术中电子病历不能完全结构化的问题,实现了电子病历的完全结构化。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的电子病历结构化方法的流程图;
图2是根据本发明实施例的电子病历结构化设备的硬件结构示意图;
图3是根据本发明优选实施例的电子病历结构化方法的流程图;
图4是根据本发明优选实施例的口腔修复领域的第一医学知识库结构示例的示意图;
图5是根据本发明优选实施例的电子病历的示例的示意图;
图6是根据本发明优选实施例的电子病历结构化匹配结果的示意图;
图7是根据本发明优选实施例的电子病历结构化匹配结果中属性的匹配频率统计图表。
具体实施方式
下面将详细描述本发明的各个方面的特征和示例性实施例,为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细描述。应理解,此处所描述的具体实施例仅用于解释本发明,并不用于限定本发明。对于本领域技术人员来说,本发明可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本发明的示例来提供对本发明更好的理解。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
在本实施例中提供了一种电子病历结构化方法,图1是根据本发明实施例的电子病历结构化方法的流程图,如图1所示,该流程包括如下步骤:
步骤S101,载入第一医学知识库;
步骤S102,对第一电子病历按照特殊符号进行分句,得到多个文本句子;
步骤S103,利用匹配打分算法,对多个文本句子中每个文本句子匹配第一医学知识库中的属性;
步骤S104,保存匹配结果。
通过上述的步骤,利用匹配打分算法能够很好地将文本句子与第一医学知识库中的属性进行匹配,匹配的关键词可以不仅包括以二值逻辑标定的疾病信息,还能够匹配数值、疾病程度等类型的信息,从而解决了相关技术中电子病历不能完全结构化的问题,实现了电子病历的完全结构化。
可选地,第一医学知识库包括多个部分,每个部分包括一个或者多个属性、与属性对应的一个或者多个关键词,每个属性至少包括:属性名称、属性值和位置,每个关键词还包括该关键词的分数。例如,在第一医学知识库中,其基本单元为一个属性,由属性名称、属性值和位置三部分组成,属性名称可为某种疾病的症状、身体特征或治疗手段等;其相应的属性值可为症状的有无及轻重程度、身体特征的具体表现或治疗手段的具体方法等;位置可为具有对应属性的身体部位。一批属性共同属于某个部分(section)(如检查、治疗计划等),各个部分构成整个知识库。
由于医学诊断以及治疗措施本身的复杂性,为了能够详尽地对医学知识进行描述以及在结构化过程中尽可能地保留原始病历的信息,本实施例中对第一医学知识库可以进行以下几个方面的改进:a)拓展属性值取值类型;b)对每个属性增加“位置”以描述对应属性的身体部位;c)增加对时间序列信息的描述;d)对属性基于医学知识进行分类,形成对医学知识的层次化表达。
具体说明如下:
a)第一医学知识库属性值类型有实数类型、布尔类型、离散分类类型等,而在属性值的取值方式上包括判断、单选、数字、多选以及这几种方式的各种组合。这种多样化的表达形式能够实现医学中出现的各种属性的取值表达。
b)由于第一医学知识库中的大部分属性都涉及某一具体身体部位,例如疾病信息的发生部位、医疗措施的实施部位等,在本实施例中对属性增加对应的身体部位描述。而同时,增加“位置”描述之后需要再结构化方法中增加对“位置”信息的提取,这在本实施例中会进一步进行说明。
c)由于医疗行为本身是一个过程化的行为,而不是各种医疗措施的简单静态组合,尤其是针对患者病状指定的治疗计划和处置措施,不同医疗措施之间有先后关系。为了保留不同医疗措施之间的先后依赖关系,对第一医学知识库增加了时间序列信息的描述。例如,可以通过对需要表达时间序列的属性增加step和substep两个成员用于描述该属性在治疗过程中出现的次序,实现对属性的序列化表达。
d)基于医学上的考虑,本实施例中涉及的第一医学知识库分为主诉、复诊、现病史、既往史、检查、诊断、治疗计划、处置八个部分,每个部分针对具体需要描述的医学领域进行属性的设计和分级。例如在口腔修复领域,***分包括对牙齿和口腔两部分的检查结果,口腔部分的检查结果按照是否与牙位相关分为两个子部分,上述每个部分包括若干属性对各种检查中出现的疾病信息进行详尽地描述。
上述的第一医学知识库能够比较合适地实现对原始病历文本结构化表达。
可选地,特殊符号包括以下至少之一:中英文逗号、句号、换行符、制表符。
可选地,在载入第一医学知识库之前,方法还包括:载入第二医学知识库;根据第二医学知识库和第二电子病历提取关键词及其分数;根据第二医学知识库和提取到的关键词及其分数,构建第一医学知识库。在每个实施例中,第一医学知识库的结构需要有相应的规范,在本实施例中提供了第二医学知识库,这个第二医学知识库相当于第一医学知识库的规范模版;与第一医学知识库类似,第二医学知识库也包括多个部分,每个部分包括一个或者多个属性;每个属性至少包括:属性名称、属性值和位置。与第一医学知识库不同的是,第二医学知识库中没有与属性对应的一个或者多个关键词,以及关键词的分数信息。这些关键词及其分数信息是从第二电子病历中提取出来的。第一医学知识库是在第二医学知识库中针对各个属性增加一个或者多个关键词及其分数后构建而成的。
可选地,根据第二医学知识库和第二电子病历提取关键词名称及关键词分数包括:对第二电子病历中的文本句子按照属性名称和属性值进行分词,得到多个关键词,并将该关键词的近义词、同义词也一并作为关键词;根据关键词的重要性(是否为常用词)、否定性(是否为否定词)以及逻辑关系(与、或、非)的权重,给予其不同的分数。
可选地,利用匹配打分算法,对多个文本句子中每个文本句子匹配第一医学知识库中的属性包括:将每个文本句子对所有属性的关键词及其分数进行匹配,得到每个文本句子对应于所有属性的总分数;将属性的总分数高于预设阈值的文本句子对该属性中的关键词及其分数进行匹配,得到这个文本句子中属性值、位置对应于该属性的属性值分数和位置分数;将属性值分数和位置分数最高的属性值、位置及对应的属性,作为这个文本句子的匹配结果。通过上述的匹配打分算法,实现了文本句子与属性的匹配。
可选地,匹配结果包括:文本句子,以及该文本句子对应的属性、属性值、位置、所属部分、文本句子在第一电子病历中的位置。在保存匹配结果时,可以将每个文本句子的匹配结果保存为一行数据,并按照时间序列以及文本句子所属部分,将所有文本句子的匹配结果依次排列,保存为.csv格式,以便后续数据的查询与处理。
可选地,方法还包括:提取并保存未被任何属性正确匹配到的文本句子(包括匹配到了属性,但是没有匹配到属性值的文本句子)。通过上述方式,可以掌握文本句子的匹配程度。其中,对于每个部分未匹配到属性的文本句子可以保存为:文本句子,文本起始位置,文本结束位置,病历文件夹编号,病历编号;对于每个部分未匹配到属性值的文本句子可以保存为:文本句子,匹配到的属性,文本起始位置,文本结束位置,病历文件夹编号,病历编号。保存的格式优选为.xls格式。
在提取出未被任何属性正确匹配到的文本句子之后,还可以对这些文本句子进行分词、排序、人工筛查等处理,以发现第二医学知识库中关键词或者属性分类的不足,并通过对关键词进行添加/删除/调整分数等操作,实现对第二医学知识库的迭代优化,从而进一步提高第二医学知识库对电子病历的文本句子的匹配率和准确率。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
结合图1描述的本发明实施例的电子病历结构化方法可以由电子病历结构化设备来实现。图2示出了本发明实施例提供的电子病历结构化设备的硬件结构示意图。
电子病历结构化设备可以包括处理器21以及存储有计算机程序指令的存储器22。
具体地,上述处理器21可以包括中央处理器(CPU),或者特定集成电路(Application Specific Integrated Circuit,ASIC),或者可以被配置成实施本发明实施例的一个或多个集成电路。
存储器22可以包括用于数据或指令的大容量存储器。举例来说而非限制,存储器22可包括硬盘驱动器(Hard Disk Drive,HDD)、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(Universal Serial Bus,USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下,存储器22可包括可移除或不可移除(或固定)的介质。在合适的情况下,存储器22可在数据处理装置的内部或外部。在特定实施例中,存储器22是非易失性固态存储器。在特定实施例中,存储器22包括只读存储器(ROM)。在合适的情况下,该ROM可以是掩模编程的ROM、可编程ROM(PROM)、可擦除PROM(EPROM)、电可擦除PROM(EEPROM)、电可改写ROM(EAROM)或闪存或者两个或更多个以上这些的组合。
处理器21通过读取并执行存储器22中存储的计算机程序指令,以实现上述实施例中的任意一种电子病历结构化方法。
在一个示例中,电子病历结构化设备还可包括通信接口23和总线20。其中,如图2所示,处理器21、存储器22、通信接口23通过总线20连接并完成相互间的通信。
通信接口23,主要用于实现本发明实施例中各模块、装置、单元和/或设备之间的通信。
总线20包括硬件、软件或两者,将电子病历结构化设备的部件彼此耦接在一起。举例来说而非限制,总线可包括加速图形端口(AGP)或其他图形总线、增强工业标准架构(EISA)总线、前端总线(FSB)、超传输(HT)互连、工业标准架构(ISA)总线、无限带宽互连、低引脚数(LPC)总线、存储器总线、微信道架构(MCA)总线、***组件互连(PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(SATA)总线、视频电子标准协会局部(VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下,总线20可包括一个或多个总线。尽管本发明实施例描述和示出了特定的总线,但本发明考虑任何合适的总线或互连。
该电子病历结构化设备可以基于获取到的数据,执行本发明实施例中的电子病历结构化方法,从而实现结合图1描述的电子病历结构化方法。
另外,结合上述实施例中的电子病历结构化方法,本发明实施例可提供一种计算机可读存储介质来实现。该计算机可读存储介质上存储有计算机程序指令;该计算机程序指令被处理器执行时实现上述实施例中的任意一种电子病历结构化方法。
为了使本发明实施例的描述更加清楚,下面结合优选实施例进行描述和说明。
本优选实施例提供了一种电子病历结构化方法,图3是根据本发明优选实施例的电子病历结构化方法的流程图,如图3所示,该流程图包括如下步骤:
步骤1:构建第一医学知识库。
在本优选实施例中,基于第二医学知识库构建第一医学知识库,包括如下步骤:
1、在表1定义了第二医学知识库格式,表2给出了对表1中“要求”的详细说明,图4给出了口腔修复领域的第一医学知识库结构示例的示意图。
表1 一种第二医学知识库格式
Figure DEST_PATH_IMAGE002A
表2 表1中的“要求”的详细说明
要求 说明
单选 默认“未知”,属性名得分 >=1 时,选择得分最高的选项
单选 * 选择得分最高的选项
多选 选择所有得分 >=1 的选项
判断 默认“无”,属性名得分 >=1 时,且没有出现否定词时,选择“是”
数字 选择得分最高的选项(单位),找到句子中单位前的数词
时间 选择得分最高的选项(单位),找到句子中单位前的时间词
单选/数字 属性名得分 >=1 时,选择得分最高的选项,或找出数字
2、对图5中的所有短语进行人工分词,并通过抽样筛查病历,得到常出现的关键词(包含同义词、近义词、简写缩写、错别字等等);
3、将关键词添加到第二医学知识库每个匹配对象后面,构成第一医学知识库。并按照关键词对应的不同重要性和词性赋予不同的分数(例如专业术语为正分,否定词为负分,常用词为0分)。同时还通过分数来实现“与或非”关系:例如,由于规定得分大于等于1为匹配成功,因此如果要求两个关键词同时出现,可以设置两词的分数分别为0.5。如表3所示。
表3 一种第一医学知识库格式
Figure DEST_PATH_IMAGE004A
步骤2:对第一电子病历进行分句。
大部分情况下,电子病历中一个短句(以逗号划分)对应于一组“属性-属性值”。因此,按照标点符号对电子病历进行划分。
1、将整个病历文本按照中英文逗号、句号、换行符、制表符进行分句。
2、处理划分的特殊情况(如小数点、序号编号等等)
步骤3:定义结构化格式。
1、结构化的目标基本格式为:文本句子、属性、属性值、位置、所属部分、文本在电子病历中对应位置。对于需要增加时间序列的属性,其目标格式为:文本句子,属性,属性值,位置,step,substep,所属部分,文本在电子病历中对应位置。
2、以此作为一行内容,将整个病历文件按句排列,保存成.csv格式。
步骤4:将文本句子与第一医学知识库进行匹配。
1、对每个文本句子,遍历所有属性。对每个属性,设置属性名称的匹配得分和属性值各选项的匹配得分初始值为0。
2、对属性的属性名、属性值、位置进行匹配。具体匹配过程如下所述:
a)属性名匹配
根据属性名对应的关键词组与文本句子进行匹配,若匹配成功则累积分数(正性关键词加,负性关键词减),得到属性名所有关键词匹配的总得分。若得分超过一定阈值,则认为该文本句子与此属性的属性名称匹配成功,并进行属性值匹配。
b)选项型属性值匹配
对属性值的每个选项,将相应的关键词组与文本句子进行匹配,若成功则累积分数,得到该选项所有关键词匹配的总得分。对于单选型属性,取累积分数最高的选项作为该属性的属性值;对于多选型属性,取累积分数超过一定阈值的所有选项作为该属性的属性值;对于判断型属性,若选项累积分数超过一定阈值则认为该属性值匹配成功。
c)数值型属性值匹配
对文本句子中的每个字符进行循环判断,找出其中的表达数值的连续字符串,并转换为数值类型作为该属性的属性值。
d)位置匹配
若属性是与牙位相关的,则利用正则表达式匹配文本句子中的牙位(连续的三个‘/’作为特征)作为该属性位置的值。若位置有多个选项,则采取选项型属性值匹配同样的方法对位置的每个选项进行匹配,根据位置取值的不同要求选择其中累积得分满足要求的选项作为位置取值。
3、根据表3所示的不同要求对应的得分匹配标准,确定该“属性-属性值”是否满足要求。若满足,则将此文本句子与对应“属性-属性值”对按照步骤3中的格式保存;若不满足,则进入下一个属性进行匹配。
4、对于可能出现多个属性均匹配成功的情况,将每一条匹配成功的结果都保存。
5、提取文本信息中的时间序列信息。
由于治疗计划部分中的不同操作有顺序之分,需要在结构化结果中体现出来。对于治疗计划部分中的每个文本句子,寻找文本句子开头表示步骤的序号作为该句子对应属性的操作顺序。
由于每一步骤之中还会出现多个方案可选的情况,也同样需要在结构化结果中体现。对这样的每个文本句子,判断文本句子中是否有表示“或”关系的词,若有则将其分开,分别进行属性匹配。
6、基于匹配打分算法的匹配,能够对文本句子中的信息进行较为充分的提取。在大部分情况下,一个文本句子对应一个属性;对于一个文本句子对应多个属性的情况,根据算法逻辑这些属性也都能匹配上。由于本发明涉及的医学知识库包含了对布尔类型、实数类型、分类类型等多种类型的取值描述以及在关键词组中增加了语义正反的词语,因而该匹配算法不仅能够正确识别疾病信息的语义正反,同时还能对疾病信息的具体数值信息进行提取(说明疾病的严重程度、测量值等),这是目前其他结构化方法无法实现的。
使用关键词组对文本句子进行匹配,能够识别出文本句子中多种类型的信息,包括语义正反、属性值不同选项、数值等,这极大拓展了此方法的适用性。
步骤5:将匹配过程中未完全匹配的文本句子进行保存。
1、未完全匹配文件格式为:文本句子、匹配到的属性*、文本起始位置、文本结束位置、病历文件夹编号、病历文件编号。
2、以此作为一行内容,将所有病历文件中未匹配成功的句子按句排列,保存为.xls格式。
3、对每个病历文件中的每个文本句子,检查其匹配情况。若该文本句子未满足匹配成功的条件,则将其保存到对应部分的.xls表格中。
结构化结果分析
本实施例对以上电子病历结构化方法利用python语言开发出了一套用于病历文本结构化的工具,并对三千余份电子病历文本进行了结构化工作。以下将给出对此结果的展示和分析统计。
本实施例处理的病历文本来自于口腔修复科牙列缺损的相关病历,所用医学知识库基于口腔修复领域相关知识整理得到,部分知识库如图4所示。病历文本示例如图5所示,结构化结果如图6所示。
从结构化结果来看,此方法实现了以下有益效果:
1、能够准确识别出病历文本中出现的位置信息,包括以“上颌”、“下颌”这类以文本出现位置和牙位信息。
2、能够有效标注出病历文本中的属性及对应的属性值,其中对不同类型的属性值都能实现有效的识别。
3、对文本中不同治疗措施之间的先后顺序能够有效提取。
与已有的几种病历结构化方法对比,本发明实施例提供的涉及的方法构建了更全面的第一医学知识库,能够更加贴合病历文本,同时也能够更加完整地提取出病历文本中的信息。而现有的方法,如基于语义正反的结构化方法,往往只能根据文本对知识库中描述的医学专业词给出肯定\否定的判断,而不能赋予该属性更加全面的信息(诸如发病位置、程度等)。
本实施例使用的第一医学知识库包含12个部分,共计389个属性。属性取值有多选、单选判断、数值等类型,属性位置取值有单选、取牙位等类型。图7展示了此实例结构化结果中部分属性的频率统计,关于属性不同取值差异的统计没有反映在数据中。从图7中可以看到,在这三千余份病历中,不同属性出现的频数有很大的差距,这反映除了病历中的一些常见病症,也为我们认识病症提供了一种统计上的方法。
通过随机抽取一定数量的病历,对照第一医学知识库人工标注,以此作为标准衡量此方法给出的结构化结果的效果,表明本发明实施例提供的电子病历结构化方法能够完成第一医学知识库中所要求的的结构化任务。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种电子病历结构化方法,其特征在于,包括:
载入第一医学知识库,所述第一医学知识库包括多个部分,每个部分包括一个或者多个属性、与属性对应的一个或者多个关键词;每个属性至少包括:属性名称、属性值、位置和取值类型/方式说明,每个关键词还包括:关键词的分数;
对第一电子病历按照特殊符号进行分句,得到多个文本句子;
利用匹配打分算法,对所述多个文本句子中每个文本句子匹配所述第一医学知识库中的属性,包括:
将所述每个文本句子对每一属性的属性名关键词及其分数进行匹配,得到每个文本句子对应于每一属性的属性名总分数;
将属性的属性名总分数高于预设阈值的文本句子对该属性中属性值、位置的关键词及其分数进行匹配,得到这个文本句子中属性值、位置对应于该属性的属性值分数和位置分数;
将最高属性值分数和最高位置分数对应的属性值、位置以及对应属性,作为这个文本句子的匹配结果;
保存匹配结果 。
2.根据权利要求1所述的方法,其特征在于,所述属性值的类型包括以下至少之一:实数类型、布尔类型、离散分类类型;所述属性值的取值方式包括以下至少之一:判断、单选、数字、多选。
3.根据权利要求1所述的方法,其特征在于,所述特殊符号包括以下至少之一:中英文逗号、句号、换行符、制表符。
4.根据权利要求1所述的方法,其特征在于,在载入所述第一医学知识库之前,所述方法还包括:
载入第二医学知识库,其中,所述第二医学知识库包括多个部分,每个部分包括一个或者多个属性;每个属性至少包括:属性名称、属性值和位置;
根据所述第二医学知识库和第二电子病历提取关键词及其分数;
根据所述第二医学知识库和提取到的关键词及其分数,构建所述第一医学知识库。
5.根据权利要求4所述的方法,其特征在于,根据所述第二医学知识库和第二电子病历提取关键词名称及关键词分数包括:
对所述第二电子病历按照属性名称和属性值进行分词,得到多个关键词,并将该关键词的近义词、同义词也一并作为关键词;
根据关键词的重要性、否定性以及逻辑关系的权重,给予其不同的分数。
6.根据权利要求1所述的方法,其特征在于,所述匹配结果包括:文本句子,以及该文本句子对应的属性、属性值、位置、所属部分、文本句子在所述第一电子病历中的位置。
7.根据权利要求4或者5所述的方法,其特征在于,所述方法还包括:
提取并保存未被任何属性正确匹配到的文本句子;
对提取到的文本句子进行分词、排序、人工筛查处理,对比发现第二医学知识库中关键词或属性分类的不足;
通过对关键词进行添加/删除/调整分数操作,实现对所述第二医学知识库的迭代优化。
8.一种计算机可读存储介质,其上存储有计算机程序指令,其特征在于,当所述计算机程序指令被处理器执行时实现如权利要求1-7中任一项所述的方法。
CN201811513668.0A 2018-12-11 2018-12-11 电子病历结构化方法及计算机可读存储介质 Active CN109637605B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811513668.0A CN109637605B (zh) 2018-12-11 2018-12-11 电子病历结构化方法及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811513668.0A CN109637605B (zh) 2018-12-11 2018-12-11 电子病历结构化方法及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN109637605A CN109637605A (zh) 2019-04-16
CN109637605B true CN109637605B (zh) 2022-05-10

Family

ID=66072953

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811513668.0A Active CN109637605B (zh) 2018-12-11 2018-12-11 电子病历结构化方法及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN109637605B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110277149A (zh) * 2019-06-28 2019-09-24 北京百度网讯科技有限公司 电子病历的处理方法、装置及设备
CN110704632A (zh) * 2019-08-26 2020-01-17 南京医渡云医学技术有限公司 临床数据的处理方法、装置、可读介质和电子设备
TWI750513B (zh) * 2019-10-05 2021-12-21 業務人資訊有限公司 核保理賠輔助系統及其實施方法
CN111192646A (zh) * 2019-12-30 2020-05-22 北京爱医生智慧医疗科技有限公司 一种电子病历中体征信息提取方法及装置
CN112101034B (zh) * 2020-09-09 2024-02-27 沈阳东软智能医疗科技研究院有限公司 一种判别医学实体的属性的方法、装置及相关产品
CN112883712B (zh) * 2021-02-05 2023-05-02 中国人民解放军南部战区总医院 一种电子病历的智能输入方法及装置
CN113988082A (zh) * 2021-10-28 2022-01-28 泰康保险集团股份有限公司 文本处理方法、装置、电子设备和存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001101184A (ja) * 1999-10-01 2001-04-13 Nippon Telegr & Teleph Corp <Ntt> 構造化文書生成方法及び装置及び構造化文書生成プログラムを格納した記憶媒体
CN102298588A (zh) * 2010-06-25 2011-12-28 株式会社理光 从非结构化文档中抽取对象的方法和装置
CN107578798A (zh) * 2017-10-26 2018-01-12 北京康夫子科技有限公司 电子病历的处理方法及***
CN108009157A (zh) * 2017-12-27 2018-05-08 北京嘉和美康信息技术有限公司 一种语句归类方法及装置
CN108711443A (zh) * 2018-05-07 2018-10-26 成都智信电子技术有限公司 电子病历的文本数据解析方法和装置

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1614587A (zh) * 2003-11-07 2005-05-11 杨立伟 中文文件自动摘要方法
CN103020453B (zh) * 2012-12-15 2015-12-02 中国科学院深圳先进技术研究院 基于本体技术的结构化电子病历生成方法
CN106095913A (zh) * 2016-06-08 2016-11-09 广州同构医疗科技有限公司 一种电子病历文本结构化方法
CN106897568A (zh) * 2017-02-28 2017-06-27 北京大数医达科技有限公司 病历结构化的处理方法和装置
CN107085655B (zh) * 2017-04-07 2020-11-24 江西中医药大学 基于属性的约束概念格的中医数据处理方法及***
CN107908768A (zh) * 2017-09-30 2018-04-13 北京颐圣智能科技有限公司 电子病历处理的方法、装置、计算机设备及存储介质
CN108182972B (zh) * 2017-12-15 2021-07-20 中电科软件信息服务有限公司 基于分词网络的中文疾病诊断的智能编码方法及***

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001101184A (ja) * 1999-10-01 2001-04-13 Nippon Telegr & Teleph Corp <Ntt> 構造化文書生成方法及び装置及び構造化文書生成プログラムを格納した記憶媒体
CN102298588A (zh) * 2010-06-25 2011-12-28 株式会社理光 从非结构化文档中抽取对象的方法和装置
CN107578798A (zh) * 2017-10-26 2018-01-12 北京康夫子科技有限公司 电子病历的处理方法及***
CN108009157A (zh) * 2017-12-27 2018-05-08 北京嘉和美康信息技术有限公司 一种语句归类方法及装置
CN108711443A (zh) * 2018-05-07 2018-10-26 成都智信电子技术有限公司 电子病历的文本数据解析方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于本体的临床医学案例知识库研究;周钧;《中国优秀硕士学位论文全文数据库 信息科技辑》;20130315;第19-32页 *

Also Published As

Publication number Publication date
CN109637605A (zh) 2019-04-16

Similar Documents

Publication Publication Date Title
CN109637605B (zh) 电子病历结构化方法及计算机可读存储介质
CN106598959B (zh) 一种确定双语语句对互译关系方法及***
US20100174528A1 (en) Creating a terms dictionary with named entities or terminologies included in text data
CN111681728B (zh) 一种电子病历的内涵质控方法及装置
CN110096573B (zh) 一种文本解析方法及装置
CN112908436B (zh) 临床试验数据结构化方法、临床试验推荐方法和装置
CN113051905A (zh) 训练医疗命名实体识别模型及医疗命名实体识别的方法
CN110741376A (zh) 用于不同自然语言的自动文档分析
CN112257422A (zh) 命名实体归一化处理方法、装置、电子设备及存储介质
CN111177375B (zh) 一种电子文档分类方法及装置
CN110929520A (zh) 非命名实体对象抽取方法、装置、电子设备及存储介质
CN114970491B (zh) 一种文本衔接性判断方法、装置、电子设备及存储介质
CN114358001A (zh) 诊断结果的标准化方法及其相关装置、设备和存储介质
CN113488157B (zh) 智能导诊处理方法、装置、电子设备及存储介质
CN111160034A (zh) 一种实体词的标注方法、装置、存储介质及设备
CN114238639A (zh) 一种医学术语标准化框架的构建方法、装置、电子设备
WO2024007810A1 (zh) 一种基于医学疾病和药品的编码方法和编码装置
CN115757801B (zh) 用于医疗文本的基于决策树的模型训练方法和装置
CN114842982B (zh) 一种面向医疗信息***的知识表达方法、装置及***
CN108573025B (zh) 基于混合模板抽取句子分类特征的方法及装置
CN114281983B (zh) 分层结构的文本分类方法、***、电子设备和存储介质
CN114333461B (zh) 主观题自动评分方法及***
CN112955961B (zh) 医学文本中对基因名称的标准化的方法和***
CN114528824A (zh) 文本纠错方法、装置、电子设备及存储介质
CN112257416A (zh) 一种稽查新词发现方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant