CN115424692A - 一种结构化电子病历的构建方法、电子设备及存储介质 - Google Patents

一种结构化电子病历的构建方法、电子设备及存储介质 Download PDF

Info

Publication number
CN115424692A
CN115424692A CN202211077804.2A CN202211077804A CN115424692A CN 115424692 A CN115424692 A CN 115424692A CN 202211077804 A CN202211077804 A CN 202211077804A CN 115424692 A CN115424692 A CN 115424692A
Authority
CN
China
Prior art keywords
medical record
disease
target
word
database
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211077804.2A
Other languages
English (en)
Inventor
李科威
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kelingli Intelligent Medical Software Shenzhen Co ltd
Original Assignee
Kelingli Intelligent Medical Software Shenzhen Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kelingli Intelligent Medical Software Shenzhen Co ltd filed Critical Kelingli Intelligent Medical Software Shenzhen Co ltd
Priority to CN202211077804.2A priority Critical patent/CN115424692A/zh
Publication of CN115424692A publication Critical patent/CN115424692A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/252Integrating or interfacing systems involving database management systems between a Database Management System and a front-end application
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Epidemiology (AREA)
  • Medical Informatics (AREA)
  • Primary Health Care (AREA)
  • Public Health (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本申请公开了一种结构化电子病历的构建方法、电子设备及存储介质。其中,该方法包括:根据结构型知识库中的第一数据库对患者的原始电子病历进行拆分,得到病历文本语句,第一数据库存储有用于触发拆分的第一关键词;根据结构型知识库中的第二数据库对病历文本语句进行分词,得到组成病历文本语句的词语,第二数据库存储有用于触发分词的第二关键词;根据结构型知识库中的第三数据库对已得到的各个词语进行识别,得到每个病历文本语句所对应的实体要素,第三数据库存储有用于表征实体要素的第三关键词;根据实体要素构建患者的结构化电子病历。本申请方案无需依赖样本数据也可保障对电子病历的识别准确率,以此构建准确的结构化电子病历。

Description

一种结构化电子病历的构建方法、电子设备及存储介质
技术领域
本申请属于医疗数据处理技术领域,尤其涉及一种结构化电子病历的构建方法、电子设备及计算机可读存储介质。
背景技术
医疗机构所使用的电子病历都是自然语言文本,因而需要从电子病历中提取出有效的医疗结构化信息来构建结构化电子病历,该结构化电子病历对之后的临床诊疗具有非常重要的意义。
当前,本领域中常通过深度学习模型实现结构化电子病历的构建,其过程可简述为:通过数据标注、特征提取以及模型训练,运用相应的算法对电子病历的文本内容进行结构化信息的识别和提取。然而,这种构建方法存在过于依赖样本数据的弊端。
发明内容
本申请提供了一种结构化电子病历的构建方法、电子设备及计算机可读存储介质,可在不依赖样本数据的前提下,保障对电子病历的识别准确率,以此构建较为准确的结构化电子病历。
第一方面,本申请提供了一种结构化电子病历的构建方法,包括:
根据结构型知识库中预设的第一数据库对患者的原始电子病历进行拆分,得到病历文本语句,其中,原始电子病历以自然语言进行表达,第一数据库存储有第一关键词,第一关键词用于触发拆分的操作;
根据结构型知识库中预设的第二数据库对病历文本语句进行分词,得到组成病历文本语句的词语,其中,第二数据库存储有第二关键词,第二关键词用于触发分词的操作;
根据结构型知识库中预设的第三数据库对已得到的各个词语进行识别,得到每个病历文本语句所对应的实体要素,其中,第三数据库存储有第三关键词,第三关键词用于表征实体要素;
根据实体要素构建患者的结构化电子病历。
第二方面,本申请提供了一种电子设备,上述电子设备包括存储器、处理器以及存储在上述存储器中并可在上述处理器上运行的计算机程序,上述处理器执行上述计算机程序时实现如上述第一方面的方法的步骤。
第三方面,本申请提供了一种计算机可读存储介质,上述计算机可读存储介质存储有计算机程序,上述计算机程序被处理器执行时实现如上述第一方面的方法的步骤。
第四方面,本申请提供了一种计算机程序产品,上述计算机程序产品包括计算机程序,上述计算机程序被一个或多个处理器执行时实现如上述第一方面的方法的步骤。
本申请与现有技术相比存在的有益效果是:不再通过深度学习模型来构建结构化电子病历,而是基于结构型知识库来构建结构化电子病历,其具体过程为:根据结构型知识库中预设的第一数据库对患者的原始电子病历进行拆分,得到病历文本语句,其中,原始电子病历以自然语言进行表达,第一数据库存储有第一关键词,第一关键词用于触发拆分的操作;根据结构型知识库中预设的第二数据库对病历文本语句进行分词,得到组成病历文本语句的词语,其中,第二数据库存储有第二关键词,第二关键词用于触发分词的操作;根据结构型知识库中预设的第三数据库对已得到的各个词语进行识别,得到每个病历文本语句所对应的实体要素,其中,第三数据库存储有第三关键词,第三关键词用于表征实体要素;根据实体要素构建患者的结构化电子病历。由于结构知识库所存储的内容是公开的,因而基于该结构型知识库构建结构化电子病历的过程也相对来说更加透明。并且,结构型知识库不依赖于人工标注的训练样本而构建,不仅省去了收集及标注训练样本的时间,而且省去了繁琐的对深度模型训练的过程,不会再出现因训练样本而影响构建结果的情况。进一步地,医护人员还可在使用该结构型知识库的过程中,根据自身需求调整或优化结构型知识库中的各个数据库所存储的数据,这可帮助构建出更为准确的结构化电子病历。可以理解的是,上述第二方面至第四方面的有益效果可以参见上述第一方面中的相关描述,在此不再赘述。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1是本申请实施例提供的结构化电子病历的构建方法的实现流程示意图;
图2是本申请实施例提供的电子设备的结构示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定***结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中,省略对众所周知的***、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。
现有技术中,常通过深度学习模型实现结构化电子病历的构建,其过程可简述为:通过数据标注、特征提取以及模型训练,运用相应的算法对电子病历的文本内容进行结构化信息的识别和提取。显然,上述过程需要大量的样本数据构成训练集来进行对深度学习模型的训练。一旦样本数据不够,就无法达到预期的效果。同时,样本数据通常需要人工进行数据标注,工作量大且容易出错,这也会影响到深度学习模型的训练效果,从而影响后续的诊疗正确率。此外,深度学习模型具有黑匣子性质,其应用的结果不够透明,且很难用人类可以理解的语言来对其过程及结果进行解释,这在医疗领域中是难以被接受的。进一步地,基于深度学习的人工智能(Artificial Intelligence,AI)技术的实质是“相似性多点匹配”,但是深度学习逻辑上并不具备与生命逻辑关联的过程性连续判断能力,这导致相似性多点匹配所能够解决的医疗问题十分受限。尤其是针对医疗领域中常面对的病情变化多端的场景,临床要求具备跨专科的应变能力时,基于深度学习的技术往往难以有效进行应对。基于此,本申请实施例提出了一种结构化电子病历的构建方法、电子设备及计算机可读存储介质,可在不依赖样本数据的前提下,保障对电子病历的识别准确率,以此构建较为准确的结构化电子病历。
为了说明本申请所提出的技术方案,下面通过具体实施例来进行说明。
下面对本申请实施例所提出的结构化电子病历的构建方法作出说明。可以理解,该构建方法基于结构型知识库而实现,下面对该结构型知识库进行简单说明:该结构型知识库具体基于文献型知识库(也即共识文献)而搭建,运用了知识库的大规模工程构建方法,形成了元素化的结构体系和可重构的工程体系,能够将医学学术转化为临床落地应用,适用于医疗上病情变化多端,需要长逻辑链进行连续判断的机制。具体而言,该结构型知识库中包括多个数据库,后文会对各个数据库进行详细说明。
请参阅图1,该构建方法的实现流程详述如下:
步骤101,根据结构型知识库中预设的第一数据库对患者的原始电子病历进行拆分,得到病历文本语句。
原始电子病历内包含有患者就诊以来的信息,这些信息具体以自然语言为表达;也即,原始电子病历实际呈现为自然语言文本。由于原始电子病历不可避免的会存在一些冗余信息,因而为实现对该原始电子病历的有序处理,电子设备在获得原始电子病历后,可先根据结构型知识库中的第一数据库对该原始电子病历进行粗略的拆分,得到组成该原始电子病历的病历文本语句。其中,该第一数据库存储有第一关键词,该第一关键词用于触发拆分的操作。也即,电子设备可遍历原始电子病历,一旦在原始电子病历中找到了能够与任一第一关键词相匹配的文本,即可确定该文本处可进行拆分的操作。
在一些实施例中,电子设备可通过接口请求的方式获取原始电子病历,也可通过文件载入的方式获取原始电子病历,此处不作限定。
步骤102,根据结构型知识库中预设的第二数据库对病历文本语句进行分词,得到组成病历文本语句的词语。
可以理解,通过步骤101,电子设备已经对原始电子病历完成了粗略的拆分,其拆分的结果是病历文本语句,而病历文本语句所包含的字符内容通常仍然较多。基于此,为提升后续的识别效率,可对病历文本语句进行进一步处理,具体为根据结构型知识库中的第二数据库对病历文本语句进行精细的分词,得到组成病历文本语句的词语。其中,该第二数据库存储有第二关键词,该第二关键词用于触发分词的操作。也即,电子设备可遍历病历文本语句,一旦在病历文本语句中找到了能够与任一第二关键词相匹配的文本,即可确定该文本处可进行分词的操作。
步骤103,根据结构型知识库中预设的第三数据库对已得到的各个词语进行识别,得到每个病历文本语句所对应的实体要素。
可以理解,通过步骤102,电子设备已经将原始电子病历拆分为了多个词语。考虑到本申请实施例专注的是结构化电子病历的构建,因而针对结构化电子病历所关注的实体要素,可将其划分为如下几类:用于描述患者基本信息的基本信息要素,用于描述患者可能所患疾病的疾病要素,用于描述患者与疾病相关联的特征的疾病特征要素及用于描述患者身体状态的生命体征要素等,此处不作限定。其中,患者与疾病相关联的特征包括但不限于如下几类:患者自诉其身体表现出来的症状,医生对患者查体得到的体征,患者的检验(具体为生化检验)和检查(具体为物理检查)的结果等,此处不作限定。
电子设备可对分词所得的各个词语进行进一步处理,具体为根据结构型知识库中的第三数据库对各个词语进行识别,得到每个病历文本语句所对应的实体要素。其中,该第三数据库存储有第三关键词,该第三关键词用于表征实体要素。也即,电子设备可遍历分词所得的各个词语,一旦找到了能够与任一第三关键词相匹配的词语,即可根据该第三关键词及该词语确定出对应的实体要素。
仅作为示例,该第三数据库可包括疾病特征要素词典,该疾病特征要素词典列举了所有可能的疾病特征要素,其词条格式可如下所示:{疾病特征要素ID|要素名称|要素性别|要素最小年龄|要素最大年龄|要素是否带方向部位|要素其它信息}。其中,疾病特征要素ID用于表示疾病特征要素的唯一标识;要素名称用于表示标准化的疾病特征要素的名称;要素性别用于表示疾病特征要素适用的性别,仅作为示例,其值为“0”可表示该疾病特征要素男女通用,其值为“1”可表示该疾病特征要素只适用于男性,其值为“2”可表示该疾病特征要素只适用于女性;要素最小年龄和要素最大年龄用于表示疾病特征要素适用的年龄范围;要素是否带方向部位用于表示对疾病特征要素进行分析时是否可携带方向和部位信息,其值为“0”表示否,其值为“1”表示可携带方向的信息,其值为“2”表示可携带部位的信息,其值为“3”表示可携带方向及部位的信息;要素其它信息用于表示其它与疾病特征要素相关联的信息。当然,疾病特征要素词典的词条中也还可根据实际需求携带其它信息,此处不作限定。
步骤104,根据实体要素构建患者的结构化电子病历。
可以理解,识别出的实体要素即为原始电子病历中真正与患者紧密相关的有用的医疗数据。由于实体要素中,除基本信息要素之外,其它均为知识库中已存储的规范化的表达,因而电子设备可根据已识别到的实体要素为患者构建出有条理、有逻辑且不含冗余信息的结构化电子病历。
在一些实施例中,在步骤104之后,电子设备还可将结构化电子病历同步至临床决策支持***(Clinical Decision Support System,CDSS)。可以理解,结构化电子病历可作为该CDSS***的AI辅诊的输入判据或者临床诊疗的参考依据。基于此,电子设备在构建得到结构化电子病历后,可将该结构化电子病历同步至该CDSS***,以使得该CDSS***输出对患者的辅助诊断信息。
在一些实施例中,为提升电子设备拆分/分词的效率,还可引入预处理操作。可以理解,该预处理操作可在拆分操作(也即步骤101)之前执行,也可在分词操作(也即步骤102)之前执行,此处不对该预处理操作的执行时机作出限定。下面以在分词操作(也即步骤102)之前执行预处理操作为例,对预处理操作进行说明:
根据结构型知识库中预设的第四数据库对病历文本语句进行预处理,第四数据库用于存储预设的预处理规则,预处理规则包括:规范化规则、标准化规则及清洗规则。
由于原始电子病历是基于自然语言的,其存在用语不规范、语言随意及用词不标准的现象,因而可对病历文本语句进行预处理操作,方便后续操作能够简洁且高效进行。可以理解,预处理操作主要包括对病历文本语句的规范化处理、标准化处理和无效词清洗处理。其中,规范化处理指的是:将一些不规范的自然语言转换为规范化的语言;标准化处理指的是:将一些从医学视角看不标准的自然语言转化为标准的医学语言;无效词清洗处理指的是:清洗原始电子病历中对病情分析或者后续临床诊疗无用的冗余语言。
为执行以上所提出的预处理操作,结构型知识库还预设有第四数据库,该第四数据库用于存储预设的预处理规则,包括:规范化规则、标准化规则及清洗规则。这几项预处理规则均可根据实际需要进行调整和配置,此处不作限定。仅作为示例,下面对这几项预处理规则及对应的预处理操作进行详细说明:
规范化规则可如下所示:<Normalization Rule|{Spaces Clean=1,PunctuationTransform=1,Full Angle Transform=1}>,其表示了多余空格清洗、中英文标点字符转化及全角半角字符转换等规则。相应地,基于该规范化规则所进行的规范化处理包括:删除病历文本语句中多余的空格、将病历文本语句中的标点字符统一转换为英文标点字符、将病历文本语句中的全角字符统一转换为半角字符等。
标准化规则具体表现为标准化词典的形式,其词条格式可如下所示:{序号|标准医学语言|不标准语言},其中,序号是标准化词典中的词条的数量,按顺序自动增长;标准医学语言和不标准语言分别预设了标准医学语言条目和不标准语言条目之间的转化关系,示例如{1203|颈部肩部|颈肩}。相应地,基于该标准化规则所进行的标准化处理包括:在病历文本语句中循环查找与标准化词典中预设的不标准语言相匹配的文本;若查找到与某一不标准语言相匹配的文本,则将该文本转化为该不标准语言所对应的标准医学语言。
清洗规则具体表现为清洗词词典的形式,该清洗词词典预设了需要被清洗的词语,其词条格式可如下所示:{清洗词ID|清洗词名称}。相应地,基于该清洗规则所进行的清洗处理包括:在病历文本语句中循环查找与清洗词词典中预设的清洗词相匹配的文本;若查找到与某一清洗词相匹配的文本,则将该文本删除。
在一些实施例中,电子设备在准备根据结构型知识库中的数据库进行对应的拆分、预处理、分词或识别等各项操作时,可先将该数据库中的数据写入缓存中;也即,将该数据库中所存储的内容传入缓存。这样一来,后续可直接通过缓存实现对数据库的访问,可提升操作效率。
在一些实施例中,电子设备在对原始电子病历进行粗略的拆分时,可考虑以段落为拆分依据,则第一关键词可具体为;分段子标题。为避免因语言表述不同导致对原始电子病历的漏拆分,一个分段子标题还可对应一个分段标题,其中,分段子标题可以为其所对应的分段标题的一种可能的表述,也可以为其所对应的分段标题下用于小节分类的表述;但需要注意的是,对于分段标题来说,一个分段标题可对应一个以上分段子标题。则第一数据库共可存储如下数据:预设的分段标题,预设的分段子标题,以及分段标题与分段子标题之间预设的映射关系。具体地,该映射关系在该数据库中可表达为如下形式:<string,list>,其中,string用于表示某一分段标题,list用于通过链表的形式表示该分段标题所对应的一个以上分段子标题。
仅作为示例,第一数据库所存储的分段标题可如下所示:{基本信息、主诉、现病史、既往史、体格检查、辅助检查、中医四诊、临床检验、诊断}。以“临床检验”这一分段标题所映射的分段子标题为例,第一数据库所存储的映射关系可如下所示:“<临床检验,{临床检验,临床检查,检验项}>”,其表示:“临床检验”这一分段标题映射有三个分段子标题,分别为:“临床检验”,“临床检查”及“检验项”。
基于以上所描述的第一数据库,步骤101可具体包括:
步骤1011,根据第一数据库中所包含的分段子标题,对原始电子病历进行遍历,得到N个目标分段子标题。
电子设备可在第一数据库所提供的分段子标题内进行循环,同时对原始电子病历进行遍历,以查找出原始电子病历中与任意分段子标题相匹配的文本内容;也即,查找出原始电子病历中的目标分段子标题。可以将该目标分段子标题理解为:原始电子病历中所包含的分段子标题。
在电子设备所获取的原始电子病历不完全或原始电子病历中的语言表述特别不规范等较为极端的应用场景下,可能出现未能在原始电子病历查找到任何与第一数据库中的分段子标题相匹配的文本内容,也即未能在原始电子病历中查找到目标分段子标题的情况。此时,电子设备可更换原始电子病历的获取方式,重新获取当前患者的原始电子病历;或者,电子设备也可输出第一提醒消息,该第一提醒消息用于提醒医护人员对当前处理的原始电子病历进行检查,以确定该原始电子病历是否存在问题。本申请实施例不对该应用场景下电子设备所进行的操作作出限定。
在电子设备能够在原始电子病历中查找到目标分段子标题的情况下,可记查找到的目标分段子标题的数量为N。显然,N为正整数。
步骤1012,根据在原始电子病历中的出现顺序,将第i个目标分段子标题与第i+1个目标分段子标题之间的文本内容拆分出来,得到第i个目标分段子标题所对应的目标分段标题下的病历文本语句,其中,i为小于N的正整数,目标分段标题为:与原始电子病历中所包含的分段子标题相对应的分段标题。
步骤1013,根据在原始电子病历中的出现顺序,将第N个目标分段子标题直至原始电子病历末尾的文本内容拆分出来,得到第N个目标分段子标题所对应的目标分段标题下的病历文本语句。
可以理解,在自然语言文本中,针对标题而言,任一标题下的文本内容往往跟随在该标题之后。基于此,可有如下结论:自然语言文本中,非首个标题与该非首个标题的上一个标题之间的文本内容,属于针对该上一个标题的描述;而最后一个标题之后直至该自然语言文本末尾的文本内容,属于针对该最后一个标题的描述。进一步地,针对原始电子病历这一类特殊的文本,还有如下现象:原始电子病历中,一般不会直接出现基本信息这一标题;以及,原始电子病历中,首个标题/子标题一般是主诉/主诉下的子标题,但在此之前还有文本段落,该文本段落通常为基本信息的内容。
在拆分的步骤中结合以上结论及现象,电子设备可进行如下操作:根据在原始电子病历中的出现顺序,将原始电子病历开端直至第1个目标分段子标题的文本内容拆分出来,作为固定的目标分段子标题(通常为基本信息这一分段子标题)下的病历文本语句;以及,将第i个目标分段子标题与第i+1个目标分段子标题之间的文本内容拆分出来,作为第i个目标分段子标题下的病历文本语句;以及,将第N个目标分段子标题直至原始电子病历末尾的文本内容拆分出来,作为第N个目标分段子标题下的病历文本语句。由此,针对原始电子病历来说,在其包含有N个目标分段子标题的情况下,实际共可获得N+1个目标分段子标题下的病历文本语句。
具体地,电子设备可针对每个目标分段子标题预分配一对应的第一字符串数组,则针对任一目标分段子标题来说,在得到该目标分段子标题下的病历文本语句后,即可将该病历文本语句暂时存储至该目标分段子标题所对应的第一字符串数组中。
具体地,考虑到一个分段标题可能对应有一个以上分段子标题,因而电子设备还可针对每个目标分段标题也预分配一对应的病历文本语句集合,该目标分段标题指的是:目标分段子标题所对应的分段标题。其中,病历文本语句集合具体可表现为列表的形式,当然也可表现为其它形式,此处不作限定。可以理解,从原始电子病历得到的目标分段标题的数量通常等于或小于目标分段子标题的数量,因为可能出现两个以上的目标分段子标题对应同一目标分段标题的情况。基于目标分段标题所对应的病历文本语句集合,可对目标分段子标题所对应的第一字符串数组进行管理,其过程为:将每个目标分段子标题所对应的第一字符串数组中的内容整合进对应的目标分段标题所对应的病历文本语句集合中。
在某一目标分段子标题无法在第一数据库中查找到对应的目标分段标题的情况下,电子设备可考虑忽略该目标分段子标题所对应的第一字符串数组,也即不对该目标分段子标题所对应的第一字符串数组进行后续处理;或者,电子设备也可输出第二提醒消息,该第二提醒消息用于提醒医护人员对第一数据库进行完善。本申请实施例不对该应用场景下电子设备所进行的操作作出限定。
在一些实施例中,针对分词的操作,所涉及到的第二关键词包括:分词词语。考虑到分词词语的数量通常较多,因而第二数据库具体可包括用于存储分词词语的至少一个分词词典。基于该第二数据库,步骤102可具体包括:
步骤1021,根据标点字符对病历文本语句进行第一分词处理,得到组成病历文本语句的短语。
由于标点字符不具备实际含义,其作用通常为表示停顿,因而本申请实施例中,电子设备优先考虑根据各个标点字符,通过split函数对病历文本语句进行第一分词处理。具体地,前文已描述了,电子设备为实现有序处理,每个目标分段标题均对应有病历文本语句集合,因而此处可以遍历病历文本语句集合,将当前遍历到的病历文本语句集合作为分词的对象,根据常见的各个标点字符,通过split函数对当前遍历到的病历文本语句集合中的各个病历文本语句进行第一分词处理,由此得到当前遍历的病历文本语句集合所对应的目标分段标题下的短语(也即组成该目标分段标题所对应的病历文本语句的短语)。电子设备可针对每个目标分段标题再预分配一对应的第二字符串数组,则电子设备可在得到当前遍历的病历文本语句集合所对应的目标分段标题下的短语之后,再将所得的短语存储于该目标分段标题所对应的第二字符串数组中。
步骤1022,根据第二数据库中所包含的分词词语对组成病历文本语句的短语进行第二分词处理,得到组成病历文本语句的词语。
原始电子病历中的不同分段标题下的文本内容有不一样的要求。因而,为提升分词效率,可对各分段标题设置对应的分词词典。具体地,该分词词典的格式可以为:<string,{分词列表}>,其中,string为某一预设的分段标题,{分词列表}为与该分段标题相对应的分词词语所组成的列表。
需要注意的是,针对部分分段标题下的文本内容,电子设备仅需通过标点字符即可完成分词的操作;因而,并非所有的分段标题都需要设置有对应的分词词典。可以理解,若针对某一目标分段标题,该目标分段标题在第二数据库中未设置有对应的分词词典,则可不对该目标分段标题下的短语进行步骤1022的操作,可直接将组成该目标分段标题所对应的病历文本语句的短语作为组成该目标分段标题所对应的病历文本语句的词语。
电子设备可针对每个目标分段标题预分配一对应的第三字符串数组;则,电子设备针对任一目标分段标题,可将组成该目标分段标题所对应的病历文本语句的词语存储于该目标分段标题所对应的第三字符串数组中。
实际应用场景下,医疗机构可根据具体需求,对第二数据库中的分词词典进行设置及调整,此处不再赘述。
仅作为示例,针对前文所提出的分段标题,可在分词词典中主要针对“主诉”和“现病史”这两项设置对应的分词词典,如下所示:<主诉,{第一分词列表}>,其中,第一分词列表为针对“主诉”这一分段标题所提出的分词列表,且该第一分词列表中的词语一般为前词;<现病史,{第二分词列表}>,其中,第二分词列表为针对“现病史”这一分段标题所提出的分词列表,且该第一分词列表中的词语一般为前词。
仅作为示例,第一分词列表中包括如下两个前词:“拇指”和“小指,并且通过步骤1021的第一分词处理,得到“主诉”这一目标分段标题所对应的短语为“拇指和小指疼痛”,则通过步骤1022的第二分词处理,可得到“拇指疼痛”和“小指疼痛”两个字符串,这两个字符串即为组成“主诉”下的病历文本语句的词语,可得到“主诉”这一目标分段标题的第三字符串数组为:<主诉,{“拇指疼痛”,“小指疼痛”}>。
在一些实施例中,前文已描述了实体要素包括:生命体征要素、疾病特征要素及疾病要素。为识别以上三类实体要素,第三数据库具体可包括:生命体征数据库、疾病特征数据库及疾病数据库。可以理解,前文所提出的疾病特征要素词典可存储于疾病特征数据库中。基于该第三数据库,步骤103可具体包括:
步骤1031,根据生命体征数据库,对组成第一病历文本语句的各个词语进行识别,得到目标生命体征要素。
其中,第一病历文本语句为:预设的第一分段标题下的病历文本语句,目标生命体征要素为:原始电子病历中所包含的生命体征要素。一般而言,该第一分段标题具体包括:“现病史”和“体格检查”。
生命体征数据库存储有:预设的生命体征参数词典和生命体征异常参数规则。该生命体征参数词典的格式可如下所示:<生命体征参数名称,{同义词列表},{单位列表}>。其中,生命体征参数名称为对应的六大生命体征参数,包括体温、血压、心率、血氧、血糖和呼吸;同义词列表是相应生命体征参数的同义词所组成的列表;单位列表是相应生命体征参数的单位所组成的列表。
仅作为示例,生命体征参数词典可如下所示:<体温,{"体温","T","最高温","最低温"},{"摄氏度","℃","度"}>,其表示:体温这一生命体征参数的同义词有:体温、T、最高温及最低温;单位有:摄氏度、℃及度。
仅作为示例,针对体温这一生命体征参数,其所对应的生命体征异常参数规则为:体温低于36.0℃,表示体温过低;体温在36.0~37.2℃,表示体温正常;体温在37.3~39.0℃,表示发热;体温>39.0℃,表示高热。
需要注意的是,针对心率、呼吸及血压,其异常参数规则除了与指标值相关之外,还与患者的年龄相关。
具体地,步骤1031包括如下几个步骤:
步骤10311,电子设备在组成第一病历文本语句的词语中进行循环(也即在第一分段标题所对应的第三字符串数组中遍历字符串),查找与生命体征参数名称或者与生命体征参数的同义词列表相匹配的词语。在查找到该词语的情况下,将与该词语加入到对应的生命体征参数的原始文本列表中。
步骤10312,循环结束后,六大生命体征参数均有对应的原始文本列表。为减少信息冗余,电子设备可判断各生命体征参数的原始文本列表的内部是否有重复,此处重复的定义为:在同一原始文本列表中有两条以上的记录。若有重复,则执行步骤10313。若没有重复,也即六大生命体征参数分别对应的各个原始文本列表中都没有超过1条记录,则执行步骤10314。
仅作为示例,假定体温这一生命体征参数所对应的原始文本列表中,有如下记录:36.5℃、37℃及37.3℃;则,电子设备通过判断,可知该原始文本列表中有三条记录,也即该原始文本列表的内部有重复。
需要注意的是,可能存在有某些生命体征参数所对应的原始文本列表为空的情况。当所有生命体征参数对应的原始文本列表都为空时,表明原始电子病历中不存在目标生命体征要素,可直接结束步骤1031。
步骤10313,将有重复的生命体征参数的原始文本列表推送至前端显示界面,由用户进行重复项选择,并将重复项选择的结果返回给电子设备,供电子设备执行步骤10314。
举例来说,若体温和心率的原始文本列表都存在两条记录,则可将体温和心率的原始文本列表推送到前端,由用户在原始文本列表中选择要保留的记录。选择后的体温和心率的原始文本列表均只有一条记录,该选择后的体温和心率的原始文本列表将被返回至电子设备。
步骤10314,电子设备得到六大生命体征参数所对应的原始文本列表,且每个原始文本列表均最多只有一条记录,各条记录的内容均为目标生命体征要素。
步骤1032,根据疾病特征数据库,对组成第二病历文本语句的各个词语进行识别,得到目标疾病特征要素。
其中,第二病历文本语句为:预设的第二分段标题下的病历文本语句,目标疾病特征要素为:原始电子病历中所包含的疾病特征要素。一般而言,该第二分段标题具体包括:除“诊断”和“基本信息”之外的分段标题。相应地,疾病特征要素可具体包括:特征描述要素、检验项要素及起病要素。
具体地,考虑到患者的原始电子病历中,除了诊断一栏外,其它各栏下均可能描述有与疾病特征相关的信息,因而,本申请实施例可在对除“诊断”和“基本信息”外的其它各个目标分段标题所对应的词语进行识别时,识别出疾病特征要素中的特征描述要素。考虑到自然语言表达的不确定性及不规范性,疾病特征数据库可包括:特征描述同义词词典、特征描述前后词词典及特征描述前中后词词典。下面对这几项词典进行具体说明:
特征描述同义词词典的词条格式可如下所示:{特征描述要素ID|同义词名称|同义词其它信息}。其中,特征描述要素ID用于表示特征描述要素的唯一标识,和疾病特征要素词典中的疾病特征要素ID对应;同义词名称用于表示该特征描述要素的同义词名称,若某特征描述要素有多个同义词名称,则此处可对应有多条条目;同义词其它信息用于表示与该同义词相关联的其它信息。
特征描述前后词词典的词条格式可如下所示:{特征描述要素ID|前词信息|后词信息|前后词其它信息}。其中,特征描述要素ID用于表示特征描述要素的唯一标识,和疾病特征要素词典中的疾病特征要素ID对应;前词信息用于表示该特征描述要素所可以包含的前词内容;后词信息用于表示该特征描述要素所可以包含的后词内容;前后词其它信息用于表示与该前后词相关联的其它信息。
需要注意的是,若某一特征描述要素有多组可能的前后词,则在前词信息和/或后词信息下可对应有多条条目,此处不作限定。
特征描述前中后词词典的词条格式可如下所示:{特征描述要素ID|前词信息|中词信息|后词信息|前中后词其它信息}。其中,特征描述要素ID用于表示特征描述要素的唯一标识,和疾病特征要素词典中的疾病特征要素ID对应;前词信息用于表示该特征描述要素所可以包含的前词内容;中词信息用于表示该特征描述要素所可以包含的中词内容;后词信息用于表示该特征描述要素所可以包含的后词内容;前中后词其它信息用于表示与该前中后词相关联的其它信息。
需要注意的是,若某一特征描述要素有多组可能的前中后词,则在前词信息、中词信息和/或后词信息下可对应有多条条目,此处不作限定。
下面通过具体示例说明同义词、前后词和前中后词的区别:
同义词:“发热”这一特征描述要素在特征描述同义词词典中配置的词条如“发烧”、“体温升高”及“身热”等。可以理解,当对原始电子病历中含有“发烧”、“体温升高”或“身热”等文本内容时,即可通过特征描述同义词词典识别到目标特征描述要素(也即目标疾病特征要素)“发热”。
前后词:“神志不清”这一特征描述要素在特征描述前后词词典中配置的词条如“前词信息—神志,后词信息—恍惚”、“前词信息—精神,后词信息—模糊”及“前词信息—神情,后词信息—恍惚”等。可以理解,当原始电子病历中含有类似“神志很恍惚”、“精神有点模糊”或者“神情异常恍惚”等文本内容时,即可通过特征描述前后词词典识别到目标特征描述要素(也即目标疾病特征要素)“神志不清”。
前中后词:“X线:囊状阴影”这一特征描述要素在特征描述前中后词词典中配置的词条如“前词—X光,中词—囊状,后词—阴影”、“前词—CT,中词—囊性,后词—阴影”及“前词—影像,中词—囊状,后词—阴影”等,可以理解,当原始电子病历中含有类似“X光显示有囊状阴影”、“CT示囊性样阴影”或者“影像中有囊状样阴影”等文本内容时,即可通过特征描述前中后词词典识别到目标特征描述要素(也即目标疾病特征要素)“X线:囊状阴影”。
一般而言,通过特征描述同义词词典、特征描述前后词词典或者特征描述前中后词词典中的一条词条即可识出除“诊断”及“基本信息”之外的其它各个目标分段标题下的文本内容的一个特征描述要素。但对某些特殊的文本描述,结合对疾病的推导等因素,可识别出多个特征描述要素。基于此,可在特征描述前后词词典中,新增一条特殊标记的条目,则特征描述前后词词典的词条格式还可如下所示:{特征描述要素ID|前词信息|后词信息|特殊标记|前后词其它信息}。其中,新增的特殊标记具体用于表示该词条所表示的特征描述要素与其它词条所表示的不同特征描述要素可能对应相同的文本描述,需要在未清洗前的文本中再次进行分析。以痛风疾病在原始电子病历中的文本描述“第一跖趾关节疼痛”为例,为更好地进行后续的疾病推导,在识别出“关节疼痛”这一目标特征描述要素后,还需要由该文本识别出“第一跖趾关节受累”这一目标特征描述要素。基于此,可在特征描述前后词词典配置一条含特殊标记的词条条目,其前词信息为“第一跖趾”,后词信息为“疼”,特殊标记的值为“1”。经此配置后,电子设备可在未清洗的文本描述中,再根据已被特殊标记为“1”的前后词词条进行要素识别,最终可识别到两个目标特征描述要素:“关节疼痛”和“第一跖趾关节受累”。可以将上述过程理解为,特征描述前后词词典包括两部分:普通前后词词典及特殊前后词词典,其中,普通前后词词典中的各词条的特殊标记的值为“0”,特殊前后词词典中的各词条的特殊标记的值为“1”。基于以上所提出的特殊前后词词典,电子设备还可对疾病特征要素词典进行排序,具体为:将特殊前后词词典中的前后词词条所对应的疾病特征要素统一排序至疾病特征要素词典的末端。
除此之外,第三数据库中还可存储有同义词条件,前后词条件及前中后词条件,其中,同义词条件为确定特征描述同义词成立的条件,前后词条件为确定特征描述前后词成立的条件,前中后词条件为确定特征描述前中后词成立的条件。具体地,同义词条件主要是在对“既往史”所对应的词语进行同义词识别时进行应用,该同义词条件可以表示为:<分段子标题,{特征描述要素ID|同义词}>,也即“既往史”所对应的词语在命中某一特征描述要素的同义词时,该词语必须在指定的分段子标题下,才能被真正识别为该特征描述要素。前后词条件可以为:前词出现在后词之前,且该前词和该后词所间隔的字符长度不超过10,且不包含标点字符“、”。前中后词条件可以为:前词、中词及后词按照顺序出现。
基于以上所提出的各项概念,对除“诊断”及“基本信息”之外的任一个目标分段标题所对应的词语进行识别的过程可为:依次将特征描述同义词词典、特征描述前后词词典及特征描述前中后词词典确定为目标词典;根据当前确定的目标词典中的各特征描述要素,对第二病历文本语句的各个词语进行识别;根据识别结果,在疾病特征要素词典中进行查找,得到目标疾病特征要素。下面对该过程进行具体说明:
电子设备可在特征描述同义词词典、普通前后词词典及特征描述前中后词词典中确定目标词典及该目标词典所对应的条件,仅作为示例,目标词典为特征描述同义词词典,且该目标分段标题为“既往史”时,该目标词典所对应的条件为同义词条件;在目标分段标题不为“既往史”或目标词典不为特征描述同义词词典时,根据该目标词典所对应的条件,将目标词典与该目标分段标题所对应的词语进行循环匹配;在目标分段标题为“既往史”时且目标词典为特征描述同义词词典时,根据该目标词典所对应的条件,将目标词典与“既往史”下的各个目标分段子标题所对应的词语进行循环匹配;针对任一被匹配的词语,若存在第一目标词条(也即该目标词典中与该词语相匹配的词条),则根据该第一目标词条中的特征描述要素ID,在疾病特征要素词典中查找对应的疾病特征要素,所查找到的疾病特征要素可被确定为目标疾病特征要素;根据前后词条件,再将特殊前后词词典与该词语进行匹配;若存在目标特殊前后词词条(也即特殊前后词词典中与该词语相匹配的词条),则根据该目标特殊前后词词条中的特征描述要素ID,在疾病特征要素词典中查找对应的疾病特征要素,所查找到的疾病特征要素同样可被确定为目标疾病特征要素;将该词语进行清洗,也即将该词语删除,直至完成目标词典与该目标分段标题所对应的所有词语的循环匹配;重新选定新的目标词典,并返回执行根据该目标词典所对应的条件,将目标词典与该目标分段标题所对应的词语进行循环匹配的操作及后续操作,直至特征描述同义词词典、普通前后词词典及特征描述前中后词词典均已曾被确定为目标词典后,结束对该目标分段标题所对应的词语的识别。
在一些实施例中,在通过特征描述同义词词典、普通前后词词典、特征描述前中后词词典及特殊前后词词典中的任一词典从除“诊断”及“基本信息”之外的任一个目标分段标题所对应的词语中识别到了目标疾病特征要素后,还可再根据疾病特征要素词典进一步判断该目标疾病特征要素是否可携带方向和/或部位的信息。若确定该目标疾病特征要素可携带方向和/或部位的信息,则可在对该目标疾病特征要素所对应的词语进行清洗之前,查阅该词语,尝试从该词语中获取目标方向和/或目标部位的信息。在能够获取到目标方向和/或目标部位的情况下,可将获取到的目标方向和/或目标部位加入到该目标疾病特征要素中,以保障识别到的目标疾病特征要素的完整性。
具体地,考虑到患者的原始电子病历中的现病史一栏、辅助检查一栏和/或临床检查一栏下通常描述有与检验项相关的信息,因而,本申请实施例可在对“现病史”、“辅助检查”及“临床检验”所对应的词语进行识别时,识别出疾病特征要素中的检验项要素。也即,此处只需要对前文所描述的第二病历文本语句中的部分语句进行检验项要素的识别,该部分语句可被记作第一待识别语句,具体为:第二分段标题中的第一指定分段标题(也即“现病史”、“辅助检查”及“临床检验”)下的病历文本语句。为实现对检验项要素的识别,除了疾病特征要素词典之外,疾病特征数据库还可包括:检验项词典。下面对该检验项词典进行具体说明:
检验项词典的词条格式可如下所示:{检验项要素ID|检验项Name|类型|最小值|最大值|危急值最小值|危急值最大值|危急值提示内容|单位|检验项Entry|年龄|性别|额外因素名称|额外因素值|检验项其它信息}。其中,检验项要素ID用于表示检验项的唯一标识,和疾病特征要素词典中的疾病特征要素ID对应;检验项Name用于表示检验项的规范条目信息,可以理解,若原始电子病历中包括该Name,则可根据对应的类型将其直接识别为阳性/阴性检验项;类型用于表示检验项类型,包括阳性/阴性;最小值和最大值用于表示检验项的异常值范围,检验项的值在该异常值范围内时,该值为异常值;危急值最小值和危急值最大值用于表示检验项的危急值范围,检验项的值在该危急值范围内时,该值为危急值;危急值提示内容用于表示检验项的值为危急值时的提示内容;单位用于表示检验项的单位;检验项Entry用于表示检验项的识别条目信息,可以理解,若原始电子病历中包括该Entry,则需要根据检验项的值来判断该检验项是否为异常值/危急值;年龄用于表示检验项所适用的年龄;性别用于表示该检验项所适用的性别;额外因素名称用于表示部分检验项除异常值范围外,还需要额外考虑的相关因素的名称;额外因素值用于表示该额外因素所对应的值,一般为范围值;检验项其它信息用于表示与检验项相关联的其它信息。
基于以上所提出的概念,对第一待识别语句所对应的词语进行识别的过程可简述为:根据检验项词典中各检验项要素的规范条目信息及识别条目信息,对该第一待识别语句的各个词语进行识别;根据识别结果,在疾病特征要素词典中进行查找,得到目标疾病特征要素。下面对该过程进行具体说明:
将“现病史”、“辅助检查”及“临床检验”下的各个语句所对应的词语与检验项词典中的各个检验项Name及检验项Entry进行循环匹配;针对任一被匹配的词语,若存在第三目标词条,则根据该第三目标词条中的检验项要素ID,在疾病特征要素词典中查找对应的疾病特征要素,所查找到的疾病特征要素可被确定为目标疾病特征要素。其中,该第三目标词条为:检验项Name或检验项Entry与该词语相匹配的词条。
具体地,考虑到患者通常会在其原始电子病历中的主诉一栏下描述与起病相关的信息,因而,本申请实施例可在对“主诉”所对应的词语进行识别时,识别出疾病特征要素中的起病要素。也即,此处只需要对前文所描述的第二病历文本语句中的部分语句进行检验项要素的识别,该部分语句可被记作第二待识别语句,具体为:第二分段标题中的第二指定分段标题(也即“主诉”)下的病历文本语句。
其中,起病要素主要包括如下几项:突然发病(无先兆新起迅急)、急性起病(本病新起进展期快)、慢性起病(本病新起进展慢)及周期性发病(有时间规律)等。这些起病要素均在疾病特征要素词典中已有配置,可根据需要进行调整。为识别起病要素,疾病特征数据库还可包括:起病规则词典,该起病规则词典的词条格式可如下所示:<起病要素ID,{起病规则}>。仅作为示例,起病规则可具体包括时间规则以及包含特定词语的规则,则起病规则词典的词条格式可再被细化为如下所示:<起病要素ID,{起病时间规则},{起病词语规则}>。其中,该起病要素ID用于表示满足相应起病时间规则或者起病词语规则时可识别出的起病要素的唯一标识,和疾病特征要素词典中的疾病特征要素ID对应;起病时间规则用于表示起病要素在时间表达上的识别规则;起病词语规则用于表达起病要素在词语表达上的识别规则。
需要注意的是,对某个起病要素,可以只配置有起病时间规则,也可以只配置有起病词语规则,还可以同时配置有起病时间规则和起病词语规则。在同时配置有起病时间规则和起病词语规则时,该起病时间规则和该起病词语规则为“或”的关系。仅作为示例,若某起病要素只配置有其中一个规则,则另一个规则可被配置为空,以{“”}进行表示。
仅作为示例,起病规则词典中的一条词条为:<351,{t<=1h},{Contains“突发”||“急发”}>。其中,“351”是对应“突然发病(无先兆新起迅急)”这一起病要素的起病要素ID(也即疾病特征要素ID)。按照该词条可知,当原始电子病历的“主诉”下所描述的起病时间小于等于1个小时时,或者“主诉”下的内容包含“突发”或“急发”等词语描述时,电子设备即可识别出“突然发病(无先兆新起迅急)”这一起病要素。
基于以上所提出的概念,对“主诉”所对应的词语进行识别的过程可简述为:根据起病规则词典中各起病要素所对应的起病规则,对第二病历文本语句的各个词语进行识别,起病规则包括:起病时间规则和/或起病词语规则;根据识别结果,在疾病特征要素词典中进行查找,得到目标疾病特征要素。下面对该过程进行具体说明:
通过正则表达式,获取“主诉”所对应的词语中的起病时间以及相对应的起病时间单位,匹配后写入起病时间列表。再根据起病规则词典,结合起病时间规则和起病词语规则对“主诉”中的词语进行识别判断,具体为:根据该起病时间规则,将起病时间列表中的时间内容进行单位换算后,再判断换算后的时间内容是否能够与该起病时间规则相匹配;以及,判断“主诉”中的词语是否包含起病词语规则中所示出的词语,若包含,则认为该词语与该起病词语规则相匹配。若存在第四目标词条,则根据该第四目标词条中的起病要素ID,在疾病特征要素词典中查找对应的疾病特征要素,所查找到的疾病特征要素可被确定为目标疾病特征要素。其中,该第四目标词条指的是:起病时间规则及起病词语规则中有任意项与“主诉”所对应的词语相匹配的词条。
步骤1033,根据疾病数据库,对组成第三病历文本语句的各个词语进行识别,得到目标疾病要素。
其中,第三病历文本语句为:预设的第三分段标题下的病历文本语句,目标疾病要素为:原始电子病历中所包含的疾病要素。一般而言,该第三分段标题具体包括:“诊断”。为识别出目标疾病要素,该疾病数据库可存储有:预设的疾病词典及疾病同义词词典。
具体地,疾病词典的词条格式可如下所示:{疾病ID|疾病名称|ICD编码|性别|孕否相关|最小年龄|最大年龄|疾病其它信息}。其中,疾病ID用于表示疾病的唯一标识;疾病名称用于表示疾病的标准名称;ICD编码用于表示疾病对应的ICD编码,和国际疾病分类编码相对应;性别用于表示疾病适用的性别,仅作为示例,其值为“0”可表示男女通用,其值为“1”可表示只适用于男性,其值为“2”可表示只适用于女性;最小年龄和最大年龄用于表示疾病对应的年龄范围;疾病其它信息用于表示与疾病相关联的其它信息。
具体地,疾病同义词词典的格式可如下所示:{疾病ID|同义词名称|同义词其它信息}。其中,疾病ID用于表示疾病的唯一标识,和疾病词典中的疾病ID对应;同义词名称用于表示疾病的同义词的名称,若某疾病有多个同义词,此处可对应有多条条目;同义词其它信息用于表示与同义词相关联的其它信息。
具体地,基于以上所提出的各项概念,对“诊断”所对应的词语进行识别的过程可简述为:将“诊断”所对应的词语与疾病同义词词典进行循环匹配;针对“诊断”所对应的任一词语,若存在第五目标词条,则根据该第五目标词条中的疾病ID,在疾病词典中查找对应的疾病要素及其ICD编码,所查找到的疾病要素及其ICD编码可被确定为目标疾病要素;将该词语进行清洗,也即将该词语删除,直至完成疾病同义词词典与“诊断”所对应的所有词语的循环匹配。其中,该第五目标词条为:同义词名称与该词语相匹配的词条。
在一些实施例中,针对已识别到的目标疾病特征要素及目标生命体征要素,电子设备还可执行归类的操作,得到阳性目标疾病特征要素、阴性目标疾病特征要素及阳性生命体征要素。其中,阳性目标疾病特征要素为:用于表示患者的负面健康状态的目标疾病特征要素;阴性目标疾病特征要素为:用于表示患者的正面健康状态的目标疾病特征要素;阳性生命体征要素为:用于表示患者的负面健康状态的目标生命体征要素。电子设备由此可根据阳性目标疾病特征要素及阳性生命体征要素,构建患者的阳性要素列表;同时,根据阴性目标疾病特征要素,构建患者的阴性要素列表;以及,根据目标疾病要素,构建患者的疾病列表。则相应地,电子设备后续具体可根据阳性要素列表、阴性要素列表及疾病列表构建结构化电子病历。
具体地,针对任一目标生命体征要素,电子设备可通过如下方式对其进行归类:通过正则表达式获取该目标生命体征要素所包含的体征指标值,该体征指标值包括数值及单位;通过该目标生命体征要素所对应的生命体征异常参数规则,对该体征指标值进行判断;若判断出该体征指标值异常,则确定该目标生命体征要素为阳性生命体征要素。
具体地,第三数据库中还可存储有否定词词典,则针对任一目标特征描述要素(也即目标疾病特征要素中的特征描述要素),电子设备可通过如下方式对其进行归类:分析该目标特征描述要素在原始电子病历中的上下文,判断是否存在阴性词(例如“-”或者“阴”),其中,该上下文指的是:该目标特征描述要素在原始电子病历中所对应的词语;若判断出存在阴性词,则确定该目标特征描述要素为阴性目标特征描述要素(也即阴性目标疾病特征要素);若判断出不存在阴性词,则再将该上下文与否定词词典进行循环匹配;若上下文中存在与否定词词典中的任一否定词相匹配的文本,则确定该目标特征描述要素为阴性目标特征描述要素(也即阴性目标疾病特征要素);若否定词词典中的所有否定词均无法与上下文中的文本相匹配,则确定该目标特征描述要素为阳性目标特征描述要素(也即阳性目标疾病特征要素)。
具体地,针对任一目标检验项要素(也即目标疾病特征要素中的检验项要素),电子设备可通过如下方式对其进行归类:在目标检验项要素是通过与检验项Name的匹配而确定的情况下,分析该目标检验项要素在原始电子病历中的上下文,判断是否存在阴性词(例如“-”或者“阴”),其中,上下文的定义可参阅前文描述,此处不再赘述;若判断出存在阴性词,则确定该目标检验项要素为阴性目标检验项要素(也即阴性目标疾病特征要素);若判断出不存在阴性词,则确定该目标检验项要素为阳性目标检验项要素(也即阳性目标疾病特征要素)。
在目标检验项要素是通过与检验项Entry的匹配而确定的情况下,通过正则表达式获取目标检验项要素所包含的检验项数值,并对该检验项数值进行如下几项判断:1)、根据检验项词典,判断目标检验项要素所对应的检验项词条是否限定有额外因素及额外因素值,前文已对额外因素及额外因素值进行了描述。可以理解,该额外因素及额外因素值实际表达了一种限制条件。下面通过简单实例对该额外因素及额外因素值进行说明:
比如说,针对“血/促肾上腺皮质激素”这一检验项Entry,当患者在8:00这一测量时间的对应检验项数值处于100~100000NG/L的范围内时,说明该项检验指标异常。基于此,可将对应的检验项词条中的额外因素配置为“8:00”。
再比如说,针对“PRL”这一检验项Entry,当患者为在孕1~12周的孕妇,且对应检验项数值处于79.99999~100000NG/ML的范围内时,说明该项检验指标异常。基于此,可将对应的检验项词条中的额外因素配置为“孕妇”,额外因素值配置为“1,12周”。
具体地,本项判断的结果共有三种可能的情况,各情况所对应的操作简述如下:
情况1,额外因素和额外因素值均为空,也即目标检验项要素所对应的检验项词条未限定有额外因素及额外因素值,这说明无额外因素限定,可直接进行2)的判断;
情况2,额外因素非空,额外因素值为空,也即目标检验项要素所对应的检验项词条限定有额外因素,但未限定额外因素值,则电子设备可在该目标检验项要素所对应的标题段落下的病历文本语句中匹配该额外因素的内容;若匹配成功,则进行2)的判断;若未匹配成功,则说明该目标检验项要素不需要再处理,可循环进行下一个目标检验项要素的判断;
情况3,额外因素和额外因素值均非空,也即目标检验项要素所对应的检验项词条限定有额外因素及额外因素值,则电子设备可先判断该目标检验项要素所对应的标题段落下的病历文本语句中是否匹配该额外因素的内容;若未匹配成功,则说明该目标检验项要素不需要再处理,可循环进行下一个目标检验项要素的判断;若匹配成功,则电子设备可在与该额外因素的内容相匹配的病历文本语句中,将该额外因素在该病历文本语句中之后的数值与额外因素值进行判断;若该数值在额外因素值所指示的数值范围内,则进行2)的判断;若该数值不在该额外因素值所指示的数值范围内,则说明该目标检验项要素不满足额外因素值的条件,可循环进行下一个目标检验项要素的判断。
2)、根据检验项词典,判断检验项数值是否在目标检验项要素所对应的检验项词条所指示的异常值范围内;若检验项数值在异常值范围内,也即检验项数值小于该检验项词条的最大值,或者大于该检验项词条的最小值,则确定该目标检验项要素为阳性目标检验项要素(也即阳性目标疾病特征要素)。
进一步地,在确定某一目标检验项要素为阳性目标检验项要素(也即阳性目标疾病特征要素)的情况下,还可根据检验项词典,判断该目标检验项要素的检验项数值是否在该目标检验项要素所对应的检验项词条所指示的危急值范围内;若检验项数值在该危急值范围内,也即检验项数值小于该检验项词条的危急值最大值,或者大于该检验项词条的危急值最小值,则可在该目标检验项要素中补充危急值信息(例如危急值提示内容)。并且,电子设备在构建阳性要素列表时,可将该目标检验项要素排序至该阳性要素列表的最前端,以方便医护人员及早对该项进行关注。
具体地,针对目标起病要素(也即目标疾病特征要素中的起病要素),电子设备可默认其为阳性目标起病要素(也即阳性目标疾病特征要素)。
在一些实施例中,基本信息这一实体要素一般仅包括患者的年龄及性别等信息,该类信息与医疗知识无关,属于患者个性化的信息。因而,针对基本信息这一实体要素,电子设备可通过常见的NLP手段,识别出患者的年龄及性别,此处不再赘述。
在一些实施例中,电子设备还可结合其它规则(例如与年龄、性别及孕否等信息相关的规则)对已得到的阳性要素列表、阴性要素列表及疾病列表进行进一步处理,并根据进一步处理后所得的阳性要素列表、阴性要素列表及疾病列表构建患者的结构化电子病历,此处不作限定。
需要注意的是,第一分段标题、第二分段标题、第三分段标题及第四分段标题可由医疗机构根据实际情况而设定,可存在重叠,此处不作限定。可以理解,若电子设备并未在原始电子病历中查找到某一分段标题,则电子设备无需执行与该分段标题相关的实体要素的识别操作。例如,若电子设备未能在原始电子病历中查找到“诊断”这一分段标题,则电子设备无需执行识别疾病要素的操作。
由上可见,本申请实施例具体是基于结构型知识库而构建起患者的结构化电子病历。由于结构知识库所存储的内容是公开的,因而基于该结构型知识库构建结构化电子病历的过程也相对来说更加透明。并且,结构型知识库不依赖于人工标注的训练样本而构建,不仅省去了收集及标注训练样本的时间,而且省去了繁琐的对深度模型训练的过程,不会再出现因训练样本而影响构建结果的情况。进一步地,医护人员还可在使用该结构型知识库的过程中,根据自身需求调整或优化结构型知识库中的各个数据库所存储的数据,这可帮助构建出更为准确的结构化电子病历。
对应于上文所提供的结构化电子病历的构建方法,本申请实施例还提供了一种电子设备。请参阅图2,本申请实施例中的电子设备2包括:存储器201,一个或多个处理器202(图2中仅示出一个)及存储在存储器201上并可在处理器上运行的计算机程序。其中:存储器201用于存储软件程序以及单元,处理器202通过运行存储在存储器201的软件程序以及单元,从而执行各种功能应用以及数据处理,以获取上述预设事件对应的资源。具体地,处理器202通过运行存储在存储器201的上述计算机程序时实现上述方法实施例中的各个步骤,此处不再赘述。
应当理解,在本申请实施例中,所称处理器202可以是中央处理单元(CentralProcessing Unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器201可以包括只读存储器和随机存取存储器,并向处理器202提供指令和数据。存储器201的一部分或全部还可以包括非易失性随机存取存储器。例如,存储器201还可以存储设备类别的信息。
由上可见,电子设备具体可基于结构型知识库而构建起患者的结构化电子病历。由于结构知识库所存储的内容是公开的,因而基于该结构型知识库构建结构化电子病历的过程也相对来说更加透明。并且,结构型知识库不依赖于人工标注的训练样本而构建,不仅省去了收集及标注训练样本的时间,而且省去了繁琐的对深度模型训练的过程,不会再出现因训练样本而影响构建结果的情况。进一步地,医护人员还可在使用该结构型知识库的过程中,根据自身需求调整或优化结构型知识库中的各个数据库所存储的数据,这可帮助构建出更为准确的结构化电子病历。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
上述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。基于这样的理解,本申请实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关联的硬件来完成,上述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,上述计算机程序包括计算机程序代码,上述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。上述计算机可读存储介质可以包括:能够携带上述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机可读存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,上述计算机可读存储介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读存储介质不包括是电载波信号和电信信号。
以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。

Claims (10)

1.一种结构化电子病历的构建方法,其特征在于,包括:
根据结构型知识库中预设的第一数据库对患者的原始电子病历进行拆分,得到病历文本语句,其中,所述原始电子病历以自然语言进行表达,所述第一数据库存储有第一关键词,所述第一关键词用于触发拆分的操作;
根据所述结构型知识库中预设的第二数据库对所述病历文本语句进行分词,得到组成所述病历文本语句的词语,其中,所述第二数据库存储有第二关键词,所述第二关键词用于触发分词的操作;
根据所述结构型知识库中预设的第三数据库对已得到的各个所述词语进行识别,得到每个所述病历文本语句所对应的实体要素,其中,所述第三数据库存储有第三关键词,所述第三关键词用于表征实体要素;
根据所述实体要素构建所述患者的结构化电子病历。
2.如权利要求1所述的构建方法,其特征在于,在所述根据所述结构型知识库中预设的第二数据库对所述病历文本语句进行分词,得到组成所述病历文本语句的词语之前,所述构建方法还包括:
根据所述结构型知识库中预设的第四数据库对所述病历文本语句进行预处理,所述第四数据库用于存储预设的预处理规则,所述预处理规则包括:规范化规则、标准化规则及清洗规则;
相应地,所述根据所述结构型知识库中预设的第二数据库对所述病历文本语句进行分词,得到组成所述病历文本语句的词语,包括:
根据所述第二数据库对预处理后的所述病历文本语句进行分词处理,得到组成预处理后的所述病历文本语句的词语。
3.如权利要求1至2任一项所述的构建方法,其特征在于,所述第一关键词具体为:分段子标题,其中,一个分段子标题与一个分段标题相对应;所述根据结构型知识库中预设的第一数据库对患者的原始电子病历进行拆分,得到病历文本语句,包括:
根据所述第一数据库中所包含的分段子标题,对所述原始电子病历进行遍历,得到N个目标分段子标题,其中,所述N为正整数,所述目标分段子标题为:所述原始电子病历中所包含的分段子标题;
根据在所述原始电子病历中的出现顺序,将第i个目标分段子标题与第i+1个目标分段子标题之间的文本内容拆分出来,得到所述第i个目标分段子标题所对应的目标分段标题下的病历文本语句,其中,i为小于N的正整数,所述目标分段标题为:与所述原始电子病历中所包含的分段子标题相对应的分段标题;
根据在所述原始电子病历中的出现顺序,将第N个目标分段子标题直至所述原始电子病历末尾的文本内容拆分出来,得到所述第N个目标分段子标题所对应的目标分段标题下的病历文本语句。
4.如权利要求3所述的构建方法,其特征在于,所述实体要素包括:生命体征要素、疾病特征要素及疾病要素;所述第三数据库包括:生命体征数据库、疾病数据库及疾病特征数据库;所述根据所述结构型知识库中预设的第三数据库对已得到的各个所述词语进行识别,得到每个所述病历文本语句所对应的实体要素,包括:
根据所述生命体征数据库,对组成第一病历文本语句的各个所述词语进行识别,得到目标生命体征要素,其中,所述第一病历文本语句为:预设的第一分段标题下的病历文本语句,所述目标生命体征要素为:所述原始电子病历中所包含的生命体征要素;
根据所述疾病特征数据库,对组成第二病历文本语句的各个所述词语进行识别,得到目标疾病特征要素,其中,所述第二病历文本语句为:预设的第二分段标题下的病历文本语句,所述目标疾病特征要素为:所述原始电子病历中所包含的疾病特征要素;
根据所述疾病数据库,对组成第三病历文本语句的各个所述词语进行识别,得到目标疾病要素,其中,所述第三病历文本语句为:预设的第三分段标题下的病历文本语句,所述目标疾病要素为:所述原始电子病历中所包含的疾病要素。
5.如权利要求4所述的构建方法,其特征在于,在所述根据所述实体要素构建所述患者的结构化电子病历之前,所述构建方法还包括:
对各个所述目标疾病特征要素及各个所述目标生命体征要素进行归类,得到阳性目标疾病特征要素、阴性目标疾病特征要素及阳性生命体征要素,其中,所述阳性目标疾病特征要素为:用于表示所述患者的负面健康状态的目标疾病特征要素,所述阴性目标疾病特征要素为:用于表示所述患者的正面健康状态的目标疾病特征要素,所述阳性生命体征要素为:用于表示所述患者的负面健康状态的目标生命体征要素;
根据所述阳性目标疾病特征要素及所述阳性生命体征要素,构建所述患者的阳性要素列表;
根据所述阴性目标疾病特征要素,构建所述患者的阴性要素列表;
根据所述目标疾病要素,构建所述患者的疾病列表;
相应地,所述根据所述实体要素构建所述患者的结构化电子病历,包括:
根据所述阳性要素列表、所述阴性要素列表及所述疾病列表构建所述结构化电子病历。
6.如权利要求4所述的构建方法,其特征在于,所述疾病特征要素包括:特征描述要素;所述疾病特征数据库包括:疾病特征要素词典、特征描述同义词词典、特征描述前后词词典及特征描述前中后词词典;所述根据所述疾病特征数据库,对组成第二病历文本语句的各个所述词语进行识别,得到目标疾病特征要素,包括:
依次将所述特征描述同义词词典、所述特征描述前后词词典及所述特征描述前中后词词典确定为目标词典;
根据当前确定的所述目标词典中的各特征描述要素,对所述第二病历文本语句的各个所述词语进行识别;
根据识别结果,在所述疾病特征要素词典中进行查找,得到目标疾病特征要素。
7.如权利要求4所述的构建方法,其特征在于,所述疾病特征要素包括:检验项要素;所述第二病历文本语句包括:第一待识别语句,所述第一待识别语句为:所述第二分段标题中的第一指定分段标题下的病历文本语句;所述疾病特征数据库包括:疾病特征要素词典及检验项词典;所述根据所述疾病特征数据库,对组成第二病历文本语句的各个所述词语进行识别,得到目标疾病特征要素,包括:
根据所述检验项词典中各检验项要素的规范条目信息及识别条目信息,对所述第一待识别语句的各个所述词语进行识别;
根据识别结果,在所述疾病特征要素词典中进行查找,得到目标疾病特征要素。
8.如权利要求4所述的构建方法,其特征在于,所述疾病特征要素包括:起病要素;所述疾病特征数据库包括:疾病特征要素词典及起病规则词典;所述第二病历文本语句包括:第二待识别语句,所述第二待识别语句为:所述第二分段标题中的第二指定分段标题下的病历文本语句;所述根据所述疾病特征数据库,对组成第二病历文本语句的各个所述词语进行识别,得到目标疾病特征要素,包括:
根据所述起病规则词典中各起病要素所对应的起病规则,对所述第二病历文本语句的各个所述词语进行识别,所述起病规则包括:起病时间规则和/或起病词语规则;
根据识别结果,在所述疾病特征要素词典中进行查找,得到目标疾病特征要素。
9.一种电子设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至8任一项所述的方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至8任一项所述的方法。
CN202211077804.2A 2022-09-05 2022-09-05 一种结构化电子病历的构建方法、电子设备及存储介质 Pending CN115424692A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211077804.2A CN115424692A (zh) 2022-09-05 2022-09-05 一种结构化电子病历的构建方法、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211077804.2A CN115424692A (zh) 2022-09-05 2022-09-05 一种结构化电子病历的构建方法、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN115424692A true CN115424692A (zh) 2022-12-02

Family

ID=84203099

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211077804.2A Pending CN115424692A (zh) 2022-09-05 2022-09-05 一种结构化电子病历的构建方法、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN115424692A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116578711A (zh) * 2023-07-06 2023-08-11 武汉楚精灵医疗科技有限公司 腹痛特征提取方法、装置、电子设备及存储介质
CN117352112A (zh) * 2023-10-12 2024-01-05 北京遥领医疗科技有限公司 临床试验受试者招募方法及招募***

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116578711A (zh) * 2023-07-06 2023-08-11 武汉楚精灵医疗科技有限公司 腹痛特征提取方法、装置、电子设备及存储介质
CN116578711B (zh) * 2023-07-06 2023-10-27 武汉楚精灵医疗科技有限公司 腹痛特征提取方法、装置、电子设备及存储介质
CN117352112A (zh) * 2023-10-12 2024-01-05 北京遥领医疗科技有限公司 临床试验受试者招募方法及招募***

Similar Documents

Publication Publication Date Title
CN109299239B (zh) 一种基于es的电子病历检索方法
CN111274806B (zh) 分词和词性识别方法、装置及电子病历的分析方法、装置
CN109906449B (zh) 一种查找方法及装置
CN115424692A (zh) 一种结构化电子病历的构建方法、电子设备及存储介质
US11989518B2 (en) Normalized processing method and apparatus of named entity, and electronic device
CN112614565A (zh) 一种基于知识图谱技术的中药经典名方智能推荐方法
CN112241457A (zh) 一种融合扩展特征的事理知识图谱事件检测方法
CN111696640A (zh) 自动获取病历模板的方法、装置和存储介质
JP7464800B2 (ja) 小サンプル弱ラベル付け条件での医療イベント認識方法及びシステム
CN112151183A (zh) 一种基于Lattice LSTM模型的中文电子病历的实体识别方法
WO2022160454A1 (zh) 医疗文献的检索方法、装置、电子设备及存储介质
CN111651991A (zh) 一种利用多模型融合策略的医疗命名实体识别方法
CN112541066A (zh) 基于文本结构化的医技报告检测方法及相关设备
CN115859914A (zh) 基于病历语义理解的诊断icd自动编码方法及***
CN113343680B (zh) 一种基于多类型病历文本的结构化信息提取方法
CN113111660A (zh) 数据处理方法、装置、设备和存储介质
CN112699669A (zh) 流性病学调查报告的自然语言处理、装置及存储介质
CN116719840A (zh) 一种基于病历后结构化处理的医疗信息推送方法
CN111222325A (zh) 一种双向栈式循环神经网络的医疗语义标注方法和***
CN112883194B (zh) 一种症状信息抽取方法、装置、设备及存储介质
CN112712868A (zh) 医学数据的分析方法、装置及存储介质
Du et al. Automatic extraction of clinical symptoms in traditional Chinese medicine for electronic medical records
CN112309580A (zh) 疾病类型的确定方法、装置、电子设备及存储介质
CN112669961A (zh) 一种基于大数据推理的智能分诊方法
Zhang et al. Medical Q&A statement NER based on ECA attention mechanism and lexical enhancement

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination