CN109299467A

CN109299467A - 医学文本识别方法及装置、语句识别模型训练方法及装置

Info

Publication number: CN109299467A
Application number: CN201811239336.8A
Authority: CN
Inventors: 张奇
Original assignee: Beijing Huimeiyun Technology Co Ltd
Current assignee: Beijing Huimeiyun Technology Co Ltd
Priority date: 2018-10-23
Filing date: 2018-10-23
Publication date: 2019-02-01
Anticipated expiration: 2038-10-23
Also published as: CN109299467B

Abstract

本发明提供了医学文本识别方法及装置、语句识别模型训练方法及装置，涉及医学领域。本发明提供的医学文本识别方法，采用模型识别的方式，首先获取到了需要进行识别的医学文本，之后对医学文本中的待识别语句进行结构化提取，进而得到了该待识别语句的多个待识别特征词语，之后将待识别特征词语所组成的待识别特征组和可能的结果(参考结果)同时输入到语句识别模型中，使得该模型输出待识别特征组与每个参考结果的相似度，最后，将与待识别特征组的相似度最高的参考结果作为待识别语句的识别结果输出，即可完成医学文本的识别。

Description

医学文本识别方法及装置、语句识别模型训练方法及装置

技术领域

本发明涉及医学领域，具体而言，涉及医学文本识别方法及装置、语句识别模型训练方法及装置。

背景技术

通过对已有的医疗数据进行分析和研究，能够对医疗技术的提高起到正面帮助。但近年来，随着电子信息技术的快速发展，医疗领域所产生的电子医疗数据的数据量越来越大，从电子医疗数据中提取有效信息的难度也随之增加，进而，人们开始探讨和学习如何利用大数据技术来提高医疗行业的改进效率。

相关技术中，通常会采用文字识别的方式来从医学文本中提取出有效的文字，但这种提取文字的方式并不理想。

发明内容

本发明的目的在于提供医学文本识别方法及装置、语句识别模型训练方法及装置。

第一方面，本发明实施例提供了一种医学文本识别方法，包括：

获取医学文本中的待识别语句；

对待识别语句进行结构化提取，以确定包含有多个待识别特征的待识别特征组；

将待识别特征组和多个参考结果均作为输入量，输入到训练完成的语句识别模型中，以确定待识别特征组与每个参考结果的相似度；所述语句识别模型是将训练特征组和对应的参考结果作为输入量，进行训练后的得到的；训练特征组是由多个训练词语所组成的；所述参考结果是根据Loinc词典中的一个条目确定的；

将与待识别特征的相似度最高的参考结果作为待识别语句的识别结果输出。

结合第一方面，本发明实施例提供了第一方面的第一种可能的实施方式，其中，还包括：

从候选结果中选择参考结果，所述参考结果是与待识别特征组中的至少一个待识别特征具有相同或相似内容的候选结果。

结合第一方面，本发明实施例提供了第一方面的第二种可能的实施方式，其中，所述候选结果是根据Loinc词典中的条目确定的；

或，参考结果是根据Loinc词典中的条目确定的。

结合第一方面，本发明实施例提供了第一方面的第三种可能的实施方式，其中，在步骤从候选结果中选择参考结果后还包括：

判断参考结果的数量是否小于预设的数值；

若参考结果的数量小于预设的数值，则将参考结果进行输出；

若参考结果的数量不小于预设的数值，则执行步骤将待识别特征组和多个参考结果均作为输入量，输入到训练完成的语句识别模型中，以确定待识别特征组与每个参考结果的相似度。

第二方面，本发明实施例还提供了一种语句识别模型训练方法，包括：

获取多个训练样本组，每个训练样本组均是由一个训练特征组和一个对应的参考结果组成的；训练特征组是由多个训练特征组成的，一个训练特征组中的训练特征均是对医学文本中的一个语句中进行结构化提取所得到的；所述参考结果是根据Loinc词典中的一个条目确定的；

分别将每个训练样本组中的一个训练特征组和一个对应的参考结果同时作为输入量，输入到待训练完成的语句识别模型中，以对待训练完成的语句识别模型进行训练。

结合第二方面，本发明实施例提供了第二方面的第一种可能的实施方式，其中，所述参考结果是根据Loinc词典中的条目确定的。

第三方面，本发明实施例还提供了一种医学文本识别装置，包括：

第一获取模块，用于获取医学文本中的待识别语句；

第一结构化提取模块，用于对待识别语句进行结构化提取，以确定包含有多个待识别特征的待识别特征组；

第一输入模块，用于将待识别特征组和多个参考结果均作为输入量，输入到训练完成的语句识别模型中，以确定待识别特征组与每个参考结果的相似度；所述语句识别模型是将训练特征组和对应的参考结果作为输入量，进行训练后的得到的；训练特征组是由多个训练词语所组成的；所述参考结果是根据Loinc词典中的一个条目确定的；

第四方面，本发明实施例还提供了一种语句识别模型训练装置，包括：

第二获取模块，用于获取多个训练样本组，每个训练样本组均是由一个训练特征组和一个对应的参考结果组成的；训练特征组是由多个训练特征组成的，一个训练特征组中的训练特征均是对医学文本中的一个语句中进行结构化提取所得到的；所述参考结果是根据Loinc词典中的一个条目确定的；

第一训练模块，用于分别将每个训练样本组中的一个训练特征组和一个对应的参考结果同时作为输入量，输入到待训练完成的语句识别模型中，以对待训练完成的语句识别模型进行训练。

第五方面，本发明实施例还提供了一种具有处理器可执行的非易失的程序代码的计算机可读介质，其特征在于，所述程序代码使所述处理器执行第一方面任一所述方法。

第六方面，本发明实施例还提供了一种计算装置包括：处理器、存储器和总线，存储器存储有执行指令，当计算设备运行时，处理器与存储器之间通过总线通信，处理器执行存储器中存储的如第一方面任一所述方法。

本发明实施例提供的医学文本识别方法，采用模型识别的方式，首先获取到了需要进行识别的医学文本，之后对医学文本中的待识别语句进行结构化提取，进而得到了该待识别语句的多个待识别特征词语，之后将待识别特征词语所组成的待识别特征组和可能的结果(参考结果)同时输入到语句识别模型中，使得该模型输出待识别特征组与每个参考结果的相似度，最后，将与待识别特征组的相似度最高的参考结果作为待识别语句的识别结果输出，即可完成医学文本的识别。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本发明实施例所提供的医学文本识别方法的基本流程图；

图2示出了本发明实施例所提供的语句识别模型训练方法的基本流程图；

图3示出了本发明实施例所提供的第一计算设备的示意图；

图4示出了本发明实施例所提供的第二计算设备的示意图；

图5示出了Loinc词典中所收录的多个条目第一个示意图；

图6示出了Loinc词典中所收录的多个条目第二个示意图。

具体实施方式

下面将结合本发明实施例中附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了提高医学文本的处理效率，相关技术中出现了文字识别软件，这些文字识别软件对于标准的语言文字通常能够进行有效识别，但对于非常规的语言文字则识别的准确度大大降低。

比如，针对医生记录的医学文本中的文字(更具体来说，是医生录入的简写文字)，传统的软件就无法进行有效的识别了。这主要是医生自己记录的文字通常都是简写的文字，比如对于某个由3个字组成的常用词，医生可能只会写下这个常用词的首个汉字来表达整个常用词，又或者是写下这三个汉字的拼音首字母来表达整个常用词。也就是，针对有简写的医学文本进行识别的时候，传统的文字识别技术无法保证识别的准确率。

针对上述情况，本申请提供了一种医学文本识别方法，如图1所示，包括：

S101，获取医学文本中的待识别语句；

S102，对待识别语句进行结构化提取，以确定包含有多个待识别特征词语的待识别特征组；

S103，将待识别特征组和多个参考结果均作为输入量，输入到训练完成的语句识别模型中，以确定待识别特征组与每个参考结果的相似度；语句识别模型是将训练特征组和对应的参考结果作为输入量，进行训练后的得到的；训练特征组是由多个训练词语所组成的；所述参考结果是根据Loinc词典中的一个条目确定的；

S104，将与待识别特征组的相似度最高的参考结果作为待识别语句的识别结果输出。

步骤S101中，获取到的医学文本的待识别语句通常是医生进行记录的非标准化的语句，这些语句同教科书上和法律文书上的文字不同，本申请中的医学文本中的待识别语句是有一定程度上的简写的(比如某个词应当由3个字组成，但在该医学文本中只使用了一个或两个字进行表达；又或者是某个词应当由三个字组成，但在该医学文本中只使用了这三个字中某个字的首字母或某多个字的首字母进行表达)。某种情况下，该待识别语句可以是医生的临床记录文本中的语句。

步骤S102中，需要对待识别语句进行结构化提取，以提取到对应的待识别特征词语，并将这些待识别特征词语组成相应的待识别特征组。其中，结构化提取的方式有两种，第一种是使用通用的结构化识别技术进行结构化提取，第二种是预先对某个地域的医院或某个指定的医院中的医学文本进行建模分析以确定医院中的医生在进行书写的时候，习惯书写的方式。之后，在进行结构化提取的时候，使用建立好的模型进行结构化提取，就能够更加准确的完成待识别特征词语的识别工作。

具体来说，待识别特征词语是某个常用词，或者是某个医学领域的具有代表性的词汇，这些词汇可以是表述年龄、性别、体系、成分、属性、时间特征、标尺精度、方法、单位等特征的词汇。比如，表述性别的词汇可以是男、女，表述属性特征的词汇可以是计数型浓度。提取出这些词语之后，在后续步骤中可以直接使用这些词语进行识别了，而不是将整句话进行识别，能够提高识别的精度。

如下表1所示，示出了待识别特征词汇的具体形式：

表1

表1中，右侧是记录在待识别语句中的词语，即，待识别特征词语。左侧是待识别特征词语所对应的属性。

参考结果是预先设定好的，或者是说参考结果的内容是固定下来的，通过设置固定内容的参考结果，可以做到步骤S104所输出的内容是符合统一化要求的。通常来说，每次使用本申请所提供的方法时，参考结果的内容都可以是从同一个参考结果的集合中获取到的。具体来说，本申请所提供的方案中，参考结果可以是根据根据Loinc词典中的条目确定的。此处，需要对Loinc词典进行介绍。

Loinc(Logical Observation Identifier Names and Codes，观测指标标识符逻辑命名与编码***)词典是医疗体系中的标准临床文件编码，该词典中的每个条目均是由至少6个维度的描述词语构成的(某些维度可能为空)。该Loinc词典中共收录了2000个左右的条目。Loinc词典中，任意两个条目相比，这6个维度中的至少一个维度的描述会发生变化。如图5和图6所示，示出了Loinc词典中所收录的几个条目。以图5和图6中的表格为例，component、property、timing、system、scale和method这几列都是不同维度的描述。参考结果也正是根据这几个维度的描述确定的。

通常情况下，LOINC词典中的术语(条目)涉及用于临床医疗护理、结局管理和临床研究等目的的各种临床观测指标，如血红蛋白、血清钾、各种生命体征等。进而，参考结果可以就是Loinc词典中的条目。比如，Loinc词典中的条目是由6个维度的说明文字来表述的，则参考结果可以就是这6个维度的说明文字。

相关技术中，大多数实验室及其他诊断服务部门都在采用或倾向于采用HL7等类似的卫生信息传输标准，以电子消息的形式，将其结果数据从报告***发送至临床医疗护理***。然而，在标识这些检验项目或观测指标的时候，这些实验室或诊断服务部门采用的却是其自己内部独有的代码。这样，临床医疗护理***除非也采用结果产生和发送方的实验室或观测指标代码，否则，就不能对其接收到的这些结果信息加以完全的“理解”和正确的归档；而当存在多个数据来源的情况下，除非花费大量的财力、物力和人力将多个结果产生方的编码***与接受方的内部编码***加以一一对照，否则上述方法就难以奏效。进而，本申请所提供的方案中，采用LOINC词典中的条目来生成参考结果，进而一定程度上可以做到待识别语句的识别结果是相对统一的，保证了识别结果的通用性。

相关技术中，LOINC词典所收录的术语条目涵盖了化学、血液学、血清学、微生物学(包括寄生虫学和病毒学)以及毒理学等常见类别或领域；还有与药物相关的检测指标，以及在全血计数或脑脊髓液细胞计数中的细胞计数指标等类别的术语。LOINC词典临床部分的术语条目则包括生命体征、血液动力学、液体的摄入与排出、心电图、产科超声、心脏回波、泌尿道成像、胃镜检查、呼吸机管理、精选调查问卷及其他领域的多类临床观测指标。

步骤S103中，所做的主要内容是将包含有待识别特征词语的待识别特征组和参考结果作为输入量，同时输入到训练完成的语句识别模型中，以使该语句识别模型输出待识别特征组与每个参考结果的相似度。

步骤S103中的语句识别模型是将训练特征组和对应的参考结果同时作为输入量，进行训练后的得到的；其中，训练特征组是由多个训练词语所组成的。在训练的时候，通常是使用大量的训练样本组来对语句识别模型进行训练的，此处的每个训练样本组均是由一个训练特征组和对应的一个参考结果所组成的。训练特征组所对应的参考结果可以是采用人为标注的方式来确定。

步骤S103的实际输出结果能够表征出待识别特征组与每个参考结果(每个输入到语句识别模型中的参考结果)的相似度，进而，在步骤S104中，可以将与待识别特征组的相似度最高的参考结果作为待识别语句的识别结果输出。具体而言，如前文中的描述，参考结果是根据Loinc词典中的条目确定的，进而，实际的输出可以就是Loinc词典中的条目，具体实现时，Loinc词典中的条目有对应的编码，也就是，实际上输出的也可以是Loinc词典中的条目所对应的编码。

在具体实现的时候，输入到语句识别模型中的数据应当进行了向量化的，比如，可以用0和1来表示每个单位。具体的，步骤S103中的语句识别模型可以是使用Softmax多分类函数来实现。

如前文中所说，Loinc词典中的条目共有2000条左右，如果同时将这2000条作为输入量输入到语句识别模型中的话，则计算量过大，因此，可以在将Loinc词典中的条目输入量输入到语句识别模型中之前，对这些条目进行预选。

也就是，本申请所提供的方法，还包括：

从候选结果中选择参考结果，所述参考结果是与待识别特征组中的至少一个待识别特征词语具有相同或相似内容的候选结果。

此处的候选结果可以认为是根据Loinc词典中的条目确定的，也就是可以认为，每个候选结果均是根据Loinc词典中的条目确定的，或者说每个候选结果均是Loinc词典中的一个条目。

进而，可以在输入前，从候选结果(如Loinc词典中的的2000个条目)中先选择与待识别特征词语在文字上相同或相似的结果，作为参考结果。

也就是，参考结果中至少有一个维度的文字描述(一个文字描述)与待识别特征组中至少一个待识别特征词语的文字描述是相似或相同的。

在具体实现的时候，可以先计算待识别特征组与每个候选结果的相似度，并将相似度较高的候选结果作为参考结果。但考虑到计算相似度的过程可能同样较为繁琐，可能会消耗过多的***计算资源，因此，可以只选择与待识别特征组中的至少一个待识别特征词语完全相同的候选结果作为参考结果。以提高计算效率。

经过发明人的具体实验，通过使用从候选结果中选择参考结果的步骤，最终输入到语句识别模型中的参考结果的数量会大大减少。

在具体实现的时候，可能会发生在执行步骤从候选结果中选择参考结果之后，参考结果的数量只剩下一个，或者只剩下很少的数量的情况，此时，可以不再适用语句识别模型进行识别，而是直接输入，并采用人工识别的方式进行识别，这主要是考虑到，当参考结果过少的时候，适用语句识别模型进行识别可能没有人工识别准确，而且，此时人工识别的工作量也并不大。

进而，本申请所提供的方法中，在步骤从候选结果中选择参考结果后还包括：

判断参考结果的数量是否小于预设的数值；

也就是，当参考结果的数量足够少的时候，可以直接输出，而不使用语句识别模型进行识别。通常情况下，预设的数值一般为1或者2。

与上述方法相对应的，本申请还提供了一种语句识别模型训练方法，如图2所示，包括：

S201，获取多个训练样本组，每个训练样本组均是由一个训练特征组和一个对应的参考结果组成的；训练特征组是由多个训练特征词语组成的，一个训练特征组中的训练特征词语均是对医学文本中的一个语句中进行结构化提取所得到的；所述参考结果是根据Loinc词典中的一个条目确定的；

S202，分别将每个训练样本组中的一个训练特征组和一个对应的参考结果同时作为输入量，输入到待训练完成的语句识别模型中，以对待训练完成的语句识别模型进行训练。

其中，训练样本组中的一个训练特征组与一个对应的参考结果的对应关系可以是由医生人工建立的对应关系，也就是训练样本组中的样本均是已经标识好对应关系的样本，学习的过程也是让语句识别模型了解与参考结果相对应的训练特征组应当具有什么特质。

语句识别模型训练方法中训练所得到的语句识别模型是应用于医学文本识别方法中的。

优选的，所述参考结果是根据Loinc词典中的条目确定的。

需要说明的是，其余关于语句识别模型训练方法中的内容与医学文本识别方法中的解释是相同的，此处不再重复说明。

需要说明的是，本方案中所提供的医学文本识别方法和语句识别模型训练方法是可以结合使用的。

与上述方法相对应的，本申请还提供了一种医学文本识别装置，包括：

第一获取模块，用于获取医学文本中的待识别语句；

第一结构化提取模块，用于对待识别语句进行结构化提取，以确定包含有多个待识别特征词语的待识别特征组；

将与待识别特征组的相似度最高的参考结果作为待识别语句的识别结果输出。

与上述方法相对应的，本申请还提供了一种语句识别模型训练装置，包括：

第二获取模块，用于获取多个训练样本组，每个训练样本组均是由一个训练特征组和一个对应的参考结果组成的；训练特征组是由多个训练特征词语组成的，一个训练特征组中的训练特征词语均是对医学文本中的一个语句中进行结构化提取所得到的；所述参考结果是根据Loinc词典中的一个条目确定的；

与上述方法相对应的，本申请还提供了一种具有处理器可执行的非易失的程序代码的计算机可读介质，其特征在于，所述程序代码使所述处理器执行医学文本识别方法。

与上述方法相对应的，本申请还提供了一种具有处理器可执行的非易失的程序代码的计算机可读介质，其特征在于，所述程序代码使所述处理器执行语句识别模型训练方法。

如图3所示，为本申请实施例所提供的第一计算设备示意图，该第一计算设备1000包括：处理器1001、存储器1002和总线1003，存储器1002存储有执行指令，当第一计算设备运行时，处理器1001与存储器1002之间通过总线1003通信，处理器1001执行存储器1002中存储的如医学文本识别方法的步骤。

如图4所示，为本申请实施例所提供的第二计算设备示意图，该第二计算设备2000包括：处理器2001、存储器2002和总线2003，存储器2002存储有执行指令，当第二计算设备运行时，处理器2001与存储器2002之间通过总线2003通信，处理器2001执行存储器2002中存储的如语句识别模型训练方法的步骤。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的***、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的***、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种医学文本识别方法，其特征在于，包括：

获取医学文本中的待识别语句；

对待识别语句进行结构化提取，以确定包含有多个待识别特征词语的待识别特征组；

2.根据权利要求1所述的方法，其特征在于，还包括：

3.根据权利要求2所述的方法，其特征在于，所述候选结果是根据Loinc词典中的条目确定的。

4.根据权利要求2所述的方法，其特征在于，在步骤从候选结果中选择参考结果后还包括：

判断参考结果的数量是否小于预设的数值；

5.一种语句识别模型训练方法，其特征在于，包括：

获取多个训练样本组，每个训练样本组均是由一个训练特征组和一个对应的参考结果组成的；训练特征组是由多个训练特征词语组成的，一个训练特征组中的训练特征词语均是对医学文本中的一个语句中进行结构化提取所得到的；所述参考结果是根据Loinc词典中的一个条目确定的；

6.根据权利要求5所述的方法，其特征在于，

所述参考结果是根据Loinc词典中的条目确定的。

7.一种医学文本识别装置，其特征在于，包括：

第一获取模块，用于获取医学文本中的待识别语句；

8.一种语句识别模型训练装置，其特征在于，包括：

9.一种具有处理器可执行的非易失的程序代码的计算机可读介质，其特征在于，所述程序代码使所述处理器执行所述权利要求1-4任一所述方法。

10.一种计算装置包括：处理器、存储器和总线，存储器存储有执行指令，当计算设备运行时，处理器与存储器之间通过总线通信，处理器执行存储器中存储的如权利要求1-4任一所述方法。