CN107808124B

CN107808124B - 电子装置、医疗文本实体命名的识别方法及存储介质

Info

Publication number: CN107808124B
Application number: CN201710929637.2A
Authority: CN
Inventors: 赵清源; 吕梓燊; 韦邕; 徐亮; 肖京
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2017-10-09
Filing date: 2017-10-09
Publication date: 2019-03-26
Anticipated expiration: 2037-10-09
Also published as: CN107808124A; WO2019071661A1

Abstract

本发明公开了一种电子装置、医疗文本实体命名识别方法及存储介质。首先，利用预先训练的第一CRF模型对待识别医疗文本进行识别，识别出待识别医疗文本中的医学术语，其次，利用预先训练的第二CRF模型对第一CRF模型识别出的医学术语进行识别，识别出各个医学术语对应的标记序列，最后，根据预先确定的实体名称与标记序列的映射关系，确定各个标记序列包含的实体名称。这样，能够解决已有的实体识别方案并不能准确进行医疗文本中相关实体识别的问题。能够解决已有的实体识别方案并不能准确进行医疗文本中相关实体的识别的问题。

Description

电子装置、医疗文本实体命名的识别方法及存储介质

技术领域

本发明涉及医疗实体识别技术领域，尤其涉及一种电子装置、医疗文本实体命名的识别方法及存储介质。

背景技术

在近年来，随着网络和医疗信息技术的发展，互联网医疗逐渐兴起，医疗行业大数据也逐渐产生。人们开始探讨和学***。而医药大数据的利用分析和挖掘的前提和基础之一是医疗文本中命名实体的识别，医疗文本中相关实体的识别是医疗大数据应用的基础工作。

目前，常见的实体识别技术有基于词表的医学实体识别和基于条件随机场的医学实体识别，然而基于词表的医学实体识别仅仅依靠术语库匹配，缺少上下文语境识别，且术语匹配存在较大局限性，比如对于药品来说，药品的厂家数量繁多，术语库可能难以一一涵盖。而已有的基于条件随机场的医学实体识别技术，缺少大数据语料库和语言规则的应用，使得模型不够完善，缺少基于语言学与医疗信息的规则，仅仅依靠模型，对数据的针对性不够强。因此，已有的实体识别方案并不能准确进行医疗文本中相关实体的识别。

发明内容

有鉴于此，本发明提出一种电子装置、医疗文本实体命名的识别方法及存储介质，能够解决已有的实体识别方案并不能准确进行医疗文本中相关实体识别的问题。

首先，为实现上述目的，本发明提出一种电子装置，所述电子装置包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的医疗文本实体命名的识别***，所述医疗文本实体命名的识别***被所述处理器执行时实现如下步骤：

A、利用预先确定的切字规则对待识别医疗文本进行单字切分，确定所述待识别医疗文本的单字序列；

B、利用预先训练的第一CRF模型对所述单字序列进行识别，识别出所述单字序列中的医学术语；

C、利用预先训练的第二CRF模型对所述第一CRF模型识别出的各个医学术语进行识别，识别出各个所述医学术语对应的标记序列；

D、根据预先确定的实体名称与标记序列的映射关系，确定各个所述标记序列包含的实体名称。

进一步地，所述预先确定的切字规则包括：

将所述待识别医疗文本中的中文字符进行全角转半角，将所述待识别医疗文本的文档编码转换为UTF-8，对所述待识别医疗文本分别进行汉字、数字、通用单位、及标点符号的标注，根据标注结果将相邻数字的组合视为一个单字，将通用单位视为一个单字，将单个标点符号视为一个单字，以及将单个汉字视为一个单字，其中，所述通用单位包括中文单位、英文单位、化学单位、以及医用单位。

进一步地，所述预先训练的第一CRF模型的训练过程包括如下步骤：

从预先确定的数据库中获取第一预设数量的医疗文本，并利用所述预先确定的切字规则分别对所述第一预设数量的医疗文本进行单字切分，获得各个医疗文本的单字序列；

基于预先确定的医学术语表，对各个所述医疗文本的单字序列进行人工标记，以标记出各个所述医疗文本的单字序列中的医学术语，并将非医学术语删除，以获得由各个所述医疗文本的单字序列中的医学术语构成的第一训练样本集；

根据第一训练样本集训练所述第一CRF模型，以得到预先训练的第一CRF模型。

进一步地，所述预先训练的第二CRF模型的训练过程包括如下步骤：

利用预先设置的语料库及实体标记规则确定所述第一训练样本集中的各个所述医学术语对应的标记序列，以获得由各个所述医学术语对应的标记序列构成的第二训练样本集；

根据所述第二训练样本集训练所述第二CRF模型，以得到预先训练的第二CRF模型。

进一步地，所述预先设置的语料库中记录有医学术语中各语句的上下文特征、各语句的医疗特征、各语句中的实体、以及各语句中的实体在各语句中的位置以及实体类别。

此外，为实现上述目的，本发明还提供一种医疗文本实体命名的识别方法，所述方法包括如下步骤：

S1、利用预先确定的切字规则对待识别医疗文本进行单字切分，确定所述待识别医疗文本的单字序列；

S2、利用预先训练的第一CRF模型对所述单字序列进行识别，识别出所述单字序列中的医学术语；

S3、利用预先训练的第二CRF模型对所述第一CRF模型识别出的各个医学术语进行识别，识别出各个所述医学术语对应的标记序列；

S4、根据预先确定的实体名称与标记序列的映射关系，确定各个所述标记序列包含的实体名称。

进一步地，所述预先确定的切字规则包括：

进一步地，为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质存储有医疗文本实体命名的识别***，所述医疗文本实体命名的识别***可被至少一个处理器执行，以使所述至少一个处理器执行如上述的医疗文本实体命名识别方法的步骤。

相较于现有技术，本发明所提出的电子装置、医疗文本实体命名的识别方法及计算机可读存储介质，首先，利用预先训练的第一CRF模型对待识别医疗文本进行识别，识别出待识别医疗文本中的医学术语，其次，利用预先训练的第二CRF模型对第一CRF模型识别出的医学术语进行识别，识别出各个医学术语对应的标记序列，最后，根据预先确定的实体名称与标记序列的映射关系，确定各个标记序列包含的实体名称。这样，能够解决已有的实体识别方案并不能准确进行医疗文本中相关实体识别的问题。

附图说明

图1是本发明的电子装置一可选的硬件架构的示意图；

图2是本发明医疗文本实体命名识别***一实施例的程序模块图；

图3是本发明医疗文本实体命名识别***另一实施例的程序模块图；

图4是本发明的医疗文本实体命名识别方法一实施例的实施流程图；

图5是本发明的医疗文本实体命名识别方法另一实施例的实施流程图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，在本发明中涉及“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外，各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本发明要求的保护范围之内。

参阅图1所示，是本发明的电子装置一可选的硬件架构示意图。

由图1可知，本实施例中，电子装置10可包括，但不仅限于，可通过***总线相互通信连接存储器11、处理器12、及网络接口13。需要指出的是，图1仅示出了具有组件11-13的电子装置10，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。

其中，存储器11至少包括一种类型的可读存储介质，可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，存储器11可以是电子装置10的内部存储单元，例如电子装置10的硬盘或内存。在另一些实施例中，存储器11也可以是电子装置10的外部存储设备，例如电子装置10上配备的插接式硬盘，智能存储卡(Smart MediaCard,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。当然，存储器11还可以既包括电子装置10的内部存储单元也包括其外部存储设备。本实施例中，存储器11通常用于存储安装于电子装置10的操作***和各类应用软件，例如医疗文本实体命名识别***200的程序代码等。此外，存储器11还可以用于暂时地存储已经输出或者将要输出的各类数据。

处理器12在一些实施例中可以是中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。处理器12通常用于控制电子装置10的总体操作。本实施例中，处理器12用于运行存储器11中存储的程序代码或者处理数据，例如运行的医疗文本实体命名的识别***200等。

网络接口13可包括无线网络接口或有线网络接口，网络接口13通常用于在电子装置10与其他电子设备之间建立通信连接。

至此，己经详细介绍了本发明各个实施例的应用环境和相关设备的硬件结构和功能。下面，将基于上述应用环境和相关设备，提出本发明的各个实施例。

首先，本发明提出一种医疗文本实体命名的识别***200。

参阅图2所示，是本发明医疗文本实体命名的识别***200一实施例的程序模块图。本实施例中，医疗文本实体命名的识别***200可以被分割成一个或多个模块，一个或者多个模块被存储于存储器11中，并由一个或多个处理器(本实施例中为处理器12)所执行，以完成本发明。例如，在图2中，医疗文本实体命名的识别***200可以被分割成切分模块201、医学术语确定模块202、实体标记模块203、以及获取模块204。本发明所称的程序模块是指能够完成特定功能的一系列计算机程序指令段，比程序更适合于描述医疗文本实体命名的识别***200在电子装置10中的执行过程。以下将就各程序模块201-204的功能进行详细描述。

切分模块201，用于利用预先确定的切字规则对待识别医疗文本进行单字切分，确定待识别医疗文本的单字序列。

其中，预先确定的切字规则包括：将待识别医疗文本中的中文字符进行全角转半角，将待识别医疗文本的文档编码转换为UTF-8，对待识别医疗文本分别进行汉字、数字、通用单位、及标点符号的标注，根据标注结果将相邻数字的组合视为一个单字，将通用单位视为一个单字，将单个标点符号视为一个单字，以及将单个汉字视为一个单字，其中，通用单位包括中文单位、英文单位、化学单位、以及医用单位。

医疗文本包括门诊处方单、体检单、病例本、住院医嘱数据、医药企业药品数据、医药企业销售数据、医疗知识库及文献库数据、药品说明书数据等。

在一实施例中，以门诊处方单为待识别的医疗文本，且该门诊处方单包括注射用盐酸伊立替康(艾力)、口服药阿莫西林胶囊，则利用预先确定的切字规则进行单字切分后，获得如下的单字序列：“注”“射”“用”“盐”“酸”“伊”“立”“(”“艾”“力”“)”“、”“口”“服”“药”“阿”“莫”“西”“林”“胶”“囊”。

第一识别模块202，用于利用预先训练的第一CRF模型对单字序列进行识别，识别出单字序列中的医学术语。

其中，预先训练的第一CRF模型的训练过程包括如下步骤：

从预先确定的数据库中获取第一预设数量的医疗文本，并利用预先确定的切字规则分别对第一预设数量的医疗文本进行单字切分，获得各个医疗文本的单字序列；

基于预先确定的医学术语表，对各个医疗文本的单字序列进行人工标记，以标记出各个医疗文本的单字序列中的医学术语，并将非医学术语删除，以获得由各个医疗文本的单字序列中的医学术语构成的第一训练样本集；

根据第一训练样本集训练第一CRF模型，以得到预先训练的第一CRF模型。

其中，预先确定的数据库包括医院的病例档案数据库、门诊问答数据库、处方单数据库、或体检报告单数据库；医疗文本包括处方单、病例本、或体检单。

第二识别模块203，用于利用预先训练的第二CRF模型对第一CRF模型识别出的各个医学术语进行识别，识别出各个医学术语对应的标记序列。

其中，预先训练的第二CRF模型的训练过程包括如下步骤：

利用预先设置的语料库及预设的实体标记规则确定第一训练样本集中的各个医学术语对应的标记序列，以获得由各个医学术语对应的标记序列构成的第二训练样本集；

根据第二训练样本集训练第二CRF模型，以得到预先训练的第二CRF模型。

其中，预先设置的语料库中记录有医学术语中各语句的上下文特征、各语句的医疗特征、各语句中的实体、以及各语句中的实体在各语句中的位置以及实体类别。

例如，在一实施例中，第一CRF模型识别出的单字序列中的医疗术语包括阿莫西林胶囊，根据预先设置的语料库可知，阿莫西林胶囊中包含实体阿莫西林和实体胶囊，阿莫西林对应的实体类别为药品名称实体、胶囊对应的实体类别为药品形状实体，且胶囊对应在阿莫西林的后面位置。

预先确定的实体标记规则包括，将单字序列中不属于药品名称实体A的单字贴上的标记为W_A，将属于药品名称实体A的第一个字，贴上的标记为R-A，将属于药品名称实体A，但不是药品名称实体A的第一个字，贴上的标记为A-I，同理将不属于药品形状实体B的单字贴上的标记为W_B，将属于药品形状实体B的第一个字，贴上的标记为R-B，将属于药品名称实体B，但不是药品名称实体B的第一个字，贴上的标记为B-I。

则获得的标记序列为R-A，A-I，A-I，A-I，R-B，B-I。

确定模块204，用于根据预先确定的实体名称与标记序列的映射关系，确定各个所述标记序列包含的实体名称。

可以理解地，实体的类别包括根据预先确定的药品规格数据库、或包装规格数据库、或药品名称数据库、或体检规格数据库、或病例数据库等获取的药品规格实体、包装实体、药品名称实体、身体部位实体、健康状况实体等，预先设置的实体标记规则根据不同的实体类别可以人工进行相应的设置。

根据上述实施例可知，本发明的医疗文本实体命名识别***，首先，利用预先训练的第一CRF模型对待识别医疗文本进行识别，识别出待识别医疗文本中的医学术语，其次，利用预先训练的第二CRF模型对第一CRF模型识别出的医学术语进行识别，识别出各个医学术语对应的标记序列，最后，根据预先确定的实体名称与标记序列的映射关系，确定各个标记序列包含的实体名称。这样，能够解决已有的实体识别方案并不能准确进行医疗文本中相关实体识别的问题。能够解决已有的实体识别方案并不能准确进行医疗文本中相关实体的识别的问题。

由上述实施例可知，若将医生的处方单作为待识别文本，来识别处方单中的药品名称实体、药品特性实体等，则可以协助医生更好地构建自己大脑中的药品知识体系，为医生提供便捷的相关药品的剂量，禁忌，作用等信息，协助医生更好的作出诊断。也可以帮着患者方便的获取相关药品的功效、禁忌、为患者恢复健康提供与药品相关的建议与提示。还可以通过药品识别进一步帮助只要厂家建立药品知识图谱，帮助制药商认识当前药品市场的基本情形，为厂商进一步研发、提高、推广药品等提供参考。

若以体检报告为待识别实体命名的文本，则可以从体检报告中抽取得到身体部位的实体、检查项实体、检查值实体等，有利于病患和医师快速准确地对体检结果进行理解，同时也有助于问诊***的研究与发展。

请参阅图3所示，是本发明的医疗文本实体命名识别***另一实施例的程序模块图。由图3可知，本实施例相较于图2所示的实施例，医疗文本实体命名识别***200还包括第一训练模块205、和第二训练模块206。

在本实施例中，第一训练模块205，用于根据第一训练样本集训练第一CRF模型，以得到预先训练的第一CRF模型。

具体地，第一CRF模型的训练过程包括：从预先确定的数据库中获取第一预设数量的医疗文本，并利用预先确定的切字规则分别对第一预设数量的医疗文本进行单字切分，获得各个医疗文本的单字序列；

第二训练模块206，用于根据第二训练样本集训练第二CRF模型，以得到预先训练的第二CRF模型。

具体地，第二CRF模型的训练过程包括：利用预先设置的语料库及预设的实体标记规则确定所述第一训练样本集中的各个医学术语对应的标记序列，以获得由各个医学术语对应的标记序列构成的第二训练样本集；

需要说明的是，本发明中所提出的第一CRF模型及第二CRF模型的训练过程可以是由别的***预先对第一训练样本集进行训练得到第一CRF模型，以及对第二训练样本集进行训练得到的第二CRF模型，也可以是由医疗文本实体命名识别***200对第一训练样本集进行训练，得到的第一CRF模型，以及医疗文本实体命名识别***200对第二训练样本集进行训练，得到的第二CRF模型。

请参阅图4，是本发明的医疗文本实体命名识别方法一实施例的实施流程图。由图4可知，在本实施例中，医疗文本实体命名识别方法包括步骤S301至步骤S304。

步骤S301，利用预先确定的切字规则对待识别医疗文本进行单字切分，确定待识别医疗文本的单字序列。

步骤S302，利用预先训练的第一CRF模型对单字序列进行识别，识别出单字序列中的医学术语。

其中，预先训练的第一CRF模型的训练过程包括如下步骤：

步骤S303，利用预先训练的第二CRF模型对第一CRF模型识别出的各个医学术语进行识别，识别出各个医学术语对应的标记序列。

其中，预先训练的第二CRF模型的训练过程包括如下步骤：

则获得的标记序列为R-A，A-I，A-I，A-I，R-B，B-I。

步骤S304，根据预先确定的实体名称与标记序列的映射关系，确定各个标记序列包含的实体名称。

根据上述实施例可知，本发明的医疗文本实体命名识别方法，首先，利用预先训练的第一CRF模型对待识别医疗文本进行识别，识别出待识别医疗文本中的医学术语，其次，利用预先训练的第二CRF模型对第一CRF模型识别出的医学术语进行识别，识别出各个医学术语对应的标记序列，最后，根据预先确定的实体名称与标记序列的映射关系，确定各个标记序列包含的实体名称。这样，能够解决已有的实体识别方案并不能准确进行医疗文本中相关实体识别的问题。能够解决已有的实体识别方案并不能准确进行医疗文本中相关实体的识别的问题。

请参阅图5所示，是本发明的医疗文本实体命名识别***另一实施例的程序模块图。由图5可知，本实施例相较于图4所示的实施例，医疗文本实体命名识别方法包括步骤S301至步骤S306。

在本实施例中，步骤S301，用于根据第一训练样本集训练第一CRF模型，以得到预先训练的第一CRF模型。

步骤S302，用于根据第二训练样本集训练第二CRF模型，以得到预先训练的第二CRF模型。

具体地，第二CRF模型的训练过程包括：利用预先设置的语料库及预设的实体标记规则确定第一训练样本集中的各个医学术语对应的标记序列，以获得由各个医学术语对应的标记序列构成的第二训练样本集；

根据第二训练样本集训练所述第二CRF模型，以得到预先训练的第二CRF模型。

步骤S303，利用预先确定的切字规则对待识别医疗文本进行单字切分，确定待识别医疗文本的单字序列。

步骤S304，利用预先训练的第一CRF模型对单字序列进行识别，识别出单字序列中的医学术语。

步骤S305，利用预先训练的第二CRF模型对所述第一CRF模型识别出的各个医学术语进行识别，识别出各个医学术语对应的标记序列。

步骤S306，根据预先确定的实体名称与标记序列的映射关系，确定各个标记序列包含的实体名称。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种电子装置，其特征在于，所述电子装置包括存储器、处理器，所述存储器上存储有可在所述处理器上运行的医疗文本实体命名识别***，所述医疗文本实体命名识别***被所述处理器执行时实现如下步骤：

D、根据预先确定的实体名称与标记序列的映射关系，确定各个所述标记序列包含的实体名称；

实体的类别包括药品规格实体、包装实体、药品名称实体、身体部位实体、健康状况实体，预先设置的实体标记规则根据不同的实体类别进行相应的设置。

2.如权利要求1所述的电子装置，其特征在于，所述预先确定的切字规则包括：

3.如权利要求2所述的电子装置，其特征在于，所述预先训练的第一CRF模型的训练过程包括如下步骤：

4.如权利要求3所述的电子装置，其特征在于，所述预先训练的第二CRF模型的训练过程包括如下步骤：

利用预先设置的语料库及预设的实体标记规则确定所述第一训练样本集中的各个所述医学术语对应的标记序列，以获得由各个所述医学术语对应的标记序列构成的第二训练样本集；

5.如权利要求4所述的电子装置，其特征在于，所述预先设置的语料库中记录有医学术语中各语句的上下文特征、各语句的医疗特征、各语句中的实体、以及各语句中的实体在各语句中的位置以及实体类别。

6.一种医疗文本实体命名识别方法，其特征在于，所述方法包括如下步骤：

S4、根据预先确定的实体名称与标记序列的映射关系，确定各个所述标记序列包含的实体名称；

7.如权利要求6所述的医疗文本实体命名识别方法，其特征在于，所述预先确定的切字规则包括：

8.如权利要求7所述的医疗文本实体命名识别方法，其特征在于，所述预先训练的第一CRF模型的训练过程包括如下步骤：

9.如权利要求8所述的医疗文本实体命名识别方法，其特征在于，所述预先训练的第二CRF模型的训练过程包括如下步骤：

10.一种计算机可读存储介质，所述计算机可读存储介质存储有医疗文本实体命名的识别***，所述医疗文本实体命名的识别***可被至少一个处理器执行，以使所述至少一个处理器执行如权利要求6-9中任一项所述医疗文本实体命名的识别方法的步骤。