CN110069779A

CN110069779A - 医疗文本的症状实体识别方法及相关装置

Info

Publication number: CN110069779A
Application number: CN201910314041.0A
Authority: CN
Inventors: 俞可; ***; 孙钟前; 杨巍
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-04-18
Filing date: 2019-04-18
Publication date: 2019-07-30
Anticipated expiration: 2039-04-18
Also published as: CN110069779B

Abstract

本发明实施例公开了一种医疗文本的症状实体识别方法及相关装置，该方法包括：获取医疗文本；从医疗文本中识别出待识别症状实体；基于待识别症状实体从医疗文本中确定出待识别症状实体的症状属性信息；将待识别症状实体和症状属性信息进行实体信息结构化处理，得到待识别症状实体的症状表示信息。采用本发明实施例，可有效识别出医疗文本的不同症状实体及相关症状属性信息，提升症状实体的识别全面性和准确度。

Description

医疗文本的症状实体识别方法及相关装置

技术领域

本发明涉及计算机技术领域，尤其涉及一种医疗文本的症状实体识别方法及相关装置。

背景技术

目前，医疗信息电子化在国内外得到了广泛的应用，医疗文本尤其是电子病历的研究对于医疗质量的管理与监督、提高病历的规范性和完整性、提升医务人员工作效率等方面具有十分重要的作用。然而对于医疗文本中不同成分之间存在标点符号或者其他文字的医疗症状，现有的识别技术往往会不能有效识别出全部症状甚至是识别错误。例如，对于医疗文本中出现的“足心、臀部皮疹”，现有技术通常会将“臀部皮疹”作为识别结果，不能达到正确识别医疗症状的目的。

因此，如何有效识别医疗文本中的医疗症状成为亟需解决的问题。

发明内容

本发明实施例提供一种医疗文本的症状实体识别方法及相关装置，可有效识别出医疗文本中的不同类型的症状实体，提高症状实体的识别准确率，提升症状实体识别的全面性，适用性高。

第一方面，本发明实施例提供一种医疗文本的症状实体识别方法，该方法包括：

获取医疗文本；

从上述医疗文本中识别出待识别症状实体，上述待识别症状实体至少包括连续症状实体和原子症状实体，上述连续症状实体为由至少两个词素描述的症状实体，上述原子症状实体为由单一词素所描述的症状实体；

基于上述待识别症状实体从上述医疗文本中确定出上述待识别症状实体的症状属性信息；

将上述待识别症状实体和上述症状属性信息进行实体信息结构化处理，得到上述待识别症状实体的症状表示信息。

结合第一方面，在一种可能的实施方式中，上述基于上述待识别症状实体从上述医疗文本中确定出上述待识别症状实体的症状属性信息包括：

从上述医疗文本中确定出上述待识别症状实体的上下文文本；

从上述上下文文本中确定出上述待识别症状实体的症状属性信息；

其中，上述症状属性信息包括症状部位、症状程度、症状频率、症状颜色、症状性质、症状性状以及症状否定修饰中的至少一项，上述症状否定修饰用于描述症状实体是否存在。

结合第一方面，在一种可能的实施方式中，上述从上述医疗文本中识别出待识别症状实体包括：

基于连续症状实体识别模型从上述医疗文本中识别出连续症状实体；

基于原子症状词典从上述医疗文本中除上述连续症状实体外的文本中识别出原子症状实体；

将识别出的上述连续症状实体和上述原子症状实体确定为上述医疗文本中包括的待识别症状实体。

结合第一方面，在一种可能的实施方式中，上述基于连续症状实体识别模型从上述医疗文本中识别出连续症状实体包括：

通过连续症状实体识别模型对上述医疗文本中包括的字进行实体标签预测，确定出上述医疗文本中包括的字的实体预测标签；

从上述实体预测标签中确定出目标实体预测标签序列，并将上述目标实体预测标签序列对应的字序列确定为连续症状实体。

结合第一方面，在一种可能的实施方式中，上述基于原子症状词典从上述医疗文本中除上述连续症状实体外的文本中识别出原子症状实体包括：

将上述医疗文本中除上述连续症状实体外的文本与原子症状词典中包括的症状进行匹配，将与上述原子症状词典中包括的任一症状相同的文本确定为原子症状实体。

结合第一方面，在一种可能的实施方式中，上述将上述待识别症状实体和上述症状属性信息进行实体信息结构化处理，得到上述待识别症状实体的症状表示信息包括：

将上述待识别症状实体和上述症状属性信息按照预设的信息排列组合方式进行组合，得到由上述待识别症状实体和上述症状属性信息排列组合所构成的症状信息序列；

其中，上述症状信息序列包括用于描述上述连续症状实体的症状表示信息，和/或用于描述上述原子症状实体的症状表示信息。

结合第一方面，在一种可能的实施方式中，上述基于连续症状实体识别模型从上述医疗文本中识别出连续症状实体之前，上述方法还包括：

获取用于训练连续症状实体识别模型的症状实体样本数据，其中，上述症状实体样本数据中包括至少两种连续症状实体样本的实体标签，以及上述至少两种连续症状实体样本对应的医疗文本样本；

基于条件随机场算法和上述症状实体样本数据构建上述连续症状实体识别模型，以使上述连续症状实体识别模型具备基于任一医疗文本识别出上述任一医疗文本中包括的连续症状实体对应的实体预测标签的能力。

第二方面，本发明实施例提供了一种医疗文本的症状实体识别装置，该症状实体识别装置包括：

获取模块，用于获取医疗文本；

识别模块，用于从上述医疗文本中识别出待识别症状实体，上述待识别症状实体至少包括连续症状实体和原子症状实体，上述连续症状实体为由至少两个词素描述的症状实体，上述原子症状实体为由单一词素所描述的症状实体；

确定模块，用于基于上述待识别症状实体从上述医疗文本中确定出上述待识别症状实体的症状属性信息；

处理模块，用于将上述待识别症状实体和上述症状属性信息进行实体信息结构化处理，得到上述待识别症状实体的症状表示信息。

结合第二方面，在一种可能的实施方式中，上述确定模块用于：

结合第二方面，在一种可能的实施方式中，上述识别模块用于：

上述确定模块，用于将识别出的上述连续症状实体和上述原子症状实体确定为上述医疗文本中包括的待识别症状实体。

结合第二方面，在一种可能的实施方式中，上述识别模块包括：

预测单元，用于通过连续症状实体识别模型对上述医疗文本中包括的字进行实体标签预测，确定出上述医疗文本中包括的字的实体预测标签；

上述确定模块，用于从上述实体预测标签中确定出目标实体预测标签序列，并将上述目标实体预测标签序列对应的字序列确定为连续症状实体。

匹配单元，用于将上述医疗文本中除上述连续症状实体外的文本与原子症状词典中包括的症状进行匹配，将与上述原子症状词典中包括的任一症状相同的文本确定为原子症状实体。

结合第二方面，在一种可能的实施方式中，上述处理模块，用于将上述待识别症状实体和上述症状属性信息按照预设的信息排列组合方式进行组合，得到由上述待识别症状实体和上述症状属性信息排列组合所构成的症状信息序列；

结合第二方面，在一种可能的实施方式中，上述获取模块，还用于获取用于训练连续症状实体识别模型的症状实体样本数据，其中，上述症状实体样本数据中包括至少两种连续症状实体样本的实体标签，以及上述至少两种连续症状实体样本对应的医疗文本样本；

上述症状识别装置还包括：

构建模块，还用于基于条件随机场算法和上述症状实体样本数据构建上述连续症状实体识别模型，以使上述连续症状实体识别模型具备基于任一医疗文本识别出上述任一医疗文本中包括的连续症状实体对应的实体预测标签的能力。

第三方面，本发明实施例提供了一种终端设备，该终端设备包括处理器和存储器，该处理器和存储器相互连接。该存储器用于存储支持该终端设备执行上述第一方面和/或第一方面任一种可能的实现方式提供的方法的计算机程序，该计算机程序包括程序指令，该处理器被配置用于调用上述程序指令，执行上述第一方面和/或第一方面任一种可能的实施方式所提供的方法。

第四方面，本发明实施例提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序被处理器执行以实现上述第一方面和/或第一方面任一种可能的实施方式所提供的方法。

在本发明实施例中，通过不同的待识别症状实体识别方式可从医疗文本中识别出连续症状实体和原子症状实体，提升了待识别症状实体识别的准确度和全面性。此外，通过获取待识别症状实体的症状属性信息，可以使识别出的待识别症状实体的症状相关描述更为全面，适用性更高。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的医疗文本的症状实体识别方法的场景示意图；

图2是本发明实施例提供的医疗文本的症状实体识别方法的一流程示意图；

图3是本发明实施例提供的医疗文本的症状实体识别方法的另一流程示意图；

图4是本发明实施例提供的连续症状实体识别模型的构建方法的流程示意图；

图5是本发明实施例提供的连续症状实体识别方法的流程示意图；

图6是本发明实施例提供的原子症状实体识别方法的流程示意图；

图7是本发明实施例提供的医疗文本的症状实体识别装置的结构示意图；

图8是本发明实施例提供的终端设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供的医疗文本的症状实体识别方法(为方便描述，可简称本发明实施例提供的方法)可适用于医疗领域中的设计医疗文本的各个方面，例如病历管理***、病情分析以及病人健康管理等方面，在此不做限制。采用本发明实施例提供的方法可有效识别出医疗文本中的各种症状实体，提升症状实体的识别准确度和识别效率。

参见图1，图1是本发明实施例提供的医疗文本的症状实体识别方法的场景示意图。如图1所示，这是一份XXX人民医院开具的医疗文本，该医疗文本中包括了病患的基本信息，比如姓名：xxx、性别：女、年龄：20、床号：xxx、以及住院号：xxx。该医疗文本中还包括了病患的医疗信息，比如“……患者xxx以‘双腿不舒服’为主诉就诊，于2012年3月20日出现髋关节痛，间断性阵痛且疼痛剧烈”、“经查，患者髋关节风湿性疼痛，精神、食欲尚可……”等。为了快速获取医疗文本中患者的症状和症状的相关描述信息，可从医疗文本中识别出待识别症状实体和待识别症状实体的症状属性信息。即可从包含“患者xxx以‘双腿不舒服’为主诉就诊，于2012年3月20日出现髋关节痛，间断性阵痛且疼痛剧烈”、“经查，患者髋关节风湿性疼痛，精神、食欲尚可”等医疗信息的医疗文本中识别出待识别症状实体“痛”以及待识别症状实体“痛”的症状属性信息。如图1中所示，上述待识别症状实体“痛”的症状属性信息为：“部位：髋关节、程度：剧烈、频率：间断性、以及性质：风湿性”。为方便查看上述得到的待识别症状实体和待识别症状属性信息，可将待识别症状实体和待识别症状实体的症状属性信息表示成一个多元组的结构化形式，即可表示成：{症状：髋关节痛，部位：[髋关节]，程度：[剧烈]，频率：[间断性]，性质：[风湿性]}形式。下面将结合图2至图8对本发明实施例提供的医疗文本的症状识别方法及相关装置进行说明。

参见图2，图2是本发明实施例提供的医疗文本的症状实体识别方法的一流程示意图。本发明实施例提供的医疗文本的症状实体识别方法可包括如下步骤101-104：

101、获取医疗文本。

在一些可行的实现方式中，可根据本发明提供的方法所应用的具体场景来确定医疗文本的获取方式，其中上述医疗文本包括但不限于电子病历、住院记录以及临床记录等，在此不做限制。例如，当某医院需要对门诊病人的电子病历进行统一整理时，可获取医院门诊***中的电子病历以实现症状的收集和分析。再例如，当某科研机构需要大量症状病例作为科研基础时，可获取各大医院的电子病历、临床记录等以作为科研的症状病例来源。需要特别说明的是，当上述医疗文本为纸质文本时，可通过文字识别技术或工具将上述医疗文本转换为数字医疗文本以实现对症状实体的识别，具体可根据实际应用场景确定，在此不做限制。

102、从上述医疗文本中识别出待识别症状实体。

在一些可行的实施方式中，在获取到医疗文本之后，可使用分词工具对上述医疗文本进行分词处理以得到多个医疗词，并同时获取每个医疗词的词义、词性以及每个医疗词的上下文信息以得到每个医疗词的基本特征。其中，上述分词工具包括但不限于Stanford汉语分词工具、imdict、LTP-cloud以及imdict-chinese-analyzer等，在此不做限制。每个医疗词的词义是指该医疗词的语言符号特征，即该词所表示的中文语义。每个医疗词的词性用于指示出不同待识别症状实体的位置(例如，“得”、“患”等动词可指示出待识别症状实体的边界)。基于预先分析整理疾病、症状、检查以及治疗相关的核心词词库，提取出每个医疗词中的核心词特征，并利用向量工具(包括但不限于word2vec、glove、fastText、elmo以及bert，在此不做限制)计算出每个医疗词的词向量。同时，可根据每个医疗词的词向量并利用聚类算法(包括但不限于k-means、k-medoids、Clara以及Clarans，在此不做限制)进行聚类运算，得到每个医疗词的词聚类特征，与上述核心词特征一起构建出医疗文本对应的多个特征向量。将上述多个特征向量输入预先设置好的分类模型进而抽取出上述医疗文本中的待识别症状实体。

在一些可行的实施方式中，在从上述医疗文本中识别出待识别症状实体时，可通过隐马尔科夫模型对上述医疗文本进行序列标注，基于得到的序列标注得到预测分词结果，并通过半监督学习过程进行迭代自学习以对预测分析结果进行过滤和校准，将校准后的预测分析结果确定为上述医疗文本中的待识别症状实体。其中，上述半监督学习过程可以是去除预测分词结果中与停用词(在信息检索中，为节省存储空间和提高搜索效率，在处理自然语言文本之前或之后会自动过滤掉的某些字或词)集合中重合的部分，统计去除停用词后的分析结果的频次并以降序方式排列。在将频次高的词加入目标词集后，重新对上述医疗文本进行分词处理，此时目标词集中出现的目标词优先成词。重复上述半监督学习过程直至目标词集不再有新的目标词加入。在半监督学习过程中，若每次迭代增加目标词过少，会导致英文缩写的引入使得迭代立刻终止。若每次迭代增加目标词过多，又会在迭代后几步引入词频较低的词语，使得破坏正确的分词结果。基于上述原因，故每次迭代最多增加的词的数量可基于实际情况进行确定以保证较高的分词正确率。

在一些可行的实施方式中，还可以将上述医疗文本分进行分析并计算分析后每个词语和标点的词向量，将所有的词向量按照上述医疗文本中词语的表述顺序进行正向拼接并输入前向长短期记忆网络得到第一输出结果，将所有的词向量按照上述医疗文本中词语的表述顺序的进行倒序拼接并输入后向长短期记忆网络，得到第二输出结果。利用双曲正切激活函数分别将上述第一输出结果和第二输出结果进行映射合并，得到第三输出结果。再利用Softmax激活函数对上述第三输出结果进行计算，得到一个n*r维矩阵P，其中，n表示将医疗文本进行分词后得到的词语的个数，r表示预先设置的标签的个数，矩阵P中的每一个元素Pij表示第j个词语的标签为第i个标签的概率。此时可将矩阵P代入基于条件随机场转移矩阵，计算并得到至少一个最优标签序列，并将上述至少一个最优标签序列对应的至少一个文本序列确定为上述医疗文本中的待识别症状实体，其中一个最优标签序列有一个或者多个标签组成，一个标签对应一个文本，从而可得到一个最优标签序列对应的文本序列。

在一些可行的实施方式中，由于医疗文本中的待识别症状实体类型众多，且主要分类连续症状实体和原子症状实体。故为了避免由单一识别方式所带来的症状实体识别错误和识别不全，确保从上述医疗文本中准确识别出众多待识别症状实体，可基于连续症状实体识别模型从上述医疗文本中识别出连续症状实体，基于原子症状词典从上述医疗文本中除上述连续症状实体外的文本中识别出原子症状实体。其中，上述连续症状实体为由至少两个词素描述的症状实体，即上述连续症状实体由多种含义组合而成，例如“呼吸音粗糙”和“臀部皮疹”等症状实体。上述原子症状实体为由单一词素描述的症状实体，即上述原子症状实体只有一种含义，例如“痛”和“肿”等症状实体。其中，在医疗文本中包括连续症状实体和原子症状实体的情况下，可采用不同的症状实体识别方式分别从医疗文本中识别出连续症状实体和原子症状实体。具体可参见图3，图3是本发明实施例提供的医疗文本的症状实体识别方法的另一流程示意图。该症状实体识别方法包括步骤201-202：

201、基于连续症状实体识别模型从上述医疗文本中识别出连续症状实体。

在一些可行的实施方式中，在基于连续症状实体识别模型从上述医疗文本中识别出连续症状实体之前，可采用监督学习的方法(包括但不限于隐马尔可夫模型、最大熵模型、支持向量机、条件随机场算法以及决策树算法等方法，在此不做限制)建立连续症状实体识别模型，也可采用半监督学习的方法利用预先收集的连续症状实体集合进行自举学习以建立连续症状实体识别模型。还可以采用无监督的学习方法利用现有的连续症状实体库建立连续症状实体识别模型以通过上下文聚类对连续症状实体进行识别。或者，可利用上述多种方式相结合的方式建立连续症状实体识别模型以对医疗文本中的连续症状实体进行识别。上述连续症状实体识别模型的建立方式可根据实际应用场景需求确定，在此不做限制。

例如，可采用监督学习的方法，利用条件随机场算法建立连续症状实体识别模型。请一并参见图4，图4是本发明实施例提供的连续症状实体识别模型的构建方法的流程示意图。如图4所示，可先获取用于训练连续症状实体识别模型的症状实体样本数据，其中，上述症状实体样本数据中包括n个连续症状实体样本，且每个连续症状实体样本包含实体标签和医疗文本样本。例如，连续症状实体样本1中包含实体标签1和医疗文本样本1，连续症状实体样本2中包含实体标签2和医疗文本样本2，连续症状实体样本n中包含实体标签n和医疗文本样本n。此时，可利用条件随机场算法对上述症状实体样本数据中的n个连续症状实体样本进行训练以得到上述连续症状实体识别模型。例如，可通过上述实体标签1，可确定出上述实体标签1对应的连续症状实体在医疗文本样本1中的标签序列，通过上述实体标签2，可确定出上述实体标签2对应的连续症状实体在医疗文本样本2中的标签序列。当通过上述实体标签n确定出上述实体标签n对应的连续症状实体在医疗文本样本n中的标签序列后，上述连续症状实体识别模型可对任一医疗文本中的全部文字的进行实体标签预测，进而确定出上述任一医疗文本中所包括的连续症状实体对应的标签序列，从而从上述医疗文本中识别出连续症状实体。

在一些可行的实施方式中，上述基于连续症状实体识别模型从上述医疗文本中识别出连续症状实体的具体实现方式可参见图5。图5是本发明实施例提供的连续症状实体识别方法的流程示意图。如图5所示，当获取到上述医疗文本并将上述医疗文本输入上述连续症状实体识别模型之后，上述连续症状识别模型会对上述医疗文本进行实体标签预测，以确定出上述医疗文本的实体预测标签序列。当X为上述医疗文本时，x₁,x₂,...x_n为上述医疗文本的文本序列。当Y为X对应的概率值时，y₁,y₂,...y_n分别为x₁,x₂,...x_n对应的条件概率最大值。也就是说，X＝(x₁,x₂,...x_n)，Y＝(y₁,y₂,...y_n)均为上述连续症状实体识别模型中的线性链所表示的随机变量序列，其中，Y＝(y₁,y₂,...y_n)为在给定随机变量序列X的情况下通过上述连续症状实体识别模型得到的条件概率分布的最大值序列。进一步的，上述随机变量Y的条件概率分布的具体方式为：

其中，t_k和s_l为特征函数，λ_k和μ_l是特征函数t_k和s_l分别对应的权值，l、k分别表示特征函数的个数，μ和λ的值可基于实际应用场景确定，在此不做限制。i表示当前节点在上述文本序列中的位置，Z(x)为归一化因子。当将上述医疗文本(患有心肌梗塞和…伴随脑溢血等，此时随机变量序列X中的一个x为上述医疗文本中的一个文本)输入上述连续症状实体识别模型后，上述连续症状实体模型根据上述公式会得到随机变量Y的条件概率分布P(y|x)，进而得到随机变量Y＝(y₁,y₂,...y_n)。将随机变量Y＝(y₁,y₂,...y_n)中的各个概率值依次与预设概率阈值N比较，当y₁，y₂小于N时，则确定y₁，y₂对应的实体预测标签为O(O表示不是连续症状实体中的实体)。当y₃，y₄，y₅，y₆不小于N，y₇小于N时，由于y₃是随机变量Y＝(y₁,y₂,...y_n)中第一个不小于N的值，则确定y₃对应的实体预测标签为B(B表示连续症状实体的第一个实体)，由于y₆是y₃，y₄，y₅，y₆中最后一个不小于N的值，则将y₆对应的实体预测标签确定为E(E表示连续症状实体的最后一个实体)，将y₄，y₅对应的实体预测标签确定为I(I表示连续症状实体的中间实体)。此时，可y₃，y₄，y₅，y₆对应的实体预测标签B，I，I，E确定为目标实体预测标签序列BIIE，进而根据随机变量X与随机变量Y的关系对应得到上述目标实体预测标签序列BIIE对应的文本序列为“心肌梗塞”，也就是说，此时文本序列“心肌梗塞”为上述连续症状实体识别模型从上述医疗文本中识别出的一个连续症状实体。由此可知，上述连续症状实体识别模型可从上述医疗文本中识别出另一连续症状实体为“脑溢血”。

202、基于原子症状词典从上述医疗文本中除上述连续症状实体外的文本中识别出原子症状实体。

在一些可行的实施方式中，在基于连续症状实体识别模型识别出上述医疗文本中的连续症状实体之后，可获取上述医疗文本中除连续症状实体外的剩余文本，并将上述剩余文本与原子症状词典中包括的症状进行匹配以得到上述医疗文本中的原子症状实体。其中，上述原子症状词典中包括的症状可以为预先从各种医疗文本库(包括但不限于常见药物相关信息的中华药典、中文的诊断用语集合、ICD10、以及医学诊断用语辞典LOINC中文版等，在此不做限制)中获取到的符合原子症状特征(由单一词素所表示的症状，在此不再赘述)的各种症状，也可以是根据本发明实施例提供的症状实体识别方法具体的应用场景所规定的原子症状集合，在此不做限制。参见图6，图6是本发明实施例提供的原子症状实体识别方法的流程示意图。当基于连续症状实体识别模型从上述医疗文本中识别出连续症状实体x₃x₄x₅x₆和连续症状实体x_n-3x_n-2x_n-1之后，可将除连续症状实体x₃x₄x₅x₆和连续症状实体x_n-3x_n-2x_n-1外的剩余文本“z₁z₂z₃…z_n-8z_n-7…z_n-4z_n-3z_n-2z_n-1z_n”与原子症状词典中包括的症状进行匹配，进而得到上述剩余文本中与原子症状词典中包括的症状相同的文本z，并将z确定为从上述医疗文本中识别的原子症状。当得到多个文本如z₃、z_n-8z_n-7以及z_n-1时，可将z₃、z_n-8z_n-7以及z_n-1全部确定为从上述医疗文本中确定出的原子症状实体。其中，z₃，z_n-1可以为相同的原子症状实体，也可以为不同的原子症状实体，在此不做限制。例如，当上述剩余文本“z₁z₂z₃…z_n-8z_n-7…z_n-4z_n-3z_n-2z_n-1z_n”为“有腹胀…感冒…伴有头痛”时，将“有腹胀…感冒…伴有头痛”与原子症状中包括的症状进行匹配，得到与原子症状词典中包括的症状相同的文本“胀、感冒、痛”。此时可。此时可将“胀、感冒、痛”分别确定为上述医疗文本中的原子症状实体，也就是说，“胀”、“感冒”以及“痛”为基于原子症状词典从上述医疗文本中识别出的原子症状实体。

再例如，当上述医疗文本中除连续症状实体外的剩余文本中存在文本字段“患者胸口痛，活动后症状加剧，神清言明”，将该文本字段与原子症状词典中的各个原子症状进行匹配。此时原子症状词典中包含的症状“痛”与上述文本字段中的“患者胸口痛”中的“痛”一致，此时可将“痛”确定为上述字段中的原子症状实体。当上述医疗文本中除连续症状实体外的剩余文本中还包括其他文本字段，则可将其他文本字段与原子症状词典中的各个原子症状进行匹配以得到其他文本字段中的原子症状实体。

在一些可行的实施方式中，当需要识别出上述医疗文本中的由单一文字表述的原子症状实体(如“痛”、“肿”)时在得到上述医疗文本中除连续症状实体外的剩余文本后，可获取上述剩余文本中全部文字的笔画数据和字形数据。并可基于神经网路对上述笔画数据进行时序处理以得到上述笔画数据对应的时序特征向量，基于卷积神经网络对上述字形数据进行卷积处理和池化处理以得到上述字形数据对应的空间特征向量，并将上述笔画数据对应的时序特征向量和上述字形数据对应的空间特征向量作为辅助特征向量。基于辅助特征向量计算上述剩余文本中每个文字的置信度，并将每个文字的置信度与预设阈值比较，将置信度大于预设阈值的文字确定为上述医疗文本中的原子症状实体。其中，上述预设阈值可根据症状实体识别的实际需求进行确定，在此不做限制。

103、基于上述待识别症状实体从上述医疗文本中确定出上述待识别症状实体的症状属性信息。

在一些可行的实施方式中，在从上述医疗文本中确定出上述医疗文本中的待识别症状实体之后，可确定出上述待识别症状实体在上述医疗文本中的位置。当确定出任一待识别症状实体在上述医疗文本中的位置后，可根据医疗文本中的标点符号断句以及上述任一待识别症状实体的上一个待识别症状实体和下一个待识别症状实体在上述医疗文本中的位置确定出上述任一待识别症状实体的上下文文本。具体实现中，可将上述任一待识别症状实体的上一个待识别症状实体至上述任一待识别症状实体的下一个待识别症状实体之前的文本确定为上述任一待识别症状实体的上下文文本。也可根据医疗文本中的句号位置将与上述任一待识别症状实体所在语句相邻的上一个完整语句和下一个完整语句确定为上述任一待识别症状的上下文文本。需要特别说明的是，从上述医疗文本中确定出上述待识别症状实体的上下文本文的具体实现方式可基于实际场景确定，在此不做限制。举例来说，当某一医疗文本的内容为“患者张三以‘胸口不舒服’为主诉就诊。患者自述于2012年3月20日出现呼吸急促现象，疑为哮喘。患者表示呼吸时感觉胸腔内有振颤，喘不上气。经诊断，患者患有呼吸音粗糙，症状较轻。肺部及气管无明显炎症，无需住院，可在家疗养。排除哮喘及其他呼吸相关症状。”时，可根据症状实体“呼吸音粗糙”在医疗文本中的位置确定出症状实体“呼吸音粗糙”的上下文。其中，可将与“呼吸音粗糙”所在的语句“经诊断，患者患有‘呼吸音粗糙’症状，症状较轻。”相邻的上一句“患者表示呼吸时感觉胸腔内有振颤，喘不上气。”和相邻的下一句“肺部及气管无明显炎症，无需住院，可在家疗养。”确定为症状实体“呼吸音粗糙”在医疗文本中的上下文。或者，在从该医疗文本确定所有的症状实体，即识别出两个症状实体“哮喘”和一个症状实体“呼吸音粗糙”之后，可将两个症状实体“哮喘”之间的文本确定为症状实体“呼吸音粗糙”的上下文。

在一些可行的实施方式中，在确定出上述待识别症状实体的上下文文本之后，可从上述待识别症状实体的上下文文本中确定出上述待识别症状实体的症状属性信息。其中，可通过基于预先收集的用于描述各种症状的症状属性词构建的症状属性词典，与上述待识别症状的上下文文本进行匹配，将与上述症状属性词典中任一相同的文本确定为上述待识别症状实体的症状属性信息。也可基于文本识别工具对上述待识别症状的上下文文本以得到上述待识别症状的症状属性信息，具体实现方式在此不做限制。需要特别说明的是，上述症状属性信息包括所述症状属性信息包括症状部位(人体解剖学部位，如腹部)、症状程度(症状的表现程度，如剧烈)、症状频率(症状的出现频率，如阵发性)、症状颜色(症状的颜色，如发黄)、症状性质(如病毒性)、症状性状(症状外观，如糊状)以及症状否定修饰(描述症状实体是否存在)，在实际医疗文本的症状实体识别过程中，可根据实际需求确定从上述上下文文本中获取上述任意一种或者多种症状属性信息，在此不做限制。

104、将上述待识别症状实体和上述症状属性信息进行实体信息结构化处理，得到上述待识别症状实体的症状表示信息。

在一些可行的实施方式中，在确定出上述待识别症状实体和上述待识别症状的症状属性信息之后，为了清楚、明确地表示出上述待识别症状实体的症状表示信息，可将上述待识别症状实体和上述待识别症状实体的症状属性信息按照预设的信息排列组合方式进行组合，以得到由上述待识别症状实体和上述症状属性信息排列组合所构成的症状信息序列。其中，上述预设的信息排列方式可以是任一在识别出上述待识别症状之前所设置好的排列组合方式，其具体排列组合方式在此不做限制。

例如，若从上述医疗文本中的文本字段“患者XXX以‘双腿不舒服’为主诉就诊，于2012年3月20日出现髋关节痛，间断性阵痛且疼痛剧烈。”、“经查，患者髋关节风湿性疼痛，精神、食欲尚可”中识别出原子症状实体“痛”，症状部位为髋关节，症状程度为剧烈，症状频率为间断性，症状性质为风湿性，且没有获取到症状颜色以及症状性状的相关信息。此时为了将症状实体以及症状属性信息清晰表示，可将原子症状实体“痛”及其症状属性信息表示为：{症状：髋关节痛，部位：[髋关节]，程度：[剧烈]，频率：[间断性]，性质：[风湿性]}。当需要确定上述原子症状实体“痛”的全部症状属性信息时，可将原子症状实体“痛”及其症状属性信息表示为{症状：髋关节痛，部位：[髋关节]，程度：[剧烈]，频率：[间断性]，颜色[]，性质：[风湿性]，性状[]}。其中，“颜色[]”和“性状[]”表示医疗文本中没有描述原子症状实体“痛”的颜色和性状的症状属性信息。当上述医疗文本中包含有描述未患有某种症状的文本字段时，例如包含文本字段“患者没有出现髋关节痛，无间断性阵痛且疼痛剧烈表现”、“排除髋关节风湿性疼痛，精神、食欲良好”时，此时仍可从医疗文本中识别出原子症状实体“痛”以及相关的症状属性信息，并在将识别出的原子症状实体“痛”及相关症状属性信息进行结构化表示时，新增否定修饰词以明确表示患者未患该原子症状实体。例如，可将原子症状实体“痛”及其症状属性信息表示为{症状：髋关节痛，部位：[髋关节]，程度：[剧烈]，频率：[间断性]，颜色[]，性质：[风湿性]，性状[]，否定修饰[N]}，或者表示成{症状：髋关节痛，否定修饰[N]}，具体表现形式在此不做限制。为了进一步区分患者是否患有识别出的原子症状实体“痛”，当患者患有上述症状实体“痛”时，可表示为{症状：髋关节痛，部位：[髋关节]，程度：[剧烈]，频率：[间断性]，颜色[]，性质：[风湿性]，性状[]，否定修饰[Y]}。其中，[Y]表示患有该症状实体，[N]表示未患有该症状实体，且“[]”中可以填入能够明确区分“患有”和“未患”语义的数字、字母以及其他汉字等，在此不做限制。

在本发明实施例中，通过不同的待识别症状实体识别方式可从医疗文本中识别出连续症状实体和原子症状实体，提升了待识别症状实体识别的准确度和全面性。此外，通过获取待识别症状实体的症状属性信息，可以使识别出的待识别症状实体不局限于传统的单一症状实体表现形式，而是通过增加多种症状属性信息以提升症状实体表述的全面性，适用性更好，灵活性更高。

参见图7，图7是本发明实施例提供的医疗文本的症状实体识别装置的结构示意图。本发明实施例提供的医疗文本的症状识别装置包括：

获取模块71，用于获取医疗文本；

识别模块72，用于从上述医疗文本中识别出待识别症状实体，上述待识别症状实体至少包括连续症状实体和原子症状实体，上述连续症状实体为由至少两个词素描述的症状实体，上述原子症状实体为由单一词素所描述的症状实体；

确定模块73，用于基于上述待识别症状实体从上述医疗文本中确定出上述待识别症状实体的症状属性信息；

处理模块74，用于将上述待识别症状实体和上述症状属性信息进行实体信息结构化处理，得到上述待识别症状实体的症状表示信息。

在一些可行的实施方式中，上述确定模块73用于：

在一些可行的实施方式中，上述识别模块72用于：

上述确定模块73，用于将识别出的上述连续症状实体和上述原子症状实体确定为上述医疗文本中包括的待识别症状实体。

在一些可行的实施方式中，上述识别模块72包括：

预测单元7201，用于通过连续症状实体识别模型对上述医疗文本中包括的字进行实体标签预测，确定出上述医疗文本中包括的字的实体预测标签；

上述确定模块73，用于从上述实体预测标签中确定出目标实体预测标签序列，并将上述目标实体预测标签序列对应的字序列确定为连续症状实体。

在一些可行的实施方式中，上述识别模块72包括：

匹配单元7202，用于将上述医疗文本中除上述连续症状实体外的文本与原子症状词典中包括的症状进行匹配，将与上述原子症状词典中包括的任一症状相同的文本确定为原子症状实体。

在一些可行的实施方式中，上述处理模块74，用于将上述待识别症状实体和上述症状属性信息按照预设的信息排列组合方式进行组合，得到由上述待识别症状实体和上述症状属性信息排列组合所构成的症状信息序列；

在一些可行的实施方式中，上述获取模块71，还用于获取用于训练连续症状实体识别模型的症状实体样本数据，其中，上述症状实体样本数据中包括至少两种连续症状实体样本的实体标签，以及上述至少两种连续症状实体样本对应的医疗文本样本；

上述症状识别装置还包括：

构建模块75，还用于基于条件随机场算法和上述症状实体样本数据构建上述连续症状实体识别模型，以使上述连续症状实体识别模型具备基于任一医疗文本识别出上述任一医疗文本中包括的连续症状实体对应的实体预测标签的能力。

具体实现中，上述医疗文本的症状实体识别装置可通过其内置的各个模块和/单元执行如上1图至图6中各个步骤所提供的实现方式。例如，上述获取模块71可用于用于获取医疗文本等实现方式，具体可参见上述各个步骤所提供的实现方式，在此不再赘述。上述识别模块72可用于从上述医疗文本中识别出待识别症状实体等实现方式，具体可参见上述各个步骤所提供的实现方式，在此不再赘述。上述确定模块73，可用于基于上述待识别症状实体从上述医疗文本中确定出上述待识别症状实体的症状属性信息等实现方式，具体可参见上述各个步骤所提供的实现方式，在此不再赘述。上述处理模块74可用于将上述待识别症状实体和上述症状属性信息进行实体信息结构化处理，得到上述待识别症状实体的症状表示信息等实现方式，具体可参见上述各个步骤所提供的实现方式，在此不再赘述。上述预测单元7201可用于通过连续症状实体识别模型对上述医疗文本中包括的字进行实体标签预测，确定出上述医疗文本中包括的字的实体预测标签等实现方式，具体可参见上述各个步骤所提供的实现方式，在此不再赘述。上述匹配单元7202可用于将上述医疗文本中除上述连续症状实体外的文本与原子症状词典中包括的症状进行匹配，将与上述原子症状词典中包括的任一症状相同的文本确定为原子症状实体等实现方式，具体可参见上述各个步骤所提供的实现方式，在此不再赘述。上述构建模块75，可用于基于条件随机场算法和上述症状实体样本数据构建上述连续症状实体识别模型，以使上述连续症状实体识别模型具备基于任一医疗文本识别出上述任一医疗文本中包括的连续症状实体对应的实体预测标签的能力等实现方式，具体可参见上述各个步骤所提供的实现方式，在此不再赘述。

参见图8，图8是本发明实施例提供的终端设备的结构示意图。如图8所示，本实施例中的终端设备可以包括：一个或多个处理器81和存储器82。上述处理器81和存储器82通过总线83连接。存储器82用于存储计算机程序，该计算机程序包括程序指令，处理器81用于执行存储器82存储的程序指令，执行如下操作：

获取医疗文本；

在一些可行的实施方式中，上述处理器81用于：

在一些可行的实施方式中，上述处理器81还用于：

应当理解，在一些可行的实施方式中，上述处理器81可以是中央处理单元(central processing unit，CPU)，该处理器81还可以是其他通用处理器、数字信号处理器(digital signal processor，DSP)、专用集成电路(application specific integratedcircuit，ASIC)、现成可编程门阵列(field-programmable gate array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

该存储器82可以包括只读存储器和随机存取存储器，并向处理器81提供指令和数据。存储器82的一部分还可以包括非易失性随机存取存储器。例如，存储器82还可以存储设备类型的信息。

具体实现中，上述终端设备可通过其内置的各个功能模块执行如上述图1至图5中各个步骤所提供的实现方式，具体可参见上述各个步骤所提供的实现方式，在此不再赘述。

本发明实施例还提供一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，被处理器执行以实现图1至图6中各个步骤所提供的方法，具体可参见上述各个步骤所提供的实现方式，在此不再赘述。

上述计算机可读存储介质可以是前述任一实施例提供的任务处理装置或者上述终端设备的内部存储单元，例如电子设备的硬盘或内存。该计算机可读存储介质也可以是该电子设备的外部存储设备，例如该电子设备上配备的插接式硬盘，智能存储卡(smartmedia card,SMC)，安全数字(secure digital,SD)卡，闪存卡(flash card)等。上述计算机可读存储介质还可以包括磁碟、光盘、只读存储记忆体(read-only memory，ROM)或随机存储记忆体(randomaccess memory，RAM)等。进一步地，该计算机可读存储介质还可以既包括该电子设备的内部存储单元也包括外部存储设备。该计算机可读存储介质用于存储该计算机程序以及该电子设备所需的其他程序和数据。该计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。

本发明的权利要求书和说明书及附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、***、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置展示该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

以上所揭露的仅为本发明较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.一种医疗文本的症状实体识别方法，其特征在于，所述方法包括：

获取医疗文本；

从所述医疗文本中识别出待识别症状实体，所述待识别症状实体至少包括连续症状实体和原子症状实体，所述连续症状实体为由至少两个词素描述的症状实体，所述原子症状实体为由单一词素所描述的症状实体；

基于所述待识别症状实体从所述医疗文本中确定出所述待识别症状实体的症状属性信息；

将所述待识别症状实体和所述症状属性信息进行实体信息结构化处理，得到所述待识别症状实体的症状表示信息。

2.根据权利要求1所述的方法，其特征在于，所述基于所述待识别症状实体从所述医疗文本中确定出所述待识别症状实体的症状属性信息包括：

从所述医疗文本中确定出所述待识别症状实体的上下文文本；

从所述上下文文本中确定出所述待识别症状实体的症状属性信息；

其中，所述症状属性信息包括症状部位、症状程度、症状频率、症状颜色、症状性质、症状性状以及症状否定修饰中的至少一项，所述症状否定修饰用于描述症状实体是否存在。

3.根据权利要求1或2所述的方法，其特征在于，所述从所述医疗文本中识别出待识别症状实体包括：

基于连续症状实体识别模型从所述医疗文本中识别出连续症状实体；

基于原子症状词典从所述医疗文本中除所述连续症状实体外的文本中识别出原子症状实体；

将识别出的所述连续症状实体和所述原子症状实体确定为所述医疗文本中包括的待识别症状实体。

4.根据权利要求3所述的方法，其特征在于，所述基于连续症状实体识别模型从所述医疗文本中识别出连续症状实体包括：

通过连续症状实体识别模型对所述医疗文本中包括的字进行实体标签预测，确定出所述医疗文本中包括的字的实体预测标签；

从所述实体预测标签中确定出目标实体预测标签序列，并将所述目标实体预测标签序列对应的字序列确定为连续症状实体。

5.根据权利要求3所述的方法，其特征在于，所述基于原子症状词典从所述医疗文本中除所述连续症状实体外的文本中识别出原子症状实体包括：

将所述医疗文本中除所述连续症状实体外的文本与原子症状词典中包括的症状进行匹配，将与所述原子症状词典中包括的任一症状相同的文本确定为原子症状实体。

6.根据权利要求4或5所述的方法，其特征在于，所述将所述待识别症状实体和所述症状属性信息进行实体信息结构化处理，得到所述待识别症状实体的症状表示信息包括：

将所述待识别症状实体和所述症状属性信息按照预设的信息排列组合方式进行组合，得到由所述待识别症状实体和所述症状属性信息排列组合所构成的症状信息序列；

其中，所述症状信息序列包括用于描述所述连续症状实体的症状表示信息，和/或用于描述所述原子症状实体的症状表示信息。

7.根据权利要求3或4所述的方法，其特征在于，所述基于连续症状实体识别模型从所述医疗文本中识别出连续症状实体之前，所述方法还包括：

获取用于训练连续症状实体识别模型的症状实体样本数据，其中，所述症状实体样本数据中包括至少两种连续症状实体样本的实体标签，以及所述至少两种连续症状实体样本对应的医疗文本样本；

基于条件随机场算法和所述症状实体样本数据构建所述连续症状实体识别模型，以使所述连续症状实体识别模型具备基于任一医疗文本识别出所述任一医疗文本中包括的连续症状实体对应的实体预测标签的能力。

8.一种医疗文本的症状实体识别装置，其特征在于，所述症状实体识别装置包括：

获取模块，用于获取医疗文本；

识别模块，用于从所述医疗文本中识别出待识别症状实体，所述待识别症状实体至少包括连续症状实体和原子症状实体，所述连续症状实体为由至少两个词素描述的症状实体，所述原子症状实体为由单一词素所描述的症状实体；

确定模块，用于基于所述待识别症状实体从所述医疗文本中确定出所述待识别症状实体的症状属性信息；

处理模块，用于将所述待识别症状实体和所述症状属性信息进行实体信息结构化处理，得到所述待识别症状实体的症状表示信息。

9.一种终端设备，其特征在于，包括处理器和存储器，所述处理器和存储器相互连接；

所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，执行如权利要求1至7任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行以实现权利要求1至7任一项所述的方法。