CN112948471A

CN112948471A - 一种临床医疗文本后结构化处理平台和方法

Info

Publication number: CN112948471A
Application number: CN201911171327.4A
Authority: CN
Inventors: 刘翔
Original assignee: Guangzhou Zhihuiyun Technology Co ltd
Current assignee: Guangzhou Zhihuiyun Technology Co ltd
Priority date: 2019-11-26
Filing date: 2019-11-26
Publication date: 2021-06-11

Abstract

本发明实施例公开了一种临床医疗文本后结构化处理平台和方法，具体涉及中文自然语言处理技术以及机器学习领域，包括访问端、数据导入端、数据处理端和后台服务器；访问端用于访问对应的后结构化网址，进入操作界面；数据导入端用于导入要结构化的数据；数据处理端用于进行结构化操作以及语义结果的查看、导出和保存；后台服务器利用中文自然语言处理和机器学习技术，实现从原始的临床医疗文本中自动抽取结构化的数据。本发明利用中文自然语言处理和机器学习技术，结合临床医学本体概念，实现了从原始的临床医疗文本中自动抽取结构化的数据，解决了目前临床科研获取数据难，效率低，覆盖度小、不准确等问题，提升了临床科研数据的利用率。

Description

一种临床医疗文本后结构化处理平台和方法

技术领域

本发明实施例涉及中文自然语言处理技术以及机器学***台和方法。

背景技术

高品质的临床医学科学研究离不开高品质临床数据的支撑，然而这就要求临床医学科研工作者花费大量时间整理患者数据，通过耗时、繁琐的手动操作将有效数据从错综复杂的医疗业务***中抽取出来，这种科研方法对本来就非常忙碌的医疗工作者而言效率极低。

现有技术存在以下不足：目前临床科研获取数据难，效率低，覆盖度小、不准确，临床科研数据的利用率较低。

发明内容

为此，本发明实施例提供一种临床医疗文本后结构化处理平台和方法，通过利用中文自然语言处理和机器学习技术，结合临床医学本体概念，实现了从原始的临床医疗文本中自动抽取结构化的数据，解决了目前临床科研获取数据难，效率低，覆盖度小、不准确等问题，提升了临床科研数据的利用率。

为了实现上述目的，本发明实施例提供如下技术方案：一种临床医疗文本后结构化处理平台，包括访问端、数据导入端、数据处理端和后台服务器；

访问端用于访问对应的后结构化网址，进入操作界面；

数据导入端用于导入要结构化的数据；

数据处理端用于进行结构化操作以及语义结果的查看、导出和保存；

后台服务器利用中文自然语言处理和机器学习技术，实现从原始的临床医疗文本中自动抽取结构化的数据。

本发明还提供了一种临床医疗文本后结构化处理方法，具体处理步骤如下：

S1、中文分词：采用NLPIR-ICTCLAS***基础上配合自定义词库将电子病例纯文本进行分词，采用通用简体中文屏蔽词表，得到带标注实体；

S2、实体自动标注，采用HMM隐马尔可夫模型实现实体自动标注；具体标注步骤如下：

S2.1、建立语料库；

S2.2、计算初始状态概率分布：初始状态即为第一次选择的状态的概率，选择的是语料库中每个句子的第一个字的状态，统计该状态的频率，计算出该状态的概率；

S2.3、计算转移概率矩阵：转移概率矩阵是一个SBEMSBEM的44的矩阵，将不可能转移的信息的概率的log值设置为-3.14e+100，其他的按照词前后的状态序列统计，统计前后之间的关系，这里已知假设，当前状态仅与前一状态有关，与更前面的状态无关；

S2.4、计算发射概率矩阵：发射概率矩阵是在某状态下，出现某个观测值的概率，在某状态下，所有该状态下观测值的概率之和为1；

S2.5、使用Viterbi算法：根据初始状态概率分布、转移概率矩阵、发射概率矩阵以及观测值，得出一个最有可能的状态序列，按照该状态序列，将文本划分出来；

S3、语义树建模与生成：采用tensorflow框架实现词向量的生成，并将词向量作为语义树模型的输入，语义树建模采用LSTM模型为基础，实现文本后结构化处理；

S4、后结构化抽取规则：后结构化抽取采用规则引擎进行匹配，最终输出 json格式的结构化数据，规则由最终需求确定，每个任务需要在原有的基础规则模板上进行定制。

进一步地，步骤S1所述的自定义词库通过专业人员标注的训练集上扩展学习得到。

进一步地，步骤S2中所述的HMM隐马尔可夫模型采用HMM的典型模型，具体是一个五元组，包括StatusSet：状态值集合、ObservedSet：观察值集合、TransProbMatrix：转移概率矩阵、EmitProbMatrix：发射概率矩阵、InitStatus：初始状态分布；五元组之间的关系是通过Viterbi算法串接起来，ObservedSet 序列值是Viterbi的输入，而StatusSet序列值是Viterbi的输出，输入和输出之间Viterbi算法还需要借助三个模型参数，分别是InitStatus、TransProbMatrix 和EmitProbMatrix；五元组包括：

1)、StatusSet：状态值集合，为(B,M,E,S)： {B:begin,M:middle,E:end,S:single}，分别代表每个状态代表的是该字在词语中的位置；其中，B代表该字是词语中的起始字，M代表是词语中的中间字，E 代表是词语中的结束字，S则代表是单字成词

2)、ObservedSet：观察值集合，为所有汉字包括标点符号所组成的集合；状态值也就是要求的值，在HMM模型中文分词中，的输入是一个句子，也就是观察值序列，输出是这个句子中每个字的状态值；

3)、TransProbMatrix：转移概率矩阵，为有限历史性假设，转移概率是马尔科夫链；Status(i)只和Status(i-1)相关，这个假设能大大简化问题，所以，它其实就是一个4x4(4就是状态值集合的大小)的二维矩阵；矩阵的横坐标和纵坐标顺序是BEMSxBEMS。(数值是概率求对数后的值)；

4)、EmitProbMatrix：发射概率矩阵，为观察值独立性假设；P(Observed[i],Status[j])＝P(Status[j])*P(Observed[i]|Status[j])，其中， P(Observed[i]|Status[j])这个值就是从EmitProbMatrix中获取；

5)、InitStatus：初始状态分布，数值是对概率值取【对数】之后的结果(可以让概率【相乘】的计算变成对数【相加】)；其中-3.14e+100作为负无穷，也就是对应的概率值是0；也就是句子的第一个字属于{B,E,M,S}这四种状态的概率。

进一步地，步骤S2中所述的HMM隐马尔可夫模型的三个基本假设如下：

有限历史性假设： P(Status[i]|Status[i-1],Status[i-2],…Status[1])＝P(Status[i]|Status[i-1])；

齐次性假设(状态和当前时刻无关)：P(Status[i]|Status[i-1])＝P(Status[j]|Status[j-1])；

观察值独立性假设(观察值只取决于当前状态值)： P(Observed[i]|Status[i],Status[i-1],…,Status[1])＝P(Observed[i]|Status[i])。

进一步地，所述步骤S3中，词向量的构建具体是采用word2vec原理的 CBOW模型构建。

进一步地，所述步骤S3中，一个语义树包含该段文本的语义所有信息，其中的每个概念按照树形结构组合而成。

进一步地，所述步骤S3中，LSTM通过输入门、遗忘门和输出门等三个门来实现信息的保护和控制。

本发明实施例具有如下优点：

1、本发明利用中文自然语言处理和机器学习技术，结合临床医学本体概念，实现了从原始的临床医疗文本中自动抽取结构化的数据，本发明主要为临床科研一体化提供信息处理工具，解决了目前临床科研获取数据难，效率低，覆盖度小、不准确等问题，提升了临床科研数据的利用率；

2、本发明处理方法能够加快临床科研数据检索速度，使得临床科研人员能够更快速地检索到入组病人；提高临床科研数据检索精度，让科研人员能够从更多维度定位入组病人；扩大临床科研数据覆盖范围，让非结构化数据能够结构化，从而能够对病人的病程变化做更全面的数据分析研究；丰富临床科研大数据来源，包括病程记录、检查报告中的内容，作为原有结构化数据的补充和完善。

附图说明

为了更清楚地说明本发明的实施方式或现有技术中的技术方案，下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地，下面描述中的附图仅仅是示例性的，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图引伸获得其它的实施附图。

本说明书所绘示的结构、比例、大小等，均仅用以配合说明书所揭示的内容，以供熟悉此技术的人士了解与阅读，并非用以限定本发明可实施的限定条件，故不具技术上的实质意义，任何结构的修饰、比例关系的改变或大小的调整，在不影响本发明所能产生的功效及所能达成的目的下，均应仍落在本发明所揭示的技术内容得能涵盖的范围内。

图1为本发明实施例1提供的临床医疗文本后结构化处理流程图；

图2为本发明实施例1提供的CBOW模型图；

图3为本发明实施例1提供的语义树结构示意图；

图4为本发明实施例1提供的一个神经网络层的LSTM网络图；

图5为本发明实施例1提供的四个神经网络层的LSTM网络图；

图6为本发明实施例1提供的LSTM网络中线条图标示意图；

图7为本发明实施例1提供的LSTM网络中细胞的结构示意图；

图8为本发明实施例1提供的门选择信息通过示意图；

图9为本发明实施例1提供的遗忘门示意图；

图10为本发明实施例1提供的输入门示意图；

图11为本发明实施例1提供的输出门示意图。

具体实施方式

以下由特定的具体实施例说明本发明的实施方式，熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

该实施例的临床医疗文本后结构化处理平台，包括访问端、数据导入端、数据处理端和后台服务器；

访问端用于访问对应的后结构化网址，进入操作界面；

数据导入端用于导入要结构化的数据；

实施场景具体为：本发明在具体操作时，在访问端先访问对应的后结构化网址，进入操作界面；在数据导入端导入要结构化的数据；在数据处理端可以进行结构化操作、查看语义结果、导出结果、保存结果。

在导入数据时，格式要求如下：

1：字段名和对应的字段值要用英文引号引起来。

例如：”患者信息”:”性别：女工作单位：未提供”

其中字段名为：患者信息对应的值为：性别：女工作单位：未提供。

2：多个字段名和值要用英文的逗号,分隔开

例如：主诉:"间断尿道滴血2年余。",

个人史:"无血吸虫疫水接触史。无吸烟嗜好。无饮酒嗜好。无吸毒史。无冶游史。婚姻史：已婚26岁结婚，配偶。－身体：健康。已育，有1儿"

3、文中不能出现中文引号将对应值引起来的情况

例如：主诉:"间断尿道滴血2年余。"不能出现以下情况：

主诉:"间断尿道滴“血”2年余。",

4、文中其他中文括号，将某个词语分开括起来也不行

例如：主诉:"间断尿道滴血2年余。"不能出现以下情况：

主诉:"间断尿道滴【血】2年余。"

参照说明书附图1，本发明还提供了一种临床医疗文本后结构化处理方法，具体处理步骤如下：

S1、中文分词：采用NLPIR-ICTCLAS***基础上配合自定义词库将电子病例纯文本进行分词，采用通用简体中文屏蔽词表，得到带标注实体；其中自定义词库通过专业人员标注的训练集上扩展学习得到；

S2、实体自动标注，采用HMM隐马尔可夫模型实现实体自动标注；

HMM隐马尔可夫模型采用HMM的典型模型，具体是一个五元组，包括 StatusSet：状态值集合、ObservedSet：观察值集合、TransProbMatrix：转移概率矩阵、EmitProbMatrix：发射概率矩阵、InitStatus：初始状态分布；五元组之间的关系是通过Viterbi算法串接起来，ObservedSet序列值是Viterbi的输入，而StatusSet序列值是Viterbi的输出，输入和输出之间Viterbi算法还需要借助三个模型参数，分别是InitStatus、TransProbMatrix和EmitProbMatrix；五元组包括：

4)、EmitProbMatrix：发射概率矩阵，为观察值独立性假设； P(Observed[i],Status[j])＝P(Status[j])*P(Observed[i]|Status[j])，其中， P(Observed[i]|Status[j])这个值就是从EmitProbMatrix中获取；

5)、InitStatus：初始状态分布，数值是对概率值取【对数】之后的结果(可以让概率【相乘】的计算变成对数【相加】)；其中-3.14e+100作为负无穷，也就是对应的概率值是0；也就是句子的第一个字属于{B,E,M,S}这四种状态的概率；

步骤S2中所述的HMM隐马尔可夫模型的三个基本假设如下：

齐次性假设(状态和当前时刻无关)： P(Status[i]|Status[i-1])＝P(Status[j]|Status[j-1])；

观察值独立性假设(观察值只取决于当前状态值)：P(Observed[i]|Status[i],Status[i-1],…,Status[1])＝P(Observed[i]|Status[i])。

具体标注步骤如下：

S2.1、建立语料库；首先，需要一个完整的语料信息，该语料库需要特征：

1、覆盖范围广，理论上需要覆盖你所有可能会被分词的文字，否则发射矩阵为出现极端情况，无法分词；

2、需要文本标注正确，如一些专有医学名词，需要专人核验。

S2.3、计算转移概率矩阵：转移概率矩阵是一个SBEMSBEM的44的矩阵，但是其中有一些是不可能转移的信息，如：B->S，E->M等等，将这些情况的概率的log值设置为-3.14e+100，其他的按照词前后的状态序列统计，统计前后之间的关系，这里已知假设，当前状态仅与前一状态有关，与更前面的状态无关；

S3、语义树建模与生成：

S3.1、采用tensorflow框架实现词向量的生成；其中，词向量的构建具体是采用word2vec原理的CBOW模型构建；CBOW (ContinuousBag-of-WordModel)又称连续词袋模型，是一个三层神经网络，如图2所示，该模型的特点是输入已知上下文，输出对当前单词的预测；

输入层：上下文单词的onehot。(假设单词向量空间dim为V，上下文单词个数为C)；

所有onehot分别乘以共享的输入权重矩阵W(V*N矩阵，N为自己设定的数，初始化权重矩阵W)；

所得的向量(注意onehot向量乘以矩阵的结果)相加求平均作为隐层向量,size为1*N.

乘以输出权重矩阵W’{N*V}；

得到向量{1*V}激活函数处理得到V-dim概率分布，概率最大的index 所指示的单词为预测出的中间词；

与truelabel的onehot做比较，误差越小越好。lossfunction为交叉熵代价函数；

S3.2、并将词向量作为语义树模型的输入；一个语义树包含该段文本的语义所有信息，其中的每个概念按照树形结构组合而成；

例子如下：

原文“患者腹痛三天无呕吐，伴发热。”其语义树见图3；

S3.3、语义树建模采用LSTM模型为基础，实现文本后结构化处理；

longshorttermmemory，即LSTM，是为了解决长期以来问题而专门设计出来的，所有的RNN都具有一种重复神经网络模块的链式形式。在标准RNN 中，这个重复的结构模块只有一个非常简单的结构，例如一个tanh层；见图4 所示；

LSTM同样是这样的结构，但是重复的模块拥有一个不同的结构。不同于单一神经网络层，这里是有四个，以一种非常特殊的方式进行交互，见图5、 6所示；

在图6中，每一条黑线传输着一整个向量，从一个节点的输出到其他节点的输入。圆圈代表pointwise的操作，诸如向量的和，而矩形的矩阵就是学习到的神经网络层，合在一起的线表示向量的连接，分开的线表示内容被复制，然后分发到不同的位置；

LSTM核心思想

LSTM的关键在于细胞的状态整个(图7表示的是一个cell)，和穿过细胞的那条水平线；

细胞状态类似于传送带。直接在整个链上运行，只有一些少量的线***互。信息在上面流传保持不变会很容易。

若只有上面的那条水平线是没办法实现添加或者删除信息的。而是通过一种叫做门(gates)的结构来实现的。

门可以实现选择性地让信息通过，主要是通过一个sigmoid的神经层和一个逐点相乘的操作来实现的，见图8。

sigmoid层输出(是一个向量)的每个元素都是一个在0和1之间的实数，表示让对应信息通过的权重(或者占比)。比如，0表示“不让任何信息通过”， 1表示“让所有信息通过”。

LSTM通过三个这样的本结构来实现信息的保护和控制。这三个门分别输入门、遗忘门和输出门。

遗忘门

在LSTM中的第一步是决定会从细胞状态中丢弃什么信息。这个决定通过一个称为忘记门层完成。

f_t＝σ(W_f·[h_t-1,x_t]+b_f)

该门会读取h_t-1和x_t，输出一个在0到1之间的数值给每个在细胞状态C_t-1中的数字。1表示“完全保留”，0表示“完全舍弃”。

在这个问题中，细胞状态可能包含当前主语的性别，因此正确的代词可以被选择出来。当看到新的主语，希望忘记旧的主语，具体见图9；

其中h_t-1表示的是上一个cell的输出，x_t表示的是当前细胞的输入。σ表示 sigmod函数。

输入门

下一步是决定让多少新的信息加入到cell状态中来。实现这个需要包括两个步骤：首先，一个叫做“inputgatelayer”的sigmoid层决定哪些信息需要更新；一个tanh层生成一个向量，也就是备选的用来更新的内容，C_t。

在下一步，把这两部分联合起来，对cell的状态进行一个更新。现在是更新旧细胞状态的时间了，C_t-1更新为C_t。前面的步骤已经决定了将会做什么，现在就是实际去完成。

把旧状态与f_t相乘，丢弃掉确定需要丢弃的信息。接着加上it*C-t。这就是新的候选值，根据决定更新每个状态的程度进行变化。

在语言模型的例子中，这就是实际根据前面确定的目标，丢弃旧代词的性别信息并添加新的信息的地方，具体见图10。

输出门

最终，需要确定输出什么值。这个输出将会基于的细胞状态，但是也是一个过滤后的版本。首先，运行一个sigmoid层来确定细胞状态的哪个部分将输出出去。接着，把细胞状态通过tanh进行处理(得到一个在-1到1之间的值) 并将它和sigmoid门的输出相乘，最终仅仅会输出确定输出的那部分。

o_t＝σ(W_o·[h_t-1,x_t]+b_o)

h_t＝o_t*tanh(C_t)

在语言模型的例子中，因为他就看到了一个代词，可能需要输出与一个动词相关的信息。例如，可能输出是否代词是单数还是负数，这样如果是动词的话，也知道动词需要进行的词形变化，具体见图11；

虽然，上文中已经用一般性说明及具体实施例对本发明作了详尽的描述，但在本发明基础上，可以对之作一些修改或改进，这对本领域技术人员而言是显而易见的。因此，在不偏离本发明精神的基础上所做的这些修改或改进，均属于本发明要求保护的范围。

Claims

1.一种临床医疗文本后结构化处理平台，其特征在于：包括访问端、数据导入端、数据处理端和后台服务器；

访问端用于访问对应的后结构化网址，进入操作界面；

数据导入端用于导入要结构化的数据；

2.一种临床医疗文本后结构化处理方法，其特征在于：具体处理步骤如下：

S2.1、建立语料库；

S2.3、计算转移概率矩阵：转移概率矩阵是一个SBEMSBEM的44的矩阵，将不可能转移的信息的概率的log值设置为-3.14e+100，其他的按照词前后的状态序列统计，统计前后之间的关系；

S4、后结构化抽取规则：后结构化抽取采用规则引擎进行匹配，最终输出json格式的结构化数据，规则由最终需求确定，每个任务需要在原有的基础规则模板上进行定制。

3.根据权利要求2所述的一种临床医疗文本后结构化处理方法，其特征在于：步骤S1所述的自定义词库通过专业人员标注的训练集上扩展学习得到。

4.根据权利要求2所述的一种临床医疗文本后结构化处理方法，其特征在于：步骤S2中所述的HMM隐马尔可夫模型采用HMM的典型模型，具体是一个五元组，包括StatusSet：状态值集合、ObservedSet：观察值集合、TransProbMatrix：转移概率矩阵、EmitProbMatrix：发射概率矩阵、InitStatus：初始状态分布；五元组之间的关系是通过Viterbi算法串接起来，ObservedSet序列值是Viterbi的输入，而StatusSet序列值是Viterbi的输出，输入和输出之间Viterbi算法还需要借助三个模型参数，分别是InitStatus、TransProbMatrix和EmitProbMatrix；五元组包括：

1)、StatusSet：状态值集合，为(B,M,E,S)：{B:begin,M:middle,E:end,S:single}，分别代表每个状态代表的是该字在词语中的位置；其中，B代表该字是词语中的起始字，M代表是词语中的中间字，E代表是词语中的结束字，S则代表是单字成词

4)、EmitProbMatrix：发射概率矩阵，为观察值独立性假设；P(Observed[i],Status[j])＝P(Status[j])*P(Observed[i]|Status[j])，其中，P(Observed[i]|Status[j])这个值就是从EmitProbMatrix中获取；

5.根据权利要求2所述的一种临床医疗文本后结构化处理方法，其特征在于：步骤S2中所述的HMM隐马尔可夫模型的三个基本假设如下：

有限历史性假设：P(Status[i]|Status[i-1],Status[i-2],…Status[1])＝P(Status[i]|Status[i-1])；

6.根据权利要求2所述的一种临床医疗文本后结构化处理方法，其特征在于：所述步骤S3中，词向量的构建具体是采用word2vec原理的CBOW模型构建。

7.根据权利要求2所述的一种临床医疗文本后结构化处理方法，其特征在于：所述步骤S3中，一个语义树包含该段文本的语义所有信息，其中的每个概念按照树形结构组合而成。

8.根据权利要求2所述的一种临床医疗文本后结构化处理方法，其特征在于：所述步骤S3中，LSTM通过输入门、遗忘门和输出门等三个门来实现信息的保护和控制。