CN111611780A

CN111611780A - 基于深度学习的消化内镜报告结构化方法与***

Info

Publication number: CN111611780A
Application number: CN202010413026.4A
Authority: CN
Inventors: 崔立真; 柏欣雨; 鹿旭东; 郭伟
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2020-05-15
Filing date: 2020-05-15
Publication date: 2020-09-01

Abstract

本公开提供了一种基于深度学习的消化内镜报告结构化方法与***，获取消化内镜报告数据，并对数据进行标注；对获取到的消化内镜报告信息进行词向量和文档矩阵表示；对构造的词表示向量和文档表示矩阵使用双向长短期记忆模型结合文档上下文进行建模；对基于上下文编码的词向量使用条件随机场识别和标注需要进行结构化的报告信息；将识别和抽取的结果与预先构建的结构化模板进行匹配，所述结构化模板基于历史数据中不同疾病信息和病变部位信息，构建键值对关系而得到，依照匹配的模板得到最终的结构化结果。本公开能够实现消化内镜报告的结构化。

Description

基于深度学习的消化内镜报告结构化方法与***

技术领域

本公开属于自然语言处理领域，涉及一种基于深度学习的消化内镜报告结构化方法与***。

背景技术

本部分的陈述仅仅是提供了与本公开相关的背景技术信息，不必然构成在先技术。

目前，医院的信息化正处于如火如荼、蒸蒸日上的建设过程当中，它不但改变了很多医院的传统管理模式，而且是现代化医院发展的必然趋势。因此，如何将医院信息化存储的电子医疗信息进行有效的利用，成为了研究者们关注的热点问题，也有很多电子病历等医学信息结构化的***和方法被提出和使用。

然而，虽然同为医学文本，不同的医学文本由于关注的重点内容不同，文本内需要提取和结构化的信息也有较大差异，很难有一种普适性的结构化方法。而消化内镜报告作为一种综合性的报告，其中既包含患者的病情信息，又包含详细的病灶部位和情况的描述，与其他的医学报告和电子医疗信息等差距较大，现有的结构化方法均难以应用。

发明内容

本公开为了解决上述问题，提出了一种基于深度学习的消化内镜报告结构化方法与***，本公开针对消化内镜报告特点构建了消化内镜报告模板，并依照构建的模板使用实体识别领域的方法对非结构化消化内镜报告的数据进行标注和抽取，进而实现消化内镜报告的结构化。

根据一些实施例，本公开采用如下技术方案：

一种基于深度学习的消化内镜报告结构化方法，包括以下步骤：

获取消化内镜报告数据，并对数据进行标注；

对获取到的消化内镜报告信息进行词向量和文档矩阵表示；

对构造的词表示向量和文档表示矩阵使用双向长短期记忆模型结合文档上下文进行建模；

对基于上下文编码的词向量使用条件随机场识别和标注需要进行结构化的报告信息；

将识别和抽取的结果与预先构建的结构化模板进行匹配，所述结构化模板基于历史数据中不同疾病信息和病变部位信息，构建键值对关系而得到，依照匹配的模板得到最终的结构化结果。

作为可选择的实施方式，针对消化内镜报告文本描述的内容差异构建键值对关系，并根据疾病和病变部位等构建成不同的模板，每个模板分别建数据表存储。

作为进一步的限定，所述结构化模板指的是一篇消化内镜报告包含的固定结构和对应的文字描述内容。

由于疾病本身的差异，不同疾病的内镜报告需要使用不同的报告模板描述。例如，可以根据现有的半结构化内镜报告数据的行文习惯和消化专科医生提供的建议，对胃早癌、进展期胃癌、胃息肉、慢性萎缩性胃炎、慢性非萎缩性胃炎和胃溃疡等消化***常见疾病构建了模板。

每个模板中包括病变部位、病变数量、病变分型、病变大小、黏膜情况、边界情况等基本结构。每项基本结构均有规定好的文字描述，如病变部位这项内容可用贲门、胃底、胃体、胃角、胃窦等文本值描述。

作为可选择的实施方式，依据所述结构化模板对提取的消化内镜数据进行标注，标注出需要提取的内镜报告信息。

作为可选择的实施方式，标注的过程包括：

从数据库中获得消化内镜报告数据，提取出数据中半结构化和非结构化的部分；

对报告进行关键词筛选，对每个类型的疾病对应的模板都进行设定数量以上的标注。

作为可选择的实施方式，对获取到的消化内镜报告信息进行词向量和文档矩阵表示，具体为：

使用分词工具，并添加预设停用词库和专用词库分词；

使用分词后的内镜报告文本数据训练word2vec模型，训练好的word2vec模型用于将分词后的消化内镜报告文本数据转化为文本向量从而进行词的嵌入计算出消化内镜报告文本中每个词的词嵌入向量；

对于每个消化内镜报告文档，其中的每个词都利用向量表示，则每个文档含多个词的文档将以矩阵表示，完成由原始文本的输入到实值矩阵的表示。

作为可选择的实施方式，对构造的词表示向量和文档表示矩阵使用双向长短期记忆模型结合文档上下文进行建模，具体过程包括：

由输入表示层得到的句子表示矩阵经过前向长短期记忆模型后，每个字符所在的位置都得到融合上文信息的隐藏层的表示向量

经过后向长短期记忆模型后，每个字符位置都得到融合下文信息的隐藏层的表示向量

最后将上文和下文隐藏层向量进行拼接，最终每个字符都得到融合上下文的表示向量h_t。

作为可选择的实施方式，对基于报告文档上下文编码的词向量表示，使用条件随机场识别和标注需要结构化的词信息时，对基于上下文编码的词向量依据文档中的顺序组成序列，使用条件随机场从所有可能的标签序列中选取概率最高的序列中的词标注结果作为输出。

作为可选择的实施方式，依据标注结果的词语和标签的关系与模板中的键值关系进行匹配，取匹配度最高的模板作为标注文档的模板，依照词语和标签的关系自动填写模板中的值，得到最终的结构化报告。

一种基于深度学习的消化内镜报告结构化***，包括：

标注模块，被配置为获取消化内镜报告数据，并对数据进行标注；

词表示模块，被配置为对获取到的消化内镜报告信息进行词向量和文档矩阵表示；

双向长短期记忆模型构建模块，被配置为对构造的词表示向量和文档表示矩阵使用双向长短期记忆模型结合文档上下文进行建模；

结构化模块，被配置为对基于上下文编码的词向量使用条件随机场识别和标注需要进行结构化的报告信息，将识别和抽取的结果与预先构建的结构化模板进行匹配，所述结构化模板基于历史数据中不同疾病信息和病变部位信息，构建键值对关系而得到，依照匹配的模板得到最终的结构化结果。

一种计算机可读存储介质，其中存储有多条指令，所述指令适于由终端设备的处理器加载并执行所述的一种基于深度学习的消化内镜报告结构化方法。

一种终端设备，包括处理器和计算机可读存储介质，处理器用于实现各指令；计算机可读存储介质用于存储多条指令，所述指令适于由处理器加载并执行所述的一种基于深度学习的消化内镜报告结构化方法。

与现有技术相比，本公开的有益效果为：

(1)本公开实现了将现有非结构化消化内镜报告转为结构化报告，可以更高效地从消化内镜报告中提取出有价值的医学信息用于科研研究；

(2)本公开的消化内镜报告结构化方法是对原始文本信息的提取，不会对现有的流程和书写方式造成影响，可以让医生在现有的习惯下辅助医生的工作。

附图说明

构成本公开的一部分的说明书附图用来提供对本公开的进一步理解，本公开的示意性实施例及其说明用于解释本公开，并不构成对本公开的不当限定。

图1为实施例一中基于深度学习的消化内镜报告结构化方法和***的流程示意图；

图2是实施例一中双向LSTM+条件随机场CRF模型示意图；

图3是实施例一中LSTM模型结构图。

具体实施方式：

下面结合附图与实施例对本公开作进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本公开提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本公开的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

实施例一：

一种基于深度学习的消化内镜报告结构化方法，包括以下步骤:

(1)构建消化内镜报告结构化模板；

(2)从医院消化内镜数据库中调取现有非结构化的内镜报告数据，并依照模板内容对内镜报告数据进行标注；

(3)对获取的内镜报告数据进行词向量和文档矩阵表示；

(4)对步骤(3)获取的内镜报告文本词表示向量和文档表示矩阵，使用双向长短期记忆网络模型对上下文进行建模。

(5)对步骤(4)获取的每个词的上下文向量表示，使用条件随机场识别和标注需要结构化的词信息。

(6)将标注的结果与结构化模板进行匹配，依照匹配的模板将标注结果抽取为结构化的值信息，得到最终的结构化报告。

下面结合图1中的方法流程图对上述步骤过程进行详细描述，具体包括：

步骤一：构建消化内镜报告结构化模板，并对模板进行存储。具体包括：

a模板构建

结构化模板指的是一篇消化内镜报告应该包含的固定结构和对应的文字描述内容。由于疾病本身的差异，不同疾病的内镜报告需要使用不同的报告模板描述。

例如，根据现有的半结构化内镜报告数据的行文习惯和消化专科医生提供的建议，对胃早癌、进展期胃癌、胃息肉、慢性萎缩性胃炎、慢性非萎缩性胃炎和胃溃疡等消化***常见疾病构建了模板。每个模板中包括病变部位、病变数量、病变分型、病变大小、黏膜情况、边界情况等基本结构。每项基本结构均有规定好的文字描述，如病变部位这项内容可用贲门、胃底、胃体、胃角、胃窦等文本值描述。

b模板存储

为了便于数据管理，采用与原始半结构化消化内镜报告数据相同的数据库SQLServer2008数据库，将模板构建成不同的数据表与原始半结构化消化内镜数据存储在同一个数据库中。数据表的列名为模板中各项基本结构的名称，数据表中存储的值为各项基本结构对应的文字描述。

步骤二：获取消化内镜报告数据，并对数据进行标注

a获取消化内镜报告数据

从数据库中获得现有的消化内镜报告数据，提取出数据中半结构化的部分进行下一步的训练和标注。

b标注消化内镜报告

依据模板对提取的消化内镜数据进行标注，标注出需要提取的内镜报告信息。由于每种模板疾病的发病率有差异，使用消化内镜专科医生提供的关键词对标注的报告进行筛选，保证每个类型的疾病对应的模板都进行一百条以上的标注，使得每个模板都能得到充分标注进行训练。

步骤三：对获取到的消化内镜信息进行向量和矩阵表示

对于收集到的文本数据，采用Jieba分词进行语句词语的切分。Jieba分词是Python的一款中文分词工具，对于一长段文字，其分词原理大体可分为三步：首先用正则表达式将中文段落粗略的分成一个个句子；然后将每个句子构造成有向无环图(DAG),之后寻找最佳切分方案；最后对于连续的单字，采用隐马尔可夫模型(HMM模型)将其再次划分。例如，对于文本“胃体下部大弯侧可见1处IIc型病变”，采用默认分词模式，切分为“胃”“体”“下部”“大”“弯”“侧”“可见”“1”“处”“IIc”“型”“病变”。

进一步的，使用预设停用词库和专用词库，来提高分词效果。针对消化内镜报告文本，采用消化内镜专科医生提供的建议，用报告中的常用值构建词库的，提高分词准确性。例如，对于文本“胃体下部大弯侧可见1处IIc型病变”，采用停用词库和专用词库分词，切分为“胃体”“下部”“大弯侧”“可见”“1”“处”“IIc”“型”“病变”。

进一步的，分词后的文本数据进行词嵌入(Word Embedding)过程处理，把一个维数为所有词的数量的高维空间嵌入到一个维数低得多的连续向量空间中，每个单词或词组被映射为实数域上的向量，叫做词向量，词向量具有良好的语义特性，是表示词语特征的常用方式，词向量每一维的值代表一个具有一定的语义和语法上解释的特征。在此步骤中，首先使用分词后的消化内镜报告文本数据训练word2vec模型，训练好的word2vec模型用于将分词后的消化内镜报告文本数据转化为文本向量，从而进行词的嵌入(Word Embedding)，计算出消化内镜报告文本中每个词的词嵌入向量x_t；

进一步的，对于每个消化内镜报告文档，其中的每个词都得到了低维的向量表示x_t，则一个含m个词的文档以矩阵表示为X＝(x₁,…,x_t,…,x_m)，完成由原始文本的输入到实值矩阵的表示。

步骤四：对构造的词表示向量和文档表示矩阵，使用双向长短期记忆模型结合文档上下文对词语进行建模。

长短期记忆模型(long-short term memory)是一种特殊的RNN模型，通过引入门机制来控制信息传递的方式，从而使得网络能够建立起长距离的时序关系。LSTM适合建模序列性质的数据，本实施例中的消化内镜报告文本的一个个词向量表示可以认为是不严格的序列数据。

进一步的，由于本实例中的消化内镜报告数据同时受其上下文的影响，为了同时考虑上下文特征，本实例基于双向LSTM来建模从上文到下文和从下文至上文的信息。

如图3所示，为LSTM模型单个神经元的结构图，其包含输入门，遗忘门和输出门三部分。其工作原理为：

(1)遗忘门：选择忘记过去某些信息(通过sigmoid(x,h)控制门忘记一部分cellstate，其中Sigmoid激活函数σ常被用作神经网络的阈值函数，将变量映射到0-1之间)，遗忘门计算公式为：

f_t＝σ(W_f·[h_t-1,x_t]+b_f) (1)

(2)输入门：记忆现在的某些信息(现在的信息通过tanh(x,h)激活，再通过sigmoid(x,h)控制门忘记一部分，其中tanh函数是双曲函数中的一个函数)，则输入门部分计算公式为：

i_t＝σ(W_i·[h_t-1,x_t]+b_i) (2)

(3)将过去记忆和现在的记忆合并：

(4)输出门计算公式为：

o_t＝σ(W_o·[h_t-1,x_t]+b_o) (5)

h_t＝o_t*tanh(C_t) (6)

以上为LSTM模型工作原理，W_f，W_i，W_o分别为遗忘门、输入门和输出门的权重矩阵，b_f、b_i、b_C分别为遗忘门、输入门和输出门的偏移量，以上均为待训练的参数，h_i为隐藏层，x_t为t时刻的消化内镜报告词向量输入，h_t为输出，在本实施例中为每个词融合上文信息或下文信息的表示向量。

进一步的，由输入表示层得到的句子表示矩阵X经过前向LSTM后，每个字符所在的位置都得到融合上文信息的隐藏层的表示向量

经过后向LSTM后，每个字符位置都得到融合下文信息的隐藏层的表示向量

最后将上文和下文隐藏层向量进行拼接，即

最终每个字符都得到融合上下文的表示向量h_t。

步骤五：对基于报告文档上下文编码的词向量表示，使用条件随机场识别和标注需要结构化的词信息。

文档中每一个词经过上下文编码后得到对应的向量表示，经过解码可以预测其对应的标签。最简单的解码层就是线性层加Softmax，但这种方式忽略了序列相邻标签之间的强依赖关系，因此需要额外加条件随机场(CRF)来帮助解码时找到最佳的标签路径。

本步骤本质上是学习一个标签之间的概率转移矩阵，假设由上下文编码层得到的文档表示再经过线性层操作后得到输出矩阵P∈R^7×k,其中7是文档的长度，k表示标签的总数量，矩阵中元素P_i,j表示文档中第i个字符被预测为第j个标签的分数。我们引入需要学习的标签转移概率矩阵T，此矩阵中元素T_i,j代表从第i个标签转移到第j个标签的分数，则结构化识别任务可进一步形式化成，给定输入矩阵X的情况，模型预测序列标签y＝(y₁,y₂,…y₇),因此得到预测某一标签路径的分数

其中转移矩阵T∈R^(k+2)×(k+2)是模型需要学习的参数，原有标签的总数量是k：我们增加特殊标签来表示报告文档的开始和结束，因此转移矩阵变成大小为k+2的方阵。

进一步的，在模型训练阶段，公式(7)中我们得到预测一种可能的标签路径的分数，通过Softmax函数对所有标签路径分数进行归一化，得到预测该标签路径的概率值如公式(8)所示，再基于极大似然估计使正确的标签路径概率最大化，最终的目标函数如公式(9)所示。

L＝log(p(y|X)) (9)

进一步的，在模型预测阶段，如公式(10)所示，模型从所有可能路径中选择概率值最高的作为最佳路径y*输出，此过程可以根据维特比算法高效计算出最佳路径。

步骤六：将标注结果与结构化模板进行匹配，得到结构化报告。

依据标注结果的词语和标签的关系与模板中的键值关系进行匹配，取匹配度最高的模板作为标注文档的模板，依照词语和标签的关系自动填写模板中的值，即得到最终的结构化报告。

实施例二：

一种基于深度学习的消化内镜报告结构化***，包括：

用于构建消化内镜报告结构化模板模块；

用于调用和标注消化内镜报告数据模块；

用于对调用的报告文档进行词语向量和文档矩阵表示模块；

用于根据文档的矩阵表示，对词语上下文建模的模块；

用于根据词语上下文的词向量表示，对结构化词语进行识别和标注的模块；

用于根据结构化词语的标注和结构化模板，构建消化内镜结构化报告的模块。

实施例三：

实施例四：

本公开的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本公开实施例的网关、代理服务器、***中的一些或者全部部件的一些或者全部功能。本公开还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本公开的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

计算机可读存储介质用于存储多条指令，所述指令适于由处理器加载并执行实施例一中所述的具有心智功能的智能健康分析方法。为了简洁，在此不再赘述。

应理解，本实施例中，处理器可以是中央处理单元CPU，处理器还可以是其他通用处理器、数字信号处理器DSP、专用集成电路ASIC，现成可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

计算机可读存储介质可以包括只读存储器和随机存取存储器，并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如，存储器还可以存储设备类型的信息。

结合实施例一中的方法步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤；其中方法中设计到到深度学习相关算法，可以使用GPU去加速算法的训练和预测过程。为避免重复，这里不再详细描述。

本领域普通技术人员可以意识到，结合本实施例描述的各示例的单元即算法步骤，能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

上述虽然结合附图对本公开的具体实施方式进行了描述，但并非对本公开保护范围的限制，所属领域技术人员应该明白，在本公开的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本公开的保护范围以内。

Claims

1.一种基于深度学习的消化内镜报告结构化方法，其特征是：包括以下步骤：

获取消化内镜报告数据，并对数据进行标注；

对获取到的消化内镜报告信息进行词向量和文档矩阵表示；

2.如权利要求1所述的一种基于深度学习的消化内镜报告结构化方法，其特征是：针对消化内镜报告文本描述的内容差异构建键值对关系，并根据疾病和病变部位等构建成不同的模板，每个模板分别建数据表存储。

3.如权利要求1所述的一种基于深度学习的消化内镜报告结构化方法，其特征是：依据所述结构化模板对提取的消化内镜数据进行标注，标注出需要提取的内镜报告信息；

或进一步的，标注的过程包括：

4.如权利要求1所述的一种基于深度学习的消化内镜报告结构化方法，其特征是：对获取到的消化内镜报告信息进行词向量和文档矩阵表示，具体为：

使用分词工具，并添加预设停用词库和专用词库分词；

使用分词后的内镜报告文本数据训练word2vec模型，训练好的word2vec模型用于将分词后的消化内镜报告文本数据转化为文本向量，从而进行词的嵌入，计算出消化内镜报告文本中每个词的词嵌入向量；

5.如权利要求1所述的一种基于深度学习的消化内镜报告结构化方法，其特征是：对构造的词表示向量和文档表示矩阵使用双向长短期记忆模型结合文档上下文进行建模，具体过程包括：

6.如权利要求1所述的一种基于深度学习的消化内镜报告结构化方法，其特征是：对基于报告文档上下文编码的词向量表示，使用条件随机场识别和标注需要结构化的词信息时，对基于上下文编码的词向量依据文档中的顺序组成序列，使用条件随机场从所有可能的标签序列中选取概率最高的序列中的词标注结果作为输出。

7.如权利要求6所述的一种基于深度学习的消化内镜报告结构化方法，其特征是：依据标注结果的词语和标签的关系与模板中的键值关系进行匹配，取匹配度最高的模板作为标注文档的模板，依照词语和标签的关系自动填写模板中的值，得到最终的结构化报告。

8.一种基于深度学习的消化内镜报告结构化***，其特征是：包括：

9.一种计算机可读存储介质，其特征是：其中存储有多条指令，所述指令适于由终端设备的处理器加载并执行权利要求1-7中任一项所述的一种基于深度学习的消化内镜报告结构化方法。

10.一种终端设备，其特征是：包括处理器和计算机可读存储介质，处理器用于实现各指令；计算机可读存储介质用于存储多条指令，所述指令适于由处理器加载并执行权利要求1-7中任一项所述的一种基于深度学习的消化内镜报告结构化方法。