CN111611780A - 基于深度学习的消化内镜报告结构化方法与*** - Google Patents

基于深度学习的消化内镜报告结构化方法与*** Download PDF

Info

Publication number
CN111611780A
CN111611780A CN202010413026.4A CN202010413026A CN111611780A CN 111611780 A CN111611780 A CN 111611780A CN 202010413026 A CN202010413026 A CN 202010413026A CN 111611780 A CN111611780 A CN 111611780A
Authority
CN
China
Prior art keywords
report
word
digestive endoscopy
document
template
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010413026.4A
Other languages
English (en)
Inventor
崔立真
柏欣雨
鹿旭东
郭伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong University
Original Assignee
Shandong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong University filed Critical Shandong University
Priority to CN202010413026.4A priority Critical patent/CN111611780A/zh
Publication of CN111611780A publication Critical patent/CN111611780A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/169Annotation, e.g. comment data or footnotes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H15/00ICT specially adapted for medical reports, e.g. generation or transmission thereof

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Epidemiology (AREA)
  • Medical Informatics (AREA)
  • Primary Health Care (AREA)
  • Public Health (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本公开提供了一种基于深度学习的消化内镜报告结构化方法与***,获取消化内镜报告数据,并对数据进行标注;对获取到的消化内镜报告信息进行词向量和文档矩阵表示;对构造的词表示向量和文档表示矩阵使用双向长短期记忆模型结合文档上下文进行建模;对基于上下文编码的词向量使用条件随机场识别和标注需要进行结构化的报告信息;将识别和抽取的结果与预先构建的结构化模板进行匹配,所述结构化模板基于历史数据中不同疾病信息和病变部位信息,构建键值对关系而得到,依照匹配的模板得到最终的结构化结果。本公开能够实现消化内镜报告的结构化。

Description

基于深度学习的消化内镜报告结构化方法与***
技术领域
本公开属于自然语言处理领域,涉及一种基于深度学习的消化内镜报告结构化方法与***。
背景技术
本部分的陈述仅仅是提供了与本公开相关的背景技术信息,不必然构成在先技术。
目前,医院的信息化正处于如火如荼、蒸蒸日上的建设过程当中,它不但改变了很多医院的传统管理模式,而且是现代化医院发展的必然趋势。因此,如何将医院信息化存储的电子医疗信息进行有效的利用,成为了研究者们关注的热点问题,也有很多电子病历等医学信息结构化的***和方法被提出和使用。
然而,虽然同为医学文本,不同的医学文本由于关注的重点内容不同,文本内需要提取和结构化的信息也有较大差异,很难有一种普适性的结构化方法。而消化内镜报告作为一种综合性的报告,其中既包含患者的病情信息,又包含详细的病灶部位和情况的描述,与其他的医学报告和电子医疗信息等差距较大,现有的结构化方法均难以应用。
发明内容
本公开为了解决上述问题,提出了一种基于深度学习的消化内镜报告结构化方法与***,本公开针对消化内镜报告特点构建了消化内镜报告模板,并依照构建的模板使用实体识别领域的方法对非结构化消化内镜报告的数据进行标注和抽取,进而实现消化内镜报告的结构化。
根据一些实施例,本公开采用如下技术方案:
一种基于深度学习的消化内镜报告结构化方法,包括以下步骤:
获取消化内镜报告数据,并对数据进行标注;
对获取到的消化内镜报告信息进行词向量和文档矩阵表示;
对构造的词表示向量和文档表示矩阵使用双向长短期记忆模型结合文档上下文进行建模;
对基于上下文编码的词向量使用条件随机场识别和标注需要进行结构化的报告信息;
将识别和抽取的结果与预先构建的结构化模板进行匹配,所述结构化模板基于历史数据中不同疾病信息和病变部位信息,构建键值对关系而得到,依照匹配的模板得到最终的结构化结果。
作为可选择的实施方式,针对消化内镜报告文本描述的内容差异构建键值对关系,并根据疾病和病变部位等构建成不同的模板,每个模板分别建数据表存储。
作为进一步的限定,所述结构化模板指的是一篇消化内镜报告包含的固定结构和对应的文字描述内容。
由于疾病本身的差异,不同疾病的内镜报告需要使用不同的报告模板描述。例如,可以根据现有的半结构化内镜报告数据的行文习惯和消化专科医生提供的建议,对胃早癌、进展期胃癌、胃息肉、慢性萎缩性胃炎、慢性非萎缩性胃炎和胃溃疡等消化***常见疾病构建了模板。
每个模板中包括病变部位、病变数量、病变分型、病变大小、黏膜情况、边界情况等基本结构。每项基本结构均有规定好的文字描述,如病变部位这项内容可用贲门、胃底、胃体、胃角、胃窦等文本值描述。
作为可选择的实施方式,依据所述结构化模板对提取的消化内镜数据进行标注,标注出需要提取的内镜报告信息。
作为可选择的实施方式,标注的过程包括:
从数据库中获得消化内镜报告数据,提取出数据中半结构化和非结构化的部分;
对报告进行关键词筛选,对每个类型的疾病对应的模板都进行设定数量以上的标注。
作为可选择的实施方式,对获取到的消化内镜报告信息进行词向量和文档矩阵表示,具体为:
使用分词工具,并添加预设停用词库和专用词库分词;
使用分词后的内镜报告文本数据训练word2vec模型,训练好的word2vec模型用于将分词后的消化内镜报告文本数据转化为文本向量从而进行词的嵌入计算出消化内镜报告文本中每个词的词嵌入向量;
对于每个消化内镜报告文档,其中的每个词都利用向量表示,则每个文档含多个词的文档将以矩阵表示,完成由原始文本的输入到实值矩阵的表示。
作为可选择的实施方式,对构造的词表示向量和文档表示矩阵使用双向长短期记忆模型结合文档上下文进行建模,具体过程包括:
由输入表示层得到的句子表示矩阵经过前向长短期记忆模型后,每个字符所在的位置都得到融合上文信息的隐藏层的表示向量
Figure BDA0002494006980000041
经过后向长短期记忆模型后,每个字符位置都得到融合下文信息的隐藏层的表示向量
Figure BDA0002494006980000042
最后将上文和下文隐藏层向量进行拼接,最终每个字符都得到融合上下文的表示向量ht
作为可选择的实施方式,对基于报告文档上下文编码的词向量表示,使用条件随机场识别和标注需要结构化的词信息时,对基于上下文编码的词向量依据文档中的顺序组成序列,使用条件随机场从所有可能的标签序列中选取概率最高的序列中的词标注结果作为输出。
作为可选择的实施方式,依据标注结果的词语和标签的关系与模板中的键值关系进行匹配,取匹配度最高的模板作为标注文档的模板,依照词语和标签的关系自动填写模板中的值,得到最终的结构化报告。
一种基于深度学习的消化内镜报告结构化***,包括:
标注模块,被配置为获取消化内镜报告数据,并对数据进行标注;
词表示模块,被配置为对获取到的消化内镜报告信息进行词向量和文档矩阵表示;
双向长短期记忆模型构建模块,被配置为对构造的词表示向量和文档表示矩阵使用双向长短期记忆模型结合文档上下文进行建模;
结构化模块,被配置为对基于上下文编码的词向量使用条件随机场识别和标注需要进行结构化的报告信息,将识别和抽取的结果与预先构建的结构化模板进行匹配,所述结构化模板基于历史数据中不同疾病信息和病变部位信息,构建键值对关系而得到,依照匹配的模板得到最终的结构化结果。
一种计算机可读存储介质,其中存储有多条指令,所述指令适于由终端设备的处理器加载并执行所述的一种基于深度学习的消化内镜报告结构化方法。
一种终端设备,包括处理器和计算机可读存储介质,处理器用于实现各指令;计算机可读存储介质用于存储多条指令,所述指令适于由处理器加载并执行所述的一种基于深度学习的消化内镜报告结构化方法。
与现有技术相比,本公开的有益效果为:
(1)本公开实现了将现有非结构化消化内镜报告转为结构化报告,可以更高效地从消化内镜报告中提取出有价值的医学信息用于科研研究;
(2)本公开的消化内镜报告结构化方法是对原始文本信息的提取,不会对现有的流程和书写方式造成影响,可以让医生在现有的习惯下辅助医生的工作。
附图说明
构成本公开的一部分的说明书附图用来提供对本公开的进一步理解,本公开的示意性实施例及其说明用于解释本公开,并不构成对本公开的不当限定。
图1为实施例一中基于深度学习的消化内镜报告结构化方法和***的流程示意图;
图2是实施例一中双向LSTM+条件随机场CRF模型示意图;
图3是实施例一中LSTM模型结构图。
具体实施方式:
下面结合附图与实施例对本公开作进一步说明。
应该指出,以下详细说明都是例示性的,旨在对本公开提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本公开的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
实施例一:
一种基于深度学习的消化内镜报告结构化方法,包括以下步骤:
(1)构建消化内镜报告结构化模板;
(2)从医院消化内镜数据库中调取现有非结构化的内镜报告数据,并依照模板内容对内镜报告数据进行标注;
(3)对获取的内镜报告数据进行词向量和文档矩阵表示;
(4)对步骤(3)获取的内镜报告文本词表示向量和文档表示矩阵,使用双向长短期记忆网络模型对上下文进行建模。
(5)对步骤(4)获取的每个词的上下文向量表示,使用条件随机场识别和标注需要结构化的词信息。
(6)将标注的结果与结构化模板进行匹配,依照匹配的模板将标注结果抽取为结构化的值信息,得到最终的结构化报告。
下面结合图1中的方法流程图对上述步骤过程进行详细描述,具体包括:
步骤一:构建消化内镜报告结构化模板,并对模板进行存储。具体包括:
a模板构建
结构化模板指的是一篇消化内镜报告应该包含的固定结构和对应的文字描述内容。由于疾病本身的差异,不同疾病的内镜报告需要使用不同的报告模板描述。
例如,根据现有的半结构化内镜报告数据的行文习惯和消化专科医生提供的建议,对胃早癌、进展期胃癌、胃息肉、慢性萎缩性胃炎、慢性非萎缩性胃炎和胃溃疡等消化***常见疾病构建了模板。每个模板中包括病变部位、病变数量、病变分型、病变大小、黏膜情况、边界情况等基本结构。每项基本结构均有规定好的文字描述,如病变部位这项内容可用贲门、胃底、胃体、胃角、胃窦等文本值描述。
b模板存储
为了便于数据管理,采用与原始半结构化消化内镜报告数据相同的数据库SQLServer2008数据库,将模板构建成不同的数据表与原始半结构化消化内镜数据存储在同一个数据库中。数据表的列名为模板中各项基本结构的名称,数据表中存储的值为各项基本结构对应的文字描述。
步骤二:获取消化内镜报告数据,并对数据进行标注
a获取消化内镜报告数据
从数据库中获得现有的消化内镜报告数据,提取出数据中半结构化的部分进行下一步的训练和标注。
b标注消化内镜报告
依据模板对提取的消化内镜数据进行标注,标注出需要提取的内镜报告信息。由于每种模板疾病的发病率有差异,使用消化内镜专科医生提供的关键词对标注的报告进行筛选,保证每个类型的疾病对应的模板都进行一百条以上的标注,使得每个模板都能得到充分标注进行训练。
步骤三:对获取到的消化内镜信息进行向量和矩阵表示
对于收集到的文本数据,采用Jieba分词进行语句词语的切分。Jieba分词是Python的一款中文分词工具,对于一长段文字,其分词原理大体可分为三步:首先用正则表达式将中文段落粗略的分成一个个句子;然后将每个句子构造成有向无环图(DAG),之后寻找最佳切分方案;最后对于连续的单字,采用隐马尔可夫模型(HMM模型)将其再次划分。例如,对于文本“胃体下部大弯侧可见1处IIc型病变”,采用默认分词模式,切分为“胃”“体”“下部”“大”“弯”“侧”“可见”“1”“处”“IIc”“型”“病变”。
进一步的,使用预设停用词库和专用词库,来提高分词效果。针对消化内镜报告文本,采用消化内镜专科医生提供的建议,用报告中的常用值构建词库的,提高分词准确性。例如,对于文本“胃体下部大弯侧可见1处IIc型病变”,采用停用词库和专用词库分词,切分为“胃体”“下部”“大弯侧”“可见”“1”“处”“IIc”“型”“病变”。
进一步的,分词后的文本数据进行词嵌入(Word Embedding)过程处理,把一个维数为所有词的数量的高维空间嵌入到一个维数低得多的连续向量空间中,每个单词或词组被映射为实数域上的向量,叫做词向量,词向量具有良好的语义特性,是表示词语特征的常用方式,词向量每一维的值代表一个具有一定的语义和语法上解释的特征。在此步骤中,首先使用分词后的消化内镜报告文本数据训练word2vec模型,训练好的word2vec模型用于将分词后的消化内镜报告文本数据转化为文本向量,从而进行词的嵌入(Word Embedding),计算出消化内镜报告文本中每个词的词嵌入向量xt
进一步的,对于每个消化内镜报告文档,其中的每个词都得到了低维的向量表示xt,则一个含m个词的文档以矩阵表示为X=(x1,…,xt,…,xm),完成由原始文本的输入到实值矩阵的表示。
步骤四:对构造的词表示向量和文档表示矩阵,使用双向长短期记忆模型结合文档上下文对词语进行建模。
长短期记忆模型(long-short term memory)是一种特殊的RNN模型,通过引入门机制来控制信息传递的方式,从而使得网络能够建立起长距离的时序关系。LSTM适合建模序列性质的数据,本实施例中的消化内镜报告文本的一个个词向量表示可以认为是不严格的序列数据。
进一步的,由于本实例中的消化内镜报告数据同时受其上下文的影响,为了同时考虑上下文特征,本实例基于双向LSTM来建模从上文到下文和从下文至上文的信息。
如图3所示,为LSTM模型单个神经元的结构图,其包含输入门,遗忘门和输出门三部分。其工作原理为:
(1)遗忘门:选择忘记过去某些信息(通过sigmoid(x,h)控制门忘记一部分cellstate,其中Sigmoid激活函数σ常被用作神经网络的阈值函数,将变量映射到0-1之间),遗忘门计算公式为:
ft=σ(Wf·[ht-1,xt]+bf) (1)
(2)输入门:记忆现在的某些信息(现在的信息通过tanh(x,h)激活,再通过sigmoid(x,h)控制门忘记一部分,其中tanh函数是双曲函数中的一个函数),则输入门部分计算公式为:
it=σ(Wi·[ht-1,xt]+bi) (2)
Figure BDA0002494006980000111
(3)将过去记忆和现在的记忆合并:
Figure BDA0002494006980000112
(4)输出门计算公式为:
ot=σ(Wo·[ht-1,xt]+bo) (5)
ht=ot*tanh(Ct) (6)
以上为LSTM模型工作原理,Wf,Wi,Wo分别为遗忘门、输入门和输出门的权重矩阵,bf、bi、bC分别为遗忘门、输入门和输出门的偏移量,以上均为待训练的参数,hi为隐藏层,xt为t时刻的消化内镜报告词向量输入,ht为输出,在本实施例中为每个词融合上文信息或下文信息的表示向量。
进一步的,由输入表示层得到的句子表示矩阵X经过前向LSTM后,每个字符所在的位置都得到融合上文信息的隐藏层的表示向量
Figure BDA0002494006980000113
经过后向LSTM后,每个字符位置都得到融合下文信息的隐藏层的表示向量
Figure BDA0002494006980000114
最后将上文和下文隐藏层向量进行拼接,即
Figure BDA0002494006980000115
最终每个字符都得到融合上下文的表示向量ht
步骤五:对基于报告文档上下文编码的词向量表示,使用条件随机场识别和标注需要结构化的词信息。
文档中每一个词经过上下文编码后得到对应的向量表示,经过解码可以预测其对应的标签。最简单的解码层就是线性层加Softmax,但这种方式忽略了序列相邻标签之间的强依赖关系,因此需要额外加条件随机场(CRF)来帮助解码时找到最佳的标签路径。
本步骤本质上是学习一个标签之间的概率转移矩阵,假设由上下文编码层得到的文档表示再经过线性层操作后得到输出矩阵P∈R7×k,其中7是文档的长度,k表示标签的总数量,矩阵中元素Pi,j表示文档中第i个字符被预测为第j个标签的分数。我们引入需要学习的标签转移概率矩阵T,此矩阵中元素Ti,j代表从第i个标签转移到第j个标签的分数,则结构化识别任务可进一步形式化成,给定输入矩阵X的情况,模型预测序列标签y=(y1,y2,…y7),因此得到预测某一标签路径的分数
Figure BDA0002494006980000121
其中转移矩阵T∈R(k+2)×(k+2)是模型需要学习的参数,原有标签的总数量是k:我们增加特殊标签来表示报告文档的开始和结束,因此转移矩阵变成大小为k+2的方阵。
进一步的,在模型训练阶段,公式(7)中我们得到预测一种可能的标签路径的分数,通过Softmax函数对所有标签路径分数进行归一化,得到预测该标签路径的概率值如公式(8)所示,再基于极大似然估计使正确的标签路径概率最大化,最终的目标函数如公式(9)所示。
Figure BDA0002494006980000131
L=log(p(y|X)) (9)
进一步的,在模型预测阶段,如公式(10)所示,模型从所有可能路径中选择概率值最高的作为最佳路径y*输出,此过程可以根据维特比算法高效计算出最佳路径。
Figure BDA0002494006980000132
步骤六:将标注结果与结构化模板进行匹配,得到结构化报告。
依据标注结果的词语和标签的关系与模板中的键值关系进行匹配,取匹配度最高的模板作为标注文档的模板,依照词语和标签的关系自动填写模板中的值,即得到最终的结构化报告。
实施例二:
一种基于深度学习的消化内镜报告结构化***,包括:
用于构建消化内镜报告结构化模板模块;
用于调用和标注消化内镜报告数据模块;
用于对调用的报告文档进行词语向量和文档矩阵表示模块;
用于根据文档的矩阵表示,对词语上下文建模的模块;
用于根据词语上下文的词向量表示,对结构化词语进行识别和标注的模块;
用于根据结构化词语的标注和结构化模板,构建消化内镜结构化报告的模块。
实施例三:
一种计算机可读存储介质,其中存储有多条指令,所述指令适于由终端设备的处理器加载并执行所述的一种基于深度学习的消化内镜报告结构化方法。
实施例四:
一种终端设备,包括处理器和计算机可读存储介质,处理器用于实现各指令;计算机可读存储介质用于存储多条指令,所述指令适于由处理器加载并执行所述的一种基于深度学习的消化内镜报告结构化方法。
本公开的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本公开实施例的网关、代理服务器、***中的一些或者全部部件的一些或者全部功能。本公开还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本公开的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
计算机可读存储介质用于存储多条指令,所述指令适于由处理器加载并执行实施例一中所述的具有心智功能的智能健康分析方法。为了简洁,在此不再赘述。
应理解,本实施例中,处理器可以是中央处理单元CPU,处理器还可以是其他通用处理器、数字信号处理器DSP、专用集成电路ASIC,现成可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
计算机可读存储介质可以包括只读存储器和随机存取存储器,并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如,存储器还可以存储设备类型的信息。
结合实施例一中的方法步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤;其中方法中设计到到深度学习相关算法,可以使用GPU去加速算法的训练和预测过程。为避免重复,这里不再详细描述。
本领域普通技术人员可以意识到,结合本实施例描述的各示例的单元即算法步骤,能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
上述虽然结合附图对本公开的具体实施方式进行了描述,但并非对本公开保护范围的限制,所属领域技术人员应该明白,在本公开的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本公开的保护范围以内。

Claims (10)

1.一种基于深度学习的消化内镜报告结构化方法,其特征是:包括以下步骤:
获取消化内镜报告数据,并对数据进行标注;
对获取到的消化内镜报告信息进行词向量和文档矩阵表示;
对构造的词表示向量和文档表示矩阵使用双向长短期记忆模型结合文档上下文进行建模;
对基于上下文编码的词向量使用条件随机场识别和标注需要进行结构化的报告信息;
将识别和抽取的结果与预先构建的结构化模板进行匹配,所述结构化模板基于历史数据中不同疾病信息和病变部位信息,构建键值对关系而得到,依照匹配的模板得到最终的结构化结果。
2.如权利要求1所述的一种基于深度学习的消化内镜报告结构化方法,其特征是:针对消化内镜报告文本描述的内容差异构建键值对关系,并根据疾病和病变部位等构建成不同的模板,每个模板分别建数据表存储。
3.如权利要求1所述的一种基于深度学习的消化内镜报告结构化方法,其特征是:依据所述结构化模板对提取的消化内镜数据进行标注,标注出需要提取的内镜报告信息;
或进一步的,标注的过程包括:
从数据库中获得消化内镜报告数据,提取出数据中半结构化和非结构化的部分;
对报告进行关键词筛选,对每个类型的疾病对应的模板都进行设定数量以上的标注。
4.如权利要求1所述的一种基于深度学习的消化内镜报告结构化方法,其特征是:对获取到的消化内镜报告信息进行词向量和文档矩阵表示,具体为:
使用分词工具,并添加预设停用词库和专用词库分词;
使用分词后的内镜报告文本数据训练word2vec模型,训练好的word2vec模型用于将分词后的消化内镜报告文本数据转化为文本向量,从而进行词的嵌入,计算出消化内镜报告文本中每个词的词嵌入向量;
对于每个消化内镜报告文档,其中的每个词都利用向量表示,则每个文档含多个词的文档将以矩阵表示,完成由原始文本的输入到实值矩阵的表示。
5.如权利要求1所述的一种基于深度学习的消化内镜报告结构化方法,其特征是:对构造的词表示向量和文档表示矩阵使用双向长短期记忆模型结合文档上下文进行建模,具体过程包括:
由输入表示层得到的句子表示矩阵经过前向长短期记忆模型后,每个字符所在的位置都得到融合上文信息的隐藏层的表示向量
Figure FDA0002494006970000021
经过后向长短期记忆模型后,每个字符位置都得到融合下文信息的隐藏层的表示向量
Figure FDA0002494006970000022
最后将上文和下文隐藏层向量进行拼接,最终每个字符都得到融合上下文的表示向量ht
6.如权利要求1所述的一种基于深度学习的消化内镜报告结构化方法,其特征是:对基于报告文档上下文编码的词向量表示,使用条件随机场识别和标注需要结构化的词信息时,对基于上下文编码的词向量依据文档中的顺序组成序列,使用条件随机场从所有可能的标签序列中选取概率最高的序列中的词标注结果作为输出。
7.如权利要求6所述的一种基于深度学习的消化内镜报告结构化方法,其特征是:依据标注结果的词语和标签的关系与模板中的键值关系进行匹配,取匹配度最高的模板作为标注文档的模板,依照词语和标签的关系自动填写模板中的值,得到最终的结构化报告。
8.一种基于深度学习的消化内镜报告结构化***,其特征是:包括:
标注模块,被配置为获取消化内镜报告数据,并对数据进行标注;
词表示模块,被配置为对获取到的消化内镜报告信息进行词向量和文档矩阵表示;
双向长短期记忆模型构建模块,被配置为对构造的词表示向量和文档表示矩阵使用双向长短期记忆模型结合文档上下文进行建模;
结构化模块,被配置为对基于上下文编码的词向量使用条件随机场识别和标注需要进行结构化的报告信息,将识别和抽取的结果与预先构建的结构化模板进行匹配,所述结构化模板基于历史数据中不同疾病信息和病变部位信息,构建键值对关系而得到,依照匹配的模板得到最终的结构化结果。
9.一种计算机可读存储介质,其特征是:其中存储有多条指令,所述指令适于由终端设备的处理器加载并执行权利要求1-7中任一项所述的一种基于深度学习的消化内镜报告结构化方法。
10.一种终端设备,其特征是:包括处理器和计算机可读存储介质,处理器用于实现各指令;计算机可读存储介质用于存储多条指令,所述指令适于由处理器加载并执行权利要求1-7中任一项所述的一种基于深度学习的消化内镜报告结构化方法。
CN202010413026.4A 2020-05-15 2020-05-15 基于深度学习的消化内镜报告结构化方法与*** Pending CN111611780A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010413026.4A CN111611780A (zh) 2020-05-15 2020-05-15 基于深度学习的消化内镜报告结构化方法与***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010413026.4A CN111611780A (zh) 2020-05-15 2020-05-15 基于深度学习的消化内镜报告结构化方法与***

Publications (1)

Publication Number Publication Date
CN111611780A true CN111611780A (zh) 2020-09-01

Family

ID=72205493

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010413026.4A Pending CN111611780A (zh) 2020-05-15 2020-05-15 基于深度学习的消化内镜报告结构化方法与***

Country Status (1)

Country Link
CN (1) CN111611780A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112232149A (zh) * 2020-09-28 2021-01-15 北京易道博识科技有限公司 一种文档多模信息和关系提取方法及***
CN113110984A (zh) * 2021-04-19 2021-07-13 中国工商银行股份有限公司 报告处理方法、装置、计算机***及可读存储介质
CN113823371A (zh) * 2021-09-18 2021-12-21 上海保链科技有限公司 医疗数据结构化处理方法、装置及设备
CN114093454A (zh) * 2021-12-08 2022-02-25 浙江卡易智慧医疗科技有限公司 一种影像下肢动脉结构化报告书写设计方法和***

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180157638A1 (en) * 2016-12-02 2018-06-07 Microsoft Technology Licensing, Llc Joint language understanding and dialogue management
CN110223742A (zh) * 2019-06-14 2019-09-10 中南大学 中文电子病历数据的临床表现信息抽取方法和设备
CN110277149A (zh) * 2019-06-28 2019-09-24 北京百度网讯科技有限公司 电子病历的处理方法、装置及设备

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180157638A1 (en) * 2016-12-02 2018-06-07 Microsoft Technology Licensing, Llc Joint language understanding and dialogue management
CN110223742A (zh) * 2019-06-14 2019-09-10 中南大学 中文电子病历数据的临床表现信息抽取方法和设备
CN110277149A (zh) * 2019-06-28 2019-09-24 北京百度网讯科技有限公司 电子病历的处理方法、装置及设备

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
王若佳,等: "BiLSTM-CRF 模型在中文电子病历命名实体识别中的应用研究", 《文献与数据学报》 *
许云峰,等: "《大数据技术及行业应用》", 31 August 2016, 北京邮电大学出版社 *
马刚: "《基于语义的Web数据挖掘》", 31 January 2014, 东北财经大学出版社 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112232149A (zh) * 2020-09-28 2021-01-15 北京易道博识科技有限公司 一种文档多模信息和关系提取方法及***
CN112232149B (zh) * 2020-09-28 2024-04-16 北京易道博识科技有限公司 一种文档多模信息和关系提取方法及***
CN113110984A (zh) * 2021-04-19 2021-07-13 中国工商银行股份有限公司 报告处理方法、装置、计算机***及可读存储介质
CN113110984B (zh) * 2021-04-19 2024-03-08 中国工商银行股份有限公司 报告处理方法、装置、计算机***及可读存储介质
CN113823371A (zh) * 2021-09-18 2021-12-21 上海保链科技有限公司 医疗数据结构化处理方法、装置及设备
CN114093454A (zh) * 2021-12-08 2022-02-25 浙江卡易智慧医疗科技有限公司 一种影像下肢动脉结构化报告书写设计方法和***

Similar Documents

Publication Publication Date Title
CN110297908B (zh) 诊疗方案预测方法及装置
CN111613339B (zh) 一种基于深度学习的相似病历查找方法与***
CN107977361B (zh) 基于深度语义信息表示的中文临床医疗实体识别方法
Xue et al. Multimodal recurrent model with attention for automated radiology report generation
CN108984724B (zh) 利用高维表示提高特定属性情感分类准确率方法
CN109522546B (zh) 基于上下文相关的医学命名实体识别方法
CN109471895B (zh) 电子病历表型抽取、表型名称规范化方法及***
CN110210037B (zh) 面向循证医学领域的类别检测方法
CN111611780A (zh) 基于深度学习的消化内镜报告结构化方法与***
CN112818676B (zh) 一种医学实体关系联合抽取方法
US10949456B2 (en) Method and system for mapping text phrases to a taxonomy
WO2023029502A1 (zh) 基于问诊会话构建用户画像的方法、装置、设备和介质
CN110688855A (zh) 基于机器学习的中文医疗实体识别方法及***
CN112800766B (zh) 基于主动学习的中文医疗实体识别标注方法及***
CN109871538A (zh) 一种中文电子病历命名实体识别方法
CN112002411A (zh) 一种基于电子病历的心脑血管病知识图谱问答方法
JP2021166046A (ja) 画像条件付きマスク言語モデリングを用いて画像認識のための畳み込みニューラルネットワークを訓練するための方法
CN110866401A (zh) 基于注意力机制的中文电子病历命名实体识别方法及***
CN112163429B (zh) 结合循环网络及bert的句子相关度获取方法、***及介质
Gao et al. Named entity recognition method of Chinese EMR based on BERT-BiLSTM-CRF
CN112151183A (zh) 一种基于Lattice LSTM模型的中文电子病历的实体识别方法
Alsharid et al. Captioning ultrasound images automatically
CN113724819B (zh) 医疗命名实体识别模型的训练方法、装置、设备及介质
Li et al. Recurrent neural networks with specialized word embedding for Chinese clinical named entity recognition
CN110019711A (zh) 一种对医学文本数据结构化处理的控制方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination