CN112685561A - 一种跨病种的小样本临床医疗文本后结构化处理方法 - Google Patents

一种跨病种的小样本临床医疗文本后结构化处理方法 Download PDF

Info

Publication number
CN112685561A
CN112685561A CN202011567629.6A CN202011567629A CN112685561A CN 112685561 A CN112685561 A CN 112685561A CN 202011567629 A CN202011567629 A CN 202011567629A CN 112685561 A CN112685561 A CN 112685561A
Authority
CN
China
Prior art keywords
text
information
model
disease
text information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011567629.6A
Other languages
English (en)
Inventor
刘翔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Zhihuiyun Technology Co ltd
Original Assignee
Guangzhou Zhihuiyun Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Zhihuiyun Technology Co ltd filed Critical Guangzhou Zhihuiyun Technology Co ltd
Priority to CN202011567629.6A priority Critical patent/CN112685561A/zh
Publication of CN112685561A publication Critical patent/CN112685561A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本发明公开了一种跨病种的小样本临床医疗文本后结构化处理方法,包括:获取A病种的小样本文本信息和B病种的大样本文本信息,并采用文本困惑度的文本聚类获取待标注信息,对待标注信息进行标注,得到标注后的文本信息;在pytorch神经网络框架下,利用元学习和LSTM模型训练是否型问题的信息抽取模型,得到元模型;利用标注后的文本信息对元模型进行训练,得到小样本病历的文本后结构化模型;利用文本后结构化模型识别的A病种的文本信息。通过上述方案,本发明具有逻辑简单、标注量少、覆盖全面、处理效率高等优点,在中文自然语言处理技术以及机器学习领域具有很高的实用价值和推广价值。

Description

一种跨病种的小样本临床医疗文本后结构化处理方法
技术领域
本发明涉及中文自然语言处理技术以及机器学习领域,尤其是一种跨病种的小样本临床医疗文本后结构化处理方法。
背景技术
高品质的临床医学科学研究离不开高可用性的语言模型支撑,但是,高可用性的语言模型往往需要大量高质量标注语料。为此,需要临床医学科研工作者花费大量时间整理患者数据,并通过耗时、繁琐的人工标注操作将有效数据从错综复杂的医疗电子病历文本中标注出来,这种科研方法对本来就非常忙碌的医疗工作者而言效率极低。而且传统机器学习是知识不共享、模型的可移植性较差。
因此,急需要提出一种标注量少、覆盖全面、高效率的跨病种的小样本临床医疗文本后结构化处理方法。
发明内容
针对上述问题,本发明的目的在于提供一种跨病种的小样本临床医疗文本后结构化处理方法,以解决现有技术中临床科研获取数据难、标注效率低、覆盖度小、模型复用难度大等问题,本发明采用的技术方案如下:
一种跨病种的小样本临床医疗文本后结构化处理方法,包括以下步骤:
获取A病种的小样本文本信息和B病种的大样本文本信息,并采用文本困惑度的文本聚类获取待标注信息,对待标注信息进行标注,得到标注后的文本信息;标注后的所述文本信息包括标准问题列表、目标问题列表和小样本标注语料;
在pytorch神经网络框架下,利用元学习和LSTM模型训练是否型问题的信息抽取模型,得到元模型;
利用标注后的文本信息对元模型进行训练,得到小样本病历的文本后结构化模型;
利用文本后结构化模型识别的A病种的文本信息。
进一步地,所述获取A病种的小样本文本信息和B病种的大样本文本信息,并采用文本困惑度的文本聚类获取待标注信息,包括以下步骤:
分别获取A病种的小样本文本信息和B病种的大样本文本信息;
将A病种的小样本文本信息和B病种的大样本文本信息的符号标准化,并按段落、句子、文本类型进行切分,得到切分后的文本数据;
将切分后的文本数据转换成二进制,得到二进制数据;
结合BERT模型,并按A病种、B病种依次利用二进制数据进行逐个训练,得到BERT语言模型;
利用tensorflow框架求得A病种的小样本文本信息和B病种的大样本文本信息的困惑度,并滤除大于预设阈值的句子,构成差异集合;
利用BERT语言模型求得差异集合中任一句子的局向量;
采用层次聚类算法对局向量进行聚类,得到待标注信息。
更进一步地,所述LSTM模型采用依次连接的输入门、遗忘门和输出门。
更进一步地,所述遗忘门满足以下关系:
ft=σ(Wf·[ht-1,xt]+bf)
其中,ht-1表示上一细胞的输出,xt表示当前细胞的输出,σ表示激活函数,Wf表示遗忘门的权重矩阵,bf表示遗忘门的偏置项。
更进一步地,所述输入们满足以下关系:
Figure BDA0002862010090000021
其中,ft为遗忘门的输出,即模型会从细胞状态中丢弃的信息,σ表示激活函数,Ct-1表示旧的细胞状态,it为输入门门控,即控制当前时刻需要保留哪些之前学到的东西,
Figure BDA0002862010090000022
表示当前时刻学到的东西;
所述it的表达式为:
it=σ(Wi·[ht-1,xt]+bi)
其中,σ表示激活函数,Wi表示输入门门控的权重矩阵,ht-1表示上一细胞的输出,xt表示当前细胞的输出,bi表示输入门门控的偏置项。
所述
Figure BDA0002862010090000031
的表达式为:
Figure BDA0002862010090000032
其中,tanh表示激活函数,Wc表示学习新知识时的权重矩阵,ht-1表示上一细胞的输出,xt表示当前细胞的输出,bc表示学习新知识时的偏置项。
更进一步地,所述输出门满足以下关系:
ot=σ(Wo·[ht-1,xt]+bo)
ht=ot*tanh(Ct)
其中,W0表示输出门的权重矩阵,b0表示输出门的偏置项,ot表示需要输出的细胞状态。
更进一步地,对待标注信息进行标注,包括问题、问题类型和唯一标识。
与现有技术相比,本发明具有以下有益效果:
(1)本发明巧妙地采用A病种的小样本文本信息和B病种的大样本文本信息的困惑度求得聚类句向量,其好处在于;通过复用历史模型,减少了标注量,并提高了工作效率。
(2)本发明在pytorch神经网络框架下,利用元学习和LSTM模型训练是否型问题的信息抽取模型,得到元模型,其好处在于:模型可以利用以往的知识经验来指导新任务的学习,从而使模型具有学会学习的能力,提高模型训练效率。
(3)本发明在LSTM模型中通过设置输入门、遗忘门和输出门,其好处在于:引入细胞状态的概念,LSTM网络能通过各种门的结构对细胞状态进行删除和添加信息,从而解决了长依赖问题。
(4)本发明利用中文自然语言处理和机器学习技术,结合临床医疗文本书写规范和经验,实现了从不同病种的小样本临床医疗文本中自动抽取结构化的数据,本发明主要为临床科研一体化提供信息处理工具,解决了目前临床科研获取数据难,标注效率低,覆盖度小、模型复用难度大等问题,提升了临床科研数据的利用率和模型训练的效率;
综上所述,本发明具有逻辑简单、标注量少、覆盖全面、处理效率高等优点,在中文自然语言处理技术以及机器学习领域具有很高的实用价值和推广价值。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需使用的附图作简单介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对保护范围的限定,对于本领域技术人员来说,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本发明逻辑流程图。
图2为本发明Transformer的Encoder流程图。
图3为本发明的BERT模型结构示意图。
图4为本发明BERT模型的输入组成示意图。
图5为本发明中一个神经网络层的LSTM网络图。
图6为本发明中四个神经网络层的LSTM网络图。
图7为本发明中LSTM网络中线条图标示意图。
图8为本发明中LSTM网络中细胞的结构示意图。
图9为本发明中门选择信息通过示意图。
图10为本发明的遗忘门示意图。
图11为本发明的输入门示意图。
图12为本发明的输出门示意图。
具体实施方式
为使本申请的目的、技术方案和优点更为清楚,下面结合附图和实施例对本发明作进一步说明,本发明的实施方式包括但不限于下列实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
实施例
如图1至图12所示,本实施例提供了一种跨病种的小样本临床医疗文本后结构化处理方法,其主要包括以下步骤:
第一步,获取A病种的小样本文本信息和B病种的大样本文本信息,并采用文本困惑度的文本聚类获取待标注信息,对待标注信息进行标注,得到标注后的文本信息。具体来说,又包括以下步骤:
(1)文本预处理:将每个病种病历文本的符号标准化,并按段落、句子、文本类型进行切分;
(2)文本二进制化:按***-BERT标准方法将不同病种的文本数据二进制化;
(3)模型训练:用标准的BERT模型按病种逐个训练语言模型;在本实施例中,BERT全称是Bidirectional Encoder Representation from Transformers,即双向Transformer的Encoder,它采用了Transformer编码器作为主体模型结构,Transformer舍弃了RNN的循环式网络结构,完全基于注意力机制来对一段文本进行建模。而注意力机制的核心思想是去计算一句话中的每个词与这句话中所有词的相互关系,然后认为这些词与词之间的相互关系在一定程度上反应了这句话中不同词之间的关联性以及重要程度。BERT是一个无监督的、深度双向的NLP预训练***,“无监督”意味着它可以仅用纯文本语料库进行训练,然而这里的“双向”与传统语言模型不同,BERT不是在当前词上下文的条件下预测最可能的当前词,而是随机遮掩一些词,并利用所有没被遮掩的词进行预测;见图2、3所示;
BERT模型的主要创新点都在预训练方法上,预训练包括两个任务:MaskedLanguage Model和Next Sentence Prediction;
Masked Language Model可以理解为完形填空,作者会随机mask一句话中固定数量的词,用其上下文来预测;
Next Sentence Prediction学习句子间的相关性,添加这样的任务目的是因为自然语言中的QA和NLI任务都需要理解两个句子之间的关系,所以Next SentencePrediction能让预训练的模型更好的适应这样的任务;
在图4中,BERT的输入部分是个线性序列,两个句子通过分隔符分割,最前面和最后分别增加两个标识符号[CLS]和[SEP]。每个单词有三个embedding,分别为:SegmentEmbeddings、Position Embeddings、Token Embeddings;
Token Embeddings代表每个词的词向量;
Segment Embeddings代表每个序列的词是属于哪个句子;
Position Embeddings代表每个词的位置信息的编码;
(4)困惑度:采用tensorflow框架实现文本困惑度的计算;具体标注步骤如下:
(41)A病种的小样本文本信息和B病种的大样本文本信息交叉对比一个句子在别的病种语言模型里面的PPL(困惑度);
(42)设置阈值,过滤出病种间差异较大的句子;通常情况下,阈值设置为0.9。
(5)句向量:调用病种的BERT语言模型,得到每个句子所对应的BERT句向量。
(6)层次聚类:通过层次聚类的方法聚类句向量,从而将表达相同意思的句子打包到一起,供医生标注。
在本实施例中,电子病历的标注包括以下内容:qid、question_type、context、question、ans、ans_span;其中,qid表示每个自定义问题的唯一标识;question_type表示问题的类型,共两种类型:class、text;context表示待标注文本;question表示针对待标注文本提出的问题;ans表示待标注文本对问题的答案,其中class类型问题的答案为布尔型,text类型问题的答案为字符串类型;ans_span表示text类型问题的答案在待标注文本中的坐标。
在本实施例中,导入待结构化的数据,在excel中进行数据的标注和保存;
在标注数据时,格式要求如下:
(1)每句话都需对应至少一个标准问题:其中包括question、question_type、qid;
(2)每个问题都对应一个唯一的答案:其中“0”表示“否”,“1”表示“是”;
(3)对于text类型问题需标注出答案所对应原文中的位置,用中括号展示:[起始位置,终止位置]。
第二步,在pytorch神经网络框架下,利用元学习和LSTM模型训练是否型问题的信息抽取模型,得到元模型。
在本实施例中,LSTM全称为Long Short Term Memory,是为了解决长期以来问题而专门设计出来的,所有的RNN都具有一种重复神经网络模块的链式形式。在标准RNN中,这个重复的结构模块只有一个非常简单的结构,例如一个tanh层;见图5所示;
LSTM同样是这样的结构,但是重复的模块拥有一个不同的结构。不同于单一神经网络层,这里是有四个,以一种非常特殊的方式进行交互,见图6、7所示;
在图7中,每一条黑线传输着一整个向量,从一个节点的输出到其他节点的输入。圆圈代表pointwise的操作,诸如向量的和,而矩形的矩阵就是学习到的神经网络层,合在一起的线表示向量的连接,分开的线表示内容被复制,然后分发到不同的位置;
LSTM核心思想
LSTM的关键在于细胞的状态整个(图8表示的是一个cell),和穿过细胞的那条水平线;
细胞状态类似于传送带。直接在整个链上运行,只有一些少量的线***互。信息在上面流传保持不变会很容易。
若只有上面的那条水平线是没办法实现添加或者删除信息的。而是通过一种叫做门(gates)的结构来实现的。
门可以实现选择性地让信息通过,主要是通过一个sigmoid的神经层和一个逐点相乘的操作来实现的,见图9。
sigmoid层输出(是一个向量)的每个元素都是一个在0和1之间的实数,表示让对应信息通过的权重(或者占比)。比如,0表示“不让任何信息通过”,1表示“让所有信息通过”。
LSTM通过三个这样的本结构来实现信息的保护和控制。这三个门分别输入门、遗忘门和输出门。
遗忘门
在LSTM中的第一步是决定会从细胞状态中丢弃什么信息。这个决定通过一个称为遗忘门层完成。
ft=σ(Wf·[ht-1,xt]+bf)
该门会读取ht-1和xt,输出一个在0到1之间的数值给每个在细胞状态Ct-1中的数字。1表示“完全保留”,0表示“完全舍弃”。
在这个问题中,细胞状态可能包含当前主语的性别,因此正确的代词可以被选择出来。当看到新的主语,希望忘记旧的主语,具体见图10;
其中ht-1表示的是上一个cell的输出,xt表示的是当前细胞的输入。σ表示sigmod函数。
输入门
下一步是决定让多少新的信息加入到cell状态中来。实现这个需要包括两个步骤:首先,一个叫做“inputgatelayer”的sigmoid层决定哪些信息需要更新;一个tanh层生成一个向量,也就是备选的用来更新的内容,Ct
Figure BDA0002862010090000081
其中,ft为遗忘门的输出,即模型会从细胞状态中丢弃的信息,σ表示激活函数,Ct-1表示旧的细胞状态,it为输入门门控,即控制当前时刻需要保留哪些之前学到的东西,
Figure BDA0002862010090000082
表示当前时刻学到的东西;
所述it的表达式为:
it=σ(Wi·[ht-1,xt]+bi)
其中,σ表示激活函数,Wi表示输入门门控的权重矩阵,ht-1表示上一细胞的输出,xt表示当前细胞的输出,bi表示输入门门控的偏置项。
所述
Figure BDA0002862010090000091
的表达式为:
Figure BDA0002862010090000092
其中,tanh表示激活函数,Wc表示学习新知识时的权重矩阵,ht-1表示上一细胞的输出,xt表示当前细胞的输出,bc表示学习新知识时的偏置项。
输入门的作用就是把旧状态与ft相乘,丢弃掉需要遗忘的信息,然后加上
Figure BDA0002862010090000093
这个就是新的细胞状态候选值。
在下一步,把这两部分联合起来,对cell的状态进行一个更新。现在是更新旧细胞状态的时间了,Ct-1更新为Ct。前面的步骤已经决定了将会做什么,现在就是实际去完成。
把旧状态与ft相乘,丢弃掉确定需要丢弃的信息。接着加上it*C-t。这就是新的候选值,根据决定更新每个状态的程度进行变化。
在语言模型的例子中,这就是实际根据前面确定的目标,丢弃旧代词的性别信息并添加新的信息的地方,具体见图11。
输出门
最终,需要确定输出什么值。这个输出将会基于的细胞状态,但是也是一个过滤后的版本。首先,运行一个sigmoid层来确定细胞状态的哪个部分将输出出去。接着,把细胞状态通过tanh进行处理(得到一个在-1到1之间的值)并将它和sigmoid门的输出相乘,最终仅仅会输出确定输出的那部分。
ot=σ(Wo·[ht-1,xt]+bo)
ht=ot*tanh(Ct)
其中,W0表示输出门的权重矩阵,b0表示输出门的偏置项,ot表示需要输出的细胞状态。
第三步,利用标注后的文本信息对元模型进行训练,得到小样本病历的文本后结构化模型。
第四步,利用文本后结构化模型识别的A病种的文本信息。如此一来,便可采用小样本进行训练,实现对A病种的文本信息的识别。
上述实施例仅为本发明的优选实施例,并非对本发明保护范围的限制,但凡采用本发明的设计原理,以及在此基础上进行非创造性劳动而作出的变化,均应属于本发明的保护范围之内。

Claims (7)

1.一种跨病种的小样本临床医疗文本后结构化处理方法,其特征在于,包括以下步骤:
获取A病种的小样本文本信息和B病种的大样本文本信息,并采用文本困惑度的文本聚类获取待标注信息,对待标注信息进行标注,得到标注后的文本信息;标注后的所述文本信息包括标准问题列表、目标问题列表和小样本标注语料;
在pytorch神经网络框架下,利用元学习和LSTM模型训练是否型问题的信息抽取模型,得到元模型;
利用标注后的文本信息对元模型进行训练,得到小样本病历的文本后结构化模型;
利用文本后结构化模型识别的A病种的文本信息。
2.根据权利要求1所述的一种跨病种的小样本临床医疗文本后结构化处理方法,其特征在于,所述获取A病种的小样本文本信息和B病种的大样本文本信息,并采用文本困惑度的文本聚类获取待标注信息,包括以下步骤:
分别获取A病种的小样本文本信息和B病种的大样本文本信息;
将A病种的小样本文本信息和B病种的大样本文本信息的符号标准化,并按段落、句子、文本类型进行切分,得到切分后的文本数据;
将切分后的文本数据转换成二进制,得到二进制数据;
结合BERT模型,并按A病种、B病种依次利用二进制数据进行逐个训练,得到BERT语言模型;
利用tensorflow框架求得A病种的小样本文本信息和B病种的大样本文本信息的困惑度,并滤除大于预设阈值的句子,构成差异集合;
利用BERT语言模型求得差异集合中任一句子的局向量;
采用层次聚类算法对局向量进行聚类,得到待标注信息。
3.根据权利要求1或2所述的一种跨病种的小样本临床医疗文本后结构化处理方法,其特征在于,所述LSTM模型采用依次连接的输入门、遗忘门和输出门。
4.根据权利要求3所述的一种跨病种的小样本临床医疗文本后结构化处理方法,其特征在于,所述遗忘门满足以下关系:
ft=σ(Wf·[ht-1,xt]+bf)
其中,ht-1表示上一细胞的输出,xt表示当前细胞的输出,σ表示激活函数,Wf表示遗忘门的权重矩阵,bf表示遗忘门的偏置项
5.根据权利要求3所述的一种跨病种的小样本临床医疗文本后结构化处理方法,其特征在于,所述输入门满足以下关系:
Figure FDA0002862010080000021
其中,ft为遗忘门的输出,即模型会从细胞状态中丢弃的信息,σ表示激活函数,Ct-1表示旧的细胞状态,it为输入门门控,即控制当前时刻需要保留哪些之前学到的东西,
Figure FDA0002862010080000022
表示当前时刻学到的东西;
所述it的表达式为:
it=σ(Wi·[ht-1,xt]+bi)
其中,σ表示激活函数,Wi表示输入门门控的权重矩阵,ht-1表示上一细胞的输出,xt表示当前细胞的输出,bi表示输入门门控的偏置项;
所述
Figure FDA0002862010080000023
的表达式为:
Figure FDA0002862010080000024
其中,tanh表示激活函数,Wc表示学习新知识时的权重矩阵,ht-1表示上一细胞的输出,xt表示当前细胞的输出,bc表示学习新知识时的偏置项。
6.根据权利要求4所述的一种跨病种的小样本临床医疗文本后结构化处理方法,其特征在于,所述输出门满足以下关系:
ot=σ(Wo·[ht-1,xt]+bo)
ht=ot*tanh(Ct)
其中,W0表示输出门的权重矩阵,b0表示输出门的偏置项,ot表示需要输出的细胞状态。
7.根据权利要求1所述的一种跨病种的小样本临床医疗文本后结构化处理方法,其特征在于,对待标注信息进行标注,包括问题、问题类型和唯一标识。
CN202011567629.6A 2020-12-26 2020-12-26 一种跨病种的小样本临床医疗文本后结构化处理方法 Pending CN112685561A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011567629.6A CN112685561A (zh) 2020-12-26 2020-12-26 一种跨病种的小样本临床医疗文本后结构化处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011567629.6A CN112685561A (zh) 2020-12-26 2020-12-26 一种跨病种的小样本临床医疗文本后结构化处理方法

Publications (1)

Publication Number Publication Date
CN112685561A true CN112685561A (zh) 2021-04-20

Family

ID=75451821

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011567629.6A Pending CN112685561A (zh) 2020-12-26 2020-12-26 一种跨病种的小样本临床医疗文本后结构化处理方法

Country Status (1)

Country Link
CN (1) CN112685561A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114357144A (zh) * 2022-03-09 2022-04-15 北京大学 基于小样本的医疗数值抽取和理解方法及装置
CN115660871A (zh) * 2022-11-08 2023-01-31 上海栈略数据技术有限公司 医学临床过程无监督建模方法、计算机设备、存储介质
CN117809792A (zh) * 2024-02-28 2024-04-02 神州医疗科技股份有限公司 一种跨病种迁移时病种数据结构化的方法及***

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1462950A1 (en) * 2003-03-27 2004-09-29 Sony International (Europe) GmbH Method of analysis of a text corpus
CN109686445A (zh) * 2018-12-29 2019-04-26 成都睿码科技有限责任公司 一种基于自动标签和多模型融合的智能导诊算法
CN109783604A (zh) * 2018-12-14 2019-05-21 平安科技(深圳)有限公司 基于少量样本的信息提取方法、装置和计算机设备
CN110175329A (zh) * 2019-05-28 2019-08-27 上海优扬新媒信息技术有限公司 一种样本扩充的方法、装置、电子设备与存储介质
US20190267113A1 (en) * 2016-10-31 2019-08-29 Preferred Networks, Inc. Disease affection determination device, disease affection determination method, and disease affection determination program
CN111783451A (zh) * 2020-06-30 2020-10-16 北京百度网讯科技有限公司 用于增强文本样本的方法和装置
CN112116957A (zh) * 2020-08-20 2020-12-22 澳门科技大学 基于小样本的疾病亚型预测方法、***、装置及介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1462950A1 (en) * 2003-03-27 2004-09-29 Sony International (Europe) GmbH Method of analysis of a text corpus
US20190267113A1 (en) * 2016-10-31 2019-08-29 Preferred Networks, Inc. Disease affection determination device, disease affection determination method, and disease affection determination program
CN109783604A (zh) * 2018-12-14 2019-05-21 平安科技(深圳)有限公司 基于少量样本的信息提取方法、装置和计算机设备
CN109686445A (zh) * 2018-12-29 2019-04-26 成都睿码科技有限责任公司 一种基于自动标签和多模型融合的智能导诊算法
CN110175329A (zh) * 2019-05-28 2019-08-27 上海优扬新媒信息技术有限公司 一种样本扩充的方法、装置、电子设备与存储介质
CN111783451A (zh) * 2020-06-30 2020-10-16 北京百度网讯科技有限公司 用于增强文本样本的方法和装置
CN112116957A (zh) * 2020-08-20 2020-12-22 澳门科技大学 基于小样本的疾病亚型预测方法、***、装置及介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
XI SHERYL ZHANG ET AL: "MetaPred: Meta-Learning for Clinical Risk Prediction with Limited Patient Electronic Health Records", 《ARXIV》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114357144A (zh) * 2022-03-09 2022-04-15 北京大学 基于小样本的医疗数值抽取和理解方法及装置
CN114357144B (zh) * 2022-03-09 2022-08-09 北京大学 基于小样本的医疗数值抽取和理解方法及装置
CN115660871A (zh) * 2022-11-08 2023-01-31 上海栈略数据技术有限公司 医学临床过程无监督建模方法、计算机设备、存储介质
CN117809792A (zh) * 2024-02-28 2024-04-02 神州医疗科技股份有限公司 一种跨病种迁移时病种数据结构化的方法及***
CN117809792B (zh) * 2024-02-28 2024-05-03 神州医疗科技股份有限公司 一种跨病种迁移时病种数据结构化的方法及***

Similar Documents

Publication Publication Date Title
CN110032648B (zh) 一种基于医学领域实体的病历结构化解析方法
CN111738003B (zh) 命名实体识别模型训练方法、命名实体识别方法和介质
CN109858041B (zh) 一种半监督学习结合自定义词典的命名实体识别方法
KR102008845B1 (ko) 비정형 데이터의 카테고리 자동분류 방법
CN112685561A (zh) 一种跨病种的小样本临床医疗文本后结构化处理方法
CN110210037A (zh) 面向循证医学领域的类别检测方法
US20050027664A1 (en) Interactive machine learning system for automated annotation of information in text
Suissa et al. Text analysis using deep neural networks in digital humanities and information science
CN107729309A (zh) 一种基于深度学习的中文语义分析的方法及装置
CN112115721A (zh) 一种命名实体识别方法及装置
CN111222318B (zh) 基于双通道双向lstm-crf网络的触发词识别方法
Li et al. UD_BBC: Named entity recognition in social network combined BERT-BiLSTM-CRF with active learning
CN112541337B (zh) 一种基于递归神经网络语言模型的文档模板自动生成方法及***
CN111222338A (zh) 基于预训练模型和自注意力机制的生物医学关系抽取方法
CN111914556A (zh) 基于情感语义转移图谱的情感引导方法及***
CN115587594B (zh) 网络安全的非结构化文本数据抽取模型训练方法及***
CN113221569A (zh) 一种毁伤试验文本信息抽取方法
Zhang et al. Effective character-augmented word embedding for machine reading comprehension
CN114756681A (zh) 一种基于多注意力融合的评教文本细粒度建议挖掘方法
CN111191439A (zh) 自然语句生成的方法、装置、计算机设备和存储介质
CN114091406A (zh) 一种面向知识抽取的智能文本标注方法及***
US20220156489A1 (en) Machine learning techniques for identifying logical sections in unstructured data
AU2019101147A4 (en) A sentimental analysis system for film review based on deep learning
CN115659981A (zh) 一种基于神经网络模型的命名实体识别方法
CN114510943A (zh) 一种基于伪样本重放的增量式命名实体识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210420

RJ01 Rejection of invention patent application after publication