CN110322962A

CN110322962A - 一种自动生成诊断结果的方法、***及计算机设备

Info

Publication number: CN110322962A
Application number: CN201910594042.5A
Authority: CN
Inventors: 雷大江; 张莉萍; 李智星; 林智敏; 陈浩; 张玉枫; 吴渝
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2019-07-03
Filing date: 2019-07-03
Publication date: 2019-10-11

Abstract

本发明属于计算机技术领域，一种自动生成诊断结果的方法、***及计算机设备，所述方法包括采集病例的病史小结，并对病史小结进行预处理；将预处理后的语料构建预训练词向量模型Word2Vec，得到向量表示的语料；构建神经网络结构，并将向量表示的预料输入该神经网络，其中该神经网络结构包括双向门控循环单元BiGRU、卷积神经网络卷积神经网络CNN和注意力机制Att；设置阈值来选择神经网络输出的多分类概率矩阵中的标签，选择的标签即为诊断结果；本发明相比于传统的词袋模型，能够提取更多的特征且更有效；最后设置阈值来处理多标签问题，并且加上相关性约束，解决诊断结果的冲突，使得结果的生成也更为合理。

Description

一种自动生成诊断结果的方法、***及计算机设备

技术领域

本发明深度学习领域，一种自动生成诊断结果的方法、***及计算机设备。

背景技术

辅助生殖在现代医学中，获得了飞速的发展。辅助生殖旨在通过对***、***、胚胎的人工操作，帮助没有生育能力的夫妇妊娠。该技术包括人工授精和体外受精-胚胎移植。夫精宫腔内人工受精是指收集丈夫的***，直接或经处理以后注入女性子宫内的一种助孕技术，因其实用性、非侵入性、廉价成本，广泛应用于***不育的治疗当中。在***不育的治疗过程中，极为重要的一环，是先对患者进行问诊，以及进行必要的检查，医生将诊断情况记录下来，这便是病历。有经验的医生看到病历情况，可以根据医学知识，总结出可行的诊断结果，但是医生毕竟时间精力有限，如此众多的病历全部一一阅完，费时费力，且也难免存在误判等情况，所以如果能够针对病历，自动提取信息，生成诊断结果，对于辅助医生决策是有极大好处。

影响***不育的因素非常复杂，与患者过往病史和身体状况密切相关，这些都体现在病历诊断单以及最后的病史小结上，着重注意患者年龄，***时间长度，以及过往病史和曾经做过的治疗情况。针对以上信息，进行文本预处理，提取文本信息，构建模型，训练并生成诊断结果。

本发明引入深度学习的方法对文本内容提取有用信息，并构建模型训练生成诊断结果。面对多标签问题，设置阈值来选取，只要某个类别概率大于设定阈值就把它加入标签池，并加上相关性约束，解决标签冲突问题，使得结果更加合理。

发明内容

为了辅助医生对病历做出决策判断，本发明提出了一种自动生成诊断结果的方法、***及计算机设备，所述方法包括：

S1、采集病例的病史小结，并对病史小结进行预处理；

S2、将预处理后的语料构建预训练词向量模型Word2Vec，得到向量表示的语料；

S3、构建神经网络结构，并将向量表示的预料输入该神经网络；该神经网络结构包括双向门控循环单元(bidirectionalgated recurrent units，BiGRU)、卷积神经网络(convolutionalneural networks，CNN)和注意力机制(Attention，简写Att)；

S4、设置阈值来选择神经网络输出的多分类概率矩阵中的标签，选择的标签即为诊断结果。

解析电子病例时，按照字段解析并提取结构化信息，并将电子病历信息转化为结构化文本中的一条记录；并对解析后的电子病例文本进行文本分词、清除标点符号以及去除停用词。

采用pdfplumber电子病历进行解析，将文本按照从上至下，从左至右的顺序提取，并将解析后的pdf文本进行拼接，形成一个文本字符串。

使用gensim库的Word2vec模型，无监督训练词向量，把每个形成一个文本字符串的词都用一个128维的向量表示。

进一步的，所述步骤3包括：

将病史小结的word2id形式输入神经网络的嵌入层，转为词向量矩阵；输入为分词后的病史小结word2id作为输入，文本转为文本字典里的顺序id，因为只有数值才能入模；

使用BiGRU双向循环网络提取上下文特征；

对于BiGRU提取得到的特征用CNN卷积获取局部信息，并采用最大和均值池化，减少特征维度；

对于BiGRU提取到的特征采用Attention机制，给特定位置的信息赋予更高的权重；特定位置指的是，算法本身认为比较重要的词，非人工设定，这些特定位置为神经网络引入的Attention机制决定。

进一步的，阈值的选定依据于评价指标的F1-score，使得F1-score取值最大的阈值便是最优阈值，F1-score计算公式如下：

P为精确率，计算公式为：

R为召回率，计算公式为：

其中，T_p为神经网络判断正确的数量；F_p为神经网络判断错误或多判的数量；F_n为神经网络漏判的数量。

一种自动生成诊断结果的***，包括数据采集模块、数据预处理模块、词向量生成器、基于神经网络的诊断结果生成器以及诊断结果选择器；其中：

所述数据采集模块用于采集病例中的病史小结；

所述数据预处理模块用于对数据采集模块采集的病史小结转化为结构化文本中的一条记录，并对该条记录进行文本分词、清除标点符号以及去除停用词；

所述词向量生成器用于使用gensim库的Word2vec模型对预处理模块输出的文本进行无监督训练词向量，把每个词都用一个128维的向量表示；

所述基于卷积神经网络的诊断结果生成器用于对输入的词向量进行诊断预测；

所述诊断结果选择器用于判断基于基于神经网络的诊断结果生成器输出的多个诊断结果中选择一个作为诊断结果。

一种自动生成诊断结果的计算机设备，包括存储器、处理器以及储存在存储器上可以在处理器上运行的计算机程序，所述计算机程序实现权利上述方法的任一方法。

本发明相比于传统的词袋模型，能够提取更多的特征且更有效；最后设置阈值来处理多标签问题，并且加上相关性约束，解决诊断结果的冲突，使得结果的生成也更为合理。

附图说明

图1是本发明生成诊断结果的模型设计图；

图2是本发明实施例提供的根据病历文本信息自动生成诊断结果流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提供了一种自动生成诊断结果的方法，如图2，包括以下步骤：

S1、采集病例的病史小结，并对病史小结进行预处理；

S3、构建神经网络结构，并将向量表示的预料输入该神经网络；如图1，该神经网络结构包括双向门控循环单元BiGRU、卷积神经网络卷积神经网络和注意力机制Att；

对对病史小结进行预处理包括解析解析电子病例，并对解析后的电子病例文本进行进行文本分词、清除标点符号以及去除停用词；在本实施例中，采用pdfplumber进行电子病历进行解析；pdfplumber是一种基于python的pdf开源解析库，能够将文本按照从上至下，从左至右的顺序提取。将解析后的pdf文本进行拼接，形成一个较长的文本字符串；使用jieba库对中文文本进行分词处理，然后收集中文停用词，在病历中的文本中去除停用词。

使用gensim库的Word2vec模型，无监督训练词向量，把每个词都用一个128维的向量来表示；如图1，采用词嵌入(Eembedding)层将每个词表示为向量形式，即如图2中将文本由Word格式转换为idx格式，表示为Word—＞idx，再输入词嵌入层，将语料表示为词向量；

Word2vec使用了CBOW与Skip-Gram来训练模型并得到词向量，但是并没有使用传统的DNN模型。最先优化使用的数据结构是用霍夫曼树来代替隐藏层和输出层的神经元，霍夫曼树的叶子节点起到输出层神经元的作用，叶子节点的个数即为词汇表的小大。而内部节点则起到隐藏层神经元的作用。

CBOW模型的训练输入是某一个特征词的上下文相关的词对应的词向量，而输出就是这特定的一个词的词向量。比如这段话“An efficient method for learning highquality distributed vector”，上下文大小取值为4，特定的这个词是“Learning”，也就是我们需要的输出词向量，上下文对应的词有8个，前后各4个，这8个词是模型的输入。由于CBOW使用的是词袋模型，因此这8个词都是平等的，也就是不考虑他们和我们关注的词之间的距离大小，只要在上下文之内即可。

Skip-Gram模型和CBOW的思路是反着来的，即输入是特定的一个词的词向量，而输出是特定词对应的上下文词向量。还是上面的例子，我们的上下文大小取值为4，特定的这个词“Learning”是我们的输入，而这8个上下文词则是的输出。

对分词处理后的文本做词嵌入，每个词都转为128维的高维向量，并且使用预训练词向量模型作为权重参数。

使用BiGRU提取上下文信息，GRU网络结构含有两个门，更新门和重置门。更新门用于控制前一时刻的状态信息被带入到当前状态中的程度，更新门的值越大说明前一时刻的状态信息带入越多。重置门用于控制忽略前一时刻的状态信息的程度，重置门的值越小说明忽略得越多。GRU前向传播具体公式如下：

Z_t＝σ(W_zX_t+U_zh_t-1)；

r_t＝σ(W_tX_t+U_th_t-1)；

～h_t＝tanh[WX_t+U(r_t*h_t-1]；

h_t＝(1-Z_t)*h_t-1+Z_t*～h_t；

其中，Z_t表示更新门，更新激活时的逻辑门；W_Z表示更新门的权重；W_t表示遗忘权重；W表示整体权重；X_t表示当前时刻的输入；r_t表示复位门，决定候选激活时，是否要放弃以前的候选激活～h_t；U_Z表示更新门参数；U_t表示遗忘参数；U表示门控参数；σ表示激活函数；h_t-1表示前一时刻的隐层输出；h_t表示当前时刻隐层的输出；*为矩阵的乘积符号。

GRU结构本身含有记忆功能，加上双向可以更好的提取上下文信息。

使用CNN卷积网络对BiGRU提取得到的特征再次提取局部信息，并加以最大和均值池化，降低特征维度。

同时，对于BiGRU的输出使用Attention机制，给文本中的每个词分布一个权重，类似于人的注意力，这样有利于把握重要信息。

本实施例中构建神经网络的伪代码包括：

算法：BiGRU+CNN+ATT模型多标签分类模型

输入：text，字符串文本，本实施例是一个病史小结

输出：类别概率矩阵，有多少类别就有多少列，各列概率和恒为1。

流程：

1.词语转为idx，list_tokenized＜-tokenizer.texts_to_sequences

2.获取预训练模型权重

1)初始化权重矩阵embedding_matrix＜-np.zeros((m，n))

2)遍历文本每个词语，获取预训模型中该词对应向量

for word，i in tqdm(word_index.items())：

embedding_vector＜-embeddings_index[word]

embedding_matrix[i]<-embedding_vector

return embedding_matrix

3.idx嵌入Embedding层

embedding_layer<-Embedding(nb_words+1,embedding_dims,weights＝[embedding_matrix])

4.BiGRU提取特征

GRU_layer<-Bidirectional(GRU())

5.CNN提取特征

CNN_layer<-Conv1D()

CNN_avg<-avgpool()

CNN_max<-maxpool()

CNN_FEAT<-concat([CNN_max,CNN_avg])

6.Attention机制

ATT_feat<-Attention()

7.加入一些文本统计特征

1)文本长度text_len

2)文本词的数目word_cnt

3)文本句子数sentence_cnt

4)文本平均词长mean_word_len

5)文本平均句子长度mean_sentence_len

8.合并特征输入到全连接层

feat<-concat([ATT_feat,CNN_feat,static_feat])

x<-dense()

9.使用softmax进行分类输出

out<-dense(class_num,“softmax”)

在多层全连接之后使用softmax得到类别概率矩阵，然后设置阈值来取到对应的标签，也就是诊断结果；

因为标签间存在冲突性，比如，新鲜周期和复苏周期不能共存，制定一些规则来约束，使得结果生成的更为合理，本发明采用设置阈值来选择神经网络输出的多分类概率矩阵中的标签，选择的标签即为诊断结果，阈值采用F1-score取值最大的值作为阈值，F1-score的值表示为：

其中，P为神经网络结构的精确率，R为神经网络结构的召回率。

P为精确率，计算公式为：

R为召回率，计算公式为：

本发明还提出一种自动生成诊断结果的***，包括数据采集模块、数据预处理模块、词向量生成器、基于神经网络的诊断结果生成器以及诊断结果选择器；其中：

所述数据采集模块用于采集病例中的病史小结；

进一步的，所述基于卷积神经网络的诊断结果生成器包括嵌入单元、双向门控循环单元、卷积神经网络单元以及注意力机制单元；其中：

所述嵌入单元用于将输入的词向量转化为词向量矩阵；

所述双向门控循环单元用于提取词向量矩阵的上下文特征；

所述卷积神经网络单元用于根据提取的上下文特征获取局部信息，并采用最大和均值池化，减少特征维度；

所述注意力机制单元用于对特定位置的信息赋予更高的权重；

在实现该基于卷积神经网络的诊断结果生成器时，可利用方法中提到的伪代码进行构建基于卷积神经网络的诊断结果生成器时。

进一步的，所述诊断结果选择器利用F1-score取值最大的值作为诊断结果。

本发明还提出一种自动生成诊断结果的计算机设备，包括存储器、处理器以及储存在存储器上可以在处理器上运行的计算机程序，所述计算机程序实现权利上述方法的任一方法。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种自动生成诊断结果的方法，其特征在于，包括：

S1、采集病例的病史小结，并对病史小结进行预处理；

S3、构建神经网络结构，并将向量表示的预料输入该神经网络；该神经网络结构包括双向门控循环单元BiGRU、卷积神经网络卷积神经网络CNN和注意力机制Att；

2.根据权利要求1所述的一种自动生成诊断结果的方法，其特征在于，步骤S1包括：解析电子病例，按照字段解析并提取结构化信息，并将电子病历信息转化为结构化文本中的一条记录；并对解析后的电子病例文本进行文本分词、清除标点符号以及去除停用词。

3.根据权利要求2所述的一种自动生成诊断结果的方法，其特征在于，采用pdfplumber电子病历进行解析，将文本按照从上至下，从左至右的顺序提取，并将解析后的pdf文本进行拼接，形成一个文本字符串。

4.根据权利要求1所述的一种自动生成诊断结果的方法，其特征在于，步骤S2包括：使用gensim库的Word2vec模型，无监督训练词向量，把每个词都用一个128维的向量表示。

5.根据权利要求1所述的一种自动生成诊断结果的方法，其特征在于，所述步骤3包括：

将文本的word2id传入神经网络的嵌入层，转为词向量矩阵；

使用双向门控循环单元BiGRU提取上下文特征；

对于双向门控循环单元BiGRU提取得到的特征用CNN卷积获取局部信息，并采用最大和均值池化，减少特征维度；

对于双向门控循环单元BiGRU提取到的特征采用Attention机制，给特定位置的信息赋予更高的权重。

6.根据权利要求1所述的一种自动生成诊断结果的方法，其特征在于，步骤S4中的阈值采用F1-score取值最大的值，F1-score表示为：

其中，F1为F1-score的值；P为神经网络结构的精确率，R为神经网络结构的召回率。

7.一种自动生成诊断结果的***，其特征在于，所述包括数据采集模块、数据预处理模块、词向量生成器、基于神经网络的诊断结果生成器以及诊断结果选择器；其中：

所述数据采集模块用于采集病例中的病史小结；

8.根据权利要求7所述的一种自动生成诊断结果的***，其特征在于，所述基于卷积神经网络的诊断结果生成器包括嵌入单元、双向门控循环单元、卷积神经网络单元以及注意力机制单元；其中：

所述嵌入单元用于将输入的词向量转化为词向量矩阵；

所述双向门控循环单元用于提取词向量矩阵的上下文特征；

所述注意力机制单元用于对特定位置的信息赋予更高的权重。

9.根据权利要求7所述的一种自动生成诊断结果的***，其特征在于，所述诊断结果选择器利用F1-score取值最大的值作为诊断结果。

10.一种自动生成诊断结果的计算机设备，其特征在于，包括存储器、处理器以及储存在存储器上可以在处理器上运行的计算机程序，所述计算机程序实现权利要求1～6所述的任一方法。