CN113035311B

CN113035311B - 一种基于多模态注意力机制的医学图像报告自动生成方法

Info

Publication number: CN113035311B
Application number: CN202110340777.2A
Authority: CN
Inventors: 林宇明; 杨颖�; 程良伦; 赵艮平; 张煜乾
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2021-03-30
Filing date: 2021-03-30
Publication date: 2023-05-23
Anticipated expiration: 2041-03-30
Also published as: CN113035311A

Abstract

本发明公开了一种基于多模态注意力机制的医学图像报告自动生成方法，使用关键词数据集训练图像特征提取模型，并用该模型提取与图像描述相关的视觉特征，并基于关键词注意力机制和空间注意力机制，利用多模态注意力机制生成联合的上下文向量；上下文向量被输入到了一个句子LSTM，展开几步，然后在每一步都会产生一个主题向量，主题向量表示了所需要生成的句子的语义；给定一个主题向量，单词LSTM以它作为输入，然后生成一个单词序列，用于形成一个句子，这个过程的终止由句子LSTM控制；最后将形成的所有句子组合到一起，列出标签列表，就完成了医学图像报告的自动生成。该方法能有效解决撰写医学图像报告耗时费力，容易出错的问题。

Description

一种基于多模态注意力机制的医学图像报告自动生成方法

技术领域

本发明涉及神经网络、图像处理以及医疗领域，具体涉及一种基于多模态注意力机制的医学图像报告自动生成方法。

背景技术

医学成像广泛用于临床实践中用于诊断和治疗，对于没有经验的医生来说，报告写作可能容易出错，而对于有经验的医生来说，报告写作也是一件耗费时间和乏味的工作。医学图像报告的自动生成中存在一些挑战：首先，完整的报告包含多种异构形式的信息，包括发现和标记；其次，医学图像中的异常区域难以识别。

发明内容

本发明的目的是提供一种基于多模态注意力机制的医学图像报告自动生成方法，用以生成正确完整的医学图像分析报告，提高识别的准确率。

为了实现上述任务，本发明采用以下技术方案：

一种基于多模态注意力机制的医学图像报告自动生成方法，包括以下步骤：

构建关键词类别数据集，关键词类别数据集中的每个样本包括医学图像、对应的描述语句以及描述语句中关键词的类别；

构建图像特征提取模型，基于所述关键词数据集训练，训练图像特征提取模型；当接收到输入的医学图像后，训练好的图像特征提取模型用于提取医学图像的图像空间特征、图像全局特征和预测的关键词特征；

将提取到的图像全局特征和关键词特征送入关键词注意力机制，得图像的语义特征；将提取到的图像全局特征和图像空间特征送入空间注意力机制，得到图像的视觉特征；

利用多模态注意力机制将所述视觉特征和语义特征结合起来，同时捕获图像的视觉和语义信息，生成联合的上下文向量；

将上下文向量输入到一个句子LSTM中，通过多步展开，在每一步产生每个句子的主题向量；

基于每个句子的主题向量，通过单词LSTM生成每个句子的单词序列，单次序列用于形成一个句子；最后将形成的所有句子组合到一起，列出标签列表，完成医学图像报告的自动生成。

进一步地，所述构建关键词类别数据集，包括：

对于医学图像数据集{I，C}，I，C分别表示一张医学图像和对应的描述语句；通过关键词的词表构建，词频过滤，停用词、词性过滤，同义词合并，类别融合的步骤，构建关键词类别数据集{I，C，K}，其中K代表关键词类别。

进一步地，所述图像特征提取模型利用预训练好的ResNet网络，输入关键词类别数据集，对特征提取模型进行训练，使得模型所生成的特征与真实特征之间的多标签分类损失最小；在训练过程中，式1为基于关键词的图像理解的目标函数，式2表示最终的目标函数，有：

式中，θ是模型的参数；I为给定的医学图片，C为生成的描述语句，K为描述语句中的关键词类别；p(C，K|I；θ)表示给定医学图像I以及模型参数θ得到描述语句C和关键词类别集合K的概率；p(C|I，K；θ₁)为基于图片特征和关键词的语言模型；p(K|I；θ₂)为基于图片特征的关键词模型；θ₁、θ₂分别为语言模型和关键词模型参数。

进一步地，所述图像特征提取模型在训练过程中，损失函数为：

对于关键词类别数据集{I，C，K}，将数据集分为一个个的子集mini-batch；在损失函数中，n为mini-batch的数量，λ为L₂正则的权重，m为关键词类别总数，η为惩罚系数，有：

式中，x_i为单张医学图像，y_i＝[y_i1，y_i2，…，y_ij，…，y_im]表示图片对应的关键词标签，j为关键词类别，y_ij的取值为0或1；p_ij代表第i张医学图中包含关键字类别j的概率；r_i ^j为训练过程中的一个自适应权重，r_i ^j＝0.9^t-1，t取决于本轮和上一轮mini-batch的训练状态，如果两次状态一致则t＝t+1，如果不一致则t＝1；θ为模型参数，L₂(θ)表示θ的L2范数。

进一步地，所述关键词注意力机制、空间注意力机制的公式表达如下：

式中，ReLU是修正线性单元激活函数；k_i是关键词对应词向量特征矩阵的第i个分量；W_a为待学习的权重，W_ka、W_ha为待学习的权重矩阵；h_t为t时刻的隐藏状态；

为计算得到的k_i的权重；/>

为未归一化的权重，n为关键词特征k的分量个数；a_t＝[a_0，t，a_1，t，…，a_n，t]为归一化后的权重。

进一步地，所述利用多模态注意力机制将所述视觉特征和语义特征结合起来，同时捕获图像的视觉和语义信息，生成联合的上下文向量，包括：

联合的上下文向量ctx^(s)由两个注意力机制联合生成，具体如下：

式中，w_o和b_o为待学习的权重和偏置项；k_t和s_t分别表示t时刻应用了关键词注意力机制的关键词特征和空间注意力特征的空间特征；w_s、w_k和w_h为待学习的权重矩阵；

为隐层状态。

进一步地，所述句子LSTM是一个单层LSTM，以上下文向量ctx作为输入，然后通过主题生成器为单词LSTM生成主题向量

在主题生成器中，使用深度输出层，通过结合隐层状态/>

和联合的上下文向量ctx^(s)来加强主题向量t^(s)中的上下文信息：

其中

和W_t，ctx为权重参数。/>

进一步地，每个句子的单词由单词LSTM生成，将句子LSTM产生的主题向量t^(s)和特殊的START符号作为单词LSTM的第一第二输入，剩余的输入就是词序列；单词LSTM的隐层状态h_word将直接被用来生成词分布；在每个单词LSTM生成其词分布后，得到的句子就是生成序列的连接。

进一步地，通过句子LSTM中的停止控制组件决定是继续或停止生成描述；停止控制组件是使用一个深度输出层来控制句子LSTM是否继续，这个层以上一步的和当前的隐层状态作为输入，并且生成分布来决定停止或继续生成；当句子LSTM将停止生成新的主题向量时，而单词LSTM也将停止产生词。

一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，处理器执行计算机程序时实现前述基于多模态注意力机制的医学图像报告自动生成方法的步骤。

一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序被处理器执行时实现前述基于多模态注意力机制的医学图像报告自动生成方法的步骤。

与现有技术相比，本发明具有以下技术特点：

本发明建立一个基于关键词的图像特征提取模型，利用空间注意力机制和关键词注意力机制，引导模型定位异常的区域并为它们生成叙述，利用层次化的LSTM网络以生成长段落；通过分析医学图像的视觉特征和语义特征之间的相互关联信息，使模型理解医学图像和关键词的含义，以此生成正确、完整的医学图像分析报告。

附图说明

图1为本发明方法的流程示意图；

图2为构造关键词类别数据集的流程示意图。

具体实施方式

参见图1，本发明公开了一种基于多任务分层模型的医学图像报告自动生成方法，主要用以解决人工撰写医学图像报告耗时费力，容易出错的问题。一份完整的医学影像诊断报告是由文字描述(长段)和标签列表组成。本发明提出的基于多模态注意力机制的医学图像报告自动生成方法，包含一个基于关键词的图像特征提取模型和一个层次化的LSTM网络，用于自动预测标签并生成长段落的描述文字。本方法包括以下步骤：

步骤1，构建关键词类别数据集，关键词类别数据集中的每个样本包括医学图像、对应的描述语句以及描述语句中关键词的类别。

目前开源数据集中只提供了图片以及相对应的描述语句，所以需要自行构建关键词类别数据集。

对于医学图像数据集{I，C}，I，C分别表示一张医学图像和对应的描述语句；描述语句中的关键词具有高频性、代表性、集成性等特点。利用这些特点，通过关键词的词表构建，词频过滤，停用词、词性过滤，同义词合并，类别融合等步骤，构建关键词类别数据集；构建过程如图2所示。

对医学图像数据集中所有图片都进行上述操作，从而将医学图像数据集扩展为包括关键词类别的关键词类别数据集{I，C，K}，其中K代表关键词类别。

步骤2，构建图像特征提取模型，基于所述关键词数据集训练，训练图像特征提取模型；当接收到输入的医学图像后，训练好的图像特征提取模型用于提取医学图像的图像空间特征s、图像全局特征v和预测的关键词特征k。

为了充分利用视觉特征和语义特征，本发明通过构建基于关键词的图像特征提取模型，利用关键词提取与图像描述相关的视觉特征；图像特征提取模型的训练过程包括：

该图像特征提取模型利用预训练好的ResNet网络，输入关键词类别数据集，对特征提取模型进行训练，使得模型所生成的特征与真实特征之间的多标签分类损失最小；在训练过程中，式1为基于关键词的图像理解的目标函数，式2表示最终的目标函数，有：

式中，θ是模型的参数；I为给定的医学图片，C为生成的描述语句，K为描述语句中的关键词类别；p(C，K|I；θ)表示给定医学图像/以及模型参数θ得到描述语句C和关键词类别集合K的概率；p(C|I，K；θ₁)为基于图片特征和关键词的语言模型，表示给定医学图像I、关键词类别K和模型参数θ₁得到的描述语句C的概率；p(K|I；θ₂)为基于图片特征的关键词模型；θ₁、θ₂分别为语言模型和关键词模型参数。

本发明使用关键词多标签分类，由于多标签分类中存在类别不平衡，本方案中的损失函数构建如式3：

对于关键词类别数据集{I，C，K}，可以将数据集分为一个个的子集mini-batch；在损失函数中，n为mini-batch的数量，λ(λ＜1)为L₂正则的权重，m为关键词类别总数，η为惩罚系数，有：

利用训练好的图像特征提取模型，提取输入医学图像的空间特征s和全局特征v，并预测图片所对应的关键词标签，将符合图片特征的标签标为1，不符合的标为0，得到预测的关键词特征k。

步骤3，将提取到的图像全局特征v和关键词特征k送入关键词注意力机制，得图像的语义特征；将提取到的图像全局特征v和图像空间特征s送入空间注意力机制，得到图像的视觉特征。

经过上一个步骤的处理，可以提取到图像空间特征s、图像全局特征v和预测的关键词特征k。目前图像理解方法仅使用视觉特征，但不是所有的视觉特征都能有效提取到，同时可能提取到不准确的视觉特征的问题。因此本发明提出了一种关键词注意力机制，以更好地提取到图像中重要内容的关键词；该关键词注意力机制是基于注意力机制CBAM(Convolutional Block Attention Module，CBAM)，融合通道和空间注意力的注意力模块，使用图像全局特征v和关键词特征k作为关键词注意力机制的输入，最终输出图像的语义特征，即关键词特征值k_t。式4～式6为关键词注意力机制的公式表达：

为计算得到的k_i的权重；/>

为未归一化的权重，n为关键词特征k的分量个数；a_t＝[a_0，t，a_1，t，…，a_n，t]为归一化后的权重；

经过关键词注意力机制，模型就得到了每个关键词的权重，权重越高，表示对该关键词的关注度越高，在生成描述语句的时候应该将此关键词作为重点。

与关键词注意力机制同样重要的还有空间注意力机制。空间注意力机制以图像全局特征v和空间特征s作为输入，可以有效地检测到图像中的模糊对象、小目标、背景等元素，从而引导模型关注图像的重要区域，最终输出更优的视觉特征；空间注意力机制和关键词注意力机制的网络结构相同，两者参数更新方式也相同。

步骤4，利用多模态注意力机制将所述视觉特征和语义特征结合起来，同时捕获图像的视觉和语义信息，生成联合的上下文向量。

步骤3中提到的两个注意力机制具有相互补充的作用，当两种注意力机制有一个出现错误时，另一个可以对其进行矫正，从而得到更佳的视觉特征和语义特征。

本步骤的目的就是通过一定的方式，将获得的视觉特征和语义特征结合起来，同时捕获图像的视觉和语义信息，生成联合的上下文向量；该上下文向量是最终生成报告的基础，在时间步为s的句子LSTM中，联合的上下文向量

由两个注意力机制联合生成，具体如下：

为隐层状态，(s)表示LSTM网络的时间步。

步骤5，将上下文向量输入到一个句子LSTM中，通过多步展开，在每一步产生每个句子的主题向量。

在步骤4得到了上下文向量，接下来从上下文向量开始解码的流程。医学图像报告通常包含多个句子，且每句都集中在一个特定的主题上。因此，本发明提出的模型利用了这种组成结构，用了层次化LSTM生成文本描述的方式：

首先生成一个序列来代表句子的高级主题向量，然后从每个主题向量中生成一个句子；具体过程是，上下文向量被输入到了一个句子LSTM网络中，展开几步，然后在每一步都会产生一个主题向量，主题向量表示了所需要生成的句子的语义。

句子LSTM是一个单层LSTM，以上下文向量

作为输入，然后通过主题生成器为单词LSTM生成主题向量/>

在主题生成器中，使用深度输出层，通过结合隐层状态

和联合的上下文向量ctx^(s)来加强主题向量t^(s)中的上下文信息：/>

其中

和W_t，ctx为权重参数。

步骤6，基于每个句子的主题向量，通过单词LSTM生成每个句子的单词序列，单次序列用于形成一个句子；最后将形成的所有句子组合到一起，列出标签列表，完成了医学图像报告的自动生成。

自动生成的医学图像报告中，每个句子的单词由单词LSTM生成，单词LSTM是一个单层的LSTM，将句子LSTM产生的主题向量t^(s)和特殊的START符号作为单词LSTM的第一第二输入，剩余的输入就是词序列；单词LSTM的隐层状态

将直接被用来生成词分布：

p(word|h_word)∝exp(W_outh_word) 式9

其中word为生成的单词，W_out为参数矩阵；在每个单词LSTM生成其词分布后，得到的句子就是生成序列的连接。

给定一个主题向量，单词LSTM以它作为输入，然后生成一个单词序列，用于形成一个句子；句子LSTM中的停止控制组件决定是继续或停止生成描述。

在停止控制组件，也是使用一个深度输出层来控制句子LSTM是否继续，这个层以上一步的隐层状态

和当前的隐层状态/>

作为输入，并且生成分布{STOP＝1，CONTINUE＝0}(停止或继续生成)：

其中W_stop，W_stop，s-1，W_stop，s为参数矩阵，如果

大于预设的阀值(如0.5)，则该句子LSTM将停止生成新的主题向量，而单词LSTM也将停止产生词。

本申请实施例进一步提供一种终端设备，该终端设备可以为计算机、服务器；包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述基于多模态注意力机制的医学图像报告自动生成方法的步骤。

本申请的实施提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序被处理器执行时实现上述基于多模态注意力机制的医学图像报告自动生成方法的步骤。

计算机程序也可以被分割成一个或多个模块/单元，一个或者多个模块/单元被存储在存储器中，并由处理器执行，以完成本申请。一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述计算机程序在终端设备中的执行过程。

以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

1.一种基于多模态注意力机制的医学图像报告自动生成方法，其特征在于，包括以下步骤：

构建图像特征提取模型，基于所述关键词类别数据集，训练图像特征提取模型；当接收到输入的医学图像后，训练好的图像特征提取模型用于提取医学图像的图像空间特征、图像全局特征和预测的关键词特征；

利用多模态注意力机制将所述视觉特征和语义特征结合起来，同时捕获图像的视觉和语义信息，生成联合的上下文向量，包括：

为隐层状态；

基于每个句子的主题向量，通过单词LSTM生成每个句子的单词序列，单词序列用于形成一个句子；最后将形成的所有句子组合到一起，列出标签列表，完成医学图像报告的自动生成。

2.根据权利要求1所述的基于多模态注意力机制的医学图像报告自动生成方法，其特征在于，所述构建关键词类别数据集，包括：

对于医学图像数据集{I,C}，I,C分别表示一张医学图像和对应的描述语句；通过关键词的词表构建，词频过滤，停用词、词性过滤，同义词合并，类别融合的步骤，构建关键词类别数据集{I,C,K}，其中K代表关键词类别。

3.根据权利要求1所述的基于多模态注意力机制的医学图像报告自动生成方法，其特征在于，所述图像特征提取模型利用预训练好的ResNet网络，输入关键词类别数据集，对特征提取模型进行训练，使得模型所生成的特征与真实特征之间的多标签分类损失最小；在训练过程中，式1为基于关键词的图像理解的目标函数，式2表示最终的目标函数，有：

式中，θ是模型的参数；I为给定的医学图片，C为生成的描述语句，K为描述语句中的关键词类别；p(C,K|I；θ)表示给定医学图像I以及模型参数θ得到描述语句C和关键词类别集合K的概率；p(C|I,K；θ₁)为基于图片特征和关键词的语言模型；p(K|I；θ₂)为基于图片特征的关键词模型；θ₁、θ₂分别为语言模型和关键词模型参数。

4.根据权利要求1所述的基于多模态注意力机制的医学图像报告自动生成方法，其特征在于，所述图像特征提取模型在训练过程中，损失函数为：

对于关键词类别数据集{I,C,K}，将数据集分为一个个的子集mini-batch；在损失函数中，n为mini-batch的数量，λ为L₂正则的权重，m为关键词类别总数，η为惩罚系数，有：

5.根据权利要求1所述的基于多模态注意力机制的医学图像报告自动生成方法，其特征在于，所述关键词注意力机制、空间注意力机制的公式表达如下：

为计算得到的k_i的权重；/>

为未归一化的权重，n为关键词特征k的分量个数；a_t＝[a_0,t，a_1,t，…，a_n,t]为归一化后的权重。

6.根据权利要求1所述的基于多模态注意力机制的医学图像报告自动生成方法，其特征在于，所述句子LSTM是一个单层LSTM，以上下文向量ctx作为输入，然后通过主题生成器为单词LSTM生成主题向量

在主题生成器中，使用深度输出层，通过结合隐层状态

其中W_t,hsent和W_t,ctx为权重参数。

7.根据权利要求1所述的基于多模态注意力机制的医学图像报告自动生成方法，其特征在于，每个句子的单词由单词LSTM生成，将句子LSTM产生的主题向量t^(s)和特殊的START符号作为单词LSTM的第一第二输入，剩余的输入就是词序列；单词LSTM的隐层状态h_word将直接被用来生成词分布；在每个单词LSTM生成其词分布后，得到的句子就是生成序列的连接。

8.根据权利要求1所述的基于多模态注意力机制的医学图像报告自动生成方法，其特征在于，通过句子LSTM中的停止控制组件决定是继续或停止生成描述；停止控制组件是使用一个深度输出层来控制句子LSTM是否继续，这个层以上一步的和当前的隐层状态作为输入，并且生成分布来决定停止或继续生成；当句子LSTM将停止生成新的主题向量时，而单词LSTM也将停止产生词。

9.一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，处理器执行计算机程序时实现根据权利要求1至8中任一权利要求所述方法的步骤。