CN116364227A

CN116364227A - 基于记忆能力学习的医学影像报告自动生成方法

Info

Publication number: CN116364227A
Application number: CN202310340187.9A
Authority: CN
Inventors: 刘哲; 李赛赛; 宋余庆; 邱成健
Original assignee: Jiangsu University
Current assignee: Jiangsu University
Priority date: 2023-03-31
Filing date: 2023-03-31
Publication date: 2023-06-30

Abstract

本发明公开了一种基于记忆能力学习的医学影像报告自动生成方法，使用预训练并且在医学数据集上微调的视觉编码器提取医学图像的网格视觉特征，通过空间信息增强模块减少网格视觉特征的空间信息损失，再送入编码器得到视觉信号，将视觉信号送入记忆解码器中的每个记忆解码层，学习影像报告中行文模式化的特性并得到隐藏状态；语言特征表示模块将诊断报告作为输入得到语言信号；最后将语言信号、视觉信号和隐藏状态送入自适应注意力模块生成报告，该模块能够在生成报告的过程中根据隐藏状态自动衡量视觉信号和语言信号对生成内容的贡献。本发明方法能显著提高了医学影像生成报告的精度。

Description

基于记忆能力学习的医学影像报告自动生成方法

技术领域

本发明属于深度学习技术领域，具体涉及一种基于记忆能力学习的医学影像报告自动生成方法，应用于计算机辅助诊断和智慧医疗。

背景技术

医学影像作为一种非侵入式技术手段，借助某种介质与人体相互作用，对人体内部器官结构进行拍摄并以图像的方式展示出来。放射科医生根据影像提供的信息，对身体健康情况做出判断，并撰写诊断报告，这对于疾病筛查以及后续的临床治疗具有十分重要的帮助。截至2018年，我国医学影像数据的年增长率约为30％，而放射科医生数量的年增长率仅为4.1％，导致放射科医生沉重的工作负担以及工作压力的日益加重，随着医生精力的消耗，进而导致漏诊和误诊的发生。随着人工智能的快速发展以及智能医疗的普及应用，使用机器代替人工自动生成诊断报告正成为一种现实。在医疗资源匮乏以及放射科医生经验不足或精力消耗的情况下，使用机器自动生成诊断报告可以减轻放射科医生的工作负担以及降低漏诊和误诊的概率，而且还能让病人快速的获取自身的健康情况。因此如何借助深度学习技术实现医学报告的自动化生成，对临床诊断效率的提升具有重大帮助。

随着深度学***等对待所有单词的生成，影响生成报告的精度。

发明内容

针对现有技术中存在不足，本发明提供了一种基于记忆能力学***等对待所有单词生成，从而带来生成报告精度不足的问题。

本发明是通过以下技术手段实现上述技术目的的。

一种基于记忆能力学习的医学影像报告自动生成方法：

提取处理后的医学图像的网格视觉特征；

所述网格视觉特征经空间信息增强模块计算后送入编码器编码，得到视觉信号；

将所述视觉信号送入记忆解码器，获取隐藏状态；

诊断报告经过语言特征表示模块，得到语言信号；

构建自适应注意模块：包括一个带掩码的多头注意力层A和一个多头注意力层A，所述隐藏状态送入带掩码的多头注意力层A，得到新的隐藏状态；将所述语言信号和视觉信号拼接在一起并分别映射成向量，再与同一个时间步新的隐藏状态映射成的向量一同送入多头注意力层A，获得预测单词的分布概率，将分布概率最大的单词对应的索引即为需要的生成报告。

进一步的技术方案，所述记忆解码器包括6个结构相同的记忆解码层，每个记忆解码层包括一个带掩码的多头注意力层B、三个受记忆驱动的约束归一化层、一个多头注意力层B、一个前馈神经网络层A和一个关系记忆模块；所述受记忆驱动的约束归一化层的具体为：将t时刻的记忆矩阵C_t扩展变为c_t，再经过线性层预测参数γ和β的改变量Δγ_t、Δβ_t，将改变量和参数相加，得到新的参数

和/>

并与r、受记忆驱动的约束归一化层的均值及方差进行运算，其中r表示带掩码的多头注意力层的输出Y₁′与加入位置信息的词向量y_t-1残差连接的结果；所述关系记忆模块包括多头注意力层、线性层和门控模块，将t-1时刻的记忆矩阵C_t-1、C_t-1与y_t-1拼接在一起的结果送入多头注意力层，输出C′₁，将所述C′₁与C_t-1求和送入线性层并加上C_t-1和C′₁，输出/>

所述C_t-1和/>

经过门控模块，输出t时刻的记忆矩阵C_t。

进一步的技术方案，映射成向量后，进行缩放点积注意力的计算，得到第p个注意力头在第t个时间步单词的关注结果，将第p个注意力头中所有时间步单词的关注结果拼接在一起，获得第p个注意力头中单词序列的关注结果，将所有注意力头中单词序列的关注结果拼接在一起，并经线性映射获得多头注意力层A的输出，经线性变换，最终获得预测单词的分布概率。

更进一步的技术方案，所述空间信息增强模块用于计算网格视觉特征中两网格之间的相对几何特征。

更进一步的技术方案，所述相对几何特征是根据网格中心坐标、相对宽度和相对高度计算得到的，所述网格中心坐标、相对宽度和相对高度由网格的一对2维相对位置计算得到。

进一步的技术方案，所述语言特征表示模块包括一个预训练的文本编码器和一个带掩码的多头注意力层C，预训练的文本编码器对诊断报告的单词序列进行编码提取语言特征，提取的语言特征经线性变换加上位置编码送入带掩码的多头注意力层C，得到语言信号。

进一步的技术方案，所述网格视觉特征是使用视觉编码器提取的，所述视觉编码器具体为：将在ImageNet上预训练的ResNet50中的全连接层的输出通道改为14，然后在医学数据集CheXpert上进行微调，再将微调过后的ResNet50去掉最后的池化层和全连接层，使用512个1×1卷积层进行替代。

更进一步的技术方案所述编码器分为多个结构相同的编码层，每个编码层中包括一个多头注意力层C、一个前馈神经网络层B和两个归一化层，中间采用残差连接；多头注意力层C将网格视觉特征映射成n个不同的向量，相对几何特征融入多头注意力层C的缩放点积注意力，计算得到n个不同的注意力头输出特征，将n个注意力头输出特征拼接在一起，经线性层映射后得到多头注意力层C的输出；所述多头注意力层C的输出与网格视觉特征进行残差连接，并送入第一个归一化层，将第一个归一化层的输出送入前馈神经网络层B，将前馈神经网络层B的输出与第一个归一化层的输出进行残差连接，并送入第二个归一化层，得到编码层的输出；其它编码层将前一个编码层的输出作为输入，最后一个编码层的输出结果为视觉信号。

更进一步的技术方案，所述隐藏状态的获取过程为：带掩码的多头注意力层B的输出与加入位置信息的词向量进行残差连接，并与关系记忆模块变换后的输出c_t一同输入第一个受记忆驱动的约束归一化层，输出Y₂′，Y₂′及所述视觉信号送入多头注意力层B，输出Y₃′，Y₃′与Y₂′进行残差连接，与c_t一同输入第二个受记忆驱动的约束归一化层，得到Y₄′，Y₄′送入前馈神经网络层，输出Y₅′，将Y₄′和Y₅′进行残差连接，与c_t一同送入第三个受记忆驱动的约束归一化层；其它记忆解码层将前一记忆解码层的输出作为输入，最后一个记忆解码层输出隐藏状态。

更进一步的技术方案，所述门控模块输出的记忆矩阵C_t通过如下公式计算得到：

其中：σ是sigmoid函数，⊙是哈德曼乘积，

表示遗忘门，/>

表示输入门。

本发明的有益效果为：

(1)本发明通过添加空间信息增强模块，减少网格视觉特征展平后带来的空间信息损失。

(2)本发明通过添加关系记忆模块和受记忆驱动的约束归一化层，能够学习影像报告中存在的行文模式化的特性，得到更深层次隐藏状态的向量表示。

(3)本发明通过添加自适应注意力模块在生成报告的过程中根据隐藏状态自动衡量视觉信号和语言信号对生成内容的贡献，解码过程中平等对待所有单词生成，提高生成报告的精度。

附图说明

图1为本发明所述基于记忆能力学习的医学影像报告自动生成方法整体框图；

图2为本发明所述编码层的结构示意图；

图3为本发明所述记忆解码层的结构示意图；

图4为本发明所述门控模块示意图；

图5为本发明所述自适应注意力模块结构示意图。

具体实施方式

下面结合附图以及具体实施例对本发明作进一步的说明，但本发明的保护范围并不限于此。

如图1所示，本发明一种基于记忆能力学习的医学影像报告自动生成方法，具体包括以下步骤：

步骤(1)：从训练集中随机抽取一张医学图像并将其放缩到256×256尺寸大小，进一步随机裁剪到224×224尺寸大小，更进一步对图像进行随机水平翻转，随机进行亮度和对比度变换，最后将图像转换成张量形式，并进行标准化处理；其中训练集选自IU-Xray数据集。

步骤(2)：首先将在ImageNet上预训练的ResNet50中的全连接层的输出通道改为14，然后在医学数据集CheXpert上进行微调，再将微调过后的ResNet50去掉最后的池化层和全连接层，使用512个1×1卷积层进行替代，作为视觉编码器；使用视觉编码器提取步骤(1)处理后的医学图像的网格视觉特征U₁′：

U₁′＝ResNet50(I)(1)

其中：

是输入图像(即步骤(1)处理后的医学图像)，/>

是提取的网格视觉特征。

步骤(3)：为了减少网格视觉特征U₁′展平后送入编码器带来的空间位置信息损失，构建空间信息增强模块，空间信息增强模块用于计算两网格之间的相对几何特征。

步骤(3.1)：计算网格视觉特征U′₁中每个网格的一对2维相对位置：

其中/>

表示网格i左上角的相对位置坐标，/>

表示网格i右下角的相对位置坐标；计算2维相对位置是在PyThon软件上通过编程实现的，具体过程为现有技术；

步骤(3.2)：计算网格i的相对中心坐标(cx_i,cy_i)、相对宽度w_i和相对高度h_i：

步骤(3.3)：计算网格i和j之间的相对几何特征：

G＝lW_G (6)

λ^g＝ReLU(GW_λ) (7)

其中：

是网格间的相对几何关系，/>

和/>

是可学习的权重参数，/>

是l的高维表征/>

是相对几何特征；ReLU函数作为一个零点修正操作，仅考虑具有几何关系的网格特征。

步骤(4)：将网格视觉特征U₁′经空间信息增强模块计算后送入编码器编码得到视觉信号；编码器分为六个结构相同的编码层，每个编码层中包含一个多头注意力层、一个前馈神经网络层和两个归一化层，中间采用残差连接，如图2所示；编码层1的操作流程如下：

步骤(4.1)：多头注意力层分为8个头，可以从多个角度去获取信息；将网格视觉特征U₁′尺寸改成49×512后送入多头注意力层，多头注意力层用8个不同的线性层将网格视觉特征U₁′映射成8组不同的查询向量Q_h、键向量K_h和值向量V_h；

其中：

表示第h个头中线性映射成查询向量Q_h的可学习权重参数，

表示第h个头中线性映射成键向量K_h的可学习权重参数，/>

表示第h个头中线性映射成值向量V_h的可学习权重参数，h＝1，2…8；

步骤(4.2)：将步骤(3.3)中得到的相对几何特征λ^g融入多头注意力层的缩放点积注意力，计算得到8个不同的注意力头输出特征：

其中：d_k表示键向量K_h的维度，每个注意力头输出的特征head_h的维度为49×64；

步骤(4.3)：将8个注意力头输出的特征head_h拼接在一起，经线性层映射后得到多头注意力层的输出Z：

Z＝MHA(U′₁,U′₁,U′₁)＝Concat(head₁,...,head₈)W^Z (10)

其中：MHA表示多头注意力层，

表示将拼接后的注意力头的输出映射成向量Z的可学习权重参数，多头注意力层的输出Z的维度为49×512；

步骤(4.4)：将多头注意力层的输出Z与网格视觉特征U′₁进行残差连接，并送入第一个归一化层，得到输出

U′₂＝LayerNorm(U′₁+Z) (11)

步骤(4.5)：将第一个归一化层的输出送入前馈神经网络层，得到

其中：

和/>

为可学习权重参数；

步骤(4.6)：将前馈神经网络层的输出

与第一个归一化层的输出

进行残差连接，并送入第二个归一化层，得到编码层1的输出/>

U′₄＝LayerNorm(U′₂+U′₃) (13)

其它编码层将前一编码层的输出作为输入，重复上述过程，唯一的区别在于步骤(4.2)中缩放点积注意力的计算过程中，相对几何特征λ^g不再参与计算，其他步骤的计算过程相同。编码层6的输出结果为视觉信号

如以下公式所示：

U＝f_en6(f_en5(f_en4(f_en3(f_en2(U′₄))))) (14)

其中：f_en2(·)-f_en6(·)表示步骤(4.1)至步骤(4.6)之间的计算过程。

步骤(5)：将编码层6输出的视觉信号

送入记忆解码器获取隐藏状态，其中记忆解码器包含六个结构相同的记忆解码层，每个记忆解码层包含一个带掩码的多头注意力层、三个受记忆驱动的约束归一化层、一个多头注意力层、一个前馈神经网络层和一个关系记忆模块，如图3所示；在t时刻第一个记忆解码层(对应图1中的编码层记忆解码器1)的具体实施如下：

步骤(5.1)：将t时刻之前预测的单词序列X＝{x₀,x₁,...,x_t-1}进行词嵌入以及位置编码作为记忆解码层的输入，位置编码的计算过程如下：

PE(pos,2e)＝sin(pos/10000^2e/d) (15)

PE(pos,2e+1)＝cos(pos/10000^2e/d) (16)

y_t-1＝X+PE (17)

其中：pos表示单词在句子中所处的位置，e表示词嵌入向量的维度，词嵌入向量的维度大小d取512，

表示加入位置信息的词向量，M为单词序列的最大长度；位置编码向量中的每个维度对应于一个正弦曲线，每个奇/偶数位置都有对应的PE编码；

步骤(5.2)：带掩码的多头注意力层与步骤(4.1)-(4.3)的计算过程类似，在此不再赘述，唯一区别在于步骤(4.2)中的缩放点积注意力的计算；带掩码的多头注意力层为每个注意力头中缩放点积注意力的计算引入一个下三角矩阵，矩阵的大小为49×49，上三角的数值全为0，主对角线及以下全为1，然后进行注意力的运算即可，如以下公式所示：

Y₁′＝MMHA(y_t-1,y_t-1,y_t-1) (19)

其中：⊙是哈德曼乘积，MMHA表示带掩码的多头注意力层，

为带掩码的多头注意力层的输出结果；

步骤(5.3)：带掩码的多头注意力层的输出Y₁′与y_t-1进行残差连接，得到r，并与关系记忆模块变换后的输出c_t一同输入第一个受记忆驱动的约束归一化层，得到

r＝Y₁′+y_t-1 (20)

Y₂′＝MDCNL(r,c_t) (21)

步骤(5.4)：将上一步的结果，以及编码层6输出的视觉信号送入多头注意力层，得到

Y₃′＝MHA(Y₂′,U,U) (22)

步骤(5.5)：将多头注意力层的输出Y₃′与步骤(5.3)中的Y₂′进行残差连接，与c_t一同输入第二个受记忆驱动的约束归一化层，得到

Y₄′＝MDCNL(Y₂′+Y₃′,c_t) (23)

步骤(5.6)：将上一步的输出Y₄′送入前馈神经网络层获取输出结果

其中：

和/>

表示可学习的权重参数；

步骤(5.7)：将第二个受记忆驱动的约束归一化层的输出Y₄′和前馈神经网络层的输出Y₅′进行残差连接，与c_t一同送入第三个受记忆驱动的约束归一化层，得到

Y₆′＝MDCNL(Y′₄+Y′₅,c_t) (25)

其它记忆解码层将前一记忆解码层的输出作为输入，重复步骤(5.2)至步骤(5.7)之间的过程。最后一个记忆解码层(对应图1中的记忆解码器中的记忆解码层6)输出隐藏状态

如以下公式所示：

H^W＝f_de6(f_de5(f_de4(f_de3(f_de2(Y′₆))))) (26)

其中：f_de2(·)-f_de6(·)表示步骤(5.2)至步骤(5.7)之间的计算过程。

步骤(6)：相关的医学图像能够在诊断报告中共享相似的行文模式，可以作为彼此的参考，对生成过程起到帮助作用；构建关系记忆模块充分利用这些特性，计算行文模式之间的交互以及生成过程；关系记忆模块包含多头注意力层、线性层和门控模块，如图3所示；在t时刻关系记忆模块的具体流程如下：

步骤(6.1)：将t-1时刻的记忆矩阵C_t-1，以及C_t-1与步骤(5.1)的y_t-1拼接在一起送入多头注意力层：

C′₁＝MHA(C_t-1,[C_t-1；y_t-1],[C_t-1；y_t-1]) (27)

步骤(6.2)：将t-1时刻的记忆矩阵C_t-1和步骤(6.1)中多头注意力层的输出C′₁求和送入线性层中，将线性层的输出结果加上t-1时刻的记忆矩阵C_t-1和多头注意力层的输出C′₁得到

步骤(6.3)：构建门控模块来缓解关系记忆模块在循环解码过程带来的梯度消失和梯度***，门控模块的详细结构如图4所示，为了确保y_t-1可以用于C_t-1的计算，通过将其复制成多行并扩展为矩阵Y_t-1，对t-1时刻的记忆矩阵C_t-1进行双曲正切函数激活，将Y_t-1和激活结果送入输入门获取

将Y_t-1和激活的C_t-1送入遗忘门，得到/>

遗忘门/>

和输入门

分别用于平衡来自C_t-1和y_t-1的输入，具体计算如下：

其中：W^f,Wⁱ是遗忘门和输入门中Y_t-1的可训练权重，U^f,Uⁱ是遗忘门和输入门中C_t-1的可训练权重；

步骤(6.4)：将

进行sigmoid函数激活，使用双曲正切函数对/>

进行计算，将对C_t进行计算的结果与激活的/>

进行相乘，将激活的/>

与t-1时刻的记忆矩阵C_t-1进行相乘，最后将两个相乘结果进行相加，得到门控模块的最终输出C_t，具体公式如下：

其中：σ是sigmoid函数，C_t是整个关系记忆模块在时刻t的输出。

步骤(7)：利用关系记忆模块的输出C_t对记忆解码层中表示缩放和移动学习表征的两个关键参数γ和β产生影响，进一步融合记忆信息，提高解码性能，也即受记忆驱动的约束归一化层的具体处理流程如下：

步骤(7.1)：将t时刻的记忆矩阵C_t扩展变为c_t，经过线性层预测γ的改变量Δγ_t，得到新的参数

计算公式如下：

Δγ_t＝Linear(c_t) (32)

步骤(7.2)：经过线性层预测β的改变量Δβ_t，得到新的参数

计算公式如下：

Δβ_t＝Linear(c_t) (34)

步骤(7.3)：将新的参数

和/>

与受记忆驱动的约束归一化层的均值、方差进行下述运算：

其中：μ和v分别是的受记忆驱动的约束归一化层的均值和标准差；记忆解码层中第一个和第二个受记忆驱动的约束归一化层的输出结果f_MDCNL(r)送入下一个模块用作输入，第三个受记忆驱动的约束归一化层的输出用作下一个记忆解码层的输入。

步骤(8)：构建语言特征表示模块获取给定序列的语言特征，语言特征表示模块包含一个在大型语料库上预训练的文本编码器BERT和一个带掩码的多头注意力层；具体流程如下：

步骤(8.1)：使用预训练的文本编码器BERT对诊断报告的单词序列进行编码提取语言特征：

lf＝BERT(W) (37)

其中：

是BERT模型输出的语言特征；

步骤(8.2)：上一步提取的语言特征lf经线性变换加上步骤(5.1)中的位置编码送入带掩码的多头注意力层，得到语言信号

S＝MMHA(Linear(lf)+PE) (38)

步骤(9)：构建自适应注意模块，不直接使用最后一个记忆解码层输出的隐藏状态H^W来预测单词，而是将步骤(8)中输出的语言信号S、步骤(4)中最后一个编码层输出的视觉信号U和隐藏状态H^W组合在一起，来度量视觉信号和语言信号对每个单词预测的贡献；自适应注意模块包含一个带掩码的多头注意力层、三个线性层和一个多头注意力层，图5描述了该模块的具体结构，计算过程如下：

将隐藏状态

送入带掩码的多头注意力层，获得/>

H＝MaskedMultiHeadAttention(H^w) (39)

在每个时间步选择对应的隐藏状态和语言信号，并将语言信号和视觉信号拼接在一起与隐藏状态一同送入多头注意力层，获得预测单词的分布概率，将分布概率最大的单词对应的索引即为需要的生成报告；以时间步t为例，具体计算过程如下：

首先将时间步t的隐藏状态h_t经线性层映射为查询向量q_t，时间步t的语言信号s_t和视觉信号U拼接在一起经线性层分别映射成键向量k_t和值向量v_t：

其中：q_p，t为多头注意力层中第p个注意力头中第t个单词的查询向量，k_p，t，v_p，t分别为多头注意力层中第p个注意力头中第t个时间步单词的键向量和值向量，

表示第p个注意力头中线性映射成查询向量q_p，t的可学习权重参数，/>

表示第p个注意力头中线性映射成键向量k_p，t的可学习权重参数，/>

表示第p个注意力头中线性映射成值向量v_p，t的可学习权重参数，p＝1，2…8；

然后进行缩放点积注意力的计算，得到第p个注意力头在第t个时间步单词的关注结果head_j,t：

将第p个注意力头中所有时间步单词的关注结果拼接在一起，获得第p个注意力头中单词序列的关注结果head_p：

head_p＝Concate(head_p，1，head_p，2，...，head_P，M) (42)

将所有注意力头中单词序列的关注结果拼接在一起，并经线性映射获得多头注意力层的输出att：

att＝Concate(head₁,head₂,...,head₈)W^O (43)

经过线性变换，最终获得预测单词的分布概率

其中：b表示偏置项，W^O表示线性映射成att的可学习权重参数，W^att表示线性映射成

的可学习权重参数，log-softmax表示函数。

本实施例中，多头注意力层、前馈神经网络层、归一化层、带掩码的多头注意力层、线性层、文本编码器的具体结构均为现有技术。

所述实施例为本发明的优选的实施方式，但本发明并不限于上述实施方式，在不背离本发明的实质内容的情况下，本领域技术人员能够做出的任何显而易见的改进、替换或变型均属于本发明的保护范围。

Claims

1.一种基于记忆能力学习的医学影像报告自动生成方法，其特征在于：

提取处理后的医学图像的网格视觉特征；

将所述视觉信号送入记忆解码器，获取隐藏状态；

诊断报告经过语言特征表示模块，得到语言信号；

2.根据权利要求1所述的医学影像报告自动生成方法，其特征在于，所述记忆解码器包括6个结构相同的记忆解码层，每个记忆解码层包括一个带掩码的多头注意力层B、三个受记忆驱动的约束归一化层、一个多头注意力层B、一个前馈神经网络层A和一个关系记忆模块；所述受记忆驱动的约束归一化层的具体为：将t时刻的记忆矩阵C_t扩展变为c_t，再经过线性层预测参数γ和β的改变量Δγ_t、Δβ_t，将改变量和参数相加，得到新的参数

和/>

所述C_t-1和/>

经过门控模块，输出t时刻的记忆矩阵C_t。

3.根据权利要求1所述的医学影像报告自动生成方法，其特征在于，映射成向量后，进行缩放点积注意力的计算，得到第p个注意力头在第t个时间步单词的关注结果，将第p个注意力头中所有时间步单词的关注结果拼接在一起，获得第p个注意力头中单词序列的关注结果，将所有注意力头中单词序列的关注结果拼接在一起，并经线性映射获得多头注意力层A的输出，经线性变换，最终获得预测单词的分布概率。

4.根据权利要求2所述的医学影像报告自动生成方法，其特征在于，所述空间信息增强模块用于计算网格视觉特征中两网格之间的相对几何特征。

5.根据权利要求4所述的医学影像报告自动生成方法，其特征在于，所述相对几何特征是根据网格中心坐标、相对宽度和相对高度计算得到的，所述网格中心坐标、相对宽度和相对高度由网格的一对2维相对位置计算得到。

6.根据权利要求1所述的医学影像报告自动生成方法，其特征在于，所述语言特征表示模块包括一个预训练的文本编码器和一个带掩码的多头注意力层C，预训练的文本编码器对诊断报告的单词序列进行编码提取语言特征，提取的语言特征经线性变换加上位置编码送入带掩码的多头注意力层C，得到语言信号。

7.根据权利要求1所述的医学影像报告自动生成方法，其特征在于，所述网格视觉特征是使用视觉编码器提取的，所述视觉编码器具体为：将在ImageNet上预训练的ResNet50中的全连接层的输出通道改为14，然后在医学数据集CheXpert上进行微调，再将微调过后的ResNet50去掉最后的池化层和全连接层，使用512个1×1卷积层进行替代。

8.根据权利要求4所述的医学影像报告自动生成方法，其特征在于，所述编码器分为多个结构相同的编码层，每个编码层中包括一个多头注意力层C、一个前馈神经网络层B和两个归一化层，中间采用残差连接；多头注意力层C将网格视觉特征映射成n个不同的向量，相对几何特征融入多头注意力层C的缩放点积注意力，计算得到n个不同的注意力头输出特征，将n个注意力头输出特征拼接在一起，经线性层映射后得到多头注意力层C的输出；所述多头注意力层C的输出与网格视觉特征进行残差连接，并送入第一个归一化层，将第一个归一化层的输出送入前馈神经网络层B，将前馈神经网络层B的输出与第一个归一化层的输出进行残差连接，并送入第二个归一化层，得到编码层的输出；其它编码层将前一个编码层的输出作为输入，最后一个编码层的输出结果为视觉信号。

9.根据权利要求8所述的医学影像报告自动生成方法，其特征在于，所述隐藏状态的获取过程为：带掩码的多头注意力层B的输出与加入位置信息的词向量进行残差连接，并与关系记忆模块变换后的输出c_t一同输入第一个受记忆驱动的约束归一化层，输出Y₂′，Y₂′及所述视觉信号送入多头注意力层B，输出Y₃′，Y₃′与Y₂′进行残差连接，与c_t一同输入第二个受记忆驱动的约束归一化层，得到Y₄′，Y₄′送入前馈神经网络层，输出Y₅′，将Y₄′和Y₅′进行残差连接，与c_t一同送入第三个受记忆驱动的约束归一化层；其它记忆解码层将前一记忆解码层的输出作为输入，最后一个记忆解码层输出隐藏状态。

10.根据权利要求2所述的医学影像报告自动生成方法，其特征在于，所述门控模块输出的记忆矩阵C_t通过如下公式计算得到：

其中：σ是sigmoid函数，⊙是哈德曼乘积，

表示遗忘门，/>

表示输入门。