CN116364227A - 基于记忆能力学习的医学影像报告自动生成方法 - Google Patents
基于记忆能力学习的医学影像报告自动生成方法 Download PDFInfo
- Publication number
- CN116364227A CN116364227A CN202310340187.9A CN202310340187A CN116364227A CN 116364227 A CN116364227 A CN 116364227A CN 202310340187 A CN202310340187 A CN 202310340187A CN 116364227 A CN116364227 A CN 116364227A
- Authority
- CN
- China
- Prior art keywords
- layer
- attention
- output
- memory
- head
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H15/00—ICT specially adapted for medical reports, e.g. generation or transmission thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Medical Informatics (AREA)
- Public Health (AREA)
- Primary Health Care (AREA)
- Epidemiology (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于记忆能力学习的医学影像报告自动生成方法,使用预训练并且在医学数据集上微调的视觉编码器提取医学图像的网格视觉特征,通过空间信息增强模块减少网格视觉特征的空间信息损失,再送入编码器得到视觉信号,将视觉信号送入记忆解码器中的每个记忆解码层,学习影像报告中行文模式化的特性并得到隐藏状态;语言特征表示模块将诊断报告作为输入得到语言信号;最后将语言信号、视觉信号和隐藏状态送入自适应注意力模块生成报告,该模块能够在生成报告的过程中根据隐藏状态自动衡量视觉信号和语言信号对生成内容的贡献。本发明方法能显著提高了医学影像生成报告的精度。
Description
技术领域
本发明属于深度学习技术领域,具体涉及一种基于记忆能力学习的医学影像报告自动生成方法,应用于计算机辅助诊断和智慧医疗。
背景技术
医学影像作为一种非侵入式技术手段,借助某种介质与人体相互作用,对人体内部器官结构进行拍摄并以图像的方式展示出来。放射科医生根据影像提供的信息,对身体健康情况做出判断,并撰写诊断报告,这对于疾病筛查以及后续的临床治疗具有十分重要的帮助。截至2018年,我国医学影像数据的年增长率约为30%,而放射科医生数量的年增长率仅为4.1%,导致放射科医生沉重的工作负担以及工作压力的日益加重,随着医生精力的消耗,进而导致漏诊和误诊的发生。随着人工智能的快速发展以及智能医疗的普及应用,使用机器代替人工自动生成诊断报告正成为一种现实。在医疗资源匮乏以及放射科医生经验不足或精力消耗的情况下,使用机器自动生成诊断报告可以减轻放射科医生的工作负担以及降低漏诊和误诊的概率,而且还能让病人快速的获取自身的健康情况。因此如何借助深度学习技术实现医学报告的自动化生成,对临床诊断效率的提升具有重大帮助。
随着深度学***等对待所有单词的生成,影响生成报告的精度。
发明内容
针对现有技术中存在不足,本发明提供了一种基于记忆能力学***等对待所有单词生成,从而带来生成报告精度不足的问题。
本发明是通过以下技术手段实现上述技术目的的。
一种基于记忆能力学习的医学影像报告自动生成方法:
提取处理后的医学图像的网格视觉特征;
所述网格视觉特征经空间信息增强模块计算后送入编码器编码,得到视觉信号;
将所述视觉信号送入记忆解码器,获取隐藏状态;
诊断报告经过语言特征表示模块,得到语言信号;
构建自适应注意模块:包括一个带掩码的多头注意力层A和一个多头注意力层A,所述隐藏状态送入带掩码的多头注意力层A,得到新的隐藏状态;将所述语言信号和视觉信号拼接在一起并分别映射成向量,再与同一个时间步新的隐藏状态映射成的向量一同送入多头注意力层A,获得预测单词的分布概率,将分布概率最大的单词对应的索引即为需要的生成报告。
进一步的技术方案,所述记忆解码器包括6个结构相同的记忆解码层,每个记忆解码层包括一个带掩码的多头注意力层B、三个受记忆驱动的约束归一化层、一个多头注意力层B、一个前馈神经网络层A和一个关系记忆模块;所述受记忆驱动的约束归一化层的具体为:将t时刻的记忆矩阵Ct扩展变为ct,再经过线性层预测参数γ和β的改变量Δγt、Δβt,将改变量和参数相加,得到新的参数和/>并与r、受记忆驱动的约束归一化层的均值及方差进行运算,其中r表示带掩码的多头注意力层的输出Y1′与加入位置信息的词向量yt-1残差连接的结果;所述关系记忆模块包括多头注意力层、线性层和门控模块,将t-1时刻的记忆矩阵Ct-1、Ct-1与yt-1拼接在一起的结果送入多头注意力层,输出C′1,将所述C′1与Ct-1求和送入线性层并加上Ct-1和C′1,输出/>所述Ct-1和/>经过门控模块,输出t时刻的记忆矩阵Ct。
进一步的技术方案,映射成向量后,进行缩放点积注意力的计算,得到第p个注意力头在第t个时间步单词的关注结果,将第p个注意力头中所有时间步单词的关注结果拼接在一起,获得第p个注意力头中单词序列的关注结果,将所有注意力头中单词序列的关注结果拼接在一起,并经线性映射获得多头注意力层A的输出,经线性变换,最终获得预测单词的分布概率。
更进一步的技术方案,所述空间信息增强模块用于计算网格视觉特征中两网格之间的相对几何特征。
更进一步的技术方案,所述相对几何特征是根据网格中心坐标、相对宽度和相对高度计算得到的,所述网格中心坐标、相对宽度和相对高度由网格的一对2维相对位置计算得到。
进一步的技术方案,所述语言特征表示模块包括一个预训练的文本编码器和一个带掩码的多头注意力层C,预训练的文本编码器对诊断报告的单词序列进行编码提取语言特征,提取的语言特征经线性变换加上位置编码送入带掩码的多头注意力层C,得到语言信号。
进一步的技术方案,所述网格视觉特征是使用视觉编码器提取的,所述视觉编码器具体为:将在ImageNet上预训练的ResNet50中的全连接层的输出通道改为14,然后在医学数据集CheXpert上进行微调,再将微调过后的ResNet50去掉最后的池化层和全连接层,使用512个1×1卷积层进行替代。
更进一步的技术方案所述编码器分为多个结构相同的编码层,每个编码层中包括一个多头注意力层C、一个前馈神经网络层B和两个归一化层,中间采用残差连接;多头注意力层C将网格视觉特征映射成n个不同的向量,相对几何特征融入多头注意力层C的缩放点积注意力,计算得到n个不同的注意力头输出特征,将n个注意力头输出特征拼接在一起,经线性层映射后得到多头注意力层C的输出;所述多头注意力层C的输出与网格视觉特征进行残差连接,并送入第一个归一化层,将第一个归一化层的输出送入前馈神经网络层B,将前馈神经网络层B的输出与第一个归一化层的输出进行残差连接,并送入第二个归一化层,得到编码层的输出;其它编码层将前一个编码层的输出作为输入,最后一个编码层的输出结果为视觉信号。
更进一步的技术方案,所述隐藏状态的获取过程为:带掩码的多头注意力层B的输出与加入位置信息的词向量进行残差连接,并与关系记忆模块变换后的输出ct一同输入第一个受记忆驱动的约束归一化层,输出Y2′,Y2′及所述视觉信号送入多头注意力层B,输出Y3′,Y3′与Y2′进行残差连接,与ct一同输入第二个受记忆驱动的约束归一化层,得到Y4′,Y4′送入前馈神经网络层,输出Y5′,将Y4′和Y5′进行残差连接,与ct一同送入第三个受记忆驱动的约束归一化层;其它记忆解码层将前一记忆解码层的输出作为输入,最后一个记忆解码层输出隐藏状态。
更进一步的技术方案,所述门控模块输出的记忆矩阵Ct通过如下公式计算得到:
本发明的有益效果为:
(1)本发明通过添加空间信息增强模块,减少网格视觉特征展平后带来的空间信息损失。
(2)本发明通过添加关系记忆模块和受记忆驱动的约束归一化层,能够学习影像报告中存在的行文模式化的特性,得到更深层次隐藏状态的向量表示。
(3)本发明通过添加自适应注意力模块在生成报告的过程中根据隐藏状态自动衡量视觉信号和语言信号对生成内容的贡献,解码过程中平等对待所有单词生成,提高生成报告的精度。
附图说明
图1为本发明所述基于记忆能力学习的医学影像报告自动生成方法整体框图;
图2为本发明所述编码层的结构示意图;
图3为本发明所述记忆解码层的结构示意图;
图4为本发明所述门控模块示意图;
图5为本发明所述自适应注意力模块结构示意图。
具体实施方式
下面结合附图以及具体实施例对本发明作进一步的说明,但本发明的保护范围并不限于此。
如图1所示,本发明一种基于记忆能力学习的医学影像报告自动生成方法,具体包括以下步骤:
步骤(1):从训练集中随机抽取一张医学图像并将其放缩到256×256尺寸大小,进一步随机裁剪到224×224尺寸大小,更进一步对图像进行随机水平翻转,随机进行亮度和对比度变换,最后将图像转换成张量形式,并进行标准化处理;其中训练集选自IU-Xray数据集。
步骤(2):首先将在ImageNet上预训练的ResNet50中的全连接层的输出通道改为14,然后在医学数据集CheXpert上进行微调,再将微调过后的ResNet50去掉最后的池化层和全连接层,使用512个1×1卷积层进行替代,作为视觉编码器;使用视觉编码器提取步骤(1)处理后的医学图像的网格视觉特征U1′:
U1′=ResNet50(I)(1)
步骤(3):为了减少网格视觉特征U1′展平后送入编码器带来的空间位置信息损失,构建空间信息增强模块,空间信息增强模块用于计算两网格之间的相对几何特征。
步骤(3.1):计算网格视觉特征U′1中每个网格的一对2维相对位置:其中/>表示网格i左上角的相对位置坐标,/>表示网格i右下角的相对位置坐标;计算2维相对位置是在PyThon软件上通过编程实现的,具体过程为现有技术;
步骤(3.2):计算网格i的相对中心坐标(cxi,cyi)、相对宽度wi和相对高度hi:
步骤(3.3):计算网格i和j之间的相对几何特征:
G=lWG (6)
λg=ReLU(GWλ) (7)
步骤(4):将网格视觉特征U1′经空间信息增强模块计算后送入编码器编码得到视觉信号;编码器分为六个结构相同的编码层,每个编码层中包含一个多头注意力层、一个前馈神经网络层和两个归一化层,中间采用残差连接,如图2所示;编码层1的操作流程如下:
步骤(4.1):多头注意力层分为8个头,可以从多个角度去获取信息;将网格视觉特征U1′尺寸改成49×512后送入多头注意力层,多头注意力层用8个不同的线性层将网格视觉特征U1′映射成8组不同的查询向量Qh、键向量Kh和值向量Vh;
步骤(4.2):将步骤(3.3)中得到的相对几何特征λg融入多头注意力层的缩放点积注意力,计算得到8个不同的注意力头输出特征:
其中:dk表示键向量Kh的维度,每个注意力头输出的特征headh的维度为49×64;
步骤(4.3):将8个注意力头输出的特征headh拼接在一起,经线性层映射后得到多头注意力层的输出Z:
Z=MHA(U′1,U′1,U′1)=Concat(head1,...,head8)WZ (10)
U′2=LayerNorm(U′1+Z) (11)
U′4=LayerNorm(U′2+U′3) (13)
其它编码层将前一编码层的输出作为输入,重复上述过程,唯一的区别在于步骤(4.2)中缩放点积注意力的计算过程中,相对几何特征λg不再参与计算,其他步骤的计算过程相同。编码层6的输出结果为视觉信号如以下公式所示:
U=fen6(fen5(fen4(fen3(fen2(U′4))))) (14)
其中:fen2(·)-fen6(·)表示步骤(4.1)至步骤(4.6)之间的计算过程。
步骤(5):将编码层6输出的视觉信号送入记忆解码器获取隐藏状态,其中记忆解码器包含六个结构相同的记忆解码层,每个记忆解码层包含一个带掩码的多头注意力层、三个受记忆驱动的约束归一化层、一个多头注意力层、一个前馈神经网络层和一个关系记忆模块,如图3所示;在t时刻第一个记忆解码层(对应图1中的编码层记忆解码器1)的具体实施如下:
步骤(5.1):将t时刻之前预测的单词序列X={x0,x1,...,xt-1}进行词嵌入以及位置编码作为记忆解码层的输入,位置编码的计算过程如下:
PE(pos,2e)=sin(pos/100002e/d) (15)
PE(pos,2e+1)=cos(pos/100002e/d) (16)
yt-1=X+PE (17)
其中:pos表示单词在句子中所处的位置,e表示词嵌入向量的维度,词嵌入向量的维度大小d取512,表示加入位置信息的词向量,M为单词序列的最大长度;位置编码向量中的每个维度对应于一个正弦曲线,每个奇/偶数位置都有对应的PE编码;
步骤(5.2):带掩码的多头注意力层与步骤(4.1)-(4.3)的计算过程类似,在此不再赘述,唯一区别在于步骤(4.2)中的缩放点积注意力的计算;带掩码的多头注意力层为每个注意力头中缩放点积注意力的计算引入一个下三角矩阵,矩阵的大小为49×49,上三角的数值全为0,主对角线及以下全为1,然后进行注意力的运算即可,如以下公式所示:
Y1′=MMHA(yt-1,yt-1,yt-1) (19)
r=Y1′+yt-1 (20)
Y2′=MDCNL(r,ct) (21)
Y3′=MHA(Y2′,U,U) (22)
Y4′=MDCNL(Y2′+Y3′,ct) (23)
Y6′=MDCNL(Y′4+Y′5,ct) (25)
HW=fde6(fde5(fde4(fde3(fde2(Y′6))))) (26)
其中:fde2(·)-fde6(·)表示步骤(5.2)至步骤(5.7)之间的计算过程。
步骤(6):相关的医学图像能够在诊断报告中共享相似的行文模式,可以作为彼此的参考,对生成过程起到帮助作用;构建关系记忆模块充分利用这些特性,计算行文模式之间的交互以及生成过程;关系记忆模块包含多头注意力层、线性层和门控模块,如图3所示;在t时刻关系记忆模块的具体流程如下:
步骤(6.1):将t-1时刻的记忆矩阵Ct-1,以及Ct-1与步骤(5.1)的yt-1拼接在一起送入多头注意力层:
C′1=MHA(Ct-1,[Ct-1;yt-1],[Ct-1;yt-1]) (27)
步骤(6.3):构建门控模块来缓解关系记忆模块在循环解码过程带来的梯度消失和梯度***,门控模块的详细结构如图4所示,为了确保yt-1可以用于Ct-1的计算,通过将其复制成多行并扩展为矩阵Yt-1,对t-1时刻的记忆矩阵Ct-1进行双曲正切函数激活,将Yt-1和激活结果送入输入门获取将Yt-1和激活的Ct-1送入遗忘门,得到/>遗忘门/>和输入门分别用于平衡来自Ct-1和yt-1的输入,具体计算如下:
其中:Wf,Wi是遗忘门和输入门中Yt-1的可训练权重,Uf,Ui是遗忘门和输入门中Ct-1的可训练权重;
步骤(6.4):将进行sigmoid函数激活,使用双曲正切函数对/>进行计算,将对Ct进行计算的结果与激活的/>进行相乘,将激活的/>与t-1时刻的记忆矩阵Ct-1进行相乘,最后将两个相乘结果进行相加,得到门控模块的最终输出Ct,具体公式如下:
其中:σ是sigmoid函数,Ct是整个关系记忆模块在时刻t的输出。
步骤(7):利用关系记忆模块的输出Ct对记忆解码层中表示缩放和移动学习表征的两个关键参数γ和β产生影响,进一步融合记忆信息,提高解码性能,也即受记忆驱动的约束归一化层的具体处理流程如下:
Δγt=Linear(ct) (32)
Δβt=Linear(ct) (34)
其中:μ和v分别是的受记忆驱动的约束归一化层的均值和标准差;记忆解码层中第一个和第二个受记忆驱动的约束归一化层的输出结果fMDCNL(r)送入下一个模块用作输入,第三个受记忆驱动的约束归一化层的输出用作下一个记忆解码层的输入。
步骤(8):构建语言特征表示模块获取给定序列的语言特征,语言特征表示模块包含一个在大型语料库上预训练的文本编码器BERT和一个带掩码的多头注意力层;具体流程如下:
步骤(8.1):使用预训练的文本编码器BERT对诊断报告的单词序列进行编码提取语言特征:
lf=BERT(W) (37)
S=MMHA(Linear(lf)+PE) (38)
步骤(9):构建自适应注意模块,不直接使用最后一个记忆解码层输出的隐藏状态HW来预测单词,而是将步骤(8)中输出的语言信号S、步骤(4)中最后一个编码层输出的视觉信号U和隐藏状态HW组合在一起,来度量视觉信号和语言信号对每个单词预测的贡献;自适应注意模块包含一个带掩码的多头注意力层、三个线性层和一个多头注意力层,图5描述了该模块的具体结构,计算过程如下:
H=MaskedMultiHeadAttention(Hw) (39)
在每个时间步选择对应的隐藏状态和语言信号,并将语言信号和视觉信号拼接在一起与隐藏状态一同送入多头注意力层,获得预测单词的分布概率,将分布概率最大的单词对应的索引即为需要的生成报告;以时间步t为例,具体计算过程如下:
首先将时间步t的隐藏状态ht经线性层映射为查询向量qt,时间步t的语言信号st和视觉信号U拼接在一起经线性层分别映射成键向量kt和值向量vt:
其中:qp,t为多头注意力层中第p个注意力头中第t个单词的查询向量,kp,t,vp,t分别为多头注意力层中第p个注意力头中第t个时间步单词的键向量和值向量,表示第p个注意力头中线性映射成查询向量qp,t的可学习权重参数,/>表示第p个注意力头中线性映射成键向量kp,t的可学习权重参数,/>表示第p个注意力头中线性映射成值向量vp,t的可学习权重参数,p=1,2…8;
然后进行缩放点积注意力的计算,得到第p个注意力头在第t个时间步单词的关注结果headj,t:
将第p个注意力头中所有时间步单词的关注结果拼接在一起,获得第p个注意力头中单词序列的关注结果headp:
headp=Concate(headp,1,headp,2,...,headP,M) (42)
将所有注意力头中单词序列的关注结果拼接在一起,并经线性映射获得多头注意力层的输出att:
att=Concate(head1,head2,...,head8)WO (43)
本实施例中,多头注意力层、前馈神经网络层、归一化层、带掩码的多头注意力层、线性层、文本编码器的具体结构均为现有技术。
所述实施例为本发明的优选的实施方式,但本发明并不限于上述实施方式,在不背离本发明的实质内容的情况下,本领域技术人员能够做出的任何显而易见的改进、替换或变型均属于本发明的保护范围。
Claims (10)
1.一种基于记忆能力学习的医学影像报告自动生成方法,其特征在于:
提取处理后的医学图像的网格视觉特征;
所述网格视觉特征经空间信息增强模块计算后送入编码器编码,得到视觉信号;
将所述视觉信号送入记忆解码器,获取隐藏状态;
诊断报告经过语言特征表示模块,得到语言信号;
构建自适应注意模块:包括一个带掩码的多头注意力层A和一个多头注意力层A,所述隐藏状态送入带掩码的多头注意力层A,得到新的隐藏状态;将所述语言信号和视觉信号拼接在一起并分别映射成向量,再与同一个时间步新的隐藏状态映射成的向量一同送入多头注意力层A,获得预测单词的分布概率,将分布概率最大的单词对应的索引即为需要的生成报告。
2.根据权利要求1所述的医学影像报告自动生成方法,其特征在于,所述记忆解码器包括6个结构相同的记忆解码层,每个记忆解码层包括一个带掩码的多头注意力层B、三个受记忆驱动的约束归一化层、一个多头注意力层B、一个前馈神经网络层A和一个关系记忆模块;所述受记忆驱动的约束归一化层的具体为:将t时刻的记忆矩阵Ct扩展变为ct,再经过线性层预测参数γ和β的改变量Δγt、Δβt,将改变量和参数相加,得到新的参数和/>并与r、受记忆驱动的约束归一化层的均值及方差进行运算,其中r表示带掩码的多头注意力层的输出Y1′与加入位置信息的词向量yt-1残差连接的结果;所述关系记忆模块包括多头注意力层、线性层和门控模块,将t-1时刻的记忆矩阵Ct-1、Ct-1与yt-1拼接在一起的结果送入多头注意力层,输出C′1,将所述C′1与Ct-1求和送入线性层并加上Ct-1和C′1,输出/>所述Ct-1和/>经过门控模块,输出t时刻的记忆矩阵Ct。
3.根据权利要求1所述的医学影像报告自动生成方法,其特征在于,映射成向量后,进行缩放点积注意力的计算,得到第p个注意力头在第t个时间步单词的关注结果,将第p个注意力头中所有时间步单词的关注结果拼接在一起,获得第p个注意力头中单词序列的关注结果,将所有注意力头中单词序列的关注结果拼接在一起,并经线性映射获得多头注意力层A的输出,经线性变换,最终获得预测单词的分布概率。
4.根据权利要求2所述的医学影像报告自动生成方法,其特征在于,所述空间信息增强模块用于计算网格视觉特征中两网格之间的相对几何特征。
5.根据权利要求4所述的医学影像报告自动生成方法,其特征在于,所述相对几何特征是根据网格中心坐标、相对宽度和相对高度计算得到的,所述网格中心坐标、相对宽度和相对高度由网格的一对2维相对位置计算得到。
6.根据权利要求1所述的医学影像报告自动生成方法,其特征在于,所述语言特征表示模块包括一个预训练的文本编码器和一个带掩码的多头注意力层C,预训练的文本编码器对诊断报告的单词序列进行编码提取语言特征,提取的语言特征经线性变换加上位置编码送入带掩码的多头注意力层C,得到语言信号。
7.根据权利要求1所述的医学影像报告自动生成方法,其特征在于,所述网格视觉特征是使用视觉编码器提取的,所述视觉编码器具体为:将在ImageNet上预训练的ResNet50中的全连接层的输出通道改为14,然后在医学数据集CheXpert上进行微调,再将微调过后的ResNet50去掉最后的池化层和全连接层,使用512个1×1卷积层进行替代。
8.根据权利要求4所述的医学影像报告自动生成方法,其特征在于,所述编码器分为多个结构相同的编码层,每个编码层中包括一个多头注意力层C、一个前馈神经网络层B和两个归一化层,中间采用残差连接;多头注意力层C将网格视觉特征映射成n个不同的向量,相对几何特征融入多头注意力层C的缩放点积注意力,计算得到n个不同的注意力头输出特征,将n个注意力头输出特征拼接在一起,经线性层映射后得到多头注意力层C的输出;所述多头注意力层C的输出与网格视觉特征进行残差连接,并送入第一个归一化层,将第一个归一化层的输出送入前馈神经网络层B,将前馈神经网络层B的输出与第一个归一化层的输出进行残差连接,并送入第二个归一化层,得到编码层的输出;其它编码层将前一个编码层的输出作为输入,最后一个编码层的输出结果为视觉信号。
9.根据权利要求8所述的医学影像报告自动生成方法,其特征在于,所述隐藏状态的获取过程为:带掩码的多头注意力层B的输出与加入位置信息的词向量进行残差连接,并与关系记忆模块变换后的输出ct一同输入第一个受记忆驱动的约束归一化层,输出Y2′,Y2′及所述视觉信号送入多头注意力层B,输出Y3′,Y3′与Y2′进行残差连接,与ct一同输入第二个受记忆驱动的约束归一化层,得到Y4′,Y4′送入前馈神经网络层,输出Y5′,将Y4′和Y5′进行残差连接,与ct一同送入第三个受记忆驱动的约束归一化层;其它记忆解码层将前一记忆解码层的输出作为输入,最后一个记忆解码层输出隐藏状态。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310340187.9A CN116364227A (zh) | 2023-03-31 | 2023-03-31 | 基于记忆能力学习的医学影像报告自动生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310340187.9A CN116364227A (zh) | 2023-03-31 | 2023-03-31 | 基于记忆能力学习的医学影像报告自动生成方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116364227A true CN116364227A (zh) | 2023-06-30 |
Family
ID=86907620
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310340187.9A Pending CN116364227A (zh) | 2023-03-31 | 2023-03-31 | 基于记忆能力学习的医学影像报告自动生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116364227A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117372306A (zh) * | 2023-11-23 | 2024-01-09 | 山东省人工智能研究院 | 一种基于双编码器的肺部医学影像增强方法 |
CN117393100A (zh) * | 2023-12-11 | 2024-01-12 | 安徽大学 | 诊断报告的生成方法、模型训练方法、***、设备及介质 |
CN117558459A (zh) * | 2024-01-10 | 2024-02-13 | 中国科学技术大学 | 一种记忆驱动的医疗多模态内容分析及生成方法 |
CN117594184A (zh) * | 2024-01-19 | 2024-02-23 | 中国科学技术大学 | 一种基于记忆网络的医疗多模态内容分析及生成方法 |
-
2023
- 2023-03-31 CN CN202310340187.9A patent/CN116364227A/zh active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117372306A (zh) * | 2023-11-23 | 2024-01-09 | 山东省人工智能研究院 | 一种基于双编码器的肺部医学影像增强方法 |
CN117372306B (zh) * | 2023-11-23 | 2024-03-01 | 山东省人工智能研究院 | 一种基于双编码器的肺部医学影像增强方法 |
CN117393100A (zh) * | 2023-12-11 | 2024-01-12 | 安徽大学 | 诊断报告的生成方法、模型训练方法、***、设备及介质 |
CN117393100B (zh) * | 2023-12-11 | 2024-04-05 | 安徽大学 | 诊断报告的生成方法、模型训练方法、***、设备及介质 |
CN117558459A (zh) * | 2024-01-10 | 2024-02-13 | 中国科学技术大学 | 一种记忆驱动的医疗多模态内容分析及生成方法 |
CN117594184A (zh) * | 2024-01-19 | 2024-02-23 | 中国科学技术大学 | 一种基于记忆网络的医疗多模态内容分析及生成方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116364227A (zh) | 基于记忆能力学习的医学影像报告自动生成方法 | |
CN107016438B (zh) | 一种基于中医辨证人工神经网络算法模型的*** | |
CN108376558B (zh) | 一种多模态核磁共振影像病历报告自动生成方法 | |
CN113421652A (zh) | 对医疗数据进行分析的方法、训练模型的方法及分析仪 | |
Ding et al. | FTransCNN: Fusing Transformer and a CNN based on fuzzy logic for uncertain medical image segmentation | |
CN114944213A (zh) | 基于记忆驱动的Transformer医学内窥镜图像报告生成方法 | |
CN115690072A (zh) | 基于多模态深度学习的胸片特征提取和疾病分类方法 | |
CN116779091B (zh) | 一种多模态网络互联融合的胸部影像诊断报告自动生成方法 | |
CN114863111A (zh) | 交互融合Transformer的超声图像量化方法 | |
CN114708952B (zh) | 一种图像标注方法、装置、存储介质和电子设备 | |
CN113781461A (zh) | 一种病人智能监控排序方法 | |
CN116258732A (zh) | 一种基于pet/ct图像跨模态特征融合的食管癌肿瘤靶区分割方法 | |
Song et al. | Feature extraction processing method of medical image fusion based on neural network algorithm | |
CN116797572A (zh) | 基于多模态数据的类风湿关节炎活动度分级装置 | |
Yu et al. | An unsupervised hybrid model based on CNN and ViT for multimodal medical image fusion | |
Ji et al. | Lung nodule detection in medical images based on improved YOLOv5s | |
CN117456183A (zh) | 一种多层级特征提取融合注意力机制的医学图像分割方法 | |
Shen | [Retracted] Implementation of CT Image Segmentation Based on an Image Segmentation Algorithm | |
CN115762721A (zh) | 一种基于计算机视觉技术的医疗影像质控方法和*** | |
CN115565671A (zh) | 基于跨模型相互教学半监督的房颤辅助分析方法 | |
CN115239740A (zh) | 基于GT-UNet的全心分割算法 | |
Shaik et al. | Gated contextual transformer network for multi-modal retinal image clinical description generation | |
Du et al. | A TransSE-ResNet Deep Learning Model with Multi-Head Attention Mechanism for Covid-19 Chest CT Image Classification | |
Guangyan et al. | Research on Cyst of Jaw Detection Algorithm Based on Alex Net Deep Learning Model | |
Tanwar et al. | Artificial Intelligence and Machine Learning: An Intelligent Perspective of Emerging Technologies |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |