CN114944213A - 基于记忆驱动的Transformer医学内窥镜图像报告生成方法 - Google Patents

基于记忆驱动的Transformer医学内窥镜图像报告生成方法 Download PDF

Info

Publication number
CN114944213A
CN114944213A CN202210638276.7A CN202210638276A CN114944213A CN 114944213 A CN114944213 A CN 114944213A CN 202210638276 A CN202210638276 A CN 202210638276A CN 114944213 A CN114944213 A CN 114944213A
Authority
CN
China
Prior art keywords
memory
layer
encoder
output
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210638276.7A
Other languages
English (en)
Inventor
涂继辉
李李
刘琛
邱威
周翔
张庆
郑欢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yangtze University
Original Assignee
Yangtze University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yangtze University filed Critical Yangtze University
Priority to CN202210638276.7A priority Critical patent/CN114944213A/zh
Publication of CN114944213A publication Critical patent/CN114944213A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H15/00ICT specially adapted for medical reports, e.g. generation or transmission thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10068Endoscopic image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20112Image segmentation details
    • G06T2207/20132Image cropping

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Epidemiology (AREA)
  • Medical Informatics (AREA)
  • Primary Health Care (AREA)
  • Public Health (AREA)
  • Image Processing (AREA)

Abstract

本发明提供一种基于记忆驱动的Transformer医学内窥镜图像报告生成方法,包括步骤:步骤1,使用分块的Wide ResNet‑101模型提取内窥镜图像中的病灶特征,生成相应的特征向量。步骤2,基于自注意力机制的Transformer编码器对内窥镜图像的分块特征进行编码,实现视觉特征和语义特性的融合。步骤3,基于记忆驱动的Transformer解码器对编码器产生的图像特征进行解码,最后完成胶囊内窥镜医学报告的自动生成。本发明采用深度学习的方法入手解决医学内窥镜图像报告自动生成。

Description

基于记忆驱动的Transformer医学内窥镜图像报告生成方法
技术领域
本发明涉及计算机视觉(Computer vision,CV)和自然语言处理(NaturalLanguage Processing,NLP)的交叉领域,都是完成从图像到文本的映射,本发明借助于图像理解的方法解决无线胶囊内窥镜影像的医学诊断报告生成。
背景技术
消化道***病变,如溃疡、出血和肿瘤等疾病严重地影响着人们的身体健康,传统地检测手段是依靠机械推入式的内窥镜,如胃镜、肠镜等,但这种方式会对病人身体造成伤害和痛苦使得病人产生畏惧心理,从而放弃早期筛查,错失最佳治疗时机。无线胶囊内窥镜检查(Wireless Capsule Endoscopy)技术具备无痛、无创、无需麻醉等优势,并且该技术还可以在传统方法难以到达的区域施行检测,医生将根据检查过程中得到的内窥镜图像进行病情解读,该技术在疾病的筛查中起到了至关重要的作用。事实证明该检查方法取得了良好的临床诊断效果,是临床消化道疾病检查和诊断里程碑的式进步,胶囊内窥镜这类医学图像将逐步成为消化道检查的金标准。但是患者病变图像所占比例不到整个图像的1%,而且目前接受无线胶囊内窥镜技术诊断病情的病人数量日益增多,使得阅片医生的工作压力非常大。随着大量的胶囊内窥镜视频需要处理,在医疗资源紧缺的情况下,依靠计算机辅助诊断不仅能够大幅降低医生的工作量和减少人工诊断的失误,而且还能够让病人快速的获得诊断报告。因此,如何借助于图像理解的方法解决无线胶囊内窥镜影像的医学诊断报告生成,对临床诊断具有重要的应用价值,也是本文的研究背景和意义。
到现在为止,医学图像报告自动生成的工作大多数还是借鉴于自然图像的图像描述方法,同时由于图像描述中通过编码器-解码器结构生成的描述结果效果较好,大多数医学图像报告生成模型也使用了这种结构。对于医学图像报告自动生成模型,通常是利用卷积神经网络对医学图像进行特征提取,然后使用RNN或者其他模型解码输出诊断报告文字。为提升诊断结果的准确度和流畅性,常常采用注意力机制更加关注图像中异常的病灶区域,使得更加详尽的描述病情内容。根据模型所使用的策略,主要分为1)采用生成策略的报告生成方法,这种报告生成方法最为常见,通常利用卷积神经网络进行编码或者分类,然后采用循环神经网络或者LSTM等模型进行报告文本生成任务。但是生成的报告只能简单描述检测到的病灶的内容,究其原因是单独使用图像进行操作,而不考虑图像的序列信息。2)基于模板的报告生成方法。此方法整体采用编码器-解码器结构,不同的是该方法通过检索策略模块决定是由循环神经网络构建的生成模块自动生成句子,还是从模块数据库中检索特定的句子,然后通过分层决策顺序生成多个句子,整个过程的参数通过强化学习优化,该方法使得生成的诊断报告更为准确。但是套用模板比较生硬,上下文衔接的不是很流畅。3)采用检索策略的报告生成方法。在医学图像报告生成过程中,首先通过编码器和先前的医学知识来转换视觉特征,形成结构化的异常图,然后通过检索模块在图像报告模板库中进行检索,得到一组模板文字。最后使用解释模块根据具体情况对检索的模板句进行重写,补充文字内容的一些细节,从而完成整个医学图像的诊断报告。此方法能够确保获得正确地疾病描述文本,但是缺乏对医学模式信息的准确生成。因此需要迫切寻找一种能充分学习诊断报告的模式信息、生成效率高、结果相对精确且流利地长文本医学报告生成的方法。
发明内容
本发明的主要目的在于提供一种基于记忆驱动的Transformer医学内窥镜图像报告生成方法,该方法通过记忆模块和Transformer模型的自注意力机制实现了胶囊内窥镜图像的长文本诊断报告生成,使得生成的诊断报告更具专业性,以及临床意义。
为解决上述技术问题,本发明所采用的技术方案是:1.一种基于记忆驱动的Transformer医学内窥镜图像报告生成方法,
步骤1,为了提高网络的特征提取能力,提取到更多的有效病灶信息,对数据集图片进行数据增强等操作;
步骤2,对内窥镜图像使用Wide ResNet-101模型来进行特征提取;
步骤3,把步骤2提取的图像特征输入并融合到Transformer编码器中,负责把图像特征映射为隐藏层特征向量;
步骤4,使用基于记忆驱动的Transformer解码器对编码器产生的图像特征进行解码,完成内窥镜诊断报告的自动生成。
步骤1中的具体流程为:
A1、随机地从训练集中抽取一张胶囊内窥镜图像;
A2、将内窥镜图像进行比例缩放为256×256
A3、然后对缩放后的图像进行随机裁剪,得到224×224大小的图像;
A4、对得到的图像进行随机翻转,然后转化为张量形式,并进行标准化处理。
步骤2中的具体流程为:
将内窥镜图像经Wide Resnet-101网络模型的Conv1、Conv2_x、Conv3_x、 Conv4_x、Conv5_x后得到内窥镜图像的特征图,然后经过1*1的卷积映射再经过 reshape,得到特征向量;
图像I,
Figure BDA0003682832000000031
H0代表图像的高为224,W0代表图像的宽为224。经模型提取的视觉特征向量为F,视觉特征提取过程表示为fν(·)。使用Wide ResNet-101 网络模型进行特征提取的过程可写为:
F=fν(I) (1)
其中,视觉特征向量F∈Rd×HW,d=512表示为网络通道数,
Figure BDA0003682832000000033
Figure BDA0003682832000000034
步骤3,把步骤2提取的图像特征加上对应的位置编码输入到Transformer编码器中,负责把图像特征映射为隐藏层特征向量;Transformer的编码器由6个相同的子编码器所构成,其中每一个子编码器由两个子层所组成,具体实施如下:
B1、将输入的图像特征F加上对应的位置编码PE,然后输入到编码器中;
首先生成位置编码PE:
Figure BDA0003682832000000035
Figure BDA0003682832000000036
Figure BDA0003682832000000037
Figure BDA0003682832000000038
其中,根据公式(2)(3)(4)(5)产生位置编码PE∈Rd×HW,计算任意一个位置 (posx,posy)的位置编码,posx∈[1,W],posy∈[1,H],通过(2)(3)可以计算得到posx的256维向量,它代表posx的位置编码,再通过(4)(5)可以计算得到posy的256 维向量,它代表posy的位置编码,把这2个256维的向量拼接起来,就得到了一个 512维的向量,代表(posx,posy)的位置编码。计算所有位置的编码,就得到了(512, HW)的张量也就是位置编码PE。i=0,1,2,3,...,d/4表示为正弦曲线的维度,位置编码的每个维度对应一个正弦曲线,即奇数位置的时候采用公式(2)(4),反之使用公式(3)(5);然后将输入的图像特征F加上对应的位置编码PE,生成的X输入到编码器中:
X=PE+F (6)
其中,X表示加入了位置信息的特征向量;
B2、编码器第一个子层实现了多头自注意力机制,该机制是实现了接收不同查询,键与值的线性映射的头部,来并行产生输出,并生成最终结果。然后生成的结果输入到残差和归一化层:
Q=Linearq(X)=X×Wq (7)
K=Lineark(X)=X×Wk (8)
V=Linearv(X)=X×Wv (9)
Figure BDA0003682832000000041
Xattn2=LayerNorm(X+Xattn1) (11)
其中,公式(7)(8)(9)(10)表示了多头自注意力层的操作过程,Q为查询向量,K为键向量,V为值向量,
Figure BDA0003682832000000042
表示线性映射的权重,Linear表示对X做线性映射,dq,dk,dv分别是Q、K、V的维度,Xattn2是多头注意力机制的输出;
Softmax的计算公式为
Figure BDA0003682832000000043
其中zi为第i个节点的输出值,c为输出节点的个数,即分类的类别个数;
公式(11)表示了残差和归一化层的操作过程;
LayerNorm的计算公式为
Figure BDA0003682832000000044
E(x)表示x的均值, Var[x]表示为x的方差,ε=1e-6表示添加较小的值到方差中以防止分母除零;
B3、编码器第二个子层是由全连接构成的前馈神经网络层,包括两个线性变换,中间穿插ReLU(Rectified Linear Unit)激活函数,然后再输入到残差与归一化层:
Xhidden1=Linear(ReLU(Linear(Xattn2))) (12)
Xhidden2=LayerNorm(Xattn2+Xhidden1) (13)
其中,ReLU的计算公式为ReLU(x)=max(0,x)。Xhidden2是第一个子编码器的第二个子层残差与归一化层的输出;
fe(·)表示为编码器,fe1(·),fe2(·),...fe6(·)分别代表编码器的6个子编码器;经过6个相同的子编码器的操作计算之后,最后输出为编码器的隐藏层特征向量hi
hi=fe6(fe5(fe4(fe3(fe2(Xhidden2))))) (14)
步骤4中使用基于记忆驱动的解码器对隐藏层特征向量进行解码,根据该特征向量和当前时刻已生成的单词向量来生成下一个单词的概率向量,选取词汇表中概率最大的作为每一时刻的词汇构成句子,直到出现结束标志,完成整个内窥镜图像诊断报告的生成;
解码器与编码器的大体结构基本相同,不同在于解码器第一个子层使用的mask掩码技术并且用记忆融合层MFL替换原来的残差和归一化层,具体实施如下:
C1、解码器的预测输出词向量为Yi={0,y1,y2,...,yi},t表示为当前时刻,解码器需要接收0到t-1时刻的预测输出词向量{0,y1,...,yt-1}作为输入,用来生成下一个输出词向量yt
C2、解码器的输入也通过位置编码来增加位置信息,与编码端完成方式相同;
C3、增加了位置信息的输入被送到解码器的三个子层,在第一个子层中应用掩码,以阻止解码器关注后续的单词;
具体操作就是使用上三角矩阵,上三角的数值全为0,然后将矩阵与输入序列做运算即可;
然后与编码器的第一个子层的多头自注意力机制操作相同,用记忆融合层(MFL)替换原来的残差和归一化层。
C4、在第二个子层,解码器除了接收上一子层的输出fmfl1(x),还接收编码器的输出hi,使得解码器能够处理输入序列中的所有单词。解码器后两个子层具体的操作过程与编码器的两个子层相同,只是把残差和归一化层换成了记忆融合层(MFL)。详细过程与前面基本相同,因此不再说明。解码器第一个子解码器的输出就是第三个子层的记忆融合层输出fmfl3(x)。fd(·)表示为解码器,fd1(·),fd2(·),...fd6(·)分别代表解码器的6个子解码器。经过6个相同的子解码器的操作计算之后,最后输出为预测词向量yt
yt=fd6(fd5(fd4(fd3(fd2(fmfl3(x)))))) (23)
C5、6个相同子解码器的输出最后经过一个线性层以及一个softmax层,为输出序列的下一个词生成预测,最后完成整个内窥镜图像诊断报告的生成。设内窥镜图像诊断报告为B,softmax是为了选取词汇表中概率最大的词作为每一时刻的词汇从而生成内窥镜图像诊断报告。
B=softmax(Linear(yt)) (24)
记忆融合层(MFL)的具体实施如下:
D1、引入记忆融合层(MFL)内的记忆驱动模块(MDM)来增强解码器部分,记忆驱动模块能够从模式信息中学习,有利于计算模式和生成过程之间的交互;
D2、用记忆融合层(MFL)替换原来的残差和归一化层,记忆融合层MFL的原理具体来讲,是将记忆驱动模块的输出Mt附加到传统Transformer中代表缩放和移动表征的两个重要参数γ和β,从而整合记忆信息。
步骤D1中,记忆驱动模块具体公式如下:
E1、记忆驱动模块MDM使用了一个矩阵“状态矩阵M”在记忆生成步骤中表示它的状态,首先通过线性映射初始化Q、K、V生成矩阵Wq、Wk、Wv,然后分别通过 Q=Mt-1·Wq,K=[Mt-1;yt-1]·Wk,V=[Mt-1;yt-1]·Wv得到查询、键和值向量,其中, Mt-1表示t-1时刻的状态矩阵,yt-1表示t-1时刻的嵌入向量输出,[;]表示按行进行拼接;
再采用多头注意力对更新的Q、K、V向量进行建模,设键向量K的维数为dk,多头注意力的输出为Z,多头注意力表示如下:
Figure BDA0003682832000000061
E2、对记忆驱动模块引入残差连接,fmlp(·)表示多层感知机,残差连接表示为:
M′t=fmlp(Z+Mt-1)+Z+Mt-1 (16);
E3、遗忘门和输入门分别用于平衡Mt-1和y′t-1。y′t-1是yt-1复制多行扩展而成的,目的是确保yt-1可以用于Mt-1的计算;
Wf和Wi是对于y′t-1,遗忘门和输入门的可训练参数,而Uf和Ui则是对于Mt-1,遗忘门和输入门的可训练参数;tanh的计算公式为:
Figure BDA0003682832000000071
因此,遗忘门和输入门的输出表示为:
Figure BDA0003682832000000072
E4、对记忆驱动模块引入门机制原理;将残差连接、遗忘门和输入门的输出通过门机制,最终的输出表示为:
Figure BDA0003682832000000073
其中,·表示点积,σ表示sigmoid函数,sigmoid函数的计算公式为
Figure BDA0003682832000000074
Mt表示t时刻整个记忆驱动模块的输出;
步骤D1中,用记忆融合层(MFL)替换原来的残差和归一化层;
记忆融合层MFL的原理具体来讲,是将记忆驱动模块的输出Mt附加到传统Transformer中代表缩放和移动表征的两个重要参数γ和β,从而整合记忆信息;
F1、输出Mt经过多层感知机(MLP)得到参数γ的变化值Δγt,并通过以下公式更新:
Δγt=fmlp(Mt) (18)
Figure BDA0003682832000000075
同样的,参数β的变化值Δβt由下式得到:
Δβt=fmlp(Mt) (20)
Figure BDA0003682832000000076
F2、将计算得到的
Figure BDA0003682832000000077
Figure BDA0003682832000000078
应用于来自之前多头注意力机制生成输出的均值和方差,设前一层的输出为x,μ和v分别是x的均值和标准差,因此记忆融合层MFL计算过程表示为:
Figure BDA0003682832000000081
整体的流程如下:
S1、内窥镜图像经过Wide ResNet-101网络模型提取到特征向量F;
S2、把提取到的特征向量F输入并融合到Transformer编码器中,负责把特征向量F映射为隐藏层特征向量hi={h1,h2,h3,...,hi};
编码器模块对之前提取的特征向量F进行编码,输出则为编码器的隐藏层向量hi。fe(·)表示为编码器。整个编码的过程表示为:
{h1,h2,h3,L,hi}=fe(F) (25);
S3、使用基于记忆驱动的解码器对隐藏层特征向量hi进行解码,得到目标序列 Yi={0,y1,y2,...,yi},完成整个内窥镜图像诊断报告的生成;
Yi={0,y1,y2,...,yi}表示为需要得到的目标序列,MDM表示为记忆驱动模块的计算流程,MFL表示为记忆融合层的计算流程,fd(·)表示为编码器,编码器当前时刻的输出表示为:
yt=fd(h1,h2,h3,L,hi,MFL(MDM(0,y1,y2,L,yt-1))) (26)。
设内窥镜图像诊断报告为B,最终的输出表示为:
B=softmax(Linear(yt)) (27)。
本发明提供了一种基于记忆驱动的Transformer医学内窥镜图像报告生成方法,本发明采用深度学习的方法入手解决医学内窥镜图像报告自动生成。该方法通过记忆模块和Transformer模型的自注意力机制实现了胶囊内窥镜图像的长文本诊断报告生成,使得生成的诊断报告更具专业性,以及临床意义。
附图说明
下面结合附图和实施例对本发明作进一步说明:
图1是本发明为实施例的流程图;
图2是本发明使用Wide Resnet-101网络模型进行特征提取的图;
图3是本发明记忆模块中的门机制原理图;
具体实施方式
实施例1
如图1~2所示,本发明所提供一种基于记忆驱动的Transformer医学内窥镜图像报告生成方法
首先对收集到的胶囊内窥镜图像进行手工筛选并构造一个带有文字诊断报告的胶囊内窥镜图像数据集,再将得到的内窥镜数据集进行预处理,对整理好的数据集图像使用迁移学习的方法在ImageNet数据集上训练好的Wide ResNet-101预训练模型来进行特征提取。
然后根据基于自注意力机制的Transformer编码器对特征向量进行编码,最后根据基于记忆驱动的Transformer解码器对编码器产生的图像特征进行解码,完成内窥镜诊断报告的自动生成。
以下结合附图和实施例详细说明本发明技术方案,流程图如图1所示,实施例的技术方案流程包括以下步骤:
步骤1,为了提高网络的特征提取能力,提取到更多的有效病灶信息,对数据集图片进行数据增强等操作。具体流程为:
a)随机地从训练集中抽取一张胶囊内窥镜图像;
b)将内窥镜图像进行比例缩放为256×256;
c)然后对缩放后的图像进行随机裁剪,得到224×224大小的图像;
d)对得到的图像进行随机翻转,然后转化为张量形式,并进行标准化处理。
步骤2,将内窥镜图像经Wide Resnet-101网络模型的Conv1、Conv2_x、 Conv3_x、Conv4_x、Conv5_x后得到内窥镜图像的特征图,然后经过1*1的卷积映射再经过reshape,得到特征向量。
整个Wide ResNet-101网络模型的输入输出如图2所示。设输入大小为H0×W0的胶囊内窥镜图像I,
Figure BDA0003682832000000091
H0代表图像的高为224,W0代表图像的宽为224。经模型提取的视觉特征向量为F,视觉特征提取过程表示为fν(·)。使用Wide ResNet-101网络模型进行特征提取的过程可写为:
F=fν(I) (1)
其中,视觉特征向量F∈Rd×HW,d=512表示为网络通道数,
Figure BDA0003682832000000092
Figure BDA0003682832000000101
步骤3,把步骤2提取的图像特征加上对应的位置编码输入到Transformer编码器中,负责把图像特征映射为隐藏层特征向量;Transformer的编码器由6个相同的子编码器所构成,其中每一个子编码器由两个子层所组成,编码器的结构如流程图1 的红色虚线框所示。具体实施如下:
a)将输入的图像特征F加上对应的位置编码PE,然后输入到编码器中。首先生成位置编码PE:
Figure BDA0003682832000000102
Figure BDA0003682832000000103
Figure BDA0003682832000000104
Figure BDA0003682832000000105
其中,根据公式(2)(3)(4)(5)产生位置编码PE∈Rd×HW,计算任意一个位置(posx,posy)的位置编码,posx∈[1,W],posy∈[1,H],通过(2)(3)可以计算得到posx的256维向量,它代表posx的位置编码,再通过(4)(5)可以计算得到posy的256维向量,它代表posy的位置编码,把这2个256维的向量拼接起来,就得到了一个512维的向量,代表(posx,posy)的位置编码。计算所有位置的编码,就得到了(512,HW)的张量也就是位置编码PE。i=0,1,2,3,...,d/4 表示为正弦曲线的维度,位置编码的每个维度对应一个正弦曲线,即奇数位置的时候采用公式(2)(4),反之使用公式(3)(5);然后将输入的图像特征F加上对应的位置编码PE,生成的X输入到编码器中。
X=PE+F (6)
其中,X表示加入了位置信息的特征向量。
b)编码器第一个子层实现了多头自注意力机制,该机制是实现了接收不同查询,键与值的线性映射的头部,来并行产生输出,并生成最终结果。然后生成的结果输入到残差和归一化层:
Q=Linearq(X)=X×Wq (7)
K=Lineark(X)=X×Wk (8)
V=Linearv(X)=X×Wv (9)
Figure BDA0003682832000000111
Xattn2=LayerNorm(X+Xattn1) (11)
其中,公式(7)(8)(9)(10)表示了多头自注意力层的操作过程,Q为查询向量,K为键向量,V为值向量,
Figure BDA0003682832000000112
表示线性映射的权重,Linear表示对X做线性映射,dq,dk,dv分别是Q,K,V的维度,Xattn2是多头注意力机制的输出。Softmax的计算公式为
Figure BDA0003682832000000113
其中zi为第i 个节点的输出值,c为输出节点的个数,即分类的类别个数。公式(11)表示了残差和归一化层的操作过程。LayerNorm的计算公式为
Figure BDA0003682832000000114
E(x) 表示x的均值,Var[x]表示为x的方差,ε=1e-6表示添加较小的值到方差中以防止分母除零。
c)编码器第二个子层是由全连接构成的前馈神经网络层,包括两个线性变换,中间穿插ReLU(Rectified Linear Unit)激活函数,然后再输入到残差与归一化层:
Xhidden1=Linear(ReLU(Linear(Xattn2))) (12)
Xhidden2=LayerNorm(Xattn2+Xhidden1) (13)
其中,ReLU的计算公式为ReLU(x)=max(0,x)。Xhidden2是第一个子编码器的第二个子层残差与归一化层的输出。fe(·)表示为编码器,fe1(·),fe2(·),...fe6(·)分别代表编码器的6个子编码器。经过6个相同的子编码器的操作计算之后,最后输出为编码器的隐藏层特征向量hi
hi=fe6(fe5(fe4(fe3(fe2(Xhidden2))))) (14)。
步骤4,使用基于记忆驱动的解码器对隐藏层特征向量进行解码,根据该特征向量和当前时刻已生成的单词向量来生成下一个单词的概率向量,选取词汇表中概率最大的作为每一时刻的词汇构成句子,直到出现结束标志,完成整个内窥镜图像诊断报告的生成。
解码器与编码器的大体结构基本相同,不同在于解码器第一个子层使用的mask掩码技术并且用记忆融合层MFL替换原来的残差和归一化层。解码器的结构如流程图的蓝色虚线框所示。具体实施如下:
a)解码器的预测输出词向量为Yi={0,y1,y2,...,yi},t表示为当前时刻,解码器需要接收0到t-1时刻的预测输出词向量{0,y1,...,yt-1}作为输入,用来生成下一个输出词向量yt
b)解码器的输入也通过位置编码来增加位置信息,与编码端完成方式相同。
c)增加了位置信息的输入被送到解码器的三个子层。在第一个子层中应用掩码,以阻止解码器关注后续的单词。具体操作就是使用上三角矩阵,上三角的数值全为0,然后将矩阵与输入序列做运算即可。然后与编码器的第一个子层的多头自注意力机制操作相同,用记忆融合层(MFL)替换原来的残差和归一化层。
记忆融合层(MFL)的具体实施如下:
(1)引入记忆融合层(MFL)内的记忆驱动模块(MDM)来增强解码器部分。记忆驱动模块能够从模式信息(“小肠清洁较好”、“未见明显活动性出血”等模式信息)中学习,有利于计算模式和生成过程之间的交互。记忆驱动模块具体公式如下:
①记忆驱动模块(MDM)使用了一个矩阵(状态矩阵M)在记忆生成步骤中表示它的状态,首先通过线性映射初始化Q、K、V生成矩阵Wq、Wk、Wv,然后分别通过 Q=Mt-1·Wq,K=[Mt-1;yt-1]·Wk,V=[Mt-1;yt-1]·Wv得到查询、键和值向量,其中, Mt-1表示t-1时刻的状态矩阵,yt-1表示t-1时刻的嵌入向量输出,[;]表示按行进行拼接。再采用多头注意力对更新的Q、K、V向量进行建模(与之前编码器的多头自注意力机制相同,只是输入引入了记忆驱动模块的状态矩阵),设键向量K的维数为dk,多头注意力的输出为Z。多头注意力表示如下:
Figure BDA0003682832000000121
②对记忆驱动模块引入残差连接,fmlp(·)表示多层感知机,残差连接表示为:
M′t=fmlp(Z+Mt-1)+Z+Mt-1 (16)
③遗忘门和输入门分别用于平衡Mt-1和y′t-1。y′t-1是yt-1复制多行扩展而成的,目的是确保yt-1可以用于Mt-1的计算。Wf和Wi是对于y′t-1,遗忘门和输入门的可训练参数,而Uf和Ui则是对于Mt-1,遗忘门和输入门的可训练参数。tanh的计算公式为
Figure BDA0003682832000000131
因此,遗忘门和输入门的输出表示为:
Figure BDA0003682832000000132
④对记忆驱动模块引入门机制原理。门机制原理如图3所示。将残差连接、遗忘门和输入门的输出通过门机制,最终的输出表示为:
Figure BDA0003682832000000133
其中,·表示点积,σ表示sigmoid函数,sigmoid函数的计算公式为
Figure BDA0003682832000000134
Mt表示t时刻整个记忆驱动模块的输出。
(2)用记忆融合层(MFL)替换原来的残差和归一化层。记忆融合层MFL的原理具体来讲,是将记忆驱动模块的输出Mt附加到传统Transformer中代表缩放和移动表征的两个重要参数γ和β,从而整合记忆信息。
①输出Mt经过多层感知机(MLP)得到参数γ的变化值Δγt,并通过以下公式更新:
Δγt=fmlp(Mt) (18)
Figure BDA0003682832000000135
同样的,参数β的变化值Δβt由下式得到:
Δβt=fmlp(Mt) (20)
Figure BDA0003682832000000136
②将计算得到的
Figure BDA0003682832000000137
Figure BDA0003682832000000138
应用于来自之前多头注意力机制生成输出的均值和方差,设前一层(带mask掩码技术的多头自注意力层)的输出为x,μ和v分别是x的均值和标准差,因此记忆融合层MFL计算过程表示为:
Figure BDA0003682832000000139
d)在第二个子层,解码器除了接收上一子层的输出fmfl1(x),还接收编码器的输出hi,使得解码器能够处理输入序列中的所有单词。解码器后两个子层具体的操作过程与编码器的两个子层相同,只是把残差和归一化层换成了记忆融合层(MFL)。详细过程与前面基本相同,因此不再说明。解码器第一个子解码器的输出就是第三个子层的记忆融合层输出fmfl3(x)。fd(·)表示为解码器,fd1(·),fd2(·),...fd6(·)分别代表解码器的6 个子解码器。经过6个相同的子解码器的操作计算之后,最后输出为预测词向量yt
yt=fd6(fd5(fd4(fd3(fd2(fmfl3(x)))))) (23)
e)6个相同子解码器的输出最后经过一个线性层以及一个softmax层,为输出序列的下一个词生成预测,最后完成整个内窥镜图像诊断报告的生成。设内窥镜图像诊断报告为B,softmax是为了选取词汇表中概率最大的词作为每一时刻的词汇从而生成内窥镜图像诊断报告。
B=softmax(Linear(yt)) (24)
整体的流程如下:
(1)内窥镜图像经过Wide ResNet-101网络模型提取到特征向量F;
(2)把提取到的特征向量F输入并融合到Transformer编码器中,负责把特征向量F映射为隐藏层特征向量hi={h1,h2,h3,...,hi};
编码器模块对之前提取的特征向量F进行编码,输出则为编码器的隐藏层向量hi
fe(·)表示为编码器。整个编码的过程表示为:
{h1,h2,h3,L,hi}=fe(F) (25)
(3)使用基于记忆驱动的解码器对隐藏层特征向量hi进行解码,得到目标序列
Yi={0,y1,y2,...,yi},完成整个内窥镜图像诊断报告的生成。
Yi={0,y1,y2,...,yi}表示为需要得到的目标序列,MDM表示为记忆驱动模块的计算流程,MFL表示为记忆融合层的计算流程,fd(·)表示为编码器,编码器当前时刻的输出表示为:
yt=fd(h1,h2,h3,L,hi,MFL(MDM(0,y1,y2,L,yt-1))) (26)。
设内窥镜图像诊断报告为B,最终的输出表示为:
B=softmax(Linear(yt)) (27)。
上述的实施例仅为本发明的优选技术方案,而不应视为对于本发明的限制,本发明的保护范围应以权利要求记载的技术方案,包括权利要求记载的技术方案中技术特征的等同替换方案为保护范围。即在此范围内的等同替换改进,也在本发明的保护范围之内。

Claims (9)

1.一种基于记忆驱动的Transformer医学内窥镜图像报告生成方法,其特征是:
步骤1,为了提高网络的特征提取能力,提取到更多的有效病灶信息,对数据集图片进行数据增强等操作;
步骤2,对内窥镜图像使用Wide ResNet-101模型来进行特征提取;
步骤3,把步骤2提取的图像特征输入并融合到Transformer编码器中,负责把图像特征映射为隐藏层特征向量;
步骤4,使用基于记忆驱动的Transformer解码器对编码器产生的隐藏层特征向量进行解码,完成内窥镜诊断报告的自动生成。
2.根据权利要求1所述的一种基于记忆驱动的Transformer医学内窥镜图像报告生成方法,其特征是:步骤1中的具体流程为:
A1、随机地从训练集中抽取一张胶囊内窥镜图像;
A2、将内窥镜图像进行比例缩放为256×256
A3、然后对缩放后的图像进行随机裁剪,得到224×224大小的图像;
A4、对得到的图像进行随机翻转,然后转化为张量形式,并进行标准化处理。
3.根据权利要求1所述的一种基于记忆驱动的Transformer医学内窥镜图像报告生成方法,其特征是:步骤2中的具体流程为:
将内窥镜图像经Wide Resnet-101网络模型的Conv1、Conv2_x、Conv3_x、Conv4_x、Conv5_x后得到内窥镜图像的特征图,然后经过1*1的卷积映射再经过reshape,得到特征向量;
图像I,
Figure FDA0003682831990000011
H0代表图像的高为224,W0代表图像的宽为224。经模型提取的视觉特征向量为F,视觉特征提取过程表示为fν(·)。使用Wide ResNet-101网络模型进行特征提取的过程可写为:
F=fν(I) (1)
其中,视觉特征向量F∈Rd×HW,d=512表示为网络通道数,
Figure FDA0003682831990000012
Figure FDA0003682831990000013
4.根据权利要求1所述的一种基于记忆驱动的Transformer医学内窥镜图像报告生成方法,其特征是:步骤3,把步骤2提取的图像特征加上对应的位置编码输入到Transformer编码器中,负责把图像特征映射为隐藏层特征向量;Transformer的编码器由6个相同的子编码器所构成,其中每一个子编码器由两个子层所组成,具体实施如下:
B1、将输入的图像特征F加上对应的位置编码PE,然后输入到编码器中;
首先生成位置编码PE:
Figure FDA0003682831990000021
Figure FDA0003682831990000022
Figure FDA0003682831990000023
Figure FDA0003682831990000024
其中,根据公式(2)(3)(4)(5)产生位置编码PE∈Rd×HW,计算任意一个位置(posx,posy)的位置编码,posx∈[1,W],posy∈[1,H],通过(2)(3)可以计算得到posx的256维向量,它代表posx的位置编码,再通过(4)(5)可以计算得到posy的256维向量,它代表posy的位置编码,把这2个256维的向量拼接起来,就得到了一个512维的向量,代表(posx,posy)的位置编码。计算所有位置的编码,就得到了(512,HW)的张量也就是位置编码PE。i=0,1,2,3,…,d/4表示为正弦曲线的维度,位置编码的每个维度对应一个正弦曲线,即奇数位置的时候采用公式(2)(4),反之使用公式(3)(5);然后将输入的图像特征F加上对应的位置编码PE,生成的X输入到编码器中:
X=PE+F (6)
其中,X表示加入了位置信息的特征向量;
B2、编码器第一个子层实现了多头自注意力机制,该机制是实现了接收不同查询,键与值的线性映射的头部,来并行产生输出,并生成最终结果。然后生成的结果输入到残差和归一化层:
Q=Linearq(X)=X×Wq (7)
K=Lineark(X)=X×Wk (8)
V=Linearv(X)=X×Wv (9)
Figure FDA0003682831990000031
Xattn2=LayerNorm(X+Xattn1) (11)
其中,公式(7)(8)(9)(10)表示了多头自注意力层的操作过程,Q为查询向量,K为键向量,V为值向量,
Figure FDA0003682831990000032
表示线性映射的权重,Linear表示对X做线性映射,dq,dk,dv分别是Q、K、V的维度,Xattn2是多头注意力机制的输出;
Softmax的计算公式为
Figure FDA0003682831990000033
其中zi为第i个节点的输出值,c为输出节点的个数,即分类的类别个数;
公式(11)表示了残差和归一化层的操作过程;
LayerNorm的计算公式为
Figure FDA0003682831990000034
E(x)表示x的均值,Var[x]表示为x的方差,ε=1e-6表示添加较小的值到方差中以防止分母除零;
B3、编码器第二个子层是由全连接构成的前馈神经网络层,包括两个线性变换,中间穿插ReLU(Rectified Linear Unit)激活函数,然后再输入到残差与归一化层:
Xhidden1=Linear(ReLU(Linear(Xattn2))) (12)
Xhidden2=LayerNorm(Xattn2+Xhidden1) (13)
其中,ReLU的计算公式为ReLU(x)=max(0,x)。Xhidden2是第一个子编码器的第二个子层残差与归一化层的输出;
fe(·)表示为编码器,fe1(·),fe2(·),…fe6(·)分别代表编码器的6个子编码器;经过6个相同的子编码器的操作计算之后,最后输出为编码器的隐藏层特征向量hi
hi=fe6(fe5(fe4(fe3(fe2(Xhidden2))))) (14)
5.根据权利要求1所述的一种基于记忆驱动的Transformer医学内窥镜图像报告生成方法,其特征是:
步骤4中使用基于记忆驱动的解码器对隐藏层特征向量进行解码,根据该特征向量和当前时刻已生成的单词向量来生成下一个单词的概率向量,选取词汇表中概率最大的作为每一时刻的词汇构成句子,直到出现结束标志,完成整个内窥镜图像诊断报告的生成;
解码器与编码器的大体结构基本相同,不同在于解码器第一个子层使用的mask掩码技术并且用记忆融合层MFL替换原来的残差和归一化层,具体实施如下:
C1、解码器的预测输出词向量为Yi={0,y1,y2,…,yi},t表示为当前时刻,解码器需要接收0到t-1时刻的预测输出词向量{0,y1,…,yt-1}作为输入,用来生成下一个输出词向量yt
C2、解码器的输入也通过位置编码来增加位置信息,与编码端完成方式相同;
C3、增加了位置信息的输入被送到解码器的三个子层,在第一个子层中应用掩码,以阻止解码器关注后续的单词;
具体操作就是使用上三角矩阵,上三角的数值全为0,然后将矩阵与输入序列做运算即可;
然后与编码器的第一个子层的多头自注意力机制操作相同,用记忆融合层(MFL)替换原来的残差和归一化层。
C4、在第二个子层,解码器除了接收上一子层的输出fmfl1(x),还接收编码器的输出hi,使得解码器能够处理输入序列中的所有单词。解码器后两个子层具体的操作过程与编码器的两个子层相同,只是把残差和归一化层换成了记忆融合层(MFL)。详细过程与前面基本相同,因此不再说明。解码器第一个子解码器的输出就是第三个子层的记忆融合层输出fmfl3(x)。fd(·)表示为解码器,fd1(·),fd2(·),…fd6(·)分别代表解码器的6个子解码器。经过6个相同的子解码器的操作计算之后,最后输出为预测词向量yt
yt=fd6(fd5(fd4(fd3(fd2(fmfl3(x)))))) (23)
C5、6个相同子解码器的输出最后经过一个线性层以及一个softmax层,为输出序列的下一个词生成预测,最后完成整个内窥镜图像诊断报告的生成。设内窥镜图像诊断报告为B,softmax是为了选取词汇表中概率最大的词作为每一时刻的词汇从而生成内窥镜图像诊断报告。
B=softmax(Linear(yt)) (24)
6.根据权利要求5所述的一种基于记忆驱动的Transformer医学内窥镜图像报告生成方法,其特征是:记忆融合层(MFL)的具体实施如下:
D1、引入记忆融合层(MFL)内的记忆驱动模块(MDM)来增强解码器部分,记忆驱动模块能够从模式信息中学习,有利于计算模式和生成过程之间的交互;
D2、用记忆融合层(MFL)替换原来的残差和归一化层,记忆融合层MFL的原理具体来讲,是将记忆驱动模块的输出Mt附加到传统Transformer中代表缩放和移动表征的两个重要参数γ和β,从而整合记忆信息。
7.根据权利要求6所述的一种基于记忆驱动的Transformer医学内窥镜图像报告生成方法,其特征是:步骤D1中,记忆驱动模块具体公式如下:
E1、记忆驱动模块MDM使用了一个矩阵“状态矩阵M”在记忆生成步骤中表示它的状态,首先通过线性映射初始化Q、K、V生成矩阵Wq、Wk、Wv,然后分别通过Q=Mt-1·Wq,K=[Mt-1;yt-1]·Wk,V=[Mt-1;yt-1]·Wv得到查询、键和值向量,其中,Mt-1表示t-1时刻的状态矩阵,yt-1表示t-1时刻的嵌入向量输出,[;]表示按行进行拼接;
再采用多头注意力对更新的Q、K、V向量进行建模,设键向量K的维数为dk,多头注意力的输出为Z,多头注意力表示如下:
Figure FDA0003682831990000051
E2、对记忆驱动模块引入残差连接,fmlp(·)表示多层感知机,残差连接表示为:
Mt'=fmlp(Z+Mt-1)+Z+Mt-1 (16);
E3、遗忘门和输入门分别用于平衡Mt-1和y′t-1。y′t-1是yt-1复制多行扩展而成的,目的是确保yt-1可以用于Mt-1的计算;
Wf和Wi是对于y′t-1,遗忘门和输入门的可训练参数,而Uf和Ui则是对于Mt-1,遗忘门和输入门的可训练参数;tanh的计算公式为:
Figure FDA0003682831990000052
因此,遗忘门和输入门的输出表示为:
Figure FDA0003682831990000053
E4、对记忆驱动模块引入门机制原理;将残差连接、遗忘门和输入门的输出通过门机制,最终的输出表示为:
Figure FDA0003682831990000061
其中,·表示点积,σ表示sigmoid函数,sigmoid函数的计算公式为
Figure FDA0003682831990000062
Mt表示t时刻整个记忆驱动模块的输出;
8.根据权利要求6所述的一种基于记忆驱动的Transformer医学内窥镜图像报告生成方法,其特征是:步骤D1中,用记忆融合层(MFL)替换原来的残差和归一化层;
记忆融合层MFL的原理具体来讲,是将记忆驱动模块的输出Mt附加到传统Transformer中代表缩放和移动表征的两个重要参数γ和β,从而整合记忆信息;
F1、输出Mt经过多层感知机(MLP)得到参数γ的变化值Δγt,并通过以下公式更新:
Δγt=fmlp(Mt) (18)
Figure FDA0003682831990000063
同样的,参数β的变化值Δβt由下式得到:
Δβt=fmlp(Mt) (20)
Figure FDA0003682831990000064
F2、将计算得到的
Figure FDA0003682831990000065
Figure FDA0003682831990000066
应用于来自之前多头注意力机制生成输出的均值和方差,设前一层的输出为x,μ和v分别是x的均值和标准差,因此记忆融合层MFL计算过程表示为:
Figure FDA0003682831990000067
9.根据权利要求1所述的一种基于记忆驱动的Transformer医学内窥镜图像报告生成方法,其特征是:整体的流程如下:
S1、内窥镜图像经过Wide ResNet-101网络模型提取到特征向量F;
S2、把提取到的特征向量F输入并融合到Transformer编码器中,负责把特征向量F映射为隐藏层特征向量hi={h1,h2,h3,...,hi};
编码器模块对之前提取的特征向量F进行编码,输出则为编码器的隐藏层向量hi
fe(·)表示为编码器。整个编码的过程表示为:
{h1,h2,h3,L,hi}=fe(F) (25);
S3、使用基于记忆驱动的解码器对隐藏层特征向量hi进行解码,得到目标序列Yi={0,y1,y2,…,yi},完成整个内窥镜图像诊断报告的生成;Yi={0,y1,y2,…,yi}表示为需要得到的目标序列,MDM表示为记忆驱动模块的计算流程,MFL表示为记忆融合层的计算流程,fd(·)表示为编码器,编码器当前时刻的输出表示为:
yt=fd(h1,h2,h3,L,hi,MFL(MDM(0,y1,y2,L,yt-1))) (26)。
设内窥镜图像诊断报告为B,最终的输出表示为:
B=softmax(Linear(yt)) (27)。
CN202210638276.7A 2022-06-08 2022-06-08 基于记忆驱动的Transformer医学内窥镜图像报告生成方法 Pending CN114944213A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210638276.7A CN114944213A (zh) 2022-06-08 2022-06-08 基于记忆驱动的Transformer医学内窥镜图像报告生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210638276.7A CN114944213A (zh) 2022-06-08 2022-06-08 基于记忆驱动的Transformer医学内窥镜图像报告生成方法

Publications (1)

Publication Number Publication Date
CN114944213A true CN114944213A (zh) 2022-08-26

Family

ID=82909276

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210638276.7A Pending CN114944213A (zh) 2022-06-08 2022-06-08 基于记忆驱动的Transformer医学内窥镜图像报告生成方法

Country Status (1)

Country Link
CN (1) CN114944213A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115865129A (zh) * 2022-12-01 2023-03-28 电子科技大学 一种基于去噪自编码器的窄带干扰智能消除方法
CN116612340A (zh) * 2023-07-21 2023-08-18 紫东信息科技(苏州)有限公司 一种消化性溃疡部位分类方法、装置及可读存储介质
CN116779091A (zh) * 2023-06-15 2023-09-19 兰州交通大学 一种多模态网络互联融合的胸部影像诊断报告自动生成方法
CN117557883A (zh) * 2024-01-12 2024-02-13 中国科学技术大学 基于病理对齐扩散网络的医疗多模态内容分析及生成方法
CN117558459A (zh) * 2024-01-10 2024-02-13 中国科学技术大学 一种记忆驱动的医疗多模态内容分析及生成方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111445390A (zh) * 2020-02-28 2020-07-24 天津大学 基于宽残差注意力的三维医学图像超分辨率重建方法
CN112164446A (zh) * 2020-10-13 2021-01-01 电子科技大学 一种基于多网络融合的医疗影像报告生成方法
CN112992308A (zh) * 2021-03-25 2021-06-18 腾讯科技(深圳)有限公司 医学图像报告生成模型的训练方法及图像报告生成方法
CN113707278A (zh) * 2021-08-30 2021-11-26 北京工业大学 一种基于空间编码的脑ct医学报告生成方法
CN113707257A (zh) * 2021-07-22 2021-11-26 中南大学 一种3d颅脑mri医学影像报告自动生成方法及***
CN113724359A (zh) * 2021-07-14 2021-11-30 鹏城实验室 一种基于Transformer的CT报告生成方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111445390A (zh) * 2020-02-28 2020-07-24 天津大学 基于宽残差注意力的三维医学图像超分辨率重建方法
CN112164446A (zh) * 2020-10-13 2021-01-01 电子科技大学 一种基于多网络融合的医疗影像报告生成方法
CN112992308A (zh) * 2021-03-25 2021-06-18 腾讯科技(深圳)有限公司 医学图像报告生成模型的训练方法及图像报告生成方法
CN113724359A (zh) * 2021-07-14 2021-11-30 鹏城实验室 一种基于Transformer的CT报告生成方法
CN113707257A (zh) * 2021-07-22 2021-11-26 中南大学 一种3d颅脑mri医学影像报告自动生成方法及***
CN113707278A (zh) * 2021-08-30 2021-11-26 北京工业大学 一种基于空间编码的脑ct医学报告生成方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
ASHISH VASWANI ET AL.: "Attention Is All You Need", 《31ST CONFERENCE ON NEURAL INFORMATION PROCESSING SYSTEMS (NIPS 2017)》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115865129A (zh) * 2022-12-01 2023-03-28 电子科技大学 一种基于去噪自编码器的窄带干扰智能消除方法
CN115865129B (zh) * 2022-12-01 2024-03-29 电子科技大学 一种基于去噪自编码器的窄带干扰智能消除方法
CN116779091A (zh) * 2023-06-15 2023-09-19 兰州交通大学 一种多模态网络互联融合的胸部影像诊断报告自动生成方法
CN116779091B (zh) * 2023-06-15 2024-02-27 兰州交通大学 一种多模态网络互联融合的胸部影像诊断报告自动生成方法
CN116612340A (zh) * 2023-07-21 2023-08-18 紫东信息科技(苏州)有限公司 一种消化性溃疡部位分类方法、装置及可读存储介质
CN116612340B (zh) * 2023-07-21 2023-10-13 紫东信息科技(苏州)有限公司 一种消化性溃疡部位分类方法、装置及可读存储介质
CN117558459A (zh) * 2024-01-10 2024-02-13 中国科学技术大学 一种记忆驱动的医疗多模态内容分析及生成方法
CN117557883A (zh) * 2024-01-12 2024-02-13 中国科学技术大学 基于病理对齐扩散网络的医疗多模态内容分析及生成方法

Similar Documents

Publication Publication Date Title
CN114944213A (zh) 基于记忆驱动的Transformer医学内窥镜图像报告生成方法
CN111462896B (zh) 一种基于病案的实时智能辅助icd编码***和方法
Xue et al. Multimodal recurrent model with attention for automated radiology report generation
CN109545302B (zh) 一种基于语义的医学影像报告模板生成方法
CN109471895B (zh) 电子病历表型抽取、表型名称规范化方法及***
CN107016438B (zh) 一种基于中医辨证人工神经网络算法模型的***
CN115331769B (zh) 基于多模态融合的医学影像报告生成方法及装置
CN110111864B (zh) 一种基于关系模型的医学报告生成***及其生成方法
CN112614561A (zh) 一种基于层级自注意力序列编码的脑ct医学报告生成方法
CN113808075B (zh) 一种基于深度学习的两阶段舌象识别方法
CN112052889B (zh) 基于双门控递归单元解码的喉镜图像识别方法
CN116364227A (zh) 基于记忆能力学习的医学影像报告自动生成方法
CN113555078A (zh) 模式驱动的胃镜检查报告智能生成方法和***
WO2021139231A1 (zh) 基于神经网络模型的分诊方法、装置和计算机设备
CN116779091B (zh) 一种多模态网络互联融合的胸部影像诊断报告自动生成方法
CN115861641A (zh) 一种基于细粒度注意力的医学影像报告生成方法
CN116230154A (zh) 基于记忆强化Transformer的胸腔X光诊断报告生成方法
CN113724359A (zh) 一种基于Transformer的CT报告生成方法
CN114220516A (zh) 一种基于层级循环神经网络解码的脑ct医学报告生成方法
CN116913459B (zh) 基于深度卷积网络控制门模型的用药推荐方法及***
CN116884561B (zh) 基于自监督联合学习的胃部诊断报告生成***
CN117316369B (zh) 平衡跨模态信息的胸部影像诊断报告自动生成方法
CN116720081A (zh) 基于多模态模型的心力衰竭再入院预测方法
CN116168828A (zh) 基于知识图谱和深度学习的疾病预测方法、装置及计算机设备
CN115588486A (zh) 一种基于Transformer的中医诊断生成装置及其应用

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination