CN112561802A - 连续序列图像的插值方法、插值模型训练方法及其*** - Google Patents

连续序列图像的插值方法、插值模型训练方法及其*** Download PDF

Info

Publication number
CN112561802A
CN112561802A CN202110190888.XA CN202110190888A CN112561802A CN 112561802 A CN112561802 A CN 112561802A CN 202110190888 A CN202110190888 A CN 202110190888A CN 112561802 A CN112561802 A CN 112561802A
Authority
CN
China
Prior art keywords
feature map
updated
vector
quantization
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110190888.XA
Other languages
English (en)
Other versions
CN112561802B (zh
Inventor
蔡鑫
邱慎杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Taimei Xingcheng Pharmaceutical Technology Co Ltd
Original Assignee
Hangzhou Taimei Xingcheng Pharmaceutical Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Taimei Xingcheng Pharmaceutical Technology Co Ltd filed Critical Hangzhou Taimei Xingcheng Pharmaceutical Technology Co Ltd
Priority to CN202110190888.XA priority Critical patent/CN112561802B/zh
Publication of CN112561802A publication Critical patent/CN112561802A/zh
Application granted granted Critical
Publication of CN112561802B publication Critical patent/CN112561802B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4007Scaling of whole images or parts thereof, e.g. expanding or contracting based on interpolation, e.g. bilinear interpolation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4046Scaling of whole images or parts thereof, e.g. expanding or contracting using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本申请提供了一种连续序列图像的插值方法、插值模型训练方法及其***。该插值方法使用向量量化变分自编码模型对连续序列图像进行插值,所述向量量化变分自编码模型包括用于编码的编码器、用于向量量化的码表和用于解码的解码器,所述方法包括:获取待插值时刻之前的A个连续时刻的序列图像和待插值时刻之后的B个连续时刻的序列图像作为输入图像,其中A和B为正整数;使用所述编码器对所述输入图像进行N次编码得到N个特征图,N为大于或等于2的正整数;获取所述N个特征图的N个量化向量;基于所述N个量化向量得到更新的第1量化向量;以及使用所述解码器对所述更新的第1量化向量进行解码得到所述待插值时刻的插值图像。

Description

连续序列图像的插值方法、插值模型训练方法及其***
技术领域
本申请主要涉及图像处理领域,尤其涉及一种连续序列图像的插值方法和***、一种用于连续序列图像的插值模型训练方法和***、以及一种计算机可读介质。
背景技术
在图像处理领域中,常需要用到图像插值算法来得到插值图像。
例如,图像几何变换包括平移、转置、镜像和缩放等。在前三种操作变换中,输出图像的每一个像素点在输入图像中都有一个具体的像素点与之对应。但是,在缩放操作中,输出图像像素点坐标有可能对应于输入图像上几个像素点之间的位置。因此,需要通过插值处理来计算出该输出点的灰度值。
由于图像像素的灰度值是离散的,通常的处理方法是对原本在整数点坐标上的像素值进行插值生成连续的曲面,然后在插值曲面上重新采样以获得缩放图像像素的灰度值。缩放处理从输出图像出发,采用逆向映射方法,即在输出图像中找到与之对应的输入图像中的某个或某几个像素。采用上述方法能够保证输出图像中的每个像素都有一个确定值。因为在对图像进行缩放处理时,输出图像像素和输入图像之间可能不再存在着一一对应关系,所以如果从输入图像出发来推算输出图像,输出图像的像素点可能出现无灰度值的情况。
又如在医学影像领域,许多临床诊断需获取病人的CT图像,但CT成像过程会使患者处于细胞损伤和癌症的放射线风险中。因此,出于对病人健康的考虑,只能减少扫描层数和强度。但这会使得CT序列其他方向的切面经常会存在分辨率过低的问题,影响到CT序列图像的应用效果。例如在3D重建图像上,低分辨率的图像会极大降低重建图像的分辨率。一般来说,可以通过图像插值来提高CT序列在各个切面方向的分辨率。但传统的图像插值方法一般只在插值点附近寻找插值参考像素点,当参考点过少时容易出现信息损失,当参考点增加时又会加大计算复杂度。因此,传统的插值方法需要在速度和效果之间做权衡。
现有技术中,最常用的传统插值算法有三种:最近邻插值算法(又称零阶插值法)、双线性插值算法(又称一阶插值法)和立方卷积插值算法(又称双三次插值法)。
最近邻插值法的优点是计算量很小,算法也简单,因此运算速度较快。但它仅使用离待测采样点最近的像素的灰度值作为该采样点的灰度值,而没考虑其他相邻像素点的影响,因而重新采样后灰度值有明显的不连续性,图像质量损失较大,会产生明显的马赛克和锯齿现象。
双线性插值法效果要好于最近邻插值,只是计算量稍大一些,算法复杂些,程序运行时间也稍长些,但缩放后图像质量高,基本克服了最近邻插值灰度值不连续的特点,因为它考虑了待测采样点周围四个直接邻点对该采样点的相关性影响。但是,此方法仅考虑待测样点周围四个直接邻点灰度值的影响,而未考虑到各邻点间灰度值变化率的影响。因此,双线性插值法具有低通滤波器的性质,会导致缩放后图像的高频分量受到损失,图像边缘在一定程度上变得较为模糊。用双线性插值法进行缩放后的输出图像与输入图像相比,仍然存在由于插值函数设计考虑不周而产生的图像质量受损与计算精度不高的问题。
立方卷积插值法计算量最大,算法也是最为复杂的。在几何运算中,双线性插值法的平滑作用可能会使图像的细节产生退化,这种影响在进行放大处理时更为明显。在其他应用中,双线性插值的斜率不连续性会产生不希望的结果。立方卷积插值法不仅考虑到周围四个直接相邻像素点灰度值的影响,还考虑到它们灰度值变化率的影响。因此立方卷积插值法克服了前两种方法的不足之处,能够产生比双线性插值更为平滑的边缘,但立方卷积插值法计算复杂度相对较高,同时本质上也是一种低通滤波器。
由此可见,图像插值是图像超分辨处理的重要环节,不同的插值算法有不同的精度,插值算法的好坏也直接影响着图像的失真程度。因此,本领域技术人员亟需一种既能获得高低频信号的全局信息,又不会因为参考点过多导致计算速度过慢的图像插值方法。
发明内容
本申请要解决的技术问题是提供一种连续序列图像的插值方法和***、一种用于连续序列图像的插值模型训练方法和***、以及一种计算机可读介质,能够实现获得高低频信号的全局信息且计算速度快的图像插值。
为解决上述技术问题,本申请提供了一种连续序列图像的插值方法,使用向量量化变分自编码模型对连续序列图像进行插值,所述向量量化变分自编码模型包括用于编码的编码器、用于向量量化的码表和用于解码的解码器,所述方法包括:获取待插值时刻之前的A个连续时刻的序列图像和待插值时刻之后的B个连续时刻的序列图像作为输入图像,其中A和B为正整数;使用所述编码器对所述输入图像进行N次编码得到N个特征图,N为大于或等于2的正整数;获取所述N个特征图的N个量化向量,包括:取n=N,使用所述码表对第N特征图进行向量量化,得到第N量化向量;取n=N-1,基于第N量化向量和第N-1特征图得到1次更新的第N-1特征图,且使用所述码表对更新的第N-1特征图进行向量量化,得到第N-1量化向量;以及当N≥3时,分别取n=1, 2, 3, …, N-2,且对每个n的取值,基于第n+1量化向量、N-(n+1)次更新的第n+1特征图、以及第n特征图得到N-n次更新的第n特征图,且使用所述码表对最近更新的第n特征图进行向量量化,得到第1量化向量至第N-2量化向量;基于所述N个量化向量得到更新的第1量化向量;以及使用所述解码器对所述更新的第1量化向量进行解码得到所述待插值时刻的插值图像。
在本发明的一实施例中,基于第N量化向量和第N-1特征图得到1次更新的第N-1特征图的步骤包括:使用所述解码器对所述第N量化向量进行解码得到第N辅助特征图,所述N辅助特征图与所述第N-1特征图的分辨率相同;将所述第N辅助特征图和所述第N-1特征图连接得到更新的第N-1特征图。
在本发明的一实施例中,基于第n+1量化向量、N-(n+1)次更新的第n+1特征图、以及第n特征图得到N-n次更新的第n特征图的步骤包括:使用所述解码器对第1次更新的第n+1特征图进行解码得到第n+1参考特征图,所述n+1参考特征图与所述第n特征图的分辨率相同;将所述第n+1参考特征图与所述第n特征图进行连接操作得到第1次更新的第n特征图;迭代使用第2至N-(n+1)次更新的第n+1特征图解码得到的第n+1参考特征图与更新的第n特征图连接以分别得到第2至N-(n+1)次更新的第n特征图;使用所述解码器对所述第n+1量化向量进行解码得到第n+1辅助特征图,所述n+1辅助特征图与第N-(n+1)次更新的第n特征图的分辨率相同;以及将所述第n+1辅助特征图与所述第N-(n+1)次更新的第n特征图进行连接操作得到第N-n次更新的第n特征图,作为最近更新的第n特征图。
在本发明的一实施例中,N=3,获取3个特征图的3个量化向量的步骤包括:使用所述码表对第3特征图进行向量量化得到第3量化向量;使用所述解码器将所述第3量化向量解码成第3辅助特征图,并将所述第3辅助特征图与第2特征图进行连接操作得到更新的第2特征图,使用所述码表对所述更新的第2特征图进行向量量化得到第2量化向量;使用所述解码器对所述更新的第2特征图进行解码得到第2参考特征图,并将所述第2参考特征图与第1特征图进行连接操作得到第1次更新的第1特征图;以及使用所述解码器将所述第2量化向量解码成第2辅助特征图,将所述第2参考特征图与所述第1次更新的第1特征图进行连接操作得到第2次更新的第1特征图,使用所述码表对所述第2次更新的第1特征图进行向量量化得到第1量化向量。
在本发明的一实施例中,基于所述N个量化向量得到更新的第1量化向量的步骤包括:使用所述解码器对所述第3量化向量进行上采样得到第3参考向量,对所述第2量化向量进行上采样得到第2参考向量,并将所述第3参考向量和所述第2参考向量与所述第1量化向量进行连接操作得到更新的第1量化向量。
在本发明的一实施例中,使用所述编码器对所述输入图像进行N次编码得到N个特征图的步骤之前还包括:将所述A个连续时刻的序列图像和所述B个连续时刻的序列图像标准化处理成灰度级相同的灰度图。
在本发明的一实施例中,所述第1特征图的分辨率与所述第2特征图的分辨率之比为2的整数倍,以及所述第2特征图的分辨率与所述第3特征图的分辨率之比为2的整数倍。
本发明还提出一种用于连续序列图像的插值模型的训练方法,所述插值模型包括向量量化变分自编码模型,所述向量量化变分自编码模型包括用于编码的编码器、用于向量量化的码表和用于解码的解码器,所述方法包括:获取用于训练的样本连续序列图像,所述连续序列图像包括标签时刻的图像;将所述连续序列图像中所述标签时刻之前的A个连续时刻的序列图像和标签时刻之后的B个连续时刻的序列图像作为输入图像,其中A和B为正整数;使用所述编码器对所述输入图像进行N次编码得到N个特征图,N为大于或等于2的正整数;获取所述N个特征图的N个量化向量,包括:取n=N,使用所述码表对第N特征图进行向量量化,得到第N量化向量;取n=N-1,基于第N量化向量和第N-1特征图得到1次更新的第N-1特征图,且使用所述码表对更新的第N-1特征图进行向量量化,得到第n量化向量;当N≥3时,分别取n=1, 2, 3, …, N-2,且对每个n的取值,基于第n+1量化向量、N-(n+1)次更新的第n+1特征图、以及第n特征图得到N-n次更新的第n特征图,且使用所述码表对最近更新的第n特征图进行向量量化,得到第1量化向量至第N-2量化向量;基于所述N个量化向量得到更新的第1量化向量;使用所述解码器对所述更新的第1量化向量进行解码得到标签时刻的预测图像;以及根据预设损失函数、所述标签时刻的图像和所述标签时刻的预测图像来更新所述向量量化变分自编码模型的权重参数。
在本发明的一实施例中,所述预设损失函数通过以下方式计算:
Figure DEST_PATH_IMAGE001
其中,Loss为所述预设损失函数,L为重构误差,
Figure 360272DEST_PATH_IMAGE002
为码本误差,
Figure DEST_PATH_IMAGE003
为承诺损失。
在本发明的一实施例中,所述重构误差为均方误差损失,所述均方误差损失L_MSE通过以下方式计算:
Figure 136467DEST_PATH_IMAGE004
其中,W为所述标签时刻的预测图像的宽,H为所述标签时刻的预测图像的高,i为所述标签时刻的图像或所述标签时刻的预测图像的横坐标,j为所述标签时刻的图像或所述标签时刻的预测图像的纵坐标,
Figure DEST_PATH_IMAGE005
为所述标签时刻的预测图像的预测值,
Figure 916204DEST_PATH_IMAGE006
为所述标签时刻的图像的真实值。
在本发明的一实施例中,所述重构误差L通过以下方式计算:
L=p*L_GD+q*L_MSE
其中,L_MSE为均方误差损失,L_GD为梯度差异损失,p为所述梯度差异损失的预设权重值,q为所述均方误差损失的预设权重值;
所述均方误差损失通过以下方式计算:
Figure DEST_PATH_IMAGE007
其中,W为所述标签时刻的预测图像的宽,H为所述标签时刻的预测图像的高,i为所述标签时刻的图像或所述标签时刻的预测图像的横坐标,j为所述标签时刻的图像或所述标签时刻的预测图像的纵坐标,
Figure 780255DEST_PATH_IMAGE005
为所述标签时刻的预测图像的预测值,
Figure 594627DEST_PATH_IMAGE006
为所述标签时刻的图像的真实值;
所述梯度差异损失通过以下方式计算:
Figure 417089DEST_PATH_IMAGE008
其中,W为所述标签时刻的预测图像的宽,H为所述标签时刻的预测图像的高,i为所述标签时刻的图像或所述标签时刻的预测图像的横坐标,j为所述标签时刻的图像或所述标签时刻的预测图像的纵坐标,
Figure DEST_PATH_IMAGE009
为所述标签时刻的图像在x方向上的梯度值图,
Figure 418543DEST_PATH_IMAGE010
为所述标签时刻的预测图像在x方向上的梯度值图,
Figure DEST_PATH_IMAGE011
为所述标签时刻的图像在y方向上的梯度值图,
Figure 617444DEST_PATH_IMAGE012
为所述标签时刻的预测图像在y方向上的梯度值图。
在本发明的一实施例中,p与q相等。
在本发明的一实施例中,
Figure 145377DEST_PATH_IMAGE009
是由基于X方向梯度算子对所述标签时刻的图像做卷积运算得到,
Figure 138741DEST_PATH_IMAGE010
是由基于X方向梯度算子对所述标签时刻的预测图像做卷积运算得到,
Figure 893070DEST_PATH_IMAGE011
是由基于Y方向梯度算子对所述标签时刻的图像做卷积运算得到,
Figure 630082DEST_PATH_IMAGE012
是由基于Y方向梯度算子对所述标签时刻的预测图像做卷积运算得到;
其中,所述X方向梯度算子为
Figure DEST_PATH_IMAGE013
所述Y方向梯度算子为
Figure 622309DEST_PATH_IMAGE014
在本发明的一实施例中,上述方法还包括:使用神经架构搜索算法计算p和q。
在本发明的一实施例中,基于第N量化向量和第N-1特征图得到1次更新的第N-1特征图的步骤包括:使用所述解码器对所述第N量化向量进行解码得到第N辅助特征图,所述n+1辅助特征图与所述第N-1特征图的分辨率相同;将所述第N辅助特征图和所述第N-1特征图连接得到更新的第N-1特征图。
在本发明的一实施例中,基于第n+1量化向量、N-(n+1)次更新的第n+1特征图、以及第n特征图得到N-n次更新的第n特征图的步骤包括:使用所述解码器对第1次更新的第n+1特征图进行解码得到第n+1参考特征图,所述n+1参考特征图与所述第n特征图的分辨率相同;将所述第n+1参考特征图与所述第n特征图进行连接操作得到第1次更新的第n特征图;迭代使用第2至N-(n+1)次更新的第n+1特征图解码得到的第n+1参考特征图与更新的第n特征图连接以分别得到第2至N-(n+1)次更新的第n特征图;使用所述解码器对所述第n+1量化向量进行解码得到第n+1辅助特征图,所述n+1辅助特征图与第N-(n+1)次更新的第n特征图的分辨率相同;以及将所述第n+1辅助特征图与所述第N-(n+1)次更新的第n特征图进行连接操作得到第N-n次更新的第n特征图,作为最近更新的第n特征图。
在本发明的一实施例中,N=3,获取3个特征图的3个量化向量的步骤包括:使用所述码表对第3特征图进行向量量化得到第3量化向量;使用所述解码器将所述第3量化向量解码成第3辅助特征图,并将所述第3辅助特征图与第2特征图进行连接操作得到更新的第2特征图,使用所述码表对所述更新的第2特征图进行向量量化得到第2量化向量;使用所述解码器对所述更新的第2特征图进行解码得到第2参考特征图,并将所述第2参考特征图与第1特征图进行连接操作得到第1次更新的第1特征图;以及使用所述解码器将所述第2量化向量解码成第2辅助特征图,将所述第2参考特征图与所述第1次更新的第1特征图进行连接操作得到第2次更新的第1特征图,使用所述码表对所述第2次更新的第1特征图进行向量量化得到第1量化向量。
在本发明的一实施例中,基于所述N个量化向量得到更新的第1量化向量的步骤包括:使用所述解码器对所述第3量化向量进行上采样得到第3参考向量,对所述第2量化向量进行上采样得到第2参考向量,并将所述第3参考向量和所述第2参考向量与所述第1量化向量进行连接操作得到更新的第1量化向量。
本发明还提出一种连续序列图像的插值***,包括: 存储器,用于存储可由处理器执行的指令;以及处理器,用于执行所述指令以实现如上所述的方法。
本发明还提出一种用于连续序列图像的插值模型的训练***,包括:存储器,用于存储可由处理器执行的指令;以及处理器,用于执行所述指令以实现如上所述的方法。
本发明还提出一种存储有计算机程序代码的计算机可读介质,所述计算机程序代码在由处理器执行时实现如上所述的方法。
与现有技术相比,本申请的连续序列图像的插值方法、***和计算机可读介质通过采用具有多层结构的向量量化变分自编码模型来进行插值,从而具有更大的感受野,能够参考更多的像素值及获得更高维度的图像特征,大幅度地提高了插值真实性。
本申请的用于连续序列图像的插值模型的训练方法所训练出来的插值模型,通过采用具有多层结构的向量量化变分自编码模型来进行插值,从而具有更大的感受野,能够参考更多的像素值及获得更高维度的图像特征,大幅度地提高了插值真实性。
附图说明
包括附图是为提供对本申请进一步的理解,它们被收录并构成本申请的一部分,附图示出了本申请的实施例,并与本说明书一起起到解释本申请原理的作用。附图中:
图1是根据本申请一实施例示出的连续序列图像的插值方法的示意流程图;
图2是根据本申请另一实施例示出的连续序列图像的插值方法的示意流程图;
图3是根据本申请一实施例示出的用于连续序列图像的插值模型的训练方法的示意流程图;
图4是根据本申请一实施例示出的连续序列图像的插值***的***框图;
图5是根据本申请一实施例示出的用于连续序列图像的插值模型的训练***的***框图;
图6是根据本申请又一实施例示出的连续序列图像的插值方法的示意流程图;
图7是根据本申请另一实施例示出的用于连续序列图像的插值模型的训练方法的示意流程图。
具体实施方式
为了更清楚地说明本申请的实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单的介绍。显而易见地,下面描述中的附图仅仅是本申请的一些示例或实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图将本申请应用于其他类似情景。除非从语言环境中显而易见或另做说明,图中相同标号代表相同结构或操作。
如本申请和权利要求书中所示,除非上下文明确提示例外情形,“一”、“一个”、“一种”和/或“该”等词并非特指单数,也可包括复数。一般说来,术语“包括”与“包含”仅提示包括已明确标识的步骤和元素,而这些步骤和元素不构成一个排它性的罗列,方法或者设备也可能包含其他的步骤或元素。
除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本申请的范围。同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为授权说明书的一部分。在这里示出和讨论的所有示例中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它示例可以具有不同的值。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
本申请中使用了流程图用来说明根据本申请的实施例的***所执行的操作。应当理解的是,前面或下面操作不一定按照顺序来精确地执行。相反,可以按照倒序或同时处理各种步骤。同时,或将其他操作添加到这些过程中,或从这些过程移除某一步或数步操作。
本申请提供了一种连续序列图像的插值方法,使用向量量化变分自编码模型(VQ-VAE, Vector Quantized Variational Autoencoder)对连续序列图像进行插值,向量量化变分自编码模型包括用于编码的编码器(Encoder)、用于向量量化的码表(Codebook)和用于解码的解码器(Decoder)。该方法可以在连续序列图像的插值***中实施。码表可以是一个嵌入表(Embedding Table),***通过在嵌入表中找到和编码向量最接近(例如欧式距离最近)的一个嵌入,然后用这个嵌入的索引值来代表这个编码向量。本申请中的上采样或解码的实现方式可以包括转置卷积等。
图1是根据本申请一实施例示出的连续序列图像的插值方法的示意流程图。
***获取待插值时刻之前的A个连续时刻的序列图像和待插值时刻之后的B个连续时刻的序列图像作为输入图像,其中A和B为正整数。在一个示例中,A和B可以相等。在图1实施例中,A=1,B=1,即***选取待插值时刻之前的1个序列图像和待插值时刻之后的1个序列图像作为输入图像101。
***使用编码器对输入图像101进行N次编码得到N个特征图,在图1实施例中,N等于2。***使用编码器对输入图像进行编码得到第1特征图102,然后对第1特征图102进行编码得到第2特征图103。
***使用码表对第2特征图103进行向量量化得到第2量化向量104。***使用解码器对第2量化向量104进行解码得到第2参考特征图105,第2参考特征图105与第1特征图102的分辨率相同。***将第2参考特征图105和第1特征图102进行连接(Concatenate,又称通道叠加)获得更新的第1特征图106。***使用码表对更新的第1特征图106进行向量量化得到第1量化向量107。***使用解码器对第2量化向量104进行上采样,即将第2量化向量104解码成与第1量化向量107的分辨率相同的量化向量,然后将上采样处理后的第2量化向量104与第1量化向量107进行连接得到更新的第1量化向量108。
最后,***使用解码器将更新的第1量化向量108解码成输出图像109,输出图像109与输入图像101的分辨率相同。输出图像即为待插值时刻的插值图像。
图2是根据本申请另一实施例示出的连续序列图像的插值方法的示意流程图。
***获取待插值时刻之前的A个连续时刻的序列图像和待插值时刻之后的B个连续时刻的序列图像作为输入图像,其中A和B为正整数。在一个示例中,A和B可以相等。当A≥2和/或B≥2时,通过使用多张待插值时刻之前的连续时刻的序列图像和多张待插值时刻之后的连续时刻的序列图像做为输入图像,能够得到真实性更高的插值图像。在本申请的一实施例中,***可以将A个连续时刻的序列图像和B个连续时刻的序列图像标准化处理成灰度级相同的灰度图。
在图2实施例中,A=1,B=1,即***选取待插值时刻之前的1个序列图像和待插值时刻之后的1个序列图像作为输入图像201。
如图2所示,***使用编码器对输入图像201进行N次编码得到N个特征图,在图2实施例中,N等于3。***使用编码器对输入图像进行编码得到第1特征图202,然后对第1特征图202进行编码得到第2特征图203,再对第2特征图203进行编码得到第3特征图204。
***使用码表对第3特征图204进行向量量化得到第3量化向量205。***使用解码器对第3量化向量205进行解码得到第3辅助特征图206,第3辅助特征图206与第2特征图203的分辨率相同。***将第3辅助特征图206和第2特征图203进行连接(Concatenate,又称通道叠加)获得更新的第2特征图207。***使用码表对更新的第2特征图207进行向量量化得到第2量化向量210。
***使用解码器对更新的第2特征图207进行解码得到第2参考特征图208,第2参考特征图208与第1特征图202的分辨率相同。***将第2参考特征图208和第1特征图202进行连接获得第一次更新的第1特征图209。***使用解码器对第2量化向量210进行解码得到第2辅助特征图211,第2辅助特征图211与第一次更新的第1特征图209的分辨率相同。***将第2辅助特征图211和第一次更新的第1特征图209进行连接获得第二次更新的第1特征图212。***使用码表对第二次更新的第1特征图212进行向量量化得到第1量化向量213。
***使用解码器对第3量化向量205进行上采样,即将第3量化向量205解码成与第1量化向量213的分辨率相同的量化向量。***使用解码器对第2量化向量210进行上采样,即将第2量化向量210解码成与第1量化向量213的分辨率相同的量化向量。然后,***将上采样处理后的第3量化向量205、上采样处理后的第2量化向量210与第1量化向量213进行连接得到更新的第1量化向量214。
最后,***将更新的第1量化向量214解码成输出图像215,输出图像215与输入图像201的分辨率相同。输出图像即为待插值时刻的插值图像。
在本申请的一实施例中,第1特征图的分辨率与所述第2特征图的分辨率之比可以为2的整数倍,以及第2特征图的分辨率与第3特征图的分辨率之比可以为2的整数倍。
在图2实施例中,输入图像201和输出图像215的分辨率相同,可以为512*512。第1特征图202、第2参考特征图208、第一次更新的第1特征图209、第2辅助特征图211、第二次更新的第1特征图212、第1量化向量213和更新的第1量化向量214的分辨率相同,可以为256*256。第2特征图203、第3辅助特征图206、更新的第2特征图207和第2量化向量210的分辨率相同,可以为128*128。第3特征图204和第3量化向量205的分辨率相同,可以为64*64。
图6是根据本申请又一实施例示出的连续序列图像的插值方法的示意流程图。在上述图1实施例(N=2)和图2实施例(N=3)的基础上,本领域技术人员可以推导出本申请的连续序列图像的插值方法在N≥4时的实施方式。如图6所示,本申请实施例的连续序列图像的插值方法包括以下步骤601-605:
步骤601,获取待插值时刻之前的A个连续时刻的序列图像和待插值时刻之后的B个连续时刻的序列图像作为输入图像,其中A和B为正整数;
步骤602,使用编码器对输入图像进行N次编码得到N个特征图,N为大于或等于2的正整数;
步骤603,获取N个特征图的N个量化向量;
步骤604,基于N个量化向量得到更新的第1量化向量;以及
步骤605,使用解码器对更新的第1量化向量进行解码得到待插值时刻的图像。
其中,步骤603包括以下步骤6031-6033:
步骤6031,取n=N,使用码表对第N特征图进行向量量化,得到第N量化向量;
步骤6032,取=N-1,基于第N量化向量和第N-1特征图得到1次更新的第N-1特征图,且使用码表对更新的第N-1特征图进行向量量化,得到第N-1量化向量;
步骤6033,当N≥3时,分别取n=1, 2, 3, …, N-2,且对每个n的取值,基于第n+1量化向量、N-(n+1)次更新的第n+1特征图、以及第n特征图得到N-n次更新的第n特征图,且使用码表对最近更新的第n特征图进行向量量化,得到第1量化向量至第N-2量化向量。
举例来说,当n=N-2时,n+1=N-1,可以基于第n+1(N-1)量化向量、N-(n+1)=1次更新的第N-1特征图、以及第N-2特征图得到N-n=2次更新的第n特征图。当n=N-3时,n+1=N-2,可以基于第n+1(N-2)量化向量、N-(n+1)=2次更新的第N-2特征图、以及第N-3特征图得到N-n=3次更新的第n特征图。以此类推。
在本申请一实施例中,对于N个特征图中的第n特征图,n越大则分辨率越低。
在本申请一实施例中,步骤6032中的基于第N量化向量和第N-1特征图得到1次更新的第N-1特征图的步骤包括:
使用解码器对第N量化向量进行解码得到第N辅助特征图,第N辅助特征图与第N-1特征图的分辨率相同;以及
将第N辅助特征图和第N-1特征图连接得到更新的第N-1特征图。
在本申请一实施例中,步骤6033中的基于第n+1量化向量、N-(n+1)次更新的第n+1特征图、以及第n特征图得到N-n次更新的第n特征图包括以下步骤:
使用解码器对第1次更新的第n+1特征图进行解码得到第n+1参考特征图,n+1参考特征图与第n特征图的分辨率相同;
将第n+1参考特征图与第n特征图进行连接操作得到第1次更新的第n特征图;
迭代使用第2至N-(n+1)次更新的第n+1特征图解码得到的第n+1参考特征图与更新的第n特征图连接以分别得到第2至N-(n+1)次更新的第n特征图;例如,使用第2次更新的第n+1特征图解码得到的第n+1参考特征图,与第1次更新的第n特征图连接得到第2次更新的第n特征图,使用第3次更新的第n+1特征图解码得到的第n+1参考特征图,与第2次更新的第n特征图连接得到第3次更新的第n特征图,……以此类推;
使用解码器对第n+1量化向量进行解码得到第n+1辅助特征图,n+1辅助特征图与第N-(n+1)次更新的第n特征图的分辨率相同;以及
将第n+1辅助特征图与第N-(n+1)次更新的第n特征图进行连接操作得到第N-n次更新的第n特征图,作为最近更新的第n特征图。
通过对1, 2, 3, …, N-2中的n的取值执行上述步骤,就可以分别得到最近更新的第1, 2, 3, …, N-2特征图。
本申请的连续序列图像的插值方法通过采用具有多层结构的向量量化变分自编码模型来进行插值,从而具有更大的感受野,能够参考更多的像素值及获得更高维度的图像特征,大幅度地提高了插值真实性。该方法在插值过程中不只是考虑插值点周围若干个像素的灰度值,而是随着网络层数的加深,卷积核的感受野(Receptive Field)会不断增大。例如将分辨率512×512的图像卷积至64×64的特征图,则感受野的大小达到8×8=64,相当于会参考周围面积为64的区域的像素点灰度值。同时在卷积核的线性映射和激活函数的非线性映射下,拟合的插值函数可以近似为比立方卷积法的三次插值还要复杂的高次插值,更容易兼顾到高频和低频信号。并且,该方法适于利用GPU进行高速并行计算,能够在保持优秀的插值效果的前提下依旧能保证计算速度,达到实时插值的要求。该方法尤其适合应用于医学影像场景:例如PET-CT融合,使其融合更准确;在3D重建使得对病灶体积的评估上会更精准;在做一些医学影像的器官分割任务上,插值可以作为数据增强的一种方式,能够解决样本量过少的问题,提高模型表达能力;在图像配准上,插值图像也能辅助实现更精确的配准结果。该方法不仅可以对CT图像插值,还同样可以应用在MRI等其他医学成像技术上。
本申请还提供了一种用于连续序列图像的插值模型的训练方法,所述插值模型包括向量量化变分自编码模型,所述向量量化变分自编码模型包括用于编码的编码器、用于向量量化的码表和用于解码的解码器。该用于连续序列图像的插值模型的训练方法可在用于连续序列图像的插值模型的训练***中实施。图3是根据本申请一实施例示出的用于连续序列图像的插值模型的训练方法的示意流程图。
***获取用于训练的样本连续序列图像,连续序列图像包括标签时刻的图像将连续序列图像中标签时刻之前的A个连续时刻的序列图像和标签时刻之后的B个连续时刻的序列图像作为输入图像,其中A和B为正整数;在一个示例中,A和B可以相等。当A≥2和/或B≥2时,通过使用多张标签时刻之前的连续时刻的序列图像和多张标签时刻之后的连续时刻的序列图像作为输入图像,能够得到真实性更高的标签时刻的预测图像。
在图3实施例中,A=1,B=1,即***选取标签时刻之前的1个序列图像和标签时刻之后的1个序列图像作为输入图像301。
***使用编码器对输入图像301进行N次编码得到N个特征图,在图3实施例中,N等于3。***使用编码器对输入图像进行编码得到第1特征图302,然后对第1特征图302进行编码得到第2特征图303,再对第2特征图303进行编码得到第3特征图304。
***使用码表对第3特征图304进行向量量化得到第3量化向量305。***使用解码器对第3量化向量305进行解码得到第3辅助特征图306,第3辅助特征图306与第2特征图303的分辨率相同。***将第3辅助特征图306和第2特征图303进行连接(Concatenate,又称通道叠加)获得更新的第2特征图307。***使用码表对更新的第2特征图307进行向量量化得到第2量化向量310。
***使用解码器对更新的第2特征图307进行解码得到第2参考特征图308,第2参考特征图308与第1特征图302的分辨率相同。***将第2参考特征图308和第1特征图302进行连接获得第一次更新的第1特征图309。***使用解码器对第2量化向量310进行解码得到第2辅助特征图311,第2辅助特征图311与第一次更新的第1特征图309的分辨率相同。***将第2辅助特征图311和第一次更新的第1特征图309进行连接获得第二次更新的第1特征图312。***使用码表对第二次更新的第1特征图312进行向量量化得到第1量化向量313。
***使用解码器对第3量化向量305进行上采样,即将第3量化向量305解码成与第1量化向量313的分辨率相同的量化向量。***使用解码器对第2量化向量310进行上采样,即将第2量化向量310解码成与第1量化向量313的分辨率相同的量化向量。然后,***将上采样处理后的第3量化向量305、上采样处理后的第2量化向量310与第1量化向量313进行连接得到更新的第1量化向量314。
***将更新的第1量化向量314解码成输出图像315,输出图像315与输入图像301的分辨率相同。输出图像即为标签时刻的预测图像。
在图3实施例中,输入图像301和输出图像315的分辨率相同,可以为512*512。第1特征图302、第2参考特征图308、第一次更新的第1特征图309、第2辅助特征图311、第二次更新的第1特征图312、第1量化向量313和更新的第1量化向量314的分辨率相同,可以为256*256。第2特征图303、第3辅助特征图306、更新的第2特征图307和第2量化向量310的分辨率相同,可以为128*128。第3特征图304和第3量化向量305的分辨率相同,可以为64*64。
***根据预设损失函数、标签时刻的图像和标签时刻的预测图像来更新向量量化变分自编码模型的权重参数。
在本申请一实施例中,预设损失函数可以通过以下方式计算:
Figure 52153DEST_PATH_IMAGE001
其中,Loss为预设损失函数,L为重构误差,
Figure DEST_PATH_IMAGE015
为码本误差,
Figure 28199DEST_PATH_IMAGE003
为承诺损失。
在本申请一实施例中,重构误差L可以为均方误差损失L_MSE,均方误差损失L_MSE可以通过以下方式计算:
Figure 303323DEST_PATH_IMAGE004
其中,W为标签时刻的预测图像的宽,H为标签时刻的预测图像的高,i为标签时刻的图像或标签时刻的预测图像的横坐标,j为标签时刻的图像或标签时刻的预测图像的纵坐标,
Figure 946794DEST_PATH_IMAGE005
为标签时刻的预测图像的预测值,
Figure 141015DEST_PATH_IMAGE006
为标签时刻的图像的真实值。
在本申请另一实施例中,重构误差L还可以通过以下方式计算:
L=p*L_GD+q*L_MSE
其中,L_MSE为均方误差损失,L_GD为梯度差异损失,p为梯度差异损失的预设权重值,q为均方误差损失的预设权重值。在本申请一实施例中,p与q可以相等。在本申请一实施例中,***可以使用神经架构搜索算法( Neural Architecture Search,NAS)来计算p和q,即让机器自己根据数据集构建合适的模型,寻找合适的超参数p和q,从而节省调节超参数所需要的高时间成本和高人工成本。
均方误差损失L_MSE可以通过以下方式计算:
Figure 869936DEST_PATH_IMAGE007
其中,W为标签时刻的预测图像的宽,H为标签时刻的预测图像的高,i为标签时刻的图像或标签时刻的预测图像的横坐标,j为标签时刻的图像或标签时刻的预测图像的纵坐标,
Figure 948751DEST_PATH_IMAGE005
为标签时刻的预测图像的预测值,
Figure 446728DEST_PATH_IMAGE006
为标签时刻的图像的真实值。
梯度差异损失L_GD可以通过以下方式计算:
Figure 218375DEST_PATH_IMAGE008
其中,W为标签时刻的预测图像的宽,H为标签时刻的预测图像的高,i为标签时刻的图像或标签时刻的预测图像的横坐标,j为标签时刻的图像或标签时刻的预测图像的纵坐标,
Figure 903434DEST_PATH_IMAGE009
为标签时刻的图像在x方向上的梯度值图,
Figure 785940DEST_PATH_IMAGE010
为标签时刻的预测图像在x方向上的梯度值图,
Figure 138424DEST_PATH_IMAGE011
为标签时刻的图像在y方向上的梯度值图,
Figure 549813DEST_PATH_IMAGE012
为标签时刻的预测图像在y方向上的梯度值图。
在本申请一实施例中,
Figure 987748DEST_PATH_IMAGE009
可以是由基于X方向梯度算子对标签时刻的图像做卷积运算得到,
Figure 408365DEST_PATH_IMAGE010
可以是由基于X方向梯度算子对标签时刻的预测图像做卷积运算得到,
Figure 880935DEST_PATH_IMAGE011
可以是由基于Y方向梯度算子对标签时刻的图像做卷积运算得到,
Figure 853439DEST_PATH_IMAGE012
可以是由基于Y方向梯度算子对标签时刻的预测图像做卷积运算得到。其中,X方向梯度算子可以为
Figure 778669DEST_PATH_IMAGE013
Y方向梯度算子可以为
Figure 2977DEST_PATH_IMAGE014
通过在预设损失函数中引入梯度差异损失,利用梯度算子获得标签时刻的图像的边缘先验知识,使得模型在训练时更关注图像的边缘,从而能够同时保证全局自洽和局部高清,生成边缘细节更清晰的插值图像。
在图3实施例的基础上,本领域技术人员可以推导出本申请的用于连续序列图像的插值模型的训练方法在N为其它正整数时的实施方式。本申请实施例的用于连续序列图像的插值模型的训练方法包括以下步骤701-707:
步骤701,获取用于训练的样本连续序列图像,连续序列图像包括标签时刻的图像;
步骤702,将连续序列图像中标签时刻之前的A个连续时刻的序列图像和标签时刻之后的B个连续时刻的序列图像作为输入图像,其中A和B为正整数;
步骤703,使用编码器对输入图像进行N次编码得到N个特征图,N为大于或等于2的正整数;
步骤704,获取N个特征图的N个量化向量,包括:
取n=N,使用码表对第N特征图进行向量量化,得到第N量化向量;
取n=N-1,基于所述第N量化向量和第N-1特征图得到1次更新的第N-1特征图,且使用码表对更新的第N-1特征图进行向量量化,得到第n量化向量;
当N≥3时,分别取n=1, 2, 3, …, N-2,且对每个n的取值,基于第n+1量化向量、N-(n+1)次更新的第n+1特征图、以及第n特征图得到N-n次更新的第n特征图,且使用码表对最近更新的第n特征图进行向量量化,得到第1量化向量至至第N-2量化向量;
步骤705,基于N个量化向量得到更新的第1量化向量;
步骤706,使用解码器对更新的第1量化向量进行解码得到标签时刻的预测图像;以及
步骤707,根据预设损失函数、标签时刻的图像和标签时刻的预测图像来更新向量量化变分自编码模型的权重参数。
在本申请一实施例中,对于N个特征图中的第n特征图,n越大则分辨率越低。
在本申请一实施例中,步骤704中的基于第N量化向量和第N-1特征图得到1次更新的第N-1特征图的步骤包括:
使用解码器对第N量化向量进行解码得到第N辅助特征图,第N辅助特征图与第N-1特征图的分辨率相同;以及
将第N辅助特征图和第N-1特征图连接得到更新的第N-1特征图。
在本申请一实施例中,步骤704中的基于第n+1量化向量、N-(n+1)次更新的第n+1特征图、以及第n特征图得到N-n次更新的第n特征图的步骤包括:
使用解码器对第1次更新的第n+1特征图进行解码得到第n+1参考特征图,n+1参考特征图与第n特征图的分辨率相同;
将第n+1参考特征图与第n特征图进行连接操作得到第1次更新的第n特征图;
迭代使用第2至N-(n+1)次更新的第n+1特征图解码得到的第n+1参考特征图与更新的第n特征图连接以分别得到第2至N-(n+1)次更新的第n特征图;
使用解码器对第n+1量化向量进行解码得到第n+1辅助特征图,n+1辅助特征图与第N-(n+1)次更新的第n特征图的分辨率相同;以及
将第n+1辅助特征图与第N-(n+1)次更新的第n特征图进行连接操作得到第N-n次更新的第n特征图,作为最近更新的第n特征图。
在本申请一实施例中,***可以基于GPU实现本申请的用于连续序列图像的插值模型的训练方法,能实现快速生成插值图像。
本申请的用于连续序列图像的插值模型的训练方法所训练出来的插值模型,通过采用具有多层结构的向量量化变分自编码模型来进行插值,从而具有更大的感受野,能够参考更多的像素值及获得更高维度的图像特征,大幅度地提高了插值真实性。该插值模型在插值过程中不只是考虑插值点周围若干个像素的灰度值,而是随着网络层数的加深,卷积核的感受野(Receptive Field)会不断增大。例如将分辨率512×512的图像卷积至64×64的特征图,则感受野的大小达到8×8=64,相当于会参考周围面积为64的区域的像素点灰度值。同时在卷积核的线性映射和激活函数的非线性映射下,拟合的插值函数可以近似为比立方卷积法的三次插值还要复杂的高次插值,更容易兼顾到高频和低频信号。并且,该插值模型适于利用GPU进行高速并行计算,能够在保持优秀的插值效果的前提下依旧能保证计算速度,达到实时插值的要求。
本申请还提供了一种连续序列图像的插值***,包括:存储器,用于存储可由处理器执行的指令;以及处理器,用于执行所述指令以实现如上所述的连续序列图像的插值方法。
图4是根据本申请一实施例示出的连续序列图像的插值***的***框图。***400可包括内部通信总线401、处理器(Processor)402、只读存储器(ROM)403、随机存取存储器(RAM)404、以及通信端口405。当应用在个人计算机上时,***400还可以包括硬盘407。内部通信总线401可以实现***400组件间的数据通信。处理器402可以进行判断和发出提示。在一些实施例中,处理器402可以由一个或多个处理器组成。通信端口405可以实现***400与外部的数据通信。在一些实施例中,***400可以通过通信端口405从网络发送和接受信息及数据。***400还可以包括不同形式的程序储存单元以及数据储存单元,例如硬盘407,只读存储器(ROM)403和随机存取存储器(RAM)404,能够存储计算机处理和/或通信使用的各种数据文件,以及处理器402所执行的可能的程序指令。处理器执行这些指令以实现方法的主要部分。处理器处理的结果通过通信端口传给用户设备,在用户界面上显示。
上述的连续序列图像的插值方法可以实施为计算机程序,保存在硬盘407中,并可记载到处理器402中执行,以实施本申请中的任一连续序列图像的插值方法。
本申请还提供了一种用于连续序列图像的插值模型的训练***,包括:存储器,用于存储可由处理器执行的指令;以及处理器,用于执行所述指令以实现如上所述的用于连续序列图像的插值模型的训练方法。
图5是根据本申请一实施例示出的用于连续序列图像的插值模型的训练***的***框图。***500可包括内部通信总线501、处理器(Processor)502、只读存储器(ROM)503、随机存取存储器(RAM)504、以及通信端口505。当应用在个人计算机上时,***500还可以包括硬盘507。内部通信总线501可以实现***500组件间的数据通信。处理器502可以进行判断和发出提示。在一些实施例中,处理器502可以由一个或多个处理器组成。通信端口505可以实现***500与外部的数据通信。在一些实施例中,***500可以通过通信端口505从网络发送和接受信息及数据。***500还可以包括不同形式的程序储存单元以及数据储存单元,例如硬盘507,只读存储器(ROM)503和随机存取存储器(RAM)504,能够存储计算机处理和/或通信使用的各种数据文件,以及处理器502所执行的可能的程序指令。处理器执行这些指令以实现方法的主要部分。处理器处理的结果通过通信端口传给用户设备,在用户界面上显示。
上述的用于连续序列图像的插值模型的训练方法可以实施为计算机程序,保存在硬盘507中,并可记载到处理器502中执行,以实施本申请中的任一用于连续序列图像的插值模型的训练方法。
本申请还提供了一种存储有计算机程序代码的计算机可读介质,所述计算机程序代码在由处理器执行时实现如上所述的任一连续序列图像的插值方法或用于连续序列图像的插值模型的训练方法。
连续序列图像的插值方法实施为计算机程序时,也可以存储在计算机可读存储介质中作为制品。例如,计算机可读存储介质可以包括但不限于磁存储设备(例如,硬盘、软盘、磁条)、光盘(例如,压缩盘(CD)、数字多功能盘(DVD))、智能卡和闪存设备(例如,电可擦除可编程只读存储器(EPROM)、卡、棒、键驱动)。此外,本文描述的各种存储介质能代表用于存储信息的一个或多个设备和/或其它机器可读介质。术语“机器可读介质”可以包括但不限于能存储、包含和/或承载代码和/或指令和/或数据的无线信道和各种其它介质(和/或存储介质)。
应该理解,上文所描述的实施例仅是示意。本文描述的实施例可在硬件、软件、固件、中间件、微码或者其任意组合中实现。对于硬件实现,处理单元可以在一个或者多个特定用途集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、处理器、控制器、微控制器、微处理器和/或设计为执行本文所述功能的其它电子单元或者其结合内实现。
上文已对基本概念做了描述,显然,对于本领域技术人员来说,上述申请披露仅仅作为示例,而并不构成对本申请的限定。虽然此处并没有明确说明,本领域技术人员可能会对本申请进行各种修改、改进和修正。该类修改、改进和修正在本申请中被建议,所以该类修改、改进、修正仍属于本申请示例性实施例的精神和范围。
同时,本申请使用了特定词语来描述本申请的实施例。如“一个实施例”、“一实施例”、和/或“一些实施例”意指与本申请至少一个实施例相关的某一特征、结构或特点。因此,应强调并注意的是,本说明书中在不同位置两次或多次提及的“一实施例”或“一个实施例”或“一替代性实施例”并不一定是指同一实施例。此外,本申请的一个或多个实施例中的某些特征、结构或特点可以进行适当的组合。
本申请的一些方面可以完全由硬件执行、可以完全由软件(包括固件、常驻软件、微码等)执行、也可以由硬件和软件组合执行。以上硬件或软件均可被称为“数据块”、“模块”、“引擎”、“单元”、“组件”或“***”。处理器可以是一个或多个专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理器件(DAPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、处理器、控制器、微控制器、微处理器或者其组合。此外,本申请的各方面可能表现为位于一个或多个计算机可读介质中的计算机产品,该产品包括计算机可读程序编码。例如,计算机可读介质可包括,但不限于,磁性存储设备(例如,硬盘、软盘、磁带……)、光盘(例如,压缩盘CD、数字多功能盘DVD……)、智能卡以及闪存设备(例如,卡、棒、键驱动器……)。
同理,应当注意的是,为了简化本申请披露的表述,从而帮助对一个或多个申请实施例的理解,前文对本申请实施例的描述中,有时会将多种特征归并至一个实施例、附图或对其的描述中。但是,这种披露方法并不意味着本申请对象所需要的特征比权利要求中提及的特征多。实际上,实施例的特征要少于上述披露的单个实施例的全部特征。
虽然本申请已参照当前的具体实施例来描述,但是本技术领域中的普通技术人员应当认识到,以上的实施例仅是用来说明本申请,在没有脱离本申请精神的情况下还可做出各种等效的变化或替换,因此,只要在本申请的实质精神范围内对上述实施例的变化、变型都将落在本申请的权利要求书的范围内。

Claims (21)

1.一种连续序列图像的插值方法,使用向量量化变分自编码模型对连续序列图像进行插值,所述向量量化变分自编码模型包括用于编码的编码器、用于向量量化的码表和用于解码的解码器,所述方法包括:
获取待插值时刻之前的A个连续时刻的序列图像和待插值时刻之后的B个连续时刻的序列图像作为输入图像,其中A和B为正整数;
使用所述编码器对所述输入图像进行N次编码得到N个特征图,N为大于或等于2的正整数;
获取所述N个特征图的N个量化向量,包括:
取n=N,使用所述码表对第N特征图进行向量量化,得到第N量化向量;
取n=N-1,基于所述第N量化向量和第N-1特征图得到1次更新的第N-1特征图,且使用所述码表对更新的第N-1特征图进行向量量化,得到第N-1量化向量;以及
当N≥3时,分别取n=1, 2, 3, …, N-2,且对每个n的取值,基于第n+1量化向量、N-(n+1)次更新的第n+1特征图、以及第n特征图得到N-n次更新的第n特征图,且使用所述码表对最近更新的第n特征图进行向量量化,得到第1量化向量至第N-2量化向量;
基于所述N个量化向量得到更新的第1量化向量;以及
使用所述解码器对所述更新的第1量化向量进行解码得到所述待插值时刻的插值图像。
2.如权利要求1所述的方法,其特征在于,基于第N量化向量和第N-1特征图得到1次更新的第N-1特征图的步骤包括:
使用所述解码器对所述第N量化向量进行解码得到第N辅助特征图,所述N辅助特征图与所述第N-1特征图的分辨率相同;
将所述第N辅助特征图和所述第N-1特征图连接得到更新的第N-1特征图。
3.如权利要求1所述的方法,其特征在于,基于第n+1量化向量、N-(n+1)次更新的第n+1特征图、以及第n特征图得到N-n次更新的第n特征图的步骤包括:
使用所述解码器对第1次更新的第n+1特征图进行解码得到第n+1参考特征图,所述n+1参考特征图与所述第n特征图的分辨率相同;
将所述第n+1参考特征图与所述第n特征图进行连接操作得到第1次更新的第n特征图;
迭代使用第2至N-(n+1)次更新的第n+1特征图解码得到的第n+1参考特征图与更新的第n特征图连接以分别得到第2至N-(n+1)次更新的第n特征图;
使用所述解码器对所述第n+1量化向量进行解码得到第n+1辅助特征图,所述n+1辅助特征图与第N-(n+1)次更新的第n特征图的分辨率相同;以及
将所述第n+1辅助特征图与所述第N-(n+1)次更新的第n特征图进行连接操作得到第N-n次更新的第n特征图,作为最近更新的第n特征图。
4.如权利要求1所述的方法,其特征在于,N=3,获取3个特征图的3个量化向量的步骤包括:
使用所述码表对第3特征图进行向量量化得到第3量化向量;
使用所述解码器将所述第3量化向量解码成第3辅助特征图,并将所述第3辅助特征图与第2特征图进行连接操作得到更新的第2特征图,使用所述码表对所述更新的第2特征图进行向量量化得到第2量化向量;
使用所述解码器对所述更新的第2特征图进行解码得到第2参考特征图,并将所述第2参考特征图与第1特征图进行连接操作得到第1次更新的第1特征图;以及
使用所述解码器将所述第2量化向量解码成第2辅助特征图,将所述第2参考特征图与所述第1次更新的第1特征图进行连接操作得到第2次更新的第1特征图,使用所述码表对所述第2次更新的第1特征图进行向量量化得到第1量化向量。
5.如权利要求4所述的方法,其特征在于,基于所述N个量化向量得到更新的第1量化向量的步骤包括:
使用所述解码器对所述第3量化向量进行上采样得到第3参考向量,对所述第2量化向量进行上采样得到第2参考向量,并将所述第3参考向量和所述第2参考向量与所述第1量化向量进行连接操作得到更新的第1量化向量。
6.如权利要求1所述的方法,其特征在于,使用所述编码器对所述输入图像进行N次编码得到N个特征图的步骤之前还包括:
将所述A个连续时刻的序列图像和所述B个连续时刻的序列图像标准化处理成灰度级相同的灰度图。
7.如权利要求4所述的方法,其特征在于,所述第1特征图的分辨率与所述第2特征图的分辨率之比为2的整数倍,以及所述第2特征图的分辨率与所述第3特征图的分辨率之比为2的整数倍。
8.一种用于连续序列图像的插值模型的训练方法,所述插值模型包括向量量化变分自编码模型,所述向量量化变分自编码模型包括用于编码的编码器、用于向量量化的码表和用于解码的解码器,所述方法包括:
获取用于训练的样本连续序列图像,所述连续序列图像包括标签时刻的图像;
将所述连续序列图像中所述标签时刻之前的A个连续时刻的序列图像和标签时刻之后的B个连续时刻的序列图像作为输入图像,其中A和B为正整数;
使用所述编码器对所述输入图像进行N次编码得到N个特征图,N为大于或等于2的正整数;
获取所述N个特征图的N个量化向量,包括:
取n=N,使用所述码表对第N特征图进行向量量化,得到第N量化向量;
取n=N-1,基于第N量化向量和第N-1特征图得到1次更新的第N-1特征图,且使用所述码表对更新的第N-1特征图进行向量量化,得到第n量化向量;
当N≥3时,分别取n=1, 2, 3, …, N-2,且对每个n的取值,基于第n+1量化向量、N-(n+1)次更新的第n+1特征图、以及第n特征图得到N-n次更新的第n特征图,且使用所述码表对最近更新的第n特征图进行向量量化,得到第1量化向量至第N-2量化向量;
基于所述N个量化向量得到更新的第1量化向量;
使用所述解码器对所述更新的第1量化向量进行解码得到标签时刻的预测图像;以及
根据预设损失函数、所述标签时刻的图像和所述标签时刻的预测图像来更新所述向量量化变分自编码模型的权重参数。
9.如权利要求8所述的方法,其特征在于,所述预设损失函数通过以下方式计算:
Figure DEST_PATH_IMAGE002
其中,Loss为所述预设损失函数,L为重构误差,
Figure DEST_PATH_IMAGE004
为码本误差,
Figure DEST_PATH_IMAGE006
为承诺损失。
10.如权利要求9所述的方法,其特征在于,所述重构误差为均方误差损失,所述均方误差损失L_MSE通过以下方式计算:
Figure DEST_PATH_IMAGE008
其中,W为所述标签时刻的预测图像的宽,H为所述标签时刻的预测图像的高,i为所述标签时刻的图像或所述标签时刻的预测图像的横坐标,j为所述标签时刻的图像或所述标签时刻的预测图像的纵坐标,
Figure DEST_PATH_IMAGE010
为所述标签时刻的预测图像的预测值,
Figure DEST_PATH_IMAGE012
为所述标签时刻的图像的真实值。
11.如权利要求9所述的方法,其特征在于,所述重构误差L通过以下方式计算:
L=p*L_GD+q*L_MSE
其中,L_MSE为均方误差损失,L_GD为梯度差异损失,p为所述梯度差异损失的预设权重值,q为所述均方误差损失的预设权重值;
所述均方误差损失通过以下方式计算:
Figure DEST_PATH_IMAGE014
其中,W为所述标签时刻的预测图像的宽,H为所述标签时刻的预测图像的高,i为所述标签时刻的图像或所述标签时刻的预测图像的横坐标,j为所述标签时刻的图像或所述标签时刻的预测图像的纵坐标,
Figure 194424DEST_PATH_IMAGE010
为所述标签时刻的预测图像的预测值,
Figure 314827DEST_PATH_IMAGE012
为所述标签时刻的图像的真实值;
所述梯度差异损失通过以下方式计算:
Figure DEST_PATH_IMAGE016
其中,W为所述标签时刻的预测图像的宽,H为所述标签时刻的预测图像的高,i为所述标签时刻的图像或所述标签时刻的预测图像的横坐标,j为所述标签时刻的图像或所述标签时刻的预测图像的纵坐标,
Figure DEST_PATH_IMAGE018
为所述标签时刻的图像在x方向上的梯度值图,
Figure DEST_PATH_IMAGE020
为所述标签时刻的预测图像在x方向上的梯度值图,
Figure DEST_PATH_IMAGE022
为所述标签时刻的图像在y方向上的梯度值图,
Figure DEST_PATH_IMAGE024
为所述标签时刻的预测图像在y方向上的梯度值图。
12.如权利要求11所述的方法,其特征在于,p与q相等。
13.如权利要求11所述的方法,其特征在于,
Figure 422460DEST_PATH_IMAGE018
是由基于X方向梯度算子对所述标签时刻的图像做卷积运算得到,
Figure 817669DEST_PATH_IMAGE020
是由基于X方向梯度算子对所述标签时刻的预测图像做卷积运算得到,
Figure 976249DEST_PATH_IMAGE022
是由基于Y方向梯度算子对所述标签时刻的图像做卷积运算得到,
Figure 798712DEST_PATH_IMAGE024
是由基于Y方向梯度算子对所述标签时刻的预测图像做卷积运算得到;
其中,所述X方向梯度算子为
Figure DEST_PATH_IMAGE026
所述Y方向梯度算子为
Figure DEST_PATH_IMAGE028
14.如权利要求9所述的方法,其特征在于,还包括:
使用神经架构搜索算法计算p和q。
15.如权利要求8所述的方法,其特征在于,基于第N量化向量和第N-1特征图得到更新的第N-1特征图的步骤包括:
使用所述解码器对所述第N量化向量进行解码得到第N辅助特征图,所述n+1辅助特征图与所述第N-1特征图的分辨率相同;
将所述第N辅助特征图和所述第N-1特征图连接得到更新的第N-1特征图。
16.如权利要求8所述的方法,其特征在于,基于第n+1量化向量、N-(n+1)次更新的第n+1特征图、以及第n特征图得到N-n次更新的第n特征图的步骤包括:
使用所述解码器对第1次更新的第n+1特征图进行解码得到第n+1参考特征图,所述n+1参考特征图与所述第n特征图的分辨率相同;
将所述第n+1参考特征图与所述第n特征图进行连接操作得到第1次更新的第n特征图;
迭代使用第2至N-(n+1)次更新的第n+1特征图解码得到的第n+1参考特征图与更新的第n特征图连接以分别得到第2至N-(n+1)次更新的第n特征图;
使用所述解码器对所述第n+1量化向量进行解码得到第n+1辅助特征图,所述n+1辅助特征图与第N-(n+1)次更新的第n特征图的分辨率相同;以及
将所述第n+1辅助特征图与所述第N-(n+1)次更新的第n特征图进行连接操作得到第N-n次更新的第n特征图,作为最近更新的第n特征图。
17.如权利要求8所述的方法,其特征在于,N=3,获取3个特征图的3个量化向量的步骤包括:
使用所述码表对第3特征图进行向量量化得到第3量化向量;
使用所述解码器将所述第3量化向量解码成第3辅助特征图,并将所述第3辅助特征图与第2特征图进行连接操作得到更新的第2特征图,使用所述码表对所述更新的第2特征图进行向量量化得到第2量化向量;
使用所述解码器对所述更新的第2特征图进行解码得到第2参考特征图,并将所述第2参考特征图与第1特征图进行连接操作得到第1次更新的第1特征图;以及
使用所述解码器将所述第2量化向量解码成第2辅助特征图,将所述第2参考特征图与所述第1次更新的第1特征图进行连接操作得到第2次更新的第1特征图,使用所述码表对所述第2次更新的第1特征图进行向量量化得到第1量化向量。
18.如权利要求17所述的方法,其特征在于,基于所述N个量化向量得到更新的第1量化向量的步骤包括:
使用所述解码器对所述第3量化向量进行上采样得到第3参考向量,对所述第2量化向量进行上采样得到第2参考向量,并将所述第3参考向量和所述第2参考向量与所述第1量化向量进行连接操作得到更新的第1量化向量。
19.一种连续序列图像的插值***,包括:
存储器,用于存储可由处理器执行的指令;以及处理器,用于执行所述指令以实现如权利要求1-7任一项所述的方法。
20.一种用于连续序列图像的插值模型的训练***,包括:
存储器,用于存储可由处理器执行的指令;以及
处理器,用于执行所述指令以实现如权利要求8-18任一项所述的方法。
21.一种存储有计算机程序代码的计算机可读介质,所述计算机程序代码在由处理器执行时实现如权利要求1-18任一项所述的方法。
CN202110190888.XA 2021-02-20 2021-02-20 连续序列图像的插值方法、插值模型训练方法及其*** Active CN112561802B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110190888.XA CN112561802B (zh) 2021-02-20 2021-02-20 连续序列图像的插值方法、插值模型训练方法及其***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110190888.XA CN112561802B (zh) 2021-02-20 2021-02-20 连续序列图像的插值方法、插值模型训练方法及其***

Publications (2)

Publication Number Publication Date
CN112561802A true CN112561802A (zh) 2021-03-26
CN112561802B CN112561802B (zh) 2021-05-25

Family

ID=75034375

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110190888.XA Active CN112561802B (zh) 2021-02-20 2021-02-20 连续序列图像的插值方法、插值模型训练方法及其***

Country Status (1)

Country Link
CN (1) CN112561802B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113096014A (zh) * 2021-03-31 2021-07-09 咪咕视讯科技有限公司 视频超分处理方法、电子设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110139147A (zh) * 2019-05-20 2019-08-16 深圳先进技术研究院 一种视频处理方法、***、移动终端、服务器及存储介质
CN111311629A (zh) * 2020-02-21 2020-06-19 京东方科技集团股份有限公司 图像处理方法、图像处理装置及设备

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110139147A (zh) * 2019-05-20 2019-08-16 深圳先进技术研究院 一种视频处理方法、***、移动终端、服务器及存储介质
CN111311629A (zh) * 2020-02-21 2020-06-19 京东方科技集团股份有限公司 图像处理方法、图像处理装置及设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
ALI等: ""enerating Diverse High-Fidelity Imageswith VQ-VAE-2", 《ARXIV:1906.00446V1》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113096014A (zh) * 2021-03-31 2021-07-09 咪咕视讯科技有限公司 视频超分处理方法、电子设备及存储介质
CN113096014B (zh) * 2021-03-31 2023-12-08 咪咕视讯科技有限公司 视频超分处理方法、电子设备及存储介质

Also Published As

Publication number Publication date
CN112561802B (zh) 2021-05-25

Similar Documents

Publication Publication Date Title
Ahmad et al. A new generative adversarial network for medical images super resolution
Wang et al. Edge-directed single-image super-resolution via adaptive gradient magnitude self-interpolation
Wang et al. Fast image upsampling via the displacement field
Kudo et al. Virtual thin slice: 3D conditional GAN-based super-resolution for CT slice interval
McDonagh et al. Context-sensitive super-resolution for fast fetal magnetic resonance imaging
Sood et al. An application of generative adversarial networks for super resolution medical imaging
Cao et al. Image Super-Resolution via Adaptive $\ell _ {p}(0< p< 1) $ Regularization and Sparse Representation
KR20130001213A (ko) 입력 이미지로부터 증가된 픽셀 해상도의 출력 이미지를 생성하는 방법 및 시스템
CN112132959A (zh) 数字岩心图像处理方法、装置、计算机设备及存储介质
Wu et al. Super-resolution of brain MRI images based on denoising diffusion probabilistic model
KR100860968B1 (ko) 해상도 향상 장치 및 방법
CN111091575B (zh) 一种基于强化学习方法的医学图像分割方法
Cao et al. New architecture of deep recursive convolution networks for super-resolution
Bastanfard et al. Toward image super-resolution based on local regression and nonlocal means
CN112561802B (zh) 连续序列图像的插值方法、插值模型训练方法及其***
Wang et al. Inversesr: 3d brain mri super-resolution using a latent diffusion model
CN114972382A (zh) 一种基于轻量级UNet++网络的脑肿瘤分割算法
Singh et al. Single image super-resolution using adaptive domain transformation
Cao et al. Blind image super-resolution based on prior correction network
CN113902617B (zh) 基于参考图像的超分辨率方法、装置、设备及介质
Rajeshwari et al. Pixel attention based deep neural network for chest CT image super resolution
CN110310314A (zh) 图像配准方法、装置、计算机设备和存储介质
Karani et al. An image interpolation approach for acquisition time reduction in navigator-based 4D MRI
Chobola et al. Lucyd: A feature-driven richardson-lucy deconvolution network
Sharma et al. Learning to decode 7t-like mr image reconstruction from 3t mr images

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant