CN113507608A - 图像编码方法、装置、电子设备 - Google Patents

图像编码方法、装置、电子设备 Download PDF

Info

Publication number
CN113507608A
CN113507608A CN202110642898.2A CN202110642898A CN113507608A CN 113507608 A CN113507608 A CN 113507608A CN 202110642898 A CN202110642898 A CN 202110642898A CN 113507608 A CN113507608 A CN 113507608A
Authority
CN
China
Prior art keywords
coding
image
tensor
stage
tensors
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202110642898.2A
Other languages
English (en)
Inventor
初祥祥
张勃
魏晓林
夏华夏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sankuai Online Technology Co Ltd
Original Assignee
Beijing Sankuai Online Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sankuai Online Technology Co Ltd filed Critical Beijing Sankuai Online Technology Co Ltd
Priority to CN202110642898.2A priority Critical patent/CN113507608A/zh
Publication of CN113507608A publication Critical patent/CN113507608A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/176Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/12Selection from among a plurality of transforms or standards, e.g. selection between discrete cosine transform [DCT] and sub-band transform or selection between H.263 and H.264
    • H04N19/122Selection of transform size, e.g. 8x8 or 2x4x8 DCT; Selection of sub-band transforms of varying structure or type
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/146Data rate or code amount at the encoder output
    • H04N19/149Data rate or code amount at the encoder output by estimating the code amount by means of a model, e.g. mathematical model or statistical model

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Algebra (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Discrete Mathematics (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本申请公开了一种图像编码方法,属于图像处理领域,有助于提升视觉编码模型对输入图像尺寸的适用范围。本方法包括:确定组成输入图像的每个图像块的一维空间张量组成的张量序列,并输入至多阶段视觉注意力模型首个阶段的编码网络;依次通过多阶段视觉注意力模型中各阶段的编码网络,对输入至该编码网络的张量序列所携带的图像块的图像内容特征进行尺度和维度变换以及图像块位置编码,并基于进行图像块位置编码以及尺度和维度变换的结果进行编码映射,输出输入图像的不同尺度和维度的张量,以及输入图像的类别编码。本方法通过隐式动态生成图像块的位置编码用于对图像块进行编码映射,实现了通过视觉模型对变化尺寸输入图像进行编码处理。

Description

图像编码方法、装置、电子设备
技术领域
本申请实施例涉及图像处理领域,特别是涉及一种图像编码方法、装置、电子设备及计算机可读存储介质。
背景技术
再图像处理领域,通过将固定尺寸的输入图像打散成指定大小的多个图像块,之后,依次对所述多个图像块做线性编码,从而得到一个输入序列,然后,通过Transformer结构像处理字符序列一样处理图像块编码序列,从而实现对输入图像进行编码的方案,得到了越来越广泛的应用。为了保留各图像块之间的位置信息,提升图像编码准确度,现有技术中,通过在输入序列中***和该输入序列编码维度等长的位置编码,使得Transformer结构可以基于图像块的图像内容和位置信息对输入图像进行编码。然而,现有技术中,在图像块编码序列中***位置编码的方式不适用于输入图像尺寸变化较大的场景,某些情况下,还会导致模型性能的下降。
可见,现有技术中的图像编码方法还需要改进。
发明内容
本申请实施例提供一种图像编码方法,有助于提升视觉编码模型对输入图像尺寸的适用范围。
第一方面,本申请实施例提供了一种图像编码方法,包括:
通过对输入图像进行分块编码,确定组成所述输入图像的每个图像块的一维空间张量组成的张量序列;
将所述张量序列输入至预先训练的多阶段视觉注意力模型首个阶段的编码网络;
依次通过所述多阶段视觉注意力模型中各阶段的编码网络,对输入至该编码网络的张量序列所携带的各所述图像块的图像内容特征进行尺度和维度变换,以及进行图像块位置编码,并基于进行所述图像块位置编码以及进行所述尺度和维度变换的结果进行编码映射,输出所述输入图像的与相应阶段对应的相应尺度和相应维度的张量;
对所述多阶段视觉注意力模型中最后一个阶段输出的所述张量进行分类映射,输出所述输入图像对应的类别编码。
第二方面,本申请实施例提供了一种图像编码装置,包括:
分块线性编码确定模块,用于通过对输入图像进行分块编码,确定组成所述输入图像的每个图像块的一维空间张量组成的张量序列;
分块编码输入模块,用于将所述张量序列输入至预先训练的多阶段视觉注意力模型首个阶段的编码网络;
图像编码模块,用于依次通过所述多阶段视觉注意力模型中各阶段的编码网络,对输入至该编码网络的张量序列所携带的各所述图像块的图像内容特征进行尺度和维度变换,以及进行图像块位置编码,并基于进行所述图像块位置编码以及进行所述尺度和维度变换的结果进行编码映射,输出所述输入图像的与相应阶段对应的相应尺度和相应维度的张量;
编码结果输出模块,用于对所述多阶段视觉注意力模型中最后一个阶段输出的所述张量进行分类映射,输出所述输入图像对应的类别编码。
第三方面,本申请实施例还公开了一种电子设备,包括存储器、处理器及存储在所述存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现本申请实施例所述的图像编码方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时本申请实施例公开的图像编码方法的步骤。
本申请实施例公开的图像编码方法,通过对输入图像进行分块编码,确定组成所述输入图像的每个图像块的一维空间张量组成的张量序列;将所述张量序列输入至预先训练的多阶段视觉注意力模型首个阶段的编码网络;依次通过所述多阶段视觉注意力模型中各阶段的编码网络,对输入至该编码网络的张量序列所携带的各所述图像块的图像内容特征进行尺度和维度变换,以及进行图像块位置编码,并基于进行所述图像块位置编码以及进行所述尺度和维度变换的结果进行编码映射,输出所述输入图像的与相应阶段对应的相应尺度和相应维度的张量;对所述多阶段视觉注意力模型中最后一个阶段输出的所述张量进行分类映射,输出所述输入图像对应的类别编码,有助于提升视觉编码模型对输入图像尺寸的适用范围。
上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照说明书的内容予以实施,并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂,以下特举本申请的具体实施方式。
附图说明
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
图1是本申请实施例一的图像编码方法流程图;
图2是本申请实施例一中多阶段视觉编码模型结构示意图;
图3是本申请实施例一中编码网络结构示意图;
图4是本申请实施例二的图像编码装置结构示意图;
图5示意性地示出了用于执行根据本申请的方法的电子设备的框图;以及
图6示意性地示出了用于保持或者携带实现根据本申请的方法的程序代码的存储单元。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
实施例一
本申请实施例公开的一种图像编码方法,如图1所示,所述方法包括:步骤110至步骤140。
步骤110,通过对输入图像进行分块编码,确定组成所述输入图像的每个图像块的一维空间张量组成的张量序列。
本申请的一些实施例中,对于输入图像,首先将该输入图像划分为若干指定尺寸的图像块。例如,对于尺寸为224×224的输入图像,可以将其打散成196个16×16的图像块;对于224×448的输入图像,可以将其打散成448个16×16的图像块。
接下来,对由所述输入图像划分得到的所有图像块依次进行线性编码,并将所述依次进行线性编码得到的每个图像块的一维空间张量进行拼接,得到一张量序列。
对图像块进行线性编码的具体实施方式为现有技术,本申请实施例中不再赘述。
在对输入图像划分得到的每个图像块进行线性编码得到的一维向量进行拼接时,可以按照图像块在所述输入图像中的位置顺序(如在输入图像中从左到右从上至下的位置,或者,在输入图像中从上至下从左到右的位置)对各图像块的线性编码结果进行顺序拼接。当然,本申请的一些实施例中,也可以按照其他顺序对输入图像划分得到的各图像块的线性编码结果进行拼接。
以一幅尺寸为H×W的输入图像为例,可以将其均匀划分为N个S×S的图像块,其中,H、W、N和S表示正整数。如果每个图像块进行线性编码后得到一个长度为d的一维空间张量,则将N个长度为d的一维空间张量进行拼接之后,得到的张量序列可以表示为长度为N×d的一维空间张量。
步骤120,将所述张量序列输入至预先训练的多阶段视觉注意力模型首个阶段的编码网络。
接下来,将所述张量序列输入至预先训练的多阶段视觉注意力模型,通过所述多阶段视觉注意力模型对所述张量序列进行编码映射。
本申请的一些实施例中,所述多阶段视觉注意力模型包括多个顺序连接的编码网络、一个全局平均池化层和一个分类输出层。如图2所示,所述多阶段视觉注意力模型包括四个顺序连接的编码网络210至240,一个全局平均池化层250和一个分类输出层260。其中,每个编码网络对应输入图像的不同编码阶段,用于对输入至该编码网络的张量进行相应尺度和相应维度的变换。例如,图2中所示的多阶段视觉注意力模型包括四个编码阶段,其中,首个编码阶段的编码网络210以对输入图像的各个图像块进行线性编码后得到的一维空间张量的拼接向量作为输入,并输出第一尺度和第一维度的张量;第二个编码阶段的编码网络220以首个编码阶段对应的编码网络的输出张量作为输入,并输出第二尺度和第二维度的张量;第三个编码阶段的编码网络230以第二个编码阶段对应的编码网络的输出张量作为输入,并输出第三尺度和第三维度的张量;第四个编码阶段的编码网络240以第三个编码阶段对应的编码网络的输出张量作为输入,并输出第四尺度和第四维度的张量。
所述多阶段视觉注意力模型相邻两个阶段对应的张量尺度中,后一阶段对应的张量尺度小于或等于前一阶段对应的张量尺度;相邻两个阶段对应的张量维度中,后一阶段对应的张量维度大于或等于前一阶段对应的张量维度,即第一尺度≥第二尺度≥第三尺度≥第四尺度,第一维度≤第二维度≤第三维度≤第四维度。这样,便于每个编码阶段可以提取不同深度的图像特征进行编码,并输出给不同需求的下有任务使用。
步骤130,依次通过所述多阶段视觉注意力模型中各阶段的编码网络,对输入至该编码网络的张量序列所携带的各所述图像块的图像内容特征进行尺度和维度变换,以及进行图像块位置编码,并基于进行所述图像块位置编码以及进行所述尺度和维度变换的结果进行编码映射,输出所述输入图像的与相应阶段对应的相应尺度和相应维度的张量。
之后,分别执行所述多阶段视觉注意力模型由前向后设置的,且与各个编码阶段分别对应的编码网络,对输入图像进行不同尺度、不同维度的编码。
本申请的一些实施例中,对输入至该编码网络的张量序列所携带的各所述图像块的图像内容特征进行尺度和维度变换,以及进行图像块位置编码,并基于进行所述图像块位置编码以及进行所述尺度和维度变换的结果进行编码映射,输出所述输入图像的与相应阶段对应的相应尺度和相应维度的张量,包括:通过该编码网络内的第一编码器对输入至该编码网络的张量序列进行尺度和维度变换,得到相应尺度和相应维度的张量;通过该编码网络内的位置编码器,基于相应尺度和相应维度的所述张量中所携带的各所述图像块的图像内容特征,对各所述图像块的位置信息进行学习,确定该编码网络对应阶段各所述图像块的位置编码张量;将所述位置编码张量和相应尺度和相应维度的所述张量相加,得到各所述图像块的融合图像位置和图像内容的张量;通过该编码网络内的至少一个第二编码器,对各所述图像块的融合图像位置和图像内容的所述张量进行编码映射,输出所述输入图像与相应阶段对应的相应尺度和相应维度的张量。
本申请的一些实施例中,如图3所示,每个阶段的编码网络均由第一编码器310、位置编码器320和至少一个第二编码器330组成,其中,所述位置编码器设置在所述第一编码器之后,所述至少一个第二编码器设置在所述位置编码器之后。本申请的一些实施例中,不同编码网络中的第一编码器的网络参数各不相同,用于对输入至该编码网络的张量进行不同尺度和不同维度的变换;不同编码网络中的第二编码器的数量可能相同也可能不同。
本申请的一些实施例中,所述第一编码器310可以由带有空间裁剪(spatialreduction)的多头注意力自注意力模块(Multi-Head Self-Attention)、层归一化(LayerNorm)模块、前馈模块(Feed Forward,或为MLP)组成。不同阶段的编码网络基于不同的模块结构或参数,采用不同的空间裁剪比率、裁剪模块的头数目,以及前馈模块中的扩展率对输入张量进行编码处理,输出指定维度和指定尺度的张量。
以输入至所述多阶段视觉注意力模型的第一阶段的编码网络210的张量序列为长度N×d的张量为例,其中,N表示图像块的数量,d表示每个图像块进行线性编码后得到的一维空间张量。首先通过该编码网络内的第一编码器310对输入至该编码网络的张量序列(即长度为N×d的张量)进行尺度和维度变换,得到第一阶段编码指定维度和指定尺度的张量。例如,假设每个图像块的原始尺度为H×W,则第一编码器310对输入至该编码网络的张量序列进行尺度和维度变换后,可以得到如H/4×W/4×64的张量;其中,H/4×W/4表示张量尺度,64表示张量维度,张量尺度和张量维度由第一编码器310的编码参数确定。
接下来,通过执行该编码网络210内的位置编码器320对第一编码器310输出的张量进行特征映射,学习各所述图像块之间的位置信息,并输出各所述图像块的位置编码张量组成的张量序列。
本申请的一些实施例中,通过该编码网络内的位置编码器,基于相应尺度和相应维度的所述张量中所携带的各所述图像块的图像内容特征,对各所述图像块的位置信息进行学习,确定该编码网络对应阶段各所述图像块的位置编码张量,包括:通过该编码网络内的位置编码器,将相应尺度和相应维度的所述张量映射为二维空间的张量;通过所述位置编码器中的变换单元对所述二维空间的张量进行卷积处理,学习各所述图像块的位置信息,得到二维空间的位置编码张量;将所述二维空间的位置编码张量映射为一维空间所述相应尺度和所述相应维度的张量,作为该编码网络对应阶段各所述图像块的位置编码张量。
本申请的一些实施例中,所述变换单元(Transformation unit)可以是Depthwise(深度)卷积,Depthwise Separable(深度可分)卷积或其他更为复杂的卷积神经网络模块,并且可以设置不同的卷积核大小。本申请实施例中对变换单元采用的卷积神经网络模块不做限定。
本申请的一些实施例中,首先,通过编码网络210中的位置编码器320将第一编码器310输出的张量(如H/4×W/4×64的张量)映射到二维空间;之后,通过变换单元对二维空间的张量进行卷积运算,学习不同图像块对应的二维空间张量之间的位置信息表达,得到变换后的张量。变换后的张量由于学习了不同图像块对应的二维空间张量中的位置信息,因此可以用于对不同图像块对应的位置信息编码。进一步的,将变换单元输出的二维空间张量映射到一维空间,得到与输入至位置编码器320的张量尺寸相同和维度相同的张量,该张量即可作为第一阶段对应的各所述图像块的位置编码张量。
接下来,将位置编码器320输出的所述位置编码张量和输入至所述位置编码器320的所述张量相加,得到各所述图像块的融合图像位置和图像内容的张量。然后,通过该编码网络210内的至少一个第二编码器330,对融合后得到的张量进行编码映射,输出所述输入图像在第一编码阶段对应的第一尺度和第一维度的张量。由于融合后得到的张量中包含各图像块的图像内容信息和位置信息,因此,基于融合后的张量进行编码处理后输出的张量更能体现各图像块的特征,有助于提升输出的张量对图像特征的表达能力。
进一步的,将第一阶段的编码网络210输出的张量作为第二阶段的编码网络220的输入,通过执行第二阶段的编码网络220对第一阶段输出的张量进行维度变换和尺度变换,输出进行维度和尺度变换后的张量。例如,对于第一阶段输出的H/4×W/4×64的张量进行维度变换和尺度变换后,输出大小为H/8×W/8×128的张量。第二阶段的编码网络220对第一阶段的编码网络210输出的张量进行编码处理的过程,参见第一阶段的编码网络210对输入至所述多阶段视觉注意力模型的张量的处理方法,此处不再赘述。
同理,通过依次执行后续各阶段的编码网络,分别对前一阶段的编码网络输出的张量进行处理后,每个阶段的编码网络会输出相应尺度和相应维度张量。
步骤140,对所述多阶段视觉注意力模型中最后一个阶段输出的所述张量进行分类映射,输出所述输入图像对应的类别编码。
本申请的一些实施例中,对所述多阶段视觉注意力模型中最后一个阶段输出的所述张量进行分类映射,输出所述输入图像对应的类别编码,包括:对所述多阶段视觉注意力模型中最后一个阶段输出的所述张量进行全局平均池化处理;对进行全局平均池化处理得到的张量进行分类映射,输出所述输入图像对应的类别编码。
如图2所示,多阶段视觉注意力模型中最后一个阶段输出的所述张量将输入至全局平均池化层250,通过全局平均池化层250对多阶段视觉注意力模型中最后一个阶段输出的所述张量进行全局平均池化(Global Average Pooling,GAP)处理,将高维特征拉平为低维特征,以提升模型的数据处理效率。全局平均池化层250的具体结果和池化操作的具体方式参见现有技术,本申请实施例中不再赘述。
由于多阶段视觉注意力模型中最后一个阶段输出的所述张量中携带了各图像块的图像内容信息和图像块位置信息,因此,本申请实施例中通过设置全局平均池化层250,对进行多阶段图像块位置和图像内容编码后输出的张量进行平均池化操作,完整利用了输入图像的全局信息,使得编码结果能够对输入图像进行更准确的特征表达。
进一步的,执行分类输出层260对全局平均池化层250输出的张量进行分类映射,输出所述输入图像对应的类别编码。其中,所述分类输出层260可以为多头的多层感知机,用于对全局平均池化处理后的张量进行分类映射,输出各图像块匹配预设类别的概率。分类输出层260的具体结构和实施方式为现有技术,本申请实施例中不再赘述。
本申请实施例中所述的多阶段视觉注意力模型中各个阶段的编码网络的模型参数时通过训练得到的。在将所述张量序列输入至预先训练的多阶段视觉注意力模型首个阶段的编码网络之前,首先需要所述多阶段视觉注意力模型。
本申请的一些实施例中,可以选取训练数据集中大小为B×H×W的一个图片批次作为训练样本,其中,B表示当前批次训练样本的数量,H×W表示作为样本数据的图像的尺寸。每条训练样本还包括样本标签,用于指示该条训练样本中样本数据的分类结果真实值。
在基于当前批次训练样本训练所述多阶段视觉注意力模型时,对于每条样本数据,分别执行以下编码处理:首先,将该样本数据对应的图像打散成N个S×S的图像块(如16×16的图像块);之后,依次对各个图像块进行线性编码,确定输入至多阶段视觉注意力模型的输入张量;然后,依次通过多阶段视觉注意力模型各个阶段的编码网络对输入至该编码网络的张量进行维度变换和尺度变换,并结合图像块的位置信息进行编码;再然后,对多阶段视觉注意力模型最后一个阶段的编码网络输出的张量进行特征映射,确定该条样本数据的分类结果预测值。接下来,对于每条样本数据,根据该样本数据的分类结果真实值和分类结果预测值之间的误差,计算该条训练样本对应的预测损失,并根据当前批次训练样本中所有训练样本对应的预测损失,计算所述多阶段视觉注意力模型在当前轮训练中的模型损失,并计算损失的梯度,对所述多阶段视觉注意力模型中各个编码网络的参数进行梯度更新,其中,包括每个阶段编码网络中位置编码器的参数。
各个编码网络对输入张量进行编码处理的具体实施方式,参见前文中预测阶段的描述,此处不再赘述。
由前述描述可知,位置编码生成器的编码参数是训练得到的,即位置编码的参数是通过对海量图像中图像块之间的位置关系进行学习得到的,相比于采用人为设定的公式生成位置编码,更加充分利用了图像内容信息,能达到更加准确的位置编码效果。
本申请实施例公开的图像编码方法,通过对输入图像进行分块编码,确定组成所述输入图像的每个图像块的一维空间张量组成的张量序列;将所述张量序列输入至预先训练的多阶段视觉注意力模型首个阶段的编码网络;依次通过所述多阶段视觉注意力模型中各阶段的编码网络,对输入至该编码网络的张量序列所携带的各所述图像块的图像内容特征进行尺度和维度变换,以及进行图像块位置编码,并基于进行所述图像块位置编码以及进行所述尺度和维度变换的结果进行编码映射,输出所述输入图像的与相应阶段对应的相应尺度和相应维度的张量;对所述多阶段视觉注意力模型中最后一个阶段输出的所述张量进行分类映射,输出所述输入图像对应的类别编码,有助于提升视觉编码模型对输入图像尺寸的适用范围。
本申请实施例公开的图像编码方法,通过设置多阶段的编码网络,并在每个阶段的编码网络中对输入的图像块的图像内容特征进行学习,动态生成各图像块的位置编码,位置编码的长度随输入图像的尺寸变化动态变化,之后,结合动态生成的位置编码和图像块的图像内容特征对各图像块进行进一步编码处理,输出相应阶段的编码结果,生成图像块的位置编码的方式对输入图像的尺寸没有限定,有效提升了视觉编码模型对输入图像尺寸的适用范围。而现有技术中设置固定长度位置编码的方式,无法适应变化的尺寸的输入图像。
进一步的,通过在视觉编码模型中设置多个编码网络,每个编码网络对应不同的编码阶段,每个编码网络中通过编码器对输入至该编码网络的张量进行不同尺度和维度的变换,使得每个编码网络可以输出不同尺度和维度的编码结果,以匹配下游的不同任务需求。
分割、检测等训练任务要求模型训练需要动态输入,现有技术中定长的位置编码不能很好地对动态输入进行位置编码,采用了申请公开的位置编码方法可以提高位置编码能力,带来模型整体性能提升。
在ImageNet(一个公开图像数据集)数据集上,相同数据量级条件下,对本申请实施例公开的图像编码方法和现有技术中的图像编码方法(如采用DeiT编码方法)的编码结果进行测试,本申请实施例公开的图像编码方法得到了高处现有技术1.3个百分点的准确度。在使用ADE20K数据集(一个语义分割数据集)测试分割任务时,采用本申请实施例公开的编码方法可以更好支持分割、检测等变长输入的任务。
实施例二
本申请实施例公开的一种图像编码装置,用于控制实施例一中所述的多阶段视觉注意力模型,如图4所示,所述装置包括:
分块线性编码确定模块410,用于通过对输入图像进行分块编码,确定组成所述输入图像的每个图像块的一维空间张量组成的张量序列;
分块编码输入模块420,用于将所述张量序列输入至预先训练的多阶段视觉注意力模型首个阶段的编码网络;
图像编码模块430,用于依次通过所述多阶段视觉注意力模型中各阶段的编码网络,对输入至该编码网络的张量序列所携带的各所述图像块的图像内容特征进行尺度和维度变换,以及进行图像块位置编码,并基于进行所述图像块位置编码以及进行所述尺度和维度变换的结果进行编码映射,输出所述输入图像的与相应阶段对应的相应尺度和相应维度的张量;
编码结果输出模块440,用于对所述多阶段视觉注意力模型中最后一个阶段输出的所述张量进行分类映射,输出所述输入图像对应的类别编码。
本申请的一些实施例中,所述编码结果输出模块440,进一步用于:
对所述多阶段视觉注意力模型中最后一个阶段输出的所述张量进行全局平均池化处理;
对进行全局平均池化处理得到的张量进行分类映射,输出所述输入图像对应的类别编码。
本申请的一些实施例中,所述多阶段视觉注意力模型中各阶段的编码网络的结构如图3所示,所述图像编码模块430,进一步用于:
通过该编码网络内的第一编码器对输入至该编码网络的张量序列进行尺度和维度变换,得到相应尺度和相应维度的张量;
通过该编码网络内的位置编码器,基于相应尺度和相应维度的所述张量中所携带的各所述图像块的图像内容特征,对各所述图像块的位置信息进行学习,确定该编码网络对应阶段各所述图像块的位置编码张量;
将所述位置编码张量和相应尺度和相应维度的所述张量相加,得到各所述图像块的融合图像位置和图像内容的张量;
通过该编码网络内的至少一个第二编码器,对各所述图像块的融合图像位置和图像内容的所述张量进行编码映射,输出所述输入图像与相应阶段对应的相应尺度和相应维度的张量。
本申请的一些实施例中,所述通过该编码网络内的位置编码器,基于相应尺度和相应维度的所述张量中所携带的各所述图像块的图像内容特征,对各所述图像块的位置信息进行学习,确定该编码网络对应阶段各所述图像块的位置编码张量,包括:
通过该编码网络内的位置编码器,将相应尺度和相应维度的所述张量映射为二维空间的张量;
通过所述位置编码器中的变换单元对所述二维空间的张量进行卷积处理,学习各所述图像块的位置信息,得到二维空间的位置编码张量;
将所述二维空间的位置编码张量映射为一维空间所述相应尺度和所述相应维度的张量,作为该编码网络对应阶段各所述图像块的位置编码张量。
本申请的一些实施例中,所述多阶段视觉注意力模型相邻两个阶段对应的张量尺度中,后一阶段对应的张量尺度小于或等于前一阶段对应的张量尺度;相邻两个阶段对应的张量维度中,后一阶段对应的张量维度大于或等于前一阶段对应的张量维度。
本申请实施例公开的图像编码装置,用于实现本申请实施例一所述的图像编码方法,装置的各模块的具体实施方式不再赘述,可参见方法实施例相应步骤的具体实施方式。
本申请实施例公开的图像编码装置,通过对输入图像进行分块编码,确定组成所述输入图像的每个图像块的一维空间张量组成的张量序列;将所述张量序列输入至预先训练的多阶段视觉注意力模型首个阶段的编码网络;依次通过所述多阶段视觉注意力模型中各阶段的编码网络,对输入至该编码网络的张量序列所携带的各所述图像块的图像内容特征进行尺度和维度变换,以及进行图像块位置编码,并基于进行所述图像块位置编码以及进行所述尺度和维度变换的结果进行编码映射,输出所述输入图像的与相应阶段对应的相应尺度和相应维度的张量;对所述多阶段视觉注意力模型中最后一个阶段输出的所述张量进行分类映射,输出所述输入图像对应的类别编码,有助于提升视觉编码模型对输入图像尺寸的适用范围。
本申请实施例公开的图像编码装置,通过设置多阶段的编码网络,并在每个阶段的编码网络中对输入的图像块的图像内容特征进行学习,动态生成各图像块的位置编码,位置编码的长度随输入图像的尺寸变化动态变化,之后,结合动态生成的位置编码和图像块的图像内容特征对各图像块进行进一步编码处理,输出相应阶段的编码结果,生成图像块的位置编码的方式对输入图像的尺寸没有限定,有效提升了视觉编码模型对输入图像尺寸的适用范围。而现有技术中设置固定长度位置编码的方式,无法适应变化的尺寸的输入图像。
进一步的,通过在视觉编码模型中设置多个编码网络,每个编码网络对应不同的编码阶段,每个编码网络中通过编码器对输入至该编码网络的张量进行不同尺度和维度的变换,使得每个编码网络可以输出不同尺度和维度的编码结果,以匹配下游的不同任务需求。
分割、检测等训练任务要求模型训练需要动态输入,现有技术中定长的位置编码不能很好地对动态输入进行位置编码,采用了申请公开的位置编码方法可以提高位置编码能力,带来模型整体性能提升。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上对本申请提供的一种图像编码方法及装置进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其一种核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
本申请的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本申请实施例的电子设备中的一些或者全部部件的一些或者全部功能。本申请还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本申请的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
例如,图5示出了可以实现根据本申请的方法的电子设备。所述电子设备可以为PC机、移动终端、个人数字助理、平板电脑等。该电子设备传统上包括处理器510和存储器520及存储在所述存储器520上并可在处理器510上运行的程序代码530,所述处理器510执行所述程序代码530时实现上述实施例中所述的方法。所述存储器520可以为计算机程序产品或者计算机可读介质。存储器520可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。存储器520具有用于执行上述方法中的任何方法步骤的计算机程序的程序代码530的存储空间5201。例如,用于程序代码530的存储空间5201可以包括分别用于实现上面的方法中的各种步骤的各个计算机程序。所述程序代码530为计算机可读代码。这些计算机程序可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。这些计算机程序产品包括诸如硬盘,紧致盘(CD)、存储卡或者软盘之类的程序代码载体。所述计算机程序包括计算机可读代码,当所述计算机可读代码在电子设备上运行时,导致所述电子设备执行根据上述实施例的方法。
本申请实施例还公开了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本申请实施例一所述的图像编码方法的步骤。
这样的计算机程序产品可以为计算机可读存储介质,该计算机可读存储介质可以具有与图5所示的电子设备中的存储器520类似布置的存储段、存储空间等。程序代码可以例如以适当形式进行压缩存储在所述计算机可读存储介质中。所述计算机可读存储介质通常为如参考图6所述的便携式或者固定存储单元。通常,存储单元包括计算机可读代码530’,所述计算机可读代码530’为由处理器读取的代码,这些代码被处理器执行时,实现上面所描述的方法中的各个步骤。
本文中所称的“一个实施例”、“实施例”或者“一个或者多个实施例”意味着,结合实施例描述的特定特征、结构或者特性包括在本申请的至少一个实施例中。此外,请注意,这里“在一个实施例中”的词语例子不一定全指同一个实施例。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本申请的实施例可以在没有这些具体细节的情况下被实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本申请可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (10)

1.一种图像编码方法,其特征在于,包括:
通过对输入图像进行分块编码,确定组成所述输入图像的每个图像块的一维空间张量组成的张量序列;
将所述张量序列输入至预先训练的多阶段视觉注意力模型首个阶段的编码网络;
依次通过所述多阶段视觉注意力模型中各阶段的编码网络,对输入至该编码网络的张量序列所携带的各所述图像块的图像内容特征进行尺度和维度变换,以及进行图像块位置编码,并基于进行所述图像块位置编码以及进行所述尺度和维度变换的结果进行编码映射,输出所述输入图像的与相应阶段对应的相应尺度和相应维度的张量;
对所述多阶段视觉注意力模型中最后一个阶段输出的所述张量进行分类映射,输出所述输入图像对应的类别编码。
2.根据权利要求1所述的方法,其特征在于,所述对所述多阶段视觉注意力模型中最后一个阶段输出的所述张量进行分类映射,输出所述输入图像对应的类别编码的步骤,包括:
对所述多阶段视觉注意力模型中最后一个阶段输出的所述张量进行全局平均池化处理;
对进行全局平均池化处理得到的张量进行分类映射,输出所述输入图像对应的类别编码。
3.根据权利要求1或2所述的方法,其特征在于,所述对输入至该编码网络的张量序列所携带的各所述图像块的图像内容特征进行尺度和维度变换,以及进行图像块位置编码,并基于进行所述图像块位置编码以及进行所述尺度和维度变换的结果进行编码映射,输出所述输入图像的与相应阶段对应的相应尺度和相应维度的张量的步骤,包括:
通过该编码网络内的第一编码器对输入至该编码网络的张量序列进行尺度和维度变换,得到相应尺度和相应维度的张量;
通过该编码网络内的位置编码器,基于相应尺度和相应维度的所述张量中所携带的各所述图像块的图像内容特征,对各所述图像块的位置信息进行学习,确定该编码网络对应阶段各所述图像块的位置编码张量;
将所述位置编码张量和相应尺度和相应维度的所述张量相加,得到各所述图像块的融合图像位置和图像内容的张量;
通过该编码网络内的至少一个第二编码器,对各所述图像块的融合图像位置和图像内容的所述张量进行编码映射,输出所述输入图像与相应阶段对应的相应尺度和相应维度的张量。
4.根据权利要求3所述的方法,其特征在于,所述通过该编码网络内的位置编码器,基于相应尺度和相应维度的所述张量中所携带的各所述图像块的图像内容特征,对各所述图像块的位置信息进行学习,确定该编码网络对应阶段各所述图像块的位置编码张量的步骤,包括:
通过该编码网络内的位置编码器,将相应尺度和相应维度的所述张量映射为二维空间的张量;
通过所述位置编码器中的变换单元对所述二维空间的张量进行卷积处理,学习各所述图像块的位置信息,得到二维空间的位置编码张量;
将所述二维空间的位置编码张量映射为一维空间所述相应尺度和所述相应维度的张量,作为该编码网络对应阶段各所述图像块的位置编码张量。
5.根据权利要求1或2所述的方法,其特征在于,所述多阶段视觉注意力模型相邻两个阶段对应的张量尺度中,后一阶段对应的张量尺度小于或等于前一阶段对应的张量尺度;相邻两个阶段对应的张量维度中,后一阶段对应的张量维度大于或等于前一阶段对应的张量维度。
6.一种图像编码装置,其特征在于,包括:
分块线性编码确定模块,用于通过对输入图像进行分块编码,确定组成所述输入图像的每个图像块的一维空间张量组成的张量序列;
分块编码输入模块,用于将所述张量序列输入至预先训练的多阶段视觉注意力模型首个阶段的编码网络;
图像编码模块,用于依次通过所述多阶段视觉注意力模型中各阶段的编码网络,对输入至该编码网络的张量序列所携带的各所述图像块的图像内容特征进行尺度和维度变换,以及进行图像块位置编码,并基于进行所述图像块位置编码以及进行所述尺度和维度变换的结果进行编码映射,输出所述输入图像的与相应阶段对应的相应尺度和相应维度的张量;
编码结果输出模块,用于对所述多阶段视觉注意力模型中最后一个阶段输出的所述张量进行分类映射,输出所述输入图像对应的类别编码。
7.根据权利要求6所述的装置,其特征在于,所述编码结果输出模块,进一步用于:
对所述多阶段视觉注意力模型中最后一个阶段输出的所述张量进行全局平均池化处理;
对进行全局平均池化处理得到的张量进行分类映射,输出所述输入图像对应的类别编码。
8.根据权利要求6或7所述的装置,其特征在于,所述图像编码模块,进一步用于:
通过该编码网络内的第一编码器对输入至该编码网络的张量序列进行尺度和维度变换,得到相应尺度和相应维度的张量;
通过该编码网络内的位置编码器,基于相应尺度和相应维度的所述张量中所携带的各所述图像块的图像内容特征,对各所述图像块的位置信息进行学习,确定该编码网络对应阶段各所述图像块的位置编码张量;
将所述位置编码张量和相应尺度和相应维度的所述张量相加,得到各所述图像块的融合图像位置和图像内容的张量;
通过该编码网络内的至少一个第二编码器,对各所述图像块的融合图像位置和图像内容的所述张量进行编码映射,输出所述输入图像与相应阶段对应的相应尺度和相应维度的张量。
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在处理器上运行的程序代码,其特征在于,所述处理器执行所述程序代码时实现权利要求1至5任意一项所述的图像编码方法。
10.一种计算机可读存储介质,其上存储有程序代码,其特征在于,该程序代码被处理器执行时实现权利要求1至5任意一项所述的图像编码方法的步骤。
CN202110642898.2A 2021-06-09 2021-06-09 图像编码方法、装置、电子设备 Withdrawn CN113507608A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110642898.2A CN113507608A (zh) 2021-06-09 2021-06-09 图像编码方法、装置、电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110642898.2A CN113507608A (zh) 2021-06-09 2021-06-09 图像编码方法、装置、电子设备

Publications (1)

Publication Number Publication Date
CN113507608A true CN113507608A (zh) 2021-10-15

Family

ID=78009400

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110642898.2A Withdrawn CN113507608A (zh) 2021-06-09 2021-06-09 图像编码方法、装置、电子设备

Country Status (1)

Country Link
CN (1) CN113507608A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114092817A (zh) * 2021-12-14 2022-02-25 深圳致星科技有限公司 目标检测方法、存储介质、电子设备及目标检测装置
CN115270778A (zh) * 2022-08-25 2022-11-01 北京达佳互联信息技术有限公司 标题简化方法、装置、设备和存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110574049A (zh) * 2017-05-19 2019-12-13 谷歌有限责任公司 多任务多模态机器学习***
CN110796111A (zh) * 2019-11-05 2020-02-14 腾讯科技(深圳)有限公司 图像处理方法、装置、设备及存储介质
CN112801280A (zh) * 2021-03-11 2021-05-14 东南大学 视觉深度自适应神经网络的一维卷积位置编码方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110574049A (zh) * 2017-05-19 2019-12-13 谷歌有限责任公司 多任务多模态机器学习***
CN110796111A (zh) * 2019-11-05 2020-02-14 腾讯科技(深圳)有限公司 图像处理方法、装置、设备及存储介质
CN112801280A (zh) * 2021-03-11 2021-05-14 东南大学 视觉深度自适应神经网络的一维卷积位置编码方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114092817A (zh) * 2021-12-14 2022-02-25 深圳致星科技有限公司 目标检测方法、存储介质、电子设备及目标检测装置
CN114092817B (zh) * 2021-12-14 2022-04-01 深圳致星科技有限公司 目标检测方法、存储介质、电子设备及目标检测装置
CN115270778A (zh) * 2022-08-25 2022-11-01 北京达佳互联信息技术有限公司 标题简化方法、装置、设备和存储介质
CN115270778B (zh) * 2022-08-25 2023-10-17 北京达佳互联信息技术有限公司 标题简化方法、装置、设备和存储介质

Similar Documents

Publication Publication Date Title
CN111104962B (zh) 图像的语义分割方法、装置、电子设备及可读存储介质
CN109522942B (zh) 一种图像分类方法、装置、终端设备和存储介质
US11514694B2 (en) Teaching GAN (generative adversarial networks) to generate per-pixel annotation
CN112784778B (zh) 生成模型并识别年龄和性别的方法、装置、设备和介质
CN113571124B (zh) 一种配体-蛋白质相互作用的预测方法及装置
CN113507608A (zh) 图像编码方法、装置、电子设备
CN112084435A (zh) 搜索排序模型训练方法及装置、搜索排序方法及装置
CN115082920A (zh) 深度学习模型的训练方法、图像处理方法和装置
CN112801122B (zh) 异常检测模型的训练方法及使用此方法的电子装置
CN114648535A (zh) 一种基于动态transformer的食品图像分割方法及***
CN115083435A (zh) 音频数据处理方法、装置、计算机设备和存储介质
CN113239702A (zh) 意图识别方法、装置、电子设备
CN111935487A (zh) 一种基于视频流检测的图像压缩方法及***
CN116310850A (zh) 基于改进型RetinaNet的遥感图像目标检测方法
CN114998583A (zh) 图像处理方法、图像处理装置、设备及存储介质
CN110889290B (zh) 文本编码方法和设备、文本编码有效性检验方法和设备
CN110659641A (zh) 一种文字识别的方法、装置及电子设备
CN117372617A (zh) 一种基于GCN-Transformer模型的点云数据重建方法及电子设备
CN112183303A (zh) 变电设备图像分类方法、装置、计算机设备和介质
CN116129251A (zh) 办公桌椅的智能化制造方法及其***
CN113496228A (zh) 一种基于Res2Net、TransUNet和协同注意力的人体语义分割方法
CN114819140A (zh) 模型剪枝方法、装置和计算机设备
CN113762241A (zh) 场景文字识别模型的训练方法与识别方法及装置
CN113010687A (zh) 一种习题标签预测方法、装置、存储介质以及计算机设备
CN112699898A (zh) 一种基于多层特征融合的图像方向识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20211015