CN113537456B - 一种深度特征压缩方法 - Google Patents
一种深度特征压缩方法 Download PDFInfo
- Publication number
- CN113537456B CN113537456B CN202110660867.XA CN202110660867A CN113537456B CN 113537456 B CN113537456 B CN 113537456B CN 202110660867 A CN202110660867 A CN 202110660867A CN 113537456 B CN113537456 B CN 113537456B
- Authority
- CN
- China
- Prior art keywords
- feature
- super
- compact
- layer
- neural network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/082—Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明公开了一种深度特征压缩方法,本发明构建并训练一压缩模型,该模型首先对神经网络提取的图像特征表示进行变换,产生变换后的紧凑表示,提取变换后的表示的超先验码流;超先验码流用于产生码本各个基元素的线性组合系数;码本从特征中学习获得;根据线性组合系数和对应的码本产生超先验概率估计,从而使用熵编码器进行熵编码,产生码流;码流通过熵解码和解码变换产生输出的特征表示。本发明能够对深度特征进行有效压缩,而且能够对多个任务特征进行协同压缩,重建时,对特征进行分离操作,分别产生对应不同任务的重建特征;本发明还能够支持训练时未见的新任务。
Description
技术领域
本发明主要涉及神经网络和信息压缩技术,具体涉及一种深度特征压缩方法。
背景技术
深度特征压缩旨在将神经网络处理图像产生的深度特征进行压缩,以接近其在完成视觉分析任务时所需要的信息量下界。
现有方法中处理以上问题有两类方案:混合编码器方案和基于学习的方案。前者首先将深度特征进行量化,然后使用例如高效率视频编码(HEVC)等编码器对量化后的特征进行有损编码。该方案的缺点在于,混合编码器的有损压缩降质与特征在进行视觉分析任务时性能的降质不一致,会导致特征无法提供视觉分析需要的重要信息。同时,该方案假设特征与图像具有类似的性质,这一假设在多种视觉任务中并不成立。
基于学习的方案亦可分为两条路线:第一种路线需要在产生特征时施加额外的信息量约束,从而使得特征具有易于压缩的性质;另一种路线采用基于学习的图像压缩方案对特征进行压缩。此类方案仍然具有局限性:第一种路线依赖庞大的数据集,无法直接使用预训练模型;第二种路线仍然假设特征与图像具有类似的性质,压缩效率较低。
发明内容
本发明在上述技术背景的前提下,提出一种新型深度特征信息压缩方法及***。该***具有以下特性:能够在保持视觉任务执行准确度和效果维持不变的条件下,对深度特征进行有效地压缩;不但能够分别对与不同任务相关的特征进行分别压缩,还能够对多个任务的特征进行协同压缩;压缩后的特征不但能够支持在训练时指明的多项任务,还能够支持训练时未见的新任务。
本发明对特征的压缩方法基于码本超先验模型,该模型首先对神经网络提取的图像特征表示进行变换,产生变换后的紧凑表示,其特点是具有便于概率估计的数据结构,即该表示中各个元素倾向于在下述的超先验码流的条件下,各自独立分布;此外,提取变换后的表示的超先验码流;特别地,超先验码流用于产生码本各个基元素的线性组合系数;其中,码本从特征中学习获得。根据线性组合系数和对应的码本,模型产生超先验概率估计,该概率估计用于确定变换后的表示每个元素的概率分布,从而使用熵编码器进行熵编码,产生码流。码流通过熵解码和解码变换,产生输出的特征表示。该模型能够对深度特征进行有效压缩。
该***能够对多个任务特征进行协同压缩。多个神经网络提取多个深度特征,深度特征在变换中进行融合,使用码本超先验模型进行压缩和解压缩重建。重建时,对特征进行分离操作,分别产生对应不同任务的重建特征。
该***能够支持训练时未见的新任务。基于上述压缩后的特征或压缩后的融合特征,训练新的解码器,产生新的重建特征,可以使得新重建特征支持原训练过程中未见的新任务。
接下来描述本发明的主要处理流程:
首先给出针对单个多层神经网络的处理流程。
步骤1:获得经过训练的一个多层神经网络和对应的有标注的图像数据集(例如ImageNet,COCO,Taskonomy等),数据集包含多组图像-标签对{(xi,yi)},其中每个xi是图像,yi是xi对应的标签。该神经网络可以由对应训练数据集训练得到,或可以采用已有的已经训练完成的神经网络,但要求该训练完成的神经网络能够完成该数据集对应的任务,即给定神经网络输入xi,神经网络能够给出预测使得给定的失真函数/>较小,其中失真函数通常已由数据集对应的任务确定。假设该多层神经网络包含M层。
步骤2:基于步骤1给定的M层神经网络,选取其中一层,假定为第m层,获得该层的输出维度,构建压缩模型。压缩模型包含特征变换模块、超先验信息提取器、可学习码本、超先验信息生成器、概率预测器、熵编码器、特征重建模块。
步骤3:获得步骤1中选定的数据集,训练压缩模型。对于数据集中的图像-标签对{(xi,yi)},将xi输入步骤1给定的M层神经网络,提取其第m层输出h,送入特征变换模块,得到紧凑特征z,然后送入超先验信息提取器以及公知的超先验信息熵编码器,得到超先验紧凑表示v和超先验码流bv,以及计算得到码流bv的信息熵Hv。超先验紧凑表示v经过超先验信息生成器,得到n组线性变换系数每组线性变换系数个数为τ。模型中包含码本{C1,C2,…,Cτ},码本为可学习参数,在训练过程中经过优化过程获得。根据所得n组线性变换系数和模型内存储的码本,经过线性变换/>得到变换结果/>并且组成超先验信息/>送入概率预测器,得到对紧凑特征z的概率预测p(z|v)。利用该概率预测和公知的算术编码器,对于紧凑特征中的每个元素,根据其概率预测结果,使用算数编码器将该元素编码为二进制码流,紧凑特征中所有元素的码流拼接后,得到紧凑特征码流bz,该过程同时计算得到码流bz的信息熵Hz。紧凑特征z经过特征重建模块,产生重建特征/>从第m+1层送入M层神经网络,得到最后的输出结果/>计算损失函数/>其中控制率失真权衡的拉格朗日乘子λ根据实际需要给定,使用反向传播算法,更新特征变换模块、超先验信息提取器、可学习码本、超先验信息生成器、概率预测器、熵编码器、特征重建模块中的可学习参数,迭代进行训练,直到损失函数L在迭代中收敛,或达到最大训练次数时停止。
步骤4:基于步骤3获得的压缩模型,针对图像输入x,基于步骤1中给定的一个神经网络,选取步骤2中确定的层,获得该输入图像对应层的特征表示h'。
步骤5:基于步骤4的特征表示,使用步骤3训练后的压缩模型进行压缩。将图像x在该M层神经网络第m层的输出特征h'作为待压缩特征输入训练后的压缩模型,得到对应的超先验码流bv'和紧凑特征码流bz'。
步骤6:基于步骤5得到的码流bv'和bz'。对于bv',使用熵解码器进行解码,得到v',以v'为超先验紧凑表示,如步骤3描述,在经过训练后的压缩模型内存储的码本参与下,依次经过超先验信息生成器、线性变换、概率预测器,得到对紧凑特征z'的概率预测p(z'|v')。利用该概率预测和公知的算术解码器,将概率预测和解码码流bz'输入解码器中,进行熵解码得到紧凑特征z',经过特征重建模块,产生重建特征从第m+1层送入M层神经网络,得到步骤一所描述的视觉分析任务(例如图像分类、图像语义分割、图像平面法向量估计等任务)的结果/>
接下来给出针对多个多层神经网络的处理流程。
步骤1:获得经过训练的N个多层神经网络和对应的有多项标注的图像数据集(例如Taskonomy),数据集包含多组图像-多标签对{(xi,yi 1,…,yi N)},表示该数据集支持N个任务,每个xi是图像,yi n是该数据集支持第n个任务时,xi对应的标签。每个神经网络可以由对应训练数据集分别针对每个任务训练得到,或可以采用已有的已经训练完成的神经网络,但要求该训练完成的神经网络能够分别完成该数据集对应的任务1到N,即对于第n个任务,给定第n个神经网络输入xi,神经网络能够给出预测使得给定的失真函数/>较小,其中失真函数通常已由数据集对应的任务确定。假设第n个神经网络包含Mn层。
步骤2:基于步骤1给定的N个神经网络,每个神经网络选取其中一层,假定第n个神经网络选择了第mn层,分别获得该层的输出维度。为这些选定层提取的特征构建统一的一个压缩模型,包含特征融合模块、特征变换模块、超先验信息提取器、可学习码本、超先验信息生成器、概率预测器、熵编码器、特征重建模块、特征分离模块。其中特征融合模块包含N个子网络,第n个子网络对应第n个神经网络的第mn层输出的特征。这N个子网络分别将特征作为输入,使用卷积神经网络进行变换,使得变换之后的特征能够进行沿着通道维度的拼接。即,假设第n个变换后的特征形状为(Bn,Cn,Hn,Wn),其中B是P大小,C是通道数,H和W是长和宽,则对于第1,2,…,n,…,N个变换后的特征,它们具有相同的B、H和W。此外,特征分离模块包含N个子网络,每个子网络均接受特征重建模块产生的重建特征作为输入,其中,第n个子网络接收重建特征作为输入,产生与第n个神经网络第mn层输出的特征形状一致的,第n个重建特征输出。
步骤3:获得步骤1中选定的数据集,训练压缩模型。对于数据集中的图像-标签对{(xi,yi 1,yi 2,…,yi N)},将xi输入步骤1给定的N个神经网络,分别提取第n个神经网络第mn层输出hn。将h1,…,hN分别送入特征融合模块的第1,…,N个子网络,产生变换后的特征,然后沿着通道维度进行拼接,得到拼接后的特征张量h*,将其送入特征变换模块,得到紧凑特征z。接下来,与单任务流程类似地,将z送入超先验信息提取器以及公知的超先验信息熵编码器,得到超先验紧凑表示v和超先验码流bv,以及计算得到码流bv的信息熵Hv。超先验紧凑表示v经过超先验信息生成器,得到n组线性变换系数每组线性变换系数个数为τ。模型中包含码本{C1,C2,…,Cτ},码本为可学习参数,在训练过程中经过优化过程获得。根据所得n组线性变换系数和模型内存储的码本,经过线性变换得到变换结果/>并且组成超先验信息/>送入概率预测器,得到对紧凑特征z的概率预测p(z|v)。利用该概率预测和公知的算术编码器,得到紧凑特征码流bz,并且计算得到码流bz的信息熵Hz。紧凑特征z经过特征重建模块,产生重建特征/>使用特征分离模块,将重建特征/>分离为/>其中/>从第n个网络的第mn+1层送入第n个神经网络,得到最后的输出结果/>计算损失函数其中λ1到λN分别表示第1个到第N个任务,及其对应的第1个到第N个神经网络,在损失函数计算中应当采用的,用于控制率失真权衡的拉格朗日乘子,其中各个λn的值按实际需要给定。使用反向传播算法,更新特征融合模块、特征变换模块、超先验信息提取器、可学习码本、超先验信息生成器、概率预测器、熵编码器、特征重建模块、特征分离模块中的可学习参数,迭代进行训练。
步骤4:基于步骤3获得的压缩模型,针对图像输入x,基于步骤1中给定的N个神经网络,选取步骤2中确定的层,获得该输入图像对应层的特征表示h1',…,hN'。
步骤5:基于步骤4的特征表示,使用步骤3训练后的压缩模型进行压缩。将h1',…,hN'送入特征融合网络,得到h*',将其作为拼接后的特征张量,作为待压缩特征输入训练后的压缩模型,得到对应的超先验码流bv'和紧凑特征码流bz'。
步骤6:基于步骤5得到的码流bv'和bz'。对于bv',使用熵解码器进行解码,得到v',以v'为超先验紧凑表示,如步骤3描述,在经过训练后的压缩模型内存储的码本参与下,依次经过超先验信息生成器、线性变换、概率预测器,得到对紧凑特征z'的概率预测p(z'|v')。利用该概率预测和公知的算术解码器,由bz'获得紧凑特征z',经过特征重建模块,产生重建特征并经过特征分离模块,产生/>其中/>从第n个网络的第mn+1层送入第n个神经网络,得到最后的输出结果/>得到步骤一所描述的N个视觉分析任务(例如图像分类、图像语义分割、图像平面法向量估计等任务)中,第n个任务的结果。
最后介绍支持压缩模型训练时未曾专门优化的新任务的处理流程。
步骤1:假设已有前述针对单个神经网络或多个神经网络的处理流程的步骤1-3获得训练完成的压缩模型,记为f,以及对应选定的一个神经网络的前m层,或者多个神经网络的前m1,…,mn,…,mN层,记为g,其中图像x经过g得到特征,该特征经过f得到码流和重建特征。针对一个新任务,获得经过训练的一个多层神经网络和对应的有标注的图像数据集(例如ImageNet,COCO,Taskonomy等),数据集包含多组图像-标签对{(xi,yi)},其中每个xi是图像,yi是xi对应的标签。该神经网络可以由对应训练数据集训练得到,或可以采用已有的已经训练完成的神经网络,但要求该训练完成的神经网络能够完成该数据集对应的任务,即给定神经网络输入xi,神经网络能够给出预测使得给定的失真函数/>较小,其中失真函数通常已由数据集对应的任务确定。假设该多层神经网络包含K层,选取其中一层,假定为第k层,获得该层的输出维度。
步骤2:基于步骤1给定的压缩模型f,将该模型f中的特征重建模块中的参数重置为随机值,并使得其输出维度与步骤1获得的输出维度相同。若存在特征分离模块,将其删除,得到模型f*。
步骤3:基于步骤1中得到的处理过程g,和步骤2中得到的模型f*,进行特征重建模块的训练。具体来说,对于数据集中的图像-标签对{(xi,yi)},将xi输入g后得到特征输入模型f*,得到紧凑特征z″,紧凑特征z″经过特征重建模块,产生重建特征从第k+1层送入步骤1中选定的K层神经网络,得到最后的输出结果/>计算损失函数/>使用反向传播算法,更新特征重建模块中的可学习参数,迭代进行训练。与前述训练流程的不同之处在于,不需要计算超先验表示v,也不需要计算各项信息熵;此外,仅需要训练重置参数后的特征重建模块,损失函数也有所不同。
步骤4:基于步骤3获得的训练完成的模型f*,以及处理过程g,针对图像输入x,可由f*(g(x))获得压缩后的特征码流bv″和bz″。
步骤5:基于步骤4得到的码流bv″和bz″。使用模型f*,按照前述针对单个多层神经网络的处理流程步骤6,可得到表示紧凑特征z″,再经过模型f*中由步骤3训练得到的特征重建模块,产生重建特征从第k+1层送入步骤1中选定的K层神经网络,得到最后的输出结果/>即为压缩模型训练时未曾专门优化新任务(例如图像分类、图像语义分割、图像平面法向量估计等任务)上的分析结果。
与现有技术相比,本发明的积极效果为:
本发明能够在保持视觉任务执行准确度和效果维持不变的条件下,对深度特征进行有效地压缩;不但能够分别对与不同任务相关的特征进行分别压缩,还能够对多个任务的特征进行协同压缩;压缩后的特征不但能够支持在训练时指明的多项任务,还能够支持训练时未曾专门优化的新任务。
附图说明
图1为本发明特征编解码流程图;
图2为本发明特征提取分析流程图;
图3为本发明码本超先验压缩模型结构图;
图4为本发明支持多任务以及新任务流程图。
具体实施方式
为了对本发明的技术方法进一步阐述,下面结合说明书附图和具体实例,对本发明中的训练以及特征编码压缩以及解码流程进行进一步的详细说明。需说明的是,以下实施例所给出的任务选择、特征提取网络结构参数、特征维度、特征及任务数量、任务具体采用的失真函数形式以及参数等仅为一种较佳的实施方式,而不用于限制,本领域技术人员可以根据实际需要来选取,应可理解。
实例一为一种针对1000类图像分类任务的视觉深度特征压缩和重建方法,具体说明如下:
步骤1:针对该任务,准备数据集。数据集中包含图像x和图像对应的真实标签y,并定义失真函数具体形式可以为交叉熵函数,表示某一输出/>与真实标签y的差异大小。
步骤2:以如图2所示流程,以及表1所示结构,其中B为批大小,H和W为图像尺寸,构建M层的特征提取分析网络。使用步骤1中的数据集和失真函数训练网络,直到收敛。
表1用于图像分类任务的多层神经网络结构示例
步骤3:选取步骤2得到的网络中的第m层,对于图像x,输出h作为待编码特征,其形状为B,8,H/64,W/64。m=1对应于输入层。
步骤4:以如图1所示流程以及图3实线以及点状虚线所示结构和流程构建特征压缩模型,包括特征变换模块、超先验信息提取器、可学习码本、超先验信息生成器、概率预测器、熵编码器、特征重建模块、特征分离模块。其中,h首先经过特征变换模块,得到紧凑特征z。其中,紧凑特征z可由训练后的表2所示结构,从h中得到,第7层的输出结果即为z,为离散张量,具有易于进行概率估计的数据结构。
表2由h产生紧凑特征z的神经网络结构示例
由z经过超先验信息提取器模块,得到超先验紧凑表示v。超先验信息提取模块示例结构如表3所示。
表3超先验信息提取模块示例结构
层号 | 操作 | 输入形状 | 输出形状 | 激活函数 |
1 | 卷积 | B,128,H/64,W/64 | B,64,H/64,W/64 | ReLU |
2 | 卷积 | B,64,H/64,W/64 | B,512,H/64,W/64 | ReLU |
3 | 全局池化 | B,512,H/64,W/64 | B,512 | 无 |
4 | 全连接 | B,512 | B,512 | ReLU |
5 | 全连接 | B,512 | B,128 | 无 |
超先验紧凑表示v由熵编码器得到超先验码流bv,计算得到码流bv的信息熵Hv。
超先验紧凑表示v经过超先验信息生成器,得到n组线性变换系数每组线性变换系数个数为τ。超先验信息生成器示例结构如表4所示。技术人员可根据需要设置n和τ,本实例中,设置n=128,τ=512。其中,表示所示结构,重整之后,产生128组线性变换系数,每组有512个系数。
表4超先验信息生成器的示例结构
层号 | 操作 | 输入形状 | 输出形状 | 激活函数 |
1 | 全连接 | B,128 | B,512 | ReLU |
2 | 全连接 | B,512 | B,512 | ReLU |
3 | 全连接 | B,512 | B,512 | ReLU |
4 | 全连接 | B,512 | B,128*512 | 无 |
5 | 重整 | B,128*512 | B,128,512 | 无 |
根据所得n=128组,每组τ=512个线性变换系数,和模型内存储的τ=512个码本{C1,C2,…,Cτ},经过线性变换得到变换结果/>并且组成超先验信息/>送入概率预测器,得到对紧凑特征z的概率预测p(z|v)。其中,概率预测器的示例结构如表5展示。
表5概率预测器的示例结构
重整之后,产生形状为B,2,128,H/64,W/64的张量,由将第二维拆分,形成两组B,128,H/64,W/64的张量。每个张量形状与z一致,其中一个张量表示均值,另外一个经过exp操作后表示标准差,使用预测z的概率。其中,qf和qg对应表5中各层的可学习参数。利用该概率预测和公知的算术编码器,得到紧凑特征码流bz,并且计算得到码流bz的信息熵Hz。紧凑特征z经过特征重建模块,产生重建特征/>特征重建模块示例结构如表6所示。
表6特征重建模块示例结构
层号 | 操作 | 输入形状 | 输出形状 | 激活函数 |
1 | 卷积 | B,128,H/64,W/64 | B,1024,H/64,W/64 | ReLU |
2 | 卷积 | B,1024,H/64,W/64 | B,1024,H/64,W/64 | ReLU |
3 | 卷积 | B,1024,H/64,W/64 | B,512,H/64,W/64 | ReLU |
4 | 卷积 | B,512,H/64,W/64 | B,256,H/64,W/64 | ReLU |
5 | 卷积 | B,256,H/64,W/64 | B,128,H/64,W/64 | ReLU |
6 | 卷积 | B,128,H/64,W/64 | B,8,H/64,W/64 | 无 |
步骤5:使用特征提取分析网络剩余层处理步骤4所得的重建特征即将重建特征从表1所示第m+1层送入神经网络,得到最后的输出结果/>
步骤6:以步骤1收集得到的训练集,固定特征提取分析网络所有层的参数,计算损失函数其中λ根据实际需要选取多个取值,训练特征压缩模型,直到收敛。固定特征提取分析网络的目的是节省训练时需要更新的参数量,并且利用预训练的特征提取分析网络指导压缩模型的训练,在实际实现中,也可以在训练时更新所有参数。损失函数的形式使得训练能够权衡模型压缩后的码率Hz+Hv和实际执行任务的误差率/>技术人员可选择不同的λ取值来调整不同应用场景下的权衡。
步骤7:训练完成后,针对任意图像,经过如图1所示流程,可获得压缩后的特征。同时,压缩后的特征经过如图1所示流程,可实现对相应图像的分析。上述过程的实现与步骤4至5基本一致,区别在于在步骤4中应采用图3实线以及线段虚线所示流程。由于训练已完成,不再需要步骤2和步骤6的训练过程。
注:步骤3中对层的选取不受限,具体实现方案中可根据需要,直接将图像作为特征进行压缩、选取若干层后的特征进行压缩、或是直接选取最后一层的输出作为待压缩特征,亦符合本发明的精神。此外,压缩模型输出的特征亦可经过任意层的剩余特征提取分析网络得到结果,或不经过剩余层直接作为分析结果,亦符合本发明的精神。
实例二为一种同时支持1000类图像分类任务和图像平面法向量估计任务的,视觉深度特征压缩和重建方法,具体说明如下:
步骤1:如实例一步骤1所描述,区别在于数据集中包含图像和对应的分类任务以及平面法向量估计任务的真实标签。对于每一张图像,均包含两个任务的标签。
步骤2:如实例一步骤2所描述,区别在于多个任务分别训练特征提取分析网络。其中,图像分类任务特征提取分析网络如表1所示;平面法向量估计任务的特征提取分析网络如表7所示。
表7平面法向量估计任务的特征提取分析网络结构示意
层号 | 操作 | 输入形状 | 输出形状 | 作用 |
1,…,m | 卷积 | B,3,H,W | B,8,H/64,W/64 | 图像特征提取 |
m+1 | 卷积 | B,8,H/64,W/64 | B,128,H/64,W/64 | 图像特征处理 |
m+2 | 反卷积 | B,128,H/64,W/64 | B,64,H/32,W/32 | 图像特征处理 |
m+3,…,M | 反卷积 | B,64,H/32,W/32 | B,3,H,W | 将特征重建为平面法向量图 |
步骤3:选取两个网络各自的第m层,以及对应的输出特征一h1,和特征二h2。技术人员实现时可根据需要为不同网络选取不同的m取值。
步骤4:如图4所示,首先由神经网络构建特征融合压缩模型,包括特征融合模块、特征变换模块、超先验信息提取器、可学习码本、超先验信息生成器、概率预测器、熵编码器、特征重建模块、特征分离模块。其中,特征融合模块包含2个子网络,分别处理特征一和特征二。子网络结构均如表8所示。子网络处理后,输出的2个特征张量在通道维度上拼接,产生形状为B,16,H/64,W/64的拼接后的特征张量h*。接下来地处理方法与实例一步骤3到4类似,区别在于实例一中被压缩地张量为h,此处替换为h*,对应的输入形状也稍作改变;同时,实例一中重建的特征为此处为/>对应的输出形状改为B,16,H/64,W/64。
表8特征融合模块2个子网络的示例结构
层号 | 操作 | 输入形状 | 输出形状 | 激活函数 |
1 | 卷积 | B,8,H/64,W/64 | B,512,H/64,W/64 | ReLU |
2 | 卷积 | B,512,H/64,W/64 | B,256,H/64,W/64 | ReLU |
3 | 卷积 | B,256,H/64,W/64 | B,128,H/64,W/64 | ReLU |
4 | 卷积 | B,128,H/64,W/64 | B,8,H/64,W/65 | 无 |
步骤5:由神经网络构建特征拆分模块,拆分步骤4构建的模型输出的重建特征,为每一个任务构建其单独的重建特征。其中,拆分模块包含2个子网络,每个子网络的结构如表9所示。拆分后,产生重建特征和/>使用步骤1中描述的2个特征提取分析网络剩余层处理重建特征/>和/>得到最后的输出结果/>和/>
表9特征拆分模块子网络的示例结构
层号 | 操作 | 输入形状 | 输出形状 | 激活函数 |
1 | 卷积 | B,16,H/64,W/64 | B,512,H/64,W/64 | ReLU |
2 | 卷积 | B,512,H/64,W/64 | B,256,H/64,W/64 | ReLU |
3 | 卷积 | B,256,H/64,W/64 | B,128,H/64,W/64 | ReLU |
4 | 卷积 | B,128,H/64,W/64 | B,8,H/64,W/65 | 无 |
步骤6:以步骤1收集得到的训练集,固定特征提取分析网络所有层的参数,计算损失函数其中λ1和λ2根据实际需要选取多个取值,训练特征压缩模型,直到收敛。固定特征提取分析网络的目的是节省训练时需要更新的参数量,并且利用预训练的特征提取分析网络指导压缩模型的训练,在实际实现中,也可以在训练时更新所有参数。损失函数的形式使得训练能够权衡模型压缩后的码率Hz+Hv和实际执行任务的误差率,技术人员可选择不同的λ1和λ2取值来调整不同应用场景下的权衡。
步骤7:训练完成后,针对任意图像,经过如图1所示流程,可获得压缩后的特征。同时,压缩后的特征经过如图1所示流程,可实现对相应图像的多任务分析。上述过程的实现与步骤4至5基本一致,区别在于在步骤4中应采用图3实线以及线段虚线所示流程。由于训练已完成,不再需要步骤2和步骤6的训练过程。
注:图4展示的实例为支持两个任务的流程,技术人员可进行简单改动以支持不同数量的不同任务,而不脱离本发明的精神和范围。
实例三为一种针对一新任务(以图像语义分割为例)的视觉深度特征压缩和重建方法,具体说明如下:
步骤1:由实例一步骤1至6或者实例二步骤1-6获得特征编码压缩模型。
步骤2:针对图像语义分割任务准备数据集。数据集中包含图像x和图像对应的真实标签y,并定义失真函数表示某一输出/>与真实标签y的差异大小。
步骤3:以如图2所示流程构建M层的特征提取分析网络,示例结构如表10所示。使用步骤1中的数据集和失真函数训练网络,直到收敛。
表10图像语义分割任务的特征提取分析网络结构示意
层号 | 操作 | 输入形状 | 输出形状 | 作用 |
1,…,m | 卷积 | B,3,H,W | B,8,H/64,W/64 | 图像特征提取 |
m+1 | 卷积 | B,8,H/64,W/64 | B,128,H/64,W/64 | 图像特征处理 |
m+2 | 反卷积 | B,128,H/64,W/64 | B,64,H/32,W/32 | 图像特征处理 |
m+3,…,M | 反卷积 | B,64,H/32,W/32 | B,17,H,W | 将特征重建为图像分割结果 |
步骤4:选取步骤3中特征提取分析网络第m层之后的层,层数m可由实际决定。
步骤5:如图4构建新特征重建网络,替换步骤1的特征压缩模型中的特征重建网络,由融合压缩特征,经过新特征重建网络和步骤4中的m+1层至M层特征提取分析网络,产生针对新任务的分析结果。其中,新特征重建网络的结构如表6所示。
步骤5:固定网络其他部分,在数据集上训练新特征重建网络,使用失真函数作为损失函数,直到收敛。
步骤6:针对某一图像,如图4可由特征融合压缩获得码流,并且由新特征重建和对应的分析获得分析结果。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (10)
1.一种深度特征压缩方法,其步骤包括:
1)构建并训练一压缩模型,所述压缩模型包含特征变换模块、超先验信息提取器、熵编码器、超先验信息生成器、概率预测器、特征重建模块;其中训练所述压缩模型的方法为:将图像特征h送入特征变换模块,得到紧凑特征z,其中图像特征h为图像xi输入M层神经网络所得的第m层输出;然后将紧凑特征z输入超先验信息提取器得到超先验紧凑表示v并将其分别输入熵编码器、超先验信息生成器,熵编码器对输入的超先验紧凑表示v进行编码得到超先验码流bv并计算所得码流bv的信息熵Hv;超先验信息生成器首先根据输入的超先验紧凑表示v计算得到n组线性变换系数然后根据可学习码本{C1,C2,…,Cτ}、所得n组线性变换系数进行线性变换/>得到变换结果/>并且组成超先验信息/>并输入概率预测器,其中τ为码本数,l取值为1~n;所述概率预测器首先根据输入的超先验信息/>得到对紧凑特征z的概率预测p(z|v),然后利用该概率预测p(z|v)和算术编码器对紧凑特征z进行编码,得到紧凑特征码流bz,并计算bz的信息熵Hz;紧凑特征z经过特征重建模块产生重建特征/>并将其输入M层神经网络的第m+1层,得到最后的输出结果/>计算损失函数/>其中,d()为失真函数,yi是图像xi对应的标签,λ为控制率失真权衡的拉格朗日乘子;当L满足设定条件或达到迭代训练次数时停止训练;
2)将图像x在该M层神经网络第m层的输出特征作为待压缩特征输入训练后的压缩模型,得到对应的超先验码流bv’和紧凑特征码流bz’。
2.如权利要求1所述的方法,其特征在于,所述第m层为M层神经网络中的任意一层或者为原始输入图像。
3.一种基于权利要求1所述方法所得压缩特征的任务处理方法,其步骤包括:
1)使用熵解码器对超先验码流bv’进行解码,得到超先验紧凑表示v'并将其依次经过超先验信息生成器、线性变换、概率预测器,得到对紧凑特征z'的概率预测p(z'|v');
2)将概率预测p(z'|v')和解码码流bz'输入解码器中,进行熵解码得到紧凑特征z';
3)特征重建模块根据紧凑特征z'产生重建特征并输入M层神经网络的第m+1层,得到最后的输出结果/>即图像x对应的任务分析结果。
4.如权利要求3所述的方法,其特征在于,将压缩模型记为模型f,将该M层神经网络的前m层处理过程记为过程g;针对一个新任务,获得一个经过训练的K层神经网络,选取该K层神经网络的第k层作为特征输出层;将该模型f的特征重建模块中的参数重置为随机值,并使得其输出维度与该第k层输出特征的维度相同;然后基于该新任务对模型f进行训练,训练后的模型记为模型f*;针对图像x,将图像x经该过程g的输出特征输入模型f*获得压缩后的超先验码流bv”和紧凑特征码流bz”;然后使用熵解码器对超先验码流bv”进行解码,得到超先验紧凑表示v”并将其输入超先验信息生成器;超先验信息生成器根据输入的超先验紧凑表示v”得到表示紧凑特征z”并输入模型f*得到重建特征将该重建特征/>输入该K层神经网络的第k+1层,得到输出结果/>即输入图像x对应该新任务上的分析结果。
5.如权利要求4所述的方法,其特征在于,基于该新任务对模型f进行训练的方法为:将训练样本中的图像xi”输入该过程g得到特征h”,将该特征h”输入模型f*得到紧凑特征并将其输入特征重建模块,得到重建特征并输入该K层神经网络的第k+1层,得到输出结果计算损失函数L=d(yi”,/>),yi”是图像xi”对应的标签,使用反向传播算法,更新特征重建模块中的可学习参数,迭代进行训练。
6.一种深度特征压缩方法,其步骤包括:
1)构建并训练一压缩模型,所述压缩模型包括特征融合模块、特征变换模块、超先验信息提取器、熵编码器、超先验信息生成器、概率预测器、特征重建模块、特征分离模块;其中训练所述压缩模型的方法为:将N个神经网络设定层输出的图像特征输入特征融合模块进行融合后送入特征变换模块,得到紧凑特征z;然后将紧凑特征z输入超先验信息提取器得到超先验紧凑表示v并将其分别输入熵编码器、超先验信息生成器,熵编码器对输入的超先验紧凑表示v进行编码得到超先验码流bv并计算所得码流bv的信息熵Hv;超先验信息生成器首先根据输入的超先验紧凑表示v计算得到n组线性变换系数然后根据可学习码本{C1,C2,…,Cτ}、所得n组线性变换系数进行线性变换/>得到变换结果/>并且组成超先验信息/>并输入概率预测器,其中τ为码本数,l取值为1~n;所述概率预测器首先根据输入的超先验信息/>得到对紧凑特征z的概率预测p(z|v),然后利用该概率预测p(z|v)和算术编码器对紧凑特征z进行编码,得到紧凑特征码流bz,并计算bz的信息熵Hz;紧凑特征z经过特征重建模块产生重建特征然后特征分离模块将重建特征/>分离为/>并分别输入对应多层神经网络,得到对应的输出结果;其中第N个多层神经网络的设定层为第m层,图像xi输入第N个多层神经网络时第m层的输出特征对应的重建特征为/>将/>输入第N个多层神经网络的第m+1层得到输出结果/>计算损失函数/>其中,d()为失真函数,yi N)是图像xi对应第N个任务的标签,λN为第N个多层神经网络中用于控制率失真权衡的拉格朗日乘子;当L满足设定条件或达到迭代训练次数时停止训练;
2)将图像x在该N个多层神经网络设定层的输出特征作为待压缩特征输入训练后的压缩模型,得到对应的超先验码流bv’和紧凑特征码流bz’。
7.一种基于权利要求6所述方法所得压缩特征的任务处理方法,其步骤包括:
1)使用熵解码器对超先验码流bv’进行解码,得到超先验紧凑表示v'并将其依次经过超先验信息生成器、线性变换、概率预测器,得到对紧凑特征z'的概率预测p(z'|v');
2)将概率预测p(z'|v')和解码码流bz'输入解码器中,进行熵解码得到紧凑特征z';
3)特征重建模块根据紧凑特征z'产生重建特征并输入特征分离模块;
4)特征分离模块将重建特征分离为/>并分别输入对应多层神经网络,得到对应的输出结果;其中第N个多层神经网络的设定层为第m层,图像xi输入第N个多层神经网络时第m层的输出特征对应的重建特征为/>将/>输入第N个多层神经网络的第m+1层得到输出结果/>为图像x对应于第N个任务的分析结果。
8.如权利要求7所述的方法,其特征在于,将压缩模型去除特征分离模块记为模型f,将该多层神经网络的前m层处理过程记为过程g;针对一个新任务,获得一个经过训练的K层神经网络,选取该K层神经网络的第k层作为特征输出层;将该模型f的特征重建模块中的参数重置为随机值,并使得其输出维度与该第k层输出特征的维度相同;然后基于该新任务对模型f进行训练,训练后的模型记为模型f*;针对图像x,将图像x经该过程g的输出特征输入模型f*获得压缩后的超先验码流bv”和紧凑特征码流bz”;然后使用熵解码器对超先验码流bv”进行解码,得到超先验紧凑表示v”并将其输入超先验信息生成器;超先验信息生成器根据输入的超先验紧凑表示v”得到表示紧凑特征z”并输入模型f*得到重建特征将该重建特征/>输入该K层神经网络的第k+1层,得到输出结果/>即输入图像x对应该新任务上的分析结果。
9.一种服务器,其特征在于,包括存储器和处理器,所述存储器存储计算机程序,所述计算机程序被配置为由所述处理器执行,所述计算机程序包括用于执行权利要求1至8任一所述方法中各步骤的指令。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至8任一所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110660867.XA CN113537456B (zh) | 2021-06-15 | 2021-06-15 | 一种深度特征压缩方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110660867.XA CN113537456B (zh) | 2021-06-15 | 2021-06-15 | 一种深度特征压缩方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113537456A CN113537456A (zh) | 2021-10-22 |
CN113537456B true CN113537456B (zh) | 2023-10-17 |
Family
ID=78096071
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110660867.XA Active CN113537456B (zh) | 2021-06-15 | 2021-06-15 | 一种深度特征压缩方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113537456B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114386595B (zh) * | 2021-12-24 | 2023-07-28 | 西南交通大学 | 一种基于超先验架构的sar图像压缩方法 |
CN114363615B (zh) * | 2021-12-27 | 2023-05-19 | 上海商汤科技开发有限公司 | 数据处理方法及装置、电子设备和存储介质 |
CN115103191A (zh) * | 2022-06-14 | 2022-09-23 | 北京字节跳动网络技术有限公司 | 图像处理方法、装置、设备及存储介质 |
CN115329952B (zh) * | 2022-10-12 | 2023-01-20 | 深圳比特微电子科技有限公司 | 一种模型压缩方法、装置和可读存储介质 |
CN115866252B (zh) * | 2023-02-09 | 2023-05-02 | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) | 一种图像压缩方法、装置、设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10594338B1 (en) * | 2019-03-18 | 2020-03-17 | WaveOne Inc. | Adaptive quantization |
CN111009018A (zh) * | 2019-12-24 | 2020-04-14 | 苏州天必佑科技有限公司 | 基于深度神经网络的图像降维和重建方法 |
CN111242288A (zh) * | 2020-01-16 | 2020-06-05 | 浙江工业大学 | 一种用于病变图像分割的多尺度并行深度神经网络模型构建方法 |
CN112149652A (zh) * | 2020-11-27 | 2020-12-29 | 南京理工大学 | 用于高光谱图像有损压缩的空谱联合深度卷积网络方法 |
CN112203093A (zh) * | 2020-10-12 | 2021-01-08 | 苏州天必佑科技有限公司 | 一种基于深度神经网络的信号处理方法 |
-
2021
- 2021-06-15 CN CN202110660867.XA patent/CN113537456B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10594338B1 (en) * | 2019-03-18 | 2020-03-17 | WaveOne Inc. | Adaptive quantization |
CN111009018A (zh) * | 2019-12-24 | 2020-04-14 | 苏州天必佑科技有限公司 | 基于深度神经网络的图像降维和重建方法 |
CN111242288A (zh) * | 2020-01-16 | 2020-06-05 | 浙江工业大学 | 一种用于病变图像分割的多尺度并行深度神经网络模型构建方法 |
CN112203093A (zh) * | 2020-10-12 | 2021-01-08 | 苏州天必佑科技有限公司 | 一种基于深度神经网络的信号处理方法 |
CN112149652A (zh) * | 2020-11-27 | 2020-12-29 | 南京理工大学 | 用于高光谱图像有损压缩的空谱联合深度卷积网络方法 |
Non-Patent Citations (2)
Title |
---|
Learning End-to-End Lossy Image Compression: A Benchmark;Yueyu Hu 等;arXiv;全文 * |
Video Coding for Machines: A Paradigm of Collaborative Compression and Intelligent Analytics;Ling-Yu Duan 等;arXiv;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113537456A (zh) | 2021-10-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113537456B (zh) | 一种深度特征压缩方法 | |
Yu et al. | Video probabilistic diffusion models in projected latent space | |
US11153566B1 (en) | Variable bit rate generative compression method based on adversarial learning | |
CN110933429B (zh) | 基于深度神经网络的视频压缩感知与重构方法和装置 | |
US11869221B2 (en) | Data compression using integer neural networks | |
CN111263161B (zh) | 视频压缩处理方法、装置、存储介质和电子设备 | |
CN113259676B (zh) | 一种基于深度学习的图像压缩方法和装置 | |
US11177823B2 (en) | Data compression by local entropy encoding | |
El-Nouby et al. | Image compression with product quantized masked image modeling | |
TW202042559A (zh) | 用以壓縮類神經網路參數之方法與裝置 | |
Huai et al. | Zerobn: Learning compact neural networks for latency-critical edge systems | |
CN113747163A (zh) | 基于上下文重组建模的图像编码、解码方法及压缩方法 | |
CN117354523A (zh) | 一种频域特征感知学习的图像编码、解码、压缩方法 | |
Mentzer et al. | M2t: Masking transformers twice for faster decoding | |
Muckley et al. | Improving statistical fidelity for neural image compression with implicit local likelihood models | |
CN107231556B (zh) | 一种图像云储存设备 | |
JP2009530940A (ja) | 抑制されたベクトル量子化 | |
US20230114301A1 (en) | Systems and methods for processing audiovisual data using latent codes from generative networks and models | |
CN114781389B (zh) | 一种基于标签增强表示的罪名预测方法及*** | |
CN116391190A (zh) | 使用生成式模型和潜在域量化的信号编解码 | |
Shen et al. | Learned image compression with transformers | |
WO2024011417A1 (zh) | 编解码方法、解码器、编码器及计算机可读存储介质 | |
US20240223817A1 (en) | Video compression using optical flow | |
EP4369713A1 (en) | Entropy-constrained neural video representations | |
AU2022279597B2 (en) | Training rate control neural networks through reinforcement learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |