CN116614637B - 一种数据处理方法、装置、设备以及可读存储介质 - Google Patents
一种数据处理方法、装置、设备以及可读存储介质 Download PDFInfo
- Publication number
- CN116614637B CN116614637B CN202310885764.2A CN202310885764A CN116614637B CN 116614637 B CN116614637 B CN 116614637B CN 202310885764 A CN202310885764 A CN 202310885764A CN 116614637 B CN116614637 B CN 116614637B
- Authority
- CN
- China
- Prior art keywords
- image
- embedding layer
- decoding
- feature embedding
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003860 storage Methods 0.000 title claims abstract description 29
- 238000003672 processing method Methods 0.000 title abstract description 12
- 238000012545 processing Methods 0.000 claims abstract description 228
- 238000000034 method Methods 0.000 claims abstract description 140
- 230000008569 process Effects 0.000 claims abstract description 89
- 238000012549 training Methods 0.000 claims abstract description 48
- 238000013507 mapping Methods 0.000 claims abstract description 25
- 239000011159 matrix material Substances 0.000 claims description 240
- 238000000354 decomposition reaction Methods 0.000 claims description 179
- 230000006870 function Effects 0.000 claims description 57
- 238000013139 quantization Methods 0.000 claims description 52
- 238000004590 computer program Methods 0.000 claims description 24
- 238000004364 calculation method Methods 0.000 claims description 20
- 238000004891 communication Methods 0.000 claims description 8
- 230000006835 compression Effects 0.000 abstract description 41
- 238000007906 compression Methods 0.000 abstract description 41
- 238000005457 optimization Methods 0.000 description 110
- 238000005516 engineering process Methods 0.000 description 20
- 238000010586 diagram Methods 0.000 description 19
- 230000004913 activation Effects 0.000 description 15
- 238000013473 artificial intelligence Methods 0.000 description 14
- 238000010606 normalization Methods 0.000 description 10
- 230000003044 adaptive effect Effects 0.000 description 9
- 230000009286 beneficial effect Effects 0.000 description 9
- 238000011176 pooling Methods 0.000 description 9
- 238000013528 artificial neural network Methods 0.000 description 8
- 230000005540 biological transmission Effects 0.000 description 8
- 238000010801 machine learning Methods 0.000 description 8
- 238000013527 convolutional neural network Methods 0.000 description 7
- 230000006978 adaptation Effects 0.000 description 6
- 230000001186 cumulative effect Effects 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 4
- 230000006872 improvement Effects 0.000 description 4
- 230000003993 interaction Effects 0.000 description 4
- 230000003190 augmentative effect Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 230000006837 decompression Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 230000001902 propagating effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 238000012935 Averaging Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000033228 biological regulation Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005315 distribution function Methods 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000004321 preservation Methods 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 238000009966 trimming Methods 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/44—Decoders specially adapted therefor, e.g. video decoders which are asymmetric with respect to the encoder
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Signal Processing (AREA)
- Multimedia (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
本申请公开了一种数据处理方法、装置、设备以及可读存储介质,方法包括:通过图像编码器与图像解码器对原始图像进行图像编解码处理,得到原始图像对应的第一重建图像;获取在图像编解码处理过程中,输入到图像解码器的目标特征嵌入层的待处理特征,通过为目标特征嵌入层配置的门控网络对待处理特征进行二值映射处理,得到目标特征嵌入层对应的优化控制值;若确定目标特征嵌入层对应的优化控制值为有效值,则通过原始图像与第一重建图像之间的第一误差损失值,对目标特征嵌入层的初始解码参数进行训练优化处理,得到目标特征嵌入层的优化解码参数。采用本申请,可以在图像压缩业务中,提升解码器的训练效率,提升图像压缩性能。
Description
技术领域
本申请涉及计算机技术领域,尤其涉及一种数据处理方法、装置、设备以及可读存储介质。
背景技术
基于深度学习的图像压缩可被视为自编码器(Auto-Encoder,AE)架构。对于一张待压缩图像,首先经过编码器进行非线性变换,得到图像的隐式表达后对其量化并基于熵模型进行编码,得到编码字节流。而在解压缩时,解压端(如客户端)可以从字节流恢复隐式表达并将其输入到解码器获得重建图像。
而为了提升图像的压缩性能(即提升重建图像的图像质量),可以预先对编码器与解码器进行训练优化,以使得最终得到的重建图像的图像质量更高。在对解码器进行训练优化时,相关技术通常是引入固定数量的可学习参数来对解码器进行优化,具体的,由于解码器是由多层网络层(如卷积层等)所组成的,对解码器进行训练优化实际上是对解码器中的各个网络层进行优化,而相关技术会固定需要进行优化的网络层的数量,然后再按照所固定的数量从各个网络层中随机选择部分(或全部)网络层来进行优化。
然而,上述方式可能会使得解码器中需要进行优化的网络层并不能及时得到优化,不仅影响训练效率,也影响解码器优化后的性能。因此,当前亟需一种解码器的参数优化方式,用以提升图像压缩性能。
发明内容
本申请实施例提供一种数据处理方法、装置、设备以及可读存储介质,可以在图像压缩业务中,提升解码器的训练效率,提升图像压缩性能。
本申请实施例一方面提供了一种数据处理方法,包括:
通过图像编码器与图像解码器对原始图像进行图像编解码处理,得到原始图像对应的第一重建图像;
获取在图像编解码处理过程中,输入到图像解码器的目标特征嵌入层的待处理特征,通过为目标特征嵌入层配置的门控网络对待处理特征进行二值映射处理,得到目标特征嵌入层对应的优化控制值;
若确定目标特征嵌入层对应的优化控制值为有效值,则通过原始图像与第一重建图像之间的第一误差损失值,对目标特征嵌入层的初始解码参数进行训练优化处理,得到目标特征嵌入层的优化解码参数。
本申请实施例一方面提供了一种数据处理装置,包括:
编解码模块,用于通过图像编码器与图像解码器对原始图像进行图像编解码处理,得到原始图像对应的第一重建图像;
特征获取模块,用于获取在图像编解码处理过程中,输入到图像解码器的目标特征嵌入层的待处理特征;
特征映射模块,用于通过为目标特征嵌入层配置的门控网络对待处理特征进行二值映射处理,得到目标特征嵌入层对应的优化控制值;
参数训练模块,用于若确定目标特征嵌入层对应的优化控制值为有效值,则通过原始图像与第一重建图像之间的第一误差损失值,对目标特征嵌入层的初始解码参数进行训练优化处理,得到目标特征嵌入层的优化解码参数。
在一个实施例中,由门控网络得到的优化控制值用于反映解码适配性,解码适配性是指目标特征嵌入层的解码参数,与输入到目标特征嵌入层的待处理特征之间的适配性;
当优化控制值为有效值时,表示目标特征嵌入层的解码参数,与针对目标特征嵌入层的待处理特征之间不具备适配性;
当优化控制值为无效值时,表示目标特征嵌入层的解码参数,与针对目标特征嵌入层的待处理特征之间具备适配性。
在一个实施例中,编解码模块通过图像编码器与图像解码器对原始图像进行图像编解码处理,得到原始图像对应的第一重建图像的具体方式,包括:
通过图像编码器对原始图像进行图像编码处理,得到原始图像对应的隐式表达特征;
对隐式表达特征进行量化处理,得到隐式表达特征对应的第一量化特征;
通过图像解码器对第一量化特征进行解码处理,得到原始图像对应的第一重建图像。
在一个实施例中,在得到目标特征嵌入层的优化解码参数之后,数据处理装置还包括:
增量矩阵确定模块,用于确定优化解码参数与初始解码参数之间的增量参数矩阵;
矩阵分解模块,用于对增量参数矩阵进行低秩分解处理,得到增量参数矩阵对应的分解矩阵;分解矩阵的矩阵维度低于增量参数矩阵的矩阵维度;
确定模块,用于将包含分解矩阵与初始解码参数的目标特征嵌入层确定为优化特征嵌入层,将包含优化特征嵌入层的图像解码器确定为优化图像解码器;
矩阵微调模块,用于获取图像编码器在图像编解码处理过程中输出的隐式表达特征,通过隐式表达特征与优化图像解码器对分解矩阵进行微调处理,得到分解矩阵对应的微调分解矩阵;
发送模块,用于将隐式表达特征、分解矩阵对应的微调分解矩阵以及目标特征嵌入层对应的优化控制值发送至解码客户端,以使解码客户端对隐式表达特征、分解矩阵对应的微调分解矩阵以及目标特征嵌入层对应的优化控制值进行解码处理,得到原始图像对应的解码图像。
在一个实施例中,矩阵微调模块通过隐式表达特征与优化图像解码器对分解矩阵进行微调处理,得到分解矩阵对应的微调分解矩阵的具体方式,包括:
通过第一误差损失值对隐式表达特征进行微调处理,得到微调表达特征;
对微调表达特征进行量化处理,得到微调表达特征对应的第二量化特征;
通过优化图像解码器对第二量化特征进行解码处理,得到原始图像对应的第二重建图像;
确定原始图像与第二重建图像之间的第二误差损失值,通过第二误差损失值对分解矩阵进行微调处理,得到分解矩阵对应的微调分解矩阵。
在一个实施例中,矩阵微调模块通过第一误差损失值对隐式表达特征进行微调处理,得到微调表达特征的具体方式,包括:
对第一误差损失值与隐式表达特征进行梯度计算处理,得到隐式表达特征对应的第一梯度值;
通过隐式表达特征对应的第一微调函数与第一梯度值,对隐式表达特征进行微调处理,得到微调表达特征。
在一个实施例中,矩阵微调模块通过第二误差损失值对分解矩阵进行微调处理,得到分解矩阵对应的微调分解矩阵的具体方式,包括:
对第二误差损失值与分解矩阵进行梯度计算处理,得到分解矩阵对应的第二梯度值;
通过分解矩阵对应的第二微调函数与第二梯度值,对分解矩阵进行微调处理,得到分解矩阵对应的微调分解矩阵。
在一个实施例中,发送模块将隐式表达特征、分解矩阵对应的微调分解矩阵以及目标特征嵌入层对应的优化控制值发送至解码客户端的具体方式,包括:
获取通过第一误差损失值对隐式表达特征进行微调处理后所得到的微调表达特征;
将微调表达特征与微调分解矩阵分别进行量化处理,得到微调表达特征对应的量化微调特征,以及微调分解矩阵对应的量化微调矩阵;
将量化微调特征、量化微调矩阵以及目标特征嵌入层对应的优化控制值分别进行算术编码处理,得到量化微调特征对应的第一比特流、量化微调矩阵对应的第二比特流以及优化控制值对应的第三比特流;
将第一比特流、第二比特流以及第三比特流发送至解码客户端。
在一个实施例中,特征获取模块获取图像编解码处理过程中,输入到图像解码器的目标特征嵌入层的待处理特征的具体方式,包括:
获取图像解码器中用于进行特征嵌入处理的特征嵌入网络;特征嵌入网络由特征嵌入层序列所组成,特征嵌入层序列包括目标特征嵌入层;
在目标特征嵌入层位于特征嵌入层序列的序列起始位置时,将图像编码器在图像编解码处理过程中输出的隐式表达特征进行量化处理,得到第一量化特征,将第一量化特征确定为目标特征嵌入层在图像编解码处理过程中的待处理特征;
在目标特征嵌入层位于特征嵌入层序列的序列非起始位置时,将特征嵌入层序列中目标特征嵌入层的上一个特征嵌入层,在图像编解码处理过程中的层输出特征,确定为目标特征嵌入层在图像编解码处理过程中的待处理特征。
在一个实施例中,在获取图像编码器在图像编解码处理过程中输出的隐式表达特征后,数据处理装置还包括:
网络参数优化模块,用于通过隐式表达特征与优化图像解码器对门控网络的网络参数进行优化处理,得到优化网络参数;包含优化网络参数的门控网络,用于在获取到目标特征嵌入层在新一轮的图像编解码处理过程中的更新待处理特征后,对更新待处理特征进行二值映射处理,得到目标特征嵌入层对应的更新优化控制值。
在一个实施例中,网络参数优化模块通过隐式表达特征与优化图像解码器对门控网络的网络参数进行优化处理,得到优化网络参数的具体方式,包括:
获取通过第一误差损失值对隐式表达特征进行微调处理后所得到的微调表达特征;
对微调表达特征进行量化处理,得到微调表达特征对应的第二量化特征;
通过优化图像解码器对第二量化特征进行解码处理,得到原始图像对应的第二重建图像;
确定原始图像与第二重建图像之间的第二误差损失值,通过第二误差损失值对门控网络的网络参数进行微调处理,得到门控网络的网络参数对应的优化网络参数。
本申请实施例一方面提供了一种计算机设备,包括:处理器和存储器;
存储器存储有计算机程序,计算机程序被处理器执行时,使得处理器执行本申请实施例中的方法。
本申请实施例一方面提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序包括程序指令,程序指令当被处理器执行时,执行本申请实施例中的方法。
本申请的一个方面,提供了一种计算机程序产品,该计算机程序产品包括计算机程序,该计算机程序存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机程序,处理器执行该计算机程序,使得该计算机设备执行本申请实施例中一方面提供的方法。
在本申请实施例中,在图像压缩业务中,对于图像解码器进行训练优化的过程,本申请为图像解码器的每一个特征嵌入层均配置一个门控网络用于自适应地决定该特征嵌入层的解码参数是否应进行更新。其中,门控网络的输出可以根据输入至特征嵌入层的特征来自适应地选择是否要为特征嵌入层加入新的信息(这里的新的信息可以理解成是为特征嵌入层所引入的解码参数)。具体的,以图像解码器中的目标嵌入层为例,在通过对原始图像进行图像编解码处理得到第一重建图像后,对于目标特征嵌入层而言,对通过原始图像与第一重建图像之间的第一误差损失值对该目标特征嵌入层的解码参数(可将训练优化前的解码参数称为初始解码参数)进行训练优化前,可以通过目标特征嵌入层的门控网络来对目标特征嵌入层的待处理特征进行二值映射处理,得到一个输出值后可以作为该目标特征嵌入层的优化控制值,若该优化控制值为有效值,那么即可基于上述第一误差损失值对该目标特征嵌入层的初始解码参数进行训练优化处理,得到目标特征嵌入层的优化解码参数。应当理解,通过为图像解码器的每个特征嵌入层进行门控网络,可以通过门控网络基于输入至特征嵌入层的特征,来自适应地决定特征嵌入层是否进行参数优化,由此可以准确地将需要进行参数优化的特征嵌入层进行及时参数优化,且对无需进行参数优化的特征嵌入层进行不优化处理,由此可以很好地提升各个特征嵌入层的优化及时性,也可以减少对部分特征嵌入层的多余优化,这不仅利于提升图像解码器的训练效率,还有助于提升优化后的解码器的性能,从而提升图像压缩性能。综上,本申请可以在图像压缩业务中,提升解码器的训练效率,提升图像压缩性能。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种数据处理***的网络架构图;
图2是本申请实施例提供的一种数据处理方法的流程示意图;
图3是本申请实施例提供的一种进行图像编解码处理的示意图;
图4是本申请实施例提供的一种门控网络的结构示意图;
图5是本申请实施例提供的一种向终端设备传输数据的流程示意图;
图6是本申请实施例提供的一种服务器与解码端进行数据交互的架构示意图;
图7是本申请实施例提供的一种***逻辑架构图;
图8是本申请实施例提供的一种数据处理装置的结构示意图;
图9是本申请实施例提供的一种计算机设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请涉及人工智能等相关技术,为便于理解,以下将优先对人工智能等相关概念进行阐述说明。
人工智能(Artificial Intelligence, AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
本申请实施例提供的方案属于人工智能领域下属的计算机视觉技术(ComputerVision, CV)和机器学习((Machine Learning, ML)。
计算机视觉技术(Computer Vision, CV)计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑对目标进行识别、测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能***。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术。
机器学习(Machine Learning, ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。预训练模型是深度学习的最新发展成果,融合了以上技术。
本申请的方案具体涉及计算机视觉技术中的图像处理技术,可以实现对图像进行压缩处理,以得到压缩后的图像。同时,本申请的方案具体还涉及机器学习技术,具体可以采用机器学习技术来对图像压缩业务中的图像编码器与图像解码器进行训练,以提升所输出的压缩图像(或称为重建图像)的图像质量(如图像更为清晰)。
为便于理解,请参见图1,图1是本申请实施例提供的一种数据处理***的网络架构图。如图1所示,该网络架构可以包括业务服务器1000和终端设备集群,终端设备集群可以包括一个或者多个终端设备,这里将不对终端设备的数量进行限制。如图1所示,多个终端设备可以包括终端设备100a、终端设备100b、终端设备100c、…、终端设备100n;如图1所示,终端设备100a、终端设备100b、终端设备100c、…、终端设备100n可以分别与业务服务器1000进行网络连接,以便于每个终端设备可以通过该网络连接与业务服务器1000之间进行数据交互。另外,终端设备集群100中的任一终端设备可以是指运行有操作***的智能设备,本申请实施例对终端设备的操作***不进行具体限定。
如图1所示的数据处理***中的终端设备可以为智能手机、平板电脑、笔记本电脑、掌上电脑、台式计算机、移动互联网设备(MID,mobile internet device)、POS(PointOf Sales,销售点)机、智能音箱、智能电视、智能手表、智能车载终端、虚拟现实(VirtualReality,VR)设备、增强现实(Augmented Reality,AR)设备等,但并不局限于此。终端设备往往配置有显示装置,显示装置可以为显示器、显示屏、触摸屏等等,触摸屏可以为触控屏、触控面板等等。
如图1所示的数据处理***中的业务服务器可以是单个的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式***,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端设备与业务服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
在一种可能的实现方式中,终端设备(如终端设备100a)中运行有客户端(客户端也可称为应用),如视频客户端、浏览器客户端、游戏客户端、教育客户端、网盘客户端、压缩客户端等等,这里将不对客户端进行一一举例说明。对于各个客户端,均可具备图像压缩功能。在申请实施例中,以压缩客户端为例进行说明,使用对象(如使用客户端的用户)可以在终端设备中运行压缩客户端,而压缩客户端可以提供压缩功能(例如,图像压缩功能),对象(这里的对象可以是指使用压缩客户端的对象,例如,可以是指使用压缩客户端的用户,本申请可以将使用压缩客户端的对象称为使用对象)可以基于压缩客户端提供的功能,在压缩客户端中上传图像,以将该图像进行压缩,得到压缩图像(为便于区别,本申请可以将使用对象在压缩客户端中所上传的压缩前的图像称为原始图像)。
可以理解的是,对于使用对象在压缩客户端中上传的原始图像,业务服务器1000可以获取得到,随后,业务服务器1000可以通过部署于业务服务器1000中的图像编码器对该原始图像进行图像编码处理,由此可以编码得到该原始图像对应的一个隐式表达特征;进一步地,业务服务器1000可以将该隐式表达特征返回至该终端设备,该终端设备可以通过部署于该终端设备中的图像解码器,对该隐式表达特征进行解码重建处理,由此可以解码重建得到一个重建图像,该重建图像即可作为该原始图像对应的压缩图像。而为了提升图像压缩性能,对于图像编码器与图像解码器可以预先进行训练优化,以使得图像编码器所输出的隐式表达特征更能体现出原始图像的图像特征,也可以使得图像解码器能够输出图像质量更高的重建图像。对于图像解码器而言,其包含有多个卷积层,在对图像解码器进行训练优化时,可以对图像解码器的各个卷积层的参数(可将图像解码器中包含的参数称为解码参数)进行训练优化处理。为了提升图像解码器的训练优化效率以及图像解码器的压缩性能,本申请提出一种针对于图像解码器的参数优化方法,可以动态自适应地选择部分卷积层的参数进行更新。
具体的,由于图像解码器的各个卷积层主要用于对获取到的特征进行特征嵌入处理(或特征卷积处理),那么本申请可以将图像解码器中用于进行特征嵌入处理的神经网络层(如卷积层)均称为特征嵌入层。基于上述可知,通过图像编码器可以对原始图像进行图像编码处理,而通过图像解码器可以图像编码器输出的内容进行解码处理,最终可以得到一个重建图像,这里可以将图像编码器的图像编码处理与图像解码器的解码处理,称为对原始图像进行的一次图像编解码处理,那么换言之,通过图像编码器与图像解码器可以对原始图像进行一次图像编解码处理,由此可以得到原始图像对应的一个重建图像(为便于区别,本申请可以将其命名为第一重建图像)。
随后,可确定出该原始图像与该第一重建图像之间的误差损失值(本申请可将其称为第一误差损失值),通过原始图像与第一重建图像之间的第一误差损失值即可对图像解码器中各个特征嵌入层的解码参数进行训练优化处理。而本申请中,为每个特征嵌入层均配置一个门控网络,通过该门控网络可以基于特征嵌入层的输入特征,输出一个可以决定对应的特征嵌入层是否进行参数优化的值(可称其为优化控制值),也就是说,对于某个特征嵌入层(将其称为目标特征嵌入层)而言,在通过第一误差损失值对目标特征嵌入层的解码参数进行训练优化处理前,本申请可以获取到在图像编解码处理过程中,输入到图像解码器的目标特征嵌入层的特征(该特征也就是该目标特征嵌入层需要处理的特征,所以可将其称为待处理特征),通过为目标特征嵌入层配置的门控网络可以对该待处理特征进行二值映射处理,从而可以得到该目标特征嵌入层对应的优化控制值。其中,本申请可以将门控网络设置为“硬门控网络”,通过该门控网络只能输出一个无效值(如数值0)或一个有效值(如数值1),在优化控制值为无效值时,那么即可表示该目标特征嵌入层的网络结构(即解码参数)与输入特征(即目标特征嵌入层的待处理特征)之间具备适配性,该目标特征嵌入层的解码参数已经能够适应待处理特征,此时无需再对该目标特征嵌入层的解码参数进行训练优化;而在优化控制值为有效值时,那么即可表示该目标特征嵌入层的网络结构(即解码参数)与输入特征(即目标特征嵌入层的待处理特征)之间的适配性较低,此时若对目标特征嵌入层的解码参数进行训练优化,所得到的率失真收益将会大于不进行训练优化的率失真收益,那么可以对该目标特征嵌入层的解码参数进行训练优化,也就是说,本申请中,门控网络输出有效值时,可表征目标特征嵌入层的网络结构(解码参数)与输入特征之间的适配性较低,此时需要进行参数优化;而门控网络输出无效值时,可表征目标特征嵌入层的网络结构与输入特征之间的适配性较高,此时无需进行参数优化。而为了便于更清晰明了地基于门控网络的输出来决定是否对目标特征嵌入层的解码参数进行参数优化,在门控网络输出的优化控制值为无效值,可绝对性地直接确定目标特征嵌入层的网络结构与待处理特征之间具备适配性,无需进行参数优化;而在门控网络输出的优化控制值为有效值时,可绝对性地直接确定目标特征嵌入层的网络结构与待处理特征之间并不具备适配性,该目标特征嵌入层的解码参数无法适应待处理特征,此时需要再对该目标特征嵌入层的解码参数进行训练优化,以能够准确地将待处理特征进行特征嵌入处理。
基于此,在得到目标特征嵌入层对应的优化控制值后,若确定目标特征嵌入层对应的优化控制值为有效值,则可通过该原始图像与第一重建图像之间的第一误差损失值,对该目标特征嵌入层的解码参数(可将每轮训练优化前的解码参数称为初始解码参数)进行训练优化处理,得到目标特征嵌入层的优化解码参数。而若确定目标特征嵌入层对应的优化控制值为无效值,则可不对目标特征嵌入层的解码参数进行训练优化处理。而应当理解,门控网络的输出结果可用于决定特征嵌入层的解码参数是否进行更新,可见门控网络的输出结果至关重要,那么为了提升门控网络的输出结果的准确性,本申请在对图像解码器中各个特征嵌入层进行训练优化处理时,可以基于原始图像与重建图像之间的误差损失值对门控网络的网路参数进行同步训练优化处理,以使得门控网络的输出结果越来越准确,图像解码器所得到的重建图像的图像质量越来越高,进而使得原始图像与重建图像之间的误差损失值越来越小,直至满足收敛条件。
可以理解的是,本申请实施例所提供的方法可以由计算机设备执行,计算机设备包括但不限于图1中所提及的终端设备或业务服务器。
需要说明的是,在本申请的具体实施方式中,涉及到用户信息、用户数据(如在客户端中所上传的图像)等相关的数据,均是需要经过用户手动授权许可(即经过用户同意)才进行获取得到的。也就是说,当本申请以上实施例运用到具体产品或技术中时,本申请实施例所提供的方法与相关功能是在获得用户许可或者同意下所运行的(可以由用户主动开启本申请实施例所提供的功能),且相关数据的收集、使用和处理需要遵守相关地域、地区的相关法律法规和标准。
为便于理解,接下来将结合附图对本申请实施例提供的数据处理方法进行详细描述。请参见图2,图2是本申请实施例提供的一种数据处理方法的流程示意图。其中,该方法可以由终端设备(例如,上述图1所示的终端设备集群中的任一终端设备,如终端设备100a)执行,也可以由服务器(如上述图1所对应实施例中的业务服务器1000)所执行,还可以由终端设备和服务器共同执行。为便于理解,本实施例以该方法由服务器执行为例进行说明。如图2所示,该数据处理方法至少可以包括以下步骤S101-步骤S103:
步骤S101,通过图像编码器与图像解码器对原始图像进行图像编解码处理,得到原始图像对应的第一重建图像。
本申请中,在图像压缩的业务中,对于一个待压缩图像(可理解为未经过压缩处理的图像,可将其称为原始图像),首先需要经过图像编码器对其进行非线性变换(也就是图像编码处理),得到图像的隐式表达特征后可对其进行量化并基于熵模型进行算术编码处理,由此可以得到隐式表达特征对应的编码字节流;随后,图像解码器可以对隐式表达特征对应的编码字节流进行算术解码处理,以从编码字节流恢复隐式表达特征并将获得重建图像。对于图像编码器对原始图像的图像编码处理,以及图像解码器对图像编码器的输出进行解码处理的过程,本申请可以将其作为一次图像编解码处理,也就是说,通过图像编码器与图像解码器对原始图像进行图像编解码处理,可以得到原始图像对应的一个重建图像(为便于区别,可将该重建图像称为第一重建图像,该第一重建图像也就是压缩图像)。
对于通过图像编码器与图像解码器对原始图像进行图像编解码处理,得到原始图像对应的第一重建图像的具体实现方式,可为:通过图像编码器可以对原始图像进行图像编码处理,由此可以得到原始图像对应的隐式表达特征;随后,可以对隐式表达特征进行量化处理,由此可以得到隐式表达特征对应的第一量化特征;进一步地,可以通过图像解码器对第一量化特征进行解码处理,由此可以得到原始图像对应的第一重建图像。
对于图像编码器对原始图像进行图像编码处理的具体实现方式可如公式(1)所示:
公式(1)
其中,如公式(1)所示的可用于表征图像编码器;/>可用于表征图像编码器的编码参数;/>可用于表征原始图像(对于计算机设备而言,输入的原始图像可以是指一个矩阵);/>可用于表征通过图像编码器编码输出的隐式表达特征。
对于将隐式表达特征进行量化处理的具体实现方式可如公式(2)所示:
公式(2)
其中,如公式(2)所示的可用于表征量化函数,/>可用于表征通过图像编码器编码输出的隐式表达特征;/>可用于表征量化处理得到的量化特征(如第一量化特征)。
进一步地,通过图像解码器解码重建得到重建图像(如第一重建图像)的具体实现方式可如公式(3)所示:
公式(3)
其中,如公式(3)所示的可用于表征图像解码器;/>可用于表征图像编码器的解码参数;/>可用于表征上述公式(2)中的量化特征;/>可用于表征通过图像解码器解码输出的重建图像。
步骤S102,获取在图像编解码处理过程中,输入到图像解码器的目标特征嵌入层的待处理特征,通过为目标特征嵌入层配置的门控网络对待处理特征进行二值映射处理,得到目标特征嵌入层对应的优化控制值。
本申请中,对于图像编码器,可以是任一具备图像编码功能的神经网络,例如,图像编码器可为卷积神经网络(Convolutional Neural Network,CNN),具体如残差网络、自注意力网络、Transformer网络等等;同理,图像解码器也可以是任一具备图像解码功能的神经网络,图像解码器也可为某个卷积神经网络。对于卷积神经网络而言,其可以是由多个卷积层、激活函数层以及归一化层等网络层堆叠而成,对于每一层,上一层的输出特征即可作为当前层的输入特征。例如,对于某个卷积层而言,上一个卷积层的输出特征,即可作为当前卷积层的输入特征,该卷积层需要对该输入特征进行卷积计算处理,得到的卷积计算结果即为当前卷积层的输出特征,当前卷积层的输出特征又可作为下一个卷积层的输入特征。换言之,在图像编解码处理的过程中,对于上述第一量化特征,首先会输入至图像解码器的第一个卷积层,那么对于图像解码器的第一个卷积层,其输入特征可以理解为是第一量化特征,随后,第一个卷积层可以对其进行卷积计算处理,第一个卷积层卷积计算处理得到的结果可以输入至第二个卷积层中,对于第二个卷积层的输入特征即为该第一个卷积层的输出特征;随后,第二个卷积层可以对输入特征进行卷积计算处理,得到一个结果后可以输入至第三个卷积层……以此类推直至将卷积计算得到的结果输入至最后一个卷积层,而最后一个卷积层的输出特征可以输入至激活函数层进行激活处理,激活函数层的处理结果可以输入至归一化层进行归一化处理直至输出重建图像。
本申请中的特征嵌入层可以是指图像解码器中的卷积层(也可以是指激活函数层或归一化层,而由于更新优化图像解码器中的卷积层的解码参数的性能提升,会高于更新优化图像解码器中的其他组件的解码参数的性能提升,所以此处可选择卷积层作为特征嵌入层以进行后续的参数更新优化;其中,由于卷积层包含的解码参数的维度较高,直接对整个参数进行更新会引入较大的额外存储开销,所以本申请可以先将参数进行低秩分解处理,再对低秩分解处理后的内容进行计算,以进行更新优化。对于低秩分解的相关过程,可参见后续实施例的描述),目标特征嵌入层可以是指特征嵌入层中的任一层(如卷积层中的任一层)。对于图像编解码处理过程中,输入到目标特征嵌入层的待处理特征,也就是目标特征嵌入层的输入特征,通过上述可知,在目标特征嵌入层为位于起始位置的第一个特征嵌入层时,其待处理特征也就是上述第一量化特征。而在目标特征嵌入层为非首个特征嵌入层时,其待处理特征也就是上一个特征嵌入层的输出。
具体的,对于获取在图像编解码处理过程中,输入到图像解码器的目标特征嵌入层的待处理特征的具体方式,可为:可以获取图像解码器中用于进行特征嵌入处理的特征嵌入网络(可以理解为是由多个卷积层堆叠而成的卷积网络);也就是说,这里的特征嵌入网络可以是由特征嵌入层序列所组成,且特征嵌入层序列包括目标特征嵌入层;随后,可以确定目标特征嵌入层所处的序列位置,在目标特征嵌入层位于特征嵌入层序列的序列起始位置时,可以将图像编码器在图像编解码处理过程中输出的隐式表达特征进行量化处理,得到第一量化特征后,可以将该第一量化特征确定为目标特征嵌入层在图像编解码处理过程中的待处理特征;而在目标特征嵌入层位于特征嵌入层序列的序列非起始位置时,可以将特征嵌入层序列中目标特征嵌入层的上一个特征嵌入层,在图像编解码处理过程中的层输出特征,确定为目标特征嵌入层在图像编解码处理过程中的待处理特征。
为便于理解各个特征嵌入层在图像编解码过程中的待处理特征,请一并参见图3,图3是本申请实施例提供的一种进行图像编解码处理的示意图。如图3所示,对于图像解码器而言,其可以由卷积网络、激活函数层以及归一化层所组成,其中,图像解码器的卷积网络由卷积层301、卷积层302、卷积层303、…卷积层30n所堆叠而成,图像解码器中的卷积网络可以是指本申请中的特征嵌入网络,各个卷积层可以是指特征嵌入层,如图3所示的各个堆叠的卷积层可理解为特征嵌入层序列,在该特征嵌入层序列中,卷积层301位于序列起始位置,卷积层30n位于序列结束位置。而卷积网络的输出(即卷积层30n的层输出特征)可以作为激活函数层的输入,激活函数层的输出可以作为归一化层的输入。
对于原始图像而言,可以首先通过图像编码器对其进行图像编码处理得到一个隐式表达特征,随后,可以将该隐式表达特征进行量化处理,由此可以得到一个量化特征(可称之为第一量化特征),对于该第一量化特征,可以首先输入至图像解码器中卷积网络的第一个卷积层(即如图3所示的卷积层301),即该卷积层301的待处理特征可以是指第一量化特征,通过该卷积层301可以对该第一量化特征进行卷积计算处理(可理解为特征嵌入处理),由此可以得到一个卷积结果,该卷积结果即可作为卷积层301的层输出特征;随后,卷积层301的层输出特征可以输入至卷积层302,即卷积层302在该图像编解码处理过程中的待处理特征为卷积层301的层输出特征,同理可得到卷积层303在该图像编解码处理过程中的待处理特征为卷积层302的层输出特征;…;卷积层30n在该图像编解码处理过程中的待处理特征为卷积层30(n-1)的层输出特征。
应当理解,在通过对原始图像进行一次图像编解码处理得到第一重建图像后,即可基于原始图像与第一重建图像之间的第一误差损失值,对图像编码器与图像解码器进行优化处理,而在优化处理的过程中,对于图像解码器而言,可以对各个特征嵌入层的解码参数进行优化处理。本申请中,为了提升图像解码器的优化效率,减少不必要的层优化,为每个特征嵌入层均配置一个门控网络,用于自适应地控制特征嵌入层的解码参数是否进行优化更新。通过各个特征嵌入层的门控网络,可以自适应地调整图像解码器中参数的更新位置(如需要进行参数更新的为哪一层)和层更新数量。其中,门控网络可以将前一层的输出映射为二进制决策,那么即可基于门控网络的输出结果来决定跳过当前层的参数更新(参数优化)或是执行参数更新。其中,对于门控网络的输出本申请可以采用硬门控,使其输出为有效值(如数值1)或无效值(如数值0)的标准二值化输出。本申请中的门控网络可以为具备门控机制的任意神经网络,例如,具体可为CNN、RNN等神经网络。为便于理解,请一并参见图4,图4是本申请实施例提供的一种门控网络的结构示意图。如图4所示,该门控网络可以至少包括卷积层、激活函数、自适应平均池化层、全连接层以及归一化层,其中,需要说明的是,门控网络中包含的卷积层也可以包含多个,但是门控网络中包含的卷积层与上述图像解码器中包含的卷积层可为不同的卷积层(例如,层参数不同、网络结构不同)。为便于理解,以下将对门控网络中包含的各个部分进行简要阐述:
卷积层:卷积层可以对接收到的输入特征(即输入至当前特征嵌入层的待处理特征),进行卷积计算处理,得到一个卷积计算结果。
激活函数:这里的激活函数可以是指ReLU函数,ReLU函数也可理解为线性整流函数(Linear rectification function),又称修正线性单元,是一种人工神经网络中常用的激活函数(activation function)。通过激活函数可以将卷积层输出的内容进行特征保留以及映射处理。
自适应平均池化层(AdaptiveAveragePooling):通过自适应平均池化层可以对激活函数输出的内容进行自适应平均池化处理,其中,这里的自适应可以是指预先指定输出结果的大小,然后自适应平均池化层即可自动基于输入的内容调整步长与内核尺寸,以适应输出结果的大小,自适应平均池化层所得到的输出结果的大小可以为预先指定的大小。
全连接层:可用于将前面得到的特征内容进行综合。
归一化层(softmax):归一化层可以用于将全连接层得到的内容进行归一化处理。
通过上述卷积层、激活函数、自适应平均池化层、全连接层以及归一化层的处理,可以将当前特征嵌入层的输入,映射到二进制输出(如映射为0或1)。
可以理解的是,对于各个特征嵌入层,某个特征嵌入层进行参数优化后,在下一次的图像编解码处理过程中,该特征嵌入层会基于优化后的参数(即优化解码参数)对输入特征进行特征嵌入处理,下一层特征嵌入层所接收到的输入包含有该特征嵌入层引入的增量解码参数(初始解码参数+增量解码参数=优化解码参数)所处理得到的内容,而由于特征嵌入层是累积的,那么对于特征嵌入层引入的增量解码参数,是会一层一层进行累积的,而通过门控网络可以控制信息的累积速度,可以有选择的加入新的信息,对于某一层可以决定是否要进行参数优化,若不进行参数优化,那么当前层不会引入新的解码参数作为增量解码参数。
基于上述可知,通过门控网络可以将输入特征映射为一个数值,该数值可包括有效值与无效值两个数值,所以本申请可以将门控网络对输入特征的映射处理称之为二值映射处理。那么对于图像解码器中的某个特征嵌入层(称为目标特征嵌入层,即目标特征嵌入层为图像解码器中的任意一个特征嵌入层)而言,在通过第一误差损失值对其解码参数进行优化处理前,可以先通过为目标特征嵌入层配置的门控网络对目标特征嵌入层的待处理特征进行二值映射处理,由此可以输出一个结果,该结果可作为目标特征嵌入层对应的优化控制值。
应当理解的是,由于门控网络输出的有效值与无效值可用于决定某个特征嵌入层的参数是否进行优化,而图像解码器基于各个优化或未优化的特征嵌入层,又可对图像编码器所输出的结果(量化后的隐式表达特征,如第一量化特征)进行图像解码处理,由此又可以得到一个新的重建图像,基于新的重建图像与原始图像之间的新的误差损失值即可以判断当前的图像解码器的参数好坏,若新的重建图像与原始图像之间的误差损失值较小或得到减小,那么可说明图像解码器中各个特征嵌入层的参数是较为准确的,是与输入特征相适配的,由此才可以对输入特征进行准确地卷积计算得到较为准确地输出特征传至下一层;换言之,在基于门控网络的控制参数更新位置以及更新数量后,可以基于优化后的图像解码器对图像编码器的输出内容进行再一次解码处理,由此可以得到一个新的重建图像,通过该新的重建图像的图像质量可以判断门控网络控制参数更新的控制效果,而通过该新的重建图像与原始图像之间的误差损失值,也可以对该门控网络的网络参数进行更新,以使得该门控网络的输出越来越准确,从而提升参数更新控制效果,进而使得图像解码器输出的重建图像的图像质量越来越高。也就是说,对于门控网络而言,其输出结果可用于反映当前的特征嵌入层的解码参数,是否与输入特征(即待处理特征)相适配,若门控网络的输出结果为无效值,则可以反映特征嵌入层的解码参数可以适应该特征嵌入层的待处理特征,无需优化即可进行准确地卷积处理;而若门控网络的输出结果为有效值,则可以反映特征嵌入层的解码参数可以无法适应该特征嵌入层的待处理特征,需要进行进一步优化才可进行准确地卷积处理。换言之,对于目标特征嵌入层而言,由门控网络得到的优化控制值用于反映解码适配性,该解码适配性是指目标特征嵌入层的解码参数,与输入到目标特征嵌入层的待处理特征之间的适配性;当优化控制值为有效值时,可以表示目标特征嵌入层的解码参数,与针对目标特征嵌入层的待处理特征之间不具备适配性,此时需要将目标特征嵌入层的当前的解码参数(如初始解码参数)进行优化更新;当优化控制值为无效值时,表示目标特征嵌入层的解码参数,与针对目标特征嵌入层的待处理特征之间具备适配性,此时无需将目标特征嵌入层的当前的解码参数(如初始解码参数)进行优化更新。
步骤S103,若确定目标特征嵌入层对应的优化控制值为有效值,则通过原始图像与第一重建图像之间的第一误差损失值,对目标特征嵌入层的初始解码参数进行训练优化处理,得到目标特征嵌入层的优化解码参数。
本申请中,在得到目标特征嵌入层对应的优化控制值后,若确定目标特征嵌入层对应的优化控制值为有效值,则可以通过原始图像与第一重建图像之间的第一误差损失值,对目标特征嵌入层的初始解码参数进行训练优化处理,得到目标特征嵌入层的优化解码参数。本申请中,可以预设用于求取原始图像与重建图像的损失函数,通过该损失函数可以对图像编码器与图像解码器的参数进行训练优化,本申请可以采用率失真(Rate-Distortion,RD)损失函数进行优化,即损失函数可以是指率失真损失函数,在图像编码器与图像解码器为图像神经网络时,通过率失真损失函数可以快速准确地对图像编码器与图像解码器进行优化。
基于上述可知,对于确定第一误差损失值的具体方式可如公式(4)所示:
公式(4)
其中,如公式(4)所示的可用于表征原始图像(对于计算机设备而言,输入的原始图像可以是指一个矩阵);/>可用于表征通过图像解码器解码输出的重建图像(如第一重建图像);D()可以是指失真衡量函数,可衡量图像重建的失真(即用于衡量相比于原始图像,重建图像的失真程度);/>可用于表征量化处理得到的量化特征(如第一量化特征);R是比特率(即求取量化特征的比特率,这里对于确定比特率的方式可以采用/>函数进行确定);/>可以是控制R-D之间的比例的拉格朗日乘数;/>可用于表征误差损失值(如第一误差损失值)。通过如公式(4)所示的损失函数,将图像编码器输出的经量化的量化特征、原始图像以及重建图像代入其中,即可求得一个误差损失值,通过该误差损失值即可对图像解码器进行优化处理。
需要说明的是,在通过门控网络对各个特征嵌入层的解码参数进行控制优化处理后,可以通过优化后的图像解码器进行再一次解码处理得到一个新的重建图像,对于该新的重建图像,可以确定出一个新的误差损失值,通过该新的误差损失值可以对门控网络的网络参数进行优化处理,使得门控网络的输出结果越来越准确,由此可以在新一轮的图像编解码处理的过程中,通过优化后的各个门控网络能够准确地控制参数是否进行优化,进而可以使得图像解码器的解码效果越来越好。对于门控网络的优化可以参见后续图5所对应实施例中的描述。
在本申请实施例中,在图像压缩业务中,对于图像解码器进行训练优化的过程,本申请为图像解码器的每一个特征嵌入层均配置一个门控网络用于自适应地决定该特征嵌入层的解码参数是否应进行更新。其中,门控网络的输出可以根据输入至特征嵌入层的特征来自适应地选择是否要为特征嵌入层加入新的信息(这里的新的信息可以理解成是为特征嵌入层所引入的解码参数)。具体的,以图像解码器中的目标嵌入层为例,在通过对原始图像进行图像编解码处理得到第一重建图像后,对于目标特征嵌入层而言,对通过原始图像与第一重建图像之间的第一误差损失值对该目标特征嵌入层的解码参数(可将训练优化前的解码参数称为初始解码参数)进行训练优化前,可以通过目标特征嵌入层的门控网络来对目标特征嵌入层的待处理特征进行二值映射处理,得到一个输出值后可以作为该目标特征嵌入层的优化控制值,若该优化控制值为有效值,那么即可基于上述第一误差损失值对该目标特征嵌入层的初始解码参数进行训练优化处理,得到目标特征嵌入层的优化解码参数。应当理解,通过为图像解码器的每个特征嵌入层进行门控网络,可以通过门控网络基于输入至特征嵌入层的特征,来自适应地决定特征嵌入层是否进行参数优化,由此可以准确地将需要进行参数优化的特征嵌入层进行及时参数优化,且对无需进行参数优化的特征嵌入层进行不优化处理,由此可以很好地提升各个特征嵌入层的优化及时性,也可以减少对部分特征嵌入层的多余优化,这不仅利于提升图像解码器的训练效率,还有助于提升优化后的解码器的性能,从而提升图像压缩性能。综上,本申请可以在图像压缩业务中,提升解码器的训练效率,提升图像压缩性能。
进一步地,可以理解的是,基于上述可知,图像编码器可以部署于服务器(如业务服务器1000)中,通过该图像编码器可以对原始图像进行图像编码处理,图像解码器可以部署于终端设备中,通过该图像解码器可以对服务器发送过来的编码字节流进行解码重建处理,得到一个重建图像作为压缩图像。而本申请中,图像解码器也可以同步部署于服务器中,通过预先对图像解码器进行训练以进行特征嵌入层的参数适配,决定出需要进行参数优化的特征嵌入层以及无需进行参数优化的特征嵌入层。随后,服务器可以将需要进行参数优化的特征嵌入层的增量解码参数(即优化解码参数与初始解码参数之间的差值)、以及图像编码器编码输出的内容(隐式表达特征)发送至终端设备,那么终端设备即可基于本地原有的各个特征嵌入层的初始解码参数,以及接收到的增量解码参数,确定出优化解码参数,终端设备即可调用包含优化解码参数的图像解码器来对图像编码器输出的内容进行解码处理,得到图像质量较高的重建图像。
可以理解的是,对于图像解码器中各个特征嵌入层的解码参数通常是矩阵的形式,由于各个特征嵌入层网络结构具备较高复杂性,特征嵌入层的参数矩阵的维度通常较高,所包含的参数量较大,那么所对应的增量解码参数所包含的参数量也较大,在优化后计算误差损失值时或在传输至终端设备的过程中将进行大量的计算,产生的比特流(即编码字节流)开销较大。本申请中的特征嵌入层是指卷积层,对于卷积层中包含的参数,是具备低秩可分解特性的,基于该特性,本申请在对特征嵌入层进行优化处理得到优化解码参数后,可以确定出优化解码参数与初始解码参数之间的增量解码参数,对于该增量解码参数对其进行低秩分解处理,使得增量解码参数由两个可学习矩阵来表示,应当理解,通过低秩分解处理后的可学习矩阵的矩阵维度较低,包含的参数量更少,所以对应的计算量更少,可以产生较小的比特流开销。
为便于理解,请一并参见图5,图5是本申请实施例提供的一种向终端设备传输数据的流程示意图。该流程可以对应于上述图2所对应实施例中,得到目标特征嵌入层的优化解码参数后的流程。如图5所示,该流程可以至少包括以下步骤S501-步骤S505:
步骤S501,确定优化解码参数与初始解码参数之间的增量参数矩阵。
具体的,对于特征嵌入层的解码参数,可以是一个矩阵的形式,那么优化解码参数与初始解码参数,均可以是指矩阵,通过求取两者之间的差值,即可得到一个差值矩阵,该差值矩阵即为增量参数矩阵。
步骤S502,对增量参数矩阵进行低秩分解处理,得到增量参数矩阵对应的分解矩阵;分解矩阵的矩阵维度低于增量参数矩阵的矩阵维度。
具体的,对于增量参数矩阵,可以利用其低秩属性,将其进行低秩分解处理,由此可以得到增量参数矩阵对应的两个可学习矩阵,通过这两个可学习矩阵的乘积可表示增量参数矩阵。其中,由于低秩分解的原理,对于可学习矩阵的矩阵维度,是低于增量参数矩阵的矩阵维度的。本申请中的分解矩阵可以是指可学习矩阵。
对于增量参数矩阵与可学习矩阵之间的关系可如公式(5)所示:
公式(5)
其中,如公式(5)所示的可用于表征增量参数矩阵;A可用于表征某个可学习矩阵,该可学习矩阵可被初始化为随机高斯;B可用于表征另一个可学习矩阵,该可学习矩阵可被初始化为0。这里将不再对低秩分解原理进行过于赘述。
步骤S503,将包含分解矩阵与初始解码参数的目标特征嵌入层确定为优化特征嵌入层,将包含优化特征嵌入层的图像解码器确定为优化图像解码器。
具体的,将增量参数矩阵进行低秩分解处理后,为便于区别,可将包含分解矩阵与初始解码参数的目标特征嵌入层确定为优化特征嵌入层,将包含优化特征嵌入层的图像解码器确定为优化图像解码器。可以将各个优化特征嵌入层的增量参数矩阵发送至终端设备,即,此时可以将各个特征嵌入层的分解矩阵、优化控制值以及图像编码器的隐式表达特征,发送至终端设备。即对增量参数矩阵进行低秩分解处理,得到增量参数矩阵对应的分解矩阵之后,可以将隐式表达特征、分解矩阵以及目标特征嵌入层对应的优化控制值发送至解码客户端(如部署有图像解码器的终端设备),终端设备可基于各个特征嵌入层的优化控制值,来确定出该特征嵌入层是否要进行参数优化,在确定需要进行参数优化时,再获取到用于表征增量参数矩阵的分解矩阵,终端设备可以基于分解矩阵与图像解码器的初始解码参数,确定出优化解码参数,并基于优化解码参数来对隐式表达特征进行解码重建处理。
步骤S504,获取图像编码器在图像编解码处理过程中输出的隐式表达特征,通过隐式表达特征与优化图像解码器对分解矩阵进行微调处理,得到分解矩阵对应的微调分解矩阵。
具体的,应当理解,为了进一步提升图像解码器所输出的重建图像(如第一重建图像)的图像质量(即提升图像压缩性能),本申请可以基于误差损失值对各个参数进行微调,通过参数的微调有利于提升图像的率失真性能,使得图像更为清晰,通过对分解矩阵进行微调,也可以提升图像解码器最终输出结果的率失真性能。
对于通过隐式表达特征与优化图像解码器对分解矩阵进行微调处理,得到分解矩阵对应的微调分解矩阵的具体方式可为:可以通过第一误差损失值对隐式表达特征进行微调处理,由此可以得到微调表达特征;随后,可以对微调表达特征进行量化处理,由此可以得到微调表达特征对应的第二量化特征;进一步地,可以通过优化图像解码器对第二量化特征进行解码处理,由此可以得到原始图像对应的第二重建图像;进一步地,可以确定原始图像与第二重建图像之间的第二误差损失值,通过第二误差损失值即可对分解矩阵进行微调处理,得到分解矩阵对应的微调分解矩阵。
其中,对于通过第一误差损失值对隐式表达特征进行微调处理,得到微调表达特征的具体方式可为:可以对第一误差损失值与隐式表达特征进行梯度计算处理,由此可以得到隐式表达特征对应的第一梯度值;随后,可以通过隐式表达特征对应的第一微调函数与第一梯度值,对隐式表达特征进行微调处理,由此即可得到微调表达特征。
对于将隐式表达特征进行微调处理的具体方式可如公式(6)所示:
公式(6)
其中,如公式(6)所示的可用于表征学习率参数;/>可用于表征误差损失值(如第一误差损失值);/>可用于表征隐式表达特征;/>可用于表征基于第一误差损失值/>求取隐式表达特征/>的梯度值(第一梯度值);/>可用于表征微调表达特征。通过将隐式表达特征减去第一梯度值,即可得到微调表达特征。
可以理解的是,为了进一步提升图像解码器所输出的重建图像(如第一重建图像)的图像质量(即提升图像压缩性能),本申请可以将输入至图像解码器的参数(隐式表达特征)进行微调,由于参数的微调有利于提升图像的率失真性能,使得图像更为清晰,那么通过对隐式表达特征进行微调,也可以提升压缩图像的率失真性能。也就是说,对于图像编码器输出的隐式表达特征,在将其进行量化处理输入至图像解码器前,可以将该隐式表达特征进行微调处理,再将微调后的微调表达特征进行量化处理输入至图像解码器。对于隐式表达特征的微调,可以通过在一次图像编解码处理得到重建图像后,基于原始图像与重建图像之间的误差损失值来进行微调。
进一步地,基于上述可知,将该微调表达特征进行量化得到第二量化特征后,即可输入至优化图像解码器,通过该优化图像解码器可以对该第二量化特征进行又一次地解码处理,由此可以得到原始图像对应的一个新的重建图像(第二重建图像),基于原始图像与该第二重建图像之间的第二误差损失值,即可对该分解矩阵进行微调处理,由此可以得到分解矩阵。对于通过第二误差损失值对分解矩阵进行微调处理,得到分解矩阵对应的微调分解矩阵的具体实现方式可为:可以对第二误差损失值与分解矩阵进行梯度计算处理,由此可以得到分解矩阵对应的第二梯度值;通过分解矩阵对应的第二微调函数与第二梯度值,即可对分解矩阵进行微调处理,得到分解矩阵对应的微调分解矩阵。
其中,由于第二重建图像是引入了增量解码参数后所解码重建得到的图像,所以对于确定原始图像与第二重建图像之间的误差损失值时,还需考虑增量解码参数的影响,对于确定原始图像与第二重建图像之间的第二误差损失值的具体方式可如公式(7)所示:
公式(7)
其中,如公式(7)所示的可用于表征比特率计算函数;/>可用于表征优化图像解码器所接收到的量化特征(如第二量化特征);/>可用于表征量化后的增量参数矩阵(实际可用于表征量化后的分解矩阵);/>可用于表征图像解码器;/>可用于表征优化图像解码器所输出的重建图像(如第二重建图像);/>可用于表征优化图像解码器的初始解码参数;D()可以是指失真衡量函数,可衡量图像重建的失真(即用于衡量相比于原始图像,重建图像的失真程度);/>可用于表征误差损失值(如第一误差损失值);/>可以是控制R-D之间的比例的拉格朗日乘数(可理解为率和失真之间进行权衡的系数)。/>可用于表征分解矩阵对应的概率估计。/>
其中,由于增量解码参数对应的分解矩阵没有先验概率,所以本申请可以采用如公式(8)所示的方法确定出分解矩阵的概率估计,对于确定分解矩阵的概率估计的方式如公式(8)所示:
公式(8)
其中,可用于表征/>的第i(i是元素的位置)个元素;/>是一个均匀的噪声,作为量化的替代;w可以是一个预设的参数。而对于/>的概率估计可如公式(9)所示:
公式(9)
其中,如公式(9)所示的w可以是一个预设的参数,与上述公式(8)所示的w一致;可用于表征π的累积分布函数,其服从如公式(10)的逻辑分布:
公式(10)
其中,如公式(10)所示的即服从的逻辑分布结果;μ、s是预定的参数。本申请中可以设定w =0.01,μ=0,s=0.05。综上所述,通过公式(8)至公式(10)的层层函数代入,可以确定出公式(7)中的/>。
进一步地,基于如公式(7)所示的损失函数,即可确定出原始图像与第二重建图像之间的第二误差损失值,随后即可通过该第二误差损失值对分解矩阵进行微调处理,得到微调分解矩阵。对于将分解矩阵进行微调处理得到微调分解矩阵的具体实现方式可如公式(11)所示:
公式(11)
其中,如公式(11)所示的可用于表征学习率参数;/>可用于表征分解矩阵;/>可用于表征通过公式(7)所确定的误差损失值(如第二误差损失值);/>可用于表征基于第二误差损失值/>求取分解矩阵的梯度值(第二梯度值);/>可用于表征微调分解矩阵。通过将分解矩阵减去第二梯度值,即可得到微调分解矩阵。
需要说明的是,在基于公式(7)的方式确定出第二误差损失值后,除了可以对分解矩阵进行微调优化以外,还可以对门控网络的网络参数进行优化,也就是说,在获取图像编码器在图像编解码处理过程中输出的隐式表达特征后,可以通过隐式表达特征与优化图像解码器对门控网络的网络参数进行优化处理,得到优化网络参数;其中,包含优化网络参数的门控网络,可以用于在获取到目标特征嵌入层在新一轮的图像编解码处理过程中的更新待处理特征后,对更新待处理特征进行二值映射处理,得到目标特征嵌入层对应的更新优化控制值。
基于上述可知,对于通过隐式表达特征与优化图像解码器对门控网络的网络参数进行优化处理,得到优化网络参数的具体实现方式,可为:可以获取通过第一误差损失值对隐式表达特征进行微调处理后所得到的微调表达特征(其具体实现方式可以参见上述描述,这里将不再进行赘述);随后,可以对微调表达特征进行量化处理,得到微调表达特征对应的第二量化特征;通过优化图像解码器可以对第二量化特征进行解码处理,得到原始图像对应的第二重建图像;随后,确定原始图像与第二重建图像之间的第二误差损失值,通过第二误差损失值即可对门控网络的网络参数进行微调处理,得到门控网络的网络参数对应的优化网络参数。
对于通过第二误差损失值对门控网络的网络参数进行微调处理,得到门控网络的网络参数对应的优化网络参数的具体实现方式可为:
公式(12)
其中,如公式(12)所示的可用于表征学习率参数;/>可用于表征误差损失值(如第二误差损失值);/>可用于表征门控网络的网络参数;/>可用于表征基于第二误差损失值/>求取门控网络的网络参数的梯度值(可称之为第三梯度值);/>可用于表征优化网络参数。通过将网络参数减去第三梯度值,即可得到优化网络参数。
步骤S505,将隐式表达特征、分解矩阵对应的微调分解矩阵以及目标特征嵌入层对应的优化控制值发送至解码客户端,以使解码客户端对隐式表达特征、分解矩阵对应的微调分解矩阵以及目标特征嵌入层对应的优化控制值进行解码处理,得到原始图像对应的解码图像。
具体的,可以将隐式表达特征、分解矩阵对应的微调分解矩阵以及目标特征嵌入层对应的优化控制值发送至解码客户端。这里可以先将各个数值分别进行算术编码得到比特流后,再将比特流发送至解码客户端。
对于将隐式表达特征、分解矩阵对应的微调分解矩阵以及目标特征嵌入层对应的优化控制值发送至解码客户端的具体实现方式可为:可以获取通过第一误差损失值对隐式表达特征进行微调处理后所得到的微调表达特征;随后,可以将微调表达特征与微调分解矩阵分别进行量化处理,由此可以得到微调表达特征对应的量化微调特征,以及微调分解矩阵对应的量化微调矩阵;进一步地,可以将量化微调特征、量化微调矩阵以及目标特征嵌入层对应的优化控制值分别进行算术编码处理,由此可以得到量化微调特征对应的第一比特流、量化微调矩阵对应的第二比特流以及优化控制值对应的第三比特流;随后,即可将第一比特流、第二比特流以及第三比特流发送至解码客户端。
应当理解,通过将隐式表达特征与分解矩阵进行微调,可以很好地提升率失真性能,使得所输出的重建图像的质量更高;而通过对增量解码参数进行低秩分解处理,可以很好地减少计算参数量,以及存储空间,由此可以减少数据传输过程中的网络带宽,综上,可以在减小存储空间的同时,较多地减少比特开销与传输带宽。
在本申请实施例中,通过为图像解码器的每个特征嵌入层进行门控网络,可以通过门控网络基于输入至特征嵌入层的特征,来自适应地决定特征嵌入层是否进行参数优化,由此可以准确地将需要进行参数优化的特征嵌入层进行及时参数优化,且对无需进行参数优化的特征嵌入层进行不优化处理,由此可以很好地提升各个特征嵌入层的优化及时性,也可以减少对部分特征嵌入层的多余优化,这不仅利于提升图像解码器的训练效率,还有助于提升优化后的解码器的性能,从而提升图像压缩性能。此外,对于每一个增量解码参数,可以进行低秩分解处理,由此可以减少参数存储空间与比特开销;而通过将各种参数进行微调,也可以提升图像的率失真性能。综上,本申请在为图像解码器进行参数适配时,采用低秩约束来增量更新参数,由此可以减少额外引入的参数量与比特流开销;通过动态门控网络控制某一层是否进行参数更新,可以根据输入特征中要***的块的数量和位置来进行自适应地调整,通过门控网络可以自适应确定每一层的比特流开销,从而可以获得显著的率失真性能提升;此外,通过对各种参数的微调,也可以进一步提升率失真性能,从而提升图像压缩性能。
为更清晰地理解对于图像解码器中参数的适配,以下将进行举例阐述。具体的,对于一个原始图像x0,本申请可以通过图像编码器与图像解码器对其进行一次图像编解码处理,由此可以得到一个重建图像1。其中,在第一次(第一轮)的图像编解码处理过程中,图像编码器可以对原始图像x0进行图像编码处理,得到隐式表达特征y1;随后,图像解码器可以对该量化处理后的隐式表达特征y1进行解码处理,重建得到重建图像1。进一步地,基于该原始图像x0与重建图像1之间的误差损失值,可以对图像解码器进行第一次(第一轮)的优化处理,而在对图像解码器进行优化处理时,可以通过特征嵌入层中每个门控网络的输出值,来决定各个特征嵌入层是否进行参数优化,由此可以得到各个特征嵌入层的优化解码参数(对于某些特征嵌入层,可能未进行优化,对于未进行优化的特征嵌入层,其优化解码参数可以视为初始解码参数,即优化解码参数与初始解码参数是一致的)。随后,可以通过原始图像x0与重建图像2之间的误差损失值对隐式表达特征y1进行微调处理,由此可以得到微调表达特征y1’,随后可以将各个增量解码参数进行低秩分解处理,基于优化后的包含各个分解矩阵的图像解码器,可以对经过量化处理的微调表达特征y1’再次进行解码处理,由此可重建得到新的重建图像2,基于该原始图像x0与重建图像2之间的误差损失值,可以对上述各个特征嵌入层的分解矩阵与门控网络的网络参数进行微调优化,随后可以将微调分解矩阵与特征嵌入层的初始解码参数进行相加,由此得到特征嵌入层最终的优化解码参数,由此即可自适应地实现对图像解码器的一次优化。
随后,通过第一次优化后的图像编码器与图像解码器可以对进行一次图像编解码处理,由此可以得到一个重建图像3。其中,在第二次(第二轮)的图像编解码处理过程中,图像编码器可以对原始图像x0进行图像编码处理,得到隐式表达特征y2;随后,图像解码器可以对该量化处理后的隐式表达特征y2进行解码处理,重建得到重建图像3。进一步地,基于该原始图像x0与重建图像3之间的误差损失值,可以对图像解码器进行第二次(第二轮)的优化处理,而在对图像解码器进行优化处理时,可以通过特征嵌入层中每个门控网络的输出值(此时,门控网络的网络参数也就是第一轮优化后的优化网络参数,这里的输出值是基于优化网络参数来确定的),来决定各个特征嵌入层是否进行参数优化,由此可以得到各个特征嵌入层在第二轮中的优化解码参数(对于某些特征嵌入层,可能未进行优化,对于未进行优化的特征嵌入层,其第二轮中的优化解码参数可以视为初始解码参数(第二轮中,特征嵌入层的初始解码参数可以是指第二轮优化后的优化解码参数),即优化解码参数与初始解码参数是一致的)。随后,可以通过原始图像x0与重建图像3之间的误差损失值对隐式表达特征y2进行微调处理,由此可以得到微调表达特征y2’,随后可以将各个增量解码参数进行低秩分解处理,基于优化后的包含各个分解矩阵的图像解码器,可以对经过量化处理的微调表达特征y2’再次进行解码处理,由此可重建得到新的重建图像3,基于该原始图像x0与重建图像3之间的误差损失值,可以对上述各个特征嵌入层的分解矩阵与门控网络的网络参数进行微调优化,随后可以将微调分解矩阵与特征嵌入层的初始解码参数进行相加,由此得到特征嵌入层最终的优化解码参数,由此即可自适应地实现对图像解码器的一次优化。采用上述原理,可以以此类推对图像解码器进行多轮优化,并对门控网络进行多轮优化,直至满足训练收敛条件(如优化的轮数符合预设值)。其中,本申请可以预设对隐式表达特征的微调轮数(例如,将其设置为2000),也可以预设对图像解码器优化轮数(例如,将其设置为2000)。需要说明的是,本申请可以预先进行100步的优化预热,具体的,可以将前100轮的各个门控网络的输出值均固定为1,由此可以减少在图像解码器的参数适配的起始阶段出现重建性能下降的问题。本申请可以使用Adam优化器以10-3的学习率微调分解矩阵和隐式表达特征,对于门控网络,可以设置学习率为10-5。
综上,对于端到端优化门控网络的网络参数和图像解码器中特征嵌入层的解码参数的具体方式,可如公式(13)所示:
公式(13)
其中,如公式(13)所示的k可用于表征第k层特征嵌入层,K可用于表征特征嵌入层的总数量;可用于表征第k层特征嵌入层的门控网络的输出;/>可用于表征第k层特征嵌入层的分解矩阵的量化值(可以以量化间隔w进行量化映射,得到一个离散值,w可为0.01)。
需要说明的是,对门控网络的输出采用硬门控,使其输出为无效值0或有效值1的标准二值化输出,而在反向传播过程中(即基于损失值对门控网络进行优化的过程中),可以采用软门控进行梯度传播,即如公式(13)所示的的确定方式,可如公式(14)所示:
公式(14)
其中,如公式(14)所示的是指示函数;/>是第k层的门控网络;/>代表停止梯度算子,它在前向传播时正常计算,在反向传播时梯度为0;/>可用于表征第k层的输入特征(即k-1层的层输出特征)。
在引入门控网络对图像解码器的各个特征嵌入层的解码参数进行优化后,对于图像解码器中某个特征嵌入层的层输出可如公式(15)所示:
公式(15)
其中,如公式(15)所示的WK可用于表征第k个特征嵌入层的初始解码参数(即某轮进行参数优化前的解码参数);可用于表征第k个特征嵌入层的增量解码参数(即进行参数优化得到优化解码参数后,与初始解码参数之间的差值);/>可用于表征k个特征嵌入层的门控网络的输出结果;/>可用于表征第k个特征嵌入层的层输出特征(即k+1层的输入特征)。
进一步地,为便于理解,请参见图6,图6是本申请实施例提供的一种服务器与解码端进行数据交互的架构示意图。如图6所述,该架构可以至少包括隐变量微调组件、图像解码器参数适配组件、比特流传输组件以及图像重建组件。以下将对各个组件进行阐述:
隐变量微调组件:隐变量微调组件可以用于对图像编码器得到的隐式表达特征进行微调。其中,如图6所示,对隐式表达特征进行微调的具体过程可包括:图像编码器先对输入的原始图像进行图像编码处理,得到隐式表达特征,随后,可以将量化后的隐式表达特征输入至图像解码器,图像解码器可以对其进行解码重建处理,由此可以输出一个重建图像(如上述第一重建图像),基于原始图像与该重建图像之间的误差损失值(如上述第一误差损失值),即可对该隐式表达特征进行微调处理,得到微调表达特征。
图像解码器适配组件:图像解码器适配组件可以基于隐变量微调组件输出的微调表达特征,对图像解码器中各个特征嵌入层的参数进行优化适配,其中,在对各个特征嵌入层的参数进行优化适配时,可以通过门控网络的输出结果来自适应地控制需要进行参数优化的特征嵌入层。
比特流传输组件:比特流传输组件可以将隐式表达特征(或微调表达特征)、某些特征嵌入层的增量解码参数(实际可为分解矩阵或微调分解矩阵)与每一层的门控网络的输出值(即优化控制值),进行算术编码得到比特流,再将该比特流发送至图像重建组件。其中,在对隐式表达特征(或微调表达特征)与增量解码参数进行算术编码前,可以先将隐式表达特征(或微调表达特征)与增量解码参数分别进行量化处理,再将量化处理后的隐式表达特征(或微调表达特征)与增量解码参数分别进行算术编码处理,对于隐式表达特征(或微调表达特征)经过算术编码后的内容,可以称之为内容流;对于增量解码参数与优化控制值经过算术编码后的内容,可以称之为模型流。该内容流与模型流均为比特流。
图像重建组件:图像重建组件可以对比特流(包括内容流与模型流)进行算术解码处理,从而得到隐式表达特征(或微调表达特征),以及对于图像解码器中,各个特征嵌入层的优化控制值以及增量解码参数,基于各个特征嵌入层的优化控制值以及增量解码参数,可以对隐式表达特征(或微调表达特征)进行解码重建处理,最终得到一个重建图像。
对于隐变量微调组件、图像解码器参数适配组件、比特流传输组件以及图像重建组件的具体实现方式,可以参见上述实施例中的描述,这里将不再进行赘述。其带来的有益效果,也不再进行赘述。
进一步地,请参见图7,图7是本申请实施例提供的一种***逻辑架构图。其中,该***逻辑架构可以至少包括图像编码器、图像解码器以及优化更新组件。以下将对各个组件进行阐述:
图像编码器:图像编码器可以用于对输入的原始图像进行图像编码处理,得到隐式表达特征。其中,对于图像编码器输出的隐式表达特征,可以将其进行量化并进行算术编码处理,而将隐式表达特征进行量化以及算术编码处理得到的比特流,本申请可以将其作为内容流,将其进行算术解码后即可得到量化后的隐式表达特征,图像解码器可以对该量化后的隐式表达特征进行解码重建处理,以得到重建图像。
图像解码器:图像解码器可以用于对量化后的隐式表达特征进行解码重建处理,以得到重建图像。而在图像解码器对量化后的隐式表达特征进行解码重建处理的过程中,图像解码器可以基于解码参数来进行解码重建处理,为了提升图像解码器输出的重建图像的质量,本申请可以基于优化更新组件来对图像解码器的解码参数进行自适应地训练优化。
优化更新组件:优化更新组件可以对图像解码器的解码参数进行自适应地优化更新,自适应控制图像解码器中特征嵌入层的参数优化位置以及层优化数量。也就是说,通过优化更新组件可以自适应确定出图像解码器中进行参数优化的特征嵌入层,以及无需进行参数优化的特征嵌入层,通过上述实施例可知,对于进行了参数优化的特征嵌入层,其门控网络输出的优化控制值为有效值1,且该特征嵌入层包含有增量解码参数对应的分解矩阵;对于未进行参数优化的特征嵌入层,其门控网络输出的优化控制值为无效值0,该特征嵌入层未包含增量解码参数。对于优化更新组件输出的各个特征嵌入层的优化控制值与增量解码参数的分解矩阵(优化控制值为无效值时,可将分解矩阵视为空值),可将其分别进行量化并进行算术编码处理,而将各层的优化控制值与分解矩阵分别进行量化以及算术编码处理得到的比特流,本申请可以将其共同作为模型流,将模型流进行算术解码后即可得到每个特征嵌入层对应的分解矩阵,图像解码器可以基于每个特征嵌入层的初始解码参数,以及分解矩阵来对图像编码器输出的经过量化的隐式表达特征进行解码重建处理,由此得到质量较高的重建图像。
综上,也就是说,本申请提出的图像解码器的参数优化方法,可以在传输内容流的基础上,额外传输一个模型流用于对图像解码器各个特征嵌入层的解码参数进行自适应优化,对于图像解码器而言,可以通过内容流与模型流来输出质量更高的重建图像。
进一步地,请参见图8,图8是本申请实施例提供的一种数据处理装置的结构示意图。该数据处理装置可以是运行于计算机设备中的一个计算机程序(包括程序代码),例如该数据处理装置为一个应用软件;该数据处理装置可以用于执行图3所示的方法。如图8所示,该数据处理装置1可以包括:编解码模块11、特征获取模块12、特征映射模块13以及参数训练模块14。
编解码模块11,用于通过图像编码器与图像解码器对原始图像进行图像编解码处理,得到原始图像对应的第一重建图像;
特征获取模块12,用于获取在图像编解码处理过程中,输入到图像解码器的目标特征嵌入层的待处理特征;
特征映射模块13,用于通过为目标特征嵌入层配置的门控网络对待处理特征进行二值映射处理,得到目标特征嵌入层对应的优化控制值;
参数训练模块14,用于若确定目标特征嵌入层对应的优化控制值为有效值,则通过原始图像与第一重建图像之间的第一误差损失值,对目标特征嵌入层的初始解码参数进行训练优化处理,得到目标特征嵌入层的优化解码参数。
其中,编解码模块11、特征获取模块12、特征映射模块13以及参数训练模块14的具体实现方式,可以参见上述图2所对应实施例中步骤S101-步骤S103的描述,这里将不再进行赘述。
在一个实施例中,由门控网络得到的优化控制值用于反映解码适配性,解码适配性是指目标特征嵌入层的解码参数,与输入到目标特征嵌入层的待处理特征之间的适配性;
当优化控制值为有效值时,表示目标特征嵌入层的解码参数,与针对目标特征嵌入层的待处理特征之间不具备适配性;
当优化控制值为无效值时,表示目标特征嵌入层的解码参数,与针对目标特征嵌入层的待处理特征之间具备适配性。
在一个实施例中,编解码模块11通过图像编码器与图像解码器对原始图像进行图像编解码处理,得到原始图像对应的第一重建图像的具体方式,包括:
通过图像编码器对原始图像进行图像编码处理,得到原始图像对应的隐式表达特征;
对隐式表达特征进行量化处理,得到隐式表达特征对应的第一量化特征;
通过图像解码器对第一量化特征进行解码处理,得到原始图像对应的第一重建图像。
在一个实施例中,在得到目标特征嵌入层的优化解码参数之后,数据处理装置1还包括:增量矩阵确定模块15、矩阵分解模块16、确定模块17、矩阵微调模块18以及发送模块19。
增量矩阵确定模块15,用于确定优化解码参数与初始解码参数之间的增量参数矩阵;
矩阵分解模块16,用于对增量参数矩阵进行低秩分解处理,得到增量参数矩阵对应的分解矩阵;分解矩阵的矩阵维度低于增量参数矩阵的矩阵维度;
确定模块17,用于将包含分解矩阵与初始解码参数的目标特征嵌入层确定为优化特征嵌入层,将包含优化特征嵌入层的图像解码器确定为优化图像解码器;
矩阵微调模块18,用于获取图像编码器在图像编解码处理过程中输出的隐式表达特征,通过隐式表达特征与优化图像解码器对分解矩阵进行微调处理,得到分解矩阵对应的微调分解矩阵;
发送模块19,用于将隐式表达特征、分解矩阵对应的微调分解矩阵以及目标特征嵌入层对应的优化控制值发送至解码客户端,以使解码客户端对隐式表达特征、分解矩阵对应的微调分解矩阵以及目标特征嵌入层对应的优化控制值进行解码处理,得到原始图像对应的解码图像。
其中,增量矩阵确定模块15、矩阵分解模块16、确定模块17、矩阵微调模块18以及发送模块19的具体实现方式,可以参见上述图5所对应实施例中步骤S501-步骤S505的描述,这里将不再进行赘述。
在一个实施例中,矩阵微调模块18通过隐式表达特征与优化图像解码器对分解矩阵进行微调处理,得到分解矩阵对应的微调分解矩阵的具体方式,包括:
通过第一误差损失值对隐式表达特征进行微调处理,得到微调表达特征;
对微调表达特征进行量化处理,得到微调表达特征对应的第二量化特征;
通过优化图像解码器对第二量化特征进行解码处理,得到原始图像对应的第二重建图像;
确定原始图像与第二重建图像之间的第二误差损失值,通过第二误差损失值对分解矩阵进行微调处理,得到分解矩阵对应的微调分解矩阵。
在一个实施例中,矩阵微调模块18通过第一误差损失值对隐式表达特征进行微调处理,得到微调表达特征的具体方式,包括:
对第一误差损失值与隐式表达特征进行梯度计算处理,得到隐式表达特征对应的第一梯度值;
通过隐式表达特征对应的第一微调函数与第一梯度值,对隐式表达特征进行微调处理,得到微调表达特征。
在一个实施例中,矩阵微调模块18通过第二误差损失值对分解矩阵进行微调处理,得到分解矩阵对应的微调分解矩阵的具体方式,包括:
对第二误差损失值与分解矩阵进行梯度计算处理,得到分解矩阵对应的梯度值;
通过分解矩阵对应的第二微调函数与第二梯度值,对分解矩阵进行微调处理,得到分解矩阵对应的微调分解矩阵。
在一个实施例中,发送模块19将隐式表达特征、分解矩阵对应的微调分解矩阵以及目标特征嵌入层对应的优化控制值发送至解码客户端的具体方式,包括:
获取通过第一误差损失值对隐式表达特征进行微调处理后所得到的微调表达特征;
将微调表达特征与微调分解矩阵分别进行量化处理,得到微调表达特征对应的量化微调特征,以及微调分解矩阵对应的量化微调矩阵;
将量化微调特征、量化微调矩阵以及目标特征嵌入层对应的优化控制值分别进行算术编码处理,得到量化微调特征对应的第一比特流、量化微调矩阵对应的第二比特流以及优化控制值对应的第三比特流;
将第一比特流、第二比特流以及第三比特流发送至解码客户端。
在一个实施例中,特征获取模块12获取图像编解码处理过程中,输入到图像解码器的目标特征嵌入层的待处理特征的具体方式,包括:
获取图像解码器中用于进行特征嵌入处理的特征嵌入网络;特征嵌入网络由特征嵌入层序列所组成,特征嵌入层序列包括目标特征嵌入层;
在目标特征嵌入层位于特征嵌入层序列的序列起始位置时,将图像编码器在图像编解码处理过程中输出的隐式表达特征进行量化处理,得到第一量化特征,将第一量化特征确定为目标特征嵌入层在图像编解码处理过程中的待处理特征;
在目标特征嵌入层位于特征嵌入层序列的序列非起始位置时,将特征嵌入层序列中目标特征嵌入层的上一个特征嵌入层,在图像编解码处理过程中的层输出特征,确定为目标特征嵌入层在图像编解码处理过程中的待处理特征。
在一个实施例中,在获取图像编码器在图像编解码处理过程中输出的隐式表达特征后,数据处理装置1还包括:网络参数优化模块20。
网络参数优化模块20,用于通过隐式表达特征与优化图像解码器对门控网络的网络参数进行优化处理,得到优化网络参数;包含优化网络参数的门控网络,用于在获取到目标特征嵌入层在新一轮的图像编解码处理过程中的更新待处理特征后,对更新待处理特征进行二值映射处理,得到目标特征嵌入层对应的更新优化控制值。
其中,网络参数优化模块20的具体实现方式,可以参见上述图5所对应实施例中步骤S504中的描述,这里将不再进行赘述。
在一个实施例中,网络参数优化模块20通过隐式表达特征与优化图像解码器对门控网络的网络参数进行优化处理,得到优化网络参数的具体方式,包括:
获取通过第一误差损失值对隐式表达特征进行微调处理后所得到的微调表达特征;
对微调表达特征进行量化处理,得到微调表达特征对应的第二量化特征;
通过优化图像解码器对第二量化特征进行解码处理,得到原始图像对应的第二重建图像;
确定原始图像与第二重建图像之间的第二误差损失值,通过第二误差损失值对门控网络的网络参数进行微调处理,得到门控网络的网络参数对应的优化网络参数。
在本申请实施例中,在为图像解码器进行参数适配时,采用低秩约束来增量更新参数,由此可以减少额外引入的参数量与比特流开销;通过动态门控网络控制某一层是否进行参数更新,可以根据输入特征中要***的块的数量和位置来进行自适应地调整,通过门控网络可以自适应确定每一层的比特流开销,从而可以获得显著的率失真性能提升;此外,通过对各种参数的微调,也可以进一步提升率失真性能,从而提升图像压缩性能。
进一步地,请参见图9,图9是本申请实施例提供的一种计算机设备的结构示意图。如图9所示,上述计算机设备8000可以包括:处理器8001,网络接口8004和存储器8005,此外,上述计算机设备8000还包括:用户接口8003,和至少一个通信总线8002。其中,通信总线8002用于实现这些组件之间的连接通信。其中,用户接口8003可以包括显示屏(Display)、键盘(Keyboard),可选用户接口8003还可以包括标准的有线接口、无线接口。网络接口8004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器8005可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。存储器8005可选的还可以是至少一个位于远离前述处理器8001的存储装置。如图9所示,作为一种计算机可读存储介质的存储器8005中可以包括操作***、网络通信模块、用户接口模块以及设备控制应用程序。
在图9所示的计算机设备8000中,网络接口8004可提供网络通讯功能;而用户接口8003主要用于为用户提供输入的接口;而处理器8001可以用于调用存储器8005中存储的设备控制应用程序,以实现:
通过图像编码器与图像解码器对原始图像进行图像编解码处理,得到原始图像对应的第一重建图像;
获取在图像编解码处理过程中,输入到图像解码器的目标特征嵌入层的待处理特征,通过为目标特征嵌入层配置的门控网络对待处理特征进行二值映射处理,得到目标特征嵌入层对应的优化控制值;
若确定目标特征嵌入层对应的优化控制值为有效值,则通过原始图像与第一重建图像之间的第一误差损失值,对目标特征嵌入层的初始解码参数进行训练优化处理,得到目标特征嵌入层的优化解码参数。
应当理解,本申请实施例中所描述的计算机设备8000可执行前文图2-图5所对应实施例中对该数据处理方法的描述,也可执行前文图8所对应实施例中对该数据处理装置1的描述,在此不再赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。
此外,这里需要指出的是:本申请实施例还提供了一种计算机可读存储介质,且上述计算机可读存储介质中存储有前文提及的数据处理的计算机设备8000所执行的计算机程序,且上述计算机程序包括程序指令,当上述处理器执行上述程序指令时,能够执行前文图2到图5所对应实施例中对上述数据处理方法的描述,因此,这里将不再进行赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。对于本申请所涉及的计算机可读存储介质实施例中未披露的技术细节,请参照本申请方法实施例的描述。
上述计算机可读存储介质可以是前述任一实施例提供的数据处理装置或者上述计算机设备的内部存储单元,例如计算机设备的硬盘或内存。该计算机可读存储介质也可以是该计算机设备的外部存储设备,例如该计算机设备上配备的插接式硬盘,智能存储卡(smart media card,SMC),安全数字(secure digital, SD)卡,闪存卡(flash card)等。进一步地,该计算机可读存储介质还可以既包括该计算机设备的内部存储单元也包括外部存储设备。该计算机可读存储介质用于存储该计算机程序以及该计算机设备所需的其他程序和数据。该计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。
本申请的一个方面,提供了一种计算机程序产品,该计算机程序产品包括计算机程序,该计算机程序存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机程序,处理器执行该计算机程序,使得该计算机设备执行本申请实施例中一方面提供的方法。
本申请实施例的说明书和权利要求书及附图中的术语“第一”、“第二”等是用于区别不同对象,而非用于描述特定顺序。此外,术语“包括”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、装置、产品或设备没有限定于已列出的步骤或模块,而是可选地还包括没有列出的步骤或模块,或可选地还包括对于这些过程、方法、装置、产品或设备固有的其他步骤单元。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
本申请实施例提供的方法及相关装置是参照本申请实施例提供的方法流程图和/或结构示意图来描述的,具体可由计算机程序指令实现方法流程图和/或结构示意图的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。这些计算机程序指令可提供到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或结构示意图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或结构示意图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或结构示意一个方框或多个方框中指定的功能的步骤。
以上所揭露的仅为本申请较佳实施例而已,当然不能以此来限定本申请之权利范围,因此依本申请权利要求所作的等同变化,仍属本申请所涵盖的范围。
Claims (14)
1.一种数据处理方法,其特征在于,包括:
通过图像编码器与图像解码器对原始图像进行图像编解码处理,得到所述原始图像对应的第一重建图像;
获取在所述图像编解码处理过程中,输入到所述图像解码器的目标特征嵌入层的待处理特征,通过为所述目标特征嵌入层配置的门控网络对所述待处理特征进行二值映射处理,得到所述目标特征嵌入层对应的优化控制值;
若确定所述目标特征嵌入层对应的优化控制值为有效值,则通过所述原始图像与所述第一重建图像之间的第一误差损失值,对所述目标特征嵌入层的初始解码参数进行训练优化处理,得到所述目标特征嵌入层的优化解码参数。
2.根据权利要求1所述的方法,其特征在于,由所述门控网络得到的优化控制值用于反映解码适配性,所述解码适配性是指所述目标特征嵌入层的解码参数,与输入到所述目标特征嵌入层的待处理特征之间的适配性;
当优化控制值为有效值时,表示所述目标特征嵌入层的解码参数,与针对所述目标特征嵌入层的待处理特征之间不具备适配性;
当优化控制值为无效值时,表示所述目标特征嵌入层的解码参数,与针对所述目标特征嵌入层的待处理特征之间具备适配性。
3.根据权利要求1所述的方法,其特征在于,所述通过图像编码器与图像解码器对原始图像进行图像编解码处理,得到所述原始图像对应的第一重建图像,包括:
通过所述图像编码器对所述原始图像进行图像编码处理,得到所述原始图像对应的隐式表达特征;
对所述隐式表达特征进行量化处理,得到所述隐式表达特征对应的第一量化特征;
通过所述图像解码器对所述第一量化特征进行解码处理,得到所述原始图像对应的第一重建图像。
4.根据权利要求1所述的方法,其特征在于,在得到所述目标特征嵌入层的优化解码参数之后,所述方法还包括:
确定所述优化解码参数与所述初始解码参数之间的增量参数矩阵;
对所述增量参数矩阵进行低秩分解处理,得到所述增量参数矩阵对应的分解矩阵;所述分解矩阵的矩阵维度低于所述增量参数矩阵的矩阵维度;
将包含所述分解矩阵与所述初始解码参数的目标特征嵌入层确定为优化特征嵌入层,将包含所述优化特征嵌入层的图像解码器确定为优化图像解码器;
获取所述图像编码器在所述图像编解码处理过程中输出的隐式表达特征,通过所述隐式表达特征与所述优化图像解码器对所述分解矩阵进行微调处理,得到所述分解矩阵对应的微调分解矩阵;
将所述隐式表达特征、所述分解矩阵对应的微调分解矩阵以及所述目标特征嵌入层对应的优化控制值发送至解码客户端,以使所述解码客户端对所述隐式表达特征、所述分解矩阵对应的微调分解矩阵以及所述目标特征嵌入层对应的优化控制值进行解码处理,得到所述原始图像对应的解码图像。
5.根据权利要求4所述的方法,其特征在于,所述通过所述隐式表达特征与所述优化图像解码器对所述分解矩阵进行微调处理,得到所述分解矩阵对应的微调分解矩阵,包括:
通过所述第一误差损失值对所述隐式表达特征进行微调处理,得到微调表达特征;
对所述微调表达特征进行量化处理,得到所述微调表达特征对应的第二量化特征;
通过所述优化图像解码器对所述第二量化特征进行解码处理,得到所述原始图像对应的第二重建图像;
确定所述原始图像与所述第二重建图像之间的第二误差损失值,通过所述第二误差损失值对所述分解矩阵进行微调处理,得到所述分解矩阵对应的微调分解矩阵。
6.根据权利要求5所述的方法,其特征在于,所述通过所述第一误差损失值对所述隐式表达特征进行微调处理,得到微调表达特征,包括:
对所述第一误差损失值与所述隐式表达特征进行梯度计算处理,得到所述隐式表达特征对应的第一梯度值;
通过所述隐式表达特征对应的第一微调函数与所述第一梯度值,对所述隐式表达特征进行微调处理,得到微调表达特征。
7.根据权利要求5所述的方法,其特征在于,所述通过所述第二误差损失值对所述分解矩阵进行微调处理,得到所述分解矩阵对应的微调分解矩阵,包括:
对所述第二误差损失值与所述分解矩阵进行梯度计算处理,得到所述分解矩阵对应的第二梯度值;
通过所述分解矩阵对应的第二微调函数与所述第二梯度值,对所述分解矩阵进行微调处理,得到所述分解矩阵对应的微调分解矩阵。
8.根据权利要求4所述的方法,其特征在于,所述将所述隐式表达特征、所述分解矩阵对应的微调分解矩阵以及所述目标特征嵌入层对应的优化控制值发送至解码客户端,包括:
获取通过所述第一误差损失值对所述隐式表达特征进行微调处理后所得到的微调表达特征;
将所述微调表达特征与所述微调分解矩阵分别进行量化处理,得到所述微调表达特征对应的量化微调特征,以及所述微调分解矩阵对应的量化微调矩阵;
将所述量化微调特征、所述量化微调矩阵以及所述目标特征嵌入层对应的优化控制值分别进行算术编码处理,得到所述量化微调特征对应的第一比特流、所述量化微调矩阵对应的第二比特流以及所述优化控制值对应的第三比特流;
将所述第一比特流、所述第二比特流以及所述第三比特流发送至解码客户端。
9.根据权利要求1所述的方法,其特征在于,所述获取在所述图像编解码处理过程中,输入到所述图像解码器的目标特征嵌入层的待处理特征,包括:
获取所述图像解码器中用于进行特征嵌入处理的特征嵌入网络;所述特征嵌入网络由特征嵌入层序列所组成,所述特征嵌入层序列包括所述目标特征嵌入层;
在所述目标特征嵌入层位于所述特征嵌入层序列的序列起始位置时,将所述图像编码器在所述图像编解码处理过程中输出的隐式表达特征进行量化处理,得到第一量化特征,将所述第一量化特征确定为所述目标特征嵌入层在所述图像编解码处理过程中的待处理特征;
在所述目标特征嵌入层位于所述特征嵌入层序列的序列非起始位置时,将所述特征嵌入层序列中所述目标特征嵌入层的上一个特征嵌入层,在所述图像编解码处理过程中的层输出特征,确定为所述目标特征嵌入层在所述图像编解码处理过程中的待处理特征。
10.根据权利要求4所述的方法,其特征在于,在获取所述图像编码器在所述图像编解码处理过程中输出的隐式表达特征后,所述方法还包括:
通过所述隐式表达特征与所述优化图像解码器对所述门控网络的网络参数进行优化处理,得到优化网络参数;包含所述优化网络参数的门控网络,用于在获取到所述目标特征嵌入层在新一轮的图像编解码处理过程中的更新待处理特征后,对所述更新待处理特征进行二值映射处理,得到所述目标特征嵌入层对应的更新优化控制值。
11.根据权利要求10所述的方法,其特征在于,所述通过所述隐式表达特征与所述优化图像解码器对所述门控网络的网络参数进行优化处理,得到优化网络参数,包括:
获取通过所述第一误差损失值对所述隐式表达特征进行微调处理后所得到的微调表达特征;
对所述微调表达特征进行量化处理,得到所述微调表达特征对应的第二量化特征;
通过所述优化图像解码器对所述第二量化特征进行解码处理,得到所述原始图像对应的第二重建图像;
确定所述原始图像与所述第二重建图像之间的第二误差损失值,通过所述第二误差损失值对所述门控网络的网络参数进行微调处理,得到所述门控网络的网络参数对应的优化网络参数。
12.一种数据处理装置,其特征在于,包括:
编解码模块,用于通过图像编码器与图像解码器对原始图像进行图像编解码处理,得到所述原始图像对应的第一重建图像;
特征获取模块,用于获取在所述图像编解码处理过程中,输入到所述图像解码器的目标特征嵌入层的待处理特征;
特征映射模块,用于通过为所述目标特征嵌入层配置的门控网络对所述待处理特征进行二值映射处理,得到所述目标特征嵌入层对应的优化控制值;
参数训练模块,用于若确定所述目标特征嵌入层对应的优化控制值为有效值,则通过所述原始图像与所述第一重建图像之间的第一误差损失值,对所述目标特征嵌入层的初始解码参数进行训练优化处理,得到所述目标特征嵌入层的优化解码参数。
13.一种计算机设备,其特征在于,包括:处理器、存储器以及网络接口;
所述处理器与所述存储器、所述网络接口相连,其中,所述网络接口用于提供网络通信功能,所述存储器用于存储计算机程序,所述处理器用于调用所述计算机程序,以使所述计算机设备执行权利要求1-11任一项所述的方法。
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,所述计算机程序适于由处理器加载并执行权利要求1-11任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310885764.2A CN116614637B (zh) | 2023-07-19 | 2023-07-19 | 一种数据处理方法、装置、设备以及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310885764.2A CN116614637B (zh) | 2023-07-19 | 2023-07-19 | 一种数据处理方法、装置、设备以及可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116614637A CN116614637A (zh) | 2023-08-18 |
CN116614637B true CN116614637B (zh) | 2023-09-12 |
Family
ID=87676850
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310885764.2A Active CN116614637B (zh) | 2023-07-19 | 2023-07-19 | 一种数据处理方法、装置、设备以及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116614637B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117421199B (zh) * | 2023-12-19 | 2024-04-02 | 湖南三湘银行股份有限公司 | 一种行为确定方法及*** |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109996071A (zh) * | 2019-03-27 | 2019-07-09 | 上海交通大学 | 基于深度学习的可变码率图像编码、解码***及方法 |
CN110769263A (zh) * | 2019-11-01 | 2020-02-07 | 合肥图鸭信息科技有限公司 | 一种图像压缩方法、装置及终端设备 |
CN111667006A (zh) * | 2020-06-06 | 2020-09-15 | 大连民族大学 | 一种基于AttGan模型生成家族字体的方法 |
CN112991192A (zh) * | 2019-12-18 | 2021-06-18 | 杭州海康威视数字技术股份有限公司 | 图像处理方法、装置、设备及其*** |
US11153566B1 (en) * | 2020-05-23 | 2021-10-19 | Tsinghua University | Variable bit rate generative compression method based on adversarial learning |
WO2022235785A1 (en) * | 2021-05-04 | 2022-11-10 | Innopeak Technology, Inc. | Neural network architecture for image restoration in under-display cameras |
WO2023031632A1 (en) * | 2021-09-06 | 2023-03-09 | Imperial College Innovations Ltd | Encoder, decoder and communication system and method for conveying sequences of correlated data items from an information source across a communication channel using joint source and channel coding, and method of training an encoder neural network and decoder neural network for use in a communication system |
CN116233445A (zh) * | 2023-05-10 | 2023-06-06 | 腾讯科技(深圳)有限公司 | 视频的编解码处理方法、装置、计算机设备和存储介质 |
CN116320435A (zh) * | 2023-03-20 | 2023-06-23 | 北京计算机技术及应用研究所 | 一种面向视觉分析的图像压缩方法和*** |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10999606B2 (en) * | 2019-01-08 | 2021-05-04 | Intel Corporation | Method and system of neural network loop filtering for video coding |
CN113132723B (zh) * | 2019-12-31 | 2023-11-14 | 武汉Tcl集团工业研究院有限公司 | 一种图像压缩方法及装置 |
US11849118B2 (en) * | 2021-04-30 | 2023-12-19 | Tencent America LLC | Content-adaptive online training with image substitution in neural image compression |
-
2023
- 2023-07-19 CN CN202310885764.2A patent/CN116614637B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109996071A (zh) * | 2019-03-27 | 2019-07-09 | 上海交通大学 | 基于深度学习的可变码率图像编码、解码***及方法 |
CN110769263A (zh) * | 2019-11-01 | 2020-02-07 | 合肥图鸭信息科技有限公司 | 一种图像压缩方法、装置及终端设备 |
CN112991192A (zh) * | 2019-12-18 | 2021-06-18 | 杭州海康威视数字技术股份有限公司 | 图像处理方法、装置、设备及其*** |
US11153566B1 (en) * | 2020-05-23 | 2021-10-19 | Tsinghua University | Variable bit rate generative compression method based on adversarial learning |
CN111667006A (zh) * | 2020-06-06 | 2020-09-15 | 大连民族大学 | 一种基于AttGan模型生成家族字体的方法 |
WO2022235785A1 (en) * | 2021-05-04 | 2022-11-10 | Innopeak Technology, Inc. | Neural network architecture for image restoration in under-display cameras |
WO2023031632A1 (en) * | 2021-09-06 | 2023-03-09 | Imperial College Innovations Ltd | Encoder, decoder and communication system and method for conveying sequences of correlated data items from an information source across a communication channel using joint source and channel coding, and method of training an encoder neural network and decoder neural network for use in a communication system |
CN116320435A (zh) * | 2023-03-20 | 2023-06-23 | 北京计算机技术及应用研究所 | 一种面向视觉分析的图像压缩方法和*** |
CN116233445A (zh) * | 2023-05-10 | 2023-06-06 | 腾讯科技(深圳)有限公司 | 视频的编解码处理方法、装置、计算机设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN116614637A (zh) | 2023-08-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110262819B (zh) | 一种联邦学习的模型参数更新方法及装置 | |
US10599935B2 (en) | Processing artificial neural network weights | |
US11756561B2 (en) | Speech coding using content latent embedding vectors and speaker latent embedding vectors | |
CN111641832B (zh) | 编码方法、解码方法、装置、电子设备及存储介质 | |
US11057634B2 (en) | Content adaptive optimization for neural data compression | |
CN110892419B (zh) | 停止码容忍的图像压缩神经网络 | |
CN116614637B (zh) | 一种数据处理方法、装置、设备以及可读存储介质 | |
CN113132723B (zh) | 一种图像压缩方法及装置 | |
CN110753225A (zh) | 一种视频压缩方法、装置及终端设备 | |
CN111641826B (zh) | 对数据进行编码、解码的方法、装置与*** | |
US11990148B2 (en) | Compressing audio waveforms using neural networks and vector quantizers | |
CN113450421A (zh) | 一种基于增强深度学习的无人机侦察图像压缩与解压方法 | |
CN116600119B (zh) | 视频编码、解码方法、装置、计算机设备和存储介质 | |
CN111161363A (zh) | 一种图像编码模型训练方法及装置 | |
EP4229632A1 (en) | Signal coding using a generative model and latent domain quantization | |
CN113554719A (zh) | 一种图像编码方法、解码方法、存储介质及终端设备 | |
AU2022279597B2 (en) | Training rate control neural networks through reinforcement learning | |
US20230306239A1 (en) | Online training-based encoder tuning in neural image compression | |
US20230316588A1 (en) | Online training-based encoder tuning with multi model selection in neural image compression | |
CN117459727B (zh) | 一种图像处理方法、装置、***、电子设备及存储介质 | |
CN118354081A (zh) | 图像压缩方法、装置、终端设备及存储介质 | |
CN115714627A (zh) | 自适应语义通信传输方法及电子设备 | |
CN116917987A (zh) | 使用可变率离散表示生成输出信号 | |
CN118035624A (zh) | 一种大语言模型的低秩适配量化微调方法及装置 | |
WO2023283184A1 (en) | Video compression using optical flow |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40091033 Country of ref document: HK |