CN114745556B - 编码方法、装置、数字视网膜***、电子设备及存储介质 - Google Patents
编码方法、装置、数字视网膜***、电子设备及存储介质 Download PDFInfo
- Publication number
- CN114745556B CN114745556B CN202210116024.8A CN202210116024A CN114745556B CN 114745556 B CN114745556 B CN 114745556B CN 202210116024 A CN202210116024 A CN 202210116024A CN 114745556 B CN114745556 B CN 114745556B
- Authority
- CN
- China
- Prior art keywords
- data
- image
- feature
- encoded
- optimal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 64
- 210000001525 retina Anatomy 0.000 title claims abstract description 34
- 238000012545 processing Methods 0.000 claims abstract description 60
- 238000005516 engineering process Methods 0.000 claims abstract description 24
- 238000013507 mapping Methods 0.000 claims abstract description 11
- 238000012549 training Methods 0.000 claims description 33
- 230000002207 retinal effect Effects 0.000 claims description 15
- 238000004590 computer program Methods 0.000 claims description 9
- 230000000875 corresponding effect Effects 0.000 description 48
- 238000000605 extraction Methods 0.000 description 25
- 230000006835 compression Effects 0.000 description 17
- 238000007906 compression Methods 0.000 description 17
- 230000008569 process Effects 0.000 description 11
- 238000010586 diagram Methods 0.000 description 8
- 239000011159 matrix material Substances 0.000 description 6
- 230000009466 transformation Effects 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 5
- 239000000284 extract Substances 0.000 description 5
- 238000013139 quantization Methods 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 210000004556 brain Anatomy 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000002596 correlated effect Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000008827 biological function Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/60—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/134—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
- H04N19/157—Assigned coding mode, i.e. the coding mode being predefined or preselected to be further used for selection of another element or parameter
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/60—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
- H04N19/625—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding using discrete cosine transform [DCT]
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- Discrete Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
本申请提出一种基于数字视网膜技术的编码方法、***、电子设备及存储介质,该编码方法应用于数字视网膜***的前端设备,包括:获取待编码的图像数据;基于训练好的特征处理模型,对待编码的图像数据进行特征数据的提取和最优变换器的选择;特征处理模型预设有特征数据与对应最优变换器的映射关系,以根据特征数据确定最优变换器;特征数据包括用于描述待编码图像的运动特性的数据;基于最优变换器对待编码图像进行编码。本申请能够自动生成最优的变换器,并基于该最优变换器对视频数据进行编码,提高音视频编码的速度和质量。
Description
技术领域
本申请属于数字视网膜技术领域,具体涉及一种基于数字视网膜技术的编码方法、装置、数字视网膜***、电子设备及存储介质。
背景技术
近年来,随着数字视网膜技术的不断发展,其已在视频编解码、视频监控等领域引起了较大的关注。在传统的图像处理领域,视频压缩和视频分析分属不同的两个领域,而数字视网膜技术受人类视网膜的生物学功能启发,率先提出了视频压缩、视频分析一体化的智能图像传感器,其拥有一定的AI处理能力,能够对识别到的车、人、场景主动进行特征提取。具体而言,数字视网膜的特点在于能够同时获得视频压缩数据和视频特征数据,并可以通过数据流将图像信息传送至云端,便于后期的回放和检索。
在视频压缩方面,基本的理念是通过各种计算来压缩视频的时空冗余信息。在基于运动矢量预测的视频压缩方法中,基于视频数据中存在较高的时空相关性,通常使用变换器对预测残差值(即预测的残差值)进行进一步的压缩。也就是说预测残差值的能量往往集中在低频数据,而高频数据则相对较少。通过变换器,例如DCT、DFT、Wavelet等变换器,可以将预测残差值变换至频域,进而使得信号得到进一步的压缩。然而,变换器的计算量也相对较高,因此在不同的情况下可以选取不同的变换策略来进一步节约计算开销。例如如果当前块为静止图像,则整个变换器和量化器可以被省略掉,这种技术在H.264标准被引入,被称为skip模式;再或者,在图像相对静止的区域,也可以使用仅省略变换器而直接对空域信号进行量化的方法;再或者,在图像相对静止时,采用低复杂度的量化器。
但是,变换器的选择在传统的视频编解码技术中只能基于简单的运算,例如通过计算残差值的大小,如此,不仅增加了视频编解码过程中的计算量,还可能会选择出错误的变换器,从而造成重建质量的下降。
发明内容
本申请提出一种基于数字视网膜技术的编码方法、***、电子设设备及存储介质,能够自动生成最优的变换器,并基于该最优变换器对视频数据进行编码,提高音视频编码的速度和质量。
本申请第一方面实施例提出了一种基于数字视网膜技术的编码方法,其特征在于,应用于数字视网膜***的前端设备,所述方法包括:
获取待编码的图像数据;
基于训练好的特征处理模型,对所述待编码的图像数据进行特征数据的提取和最优变换器的选择;所述变换器选择特征处理模型预设有所述特征数据与对应最优变换器的映射关系,以根据所述特征数据确定所述最优变换器;所述特征数据包括用于描述待编码图像的运动特性的数据;
基于所述最优变换器对待编码图像进行编码。
可选地,基于训练好的特征处理模型,对所述待编码的图像数据进行特征数据的提取和最优变换器的选择之前,还包括:
基于历史编码数据,生成模型训练集;所述模型训练集包括多个由图像特征和对应的最优变换器组成的数据组;
使用所述模型训练集通过监督学习的方式训练所述变换器选择特征处理模型。
可选地,基于历史编码数据,生成模型训练集,包括:
基于历史编码数据,生成目标图像的原始数据集;所述目标图像为任意历史图像;
基于所述原始数据集,生成所述目标图像基于各种变换器得到的相应的压缩图像的压缩数据集;
根据所述原始数据集和各压缩数据集,计算目标图像和基于各变换器处理后得到的压缩图像之间的重建误差值;
确定最小重建误差值对应的变换器为所述目标图像的最优变换器,并基于每个目标图像的原始数据集和对应的最优变换器,形成模型训练集。
可选地,基于历史编码数据,生成目标图像的原始数据集,包括:
基于历史编码数据,按预设尺寸将每个目标图像划分为多组宏块,对应每组宏块生成相应的数据组,并对应每个目标图像生成子数据集{x1,x2,…xm},该子数据集可理解为上述特征数据组成的集合;其中,xi表示第i组宏块的数据组;
基于所有目标图像的子数据集{x1,x2,…xm},形成目标图像的原始数据集{X1,X2,…Xn},其中,Xi表示第i个目标图像的子数据集。
可选地,基于历史编码数据,生成目标图像的原始数据集,包括:
根据接收到的任务指令,自所述历史编码数据中确定所述任务指令对应的目标图像;
根据所述目标图像对应的历史编码数据生成原始数据集。
可选地,所述特征数据还包括所述待编码图像预测残差值。
可选地,所述特征数据与对应最优变换器的映射关系,包括:
若特征数据表征图像中的区域为远景背景,则对应的最优变换器为第一变换器;若特征数据表征图像中的区域为移动目标,则对应的最优变换器为第二变换器;其中,所述第一变换器的复杂度低于所述第二变换器的复杂度。
可选地,基于所述最优变换器对待编码图像进行编码,提取待编码图像的特征数据之后,所述方法还包括:
将所述特征数据和待编码图像的原始数据及编码后数据均发送至所述数字视网膜***的后端设备,以供所述后端设备对所述特征数据和待编码图像的原始数据及编码后数据进行保存和对所述变换器选择特征处理模型进行优化更新;
接收所述后端设备发送的实时更新的变换器选择特征处理模型。
本申请第二方面的实施例提供了一种基于数字视网膜技术的编码装置,所述装置包括:
图像获取模块,用于获取待编码的图像数据;
特征处理模块,用于基于训练好的特征处理模型,对所述待编码的图像数据进行特征数据的提取和最优变换器的选择;所述变换器选择特征处理模型预设有所述特征数据与对应最优变换器的映射关系,以根据所述特征数据确定所述最优变换器;所述特征数据包括用于描述待编码图像的运动特性的数据;
编码模块,用于基于所述最优变换器对待编码图像进行编码。
本申请第三方面的实施例提供了一种数字视网膜***,包括前端设备和后端设备,所述前端设备包括第二方面所述的编码装置。
本申请第四方面的实施例提供了一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器运行所述计算机程序以实现如第一方面所述的方法。
本申请第五方面的实施例提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行实现如第一方面所述的方法。
本申请实施例中提供的技术方案,至少具有如下技术效果或优点:
本申请实施例提供的基于数字视网膜技术的编码方法,应用于数字视网膜***的前端设备,可以基于数字视网膜技术对图像数据进行特征提取,并在进行特征提取后,还可以根据识别的特征数据选择最优的变换器,并基于该最优变换器进行编解码,编解码过程中对预测残差值的计算误差较小,压缩速度和压缩质量更好,从而可提高音视频编码的速度和质量。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本申请的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本申请实施例提出的一种基于数字视网膜技术的编码方法的流程示意图;
图2示出了一种传统的基于运动预测和补偿的视频压缩编码方法的流程示意图;
图3示出了一种可自适应改变量化器和编码器选择的视频压缩编码方法的流程示意图;
图4a示出了4*4的DCT变换矩阵示意图;
图4b、4c、4d分别示出了三种稀疏DCT矩阵示意图;
图5示出了数字视网膜***实际运行时其前端设备完成特征提取和变换器选择的原理示意图;
图6示出了本申请实施例提出的一种基于数字视网膜技术的编码装置的结构示意图;
图7a本申请实施例提供的编码装置的具体结构示意图一;
图7b本申请实施例提供的编码装置的具体结构示意图一;
图8示出了本申请实施例提供的一种数字视网膜***的结构示意图。
具体实施方式
下面将参照附图更详细地描述本申请的示例性实施方式。虽然附图中显示了本申请的示例性实施方式,然而应当理解,可以以各种形式实现本申请而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了能够更透彻地理解本申请,并且能够将本申请的范围完整的传达给本领域的技术人员。
需要注意的是,除非另有说明,本申请使用的技术术语或者科学术语应当为本申请所属领域技术人员所理解的通常意义。
下面结合附图来描述根据本申请实施例提出的一种基于数字视网膜技术的编码方法、装置、设备及存储介质,其中,基于数字视网膜技术的编码方法可应用于数字视网膜***,通常情况下,数字视网膜***包括前端设备和后端设备,其中前端设备可类似于人的眼睛,用于采集并向后端设备传输图像数据,且其还具有特征提取能力,可以根据预设的特征处理模型特征提取模型提取图像数据中的特征数据,并将特征数据也传输至后端设备。后端设备可类似于人的大脑,用于接收并存储上述图像数据,以及对特征数据进行分析,并结合众多图像数据和对应的特征数据对特征处理模型特征提取模型进行更新修正,然后可将更新后的特征处理模型特征提取模型及时发送至前端设备。该基于数字视网膜技术的编码方法具体可应用于上述前端设备(可以是前端设备整体,也可以是前端设备具有编码功能的部件),可以对图像数据进行特征提取和编解码,且应用本实施例提供的基于数字视网膜技术的编码方法,在进行特征提取后,还可以根据识别的特征数据选择最优的变换器,以能够基于该最优变换器进行编解码,从而提高音视频编码的速度和质量。
如图1所示,本实施例提供的基于数字视网膜技术的编码方法可以包括以下步骤:
步骤S1,获取待编码的图像数据。
步骤S2,基于训练好的特征处理模型,对所述待编码的图像数据进行特征数据的提取和最优变换器的选择;所述变换器选择特征处理模型预设有所述特征数据与对应最优变换器的映射关系,以根据所述特征数据确定所述最优变换器;所述特征数据包括用于描述待编码图像的运动特性的数据。
其中,待编码图像可以为上述前端设备采集的任意图像数据。特征数据可以理解为自图像数据中提取的能够表征图像特性的数据,其可以直接决定变换器的最优选择,例如可以为图像的运动属性(像背景的静止图或移动目标的动作图),一个块如果属于背景部分,则该块的变换器可以被省略,即使用skip模式,以能够同时满足低复杂度和高重建质量;而如果一个块属于运动目标,则即使使用完整的DCT变换和帧内预测也可能造成重建质量的下降。
在本实施例中,基于数字视网膜技术的编码装置进行特征提取时,可以使用传统的人工定制的特征提取,也可以基于深度学习的模型提取,本实施例对此不作具体限定。
最优变换器可以理解为采用该变换器将空域图像数据变换为时域图像数据时,预测残差值最小。上述特征数据与对应最优变换器的映射关系可根据诸多历史数据(对应每张图像具有一组数据,改组数据可包括图像的原始数据、特征数据、经过各变换器变换后的预测残差值以及实际残差值等)通过神经网络模型学习得出。
具体地,特征数据还可以包括待编码图像的预测残差值,即该待编码图像的运动补偿后的残差数据,其可以直接体现图像的运动特性,以能够获得更为优选的变换器。
于本实施例一具体实施方式中,上述特征数据与对应最优变换器的映射关系,可以包括:若特征数据表征图像中的区域为远景背景,则对应的最优变换器为第一变换器;若特征数据表征图像中的区域为移动目标,则对应的最优变换器为第二变换器。其中,第一变换器的复杂度低于第二变换器的复杂度。
如图2所示,为一种传统的基于运动预测和补偿的视频压缩编码方法的流程示意图,其中,e为运动补偿后的预测残差值,该残差值通过变换器、量化器(常见的量化器如DCT量化器,本实施例对这里及下文的量化器均不做具体限定)、熵编码器进行压缩后,再被传输或存储。且编码过程中还可通过逆量化器和逆变换器计算运动预测/补偿。图3为一种可自适应改变量化器和编码器选择的视频压缩编码方法的流程示意图,其中,e同样为运动补偿后的预测残差值,通路0为Skip模式,其对应的残差值不进行编码、存储(或传输);通路1为空域编码通路,即残差值不进行频域的变换,而直接在空域进行量化,量化的空域信号进行熵编码;通路2为传统的频域量化通路(通常先采用残差值先进行频域的变换,然后在频域进行量化,量化的频域信号进行熵编码);而通路3也是频域量化通路,但其采用与通路2不同的变换和量化方法,即通路3使用与通路2不同的变换器或量化器,例如DFT变换器(非稀疏变换器)或使用其他参数的量化器,或者变换器也可以是低复杂度变换器,例如使用稀疏DCT矩阵的变换器;而通路k可以是不同于通路2和通路3的另外一种变换器和量化器组合。
上述使用稀疏DCT变换器的原因在于,当帧间图像存在较高的关联性时,残差值经过DCT变换和量化后,只在低频点留有非零量,而高频点的值离零点的值较小,经过量化器量化后将被置零。这意味着DCT变换中的部分运算实际上为无效计算,因此可以使用一个稀疏的DCT矩阵来减少计算量。
具体地,采用DCT变换器进行空域和频域变换的过程可以写成R=AeAT,其中,e为预测残差值,A为DCT变换矩阵,R为变换后的预测残差值。假设一个完整4*4的DCT变换矩阵如图4a所示,则不同的稀疏DCT矩阵可以是对行、列、或特定的计算进行打孔,如图4b、图4c、图4d所示的三种稀疏DCT矩阵。
进一步地,请参照图5,为数字视网膜***实际运行时其前端设备完成特征提取和变换器选择的原理示意图。如图5所示,前端设备在接收到输入的图像数据之后,对大量的图像数据进行多次卷积、池化等操作,以提取出表征图像特性的特征数据和变换器相关数据,然后通过一全连接层将所有特征数据(如图中的特征1、特征2及特征3)都连接在一起,再通过另一全连接层将所有变换器相关数据都连接在一起,然后自两个全连接层中选取对应的特征数据和变换器,进行组合输出。图像数据中存在街道和建筑等静态背景区域,这些区域会被现有的特征识别模型识别为“背景”或“建筑”等分类。而同时,这些特征也意味着在视频编码时通过帧间预测的预测残差值被量化后高概率是一个全零或仅存在低频非零的情况。也就是说图像的特征数据对应表示了该区域所适用的最优变换器(及量化器)。根据上述特征数据与最有变换器的对应关系,该区域也适用于使用稀疏变换器(及对应的量化器)。因此,本实施例的特征提取模块处理模型可同时输出特征识别结果和最优变换器,例如,图5中所示区域可能被识别为A1作为最优变换器;与此相反,在行人对应的区域,由于图像将出现较为复杂的变化,特征处理模型提取模块将同时输出“行人”和非稀疏变换器A。
于本实施例另一具体实施方式中,在一些特定的应用场景中,一个图像传感器获得的不同数据在一个较长时间的周期内具有相关性。例如一个城市安防摄像机,其监控的场景图像在一个较长时间内保持不变,运动补偿的残差值所使用的最优变换器则与该场景高度相关,因此,可通过模型训练的方式生成既能进行特征提取,又能进行变换器选择的深度模型,即上述特征处理模型,具体可先通过迁移学习或模型重用的方法从基于成熟的特征识别模型获得增设变换器选择模型功能,继而得到包括具有上述特征识别模块和变换器选择模块功能的特征处理模型深度模型。即所以,本实施例在通过训练好的变换器选择特征处理模型确定待编码图像的最优变换器之前,还可以包括对变换器选择特征处理模型的训练步骤,该训练步骤可以包括以下处理:基于历史编码数据,生成模型训练集;模型训练集包括多个由图像特征和对应的最优变换器组成的数据组;使用模型训练集通过监督学习的方式训练生成变换器选择特征处理模型。
本实施例中,数字视网膜***的前端设备会将采集的原始图像数据和其提取的特征数据以及编码过程中生成的各种数据(包括但不限于预测残差值及应用的变换器和量化器信息等)都上传至后端设备,后端设备可对该些数据进行分析处理,并可以根据各数据的图像进行分类,将同一帧图像相关的数据存储为一个数组或者一个数据包等,还可以从中提取图像特征和对应的最优变换器,并组成数据组,然后采用大量这样的数据组通过监督学习的方式训练生成变换器选择特征处理模型。
具体地,基于历史编码数据,生成模型训练集,可以包括以下处理:基于历史编码数据,生成目标图像的原始数据集;基于原始数据集,生成目标图像基于各种变换器得到的相应的压缩图像的压缩数据集;根据原始数据集和各压缩数据集,计算目标图像和基于各变换器处理后得到的压缩图像之间的重建误差值;确定最小重建误差值对应的变换器为目标图像的最优变换器,并基于每个目标图像的原始数据集和对应的最优变换器,形成模型训练集。
其中,目标图像可以为任意历史图像;后端设备可以根据原始数据集和基于不同变换器得到压缩数据集,计算目标图像和基于各变换器处理后得到的压缩图像之间的重建误差值(即每组编码器和变换器的重建误差值),然后将重建误差值最小对应的变换器标注为目标图像的对应分类,从而获得一个标注数据,然后编码模块将分别使用{A1,A2,…,Ak},产生k+1组压缩数据集。然后,通过原始数据集和压缩数据集确定最小重建误差值,继而生成一个训练数据{Xi,A0},其中Xi表示第i个目标图像的特征数据集合,表示该目标图像所有宏块的特征数据的集合,A0表示该目标图像所有宏块的最优变换器的集合(即同一图像的每个宏块对应一个最优变换器,不同宏块的最优变换器可以相同也可以不同),然后重复上述步骤直至获得足够目标图像对应的训练数据。
进一步地,基于历史编码数据,生成目标图像的原始数据集,可以包括以下步骤:基于历史编码数据,按预设尺寸将每个目标图像划分为多组宏块,对应每组宏块生成相应的数据组,并对应每个目标图像生成子数据集{x1,x2,…xm},该子数据集可理解为上述特征数据组成的集合;其中,xi表示第i组宏块的数据组;基于所有目标图像的子数据集{x1,x2,…xm},形成目标图像的原始数据集{X1,X2,…Xn},其中,Xi表示第i个目标图像的子数据集。
在本实施例中,后端设备接收前端设备周期性发送的图像数据,存储为原始数据集{X1,X2,…Xn},并可按预定尺寸(宏块尺寸或CTU尺寸)将每个图像的子数据集Xi划分为一组宏块数据集{x1,x2,…xm},可对于每个宏块图像数据xi对应的将得到k+1组重建误差值,该误差值可以使用MSE(Mean Squared Error,即平均平方误差)或SAD(Sum ofAbsolute Difference,即绝对误差和)计算得出{σ1,σ2,…,σk+1}。并在k+1组中选出重建误差最小值对应的最优变换器Ai0,然后重复该最优变换器的选择过程,继而可得到上述{Xi,A0},即目标图像对应的训练数据。其中,若σi为非稀疏变换器对应的重建误差,其值往往比稀疏变换器对应的重建误差都要大,故可以不参加比较。
于本实施例另一具体实施方式中,特征识别可以是基于任务的,相应地,基于历史编码数据,生成目标图像的原始数据集,还可以包括以下处理:根据接收到的任务指令,自历史编码数据中确定任务指令对应的目标图像;根据目标图像对应的历史编码数据生成原始数据集。
在本实施例中,后端设备可以发送与任务相关的模型到前端设备,即上述目标图像可以为当特征提取模块处理模型识别出对应任务中指定的目标时对应的图像。这意味着,训练数据的选取是基于训练数据中是否存在任务所需要的检测的目标来决定的。即获得的训练数据可以与任务高度关联,此时通过不间断的训练,前端设备的特征处理模型变换器选择模块可在任务相关的目标出现的帧,变换器的选取经过重建误差进行了优化,可获得较高的图像重建质量;而在非任务相关的图像帧,最优变换器的选取能够满足一般要求即可。
步骤S3,基于最优变换器对待编码图像进行编码。
进一步地,基于最优变换器对待编码图像进行编码,提取待编码图像的特征数据之后,方法还可以包括以下步骤:将特征数据和待编码图像的原始数据及编码后数据均发送至数字视网膜***的后端设备,以供后端设备对特征数据和待编码图像的原始数据及编码后数据进行保存和对变换器选择特征处理模型进行优化更新;接收后端设备发送的实时更新的变换器选择特征处理模型。如此,通过后端设备对变换器选择特征处理模型进行实时更新,采用实时更新的变换器选择特征处理模型,可以进一步得到更加准确的最优变换器,从而获得更佳的图像压缩质量。
本实施例提供的基于数字视网膜技术的编码方法,应用于数字视网膜***的前端设备,可以基于数字视网膜技术对图像数据进行特征提取,并在进行特征提取后,还可以根据识别的特征数据选择最优的变换器,并基于该最优变换器进行编解码,编解码过程中对预测残差值的计算误差较小,压缩速度和压缩质量更好,从而可提高音视频编码的速度和质量。
基于上述编码方法相同的构思,本实施例还提供一种基于数字视网膜技术的编码装置,如图6所示,该装置包括:
图像获取模块,用于获取待编码的图像数据;
特征处理模块,用于基于训练好的特征处理模型,对待编码的图像数据进行特征数据的提取和最优变换器的选择;变换器选择特征处理模型预设有特征数据与对应最优变换器的映射关系,以根据特征数据确定最优变换器;特征数据包括用于描述待编码图像的运动特性的数据;
编码模块,用于基于最优变换器对待编码图像进行编码。
本实施例提供的基于数字视网膜技术的编码装置,应用于数字视网膜***的前端设备,可以基于数字视网膜技术对图像数据进行特征提取,并在进行特征提取后,还可以根据识别的特征数据选择最优的变换器,并基于该最优变换器进行编解码,编解码过程中对预测残差值的计算误差较小,压缩速度和压缩质量更好,从而可提高音视频编码的速度和质量。
如图7a所示,为本实施例提供的编码装置的另一种结构示意图,特征处理模块包括特征提取模块和变换器选择模块,其中,特征提取模块根据输入的图像数据提取特征数据,并将特征数据传输至变换器选择模块,变换器选择模块根据接收到的特征数据选择对应的最优变换器,然后将选择的最有变换器(根据实际情况,如果确实需要变换器的话)发送至编码模块。编码模块可以包括变换器、量化器以及熵编码器等,可基于接收到的最优变换器进行编解码。具体地,不同情况下变换器和量化器的应用和选择也不同,例如,当特征提取模块识别出图像中的一个区域为远景背景时,对应的预测残差值一般比较小,此时可以选取图7a中的通路0,即不用进行空域和频域之间的转换,无需应用变换器和量化器;当特征提取模块识别出图像中的一个区域为运动目标时,对应的预测残差值比较大,此时可以选取图7a中的通路2。
进一步地,如图7b所示,特征提取模块的输入除了图像数据以外,还可以包括预测残差值,如此,特征处理模块可将特征数据和该预测残差值一起发送至变换器选择模块,变换器选择模块可根据当前块的残差值以及对应到该块图像数据的特征数据实现精准的变换器的选择。
基于上述编码方法相同的构思,本实施例还提供一种数字视网膜***,如图8所示,该数字视网膜***包括前端设备和后端设备,前端设备包括上述的编码装置。其中,前端设备可类似于人的眼睛,用于采集图像数据,并通过传输路线1向后端设备传输采集的图像数据,且其还具有特征提取能力,可以根据预设的特征处理模型特征提取模型提取图像数据中的特征数据,并通过传输路线3将特征数据也传输至后端设备。后端设备可类似于人的大脑,用于接收并存储上述图像数据,以及对特征数据进行分析,并结合众多图像数据和对应的特征数据对特征处理模型特征提取模型进行更新修正,然后可通过传输路线2将更新后的特征处理模型特征提取模型及时发送至前端设备。
本实施例提供的数字视网膜***,包上述的编码装置,至少能够实现上述编码装置的有益效果,在此不再赘述。
进一步地,前端设备将特征数据和待编码图像的原始数据及编码后数据均发送至数字视网膜***的后端设备,以供后端设备对特征数据和待编码图像的原始数据及编码后数据进行保存和对变换器选择特征处理模型进行优化更新;接收后端设备发送的实时更新的变换器选择特征处理模型。如此,通过后端设备对变换器选择特征处理模型进行实时更新,采用实时更新的变换器选择特征处理模型,可以进一步得到更加准确的最优变换器,从而获得更佳的图像压缩质量。
基于上述编码方法相同的构思,本实施例还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器运行计算机程序以实现上述任一实施方式的编码方法。
本实施例提供的电子设备,基于上述编码方法相同的构思,至少能够实现上述编码方法的有益效果,在此不再赘述。
基于上述编码方法相同的构思,本实施例还提供一种计算机可读存储介质,其上存储有计算机程序,程序被处理器执行实现如上述任一实施方式的编码方法。
本实施例提供的计算机可读存储介质,基于上述编码方法相同的构思,至少能够实现上述编码方法的有益效果,在此不再赘述。
应该注意的是上述实施例对本申请进行说明而不是对本申请进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本申请可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
以上所述,仅为本申请较佳的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。
Claims (10)
1.一种基于数字视网膜技术的编码方法,其特征在于,应用于数字视网膜***的前端设备,所述方法包括:
获取待编码的图像数据;
基于训练好的特征处理模型,对所述待编码的图像数据进行特征数据的提取和最优变换器的选择;所述特征处理模型预设有所述特征数据与对应最优变换器的映射关系,以根据所述特征数据确定所述最优变换器;所述特征数据包括用于描述待编码图像的运动特性的数据;
基于所述最优变换器对待编码图像进行编码;
所述基于训练好的特征处理模型,对所述待编码的图像数据进行特征数据的提取和最优变换器的选择之前,还包括:
基于历史编码数据,生成模型训练集;所述模型训练集包括多个由图像特征和对应的最优变换器组成的数据组;
使用所述模型训练集通过监督学习的方式训练所述特征处理模型;
所述基于历史编码数据,生成模型训练集,包括:
基于历史编码数据,生成目标图像的原始数据集;所述目标图像为任意历史图像;
基于所述原始数据集,生成所述目标图像基于各种变换器得到的相应的压缩图像的压缩数据集;
根据所述原始数据集和各压缩数据集,计算目标图像和基于各变换器处理后得到的压缩图像之间的重建误差值;
确定最小重建误差值对应的变换器为所述目标图像的最优变换器,并基于每个目标图像的原始数据集和对应的最优变换器,形成模型训练集。
2.根据权利要求1所述的方法,其特征在于,基于历史编码数据,生成目标图像的原始数据集,包括:
基于历史编码数据,按预设尺寸将每个目标图像划分为多组宏块,对应每组宏块生成相应的数据组,并对应每个目标图像生成子数据集{x1,x2,…xm},该子数据集可理解为上述特征数据组成的集合;其中,xi表示第i组宏块的数据组;
基于所有目标图像的子数据集{x1,x2,…xm},形成目标图像的原始数据集{X1,X2,…Xn},其中,Xi表示第i个目标图像的子数据集。
3.根据权利要求1所述的方法,其特征在于,基于历史编码数据,生成目标图像的原始数据集,包括:
根据接收到的任务指令,自所述历史编码数据中确定所述任务指令对应的目标图像;
根据所述目标图像对应的历史编码数据生成原始数据集。
4.根据权利要求1所述的方法,其特征在于,所述特征数据还包括所述待编码图像预测残差值。
5.根据权利要求1所述的方法,其特征在于,所述特征数据与对应最优变换器的映射关系,包括:
若特征数据表征图像中的区域为远景背景,则对应的最优变换器为第一变换器;若特征数据表征图像中的区域为移动目标,则对应的最优变换器为第二变换器;其中,所述第一变换器的复杂度低于所述第二变换器的复杂度。
6.根据权利要求1所述的方法,其特征在于,基于所述最优变换器对待编码图像进行编码,提取待编码图像的特征数据之后,所述方法还包括:
将所述特征数据和待编码图像的原始数据及编码后数据均发送至所述数字视网膜***的后端设备,以供所述后端设备对所述特征数据和待编码图像的原始数据及编码后数据进行保存和对所述特征处理模型进行优化更新;
接收所述后端设备发送的实时更新的特征处理模型。
7.一种基于数字视网膜技术的编码装置,其特征在于,所述装置包括:
图像获取模块,用于获取待编码的图像数据;
特征处理模块,用于基于训练好的特征处理模型,对所述待编码的图像数据进行特征数据的提取和最优变换器的选择;特征处理模型预设有所述特征数据与对应最优变换器的映射关系,以根据所述特征数据确定所述最优变换器;所述特征数据包括用于描述待编码图像的运动特性的数据;
编码模块,用于基于所述最优变换器对待编码图像进行编码;
所述特征处理模块,还用于:
基于历史编码数据,生成模型训练集;所述模型训练集包括多个由图像特征和对应的最优变换器组成的数据组;
使用所述模型训练集通过监督学习的方式训练所述特征处理模型;
具体用于:
基于历史编码数据,生成目标图像的原始数据集;所述目标图像为任意历史图像;
基于所述原始数据集,生成所述目标图像基于各种变换器得到的相应的压缩图像的压缩数据集;
根据所述原始数据集和各压缩数据集,计算目标图像和基于各变换器处理后得到的压缩图像之间的重建误差值;
确定最小重建误差值对应的变换器为所述目标图像的最优变换器,并基于每个目标图像的原始数据集和对应的最优变换器,形成模型训练集。
8.一种数字视网膜***,包括前端设备和后端设备,其特征在于,所述前端设备包括权利要求7所述的编码装置。
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器运行所述计算机程序以实现如权利要求1-6任一项所述的方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行实现如权利要求1-6中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210116024.8A CN114745556B (zh) | 2022-02-07 | 2022-02-07 | 编码方法、装置、数字视网膜***、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210116024.8A CN114745556B (zh) | 2022-02-07 | 2022-02-07 | 编码方法、装置、数字视网膜***、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114745556A CN114745556A (zh) | 2022-07-12 |
CN114745556B true CN114745556B (zh) | 2024-04-02 |
Family
ID=82274457
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210116024.8A Active CN114745556B (zh) | 2022-02-07 | 2022-02-07 | 编码方法、装置、数字视网膜***、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114745556B (zh) |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR19990039267A (ko) * | 1997-11-11 | 1999-06-05 | 정선종 | 신경망을 이용한 영상 데이터 압축/복원 장치의 구조 및압축/복원 방법 |
CN102474607A (zh) * | 2009-07-23 | 2012-05-23 | 汤姆森许可贸易公司 | 用于视频编码和解码的自适应变换选择的方法和设备 |
CN110870310A (zh) * | 2018-09-04 | 2020-03-06 | 深圳市大疆创新科技有限公司 | 图像编码方法和装置 |
CN111182301A (zh) * | 2018-11-12 | 2020-05-19 | 北京眼神科技有限公司 | 一种图像压缩时选择最优量化参数的方法、装置、设备及*** |
CN111314698A (zh) * | 2020-02-27 | 2020-06-19 | 浙江大华技术股份有限公司 | 一种图像编码处理方法及装置 |
CN111630570A (zh) * | 2019-05-31 | 2020-09-04 | 深圳市大疆创新科技有限公司 | 图像处理方法、设备及计算机可读存储介质 |
CN111800629A (zh) * | 2019-04-09 | 2020-10-20 | 华为技术有限公司 | 视频解码方法、编码方法以及视频解码器和编码器 |
WO2020243100A1 (en) * | 2019-05-26 | 2020-12-03 | Beijing Dajia Internet Information Technology Co., Ltd. | Methods and apparatus for improving motion estimation in video coding |
WO2021068341A1 (zh) * | 2019-10-10 | 2021-04-15 | 网宿科技股份有限公司 | 一种视频帧的码率配置方法、***及设备 |
CN113766249A (zh) * | 2020-06-01 | 2021-12-07 | 腾讯科技(深圳)有限公司 | 视频编解码中的环路滤波方法、装置、设备及存储介质 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9066097B2 (en) * | 2011-02-01 | 2015-06-23 | Sony Corporation | Method to optimize the transforms and/or predictions in a video codec |
US10499056B2 (en) * | 2016-03-09 | 2019-12-03 | Sony Corporation | System and method for video processing based on quantization parameter |
US11032576B2 (en) * | 2019-06-10 | 2021-06-08 | Microsoft Technology Licensing, Llc | Selectively enhancing compressed digital content |
-
2022
- 2022-02-07 CN CN202210116024.8A patent/CN114745556B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR19990039267A (ko) * | 1997-11-11 | 1999-06-05 | 정선종 | 신경망을 이용한 영상 데이터 압축/복원 장치의 구조 및압축/복원 방법 |
CN102474607A (zh) * | 2009-07-23 | 2012-05-23 | 汤姆森许可贸易公司 | 用于视频编码和解码的自适应变换选择的方法和设备 |
CN110870310A (zh) * | 2018-09-04 | 2020-03-06 | 深圳市大疆创新科技有限公司 | 图像编码方法和装置 |
CN111182301A (zh) * | 2018-11-12 | 2020-05-19 | 北京眼神科技有限公司 | 一种图像压缩时选择最优量化参数的方法、装置、设备及*** |
CN111800629A (zh) * | 2019-04-09 | 2020-10-20 | 华为技术有限公司 | 视频解码方法、编码方法以及视频解码器和编码器 |
WO2020243100A1 (en) * | 2019-05-26 | 2020-12-03 | Beijing Dajia Internet Information Technology Co., Ltd. | Methods and apparatus for improving motion estimation in video coding |
CN111630570A (zh) * | 2019-05-31 | 2020-09-04 | 深圳市大疆创新科技有限公司 | 图像处理方法、设备及计算机可读存储介质 |
WO2021068341A1 (zh) * | 2019-10-10 | 2021-04-15 | 网宿科技股份有限公司 | 一种视频帧的码率配置方法、***及设备 |
CN111314698A (zh) * | 2020-02-27 | 2020-06-19 | 浙江大华技术股份有限公司 | 一种图像编码处理方法及装置 |
CN113766249A (zh) * | 2020-06-01 | 2021-12-07 | 腾讯科技(深圳)有限公司 | 视频编解码中的环路滤波方法、装置、设备及存储介质 |
Non-Patent Citations (2)
Title |
---|
基于自适应下采样和超分重建的图像压缩框架;张达明;何小海;任超;吴晓红;李兴龙;范梦;;太赫兹科学与电子信息学报;20200425(02);全文 * |
数字视频压缩编码技术;张剑锋;;软件导刊;20080531(05);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN114745556A (zh) | 2022-07-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110225341B (zh) | 一种任务驱动的码流结构化图像编码方法 | |
JP3887178B2 (ja) | 信号符号化方法及び装置並びに復号方法及び装置 | |
US11363287B2 (en) | Future video prediction for coding and streaming of video | |
CN101895751B (zh) | 帧内预测的方法及装置、基于帧内预测的编/解码方法及*** | |
US11516478B2 (en) | Method and apparatus for coding machine vision data using prediction | |
CN101335892B (zh) | 基于帧内模式决策的混合分布式视频编码方法 | |
KR20180131073A (ko) | 다채널 특징맵 영상을 처리하는 방법 및 장치 | |
CN105684442A (zh) | 用于编码/解码图像的方法和装置 | |
JP2013502141A (ja) | 動きベクトルを符号化/復号化する方法及びその装置 | |
CN104967850A (zh) | 通过使用大变换单元对图像进行编码和解码的方法和设备 | |
WO2005120077A1 (ja) | 画像処理装置、そのプログラムおよびその方法 | |
CN103188494A (zh) | 跳过离散余弦变换对深度图像编码/解码的设备和方法 | |
CN102256133A (zh) | 一种基于边信息精化的分布式视频编码及解码方法 | |
CN114363623A (zh) | 图像处理方法、装置、介质及电子设备 | |
CN114157863B (zh) | 基于数字视网膜的视频编码方法、***及存储介质 | |
CN102473315B (zh) | 再次使用树结构编码和解码二元集的方法和装置 | |
CN114900691B (zh) | 编码方法、编码器及计算机可读存储介质 | |
CN111711815A (zh) | 基于集成学习和概率模型的快速vvc帧内预测方法 | |
CN114745556B (zh) | 编码方法、装置、数字视网膜***、电子设备及存储介质 | |
CN101841705A (zh) | 基于自适应模板的视频无损压缩方法 | |
CN109474825B (zh) | 一种脉冲序列压缩方法及*** | |
JPWO2020005045A5 (zh) | ||
WO2021095245A1 (ja) | 画像処理方法、データ処理方法、画像処理装置、およびプログラム | |
CN110855991A (zh) | 一种计算机图像处理的图形数据压缩方法 | |
CN116437089B (zh) | 一种基于关键目标的深度视频压缩方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |