CN114630129A

CN114630129A - 一种基于智能数字视网膜的视频编解码方法和装置

Info

Publication number: CN114630129A
Application number: CN202210116067.6A
Authority: CN
Inventors: 滕波; 洪一帆; 向国庆; 张羿; 焦立欣; 陆嘉瑶
Original assignee: Zhejiang Smart Video Security Innovation Center Co Ltd
Current assignee: Zhejiang Smart Video Security Innovation Center Co Ltd
Priority date: 2022-02-07
Filing date: 2022-02-07
Publication date: 2022-06-14

Abstract

本发明公开了一种基于智能数字视网膜的视频编解码方法和装置，其中，视频编码方法包括：对第一预测残差进行熵编码，得到对应的第一特征增强流；以及将第一基础流和第一特征增强流进行复用处理，得到编码后的视频图像。本申请实施例提供的视频编码方法，通过引入第一预设深度模型对视频图像进行处理，由于第一预设深度模型能够对图像特征进行特征提取，精准地确定出视频图像的特征区域，并基于第一预测残差进行熵编码，得到第一特征增强流，并基于第一特征增强流和第一基础流得到编码后的视频图像；这样，编码后的视频图像具有较佳的画面品质；此外，该第一预设深度模型还能够优化视频的压缩性能以及回放性能。

Description

一种基于智能数字视网膜的视频编解码方法和装置

技术领域

本发明涉及视频编码技术领域，特别涉及一种基于智能数字视网膜的视频编解码方法和装置。

背景技术

自从数字视网膜概念提出以来，在视频编解码、视频监控等领域引起了较大的关注。在传统的图像处理领域，视频压缩和视频分析分属不同的两个领域，数字视网膜技术受人类视网膜的生物学功能启发，率先提出了视频压缩、视频分析一体化的智能图像传感器。具体而言，数字视网膜的特点在于能够同时获得视频压缩数据和视频特征数据，并通过数据流传送至云端，便于后期的回放和检索。为了获取图像的特征流，数字视网膜技术引入了模型流的概念，也就是说图像采集前端可以根据需求应用不同的特征提取模型，这些模型可以通过云端存储和反向传输的方式发送到图像采集前端。在视频压缩方面，基本的理念是通过计算压缩视频的时空冗余信息。视频压缩的基本范式在过去数十年来没有发生较大的改变，基于分块的视频压缩编解码技术发展得非常成熟，其具有计算复杂度适中、压缩率高、重建质量高等特点，因此，在过去的数十年里得到了非常广泛的应用，目前主流的编解码技术包括H.264/H.265/H.266以及MPEG2/MPEG4等均主要以基于分块的视频编解码技术。从早期的视频编码开始，编码理论的范式没有就没有改变过，新一代的编码标准所采用的技术都是通过“计算换空间”的方法来提升压缩比率。例如，从H.264到H.265的演进，压缩率提升了50%，但是，同时也带来了更大的计算需求。这是由于使用了更灵活的编码单元，更灵活的参考帧使得基于运动补偿的压缩方法挖掘了更多的压缩潜力。

由于数字视网膜框架融合了与视频相关的特征识别和数据压缩两个方面，因此，创造了一种新的范式，这种范式排除了以单一参数为衡量的某种技术，而是以一种面向复杂目标的综合性评价方法。这也正是从视网膜的生物结构中获得的宝贵启示，视网膜并不是单纯的传输或压缩图像数据，而是服务于大脑各项复杂任务的智能前端图像采集和分析设备。数字视网膜开创了一种新的思考范式，是以面向以人为中心而开发各种技术手段的方法，而不是以面向图像处理的某个单项指标为中心的图像而开发新的技术。

在一些现有技术中，尽管没有使用数字视网膜的专业术语，但是实际上也遵循了类似的理念。例如，在CN111083477A中，发明人提出了利用注意力模型来自适应调整HEVC编码中所使用的量化参数的方法。再例如，CN107396124B中提出了基于神经网络对预测残差进行进一步压缩的方法。在这些方法中深度模型的引入能够实现对视频中的特征被计算机识别，进一步基于块的视频编码器可以利用分析结果进行压缩优化。例如，CN111083477A所提出的方法就是让编码器对用户高敏感的内容使用更优化的量化器。然而，由于这些方法受限于编码器已有的框架，因此获得的性能增益是以深度模型巨大的计算消耗为代价的。

如何在尽可能少的额外计算消耗下，得到尽可能多的视频数据处理能力，是待解决的技术问题。

发明内容

基于此，有必要针对基于现有基于智能数字视网膜的视频处理方法需要消耗大量的存储开销的问题，提供一种基于智能数字视网膜的视频处理方法、装置、电子设备和存储介质。

第一方面，本申请实施例提供了一种基于智能数字视网膜的视频编码方法，所述方法包括：

获取基于采集的视频数据得到的原始视频图像；

将所述原始视频图像输入至第一预设深度模型中进行图像处理，得到对应的用于进行图像检索的特征序列、第一特征区域的第一特征区域图像、所述第一特征区域的位置信息和具有第一预设分辨率的第一预测图像，所述特征序列包括关注特征区域的特征序列；

将所述第一特征区域图像和所述具有第一预设分辨率的所述第一预测图像进行求残差值计算，得到第一预测残差；

对所述第一预测残差进行熵编码，得到对应的第一特征增强流；以及将第一基础流和所述第一特征增强流进行复用处理，得到编码后的视频图像。

在一种实施方式中，所述将第一基础流和所述第一特征增强流进行复用处理，得到编码后的视频图像包括：

对所述原始视频图像进行降采样处理，得到具有第二预设分辨率的处理后视频图像；

对所述处理后视频图像进行视频编码，得到所述第一基础流；

将所述第一基础流和所述第一特征增强流进行复用处理，得到所述编码后的视频图像。

在一种实施方式中，所述方法还包括：

从第一帧缓存器中读取所述特征区域的所述位置信息和所述特征区域图像；

将所述位置信息和所述特征区域图像进行同步编码。

第二方面，本申请实施例提供了一种基于智能数字视网膜的视频解码方法，所述方法包括：

响应于用户回放目标视频的回放指令，第二帧缓存器读取目标视频图像的第二特征区域，并生成对应的第二特征区域图像；

将所述第二特征区域图像输入至第二预设深度模型中进行图像处理，得到对应的具有第三预设分辨率的第三特征区域图像；

对与所述第二特征区域对应的第二特征增强流进行熵解码，得到对应的第二预测残差；以及基于所述第二预测残差和所述第三特征区域图像进行图像合成，生成具有所述第三预设分辨率的第一解码后的目标视频图像。

在一种实施方式中，所述方法还包括：

对所述第二预设深度模型进行优化，得到优化后的深度模型，所述优化后的深度模型包括对目标视频图像的非特征区域进行图像优化处理的第三预设深度模型；

基于所述优化后的深度模型，对所述目标视频图像进行解码处理，生成具有所述第三预设分辨率的第二解码后的目标视频图像。

在一种实施方式中，所述基于所述优化后的深度模型，对所述目标视频图像进行解码处理，生成具有所述第三预设分辨率的第二解码后的目标视频图像包括：

所述第二帧缓存器基于第二基础流生成非特征区域图像；

将所述非特征区域图像输入至第三预设深度模型中进行图像处理，得到非特征区域、且具有所述第三预设分辨率的第一目标视频图像；

获取目标视频图像的特征区域、且具有所述第三预设分辨率的第二目标视频图像；

对所述第一目标视频图像和所述第二目标视频图像进行图像合成处理，生成具有所述第三预设分辨率的第二解码后的目标视频图像。

第三方面，本申请实施例提供了一种基于智能数字视网膜的视频编码装置，所述装置包括：

获取模块，用于获取基于采集的视频数据得到的原始视频图像；

第一图像处理模块，用于将所述获取模块获取的所述原始视频图像输入至第一预设深度模型中进行图像处理，得到对应的用于进行图像检索的特征序列、第一特征区域的第一特征区域图像、所述第一特征区域的位置信息和具有第一预设分辨率的第一预测图像，所述特征序列包括关注特征区域的特征序列；

计算模块，用于将所述图像处理模块得到的所述第一特征区域图像和所述具有第一预设分辨率的所述第一预测图像进行求残差值计算，得到第一预测残差；

编码模块，用于对所述计算模块得到的所述第一预测残差进行熵编码，得到对应的第一特征增强流；以及将第一基础流和所述第一特征增强流进行复用处理，得到编码后的视频图像。

第四方面，本申请实施例提供了一种基于智能数字视网膜的视频解码装置，所述装置包括：

读取及生成模块，用于响应于用户回放目标视频的回放指令，第二帧缓存器读取目标视频图像的第二特征区域，并生成对应的第二特征区域图像；

第二图像处理模块，用于将所述读取及生成模块得到的所述第二特征区域图像输入至第二预设深度模型中进行图像处理，得到对应的具有第三预设分辨率的第三特征区域图像；

解码模块，用于对与所述第二特征区域对应的第二特征增强流进行熵解码，得到对应的第二预测残差；以及基于所述第二预测残差和所述第三特征区域图像进行图像合成，生成具有所述第三预设分辨率的第一解码后的目标视频图像。

第五方面，本申请实施例提供一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器运行所述计算机程序以实现如上所述的方法步骤。

第六方面，本申请实施例提供一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行实现如上所述的方法步骤。

本申请实施例提供的技术方案可以包括以下有益效果：

在本申请实施例中，获取基于采集的视频数据得到的原始视频图像；将原始视频图像输入至第一预设深度模型中进行图像处理，得到对应的用于进行图像检索的特征序列、第一特征区域的第一特征区域图像、第一特征区域的位置信息和具有第一预设分辨率的第一预测图像，特征序列包括关注特征区域的特征序列；将第一特征区域图像和具有第一预设分辨率的第一预测图像进行求残差值计算，得到第一预测残差；对第一预测残差进行熵编码，得到对应的第一特征增强流；以及将第一基础流和第一特征增强流进行复用处理，得到编码后的视频图像。本申请实施例提供的基于智能数字视网膜的视频编码方法，通过引入第一预设深度模型对视频图像进行处理，由于第一预设深度模型能够对图像特征进行特征提取，精准地确定出视频图像的特征区域，并基于第一预测残差进行熵编码，得到第一特征增强流，并基于第一特征增强流和第一基础流得到编码后的视频图像；这样，编码后的视频图像具有较佳的画面品质；此外，该第一预设深度模型还能够优化视频的压缩性能以及回放性能。应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本发明。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

图1是本申请实施例提供的一种基于智能数字视网膜的视频编码方法的流程示意图；

图2是传统的基于运动预测和补偿的视频压缩流程图；

图3是本申请实施例提供的具体应用场景下的编码端进行编码处理的一流程示意图；

图4是本申请实施例提供的具体应用场景下的编码端进行编码处理的另一一流程示意图；

图5是本申请实施例提供的具体应用场景下的解码端进行解码处理的一流程示意图；

图6是本申请实施例提供的具体应用场景下的解码端进行解码处理的另一流程示意图；

图7是本申请实施例提供的一种基于智能数字视网膜的视频编码装置的结构示意图；

图8示出了根据本申请实施例的电子设备连接结构示意图。

具体实施方式

以下描述和附图充分地示出本发明的具体实施方案，以使本领域的技术人员能够实践它们。

应当明确，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

下面结合附图详细说明本公开的可选实施例。

如图1所示，是本申请实施例提供的一种基于智能数字视网膜的视频编码方法的流程示意图；如图1所示，本申请实施例提供了一种基于智能数字视网膜的视频编码方法，具体包括如下方法步骤：

S102：获取基于采集的视频数据得到的原始视频图像。

S104：将原始视频图像输入至第一预设深度模型中进行图像处理，得到对应的用于进行图像检索的特征序列、第一特征区域的第一特征区域图像、第一特征区域的位置信息和具有第一预设分辨率的第一预测图像，特征序列包括关注特征区域的特征序列。

如图2所示，是传统的基于运动预测和补偿的视频压缩流程图。其中e为运动补偿后的残差值。该残差值通过变换器、量化器、熵编码器后进行传输或存储。其中常见的量化器可以是DCT量化器。一般而言，图2的视频压缩基于固定的图像分辨率。在实际的设备里，图像采集设备的分辨率要大于用于压缩的图像的分辨率，这是由于数据的传输和存储成本要更高。因此，一般都对图像采集到的高分辨率图像进行降采样后再进行视频压缩。然而，从回放的角度，分辨率自然是越高越好。

在本步骤中，第一预设深度模型具有较佳的计算能力，能够在相同的传输和存储资源下实现了高分辨率的回放；此外，第一预设深度模型还具有较佳的图像特征提取性能。

本申请实施例提供的视频编码方法是基于智能数字视网膜技术。该智能数字视网膜技术的原理具体如下所述：

前端设备同时具有视频压缩和用于视频特征提取的深度模型。后端可以通过传输的方法向前端部署不同的模型，因此，可以理解前端设备拥有自适应获取任何深度模型的能力。因此，只要在离线的情况下训练一个具有特殊特征提取能力的模型，都可以通过智能数字视网膜技术所采用的模型流部署到前端设备处。在云端，特征流的主要目的在于进行图像检索，在用户得到检索结果后，一种常见的联动需求就是对图像或视频进行回放。此时，回放的分辨率肯定是越高越好；即：特征流在视频中的分布与用户对图像质量期望的分布是关联的。

在本申请实施例中，第一预设深度模型用于提取当前图像的特征，同时输出一个特征区域图。该区域图可以是一个矩形区域。第一预设深度模型同时输出一个该区域的高分辨率预测图像。进一步，获得对应区域的高分辨率图像，并计算与预测图像的残差值。并通过熵编码对残差值进行编码。

在本步骤中，第一预设分辨率为高分辨率。

S106：将第一特征区域图像和具有第一预设分辨率的第一预测图像进行求残差值计算，得到第一预测残差。

在本步骤中，第一预设分辨率为高分辨率。

S108：对第一预测残差进行熵编码，得到对应的第一特征增强流；以及将第一基础流和第一特征增强流进行复用处理，得到编码后的视频图像。

在一种可能的实现方式中，将第一基础流和第一特征增强流进行复用处理，得到编码后的视频图像包括以下步骤：

对原始视频图像进行降采样处理，得到具有第二预设分辨率的处理后视频图像；

对处理后视频图像进行视频编码，得到第一基础流；

将第一基础流和第一特征增强流进行复用处理，得到编码后的视频图像。

在本步骤中，第二预设分辨率为低分辨率。

在一种可能的实现方式中，本申请实施例提供的视频编码方法还包括以下步骤：

从第一帧缓存器中读取特征区域的位置信息和特征区域图像；

将位置信息和特征区域图像进行同步编码。

如图3所示，是本申请实施例提供的具体应用场景下的编码端进行编码处理的一流程示意图。

如图3所示，演示了编码端的处理流程：原始图像为一个高分辨率图像，经过将采样后获得用于编码的普通分辨率图像。进一步，将图像输入至第一预设深度模型，第一预设深度模型将输出用于图像检索的特征序列。在本申请实施例提供的视频编码方法中，第一预设深度模型同时输出一个高分辨率图像。设置一个单独的高分辨率预测模型是可行的。通过如图3所示的方式，可以重用已有的特征提取模型，并获得高分辨率预测图像。特征序列包括了关注特征的区域。其中，假设高分辨率预测图像为M*M的图像，则有特征区域图像为N*N，（M>N）。进一步，编码器根据图3的输出进行编码。通过上述编码过程，能够有效地降低计算量的开销。

如图4所示，编码器从第一帧缓存器内读出特征区域，此时，第一预设深度模型还能够输出特征区域的位置信息，并且该特征区域的位置信息也同步被编码。进一步，深度模型输出的预测图像和特征区域图像进行求残差值计算，得到预测残差。预测残差经过熵编码后，与低分辨率使用基于块的编码器输出的数据流进行复用，并用于传输或存储。

在本申请实施例中，获取基于采集的视频数据得到的原始视频图像；将原始视频图像输入至第一预设深度模型中进行图像处理，得到对应的用于进行图像检索的特征序列、第一特征区域的第一特征区域图像、第一特征区域的位置信息和具有第一预设分辨率的第一预测图像，特征序列包括关注特征区域的特征序列；将第一特征区域图像和具有第一预设分辨率的第一预测图像进行求残差值计算，得到第一预测残差；对第一预测残差进行熵编码，得到对应的第一特征增强流；以及将第一基础流和第一特征增强流进行复用处理，得到编码后的视频图像。本申请实施例提供的基于智能数字视网膜的视频编码方法，通过引入第一预设深度模型对视频图像进行处理，由于第一预设深度模型能够对图像特征进行特征提取，精准地确定出视频图像的特征区域，并基于第一预测残差进行熵编码，得到第一特征增强流，并基于第一特征增强流和第一基础流得到编码后的视频图像；这样，编码后的视频图像具有较佳的画面品质；此外，该第一预设深度模型还能够优化视频的压缩性能以及回放性能。

本申请实施例还提供了一种基于智能数字视网膜的视频解码方法，具体包括如下方法步骤：

S202：响应于用户回放目标视频的回放指令，第二帧缓存器读取目标视频图像的第二特征区域，并生成对应的第二特征区域图像。

S204：将第二特征区域图像输入至第二预设深度模型中进行图像处理，得到对应的具有第三预设分辨率的第三特征区域图像。

在本步骤中，第一预设深度模型具有较佳的计算能力，能够在相同的传输和存储资源下实现了高分辨率的回放；此外，第一预设深度模型还具有较佳的图像特征提取性能。此外，第三预设分辨率为高分辨率。

S206：对与第二特征区域对应的第二特征增强流进行熵解码，得到对应的第二预测残差；以及基于第二预测残差和第三特征区域图像进行图像合成，生成具有第三预设分辨率的第一解码后的目标视频图像。

在一种可能的实现方式中，本申请实施例提供的视频解码方法还包括以下步骤：

对第二预设深度模型进行优化，得到优化后的深度模型，优化后的深度模型包括对目标视频图像的非特征区域进行图像优化处理的第三预设深度模型；

基于优化后的深度模型，对目标视频图像进行解码处理，生成具有第三预设分辨率的第二解码后的目标视频图像。

在一种可能的实现方式中，基于优化后的深度模型，对目标视频图像进行解码处理，生成具有第三预设分辨率的第二解码后的目标视频图像包括以下步骤：

第二帧缓存器基于第二基础流生成非特征区域图像；

将非特征区域图像输入至第三预设深度模型中进行图像处理，得到非特征区域、且具有第三预设分辨率的第一目标视频图像；

获取目标视频图像的特征区域、且具有第三预设分辨率的第二目标视频图像；

对第一目标视频图像和第二目标视频图像进行图像合成处理，生成具有第三预设分辨率的第二解码后的目标视频图像。

在某一具体应用场景下，当用户根据特征流进行检索后，将对检索结果中的部分内容进行回放。此时，解码器首先解码基础流，当用户选择对特征区域进行增强显示时，解码器首先将存储的图像输入至上述模型，并获得高分辨率的预测数据，并进一步解码高分辨率数据的残差值，最终在目标区域显示高分辨率。

在解码端，用户可以选择回放普通视频作为浏览，如果有需要，也可以对特征区域进行高分辨率回放。当用户需要进行高分辨率回放时，解码器的工作流程如图5所示。

解码器能够在特征区域重建具有高精度的高分辨率图像。然而，在非特征区域则只能重建低分辨率的图像。在一种实施方式中，解码器可以使用另外一个深度模型，用于重建非特征区域的高分辨率图像。这种方法的编码端如图4所示，解码端如图6所示。解码器在低分辨率缓存器读出的时候不仅读出特征区域的图像，也读出了非特征区域的图像。非特征区域的图像输入至深度模型2（即：第三预设深度模型），进而产生非特征区域高分辨率图像。最后，非特征区域的高分辨率图像与特征区域高分辨率图像合成完整的高分辨率图像。图6的架构在数字视网膜的应用场景中拥有较大的优势，这是因为非特征区域往往是场景图像，这些区域的图像具有相对的静态性。因此，在编码端无需发送任何相关的数据，而是依靠一个深度模型进行分辨率提升。由于图像的相对静态，一个离线训练的模型能够获得较好的性能。相反，特征区域则是由相对动态的目标组成，因此，一个预测模由于训练数据的限制，可能无法在任何情况下获得较优的预测精度，因此，对残差数据进行编码并在解码端进行重建，能够保证特征区域的重建质量。因此，使用图6的架构能够在合理的计算复杂度和传输代价下，获得整体的高质量图像重建。本质上这种优势是利用了特征提取模型同时完成了特征提取和编码方式判断两个功能带来的。

本申请实施例提供的一种基于智能数字视网膜的视频编解码方法所采用的基于智能数字视网膜的架构，视频采集前端的模型是可配置的，并且可以从云端部署到视频采集前端。因此，在一种实施方式中，如图3以及图4的编码器端，以及如图5及图6的解码器端，可以配置有多个深度模型，不同的预设深度模型具有不同的特征提取能力和图像预测能力。在编码端不同的预设深度模型的输出均被编码到视频流内。由于每个预设深度模型均可独立的根据解码的输出进行重建，因此，在云端可以通过调用不同的模型实现对不同任务的高分辨率图像重建。例如在一段相同的视频流内，用户在第一时间对监控区域内的行人进行了高分辨率回放，此时解码端调用了预设深度模型A；用户在第二时间对监控区域内的汽车进行了高分辨率回放，此时解码端调用了预设深度模型B。通过这种方法，可以不断地训练新的预设深度模型，进而使得***在相同的硬件架构下逐渐获得增强的性能。

下述为本申请实施例基于智能数字视网膜的视频编码装置实施例，可以用于执行本申请实施例基于智能数字视网膜的视频编码方法实施例。对于本申请实施例基于智能数字视网膜的视频编码装置实施例中未披露的细节，请参照本申请实施例基于智能数字视网膜的视频编码方法实施例。

请参见图7，其示出了本发明一个示例性实施例提供的基于智能数字视网膜的视频编码装置的结构示意图。该基于智能数字视网膜的视频编码装置可以通过软件、硬件或者两者的结合实现成为终端的全部或一部分。该基于智能数字视网膜的视频编码装置包括获取模块702、第一图像处理模块704、计算模块706和编码模块708。

具体而言，获取模块702，用于获取基于采集的视频数据得到的原始视频图像；

第一图像处理模块704，用于将获取模块702获取的原始视频图像输入至第一预设深度模型中进行图像处理，得到对应的用于进行图像检索的特征序列、第一特征区域的第一特征区域图像、第一特征区域的位置信息和具有第一预设分辨率的第一预测图像，特征序列包括关注特征区域的特征序列；

计算模块706，用于将图像处理模块得到的第一特征区域图像和具有第一预设分辨率的第一预测图像进行求残差值计算，得到第一预测残差；

编码模块708，用于对计算模块706得到的第一预测残差进行熵编码，得到对应的第一特征增强流；以及将第一基础流和第一特征增强流进行复用处理，得到编码后的视频图像。

可选的，编码模块708具体用于：

对处理后视频图像进行视频编码，得到第一基础流；

所述装置还包括：

读取模块（在图7中未示出），用于从第一帧缓存器中读取特征区域的位置信息和特征区域图像；

编码模块708还用于：将读取模块读取的位置信息和特征区域图像进行同步编码。

需要说明的是，上述实施例提供的基于智能数字视网膜的视频编码装置在执行基于智能数字视网膜的视频编码装置方法时，仅以上述各功能单元的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元完成，即将设备的内部结构划分成不同的功能单元，以完成以上描述的全部或者部分功能。另外，上述实施例提供的基于智能数字视网膜的视频编码装置与基于智能数字视网膜的视频编码方法实施例属于同一构思，其体现实现过程详见基于智能数字视网膜的视频编码方法实施例，这里不再赘述。

在本申请实施例中，获取模块用于获取基于采集的视频数据得到的原始视频图像；第一图像处理模块用于将获取模块获取的原始视频图像输入至第一预设深度模型中进行图像处理，得到对应的用于进行图像检索的特征序列、第一特征区域的第一特征区域图像、第一特征区域的位置信息和具有第一预设分辨率的第一预测图像，特征序列包括关注特征区域的特征序列；计算模块用于将图像处理模块得到的第一特征区域图像和具有第一预设分辨率的第一预测图像进行求残差值计算，得到第一预测残差；以及编码模块用于对计算模块得到的第一预测残差进行熵编码，得到对应的第一特征增强流；以及将第一基础流和第一特征增强流进行复用处理，得到编码后的视频图像。本申请实施例提供的基于智能数字视网膜的视频编码方法，通过引入第一预设深度模型对视频图像进行处理，由于第一预设深度模型能够对图像特征进行特征提取，精准地确定出视频图像的特征区域，并基于第一预测残差进行熵编码，得到第一特征增强流，并基于第一特征增强流和第一基础流得到编码后的视频图像；这样，编码后的视频图像具有较佳的画面品质；此外，该第一预设深度模型还能够优化视频的压缩性能以及回放性能。

本申请实施例还提供了基于智能数字视网膜的视频解码装置，该解码装置包括读取及生成模块、第二图像处理模块和解码模块。

具体而言，读取及生成模块，用于响应于用户回放目标视频的回放指令，第二帧缓存器读取目标视频图像的第二特征区域，并生成对应的第二特征区域图像；

第二图像处理模块，用于将读取及生成模块得到的第二特征区域图像输入至第二预设深度模型中进行图像处理，得到对应的具有第三预设分辨率的第三特征区域图像；

解码模块，用于对与第二特征区域对应的第二特征增强流进行熵解码，得到对应的第二预测残差；以及基于第二预测残差和第三特征区域图像进行图像合成，生成具有第三预设分辨率的第一解码后的目标视频图像。

可选的，所述装置还包括：

优化模块，用于对第二预设深度模型进行优化，得到优化后的深度模型，优化后的深度模型包括对目标视频图像的非特征区域进行图像优化处理的第三预设深度模型；

解码模块还用于：基于优化模块得到的优化后的深度模型，对目标视频图像进行解码处理，生成具有第三预设分辨率的第二解码后的目标视频图像。

可选的，解码模块具体用于：

第二帧缓存器基于第二基础流生成非特征区域图像；

如图8所示，本实施例提供一种电子设备，该电子设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器运行计算机程序以实现如上所述的方法步骤。

本申请实施例提供了一种存储有计算机可读指令的存储介质，其上存储有计算机程序，程序被处理器执行实现如上所述的方法步骤。

下面参考图8，其示出了适于用来实现本申请实施例的电子设备的结构示意图。本申请实施例中的终端设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA（个人数字助理）、PAD（平板电脑）、PMP（便携式多媒体播放器）、车载终端（例如车载导航终端）等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。图8示出的电子设备仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图8所示，电子设备可以包括处理装置（例如中央处理器、图形处理器等）801，其可以根据存储在只读存储器（ROM）802中的程序或者从存储装置808加载到随机访问存储器（RAM）803中的程序而执行各种适当的动作和处理。在RAM803中，还存储有电子设备操作所需的各种程序和数据。处理装置801、ROM802以及RAM803通过总线804彼此相连。输入/输出（I/O）接口805也连接至总线804。

通常，以下装置可以连接至I/O接口805：包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置806；包括例如液晶显示器（LCD）、扬声器、振动器等的输出装置807；包括例如磁带、硬盘等的存储装置808；以及通信装置809。通信装置809可以允许电子设备与其他设备进行无线或有线通信以交换数据。虽然图8示出了具有各种装置的电子设备，但是应理解的是，并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信装置809从网络上被下载和安装，或者从存储装置808被安装，或者从ROM802被安装。在该计算机程序被处理装置801执行时，执行本申请实施例的方法中限定的上述功能。

需要说明的是，本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（EPROM或闪存）、光纤、便携式紧凑磁盘只读存储器（CD-ROM）、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行***、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读信号介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：电线、光缆、RF（射频）等等，或者上述的任意合适的组合。

上述计算机可读介质可以是上述电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。

可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码，上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机（例如利用因特网服务提供商来通过因特网连接）。

附图中的流程图和框图，图示了按照本公开各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的***来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。其中，单元的名称在某种情况下并不构成对该单元本身的限定。

以上所揭露的仅为本申请较佳实施例而已，当然不能以此来限定本申请之权利范围，因此依本申请权利要求所作的等同变化，仍属本申请所涵盖的范围。

Claims

1.一种基于智能数字视网膜的视频编码方法，其特征在于，所述方法包括：

获取基于采集的视频数据得到的原始视频图像；

2.根据权利要求1所述的方法，其特征在于，所述将第一基础流和所述第一特征增强流进行复用处理，得到编码后的视频图像包括：

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

将所述位置信息和所述特征区域图像进行同步编码。

4.一种基于智能数字视网膜的视频解码方法，其特征在于，所述方法包括：

5.根据权利要求4所述的方法，其特征在于，所述方法还包括：

6.根据权利要求5所述的方法，其特征在于，所述基于所述优化后的深度模型，对所述目标视频图像进行解码处理，生成具有所述第三预设分辨率的第二解码后的目标视频图像包括：

所述第二帧缓存器基于第二基础流生成非特征区域图像；

7.一种基于智能数字视网膜的视频编码装置，其特征在于，所述装置包括：

8.一种基于智能数字视网膜的视频解码装置，其特征在于，所述装置包括：

9.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器运行所述计算机程序以实现如权利要求1-6任一项所述的方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行实现如权利要求1-6中任一项所述的方法。