WO2018006825A1

WO2018006825A1 - 视频编码方法和装置

Info

Publication number: WO2018006825A1
Application number: PCT/CN2017/091846
Authority: WO
Inventors: 万千
Original assignee: 腾讯科技（深圳）有限公司
Priority date: 2016-07-08
Filing date: 2017-07-05
Publication date: 2018-01-11
Also published as: CN106162177B; CN106162177A

Abstract

本申请涉及一种视频编码方法和装置，该方法包括：获取视频帧；检测所述视频帧中的运动目标，并在所述视频帧中将所述运动目标所在区域确定为第一区域；对所述视频帧中第二区域进行平滑滤波，按照所述第一区域的保真度高于所述第二区域的保真度的编码方式，对所述视频帧进行编码，得到视频码流。

Description

视频编码方法和装置

本申请要求于2016年07月08日提交中国专利局、申请号为201610541399.3、发明名称为“视频编码方法和装置”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及视频处理技术领域，特别是涉及一种视频编码方法和装置。

背景

视频是涉及动态影像的数据形式，通常包括一系列的视频帧，将视频帧连续播放就可以实现展示视频中的动态影像。通过视频编码，可以利用特定的压缩技术，将一种视频格式文件转换成适于传输的视频码流。

技术内容

本申请提供了一种视频编码方法，包括：

获取视频帧；

检测所述视频帧中的运动目标，并在所述视频帧中将所述运动目标所在区域确定为第一区域；

对所述视频帧中第二区域进行平滑滤波，所述视频帧包括所述第一区域和所述第二区域，并且所述第一区域和所述第二区域之间没有重叠；

按照所述第一区域的保真度高于所述第二区域的保真度的编码方式，对所述视频帧进行编码，得到视频码流。

本申请提供了一种视频编码装置，包括：

一个或一个以上存储器；

一个或一个以上处理器；其中，

所述一个或一个以上存储器存储有一个或者一个以上指令模块，经配置由所述一个或者一个以上处理器执行；其中，

所述一个或者一个以上指令模块包括：

感兴趣区域获取模块，用于获取视频帧；检测所述视频帧中的运动目标，并在所述视频帧中将所述运动目标所在区域确定为第一区域；

区域滤波模块，用于将所述视频帧中第二区域进行平滑滤波；所述视频帧包括所述第一区域和所述第二区域，并且所述第一区域和所述第二区域之间没有重叠；

编码模块，用于按照所述第一区域的保真度高于所述第二区域的保真度的编码方式，对所述视频帧进行编码，得到视频码流。

本申请还提出了一种非易失性计算机可读存储介质，存储有计算机可读指令，可以使至少一个处理器执行以上方法。

附图简要说明

为了更清楚地说明本申请实例或现有技术中的技术方案，下面将对实例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为一个实例中视频编码***的应用环境图；

图2A为一个实例中服务器的内部结构示意图；

图2B为一个实例中终端的内部结构示意图；

图3A为一个实例中视频编码方法的流程示意图；

图3B为一个实例中视频编码方法的流程示意图；

图4为一个实例中对视频帧进行全局运动补偿的步骤的流程示意图；

图5为一个实例中检测视频帧中的运动目标，并在视频帧中将运动目标所在区域确定为感兴趣区域的步骤的流程示意图；

图6为一个实例中根据提取的特征判断特征点是否属于运动目标所在区域的步骤的流程示意图；

图7为一个实例中根据属于运动目标所在区域的特征点确定感兴趣区域的步骤的流程示意图；

图8为一个实例中视频编码装置的结构框图；

图9为一个实例中感兴趣区域获取模块的结构框图；

图10为另一个实例中视频编码装置的结构框图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实例仅仅用以解释本申请，并不用于限定本申请。

在实现本申请实例的过程中，发明人发现目前的视频编码技术适用于正常场景视频的编码，然而，对于一些复杂场景的视频，比如体育比赛或者舞台演出等视频，由于视频剧烈运动、细节丰富以及不均匀光照等各种原因，往往导致编码后的视频码流画面质量难以控制，或者为保证画质导致编码得到的视频码流占用网络资源太大，不适合传输，因此目前的视频编码方式难以兼顾画面质量和对网络资源的占用。

基于此，本申请针对目前将视频编码后的视频码流难以兼顾画面质量和对网络资源的占用的技术问题，提供一种视频编码方法。

图1为一个实例中视频编码***的应用环境图。如图1所示，该视频编码***包括服务器110和终端120。服务器110可用于获取视频的视频帧；检测视频帧中的运动目标，并在视频帧中将运动目标所在区域确定为感兴趣区域；将视频帧中不属于感兴趣区域的非感兴趣区域进行平滑滤波后，按照感兴趣区域的保真度高于非感兴趣区域的保真度的编码方式，对视频帧进行编码，得到视频码流。服务器110可通过网络向终端120传输视频码流。

图2A为一个实例中服务器110的内部结构示意图。如图2A所示，该服务器包括通过***总线连接的处理器、非易失性存储介质、内存储器和网络接口。其中，该服务器的非易失性存储介质存储有操作***、数据库和视频编码装置，数据库中可存储有进行视频编码所需的参数，该视频编码装置用于实现一种视频编码方法。该服务器的处理器用于提供计算和控制能力，支撑整个服务器的运行。该服务器的内存储器为非易失性存储介质中的视频编码装置的运行提供环境，该内存储器中可储存有计算机可读指令，该计算机可读指令被处理器执行时，可使得处理器执行视频编码方法。该服务器的网络接口用于据以与外部的终端通过网络连接通信，向终端发送视频码流等。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。本领域技术人员可以理解，图2A中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的服务器的限定，具体的服务器可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

图2B为一个实例中终端的内部结构示意图。如图2B所示，该终端包括通过***总线连接的处理器、非易失性存储介质、内存储器、网络接口和显示屏。其中，终端的非易失性存储介质存储有操作***，还存储有一种视频解码装置，该视频解码装置用于实现一种视频解码方法。该处理器用于提供计算和控制能力，支撑整个终端的运行。终端中的内存储器为非易失性存储介质中的视频解码装置的运行提供环境，该内存储器中可存储有计算机可读指令，该计算机可读指令被处理器执行时，可使得处理器执行一种视频解码方法。网络接口用于与服务器进行网络通信，如接收服务器发送的视频码流。终端的显示屏可以是液晶显示屏或者电子墨水显示屏等，输入装置可以是显示屏上覆盖的触摸层，也可以是终端外壳上设置的按键、轨迹球或触控板，也可以是外接的键盘、触控板或鼠标等。该终端可以是手机、平板电脑、个人数字助理或VR(Virtual Reality，即虚拟现实)终端等。本领域技术人员可以理解，图2B中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的终端的限定，具体的终端可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

图3A为一个实例中视频编码方法的流程示意图。本实例以该方法应用于上述图1中的服务器110来举例说明。如图3A所示，该方法包括如下步骤：

S302A，获取视频帧。

S304A，检测所述视频帧中的运动目标，并在所述视频帧中将所述运动目标所在区域确定为第一区域。

S306A，对所述视频帧中的第二区域进行平滑滤波，所述视频帧包括所述第一区域和所述第二区域，并且所述第一区域和所述第二区域之间没有重叠。

S308A，按照所述第一区域的保真度高于所述第二区域的保真度的编码方式，对所述视频帧进行编码，得到视频码流。

图3B为一个实例中视频编码方法的流程示意图。本实例以该方法应用于上述图1中的服务器110来举例说明。如图3B所示，该方法具体包括如下步骤：

S302，获取视频帧。

其中，视频帧是待编码的视频的组成单元，视频帧被按次序展示便可以实现视频播放。服务器可按照待编码的视频中视频帧的次序依次获取视频帧。

在一个实例中，若获取的视频帧是关键帧，则直接对获取的视频帧执行S304；若获取的视频帧是过渡帧，则可根据该过渡帧所依赖的关键帧计算出完整的视频帧后，对完整的视频帧执行S304。其中，关键帧是指包含完整画面信息的视频帧，过渡帧则是基于关键帧计算出的包含不完整的画面信息的视频帧。

S304，检测视频帧中的运动目标，并在视频帧中将运动目标所在区域确定为感兴趣区域。

其中，运动目标是视频帧所表示的画面中运动的元素，是视频帧的前景；而视频帧中静止或者接近禁止的元素是视频帧的背景。运动目标比如位置或者姿态变化的人、移动的交通工具或者移动的光照等。感兴趣区域(Region Of Interest，ROI)，是图像处理中从被处理的图像中以方框、圆、椭圆或者不规则多边形等方式勾勒出的需要处理的区域。

具体地，服务器可对视频帧进行运动目标检测，检测出视频帧中运动目标所在区域，从而将该区域确定为感兴趣区域。由于该感兴趣区域是视频帧中运动目标所在区域，因此该感兴趣区域也是视频帧中相对于非感兴趣区域被视频观看者所关注的区域。

服务器检测视频帧中的运动目标，具体可采用帧间差分法、背景减除法和基于光流的运动目标检测算法。背景减除法通过统计前若干视频帧的变化情况，从而学习背景扰动的规律。帧间差分法的主要思想就是利用视频图像序列中连续两帧或三顿的差异来检测发生运动的区域。帧间差分法的特点是动态性强，能够适应动态背景下的运动目标检测。基于光流的运动目标检测算法是利用光流方程计算出每个像素点的运动状态矢量，从而发现运动的像素点，进而检测出运动目标所在区域。

S306，将视频帧中不属于感兴趣区域的非感兴趣区域进行平滑滤波后，按照感兴趣区域的保真度高于非感兴趣区域的保真度的编码方式，对视频帧进行编码，得到视频码流。

其中，非感兴趣区域是指视频帧中除去感兴趣区域之外的区域。对非感兴趣区域的平滑滤波是将非感兴趣区域中各像素点的像素值平滑过渡的处理过程。保真度是衡量编码后的视频码流解码后的视频帧与编码前原始的视频帧之间相似程度的量化值，保真度越高表示相似程度越高，编码后的视频码流画质损失越小；保真度越低表示相似程度越低，编码后的视频码流画质损失越大。

需要说明的是，上述感兴趣区域又可称为第一区域，上述非感性趣区域又可称为第二区域。并且上述视频帧包括上述第一区域和上述第二区域，并且上述第一区域和上述第二区域之间没有重叠。

具体地，平滑滤波可采用均值滤波、中值滤波或者高斯滤波等方式。若采用均值滤波，服务器可将非感兴趣区域中的各个像素点的像素值替换为该像素点邻域内的像素值均值。若采用中值滤波，服务器可将非感兴趣区域中的各个像素点的像素值替换为该邻域中像素值的中间值，该中间值是将该邻域中像素值按像素值大小排序后处于中间位置的像素值。若采用高斯滤波，则服务器可将非感兴趣区域中的各个像素点的像素值替换为该像素点邻域内的各个像素值的加权平均值，且计算加权平均值的权重服从正态分布。

服务器可通过调整感兴趣区域和非感兴趣区域的量化参数(Quantizaion Parameter)，实现感兴趣区域的保真度高于非感兴趣区域的保真度的编码方式。量化参数是对视频帧进行量化编码时所采用的参数。量化参数与保真度负相关，量化参数取最小值时表示量化最精细，当量化参数取最大值时表示量化最粗糙。服务器具体可按照感兴趣区域的量化参数低于非感兴趣区域的量化参数的编码方式进行编码，从而实现感兴趣区域的保真度高于非感兴趣区域的保真度的编码方式。

在一个实例中，服务器可通过调整感兴趣区域和非感兴趣区域的分辨率，实现感兴趣区域的保真度高于非感兴趣区域的保真度的编码方式，具体可采用感兴趣区域的分辨率低于非感兴趣区域的分辨率的编码方式。其中，视频帧某区域的分辨率是指该区域中单位面积中所包含的像素点数。

上述视频编码方法，通过检测视频帧中的运动目标，将运动目标所在区域确定为感兴趣区域，从而将视频帧分为感兴趣区域和非感兴趣区域，该感兴趣区域也是观看者所关注的区域。按照感兴趣区域的保真度高于非感兴趣区域的保真度的编码方式，对视频帧进行编码得到相应的视频码流，即使对于复杂场景的视频，也可以将运动目标所在区域保持较高的画面质量。而且，如果直接降低非感兴趣区域的保真度会带来明显的阶梯波纹或振铃效应等压缩失真，降低画面质量。在编码之前对非感兴趣区域进行平滑滤波，减少高频信息，降低保真度下降而引起的压缩失真，非感兴趣区域被被观察到是模糊的而非充满噪声的，从而提高编码后的视频码流整体的画面质量。再者，通过降低非感兴趣区域的保真度来降低编码后的视频码流对网络资源的占用。

在一个实例中，在S304之前，该视频编码方法还包括对视频帧进行全局运动补偿的步骤。假设视频的视频帧是由摄像机拍摄的，该摄像机的运动会导致视频帧画面整体的运动，而视频帧中一些静态的背景并不是运动的，因此这里对视频帧进行全局运动补偿，以修复摄像机运动对视频帧整体画面的影响，从而避免在检测运动目标时检测出错甚至检测到视频帧整个画面都在运动。

图4为一个实例中对视频帧进行全局运动补偿的步骤的流程示意图。如图4所示，该步骤具体包括如下步骤：

S402，获取摄像机运动参数。

具体地，由于视频中物体的表征运动是由摄像机运动和物体运动叠加而来，而本实例后续处理视频帧时只需要纯粹的物体运动，因此需要首先估计出摄像机运动参数，再利用摄像机运动参数修复视频帧，实现对视频帧的全局运动补偿。

在一个实例中，服务器可采用二维仿射模型为摄像机建模，摄像机在位置s＝(x,y)处的运动向量表示为公式(1)：

其中，s＝(x,y)是摄像机某一点在两个轴向上的位置坐标，w_θ(s)表示摄像机在位置s＝(x,y)处的运动向量；θ＝(a₁,a₂,a₃,a₄,a₅,a₆)是摄像机运动参数，分别表示摄像机在两个轴向上的伸缩量、旋转量和位移量。摄像机运动参数可采用多种方法进行估计得到，比如M-estimater(M估计法)、最小二乘法或者蚁群算法。两个轴向可以是正交的。

S404，根据摄像机运动参数，对视频帧进行全局运动补偿处理。

具体地，假设摄像机的运动是观测到的表征运动的主导量，由此可以估算出摄像机运动参数，并根据摄像机运动参数修正原始的视频帧，得到只有物体运动的视频帧。若采用二维仿射模型为摄像机建模，则服务器可根据如下公式(2)计算经过全局运动补偿处理的视频帧：

其中

表示经过全局运动补偿处理的视频帧，I(s)是摄像机在两个轴向上的位置坐标，w_θ(s)表示摄像机在位置s＝(x,y)处的运动向量。

本实例中，利用估计出的摄像机参数，对视频帧进行全局运动补偿处理，使得经过全局运动补偿处理的视频帧可消除摄像机运动带来的影响，进而可以准确检测出视频帧中运动目标所在区域，保证感兴趣区域是真实的运动目标所在区域，保证视频码流能够有效兼顾画面质量和对网络资源的占用。

如图5所示，在一个实例中，S304包括以下步骤：

S502，在视频帧的像素点中确定特征点。

在一个实例中，S502具体包括：将视频帧中的每个像素点作为特征点；或者，在视频帧中随机选取预设数量或预设比例的像素点作为特征点；或者，对视频帧中的像素点进行均匀采样，得到特征点。

具体地，服务器既可以将视频帧中的所有像素点均作为特征点，也可以采用设定的规则从视频帧中选择部分像素点作为特征点。预设比例是指特征点的数量占视频帧的像素点总数的比例。对视频帧中的像素点进行均匀采样，具体是指在视频帧中两个轴向上分别每隔预设个数的像素点选取像素点作为特征点。当在视频帧中随机选取预设数量或预设比例的像素点作为特征点时，或者，对视频帧中的像素点进行均匀采样得到特征点时，特征点的数量少于视频帧的像素点总数。

S504，提取特征点的特征。

在一个实例中，提取的特征包括运动特征，还包括空间特征、色彩特征和时间特征中的至少一种。

具体地，运动特征是表征特征点的运动特性的特征。假设t时刻特征点为i_t(x，y)。服务器可采用光流法获得特征点i_t(x，y)的光流向量(dx，dy)，可根据光流向量中的元素构成运动特征，比如可定义运动特征x_m＝{dx，dy}。其中，x和y分别是特征点i_t两个轴向上的位置坐标。

空间特征是表征特征点相对于视频帧的空间位置的特征，服务器可采用特征点i_t(x，y)两个轴向上的位置坐标来构成空间特征，比如可定义空间特征x_s＝{x，y}。

色彩特征是表征特征点的色彩特性的特征，可以将特征点的像素值构成色彩特征。服务器也可以将视频帧转化为YUV颜色模式后，将特征点i_t(x，y)在YUV颜色模式下各个分量的像素值y_t(x，y)、u_t(x，y)和v_t(x，y)构成色彩特征x_c＝{y_t(x，y)，u_t(x，y)，v_t(x，y)}。采用YUV颜色模式对颜色变化更加敏感，可提高提取的特征对特征点颜色特性的表达能力。

时间特征是表征特征点的时间变化特性的特征，可以用特征点i_t(x，y)在下一时刻t+1的色彩特征作为本时刻t的时间特征。比如可定义时间特征为x_t＝{y_t+1(x’，y’)，u_t+1(x’，y’)，v_t+1(x’，y’)}，其中(x’，y’)＝(x+dx，y+dy)。提取的特征可表示为：X＝{x_s，x_m，x_c，x_t}。

S506，根据提取的特征判断特征点是否属于运动目标所在区域。

具体地，服务器可将提取的特征输入到经过训练的分类器，由分类器输出特征点是否属于运动目标所在区域的分类结果，从而判定特征点是否属于运动目标所在区域。在一个实例中，服务器也可以将特征点进行聚类，得到视频帧中的多个区域，进而判断多个区域中每个区域是否为运动目标所在区域。

S508，根据属于运动目标所在区域的特征点确定感兴趣区域。

具体地，若将视频帧中的每个像素点作为特征点，则服务器可将判定为属于运动目标所在区域的特征点围成的区域作为感兴趣区域。若特征点的数量少于视频帧的像素点总数，则服务器可根据特征点是否属于运动目标所在区域的判断结果，估计视频帧中非特征点的像素点是否属于运动目标所在区域。

本实例中，依据视频帧中的特征点，判断各个特征点是否属于运动目标所在区域，从而将属于运动目标所在区域的特征点所构成的区域确定为感兴趣区域，可准确检测出视频帧中运动目标所在区域，保证感兴趣区域是真实的运动目标所在区域，保证视频码流能够有效兼顾画面质量和对网络资源的占用。

如图6所示，在一个实例中，S506包括如下步骤：

S602，根据提取的特征将特征点进行聚类，得到视频帧中的多个区域。

在一些实例中，根据提取的特征将所述特征点分为多个类别，得到所述视频帧中分别对应所述多个类别的多个区域，其中，一个区域包括属于该区域对应的类别的一个或多个特征点。

具体地，服务器可根据提取的特征将特征点聚类为多个类别，每个类别的特征点形成相应的区域，从而得到视频帧中的多个区域。服务器具体可采用k-means聚类算法、层次聚类算法、SOM(Self-organizing feature Map，自组织特征映射网络)聚类算法或者Meanshift(均值偏移)聚类算法等进行聚类。通过聚类算法，可将提取的特征在高维空间中收敛到若干局部稠密的区域。本实例中得到的每个区域便是一个完整的成块分布的前景物体或背景物体。

S604，获取多个区域各自的光流平均运动速度。

多个区域各自的光流平均运动速度，是多个区域中每个区域在光流场中运动速度的平均值。光流场是视频帧中的所有像素点构成的一种二维瞬时速度场。

S606，将多个区域各自的光流平均运动速度分别与预设值比较。

其中，预设值是0或者接近于0的数值。服务器将多个区域各自的光流平均运动速度分别与预设值进行数值大小的比较，从而可根据比较结果确定运动目标所在区域。

S608，将多个区域中光流平均运动速度大于预设值的区域确定为运动目标所在区域。

具体地，服务器可将多个区域中光流平均运动速度大于预设值的区域标定为为运动目标所在区域，并将多个区域中光流平均运动速度小于或等于预设值的区域标定为非感兴趣区域。

本实例中，根据提取的特征将特征点进行聚类，得到视频帧中的多个区域，通过将多个区域各自的光流平均运动速度与预设值比较，可高效、准确地判定视频帧中的感兴趣区域，保证感兴趣区域是真实的运动目标所在区域，保证视频码流能够有效兼顾画面质量和对网络资源的占用。

在一个实例中，特征点的数量少于视频帧的像素点总数。如图7所示，S508具体包括如下步骤：

S702，在视频帧中查找与非特征点的像素点距离最近的特征点。

具体地，服务器可遍历视频帧中每个非特征点的像素点，并计算遍历的像素点与每个特征点之间的距离，从而根据计算的距离查找到与遍历的像素点距离最近的特征点，直至遍历完视频帧中所有非特征点的像素点。

S704，根据查找到的特征点是否属于运动目标所在区域的判断结果，确定非特征点的像素点是否属于运动目标所在区域。

具体地，若查找到的特征点属于运动目标所在区域，则服务器可直接判定相应遍历的像素点也属于运动目标所在区域；若查找到的特征点不属于运动目标所在区域，则服务器可直接判定相应遍历的像素点也不属于运动目标所在区域。

S706，根据属于运动目标所在区域的像素点确定感兴趣区域。

具体地，服务器在遍历所有非特征点的像素点并确定其是否属于运动目标所在区域后，便可以获知视频帧中每个像素点是否属于感兴趣区域，进而可以根据视频帧中属于运动目标所在区域的像素点确定感兴趣区域，视频帧中属于运动目标所在区域的像素点包括属于运动目标所在区域的特征点和属于运动目标所在区域的非特征点的像素点。

本实例中，利用数量少于视频帧的像素点总数的特征点的是否属于运动目标所在区域的判断结果，估计视频帧中非特征点的像素点是否属于运动目标所在区域，可以利用少量计算高效地确定感兴趣区域，提高了视频编码效率。

在一个实例中，该方法还包括：生成标记视频帧中的每个像素点是否属于感兴趣区域的标记模板。该步骤可在执行步骤S304之后执行。其中，标记模板记录了视频帧中的每个像素点是否属于感兴趣区域的信息。该标记模板具体可以是与视频帧的画面尺寸相同的二维矩阵，该二维矩阵中的元素与视频帧的各个像素点一一对应，该二维矩阵中的每个元素是视频帧中相应的像素点是否属于感兴趣区域的标记。该标记模板中的标记取两个数值，分别表示相应视频帧中的像素点属于感兴趣区域或者不属于感兴趣区域，比如可用“1”和“0”分别表示属于或者不属于感兴趣区域。

在一个实例中，S306包括：将视频帧中由标记模板标记的不属于感兴趣区域的像素点构成的非感兴趣区域进行平滑滤波后，按照由标记模板标记形成的感兴趣区域的保真度高于非感兴趣区域的保真度的编码方式，对视频帧进行编码，得到视频码流。

本实例中，通过标记模板可以简单高效地表达视频帧中的每个像素点是否属于感兴趣区域，从而在处理视频帧的每个像素点时，以标记模板为参考，对感兴趣区域和非感兴趣区域中的像素点进行差异化的编码，可进一步提高视频编码效率。

在一个实例中，视频帧包括左眼视频帧和右眼视频帧；视频码流包括左眼视频码流和右眼视频码流；视频编码方法还包括：将左眼视频码流和右眼视频码流发送到VR终端，使得VR终端将左眼视频码流和右眼视频码流分别解码后同步播放。

具体地，服务器可获取左眼视频帧和右眼视频帧，分别检测左眼视频帧和右眼视频帧中的运动目标，并分别在左眼视频帧和右眼视频帧中将检测到的运动目标所在区域确定为感兴趣区域，分别将左眼视频帧和右眼视频帧中不属于感兴趣区域的非感兴趣区域进行平滑滤波后，按照感兴趣区域的保真度高于非感兴趣区域的保真度的编码方式，对视频帧进行编码，分别得到左眼视频码流和右眼视频码流。其中，左眼视频帧和右眼视频帧用于生成视觉三维画面。左眼视频帧和右眼视频帧可以从全景视频中获取。

服务器在编码得到左眼视频码流和右眼视频码流后，将左眼视频码流和右眼视频码流推送到VR终端，使得VR终端将左眼视频码流和右眼视频码流分别解码为左眼视频帧和右眼视频帧后同步播放。通过VR终端自带或者附加的左眼镜片和右眼镜片，VR终端展示的左眼视频帧和右眼视频帧经过用户眼睛形成视觉三维画面。其中VR终端可以是自带左眼镜片、右眼镜片和显示屏的专用VR终端，也可以是手机、平板电脑等移动终端，该移动终端通过附加于移动终端的左眼镜片和右眼镜片再经过用户眼睛形成视觉三维画面。

本实例中，将视频编码为左眼视频码流和右眼视频码流后发送到VR终端，使得VR终端能够还原出左眼视频帧和右眼视频帧并同步播放，VR终端的使用者可以观看到高质量的三维画面。而且将左眼视频码流和右眼视频码流发送到VR终端对网络资源占用小，可避免VR终端播放时发生卡顿。

如图8所示，在一个实例中，提供了一种视频编码装置800，包括感兴趣区域获取模块810、区域滤波模块820和编码模块830。

感兴趣区域获取模块810，用于获取视频帧；检测视频帧中的运动目标，并在视频帧中将运动目标所在区域确定为感兴趣区域。

区域滤波模块820，用于将视频帧中不属于感兴趣区域的非感兴趣区域进行平滑滤波。

编码模块830，用于按照感兴趣区域的保真度高于非感兴趣区域的保真度的编码方式，对视频帧进行编码，得到视频码流。

上述视频编码装置800，通过检测视频帧中的运动目标，将运动目标所在区域确定为感兴趣区域，从而将视频帧分为感兴趣区域和非感兴趣区域，该感兴趣区域也是观看者所关注的区域。按照感兴趣区域的保真度高于非感兴趣区域的保真度的编码方式，对视频帧进行编码得到相应的视频码流，即使对于复杂场景的视频，也可以将运动目标所在区域保持较高的画面质量。而且，如果直接降低非感兴趣区域的保真度会带来明显的阶梯波纹或振铃效应等压缩失真，降低画面质量。在编码之前对非感兴趣区域进行平滑滤波，减少高频信息，降低保真度下降而引起的压缩失真，非感兴趣区域被被观察到是模糊的而非充满噪声的，从而提高编码后的视频码流整体的画面质量。再者，通过降低非感兴趣区域的保真度来降低编码后的视频码流对网络资源的占用。

如图9所示，在一个实例中，感兴趣区域获取模块810包括：全局运动补偿模块811，用于获取摄像机运动参数；根据摄像机运动参数，对视频帧进行全局运动补偿处理。

在一个实例中，感兴趣区域获取模块810包括：特征提取模块812和感兴趣区域判断模块813。

特征提取模块812，用于在视频帧的像素点中确定特征点；提取特征点的特征。

感兴趣区域判断模块813，用于根据提取的特征判断特征点是否属于运动目标所在区域；根据属于运动目标所在区域的特征点确定感兴趣区域。

在一个实例中，特征提取模块812还用于将视频帧中的每个像素点作为特征点；或者，在视频帧中随机选取预设数量或预设比例的像素点作为特征点；或者，对视频帧中的像素点进行均匀采样，得到特征点。

在一个实例中，感兴趣区域判断模块813还用于根据提取的特征将特征点进行聚类，得到视频帧中的多个区域；获取多个区域各自的光流平均运动速度；将多个区域各自的光流平均运动速度分别与预设值比较；将多个区域中光流平均运动速度大于预设值的区域确定为运动目标所在区域。

在一个实例中，特征点的数量少于视频帧的像素点总数；感兴趣区域判断模块813还用于在视频帧中查找与非特征点的像素点距离最近的特征点；根据查找到的特征点是否属于运动目标所在区域的判断结果，确定非特征点的像素点是否属于运动目标所在区域；根据属于运动目标所在区域的像素点确定感兴趣区域。

在一个实例中，感兴趣区域获取模块810还用于生成标记视频帧中的每个像素点是否属于感兴趣区域的标记模板；

区域滤波模块820还用于将视频帧中由标记模板标记的不属于感兴趣区域的像素点构成的非感兴趣区域进行平滑滤波。

编码模块830还用于按照由标记模板标记形成的感兴趣区域的保真度高于非感兴趣区域的保真度的编码方式，对视频帧进行编码，得到视频码流。

在一个实例中，视频帧包括左眼视频帧和右眼视频帧；视频码流包括左眼视频码流和右眼视频码流。如图10所示，视频编码装置还包括：视频码流发送模块840，用于将左眼视频码流和右眼视频码流发送到VR终端，使得VR终端将左眼视频码流和右眼视频码流分别解码后同步播放。

本领域普通技术人员可以理解实现上述实例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实例的流程。其中，该存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)等。

因此，本申请还提供了一种存储介质，其中存储有数据处理程序，该数据处理程序用于执行本申请上述方法的任何一种实例。

以上实例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上实例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

一种视频编码方法，包括：

获取视频帧；

检测所述视频帧中的运动目标，并在所述视频帧中将所述运动目标所在区域确定为第一区域；

对所述视频帧中的第二区域进行平滑滤波，所述视频帧包括所述第一区域和所述第二区域，并且所述第一区域和所述第二区域之间没有重叠；

按照所述第一区域的保真度高于所述第二区域的保真度的编码方式，对所述视频帧进行编码，得到视频码流。
根据权利要求1所述的方法，其中，所述检测所述视频帧中的运动目标，并在所述视频帧中将所述运动目标所在区域确定为第一区域的步骤之前，所述方法还包括：

获取摄像机运动参数；

根据所述摄像机运动参数，对所述视频帧进行全局运动补偿处理。
根据权利要求1所述的方法，其中，所述检测所述视频帧中的运动目标，并在所述视频帧中将所述运动目标所在区域确定为第一区域包括：

在所述视频帧的像素点中确定特征点；

提取所述特征点的特征；

当提取的所述特征点的特征属于运动目标所在区域时，根据属于所述运动目标所在区域的特征点确定所述第一区域。
根据权利要求3所述的方法，其中，所述在所述视频帧的像素点中确定特征点包括：

将所述视频帧中的每个像素点作为特征点；或者，

在所述视频帧中随机选取预设数量或预设比例的像素点作为特征点；或者，

对所述视频帧中的像素点进行均匀采样，得到特征点。
根据权利要求3所述的方法，其中，所述提取的特征包括运动特征，还包括空间特征、色彩特征和时间特征中的至少一种。
根据权利要求3所述的方法，其中，所述根据提取的特征判断所述特征点是否属于运动目标所在区域包括：

根据提取的特征将所述特征点分为多个类别，得到所述视频帧中分别对应所述多个类别的多个区域，其中，一个区域包括属于该区域对应的类别的一个或多个特征点；

获取所述多个区域各自的光流平均运动速度；

将所述多个区域各自的光流平均运动速度分别与预设值比较；

将所述多个区域中光流平均运动速度大于预设值的区域确定为运动目标所在区域。
根据权利要求3所述的方法，其中，所述特征点的数量少于所述视频帧的像素点总数；所述根据属于所述运动目标所在区域的特征点确定第一区域包括：

在所述视频帧中查找与非所述特征点的像素点距离最近的特征点；

根据查找到的特征点是否属于所述运动目标所在区域的判断结果，确定所述非所述特征点的像素点是否属于所述运动目标所在区域；

根据属于所述运动目标所在区域的像素点确定第一区域。
根据权利要求1所述的方法，其中，所述方法还包括：

生成标记所述视频帧中的每个像素点是否属于所述第一区域的标记模板；

所述对所述视频帧中的第二区域进行平滑滤波包括：

对所述视频帧中由所述标记模板标记的不属于所述第一区域的像素点构成的第二区域进行平滑滤波。
根据权利要求8所述的方法，其中，所述按照所述第一区域的保真度高于所述第二区域的保真度的编码方式，对所述视频帧进行编码，得到视频码流，包括：

按照由所述标记模板标记形成的第一区域的保真度高于所述第二区域的保真度的编码方式，对所述视频帧进行编码，得到视频码流。
根据权利要求1所述的方法，其中，所述视频帧包括左眼视频帧和右眼视频帧；所述视频码流包括左眼视频码流和右眼视频码流；所述方法还包括：

将所述左眼视频码流和右眼视频码流发送到VR终端，使得所述VR终端将所述左眼视频码流和所述右眼视频码流分别解码后同步播放。
一种视频编码装置，包括：

一个或一个以上存储器；

一个或一个以上处理器；其中，

所述一个或一个以上存储器存储有一个或者一个以上指令模块，经配置由所述一个或者一个以上处理器执行；其中，

所述一个或者一个以上指令模块包括：

第一区域获取模块，用于获取视频帧；检测所述视频帧中的运动目标，并在所述视频帧中将所述运动目标所在区域确定为第一区域；

区域滤波模块，用于对所述视频帧中的第二区域进行平滑滤波；所述视频帧包括所述第一区域和所述第二区域，并且所述第一区域和所述第二区域之间没有重叠；

编码模块，用于按照所述第一区域的保真度高于所述第二区域的保真度的编码方式，对所述视频帧进行编码，得到视频码流。
根据权利要求11所述的装置，其中，所述第一区域获取模块包括：全局运动补偿模块，用于获取摄像机运动参数；根据所述摄像机运动参数，对所述视频帧进行全局运动补偿处理。
根据权利要求11所述的装置，其中，所述第一区域获取模块包括：

特征提取模块，用于在所述视频帧的像素点中确定特征点；提取所述特征点的特征；

第一区域判断模块，用于当提取的所述特征点的特征属于运动目标所在区域时，根据属于所述运动目标所在区域的特征点确定第一区域。14、根据权利要求13所述的装置，其中，所述特征提取模块还用于将所述视频帧中的每个像素点作为特征点；或者，在所述视频帧中随机选取预设数量或预设比例的像素点作为特征点；或者，对所述视频帧中的像素点进行均匀采样，得到特征点。
根据权利要求13所述的装置，其中，所述第一区域判断模块还用于根据提取的特征将所述特征点分为多个类别，得到所述视频帧中分别对应所述多个类别的多个区域，其中，一个区域包括属于该区域对应的类别的一个或多个特征点；获取所述多个区域各自的光流平均运动速度；将所述多个区域各自的光流平均运动速度分别与预设值比较；将所述多个区域中光流平均运动速度大于预设值的区域确定为运动目标所在区域。
根据权利要求13所述的装置，其中，所述特征点的数量少于所述视频帧的像素点总数；所述第一区域判断模块还用于在所述视频帧中查找与非所述特征点的像素点距离最近的特征点；根据查找到的特征点是否属于所述运动目标所在区域的判断结果，确定所述非所述特征点的像素点是否属于所述运动目标所在区域；根据属于所述运动目标所在区域的像素点确定第一区域。
根据权利要求11所述的装置，其中，所述第一区域获取模块还用于生成标记所述视频帧中的每个像素点是否属于所述第一区域的标记模板；

所述区域滤波模块还用于将所述视频帧中由所述标记模板标记的不属于所述第一区域的像素点构成的第二区域进行平滑滤波。
根据权利要求17所述的装置，其中，所述编码模块还用于按照由所述标记模板标记形成的所述第一区域的保真度高于所述第二区域的保真度的编码方式，对所述视频帧进行编码，得到视频码流。
根据权利要求11所述的装置，其中，所述视频帧包括左眼视频帧和右眼视频帧；所述视频码流包括左眼视频码流和右眼视频码流；所述装置还包括：视频码流发送模块，用于将所述左眼视频码流和右眼视频码流发送到VR终端，使得所述VR终端将所述左眼视频码流和所述右眼视频码流分别解码后同步播放。
一种非易失性计算机可读存储介质，存储有计算机可读指令，可以使至少一个处理器执行如权利要求1-10任一项所述的方法。