CN110913221A

CN110913221A - 一种视频码率预测方法及装置

Info

Publication number: CN110913221A
Application number: CN201811086393.7A
Authority: CN
Inventors: 徐威; 宣章洋; 张新峰; 杨超; 郭宗杰
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2018-09-18
Filing date: 2018-09-18
Publication date: 2020-03-24

Abstract

一种视频码率预测方法及装置，用以解决现有技术中存在的视频传输时资源浪费的问题。该方法包括：确定待预测图像组GOP的第一参数集以及参考视频的第二参数集。之后，确定待预测GOP的特征集，特征集包括基于第一参数集以及第二参数集确定的与人眼感知质量相关的特征值、以及期望用户满意度，期望用户满意度为期望的若采用预测码率对待预测GOP进行压缩后得到的视频相比于参考视频的用户满意度比值。然后，将待预测GOP的特征集输入预先训练的回归模型，得到预测码率。

Description

一种视频码率预测方法及装置

技术领域

本申请实施例涉及图像处理技术领域，尤其涉及一种视频码率预测方法及装置。

背景技术

由于受网络带宽的限制，在传统的流媒体服务中，同一个视频源需要压缩成不同码率的视频流，在实际应用中服务器根据当前带宽要求选择码率适合的视频流进行传输。然而，这种多码率的压缩存储方式，服务器端需要存储多种码率下压缩的视频流，因此造成存储资源的浪费。并且，同一视频源的多次压缩也导致计算资源的浪费。此外，这种多码率的压缩存储方式，为了给用户提供高质量的视频，服务器端往往被迫选择当前带宽条件下的最高码率视频流进行传输，从而导致传输带宽资源的浪费。

发明内容

本申请提供一种视频码率预测方法及装置，用以解决现有技术中存在的视频传输时资源浪费的问题。

第一方面，本申请提供了一种视频码率预测方法，该方法包括：确定待预测图像组GOP 的第一参数集以及参考视频的第二参数集，所述第一参数据包括所述待预测GOP的一个或多个视频参数，所述第二参数集包括所述参考视频的一个或多个视频参数，所述参考视频为对所述待预测GOP基于预设的压缩标准进行压缩所得到的视频。之后，确定所述待预测 GOP的特征集，所述特征集包括基于所述第一参数集以及所述第二参数集确定的与人眼感知质量相关的特征值、以及期望用户满意度，所述期望用户满意度为期望的若采用预测码率对所述待预测GOP进行压缩后得到的视频相比于所述参考视频的用户满意度比值。然后，将所述待预测GOP的特征集输入预先训练的回归模型，得到所述预测码率。本申请实施例中基于回归模型的方式，通过提取原始视频与人眼感知质量相关的特征值、参考视频与人眼感知质量相关的特征值，并且设置目标码率所对应视频相比于参考视频的用户满意度，通过预先训练的回归模型可以能够比较准确的预测出可以满足用户需求的码率，从而可以采用预测的码率对原始视频进行压缩传输。相比与现有技术中，原始视频需要压缩成不同码率的视频流，然后根据当前带宽要求从中选择码率适合的视频流进行传输的方式，本申请实施例中可以通过回归模型预测出满足用户需求的码率，因此可以只采用预测的码率对原始视频进行压缩传输，而不需要将原始视频采用不同码率分别进行压缩，从而可以节省计算资源，也不需要存储不同码率的视频流，从而可以节省存储资源。相比于现有技术中服务器端选择当前带宽条件下的最高码率视频流进行传输，本申请实施例可以采用满足用户需求的码率对原始视频进行压缩，从而可以节省带宽资源。

在一种可能的设计中，将所述待预测GOP的特征集输入预先训练的回归模型，得到预测的码率时，可以将所述待预测GOP的特征集基于非线性映射方式映射到高维特征空间，得到高维特征集。将所述高维特征集输入所述回归模型中，得到所述参考视频的码率与所述预测码率在对数空间的差值。基于所述参考视频的码率与所述预测码率在对数空间的差值确定所述预测码率。上述设计中，通过将特征集基于非线性映射方式映射到高维特征空间，可以提高码率预测的准确性。

在一种可能的设计中，所述回归模型可以符合下述公式：f(x)＝w^Tφ(X)+b。其中，f (x)为所述参考视频的码率与所述预测码率在对数空间的差值，所述w^T为权重，所述φ(X) 为所述高维特征集，所述b为偏置。上述设计中，通过采用支持向量机回归模型，可以有效预测出满足期望用户满意度下的预测码率。

在一种可能的设计中，所述第一参数集可以包括：所述待预测GOP中每个视频帧的时域掩蔽效应值、所述待预测GOP中每个像素点的空域掩蔽效应值、所述待预测GOP中每个像素点的视觉显著值。所述第二参数集可以包括：所述参考视频的视频客观质量值、所述参考视频的码率。所述特征集可以包括：时域掩蔽效应值均值、空域掩蔽效应值的加权平均值、所述参考视频的视频客观质量值，以及以2为底所述参考视频的码率的对数。其中，时域掩蔽效应值均值为基于所述待预测GOP中每个视频帧的时域掩蔽效应值确定的；空域掩蔽效应值的加权平均值为基于所述待预测GOP中每个像素点的权重以及空域掩蔽效应值确定的，所述待预测GOP中每个像素点的权重基于所述每个像素点的视觉显著值所确定。上述设计中，通过时域掩蔽效应值、空域掩蔽效应值、视觉显著值等视频参数可以反映用户针对待预测GOP人眼感知的质量，从而通过将视频质量与人眼感知质量相结合，可以比较准确的预测出满足期望用户满意度的预测码率。

在一种可能的设计中，所述第一参数集还可以包括N个压缩码率，所述N个压缩码率为N个压缩视频分别对应的码率，所述N个压缩视频为分别采用N个固定量化参数QP点对所述待预测GOP进行压缩编码得到的，所述N为大于0的整数。所述特征集还可以包括：以2为底所述N个压缩码率的对数，和/或，至少一个相邻差占最大差值的比例，其中，所述相邻差为两个相邻固定QP点对应的压缩码率之间的差值，所述最大差值为所述N个固定QP点中最大固定QP点对应的压缩码率与所述N个固定QP点中最小固定QP点对应的压缩码率的差值。上述设计中，通过采用不同QP点压缩待预测GOP，得到不同压缩码率的压缩视频，采用不同QP点压缩的压缩视频可以反映待预测GOP不同压缩码率下的视频质量，从而结合采用不同QP点压缩的压缩视频的视频参数可以提高码率预测的准确性。

在一种可能的设计中，所述第一参数集还可以包括所述M个视频客观质量值，所述M 个视频客观质量值为M个压缩视频相对于所述待预测GOP的视频客观质量值，其中，所述M个压缩视频为所述N个压缩视频中的任意M个，所述M为大于0且不大于所述N的整数。所述特征集还可以包括：至少一个视频客观质量值差值，所述视频客观质量值差值为所述M个视频客观质量值中两个视频客观质量值的差值。上述设计中，通过结合采用不同 QP点压缩的压缩视频相对于参考视频的视频客观质量值可以提高码率预测的准确性。

在一种可能的设计中，所述第二参数集还可以包括：所述参考视频的帧率以及分辨率。所述特征集还可以包括：所述参考视频的帧率以及分辨率。上述设计中，参考视频的帧率以及分辨率可以反映参考视频的视频质量，从而通过结合参考视频的帧率以及分辨率可以提高码率预测的准确性。

在一种可能的设计中，所述回归模型可以通过如下方式训练得到：在第K次训练过程中，将训练样本数据库中的第K个样本视频的特征集输入经过K-1次调整的回归模型，得到所述第K个样本视频的预测码率，所述K为大于0的整数，所述训练样本数据库包括若干个样本视频的特征集以及每个样本视频对应的目标码率，所述回归模型包括权重和偏置。在第K次训练后，获取所述第K个样本视频的预测码率与所述第K个样本视频的目标码率之间的误差值。若所述第K个样本视频的预测码率与所述第K个样本视频的目标码率之间的误差值不满足预设条件，则基于所述第K个样本视频的预测码率与所述第K个样本视频的目标码率之间的误差值，调整第K+1次训练过程所使用的权重和偏置。若所述第K个样本视频的预测码率与所述第K个样本视频的目标码率之间的误差值满足预设条件，则得到所述样本视频的特征集与目标码率之间的函数关系，所述函数关系为所述回归模型。上述设计中，通过多个样本视频可以训练出准确性比较高的回归模型，从而采用该回归模型可以预测出比较准确的码率。

在一种可能的设计中，所述训练样本数据库可以通过如下方式构造：获取若干个样本视频。针对每个所述样本视频，确定所述样本视频的一个或多个视频参数，以及所述样本视频的参考视频的一个或多个视频参数，所述样本视频的参考视频为所述样本视频基于所述预设的压缩标准进行压缩所对应的视频。基于所述样本视频的视频参数以及所述样本视频的参考视频的视频参数确定所述特征值。采用预设码率对所述样本视频进行压缩，得到目标视频，所述预设码率小于所述样本视频的参考视频的码率。统计所述样本视频的参考视频的用户满意度以及所述目标视频的用户满意度。确定所述目标视频的用户满意度与所述样本视频的参考视频的用户满意度的用户满意度比值。将基于所述样本视频的视频参数以及所述样本视频的参考视频的视频参数确定的所述特征值、所述目标视频的用户满意度与所述样本视频的参考视频的用户满意度的用户满意度比值作为所述训练样本数据库中所述样本视频的特征集，将所述预设码率作为所述训练样本数据库中所述样本视频的目标码率。上述设计中，将采用比参考视频码率低的目标码率对样本视频进行压缩得到目标视频，并统计目标视频相对于参考视频的用户满意度，采用目标码率以及目标码率对应的用户满意度训练回归模型，从而使回归模型可以预测出低于参考视频的码率，且能满意用户满意度的预测码率，进而可以采用低于参考视频的码率的预测码率对待预测GOP进行压缩，相比于现有技术中传输满足带宽需求的最高码率的压缩视频，上述设计中传输采用低于参考视频的码率的预测码率的压缩视频可以有效的降低传输资源的浪费。

第二方面，本申请提供一种视频码率预测装置。该装置具有实现上述第一方面以及第一方面中任一实施例的功能。该功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。该硬件或软件包括一个或多个与上述功能相对应的模块。

第三方面，本申请提供了一种电子设备，包括：处理器和存储器。存储器用于存储计算机执行指令，当该电子设备运行时，该处理器执行该存储器存储的该计算机执行指令，以使该装置执行如上述第一方面或第一方面中任一所述的视频码率预测方法。

第四方面，本申请还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述第一方面或第一方面中任一所述的视频码率预测方法。

第五方面，本申请还提供一种包括指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述第一方面或第一方面中任一所述的视频码率预测方法。

附图说明

图1为本申请提供的一种视频码率预测方法的流程示意图；

图2为本申请提供的一种视频码率预测过程的示意图；

图3为本申请提供的一种回归模型训练过程的示意图；

图4为本申请提供的一种视频码率预测装置的结构示意图；

图5为本申请提供的一种视频码率预测装置的示意图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请作进一步地详细描述。

由于受网络带宽的限制，在传统的流媒体服务中，为了提高用户对视频的满意度，同一个视频源需要压缩成不同码率的视频流，在实际应用中服务器根据当前带宽要求选择码率满足当前要求的视频流进行传输。然而，服务器对同一视频源进行多次压缩，得到不同码率的视频流，增加了计算资源以及能源的消耗。并且服务器在将同一视频源进行多次压缩后，还需要存储多个码率的视频流，这样就需要大量的存储空间，造成存储资源的浪费。此外，为了给用户提供高质量的视频，服务器在根据当前带宽要求选择视频流时通常被迫选择当前带宽要求下的最高码率视频流进行传输，然而，有时候用户可能不要这么码率的视频流，从而造成传输带宽资源的浪费。

基于此，本申请提供一种视频码率预测方法及装置，用以解决现有技术中存在的视频传输时资源浪费的问题。本申请实施例从人眼的感知特性出发，提出了视频中能够有效反映人眼感知质量特征集合，同时以用户满意度为目标，建立了回归模型，通过该回归模型可以有效预测出相对于参考视频，不同用户满意度下的目标码率，从而可以有效地为视频流媒体动态自适应网络带宽变化提供编码参数。其中，方法和装置是基于同一发明构思的，由于方法及装置解决问题的原理相似，因此装置与方法的实施可以相互参见，重复之处不再赘述。为了使得本申请的实施例更容易被理解，下面，首先对本申请的实施例中涉及的一些描述加以说明，这些说明不应视为对本申请所要求的保护范围的限定。

画面组(group of pictures，GOP)：一个GOP就是一组连续多帧图像组成的集合，每个 GOP包含一定时长的视频，例如5秒等等。

时域掩蔽效应值：人眼对于视频中的运动物体的失真具有不同的失真感知能力，对缓慢或者规则运动物体，人眼可以感知到比较细微的失真，而对于剧烈或者不规则运动的物体，人眼不容易察觉出视频的失真。人眼对于视频不同运动物体失真感知的敏感程度称之为视频的时域掩蔽效应。具有剧烈或者不规则的视频往往具有较大的时域掩蔽效应值，而具有缓慢或者规则运动的视频具有较小的时域掩蔽效应值。

空域掩蔽效应值：人眼对于图像中的不同区域具有不同的失真感知能力，在比较平滑或者规则的图像结构附近，人眼可以感知到比较细微的失真，而在结构杂乱的纹理区域，人眼不容易察觉出图像失真。人眼对于视频图像空域上不同内容失真的感知的敏感程度称之为视频的空域掩蔽效应，视频空域结构复杂的区域，视频空域掩蔽效应值较大，而在视频空域结构规则的区域，空域掩蔽效应值较小。

视觉显著性：视觉显著性描述了人眼对视频中不同区域的关注程度。人类视觉*** (human visual system，HVS)观察一个视频或者图像时，通常会把大部分注意力集中在视觉聚焦点周围一个很小的区域内，这个小区域会有很高的分辨率。而对于聚焦点***的区域，往往以低分辨率的形式呈现。这个视觉关注区域称之为视频显著性区域，预测人眼视觉关注区域的过程，就叫做显著性检测。显著性检测结果以显著图的形式输出，显著图中每个像素点的视觉显著值代表这个像素点可能受到关注的程度，视觉显著值越高表明该像素点越显著，可能受到的关注更多。

视频客观质量值：视频客观质量值是一个全参考的视频质量评价方法。该方法通过结合多个基本质量测度指标来预测主观质量。通过使用机器学习算法融合图像或视频的多个质量评价指标，计算得到最终的视频质量评价分数，即视频客观质量值。

本申请中所涉及的多个，是指两个或两个以上。

另外，需要理解的是，在本申请的描述中，“第一”、“第二”等词汇，仅用于区分描述的目的，而不能理解为指示或暗示相对重要性，也不能理解为指示或暗示顺序。

下面结合附图对本申请提供的资源调度方案进行具体说明。

参见图1，为本申请提供的视频码率预测方法的流程图。本申请提供的视频码率预测方法可以用于流媒体设备中，例如流媒体服务器等等。该方法包括：

S101，确定待预测图像组GOP的第一参数集以及参考视频的第二参数集，所述第一参数据包括所述待预测GOP的一个或多个视频参数，所述第二参数集包括所述参考视频的一个或多个视频参数，所述参考视频为对所述待预测GOP基于预设的压缩标准进行压缩所得到的视频。例如，预设的压缩标准可以为分辨率与码率的对应关系，从而可以根据待预测 GOP的分辨率确定参考视频的码率。

S102，确定所述待预测GOP的特征集，所述特征集包括基于所述第一参数集以及所述第二参数集确定的与人眼感知质量相关的特征值、以及期望用户满意度，所述期望用户满意度为期望的若采用预测码率对所述待预测GOP进行压缩后得到的视频相比于所述参考视频的用户满意度。

在编解码的领域，用户满意度可以指用户对参考视频和处理后得到的目标视频看不出质量差异的比例，例如，50％的用户没有看出参考视频和处理后的目标视频之间的质量差异，则认为该处理后的目标视频相对于参考视频的用户满意度是50％。

S103，将所述待预测GOP的特征集输入预先训练的回归模型，得到所述预测码率。其中，回归模型可以但不限于为支持向量回归(support vector regression，SVR)模型、高斯过程回归(gaussian process regression，GPR)、或者其他机器学习中的回归模型等等。

一种可能的实施方式中，将所述待预测GOP的特征集输入预先训练的回归模型，得到预测的码率，可以通过如下步骤实现：

A1，将所述待预测GOP的特征集基于非线性映射方式映射到高维特征空间，得到高维特征集。

A2，将所述高维特征集输入所述回归模型中，得到所述参考视频的码率与所述预测码率在对数空间的差值。

A3，基于所述参考视频的码率与所述预测码率在对数空间的差值确定所述预测码率。

示例性的，回归模型可以符合下述公式：

f(x)＝w^Tφ(X)+b；

其中，f(x)为所述参考视频的码率与所述预测码率在对数空间的差值，所述w^T为权重，所述φ(X)为所述高维特征集，所述b为偏置，所述X为所述待预测GOP的特征集。

本申请实施例中基于回归模型的方式，通过提取原始视频与人眼感知质量相关的特征值、参考视频与人眼感知质量相关的特征值，并且设置目标码率所对应视频相比于参考视频的用户满意度比值，通过预先训练的回归模型可以能够比较准确的预测出可以满足用户需求的码率，从而可以采用预测的码率对原始视频进行压缩传输。相比与现有技术中，原始视频需要压缩成不同码率的视频流，然后根据当前带宽要求从中选择码率适合的视频流进行传输的方式，本申请实施例中可以通过回归模型预测出满足用户需求的码率，因此可以只采用预测的码率对原始视频进行压缩传输，而不需要将原始视频采用不同码率分别进行压缩，从而可以节省计算资源，也不需要存储不同码率的视频流，从而可以节省存储资源。相比于现有技术中服务器端选择当前带宽条件下的最高码率视频流进行传输，本申请实施例可以采用满足用户需求的码率对原始视频进行压缩，从而可以节省带宽资源。

一种可能的示例中，所述第一参数集可以包括：所述待预测GOP中每个视频帧的时域掩蔽效应值、所述待预测GOP中每个像素点的空域掩蔽效应值、所述待预测GOP中每个像素点的视觉显著值。所述第二参数集包括：所述参考视频的视频客观质量值、所述参考视频的码率。其中，参考视频的视频客观质量值可以为参考视频相比于待预测GOP的视频客观质量值。

因此，所述特征集可以包括：时域掩蔽效应值均值，其中，时域掩蔽效应值均值为基于所述待预测GOP中每个视频帧的时域掩蔽效应值确定的。

示例性的，时域掩蔽效应值均值可以满足如下公式：

其中，f1为时域掩蔽效应值均值，所述N为所述待预测GOP中视频帧的数量，所述M_t(i) 为所述待预测GOP中第i个视频帧的时域掩蔽效应值。

所述特征集还可以包括：空域掩蔽效应值的加权平均值，其中，空域掩蔽效应值的加权平均值为基于所述待预测GOP中每个像素点的权重以及空域掩蔽效应值确定的，所述待预测GOP中每个像素点的权重基于所述每个像素点的视觉显著值所确定。

示例性的，空域掩蔽效应值的加权平均值可以符合如下公式：

其中，f2为空域掩蔽效应值的加权平均值，所述W为所述待预测GOP中视频帧的长度。所述H为所述待预测GOP中视频帧的宽度。所述M_s(i，x，y)为所述待预测GOP中第 i个视频帧中坐标为(x，y)的像素点的空域掩蔽效应值。所述w(i，x，y)为所述待预测GOP 中第i个视频帧中坐标为(x，y)的像素点的权重，所述w(i，x，y)可以符合如下公式：

其中，所述S(i，x，y)为所述待预测GOP中第i个视频帧中坐标为(x，y)的像素点的视觉显著值。

所述特征集还可以包括：所述参考视频的视频客观质量值。

所述特征集还可以包括：以2为底所述参考视频的码率的对数，即log₂(R_ref)，R_ref为所述参考视频的码率。

一种实现方式，所述第一参数集还可以包括N个压缩码率，所述N个压缩码率为N个压缩视频分别对应的码率，所述N个压缩视频为分别采用N个固定量化参数(quantizationparameter，QP)点对所述待预测GOP进行压缩编码得到的，所述N为大于0的整数。

因此，所述特征集还可以包括：以2为底所述N个压缩码率的对数，和/或，至少一个相邻差占最大差值的比例，其中，所述相邻差为两个相邻固定QP点对应的压缩码率之间的差值,所述最大差值为所述N个固定QP点中最大固定QP点对应的压缩码率与所述N个固定QP点中最小固定QP点对应的压缩码率的差值。

示例性的，以N取4，4个QP点分别为22、27、32、37为例，因此，第一参数集可以包括R₂₂、R₂₇、R₃₂、R₃₇。其中，R₂₂为采用QP＝22对待预测GOP进行压缩编码得到的压缩视频的码率，R₂₇为采用QP＝27对待预测GOP进行压缩编码得到的压缩视频的码率，R₃₂为采用QP＝32对待预测GOP进行压缩编码得到的压缩视频的码率，R₃₇为采用QP＝37对待预测GOP进行压缩编码得到的压缩视频的码率。第二特征集包括：{log₂(R₂₂)，log₂(R₂₇)， log₂(R₃₂)，log₂(R₃₇)}，和/或，{(R₂₂-R₂₇)/(R₂₂-R₃₇)，(R₂₇-R₃₂)/(R₂₂-R₃₇)，(R₃₂-R₃₇)/(R₂₂-R₃₇)} 中的至少一个。

一种实现方式，所述第一参数集还可以包括所述M个视频客观质量值，所述M个视频客观质量值为M个压缩视频相对于所述待预测GOP的视频客观质量值，其中，所述M个压缩视频为所述N个压缩视频中的任意M个，所述M为大于0且不大于所述N的整数。所述特征集还可以包括：至少一个视频客观质量值差值，所述视频客观质量值差值为所述 M个视频客观质量值中两个视频客观质量值的差值。

示例性的，以M个压缩视频为采用QP＝22对待预测GOP进行压缩编码得到的压缩视频，以及采用QP＝27对待预测GOP进行压缩编码得到的压缩视频为例，所述第一参数集还可以包括：v₂₂以及v₂₇，其中，v₂₂为采用QP＝22对待预测GOP进行压缩编码得到的压缩视频的视频客观质量值，v₂₇为采用QP＝27对待预测GOP进行压缩编码得到的压缩视频的视频客观质量值。特征集包括：v₂₂以及v₂₇的差值，即v₂₂-v₂₇。

一种实现方式中，所述第二参数集还可以包括：所述参考视频的帧率以及分辨率。所述特征集还可以包括：所述参考视频的帧率以及分辨率。其中，特征集中包括的分辨率可以为参考视频的分辨率进行归一化处理后得到的分辨率。

示例性的，归一化处理后得到的分辨率可以为N_ref/(640×360)，其中，N_ref为参考视频的分辨率。或者，也可以采用其他参数值对参考视频的分辨率进行归一化，本申请实施例在这里不对归一化的参数值进行具体限定。

当然，第一参数集、到二参数集还可以包括其他视频参数，特征集也可以包括其他与人眼感知质量相关的特征值，这里不再一一列举。

为了更好地理解本申请实施例提供的视频码率预测方法，以下结合具体实施例，对预测视频码率的过程进行具体详细描述。预测视频码率的过程如图2所示。应理解，图2所示的实施例仅是一种示例性说明，并不对第一参数集、第二参数集内包括的视频参数的数量、类型等进行具体限定，也不对特征集中包括的特征值的数量、类型等进行具体限定。

S201，确定待预测GOP的第一参数集以及参考视频的第二参数集。

其中，第一参数集可以包括：待预测GOP中每个视频帧的时域掩蔽效应、以及待预测 GOP中每个视频帧中每个像素点的空域掩蔽效应和视觉显著性、采用QP＝22对待预测GOP 进行压缩所得到压缩视频的码率R₂₂、采用QP＝27对待预测GOP进行压缩所得到压缩视频的码率R₂₇、采用QP＝32对待预测GOP进行压缩所得到压缩视频的码率R₃₂、采用QP＝37对待预测GOP进行压缩所得到压缩视频的码率R₃₇、采用QP＝22对待预测GOP进行压缩得到的压缩视频相对于待预测GOP的视频客观质量值v₂₂、采用QP＝27对待预测GOP进行压缩得到的压缩视频相对于待预测GOP的视频客观质量值v₂₇、参考视频相对于待预测GOP 的视频客观质量值v_ref。第二参数集可以包括：参考视频的帧率F_ref、分辨率N_ref和码率R_ref。

S202，通过如下公式确定特征集中的第二特征值f1：

通过如下公式确定特征集中的第二特征值f2：

其中，f2为空域掩蔽效应值的加权平均值，所述W为所述待预测GOP中视频帧的长度。所述H为所述待预测GOP中视频帧的宽度。所述M_s(i，x，y)为所述待预测GOP中第 i个视频帧中坐标为(x，y)的像素点的空域掩蔽效应值。所述w(i，x，y)可以符合如下公式：

将R₂₂、R₂₇、R₃₂、R₃₇分别变换到对数空间，得到特征集中的第三特征值f3、第四特征值f4、第五特征值f5、第六特征值f6，其中，f3＝log₂(R₂₂)，f4＝log₂(R₂₇)， f5＝log₂(R₃₂)，f6＝log₂(R₃₇)。

确定相邻QP点码率变化占整体QP点码率变化的比例，得到特征集中的第七特征值f7、第八特征值f8、第九特征值f9，其中，f7＝(R₂₂-R₂₇)/(R₂₂-R₃₇)， f8＝(R₂₇-R₃₂)/(R₂₂-R₃₇)，f9＝(R₃₂-R₃₇)/(R₂₂-R₃₇)。

确定用QP＝22对待预测GOP进行压缩编码得到的压缩视频的视频客观质量值v₂₂与用QP＝22对待预测GOP进行压缩编码得到的压缩视频的视频客观质量值v₂₇的差值，得到特征集中的第十特征值f10，即f10＝v₂₂-v₂₇。

将参考视频的视频客观质量值v_ref作为特征集中的第十一特征值f11，即f11＝v_ref。

将参考视频的帧率F_ref作为特征集中的第十二特征值f12，即f12＝F_ref。

将参考视频的分辨率N_ref进行归一化后作为特征集中的第十三特征值f13，即 f13＝Nref/(640*360)。

将参考视频的码率变换到对数空间，得到特征集中的第十四特征值f14，即 f14＝log2(R_ref)。

设置期望的若采用预测码率对待预测GOP进行压缩后得到的视频相比于参考视频的用户满意度比值，将该用户满意度比值作为特征集中的第十五特征值f15。

S203，将特征集中的15个特征值，即f1～f15输入预先训练的回归模型中，即将f1～f15 输入f(x)＝w^Tφ(X)+b中，得到f(x)＝w^Tφ(f1～f15)+b，f(x)为参考视频的码率与预测码率在对数空间的差值。根据参考视频的码率与预测码率在对数空间的差值可以确定预测码率，即R_obj＝R_ref-log^-1(f(x))，其中，R_obj为预测码率，log^-1(·)是对数函数的反函数。

一种可能的实施方式中，回归模型可以通过如下方式训练得到：

B1，在第K次训练过程中，将训练样本数据库中的第K个样本视频的特征集输入经过 K-1次调整的回归模型，得到所述第K个样本视频的预测码率，所述K为大于0的整数，所述训练样本数据库包括若干个样本视频的特征集以及每个样本视频对应的目标码率，所述回归模型包括权重和偏置。

其中，训练样本数据库可以通过如下方式构造：

C1，获取若干个样本视频。

C2，针对每个所述样本视频，确定所述样本视频的一个或多个视频参数，以及所述样本视频的参考视频的一个或多个视频参数，所述样本视频的参考视频为所述样本视频基于所述预设的压缩标准进行压缩所对应的视频。

C3，基于所述样本视频的视频参数以及所述样本视频的参考视频的视频参数确定所述特征值。

C4，采用预设码率对所述样本视频进行压缩，得到目标视频，所述预设码率小于所述样本视频的参考视频的码率。

C5，统计所述样本视频的参考视频的用户满意度以及所述目标视频的用户满意度，并确定所述目标视频的用户满意度与所述样本视频的参考视频的用户满意度的用户满意度比值。

C6，将基于所述样本视频的视频参数以及所述样本视频的参考视频的视频参数确定的所述特征值、所述目标视频的用户满意度与所述样本视频的参考视频的用户满意度的用户满意度比值作为所述训练样本数据库中所述样本视频的特征集，将所述预设码率作为所述训练样本数据库中所述样本视频的目标码率。

B2，在第K次训练后，获取所述第K个样本视频的预测码率与所述第K个样本视频的目标码率之间的误差值。

B3，若所述第K个样本视频的预测码率与所述第K个样本视频的目标码率之间的误差值不满足预设条件，则基于所述第K个样本视频的预测码率与所述第K个样本视频的目标码率之间的误差值，调整第K+1次训练过程所使用的权重和偏置；若所述第K个样本视频的预测码率与所述第K个样本视频的目标码率之间的误差值满足预设条件，则得到所述样本视频的特征集与目标码率之间的函数关系，所述函数关系为所述回归模型。

为了更好地理解本申请实施例提供的回归模型训练方法，下面以回归模型为 f(x)＝w^Tφ(X)+b，且通过N个样本视频训练该模型为例，其中，N为大于0的整数，对回归模型训练的过程进行具体详细描述。应理解，下面所述的实施例仅是一种示例性说明，并不对第一参数集、第二参数集内包括的视频参数的数量、类型等进行具体限定，也不对特征集中包括的特征值的数量、类型等进行具体限定。

S301，基于N个样本视频构造训练样本数据库。具体的，可以针对每个样本视频分别执行D1至D3。

D1，确定样本视频的第一特征值至第十四特征值，即f1～f14。其中，确定样本视频的第一特征值至第十四特征值的过程，可以参阅图2的步骤S202中确定待预测GOP的第一特征值至第十四特征值的过程，这里不再重复赘述。

D2，采用小于参考视频码率的预设码率对样本视频进行压缩，得到目标视频。

D3，统计参考视频的用户满意度以及目标视频的用户满意度，确定目标视频的用户满意度与参考视频的用户满意度的用户满意度比值，并将该用户满意度比值作为第十五特征值。

将步骤D1得到的第一特征值至第十四特征值，以及步骤D3得到的第十五特征值作为样本视频的特征集，该特征集为输入数据。将预设码率与参考视频的码率在对数空间的差值作为期望输出。

S302，基于构造的训练样本数据库训练回归模型。具体的，在第i次训练过程中，可以分别执行以下步骤E1至E4，其中，i为取遍不大于N的整数，可以参阅图3所示：

E1，在第i次训练中，将训练样本数据库的第i个样本视频的特征集输入经过第i-1次调整的回归模型中，得到输出结果。执行步骤E2。

即f_i(x)＝w^Tφ(X_i)+b，其中，X_i为第i个样本视频的特征集，f_i(x)为第i个样本视频输入初始化的回归模型中得到的输出结果，w^T为权重，b为偏置。

E2，确定输出结果与第i个样本视频的期望输出之间的差值，并确定该差值的绝对值是否大于损失函数参数。若是，则执行步骤E3；若否，执行步骤E4。

即

其中，y_i为第i个样本视频的期望输出，f_i(x)为第i个样本视频输入初始化的回归模型中得到的输出结果，ε为损失函数参数。

E3，调整初始化的回归模型的权重和偏置，并进行第i+1次训练。

E4，训练完成。

基于与方法实施例的同一发明构思，本发明实施例提供一种视频码率预测装置40，具体用于实现图1至图3所述的实施例描述的方法，该装置的结构如图4所示，包括参数确定模块41、特征确定模块42以及预测模块43。其中，参数确定模块41，用于确定待预测图像组GOP的第一参数集以及参考视频的第二参数集，所述第一参数据包括所述待预测GOP的一个或多个视频参数，所述第二参数集包括所述参考视频的一个或多个视频参数，所述参考视频为对所述待预测GOP基于预设的压缩标准进行压缩所得到的视频。特征确定模块42，用于确定所述待预测GOP的特征集，所述特征集包括基于所述参数确定模块41 确定的所述第一参数集以及所述第二参数集确定的与人眼感知质量相关的特征值、以及期望用户满意度，所述期望用户满意度为期望的若采用预测码率对所述待预测GOP进行压缩后得到的视频相比于所述参考视频的用户满意度比值。预测模块43，将所述特征确定模块42确定的所述待预测GOP的特征集输入预先训练的回归模型，得到所述预测码率。

获取模块31、第一提取模块32、第二提取模块33以及确定模块34还可以用于执行上述方法实施例相对应的其他步骤，具体可以参阅上述方法实施例，这里不再重复赘述。

示例性的，所述装置还包括训练模块44。所述训练模块44，可以用于训练得到所述回归模型。其中，训练模块44训练得到所述回归模型的过程具体可以参阅上述方法实施例，这里不再重复赘述。

示例性的，所述装置还包括构造模块45。所述构造模块45，用于构造所述训练样本数据库。其中，构造模块45构造所述训练样本数据库的过程具体可以参阅上述方法实施例，这里不再重复赘述。

本申请实施例中对模块的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，另外，在本申请各个实施例中的各功能模块可以集成在一个处理器中，也可以是单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

其中，集成的模块既可以采用硬件的形式实现时，如图5所示，视频码率预测装置可以包括处理器501。上述模块对应的实体的硬件可以为处理器501。处理器501，可以是一个中央处理模块(central processing unit，CPU)，或者为数字处理模块等等。该装置还包括：存储器502，用于存储处理器501执行的程序。存储器502可以是非易失性存储器，比如硬盘(hard disk drive，HDD)或固态硬盘(solid-state drive，SSD)等，还可以是易失性存储器(volatile memory)，例如随机存取存储器(random-access memory，RAM)。存储器502是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。该装置还可以包括通信接口503，处理器501可以通过通信接口503获取其他采集设备采集的待预测GOP，或者，处理器501可以通过通信接口503 在数据库中获取待预测GOP。

处理器501用于执行存储器502存储的程序代码，具体用于执行图1至图3所示实施例所述的方法。可以参见图1至图3所示实施例所述的方法，本申请在此不再赘述。

本申请实施例中不限定上述处理器501、存储器502以及通信接口503之间的具体连接介质。本申请实施例在图5中以处理器501、存储器502以及通信接口503之间通过总线504连接，总线在图5中以粗线表示，其它部件之间的连接方式，仅是进行示意性说明，并不引以为限。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图5中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

本发明实施例还提供了一种计算机可读存储介质，用于存储为执行上述处理器所需执行的计算机软件指令，其包含用于执行上述处理器所需执行的程序。

本领域内的技术人员应明白，本申请的实施例可提供为方法、***、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种视频码率预测方法，其特征在于，包括：

确定待预测图像组GOP的第一参数集以及参考视频的第二参数集，所述第一参数据包括所述待预测GOP的一个或多个视频参数，所述第二参数集包括所述参考视频的一个或多个视频参数，所述参考视频为对所述待预测GOP基于预设的压缩标准进行压缩所得到的视频；

确定所述待预测GOP的特征集，所述特征集包括基于所述第一参数集以及所述第二参数集确定的与人眼感知质量相关的特征值、以及期望用户满意度，所述期望用户满意度为期望的若采用预测码率对所述待预测GOP进行压缩后得到的视频相比于所述参考视频的用户满意度比值；

将所述待预测GOP的特征集输入预先训练的回归模型，得到所述预测码率。

2.如权利要求1所述的方法，其特征在于，将所述待预测GOP的特征集输入预先训练的回归模型，得到预测的码率，包括：

将所述待预测GOP的特征集基于非线性映射方式映射到高维特征空间，得到高维特征集；

将所述高维特征集输入所述回归模型中，得到所述参考视频的码率与所述预测码率在对数空间的差值；

基于所述参考视频的码率与所述预测码率在对数空间的差值确定所述预测码率。

3.如权利要求2所述的方法，其特征在于，所述回归模型符合下述公式：

f(x)＝w^Tφ(X)+b；

其中，f(x)为所述参考视频的码率与所述预测码率在对数空间的差值，所述w^T为权重，所述φ(X)为所述高维特征集，所述b为偏置。

4.如权利要求1至3任一项所述的方法，其特征在于，所述第一参数集包括：所述待预测GOP中每个视频帧的时域掩蔽效应值、所述待预测GOP中每个像素点的空域掩蔽效应值、所述待预测GOP中每个像素点的视觉显著值；

所述第二参数集包括：所述参考视频的视频客观质量值、所述参考视频的码率；

所述特征集包括：时域掩蔽效应值均值、空域掩蔽效应值的加权平均值、所述参考视频的视频客观质量值，以及以2为底所述参考视频的码率的对数；

其中，时域掩蔽效应值均值为基于所述待预测GOP中每个视频帧的时域掩蔽效应值确定的；空域掩蔽效应值的加权平均值为基于所述待预测GOP中每个像素点的权重以及空域掩蔽效应值确定的，所述待预测GOP中每个像素点的权重基于所述每个像素点的视觉显著值所确定。

5.如权利要求4所述的方法，其特征在于，所述第一参数集还包括N个压缩码率，所述N个压缩码率为N个压缩视频分别对应的码率，所述N个压缩视频为分别采用N个固定量化参数QP点对所述待预测GOP进行压缩编码得到的，所述N为大于0的整数；

所述特征集还包括：以2为底所述N个压缩码率的对数，和/或，至少一个相邻差占最大差值的比例，其中，所述相邻差为两个相邻固定QP点对应的压缩码率之间的差值,所述最大差值为所述N个固定QP点中最大固定QP点对应的压缩码率与所述N个固定QP点中最小固定QP点对应的压缩码率的差值。

6.如权利要求5所述的方法，其特征在于，所述第一参数集还包括所述M个视频客观质量值，所述M个视频客观质量值为M个压缩视频相对于所述待预测GOP的视频客观质量值，其中，所述M个压缩视频为所述N个压缩视频中的任意M个，所述M为大于0且不大于所述N的整数；

所述特征集还包括：至少一个视频客观质量值差值，所述视频客观质量值差值为所述M个视频客观质量值中两个视频客观质量值的差值。

7.如权利要求4至6任一项所述的方法，其特征在于，所述第二参数集还包括：所述参考视频的帧率以及分辨率；

所述特征集还包括：所述参考视频的帧率以及分辨率。

8.如权利要求1至7任一项所述的方法，其特征在于，所述回归模型通过如下方式训练得到：

在第K次训练过程中，将训练样本数据库中的第K个样本视频的特征集输入经过K-1次调整的回归模型，得到所述第K个样本视频的预测码率，所述K为大于0的整数，所述训练样本数据库包括若干个样本视频的特征集以及每个样本视频对应的目标码率，所述回归模型包括权重和偏置；

在第K次训练后，获取所述第K个样本视频的预测码率与所述第K个样本视频的目标码率之间的误差值；

若所述第K个样本视频的预测码率与所述第K个样本视频的目标码率之间的误差值不满足预设条件，则基于所述第K个样本视频的预测码率与所述第K个样本视频的目标码率之间的误差值，调整第K+1次训练过程所使用的权重和偏置；

若所述第K个样本视频的预测码率与所述第K个样本视频的目标码率之间的误差值满足预设条件，则得到所述样本视频的特征集与目标码率之间的函数关系，所述函数关系为所述回归模型。

9.如权利要求8所述的方法，其特征在于，所述训练样本数据库通过如下方式构造：

获取若干个样本视频；

针对每个所述样本视频，确定所述样本视频的一个或多个视频参数，以及所述样本视频的参考视频的一个或多个视频参数，所述样本视频的参考视频为所述样本视频基于所述预设的压缩标准进行压缩所对应的视频；

基于所述样本视频的视频参数以及所述样本视频的参考视频的视频参数确定所述特征值；

采用预设码率对所述样本视频进行压缩，得到目标视频，所述预设码率小于所述样本视频的参考视频的码率；

统计所述样本视频的参考视频的用户满意度以及所述目标视频的用户满意度；

确定所述目标视频的用户满意度与所述样本视频的参考视频的用户满意度的用户满意度比值；

将基于所述样本视频的视频参数以及所述样本视频的参考视频的视频参数确定的所述特征值、所述目标视频的用户满意度与所述样本视频的参考视频的用户满意度的用户满意度比值作为所述训练样本数据库中所述样本视频的特征集，将所述预设码率作为所述训练样本数据库中所述样本视频的目标码率。

10.一种视频码率预测装置，其特征在于，包括：

参数确定模块，用于确定待预测图像组GOP的第一参数集以及参考视频的第二参数集，所述第一参数据包括所述待预测GOP的一个或多个视频参数，所述第二参数集包括所述参考视频的一个或多个视频参数，所述参考视频为对所述待预测GOP基于预设的压缩标准进行压缩所得到的视频；

特征确定模块，用于确定所述待预测GOP的特征集，所述特征集包括基于所述参数确定模块确定的所述第一参数集以及所述第二参数集确定的与人眼感知质量相关的特征值、以及期望用户满意度，所述期望用户满意度为期望的若采用预测码率对所述待预测GOP进行压缩后得到的视频相比于所述参考视频的用户满意度比值；

预测模块，将所述特征确定模块确定的所述待预测GOP的特征集输入预先训练的回归模型，得到所述预测码率。

11.如权利要求10所述的装置，其特征在于，所述预测模块，具体用于：

12.如权利要求11所述的装置，其特征在于，所述回归模型符合下述公式：

f(x)＝w^Tφ(X)+b；

13.如权利要求10至12任一项所述的装置，其特征在于，所述第一参数集包括：所述待预测GOP中每个视频帧的时域掩蔽效应值、所述待预测GOP中每个像素点的空域掩蔽效应值、所述待预测GOP中每个像素点的视觉显著值；

14.如权利要求13所述的装置，其特征在于，所述第一参数集还包括N个压缩码率，所述N个压缩码率为N个压缩视频分别对应的码率，所述N个压缩视频为分别采用N个固定量化参数QP点对所述待预测GOP进行压缩编码得到的，所述N为大于0的整数；

15.如权利要求14所述的装置，其特征在于，所述第一参数集还包括所述M个视频客观质量值，所述M个视频客观质量值为M个压缩视频相对于所述待预测GOP的视频客观质量值，其中，所述M个压缩视频为所述N个压缩视频中的任意M个，所述M为大于0且不大于所述N的整数；

16.如权利要求13至15任一项所述的装置，其特征在于，所述第二参数集还包括：所述参考视频的帧率以及分辨率；

所述特征集还包括：所述参考视频的帧率以及分辨率。

17.如权利要求10至16任一项所述的装置，其特征在于，所述装置还包括训练模块；

所述训练模块，用于通过如下方式训练得到所述回归模型：

18.如权利要求17所述的装置，其特征在于，所述装置还包括构造模块；

所述构造模块，用于通过如下方式构造所述训练样本数据库：

获取若干个样本视频；

19.一种计算机存储介质，其特征在于，所述计算机存储介质存储有程序指令，当所述程序指令在电子设备上运行时，使得所述电子设备执行权利要求1至9任一项所述的方法。