CN112435244A

CN112435244A - 直播视频的质量评价方法、装置、计算机设备和存储介质

Info

Publication number: CN112435244A
Application number: CN202011357483.2A
Authority: CN
Inventors: 代苑莹; 张振新; 朱经腾; 方周
Original assignee: Guangzhou Huaduo Network Technology Co Ltd
Current assignee: Guangzhou Huaduo Network Technology Co Ltd
Priority date: 2020-11-27
Filing date: 2020-11-27
Publication date: 2021-03-02

Abstract

本申请涉及一种直播视频的质量评价方法、装置、计算机设备和存储介质。方法包括：按照预设的时间间隔，周期性地从第一直播视频中截取视频帧；对于截取到的每个视频帧，将视频帧中的亮度分量输入至图像质量分类模型中，得到图像质量分类模型输出的视频帧的质量类别，其中，图像质量分类模型是根据多个训练样本训练得到的，各训练样本包括样本失真图像的亮度分量和质量类别标签，各质量类别标签是根据对应的样本失真图像以及样本失真图像对应的标准清晰度图像进行质量评价得到的；根据各视频帧的质量类别，向服务器上报第一直播视频的质量类别。采用本方法能够提升观众终端直播视频的质量评价效率和准确性。

Description

直播视频的质量评价方法、装置、计算机设备和存储介质

技术领域

本申请涉及互联网技术领域，特别是涉及一种直播视频的质量评价方法、装置、计算机设备和存储介质。

背景技术

随着网路直播行业的快速发展，越来越多的用户通过观看网络直播来满足日常的娱乐需求。

在网络直播过程中，主播终端拍摄到视频后，会对视频进行预处理以及视频编码等操作，并将编码后的码流上传服务器，服务器再对该编码后的码流进行视频转码等操作后作为直播视频下发到观众终端，供用户观看。

然而，上述网络直播过程中，观众终端接收到的直播视频可能存在失真的情况，如何对观众终端接收到的直播视频进行快速准确的质量评价，成为目前亟待解决的问题。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提升观众终端直播视频的质量评价效率和准确性的直播视频的质量评价方法、装置、计算机设备和存储介质。

第一方面，本申请实施例提供一种直播视频的质量评价方法，所述方法包括：

按照预设的时间间隔，周期性地从第一直播视频中截取视频帧；

对于截取到的每个所述视频帧，将所述视频帧中的亮度分量输入至图像质量分类模型中，得到所述图像质量分类模型输出的所述视频帧的质量类别，其中，所述图像质量分类模型是根据多个训练样本训练得到的，各所述训练样本包括样本失真图像的亮度分量和质量类别标签，各所述质量类别标签是根据对应的样本失真图像以及所述样本失真图像对应的标准清晰度图像进行质量评价得到的；

根据各所述视频帧的质量类别，向服务器上报所述第一直播视频的质量类别。

在其中一个实施例中，所述图像质量分类模型的训练过程包括：

获取多个标准清晰度图像和各所述标准清晰度图像对应的样本失真图像；

对于每个所述样本失真图像，对所述样本失真图像和对应的标准清晰度图像采用质量评价算法进行质量评价，得到所述样本失真图像对应的质量得分；

确定所述质量得分对应的得分区间，并根据所述得分区间确定所述样本失真图像的质量类别标签；

根据各所述样本失真图像的亮度分量和质量类别标签，训练初始图像质量分类模型，得到所述图像质量分类模型。

在其中一个实施例中，所述根据各所述样本失真图像的亮度分量和质量类别标签，训练初始图像质量分类模型，得到所述图像质量分类模型之前，所述方法包括：

对于每个所述样本失真图像，从所述样本失真图像中提取所述样本失真图像的亮度分量。

在其中一个实施例中，所述获取多个标准清晰度图像和各所述标准清晰度图像对应的样本失真图像，包括：

获取多个原始图像，并对各所述原始图像进行图像格式转换，得到各所述原始图像对应的标准清晰度图像；

对各所述原始图像进行失真处理，并对失真处理后的各原始图像进行图像格式转换，得到各所述原始图像对应的样本失真图像，所述失真处理包括缩放处理、滤波处理以及编码处理中的至少一种。

在其中一个实施例中，所述图像质量分类模型包括第一特征提取层、第二特征提取层、第三特征提取层、特征拼接层和图像质量分类层，所述将所述视频帧中的亮度分量输入至图像质量分类模型中，得到所述图像质量分类模型输出的所述视频帧的质量类别，包括：

将所述视频帧中的亮度分量输入至所述第一特征提取层，通过所述第一特征提取层对所述视频帧中的亮度分量进行特征提取，得到第一图像特征；

将所述第一图像特征分别输入至所述第二特征提取层和所述第三特征提取层，通过所述第二特征提取层对所述第一图像特征进行特征提取得到第二图像特征，并通过所述第三特征提取层对所述第一图像特征进行特征提取得到第三图像特征；

将所述第二图像特征和所述第三图像特征输入至所述特征拼接层中，通过所述特征拼接层对所述第二图像特征和所述第三图像特征进行特征拼接，得到拼接图像特征；

将所述拼接图像特征输入至所述图像质量分类层，得到所述视频帧的质量类别。

在其中一个实施例中，所述根据各所述视频帧的质量类别，向服务器上报所述第一直播视频的质量类别，包括：

检测各所述视频帧的质量类别是否为预设质量类别；

若存在至少一个视频帧的质量类别为所述预设质量类别，则将所述预设质量类别作为所述第一直播视频的质量类别向所述服务器上报。

在其中一个实施例中，所述方法还包括：

若所述第一直播视频的质量类别为预设质量类别，则向所述服务器上报所述第一直播视频的第一视频码率，所述第一视频码率用于指示所述服务器下发视频码率大于所述第一视频码率的第二直播视频，所述第二直播视频在时序上处于所述第一直播视频之后。

第二方面，本申请实施例提供一种直播视频的质量评价装置，所述装置包括：

截取模块，用于按照预设的时间间隔，周期性地从第一直播视频中截取视频帧；

分类模块，用于对于截取到的每个所述视频帧，将所述视频帧中的亮度分量输入至图像质量分类模型中，得到所述图像质量分类模型输出的所述视频帧的质量类别，其中，所述图像质量分类模型是根据多个训练样本训练得到的，各所述训练样本包括样本失真图像的亮度分量和质量类别标签，各所述质量类别标签是根据对应的样本失真图像以及所述样本失真图像对应的标准清晰度图像进行质量评价得到的；

上报模块，用于根据各所述视频帧的质量类别，向服务器上报所述第一直播视频的质量类别。

第三方面，本申请实施例提供一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现如上述第一方面的方法的步骤。

第四方面，本申请实施例提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上述第一方面的方法的步骤。

本申请实施例提供的技术方案带来的有益效果至少包括：

通过按照预设的时间间隔，周期性地从第一直播视频中截取视频帧，对于截取到的每个视频帧，将视频帧中的亮度分量输入至图像质量分类模型中，得到图像质量分类模型输出的视频帧的质量类别，其中，该图像质量分类模型是根据多个训练样本训练得到的，各训练样本包括样本失真图像的亮度分量和质量类别标签，各质量类别标签是根据对应的样本失真图像以及样本失真图像对应的标准清晰度图像进行质量评价得到的，而后，根据各视频帧的质量类别，向服务器上报第一直播视频的质量类别；这样，相较于人工根据经验为样本失真图像进行质量打分，并将人工打分的分值作为样本失真图像的质量类别标签的方式，本申请实施例质量类别标签是根据对应的样本失真图像以及该样本失真图像对应的标准清晰度图像进行质量评价得到的，这就避免了人工打分确定标签造成的主观误差，提升了质量类别标签的准确性，从而提升了图像质量分类模型的准确性以及视频帧的质量类别的准确性。另外，本申请实施例是将视频帧中的亮度分量输入至图像质量分类模型中，即，只需要通过图像质量分类模型对视频帧中的亮度分量进行处理则可以得到视频帧的质量类别，而不需要对整个视频帧进行处理，这就减少了图像质量分类模型的数据处理量，从而提升了图像质量分类模型的分类效率，提升了第一直播视频的质量评价效率。

附图说明

图1为一个实施例中直播视频的质量评价方法的应用环境图；

图2为一个实施例中直播视频的质量评价方法的流程示意图；

图3为一个实施例中图像质量分类模型的训练过程的流程示意图；

图4为一个实施例中步骤301的流程示意图；

图5为一个实施例中一种示例性地初始图像质量分类模型的网络结构图；

图6为一个实施例中观众终端通过图像质量分类模型得到视频帧的质量类别的流程示意图；

图7为一个实施例中直播视频的质量评价方法的流程示意图；

图8为一个实施例中直播视频的质量评价方法的流程示意图；

图9为一个实施例中直播视频的质量评价装置的结构框图；

图10为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

直播指的是通过互联网进行的视频直播。在直播过程中，主播所持有的终端(下文称其为主播终端)可以拍摄视频，主播终端对拍摄的视频进行预处理后再进行编码，将编码得到的码流发送至服务器。服务器对该码流经过转码等操作后再下发至观众所持有的终端(下文称其为观众终端)，观众终端对接收到的码流进行解码后则可以在屏幕渲染显示了。

在直播过程中，主播终端和服务器基于拍摄视频的处理都可能会造成视频失真，当失真较大时，将严重影响观众终端观众的直播观看体验。因此，有必要对观众终端解码得到的直播视频进行快速且准确的质量评价，以提升观众的直播观看体验。

鉴于此，本申请实施例提出了一种直播视频的质量评价方法，在该方法中，通过按照预设的时间间隔，周期性地从第一直播视频中截取视频帧，对于截取到的每个视频帧，将视频帧中的亮度分量输入至图像质量分类模型中，得到图像质量分类模型输出的视频帧的质量类别，其中，该图像质量分类模型是根据多个训练样本训练得到的，各训练样本包括样本失真图像的亮度分量和质量类别标签，各质量类别标签是根据对应的样本失真图像以及样本失真图像对应的标准清晰度图像进行质量评价得到的，而后，根据各视频帧的质量类别，向服务器上报第一直播视频的质量类别；这样，相较于人工根据经验为样本失真图像打分，将人工打分的分值作为样本失真图像的质量类别标签的方式，本申请实施例质量类别标签是根据对应的样本失真图像以及该样本失真图像对应的标准清晰度图像进行质量评价得到的，这就避免了人工打分确定标签造成的主观误差，提升了质量类别标签的准确性，从而提升了图像质量分类模型的准确性以及提升了视频帧的质量类别的准确性。另外，本申请实施例是将视频帧中的亮度分量输入至图像质量分类模型中，即，图像质量分类模型只需要对视频帧中的亮度分量进行处理则可以得到视频帧的质量类别，而不需要对整个视频帧进行处理，这就减少了图像质量分类模型的数据处理量，从而提升了图像质量分类模型的分类效率，提升了第一直播视频的质量评价效率。

下面，将对本申请实施例提供的直播视频的质量评价方法所涉及到的实施环境进行简要说明。

如图1所示，该实施环境可以包括主播终端101、服务器102和观众终端103。其中，主播终端101可以通过有线或无线网络与服务器102通信，观众终端103也可以通过有线或无线网络与服务器102通信。

其中，服务器102可以是一台服务器，也可以是由多台服务器组成的服务器集群，服务器102可以是塔式服务器、机架服务器、刀片式服务器、高密度服务器、单路服务器、双路服务器或者多路服务器等，本申请实施例对服务器102的类型不作具体限定。其中，主播终端101以及观众终端103可以是个人计算机、笔记本电脑、媒体播放器、智能电视、智能手机、平板电脑和便携式可穿戴设备等，本申请实施例对主播终端101和观众终端103的类型也不作具体限定。

在一个实施例中，如图2所示，提供了一种直播视频的质量评价方法，以该方法应用于图1所示的观众终端为例进行说明，该方法包括步骤201、步骤202和步骤203：

步骤201，观众终端按照预设的时间间隔，周期性地从第一直播视频中截取视频帧。

在直播过程中，服务器对主播终端上传的编码后的码流进行转码等操作后下发至观众终端，观众终端对接收到的码流进行解码则得到第一直播视频。观众终端对该第一直播视频进行渲染后则可以在屏幕展示以供观众观看。

第一直播视频由连续的视频帧组成，本申请实施例中，观众终端可以按照预设的时间间隔，周期性地从第一直播视频中截取视频帧，预设的时间间隔例如可以是2秒、3秒等，在此不做具体限制。

步骤202，观众终端对于截取到的每个视频帧，将视频帧中的亮度分量输入至图像质量分类模型中，得到图像质量分类模型输出的视频帧的质量类别。

本申请实施例中，视频帧可以是YUV格式的图像数据，每个视频帧包括Y、U、V三个分量，其中，Y表示明亮度，即灰度值，U和V表示的是色度，作用是用于指定像素的颜色。

观众终端每截取到一个视频帧，观众终端则从该视频帧中提取亮度分量，即提取Y分量，并将提取的亮度分量输入至图像质量分类模型中，通过图像质量分类模型对该亮度分量进行特征提取，并基于提取的特征进行分类，即可得到图像质量分类模型输出的该视频帧的质量类别，质量类别如优、良、中、差等。这样，观众终端通过图像质量分类模型只需对视频帧的Y分量进行处理即可得到该视频帧的质量类别，而不必再对视频帧的U、V分量进行处理，减少了观众终端的数据处理量，提升了图像质量分类模型的分类效率。

本申请实施例中，图像质量分类模型是根据多个训练样本训练得到的，每个训练样本包括样本失真图像的亮度分量和质量类别标签，每个质量类别标签是根据对应的样本失真图像以及样本失真图像对应的标准清晰度图像进行质量评价得到的。在一种可能的实施方式中，图像质量分类模型可以是观众终端根据多个训练样本预先训练的。在另一种可能的实施方式中，图像质量分类模型也可以是服务器根据多个训练样本训练的，服务器将训练好的图像质量分类模型发送至观众终端，等等，在此对图像质量分类模型的训练主体不做具体限制。

以图像质量分类模型是服务器训练为例，服务器获取多个样本失真图像以及每个样本失真图像对应的标准清晰度图像，标准清晰度图像可以是对主播终端拍摄的视频中的原始图像进行格式转换得到的YUV格式的图像数据，样本失真图像可以是对原始图像进行失真处理，并对失真处理后的图像进行格式转换得到的YUV格式的图像数据。

对于每个样本失真图像，服务器采用PSNR(Peak Signal Noise Rate，峰值信噪比)、SSIM(Structural SIMilarity，结构相似性)或VMAF(Video Multi-methodAssessment Fusion，视频多方法评估融合)等质量评价算法，对该样本失真图像和对应的标准清晰度图像进行质量评价，得到该样本失真图像对应的质量得分，服务器则可以根据该质量得分确定该样本失真图像对应的质量类别标签。服务器将各样本失真图像的亮度分量和对应的质量类别标签输入至初始图像质量分类模型中，对初始图像质量分类模型进行迭代训练，模型收敛后得到图像质量分类模型。本申请实施例中，初始图像质量分类模型可以是VggNet或ResNet等卷积神经网络框架，在此不做具体限制。

这样，相较于人工根据经验为样本失真图像进行质量打分，并将人工打分的分值作为样本失真图像的质量类别标签的方式，本申请实施例质量类别标签是采用质量评价算法对样本失真图像以及该样本失真图像对应的标准清晰度图像进行质量评价得到的，这就避免了人工打分确定标签，由于注意力不集中或者主观差异造成的误差，提升了质量类别标签的准确性，从而提升了图像质量分类模型的准确性以及视频帧的质量类别的准确性。

步骤203，观众终端根据各视频帧的质量类别，向服务器上报第一直播视频的质量类别。

观众终端每截取到一个视频帧，则将该视频帧中的亮度分量输入至图像质量分类模型中，得到图像质量分类模型输出的该视频帧的质量类别，该质量类别如优、良、中或差。

在一种可能的实施方式中，观众终端可以检测每个视频帧的质量类别是否为预设质量类别，预设质量类别例如可以是差，若存在至少一个视频帧的质量类别为预设质量类别，观众终端则将预设质量类别作为第一直播视频的质量类别向服务器上报。

例如，观众终端若检测到连续预设帧数的视频帧的质量较差，如连续3帧视频帧的质量类别为差，观众终端则确定第一直播视频的质量较差，并向服务器上报第一直播视频的质量类别为差，这样，服务器则可以提高观众终端的直播视频的质量。

在另一种可能的实施方式中，观众终端若检测到预设时间段内质量较差的视频帧的数量大于预设数量阈值，观众终端也可以确定第一直播视频的质量较差，并向服务器上报第一直播视频的质量类别为差，等等。在此对观众终端根据各视频帧的质量类别确定第一直播视频的质量类别的方式不做具体限制。

作为一种实施方式，若观众终端确定第一直播视频的质量类别不为差，即第一直播视频的质量较佳，观众终端则不向服务器上报第一直播视频的质量类别，由此可以减小观众终端和服务器之间的通信开销。

上述实施例通过按照预设的时间间隔，周期性地从第一直播视频中截取视频帧，对于截取到的每个视频帧，将视频帧中的亮度分量输入至图像质量分类模型中，得到图像质量分类模型输出的视频帧的质量类别，其中，该图像质量分类模型是根据多个训练样本训练得到的，各训练样本包括样本失真图像的亮度分量和质量类别标签，各质量类别标签是根据对应的样本失真图像以及样本失真图像对应的标准清晰度图像进行质量评价得到的，而后，根据各视频帧的质量类别，向服务器上报第一直播视频的质量类别；这样，相较于人工根据经验为样本失真图像进行质量打分，并将人工打分的分值作为样本失真图像的质量类别标签的方式，本申请实施例质量类别标签是根据对应的样本失真图像以及该样本失真图像对应的标准清晰度图像进行质量评价得到的，这就避免了人工打分确定标签造成的主观误差，提升了质量类别标签的准确性，从而提升了图像质量分类模型的准确性以及视频帧的质量类别的准确性。另外，本申请实施例是将视频帧中的亮度分量输入至图像质量分类模型中，即，只需要通过图像质量分类模型对视频帧中的亮度分量进行处理则可以得到视频帧的质量类别，而不需要对整个视频帧进行处理，这就减少了图像质量分类模型的数据处理量，从而提升了图像质量分类模型的分类效率，提升了第一直播视频的质量评价效率。

在一个实施例中，基于上述图2所示的实施例，本实施例涉及的图像质量分类模型的训练过程。参见图3，图像质量分类模型的训练过程可以包括步骤301、步骤302、步骤303、步骤304和步骤305：

步骤301，获取多个标准清晰度图像和各标准清晰度图像对应的样本失真图像。

本实施例中，以图像质量分类模型是服务器训练的为例，对图像质量分类模型的训练过程进行说明。

在步骤301一种可能的实施方式中，服务器的训练样本数据库中可以预置多个标准清晰度图像和各标准清晰度图像对应的样本失真图像。标准清晰度图像可以是YUV格式的原始图像数据，样本失真图像可以是与该原始图像数据对应的YUV格式的失真图像数据。服务器则可以从该训练样本数据库中获取多个标准清晰度图像和各标准清晰度图像对应的样本失真图像。

在步骤301另一种可能的实施方式中，参见图4，步骤301可以包括如图4所示的步骤3011和步骤3012：

步骤3011，获取多个原始图像，并对各原始图像进行图像格式转换，得到各原始图像对应的标准清晰度图像。

服务器获取主播终端拍摄的视频中的多个原始图像，原始图像为RGB格式的原始图像数据。对于每个原始图像，服务器采用如下公式1-3对该原始图像进行格式转换，得到该原始图像对应的YUV格式的标准清晰度图像：

Y＝0.299*R+0.587*G+0.114*B 公式1

U＝-0.169*R-0.331*G+0.5*B 公式2

V＝0.5*R-0.419*G-0.081*B 公式3

其中，(R，G，B)为原始图像中一个像素点的RGB像素值，(Y，U，V)为该像素点在标准清晰度图像对应位置的YUV像素值。这样，通过公式1-3，服务器则可以得到各原始图像对应的YUV格式的标准清晰度图像。

步骤3012，对各原始图像进行失真处理，并对失真处理后的各原始图像进行图像格式转换，得到各原始图像对应的样本失真图像。

服务器模拟直播场景下原始图像传输过程中可能会存在的失真，对各原始图像进行失真处理，该失真处理包括缩放处理、滤波处理以及编码处理中的至少一种，失真处理后服务器得到失真处理后的各原始图像。

失真处理后的各原始图像为RGB格式的失真图像数据，服务器对每个失真处理后的原始图像采用上述公式1-3进行格式转换，得到每个失真处理后的原始图像对应的YUV格式的样本失真图像。

这样，服务器则得到多个YUV格式的标准清晰度图像和各标准清晰度图像对应的YUV格式的样本失真图像。

步骤302，对于每个样本失真图像，对样本失真图像和对应的标准清晰度图像采用质量评价算法进行质量评价，得到样本失真图像对应的质量得分。

本申请实施例中，质量评价算法可以是VMAF，VMAF通过融合多个评价指标计算出一个最终的图像质量的质量得分，能够较好的反映主观质量。对于每个样本失真图像，服务器通过VMAF提供的接口对该样本失真图像和对应的标准清晰度图像进行质量评价，得到样本失真图像对应的质量得分。

步骤303，确定质量得分对应的得分区间，并根据得分区间确定样本失真图像的质量类别标签。

通过VMAF得到的质量得分的范围在0-100之间，其中，0分表示样本失真图像的质量极差，100分表示样本失真图像的质量极好。

由于通过VMAF得到的质量得分会在一定范围内波动，本申请实施例对质量得分划分4个区间：100-80，80-60，60-40，40-0，这4个区间依次对应质量类别标签优、良、中、差。即质量得分在100-80之间的样本失真图像的质量类别标签确定为“优”，质量得分在80-60之间的样本失真图像的质量类别标签确定为“良”，质量得分在60-40之间的样本失真图像的质量类别标签确定为“中”，质量得分在0-40之间的样本失真图像的质量类别标签确定为“差”。

这样，对于每个样本失真图像，服务器确定该样本失真图像的质量得分对应的得分区间，若得分区间为100-80，则该样本失真图像的质量类别标签确定为优，若得分区间为60-80，则该样本失真图像的质量类别标签确定为良，等等。

步骤304，对于每个样本失真图像，从样本失真图像中提取样本失真图像的亮度分量。

服务器确定每个样本失真图像的质量类别标签后，从每个YUV格式的样本失真图像中提取亮度分量，即提取Y分量。

步骤305，根据各样本失真图像的亮度分量和质量类别标签，训练初始图像质量分类模型，得到图像质量分类模型。

本申请实施例中，初始图像质量分类模型可以是Resnet残差网络结构。参见图5，图5为一种示例性地初始图像质量分类模型的网络结构图。如图5所示，初始图像质量分类模型的卷积层可以包括conv0、conv1、conv2、conv3、conv4以及conv5，relu0，relu1以及relu2均为激活层，pool为池化层，fc为全连接层，由于层数较小，因此模型训练及使用过程中的资源消耗较少。

在一种可能的实施方式中，conv0的卷积核大小可以为5*5，卷积核数量可以为32；conv1的卷积核大小可以为1*1，卷积核数量可以为16；conv2的卷积核大小可以为3*1，卷积核数量可以为8；conv3的卷积核大小可以为1*3，卷积核数量可以为8；conv4的卷积核大小可以为1*1，卷积核数量可以为8；conv5的卷积核大小可以为1*1，卷积核数量可以为8。这样，本申请实施例初始图像质量分类模型中卷积核大小、卷积核数量以及网络层数均较小，这就降低了模型训练及使用过程中的资源消耗，引入残差结构还可以提升分类效果。

服务器对样本失真图像的亮度分量按照初始图像质量分类模型的输入尺寸需求调整大小后，将各样本失真图像的亮度分量和质量类别标签作为input输入至初始图像质量分类模型中，通过初始图像质量分类模型的各个卷积层、激活层以及池化层处理后，再通过全连接层输出每个样本失真图像的质量类别。服务器采用交叉熵损失函数计算输出的每个样本失真图像的质量类别与对应的质量类别标签之间的损失值，并根据各个样本失真图像对应的损失值对初始图像质量分类模型的模型参数进行调整。服务器将各样本失真图像的亮度分量和质量类别标签作为input再次输入至参数调整后的初始图像质量分类模型中，如此反复迭代，直至损失值小于预设阈值，服务器则确定初始图像质量分类模型收敛，得到图像质量分类模型。

在一种可能的实施方式中，服务器还可以采用优化器，如自适应矩估计Adam优化器对训练得到的模型进行优化，得到最终的图像质量分类模型。

本申请实施例中，服务器可以将图像质量分类模型集成至直播应用程序的安装包中，这样，若观众终端向服务器请求安装该直播应用程序，服务器则将集成了图像质量分类模型的直播应用程序的安装包下发至观众终端。观众终端安装直播应用程序后，观众通过安装的直播应用程序观看直播视频时，观众终端则按照预设的时间间隔，周期性地从第一直播视频中截取视频帧，对于截取到的每个视频帧，将视频帧中的亮度分量输入至该图像质量分类模型中，得到图像质量分类模型输出的视频帧的质量类别；观众终端根据各视频帧的质量类别，若确定第一直播视频的质量较差，观众终端则向服务器上报第一直播视频的质量类别，服务器则提升观众终端的直播视频的质量，由此保证了观众终端直播视频的质量稳定性，提升用户的观看体验。另外，本实施例观众终端不必自行训练图像质量分类模型，从而降低了观众终端的计算压力。

在一个实施例中，基于上述图2所示的实施例，参见图6，本实施例涉及的是观众终端如何通过图像质量分类模型得到视频帧的质量类别的过程。本实施例图像质量分类模型包括第一特征提取层、第二特征提取层、第三特征提取层、特征拼接层和图像质量分类层，服务器可以通过执行如图6所示的步骤601、步骤602、步骤603和步骤604实现将视频帧中的亮度分量输入至图像质量分类模型中，得到图像质量分类模型输出的视频帧的质量类别的过程：

步骤601，观众终端将视频帧中的亮度分量输入至第一特征提取层，通过第一特征提取层对视频帧中的亮度分量进行特征提取，得到第一图像特征。

在一种可能的实施方式中，图像质量分类模型的网络结构可以如图5所示，第一特征提取层可以包括conv0、relu0以及pool层。观众终端将视频帧中的亮度分量作为input输入至第一特征提取层，通过该第一特征提取层对视频帧中的亮度分量进行特征提取，得到第一图像特征。

步骤602，观众终端将第一图像特征分别输入至第二特征提取层和第三特征提取层，通过第二特征提取层对第一图像特征进行特征提取得到第二图像特征，并通过第三特征提取层对第一图像特征进行特征提取得到第三图像特征。

请继续参见图5，第二特征提取层可以包括conv1、relu1、conv2、conv3、relu2、conv4，第三特征提取层可以包括conv5，观众终端将第一图像特征分别输入至该第二特征提取层和该第三特征提取层，得到第二图像特征和第三图像特征。

步骤603，观众终端将第二图像特征和第三图像特征输入至特征拼接层中，通过特征拼接层对第二图像特征和第三图像特征进行特征拼接，得到拼接图像特征。

观众终端将第二图像特征和第三图像特征输入至特征拼接层中，对第二图像特征和第三图像特征进行特征拼接，特征拼接之后还可以通过池化层对其进行池化，得到拼接图像特征。

步骤604，观众终端将拼接图像特征输入至图像质量分类层，得到视频帧的质量类别。

观众终端将拼接图像特征输入至图像质量分类层，得到视频帧的质量类别。这样，本申请实施例图像质量分类模型的卷积核大小、卷积核数量以及网络层数均较小，降低了观众终端获取视频帧的质量类别的过程中的计算压力，提升了视频帧的质量类别的分类效率，引入残差结构还可以提升视频帧的质量类别的分类效果。

在一个实施例中，基于上述图2所示的实施例，参见图7，本实施例涉及的是服务器如何提升观众终端的直播视频的质量的过程。如图7所示，本实施例直播视频的质量评价方法还可以包括步骤204：

步骤204，若第一直播视频的质量类别为预设质量类别，观众终端则向服务器上报第一直播视频的第一视频码率。

本申请实施例中，对于截取到的每个视频帧，观众终端将视频帧中的亮度分量输入至图像质量分类模型中，得到图像质量分类模型输出的视频帧的质量类别，质量类别如优、良、中或差。

观众终端检测各视频帧的质量类别是否为预设质量类别，预设质量类别例如为差，若存在至少一个视频帧的质量类别为预设质量类别，观众终端则确定第一直播视频的质量类别为预设质量类别。

观众终端则向服务器上报第一直播视频的第一视频码率，该第一视频码率用于指示服务器下发视频码率大于第一视频码率的第二直播视频，第二直播视频在时序上处于第一直播视频之后。

由于服务器接收到主播终端上传的码流后，会对该码流采用不同的码率进行转码，得到多种码率的视频数据。这样，服务器接收到观众终端发送的第一视频码率，则确定观众终端的直播视频的质量较差，服务器后续向观众终端下发直播视频时，则挑选视频码率大于第一视频码率的直播视频，即第二直播视频数据发送至观众终端，从而在观众终端的直播视频的质量较差的情况下，通过提升观众终端的直播视频的码率，达到提升观众终端的直播视频的质量的效果，使得观众终端的直播画面质量保持稳定清晰的水平，提升用户的观看体验。

在一个实施例中，请参考图8，其示出了本申请实施例提供的一种示例性的直播视频的质量评价方法的流程图，该方法可以应用于图1所示实施环境中。如图8所示，该方法可以包括以下步骤：

步骤8001，服务器向观众终端发送待解码的第一直播视频。

步骤8002，观众终端对待解码的第一直播视频进行解码，得到第一直播视频，并按照预设的时间间隔，周期性地从第一直播视频中截取视频帧。

步骤8003，对于截取到的每个视频帧，观众终端将视频帧中的亮度分量输入至图像质量分类模型的第一特征提取层，通过第一特征提取层对视频帧中的亮度分量进行特征提取，得到第一图像特征。

其中，图像质量分类模型包括第一特征提取层、第二特征提取层、第三特征提取层、特征拼接层和图像质量分类层。图像质量分类模型是根据多个训练样本训练得到的，各训练样本包括样本失真图像的亮度分量和质量类别标签，各质量类别标签是根据对应的样本失真图像以及样本失真图像对应的标准清晰度图像进行质量评价得到的。

步骤8004，观众终端将第一图像特征分别输入至第二特征提取层和第三特征提取层，通过第二特征提取层对第一图像特征进行特征提取得到第二图像特征，并通过第三特征提取层对第一图像特征进行特征提取得到第三图像特征。

步骤8005，观众终端将第二图像特征和第三图像特征输入至特征拼接层中，通过特征拼接层对第二图像特征和第三图像特征进行特征拼接，得到拼接图像特征。

步骤8006，观众终端将拼接图像特征输入至图像质量分类层，得到视频帧的质量类别。

步骤8007，观众终端检测各视频帧的质量类别是否为预设质量类别。

步骤8008，若存在至少一个视频帧的质量类别为预设质量类别，观众终端则将预设质量类别作为第一直播视频的质量类别向服务器上报。

步骤8009，若第一直播视频的质量类别为预设质量类别，观众终端则向服务器上报第一直播视频的第一视频码率。

第一视频码率用于指示服务器下发视频码率大于第一视频码率的第二直播视频，第二直播视频在时序上处于第一直播视频之后。

步骤8010，服务器向观众终端发送第二直播视频。

应该理解的是，虽然图2-8的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2-8中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图9所示，提供了一种直播视频的质量评价装置，所述装置包括：

截取模块901，用于按照预设的时间间隔，周期性地从第一直播视频中截取视频帧；

分类模块902，用于对于截取到的每个所述视频帧，将所述视频帧中的亮度分量输入至图像质量分类模型中，得到所述图像质量分类模型输出的所述视频帧的质量类别，其中，所述图像质量分类模型是根据多个训练样本训练得到的，各所述训练样本包括样本失真图像的亮度分量和质量类别标签，各所述质量类别标签是根据对应的样本失真图像以及所述样本失真图像对应的标准清晰度图像进行质量评价得到的；

上报模块903，用于根据各所述视频帧的质量类别，向服务器上报所述第一直播视频的质量类别。

在一个实施例中，所述装置还包括：

获取模块，用于获取多个标准清晰度图像和各所述标准清晰度图像对应的样本失真图像；

评价模块，用于对于每个所述样本失真图像，对所述样本失真图像和对应的标准清晰度图像采用质量评价算法进行质量评价，得到所述样本失真图像对应的质量得分；

确定模块，用于确定所述质量得分对应的得分区间，并根据所述得分区间确定所述样本失真图像的质量类别标签；

训练模块，用于根据各所述样本失真图像的亮度分量和质量类别标签，训练初始图像质量分类模型，得到所述图像质量分类模型。

在一个实施例中，所述装置还包括：

提取模块，用于对于每个所述样本失真图像，从所述样本失真图像中提取所述样本失真图像的亮度分量。

在一个实施例中，所述获取模块包括：

第一获取单元，用于获取多个原始图像，并对各所述原始图像进行图像格式转换，得到各所述原始图像对应的标准清晰度图像；

第二获取单元，用于对各所述原始图像进行失真处理，并对失真处理后的各原始图像进行图像格式转换，得到各所述原始图像对应的样本失真图像，所述失真处理包括缩放处理、滤波处理以及编码处理中的至少一种。

在一个实施例中，所述图像质量分类模型包括第一特征提取层、第二特征提取层、第三特征提取层、特征拼接层和图像质量分类层，所述分类模块902包括：

第一输入单元，用于将所述视频帧中的亮度分量输入至所述第一特征提取层，通过所述第一特征提取层对所述视频帧中的亮度分量进行特征提取，得到第一图像特征；

第二输入单元，用于将所述第一图像特征分别输入至所述第二特征提取层和所述第三特征提取层，通过所述第二特征提取层对所述第一图像特征进行特征提取得到第二图像特征，并通过所述第三特征提取层对所述第一图像特征进行特征提取得到第三图像特征；

第三输入单元，用于将所述第二图像特征和所述第三图像特征输入至所述特征拼接层中，通过所述特征拼接层对所述第二图像特征和所述第三图像特征进行特征拼接，得到拼接图像特征；

第四输入单元，用于将所述拼接图像特征输入至所述图像质量分类层，得到所述视频帧的质量类别。

在一个实施例中，上报模块903包括：

检测单元，用于检测各所述视频帧的质量类别是否为预设质量类别；

上报单元，用于若存在至少一个视频帧的质量类别为所述预设质量类别，则将所述预设质量类别作为所述第一直播视频的质量类别向所述服务器上报。

在一个实施例中，所述上报模块还用于若所述第一直播视频的质量类别为预设质量类别，则向所述服务器上报所述第一直播视频的第一视频码率，所述第一视频码率用于指示所述服务器下发视频码率大于所述第一视频码率的第二直播视频，所述第二直播视频在时序上处于所述第一直播视频之后。

关于直播视频的质量评价装置的具体限定可以参见上文中对于应用于目标终端的直播视频的质量评价方法的限定，在此不再赘述。上述直播视频的质量评价装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图10所示。该计算机设备包括通过***总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***和计算机程序。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、运营商网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种直播视频的质量评价方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图10中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：

在一个实施例中，该处理器执行计算机程序时还实现以下步骤：

在一个实施例中，所述图像质量分类模型包括第一特征提取层、第二特征提取层、第三特征提取层、特征拼接层和图像质量分类层，该处理器执行计算机程序时还实现以下步骤：

检测各所述视频帧的质量类别是否为预设质量类别；

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

在一个实施例中，该计算机程序被处理器执行时还实现以下步骤：

在一个实施例中，所述图像质量分类模型包括第一特征提取层、第二特征提取层、第三特征提取层、特征拼接层和图像质量分类层，该计算机程序被处理器执行时还实现以下步骤：

检测各所述视频帧的质量类别是否为预设质量类别；

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory，ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic Random Access Memory，DRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种直播视频的质量评价方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述图像质量分类模型的训练过程包括：

3.根据权利要求2所述的方法，其特征在于，所述根据各所述样本失真图像的亮度分量和质量类别标签，训练初始图像质量分类模型，得到所述图像质量分类模型之前，所述方法包括：

4.根据权利要求2所述的方法，其特征在于，所述获取多个标准清晰度图像和各所述标准清晰度图像对应的样本失真图像，包括：

5.根据权利要求1所述的方法，其特征在于，所述图像质量分类模型包括第一特征提取层、第二特征提取层、第三特征提取层、特征拼接层和图像质量分类层，所述将所述视频帧中的亮度分量输入至图像质量分类模型中，得到所述图像质量分类模型输出的所述视频帧的质量类别，包括：

6.根据权利要求1所述的方法，其特征在于，所述根据各所述视频帧的质量类别，向服务器上报所述第一直播视频的质量类别，包括：

检测各所述视频帧的质量类别是否为预设质量类别；

7.根据权利要求1所述的方法，其特征在于，所述方法还包括：

8.一种直播视频的质量评价装置，其特征在于，所述装置包括：

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。