CN113850162B

CN113850162B - 一种视频审核方法、装置及电子设备

Info

Publication number: CN113850162B
Application number: CN202111064250.8A
Authority: CN
Inventors: 冯博豪; 刘雨鑫
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-09-10
Filing date: 2021-09-10
Publication date: 2023-03-24
Anticipated expiration: 2041-09-10
Also published as: WO2023035923A1; CN113850162A

Abstract

本公开提供了一种视频审核方法、装置及电子设备，涉及人工智能技术领域，具体涉及深度学习技术。具体实现方案为：获取待审核视频，并对待审核视频进行分离，获取待审核视频的视频数据和音频数据；对待审核视频进行分类，以得到待审核视频对应的目标垂类；根据目标垂类，对视频数据和音频数据进行审核，并获取待审核视频对应的最终审核结果。由此，本公开提高了视频审核结果的准确性以及可靠性。

Description

一种视频审核方法、装置及电子设备

技术领域

本公开涉及数据处理技术领域，并且更具体地涉及人工智能领域和深度学习技术领域，尤其涉及一种视频审核方法、装置及电子设备。

背景技术

视频作为视觉信息的来源，蕴含了大量有价值的信息。近年来，随着视频技术的发展以及视频投放平台的激增，发布视频已经成为了用户的重要娱乐和交流方式。与此同时，社交媒体、论坛、直播网站等平台的视频审核需求也应运而生。准确地为用户上传的视频进行审核，能够起到确保网络信息健康、维护版权等重要作用。因此，如何提高视频审核过程中的准确性，已成为了重要的研究方向之一。

发明内容

本公开提供了一种视频审核方法、装置、设备以及存储介质。

根据本公开的一方面，提供了一种视频审核方法，包括：

获取待审核视频，并对所述待审核视频进行音视频数据分离处理，获取所述待审核视频的视频数据和音频数据；

对所述待审核视频进行分类，以得到所述待审核视频对应的目标垂类；

根据所述目标垂类，对所述视频数据和所述音频数据进行审核，以得到第一审核结果和第二审核结果；

根据所述第一审核结果和所述第二审核结果，获取所述待审核视频对应的目标审核结果。

根据本公开的另一方面，提供了一种视频审核装置，包括：

第一获取模块，用于获取待审核视频，并对所述待审核视频进行音视频数据分离处理，获取所述待审核视频的视频数据和音频数据；

分类模块，对所述待审核视频进行分类，以得到所述待审核视频对应的目标垂类；

审核模块，用于根据所述目标垂类，对所述视频数据和所述音频数据进行审核，以得到第一审核结果和第二审核结果；

第二获取模块，用于根据所述第一审核结果和所述第二审核结果，获取所述待审核视频对应的目标审核结果。

根据本公开的另一方面，提供了一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本公开第一方面所述的视频审核方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行本公开第一方面所述的视频审核方法。

根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序在被处理器执行时实现根据本公开第一方面所述的视频审核方法。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开第一实施例的示意图；

图2是根据本公开第二实施例的示意图；

图3是根据本公开第三实施例的示意图；

图4是根据本公开第四实施例的示意图；

图5是根据本公开第五实施例的示意图；

图6是根据本公开第六实施例的示意图；

图7是根据本公开第七实施例的示意图；

图8是根据本公开一种最终审核结果展示界面的示意图；

图9是根据本公开一种基于视频审核方法构建的视频智能分析***的示意图；

图10是用来实现本公开实施例的视频审核方法的视频审核装置的框图；

图11是用来实现本公开实施例的视频审核方法的视频审核装置的框图；

图12是用来实现本公开实施例的视频审核方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

以下对本公开的方案涉及的技术领域进行简要说明：

数据处理(Data Processing)，是对数据的采集、存储、检索、加工、变换和传输。数据处理的基本目的是从大量的、可能是杂乱无章的、难以理解的数据中抽取并推导出对于某些特定的人们来说是有价值、有意义的数据。数据处理是***工程和自动控制的基本环节。数据处理贯穿于社会生产和社会生活的各个领域。数据处理技术的发展及其应用的广度和深度，极大地影响了人类社会发展的进程。

AI(Artificial Intelligence，人工智能)，是研究使计算机来模拟人生的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科，既有硬件层面的技术，也有软件层面的技术。人工智能硬件技术一般包括计算机视觉技术、语音识别技术、自然语言处理技术以及及其学习/深度学习、大数据处理技术、知识图谱技术等几大方面。

DL(Deep Learning，深度学习)，是学习样本数据的内在规律和表示层次，这些学习过程中获得的信息对诸如文字，图像和声音等数据的解释有很大的帮助。它的最终目标是让机器能够像人一样具有分析学习能力，能够识别文字、图像和声音等数据。深度学习是一个复杂的机器学习算法，在语音和图像识别方面取得的效果，远远超过先前相关技术。深度学习在搜索技术，数据挖掘，机器学习，机器翻译，自然语言处理，多媒体学习，语音，推荐和个性化技术，以及其他相关领域都取得了很多成果。深度学习使机器模仿视听和思考等人类的活动，解决了很多复杂的模式识别难题，使得人工智能相关技术取得了很大进步。

下面参考附图描述本公开实施例的一种视频审核方法、装置及电子设备。

图1是根据本公开第一实施例的示意图。

如图1所示，本实施例提出的一种视频审核方法，包括如下步骤：

S101、获取待审核视频，并对待审核视频音视频数据进行分离处理，获取待审核视频的视频数据和音频数据。

其中，待审核视频可以为任一视频。

例如，可以为拍摄或者从存储空间中读取的一个任意时长的视频，并将该视频作为待审核视频；又例如，可以获取一个任意时长的视频，并按照预设时长对该视频进行截取，以将截取得到的部分视频作为待审核视频。

其中，对待审核视频音视频数据进行分离处理，指的是将待审核视频音视频数据分离成视频数据和音频数据。

需要说明的是，本公开中对于对待审核视频音视频数据进行分离处理的具体方式不作限定，可以根据实际情况进行选取。

可选地，可以利用分离工具，将待审核视频的音频数据对应的轨道进行识别，然后根据对应的轨道从待审核视频中提取音频数据，以实现视频数据和音频数据的分离。

举例而言，针对待审核视频甲，可以利用分离工具，从待审核视频甲中提取音频数据A，并将其余部分作为视频数据B。

S102、对待审核视频进行分类，以得到待审核视频对应的目标垂类。

需要说明的是，由于针对不同类别的应用场景，对应的视频审核标准是不同的。因此，为了能够更加准确地审核待审核视频，需要先对待审核视频进行分类，以得到与待审核视频对应的目标垂类。

举例而言，针对娱乐类应用场景，出现比基尼女郎的画面是符合审核条件的，但是针对教育类应用场景，待审核视频中出现比基尼女郎是不符合而审核条件的。

其中，目标垂类，可以为视频试图投放的任一应用场景。例如，娱乐类应用场景、教育类应用场景、体育类应用场景、游戏类应用场景等。

需要说明的是，本公开中对于得到待审核视频对应的目标垂类的具体方式不作限定，可以根据实际情况进行选取。

可选地，可以根据视频的标签、视频关键词等获取待审核视频对应的目标垂类；可选地，可以根据待审核视频的投放场景，获取待审核视频对应的目标垂类。

举例而言，针对视频乙，获取到视频乙的标签为“游戏”，则可以得到视频乙对应的目标垂类为游戏类；针对视频丙，获取到的投放场景为教育类应用场景，则可以得到视频丙对应的目标垂类为教育类。

S103、根据目标垂类，对视频数据和音频数据进行审核，以得到第一审核结果和第二审核结果。

在本公开实施例中，可以根据目标垂类，获取匹配的审核策略，然后根据审核策略，分别对视频数据和音频数据进行审核，以得到第一审核结果和第二审核结果。

其中，第一审核结果为对视频数据进行审核的结果。

其中，第二审核结果为对音频数据进行审核的结果。

需要说明的是，审核结果可以包括但不限于对视频数据中画质、画面清晰度的审核以及对音频数据中音质、声音清晰度的审核。

可选地，可以根据目标垂类，制定对应的审核策略，并根据审核策略对视频数据和音频数据进行审核，以得到第一审核结果和第二审核结果。

S104、根据第一审核结果和第二审核结果，获取待审核视频对应的目标审核结果。

需要说明的是，第一审核结果和第二审核结果是获取目标审核结果的依据，可以将第一审核结果和第二审核结果进行综合分析，以得到目标审核结果。

进一步地，当获取到目标审核结果后，可以在展示界面进行展示。

需要说明的是，本公开中对于展示目标审核结果的具体方式不作限定，可以根据实际情况进行选取。

可选地，可以仅展示目标审核结果，此种情况下，用户可以通过展示界面直接查看目标审核结果，进一步地，用户通过点击展示界面上的目标控件，可以展开目标审核结果，以查看第一审核结果和第二审核结果。

可选地，可以直接将第一审核结果、第二审核结果和目标审核结果进行展示，此种情况下，用户可以通过展示界面直接查看目标审核结果，以查看第一审核结果和第二审核结果。

本公开提供了一种视频审核方法，首先获取待审核视频，并对待审核视频进行音视频数据分离处理，以获取待审核视频的视频数据和音频数据，然后，对待审核视频进行分类，以得到待审核视频对应的目标垂类，并根据目标垂类，对视频数据和音频数据进行审核，以得到第一审核结果和第二审核结果，最后，根据第一审核结果和第二审核结果，获取待审核视频对应的目标审核结果。由此，本公开能够不再依赖人工对待审核视频进行审核，根据匹配的视频审核策略对视频数据和音频数据进行快速地审核及分析，节省了视频审核处理的成本和时间，提高了视频审核的效率，同时结合视频审核结果与音频审核结果，得到目标审核结果，进一步提高了视频审核结果的准确性以及可靠性。

需要说明的是，本公开中，在试图对待审核视频进行分类之前，可以对视频数据和音频数据分别进行质量评估，以获取视频数据的第一质量评估结果和音频数据的第二质量评估结果。

需要说明的是，本公开中，在对视频数据和音频数据分别进行质量评估之前，为了进一步提高视频审核过程效率，可以分别对视频数据和音频数据进行处理，以得到视频关键帧和至少一个音频簇。

作为一种可能的实现方式，如图2所示，在上述实施例的基础上，具体包括以下步骤：

S201、对视频数据进行关键帧提取以得到视频关键帧。

本公开实施例中，可以对视频数据进行关键帧提取以得到视频关键帧，并对视频关键帧进行质量评估，以得到第一质量评估结果。

作为一种可能的实现方式，可以按照预设时间间隔，从视频数据中选取视频帧，以形成候选视频帧。进一步地，可以通过对视频帧对应的图像信息进行聚类，以得到最终的视频关键帧。

需要说明的是，本公开中对于对视频帧对应的图像信息进行聚类，以得到最终的视频关键帧的具体方式不作限定，可以根据实际情况进行选取。

可选地，可以将候选视频帧输入DCCM(Deep comprehensive correlationmining，深部综合对比开采)模型中进行处理，以输出最终的视频关键帧。

其中，在将候选视频帧输入DCCM模型中后，可以由DCCM模型对候选视频帧进行聚类，也就是说，将同一个类别的候选视频帧聚为一类。进一步地，由DCCM模型获取聚类结果中每个类别中图像的信息熵，并将图像的信息熵极值对应的候选视频帧作为视频关键帧。

其中，图像的信息熵可以通过以下公式获取：

H＝-∑i∑_jP_i，jLogP_i，j

其中，P_i，j为能反应某像素位置上的灰度值与其周围像素灰度分布的特征。

进一步，当获取到视频关键帧后，可以对视频关键帧进行评估，以得到第一质量评估结果。

S202、对音频数据进行切割及聚类处理。

本公开实施例中，可以对音频数据进行切割及聚类处理，以得到至少一个音频簇，并对所有的音频簇进行质量评估，以得到第二质量评估结果。

需要说明的是，由于待审核视频中分离得到的音频数据可能包含人声以及背景噪声，进一步地，针对音频数据中的人声，可能是单通道的双人(或者多人)混合语音，因此，在获取到音频数据后，可以对音频数据进行切割及聚类处理，以得到对应与每个发音者的至少一个音频簇。

需要说明的是，本公开中对于对音频数据进行切割及聚类处理，以得到至少一个音频簇的具体方式不作限定，可以根据实际情况进行选取。

可选地，可以基于VAD(Voice Activity Detection，语音端点检测)方法，并结合分割和聚类算法，完成声音的分辨和分离。

下面对于针对对音频数据进行切割及聚类处理，以得到至少一个音频簇的过程进行解释说明。

可选地，可以利用VAD算法，获取到音频数据的切分点，区分出包含人声和不包含人声的音频段落，然后，针对每一个音频段落，进行细致分割，使用滑动窗口机制，窗长可以为1s，并以0.01秒的步长进行移动，对于每一窗的特征进行特征提取，得到音频的特征序列：X＝{x₁,x₂,x₃…x_N}。

进一步地，可以计算该段音频数据的BIC(Bayesian information criterion，贝叶斯信息度量)值和GLR(一般似然比)距离，从而进行得到音频的切割点，其中，BIC音频分割算法是根据移动可变时间点i,建立假设检验H₀和H₁，然后计算每个不同点的△BIC值,最后由这些△BIC值决定声学跳变点。计算△BIC值的方式是基于GLR距离的分割算法中的两个固定长度的音频段窗口的方式来计算△BIC：

△BIC＝BIC(H₁)-BIC(H₀)＝GLR-P

循环计算切割点公式：

△BIC(i-1)*△BIC(i)＜0

需要说明的是，利用切割处理可以将音频分成不同长度的音频。

需要说明的是，对音频数据进行聚类处理，可以利用AHC(AgglomerativeHierarchy Clustering)层次聚类算法通过两类音频数据点间的相似性，对所有音频数据点中最为相似的两个数据点进行组合，并反复迭代这一过程，就得到了比较长的音频，层次聚类的合并算法是通过计算每一个段的音频与所有音频的距离来确定它们之间的相似性，距离越小，相似度越高。并将距离最近的两个短音频数据进行组合，生成最后的音频。

需要说明的是，利用聚类算法，可以得到不同的人声。

进一步地，在得到视频关键帧和至少一个音频簇之后，可以根据视频关键帧和音频簇，对视频数据和音频数据分别进行质量评估，以获取视频数据的第一质量评估结果和音频数据的第二质量评估结果。

针对对视频数据进行质量评估，以获取视频数据的第一质量评估结果，可以分别获取视频数据的第一质量评估子结果和第二质量评估子结果，然后对第一质量评估子结果和第二质量评估子结果进行加权处理，并将加权结果作为第一质量评估结果。

作为一种可能的实现方式，如图3所示，在上述实施例的基础上，具体包括以下步骤：

S301、基于拉普拉斯算法，获取视频关键帧对应的拉普拉斯分布的方差，并根据方差获取第一质量评估子结果。

需要说明的是，由于拉普拉斯方差能够反映视频关键帧的清晰程度，也就是说，清晰的视频关键帧包含的边界信息较多，此种情况下，方差较大；模糊的视频帧包含的边界信息较少，此种情况下，方差较小。

因此，本公开中可以利用拉普拉斯(Laplacian)算法，获取视频关键帧对应的拉普拉斯分布的方差。

其中，拉普拉斯算法用于衡量视频关键帧的二阶导，能够强调视频关键帧中密度快速变化的区域。

进一步地，在获取视频关键帧对应的拉普拉斯分布的方差后，可以根据方差大小，获取第一质量评估子结果。可选地，可以根据方差，查询预先设定的方差和第一质量评估子结果之间的映射关系，以获取第一质量评估子结果。

S302、将视频关键帧输入至图像质量评估模型中，输出第二质量评估子结果。

需要说明的是，本公开中对于图像质量评估模型的具体选型不作限定，可以根据实际情况进行选取。例如，可以选取NR-IQA(No Reference-Image quality Assessment，无参考质量评价)模型。

可选地，可以将视频关键帧输入至NR-IQA模型中，输出第二质量评估子结果。

S303、对第一质量评估子结果和第二质量评估子结果进行加权处理，并将加权结果作为第一质量评估结果。

在本公开实施例中，为了提高第一质量评估结果的准确性，在获取第一质量评估子结果和第二质量评估子结果后，可以对其进行加权处理，并将加权结果作为第一质量评估结果。其中，加权处理过程中的权重可以根据实际情况进行调整。

举例而言，第一质量评估子结果为7分、第二质量评估子结果为8分，此种情况下，若设定第一质量评估子结果和第二质量评估子结果对应的权重分别为0.6和0.4，则第一质量评估结果为7.4分；若设定第一质量评估子结果和第二质量评估子结果对应的权重分别为0.7和0.3，则第一质量评估结果为7.3分。

针对对音频数据进行质量评估，作为一种可能的实现方式，音频簇可以获取音频簇对应的梅尔倒谱系数特征MFCC，并根据MFCC，获取第二质量评估结果。

其中，MFCC(Mel-Frequency Cepstral Coefficients，梅尔频率倒谱系数)，用于表示语音信号的能量在不同频率范围的分布情况。

需要说明的是，本公开中对于获取音频簇对应的梅尔倒谱系数特征MFCC的具体方式不作限定，可以根据实际情况进行获取。

可选地，可以按照预定采样频率对音频簇进行采样，从而对采样结果进行预加重、分帧、加窗、FFT(Fast Fourier Transformation，快速傅里叶变换)、梅尔滤波器组以及DCT(Discrete Cosine Transform，离散余弦变换)处理，得到音频簇的MFCC。

进一步地，在获取到第一质量评估结果和第二质量评估结果之后，可以分别将第一质量评估结果和第二质量评估结果与质量评估阈值进行比较。

可选地，若第一质量评估结果和第二质量评估结果均达到质量评估阈值，说明视频数据和音频数据的质量符合后续审核要求，此种情况下，响应于第一质量评估结果和第二质量评估结果均达到质量评估阈值，则可以分别对视频数据和音频数据进行分类、审核，并根据审核结果形成目标审核结果。

举例而言，获取到第一质量评估结果为9.3分、第二质量评估结果为9.4分，此种情况下，若质量评估阈值为9分，则确定第一质量评估结果和第二质量评估结果均达到质量评估阈值。

可选地，若第一质量评估结果和第二质量评估结果未均达到质量评估阈值，说明视频数据和音频数据的质量未均符合后续审核要求，此种情况下，响应于第一质量评估结果和第二质量评估结果未均达到质量评估阈值，则可以仅对质量评估结果达到质量评估阈值的数据进行分类、审核，以生成目标审核结果中的一个子结果，在展示界面进行展示。

举例而言，获取到第一质量评估结果为7.3分、第二质量评估结果为9.4分，此种情况下，若质量评估阈值为9分，则确定第二质量评估结果达到质量评估阈值，第一质量评估结果未达到质量评估阈值。进一步地，可以仅对音频数据进行分类、审核，以生成目标审核结果中的一个子结果，在展示界面进行展示。

本公开提供了一种视频审核方法，在对待审核视频进行分类、审核前，首先对待审核视频的视频关键帧和至少一个音频簇进行质量评估，并在确定第一质量评估结果和第二质量评估结果均达到质量评估阈值后，进行后续的待审核视频的视频内容的分类及审核，确保了目标审核结果的准确性，避免了质量较差的音频数据和/或质量较差的视频数据对分类及审核过程造成的影响，进一步提高了待审核视频目标审核结果的准确性。

图4是根据本公开第四实施例的示意图。

如图4所示，本公开提出的视频审核方法，在上述实施例的基础上，具体包括以下步骤：

S401、获取待审核视频，并对待审核视频进行音视频数据分离处理，获取待审核视频的视频数据和音频数据。

上述步骤S401与上述实施例中的步骤S101一致，此处不再赘述。

上述实施例中的步骤S102包括以下步骤S402～S404。

S402、获取待审核视频对应的描述文本，并将描述文本输入至第一分类模型中进行分类，以得到待审核视频对应的第一分类结果。

其中，第一分类结果，指的是对于待审核视频的文本信息的分类结果。

其中，描述文本，可以为视频的描述、摘要、关键、名称等文字描述信息。

需要说明的是，本公开中对于第一分类模型的具体选型不作限定，可以根据实际情况进行选取。

可选地，可以选取TextCNN(Text Convolutional Neural Networks，基于文本的卷积神经网络)作为第一分类模型。此种情况下，可以将描述文本输入至TextCNN模型，以输出待审核视频的第一分类结果。

举例而言，获取到待审核视频对应的描述文本为“小学公开课展示”，将描述文本输入至TextCNN模型中，可以输出第一分类结果为“教育类”。

S403、将音频数据和视频数据输入至第二分类模型中进行分类，以得到待审核视频对应的第二分类结果。

其中，第二分类结果，指的是对于待审核视频的音频数据和视频数据的分类结果。

作为一种可能的实现方式，如图5所示，在上述实施例的基础上，上述步骤S403将音频数据和视频数据输入至第二分类模型中进行分类，以得到待审核视频对应的第二分类结果的具体过程，包括以下步骤：

S501、将音频数据和视频数据输入至第二分类模型中，由第二分类模型的音频特征提取网络对音频数据进行特征提取，以得到音频数据的第一特征。

需要说明的是，本公开中对于第二分类模型的具体选型不作限定，可以根据实际情况进行选取。

可选地，可以选取LPCG(结合上下门控池化的分类模型)作为第二分类模型。此种情况下，可以将音频数据和视频数据输入至LPCG模型中，以输出待审核视频的第二分类结果。

其中，LPCG模型中的聚合层，为基于聚类的聚合层，且该模型具有聚合音频和视觉特征的双流架构，同时引入了可学习的非线性单元Context Gating，以模拟网络激活之间的相互依赖性)。这样一来，LPCG模型效果要优于其他基于LSTM(long-short term memory，长短期记忆模型)和GRU(Gate Recurrent Unit)方法的分类模型。

其中，LPCG模型，包含三个主要模块，分别为特征提取模块、池化模块以及分类模块。其中，特征提取模块，可以分别从视频数据和音频数据中提取输入特征；池化模块，将提取的特征聚合成整个视频的压缩表示。池化模块具有双流架构，能分别处理视觉和音频功能；分类模块，利用Context Gating层增强特征的聚合表示，将得到的特征聚合表示作为输入，输出类别的概率。

本公开实施例中，可以基于第二分类模型的特征提取模块中用于提取音频特征的神经网络对音频数据进行特征提取，可以得到音频数据的第一特征。

S502、由第二分类模型的视频特征提取网络对视频数据进行特征提取，以得到视频数据的第二特征。

本公开实施例中，可以基于第二分类模型的特征提取模块中用于提取音视频特征的神经网络对视频数据进行特征提取，可以得到视频数据的第二特征。

S503、根据第一特征获取音频分类结果，并根据第二特征获取视频分类结果。

本公开实施例中，在通过特征提取模块获取到第一特征和第二特征后，可以基于LPCG模型中的池化模块和分类模块，得到音频分类结果和视频分类结果。

S504、对音频分类结果和视频分类结果进行加权处理，并将加权结果作为第二分类结果。

其中，加权处理过程中的权重可以根据实际情况进行调整。

S404、根据第一分类结果和第二分类结果，获取待审核视频对应的目标垂类。

上述实施例中的步骤S103包括以下步骤S405～S406。

S405、根据目标垂类，获取对应的审核策略。

S406、根据审核策略对视频数据和音频数据进行审核，以得到第一审核结果和第二审核结果。

作为一种可能的实现方式，如图6所示，在上述实施例的基础上，上述步骤S406根据审核策略对视频数据和音频数据进行审核，以得到第一审核结果和第二审核结果的具体过程，包括以下步骤：

S601、从视频数据中提取图像帧和图像帧中携带的第一文本。

S602、根据审核策略对图像帧和第一文本进行审核，以获取第一审核结果。

其中，第一审核结果，指的是针对视频的图像信息(图像帧)以及视频中的文字信息(第一文本)进行审核的审核结果。

可选地，可以将图像帧输入Inception-v4(***Inception)模型中，以输出第一子结果，并将第一文本输入BERT(Bidirectional Encoder Representations fromTransformers)模型中，以输出第二子结果，进而根据第一子结果和第二子结果，获取第一审核结果。

其中，Inception-v4模型，包含有多层卷积层、全连接层、softmax(逻辑回归)层和池化层，能够准确地完成视频帧的图像分类。

需要说明的是，本公开提供的Inception-v4模型和BERT模型是经过不同的场景样本数据进行训练得到的收敛的模型。其中，不同的场景样本数据对应不同的审核策略，也就是说，在对待审核视频进行分类后，可以根据目标垂类，选取匹配的Inception-v4模型获取第一审核结果。

其中，BERT模型，能够将第一文本识别为对目标垂类、应用场景等对应的结果。例如，可以将第一文本识别为低俗等结果。

S603、对音频数据进行语音识别，以获取音频数据对应的第二文本。

可选地，可以结合OCR(Optical Character Recognition，光学字符识别)技术，对音频数据进行语音识别，以获取音频数据对应的第二文本。

S604、根据审核策略对第二文本进行审核，以获取第二审核结果。

其中，第二审核结果，指的是针对文字信息(将音频转换为文字后的文字信息)进行审核的审核结果。

可选地，可以将第二文本输入BERT模型中，以输出第二审核结果。

其中，BERT模型，能够将第二文本识别为对目标垂类、应用场景等对应的结果。例如，可以将第二文本识别为低俗等结果。

S407、根据第一审核结果和第二审核结果，获取待审核视频对应的目标审核结果。

上述步骤S407与上述实施例中的步骤S104一致，此处不再赘述。

本公开提供了一种视频审核方法，可以通过分别获取待审核视频对应的第一分类结果和第二分类结果，并根据第一分类结果和第二分类结果，获取待审核视频对应的目标垂类，确保了待审核视频分类结果的准确性，与此同时，也确保了获取到的审核策略的准确性。进一步地，可以通过根据审核策略对图像帧和第一文本进行审核，以获取第一审核结果，并根据审核策略对第二文本进行审核，以获取第二审核结果，从而根据第一审核结果和第二审核结果，获取待审核视频对应的目标审核结果，以实现对视频数据和音频数据的分类和审核，进一步提高了针对待审核视频的视频审核过程的准确性和可靠性。

进一步地，本公开中，在获取待审核视频对应的目标审核结果之后，可以对目标审核结果进行展示，并于用户进行交互，以实现正确信息的采集，从而进一步完善视频审核过程。

作为一种可能的实现方式，如图7所示，在上述实施例的基础上，具体包括以下步骤：

S701、展示目标审核结果。

举例而言，如图8所示，可以将目标审核结果展示于展示界面8-1的目标区域8-2内。

S702、获取针对目标审核结果的纠错信息。

需要说明的是，在用户查看目标审核结果后，若对目标审核结果有疑义，则可以通过多种方式对目标审核结果进行纠正。例如，可以通过点击目标控件，输入纠错信息。

相应地，可以获取用户输入的针对目标审核结果的纠错信息。

S703、根据纠错信息，对目标审核结果进行修正，并将修正后的目标审核结果重新进行展示。

需要说明的是，本公开中，对于根据纠错信息，对目标审核结果进行修正的具体策略不作限定，可以根据实际情况进行选取。可选地，在获取到纠错信息后，可以立即根据纠错信息，对目标审核结果进行修正，并将修正后的目标审核结果重新进行展示；可选地，在获取到纠错信息后，可以获取纠错信息的数量，并在识别数量达到预设数量阈值之后，根据纠错信息，对目标审核结果进行修正，并将修正后的目标审核结果重新进行展示。

本公开提供了一种视频审核方法，能够对待审核视频进行音视频数据分离处理，并将待审核视频进行分类，然后，对音视频数据进行审核，获取待审核视频对应的目标审核结果，最后，可以展示目标审核结果。由此，本公开中，可以基于用户输入的纠错信息，对错误的目标审核结果进行修正，并将修正后的目标审核结果重新进行展示，能够更加有效地利用与用户进行交互过程中采集到的信息，在提高用户体验的同时，进一步提高了视频审核结果的准确性以及可靠性。

综上所述，如图9所示，基于本公开提出的视频审核方法，能够搭建视频智能分析***。

可选地，可以通过获取用户上传的视频并进行切帧处理，以获取视频帧(视频关键帧)，同时，通过人声定位，以获取音频(至少一个音频簇)，从而实现对音、视频数据的获取。

进一步地，可以基于Laplacian算法和NR-IQA模型进行图像质量评估，同时，基于PSEQ模型和MOSNET进行音频质量评估，从而实现对音、视频数据的质量评估。

进一步地，可以通过视频分类、OCR识别以及音频转文本等阶段，对待审核视频的内容进行审核。其中，包括但不限于对画面审核、音频审核以及文字审核。

进一步地，可以将内容审核结果(目标审核结果)展示于交互界面(展示界面)，以基于用户输入的纠错信息，对当前目标审核结果进行更正，并提高后续视频审核过程中的可靠性。

由此，本公开提供的视频审核方法，能够对待审核视频的清晰度进行评估，同时对待审核视频的音质进行评估，以避免压缩、噪声、传输等因素导致的低质量音频数据的发布。这样一来，合理、可靠的音频数据质量评估在音频编码、网络通信、终端服务等领域都会发挥重要作用。此外，对网络传输***的输出音频数据质量进行评估，可以更好的规划与发展通信网络，提高服务质量，有利于服务商了解用户体验与用户需求，从而提供更优的服务，改善自身服务质量和用户的体验质量。

进一步地，除了对视频数据质量、音频数据质量进行评估外，对视频内容进行了准确地、适应性强的审核，避免了造成不稳定因素的信息的泛滥。

本公开的技术方案中，所涉及的用户个人信息的获取，存储和应用等，均符合相关法律法规的规定，且不违背公序良俗。

与上述几种实施例提供的相对应，本公开的一个实施例还提供视频审核装置，由于本公开实施例提供的视频审核与上述几种实施例提供的视频审核方法相对应，因此在视频审核方法的实施方式也适用于本实施例提供的视频审核装置，在本实施例中不再详细描述。

图10是根据本公开一个实施例的视频审核装置结构示意图。

如图10所示，该视频审核装置1000，包括：第一获取模块1001、分类模块1002、审核模块1003，第二获取模块1004。其中：

第一获取模块1001，用于获取待审核视频，并对所述待审核视频进行音视频数据分离处理，获取所述待审核视频的视频数据和音频数据；

分类模块1002，对所述待审核视频进行分类，以得到所述待审核视频对应的目标垂类；

审核模块1003，用于根据所述目标垂类，对所述视频数据和所述音频数据进行审核，以得到第一审核结果和第二审核结果；

第二获取模块1004，用于根据所述第一审核结果和所述第二审核结果，获取所述待审核视频对应的目标审核结果。

图11是根据本公开一个实施例的视频审核装置结构示意图。

如图11所示，该视频审核装置1100，包括：第一获取模块1101、分类模块1102、审核模块1103，第二获取模块1104。其中：

该视频审核装置1100，还包括评估模块1105，用于：

对所述视频数据和所述音频数据分别进行质量评估，以获取所述视频数据的第一质量评估结果和所述音频数据的第二质量评估结果；

确定所述第一质量评估结果和所述第二质量评估结果均达到质量评估阈值。

其中，审核模块1103，还用于：

根据所述目标垂类，获取对应的审核策略；

根据所述审核策略对所述视频数据和所述音频数据进行审核，以得到所述第一审核结果和所述第二审核结果。

其中，所述分类模块1102，还用于：

获取所述待审核视频对应的描述文本，并将所述描述文本输入至第一分类模型中进行分类，以得到所述待审核视频对应的第一分类结果；

将所述音频数据和所述视频数据输入至第二分类模型中进行分类，以得到所述待审核视频对应的第二分类结果；

根据所述第一分类结果和所述第二分类结果，获取所述待审核视频对应的所述目标垂类。

其中，分类模块1102，还用于：

将所述音频数据和所述视频数据输入至所述第二分类模型中，由所述第二分类模型的音频特征提取网络对所述音频数据进行特征提取，以得到所述音频数据的第一特征；

由所述第二分类模型的视频特征提取网络对所述视频数据进行特征提取，以得到所述视频数据的第二特征；

根据所述第一特征获取音频分类结果，并根据所述第二特征获取视频分类结果；

对所述音频分类结果和所述视频分类结果进行加权处理，并将加权结果作为所述第二分类结果。

其中，审核模块1103，还用于：

从所述视频数据中提取图像帧和所述图像帧中携带的第一文本；

根据所述审核策略对所述图像帧和所述第一文本进行审核，以获取所述第一审核结果；

对所述音频数据进行语音识别，以获取所述音频数据对应的第二文本；

根据所述审核策略对所述第二文本进行审核，以获取所述第二审核结果。

其中，评估模块1105，还用于：

对所述视频数据进行关键帧提取以得到视频关键帧，并对所述视频关键帧进行质量评估，以得到所述第一质量评估结果；

对所述音频数据进行切割及聚类处理，以得到至少一个音频簇，并对所有的所述音频簇进行质量评估，以得到所述第二质量评估结果。。

其中，评估模块1105，还用于：

基于拉普拉斯算法，获取所述视频关键帧对应的拉普拉斯分布的方差，并根据所述方差获取第一质量评估子结果；

将所述视频关键帧输入至图像质量评估模型中，输出第二质量评估子结果；

对所述第一质量评估子结果和所述第二质量评估子结果进行加权处理，并将加权结果作为所述第一质量评估结果。

其中，控制模块1104，还用于：

获取所述音频簇对应的梅尔倒谱系数特征MFCC，并根据所述MFCC，获取所述第二质量评估结果。

其中，该视频审核装置1100，还包括展示模块1106，用于：

展示所述目标审核结果；

获取针对所述目标审核结果的纠错信息；

根据所述纠错信息，对所述目标审核结果进行修正，并将修正后的所述目标审核结果重新进行展示。

需要说明的是，第一获取模块1101、分类模块1102、审核模块1103，第二获取模块1104和第一获取模块1001、分类模块1002、审核模块1003，第二获取模块1004具有相同的结构和功能。

根据本公开实施例的一种视频审核装置，能够不再依赖人工对待审核视频进行审核，根据匹配的视频审核策略对视频数据和音频数据进行快速地审核及分析，节省了视频审核处理的成本和时间，提高了视频审核的效率，同时结合视频审核结果与音频审核结果，得到目标审核结果，进一步提高了视频审核结果的准确性以及可靠性。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图12示出了可以用来实施本公开的实施例的示例电子设备1200的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图12所示，设备1200包括计算单元1201，其可以根据存储在只读存储器(ROM)1202中的计算机程序或者从存储单元1208加载到随机访问存储器(RAM)1203中的计算机程序，来执行各种适当的动作和处理。在RAM 1203中，还可存储设备1200操作所需的各种程序和数据。计算单元1201、ROM 1202以及RAM 1203通过总线1204彼此相连。输入/输出(I/O)接口1205也连接至总线1204。

设备1200中的多个部件连接至I/O接口1205，包括：输入单元1206，例如键盘、鼠标等；输出单元1207，例如各种类型的显示器、扬声器等；存储单元1208，例如磁盘、光盘等；以及通信单元1209，例如网卡、调制解调器、无线通信收发机等。通信单元1209允许设备1200通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元1201可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1201的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1201执行上文所描述的各个方法和处理，例如视频审核方法。例如，在一些实施例中，视频审核方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元1208。在一些实施例中，计算机程序的部分或者全部可以经由ROM 1202和/或通信单元1209而被载入和/或安装到设备1200上。当计算机程序加载到RAM 1203并由计算单元1201执行时，可以执行上文描述的车辆间的避障方法的一个或多个步骤。备选地，在其他实施例中，计算单元1201可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行视频审核方法。

本文中以上描述的***和技术的各种实施方式可以在数字电子电路***、集成电路***、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上***的***(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程***上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储***、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储***、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行***、装置或设备使用或与指令执行***、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体***、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的***和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的***和技术实施在包括后台部件的计算***(例如，作为数据服务器)、或者包括中间件部件的计算***(例如，应用服务器)、或者包括前端部件的计算***(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的***和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算***中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将***的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)、互联网以及区块链网络。

计算机***可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式***的服务器，或者是结合了区块链的服务器。

本公开还提供一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时，实现如上所述的视频审核方法。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种视频审核方法，包括：

根据所述目标垂类，对所述视频数据和所述音频数据进行审核，以得到第一审核结果和第二审核结果，其中，所述第一审核结果为对所述视频数据进行审核的结果，所述第二审核结果为对所述音频数据进行审核的结果；

根据所述第一审核结果和所述第二审核结果，获取所述待审核视频对应的目标审核结果；

所述对所述待审核视频进行分类之前，还包括：

确定所述第一质量评估结果和所述第二质量评估结果均达到质量评估阈值；

其中，所述对所述视频数据和所述音频数据分别进行质量评估，以获取所述视频数据的第一质量评估结果和所述音频数据的第二质量评估结果，包括：

对所述音频数据进行切割及聚类处理，以得到至少一个音频簇，并对所有的所述音频簇进行质量评估，以得到所述第二质量评估结果；

其中，所述对所述视频数据进行关键帧提取以得到视频关键帧，包括：

通过深部综合对比开采模型对候选视频帧进行聚类，由所述深部综合对比开采模型获取聚类结果中每个类别中图像的信息熵，并将图像的信息熵极值对应的候选视频帧作为所述视频关键帧；

其中，所述图像的信息熵通过以下公式获取：

H＝-∑i∑_jP_i，jLogP_i，j

其中，P_i,j为能反应某像素位置上的灰度值与其周围像素灰度分布的特征。

2.根据权利要求1所述的审核方法，其中，所述根据所述目标垂类，对所述视频数据和所述音频数据进行审核，以得到第一审核结果和第二审核结果，包括：

根据所述目标垂类，获取对应的审核策略；

3.根据权利要求1或2所述的审核方法，其中，所述对所述待审核视频进行分类，以得到所述待审核视频对应的目标垂类，包括：

4.根据权利要求3所述的审核方法，其中，所述将所述音频数据和所述视频数据输入至第二分类模型中进行分类，以得到所述待审核视频对应的第二分类结果，包括：

5.根据权利要求2所述的审核方法，其中，所述根据所述审核策略对所述视频数据和所述音频数据进行审核，以得到所述第一审核结果和所述第二审核结果，包括：

6.根据权利要求1所述的审核方法，其中，所述对所述视频关键帧进行质量评估，以得到所述第一质量评估结果，包括：

7.根据权利要求1所述的审核方法，其中，所述对所有的所述音频簇进行质量评估，以得到所述第二质量评估结果，包括：

8.根据权利要求1所述的审核方法，其中，所述获取所述待审核视频对应的所述目标审核结果之后，还包括：

展示所述目标审核结果；

获取针对所述目标审核结果的纠错信息；

9.一种视频审核装置，包括：

审核模块，用于根据所述目标垂类，对所述视频数据和所述音频数据进行审核，以得到第一审核结果和第二审核结果，其中，所述第一审核结果为对所述视频数据进行审核的结果，所述第二审核结果为对所述音频数据进行审核的结果；

第二获取模块，用于根据所述第一审核结果和所述第二审核结果，获取所述待审核视频对应的目标审核结果；

评估模块，用于：

其中，所述评估模块，还用于：

其中，所述图像的信息熵通过以下公式获取：

H＝-∑i∑_jP_i，jLogP_i，j

10.根据权利要求9所述的审核装置，其中，所述审核模块，还用于：

根据所述目标垂类，获取对应的审核策略；

11.根据权利要求9或10所述的审核装置，其中，所述分类模块，还用于：

12.根据权利要求11所述的审核装置，其中，所述分类模块，包括：

13.根据权利要求10所述的审核装置，其中，所述审核模块，还用于：

14.根据权利要求9所述的审核装置，其中，所述评估模块，还用于：

15.根据权利要求9所述的审核装置，其中，所述评估模块，还用于：

16.根据权利要求9所述的审核装置，其中，还包括：展示模块，用于：

展示所述目标审核结果；

获取针对所述目标审核结果的纠错信息；

17.一种电子设备，其特征在于，包括处理器和存储器；

其中，所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序，以用于实现如权利要求1-8所述的方法。

18.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-8所述的方法。