CN108229262A

CN108229262A - 一种色***检测方法及装置

Info

Publication number: CN108229262A
Application number: CN201611200177.1A
Authority: CN
Inventors: 侯鑫; 牛志伟
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2016-12-22
Filing date: 2016-12-22
Publication date: 2018-06-29
Anticipated expiration: 2036-12-22
Also published as: CN108229262B

Abstract

本发明实施例公开了一种色***检测方法，用于快速识别出色***，并提高识别的准确率。本发明实施例方法包括：从目标视频中抽取若干组视频帧序列；通过第一深度学习模型提取每组视频帧序列对应的第一运动信息特征和/或第一画面内容特征，并根据所述第一运动信息特征和/或所述第一画面内容特征计算每组视频帧序列分别对应的第一分数；确定所述第一分数中的最大值，判断所述最大值是否大于第一预置阈值；若大于所述第一预置阈值，则确定所述目标视频为色***。本发明实施例还公开了一种色***检测装置，用于快速识别出色***，并提高识别的准确率。

Description

一种色***检测方法及装置

技术领域

本发明涉及互联网应用领域，尤其涉及一种色***检测方法及装置。

背景技术

通过互联网用户可以共享许多资源信息，但是用户在获得大量有用信息的同时，也可能会遇到一些不良信息，其中以色***最为严重。而这些视频往往具有内容复杂度高，隐蔽性强，数量多，时变性强等特点，经过分析传播后对社会公众危害大。因此对色***的检测和过滤具有重要意义。

现有技术对色***的检测主要通过一些基于画面人体肤色程度的算法检测视频是否为色***。

但是这种基于人体肤色判别的方法，常常会将一些衣着较少、暴露皮肤较多的图像认为是色情图像，从对一些非色***产生误判，即误杀率较高，准确率较低。

发明内容

本发明实施例提供了一种色***检测方法及装置，用于快速识别出色***，并提高识别的准确率。

有鉴于此，本发明实施例第一方面提供了一种色***检测方法，包括：

从目标视频中抽取若干组视频帧序列；

通过第一深度学习模型提取每组视频帧序列对应的第一运动信息特征和/或第一画面内容特征，并根据所述第一运动信息特征和/或所述第一画面内容特征计算每组视频帧序列分别对应的第一分数；

确定所述第一分数中的最大值，判断所述最大值是否大于第一预置阈值；

若大于所述第一预置阈值，则确定所述目标视频为色***。

本发明实施例第二方面提供了一种检测装置，包括：

抽取模块，用于从目标视频中抽取若干组视频帧序列；

第一计算模块，用于通过第一深度学习模型提取每组视频帧序列对应的第一运动信息特征和/或第一画面内容特征，并根据所述第一运动信息特征和/或所述第一画面内容特征计算每组视频帧序列分别对应的第一分数；

第一判断模块，用于确定所述第一分数中的最大值，并判断所述最大值是否大于第一预置阈值；

第一确定模块，用于当所述判断模块确定所述最大值大于所述第一预置阈值时，确定所述目标视频为色***。

从以上技术方案可以看出，本发明实施例具有以下优点：

本发明实施例通过深度学习模型提取目标视频中若干组视频帧序列的运动信息特征和/或画面内容特征，并根据该运动信息特征和/或画面内容特征计算每组视频帧序列对应的分数，再判断这些分数中的最大值是否大于预置阈值，若大于，则确定目标视频为色***。由于深度学习模型是通过大量的视频数据训练得到的，识别精度较高。因此本方案能够快速识别出色***，并提高识别的准确率。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例。

图1是本发明实施例中色***检测***的一个实施例示意图；

图2是本发明实施例中色***检测方法的一个实施例流程图；

图3是本发明实施例中色***检测方法的另一实施例流程图；

图4是本发明实施例中检测装置的一个实施例示意图；

图5是本发明实施例中检测装置的另一实施例示意图；

图6是本发明实施例中检测装置的另一实施例示意图；

图7是本发明实施例中服务器的一个结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为了便于理解本发明实施例，下面对本发明实施例所适用的场景进行简单介绍，参见图1，其示出了本发明实施例提供的一种色***检测方法及装置所适用的一种***组成结构示意图。

如图1所示，该***可以包括由至少一台服务器101组成的服务***，以及多台终端102。其中，服务***中的服务器101中可以存储用于检测目标视频的数据，并将检测结果传输给终端。终端102可以用于向服务器上传需要检测的目标视频数据，并将服务器返回的检测结果展示给用户。应理解，终端102不限于图1所示的个人计算机(PC，PersonalComputer)，还可以是手机、平板电脑等其他能够上传视频的设备。

应理解，除了图1所示的***组成，本发明实施例中的色情检测方法及装置还可以使用于其他场景，具体此处不作限定。

为了便于理解本发明实施例，下面先对本发明实施例中的一些名词术语进行介绍：

色***：视频内容包括但不限于有***行为、身体敏感位置暴露等；

普通视频：不是色***的视频；

误杀率：假定有N个普通视频，通过算法判定为色***的有M个，则误杀率为M/N；

准确率：假定A个色***和B个普通视频，通过算法判定为色***的有C个，其中D个是真正的色***，则准确率为(B-C+2D)/(A+B)；

深度学习：是机器学习研究中的一个新的领域，使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法，其动机在于建立、模拟人脑进行分析学习的神经网络，模仿人脑的机制来解释数据，例如图像，声音和文本。其实质是通过构建具有很多隐层的机器学习模型和海量的训练数据，来学习更有用的特征，从而最终提升分类或预测的准确性。

本发明实施例提供了一种色***检测方法及装置，用于快速且准确的识别出色***。下面先介绍本发明实施例中的色***检测方法，请参阅图2，本发明实施例中色***检测方法的一个实施例包括：

201、从目标视频中抽取若干组视频帧序列；

用户通过互联网上传目标视频后，检测装置获取该目标视频，从该目标视频中抽取若干组视频帧序列。

需要说明的是，本发明实施例中目标视频中包含若干视频帧，一组视频帧序列包含至少一个视频帧。

202、通过第一深度学习模型提取每组视频帧序列对应的第一运动信息特征和/或第一画面内容特征，并根据第一运动信息特征和/或第一画面内容特征计算每组视频帧序列分别对应的第一分数；

获取若干组视频帧序列后，检测装置通过第一深度学习模型提取每组视频帧序列对应的运动信息特征和/或画面内容特征，其中，运动信息特征指的是该组视频帧序列在时间维度上的运动信息特征，具体可以包括物体的运动的方向，或物体的运动模式，或其他特征，具体此处不作限定。画面内容特征指的是该组视频帧序列中每一帧图像的画面内容特征，具体可以包括图像的纹理信息，如物体的关键轮廓等，或图像的颜色空间特征，还可以包括其他信息，具体此处不作限定。为了方便描述，本发明实施例将通过第一深度学习模型提取的运动信息特征称为第一运动信息特征，通过第一深度学习模型提取画面内容特征称为第一画面内容特征。

第一深度学习模型提取第一运动信息特征和/或第一画面内容特征后，可以通过第一深度学习模型根据第一运动信息特征和/或第一画面内容特征计算出每组视频帧序列的分数，应理解，这个分数是用于评价视频帧序列与色情内容之间的关系。为了方便描述，本发明实施例将通过第一深度学习模型计算得到的分数称为第一分数。

应理解，检测装置所提取的视频帧序列的特征信息由深度学习模型决定，基于不同的深度学习模型，检测装置可以只提取视频帧序列的运动信息特征，根据运动信息特征计算分数，或只提取画面内容特征，根据画面内容特征计算分身，也可以同时提取运动信息和画面内容两个信息特征，根据运动信息和画面内容两个信息特征计算分数。例如PoolingConv模型和ConV3D模型则会同时提取运动信息和画面内容两个信息特征进行计算，又如ImageNet模型，则只提取画面内容特征进行计算。还有许多其他能够提取视频特征信息的深度学习模型，此处不再一一列举。

203、确定每组视频帧序列对应的第一分数中的最大值；

通过第一深度学习模型确定出每组视频帧序列分别对应的第一分数后，确定这些第一分数中的最大值。

204、判断该最大值是否大于第一预置阈值，若是，则执行步骤205；

确定出最大值后，判断该最大值是否大于第一预置阈值，若是，则执行步骤205。

应理解，第一预置阈值由用户或***预先设定，可以通过大量样本数据测试得出，也可以通过其他方式得出，具体此处不作限定。

205、确定该目标视频为色***。

当确定该最大值大于第一预置阈值时，检测装置确定该目标视频为色***。

基于上述图2对应的实施例，当每组视频帧序列对应的第一分数中的最大值不大于第一预置阈值时，检测装置可以通过多种方式对目标视频作进一步的判断以识别该目标视频是否为色***，下面以图3对应的实施例为例进行详细说明，请参阅图3，本发明实施例中色***检测方法的另一实施例包括：

301、从目标视频中抽取若干组视频帧序列；

具体地，检测装置可以设定每组视频帧序列的抽取时间间隔，从而确定需要抽取的视频帧序列的组数，也可以根据目标视频的时间长度设定需要抽取的视频帧序列的组数，还可以通过其他方式确定需要抽取的视频帧序列的组数，具体此处不作限定。进一步地，还可以限定每组视频帧序列包含的视频帧的帧数，即使得每组视频帧序列包含预置帧数的视频帧，一般来说每组视频帧序列包含的帧数相同，当然也可以不同，此处不作限定。或限定每组视频帧序列中每个视频帧之间的时间间隔，具体如按照固定的时间间隔抽取预置帧数的视频帧作为一组视频帧序列，即使得每组视频帧序列中任意两个相邻视频的时间间隔相等。或根据其他抽取规则抽取目标视频对应的若干组视频帧序列，具体此处不作限定。

302、通过第一深度学习模型提取每组视频帧序列对应的第一运动信息特征和/或第一画面内容特征，并根据第一运动信息特征和/或第一画面内容特征计算每组视频帧序列分别对应的第一分数；

获取若干组视频帧序列后，检测装置通过第一深度学习模型提取每组视频帧序列对应的运动信息特征和/或画面内容特征，其中，运动信息特征指的是该组视频帧序列在时间维度上的运动信息特征，具体可以包括物体的运动的方向，或物体的运动模式，或其他特征，具体此处不作限定。画面内容特征指的是该组视频帧序列中每一帧图像的画面内容特征，具体可以包括图像的纹理信息，如物体的关键轮廓等，或图像的颜色空间特征，还可以包括其他信息，具体此处不作限定。。为了方便描述，本发明实施例将通过第一深度学习模型提取的运动信息特征称为第一运动信息特征，通过第一深度学习模型提取画面内容特征称为第一画面内容特征。

第一深度学习模型提取第一运动信息特征和/或第一画面内容特征后，可以根据第一深度学习模型根据第一运动信息特征和/或第一画面内容特征计算出每组视频帧序列的分数，应理解，这个分数是用于评价视频帧序列与色情内容之间的关系。为了方便描述，本发明实施例将通过第一深度学习模型计算得到的分数称为第一分数。

需要说明的是，第一深度学习模型可以是检测装置在执行步骤301之前从其他装置中获取的，也可以是检测装置在执行步骤301之前预先通过大量训练数据训练得到的，具体此处不作限定。具体可以通过如下方式训练得到第一深度学习模型：

(1)确定待训练模型以及待训练模型对应的第一模型参数；

检测装置确定待训练模型以及待训练模型对应的初始模型参数，应理解，在后续的训练过程中，这个初始模型参数会不断优化，为了便于描述，本发明实施例将这个初始模型参数称为第一模型参数。

(2)将第一模型参数作为目标模型参数，然后分别执行步骤(3)和(4)；

检测装置确定待训练模型以及第一模型参数后，将第一模型参数作为目标模型参数。应理解，这里目标模型参数是一个变量，而这里将第一模型参数作为目标模型参数的意义是将第一模型参数的值存储为目标模型参数这个变量在检测装置对应的初始值。

(3)向第一计算服务器发送待训练模型及目标模型参数，然后执行步骤(5)；

检测装置确定目标模型参数后，向第一计算服务器发送待训练模型及目标模型参数，第一计算服务器接收到待训练模型及目标模型参数后，获取用于训练该次目标模型参数的训练样本，根据待训练模型以及该次接收到的目标模型参数计算该次训练样本对应的梯度值，并根据该次计算得到的梯度值更新待训练模型得到新的模型参数。

应理解，目标模型参数是一个变量，故检测装置每次发送的目标模型参数可能不一样，还应理解，训练样本是从大量的人工标注数据中获取的，包含有色***数据及正常视频数据，第一计算服务器每次获取的训练样本不相同，为了便于描述，本发明实施例将第一计算服务器获取的训练样本称为第一训练样本，将第一计算服务器计算的训练样本对应的梯度值称为第一梯度值，将第一计算服务器对待训练模型进行更新后得到的模型参数称为第二模型参数。

还需要说明的是，第一计算服务器可以通过前向传播及反向传播算法计算训练样本对应的梯度值，也可以通过其他方式，具体此处不作限定。

(4)向第二计算服务器发送待训练模型及目标模型参数，然后执行步骤(6)；

检测装置确定目标模型参数后，向第二计算服务器发送待训练模型及目标模型参数，第二计算服务器接收到待训练模型及目标模型参数后，获取用于训练该次目标模型参数的训练样本，根据待训练模型以及该次接收到的目标模型参数计算该次训练样本对应的梯度值，并根据该次计算得到的梯度值更新待训练模型得到新的模型参数。

应理解，目标模型参数是一个变量，故检测装置每次发送的目标模型参数可能不一样，还应理解，训练样本是从大量的人工标注数据中获取的，包含有色***数据及正常视频数据，第二计算服务器每次获取的训练样本不相同，为了便于描述，本发明实施例将第二计算服务器获取的训练样本称为第二训练样本，将第二计算服务器计算的训练样本对应的梯度值称为第二梯度值，将第二计算服务器对待训练模型进行更新后得到的模型参数称为第三模型参数。

(5)根据第二模型参数及目标模型参数进行差分处理得到第四模型参数，将第四模型参数作为目标模型参数，并执行步骤(6)和/或步骤(3)直到待训练模型收敛；

第一计算服务器每次对训练模型进行更新得到第二模型参数后，都会向检测装置返回该次得到的第二模型参数，当检测装置接收到第一计算服务器发送的第二模型参数时，会根据该次接收到的第二模型参数以及检测装置中当下所存储的目标模型参数进行差分处理得到新的模型参数，为了便于描述，将检测装置根据第二模型参数及目标模型参数得到的模型参数称为第四模型参数。

检测装置每次进行差分处理得到第四模型参数后，将第四模型参数确定为目标模型参数，即将第四模型参数的值存储为目标模型参数这个变量在检测装置对应的最新值，然后再执行步骤(6)和/或步骤(3)。

(6)根据第三模型参数及目标模型参数进行差分处理得到第五模型参数，将第五模型参数作为目标模型参数，并执行步骤(5)和/或步骤(4)直到训练模型收敛；

第二计算服务器每次对训练模型进行更新得到第三模型参数后，都会向检测装置返回该次得到的第三模型参数，当检测装置接收到第二计算服务器发送的第三模型参数时，会根据该次接收到的第三模型参数以及检测装置中当下所存储的目标模型参数进行差分处理得到新的模型参数，为了便于描述，将检测装置根据第三模型参数及目标模型参数得到的模型参数称为第五模型参数。

检测装置每次进行差分处理得到第五模型参数后，将第五模型参数确定为目标模型参数，即将第五模型参数的值存储为目标模型参数这个变量在检测装置对应的最新值，并执行步骤(5)和/或(4)。

应理解，步骤(5)需要在步骤(3)检测装置向第一计算服务器发送待训练模型及目标模型参数之后执行，步骤(6)需要在步骤(4)向第二计算服务器发送待训练模型及目标模型参数之后执行，步骤(5)是在检测装置接收到第一计算服务器返回的训练结果(第三模型参数)时才会执行，步骤(6)是在检测装置接收到第二计算服务器返回的训练结果(第四模型参数)时才会执行，所以步骤(5)和步骤(6)之间的执行顺序取决于第一计算服务器和第二计算服务器谁先返回训练结果。

如果第一计算服务器先返回训练结果，则检测装置先执行步骤(5)，然后检测装置会将通过步骤(5)更新后的目标模型参数返回给第二计算服务器，即返回执行步骤(3)，当条件满足时，再一次执行步骤(5)。与此同时，如果满足步骤(6)的触发条件，即接收到第二计算服务器返回的训练结果，则检测装置会同时执行步骤(6)，此时步骤(6)中进行差分处理应用的目标模型参数应当是通过步骤(5)更新后的目标模型参数。执行完步骤(6)后，检测装置再将通过步骤(6)更新后得到的最新的目标模型参数返回给第一计算服务器，即返回执行步骤(4)，当条件满足时，再一次执行步骤(6)。如此循环执行上述步骤直到训练模型在步骤(5)或步骤(6)中收敛，则结束循环，执行步骤(7)。

如果第二计算服务器先返回训练结果，则检测装置先执行步骤(6)，然后检测装置会将通过步骤(6)更新后的目标模型参数返回给第二计算服务器，即返回执行步骤(4)，当条件满足时，再一次执行步骤(6)。与此同时，如果满足步骤(5)的触发条件，即接收到第二计算服务器返回的训练结果，则检测装置会同时执行步骤(5)，此时步骤(5)中进行差分处理应用的目标模型参数应当是通过步骤(6)更新后的目标模型参数。执行完步骤(5)后，检测装置再将通过步骤(5)更新后得到的最新的目标模型参数返回给第一计算服务器，即返回执行步骤(3)，当条件满足时，再一次执行步骤(5)。如此循环执行上述步骤直到训练模型在步骤(5)或步骤(6)中收敛，则结束循环，执行步骤(7)。

简单的说，第一计算服务器或第二计算服务器每一次接收到检测装置发送的目标模型参数后，都会根据接收到的目标模型参数进行训练更新，当第一计算服务器或第二计算服务器训练更新完成后都会向检测装置返回各自训练更新得到的结果，检测装置每一次接收到第一计算服务器或第二计算服务器返回的结果后，都会根据返回的结果以及检测装置中存储的最新的目标模型参数作差分处理，再次更新目标模型参数，再将再次更新后的目标模型参数返回给相应的计算服务器，即如果是根据第一计算服务器返回的结果进行更新的，则返回给第一计算服务器，如果是根据第二计算服务器返回的结果进行更新的，则返回给第二计算服务器。直到检测装置将目标模型参数更新至待训练模型收敛，则执行步骤(7)，不再向第一计算服务器或第二计算服务器发送最新的目标模型参数。

(7)确定通过步骤(5)或步骤(6)收敛后的待训练模型为第一深度学习模型。

当检测装置确定待训练模型收敛时，检测装置将收敛后的待训练模型作为第一深度学习模型。应理解，收敛的待训练模型可能是通过步骤(5)更新后得到的，也可能是通过步骤(6)更新后得到的。

需要说明的是，检测装置可以通过上述步骤(1)至(7)所述的分布式服务器训练的方式得到第一深度学习模型，还可以通过其他方式训练得到第一深度学习模型，具体此处不作限定。

还需要说明的是，应理解，检测装置所提取的视频帧序列的特征信息由深度学习模型决定，基于不同的深度学习模型，检测装置可以只提取视频帧序列的运动信息特征，或只提取画面内容特征，也可以同时提取运动信息和画面内容两个信息特征。例如PoolingConv模型和ConV3D模型则会同时提取运动信息和画面内容两个信息特征，ConV3D的计算精度高于Pooling Conv的计算精度。又如ImageNet模型，则只提取画面内容特征，由于提取特征信息较少，故计算精度低于前述两个模型。还有许多其他能够提取视频特征信息的深度学习模型，此处不再一一列举。而本发明实施例中，第一深度学习模型可以是例子中任意一个，也可以是其他深度学习模型，具体此处不作限定。在后面提到的第二深度学习模型，则是计算精度高于第一深度学习模型的任意一个学习模型，比如第一深度学习模型为ImageNet模型，第二深度学习模型为Pooling Conv模型，或者第一深度学习模型为PoolingConv模型，第二深度学习为ConV3D模型，或者其他，此处也不再一一列举。

303、确定每组视频帧序列对应的第一分数中的最大值；

304、判断该最大值是否大于第一预置阈值，若是，则执行步骤309，若否，则执行步骤305；

确定出最大值后，判断该最大值是否大于第一预置阈值，若是，则执行步骤309，若否，则执行步骤305。应理解，第一预置阈值由用户或***预先设定，可以通过大量样本数据测试得出，也可以通过其他方式得出，具体此处不作限定。

305、判断该最大值是否小于第二预置阈值，若是，则执行步骤310，若否，则执行步骤306；

当确定该最大值不大于第一预置阈值时，判断该最大值是否小于第二预置阈值，若是，则执行步骤310，若否，则执行步骤306。应理解，第二预置阈值由用户或***预先设定，可以通过大量样本数据测试得到，也可以通过其他方式确定，具体此处不作限定。还应理解，第二预置阈值小于第一预置阈值。

306、确定该最大值对应的视频帧序列为目标视频帧序列；

当检测装置确定该最大值不小于第二预置阈值时，即该最大值介于第一预置阈值与第二预置阈值之间时，认为该目标视频为疑似色***，因此对该目标视频作进一步地判断，首先，确定该最大值对应的视频帧序列为目标视频帧序列。

307、通过第二深度学习模型提取目标视频帧序列对应的第二运动信息特征和/或第二画面内容特征，并根据第二运动信息特征和/或第二画面内容特征计算目标视频帧序列对应的第二分数；

检测装置确定目标视频序列之后，检测装置通过第二深度学习模型提取目标视频帧序列对应的运动信息特征和/或画面内容特征，并根据该运动信息特征和/或画面内容特征计算目标视频帧序列对应的第二分数，其中，运动信息特征指的是该组视频帧序列在时间维度上的运动信息特征，画面内容特征指的是该组视频帧序列中每一帧图像的画面内容特征。

应理解，第二深度学习模型与第一深度学习模型是不一样的两个模型，因此第二深度学习模型所提取的目标视频帧序列对应的运动信息和/或画面内容特征，与第一深度学习模型针对目标视频帧序列所提取的运动信息和/或画面内容特征是不一样的，计算方式也是不一样的，为了方便区分，本发明实施例将通过第二深度学习模型提取的运动信息特征称为第二运动信息特征，通过第二深度学习模型提取画面内容特征称为第二画面内容特征，第二深度学习模型计算得到的分数称为第二分数。

还应理解，第二深度学习模型可以是检测装置在执行步骤307之前从其他装置中获取的，也可以是检测装置在执行步骤307之前预先通过大量训练数据对模型进行训练得到的，具体此处不作限定。具体地，检测装置可以基于分布式服务器的训练架构对待训练模型进行训练得到第二深度学习模型，基于分布式服务器训练架构的训练方式与前述步骤302中的训练方式相似，此处不再赘述。也可以通过其他方式对待训练模型进行训练得到第二深度学习模型，具体此处不作限定。

308、判断该第二分数是否大于第三预置阈值，若是，则执行步骤309，若否，则执行步骤310；

当检测装置通过第二深度学习模型计算得到目标视频帧序列对应的第二分数后，判断该第二分数是否大于第三预置阈值，若是，则执行步骤309，若否，则执行步骤310。应理解，第三预置阈值是用户或***预先设定的，可以通过大量样本数据测试得到，也可以通过其他方式确定，具体此处不作限定。

309、确定该目标视频为色***；

当检测装置确定该最大值大于第一预置阈值，或确定目标视频帧序列对应的第二分数大于第三预置阈值时，检测装置确定该目标视频为色***。

310、确定该目标视频为普通视频。

当检测装置确定该最大值小于第二预置阈值，或确定目标视频帧序列对应的第二分数不大于第三预置阈值时，检测装置确定该目标视频为普通视频。

其次，本发明实施例中，当最大值不大于预置阈值时，检测装置可以通过另一精度更高的深度学习模型对目标视频作进一步的识别，能够进一步提高识别精度。

还需要说明的是，检测装置除了可以通过图3对应实施例中，使用两个深度学习模型对目标视频进行色***的检测，还可以采用三个或以上的深度学习模型对目标视频进行色***的检测，以达到更高的识别精度，具体此处不再赘述。

为了便于理解，下面以一应用场景对本发明实施例中的色***识检测方法进行描述：

腾讯视频网站服务器预先从某参数服务器上获取了训练完成的Pooling Conv模型和Conv3D模型，并预先通过大量样本数据测试得出，通过Pooling Conv模型计算出来的高于0.97的视频帧序列都包含有色情内容，故将0.97设置为第一预置阈值，通过PoolingConv模型计算出来的低于0.3的视频帧序列都不包含有色情内容，故将0.3设置为第二预置阈值，通过Conv3D模型计算出来的高于0.92的视频帧序列基本上都包含有色***，低于0.92的视频帧序列基本上不包含色***，故将0.92设置为第三预置阈值。

某用户在腾讯视频网站上传了一段时长为20分钟的视频A，腾讯视频网站服务器获取视频A，根据视频时间长度从视频A中随机抽取3组视频帧序列，具体按照固定时间间隔0.2秒抽取16帧图像作为一组视频帧序列，将抽取到的3组视频帧序列记为帧序列1，帧序列2和帧序列3。

然后针对每组视频帧序列，使用Pooling Conv模型(第一深度学习模型)提取该组视频帧序列对应的运动信息特征和画面内容特征，并根据提取到的运动信息特征和画面内容计算出该组视频帧序列对应的分数，最终通Pooling Conv模型计算得到帧序列1对应的分数为0.3(第一分数)，帧序列2对应的分数为0.9(第一分数)，帧序列3对应的分数为0.72(第一分数)。腾讯视频网站服务器确定这3组视频帧序列对应的分数中最大值为0.9，判断0.9是否大于第一预置阈值(0.97)，确定0.9不大于第一预置阈值，则再判断0.9是否小于第二预置阈值(0.3)，确定0.9不小于第二预置阈值，则认为视频A为疑似色***，需要作进一步判断，首先确定第一分数为0.9的目标视频帧序列，即帧序列2，通过Conv3D模型(第二深度学习模型)提取帧序列2对应的运动信息特征和画面内容特征，并根据提取到的运动信息特征和画面内容特征计算得到帧序列2对应的分数为0.94(第二分数)。腾讯视频网站服务器判断0.94是否大于第三预置阈值(0.92)，确定0.94大于第三预置阈值，则腾讯视频网站服务器确定视频A为色***。腾讯视频网站服务器将视频A从网站中删除。

上面介绍了本发明实施例中的色***检测方法，下面介绍本发明实施例中的检测装置，请参阅图4，本发明实施例中检测装置的另一实施例包括：

抽取模块401，用于从目标视频中抽取若干组视频帧序列；

第一计算模块402，用于通过第一深度学习模型提取每组视频帧序列对应的第一运动信息特征和/或第一画面内容特征，并根据第一运动信息特征和/或第一画面内容特征计算每组视频帧序列分别对应的第一分数；

第一判断模块403，用于确定第一分数中的最大值，并判断最大值是否大于第一预置阈值；

第一确定模块404，用于当判断模块403确定最大值大于第一预置阈值时，确定目标视频为色***。

本发明实施例第一计算模块402通过深度学习模型提取目标视频中若干组视频帧序列的运动信息特征和/或画面内容特征，并根据该运动信息特征和/或画面内容特征计算每组视频帧序列对应的分数，第一判断模块403判断这些分数中的最大值是否大于预置阈值，若大于，则通过第一确定模块404确定目标视频为色***。由于深度学习模型是通过大量的视频数据训练得到的，识别精度较高。因此本方案能够快速识别出色***，并提高识别的准确率。

基于上述图4对应的实施例，请参阅图5，在本发明实施例提供的检测装置的另一实施例中，检测装置还可以包括：

第二判断模块405，用于当第一判断模块404确定最大值不大于第一预置阈值时，判断最大值是否小于第二预置阈值，第二预置阈值小于第一预置阈值；

第二确定模块406，用于当第二判断模块405确定最大值不小于第二预置阈值时，确定最大值对应的视频帧序列为目标视频帧序列；

第二计算模块407，用于通过第二深度学习模型提取目标视频帧序列对应的第二运动信息特征和/或第二画面内容特征，并根据第二运动信息特征和/或第二画面内容特征计算目标视频帧序列对应的第二分数，第二深度学习模型的计算精度大于第一深度学习模型的计算精度；

第三判断模块408，用于判断第二分数是否大于第三预置阈值；

第三确定模块409，用于当第三判断模块408确定第二分数大于第三预置阈值时，确定目标视频为色***。

可选地，在本发明实施例中，检测装置还可以包括：

第四确定模块410，用于当第二判断模块405确定最大值小于第二预置阈值，或第三判断模块408确定第二分数不大于第三预置阈值时，确定目标视频为普通视频。

本发明实施例中，当确定抽取的若干组视频帧序列对应的分数的最大值不大于第一预置阈值时，第二计算模块407可以通过计算精度更高的第二深度学习模型对目标视频作进一步识别，进一步提高方***性。

基于上述图4或图5对应的实施例，请参阅图6，在本发明实施例提供的检测装置的另一实施例中，检测装置还可以包括：

第五确定模块411，用于确定待训练模型以及待训练模型对应的第一模型参数；

第六确定模块412，用于将第一模型参数作为目标模型参数，然后分别触发第一发送模块413及第二发送模块414：

第一发送模块413，用于向第一计算服务器发送待训练模型及目标模型参数，以使得第一计算服务器获取目标模型参数对应的第一训练样本，根据待训练模型及目标模型参数计算第一训练样本对应的第一梯度值，并根据第一梯度值更新待训练模型输出第二模型参数，第一训练样本包括色***数据及正常视频数据；

第二发送模块414，用于向第二计算服务器发送待训练模型及目标模型参数，以使得第二计算服务器获取目标模型参数对应的第二训练样本，根据待训练模型及目标模型参数计算第二训练样本对应的第二梯度值，并根据第二梯度值更新待训练模型输出第三模型参数，第二训练样本包括色***数据及正常视频数据；

第一处理模块415，用于当接收到第一计算服务器发送的第二模型参数时，根据第二模型参数及目标模型参数进行差分处理得到第四模型参数，将第四模型参数作为目标模型参数，并触发第一发送模块413直到待训练模型收敛；

第二处理模块416，用于当接收到第二计算服务器发送的第三模型参数时，根据第三模型参数及目标模型参数进行差分处理得到第五模型参数，将第五模型参数作为目标模型参数，并执行触发第二发送模块414直到待训练模型收敛；

第七确定模块417，用于确定通过第一处理模块或第二处理模块处理后得到的收敛后的待训练模型为第一深度学习模型。

本发明实施例提供了一种检测装置获取第一深度学习模型的方式，提高了方案的可实现性。

基于上述图4至图6对应的任一实施例，在本发明实施例提供的检测装置的另一实施例中，抽取模块可以包括：

抽取单元，用于根据目标视频的时间长度抽取若干组视频帧序列，每组视频帧序列包含预置帧数的视频帧，每组视频帧序列中任意两个相邻视频帧的时间间隔相等。

上面从功能模块的角度介绍了本发明实施例中的检测装置，下面从硬件实体的角度介绍本发明实施例中的检测装置。本发明实施例中的检测装置适用于任意计算机设备中，如，该计算机设备可以是用于实现视频共享的服务器，或者是其他具备数据处理能力的设备。下面以服务器为例进行说明，请参阅图7，图7是本发明实施例提供的一种服务器结构示意图，该服务器700可因配置或性能不同而产生比较大的差异，可以包括一个或一个以***处理器(central processing units，CPU)722(例如，一个或一个以上处理器)和存储器732，一个或一个以上存储应用程序742或数据744的存储介质730(例如一个或一个以上海量存储设备)。其中，存储器732和存储介质730可以是短暂存储或持久存储。存储在存储介质730的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器722可以设置为与存储介质730通信，在服务器700上执行存储介质730中的一系列指令操作。

服务器700还可以包括一个或一个以上电源726，一个或一个以上有线或无线网络接口750，一个或一个以上输入输出接口758，和/或，一个或一个以上操作***741，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

上述实施例中由检测装置所执行的步骤可以基于该图7所示的服务器结构。

本发明实施例提供了一种抽取模块抽取视频帧序列的具体方式，提高了方案的可实现性。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的***，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的***，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(英文全称：Read-OnlyMemory，英文缩写：ROM)、随机存取存储器(英文全称：Random Access Memory，英文缩写：RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种色***检测方法，其特征在于，包括：

从目标视频中抽取若干组视频帧序列；

若大于所述第一预置阈值，则确定所述目标视频为色***。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

当确定所述最大值不大于所述第一预置阈值时，判断所述最大值是否小于第二预置阈值，所述第二预置阈值小于所述第一预置阈值；

若不小于所述第二预置阈值，则确定所述最大值对应的视频帧序列为目标视频帧序列；

通过第二深度学习模型提取所述目标视频帧序列对应的第二运动信息特征和/或第二画面内容特征，并根据所述第二运动信息特征和/或所述第二画面内容特征计算所述目标视频帧序列对应的第二分数，所述第二深度学习模型的计算精度大于所述第一深度学习模型的计算精度；

判断所述第二分数是否大于第三预置阈值；

若大于所述第三预置阈值，则确定所述目标视频为色***。

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

当确定所述最大值小于第二预置阈值，或确定所述第二分数不大于第三预置阈值时，确定所述目标视频为普通视频。

4.根据权利要求1所述的方法，其特征在于，所述从目标视频中抽取若干组视频帧序列之前包括：

确定待训练模型以及所述待训练模型对应的第一模型参数；

将所述第一模型参数作为目标模型参数，然后分别执行如下步骤1)和2)：

1)向第一计算服务器发送所述待训练模型及所述目标模型参数，以使得所述第一计算服务器获取所述目标模型参数对应的第一训练样本，根据所述待训练模型及所述目标模型参数计算所述第一训练样本对应的第一梯度值，并根据所述第一梯度值更新所述待训练模型输出第二模型参数，然后执行步骤3)，所述第一训练样本包括色***数据及正常视频数据；

2)向第二计算服务器发送所述待训练模型及所述目标模型参数，以使得所述第二计算服务器获取所述目标模型参数对应的第二训练样本，根据所述待训练模型及所述目标模型参数计算所述第二训练样本对应的第二梯度值，并根据所述第二梯度值更新所述待训练模型输出第三模型参数，然后执行步骤4)，所述第二训练样本包括色***数据及正常视频数据；

3)当接收到所述第一计算服务器发送的第二模型参数时，根据所述第二模型参数及所述目标模型参数进行差分处理得到第四模型参数，将所述第四模型参数作为目标模型参数，并执行步骤4)和/或1)直到所述待训练模型收敛；

4)当接收到所述第二计算服务器发送的第三模型参数时，根据所述第三模型参数及所述目标模型参数进行差分处理得到第五模型参数，将所述第五模型参数作为目标模型参数，并执行步骤3)和/或2)直到所述待训练模型收敛；

确定通过步骤3)或步骤4)收敛后的待训练模型为第一深度学习模型。

5.根据权利要求1至4中任一项所述的方法，其特征在于，所述从目标视频中抽取若干组视频帧序列包括：

根据所述目标视频的时间长度抽取若干组视频帧序列，每组视频帧序列包含预置帧数的视频帧，每组视频帧序列中任意两个相邻视频帧的时间间隔相等。

6.一种检测装置，其特征在于，包括：

抽取模块，用于从目标视频中抽取若干组视频帧序列；

7.根据权利要求6所述的装置，其特征在于，所述装置还包括：

第二判断模块，用于当第一判断模块确定所述最大值不大于所述第一预置阈值时，判断所述最大值是否小于第二预置阈值，所述第二预置阈值小于所述第一预置阈值；

第二确定模块，用于当所述第二判断模块确定所述最大值不小于所述第二预置阈值时，确定所述最大值对应的视频帧序列为目标视频帧序列；

第二计算模块，用于通过第二深度学习模型提取所述目标视频帧序列对应的第二运动信息特征和/或第二画面内容特征，并根据所述第二运动信息特征和/或所述第二画面内容特征计算所述目标视频帧序列对应的第二分数，所述第二深度学习模型的计算精度大于所述第一深度学习模型的计算精度；

第三判断模块，用于判断所述第二分数是否大于第三预置阈值；

第三确定模块，用于当所述第三判断模块确定所述第二分数大于所述第三预置阈值时，确定所述目标视频为色***。

8.根据权利要求7所述的装置，其特征在于，所述装置还包括：

第四确定模块，用于当所述第二判断模块确定所述最大值小于第二预置阈值，或所述第三判断模块确定所述第二分数不大于第三预置阈值时，确定所述目标视频为普通视频。

9.根据权利要求6所述的装置，其特征在于，所述装置还包括：

第五确定模块，用于确定待训练模型以及所述待训练模型对应的第一模型参数；

第六确定模块，用于将所述第一模型参数作为目标模型参数，然后分别触发第一发送模块及第二发送模块：

第一发送模块，用于向第一计算服务器发送所述待训练模型及所述目标模型参数，以使得所述第一计算服务器获取所述目标模型参数对应的第一训练样本，根据所述待训练模型及所述目标模型参数计算所述第一训练样本对应的第一梯度值，并根据所述第一梯度值更新所述待训练模型输出第二模型参数，所述第一训练样本包括色***数据及正常视频数据；

第二发送模块，用于向第二计算服务器发送所述待训练模型及所述目标模型参数，以使得所述第二计算服务器获取所述目标模型参数对应的第二训练样本，根据所述待训练模型及所述目标模型参数计算第二训练样本对应的第二梯度值，并根据所述第二梯度值更新所述待训练模型输出第三模型参数，所述第二训练样本包括色***数据及正常视频数据；

第一处理模块，用于当接收到所述第一计算服务器发送的第二模型参数时，根据所述第二模型参数及所述目标模型参数进行差分处理得到第四模型参数，将所述第四模型参数作为目标模型参数，并触发第一发送模块直到所述待训练模型收敛；

第二处理模块，用于当接收到所述第二计算服务器发送的第三模型参数时，根据所述第三模型参数及所述目标模型参数进行差分处理得到第五模型参数，将所述第五模型参数作为目标模型参数，并执行触发第二发送模块直到所述待训练模型收敛；

第七确定模块，用于确定通过第一处理模块或第二处理模块处理后得到的收敛后的待训练模型为第一深度学习模型。

10.根据权利要求6至9中任一项所述的装置，其特征在于，所述抽取模块包括：

抽取单元，用于根据所述目标视频的时间长度抽取若干组视频帧序列，每组视频帧序列包含预置帧数的视频帧，每组视频帧序列中任意两个相邻视频帧的时间间隔相等。