CN110309795A

CN110309795A - 视频检测方法、装置、电子设备及存储介质

Info

Publication number: CN110309795A
Application number: CN201910600863.5A
Authority: CN
Inventors: 吴韬; 徐敘遠; 龚国平; 杨喻茸
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-07-04
Filing date: 2019-07-04
Publication date: 2019-10-08
Anticipated expiration: 2039-07-04
Also published as: CN110309795B

Abstract

本发明提供了一种视频检测方法、装置、电子设备及存储介质；其中，方法包括：从待检测视频中抽取多个样本帧图像；分别检测各样本帧图像中的前景对象，确定各样本帧图像中的前景对象区域；基于确定的前景对象区域，分别对各样本帧图像进行特征提取，得到各样本帧图像的前景对象特征；分别将各样本帧图像的前景对象特征与特征库中的前景对象特征进行相似度匹配，得到匹配结果；基于匹配结果，确定视频库中与待检测视频相同的视频。如此，能够提高视频检测的效率及准确度。

Description

视频检测方法、装置、电子设备及存储介质

技术领域

本发明涉及互联网技术领域，尤其涉及一种视频检测方法、装置、电子设备及存储介质。

背景技术

相关技术中，对于视频检测，如视频的版权检测，主要基于视频的帧图像的完整画面特征(即包括帧图像的前景特征及背景特征)实现，处理过程繁琐，检测的效率低，而且，这种检测方式对图像的背景特征有较强的依赖性，如在图像的背景较为相似、前景略微不同的情况下，容易出现误检。

发明内容

本发明实施例提供一种视频检测方法、装置、电子设备及存储介质，能够提高视频检测的效率及准确度。

本发明实施例提供一种视频检测方法，包括：

从待检测视频中抽取多个样本帧图像；

分别检测各所述样本帧图像中的前景对象，确定各所述样本帧图像中的前景对象区域；

基于确定的所述前景对象区域，分别对各所述样本帧图像进行特征提取，得到各所述样本帧图像的前景对象特征；

分别将各所述样本帧图像的前景对象特征与特征库中的前景对象特征进行相似度匹配，得到匹配结果；

基于所述匹配结果，查找视频库中与所述待检测视频相同的视频。

本发明实施例还提供了一种视频检测装置，包括：

抽帧单元，用于从待检测视频中抽取多个样本帧图像；

检测单元，用于分别检测各所述样本帧图像中的前景对象，确定各所述样本帧图像中的前景对象区域；

提取单元，用于基于确定的所述前景对象区域，分别对各所述样本帧图像进行特征提取，得到各所述样本帧图像的前景对象特征；

匹配单元，用于分别将各所述样本帧图像的前景对象特征与特征库中的前景对象特征进行相似度匹配，得到匹配结果；

确定单元，用于基于所述匹配结果，查找视频库中与所述待检测视频相同的视频。

上述方案中，所述检测单元，还用于分别将各所述样本帧图像输入至单次多边框检测器SSD，输出相应的携带至少一个前景对象边框的样本帧图像；

确定输出的样本帧图像中所述前景对象边框包含的图像区域为所述前景对象区域。

上述方案中，所述装置还包括：

筛选单元，用于基于所述前景对象区域中前景对象的完整度，或者所述前景对象区域所占相应样本帧图像的比例，对多个所述前景对象区域进行筛选，得到所述完整度或所述比例满足预设条件的至少一个前景对象区域。

上述方案中，所述提取单元包括：

截取单元，用于基于所述前景对象区域，分别对各所述样本帧图像进行前景对象区域截取，得到各所述样本帧图像的区域图像；

特征单元，用于分别对各所述样本帧图像的区域图像进行特征提取，得到各所述样本帧图像的前景对象特征。

上述方案中，所述特征单元，还用于分别对各所述样本帧图像的区域图像进行浅层特征提取，得到表征所述区域图像的结构信息的浅层特征；

分别对各所述样本帧图像的区域图像进行深层特征提取，得到表征所述区域图像的语义信息的深层特征；

分别将各所述样本帧图像的浅层特征及深层特征进行加权融合，得到各所述样本帧图像的前景对象特征。

上述方案中，所述特征单元，还用于通过特征提取模型包括的浅层网络模型，对所述样本帧图像的区域图像进行浅层特征提取，得到表征所述区域图像的结构信息的浅层特征；

通过特征提取模型包括的深层网络模型对各所述样本帧图像的区域图像进行深层特征提取，得到表征所述区域图像的语义信息的深层特征；

通过特征提取模型包括的注意力模型，将所述浅层特征及所述深层特征进行加权融合，得到所述样本帧图像的前景对象特征。

上述方案中，所述特征单元，还用于通过所述特征提取模型，分别对第一样本图像、第二样本图像及第三样本图像进行特征提取，得到所述第一样本图像、第二样本图像及第三样本图像的前景对象特征；

其中，所述第一样本图像与所述第二样本图像的类别相同，所述第一样本图像与所述第三样本图像的类别不同；

基于所述第一样本图像的前景对象特征、第二样本图像的前景对象特征及第三样本图像的前景对象特征，确定所述特征提取模型的三元组损失函数的值；

基于所述三元组损失函数的值，更新所述特征提取模型的模型参数。

上述方案中，所述确定单元，还用于当所述匹配结果表征所述多个样本帧图像中满足匹配条件的图像的数量达到数量阈值时，确定所述视频库中对应所述匹配结果的视频，所述对应所述匹配结果的视频为与所述待检测视频相同的视频；

其中，所述满足匹配条件的样本帧图像为，前景对象特征与特征库中的前景对象特征的相似度达到相似度阈值的样本帧图像。

本发明实施例还提供了一种电子设备，包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现本发明实施例提供的视频检测方法。

本发明实施例还提供了一种存储介质，存储有可执行指令，用于引起处理器执行时，实现本发明实施例提供的视频检测方法。

应用本发明实施例具有以下有益效果：

分别将各样本帧图像的前景对象特征与特征库中的前景对象特征进行相似度匹配，得到匹配结果，并基于匹配结果，确定视频库中与待检测视频相同的视频；也即，对于视频库中视频的检测，依据的是待检测视频的样本帧图像中前景对象的特征，并不依赖于图像的背景特征，提高检测效率的基础上，避免了画面背景相似、前景稍有不同的情况下的误检，提高了视频检测的准确度。

附图说明

图1为本发明实施例提供的视频检测***100的架构示意图；

图2为本发明实施例提供的服务器的硬件结构示意图；

图3为本发明实施例提供的视频版权检测的实施场景示意图；

图4为本发明实施例提供的冗余视频管理的实施场景示意图；

图5为本发明实施例提供的视频推荐的实施场景示意图；

图6为本发明实施例提供的视频检测方法的流程示意图；

图7为本发明实施例提供的视频的一个可选的数据结构示意图；

图8为本发明实施例提供的通过单次多边框检测器进行人体检测的示意图；

图9为本发明实施例提供的特征提取模型的结构示意图；

图10为本发明实施例提供的三元组损失函数对应的训练目标的示意图；

图11为本发明实施例提供的视频检测方法的流程示意图；

图12为本发明实施例提供的视频检测方法的流程示意图；

图13为本发明实施例提供的背景相同但前景人物不同的视频帧图像的示意图；

图14为本发明实施例提供的视频检测装置的结构示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，所描述的实施例不应视为对本发明的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

在以下的描述中，所涉及的术语“第一\第二”仅仅是是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二”在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本发明实施例能够以除了在这里图示或描述的以外的顺序实施。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本发明实施例的目的，不是旨在限制本发明。

对本发明实施例进行进一步详细说明之前，对本发明实施例中涉及的名词和术语进行说明，本发明实施例中涉及的名词和术语适用于如下的解释。

1)前景对象，每张图像都包括前景和背景，其中，图像中靠近摄像机的内容为前景，前景中的对象为前景对象，如人、动物等。

图1是本发明实施例提供的视频检测***100的一个可选的架构示意图，参见图1，为实现支撑一个示例性应用，终端(包括终端400-1和终端400-2)通过网络300连接服务器200，网络300可以是广域网或者局域网，又或者是二者的组合，使用无线或有线链路实现数据传输。

终端(如终端400-1)，用于发送视频检测请求给服务器200，视频检测请求中携带待检测视频；

服务器200，用于基于视频检测请求，从待检测视频中抽取多个样本帧图像，分别检测各样本帧图像中的前景对象，确定各样本帧图像中的前景对象区域，基于确定的前景对象区域，分别对各样本帧图像进行特征提取，得到各样本帧图像的前景对象特征，分别将各样本帧图像的前景对象特征与特征库中的前景对象特征进行相似度匹配，得到匹配结果，基于匹配结果，查找视频库中与待检测视频相同的视频，并返回查找结果给终端；

这里，在实际应用中，服务器200既可以为单独配置的支持各种业务的一个服务器，亦可以配置为一个服务器集群。

终端(终端400-1和/或终端400-2)，还用于显示所述查找结果。

在实际应用中，终端可以为智能手机、平板电脑、笔记本电脑、可穿戴计算设备、个人数字助理(PDA)、台式计算机、蜂窝电话、媒体播放器、导航设备、游戏机、电视机等、或者这些数据处理设备或其他数据处理设备中任意两个或多个的组合。

在一些实施例中，终端上设置有视频播放客户端，用户通过视频播放客户端可进行视频的在线播放、视频的上传及下载等，示例性地，用户通过视频播放客户端进行视频(即待检测视频)上传，视频播放客户端发送携带待检测视频的上传请求给服务器，服务器解析视频播放客户端发送的上传请求，得到待检测视频，从待检测视频中抽取多个样本帧图像，分别检测各样本帧图像中的前景对象，确定各样本帧图像中的前景对象区域，基于确定的前景对象区域，分别对各样本帧图像进行特征提取，得到各样本帧图像的前景对象特征，分别将各样本帧图像的前景对象特征与特征库中的前景对象特征进行相似度匹配，得到匹配结果，基于匹配结果，查找视频库中与待检测视频相同的视频，并返回相应的查找结果。

下面对实施本发明实施例实施视频检测方法的电子设备进行说明。在一些实施例中，电子设备可以为终端，还可以为服务器。本发明实施例以电子设备为服务器为例，对服务器的硬件结构做详细说明。

图2为本发明实施例提供的服务器的硬件结构示意图，可以理解，图2仅仅示出了服务器的示例性结构而非全部结构，根据需要可以实施图2示出的部分结构或全部结构。参见图2，本发明实施例提供的服务器包括：至少一个处理器201、存储器202、用户接口203和至少一个网络接口204。服务器中的各个组件通过总线***205耦合在一起。可以理解，总线***205用于实现这些组件之间的连接通信。总线***205除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图2中将各种总线都标为总线***205。

其中，用户接口203可以包括显示器、键盘、鼠标、轨迹球、点击轮、按键、按钮、触感板或者触摸屏等。

可以理解，存储器202可以是易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。

本发明实施例中的存储器202用于存储各种类型的数据以支持服务器的操作。这些数据的示例包括：用于在服务器上操作的任何可执行指令，如可执行指令，实现本发明实施例的方法的程序可以包含在可执行指令中。

本发明实施例揭示的视频检测方法可以由处理器201实现。处理器201可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，视频检测方法的各步骤可以通过处理器201中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器201可以是通用处理器、数字信号处理器(DSP，Digital Si gnal Processor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。处理器201可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本发明实施例所公开的方法的步骤，可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于存储介质中，该存储介质位于存储器202，处理器201读取存储器202中的信息，结合其硬件完成本发明实施例提供的视频检测方法的步骤。

基于上述对本发明实施例的视频检测***及电子设备的说明，接下来对本发明实施例提供的视频检测方法的应用场景或领域进行介绍，需要说明的是，本发明实施例的视频检测方法并不限于以下所提到的场景或领域：

1、视频版权检测；

图3为本发明实施例提供的视频版权检测的实施场景示意图，接下来结合图1及图3，对本发明实施例视频检测方法应用于视频版权检测的场景进行说明。

以终端为图1中的终端400-1为例，终端上设置有视频播放客户端，视频播放客户端对应的后台服务器为图1中的服务器200，用户通过视频播放客户端进行视频(如A电影)的上传，视频播放客户端发送携带A电影的上传请求给后台服务器；

后台服务器的视频库中存储有多个具有版权归属属性(如版权归属为视频播放客户端的用户即视频发布者，或者版权归属为播放平台)的视频，特征库中存储有对应视频库中各个视频的前景对象特征；后台服务器基于上传请求，从A电影中抽取多个样本帧图像，分别检测各样本帧图像中的前景对象，确定各样本帧图像中的前景对象区域，基于确定的前景对象区域，分别对各样本帧图像进行特征提取，得到各样本帧图像的前景对象特征，分别将各样本帧图像的前景对象特征与特征库中的前景对象特征进行相似度匹配，基于匹配结果，查找视频库中与A电影相同的视频，并基于查找结果返回相应的信息给终端，例如，若在视频库中查找到与A电影相同的视频，返回禁止上传的信息给终端；若在视频库中未查找到与A电影相同的视频，返回上传成功的信息给终端。

应用本发明实施例的视频检测方法可有效的对视频提供版权保护，有效的维护视频上传者及播放平台的权益。

2、冗余视频管理

图4为本发明实施例提供的冗余视频管理的实施场景示意图，接下来结合图1及图4，对本发明实施例视频检测方法应用于冗余视频管理的场景进行说明。

以第一终端为图1中的终端400-1，第一终端上设置有视频播放客户端、第二终端为图1中的终端400-2、视频播放客户端对应的后台服务器为图1中的服务器200为例，其中，第一终端面向视频观看者，第二终端面向视频播放客户端的管理者，在一些实施例中，管理者亦可通过第二终端上设置的视频播放客户端进行视频播放。

在实际实施时，第二终端上设置有管理软件(如管理客户端)，管理者通过管理工具提供的用户界面，可对后台服务器上存储的对应视频播放客户端的资源进行管理。

在一些实施例中，第二终端发送携带待检测视频的重复性查询请求给后台服务器，后台服务器从待检测视频中抽取多个样本帧图像，分别检测各样本帧图像中的前景对象，确定各样本帧图像中的前景对象区域，基于确定的前景对象区域，分别对各样本帧图像进行特征提取，得到各样本帧图像的前景对象特征，分别将各样本帧图像的前景对象特征与特征库中的前景对象特征进行相似度匹配，基于匹配结果，查找视频库中与待检测视频相同的视频，并返回相应的查找结果，例如，若查找到与待检测视频相同的视频，返回相应的视频信息(如视频标识、视频名称)给第二终端，若未查找到与待检测视频相同的视频，返回未查找到相同视频的信息给第二终端；

管理者基于后台服务器返回的查找结果可进行相应的处理，例如，若第二终端接收到后台服务器返回的与待检测视频相同的视频信息，可基于该视频信息进行视频的删除，如此，可减少对后台服务器存储空间的占用，净化视频播放平台的存量视频。

3、视频推荐

图5为本发明实施例提供的视频推荐的实施场景示意图，接下来结合图1及图5，对本发明实施例视频检测方法应用于视频推荐的场景进行说明。

以终端为图1中的终端400-1为例，终端上设置有视频播放客户端，视频播放客户端对应的后台服务器为图1中的服务器200，用户通过视频播放客户端可进行视频观看。

在一些实施例中，后台服务器可通过视频播放客户端进行视频推荐，后台服务器上设置有视频库及特征库，其中，视频库中存储有一段时间内推荐过的视频，特征库中存储有对应视频库中各个视频的前景对象特征。

在进行视频推荐之前，后台服务器从待推荐视频中抽取多个样本帧图像，分别检测各样本帧图像中的前景对象，确定各样本帧图像中的前景对象区域，基于确定的前景对象区域，分别对各样本帧图像进行特征提取，得到各样本帧图像的前景对象特征，分别将各样本帧图像的前景对象特征与特征库中的前景对象特征进行相似度匹配，基于匹配结果，查找视频库中与待推荐视频相同的视频，并基于查找结果判断是否对待推荐视频进行推荐，例如，若查找到与待推荐视频相同的视频，则不对该视频进行推荐，如此，可实现对推荐视频的过滤，避免视频的重复推荐；若未查找到与待推荐视频相同的视频，则将该视频推送至视频播放客户端，以进行视频推荐。

接下来对本发明实施例提供的视频检测方法进行说明，图6为本发明实施例提供的视频检测方法的流程示意图，在一些实施例中，该视频检测方法可由服务器或终端实施，或由服务器及终端协同实施，以服务器实施为例，如通过图1中的服务器200实施，结合图1及图6，本发明实施例提供的视频检测方法包括：

步骤601：服务器从待检测视频中抽取多个样本帧图像。

在实际应用中，待检测视频既可以为一个完整的视频，如一个完整的电影文件，或者为一个视频片段，如一个电影的片段节选。

在实际实施时，服务器对于待检测视频的抽帧方式可以有多种，例如，随机的从待检测视频中抽取预设数量的多个样本帧图像。

在一些实施例中，还可依据视频的数据结构对视频进行样本帧图像的抽取，图7为本发明实施例提供的视频的一个可选的数据结构示意图，参见图7，视频数据从结构上可以分为电影、场景、镜头及帧四个层次，视觉上连续的视频是由一幅幅静止图像不断放映到屏幕或显示器上形成的，这一幅幅静止的图像即为视频帧；在视频拍摄过程中，摄像头连续不间断拍摄的一段视频称为镜头，镜头是视频数据的基本单位，若干个内容相近的镜头组成一个场景，它们从不同的角度描述同一个事件，而电影则由许多场景组成，叙述一个完整的故事。

基于待检测视频的数据结构，在一些实施例中，服务器还可通过如下方式实现样本图像帧的抽取：对待检测视频的视频帧进行镜头切换检测，得到待检测视频对应的多个镜头；分别从各镜头对应的视频帧中抽取样本帧，得到多个样本帧图像。

这里，对镜头切换检测进行说明。在实际应用中，镜头切换检测可利用镜头发生切换时表现出的特性找到发生切换的位置，从而把整个视频分割成一个个独立的镜头。

例如，可通过如下方式实现对待检测视频的镜头切换检测：

采用帧间像素点匹配法，计算待检测视频的相邻视频帧中相同位置的像素点的差异度，确定相邻的两个视频帧中差异度超过第一差异阈值的像素点的数量，达到预设的数量阈值时，确定两帧视频帧之间发生镜头切换。

在实际应用中，每个镜头对应多个视频帧，在实际实施时，可通过如下方式从镜头对应的视频帧中抽取样本帧：从镜头对应的多个视频帧中均匀的抽取预设数量的样本帧；例如，镜头对应100个视频帧，从第1个视频帧开始，每似个视频帧抽取一个样本帧，即抽取25个样本帧，得到25个样本帧图像。

基于待检测视频的数据结构，在一些实施例中，服务器还可通过如下方式实现样本图像帧的抽取：对待检测视频的视频帧进行场景切换检测，得到待检测视频对应的多个场景；分别从各场景对应的视频帧中抽取样本帧，得到多个样本帧图像。

这里，在实际应用中，可通过如下方式实现对待检测视频的场景切换检测：

计算待检测视频的相邻视频帧的直方图差异度，确定直方图差异度达到第二差异阈值的两帧视频帧之间发生场景切换。

在实际应用中，每个场景对应多个视频帧，在实际实施时，可通过如下方式从场景对应的视频帧中抽取样本帧：从场景对应的多个视频帧中均匀的抽取预设数量的样本帧。

步骤602：分别检测各样本帧图像中的前景对象，确定各样本帧图像中的前景对象区域。

在一些实施例中，可通过如下方式确定各样本帧图像中的前景对象区域：

分别将各样本帧图像输入至单次多边框检测器(SSD，Single Shot Multi-BoxDetector)，输出相应的携带至少一个前景对象边框的样本帧图像；确定输出的样本帧图像中前景对象边框包含的图像区域为前景对象区域。

在实际应用中，前景对象可以为人或动物等，接下来以前景对象为人进行说明。

将样本帧图像输入至SSD，通过SSD对样本帧图像进行人体检测，即识别样本帧图像的人体，并确定人体区域，图8为本发明实施例提供的通过单次多边框检测器进行人体检测的示意图，参见图8，边框1及边框2所包含的图像区域为人体区域。

在实际应用中，样本帧图像中可能存在多个前景对象，然而，并不是所有检测得到的前景对象都存在应用价值，因此，当通过SSD检测得到样本帧图像中存在多个前景对象区域时，需要对检测得到的前景对象区域进行筛选，在一些实施例中，可通过如下方式实现对前景对象区域的筛选：

基于前景对象区域中前景对象的完整度，或者前景对象区域所占相应样本帧图像的比例，对多个前景对象区域进行筛选，得到完整度或所述比例满足预设条件的至少一个前景对象区域。

这里，以前景对象为人体为例进行说明。在实际应用中，对于视频中身份不重要的人体，拍摄得到的帧图像可能存在如下情况：由于遮挡等原因造成某些检测得到的人体不完整，如不包含头部区域；由于所占位置距离摄像机较远，造成检测得到的人体区域占据的画面比例较小，如图8，边框1对应的人体区域所占样本图像帧的比例较小；在实际实施时，可对人体的完整度及人体区域所占样本帧图像的比例设置相应的阈值，以过滤掉完整度小于完整度阈值的人体，以及人体区域占样本帧图像的比例小于比例阈值的人体。

步骤603：基于确定的所述前景对象区域，分别对各样本帧图像进行特征提取，得到各样本帧图像的前景对象特征。

在一些实施例中，可通过如下方式得到各样本帧图像的前景对象特征：

基于确定的前景对象区域，分别对各样本帧图像进行前景对象区域截取，得到各样本帧图像的区域图像；分别对各样本帧图像的区域图像进行特征提取，得到各样本帧图像的前景对象特征。

在一些实施例中，可通过如下方式对截取得到的区域图像进行特征提取，得到样本帧图像的前景对象特征：

对样本帧图像的区域图像进行浅层特征提取，得到表征区域图像的结构信息的浅层特征；对样本帧图像的区域图像进行深层特征提取，得到表征区域图像的语义信息的深层特征；将样本帧图像的浅层特征及深层特征进行加权融合，得到样本帧图像的前景对象特征。

这里，对浅层特征及深层特征的加权融合进行说明。在实际实施时，可根据如下公式实现对浅层特征及深层特征的加权处理：

其中，为浅层特征，为深层特征，及为预设常量，具体可依据实际情况进行设定。

在一些实施例中，可通过训练得到的特征提取模型，对截取得到的区域图像进行特征提取，得到样本帧图像的前景对象特征。示例性地，图9为本发明实施例提供的特征提取模型的结构示意图，参见图9，特征提取模型可包括浅层网络模型(即浅层)、深层网络模型(即深层)及注意力模型(即注意力层)；其中，浅层网络模型，用于对样本帧图像的区域图像进行浅层特征提取，得到表征区域图像的结构信息的浅层特征；深层网络模型，用于对各样本帧图像的区域图像进行深层特征提取，得到表征区域图像的语义信息的深层特征；注意力模型，用于将浅层特征及深层特征进行加权融合，得到样本帧图像的前景对象特征。

对特征提取模型的训练进行说明。在一些实施例中，可通过如下方式实现对特征提取模型的训练：

通过特征提取模型，分别对第一样本图像、第二样本图像及第三样本图像进行特征提取，得到第一样本图像、第二样本图像及第三样本图像的前景对象特征；其中，第一样本图像与第二样本图像的类别相同，第一样本图像与第三样本图像的类别不同；基于第一样本图像的前景对象特征、第二样本图像的前景对象特征及第三样本图像的前景对象特征，确定特征提取模型的三元组损失函数的值；基于三元组损失函数的值，更新特征提取模型的模型参数。

在一些实施例中，可通过如下方式更新特征提取模型的模型参数：

基于三元组损失函数的值，判断三元组损失函数的值是否超出预设阈值，当三元组损失函数的值超出预设阈值时，基于三元组损失函数确定特征提取模型的误差信号，将所述误差信号在特征提取模型中反向传播，并在传播的过程中更新各个层的模型参数。

这里对反向传播进行说明，将训练样本数据(即样本图像)输入到特征提取模型的浅层(即浅层网络模型)，经过中间层、深层(即深层网络模型)、注意力层(注意力模型)，最后到达输出层并输出结果，这是特征提取模型的前向传播过程，由于特征提取模型的输出结果与实际结果有误差，则计算输出结果与实际值之间的误差，并将该误差从输出层向注意力层反向传播，直至传播到浅层，在反向传播的过程中，根据误差调整模型参数的值；不断迭代上述过程，直至收敛。

对三元组损失函数进行说明。图10为本发明实施例提供的三元组损失函数对应的训练目标的示意图，参见图10，从训练样本集中随机选取一个样本图像作为第一样本图像，记为a，然后随机选取一个与第一样本图像类别相同的样本图像作为第二样本图像，记为p，再随机选取一个与第一样本图像类别不同的样本图像作为第三样本图像，记为n，由此构成一个(a，p，n)三元组。

针对三元组中的每个元素(样本)，经特征提取模型进行特征提取，得到三个元素的特征表达，分别记为三元组损失函数的目标就是通过学习，让和之间的距离尽可能小，让和之间的距离尽可能大，并且要让和之间的距离，与和之间的距离之间有一个最小的间隔margin，在一些实施例中，三元组损失函数L如下所示：

其中，表示和之间的欧式距离，表示和之间的欧式距离，margin为常量，具体可依据实际需要进行设定。

对特征提取模型的训练样本集进行说明。在实际实施时，训练样本集可包括至少两个子集，每个子集中包括多个样本图像，每个子集中的样本图像间的相似度达到预设的第一相似度阈值，不同子集间的样本图像间的相似度小于预设的第二相似度阈值，也即，同一个子集中的样本图像类别相同，不同子集间的样本图像类别不同。

接下来以前景对象为人体为例对特征提取模型的训练样本集进行说明。在实际实施时，检测视频包括的多个视频帧图像中的人体区域，判断相邻帧图像的人体相似度，将相似度达到第一相似度阈值的人体区域图像归类为同类样本图像。

步骤604：分别将各样本帧图像的前景对象特征与特征库中的前景对象特征进行相似度匹配，得到匹配结果。

这里，在实际应用中，服务器上设置有视频库及特征库，其中，视频库中存储有多个视频，特征库中存储有对应视频库中多个视频的前景对象特征，对于视频库中的一个特定视频来说，特征库中存储有对应该特定视频的多个样本帧图像的前景对象特征，待检测视频帧的样本帧的抽取方式与该特定视频的样本帧的抽取方式相同。

在一些实施例中，可通过如下方式实现样本帧图像的前景对象特征与特征库中的前景对象特征的匹配：

将待检测视频的样本帧图像的前景对象特征，与特征库中相应的样本帧图像(如均为抽取的视频的第5个样本帧，或播放时间相同的视频帧)的前景对象特征进行相似度计算，得到相应的相似度结果，当相似度达到预设相似度阈值时，表示匹配成功；当相似度未达到预设相似度阈值时，表示匹配失败。

以前景对象特征为人体特征为例，在实际应用中，通过两个人体特征的余弦距离表征两个人体特征的相似度，相应的，可通过如下公式计算两个人体特征的相似度：

其中，表示人体特征与人体特征的余弦距离；表示向量的L2范数，表示向量的L2范数。

步骤605：基于所述匹配结果，查找视频库中与待检测视频相同的视频。

在一些实施例中，可通过如下方式查找视频库中与待检测视频相同的视频：

当匹配结果表征待检测视频的多个样本帧图像中，满足匹配条件的图像的数量达到数量阈值时，确定视频库中对应匹配结果的视频，所述对应匹配结果的视频为与待检测视频相同的视频；其中，满足匹配条件的样本帧图像为，前景对象特征与特征库中的前景对象特征的相似度达到相似度阈值的样本帧图像，也即，与特征库中样本帧图像的前景对象特征匹配成功的样本帧图像。

应用本发明上述实施例，对于视频库中视频的检测，依据的是待检测视频的样本帧图像中前景对象的特征，并不依赖于图像的背景特征，提高检测效率的基础上，避免了画面背景相似、前景稍有不同的情况下的误检，提高了视频检测的准确度。

接下来以前景对象为人体为例，对本发明实施例的视频检测方法进行说明。图11及图12为本发明实施例提供的视频检测方法的流程示意图，在一些实施例中，该视频检测方法可由终端及服务器协同实施，如通过图1中的终端400-1及服务器200实施，终端400-1上设置有视频播放客户端，结合图1、图11及图12，本发明实施例提供的视频检测方法包括：

步骤701：视频播放客户端发送携带待检测视频的视频上传请求给服务器。

在实际应用中，用户可通过终端中设置的视频播放客户端进行视频的播放、下载及上传等，当用户进行视频上传时，视频播放客户端接收到用户同用户界面触发的视频上传指令，该视频上传指令指示上传待检测视频，视频播放客户端发送携带待检测视频的视频上传请求给服务器，在实际应用中，视频上传请求中还可携带发送端标识，如终端标识。

步骤702：服务器解析视频上传请求，得到待检测视频，采用第一抽帧方式从待检测视频中抽取预设数量的样本帧图像。

这里，在实际实施时，服务器对待检测视频的视频帧进行镜头切换检测，得到待检测视频对应的多个镜头；分别从各镜头对应的视频帧中抽取样本帧，得到预设数量的样本帧图像。

步骤703：依次将样本帧图像输入至人体检测网络，确定样本帧图像中的人体区域。

在实际应用中，人体检测网络采用SSD网络结构，能够精确的识别样本帧图像中的人体。

步骤704：基于确定的人体区域进行人体筛选，得到目标人体图像。

在实际实施时，服务器可基于人体的完整度，或者人体区域所占样本帧图像的比例，对人体进行筛选，具体地，服务器选取人体区域的完整度达到预设完整度阈值，或者人体区域所占样本帧图像的比例达到预设的比例阈值的人体区域图像作为目标人体图像，需要说明的是，对于一个样本帧图像来说，筛选得到的目标人体图像可以有一个或一个以上。

步骤705：通过特征提取模型，对样本帧图像的目标人体图像进行特征提取，得到相应的人体特征。

在一些实施例中，可通过如下方式实现人体特征的提取：

对目标人体图像分别进行浅层特征提取及深层特征提取，得到目标人体的浅层特征及深层特征，对得到的浅层特征及深层特征加权融合，得到样本帧图像的人体特征。

步骤706：将得到的样本帧图像的人体特征，与特征库中相应的样本帧图像的人体特征进行相似度匹配，得到匹配结果。

这里，特征库中存储了对应视频库中的多个视频的人体特征，视频库中的视频为具有版权归属属性的视频，该特征库为预先构建得到，特征库的构建包括：

采用第二抽帧方式从目标视频(或视频片段)中抽取预设数量的样本帧图像，依次将样本帧图像输入至人体检测网络，确定样本帧图像中的人体区域，基于确定的人体区域进行人体筛选，得到目标人体图像，通过特征提取模型，对样本帧图像的目标人体图像进行特征提取，得到相应的人体特征，将得到的目标视频的多个样本帧图像的人体特征存储至特征库。

这里，需要说明的是，第一抽帧方式与第二抽帧方式相同。

在实际实施时，进行人体特征匹配时，待检测视频的样本帧图像需要与特征库中相应的样本帧图像进行人体特征匹配，例如，当前进行特征匹配的是待检测视频的第五个样本帧图像，需要与特征库中视频的第五个样本帧图像进行人体特征匹配。

在实际应用中，可通过两个人体特征的余弦距离，表征两个人体特征的相似度，当两个人体特征的余弦距离达到设定阈值时，确定匹配成功，当特征的余弦距离未达到设定阈值时，确定匹配失败。

步骤707：在视频库中，查找与待检测视频相同的视频，并在查找到与待检测视频相同的视频时，执行步骤708；未查找到与待检测视频相同的视频时，执行步骤710。

这里，在实际应用中，服务器确定视频库中满足以下条件的视频为与待检测视频相同的视频：

与待检测视频的样本帧图像的匹配结果中，匹配成功的样本帧图像的数量达到预设的数量阈值。

步骤708：发送禁止上传的消息给视频播放客户端。

步骤709：视频播放客户端通过用户界面显示禁止上传的消息。

步骤710：发送上传成功的消息给视频播放客户端。

应用本发明上述实施例，依据的是待检测视频的样本帧图像中的人体特征，并不依赖于图像的背景特征，提高检测效率的基础上，避免了画面背景相似、前景稍有不同的情况下的误检，提高了视频检测的准确度，并在检测到用户上传的视频与视频库中的视频相同时，禁止其上传，可有效的对视频提供版权保护，有效的维护视频上传者及播放平台的权益。

继续以前景对象为人体为例，对本发明实施例的视频检测方法进行说明，该方法可以由终端执行，或者由服务器执行，或者由终端与服务器协同执行，接下来以服务器执行为例进行说明，如通过图1中的服务器200执行。

本发明实施例的视频检测方法为基于内容的重复性检测(CBCD，Content-BasedCopy Detection)，由于人体信息是包括头发、人脸、服饰、姿态等信息融合在一起的，是区分视频内容差异的关键信息，因此，可采用视频帧图像中的人体特征代表该视频帧图像的特征，提取视频帧图像的抽象特征(即人体特征)作为索引，与视频库中视频的人体特征进行匹配，通过匹配结果可以判定视频版权的归属，如此，不仅能够区分普通含有人体的视频，同时对于区分背景相同或者相似，但是前景人物不同的视频也能够精确的区分，图13为本发明实施例提供的背景相同但前景人物不同的视频帧图像的示意图，参见图13，如若基于视频帧的完整画面特征进行检测，由于背景相同，容易出现误检。

参见图12，在构建特征库的阶段，对于需要特征入库的视频进行抽帧采样，得到视频的多个样本帧图像，对于每一个采样到的样本帧图像，使用训练好的人体检测网络进行人体检测，并对检测到的人体进行筛选，对于符合入库要求的人体进行截取后，使用训练好的特征提取网络进行特征提取，并将提取好的特征加入到特征库中。

在特征匹配阶段，对于待匹配的视频进行如特征库构建阶段相同的抽帧采样、人体检测、人体筛选和特征提取步骤，最后对提取到的人体特征和特征库中的人体特征进行匹配。

接下来对特征库构建阶段及特征匹配阶段都涉及的抽帧采样、人体检测、人体筛选和特征提取分别进行说明。

对于抽帧采样，可以采用多种采样方式，如均匀的抽取预设数量的视频帧作为样本帧，亦可依据前述的视频的不同镜头及场景进行样本帧的抽取，需要说明的是，对于匹配阶段中待检测视频的样本帧的抽取方式，需要和特征库构建阶段视频的样本帧的抽取方式相同。

对于人体检测，在本发明实施例中可通过人体检测网络实现样本帧图像中人体区域的确定，人体检测网络可采用SSD网络结构，该网络结构在检测速度和检测精度上都有非常好的表现，在测试阶段，该网络的人体检测效率在图形处理器(GPU，GraphicsProcessing Unit)上能够达到100帧/秒以上，同时保证有85％以上的检出率。

对于人体筛选，在一些实施例中，主要是基于人体的完整度，或人体区域占据样本帧图像的比例，如此，可筛除掉一些非重要人体，在实际应用中，非重要人体可以包括人体占画面比例很小和不包含头部的人体，如表演节目中的观众、电影电视剧中的路人等等，这些人体存在于大多数视频中且有一定的重复性，因此将该类人体筛除，人体头部包含有人的发型、人脸等重要信息，对于判断该人体的信息有非常重要的作用，因此对不包含头部的人体进行筛除。通过测试，筛除掉人体占画面比例很小和不包含头部的人体，能够提升10％左右的准确率。

对于特征提取，在一些实施例中，可通过训练得到的特征提取网络(即特征提取模型)对筛选后的人体图像进行人体特征提取，主要包括以下步骤：

对人体图像进行浅层特征提取，得到人体图像的浅层特征，对人体图像进行深层特征提取，得到人体图像的深层特征，对得到的浅层特征及深层特征进行加权处理，得到最终的人体特征。

接下来对特征提取网络的训练进行说明。

首先对训练数据集的构建进行说明。

训练样本集可包括至少两个子集，每个子集中包括多个人体图像(即样本图像)，每个子集中的人体图像间的相似度达到预设的第一相似度阈值，不同子集间的人体图像间的相似度小于预设的第二相似度阈值，也即，同一个子集中的人体图像类别相同，不同子集间的人体图像类别不同。在实际应用中，由于视频在时间和空间上有非常强的相关性，利用该特性，本发明实施例从无标签的视频序列中构建了一个包含大量相似/不相似人体对的数据集，例如：检测视频画面中相邻或者相近帧的人体区域，通过判断视频画面是否有镜头的切换，同时利用一些人工特征(如尺度不变特征转换(SIFT，Scale-invariant featuretr ansform)sift特征等)来判断从这些相邻或相近帧提取到的人体的相似度，将相似度符合预期的样本对加入到训练数据集中；在一些实施例中，可对这些样本对添加包括随机裁剪、模糊、旋转等攻击，从而提升网络的鲁棒性。

接下来对特征提取网络的网络架构进行说明。参见图9，特征提取网络可以包括浅层、中间层、深层及注意力层；其中，浅层用于对输入的人体图像进行浅层特征的提取，在实际应用中，浅层特征用于表征图像的结构信息；深层用于对经中间层处理后的人体图像进行深层特征的提取，在实际应用中，深层特征用于表征图像的语义信息；注意力层，用于将浅层特征与深层特征相结合，具体地，可基于公式(1)实现对浅层特征与深层特征的加权融合，如此，对比单一使用浅层特征或者深层特征能够提升20％左右的准确率。

接下来对特征匹配进行说明。

特征距离计算采用余弦距离，具体地，可通过公式(3)进行人体特征间余弦距离的计算；对于请求视频，抽帧提取视频中的人体特征，与特征库中的人体特征计算特征距离，对于距离小于设定阈值的特征人体，判定为相似人体，对于一整段视频，判定为相似人体的样本帧的数量达到设定的数量阈值，即相似人体比例大于某一阈值的情况下，判定为相同的视频片段。

应用本发明实施例，一方面，能够为电影、电视剧以及综艺等视频提供版权保护，有效的维护视频上传者和平台的权益；另一方面，还可以应用在视频的重复检测，这里不但可以净化视频平台的存量视频，提升平台的视频质量，而且还能应用在推荐时，对推荐的视频进行过滤。

继续对本发明实施例提供的视频检测装置行说明。图14为本发明实施例提供的视频检测装置的结构示意图，参见图14，本发明实施例提供的视频检测装置140包括：

抽帧单元141，用于从待检测视频中抽取多个样本帧图像；

检测单元142，用于分别检测各所述样本帧图像中的前景对象，确定各所述样本帧图像中的前景对象区域；

提取单元143，用于基于确定的所述前景对象区域，分别对各所述样本帧图像进行特征提取，得到各所述样本帧图像的前景对象特征；

匹配单元144，用于分别将各所述样本帧图像的前景对象特征与特征库中的前景对象特征进行相似度匹配，得到匹配结果；

确定单元145，用于基于所述匹配结果，查找视频库中与所述待检测视频相同的视频。

在一些实施例中，所述抽帧单元，还用于对所述待检测视频的视频帧进行镜头切换检测，得到所述待检测视频对应的多个镜头；

分别从各所述镜头对应的视频帧中抽取样本帧，得到多个样本帧图像。

在一些实施例中，所述抽帧单元，还用于对所述待检测视频的视频帧进行场景切换检测，得到所述待检测视频对应的多个场景；

分别从各所述场景对应的视频帧中抽取样本帧，得到多个样本帧图像。

在一些实施例中，所述检测单元，还用于分别将各所述样本帧图像输入至单次多边框检测器SSD，输出相应的携带至少一个前景对象边框的样本帧图像；

在一些实施例中，所述装置还包括：

在一些实施例中，所述提取单元包括：

在一些实施例中，所述特征单元，还用于分别对各所述样本帧图像的区域图像进行浅层特征提取，得到表征所述区域图像的结构信息的浅层特征；

在一些实施例中，所述特征单元，还用于通过特征提取模型包括的浅层网络模型，对所述样本帧图像的区域图像进行浅层特征提取，得到表征所述区域图像的结构信息的浅层特征；

在一些实施例中，所述特征单元，还用于通过所述特征提取模型，分别对第一样本图像、第二样本图像及第三样本图像进行特征提取，得到所述第一样本图像、第二样本图像及第三样本图像的前景对象特征；

在一些实施例中，所述确定单元，还用于当所述匹配结果表征所述多个样本帧图像中满足匹配条件的图像的数量达到数量阈值时，确定所述视频库中对应所述匹配结果的视频，所述对应所述匹配结果的视频为与所述待检测视频相同的视频；

这里需要指出的是：以上涉及装置的描述，与上述方法描述是类似的，同方法的有益效果描述，不做赘述，对于本发明实施例所述装置中未披露的技术细节，请参照本发明方法实施例的描述。

本发明实施例还提供了一种电子设备，所述电子设备包括：

存储器，用于存储可执行程序；

处理器，用于执行所述存储器中存储的可执行程序时，实现本发明实施例提供的上述视频检测方法。

本发明实施例还提供一种存储有可执行指令的存储介质，其中存储有可执行指令，当可执行指令被处理器执行时，将引起处理器执行本发明实施例提供的视频检测方法。

实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、随机存取存储器(RAM，Random Access Memory)、只读存储器(ROM，Read-Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

或者，本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括：移动存储设备、RAM、ROM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种视频检测方法，其特征在于，所述方法包括：

从待检测视频中抽取多个样本帧图像；

2.如权利要求1所述的方法，其特征在于，所述从待检测视频中抽取多个样本帧图像，包括：

对所述待检测视频的视频帧进行镜头切换检测，得到所述待检测视频对应的多个镜头；

3.如权利要求1所述的方法，其特征在于，所述从待检测视频中抽取多个样本帧图像，包括：

对所述待检测视频的视频帧进行场景切换检测，得到所述待检测视频对应的多个场景；

4.如权利要求1所述的方法，其特征在于，所述分别检测各所述样本帧图像中的前景对象，确定各所述样本帧图像中的前景对象区域，包括：

分别将各所述样本帧图像输入至单次多边框检测器SSD，输出相应的携带至少一个前景对象边框的样本帧图像；

5.如权利要求1所述的方法，其特征在于，所述方法还包括：

基于所述前景对象区域中前景对象的完整度，或者所述前景对象区域所占相应样本帧图像的比例，对多个所述前景对象区域进行筛选，得到所述完整度或所述比例满足预设条件的至少一个前景对象区域。

6.如权利要求1所述的方法，其特征在于，所述基于确定的所述前景对象区域，分别对各所述样本帧图像进行特征提取，得到各所述样本帧图像的前景对象特征，包括：

基于所述前景对象区域，分别对各所述样本帧图像进行前景对象区域截取，得到各所述样本帧图像的区域图像；

分别对各所述样本帧图像的区域图像进行特征提取，得到各所述样本帧图像的前景对象特征。

7.如权利要求6所述的方法，其特征在于，所述分别对各所述样本帧图像的区域图像进行特征提取，得到各所述样本帧图像的前景对象特征，包括：

分别对各所述样本帧图像的区域图像进行浅层特征提取，得到表征所述区域图像的结构信息的浅层特征；

8.如权利要求6所述的方法，其特征在于，所述分别对各所述样本帧图像的区域图像进行特征提取，得到各所述样本帧图像的前景对象特征，包括：

通过特征提取模型包括的浅层网络模型，对所述样本帧图像的区域图像进行浅层特征提取，得到表征所述区域图像的结构信息的浅层特征；

9.如权利要求8所述的方法，其特征在于，所述方法还包括：

通过所述特征提取模型，分别对第一样本图像、第二样本图像及第三样本图像进行特征提取，得到所述第一样本图像、第二样本图像及第三样本图像的前景对象特征；

10.如权利要求1所述的方法，其特征在于，所述基于所述匹配结果，查找视频库中与所述待检测视频相同的视频，包括：

当所述匹配结果表征所述多个样本帧图像中满足匹配条件的样本帧图像的数量达到数量阈值时，确定所述视频库中对应所述匹配结果的视频，所述对应所述匹配结果的视频为与所述待检测视频相同的视频；

其中，所述满足匹配条件的样本帧图像为：前景对象特征与特征库中的前景对象特征的相似度达到相似度阈值的样本帧图像。

11.一种视频检测装置，其特征在于，所述装置包括：

抽帧单元，用于从待检测视频中抽取多个样本帧图像；

12.如权利要求11所述的装置，其特征在于，

所述抽帧单元，还用于对所述待检测视频的视频帧进行镜头切换检测，得到所述待检测视频对应的多个镜头；

13.如权利要求11所述的装置，其特征在于，

所述抽帧单元，还用于对所述待检测视频的视频帧进行场景切换检测，得到所述待检测视频对应的多个场景；

14.一种电子设备，其特征在于，所述电子设备包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现权利要求1至10中任一项所述的视频检测方法。

15.一种存储介质，其特征在于，所述存储介质存储有可执行指令，用于引起处理器执行时，实现权利要求1至10中任一项所述的视频检测方法。