CN114170554A

CN114170554A - 视频检测方法、视频检测装置、存储介质与电子设备

Info

Publication number: CN114170554A
Application number: CN202111510590.9A
Authority: CN
Inventors: 张宸; 陈忱; 陶训强; 何苗; 郭彦东
Original assignee: Shanghai Jinsheng Communication Technology Co ltd
Current assignee: Shanghai Jinsheng Communication Technology Co ltd
Priority date: 2021-12-10
Filing date: 2021-12-10
Publication date: 2022-03-11

Abstract

本公开提供一种视频检测方法、视频检测装置、计算机可读存储介质与电子设备，涉及视频处理技术领域。所述视频检测方法包括：获取待检测视频与目标动作的参考视频；对所述待检测视频中的图像帧提取特征，得到所述待检测视频对应的待检测特征序列，以及对所述参考视频中的图像帧提取特征，得到所述参考视频对应的参考特征序列；在所述待检测特征序列中确定与所述参考特征序列匹配的目标子特征序列；根据所述目标子特征序列确定所述待检测视频中与所述目标动作相关的图像帧。本公开可以在待检测视频中便捷、快速的检测出与目标动作相关的图像帧。

Description

视频检测方法、视频检测装置、存储介质与电子设备

技术领域

本公开涉及视频处理技术领域，尤其涉及一种视频检测方法、视频检测装置、计算机可读存储介质与电子设备。

背景技术

随着计算机技术的迅速发展，图像和视频数据迅猛增长，为了满足用户在多种视频处理场景下的多样化需求，经常需要对视频进行检测，例如当用户想要从一段长视频中截取其中跳跃动作的子视频时，可以对该长视频进行视频检测，以识别其中的跳跃动作，并截取跳跃动作对应的子视频或者确定跳跃动作对应的开始时间和结束时间等。

现有技术的视频检测方法，通常需要基于大量的标注数据，预先训练一深度神经网络模型，通过深度神经网络模型对待检测的视频进行处理，来实现对其中指定动作的识别。然而，为了保证视频检测的准确性，采用这种方式时，通常需要人工对大量训练视频进行标注，时间成本和人力成本较高，且随着视频检测需求的不断增加，训练视频集的规模也容易受到限制，从而对深度神经网络模型的性能造成影响，导致视频检测效率和准确性不佳。

发明内容

本公开提供了一种视频检测方法、视频检测装置、计算机可读存储介质与电子设备，进而至少在一定程度上改善现有的视频检测方法需要对大量训练视频进行标注，时间和人力成本较高的问题。

本公开的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本公开的实践而习得。

根据本公开的第一方面，提供一种视频检测方法，包括：获取待检测视频与目标动作的参考视频；对所述待检测视频中的图像帧提取特征，得到所述待检测视频对应的待检测特征序列，以及对所述参考视频中的图像帧提取特征，得到所述参考视频对应的参考特征序列；在所述待检测特征序列中确定与所述参考特征序列匹配的目标子特征序列；根据所述目标子特征序列确定所述待检测视频中与所述目标动作相关的图像帧。

根据本公开的第二方面，提供一种视频检测装置，包括：视频获取模块，用于获取待检测视频与目标动作的参考视频；特征提取模块，用于对所述待检测视频中的图像帧提取特征，得到所述待检测视频对应的待检测特征序列，以及对所述参考视频中的图像帧提取特征，得到所述参考视频对应的参考特征序列；序列确定模块，用于在所述待检测特征序列中确定与所述参考特征序列匹配的目标子特征序列；图像确定模块，用于根据所述目标子特征序列确定所述待检测视频中与所述目标动作相关的图像帧。

根据本公开的第三方面，提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述第一方面的视频检测方法及其可能的实现方式。

根据本公开的第四方面，提供一种电子设备，包括：处理器；存储器，用于存储所述处理器的可执行指令。其中，所述处理器配置为经由执行所述可执行指令，来执行上述第一方面的视频检测方法及其可能的实现方式。

本公开的技术方案具有以下有益效果：

获取待检测视频与目标动作的参考视频；对待检测视频中的图像帧提取特征，得到待检测视频对应的待检测特征序列，以及对参考视频中的图像帧提取特征，得到参考视频对应的参考特征序列；在待检测特征序列中确定与参考特征序列匹配的目标子特征序列；根据目标子特征序列确定待检测视频中与目标动作相关的图像帧。一方面，本示例性实施例提出一种新的视频检测方法，通过比对待检测特征序列与参考特征序列，在待检测视频中确定与目标动作相关的图像帧，由于目标子特征序列是基于目标动作的参考视频匹配得到的，匹配过程以参考视频为基准，使得检测结果具有较强的针对性和准确性；另一方面，本示例性实施例在进行匹配时，仅涉及对目标动作的参考视频的处理过程，无需对其他大量的训练视频进行处理，相比于标注大量数据训练复杂度较高的深度神经网络模型进行视频检测，极大的降低了对视频数据处理的时间成本和人力成本，视频检测流程更加简单、便捷。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出本示例性实施方式中一种***架构的示意图；

图2示出本示例性实施方式中一种电子设备的结构图；

图3示出本示例性实施方式中一种视频检测方法的流程图；

图4示出本示例性实施方式中一种视频检测方法的图像帧示意图；

图5示出本示例性实施方式中一种视频检测方法的子流程图；

图6示出本示例性实施方式中训练特征提取模型的示意图；

图7示出本示例性实施方式中另一种视频检测方法的流程图；

图8示出本示例性实施方式中一种视频检测方法的另一子流程图；

图9示出本示例性实施方式中一种视频检测装置的结构框图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本公开将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中，提供许多具体细节从而给出对本公开的实施方式的充分理解。然而，本领域技术人员将意识到，可以实践本公开的技术方案而省略特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知技术方案以避免喧宾夺主而使得本公开的各方面变得模糊。

此外，附图仅为本公开的示意性图解，并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体，不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

本公开的示例性实施方式提供一种视频检测方法。图1示出了本示例性实施方式运行环境的***架构图。如图1所示，该***架构100可以包括用户终端110和服务端120，两者之间可以通过网络形成通信交互，例如用户终端110可以将获取的视频数据发送至服务端120，服务端120可以将视频检测结果返回至用户终端110。其中，用户终端110可以包括但不限于智能手机、平板电脑、游戏机、可穿戴设备等电子设备；服务端120是指提供互联网服务或视频处理能力的后台服务器。

应当理解，图1中各装置的数量仅是示例性的。根据实现需要，可以设置任意数量的用户终端，或者服务端可以是多台服务器形成的集群。

本公开实施方式所提供的视频检测方法可以由用户终端110执行，例如用户终端110采集视频后，直接进行视频检测流程；也可以由服务端120执行，例如用户终端110采集视频后，上传到服务端120，使服务端120进行视频检测流程，并将检测结果返回至用户终端110等，本公开对此不做限定。

本公开的示例性实施方式提供一种用于实现视频检测方法的电子设备，其可以是图1中的用户终端110或服务端120。该电子设备至少包括处理器和存储器，存储器用于存储处理器的可执行指令，处理器配置为经由执行可执行指令来执行视频检测方法。

下面以图2中的移动终端200为例，对上述电子设备的构造进行示例性说明。本领域技术人员应当理解，除了特别用于移动目的的部件之外，图2中的构造也能够应用于固定类型的设备。

如图2所示，移动终端200具体可以包括：处理器210、内部存储器221、外部存储器接口222、USB(Universal Serial Bus，通用串行总线)接口230、充电管理模块240、电源管理模块241、电池242、天线1、天线2、移动通信模块250、无线通信模块260、音频模块270、扬声器271、受话器272、麦克风273、耳机接口274、传感器模块280、显示屏幕290、摄像模组291、指示器292、马达293、按键294以及SIM(Subscriber Identification Module，用户标识模块)卡接口295等。

处理器210可以包括一个或多个处理单元，例如：处理器210可以包括AP(Application Processor，应用处理器)、调制解调处理器、GPU(Graphics ProcessingUnit，图形处理器)、ISP(Image Signal Processor，图像信号处理器)、控制器、编码器、解码器、DSP(Digital Signal Processor，数字信号处理器)、基带处理器和/或NPU(Neural-Network Processing Unit，神经网络处理器)等。

编码器可以对图像或视频数据进行编码(即压缩)，例如对视频画质处理后得到的待检测视频或参考视频进行编码，形成对应的码流数据，以减少数据传输所占的带宽；解码器可以对图像或视频的码流数据进行解码(即解压缩)，以还原出图像或视频数据，例如对待检测视频或参考视频进行解码，以得到视频中每一帧图像数据，对其中的一帧或多帧图像进行特征提取等等。

在一些实施方式中，处理器210可以包括一个或多个接口，通过不同的接口和移动终端200的其他部件形成连接。

内部存储器221可以用于存储计算机可执行程序代码，可执行程序代码包括指令。内部存储器221可以包括易失性存储器、非易失性存储器等。处理器210通过运行存储在内部存储器221的指令和/或存储在设置于处理器中的存储器的指令，执行移动终端200的各种功能应用以及数据处理。

外部存储器接口222可以用于连接外部存储器，例如Micro SD卡，实现扩展移动终端200的存储能力。外部存储器通过外部存储器接口222与处理器210通信，实现数据存储功能，例如存储音乐，视频等文件。

USB接口230是符合USB标准规范的接口，可以用于连接充电器为移动终端200充电，也可以连接耳机或其他电子设备。

充电管理模块240用于从充电器接收充电输入。充电管理模块240为电池242充电的同时，还可以通过电源管理模块241为设备供电；电源管理模块241还可以监测电池的状态。

移动终端200的无线通信功能可以通过天线1、天线2、移动通信模块250、无线通信模块260、调制解调处理器以及基带处理器等实现。天线1和天线2用于发射和接收电磁波信号。移动通信模块250可以提供应用在移动终端200上的包括2G/3G/4G/5G等无线通信的解决方案。无线通信模块260可以提供应用在移动终端200上的包括WLAN(Wireless LocalArea Networks，无线局域网)(如Wi-Fi(Wireless Fidelity，无线保真)网络)、BT(Bluetooth，蓝牙)、GNSS(Global Navigation Satellite System，全球导航卫星***)、FM(Frequency Modulation，调频)、NFC(Near Field Communication，近距离无线通信技术)、IR(Infrared，红外技术)等无线通信解决方案。

移动终端200可以通过GPU、显示屏幕290及AP等实现显示功能，显示用户界面。移动终端200可以通过ISP、摄像模组291、编码器、解码器、GPU、显示屏幕290及AP等实现拍摄功能，还可以通过音频模块270、扬声器271、受话器272、麦克风273、耳机接口274及AP等实现音频功能。

传感器模块280可以包括深度传感器2801、压力传感器2802、陀螺仪传感器2803、气压传感器2804等，以实现不同的感应检测功能。

指示器292可以是指示灯，可以用于指示充电状态，电量变化，也可以用于指示消息，未接来电，通知等。马达293可以产生振动提示，也可以用于触摸振动反馈等。按键294包括开机键，音量键等。

移动终端200可以支持一个或多个SIM卡接口295，用于连接SIM卡，以实现通话以及数据通信等功能。

图3示出了视频检测方法的示例性流程，可以由上述用户终端110或服务端120执行，包括以下步骤S310至S340：

步骤S310，获取待检测视频与目标动作的参考视频。

其中，待检测视频是指需要进行视频中目标动作检测的视频，其可以是用户实时或历史拍摄的视频，也可以是本地的视频，还可以是从云端或其他视频源下载的视频等。目标动作是指需要检测的动作，根据实际的检测需求，目标动作可以包括多种类型，例如当需要在待检测视频中，检测跑步动作时，目标动作即为跑步动作；当需要在待检测视频中，检测跳跃动作时，目标动作即为跳跃动作等等。目标动作可以是一种动作，例如检测待检测视频中的跑步动作，目标动作也可以是多种动作，例如检测待检测视频中的跑步动作或跳跃动作，目标动作还可以是多种动作的组合，例如检测待检测视频中先进行跑步动作然后进行跨栏动作的组合动作等等。

参考视频是指包括目标动作在内的，用于与待检测视频进行比对，检测待检测视频中是否包含目标动作的示例视频。在本示例性实施例中，参考视频可以是一个，例如当只需要检测待检测视频中的跑步动作这一种目标动作时，可以获取一个包含跑步动作的视频作为参考视频；参考视频也可以是多个，例如当需要检测待检测视频中跑步动作和跳跃动作这两种目标动作时，可以获取包含跑步动作的视频，以及包含跳跃动作的视频，作为参考视频等；或者为了提高检测目标动作的准确性，当需要检测待检测视频中的跑步动作这一种目标动作时，也可以获取多个包含跑步动作的参考视频，例如不同人进行跑步动作时的视频，或者不同场景下进行跑步动作的视频等，本公开对此不做具体限定。

步骤S320，对待检测视频中的图像帧提取特征，得到待检测视频对应的待检测特征序列，以及对参考视频中的图像帧提取特征，得到参考视频对应的参考特征序列。

本示例性实施例可以先从待检测视频中的图像帧中提取特征，该特征是指能够反映图像帧信息的数据，用于表征对应的图像帧，从待检测视频中的图像帧中提取特征，可以是对图像帧进行编码，则特征可以是编码生成的特征向量。然后可以根据图像帧在待检测视频中的时序性，生成待检测视频对应的待检测特征序列，当图像帧的特征为特征向量时，对应的待检测特征序列即为特征向量序列。本示例性实施例可以将待检测视频输入特定的编码器或者预先训练的网络模型中，以对图像帧进行编码，提取图像帧的特征，进一步生成待检测特征序列。

本示例性实施例，在提取待检测视频中的图像帧的特征时，可以对待检测视频中的全部图像帧提取特征，例如将待检测视频输入编码器中，以对待检测视频中的全部图像帧进行逐帧编码，生成每一帧的特征向量；也可以对待检测视频中的部分图像帧提取特征，例如当对用户拍摄的待检测视频进行目标动作的检测时，考虑目标动作往往出现在中段或者中后段，因此，可以对待检测视频除头部预设帧数的图像帧之外的其他图像帧进行特征提取；还可以根据用户的需求，例如用户选择对待检测视频中的某一段视频进行检测，则可以对该段视频中的图像帧进行特征提取等等，具体进行特征提取的图像帧可以根据实际情况确定，本公开对此不做具体限定。

除了从待检测视频中的图像帧中提取特征，得到待检测视频对应的待检测特征序列之外，本示例性实施例还可以对获取的参考视频中的图像帧提取特征，得到参考视频对应的参考特征序列，具体的参考视频的图像帧的特征提取方式以及参考特征序列的生成方式，与待检测视频中的图像帧的特征提取方式与待检测特征序列的生成方式可以相同，即也可以通过将参考视频输入预训练的网络模型中，得到参考视频的图像帧的特征向量，进一步，得到参考视频对应的参考特征序列。

步骤S330，在待检测特征序列中确定与参考特征序列匹配的目标子特征序列。

其中，待检测特征序列反映的是待检测视频，参考特征序列反映的是包含目标动作的参考视频，在待检测特征序列中查找是否包括与参考特征序列匹配的目标子特征序列，可以视为在待检测视频中确定关于目标动作的子视频的过程，则目标子特征序列即为待检测特征序列中可能与目标动作相关的图像帧的特征组成的子序列。

在本示例性实施例中，目标子特征序列的确定方式可以包括多种，具体的，可以以参考特征序列中每一帧图像帧的特征为基准，在待检测特征序列中进行查找，以确定每一参考特征对应的待检测特征，进而根据查找结果，确定目标子特征序列；还可以以参考特征序列的连续分布模式为基准，在待检测特征序列中对比和寻找与参考特征序列的连续分布模式相同或相似的子特征序列，例如本示例性实施例可以根据参考特征序列的长度确定一滑动窗口的尺寸，然后采用该滑动窗口在待检测特征序列中进行滑动计算，确定滑动窗口内的特征序列与参考特征序列的匹配度，以在待检测特征序列中确定与参考特征序列匹配的目标子特征序列，其中，匹配度的计算可以通过多种方式实现，例如可以采用欧式距离计算滑动窗口内特征序列与参考特征序列的相似度，通过相似度表征特征序列的匹配度等等。当在待检测特征序列中没有找到与参考特征序列匹配的子特征序列时，说明待检测视频中不存在有关目标动作的子视频。

步骤S340，根据目标子特征序列确定待检测视频中与目标动作相关的图像帧。

目标子特征序列即为待检测特征序列中，与目标动作相关的图像帧的特征组成的序列，则基于目标子特征序列中的每一特征，可以从待检测视频中确定出与目标动作相关的子视频所包含的图像帧，例如可以根据目标子特征序列中每一特征向量，从待检测视频中确定各特征向量对应的图像帧。根据实际需要，本示例性实施例可以从待检测视频中确定出与目标动作相关的全部图像帧，例如目标动作为跳跃动作时，从待检测视频中确定出从跳跃动作开始时到跳跃动作结束时对应的子视频中包括的所有图像帧；另外，也可以从待检测视频中确定出与目标动作相关的部分图像帧，例如目标动作为跳跃动作时，从待检测视频中确定出跳跃动作开始时对应的图像帧，以及跳跃动作结束时对应的图像帧等。当目标动作包括多种动作时，本示例性实施例可以输出与多种目标动作相关的图像帧，为了便于管理，还可以对目标动作进行分类，并对每一类目标动作相关的图像帧进行标识等，例如输出与跳跃动作相关的10帧图像帧以及与跑步动作相关的15帧图像帧，其中，跳跃动作在待检测视频的第16帧至25帧，跑步动作在待检测视频的31帧至45帧等等。

本示例性实施例基于待检测特征序列与参考特征序列对比的方式，对待检测视频中的目标动作进行检测，可以在待检测视频中进行目标动作的人物被部分遮挡的情况下，仍然保持较高的检测准确性和效率。

在一示例性实施例中，上述步骤S340可以包括：

根据目标子特征序列在待检测特征序列中的位置，在待检测视频中确定目标动作的起始帧与结束帧。

在实际应用中，常常有需要对视频进行检测确定目标动作的边界的应用场景，本示例性实施例可以根据目标子特征序列在待检测特征序列中的位置，在待检测视频中确定出目标动作的起始帧与结束帧，通过起始帧与结束帧标识目标动作在待检测视频中的运动边界，例如目标动作为跑步动作的目标子特征序列在待检测特征序列的第16帧至第25帧，则可以从待检测视频中确定出第16帧和第25帧，分别作为跑步动作的起始帧和结束帧，以跑步运动的多帧图像帧中的两帧关键帧表征待检测视频中出现跑步动作的运动边界等等。

图4示出了本示例性实施例中一种视频检测方法的示意图，如图4所示，下面以目标动作为跳跃动作为例进行说明，首先，可以获取待检测视频410与包含跳跃动作的参考视频420；然后对待检测视频410中的图像帧提取特征，得到待检测视频对应的待检测特征序列430，对参考视频中的图像帧提取特征，得到参考视频对应的参考特征序列440；在待检测特征序列430中确定与参考特征序列440匹配的目标子特征序列；最后根据目标子特征序列确定待检测视频410中与目标动作相关的所有图像帧450，或者根据目标子特征序列在待检测特征序列430中的位置，在待检测视频410中确定目标动作的起始帧与结束帧460。

综上，本示例性实施方式中，获取待检测视频与目标动作的参考视频；对待检测视频中的图像帧提取特征，得到待检测视频对应的待检测特征序列，以及对参考视频中的图像帧提取特征，得到参考视频对应的参考特征序列；在待检测特征序列中确定与参考特征序列匹配的目标子特征序列；根据目标子特征序列确定待检测视频中与目标动作相关的图像帧。一方面，本示例性实施例提出一种新的视频检测方法，通过比对待检测特征序列与参考特征序列，在待检测视频中确定与目标动作相关的图像帧，由于目标子特征序列是基于目标动作的参考视频匹配得到的，匹配过程以参考视频为基准，使得检测结果具有较强的针对性和准确性；另一方面，本示例性实施例在进行匹配时，仅涉及对目标动作的参考视频的处理过程，无需对其他大量的训练视频进行处理，相比于标注大量数据训练复杂度较高的深度神经网络模型进行视频检测，极大的降低了对视频数据处理的时间成本和人力成本，视频检测流程更加简单、便捷。

在一示例性实施例中，上述步骤S320中，对待检测视频中的图像帧提取特征，得到待检测视频对应的待检测特征序列，包括：

利用预先训练的特征提取模型对待检测视频中的图像帧提取特征，得到待检测视频对应的待检测特征序列。

本示例性实施例可以预先训练一特征提取模型，并通过该特征提取模型对待检测视频进行编码处理，以提取其中图像帧的图像特征，进而得到待检测视频对应的待检测特征序列。其中，该特征提取模型可以是基于时间循环一致性算法训练的自监督的深度神经网络模型，无需为其提供明确的标签，通过输入成对的样本视频进行训练，即可以进行编码学习。

另外，特征提取模型也可以是其他具有图像特征提取功能的神经网络模型，例如在将待分类图像输入图像分类模型时，往往会先通过中间层对待分类图像进行图像特征提取，生成特征图像，之后再对特征图像进行分类识别处理，以得到图像分类结果。因此，本示例性实施例也可以将图像分类模型作为特征提取模型，采用图像分类模型对待检测视频中的图像帧进行处理，仅获取中间层输出的特征图像，以实现对待检测视频中的图像帧进行特征提取的过程等等。

具体的，在一示例性实施例中，如图5所示，上述视频检测方法还可以包括以下步骤：

步骤S510，获取样本视频对，样本视频对包括第一样本视频与第二样本视频，第一样本视频与第二样本视频对应于相同动作；

步骤S520，利用待训练的特征提取模型分别对第一样本视频与第二样本视频中的图像帧提取特征，得到第一样本视频对应的第一样本特征序列与第二样本视频对应的第二样本特征序列；

步骤S530，对于第一样本特征序列中的至少一帧第一样本特征，在第二样本特征序列中确定与之最相似的第二样本特征，得到第一匹配结果，以及在第一样本特征序列中确定与第二样本特征最相似的第一样本特征，得到第二匹配结果；

步骤S540，根据第一匹配结果与第二匹配结果的差别，更新特征提取模型的参数。

其中，样本视频对是指用于训练特征提取模型的训练数据，样本视频对中可以包括相同动作的第一样本视频与第二样本视频，例如在不同场景下进行跑步动作的第一样本视频与第二样本视频，或者不同人进行跑步动作的第一样本视频或者第二样本视频等。在训练特征提取模型时，可以将样本视频对作为训练数据，输入待训练的特征提取模型中，例如可以按照batch(批)或者epoch(代)的方式，分别将样本视频对输入待训练的特征提取模型中。然后通过待训练的特征提取模型，分别对第一样本视频与第二样本视频中的图像帧进行特征提取，例如分别提取第一样本视频中图像帧的特征向量e₁，和第二样本视频中图像帧的特征向量e₂，然后基于从第一样本视频与第二样本视频中的图像帧中提取的特征，可以分别生成第一样本视频对应的第一样本特征序列以及第二样本视频对应的第二样本特征序列。

进一步，对于第一样本特征序列中的至少一帧第一样本特征，在第二样本特征序列中确定与之最相似的第二样本特征，得到第一匹配结果，然后，在第一样本特征序列中确定与第二样本特征最相似的第一样本特征，得到第二匹配结果，即先在第二样本视频中找到与第一样本视频中的图像帧相似的图像帧，然后在第一样本视频中再找出与该图像帧最相似的图像帧，从而进行循环，通过第一匹配结果与第二匹配结果的差别，即在第二样本视频中找到的图像帧与在第一样本视频中找到的图像帧之间的差别，更新特征提取模型的参数，具体的，可以是通过调整特征提取模型的参数使第一匹配结果与第二匹配结果的差别越来越小，直至特征提取模型的准确率达到一定的标准或者达到收敛条件，从而得到最终进行参数更新后的特征提取模型。基于上述方式，可以实现特征提取模型的训练过程。图6示出了一种特征提取模型的训练示意图，具体可以包括：获取样本视频对，样本视频对包括第一样本视频610与第二样本视频620，第一样本视频610与第二样本视频620对应于相同动作；通过待训练的特征提取模型630，分别对第一样本视频610与第二样本视频620中的图像帧进行特征提取；基于时间循环一致性算法构建时间域循环对齐损失函数640，更新特征提取模型的参数，得到训练完成的特征提取模型。

图7示出了另一种视频检测方法的流程图，具体可以包括以下步骤：

步骤S710，获取待检测视频；

步骤S720，获取包含目标动作的参考视频；

步骤S730，利用预先训练的特征提取模型对待检测视频中的图像帧提取特征，得到待检测视频对应的待检测特征序列；

步骤S740，利用预先训练的特征提取模型对参考视频中的图像帧提取特征，得到参考视频对应的参考特征序列；

步骤S750，判断待检测特征序列中是否存在与参考特征序列匹配的目标子特征序列；

如果待检测特征序列中存在与参考特征序列匹配的目标特征序列，则执行

步骤S760，根据目标子特征序列在待检测特征序列中的位置，在待检测视频中确定目标动作的类别，以及目标动作的起始帧与结束帧；

如果待检测特征序列中不存在与参考特征序列匹配的目标特征序列，则执行

步骤S770，返回待检测特征序列中不存在与参考特征序列匹配的目标特征序列的检测结果。

在一示例性实施例中，如图8所示，上述步骤S330可以包括：

步骤S810，根据参考特征序列的长度确定滑动窗口的尺寸；

步骤S820，利用滑动窗口在待检测特征序列中提取子特征序列，并确定子特征序列与参考特征序列的匹配度，当匹配度达到预设阈值时，将子特征序列确定为目标子特征序列。

在本示例性实施例中，可以通过设定滑动窗口，在待检测视频中进行滑动，以实现特征序列的匹配过程。具体的，可以根据参考特征序列的长度确定滑动窗口的尺寸，例如参考特征序列为10帧图像的特征构成的序列，则滑动窗口的尺寸可以设置为10帧，也可以设置小于10帧，如9帧或8帧等。然后，可以采用滑动窗口在待检测特征序列中进行滑动，每一步滑动可以确定当前滑动窗口对应的一段子特征序列，进一步，可以通过计算子特征序列与参考特征序列的匹配度，确定目标子特征序列。其中，滑动窗口的步长可以根据均衡***的速度要求和准确性要求进行自定义设置，本公开对此不做具体限定。参考特征序列与子特征序列的匹配度可以通过相似度计算实现，例如采用余弦相似度或欧式距离等方式计算参考特征序列中的特征向量与子特征序列中的特征向量的相似度，当匹配度达到预设阈值时，例如欧式距离小于一预设阈值时，认为当前的匹配度满足一定的要求，可以将子特征序列确定为目标子特征序列。

在一示例性实施例中，上述步骤S820中，利用滑动窗口在待检测特征序列中提取子特征序列，可以包括以下步骤：

在参考特征序列中确定至少一参考特征帧；

在待检测特征序列中确定与参考特征帧最相似的待检测特征帧，并根据待检测特征帧的位置确定滑动窗口在待检测特征序列中的初始位置；

将滑动窗口置于初始位置并提取位于滑动窗口内的子特征序列。

在本示例性实施例中，为了提高滑动窗口在待检测特征序列中的效率和准确性，可以对滑动窗口的初始位置进行特别设置。具体的，可以先在参考特征序列中确定至少一参考特征帧，该参考特征帧可以是参考特征序列对应的第一帧或最后一帧图像帧。然后在待检测特征序列中找到与参考特征帧最相似的待检测特征帧，例如待检测特征序列为包含跳跃动作的视频所生成的特征序列，参考特征序列为包含跳跃动作的视频，参考特征帧可以设置为跳跃动作刚开始人物的脚部与地面刚刚分离的图像帧，由于待检测特征序列中除了人物进行跳跃动作的视频段之外，还会包括其他无关于跳跃动作的视频段，此时，如果从待检测特征序列的头部开始滑动滑动窗口，可能会产生大量的无效匹配计算，为了提高滑动窗口在待检测特征序列中的检测效率，可以先在待检测特征序列中找到与参考特征帧最相似的待检测特征帧，如查找到人物的脚步与地面刚刚分离的图像帧作为待检测特征帧等。具体的查找方式可以通过计算特征帧之间的相似度确定，例如可以通过余弦相似度或欧式距离等方式，确定参考特征帧与待检测特征序列中的图像帧的相似度，以根据相似度确定与参考特征帧最相似的待检测特征帧等。进一步，可以根据待检测特征帧所在的位置，确定滑动窗口在待检测特征序列中的初始位置，例如可以将待检测特征帧所在的位置确定为滑动窗口在待检测特征序列中的初始位置；或者将待检测特征帧所在的位置确定为滑动窗口在待检测特征序列中的结束位置，并按照预设步长倒推确定初始位置等。最后，使滑动窗口从确定的初始位置开始逐步移动，并在每次移动后提取滑动窗口内的子特征序列，例如可以以参考特征序列中的第一帧为参考特征帧，并在待检测特征序列中找到与该参考特征帧最相似的待检测特征帧，并以该待检测特征帧的位置为滑动窗口的初始位置，按照预设步长进行移动，每移动一个步长，即可以提取当前滑动窗口内的子特征序列。

在一示例性实施例中，上述目标动作的参考视频可以包括多个参考视频。当目标动作包括多个参考视频时，可能会出现参考视频长度不一致的问题，基于此，本示例性实施例可以通过多种方式确定滑动窗口的尺寸，例如可以通过计算不同参考视频长度的平均值的方式，根据计算得到的平均值确定滑动窗口的尺寸。也可以通过对多个参考视频对应的多个参考特征序列进行对比的方式，确定滑动窗口的尺寸，具体的，上述步骤S510可以包括：

对多个参考视频对应的多个参考特征序列进行对比，以确定参考特征序列中的离群特征帧；

从参考特征序列中剔除离群特征帧，并根据剔除离群特征帧后的参考特征序列的长度确定滑动窗口的尺寸。

其中，离群特征帧是指特征序列中与其他特征帧差异较大或数据异常的图像帧，为了保证参考特征序列的准确性和有效性，当多个参考视频的长度不一致时，可以对多个参考视频对应的多个参考特征序列进行比对，先确定出参考特征序列中的离群特征帧。然后，从参考特征帧中剔除离群特征帧，基于剔除离群特征帧后的参考特征序列的长度确定滑动窗口的尺寸，从而保证了留下的特征帧的有效性，进一步保证了特征序列匹配的准确性。

需要说明的是，滑动窗口的尺寸设置可以根据实际需求或参考视频进行灵活设置，例如不同类别的目标动作的参考视频可以设置不同的滑动窗口的尺寸，本公开对此不做具体限定。

本公开的示例性实施方式还提供一种视频检测装置。如图9所示，该视频检测装置900可以包括：视频获取模块910，用于获取待检测视频与目标动作的参考视频；特征提取模块920，用于对待检测视频中的图像帧提取特征，得到待检测视频对应的待检测特征序列，以及对参考视频中的图像帧提取特征，得到参考视频对应的参考特征序列；序列确定模块930，用于在待检测特征序列中确定与参考特征序列匹配的目标子特征序列；图像确定模块940，用于根据目标子特征序列确定待检测视频中与目标动作相关的图像帧。

在一示例性实施例中，特征提取模块包括：特征提取单元，用于利用预先训练的特征提取模型对待检测视频中的图像帧提取特征，得到待检测视频对应的待检测特征序列。

在一示例性实施例中，视频检测装置还包括：样本视频获取模块，用于获取样本视频对，样本视频对包括第一样本视频与第二样本视频，第一样本视频与第二样本视频对应于相同动作；样本特征提取模块，用于利用待训练的特征提取模型分别对第一样本视频与第二样本视频中的图像帧提取特征，得到第一样本视频对应的第一样本特征序列与第二样本视频对应的第二样本特征序列；匹配结果获得模块，用于对于第一样本特征序列中的至少一帧第一样本特征，在第二样本特征序列中确定与之最相似的第二样本特征，得到第一匹配结果，以及在第一样本特征序列中确定与第二样本特征最相似的第一样本特征，得到第二匹配结果；模型参数更新模块，用于根据第一匹配结果与第二匹配结果的差别，更新特征提取模型的参数。

在一示例性实施例中，序列确定模块包括：长度确定单元，用于根据参考特征序列的长度确定滑动窗口的尺寸；目标子特征序列确定单元，用于利用滑动窗口在待检测特征序列中提取子特征序列，并确定子特征序列与参考特征序列的匹配度，当匹配度达到预设阈值时，将子特征序列确定为目标子特征序列。

在一示例性实施例中，目标子特征序列确定单元包括：参考特征帧确定子单元，用于在参考特征序列中确定至少一参考特征帧；初始位置确定子单元，用于在待检测特征序列中确定与参考特征帧最相似的待检测特征帧，并根据待检测特征帧的位置确定滑动窗口在待检测特征序列中的初始位置；子特征序列提取子单元，用于将滑动窗口置于初始位置并提取位于滑动窗口内的子特征序列。

在一示例性实施例中，目标动作的参考视频包括多个参考视频；目标子特征序列确定单元包括：离群特征帧确定子单元，用于对多个参考视频对应的多个参考特征序列进行对比，以确定参考特征序列中的离群特征帧；离群特征帧剔除子单元，用于从参考特征序列中剔除离群特征帧，并根据剔除离群特征帧后的参考特征序列的长度确定滑动窗口的尺寸。

在一示例性实施例中，图像确定模块包括：图像帧确定单元，用于根据目标子特征序列在待检测特征序列中的位置，在待检测视频中确定目标动作的起始帧与结束帧。

上述装置中各部分的具体细节在方法部分实施方式中已经详细说明，因而不再赘述。

本公开的示例性实施方式还提供了一种计算机可读存储介质，可以实现为程序产品的形式，包括程序代码，当程序产品在终端设备上运行时，程序代码用于使终端设备执行本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施方式的步骤，例如可以执行图3、图5图7或图8中任意一个或多个步骤。该程序产品可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在终端设备，例如个人电脑上运行。然而，本公开的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行***、装置或者器件使用或者与其结合使用。

程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的***、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码，程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

所属技术领域的技术人员能够理解，本公开的各个方面可以实现为***、方法或程序产品。因此，本公开的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“***”。本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其他实施方式。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施方式仅被视为示例性的，本公开的真正范围和精神由权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限定。

Claims

1.一种视频检测方法，其特征在于，包括：

获取待检测视频与目标动作的参考视频；

对所述待检测视频中的图像帧提取特征，得到所述待检测视频对应的待检测特征序列，以及对所述参考视频中的图像帧提取特征，得到所述参考视频对应的参考特征序列；

在所述待检测特征序列中确定与所述参考特征序列匹配的目标子特征序列；

根据所述目标子特征序列确定所述待检测视频中与所述目标动作相关的图像帧。

2.根据权利要求1所述的方法，其特征在于，所述对所述待检测视频中的图像帧提取特征，得到所述待检测视频对应的待检测特征序列，包括：

利用预先训练的特征提取模型对所述待检测视频中的图像帧提取特征，得到所述待检测视频对应的待检测特征序列。

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

获取样本视频对，所述样本视频对包括第一样本视频与第二样本视频，所述第一样本视频与所述第二样本视频对应于相同动作；

利用待训练的所述特征提取模型分别对所述第一样本视频与所述第二样本视频中的图像帧提取特征，得到所述第一样本视频对应的第一样本特征序列与所述第二样本视频对应的第二样本特征序列；

对于所述第一样本特征序列中的至少一帧第一样本特征，在所述第二样本特征序列中确定与之最相似的第二样本特征，得到第一匹配结果，以及在所述第一样本特征序列中确定与所述第二样本特征最相似的第一样本特征，得到第二匹配结果；

根据所述第一匹配结果与所述第二匹配结果的差别，更新所述特征提取模型的参数。

4.根据权利要求1所述的方法，其特征在于，所述在所述待检测特征序列中确定与所述参考特征序列匹配的目标子特征序列，包括：

根据所述参考特征序列的长度确定滑动窗口的尺寸；

利用所述滑动窗口在所述待检测特征序列中提取子特征序列，并确定所述子特征序列与所述参考特征序列的匹配度，当所述匹配度达到预设阈值时，将所述子特征序列确定为所述目标子特征序列。

5.根据权利要求4所述的方法，其特征在于，所述利用所述滑动窗口在所述待检测特征序列中提取子特征序列，包括：

在所述参考特征序列中确定至少一参考特征帧；

在所述待检测特征序列中确定与所述参考特征帧最相似的待检测特征帧，并根据所述待检测特征帧的位置确定所述滑动窗口在所述待检测特征序列中的初始位置；

将所述滑动窗口置于所述初始位置并提取位于所述滑动窗口内的子特征序列。

6.根据权利要求4所述的方法，其特征在于，所述目标动作的参考视频包括多个参考视频；所述根据所述参考特征序列的长度确定滑动窗口的尺寸，包括：

对多个所述参考视频对应的多个所述参考特征序列进行对比，以确定所述参考特征序列中的离群特征帧；

从所述参考特征序列中剔除所述离群特征帧，并根据剔除所述离群特征帧后的所述参考特征序列的长度确定所述滑动窗口的尺寸。

7.根据权利要求1所述的方法，其特征在于，所述根据所述目标子特征序列确定所述待检测视频中与所述目标动作相关的图像帧，包括：

根据所述目标子特征序列在所述待检测特征序列中的位置，在所述待检测视频中确定所述目标动作的起始帧与结束帧。

8.一种视频检测装置，其特征在于，包括：

视频获取模块，用于获取待检测视频与目标动作的参考视频；

特征提取模块，用于对所述待检测视频中的图像帧提取特征，得到所述待检测视频对应的待检测特征序列，以及对所述参考视频中的图像帧提取特征，得到所述参考视频对应的参考特征序列；

序列确定模块，用于在所述待检测特征序列中确定与所述参考特征序列匹配的目标子特征序列；

图像确定模块，用于根据所述目标子特征序列确定所述待检测视频中与所述目标动作相关的图像帧。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7任一项所述的方法。

10.一种电子设备，其特征在于，包括：

处理器；

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行权利要求1至7任一项所述的方法。