CN111950332A

CN111950332A - 视频时序定位方法、装置、计算设备和存储介质

Info

Publication number: CN111950332A
Application number: CN201910412596.9A
Authority: CN
Inventors: 许昀璐; 程战战; 钮毅
Original assignee: Hangzhou Hikvision Digital Technology Co Ltd
Current assignee: Hangzhou Hikvision Digital Technology Co Ltd
Priority date: 2019-05-17
Filing date: 2019-05-17
Publication date: 2020-11-17
Anticipated expiration: 2039-05-17
Also published as: CN111950332B

Abstract

本申请公开了一种视频时序定位方法、装置、计算设备和存储介质，属于视频监控领域。本申请实施例提供了一种视频时序定位方法，通过将监控视频裁剪的多个第一视频片段输入事件定位模型中，根据该模型，确定监控视频中的每个第一事件发生的时间范围。该事件定位模型为基于第一样本视频包括的多个第二视频片段和第一样本视频标注的至少一个第二事件训练得到的。该方法中使用的模型为事件定位模型，由于该模型在训练时不需对每帧图像进行标注，因此，在使用该模型进行时序定位时，只需对监控视频中的每个第一视频片段中的事件进行识别定位，不需对监控视频中的每帧图像进行识别定位，从而缩短了视频时序定位时长，提高了视频时序定位效率。

Description

视频时序定位方法、装置、计算设备和存储介质

技术领域

本申请涉及视频监控领域。特别涉及一种视频时序定位方法、装置、计算设备和存储介质。

背景技术

随着视频监控***的普遍，监控视频的数据量越来越庞大。一个监控视频中可能包括多个事件的视频数据。例如，一个监控视频中可能包括A、B、C等事件的视频数据，当相关人员想查看监控视频中每个事件的监控记录时，需要确定监控视频中每个事件发生的时间范围。例如，相关人员想查看A事件的监控记录时，需要确定监控视频中A事件发生的时间范围；当相关人员想查看B事件的监控记录时，需要确定监控视频中B事件发生的时间范围。

相关技术中对监控视频进行时序定位时，主要是先得到时序定位模型，然后将待定位的监控视频输入该时序定位模型，输出该监控视频中每个事件发生的时间范围。其中，训练时序定位模型的过程主要为：获取监控视频，通过人工手动对监控视频中的每帧图像的类别进行标记，得到样本视频，根据样本视频中手动标注的每帧图像进行模型训练，最后得到时序定位模型。

但相关技术中由于训练模型时需要标注每帧图像，在使用该时序定位模型对监控视频进行时序定位时，也需要对监控视频中的每帧图像进行逐一识别定位，导致对监控视频的时序定位耗时长，效率低。

发明内容

本申请实施例提供了视频时序定位方法、装置、计算设备和存储介质,能够解决监控视频的时序定位耗时长，效率低的问题。所述技术方案如下：

一方面，提供了一种视频时序定位方法，所述方法包括：

当对待定位的监控视频进行时序定位时，将所述监控视频裁剪为多个第一视频片段；

将每个第一视频片段输入事件定位模型中，得到所述监控视频中的所述每个第一视频片段对应的第一事件，所述事件定位模型为基于第一样本视频包括的多个第二视频片段和所述第一样本视频中标注的至少一个第二事件训练得到的；

根据所述每个第一视频片段对应的第一事件和所述每个第一视频片段的时间范围，确定所述监控视频中的每个第一事件发生的时间范围。

在一种可能的实现方式中，所述方法还包括：

将所述第一样本视频裁剪为多个第二视频片段，所述第一样本视频中标注至少一个第二事件；

根据所述第一样本视频包括的多个第二视频片段对应的第一特征向量，从所述第一样本视频中识别出至少一个第三事件；

根据从所述第一样本视频中识别出的至少一个第三事件、标注的至少一个第二事件和所述多个第二视频片段，进行模型训练，得到所述事件定位模型。

在另一种可能的实现方式中，所述根据所述第一样本视频包括的多个第二视频片段对应的第一特征向量，从所述第一样本视频中识别出至少一个第三事件，包括：

获取所述第一样本视频中的每个第二视频片段对应的第一特征向量；

对于每个第二视频片段的第一特征向量，确定所述第一样本视频对应的多个第二特征向量；

根据所述第一样本视频对应的多个第二特征向量，从所述第一样本视频中识别出至少一个第三事件。

在另一种可能的实现方式中，所述对于每个第二视频片段的第一特征向量，确定所述第一样本视频对应的多个第二特征向量，包括：

根据所述每个第二视频片段的第一特征向量，确定所述每个第二视频片段的权重；

根据所述每个第二视频片段的第一特征向量，确定任意两个第二视频片段的第一特征向量之间的第一置信度；

根据所述每个第二视频片段的权重，将所述每个第二视频片段的第一特征向量中第一置信度超过预设阈值的第一特征向量进行加权，得到多个第二特征向量。

在另一种可能的实现方式中，所述根据所述第一样本视频对应的多个第二特征向量，从所述第一样本视频中识别出至少一个第三事件，包括：

对于每个第二特征向量，根据所述第二特征向量，确定所述第二特征向量与每个指定事件之间的第二置信度；

根据所述第二特征向量与每个指定事件之间的第二置信度，从所述每个指定事件中选择与所述第二特征向量之间置信度最高的指定事件；

将选择的指定事件作为所述第二特征向量对应的第二事件。

在另一种可能的实现方式中，所述将每个第一视频片段输入事件定位模型中，得到所述监控视频中的所述每个第一视频片段对应的第一事件之前，所述方法还包括：

获取第二样本视频，所述第二样本视频中标注至少一个第***和每个第***发生的时间范围；

将所述第二样本视频输入所述事件定位模型中，输出所述第二样本视频的至少一个第五事件和每个第五事件发生的时间范围；

根据所述至少一个第***和所述每个第***发生的时间范围，以及所述至少一个第五事件和所述每个第五事件发生的时间范围，对所述事件定位模型进行测试；

当所述事件定位模型测试成功时，执行所述将每个第一视频片段输入事件定位模型中，得到所述监控视频中的所述每个第一视频片段对应的第一事件的步骤。

在另一种可能的实现方式中，所述根据所述至少一个第***和所述每个第***发生的时间范围，以及所述至少一个第五事件和所述每个第五事件发生的时间范围，对所述事件定位模型进行测试，包括：

当所述至少一个第***与所述至少一个第五事件匹配，且所述每个第***发生的时间范围与所述每个第五事件发生的时间范围匹配时，确定所述事件定位模型测试成功。

在另一种可能的实现方式中，所述根据所述每个第一视频片段对应的第一事件和所述每个第一视频片段的时间范围，确定所述监控视频中的每个第一事件发生的时间范围，包括：

对于所述监控视频中的每个第一事件，根据所述第一事件对应的至少一个第一视频片段，将所述第一事件对应的至少一个第一视频片段的时间范围作为所述第一事件发生的时间范围。

另一方面，提供了一种视频时序定位装置，所述装置包括：

裁剪模块，用于当对待定位的监控视频进行时序定位时，将所述监控视频裁剪为多个第一视频片段；

输入模块，用于将每个第一视频片段输入事件定位模型中，得到所述监控视频中的所述每个第一视频片段对应的第一事件，所述事件定位模型为基于第一样本视频包括的多个第二视频片段和所述第一样本视频中标注的至少一个第二事件训练得到的；

确定模块，用于根据所述每个第一视频片段对应的第一事件和所述每个第一视频片段的时间范围，确定所述监控视频中的每个第一事件发生的时间范围。

在一种可能的实现方式中，所述装置还包括：

所述裁剪模块，还用于将所述第一样本视频裁剪为多个第二视频片段，所述第一样本视频中标注至少一个第二事件；

识别模块，用于根据所述第一样本视频包括的多个第二视频片段对应的第一特征向量，从所述第一样本视频中识别出至少一个第三事件；

训练模块，用于根据从所述第一样本视频中识别出的至少一个第三事件、标注的至少一个第二事件和所述多个第二视频片段，进行模型训练，得到所述事件定位模型。

在另一种可能的实现方式中，所述识别模块，还用于获取所述第一样本视频中的每个第二视频片段对应的第一特征向量；对于每个第二视频片段的第一特征向量，确定所述第一样本视频对应的多个第二特征向量；根据所述第一样本视频对应的多个第二特征向量，从所述第一样本视频中识别出至少一个第三事件。

在另一种可能的实现方式中，所述识别模块，还用于根据所述每个第二视频片段的第一特征向量，确定所述每个第二视频片段的权重；根据所述每个第二视频片段的第一特征向量，确定任意两个第二视频片段的第一特征向量之间的第一置信度；根据所述每个第二视频片段的权重，将所述每个第二视频片段的第一特征向量中第一置信度超过预设阈值的第一特征向量进行加权，得到多个第二特征向量。

在另一种可能的实现方式中，所述识别模块，还用于对于每个第二特征向量，根据所述第二特征向量，确定所述第二特征向量与每个指定事件之间的第二置信度；根据所述第二特征向量与每个指定事件之间的第二置信度，从所述每个指定事件中选择与所述第二特征向量之间置信度最高的指定事件；将选择的指定事件作为所述第二特征向量对应的第二事件。

在另一种可能的实现方式中，所述装置还包括：

获取模块，用于获取第二样本视频，所述第二样本视频中标注至少一个第***和每个第***发生的时间范围；

所述输入模块，还用于将所述第二样本视频输入所述事件定位模型中，输出所述第二样本视频的至少一个第五事件和每个第五事件发生的时间范围；

测试模块，还用于根据所述至少一个第***和所述每个第***发生的时间范围，以及所述至少一个第五事件和所述每个第五事件发生的时间范围，对所述事件定位模型进行测试；

所述输入模块，还用于当所述事件定位模型测试成功时，将每个第一视频片段输入事件定位模型中，得到所述监控视频中的所述每个第一视频片段对应的第一事件。

在另一种可能的实现方式中，所述测试模块，还用于当所述至少一个第***与所述至少一个第五事件匹配，且所述每个第***发生的时间范围与所述每个第五事件发生的时间范围匹配时，确定所述事件定位模型测试成功。

在另一种可能的实现方式中，所述确定模块，还用于对于所述监控视频中的每个第一事件，根据所述第一事件对应的至少一个第一视频片段，将所述第一事件对应的至少一个第一视频片段的时间范围作为所述第一事件发生的时间范围。

另一方面，提供了一种计算设备，所述计算设备包括：

处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述指令、所述程序、所述代码集或所述指令集由所述处理器加载并执行以实现上述视频时序定位方法中任一项所执行的操作。

另一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述指令、所述程序、所述代码集或所述指令集由处理器加载并执行以实现上述视频时序定位方法中任一项所执行的操作。

本申请实施例提供的技术方案带来的有益效果是：

本申请实施例提供的视频时序定位方法，当对待定位的监控视频进行时序定位时，将监控视频裁剪为多个第一视频片段，将每个第一视频片段输入事件定位模型中，得到监控视频中的每个第一视频片段对应的第一事件，根据每个第一视频片段对应的第一事件和每个第一视频片段的时间范围，确定监控视频中的每个第一事件发生的时间范围。其中，事件定位模型为基于第一样本视频包括的多个第二视频片段和第一样本视频中标注的至少一个第二事件训练得到的。该方法使用的模型为事件定位模型，由于该模型在训练时只需获取第一样本视频中包括的多个第二视频片段和至少一个第二事件，不需对每帧图像进行标注，因此，在使用该模型进行时序定位时，只需对监控视频中的每个第一视频片段中的事件进行识别定位，而不需对监控视频中的每帧图像进行识别定位，从而缩短了视频时序定位时长，提高了视频时序定位效率。

附图说明

图1是本申请实施例提供的一种实施环境的示意图；

图2是本申请实施例提供的一种视频时序定位方法的流程图；

图3是本申请实施例提供的一种事件定位模型训练方法的流程图；

图4是本申请实施例提供的一种计算设备训练模型的示意图；

图5是本申请实施例提供的一种计算设备通过注意力机制网络确定第一视频片段的权重的示意图；

图6是本申请实施例提供的一种计算设备通过注意力机制网络确定第二特征向量的示意图；

图7是本申请实施例提供的一种计算设备确定第一样本视频中多个第二事件的示意图；

图8是本申请实施例提供的一种视频时序定位方法的流程图；

图9是本申请实施例提供的一种计算设备确定监控视频中每个第三事件发生的时间范围的示意图；

图10是本申请实施例提供的一种视频时序定位装置的结构示意图；

图11是本申请实施例提供的一种计算设备的结构框图。

具体实施方式

为使本申请的技术方案和优点更加清楚，下面对本申请实施方式作进一步地详细描述。

本申请实施例提供了一种视频时序定位的实施环境，该实施环境包括：计算设备101，该计算设备101可以为终端或服务器。在本申请实施例中，对计算设备101不作具体限定。为了便于区分，当计算设备101为服务器时称为第一服务器；当计算设备101为终端时，将训练事件定位模型的服务器称为第二服务器102。

当计算设备101为第一服务器时，第一服务器可以训练初始模型得到事件定位模型，当需要对监控视频进行时序定位时，第一服务器将该监控视频裁剪为多个第一视频片段，将每个第一视频片段输入事件定位模型中，通过事件定位模型，确定待定位的监控视频中每个第一事件发生的时间范围。当该计算设备101为终端时，在一种可能的实现方式中，终端训练初始模型得到事件定位模型，当需要对监控视频进行时序定位时，终端将该监控视频裁剪为多个第一视频片段，将每个第一视频片段输入事件定位模型中，通过事件定位模型，确定待定位的监控视频中每个第一事件发生的时间范围。在另一种可能的实现方式中，终端获取第二服务器102训练得到的事件定位模型，第二服务器102和终端之间可以通过无线连接，当需要对监控视频进行时序定位时，终端将该监控视频裁剪为多个第一视频片段，将每个第一视频片段输入事件定位模型中，确定待定位的监控视频中每个第一事件发生的时间范围。相应的，当终端获取第二服务器102训练得到的事件定位模型时，相应的，该实施环境中还包括第二服务器102，参见图1。在本申请实施例中，对此不作具体限定。

相关技术中事件定位模型的训练过程主要是通过人工手动对监控视频中的每帧图像的类别进行标记，得到样本视频，根据样本视频进行模型训练，最后得到事件定位模型。但相关技术中需要人工手动标注样本视频中每帧图像，这样不仅会耗费大量的人力、物力，而且耗时长，模型训练的效率低。

而在本申请实施例中，主要是基于第一样本视频包括的多个第二视频片段和第一样本视频中标注的至少一个第二事件，训练初始模型得到事件定位模型。该方法使用的模型为事件定位模型，由于该模型在训练时只需获取第一样本视频中包括的多个第二视频片段和至少一个第二事件，不需对每帧图像进行标注，因此，在使用该模型进行时序定位时，只需对监控视频中的每个第一视频片段中的事件进行识别定位，而不需对监控视频中的每帧图像进行识别定位，从而缩短了视频时序定位时长，提高了视频时序定位效率。

本申请实施例提供了一种视频时序定位方法，参见图2，该方法包括：

步骤201：当对待定位的监控视频进行时序定位时，将监控视频裁剪为多个第一视频片段。

步骤202：将每个第一视频片段输入事件定位模型中，得到监控视频中的每个第一视频片段对应的第一事件，事件定位模型为基于第一样本视频包括的多个第二视频片段和第一样本视频中标注的至少一个第二事件训练得到的。

步骤203：根据每个第一视频片段对应的第一事件和每个第一视频片段的时间范围，确定监控视频中的每个第一事件发生的时间范围。

在一种可能的实现方式中，方法还包括：

将第一样本视频裁剪为多个第二视频片段，第一样本视频中标注至少一个第二事件；

根据第一样本视频包括的多个第二视频片段对应的第一特征向量，从第一样本视频中识别出至少一个第三事件；

根据从第一样本视频中识别出的至少一个第三事件、标注的至少一个第二事件和多个第二视频片段，进行模型训练，得到事件定位模型。

在另一种可能的实现方式中，根据第一样本视频包括的多个第二视频片段对应的第一特征向量，从第一样本视频中识别出至少一个第三事件，包括：

获取第一样本视频中的每个第二视频片段对应的第一特征向量；

对于每个第二视频片段的第一特征向量，确定第一样本视频对应的多个第二特征向量；

根据第一样本视频对应的多个第二特征向量，从第一样本视频中识别出至少一个第三事件。

在另一种可能的实现方式中，对于每个第二视频片段的第一特征向量，确定第一样本视频对应的多个第二特征向量，包括：

根据每个第二视频片段的第一特征向量，确定每个第二视频片段的权重；

根据每个第二视频片段的第一特征向量，确定任意两个第二视频片段的第一特征向量之间的第一置信度；

根据每个第二视频片段的权重，将每个第二视频片段的第一特征向量中第一置信度超过预设阈值的第一特征向量进行加权，得到多个第二特征向量。

在另一种可能的实现方式中，根据第一样本视频对应的多个第二特征向量，从第一样本视频中识别出至少一个第三事件，包括：

对于每个第二特征向量，根据第二特征向量，确定第二特征向量与每个指定事件之间的第二置信度；

根据第二特征向量与每个指定事件之间的第二置信度，从每个指定事件中选择与第二特征向量之间置信度最高的指定事件；

将选择的指定事件作为第二特征向量对应的第二事件。

在另一种可能的实现方式中，将每个第一视频片段输入事件定位模型中，得到监控视频中的每个第一视频片段对应的第一事件之前，方法还包括：

获取第二样本视频，第二样本视频中标注至少一个第***和每个第***发生的时间范围；

将第二样本视频输入事件定位模型中，输出第二样本视频的至少一个第五事件和每个第五事件发生的时间范围；

根据至少一个第***和每个第***发生的时间范围，以及至少一个第五事件和每个第五事件发生的时间范围，对事件定位模型进行测试；

当事件定位模型测试成功时，执行将每个第一视频片段输入事件定位模型中，得到监控视频中的每个第一视频片段对应的第一事件的步骤。

在另一种可能的实现方式中，根据至少一个第***和每个第***发生的时间范围，以及至少一个第五事件和每个第五事件发生的时间范围，对事件定位模型进行测试，包括：

当至少一个第***与至少一个第五事件匹配，且每个第***发生的时间范围与每个第五事件发生的时间范围匹配时，确定事件定位模型测试成功。

在另一种可能的实现方式中，根据每个第一视频片段对应的第一事件和每个第一视频片段的时间范围，确定监控视频中的每个第一事件发生的时间范围，包括：

对于监控视频中的每个第一事件，根据第一事件对应的至少一个第一视频片段，将第一事件对应的至少一个第一视频片段的时间范围作为第一事件发生的时间范围。

本申请实施例提供了一种事件定位模型的训练方法，参见图3，该方法包括：

步骤301：计算设备将第一样本视频裁剪为多个第二视频片段，每个第一样本视频中标注至少一个第一事件。

在本申请实施例中，计算设备通过第一样本视频对初始模型进行训练，最终得到事件定位模型。其中，第一样本视频的数量可以为一个或多个，在本申请实施例中，对此不作具体限定。

在本步骤之前，计算设备先获取第一样本视频。在获取第一样本视频之后，计算设备通过初始模型将第一样本视频裁剪为多个第二视频片段，该第一样本视频中标注至少一个第二事件，每个第二视频片段中包括至少一帧图像。

计算设备在裁剪第一样本视频时，可以通过任一方式裁剪。例如，计算设备可以通过采样率或者采样帧数进行裁剪。当计算设备通过采样率或者采样帧数对第一样本视频裁剪时，可以等间隔裁剪，也可以不等间隔裁剪。例如，当计算设备通过采样率裁剪且为不等间隔裁剪时，计算设备可以在当前裁剪时，可以间隔2秒进行裁剪；在下一次裁剪时，可以间隔5秒进行裁剪。在本申请实施例中，对此不作具体限定。

对于多个第二视频片段，该多个第二视频片段中包括事件视频片段和背景视频片段，其中，事件视频片段为有事件发生的第二视频片段，背景视频片段为无事件发生的第二视频片段。参见图4，图4中最上方的多个矩形组成第一样本视频，每个矩形代表一个第二视频片段，图中进行标注的5个第二视频片段均为事件视频片段，分别为A、B和C三种事件类型，未标注的矩形为背景视频片段。

步骤302：计算设备获取该第一样本视频中的每个第二视频片段对应的第一特征向量。

本步骤中，对于第一样本视频，计算设备对该第一样本视频中的每个第二视频片段进行特征提取，得到每个第二视频片段的第一特征向量。

其中，对于每个第二视频片段，计算设备可以通过第一特征提取器直接提取该第二视频片段的特征，得到该第二视频片段的第一特征向量；或者，计算设备通过第二特征提取器提取该第二视频片段中的每帧图像的特征，得到每帧图像的第一特征向量，确定每帧图像的第一特征向量的平均向量，将该平均向量作为该第二视频片段的第一特征向量。在本申请实施例中，对计算设备确定每个第二视频片段对应的第一特征向量的方式不作具体限定，对第一特征提取器和第二特征提取器也不作具体限定。

步骤303：对于每个第二视频片段的第一特征向量，计算设备确定该第一样本视频对应的多个第二特征向量。

第二特征向量为第一特征向量进行加权后对应的特征向量。本步骤可以通过以下步骤(1)至(3)实现，包括：

(1)计算设备根据每个第二视频片段的第一特征向量，确定每个第二视频片段的权重。

本步骤中，对于每个第二视频片段的第一特征向量，计算设备可以通过注意力机制网络确定该第二视频片段的权重。该权重为0～1之间的数值，该权重的大小代表该第二视频片段中第三事件发生的概率，权重越大，该第二视频片段中第三事件发生的概率越大，该第二视频片段的时间范围为第三事件发生的时间范围的概率越大。其中，该注意力机制网络可以包括卷积神经网络和至少一层全连接层，卷积神经网络的输出端和至少一层全连接层的输入端连接。相应的，计算设备通过注意力机制网络确定每个第二视频片段的权重的步骤可以为：对于每个第二视频片段，计算设备将第一特征向量先输入卷积神经网络中，得到中间特征向量，再将该中间特征向量输入至少一层全连接层中，输出得到一个数值，该数值为1维标量；计算设备通过目标函数，对该数值进行运算，最后得到该第二视频片段的权重。该目标函数可以为任一函数，例如，该目标函数可以为sigmoid(S状弯曲)函数。在本申请实施例中，对目标函数不作具体限定。

该卷积神经网络可以根据需要进行选择并更改，例如，该卷积神经网络可以为一维卷积神经网络，也可以为二维卷积神经网络，或者三维卷积神经网络。在本申请实施例中，对此不作具体限定。该卷积神经网络中的卷积层、池化层的数量也可以根据需要进行设置并更改。其中，注意力机制网络对每个第二视频片段的第一特征向量进行注意力学习，确定该第二视频片段的权重的过程可以参见图5。

需要说明的一点是，计算设备确定每个第二视频片段的权重之前，可以将每个第二视频片段的第一特征向量，和基准特征向量进行比对，去除和基准特征向量匹配度高的第一特征向量。基准特征向量和背景视频片段的第一特征向量匹配度较高，因此计算设备通过该方法可以除去背景视频片段的第一特征向量，避免背景视频片段的第一特征向量对有事件发生的其他第二视频片段的影响，同时减少了计算设备训练初始模型的任务量，提高了训练模型的效率。

需要说明的另一点是，每个第一样本视频中包括至少一个第二事件，每个第二事件之间可能会有影响，因此，计算设备还可以根据第二特征向量对应的第三特征向量，指导注意力机制网络确定多个第二视频片段中除背景所在的第二视频片段之外其他第二视频片段的权重。对于其他第二视频片段中的第一个第二视频片段，计算设备通过注意力机制网络确定该第一个第二视频片段的权重；对于其他第二视频片段中除第一个第二视频片段之外的每个第二视频片段，计算设备通过注意力机制网络学习其他第二视频片段中的每个第二视频片段的第一特征向量时，根据上一个第二视频片段的第二特征向量对应的第三特征向量，增大注意力机制网络对与该第三特征向量对应的第一特征向量的注意力学习，也即增大与该第三特征向量对应的第一特征向量的权重，最后得到其他第二视频片段中每个第二视频片段的权重。其中，第二特征向量对应的第三特征向量在步骤304中有详细介绍，在此不再赘述。

计算设备通过注意力机制网络学习第一特征向量得到每个第二视频片段的权重的过程即为对第二视频片段进行分类的过程，计算设备通过注意力机制将相同类别的事件的特征向量聚集到一起，从而得到事件所在的第二视频片段，最终根据第二视频片段确定事件发生的时间范围。

(2)计算设备根据每个第二视频片段的第一特征向量，确定任意两个第二视频片段的第一特征向量之间的第一置信度。

对于每个第二视频片段，计算设备可以根据该第二视频片段的第一特征向量和其他任一第二视频片段的第一特征向量，确定该第二视频片段的第一特征向量和其他任一视频片段的第一特征向量之间的距离。计算设备根据该第二视频片段的第一特征向量和其他任一视频片段的第一特征向量之间的距离，确定该第二视频片段的第一特征向量和其他任一视频片段的第一特征向量之间的第一置信度。两个第一特征向量之间的距离和第一置信度呈负相关，距离越近，第一置信度越高，两个第二视频片段的第一特征向量的相似度越高。在一种可能的实现方式中，计算设备可以将两个第一特征向量之间的距离的倒数，作为两个第一特征向量之间的第一置信度。

其中，计算设备可以通过任一方法确定任意两个第二视频片段的第一特征向量之间的距离。例如，计算设备可以通过欧式距离或者马氏距离确定任意两个第二视频片段的第一特征向量之间的距离。在本申请实施例中，对此不作具体限定。

(3)计算设备根据每个第二视频片段的权重，将每个第二视频片段的第一特征向量中第一置信度超过预设阈值的第一特征向量进行加权，得到多个第二特征向量。

计算设备可以从多个第二视频片段的第一特征向量中选择第一置信度超过预设阈值的第一特征向量，根据选择的第一特征向量对应的第二视频片段的权重，将选择的第一特征向量进行加权，得到多个第二特征向量。例如，继续参见图4，对于图4中的第一个第二视频片段，计算设备确定第一个第二视频片段的第一特征向量和其他第二视频片段的第一特征向量之间的第一置信度，从多个第一置信度中选择第一置信度超过预设阈值的第一特征向量，例如第三个第二视频片段的第一特征向量和第一个第二视频片段的第一特征向量的第一置信度超过预设阈值，则计算设备根据第三个第二视频片段的权重，将第三个第二视频片段的第一特征向量进行加权；根据第一个第二视频片段的权重，将第一个第二视频片段的第一特征向量进行加权，得到两个第二特征向量。计算设备可以将两个第二特征向量的平均向量作为该事件的第二特征向量。

需要说明的一点是，计算设备得到多个第二特征向量后，可以按照第二特征向量对应的第二视频片段在第一样本视频中的先后位置，将多个第二特征向量进行排序，得到第二特征向量序列。

预设阈值可以根据需要进行设置并更改，在本申请实施例中，对预设阈值不作具体限定。例如，预设阈值可以为0.8、0.85或者0.9。其中，参见图6，图6中计算设备根据每个第二视频片段的第一特征向量，通过注意力机制网络学习每个第二视频片段的权重，最后得到第一样本视频对应的多个第二特征向量。

步骤304：计算设备根据该第一样本视频对应的多个第二特征向量，从该第一样本视频中识别出至少一个第三事件。

本步骤可以通过以下步骤(1)至(3)实现，包括：

(1)对于每个第二特征向量，计算设备根据该第二特征向量，确定该第二特征向量与每个指定事件之间的第二置信度。

计算设备中预先配置多个指定事件，该多个指定事件分别为不同类别的事件，其中，该多个指定事件中包括第一样本视频中标注的至少一个第二事件。计算设备通过初始模型确定第二特征向量和每个指定事件之间的第二置信度，从第一样本视频中识别出每个第二特征向量对应的指定事件。

在一种可能的实现方式中，对于每个第二特征向量，计算设备可以根据该第二特征向量和每个指定事件的特征向量，确定该第二特征向量和每个指定事件的特征向量之间的距离；根据该第二特征向量和每个指定事件的特征向量之间的距离，确定该第二特征向量和每个指定事件的特征向量之间的置信度，将该第二特征向量和每个指定事件的特征向量之间的置信度作为该第二特征向量和每个指定事件之间的第二置信度。其中，该第二特征向量和每个指定事件的特征向量之间的距离与置信度呈负相关变化，距离越小，置信度越大。

在另一种可能的实现方式中，对于每个第二特征向量，计算设备可以确定第二特征向量对应的第三特征向量与每个指定事件的特征向量之间的第二置信度。相应的，该步骤可以为：在当前的第二特征向量为第一样本视频中的第一个特征向量时，计算设备可以将该第二特征向量输入循环神经网络中，得到第三特征向量。计算设备可以在循环神经网络后连接一个全连接层，将该第三特征向量输入该全连接层中，与每个指定事件的特征向量进行比较，得到多个第二置信度，其中循环神经网络的输出端与该全连接层的输入端连接。

在另一种可能的实现方式中，在当前的第二特征向量为第一样本视频中除第一个特征向量之后的特征向量时，计算设备将当前的第二特征向量、上一个第二特征向量对应的第三特征向量、上一个第二特征向量对应的事件的第二置信度输入循环神经网络中，得到当前的第二特征向量对应的第三特征向量。其中，上一个第二特征向量为当前的第二特征向量的前一个第二特征向量。计算设备将该第三特征向量输入全连接层中，与每个指定事件的特征向量进行比较，得到多个第二置信度。

需要说明的一点是，在当前的第二特征向量为第一样本视频中的第一个特征向量时，计算设备直接根据该第二特征向量确定多个第二置信度；在当前的第二特征向量不是第一样本视频中的第一个特征向量时，计算设备在确定当前的第二特征向量和每个指定事件的特征向量之间的第二置信度时，都会结合当前的第二特征向量的上一个第二特征向量对应的事件的第二置信度以及上一个第二特征向量对应的第三特征向量，确定当前的第二特征向量和每个指定事件的特征向量之间的第二置信度。例如，继续参见图4，计算设备在确定事件B所在的第二视频片段的第二特征向量和每个指定事件的特征向量之间的第二置信度时，会结合事件A所在的第二视频片段的第二特征向量对应的事件的第二置信度以及事件A所在的第二视频片段的第三特征向量，确定事件B所在的第二视频片段的第二特征向量和每个指定事件的特征向量之间的第二置信度。

其中，循环神经网络可以根据需要进行设置并更改，在本申请实施例中，对循环神经网络不作具体限定。例如，该循环神经网络可以为LSTM(Long Short-Term Memory，长短期记忆)网络。

(2)计算设备根据第二特征向量与每个指定事件之间的第二置信度，从每个指定事件中选择与该第二特征向量之间置信度最高的指定事件。

计算设备根据多个第二置信度，从多个第二置信度中直接选择对应的置信度最高的指定事件。例如，继续参见图4，指定事件分别为A、B、C、D、E等，计算设备根据上述步骤确定第一个第二视频片段和第三个第二视频片段中发生的第三事件为同一事件，计算设备确定该第三事件所在的第二视频片段的第二特征向量和每个指定事件的特征向量之间的第二置信度，得到该第二特征向量和每个指定事件的特征向量之间的第二置信度分别为0.9、0.6、0.7、0.2和0.5，则计算设备从多个第二置信度中选择第二置信度为0.9的特征向量对应的指定事件A。

(3)计算设备将选择的指定事件作为第二特征向量对应的第三事件。

计算设备直接将选择的指定事件作为第二特征向量对应的第三事件。例如，计算设备将指定事件中A作为第一个第二视频片段和第三个第二视频片段中发生的事件。

步骤305：计算设备根据从该第一样本视频中识别出的至少一个第三事件、标注的至少一个第二事件和多个第二视频片段，进行模型训练，得到事件定位模型。

计算设备通过第一样本视频训练初始模型，从第一样本视频中识别出至少一个第三事件，将每个第三事件进行汇总得到第一样本中的至少一个第三事件。计算设备将识别出的至少一个第三事件和标注的至少一个第二事件进行比对，当至少一个第三事件和至少一个第二事件的事件类型相同时，计算设备根据每个第三事件所在的第二视频片段的起始时间和结束时间确定每个第三事件发生的时间范围，从而得到事件定位模型。当至少一个第三事件中存在第三事件的事件类型和至少一个第二事件的事件类型不同时，计算设备反向传播调整初始模型参数，再重新进行训练，直至至少一个第三事件和至少一个第二事件的事件类型相同，得到事件定位模型。

例如，第一样本视频中标注的第二事件分别为A、B和C，当计算设备训练初始模型通过上述步骤301-305得到的第三事件也为A、B和C时，得到事件定位模型；当计算设备从第一样本视频中识别出的第三事件为A、C和D时，计算设备反向调整初始模型参数，重新进行训练，直至得到的第三事件为A、B和C，具体过程可以参见图7。

该事件定位模型的训练方法，着眼于多事件的分步关注和解决，根据每个事件的预测结果，汇总得到多个事件的预测结果。另外，该事件定位模型的训练过程为一个端到端的网络，无需执行将单独处理网络进行融合的步骤。

需要说明的一点是，计算设备执行完步骤305后，可以直接得到事件定位模型，当获取到时序定位指令时，可以直接对待定位的监控视频进行定位。或者，计算设备执行完步骤305后，可以直接得到事件定位模型，当获取到时序定位指令，对待定位的监控视频进行定位之前，对事件定位模型进行测试，当测试成功时，才对待定位的监控视频进行定位。或者，在得到事件定位模型后，对事件定位模型进行测试，当测试成功时，在获取到时序定位指令时，才对待定位的监控视频进行定位，从而提高了时序定位的准确率。

在一种可能的实现方式中，计算设备对事件定位模型进行测试的步骤可以为：

计算设备获取第二样本视频，该第二样本视频中标注至少一个第***和每个第***发生的时间范围；将该第二样本视频输入事件定位模型中，输出该第二样本视频的至少一个第五事件和每个第五事件发生的时间范围；根据至少一个第***和每个第***发生的时间范围，以及至少一个第五事件和每个第五事件发生的时间范围，对事件定位模型进行测试。

其中，计算设备根据至少一个第***和每个第***发生的时间范围，至少一个第五事件和每个第五事件发生的时间范围对事件定位模型进行测试的步骤可以为：当至少一个第***与至少一个第五事件匹配，且每个第***发生的时间范围与每个第五事件发生的时间范围匹配时，计算设备确定该事件定位模型测试成功。其中，计算设备可以通过逐帧标记第二样本视频中的每帧图像，确定第二样本视频中至少一个第***和每个第***发生的时间范围。

当至少一个第***与至少一个第五事件不匹配，或者第***发生的时间范围与第五事件发生的时间范围不匹配时，计算设备确定该事件定位模型测试失败。当事件定位模型测试失败时，计算设备可以通过第一样本视频或第三样本视频继续对该事件定位模型进行训练，第三样本视频和第一样本视频不同，第三样本视频中标注至少一个第六事件。计算设备通过第三样本视频对该事件定位模型进行训练的过程和计算设备通过第一样本视频对该事件定位模型进行训练的过程相似，在此不再赘述。例如，计算设备通过第三样本视频对该事件定位模型进行训练，得到训练后的事件定位模型，计算设备对第二样本视频再次进行测试。当测试失败时，通过第一样本视频或第三样本视频对事件定位模型继续进行训练，直至测试成功。

本申请实施例中训练事件定位模型的方法，不同于原有的标注每帧图像的定位方法，而是通过将第一样本视频裁剪为多个第二视频片段，根据每个第二视频片段识别第一样本视频中标注的至少一个第二事件，大大降低了标定每帧图像的压力，流程直观、简单，为端到端的训练过程。

本申请实施例提供了一种视频时序定位方法，参见图8，该方法包括：

步骤801：当对待定位的监控视频进行时序定位时，计算设备将该监控视频裁剪为多个第一视频片段。

本步骤中，计算设备将监控视频裁剪为多个第一视频片段的步骤和步骤301中计算设备将第一样本视频裁剪为多个第二视频片段的步骤相似，在此不再赘述。

步骤802：计算设备将每个第一视频片段输入事件定位模型中，得到该监控视频中的每个第一视频片段对应的第一事件。

本步骤中，计算设备直接将多个第一视频片段输入训练得到的事件定位模型中，得到该监控视频中每个第一视频片段对应的第一事件。

步骤803：对于该监控视频中的每个第一事件，计算设备根据该第一事件对应的至少一个第一视频片段，将该第一事件对应的至少一个第一视频片段的时间范围作为该第一事件发生的时间范围。

计算设备根据步骤802中得到的第一事件，可以将该第一事件对应的至少一个第一视频片段的时间范围作为该第一事件发生的时间范围。

例如，参见图9，图中待定位的监控视频被裁剪为多个第一视频片段，计算设备将每个第一视频片段输入事件定位模型中后，得到监控视频中包括的两个事件，分别为事件D和事件E。计算设备根据事件D所在的第一视频片段，将该第一视频片段的起始时间和结束时间作为事件D发生的时间范围；根据事件E所在的第一视频片段，将该第一视频片段的起始时间和结束时间作为事件E发生的时间范围，最终得到事件D发生的时间范围为(T₁，T₂)和(T₅，T₆)，事件E发生的时间范围为(T₃，T₄)。

本申请实施例提供了一种视频时序定位装置，参见图10，该装置包括：

裁剪模块1001，用于当对待定位的监控视频进行时序定位时，将监控视频裁剪为多个第一视频片段。

输入模块1002，用于将每个第一视频片段输入事件定位模型中，得到监控视频中的每个第一视频片段对应的第一事件，事件定位模型为基于第一样本视频包括的多个第二视频片段和第一样本视频中标注的至少一个第二事件训练得到的。

确定模块1003，用于根据每个第一视频片段对应的第一事件和每个第一视频片段的时间范围，确定监控视频中的每个第一事件发生的时间范围。

在一种可能的实现方式中，装置还包括：

裁剪模块1001，还用于将第一样本视频裁剪为多个第二视频片段，第一样本视频中标注至少一个第二事件；

识别模块，用于根据第一样本视频包括的多个第二视频片段对应的第一特征向量，从第一样本视频中识别出至少一个第三事件；

训练模块，用于根据从第一样本视频中识别出的至少一个第三事件、标注的至少一个第二事件和多个第二视频片段，进行模型训练，得到事件定位模型。

在另一种可能的实现方式中，识别模块，还用于获取第一样本视频中的每个第二视频片段对应的第一特征向量；对于每个第二视频片段的第一特征向量，确定第一样本视频对应的多个第二特征向量；根据第一样本视频对应的多个第二特征向量，从第一样本视频中识别出至少一个第三事件。

在另一种可能的实现方式中，识别模块，还用于根据每个第二视频片段的第一特征向量，确定每个第二视频片段的权重；根据每个第二视频片段的第一特征向量，确定任意两个第二视频片段的第一特征向量之间的第一置信度；根据每个第二视频片段的权重，将每个第二视频片段的第一特征向量中第一置信度超过预设阈值的第一特征向量进行加权，得到多个第二特征向量。

在另一种可能的实现方式中，识别模块，还用于对于每个第二特征向量，根据第二特征向量，确定第二特征向量与每个指定事件之间的第二置信度；根据第二特征向量与每个指定事件之间的第二置信度，从每个指定事件中选择与第二特征向量之间置信度最高的指定事件；将选择的指定事件作为第二特征向量对应的第二事件。

在另一种可能的实现方式中，装置还包括：

获取模块，用于获取第二样本视频，第二样本视频中标注至少一个第***和每个第***发生的时间范围；

输入模块1002，还用于将第二样本视频输入事件定位模型中，输出第二样本视频的至少一个第五事件和每个第五事件发生的时间范围；

测试模块，还用于根据至少一个第***和每个第***发生的时间范围，以及至少一个第五事件和每个第五事件发生的时间范围，对事件定位模型进行测试；

输入模块1002，还用于当事件定位模型测试成功时，将每个第一视频片段输入事件定位模型中，得到监控视频中的每个第一视频片段对应的第一事件。

在另一种可能的实现方式中，测试模块，还用于当至少一个第***与至少一个第五事件匹配，且每个第***发生的时间范围与每个第五事件发生的时间范围匹配时，确定事件定位模型测试成功。

在另一种可能的实现方式中，确定模块1003，还用于对于监控视频中的每个第一事件，根据第一事件对应的至少一个第一视频片段，将第一事件对应的至少一个第一视频片段的时间范围作为第一事件发生的时间范围。

本申请实施例提供的视频时序定位装置，当对待定位的监控视频进行时序定位时，将监控视频裁剪为多个第一视频片段，将每个第一视频片段输入事件定位模型中，得到监控视频中的每个第一视频片段对应的第一事件，根据每个第一视频片段对应的第一事件和每个第一视频片段的时间范围，确定监控视频中的每个第一事件发生的时间范围。其中，事件定位模型为基于第一样本视频包括的多个第二视频片段和第一样本视频中标注的至少一个第二事件训练得到的。该装置使用的模型为事件定位模型，由于该模型在训练时只需获取第一样本视频中包括的多个第二视频片段和至少一个第二事件，不需对每帧图像进行标注，因此，在使用该模型进行时序定位时，只需对监控视频中的每个第一视频片段中的事件进行识别定位，而不需对监控视频中的每帧图像进行识别定位，从而缩短了视频时序定位时长，提高了视频时序定位效率。

需要说明的是：上述实施例提供的视频时序定位装置在视频时序定位时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将计算设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的视频时序定位装置与视频时序定位方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图11是本发明实施例提供的一种计算设备的结构框图，该计算设备1100可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processingunits，CPU)1101和一个或一个以上的存储器1102，其中，所述存储器1102中存储有至少一条指令，所述至少一条指令由所述处理器1101加载并执行以实现上述各个方法实施例提供的视频时序定位方法。当然，该计算设备还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该计算设备还可以包括其他用于实现设备功能的部件，在此不做赘述。

在示例性实施例中，还提供了一种计算机可读存储介质，当上述指令由计算设备1100的处理器1101执行时，使得计算设备1100能够执行上述实施例中视频时序定位方法中所运行的操作。例如，所述计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

以上所述仅是为了便于本领域的技术人员理解本申请的技术方案，并不用以限制本申请。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种视频时序定位方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

3.根据权利要求2所述的方法，其特征在于，所述根据所述第一样本视频包括的多个第二视频片段对应的第一特征向量，从所述第一样本视频中识别出至少一个第三事件，包括：

4.根据权利要求3所述的方法，其特征在于，所述对于每个第二视频片段的第一特征向量，确定所述第一样本视频对应的多个第二特征向量，包括：

5.根据权利要求3所述的方法，其特征在于，所述根据所述第一样本视频对应的多个第二特征向量，从所述第一样本视频中识别出至少一个第三事件，包括：

将选择的指定事件作为所述第二特征向量对应的第二事件。

6.根据权利要求1所述的方法，其特征在于，所述将每个第一视频片段输入事件定位模型中，得到所述监控视频中的所述每个第一视频片段对应的第一事件之前，所述方法还包括：

7.根据权利要求6所述的方法，其特征在于，所述根据所述至少一个第***和所述每个第***发生的时间范围，以及所述至少一个第五事件和所述每个第五事件发生的时间范围，对所述事件定位模型进行测试，包括：

8.根据权利要求1-7任一项所述的方法，其特征在于，所述根据所述每个第一视频片段对应的第一事件和所述每个第一视频片段的时间范围，确定所述监控视频中的每个第一事件发生的时间范围，包括：

9.一种视频时序定位装置，其特征在于，所述装置包括：

10.根据权利要求9所述的装置，其特征在于，所述装置还包括：

11.根据权利要求9所述的装置，其特征在于，所述装置还包括：

12.一种计算设备，其特征在于，所述计算设备包括：

处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述指令、所述程序、所述代码集或所述指令集由所述处理器加载并执行以实现权利要求1-8任一项所述的视频时序定位方法中所执行的操作。

13.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述指令、所述程序、所述代码集或所述指令集由处理器加载并执行以实现权利要求1-8任一项所述的视频时序定位方法中所执行的操作。