CN114743139A

CN114743139A - 视频场景检索方法、装置、电子设备及可读存储介质

Info

Publication number: CN114743139A
Application number: CN202210339794.9A
Authority: CN
Inventors: 陈禹行; 殷佳豪; 刘志励; 范圣印; 李雪
Original assignee: Beijing Yihang Yuanzhi Technology Co Ltd
Current assignee: Beijing Yihang Yuanzhi Technology Co Ltd
Priority date: 2022-04-01
Filing date: 2022-04-01
Publication date: 2022-07-12

Abstract

本申请涉及一种视频场景检索方法、装置、电子设备及可读存储介质，涉及计算机技术领域，该方法包括：获取当前视频序列，当前视频序列中包含多帧图像，然后从多帧图像中分别提取各帧图像分别对应的稠密深度学习特征图，然后基于各帧图像分别对应的稠密深度学习特征图分别进行时域特征融合，得到各自融合后的特征，然后基于各帧图像分别对应的融合后的特征进行时空特征聚合处理，得到当前视频序列对应的全局特征描述子，然后基于当前视频序列对应的全局特征描述子从全局数据库中进行检索，得到第一预设个数的视频序列。本申请提供的一种视频场景检索方法、装置、电子设备及可读存储介质可以提高检索到视频序列的准确度，进而可以提升用户体验。

Description

视频场景检索方法、装置、电子设备及可读存储介质

技术领域

本申请涉及计算机技术领域，尤其是涉及一种视频场景检索方法、装置、电子设备及可读存储介质。

背景技术

近些年，自主记忆泊车、智能物流小车、餐厅智能机器人送餐以及无人机自主巡航等应用场景的出现，如何识别出曾经到达过的场景十分重要。这些应用场景往往在第一次执行任务时（如将汽车停到自家车位中）预先人为规划一条正确的运动路径并建立场景地图，后续自主执行任务时，智能机器人或者自动驾驶汽车根据当前观测的场景，感知自身正处于场景地图的哪一个位置，然后再按照预先规划的路径自主循迹运动，或根据场景地图自主避障导航。因此，场景重识别的准确与否对于后续定位和循迹导航算法模块的运行至关重要。

在上述应用场景中，在执行自主导航任务与建立场景地图时，中间可能经过了长时间的跨度，导致场景周边环境发生了较大的变化，例如建图时在早上，自主导航时在夜晚；建图时是晴天，自主导航时为雨天、雾天或雪天，甚至可能存在跨季节的情况，导致二者观测的场景外观存在很大的变化。此外，这些应用的场景往往是十分复杂的，例如建图与自主导航时行人、车辆等动态物体的干扰，从而进一步增大两次观测场景外观的差异甚至这些动态物体还会对场景造成局部遮挡；同时一些空旷场景或同纹理物体的重复出现也是一大挑战，如空旷的停车场、不同车库的相似设计风格、道路上重复出现且几乎一样的灯杆和栅栏等。

发明人在研究过程中发现，上述情况可能导致场景重识别的准确度较低，进而导致用户体验较差。

发明内容

本申请目的是提供一种视频场景检索方法、装置、电子设备及可读存储介质，用于解决以上至少一项技术问题。

本申请的上述发明目的是通过以下技术方案得以实现的：

第一方面，提供了一种视频场景检索方法，包括：

获取当前视频序列，所述当前视频序列中包含多帧图像；

从所述多帧图像中分别提取各帧图像分别对应的稠密深度学习特征图；

基于所述各帧图像分别对应的稠密深度学习特征图分别进行时域特征融合，得到各自融合后的特征；

基于各帧图像分别对应的融合后的特征进行时空特征聚合处理，得到当前视频序列对应的全局特征描述子；

基于所述当前视频序列对应的全局特征描述子从全局数据库中进行检索，得到第一预设个数的视频序列。

在一种可能的实现方式中，所述基于所述各帧图像分别对应的稠密深度学习特征图分别进行时域特征融合，得到各自融合后的特征，包括：基于所述各帧图像分别对应稠密深度学习特征图并通过自注意力机制进行时域特征融合，得到各自融合后的特征。

在另一种可能的实现方式中，所述基于各帧图像分别对应的融合后的特征进行时空特征聚合处理，得到当前视频序列对应的全局特征描述子，包括：

将各帧图像分别对应的时域特征图进行拼接处理，得到拼接后的特征图；

对所述拼接后的特征图进行逐点卷积处理，得到卷积处理结果；

对所述卷积处理结果进行归一化处理，得到归一化处理后的结果；

基于所述归一化处理后的结果以及所述拼接后的特征图，确定所述当前视频序列对应的全局特征描述子。

在另一种可能的实现方式中，所述拼接处理后的特征图中包括多个特征点；

所述基于所述归一化处理后的结果以及所述拼接后的特征图，确定所述当前视频序列对应的全局特征描述子，包括：

对所述多个特征点进行聚类处理，得到至少一个聚类中心；

确定各个特征点分别与每个聚类中心之间的距离，确定每个聚类中心对应距离信息，任一聚类中心对应的距离信息为各个特征点分别与所述任一聚类中心之间的距离；

基于所述每个聚类中心对应的距离信息以及所述归一化处理后的结果，确定各个聚类簇分别对应的全局表示；

对所述各个聚类簇分别对应全局表示进行正则化处理；

将正则化处理后的各个全局表示进行拼接处理；

对拼接处理后的全局表示进行正则化处理，得到所述当前视频序列对应的全局特征描述子。

在另一种可能的实现方式中，所述从所述多帧图像中分别提取各帧图像分别对应的稠密深度学习特征图，之后还包括：

对所述各帧图像分别对应的稠密深度学习特征图分别进行区域特征提取，得到各自对应的多尺度区域特征；

基于所述各自对应的多尺度区域特征进行区域匹配，得到当前视频序列对应的时空特征描述子；

基于所述当前视频序列对应的时空特征描述子对所述第一预设个数的视频序列进行区域匹配，得到第二预设个数的视频序列。

在另一种可能的实现方式中，基于任一帧图像对应的稠密深度学习特征图进行区域特征提取，得到所述任一帧图像对应的多尺度区域特征，包括：

基于所述任一帧图像对应的稠密深度学习特征图确定加权残差特征图；

将所述加权残差特征图划分为多个区域块；

确定各个区域块分别对应的区域特征表示，以得到所述任一帧图像对应的多尺度区域特征。

在另一种可能的实现方式中，所述基于所述任一帧图像对应的稠密深度学习特征图确定加权残差特征图，包括：

对所述任一帧图像对应的稠密深度学习特征图进行逐点卷积处理，得到卷积结果；

对所述卷积结果进行归一化处理，得到归一化结果；

基于所述归一化结果以及所述每个聚类中心对应距离信息，确定所述加权残差特征图。

在另一种可能的实现方式中，所述多尺度区域特征通过区域描述子表征；

所述基于所述各自对应的多尺度区域特征进行区域匹配，得到当前视频序列对应的时空特征描述子，包括：

将当前视频序列中每帧图像对应的区域描述子与当前视频序列中的其他各帧图像分别对应的区域描述子进行区域特征匹配，得到当前视频序列对应的区域匹配结果；

从当前视频序列对应的区域匹配结果中选择满足预设条件的区域描述子，作为当前视频序列对应的区域描述子；

将所述当前视频序列对应的区域描述子分别与全局数据库中存储的各视频序列进行区域特征匹配，得到当前视频序列分别与所述各视频序列对应的区域匹配结果。

在另一种可能的实现方式中，将当前视频序列中任一帧图像对应的区域描述子与当前视频序列中的其他任一帧图像对应的区域描述进行区域特征匹配，得到对应的匹配结果，包括：

确定所述任一帧图像对应的区域描述子与所述当前视频序列中其他任一帧图像中各个区域各个区域描述子之间的距离；

通过下述公式，将当前视频序列中任一帧图像对应的区域描述子与当前视频序列中的其他任一帧图像对应的区域描述进行区域特征匹配，得到对应的匹配结果：

；

其中，矩阵中元素D_ij表征Tm帧中第i个区域描述子与Tn帧中第j个区域描述子之间的距离，矩阵D用于表征视频序列中Tm帧所有区域描述子与Tn帧所有区域描述子距离，Tm帧表征所述任一帧图像，所述Tn用于表征所述当前视频序列中其他任一帧图像；D_ij ^k表征矩阵D的第j列中距离值最小的元素，D_i ^k _j表征矩阵D的第i行中距离值最小的元素，t用于表征阈值参数，符合条件的匹配项(i，j)构成了Tm帧与Tn帧之间的匹配集合P_mn。

在另一种可能的实现方式中，从所述任一区域对应的区域匹配结果中选择第一预设条件的区域描述子，作为所述任一区域对应的区域描述子，包括：

确定所述满足预设条件的距离的平均值；

基于所述满足第一预设条件的距离的平均值，确定所述任一区域对应的区域描述子。

在另一种可能的实现方式中，所述基于所述满足第一预设条件的距离的平均值，确定所述任一区域对应的区域描述子，包括：

基于所述满足第一预设条件的距离的平均值，并通过以下公式确定所述任一区域对应的区域描述子：

；

其中，x为属于S_i中的区域，P_x为区域x所处帧匹配集合中与区域x对应的匹配项集合，D_x为从匹配项集合P_x中提取出来的所有D_ij 集合，

为D_ij 集合中元素的平均值，x’用于表征集合S_i中确定出的所有区域的区域描述子。

在另一种可能的实现方式中，将所述当前视频序列对应的区域描述子与任一视频序列进行区域特征匹配，包括：

将当前视频序列中每帧图像对应的区域描述子分别与所述任一视频序列中各帧图像进行区域特征匹配。

在另一种可能的实现方式中，将每帧图像对应的区域描述子与任一帧图像对应的区域描述子进行区域特征匹配，包括：

基于每帧图像中各个区域分别对应的区域描述子以及所述任一帧图像中各个区域分别对应的区域描述子，确定每帧图像对应的距离向量，所述每帧图像对应的距离向量中包含多个元素，任一元素为每帧图像中任一区域对应的区域描述子与所述任一帧图像中任一区域对应的区域描述子之间的距离。

在另一种可能的实现方式中，所述基于所述当前视频序列对应的时空特征描述子对所述第一预设个数的视频序列进行区域匹配，得到第二预设个数的视频序列，包括：

基于所述当前视频序列分别与所述各视频序列对应的区域匹配结果，确定所述当前视频序列与各个视频序列分别对应的空间一致性得分，所述各个视频序列属于所述第一预设个数的视频序列；

基于所述当前视频序列与各个视频序列分别对应的空间一致性得分，对所述第一预设个数的视频序列进行重排序；

从排序后的第一预设个数的视频序列抽取第二预设个数的视频序列。

在另一种可能的实现方式中，确定当前视频序列与任一视频序列对应的空间一致性得分，包括：

确定当前视频序列中每帧图像分别与所述任一视频序列中各帧图像之间空间一致性得分；

确定当前视频序列中每帧图像的权重信息；

基于所述当前视频序列中每帧图像的权重信息以及当前视频序列中每帧图像分别与所述任一视频序列中各帧图像之间空间一致性得分，确定当前视频序列与任一视频序列对应的空间一致性得分。

在另一种可能的实现方式中，所述确定当前视频序列中每帧图像与任一帧图像之间的空间一致性得分，包括：

确定各个尺寸的区域匹配空间一致性得分；

确定各个尺寸的区域分别对应的权重信息；

基于所述各个尺寸的区域匹配空间一致性得分以及所述各个尺寸的区域分别对应的权重信息确定当前视频序列中每帧图像与任一帧图像之间的空间一致性得分。

在另一种可能的实现方式中，确定任一尺寸的区域匹配空间一致性得分，包括：

通过以下公式，确定任一尺寸的区域匹配空间一致性得分：

；

其中，SS_p表征尺度大小为p的区域匹配空间一致性得分，n_p表征该帧图像提取到的尺度大小为p的区域块个数，P_p为尺度大小为p的区域特征的区域匹配集合，(r_p,c_p)为P_p中存储的匹配偏移量；

和

分别表征P_p集合中的平均列偏移量和平均行偏移量；i，j表征对集合P_p遍历时的编号，dist(·)函数为距离函数，max(·)为最大值函数；

其中，所述基于所述各个尺寸的区域匹配空间一致性得分以及所述各个尺寸的区域分别对应的权重信息，并通过以下公式确定当前视频序列中每帧图像与任一帧图像之间的空间一致性得分，包括：

；

其中，SS表征所述当前视频序列中每帧图像与任一帧图像之间的空间一致性得分， i为对尺度集合的遍历，n_s为尺度个数，w_i为尺寸i对应的权重信息，且w_i∈[0,1]。

在另一种可能的实现方式中，所述基于所述当前视频序列中每帧图像的权重信息以及当前视频序列中每帧图像分别与所述任一视频序列中各帧图像之间空间一致性得分，确定当前视频序列与任一视频序列对应的空间一致性得分，包括：

基于所述当前视频序列中每帧图像的权重信息以及当前视频序列中每帧图像分别与所述任一视频序列中各帧图像之间空间一致性得分，并通过以下公式确定当前视频序列与任一视频序列对应的空间一致性得分：

；

其中，VSS表征当前视频序列与任一视频序列对应的空间一致性得分，V_ref属于第一预设个数的视频序列，m用于表征当前视频序列中的帧，k用于表征V_ref中的帧，

用于表征m的权重信息。

第二方面，提供了一种视频场景检索装置，包括：

获取模块，用于获取当前视频序列，所述当前视频序列中包含多帧图像；

特征图提取模块，用于从所述多帧图像中分别提取各帧图像分别对应的稠密深度学习特征图；

时域特征融合模块，用于基于所述各帧图像分别对应的稠密深度学习特征图分别进行时域特征融合，得到各自融合后的特征；

时空特征聚合处理模块，用于基于各帧图像分别对应的融合后的特征进行时空特征聚合处理，得到当前视频序列对应的全局特征描述子；

第一检索模块，用于基于所述当前视频序列对应的全局特征描述子从全局数据库中进行检索，得到第一预设个数的视频序列。

在一种可能的实现方式中，所述时域特征融合模块在基于所述各帧图像分别对应的稠密深度学习特征图分别进行时域特征融合，得到各自融合后的特征时，具体用于：

基于所述各帧图像分别对应稠密深度学习特征图并通过自注意力机制进行时域特征融合，得到各自融合后的特征。

在另一种可能的实现方式中，所述时空特征聚合处理模块在基于各帧图像分别对应的融合后的特征进行时空特征聚合处理，得到当前视频序列对应的全局特征描述子时，具体用于：

所述时空特征聚合处理模块在基于所述归一化处理后的结果以及所述拼接后的特征图，确定所述当前视频序列对应的全局特征描述子时，具体用于：

对所述多个特征点进行聚类处理，得到至少一个聚类中心；

对所述各个聚类簇分别对应全局表示进行正则化处理；

将正则化处理后的各个全局表示进行拼接处理；

在另一种可能的实现方式中，所述装置还包括：多尺度区域特征提取模块、时空区域特征匹配模块以及第二检索模块，其中，

所述多尺度区域提取模块，用于对所述各帧图像分别对应的稠密深度学习特征图分别进行区域特征提取，得到各自对应的多尺度区域特征；

所述时空区域特征匹配模块，用于基于所述各自对应的多尺度区域特征进行区域匹配，得到当前视频序列对应的时空特征描述子；

所述第二检索模块，用于基于所述当前视频序列对应的时空特征描述子对所述第一预设个数的视频序列进行区域匹配，得到第二预设个数的视频序列。

在另一种可能的实现方式中，所述多尺度区域特征提取模块在基于任一帧图像对应的稠密深度学习特征图进行区域特征提取，得到所述任一帧图像对应的多尺度区域特征时，具体用于：

将所述加权残差特征图划分为多个区域块；

在另一种可能的实现方式中，所述多尺度区域特征提取模块在基于所述任一帧图像对应的稠密深度学习特征图确定加权残差特征图时，具体用于：

对所述卷积结果进行归一化处理，得到归一化结果；

所述时空区域特征匹配模块在基于所述各自对应的多尺度区域特征进行区域匹配，得到当前视频序列对应的时空特征描述子时，具体用于：

在另一种可能的实现方式中，所述时空区域特征匹配模块在将当前视频序列中任一帧图像对应的区域描述子与当前视频序列中的其他任一帧图像对应的区域描述进行区域特征匹配，得到对应的匹配结果时，具体用于：

；

在另一种可能的实现方式中，所述时空区域特征匹配模块在从所述任一区域对应的区域匹配结果中选择预设条件的区域描述子，作为所述任一区域对应的区域描述子时，具体用于：

确定所述满足预设条件的距离的平均值；

基于所述满足预设条件的距离的平均值，确定所述任一区域对应的区域描述子。

在另一种可能的实现方式中，所述时空区域特征匹配模块基于所述满足第一预设条件的距离的平均值，确定所述任一区域对应的区域描述子时，具体用于：

；

在另一种可能的实现方式中，所述时空区域特征匹配模块在将所述当前视频序列对应的区域描述子与任一视频序列进行区域特征匹配时，具体用于：

在另一种可能的实现方式中，所述时空区域特征匹配模块在将每帧图像对应的区域描述子与任一帧图像对应的区域描述子进行区域特征匹配时，具体用于：

在另一种可能的实现方式中，所述第二检索模块在基于所述当前视频序列对应的时空特征描述子对所述第一预设个数的视频序列进行区域匹配，得到第二预设个数的视频序列时，具体用于：

在另一种可能的实现方式中，所述第二检索模块在确定当前视频序列与任一视频序列对应的空间一致性得分时，具体用于：

确定当前视频序列中每帧图像的权重信息；

在另一种可能的实现方式中，所述第二检索模块在确定当前视频序列中每帧图像与任一帧图像之间的空间一致性得分时，具体用于：

确定各个尺寸的区域匹配空间一致性得分；

确定各个尺寸的区域分别对应的权重信息；

在另一种可能的实现方式中，所述第二检索模块在确定任一尺寸的区域匹配空间一致性得分时，具体用于：

通过以下公式，确定任一尺寸的区域匹配空间一致性得分：

；

和

其中，所述第二检索模块在基于所述各个尺寸的区域匹配空间一致性得分以及所述各个尺寸的区域分别对应的权重信息，并通过以下公式确定当前视频序列中每帧图像与任一帧图像之间的空间一致性得分时，具体用于：

；

在另一种可能的实现方式中，所述第二检索模块在基于所述当前视频序列中每帧图像的权重信息以及当前视频序列中每帧图像分别与所述任一视频序列中各帧图像之间空间一致性得分，确定当前视频序列与任一视频序列对应的空间一致性得分时，具体用于：

；

用于表征m的权重信息。

第三方面，提供了一种电子设备，该电子设备包括：

一个或多个处理器；

存储器；

一个或多个应用程序，其中一个或多个应用程序被存储在存储器中并被配置为由一个或多个处理器执行，一个或多个程序配置用于：执行根据第一方面中任一可能的实现方式所示的视频场景检索方法对应的操作。

第四方面，提供了一种计算机可读存储介质，存储介质存储有至少一条指令、至少一段程序、代码集或指令集，至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现如第一方面中任一可能的实现方式所示的视频场景检索方法。

综上所述，本申请包括以下至少一种有益技术效果：

本申请提供了一种视频场景检索方法、装置、电子设备及可读存储介质，与相关技术相比，在本申请中基于当前视频序列中各帧图像分别对应的稠密深度学习特征图进行时域特征融合，再根据融合后的特征进行时空特征聚合处理，得到当前视频序列对应的全局特征描述子，也即当前视频序列对应的全局特征描述子中可以体现当前视频序列的时空特征，从而基于当前视频序列对应的全局特征描述子从全局数据库中进行检索，可以降低场景周边环境的变化以及局部遮挡等对场景重识别的影响，从而可以提高检索到视频序列的准确度，进而可以提升用户体验。

附图说明

图1是本申请实施例中一种视频场景检索的方法流程示意图；

图2是本申请实施例中基于自注意力机制的时域特征融合网络结构示意图；

图3是本申请实施例中TemproalVLAD的网络模型架构示意图；

图4是本申请实施例中一种视频场景检索的示例图；

图5是本申请实施例中一种视频场景检索的装置结构示意图；

图6是本申请实施例中一种电子设备的装置结构示意图。

具体实施方式

以下结合附图对本申请作进一步详细说明。

本具体实施例仅仅是对本申请的解释，其并不是对本申请的限制，本领域技术人员在阅读完本说明书后可以根据需要对本实施例做出没有创造性贡献的修改，但只要在本申请的权利要求范围内都受到专利法的保护。

本申请实施例提供了一种视频场景检索方法，基于视觉的场景检索的主要目的是根据当前的观测信息查找建立场景地图时同一地理位置的观测信息(图像或视频序列)；

基于视觉的场景检索与一般图像检索/视频检索的区别主要有三点：

1.一般图像检索/视频检索衡量相似度的主要基准为“是否为同一物体类别”、“是否拥有相似的外观”等，而基于视觉的场景检索衡量相似度的主要基准为“是否为同一地理位置”，即使因为天气、季节等外在因素变化导致外观差异较大，只要二者位置足够近，则相似度也应较高；

2.一般图像检索/视频检索主要针对图像中的前景目标，而基于视觉的场景检索主要针对图像中的背景区域；

3.一般图像检索/视频检索可以离线进行，而基于视觉的场景检索往往应用在实时性较强的领域，如SLAM中的重定位和回环检测环节，因此除了要求场景检索算法复杂度低外，还需要对观测信息(图像或视频序列)进行高效的全局表示，使其更易于计算和存储，如将观测信息转化成一个向量或一个矩阵。

在相关技术中，视觉场景重识别技术大多基于单帧图像进行相似度计算，如词袋模型(Bag of Words，BoW)、费舍尔向量（Fisher Vectors，FV）和局部聚合向量(Vector ofLocally Aggregated Descriptors，VLAD)等方法，但是基于单帧图像进行场景检索的方法，在两次观测时存在视角变化时精度下降明显；此外，相关技术中基于视频的场景检索方法主要是在单帧图像的全局表示基础上进行信息聚合，忽略了视频序列的时空信息，从而仍受限于单帧图像的检索精度。

针对图像场景检索在视角变化时召回率低的问题，本申请实施例提供了一种对视频短序列提取时空分层特征的方法，根据当前观测的视频序列，从另一个庞大的视频序列数据库(可以是第一次建图时建立)中检索得到位于同一地理位置的视频序列。在本申请实施例中，采用了时空分层的特征由粗到细地进行视频场景检索，具体详见下述实施例：

（1）首先进行粗粒度的快速视频场景检索：对于视频序列中的每一帧图像，由神经网络提取稠密深度学习特征点，然后使用自注意力机制将不同帧间共视的特征点进行信息聚合和描述子优化，最后使用我们提出的TemproalVLAD层将时域多帧上的特征点进行聚类，保留每帧图像独有的观测信息，去除帧间冗余的观测信息，从而生成一个高维向量作为视频序列的全局表示，利用视频序列全局表示间的距离进行场景检索。该粗粒度快速视频场景检索分支具有检索速度快、存储高效等优点；

（2）然后进行细粒度的优化排序，使用特征图上的区域块特征进行区域匹配，并构建图像金字塔提取多尺度区域特征；对于区域匹配结果，使用所有匹配对之间的相对偏移量定义图像相似度，从而优化粗粒度分支的检索排序结果。其中，该细粒度优化排序分支具有检索召回率高，对视角变化/局部遮挡鲁棒等优点；

（3）粗粒度快速检索和细粒度优化排序两个分支，二者共享CNN(卷积神经网络，Convolutional Neural Network)骨干网络，从而减少计算量，降低了算法复杂度，具有实时性高、时延性小等优点。

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

另外，本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，如无特殊说明，一般表示前后关联对象是一种“或”的关系。

下面结合说明书附图对本申请实施例作进一步详细描述。

本申请实施例提供一种视频场景检索方法，该视频场景检索方法可以由电子设备执行，该电子设备可以为服务器也可以为终端设备，其中，该服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式***，还可以是提供云计算服务的云服务器。终端设备可以是智能手机、平板电脑、笔记本电脑、台式计算机等，但并不局限于此，该终端设备以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请实施例在此不做限制。

需要说明的是，用于执行视频场景检索方法的电子设备还可以包括：无人车以及智能机器人。

进一步地，如图1所示，该方法可以包括：

步骤101、获取当前视频序列。

对于本申请实施例，当前视频序列为待进行场景检索的视频序列。在本申请实施例中，当前视频序列可以为通过设置在无人车或者智能机器人中的相机采集得到的，也可以是从其他设备中获取的，在本申请实施例中不做限定。

具体地，在本申请实施例中，当前视频序列中包含多帧图像。

步骤S102、从多帧图像中分别提取各帧图像分别对应的稠密深度学习特征图。

具体地，在本申请实施例中，从多帧图像中分别提取各帧图像分别对应的稠密深度学习特征图具体可以通过特征提取网络实现，还可以通过其他方式从各帧图像中分别提取各自对应的稠密深度学习特征图。

步骤S103、基于各帧图像分别对应的稠密深度学习特征图分别进行时域特征融合，得到各自融合后的特征。

步骤S104、基于各帧图像分别对应的融合后的特征进行时空特征聚合处理，得到当前视频序列对应的全局特征描述子。

步骤S105、基于当前视频序列对应的全局特征描述子从全局数据库中进行检索，得到第一预设个数的视频序列。

对于本申请实施例，全局数据库存储着全局特征描述子以及区域特征描述子，在本申请实施例中，全局数据库中存储的全局特征描述子以及区域特征描述子为不同视频序列分别对应的全局特征描述子以及区域特征描述子。

需要说明的是：此处不同视频序列可以包括：不同地理位置分别对应的视频序列。其中，同一个地理位置可以对应一个视频序列，可以对应多个视频序列，当然还可以至少两个地理位置对应的一个视频序列，在本申请实施例中不做限定。此外，建立场景地图时和场景检索时所采用的视频序列构建方式可以一样，也可以不一样，由于建立场景时构建视频序列的过程可以离线进行，因此还可以根据地理位置关系(如平移距离、旋转角度、gps坐标距离)聚类得到大致处于同一地点的关键帧，从而构建视频序列。

本申请实施例提供了一种视频场景检索方法，与相关技术相比，在本申请实施例中基于当前视频序列中各帧图像分别对应的稠密深度学习特征图进行时域特征融合，再根据融合后的特征进行时空特征聚合处理，得到当前视频序列对应的全局特征描述子，也即当前视频序列对应的全局特征描述子中可以体现当前视频序列的时空特征，从而基于当前视频序列对应的全局特征描述子从全局数据库中进行检索，可以降低场景周边环境的变化以及局部遮挡等对场景重识别的影响，从而可以提高检索到视频序列的准确度，进而可以提升用户体验。

进一步地，在获取当前视频序列之后，为了避免当前视频序列中视频帧之间观测到的重叠区域过高而导致计算资源浪费的情况，步骤S102之前还可以包括：从当前视频序列中提取关键帧。在本申请实施例中，关键帧的提取标准可以基于观测区域重叠百分比、特征点匹配内点数量、两帧的地理位置关系(如平移距离、旋转角度、gps坐标距离)等，也可以使用现有的同步定位与建图（Simultaneous Localization And Mapping，SLAM）框架中的关键帧提取策略，如ORB-SLAM（英文全称：Oriented FAST and Rotated BRIEF-SLAM）基于特征点的提取策略以及DSO-SLAM(英文全称：Direct Sparse Odometry-SLAM）中基于光流的提取策略等。

进一步地，为了进一步地降低计算资源的浪费，在从当前视频序列中提取关键帧后，还可以从提取的关键帧中选取M帧，构成新的视频序列。在本申请实施例中，从提取的关键帧中选取的M帧可以是连续的M个关键帧，也可以是等间隔地选取关键帧，还可以由特征点匹配、光流法判断关键帧间的共视关系，从而动态选取时间间隔较长的关键帧。进一步地，若需要构建多个新的视频序列，则构建的多个新的视频序列可以是等长的，也可以是不等长的，M可以为[3，15]之间。

进一步地，在从关键帧中抽取M帧之后，步骤S102中从多帧图像中分别提取各帧图像分别对应的稠密深度学习特征图，具体可以包括：从M帧图像中分别提取各帧图像分别对应的稠密深度学习特征图。

具体地，在本申请实施例中，通过特征提取网络从M帧图像中分别提取各帧图像分别对应的稠密深度学习特征图。

具体地，为了提高场景检索在视角、光照以及场景外观等外在因素改变时的召回率，同时为了更好地融合单帧图像上的局部信息，在本申请实施例中使用神经网络作为特征提取网络。其中，特征提取网络包括但不限于VGG、Unet、ResNet、RegNet、AlexNet、GoogLeNet以及MobileNet等常用深度学习骨干网络。

进一步地，在将各个帧图像输入至特征提取网络以进行特征提取之前，还需要将各个帧图像调整至相同的尺寸，然后将相同尺寸的各个帧图像通过特征提取网络进行特征提取。此外为了与将特征提取网络作为后续粗粒度快速检索和细粒度优化排序两个分支的公共网络，需要将视频序列中的一个视频序列中的多帧图像移动到batch(批处理)维度上再输入特征提取网络，以不对同一视频序列内部进行随机打乱，而将一个视频序列作为一个整体，仅对不同视频序列的排列进行随机打乱，此外当使用多图形处理单元(GraphicProcessing Unit，GPU)时，还需要保证同一个视频序列中的图像被分配到同一个GPU上进行处理。在本申请实施例中，将相同尺寸的各个稠密深度学习特征图通过特征提取网络进行特征提取，具体可以包括：将相同尺寸的各个帧图像通过特征提取网络进行特征提取，和/或，将每个相同尺寸的帧图像通过图像金字塔操作调整不同尺寸，然后在进行特征提取。其中，不同帧图像对应的图像金字塔图像对应层的图像尺寸相同。

进一步地，为了模型对视角的变化更加鲁棒，降低局部遮挡的影响，同时为了使得模型更加关注视频序列中多次观测到的稳定特征，降低动态物体的干扰，本申请实施例通过自注意力机制对提取到的特征图进行时域上的融合，以更新视频序列中重复观测的特征。

具体地，步骤S103中基于各帧图像分别对应的稠密深度学习特征图分别进行时域特征融合，得到各自融合后的特征，具体可以包括：基于各帧图像分别对应稠密深度学习特征图并通过自注意力机制进行时域特征融合，得到各自融合后的特征。在本申请实施例中，基于自注意力机制的时域特征融合网络采用3D Non-local（3D非局部网络）网络来实现，同时对时空上的特征进行融合，如公式（1）所示：

公式（1）；

其中，x是输入的feature map，i和j是feature map上不同的坐标，则x_i、x_j代表feature map上不同点的值，f（）函数衡量两个点之间的相似度，如使用Gaussian(高斯)相似度或Dot product(点乘)相似度等，g（）函数用于计算feature map在j位置的特征值，C(x)是归一化参数，y_i是输出的feature map在坐标i处的值。

具体地，在本申请实施例中使用的基于自注意力机制的时域特征融合网络详细结构如图2所示，首先对输入的feature map X（T×H×W×1024）进行线性映射，使用1×1×1 的卷积来压缩通道数，精简原始信息，从而得到

（T×H×W×512），

（T× H×W×512）特征，接着合并上述三个特征各自除通道数以外的所有维度，然后为了计算出特征之间的自相关性，对

和

进行矩阵点乘操作，从而得到每帧中每个像素对其他所有帧所有像素的关系，然后对计算出来的自相关结果进行 Softmax 归一化，得到值域处于 [0,1]的结果，将其作为自注意力的权重，接着将自注意力的权重对应与特征矩阵

相乘，并进行上采样，最后再与原始输入的 feature map X进行残差运算，从而获得时域特征融合网络的输出Z（T×H×W×1024）。

需要注意的是，除了3D Non-local网络，也可以使用其他基于自注意力机制的网络变体进行时域特征融合，均在本申请实施例的保护范围之内，包括但不限于Transformer网络、Temproal Non-local（时域非局部）网络、基于自注意力机制的图卷积神经网络（Graph Neural Networks，GNN）等。

进一步地，为了对同一个视频序列中所有的特征进行聚合，保留每帧图像独有的观测信息，去除帧间冗余的观测信息，从而生成一个高维向量作为一个视频序列的全局表示，进而利用一个向量代表一个视频序列的方式，不仅便于进行快速的场景检索，而且便于进行更高效的存储，在本申请实施例，通过对时空特征融合后的结果进行时空特征聚合处理，得到当前视频序列对应的全局特征描述子，具体详见下述实施例。

具体地，步骤S104中基于各帧图像分别对应的融合后的特征进行时空特征聚合处理，得到当前视频序列对应的全局特征描述子，具体可以包括：步骤S1041（图中未示出）、步骤S1042（图中未示出）、步骤S1043（图中未示出）以及步骤S1044（图中未示出），其中，

步骤S1041、将各帧图像分别对应的时域特征图进行拼接处理，得到拼接后的特征图。

具体地，在本申请实施例中，可以将同一视频序列中各帧图像分别对应的时域特征图沿着长边进行拼接，以得到拼接后的特征图，也可以按照短边进行拼接，以得到拼接后的特征图。在本申请实施例中，以将各帧图像分别对应的时域特征图沿着长边进行拼接，以得到拼接后的特征图为例进行说明。

步骤S1042、对拼接后的特征图进行逐点卷积处理，得到卷积处理结果。

步骤S1043、对卷积处理结果进行归一化处理，得到归一化处理后的结果。

具体地，在本申请实施例中，对卷积处理结果进行归一化处理，具体可以包括：对卷积处理结果通过归一化指数函数进行指数归一化处理。在本申请实施例中，归一化指数函数，或称Softmax函数，是逻辑函数的一种推广，它能将一个含任意实数的K维向量z“压缩”到另一个K维实向量σ(z)中，使得每一个元素的范围都在(0,1)之间，并且所有元素的和为1。

步骤S1044、基于归一化处理后的结果以及拼接后的特征图，确定当前视频序列对应的全局特征描述子。

具体地，在本申请实施例中，拼接处理后的特征图中包括多个特征点；步骤S1044中基于归一化处理后的结果以及拼接后的特征图，确定当前视频序列对应的全局特征描述子，具体可以包括：对多个特征点进行聚类处理，得到至少一个聚类中心；确定各个特征点分别与每个聚类中心之间的距离，确定每个聚类中心对应距离信息；基于每个聚类中心对应的距离信息以及归一化处理后的结果，确定各个聚类簇分别对应的全局表示；对各个聚类簇分别对应全局表示进行正则化处理；将正则化处理后的各个全局表示进行拼接处理；对拼接处理后的全局表示进行正则化处理，得到当前视频序列对应的全局特征描述子。

其中，任一聚类中心对应的距离信息为各个特征点分别与任一聚类中心之间的距离。

具体地，在本申请实施例中，以通过TemproalVLAD作为时空特征聚合网络进行时空特征聚合为例进行说明，其中TemproalVLAD的网络模型架构如图3所示，将时域融合后的特征图进行时域拼接处理，然后将时域拼接结果依次通过逐点卷积、指数归一化处理，得到归一化处理结果，然后将时域特征拼接结果以及归一化处理结果通过残差计算模块进行处理，并依次进行簇内正则化、全局正则化处理，以得到视频序列的全局描述子。具体地，其上述基于自注意力机制的时域特征融合网络输出的特征图中同一个视频序列的特征图沿着长边进行拼接，得到拼接后的特征图F，然后使用1×1的卷积核对特征图F进行逐点卷积，并使用Softmax对结果进行指数归一化，得到结果a；将拼接后的特征图F（看作是稠密的特征点），再取出所有特征图中全部的特征点，使用Kmeans++聚类算法进行无监督的聚类，从而得到K个聚类中心，然后在残差计算模块中，分别计算特征图F中每个点与K个聚类中的距离，并使用指数归一化单元输出的结果a作为权重进行加权求和，从而得到K个向量，分别对应K个聚类簇的全局表示。然后对每个簇的向量进行正则化，接着将K个簇的向量拼接在一起再进行全局正则化，最后得到一个高维向量，将其作为整个视频序列的全局描述子。

其中，K在[16,128]之间，正则化操作包括但不限于L1正则化、L2正则化等。

进一步地，在基于上述实施例进行时空聚合处理得到整个视频序列的全局描述子后，使用当前观测视频序列的全局描述子在全局数据库中进行粗粒度的快速检索，减小需要精确检索的视频序列数量，以便降低细粒度优化排序分支计算耗时。

具体地，在本申请实施例中，依次计算当前视频序列全局描述子与全局数据库中存储的各个视频序列的全局描述子之间的距离，以确定当前视频序列与全局数据库中存储的各个视频序列的相似度，进而由粗粒度快速检索从全局数据库中检索出与当前观测场景最相似的TopK₁个视频序列。其中，当前视频序列全局描述子与全局数据库中存储的任一视频序列的全局描述子之间的距离可以通过曼哈顿距离、欧氏距离以及闵可夫斯基距离等进行表征，并且视频序列全局描述子间距离越小相似度越高。

需要说明的是，在本申请实施例中，TopK₁数值可以是用户输入的，也可以是预先设置的，在本申请实施例中不做限定，例如TopK₁在[20,100]之间。

需要说明的是，由上述实施例可知：全局数据库中存储多个视频序列分别对应的全局描述子，其中，全局数据库中存储的多个视频序列分别对应的全局描述子与上述实施例中基于当前视频序列确定当前视频序列对应的全局特征描述子的方式相同，在此不再赘述。

进一步地，为了进一步地提高检索的召回率，提高对视角变化以及局部遮挡鲁棒，在本申请实施例中进行细粒度的优化排序，以优化粗粒度分支的检索排序结果。进一步地，步骤S105中从多帧图像中分别提取各帧图像分别对应的稠密深度学习特征图，之后还可以包括：步骤S106（图中未示出）、步骤S107（图中未示出）以及步骤S108（图中未示出），其中，步骤S106以及步骤S107可以在步骤S103-步骤S105之前执行，还可以在步骤S103-步骤S105之后执行，还可以与步骤S103-步骤S105中至少一个步骤同时执行，任何可能的执行顺序均在本申请实施例的保护范围之内，在本申请实施例中不做限定，其中，步骤S106-步骤S108详见下述实施例：

步骤S106、对各帧图像分别对应的稠密深度学习特征图分别进行区域特征提取，得到各自对应的多尺度区域特征。

具体地，在本申请实施例中，对各帧图像分别对应的稠密深度学习特征图可以通过多尺度区域特征提取模型进行区域特征提取，也可以不通过区域特征提取模型进行区域特征提取，在本申请实施例中，以通过区域特征提取模型对各帧图像分别对应的稠密深度学习特征图进行区域特征提取为例进行说明。

在本申请实施例中，通过区域特征提取模型对各帧图像分别对应稠密深度学习特征图进行区域特征提取，类似于时空特征聚合网络的设计，多尺度区域特征提取模型首先对特征提取网络输出的特征图进行逐点卷积并进行指数归一化，得到的结果用于加权原始特征图与K个聚类中心的残差结果，最终得到加权残差特征图R。不同的是，多尺度区域特征提取模型并未进行时域特征拼接，对于加权残差特征图R也并未进行求和及后续正则化操作。

具体地，基于任一帧图像对应的稠密深度学习特征图进行区域特征提取，得到任一帧图像对应的多尺度区域特征，具体可以包括：基于任一帧图像对应的稠密深度学习特征图确定加权残差特征图；将加权残差特征图划分为多个区域块；确定各个区域块分别对应的区域特征表示，以得到任一帧图像对应的多尺度区域特征。

具体地，基于任一帧图像对应的稠密深度学习特征图确定加权残差特征图，具体可以包括：对任一帧图像对应的稠密深度学习特征图进行逐点卷积处理，得到卷积结果；对卷积结果进行归一化处理，得到归一化结果；基于归一化结果以及任一帧图像对应的稠密深度学习特征图，确定加权残差特征图。

对于本申请实施例，对任一帧图像对应稠密深度学习特征图进行逐点卷积以及归一化处理的方式具体详见上述时空特征聚合的实施例，在本申请实施例中不做赘述。

进一步地，基于归一化结果以及任一帧图像对应的稠密深度学习特征图，确定加权残差特征图，具体可以包括：对特征提取模型提取得到的任一帧图像对应的稠密深度学习特征图中的全部特征点通过聚类的算法，得到K个聚类中心；确定各个特征点分别与每个聚类中心之间的距离，确定每个聚类中心对应距离信息；基于所述每个聚类中心对应的距离信息以及所述归一化处理后的结果，确定加权残差特征图R。

进一步地，在得到加权残差特征图R后，在加权残差特征图R上使用大小为p×p的滑动窗口划分区域块，每个区域块中残差的均值经过正则化后就作为该区域的描述子，正则化操作包括但不限于L1正则化以及L2正则化等。为了增强区域描述子对于视角变化的鲁棒性，可以改变滑动窗口的大小p，也可以使用大小不同的滑动窗口划分区域块，每个区域块对应生成一个区域描述子。由于区域描述子由均值计算生成，因此不同区域的区域描述子维度是相同的。

需要说明的是，按照上述方式，对视频序列中每一帧图像提取多尺度区域特征，并使用区域描述子作为区域特征的表示和存储方式。

进一步地，在本申请实施例中，通过多尺度区域特征提取模块在视频序列中每帧图像中提取区域特征，也可以认为是前文特征提取网络提取的稠密特征点在空域上的融合，以便于后续利用区域特征对快速检索分支的结果进行优化排序。

进一步地，在提取了各帧图像分别对应的多尺度区域特征，为了进一步地增强区域特征对于视角变化的鲁棒性，对各帧图像分别对应的多尺度区域特征继续进行区域匹配，具体详见下述实施例。

步骤S107、基于各自对应的多尺度区域特征进行区域匹配，得到当前视频序列对应的时空特征描述子。

其中，多尺度区域特征通过区域描述子表征。

具体地，在本申请实施例中，基于各自对应的多尺度区域特征进行区域匹配，包括：同一视频序列帧间的区域匹配，目的是使用不同视角下均鲁棒的区域描述子去更新原有区域描述子（详见下述步骤S1071-步骤S1072），然后进行不同视频序列时域上的区域匹配（详见下述步骤S1073），也即步骤S107中基于各自对应的多尺度区域特征进行区域匹配，得到当前视频序列对应的时空特征描述子，具体可以包括：步骤S1071（图中未示出）、步骤S1072（图中未示出）以及步骤S1073（图中未示出），其中，

步骤S1071、将当前视频序列中每帧图像对应的区域描述子与当前视频序列中的其他各帧图像分别对应的区域描述子进行区域特征匹配，得到当前视频序列对应的区域匹配结果。

对于本申请实施例，将当前视频序列中每帧图像对应的区域描述子与当前视频序列中的其他各帧图像分别对应的区域描述子进行区域特征匹配，具体可以基于双向匹配与比率测试的方式、也可以通过其他区域匹配方式，包括但不限于K近邻匹配、最近邻贪婪穷尽（Greedy-Nearest Neighbor，Greedy-NN）匹配、K维数（k-dimensional tree，k-d tree）匹配等。在本申请实施例中以基于双向匹配与比率测试的方式为例进行介绍。

具体地，将每帧图像对应的区域描述子与任一帧图像对应的区域描述子进行区域特征匹配，具体可以包括：基于每帧图像中各个区域分别对应的区域描述子以及所述任一帧图像中各个区域分别对应的区域描述子，确定每帧图像对应的距离向量。其中，所述每帧图像对应的距离向量中包含多个元素，任一元素为每帧图像中任一区域对应的区域描述子与所述任一帧图像中任一区域对应的区域描述子之间的距离。

具体地，在本申请实施例中，以Tm帧与Tn帧为例介绍进行区域特征匹配的具体方式，其中（m，n∈[1,M]且m≠n），在本申请实施例中，计算视频序列中Tm帧所有区域描述子与Tn帧所有区域描述子距离从而构成距离矩阵D，矩阵中元素D_ij即代表Tm帧中第i个区域描述子与Tn帧中第j个区域描述子之间的距离。该距离包括但不限于于曼哈顿距离、欧氏距离以及闵可夫斯基距离等。

进一步地，通过上述方式可以计算得到当前视频序列中每帧图像对应的区域描述子与当前视频序列中的其他各帧图像分别对应的区域描述子进行区域特征匹配，以得到当前视频序列对应的区域匹配结果。

步骤S1072、从当前视频序列对应的区域匹配结果中选择满足预设条件的区域描述子，作为当前视频序列对应的区域描述子。

具体地，从每帧图像对应的距离向量中选择满足预设条件的区域描述子，具体可以包括：通过以下公式（2）确定满足预设条件的区域描述子，其中，

，公式（2）；

其中，X’表征满足预设条件的区域描述子，D_ij ^k代表距离矩阵D的第j列中距离值最小的元素，D_i ^k _j代表距离矩阵D的第i行中距离值最小的元素，t为一个阈值参数，符合条件的匹配项(i，j)构成了Tm帧与Tn帧之间的匹配集合P_mn，同时匹配集合中也存储了距离值D_ij。其中阈值t在[0.5,0.9]之间。

当对同一视频序列穷尽所有(m,n)组合后，每一帧的区域i都匹配了若干个帧中的区域j，记做集合S_i={i，j₁，j₂…，j_L}，而区域j又在其自身的帧中匹配了若干帧中的j’，递归地将j’也添加进入集合Si中；选择满足下列公式（3）的区域描述子代替集合S_i中所有区域的原始描述子，从而使其对于视角变化更鲁棒。

公式（3）；

为上述 D_ij 集合中元素的平均值。选择S_i中

的区域x’对应的描述子作为集合S_i中所有区域新的区域描述子。由于区域 x’对在视频序列中与其他匹配区域的平均距离最小，所以认为区域x’的特征在不同观测视角下更鲁棒。

步骤S1073、将当前视频序列对应的区域描述子分别与全局数据库中存储的各视频序列进行区域特征匹配，得到当前视频序列分别与各视频序列对应的区域匹配结果。

具体地，在本申请实施例中，将当前视频序列对应的区域描述子与任一视频序列进行区域特征匹配，具体可以包括：将当前视频序列中每帧图像对应的区域描述子分别与任一视频序列中各帧图像进行区域特征匹配。在本申请实施例中，将当前视频序列中每帧图像对应的区域描述子分别与任一视频序列中各帧图像进行区域特征匹配的方式基于双向匹配与比率测试的方式、也可以通过其他区域匹配方式，包括但不限于K近邻匹配、最近邻贪婪穷尽（Greedy-Nearest Neighbor，Greedy-NN）匹配、K维数（k-dimensional tree，k-d tree）匹配等。在本申请实施例中以基于双向匹配与比率测试的方式为例进行介绍。

具体地，在本申请实施例中，将每帧图像对应的区域描述子与任一帧图像对应的区域描述子进行区域特征匹配，具体可以包括：基于每帧图像中各个区域分别对应的区域描述子以及任一帧图像中各个区域分别对应的区域描述子，确定每帧图像对应的距离向量。其中，每帧图像对应的距离向量中包含多个元素，任一元素为每帧图像中任一区域对应的区域描述子与任一帧图像中任一区域对应的区域描述子之间的距离。

具体地，在视频场景检索时，对于当前视频序列Vqry与建立场景地图时数据库（全局数据库）中存储的一个视频序列Vref，按照上述基于双向匹配与比率测试的区域匹配方式，依次计算Vqry中每一帧图像与Vref每一帧图像之间的区域匹配集合P，同时记录区域匹配集合P中每一对匹配区域在前文所述残差特征图R的坐标(r,c)。

进一步地，当前视频序列Vqry与建立场景地图时数据库（全局数据库）中存储的每一个视频序列均按照上述方式进行区域特征匹配，具体不再赘述。需要说明的是，全局数据库中也存储各个视频序列Vref分别对应的区域描述子，在本申请实施例中，各个视频序列Vref分别对应的区域描述子的确定方式与当前视频序列Vqry对应的区域描述子的确定方式相同，在此不再赘述。

步骤S108、基于当前视频序列对应的时空特征描述子对第一预设个数的视频序列进行区域匹配，得到第二预设个数的视频序列。

对于本申请实施例，由当前观测视频序列中提取的时空区域描述子优化上述TopK₁个视频序列的排列顺序，选择优化排序后的TopK₂个视频序列作为场景检索的最终结果。在本申请实施例中，TopK₂的值可以通过用户输入，还可以为预先设置的，在本申请实施例中不做限定，例如，TopK₂在[1,10]之间。

具体地，在本申请实施例中，步骤S108中基于当前视频序列对应的时空特征描述子对第一预设个数的视频序列进行区域匹配，得到第二预设个数的视频序列，具体可以包括：基于当前视频序列分别与各视频序列对应的区域匹配结果，确定当前视频序列与各个视频序列分别对应的空间一致性得分；基于当前视频序列与各个视频序列分别对应的空间一致性得分，对第一预设个数的视频序列进行重排序；从排序后的第一预设个数的视频序列抽取第二预设个数的视频序列。其中，各个视频序列属于第一预设个数的视频序列。也即，在本申请实施例中，对区域匹配的结果依次计算两帧间的空间一致性得分，并根据视频序列整体空间一致性得分的大小对这TopK₁个视频序列进行重排序。具体地，确定当前视频序列与任一视频序列对应的空间一致性得分，包括：确定当前视频序列中每帧图像分别与所述任一视频序列中各帧图像之间空间一致性得分；确定当前视频序列中每帧图像的权重信息；基于所述当前视频序列中每帧图像的权重信息以及当前视频序列中每帧图像分别与所述任一视频序列中各帧图像之间空间一致性得分，确定当前视频序列与任一视频序列对应的空间一致性得分。在本申请实施例中，对于两个视频序列中之间每两帧的空间一致性得分SS，则最终两个视频序列的空间一致性得分计算公式（4）如下：

公式（4）；

其中，VSS代表两个视频序列的空间一致性得分；m、k分别为当前观测视频序列V_qry 和检索视频序列V_ref 中的帧，此处V_ref∈{快速检索分支得到的TopK₁个视频序列}；

为观测帧的权重，所述

在(0,1]之间，其选取策略为：选择观测视频序列中某一帧（如第一帧、中间帧或最后一帧）作为基准帧，该帧权重为1，其他帧的权重相距基准帧进行指数衰减。

进一步地，确定当前视频序列中每帧图像与任一帧图像之间的空间一致性得分，具体可以包括：确定各个尺寸的区域匹配空间一致性得分；确定各个尺寸的区域分别对应的权重信息；基于所述各个尺寸的区域匹配空间一致性得分以及所述各个尺寸的区域分别对应的权重信息确定当前视频序列中每帧图像与任一帧图像之间的空间一致性得分。

具体地，两帧之间区域匹配整体的空间一致性得分计算公式（5）如下：

公式（5）；

其中，SS代表两帧之间区域匹配整体的空间一致性得分；i为对尺度集合的遍历；n_s为尺度个数；w_i为尺度权重，每一个尺度一个权重，且w_i∈[0,1]。具体地，确定当前视频序列中每帧图像与任一帧图像之间的空间一致性得分，包括：确定各个尺寸的区域匹配空间一致性得分；确定各个尺寸的区域分别对应的权重信息；基于各个尺寸的区域匹配空间一致性得分以及各个尺寸的区域分别对应的权重信息确定当前视频序列中每帧图像与任一帧图像之间的空间一致性得分。

具体地，尺度p的区域匹配空间一致性得分公式（6）如下：

公式（6）；

其中SS_p代表尺度大小为p的区域匹配空间一致性得分；n_p为一帧图像在多尺度区域特征提取模块中提取到的尺度大小为p的区域块个数；P_p为尺度大小为p的区域特征的区域匹配集合；(r_p,c_p)为P_p中存储的匹配偏移量，是时空区域特征匹配模块计算得到的区域匹配空间位置偏移；

和

分别代表P_p集合中的平均列偏移量和平均行偏移量；i，j代表对集合P_p遍历时的编号；dist(·)函数为距离函数，包括但不限于于曼哈顿距离、欧氏距离、闵可夫斯基距离等，max(·)为最大值函数。

进一步地，下述通过具体实例介绍了一种视频场景检索的方法，如图4所示，获取当前视频流序列，然后基于上文所述的关键帧抽取以及特征图提取流程，得到当前视频流序列对应的稠密深度学习特征图，然后执行粗粒度分支以及细粒度分支，

其中，粗粒度分支的具体执行流程：基于当前视频流序列对应的稠密深度学习特征图确定当前视频序列对应的全局特征描述子，然后基于当前视频序列对应的全局特征描述子从建图时构建的数据库中进行检索，以得到TopK1检索结果；

其中，细粒度分支的具体执行流程：基于当前视频流序列对应的稠密深度学习特征图得到对应的区域描述子，然后更新自身区域描述子，然后基于更新后的区域描述子以及建图时构建的数据库中的各个视频的区域描述子，进行区域匹配，基于匹配结果计算当前视频序列与Top1检索结果中各个视频序列的空间一致性得分，基于各个视频序列的空间一致性得分对TopK1检索结果中的各个视频序列进行优化排序，以得到最终的TopK2检索结果。

上述实施例从方法流程的角度介绍了一种视频场景检索方法，下述实施例从虚拟模块的角度介绍一种视频场景检索装置，具体详见下述实施例。

本申请实施例提供了一种视频场景检索装置，如图5所示，视频场景检索装置50可以包括：获取模块51、特征图提取模块52、时域特征融合模块53、时空特征聚合处理模块54以及第一检索模块55，其中，

获取模块51，用于获取当前视频序列，当前视频序列中包含多帧图像；

特征图提取模块52，用于从多帧图像中分别提取各帧图像分别对应的稠密深度学习特征图；

时域特征融合模块53，用于基于各帧图像分别对应的稠密深度学习特征图分别进行时域特征融合，得到各自融合后的特征；

时空特征聚合处理模块54，用于基于各帧图像分别对应的融合后的特征进行时空特征聚合处理，得到当前视频序列对应的全局特征描述子；

第一检索模块55，用于基于当前视频序列对应的全局特征描述子从全局数据库中进行检索，得到第一预设个数的视频序列。

本申请实施例的一种可能的实现方式，时域特征融合模块53在基于各帧图像分别对应的稠密深度学习特征图分别进行时域特征融合，得到各自融合后的特征时，具体用于：基于各帧图像分别对应稠密深度学习特征图并通过自注意力机制进行时域特征融合，得到各自融合后的特征。

本申请实施例的另一种可能的实现方式，时空特征聚合处理模块54在基于各帧图像分别对应的融合后的特征进行时空特征聚合处理，得到当前视频序列对应的全局特征描述子时，具体用于：将各帧图像分别对应的时域特征图进行拼接处理，得到拼接后的特征图；对拼接后的特征图进行逐点卷积处理，得到卷积处理结果；对卷积处理结果进行归一化处理，得到归一化处理后的结果；基于归一化处理后的结果以及拼接后的特征图，确定当前视频序列对应的全局特征描述子。

本申请实施例的另一种可能的实现方式，拼接处理后的特征图中包括多个特征点；时空特征聚合处理模块54在基于归一化处理后的结果以及拼接后的特征图，确定当前视频序列对应的全局特征描述子时，具体用于：对多个特征点进行聚类处理，得到至少一个聚类中心；确定各个特征点分别与每个聚类中心之间的距离，确定每个聚类中心对应距离信息，任一聚类中心对应的距离信息为各个特征点分别与任一聚类中心之间的距离；基于每个聚类中心对应的距离信息以及归一化处理后的结果，确定各个聚类簇分别对应的全局表示；对各个聚类簇分别对应全局表示进行正则化处理；将正则化处理后的各个全局表示进行拼接处理；对拼接处理后的全局表示进行正则化处理，得到当前视频序列对应的全局特征描述子。

本申请实施例的另一种可能的实现方式，装置50还包括：多尺度区域特征提取模块、时空区域特征匹配模块以及第二检索模块，其中，

多尺度区域提取模块，用于对各帧图像分别对应的稠密深度学习特征图分别进行区域特征提取，得到各自对应的多尺度区域特征；

时空区域特征匹配模块，用于基于各自对应的多尺度区域特征进行区域匹配，得到当前视频序列对应的时空特征描述子；

第二检索模块，用于基于当前视频序列对应的时空特征描述子对第一预设个数的视频序列进行区域匹配，得到第二预设个数的视频序列。

对于本申请实施例，第一检索模块55和第二检索模块可以为同一检索模块，也可以为不同的检索模块，在本申请实施例中不做限定。

本申请实施例的另一种可能的实现方式，多尺度区域特征提取模块在基于任一帧图像对应的稠密深度学习特征图进行区域特征提取，得到任一帧图像对应的多尺度区域特征时，具体用于：基于任一帧图像对应的稠密深度学习特征图确定加权残差特征图；将加权残差特征图划分为多个区域块；确定各个区域块分别对应的区域特征表示，以得到任一帧图像对应的多尺度区域特征。

本申请实施例的另一种可能的实现方式，多尺度区域特征提取模块在基于任一帧图像对应的稠密深度学习特征图确定加权残差特征图时，具体用于：对任一帧图像对应的稠密深度学习特征图进行逐点卷积处理，得到卷积结果；对卷积结果进行归一化处理，得到归一化结果；基于归一化结果以及每个聚类中心对应距离信息，确定加权残差特征图。

本申请实施例的另一种可能的实现方式，多尺度区域特征通过区域描述子表征；时空区域特征匹配模块在基于各自对应的多尺度区域特征进行区域匹配，得到当前视频序列对应的时空特征描述子时，具体用于：将当前视频序列中每帧图像对应的区域描述子与当前视频序列中的其他各帧图像分别对应的区域描述子进行区域特征匹配，得到当前视频序列对应的区域匹配结果；从当前视频序列对应的区域匹配结果中选择满足预设条件的区域描述子，作为当前视频序列对应的区域描述子；将当前视频序列对应的区域描述子分别与全局数据库中存储的各视频序列进行区域特征匹配，得到当前视频序列分别与各视频序列对应的区域匹配结果。

本申请实施例的另一种可能的实现方式，时空区域特征匹配模块在将当前视频序列中任一帧图像对应的区域描述子与当前视频序列中的其他任一帧图像对应的区域描述进行区域特征匹配，得到对应的匹配结果时，具体用于：

确定任一帧图像对应的区域描述子与当前视频序列中其他任一帧图像中各个区域各个区域描述子之间的距离；

；

其中，矩阵中元素D_ij表征Tm帧中第i个区域描述子与Tn帧中第j个区域描述子之间的距离，矩阵D用于表征视频序列中Tm帧所有区域描述子与Tn帧所有区域描述子距离，Tm帧表征任一帧图像，Tn用于表征当前视频序列中其他任一帧图像；D_ij ^k表征矩阵D的第j列中距离值最小的元素，D_i ^k _j表征矩阵D的第i行中距离值最小的元素，t用于表征阈值参数，符合条件的匹配项(i，j)构成了Tm帧与Tn帧之间的匹配集合P_mn。

本申请实施例的另一种可能的实现方式，时空区域特征匹配模块在从任一区域对应的区域匹配结果中选择预设条件的区域描述子，作为任一区域对应的区域描述子时，具体用于：

确定满足预设条件的距离的平均值；

基于满足预设条件的距离的平均值，确定任一区域对应的区域描述子。

本申请实施例的另一种可能的实现方式，时空区域特征匹配模块基于满足第一预设条件的距离的平均值，确定任一区域对应的区域描述子时，具体用于：

基于满足第一预设条件的距离的平均值，并通过以下公式确定任一区域对应的区域描述子：

；

本申请实施例的另一种可能的实现方式，时空区域特征匹配模块在将当前视频序列对应的区域描述子与任一视频序列进行区域特征匹配时，具体用于：将当前视频序列中每帧图像对应的区域描述子分别与任一视频序列中各帧图像进行区域特征匹配。

本申请实施例的另一种可能的实现方式，时空区域特征匹配模块在将每帧图像对应的区域描述子与任一帧图像对应的区域描述子进行区域特征匹配时，具体用于：基于每帧图像中各个区域分别对应的区域描述子以及任一帧图像中各个区域分别对应的区域描述子，确定每帧图像对应的距离向量，每帧图像对应的距离向量中包含多个元素，任一元素为每帧图像中任一区域对应的区域描述子与任一帧图像中任一区域对应的区域描述子之间的距离。

本申请实施例的另一种可能的实现方式，第二检索模块在基于当前视频序列对应的时空特征描述子对第一预设个数的视频序列进行区域匹配，得到第二预设个数的视频序列时，具体用于：基于当前视频序列分别与各视频序列对应的区域匹配结果，确定当前视频序列与各个视频序列分别对应的空间一致性得分，各个视频序列属于第一预设个数的视频序列；基于当前视频序列与各个视频序列分别对应的空间一致性得分，对第一预设个数的视频序列进行重排序；从排序后的第一预设个数的视频序列抽取第二预设个数的视频序列。

本申请实施例的另一种可能的实现方式，第二检索模块在确定当前视频序列与任一视频序列对应的空间一致性得分时，具体用于：确定当前视频序列中每帧图像分别与任一视频序列中各帧图像之间空间一致性得分；确定当前视频序列中每帧图像的权重信息；基于当前视频序列中每帧图像的权重信息以及当前视频序列中每帧图像分别与任一视频序列中各帧图像之间空间一致性得分，确定当前视频序列与任一视频序列对应的空间一致性得分。

本申请实施例的另一种可能的实现方式，第二检索模块在确定当前视频序列中每帧图像与任一帧图像之间的空间一致性得分时，具体用于：确定各个尺寸的区域匹配空间一致性得分；确定各个尺寸的区域分别对应的权重信息；基于各个尺寸的区域匹配空间一致性得分以及各个尺寸的区域分别对应的权重信息确定当前视频序列中每帧图像与任一帧图像之间的空间一致性得分。

本申请实施例的另一种可能的实现方式，第二检索模块在确定任一尺寸的区域匹配空间一致性得分时，具体用于：

通过以下公式，确定任一尺寸的区域匹配空间一致性得分：

；

和

其中，第二检索模块在基于各个尺寸的区域匹配空间一致性得分以及各个尺寸的区域分别对应的权重信息，并通过以下公式确定当前视频序列中每帧图像与任一帧图像之间的空间一致性得分时，具体用于：

；

其中，SS表征当前视频序列中每帧图像与任一帧图像之间的空间一致性得分， i为对尺度集合的遍历，n_s为尺度个数，w_i为尺寸i对应的权重信息，且w_i∈[0,1]。

本申请实施例的另一种可能的实现方式，第二检索模块在基于当前视频序列中每帧图像的权重信息以及当前视频序列中每帧图像分别与任一视频序列中各帧图像之间空间一致性得分，确定当前视频序列与任一视频序列对应的空间一致性得分时，具体用于：

基于当前视频序列中每帧图像的权重信息以及当前视频序列中每帧图像分别与任一视频序列中各帧图像之间空间一致性得分，并通过以下公式确定当前视频序列与任一视频序列对应的空间一致性得分：

；

用于表征m的权重信息。

本申请实施例提供了一种视频场景检索装置，与相关技术相比，在本申请实施例中基于当前视频序列中各帧图像分别对应的稠密深度学习特征图进行时域特征融合，再根据融合后的特征进行时空特征聚合处理，得到当前视频序列对应的全局特征描述子，也即当前视频序列对应的全局特征描述子中可以体现当前视频序列的时空特征，从而基于当前视频序列对应的全局特征描述子从全局数据库中进行检索，可以降低场景周边环境的变化以及局部遮挡等对场景重识别的影响，从而可以提高检索到视频序列的准确度，进而可以提升用户体验。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的***、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本申请实施例中提供了一种电子设备，如图6所示，图6所示的电子设备600包括：处理器601和存储器603。其中，处理器601和存储器603相连，如通过总线602相连。可选地，电子设备600还可以包括收发器604。需要说明的是，实际应用中收发器604不限于一个，该电子设备600的结构并不构成对本申请实施例的限定。

处理器601可以是CPU（Central Processing Unit，中央处理器），通用处理器，DSP（Digital Signal Processor，数据信号处理器），ASIC（Application SpecificIntegrated Circuit，专用集成电路），FPGA（Field Programmable Gate Array，现场可编程门阵列）或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器601也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等。

总线602可包括一通路，在上述组件之间传送信息。总线602可以是PCI（Peripheral Component Interconnect，外设部件互连标准）总线或EISA（ExtendedIndustry Standard Architecture，扩展工业标准结构）总线等。总线602可以分为地址总线、数据总线、控制总线等。为便于表示，图6中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

存储器603可以是ROM（Read Only Memory，只读存储器）或可存储静态信息和指令的其他类型的静态存储设备，RAM（Random Access Memory，随机存取存储器）或者可存储信息和指令的其他类型的动态存储设备，也可以是EEPROM（Electrically ErasableProgrammable Read Only Memory，电可擦可编程只读存储器）、CD-ROM（Compact DiscRead Only Memory，只读光盘）或其他光盘存储、光碟存储（包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等）、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。

存储器603用于存储执行本申请方案的应用程序代码，并由处理器601来控制执行。处理器601用于执行存储器603中存储的应用程序代码，以实现前述方法实施例所示的内容。

其中，电子设备包括但不限于：移动电话、笔记本电脑、数字广播接收器、PDA（个人数字助理）、PAD（平板电脑）、PMP（便携式多媒体播放器）、车载终端（例如车载导航终端）等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。还可以为服务器等。图6示出的电子设备仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

本申请实施例提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，当其在计算机上运行时，使得计算机可以执行前述方法实施例中相应内容。与相关技术相比，在本申请实施例中基于当前视频序列中各帧图像分别对应的稠密深度学习特征图进行时域特征融合，再根据融合后的特征进行时空特征聚合处理，得到当前视频序列对应的全局特征描述子，也即当前视频序列对应的全局特征描述子中可以体现当前视频序列的时空特征，从而基于当前视频序列对应的全局特征描述子从全局数据库中进行检索，可以降低场景周边环境的变化以及局部遮挡等对场景重识别的影响，从而可以提高检索到视频序列的准确度，进而可以提升用户体验。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。上述描述的***，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的实施例中，应该理解到，所揭露的***，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器、随机存取存储器、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以对本申请的技术方案进行了详细介绍，但以上实施例的说明只是用于帮助理解本申请的方法及其核心思想，不应理解为对本申请的限制。本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。

Claims

1.一种视频场景检索方法，其特征在于，包括：

获取当前视频序列，所述当前视频序列中包含多帧图像；

2.根据权利要求1所述的方法，其特征在于，所述基于所述各帧图像分别对应的稠密深度学习特征图分别进行时域特征融合，得到各自融合后的特征，包括：

3.根据权利要求1或2所述的方法，其特征在于，所述基于各帧图像分别对应的融合后的特征进行时空特征聚合处理，得到当前视频序列对应的全局特征描述子，包括：

4.根据权利要求3所述的方法，其特征在于，所述拼接处理后的特征图中包括多个特征点；

对所述多个特征点进行聚类处理，得到至少一个聚类中心；

对所述各个聚类簇分别对应全局表示进行正则化处理；

将正则化处理后的各个全局表示进行拼接处理；

5.根据权利要求4所述的方法，其特征在于，所述从所述多帧图像中分别提取各帧图像分别对应的稠密深度学习特征图，之后还包括：

6.根据权利要求5所述的方法，其特征在于，基于任一帧图像对应的稠密深度学习特征图进行区域特征提取，得到所述任一帧图像对应的多尺度区域特征，包括：

将所述加权残差特征图划分为多个区域块；

7.根据权利要求6所述的方法，其特征在于，所述基于所述任一帧图像对应的稠密深度学习特征图确定加权残差特征图，包括：

对所述卷积结果进行归一化处理，得到归一化结果；

8.根据权利要求5-7任一项所述的方法，其特征在于，所述多尺度区域特征通过区域描述子表征；

9.根据权利要求8所述的方法，其特征在于，将当前视频序列中任一帧图像对应的区域描述子与当前视频序列中的其他任一帧图像对应的区域描述进行区域特征匹配，得到对应的匹配结果，包括：

；

10.根据权利要求9所述的方法，其特征在于，从所述任一区域对应的区域匹配结果中选择预设条件的区域描述子，作为所述任一区域对应的区域描述子，包括：

确定所述满足预设条件的距离的平均值；

11.根据权利要求10所述的方法，其特征在于，所述基于所述满足第一预设条件的距离的平均值，确定所述任一区域对应的区域描述子，包括：

；

其中，x为属于S_i中的区域，P_x为区域x所处帧匹配集合中与区域x对应的匹配项集合，D_x 为从匹配项集合P_x中提取出来的所有D_ij 集合，

12.根据权利要求11所述的方法，其特征在于，将所述当前视频序列对应的区域描述子与任一视频序列进行区域特征匹配，包括：

13.根据权利要求9-12任一项所述的方法，其特征在于，将每帧图像对应的区域描述子与任一帧图像对应的区域描述子进行区域特征匹配，包括：

14.根据权利要求13所述的方法，其特征在于，所述基于所述当前视频序列对应的时空特征描述子对所述第一预设个数的视频序列进行区域匹配，得到第二预设个数的视频序列，包括：

15.根据权利要求14所述的方法，其特征在于，基于所述当前视频序列与任一视频序列对应的区域匹配结果，确定当前视频序列与所述任一视频序列对应的空间一致性得分，包括：

基于所述当前视频序列分别与任一视频序列对应的区域匹配结果，确定当前视频序列中每帧图像分别与所述任一视频序列中各帧图像之间空间一致性得分；

确定当前视频序列中每帧图像的权重信息；

16.根据权利要求15所述的方法，其特征在于，所述确定当前视频序列中每帧图像与任一帧图像之间的空间一致性得分，包括：

确定各个尺寸的区域匹配空间一致性得分；

确定各个尺寸的区域分别对应的权重信息；

17.根据权利要求16所述的方法，其特征在于，所述基于所述当前视频序列中每帧图像的权重信息以及当前视频序列中每帧图像分别与所述任一视频序列中各帧图像之间空间一致性得分，确定当前视频序列与任一视频序列对应的空间一致性得分，包括：

；

用于表征m 的权重信息，SS表征所述当前视频序列中每帧图像与任一帧图像之间的空间一致性得分。

18.一种视频场景检索装置，其特征在于，包括：

19.一种电子设备，其特征在于，其包括：

一个或者多个处理器；

存储器；

一个或多个应用程序，其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个应用程序配置用于：执行根据权利要求1～17任一项所述的一种视频场景检索方法。

20.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1～17任一项所述的一种视频场景检索方法。