CN110083742A

CN110083742A - 一种视频查询方法和装置

Info

Publication number: CN110083742A
Application number: CN201910355782.3A
Authority: CN
Inventors: 冯洋; 马林; 刘威; 罗杰波
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-04-29
Filing date: 2019-04-29
Publication date: 2019-08-02
Anticipated expiration: 2039-04-29
Also published as: US11755644B2; WO2020221121A1; US20210287006A1; CN110083742B

Abstract

本申请实施例公开一种视频查询方法，当用户需要查询待查视频时，该方法可以获取待查媒体的媒体特征和备选视频对应的图像特征。待查媒体包括目标对象，备选视频中包括运动对象。根据图像特征以及备选视频中运动对象的运动时序信息，确定所述备选视频的视频特征。由于通过运动时序信息可以准确的捕捉到运动中运动对象所体现的信息，故以此确定出的该视频特征可以准确的描述出该运动对象，有效的避免了在视频查询中原本运动对象带来不利影响。从而可以根据媒体特征以及该视频特征，准确的确定出备选视频中的运动对象是否与待查媒体中目标对象相关，提高了用户的查询体验。

Description

一种视频查询方法和装置

技术领域

本申请涉及媒体处理领域，特别是涉及一种视频查询方法和装置。

背景技术

随着搜索查询技术的发展，用户可以通过媒体例如图片、视频等查询与该媒体相关的视频，例如用户可以通过一段包括目标对象的待查视频，从备选视频中查询都有哪些备选视频包括了该待查对象。

目前常用多为基于内容的视频查询技术实现上述服务。

然而，根据目前的视频查询技术精确度不高，在根据包括目标对象的媒体进行视频查询时，当一个备选视频中包括目标对象，但目标对象处于运动状态时，常常会查询不到这个备选视频。降低了用户的查询体验。

发明内容

为了解决上述技术问题，本申请提供了一种视频查询方法和装置，可以根据媒体特征以及该视频特征，准确的确定出备选视频中的运动对象是否与待查媒体中目标对象相关，提高了用户的查询体验。

本申请实施例公开了如下技术方案：

第一方面，本申请实施例提供一种视频查询方法，所述方法包括：

获取待查媒体的媒体特征和备选视频对应的图像特征；所述待查媒体包括目标对象，所述备选视频中包括运动对象；

根据所述图像特征以及备选视频中所述运动对象的运动时序信息，确定所述备选视频的视频特征；

根据所述媒体特征以及所述视频特征，确定所述备选视频中的所述运动对象是否与所述目标对象相关。

第二方面，本申请实施例提供一种视频查询装置，所述装置包括获取单元、第一确定单元和第二确定单元：

所述获取单元，用于获取待查媒体的媒体特征和备选视频对应的图像特征；所述待查媒体包括目标对象，所述备选视频中包括运动对象；

所述第一确定单元，用于根据所述图像特征以及备选视频中所述运动对象的运动时序信息，确定所述备选视频的视频特征；

所述第二确定单元，用于根据所述媒体特征以及所述视频特征，确定所述备选视频中的所述运动对象是否与所述目标对象相关。

第三方面，本申请实施例提供一种用于视频查询的设备，所述设备包括处理器以及存储器：

所述存储器用于存储程序代码，并将所述程序代码传输给所述处理器；

所述处理器用于根据所述程序代码中的指令执行第一方面所述的视频查询方法。

第四方面，本申请实施例提供一种计算机可读存储介质，所述计算机可读存储介质用于存储程序代码，所述程序代码用于执行第一方面所述的视频查询方法。

由上述技术方案可以看出，获取待查媒体的媒体特征和备选视频对应的图像特征。待查媒体包括目标对象，备选视频中包括运动对象。根据图像特征以及备选视频中运动对象的运动时序信息，确定所述备选视频的视频特征。由于通过运动时序信息可以准确的捕捉到运动中运动对象所体现的信息，故以此确定出的该视频特征可以准确的描述出该运动对象，有效的避免了在视频查询中原本运动对象带来不利影响。从而可以根据媒体特征以及该视频特征，准确的确定出备选视频中的运动对象是否与待查媒体中目标对象相关，提高了用户的查询体验。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种视频查询方法的应用场景示意图；

图2为本申请实施例提供的一种视频查询方法的流程图；

图3为传统方式中卷积长短期记忆神经网络的示例图；

图4为本申请实施例提供的错位长短期记忆神经网络的示例图；

图5为本申请实施例提供的一种视频查询方法的处理流程结构图；

图6a为本申请实施例提供的一种视频查询装置的结构图；

图6b为本申请实施例提供的一种视频查询装置的结构图；

图7为本申请实施例提供的一种终端设备的结构图；

图8为本申请实施例提供的一种服务器的结构图。

具体实施方式

下面结合附图，对本申请的实施例进行描述。

由于在视频查询中，如果备选视频中具有运动的目标对象，传统的视频查询技术所获取的备选视频的视频特征不能准确的体现出备选视频中的实际内容，也就是说，视频中运动的对象将难以被准确捕捉并体现到对应的视频特征中，导致即使用于查询的待查媒体中包括目标对象，也不容易识别出备选视频与待查媒体相关。视频查询准确性较低。

为此，本申请实施例提供了一种视频查询方法，在确定备选视频的视频特征时依据了备选视频中运动对象的运动时序信息，有效的避免了在视频查询中原本运动对象带来不利影响。。

本申请实施例所提供的视频查询方法可以应用于各类视频处理场景，例如可以应用于视频中人物的识别，智能设备对物体、人物的追踪，视频节目的分类等等。

本申请实施例提供的视频查询方法可以应用到具有媒体处理功能的电子设备中，该电子设备可以是终端设备，终端设备例如可以是智能终端、计算机、个人数字助理(Personal Digital Assistant，简称PDA)、平板电脑等。

该电子设备还可以是服务器，服务器是向终端设备提供媒体处理服务的，，终端设备可以将待查媒体和备选视频上传给服务器，服务器利用本申请实施例提供的视频查询方法，确定备选视频中的运动对象是否与待查媒体中的目标对象相关，并将结果返回给终端设备。其中，服务器可以是独立的服务器，也可以是集群中的服务器。

为了便于理解本申请的技术方案，下面结合实际应用场景，以终端设备为例对本申请实施例提供的视频查询方法进行介绍。

参见图1，图1示出了一种视频查询方法的应用场景示例图，该场景中包括终端设备101，当用户通过待查媒体进行视频查询时，终端设备101根据所获取的待查媒体，可以确定待查媒体的媒体特征。而且，终身101还可以根据待查媒体对应的备选视频，确定对应的图像特征。在本申请实施例中，媒体特征、图像特征，以及后续提到的视频特征、子特征等都属于一种类型的特征，该特征可以体现所标识对象例如图像、视频中携带相关内容的信息。例如一张图像的图像特征可以体现该图像中所展示的图像信息，一个视频的图像特征可以体现该视频中的图像信息，即更关注于各个视频帧本身的静态信息，这个视频的视频特征可以体现该视频中的视频信息，即更关注连续视频帧所体现的动态信息。

在本申请实施例中，备选视频属于待查媒体所查询视频范围中的任意一个视频。在备选视频中，可以包括运动的对象，该对象在本申请中称为运动对象，运动对象可以是人、动物、物体等各种可以主动、被动运动的对象。在备选视频中，运动对象可以有一个，也可以有多个。为了便于说明，在后续实施例中，主要针对备选视频中一个运动对象的处理流程进行描述。

待查媒体的媒体格式在本申请实施例中并不限定，可以是图像，也可以是视频等。不论待查媒体是何种媒体格式，待查媒体中包括目标对象，目标对象可以是人、动物、物体等各种可能的对象。在待查媒体中，目标对象可以是运动的，也可以是静止的。

终端设备101根据图像特征以及备选视频中运动对象的运动时序信息，确定备选视频的视频特征。由于通过运动时序信息可以准确的捕捉到运动中运动对象所体现的信息，故以此确定出的视频特征可以准确的描述出该运动对象，有效的避免了在视频查询中原本运动对象带来的不利影响。从而终端设备101可以根据媒体特征以及该视频特征，准确的确定出备选视频中的运动对象是否与待查媒体中目标对象相关，提高了用户的查询体验。

接下来，将以终端设备为例、结合附图对本申请实施例提供的视频查询方法进行详细介绍。

参见图2，所述方法包括：

S201、获取待查媒体的媒体特征和备选视频对应的图像特征。

在本实施例中，可以采用卷积神经网络来获取待查媒体的媒体特征和备选视频对应的图像特征。然而，由于视频中可能包括运动对象，针对视频进行特征提取时，为了可以更好地获取到视频中的运动信息，在本实施例中，可以采用三维卷积神经网络获取视频对应的特征。

具体而言，在执行S201时，可以通过三维卷积神经网络获取备选视频对应的图像特征。待查媒体可以是图像，也可以是视频等其他格式，若待查媒体为视频，则可以通过三维卷积神经网络获取待查媒体对应的视频特征；若待查媒体为图像，则可以通过三维卷积神经网络获取待查媒体对应的图像特征，也可以通过其他卷积神经网络获取待查媒体对应的图像特征。

需要说明的是，训练三维卷积神经网络需要大量标注的视频，也需要耗费大量的计算资源。为了降低对计算资源的需求，在一种可能的实现方式中，可以直接采用在Kinetics数据集上预训练好的三维卷积神经网络(I3D)模型来获取待查媒体的媒体特征和备选视频对应的图像特征。

可以理解的是，可以同时获取待查媒体的媒体特征和备选视频对应的图像特征，也可以不同时获取待查媒体的媒体特征和备选视频对应的图像特征。例如，备选视频对应的图像特征可以是预先获取的，当用户通过待查媒体进行视频查询时，终端设备获取到待查媒体后，再获取待查媒体的媒体特征；或者，当用户通过待查媒体进行视频查询时，终端设备获取到待查媒体后，终端设备同时获取待查媒体的媒体特征和备选视频对应的图像特征。

S202、根据所述图像特征以及备选视频中所述运动对象的运动时序信息，确定所述备选视频的视频特征。

在本申请实施例中，运动对象的运动时序信息可以标识在备选视频中，该运动对象随着时间推移运动趋势变化的情况。例如可以包括相邻时间节点间该运动对象的运动位置在运动趋势下的变化情况。该运动时序信息可以是通过神经网络对该备选视频学习得到，也可以通过其他方式例如标注得到。

在确定备选视频的视频特征时，除了采用可以主要体现备选视频中静态信息的图像特征，还进一步引入了前述运动时序信息。故在确定备选视频的视频特征的过程中，可以通过运动时序信息准确的捕捉到备选视频中运动对象在运动时所体现的信息，从而确定出的视频特征所携带的信息可以准确的描述出该运动对象在备选视频中的运动情况，使得该视频特征可以清楚的标识出运动对象。

由此，在后续判断运动对象是否与目标对象相关时，视频特征中可以提供与运动对象相关的高质量信息，提高了判断准确性。

S203、根据所述媒体特征以及所述视频特征，确定所述备选视频中的所述运动对象是否与所述目标对象相关。

可以理解的是，若确定出备选视频中的运动对象是否与目标对象相关，终端设备根据确定结果将运动对象与目标对象相关的备选视频归入查询结果，并在查询完成后向用户显示查询结果，帮助用户查询到与待查视频相关的备选视频。

在进行视频查询过程中，根据备选视频的视频分段是否与所述目标对象相关，可以确定备选视频中哪些时间区间为与目标对象相关的区间。从而可以在向用户提供查询结果时同时提供所查询到备选视频中相关区间信息，即用户的感兴趣区间，避免用户在获取查询结果后，还得从头到尾查看查询结果中备选视频哪些部分与查询需求(例如目标对象)相关，从而减少了用户对查询结果的查看时间。

需要说明的是，由于视频中所显示的内容可能较多，用户即使通过相关区间信息直接查看了备选视频的相关部分，但是可能一会一时发现不了目标对象在当前视频显示界面的哪些位置。故为了提高用户的查看效率，本申请实施例还提供了一种对备选视频的标识方式，在备选视频中出现目标对象的区域进行标识，有效的对用户进行了指引。

在这种实现方式中，若通过S203确定第t个视频分段中的所述运动对象是否与所述目标对象相关后，还可以在所述备选视频的第t个视频分段中对所述目标区域进行标识，从而直观地向用户指出目标对象在当前视频显示界面的哪些位置，例如，用户在查看查询结果中的一个备选视频时，通过查询结果提供的时间区间信息，用户可以直接从该备选视频对应的播放进度播放该备选视频。在播放过程中，出现目标对象(或者说与目标对象相关的运动对象)时，出现该目标对象的视频显示区域会有特定的标识效果，例如醒目颜色的外框等，从而用户可以在该标识效果的指引下，快速的锁定目标对象，实现自己的查询目的。

由于备选视频中运动对象具有一定的运动方式，即运动对象一般不会一直处于视频中的某一固定位置，而可能会随着运动方式，在不同的时间出现在视频的不同位置。故在确定备选视频的视频特征时，可以对备选视频进行分段，对不同的视频分段确定对应的子特征，从而通过子特征更为准确的确定运动对象的上述运动方式，以便提高后续视频查询时的查询准确性。

通过对备选视频进行基于时间顺序的分段，可以得到多个视频分段，一个视频分段可以包括至少一帧视频帧，不同视频分段所包括的视频帧数量也可以不同。通过分段所得到的视频分段中，第t个视频分段和第t-1个视频分段属于在时间顺序上的相邻视频分段，且第t个视频分段所处时间区间晚于第t-1个视频分段所处时间区间。

第t个视频分段对应的子特征携带有用于体现备选视频从第1个视频分段至第t个视频分段中信息的特征。最后一个视频分段对应的子特征相当于该备选视频对应的视频特征。

在第t个视频分段时，备选视频中运动对象可能已经从视频的a位置移动到了b位置，如果采用传统方式，不考虑运动对象的运动趋势，那第t个视频分段对应的子特征所能体现运动对象的信息并不集中，可能分散在子特征的特征平面的a位置到b位置之间。换句话说，传统方式中确定出的子特征中并不能明显的体现出运动对象的相关信息，从而导致在进行视频查询时，即使运动对象与目标对象实际相关，但是也难以准确的确定出相关结果。故此，本申请实施例提供了一种根据运动时序信息确定子特征的方式，通过该方式可以强化子特征中运动对象的相关信息，以起到提高查询准确性的目的。

备选视频中可能包括多个视频分段，每个视频分段对应一个子特征，第t个视频分段对应第t个子特征，每个子特征都是基于运动时序信息确定的。每个视频片段对应的子特征的确定方式是类似的，接下来，为了便于介绍，将以第t个子特征为例对根据运动时序信息确定子特征的方式进行介绍。

在一种可能的实现方式中，所述方法包括：确定第t-1个子特征中运动对象在第t个视频分段中的目标运动趋势。由于备选视频中运动对象的运动时序信息可以体现运动对象在相邻视频分段间的运动趋势，而第t个视频分段和第t-1个视频分段属于在时间顺序上的相邻视频分段，故，根据运动时序信息可以确定出第t-1个子特征中运动对象在第t个视频分段中的目标运动趋势。

然后，根据所述目标运动趋势调整所述运动对象在所述第t-1个子特征的特征平面中对应的目标区域，使得目标区域移动到第t个视频分段中运动对象所在位置。接着，根据调整后的第t-1个子特征和第t个视频分段对应的图像特征，确定第t个子特征。由于在第t个视频分段中信息的基础上叠加了第t-1个视频分段中信息，而第t-1个视频分段中由携带了其前一个视频分段中信息，依次类推，相当于确定出的第t个子特征携带有用于体现备选视频从第1个视频分段至第t个视频分段中信息的特征，从而强化子特征中运动对象的相关信息，有助于提高查询准确性。

需要说明的是，采用传统方式，不考虑运动对象的运动趋势，直接采用卷积长短期记忆神经网络(ConvLSTM)来确定第t个子特征。卷积长短期记忆神经网络参见图3所示，其中，x_t表示第t个视频分段对应的图像特征，h_t-1表示第t-1个子特征，h_t表示第t个子特征。即传统方式中所采用的卷积长短期记忆神经网络直接利用第t个视频分段对应的图像特征x_t和第t-1个子特征h_t-1确定第t个子特征h_t。

而本申请实施例提供的根据运动时序信息确定子特征的方式中，所采用的是错位长短期记忆神经网络，错位长短期记忆神经网络是对传统卷积长短期记忆神经网络进行的改造，错位长短期记忆神经网络可以参见图4所示。其中，x_t表示第t个视频分段对应的图像特征，h_t-1表示第t-1个子特征，h_t表示第t个子特征，h’_t-1表示根据目标运动趋势调整后的第t-1个子特征。即本申请实施例所采用的错位长短期记忆神经网络例利用第t个视频分段对应的图像特征x_t和调整后的第t-1个子特征h’_t-1确定第t个子特征h_t。

接下来，将详细介绍如何根据目标运动趋势调整运动对象在第t-1个子特征的特征平面中对应的目标区域。

在一种可能的实现方式中，可以在特征平面上定义一些控制点，这些控制点均匀的分布在特征平面上，例如在图2当中，有9个控制点，分别坐落在三条横线和三条竖线的交点处。利用{(x₁,y₁),…,(x_n,y_n)}来表示定义好的n个控制点，则特征平面的计算公式为：

其中，S(x,y)表示特征平面，是径向基函数，w_i,v₁,v₂,v₃都是插值参数，(x_i,y_i)为第i个控制点的坐标。

定义好控制点之后，使用错位长短期记忆神经网络的一个卷积层来预测每个控制点的偏移值(dx_i；dy_i)。对于第i个控制点(x_i；y_i)，偏移之后的位置变成(x_i+dx_i；y_i+dy_i)。移动控制点的同时，控制点附近的区域也会随之移动。因此，移动目标区域相当于移动目标区域中的控制点，为了调整目标区域，可以先根据目标运动趋势确定目标区域内的控制点对应的偏移值，然后，根据所述偏移值移动所述控制点，从而实现调整运动对象在第t-1个子特征的特征平面中对应的目标区域。

在这种情况下，错位长短期记忆神经网络的公式表示如下：

其中，d_t-1表示目标区域内的控制点对应的偏移值，x_t是第t个视频分段对应的图像特征，作为错位长短期记忆神经网络的输入，h_t-1是第t-1个子特征；是根据偏移值d_t-1移动控制点后得到的第t-1个子特征，是根据偏移值d_t-1移动控制点后得到的第t-1个子特征，与共同构成子特征，warp()是错位函数；σ()表示sigmoid激活函数；i_t、g_t、f_t、和o_t分别是错位长短期记忆神经网络的输入门、新输入、遗忘门和输出门；w_xd、w_hd、w_xi、w_hi、w_xg、w_hg、w_xf、w_hf、w_xo、w_ho、b_d、b_i、b_g、b_f、b_o都是模型参数；h_t为得到的第t个子特征，作为错位长短期记忆神经网络模型的输出，表示同或运算。

在视频分段中，子特征除了包括能够体现出运动对象的相关信息，还会包括其他信息，例如视频背景等与运动对象明显不相关的信息等。故为了减少计算与目标对象是否相关时的计算量，可以预先去除这部分区域的信息，保留可能与目标对象相关区域的信息，以提高视频查询效率。

针对第t个子特征，S203的一种可能实现方式为，通过去除与目标对象明显不相关的信息的方式，确定在第t个子特征的特征平面与所述目标对象具有关联关系的目标区域。

在本实施例中，具体可以通过以下方式确定目标区域以及目标区域的区域特征。在一个视频分段当中，均匀的放置一些方框，这些方框可以覆盖视频分段当中所有的位置，而且这些方框有一定的重叠。然后，采用区域提案网络(RPN)判断该方框中所对应的区域是否与目标对象具有关联关系，从而确定出目标区域。其中，确定目标区域的公式如下所示：

p_k＝PRN(h_i)

其中，p_k是第k个目标区域，h_i是第i个子特征，PRN为区域提案函数。

在确定出目标区域后，根据第t个子特征确定目标区域对应的区域特征，从而根据所述区域特征以及所述媒体特征，确定第t个视频分段中的所述运动对象是否与所述目标对象相关。其中，确定目标区域对应的区域特征的公式如下所示：

其中，是目标区域的区域特征，p_k是第k个目标区域，h_i是第i个子特征，ROI是区域池化函数。

当待查媒体为视频格式即为待查视频时，可能目标对象并不会在待查视频的每一视频帧中都有出现，或者在一些视频帧中较为模糊或不完整。在这种情况下，如果根据待查视频对应的视频特征作为查询依据的话，可能会由于该视频特征中携带有较多其他信息而增加计算量，或降低查询准确度。例如匹配出的备选视频中视频背景内容与待查视频的视频背景内容相近而没有目标对象的情况。为了避免这类情况发生，并降低计算量，本申请实施例采用了一种注意力加权的方式来确定出更能体现目标对象相关信息的待查视频特征。

在确定第t个视频分段中的所述运动对象是否与所述目标对象相关的过程中，首先，通过注意力模型确定所述待查视频中视频帧内容与目标对象间的权重，通常情况下，待查视频中视频帧内容中包括的目标对象越完整或越清晰，则得到的待查视频中视频帧内容与目标对象间的权重越大。例如，可以根据待查视频与备选视频中目标区域的相关性确定权重，其中，待查视频与备选视频中目标区域的相关性，以及权重的计算公式为：

其中，表示待查视频的视频特征，表示目标区域的区域特征，e_k,j表示和相关性的向量，avg是取平均值函数，α_k,j是待查视频中视频帧内容与目标对象间的权重，W^q、W^r、ω、b_p和b_s都是模型参数，而ω^T是ω的转置。

这样，在根据确定的权重确定所述待查视频的待查视频特征时，降低了目标对象之外的其他信息对待查视频特征的影响，强化了待查视频特征中目标对象的相关信息，便于更加准确的根据区域特征以及待查视频特征，确定第t个视频分段中的运动对象是否与目标对象相关。

其中，待查视频特征的计算公式为：

其中，是加权之后的待查视频特征，α_k,j是待查视频中视频帧内容与目标对象间的权重，是待查视频的视频特征。

例如，待查视频包括20个视频帧，其中，第5个视频帧包括了完整且清晰的目标对象，而其余个视频帧中目标对象没有出现，或者较为模糊或不完整。那么，通过注意力模型确定各个视频帧与目标对象间的权重可能分别为：第5个视频帧对应的权重为0.9，其余视频帧对应的权重为0.1。则在根据确定的权重确定所述待查视频的待查视频特征时，由于第5个视频帧对应的权重明显高于其余视频帧对应的权重，得到的待查视频特征主要体现的是第5个视频帧中目标对象的相关信息，降低了目标对象之外的其他信息对待查视频特征的影响，强化了待查视频特征中目标对象的相关信息，便于更加准确的视频分段中的运动对象是否与目标对象相关。

需要说明的是，得到待查视频特征和目标区域的区域特征f_i ^p之后，可以将这两个特征拼接在一起，然后经过两个卷积层和两个全连接层，分别输出目标区域是否和待查视频相关，以及与待查视频相关的目标区域精确的区域坐标。

根据区域特征以及待查视频特征，确定第t个视频分段中的运动对象是否与目标对象相关的计算公式，以及与待查视频相关的目标区域精确的区域坐标的计算公式为：

l＝softmax[FC(Conv(f))]

bb＝FC(Conv(f))

其中，f为将和f_i ^p这两个特征进行拼接得到的特征，l是分类得到的相关还是不相关的类别，bb是精确之后的区域坐标，Conv代表卷积层，FC代表全连接层，softmax是Softmax激活函数。

接下来，将结合实际应用场景对本申请实施例提供的视频查询方法进行介绍。在该应用场景中，待查媒体为待查视频(例如发布的短视频)，用户希望通过查询该待查视频确定备选视频中是否存在拷贝该短视频的情况。为此，可以通过本申请实施例提供的方法进行视频查询。

利用本申请实施例提供的方法进行视频查询主要包括视频特征提取、长视频错位累积、区域提案、注意力加权和区域精确化五个部分。该视频查询方法的流程结构图参见图5所示。

第一部分视频特征提取：

对于给定一个待查视频以及一个备选视频，首先分别对待查视频和备选视频进行特征提取。例如，可以分别对查询视频和备选视频进行分段，分别得到多个视频分段，然后利用三维卷积网络分别对备选视频和待查视频的各个视频分段进行特征提取，得到各个视频片段分别对应的图像特征。

第二部分长视频错位累积：

由于备选视频中包括运动对象，为了准确的捕捉到运动中运动对象所体现的信息，可以采用错位长短期记忆神经网络(WarpLSTM)来汇集备选视频当中的运动时序信息，根据运动时序信息对备选视频的各个视频片段的子特征进行错位调整，以便在确定第t个子特征时，可以根据调整后的第t-1个子特征和提取到的第t个视频分段对应的图像特征确定第t个子特征。

第三部分区域提案：

利用区域提案网络(RPN)选出备选视频中可能和待查视频中目标对象具有关联关系的目标区域，通过区域池化的方式确定目标区域对应的区域特征。

第四部分注意力加权：

针对待查视频，为了确定出更能体现目标对象相关信息的待查视频特征，可以对待查视频进行注意力加权，得到加权后的待查视频特征。

第五部分区域精确化：

得到待查视频特征和目标区域的区域特征之后，可以将这两个特征拼接在一起，然后经过卷积层和两个全连接层与备选视频进行比对，分别输出目标区域是否和待查视频相关的类别，以及与待查视频相关的目标区域精确的区域坐标，从而精确化定位出备选视频中哪些视频片段的哪些区域与待查视频相关。其中，输出目标区域是否和待查视频相关的过程可以称为分类过程，输出与待查视频相关的目标区域精确的区域坐标可以通过对目标区域进行标识的方式体现，例如为目标区域设置醒目颜色的外框，此时，输出与待查视频相关的目标区域精确的区域坐标的过程可以称为框回归。

基于前述实施例提供的一种视频查询方法，本申请实施例还提供一种视频查询装置，参见图6a，所述装置包括获取单元601、第一确定单元602和第二确定单元603：

所述获取单元601，用于获取待查媒体的媒体特征和备选视频对应的图像特征；所述待查媒体包括目标对象，所述备选视频中包括运动对象；

所述第一确定单元602，用于根据所述图像特征以及备选视频中所述运动对象的运动时序信息，确定所述备选视频的视频特征；

所述第二确定单元603，用于根据所述媒体特征以及所述视频特征，确定所述备选视频中的所述运动对象是否与所述目标对象相关。

在一种可能的实现方式中，所述视频特征包括所述备选视频中不同视频分段对应的子特征；第t个视频分段对应第t个子特征，所述运动时序信息体现所述运动对象在相邻视频分段间的运动趋势；

所述第一确定单元602，具体用于：

确定第t-1个子特征中运动对象在第t个视频分段中的目标运动趋势；

根据所述目标运动趋势调整所述运动对象在所述第t-1个子特征的特征平面中对应的目标区域；

根据调整后的第t-1个子特征和第t个视频分段对应的图像特征，确定第t个子特征。

在一种可能的实现方式中，所述第一确定单元602，还用于：

根据所述目标运动趋势确定所述目标区域内的控制点对应的偏移值；

根据所述偏移值移动所述控制点，以调整所述运动对象在所述第t-1个子特征的特征平面中对应的目标区域。

在一种可能的实现方式中，所述第二确定单元603，具体用于：

确定在第t个子特征的特征平面与所述目标对象具有关联关系的目标区域；

根据第t个子特征确定所述目标区域对应的区域特征；

根据所述区域特征以及所述媒体特征，确定第t个视频分段中的所述运动对象是否与所述目标对象相关。

在一种可能的实现方式中，所述第二确定单元603，还用于：

通过注意力模型确定所述待查视频中视频帧内容与目标对象间的权重；

根据确定的权重确定所述待查视频的待查视频特征；

根据所述区域特征以及所述待查视频特征，确定第t个视频分段中的所述运动对象是否与所述目标对象相关。

在一种可能的实现方式中，若第t个视频分段中的所述运动对象是否与所述目标对象相关，参见图6b，所述装置还包括标识单元604：

所述标识单元604，用于在所述备选视频的第t个视频分段中对所述目标区域进行标识。

本申请实施例还提供了一种用于视频查询的设备，下面结合附图对用于视频查询的设备进行介绍。请参见图7所示，本申请实施例提供了一种用于视频查询的设备700，该设备700还可以是终端设备，该终端设备可以为包括手机、平板电脑、个人数字助理(PersonalDigital Assistant，简称PDA)、销售终端(Point of Sales，简称POS)、车载电脑等任意智能终端，以终端设备为手机为例：

图7示出的是与本申请实施例提供的终端设备相关的手机的部分结构的框图。参考图7，手机包括：射频(Radio Frequency，简称RF)电路710、存储器720、输入单元730、显示单元740、传感器750、音频电路760、无线保真(wireless fidelity，简称WiFi)模块770、处理器780、以及电源790等部件。本领域技术人员可以理解，图7中示出的手机结构并不构成对手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图7对手机的各个构成部件进行具体的介绍：

RF电路710可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，给处理器780处理；另外，将设计上行的数据发送给基站。通常，RF电路710包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(Low NoiseAmplifier，简称LNA)、双工器等。此外，RF电路710还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯***(Global System of Mobile communication，简称GSM)、通用分组无线服务(GeneralPacket Radio Service，简称GPRS)、码分多址(Code Division Multiple Access，简称CDMA)、宽带码分多址(Wideband Code Division Multiple Access，简称WCDMA)、长期演进(Long Term Evolution，简称LTE)、电子邮件、短消息服务(Short Messaging Service，简称SMS)等。

存储器720可用于存储软件程序以及模块，处理器780通过运行存储在存储器720的软件程序以及模块，从而执行手机的各种功能应用以及数据处理。存储器720可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器720可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

输入单元730可用于接收输入的数字或字符信息，以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地，输入单元730可包括触控面板731以及其他输入设备732。触控面板731，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板731上或在触控面板731附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触控面板731可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器780，并能接收处理器780发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板731。除了触控面板731，输入单元730还可以包括其他输入设备732。具体地，其他输入设备732可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元740可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元740可包括显示面板741，可选的，可以采用液晶显示器(Liquid CrystalDisplay，简称LCD)、有机发光二极管(Organic Light-Emitting Diode，简称OLED)等形式来配置显示面板741。进一步的，触控面板731可覆盖显示面板741，当触控面板731检测到在其上或附近的触摸操作后，传送给处理器780以确定触摸事件的类型，随后处理器780根据触摸事件的类型在显示面板741上提供相应的视觉输出。虽然在图7中，触控面板731与显示面板741是作为两个独立的部件来实现手机的输入和输入功能，但是在某些实施例中，可以将触控面板731与显示面板741集成而实现手机的输入和输出功能。

手机还可包括至少一种传感器750，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板741的亮度，接近传感器可在手机移动到耳边时，关闭显示面板741和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路760、扬声器761，传声器762可提供用户与手机之间的音频接口。音频电路760可将接收到的音频数据转换后的电信号，传输到扬声器761，由扬声器761转换为声音信号输出；另一方面，传声器762将收集的声音信号转换为电信号，由音频电路760接收后转换为音频数据，再将音频数据输出处理器780处理后，经RF电路710以发送给比如另一手机，或者将音频数据输出至存储器720以便进一步处理。

WiFi属于短距离无线传输技术，手机通过WiFi模块770可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图7示出了WiFi模块770，但是可以理解的是，其并不属于手机的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器780是手机的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器720内的软件程序和/或模块，以及调用存储在存储器720内的数据，执行手机的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器780可包括一个或多个处理单元；优选的，处理器780可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作***、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器780中。

手机还包括给各个部件供电的电源790(比如电池)，优选的，电源可以通过电源管理***与处理器780逻辑相连，从而通过电源管理***实现管理充电、放电、以及功耗管理等功能。

尽管未示出，手机还可以包括摄像头、蓝牙模块等，在此不再赘述。

在本实施例中，该终端设备所包括的处理器780还具有以下功能：

本申请实施例提供的用于视频查询的设备可以是服务器，请参见图8所示，图8为本申请实施例提供的服务器800的结构图，服务器800可因配置或性能不同而产生比较大的差异，可以包括一个或一个以***处理器(Central Processing Units，简称CPU)822(例如，一个或一个以上处理器)和存储器832，一个或一个以上存储应用程序842或数据844的存储介质830(例如一个或一个以上海量存储设备)。其中，存储器832和存储介质830可以是短暂存储或持久存储。存储在存储介质830的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器822可以设置为与存储介质830通信，在服务器800上执行存储介质830中的一系列指令操作。

服务器800还可以包括一个或一个以上电源826，一个或一个以上有线或无线网络接口850，一个或一个以上输入输出接口858，和/或，一个或一个以上操作***841，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

上述实施例中由服务器所执行的步骤可以基于该图8所示的服务器结构。

其中，CPU 822用于执行如下步骤：

本申请实施例提供一种计算机可读存储介质，所述计算机可读存储介质用于存储程序代码，所述程序代码用于执行前述实施例所述的视频查询方法。

本申请的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

应当理解，在本申请中，“至少一个(项)”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，用于描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：只存在A，只存在B以及同时存在A和B三种情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b或c中的至少一项(个)，可以表示：a，b，c，“a和b”，“a和c”，“b和c”，或“a和b和c”，其中a，b，c可以是单个，也可以是多个。

在本申请所提供的几个实施例中，应该理解到，所揭露的***，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种视频查询方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述视频特征包括所述备选视频中不同视频分段对应的子特征；第t个视频分段对应第t个子特征，所述运动时序信息体现所述运动对象在相邻视频分段间的运动趋势；

在所述根据所述图像特征以及备选视频中所述运动对象的运动时序信息，确定所述备选视频的视频特征的过程中，第t个子特征通过下列方式确定：

3.根据权利要求2所述的方法，其特征在于，所述根据所述目标运动趋势调整所述运动对象在所述第t-1个子特征的特征平面中对应的目标区域，包括：

4.根据权利要求2所述的方法，其特征在于，所述根据所述媒体特征以及所述视频特征，确定所述备选视频中的所述运动对象是否与所述目标对象相关，包括：

根据第t个子特征确定所述目标区域对应的区域特征；

5.根据权利要求4所述的方法，其特征在于，所述待查媒体为待查视频，所述根据所述区域特征以及所述媒体特征，确定第t个视频分段中的所述运动对象是否与所述目标对象相关，包括：

根据确定的权重确定所述待查视频的待查视频特征；

6.根据权利要求4或5所述的方法，其特征在于，若第t个视频分段中的所述运动对象是否与所述目标对象相关，所述方法还包括：

在所述备选视频的第t个视频分段中对所述目标区域进行标识。

7.一种视频查询装置，其特征在于，所述装置包括获取单元、第一确定单元和第二确定单元：

8.根据权利要求7所述的装置，其特征在于，所述视频特征包括所述备选视频中不同视频分段对应的子特征；第t个视频分段对应第t个子特征，所述运动时序信息体现所述运动对象在相邻视频分段间的运动趋势；

所述第一确定单元，具体用于：

9.根据权利要求8所述的装置，其特征在于，所述第一确定单元，还用于：

10.根据权利要求8所述的装置，其特征在于，所述第二确定单元，具体用于：

根据第t个子特征确定所述目标区域对应的区域特征；

11.根据权利要求10所述的装置，其特征在于，所述第二确定单元，还用于：

根据确定的权重确定所述待查视频的待查视频特征；

12.根据权利要求10或11所述的装置，其特征在于，若第t个视频分段中的所述运动对象是否与所述目标对象相关，所述装置还包括标识单元：

所述标识单元，用于在所述备选视频的第t个视频分段中对所述目标区域进行标识。

13.一种用于视频查询的设备，其特征在于，所述设备包括处理器以及存储器：

所述处理器用于根据所述程序代码中的指令执行权利要求1-6所述的视频查询方法。

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储程序代码，所述程序代码用于执行权利要求1-6所述的视频查询方法。