CN104731944A

CN104731944A - 视频搜索方法及装置

Info

Publication number: CN104731944A
Application number: CN201510148886.9A
Authority: CN
Inventors: 邹明双
Original assignee: Nubia Technology Co Ltd
Current assignee: Nubia Technology Co Ltd
Priority date: 2015-03-31
Filing date: 2015-03-31
Publication date: 2015-06-24

Abstract

本发明公开了一种视频搜索方法，该视频搜索方法包括以下步骤：将视频源文件分解为每一视频帧，并记录每一视频帧对应的时间点；根据预设的搜索特征对每一视频帧进行比对，获取包含所述搜索特征的所有视频帧对应的时间点集合；基于预设条件将所述时间点集合划分为若干时间段，根据划分的若干时间段在所述视频源文件中截取对应的视频片段。本发明还公开一种视频搜索装置。本发明由于无需用户手动进行截取操作，且对视频源文件中每一帧视频均进行了比对操作，能简单快速且准确的搜索截取包含用户设定的搜索特征的视频片段。

Description

视频搜索方法及装置

技术领域

本发明涉及视频技术领域，尤其涉及一种视频搜索方法及装置。

背景技术

目前，一个视频文件里往往包含有用户喜欢的场景或人物的视频片段，用户若只想将视频文件里包含这些场景或人物的视频片段进行截取保存，现有技术中可以通过软件手动在视频文件里进行截取生成视频片段，但如果想把视频文件里所有包含用户喜欢的场景或人物的视频片段全部截取下来则需要进行多次手动截取操作，且需要不断地手动定位在视频文件里截取的开始、结束位置，操作复杂且耗费大量时间。

发明内容

本发明的主要目的在于提出一种视频搜索方法及装置，旨在简单快速地搜索截取符合条件的视频片段。

为实现上述目的，本发明提供的一种视频搜索方法，所述视频搜索方法包括以下步骤：

将视频源文件分解为每一视频帧，并记录每一视频帧对应的时间点；

根据预设的搜索特征对每一视频帧进行比对，获取包含所述搜索特征的所有视频帧对应的时间点集合；

基于预设条件将所述时间点集合划分为若干时间段，根据划分的若干时间段在所述视频源文件中截取对应的视频片段。

优选地，所述基于预设条件将所述时间点集合划分为若干时间段，根据划分的若干时间段在所述视频源文件中截取对应的视频片段的步骤包括：

将所述时间点集合中相邻时间点之差小于第一预设值的时间点划分至同一时间段，将所述时间点集合中相邻时间点之差大于第一预设值的时间点划分至不同的时间段；

将每一时间段中的最小时间点作为起始点，每一时间段中的最大时间点作为结束点在所述视频源文件中截取所述起始点与结束点之间对应的视频片段。

优选地，所述基于预设条件将所述时间点集合划分为若干时间段，根据划分的若干时间段在所述视频源文件中截取对应的视频片段的步骤还包括：

将若干时间段中最大时间点与最小时间点之间的差值小于第二预设值的时间段删除。

优选地，所述搜索特征包括预设的文字信息、声音信息和/或图片信息。

优选地，所述根据预设的搜索特征对每一视频帧进行比对，获取包含所述搜索特征的所有视频帧对应的时间点集合的步骤包括：

基于尺度不变特征转换算法，并根据预设的搜索特征对每一视频帧进行比对，获取由每一包含所述搜索特征的视频帧对应的时间点组成的时间点集合。

此外，为实现上述目的，本发明还提出一种视频搜索装置，所述视频搜索装置包括：

分解模块，用于将视频源文件分解为每一视频帧，并记录每一视频帧对应的时间点；

比对模块，用于根据预设的搜索特征对每一视频帧进行比对，获取包含所述搜索特征的所有视频帧对应的时间点集合；

划分截取模块，用于基于预设条件将所述时间点集合划分为若干时间段，根据划分的若干时间段在所述视频源文件中截取对应的视频片段。

优选地，所述划分截取模块包括：

划分单元，用于将所述时间点集合中相邻时间点之差小于第一预设值的时间点划分至同一时间段，将所述时间点集合中相邻时间点之差大于第一预设值的时间点划分至不同的时间段；

截取单元，用于将每一时间段中的最小时间点作为起始点，每一时间段中的最大时间点作为结束点在所述视频源文件中截取所述起始点与结束点之间对应的视频片段。

优选地，所述划分截取模块还用于：

优选地，所述比对模块具体用于：

本发明提出的视频搜索方法及装置，通过将视频源文件中每一帧视频的时间点进行记录，并将每一帧视频与预设的搜索特征进行比对，获取包含所述搜索特征的所有帧视频对应的时间点集合，再按照预设条件将所述时间点集合划分为若干时间段，即可在所述视频源文件中搜索截取所有包含所述搜索特征的视频片段，由于无需用户手动进行截取操作，且对视频源文件中每一帧视频均进行了比对操作，能简单快速且准确的搜索截取包含用户设定的搜索特征的视频片段。

附图说明

图1为实现本发明各个实施例的终端的物理结构示意图；

图2为本发明视频搜索方法一实施例的流程示意图；

图3为图2中步骤S30的细化流程示意图；

图4为本发明视频搜索装置一实施例的功能模块示意图；

图5为图4中划分截取模块03的细化功能模块示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

现在将参考附图描述实现本发明各个实施例的终端。在后续的描述中，使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本发明的说明，其本身并没有特定的意义。因此，"模块"与"部件"可以混合地使用。

图1为实现本发明各个实施例的终端的物理结构示意图。

该终端1100包括：

处理器1110，是一个通用中央处理器(CPU)，微处理器，特定应用集成电路(application-specific integrated circuit，ASIC)，或一个或多个集成电路。

存储器1120，用于完成终端的各种软件程序的存储、数据的存储，以及软件程序的运行等。该存储器1120可以是RAM，EPROM，SSD，SD卡，HD硬盘中的一种或者多种。本发明实施例提供的视频文件和特效，也在存储器1120上运行和存储。

传感器1130，用于测量和记录数据，该传感器1130可以包括下列中的任一种或多种：摄像头、GPS模块、重力传感器、加速度传感器、距离传感器、光学传感器、麦克风、扬声器。

收发电路1140，用于提供通信功能，包括蜂窝网络(GSM/UMTS/LTE/CDMA等)、无线局域网(WLAN)、近距离通信(NFC)、蓝牙等中的一种或者多种。

电源1150，用于提供直流供电，或者将交流供电转换成直流供电。

I/O接口电路1160，用于提供对外接口。可选地，该I/O接口电路1160可以包括下列接口中的任一种或多种：USB接口、SD卡接口、按键接口。

显示器1170，可以是终端的显示屏和/或触摸屏，在显示屏的显示视频文件和特效；触摸屏用于接收用户触摸操作并转换成用户操作指令。

I/O控制电路1180，用于控制各种输入输出电路部件之间的数据交互，特别地，例如处理器1110与I/O接口电路1160、显示器1170之间的数据交互。

基于上述终端硬件结构以及通信***，提出本发明视频搜索方法各个实施例。

如图2所示，在本发明视频搜索方法的一实施例中，该视频搜索方法包括：

步骤S10，将视频源文件分解为每一视频帧，并记录每一视频帧对应的时间点；

本实施例中，首先对用户需要搜索的视频源文件进行分解转化，将整个视频源文件分解为每一视频帧，这样，由于每一视频帧均为图片格式的数据，更加方便后续进行比对。同时，每一视频帧均对应有一时间刻度即时间点，将每一视频帧对应的时间点进行记录，并将每一视频帧及其对应的时间点进行缓存。

步骤S20，根据预设的搜索特征对每一视频帧进行比对，获取包含所述搜索特征的所有视频帧对应的时间点集合；

将缓存中的每一视频帧与预设的搜索特征进行比对，其中，预设的搜索特征可以是接收的用户输入的搜索特征，也可以是用户预先设定的搜索特征，而搜索特征是用户需要截取的视频片段中必须包含的特征，该搜索特征可以是用户需要搜索的文字信息、声音信息或图片信息，也可以为其他特征信息。根据比对结果将包含所述搜索特征的视频帧作为符合用户搜索要求的视频帧，并获取由每一包含所述搜索特征的视频帧对应的时间点组成的时间点集合。

需要说明的是，本实施例中用于比对的搜索特征既可以是文字信息、声音信息、图片信息中的一种信息，也可以是文字信息、声音信息、图片信息中的多种信息。当用户输入文字信息、声音信息、图片信息中的一种信息作为搜索特征时，只要视频帧中包含了用户输入的一种信息，则将该视频帧作为符合用户搜索要求的视频帧；而当用户同时输入多种搜索特征如同时输入了文字信息、声音信息和图片信息时，只有当视频帧包含用户输入的所有搜索特征如同时包含有用户输入的文字信息、声音信息和图片信息时，才将该视频帧作为符合用户搜索要求的视频帧，否则，将该视频帧作为不符合用户搜索要求的视频帧，过滤丢弃。其中，用户输入的声音信息可以是声音片段、录音文件等，图片信息可以是人脸截图、地点或场景截图等。

步骤S30，基于预设条件将所述时间点集合划分为若干时间段，根据划分的若干时间段在所述视频源文件中截取对应的视频片段。

按照预设条件对所述时间点集合进行分析筛选，如通过设置所述时间点集合中相邻时间点之差、相邻时间点的数量等参数阈值的方式来划分若干具有开始、结束区间的时间段，然后，根据划分的若干时间段在所述视频源文件中截取对应的视频片段。由于划分的每一时间段中均包含有与符合所述搜索特征的视频帧对应的时间点，因此，根据划分的若干时间段在所述视频源文件中截取的视频片段中均包含有符合所述搜索特征的视频帧，即在所述视频源文件中截取的视频片段均包含所述搜索特征，符合用户的搜索要求。

本实施例通过将视频源文件中每一帧视频的时间点进行记录，并将每一帧视频与预设的搜索特征进行比对，获取包含所述搜索特征的所有帧视频对应的时间点集合，再按照预设条件将所述时间点集合划分为若干时间段，即可在所述视频源文件中搜索截取所有包含所述搜索特征的视频片段，由于无需用户手动进行截取操作，且对视频源文件中每一帧视频均进行了比对操作，能简单快速且准确的搜索截取包含用户设定的搜索特征的视频片段。

进一步地，如图3所示，上述步骤S30可以包括：

步骤S301，将所述时间点集合中相邻时间点之差小于第一预设值的时间点划分至同一时间段，将所述时间点集合中相邻时间点之差大于第一预设值的时间点划分至不同的时间段；

步骤S302，将每一时间段中的最小时间点作为起始点，每一时间段中的最大时间点作为结束点在所述视频源文件中截取所述起始点与结束点之间对应的视频片段。

在对所述时间点集合进行分析筛选时，可将所述时间点集合中的所有时间点按先后顺序进行排序，通过将所述时间点集合中相邻时间点之差小于第一预设值的时间点划分至同一时间段，将所述时间点集合中相邻时间点之差大于第一预设值的时间点划分至不同的时间段来将所述时间点集合划分为若干时间段。

如从所述时间点集合中首个时间点也即最小时间点开始，选定首个时间点为开始点，依次用后面一个时间点减去前面的时间点，若前后相邻时间点之间的时间差值小于第一预设值n1，则继续用后一时间点进行时间差值的比较，若前后相邻时间点之间的时间差值大于第一预设值n1，则将当前时间点标记为结束点，将首个时间点、当前时间点及两者中间的时间点均划分至同一时间段。然后将当前时间点的后面一个时间点标记为另一时间段的开始点，再用另一时间段开始点的后一时间点进行时间差值比较，依次类推比较，可将所述时间点集合划分为若干不同的时间段。

将每一时间段中的最小时间点作为起始点，每一时间段中的最大时间点作为结束点即可在所述视频源文件中截取所述起始点与结束点之间对应的视频片段。本实施例中，通过将所述时间点集合中相邻时间点之差与第一预设值进行比较的方式来划分若干具有开始、结束区间的时间段，使得最终根据不同时间段对应截取的视频片段中将相邻的符合用户搜索要求的视频帧包含在同一视频片段中，将时间间隔过大的符合用户搜索要求的视频帧划入不同的视频片段，更加有效地对视频源文件进行搜索截取，提升了截取的视频片段的可观看性。

进一步地，在其他实施例中，在上述步骤S30中，还可将若干时间段中最大时间点与最小时间点之间的差值小于第二预设值的时间段删除。

将所述时间点集合划分为若干时间段之后，进一步地，还可对划分的时间段进行筛选，将若干时间段中最大时间点与最小时间点之间的差值小于第二预设值n2的时间段删除，这样，能将只包含少量视频帧的时间段过滤掉，避免最终截取的视频片段时长过短，产生无意义的视频片段，提高了视频截取的效率。

进一步地，在其他实施例中，上述步骤S20可以包括：

本实施例中，在接收到预设的搜索特征如文字信息、声音信息或图片信息后，利用尺度不变特征转换(Scale-invariant feature transform，简称SIFT)算法来对分解的每一视频帧进行比对，获取由每一包含所述搜索特征的视频帧对应的时间点组成的时间点集合。其中，当用户同时输入多种搜索特征如同时输入了文字信息、声音信息和图片信息时，只有当视频帧包含用户输入的所有搜索特征如同时包含有用户输入的文字信息、声音信息和图片信息时，才将该视频帧作为符合用户搜索要求的视频帧，否则，将该视频帧作为不符合用户搜索要求的视频帧，过滤丢弃。

本实施例中对分解的每一视频帧进行比对所用的SIFT算法是一种电脑视觉的算法，用来侦测与描述影像中的局部性特征，它在空间尺度中寻找极值点，并提取出其位置、尺度、旋转不变量。其应用范围包含物体辨识、机器人地图感知与导航、影像缝合、3D模型建立、手势辨识、影像追踪和动作比对。局部影像特征的描述与侦测可以帮助辨识物体，SIFT特征是基于物体上的一些局部外观的兴趣点而与影像的大小和旋转无关。对于光线、噪声、些微视角改变的容忍度也相当高。基于这些特性，它们是高度显著而且相对容易撷取，在母数庞大的特征数据库中，很容易辨识物体而且鲜有误认。使用SIFT特征描述对于部分物体遮蔽的侦测率也相当高，甚至只需要3个以上的SIFT物体特征就足以计算出位置与方位。在现今的电脑硬件速度下和小型的特征数据库条件下，辨识速度可接近即时运算。SIFT特征的信息量大，适合在海量数据库中快速准确匹配。

SIFT算法的实质是在不同的尺度空间上查找关键点，并计算出关键点的方向。SIFT所查找到的关键点是一些十分突出，不会因光照，仿射变换和噪音等因素而变化的点，如角点、边缘点、暗区的亮点及亮区的暗点等。

SIFT算法具体可分解为如下四步：

1、尺度空间极值检测：搜索所有尺度上的图像位置。通过高斯微分函数来识别潜在的对于尺度和旋转不变的兴趣点。

2、关键点定位：在每个候选的位置上，通过一个拟合精细的模型来确定位置和尺度。关键点的选择依据于它们的稳定程度。

3、方向确定：基于图像局部的梯度方向，分配给每个关键点位置一个或多个方向。所有后面的对图像数据的操作都相对于关键点的方向、尺度和位置进行变换，从而提供对于这些变换的不变性。

4、关键点描述：在每个关键点周围的邻域内，在选定的尺度上测量图像局部的梯度。这些梯度被变换成一种表示，这种表示允许比较大的局部形状的变形和光照变化。

本实施例中利用SIFT算法适合在海量数据库中快速准确匹配的特性来对分解的每一视频帧进行比对，极大地提升了比对的准确度及速度，以便于后续简单快速且准确的搜索截取出包含用户设定的搜索特征的视频片段。

本发明进一步提供一种视频搜索装置，参照图4，在本发明视频搜索装置的一实施例中，该视频搜索装置包括：

分解模块01，用于将视频源文件分解为每一视频帧，并记录每一视频帧对应的时间点；

比对模块02，用于根据预设的搜索特征对分解模块01所分解的每一视频帧进行比对，获取包含所述搜索特征的所有视频帧对应的时间点集合；

需要说明的是，本实施例中用于比对的搜索特征既可以是文字信息、声音信息、图片信息中的一种信息，也可以是文字信息、声音信息、图片信息中的多种信息。当用户输入文字信息、声音信息、图片信息中的一种信息如文字信息作为搜索特征时，只要视频帧中包含了用户输入的文字信息，则将该视频帧作为符合用户搜索要求的视频帧；而当用户同时输入多种搜索特征如同时输入了文字信息、声音信息和图片信息时，只有当视频帧包含用户输入的所有搜索特征如同时包含有用户输入的文字信息、声音信息和图片信息时，才将该视频帧作为符合用户搜索要求的视频帧，否则，将该视频帧作为不符合用户搜索要求的视频帧，过滤丢弃。其中，用户输入的声音信息可以是声音片段、录音文件等，图片信息可以是人脸截图、地点或场景截图等。

划分截取模块03，用于基于预设条件将比对模块02比对获取的所述时间点集合划分为若干时间段，根据划分的若干时间段在所述视频源文件中截取对应的视频片段。

进一步地，如图5所示，上述划分截取模块03可以包括：

划分单元031，将所述时间点集合中相邻时间点之差小于第一预设值的时间点划分至同一时间段，将所述时间点集合中相邻时间点之差大于第一预设值的时间点划分至不同的时间段；

截取单元032，将每一时间段中的最小时间点作为起始点，每一时间段中的最大时间点作为结束点在所述视频源文件中截取所述起始点与结束点之间对应的视频片段。

进一步地，在其他实施例中，上述划分截取模块03还用于将若干时间段中最大时间点与最小时间点之间的差值小于第二预设值的时间段删除。

进一步地，在其他实施例中，上述比对模块02具体用于：

SIFT算法具体可分解为如下四步：

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种视频搜索方法，其特征在于，所述视频搜索方法包括，步骤：

2.如权利要求1所述的视频搜索方法，其特征在于，所述基于预设条件将所述时间点集合划分为若干时间段，根据划分的若干时间段在所述视频源文件中截取对应的视频片段，包括：

将每一时间段中的最小时间点作为起始点，每一时间段中的最大时间点作为结束点，在所述视频源文件中截取所述起始点与结束点之间对应的视频片段。

3.如权利要求2所述的视频搜索方法，其特征在于，所述基于预设条件将所述时间点集合划分为若干时间段，根据划分的若干时间段在所述视频源文件中截取对应的视频片段，还包括：

4.如权利要求1所述的视频搜索方法，其特征在于，所述搜索特征包括预设的文字信息、声音信息和/或图片信息。

5.如权利要求1至4中任一项所述的视频搜索方法，其特征在于，所述根据预设的搜索特征对每一视频帧进行比对，获取包含所述搜索特征的所有视频帧对应的时间点集合，包括：

6.一种视频搜索装置，其特征在于，所述视频搜索装置包括：

7.如权利要求6所述的视频搜索装置，其特征在于，所述划分截取模块包括：

8.如权利要求7所述的视频搜索装置，其特征在于，所述划分截取模块还用于：

9.如权利要求6所述的视频搜索装置，其特征在于，所述搜索特征包括预设的文字信息、声音信息和/或图片信息。

10.如权利要求6至9中任一项所述的视频搜索装置，其特征在于，所述比对模块具体用于：