CN104504162B

CN104504162B - 一种基于机器人视觉平台的视频检索方法

Info

Publication number: CN104504162B
Application number: CN201510028271.2A
Authority: CN
Inventors: 邵可佳
Original assignee: BEIJING ZFBOTS TECHNOLOGY Co Ltd
Current assignee: Beijing Guodian Ruiyuan Technology Development Co., Ltd
Priority date: 2015-01-21
Filing date: 2015-01-21
Publication date: 2018-12-04
Anticipated expiration: 2035-01-21
Also published as: CN104504162A

Abstract

本发明公开了一种基于机器人视觉平台的视频检索方法。该方法包括：双目摄像头采集视频片段，并将所述视频片段传送给视频处理***；视频处理***提取所述视频片段中每一个视频帧的视频指纹，具体的，将所述每一个视频帧的分辨率调整为320，检测视频帧中的特征点，围绕所述特征点检测局部图像，获取所述局部图像中所有可使用的最强特征点，将所述最强特征点用64维灰度和16维彩色来描述，并建立灰度和色彩视觉词库；依据灰度和色彩视觉词库，对所述视频指纹进行检索。本发明中，利用双目摄像头采集视频片段，提高了视频检索的准确性和灵活性，方便了用户进行视频自动获取与检索，通过建立视觉词库节省了每次检索的时间，提高了检索效率。

Description

一种基于机器人视觉平台的视频检索方法

技术领域

本发明涉及视频识别领域，尤其涉及一种基于机器人视觉平台的视频检索方法。

背景技术

机器人视觉平台，简称RobotEye，是一款机器人视觉检索***，采集机器人或智能设备采集视觉数据并反馈给机器人或智能设备有价值的知识信息。上个世纪90年代以来，出现了基于内容的视频分析和检索研究，其目的就是通过对视频内容进行计算机处理、分析和理解，建立结构和索引，以实现方便有效的视频信息获取。因此，基于内容的视频分析与检索研究从一开始就得到了广泛的重视，并取得了***的研究成果。

基于内容的视频分析从提出到现在，大致经历过3个阶段。第一阶段的研究主要集中在视频结构的分析和浏览上，其中涉及的关键技术有镜头边界检测、关键帧提取和场景的合并。第二阶段的研究主要围绕相似性检索展开，核心问题是特征的提取和特征空间距离的量度。前两个阶段的研究在一定程度上解决了视频检索和浏览的问题.并对视频管理和获取技术进行了有价值的探索。第三阶段的工作提出了面向语义的信息提取，这也是目前基于内容视频分析研究的热点。该阶段工作的根本目标是构建从底层特征到高层语义之间的桥梁，最终形成符合人类思维形式的信息索引和检索方式。

视频镜头的检测

镜头检测的关键是确定从镜头到镜头的转换处，并利用镜头之间的转换方式找到镜头图像之间的差别，镜头之间的转变包括切变、渐变和数字特技，针对不同的情况往往需要使用不同的算法。其中切变检测的算法最为成熟，渐变和数字特技的检测算法往往依赖一定的先验假设，技术还有待进一步完善。常用的自动镜头检测方法主要有以下几种：

(1)基于像素的镜头检测方法，利用视频两帧对应像素之间的差别来检测镜头边界，这种方法的缺点在于容易受到噪声的影响；

(2)基于像素平均值，方差等统计特征的镜头检测方法；

(3)基于视频特征的镜头检测方法，包括基于边缘特征的比较方法(提取视频每帧图像的边缘特征，通过检测边缘的突然变化来确定边界)，采用颜色比率特征(ColorRatioFeature)的方法、基于光流特征的方法等，这些方法的计算复杂性都比较大；

(4)基于直方图的镜头检测方法，此方法利用视频帧图像的灰度直方图或者颜色直方图的比较来检测边界，在镜头检测的精度和速度之间达到了较好的平衡，因此使用最为普遍。

关键帧提取

在镜头分割以后，为提供给用户浏览.一般要进行镜头关键帧(Key Frame)的提取工作。一个镜头的关键帧就是反映该镜头主要内容的一帧图像或若干帧图像。关键帧的选取一方面必须能够反映镜头中的主要事件，因而描述应尽可能完全律确；另一方面，为便于管理，数据量应尽量小，且计算不宜太复杂。关键帧提取方法主要包括以下几种：

(1)最简单的关键帧提取方法是提取镜头固定位置上的帧作为关键帧。例如第一帧、中间帧或最后一帧，或者相隔固定帧数采样一帧，这种方法操作简单，但不够灵活，因此不能有效地反映镜头内容；

(2)较为复杂的方法包括基于内容复杂性、镜头活动性等特征来提取关键帧，这些方法能较为准确地反映镜头内容；

(3)较理想的方法是通过分析视频视觉内容(颜色直方网、运动信息)随时间的变化情况，确定所需关键帧的数日，并按照一定的规则为镜头抽取关键帧；

(4)还有一种常用的关键帧提取方法是采用图像拼接(Mosaic)技术，也称全景图生成技术，即对分割得到的镜头各帧进行拼接，融合镜头中多帧的背景信息，生成一个全景的拼接图像束代表视频片断的内容，虽然全景图能较为全面地反映镜头内容，但由于算法对前景运动的敏感，这种技术的应用受到一定的限制，还有其他方法，例如用无监督聚类技术来选择关键帧等。

基于内容的相似性检索

目前的视频检索主要依赖视频内容的相似性，称相似性检索。相似性检索要求用户提交感兴趣的视频片断，检索过程将样本片断与视频库中的其它片断作相似性比较，并按相似性大小返回检索结果。视频相似性检索的研究主要解决两个问题：如何提取反映视频内容的特征；如何度量特征之间的相似性。

在特征提取方面，目前的视频检索技术主要是从传统的图像检索技术直接或问接地继承过来的，颜色、纹理和形状是图像检索中广泛使用的底层特征，相应地，它们也是视频检索中十分重要的特征。但是，视频并不是简单的同像序列，相邻视频帧之间表现出非常强的相关性。在近期研究中，越来越多的工作开始利用视频的运动信息为视频检索提供时序线索，视频检索中使用的运动信息主要有物体运动轨迹、块运动矢量的主分量、时序纹理和摄像机运动几种在相似性量度方面。相似性量度一般可以分为局部匹配和全局匹配两种，局部相似性量度方法利用了视频片断间的时序关系，但仅局限在简单的线性关系上，更有计算复杂的缺点；相反全局相似性量度方法具有索引信息少、检索速度快等优点。但却对视频的时序关系缺乏描述，因此，更复杂的相似性量度方法被提出，例如运动物体轨迹、基于流形假设的最短特征线等。

基于内容的视频检索一直是计算机科学研究的热点和难点问题。目前该技术仍然只是对底层特征的检索，与人们思维中的高层语义概念相去甚远，如何跨越语义鸿沟还需要做更多的研究。

发明内容

本发明提供了一种基于机器人视觉平台的视频检索方法，提高了视频检索的准确性和灵活性，方便了用户进行视频自动获取与检索，提高了检索的效率。

本发明的目的是通过以下技术方案实现的：

一种基于机器人视觉平台的视频检索方法，其特征在于，该方法包括：

双目摄像头采集视频片段，并将所述视频片段传送给视频处理***；

视频处理***提取所述视频片段中每一个视频帧的视频指纹，具体的，将所述每一个视频帧的分辨率调整为320，检测视频帧中的特征点，围绕所述特征点检测局部图像，获取所述局部图像中所有可使用的最强特征点，将所述最强特征点用64维灰度和16维彩色来描述，并建立灰度和色彩视觉词库；

依据灰度和色彩视觉词库，对所述视频指纹进行检索。

所述视频指纹为一组灰度值有差别的非连续的关键帧。

所述对视频指纹进行检索，包括：对视频中的关键帧、前后连续帧和指纹关键帧图片进行检索。

所述对视频中的关键帧、前后连续帧的检索包括，提取视频中的关键帧和前后连续帧，比较图像碎片的位移向量，出现差别的位移向量即为运动中的物体。

与现有技术相比，本发明实施例至少具有以下优点：

本发明实施例中，利用双目摄像头的灵活、精确的特点采集视频片段，提高了视频检索的准确性和灵活性，用户不需要复杂的操作也可以进行视频自动获取与检索，通过建立视觉词库，极大节约了用户每次检索的时间，提高了检索的效率，通过利用本方法进行视频的采集与检索，检索准确度高、灵活性大、操作方便。

附图说明

图1为本发明实施例提出的一种基于机器人视觉平台的视频检索方法的流程框图。

具体实施方式

如图1所示，为本发明实施例提出的一种基于机器人视觉平台的视频检索方法的结构框图，包括：

双目摄像头采集视频片段，并将视频片段传送给视频处理***；视频处理***提取视频片段中每一个视频帧的视频指纹，具体的，将每一个视频帧的分辨率调整为320，检测视频帧中的特征点，围绕特征点检测局部图像，获取局部图像中所有可使用的最强特征点，将最强特征点用64维灰度和16维彩色来描述，并建立灰度和色彩视觉词库；依据灰度和色彩视觉词库，对视频指纹进行检索。

视频指纹为一组灰度值有差别的非连续的关键帧。视频指纹提取的过程如下：

第一步，输入视频以一个固定的帧速率(每秒S帧)被重新采样，以应对帧速率的变化。

第二步中，每个重采样帧被转换为灰度，以使拟议的指纹识别方法足以抵抗色彩的变化，这种方法不仅适用于彩***的剪辑，也适用于经典的黑白电影。

第三步中，每个灰度帧的大小被调整，以使它的宽度和高度分别规范化为两个固定的值：X，Y。这一步骤使拟议的指纹识别方法能抵抗任何一个因素引起的大小变化。

第四步中，每个调整后的帧被分成了N行和M列，形成了N*M的矩阵。最后，矩阵中的每一块都被计算出它的质心梯度方向，进而每一帧都得到了一个三维的指纹向量。

上述的质心梯度方向为：在第k帧的坐标(x，y)位置处，用函数f(x，y，k)表示该点的亮度值，坐标(x，y)的梯度定义为：坐标(x，y)的f函数变化最快的方向就是梯度方向。

G_x＝f[x+1，y，k]-f[x-1，y，k]

G_y＝f[x，y+1，k]-f[x，y-1，k]

梯度矢量f也可用幅度函数r[x，y，k]和相位函数θ[x，y，k]来代替。

进一步的，对视频指纹进行检索，包括：检索视频中的关键帧、前后连续帧和指纹关键帧图片。视频指纹进行检索过程包括：

(1)指纹模化

在把拟议的指纹序列看作是一个平稳遍历过程的一次实现的前提下，指纹匹配有可能出现问题。我们注意到，相似的分析已用于水印检测，音频和视频指纹检测中。首先，一个指纹序列的所有质心{c[n，m，k]，1nN，1mM，1kK}是由它们的均值和标准差进一步规范的，规范后的指纹序列p是一个平均值为0，方差为1的随机过程。在满足各态历经的前提下，自相关函数R和Q可以由实际的指纹序列的时间平均自相关函数估计出，并且它们也用于在给定一个固定阈值时获得错误警报的概率。

(2)阈值T的确定

快速而易计算的指纹匹配可以用欧式距离平方获得，用μD和σD分别表示距离D的均值和标准差。在一般的假设下，距离D服从正态分布N(μD，σ^2D)。

检索视频中的关键帧、前后连续帧包括，提取视频中的关键帧和前后连续帧，比较图像碎片的位移向量，出现差别的位移向量即为运动中的物体，具体可参考OpenCV运动捕捉。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种基于机器人视觉平台的视频检索方法，其特征在于，该方法包括：

依据灰度和色彩视觉词库，对所述视频指纹进行检索；

其中，视频指纹提取的过程如下：

第一步，输入视频以一个固定的帧速率(每秒S帧)被重新采样，以应对帧速率的变化；

第二步中，每个重采样帧被转换为灰度，以使拟议的指纹识别方法足以抵抗色彩的变化；

第三步中，每个灰度帧的大小被调整，以使它的宽度和高度分别规范化为两个固定的值：X，Y；

第四步中，每个调整后的帧被分成了N行和M列，形成了N*M的矩阵；最后，矩阵中的每一块都被计算出它的质心梯度方向，进而每一帧都得到了一个三维的指纹向量；

所述质心梯度方向为：在第k帧的坐标(x，y)位置处，用函数f(x，y，k)表示该点的亮度值，坐标(x，y)的梯度定义为：坐标(x，y)的f函数变化最快的方向就是梯度方向；

Gx＝f[x+1，y，k]-f[x-1，y，k]

Gy＝f[x，y+1，k]-f[x，y-1，k]

所述对视频指纹进行检索，包括：检索视频中的关键帧、前后连续帧和指纹关键帧图片；

所述检索视频中的关键帧、前后连续帧包括，提取视频中的关键帧和前后连续帧，比较图像碎片的位移向量，出现差别的位移向量即为运动中的物体。

2.如权利要求1所述的视频检索方法，其特征在于，所述视频指纹为一组灰度值有差别的非连续的关键帧。