CN104572804A

CN104572804A - 一种视频物体检索的方法及其***

Info

Publication number: CN104572804A
Application number: CN201410564090.7A
Authority: CN
Inventors: 杨益敏; 汪灏泓
Original assignee: TCL Corp
Current assignee: TCL Corp; TCL Research America Inc
Priority date: 2013-10-24
Filing date: 2014-10-21
Publication date: 2015-04-29
Anticipated expiration: 2034-10-21
Also published as: US9201958B2; US20150117772A1; CN104572804B

Abstract

本发明公开了一种视频物体检索方法及其***，所述方法具体为：将输入视频分割成多个视频片段，并且在每个视频片段中检测目标类别及相关类别的物体图像。然后，预处理包含物体图像的边界裁影图并进行物体图像的自动提取。最后，对物体图像进行对象级特征提取及整合，并且：依据相似度得分生成可视搜索结果。

Description

一种视频物体检索的方法及其***

技术领域

本发明涉及计算机处理技术领域，尤其涉及一种视频物体检索的方法及其***。

背景技术

物体检测***在现今商业和娱乐产业中越发受到青睐。例如，很常见的，用户乐于去寻找那些与在他观看的视频中出现的感兴趣物体相同或者相似的物体。传统的基于内容的图像检索方法(CBIR)在低层的图像特征与高层的语义内容之间的图像理解差距中建立联系时，着重于通过分析静态图像的内容，而没有考虑用户的兴趣。把目光放到那些更具发展潜力的图像处理领域，已经出现一些考虑人类观念的图像处理方法。其通过将图像划分成一个个区域并且将图像内容通过被称为区域局部特征的特征进行模式化。但是这些方法由于图像分割技术的限制以及图像显著性检测的局限，特别是包含许多不同种类图像时，其检测结果还远不能达到令人满意的要求。

当处理数码视频中的视频帧而非静态图像时，进行物体检索的困难程度提升到了一个新的层次，因为视频通常在复杂的没有变化规律的光线环境中拍摄而成。具体的，在视频中进行有效的物体检索主要面临三个困难。第一、用户感兴趣的潜在目标物体有复杂多变的环境背景噪声，例如变形，被遮挡，旋转，仿射变换和转换。第二、如何有效的描述或者表示图像(视频帧)的内容。上述效果对于准确地在视频中对相似或者相同物体进行检索是非常重要的。第三、对于图像检索***的评价是个人主观的，缺乏广泛，明确的数据判断标准。这使得提升物体检索效果非常困难。

本发明公开的方法及其***用于解决现有技术中的一个或者多个问题。

发明内容

本发明的一方面公开了一种视频中物体检索的方法。所述方法包括：将一段输入视频分成许多视频片段，每个视频片段都包含一个到多个视频帧。在每个视频片段中检测目标类型以及相关类型的物体图像。上述方法还包括：预处理包含物体图像的边界裁影图，并且自动进行物体图像提取。进一步的，所述方法还包括：对物体图像进行对象级特征提取和整合，并依据相似度得分生成可视检索结果。

本发明另一方面公开了一种物体检索***。所述***包括：物体检测模块，用于在每个视频片段中检测目标类型以及相关类型的物体图像。所述***还包括：预处理模块，用于预处理包含物体图像的边界裁影图。进一步的，还包括：物体提取模块，用于通过自动grab-cut算法进行物体图像自动提取。上述***还进一步包括：对象级特征获取模块，用于对物体图像进行对象级特征提取和整合。相似度计算模块，用于计算颜色自相关直方图(ACC)和颜色和边缘的方向性描述符(CEDD)的相似度。相似度融合和排列模块，用于依据相似度得分来实现相似度融合和生成最终的可视检索结果。

本发明的其他方面，所属技术领域技术人员能够依据本发明的权利要求书，说明书，以及附图有效实施并充分公开。

附图说明

图1为本发明具体实施方式中视频物体检索方法的工作***示意图。

图2本发明具体实施方式中的计算***的结构框图。

图3为本发明具体实施方式中的自动物体检索***的示意图。

图4为本发明具体实施方式中的自动物体检测***的方法流程图。

图5为本发明具体实施方式中的预处理包含物体图像的最小矩形的方法流程图。

图6为本发明具体实施方式中图像特征提取步骤的方法流程图。

具体实施方式

附图中展示的部分将被引用以具体说明，阐述本发明具体技术实施方案。说明书中引用的数字代表附图的相应部分。

如图1所示，这是本发明具体实施方式中的工作***100。所述工作***100中包括有：电视机102、遥控器104、服务器106、用户108、网络***110。当然还可以包括其他合适的设备。

电视机102可以是任何合适类型的电视机，例如等离子电视、LCD电视、背投式电视、智能电视或者非智能电视。电视机102还可以包括一个计算***，例如个人电脑，掌上电脑或者智能手机等。进一步的，所述电视机102还可以是任何内容演示的设备。所述设备由遥控器104控制，能够在一个到多个频道中演示多个节目。

所述遥控器104可以是任何合适类型的能够遥控操作电视机2102的遥控器、例如配套的电视遥控器、通用电视遥控器、掌上电脑、智能手机或者其他能够实现遥控功能的智能设备。遥控器104还可以包括其他不同类型的设备，例如动作感应遥控设备、图像感应遥控设备以及其他一些简单输入设备，例如键盘、鼠标、声控输入等。

具体的，所述服务器106可以是任何用于提供个人信息内容给用户108的一个或者多个计算机服务器。所述服务器106还用于帮助在遥控器104和电视机102之间进行通信连接，数据存储和数据处理。电视机102，遥控器104以及服务器106通过网络***110建立通信连接，例如有线网络、手机网络、或者其他具体的网络。

用户108使用遥控器104控制电视机102播放不同的节目或者进行其他用户感兴趣的活动。如果电视机102配备有动作感应或者图像感应装置，用户还可以简单的使用手势动作进行控制。用户108可以是一个人也可以是多个，例如全部家庭成员在一起观看电视节目。

电视机102，遥控器104和/或服务器106在一个合适的电子计算平台实现其功能。图2是本发明具体实施方式中的一种可用于实现上述设备102、104和/或106的功能的计算***的结构框图。

如图2所示，所述计算***包括一个处理器202、存储器204、播放器206、通信模块208、数据库214以及***设备212。所述计算***可以减省上述设备，也可以添加一些其他类型的设备，而不限于上述设备。

所述处理器202可以是任何合适的处理器或处理器组。具体的，所述处理器202为能够进行多线程处理的多核心处理器。存储器204可以是任何合适的存储设备，例如ROM、RAM、闪存或者大容量存储器，例如CD-ROM、硬盘等。存储器204用于存储为进行各种数据处理而预设的计算机运行程序。

所述***设备212具体包括：各种类型的传感器以及输入，输出设备、例如键盘、鼠标。通信模块208具体包括：各类网络交互设备，用于在设备间通过网络***建立连接。数据库214具体包括一到多个用于存储不同数据以及对数据进行一些处理，例如搜索数据的数据库。

电视机102，遥控器104和/或服务器106可以成为一个物体识别***，用于为用户108识别物体。图3展示了本发明具体实施方式中自动物体检索***300。

如图3所示，自动物体检索***300具体包括：一段输入视频302、物体检测模块304、预处理模块306、物体图像提取模块308、对象级特征提取模块310、相似度计算模块312、图像数据库314、相似度融合和排列模块316、可视检索结果318。上述***可以减省所述设备，也可以添加一些其他类型的设备，而不限于所述设备。所述***300具体可以由硬件实现其功能，也可以由软件实现其功能，还可以结合硬件和软件一起实现其功能。

所述输入视频302具体可以是任何类型的视频内容或者视频资源。输入视频302的内容包括视频数据以及元数据。输入视频的一系列视频帧包含了输入视频302的内容并用于其他模块进行处理。当然，所述输入视频也可以是一幅单独的图片。

所述物体检测模块304用于在每一个视频片段中检测物体图像，包括相关类型和目标类型物体图像的检测。也就是说，所述物体检测模块304能够在实际上较短的时间内，自动检测感兴趣的通用区域以便于用户能够描述他想要寻找的目标物体。物体检测模块304可以依据实际情况设置在电视机102中或者电视机102外。

预处理模块306用于预处理包含物体图像的边界裁影图(bounding box image)。例如，预处理模块306能够通过直方图均衡化处理来调整图像全局对比度，并且通过图像融合来平衡图像质量和图像全局对比度。

物体提取模块308用于通过自动运行grab-cut算法进行物体提取。对象级特征提取模块310用于依据计算颜色自相关直方图(ACC)和颜色和边缘的方向性描述符(CEDD)对物体图像进行对象级特征提取和整合。

相似度计算模块312用于计算ACC和CEDD的相似度。具体的，图像数据库314可以任何合适的用于存储视频数据或者视频数据的元数据，ACC特征向量，CEDD特征向量等的数据库。

在物体检测以及特征提取完成后，相似度融合和排列模块316用于实现图像融合以及依据相似度得分排列，生成最终的图像检索结果。相似度融合和排列模块316具体的还可以分为相似度得分融合单元3162以及排列单元3164。

相似度得分融合单元3162用于进行相似度融合。排列单元3164用于依据相似度得分生成最终的图像检索结果。一系列相似度各异的检索结果由排列单元3164进行修正和排列。也就是，依据相似度得分融合单元3162计算得出的数据，排列单元3164生成最终的依据相似度得分高低排列的图像检索结果318呈现给用户。

图4是本发明具体实施方式中的自动物体检测***的方法流程图。如图4所示，首先，将一段输入视频分成许多视频片段(S402)。

在每个视频片段中检测可能目标物体图像(S404)。也就是，在获取视频片段后，检测片段中的物体图像。例如，假设有两个不同的物体图像在S404中检测出，一个检测物体图像属于目标类别，另一个检测物体图像属于相关类别。那么，上述两个检测物体都要被纳入到物体检索***中。

假设D为视频序列{F_i}，i＝1,...,N，N代表视频序列中的总帧数，Fi代表视频中的第i帧，C代表一个物体类别。这样的，对于目标类别来说，M是在视频序列D中属于目标类别C的物体图像的总数。D被分割成许多的视频片段{S_i}i＝1,...,K。

获得所有已检测出的物体图像的多模式提示信息(S406)。所述物体图像是指真实的物体在视频D的一些视频帧F中的出现情况。O和O^*分别表示物体图像和真实物体。目标是找出在视频D中出现的所有属于类别C的物体图像{O_j}，j＝1,...,M。每个物体图像的集合O_j都形成一个数组(i,l_j,s_j)，i表示O_j出现的视频帧，l_j是O_j在F_i中的位置。s_j表示O_j的大小，即对应所述包含物体图像的边界裁影图的长度和宽度值。

通过使用与目标类别C相关的外观形状，时空变化以及拓扑关系信息从而在每个视频片段中检测所有属于类别C的物体图像。当然，也可以使用其他的评价参数。

具体的，为了在视频片段中获得所有属于类别C的物体图像，需要分析物体的最佳路径，即真实物体O^*在视频片段S_i中的连续出现情况。每个在最佳路径上的物体图像都属于在视频D中对应类别C的物体图像集合M。应用上述分析最佳路径方法的优势在于：可以消除那些错误检测出的物体图像，基于这样的假设：上述片段边界方法不会将一个连续的事件分割到不同的独立视频片段中。因为输入视频已经被分割为许多视频片段，所述方法在视频片段中进行。

对物体在视频片段中的路径分析可以依据外观形状，时空变化以及拓扑关系信息进行。所述外观形状信息是指目标类别的视觉外形，例如，物体的视觉外形对于物体分入到目标类别具有多大的影响。相应地，时空变化以及拓扑关系信息是指目标类别与相关类别之间的相互关系。在此，存在一个所述相关类别的物体应该是容易检测的隐含条件。换句话说，就是指应该有一个成熟的检测方法来保证稳定，有效的检测出上述相关类别的物体。

所述拓扑关系依据相关类别物体的位置缩小目标类别物体的可能存在位置。举例来说，当图像为一个女孩拿着一个书包时，女孩和书包之间的相互位置关系是清晰明确的。包含区域的最小矩形分别描述了目标类别物体“书包”以及相关类别物体“女孩的脸”的物体图像。依据所述女孩和书包之间的相互位置关系，“女孩的脸”这一物***置被用来限定目标类别物体“书包”的可能存在位置。视频中连续的视频帧之间的变化情况构成了目标类别物体连续位置变化与相关类别物体连续位置变化之间的时空变化关系。

通过训练物体检测器从而检测目标类别的物体获得的外观形状信息被定义为条件概率P(O|C)。学习后的物体检测器能够提供P(O|C)以及被检测物***置和大小。

所述时空变化以及拓扑关系信息依据已检测出的相关类别物体R^*限定了物体O^*在给定视频片段的路径。依据时空变化和拓扑关系的限制，在一系列连续的视频帧{F_k}，k＝1,...,T，中结合相关类型物体R^*来寻找目标类型物体O^*的最佳路径。如果令O^j表示在一系列连续的视频帧F_j中的物体图像，{O_i ^j}表示在F_j中的物体图像集合。那么，物体O^*在连续视频帧{F_k}中的最佳路径呈现如下述特征：

首先，基于外观形状信息有一个高概率以及在路径中的相邻的物体图像具备高的相关性。所述高概率可以具体解释为：在路径中的物体图像O^j具备高的条件概率P(O^j|C)。所述在路径中相邻物体图像的相关性定义如下：

i与j不相等，v(.)是所述包括物体图像的边界裁影图的1-d特征向量。c(.)是用来衡量两个1-d特征向量之间相互关系的函数。在图像中，函数c(.)的取值范围为0-1。例如，c(.)函数可以是个人产品和时间相关系数或者余弦相似性在[0,1]的映射。否则

其次，O^*和R^*的实际轨迹与找出的对应路径之间的偏差由时空变化信息确定。偏差的限制条件定义如下：

i与j不相等，ε是一个大于0的常数，用以避免分母为0。函数l(.)代表物体的位置，||.||₂是L₂范数。与O^*和R^*的实际轨迹与找出的相似路径的偏差的限定方法类似，Γ(.)还可以进一步的代表包含目标类别物体图像的边界裁影图尺寸与相关类别的边界裁影图尺寸的相互关系。

最后，每个在路径中的物体图像不应该偏离由拓扑关系确定的物***置范围。设上述要求为依据目标类别与相关类别之间的相互拓扑位置关系的函数Ψ(.)。如上述在视频中检测目标物体(书包)的例子所述，被检测出的目标类别物体(书包)的位置与相关类别物体(女孩的脸)的位置之间的距离不应该超过上述参数计算得出的距离。为了在视频中检测目标类别物体，函数Ψ(.)可以被定义为：

ψ (O^{i}) = \max (0, \frac{{| | l (O^{i}) - l (R^{i}) | |}_{2}}{\max ({| | l (O^{i}) | |}_{2}, {| | l (R^{i}) | |}_{2})} - θ_{t}) - - - (3)

θ_t为目标类型物体和相关类型物体之间的距离限制，0≤θ_t＜1。

依据上述物体O^*在视频中的最佳路径的特征，意味着最佳路径需要有较大的较小的以及较大的较小的因此，上述寻找真实物体O^*的最佳路径的问题可以转化为如下的最优解问题：

\min imizeφ = Σ_{i = 1}^{T} {(γ_{1} Γ (O^{i - 1}, O^{i}) + γ_{2} [1 - P (O^{i} | C] + γ_{3} [1 - Ω (O^{i - 1}, O^{i}] + (1 - γ_{1} - γ_{2} - γ_{3}) ψ (O^{i})} - - - (4)

γ₁,γ₂,γ₃都是在[0,1]之间取值的权重参数，并且有γ₁+γ₂+γ₃＝1。Γ(.)，Ω(.)和Ψ(.)在图像中都是取值范围为[0,1]的函数。

假设新选择出的一组目标物体与之前选择出的目标物体组之间是相互独立，不受影响的，上述最优解问题可以通过线性规划的方法进行求解(S408)。

在无法限制的灯光情况以及复杂的视频拍摄环境下，即使是相同的物体在不同的视频中也可能呈现许多不同的形态，颜色以及遮挡情况等等。另外，视频的质量也是进行有效物体检索的考虑因素。因此，需要一个预处理模块确保需检测物体封闭在所述包含物体图像的边界裁影图内。

具体的，对包含物体图像的边界裁影图进行预处理(S410)。首先，进行直方图均衡化处理。所述直方图均衡化处理能够调整图像的全局对比度，从而使图像的骨架结构更明显并显示出更多的图像细节，尤其是当图像的有用数据的对比度相当接近的时候。通过该处理，能够使灰度像素在直方图中更均匀的分布，从而使得对比度较低的局部区域获得更高的对比度。直方图均衡化处理是通过将比较集中的某个灰度区间进行有效的分散，延伸，使其变为均匀分布来实现上述效果。对于彩色图像，则在HSV颜色空间的亮度通道上进行均衡化处理。HSV依据人对颜色的直观认识分为色调，饱和度，亮度(色彩，阴影和色调)三个参数。确定一种颜色的方式是确定其色调(x轴)，饱和度(y轴)，亮度(z轴)。所述亮度参数代表色彩的明亮程度，并且该参数是独立于图像的颜色信息的。色调和饱和度这两个参数则与人类的眼睛基于生物学原理对图像中计算，处理得出的颜色结果有紧密的联系。在图像中灰度级为i的像素的出现概率可以被定义为：

i＝0,1,…,L-1，L代表图像的最大灰度级数，p(i)实际上是像素灰度级为i的图像直方图的，归一化到[0,1]。

上述均衡化处理，，相当于通过如下函数将像素的灰度i映射到一个新的域。

T(i)＝floor((L-1)Cdf(i)) (6)

是累积分布函数，也是图像的累积归一化直方图。

然后，进行图像融合。所述均衡化处理可以提高背景噪声的对比度，即能够减少无用干扰信息。为了平衡图像质量和全局对比度，需要进行图像融合来生成更平滑的结果。

图5为本发明具体实施方式中的对包含物体图像的边界裁影图进行预处理的方法流程图。如图5所示，继续以上述女孩拿着书包，目标类别物体为“书包”的例子进行具体陈述。直方图是最常见用于代表图像中的全局特征组成的方式。初始的包含物体图像的边界裁影图以及对应的直方图分别显示在列a以及列b中。在进行直方图均衡化处理后得到的均衡化图像显示在列c中，其具备更好的对比度以及能够显现更多的细节，而对应的灰度(或者亮度)直方图在列d中显示，灰度(或者亮度)直方图中集中的灰度区间在全部灰度范围内变为均匀分布。所述初始包含物体图像的边界裁影图及直方图均衡化处理后的图像作为输入数据用于图像融合。图像融合的策略是进行智能像素加权平均。得出的融合图像及对应的直方图分别显示在列e和列f中，其通过提供一些互补的信息，从而能够提供一个更平滑的结果。

重新参阅图4，从包含物体图像的边界裁影图中提取物体图像采用十分常见的grab-cut算法。现有技术应用grab-cut时，需要用户首先给出一个包含感兴趣物体的区域的并且由用户进一步改善图像分割结果。与之不同的是，本发明提取物体图像的过程是自动运行的(S412)。所述物体图像自动提取方法是通过使用下述方法，结合图像检测结果来实现物体图像的自动提取。一方面，经过预处理，包含有用户感兴趣物体图像的边界裁影图作为原始数据输入。另一方面，给定边界像素属于背景像素来初始化所述图像分割程序。

通过初始化确定的一些背景像素，所述grab-cut算法依据颜色信息通过迭代的方法运算得出能量最小化的方案，从而对图像进行分割(即分割前景和背景)。所述颜色信息是利用一个分别表征前景和背景的全协方差，包含k个高斯分量的混合高斯模型(GMMs)进行建模。高斯混合模型(GMM)是一个参数化的概率密度函数，代表了各个高斯分量密度加权后的总和。所述高斯混合模型可以用参数表示为：

Θ＝{π(α,k),μ(α,k),Σ(α,k),α∈{0,1},k＝1,...,K} (7)

π,μ,Σ分别是每个高斯分量的权重，均值向量和协方差矩阵。α∈{0,1}是一个标记函数，用于标记图像I中某个像素是属于前景(α_i＝1时)还是背景(α_i＝0时)。令k＝{k₁,...,k_i,...,k_N}，k_i∈{1,...,K},1≤i≤N表示属于前景或者背景的GMM(依据α_i的标识)，像素z_i∈I。

所述能量函数具体为：

E(α,k,θ,z)＝U(α,k,θ,z)+V(α,z) (8)

U代表区域部分，即许多像素的集合。所述像素已经由GMM的概率分布情况p(.)来标识属于前景或者背景。

U(α,k,θ,z)＝Σ_i-log(p(z_i|α_i,k_i,θ))-log(π(α_i,k_i)) (9)

V为边界部分，体现了一预设规则，即假设切割的区域从颜色上应该是连续的，并考虑到在邻近区域C周边的每个像素。

V (α, z) = γ \underset{{m, n} &Element; c}{Σ} [a_{n} &NotEqual; a_{m}] \exp (- β {| | z_{m} - z_{n} | |}^{2}) - - - (10)

令T代表由T_F，T_B，T_U构成的trimap。T_F，T_B，T_U分别代表前景，背景以及待求解未知部分。首先给定能量最小化的模式，然后所述grab-cut算法会使用最小割方法尝试对待求未知部分的像素进行分类标记。

具体的，分割出图像的前景及背景部分的自动提取物体图像算法可总结为下述步骤：

1、得到一个包含物体图像的边界裁影图的初始trimap T。

2、执行初始化，i∈T_B时α_i＝0，i∈T_U∪T_F时α_i＝1，其中，1≤i≤N。

3、通过k-means算法进行对分别属于背景和前景的像素进行聚类，并由此分别初始化属于α_i＝1时，即前景的高斯混合模型以及属于α_i＝0时，即背景的高斯混合模型。

4、将图像像素标记为对应的高斯分量，所述高斯混合模型的参数可以通过数据z进行学习。

5、评价估计由图割算法得出的切割图像。

6、返回步骤4，直至结果收敛。

为了有效的利用物体图像切割结果，对物体形状特征的提取需要利用ACC以及CEDD(S414)。

使用包括颜色，纹理，形状以及空间等属性对逻辑图像进行描述。颜色属性可以由每个像素在颜色直方图中的强度表示。传统的颜色直方图是在图像像素的数据分布情况上建立的，并未考虑空间位置关系。这样就无法区分那些具有相同颜色分布但语义不同的图像。为了解决这个问题，可以使用ACC。所述ACC在考虑颜色的同时还结合了图像颜色之间的空间位置关系信息，从而能够更好的描述嵌入的物体图像对象级概念。

令I(x，y)代表图像I在x轴和与轴组成的十字坐标系。有n个预先设置的颜色标记为C₁,C₂,…,C_n.。在图像中两个相同的颜色之间的距离设为d，d∈{d₁,d₂,.....d_m}。

ACC算法会建立一个维数为n×m的颜色自相关直方图。所述直方图中，每个bin为Bin(C_i；D_j)＝Σ(x,y),(x′,y′){||I(x,y,C_i)-I(x′,y′,C_i||＝d_j}，1≤i≤n,1≤j≤n，其代表了具备相同距离d_j和相同颜色C_i的像素对((x,y),(x’,y’))的数量。

CEDD是一个非常常用能够综合体现直方图中纹理和颜色特征的简洁的混合描述子。纹理是指图像中可视的图案及其空间关系。所述CEDD描述子的单位长度控制在54字节/每个图像，以便于将其应用于较大图像的数据库。首先，将图像分成许多区域并将色彩直方图转换为HSV色彩空间。这样24bins模糊过滤器用于获得24维的向量(代表了不同颜色)。然后，用五个数字滤波器提取图像中与边缘表达相关的纹理信息。所述滤波器可以判断自己作用的纹理边缘特征具体属于如下例子中的哪一种，垂直方向，水平方向，45度斜线方向，135度斜线方向以及无方向。最终，CEDD直方图信息为6x24＝144维。其中，6维向量为纹理信息，然后在这些纹理信息的每一维中再加入提取出的24维的颜色信息。

图6为本发明具体实施方式中图像特征提取步骤的方法流程图。如图6所示，以在视频片段中检测目标为书包为例，所述目标类型为“书包”。经过预处理的包含图像的边界裁影图作为图像特征提取程序的输入数据。所述图像特征提取程序对分别属于前景(w_F)和背景(w_B)的每个像素进行权重分析，并输出最终的融合特征向量，w_F>>w_B,w_F>0,w_B>0。最后，在对象级图像特征提取程序运行后，如图6所示的直方图为最终输出结果。所述直方图对于指向以及检索图像非常有用。

需要注意的是，w_B和w_F应该依据具体应用情况决定。例如，在一个复杂的视频环境中，w_B的权重应该尽量的小以降低背景噪声造成的影响。但是，如果感兴趣物体图像(例如，一只马)与背景(草地)有很高的相关性时，应该适度的提高w_B的权重。

所述ACC相似度是依据曼哈顿距离计算得出的。具体的，两个在平面真实向量空间，并且处于固定的笛卡尔坐标系中的特征向量p，q的曼哈顿距离||p-q||₁是两特征向量的距离在x，y坐标轴上的投影长度的总和。所述ACC相似度定义如下：

D_{pq} = \frac{{| | p - q | |}_{1}}{\max {D_{pq}} + ξ} - - - (11)

ξ是一个大于0的常数，用以保证分母不等于0。

CEDD相似度则通过Tanimoto系数衡量。所述CEDD相似度定义如下：

T_{pq} = \frac{p^{T} q}{p^{T} p = q^{T} q - p^{T} q} - - - (12)

p和q分别是两个特征向量，p^T是p的转置，q^T是q的转置。

依据上述ACC以及CEDD相似度，计算得出相似度融合结果(S416)。相似度得分定义如下：

Sim_f(p,q)＝α·Sim_ACC(p,q)+β·Sim_CEDD(p,q) (13)＝α·(1-D_pq)+β·(1-T_pq) (14)

α和β分别代表该类型特征对应的权重。

重新参阅图4，在计算出相似度融合结果后，依据相似度得分生成可视搜索结果(S418)。所述结果可以通过不同的显示形式向用户展示。例如，该结果可以在现有的显示器中一并展示，或者在一个独立的显示区域，例如显示屏幕的底部，中展示。应当说明的是，该结果还可以在不同的显示终端中展示，而不限于现有的显示终端。

本发明所述的物体检索方法及其***，能够在复杂的背景中自动提取视频中的物体图像并且结合空间颜色及纹理信息有效的进行物体检索。具体的，生成模块是基于概率框架来生成最终的搜索结果。本发明所述方法和***在实际应用中，特别适用于自动从复杂背景环境中提取用户感兴趣物体图像。应当说明的是，上述方法及其***也可以拓展应用于其他领域中。例如，在上述物体识别***的支持下，用户可以更迅速的在电视购物节目中寻找到感兴趣的产品。本发明所述物体识别方法及其***也可以在其他的设备上运行，例如移动电话，平板电脑，智能手表等，以提高用户体验。将本发明所述***和方法应用于不同领域，进行改进，替换，调整或者相当于本发明所公开的具体技术实施方案都是本领域普通技术人员不需要通过创造性劳动就能实现的。

Claims

1.一种视频物体检索方法，其特征在于，包括如下步骤：

将输入视频分割成多个视频片段；

在每个视频片段中检测目标类别及相关类别的物体图像；

预处理包含物体图像的边界裁影图；

通过自动的grab-cut算法进行物体图像的自动提取；

对物体图像进行对象级特征提取及整合；

依据相似度得分生成可视搜索结果。

2.依据权利要求1所述的检索方法，其特征在于，所述在每个视频片段中检测目标类别及相关类别的物体图像的步骤还包括：

获取所有已检测的物体图像的多模式提示信息；

结合外观形状信息、时空变化信息以及拓扑关系信息协助在所述视频片段中进行物体检索；

使用线性规划的方法找出最佳的物体路径。

3.依据权利要求1所述的检索方法，其特征在于，所述预处理包含物体图像的边界裁影图的步骤还包括：

使用直方图均衡化来调整图像的全局对比度，以及进行图像融合来取得图像质量与图像全局对比度的平衡。

4.依据权利要求1所述的检索方法，其特征在于，所述进行物体图像的自动提取的步骤还包括：

初始化包含物体图像的矩形的trimapT，所述trimapT由前景T_F、背景T_B以及待求解未知部分T_U组成；

执行初始化，i∈T_B时α_i＝0，i∈T_U∪T_F时α_i＝1，其中，1≤i≤N；

通过k-means算法进行对分别属于背景和前景的像素进行聚类，由此分别初始化属于集合α_i＝1的代表前景的高斯混合模型以及属于集合α_i＝0的代表背景的高斯混合模型；

将图像像素标记为对应的高斯分量，所述高斯混合模型的参数通过图像数据进行学习；

评估依据图割算法得出的切割图像。

5.依据权利要求1所述的检索方法，其特征在于，所述对物体图像进行对象级特征提取及整合的步骤具体为：

依据颜色自相关直方图及颜色与边缘的方向性描述符对物体图像进行对象级特征提取；

生成相似度融合结果。

6.依据权利要求5所述的检索方法，其特征在于，颜色自相关直方图相似度由下式表示：

D_{pq} = \frac{{| | p - q | |}_{1}}{\max {D_{pq}} + ξ},

其中，

p为一个特征向量，q为另一个特征向量，||p-q||₁为所述特征向量之间的曼哈顿距离，ξ是一个大于0的常数。

7.依据权利要求5所述的检索方法，其特征在于，颜色与边缘的方向性描述符相似度由下式表示：

T_{pq} = \frac{p^{T} q}{p^{T} p + q^{T} q - p^{T} q},

其中，

p为一个特征向量，q为另一个特征向量，p^T是p的转置，q^T是q的转置。

8.依据权利要求5所述的检索方法，其特征在于，所述相似度得分由下式表示：

\begin{matrix} {Sim}_{f} (p, q) = α \cdot {Sim}_{ACC} (p, q) + β \cdot {Sim}_{CEDD} (p, q) \\ = α \cdot (1 - D_{pq}) + β \cdot (1 - T_{pq}) \end{matrix},

其中，

p为一个特征向量，q为另一个特征向量，Sim_ACC(.)为颜色自相关直方图相似度，Sim_CEDD(.)为颜色与边缘的方向性描述符的相似度，α为颜色自相关直方图相似度对应的权重，β为颜色与边缘的方向性描述符相似度对应的权重。

9.一种视频物体检索***，其特征在于，包括

物体检测模块，用于在每个视频片段中检测目标类别及相关类别的物体图像现情况；

预处理模块，预处理包含物体图像的边界裁影图；

物体图像提取模块，用于使用自动的grab-cut算法进行物体图像的自动提取；

对象级特征提取模块，用于对物体图像进行对象级特征提取及整合；

相似度计算模块，用于计算颜色自相关直方图相似度以及颜色与边缘的方向性描述符相似度；以及

相似度融合及排列模块，用于得出相似度融合结果以及依据相似度得分，生成可视检索结果。

10.依据权利要求9所述的检索***，其特征在于，所述物体检测模块还用于，

获取所有已检测的物体图像的多模式提示信息；

结合外观形状信息，时空变化信息以及拓扑关系信息协助在所述视频片段中进行物体检索；

使用线性规划的方法找出最佳的物体路径。

11.依据权利要求9所述的检索***，其特征在于，所述预处理模块还用于，使用直方图均衡化来调整图像的全局对比度，以及进行图像融合来取得图像质量与图像全局对比度的平衡。

12.依据权利要求9所述的检索***，其特征在于，所述物体图像提取模块还用于：

初始化包含物体图像的矩形的trimap T，所述trimap T由前景T_F，背景T_B，待求解未知部分T_U组成；

通过k-means算法进行对分别属于背景和前景的像素进行聚类，由此分别初始化属于集合α_i＝1的，代表前景的高斯混合模型以及属于集合α_i＝0的，代表背景的高斯混合模型；

将图像像素标记为对应的的高斯分量，所述高斯混合模型的参数通过图像数据进行学习；

评估依据图割算法产生的切割图像。

13.依据权利要求9所述的检索***，其特征在于，所述对象级特征提取模块还用于，依据颜色自相关直方图及颜色与边缘的方向性描述符对物体图像进行对象级特征提取。

14.依据权利要求13所述的检索***，其特征在于，颜色自相关直方图相似度由下式定义：

D_{pq} = \frac{{| | p - q | |}_{1}}{\max {D_{pq}} + ξ}

15.依据权利要求13所述的检索***，其特征在于，颜色与边缘的方向性描述符相似度由下式定义：

T_{pq} = \frac{p^{T} q}{p^{T} p + q^{T} q - p^{T} q}

16.依据权利要求13所述的检索***，其特征在于，所述相似度得分可以由下式定义：

\begin{matrix} {Sim}_{f} (p, q) = α \cdot {Sim}_{ACC} (p, q) + β \cdot {Sim}_{CEDD} (p, q) \\ = α \cdot (1 - D_{pq}) + β \cdot (1 - T_{pq}) \end{matrix}

p为一个特征向量，q为另一个特征向量，Sim_ACC(.)为颜色自相关直方图相似度，Sim_CEDD(.)为颜色与边缘的方向性描述符相似度，α为颜色自相关直方图相似度对应的权重，β为颜色与边缘的方向性描述符相似度对应的权重。