CN103440292B

CN103440292B - 基于比特向量的多媒体信息检索方法和***

Info

Publication number: CN103440292B
Application number: CN201310359716.6A
Authority: CN
Inventors: 刘洁
Original assignee: Sina Technology China Co Ltd
Current assignee: Sina Technology China Co Ltd
Priority date: 2013-08-16
Filing date: 2013-08-16
Publication date: 2016-12-28
Anticipated expiration: 2033-08-16
Also published as: CN103440292A

Abstract

本发明公开了一种基于比特向量的多媒体信息检索方法和***，所述方法包括：提取当前多媒体信息的特征数据后，得到当前多媒体信息的n维的高维特征向量；将n维的高维特征向量通过投影矩阵变换后得到m维的中间向量；将m维的阈值向量的各元素分别与中间向量的相应元素进行比较，根据比较结果对中间向量进行二值化，得到当前多媒体信息的m维的比特向量；其中，m小于n；根据得到的比特向量，在多媒体特征数据库中查找出与该比特向量相似的比特向量，将查找出的比特向量所对应的多媒体信息作为检索结果输出。该方法保证了原有向量识别能力，将多媒体信息的高维特征向量映射为低维的比特向量后，使得基于比特向量的检索效率更高、检索消耗更小。

Description

基于比特向量的多媒体信息检索方法和***

技术领域

本发明涉及计算机领域，尤其涉及一种基于比特向量的多媒体信息检索方法和***。

背景技术

近年来，随着多媒体技术和计算机技术的飞速发展、大规模的多媒体信息越来越多地出现在众多的研究和应用领域。为了使这些庞杂的数据中所包含的信息能够得到有效地访问和利用，传统的基于文本的检索技术已经无法满足用户日益增长的需求，基于内容的检索技术便应运而生。

基于内容的检索方法需要先提取出多媒体的特征数据建立特征数据库，然后将对多媒体信息的检索转换为对特征数据的近邻检索。对于大规模多媒体信息而言，其特征数据也是大规模的。这就需要有与特征数据相对应的合适的索引方法来组织特征数据，加快检索的速度。

然而，多媒体信息的特征数据往往是高维的向量数据(简称高维特征向量)，传统的适应于低维数据的索引机制难以适应于基于内容检索的要求，这也就是通常所说的高维数据的索引维数灾难现象。也就是说，基于高维特征向量实现多媒体信息的检索将耗费巨大的检索资源、消耗很大，效率低下。

为解决上述问题，现有技术的方法，如相似敏感哈希(Similarity SensitiveHash，SSH)、局部敏感哈希(Locality Sensitive Hash，LSH)方法，通过将高维特征向量映射为低维的比特向量，从而利用基于比特向量的相似度量方法和高效索引方法来加快高维特征向量的检索速度，从而提高多媒体信息的检索效率。然而，现有技术的方法易造成相似的高维特征向量(即同类的高维特征向量)被映射为不相似的比特向量，不相似的高维特征向量(即非同类的高维特征向量)被映射为相似的比特向量，导致进行多媒体信息检索时，多媒体信息的高维特征向量映射为比特向量后，具有较大的错误匹配率，使得原有向量的识别能力下降。

因此，有必要提供一种基于比特向量的多媒体信息检索方法，在保证原有向量识别能力的情况下，将多媒体信息的高维特征向量映射为低维的比特向量，以使得基于比特向量的多媒体信息的检索效率相比于基于高维特征向量的多媒体信息的检索效率更高，减小检索消耗，并降低基于比特向量的多媒体信息的检索的错误匹配率。

发明内容

针对上述现有技术存在的缺陷，本发明提供了一种基于比特向量的多媒体信息检索方法和***，用以在保证原有向量识别能力的情况下，将多媒体信息的高维特征向量映射为低维的比特向量后，使得基于比特向量的检索效率更高、检索消耗更小。

根据本发明的一个方面，提供了一种基于比特向量的多媒体信息检索方法，包括：

提取当前多媒体信息的特征数据后，得到所述当前多媒体信息的n维的高维特征向量，记为X(x₁,x₂,...,x_n)；

将高维特征向量X(x₁,x₂,...,x_n)通过投影矩阵P变换后得到m维的中间向量W(w₁,w₂,...,w_m)；

将m维的阈值向量的各元素分别与所述中间向量的相应元素进行比较，根据比较结果对所述中间向量进行二值化，得到所述当前多媒体信息的m维的比特向量；其中，m小于n；

根据得到的比特向量，在多媒体特征数据库中查找出与该比特向量相似的比特向量，将查找出的比特向量所对应的多媒体信息作为检索结果输出；

其中，所述投影矩阵P为m×n的矩阵，并满足以下条件：对于资料库中存储的各已分类的多媒体信息的高维特征向量，其中同类的高维特征向量经过P变换后的向量间距离期望值，与不同类的高维特征向量经过P变换后的向量间距离期望值的差值最小；

所述阈值向量满足以下条件：对于所述资料库中存储的各多媒体信息的高维特征向量，其中同类的高维特征向量经过P变换、并经过所述阈值向量比较、二值化后的向量间距离期望值，与不同类的高维特征向量经过P变换、并经过所述阈值向量比较、二值化后的向量间距离期望值的差值最小。

较佳地，在所述提取当前多媒体信息的特征数据之前，还包括：

通过所述资料库中存储的多媒体信息训练出所述投影矩阵P：

对于所述资料库中存储的多媒体信息，将其中任意一对同类的多媒体信息的高维特征向量作为一个集合元素，存储到同类样本集合中；并

将其中任意一对不同类的多媒体信息的高维特征向量作为一个集合元素，存储到非同类样本集合中；

构建出使得如下公式1中最小的投影矩阵P：

其中，Q为所述同类样本集合；R为所述非同类样本集合；E{||PX-PX'||²|Q}表示所述Q中同类的高维特征向量经过P变换后的向量间距离期望值；E{||PX-PX'||²|R}表示所述R中不同类的高维特征向量经过P变换后的向量间距离期望值；α为设定的权值。

较佳地，所述构建出使得如下公式1中最小的投影矩阵P，具体包括：

求取矩阵∑_G的m个最小的n维矩阵特征向量；其中，所述∑_Q如公式2所示、所述∑_R如公式3所示：

∑_Q＝E{(X-X')(X-X')^T|Q} (公式2)

所述公式2中，E{(X-X')(X-X')^T|Q}表示所述Q中同类的高维特征向量间的协方差矩阵的均值；

∑_R＝E{(X-X')(X-X')^T|R} (公式3)

所述公式3中，E{(X-X')(X-X')^T|R}表示所述R中不同类的高维特征向量间的协方差矩阵的均值；

由求取的m个n维矩阵特征向量，构成m×n的投影矩阵P。

较佳地，在所述通过所述资料库中存储的多媒体信息训练出所述投影矩阵P后，还包括：

计算出使得如下公式4中L最小的m维向量，记为U(u₁,u₂,...,u_m)，并作为所述阈值向量：

L＝E{sign(PX+U)^Tsign(PX'+U)|R}-αE{sign(PX+U)^Tsign(PX'+U)|Q} (公式4)

其中，E{sign(PX+U)^Tsign(PX'+U)|Q}表示所述Q中同类的高维特征向量经过P变换、并经过所述阈值向量比较确定正负符号后，得到的符号向量之间的距离的均值；E{sign(PX+U)^Tsign(PX'+U)|R}表示所述R中不同类的高维特征向量经过P变换、并经过所述阈值向量比较确定正负符号后，得到的符号向量之间的距离的均值。

或者，在所述通过所述资料库中存储的多媒体信息训练出所述投影矩阵P后，还包括：

计算出使得如下公式4中L最小的m维向量，记为U(u₁,u₂,...,u_m)：

L＝E{sign(PX+U)^Tsign(PX'+U)|R}-αE{sign(PX+U)^Tsign(PX'+U)|Q} (公式4)

其中，E{sign(PX+U)^Tsign(PX'+U)|Q}表示所述Q中同类的高维特征向量经过P变换、并经过所述阈值向量比较确定正负符号后，得到的符号向量之间的距离的均值；E{sign(PX+U)^Tsign(PX'+U)|R}表示所述R中不同类的高维特征向量经过P变换、并经过所述阈值向量比较确定正负符号后，得到的符号向量之间的距离的均值；

之后，对U(u₁,u₂,...,u_m)进行优化后，得到所述阈值向量：

对于所述阈值向量U的元素u_i，利用如下公式5和公式6，求取使得FN(u_i)+α×FP(u_i)最小的u_i值，作为优化后的u_i值；

FN(u_i)＝Pr(min{z,z'}≥u_i or max{z,z'}<u_i|Q) (公式5)

FP(u_i)＝Pr(min{z,z'}<u_i≤max{z,z'}|R) (公式6)

所述公式5中，(min{z,z'}≥u_i or max{z,z'}<u_i|Q)中的z和z'表示所述Q中任意一个集合元素中的一对同类的高维特征向量X和X'分别经过所述投影矩阵P变换后得到的向量的第i个元素，Pr(min{z,z'}≥u_i or max{z,z'}<u_i|Q)表示对于所述Q中的集合元素，u_i满足如下条件：min{z,z'}≥u_i or max{z,z'}<u_i的概率；

所述公式6中，(min{z,z'}<u_i≤max{z,z'}|R)中的z和z'表示所述R中任意一个集合元素中的一对不同类的高维特征向量X和X'分别经过所述投影矩阵P变换后得到的向量的第i个元素，Pr(min{z,z'}<u_i≤max{z,z'}|R)表示对于所述R中的集合元素，u_i满足如下条件：min{z,z'}<u_i≤max{z,z'}的概率。

较佳地，所述计算出使得如下L最小的m维向量，具体包括：

求取使得如下表达式7最小的u_i值；其中，i为1～m的自然数；

E{sign((P_i ^TX+u_i)(P_i ^TX'+u_i))|R}-αE{sign((P_i ^TX+u_i)^T(P_i ^TX'+u_i))|Q} (表达式7)

其中，P_i ^T为所述投影矩阵P的第i行向量；u_i为U(u₁,u₂,...,u_m)的第i个元素；

并将得到的u₁～u_m组成所述m维向量。

根据本发明的另一个方面，还提供了一种基于比特向量的多媒体信息检索***，包括：

比特向量转换模块，用于提取当前多媒体信息的特征数据后，得到所述当前多媒体信息的n维的高维特征向量，记为X(x₁,x₂,...,x_n)；将高维特征向量X(x₁,x₂,...,x_n)通过投影矩阵P变换后得到m维的中间向量W(w₁,w₂,...,w_m)后，将m维的阈值向量的各元素分别与所述中间向量的相应元素进行比较，根据比较结果对所述中间向量进行二值化，得到所述当前多媒体信息的m维的比特向量；其中，m小于n；

检索模块，用于根据所述比特向量转换模块得到的当前多媒体信息的比特向量，在多媒体特征数据库中查找出与该比特向量相似的比特向量，将查找出的比特向量所对应的多媒体信息作为检索结果输出；

其中，所述投影矩阵P为m×n的矩阵，并满足以下条件：对于资料库中存储的各多媒体信息的高维特征向量，其中同类的高维特征向量经过P变换后的向量间距离期望值，与不同类的高维特征向量经过P变换后的向量间距离期望值的差值最小；

所述阈值向量满足以下条件：对于所述资料库中存储的各已分类的多媒体信息的高维特征向量，其中同类的高维特征向量经过P变换、并经过所述阈值向量比较、二值化后的向量间距离期望值，与不同类的高维特征向量经过P变换、并经过所述阈值向量比较、二值化后的向量间距离期望值的差值最小。

较佳地，所述比特向量转换模块具体包括：

高维特征向量确定单元，用于提取当前多媒体信息的特征数据后，得到所述当前多媒体信息的n维的高维特征向量，记为X(x₁,x₂,...,x_n)；

中间向量计算单元，用于将所述高维特征向量确定单元得到的高维特征向量X(x₁,x₂,...,x_n)通过投影矩阵P变换后得到m维的中间向量W(w₁,w₂,...,w_m)；

阈值比较单元，用于将m维的阈值向量的各元素分别与所述中间向量计算单元得到的中间向量的相应元素进行比较，根据比较结果对所述中间向量进行二值化，得到所述当前多媒体信息的m维的比特向量；其中，m小于n。

进一步，所述基于比特向量的多媒体信息检索***，还包括：

投影矩阵构建模块，用于通过所述资料库中存储的多媒体信息训练出所述投影矩阵P：对于所述资料库中存储的多媒体信息，将其中任意一对同类的多媒体信息的高维特征向量作为一个集合元素，存储到同类样本集合中；并将其中任意一对不同类的多媒体信息的高维特征向量作为一个集合元素，存储到非同类样本集合中；构建出使得如下公式1中最小的投影矩阵P：

其中，Q为所述同类样本集合；R为所述非同类样本集合；E{||PX-PX'||²|Q}表示所述Q中同类的高维特征向量经过P变换后的向量间距离期望值；E{||PX-PX'||²|R}表示所述R中不同类的高维特征向量经过P变换后的向量间距离期望值；α为设定的权值；

第一阈值向量确定模块，用于计算出使得如下公式4中L最小的m维向量，记为U(u₁,u₂,...,u_m)，并作为所述阈值向量：

L＝E{sign(PX+U)^Tsign(PX'+U)|R}-αE{sign(PX+U)^Tsign(PX'+U)|Q} (公式4)

较佳地，所述第一阈值向量确定模块具体包括：

最小值计算单元，用于求取使得如下表达式7最小的u_i值；其中，i为1～m的自然数；

向量组成单元，用于将所述最小值计算单元得到的u₁～u_m组成所述m维向量U(u₁,u₂,...,u_m)，作为所述阈值向量。

进一步，所述基于比特向量的多媒体信息检索***，还包括：

第二阈值向量确定模块，用于计算出使得如下公式4中L最小的m维向量，记为U(u₁,u₂,...,u_m)：

L＝E{sign(PX+U)^Tsign(PX'+U)|R}-αE{sign(PX+U)^Tsign(PX'+U)|Q} (公式4)

第二阈值向量确定模块对U(u₁,u₂,...,u_m)进行优化后，得到所述阈值向量。

较佳地，所述第二阈值向量确定模块具体包括：

向量优化单元，用于对U(u₁,u₂,...,u_m)的元素u_i进行优化：对于所述阈值向量U的元素u_i，利用如下公式5和公式6，求取使得FN(u_i)+α×FP(u_i)最小的u_i值，作为优化后的u_i值；

FN(u_i)＝Pr(min{z,z'}≥u_i or max{z,z'}<u_i|Q) (公式5)

FP(u_i)＝Pr(min{z,z'}<u_i≤max{z,z'}|R) (公式6)

所述公式6中，(min{z,z'}<u_i≤max{z,z'}|R)中的z和z'表示所述R中任意一个集合元素中的一对不同类的高维特征向量X和X'分别经过所述投影矩阵P变换后得到的向量的第i个元素，Pr(min{z,z'}<u_i≤max{z,z'}|R)表示对于所述R中的集合元素，u_i满足如下条件：min{z,z'}<u_i≤max{z,z'}的概率；

向量组成单元，用于将所述向量优化单元优化后的u₁～u_m组成所述阈值向量。

较佳地，所述投影矩阵构建模块具体包括：

最小矩阵特征向量计算单元，用于求取矩阵∑_G的m个最小的n维矩阵特征向量；其中，所述∑_Q如公式2所示、所述∑_R如公式3所示：

∑_Q＝E{(X-X')(X-X')^T|Q} (公式2)

Σ_R＝E{(X-X')(X-X')^T|R} (公式3)

投影矩阵确定单元，用于由求取的m个n维矩阵特征向量，构成m×n的投影矩阵P。

本发明的技术方案中，由于当前多媒体信息的高维特征向量转换成比特向量后具有类内聚集、类间离散的效果，从而保证了原有向量识别能力；这样，应用成熟的基于低维的比特向量的检索技术，可以实现相比于基于高维特征向量的检索技术更高的检索效率，和更小的检索消耗，而且使得基于比特向量的多媒体信息的检索得出的检索结果更为准确，降低了检索的错误匹配率。

附图说明

图1a为本发明实施例的根据资料库中存储的多媒体信息训练出投影矩阵的方法的流程图；

图1b为本发明实施例的根据Σ_G构建出投影矩阵的具体方法的流程图；

图2为本发明实施例的基于比特向量的多媒体信息检索方法的流程图；

图3a为本发明实施例的基于比特向量的多媒体信息检索***的一种内部结构框图；

图3b为本发明实施例的基于比特向量的多媒体信息检索***的另一种内部结构框图；

图4为本发明实施例的根据比特向量进行多媒体信息检索的方法流程图。

具体实施方式

以下将结合附图对本发明的技术方案进行清楚、完整的描述，显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施例，都属于本发明所保护的范围。

本申请使用的“模块”、“***”等术语旨在包括与计算机相关的实体，例如但不限于硬件、固件、软硬件组合、软件或者执行中的软件。例如，模块可以是，但并不仅限于：处理器上运行的进程、处理器、对象、可执行程序、执行的线程、程序和/或计算机。举例来说，计算设备上运行的应用程序和此计算设备都可以是模块。一个或多个模块可以位于执行中的一个进程和/或线程内，一个模块也可以位于一台计算机上和/或分布于两台或更多台计算机之间。

本发明的技术方案中，构造了一个映射函数，使用该映射函数可以将高维特征向量映射为低维的比特向量，并且该映射函数还可以保证：原有相似的高维特征向量，经过映射后得到的比特向量更加相似；原有高维特征向量不相似，经过映射后得到的比特向量更加不相似；也就是说，经过该映射函数的映射，将原有高维特征向量转换成比特向量后具有类内聚集、类间离散的效果，从而保证原有向量识别能力；之后，应用成熟的基于低维的比特向量的检索技术，实现相比于基于高维特征向量的检索技术更高的检索效率，和更小的检索消耗。

下面结合附图详细说明本发明的技术方案。本发明实施例在提取当前多媒体信息的特征数据，进行当前多媒体信息的特征数据的检索之前，需要先构造出可以将当前多媒体信息的n维的高维特征向量映射为低维的二值化向量的映射函数，记为：

Y＝sign(PX+U)，

其中，P为m×n的投影矩阵；U为m维的阈值向量，记为U(u₁,u₂,...,u_m)；X为n维的高维特征向量，记为X(x₁,x₂,...,x_n)，且X中的各元素为实数值；sign(PX+U)表示取向量PX+U的符号(正负号)，得到二值化的符号向量(符号向量的元素为-1或+1)，即若PX+U的元素的符号为负号，则符号向量中的相应元素为-1，若PX+U的元素的符号为正号，则符号向量中的相应元素为+1；Y为取向量PX+U的符号后得到的m维的二值化的符号向量，记为Y(y₁,y₂,...,y_m)；事实上，符号向量中的每个元素可以比特表示，例如，符号为负号的元素可以比特0表示，符号为正号的元素可以比特1表示，从而得到相应的比特向量。

本文后续中，以n维的高维特征向量X(x₁,x₂,...,x_n)为列向量来构造映射函数，并根据构造的映射函数映射得到m维的列向量，即m维的比特向量；本领域技术人员可以根据本发明实施例中公开的技术方案，轻而易举实现以n维的高维特征向量X(x₁,x₂,...,x_n)为行向量来构造映射函数，进而映射得到m维的行向量的比特向量的技术方案；因此，不论以行向量还是列向量的高维特征向量X(x₁,x₂,...,x_n)构造映射函数、进而映射得到m维的比特向量的方法或构思都应在本发明的保护范围之内。

具体地，可以根据资料库中存储的已分类的多媒体信息训练出投影矩阵P，且训练出的m×n的投影矩阵P满足以下条件：对于资料库中存储的各已分类的多媒体信息的高维特征向量，其中同类的高维特征向量经过P变换后的向量间距离期望值，与不同类的高维特征向量经过P变换后的向量间距离期望值的差值最小。如图1a所示，根据资料库中存储的多媒体信息训练出投影矩阵P的方法，包括如下步骤：

S101：对于资料库中存储的多媒体信息，将其中任意一对同类的多媒体信息的高维特征向量作为一个集合元素，存储到同类样本集合中；并将其中任意一对不同类的多媒体信息的高维特征向量作为一个集合元素，存储到非同类样本集合中。

具体地，对于资料库中存储的多媒体信息，根据多媒体信息的高维特征向量间的相似性，预先建立了包含同类的高维特征向量的同类样本集合，记为Q，以及包含不同类的高维特征向量的非同类样本集合，记为R。

S102：构建出使得如下公式1中最小的投影矩阵P：

上述的公式1为预先定义的目标函数；其中，Q为同类样本集合；R为非同类样本集合；{||PX-PX'||²|Q}中的X和X'表示Q中任意一个集合元素中的一对同类的高维特征向量；{||PX-PX'||²|R}中的X和X'表示R中任意一个集合元素中的一对不同类的高维特征向量；PX-PX'表示高维特征向量X和X'经过P变换后得到的向量之间的距离；||PX-PX'||²表示高维特征向量X和X'经过P变换后得到的向量之间的距离的协方差；

E{||PX-PX'||²|Q}表示Q中同类的高维特征向量经过P变换后的向量间距离期望值，即表示Q中同类的高维特征向量经过P变换后的向量间距离的协方差的均值；E{||PX-PX'||²|R}表示R中不同类的高维特征向量经过P变换后的向量间距离期望值，即表示R中不同类的高维特征向量经过P变换后的向量间距离的协方差的均值；α为设定的权值，取值为1～0.5；α具体为同类高维特征向量间距离和非同类高维特征向量间距离的度量比例的权值，权值越大，同类高维特征向量距离度量权重越大，同类高维特征向量经过投影矩阵P变换后类内聚集程度越高，换言之，不同类高维特征向量距离度量权重越小，不同类高维特征向量经过投影矩阵P变换后类间离散程度越高。

具体地，根据线性代数的知识，可以得出：

E{||PX-PX'||²|Q}＝tr{P∑_QP^T} (公式8)

E{||PX-PX'||²|R}＝tr{P∑_RP^T} (公式9)

其中，P^T表示求P的转置矩阵；tr{P∑_QP^T}表示求矩阵P∑_QP^T的迹，tr{P∑_RP^T}表示求矩阵P∑_RP^T的迹；∑_Q如公式2所示，∑_R如公式3所示：

∑_Q＝E{(X-X')(X-X')^T|Q} (公式2)

公式2中，{(X-X')(X-X')^T|Q}中的X和X'表示Q中任意一个集合元素中的一对同类的高维特征向量，其中，(X-X')^T表示求取(X-X')的转置向量；E{(X-X')(X-X')^T|Q}表示Q中同类的高维特征向量间的协方差矩阵的均值，具体表示对Q中同类的高维特征向量间的协方差矩阵的各元素求均值；

∑_R＝E{(X-X')(X-X')^T|R} (公式3)

公式3中，E{(X-X')(X-X')^T|R}中的X和X'表示R中任意一个集合元素中的一对不同类的高维特征向量，E{(X-X')(X-X')^T|R}表示R中不同类的高维特征向量间的协方差矩阵的均值，具体表示对R中不同类的高维特征向量间的协方差矩阵的各元素求均值。

这样，根据公式8和公式9，上述的公式1可以转化为公式10：

进一步，用表示求取Σ_R的逆矩阵后，对开方)乘以公式10的右边的表达式后，将得到的表达式再乘以表示求取的转置矩阵)后，使tr{RΣ_RR^T}转化为常数，使tr{PΣ_QP^T}转换为如公式11中右边的表达式：

公式11表示正比于

而且，

\begin{matrix} t r {{PΣ}_{R}^{- 1 / 2} Σ_{Q} Σ_{R}^{- T / 2} P^{T}} \\ = t r {{PΣ}_{Q} Σ_{R}^{- 1} P^{T}} \\ = t r {{PΣ}_{G} P^{T}} \end{matrix}

其中，

这样，可以根据Σ_G，构建出使得公式1中最小的投影矩阵P，其具体方法的流程图如图1b所示，包括如下步骤：

S111：求取Σ_G的m个最小的n维矩阵特征向量。

具体地，∑_G是一个半正定对称矩阵，可以根据线性代数知识，求取矩阵∑_G的m个最小特征向量，即得到m个最小的n维矩阵特征向量。

S112：由求取的m个n维矩阵特征向量，构成m×n的投影矩阵P。

具体地，由求取的m个n维矩阵特征向量，构成m×n的正交矩阵，即投影矩阵P；该投影矩阵P可以使得公式1中的取得最小值。

在通过资料库中存储的多媒体信息训练出投影矩阵P后，可以计算出阈值向量U，且阈值向量U满足以下条件：对于资料库中存储的各多媒体信息的高维特征向量，其中同类的高维特征向量经过P变换、并经过阈值向量比较、二值化后的向量间距离期望值，与不同类的高维特征向量经过P变换、并经过阈值向量比较、二值化后的向量间距离期望值的差值最小。

其中，计算出阈值向量U，具体为计算出使得如下公式4中的L最小的m维向量，作为阈值向量U：

L＝E{sign(PX+U)^Tsign(PX'+U)|R}-αE{sign(PX+U)^Tsign(PX'+U)|Q} (公式4)

其中，E{sign(PX+U)^Tsign(PX'+U)|Q}表示Q中同类的高维特征向量经过P变换、并经过阈值向量U比较确定正负符号后，得到的符号向量之间的距离的均值；E{sign(PX+U)^Tsign(PX'+U)|R}表示R中不同类的高维特征向量经过P变换、并经过阈值向量U比较确定正负符号后，得到的符号向量之间的距离的均值；其中，符号向量之间的距离反映了该符号向量进行二值化后的比特向量之间的距离。

进一步，对公式4进行转化：

\begin{matrix} L = E {s i g n {(P X + U)}^{T} s i g n ({PX}^{'} + U) | R} - α E {s i g n {(P X + U)}^{T} s i g n ({PX}^{'} + U) | Q} \\ = Σ_{i = 1}^{m} {E {s i g n (P_{i}^{T} X + u_{i}) s i g n (P_{i}^{T} X^{'} + u_{i}) | R} - α E {s i g n (P_{i}^{T} X + u_{i}) s i g n (P_{i}^{T} X^{'} + u_{i}) | Q}} \\ = Σ_{i = 1}^{m} {E {s i g n ((P_{i}^{T} X + u_{i}) (P_{i}^{T} X^{'} + u_{i})) | R} - α E {s i g n ((P_{i}^{T} X + u_{i}) (P_{i}^{T} X^{'} + u_{i})) | Q}} \end{matrix}

其中，P_i ^T表示投影矩阵P的第i行向量；u_i为U(u₁,u₂,...,u_m)的第i个元素；i为1～m的自然数。

这样，可以将求取使得L最小的m维阈值向量，转化为m个独立的求取使得如下表达式7最小的u_i值：

在计算出使得表达式7最小的u_i值后，将得到的u₁～u_m组成m维向量，可以将得到的m维向量作为阈值向量U；作为一种更优的实施方式，还可继续对得到的由u₁～u_m组成m维向量进行优化，将优化后的m维向量作为最终的阈值向量U：

具体地，对于计算出的元素u_i，利用如下公式5和公式6，求取使得FN(u_i)+α×FP(u_i)最小的u_i值，作为优化后的u_i值：

FN(u_i)＝Pr(min{z,z'}≥u_i or max{z,z'}<u_i|Q) (公式5)

FP(u_i)＝Pr(min{z,z'}<u_i≤max{z,z'}|R) (公式6)

其中，z＝P_i ^TX和z'＝P_i ^TX'；min{z,z'}表示求取两个元素z和z'中的最小值，max{z,z'}表示求取两个元素z和z'中的最大值；

公式5中，(min{z,z'}≥u_i or max{z,z'}<u_i|Q)中的z和z'表示Q中任意一个集合元素中的一对同类的高维特征向量X和X'分别经过投影矩阵P变换后得到的向量的第i个元素，Pr(min{z,z'}≥u_i or max{z,z'}<u_i|Q)表示对于Q中的集合元素，u_i满足如下条件：min{z,z'}≥u_i or max{z,z'}<u_i的概率；

公式6中，(min{z,z'}<u_i≤max{z,z'}|R)中的z和z'表示R中任意一个集合元素中的一对不同类的高维特征向量X和X'分别经过投影矩阵P变换后得到的向量的第i个元素，Pr(min{z,z'}<u_i≤max{z,z'}|R)表示对于R中的集合元素，u_i满足如下条件：min{z,z'}<u_i≤max{z,z'}的概率；

将优化后的u₁～u_m组成m维向量作为最终的阈值向量U。

由于表达式7中的第一项E{sign((P_i ^TX+u_i)(P_i ^TX'+u_i))|R}的值正比于FP(u_i)，第二项E{sign((P_i ^TX+u_i)^T(P_i ^TX'+u_i))|Q}的值正比于FN(u_i)，且根据数理统计知识，可以很容易的根据已分类的多媒体信息估算出来，因此，可以通过求取使得FN(u_i)+α×FP(u_i)最小的u_i值，快速、准确地确定出优化后的最终的阈值向量U。

根据上述的方法，构建出投影矩阵P和阈值向量U后，可以构造出将当前多媒体信息的n维的高维特征向量映射为低维的二值化向量的映射函数Y＝sign(PX+U)。而且，经过该映射函数的映射，将原有高维特征向量转换成比特向量后具有类内聚集、类间离散的效果，从而保证了原有向量的识别能力。

使用上述构造的映射函数可以将高维特征向量映射为低维的二值化向量，进而进行基于比特向量的多媒体信息检索，其方法的流程图如图2所示，包括如下步骤：

S201：提取当前多媒体信息的特征数据后，得到当前多媒体信息的n维的高维特征向量X(x₁,x₂,...,x_n)。

S202：将X(x₁,x₂,...,x_n)通过投影矩阵P变换后得到m维的中间向量W(w₁,w₂,...,w_m)。

具体地，可以根据构造映射函数时，所构建出的投影矩阵P对n维的高维特征向量X(x₁,x₂,...,x_n)进行变换，得到m维的中间向量PX，记为W(w₁,w₂,...,w_m)。

S203：将m维的阈值向量的各元素分别与中间向量的相应元素进行比较，根据比较结果对中间向量进行二值化，得到当前多媒体信息的m维的比特向量；其中，m小于n。

具体地，可以根据构造映射函数时，所计算出的m维的阈值向量U，将U(u₁,u₂,...,u_m)的各元素分别与中间向量W(w₁,w₂,...,w_m)的相应元素进行比较，根据比较结果对中间向量进行二值化，得到当前多媒体信息的m维的比特向量。

其中，可以根据映射函数对中间向量进行二值化：求取W+U，即PX+U后，求取sign(PX+U)并得到符号向量后，将符号向量的每个元素以比特(0或1)表示，得到相应的比特向量。这样，由于m小于n，对中间向量进行二值化后，实现了将当前多媒体信息的n维的高维特征向量映射为低维(m维)的比特向量。

S204：根据得到的比特向量，在多媒体特征数据库中查找出与该比特向量相似的比特向量，将查找出的比特向量所对应的多媒体信息作为检索结果输出。

具体地，可以根据现有的基于比特向量的多媒体信息检索方法(如以下图4所示的方法)，进行基于比特向量的多媒体信息的检索，以得到检索结果。

本发明实施例还提供了一种基于比特向量的多媒体信息检索***，其内部结构框图如图3a或3b所示，具体包括：比特向量转换模块301和检索模块302。

比特向量转换模块301用于提取当前多媒体信息的特征数据后，得到当前多媒体信息的n维的高维特征向量，记为X(x₁,x₂,...,x_n)；将高维特征向量X(x₁,x₂,...,x_n)通过投影矩阵P变换后得到m维的中间向量W(w₁,w₂,...,w_m)后，将m维的阈值向量的各元素分别与中间向量的相应元素进行比较，根据比较结果对中间向量进行二值化，得到当前多媒体信息的m维的比特向量；其中，m小于n。

检索模块302用于根据比特向量转换模块301得到的当前多媒体信息的比特向量，在多媒体特征数据库中查找出与该比特向量相似的比特向量，将查找出的比特向量所对应的多媒体信息作为检索结果输出。

其中，投影矩阵P为m×n的矩阵，并满足以下条件：对于资料库中存储的各已分类的多媒体信息的高维特征向量，其中同类的高维特征向量经过P变换后的向量间距离期望值，与不同类的高维特征向量经过P变换后的向量间距离期望值的差值最小。

阈值向量满足以下条件：对于资料库中存储的各多媒体信息的高维特征向量，其中同类的高维特征向量经过P变换、并经过所述阈值向量比较、二值化后的向量间距离期望值，与不同类的高维特征向量经过P变换、并经过阈值向量比较、二值化后的向量间距离期望值的差值最小。

上述的比特向量转换模块301具体包括：高维特征向量确定单元311、中间向量计算单元312和阈值比较单元313。

高维特征向量确定单元311用于提取当前多媒体信息的特征数据后，得到当前多媒体信息的n维的高维特征向量，记为X(x₁,x₂,...,x_n)。

中间向量计算单元312用于将高维特征向量确定单元311得到的高维特征向量X(x₁,x₂,...,x_n)通过投影矩阵P变换后得到m维的中间向量W(w₁,w₂,...,w_m)。

阈值比较单元313用于将m维的阈值向量的各元素分别与中间向量计算单元312得到的中间向量的相应元素进行比较，根据比较结果对中间向量进行二值化，得到当前多媒体信息的m维的比特向量；其中，m小于n。

进一步，基于比特向量的多媒体信息检索***，还包括：投影矩阵构建模块303。

投影矩阵构建模块303用于通过资料库中存储的多媒体信息训练出投影矩阵P：对于资料库中存储的多媒体信息，将其中任意一对同类的多媒体信息的高维特征向量作为一个集合元素，存储到同类样本集合中；并将其中任意一对不同类的多媒体信息的高维特征向量作为一个集合元素，存储到非同类样本集合中；构建出使得如下公式1中最小的投影矩阵P：

上述的影矩阵构建模块303具体包括：最小矩阵特征向量计算单元331和投影矩阵确定单元332。

最小矩阵特征向量计算单元331用于求取矩阵∑_G的m个最小的n维矩阵特征向量；其中，所述∑_Q如公式2所示、所述∑_R如公式3所示：

∑_Q＝E{(X-X')(X-X')^T|Q} (公式2)

∑_R＝E{(X-X')(X-X')^T|R} (公式3)

所述公式3中，E{(X-X')(X-X')^T|R}表示所述R中不同类的高维特征向量间的协方差矩阵的均值。

投影矩阵确定单元332用于由最小矩阵特征向量计算单元331求取的m个n维的高维特征向量，构成m×n的投影矩阵P。

进一步，基于比特向量的多媒体信息检索***，还包括：第一阈值向量确定模块304(如图3a所示)，或者第二阈值向量确定模块305(如图3b所示)。

第一阈值向量确定模块304用于计算出使得如下公式4中L最小的m维向量，记为U(u₁,u₂,...,u_m)，并作为所述阈值向量：

L＝E{sign(PX+U)^Tsign(PX'+U)|R}-αE{sign(PX+U)^Tsign(PX'+U)|Q} (公式4)

上述的第一阈值向量确定模块304具体包括：最小值计算单元341和向量组成单元342。

最小值计算单元341用于求取使得如下表达式7最小的u_i值；其中，i为1～m的自然数；

其中，P_i ^T为所述投影矩阵P的第i行向量；u_i为U(u₁,u₂,...,u_m)的第i个元素。

向量组成单元342用于将最小值计算单元341得到的u₁～u_m组成m维向量U(u₁,u₂,...,u_m)，作为阈值向量。

第二阈值向量确定模块305用于计算出使得如下公式4中L最小的m维向量，记为U(u₁,u₂,...,u_m)：

L＝E{sign(PX+U)^Tsign(PX'+U)|R}-αE{sign(PX+U)^Tsign(PX'+U)|Q} (公式4)

第二阈值向量确定模块305对U(u₁,u₂,...,u_m)进行优化后，得到所述阈值向量。

上述的第二阈值向量确定模块305具体包括：最小值计算单元351、向量优化单元352和向量组成单元353。

最小值计算单元351与上述的最小值计算单元341的功能相同，此处不再赘述。

向量优化单元352用于对最小值计算单元351求取的U(u₁,u₂,...,u_m)的元素u_i值进行优化：对于所述阈值向量U的元素u_i，利用如下公式5和公式6，求取使得FN(u_i)+α×FP(u_i)最小的u_i值，作为优化后的u_i值；

FN(u_i)＝Pr(min{z,z'}≥u_i or max{z,z'}<u_i|Q) (公式5)

FP(u_i)＝Pr(min{z,z'}<u_i≤max{z,z'}|R) (公式6)

向量组成单元353用于将向量优化单元352优化后的u₁～u_m组成所述阈值向量。

如图4所示，可以根据现有的基于分段索引思想设计的多媒体信息检索方法，进行基于比特向量的多媒体信息的检索，以得到检索结果，具体包括如下步骤：

S401：提取出当前多媒体信息的特征数据，将当前多媒体信息的n维的高维特征向量映射为m维的比特向量，得到当前多媒体信息的比特向量。

具体地，提取出当前多媒体信息的特征数据后，采用上述本发明的方法，将当前多媒体信息的n维的高维特征向量映射为m维的比特向量，得到当前多媒体信息的比特向量。

S402：将当前多媒体信息的比特向量进行均匀分割，得到当前多媒体信息的k个子向量。

具体地，当前多媒体信息的第j个子向量由当前多媒体信息的比特向量均匀分割后的第j组元素组成，其中第j组元素具体包括当前多媒体信息的比特向量中的第(j-1)×v+1个元素～第j×l个元素；其中j为1～k的自然数，v为每个子向量(或每组元素)中的向量元素个数。

S403：针对当前多媒体信息的每个子向量，分别确定对应该子向量的候选集合。

具体地，针对当前多媒体信息的各子向量，分别确定出对应的候选集合，从而确定出k个候选集合；其中，在确定对应当前多媒体信息的第j个子向量的候选集合的过程中，对于所述当前多媒体信息的第j个子向量，其对应的候选集合根据如下方法确定：在第j个索引结构的索引集中查找出与该待检索多媒体信息的第j个子向量相同的索引，并将查找出的索引所对应的向量标识集合作为对应当前多媒体信息的第j个子向量的候选集合。

其中，每个待检索多媒体信息的比特向量及其向量标识预先存储于多媒体特征数据库中，并针对每个待检索多媒体信息，预先将该待检索多媒体信息的特征比特向量进行均匀分割，建立分段索引，得到k个索引结构。

S404：对于得到的候选集合中的各向量标识，分别在多媒体特征数据库中查找出对应的比特向量。

具体地，对于上述步骤S403中得到的对应当前多媒体信息的各子向量的候选集合，即k个候选集合，在多媒体特征数据库中查找出对应候选集合中的各向量标识的比特向量。

S405：计算当前多媒体信息的比特向量与查找到的比特向量之间的汉明距离。

S406：将汉明距离符合设定条件的比特向量所对应的多媒体信息作为检索结果输出。

具体地，符合设定条件的比特向量具体可以是：与当前多媒体信息的比特向量的汉明距离小于等于d的比特向量；较优地，上述的k大于d，即d小于等于k，这样可以保证不会出现漏检，即符合设定条件的比特向量的向量标识都包括在候选集合中。通常，为满足检索要求，本领域技术人员将汉明距离d值设置为一个较小的数，比如小于3或4的数；因此，通常v至少为两位数，甚至更大。

综上所述，本发明技术方案中，由于当前多媒体信息的高维特征向量转换成比特向量后具有类内聚集、类间离散的效果，从而保证了原有向量识别能力；这样，应用成熟的基于低维的比特向量的检索技术，可以实现相比于基于高维特征向量的检索技术更高的检索效率，和更小的检索消耗，而且使得基于比特向量的多媒体信息的检索得出的检索结果更为准确，降低了检索的错误匹配率。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以作出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于比特向量的多媒体信息检索方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，在所述提取当前多媒体信息的特征数据之前，还包括：

通过所述资料库中存储的多媒体信息训练出所述投影矩阵P：

构建出使得如下公式1中最小的投影矩阵P：

其中，Q为所述同类样本集合；R为所述非同类样本集合；E{||PX-PX'||²|Q}表示所述Q中同类的高维特征向量经过P变换后的向量间距离期望值，其中的X和X'表示Q中任意一个集合元素中的一对同类的高维特征向量；E{||PX-PX'||²|R}表示所述R中不同类的高维特征向量经过P变换后的向量间距离期望值，其中的X和X'表示R中任意一个集合元素中的一对不同类的高维特征向量；α为设定的权值。

3.如权利要求2所述的方法，其特征在于，所述构建出使得如下公式1中最小的投影矩阵P，具体包括：

求取矩阵Σ_G的m个最小的n维矩阵特征向量；其中，所述Σ_Q如公式2所示、所述Σ_R如公式3所示：

Σ_Q＝E{(X-X')(X-X')^T|Q} (公式2)

Σ_R＝E{(X-X')(X-X')^T|R} (公式3)

由求取的m个n维矩阵特征向量，构成m×n的投影矩阵P。

4.如权利要求2所述的方法，其特征在于，在所述通过所述资料库中存储的多媒体信息训练出所述投影矩阵P后，还包括：

L＝E{sign(PX+U)^Tsign(PX'+U)|R}-αE{sign(PX+U)^Tsign(PX'+U)|Q} (公式4)

5.如权利要求2所述的方法，其特征在于，在所述通过所述资料库中存储的多媒体信息训练出所述投影矩阵P后，还包括：

L＝E{sign(PX+U)^Tsign(PX'+U)|R}-αE{sign(PX+U)^Tsign(PX'+U)|Q} (公式4)

之后，对U(u₁,u₂,...,u_m)进行优化后，得到所述阈值向量：

FN(u_i)＝Pr(min{z,z'}≥u_i or max{z,z'}＜u_i|Q) (公式5)

FP(u_i)＝Pr(min{z,z'}＜u_i≤max{z,z'}|R) (公式6)

所述公式5中，(min{z,z'}≥u_i or max{z,z'}＜u_i|Q)中的z和z'表示所述Q中任意一个集合元素中的一对同类的高维特征向量X和X'分别经过所述投影矩阵P变换后得到的向量的第i个元素，Pr(min{z,z'}≥u_i or max{z,z'}＜u_i|Q)表示对于所述Q中的集合元素，u_i满足如下条件：min{z,z'}≥u_i or max{z,z'}＜u_i的概率；

所述公式6中，(min{z,z'}＜u_i≤max{z,z'}|R)中的z和z'表示所述R中任意一个集合元素中的一对不同类的高维特征向量X和X'分别经过所述投影矩阵P变换后得到的向量的第i个元素，Pr(min{z,z'}＜u_i≤max{z,z'}|R)表示对于所述R中的集合元素，u_i满足如下条件：min{z,z'}＜u_i≤max{z,z'}的概率。

6.如权利要求4或5所述的方法，其特征在于，所述计算出使得L最小的m维向量，具体包括：

求取使得如下表达式7最小的u_i值；其中，i为1～m的自然数；

并将得到的u₁～u_m组成所述m维向量。

7.一种基于比特向量的多媒体信息检索***，其特征在于，包括：

8.如权利要求7所述的***，其特征在于，所述比特向量转换模块具体包括：

9.如权利要求8所述的***，其特征在于，还包括：

其中，Q为所述同类样本集合；R为所述非同类样本集合；E{||PX-PX'||²|Q}表示所述Q中同类的高维特征向量经过P变换后的向量间距离期望值，其中的X和X'表示Q中任意一个集合元素中的一对同类的高维特征向量；E{||PX-PX'||²|R}表示所述R中不同类的高维特征向量经过P变换后的向量间距离期望值，其中的X和X'表示R中任意一个集合元素中的一对不同类的高维特征向量；α为设定的权值；

L＝E{sign(PX+U)^Tsign(PX'+U)|R}-αE{sign(PX+U)^Tsign(PX'+U)|Q} (公式4)

10.如权利要求9所述的***，其特征在于，所述第一阈值向量确定模块具体包括：

11.如权利要求8所述的***，其特征在于，还包括：

L＝E{sign(PX+U)^Tsign(PX'+U)|R}-αE{sign(PX+U)^Tsign(PX'+U)|Q} (公式4)

12.如权利要求11所述的***，其特征在于，所述第二阈值向量确定模块具体包括：

FN(u_i)＝Pr(min{z,z'}≥u_i or max{z,z'}＜u_i|Q) (公式5)

FP(u_i)＝Pr(min{z,z'}＜u_i≤max{z,z'}|R) (公式6)

所述公式6中，(min{z,z'}＜u_i≤max{z,z'}|R)中的z和z'表示所述R中任意一个集合元素中的一对不同类的高维特征向量X和X'分别经过所述投影矩阵P变换后得到的向量的第i个元素，Pr(min{z,z'}＜u_i≤max{z,z'}|R)表示对于所述R中的集合元素，u_i满足如下条件：min{z,z'}＜u_i≤max{z,z'}的概率；

13.如权利要求7-12任一所述的***，其特征在于，投影矩阵构建模块具体包括：

最小矩阵特征向量计算单元，用于求取矩阵Σ_G的m个最小的n维矩阵特征向量；其中，所述Σ_Q如公式2所示、所述Σ_R如公式3所示：

Σ_Q＝E{(X-X')(X-X')^T|Q} (公式2)

所述公式2中，E{(X-X')(X-X')^T|Q}表示所述Q中同类的高维特征向量间的协方差矩阵的均值，其中的X和X'表示Q中任意一个集合元素中的一对同类的高维特征向量；

∑_R＝E{(X-X')(X-X')^T|R} (公式3)

所述公式3中，E{(X-X')(X-X')^T|R}表示所述R中不同类的高维特征向量间的协方差矩阵的均值，其中的X和X'表示R中任意一个集合元素中的一对不同类的高维特征向量；