CN104123382A

CN104123382A - 一种社会媒体下的图像集摘要生成算法

Info

Publication number: CN104123382A
Application number: CN201410376990.9A
Authority: CN
Inventors: 赵烨; 洪日昌; 汪萌; 刘学亮; 郝世杰
Original assignee: Hefei University of Technology
Current assignee: Hefei University of Technology
Priority date: 2014-07-31
Filing date: 2014-07-31
Publication date: 2014-10-29
Anticipated expiration: 2034-07-31
Also published as: CN104123382B

Abstract

本发明公开了一种社会媒体下的图像集摘要生成算法，首先提取社会媒体下的图像集中图像的视觉特征；然后对提取的局部特征和全局特征进行融合和匹配；接着利用最优特征点的空间约束关系构成空间位置地图并构成简化的几何约束代表数据集，进一步滤除噪声点；其次建立基于近邻传播的自动聚类模型；最后采用聚类有效性指标查找一组最优类中心。本发明能够充分利用图像的多模态特征，对社会媒体下的图像集中大量相关图像进行摘要，从而准确生成一组最优代表性图像。

Description

一种社会媒体下的图像集摘要生成算法

技术领域

本发明涉及社会媒体图像集的分析与检索领域，具体是一种社会媒体下的图像集摘要生成算法。

背景技术

随着互联网技术的飞速发展和多媒体技术的广泛应用，互联网地位不断提升，并成为人们交流和共享信息的主要平台。网络用户自发贡献图片和视频等多媒体资料，并通过分享、评价、讨论等方式传播，从而海量的图片潮水般的涌向网络。在如此浩瀚的图片海洋中，找到那个我们想要的图片并非易事。当我们发起一个查询，返回给我们的是一个庞大的多媒体图片集队列，并且有大量内容重复或部分重复的数据，同时也包含相当数量与查询内容弱相关或不相关的数据。如何快速并且准确地从这样一个充斥着大量冗余和噪声数据的大规模图片集合中浏览和获取用户所需信息，已经成为迫切需要解决的问题。

近年来，图像集摘要作为一种有效的信息处理方法，得到了学术界越来越多的关注。目前存在的图像集的摘要技术，主要使用尺度不变的局部SIFT特征作为图像的视觉特征，SIFT特征虽然有较好的稳定性，但由其特征维度较高，所以计算代价较大。

在数据挖掘领域，聚类是一种非常有效的将输入空间划分成簇的无监督模式分类方法，被广泛应用于模式识别、数据分析、信息检索等领域。聚类分析从数据集中发现数据间的相似性，并根据相似性对数据进行分类，同一簇内的数据尽可能相似，不同簇间的数据尽可能的相异，其目标是识别数据集的自然结构。但是，目前所提出的聚类分析用于图像集摘要生成时，存在以下的缺陷和不足：

第一，传统的聚类方法需要预先给定簇的个数，或者对一个基本的数据集假设一些可能的分布。这些需求具有不可操作性，因为用户在聚类分析之前可能并没有这方面的信息。很多聚类方法只能凭经验指定簇个数。簇个数越少使得计算简单但数据集划分的准确度低，簇个数越高使得数据集的划分准确度高但摘要图像有冗余。

第二、传统的聚类算法依赖于初始聚类中心，所以结果往往不稳定。

第三，一个最优的聚类算法是不存在的，没有一个聚类方法适合于所有的数据集。

发明内容

本发明的目的是提供一种社会媒体下的图像集摘要生成算法，以避免现有技术所存在的不足之处，能够充分利用图像的视觉特征，对互联网平台的社会化图像集自动生成摘要，从而准确地表示出与事件最相关的一组社会化图像。

为了达到上述目的，本发明所采用的技术方案为：

一种社会媒体下的图像集摘要生成算法，其特征在于：包括以下步骤：

(1)、提取社会媒体图像集I中图像I_i(1≤i≤n)的视觉特征，其中包括局部SURF特征、全局颜色特征和纹理特征，然后构建特征空间矩阵；

(2)、匹配特征空间，用最近邻比率找到一组最优匹配点对，构造空间地图，对于任意N个匹配点，第i个和第j个匹配点的位置关系使得空间信息表M中元素取值如公式(1)、公式(2)所示，

M (i, j) = \{\begin{matrix} 0, x_{i} < x_{j} \\ 1, x_{i} &GreaterEqual; x_{j} \end{matrix} - - - (1)

M (j, i) = \{\begin{matrix} 0, y_{i} < y_{j} \\ 1, y_{i} &GreaterEqual; y_{j} \end{matrix} - - - (2)

其中M_ij为M矩阵的第i行第j列的元素，x_i、y_i分别是匹配点i的坐标，x_j、y_j分别是匹配点j的坐标，根据匹配点最近邻比率越小正确率越高的特点，挑选前T个最优匹配点，两两组合分别构造个参考坐标，对应两个匹配点a和b，且a<b，以a点为中心，a点指向b点作为x轴正方向，从而确定了坐标旋转角度β如公式(3)所示：

β = \arctan (\frac{y_{b} - y_{a}}{x_{b} - x_{a}}) - - - (3)

其中，x_a、y_a是a点坐标，x_b、y_b是b点坐标。

匹配点(x,y)在新坐标系下的坐标(x^k,y^k)如公式(4)所示：

[\begin{matrix} x^{k} \\ y^{k} \end{matrix}] = [\begin{matrix} \cos β & \sin β \\ - \sin & \cos β \end{matrix}] [\begin{matrix} x - x_{a} \\ y - y_{a} \end{matrix}] - - - (4)

那么形成了3维空间约束矩阵M如公式(5)、公式(6)所示：

M (i, j, k) = \{\begin{matrix} 0 & x_{i}^{k} < x_{j}^{k} \\ 1 & x_{i}^{k} &GreaterEqual; x_{j}^{k} \end{matrix} - - - (5)

M (j, i, k) = \{\begin{matrix} 0 & y_{i}^{k} < y_{j}^{k} \\ 1 & y_{i}^{k} &GreaterEqual; y_{j}^{k} \end{matrix} - - - (6)

其中，k∈1,2,L,K；

(3)简化随机抽样一致性拟合初始模型参数的过程，选择少数最优匹配点作为初始样本数据，可以通过设置尽量少的迭代次数来得到尽量真实的单应性矩阵参数，

选择投影变换矩阵作为图像变换模型，变换关系如公式(7)所示：

[\begin{matrix} ω x_{2} \\ ω y_{2} \\ ω \end{matrix}] = [\begin{matrix} h_{1} & h_{2} & h_{3} \\ h_{4} & h_{5} & h_{6} \\ h_{7} & h_{8} & 1 \end{matrix}] [\begin{matrix} x_{1} \\ y_{1} \\ 1 \end{matrix}] - - - (7)

这里，(x₂,y₂)是原图像中点坐标(x₁,y₁)经过投影变换后的点坐标，h₁,h₂,Λ,h₈是单应性矩阵参数，ω是尺度因子。这是8个参数的投影变换，至少需要4个匹配对来生成，利用最小二乘法求解这8个参数，如公式(8)所示：

H＝-[C^TC]^-1C^TL (8)

其中，

L = \frac{1}{ω} {[\begin{matrix} x_{2} & y_{2} \end{matrix}]}^{T} - - - (9)

H＝[h₁ h₂ h₃ h₄ h₅ h₆ h₇ h₈] (10)

C = \frac{1}{ω} [\begin{matrix} - x_{1} & y_{1} & 1 & 0 & 0 & 0 & - x_{2} x_{1} & - x_{2} y_{1} \\ 0 & 0 & 0 & x_{1} & y_{1} & 1 & - y_{2} x_{1} & - y_{2} y_{1} \end{matrix}] - - - (11)

先设ω＝1，得到H的一组值，再用此值计算出ω的值，进行多次迭代求出稳定的H，

初始样本数据数目n由公式(12)所示：

n＝min{N₀,max{n₀,n₀ log₂ μN₀}} (12)

这里N₀是一次匹配的匹配点数目，并且N₀≥4，n₀为样本数目步长，μ为比例因数；

(4)、待配准的两幅图像根据相应的匹配对分别产生空间约束矩阵M′和M，对M′和M矩阵中的异值点进行统计，生成异值矩阵W如公式(13)所示：，

W(i,j,k)＝M′(i,j,k)⊕M(i,j,k) (13)

为了确保匹配精度，K值选择应大于2，但考虑到运算速度，K取值又不能过大，一般选择K＝3，最后得到特征点在空间约束矩阵下的错误率为d_i如公式(14)所示：

d_{i} = Σ_{k = 1}^{K} {Σ_{j = 1}^{N} (W (i, j, k) + W (j, i, k))} - - - (14)

设模型参数变换得到匹配点坐标值与实际坐标的距离值为d_j，根据式(15)进行匹配点判别，由于透视变换矩阵仅为少数数据得出，不能保证求得最精确的结果，所以采用两个约束条件相互补充，如公式(15)所示：

d_i·d_j(1+α)<γ (15)

公式中α为比例因子，γ均为距离阈值；

(5)、建立基于近邻传播的自动聚类模型，采用对分搜索方法输出一系列簇数目的聚类结果，设定有效性指标L，通过对结果的L指标分析进而确定最佳簇数目如公式(16)所示：

L = \frac{| ACID - ACOD |}{ACID + ACOD} - - - (16)

其中，ACID为平均最小类间距离，ACOD为平均类间距离，如公式(17)、(18)所示：

ACID = \frac{1}{C} Σ_{k = 1}^{C} (\frac{1}{N_{k}} Σ_{i = 1}^{N_{k}} (\frac{1}{N_{k} - 1} Σ_{j = 1, j &NotEqual; i}^{N_{k}} | | x_{i}^{(k)} - x_{j}^{(k)} | |)), - - - (17)

ACOD = \frac{1}{C} Σ_{k = 1}^{C} (\frac{1}{N_{k}} Σ_{i = 1}^{N_{k}} (\frac{1}{C - 1} Σ_{p = 1, p &NotEqual; k}^{C} (\frac{1}{N_{p}} Σ_{j = 1}^{N_{p}} | | x_{i}^{(k)} - x_{j}^{(p)} | |))) - - - (18)

(6)、根据有效性指标找到最优的聚类数目对应着对图像集的分类，同时获得一组聚类中心作为这个数据集的一组代表图像，并构成图像集摘要。

与已有技术相比，本发明有益效果体现在：

1、本发明提出了一种基于空间约束的快速鲁棒特征匹配优化方法。通过图像视觉特征进行统一建模，采用最近邻比率方法匹配特征点，得到的最优匹配点作为参考点生成新的坐标系，利用空间位置关系地图对每对匹配点进行编码。建立了有效的特征点的匹配模型，用于对样本进行特征降维，去除误匹配点，从而能够有效的、准确的根据匹配模型对特征点进行特征匹配。

2、本发明简化了随机抽样一致性的几何校验算法，通过选择少量的最优匹配点对作为随机抽样一致性的代表测试数据集，并由该测试数据集拟合目标投影变换矩阵。从而解决了几何校验计算成本高昂的问题，同时也提高了匹配精度。

3、本发明引入了基于有效性指标判别的自动聚类的方法，通过对分法搜索近邻传播聚类的偏向参数，利用有效性指标判别最优聚类数目，实现自动生成摘要。

附图说明

图1为本发明具体实施例中视角变化时特征匹配性能比较图。

图2为本发明具体实施例中缩放旋转变化时特征匹配性能比较图。

图3为本发明具体实施例中光照变化时特征匹配性能比较图。

图4为本发明具体实施例中图像模糊时各特征匹配性能比较图。

图5为本发明具体实施例中JPEG压缩时各特征匹配性能比较图。

具体实施方式

一种社会媒体下的图像集摘要生成算法，包括以下步骤：

M (i, j) = \{\begin{matrix} 0, x_{i} < x_{j} \\ 1, x_{i} &GreaterEqual; x_{j} \end{matrix} - - - (1)

M (j, i) = \{\begin{matrix} 0, y_{i} < y_{j} \\ 1, y_{i} &GreaterEqual; y_{j} \end{matrix} - - - (2)

其中M_ij为M矩阵的第i行第j列的元素，x_i、y_i分别是匹配点i的坐标，x_j、y_j分别是匹配点j的坐标，根据匹配点最近邻比率越小正确率越高的特点，挑选前T个最优匹配点，两两组合分别构造个参考坐标，对应两个匹配点a和b，且a<b，以a点为中心，a点指向b两点作为x轴正方向，从而确定了坐标旋转角度β如公式(3)所示：

β = \arctan (\frac{y_{b} - y_{a}}{x_{b} - x_{a}}) - - - (3)

其中，x_a、y_a是a点坐标，x_b、y_b是b点坐标。

匹配点(x,y)在新坐标系下的坐标(x^k,y^k)如公式(4)所示：

[\begin{matrix} x^{k} \\ y^{k} \end{matrix}] = [\begin{matrix} \cos β & \sin β \\ - \sin & \cos β \end{matrix}] [\begin{matrix} x - x_{a} \\ y - y_{a} \end{matrix}] - - - (4)

那么形成了3维空间约束矩阵M如公式(5)、公式(6)所示：

M (i, j, k) = \{\begin{matrix} 0 & x_{i}^{k} < x_{j}^{k} \\ 1 & x_{i}^{k} &GreaterEqual; x_{j}^{k} \end{matrix} - - - (5)

M (j, i, k) = \{\begin{matrix} 0 & y_{i}^{k} < y_{j}^{k} \\ 1 & y_{i}^{k} &GreaterEqual; y_{j}^{k} \end{matrix} - - - (6)

其中，k∈1,2,L,K；

[\begin{matrix} ω x_{2} \\ ω y_{2} \\ ω \end{matrix}] = [\begin{matrix} h_{1} & h_{2} & h_{3} \\ h_{4} & h_{5} & h_{6} \\ h_{7} & h_{8} & 1 \end{matrix}] [\begin{matrix} x_{1} \\ y_{1} \\ 1 \end{matrix}] - - - (7)

H＝-[C^TC]^-1C^TL (8)

其中，

L = \frac{1}{ω} {[\begin{matrix} x_{2} & y_{2} \end{matrix}]}^{T} - - - (9)

H＝[h₁ h₂ h₃ h₄ h₅ h₆ h₇ h₈] (10)

C = \frac{1}{ω} [\begin{matrix} - x_{1} & y_{1} & 1 & 0 & 0 & 0 & - x_{2} x_{1} & - x_{2} y_{1} \\ 0 & 0 & 0 & x_{1} & y_{1} & 1 & - y_{2} x_{1} & - y_{2} y_{1} \end{matrix}] - - - (11)

初始样本数据数目n由公式(9)所示：

n＝min{N₀,max{n₀,n₀ log₂μN₀}} (9)

(4)、待配准的两幅图像根据相应的匹配对分别产生空间约束矩阵M′和M，对M′和M矩阵中的异值点进行统计，生成异值矩阵W如公式(10)所示：，

W(i,j,k)＝M′(i,j,k)⊕M(i,j,k) (10)

为了确保匹配精度，K值选择应大于2，但考虑到运算速度，K取值又不能过大，一般选择K＝3，最后得到特征点在空间约束矩阵下的错误率为d_i如公式(11)所示：

d_{i} = Σ_{k = 1}^{K} {Σ_{j = 1}^{N} (W (i, j, k) + W (j, i, k))} - - - (11)

设模型参数变换得到匹配点坐标值与实际坐标的距离值为d_j，根据式(12)进行匹配点判别，由于透视变换矩阵仅为少数数据得出，不能保证求得最精确的结果，所以采用两个约束条件相互补充，如公式(12)所示：

d_i·d_j(1+α)<γ (12)

公式中α为比例因子，γ均为距离阈值；

(5)、建立基于近邻传播的自动聚类模型，采用对分搜索方法输出一系列簇数目的聚类结果，设定有效性指标L，通过对结果的L指标分析进而确定最佳簇数目如公式(13)所示：

L = \frac{| ACID - ACOD |}{ACID + ACOD} - - - (13)

其中，ACID为平均最小类间距离，ACOD为平均类间距离，如公式(14)、(15)所示：

ACID = \frac{1}{C} Σ_{k = 1}^{C} (\frac{1}{N_{k}} Σ_{i = 1}^{N_{k}} (\frac{1}{N_{k} - 1} Σ_{j = 1, j &NotEqual; i}^{N_{k}} | | x_{i}^{(k)} - x_{j}^{(k)} | |)), - - - (14)

ACOD = \frac{1}{C} Σ_{k = 1}^{C} (\frac{1}{N_{k}} Σ_{i = 1}^{N_{k}} (\frac{1}{C - 1} Σ_{p = 1, p &NotEqual; k}^{C} (\frac{1}{N_{p}} Σ_{j = 1}^{N_{p}} | | x_{i}^{(k)} - x_{j}^{(p)} | |))) - - - (15)

本实施例中，一种基于社会媒体的图像集摘要生成算法是按如下步骤进行：

步骤1、提取社会媒体图像集I中图像I_i(1≤i≤n)的视觉特征，其中包括局部特征、全局特征，构建特征空间矩阵。所述图像局部特征采用快速鲁棒特征模型表示，所述全局特征采用颜色特征和纹理特征表示。

步骤2、对任意的图像集合中的样本图像，根据所述特征建立特征空间，并两两特征空间匹配，用最近邻比率找到一组最优匹配点对，构造空间地图。

步骤2.1、对于任意N个匹配点，第i个和第j个匹配点的位置关系使得空间信息表M中元素取值如式(1)，式(2)所示，

M (i, j) = \{\begin{matrix} 0, x_{i} < x_{j} \\ 1, x_{i} &GreaterEqual; x_{j} \end{matrix} - - - (1)

M (j, i) = \{\begin{matrix} 0, y_{i} < y_{j} \\ 1, y_{i} &GreaterEqual; y_{j} \end{matrix} - - - (2)

其中M_ij为M矩阵的第i行第j列的元素，x_i、y_i分别是匹配点i的坐标，x_j、y_j分别是匹配点j的坐标。

步骤2.2、根据匹配点最近邻比率越小正确率越高的特点，挑选前T个最优匹配点，两两组合分别构造个参考坐标。对应两个匹配点a和b，且a<b，以a点为中心，a点指向b点作为x轴正方向，从而确定了坐标旋转角度β

β = \arctan (\frac{y_{b} - y_{a}}{x_{b} - x_{a}}) - - - (3)

其中，x_a、y_a是a点坐标，x_b、y_b是b点坐标。

匹配点在新坐标系下的坐标为

[\begin{matrix} x^{k} \\ y^{k} \end{matrix}] = [\begin{matrix} \cos β & \sin β \\ - \sin & \cos β \end{matrix}] [\begin{matrix} x - x_{a} \\ y - y_{a} \end{matrix}] - - - (4)

那么形成了3维空间约束矩阵M

M (i, j, k) = \{\begin{matrix} 0 & x_{i}^{k} < x_{j}^{k} \\ 1 & x_{i}^{k} &GreaterEqual; x_{j}^{k} \end{matrix} - - - (5)

M (j, i, k) = \{\begin{matrix} 0 & y_{i}^{k} < y_{j}^{k} \\ 1 & y_{i}^{k} &GreaterEqual; y_{j}^{k} \end{matrix} - - - (6)

其中，k∈1,2,L,K。

步骤3、简化随机抽样一致性拟合初始模型参数的过程，选择少数最优匹配点作为初始样本数据，可以通过设置尽量少的迭代次数来得到尽量真实的单应性矩阵参数。

选择投影变换矩阵作为图像变换模型，变换关系为：

[\begin{matrix} ω x_{2} \\ ω y_{2} \\ ω \end{matrix}] = [\begin{matrix} h_{1} & h_{2} & h_{3} \\ h_{4} & h_{5} & h_{6} \\ h_{7} & h_{8} & 1 \end{matrix}] [\begin{matrix} x_{1} \\ y_{1} \\ 1 \end{matrix}] - - - (7)

H＝-[C^TC]^-1C^TL (8)

其中，

L = - \frac{1}{ω} {[\begin{matrix} x_{2} & y_{2} \end{matrix}]}^{T} - - - (9)

H＝[h₁ h₂ h₃ h₄ h₅ h₆ h₇ h₈] (10)

C = \frac{1}{ω} [\begin{matrix} - x_{1} & y_{1} & 1 & 0 & 0 & 0 & - x_{2} x_{1} & - x_{2} y_{1} \\ 0 & 0 & 0 & x_{1} & y_{1} & 1 & - y_{2} x_{1} & - y_{2} y_{1} \end{matrix}] - - - (11)

先设ω＝1，得到H的一组值，再用此值计算出ω的值，进行多次迭代求出稳定的H。

初始样本数据数目n由下式确定：

n＝min{N₀,max{n₀,n₀ log₂μN₀}} (12)

这里N₀是一次匹配的匹配点数目，并且N₀≥4，n₀为样本数目步长，μ为比例因数。

步骤4、待配准的两幅图像根据相应的匹配对分别产生空间约束矩阵M′和M，对M′和M矩阵中的异值点进行统计，生成异值矩阵W，

W(i,j,k)＝M′(i,j,k)⊕M(i,j,k) (13)

为了确保匹配精度，K值选择应大于2，但考虑到运算速度，K取值又不能过大，一般选择K＝3。最后得到特征点在空间约束矩阵下的错误率为d_i，

d_{i} = Σ_{k = 1}^{K} {Σ_{j = 1}^{N} (W (i, j, k) + W (j, i, k))} - - - (14)

设模型参数变换得到匹配点坐标值与实际坐标的距离值为d_j，根据式(15)进行匹配点判别，由于透视变换矩阵仅为少数数据得出，不能保证求得最精确的结果，所以采用两个约束条件相互补充，

d_i·d_j(1+α)<γ (15)

式中α为比例因子，γ均为距离阈值。

步骤5、建立基于近邻传播的自动聚类模型，采用对分搜索方法输出一系列簇数目的聚类结果。

步骤5.1、吸引度迭代函数r^(t)(i,k)和归属度迭代函数a^(t)(i,k)：

r^{(t)} (i, k) &LeftArrow; λ r^{(t - 1)} (i, k) + (1 - λ) {s (i, k) + \max_{k^{'} s . t . k^{'} &NotEqual; k} {a (i, k^{'}) + s (i, k^{'})}} - - - (16)

a^{(t)} (i, k) &LeftArrow; λ a^{(t - 1)} (i, k) + (1 - λ) \min {0, r^{(t - 1)} (k, k) + \underset{i^{'} &NotEqual; i, i^{'} &NotEqual; k}{Σ} \max {0, r (i^{'}, k)}} - - - (17)

a^{(t)} (k, k) &LeftArrow; λ a^{(t - 1)} (k, k) + (1 - λ) {\underset{i^{'} &NotEqual; i, i^{'} &NotEqual; k}{Σ} \max {0, r (i^{'}, k)}} - - - (18)

式(16)、(17)、(18)中，λ是阻尼因子，s(i,k)表示点i与点k的相似度，并有：

s(i,k)＝-d²(x_i,x_k)＝-||x_i-x_k||², i≠k (19)

步骤5.2、设定有效性指标L，通过对结果的L指标分析进而确定最佳簇数目。

L = \frac{| ACID - ACOD |}{ACID + ACOD} - - - (20)

式(20)中，ACID表示平均最小类间距离，ACOD表示平均类间距离，并有：

ACID = \frac{1}{C} Σ_{k = 1}^{C} (\frac{1}{N_{k}} Σ_{i = 1}^{N_{k}} (\frac{1}{N_{k} - 1} Σ_{j = 1, j &NotEqual; i}^{N_{k}} | | x_{i}^{(k)} - x_{j}^{(k)} | |)), - - - (21)

ACOD = \frac{1}{C} Σ_{k = 1}^{C} (\frac{1}{N_{k}} Σ_{i = 1}^{N_{k}} (\frac{1}{C - 1} Σ_{p = 1, p &NotEqual; k}^{C} (\frac{1}{N_{p}} Σ_{j = 1}^{N_{p}} | | x_{i}^{(k)} - x_{j}^{(p)} | |))) - - - (22)

步骤6、根据有效性指标找到最优的聚类数目对应着对图像集的分类，同时获得一组聚类中心作为这个数据集的一组代表图像，并构成图像集摘要。

实施例：

为了验证本专利中算法的效果，在社交媒体网站发起100次查询，并建立了100个数据集，每个数据集包含几千张乃至几万张图像样本。采用局部SURF特征、全局颜色特征和纹理特征表示图像信息，采用空间约束矩阵和简化的随机抽样一致性对匹配对进行几何校验，并利用有效性指标判别近邻传播聚类效果，自动聚类选择一组最优的代表图像作为图像集摘要。

为了客观的评价本专利提出的方案的性能，对本发明的特征匹配SC-SURF算法性能采用召回率-准确率，对摘要图像集性能采用平均准确率，对不同实验条件下的结果进行了评测，具体结果如图1-5和表1所示：

表1 基于近邻传播聚类的不同有效性指标下的测试结果

从表1中可以看出，对于UCI数据集，相比其他有效性指标，本文方法能够提高查找集合样本聚类数目的准确率，对于从社交网站查找关键词而获得的人工数据集，其正确聚类数目未知，只能人为判别效果。

Claims

1.一种社会媒体下的图像集摘要生成算法，其特征在于：包括以下步骤：

M (i, j) = \{\begin{matrix} 0, x_{i} < x_{j} \\ 1, x_{i} &GreaterEqual; x_{j} \end{matrix} - - - (1)

M (j, i) = \{\begin{matrix} 0, y_{i} < y_{j} \\ 1, y_{i} &GreaterEqual; y_{j} \end{matrix} - - - (2)

其中M_ij为M矩阵的第i行第j列的元素，x_i、y_i分别是匹配点i的坐标，x_j、y_j分别是匹配点j的坐标，根据匹配点最近邻比率越小正确率越高的特点，挑选前T个最优匹配点，两两组合分别构造个参考坐标，对应两个匹配点a和b，且a<b，以a点为中心，a点指向b点的方向作为x轴正方向，从而确定了坐标旋转角度β如公式(3)所示：

β = \arctan (\frac{y_{b} - y_{a}}{x_{b} - x_{a}}) - - - (3)

其中，x_a、y_a是a点坐标，x_b、y_b是b点坐标。

匹配点(x,y)在新坐标系下的坐标(x^k,y^k)如公式(4)所示：

[\begin{matrix} x^{k} \\ y^{k} \end{matrix}] = [\begin{matrix} \cos β & \sin β \\ - \sin & \cos β \end{matrix}] [\begin{matrix} x - x_{a} \\ y - y_{a} \end{matrix}] - - - (4)

那么形成了3维空间约束矩阵M如公式(5)、公式(6)所示：

M (i, j, k) = \{\begin{matrix} 0 & x_{i}^{k} < x_{j}^{k} \\ 1 & x_{i}^{k} &GreaterEqual; x_{j}^{k} \end{matrix} - - - (5)

M (j, i, k) = \{\begin{matrix} 0 & y_{i}^{k} < y_{j}^{k} \\ 1 & y_{i}^{k} &GreaterEqual; y_{j}^{k} \end{matrix} - - - (6)

其中，k∈1,2,L,K；

[\begin{matrix} ω x_{2} \\ ω y_{2} \\ ω \end{matrix}] = [\begin{matrix} h_{1} & h_{2} & h_{3} \\ h_{4} & h_{5} & h_{6} \\ h_{7} & h_{8} & 1 \end{matrix}] [\begin{matrix} x_{1} \\ y_{1} \\ 1 \end{matrix}] - - - (7)

这里，(x₂,y₂)是原图像中点坐标(x₁,y₁)经过投影变换后的点坐标，h₁,h₂,Λ,h₈是单应性矩阵参数，ω为尺度因子。这是8个参数的投影变换，至少需要4个匹配对来生成，利用最小二乘法求解这8个参数，如公式(8)所示：

H＝-[C^TC]^-1C^TL (8)

其中，

L = \frac{1}{ω} {[\begin{matrix} x_{2} & y_{2} \end{matrix}]}^{T} - - - (9)

H＝[h₁ h₂ h₃ h₄ h₅ h₆ h₇ h₈] (10)

C = \frac{1}{ω} [\begin{matrix} - x_{1} & y_{1} & 1 & 0 & 0 & 0 & - x_{2} x_{1} & - x_{2} y_{1} \\ 0 & 0 & 0 & x_{1} & y_{1} & 1 & - y_{2} x_{1} & - y_{2} y_{1} \end{matrix}] - - - (11)

先设尺度因子ω＝1，得到H的一组值，再用此值计算出ω的值，进行多次迭代求出稳定的H，

初始样本数据数目n由公式(12)所示：

n＝min{N₀,max{n₀,n₀ log₂μN₀}} (12)

W(i,j,k)＝M′(i,j,k)⊕M(i,j,k) (13)

d_{i} = Σ_{k = 1}^{K} {Σ_{j = 1}^{N} (W (i, j, k) + W (j, i, k))} - - - (14)

d_i·d_j(1+α)<γ (15)

公式中α为比例因子，γ均为距离阈值；

L = \frac{| ACID - ACOD |}{ACID + ACOD} - - - (16)

ACID = \frac{1}{C} Σ_{k = 1}^{C} (\frac{1}{N_{k}} Σ_{i = 1}^{N_{k}} (\frac{1}{N_{k} - 1} Σ_{j = 1, j &NotEqual; i}^{N_{k}} | | x_{i}^{(k)} - x_{j}^{(k)} | |)), - - - (17)

ACOD = \frac{1}{C} Σ_{k = 1}^{C} (\frac{1}{N_{k}} Σ_{i = 1}^{N_{k}} (\frac{1}{C - 1} Σ_{p = 1, p &NotEqual; k}^{C} (\frac{1}{N_{p}} Σ_{j = 1}^{N_{p}} | | x_{i}^{(k)} - x_{j}^{(p)} | |))) - - - (18)