CN103679201B

CN103679201B - 一种用于图像匹配、识别、检索的点集合匹配的校正方法

Info

Publication number: CN103679201B
Application number: CN201310688861.9A
Authority: CN
Inventors: 杨夙
Original assignee: Fudan University
Current assignee: Shanghai Jilian Network Technology Co ltd
Priority date: 2013-12-14
Filing date: 2013-12-14
Publication date: 2017-01-11
Anticipated expiration: 2033-12-14
Also published as: CN103679201A

Abstract

本发明属于模式识别、图像处理、计算机视觉技术领域，具体为一种用于图像匹配、识别、检索的点集合匹配的校正方法。本发明根据两个点集合的初始匹配关系建立邻接矩阵，并提出一种图论中最大团问题的近似求解方法以获得近似服从同一几何变换的点集合匹配关系。将一个点集合经过几何变换投影到另一个点集合所在的空间就可以求得两个点集合之间的相似度，并作为图像相似度实现图像匹配、识别、检索。实验表明，所发明的点集合匹配的校正方法与多种形状特征提取方法中的任意一种相结合都可以获得较好的图像匹配与识别效果。

Description

一种用于图像匹配、识别、检索的点集合匹配的校正方法

技术领域

本发明属于模式识别、图像处理、计算机视觉技术领域，具体涉及一种点集合匹配的校正方法，可以用于图像匹配、识别、检索。

背景技术

图像包括形状、纹理、颜色信息，其中，形状是图像识别、检索所依赖的主要信息，形状特征描述对于图像识别、检索非常重要，而形状之间的相似性和差异性往往反映在图像的特征点上，因此图像匹配的一种主要解决方案是将其作为点集合匹配来解决。【S.Belogie,J.Malik,J.Puzicha:“Shape matching and object recognition usingshape contexts,IEEE Transactions on Pattern Analysis and MachineIntelligence”,Volume 24,pp.509-52,2002】论文中提出了一种称为形状上下文（ShapeContexts）的形状描述方法，在形状描述子相似度计算的基础上采用图论中的二部图匹配方法对点集合进行匹配，但是其计算复杂度较高，其求解二部图匹配的算法的复杂度大约为O(N⁴)。【David G.Lowe:″Distinctive Image Features from Scale-InvariantKeypoints″,International Journal of Computer Vision,Volume 60,Issue 2,pp.91-110,2004】中提出了一种DoG的特征点提取方法和一种称作SIFT的描述子，并基于描述子之间的相似度对特征点进行匹配，但是这样的点集合匹配结果不经过校正是含有误匹配的，会对后续的图像匹配、识别、检索带来干扰。

发明内容

本发明的目的在于提出一种计算开销合理、且与各种形状描述方法搭配都能够获得较好图像匹配、识别、检索性能的点集合匹配的校正方法。

本发明提出的一种用于点集合匹配的校正方法，具体计算步骤如下：

（1）计算邻接矩阵；

（2）近似求解图论中最大团问题；

上面所述的点集合匹配的校正方法中的步骤1中的邻接矩阵计算的步骤如下：

(a)假设两个点集合P={P₁,P₂,…,P_m}和Q={Q₁,Q₂,…,Q_m}之间初始的匹配关系为将邻接矩阵初始化为C={c_ij=0|i,j=1,2,…,m}；(b)计算R={r_ij=d(P_i,P_j)/d(Q_i,Q_j)|i,j=1,2,…,m;i≠j}，这里d(P_i,P_j)表示点P_i和点P_j之间的欧几里得距离、d(Q_i,Q_j)表示点Q_i和点Q_j之间的欧几里得距离；

(c)将{r_ij=d(P_i,P_j)/d(Q_i,Q_j)|i,j=1,2,…,m;i≠j}按照从小到大的次序排序，得到R₁≤R₂≤…≤R_m(m-1)；将R_k在R中的位置记录为S[k]∈{(i,j)|i,j=1,2,…,m;i≠j}，k=1,2,…,m(m-1)；

(d)将R₁≤R₂≤…≤R_m(m-1)分段，分段方法如下：如果存在n-1段，其边界对应的下标为I[1]=1,I[2],I[3],…,I[n-1],I[n]=m(m-1)且满足条件R_I[i]/R_I[i+1]>t∧R_I[i]/R_I[i+1]+1≤t，这里i=1,2,…,n-1，t是一个接近1的阈值，则以I[1]=1,I[2],I[3],…,I[n-1],I[n]为边界进行分段；

(e)从上述步骤(d)得到的对R₁≤R₂≤…≤R_m(m-1)的n-1个分段中找到最长的一段，其在n-1个分段中的对应次序为

i^{*} = \arg \max_{i} {I [i + 1] - I [i] | i = 1,2, . . ., n - 1},

提取该段在R中的对应下标{S[k]|k=I[i^*],I[i^*]+1,…,I[i^*+1]}；

(f)令{c_S[k]=1|k=I[i^*],I[i^*]+1,…,I[i^*+1]}；

上面所述的点集合匹配的校正方法中的步骤2中的图论中最大团问题近似求解的计算步骤如下：

(a)将一个完全图的所有节点的下标的集合初始化为Θ={1,2,…,m}；将噪声节点对应的下标的集合初始化为空集合Ψ=Φ，将噪声节点之外的剩余节点的集合初始化为Ω=Θ；

(b)设置计数器用于记录有多少节点和节点i相连接；

(c)对于i=1,2,…,m：如果v_i=0，将节点i加入噪声节点的集合，即Ψ∪{i}→Ψ；同时将节点从剩余节点的集合Ω中删除，即Ω-{i}→Ω；

(d)如果v_i=v_j对任意的i≠j都成立，这里i∈Ω且j∈Ω，则将中下标为Ω所包含元素的对应匹配点对输出并退出；否则转到步骤(e)；

(e)找到Ω中具有最小连接边数的节点令Ψ∪{i′}→Ψ且Ω-{i′}→Ω；找到与节点i′连接的节点，即Γ={j|c_i′j=1;j=1,2,...,m}；对于j∈Γ,令v_j-1→v_j；转到步骤(d)。

附图说明

图1为图像识别***的组成框图。

具体实施方式

一个图像识别***通常由以下几个环节组成，图像采集、预处理、特征提取、相似度计算、分类，图像识别***的目标是从图像数据库中返回与输入图像最相似的图像，整个图像识别***的组成见图1。这里，图像采集可以通过相机、扫描仪等各种能够完成物理成像的传感设备完成，预处理采用发明人提出的一种二值图像骨架点提取方法，特征提取采用发明人提出的一种形状描述子。

实施例1：

步骤1：对一幅输入图像提取特征点，并计算各个特征点的形状描述子，令P={P₁,P₂,…,P_K}和{f(F(P_k))|k=1,2,…,K}分别表示所得到的特征点及其对应的形状描述子，形状描述子的计算步骤如下：

（a）任选一个特征点P_k∈P作为参考点，对其它特征点的空间分布进行统计，得到一个相应的直方图，记作h(P_k)；这里，直方图的具体计算方法如下：以参考点P_k为中心，将图像最小外接圆所在的空间划分为M×Ν的网格，计算落入网格每个区间的特征点的个数得到直方图，M和N都是自然数；分别以各个特征点作为参考点，则对应每个特征点分别得到一个直方图，共得到K个直方图{h(P_k)|k=1,2,…,K}；

（b）对每个特征点对应的直方图求傅里叶变换，设h(P_k)的傅里叶变换为F(P_k)，对矩阵F(P_k)中的每个元素进行函数f(.)定义的数学变换，F(P_k)的数学变换f(.)定义为矩阵F(P_k)中每个元素的模值的W次方，设F_ij(P_k)表示矩阵F(P_k)的第i行、第j列的元素，则f(F_ij(P_k))=|F_ij(P_k)|^W，W=2；将{f(F(P_k))|k=1,2,…,K}作为K个特征点分别对应的形状描述子；；

步骤2：对图像库中任选的一幅图像提取特征点，基于步骤1所述的形状描述子计算方法计算各个特征点的形状描述子，令Q={Q₁,Q₂,…,Q_L}和{f(F(Q_l))|l=1,2,…,L}分别表示所得到的特征点及其对应的形状描述子；

步骤3：计算输入图像和图像库图像的各形状描述子之间的相似度，记作{d_kl=d(f(F(P_k)),f(F(Q_l)))|k=1,2,…,K;l=1,2,…,L}，这里采用内积作为相似度度量，即分别将矩阵f(F(P_k))和f(F(Q_l))拉直为向量，然后求两个向量的内积；

步骤4：按照最近邻原则对P={P₁,P₂,…,P_K}和Q={Q₁,Q₂,…,Q_L}进行匹配，计算方法如下：进行m=min{K,L}次迭代，每次迭代得到一个匹配的点对，每次迭代的具体计算步骤如下：（a）找到集合D={d_kl|k=1,2,…,K;l=1,2,…,L}中的最大元素d_st；（b）将作为一个匹配对记录到集合中；（c）令d_sl=-∞和d_kt=-∞:k=1,2,…,K且l=1,2,…,L；

步骤5：采用本发明提出的点集合匹配的校正方法对步骤4得到的初始的点集合匹配关系进行校正，得到经过校正的点集合匹配关系n≤m；令表示匹配点对的坐标值；

步骤6：基于步骤5得到的经过校正的点集合之间的匹配关系计算投影变换，步骤如下：

（a）令

A = [\begin{matrix} x_{1} & y_{1} & 1 & 0 \\ y_{1} & - x_{1} & 0 & 1 \\ x_{2} & y_{2} & 1 & 0 \\ y_{2} & - x_{2} & 0 & 1 \\ \cdot \cdot \cdot & \cdot \cdot \cdot & \cdot \cdot \cdot & \cdot \cdot \cdot \end{matrix}];

令

β = [\begin{matrix} s . \cos α \\ s . \sin α \\ δ_{x} \\ δ_{y} \end{matrix}];

令

b = [\begin{matrix} X_{1} \\ Y_{1} \\ X_{2} \\ Y_{2} \\ \cdot \cdot \cdot \end{matrix}];

这里，β中的4个参数定义为：s是尺度缩放比例，α是旋转角度，δ_x和δ_y分别是X和Y轴的平移量；

（b）求Aβ=b的最小二乘解，得到β=(A^TA)^-1A^Tb；

步骤7：两幅图像之间相似度定义为P={P₁,P₂,…,P_K}和Q={Q₁,Q₂,…,Q_L}之间的相似度，计算步骤如下：

（a）利用公式

[\begin{matrix} X \\ Y \end{matrix}] = [\begin{matrix} s . \cos α & s . \sin α & δ_{x} \\ - s . \sin α & s . \cos α & δ_{y} \end{matrix}] [\begin{matrix} x \\ y \\ 1 \end{matrix}]

对{Q₁,Q₂,…,Q_L}进行变换，设Q_j经过变换得到的坐标值记为T(Q_j)，j=1,2,…,L；

（b）点集合P={P₁,P₂,…,P_K}和Q={Q₁,Q₂,…,Q_L}之间的相似度定义为

S (P, Q) = \min {\frac{1}{K} Σ_{i = 1}^{K} E (\min_{j} {d (P_{i}, T (Q_{j}))}), \frac{1}{L} Σ_{j = 1}^{L} E (\min_{i} {d (P_{i}, T (Q_{j}))})}

上式中：函数

E (d) = \{\begin{matrix} 1 & d \leq t^{'} \\ 0 & else \end{matrix},

t′是预先设定的一个阈值，这里t′=30；d(P_i,T(Q_j))表示P_i和T(Q_j)两点之间的欧几里得距离，i=1,2,…,K，j=1,2,…,L；

步骤8：设图像库中有S幅预存的图像，重复执行步骤2至步骤7，分别计算每幅图像与输入图像的相似度，根据最近邻分类原则，按照相似度从大到小的顺序输出图像库中排在前T位的图像作为识别或者检索的结果，T≤S。

实施例1中的步骤1和步骤2采用了发明人提出的一种图像特征点提取方法实现图像预处理，这里提取二值图像的骨架点作为特征点，具体计算方法如下：

步骤1：采用7×7的高斯核滤波器对图像进行平滑，这里高斯核参数选择σ=2；

步骤2：采用发明人提出的二值化方法对将图像各个像素点二值化为1和0，1和0分别表示前景点和背景点；

步骤3：对二值图像进行边缘点检测，这里边缘点定义为两个相邻点的像素值不相等的点；

步骤4：对于每个边缘点，找到包含这个边缘点的像素值连续为1纵向和横向直线段，令纵向和横向直线段中较短的一个的中点为骨架点；

步骤5：删除每个骨架点的一定半径内包含的其它骨架点，这里半径值取1，如果一个骨架点已经被删除，在后续步骤中将不再扫描它。

上面所述的图像特征点提取方法的步骤2中所述的二值化方法的具体计算步骤如下：

步骤21：假设图像有n个像素点，将图像所有像素点的灰度值进行排序得到c₁≤c₂≤,…,≤c_n；

步骤22：令x_i=i且y_i=c_i，这里i=1,2,…,n；令t=c₁；

步骤23：对于i=1,2,…,n：计算点(x_i,y_i)到某个直线的距离d_i，这里所指的直线由点(x₁,y₁)和点(x_I,y_I)确定；

步骤24：令j=1；令I=min{i|c_i>0}；令t_j=c_I；令r_j=(n-I)/n；

步骤25：对于j=2,3：令t_j=c_I，r_j=(n-I)/n；

步骤26：对于j=3,2,1：如果r_j大于某个预先设定的阈值r，这里取r=2%，则令t=t_j；

步骤27：对于i=1,2,…,n：如果c_i≥t，令b_i=1；否则，令b_i=0；这里b₁,b₂,…,b_n表示图像二值化后各点的像素值。

基于实施例1描述的方法设计了符号识别程序，并对GREC2003图像库（http:// www.iapr-tc10.org）进行了实验，共测试了6900幅图像，另外，用其它两种特征提取方法代替实施1采用的特征提取方法进行了对比实验，这两种特征提取方法分别为【杨夙：一种通用的用于符号识别的特征描述方法，发明专利，授权时间：2008年2月6日，授权国别：中国，授权号：200410016733.0】和【S.Belogie,J.Malik,J.Puzicha:“Shape matching andobject recognition using shape contexts,IEEE Transactions on Pattern Analysisand Machine Intelligence”,Volume 24,pp.509-52,2002】。实验结果中，PLC和SC分别代表上述两种特征提取方法，SSC代表实施例1采用的特征提取方法，实验结果如下：

表1:理想图像的识别率(%)(50种模型;级别1:5种符号,5幅图像;级别2:20种符号,20幅图像;级别3:50种符号,50种图像)

	PLC	SSC	SC
				级别1	100	100	100
级别2	100	100	100
				级别3	100	100	100

表2:旋转和伸缩图像的识别率(%)(50种模型;级别1:5种符号,25幅图像;级别2:20种符号,100幅图像;级别3:50种符号,250幅图像)

表3:变形图像的识别率(%)(50种模型;级别1:5种符号,25幅图像;级别2:15种符号,75幅图像)

表4:噪声干扰下图像识别率(%)(级别1:5种模型,5种符号,25幅图像;级别2:20种模型,20种符号,100幅图像;级别3:50种模型,50种符号,250幅图像)

表5:噪声和变形同时出现时的图像识别率(%)(15种模型,15种符号,75幅图像)

Claims

1.一种用于图像匹配、识别、检索的点集合匹配的校正方法，其特征在于包含邻接矩阵计算和图论中最大团问题近似求解两个部分；其中：

所述的邻接矩阵计算的步骤如下：

(a)假设两个点集合P＝{P₁,P₂,…,P_m}和Q＝{Q₁,Q₂,…,Q_m}之间初始的匹配关系为将邻接矩阵初始化为C＝{c_ij＝0|i,j＝1,2,…,m}；

(b)计算F＝{r_ij＝d(P_i,P_j)/d(Q_i,Q_j)|i,j＝1,2,…,m；i≠j}；这里d(P_i,P_j)表示点P_i和点P_j之间的欧几里得距离、d(Q_i,Q_j)表示点Q_i和点Q_j之间的欧几里得距离；

(c)将{r_ij＝d(P_i,P_j)/d(Q_i,Q_j)|i,j＝1,2,…,m；i≠j}按照从小到大的次序排序得到R₁≤R₂≤…≤R_m(m-1)；将R_k在F中的位置记录为S[k]∈{(i,j)|i,j＝1,2,…,m；i≠j}，k＝1,2,…,m(m-1)；这里，R_k＝r_ij时,k是R_k的下标，(i,j)是r_ij的下标，S[k]记录了下标之间的对应关系，如此记录可得到{R₁,R₂,…,R_m(m-1)}与{r_ij|i,j＝1,2,…,m；i≠j}的成员之间的一一对应关系；

(d)将R₁≤R₂≤…≤R_m(m-1)分段，分段方法如下：如果存在n-1段，其边界对应的下标为I[1]＝1,I[2],I[3],…,I[n-1],I[n]＝m(m-1)且满足条件R_I[i]/R_I[i+1]>t∧R_I[i]/R_I[i+1]+1≤t，这里i＝1,2,…,n-1，t是一个接近1的阈值，则以I[1]＝1,I[2],I[3],…,I[n-1],I[n]为边界进行分段；

(e)从上述步骤得到的对R₁≤R₂≤…≤R_m(m-1)的n-1个分段中找到最长的一段，其在n-1个分段中的对应次序为提取该段在F中的对应下标{S[k]|k＝I[i^*],I[i^*]+1,…,I[i^*+1]}；

(f)令步骤(a)中邻接矩阵的取值为{c_S[k]＝1|k＝I[i^*],I[i^*]+1,…,I[i^*+1]}；这里，S[k]的定义见步骤(c)；

所述的图论中最大团问题近似求解的计算步骤如下：

(A)将一个完全图的所有节点的下标的集合初始化为Θ＝{1,2,…,m}；将噪声节点对应的下标的集合初始化为空集合Ψ＝Φ，将噪声节点之外的剩余节点的集合初始化为Ω＝Θ；

(B)设置计数器用于记录有多少节点和节点i相连接；

(C)对于i＝1,2,…,m：如果v_i＝0，将节点i加入噪声节点的集合，即Ψ∪{i}→Ψ；同时将节点从剩余节点的集合Ω中删除，即Ω-{i}→Ω；

(D)如果v_i＝v_j对任意的i≠j都成立，这里i∈Ω且j∈Ω，则将中下标为Ω所包含元素的对应匹配点对输出并退出；否则转到步骤(E)；

(E)找到Ω中具有最小连接边数的节点令Ψ∪{i′}→Ψ且Ω-{i′}→Ω；找到与节点i′连接的节点，即Γ＝{j|c_i′j＝1；j＝1,2,...,m}；对于j∈Γ,令v_j-1→v_j；转到步骤(D)。