CN115937552A

CN115937552A - 一种基于融合手工特征与深度特征的图像匹配方法

Info

Publication number: CN115937552A
Application number: CN202211296680.7A
Authority: CN
Inventors: 宋县锋; 施政; 邹毅; 王彦杰
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2022-10-21
Filing date: 2022-10-21
Publication date: 2023-04-07

Abstract

本发明公开了一种基于融合手工特征与深度特征的图像匹配方法，包括以下步骤：提取图像的手工特征生成手工特征描述符，对所得特征描述符进行L1归一化并对每一个元素求平方根；重新构建彩色图像的尺度金字塔，在相应金字塔层上提取局部图像块，并将图像块旋转至主方向；使用坐标注意力残差网络CAR‑HyNet模型对局部图像块提取深度特征，并生成深度特征描述符；训练CAR‑HyNet模型，并使用三元损失训练出最优模型；提取手工特征描述符与深度特征描述符双方对特征点的置信程度，将手工特征描述符与深度特征描述符进行决策级融合，生成新的特征点；筛选待配对图像中正确匹配的特征，得到包含两幅待配对图像中正确匹配的特征点对。

Description

一种基于融合手工特征与深度特征的图像匹配方法

技术领域

本发明涉及图像处理技术领域，具体涉及一种基于融合手工特征与深度特征的图像匹配方法。

背景技术

图像匹配以其在机器视觉中的基础性地位，在图像匹配、图像拼接等诸多领域应用广泛。传统的图像匹配算法主要基于手工设计的特征，可解释性更强，但无法提取高层语义，在有些任务中性能不佳。一种异源图像精确匹配方法(CN201910298603.7)为了利用角点、纹理等特征，结合了SIFT特征、基于角点的形状上下文特征、LPQ特征等传统特征提取方法，用于异源图像的精确匹配。由于特征的语义较浅，当图像更复杂时，匹配性能将很受影响。随着深度学习技术的发展，以深度学习为代表目标检测算法，因其对形态、纹理等复杂特征的较强的特征提取能力，大大提高了匹配的性能和准确率，但其需要大量场景样本和计算资源用于训练和推理阶段，精度与计算能力和样本数呈正相关，从而限制了其应用场景。一种基于深度学习的局部特征提取方法(CN 202110611600.1)，性能优于最新的方法。但其训练数据集就打数十万张，这对于大多数场景如航拍图像的目标匹配来说是十分困难的，且其模型较为复杂，对算力要求较高。将优势互补的传统机器视觉技术与深度学习结合已经在很多领域流行起来，在需要快速实施的高性能***中特别实用，对于目标匹配场景能提供更多可靠性高的特征点匹配对。通过使用融合传统特征和卷积特征的图像匹配算法，只需要一张目标查询图像，就可以检测出图像中是否存在目标及其具***置，无需大量特定的训练样本，且能获得比单一特征更多更稳定的特征点匹配对。但现有的大多数方法在对多个特征进行融合时，只是直接进行加权，很容易出现特征抵消的情况。在一种异源图像精确匹配方法中，将不同特征分别匹配后再加权融合，也会出现特征抵消的情况，鲁棒性一般。充分考虑不同特征之间的相关性，判断不同特征提取方法对特征点的置信程度，可以有效提高匹配性能，保留更多潜在的匹配对。文献(Key.Net:Keypoint Detection byHandcrafted and Learned CNN Filters)将传统手工特征嵌入到神经网络中一起训练，取得了较好的匹配性能，但仍有改进的空间。

发明内容

本发明针对以上问题进行了改进，解决现有图像匹配方法中的缺陷，提出了一种融合手工特征与深度特征的图像匹配方法，使用改进的SIFT和DIOU_NMS算法初步提取手工特征，重建尺度金字塔并围绕特征点提取局部图像块，使用提出的坐标注意力残差网络CAR-HyNet提取深度特征。使用提出的特征匹配算法，将两种特征进行决策级融合；最后使用DEGENSAC完成特征的精细化筛选。所提CAR-HyNet模型以孪生网络和知识蒸馏方式训练，并使用三元损失训练出最优模型。所提特征融合匹配算法充分考虑了特征提取双方对特征点的置信程度，有效提高成功匹配数。本发明可以被方便地应用于目标侦察、物品投递以及计算资源紧张的嵌入式设备等领域，对于图像匹配技术的发展具有十分重要的现实意义。提供了一种基于融合手工特征与深度特征的图像匹配方法，解决了现有技术中图像匹配计算量大、匹配数较低、准确率不高等问题。

本发明至少通过如下技术方案之一实现。

一种基于融合手工特征与深度特征的图像匹配方法，包括以下步骤：

S1、提取图像的手工特征并生成手工特征描述符，对所得特征描述符应用Hellinger核进行L1归一化并对每一个元素求平方根；

S2、对特征点进行筛选后，重新构建彩色图像的尺度金字塔，并围绕特征点在相应金字塔层上提取局部图像块，并将图像块旋转至主方向；

S3、训练坐标注意力残差网络CAR-HyNet模型，并使用三元损失训练出最优模型；

S4、使用训练后的坐标注意力残差网络CAR-HyNet模型对局部图像块提取深度特征，并生成深度特征描述符；

S5、使用特征匹配算法，提取用于表征手工特征的手工特征描述符与用于表征深度特征的深度特征描述符双方对特征点的置信程度，将手工特征描述符与深度特征描述符在欧式空间中进行决策级融合，生成新的包含潜在匹配对的特征点；

S6、筛选待配对图像中正确匹配的特征，去除误匹配点，得到包含两幅待配对图像中正确匹配的特征点对。

进一步地，步骤S1包括以下步骤：

S101、使用SIFT算法构建尺度空间并检测极值点；

S102、定位特征关键点并确定特征关键点方向，幅值m(x，y)与幅角θ(x，y)的计算公式如下，其中，L(·)表示高斯拉普拉斯算子；

S103、使用SIFT算法生成128维的用于表征手工特征的手工特征描述符(请说明如何生成)；

S104、使用Hellinger核对特征描述符进行L1归一化并对每一个元素求平方根，Hellinger核为：

其中，n表示特征描述符的维度，x和y分别是两个具有欧氏距离规范的n维特征描述符，x_i和y_i分别表示第i维的值，H(x，y)表示x和y的Hellinger值。

进一步地，步骤S2包括以下步骤：

S201、以检测到的特征点的强度进行降序排序；

S202、使用中心点距离交并比非极大值抑制算法DIOU-NMS计算每个特征点的分类置信度，剔除异常点，防止特征点过多拥挤在一个区域，公式如下：

其中，s_i是分类置信度，∈为NMS阈值，M为最高强度的框，B_i为不同框的强度值，R_DIOU(M，B_i)为两个框中心点之间的距离，其中，b和b^gt表示预测框B和真实框B^gt的中心点，ρ(·)为欧几里德距离，c为覆盖这两个框的最小包围框的对角线长度，IoU表示预测框与真实框的交并比；S203、再次以经DIOU-NMS筛选后的特征点的强度进行降序排序，按照强度从高到底保留指定数量的特征点，从而控制特征点数量；

S204、根据SIFT构建尺度金字塔的方式，重建彩色图像的尺度金字塔；

S205、根据特征点尺度信息选取所在金字塔层，以特征点为中心，以a*a像素为边长，裁剪出a*a的局部区域图像块，并缩放尺寸至b*bghy

S206、根据特征点的角度信息，将图像块旋转至主方向。

进一步地，所述坐标注意力残差网络CAR-HyNet模型以基于卷积神经网络HyNet为基础，在layer1层中的第三个block块和layer2层的第二个block块中增加坐标注意力模块CoorAtt以增强对位置信息的关注，在layer3层和layer6层添加坐标注意力沙漏模块，并以残差方式连接。

进一步地，坐标注意力模块的最终输出为：

其中，i∈[0，W)，j∈[0，H)表示所处在水平和垂直方向上的位置，x_c(i，j)为在通道c处、水平i处、垂直j处的特征值，

和

分别为通道c处的竖直方向h和水平方向w上注意力机制的权重，y_c(i，j)为对应x_c(i，j)附加权重后的输出。

进一步地，所述坐标注意力沙漏模块将输出的特征与最原始的输入特征进行叠加。

第一层使用尺寸为3x3的深度可分离卷积Dwise 3x3，先提取一次特征；

将前述的坐标注意力模块CoorAtt放置在第一层3x3深度可分离卷积Dwise 3x3之后，并以残差方式Cat拼接两者特征；然后使用尺寸为1x1的卷积Conv 1x1进行降维；再使用1x1的卷积Conv 1x1进行升维，还原到输入时的维度；最后以短连接方式将上一步的特征与最原始的输入特征进行叠加。

进一步地，使用孪生网络结构训练CAR-HyNet模型，在训练过程中共享权值；以两个相同的CAR-HyNet模型进行自我蒸馏，提升模型的性能。

进一步地，使用混合相似度三元损失函数训练出最优模型，损失函数公式如下：

其中，γ是正则化参数，N为特征描述符的维度，L_Triplet为三元损失函数，

为进行L₂归一化操作之前的约束，L为最终的损失函数，m是一个由人工设置的大于0的常数，||x_i||和

表示在进行L₂归一化操作之前的一对正描述符，θ表示特征描述符之间的角度，s_H(θ)为混合相似度度量，

和

分别表示第i维的正样本和负样本的特征描述符之间的角度，

和

分别表示第i维的正样本和负样本的混合相似度度量，s(·)和d(·)分别表示对正样本与负样本的支持，α是一个范围为0到+∞的标量，用于调整s(·)和d(·)之间的比例，Z是归一化因子。

进一步地，步骤S5，包括以下步骤：

S501、对于待匹配的两幅图像，经过步骤S4后分别获得的两幅图像的手工特征描述符

和

以及深度特征描述符

和

S502、对两种特征，分别计算特征点在欧式空间下的距离：

其中，dim表示特征描述符的维度，

为手工特征描述符，

为深度特征描述符。

S503、对手工特征描述符和深度特征描述符，分别使用最近邻比值法，计算其最近邻点，得到手工特征描述符下第i个特征点与其他特征点之间的欧氏距离

和深度特征下第i个特征点与其他特征点之间的欧氏距离

其中，m＝1、2时表示最近邻和次近邻；

使用最邻近距离比值法判断是否匹配成功，即当最近邻距离与次近邻距离的比值小于指定值，则认定匹配成功；

S504、首先依次遍历SIFT的特征点，对于每个特征点的2个最近邻点，找出该两点在CAR-HyNet特征点上对应位置的距离，使用最邻近距离比值法根据手工特征描述符与深度特征描述符对特征点是否匹配成功的判定，自动调整加权值w，使得判定为成功的一方保留下来；

S505、调整加权值w∈[0，1]，将手工特征描述符与深度特征描述符的欧式距离融合，生成新的距离作为该对特征点的最近邻

和次近邻距离

融合公式如下：

S506、再依次遍历CAR-HyNet模型的特征点，重复步骤S505，完成交叉验证，并剔除前一次执行完步骤S505与本次执行完步骤S505中的重复特征点。

S507、再以更严格的最邻近距离比值进行一次最近邻比值法筛选，尽可能过滤误匹配，生成新的包含潜在匹配对的特征点。

进一步地，所述步骤S6包括使用退化抽样一致算法完成特征的筛选，去除误匹配点，最终得到包含两幅待配对图像中正确匹配的特征点对。

与现有的技术相比，本发明的有益效果为：

1、提出了坐标注意力残差网络CAR-HyNet用于提取深度特征。所提CAR-HyNet模型使用三通道RGB图像输入以提取更多有效信息，增加坐标注意力模块以增强对位置信息的关注，结合坐标注意力与沙漏结构以有效提升模型的性能，增加卷积层数以增强模型的非线性，结合残差结构以避免梯度弥散，更适合于特征提取场景。并且以孪生网络和知识蒸馏方式训练，使用混合相似度三元损失函数训练出最优模型。

2、结合了传统手工特征和深度特征的优势，有效提高图像匹配的匹配数和准确率。使用改进的SIFT和DIOU_NMS算法初步提取用于表征手工特征的手工特征描述符，重建彩色图像尺度金字塔并围绕特征点提取局部图像块，使用CAR-HyNet提取用于表征深度特征的深度特征描述符。

3、提出基于欧氏距离的决策级特征融合与匹配方法。所提特征融合匹配算法充分考虑特征提取双方对特征点的置信程度，有效提高成功匹配数。能够提取出更多有效的特征信息，具有更好的匹配数、准确率和鲁棒性。

附图说明

图1是本发明实施例基于融合手工特征与深度特征的图像匹配方法的算法总流程图；

图2是本发明实施例中的SIFT特征点检测与筛选流程图；

图3是本发明实施例尺度金字塔上以特征点为中心的图像块旋转至主方向前后对比图；

图4是本发明实施例所提CAR-HyNet卷积神经网络的模型结构图；

图5是本发明实施例坐标注意力的模型结构图；

图6是本发明实施例所提结合坐标注意力与沙漏结构的CA-SandGlass模块结构图；

图7是本发明实施例孪生网络结构图；

图8是本发明实施例正负样本距离的训练曲线图；

图9是本发明实施例在Brown数据集上的FPR曲线图；

图10是以往的直接加权融合方式示意图；

图11是本发明实施例所提基于距离的决策级特征融合匹配示意图；

图12是传统手工特征与融合手工特征与深度特征的实际匹配效果图；

图13是所提CAR-HyNet模型与其他算法在不同NNDR比值下正确匹配数对比图；

图14是所提CAR-HyNet模型与其他算法的正确匹配数与准确率对比图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

如图1所示，本实例公开了基于融合手工特征与深度特征的图像匹配方法，主要将改进SIFT算法提取的用于表征手工特征的手工特征描述符，与提出的坐标注意力残差网络CAR-HyNet提取的用于表征深度特征的深度特征描述符，使用提出的融合匹配算法，在决策级上基于欧氏距离进行特征融合后再进行匹配，具体包括以下步骤：

S1、先使用SIFT算法初步提取特征并生成特征描述符，对所得特征描述符应用Hellinger核进行L1归一化并对每一个元素求平方根；具体过程如下：

S101、使用SIFT算法构建尺度空间并检测极值点。尺度空间公式如下：

L(x，y，σ)＝G(x，y，σ)*I(x，y) (1)

其中，x，y表示图像坐标，x_i，y_i为围绕x，y的第i个坐标，I(x，y)表示原始图像，G(x，y，σ)为二维高斯函数，σ是反映图像模糊程度的尺度系数，其数值与模糊度呈正相关，通过设置不同σ，即可生成不同尺度图像，G(x_i，y_i，σ)是在图像x_i和y_i处的二维高斯函数。

通过对比同一组内相邻上下两层图像像素点之间的高斯差分(Difference ofGaussian，DoG)值来判断极值点，DoG高斯差分算子公式如下：

其中，

和

分别是σ等于σ₁和σ₂时的二维高斯函数。

S102、精确定位特征关键点并确定特征关键点方向，在以特征点的为中心、以3×1.5σ为半径的领域内计算各个像素点的梯度的幅值m(x，y)与幅角θ(x，y)，幅值与幅角的计算公式如下，其中，L(·)表示高斯拉普拉斯算子；

S103、使用SIFT算法生成128维的用于表征手工特征的手工特征描述符；

S104、对特征描述符进行归一化，使得度量方法比欧氏距离更为精确。具体步骤如下：

S10401、对特征向量x应用Hellinger核进行l₁的归一化得到x′，Hellinger核为：

S10402、对x′的每一个元素求平方根；

S10403、进行l₂归一化，可选；

S2、对特征点进行筛选，从而得到性能更好的手工特征描述符。仿造SIFT构建尺度金字塔的方式，重建彩色图像的尺度金字塔，并围绕特征点在相应金字塔层上提取局部图像块，并将图像块旋转至主方向，从而使模型具有一定的尺度和旋转不变性；如图2所示，具体过程如下：

S201、以检测到的特征点的强度进行降序排序；

其中，s_i是分类置信度，∈为NMS阈值，M为最高强度的框，B_i为不同框的强度值，R_DIOU(M，B_i)为两个框中心点之间的距离。其中，b和b^gt表示预测框B和真实框B^gt的中心点，p(·)为欧几里德距离，c为覆盖这两个框的最小包围框的对角线长度，IoU表示预测框与真实框的交并比。

S203、再次以经DIOU-NMS筛选后的特征点的强度进行降序排序，按照强度从高到底保留指定数量的特征点，从而控制特征点数量，提高计算效率和速度；

S204、仿造SIFT构建尺度金字塔的方式，重建彩色图像的尺度金字塔；

S205、根据特征点尺度信息选取所在金字塔层，以特征点为中心，以64x64像素为边长，裁剪出64x64的局部区域图像块，并缩放尺寸至32x32；

S206、根据特征点的角度信息，将图像块旋转至主方向，旋转前后对比如图3的a、图3的b所示，旋转后的新坐标为：

其中，r为旋转后的特征点领域半径，x，y∈[-r，r]表示旋转前的坐标，θ为主方向角度，σ是特征点所在层的尺度因子，d表示将特征点领域分割为多少区块。

S3、对局部图像块使用坐标注意力残差网络CAR-HyNet模型提取得到128维深度特征，CAR-HyNet模型的结构如图4所示。

坐标注意力残差网络CAR-HyNet模型以基于卷积神经网络HyNet为基础，一共由9层组成。CAR-HyNet模型最开始的输入使用三通道RGB图像以提取更多有效信息，即输入维度为3，第一层layer1中对输入进行过滤响应归一化FRN和阈值线性单元TLU，再经过尺寸为3x3的卷积CONV 3x3，输出维度变为32，然后输入由过滤响应归一化FRN、坐标注意力模块CoorAtt、阈值线性单元TLU增强提取的特征。第二层layer2中，经过尺寸为3x3的卷积CONV3x3，输出维度保持为32，在经过过滤响应归一化FRN、坐标注意力模块CoorAtt、阈值线性单元TLU增强提取的特征。在第三层layer3经过坐标注意力沙漏模块CA-SandGlass，输出维度保持为32，并以残差连接方式将输出特征与前一层的特征Add相加。第四层layer4经过尺寸为3x3且步长为2的卷积CONV 3x3/2，输出维度变为64，再进行过滤响应归一化FRN和阈值线性单元TLU。第五层layer5经过尺寸为3x3的卷积CONV3x3，输出维度保持为64，再进行过滤响应归一化FRN和阈值线性单元TLU。第六层layer6经过坐标注意力沙漏模块CA-SandGlass，输出维度保持为64，并以残差连接方式将输出特征与前一层的特征Add相加。第七层layer7经过尺寸为3x3且步长为2的卷积CONV3x3/2，输出维度变为128，再进行过滤响应归一化FRN和阈值线性单元TLU。第八层layer8经过尺寸为3x3的卷积CONV 3x3，输出维度保持为128，再进行过滤响应归一化FRN和阈值线性单元TLU。第九层layer9经过尺寸为3x3的卷积CONV3x3，输出维度保持为128，最后通过批归一化BN和正则化L2Norm，输出128维的深度特征描述符。

其中，在layer1层中的第三个block块和layer2层的第二个block块中，增加坐标注意力模块CoorAtt以增强对位置信息的关注。CoorAtt将通道注意力划分为水平W和垂直H这两个平行计算的一维的特征编码过程，并在一个方向上捕获远程依赖关系，而在另一个方向上保留精确地位置信息，两者的互补结合可以有助于帮助网络定位感兴趣目标。

坐标注意力模块的结构如图5所示。坐标注意力模块的最终输出为：

和

在layer3层和layer6层添加坐标注意力沙漏模块，并以残差方式连接。

结合坐标注意力模块与沙漏结构，构成CA-SandGlass模块示意图如图6所示。

该结构可以减少模块提取特征时的丢失，增强模块提取特征的能力，并且使用较少的参数量和计算量。坐标注意力沙漏模块CA-SandGlass的具体结构组成如下：

CA-SandGlass的第一层使用尺寸为3x3的深度可分离卷积Dwise 3x3，先提取一次特征；

将前述的坐标注意力模块CoorAtt放置在第一层3x3深度可分离卷积Dwise 3x3之后，并以残差方式Cat拼接两者特征；然后使用尺寸为1x1的卷积Conv 1x1进行降维；之后使用通道乱序层Channel Shuffle进行通道重排，将不同通道的特征图合并在一起，增强特征表示；再使用1x1的卷积Conv 1x1进行升维，还原到输入时的维度；最后以短连接方式将上一步的特征与最原始的输入特征进行Add叠加。

S4、以孪生网络和知识蒸馏的方式训练CAR-HyNet模型，并使用三元损失训练出最优模型。具体过程如下：

S401、使用孪生网络结构，在训练过程中共享权值，所用孪生网络结构如图7所示；

S402、以两个相同的网络进行自我蒸馏的方式进行协同训练，提升模型的性能；

S403、使用混合相似度三元损失函数训练出最优模型，损失函数公式如下：

和

分别表示第i维的正样本和负样本的特征描述符之间的角度，

和

分别表示第i维的正样本和负样本的混合相似度度量，s(·)和d(·)分别表示对正样本与负样本的支持，α是一个范围为0到+∞的标量，用于调整s(·)和d(·)之间的比例，Z是归一化因子，确保梯度的最大幅度为1。

正负样本距离的训练曲线如图8的a和b所示，在Brown数据集上的FPR曲线如图9的a和b所示。

S5、使用提出的特征匹配算法，充分考虑特征提取双方对特征点的置信程度，将两种特征在欧式空间中进行决策级融合，生成新的特征点。以往的直接加权融合方式如图10所示，所提出的基于距离的决策级融合匹配示意图如图11所示。具体过程如下：

S501、对于待匹配的两幅图像，经过步骤S3和S4后分别获得的两幅图像的手工特征描述符

和

以及深度特征描述符

和

S502、对两种特征，分别计算特征点在欧式空间下的距离。距离计算公式如下：

其中，dim表示特征描述符的维度。

可以为

和

可以为

和

S503、对两种特征，分别使用最近邻比值法，计算其2最近邻点，得到手工特征描述符下第i个特征点与其他特征点之间的欧氏距离

和深度特征下第i个特征点与其他特征点之间的欧氏距离

其中，m＝1，2时表示最近邻和次近邻。使用最邻近距离比值法判断是否匹配成功，即当最近邻距离与次近邻距离的比值小于指定值，则认定匹配成功。此处的比值先采用宽松策略，以保留更多隐含的匹配点对。

S504、首先依次遍历SIFT的特征点，对于每个特征点的2个最近邻点，找出该两点在CAR-HyNet特征点上对应位置的距离，使用最邻近距离比值法根据手工特征描述符与深度特征描述符对特征点是否匹配成功的判定，自动调整加权值w，使得判定为成功的一方保留下来。

S505、使用加权值w∈[0，1]将手工特征描述符与深度特征描述符的欧式距离融合，生成新的距离作为该对特征点的最近邻

和次近邻距离

融合公式如下：

S506、再依次遍历CAR-HyNet的特征点，重复步骤S505，完成交叉验证，并剔除前一次执行完步骤S505与本次执行完步骤S505中的重复特征点。

S507、再以更严格的最邻近距离比值进行一次最近邻比值法筛选，尽可能过滤误匹配，因此生成了新的包含了潜在匹配对的特征点；

S6、对粗匹配点，使用退化抽样一致算法(DEGENerate SAmple Consensus，DEGENSAC)完成特征的精细化筛选，该算法比传统的RANSAC更快且平均准确率更高，最终得到包含两幅待配对图像中正确匹配的特征点对。匹配效果如图12、图13和图14所示。

实施例2

本实施例的CAR-HyNet模型在实施例1的layer7后面***一层，第八层layer8经过坐标注意力沙漏模块CA-SandGlass，输出维度保持为128，并以残差连接方式将输出特征与前一层的特征Add相加。第九层layer9经过尺寸为3x3的卷积CONV3x3，输出维度保持为128，再进行过滤响应归一化FRN和阈值线性单元TLU。第十层layer10经过尺寸为3x3的卷积CONV3x3，输出维度保持为128，最后通过批归一化BN和正则化L2Norm，输出128维的深度特征描述符。

实施例3

本实例的坐标注意力沙漏模块CA-SandGlass的具体结构组成如下：

将前述的坐标注意力模块CoorAtt放置在第一层3x3深度可分离卷积Dwise 3x3之后，并以残差方式Cat拼接两者特征；然后使用尺寸为1x1的卷积Conv 1x1进行降维；再使用1x1的卷积Conv 1x1进行升维，还原到输入时的维度；最后以短连接方式将上一步的特征与最原始的输入特征进行Add叠加。

以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本说明书的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本发明的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种基于融合手工特征与深度特征的图像匹配方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于融合手工特征与深度特征的图像匹配方法，其特征在于，步骤S1包括以下步骤：

S101、使用SIFT算法构建尺度空间并检测极值点；

3.根据权利要求1所述的基于融合手工特征与深度特征的图像匹配方法，其特征在于，步骤S2包括以下步骤：

S201、以检测到的特征点的强度进行降序排序；

其中，s_i是分类置信度，∈为NMS阈值，M为最高强度的框，B_i为不同框的强度值，R_DIOU(M，B_i)为两个框中心点之间的距离，其中，b和b^gt表示预测框B和真实框B^gt的中心点，ρ(·)为欧几里德距离，c为覆盖这两个框的最小包围框的对角线长度，IoU表示预测框与真实框的交并比；

S203、再次以经DIOU-NMS筛选后的特征点的强度进行降序排序，按照强度从高到底保留指定数量的特征点，从而控制特征点数量；

S206、根据特征点的角度信息，将图像块旋转至主方向。

4.根据权利要求1所述的基于融合手工特征与深度特征的图像匹配方法，其特征在于，所述坐标注意力残差网络CAR-HyNet模型以基于卷积神经网络HyNet为基础，在layer1层中的第三个block块和layer2层的第二个block块中增加坐标注意力模块CoorAtt以增强对位置信息的关注，在layer3层和layer6层添加坐标注意力沙漏模块，并以残差方式连接。

5.根据权利要求4所述的基于融合手工特征与深度特征的图像匹配方法，其特征在于，坐标注意力模块的最终输出为：