CN113361542B

CN113361542B - 一种基于深度学习的局部特征提取方法

Info

Publication number: CN113361542B
Application number: CN202110611600.1A
Authority: CN
Inventors: 刘晓平; 蔡有城; 李琳; 王冬; 黄鑫涛
Original assignee: Hefei University of Technology
Current assignee: Hefei University of Technology
Priority date: 2021-06-02
Filing date: 2021-06-02
Publication date: 2022-08-30
Anticipated expiration: 2041-06-02
Also published as: CN113361542A

Abstract

本发明公开了一种基于深度学习的局部特征提取方法，包括以下步骤：首先进行网络训练，在图像数据集MS‑COCO上训练预先构建的网络，数据集被分割成一个训练集和一个验证集，分别包含82783和40504张图像，网络包括描述器、检测器和损失函数，其中：所述描述器包括单应性卷积网络(HCN)和特征描述，所述描述器对原始图像进行操作，最终获得与原始图像分辨率大小相同的稠密描述符，所述检测器包括检测器CNN网络和关键点提取，所述检测器对所述HCN得到的张量F进行操作，最终获得稀疏的关键点位置，通过将检测步骤推迟到描述之后，从而获得更稳定的关键点，相比传统的非机器学习方式我们的方法具有更灵活的特征寻找过程，获得大量关键点的同时提高特征提取精度。

Description

一种基于深度学习的局部特征提取方法

技术领域

本发明涉及深度学习的局部特征提取框架技术领域，具体为一种基于深度学习的局部特征提取方法。

背景技术

在计算机视觉的许多领域，基于学习的方法已经出现，并开始超过传统方法，直观上，特征提取过程只需几层卷积层组成的网络，就能够通过学习适当的参数来模拟传统检测器和描述器的行为，现有的一些基于学习的方法侧重于单独训练检测器或描述器，而另一些方法则成功构建了端到端特征检测与描述管道，对于前者，当这些单独优化的检测器或者描述器集成到完整的管道中时，这些单个组件的性能增益可能会消失，对于后者，联合训练检测器和描述器会更加可取，这使得它们可以协同优化。

然而，通过训练一个网络实现两个不同的优化目标是很有挑战性的，因为检测器的优化目标是可重复性，而描述器的优化目标是可区分性，对于两者的统一和联合并没有一套很好的解决方案，现有技术无法很好的平衡这两种优化目标。

发明内容

本发明的目的在于提供一种基于深度学习的局部特征提取方法，以解决技术背景中现有技术存在的问题。

为实现上述目的，本发明提供如下技术方案：一种基于深度学习的局部特征提取方法，其局部特征提取方法包括以下步骤：

S1、首先进行网络训练

在图像数据集MS-COCO上训练预先构建的网络，数据集被分割成一个训练集和一个验证集，分别包含82783和40504张图像；

网络包括描述器、检测器和损失函数，其中：

所述描述器包括单应性卷积网络(HCN)和特征描述，所述描述器对原始图像进行操作，最终获得与原始图像分辨率大小相同的稠密描述符；

所述检测器包括检测器CNN网络和关键点提取，所述检测器对所述HCN得到的张量F进行操作，最终获得稀疏的关键点位置；

所述损失函数：

为了共同优化检测器和描述器，所述损失函数由检测损失函数和描述损失函数这两个中间损失组成，其中，所述检测损失函数使网络产生可重复的关键点位置，这些关键点位置与视点或光照是协变的，所述描述损失函数使网络输出区分性强的描述符，获得可靠的匹配，联合优化这两种损失，同时提升检测器和描述器的效果和性能；

所述单应性卷积网络(HCN)：

接收输入的原始图像数据，利用HCN中的单应估计模块预测不同的原始图像变换，将变换后的原始图像提供给全卷积网络；

所述特征描述：

由HCN计算得到的张量

作为输入：

①通过Bi-cubic插值输出一个张量

②通过L2-normalizes获得归一化的描述符向量d

d_ij＝o_ij/||o_ij||₂

这里i＝1,…,H，j＝1,…,W，H'＝H/4，W'＝W/4，H和W分别为原始图像的高和宽；d的通道数D＝256，这些描述符向量通过欧几里得距离在图像之间进行匹配；

所述检测器CNN网络：

检测器CNN网络的目标是输出一个像素级检测分数，检测分数表示该位置是关键点的概率，将张量F输入至检测器CNN网络，获取原始图像数据中每个像素的检测分数，所述检测器CNN网络由一个卷积层和两个上卷积层组成，随着通道数逐渐减少，空间分辨率逐渐增加，最后通过sigmoid激活函数获得最终结果；

所述关键点提取：

关键点提取的目标是输出稀疏的关键点位置，输入所述检测器CNN网络所得到的检测分数，利用非极大值抑制(NMS)与TopK操作，获得指定数量的特征点；

所述单应估计模块由卷积层和线性层组成，原始图像数据经过单应估计模块的网络层后预测6×N_h个参数，用于获得单应变换矩阵；

其中，1×N_h个参数用于计算尺度变换，2×N_h个参数用于计算旋转变换，3×N_h个参数用于计算透视变换；

尺度由一个参数得到：

λ(α)＝exp(tanh(α))；

对于旋转，由两个参数通过下面的公式计算：

θ(α,β)＝arctan2(tanh(α),tanh(β))；

对于透视变换矩阵A，通过tanh激活函数处理三个参数用于表示(a₁,a₂,a₃)，因此，6×N_h个参数可以获得N_h个单应变换矩阵，N_h是一个超参数，设置N_h＝4；

具体的，设定图像四个角为初始点

x＝[(-1,-1),(1,-1),(1,1),(-1,1)]，

然后利用单应估计模块来预测四个对应点，在这里，对应初始点变换表示为：

采用张量直接线性变换(TensorDLT)以可微的方式从这4对对应点x与x'计算出单应性变换矩阵H如下：

x'＝Hx；

S2、然后进行图像匹配

利用一个标准局部特征管道来评估所述局部特征提取方法的性能，所述标准局部特征管道是任一给定的一对图像中提取和匹配特征；

S3、接着进行重复分数(Repeatability)计算

重复分数用于评价所述局部特征提取方法中检测器的性能，让ε代表正确的距离阈值，检测图像之间的正确关键点对应，重复分数定义为正确对应关键点数除以图像对中总的关键点数；

S4、然后进行匹配分数(M-Score)计算

利用匹配分数评估所述局部特征提取方法中检测器和所述局部特征提取方法中描述器的综合性能，所述匹配分数是所述标准局部特征管道的匹配策略获得的正确匹配与总匹配数量的比率；

S5、最后进行单应估计效果评价

单应估计效果评估所述局部特征提取方法估计单应矩阵的能力，所述单应估计是通过RANSAC计算实现；

其中，所述单应估计效果评估采用一种间接比较方法来适应不同尺度的单应矩阵，其测量的是RANSAC估计出的单应矩阵与ground-truth单应矩阵变换图像四角之间的平均距离。

优选的，所述检测器采用检测损失函数进行反向梯度更新；

所述检测损失函数计算过程如下：

给出一对真实的图像I₁和I₂，并给出ground-truth对应关系，表述为w(·)，通过函数w(·)，图像I₁中的所有像素可以在图像I₂找到，将图像对I₁和I₂输入网络得到检测分数S₁和S₂，定义G₁和G₂为相应的ground-truth的关键点标签，检测损失函数L_det通过交叉熵损失定义：

L_det＝L_s(S₁,G₁)+L_s(S₂,G₂)

其中，(i,j)表示坐标点的位置。

优选的，所述检测器采用检测损失函数进行反向梯度更新；

所述检测损失函数计算过程如下：

给出一对真实的图像I₁和I₂，并给出ground-truth对应关系，表述为w(·)，如I₁＝w(I₂)，换句话说，通过这个w(·)，第一个图像中的所有像素I₁可以在第二图像I₂找到，我们将图像对I₁和I₂输入网络得到检测分数S₁和S₂，定义G₁和G₂为ground-truth的关键点标签，检测损失函数L_det通过交叉熵损失定义：

L_det＝L_s(S₁,G₁)+L_s(S₂,G₂)

其中，(i,j)表示坐标点的位置。

优选的，所述描述器采用描述损失函数进行反向梯度更新；

所述描述损失函数计算如下：

描述损失函数是基于改进的hardest-contrastive损失，用更严格的负距离来修改hardest-contrastive损失，该损失函数最小化正例之间的距离，最大化最接近的负例的距离，描述损失的公式为L_des：

定义

和

表示图像对第k个对应的描述符，K表示所有对应描述符的数量，正距离表示为：

||·||₂表示为欧氏距离，负距离定义为:

这里n(i,j,k)表示图像I_i中的描述符

与图像I_j中所有不对应的描述符的最小距离，则

表示与

距离最小的不对应的描述符，

阈值C是一个安全半径；

最终，结合所述描述损失函数L_des和所述检测损失函数L_det获得最终的损失函数：

L＝L_des+L_det。

优选的，网络训练时，在MS-COCO数据集上进行，将所有图像的分辨率调整为320×240，然后将图像转换为灰度，为了生成像素对应，为每个训练样本随机生成单应变换矩阵，将单应变换后的图像与图像本身同时输入到网络中进行训练，同时对ground-truth关键点位置进行变换，生成对应变换后的ground-truth关键点标签。

优选的，网络测试时，在HPatches数据集上进行评估，HPatches中有116个图像序列，其中57个序列为光照变化，59个序列为视角变化，对于每个序列，第一个图像作为参考图像，并与所有后续图像进行匹配，从而得到580对图像HPatches数据集，在240×320的分辨率和提取N＝1000个特征点的情况下计算，并且采用相同的相互最近邻(MNN)匹配策略，设置相应像素的阈值ε＝3，将重投影误差低于该阈值的匹配认为是正确的匹配。

与现有技术相比，本发明的有益效果是：

1.我们提出了一种新的同形卷积网络[HCN]，它可以产生更多的有区别的描述符，相对于现有的方法大部分是先检测后描述或者同时进行特征检测与描述的特征匹配方法，本申请能做到提供更多的有区别描述符后再进行检测，大幅度提升特征匹配的有效性，且现有方法中单应性变换操作目的使为了生成更多的关键点，与描述符的生成无关，而我们的HCN利用单应变换操作是生成更具区分的描述符，因此从现有技术上无法延申到本申请，且我们的HCN的单应变换是经过学习才得到的，使获得的单应变换更符合描述符的特点，能生成更多具区分性的描述符，现有方法中的变换是由非学习方法经采样得到，该方法无法适用于特征符的描述，无法生成具区分性的描述符。

2.我们采用了一个CNN网络来作为检测器网络来检测关键点，并结合自监督训练策略，使获得的关键点更具重复性，我们采用先描述后检测的策略，通过将检测步骤推迟到描述之后，从而获得更稳定的关键点，在得到更具区别描述符后，我们对图片关键点的检测过程中利用自监督的方式获取高重复性的关键点，相比传统的非机器学习方式具有更灵活的特征寻找过程，获得大量关键点的同时提高特征提取精度。

3.我们设计了两个新的损失函数来进一步提升描述器和检测器的性能，我们提出了相似性损失，进一步提高检测关键点的重复性，并且采用更严格的负距离约束的hardest-contrastive损失以避免模糊区域和实现更先进的性能，在确定损失函数的过程中，利用特征描述和特征提取双损失共同作用在我们的网络中，使得本申请的方法不仅考虑了更具区分性的描述符的描述过程，还考虑到获取更具重复性的关键点，将HCN这一描述符的提取与后续特征提取的损失相关联，使得整个网络端到端的运行，不仅节约了时间，双损失相叠加的策略使得网络具有很好的鲁棒性，从而实现图片经HCN后的特征描述和特征提取有着更好的关联性，一方面可以促进HCN准确快速的产生更具区别性描述符，另外一方面，可以促进关键点检测过程对有区分性描述符的利用，从而实现更准确的关键点检测，在特征匹配实验中，表明了本方法的优越性。

附图说明

图1是本发明的RDFeat流程图。

图2是本发明的RDFeat网络结构图。

图3是本发明的RDFeat训练结构图。

图4是本发明的单应估计模块网络结构图。

图5是本发明的基于尺度、旋转和对称射估计单应变换矩阵图。

图6是本发明的描述符的正距离和负距离、双箭头线表示欧氏距离图。

图7是本发明的HPatches数据集定性结果图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本文提出了一种基于深度学习的局部特征提取方法，全称Repeatable andDiscriminative Detection and Description for Learning Local Features(RDFeat)，用于获得图像之间可靠的匹配对应关系，区分与经典先检测后描述的框架，我们的采用先描述后检测的策略，通过将检测步骤推迟到描述之后，从而获得更稳定的关键点，在这项工作中，着重于获得可重复的关键点和可区分的描述符，首先，我们提出一种多尺度、多单应性的单应性卷积网络(HCN)作为描述器网络来估计稠密描述符，以获得高可区分性的描述符，其次，我们采用了一个CNN网络来作为检测器网络来检测关键点，并结合自监督训练策略，使获得的关键点更具重复性，最后我们设计了两个新的损失函数来进一步提升描述器和检测器的性能，我们在MS-COCO图像数据集上训练RDFeat，然后在多个基准数据集上对其进行评估，实验结果表明，RDFeat的性能优于最新的方法。

前面提到，现有的特征提取大部分是先检测后描述或者同时进行特征检测与描述的特征匹配方法，这些方法中单应性变换操作目的使为了生成更多的关键点，与描述符的生成无关，因此，更无法生成具有区分的描述符，很难提升特征匹配的有效性，而我们的HCN利用单应变换操作是生成更具区分的描述符，因此从现有技术上无法延申到本申请，且我们的HCN的单应变换是经过学习才得到的，使获得的单应变换更符合描述符的特点，能生成更多具区分性的描述符，现有技术中的变换是由非学习方法经采样得到，该方法无法适用于特征符的描述，无法生成具区分性的描述符，下面介绍本申请的具体方案。

请参阅图1-7，本发明提供一种技术方案：

一种基于深度学习的局部特征提取方法，也称为RDFeat，其局部特征提取方法包括以下步骤：

S1、首先进行网络训练

网络包括描述器、检测器和损失函数，其中：

描述器包括单应性卷积网络(HCN)和特征描述，描述器对原始图像进行操作，最终获得与原始图像分辨率大小相同的稠密描述符；

检测器包括检测器CNN网络和关键点提取，检测器对HCN得到的张量F进行操作，最终获得稀疏的关键点位置；

我们采用先描述后检测的策略，通过将检测步骤推迟到描述之后，从而获得更稳定的关键点，在得到更具区别描述符后，我们对图片关键点的检测过程中利用自监督的方式获取高重复性的关键点，相比传统的非机器学习方式具有更灵活的特征寻找过程，获得大量关键点的同时提高特征提取精度。

损失函数：

为了共同优化检测器和描述器，损失函数由检测损失函数和描述损失函数这两个中间损失组成，其中，检测损失函数使网络产生可重复的关键点位置，这些关键点位置与视点或光照是协变的，描述损失函数使网络输出区分性强的描述符，获得可靠的匹配，联合优化这两种损失，同时提升检测器和描述器的效果和性能；

单应性卷积网络(HCN)：

接收输入的原始图像数据，利用HCN中的单应估计模块预测不同的图像变换，将变换后的图像提供给CNN网络，而不是迫使CNN网络学习额外的几何变化，这样做能够让网络学习的更多的图像信息，从而得到一个张量F；

如图2所示，HCN将一个原始图像作为输入，然后，利用单应估计模块获得的N_h个单应矩阵对图像I进行图像变换，获得一组变换后的图像，这里，我们用H(I)表示图像I通过单应矩阵H变换后的图像，接着，我们应用一个全卷积网络Q作为描述符提取网络，为所有变换后的图像提取稠密描述符f，定义为：

f＝Q(H(I))

最后，将这些不同的稠密特征符反变换回来，通过平均值操作融合成一个稠密特征符：

这样做有两个原因，首先，这种方法允许深度网络学习更多关于图像的几何信息，其次，提高了描述符在不同几何变化下的区分性，也就是说，对于对应位置(相匹配)的描述符，它们的字符串表示会足够相似(欧几里得距离足够小)，对于不相对应位置(不匹配)的描述符，它们的字符串表示差距会足够大(欧几里得距离足够大)，从而提高图像匹配的准确度，在实践中，全卷积网络F使用vgg类型的编码器，它由卷积层、池化层和激活函数组成，注意，我们的编码器使用了两个最大池层来降低分辨率到1/4，所有卷积层都被零填充以产生相同的输出大小，我们定义H×W为输入图像的分辨率，其中H'＝H/4，W'＝W/4，输出的张量定义为

其中D为通道数；

单应性卷积网络(HCN)获得的描述符具有尺度、旋转和仿射不变性，虽然CNN描述符经过训练后也能够表现出一定程度的尺度不变性，但尺度不变并不是CNN固有的性质，当尺度变化较大或视角发生变化时，CNN描述符匹配效果会受到很大影响，为了处理这一限制，D2-Net使用了图像金字塔模型，使其在尺度变化方面更加健壮，但却忽略了其他的几何变化，更进一步，LF-Net通过学习特征点不同的尺度和方向，然后使用可微采样器裁剪出图像块，以计算鲁棒的描述符，此外，ALSFeat采用可变形卷积网络(DCN)来预测和应用密集空间变换，从而获得建模几何变化的能力，然而，在我们的工作中，我们向全卷积网络输入在不同变换下的图像，而不是迫使全卷积网络学习额外的几何变化，这样做能够让全卷积网络学习的更多的图像信息，从而的到更具区分性的描述符，从而提高图像匹配的效果；

单应矩阵描述了图像对的像素坐标系中物体的位置映射关系，因此具有旋转和平移的摄像机运动可以很容易地用单应矩阵进行建模，此外，单应矩阵可以从一对图像中很容易的估计出来，它是模拟物体同一物理位置的良好模型，由于这些原因，我们的方法中使用单应矩阵来建模几何变化；

特征描述：

由HCN的计算的得到的张量

作为输入：

①通过Bi-cubic插值输出一个张量

②通过L2-normalizes获得归一化的描述符向量d

d_ij＝o_ij/||o_ij||₂

这里i＝1,…,H，j＝1,…,W，H'＝H/4，W'＝W/4，H和W分别为原始图像的高和宽；d的通道数D＝256，这些描述符向量可以很容易地通过欧几里得距离在图像之间进行匹配，从而获得可靠的对应关系；

检测器CNN网络：

检测器CNN网络的目标是输出一个像素级检测分数，检测分数表示该位置是关键点的概率，将张量F输入至检测器CNN网络，获取原始图像数据中每个像素的检测分数，检测器CNN网络由一个卷积层和两个上卷积层组成，随着通道数逐渐减少，空间分辨率逐渐增加，最后通过sigmoid激活函数获得最终结果；

我们采用类似于U-Net的结构开发了描述符提取模块，虽然这样的方法引入了额外的学习权值，但可以获得更稳健和准确的关键点，这在关键点的重复性上得到了体现；同时我们提出了不同的损失函数，来进一步提高网络性能。

关键点提取：

关键点提取的目标是输出稀疏的关键点位置，输入检测器CNN网络所得到的检测分数，利用非极大值抑制(NMS)与TopK操作，可以获得指定数量的特征点；

单应估计模块由卷积层和线性层组成，原始图像数据经过单应估计模块的网络层后预测6×N_h个参数，用于获得单应变换矩阵；

尺度由一个参数得到：

λ(α)＝exp(tanh(α))；

对于旋转，由两个参数通过下面的公式计算：

θ(α,β)＝arctan2(tanh(α),tanh(β))；

具体的，设定图像四个角为初始点

x＝[(-1,-1),(1,-1),(1,1),(-1,1)]，

x'＝Hx。

上述单应性评估模块的主要思想是将一张原始图片利用变换矩阵将其变换为4个与原图片不同的图片[经过尺度、旋转和对称透视]，这个变换矩阵由6个参数来控制，其中1个参数控制尺度、2个参数控制旋转、3个参数控制对称放射，从而获得单应变换矩阵H；

单应估计模块的坐标对应过程：

目前的方法困难点在于无法直接寻找到一个合适的矩阵来对上述的变换进行直接建模，而本申请通过限定上述的3种变换提出6参数的矩阵是现有方法当中没有记载的，而从实现过程中来看，本申请的变换矩阵H可以很轻松的找到其逆矩阵H'，利用变换矩阵H，可以实现对原图像的变换操作，然后通过逆矩阵H'，又可以反变换回原图像，具体的来说，本申请将原图像的坐标点与获得的H矩阵进行矩阵对应相乘后找到变换后图像的对应位置坐标。然后，对变换后的图像进行描述符提取，这时，可以将变换后图像提取得到的描述符的位置坐标利用H'再反变换到原图片上，即可以将4个变换后提取得到的描述符，变换回原来的位置，从而增强了描述符的信息；

S2、然后进行图像匹配

利用一个标准局部特征管道来评估局部特征提取方法的性能，标准局部特征管道是任一给定的一对图像中提取和匹配特征；

S3、接着进行重复分数(Repeatability)计算

重复分数用于评价局部特征提取方法中检测器的性能，让ε代表正确的距离阈值，检测图像之间的正确关键点对应，重复分数定义为正确对应关键点数除以图像对中总的关键点数；

S4、然后进行匹配分数(M-Score)计算

利用匹配分数评估局部特征提取方法中检测器和局部特征提取方法中描述器的综合性能，匹配分数是标准局部特征管道的匹配策略获得的正确匹配与总匹配数量的比率；

S5、最后进行单应估计效果评价

单应估计效果评估局部特征提取方法估计单应矩阵的能力，单应估计是通过RANSAC计算实现；

其中，单应估计效果评估采用一种间接比较方法来适应不同尺度的单应矩阵，其测量的是RANSAC估计出的单应矩阵与ground-truth单应矩阵变换图像四角之间的平均距离。

本实施例中，检测器采用检测损失函数进行反向梯度更新；

检测损失函数计算过程如下：

给出一对真实的图像I₁和I₂，并给出ground-truth对应关系，表述为w(·)，如I₁＝w(I₂)，换句话说，通过这个w(·)，图像I₁中的所有像素可以在图像I₂找到，我们将图像对I₁和I₂输入网络得到检测分数S₁和S₂，定义G₁和G₂为ground-truth的关键点标签，检测损失函数L_det通过交叉熵损失定义：

L_det＝L_s(S₁,G₁)+L_s(S₂,G₂)

由于难以确定地ground-truth关键点位置，常用的有监督训练无法解决特征检测问题，正如在之前的工作中所观察到的，并没有一个严格的标准来定义哪些位置是关键点，因此，我们按照SuperPoint中提出的自监督策略来解决这个问题，将MagicPoint所生成的ground-truth关键点作为ground-truth对网络进行监督，MagicPoint是在SyntheticShapes数据集上进行训练，然后通过homographic adaptation技术推广到真实图像，在关键点检测方面，MagicPoint表现出了出色的性能，平均精度(mAP)和重复性等定量指标就是证明。

描述器采用描述损失函数进行反向梯度更新；

描述损失函数计算如下：

在这里，定义

和

表示图像对第k个对应的描述符，K表示所有对应描述符的数量，因此，正距离表示为：

·₂表示为欧氏距离，负距离定义为:

这里n(i,j,k)表示图像I₁中的描述符

与图像I₂中所有不对应的描述符的最小距离，则

表示与

距离最小的不对应的描述符，

阈值C是一个安全半径，它的设置是为了排除空间上太接近正确对应的特征点，值得注意的是，描述损失函数同时考虑了图像对之间的负距离和图像内部的负距离；

最终，结合描述损失函数L_des和检测损失函数L_det获得最终的损失函数：

L＝L_des+L_det

最终的损失函数为了共同优化检测器和描述器，我们提出了由检测损失和描述损失这两个中间损失组成的最终损失函数，对于检测，我们希望网络产生可重复的关键点位置，这些关键点位置与视点或光照是协变的，对于描述，我们希望网络输出区分性强的描述符，能够获得可靠的匹配，为此，我们联合优化这两种损失，同时提升检测器和描述器的效果和性能。

利用特征描述和特征提取双损失共同作用在我们的网络中，使得本申请的方法不仅考虑了更具区分性的描述符的描述过程，还考虑到获取更具重复性的关键点，将HCN这一描述符的提取与后续特征提取的损失相关联，使得整个网络端到端的运行，不仅节约了时间，双损失相叠加的策略使得网络具有很好的鲁棒性，从而实现图片经HCN后的特征描述和特征提取有着更好的关联性，一方面可以促进HCN准确快速的产生更具区别性描述符，另外一方面，可以促进关键点检测过程对有区分性描述符的利用，从而实现更准确的关键点检测，在特征匹配实验中，表明了本方法的优越性。

本实施例中，网络训练时，在MS-COCO数据集上进行，将所有图像的分辨率调整为320×240，然后将图像转换为灰度，为了生成像素对应，为每个训练样本随机生成合适的单应变换矩阵，将单应变换后的图像与图像本身同时输入到网络中进行训练，同时对ground-truth关键点位置进行变换，生成对应变换后的ground-truth关键点标签需要注意的是，采用SuperPoint的设定值来确定该范围，以模拟真实世界的相机变换，避免出现极端情况。

本实施例中，网络测试时，在HPatches数据集上进行评估，HPatches中有116个图像序列，其中57个序列为光照变化，59个序列为视角变化，对于每个序列，第一个图像作为参考图像，并与所有后续图像进行匹配，从而得到580对图像HPatches数据集，进行计算，并且采用相同的相互最近邻(MNN)匹配策略，设置相应像素的阈值ε＝3，将重投影误差低于该阈值的匹配认为是正确的匹配；

为了公平的比较，所有的方法都是在240×320的分辨率和提取N＝1000个特征点的情况下计算。

表1.HPatches上的评估结果

定量结果如表1所示，可以发现，我们的RDFeat几乎在所有指标上都优于其他所有方法，SIFT在低误差阈值(ε＝1)时，由于其较高的亚像素精度，单应估计的能力最好，当阈值较大时，RDFeat能够更好地估计单应矩阵，需要注意的是，RDFeat和SuperPoint是在相同的数据集上进行训练的，但RDFeat实现了更好的重复性和匹配分数，证明了其优越性；

图7为HPatches数据集定性结果，阴影面积大表示正确的匹配多，阴影面积小表示正确的匹配少，与SuperPoint、SIFT和ORB相比，RD-Net产生的正确匹配数量最多，即使在极端的旋转和仿射变化下也能覆盖整个图像，尽管在可重复性方面，ORB的性能与RDNet相当，但它的检测倾向于形成稀疏簇，因此在单应性估计任务上的性能较差。

处理结果表明本发明能够根据上面的方案，即一种新颖的深度网络架构，遵循描述再检测的手段，联合学习特征检测器和描述器，在特征描述、特征检测和损失函数方面提出了三个创新，显著提升了描述符的可区分性和关键点重复性的性能，具体来说，我们提出了一种新颖的HCN来提取稠密描述符，可以收集更多不同变换下的几何图像信息，实现描述符的尺度、旋转和仿射不变性能，此外，我们还开发了基于自监督训练策略的检测器CNN网络，实现有效检测稳定的关键点，此外，考虑到检测器和描述符的不同优化目标，我们设计了两个损失函数来提高特征性能，最后，我们在多个基准数据集上进行了综合评估，实验结果表明RDFeat表现出了令人印象深刻的性能，利用特征描述和特征提取双损失共同作用在我们的网络中，使得本申请的方法不仅考虑了更具区分性的描述符的描述过程，还考虑到获取更具重复性的关键点，将HCN这一描述符的提取与后续特征提取的损失相关联，使得整个网络端到端的运行，不仅节约了时间，双损失相叠加的策略使得网络具有很好的鲁棒性，从而实现图片经HCN后的特征描述和特征提取有着更好的关联性，一方面可以促进HCN准确快速的产生更具区别性描述符，另外一方面，可以促进关键点检测过程对有区分性描述符的利用，从而实现更准确的关键点检测，在特征匹配实验中，表明了本方法的优越性。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种基于深度学习的局部特征提取方法，其特征在于：其局部特征提取方法包括以下步骤：

S1、首先进行网络训练

网络包括描述器、检测器和损失函数，其中：

所述损失函数：

所述单应性卷积网络(HCN)：

所述特征描述：

由HCN计算得到的张量

作为输入：

①通过Bi-cubic插值输出一个张量

②通过L2-normalizes获得归一化的描述符向量d

d_ij＝o_ij/||o_ij||₂

所述检测器CNN网络：

所述关键点提取：

尺度由一个参数得到：

λ(α)＝exp(tanh(α))；

对于旋转，由两个参数通过下面的公式计算：

θ(α,β)＝arctan2(tanh(α),tanh(β))；

具体的，设定图像四个角为初始点

x＝[(-1,-1),(1,-1),(1,1),(-1,1)]，

采用张量直接线性变换(Tensor DLT)以可微的方式从这4对对应点x与x'计算出单应性变换矩阵H如下：

x′＝Hx；

S2、然后进行图像匹配

S3、接着进行重复分数(Repeatability)计算

S4、然后进行匹配分数(M-Score)计算

S5、最后进行单应估计效果评价

2.根据权利要求1所述的一种基于深度学习的局部特征提取方法，其特征在于：

所述检测器采用检测损失函数进行反向梯度更新；

所述检测损失函数计算过程如下：

L_det＝L_s(S₁,G₁)+L_s(S₂,G₂)

其中，(i,j)表示坐标点的位置。

3.根据权利要求2所述的一种基于深度学习的局部特征提取方法，其特征在于：

所述描述器采用描述损失函数进行反向梯度更新；

所述描述损失函数计算如下：

定义

和

||·||₂表示为欧氏距离，负距离定义为:

这里n(i,j,k)表示图像I_i中的描述符

与图像I_j中所有不对应的描述符的最小距离，则

表示与

距离最小的不对应的描述符，

阈值C是一个安全半径；

L＝L_des+L_det。

4.根据权利要求1-3中任一所述的一种基于深度学习的局部特征提取方法，其特征在于：网络训练时，在MS-COCO数据集上进行，将所有图像的分辨率调整为320×240，然后将图像转换为灰度，为了生成像素对应，为每个训练样本随机生成单应变换矩阵，将单应变换后的图像与图像本身同时输入到网络中进行训练，同时对ground-truth关键点位置进行变换，生成对应变换后的ground-truth关键点标签。

5.根据权利要求1-4中任一所述的一种基于深度学习的局部特征提取方法，其特征在于：网络测试时，在HPatches数据集上进行评估，HPatches中有116个图像序列，其中57个序列为光照变化，59个序列为视角变化，对于每个序列，第一个图像作为参考图像，并与所有后续图像进行匹配，从而得到580对图像HPatches数据集，在240×320的分辨率和提取N＝1000个特征点的情况下计算，并且采用相同的相互最近邻(MNN)匹配策略，设置相应像素的阈值ε＝3，将重投影误差低于该阈值的匹配认为是正确的匹配。