CN116363382B - 一种双波段图像特征点搜索与匹配方法 - Google Patents

一种双波段图像特征点搜索与匹配方法 Download PDF

Info

Publication number
CN116363382B
CN116363382B CN202310106850.9A CN202310106850A CN116363382B CN 116363382 B CN116363382 B CN 116363382B CN 202310106850 A CN202310106850 A CN 202310106850A CN 116363382 B CN116363382 B CN 116363382B
Authority
CN
China
Prior art keywords
feature
matching
training
image
infrared
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310106850.9A
Other languages
English (en)
Other versions
CN116363382A (zh
Inventor
蒋一纯
刘云清
詹伟达
郭金鑫
韩登
于永吉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Changchun University of Science and Technology
Original Assignee
Changchun University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Changchun University of Science and Technology filed Critical Changchun University of Science and Technology
Priority to CN202310106850.9A priority Critical patent/CN116363382B/zh
Publication of CN116363382A publication Critical patent/CN116363382A/zh
Application granted granted Critical
Publication of CN116363382B publication Critical patent/CN116363382B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/7715Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明属于图像处理技术领域,尤其为一种双波段图像特征点搜索与匹配方法,包括如下步骤:步骤1,构建特征提取网络模型:根据训练用计算机的计算性能和存储容量构建特征提取网络模型,并将基础模型进行预训练,在基础模型的输出端增加一个非线性的多层感知机;步骤2,准备用于训练特征提取网络的数据集:数据集中包含相同场景下的红外与可见光图像对,首先对数据集进行粗配准,再将图像切割成统一规格的图像块对,以便后续进行网络训练。本发明基于对比学习的方法构建红外与可见光图像的特征描述子,这种特征描述子并不依赖人工设计,能在图像间存在较大形变时提供更稳定、可靠的特征向量。

Description

一种双波段图像特征点搜索与匹配方法
技术领域
本发明涉及图像处理技术领域,具体为一种双波段图像特征点搜索与匹配方法。
背景技术
在工程应用的过程中,由于环境的高度不确定性,单一成像手段非常容易受到环境的影响,为了提高***的鲁棒性,往往需要多种成像设备同时工作以提供更多的信息,比如热红外与可见光相机;然而,现有的用于红外与可见光图像处理的图像处理算法大多都建立在红外与可见光图像已经对齐的前提下,所以需要将采集的图像进行配准;图像配准的关键在于提取不同图像中的特征点,将这些特征点两两匹配后,计算出图像之间的映射矩阵,最后完成图像配准;主流的图像特征点搜索与匹配算法基于人工设计的描述子,将关注点集中在图像中的部分显著特征,比如角点、极值点或梯度直方图等,然后根据特征点之间的某种相似度或分布关系来关联;但红外与可见光图像由于成像机制不同,所以图像特征之间存在着巨大差异,严重影响特征搜索和提取的精度,无法满足实际需求;
中国专利公开号为“CN110428455B”,名称为“一种可见光图像与远红外图像目标配准方法”,该方法分别提取可见光图像与远红外图像的空间灰度直方图特征,以此对红外图像和可见光图像中的目标进行粗分类;然后,在提取可见光与红外图像的边缘特在,构建边缘方向直方图,进行相关度度量后,实现特征点匹配;这种人工设计的特征描述子和匹配算法的鲁棒性较差,难以应对图像中可能出现的模糊、噪声和亮度变化等,在面对红外与可见光图像尺度、角度存在差异的情况时性能更是急剧下降;因此,通过深度学习技术,依靠神经网络强大的特征提取和表达能力,构建更鲁棒的特征描述和匹配方法是本领域技术人员亟需解决的问题。
发明内容
(一)解决的技术问题
针对现有技术的不足,本发明提供了一种双波段图像特征点搜索与匹配方法,解决了目前红外与可见光图像配准方法中特征差异大、搜索难度高和匹配精度差的问题。
(二)技术方案
本发明为了实现上述目的具体采用以下技术方案:
一种双波段图像特征点搜索与匹配方法,包括如下步骤:
步骤1,构建特征提取网络模型:根据训练用计算机的计算性能和存储容量构建特征提取网络模型,并将基础模型进行预训练,在基础模型的输出端增加一个非线性的多层感知机;
步骤2,准备用于训练特征提取网络的数据集:数据集中包含相同场景下的红外与可见光图像对,首先对数据集进行粗配准,再将图像切割成统一规格的图像块对,以便后续进行网络训练;
步骤3,训练特征提取网络参数:将步骤2中准备好的数据集中的红外与可见光图像分别进行数据增广,然后将训练数据输入到步骤1中构建好的网络模型中进行训练,最小化损失函数;
步骤4,构建细粒度特征描述网络模型:特征提取网络模型由特征初始化、特征提取和特征描述三部分组成;
步骤5,准备用于细粒度特征描述网络的数据集:该步骤与步骤2基本一致,但数据集需要精确配准;
步骤6,训练细粒度特征描述网络参数:该步骤与步骤3基本一致,但数据集增广中并不包括图像位移,确保红外与可见光图像之间仍严格对齐;
步骤7,红外与可见光图像特征点搜索与匹配:首先将红外与可见光图像分别输入特征提取网络,获取指定层的特征图,将特征图拆解为特征向量;对红外与可见光图像的特征向量做相似度度量,根据相似度和方向一致性对特征进行粗粒度匹配;对于每一对匹配点,截取以其为中心的一定图像区域,细粒度特征描述网络在该区域滑动处理,获取对应的特征描述子集合,再进行相似度比较后进行细粒度匹配,最后完成红外与可见光图像的特征搜索和匹配。
进一步地,所述步骤1中特征提取网络模型根据训练用计算设备可以灵活选取,建议选择卷积神经网络中的ResNet和ResNet-wider,网络深度至少34层以上;当训练数据非常充足时,也可以选择Vision Transformer中的标准ViT或Shift Window Transformer,以获得更好的特征提取能力。
进一步地,所述步骤1中在基础网络输出端增加的多层感知机具有两层结构,中间添加激活函数以提供非线性映射能力。
进一步地,所述步骤1中特征提取网络模型的预训练权重需要在ImageNet或同等规模的图像识别数据集上训练获取。
进一步地,所述步骤2中数据集使用FLIRADAS数据集;选取数据集中的少量图片对,人工标注选择并配对特征点,计算得到校正坐标图;将矫正坐标图应用在整个数据集中,即可得到粗配准图像对。
进一步地,所述步骤3中的数据增广方式包括图像选择、平移、缩放、错切、对比度变换、随机概率灰度化和随机高斯模糊,所有变换的中心均为图像的中心。
进一步地,所述步骤3中的损失函数采用对比损失;具体而言,将同一场景的红外与可见光图像视为正样本,不同场景的红外与可见光图像视为负样本,计算不同样本输入特征提取网络后输出的向量之间的内积,通过计算内积的对比损失损失来优化网络参数。
进一步地,所述步骤4中特征提取网络模型的特征初始化由卷积层一、批归一化层一、卷积层二、批归一化层二组成;特征提取模块可由多个残差卷积块组成,残差卷积块由卷积层一、批归一化层一、卷积层二、批归一化层二和残差连接组成;特征描述由平均池化层和多层感知机组成。
进一步地,所述步骤6中数据增广包括以图像中心为变换中心的旋转、缩放和错切。
进一步地,所述步骤7中相似度度量函数的输出值应与输入图像对的相似度成正相关,以匹配对比损失函数的特性。
(三)有益效果
与现有技术相比,本发明提供了一种双波段图像特征点搜索与匹配方法,具备以下有益效果:
本发明基于对比学习的方法构建红外与可见光图像的特征描述子,这种特征描述子并不依赖人工设计,能在图像间存在较大形变时提供更稳定、可靠的特征向量。
本发明在提出的特征提取网络模型训练过程中,不需要人工标柱匹配特征点,也不需要精确配准,实现了无监督学习,再结合迁移学习技术,减少了基于深度学习的方法对庞大的数据及其人工标柱的依赖。
本发明提出的粗粒度和细粒度两步特征搜索和匹配,有效地减少了特征点搜索的范围,缓解了深度学习技术计算复杂度高的问题。
本发明在提出的特征匹配过程中,通过广泛统计数据特点,设定置信度阈值,并计算置信度最高的特征点对的空间关系,设定方向阈值;根据阈值筛选正确匹配的特征点,有效地减少误匹配的概率,提高特征匹配精度。
附图说明
图1为一种双波段图像特征点搜索与匹配方法流程图;
图2为特征提取网络模型训练方法示意图;
图3为细粒度特征描述网络模型结构示意图;
图4为细粒度特征描述网络模型训练方法示意图;
图5为特征搜索和匹配过程工作原理流程图;
图6为本发明所述实现双波段图像特征点搜索与匹配方法与现有技术的主要性能指标对比结果;
图7为本发明所述实现双波段图像特征点搜索与匹配方法的电子设备内部结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
如图1所示,一种双波段图像特征点搜索与匹配方法的流程图,该方法具体包括如下步骤:
步骤1,构建特征提取网络模型:特征提取网络模型可以建立在任何用于图像分类的基础网络模型上,根据训练用计算机的计算性能和存储容量灵活选择,建议选择卷积神经网络中的ResNet和ResNet-wider,网络深度至少34层以上;当训练数据非常充足时,也可以选择Vision Transformer中的标准ViT或Shift Window Transformer,以获得更好的特征提取能力;基础模型需要预训练权重,需要在ImageNet或同等规模的图像识别数据集上训练获取;在基础模型的输出端增加一个非线性的多层感知机,具有两层全连接结构,中间添加激活函数以提供非线性映射能力;
步骤2,准备用于训练特征提取网络的数据集:准备训练数据集,数据集使用FLIRADAS数据集;选取数据集中的少量图片对,人工标柱选择并配对特征点,计算得到校正坐标图;将矫正坐标图应用在整个数据集中,即可得到粗配准图像对;再将图像切割成统一规格的图像块对,以便后续进行网络训练;
步骤3,训练特征提取网络参数:将步骤2中准备好的数据集中的红外与可见光图像分别进行数据增广,包括图像旋转、平移、缩放、错切、对比度变换、随机概率灰度化和随机高斯模糊,所有变换的中心均为图像的中心,提高训练的泛化能力;然后,将大量红外与可见光图像对输入到步骤1中构建好的网络模型中进行训练,将同一场景的红外与可见光图像视为正样本,不同场景的红外与可见光图像视为负样本,计算不同样本输入特征提取网络后输出的向量之间的内积,通过计算并最小化内积的对比损失损失来优化网络参数;
步骤4,构建细粒度特征描述网络模型:特征提取网络模型由特征初始化、特征提取和特征描述三部分组成;特征初始化由卷积层一、批归一化层一、卷积层二、批归一化层二组成;特征提取模块由八个残差卷积块组成,残差卷积块由卷积层一、批归一化层一、卷积层二和批归一化层二组成;特征描述由平均池化层和多层感知机组成;
步骤5,准备用于细粒度特征描述网络的数据集:数据集采用RoadScene数据集或类似的严格配准的红外与可见光图像数据集;
步骤6,训练细粒度特征描述网络参数:将步骤5中准备好的数据集中的红外与可见光图像分别进行数据增广,包括以图像中心为变换中心的旋转、缩放和错切,提高训练的泛化能力;训练方式同步骤3相同;
步骤7,红外与可见光图像特征点搜索与匹配:首先将红外与可见光图像分别输入特征提取网络,获取指定层的特征图,将特征图拆解为特征向量;对红外与可见光图像的特征向量做相似度度量,根据相似度和方向一致性对特征进行粗粒度匹配;对于每一对匹配点,截取以其为中心的一定图像区域,细粒度特征描述网络在该区域滑动处理,获取对应的特征描述子集合,再进行相似度比较后进行细粒度匹配,最后完成红外与可见光图像的特征搜索和匹配。
实施例2:
如图1所示,一种双波段图像特征点搜索与匹配方法的流程图,该方法具体包括如下步骤:
步骤1,构建特征提取网络模型;
本发明中特征提取网络用于粗粒度特征描述子搜索和匹配,其可以从红外与可见光图像中提取潜在的公共图像结构特征;考虑到训练时的计算和存储成本,本实施例采用经典卷积神经网络ResNet50,其由输入头、残差模块一、残差模块二、残差模块三、残差模块四、自适应平均池化和全连接层组成;然后将ResNet50的自适应平均池化后的全连接层删除,该部分即为基础网络;再在基础网络后接入一个多层感知机;多层感知机为两层全连接结构,第一层输入向量维度为2048,输出向量维度为1000,第二层输入向量维度为1000,输出向量维度为1000;中间设置一个线性整流激活层σ(x)=max(x,0);基础网络加载预训练权重参数,权重参数是ResNet50在ImageNet或具有相等规模的大型图像分类数据集上训练的;一般的经典网络的预训练权重可以在torchvision、modelzoo等通用模型数据库中直接获取,无需再单独训练;
步骤2,准备用于训练特征提取网络的数据集;
用于训练特征提取网络的数据集使用FLIRADAS数据集,该数据集包括8862张分辨率为512×640的热红外和可见光图像,删除数据集中分辨率不同的部分数据;然后选取数据集中的20对图像,使用matlab中图像处理工具箱的control point select工具分别在这些红外与可见光图像中人工选择并配对特征点,将20对图像的特征点数据合并,然后以红外图像为基准,采用非线性变换法polynomial计算得到校正坐标图;由于只需要粗配准,可将数据集中所有图像对的映射矩阵用该校正坐标图代替;由于训练时显存容量的限制,将这些图像切割为256×256的图像块,一共获得37976张图像块,以便后续进行网络训练;
步骤3,训练特征提取网络参数;
所述步骤3中的训练方案具体为:设定训练次数为100,每次输入到网络图片数量(即批处理数量)为128-512左右,每次输入到网络图片数量大小的上限主要是根据计算机图形处理器的运算存储容量决定,由于本发明训练特征提取网络依靠大量正负样本学***稳;损失函数函数值阈值设定为0.01,小于该阈值就可以认为网络的训练已基本完成;
如图2所示,训练时首先红外与可见光图像分别进行数据增广,包括图像旋转、平移、缩放、错切、对比度变换、随机概率灰度化和随机高斯模糊,所有变换的中心均为图像的中心,各变换出现的概率均为0.5,每次训练重新随机变换,提高训练的泛化能力;将红外与可见光图像集i=1,2,......,N(B、H和W分别为输入图像集合的批处理数量、高度和宽度,N为总批次数)分别输入特征提取网络,得到输出的向量(L为输出向量维度,本实施例中为1000);此时,将同一场景的红外与可见光图像/>视为正样本,而不同场景下的红外与可见光图像则被视为负样本,应用对比式损失函数即可得到训练网络参数所需的损失值,该损失函数可以表示为:
式中,S为指示函数,fsim(x1,x2)为相似度度量函数,本发明使用余弦相似度度量,可以表示为:
通过反向梯度传导,使网络产生的损失函数最小化,即可获取更优的权重参数;
步骤4,构建细粒度特征描述网络模型;
如图3所示,特征提取网络模型由特征初始化、特征提取和特征描述三部分组成;特征初始化由参数卷积层一、批归一化层一、卷积层二、批归一化层二组成;卷积层一的核尺寸为7×7、步长为2、填充为1且无偏置,卷积层二的核尺寸为3×3、步长为1、填充为1且无偏置参数;特征提取模块由8个残差卷积块组成,残差卷积块由的卷积层一、批归一化层一、卷积层二和批归一化层二组成,卷积层一和卷积层二的核尺寸为3×3、步长为1、填充为1且均无偏置参数;特征描述由平均池化层和全连接层组成,平均池化层的核尺寸为2、步长为2;
步骤5,准备用于细粒度特征描述网络的数据集;
用于细粒度特征描述网络的数据集使用RoadScene数据集,该数据集包括200张分辨率不同的热红外图像,该数据集已严格配准;由于训练时显存容量的限制,将这些图像按步进为16切割为64×64的图像块,筛选并删除红外或可见光二者之一平均方差过小的图像对,一共获得15000张图像块;
步骤6,训练细粒度特征描述网络参数;
所述步骤6中的训练方案具体为:设定训练次数为50,每次输入到网络图片数量(即批处理数量)为128-512左右,由于细粒度特征描述网络也是依靠大量正负样本学习图像结构,所以越大的批处理数量可以获得更好的性能表现;训练过程的学习率设置为0.01,训练至25次和40次时将学习率下降为目前学习率的0.1;网络参数优化器选择自适应矩估计算法,损失函数函数值阈值设定为0.01,小于该阈值就可以认为网络的训练已基本完成;
如图4所示,训练时首先红外与可见光图像分别进行数据增广,包括图像旋转、缩放、错切、对比度变换和随机概率灰度化,所有变换的中心均为图像的中心,各变换出现的概率均为0.5,每次训练重新随机变换;损失函数的选择和计算均与步骤3一致;
步骤7,红外与可见光图像特征点搜索与匹配;
流程如图5所示,在特征提取网络和细粒度特征描述网络训练完毕后,固化其参数,进入推理阶段;给定红外图像输入Iir3×H×W(此处,红外图像被复制为3通道)和可见光图像输入Ivi3×H×W;将二者分别经过特征提取网络,提取特征提取网络中残差模块四的输出,得到红外与可见光的8倍下采样后的特征图fir1024×(H/16)×(W/16)和fvi1024×(H/16)×(W/16),并将其特征图调整为特征向量形式,得到f′ir(HW/256)×1024和f′vi(HW/256)×1024;将f′ir和f′vi中每个特征向量进行归一化操作后,计算二者之间的内积作为相似度度量sim∈(HW/256)×(HW/256),该过程可以表示为:
将sim沿红外和可见光的方向分别做softmax归一化并相乘,即得到相似置信度矩阵conf∈(HW/256)×(HW/256),该过程可以表示为:
conf=softmaxdim=0(sim)·softmaxdim=1(sim)
在本实施例中,将红外图像作为基准,搜索可见光图像中与红外图像的相似特征,对置信度矩阵沿红外方向取最大值,得到置信度confir(HW/256)及其索引值argir(HW/256),该过程可以表示为:
confir=maxdim=0(conf)
argir=argmaxdim=0(conf)
在本实施例中,选取置信度阈值0.3,筛选出可能的配对点;然后计算置信度最高的五对匹配点,计算x和y方向的平均偏移量,设置偏移量阈值10,筛选偏移量与置信度最高的五对匹配点相近的匹配点,视为有效匹配;
完成粗粒度匹配后,每一对匹配点在源图像中表征16×16的图像区域,需要进一步精细化匹配;以源图像对应的16×16的区域内像素为中心,截取原图64×64的区域,生成特征向量,以步进为2滑动处理,获取区域内共计8×8个特征向量;同样通过计算相似置信度矩阵,并并以红外图像为基准,搜索和匹配可见光图像对应区域内的特征,设置置信度阈值0.5,筛选出有效匹配点,完成最后的精确特征匹配;
其中,卷积、拼接和上下采样等操作的实现是本领域技术人员公知的算法,具体流程和方法可在相应的教科书或者技术文献中查阅到。
本发明通过构建一种双波段图像特征点搜索与匹配方法,可以获得更鲁棒、更密集的特征描述子,通过特征描述子直接计算相似度并匹配;通过计算与现有方法得到图像的相关指标,进一步验证了该方法的可行性和优越性;现有技术和本发明提出方法的相关指标对比如图6所示;
处理器可以是通用处理器,例如中央处理器(CPU)、数字信号处理器(DSP)、图像处理器(GPU)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件,可以实现或者执行本申请实施例中公开的各方法、步骤及逻辑框图;通用处理器可以是微处理器或者任何常规的处理器等;结合本申请实施例所公开的方法步骤可以直接体现为硬件处理器执行完成,或用处理器中的硬件及软件模块组合执行完成;
存储器作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块;存储器可以包括至少一种类型的存储介质,例如可以包括随机访问存储器(RAM)、静态随机访问存储器(SRAM)、带电可擦除可编程只读存储器(EEPROM)、磁性存储器、光盘等等;存储器是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此;本申请实施例中的存储器还可以是电路或者其它任意能够实现存储功能的装置,用于存储程序指令或数据;
通信接口可用于计算设备与其他计算设备、终端或成像设备的数据传输,通信接口可以采用通用的协议,例如通用串行总线(USB)、同步/异步串行接收/发送器(USART)、控制器局域网络(CAN)等等;通信接口能用于在不同设备之间传递数据的接口及其通信协议,但不限于此;本申请实施例中的通信接口还可以是光通信或其他任意能够实现信息传输的方式或协议;
本发明还提供了一种双波段图像特征点搜索与匹配的计算机可读存储介质,该计算机可读存储介质可以是上述实施方式中所述装置中所包含的计算机可读存储介质;也可以是单独存在,未装配入设备中的计算机可读存储介质;计算机可读存储介质存储有一个或者一个以上程序,所述程序被一个或者一个以上的处理器用来执行描述于本发明提供的方法;
应注意,尽管图7所示的电子设备仅仅示出了存储器、处理器、通信接口,但是在具体实现过程中,本领域的技术人员应当理解,装置还包括实现正常运行所必须的其他器件;同时,根据具体需要,本领域的技术人员应当理解,装置还可包括实现其他附加功能的元器件;此外,本领域的技术人员应当理解,装置也可仅包括实现本发明实施例所必须的器件,而不必包括图7中所示的全部器件。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种双波段图像特征点搜索与匹配方法,其特征在于:包括如下步骤:
步骤1,构建特征提取网络模型:根据训练用计算机的计算性能和存储容量构建特征提取网络模型,并将基础模型进行预训练,在基础模型的输出端增加一个非线性的多层感知机;
步骤2,准备用于训练特征提取网络的数据集:数据集中包含相同场景下的红外与可见光图像对,首先对数据集进行粗配准,再将图像切割成统一规格的图像块对,以便后续进行网络训练;
步骤3,训练特征提取网络参数:将步骤2中准备好的数据集中的红外与可见光图像分别进行数据增广,然后将训练数据输入到步骤1中构建好的网络模型中进行训练,最小化损失函数;
步骤4,构建细粒度特征描述网络模型:特征提取网络模型由特征初始化、特征提取和特征描述三部分组成;
步骤5,准备用于细粒度特征描述网络的数据集:该步骤与步骤2基本一致,但数据集需要精确配准;
步骤6,训练细粒度特征描述网络参数:该步骤与步骤3基本一致,但数据集增广中并不包括图像位移,确保红外与可见光图像之间仍严格对齐;
步骤7,红外与可见光图像特征点搜索与匹配:首先将红外与可见光图像分别输入特征提取网络,获取指定层的特征图,将特征图拆解为特征向量;对红外与可见光图像的特征向量做相似度度量,根据相似度和方向一致性对特征进行粗粒度匹配;对于每一对匹配点,截取以其为中心的一定图像区域,细粒度特征描述网络在该区域滑动处理,获取对应的特征描述子集合,再进行相似度比较后进行细粒度匹配,最后完成红外与可见光图像的特征搜索和匹配。
2.根据权利要求1所述的一种双波段图像特征点搜索与匹配方法,其特征在于:所述步骤1中特征提取网络模型根据训练用计算设备可以灵活选取,建议选择卷积神经网络中的ResNet和ResNet-wider,网络深度至少34层以上;当训练数据非常充足时,也可以选择Vision Transformer中的标准ViT或Shift Window Transformer,以获得更好的特征提取能力。
3.根据权利要求1所述的一种双波段图像特征点搜索与匹配方法,其特征在于:所述步骤1中在基础网络输出端增加的多层感知机具有两层结构,中间添加激活函数以提供非线性映射能力。
4.根据权利要求1所述的一种双波段图像特征点搜索与匹配方法,其特征在于:所述步骤1中特征提取网络模型的预训练权重需要在ImageNet或同等规模的图像识别数据集上训练获取。
5.根据权利要求1所述的一种双波段图像特征点搜索与匹配方法,其特征在于:所述步骤2中数据集使用FLIRADAS数据集;选取数据集中的少量图片对,人工标注选择并配对特征点,计算得到校正坐标图;将矫正坐标图应用在整个数据集中,即可得到粗配准图像对。
6.根据权利要求1所述的一种双波段图像特征点搜索与匹配方法,其特征在于:所述步骤3中的数据增广方式包括图像选择、平移、缩放、错切、对比度变换、随机概率灰度化和随机高斯模糊,所有变换的中心均为图像的中心。
7.根据权利要求1所述的一种双波段图像特征点搜索与匹配方法,其特征在于:所述步骤3中的损失函数采用对比损失;具体而言,将同一场景的红外与可见光图像视为正样本,不同场景的红外与可见光图像视为负样本,计算不同样本输入特征提取网络后输出的向量之间的内积,通过计算内积的对比损失损失来优化网络参数。
8.根据权利要求1所述的一种双波段图像特征点搜索与匹配方法,其特征在于:所述步骤4中特征提取网络模型的特征初始化由卷积层一、批归一化层一、卷积层二、批归一化层二组成;特征提取模块可由多个残差卷积块组成,残差卷积块由卷积层一、批归一化层一、卷积层二、批归一化层二和残差连接组成;特征描述由平均池化层和多层感知机组成。
9.根据权利要求1所述的一种双波段图像特征点搜索与匹配方法,其特征在于:所述步骤6中数据增广包括以图像中心为变换中心的旋转、缩放和错切。
10.根据权利要求1所述的一种双波段图像特征点搜索与匹配方法,其特征在于:所述步骤7中相似度度量函数的输出值应与输入图像对的相似度成正相关,以匹配对比损失函数的特性。
CN202310106850.9A 2023-02-14 2023-02-14 一种双波段图像特征点搜索与匹配方法 Active CN116363382B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310106850.9A CN116363382B (zh) 2023-02-14 2023-02-14 一种双波段图像特征点搜索与匹配方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310106850.9A CN116363382B (zh) 2023-02-14 2023-02-14 一种双波段图像特征点搜索与匹配方法

Publications (2)

Publication Number Publication Date
CN116363382A CN116363382A (zh) 2023-06-30
CN116363382B true CN116363382B (zh) 2024-02-23

Family

ID=86907450

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310106850.9A Active CN116363382B (zh) 2023-02-14 2023-02-14 一种双波段图像特征点搜索与匹配方法

Country Status (1)

Country Link
CN (1) CN116363382B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109064502A (zh) * 2018-07-11 2018-12-21 西北工业大学 基于深度学习和人工设计特征相结合的多源图像配准方法
CN114220124A (zh) * 2021-12-16 2022-03-22 华南农业大学 一种近红外-可见光跨模态双流行人重识别方法及***
CN114529593A (zh) * 2022-01-12 2022-05-24 西安电子科技大学 红外与可见光图像配准方法、***、设备、图像处理终端

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109064502A (zh) * 2018-07-11 2018-12-21 西北工业大学 基于深度学习和人工设计特征相结合的多源图像配准方法
CN114220124A (zh) * 2021-12-16 2022-03-22 华南农业大学 一种近红外-可见光跨模态双流行人重识别方法及***
CN114529593A (zh) * 2022-01-12 2022-05-24 西安电子科技大学 红外与可见光图像配准方法、***、设备、图像处理终端

Also Published As

Publication number Publication date
CN116363382A (zh) 2023-06-30

Similar Documents

Publication Publication Date Title
US11551333B2 (en) Image reconstruction method and device
WO2022002150A1 (zh) 一种视觉点云地图的构建方法、装置
Chen et al. Improved saliency detection in RGB-D images using two-phase depth estimation and selective deep fusion
CN107330439B (zh) 一种图像中物体姿态的确定方法、客户端及服务器
WO2020228525A1 (zh) 地点识别及其模型训练的方法和装置以及电子设备
CN112967341B (zh) 基于实景图像的室内视觉定位方法、***、设备及存储介质
US20230237771A1 (en) Self-supervised learning method and apparatus for image features, device, and storage medium
CN108389189B (zh) 基于字典学习的立体图像质量评价方法
CN112614110B (zh) 评估图像质量的方法、装置及终端设备
CN111626267B (zh) 一种利用空洞卷积的高光谱遥感图像分类方法
CN116580257A (zh) 特征融合模型训练及样本检索方法、装置和计算机设备
WO2023221790A1 (zh) 图像编码器的训练方法、装置、设备及介质
WO2023036157A1 (en) Self-supervised spatiotemporal representation learning by exploring video continuity
CN110751271B (zh) 一种基于深度神经网络的图像溯源特征表征方法
CN107423771B (zh) 一种两时相遥感图像变化检测方法
CN111709317A (zh) 一种基于显著性模型下多尺度特征的行人重识别方法
CN112329662B (zh) 基于无监督学习的多视角显著性估计方法
Liao et al. Multi-scale saliency features fusion model for person re-identification
CN113888603A (zh) 基于光流跟踪和特征匹配的回环检测及视觉slam方法
CN112906517A (zh) 一种自监督的幂律分布人群计数方法、装置和电子设备
CN116363382B (zh) 一种双波段图像特征点搜索与匹配方法
CN114743045B (zh) 一种基于双分支区域建议网络的小样本目标检测方法
CN116469172A (zh) 一种多时间尺度下的骨骼行为识别视频帧提取方法及***
CN108765384B (zh) 一种联合流形排序和改进凸包的显著性检测方法
CN114973305B (zh) 一种针对拥挤人群的精确人体解析方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant