CN111401252B

CN111401252B - 一种基于视觉的图书盘点***的书脊匹配方法和设备

Info

Publication number: CN111401252B
Application number: CN202010187361.7A
Authority: CN
Inventors: 蔡君; 张立安; 廖丽平; 谭志坚
Original assignee: Guangdong Xingxi Intelligent Technology Co ltd; Guangdong Polytechnic Normal University
Current assignee: Guangdong Xingxi Intelligent Technology Co ltd; Guangdong Polytechnic Normal University
Priority date: 2020-03-17
Filing date: 2020-03-17
Publication date: 2023-07-07
Anticipated expiration: 2040-03-17
Also published as: CN111401252A

Abstract

本发明公开了一种基于视觉图书盘点***的书脊匹配方法，提高图书盘点***中的书脊匹配精度的算法包括移动机器人与计算机；移动机器人通过摄像机实时采集图像，并将图像实时传输至计算机进行图像处理；Xingxi‑point模型；高维数据的快速最近邻算法FLANN；误检剔除模型XingxiJudge；通过对书脊图像做特征提取，将特征输送到FLANN特征匹配器，与书脊特征库进行匹配。然而上述方法存在错误匹配，当匹配出若干可疑目标的结果后，逐个将可疑目标构成“图片对”送入误检剔除模型XingxiJudge，判断是否检误，如有误检，则剔除，直到留下唯一目标。最后，检索显示，该算法显著提高匹配质量，具有较好的实时性和特征匹配准确率。有效的减少了匹配过程的时间，提高了书脊匹配的精度。

Description

一种基于视觉的图书盘点***的书脊匹配方法和设备

技术领域

本发明涉及图书自动盘点技术领域，特别涉及一种视觉图书盘点***的书脊匹配方法和设备。

背景技术

在各大中型图书馆的图书盘点工作中，图书盘点是每间隔一段时间必须进行的工作。目前，纸质图书依旧是图书资源的主要组成部分。对于大中型图书馆里上百万的图书，常规性的盘点工作是非常耗费人力物力的。故需要基于计算机视觉的图书盘点***应用于各大中型图书馆的图书盘点工作中，提高盘点工作的效率。该***通过图像处理，深度学习等多种技术来进行移动机器人拍摄书脊图像，对书脊图像进行特征提取和特征匹配完成书脊匹配的工作，是图书盘点***的重要组成部分之一。

进行书脊匹配，首先需要对书脊图像做进行书脊特征提取。目前主流的书脊特征提取算法有SIFT，SURF，ORB等。SIFT提取出的特征具有鲁棒性，但是在实时性不如SURF，ORB。ORB特征提取算法的运行时间远优于SIFT与SURF，可用于实时特征检测，但是ORB并不具备尺度变换鲁棒性。

在对图像进行书脊特征提取后，需要进行书脊特征匹配。由于图书馆盘点***需要处理大量的数据，故匹配算法选择了FLANN匹配，FLANN可以根据数据本身选取合适的算法来处理大量的数据，并且，FLANN比其他的最近邻搜索快很多。在书脊匹配的过程中，匹配的数据量越大，产生的错检也越多，一般的书脊匹配技术到这就完成了，但上述问题依旧没有得到解决。

发明内容

本发明旨在至少解决现有技术中存在的技术问题之一。为此，本发明公开了一种基于视觉的图书盘点***的书脊匹配方法，包括：

步骤1，移动机器人通过摄像机实时采集书脊图像信息；

步骤2，对采集到的书脊图像做特征提取，通过预设算法提取特征点和描述符；

步骤3，采用虚拟的三维物体作为数据集，训练网格提取角点；

步骤4，自动标注特征点，其中，采用真实的书脊图片数据，用所述步骤3训练出来的所述网络提取角点；

步骤5，对所述真实的书脊图片数据进行稽核变化得到新的图片并组成已知位置关系的图片对，把所述图片对输入网络，提取特征点和描述符；

对通过所述预设算法提取出来的特征送入送入Flann特征匹配器进行粗匹配并得到特征子集合；

步骤6，特征遍历所述的特征子集合，计算距离，得到结果集合，逐一将结果集合里面元素送入误检剔除模型XingxiJudge，判断是否误检，若有所述误检，则进行第二次匹配，实现剔除误匹配操作，通过误检剔除的网络模型，优化该模型里面的参数，将书脊匹配出来。

更进一步地，所述预设算法为设计两个网络一个是BaseDetector网络，用于检测基本几何图像的角点；另一个是XingxiPoint模型网络，用于提取特征点和描述符。

更进一步地，所述步骤5进一步包括，特征匹配的结果会得到两个特征集合的对应关系列表，所述Flann在调用匹配函数之前，训练一个匹配器以达到提高匹配速度目的，在查询书脊集的特征逐个和训练器做匹配，查询书脊集的特征点会匹配若干可疑目标。

更进一步地，所述步骤6进一步包括：后期由误检剔除模型XingxiJudge验证匹配的正确性，如有误检则剔除直到得出最佳的匹配。

更进一步地，所述XingxiPoint模型由BACKBONE模块、PPN模块、ROIPOOL模块和KP模块构成；其中，KP模块负责生成特征点和描述符；BACKBONE模块分别和PPN模块、ROIPOOL模块相连，PPN模块与ROIPOOL模块相连，ROIPOOL模块与KP模块相连。

更进一步地，对书脊数据集A做降噪处理；用仿射变换和ORB算法自动标注数据集A的特征点，得到带强监督标注的书脊数据集G；初始化XingxiPoint模型；用数据集G训练XingxiPoint，优化器选用小批量梯度下降算法；将XingxiPoint用于查询书脊Q，得到一系列特征点和描述符；在图书馆书脊库中，采用BF匹配算法将Q的若干可疑目标匹配出来。

本发明进一步公开了一种电子设备，包括：处理器；以及，存储器，用于存储所述处理器的可执行指令；其中，所述处理器配置为经由执行所述可执行指令来执行上述的基于视觉的图书盘点***的书脊匹配方法。

本发明进一步公开了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述的基于视觉的图书盘点***的书脊匹配方法。

综上所述，本发明与现有视觉图书盘点***中的书脊匹配方法相比具有如下优点：

首先，可以产生更多稳健的书脊特征点，有利于提升匹配精度。

对于特征点提取，普遍采用ORB特征点提取算法，但由于实际拍摄的书脊并不理想，导致特征点并不稳健，直接影响后续的匹配精度；本发明提出一种基于深度学习的XingxiPoint模型，在无需人工标注的情况下，可以拟合实际拍摄书脊中的仿射变换，对实际拍摄的光照和角度不敏感，有效提升后续的书脊匹配精度。

其次，可以对匹配结果做自适应相似性度量，精准取出最终目标。

在书脊匹配中，一般先用余弦距离度量查询书脊和可疑结果间的相似性，然后按相似性大小进行排序；一旦可疑结果比较像，或者计算精度不足，都会让最终目标错误，这是无法接受的；本发明提出的误检剔除模型XingxiJudge，本质上是将固定的相似性度量变成非固定的自适应相似性度量，从而提高最终目标准确性。

附图说明

从以下结合附图的描述可以进一步理解本发明。图中的部件不一定按比例绘制，而是将重点放在示出实施例的原理上。在图中，在不同的视图中，相同的附图标记指定对应的部分。

图1是本发明中的XingxiPoint模型结构示意图；

图2是本发明中的XingxiJudge模型结构示意图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步的详细说明。应当理解，此处所描述的具体实施方式仅仅用以解释本发明，并不限定本发明的保护范围。

实施例一

如图1-2所示，本实施例提出一种视觉图书盘点***的书脊匹配方法，包括步骤：

S1对书脊数据集A做降噪处理；

对书脊图像的预处理，本实施例采用高斯滤波器做降噪处理；高斯滤波器是一种线性平滑滤波器，对于服从正态分布的噪声有很好的抑制作用。高斯滤波器是一种加权矩阵，其权重表达式如下：

其中W_ij是权重，i和j是像素点索引，K是归一化常量，σ是高斯分布标准差。

S2用仿射变换和ORB算法自动标注数据集A的特征点，得到带强监督标注的书脊数据集G；

对书脊图像数据集中的每张图像做仿射变换，本实施例采用2000种变换，得到2000张变换后的图像。在这些图像上利用ORB分别提取特征点，可以得到2000张特征点定位图，把这2000张特征点定位图做逆仿射变换后累加到一起，得到最终的一张特征点定位图，这个就是原书脊图像的特征点标注，无需人工标注，节省成本。重复以上步骤即可获得数据集G。

S3初始化XingxiPoint模型；

XingxiPoint模型本质是目标检测模型FasterRCNN模型的变体；

由BACKBONE模块、PPN模块、ROIPOOL模块和KP模块构成。其中，BACKBONE模块负责生成书脊的特征图；可以采用任意的深度卷积网络作为BACKBONE模块，本实施例采用常见的VGG网络。

PPN模块是一种全卷积网络，负责向ROIPOOL模块建议可疑特征点，对应着FasterRCNN模型中的区域建议模块RPN；其中RPN模块中的Anchor采用两个点来表征。本实施例将RPN中的Anchor从两点表征变为单点表征，作为PPN模块。注意，这里的单点即为可疑特征点。

ROIPOOL模块负责接收PPN模块建议的特征点，并从BACKBONE模块中抽取对应的特征块，送入KP模块。本实施例中ROIPOOL模块结构与目标检测模型FasterRCNN中的ROIPOOL一致。

KP模块实际上是一个回归器，根据标注信息，负责回归出真实的特征点坐标，并给出特征点对应的特征块作为描述符。

各模块连接方式为：BACKBONE模块分别和PPN模块、ROIPOOL模块相连，PPN模块与ROIPOOL模块相连，ROIPOOL模块与KP模块相连。

S4用数据集G训练XingxiPoint，优化器选用小批量梯度下降算法；

小批量梯度下降是对批量梯度下降以及随机梯度下降的一个折中办法。其思想是在每次迭代中，先计算batch_size个样本的平均梯度，再来对参数进行优化。在本实施例中，我们取batch_size＝10，训练书脊图像1000张，则优化过程伪代码为：

其中θ为XingxiPoint模型参数，α为学***均梯度。

S5将XingxiPoint用于查询书脊Q，得到一系列特征点和描述符；

S6在图书馆书脊库中，采用BF匹配算法将Q的若干可疑目标匹配出来；

通过书脊匹配会得到两个特征集合的对应关系列表。将第一组特征集命名为数据集，第二组为查询集。BF匹配是通过距离函数在高维矢量之间进行相似性检索，k-d树是针对快速而准确地找到查询点的近邻的高维空间索引结构和近似查询的算法。给定查询点和查询距离阈值，从数据集中找到所有与查询点距离小于查询距离阈值的数据。从数据集中找到距离查询点最近的k个数据，设置k＝2，它就是最近邻次近邻查询。在得到特征点和描述符后，接下来就是要找到集合中的每一个待查询点在匹配得到的目标物体的特征点集合进行2近邻查询，也就是得到最近邻和次近邻。

定义最近邻：

给定一个多维空间

把/>

中的一个向量成为一个样本点。给定样本集E和样本点d，d的最近邻就是任何样本点d'∈E满足使得所有近邻(E，d，d')。距离度量如下

其中d_i是向量d的第i个分量。

BF匹配算法训练出一个匹配器。匹配器将设计特征集的索引树，将查询集的每一个特征点和匹配器进行匹配得到若干可疑目标。

S7匹配出若干可疑目标逐个构成“图片对”，送入误检剔除模型XingxiJudge，判断是否误检，如果有误检，则剔除。最后留下唯一目标。

匹配出若干可疑目标逐个构成“图片对”，送入误检剔除模型XingxiJudge。误检剔除模型用来筛选“图片对”，获取最佳匹配的书脊图像。在通过提取书脊的关键点，找出与数据集的书脊图像中距离最近的若干个可疑目标的前两个关键点中，如果第二近的距离除以最近的距离得到的比值小于某个阈值，则判断为误检，采取剔除操作。

误检剔除模型XingxiJudge将训练一个二分类器。对于二分类问题，将错检作为负样本记为0，正检作为正样本记为1，即对于类别y,有

y∈{0,1}

对于正样本的概率h_θ(x)，使得

0≤h_θ(x)≤1

其中，θ为待优化的参数，使得在对未知类别的样本x₀分类时h_θ(x₀)样本为正样本的概率。对于分类标准如下：

由于特征空间的高维性和百万级的待匹配书脊图像，相似的距离必然带来大量的错误匹配，相对应的比值也较高。所以通过提高这个阈值，匹配点数目将会减少，能够有效提高书脊匹配的精度。

S8通过误检剔除模型XingxiJudge留下唯一目标后，最终输出要查询的书脊。

实施例二

本发明公开了一种基于视觉的图书盘点***的书脊匹配方法，包括：

步骤1，移动机器人通过摄像机实时采集书脊图像信息；

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、***或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

虽然上面已经参考各种实施例描述了本发明，但是应当理解，在不脱离本发明的范围的情况下，可以进行许多改变和修改。因此，其旨在上述详细描述被认为是例示性的而非限制性的，并且应当理解，以下权利要求(包括所有等同物)旨在限定本发明的精神和范围。以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后，技术人员可以对本发明作各种改动或修改，这些等效变化和修饰同样落入本发明权利要求所限定的范围。

Claims

1.一种基于视觉的图书盘点***的书脊匹配方法，其特征在于，包括：

步骤1，移动机器人通过摄像机实时采集书脊图像信息；

步骤2，对采集到的书脊图像做特征提取，通过预设算法提取特征点和描述符，所述预设算法为设计两个网络一个是BaseDetector网络，用于检测基本几何图像的角点；另一个是XingxiPoint模型网络，用于提取特征点和描述符；

步骤4，自动标注特征点，其中，采用真实的书脊图片数据，用所述步骤3训练出来的所述网格提取角点；

步骤5，对所述真实的书脊图片数据进行稽核变化得到新的图片并组成已知位置关系的图片对，把所述图片对输入网络，提取特征点和描述符；对通过所述预设算法提取出来的特征送入Flann特征匹配器进行粗匹配并得到特征子集合；

2.如权利要求1所述的一种基于视觉的图书盘点***的书脊匹配方法，其特征在于，所述步骤5进一步包括，特征匹配的结果会得到两个特征集合的对应关系列表，所述Flann在调用匹配函数之前，训练一个匹配器以达到提高匹配速度目的，再查询书脊集的特征逐个和训练器做匹配，查询书脊集的特征点会匹配若干可疑目标。

3.如权利要求1所述的一种基于视觉的图书盘点***的书脊匹配方法，其特征在于，所述步骤6进一步包括：后期由误检剔除模型XingxiJudge验证匹配的正确性，如有误检则剔除直到得出最佳的匹配。

4.如权利要求1所述的一种基于视觉的图书盘点***的书脊匹配方法，其特征在于，所述XingxiPoint模型由BACKBONE模块，PPN模块、ROIPOOL模块和KP模块构成；其中，KP模块负责生成特征点和描述符；BACKBONE模块分别和PPN模块、ROIPOOL模块相连，PPN模块与ROIPOOL模块相连，ROIPOOL模块与KP模块相连。

5.如权利要求1所述的一种基于视觉的图书盘点***的书脊匹配方法，其特征在于，对书脊数据集A做降噪处理；用仿射变换和ORB算法自动标注数据集A的特征点，得到带强监督标注的书脊数据集G；初始化XingxiPoint模型；用数据集G训练XingxiPoint，优化器选用小批量梯度下降算法；将XingxiPoint用于查询书脊Q，得到一系列特征点和描述符；在图书馆书脊库中，采用BF匹配算法将Q的若干可疑目标匹配出来。

6.一种电子设备，其特征在于，包括：

处理器；以及，

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行权利要求1-5任一项所述的基于视觉的图书盘点***的书脊匹配方法。

7.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-5任一项所述的基于视觉的图书盘点***的书脊匹配方法。