CN112560902A

CN112560902A - 基于书脊视觉信息的图书识别方法及***

Info

Publication number: CN112560902A
Application number: CN202011383651.5A
Authority: CN
Inventors: 孙坦; 周硕; 柴秀娟; 张文蓉; 鲜国建
Original assignee: Agricultural Information Institute of CAAS
Current assignee: Agricultural Information Institute of CAAS
Priority date: 2020-12-01
Filing date: 2020-12-01
Publication date: 2021-03-26

Abstract

本发明提出一种基于书脊视觉信息的图书识别方法及***，包括采集图书馆架上图书书脊图片、对其人工标注以构建书脊分割与书脊分类数据集；构建用于书脊图片深度特征提取的卷积神经网络，并利用训练数据进行训练得到特征提取模型；拍摄架上书本的书脊一侧图片，首先对其中的书脊进行实例分割，进而利用已经训练好的模型获取该书脊图片对应的视觉特征向量，然后与馆藏数据库匹配以识别该书脊对应图书的类别。本发明基于深度学习算法对图书的书脊图片进行识别，利用到书脊目标的全部视觉信息，不受限于文字识别方法所依赖的字典集，支持馆藏新增图书，具有更高的准确率和更好的鲁棒性、可扩展性；可对架上系列图书的书脊图片进行批量识别。

Description

基于书脊视觉信息的图书识别方法及***

技术领域

本发明涉及图书信息管理领域，并特别涉及一种基于书脊视觉信息的图书识别方法及***。

背景技术

目前对图书信息管理还停留在人工基于人眼的识别，人工整理图书信息，或者基于射频识别技术，定制电子标签(RFID)和非接触式信号接受器整理图书信息，或基于文字识别技术，图片采集设备和光学字符识别算法、基于深度学习的字符识别算法，整理图书信息。

其中基于人眼的识别，即人工对架上图书进行取放和辨别分类。基于射频识别技术：为每一本图书安装电子标签(RFID)，录入图书信息，在需要识别时使用非接触式设备对图书信息进行采集。基于文字识别技术：包括基于光学字符识别(OCR)的方法和基于深度学习(Deep Learning)字符识别的方法。主要对图书的封面、书脊或者索书号标签的内容进行字符识别，用识别结果在馆藏数据库中做文本检索。例如图书分拣***以及收书台(CN201610632579.2)、图书馆取书机器人(CN104552230A)和出版物数字资源的自动采集方法及***(CN104424271B)，虽然是基于光学字符识别，但其均不涉及对书脊的识别，其只能通过对图书的封面或者书中内容进行识别，进而对图书进行分类。而在实际使用中图书往往是密集摆放于书架，暴露在外的只有书脊，现有技术难以对包含多个书脊的图片进行图书类别识别。

目前技术还存在以下技术缺陷，例如基于人眼的识别会消耗巨大的时间和人力成本，极大限制了工作效率的提升。基于射频识别技术需要繁重的前期建设工作，依赖专有设备和***，成本昂贵。基于文字识别技术对书本的厚度、磨损程度和艺术字的多样性敏感，稳定性差；本质上是对字符的分类，严重依赖于字典集的范围，即无法识别字典集中没有的陌生语言和字体，不具有可扩展性。

发明内容

本发明提出了一种低成本、速度快、高精度、自动化的书脊识别方法，解决了图书馆架上和类似场景的图书识别问题。

针对现有技术的不足，本发明提出一种基于书脊视觉信息的图书识别方法，其中包括：

步骤1、获取已标注书脊分割的图书书脊图片作为训练集，通过该训练集训练用于分割书脊的深度卷积神经网络模型，得到书脊分割模型，使用该书脊分割模型，对采集的架上书本图片做实例分割，得到多张书脊图片；

步骤2、通过为每张书脊图片标注图书类别，构建书脊分类数据集，通过该书脊分类数据集训练用于书脊分类的深度卷积神经网络模型，得到书脊特征提取模型，使用该书脊特征提取模型提取图书数据库中每一本书的书脊视觉特征，集合书脊视觉特征构建书脊视觉数据库；

步骤3、将包含多个书脊的待识别书脊图片输入至书脊分割模型进行实例分割，并将分割结果输入至该书脊特征提取模型，得到该待识别书脊图片中各书脊的视觉特征向量，将该视觉特征向量与数据库匹配以识别该待识别书脊图片中各书脊的图书类别。

所述的基于书脊视觉信息的图书识别方法，其中该步骤1包括数据集构建步骤，使用图片采集设备对架上图书进行多角度拍摄，并在拍摄结果中每个书脊区域确定四个坐标点(x_N，y_N)_i,N∈[1,4]构成一个封闭的四边形b_i将其框选，以标注书脊分割。

所述的基于书脊视觉信息的图书识别方法，其中该步骤2包括图书类别标注步骤，获得图书书脊图片中所有的书脊区域B_i，获取书脊区域B_i的最小外接矩形R_i的四个顶点(X_N，Y_N)_i,N∈[1,4]以及R_i长边的倾斜角度θ_i，将原图进行仿射变换旋转θ_i后再根据(X_N，Y_N)_i,N∈[1,4]裁切得到规整的书脊图片BE_i，人工对书脊图片BE_i标注类别标签，其中同一本书的书脊图片拥有相同的标签。

所述的基于书脊视觉信息的图书识别方法，其中该步骤2中用于书脊分类的深度卷积神经网络模型的构建方法包括：使用残差模块构建多层的深度卷积神经网络作为特征提取网络m₂，特征提取网络m₂末端添加一个使用加性角度间隔损失函数的全连接分类层classifier，得到该用于书脊分类的深度卷积神经网络模型的结构；

该步骤2包括使用该书脊分类数据集，按照分类任务的范式训练模型M₂＝m₂+classifier：输入缩放为固定大小的书脊图片，训练输出书脊图片所属标签，M₂训练完成以后将模型中特征提取网络m₂输出的特征图F_i作为书脊的视觉特征向量。

所述的基于书脊视觉信息的图书识别方法，其中该步骤3包括将该待识别书脊图片送入该书脊分割模型中处理，得到该待识别书脊图片中所有图书的书脊图片BE_i；在识别过程中，使用余弦相似度度量两个书脊视觉表征向量F_a＝[a₁,a₂,…,a₅₁₂]与F_b＝[b₁,b₂,…,b₅₁₂]之间的相似程度；书脊特征提取模型m₂计算每一个书脊图片BE_i的视觉表征F_i，将其与脊视觉数据库中的数据做最近邻搜索，得到脊视觉数据库中与目标书脊图片相似度最高的多个书脊类别id信息，其中相似度最高的类别id信息作为最终识别结果。

本发明还提出了一种基于书脊视觉信息的图书识别***，其中包括：

第一训练模块，用于获取已标注书脊分割的图书书脊图片作为训练集，通过该训练集训练用于分割书脊的深度卷积神经网络模型，得到书脊分割模型，使用该书脊分割模型，对采集的架上书本图片做实例分割，得到多张书脊图片；

第二训练模块，用于为每张书脊图片标注图书类别，构建书脊分类数据集，通过该书脊分类数据集训练用于书脊分类的深度卷积神经网络模型，得到书脊特征提取模型，使用该书脊特征提取模型提取图书数据库中每一本书的书脊视觉特征，集合书脊视觉特征构建书脊视觉数据库；

识别模块，用于将包含多个书脊的待识别书脊图片输入至书脊分割模型进行实例分割，并将分割结果输入至该书脊特征提取模型，得到该待识别书脊图片中各书脊的视觉特征向量，将该视觉特征向量与数据库匹配以识别该待识别书脊图片中各书脊的图书类别。

所述的基于书脊视觉信息的图书识别***，其中该第一训练模块包括：使用图片采集设备对架上图书进行多角度拍摄，并在拍摄结果中每个书脊区域确定四个坐标点(x_N，y_N)_i,N∈[1,4]构成一个封闭的四边形b_i将其框选，以标注书脊分割。

所述的基于书脊视觉信息的图书识别***，其中该第二训练模块包括：获得图书书脊图片中所有的书脊区域B_i，获取书脊区域B_i的最小外接矩形R_i的四个顶点(X_N，Y_N)_i,N∈[1,4]以及R_i长边的倾斜角度θ_i，将原图进行仿射变换旋转θ_i后再根据(X_N，Y_N)_i,N∈[1,4]裁切得到规整的书脊图片BE_i，人工对书脊图片BE_i标注类别标签，其中同一本书的书脊图片拥有相同的标签。

所述的基于书脊视觉信息的图书识别***，其中该第二训练模块中用于书脊分类的深度卷积神经网络模型的构建过程包括：使用残差模块构建多层的深度卷积神经网络作为特征提取网络m₂，特征提取网络m₂末端添加一个使用加性角度间隔损失函数的全连接分类层classifier，得到该用于书脊分类的深度卷积神经网络模型的结构；

该第二训练模块包括：使用该书脊分类数据集，按照分类任务的范式训练模型M₂＝m₂+classifier：输入缩放为固定大小的书脊图片，训练输出书脊图片所属标签，M₂训练完成以后将模型中特征提取网络m₂输出的特征图F_i作为书脊的视觉特征向量。

所述的基于书脊视觉信息的图书识别***，其中该识别模块包括将该待识别书脊图片送入该书脊分割模型中处理，得到该待识别书脊图片中所有图书的书脊图片BE_i；在识别过程中使用余弦相似度度量两个书脊视觉表征向量之间的相似程度；书脊特征提取模型m₂计算每一个书脊图片BE_i的视觉表征F_i，将其与脊视觉数据库中的数据做最近邻搜索，得到脊视觉数据库中与目标书脊图片相似度最高的多个书脊类别id信息，其中相似度最高的类别id信息作为最终识别结果。

由以上方案可知，本发明的优点在于：

识别图书是大部分图书管理工作的核心步骤，本申请技术在低成本、高精度的情况下将这一步骤自动化，极大地减少了人力，最终可以达到用机器替换人工整理图书的目的。本发明基于深度学习算法对图书的书脊图片进行识别，无需配置复杂的硬件设施，保证了低成本；利用到书脊目标的全部视觉信息，不受限于文字识别方法所依赖的字典集，支持馆藏新增图书，具有更高的准确率和更好的鲁棒性、可扩展性；根据不同应用需求，可对单个书脊或架上系列图书的书脊图片进行单个或批量识别，保证了图书识别的高效率。

附图说明

图1为技术方案流程图；

图2为多视角书脊信息采集图片示例；

图3为人工标注书脊区域(白色四边形为标注框)；

图4为书脊实例分割示例，不同颜色的遮罩代表分割出来的不同书脊区域；

图5为书脊图片提取示例；

图6为书脊特征提取模型。

具体实施方式

针对图书馆架上或其他场景的图书识别问题，对书脊图片进行识别从而确定其所属类别。主要包括以下步骤：1)采集图书馆架上图书书脊图片、对其人工标注以构建书脊分割与书脊分类数据集；2)构建用于书脊图片深度特征提取的卷积神经网络，并利用训练数据进行训练得到特征提取模型；3)测试过程中，可拍摄架上书本的书脊一侧图片，首先对其中的书脊进行实例分割，进而利用已经训练好的模型获取该书脊图片对应的视觉特征向量，然后与馆藏数据库匹配以识别该书脊对应图书的类别。

为让本发明的上述特征和效果能阐述的更明确易懂，下文特举实施例，并配合说明书附图作详细说明如下。为实现上述发明目的，本发明设计了一种如图1所示的基于深度卷积神经网络的书脊识别方法，包括下列步骤：

1.书脊分割模型的训练。首先在图书馆的真实环境中，采集大量架上书本图片。然后对部分采集的架上书本图片进行人工标注，构建书脊分割数据集；作为实例分割任务，设计实现分割书脊的深度卷积神经网络模型，使用书脊分割数据集端到端地训练书脊分割模型。

2.书脊分类模型的训练。使用训练完毕的书脊分割模型，对采集的架上书本图片做实例分割。分割出来的书脊图片，人工标注其类别id，构建书脊分类数据集；设计实现书脊分类的深度卷积神经模型。作为分类任务，使用书脊分类数据集端到端地训练此模型，并从模型中得到书脊特征提取网络。

3.书脊识别。首先使用训练完成的书脊特征提取模型，计算馆藏数据库中每一本书的书脊视觉表征，添加保存在数据库里；识别架上图书时，对一排目标书本的书脊一侧拍摄图片，书脊分割模型自动将其中所有的书脊区域分割出来，书脊特征提取模型计算每个书脊区域的视觉表征，最后用书脊的视觉表征在馆藏数据库的条目中做最近邻搜索，以确定目标书脊对应的图书馆藏信息。

本发明是书脊分类和图书识别问题的软件算法解决方案，无需安装、配置复杂的硬件***，同时在图书识别的关键步骤替换人力，极大降低人力成本。在识别过程中，对于目标图片利用到了书脊区域的全部视觉特征，而不仅仅只有文字信息，使得本方法能够识别具有任意语言和艺术设计的图书书脊，较好地对抗环境光变化、书本磨损等因素的影响。采用特征向量匹配以确定识别结果，摆脱了文字识别方法对字典集的依赖，使得本发明能够方便地支持新增馆藏图书。

书脊实例分割模型的训练

1)书脊分割数据集的构建。在真实的图书馆场景中，使用RGB图片采集设备对架上图书进行拍摄。为了能够在分割后获得同一书脊的不同图片，对书架上的每一格图书从三个不同的角度拍摄(如图2)。在保证图片清晰的前提下尽可能地使本格书的大部分都在拍摄范围中。在本实施例中采集到的架上图书数量为300张左右，原图片素尺寸为1080*1920。对架上书本图片(90张)进行人工标注，对于图片中的每个书脊区域确定四个坐标点(x_N，y_N)_i,N∈[1,4]构成一个封闭的四边形b_i将其框选(如图3)，以构建书脊分割数据集。将其中的80％作为训练数据集，20％作为测试数据集。

图3人工标注书脊区域(白色四边形为标注框)。

书脊分割模型训练。计算机视觉领域中的实例分割任务，不仅要从图片中检测到目标的位置，还要将目标从背景里在像素级别上分割出来。实现书脊分割任务，可以采用非常成熟的实例分割模型(如Mask R-CNN架构)来实现。使用书脊分割数据集端到端地训练书脊分割模型：输入架上图书的原图和对应的书脊框标注信息，训练分割输出所有书脊区域(如图4)。

3)其他可能的实施例。在本步骤中，针对架上书本的图片采集，可能在档案馆或其他类似场景，拍摄同一书格时可能从不同数量的视角采集；针对架上书本图片中书脊区域的提取，书脊实例分割模型还可能按照其他架构实现，比如PolarMask、SOLO、BlendMask等。

书脊分类模型的训练

1)书脊图片的获取与书脊分类数据集的构建。完成书脊分割模型M₁的训练后，对采集得来的全部架上图书的图片做实例分割，获得图片中所有的书脊区域B_i。因为模型的输出即分割得到的书脊区域B_i是由图片中被分类为书本的像素点组成的不规则区域，计算得到B_i的最小外接矩形R_i的四个顶点(X_N，Y_N)_i,N∈[1,4]以及R_i长边的倾斜角度θ_i，将原图进行仿射变换旋转θ_i后再根据(X_N，Y_N)_i,N∈[1,4]裁切得到规整的书脊图片BE_i(如图5)。人工对这些书脊图片标注类别标签，保证同一本书的书脊图片拥有相同的标签。

2)书脊图片视觉表征的提取。使用残差模块构建一个18层的深度卷积神经网络作为特征提取网络m₂，末端添加一个使用加性角度间隔损失函数(如公式1)的全连接分类层classifier(如图6)。使用书脊分类数据集，按照分类任务的范式训练模型M₂＝m₂+classifier：输入缩放为固定大小(800*80)的书脊图片，训练输出书脊图片所属的正确标签(即类别id)。M₂训练完成以后将模型中m₂输出的特征图F_i作为书脊的视觉表征。

式中N是mini-batch中的样本个数，s与m是此种方法的超参数，y_i是特定类别，n是类别个数，θ是模型计算过程中权重与特征向量之间的夹角。

3)其他可能的实施例。在本步骤中，书脊分类模型可能由更多层的残差模块构成，也可能采用其他经典的特征提取网络来构建，比如VGG、Inception或其他自行设计的深度卷积网络等；对单个书脊图片最终取得的特征向量的维度可能发生变化。

图书识别

1)用m₂特征提取网络对馆藏数据库中的所有书脊计算视觉表征，在本实施例中，每一本图书的视觉表征F_i为一个512维的向量。将所有向量存储到单一文件Dict并保存在馆藏数据库中，以便于检索时一次性读入。

2)为了识别一排目标书本的类别id，首先在其书脊一侧拍摄图片，将其送入书脊分割模型M₁中处理，得到图片中所有图书的书脊图片BE_i。在识别过程中，使用余弦相似度(如公式2)度量两个书脊视觉表征向量F_a＝[a₁,a₂,…,a₅₁₂]与F_b＝[b₁,b₂,…,b₅₁₂]之间的相似程度，F_a为待识别书脊图片中书脊的视觉表征向量，F_b为书脊视觉数据库中书脊的视觉表征向量。书脊特征提取模型m₂计算每一个书脊图片BE_i的视觉表征F_i，将其与馆藏数据库中的Dict做最近邻搜索，得到数据库中与目标书脊图片相似度最高的5个书脊(top5)类别id信息，其中相似度最高的id作为最终识别结果。

3)其他可能的实施例。在训练书脊分类网络时，可能使用其他损失函数；在使用特征提取网络对馆藏数据库计算时，可能对每一本图书的视觉表征向量都保存一个文件，检索时循环读入和匹配；在做特征向量最近邻搜索时，可能采用其他标准评价向量间的相似度，比如欧式距离或其他距离度量方法等。

在本实施例中，模拟构建出包含5580张待识别书脊图片的目标数据库probe和包含3700张馆藏书脊图片的测试数据库gallery。遍历probe中的书脊图片，与gallery中的视觉表征Dict做最近邻搜索，相似度最大者作为最终类别id识别结果。经统计分析，图书类别id识别准确率达99.32％。在匹配错误的例子中，绝大部分是由于同系列图书的书脊过于相似，考虑到同系列图书的上架位置一般处于同一区域，对于图书上下架需求，书架位置判断准确率可达99.93％。

以下为与上述方法实施例对应的***实施例，本实施方式可与上述实施方式互相配合实施。上述施方式中提到的相关技术细节在本实施方式中依然有效，为了减少重复，这里不再赘述。相应地，本实施方式中提到的相关技术细节也可应用在上述实施方式中。

本发明具体用场景可为：

1、读者在借阅特定图书时，即使检索到了书架位置，也要在一个书架的众多书格中寻找目标图书。本申请可以帮助读者快速在繁杂的书格中识别出目标图书。

2、读者归还图书以后，需要将这些图书归置以供读者下次借阅。这个工作由人来做就首先要检查每一本书的标签，确定其精确的书架位置，才能最终将图书归位。本申请可以对成排的图书一次拍照、识别、直接输出所有图书的书架位置。

3、由于读者在阅读图书后可能将图书上错书架或者其他原因，在图书馆日常巡检时，要检查书本是否在正确的书架位置。此工作量更为巨大，让人去做几乎不可能，本申请即可以实现快速精准的图书检查。

4、将本申请算法部署在带有机械臂的移动机器人平台上，即可实现图书管理全流程的无人化，从借阅到还书，从检查到整理，本申请技术赋予了机器人对书本的精准感知能力，配合机械臂的动作能力，就可以真正做到机器替代人工。

Claims

1.一种基于书脊视觉信息的图书识别方法，其特征在于，包括：

2.如权利要求1所述的基于书脊视觉信息的图书识别方法，其特征在于，该步骤1包括数据集构建步骤，使用图片采集设备对架上图书进行多角度拍摄，并在拍摄结果中每个书脊区域确定四个坐标点(x_N，y_N)_i,N∈[1,4]构成一个封闭的四边形b_i将其框选，以标注书脊分割。

3.如权利要求1所述的基于书脊视觉信息的图书识别方法，其特征在于，该步骤2包括图书类别标注步骤，获得图书书脊图片中所有的书脊区域B_i，获取书脊区域B_i的最小外接矩形R_i的四个顶点(X_N，Y_N)_i,N∈[1,4]以及R_i长边的倾斜角度θ_i，将原图进行仿射变换旋转θ_i后再根据(X_N，Y_N)_i,N∈[1,4]裁切得到规整的书脊图片BE_i，人工对书脊图片BE_i标注类别标签，其中同一本书的书脊图片拥有相同的标签。

4.如权利要求1所述的基于书脊视觉信息的图书识别方法，其特征在于，该步骤2中用于书脊分类的深度卷积神经网络模型的构建方法包括：使用残差模块构建多层的深度卷积神经网络作为特征提取网络m₂，特征提取网络m₂末端添加一个使用加性角度间隔损失函数的全连接分类层classifier，得到该用于书脊分类的深度卷积神经网络模型的结构；

5.如权利要求4所述的基于书脊视觉信息的图书识别方法，其特征在于，该步骤3包括将该待识别书脊图片送入该书脊分割模型中处理，得到该待识别书脊图片中所有图书的书脊图片BE_i；在识别过程中，使用余弦相似度度量两个书脊视觉表征向量F_a＝[a₁,a₂,…,a₅₁₂]与F_b＝[b₁,b₂,…,b₅₁₂]之间的相似程度；书脊特征提取模型m₂计算每一个书脊图片BE_i的视觉表征F_i，将其与脊视觉数据库中的数据做最近邻搜索，得到脊视觉数据库中与目标书脊图片相似度最高的多个书脊类别id信息，其中相似度最高的类别id信息作为最终识别结果。

6.一种基于书脊视觉信息的图书识别***，其特征在于，包括：

7.如权利要求6所述的基于书脊视觉信息的图书识别***，其特征在于，该第一训练模块包括：使用图片采集设备对架上图书进行多角度拍摄，并在拍摄结果中每个书脊区域确定四个坐标点(x_N，y_N)_i,N∈[1,4]构成一个封闭的四边形b_i将其框选，以标注书脊分割。

8.如权利要求6所述的基于书脊视觉信息的图书识别***，其特征在于，该第二训练模块包括：获得图书书脊图片中所有的书脊区域B_i，获取书脊区域B_i的最小外接矩形R_i的四个顶点(X_N，Y_N)_i,N∈[1,4]以及R_i长边的倾斜角度θ_i，将原图进行仿射变换旋转θ_i后再根据(X_N，Y_N)_i,N∈[1,4]裁切得到规整的书脊图片BE_i，人工对书脊图片BE_i标注类别标签，其中同一本书的书脊图片拥有相同的标签。

9.如权利要求6所述的基于书脊视觉信息的图书识别***，其特征在于，该第二训练模块中用于书脊分类的深度卷积神经网络模型的构建过程包括：使用残差模块构建多层的深度卷积神经网络作为特征提取网络m₂，特征提取网络m₂末端添加一个使用加性角度间隔损失函数的全连接分类层classifier，得到该用于书脊分类的深度卷积神经网络模型的结构；

10.如权利要求9所述的基于书脊视觉信息的图书识别***，其特征在于，该识别模块包括将该待识别书脊图片送入该书脊分割模型中处理，得到该待识别书脊图片中所有图书的书脊图片BE_i；在识别过程中使用余弦相似度度量两个书脊视觉表征向量之间的相似程度；书脊特征提取模型m₂计算每一个书脊图片BE_i的视觉表征F_i，将其与脊视觉数据库中的数据做最近邻搜索，得到脊视觉数据库中与目标书脊图片相似度最高的多个书脊类别id信息，其中相似度最高的类别id信息作为最终识别结果。