CN112560902A - 基于书脊视觉信息的图书识别方法及*** - Google Patents
基于书脊视觉信息的图书识别方法及*** Download PDFInfo
- Publication number
- CN112560902A CN112560902A CN202011383651.5A CN202011383651A CN112560902A CN 112560902 A CN112560902 A CN 112560902A CN 202011383651 A CN202011383651 A CN 202011383651A CN 112560902 A CN112560902 A CN 112560902A
- Authority
- CN
- China
- Prior art keywords
- spine
- book
- picture
- visual
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000000007 visual effect Effects 0.000 title claims abstract description 84
- 238000000034 method Methods 0.000 title claims abstract description 48
- 238000012549 training Methods 0.000 claims abstract description 78
- 230000011218 segmentation Effects 0.000 claims abstract description 73
- 238000000605 extraction Methods 0.000 claims abstract description 42
- 239000013598 vector Substances 0.000 claims abstract description 34
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 26
- 238000010276 construction Methods 0.000 claims description 12
- 230000008569 process Effects 0.000 claims description 12
- 238000012512 characterization method Methods 0.000 claims description 11
- 238000002372 labelling Methods 0.000 claims description 9
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 claims description 6
- 239000000654 additive Substances 0.000 claims description 6
- 230000000996 additive effect Effects 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 6
- 230000009466 transformation Effects 0.000 claims description 6
- 238000003062 neural network model Methods 0.000 claims description 5
- 238000004422 calculation algorithm Methods 0.000 abstract description 5
- 238000013135 deep learning Methods 0.000 abstract description 5
- 238000005516 engineering process Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 4
- 238000013145 classification model Methods 0.000 description 3
- 238000007689 inspection Methods 0.000 description 3
- 238000012015 optical character recognition Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000005299 abrasion Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 239000000523 sample Substances 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000000691 measurement method Methods 0.000 description 1
- 238000012821 model calculation Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明提出一种基于书脊视觉信息的图书识别方法及***,包括采集图书馆架上图书书脊图片、对其人工标注以构建书脊分割与书脊分类数据集;构建用于书脊图片深度特征提取的卷积神经网络,并利用训练数据进行训练得到特征提取模型;拍摄架上书本的书脊一侧图片,首先对其中的书脊进行实例分割,进而利用已经训练好的模型获取该书脊图片对应的视觉特征向量,然后与馆藏数据库匹配以识别该书脊对应图书的类别。本发明基于深度学习算法对图书的书脊图片进行识别,利用到书脊目标的全部视觉信息,不受限于文字识别方法所依赖的字典集,支持馆藏新增图书,具有更高的准确率和更好的鲁棒性、可扩展性;可对架上系列图书的书脊图片进行批量识别。
Description
技术领域
本发明涉及图书信息管理领域,并特别涉及一种基于书脊视觉信息的图书识别方法及***。
背景技术
目前对图书信息管理还停留在人工基于人眼的识别,人工整理图书信息,或者基于射频识别技术,定制电子标签(RFID)和非接触式信号接受器整理图书信息,或基于文字识别技术,图片采集设备和光学字符识别算法、基于深度学习的字符识别算法,整理图书信息。
其中基于人眼的识别,即人工对架上图书进行取放和辨别分类。基于射频识别技术:为每一本图书安装电子标签(RFID),录入图书信息,在需要识别时使用非接触式设备对图书信息进行采集。基于文字识别技术:包括基于光学字符识别(OCR)的方法和基于深度学习(Deep Learning)字符识别的方法。主要对图书的封面、书脊或者索书号标签的内容进行字符识别,用识别结果在馆藏数据库中做文本检索。例如图书分拣***以及收书台(CN201610632579.2)、图书馆取书机器人(CN104552230A)和出版物数字资源的自动采集方法及***(CN104424271B),虽然是基于光学字符识别,但其均不涉及对书脊的识别,其只能通过对图书的封面或者书中内容进行识别,进而对图书进行分类。而在实际使用中图书往往是密集摆放于书架,暴露在外的只有书脊,现有技术难以对包含多个书脊的图片进行图书类别识别。
目前技术还存在以下技术缺陷,例如基于人眼的识别会消耗巨大的时间和人力成本,极大限制了工作效率的提升。基于射频识别技术需要繁重的前期建设工作,依赖专有设备和***,成本昂贵。基于文字识别技术对书本的厚度、磨损程度和艺术字的多样性敏感,稳定性差;本质上是对字符的分类,严重依赖于字典集的范围,即无法识别字典集中没有的陌生语言和字体,不具有可扩展性。
发明内容
本发明提出了一种低成本、速度快、高精度、自动化的书脊识别方法,解决了图书馆架上和类似场景的图书识别问题。
针对现有技术的不足,本发明提出一种基于书脊视觉信息的图书识别方法,其中包括:
步骤1、获取已标注书脊分割的图书书脊图片作为训练集,通过该训练集训练用于分割书脊的深度卷积神经网络模型,得到书脊分割模型,使用该书脊分割模型,对采集的架上书本图片做实例分割,得到多张书脊图片;
步骤2、通过为每张书脊图片标注图书类别,构建书脊分类数据集,通过该书脊分类数据集训练用于书脊分类的深度卷积神经网络模型,得到书脊特征提取模型,使用该书脊特征提取模型提取图书数据库中每一本书的书脊视觉特征,集合书脊视觉特征构建书脊视觉数据库;
步骤3、将包含多个书脊的待识别书脊图片输入至书脊分割模型进行实例分割,并将分割结果输入至该书脊特征提取模型,得到该待识别书脊图片中各书脊的视觉特征向量,将该视觉特征向量与数据库匹配以识别该待识别书脊图片中各书脊的图书类别。
所述的基于书脊视觉信息的图书识别方法,其中该步骤1包括数据集构建步骤,使用图片采集设备对架上图书进行多角度拍摄,并在拍摄结果中每个书脊区域确定四个坐标点(xN,yN)i,N∈[1,4]构成一个封闭的四边形bi将其框选,以标注书脊分割。
所述的基于书脊视觉信息的图书识别方法,其中该步骤2包括图书类别标注步骤,获得图书书脊图片中所有的书脊区域Bi,获取书脊区域Bi的最小外接矩形Ri的四个顶点(XN,YN)i,N∈[1,4]以及Ri长边的倾斜角度θi,将原图进行仿射变换旋转θi后再根据(XN,YN)i,N∈[1,4]裁切得到规整的书脊图片BEi,人工对书脊图片BEi标注类别标签,其中同一本书的书脊图片拥有相同的标签。
所述的基于书脊视觉信息的图书识别方法,其中该步骤2中用于书脊分类的深度卷积神经网络模型的构建方法包括:使用残差模块构建多层的深度卷积神经网络作为特征提取网络m2,特征提取网络m2末端添加一个使用加性角度间隔损失函数的全连接分类层classifier,得到该用于书脊分类的深度卷积神经网络模型的结构;
该步骤2包括使用该书脊分类数据集,按照分类任务的范式训练模型M2=m2+classifier:输入缩放为固定大小的书脊图片,训练输出书脊图片所属标签,M2训练完成以后将模型中特征提取网络m2输出的特征图Fi作为书脊的视觉特征向量。
所述的基于书脊视觉信息的图书识别方法,其中该步骤3包括将该待识别书脊图片送入该书脊分割模型中处理,得到该待识别书脊图片中所有图书的书脊图片BEi;在识别过程中,使用余弦相似度度量两个书脊视觉表征向量Fa=[a1,a2,…,a512]与Fb=[b1,b2,…,b512]之间的相似程度;书脊特征提取模型m2计算每一个书脊图片BEi的视觉表征Fi,将其与脊视觉数据库中的数据做最近邻搜索,得到脊视觉数据库中与目标书脊图片相似度最高的多个书脊类别id信息,其中相似度最高的类别id信息作为最终识别结果。
本发明还提出了一种基于书脊视觉信息的图书识别***,其中包括:
第一训练模块,用于获取已标注书脊分割的图书书脊图片作为训练集,通过该训练集训练用于分割书脊的深度卷积神经网络模型,得到书脊分割模型,使用该书脊分割模型,对采集的架上书本图片做实例分割,得到多张书脊图片;
第二训练模块,用于为每张书脊图片标注图书类别,构建书脊分类数据集,通过该书脊分类数据集训练用于书脊分类的深度卷积神经网络模型,得到书脊特征提取模型,使用该书脊特征提取模型提取图书数据库中每一本书的书脊视觉特征,集合书脊视觉特征构建书脊视觉数据库;
识别模块,用于将包含多个书脊的待识别书脊图片输入至书脊分割模型进行实例分割,并将分割结果输入至该书脊特征提取模型,得到该待识别书脊图片中各书脊的视觉特征向量,将该视觉特征向量与数据库匹配以识别该待识别书脊图片中各书脊的图书类别。
所述的基于书脊视觉信息的图书识别***,其中该第一训练模块包括:使用图片采集设备对架上图书进行多角度拍摄,并在拍摄结果中每个书脊区域确定四个坐标点(xN,yN)i,N∈[1,4]构成一个封闭的四边形bi将其框选,以标注书脊分割。
所述的基于书脊视觉信息的图书识别***,其中该第二训练模块包括:获得图书书脊图片中所有的书脊区域Bi,获取书脊区域Bi的最小外接矩形Ri的四个顶点(XN,YN)i,N∈[1,4]以及Ri长边的倾斜角度θi,将原图进行仿射变换旋转θi后再根据(XN,YN)i,N∈[1,4]裁切得到规整的书脊图片BEi,人工对书脊图片BEi标注类别标签,其中同一本书的书脊图片拥有相同的标签。
所述的基于书脊视觉信息的图书识别***,其中该第二训练模块中用于书脊分类的深度卷积神经网络模型的构建过程包括:使用残差模块构建多层的深度卷积神经网络作为特征提取网络m2,特征提取网络m2末端添加一个使用加性角度间隔损失函数的全连接分类层classifier,得到该用于书脊分类的深度卷积神经网络模型的结构;
该第二训练模块包括:使用该书脊分类数据集,按照分类任务的范式训练模型M2=m2+classifier:输入缩放为固定大小的书脊图片,训练输出书脊图片所属标签,M2训练完成以后将模型中特征提取网络m2输出的特征图Fi作为书脊的视觉特征向量。
所述的基于书脊视觉信息的图书识别***,其中该识别模块包括将该待识别书脊图片送入该书脊分割模型中处理,得到该待识别书脊图片中所有图书的书脊图片BEi;在识别过程中使用余弦相似度度量两个书脊视觉表征向量之间的相似程度;书脊特征提取模型m2计算每一个书脊图片BEi的视觉表征Fi,将其与脊视觉数据库中的数据做最近邻搜索,得到脊视觉数据库中与目标书脊图片相似度最高的多个书脊类别id信息,其中相似度最高的类别id信息作为最终识别结果。
由以上方案可知,本发明的优点在于:
识别图书是大部分图书管理工作的核心步骤,本申请技术在低成本、高精度的情况下将这一步骤自动化,极大地减少了人力,最终可以达到用机器替换人工整理图书的目的。本发明基于深度学习算法对图书的书脊图片进行识别,无需配置复杂的硬件设施,保证了低成本;利用到书脊目标的全部视觉信息,不受限于文字识别方法所依赖的字典集,支持馆藏新增图书,具有更高的准确率和更好的鲁棒性、可扩展性;根据不同应用需求,可对单个书脊或架上系列图书的书脊图片进行单个或批量识别,保证了图书识别的高效率。
附图说明
图1为技术方案流程图;
图2为多视角书脊信息采集图片示例;
图3为人工标注书脊区域(白色四边形为标注框);
图4为书脊实例分割示例,不同颜色的遮罩代表分割出来的不同书脊区域;
图5为书脊图片提取示例;
图6为书脊特征提取模型。
具体实施方式
针对图书馆架上或其他场景的图书识别问题,对书脊图片进行识别从而确定其所属类别。主要包括以下步骤:1)采集图书馆架上图书书脊图片、对其人工标注以构建书脊分割与书脊分类数据集;2)构建用于书脊图片深度特征提取的卷积神经网络,并利用训练数据进行训练得到特征提取模型;3)测试过程中,可拍摄架上书本的书脊一侧图片,首先对其中的书脊进行实例分割,进而利用已经训练好的模型获取该书脊图片对应的视觉特征向量,然后与馆藏数据库匹配以识别该书脊对应图书的类别。
为让本发明的上述特征和效果能阐述的更明确易懂,下文特举实施例,并配合说明书附图作详细说明如下。为实现上述发明目的,本发明设计了一种如图1所示的基于深度卷积神经网络的书脊识别方法,包括下列步骤:
1.书脊分割模型的训练。首先在图书馆的真实环境中,采集大量架上书本图片。然后对部分采集的架上书本图片进行人工标注,构建书脊分割数据集;作为实例分割任务,设计实现分割书脊的深度卷积神经网络模型,使用书脊分割数据集端到端地训练书脊分割模型。
2.书脊分类模型的训练。使用训练完毕的书脊分割模型,对采集的架上书本图片做实例分割。分割出来的书脊图片,人工标注其类别id,构建书脊分类数据集;设计实现书脊分类的深度卷积神经模型。作为分类任务,使用书脊分类数据集端到端地训练此模型,并从模型中得到书脊特征提取网络。
3.书脊识别。首先使用训练完成的书脊特征提取模型,计算馆藏数据库中每一本书的书脊视觉表征,添加保存在数据库里;识别架上图书时,对一排目标书本的书脊一侧拍摄图片,书脊分割模型自动将其中所有的书脊区域分割出来,书脊特征提取模型计算每个书脊区域的视觉表征,最后用书脊的视觉表征在馆藏数据库的条目中做最近邻搜索,以确定目标书脊对应的图书馆藏信息。
本发明是书脊分类和图书识别问题的软件算法解决方案,无需安装、配置复杂的硬件***,同时在图书识别的关键步骤替换人力,极大降低人力成本。在识别过程中,对于目标图片利用到了书脊区域的全部视觉特征,而不仅仅只有文字信息,使得本方法能够识别具有任意语言和艺术设计的图书书脊,较好地对抗环境光变化、书本磨损等因素的影响。采用特征向量匹配以确定识别结果,摆脱了文字识别方法对字典集的依赖,使得本发明能够方便地支持新增馆藏图书。
书脊实例分割模型的训练
1)书脊分割数据集的构建。在真实的图书馆场景中,使用RGB图片采集设备对架上图书进行拍摄。为了能够在分割后获得同一书脊的不同图片,对书架上的每一格图书从三个不同的角度拍摄(如图2)。在保证图片清晰的前提下尽可能地使本格书的大部分都在拍摄范围中。在本实施例中采集到的架上图书数量为300张左右,原图片素尺寸为1080*1920。对架上书本图片(90张)进行人工标注,对于图片中的每个书脊区域确定四个坐标点(xN,yN)i,N∈[1,4]构成一个封闭的四边形bi将其框选(如图3),以构建书脊分割数据集。将其中的80%作为训练数据集,20%作为测试数据集。
图3人工标注书脊区域(白色四边形为标注框)。
书脊分割模型训练。计算机视觉领域中的实例分割任务,不仅要从图片中检测到目标的位置,还要将目标从背景里在像素级别上分割出来。实现书脊分割任务,可以采用非常成熟的实例分割模型(如Mask R-CNN架构)来实现。使用书脊分割数据集端到端地训练书脊分割模型:输入架上图书的原图和对应的书脊框标注信息,训练分割输出所有书脊区域(如图4)。
3)其他可能的实施例。在本步骤中,针对架上书本的图片采集,可能在档案馆或其他类似场景,拍摄同一书格时可能从不同数量的视角采集;针对架上书本图片中书脊区域的提取,书脊实例分割模型还可能按照其他架构实现,比如PolarMask、SOLO、BlendMask等。
书脊分类模型的训练
1)书脊图片的获取与书脊分类数据集的构建。完成书脊分割模型M1的训练后,对采集得来的全部架上图书的图片做实例分割,获得图片中所有的书脊区域Bi。因为模型的输出即分割得到的书脊区域Bi是由图片中被分类为书本的像素点组成的不规则区域,计算得到Bi的最小外接矩形Ri的四个顶点(XN,YN)i,N∈[1,4]以及Ri长边的倾斜角度θi,将原图进行仿射变换旋转θi后再根据(XN,YN)i,N∈[1,4]裁切得到规整的书脊图片BEi(如图5)。人工对这些书脊图片标注类别标签,保证同一本书的书脊图片拥有相同的标签。
2)书脊图片视觉表征的提取。使用残差模块构建一个18层的深度卷积神经网络作为特征提取网络m2,末端添加一个使用加性角度间隔损失函数(如公式1)的全连接分类层classifier(如图6)。使用书脊分类数据集,按照分类任务的范式训练模型M2=m2+classifier:输入缩放为固定大小(800*80)的书脊图片,训练输出书脊图片所属的正确标签(即类别id)。M2训练完成以后将模型中m2输出的特征图Fi作为书脊的视觉表征。
式中N是mini-batch中的样本个数,s与m是此种方法的超参数,yi是特定类别,n是类别个数,θ是模型计算过程中权重与特征向量之间的夹角。
3)其他可能的实施例。在本步骤中,书脊分类模型可能由更多层的残差模块构成,也可能采用其他经典的特征提取网络来构建,比如VGG、Inception或其他自行设计的深度卷积网络等;对单个书脊图片最终取得的特征向量的维度可能发生变化。
图书识别
1)用m2特征提取网络对馆藏数据库中的所有书脊计算视觉表征,在本实施例中,每一本图书的视觉表征Fi为一个512维的向量。将所有向量存储到单一文件Dict并保存在馆藏数据库中,以便于检索时一次性读入。
2)为了识别一排目标书本的类别id,首先在其书脊一侧拍摄图片,将其送入书脊分割模型M1中处理,得到图片中所有图书的书脊图片BEi。在识别过程中,使用余弦相似度(如公式2)度量两个书脊视觉表征向量Fa=[a1,a2,…,a512]与Fb=[b1,b2,…,b512]之间的相似程度,Fa为待识别书脊图片中书脊的视觉表征向量,Fb为书脊视觉数据库中书脊的视觉表征向量。书脊特征提取模型m2计算每一个书脊图片BEi的视觉表征Fi,将其与馆藏数据库中的Dict做最近邻搜索,得到数据库中与目标书脊图片相似度最高的5个书脊(top5)类别id信息,其中相似度最高的id作为最终识别结果。
3)其他可能的实施例。在训练书脊分类网络时,可能使用其他损失函数;在使用特征提取网络对馆藏数据库计算时,可能对每一本图书的视觉表征向量都保存一个文件,检索时循环读入和匹配;在做特征向量最近邻搜索时,可能采用其他标准评价向量间的相似度,比如欧式距离或其他距离度量方法等。
在本实施例中,模拟构建出包含5580张待识别书脊图片的目标数据库probe和包含3700张馆藏书脊图片的测试数据库gallery。遍历probe中的书脊图片,与gallery中的视觉表征Dict做最近邻搜索,相似度最大者作为最终类别id识别结果。经统计分析,图书类别id识别准确率达99.32%。在匹配错误的例子中,绝大部分是由于同系列图书的书脊过于相似,考虑到同系列图书的上架位置一般处于同一区域,对于图书上下架需求,书架位置判断准确率可达99.93%。
以下为与上述方法实施例对应的***实施例,本实施方式可与上述实施方式互相配合实施。上述施方式中提到的相关技术细节在本实施方式中依然有效,为了减少重复,这里不再赘述。相应地,本实施方式中提到的相关技术细节也可应用在上述实施方式中。
本发明还提出了一种基于书脊视觉信息的图书识别***,其中包括:
第一训练模块,用于获取已标注书脊分割的图书书脊图片作为训练集,通过该训练集训练用于分割书脊的深度卷积神经网络模型,得到书脊分割模型,使用该书脊分割模型,对采集的架上书本图片做实例分割,得到多张书脊图片;
第二训练模块,用于为每张书脊图片标注图书类别,构建书脊分类数据集,通过该书脊分类数据集训练用于书脊分类的深度卷积神经网络模型,得到书脊特征提取模型,使用该书脊特征提取模型提取图书数据库中每一本书的书脊视觉特征,集合书脊视觉特征构建书脊视觉数据库;
识别模块,用于将包含多个书脊的待识别书脊图片输入至书脊分割模型进行实例分割,并将分割结果输入至该书脊特征提取模型,得到该待识别书脊图片中各书脊的视觉特征向量,将该视觉特征向量与数据库匹配以识别该待识别书脊图片中各书脊的图书类别。
所述的基于书脊视觉信息的图书识别***,其中该第一训练模块包括:使用图片采集设备对架上图书进行多角度拍摄,并在拍摄结果中每个书脊区域确定四个坐标点(xN,yN)i,N∈[1,4]构成一个封闭的四边形bi将其框选,以标注书脊分割。
所述的基于书脊视觉信息的图书识别***,其中该第二训练模块包括:获得图书书脊图片中所有的书脊区域Bi,获取书脊区域Bi的最小外接矩形Ri的四个顶点(XN,YN)i,N∈[1,4]以及Ri长边的倾斜角度θi,将原图进行仿射变换旋转θi后再根据(XN,YN)i,N∈[1,4]裁切得到规整的书脊图片BEi,人工对书脊图片BEi标注类别标签,其中同一本书的书脊图片拥有相同的标签。
所述的基于书脊视觉信息的图书识别***,其中该第二训练模块中用于书脊分类的深度卷积神经网络模型的构建过程包括:使用残差模块构建多层的深度卷积神经网络作为特征提取网络m2,特征提取网络m2末端添加一个使用加性角度间隔损失函数的全连接分类层classifier,得到该用于书脊分类的深度卷积神经网络模型的结构;
该第二训练模块包括:使用该书脊分类数据集,按照分类任务的范式训练模型M2=m2+classifier:输入缩放为固定大小的书脊图片,训练输出书脊图片所属标签,M2训练完成以后将模型中特征提取网络m2输出的特征图Fi作为书脊的视觉特征向量。
所述的基于书脊视觉信息的图书识别***,其中该识别模块包括将该待识别书脊图片送入该书脊分割模型中处理,得到该待识别书脊图片中所有图书的书脊图片BEi;在识别过程中使用余弦相似度度量两个书脊视觉表征向量之间的相似程度;书脊特征提取模型m2计算每一个书脊图片BEi的视觉表征Fi,将其与脊视觉数据库中的数据做最近邻搜索,得到脊视觉数据库中与目标书脊图片相似度最高的多个书脊类别id信息,其中相似度最高的类别id信息作为最终识别结果。
本发明具体用场景可为:
1、读者在借阅特定图书时,即使检索到了书架位置,也要在一个书架的众多书格中寻找目标图书。本申请可以帮助读者快速在繁杂的书格中识别出目标图书。
2、读者归还图书以后,需要将这些图书归置以供读者下次借阅。这个工作由人来做就首先要检查每一本书的标签,确定其精确的书架位置,才能最终将图书归位。本申请可以对成排的图书一次拍照、识别、直接输出所有图书的书架位置。
3、由于读者在阅读图书后可能将图书上错书架或者其他原因,在图书馆日常巡检时,要检查书本是否在正确的书架位置。此工作量更为巨大,让人去做几乎不可能,本申请即可以实现快速精准的图书检查。
4、将本申请算法部署在带有机械臂的移动机器人平台上,即可实现图书管理全流程的无人化,从借阅到还书,从检查到整理,本申请技术赋予了机器人对书本的精准感知能力,配合机械臂的动作能力,就可以真正做到机器替代人工。
Claims (10)
1.一种基于书脊视觉信息的图书识别方法,其特征在于,包括:
步骤1、获取已标注书脊分割的图书书脊图片作为训练集,通过该训练集训练用于分割书脊的深度卷积神经网络模型,得到书脊分割模型,使用该书脊分割模型,对采集的架上书本图片做实例分割,得到多张书脊图片;
步骤2、通过为每张书脊图片标注图书类别,构建书脊分类数据集,通过该书脊分类数据集训练用于书脊分类的深度卷积神经网络模型,得到书脊特征提取模型,使用该书脊特征提取模型提取图书数据库中每一本书的书脊视觉特征,集合书脊视觉特征构建书脊视觉数据库;
步骤3、将包含多个书脊的待识别书脊图片输入至书脊分割模型进行实例分割,并将分割结果输入至该书脊特征提取模型,得到该待识别书脊图片中各书脊的视觉特征向量,将该视觉特征向量与数据库匹配以识别该待识别书脊图片中各书脊的图书类别。
2.如权利要求1所述的基于书脊视觉信息的图书识别方法,其特征在于,该步骤1包括数据集构建步骤,使用图片采集设备对架上图书进行多角度拍摄,并在拍摄结果中每个书脊区域确定四个坐标点(xN,yN)i,N∈[1,4]构成一个封闭的四边形bi将其框选,以标注书脊分割。
3.如权利要求1所述的基于书脊视觉信息的图书识别方法,其特征在于,该步骤2包括图书类别标注步骤,获得图书书脊图片中所有的书脊区域Bi,获取书脊区域Bi的最小外接矩形Ri的四个顶点(XN,YN)i,N∈[1,4]以及Ri长边的倾斜角度θi,将原图进行仿射变换旋转θi后再根据(XN,YN)i,N∈[1,4]裁切得到规整的书脊图片BEi,人工对书脊图片BEi标注类别标签,其中同一本书的书脊图片拥有相同的标签。
4.如权利要求1所述的基于书脊视觉信息的图书识别方法,其特征在于,该步骤2中用于书脊分类的深度卷积神经网络模型的构建方法包括:使用残差模块构建多层的深度卷积神经网络作为特征提取网络m2,特征提取网络m2末端添加一个使用加性角度间隔损失函数的全连接分类层classifier,得到该用于书脊分类的深度卷积神经网络模型的结构;
该步骤2包括使用该书脊分类数据集,按照分类任务的范式训练模型M2=m2+classifier:输入缩放为固定大小的书脊图片,训练输出书脊图片所属标签,M2训练完成以后将模型中特征提取网络m2输出的特征图Fi作为书脊的视觉特征向量。
5.如权利要求4所述的基于书脊视觉信息的图书识别方法,其特征在于,该步骤3包括将该待识别书脊图片送入该书脊分割模型中处理,得到该待识别书脊图片中所有图书的书脊图片BEi;在识别过程中,使用余弦相似度度量两个书脊视觉表征向量Fa=[a1,a2,…,a512]与Fb=[b1,b2,…,b512]之间的相似程度;书脊特征提取模型m2计算每一个书脊图片BEi的视觉表征Fi,将其与脊视觉数据库中的数据做最近邻搜索,得到脊视觉数据库中与目标书脊图片相似度最高的多个书脊类别id信息,其中相似度最高的类别id信息作为最终识别结果。
6.一种基于书脊视觉信息的图书识别***,其特征在于,包括:
第一训练模块,用于获取已标注书脊分割的图书书脊图片作为训练集,通过该训练集训练用于分割书脊的深度卷积神经网络模型,得到书脊分割模型,使用该书脊分割模型,对采集的架上书本图片做实例分割,得到多张书脊图片;
第二训练模块,用于为每张书脊图片标注图书类别,构建书脊分类数据集,通过该书脊分类数据集训练用于书脊分类的深度卷积神经网络模型,得到书脊特征提取模型,使用该书脊特征提取模型提取图书数据库中每一本书的书脊视觉特征,集合书脊视觉特征构建书脊视觉数据库;
识别模块,用于将包含多个书脊的待识别书脊图片输入至书脊分割模型进行实例分割,并将分割结果输入至该书脊特征提取模型,得到该待识别书脊图片中各书脊的视觉特征向量,将该视觉特征向量与数据库匹配以识别该待识别书脊图片中各书脊的图书类别。
7.如权利要求6所述的基于书脊视觉信息的图书识别***,其特征在于,该第一训练模块包括:使用图片采集设备对架上图书进行多角度拍摄,并在拍摄结果中每个书脊区域确定四个坐标点(xN,yN)i,N∈[1,4]构成一个封闭的四边形bi将其框选,以标注书脊分割。
8.如权利要求6所述的基于书脊视觉信息的图书识别***,其特征在于,该第二训练模块包括:获得图书书脊图片中所有的书脊区域Bi,获取书脊区域Bi的最小外接矩形Ri的四个顶点(XN,YN)i,N∈[1,4]以及Ri长边的倾斜角度θi,将原图进行仿射变换旋转θi后再根据(XN,YN)i,N∈[1,4]裁切得到规整的书脊图片BEi,人工对书脊图片BEi标注类别标签,其中同一本书的书脊图片拥有相同的标签。
9.如权利要求6所述的基于书脊视觉信息的图书识别***,其特征在于,该第二训练模块中用于书脊分类的深度卷积神经网络模型的构建过程包括:使用残差模块构建多层的深度卷积神经网络作为特征提取网络m2,特征提取网络m2末端添加一个使用加性角度间隔损失函数的全连接分类层classifier,得到该用于书脊分类的深度卷积神经网络模型的结构;
该第二训练模块包括:使用该书脊分类数据集,按照分类任务的范式训练模型M2=m2+classifier:输入缩放为固定大小的书脊图片,训练输出书脊图片所属标签,M2训练完成以后将模型中特征提取网络m2输出的特征图Fi作为书脊的视觉特征向量。
10.如权利要求9所述的基于书脊视觉信息的图书识别***,其特征在于,该识别模块包括将该待识别书脊图片送入该书脊分割模型中处理,得到该待识别书脊图片中所有图书的书脊图片BEi;在识别过程中使用余弦相似度度量两个书脊视觉表征向量之间的相似程度;书脊特征提取模型m2计算每一个书脊图片BEi的视觉表征Fi,将其与脊视觉数据库中的数据做最近邻搜索,得到脊视觉数据库中与目标书脊图片相似度最高的多个书脊类别id信息,其中相似度最高的类别id信息作为最终识别结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011383651.5A CN112560902A (zh) | 2020-12-01 | 2020-12-01 | 基于书脊视觉信息的图书识别方法及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011383651.5A CN112560902A (zh) | 2020-12-01 | 2020-12-01 | 基于书脊视觉信息的图书识别方法及*** |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112560902A true CN112560902A (zh) | 2021-03-26 |
Family
ID=75046013
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011383651.5A Pending CN112560902A (zh) | 2020-12-01 | 2020-12-01 | 基于书脊视觉信息的图书识别方法及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112560902A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113487598A (zh) * | 2021-07-26 | 2021-10-08 | 中国科学院国家空间科学中心 | 一种基于计算机视觉的图书装订错误检测*** |
CN117591695A (zh) * | 2023-11-27 | 2024-02-23 | 深圳市海恒智能股份有限公司 | 一种基于视觉表征的图书智能检索*** |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104966081A (zh) * | 2015-06-04 | 2015-10-07 | 广州美读信息技术有限公司 | 书脊图像识别方法 |
US20150371085A1 (en) * | 2014-06-19 | 2015-12-24 | Bitlit Media Inc. | Method and system for identifying books on a bookshelf |
CN108664996A (zh) * | 2018-04-19 | 2018-10-16 | 厦门大学 | 一种基于深度学习的古文字识别方法及*** |
CN110929746A (zh) * | 2019-05-24 | 2020-03-27 | 南京大学 | 一种基于深度神经网络的电子卷宗标题定位提取与分类方法 |
CN111368856A (zh) * | 2020-03-16 | 2020-07-03 | 广东技术师范大学 | 一种基于视觉的图书盘点***的书脊提取方法及装置 |
CN111460185A (zh) * | 2020-03-30 | 2020-07-28 | 小船出海教育科技(北京)有限公司 | 书籍搜索方法、装置和*** |
CN111667639A (zh) * | 2020-05-28 | 2020-09-15 | 北京每日优鲜电子商务有限公司 | 图书归还服务的实现方法、装置及智能图书柜 |
-
2020
- 2020-12-01 CN CN202011383651.5A patent/CN112560902A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150371085A1 (en) * | 2014-06-19 | 2015-12-24 | Bitlit Media Inc. | Method and system for identifying books on a bookshelf |
CN104966081A (zh) * | 2015-06-04 | 2015-10-07 | 广州美读信息技术有限公司 | 书脊图像识别方法 |
CN108664996A (zh) * | 2018-04-19 | 2018-10-16 | 厦门大学 | 一种基于深度学习的古文字识别方法及*** |
CN110929746A (zh) * | 2019-05-24 | 2020-03-27 | 南京大学 | 一种基于深度神经网络的电子卷宗标题定位提取与分类方法 |
CN111368856A (zh) * | 2020-03-16 | 2020-07-03 | 广东技术师范大学 | 一种基于视觉的图书盘点***的书脊提取方法及装置 |
CN111460185A (zh) * | 2020-03-30 | 2020-07-28 | 小船出海教育科技(北京)有限公司 | 书籍搜索方法、装置和*** |
CN111667639A (zh) * | 2020-05-28 | 2020-09-15 | 北京每日优鲜电子商务有限公司 | 图书归还服务的实现方法、装置及智能图书柜 |
Non-Patent Citations (3)
Title |
---|
JIANKANG DENG 等: "ArcFace: Additive Angular Margin Loss for Deep Face Recognition", 《ARXIV》 * |
SHUO ZHOU 等: "Library on-shelf book segmentation and recognition based on deep visual features", 《INFORMATION PROCESSING AND MANAGEMENT 59 (2022)》 * |
崔晨: "基于图像的书脊检测与识别关键技术研究与实现", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113487598A (zh) * | 2021-07-26 | 2021-10-08 | 中国科学院国家空间科学中心 | 一种基于计算机视觉的图书装订错误检测*** |
CN117591695A (zh) * | 2023-11-27 | 2024-02-23 | 深圳市海恒智能股份有限公司 | 一种基于视觉表征的图书智能检索*** |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111095296B (zh) | 使用机器学习对字符串进行分类 | |
CN103679674B (zh) | 一种无人飞行器实时图像拼接方法及*** | |
CN112926405A (zh) | 一种安全帽佩戴检测方法、***、设备及存储介质 | |
CN110826549A (zh) | 基于计算机视觉的巡检机器人仪表图像识别方法及*** | |
CN110704712A (zh) | 基于图像检索的场景图片拍摄位置范围识别方法及*** | |
CN112633297B (zh) | 目标对象的识别方法、装置、存储介质以及电子装置 | |
CN110032654B (zh) | 一种基于人工智能的超市商品录入方法及*** | |
CN112633382A (zh) | 一种基于互近邻的少样本图像分类方法及*** | |
CN112560902A (zh) | 基于书脊视觉信息的图书识别方法及*** | |
Hussain et al. | A Simple and Efficient Deep Learning‐Based Framework for Automatic Fruit Recognition | |
CN111832578A (zh) | 兴趣点信息处理方法、装置、电子设备和存储介质 | |
CN111476210A (zh) | 基于图像的文本识别方法、***、设备及存储介质 | |
CN110738100A (zh) | 一种基于深度学习的伪装军事目标识别方法及*** | |
CN111553422A (zh) | 手术器械自动识别回收方法及*** | |
CN110781195B (zh) | 一种兴趣点信息更新的***、方法和装置 | |
CN110287940B (zh) | 一种基于人工智能的掌纹识别方法及*** | |
CN114358133A (zh) | 一种基于语义辅助双目视觉slam检测回环帧的方法 | |
CN112633114A (zh) | 面向建筑物变化事件的无人机巡查智能预警方法和装置 | |
CN112257506A (zh) | 果蔬大小识别方法、装置、电子设备以及计算机可读介质 | |
Peng et al. | Application of deep residual neural network to water meter reading recognition | |
CN113642430B (zh) | 基于VGG+NetVLAD的地下停车场高精度视觉定位方法及*** | |
CN116071544A (zh) | 面向弱监督指向性视觉理解的图像描述预测方法 | |
CN113743251B (zh) | 一种基于弱监督场景的目标搜索方法及装置 | |
CN114663751A (zh) | 一种基于增量学习技术的输电线路缺陷识别方法和*** | |
CN107193965A (zh) | 一种基于BoVW算法的快速室内定位方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20210326 |