CN112749682A - 一种基于封面的书籍类型深度学习分类方法 - Google Patents

一种基于封面的书籍类型深度学习分类方法 Download PDF

Info

Publication number
CN112749682A
CN112749682A CN202110103351.5A CN202110103351A CN112749682A CN 112749682 A CN112749682 A CN 112749682A CN 202110103351 A CN202110103351 A CN 202110103351A CN 112749682 A CN112749682 A CN 112749682A
Authority
CN
China
Prior art keywords
deep learning
book
covers
text
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110103351.5A
Other languages
English (en)
Inventor
潘晓光
潘晓辉
王小华
张娜
董虎弟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanxi Sanyouhe Smart Information Technology Co Ltd
Original Assignee
Shanxi Sanyouhe Smart Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanxi Sanyouhe Smart Information Technology Co Ltd filed Critical Shanxi Sanyouhe Smart Information Technology Co Ltd
Priority to CN202110103351.5A priority Critical patent/CN112749682A/zh
Publication of CN112749682A publication Critical patent/CN112749682A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Multimedia (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Probability & Statistics with Applications (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及图书管理技术领域,更具体而言,涉及一种基于封面的书籍类型深度学习分类方法。包括以下步骤:S1、收集图书封面图像并制作训练数据集DTP;S2、将训练数据集DTP输入深度学习模型并进行训练;S3、使用S2所得到的深度学习模型对书籍进行分类。S2中,深度学习模型包括两个深度学习网络、一个全连接层和一个softmax分类器,基于视觉的深度学习网络使用残差神经网络模型,基于文本的深度学习网络使用通用句子编码器模型。本发明具有更高的分类准确率和更高的适用性和稳定性,能够对书籍进行快速,有效的分类,精度高,速度快。本发明主要应用与书籍类型分类方面。

Description

一种基于封面的书籍类型深度学习分类方法
技术领域
本发明涉及图书管理技术领域,更具体而言,涉及一种基于封面的书籍类型深度学习分类方法。
背景技术
书的封面通常是读者的第一印象,它们经常传达关于书的内容的重要信息。随着图书的完全数字化进程的不断推进,基于封面的图书类型分类对于许多现代检索***来说是一项极其重要的内容。解决此问题的主要难点如下:第一,书的体裁种类繁多,有很多没有具体界定;第二,书的封面,如颜色,风格,文本信息等,即使是同一类型的书之间,也具有很大的差异;第三,由于国家、文化、目标读者群体等外部因素的影响,书籍的封面设计也会有所不同。随着图书行业的竞争力日益增强,为了能吸引读者,图书封面设计师将封面设计推向了一个新的高度。
广东技术师范大学蔡君等人在其申请的专利文献“一种基于深度学习的书脊文本识别方法、设备及存储介质”(申请号202010182949.3申请日2020.09.18申请公布号:CN111680684A)中公开了一种基于深度学习的书脊文本识别方法、设备及存储介质。该发明内容包括:制作合成书脊、单字多字体和真实书脊数据集;基于CTPN模型对单本书脊进行文本检测;针对文本模糊特点搭建基于ResNet10的书脊文本识别模型STRNet;针对字体多样特点制作SK-NNS分类器等。该发明的不足之处为:该发明仅是书籍的文字信息识别,并未直接进行书籍分类,识别文本后仍需人工进行书籍分类,故该发明在实际使用中具有很大的局限性。
发明内容
为克服上述现有技术中存在的不足,本发明提供了一种基于封面的书籍类型深度学习分类方法,该方法可能够靠、准确地对书籍进行分类。
为解决上述技术问题,本发明采取的技术方案为:
一种基于封面的书籍类型深度学习分类方法,包括以下步骤:
S1、收集图书封面图像并制作训练数据集DTP;
S2、将训练数据集DTP输入深度学习模型并进行训练;
S3、使用S2所得到的深度学习模型对书籍进行分类。
所述步骤S1中,操作步骤为:
S1a、收集大量图书封面图像,根据体裁进行将这些图像分为30个类别并进行标注;
S1b、将所有的图像调整到224×224的大小,得到图像数据DP;
S1c、使用视觉应用编程接口对数据集进行文本提取,得到文本数据DT;
S1d、将图像数据DP、文本数据DT和标注类别数据共同组成训练数据集DTP。
所述步骤S2中,操作步骤为:
S2a、将训练数据集DTP中的图像数据DP输入基于视觉的深度学习网络;
S2b、将训练数据集DTP中的文本数据DT输入基于文本的深度学习网络;
S2c、将两个深度学习的输出进行直接拼接合并,得到全连接层;
S2d、将全连接层的数据直接输入softmax层进行分类;
S2e、使用梯度下降方法进行反向传播,更新网络参数;
S2f、训练结束后得到训练好的深度学习模型。
所述步骤S3中,操作步骤为:
S3a、将封面图片调整到统一的尺寸224×224,得到图像数据xP;
S3b、使用谷歌云视觉应用编程接口对原始数据进行文本提取,得到文本数据xT;
S3c、将图像数据xP和文本数据xT输入S2所得到的训练好的模型中进行分类,得到待分类书籍的类别。
所述步骤S2中,深度学习模型包括两个深度学习网络、一个全连接层和一个softmax分类器,其中基于视觉的深度学习网络使用残差神经网络模型,基于文本的深度学习网络使用通用句子编码器模型。
所述步骤S2e中,梯度下降方法为:
Figure BDA0002916841260000021
其中,θj为神经网络的参数,α为自行设置的学习率,J(θ)为误差函数。
与现有技术相比,本发明所具有的有益效果为:
本发明能同时利用书籍封面中文本和图像两方面的信息进行书籍封面分类,故具有更高的分类准确率;本发明能够克服直接识别文字进行分类方法中可能产生的文字识别错误问题,故具有更高的适用性和稳定性。本发明能够对书籍进行快速,有效的分类,精度高,速度快,显著提高了处理效率。
附图说明
图1为本发明的深度学习网络结构图。
具体实施方式
下面对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,一种基于封面的书籍类型深度学习分类方法,包括以下步骤:
S1、收集图书封面图像并制作训练数据集DTP;
S2、将训练数据集DTP输入深度学习模型并进行训练;
S3、使用S2所得到的深度学习模型对书籍进行分类。
优选的,步骤S1中,操作步骤为:
S1a、收集大量图书封面图像,根据体裁进行将这些图像分为30个类别并进行标注;
S1b、将所有的图像调整到224×224的大小,得到图像数据DP;
S1c、使用视觉应用编程接口对数据集进行文本提取,得到文本数据DT,视觉应用编程接口采用谷歌云视觉应用编程接口;
S1d、将图像数据DP、文本数据DT和标注类别数据共同组成训练数据集DTP。
优选的,步骤S2中,操作步骤为:
S2a、将训练数据集DTP中的图像数据DP输入基于视觉的深度学习网络;
S2b、将训练数据集DTP中的文本数据DT输入基于文本的深度学习网络;
S2c、将两个深度学习的输出进行直接拼接合并,得到全连接层;
S2d、将全连接层的数据直接输入softmax层进行分类;
S2e、使用梯度下降方法进行反向传播,更新网络参数;
S2f、训练结束后得到训练好的深度学习模型。
优选的,步骤S3中,操作步骤为:
S3a、将封面图片调整到统一的尺寸224×224,得到图像数据xP;
S3b、使用谷歌云视觉应用编程接口对原始数据进行文本提取,得到文本数据xT;
S3c、将图像数据xP和文本数据xT输入S2所得到的训练好的模型中进行分类,得到待分类书籍的类别。
优选的,步骤S2中,深度学习模型包括两个深度学习网络、一个全连接层和一个softmax分类器,其中基于视觉的深度学习网络使用残差神经网络(ResNet-50)模型,基于文本的深度学习网络使用通用句子编码器(USE)模型。
优选的,步骤S2e中,梯度下降方法为:
Figure BDA0002916841260000031
其中,θj为神经网络的参数,α为自行设置的学习率,J(θ)为误差函数。
该方法首先对数据进行预处理,得到书籍封面的图像数据和文本数据,其次将数据分别输入残差网络模型和通用句子编码器中,从图像和文本两种角度对书籍封面进行特征提取,然后将两个网络的输出进行简单拼接,最后将其输入softmax层对书籍封面进行分类。
上面仅对本发明的较佳实施例作了详细说明,但是本发明并不限于上述实施例,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化,各种变化均应包含在本发明的保护范围之内。

Claims (6)

1.一种基于封面的书籍类型深度学习分类方法,其特征在于,包括以下步骤:
S1、收集图书封面图像并制作训练数据集DTP;
S2、将训练数据集DTP输入深度学习模型并进行训练;
S3、使用S2所得到的深度学习模型对书籍进行分类。
2.根据权利要求1所述的一种基于封面的书籍类型深度学习分类方法,其特征在于:所述步骤S1中,操作步骤为:
S1a、收集大量图书封面图像,根据体裁进行将这些图像分为30个类别并进行标注;
S1b、将所有的图像调整到224×224的大小,得到图像数据DP;
S1c、使用视觉应用编程接口对数据集进行文本提取,得到文本数据DT;
S1d、将图像数据DP、文本数据DT和标注类别数据共同组成训练数据集DTP。
3.根据权利要求1所述的一种基于封面的书籍类型深度学习分类方法,其特征在于:所述步骤S2中,操作步骤为:
S2a、将训练数据集DTP中的图像数据DP输入基于视觉的深度学习网络;
S2b、将训练数据集DTP中的文本数据DT输入基于文本的深度学习网络;
S2c、将两个深度学习的输出进行直接拼接合并,得到全连接层;
S2d、将全连接层的数据直接输入softmax层进行分类;
S2e、使用梯度下降方法进行反向传播,更新网络参数;
S2f、训练结束后得到训练好的深度学习模型。
4.根据权利要求1所述的一种基于封面的书籍类型深度学习分类方法,其特征在于:所述步骤S3中,操作步骤为:
S3a、将封面图片调整到统一的尺寸224×224,得到图像数据xP;
S3b、使用谷歌云视觉应用编程接口对原始数据进行文本提取,得到文本数据xT;
S3c、将图像数据xP和文本数据xT输入S2所得到的训练好的模型中进行分类,得到待分类书籍的类别。
5.根据权利要求1所述的一种基于封面的书籍类型深度学习分类方法,其特征在于:所述步骤S2中,深度学习模型包括两个深度学习网络、一个全连接层和一个softmax分类器,其中基于视觉的深度学习网络使用残差神经网络模型,基于文本的深度学习网络使用通用句子编码器模型。
6.根据权利要求3所述的一种基于封面的书籍类型深度学习分类方法,其特征在于:所述步骤S2e中,梯度下降方法为:
Figure FDA0002916841250000011
其中,θj为神经网络的参数,α为自行设置的学习率,J(θ)为误差函数。
CN202110103351.5A 2021-01-26 2021-01-26 一种基于封面的书籍类型深度学习分类方法 Pending CN112749682A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110103351.5A CN112749682A (zh) 2021-01-26 2021-01-26 一种基于封面的书籍类型深度学习分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110103351.5A CN112749682A (zh) 2021-01-26 2021-01-26 一种基于封面的书籍类型深度学习分类方法

Publications (1)

Publication Number Publication Date
CN112749682A true CN112749682A (zh) 2021-05-04

Family

ID=75653139

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110103351.5A Pending CN112749682A (zh) 2021-01-26 2021-01-26 一种基于封面的书籍类型深度学习分类方法

Country Status (1)

Country Link
CN (1) CN112749682A (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10223586B1 (en) * 2018-07-15 2019-03-05 Cognigo Research Ltd. Multi-modal electronic document classification
CN110298338A (zh) * 2019-06-20 2019-10-01 北京易道博识科技有限公司 一种文档图像分类方法及装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10223586B1 (en) * 2018-07-15 2019-03-05 Cognigo Research Ltd. Multi-modal electronic document classification
CN110298338A (zh) * 2019-06-20 2019-10-01 北京易道博识科技有限公司 一种文档图像分类方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
RUNTAO LIU等: "Automatic Document Metadata Extraction Based on Deep Networks", 《NLPCC 2017: NATURAL LANGUAGE PROCESSING AND CHINESE COMPUTING》 *

Similar Documents

Publication Publication Date Title
CN111095296B (zh) 使用机器学习对字符串进行分类
CN111652332B (zh) 基于二分类的深度学习手写中文字符识别方法及***
CN110032938B (zh) 一种藏文识别方法、装置及电子设备
CN110210413A (zh) 一种基于深度学习的多学科试卷内容检测与识别***及方法
Ahranjany et al. A very high accuracy handwritten character recognition system for Farsi/Arabic digits using convolutional neural networks
CN111242024A (zh) 基于机器学习识别图纸内图例及文字的方法及***
CN105447522A (zh) 一种复杂图像文字识别***
CN110866388A (zh) 基于多种神经网络混合的出版pdf版面分析识别方法
CN113158808A (zh) 中文古籍字符识别、组段与版面重建方法、介质和设备
CN112818951A (zh) 一种票证识别的方法
CN112508011A (zh) 一种基于神经网络的ocr识别方法及设备
CN111832573B (zh) 一种基于类激活映射和视觉显著性的图像情感分类方法
CN110796131A (zh) 一种汉字书写评价***
CN113191348B (zh) 一种基于模板的文本结构化提取方法及工具
CN109685065A (zh) 试卷内容自动分类的版面分析方法、***
CN113901952A (zh) 一种基于深度学习的印刷体与手写体分开文字识别方法
CN108664975A (zh) 一种维吾尔文手写字母识别方法、***及电子设备
CN117113962A (zh) 一种信息处理方法、装置及设备
CN113723330A (zh) 一种图表文档信息理解的方法及***
CN114677687A (zh) 一种融合ViT与卷积神经网络的毛笔字体类型快速识别方法
CN115880704A (zh) 一种病例的自动编目方法、***、设备及存储介质
CN112990220A (zh) 一种图像中目标文本智能识别方法及***
CN106611156A (zh) 一种自适应深度空间特征的行人识别方法和***
CN111340032A (zh) 一种基于金融领域应用场景的字符识别方法
CN110516674A (zh) 一种文本图像的手写汉字分割方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210504

RJ01 Rejection of invention patent application after publication