CN111507348A - 基于ctc深度神经网络的文字分割和识别的方法 - Google Patents
基于ctc深度神经网络的文字分割和识别的方法 Download PDFInfo
- Publication number
- CN111507348A CN111507348A CN202010294624.4A CN202010294624A CN111507348A CN 111507348 A CN111507348 A CN 111507348A CN 202010294624 A CN202010294624 A CN 202010294624A CN 111507348 A CN111507348 A CN 111507348A
- Authority
- CN
- China
- Prior art keywords
- segmentation
- ctc
- recognition
- neural network
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Multimedia (AREA)
- Character Discrimination (AREA)
- Image Analysis (AREA)
Abstract
本发明提供了一种基于CTC深度神经网络的文字分割和识别的方法,包括如下步骤:a1.对输入图像利用CNN提取特征;a2.对a1提取的特征进行CELL切分,CELL的高宽固定,个数由图像长度确定;a3.对确定好的特征每个CELL直接分割分类,输出分割信号;a4.利用CTCLOSS计算真实分割信号与模型输出的分割信号之间的损失,损失情况反馈并训练整个模型;a5.利用a3输出的分割信号对文本进行分割,并对单个字符进行CNN+softmax分类识别,真实分割信号由标注文本映射而来,CTCLOSS可自动解决文本对齐问题。本发明提升了OCR识别的速度,且切成单个字符后其识别优化具有针对性,使得最终精度提高;对识别框架进行改进,将识别过程分离为字符分割、单字符识别,使得优化可以分开的、具有针对性的进行。
Description
技术领域
本发明涉及文字分割和识别技术领域,具体来说,涉及一种基于CTC深度神经网络的文字分割和识别的方法。
背景技术
OCR(Optical Character Recognition光学字符识别)是一项对图像文字进行检测识别以及结构化的图像处理技术。目前的OCR技术,分为检测、识别、结构化三个模块;检测与识别,有两种框架,分别为:1.单字符检测+单字符识别框架,具体表述为检测模块的核心任务为检测图像每个独立字符区域;识别模块负责对每个被裁剪出来的字符区域图像,进行文字识别,现有的识别模型基本框架为:CNN+softmax;2.文本行检测+整行识别框架,具体表述为检测模块的核心任务为检测图像中的文本区域;识别模块负责对裁剪出来的文本区域图像进行文本识别,现有的识别模型基本框架为:CNN+LSTM+CTC。
目前通用的是上述第2种框架,其方案细节为文本行检测技术,主要基于的是目前发展较好的深度卷积神经网络进行检测,对较为成熟的Faster RCNN框架进行改良,该框架的基础版本对于较大的物体有比较高的准确率。框架的的流程为:I.对图片提取特征;II.枚举大量的矩形来试图回归出对应的物体;III.将枚举出的矩形分成2类;包含目标且交集较大的正样本和其他负样本;IV.将正样本从特征图中裁剪出来,然后根据特征图去回归目标的边界。文本行识别:深度循环网络进行文字串识别,结合了CNN与RNN,由CNN提取图像特征,对特征图进行横向切片,然后采用典型的RNN结构LSTM循环网络进行推理文本,最后采用CTC损失函数计算预测字符串与标注的差距,完成端到端的训练。
基于模版和规则逻辑对图像内容中的文本信息进行结构化,现有框架均存在着一定的弊端,上述第1种框架下,检测需要对每个字符位置进行拉框标注,标注成本极高,同时使得结构化的难度较大提高,因而,一般检测任务的具体目标就是检测文本行,而不是检测独立检测一个个字符;第2种框架下,识别模块耗时较大。针对现有框架存在的问题,急需一种针对识别框架进行优化、降低识别模块耗时的文字分割和识别的方法出现。
针对相关技术中的问题,目前尚未提出有效的解决方案。
发明内容
本发明的目的在于提供了一种基于CTC深度神经网络的文字分割和识别的方法,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:
基于CTC深度神经网络的文字分割和识别的方法,包括如下步骤:
a1.对输入图像利用CNN提取特征;
a2.对步骤a1提取的特征进行CELL切分,CELL的高度、宽度固定,个数由图像长度确定;
a3.对确定好的特征的每个CELL直接进行分割分类,输出分割信号;
a4.利用CTCLOSS计算公式,计算真实分割信号与模型输出的分割信号之间的损失,将损失情况反馈并训练整个模型;
a5.利用步骤a3输出的分割信号对文本进行分割,并对单个字符进行CNN+softmax分类识别。
进一步地,所述真实分割信号由标注文本映射而来。
进一步地,所述CTCLOSS可自动解决文本对齐问题。
进一步地,所述CTCLOSS计算公式如下:
其中x为图像利用CNN提取后产生的特征,L为真实信号,π代表了单个正确的对齐方案。
进一步地,所述单个正确的对齐方案是对齐方案中的一种,单个对齐方案以概率形式存在于对齐方案中。
进一步地,所述单个对齐方案的概率计算方式如下:
与现有技术相比,本发明具有以下有益效果:1.相比于现有技术,本发明较大的提升了OCR识别的速度,且切成单个字符后其识别优化可以具有针对性,从而使得最终的精度提高;2.相比于现有技术,本发明对识别框架进行了改进,将识别过程分离为字符分割、单字符识别两个步骤,使得优化可以分开的、具有针对性的进行。3.相比于现有技术,本发明构思独特,想法新颖,具有可操作性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明基于CTC深度神经网络的文字分割和识别的方法的过程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明的一个,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他的实施例,都属于本发明的保护范围。
下面,结合附图以及具体实施方式,对发明做出进一步的描述:
如图1所示,基于CTC深度神经网络的文字分割和识别的方法,括如下步骤:
a1.对输入图像利用CNN提取特征;
a2.对步骤a1提取的特征进行CELL切分,CELL的高度、宽度固定,个数由图像长度确定;
a3.对确定好的特征的每个CELL直接进行分割分类,输出分割信号;
a4.利用CTCLOSS计算公式,计算真实分割信号与模型输出的分割信号之间的损失,将损失情况反馈并训练整个模型;
a5.利用步骤a3输出的分割信号对文本进行分割,并对单个字符进行CNN+softmax分类识别。
通过上述方法从根本上较大的提升了OCR识别的速度,且切成单个字符后其识别优化可以具有针对性,从而使得最终的精度提高,同时也对识别框架进行了改进,将识别过程分离为字符分割、单字符识别两个步骤,使得优化可以分开的、具有针对性的进行。
根据上述内容,所述真实分割信号由标注文本映射而来。
根据上述内容,所述CTCLOSS可自动解决文本对齐问题。
根据上述内容,所述CTCLOSS计算公式如下:
其中x为图像利用CNN提取后产生的特征,L为真实信号,π代表了单个正确的对齐方案。
根据上述内容,所述单个正确的对齐方案是对齐方案中的一种,单个对齐方案以概率形式存在于对齐方案中。
根据上述内容,所述单个对齐方案的概率计算方式如下:
验证真实分割信号是由标注文本映射而来,所以分别输入文本内容“我”“我是”“中国人”,可得到真实分割信号“101”“10101”“101010101”。CTC的核心作用是可以自动解决对齐问题,因而可以计算上述情况中,模型输出的分割信号与基于文本长度映射过来的真实信号之间的差异。
选取单词“state”为例,阐述其相关定义和计算逻辑:
利用上述基于CTC深度神经网络的文字分割和识别的方法,CTCLOSS的目标是使公式1的概率值最大,公式1中x为图像利用CNN提取后产生的特征,L为真实信号,π代表了单个正确的对齐方案,其中公式3中均为正确的对齐方案。
利用上述计算公式2,对单个正确的对齐方案的概率进行计算。
通过公式1、公式2、公式3,计算真实分割信号与模型输出的分割信号之间的损失,将损失情况反馈并训练整个模型。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限定本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (6)
1.基于CTC深度神经网络的文字分割和识别的方法,其特征在于,包括如下步骤:
a1.对输入图像利用CNN提取特征;
a2.对步骤(a1)提取的特征进行CELL切分,CELL的高度、宽度固定,个数由图像长度确定;
a3.对确定好的特征的每个CELL直接进行分割分类,输出分割信号;
a4.利用CTCLOSS计算公式,计算真实分割信号与模型输出的分割信号之间的损失,将损失情况反馈并训练整个模型;
a5.利用步骤(a3)输出的分割信号对文本进行分割,并对单个字符进行CNN+softmax分类识别。
2.根据权利要求1所述的基于CTC深度神经网络的文字分割和识别的方法,其特征在于,所述真实分割信号由标注文本映射而来。
3.根据权利要求1所述的基于CTC深度神经网络的文字分割和识别的方法,其特征在于,所述CTCLOSS可自动解决文本对齐问题。
5.根据权利要求4所述的基于CTC深度神经网络的文字分割和识别的方法,其特征在于,所述单个正确的对齐方案是对齐方案中的一种,单个对齐方案以概率形式存在于对齐方案中。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010294624.4A CN111507348A (zh) | 2020-04-15 | 2020-04-15 | 基于ctc深度神经网络的文字分割和识别的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010294624.4A CN111507348A (zh) | 2020-04-15 | 2020-04-15 | 基于ctc深度神经网络的文字分割和识别的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111507348A true CN111507348A (zh) | 2020-08-07 |
Family
ID=71870990
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010294624.4A Pending CN111507348A (zh) | 2020-04-15 | 2020-04-15 | 基于ctc深度神经网络的文字分割和识别的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111507348A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112381175A (zh) * | 2020-12-05 | 2021-02-19 | 中国人民解放军32181部队 | 一种基于图像处理的电路板识别与分析方法 |
CN113537201A (zh) * | 2021-09-16 | 2021-10-22 | 江西风向标教育科技有限公司 | 多维度混合ocr识别方法、装置、设备及存储介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3200123A1 (de) * | 2016-01-28 | 2017-08-02 | Siemens Aktiengesellschaft | Texterkennung |
CN108960245A (zh) * | 2018-07-13 | 2018-12-07 | 广东工业大学 | 轮胎模具字符的检测与识别方法、装置、设备及存储介质 |
CN109241894A (zh) * | 2018-08-28 | 2019-01-18 | 南京安链数据科技有限公司 | 一种基于表格定位和深度学习的针对性票据内容识别***和方法 |
CN109993160A (zh) * | 2019-02-18 | 2019-07-09 | 北京联合大学 | 一种图像矫正及文本与位置识别方法及*** |
US10388272B1 (en) * | 2018-12-04 | 2019-08-20 | Sorenson Ip Holdings, Llc | Training speech recognition systems using word sequences |
CN110175603A (zh) * | 2019-04-01 | 2019-08-27 | 佛山缔乐视觉科技有限公司 | 一种雕刻文字识别方法、***及存储介质 |
CN110766017A (zh) * | 2019-10-22 | 2020-02-07 | 国网新疆电力有限公司信息通信公司 | 基于深度学习的移动终端文字识别方法及*** |
CN110866530A (zh) * | 2019-11-13 | 2020-03-06 | 云南大学 | 一种字符图像识别方法、装置及电子设备 |
-
2020
- 2020-04-15 CN CN202010294624.4A patent/CN111507348A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3200123A1 (de) * | 2016-01-28 | 2017-08-02 | Siemens Aktiengesellschaft | Texterkennung |
CN108960245A (zh) * | 2018-07-13 | 2018-12-07 | 广东工业大学 | 轮胎模具字符的检测与识别方法、装置、设备及存储介质 |
CN109241894A (zh) * | 2018-08-28 | 2019-01-18 | 南京安链数据科技有限公司 | 一种基于表格定位和深度学习的针对性票据内容识别***和方法 |
US10388272B1 (en) * | 2018-12-04 | 2019-08-20 | Sorenson Ip Holdings, Llc | Training speech recognition systems using word sequences |
CN109993160A (zh) * | 2019-02-18 | 2019-07-09 | 北京联合大学 | 一种图像矫正及文本与位置识别方法及*** |
CN110175603A (zh) * | 2019-04-01 | 2019-08-27 | 佛山缔乐视觉科技有限公司 | 一种雕刻文字识别方法、***及存储介质 |
CN110766017A (zh) * | 2019-10-22 | 2020-02-07 | 国网新疆电力有限公司信息通信公司 | 基于深度学习的移动终端文字识别方法及*** |
CN110866530A (zh) * | 2019-11-13 | 2020-03-06 | 云南大学 | 一种字符图像识别方法、装置及电子设备 |
Non-Patent Citations (1)
Title |
---|
张艺玮;赵一嘉;王馨悦;董兰芳;: "结合密集神经网络与长短时记忆模型的中文识别" * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112381175A (zh) * | 2020-12-05 | 2021-02-19 | 中国人民解放军32181部队 | 一种基于图像处理的电路板识别与分析方法 |
CN113537201A (zh) * | 2021-09-16 | 2021-10-22 | 江西风向标教育科技有限公司 | 多维度混合ocr识别方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2022147965A1 (zh) | 基于MixNet-YOLOv3和卷积递归神经网络CRNN的算术题批阅*** | |
Zuo et al. | Natural scene text recognition based on encoder-decoder framework | |
CN113158808B (zh) | 中文古籍字符识别、组段与版面重建方法、介质和设备 | |
Rehman et al. | Performance analysis of character segmentation approach for cursive script recognition on benchmark database | |
CN104778470B (zh) | 基于组件树和霍夫森林的文字检测和识别方法 | |
CN112818951A (zh) | 一种票证识别的方法 | |
EP3349124A1 (en) | Method and system for generating parsed document from digital document | |
CN113537227B (zh) | 一种结构化文本识别方法及*** | |
CN110413787B (zh) | 文本聚类方法、装置、终端和存储介质 | |
CN111507348A (zh) | 基于ctc深度神经网络的文字分割和识别的方法 | |
CN111539417B (zh) | 一种基于深度神经网络的文本识别训练优化方法 | |
CN109086772A (zh) | 一种扭曲粘连字符图片验证码的识别方法及*** | |
CN114187595A (zh) | 基于视觉特征和语义特征融合的文档布局识别方法及*** | |
CN117437647B (zh) | 基于深度学习和计算机视觉的甲骨文字检测方法 | |
CN115080750A (zh) | 基于融合提示序列的弱监督文本分类方法、***和装置 | |
CN114581932A (zh) | 一种图片表格线提取模型构建方法及图片表格提取方法 | |
CN111832497B (zh) | 一种基于几何特征的文本检测后处理方法 | |
Karanje et al. | Survey on text detection, segmentation and recognition from a natural scene images | |
CN109284678A (zh) | 路牌语义识别方法及*** | |
US20230315799A1 (en) | Method and system for extracting information from input document comprising multi-format information | |
CN111581478A (zh) | 一种特定主体的跨网站通用新闻采集方法 | |
CN113761209B (zh) | 文本拼接方法及装置、电子设备、存储介质 | |
CN112800259B (zh) | 一种基于边缘闭合与共性检测的图像生成方法及*** | |
CN114529894A (zh) | 一种融合空洞卷积的快速场景文本检测方法 | |
Fan et al. | BURSTS: A bottom-up approach for robust spotting of texts in scenes |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |