CN111507348A

CN111507348A - 基于ctc深度神经网络的文字分割和识别的方法

Info

Publication number: CN111507348A
Application number: CN202010294624.4A
Authority: CN
Inventors: 侯进; 黄贤俊
Original assignee: Shenyuan Hengji Technology Co ltd
Current assignee: Shenyuan Hengji Technology Co ltd
Priority date: 2020-04-15
Filing date: 2020-04-15
Publication date: 2020-08-07

Abstract

本发明提供了一种基于CTC深度神经网络的文字分割和识别的方法，包括如下步骤：a1.对输入图像利用CNN提取特征；a2.对a1提取的特征进行CELL切分，CELL的高宽固定，个数由图像长度确定；a3.对确定好的特征每个CELL直接分割分类，输出分割信号；a4.利用CTCLOSS计算真实分割信号与模型输出的分割信号之间的损失，损失情况反馈并训练整个模型；a5.利用a3输出的分割信号对文本进行分割，并对单个字符进行CNN+softmax分类识别，真实分割信号由标注文本映射而来，CTCLOSS可自动解决文本对齐问题。本发明提升了OCR识别的速度，且切成单个字符后其识别优化具有针对性，使得最终精度提高；对识别框架进行改进，将识别过程分离为字符分割、单字符识别，使得优化可以分开的、具有针对性的进行。

Description

基于CTC深度神经网络的文字分割和识别的方法

技术领域

本发明涉及文字分割和识别技术领域，具体来说，涉及一种基于CTC深度神经网络的文字分割和识别的方法。

背景技术

OCR(Optical Character Recognition光学字符识别)是一项对图像文字进行检测识别以及结构化的图像处理技术。目前的OCR技术，分为检测、识别、结构化三个模块；检测与识别，有两种框架，分别为：1.单字符检测+单字符识别框架，具体表述为检测模块的核心任务为检测图像每个独立字符区域；识别模块负责对每个被裁剪出来的字符区域图像，进行文字识别，现有的识别模型基本框架为：CNN+softmax；2.文本行检测+整行识别框架，具体表述为检测模块的核心任务为检测图像中的文本区域；识别模块负责对裁剪出来的文本区域图像进行文本识别，现有的识别模型基本框架为：CNN+LSTM+CTC。

目前通用的是上述第2种框架，其方案细节为文本行检测技术，主要基于的是目前发展较好的深度卷积神经网络进行检测，对较为成熟的Faster RCNN框架进行改良，该框架的基础版本对于较大的物体有比较高的准确率。框架的的流程为：I.对图片提取特征；II.枚举大量的矩形来试图回归出对应的物体；III.将枚举出的矩形分成2类；包含目标且交集较大的正样本和其他负样本；IV.将正样本从特征图中裁剪出来，然后根据特征图去回归目标的边界。文本行识别：深度循环网络进行文字串识别，结合了CNN与RNN,由CNN提取图像特征，对特征图进行横向切片，然后采用典型的RNN结构LSTM循环网络进行推理文本,最后采用CTC损失函数计算预测字符串与标注的差距，完成端到端的训练。

基于模版和规则逻辑对图像内容中的文本信息进行结构化，现有框架均存在着一定的弊端，上述第1种框架下，检测需要对每个字符位置进行拉框标注，标注成本极高，同时使得结构化的难度较大提高，因而，一般检测任务的具体目标就是检测文本行，而不是检测独立检测一个个字符；第2种框架下，识别模块耗时较大。针对现有框架存在的问题，急需一种针对识别框架进行优化、降低识别模块耗时的文字分割和识别的方法出现。

针对相关技术中的问题，目前尚未提出有效的解决方案。

发明内容

本发明的目的在于提供了一种基于CTC深度神经网络的文字分割和识别的方法，以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：

基于CTC深度神经网络的文字分割和识别的方法，包括如下步骤：

a1.对输入图像利用CNN提取特征；

a2.对步骤a1提取的特征进行CELL切分，CELL的高度、宽度固定，个数由图像长度确定；

a3.对确定好的特征的每个CELL直接进行分割分类，输出分割信号；

a4.利用CTCLOSS计算公式，计算真实分割信号与模型输出的分割信号之间的损失，将损失情况反馈并训练整个模型；

a5.利用步骤a3输出的分割信号对文本进行分割，并对单个字符进行CNN+softmax分类识别。

进一步地，所述真实分割信号由标注文本映射而来。

进一步地，所述CTCLOSS可自动解决文本对齐问题。

进一步地，所述CTCLOSS计算公式如下：

其中x为图像利用CNN提取后产生的特征，L为真实信号，π代表了单个正确的对齐方案。

进一步地，所述单个正确的对齐方案是对齐方案中的一种，单个对齐方案以概率形式存在于对齐方案中。

进一步地，所述单个对齐方案的概率计算方式如下：

与现有技术相比，本发明具有以下有益效果：1.相比于现有技术，本发明较大的提升了OCR识别的速度，且切成单个字符后其识别优化可以具有针对性，从而使得最终的精度提高；2.相比于现有技术，本发明对识别框架进行了改进，将识别过程分离为字符分割、单字符识别两个步骤，使得优化可以分开的、具有针对性的进行。3.相比于现有技术，本发明构思独特，想法新颖，具有可操作性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明基于CTC深度神经网络的文字分割和识别的方法的过程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明的一个，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他的实施例，都属于本发明的保护范围。

下面，结合附图以及具体实施方式，对发明做出进一步的描述：

如图1所示，基于CTC深度神经网络的文字分割和识别的方法，括如下步骤：

a1.对输入图像利用CNN提取特征；

通过上述方法从根本上较大的提升了OCR识别的速度，且切成单个字符后其识别优化可以具有针对性，从而使得最终的精度提高，同时也对识别框架进行了改进，将识别过程分离为字符分割、单字符识别两个步骤，使得优化可以分开的、具有针对性的进行。

根据上述内容，所述真实分割信号由标注文本映射而来。

根据上述内容，所述CTCLOSS可自动解决文本对齐问题。

根据上述内容，所述CTCLOSS计算公式如下：

根据上述内容，所述单个正确的对齐方案是对齐方案中的一种，单个对齐方案以概率形式存在于对齐方案中。

根据上述内容，所述单个对齐方案的概率计算方式如下：

验证真实分割信号是由标注文本映射而来，所以分别输入文本内容“我”“我是”“中国人”，可得到真实分割信号“101”“10101”“101010101”。CTC的核心作用是可以自动解决对齐问题，因而可以计算上述情况中，模型输出的分割信号与基于文本长度映射过来的真实信号之间的差异。

选取单词“state”为例，阐述其相关定义和计算逻辑：

利用上述基于CTC深度神经网络的文字分割和识别的方法，CTCLOSS的目标是使公式1的概率值最大，公式1中x为图像利用CNN提取后产生的特征，L为真实信号，π代表了单个正确的对齐方案，其中公式3中均为正确的对齐方案。

利用上述计算公式2，对单个正确的对齐方案的概率进行计算。

通过公式1、公式2、公式3，计算真实分割信号与模型输出的分割信号之间的损失，将损失情况反馈并训练整个模型。

最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用于限定本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于CTC深度神经网络的文字分割和识别的方法，其特征在于，包括如下步骤：

a1.对输入图像利用CNN提取特征；

a2.对步骤(a1)提取的特征进行CELL切分，CELL的高度、宽度固定，个数由图像长度确定；

a5.利用步骤(a3)输出的分割信号对文本进行分割，并对单个字符进行CNN+softmax分类识别。

2.根据权利要求1所述的基于CTC深度神经网络的文字分割和识别的方法，其特征在于，所述真实分割信号由标注文本映射而来。

3.根据权利要求1所述的基于CTC深度神经网络的文字分割和识别的方法，其特征在于，所述CTCLOSS可自动解决文本对齐问题。

4.根据权利要求1所述的基于CTC深度神经网络的文字分割和识别的方法，其特征在于，所述CTCLOSS计算公式如下：

5.根据权利要求4所述的基于CTC深度神经网络的文字分割和识别的方法，其特征在于，所述单个正确的对齐方案是对齐方案中的一种，单个对齐方案以概率形式存在于对齐方案中。

6.根据权利要求5所述的基于CTC深度神经网络的文字分割和识别的方法，其特征在于，所述单个对齐方案的概率计算方式如下：