CN113688821B

CN113688821B - 一种基于深度学习的ocr文字识别方法

Info

Publication number: CN113688821B
Application number: CN202111044336.4A
Authority: CN
Inventors: 王红蕾; 李欢欢; 徐小云; 杨平; 胡州明; 朱海萍; 吴豪; 周平
Original assignee: Sichuan Zhongdian Aostar Information Technologies Co ltd
Current assignee: Sichuan Zhongdian Aostar Information Technologies Co ltd
Priority date: 2021-09-07
Filing date: 2021-09-07
Publication date: 2023-05-23
Anticipated expiration: 2041-09-07
Also published as: CN113688821A

Abstract

本发明提出了一种基于深度学习的OCR文字识别方法，通过数据集构建、搭建共享卷积神经网络、搭建候选文本框提取网络、候选文本框仿射变换、文本检测、文本识别等操作；实现多角度文本识别，且识别精度和速度更高。

Description

一种基于深度学习的OCR文字识别方法

技术领域

本发明属于计算机图像智能识别技术领域，具体地说，涉及一种基于深度学习的OCR文字识别方法。

背景技术

OCR文字识别作为计算机视觉领域的一个极为重要的分支，其在视觉领域中所起的作用无可替代。随着人工智能、模式识别、计算机视觉领域的不断发展，OCR文字识别技术被应用于文档识别、车牌识别、票据识别、证件识别等诸多场景中，但是现有的文字识别技术并不能真正满足实际需求，因此如何得到更好的文字识别方法成为文字识别领域乃至整个计算机视觉领域亟待解决的问题。

常见的OCR应用可以有：

(1)用于文档文字识别，通过OCR文本识别可以将图书馆、报社、博物馆、档案馆等的纸质版图书、报纸、杂志、历史文献资料、档案资料等进行电子化，从而使一些重要的文献资料可以永久保存，因此使用较好的文本识别方法有利于快速、便捷地实现文献资料的电子化以及精准地保存文献资料。

(2)用于自然场景文字识别，通过识别自然场景图像中的文字信息如车牌、广告干词、路牌等信息，可以给人们的生产生活带来诸多便利，同时也会使人们的生活更加智能化。如通过OCR文字识别方法得到每一辆汽车唯一的车牌号码完成车辆识别，从而实现停车场收费管理、交通流量控制指标测量、车辆定位、汽车防盗、高速公路超速自动化监管等功能。

(3)用于票据文字识别，利用较好的OCR文字识别方法对增值税***、报销单、车票等不同格式的票据进行文字识别，能快速的给出识别结果，可以完全避免财务人员手动输入大量票据信息的过程，不仅大大提高了工作的效率，同时也降低了出错的概率。由于票据文字识别的便利、快速、准确等特点，因此其具有较广的应用范围，可应用于财务管理、银行、金融等众多领域。

(4)用于证件识别，利用OCR文字识别方法，可以快速识别身份证、银行卡、驾驶证、行驶证等卡证类信息，将证件上的文字信息直接转换为可编辑的文本，不仅大大提高工作效率、减少人工成本、改善用户体验，还可以实时进行相关人员的身份核验，更好地进行安全管理。

目前已有的OCR文字识别方法可分为传统的OCR文字识别方法和基于深度学习的OCR文字识别方法两大类。由于传统OCR文字识别方法主要基于数字图像处理和传统机器学习等方法实现，在某些情况下文字识别的效果与实际需求有一定的差距，而基于深度学习的OCR文字识别方法利用卷积神经网络(CNN)自动提取图像特征且提取的特征鲁棒性更强、识别效果更好，因此近几年的OCR文字识别方法一般都基于深度学习实现。虽然已有大量的基于深度学习的OCR文字识别方法被专家学者提出，但是现有的OCR文字识别方法仍然存在如下问题：

1、多数已有的基于深度学习的OCR文字识别方法通过组合文字检测过程、文字识别过程而完成文字识别任务，即OCR文字识别过程是非端到端的。这就导致文字识别过程中有更多的时间消耗，从而使文字识别速度并不能满足某些实际应用的需求；

2、对复杂场景中的图像利用OCR文字识别技术进行文字识别时，经常会面临光照不均、透视变形和残缺遮挡等问题，而且文本的布局可能存在扭曲、褶皱、换向等问题，导致现有的OCR文字识别技术并不能很好地识别出图像中的文字；

3、对于图像中较小的待识别文字容易出现漏检、错检；

4、对图像短文本的检测效果较好，而对图像中长文本的检测效果不佳；

5、对水平方向的文字内容识别比较准确，对非水平方向(带有旋转角度的多向文本、弯曲的文本)的文字识别效果较差；

6、已有的OCR文字识别方法的文字识别准确度、可靠性在某些应用领域中并不能满足实际需求。

基于上述问题，迫切需要新的文字识别方法被提出，所提方法应是端到端的文字识别方法，且所提方法不仅可以检测识别出任意长度的文本内容，也可以检测识别出任意方向的文字内容，且文字识别更加准确，能够满足更多方面的实际需求，从而能够更好地完成计算机视觉、人工智能方面的相关任务，促进相关领域的进一步发展。

同时，目前已有的基于深度学习的OCR文字识别方法存在的具体问题如下：

(1)Tian Z和Huang W在文章“Detecting Text in Natural Image withConnectionist Text Proposal Network.2016.”中所提文字检测方法对水平方向的文字检测效果较好，而对于非水平文本(带有旋转角度的多向文本、弯曲的文本)的检测效果不好；

(2)Zhou X和Yao C“EAST:An Efficient andAccurate Scene TextDetector.CVPR.2017:2642-2651”中所提文字检测方法对长文本的检测效果不好；

(3)Shi B等在文章“An End-to-End Trainable Neural Network for Image-Based Sequence Recognition and Its Application to Scene TextRecognition.IEEE,2017:2298-2304”中所提文字识别方法的文字识别准确度有待进一步提高；

(4)Li H和Wang P在文章“Towards End-to-end Text Spotting withConvolutional Recurrent Neural Networks.2017”中所提OCR文字识别方法在识别水平方向上的文本内容时效果较好，而在识别其他方向上的文本内容时识别效果较差；

(5)Liu X等在文章“FOTS:Fast Oriented Text Spotting with a UnifiedNetwork.2018.”中所提端到端的OCR文字识别方法由于其文本检测部分利用的是上述的EAST方法，因此该端到端的方法对长文本的识别效果有待进一步提高。

综合分析，上述参考文献以及已有的相关参考文献可知，现有的OCR文字识别方法存在如下问题：

1.对图像中水平方向的文本检测、识别效果较好，但是对带有旋转角度的文本检测、识别效果有待进一步提高；

2.对图像中存在的短文本检测、识别效果较好，而对图像中包含的较长文本的检测、识别效果需要进一步改善；

3.已有的OCR文字识别方法多数情况下是将分别实现的文字检测方法和文字识别方法相结合实现OCR文字识别，这种形式的OCR文字识别方法大大降低了文本识别的速度，在某些方面不能满足实际需求；

4.已有OCR方法的识别准确度并不能真正满足实际需求，有待进一步提高。

综合分析上述问题，随着人工智能、计算机视觉技术的不断发展，各个领域对相关技术的要求越来越高，而已有的文字识别方法并不能满足当前众多视觉任务的实际需求，因此需要不断提出更好的OCR文字识别方法。

术语解释：

OCR文字识别：狭义上，OCR(Optical Character Recognition)文字识别是指对输入的扫描文档图像进行分析处理，并识别出扫描图像中文字信息内容的过程。广义上，OCR文字识别是指对输入的扫描文档图像和自然场景图像进行文字检测和文字识别的过程，其中自然场景图像一般用于自然场景文字识别(Scene Text Recognition,STR)任务中，且自然场景文字识别过程由于自然场景图像中文字展现形式的复杂多样而更具复杂性、挑战性。

文字检测：通过文字检测方法确定图像中文字的位置并用边界框标出。

文字识别：通过文字识别方法将图像中包含的文字转换成一种计算机可以编辑、人可以理解的文字格式。

发明内容

本发明基于现有技术的上述缺陷和需求，提出了一种基于深度学习的OCR文字识别方法，通过数据集构建、搭建共享卷积神经网络、搭建候选文本框提取网络、候选文本框仿射变换等实现自然场景图像中的文字识别；所述共享卷积网络结构的一个重要的特点是没有利用下采样层(Pooling层)对特征图进行降维，而是在卷积层进行卷积的过程中进行特征图降维，这就保留了更多的图像像素信息，从而有利于获得更具鲁棒性的图像特征。此外，该共享卷积神经网络结构近似于一个对称的网络结构，该网络利用卷积层进行特征提取，利用反卷积层对卷积层提取的特征图进行反卷积，然后将卷积层和反卷积层得到特征相融合，经过三次反卷积和三次特征融合得到最终的共享特征图，将该共享特征图用于后续的候选文本框提取、文本识别等，有利于获得更好文字识别效果。

本发明具体实现内容如下：

本发明提出了一种基于深度学习的OCR文字识别方法，具体包括以下步骤：

步骤1：采集自然场景中包含文本的图像并进行图像标注后，将图像划分为训练集和测试集；

步骤2：搭建共享卷积神经网络，将预处理后图像输入到共享卷积神经网络中，得到共享特征图；

步骤3：搭建候选文本框提取网络，输入共享特征图到候选文本框提取网络中，得到具有不同旋转角度的候选文本框；

步骤4：实现候选文本框仿射变换；

步骤5：对仿射变换后的候选文本框进行文本检测；

所述文本检测过程是将经仿射变换得到的候选文本框输入到ROIPooling层中得到仿射变换候选文本框的特征，这些特征的大小固定且相同；再将所得特征输入到后续依次连接的两层全连接层和Softmax层中得的文本检测结果，同时进行候选文本框的位置回归得到更加准确的文本框位置坐标；

步骤6：利用RNN循环网络和CTC算法对文本检测结果进行文本识别；

步骤7：用步骤1中制作的数据集训练上述网络并进行OCR文本识别测试。

为了更好地实现本发明，进一步地，步骤2中的所述搭建共享卷积神经网络：

所述共享卷积神经网络设置有依次连接的5个卷积块Conv和3个反卷积块Deconv；且5个卷积块Conv中的中间的3个卷积块Conv与3个反卷积块Deconv还构成关于卷积块Conv5的对称结构，所述对称结构具体为：卷积块Conv4输出的特征图与反卷积块Deconv1输出的特征图相融合得到新特征图，并将新特征图作为下一个反卷积块Deconv2的输入；同理，卷积块Conv3输出的特征图与反卷积块Deconv2输出的特征图相融合得到新特征图并作为下一个反卷积块Deconv3的输入，卷积块Conv2输出的特征图与反卷积块Deconv3输出的特征图相融合得到共享特征图，且所得共享特征图的长宽是输入到该网络中的图像长宽的1/4；

每个所述卷积块Conv包括两个依次连接的卷积层，每个所述反卷积块Deconv中包括依次连接的一个反卷积层和一个卷积层；每个卷积层和反卷积层后都设置有一个激活函数Relu；利用卷积层进行卷积操作和特征降维，而不是利用下采样层进行特征降维，来保留了更多的图像像素信息，从而获得更具鲁棒性的图像特征。

为了更好地实现本发明，进一步地，步骤3中的所述候选文本框提取网络包括候选文本框构建网络层、候选文本框分类分支、候选文本框位置回归分支和自定义网络层；

所述步骤3具体步骤包括：

步骤3.1：将共享特征图送入候选文本框提取网络中，该网络首先利用候选文本框构建网络层在共享特征图上的每个像素点处进行卷积核为5×3和3×5的卷积操作，且分别获得水平方向上的和垂直方向上的特征并将这两个方向上的特征进行连接，同时为每个像素点配备63种不同尺度、不同长宽比以及不同旋转角度的候选文本框；

步骤:3.2：将候选文本框分别送入到候选文本框分类分支、候选文本框位置回归分支中进行分类处理和位置回归处理；

步骤3.3：将候选文本框分类分支、候选文本框位置回归分支的输出内容送入到自定义网络层中，并结合输入图像的信息判断产生的候选文本框是否超出图像边界，若候选文本框超出输入图像边界则剔除，同时微调符合要求的候选文本框的位置，得到最终的带角度的候选文本框；

所述由候选文本框构建网络层产生的候选文本框具有32^2、64^2、128^2共3种尺度，2:1、4:1、8:1共3种长宽比以及π/2、π/3、π/6、0、-π/6、-π/3、-π/2共7种旋转角度；并以一个5维的向量(x，y，w，h，θ)表示提取的每一个候选文本框，其中x和y表示候选文本框的中心坐标，用于确定候选文本框的位置；w和h表示候选文本框的宽和高，用于确定候选文本框的大小；θ表示预测的候选文本框相对于水平方向的旋转角度且旋转角度范围θ∈[π/2，-π/2]；其中，训练网络时，候选文本框提取网络利用候选文本框分类分支对候选文本框进行分类是将候选文本框分为包含文本的候选文本框和背景两类，且在判断候选文本框是否包含文本内容时需要同时根据两个条件进行判断：

一是候选文本框的旋转角度θ与真实标记的文本框旋转角度θ_gt差值的绝度值小于等于π/12；

二是利用仿射变换将候选文本框和真实标记的文本框转换成水平文本框后两者面积的交并比大于0.6则判断为包含文本内容、交并比小于0.3则判断为背景。

为了更好地实现本发明，进一步地，在经过步骤3处理后，还需要对候选文本框进行仿射变换，然后再进行步骤4的操作，具体放射变换的操作为：

首先，计算候选文本框的仿射变换矩阵M，计算公式具体如下；

其中，M表示仿射变换矩阵，包含旋转、缩放、平移；θ表示候选文本框的旋转角度；s表示缩放的比例；t_k和t_g表示平移量；具体参数计算公式分别如下：

t_k＝l*conθ-t*sinθ-k；

t_g＝t*conθ+l*sinθ-g；

其中，t、b、l表示候选文本框中的点距离旋转的框的上下左的距离，h_t为仿射变换后候选文本框的高度；

然后，对候选文本框进行仿射变换；具体计算公式如下：

其中，k、g为原坐标值，k′、g′为变换后的新坐标；

最后，通过双线性插值法获得候选文本框的高度固定且长宽比保持不变的水平特征，将获取的水平方向的候选文本框特征用于文本检测，双线插值法具体计算公式如下：

其中，(i,j)表示坐标点，f(i,j)为插值结果，f(i₁,j₁)、f(i₁,j₂)、f(i₂,j₁)、f(i₂,j₂)表示特征图中已知的四个坐标点处的像素值，f()为根据坐标值计算像素值的计算模型。

为了更好地实现本发明，进一步地，所述步骤4的操作为：对经过仿射变换的候选文本框进行非极大值抑制操作，具体为：

步骤4.1：按照文本框的置信度p排列相应的候选文本框；

步骤4.2：选取置信度最大的候选文本框，将置信度最大的候选文本框与其余候选文本框进行IOU运算，并删除运算结果超过设定阈值的候选文本框；

步骤4.3：对删除后剩下的候选文本框继续执行步骤2的操作，得到更为精确的包含文本的候选文本框，将这些经过筛选的更为精确的包含文本的候选文本框一方面作为图像中文本的位置预测结果，另一方面用于文本识别部分的输入，所述IOU运算的具体公式如下：

其中，IOU是候选文本框重合部分交并比的计算结果，Areai和Areaj分别表示两个不同候选文本框的面积。

为了更好地实现本发明，进一步地，所述步骤5采用RNN循环网络和CTC算法网络构成文本识别网络来对筛选后的文本框进行文本识别，具体步骤为：

步骤5.1：将共享特征图和候选文本框筛选的文本框输入；

步骤5.2：将输入的特征转换成序列，并输入到RNN循环网络中进行文本的预测识别；

步骤5.3：最将预测识别结果输入到CTC算法网络中得到识别结果。

为了更好地实现本发明，进一步地，所述步骤6在整个训练过程中采用的训练函数L包括两部分，分别为步骤3的候选文本框的提取部分的损失函数L_box以及在文字识别过程中的损失函数L_recog。

为了更好地实现本发明，进一步地，所述训练函数L的计算公式如下：

L＝L_box+L_recog。

为了更好地实现本发明，进一步地，所述损失函数L_recog的具体计算公式如下：

其中，L_recog表示文字识别过程中的损失函数值，

表示标准的序列标签，h_n表示循环层产生的概率预测序列，P()表示条件概率，N表示序列标签的长度，log表示对数函数。

为了更好地实现本发明，进一步地，所述步骤7在整个训练过程中候选文本框提取网络训练时的损失函数L_box的计算公式如下：

其中，L_box表示产生候选文本框过程中的损失函数值，p_i表示候选文本框i预测为包含文本的概率；

表示候选文本框是否包含文本的标签，当候选文本框包含文本时/>

为1、不包含文本时/>

为0；m_cls表示训练过程中每次迭代所用的候选文本框数量，m_rt表示包含文本的候选文本框数量，R表示smoothL1函数，l_i＝(x，y，w，h，θ)表示包含文本的候选文本框的参数化坐标，/>

是与包含文本的候选文本框l_i相对应的标准文本框参数化坐标，λ为平衡权重参数。

本发明与现有技术相比具有以下优点及有益效果：

(1)本发明搭建的共享卷积神经网络结构的一个重要的特点是没有利用下采样层(Pooling层)对特征图进行降维，而是在卷积层进行卷积的过程中进行特征图降维，这就保留了更多的图像像素信息，从而有利于获得更具鲁棒性的图像特征。此外，该共享卷积神经网络结构近似于一个对称的网络结构，该网络利用卷积层进行特征提取，利用反卷积层对卷积层提取的特征图进行反卷积，然后将卷积层和反卷积层得到特征相融合，经过三次反卷积和三次特征融合得到最终的共享特征图，将该共享特征图用于后续的候选文本框提取、文本识别等，有利于获得更好文字识别效果。

(2)本发明中利用可以产生不同旋转角度、不同大小候选文本框的候选文本框提取网络，并结合仿射变换、文本检测以及文本识别等，可识别出具有不同旋转角度的文本内容。

(3)本发明中利用搭建的候选文本框提取网络提取出不同长度的候选文本框，这些候选文本框可以在同一方向上预测出不同长度的文本内容，将这些候选文本框经过仿射变换、文本检测后输入到文本识别部分，利用循环神经网络RNN对这些候选文本框中的内容进行识别，由于循环神经网络RNN可以处理任意长度的序列，因此候选文本框的文本内容可以被识别，从而本发明可以识别出任意长度的文本。

(4)本发明中利用搭建的共享卷积神经网络和仿射变换使文本检测和文本识别在同一网络结构中实现，从而可以减少因分别实现文本检测和文本识别而带来的时间消耗，使文本识别速度更快、实时性更好。

(5)本发明中搭建的共享卷积神经网络利用类似于对称的网络结构提取图像特征，提取到的共享特征图更具鲁棒性，且本发明可以识别出带有不同旋转角度的多向文本内容，因此在文本识别方面具有更高的文本识别准确性、可靠性。

附图说明

图1为本发明总流程示意图；

图2为本发明共享卷积神经网络的结构示意图；

图3为候选文本框提取网络的结构示意图；

图4为候选框构建网络层的结构示意图；

图5为候选文本框倾斜角度示意图。

具体实施方式

为了更清楚地说明本发明实施例的技术方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，应当理解，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例，因此不应被看作是对保护范围的限定。基于本发明中的实施例，本领域普通技术工作人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“设置”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；也可以是直接相连，也可以是通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

实施例1：

一种基于深度学习的OCR文字识别方法，具体包括以下步骤：

步骤4：实现候选文本框仿射变换；

步骤5：对仿射变换后的候选文本框进行文本检测；

所述文本检测过程是将经仿射变换得到的候选文本框输入到ROIPooling层中得到仿射变换候选文本框的特征，这些特征的大小固定且相同；再将所得特征输入到后续依次连接的两层全连接层和Softmax层中得的文本检测结果，同时进行候选文本框的位置回归得到更加准确的文本框位置坐标。

工作原理：所提方法应是端到端的文字识别方法，且所提方法不仅可以检测识别出任意长度的文本内容，也可以检测识别出任意方向的文字内容，且文字识别更加准确，能够满足更多方面的实际需求，从而能够更好地完成计算机视觉、人工智能方面的相关任务，促进相关领域的进一步发展。

实施例2：

本实施例在上述实施例1的基础上，所述步骤1中，由于各种外部因素的影响，获取的文字图像存在图像不清晰、图像大小各不相同等问题，这些问题不仅会直接影响到文字识别算法实际效果，还影响到算法的设计。因此为了能够准确的识别出图像中的文本内容，需要对获取的图像进行预处理，预处理的操作主要包括图像增强、图像归一化处理等。具体为：

(1)图像增强

利用直方图均衡化实现图像的增强。直方图均衡化过程通过把原始图像的直方图变换成均匀分布的形式，提高图像的对比度，而达到图像增强的效果。

(2)归一化

本发明中图像归一化分为图像尺寸归一化和图像灰度值归一化。其中图像尺寸归一化主要是将不同大小的图像通过缩放变换，将图像变换成统一大小(640×640)的图像。图像灰度值归一化主要是减去图像灰度值的均值，通过减去图像灰度值数据对应维度的统计平均值，消除图像灰度值数据的公共部分、凸显个体之间的差异和特征。灰度归一化的公式如下：

其中，value、newvalue分别为转换前、后的值，maxValue、minValue分别为图像灰度值数据样本中的最大值和最小值。

本实施例的其他部分与上述实施例1相同，故不再赘述。

实施例3：

本实施例在上述实施例1-2任一项的基础上，为了更好地实现本发明，进一步地，如图2所示，步骤2中关于共享卷积神经网络的搭建：

共享卷积神经网络，用于提取输入图像的特征并将其所得共享特征图用于候选文本框提取、文本检测和文本识别等任务中。

所搭建的共享卷积神经网络共有16个卷积层且分为5个卷积块(Conv)和3个反卷积块(Deconv)，每个卷积层和反卷积层后都有一个激活函数Relu，具体结构如图2所示。其中每一个卷积块Conv包含两个卷积层且卷积核大小分别是3×3，进行卷积操作时第一个卷积层的卷积核移动步长是1、特征图的填充值是1，第二个卷积层的卷积核移动步长是2、特征图填充值是1，第二个卷积层在提取特征的同时也起到了特征降维的作用且所得特征图的长宽降为该卷积层输入的一半。每一个反卷积块Deconv中包含一个反卷积层和一个卷积层，反卷积层的卷积核是3×3、卷积核的移动步长是2、特征图的填充值是1，卷积层的卷积核是3×3、卷积核移动步长是1、特征图填充值是1与卷积块Conv中第一个卷积层的卷积过程相同。共享卷积神经网络中五个卷积块Conv输出的特征图通道数分别是64、128、256、512、512且同一个Conv中两个卷积层输出的特征图通道数相同，三个Deconv输出的特征图通道数分别是512、256、128且同一个Deconv中反卷积层和卷积层输出的特征图通道数相同。该共享卷积网络结构的一个重要的特点是没有利用下采样层(Pooling层)对特征图进行降维，而是在卷积层进行卷积的过程中进行特征图降维，这就保留了更多的图像像素信息，从而有利于获得更好的文字识别效果。

该共享卷积网络在提取图像特征的过程中产生一系列的特征图，这些由不同卷积层产生的特征图具有不同的特点，其中浅层特征图包含更多的图像细节信息，深层特征图包含更多的图像语义信息，为了充分利用这些具有不同特点的特征图，在此将深层特征图经过反卷积操作后与和浅层特征图进行特征融合，并将由特征融合得到的特征图作为后续网络层的输入，具体如图2所示。

由图2可知，此处的共享卷积神经网络结构近似于一个对称的网络结构，具体为：卷积块Conv4输出的特征图与反卷积块Deconv1输出的特征图相融合得到新特征图，并将其作为下一个反卷积块Deconv2的输入；同理，卷积块Conv3输出的特征图与反卷积块Deconv2输出的特征图相融合得到新特征图并作为下一个反卷积块Deconv3的输入，卷积块Conv2输出的特征图与反卷积块Deconv3输出的特征图相融合得到共享特征图，且所得共享特征图的长宽是输入到该网络中的图像长宽的1/4；其中，特征融合过程是将特征图中对应位置的像素点值相加，经过三次反卷积和三次特征融合得到最终的共享特征图。

本实施例的其他部分与上述实施例1-2任一项相同，故不再赘述。

实施例4：

本实施例在上述实施例1-3任一项的基础上，为了更好地实现本发明，进一步地，如图3、图4、图5所示，所述步骤3中对于候选文本框提取网络的搭建具体为：

候选文本框提取网络，用于预测包含文本的候选文本框，且这些候选文本框为了能够与倾斜多向的文本更好地匹配而带有一定的旋转角度，该网络的具体结构如图3所示。

候选文本框提取网络产生候选文本框的具体过程如下：首先使用了两种卷积核(5×3，3×5)与共享特征图进行卷积操作且共享特征图的填充值是2、卷积核的移动步长均是1，这两种卷积核分别用于提取共享特征图中水平方向和垂直方向上的特征，并将这两种卷积核提取的特征进行连接如图4所示，卷积完成后得到相应的候选文本框特征图，同时为共享特征图中的每个像素点配备63(3×3×7)个候选文本框；然后用两个1×1的卷积核(卷积核的维度分别为126维和315维)与所得候选文本框特征图进行卷积操作，如图3中的候选文本框分类分支和候选文本框位置回归分支，其中候选文本框分类分支利用Softmax判断产生的候选文本框包含文本内容的概率p；候选文本框位置回归用于调整候选文本框位置，使候选文本框的位置更准确。最后将候选文本框分类分支和候选文本框位置回归分支的输出内容输入到最后的自定义网络层中，该网络层结合输入图像的信息判断产生的候选文本框是否超出图像边界，若候选文本框超出输入图像边界则剔除，同时微调符合要求的文本框的位置，得到最终的候选文本框。

候选文本框提取网络产生的带角度的候选文本框包括3种尺度(32^2，64^2，128^2)、3种长宽比(2:1，4:1，8:1)、7中旋转角度(π/2，π/3，π/6，0，-π/6，-π/3，-π/2)，且提取的每一个候选文本框用一个5维的向量(x，y，w，h，θ)表示，其中x和y表示候选文本框的中心坐标，用于确定候选文本框的位置；w和h表示候选文本框的宽和高，用于确定文本框的大小；θ表示预测的候选文本框相对于水平方向的旋转角度且旋转角度范围θ∈[π/2，-π/2]，角度的具体表示如图5所示。其中，训练网络时，在候选文本框提取网络中对候选文本框进行分类是将候选文本框分为包含文本的候选文本框和背景两类，且在判断候选文本框是否包含文本内容时需要同时根据两个条件进行判断：一是候选文本框的旋转角度θ与真实标记的文本框旋转角度θ_gt差值的绝度值小于等于π/12；二是利用仿射变换将候选文本框和真实标记的文本框转换成水平文本框后两者面积的交并比大于0.6则判断为包含文本内容、小于0.3则判断为背景。在第二个判断条件中之所以先将候选文本框和真实标注的文本框均仿射变换成水平方向的文本框再进行两者之间面积交并比的求解原因有二：一是水平方向上两个文本框之间面积的交并比更容易求解、计算量较小，且该变换仅用于计算文本框之间的面积交并比即候选文本框仍保持原来的旋转角度；二是候选文本框和真实标记的文本框的旋转角度的差值较小，仿射变换前后两者面积的交并比变化不大。

本实施例的其他部分与上述实施例1-3任一项相同，故不再赘述。

实施例5：

本实施例在上述实施例1-4任一项的基础上，为了更好地实现本发明，所述步骤4对候选文本框进行仿射变换具体为：

所述候选文本框仿射变换部分，用于将不同大小、带不同旋转角度候的候选文本框转换为高度固定、水平方向的候选文本框。其中，对候选文本框进行仿射变换具体操作如下：首先将由候选文本框提取网络得到的候选文本框输入到候选文本框仿射变换部分中，计算候选文本框的仿射变换矩阵M，计算过程如公式(2)；

其中，M表示仿射变换矩阵，包含旋转、缩放、平移；θ表示候选文本框的旋转角度；s表示缩放的比例，求得过程如公式(3)所示；t_k和t_g表示平移量，求得过程如公式(4)和(5)所示。

t_k＝l*conθ-t*sinθ-k (4)

t_g＝t*conθ+l*sinθ-g (5)

其中，t、b、l表示候选文本框中的点距离旋转的框的上下左的距离，h_t为仿射变换后候选文本框的高度。

然后对候选文本框进行仿射变换如公式(6)所示，且通过双线性插值法获得候选文本框的高度固定且长宽比保持不变的水平特征，将获取的水平方向的候选文本框特征用于文本检测，双线插值法如公式(7)所示。

其中，k、g为原坐标值，k′、g′为变换后的新坐标。

本实施例的其他部分与上述实施例1-4任一项相同，故不再赘述。

实施例6：

本实施例在上述实施例1-5任一项的基础上，为了更好地实现本发明，所述步骤5中的对仿射变换后的候选文本框进行文本检测。具体的文本检测过程如下：首先将经仿射变换得到的候选文本框输入到ROIPooling层中得到每一个仿射变换候选文本框的特征，这些特征的大小固定且相同；然后将这些特征输入到后续依次连接的两层全连接层和Softmax层中得的文本检测结果，同时进行候选文本框的位置回归得到更加准确的文本框位置坐标。

本实施例的其他部分与上述实施例1-5任一项相同，故不再赘述。

实施例7：

本实施例在上述实施例1-6任一项的基础上，为了更好地实现本发明，进一步地，所述步骤6的文本识别部分，用于识别文本框中的文本序列并返回文本识别结果，该部分主要由RNN和CTC构成。其中通过该网络结构实现文本识别的具体过程如下：首先将共享特征图和文本框检测结果输入到该部分网络结构中；然后将这些特征转换成序列输入到循环网络中进行文本的预测识别，最后将预测识别结果输入到CTC算法中得到识别结果。该识别过程中应用循环网络RNN有如下原因：

一、循环网络具有很强的捕获序列内上下文信息的能力，对于基于图像的序列识别使用上下文提示比独立处理每个符号更稳定且更有帮助；

二、RNN可以将误差差值反向传播到其输入，从而可以实现循环网络层和其上层网络的统一训练；

三是、RNN可以对任意长度的文本序列进行操作。

本实施例的其他部分与上述实施例1-6任一项相同，故不再赘述。

实施例8：

本实施例在上述实施例1-7任一项的基础上，为了更好地实现本发明，进一步地，所述步骤7训练网络并实现文本识别测试中，利用构建的数据集对整个网络进行训练得到相应的模型，利用该模型实现文本识别，在训练过程中所用的损失函数由候选文本框提取部分的损失函数如公式(8)和文本识别部分的损失函数如公式(9)两部分构成，本发明整体的损失函数公式具体如公式(10)所示。

为1、不包含文本时/>

其中，L_recog表示文字识别过程中的损失函数值，

L＝L_box+L_recog (10)

其中，L表示整个OCR文字识别过程中的损失函数值。

本实施例其他部分与上述实施例1-7任一项相同，故不再赘述。

以上所述，仅是本发明的较佳实施例，并非对本发明做任何形式上的限制，凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化，均落入本发明的保护范围之内。