CN109583445A

CN109583445A - 文字图像校正处理方法、装置、设备及存储介质

Info

Publication number: CN109583445A
Application number: CN201811416986.5A
Authority: CN
Inventors: 周罡
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2018-11-26
Filing date: 2018-11-26
Publication date: 2019-04-05

Abstract

本发明涉及计算机技术领域，提供了一种文字文字图像校正处理方法、装置、设备及存储介质，所述文字文字图像校正处理方法包括：获取包含文字和文字倾斜角度的样本图像；基于深度学习框架构建预设的卷积神经网络基础结构，并使用样本图像对卷积神经网络基础结构进行训练，得到用于检测图像中的文字倾斜角度的角度检测模型；获取包含目标文字的待检测图像；在角度检测模型中，对待检测图像中的目标文字进行倾斜角度的角度检测，得到目标文字的角度检测结果；根据角度检测结果，按照预设的校正方式，对待检测图像进行校正处理，得到校正后的目标图像。本发明能够提高校正文字图像的的效率。

Description

文字图像校正处理方法、装置、设备及存储介质

技术领域

本发明涉及文字图像校正处理技术领域，尤其涉及一种文字图像校正处理方法、装置、设备及存储介质。

背景技术

在对图像进行识别的过程中，常存在识别的图像中文字的角度是倒置的，或是图像中的文字的倾斜角度呈现其他角度的情况，若直接对待识别图像，则容易出现图像识别失败或者识别不准确的情况，需要对图像进行校正，传统的文字图像校正处理方法是通常通过人工筛选的方法，从大量的待识别的图像中，筛选出存在文字的倾斜角度问题的图像，然后对筛选出的图像一一进行图像中的文字的倾斜角度的测量，并采用其他图像软件对存在角度问题的图像进行平移、折叠或翻转等校正处理，需耗费大量的人力物力，且测量计算过程繁琐，整体的文字图像校正处理周期长，导致图像的校正文字图像的效率降低。

发明内容

基于此，有必要针对上述技术问题，提供一种文字图像校正处理方法、装置、设备及存储介质，以解决采用传统方法对文字图像进行校正的效率低的问题。

一种基于文字图像校正处理方法，包括：

获取包含文字和文字倾斜角度的样本图像；

基于深度学习框架构建预设的卷积神经网络基础结构，并使用所述样本图像对所述卷积神经网络基础结构进行训练，得到用于检测图像中的文字倾斜角度的角度检测模型；

获取包含目标文字的待检测图像；

在所述角度检测模型中，对所述待检测图像中的目标文字进行倾斜角度的角度检测，得到所述目标文字的角度检测结果；

根据所述角度检测结果，按照预设的校正方式，对所述待检测图像进行校正处理，得到校正后的目标图像。

一种文字图像校正处理装置，包括：

样本获取模块，用于获取包含文字和文字倾斜角度的样本图像；

模型训练模块，用于基于深度学习框架构建预设的卷积神经网络基础结构，并使用所述样本图像对所述卷积神经网络基础结构进行训练，得到用于检测图像中的文字倾斜角度的角度检测模型；

目标获取模块，用于获取包含目标文字的待检测图像；

目标检测模块，用于在所述角度检测模型中，对所述待检测图像中的目标文字进行倾斜角度的角度检测，得到所述目标文字的角度检测结果；

图像校正模块，用于根据所述角度检测结果，按照预设的校正方式，对所述待检测图像进行校正处理，得到校正后的目标图像。

一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述文字图像校正处理方法。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述文字图像校正处理方法。

上述文字图像校正处理方法、装置、设备及存储介质，通过基于深度学习框架构建预设的卷积神经网络基础结构，并使用获取到的样本图像对卷积神经网络基础结构进行训练，得到用于检测图像中的文字的倾斜角度的角度检测模型，进而在角度检测模型中，对待检测图像中的目标文字进行倾斜角度的角度检测，得到该目标文字的倾斜角度的角度值，使用训练好的角度检测模型能够保证对目标文字的角度特征的准确提取，实现对该目标文字的倾斜角度的准确检测，能够避免通过人工筛选的方法，从大量的包含文字和文字倾斜角度的图像中，筛选出存在文字的倾斜角度问题的图像，然后对筛选出的图像一一进行图像中的文字的倾斜角度的测量的情况，减少对图像中的文字的倾斜角度的校测时间，然后，按照预设的校正方式，对得到目标文字的倾斜角度的角度值的待检测图像进行校正处理，得到校正后的目标图像，操作方法简便，复杂度低计算量小，从而提高校正文字图像的效率。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例中文字图像校正处理方法的一应用环境示意图；

图2是本发明一实施例中文字图像校正处理方法的一流程图；

图3是本发明一实施例中文字图像校正处理方法中步骤S4的实现流程图；

图4是本发明一实施例中文字图像校正处理方法中步骤S401的实现流程图；

图5是本发明一实施例中文字图像校正处理方法中步骤S404的实现流程图；

图6是本发明一实施例中文字图像校正处理方法中步骤S5的实现流程图；

图7是本发明一实施例中文字图像校正处理装置的一示意图；

图8是本发明一实施例中计算机设备的一示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1示出了本发明实施例提供的应用环境，该应用环境包括服务端和客户端，其中，服务端和客户端之间通过网络进行连接，客户端用于获取图像数据，并将获取到的图像数据发送到服务端，客户端具体可以但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备；服务端用于处理图像数据，服务端具体可以用独立的服务器或者多个服务器组成的服务器集群实现。本发明实施例提供的文字图像校正处理方法应用于服务端。

请参阅图2，图2示出本实施例提供的文字图像校正处理方法的实现流程。详述如下：

S1：获取包含文字和文字倾斜角度的样本图像。

具体地，获取包含文字和文字倾斜角度的样本图像的方式具体可以是手动导入或者自动定时从本地数据库中获取，还可以是其他获取方式，此处不做限制。

其中，手动导入包含文字和文字倾斜角度的样本图像，具体可以是通过接收客户端的用户输入的图像链接地址，从该图像链接地址中获取该地址对应保存的包含文字和文字倾斜角度的样本图像。

其中，自动定时从本地数据库中获取包含文字和文字倾斜角度的样本图像具体可以是启动定时获取任务获取包含文字和文字倾斜角度的样本图像，其中，定时获取任务具体可以是按照预设的时间间隔进行读取。优选地，时间间隔可以设置为20分钟、10分钟或5分钟，但并不限于此，其具体可以根据实际应用的需要进行设置，此处不做限制。

优选地，本实施例采用的获取方式是自动定时获取。

具体地，通过启动图像定时获取任务，间隔预定的时间间隔自动从本地数据库中读取包含文字和文字倾斜角度的样本图像。

S2：基于深度学习框架构建预设的卷积神经网络基础结构，并使用样本图像对卷积神经网络基础结构进行训练，得到用于检测图像中的文字倾斜角度的角度检测模型。

在本实施例中，深度学习框架包括caffe或caffe2等，其中，caffe2是轻量级、模块化和可扩展的一个框架，包括存储接口(blob)、层结构(layer)和结构链接(net)。其中，blob是整个框架的标准的数组结构和统一存储接口。layer作为建模和计算的层结构基础，net作为layer的集合和链接。blob的细节描述了信息是怎样在layers和nets间存储和交换的。caffe2具体是通过使用自己的建模方法将网络一层一层定义出来的，即将网络由输入数据到损失层把整个模型自底向上的定义出来。数据和偏导数等信息在网络中前向、后向流动，而caffe2使用blob存储、交换和操纵这些信息。

其中，预设的卷积神经网络基础结构是根据实际业务需求进行构建得到的，如卷积神经网络视觉几何组(Visual Geometry Group-16，VGG-16)的结构，用于对获取到的样本图像进行学习，得到能够用于检测图像中的文字倾斜角度的角度检测模型，其中，角度检测模型包括输入层用于对图像进行预处理；卷积网络层用于对图像进行图像中的文字的角度特征提取；全连接网络层根据提取到的角度特征，与分类层中定义的四种预设角度类别进行向量映射，输出角度特征对应的角度特征向量，即角度特征向量中的每种分量对应一种预设角度类别；包含四种预设角度类别定义的分类层用于根据得到的角度特征向量，进行每种角度类别的分值的计算，根据计算结果确定图像中的文字的角度类别，其中，四种预设角度类别具体可以包括但不限于文字的倾斜角度为0度、90度、180度和270度，此处不做限制。

具体地，本实施例采用基于caffe2框架构建卷积神经网络视觉几何组的结构，具体可以在caffe2框架中的layer对卷积神经网络视觉几何组的结构进行每一个层结构的定义，通过结构链接(net)将定义好的每一个层结构进行链接，并通过caffe2框架中的blob将链接好的层结构进行存储，得到搭建好的VGG-16的结构，在caffe2框架构建的VGG-16的结构，逻辑结构层次分明，参数定义清晰，能够根据参数定义快速锁定结构中的参数位置，便于VGG-16的结构的修改和完善，然后，使用获取到的样本图像对VGG-16的结构进行训练，具体可以是将样本图像在卷积神经网络视觉几何组的结构中提取到的特征，通过传统的随机梯度下降算法，将卷积神经网络视觉几何组的结构的每个层中包含的代价函数，按照层结构从前至后的方向，计算每个层对应的代价函数值，该代价函数值可以用于后续每个层中的误差灵敏度的计算，然后，通过传统的反向传播算法，将卷积神经网络视觉几何组的结构的每个层，按照层结构从后至前的方向，计算每个层中的误差灵敏度，最后，将计算得到的每个层的误差灵敏度中包含的权重值和偏移量，用于更新层结构中的原始的权重值和偏移量，得到角度检测模型。

S3：获取包含目标文字的待检测图像。

在本实施例中，包含目标文字的待检测图像是仅包含文字和文字倾斜角度的图像。

具体地，获取包含目标文字的待检测图像的方式具体可以包括但不限于接收用户上传的包含目标文字的待检测图像，或者是自动定时从第三方图像数据库获取包含目标文字的待检测图像等，还可以是其他获取方式，此处不做限制，其中，第三方图像数据库具体可以是网络图像平台的数据库。

S4：在角度检测模型中，对待检测图像中的目标文字进行倾斜角度的角度检测，得到目标文字的角度检测结果。

具体地，将在步骤S3中获取到的包含目标文字的待检测图像输入训练好的角度检测模型中，通过角度检测模型中的输入层包含目标文字的待检测图像进行预处理能够剔除部分冗余图像信息，得到清晰显示的目标文字的图像，卷积网络层对预处理后的图像进行目标文字的角度特征提取，能够准确提取出目标文字的角度特征，然后，将提取到的角度特征通过全连接网络层，与分类层中定义的四种预设角度类别进行向量映射，输出角度特征对应的角度特征向量，并通过在包含四种预设角度类别定义的分类层中，进行每种角度类别的分值的计算，根据计算结果确定图像中的目标文字的目标角度类别，将该目标角度类别的角度值作为目标文字的角度检测结果，如假设得到的目标角度类别为目标文字的倾斜角度为180度，则将180度作为该目标文字的角度检测结果。

需要说明的是，通过训练好的角度检测模型对图像中的文字进行角度检测，通过角度检测模型中的卷积网络层对图像中的文字进行角度特征提取，能够准确区分出图像中的文字和非文字背景，进而准确提取文字的角度特征，避免人工选取的图像中的文字，并对文字的倾斜角度进行人工测量中的测量误差，能够提高对文字的角度检测的准确率。

S5：根据角度检测结果，按照预设的校正方式，对待检测图像进行校正处理，得到校正后的目标图像。

在本实施例中，预设的校正方式具体可以包括但不限于坐标转换、图像折叠或翻转，此处不做限制。

具体地，根据步骤S4中获取到的角度检测结果，以待检测图像的左下角顶点的位置建立一个直角坐标系，将该左下角顶点作为坐标系原点，然后，根据获取到的角度检测结果中的角度值，获取该角度值对应的预设角度类别的预设角度方向，则能够根据该预设角度方向和角度值，确定待检测图像中的目标文字与直角坐标系的y轴之间的夹角，然后，以原点为旋转中心，按照预设角度方向将待检测图像旋转夹角的度数，得到的图像为校正后的目标图像。

在本实施例中，通过基于深度学习框架构建预设的卷积神经网络基础结构，并使用获取到的样本图像对卷积神经网络基础结构进行训练，得到用于检测图像中的文字的倾斜角度的角度检测模型，进而在角度检测模型中，对待检测图像中的目标文字进行倾斜角度的角度检测，得到该目标文字的倾斜角度的角度值，使用训练好的角度检测模型能够保证对目标文字的角度特征的准确提取，实现对该目标文字的倾斜角度的准确检测，能够避免通过人工筛选的方法，从大量的包含文字和文字倾斜角度的图像中，筛选出存在文字的倾斜角度问题的图像，然后对筛选出的图像一一进行图像中的文字的倾斜角度的测量的情况，减少对图像中的文字的倾斜角度的校测时间，然后，按照预设的校正方式，对得到目标文字的倾斜角度的角度值的待检测图像进行校正处理，得到校正后的目标图像，操作方法简便，复杂度低计算量小，从而提高校正文字图像的的效率。

在一实施例中，如图3所示，步骤S4中，角度检测模型包括输入层、卷积网络层、全连接网络层和包含四种预设角度类别定义的分类层，即在角度检测模型中，对待检测图像中的目标文字进行倾斜角度的角度检测，得到目标文字的角度检测结果具体包括如下步骤：

S401：根据角度检测模型中输入层的定义，对待检测图像进行预处理，得到预处理后的原始图像。

具体地，由于拍摄的角度、距离，以及文字的书写等因素的影响，获取到的待检测图像可能会存在质量不高，直接对待检测图像中的目标文字进行角度检测，容易导致角度检测的效率和准确率降低，因此为了实现对待检测图像的快速有效的角度检测，本实施例通过预先训练好的卷积神经网络模型的输入层定义中的图像处理方法，对待检测图像进行预处理，得到处理后的仅包含文字的原始图像，能够增强对目标文字的可检测性和最大限度地简化数据，降低后续步骤对目标文字的角度检测的运算量，提高对待检测图像中目标文字的角度检测的效率和准确率，从而提高对文字图像的校正效率。

其中，对待检测图像进行预处理具体可以包括平滑消除图像中随机噪声、归一化图像和复原校正图像退化等图像处理过程。

其中，平滑消除图像中随机噪声是指在消去噪声的同时不使图像轮廓或线条变得模糊不清，是为了在消除冗余信息的同时，保证处理后不破坏图像中的重要角度信息的精度，常用的平滑方法有中值法、局部求平均法和k近邻平均法，有时也应用空间频率域带通滤波方法，其中，局部求平均法中图像的局部区域大小可以是固定的，也可以是逐点随灰度值大小变化的。

其中，归一化图像是指某些因素或变换对图像一些性质的影响可通过归一化处理得到消除或减弱，使得图像的这些性质在给定变换下具有不变性质的一种图像标准形式，例如，图像的某些性质，如图像的面积和周长，对图像进行变换归一化，使得图像的面积和周长在坐标旋转的变换下具有不变的性质，从而图像的面积和周长可以被选作测量图像的重要依据。常用的归一化方法包括灰度归一化、几何归一化和变换归一化。

S402：根据角度检测模型中卷积网络层的定义，对原始图像中的目标文字的倾斜角度进行角度特征提取，得到包含角度特征值的目标文字的角度特征矩阵。

具体地，根据卷积神经网络模型中卷积网络层的定义，对原始图像进行目标文字的角度特征提取是为了能够有效提取原始图像中的目标文字的倾斜角度的重要特征信息，剔除原始图像中的非角度特征的信息，然后对提取到的特征进行组合，得到原始图像对应的N*N的角度特征矩阵，是为了对提取到的重要角度特征的信息进行保护，避免重要角度特征的信息丢失，以及将提取到的特征以矩阵的形式进行保存，使得图像的中的重要角度特征数据化，能够提高计算效率，从而提高对文字图像校正的效率。

其中，根据卷积神经网络模型中卷积网络层的定义，对原始图像进行角度的特征提取和特征组合具体可以是将原始图像进行卷积计算，计算得到的数值作为该原始图像的角度特征值，然后，将计算得到的角度特征值，按照卷积网络层的定义中的预先设置的特征组合方式进行角度特征值组合，得到原始图像的N*N的角度特征矩阵。

S403：根据角度检测模型中全连接网络层的定义，按照预设的维度映射条件，对角度特征矩阵进行维度映射，得到角度特征矩阵对应的四维特征向量，其中，四维特征向量中的每个分量的位置对应一种预设角度类别。

在本实施例中，预设的维度映射条件是用于降低获取的包含大量角度特征值的角度特征矩阵的维度，能够将大量的角度特征信息进行缓冲，提高对角度特征的提取精度，具体可以根据实际应用需求进行设置，此处不做限制。

具体地，将角度特征矩阵输入全连接网络层时，由于全连接网络层相比卷积网络层更考虑全局信息，因此需要将原本有局部信息的角度特征矩阵全部映射到预设的维度中，能够将大量的角度特征信息进行缓冲，减小后续步骤对角度特征的计算量，提高角度检测的效率，从而提高对文字图像的校正效率，如常用维度为4096维度。

例如，在一具体实施例中，输入全连接网络层的是一7*7*512维度的角度特征矩阵，可以先将该7*7*512维度的特征矩阵转换为长度为25088的1*1维度特征向量，假如预设的维度映射条件为“将获取到的特征矩阵映射到4096维度上”，则将长度为25088的1*1维度特征向量映射到4096维度上，即将角度特征矩阵压缩到原来的五分之一，能够将角度特征矩阵中的特征信息进行分摊。

进一步地，由于只进行一次预设的维度映射，存在特征缓冲的过程较短，不利于模型对目标文字的角度特征的精确提炼，所以全连接网络层中可以再进行一次维度映射，进一步地对角度特征矩阵进行缓冲，降低角度特征矩阵的维度，减少角度特征的运算量。

进一步地，由于全连接网络层的目的是与包含四种预设角度类别定义的分类层的分类任务相关联的，为了降低分类层的学习压力，通过全连接网络层建立与分类层中定义的四种预设角度类别的映射关系，具体可以是将经过两次维度缓冲后的维度已经降低到一定程度的角度特征向量，按照四种预设角度类别进行向量映射，建立角度特征向量中的每种分量对应一种预设的角度类别的关系，得到一个维度为四维的角度特征向量。

S404：根据角度检测模型中分类层的定义，计算四维特征向量的每个分量的得分。

具体地，根据角度检测模型中分类层的定义，计算四维特征向量的每个分量的得分具体可以是根据步骤S403中得到的四维角度特征向量，该四维角度特征向量中每个分量的位置对应一种预设角度类别，因此可以对每个分量位置设置一个预设的角度权重值，然后，计算该四维特征向量的每个分量与对应的预设的角度权重值之间的乘积，并将得到的乘积作为该四维特征向量的每个分量的得分，还可以是通过其他计算方式计算四维特征向量的每个分量的得分，此处不做具体限制。

S405：选取数值最大的得分对应的预设角度类别的角度值，作为目标文字的检测结果。

具体地，将每个特征分量的得分进行比较，得到每个特征分量中数值最大的得分，则获取将该数值最大的得分对应的分量，将该分量的位置对应的预设角度类别的角度值，作为该目标文字倾斜的角度值，即目标文字的检测结果。

在本实施例中，通过先根据角度检测模型中输入层的定义，对待检测图像进行预处理，得到预处理后的原始图像，能够提高待检测图像的质量，进而根据角度检测模型中卷积网络层的定义，对原始图像中的目标文字的倾斜角度进行角度特征提取，得到包含角度特征值的目标文字的角度特征矩阵，能够有效提取原始图像中的目标文字的倾斜角度的重要特征信息，剔除原始图像中的非角度特征的信息，保证角度特征的准确率，进一步地，根据角度检测模型的全连接网络层定义，按照预设的维度映射条件，对角度特征矩阵进行维度映射，得到角度特征矩阵对应的四维特征向量，降低获取的包含大量角度特征值的角度特征矩阵的维度，能够将大量的角度特征信息进行缓冲，根据角度检测模型的分类层定义，计算四维特征向量的每个分量的得分，选取数值最大的得分对应的预设角度类别的角度值，作为目标文字的检测结果，在全连接网络层进行了维度映射的基础上，降低分类层的学习压力，减小运算量，提高目标文字的角度检测效率，从提高文字图像的校正效率。

在一实施例中，如图4所示，在步骤401中，即根据角度检测模型中输入层的定义，对待检测图像进行预处理，得到预处理后的原始图像具体包括如下步骤：

S4011：按照预设的图像缩放方式，对待检测图像进行图像缩放，得到基础图像。

具体地，按照预设的图像缩放方式，对待检测图像进行图像缩放处理具体可以是对待检测图像进行等比例缩放，即长和宽以相同的比例进行缩放，得到h*j像素的缩放图像，该h*j像素的缩放图像即处理后得到的基础图像，其中，h为预设的短边的边长。

容易理解地，待检测图像为矩形图像，通过等比例缩放，将待检测图像的短边缩放到h个像素大小，以便于后续快速准确地进行特征提取。

其中，h的大小可根据实际需要进行设置，此处不作具体限制。

例如，在一具体实施方式中，获取到的待检测图像大小为640×360，单位为个像素点，即长边长度为640个像素点，短边长度为360个像素点的矩形图像，预设的h为128个像素点，对该矩形图像经过等比缩放，得到大小为228×128，单位为个像素点的基础图像。

S4012：将基础图像，按照预设的裁剪方式进行图像裁剪，得到标准图像。

具体地，按照预设的图像裁剪方式将步骤S4011中得到的h*j像素的基础图像进行图像裁剪，具体可以是将基础图像进行等比例裁剪，即长和宽以相同的比例进行裁剪，得到t*s像素的裁剪图像，作为标准图像，其中，t为短边边长。

继续以步骤S4011中得到基础图像的大小为228×128像素，单位为个像素点的基础图像为例进行说明，对像素点个数为228的长边进行裁剪，按照220×120的比例进行裁剪，得到1个大小为220×120，单位为个像素点的标准图像。

S4013：对标准图像进行去均值和归一化处理，并将处理后的标准图像作为待检测图像的原始图像。

具体地，在提取特征之前，需要对每个标准图像进行数据预处理，在本发明实施例中，优选的数据预处理方法为先进行去均值处理，再进行归一化处理，归一化处理后加快了梯度下降求最优解的速度，即提升了处理的效率，同时，有利于提高检测精度，提高对待检测图像中目标文字的角度检测的效率，从而提高文字图像校正的效率。

其中，归一化处理包含但不限于：简单缩放；逐样本均值消减，也称为移除直流分量；特征标准化，使数据集合中的所有特征都具有零均值和单位方差等。

优选地，本发明实施例采用的归一化方法为通过特征标准化来进行归一化。

其中，去均值处理是指每一维度的数据减去自身均值，这样能使数据在每个维度上具有相似的宽度，可以起到一定的增大数据分布范围。

例如，在一具体实施方式中，获取到的标准文字图像包括两个维度的特征，分别为特征A和特征B，特征A的范围是8到1000，特征B的范围是23到10006，通过去均值和归一化处理后，将特征A和特征B的范围缩减为0到1。

在本实施例中，通过对待检测图像进行等比例缩放，得到图像尺寸为h*j像素的基础图像，并对基础图像进行裁剪，得到t*s像素大小的图像，作为标准图像，进而对标准图像进行去均值和归一化处理，得到标准图像的原始图像，使得标准图像具有统一的图像大小和合理的参数范围，有利于后续快速准确地进行待检测图像中目标文字的角度特征提取，提高待检测图像中目标文字的角度检测的效率，从而提高对文字图像校正的效率。

在一实施例中，如图5所示，在步骤S404中，即根据角度检测模型中分类层的定义，计算四维特征向量的每个分量的得分具体包括如下步骤：

S4041：获取四维特征向量的每个分量。

具体地，根据步骤S403中得到四维特征向量，按照每个分量的位置将四维特征向量中的每个分量进行提取，为方便后续步骤对分量的得分的计算，可以按照每个分量的位置将获取到的每个分量进行标记，如“第一分量”或“第三分量”等，此处不做限制。

S4042：采用如下计算公式，计算四维特征向量中每个分量的得分p：

其中，x_i为四维特征向量中的分量，i为四维特征向量中的第i个分量。

具体地，将从步骤S4041中获取到的四维特征向量的每个分量，分别代入公式中进行计算，可以先根据获取到的每个分量的数值，计算四个分量的指数和，然后，根据计算得到的指数和，分别计算每个分量的得分，即能够得到四维特征向量的每个分量的得分p。

例如，在一具体实施例中，假如获取到的一个分量为1，则将该分量代入公式中进行计算，假如计算得到的四个分量的指数和为0.078，进而可以计算得到该分量为1的得分为0.0287。

在本实施例中，通过获取四维特征向量的每个分量，然后，将获取到的分量分别代入到公式中进行计算，通过得分函数公式能够快速得到每个分量的得分p，提高目标文字的角度检测效率，从而提高文字图像的校正效率。

在一实施例中，如图6所示，在步骤S5中，即根据角度检测结果，按照预设的校正方式，对待检测图像进行校正处理，得到校正后的目标图像具体包括如下步骤：

S501：以待检测图像的中心点为轴，按照角度检测结果中的角度值对待检测图像进行预设方向的角度旋转，得到旋转后的基础校正图像。

在本实施例中，预设方向具体可以是逆时针方向，或顺时针方向，具体可以根据实际应用需求进行设置，此处不做限制。

具体地，根据步骤S401中对待检测图像进行预处理时，可以检测到待检测图像的中心点的位置，则可以将待检测图像的中心点作为待检测图像的旋转轴，然后，根据步骤S4中的角度检测结果中的角度值，获取该角度值的预设角度类别的定义的预设方向，则按照该预设方向，将待检测图像进行旋转，旋转的度数为角度检测结果中的角度值，得到旋转后的图像，并将该图像作为基础校正图像。

S502：将基础校正图像与预设的空白背景模板进行合成，并将合成后的图像作为目标图像，其中，空白背景模板的大小与待检测图像的大小相同。

具体地，将在步骤S501中得到的基础校正图像与预设的空白背景模板进行合成，具体可以是将基础校正图像***到尺寸大小与待检测图像的大小相同的预设的空白背景模板中，然后选定模板中基础校正图像，将该图像的背景颜色设置为透明色，能够得到目标文字融合在预设的空白背景模板中目标图像。

在本实施例中，通过以待检测图像的中心点为轴，按照角度检测结果中的角度值对待检测图像进行预设方向的角度旋转，然后将旋转后的图像与预设的空白背景模板进行合成，得到用户所需的正确方向的目标图像，实现对待检测图像的快速校正，提高对文字图像的校正效率。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

在一实施例中，提供一种文字图像校正处理装置，该文字图像校正处理装置与上述实施例中文字图像校正处理方法一一对应。如图7所示，该文字图像校正处理装置包括样本获取模块701、模型训练模块702、目标获取模块703、目标检测模块704和图像校正模块705。各功能模块详细说明如下：

样本获取模块701，用于获取包含文字和文字倾斜角度的样本图像；

模型训练模块702，用于基于深度学习框架构建预设的卷积神经网络基础结构，并使用样本图像对卷积神经网络基础结构进行训练，得到用于检测图像中的文字倾斜角度的角度检测模型；

目标获取模块703，用于获取包含目标文字的待检测图像；

目标检测模块704，用于在角度检测模型中，对待检测图像中的目标文字进行倾斜角度的角度检测，得到目标文字的角度检测结果；

图像校正模块705，用于根据角度检测结果，按照预设的校正方式，对待检测图像进行校正处理，得到校正后的目标图像。

进一步地，模型训练模块702包括：

图像处理单元7041，用于根据角度检测模型中输入层的定义，对待检测图像进行预处理，得到预处理后的原始图像；

特征提取单元7042，用于根据角度检测模型中卷积网络层的定义，对原始图像中的目标文字的倾斜角度进行角度特征提取，得到包含角度特征值的目标文字的角度特征矩阵；

维度映射单元7043，用于根据角度检测模型中全连接网络层的定义，按照预设的维度映射条件，对角度特征矩阵进行维度映射，得到角度特征矩阵对应的四维特征向量，其中，四维特征向量中的每个分量的位置对应一种预设角度类别；

得分计算单元7044，用于根据角度检测模型中分类层的定义，计算四维特征向量的每个分量的得分；

结果输出单元7045，用于选取数值最大的得分对应的预设角度类别的角度值，作为目标文字的检测结果。

进一步地，图像处理单元7041包括：

图像缩放子单元70411，用于按照预设的图像缩放方式，对待检测图像进行图像缩放，得到基础图像；

图像裁剪子单元70412，用于将基础图像，按照预设的裁剪方式进行图像裁剪，得到标准图像；

图像生成子单元70413，用于对标准图像进行去均值和归一化处理，并将处理后的标准图像作为待检测图像的原始图像。

进一步地，得分计算单元7044包括：

分量获取子单元70441，用于获取四维特征向量的每个分量；

公式计算子单元70442，用于采用如下计算公式，计算四维特征向量中每个分量的得分p：

进一步地，图像校正模块705包括：

图像旋转单元7051，用于以待检测图像的中心点为轴，按照角度检测结果中的角度值对待检测图像进行预设方向的角度旋转，得到旋转后的基础校正图像；

图像合成单元7052，用于将基础校正图像与预设的空白背景模板进行合成，并将合成后的图像作为目标图像，其中，空白背景模板的大小与待检测图像的大小相同。

关于文字图像校正处理装置的具体限定可以参见上文中对于文字图像校正处理方法的限定，在此不再赘述。上述文字图像校正处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图8所示。该计算机设备包括通过***总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***、计算机程序和数据库。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的数据库用于保存图像数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种文字图像校正处理方法。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述实施例文字图像校正处理方法的步骤，例如图2所示的步骤S1至步骤S5。或者，处理器执行计算机程序时实现上述实施例中文字图像校正处理装置的各模块/单元的功能，例如图7所示模块701至模块705的功能。为避免重复，这里不再赘述。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述方法实施例中文字图像校正处理方法，或者，该计算机程序被处理器执行时实现上述装置实施例中文字图像校正处理装置中各模块/单元的功能。为避免重复，这里不再赘述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)、DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种文字图像校正处理方法，其特征在于，所述文字图像校正处理方法包括：

获取包含文字和文字倾斜角度的样本图像；

获取包含目标文字的待检测图像；

2.如权利要求1所述的文字图像校正处理方法，其特征在于，所述角度检测模型包括输入层、卷积网络层、全连接网络层和包含四种预设角度类别定义的分类层，所述在所述角度检测模型中，对所述待检测图像中的目标文字进行倾斜角度的角度检测，得到所述目标文字的角度检测结果包括：

根据所述角度检测模型中所述输入层的定义，对所述待检测图像进行预处理，得到预处理后的原始图像；

根据所述角度检测模型中所述卷积网络层的定义，对所述原始图像中的所述目标文字的倾斜角度进行角度特征提取，得到包含角度特征值的所述目标文字的角度特征矩阵；

根据所述角度检测模型中所述全连接网络层的定义，按照预设的维度映射条件，对所述角度特征矩阵进行维度映射，得到所述角度特征矩阵对应的四维特征向量，其中，所述四维特征向量中的每个分量的位置对应一种预设角度类别；

根据所述角度检测模型中所述分类层的定义，计算所述四维特征向量的每个所述分量的得分；

选取数值最大的所述得分对应的所述预设角度类别的角度值，作为所述目标文字的检测结果。

3.如权利要求2所述的文字图像校正处理方法，其特征在于，所述根据所述角度检测模型中所述输入层的定义，对所述待检测图像进行预处理，得到预处理后的原始图像包括：

按照预设的图像缩放方式，对所述待检测图像进行图像缩放，得到基础图像；

将所述基础图像，按照预设的裁剪方式进行图像裁剪，得到标准图像；

对所述标准图像进行去均值和归一化处理，并将处理后的标准图像作为所述待检测图像的原始图像。

4.如权利要求2所述的文字图像校正处理方法，其特征在于，所述根据所述角度检测模型中所述分类层的定义，计算所述四维特征向量的每个所述分量的得分包括：

获取所述四维特征向量的每个所述分量；

采用如下计算公式，计算所述四维特征向量中每个所述分量的得分p：

其中，x_i为所述四维特征向量中的所述分量，i为所述四维特征向量中的第i个分量。

5.如权利要求1所述的文字图像校正处理方法，其特征在于，所述根据所述角度检测结果，按照预设的校正方式，对所述待检测图像进行校正处理，得到校正后的目标图像包括：

以所述待检测图像的中心点为轴，按照所述角度检测结果中的所述角度值对所述待检测图像进行预设方向的角度旋转，得到旋转后的基础校正图像；

将所述基础校正图像与预设的空白背景模板进行合成，并将合成后的图像作为所述目标图像，其中，所述空白背景模板的大小与所述待检测图像的大小相同。

6.一种文字图像校正处理装置，其特征在于，所述文字图像校正处理装置包括：

目标获取模块，用于获取包含目标文字的待检测图像；

7.如权利要求6所述的文字图像校正处理装置，其特征在于，所述目标检测模块包括：

图像处理单元，用于根据所述角度检测模型中所述输入层的定义，对所述待检测图像进行预处理，得到预处理后的原始图像；

特征提取单元，用于根据所述角度检测模型中所述卷积网络层的定义，对所述原始图像中的所述目标文字的倾斜角度进行角度特征提取，得到包含角度特征值的所述目标文字的角度特征矩阵；

维度映射单元，用于根据所述角度检测模型中所述全连接网络层的定义，按照预设的维度映射条件，对所述角度特征矩阵进行维度映射，得到所述角度特征矩阵对应的四维特征向量，其中，所述四维特征向量中的每个分量的位置对应一种预设角度类别；

得分计算单元，用于根据所述角度检测模型中所述分类层的定义，计算所述四维特征向量的每个所述分量的得分；

结果输出单元，用于选取数值最大的所述得分对应的所述预设角度类别的角度值，作为所述目标文字的检测结果。

8.如权利要求7所述的文字图像校正处理装置，其特征在于，所述图像处理单元包括：

图像缩放子单元，用于按照预设的图像缩放方式，对所述待检测图像进行图像缩放，得到基础图像；

图像裁剪子单元，用于将所述基础图像，按照预设的裁剪方式进行图像裁剪，得到标准图像；

图像生成子单元，用于对所述标准图像进行去均值和归一化处理，并将处理后的标准图像作为所述待检测图像的原始图像。

9.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至5任一项所述文字图像校正处理方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至5任一项所述文字图像校正处理方法的步骤。