CN112766266B

CN112766266B - 基于分阶段概率统计的文本方向矫正方法、***及装置

Info

Publication number: CN112766266B
Application number: CN202110128262.6A
Authority: CN
Inventors: 李源; 杨曦露
Original assignee: Yuncong Technology Group Co Ltd
Current assignee: Yuncong Technology Group Co Ltd
Priority date: 2021-01-29
Filing date: 2021-01-29
Publication date: 2021-12-10
Anticipated expiration: 2041-01-29
Also published as: CN112766266A

Abstract

本发明涉及文本方向矫正的技术领域，具体提供基于分阶段概率统计的文本方向矫正方法、***及装置，旨在解决如何将不同的任意印刷体文本矫正成正确阅读方向的技术问题。为此，本发明的方法包括：检测文本图像以获得所有文本行；确定每个文本行的方向并基于出现概率最高的一个或多个方向确定所有文本行的主方向；将所述所有文本行的主方向矫正为水平方向；对矫正后的文本行进行切片，统计至少部分切片的正负方向并基于出现概率最高的切片方向进行最终矫正，使所述文本图像的方向符合预设方向。本发明不针对某种特定版式，关注文本的局部特征，泛化能力强，只需训练模型通过机器学习就可将文本方向矫正好，能保证整个光学字符识别正确性和准确性。

Description

基于分阶段概率统计的文本方向矫正方法、***及装置

技术领域

本发明涉及文本方向矫正的技术领域，具体涉及一种基于分阶段概率统计的文本方向矫正方法、***及装置。

背景技术

在大多数光学字符识别OCR任务中，首先需要把文本的方向矫正，由于文本背景复杂，文本大小和长宽比例变化范围很大，采用传统方法对文本颜色、亮度、背景纹理和版式容易敏感，泛化能力比较差，对不同的特定版式的任意印刷体文本矫正成正确的阅读方向难以达到理想的矫正效果，如图1所示，会导致文本角度不准、方向颠倒等常见缺陷，进而造成光学字符识别任务的中断。

因此，急需提出一种基于分阶段概率统计的文本方向矫正方案，不针对某种特定版式，能够关注文本的局部特征，泛化能力强，只需训练文本检测模型就可以获得极高的准确率。

发明内容

为了克服上述缺陷，提出了本发明，以解决或至少部分地解决如何将不同的颜色、亮度、背景纹理的任意印刷体文本矫正成正确的阅读方向，保证整个光学字符识别的正确性、准确性的技术问题，本发明提供了一种基于分阶段概率统计的文本方向矫正方法、***及装置。

第一方面，提供一种基于分阶段概率统计的文本方向矫正方法，所述方法包括：

检测文本图像以获得所有文本行；

确定每个文本行的方向并基于出现概率最高的一个或多个方向确定所有文本行的主方向；

将所述所有文本行的主方向矫正为水平方向；

对矫正后的文本行进行切片，统计至少部分切片的正负方向并基于出现概率最高的切片方向进行最终矫正，使所述文本图像的方向符合预设方向；其中，所述切片的正负方向由所述切片内的字符的正负方向决定。

其中，“检测文本图像以获得所有文本行”的步骤具体包括：通过固定锚方式检测文本图像以获得所有文本行；并且/或者所述方法还包括：在获得所有文本行之后，去除长宽比小于设定阈值的文本行，仅确定每个剩余文本行的方向。

其中，“基于出现概率最高的一个或多个方向确定所有文本行的主方向”的步骤具体包括：将出现次数最多的文本行相对于水平方向的角度的平均值的方向作为所述主方向。

其中，所述方法还包括：

在统计至少部分切片的正负方向之前，先对至少部分切片中的字符进行字符分类，其中，字符分类的结果至少包括正负方向形状相似的字符和正负方向形状不相似的字符；

“统计至少部分切片的正负方向”的步骤具体包括：

仅对正负方向字符形状不相似的切片进行正负方向的统计。

其中，“基于出现概率最高的切片方向进行最终矫正”的步骤具体包括：

将所述切片的图像输入卷积神经网络，计算所述切片上的每个字符的所属预测类别；如果所述正负方向形状不相似的字符中的正方向字符的数量大于负方向字符的数量，则所述切片方向为正；否则，所述切片方向为负；

如果多数切片的方向为正，则保持当前方向不变；否则，将所述所有文本旋转180度。

第二方面，提供一种基于分阶段概率统计的文本方向矫正***，包括：

文本行获取模块，其用于检测文本图像以获得所有文本行；

主方向确定模块，其用于确定每个文本行的方向并基于出现概率最高的一个或多个方向确定所有文本行的主方向；

水平方向矫正模块，其用于将所述所有文本行的主方向矫正为水平方向；

最终矫正模块，其用于对矫正后的文本行进行切片，统计至少部分切片的正负方向并基于出现概率最高的切片方向进行最终矫正，使所述文本图像的方向符合预设方向；其中，所述切片的正负方向由所述切片内的字符的正负方向决定。

其中，文本行获取模块执行的操作具体包括：通过固定锚方式检测文本图像以获得所有文本行；并且/或者还包括：在获得所有文本行之后，去除长宽比小于设定阈值的文本行，仅确定每个剩余文本行的方向。

其中，在基于出现概率最高的一个或多个方向确定所有文本行的主方向时，所述主方向确定模块将出现次数最多的文本行相对于水平方向的的角度的平均值的方向作为所述主方向。

其中，在统计至少部分切片的正负方向之前，所述最终矫正模块先对至少部分切片中的字符进行字符分类，其中，字符分类的结果至少包括正负方向形状相似的字符和正负方向形状不相似的字符；

在统计至少部分切片的正负方向时，所述最终矫正模块仅对正负方向字符形状不相似的切片进行正负方向的统计。

其中，在基于出现概率最高的切片方向进行最终矫正时，所述最终矫正模块执行的操作具体包括：

第三方面，提供一种计算机可读存储介质，所述存储介质中存储有多条程序代码，所述程序代码适用于由处理器加载并运行以执行前述中任一项所述的方法。

第四方面，提供一种控制装置，该处理装置包括处理器和存储装置，所述存储装置适于存储多条程序代码，所述程序代码适于由所述处理器加载并运行以执行前述中任一项所述的方法。

本发明上述一个或多个技术方案，至少具有如下一种或多种有益效果：检测文本图像以获得所有文本行；确定每个文本行的方向并基于出现概率最高的一个或多个方向确定所有文本行的主方向；将所述所有文本行的主方向矫正为水平方向；对矫正后的文本行进行切片，统计至少部分切片的正负方向并基于出现概率最高的切片方向进行最终矫正，使所述文本图像的方向符合预设方向；其中，所述切片的正负方向由所述切片内的字符的正负方向决定。本发明具有能够不针对某种特定版式，关注文本的局部特征，泛化能力强，只需训练文本检测模型通过机器学习就可以将文本方向矫正，保证整个光学字符识别的正确性和准确性。

附图说明

下面参照附图来描述本发明的具体实施方式，附图中：

图1为采用传统方法对任意印刷体文本矫正难以达到理想的矫正效果的一个实施例示意图；

图2为根据本发明的基于分阶段概率统计的文本方向矫正方法的一个实施例的主要流程图；

图3为根据本发明的方案的以5度为区间统计文本行，获得出现次数最多的主方向的一个实施例示意图；

图4为根据本发明的方案的将文本行的主方向矫正为水平方向的一个实施例示意图；

图5为根据本发明的方案的文本行切片的正负方向的一个实施例示意图；

图6为根据本发明的方案的基于文本行切片方向判断预测文本行的方向；

图7为根据本发明的方案的选取切片进行投票检测、单字投票判定正负方向实现文本的最终矫正的一个实施例示意图；

图8为根据本发明的基于分阶段概率统计的文本方向矫正***的一个实施例的结构框图。

具体实施方式

下面参照附图来描述本发明的一些实施方式。本领域技术人员应当理解的是，这些实施方式仅仅用于解释本发明的技术原理，并非旨在限制本发明的保护范围。

在本发明的描述中，“模块”、“处理器”可以包括硬件、软件或者两者的组合。一个模块可以包括硬件电路，各种合适的感应器，通信端口，存储器，也可以包括软件部分，比如程序代码，也可以是软件和硬件的组合。处理器可以是中央处理器、微处理器、图像处理器、数字信号处理器或者其他任何合适的处理器。处理器具有数据和/或信号处理功能。处理器可以以软件方式实现、硬件方式实现或者二者结合方式实现。非暂时性的计算机可读存储介质包括任何合适的可存储程序代码的介质，比如磁碟、硬盘、光碟、闪存、只读存储器、随机存取存储器等等。术语“A和/或B”表示所有可能的A与B的组合，比如只是A、只是B或者A和B。术语“至少一个A或B”或者“A和B中的至少一个”含义与“A和/或B”类似，可以包括只是A、只是B或者A和B。单数形式的术语“一个”、“这个”也可以包含复数形式。

这里先解释本发明涉及到的一些术语：

光学字符识别OCR：是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符，通过检测暗、亮的模式确定其形状，然后用字符识别方法将形状翻译成计算机文字的过程。

交并比IOU：两个矩形框面积的交集和并集的比值。

非最大化抑制NMS：是指抑制不是极大值的元素，即局部最大搜索，通常在物体检测中，固定锚提取特征和分类识别后，每个固定锚都有个分数，非最大化抑制用来选取局部的邻域里分数最高或概率最大的固定锚，并且抑制那些分数低的固定锚。

现有技术中，在开展大多数光学字符识别OCR任务中，需要先把文本的方向矫正，由于文本背景复杂，文本大小和长宽比例变化范围很大，采用传统方法对文本颜色、亮度、背景纹理和版式容易敏感，泛化能力比较差，对不同的特定版式的任意印刷体文本矫正成正确的阅读方向难以达到理想的矫正效果，通常会导致文本角度不准、方向颠倒等常见缺陷，进而造成光学字符识别任务的中断。

本发明的一种基于分阶段概率统计的文本方向矫正方案的一个实施例如：对某商场的购物小票进行文本方向矫正识别，首先训练文本检测模型时，在购物小票的图像上预先设置固定大小的密集矩形框作为固定锚，且在在购物小票的图像的文本行上标注文本标签，固定锚A的面积为5平方厘米，文本标签G的面积为6平方厘米，固定锚A与文本标签G相交的面积为5平方厘米，预设定的阈值为0.5，通过公式计算获得两者的交并比为：IOU＝5/(11-5)＝5/6＝0.83，大于预设定的阈值0.5，固定锚A即为正样本。固定锚A的四个点坐标为【(1，1)、(2，1)、(1，6)、(2，6)】，文本标签G的四个点坐标为【(1，1)、(2，1)、(1，7)、(2，7)】，固定锚A的宽度A_w为1，高度A_h为5，因此，通过算法计算得出文本标签G相对于固定锚A在X方向的回归的偏移量为t_x为(0，0，0，0)，在Y方向的回归的偏移量为t_y为(0，0，0.5，0.5)；最后将所述固定锚以及所述偏移量用于训练所述文本检测模型。

在预测文本行时，预测的固定锚为B，预测的文本框为F，文本检测模型输出每个固定锚是文本的概率为0.75，预设定阈值为0.5，因此文本检测模型输出每个固定锚是文本的概率大于预设定阈值，获取预测的固定锚B的坐标为【(1，1)、(2，1)、(1，7)、(2，7)】，根据文本检测模型提供预测的文本框F相对于固定锚B的回归的偏移量为T_x为(1，1，1，1)，在Y方向的回归的偏移量为T_y为(1，1，1，1)，则获得预测的文本框F的坐标为【(2，2)、(3，2)、(2，8)、(3，8)】；其中，有可能存在多个预测的固定锚预测到同一个文本行，即有多个预测的文本框C、D、E，若所述文本检测模型输出预测的文本框E的概率最大，分别计算并判断预测的文本框C、D与预测的文本框E的交并比IOU是否大于预设定的阈值，如果是，则删除所述预测的文本框C、D，保留预测的文本框E作为检测获得的文本行。

检测获得所有文本行后，去除长宽比小的文本行，去除长宽比为1/3<h/w<3的文本行，矩形文本行的长为h，宽为w；对剩余的文本行拟合最小包络矩形成文本框，计算获得所述文本框的向量方向，并根据所述文本框的向量方向获取所述剩余的文本行的方向角度，以5度为一个区间统计出每个区间内的文本行个数，找到文本行个数最多的区间，求取并将所述文本行个数最多的区间的文本行集合的角度平均值的方向作为所述文本的主方向，其中，剩余的文本行方向的角度范围在0度到90度之间，以5度为区间，分为18个区间，第n个区间的角度范围为[(n-1)×5，n×5]，1≤n≤18，n为整数。通过文本检测模型计算获得所有文本行的角度为30度、35度、45度、45度、45度、70度、45度，可以将上述文本行角度以5度划分为3个区间【30、35】、【45、45、45、45】、【75】、其中，第二个区间的文本行个数据最多，其角度平均值为45度，即可获得所述文本的主方向为45度，最后将所述文本的主方向矫正为水平方向。

通过将矫正为水平方向的所述文本行切割成切片，并且可以同时对多个文本行的切片中的每个字符进行字符分类和预测正负方向投票(概率统计)，首先将字符分类中正负方向形状相似的字符划分为一类并且去除，即将正向看和旋转180度看特别相似的字拿出来作为一个类别，比如字符“0”，“一”，“H”,“田”，“日”等，其他字符0度为正，180度为负。切片中预测总共有20个字符，预测为正方向的字符为18个，预测为负方向的字符为2个，该切片中预测为正方面的字符个数大于负方向的字符，因此该切片的方向为正方向，如果多数切片的方向为正，进而判定所述切片所处的文本行为正方向，故保持该购物小票的方向不变；如果该切片中预测为负方面的字符个数大于正方向的字符，因此该切片的方向为负方向，如果多数切片的方向为负，则需要将该购物小票旋转180度方向，实现购物小票的最终矫正；并且实际应用时可以选多个(比如3个或5个)切片一起预测投票。

下面结合图2所示本发明的一种基于分阶段概率统计的文本方向矫正方法的一个实施例的主要流程图，对本发明的实现方式进行描述。

步骤S101，检测文本图像以获得所有文本行；

在一个实施方式中，可以利用基于固定锚的文本检测模型来获取文本图像中的所有文本行，该文本检测模型在文本图像上预先设置固定大小的密集矩形框作为锚，并且提取文本图像的特征，对固定的锚进行分类和回归，通过非最大化抑制得到所述文本的所有文本行。

其中，在训练文本检测模型时，在文本图像上预先设置固定大小的密集矩形框作为固定锚，在文本图像的文本行上标注文本标签，计算所述固定锚和所述文本标签的交并比，若所述交并比大于预设定阈值，则所述固定锚为正样本，否则是负样本；根据所述文本标签的坐标与所述固定锚的坐标之差，计算获得所述文本标签相对于所述固定锚的偏移量，最后将所述固定锚的正样本、负样本输入并训练所述文本检测模型。

进一步，在训练文本检测模型时，固定锚为A,文本标签为G，则固定锚A和文本标签G的交并比的计算公式如下：

IOU＝area(A∩G)/(area(A)+area(G)–area(A∩G))

式中：

IOU表示交并比，area(x)表示x的面积，A∩G表示A和G相交的部分；

如果交并比IOU大于预设定的阈值，则固定锚A为正样本，否则为负样本；

例如，固定锚A的面积为5平方厘米，文本标签G的面积为6平方厘米，固定锚A与文本标签G相交的面积为5平方厘米，预设定的阈值为0.5，通过公式计算获得两者的交并比为：IOU＝5/(11-5)＝5/6＝0.83，大于预设定的阈值0.5，固定锚A即为正样本。

在训练文本检测模型时，文本标签G相对于固定锚A的回归的偏移量计算公式为：

t_xi＝(X_Gi-X_Ai)/A_w，t_yi＝(Y_Gi-Y_Ai)/A_h)

式中：

t_xi为第i个点X方向的移量；

t_yi为第i个点Y方向的移量；

i为文本标签及固定锚的四个点，取值1，2，3，4；

X_Gi为文本标签G第i个点的X坐标；

X_Ai为固定锚A第i个点的X坐标；

A_w为固定锚A的宽度；

Y_Gi为文本标签G第i个点的Y坐标；

Y_Ai为固定锚A第i个点的Y坐标；

A_h为固定锚A的高度。

又例如，固定锚A的四个点坐标为【(1，1)、(2，1)、(1，6)、(2，6)】，文本标签G的四个点坐标为【(1，1)、(2，1)、(1，7)、(2，7)】，固定锚A的宽度A_w为1，高度A_h为5，因此，文本标签G相对于固定锚A在X方向的回归的偏移量为t_x为(0，0，0，0)，在Y方向的回归的偏移量为t_y为(0，0，0.5，0.5)。

其中，在应用训练后的文本检测模型时，所述文本检测模型输出每个固定锚是否是文本的概率,若所述概率大于预设定阈值，则将预测的固定锚的坐标加上所述文本检测模型输出的预测的文本框的坐标相对于预测的固定锚的偏移量，获得最初的预测的文本框检测结果，最后通过非最大化抑制从所述最初的预测的文本框检测结果中，获得检测后的所有文本行。

进一步，在应用文本检测模型时，所述文本检测模型输出每个固定锚是否是文本的概率,若所述概率大于预设定阈值，获取预测的固定锚的坐标，并且根据所述文本检测模型提供预测的文本框相对于预测的固定锚的回归的偏移量T，获得预测的文本框的坐标；

在预测文本行时，预测的固定锚为B，预测的文本框为F，预测的文本框的坐标计算公式如下：

X_Fi＝T_xi×B_w+X_Bi

Y_Fi＝T_yi×B_h+Y_Bi

式中：

X_Fi是预测的文本框第i个点的X坐标；

T_xi为根据所述文本检测模型提供预测的文本框相对于预测的固定锚的回归的偏移量的第i个点X方向移量；

B_w为预测的固定锚的宽度；

X_Bi为预测的固定锚第i个点的X坐标；

Y_Fi是预测的文本框第i个点的Y坐标；

T_yi为根据所述文本检测模型提供预测的文本框相对于预测的固定锚的回归的偏移量的第i个点Y方向移量；

B_h为预测的固定锚的高度；

Y_Bi为预测的固定锚第i个点的Y坐标。

例如，如果文本检测模型输出每个固定锚是文本的概率为0.75，预设定阈值为0.5，因此文本检测模型输出每个固定锚是文本的概率大于预设定阈值，获取预测的固定锚的坐标为【(1，1)、(2，1)、(1，7)、(2，7)】，根据文本检测模型提供预测的文本框相对于固定锚的回归的偏移量为T_x为(1，1，1，1)，在Y方向的回归的偏移量为T_y为(1，1，1，1)，则获得预测的文本框的坐标为【(2，2)、(3，2)、(2，8)、(3，8)】。

其中，有可能存在多个预测的固定锚预测到同一个文本行，即有多个预测的文本框C、D、E，若所述文本检测模型输出预测的文本框E的概率最大，分别计算并判断预测的文本框C、D与预测的文本框E的交并比IOU是否大于预设定的阈值，如果是，则删除所述预测的文本框C、D，保留预测的文本框E作为检测获得的文本行。

步骤S102，确定每个文本行的方向并基于出现概率最高的一个或多个方向确定所有文本行的主方向；

在一个实施方式中，检测获得所有文本行后，去除长宽比小的文本行，对剩余的文本行拟合最小包络矩形成文本框，计算获得所述文本框的向量方向，并根据所述文本框的向量方向获取所述剩余的文本行的方向角度，以5度为一个区间统计出每个区间内的文本行个数，找到文本行个数最多的区间，求取并将所述文本行个数最多的区间的文本行集合的角度平均值的方向作为所述文本的主方向。

其中，在计算文本的主方向时，去除长宽比为1/3<h/w<3的文本行，矩形文本行的长为h，宽为w；

剩余的文本行方向的角度范围在0度到90度之间，以5度为区间，分为18个区间，第n个区间的角度范围为[(n-1)×5，n×5]，1≤n≤18，n为整数。

例如，如图3为根据本发明的方案的以5度为区间统计文本行，获得出现次数最多的主方向的一个实施例示意图；通过检测获得所有的文本行后，去除长宽比小为1/3<h/w<3的文本行，矩形文本行的长为h，宽为w，对剩余的文本行拟合最小包络矩形成文本框，计算获得所述文本框的向量方向，并根据文本框的向量方向获取所述剩余的文本行的方向角度，所有文本行的角度为30度、35度、45度、45度、45度、70度、45度，可以将上述文本行角度以5度划分为3个区间【30、35】、【45、45、45、45】、【75】、其中，第二个区间的文本行个数据最多，其角度平均值为45度，即可获得所述文本的主方向为45度。

步骤S103，将所述所有文本行的主方向矫正为水平方向；

根据确定的所有文本行的主方向，将所有文本行矫正为水平方向；如图4所示是根据本发明的方案的将文本行的主方向矫正为水平方向的一个实施例示意图。

步骤S104，对矫正后的文本行进行切片，统计至少部分切片的正负方向并基于出现概率最高的切片方向进行最终矫正，使所述文本图像的方向符合预设方向；其中，所述切片的正负方向由所述切片内的字符的正负方向决定。

在一个实施方式中，如图5所示为根据本发明的方案的文本切片的正负方向的一个实施例示意图；将矫正为水平方向的所述文本行切割成切片，并且同时对多个文本行的切片中的每个字符进行字符分类和预测正负方向投票；如图6所示为根据本发明的方案的基于文本行切片方向判断预测文本行的方向；在统计至少部分切片的正负方向之前，先对至少部分切片中的字符进行字符分类，其中，字符分类的结果至少包括正负方向形状相似的字符和正负方向形状不相似的字符，仅对正负方向字符形状不相似的切片进行正负方向的判断；去除字符分类中正负方向形状相似的字符后，如果所述切片中的正方向字符的数量大于负方向字符的数量，则判断所述切片的方向为正方向，如果多数切片的方向为正，进而判定所述切片所处的文本行为正方向，故保持所述文本的方向不变；否则，将所述文本旋转180度方向，实现所述文本的最终矫正，如图7所示为根据本发明的方案的选取切片进行投票检测、单字投票判定正负方向实现文本的最终矫正的一个实施例示意图。

在一个实施方式中，因为可以通过每个字的投票来确定方向，因此对识别模型的精度要求不高，对模型进行了轻量化处理，同时去除了RNN层；首先将切片的图像输入卷积神经网络，输出字符序列预测概率矩阵P，矩阵形状为(m,c)，其中，m为字符序列的长度，c为字符分类类别的个数；在进行所述切片的字符识别时，根据所述字符序列预测概率矩阵P，计算所述字符序列上每个字符的所属预测类别，若第i个字符的字符序列预测概率向量P[i]的最大值索引值为j＝argmax(P[i])，则第i个字符的预测类别为j。

例如，本实施例的字符分类类别的个数c＝3，预设置第i个字符的预测类别为j＝0时，则表示第i个字符为从正向看和旋转180度看形状相似的字符，即为正负方向形状相似的字符，比如字符“0”，“一”，“H”,“田”，“日”等；预设置第i个字符的预测类别为j＝1时，则表示第i个字符为从正向看能正常阅读识别，即为正方向的字符；预设置第i个字符的预测类别为j＝2时，则表示第i个字符为从正向看需要旋转180度才能正常阅读识别，即为负方向的字符。

又例如，通过将矫正为水平方向的所述文本行切割成切片，并且可以同时对多个文本行的切片中的每个字符进行字符分类和预测正负方向投票，首先将正负方向形状相似的字符，比如字符“0”，“一”，“H”,“田”，“日”等作为一类并剔除，仅对正方向(0度)的字符和负方向(180度)的字符进行正负方向投票统计。如果切片中预测总共有20个字符，如果预测为正方向的字符为18个，预测为负方向的字符为2个，该切片中预测为正方向的字符个数大于负方向的字符个数，因此该切片的方向为正方向，如果多数切片的方向为正，进而判定所述切片所处的文本行为正方向，故保持所述文本的方向不变；如果该切片中预测为负方向的字符个数大于正方向的字符个数，因此该切片的方向为负方向，如果多数切片的方向为负，则需要将所述文本旋转180度方向，实现所述文本的最终矫正；并且实际应用时可以选多个(比如3个或5个)切片一起预测投票。

下面再结合图8为根据本发明的基于分阶段概率统计的文本方向矫正***的一个实施例的结构框图；对本发明的实现进行说明。该***至少包括：

文本行获取模块801，其用于检测文本图像以获得所有文本行；

IOU＝area(A∩G)/(area(A)+area(G)–area(A∩G))

式中：

t_xi＝(X_Gi-X_Ai)/A_w，t_yi＝(Y_Gi-Y_Ai)/A_h)

式中：

t_xi为第i个点X方向的移量；

t_yi为第i个点Y方向的移量；

i为文本标签及固定锚的四个点，取值1，2，3，4；

X_Gi为文本标签G第i个点的X坐标；

X_Ai为固定锚A第i个点的X坐标；

A_w为固定锚A的宽度；

Y_Gi为文本标签G第i个点的Y坐标；

Y_Ai为固定锚A第i个点的Y坐标；

A_h为固定锚A的高度。

X_Fi＝T_xi×B_w+X_Bi

Y_Fi＝T_yi×B_h+Y_Bi

式中：

X_Fi是预测的文本框第i个点的X坐标；

B_w为预测的固定锚的宽度；

X_Bi为预测的固定锚第i个点的X坐标；

Y_Fi是预测的文本框第i个点的Y坐标；

B_h为预测的固定锚的高度；

Y_Bi为预测的固定锚第i个点的Y坐标。

主方向确定模块802，其用于确定每个文本行的方向并基于出现概率最高的一个或多个方向确定所有文本行的主方向；

水平方向矫正模块803，其用于将所述所有文本行的主方向矫正为水平方向；

最终矫正模块804，其用于对矫正后的文本行进行切片，统计至少部分切片的正负方向并基于出现概率最高的切片方向进行最终矫正，使所述文本图像的方向符合预设方向；其中，所述切片的正负方向由所述切片内的字符的正负方向决定。

下面描述本发明的技术方案的一个应用场景的例子，以进一步说明本发明的实现方式：对某商场的购物小票进行文本方向矫正识别，首先训练文本检测模型时，在购物小票的图像上预先设置固定大小的密集矩形框作为固定锚，且在在购物小票的图像的文本行上标注文本标签，固定锚A的面积为5平方厘米，文本标签G的面积为6平方厘米，固定锚A与文本标签G相交的面积为5平方厘米，预设定的阈值为0.5，通过公式计算获得两者的交并比为：IOU＝5/(11-5)＝5/6＝0.83，大于预设定的阈值0.5，固定锚A即为正样本。固定锚A的四个点坐标为【(1，1)、(2，1)、(1，6)、(2，6)】，文本标签G的四个点坐标为【(1，1)、(2，1)、(1，7)、(2，7)】，固定锚A的宽度A_w为1，高度A_h为5，因此，通过算法计算得出文本标签G相对于固定锚A在X方向的回归的偏移量为t_x为(0，0，0，0)，在Y方向的回归的偏移量为t_y为(0，0，0.5，0.5)；最后将所述固定锚以及所述偏移量用于训练所述文本检测模型。

通过将矫正为水平方向的所述文本行切割成切片，并且可以同时对多个文本行的切片中的每个字符进行字符分类和预测正负方向投票，首先将正负方向形状相似的字符，比如字符“0”，“一”，“H”,“田”，“日”等作为一类并剔除，仅对正方向(0度)的字符和负方向(180度)的字符进行正负方向投票统计。如果切片中预测总共有20个字符，如果预测为正方向的字符为18个，预测为负方向的字符为2个，该切片中预测为正方向的字符个数大于负方向的字符个数，因此该切片的方向为正方向，如果多数切片的方向为正，进而判定所述切片所处的文本行为正方向，故保持所述文本的方向不变；如果该切片中预测为负方向的字符个数大于正方向的字符个数，因此该切片的方向为负方向，如果多数切片的方向为负，则需要将所述文本旋转180度方向，实现所述文本的最终矫正；并且实际应用时可以选多个(比如3个或5个)切片一起预测投票。

本领域技术人员能够理解的是，本发明实现上述一实施例的方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器、随机存取存储器、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

进一步，在本发明的一种计算机可读存储介质的一个实施例中，包括：所述存储介质中存储有多条程序代码，所述程序代码适用于由处理器加载并运行以执行前述中任一项所述的方法。

进一步，在本发明的一种控制装置的一个实施例中，该处理装置包括处理器和存储器，所述存储装置适用于存储多条程序代码，所述程序代码适于由所述处理器加载并运行以执行前述中任一项所述的方法。

进一步，应该理解的是，由于各个模块的设定仅仅是为了说明本发明的***的功能单元，这些模块对应的物理器件可以是处理器本身，或者处理器中软件的一部分，硬件的一部分，或者软件和硬件结合的一部分。因此，图中的各个模块的数量仅仅是示意性的。

本领域技术人员能够理解的是，可以对***中的各个模块进行适应性地拆分或合并。对具体模块的这种拆分或合并并不会导致技术方案偏离本发明的原理，因此，拆分或合并之后的技术方案都将落入本发明的保护范围内。

至此，已经结合附图所示的一个实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征作出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims

1.一种基于分阶段概率统计的文本方向矫正方法，其特征在于，所述方法包括：

检测文本图像以获得所有文本行，具体包括：利用基于固定锚的文本检测模型来获取文本图像中的所有文本行，所述文本检测模型在文本图像上预先设置固定大小的密集矩形框作为锚，并且提取文本图像的特征，对固定锚进行分类和回归，通过非最大化抑制得到所述文本的所有文本行；

将所述所有文本行的主方向矫正为水平方向；

对矫正后的文本行进行切片，统计至少部分切片的正负方向并基于出现概率最高的切片方向进行最终矫正，使所述文本图像的方向符合预设方向；“基于出现概率最高的切片方向进行最终矫正”的步骤具体包括：将所述切片的图像输入卷积神经网络，计算所述切片上的每个字符的所属预测类别；如果所述正负方向形状不相似的字符中的正方向字符的数量大于负方向字符的数量，则所述切片方向为正；否则，所述切片方向为负；如果多数切片的方向为正，则保持当前方向不变；否则，将所述所有文本旋转180度；

其中，所述切片的正负方向由所述切片内的字符的正负方向决定。

2.根据权利要求1所述的方法，其特征在于，

所述方法还包括：在获得所有文本行之后，去除长宽比小于设定阈值的文本行，仅确定每个剩余文本行的方向。

3.根据权利要求1所述的方法，其特征在于，“基于出现概率最高的一个或多个方向确定所有文本行的主方向”的步骤具体包括：将出现次数最多的文本行相对于水平方向的角度的平均值的方向作为所述主方向。

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：

“统计至少部分切片的正负方向”的步骤具体包括：

仅对正负方向字符形状不相似的切片进行正负方向的统计。

5.一种基于分阶段概率统计的文本方向矫正***，其特征在于，包括：

文本行获取模块，其用于检测文本图像以获得所有文本行，具体包括：利用基于固定锚的文本检测模型来获取文本图像中的所有文本行，所述文本检测模型在文本图像上预先设置固定大小的密集矩形框作为锚，并且提取文本图像的特征，对固定锚进行分类和回归，通过非最大化抑制得到所述文本的所有文本行；

最终矫正模块，其用于对矫正后的文本行进行切片，统计至少部分切片的正负方向并基于出现概率最高的切片方向进行最终矫正，使所述文本图像的方向符合预设方向；在基于出现概率最高的切片方向进行最终矫正时，所述最终矫正模块执行的操作具体包括：将所述切片的图像输入卷积神经网络，计算所述切片上的每个字符的所属预测类别；如果所述正负方向形状不相似的字符中的正方向字符的数量大于负方向字符的数量，则所述切片方向为正；否则，所述切片方向为负；如果多数切片的方向为正，则保持当前方向不变；否则，将所述所有文本旋转180度；其中，所述切片的正负方向由所述切片内的字符的正负方向决定。

6.根据权利要求5所述的***，其特征在于，

还包括：在获得所有文本行之后，去除长宽比小于设定阈值的文本行，仅确定每个剩余文本行的方向。

7.根据权利要求5所述的***，其特征在于，在基于出现概率最高的一个或多个方向确定所有文本行的主方向时，所述主方向确定模块将出现次数最多的文本行相对于水平方向的角度的平均值的方向作为所述主方向。

8.根据权利要求5所述的***，其特征在于，

在统计至少部分切片的正负方向之前，所述最终矫正模块先对至少部分切片中的字符进行字符分类，其中，字符分类的结果至少包括正负方向形状相似的字符和正负方向形状不相似的字符；

9.一种计算机可读存储介质，其特征在于，所述存储介质中存储有多条程序代码，所述程序代码适用于由处理器加载并运行以执行权利要求1至4中任一项所述的方法。

10.一种控制装置，该装置包括处理器和存储装置，所述存储装置适于存储多条程序代码，其特征在于，所述程序代码适于由所述处理器加载并运行以执行权利要求1至4中任一项所述的方法。