CN108647681A

CN108647681A - 一种带有文本方向校正的英文文本检测方法

Info

Publication number: CN108647681A
Application number: CN201810429149.XA
Authority: CN
Inventors: 代劲; 王族; 尹航
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2018-05-08
Filing date: 2018-05-08
Publication date: 2018-10-12
Anticipated expiration: 2038-05-08
Also published as: CN108647681B

Abstract

本发明属于图像处理技术领域，具体为一种带有文本方向校正的英文文本检测方法；所述方法包括：分别对英文文本图像各个通道的进行最大稳定极值区域检测，得出候选文本区域；建立基于卷积神经网络模型的分类器，过滤错误的候选文本区域，获得初步文本区域；利用双层文本分组算法将所述初步文本区域分组；将分组后的初步文本区域进行方向校正，从而获得校正文本；本发明采用一种增强的多通道MSER模型：以得到更精细的文本区域；引入并行SPP‑CNN分类器来更好地区分文本区域和非文本区域，可以处理任意大小的图像，且可在多尺度下提取池特征，从而可以通过源图像的多层空间信息来了解更多的特征；本发明可以处理略微倾斜的场景文本。

Description

一种带有文本方向校正的英文文本检测方法

技术领域

本发明属于图像处理技术领域，具体为一种带有文本方向校正的英文文本检测方法。

背景技术

自然场景图像中的文本具有准确、丰富的信息，这对于图像分析、基于图像的翻译、图像搜索等具有重要意义。在过去的20年里，研究人员提出了一些在自然场景图像中检测文本的方法。有许多基于内容的多媒体理解应用，如自动视觉分类、图像检索、辅助导航、多语言翻译、对象识别和面向消费者的应用。

场景文本检测面临的关键问题是:(1)文档图像中的文本具有常规字体，相似颜色，均匀大小和均匀排列，但即使在同一场景中，自然场景中的文本也可能具有不同的字体，颜色，比例和方向。(2)自然场景图像的背景可能非常复杂。标志、栅栏、砖块和草地难以与真实文本区分开来，因此容易造成混淆和错误。(3)场景文字图像中的其他干扰因素。如不均匀照明，模糊，半透明效应等。

研究人员提出了许多方法来检测自然场景图像中的文本，并且有两种主要方法。

基于纹理的方法，将文本视为一种特殊类型的纹理，并使用它们的纹理属性，如局部强度、滤波器响应和小波系数来区分图像的文本区域和非文本区域。通常这些方法的计算量很大，因为要扫描所有位置和尺度。此外，这些方法主要处理横向文本，对旋转和缩放非常敏感；

基于组件的方法，将文本视为连通组件，首先通过各种方法(如颜色聚类或极端区域提取)提取文本，然后使用手动设计的规则或自动训练的分类器对非文本组件进行过滤。通常，基于组件的方法更有效，因为要处理的组件数量相对较少。另外，这些方法对旋转，缩放和字体都不敏感。检测候选文本区域(Candidate Text Region，记为CTR)的传统方法有最大稳定极值区域(Maximally Stable Extremal Regions，记为MSER)，该方法对于图像的仿射变化具有很强的鲁棒性，可以有效地提取图像中的文本区域，后有学者改进了MSER的提取算法，使算法的时间复杂度达到线性时间。

这些方法按照区分文本区域和非文本区域的规则或特征，从而将文本区域和非文本区域区别开来，虽然这些方法能够检测出文本，但缺少对英文文本的校正，且对倾斜文本的区分效果并不好，识别出的文本会因为单词的倾斜而存在严重分离。

发明内容

有鉴于此，本发明提出了一种带有文本方向校正的英文文本检测方法，能够有效的识别出文本，并将识别出倾斜文本进行校正，具体包括以下步骤：

S1、分别对英文文本图像的锐化图像各个通道进行最大稳定极值区域检测，从图像中提取MSER作为文本候选；得出候选文本区域；

S2、建立基于卷积神经网络模型的分类器，提取出候选文本区域的特征；利用softmax函数根据候选文本区域的特征，将候选文本区域分为文本类区域和非文本类区域；过滤非文本类区域，获得初步文本区域，即检测出英文文本；

S3、利用双层文本分组算法将所述初步文本区域分组；

S4、将分组后的初步文本区域进行方向校正，从而实现英文文本的校正。

进一步的，所述通道包括：红色通道、绿色通道、蓝色通道、色调通道、饱和度通道、明度通道以及灰通道。

进一步的，所述建立基于卷积神经网络模型的分类器，提取出候选文本区域的特征包括：分别根据分类器中的五层架构获得候选文本区域的第一特征以及通过跨层获得候选文本区域的第二特征，其中，五层架构包括依次相连的第一卷积层，最大池化层、第二卷积层、金字塔池化层以及全连接层；跨层表示第一卷积层到全连接层。

进一步的，利用第一层架构中的第一卷积核对候选文本区域进行第一次滤波；将第一次滤波后的候选文本区域在第二层架构中进行最大池化；利用第三层架构中的第二卷积核，对最大池化后的候选文本区域进行第二次滤波；对第二次滤波后的候选文本区域，在第四层架构中进行利用金字塔池化；对金字塔池化后的候选文本区域在第五层架构中进行全连接，从而获得候选文本区域的第一特征。

进一步的，利用手动添加的特征，将第一卷积核对候选文本区域进行第一次滤波；将滤波后的候选文本区域按照手动添加的特征进行全连接，从而获得候选文本区域的第二特征。

进一步的，所述手动添加的特征包括：高宽比、紧密性、笔画宽度面积比、局部对比度和边界关键点。

进一步的，所述局部对比度的计算公式为：

其中，lc表示局部对比度；R_i表示红色通道的第i个像素；G_i表示绿色通道的第i个像素；B_i表示蓝色通道的第i个像素；n表示MSER区域的像素总个数，k表示边界关键点的个数。

进一步的，所述边界关键点的获取方式为：

构建二进制图像；迭代所述二进制图像的所有像素；计算出轮廓点；使用道格拉斯-普克算法压缩轮廓点，获得边界关键点具体包括：

将属于最大稳定极值区域内像素的灰度值设置为255；将属于最大稳定极值区域外，且属于最大稳定极值区域的最小外接矩形区域内像素的灰度值设置为0；如果像素点(x,y)的像素值p(x,y)＝255，且在p(x+1,y)，p(x-1,y)，p(x,y+1)，p(x,y-1)中有一个值为0,则像素p(x,y)属于轮廓点；使用道格拉斯-普克算法压缩轮廓点，通过压缩后的剩余轮廓点是边界关键点。

进一步的，所述利用双层文本分组算法将所述初步文本区域分组包括：将初步文本区域分别进行垂直分组和水平分组；

所述垂直分组具体包括如下：

获取第n个初步文本区域中像素为255的最小Y轴坐标b_n；获取第n+1个初步文本区域中像素为255的最大Y轴坐标t_n+1；获取第n+1个初步文本区域的高度h_n+1；

计算高度差如果高度差d_n,n+1大于高度阈值；则将两个初步文本区域划分为相同的类，即属于同一文本行；如果高度差d_n,n+1小于或等于高度阈值，则两个初步文本区域不是同一个类，第n+1个初步文本区域被视为新类，并且新文本行在Y轴方向被拆分；

所述水平分组具体步骤包括：

获取X轴上同一文本行中两个相邻初步文本区域之间的距离差Δd；距离差Δd包括：同一单词中字母之间的距离d₁、单词之间的距离d₂；

根据系数来表示文本行中所有字母的平均宽度，根据宽度阈值来分开单词；

获取字母宽度和间隔的比值如果字母宽度和间隔的比值d_h小于宽度阈值，那么这两个相邻初步文本区域属于同一类，即同一个单词，如果字母宽度和间隔的比值d_h大于或等于宽度阈值，这两个相邻初步文本区域不属于同一类，即这两个区域不属于同一个单词，将后一个初步文本区域作为一个新单词的开始。

进一步的，所述将分组后的初步文本区域进行方向校正包括：

S401、使用坐标旋转公式分别将分组后的初步文本区域以顺时针旋转α度；设定初始值i＝1，α＝-30°；

S402、通过模型匹配过程，将错误引入的分组框过滤；获得第i个待定校正文本区域；

S403、当i<6时，i＝i+1，α＝α+10°，返回步骤S401；当i＝6时，将第1个待定校正文本至第6个待定校正文本叠加，从而获得最终校正文本。

进一步的，所述坐标旋转公式包括：

x'＝xcosθ+ysinθ

y'＝ycosθ-xsinθ

其中，x表示像素点的横坐标；y表示像素点的纵坐标；θ表示旋转角度阈值；x'表示旋转后像素点的横坐标；y'表示旋转后像素点的纵坐标；

所述分组框包括：倾斜分组框以及长间隔分组框；所述倾斜分组框包含一个字母；所述长间隔分组框包含的字母位于两端。

本发明的有益效果：本发明具有如下优点：采用一种增强的多通道MSER模型：从R、G、B、H、S、V和灰通道中检测出MSER，以得到更精细的候选文本区域。引入并行SPP-CNN(Spatial pyramid pooling(SPP)-Convolutional Neural Networks(CNN)，金字塔池化-卷积神经网络)分类器来更好地区分文本区域和非文本区域，该模型可以处理任意大小的图像，而且可以在多尺度下提取池特征，从而可以通过源图像(英文文本图像)的多层空间信息来了解更多的特征；通过模型匹配过程，将错误引入的分组框过滤；可以处理倾斜的场景文本，实现对英文文本的校正。

附图说明

图1为本发明的流程图；

图2为本发明采用的跨层SPP-CNN算法架构图；

图3为现有技术中SPP工作方式的示意图；

图4为本发明的文本分组体系结构图；

图5为本发明的文本行的约束示意图；

图6为本发明未经过方向校正得出的初步文本区域；

图7为本发明经过方向校正的最终校正文本区域；

图8为本发明的方向旋转模型；

图9为本发明分组框的匹配模型；

图10本发明为不同旋转的检测结果图；

图11本发明为检测结果的案例图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。

本发明提供了一种带有文本方向校正的英文文本检测方法，如图1所示，它包括如下步骤：

S2、建立基于卷积神经网络(Convolutional Neural Networks，CNN)模型的分类器，提取出候选文本区域的特征，利用softmax函数根据候选文本区域的特征，将候选文本区域分为文本类区域和非文本类区域；过滤非文本类区域，获得初步文本区域，即检测出英文文本；

S3、利用双层文本分组算法将所述初步文本区域分组；

S4、将分组后的初步文本区域进行方向校正，从而实现英文文本的校正，即获得校正文本，所述校正文本即为校正后的英文文本。

优选的，本发明采用的CNN模型的五层架构如图2所示：

第一层架构采用大小为7×7×5的第一卷积核；表示采用长度为7宽度为7深度为5的卷积核；

第二层架构采用5×5×5的最大池化；表示采用长度为5宽度为5深度为5的最大池化；

第三层架构应用5×3×5卷积的第二卷积核；表示采用长度为5宽度为3深度为5的卷积核；

第四层架构使用SPP池化；图3为SPP工作方式的示意图，对同一张图像分别采用3×3池化(也即是长度为3宽度的3的池化)分成9个块，2×2池化分成4个块，以及1×1池化分成1个块，分别计算每个块的最大值，从而得出输出神经元，再将任意大小的图像转换成一个固定大小的14维特征。可以理解的是，本发明可以任意设计不同维度大小，增加金字塔的层数或改变划分网格的大小。

第五层架构使用全连接层；具体包括：

利用第一层架构中的第一卷积核对候选文本区域进行第一次滤波；将第一次滤波后的候选文本区域在第二层架构中进行最大池化；利用第三层架构中的第二卷积核，对最大池化后的候选文本区域进行第二次滤波；对第二次滤波后的候选文本区域，在第四层架构中进行利用金字塔池化；对金字塔池化后的候选文本区域在第五层架构中进行全连接，从而提取出候选文本区域的第一特征；

利用手动添加的特征，将第一卷积核对候选文本区域进行第一次滤波；将滤波后的候选文本区域按照手动添加的特征进行全连接，从而提取出候选文本区域的第二特征。

优选的，将手动设计的特征嵌入到整个CNN中，即跨层。跨层仅在第一层架构和第五层架构中工作，跨层中使用的特征也即手动添加的特征包括：

高宽比紧密性笔画宽度面积比局部对比度lc和边界关键点k。

其中w和h分别代表最大稳定极值区域的最小外接矩形的宽和高(像素点个数)；a表示最大稳定极值区域的最小外接矩形的面积(区域中所有像素点个数)；p表示最大稳定极值区域的最小外接矩形边界点的个数，在本发明中用边界关键点k表示p。

利用以下方程可得局部对比度：

通过将边界关键点按一定的顺序连接起来，可以近似地恢复原始区域，也即是获取到初步文本区域。

k的计算过程：

构建二进制图像；迭代所述二进制图像的所有像素；计算出轮廓点；使用道格拉斯-普克算法压缩轮廓点，经过压缩以后的轮廓点即为边界关键点；具体包括：

将属于最大稳定极值区域内像素的灰度值设置为255；将属于最大稳定极值区域外，且属于最大稳定极值区域的最小外接矩形区域内像素的灰度值设置为0；如果像素点(x,y)的像素值p(x,y)＝255，且在p(x+1,y)，p(x-1,y)，p(x,y+1)，p(x,y-1)中有一个值为0,则像素p(x,y)属于轮廓点；使用道格拉斯-普克算法(Douglas–Peucker algorithm)压缩轮廓点，通过压缩后的剩余轮廓点是边界关键点。

作为一种可选方式，应用SoftMax分类函数来获得最终特征的分类；

利用双层文本分组算法将所述初步文本区域分组进行文本分组后，再进行微倾斜方向校正，如图4所示。具体分为三部分：垂直分组、水平分组和方向校正：

垂直分组主要步骤如下：

获取第n个初步文本区域中像素为255的最小Y轴坐标b_n；获取第n+1个初步文本区域中像素为255的最大Y轴坐标t_n+1；获取第n+1个初步文本区域的高度h_n+1；如图5所示；

计算高度差如果高度差d_n,n+1大于高度阈值；则将两个初步文本区域划分为相同的类，即属于同一文本行；如果高度差d_n,n+1小于或等于高度阈值，则两个初步文本区域不是相同的类，第n+1个初步文本区域被视为新文本行，且将所述新文本行在Y轴方向拆分；

其中，本发明的高度阈值取0.62；

水平分组主要步骤如下：

获取X轴上同一文本行中两个相邻初步文本区域之间的距离差Δd；距离差Δd包括：同一单词中字母之间的距离d₁和单词之间的距离d₂；

获取字母宽度和间隔的比值如果字母宽度和间隔的比值d_h小于宽度阈值，两个相邻初步文本区域属于同一类，即同一个单词，如果字母宽度和间隔的比值d_h大于或等于宽度阈值，两个相邻初步文本区域不属于同一类，即这两个相邻初步文本区域不属于同一个单词，将后一个初步文本区域作为新单词的开始。

其中，系数是根据使用来自ICDAR 2013训练集包含229张图片和1226个单词的实验获取的；

本发明的宽度阈值取2.33。

微倾斜方向校正步骤如下：

图6对初步文本区域进行说明，可以看出，单词因倾斜而严重分离，“ne1Wor”被认为是同一行的单词；根据实验，得出在轻微倾斜10度以内的单词可以被正确分组，因此采用了旋转坐标轴的策略，得出了如图7中显示的最终校正文本。

由于坐标轴的旋转，分组框“wordline1”被正确分组，但错误引入的分组框“wordline2”未被正确纠正，所以使用旋转融合策略来改进算法：

所述将分组后的文本区域进行方向校正包括：

S403、当i<6时，i＝i+1，α＝α+10°；返回步骤S401，当i＝6时，将第1个待定校正文本至第6个待定校正文本叠加，从而获得最终校正文本。

具体的，

使用坐标旋转公式分别将分组后的初步文本区域以顺时针或逆时针旋转几十度；设定初始值i＝1；

本发明中，分别以顺时针和逆时针旋转10,20,30度，如图8所示；

通过模型匹配过程，将错误引入的分组框过滤；获得第i个待定校正文本区域；

将第i个待定校正文本以顺时针或逆时针旋转几十度，通过模型匹配将错误引入的分组框过滤，获取第i+1个待定校正文本；

当i<6时，i＝i+1；返回步骤S401，当i＝6时，将第1个待定校正文本至第6个待定校正文本叠加，从而获得最终校正文本；如图9所示。

作为另一种实现方式，在步骤S403中，i可以不限于等于6，还可以为5、7、8中任意一个数。

可以理解的是，模型匹配过程是根据旋转后的初步文本区域与训练集图像中相应英文文本匹配的过程，若旋转后的图像能够与该训练集图像重叠，则保留该重叠部分，相应的，再对初步文本区域做另一次旋转，若旋转后的图像能够与另一训练集图像重叠，则再次保留重叠部分，最终，将所有的重叠部分叠加出来，获得了最终校正文本。

图9中(a)显示了一个称为“倾斜分组框”的模型，该模型描述了每个框只包含一个字母。这种错误引入的分组框主要在单个方向上文本倾斜时出现。

图9中(b)显示了一个称为“长间隔分组框”，这种错误引入的分组框表示字母位于每个框的两端，它们之间有很大的间隔。这种情况将会在不同方向排列的文本之间的距离太近时出现。

旋转增量和旋转次数是检测结果的重要因素。为了平衡性能和时间复杂度，将最大旋转角度设置为30度。如图10所示，旋转的增量从1到15度不等,增量越小，获得最大度所需的次数就越多，实验结果表明，当增量达到10度时，精度、召回率和f指标等三个指标达到峰值，此为所提出的方法的最终旋转角度阈值。

在本发明中，为了验证提出的算法的正确性和有效性，对ICDAR 2011和ICDAR2013数据集上进行了对比实验。ICDAR 2011测试集包含255个图像，ICDAR 2013测试集包含233个图像。每个图像对应一个txt文档，它记录了需要检测的文本的具体坐标。

检测效果的评估主要计算检测到的校正文本区域和实际文本区域之间的重合度。对于每个要评估的矩形，使用最大匹配值。公式如下：

m(r；R)＝max{m(r,r')|r'∈R}

r表示校正文本区域，r'表示实际文本区域；a(r)表示校正文本区域r的矩形区域，R表示匹配的区域集。得到最大面积匹配，然后计算精度，召回率和f指标。公式如下：

E表示待检测的校正文本区域集合，T表示待评估的矩形集合。f-measure是精度和召回率的组合。精度和召回率的相对权重由参数α控制，通常设置为0.5,使精度和召回率具有相同的权重。

在本发明中，一些比较实验证明了所提出的方法可以提取出更多文本区域。

表1不同MSER方法的提取结果

根据表1(只考虑字母级别的性能，不考虑单词级别的最终结果)，在Laplacian和多通道的预处理之后，可以提取更多的文本区域(召回率增加)，但也提取了更多的非文本区域(精度降低)。

为说明本发明采用的方法的有效性，将本文方法与现有文本检测方法进行定量比较。训练集由ICDAR 2011和ICDAR 2013使用多通道MSER手动生成,它包含44908个英文文本图像和56139个非英文文本图像。将25％的训练集作为验证集,通过训练过程，准确率达到96％。对于SPP-CNN的训练，采用交叉验证和随机梯度下降(SGD)。对ICDAR 2011和ICDAR2013在5种方法中进行了比较实验，如图11为本发明所识别出的英文文本图像，可以看出本发明能够有效的识别出英文文本并能实现校正。

从表2和表3中可以看出，本发明方法在召回率和f指标上，均优于现有技术。

表2在ICDAR 2011中场景文本检测的影响

表3在ICDAR 2013中场景文本检测的影响

在表2与表3中的对比文件分别对应为：

[1]Liu Z,Li Y,Qi X,et al.Method for unconstrained text detection innatural scene image[J].Iet Computer Vision,2017,11(7):596-604.

[2]Wu H,Zou B,Zhao YQ,et al.Natural scene text detection by multi-scale adaptive color clustering and non-text filtering[J].Neurocomputing,2016,214:1011–1025.

[3]Yu C,Song Y,Zhang Y.Scene text localization using edge analysisand feature pool[J].Neurocomputing,2015,175:652-661.

[4]Yao Li,Wenjing Jia,Chunhua Shen,et al.Characterness:An Indicatorof Text in the Wild[J].IEEE transactions on image processing:a publication ofthe IEEE Signal Processing Society,2014,23(4):1666-77.

[5]Tian C,Xia Y,Zhang X,et al.Natural Scene Text Detection with MC-MRCandidate Extraction and Coarse-to-Fine Filtering[J].Neurocomputing,2017.

[6]Zhu A,Gao R,Uchida S.Could scene context be beneficial for scenetext detection？[J].Pattern Recognition,2016,58:204-215.

[7]Neumann L,Matas J.Efficient Scene text localization andrecognition with local character refinement[C]//International Conference onDocument Analysis and Recognition.IEEE,2015:746-750.

[8]Gomez L,Karatzas D.A fast hierarchical method for multi-script andarbitrary oriented scene text extraction[J].2014,19(4):1-15.

本发明可以检测轻微倾斜的文本和具有不同字体或大小的英文文本，如图9为成功检测案例。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：ROM、RAM、磁盘或光盘等。

以上所举实施例，对本发明的目的、技术方案和优点进行了进一步的详细说明，所应理解的是，以上所举实施例仅为本发明的优选实施方式而已，并不用以限制本发明，凡在本发明的精神和原则之内对本发明所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种带有文本方向校正的英文文本检测方法，其特征在于，包括以下步骤：

S1、分别对英文文本图像的锐化图像各个通道进行最大稳定极值区域检测，从图像中提取最大稳定极值区域；得出候选文本区域；

S3、利用双层文本分组算法将所述初步文本区域分组；

2.根据权利要求1所述的一种带有文本方向校正的英文文本检测方法，其特征在于，所述通道包括：红色通道、绿色通道、蓝色通道、色调通道、饱和度通道、明度通道以及灰通道。

3.根据权利要求1所述的一种带有文本方向校正的英文文本检测方法，其特征在于，所述建立基于卷积神经网络模型的分类器，提取出候选文本区域的特征包括：分别根据分类器中的五层架构获得候选文本区域的第一特征以及通过跨层获得候选文本区域的第二特征，其中，五层架构包括依次相连的第一卷积层，最大池化层、第二卷积层、金字塔池化层以及全连接层；跨层表示第一卷积层到全连接层。

4.根据权利要求3所述的一种带有文本方向校正的英文文本检测方法，其特征在于，所述第一特征的获取方式为：利用第一层架构中的第一卷积核对候选文本区域进行第一次滤波；将第一次滤波后的候选文本区域在第二层架构中进行最大池化；利用第三层架构中的第二卷积核，对最大池化后的候选文本区域进行第二次滤波；对第二次滤波后的候选文本区域，在第四层架构中进行利用金字塔池化；对金字塔池化后的候选文本区域在第五层架构中进行全连接，从而提取出候选文本区域的第一特征。

5.根据权利要求3所述的一种带有文本方向校正的英文文本检测方法，其特征在于，所述第二特征的获取方式为：利用手动添加的特征，将第一卷积核对候选文本区域进行第一次滤波；将滤波后的候选文本区域按照手动添加的特征进行全连接，从而提取出候选文本区域的第二特征。

6.根据权利要求5所述的一种带有文本方向校正的英文文本检测方法，其特征在于，所述手动添加的特征包括：高宽比、紧密性、笔画宽度面积比、局部对比度和边界关键点。

7.根据权利要求1所述的一种带有文本方向校正的英文文本检测方法，其特征在于，所述利用双层文本分组算法将所述初步文本区域分组包括：将初步文本区域进行垂直分组，具体包括：

计算高度差如果高度差d_n,n+1大于高度阈值；则将两个初步文本区域划分为相同的类，即属于同一文本行；如果高度差d_n,n+1小于或等于高度阈值，则两个初步文本区域不是相同的类，第n+1个初步文本区域被视为新文本行，且将所述新文本行在Y轴方向拆分。

8.根据权利要求7所述的一种带有文本方向校正的英文文本检测方法，其特征在于，所述利用双层文本分组算法将所述初步文本区域分组还包括：将初步文本区域进行水平分组，具体包括：

9.根据权利要求1所述的一种带有文本方向校正的英文文本检测方法，其特征在于，所述将分组后的初步文本区域进行方向校正，从而实现英文文本的校正包括：

10.根据权利要求9所述的一种带有文本方向校正的英文文本检测方法，其特征在于，所述分组框包括：倾斜分组框以及长间隔分组框；所述倾斜分组框包含一个字母；所述长间隔分组框包含的字母位于两端。