CN108875744A

CN108875744A - 基于矩形框坐标变换的多方向文本行检测方法

Info

Publication number: CN108875744A
Application number: CN201810179236.4A
Authority: CN
Inventors: 项欣光; 张丽飞
Original assignee: Nanjing University of Science and Technology
Current assignee: Nanjing University of Science and Technology
Priority date: 2018-03-05
Filing date: 2018-03-05
Publication date: 2018-11-23
Anticipated expiration: 2038-03-05
Also published as: CN108875744B

Abstract

本发明提供了一种基于矩形框坐标变换的多方向文本行检测方法，包括：输入待检测的图像，对其拆分为Y、R、G、B通道，并得到对应的反向通道；对候选字符区域采用基于距离和相似度的连接算法进行有效字符对连接；对每一通道图像融合基于特征过滤的ER算法和基于宽高比约束的MSER算法进行候选字符的提取；对未连接的候选字符进行坐标变换，再进行字符对连接；采用基于文本行线性约束的方法进行文本行的连接；统计文本行中经过坐标变换的字符的数量，超过行内字符数的一半，则将文本行矩形框进行逆向坐标变换；采用基于模板匹配和文本行内字符统计特征的方法进行文本行的过滤，得到最终的文本行检测结果。

Description

基于矩形框坐标变换的多方向文本行检测方法

技术领域

本发明设计一种计算机视觉领域中场景文字检测技术，特别是一种基于矩形框坐标变换的多方向文本行检测方法。

背景技术

随着智能手机和移动网络的普及，图片的获取和传输变得更加容易，图片作为信息的载体，越来越普遍地出现在我们的生活中。图片包含的信息丰富，图片中的文字有利于图片内容的理解，同时文字本身可能也是用户关注的焦点。自然场景图片中的文字检测逐渐成为计算机视觉领域的热门研究方向，有着广阔的应用场景：可用于多媒体内容理解和检索领域；可作为新型的输入与存档方式；可提供更加智能的应用，如拍照翻译；同时对工业自动化及自动驾驶技术有补充作用。

场景图片中文字的检测精度和召回率逐年提高，检测时间缩短，但仍然无法满足实际应用的需求，主要挑战在于自然场景图片中文字出现的背景具有复杂性；文字布局和呈现形式的多样；拍照环境和拍照技术的不确定性带来的图片质量问题。并且现有的场景文字检测方法大多集中于水平文本行的检测，本发明提出一种基于矩形框旋转的多方向文本行检测方法，该方法对水平、竖直、倾斜文本行均具有较好的检测效果。

发明内容

本发明的目的在于提供一种基于矩形框坐标变换的多方向文本行检测方法，包括以下步骤：

步骤1，输入待检测的图像，对其拆分为Y、R、G、B通道，并得到对应的反向通道；

步骤2，对候选字符区域采用基于距离和相似度的连接算法进行有效字符对连接；

步骤3，对每一通道图像融合基于特征过滤的ER算法和基于宽高比约束的MSER算法进行候选字符的提取；

步骤4，对未连接的候选字符进行坐标变换，再进行字符对连接；

步骤5，采用基于文本行线性约束的方法进行文本行的连接；

步骤6，统计文本行中经过坐标变换的字符的数量，超过行内字符数的一半，则将文本行矩形框进行逆向坐标变换；

步骤7，采用基于模板匹配和文本行内字符统计特征的方法进行文本行的过滤，得到最终的文本行检测结果。

本方法在检测多方向文本行时，采用字符矩形框以及文本行矩形框旋转的方式，仅需进行一次候选字符的提取，若采用图片旋转方式，则需两次候选字符的提取。同时，在文本行连接环节，与现有的多方向文本行算法相比，仍保留高度方向重叠这一特征，可减少文本行连接的搜索范围，提高检测效率，缩短检测时间。同时，实验证明本方法与一些基于连通域的算法相比，检测效果较好。

下面结合说明书附图对本发明作进一步描述。

附图说明

图1是本发明的流程图。

图2是判断有效字符对采用的特征示意图。

图3是基于矩形框旋转的多方向文本行检测方法效果图。

具体实施方式

结合图1，一种基于矩形框坐标变换的多方向文本行检测方法，包括以下步骤：

步骤5，采用基于文本行线性约束的方法进行文本行的连接；

步骤1中为检测深色背景淡色文字以及淡色背景深色文字区域，同时取各通道的反向通道进行处理，即255-x,其中x为原图通道的像素值。

步骤2具体包括如下步骤：

步骤2.1，计算候选字符对之间的以下特征：

(1)候选字符对之间的相对距离d'_ij；

(2)候选字符对高度方向上的重叠f1；

(3)候选字符矩形框的高度比值f2；

(4)笔划宽度的均值的比值f3；

(5)RGB和Lab通道像素均值差异f4和f5；

步骤2.2，根据启发式规则对满足下述条件之一的不可能连接成有效字符对的情况进行粗滤除：

(1)某一候选字符区域包含另一候选字符区域，即i∪j＝＝i||i∪j＝＝j；

(2)候选字符的左上顶点水平方向起点相同，即i.rectx＝＝j.rectx；

(3)高度方向重叠过小，表明为同一行文本的可能性小，即f1<0.2；

(4)相对距离过大，即d'_ij≥2.5；

步骤2.3，采用相对距离以外的特征作为字符的相似度衡量，训练字符对连接的AdaBoost分类器；其中，训练集的正例为启发式规则过滤后同一文本行中的字符对，反例为启发式规则过滤后字符与噪声区域组成的连接对；

步骤2.4，采用训练好的分类器得到字符对连接的置信度值，并根据距离的远近设定双阈值，其中距离较近的字符对的第一相似度阈值可设得较小，距离较远的字符对的第二相似度阈值较高；若距离和相似度满足下式字符对为有效字符对，否则为无效字符对

式(1)中μ为采用训练好的分类器得到字符对连接的置信度值，μ₁和μ₂分别为第一相似度阈值和第二相似度阈值，根据实验可得μ₁＝0.5，μ₂＝0.8。

结合图2，步骤2.1中的特征具体如下：

(1)字符对之间的相对距离d'_ij，i,j分别代表两个候选字符区域，w_i、w_j分别代表字符矩形框的宽度

d'_ij＝|di_j|/max(w_i,w_j) (2)

(2)高度方向上的重叠f1，rect为候选字符的矩形框，rect.y为左上角y坐标，br()为矩形框的右下角，h_i、h_j分别为字符矩形框的高度，若高度方向无重叠，则该值为则为负数，最大值为1

(3)候选字符矩形框的高度比值f2

(4)笔划宽度的均值的比值f3，s_i、s_j分别代表候选字符的笔划宽度均值

(5)通道像素均值差异，RBG通道的差异f4和Lab通道的差异f5

其中R、G、B为RGB通道，a、b分别为Lab通道中的a通道和b通道。

步骤3具体包括如下步骤：

步骤3.1，在各通道上采用基于特征过滤的ER算法进行候选字符提取；

步骤3.2，各通道上采用基于宽高比约束的MSER算法进行候选字符的提取；

步骤3.3，以步骤3.1中得到的候选字符区域作为种子节点，在步骤3.2中按照步骤2介绍的过程寻找能与种子节点组成有效字符对的区域，加入到步骤3.1的候选字符中，作为最终的候选字符提取结果。

步骤4中由于高度方向的重叠不具有旋转不变性，为检测倾斜排列和竖直排列的文本行，将未组成有效字符对的字符进行顺时针90度坐标变换，再按照步骤2中的方法进行有效字符对连接。坐标变换公式为：

其中原图为img₁，原图中文本行矩形框为rect₁，顺时针旋转90度后的图片为img₂，其中的矩形框为rect₂，矩形框的左上顶点的坐标为(x₁,y₁)，宽高为width和height。

步骤5的具体过程为：

步骤5.1，将步骤3、4中得到的有效字符对进行三字符连接，将其组成有效三元组，连接准则为：

(1)两个字符对存在共有字符，且其余字符分布在共有字符的两侧；

(2)根据最小二乘法拟合该三个字符矩形框中心点直线，同时计算误差以及三字符的矩形框，拟合误差大于1/6的矩形框的行高则为无效三元组，否则保留；

步骤5.2，估计步骤5.1中得到的有效三元组直线之间的距离。首先，将每个三元组作为字符序列。计算合并后序列最左边字符矩形框中心点和最右边字符矩形框的中心点，将这两点的坐标分别代入合并前序列的拟合直线中，分别求出两条直线在最左点和最右点的距离，取距离的较大值作为两条直线的拟合误差；拟合误差的计算公式如下：

其中l₁、l₂分别代表原有两个序列的中心点拟合直线，x、x’分别代表合并后区域的最左和最右中心点x轴坐标，x₁,x₂代表原先字符序列字符矩形框的向、x轴坐标，h表示拟合后序列的行高；

步骤5.3，估计字符序列之间的水平间距与高度的比值作为字符序列之间的距离；

拟合直线之间的距离和水平间距小于一定的阈值，则将字符序列进行合并，否则不合并；

步骤5.4，将字符序列依次合并，得到文本行；

步骤5.5，统计步骤5.4得到的文本行中旋转过的字符的数量，若旋转字符的数量占文本行中字符总数的一半，则表明该文本行是竖直或倾斜角度较大的文本行，将该文本行矩形框按照式(8)进行逆向坐标变换，还原为原图位置。

步骤6中统计文本行中旋转过的字符的数量，若旋转字符的数量占文本行中字符总数的一半，则表明该文本行是竖直或倾斜角度较大的文本行，将该文本行矩形框按照步骤4.1中的公式进行逆向坐标变换，还原为原图位置。

步骤7的具体包括如下步骤：

步骤7.1，采用模板匹配方法在候选字符连通域图片和原图图片上对文本行中的候选字符区域进行相似度的衡量，匹配准则为归一化相关系数匹配法TM_CCOEFF_NORMED，匹配值大于0.8则定义为相同；统计每个字符矩形框区域与文本行中多少区域相同，记录在数组中；取数组的中位数，若该数组中位数大于文本行字符数的一半，则表明该文本行中至少有一半候选字符的相似度很高，从而将该文本行标记为需滤除的文本行；

步骤7.2，由于宽高比约束MSER通道提取出的候选字符精度低，统计文本行中的候选字符来自该通道的数量，若数量大于60％的文本行字符总数，则表示该文本行的置信度低，需滤除；

步骤7.3，使用AdaBoost分类器对文本行中的字符进行置信度的计算，置信度小于0.5，则将该区域记为噪声；统计文本行中的噪声点数，若噪声数超过文本行字符数的一半，则将该文本行滤除；

步骤7.4，经过文本行滤除后保留的文本行为最终的检测结果。

Claims

1.一种基于矩形框坐标变换的多方向文本行检测方法，其特征在于，包括以下步骤：

步骤5，采用基于文本行线性约束的方法进行文本行的连接；

2.根据权利要求1所述的方法，其特征在于，步骤2具体包括如下步骤：

步骤2.1，计算候选字符对之间的以下特征：

(1)候选字符对之间的相对距离d'_ij；

(2)候选字符对高度方向上的重叠f1；

(3)候选字符矩形框的高度比值f2；

(4)笔划宽度的均值的比值f3；

(5)RGB和Lab通道像素均值差异f4和f5；

(1)某一候选字符区域包含另一候选字符区域；

(2)候选字符的左上顶点水平方向起点相同；

(3)高度方向重叠过小；

(4)相对距离过大；

3.根据权利要求2所述的方法，其特征在于，步骤2.1中的特征具体如下：

d'_ij＝|di_j|/max(w_i,w_j)

(3)候选字符矩形框的高度比值f2

(5)通道像素均值差异，RBG通道的差异f4和Lab通道的差异f5

4.根据权利要球2所述的方法，其特征在于，步骤3具体包括如下步骤：

步骤3.3，以步骤3.1中得到的候选字符区域作为种子节点，在步骤3.2中寻找能与种子节点组成有效字符对的区域，加入到步骤3.1的候选字符中，作为最终的候选字符提取结果。

5.根据权利要求4所述的方法，其特征在于，步骤4的具体包括如下步骤：

步骤4.1，由于高度方向的重叠不具有旋转不变性，为检测倾斜排列和竖直排列的文本行，将未组成有效字符对的字符进行顺时针90度坐标变换，坐标变换公式为：

rect₁.height＝rect₂.width

rect₁.width＝rect₂.height

rect₁.x₁＝rect₂.y₁

rect₁.y₁＝img₂.width-rect₂.x₁-rect₂.width

其中原图为img₁，原图中文本行矩形框为rect₁，顺时针旋转90度后的图片为img₂，其中的矩形框为rect₂，矩形框的左上顶点的坐标为(x₁,y₁)，宽高为width和height；

步骤4.2，采用权利要求步骤2中的方法进行有效字符对连接。

6.根据权利要求5所述的方法，其特征在于，步骤6中统计文本行中旋转过的字符的数量，若旋转字符的数量占文本行中字符总数的一半，则表明该文本行是竖直或倾斜角度较大的文本行，将该文本行矩形框按照步骤4.1中的公式进行逆向坐标变换，还原为原图位置。

7.根据权利要求6所述的方法，其特征在于，步骤7的具体包括如下步骤：