CN103679168B - 文字区域检测方法及装置 - Google Patents

文字区域检测方法及装置 Download PDF

Info

Publication number
CN103679168B
CN103679168B CN201210317019.XA CN201210317019A CN103679168B CN 103679168 B CN103679168 B CN 103679168B CN 201210317019 A CN201210317019 A CN 201210317019A CN 103679168 B CN103679168 B CN 103679168B
Authority
CN
China
Prior art keywords
region
character area
confidence level
angle point
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201210317019.XA
Other languages
English (en)
Other versions
CN103679168A (zh
Inventor
丁二锐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201210317019.XA priority Critical patent/CN103679168B/zh
Publication of CN103679168A publication Critical patent/CN103679168A/zh
Application granted granted Critical
Publication of CN103679168B publication Critical patent/CN103679168B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Image Analysis (AREA)
  • Character Input (AREA)

Abstract

本发明公开了一种文字区域检测方法及装置,一种文字区域检测方法包括:对目标图像进行角点检测,得到该图像的角点高置信度区域;对目标图像进行边缘检测,得到该图像的边缘连通区域;对于检测到的任意角点高置信度区域,判断该区域是否满足预设的规则形状条件;如果是,则将该区域确定为文字区域;如果否,则进一步判断该区域与边缘连通区域的重合比例是否达到预设的阈值,如果是,则将该区域确定为文字区域。本发明技术方案,采用角点检测与边缘检测结合的方式,确认图像上的文字区域,在文字背景复杂、文字区域不规则的情况下,能够更有效地检测出文字区域。

Description

文字区域检测方法及装置
技术领域
本发明涉及图像处理技术领域,特别是涉及文字区域检测方法及装置。
背景技术
多媒体技术的发展,使得在计算机上表达信息的形式更为丰富,很大程度上改变了计算机的应用领域。其中,图像(Images)是一种应用比较广泛的媒体,特别是随着图像处理技术的发展,使得图像已经成为计算机以及互联网领域的一种重要的信息承载形式。
与文字相比,图像有着更强的表现能力,但是相对地,对于计算机而言,理解一幅图像的工作也变得更为复杂。但是,如果图像中含有文字内容,那么这些文字往往可以为图像语义的理解提供非常丰富的信息,因此正确地从图像中提取文字,可以成为理解图像语义的一条捷径。文字信息提取的前提是准确检测到图像中的文字区域。目前,常用的检测方法是通过对图片直接进行二值化或边缘提取,然后对连通域进行启发式规则分析进而得到文字区域;或者在正负样本集上,通过机器学习如支持向量机等分类器进行训练,对图片中可能存在的文字区域进行彻查判断。
然而在实际应用中,很多图像的噪声较大,例如一些非专业用户拍摄的照片,经常受光照影响严重而且容易出现模糊,还有一些Web图像,尽管图像本身质量较好,但是文字背景非常复杂,文字区域也经常不规则,导致基于连通域分析的检测方法受到严重干扰,提取到的连通域往往会出现断裂或者背景粘连的情况,严重影响文字检测的准确度;通过机器学习方法的文字检测又往往受到训练样本的限制,不能扩展到样本之外的情况,而且对于汉字这样大字库的文字类型,无论是从检测速度还是实现成本考虑,目前都是难以实际应用的。
发明内容
为解决上述技术问题,本发明实施例提供一种文字区域检测方法及装置,以解决/以实现,技术方案如下:
本发明实施例提供一种文字区域检测方法,该方法包括:
对目标图像进行角点检测,得到该图像的角点高置信度区域;
对目标图像进行边缘检测,得到该图像的边缘连通区域;
对于检测到的任意角点高置信度区域,判断该区域是否满足预设的规则形状条件;
如果是,则将该区域确定为文字区域;
如果否,则进一步判断该区域与边缘连通区域的重合比例是否达到预设的阈值,如果是,则将该区域确定为文字区域。
根据本发明的一种具体实施方式,在对目标图像进行角点检测之前,还包括:
对所述目标图像进行下采样处理。
根据本发明的一种具体实施方式,所述对目标图像进行角点检测,得到该图像中的角点高置信度区域,包括:
对目标图像进行尺度变换后进行角点检测,得到该图像在多尺度下的角点高置信度区域。
根据本发明的一种具体实施方式,
根据当前尺度下,
已确定的文字区域与角点高置信度区域的重合度,和/或
已确定的文字区域与边缘连通区域的重合度,
判断是否要进行其他尺度下的角点检测。
根据本发明的一种具体实施方式,所述判断区域是否满足预设的规则形状条件,包括:
判断该区域的边缘光滑程度是否满足预设范围、
判断该区域的宽度和/或高度的均匀程度是否满足预设范围、
和/或
判断该区域对应的目标图像部分的二值化图的前景像素,在该区域的外接矩形周长上所占比例是否达到预设阈值。
根据本发明的一种具体实施方式,该方法还包括:
对已确定的文字区域范围进行调整。
根据本发明的一种具体实施方式,所述对已确定的文字区域范围进行调整,包括:
如果已确定的文字区域中包含边缘连通区域,则将该文字区域的范围调整为被包含边缘连通区域的外接矩形。
根据本发明的一种具体实施方式,所述对已确定的文字区域范围进行调整,包括:
如果已确定的文字区域中不包括边缘连通区域,则根据该文字区域在横向或纵向上的像素点投影分布,将该文字区域的范围调整为:像素点分布密度满足预设阈值的区域。
根据本发明的一种具体实施方式,该方法还包括:
对于未确定为文字区域的边缘连通区域,利用该区域的几何特征判断该区域是否为文字区域。
根据本发明的一种具体实施方式,该方法还包括:
对于已确定的文字区域范围,利用字符识别方法进行验证。
本发明实施例还提供一种文字区域检测装置,该装置包括:
角点检测单元,用于对目标图像进行角点检测,得到该图像的角点高置信度区域;
边缘检测单元,用于对目标图像进行边缘检测,得到该图像的边缘连通区域;
第一文字区域确定单元,用于对于检测到的任意角点高置信度区域,判断该区域是否满足预设的规则形状条件;
如果是,则将该区域确定为文字区域;
如果否,则进一步判断该区域与边缘连通区域的重合比例是否达到预设的阈值,如果是,则将该区域确定为文字区域。
根据本发明的一种具体实施方式,该装置还包括:
下采样单元,用于在所述角点检测单元对目标图像进行角点检测之前,对所述目标图像进行下采样处理。
根据本发明的一种具体实施方式,所述角点检测单元,具体用于:
对目标图像进行尺度变换后进行角点检测,得到该图像在多尺度下的角点高置信度区域。
根据本发明的一种具体实施方式,所述角点检测单元,具体用于:
根据当前尺度下,
已确定的文字区域与角点高置信度区域的重合度,和/或
已确定的文字区域与边缘连通区域的重合度,
判断是否要进行其他尺度下的角点检测。
根据本发明的一种具体实施方式,所述第一文字区域确定单元判断区域是否满足预设的规则形状条件,包括:
判断该区域的边缘光滑程度是否满足预设范围、
判断该区域的宽度和/或高度的均匀程度是否满足预设范围、
和/或
判断该区域对应的目标图像部分的二值化图的前景像素,在该区域的外接矩形周长上所占比例是否达到预设阈值。
根据本发明的一种具体实施方式,该装置还包括:
文字区域范围调整单元,用于对已确定的文字区域范围进行调整。
根据本发明的一种具体实施方式,所述文字区域范围调整单元,具体用于:
如果已确定的文字区域中包含边缘连通区域,则将该文字区域的范围调整为被包含边缘连通区域的外接矩形。
根据本发明的一种具体实施方式,所述文字区域范围调整单元,具体用于:
如果已确定的文字区域中不包括边缘连通区域,则根据该文字区域在横向或纵向上的像素点投影分布,将该文字区域的范围调整为:像素点分布密度满足预设阈值的区域。
根据本发明的一种具体实施方式,该装置还包括:
第二文字区域确定单元,用于对所述第一文字区域确定单元未确定为文字区域的边缘连通区域,利用该区域的几何特征判断该区域是否为文字区域。
根据本发明的一种具体实施方式,该装置还包括:
验证单元,用于对于已确定的文字区域范围,利用字符识别方法进行验证。
本发明技术方案,采用角点检测与边缘检测结合的方式,确认图像上的文字区域,在文字背景复杂、文字区域不规则的情况下,能够更有效地检测出文字区域。对于落选的区域,还可以进一步采用现有的其他方式进行补充检测,由于落选区域范围相对于整体图像而言明显减小,因此也能够获得更好的检测速度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1为本发明实施例文字区域检测方法的一种流程图;
图2为本发明实施例角点置信度分布的示意图;
图3为本发明实施例角点置信度二值化的示意图;
图4为本发明实施例图像尺度变换后的角点置信度二值化示意图;
图5为本发明实施例角点高置信度区域判断的示意图;
图6为本发明实施例对文字区域进行调整的第一种示意图;
图7为本发明实施例对文字区域进行调整的第二种示意图;
图8为本发明实施例文字区域检测装置的结构示意图。
具体实施方式
首先对本发明实施例所提供的一种文字区域检测方法进行说明,该方法可以包括以下步骤:
对目标图像进行角点检测,得到该图像的角点高置信度区域;
对目标图像进行边缘检测,得到该图像的边缘连通区域;
对于检测到的任意角点高置信度区域,判断该区域是否满足预设的规则形状条件;
如果是,则将该区域确定为文字区域;
如果否,则进一步判断该区域与边缘连通区域的重合比例是否达到预设的阈值,如果是,则将该区域确定为文字区域。
本发明技术方案,采用角点检测与边缘检测结合的方式,确认图像上的文字区域,在文字背景复杂、文字区域不规则的情况下,能够更有效地检测出文字区域。对于落选的区域,还可以进一步采用现有的其他方式进行补充检测,由于落选区域范围相对于整体图像而言明显减小,因此也能够获得更好的检测速度。
为了使本领域技术人员更好地理解本发明中的技术方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行详细地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员所获得的所有其他实施例,都应当属于本发明保护的范围。
图1所示,为本发明实施例一种文字区域检测方法的流程图,该方法可以包括以下步骤:
S101,对目标图像进行角点检测,得到该图像的角点高置信度区域;
通过研究发现,在图像中的文字区域,往往角点信息丰富,同时文字一般会成行出现,因此如果能够提取图像中角点高置信度区域,那么文字极有可能出现在这些区域中。
角点高置信度区域的提取可以通过传统的角点检测方法、边缘密度等反应角点信息的方法实现。
以Harris角点置信度方法为例,以下给出通过Harris角点计算角点置信度的公式。
Confidence=det(C)-∝trace2(C)
其中为敏感参数,由当前像素所在窗口内的一阶导数加 权得到,其中,角点置信度图既可以在单通道(如灰度通道)计算,也可以在多个通道(如R/ G/B通道)计算后融合。
图2给出了一幅原始目标图像,以及该图像经过角点计算后的角点置信度分布图,其中,在右侧的角点置信度分布图中,颜色越亮(即灰度值越高)的点,代表该点成为角点的置信度越高。
可以理解的是,在该步骤中还可以采用其他的方式实现角点置信度计算,本发明对具体的算法并不需要进行限定。
对于计算得到的角点置信度分布图,提取其中的高置信度区域,在实际应用中,可以利用预设门限值对角点置信度分布图进行二值化,也可以采用自适应二值化的方法,以图2为例,通过二值化处理,得到角点置信度分布二值化图如图3所示,其中,白色代表角点高置信度区域。
在本发明的一种优选实施方式中,为了提高文字区域检测的召回率,可以对原始目标图像在多个不同尺度下进行角点检测,具体而言,可以将原始目标图像分别缩小或扩大成多个图像,然后分布在这些图像上进行角点检测,得到不同尺度下的角点高置信度区域。图4所示,为对于图2所示的原始目标图像在多尺度下进行角点检测所得到的角点高置信度区域示意图。
为了加快角点置信度计算,同时为了能够在多尺度下进行文字检测,在对图像进行角点检测之前,还可以首先对原始图像进行下采样处理,其中,下采样的可以采用高斯金字塔变换、小波变换等方法,本发明对具体的算法并不需要进行限定。
S102,对目标图像进行边缘检测,得到该图像的边缘连通区域;
边缘连通区域的获取,可以通过边缘像素获取,也可以通过笔画宽度(StrokeWidth)、极性区域(Extremal Region)等依赖缘边信息获取的方法实现。其中,边缘连通区域既可以在单通道(如灰度通道)计算,也可以在多个通道(如R/G/B通道)计算后融合。
连通区域的特征包括前景像素比例、欧拉数、长宽比等,连通区域的规则判断既可以通过启发式规则判断也可以通过前期训练的机器学习方法(如支持向量机)进行判断,本发明实施例对此并不需要进行限定。
另外可以理解的是,上述角点检测的步骤S101和边缘检测步骤S102并不需要限定顺序,而且边缘检测的步骤也可以在后续需要与角点检测结果结合判断时再执行。
S103,对于检测到的任意角点高置信度区域,判断该区域是否满足预设的规则形状条件;如果是,执行S104,否则,执行步骤S105;
由图3或图4可以看出,检测到的角点高置信度区域实际表现为多个封闭的区域,对于每个独立的区域,首先判断这个区域的形状是否规则,即判断该区域是否满足预设的规则形状条件,如果满足,则执行S104,直接将该区域确定为文字区域;如果不满足,则执行S105,需要进一步结合边缘检测的结果来判断该区域是否为文字区域。
其中,对于角点高置信度区域,如果该区域十分规则,则直接确认为文字区域,其中,形状规则的判断标准包括但不限于以下几种条件:
a)判断该区域的边缘光滑程度是否满足预设范围。
这里可以通过对当前连通域(CC)进行形态学中的开操作(opening)结果和当前通域(CC)的差异来判断,例如通过以下公式计算光滑程度smoothness,只要smoothness大于一定阈值即认为光滑。其中,阈值可以通过样本观测来人为调整,如果采用机器学习的方式,则通过正负样本经adaboost等方法实现。
当然,上述公式仅用于示意性说明,本领域技术人员还可以采用其他方式来计算光滑程度,因此上述公式不应该理解为对本发明方案的限制。
b)判断该区域的宽度和/或高度的均匀程度是否满足预设范围。
下面以判断区域高度是否均匀进行说明:对于任意区域,在水平方向上,首先求得每个水平区域高度的总和H,然后求出H的众数Mode(H)。如果接近众数的高度集合({h|h≈Mode(H)})元素数目占总高度集合元素数目(H的势|H|)比例大于某个阈值,则表明高度比较均匀。其中,阈值可以通过样本观测来人为调整,如果采用机器学习的方式,则通过正负样本经adaboost等方法实现。
高度均匀程度的如以下公式所示:
利用类似原理,还可以对区域的宽度是否均匀进行判断,如果最终结果是区域的高度和宽度都足够均匀,则认为满足规则b)。当然,在实际应用时,也可以仅对区域的高度均匀程度或高度的均匀程度进行判断,如果高度足够均匀或宽度足够均匀,则认为满足规则b)。
当然,上述公式仅用于示意性说明,本领域技术人员还可以采用其他方式来计算均匀程度,因此上述公式不应该理解为对本发明方案的限制。
c)判断该区域对应的目标图像部分的二值化图的前景像素,在该区域的外接矩形周长上所占比例是否达到预设阈值。
首先对原始的目标图像进行二值化处理,对于任意角点高置信度区域,找到该区域对应原始图像部分,看原始图像中的前景像素(即亮度不为0的像素点,或者理解为黑白二值图中白色的像素点),是否在该区域的外接矩形周长上所占的比例是否超过一定的阈值,如果是,则认为条件c)满足。
以上几种条件,都可以用来判断区域形状是否规则,当然,上述条件仅用于示意性说明,本领域技术人员也可以对上述条件进行改进、或者添加新的判断条件。此外,在进行判断时,可以具体规定满足所有条件才认为是规则,或者规定至少满足其中一定数量的条件即认为是规则,本发明对具体的策略也并不需要进行限定。
参见图5所示,左侧是在三种尺度下,对应角点高置信度区域二值化后的结果,右侧为对应高置信度二值化区域对应的外接矩形框在对应尺度原图位置的示意图。以图5中间的尺度来说“图书馆管理***软件”所在的块和“电话”所在的块都是满足上述条件a)b)c)的;而对于图3下面的尺度而言,“电话”所在的块就不满足条件b);其余类似背景一样的小点,则不满足条件c)。
S104,将该区域确定为文字区域;
对于满足则形状条件的角点高置信度区域,直接确定为文字区域。根据本发明的一种优选实施方式,也可以将这些区域的外接矩形框确定为文字区域。
S105,进一步判断该区域与边缘连通区域的重合比例是否达到预设的阈值,如果是,则将该区域确定为文字区域。
如果区域欠规则,则需要引入边缘连通区域进行结合判断,主要方法是判断该区域内的点与边缘连通区域的比例是否达到预设的阈值,也就是说,判断角点高置信度区域内的点是否同时也处于边缘连通区域,如果这样的点足够多,则将该区域确定为文字区域。根据本发明的一种优选实施方式,也可以将这些区域的外接矩形框确定为文字区域。其中,阈值可以根据实验结果选取,也可以采用机器学习的方法,根据训练数据自适应获取。
上述方法通过两种方式对图像中可能存在的文字区域进行检测,其中对于形状规则的角点高置信度区域,直接确定为文字区域,对于形状不规则的角点高置信度区域,则结合边缘连通区域进行判断。
为了对图像中的文字区域进行更全面的检测,还可以对图像进行尺度变换后,重复上述的步骤S104-105,参见图4或图5所示,由于在不同尺度下的角点高置信度区域不完全相同,因此在不同尺度下也有可能检测出不同的文字区域。对于不在原始尺度下检测出的文字区域,可以通过等比例还原为原始图像大小,然后通过去重处理,得到原始图像在多尺度下的文字区域检测结果。
为了减小角点计算量,在完成一个尺度下的检测流程后,可以判断是否有必要进行下一个尺度的角点计算,具体可以根据当前尺度下已确定的文字区域与角点高置信度区域的重合度,或者当前尺度下已确定的文字区域与边缘连通区域的重合度进行判断,如果重合度较低,则说明还有很大面积的潜在文字区域,反之,如果重合度较高,说明当前已经检测出的区域已经相对比较完整,没有必要再进行其他尺度的检测。
在本发明的一种实施方式中,为了令检测出的文字区域更为精确,还可以进一步对检测出的区域进行调整,具体可以包括以下方法:
如果已确定的文字区域中包含边缘连通区域则将该文字区域的范围调整为被包含边缘连通区域的外接矩形。
本发明方案是基于角点高置信度区域对文字区域进行检测,通过研究发现,在多尺度上进行角点高置信度区域提取,二值化后包括的这些区域很有可能不紧贴文字,而边缘连通区域一般而言更贴近文字。参见图6左侧所示,外部的长方框对应于角点高置信度区域,内部的两个方框对应于边缘连通区域。为了使得最终检测结果更贴近文字,减少无用的信息,可以将已确定的文字区域,即角点高置信度区域对应外部长方框尽量贴近内部方框,也就是说,取角点高置信度区域内部一个或多个边缘连通区域的外接矩形,作为调整后的区域,如图6右侧所示。
如果已确定的文字区域中不包含边缘连通区域,则根据该文字区域在横向或纵向上的像素点投影分布,将该文字区域的范围调整为:像素点分布密度满足预设阈值的区域。
像素投影可以在横向或纵向进行,也可以预先通过计算先确定主方向,根据然后在主方向上进行投影,其中主方向可以二值图边缘像素的梯度方向进行投票等方法确定,本发明对此并不需要进行限定。
对区域进行调整,主要采用侧面投影的方法。按照某一方向对二值图的像素进行投影,然后根据像素投影中的峰值和投影总面积,剔除投影两端像素面积所占比较低的区域。如图7所示,图7a是原始的角点高置信度二值图像,其中白色部分为角点高置信度区域,可以发现,由于右上角部分的干扰,导致整个外接矩形中存在很多无效区域,通过在y轴上的像素投影,如图7b所示,可以发现,大部分像素(白色点)集中在峰值附近,根据这一情况,可以根据像素点对应于投影方向的面积,选取其中分布面积比较集中的区域,即像素点分布密度满足预设阈值的区域,如图7b所示,选取的区域范围大约在y∈(50,160)区域,对应到原始的二值图,最终调整后的区域如图7c所示。
在本发明的一种实施方式中,对于落选的边缘区域,即通过前述方法未确定为文字区域的边缘连通区域,还可以进一步利用该区域的几何特征判断该区域是否为文字区域。从而保证召回,其中,几何信息包括但不限于文字块成行信息(可以通过hough变换或侧面投影等方法实现)。由于落选区域范围相对于整体图像而言明显减小,因此也能够获得更好的检测速度。
此外,对于已确定的文字区域范围,可以利用强分类法,例如OCR(OpticalCharacter Recognition,光学字符识别)方法等进行再次验证,由于再次验证是在已确定的文字区域进行,因此识别速度和正确率也可以得到显著改善。
相应于上面的方法实施例,本发明还提供一种文字区域检测装置,参见图8所示,该装置可以包括:角点检测单元110、边缘检测单元120、第一文字区域确定单元130,具体描述如下:
角点检测单元110,用于对目标图像进行角点检测,得到该图像的角点高置信度区域;
通过研究发现,在图像中的文字区域,往往角点信息丰富,同时文字一般会成行出现,因此如果能够提取图像中角点高置信度区域,那么文字极有可能出现在这些区域中。
角点高置信度区域的提取可以通过传统的角点检测方法、边缘密度等反应角点信息的方法实现。
以Harris角点置信度方法为例,以下给出通过Harris角点计算角点置信度的公式。
Confidence=det(C)-∝trace2(C)
其中为敏感参数,由当前像素所在窗口内的一阶导数加 权得到,其中,角点置信度图既可以在单通道(如灰度通道)计算,也可以在多个通道(如R/ G/B通道)计算后融合。
图2给出了一幅原始目标图像,以及该图像经过角点计算后的角点置信度分布图,其中,在右侧的角点置信度分布图中,颜色越亮(即灰度值越高)的点,代表该点成为角点的置信度越高。
可以理解的是,还可以采用其他的方式实现角点置信度计算,本发明对具体的算法并不需要进行限定。
对于计算得到的角点置信度分布图,提取其中的高置信度区域,在实际应用中,可以利用预设门限值对角点置信度分布图进行二值化,也可以采用自适应二值化的方法,以图2为例,通过二值化处理,得到角点置信度分布二值化图如图3所示,其中,白色代表角点高置信度区域。
在本发明的一种优选实施方式中,为了提高文字区域检测的召回率,可以对原始目标图像在多个不同尺度下进行角点检测,具体而言,可以将原始目标图像分别缩小或扩大成多个图像,然后分布在这些图像上进行角点检测,得到不同尺度下的角点高置信度区域。图4所示,为对于图2所示的原始目标图像在多尺度下进行角点检测所得到的角点高置信度区域示意图。
根据本发明的一种具体实施方式,该装置还可以包括:
下采样单元,用于在所述角点检测单元对目标图像进行角点检测之前,对所述目标图像进行下采样处理。
为了加快角点置信度计算,同时为了能够在多尺度下进行文字检测,在对图像进行角点检测之前,还可以首先对原始图像进行下采样处理,其中,下采样的可以采用高斯金字塔变换、小波变换等方法,本发明对具体的算法并不需要进行限定。
边缘检测单元120,用于对目标图像进行边缘检测,得到该图像的边缘连通区域;
边缘连通区域的获取,可以通过边缘像素获取,也可以通过笔画宽度(StrokeWidth)、极性区域(Extremal Region)等依赖缘边信息获取的方法实现。其中,边缘连通区域既可以在单通道(如灰度通道)计算,也可以在多个通道(如R/G/B通道)计算后融合。
连通区域的特征包括前景像素比例、欧拉数、长宽比等,连通区域的规则判断既可以通过启发式规则判断也可以通过前期训练的机器学习方法(如支持向量机)进行判断,本发明实施例对此并不需要进行限定。
第一文字区域确定单元130,用于对于检测到的任意角点高置信度区域,判断该区域是否满足预设的规则形状条件;如果是,则将该区域确定为文字区域;如果否,则进一步判断该区域与边缘连通区域的重合比例是否达到预设的阈值,如果是,则将该区域确定为文字区域。
由图3或图4可以看出,检测到的角点高置信度区域实际表现为多个封闭的区域,对于每个独立的区域,首先判断这个区域的形状是否规则,即判断该区域是否满足预设的规则形状条件,如果满足,则执行S104,直接将该区域确定为文字区域;如果不满足,则执行S105,需要进一步结合边缘检测的结果来判断该区域是否为文字区域。
其中,对于角点高置信度区域,如果该区域十分规则,则直接确认为文字区域,其中,形状规则的判断标准包括但不限于以下几种条件:
a)判断该区域的边缘光滑程度是否满足预设范围。
这里可以通过对当前连通域(CC)进行形态学中的开操作(opening)结果和当前通域(CC)的差异来判断,例如通过以下公式计算光滑程度smoothness,只要smoothness大于一定阈值即认为光滑。其中,阈值可以通过样本观测来人为调整,如果采用机器学习的方式,则通过正负样本经adaboost等方法实现。
当然,上述公式仅用于示意性说明,本领域技术人员还可以采用其他方式来计算光滑程度,因此上述公式不应该理解为对本发明方案的限制。
b)判断该区域的宽度和/或高度的均匀程度是否满足预设范围。
下面以判断区域高度是否均匀进行说明:对于任意区域,在水平方向上,首先求得每个水平区域高度的总和H,然后求出H的众数Mode(H)。如果接近众数的高度集合({h|h≈Mode(H)})元素数目占总高度集合元素数目(H的势|H|)比例大于某个阈值,则表明高度比较均匀。其中,阈值可以通过样本观测来人为调整,如果采用机器学习的方式,则通过正负样本经adaboost等方法实现。
高度均匀程度的如以下公式所示:
利用类似原理,还可以对区域的宽度是否均匀进行判断,如果最终结果是区域的高度和宽度都足够均匀,则认为满足规则b)。当然,在实际应用时,也可以仅对区域的高度均匀程度或高度的均匀程度进行判断,如果高度足够均匀或宽度足够均匀,则认为满足规则b)。
当然,上述公式仅用于示意性说明,本领域技术人员还可以采用其他方式来计算均匀程度,因此上述公式不应该理解为对本发明方案的限制。
c)判断该区域对应的目标图像部分的二值化图的前景像素,在该区域的外接矩形周长上所占比例是否达到预设阈值。
首先对原始的目标图像进行二值化处理,对于任意角点高置信度区域,找到该区域对应原始图像部分,看原始图像中的前景像素(即亮度不为0的像素点,或者理解为黑白二值图中白色的像素点),是否在该区域的外接矩形周长上所占的比例是否超过一定的阈值,如果是,则认为条件c)满足。
以上几种条件,都可以用来判断区域形状是否规则,当然,上述条件仅用于示意性说明,本领域技术人员也可以对上述条件进行改进、或者添加新的判断条件。此外,在进行判断时,可以具体规定满足所有条件才认为是规则,或者规定至少满足其中一定数量的条件即认为是规则,本发明对具体的策略也并不需要进行限定。
参见图5所示,左侧是在三种尺度下,对应角点高置信度区域二值化后的结果,右侧为对应高置信度二值化区域对应的外接矩形框在对应尺度原图位置的示意图。以图5中间的尺度来说“图书馆管理***软件”所在的块和“电话”所在的块都是满足上述条件a)b)c)的;而对于图3下面的尺度而言,“电话”所在的块就不满足条件b);其余类似背景一样的小点,则不满足条件c)。
对于满足则形状条件的角点高置信度区域,直接确定为文字区域。根据本发明的一种优选实施方式,也可以将这些区域的外接矩形框确定为文字区域。
如果区域欠规则,则需要引入边缘连通区域进行结合判断,主要方法是判断该区域内的点与边缘连通区域的比例是否达到预设的阈值,也就是说,判断角点高置信度区域内的点是否同时也处于边缘连通区域,如果这样的点足够多,则将该区域确定为文字区域。根据本发明的一种优选实施方式,也可以将这些区域的外接矩形框确定为文字区域。其中,阈值可以根据实验结果选取,也可以采用机器学习的方法,根据训练数据自适应获取。
上述提供的文字区域检测装置通过两种方式对图像中可能存在的文字区域进行检测,其中对于形状规则的角点高置信度区域,直接确定为文字区域,对于形状不规则的角点高置信度区域,则结合边缘连通区域进行判断。
根据本发明的一种具体实施方式,该装置还可以包括:
文字区域范围调整单元,用于对已确定的文字区域范围进行调整。
如果已确定的文字区域中包含边缘连通区域则将该文字区域的范围调整为被包含边缘连通区域的外接矩形。
本发明方案是基于角点高置信度区域对文字区域进行检测,通过研究发现,在多尺度上进行角点高置信度区域提取,二值化后包括的这些区域很有可能不紧贴文字,而边缘连通区域一般而言更贴近文字。参见图6左侧所示,外部的长方框对应于角点高置信度区域,内部的两个方框对应于边缘连通区域。为了使得最终检测结果更贴近文字,减少无用的信息,可以将已确定的文字区域,即角点高置信度区域对应外部长方框尽量贴近内部方框,也就是说,取角点高置信度区域内部一个或多个边缘连通区域的外接矩形,作为调整后的区域,如图6右侧所示。
如果已确定的文字区域中不包含边缘连通区域,则根据该文字区域在横向或纵向上的像素点投影分布,将该文字区域的范围调整为:像素点分布密度满足预设阈值的区域。
像素投影可以在横向或纵向进行,也可以预先通过计算先确定主方向,根据然后在主方向上进行投影,其中主方向可以二值图边缘像素的梯度方向进行投票等方法确定,本发明对此并不需要进行限定。
对区域进行调整,主要采用侧面投影的方法。按照某一方向对二值图的像素进行投影,然后根据像素投影中的峰值和投影总面积,剔除投影两端像素面积所占比较低的区域。如图7所示,图7a是原始的角点高置信度二值图像,其中白色部分为角点高置信度区域,可以发现,由于右上角部分的干扰,导致整个外接矩形中存在很多无效区域,通过在y轴上的像素投影,如图7b所示,可以发现,大部分像素(白色点)集中在峰值附近,根据这一情况,可以根据像素点对应于投影方向的面积,选取其中分布面积比较集中的区域,即像素点分布密度满足预设阈值的区域,如图7b所示,选取的区域范围大约在y∈(50,160)区域,对应到原始的二值图,最终调整后的区域如图7c所示。
根据本发明的一种具体实施方式,该装置还可以包括:
第二文字区域确定单元,用于对所述第一文字区域确定单元未确定为文字区域的边缘连通区域,利用该区域的几何特征判断该区域是否为文字区域。
对于落选的边缘区域,即通过前述方法未确定为文字区域的边缘连通区域,还可以进一步利用该区域的几何特征判断该区域是否为文字区域。从而保证召回,其中,几何信息包括但不限于文字块成行信息(可以通过hough变换或侧面投影等方法实现)。由于落选区域范围相对于整体图像而言明显减小,因此也能够获得更好的检测速度。
根据本发明的一种具体实施方式,该装置还可以包括:
验证单元,用于对于已确定的文字区域范围,利用字符识别方法进行验证。
对于已确定的文字区域范围,可以利用强分类法,例如OCR(Optical CharacterRecognition,光学字符识别)方法等进行再次验证,由于再次验证是在已确定的文字区域进行,因此识别速度和正确率也可以得到显著改善。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本发明时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述仅是本发明的具体实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (20)

1.一种文字区域检测方法,其特征在于,该方法包括:
对目标图像进行角点检测得到该图像的角点置信度分布图,基于所述角点置信度分布图得到该图像的角点高置信度区域;
对目标图像进行边缘检测,得到该图像的边缘连通区域;
对于检测到的任意角点高置信度区域,判断该区域是否满足预设的规则形状条件;
如果是,则将该区域确定为文字区域;
如果否,则进一步判断该区域与边缘连通区域的重合比例是否达到预设的阈值,如果是,则将该区域确定为文字区域。
2.根据权利要求1所述的方法,其特征在于,在对目标图像进行角点检测之前,还包括:
对所述目标图像进行下采样处理。
3.根据权利要求1或2所述的方法,其特征在于,所述对目标图像进行角点检测,得到该图像中的角点高置信度区域,包括:
对目标图像进行尺度变换后进行角点检测,得到该图像在多尺度下的角点高置信度区域。
4.根据权利要求3所述的方法,其特征在于,
根据当前尺度下,
已确定的文字区域与角点高置信度区域的重合度,和/或
已确定的文字区域与边缘连通区域的重合度,
判断是否要进行其他尺度下的角点检测。
5.根据权利要求3所述的方法,其特征在于,所述判断区域是否满足预设的规则形状条件,包括:
判断该区域的边缘光滑程度是否满足预设范围、
判断该区域的宽度和/或高度的均匀程度是否满足预设范围、
和/或
判断该区域对应的目标图像部分的二值化图的前景像素,在该区域的外接矩形周长上所占比例是否达到预设阈值。
6.根据权利要求1所述的方法,其特征在于,该方法还包括:
对已确定的文字区域范围进行调整。
7.根据权利要求6所述的方法,其特征在于,所述对已确定的文字区域范围进行调整,包括:
如果已确定的文字区域中包含边缘连通区域,则将该文字区域的范围调整为被包含边缘连通区域的外接矩形。
8.根据权利要求6所述的方法,其特征在于,所述对已确定的文字区域范围进行调整,包括:
如果已确定的文字区域中不包括边缘连通区域,则根据该文字区域在横向或纵向上的像素点投影分布,将该文字区域的范围调整为:像素点分布密度满足预设阈值的区域。
9.根据权利要求1所述的方法,其特征在于,该方法还包括:
对于未确定为文字区域的边缘连通区域,利用该区域的几何特征判断该区域是否为文字区域。
10.根据权利要求1所述的方法,其特征在于,该方法还包括:
对于已确定的文字区域范围,利用字符识别方法进行验证。
11.一种文字区域检测装置,其特征在于,该装置包括:
角点检测单元,用于对目标图像进行角点检测得到该图像的角点置信度分布图,基于所述角点置信度分布图得到该图像的角点高置信度区域;
边缘检测单元,用于对目标图像进行边缘检测,得到该图像的边缘连通区域;
第一文字区域确定单元,用于对于检测到的任意角点高置信度区域,判断该区域是否满足预设的规则形状条件;
如果是,则将该区域确定为文字区域;
如果否,则进一步判断该区域与边缘连通区域的重合比例是否达到预设的阈值,如果是,则将该区域确定为文字区域。
12.根据权利要求11所述的装置,其特征在于,还包括:
下采样单元,用于在所述角点检测单元对目标图像进行角点检测之前,对所述目标图像进行下采样处理。
13.根据权利要求11或12所述的装置,其特征在于,所述角点检测单元,具体用于:
对目标图像进行尺度变换后进行角点检测,得到该图像在多尺度下的角点高置信度区域。
14.根据权利要求13所述的装置,其特征在于,所述角点检测单元,具体用于:
根据当前尺度下,
已确定的文字区域与角点高置信度区域的重合度,和/或
已确定的文字区域与边缘连通区域的重合度,
判断是否要进行其他尺度下的角点检测。
15.根据权利要求13所述的装置,其特征在于,所述第一文字区域确定单元判断区域是否满足预设的规则形状条件,包括:
判断该区域的边缘光滑程度是否满足预设范围、
判断该区域的宽度和/或高度的均匀程度是否满足预设范围、
和/或
判断该区域对应的目标图像部分的二值化图的前景像素,在该区域的外接矩形周长上所占比例是否达到预设阈值。
16.根据权利要求11所述的装置,其特征在于,该装置还包括:
文字区域范围调整单元,用于对已确定的文字区域范围进行调整。
17.根据权利要求16所述的装置,其特征在于,所述文字区域范围调整单元,具体用于:
如果已确定的文字区域中包含边缘连通区域,则将该文字区域的范围调整为被包含边缘连通区域的外接矩形。
18.根据权利要求16所述的装置,其特征在于,所述文字区域范围调整单元,具体用于:
如果已确定的文字区域中不包括边缘连通区域,则根据该文字区域在横向或纵向上的像素点投影分布,将该文字区域的范围调整为:像素点分布密度满足预设阈值的区域。
19.根据权利要求11所述的装置,其特征在于,该装置还包括:
第二文字区域确定单元,用于对所述第一文字区域确定单元未确定为文字区域的边缘连通区域,利用该区域的几何特征判断该区域是否为文字区域。
20.根据权利要求11所述的装置,其特征在于,该装置还包括:
验证单元,用于对于已确定的文字区域范围,利用字符识别方法进行验证。
CN201210317019.XA 2012-08-30 2012-08-30 文字区域检测方法及装置 Active CN103679168B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210317019.XA CN103679168B (zh) 2012-08-30 2012-08-30 文字区域检测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210317019.XA CN103679168B (zh) 2012-08-30 2012-08-30 文字区域检测方法及装置

Publications (2)

Publication Number Publication Date
CN103679168A CN103679168A (zh) 2014-03-26
CN103679168B true CN103679168B (zh) 2018-11-09

Family

ID=50316658

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210317019.XA Active CN103679168B (zh) 2012-08-30 2012-08-30 文字区域检测方法及装置

Country Status (1)

Country Link
CN (1) CN103679168B (zh)

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104050471B (zh) * 2014-05-27 2017-02-01 华中科技大学 一种自然场景文字检测方法及***
CN104463138B (zh) * 2014-12-19 2018-08-28 深圳大学 基于视觉结构属性的文本定位方法及***
CN106156691B (zh) * 2015-03-25 2019-12-06 中测高科(北京)测绘工程技术有限责任公司 复杂背景图像的处理方法及其装置
CN106157284B (zh) * 2015-04-01 2019-10-11 阿里巴巴集团控股有限公司 图像中文字区域的定位方法及装置
CN105205488B (zh) * 2015-07-13 2018-07-24 西北工业大学 基于Harris角点和笔画宽度的文字区域检测方法
CN105868757A (zh) * 2016-03-25 2016-08-17 上海珍岛信息技术有限公司 一种图像文字中的文字定位方法及装置
CN105975955B (zh) * 2016-05-27 2019-07-02 北京医拍智能科技有限公司 一种图像中文本区域的检测方法
CN108171104B (zh) 2016-12-08 2022-05-10 腾讯科技(深圳)有限公司 一种文字检测方法及装置
CN107302718B (zh) * 2017-08-17 2019-12-10 河南科技大学 一种基于角点检测的视频字幕区域定位方法
CN107862310B (zh) * 2017-09-17 2021-10-26 北京工业大学 一种基于块投影的藏文历史文献文本区域提取方法
CN108647680B (zh) * 2018-04-28 2021-11-12 北京盒子鱼教育科技有限公司 图像定位框检测方法和装置
CN110503084B (zh) * 2018-05-18 2024-03-01 广州腾讯科技有限公司 一种图像中的文字区域识别方法和装置
CN109344727B (zh) * 2018-09-07 2020-11-27 苏州创旅天下信息技术有限公司 身份证文本信息检测方法及装置、可读存储介质和终端
CN109409377B (zh) * 2018-12-03 2020-06-02 龙马智芯(珠海横琴)科技有限公司 图像中文字的检测方法及装置
CN109886865B (zh) * 2019-01-07 2024-01-23 平安科技(深圳)有限公司 自动屏蔽不良信息的方法、装置、计算机设备以及存储介质
CN109815948B (zh) * 2019-01-14 2023-05-30 辽宁大学 一种复杂场景下的试卷分割算法
CN109919029A (zh) * 2019-01-31 2019-06-21 深圳和而泰数据资源与云技术有限公司 黑眼圈类型识别方法、装置、计算机设备和存储介质
CN110147786B (zh) * 2019-04-11 2021-06-29 北京百度网讯科技有限公司 用于检测图像中的文本区域的方法、装置、设备以及介质
CN110147724B (zh) * 2019-04-11 2022-07-01 北京百度网讯科技有限公司 用于检测视频中的文本区域的方法、装置、设备以及介质
CN111833398B (zh) * 2019-04-16 2023-09-08 杭州海康威视数字技术股份有限公司 一种图像中的像素点标记方法及装置
CN110472550A (zh) * 2019-08-02 2019-11-19 南通使爱智能科技有限公司 一种文本图像拍摄完整度判断方法及***
CN112116554B (zh) * 2020-08-04 2022-06-14 深圳大学 图像显著性目标的检测方法、装置、终端设备及存储介质
CN112733639B (zh) * 2020-12-28 2023-01-06 贝壳技术有限公司 文本信息结构化提取方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101593277A (zh) * 2008-05-30 2009-12-02 电子科技大学 一种复杂彩色图像中文本区域自动定位方法及装置
CN102298698A (zh) * 2011-05-30 2011-12-28 河海大学 基于角点与边缘信息融合的遥感图像飞机检测方法
CN102609911A (zh) * 2012-01-16 2012-07-25 北方工业大学 基于边缘的图像显著性检测

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101645994B1 (ko) * 2009-12-29 2016-08-05 삼성전자주식회사 문자 인식 영역 검출 장치 및 문자 인식 방법
CN102542268B (zh) * 2011-12-29 2014-04-23 中国科学院自动化研究所 用于视频中文本区域检测与定位的方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101593277A (zh) * 2008-05-30 2009-12-02 电子科技大学 一种复杂彩色图像中文本区域自动定位方法及装置
CN102298698A (zh) * 2011-05-30 2011-12-28 河海大学 基于角点与边缘信息融合的遥感图像飞机检测方法
CN102609911A (zh) * 2012-01-16 2012-07-25 北方工业大学 基于边缘的图像显著性检测

Also Published As

Publication number Publication date
CN103679168A (zh) 2014-03-26

Similar Documents

Publication Publication Date Title
CN103679168B (zh) 文字区域检测方法及装置
Yuan et al. A robust and efficient approach to license plate detection
US8509526B2 (en) Detection of objects in digital images
KR101179497B1 (ko) 얼굴 검출 방법 및 장치
CN105260749B (zh) 基于方向梯度二值模式和软级联svm的实时目标检测方法
CN101211411B (zh) 一种人体检测的方法和装置
CN104318225B (zh) 车牌检测方法及装置
CN107305635A (zh) 对象识别方法、对象识别装置和分类器训练方法
CN109670430A (zh) 一种基于深度学习的多分类器融合的人脸活体识别方法
CN106874826A (zh) 人脸关键点跟踪方法和装置
CN111191611A (zh) 基于深度学习的交通标志标号识别方法
CN110659550A (zh) 交通标志牌识别方法、装置、计算机设备和存储介质
CN111914838A (zh) 一种基于文本行识别的车牌识别方法
CN109858570A (zh) 图像分类方法及***、计算机设备及介质
CN106250824A (zh) 车窗定位方法和***
CN110689000A (zh) 一种基于生成复杂环境下车牌样本的车辆车牌识别方法
CN105740751A (zh) 一种目标检测与识别的方法和***
CN110689003A (zh) 低照度成像车牌识别方法、***、计算机设备及存储介质
Mammeri et al. North-American speed limit sign detection and recognition for smart cars
CN106446784A (zh) 一种图像检测方法及装置
CN104268595A (zh) 通用物件检测方法及***
CN108280388A (zh) 训练面部检测模型的方法和装置以及面部检测方法和装置
CN112347967B (zh) 一种复杂场景下融合运动信息的行人检测方法
CN116311212B (zh) 基于高速摄像机实现运动状态下的船号识别方法及装置
CN109726621A (zh) 行人检测方法、装置及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
EXSB Decision made by sipo to initiate substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant