CN105868757A

CN105868757A - 一种图像文字中的文字定位方法及装置

Info

Publication number: CN105868757A
Application number: CN201610178481.4A
Authority: CN
Inventors: 袁文涛; 董启文
Original assignee: SHANGHAI TRUELAND INFORMATION TECHNOLOGY Co Ltd
Current assignee: SHANGHAI TRUELAND INFORMATION TECHNOLOGY Co Ltd
Priority date: 2016-03-25
Filing date: 2016-03-25
Publication date: 2016-08-17

Abstract

本发明公开了一种图像文字中的文字定位方法，包括：对原始图像进行边缘提取以得到所述原始图像对应的一次边缘图像；对所述一次边缘图像进行边缘点检测；根据第一边缘点对所述一次边缘图像采用二值化法以保存所述一次边缘图像对应的一次处理图像；对所述一次处理图像的文字部分进行第一次文字定位得到一次定位图像。该方法在原始图像的基础上经过边缘提取，边缘点检测和二值化法之后能够剔除原始图像上的非文字部分的图像，保留了文字部分的图像，因此实现了文字定位。此外，本发明还公开了一种图像文字中的文字定位装置。

Description

一种图像文字中的文字定位方法及装置

技术领域

本发明涉及图像识别技术领域，特别是涉及一种图像文字中的文字定位方法及装置。

背景技术

图像和视频中所包含的文字是非常重要的信息内容，对检索、浏览图像视频文件管理等功能的实现具有十分重要的作用。图像和视频里的文字可以作为图像视频文件的内容标识和索引来用于检索，比如在新闻视频中出现的标题、摘要或者说明性文字，可以作为该段新闻视频内容的描述，用于新闻视频资料的检索。

如果能把图像和视频中的文字自动检测，分割和识别出来的话，对图像和视频的高层语义的自动理解、索引、检索和管理具有非常深远的意思。在这一过程中，对于图像文字中的文字定位是非常重要的一个步骤。

由此可见，如何在图像文字中的实现文字的定位是本领域技术人员亟待解决的问题。

发明内容

本发明的目的是提供一种图像文字中的文字定位方法及装置，用于在图像文字中的实现文字的定位。

为解决上述技术问题，本发明提供一种图像文字中的文字定位方法，包括：

对原始图像进行边缘提取以得到所述原始图像对应的一次边缘图像；

对所述一次边缘图像进行边缘点检测；

根据第一边缘点对所述一次边缘图像采用二值化法以保存所述一次边缘图像对应的一次处理图像；

对所述一次处理图像的文字部分进行第一次文字定位得到一次定位图像。

优选地，还包括：

对所述一次定位图像进行边缘提取得到二次边缘图像；

对所述二次边缘图像进行边缘点检测，并根据第二边缘点的分布特点得到二次定位图像；

将所述第二边缘点在水平和垂直方向上分别进行投影；

根据投影结果确定最终的定位区域。

优选地，所述对原始图像进行边缘提取以得到所述原始图像对应的一次边缘图像具体为：

计算所述原始图像的梯度值，根据所述梯度值保存所述原始图像对应的一次边缘图像。

优选地，所述对所述一次处理图像的文字部分进行第一次文字定位得到一次定位图像具体为：

采用N*N尺寸的滑动窗口对经过二值化法后的边缘图像进行扫描；其中所述滑动窗口与所述边缘图像中的标记块一一对应；

按照预定规则生成对应的标记图。

优选地，N为4。

一种图像文字中的文字定位装置，包括：

第一提取单元，用于对原始图像进行边缘提取以得到所述原始图像对应的一次边缘图像；

第一检测单元，用于对所述一次边缘图像进行边缘点检测；

保存单元，用于根据第一边缘点对所述一次边缘图像采用二值化法以保存所述一次边缘图像对应的一次处理图像；

第一获取单元，用于对所述一次处理图像的文字部分进行第一次文字定位得到一次定位图像。

优选地，还包括：

第二提取单元，用于对所述一次定位图像进行边缘提取得到二次边缘图像；

第二检测单元，用于对所述二次边缘图像进行边缘点检测，并根据第二边缘点的分布特点得到二次定位图像；

投影单元，用于将所述第二边缘点在水平和垂直方向上分别进行投影；

确定单元，用于根据投影结果确定最终的定位区域。

优选地，所述第一提取单元具体为：

计算子单元，用于计算所述原始图像的梯度值；

保存子单元，用于根据所述梯度值保存所述原始图像对应的一次边缘图像。

优选地，所述第一获取单元具体为：

扫描子单元，用于采用N*N尺寸的滑动窗口对经过二值化法后的边缘图像进行扫描；其中所述滑动窗口与所述边缘图像中的标记块一一对应；

生成子单元，用于按照预定规则生成对应的标记图。

优选地，N为4。

本发明所提供的图像文字中的文字定位方法及装置，通过在原始图像上进行边缘提取以得到一次边缘图像，再对一次边缘图像进行边缘点检测，根据第一边缘点对一次边缘图像采用二值化法得到一次处理图像，最后在一次处理图像的文字部分进行文字定位得到一次定位图像。该方法在原始图像的基础上经过边缘提取，边缘点检测和二值化法之后能够剔除原始图像上的非文字部分的图像，保留了文字部分的图像，因此实现了文字定位。

附图说明

为了更清楚地说明本发明实施例，下面将对实施例中所需要使用的附图做简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的一种图像文字中的文字定位方法的流程图；

图2为本发明提供的另一种图像文字中的文字定位方法的流程图；

图3为本发明提供的一种图像文字中的文字定位装置的结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下，所获得的所有其他实施例，都属于本发明保护范围。

本发明的核心是提供一种图像文字中的文字定位方法及装置。

为了使本技术领域的人员更好地理解本发明方案，下面结合附图和具体实施方式对本发明作进一步的详细说明。

实施例一

图1为本发明提供的一种图像文字中的文字定位方法的流程图。如图1所示，图像文字中的文字定位方法包括：

S10：对原始图像进行边缘提取以得到原始图像对应的一次边缘图像。

在具体实施中，如果想对原始图像上的文字进行定位，则在获取到一个原始图像后对该图像进行边缘提取，以得到一次边缘图像。这里的一次边缘图像是为了与后文中的二次边缘图像进行区分。在实际中，对于原始图像的边缘提取可以通过计算原始图像的梯度值，根据梯度值保存原始图像对应的一次边缘图像。

S11：对一次边缘图像进行边缘点检测。

在得到了一次边缘图像后，对该边缘图像进行边缘点的检测。在实际中，可以通过索贝尔边缘检测器来实现上述过程。采用索贝尔边缘检测器检测到的边缘点的连续性较好，能够保留更多有用的信息，去除无用的信息。在本步骤中，对于一次边缘图像得到的边缘点为第一边缘点。这里的第一边缘点是为了与后文中的第二边缘点相区别。

S12：根据第一边缘点对一次边缘图像采用二值化法以保存一次边缘图像对应的一次处理图像。

在对一次边缘图像进行边缘点检测后，根据第一边缘点对一次边缘图像采用二值化法得到一次处理图像。可以理解的是二值化法中的阈值可以根据实际情况设定，本申请不作具体的限定。对于边缘点强度大于阈值的点进行保留，对于边缘点强度小于阈值的点进行剔除。因此，在经过二值化法之后，图像中的文本区域的边缘像素更容易保持下来，而其它非文本区域的边缘像素则被剔除。

S13：对一次处理图像的文字部分进行第一次文字定位得到一次定位图像。

在得到一次处理图像后，对文字部分进行第一次文字定位得到一次定位图像。该过程中的一次定位图像是为了与后文中的二次定位图像相区别。

具体的，对于文字部分的第一次文字定位通过以下方法实现：

首先，采用N*N尺寸的滑动窗口对经过二值化法后的边缘图像进行扫描；其中滑动窗口与边缘图像中的标记块一一对应；

按照预定规则生成对应的标记图。

在边缘图中，一个标记块对应一个窗口。我们将每个窗口均匀分为4个部分：左上、右上、左下、右下。这个部分边缘点数量分别为n₁，n₂，n₃，n₄。然后n由4个数字相乘得到：

n = Π_{i = 1}^{4} n_{i}

每个标记块如下定义：

p = \{\begin{matrix} 1, n > 0 \\ 0, n = 0 \end{matrix}

采用标记图用来表示边缘图像的分布图。只有那些边缘像素点分散的窗口与“1”对应。由于边缘呈现长条线段，那些较大对象的边缘像素点容易移除，比如人的身体。那些本文分布密集和无向的边缘像素，标记图中所对应的块会保留下来。在标记图生成后，通过分析连通区域来获取文本块的最大包围矩形。此外，我们还采用一些图像处理手段对其进行简单的处理，比如通过膨胀和腐蚀以消除小的孤立块，并填补小的空缺部分。

作为一种优选地实施方式，N为4，即滑动窗口的尺寸为4*4。

图2为本发明提供的另一种图像文字中的文字定位方法的流程图。作为一种优选地实施方式，在上述实施例的基础上，还包括：

S20：对一次定位图像进行边缘提取得到二次边缘图像。

在步骤S13中虽然得到了一次定位图形，使得图像中所出现的文字内容都能够被包含进来，而不被遗漏。但是其精度较低，包含了大量的非文字区域，这对后续的文字识别会造成严重的影响。因此本实施方式在步骤S13之后继续对一次定位图像进行边缘提取得到二次边缘图像。

S21：对二次边缘图像进行边缘点检测，并根据第二边缘点的分布特点得到二次定位图像。

在该过程中，其实是对二次边缘图像进行收缩，使得图像中包含的背景最少。将背景最小化的操作能够减少非文本区域的干扰。

S22：将第二边缘点在水平和垂直方向上分别进行投影。

S23：根据投影结果确定最终的定位区域。

通过计算二次定位图像在水平和竖直方向上的投影来细化文本区域。水平和竖直的投影轮廓中的波谷和波峰点表示背景区域以及文字出现的区域。所以，扫描投影结果中的波谷和波峰位置，这个过程是反复进行的，以免有多行文本的情况。通过上述投影过程就确定了最终的定位区域。

本实施例提供的图像文字中的文字定位方法，通过在原始图像上进行边缘提取以得到一次边缘图像，再对一次边缘图像进行边缘点检测，根据第一边缘点对一次边缘图像采用二值化法得到一次处理图像，最后在一次处理图像的文字部分进行文字定位得到一次定位图像。该方法在原始图像的基础上经过边缘提取，边缘点检测和二值化法之后能够剔除原始图像上的非文字部分的图像，保留了文字部分的图像，因此实现了文字定位。

实施例二

图3为本发明提供的一种图像文字中的文字定位装置的结构图。图像文字中的文字定位装置包括：

第一提取单元10，用于对原始图像进行边缘提取以得到原始图像对应的一次边缘图像；

第一检测单元11，用于对一次边缘图像进行边缘点检测；

保存单元12，用于根据第一边缘点对一次边缘图像采用二值化法以保存一次边缘图像对应的一次处理图像；

第一获取单元13，用于对一次处理图像的文字部分进行第一次文字定位得到一次定位图像。

作为一种优选地实施方式，还包括：

第二提取单元，用于对一次定位图像进行边缘提取得到二次边缘图像；

第二检测单元，用于对二次边缘图像进行边缘点检测，并根据第二边缘点的分布特点得到二次定位图像；

投影单元，用于将第二边缘点在水平和垂直方向上分别进行投影；

确定单元，用于根据投影结果确定最终的定位区域。

作为一种优选地实施方式，第一提取单元具体为：

计算子单元，用于计算原始图像的梯度值；

保存子单元，用于根据梯度值保存原始图像对应的一次边缘图像。

作为一种优选地实施方式，第一获取单元具体为：

扫描子单元，用于采用N*N尺寸的滑动窗口对经过二值化法后的边缘图像进行扫描；其中滑动窗口与边缘图像中的标记块一一对应；

生成子单元，用于按照预定规则生成对应的标记图。

作为一种优选地实施方式，N为4。

由于实施例二是实施实施例一中的方法对应的装置部分的实施例，因此具体的实施方式请参见实施例一的描述，本实施例暂不赘述。

本实施例提供的图像文字中的文字定位装置，通过在原始图像上进行边缘提取以得到一次边缘图像，再对一次边缘图像进行边缘点检测，根据第一边缘点对一次边缘图像采用二值化法得到一次处理图像，最后在一次处理图像的文字部分进行文字定位得到一次定位图像。该方法在原始图像的基础上经过边缘提取，边缘点检测和二值化法之后能够剔除原始图像上的非文字部分的图像，保留了文字部分的图像，因此实现了文字定位。

以上对本发明所提供的图像文字中的文字定位方法及装置进行了详细介绍。说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干改进和修饰，这些改进和修饰也落入本发明权利要求的保护范围内。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

Claims

1.一种图像文字中的文字定位方法，其特征在于，包括：

对所述一次边缘图像进行边缘点检测；

2.根据权利要求1所述的图像文字中的文字定位方法，其特征在于，还包括：

对所述一次定位图像进行边缘提取得到二次边缘图像；

将所述第二边缘点在水平和垂直方向上分别进行投影；

根据投影结果确定最终的定位区域。

3.根据权利要求1所述的图像文字中的文字定位方法，其特征在于，所述对原始图像进行边缘提取以得到所述原始图像对应的一次边缘图像具体为：

4.根据权利要求3所述的图像文字中的文字定位方法，其特征在于，所述对所述一次处理图像的文字部分进行第一次文字定位得到一次定位图像具体为：

按照预定规则生成对应的标记图。

5.根据权利要求4所述的图像文字中的文字定位方法，其特征在于，N为4。

6.一种图像文字中的文字定位装置，其特征在于，包括：

第一检测单元，用于对所述一次边缘图像进行边缘点检测；

7.根据权利要求6所述的图像文字中的文字定位方法，其特征在于，还包括：

确定单元，用于根据投影结果确定最终的定位区域。

8.根据权利要求6所述的图像文字中的文字定位装置，其特征在于，所述第一提取单元具体为：

计算子单元，用于计算所述原始图像的梯度值；

9.根据权利要求8所述的图像文字中的文字定位装置，其特征在于，所述第一获取单元具体为：

生成子单元，用于按照预定规则生成对应的标记图。

10.根据权利要求9所述的图像文字中的文字定位装置，其特征在于，N为4。