CN110619331A

CN110619331A - 一种基于颜色距离的彩色影像字段定位方法

Info

Publication number: CN110619331A
Application number: CN201910891636.2A
Authority: CN
Inventors: 邵一婷; 于志文; 张邱鸣; 糜俊; 丁家轩; 朱玮琦
Original assignee: JIANGSU HONGXIN SYSTEM INTEGRATION CO Ltd
Current assignee: JIANGSU HONGXIN SYSTEM INTEGRATION CO Ltd
Priority date: 2019-09-20
Filing date: 2019-09-20
Publication date: 2019-12-27

Abstract

一种基于颜色距离的彩色影像字段定位方法,首先，预处理图像，对拍摄影像倾斜的情况进行影像校正，识别影像像素点的颜色，进行颜色过滤，去除背景和非文本信息，然后，提取影像中可能的连通域，根据文字中连通域的颜色、位置距离相似性，获取单个文字位置信息，最后根据同一行文字大小，文字间距的特性，将单个文字连通域与其邻域的连通域根据一定条件进行连通域融合，延伸到可能的段落边界，以此定位整个段落。

Description

一种基于颜色距离的彩色影像字段定位方法

技术领域

本发明属于图像识别、视频分析领域，尤其涉及一种基于颜色距离的彩色影像字段定位方法。

背景技术

文字信息是图像的最核心部分，为了提取图像中文本信息，OCR(OpticalCharacter Recognition,光学字符识别)技术孕育而生，并经历了不断发展和迭代。在当今大数据发展的时代，数据是基础，OCR技术是其中至关重要的环节，并且通过OCR技术数据结构化，对后续的语义的自动理解、索引和检索的实现都具有重大意义。前期的OCR识别，是针对于全文识别，从非结构的影像数据提取出全部的文字，而不同信息所对应的字的颜色、大小、亮度等都不同，全文用同样的参数来执行OCR操作，容易造成信息遗漏甚至忽略掉字体较小、颜色较浅的关键信息，而且全文映射为一条字段，后期很难进行信息分类和提取。因此，在文字识别前必不可少的要进行文本段落定位，文本定位效果的好坏直接影响到文字识别。

在彩色图像中，人们往往通过不同颜色来体现不同信息，例如在财务领域，财务票据在彩色图像中用不同颜色标注不同的重点内容，或者车牌信息，用蓝色打底，白色来凸显文字。

专利CN105868757A“一种图像文字中的文字定位方法及装置”该方法在原始图像的基础上经过边缘提取，边缘点检测和二值化法之后剔除原始图像上的非文字部分的图像，保留了文字部分的图像，继而实现文字定位。基于边缘的方法，注重文本与背景的对比度，但其仅适应于文本与背景对比度大、文字边缘突出的场景。

专利CN103440487B“一种局部色调差异的自然场景文字定位方法”，此发明利用了文字的纹理特征，结合文字区域与周围区域色调不同的特点，进行定位。基于文字纹理特征的文本定位方法，虽然能够检测字符与背景对比度较小的场景，但是计算量比较大，算法的时效性较差，而且此方法并不能很好的适应噪声干扰的影像。

专利CN107301414A“一种自然场景图像中的中文定位、分割和识别方法”，此发明利用文字笔画特征的准确提取，以及深度残差神经网络技术进行文字定位和识别。基于机器学习的方法，需要大量的学习和训练，而现实场景多样化，不能全面，所以得到的训练结果不具备强鲁棒性。

发明内容

(一)解决的技术问题

本发明的目的在于提供一种基于颜色距离的彩色影像字段定位方法，以解决上述背景技术中提出的实际问题。

(二)技术方案

为实现上述目的，本发明提供如下技术方案：一种基于颜色距离的彩色影像字段定位方法，包括以下步骤：

步骤1：预处理图像，对拍摄影像倾斜的情况进行影像校正；

步骤2：识别影像像素点的颜色，进行颜色过滤，去除背景色和非文本色的像素点；

步骤3：提取影像中可能的连通域，进行非字符结构过滤；

步骤4：根据文字中连通域的颜色、距离相似性，获取单个文字位置信息；

步骤5：根据同一行文字大小，文字间距的特性，将单个文字进行扩展，延伸到可能的段落边界，以此定位整个段落。

优选的，所述的步骤1包括以下步骤：

(a)根据HOUGH检测直线的方法，找出图像中的所有直线；

(b)在所查找的直线中找到小于图像尺寸的最大直线；

(c)计算最大直线与水平方向的角度V；

(d)如果角度V不是90度的倍数，则对图像旋转V角度。

优选的，所述的步骤2包括以下步骤：

(a)HSV颜色模型重新影射了RGB模型，从而能够视觉上比RGB模型更具有视觉直观性。因此本文将图像映射到HSV颜色空间，并提取HSV中三个通道的颜色分量，通过HSV三个颜色分量的范围的不同，将图像中的像素点归类不同的颜色；

(b)对图像进行颜色过滤，去除背景色和非文本色的像素点。

(c)对于进行颜色过滤后的像素点，进行二次加工，若其8邻域的像素点和其不同，并为同一色系，将此像素点的颜色置换为其邻域的颜色。

优选的，所述的步骤3包括以下步骤：

(a)将做了颜色提取和过滤后的像素点作为前景像素点，并基于此提取影像中所有的连通域；

(b)根据彩色影像中单个文字以及其文字中包含的不同结构的尺寸特性，设置最小值M1，和最大值M2。将连通域包含的像素点小于M1或者连通域包含的像素点大于M2的连通域去除。

优选的，所述的步骤4包括以下步骤：

(a)对于提取的连通域，设置一个较小的阈值N1,计算其邻域的连通域与其的距离位置；

(b)将连通域与其邻域中颜色相同且位置距离小于N1的连通域融合，并用这些连通域的最小外接矩形将其圈出，定位单个文字。

优选的，所述的步骤5包括以下步骤：

(a)对于图像中圈定出的单个字体的矩形框，计算其左右矩形框与其之间的颜色距离，以及位置距离，其中两个矩形框之间的颜色距离在HSV颜色通道进行，HSV(hue,saturation,value)颜色空间的模型对应于圆柱坐标系中的一个圆锥形子集，圆锥的顶面对应于V＝1。它包含RGB模型中的R＝1，G＝1，B＝1三个面，所代表的颜色较亮。色彩H由绕V轴的旋转角给定。在斜边长R，底面圆半径为r，高为h的HSV圆锥体内，以地面圆心为原点，H＝0为x轴正方向建立坐标轴。那么色值是(H,S,V)的点的三维坐标(x,y,z)是：

计算两个连通域内像素的平均颜色分量点(h1,s1,v1)和(h2,s2,v2)转换为三维坐标点(x1,y1,z1)和(x2,y2,z2),三维坐标点的欧式距离即为两个连通域的颜色距离；

(b)设置颜色距离阈值N2和位置距离阈值N3，将颜色距离小于N2、位置距离小于N3，且高度一致的两个矩形框融合，定位字段。

(三)有益效果

本发明的目的是提供一种基于颜色距离的彩色影像字段定位方法。首先，预处理图像，对拍摄影像倾斜的情况进行影像校正。其次，识别影像像素点的颜色，进行颜色过滤，去除背景和非文本信息。然后，提取影像中可能的连通域，根据文字中连通域的颜色、位置距离相似性，获取单个文字位置信息，最后根据同一行文字大小，文字间距的特性，将单个文字连通域与其邻域的连通域根据一定条件进行连通域融合，延伸到可能的段落边界，以此定位整个段落。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明算法流程示意图；

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

请参阅图1，本发明提供一种技术方案：一种基于颜色距离的彩色影像字段定位方法，包括以下步骤：

步骤1：预处理图像，对拍摄影像倾斜的情况进行影像校正；

步骤3：提取影像中可能的连通域，进行非字符结构过滤；

优选的，所述的步骤1包括以下步骤：

(a)根据HOUGH检测直线的方法，找出文字中的所有直线；

(b)在所查找的直线中找到小于图像尺寸的最大直线；

(c)计算最大直线与水平方向的角度V；

(d)如果角度V不是90度的倍数，则对图像旋转V角度。

优选的，所述的步骤2包括以下步骤：

(b)对图像进行颜色过滤，去除背景色和非文本色的像素点。

优选的，所述的步骤3包括以下步骤：

优选的，所述的步骤4包括以下步骤：

(b)将连通域的邻域中与其颜色相同且位置距离小于N1的连通域融合，并用这些连通域的最小外接矩形将其圈出，定位单个文字。

优选的，所述的步骤5包括以下步骤：

本发明充分利用了彩色影像中的颜色特性，在包含文本的图像中，通过字体的颜色来区分背景和文字，如有的图像中，背景是白色，字体为较鲜艳的颜色。特别的例如在增值税的***影像中，包围字体的线框的颜色是黑色，每个条目的标题字体是红色，而每个条目所对应的具体内容是蓝色或者绿色。这样基于人眼对色彩的敏感度可以快速定位文本位置。本发明即通过此原理区分字体和背景。而且对于颜色的提取，本文利用HSV颜色通道，HSV颜色模型它重新影射了RGB模型，从而能够视觉上比RGB模型更具有视觉直观性。

传统的方法一般利用图像的亮度、边缘或者纹理信息，对光照、亮度变化很敏感。区别于传统的票据文字识别根据灰度的特性，本发明充分利用彩色影像的颜色信息，能够很好的去除光照、亮度变化的影响。除此之外，相比较传统的单纯利用颜色信息来定位文本的方法，本文结合了同段落同属性的文字的颜色、位置和几何特性，能够区分标题、引导词和内容信息，将文字更好的进行分段，为文字识别、存储和大数据的处理提供了强有力的基础

在本说明书的描述中，参考术语“一个实施例”、“示例”、“具体示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本说明书的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本发明的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种基于颜色距离的彩色影像字段定位方法，其特征在于：

包括以下步骤：

步骤1：预处理图像，对拍摄影像倾斜的情况进行影像校正；

步骤3：提取影像中可能的连通域，进行非字符结构过滤；

2.根据权利要求1所述的一种基于颜色距离的彩色影像字段定位方法，其特征在于：所述的步骤1包括以下步骤：

(a)根据HOUGH检测直线的方法，找出图像中的所有直线；

(b)在所查找的直线中找到小于图像尺寸的最大直线；

(c)计算最大直线与水平方向的角度V；

(d)如果角度V不是90度的倍数，则对图像旋转V角度。

3.根据权利要求1所述的一种基于颜色距离的彩色影像字段定位方法，其特征在于：所述的步骤2包括以下步骤：

(a)HSV颜色模型重新影射了RGB模型，从而能够视觉上比RGB模型更具有视觉直观性，因此本文将图像映射到HSV颜色空间，并提取HSV中三个通道的颜色分量，通过HSV三个颜色分量的范围的不同，将图像中的像素点归类不同的颜色；

(b)对图像进行颜色过滤，去除背景色和非文本色的像素点；

4.根据权利要求1所述的一种基于颜色距离的彩色影像字段定位方法，其特征在于：所述的步骤3包括以下步骤：

(b)根据彩色影像中单个文字以及其文字中包含的不同结构的尺寸特性，设置最小值M1，和最大值M2；将连通域包含的像素点小于M1或者连通域包含的像素点大于M2的连通域去除。

5.根据权利要求1所述的一种基于颜色距离的彩色影像字段定位方法，其特征在于：所述的步骤4包括以下步骤：

(a)对于提取的连通域，设置一个较小的阈值N1，计算其邻域的连通域与其的距离位置；

6.根据权利要求1所述的一种基于颜色距离的彩色影像字段定位方法，其特征在于：所述的步骤5包括以下步骤：

(a)对于图像中圈定出的单个字体的矩形框，计算其左右矩形框与其之间的颜色距离，以及位置距离，其中两个矩形框之间的颜色距离在HSV颜色通道进行，HSV(hue,saturation,value)颜色空间的模型对应于圆柱坐标系中的一个圆锥形子集，圆锥的顶面对应于V＝1；它包含RGB模型中的R＝1，G＝1，B＝1三个面，所代表的颜色较亮；色彩H由绕V轴的旋转角给定；在斜边长R，底面圆半径为r，高为h的HSV圆锥体内，以地面圆心为原点，H＝0为x轴正方向建立坐标轴；那么色值是(H,S,V)的点的三维坐标(x,y,z)是

(b)设置颜色距离阈值N2和位置距离阈值N3，将颜色距离小于N2、位置距离小于N3，且高度相近的两个矩形框融合，定位字段。