WO2017162069A1

WO2017162069A1 - 一种图像文本的识别方法和装置

Info

Publication number: WO2017162069A1
Application number: PCT/CN2017/076548
Authority: WO
Inventors: 毛旭东; 施兴; 褚崴; 程孟力; 周文猛
Original assignee: 阿里巴巴集团控股有限公司
Priority date: 2016-03-25
Filing date: 2017-03-14
Publication date: 2017-09-28
Also published as: TWI774659B; TW201740316A; CN107229932A; CN107229932B

Abstract

一种图像文本的识别方法和装置，所述方法包括：获取待识别的图像，所述图像包括多个像素点（101）；根据所述多个像素点，确定所述图像的第一文本区域（102）；按照预设规则，从所述第一文本区域中提取出第二文本区域（103）；对所述第二文本区域进行识别，能够有效地去除待识别的图像中的噪声，大大提高了识别的准确率。

Description

一种图像文本的识别方法和装置

本申请要求2016年03月25日递交的申请号为201610179262.8、发明名称为“一种图像文本的识别方法和装置”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及文字识别技术领域，特别是涉及一种图像文本的识别方法和一种图像文本的识别装置。

背景技术

模式识别技术的研究目的是根据人类大脑的识别机理，通过计算机模拟，构造出能代替人类完成分类和辨识的任务，进而进行自动信息处理的机器***。其中，汉字识别便是模式识别应用的一个重要领域，最典型的就是身份证识别，自动识别姓名、身份证号码、地址、性别等信息。

传统的汉字识别方法主要是通过对图像进行预处理，比如灰度化、降噪等，并基于传统的图像特征抽取，然后再采用支持向量机SVM、神经网络等分类器训练汉字识别模型来进行的。传统的汉字识别通常基于人工经验提取图像特征，不具备一定的噪声抗干扰能力。因此，当噪声干扰较大时，会导致汉字的识别率较低。近年来，随着卷积神经网络CNN在计算机视觉领域取得巨大成功，CNN也被应用于汉字识别。CNN的识别效果，相比于传统方法，准确率有了很大的提高。

但是，对于汉字识别，最大的问题在于汉字的多样性，特别是形近字较多，传统的汉字识别方法，对于形近字几乎无能为力。很多汉字加一个偏旁就是另外一个字，比如“可”与“何”。如果输入的图片是“可”，但是在图片的左侧又存在一些小噪声，由于CNN对位置信息还是比较敏感，特别是在输入数据不够充分的情况下，现有的利用CNN识别汉字的方法会很难区分输入图片的到底是“可”还是“何”。因此，现有的利用CNN进行汉字识别的方法仍然不能很好的解决形近字的识别的问题。

发明内容

鉴于上述问题，提出了本申请实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种图像文本的识别方法和相应的一种图像文本的识别装置。

为了解决上述问题，本申请公开了一种图像文本的识别方法，包括：

获取待识别的图像，所述图像包括多个像素点；

根据所述多个像素点，确定所述图像的第一文本区域；

按照预设规则，从所述第一文本区域中提取出第二文本区域；

对所述第二文本区域进行识别。

可选地，所述根据所述多个像素点，确定所述图像的第一文本区域的步骤包括：

针对所述多个像素点，计算所述图像的直方图，所述直方图具有对应的多个特征值；

根据所述多个特征值，对所述直方图进行对比度归一化处理，获得对比度归一化处理结果；

对所述对比度归一化处理结果进行二值化处理，获得所述图像的第一文本区域。

可选地，所述根据所述多个特征值，对所述直方图进行对比度归一化处理，获得对比度归一化处理结果的步骤包括：

按比例调整所述多个特征值，使调整后的多个特征值的和为特定数值；

采用累积分布函数对所述调整后的多个特征值进行变换，获得变换后的多个特征值；

分别将所述变换后的多个特征值映射到所述多个像素点，获得所述多个像素点的映射像素值。

可选地，所述对所述对比度归一化处理结果进行二值化处理，获得所述图像的第一文本区域的步骤包括：

分别判断所述图像中的多个像素点的映射像素值是否大于第一预设阈值；

若是，则将所述像素点标记为第一背景区域像素点；

若否，则将所述像素点标记为第一文本区域像素点；

从所述图像中提取出包含全部第一文本区域像素点的面积最小的外接矩形。

可选地，在所述按照预设规则，从所述第一文本区域中提取出第二文本区域的步骤前，还包括：

对所述第一文本区域进行二值化处理。

可选地，所述对所述第一文本区域进行二值化处理的步骤包括：

分别判断所述第一文本区域中的多个像素点的映射像素值是否大于第二预设阈值；

若是，则将所述像素点标记为第二背景区域像素点；

若否，则将所述像素点标记为第二文本区域像素点。

可选地，所述按照预设规则，从所述第一文本区域中提取出第二文本区域的步骤包括：

确定所述第一文本区域中的多个连通区域；

分别判断所述多个连通区域是否满足预设规则；

若是，则提取出相对应的多个连通区域作为第二文本区域。

可选地，所述确定所述第一文本区域中的多个连通区域的步骤包括：

遍历所述第二文本区域像素点；

将当前第二文本区域像素点与相邻的第二文本区域像素点相连，获得以第二文本区域像素点为顶点的多边形；

将包含所述多边形的面积最小的外接矩形确定为连通区域。

可选地，所述对所述第二文本区域进行识别的步骤包括：

采用卷积神经网络CNN汉字识别模型对所述第二文本区域进行识别。

为了解决上述问题，本申请公开了一种图像文本的识别装置，包括：

获取模块，用于获取待识别的图像，所述图像包括多个像素点；

确定模块，用于根据所述多个像素点，确定所述图像的第一文本区域；

提取模块，用于按照预设规则，从所述第一文本区域中提取出第二文本区域；

识别模块，用于对所述第二文本区域进行识别。

可选地，所述确定模块包括：

直方图计算子模块，用于针对所述多个像素点，计算所述图像的直方图，所述直方图具有对应的多个特征值；

对比度归一化处理子模块，用于根据所述多个特征值，对所述直方图进行对比度归一化处理，获得对比度归一化处理结果；

第一文本区域获得子模块，用于对所述对比度归一化处理结果进行二值化处理，获得所述图像的第一文本区域。

可选地，所述对比度归一化处理子模块包括：

特征值调整单元，用于按比例调整所述多个特征值，使调整后的多个特征值的和为特定数值；

特征值变换单元，用于采用累积分布函数对所述调整后的多个特征值进行变换，获得变换后的多个特征值；

特征值映射单元，用于分别将所述变换后的多个特征值映射到所述多个像素点，获得所述多个像素点的映射像素值。

可选地，所述第一文本区域获得子模块包括：

第一预设阈值判断单元，用于分别判断所述图像中的多个像素点的映射像素值是否大于第一预设阈值；

第一背景区域像素点标记单元，用于在所述像素点的映射像素值大于第一预设阈值时，将所述像素点标记为第一背景区域像素点；

第一文本区域像素点标记单元，用于在所述像素点的映射像素值不大于第一预设阈值时，将所述像素点标记为第一文本区域像素点；

第一文本区域提取单元，用于从所述图像中提取出包含全部第一文本区域像素点的面积最小的外接矩形。

可选地，所述装置还包括：

二值化处理模块，用于对所述第一文本区域进行二值化处理。

可选地，所述二值化处理模块包括：

第二预设阈值判断子模块，用于分别判断所述第一文本区域中的多个像素点的映射像素值是否大于第二预设阈值；

第二背景区域像素点标记子模块，用于在所述像素点的映射像素值大于第二预设阈值时，将所述像素点标记为第二背景区域像素点；

第二文本区域像素点标记子模块，用于在所述像素点的映射像素值不大于第二预设阈值时，将将所述像素点标记为第二文本区域像素点。

可选地，所述提取模块包括：

连通区域确定子模块，用于确定所述第一文本区域中的多个连通区域；

预设规则判断子模块，用于分别判断所述多个连通区域是否满足预设规则；

第二文本区域提取子模块，用于在所述多个连通区域满足预设规则时，提取出相对应的多个连通区域作为第二文本区域。

可选地，所述连通区域确定子模块包括：

第二文本区域像素点遍历单元，用于遍历所述第二文本区域像素点；

第二文本区域像素点连接单元，用于将当前第二文本区域像素点与相邻的第二文本区域像素点相连，获得以第二文本区域像素点为顶点的多边形；

连通区域确定单元，用于将包含所述多边形的面积最小的外接矩形确定为连通区域。

可选地，所述识别模块包括：

识别子模块，用于采用卷积神经网络CNN汉字识别模型对所述第二文本区域进行识别。

与背景技术相比，本申请实施例包括以下优点：

本申请实施例通过对待识别的图像进行对比度归一化处理以及二值化处理，从而提取出第一文本区域，然后在确定第一文本区域的连通区域基础上，获得第二文本区域，有效地去除了待识别的图像中的噪声，并通过对所述第二文本区域进行识别来实现对图像文本的识别，避免了噪声对图像文本识别的干扰，大大提高了识别的准确率。

其次，在本申请实施例中，对于在身份证、护照等字体单一、背景简单的文本识别场景中，通过对待识别图像进行空间归一化处理，能够将训练数据和测试数据在空间上尽可能的统一，使得形近字在空间归一化后，具有不同的表现特征，使得CNN汉字识别模型能够更准确的识别形近字。

附图说明

图1是本申请的一种图像文本的识别方法实施例一的步骤流程图；

图2是本申请的一种图像文本的识别方法实施例二的步骤流程图；

图3是本申请的一种图像文本的识别装置实施例的结构框图。

具体实施方式

为使本申请的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本申请作进一步详细的说明。

参照图1，示出了本申请的一种图像文本的识别方法实施例一的步骤流程图，具体可以包括如下步骤：

步骤101，获取待识别的图像；

在本申请实施例中，所述待识别的图像可以是各类证件图像，例如身份证、护照等。其中，所述图像包括有多个像素点，像素点是指把某一图像分割成若干个小方格，每个小方格便被称为一个像素点，由这些像素点排列组成的栅格被称为“光栅”，计算机可以通过表示这些像素点的位置、颜色、亮度等信息，从而表示出整幅图像。

通常，各类证件中的文本都有别于其他自然场景的汉字识别。证件中的文本的特点是：1)文本都是印刷体；2)文本都是单一(或种类不多)的字体，例如都是宋体字，或都是宋体字或楷体字；3)图像背景简单。

步骤102，根据所述多个像素点，确定所述图像的第一文本区域；

通常，为了对图像中的文本进行识别，可以首先根据所述多个像素点，排除一些背景区域，以确定出所述图像的第一文本区域。

在本申请实施例中，所述第一文本区域可以是经过初步筛选而确定的包括文本信息的区域，从而有助于进一步地有针对性地对相应区域的文本进行识别。

在本申请的一种优选实施例中，所述根据所述多个像素点，确定所述图像的第一文本区域的步骤具体可以包括如下子步骤：

子步骤1021，针对所述多个像素点，计算所述图像的直方图；

在具体实现中，当获得待识别的图像后，可以首先针对图像中的多个像素点，计算出所述图像的直方图。直方图是一种用来描述图像灰度值的图，可以把一定范围内的图像数据显示出来，通过查看图像的直方图，可以了解图像的曝光情况，或者画面是否柔和等。所述直方图可以具有对应的多个特征值，即表示不同亮度的RGB数值。

一般地，直方图的横轴可以用来表示图像亮度的变化，纵轴用来表示像素的多少。直方图的横轴从左到右表示亮度越来越高，从0到255，其中，0表示黑，255表示白。如果某个地方的峰越高，则说明在这个亮度下的像素越多。

子步骤1022，根据所述多个特征值，对所述直方图进行对比度归一化处理，获得对比度归一化处理结果；

在具体实现中，对所述直方图进行对比度归一化处理可以首先按比例对直方图的多个特征值进行调整，使调整后的多个特征值的和为255。例如，若经过求和，得到所述直方图的多个特征值的和为765，则可以将每个特征值乘以1/3，从而使得调整后的多个特征值的和为255(765*1/3＝255)；如果所述脂肪图的多个特征值的和小于255，则可以按比例扩大每个特征值，使调整后的多个特征值的和满足上述要求。

然后，可以采用累积分布函数对所述调整后的多个特征值进行变换，得到变换后的多个特征值。累积分布函数是概率密度函数的积分，能够完整描述一个实数随机变量X的概率分布情况。

进而，可以将获得的变换后的多个特征值作为映射表，将变换后的多个特征值分别映射到所述图像的多个像素点，以变换后的特征值作为所述多个像素点的映射像素值，从而替换所述像素点原有的像素值。

子步骤1023，对所述对比度归一化处理结果进行二值化处理，获得所述图像的第一文本区域。

在本申请实施例中，可以首先遍历所述多个像素点的映射像素值，分别判断其映射像素值是否大于第一预设阈值，若是，则可以将所述像素点标记为第一背景区域像素点；若否，则可以将所述像素点标记为第一文本区域像素点；然后从所述图像中提取出包含全部第一文本区域像素点的面积最小的外接矩形，所述外接矩形即为所述图像的第一文本区域。

在具体实现中，所述第一预设阈值可以通过大津算法(OTSU算法)计算得到。大津算法是一种对图像进行二值化的高效算法，使用聚类的思想，通过把图像的灰度数按灰度级分成两个部分，使得两个部分之间的灰度值差异最大，每个部分之间的灰度差异最小，然后通过方差的计算来寻找一个合适的灰度级别来划分。因此，可以在二值化的时候，采用大津算法来自动选取阈值进行二值化。大津算法被认为是图像分割中阈值选取的最佳算法，计算简单，不受图像亮度和对比度的影响。

步骤103，按照预设规则，从所述第一文本区域中提取出第二文本区域；

在本申请实施例中，当从所述图像中提取出第一文本区域后，可以继续对所述第一文本区域进行筛选，以进一步排除背景区域，得到包含文本信息的第二文本区域。

在本申请的一种优选实施例中，在所述按照预设规则，从所述第一文本区域中提取出第二文本区域的步骤前，还可以包括如下：

对所述第一文本区域进行二值化处理。

在具体实现中，可以继续按照步骤102中的方法对第一文本区域进行第二次二值化处理，从而标记出第二文本区域像素点，然后基于第二文本区域像素点，提取第二文本区域。

在本申请的一种优选实施例中，所述按照预设规则，从所述第一文本区域中提取出第二文本区域的步骤具体可以包括如下子步骤：

子步骤1031，确定所述第一文本区域中的多个连通区域；

子步骤1032，分别判断所述多个连通区域是否满足预设规则，若是，则提取出相对应的多个连通区域作为第二文本区域。

在具体实现中，可以基于第二次二值化处理标记的第二文本区域像素点，采用连通图算法确定出所述第一文本区域中的多个连通区域。具体地，如下伪代码是本申请实施例中采用的连通图算法的一种示例：

然后，可以分别对每个连通区域进行判断，删除不满足预设规则的连通区域，从而得到第二文本区域。

在本申请实施例中，所述不满足预设规则的连通区域可以包括面积太小的连通区域，以及离最大连通区域距离较大的连通区域。

步骤104，对所述第二文本区域进行识别。

通常，在对待识别的图像完成步骤102和步骤103的处理后，已基本达到去除噪声的目的，从而可以对第二文本区域进行识别，获得待识别的图像中的文本信息。

在本申请实施例中，通过对待识别的图像进行对比度归一化处理以及二值化处理，从而提取出第一文本区域，然后在确定第一文本区域的连通区域基础上，获得第二文本区域，有效地去除了待识别的图像中的噪声，并通过对所述第二文本区域进行识别来实现对图像文本的识别，避免了噪声对图像文本识别的干扰，大大提高了识别的准确率。

参照图2，示出了本申请的一种图像文本的识别方法实施例二的步骤流程图，具体可以包括如下步骤：

步骤201，获取待识别的图像；

在本申请实施例中，所述待识别的图像可以是各类证件图像，例如身份证、护照等。通常，各类证件图像中的文本都有别于其他自然场景的汉字识别。证件中的文本的特点是：1)文本都是印刷体；2)文本都是单一(或种类不多)的字体，例如都是宋体字，或都是宋体字或楷体字；3)图像背景简单。因此，基于空间归一化操作的图像文本识别可以应用于证件识别的场景中。

步骤202，针对所述多个像素点，计算所述图像的直方图；

每一张图像都包括有多个像素点，计算机可以通过表示这些像素点的位置、颜色、亮度等信息，从而表示出整幅图像。因此，在本申请实施例中，可以针对所述多个像素点，计算出所述图像的直方图。

步骤203，根据所述多个特征值，对所述直方图进行对比度归一化处理，获得对比度归一化处理结果；

在本申请的一种优选实施例中，所述根据所述多个特征值，对所述直方图进行对比度归一化处理，获得对比度归一化处理结果的步骤具体可以包括如下子步骤：

子步骤2031，按比例调整所述多个特征值，使调整后的多个特征值的和为特定数值；

子步骤2032，采用累积分布函数对所述调整后的多个特征值进行变换，获得变换后的多个特征值；

子步骤2033，分别将所述变换后的多个特征值映射到所述多个像素点，获得所述多个像素点的映射像素值。

然后，可以采用累积分布函数对所述调整后的多个特征值进行变换，得到变换后的多个特征值。累积分布函数是概率密度函数的积分，能够完整描述一个实数随机变量X的概率分布情况。即，第j个特征值变换后的对应的值应该为在其前面的全部特征值之和。

步骤204，对所述对比度归一化处理结果进行二值化处理，获得所述图像的第一文本区域；

在具体实现中，可以采用大津算法(OTSU算法)计算出第一预设阈值，通过将每个像素点的映射像素值与第一预设阈值进行比较，从而获得所述图像的第一文本区域。

在本申请的一种优选实施例中，所述对所述对比度归一化处理结果进行二值化处理，获得所述图像的第一文本区域的步骤具体可以包括如下子步骤：

子步骤2041，分别判断所述图像中的多个像素点的映射像素值是否大于第一预设阈值；

子步骤2042，若是，则将所述像素点标记为第一背景区域像素点；

子步骤2043，若否，则将所述像素点标记为第一文本区域像素点；

子步骤2044，从所述图像中提取出包含全部第一文本区域像素点的面积最小的外接矩形。

在具体实现中，可以分别将每个像素点的映射像素值与第一预设阈值进行比较，若所述映射像素值大于第一预设阈值，则可以标记所述像素点为第一背景区域像素点，例如标记dst(x,y)＝1，若所述映射像素值不大于第一预设阈值，则可以标记所述像素点为第一文本区域像素点，例如标记dst(x,y)＝0。

然后，在所述图像中找到一个面积最小的并且能将所有的dst(x,y)＝0的像素点包含在内的矩形。所述矩形内的图像就是一阶空间归一化的结果，即第一文本区域。

步骤205，对所述第一文本区域进行二值化处理；

在本申请实施例中，对第一文本区域进行二值化处理的过程与步骤204相同，即所述对所述第一文本区域进行二值化处理的步骤具体可以包括如下子步骤：

子步骤2051，分别判断所述第一文本区域中的多个像素点的映射像素值是否大于第二预设阈值；

子步骤2052，若是，则将所述像素点标记为第二背景区域像素点；

子步骤2053，若否，则将所述像素点标记为第二文本区域像素点。

需要注意的是，在对第一文本区域进行第二次二值化处理时，需要重新计算预设阈值，即，需要通过大津算法(OTSU算法)计算出第二预设阈值，通过将每个像素点的映射像素值与第二预设阈值进行比较，从而标记出第二背景区域像素点以及第二文本区域像素点。例如若所述映射像素值大于第二预设阈值，则可以标记所述像素点为第二背景区域像素点，标记dst(x,y)＝1，若所述映射像素值不大于第二预设阈值，则可以标记所述像素点为第二文本区域像素点，标记dst(x,y)＝0。

步骤206，确定所述第一文本区域中的多个连通区域；

在本申请实施例中，可以基于第二次二值化处理标记的第二文本区域像素点，采用连通图算法确定出所述第一文本区域中的多个连通区域。

在本申请的一种优选实施例中，所述确定所述第一文本区域中的多个连通区域的步骤具体可以包括如下子步骤：

子步骤2061，遍历所述第二文本区域像素点；

子步骤2062，将当前第二文本区域像素点与相邻的第二文本区域像素点相连，获得以第二文本区域像素点为顶点的多边形；

子步骤2063，将包含所述多边形的面积最小的外接矩形确定为连通区域。

在具体实现中，可以遍历所述第二文本区域像素点，即在步骤205中二值化处理时，被标记为dst(x,y)＝0的像素点，将当前第二文本区域像素点与相邻的第二文本区域像素点相连，得到一个全部以第二文本区域像素点为顶点的多边形，然后，在所述第一文本区域中找到一个面积最小的并且能将所述多边形包含在内的矩形。所述矩形内的图像就是一个连通区域。

步骤207，分别判断所述多个连通区域是否满足预设规则；

在本申请实施例中，在确定出全部的连通区域后，可以逐个判断所述连通区域是否满足预设规则，如果某一连通区域不满足预设规则，则可以将该连通区域删除，从而最终得到由剩余的多个满足预设规则的连通区域组成的第二文本区域。

在具体实现中，所述不满足预设规则的连通区域可以包括面积太小的连通区域，以及离最大连通区域距离较大的连通区域。例如，面积小于2*2像素的连通区域，以及，离最大连通区域距离大于0.06的连通区域。

步骤208，提取出相对应的多个连通区域作为第二文本区域；

步骤209，采用卷积神经网络CNN汉字识别模型对所述第二文本区域进行识别。

在本申请实施例中，当获得第二文本区域图像后，可以采用卷积神经网络CNN汉字识别模型对所述第二文本区域进行识别。卷积神经网络(Convolutional Neural Network，CNN)是一种前馈神经网络，它的人工神经元可以响应一部分覆盖范围内的周围单元，对于大型图像处理有着出色的表现。

在具体实现中，可以利用上述步骤201至步骤208所述的方法对训练数据进行空间归一化操作，并用于CNN汉字识别模型的训练，从而得到卷积神经网络CNN汉字识别模型。然后在图像文本识别任务中，给定一张待识别的图像，利用训练好的CNN汉字识别模型进行识别。

在本申请实施例中，对于在身份证、护照等字体单一、背景简单的文本识别场景中，通过对待识别图像进行空间归一化处理，能够将训练数据和测试数据在空间上尽可能的统一，使得形近字在空间归一化后，具有不同的表现特征，使得CNN汉字识别模型能够更准确的识别形近字。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请实施例并不受所描述的动作顺序的限制，因为依据本申请实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本申请实施例所必须的。

参照图3，示出了本申请的一种图像文本的识别装置实施例的结构框图，具体可以包括如下模块：

获取模块301，用于获取待识别的图像，所述图像包括多个像素点；

确定模块302，用于根据所述多个像素点，确定所述图像的第一文本区域；

提取模块303，用于按照预设规则，从所述第一文本区域中提取出第二文本区域；

识别模块304，用于对所述第二文本区域进行识别。

在本申请实施例中，所述确定模块302具体可以包括如下子模块：

直方图计算子模块3021，用于针对所述多个像素点，计算所述图像的直方图，所述直方图具有对应的多个特征值；

对比度归一化处理子模块3022，用于根据所述多个特征值，对所述直方图进行对比度归一化处理，获得对比度归一化处理结果；

第一文本区域获得子模块3023，用于对所述对比度归一化处理结果进行二值化处理，获得所述图像的第一文本区域。

在本申请实施例中，所述对比度归一化处理子模块3022具体可以包括如下单元：

特征值调整单元221，用于按比例调整所述多个特征值，使调整后的多个特征值的和为特定数值；

特征值变换单元222，用于采用累积分布函数对所述调整后的多个特征值进行变换，获得变换后的多个特征值；

特征值映射单元223，用于分别将所述变换后的多个特征值映射到所述多个像素点，获得所述多个像素点的映射像素值。

在本申请实施例中，所述第一文本区域获得子模块3023具体可以包括如下单元：

第一预设阈值判断单元231，用于分别判断所述图像中的多个像素点的映射像素值是否大于第一预设阈值；

第一背景区域像素点标记单元232，用于在所述像素点的映射像素值大于第一预设阈值时，将所述像素点标记为第一背景区域像素点；

第一文本区域像素点标记单元233，用于在所述像素点的映射像素值不大于第一预设阈值时，将所述像素点标记为第一文本区域像素点；

第一文本区域提取单元234，用于从所述图像中提取出包含全部第一文本区域像素点的面积最小的外接矩形。

在本申请实施例中，所述装置还可以包括如下模块：

二值化处理模块305，用于对所述第一文本区域进行二值化处理。

在本申请实施例中，所述二值化处理模块305具体可以包括如下子模块：

第二预设阈值判断子模块3051，用于分别判断所述第一文本区域中的多个像素点的映射像素值是否大于第二预设阈值；

第二背景区域像素点标记子模块3052，用于在所述像素点的映射像素值大于第二预设阈值时，将所述像素点标记为第二背景区域像素点；

第二文本区域像素点标记子模块3053，用于在所述像素点的映射像素值不大于第二预设阈值时，将将所述像素点标记为第二文本区域像素点。

在本申请实施例中，所述提取模块303具体可以包括如下子模块：

连通区域确定子模块3031，用于确定所述第一文本区域中的多个连通区域；

预设规则判断子模块3032，用于分别判断所述多个连通区域是否满足预设规则；

第二文本区域提取子模块3033，用于在所述多个连通区域满足预设规则时，提取出相对应的多个连通区域作为第二文本区域。

在本申请实施例中，所述连通区域确定子模块3031具体可以包括如下单元：

第二文本区域像素点遍历单元311，用于遍历所述第二文本区域像素点；

第二文本区域像素点连接单元312，用于将当前第二文本区域像素点与相邻的第二文本区域像素点相连，获得以第二文本区域像素点为顶点的多边形；

连通区域确定单元313，用于将包含所述多边形的面积最小的外接矩形确定为连通区域。

在本申请实施例中，所述识别模块304具体可以包括如下子模块：

识别子模块3041，用于采用卷积神经网络CNN汉字识别模型对所述第二文本区域进行识别。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本申请实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本申请实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

在一个典型的配置中，所述计算机设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括非持续性的电脑可读媒体(transitory media)，如调制的数据信号和载波。

本申请实施例是参照根据本申请实施例的方法、终端设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本申请所提供的一种图像文本的识别方法和一种图像文本的识别装置，进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

一种图像文本的识别方法，其特征在于，包括：

获取待识别的图像，所述图像包括多个像素点；

根据所述多个像素点，确定所述图像的第一文本区域；

按照预设规则，从所述第一文本区域中提取出第二文本区域；

对所述第二文本区域进行识别。
根据权利要求1所述的方法，其特征在于，所述根据所述多个像素点，确定所述图像的第一文本区域的步骤包括：

针对所述多个像素点，计算所述图像的直方图，所述直方图具有对应的多个特征值；

根据所述多个特征值，对所述直方图进行对比度归一化处理，获得对比度归一化处理结果；

对所述对比度归一化处理结果进行二值化处理，获得所述图像的第一文本区域。
根据权利要求2所述的方法，其特征在于，所述根据所述多个特征值，对所述直方图进行对比度归一化处理，获得对比度归一化处理结果的步骤包括：

按比例调整所述多个特征值，使调整后的多个特征值的和为特定数值；

采用累积分布函数对所述调整后的多个特征值进行变换，获得变换后的多个特征值；

分别将所述变换后的多个特征值映射到所述多个像素点，获得所述多个像素点的映射像素值。
根据权利要求3所述的方法，其特征在于，所述对所述对比度归一化处理结果进行二值化处理，获得所述图像的第一文本区域的步骤包括：

分别判断所述图像中的多个像素点的映射像素值是否大于第一预设阈值；

若是，则将所述像素点标记为第一背景区域像素点；

若否，则将所述像素点标记为第一文本区域像素点；

从所述图像中提取出包含全部第一文本区域像素点的面积最小的外接矩形。
根据权利要求1-4任一所述的方法，其特征在于，在所述按照预设规则，从所述第一文本区域中提取出第二文本区域的步骤前，还包括：

对所述第一文本区域进行二值化处理。
根据权利要求5所述的方法，其特征在于，所述对所述第一文本区域进行二值化处理的步骤包括：

分别判断所述第一文本区域中的多个像素点的映射像素值是否大于第二预设阈值；

若是，则将所述像素点标记为第二背景区域像素点；

若否，则将所述像素点标记为第二文本区域像素点。
根据权利要求6所述的方法，其特征在于，所述按照预设规则，从所述第一文本区域中提取出第二文本区域的步骤包括：

确定所述第一文本区域中的多个连通区域；

分别判断所述多个连通区域是否满足预设规则；

若是，则提取出相对应的多个连通区域作为第二文本区域。
根据权利要求7所述的方法，其特征在于，所述确定所述第一文本区域中的多个连通区域的步骤包括：

遍历所述第二文本区域像素点；

将当前第二文本区域像素点与相邻的第二文本区域像素点相连，获得以第二文本区域像素点为顶点的多边形；

将包含所述多边形的面积最小的外接矩形确定为连通区域。
根据权利要求1或2或3或4或6或7或8所述的方法，其特征在于，所述对所述第二文本区域进行识别的步骤包括：

采用卷积神经网络CNN汉字识别模型对所述第二文本区域进行识别。
一种图像文本的识别装置，其特征在于，包括：

获取模块，用于获取待识别的图像，所述图像包括多个像素点；

确定模块，用于根据所述多个像素点，确定所述图像的第一文本区域；

提取模块，用于按照预设规则，从所述第一文本区域中提取出第二文本区域；

识别模块，用于对所述第二文本区域进行识别。
根据权利要求10所述的装置，其特征在于，所述确定模块包括：

直方图计算子模块，用于针对所述多个像素点，计算所述图像的直方图，所述直方图具有对应的多个特征值；

对比度归一化处理子模块，用于根据所述多个特征值，对所述直方图进行对比度归一化处理，获得对比度归一化处理结果；

第一文本区域获得子模块，用于对所述对比度归一化处理结果进行二值化处理，获得所述图像的第一文本区域。
根据权利要求11所述的装置，其特征在于，所述对比度归一化处理子模块包括：

特征值调整单元，用于按比例调整所述多个特征值，使调整后的多个特征值的和为特定数值；

特征值变换单元，用于采用累积分布函数对所述调整后的多个特征值进行变换，获得变换后的多个特征值；

特征值映射单元，用于分别将所述变换后的多个特征值映射到所述多个像素点，获得所述多个像素点的映射像素值。
根据权利要求12所述的装置，其特征在于，所述第一文本区域获得子模块包括：

第一预设阈值判断单元，用于分别判断所述图像中的多个像素点的映射像素值是否大于第一预设阈值；

第一背景区域像素点标记单元，用于在所述像素点的映射像素值大于第一预设阈值时，将所述像素点标记为第一背景区域像素点；

第一文本区域像素点标记单元，用于在所述像素点的映射像素值不大于第一预设阈值时，将所述像素点标记为第一文本区域像素点；

第一文本区域提取单元，用于从所述图像中提取出包含全部第一文本区域像素点的面积最小的外接矩形。
根据权利要求10-13任一所述的装置，其特征在于，还包括：

二值化处理模块，用于对所述第一文本区域进行二值化处理。
根据权利要求14所述的装置，其特征在于，所述二值化处理模块包括：

第二预设阈值判断子模块，用于分别判断所述第一文本区域中的多个像素点的映射像素值是否大于第二预设阈值；

第二背景区域像素点标记子模块，用于在所述像素点的映射像素值大于第二预设阈值时，将所述像素点标记为第二背景区域像素点；

第二文本区域像素点标记子模块，用于在所述像素点的映射像素值不大于第二预设阈值时，将将所述像素点标记为第二文本区域像素点。
根据权利要求15所述的装置，其特征在于，所述提取模块包括：

连通区域确定子模块，用于确定所述第一文本区域中的多个连通区域；

预设规则判断子模块，用于分别判断所述多个连通区域是否满足预设规则；

第二文本区域提取子模块，用于在所述多个连通区域满足预设规则时，提取出相对应的多个连通区域作为第二文本区域。
根据权利要求16所述的装置，其特征在于，所述连通区域确定子模块包括：

第二文本区域像素点遍历单元，用于遍历所述第二文本区域像素点；

第二文本区域像素点连接单元，用于将当前第二文本区域像素点与相邻的第二文本区域像素点相连，获得以第二文本区域像素点为顶点的多边形；

连通区域确定单元，用于将包含所述多边形的面积最小的外接矩形确定为连通区域。
根据权利要求10或11或12或13或15或16或17所述的装置，其特征在于，所述识别模块包括：

识别子模块，用于采用卷积神经网络CNN汉字识别模型对所述第二文本区域进行识别。