CN105631486A

CN105631486A - 图像文字识别方法及装置

Info

Publication number: CN105631486A
Application number: CN201410581671.1A
Authority: CN
Inventors: 杨杰; 颜业钢
Original assignee: Shenzhen TCL Digital Technology Co Ltd
Current assignee: Shenzhen TCL Digital Technology Co Ltd
Priority date: 2014-10-27
Filing date: 2014-10-27
Publication date: 2016-06-01
Also published as: EP3214577A1; WO2016065701A1; EP3214577A4

Abstract

本发明公开了一种图像文字识别方法，包括以下步骤：将图像进行二值化处理，获取图像对应的矩阵；分析图像的矩阵行间纹理特征，获取图像的文字矩阵参数；基于所述文字矩阵参数对图像进行切分，获取图像的文字子块；对所述文字子块进行图像分割以获取所述文字子块中的文字信息，并对所述文字信息进行识别。本发明还公开了一种图像文字识别装置。本发明能根据图像中文字的特性进行自适应调节，提高了切分获取文字子块的准确性，及对图像中文字识别的精度。

Description

图像文字识别方法及装置

技术领域

本发明涉及图像识别技术领域，尤其涉及一种图像文字识别方法及装置。

背景技术

目前，对图像中的文字一般只是通过简单的图像分割处理来进行识别，无法根据图像中的文字特征来进行自适应调节，导致现有的图像文字识别方法精度较低，无法满足实际应用的需求。

发明内容

本发明的主要目的在于解决现有的图像文字识别方法对文字的识别精度较低的技术问题。

为实现上述目的，本发明提供的一种图像文字识别方法，所述方法包括以下步骤：

将图像进行二值化处理，获取图像对应的矩阵；

分析图像的矩阵行间纹理特征，获取图像的文字矩阵参数；

基于所述文字矩阵参数对图像进行切分，获取图像的文字子块；

对所述文字子块进行图像分割以获取所述文字子块中的文字信息，并对所述文字信息进行识别。

优选地，所述分析图像的矩阵行间纹理特征，获取图像的文字矩阵参数的步骤包括：

将图像的矩阵坐标中的字体用第一像素值表示，背景用第二像素值表示，统计图像的矩阵坐标中每行第二像素值的个数，获取一数组；

获取所述数组中数值大于预设基准值的行的行号，将所述数组中数值大于预设基准值的行中符合预设条件的行组合之间的行号距离作为一个行宽参数，统计所述数组中的若干行宽参数，对若干行宽参数取平均值，获取所述数组的行宽参数；

根据获取的所述数组的行宽参数获取所述数组的列宽参数，并根据所述行宽参数和列宽参数获取所述数组的字体大小参数。

优选地，所述将所述数组中数值大于预设基准值的行中符合预设条件的行组合之间的行号距离作为一个行宽参数的步骤具体为：

将所述数组中至少连续两次大于预设基准值的行组合与下一至少连续两次大于预设基准值的行组合之间的行号距离作为一个行宽参数。

优选地，所述对所述文字子块进行图像分割以获取所述文字子块中的文字信息，并对所述文字信息进行识别的步骤具体为：

基于预设的聚类算法对切分后的文字子块进行图像分割处理，获取所述文字子块中的文字信息，并根据所述文字信息在预置的***文字库中进行比对，根据比对结果对图像中的文字进行识别。

优选地，所述分析图像的矩阵行间纹理特征，获取图像的文字矩阵参数的步骤之前还包括：

利用矩阵实验室中的图像配准函数在图像及预设的基准图像中选定若干对匹配点，并根据所述若干对匹配点对图像进行配准处理，获取图像配准参数；

基于所述图像配准参数对图像对应的矩阵中的任意坐标值进行变换处理，获取变换后的图像矩阵坐标。

此外，为实现上述目的，本发明还提供一种图像文字识别装置，所述图像文字识别装置包括：

二值化模块，用于将图像进行二值化处理，获取图像对应的矩阵；

分析模块，用于分析图像的矩阵行间纹理特征，获取图像的文字矩阵参数；

切分模块，用于基于所述文字矩阵参数对图像进行切分，获取图像的文字子块；

识别模块，用于对所述文字子块进行图像分割以获取所述文字子块中的文字信息，并对所述文字信息进行识别。

优选地，所述分析模块包括：

数组获取单元，用于将图像的矩阵坐标中的字体用第一像素值表示，背景用第二像素值表示，统计图像的矩阵坐标中每行第二像素值的个数，获取一数组；

行宽参数获取单元，用于获取所述数组中数值大于预设基准值的行的行号，将所述数组中数值大于预设基准值的行中符合预设条件的行组合之间的行号距离作为一个行宽参数，统计所述数组中的若干行宽参数，对若干行宽参数取平均值，获取所述数组的行宽参数；

字体大小参数获取单元，用于根据获取的所述数组的行宽参数获取所述数组的列宽参数，并根据所述行宽参数和列宽参数获取所述数组的字体大小参数。

优选地，所述行宽参数获取单元还用于：

优选地，所述识别模块具体用于：

优选地，所述图像文字识别装置还包括：

配准模块，用于利用矩阵实验室中的图像配准函数在图像及预设的基准图像中选定若干对匹配点，并根据所述若干对匹配点对图像进行配准处理，获取图像配准参数；基于所述图像配准参数对图像对应的矩阵中的任意坐标值进行变换处理，获取变换后的图像矩阵坐标。

本发明提出的一种图像文字识别方法及装置，通过对待识别图像的矩阵行间纹理特征进行分析，估算出图像中文字的相关矩阵参数，再基于文字的相关矩阵参数对图像切分获取文字子块，并对文字子块进行识别，由于是通过估算出的文字的相关矩阵参数来进行切分、识别，能根据图像中文字的特性进行自适应调节，提高了切分获取文字子块的准确性，及对图像中文字识别的精度。

附图说明

图1为本发明图像文字识别方法第一实施例的流程示意图；

图2为图1中步骤S20的细化流程示意图；

图3为本发明图像文字识别方法第二实施例的流程示意图；

图4为本发明图像文字识别装置第一实施例的功能模块示意图；

图5为图4中分析模块02的细化功能模块示意图；

图6为本发明图像文字识别装置第二实施例的功能模块示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明提供一种图像文字识别方法。

参照图1，图1为本发明图像文字识别方法第一实施例的流程示意图。

在第一实施例中，该图像文字识别方法包括：

步骤S10，将图像进行二值化处理，获取图像对应的矩阵；

将待识别的图像进行二值化处理，获取其对应的一维的矩阵，以便后续对图像进行分析时直接对其矩阵进行分析。

步骤S20，分析图像的矩阵行间纹理特征，获取图像的文字矩阵参数；

利用图像的矩阵行间纹理特征来进行分析，估算出图像中文字的特征参数，如可体现图像中文字特性的行宽、列宽、文字大小等文字矩阵参数，这样，即可根据不同图像的矩阵获取其中相应的文字矩阵参数，能根据不同图像中文字的不同特性自适应的获取其对应的文字矩阵参数。本实施例中，待识别的图像可以是jpg、bmp、png等图像格式，在此不作限定。

步骤S30，基于所述文字矩阵参数对图像进行切分，获取图像的文字子块；

获取到图像的文字矩阵参数后，根据该文字矩阵参数对图像进行切分，将图像切分为若干文字子块，由于是根据能体现图像中文字特性的文字矩阵参数来对图像进行切分，使得切分后的文字子块能最大程度的包含文字的有效信息，提高了切分图像的准确性及合理性，且有利于提升后续对文字子块识别的精度。

步骤S40，对所述文字子块进行图像分割以获取所述文字子块中的文字信息，并对所述文字信息进行识别。

由于二值化处理后的图像中只包括文字与背景这两种像素，基于预设的聚类算法对切分后的文字子块进行图像分割处理，仅保留切分后的文字子块中的文字信息也即文字像素，去除背景像素给识别带来的干扰，根据所述文字信息在预置的***文字库中进行比对，其中，所述***文字库中预先存储有常用文字信息，根据比对图像分割后的文字子块中的文字信息与所述***文字库中预先存储的常用文字信息的相似度来对文字子块中的文字进行识别，也即对图像中的文字进行识别。

本实施例通过对待识别图像的矩阵行间纹理特征进行分析，估算出图像中文字的相关矩阵参数，再基于文字的相关矩阵参数对图像切分获取文字子块，并对文字子块进行识别，由于是通过估算出的文字的相关矩阵参数来进行切分、识别，能根据图像中文字的特性进行自适应调节，提高了切分获取文字子块的准确性，且极大地提升了对图像中文字识别的精度。

具体地，如图2所示，上述步骤S20可以包括：

步骤S201，将图像的矩阵坐标中的字体用第一像素值表示，背景用第二像素值表示，统计图像的矩阵坐标中每行第二像素值的个数，获取一数组；

将待识别的图像进行二值化处理后，将图像的矩阵坐标中的字体用第一像素值表示，背景用第二像素值表示，如可设定第一像素值为0，第二像素值为255。统计图像的矩阵坐标中每行第二像素值即255的个数，形成一数组Num_white，记为：Num_white＝[num₁，num₂……num_n]，其中n为图像矩阵的行数，num_i代表第i行第二像素值即255值的个数。需要说明的是，由于目前大多数图像中都是以文字为黑色，背景为白色，因此，本实施例中，以第一像素值为黑色像素值、第二像素值为白色像素值为例进行说明，当然，也不限定第一像素值、第二像素值为其他不同颜色像素值的情况。又由于图像中背景如字里行间的颜色相对单一，几乎均为白色，而字体所在的连续行虽然黑色像素值集中，但同样存在大量白色像素值，即字体的黑色像素并没有将整个字体行填满，因此，在本实施例中，优选统计图像的矩阵坐标中每行白色像素值，即将每行的白色像素值作为基准值，这样，对区分图像矩阵坐标中的字体行和空白行更加准确有效。

步骤S202，获取所述数组中数值大于预设基准值的行的行号，将所述数组中数值大于预设基准值的行中符合预设条件的行组合之间的行号距离作为一个行宽参数，统计所述数组中的若干行宽参数，对若干行宽参数取平均值，获取所述数组的行宽参数；

理论上，数组Num_white中num_i的最大值应该为图像矩阵的列数m，即表明图像矩阵中有若干列为空白。但在实际应用中，由于前期对图像的预处理工作可能存在误差，使得不一定每个空白行中所有值都为白色像素值即255。因此，为了增加统计的鲁棒性，设定预设基准值P为列数m的85％，即设定预设基准值P＝m*85％，只要图像矩阵中某一行白色像素值即255值的个数num_i大于预设基准值P，则判断该行是空白行，这样，能提升统计结果的准确性，减小实际应用中误差带来的干扰。

获取所述数组中数值大于预设基准值P的行num_i的行号i，并将所述数组中数值大于预设基准值P的行中符合预设条件的行组合之间的行号距离作为一个行宽参数，如可将所述数组中数值连续大于预设基准值P的行作为一连续行组合，将连续行组合之间的行号距离作为一个行宽参数，在本实施例中，优选为将所述数组中至少连续两次大于预设基准值的行组合与下一至少连续两次大于预设基准值的行组合之间的行号距离作为一个行宽参数，这样，能准确的计算出空白行组合之间每一字体行的行宽，统计所述数组中的若干行宽参数，由于各个行宽参数之间可能存在差异，因此需对若干行宽参数求平均值并取整，作为所述数组的最终的行宽参数。

步骤S203，根据获取的所述数组的行宽参数获取所述数组的列宽参数，并根据所述行宽参数和列宽参数获取所述数组的字体大小参数。

由于图像中文字一般占用的是正方形方格，因此，在本实施例中，直接将获取的所述数组的行宽参数作为所述数组的列宽参数，再根据所述行宽参数和列宽参数即可获取所述数组的字体大小参数，这样，最终获取的字体大小参数能准确的体现不同图像中的文字大小特性；当然，本发明并不排除行宽和列宽不等的情况，当文字行宽和列宽不相等时，可以采用与获取数组的行宽参数相同的方法来获取数组的列宽参数。需要说明的是，虽然图像文字中出现的标点符号在一定程度上会影响到获取的字体大小参数，但由于后续图像分割算法对于因标点影响的文字子块分割不全问题有模糊识别能力，再加上一般情况下文字中每行的标点一般不会超过10％，因此，本实施例中标点符号对图像文字识别的影响不大。

进一步地，上述步骤S40中预设的聚类算法可以是K均值聚类算法，基于K均值聚类算法对切分后的文字子块进行图像分割处理的步骤可以包括：

首先，任意选取一个切分后的文字子块进行图像分割，对该文字子块所对应原图像中的矩阵进行处理，变成一个一维向量VR，并在VR向量中随意选取两个点A和B，作为聚类的初始聚类中心；

计算VR向量中任意一个点与这两个初始聚类中心A和B的距离；将VR中的点根据其距离两个初始聚类中心的距离分为两类，即距离A点较近的属于A类，距离B点较近的属于B类；

移动聚类中心到各自的点群中心，即A类选取其中心点作为新的聚类中心，B类选取其中心点作为新的聚类中心；

重复将VR中的点根据其距离两个初始聚类中心的距离分为两类的步骤，更新聚类中心重新计算VR中的点与两个聚类中心的距离，并再次将VR中的点划分成新的两组，然后，再计算新的分组的聚类中心；

依次循环，直至聚类中心固定在某两个点，停止以上循环计算，最终将VR中的点划分成两类，即最终将切分后的文字子块中文字与背景这两种像素进行分割，获取切分后的文字子块中的文字信息也即文字像素。

参照图3，图3为本发明图像文字识别方法第二实施例的流程示意图。

在第二实施例中，在上述步骤S20之前还包括：

步骤S50，利用矩阵实验室中的图像配准函数在图像及预设的基准图像中选定若干对匹配点，并根据所述若干对匹配点对图像进行配准处理，获取图像配准参数；基于所述图像配准参数对图像对应的矩阵中的任意坐标值进行变换处理，获取变换后的图像矩阵坐标。

本实施例中，在将图像进行二值化处理，获取图像对应的矩阵后，将该图像对应的一维的矩阵记为I_n*_m，其中n代表一维矩阵的行数，m代表一维矩阵的列数。利用矩阵实验室(Matlab)中的图像配准函数在图像及预设的基准图像中选定若干对匹配点，并根据所述若干对匹配点对图像进行配准处理，获取图像配准参数，具体地，调用Matlab中的图像配准函数cpselect(input,base)和cp2tform(input，base)，[input]和[base]两个向量分别表示待配准的图像和预设的基准图像所对应的一维向量，先利用cpselect(input，base)函数在待配准的图像和预设的基准图像中选定若干对匹配点，分别存放在向量[input_points]、[base_points]中，再调用cp2tform函数，设定匹配参数为线性变换linearconformal，得到图像配准参数T，其中，

T＝cp2tform(input_points,base_points,'linearconformal')。

获取图像配准参数T后，基于所述图像配准参数T对所述一维矩阵中的任意坐标值进行变换处理，如设定(w，z)为待配准的图像矩阵I_n*_m中的任意坐标值，图像配准参数T作为变换参数，可进行平移、缩放和旋转等变换处理。则根据所述图像配准参数T进行变换后得到的配准后的图像矩阵坐标(x，y)＝T(w，z)。

本实施例中，在分析图像的矩阵行间纹理特征之前，先对待识别的图像进行配准处理，这样，能使后续对图像文字进行识别时，待识别的图像接近于预设的基准图像，使图像的矩阵行间纹理特征分析更加简单、准确，进而提升对图像中文字识别的精度。

本发明进一步提供一种图像文字识别装置。

参照图4，图4为本发明图像文字识别装置第一实施例的功能模块示意图。

在第一实施例中，该图像文字识别装置包括：

二值化模块01，用于将图像进行二值化处理，获取图像对应的矩阵；

分析模块02，用于分析图像的矩阵行间纹理特征，获取图像的文字矩阵参数；

利用待识别的图像的矩阵行间纹理特征来进行分析，估算出图像中文字的特征参数，如可体现图像中文字特性的行宽、列宽、文字大小等文字矩阵参数，这样，即可根据不同图像的矩阵获取其中相应的文字矩阵参数，能根据不同图像中文字的不同特性自适应的获取其对应的文字矩阵参数。本实施例中，待识别的图像可以是jpg、bmp、png等图像格式，在此不作限定。

切分模块03，用于基于所述文字矩阵参数对图像进行切分，获取图像的文字子块；

识别模块04，用于对所述文字子块进行图像分割以获取所述文字子块中的文字信息，并对所述文字信息进行识别。

具体地，如图5所示，上述分析模块02可以包括：

数组获取单元021，用于将图像的矩阵坐标中的字体用第一像素值表示，背景用第二像素值表示，统计图像的矩阵坐标中每行第二像素值的个数，获取一数组；

行宽参数获取单元022，用于获取所述数组中数值大于预设基准值的行的行号，将所述数组中数值大于预设基准值的行中符合预设条件的行组合之间的行号距离作为一个行宽参数，统计所述数组中的若干行宽参数，对若干行宽参数取平均值，获取所述数组的行宽参数；

字体大小参数获取单元023，根据所述数组的行宽参数获取所述数组的列宽参数，并根据所述行宽参数和列宽参数获取所述数组的字体大小参数。

由于图像中文字一般占用的是正方形方格，因此，直接将获取的所述数组的行宽参数作为所述数组的列宽参数，再根据所述行宽参数和列宽参数即可获取所述数组的字体大小参数，这样，最终获取的字体大小参数能准确的体现不同图像中的文字大小特性；当然，本发明并不排除行宽和列宽不等的情况，当文字行宽和列宽不相等时，可以采用与获取数组的行宽参数相同的方法来获取数组的列宽参数。需要说明的是，虽然图像文字中出现的标点符号在一定程度上会影响到获取的字体大小参数，但由于后续图像分割算法对于因标点影响的文字子块分割不全问题有模糊识别能力，再加上一般情况下文字中每行的标点一般不会超过10％，因此，本实施例中标点符号对图像文字识别的影响不大。

进一步地，上述识别模块04中预设的聚类算法可以是K均值聚类算法，上述识别模块04基于K均值聚类算法对切分后的文字子块进行图像分割处理的步骤可以包括：

参照图6，图6为本发明图像文字识别装置第二实施例的功能模块示意图。

在第二实施例中，该图像文字识别装置还包括：

配准模块05，用于利用矩阵实验室中的图像配准函数在图像及预设的基准图像中选定若干对匹配点，并根据所述若干对匹配点对图像进行配准处理，获取图像配准参数；基于所述图像配准参数对图像对应的矩阵中的任意坐标值进行变换处理，获取变换后的图像矩阵坐标。

T＝cp2tform(input_points,base_points,'linearconformal')。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种图像文字识别方法，其特征在于，所述方法包括以下步骤：

将图像进行二值化处理，获取图像对应的矩阵；

分析图像的矩阵行间纹理特征，获取图像的文字矩阵参数；

2.如权利要求1所述的图像文字识别方法，其特征在于，所述分析图像的矩阵行间纹理特征，获取图像的文字矩阵参数的步骤包括：

根据获取的所述数组的行宽参数获取所述数组的列宽参数，并根据所述行宽参数和所述列宽参数获取所述数组的字体大小参数。

3.如权利要求2所述的图像文字识别方法，其特征在于，所述将所述数组中数值大于预设基准值的行中符合预设条件的行组合之间的行号距离作为一个行宽参数的步骤具体为：

4.如权利要求1所述的图像文字识别方法，其特征在于，所述对所述文字子块进行图像分割以获取所述文字子块中的文字信息，并对所述文字信息进行识别的步骤具体为：

5.如权利要求1至4中任一项所述的图像文字识别方法，其特征在于，所述分析图像的矩阵行间纹理特征，获取图像的文字矩阵参数的步骤之前还包括：

6.一种图像文字识别装置，其特征在于，所述图像文字识别装置包括：

7.如权利要求6所述的图像文字识别装置，其特征在于，所述分析模块包括：

8.如权利要求7所述的图像文字识别装置，其特征在于，所述行宽参数获取单元还用于：

9.如权利要求6所述的图像文字识别装置，其特征在于，所述识别模块具体用于：

10.如权利要求6至9中任一项所述的图像文字识别装置，其特征在于，所述图像文字识别装置还包括：