CN105447522A

CN105447522A - 一种复杂图像文字识别***

Info

Publication number: CN105447522A
Application number: CN201510831651.XA
Authority: CN
Inventors: 陈炳章; 何宏靖; 刘世林; 吴雨浓
Original assignee: Chengdu Business Big Data Technology Co Ltd
Current assignee: Chengdu Business Big Data Technology Co Ltd
Priority date: 2015-11-25
Filing date: 2015-11-25
Publication date: 2016-03-30

Abstract

本发明涉及图像识别领域，特别涉及一种复杂图像文字识别***；本***针对图像表格这种复杂的文本图片的结构特征，从先检测和切分单元格到单元格内容的切分和识别，将复杂的结构逐层分解，达到了化繁为简的识别效果；并且为了提高识别的准确率，本发明***采用贝叶斯分类器对投影法找出的文字块切分位置进行优化，避免左右结构的汉字因为中间的间隙而被切分成两部分，使得文字块的切分完整准确，而且本发明***还采用神经网络分类器对切分出来的文字块进行自动识别，识别效率高，识别结果准确；总之本发明使得复杂的图像文字的识别得以快速的实现，***结构完整，识别效率高，在图像文字识别，信息挖掘，信息分析领域具有巨大的应用前景。

Description

一种复杂图像文字识别***

技术领域

本发明涉及图像识别领域，特别涉及一种复杂图像文字识别***。

背景技术

图像识别技术是目前智能识别技术领域中非常重要的发展方向，图像识别的发展经历了三个阶段：文字识别、数字图像处理与识别、物体识别；其中在众多的图像识别技术中，对图像文字的识别技术显得尤为重要，这是因为图像文字往往比单纯图像包含更加重要的可利用信息，文字识别一般是识别字母、数字和符号，从印刷文字识别到手写文字识别，应用非常广泛。图像识别问题的数学本质属于模式空间到类别空间的映射问题。目前，在图像识别的发展中，主要有三种识别方法：统计模式识别、结构模式识别、模糊模式识别。

随着图像文字的深入发展，越来越多的种类的图像文字资料，被纳入图像文字识别的范畴中，其中表格作为文字数据记录汇总最精简表达方式，或者数据统计、结果分析中最常用的表达格式，是各种数据分析工具中基础工具。表格在各行各业应用的广泛性不言而喻。不难看出对于表格式图像文字识别的重要性，比如对一个企业年度业绩报表，可能包含企业年度业绩中最重要的统计数据和分析结果，这些信息的重要性和概括性是其他任何材料所比拟不了的，目前的网络信息中充斥着各种表格资料，但是很多表格都是以图片的形式提供，比如各种扫描档案文件、PDF文件，自动识别这些图像表格资料，将图片类型的表格内容还原成数字资料是将这些资料进行快速处理和分析的基础。

表格的结构复杂内容丰富，而且相比于文档图片，对表格图片的识别的准率要求很高，但是由于表格资料本身复杂的结构特征，使得表格图像文字的识别比一般的普通图像文字资料更加困难，现有技术中在进行图像中文字的识别时，首先需要将图像中的字符串切分开，形成包含单个文字的小图片，然后使用一定的方法对切分后的文字进行识别。而进行文字切分最常用的方法为投影法，即是将图像文字二值化处理后，通过垂直投影找到两个文字之间的分界线，根据分界线将文字切分开来。由于表格的框线的存在，直接使用传统的投影发所实现的文字切分和识别就不太现实。同时由于表格本身结构的复杂多变，复杂多变的轮廓框线使得投影法难以实现将表格文字信息的切分和识别。

发明内容

本发明的目的在于克服现有技术中所存在的上述不足，提供一种复杂图像文字识别***，能够快速准确的检测出复杂结构的图像表格中的单元格；并在此基础上快速完整的将复杂的图像表格中的文字信息切分识别出来。本发明***首先检测出待识别图像表格中的单元格轮廓；根据单元格轮廓所对应的四角顶点坐标将对应单元格中的文字信息切分出来；在此基础上文字切分模块利用投影法找出单元格内容中文字块的切分位置，并利用贝叶斯分类器对切分位置进行优化，进而将文字块依次切分出来；切分出来的文字块输入到文字识别模块中，识别出对应的文字内容。本***针对图像表格这种复杂的文本图片的结构特征点，从先检测和切分单元格到单元格内容的切分和识别，将复杂的结构逐层分解，达到了化繁为简识别效果，使得复杂的图像文字的识别得以快速的实现，***结构完整，识别效率高。

为了实现上述发明目的，本发明提供以下技术方案：

一种复杂图像文字识别***，包含图像输入模块，单元格检测模块，单元格切分模块，文字切分模块以及文字识别模块；

其中，图像输入模块将待识别的图像表格输入到所述单元格检测模块中，所述单元格检测模块将待识别图像表格中的单元格轮廓检测出来，并输入到所述单元格切分模块中；

所述单元格切分模块将待识别图像表格中的各个单元格内容切分出来，形成对应的子图片；

所述文字切分块模块将输入其中的所述子图片切分成待识别的文字块；

所述文字块输入到所述文字识别模块中完成对应内容的识别。

具体的，本复杂图像文字识别***中，所述单元格检测模块使用openCV图像处理工具中的findcontours函数来检测出图像表格单元格轮廓。

所述单元格切分模块通过调用minAreaRect函数，构建出包含单元格轮廓点集的面积最小的旋转矩形区域，并提取出该旋转矩形区域的四角顶点坐标点；根据所述四角顶点坐标值将对应单元格中的文字信息作为整体切分出来，形成对应的子图片。

进一步的，所述文字切分模块，包括备用切分点检测模块和贝叶斯分类器模块；所述备用切分点检测模块与所述贝叶斯分类器模块相连，所述贝叶斯分类器的分类类别包括：文字部件，数字、字母，标点符号。

所述备用切分点检测模块通过投影法检测出子图片中文字块的左右两侧备用切分位置，并将检测结果输入到所述贝叶斯分类器模块中，所述贝叶斯分类器模块对文字块左右备用切分点之间内容的类别进行判断，将属于文字部件的相邻左右两个文字块作为一个文字块切分出来。

所述备用切分点检测模块对子图片进行侧向投影，通过公式：计算出一行的非0像素的个数，并将该值放到projection_y类中，其中i是行数，j是列数，pix(i,j)是对应像素值，n是最后一列的坐标值；对projection_y类中的元素进行遍历；如果projection_y[k]＝0，projection_y[k+1]＞0，projection_y[k+2]＞0，则判断k为某一行的起始切分点，并将其放到类vector<int>top中；如果projection_y[k]＝0，projection_y[k-1]＞0，projection_y[k-2]＞0，则判断k为某一行的终点切分点，并将其放到类vector<int>bottom中；基于类top和bottom中的元素值将单元格中的文字行向切分出来。

所述备用切分点检测模块对于切分出来的每一行的文字图像进行垂直投影，采用公式：计算出一列的非0像素的个数，并将该值放到projection_x类中，其中j是列数，i是行数，pix(i,j)是对应像素值，m是最后一行的坐标值；对projection_x类中的元素进行遍历；如果projection_x[k]＝0，projection_x[k+1]＞0，projection_x[k+2]＞0，则判断k为某一文字块的起始切分点，并将其放到类vector<int>left中；如果projection_x[k]＝0，projection_x[k-1]＞0，projection_x[k-2]＞0，则判断k为某一文字块的终点切分点，并将其放到类vector<int>right中；类left和right中的元素值为单文字的备用切分位置。

所述贝叶斯分类器在给定的第一备用左侧切分点坐标后，判断所述第一备用左侧切分点与第一备用右侧切分点之间的内容是否是文字部件，如果不是文字部件，则认为该内容是数字、字母或标点，直接将其切分出来；

如果是文字部件，则继续判断第二备用左侧切分点与第二备用右侧切分点之间的内容是否是文字部件，如果是文字部件，则将第一备用左侧切分点和第二备用右侧切分点之间的内容切分出来。

进一步的，所述贝叶斯分类器实现分类的过程包括：

对待识别内容提取特征值；

将特征值输入所述贝叶斯分类器中，计算该特征值属于各类别的概率；

将待识别内容各特征值属于该类的概率相乘，得到该内容属于该类的概率；

选择概最大的概率值对应的类别，作为该内容的类别；

其中，判断特征属于某类概率值的计算公式为：p＝(w×ni+1)/(w×nj+q)，其中w为所用的贝叶斯分类器中三个类别总的特征向量样本数量；ni为该对象的该特征在某一类别中出现的次数；nj为该类别中总的特征向量个数；q为经验值。

进一步的，所述文字识别模块为神经网络分类器或者为基于OCR的识别***。

与现有技术相比，本发明的有益效果：本发明提供一种复杂图像文字识别***，本***针对图像表格文字这样的复杂文本，采用先检测切分单元格，再对单元格内的文字内容进行切分的过程，实现了将复杂的文本结构逐层分解分解的目的，本发明***通过单元格检测模块检测出待识别图像表格中的单元格，将每个单元格中的信息内容整体切分出来形成对应子图片，所述文字切分模块采用投影法找出文字块的切分点，通过切分点将文字块切分出来，为了提高文字块切分的准确率，本方***采用贝叶斯分类器对通过投影法找出的备用切分点进行优化，避免了将左右结构的汉字因左右部件之间存在的间隙而被切分成两部分的问题，提高了文字块切分的准确率，并且将数字、字母、标点符号分别切分出来，这样准确的分类切分为文字块内容的准确识别创造了基础；在这样的基础采用神经网络分类器对文字块的内容进行识别，识别的准确率极高，快速、完整，效率极高，为复杂图像文字的大规模批量处理提供给了一个高效可靠的处理平台；在图像文字识别，信息挖掘，信息分析领域具有巨大的应用前景。

附图说明：

图1为本复杂图像文字识别***的***结构示意图。

图2为二值化的待识别图像表格示意图。

图3为通过openCV中的findcontours函数所提取出的单元格轮廓示意图。

图4为图3中的单元格子图片切范围示意图。

图5为经过图4的切分确定的切分范围所切分出的单元格子图片的示意图。

图6为通过投影法找出的备用切分点示意图。

图7为对图6的备用切分点通过贝叶斯分类器进行优化的判断过程示意图。

图8为本发明***的具体结构示意图。

需要说明的是，本发明所有附图均为示意性的，不代表实际的尺寸和比例。

具体实施方式

下面结合试验例及具体实施方式对本发明作进一步的详细描述。但不应将此理解为本发明上述主题的范围仅限于以下的实施例，凡基于本发明内容所实现的技术均属于本发明的范围。

本发明提供一种复杂图像文字识别***，能够快速准确的检测出复杂结构的图像表格中的单元格；并在此基础上快速完整的将复杂的图像表格中的文字信息切分识别出来。本发明***首先检测出待识别图像表格中的单元格轮廓；根据单元格轮廓所对应的四角顶点坐标将对应单元格中的文字信息切分出来；在此基础上文字切分模块利用投影法找出单元格内容中文字块的切分位置，并将文字块依次切分出来；切分出来的文字块输入到文字识别模块中，识别出对应的文字内容。本***针对图像表格这种复杂的文本图片的结构特征点，从先检测和切分单元格到单元格内容的切分和识别，将复杂的结构逐层分解，达到了化繁为简识别效果，使得复杂的图像文字的识别得以快速的实现，***结构完整，识别效率高。

为了实现上述发明目的，本发明提供以下技术方案：

一种复杂图像文字识别***，如图1所示：包含图像输入模块，单元格检测模块，单元格切分模块，文字切分模块以及文字识别模块；

具体的，本复杂图像文字识别***中，所述图像输入模块可以为扫描仪，数码相机等图像采集或者存储设备，所述图像输入模块将采集到的大量的图像文字输入到本发明***中，进行识别。

所述单元格检测模块，将待识别图像表格进行二值化处理后，使用openCV图像处理工具中的findcontours函数来检测出图像表格单元格轮廓。将检测出的单元格轮廓的点集提取出来放置在对应的点类中(如：用Vector1，Vector2，Vector3……来表示)；openCV是一种高效的图像处理工具，openCV中包含很多简单高效的图像处理函数，其中findcontours函数能够根据表格框线轮廓的特点将单元格的轮廓检测出来，并将检测出的单元格轮廓点集提取出来，检测效率高，图2为待处理图像表格的一个示例图，所述图像输入模块将待处理图片输入到单元格检测模块中，所述单元格检测模块将图像进行二值化处理后，调用findcontours函数找出的待识别表格单元格的轮廓线如图3所示。

所述单元格切分模块通过调用minAreaRect函数(minAreaRect函数也为openCV中的一个函数)，构建出包含单元格轮廓点集的面积最小的旋转矩形区域，并提取出该旋转矩形区域的四角顶点坐标点；根据所述四角顶点坐标值将对应单元格中的文字信息作为整体切分出来，形成对应的子图片，切分出来的单元格图片如图4所示。在进行单元格内容切分时，应该先将单元格的表格框线去除掉，所述单元格切分模块将四角顶点坐标向矩形区域内的方向相应移动一定距离所确定的新的区域；通过新区域覆盖的范围来切分单元格内容，就能够将单元格的边框切除掉，留下仅包含单元格文字内部文字信息的子图片，图4所示的单元格经过切分形成的子图片如图5所示，具体的过程不再赘述。进一步的，所述文字切分模块，包括备用切分点检测模块和贝叶斯分类器模块；所述备用切分点检测模块与所述贝叶斯分类器模块相连，所述贝叶斯分类器的分类类别包括：文字部件，数字、字母，标点符号。

所述备用切分点检测模块通过投影法检测出子图片中文字块的左右两侧备用切分位置，并将检测结果输入到所述贝叶斯分类器模块中，所述备用切分点检测模块对子图片进行侧向投影，通过公式：计算出一行的非0像素的个数，并将该值放到projection_y类中，其中i是行数，j是列数，pix(i,j)是对应像素值，n是最后一列的坐标值；对projection_y类中的元素进行遍历；如果projection_y[k]＝0，projection_y[k+1]＞0，projection_y[k+2]＞0，则判断k为某一行的起始切分点，并将其放到类vector<int>top中；如果projection_y[k]＝0，projection_y[k-1]＞0，projection_y[k-2]＞0，则判断k为某一行的终点切分点，并将其放到类vector<int>bottom中；基于类top和bottom中的元素值将单元格中的文字行向切分出来。

所述备用切分点检测模块对于切分出来的每一行的文字图像进行垂直投影，采用公式：计算出一列的非0像素的个数，并将该值放到proiection_x类中，其中j是列数，i是行数，pix(i,j)是对应像素值，m是最后一行的坐标值；对projection_x类中的元素进行遍历；如果projection_x[k]＝0，projection_x[k+1]＞0，projection_x[k+2]＞0，则判断k为某一文字块的起始切分点，并将其放到类vector<int>left中；如果projection_x[k]＝0，projection_x[k-1]＞0，projection_x[k-2]＞0，则判断k为某一文字块的终点切分点，并将其放到类vector<int>right中；类left和right中的元素值为单文字的备用切分位置。

根据横向投影和纵向投影坐标就可以确定每个文字块的坐标位置；根据坐标位置可以把单个文字块切分出来。但是投影法有可能出现这样的情况：当一个文字为左右结构的文字时，可能因为左右结构部件之间存在的间隙，误将各个文字部件单独切分出来，影响了文字识别的准确性。为了提高文字块切分的准确性，将备用切分点信息输入贝叶斯分类器中进行进一步的计算；所述贝叶斯分类器模块对文字块左右备用切分点之间内容的类别进行判断，将属于文字部件的相邻左右两个文字块作为一个整体文字块切分出来。

进一步的，所述贝叶斯分类器实现分类的过程包括：

对待识别内容提取特征值；

选择概最大的概率值对应的类别，作为该内容的类别；

其中，判断特征属于某类概率值的计算公式为：p＝(w×ni+1)/(w×nj+q)，其中w为所用的贝叶斯分类器中三个类别总的特征向量样本数量；ni为该对象的该特征在某一类别中出现的次数；nj为该类别中总的特征向量个数；q为经验值。在本发明***所采取的分类器样本中，选用的特征值包括：高宽比，覆盖率，垂直中心线穿越笔画数，垂直中心线穿越笔画数上下两端最大距离与高度的比值，水平中心线穿越笔画数，水平中心线穿越笔画数左右两端最大距离与宽度的比值。

具体的，发明***找出文字块的左右备用切分点后，将文字块的宽度和设定的阈值进行比较，如果大于设定的阈值就可以直接将该左右切分点之间的文字块切分出来。这是因为通常情况下打印体的汉字，单个字的宽度相对均一，且大于文字部件、数字、字母或者标点符号的宽度，在进行文字切分时，首先可以通过切分点之间的宽度和设置的阈值进行比较，将宽度较大的相邻左右切分点之间的文字作为单个文字块切分出来。

对于左右切分点宽度较小的文字块，可能存在几种情况，比如说可能是文字部件、数字、字母或者标点；仅仅通过宽度不能准确判断该字块属于何种类型，如果对切分点不进行优化可能将左右结构的文字的左右部件因为中间存在的间隙而分别切分出来，影响了文字的识别效果。本发明***利用贝叶斯分类器对左右两侧备用切分点之间的内容进行判断，在备用切分点的基础上，找出优化切分位置，提高切分的准确率。进行切分点优化时，如图6、图7所示(其中图6为经过投影法所找出的备用切分点的示意图，A、B、C、D为对应文字块的备用左侧切分点，A’、B’、C’、D’为对应文字块的备用右侧切分点，仅为示意性说明，不代表文字块的真实切分点位置；图7为使用贝叶斯分类器对备用切分点进行优化并将内容进行分类切分的过程示意图)，在固定的左侧切分坐标(第一左备用侧切分点A)后，使用贝叶斯分类器对与其紧连其后的右侧备用切分点(第一右备用侧切分点A’)之间的内容进行分类；如果是数字、字母或者标点符号，则将其直接按照分类器识别的类型切分出来，如果是文字部件，则将判断位置移到下一备用左侧切分位置(第二备用左侧切分点B)，判断该备用左侧切分点和与其紧接的备用右侧切分点(第二备用右侧切分点B’)之间的内容是否是文字部件，如果是文字部件，则将第一备用左侧切分点A和第二备用右侧切分点B’之间的文字块作为一个整体切分出来；这样就避免了将左右结构的汉字切分成两个部分进行识别的情况，保证文字切分的完整性。

进一步的，如图8所示，所述文字识别模块为神经网络分类器或者为基于OCR的识别***。其中神经网络目前在语音和图像识别中的应用十分的广泛，对切分好的文字的图片的识别技术已经相对成熟，神经网络有类似于人脑神经***的训练和学习过程，能够学习样本的特征、模式和规律，当根据识别需要构建好神经网络后，根据识别的复杂程度准备一定数量训练样本输入到神经网络中进行神经网络的训练；在将这些训练样本输入到神经网络之前，需要对这训练样本进行人工标注，训练样本的选择将影响到神经网络的识别结果，本发明中识别的对象为图像表格，图像表格中包含丰富的汉字，数字，字母和符号，可以说包含的文字集的种类和数量都比较丰富，本发明神经网络可以选择与待识别图像表格文字集相一致的样本文字集，比如说待识别的表格图片中包含的汉字集在2000个左右，数字集0-9，符号集包括标点符号，数学公式符号，比如说分号、百分号，各种计量单位符号，则在进行神经网络训练时选用的样本集也应该相应的包含这些汉字、数字和符号，这样才能保证文字块识别的输出结果正确。神经网络具有自适应的误差调整能力，能够根据误差反向传播等调节方式，不断缩小学习结果和标注结果之间的差异，最后逐步趋近于稳定正确的识别方向，当神经网络训练完成之后将一定数量的测试样本(开发样本)输入到神经网络中，测试神经网络的输入结果的正确率，当正确率达到设定的阈值时，可认为神经网络的训练已经完成，当神经网络训练好以后，将切分好的文字块图片输入到神经网络中，完成图片的识别过程。

Claims

1.一种复杂图像文字识别***，其特征在于：包含图像输入模块，单元格检测模块，单元格切分模块，文字切分模块以及文字识别模块；

2.如权利要求1所述的***，其特征在于：所述单元格检测模块使用openCV图像处理工具中的findcontours函数来检测图像表格单元格轮廓。

3.如权利要求2所述的***，其特征在于：所述单元格切分模块通过调用minAreaRect函数，构建出包含单元格轮廓点集的面积最小的旋转矩形区域，并提取出该旋转矩形区域的四角顶点坐标点；根据所述四角顶点坐标值将对应单元格中的文字信息作为整体切分出来，形成对应的子图片。

4.如权利要求3所述的***，其特征在于：所述文字切分模块包括备用切分点检测模块和贝叶斯分类器模块；所述备用切分点检测模块与所述贝叶斯分类器模块相连，所述贝叶斯分类器的分类类别包括：文字部件，数字、字母，标点符号。

5.如权利要求4所述的***，其特征在于：所述备用切分点检测模块通过投影法检测出子图片中文字块的左右两侧备用切分位置，并将检测结果输入到所述贝叶斯分类器模块中，所述贝叶斯分类器模块对文字块左右备用切分点之间内容的类别进行判断，将属于文字部件的相邻左右两个文字块作为一个文字块切分出来。

6.如权利要求5所述的***，其特征在于：所述备用切分点检测模块对子图片进行侧向投影，通过公式：计算出一行的非0像素的个数，并将该值放到projection_y类中，其中i是行数，j是列数，pix(i，j)是对应像素值，n是最后一列的坐标值；对projection_y类中的元素进行遍历；如果projection_y[k]＝0，projection_y[k+1]＞0，projection_y[k+2]＞0，则判断k为某一行的起始切分点，并将其放到类vector<int＞top中；

如果projection_y[k]＝0，projection_y[k-1]＞0，projection_y[k-2]＞0，则判断k为某一行的终点切分点，并将其放到类vector<int>bottom中；

基于类top和bottom中的元素值将单元格中的文字行向切分出来。

7.如权利要求6所述的***，其特征在于：所述备用切分点检测模块对于切分出来的每一行的文字图像进行垂直投影，采用公式：计算出一列的非0像素的个数，并将该值放到projection_x类中，其中j是列数，i是行数，pix(i，j)是对应像素值，m是最后一行的坐标值；对projection_x类中的元素进行遍历；如果projection_x[k]＝0，projection_x[k+1]＞0，projection_x[k+2]＞0，则判断k为某一文字块的起始切分点，并将其放到类vector<int>left中；

如果projection_x[k]＝0，projection_x[k-1]＞0，projection_x[k-2]＞0，则判断k为某一文字块的终点切分点，并将其放到类vector<int>right中；

类left和right中的元素值为单文字的备用切分位置。

8.如权利要求7所述的***，其特征在于：所述贝叶斯分类器在给定的第一备用左侧切分点坐标后，判断所述第一备用左侧切分点与第一备用右侧切分点之间的内容是否是文字部件，如果不是文字部件，则认为该内容是数字、字母或标点，直接将其切分出来；

9.如权利要求8所述的***，其特征在于：所述贝叶斯分类器实现分类的过程包括：

对待识别内容提取特征值；

选择概最大的概率值对应的类别，作为该内容的类别；

10.如权利要求1至9之一所述的***，其特征在于：所述文字识别模块为神经网络分类器。