CN112651323A

CN112651323A - 一种基于文本行检测的中文手写体识别方法及***

Info

Publication number: CN112651323A
Application number: CN202011526382.3A
Authority: CN
Inventors: 马磊; 陈义学; 胡代国; 夏彬彬
Original assignee: SHANDONG SHANDA OUMA SOFTWARE CO Ltd
Current assignee: SHANDONG SHANDA OUMA SOFTWARE CO Ltd
Priority date: 2020-12-22
Filing date: 2020-12-22
Publication date: 2021-04-13
Anticipated expiration: 2040-12-22
Also published as: CN112651323B

Abstract

本发明提供一种基于文本行检测的中文手写体识别方法及***，包括：将待识别图像切分为文本行；根据文本行平均高度识别***字符信息；利用预先构建的多层卷积神经网络模型提取所述文本行的图像特征；利用预先构建的双向循环神经网络模型从所述图像特征提取文字序列特征；根据所述***字符信息和所述文字序列特征识别所述待识别图像的文本内容。本发明能够准确识别手写中文图像中的文本内容，且识别效率高。

Description

一种基于文本行检测的中文手写体识别方法及***

技术领域

本发明涉及图像识别技术领域，具体涉及一种基于文本行检测的中文手写体识别方法及***。

背景技术

中文识别是计算机视觉领域的重要课题，也是OCR领域最具挑战性的问题之一。中文手写体识别和中文印刷体识别是中文识别的主要研究内容。印刷体识别发展至今，己经有了较高的识别率，并得到了广泛的应用。而中文手写体识别又可细分为脱机手写体识别与联机手写体识别。联机手写体识别需要在特定的电子设备上书写，电子设备感应到用户书写汉字时的笔画轨迹、笔画数目和书写速度，机器实时处理仪器捕捉到的书写信息，进行识别。而脱机中文手写体识别只能利用图像采集设备获取汉字的图像，通过分析图像来识别字符。

由于中文汉字类别繁多、结构繁杂，形近字较多，书写随意性大、缺乏规范性、不同的人书写风格差异较大；并且由于汉字结构的影响及书写的不规范，对于粘连字符和***字符等难以切分，所以脱机中文手写体字符识别的正确率一直无法很好的实现产业的应用。

近年来，随着深度学习的发展，以及硬件计算性能的提升，计算机视觉领域已在模式识别的多个领域取得良好成绩，所以使用深度学习技术对解决中文手写体的识别具有重要意义。

发明内容

针对现有技术的上述不足，本发明提供一种基于文本行检测的中文手写体识别方法及***，以解决上述技术问题。

第一方面，本发明提供一种基于文本行检测的中文手写体识别方法，包括：

将待识别图像切分为文本行；

根据文本行平均高度识别***字符信息；

利用预先构建的多层卷积神经网络模型提取所述文本行的图像特征；

利用预先构建的双向循环神经网络模型从所述图像特征提取文字序列特征；

根据所述***字符信息和所述文字序列特征识别所述待识别图像的文本内容。

进一步的，所述方法还包括：

利用高斯滤波技术去除所述待识别图像在扫描过程中的高斯噪声；

采用直线检测算法去除所述待识别图像中出现的长直线。

进一步的，所述将待识别图像切分为文本行，包括：

通过图像横向投影和水滴算法将考生答题图像以行为单位进行切分；

通过对高度超过平均高度的行的书写倾斜图像进行纵向投影切分，去除上下两边多余空白得到文本行；

将所有文本行按顺序整合为图像序列。

进一步的，所述根据文本行平均高度识别***字符位置，包括：

计算所有文本行的行平均高度；

筛选出高度超过所述行平均高度的目标文本行；

通过文本投影查找所述目标文本行可能存在***字符的区域，并将所述区域作为候选感兴趣区域；

提取候选感兴趣区域的哈尔特征，并根据各候选感兴趣区域的哈尔特征对候选感兴趣区域进行聚类；

将聚类结果输入支持向量机分类器，筛选出感兴趣区域；

利用字符识别技术识别出感兴趣区域的***字符和***字符位置。

进一步的，所述多层卷积神经网络模型的构建方法包括：

设置卷积层数量为六层；

设置卷积核大小为3*3；

选用最大池化层；

在第四卷积层和第五卷积层均加入批量归一化层；

收集历史文本行，利用历史文本行构建第一训练集，并利用第一训练集对所述多层卷积神经网络模型进行训练。

进一步的，所述双向循环神经网络模型的构建方法包括：

构建双向循环神经网络模型；

收集历史图像特征作为第二训练集；

向所述第二训练集的历史图像特征中的无字符位置引入空字符；

利用时序分类算法和所述第二训练集对所述双向循环神经网络模型进行训练。

进一步的，所述根据***字符信息和所述文字序列特征识别所述待识别图像的文本内容包括：

根据***字符信息和所述文字序列特征，利用字符识别技术对文本行的内容进行识别，并将文本行内容整合为所述待识别图像的文本内容；

将所述文本内容中的划掉字符和空格去除后，输出最终识别结果。

第二方面，本发明提供一种基于文本行检测的中文手写体识别***，包括：

图像切分单元，配置用于将待识别图像切分为文本行；

符号识别单元，配置用于根据文本行平均高度识别***字符信息；

特征识别单元，配置用于利用预先构建的多层卷积神经网络模型提取所述文本行的图像特征；

序列识别单元，配置用于利用预先构建的双向循环神经网络模型从所述图像特征提取文字序列特征；

内容识别单元，配置用于根据所述***字符信息和所述文字序列特征识别所述待识别图像的文本内容。

进一步的，所述图像切分单元包括：

切分执行模块，配置用于通过图像横向投影和水滴算法将考生答题图像以行为单位进行切分；

空白去除模块，配置用于通过对高度超过平均高度的行的书写倾斜图像进行纵向投影切分，去除上下两边多余空白得到文本行；

序列整合模块，配置用于将所有文本行按顺序整合为图像序列。

进一步的，所述符号识别单元包括：

高度计算模块，配置用于计算所有文本行的行平均高度；

高度比对模块，配置用于筛选出高度超过所述行平均高度的目标文本行；

投影查找模块，配置用于通过文本投影查找所述目标文本行可能存在***字符的区域，并将所述区域作为候选感兴趣区域；

特征聚类模块，配置用于提取候选感兴趣区域的哈尔特征，并根据各候选感兴趣区域的哈尔特征对候选感兴趣区域进行聚类；

聚类筛选模块，配置用于将聚类结果输入支持向量机分类器，筛选出感兴趣区域；

***识别模块，配置用于利用字符识别技术识别出感兴趣区域的***字符和***字符位置。

本发明的有益效果在于，

本发明提供的基于文本行检测的中文手写体识别方法及***，能够准确识别手写中文图像中的文本内容，且识别效率高。

此外，本发明设计原理可靠，结构简单，具有非常广泛的应用前景。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一个实施例的方法的示意性流程图。

图2是本发明一个实施例的方法的***字符识别的示意性流程图。

具体实施方式

为了使本技术领域的人员更好地理解本发明中的技术方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

下面对本发明中出现的关键术语进行解释。

具体的，请参考图1，所述基于文本行检测的中文手写体识别方法包括：

步骤(1)：将考生答题图像进行预处理。

对考生答题图像进行预处理，预处理过程采用高斯滤波去除图像在扫描过程中的高斯噪声，并采用直线检测算法去除部分图像中出现的文本框等长直线，得到整图图像I。

步骤(2)：对预处理之后的图像进行行切分并去除上下空白区域。

通过图像横向投影和水滴算法将考生答题图像进行行切分，得到行切分图像 I_i，其尺寸为h_i×w_i。再对切分图像高度远大于平均高度Th的书写倾斜图像，进行纵向投影切分，去除上下两边多余空白，然后再次合并切分图像得到行切分图像I_j，其尺寸为h_j×w_i，最终得到n×h_j×w_i的行切分图像序列。最后将n幅行切分图像序列转换为固定高度的n×h×w_i图像序列I_n。

步骤(3)：如图2所示，将疑似存在***符的文本行图像放入***字符处理模块进行***符号识别和处理。

对于行切分图像序列I_n，存在***字符的图像高度要远大于n幅行切分图像的平均高度，故通过这种方法对疑似存在***字符的行切分图像进行***字符检测。为了减少感兴趣区域的数量，并结合实际情况，通过投影，找到有可能存在***字符的区域作为候选感兴趣区域，对所有的候选区域提取haar特征，聚类之后，输入 SVM分类器，筛选候选区域图像。如果存在***符，将***符上面或下面的图像传入字符识别模块，输出识别结果。

步骤(4)：采用多层卷积神经网络提取图像特征。

本发明使用了6层卷积神经网络，卷积核均为3*3的小卷积核，在卷积层之后的池化层选用的是最大池化，并且在第4、第5层的池化层后加入了BN层，加快网络的训练和收敛的速度，并起到防止过拟合的作用。

该步骤得到4维图像的特征数据矩阵X＝[x₁,x₂,...,x_n]∈R^n×d，其中特征矩阵宽高及深度等大小一致。

步骤(5)：将提取到的图像特征传入双向循环神经网络继续提取文字序列特征。

本发明中的循环网络层是一个两层双向LSTM网络，在卷积特征的基础上继续提取文字序列特征。将步骤(4)得到的特征数据矩阵传入LSTM网络，提取文字的序列特征。

步骤(6)：将识别结果处理空格、错别字及划掉字及***字符等并调整相应的顺序。

在网络识别结束之后，进行识别结果后处理，即将识别结果中划掉字符和空格替换掉，以保证不影响识别结果的语义。

本实施例提供一种基于文本行检测的中文手写体识别***，包括：

图像切分单元，配置用于将待识别图像切分为文本行；

可选地，作为本发明一个实施例，所述图像切分单元包括：

可选地，作为本发明一个实施例，所述符号识别单元包括：

高度计算模块，配置用于计算所有文本行的行平均高度；

尽管通过参考附图并结合优选实施例的方式对本发明进行了详细描述，但本发明并不限于此。在不脱离本发明的精神和实质的前提下，本领域普通技术人员可以对本发明的实施例进行各种等效的修改或替换，而这些修改或替换都应在本发明的涵盖范围内/任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种基于文本行检测的中文手写体识别方法，其特征在于，包括：

将待识别图像切分为文本行；

根据文本行平均高度识别***字符信息；

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

采用直线检测算法去除所述待识别图像中出现的长直线。

3.根据权利要求1所述的方法，其特征在于，所述将待识别图像切分为文本行，包括：

将所有文本行按顺序整合为图像序列。

4.根据权利要求1所述的方法，其特征在于，所述根据文本行平均高度识别***字符位置，包括：

计算所有文本行的行平均高度；

筛选出高度超过所述行平均高度的目标文本行；

将聚类结果输入支持向量机分类器，筛选出感兴趣区域；

5.根据权利要求1所述的方法，其特征在于，所述多层卷积神经网络模型的构建方法包括：

设置卷积层数量为六层；

设置卷积核大小为3*3；

选用最大池化层；

在第四卷积层和第五卷积层均加入批量归一化层；

6.根据权利要求1所述的方法，其特征在于，所述双向循环神经网络模型的构建方法包括：

构建双向循环神经网络模型；

收集历史图像特征作为第二训练集；

7.根据权利要求1所述的方法，其特征在于，所述根据***字符信息和所述文字序列特征识别所述待识别图像的文本内容包括：

8.一种基于文本行检测的中文手写体识别***，其特征在于，包括：

图像切分单元，配置用于将待识别图像切分为文本行；

9.根据权利要求8所述的***，其特征在于，所述图像切分单元包括：

10.根据权利要求8所述的***，其特征在于，所述符号识别单元包括：

高度计算模块，配置用于计算所有文本行的行平均高度；