CN108596066A

CN108596066A - 一种基于卷积神经网络的字符识别方法

Info

Publication number: CN108596066A
Application number: CN201810332531.9A
Authority: CN
Inventors: 张海剑; 成帅; 杨天韵
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2018-04-13
Filing date: 2018-04-13
Publication date: 2018-09-28
Anticipated expiration: 2038-04-13
Also published as: CN108596066B

Abstract

本发明公开了一种基于卷积神经网络的字符识别方法，主要解决现有的人力录入工程图纸数据时费时费力、错误率高的问题，其主要步骤包括：1)采用基于Otsu法的最佳全局阈值处理将灰度图像转换为二值图像。2)对倾斜的图像进行旋转矫正。3)采用数学形态学的算法提取出表格框。4)获得字符所在区域。5)将斜向字符串旋转相应的角度至水平方向。6)采用圆形霍夫变换的算法来查找图像中的圆圈，提取工程图纸中的焊道号。7)采用卷积神经网络的方法对工程图纸进行图文识别。8)通过编码规则修正简单错误，自动纠正识别错误。9)输出并存储图纸数据。本发明在工程图纸的图文识别上具有高准确率和实时性，实现了工程图纸数据的高效记录与管理。

Description

一种基于卷积神经网络的字符识别方法

技术领域

本发明属于模式识别领域，特别涉及一种基于卷积神经网络的字符识别方法，可用于工业图纸的文档扫描识别。

背景技术

光学字符识别(Optical Character Recognition，OCR)技术，是指电子设备检查纸上打印的字符，通过检测暗、亮的模式确定其形状，然后用字符识别的方法将形状翻译成计算机文字的过程。OCR是模式识别领域的重要研究方向，并广泛运用于自动化信息处理，在建筑、机械等工程领域有着重要的实际意义。

在实际工程中，工作人员需要将工业图纸的信息录入计算机，以便工程信息的记录与管理。然而，一般情况下，工程图纸数量庞大而且内容繁杂，如果仅凭人力录入往往需要大量的人力成本和时间成本，人力录入的工作的枯燥且重复，很可能出现误录、误识别的现象。如果能自动扫描识别工程图纸的内容，将为工程节省大量的人力和时间成本，工程图纸文档的管理也将变得简单高效。

传统的图文识别方法主要包括统计决策识别和基于机器学习的文字识别方法两类。统计决策识别是最传统的图文识别方法，典型的统计决策识别方法是模板匹配方法，它通过计算模板图像和输入图像的最小距离，选出输入图像的最佳匹配模板，这种方法的实现过程较为简单，但是出错率高，计算量大，不能取得良好的实时性。基于机器学习的文字识别方法主要包括图像预处理，特征提取和识别几个步骤，特征提取可以采用人工提取特征或者卷积神经网络来提取图像特征。卷积神经网络作为深度学习的一种实现模型，具有局部感知野和权值共享的特征，极大地减少了计算复杂度，在图文识别方面也得到了快速发展。但是针对质量差和复杂的图纸，传统的基于卷积神经网络的识别算法并不能取得较高的准确率。

发明内容

本发明的目的在于提供一种基于卷积神经网络的字符识别方法，在对传统的字符识别卷积神经网络进行了改进，简化了网络结构，采用合适的激励函数和池化方法，并增加替换和列表比较等纠错后处理操作，极大提高了识别的速度和准确率。此外，本方法采用最小二乘法对倾斜字符进行矫正，实现了多方向字符的识别，适应了工业图纸的复杂性，且能够满足识别准确率要求。因此，本发明采用的卷积神经网络的方法，相对于传统的识别方法，准确率更高，更加有效。

本发明的技术方案包括以下步骤：

步骤1，对工程图纸扫描文档二值化，将工程图纸扫描文档中的图文与背景分离；

步骤2，针对倾斜的扫描文档，找到二值图像的倾斜角，采用双线性插值对图像进行旋转矫正；

步骤3，采用数学形态学处理提取出步骤2矫正图像中的表格框线，将图像分割为图面区域、材料表区域和标题栏区域；

步骤4，搜索步骤2中矫正图像所有的连通区域，再依据图像中所标记连通区域的形状和近邻位置特征筛选、合并连通区域来定位单个字符；

步骤5，将单个字符组合成字符串，计算字符串中各字符外接矩形的中心点的拟合直线，依据拟合直线的斜率判断字符串的走向，将斜向字符串旋转相应的角度至水平方向；

步骤6，查找步骤2矫正图像中的圆圈，并提取工程图纸中的焊道号；

步骤7，制作工程图纸字符数据集，在MatConvNet框架下构建卷积神经网络，利用网络训练的得到的模型识别步骤图纸中的字符；

步骤8，通过对图面区域、材料表区域和标题栏区域设置不同的编码规则，自动纠正各区域中简单的字符识别错误；

步骤9，输出并存储所有识别获得的图纸数据。

进一步的，步骤1中采用基于Ostu法的最佳阈值处理对工程图纸扫描文档二值化，具体实现方式如下，

用{0，1，2，...,L-1}表示一幅扫描图像中的L个不同的灰度级，计算输入图像的归一化直方图，用p_i,i＝0,1,2,...,L-1表示该直方图，假设选择一个阈值k，在k处将图像分为C₀＝{0,1,...,k}和C₁＝{k+1,k+2,...,L-1}两组，则像素被分到C₀组和C₁组中概分别为:

C₀和C₁的灰度平均值分别为：

整幅图像的灰度平均值为：

μ＝μ₀ω₀+μ₁ω₁

计算出C₀和C₁两组间的方差：

σ²＝ω₀(μ₀-μ)²+ω₁(μ₁-μ)²＝ω₀ω₁(μ₁-μ₀)²

在L个不同的灰度级中寻找最佳阈值k^*，将使σ²最大的k^*作为最佳阈值，利用该最佳阈值将扫描文档图像转换为二值图像。

进一步的，步骤2中利用利用霍夫变换找到二值图像的倾斜角，具体实现方式如下，

在图像空间里，所有经过点(x,y)的直线都采用极坐标方程表示：

ρ＝x cosθ+y sinθ,0≤θ≤π

其中ρ是原点到直线的距离，θ是直线和x轴的夹角；

在参数空间ρ,θ里建立一个累加器H(ρ,θ)，初始化累加器的元素值为0，对图像内的任意一点(x,y)，找到对应ρ,θ参数空间内的ρ,θ的所有取值，对累加器H(ρ,θ)进行累加，然后，对累加器H(ρ,θ)进行局部峰值检测，得到图像内所有直线的ρ,θ参数；为了减少多余信息的干扰，只考虑图像中靠近上边界区域内的直线，找到该部分区域内最长的直线l，l的参数θ即为扫描文档的倾斜角。

进一步的，步骤3的具体实现包括如下子步骤，

步骤3.1，采用垂直方向的线性结构元[1 1 1]^T和水平方向的线性结构元[1 1 1]对步骤2中的矫正图像先腐蚀再膨胀，再对结果做骨架化处理，将所有水平和垂直的线段细化为线段宽度为一个像素的单线，得到垂直框线图像I₁和水平框线图像I₂；

步骤3.2，对垂直框线图像I₁和水平框线图像I₂作与运算，得到表格框线的交点；

步骤3.3，对于每一个交点，检测出同一水平位置附近的其他交点及同一垂直位置附近得的其他交点，根据距离依次进行匹配，找到每个正确表格框；如果存在一个交点A，和同一水平位置附近的交点B以及同一垂直位置附近的交点C构成一个矩形，且该矩形四条边所在的位置均存在表格框线，即检测出来矩形的四条边和表格框线重合，则整体表格中存在一个以交点A为左上角点，AB距离为长，AC距离为宽的表格框；依次对表格框线的所有交点进行上述处理，可提取到每一个正确的表格框；

步骤3.4，将提取的表格框中面积最大的表格框划分为图面区域，面积次之的表格框划分为材料表区域，整个图像下方包括多个表格框的区域组成标题栏区域。

进一步的，步骤4的具体实现包括如下子步骤，

步骤4.1，采用基于行程的连通域标记算法搜索步骤2矫正图像所有的连通区域，搜索步骤如下：

1)逐行扫描步骤2中的矫正图像，将每一行中连续的白色像素组成一个序列，称为一个团，并记录下它的起点、终点及行号；

2)从第二行开始，遍历每一行里的团，如果某一行中的团与上一行中的团没有重叠，则给它一个新的标号；如果仅与上一行中一个团有重叠部分，则将上一行与它重叠那个团的标号赋给它；如果它与上一行的2个及以上的团有重叠部分，则将与它重叠的上一行的团的最小标号赋给它。并将上一行的这几个团的标记写入等价对，说明它们属于一类；

3)将等价对转换为等价序列，由于它们都是等价的，每一个序列需要给一个相同的标号，从1开始，给每一个等价序列一个标号；

4)逐一历遍所有团的标记，查找相应的等价序列，给予它们新的标记；

5)遍历结束后，将拥有同一标记的团划分进一个连通区，搜索得到所有的连通区域；

步骤4.2，依据工程图纸的字符特征，通过设定长宽比例、最大长宽大小，近邻连接距离对连通区域进行度量，最后进行连通区域的筛选、合并，得到单一字符定位结果。

进一步的，步骤5的具体实现包括如下子步骤，

步骤5.1，获得步骤4中单一字符外接矩形框的起点坐标、宽度、高度、中心点坐标参数，并将所有字符的外接矩形框根据中心点坐标，从左至右，从上至下排序，按排序对每一个字符连通区域进行处理，将第一个字符外接矩形区域设为标号1，代表属于第一个字符串；对于除第一个外的其它所有字符外接矩形区域，如果它与前面的字符区域的中心点距离大于设定的同一字符串最大距离，则赋予它一个新的标号，它属于另一个新的字符串；如果它与排序之前的字符区域存在一个(或一个以上)的中心点距离在设定的同一字符串最大距离之内，则这些字符属于同一字符串，并赋予当前字符区域一个满足要求的字符区域标号；对所有标号进行整理，同一标号属于同一字符串，得到字符串组合；

步骤5.2，利用最小二乘法找到字符串中各字符外接矩形框的中心点的拟合直线，依据拟合直线的斜率可判断字符串走向，将斜向字符串旋转相应的角度至水平方向。

进一步的，步骤6中采用圆形霍夫变换算法查找矫正后图像中的圆圈，

以(a,b)为圆心，r为半径的圆的方程为

(x-a)²+(y-b)²＝r²

将此方程改写为参数形式

a＝x-r cosθ,b＝y-r sinθ,θ∈[0,2π)

其中，a和b是圆心的横纵坐标，r为圆的半径，θ是圆上一点和圆心所在直线与x轴的夹角。将每个圆上的点(x,y)映射到(a,b,r)参数空间中可以得一个二次曲面，在参数空间里建立一个累加器H(a,b,r)，初始化累加器的元素值为0，设待检测圆的半径的取值范围为r∈[r₁,r₂]，遍历二值图像中的所有点，找到对应参数空间内的所有取值，对H(a,b,r)累加器进行累加，累加器的值越大，表示二值图像中存在以(a,b)为圆心，以r为半径的圆的可能性越大；对累加器进行局部峰值检测，得到图像内所有可能圆的参数，从而找到图纸中所有可能存在的圆形。

进一步的，步骤7中在MatConvNet框架下构建卷积神经网络，该网络的结构包括：卷积层C1，下采样层S1，卷积层C2，下采样层S2，卷积层C3以及Softmax层，输入图像的大小为20×20，输出为一个1×1×ClassNum的矩阵，矩阵的每个元素表示输入图像属于某一类别字符的概率，最大概率对应的类别即表示输入图像所属的类别。

与现有算法相比，本发明具有下述优点：

1)能够识别任意方向的字符文字。本发明能对字符区域准确定位，通过计算字符串中各字符外接矩形的中心点的拟合直线判断字符串的走向，将斜向字符串进行旋转矫正，从而解决了字符多向性问题。

2)能够满足实时性。本发明采用数学形态学方法对工程图纸进行版面分析，将整幅图像划分成相应的区域，然后只对不同的局部区域进行文本识别，提高了处理速度和时间效率。

3)字符识别的准确率高。本发明采用卷积神经网络的方法，比传统的模板匹配方法精确度更高。

附图说明

图1是本发明实施例的实现流程图；

图2是本发明实施例中用于字符识别的卷积神经网络结构的示意图；

图3是本发明分割表格框的结果图，其中图面、材料表和标题栏区域的具体内容省略，只显示表格框；

图4是本发明实施例用圆形霍夫变换提取圆形焊道号的效果图；

图5是本发明实施例字符识别结果图，其中圆形焊道号旁边的灰底数字为识别焊道号里面数字的结果。

具体实施方式

以下参照附图，对本发明的技术方案和效果作进一步的详细说明。

参照图1，本发明实施例提供的一种基于卷积神经网络的字符识别方法的实现步骤如下：

步骤1：采用基于Ostu法的最佳阈值处理对工程图纸扫描文档二值化，将工程图纸扫描文档中的图文与背景分离；

具体步骤如下：

用{0，1，2，...,L-1}表示一幅扫描图像中的L个不同的灰度级，计算输入图像的归一化直方图，用p_i,i＝0,1,2,...,L-1表示该直方图，假设选择一个阈值k，在k处将图像分为为C₀＝{0,1,...,k}和C₁＝{k+1,k+2,...,L-1}两组，则像素被分到C₀组和C₁组中概分别为:

C₀和C₁的灰度平均值分别为：

整幅图像的灰度平均值为：

μ＝μ₀ω₀+μ₁ω₁

计算出C₀和C₁两组间的方差：

σ²＝ω₀(μ₀-μ)²+ω₁(μ₁-μ)²＝ω₀ω₁(μ₁-μ₀)²

在L个不同的灰度级中寻找最佳阈值k^*，将使σ²最大的k^*作为最佳阈值，利用该最佳阈值将文档图像转换为二值图像。

步骤2：由于扫描过程中不可避免的会出现倾斜扫描的问题，因此利用霍夫变换找到步骤1中二值化扫描文档图像的倾斜角，本实施例中只检测水平方向和垂直方向变动在正负5角度以内范围的倾斜角，然后采用双线性插值对倾斜的图像进行旋转矫正；

具体步骤如下：

在图像空间里，所有经过点(x,y)的直线都可以采用极坐标方程表示：

ρ＝x cosθ+y sinθ,0≤θ≤π

其中ρ是原点到直线的距离，θ是直线和x轴的夹角。在参数空间ρ,θ里建立一个累加器H(ρ,θ)，初始化累加器的元素值为0，对图像内的任意一点(x,y)，找到对应ρ,θ参数空间内的ρ,θ的所有取值，对累加器H(ρ,θ)进行累加，然后，对累加器H(ρ,θ)进行局部峰值检测，得到图像内所有直线的ρ,θ参数。为了减少多余信息的干扰，只考虑图像中靠近上边界区域内的直线，找到该部分图像内最长的直线l，l的参数θ即为扫描文档的倾斜角。最后，采用双线性插值法对图像进行旋转，完成倾斜矫正。

步骤3：采用数学形态学处理提取出矫正后图像中的表格框线，将图像分割为图面、材料表和标题栏3个区域；

在进行工程图纸扫描文档的识别时，要先对文档图像进行区域划分，即将整幅图像分成相应的区域，识别完成之后，需要对不同区域分别进行纠错处理。工程图纸的版面是由一个复杂表格组成，可将区域划分转换为表格检测。

具体步骤如下：

步骤3.1：检测出表格框线，包括垂直框线和水平框线。采用垂直方向的线性结构元[1 1 1]^T和水平方向的线性结构元[1 1 1]对输入的扫描文档图像先腐蚀再膨胀，再对结果做骨架化处理，将所有水平和垂直的线段细化为线段宽度为一个像素的单线，得到垂直框线图像I₁和水平框线图像I₂。

步骤3.2：求出框线交点。对垂直框线图像I₁和水平框线图像I₂作与运算，得到表格框线的交点。

步骤3.3：提取表格框。对于每一个交点，检测出同一水平位置附近的其他交点及同一垂直位置附近得的其他交点，根据距离依次进行匹配，找到每个正确表格框。如果存在一个交点A，和同一水平位置附近的交点B以及同一垂直位置附近的交点C构成一个矩形，且该矩形四条边所在的位置均存在表格框线，即检测出来矩形的四条边和表格框线重合，则整体表格中存在一个以交点A为左上角点，AB距离为长，AC距离为宽的表格框。依次对表格框线的交点进行上述处理，可提取到每一个正确的表格框。

步骤3.4：将提取的表格框中面积最大的表格框划分为图面区域，面积次之的表格框划分为材料表区域，整个图像下方包括多个表格框的区域组成标题栏区域。图3为表格框分割结果，如图所示，将右侧面积最大的表格框划分为图面区域，将图面区域左侧面积次之的表格框划分为材料表区域，材料表和图面下方的所有表格框组成标题栏区域。

步骤4：搜索步骤2中矫正图像中所有的连通区域，再依据图像中所标记连通区域的形状和近邻位置等特征筛选、合并连通区域来定位字符区域；

具体步骤如下：

步骤4.1：采用基于行程的连通域标记算法搜索步骤2中矫正图像中所有的连通区域；搜索步骤如下：

1)逐行扫描步骤2中的矫正图像，将每一行中连续的白色像素组成一个序列，称为一个团，并记录下它的起点、终点及行号。

2)从第二行开始，遍历每一行里的团，如果某一行中的团与上一行中的团没有重叠，则给它一个新的标号；如果仅与上一行中一个团有重叠部分，则将上一行与它重叠那个团的标号赋给它；如果它与上一行的2个及以上的团有重叠部分，则将与它重叠的上一行的团的最小标号赋给它。并将上一行的这几个团的标记写入等价对，说明它们属于一类。

3)将等价对转换为等价序列，由于它们都是等价的，每一个序列需要给一个相同的标号，从1开始，给每一个等价序列一个标号。

4)逐一历遍所有团的标记，查找相应的等价序列，给予它们新的标记。

5)遍历结束后，将拥有同一标记的团划分进一个连通区，搜索得到所有的连通区域。

步骤4.2：根据步骤4.1中搜索得到的连通区域的形状和近邻位置等特征对连通区域进行筛选、合并等操作，从而获得字符区域。对于工程图纸中的字符而言，连通区域应该符合一定的高度、宽及相互间比例特征。依据工程图纸的字符特征，通过设定长宽比例、最大长宽大小，近邻连接距离等对连通区域进行度量，长宽比例的范围设置为1.5～2，最大长度为12，最大宽度为7，近邻连接距离为3，最后进行区域的筛选、合并，得到单一字符定位结果。

步骤5：将单个字符组合成字符串，计算字符串中各字符外接矩形的中心点的拟合直线，依据拟合直线的斜率判断字符串的走向，将斜向字符串旋转相应的角度至水平方向，以降低字符识别的难度。

具体步骤如下：

步骤5.1：先通过基于连通域的字符定位，定位各单一字符，得到字符外接矩形框的起点坐标、宽度、高度、中心点坐标等参数。并将所有字符的外接矩形框根据中心点坐标，从左至右，从上至下排序，按序对每一个字符连通区域进行处理，将第一个字符外接矩形区域设为标号1，代表属于第一个字符串。对于除第一个外的其它所有字符外接矩形区域，如果它与前面中的字符区域的中心点距离大于设定的同一字符串最大距离，则赋予它一个新的标号，它属于另一个新的字符串；如果它与排序之前的字符区域存在一个(或一个以上)的中心点距离在设定的同一字符串最大距离之内，则这些字符属于同一字符串，并赋予当前字符区域一个满足要求的字符区域标号。对所有标号进行整理，同一标号属于同一字符串，得到字符串组合。

步骤5.2：利用最小二乘法找到字符串中各字符外接矩形框的中心点的拟合直线，依据拟合直线的斜率可判断字符串走向，将斜向字符串旋转相应的角度至水平方向。

步骤6：采用圆形霍夫变换的算法来查找矫正后图像中的圆圈，提取工程图纸中的焊道号，圆形焊道号的提取结果如图4所示；

具体步骤如下：

以(a,b)为圆心，r为半径的圆的方程为

(x-a)²+(y-b)²＝r²

将此方程改写为参数形式

a＝x-r cosθ,b＝y-r sinθ,θ∈[0,2π)

其中，a和b是圆心的横纵坐标，r为圆的半径，θ是圆上一点和圆心所在直线与x轴的夹角。将每个圆上的点(x,y)映射到(a,b,r)参数空间中可以得一个二次曲面，在参数空间里建立一个累加器H(a,b,r)，初始化累加器的元素值为0，设待检测圆的半径的取值范围为r∈[r₁,r₂]，遍历二值图像中的所有点，找到对应参数空间内的所有取值，对H(a,b,r)累加器进行累加，累加器的值越大，表示二值图像中存在以(a,b)为圆心，以r为半径的圆的可能性越大。对累加器进行局部峰值检测，得到图像内所有可能圆的参数，从而找到图纸中所有可能存在的圆形。焊道号一般为半径在一定范围内的圆圈，找出图形中的圆圈后可以提取出焊道号。

步骤7：制作工程图纸字符数据集，在MatConvNet框架下构建卷积神经网络，利用网络训练得到的模型识别图纸中的字符，字符识别结果如图5所示；

具体步骤如下：

步骤7.1：从工程图纸中提取将近2000个字符进行标记，构成数据集，将数据集分成训练集和测试集两个部分，分别占数据集的80％和20％。

步骤7.2：在MatConvNet下搭建用于识别字符的CNN网络。步骤7.2：在MatConvNet下搭建用于识别字符的CNN网络。如图2所示，可以看出，用于字符识别的卷积层的结构包括：卷积层C1，下采样层S1，卷积层C2，下采样层S2，卷积层C3以及Softmax层，输入图像的大小为20×20，输出为一个1×1×ClassNum(ClassNum代表类别数目)的矩阵。此CNN模型的输入为20×20的字符图像，经过第一层卷积层C1，其规模为20个3×3的卷积核，得到20张大小为18×18的特征图，接下来传送至第一个2×2的最大池化层，经过这个最大池化层，特征图的规模缩小为9×9×20，在此加入了一个ReLU激活函数，处理之后特征图的空间大小不变。然后将特征图输入到第二层卷积层，其中包含3×3的卷积核20×100个，再将尺寸为7×7×100的特征图送至第二层池化层进行特征压缩，得到特征图的大小为3×3×100，然后由ReLU激活函数处理。再进入第三层卷积核为3×3的卷积层，其卷积核的数目为100×ClassNum，最后经过一个Softmax回归，输出的每一维都是输入图像属于该类别的概率，其最大概率所属类别为预测类别，即字符完成识别。

步骤8：通过编码规则修正简单错误，自动纠正识别错误。

详细步骤如下：

根据步骤3中提取出的表格框，可以将整个图纸版面划分成图面，材料表和标题栏，对不同的区域设置不同的编码规则，例如，图面区域的检测结果应该为数字，值类型为数字的字符串中不可能存在o、i、l等字母，将其直接替换为0、1、1。此外，材料表和标题栏中的图号、管线号、等级、Item Code等存在完整的列表，它们的识别结果一定会在列表中，将识别结果与值进行对比，对不在列表中的识别结果与列表值计算相似度，相似度高于90％，就用列表值替换识别结果。

步骤9：输出包含工程图纸信息的XML文件，存储图纸数据。

应当理解的是，本说明书未详细阐述的部分均属于现有技术。

本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims

1.一种基于卷积神经网络的字符识别方法，其特征在于，包括如下步骤：

步骤9，输出并存储所有识别获得的图纸数据。

2.如权利要求1所述的一种基于卷积神经网络的字符识别方法，其特征在于：步骤1中采用基于Ostu法的最佳阈值处理对工程图纸扫描文档二值化，具体实现方式如下，

C₀和C₁的灰度平均值分别为：

整幅图像的灰度平均值为：

μ＝μ₀ω₀+μ₁ω₁

计算出C₀和C₁两组间的方差：

σ²＝ω₀(μ₀-μ)²+ω₁(μ₁-μ)²＝ω₀ω₁(μ₁-μ₀)²

3.如权利要求1所述的一种基于卷积神经网络的字符识别方法，其特征在于：步骤2中利用利用霍夫变换找到二值图像的倾斜角，具体实现方式如下，

ρ＝x cosθ+y sinθ,0≤θ≤π

其中ρ是原点到直线的距离，θ是直线和x轴的夹角；

4.如权利要求1所述的一种基于卷积神经网络的字符识别方法，其特征在于：步骤3的具体实现包括如下子步骤，

5.如权利要求1所述的一种基于卷积神经网络的字符识别方法，其特征在于：步骤4的具体实现包括如下子步骤，

6.如权利要求1所述的一种基于卷积神经网络的字符识别方法，其特征在于：步骤5的具体实现包括如下子步骤，

7.如权利要求1所述的一种基于卷积神经网络的字符识别方法，其特征在于：步骤6中采用圆形霍夫变换算法查找矫正后图像中的圆圈，

以(a,b)为圆心，r为半径的圆的方程为

(x-a)²+(y-b)²＝r²

将此方程改写为参数形式

a＝x-r cosθ,b＝y-r sinθ,θ∈[0,2π)

8.如权利要求1所述的一种基于卷积神经网络的字符识别方法，其特征在于：步骤7中在MatConvNet框架下构建卷积神经网络，该网络的结构包括：卷积层C1，下采样层S1，卷积层C2，下采样层S2，卷积层C3以及Softmax层，输入图像的大小为20×20，输出为一个1×1×ClassNum的矩阵，矩阵的每个元素表示输入图像属于某一类别字符的概率，最大概率对应的类别即表示输入图像所属的类别。