CN109271998A

CN109271998A - 字符识别方法、装置、设备及存储介质

Info

Publication number: CN109271998A
Application number: CN201811011384.1A
Authority: CN
Inventors: 熊兴发; 孔令晏
Original assignee: Mobil (tianjin) Big Data Technology Co Ltd
Current assignee: Mobil (tianjin) Big Data Technology Co Ltd
Priority date: 2018-08-31
Filing date: 2018-08-31
Publication date: 2019-01-25

Abstract

本发明涉及一种字符识别方法、装置、设备及存储介质，应用于字符识别技术领域，解决了相关技术中在识别字符时，当多个字符重叠，无法将多个字符切割为单个字符，导致识别效果差的问题；其中，字符识别方法包括获取待识别图像，待识别图像中包含待识别字符，采用预先训练的字符识别模型将待识别图像整体抽取图像特征向量，并根据图像特征向量识别待识别图像上的待识别字符，获取字符识别模型识别得到的识别字符；主要应用于字符识别。

Description

字符识别方法、装置、设备及存储介质

技术领域

本发明涉及字符识别技术领域，具体涉及字符识别方法、装置、设备及存储介质。

背景技术

随着信息技术的发展，在日常生活中常常需要用到字符识别技术。字符往往存储在图片中，传统方法上对于普通字符图像依赖于扫描仪或数码相机进行识别，其方式通常需要将含有字符的图片采用字符分割，然后使用模板进行匹配，但是，当多个字符重叠时，这种方式无法将多字符切割为单个字符，进而无法准确识别字符。

发明内容

有鉴于此，本发明的目的在于克服现有技术中在识别字符时，当多个字符重叠，无法将多个字符切割为单个字符，导致识别效果差的问题，提供一种字符识别方法、装置、设备及存储介质。

为实现以上目的，本发明采用如下技术方案：

第一方面，一种字符识别方法，包括：

获取待识别图像；所述待识别图像中包含待识别字符；

采用预先训练的字符识别模型将所述待识别图像整体抽取图像特征向量，并根据所述图像特征向量识别所述待识别图像上的待识别字符；

获取所述字符识别模型识别得到的识别字符。

可选的，还包括：

获取训练图像单元和所述训练图像单元的标注信息；其中，所述训练图像中包含字符图样；所述标注信息包括所述字符图样对应的有序字符：

采用所述训练图像单元和所述标注信息，训练得到所述字符识别模型。

可选的，所述字符识别模型为卷积神经网络模型，所述卷积神经网络模型包括至少一个卷积块，每个所述卷积块包括：

卷积层；

与所述卷积层连接的批量正规化修正层；

与所述批量正规化修正层连接的激活函数层。

可选的，所述卷积层为两层的3×3卷积层。

可选的，所述激活函数层为ReLU非线性激活函数。

可选的，所述卷积神经网络模型还包括：平均池化层。

可选的，所述卷积块为4个。

第二方面，一种字符识别装置，包括：

第一获取模块，用于获取待识别图像；所述待识别图像中包含待识别字符；

抽取模块，用于采用预先训练的字符识别模型将所述待识别图像整体抽取图像特征向量；

识别模块，用于根据所述图像特征向量识别所述待识别图像上的待识别字符；

第二获取模块，用于获取所述字符识别模型识别得到的识别字符。

可选的，还包括：

第三获取模块，用于获取训练图像单元和所述训练图像单元的标注信息；其中，所述训练图像中包含字符图样；所述标注信息包括所述字符图样对应的有序字符；

训练模块，用于采用所述训练图像单元和所述标注信息，训练得到所述字符识别模型。

卷积层；

与所述卷积层连接的批量正规化修正层；

与所述批量正规化修正层连接的激活函数层。

可选的，所述卷积层为两层的3×3卷积层。

可选的，所述激活函数层为ReLU非线性激活函数。

可选的，所述卷积神经网络模型还包括：平均池化层。

可选的，所述卷积块为4个。

第三方面，一种字符识别设备，包括：

处理器，以及与所述处理器相连接的存储器；

所述存储器用于存储计算机程序，所述计算机程序用于至少执行第一方面所述的字符识别方法的任一步骤；

所述处理器用于调用并执行所述存储器中的所述计算机程序。

第四方面，一种存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时，实现第一方面所述的字符识别方法的任一步骤。

本发明采用以上技术方案，采用预训练的字符识别模型可以将获取的待识别图像整体抽取图像特征向量，通过图像特征向量便可以识别出获取的待识别图像上的待识别字符，从而得到识别的字符，完成识别；当多个字符重叠时，由于是将字符的特征向量抽取出来，并不会产生由于切割而无法得到单个字符的情况，识别效果更加准确。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例一提供的字符识别方法的流程示意图。

图2是本发明实施例二提供的字符识别方法的流程示意图。

图3是本发明实施例三提供的字符识别装置的结构示意图。

图4是本发明实施例四提供的字符识别设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将对本发明的技术方案进行详细的描述。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施方式，都属于本发明所保护的范围。

实施例一

图1是本发明实施例一提供的字符识别方法。如图1所示，本实施例提供一种字符识别方法，包括：

步骤101、获取待识别图像；待识别图像中包含待识别字符；

步骤102、采用预先训练的字符识别模型将待识别图像整体抽取图像特征向量，并根据图像特征向量识别待识别图像上的待识别字符；

步骤103、获取字符识别模型识别得到的识别字符。

本实施例中，采用预训练的字符识别模型可以将获取的待识别图像整体抽取图像特征向量，通过图像特征向量便可以识别出获取的待识别图像上的待识别字符，从而得到识别的字符，完成识别；当多个字符重叠时，由于是将字符的特征向量抽取出来，并不会产生由于切割而无法得到单个字符的情况，识别效果更加准确。

实施例二

基于上述实施例，本发明实施例二提供另一种字符识别方法的实施例，结合图1、图2，该方法包括：

步骤101、获取待识别图像；待识别图像中包含待识别字符；

本步骤中，预训练的字符识别模型可以将获取的待识别图像整体抽取图像特征向量，通过图像特征向量便可以识别出待识别图像上的待识别字符，

具体的，预训练字符识别模型的方法，包括以下步骤：

步骤201、获取训练图像单元和训练图像单元的标注信息；其中，训练图像中包含字符图样；标注信息包括字符图样对应的有序字符；

其中，训练图像单元包含的字符图样的种类有多种，例如，可以包括数字、字母和文字，通过标注工具对训练图像单元进行标注，从而获取训练图像单元中的标注信息，标注信息中包括字符图样对应的有序字符标签。训练图像单元的数量可依据实际情况进行选择，本实施例中，训练图像单元的可以但不限于为800张图像样本。

对训练图像单元进行训练时，可以以50个训练图像样本作为一个批次进行训练。

步骤202、采用训练图像单元和标注信息，训练得到字符识别模型；

本实施例中，字符识别模型为卷积神经网络模型，卷积神经网络模型包括至少一个卷积块，每个卷积块包括：卷积层；与卷积层连接的批量正规化修正层；与批量正规化修正层连接的激活函数层。

相关技术中，LeNet中的卷积块使用的是卷积核尺寸为5×5的卷积操作、Sigmoid激活函数。

本实施例中，使用了两层3×3的卷积操作，相关技术中使用LeNet中的5×5的卷积操作，来控制卷积参量。本实施例中以两层3×3的卷积操作替代了相关技术中5×5的卷积操作。本实施例中的卷积操作可以将卷积操作的参数量从5×5×1＝25个减少到3×3×2＝18个，通过对训练图像单元进行双卷积操作，可以使卷积层数的加深，还可以使字符识别模型能够得到更精细的特征抽取效果。

为了防止每次双卷积操作后的数据偏移，对双卷积结果输入与卷积层相连接的批量正规化修正层。使用批量正规化(Batch Normalization，BN)操作对数据进行修正，在LeNet中数据并没有进行这种修正，由于每经过一次卷积操作，图像数据的分布都会产生较大的波动，使得字符识别模型的梯度消失甚至***，为了让每次卷积后的数据限定在一定范围内，将每一次卷积后的结果进行了归一化。修正后的数据为：

式中：x为当前卷积后的数据，μ、σ分别为当前x所在数据的均值和方差，α为BN对于数据的缩放比例，β为偏移量，∈为常数，0<∈<0.1。

需要说明的是，当α为1，β为0时BN便可以不对卷积后的数据进行修正，因此在卷积神经网络中α和β均为需要被训练的参数，具体的，α和β在训练字符识别模型时进行训练。

将修正后的数据输入与批量正规化修正层连接的激活函数层。采用ReLU非线性激活函数替代了LeNet中的Sigmoid激活函数，由于Sigmoid函数的导数的计算要比ReLU复杂，另外Sigmoid函数的非零导数区间十分狭窄，限制了模型的表现能力，而ReLU不存在上述问题。

其中，Sigmoid激活函数为：

ReLU非线性激活函数为：ReLu(y)＝max(0,y)；式中，y为上述修正后的数据。

基于上述相关实施例，卷积块的数量可以但不限于为4个。

进一步的，卷积神经网络模型还包括平均池化层。

基于上述相关实施例，当4层卷积块对训练图像单元操作完成之后，通过平均池化层来抽取图像特征向量。

本实施例中，未使用LeNet中占有80％以上参数量的全连接层，而采用平均池化层来抽取图像特征向量，提高了计算速度，使用平均池化后不但可以在仅保留部分有效通道的情形下保证字符识别模型最终的计算效果，而且还能够提升字符识别模型的稳定性和高效性。

具体的，采用训练图像单元和标注信息，训练得到字符识别模型，具体包括：

1)对图像特征向量进行分类；

本步骤中，使用softmax分类器对抽取的图像特征向量进行分类，分类后的图像特征向量即为字符识别模型所识别出的图像特征向量。

2)将图像特征向量与标注信息进行运算；

本步骤中，将图像特征向量映射为标签值，即为字符识别模型识别的标签值，通过将识别的标签值与标注信息的字符标签值使用交叉熵损失函数进行运算，便可得知字符识别模型识别效果的正确程度，其中，交叉熵损失函数为：

式中：m为训练图像样本的数量，z为第i个训练图像样本的字符标签值，为字符识别模型识别的第i个样本的识别的标签值。

3)根据运算结果修正字符识别模型，并统计修正次数；

基于上述相关实施例，根据上述交叉熵函数运算的Loss值，使用Adam梯度下降优化器对字符识别模型中的参数进行修正，并统计修正次数。

4)将修正次数和/或运算结果分别与预设值进行比较；

将运算后的Loss值与预设的Loss值进行比较，其中预设的Loss值可根据实际情况进行设置，例如，可以为0.01或0.001。也可以将修正次数与预设修正次数进行比较，其中，预设修正次数可以为修正的上限次数，本实施例中预设修正次数为800次。

5)若预设值小于修正次数和/或运算结果，则停止修正。

当预设的Loss值小于运算后的Loss值时，则表示字符识别模型的识别精度已经成熟，或当预设修正次数小于修正次数时，已经对字符识别模型的参数修正到较佳，如此便可以停止对字符识别模型的修正，以此结束对字符识别模型的训练。

基于上述相关实施例，将字符识别模型训练完成后，为验证字符识别模型是否符合要求，发明人还提供了对字符识别模型进行测试的方案，具体包括：

1)获取测试图像单元；

为检验字符识别模型对于更广泛字符情形的泛化性，发明人还提供了对字符识别模型进行测试的步骤。其中，获取的测试图像单元的数量也可根据实际情况进行选择，本实施例中，测试图像单元的数量为200张图像样本。

2)通过测试图像单元对字符识别模型进行测试；

将所有测试图像单元输入字符识别模型，将输出的识别得到的识别字符与标注信息进行比对，得到具有一定统计意义的识别正确率信息，根据识别正确率与阈值的比对来判断测试结果是否合格；

3)若测试结果为合格，则保存字符识别模型；

字符识别模型合格后便可以将其部署至服务器中，作为服务进程接收图像单元的识别请求来返回识别结果。

若测试结果为不合格，则执行步骤201。

步骤103、获取字符识别模型识别得到的识别字符。

基于上述相关实施例，将待识别的图像通过训练后的字符识别模型进行识别后，便可以获取到字符识别模型识别得到的识别字符。

基于上述相关实施例，本申请可应用于字符识别，具体的，可以应用于验证码识别。目前，各网站使用的验证码一般为数字与字母组合的形式，通过本申请的字符识别方法，可以准确的将验证码识别出来，为一些残障人士访问某些网站提供了技术便利，同时，也可以督促网络安全中的人机验证能够更加的智能和高效。

实施例三

图3是本申请一个实施例提供的一种字符识别装置的结构示意图。参照图3，本申请实施例的提供了一种字符识别装置，包括：

第一获取模块301，用于获取待识别图像；待识别图像中包含待识别字符；

抽取模块302，用于采用预先训练的字符识别模型将待识别图像整体抽取图像特征向量；

识别模块303，用于根据图像特征向量识别待识别图像上的待识别字符；

第二获取模块304，用于获取字符识别模型识别得到的识别字符。

可选的，还包括：

第三获取模块，用于获取训练图像单元和训练图像单元的标注信息；其中，训练图像中包含字符图样；标注信息包括字符图样对应的有序字符；

训练模块，用于采用训练图像单元和标注信息，训练得到字符识别模型。

可选的，字符识别模型为卷积神经网络模型，卷积神经网络模型包括至少一个卷积块，每个卷积块包括：

卷积层；

与卷积层连接的批量正规化修正层；

与批量正规化修正层连接的激活函数层。

可选的，卷积层为两层的3×3卷积层。

可选的，激活函数层为ReLU非线性激活函数。

可选的，卷积神经网络模型还包括：平均池化层。

可选的，卷积块为4个。

实施例四

图4是本申请一个实施例提供的一种字符识别设备的结构示意图。参照图4，本申请实施例的提供了一种字符识别设备，包括：

处理器401，以及与处理器相连接的存储器402；

存储器用于存储计算机程序，计算机程序用于至少执行的字符识别方法的各个步骤；

处理器用于调用并执行存储器中的计算机程序。

本实施例的具体实现方案可以参见前述实施例一和实施例二记载的字符识别方法实施例中的相关说明，此处不再赘述。

实施例五

本发明实施例提供一种存储介质，存储介质存储有计算机程序，计算机程序被处理器执行时，实现如字符识别方法中各个步骤。本实施例的具体实现方案可以参见上述字符识别方法实施例中的相关说明，此处不再赘述。

可以理解的是，上述各实施例中相同或相似部分可以相互参考，在一些实施例中未详细说明的内容可以参见其他实施例中相同或相似的内容。

需要说明的是，在本发明的描述中，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本发明的描述中，除非另有说明，“多个”的含义是指至少两个。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行装置执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种字符识别方法，其特征在于，包括：

获取待识别图像；所述待识别图像中包含待识别字符；

获取所述字符识别模型识别得到的识别字符。

2.根据权利要求1所述的字符识别方法，其特征在于，还包括：

3.根据权利要求1或2所述的字符识别方法，其特征在于，所述字符识别模型为卷积神经网络模型，所述卷积神经网络模型包括至少一个卷积块，每个所述卷积块包括：

卷积层；

与所述卷积层连接的批量正规化修正层；

与所述批量正规化修正层连接的激活函数层。

4.根据权利要求3所述的方法，其特征在于，所述卷积层为两层的3×3卷积层。

5.根据权利要求3所述的方法，其特征在于，所述激活函数层为ReLU非线性激活函数。

6.根据权利要求3所述的方法，其特征在于，所述卷积神经网络模型还包括：平均池化层。

7.根据权利要求3所述的方法，其特征在于，所述卷积块为4个。

8.一种字符识别装置，其特征在于，包括：

9.一种字符识别设备，其特征在于，包括：

处理器，以及与所述处理器相连接的存储器；

所述存储器用于存储计算机程序，所述计算机程序用于至少执行权利要求1-7任一项所述的字符识别方法；

10.一种存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时，实现如权利要求1-7任一项所述字符识别方法中各个步骤。