CN110458170A

CN110458170A - 一种强噪声复杂背景图像中的汉字定位及识别方法

Info

Publication number: CN110458170A
Application number: CN201910731914.8A
Authority: CN
Inventors: 蔡浩; 陈小明; 孙浩军; 张承钿; 姚浩生; 胡超; 刘正阳; 梁道远; 曾鑫; 白璐
Original assignee: Guangdong Thirty Nine Eight Big Data Technology Co Ltd; Shantou University
Current assignee: Guangdong Thirty Nine Eight Big Data Technology Co Ltd; Shantou University
Priority date: 2019-08-06
Filing date: 2019-08-06
Publication date: 2019-11-15

Abstract

本发明公开了一种强噪声复杂背景图像中的汉字定位及识别方法，该定位方法包括：先采集包含汉字的强噪声复杂背景图像，再根据采集数据样品，构建出神经网络模型，并以此训练和优化该神经网络模型的参数；对待定位的第一背景图像，通过训练好的神经网络模型对其进行尺寸调整，并筛选出相应的第一边界框集合和每个边界框对应的置信度，在根据置信度筛选出每个汉字对应的边界框，实现汉字定位。采用本发明技术方案能提高在强噪声复杂背景图像中汉字定位及识别的准确性。

Description

一种强噪声复杂背景图像中的汉字定位及识别方法

技术领域

本发明涉及计算机技术领域，尤其涉及一种强噪声复杂背景图像中的汉字定位及识别方法。

背景技术

自动识别图像、视频中的文字的计算机技术，具有广阔的应用场景，如在物流行业中，将物流快递运单进行快速扫描成像和自动识别，并提取出物流运单上的有效信息；在教育行业中，将图片中的文字信息转换为可编辑的Word文档；在安防行业中，对视频中出现的车牌等信息进行识别和提取。

在进行文字识别前需要先对图像中的文字进行定位，传统的OCR技术能够实现汉字的定位和识别，但是在具有复杂背景和变形文字的强噪声图片上，其识别效果并不理想，准确率较低，无法应用到具体的场景或行业中。

发明内容

本发明实施例提出一种强噪声复杂背景图像中的汉字定位及识别方法，能提高在强噪声复杂背景图像中汉字定位及识别的准确性。

本发明实施例提供一种强噪声复杂背景图像中的汉字定位方法，包括：

获取若干个包含汉字的背景图像，其中，每个汉字分别设置在其对应预设的矩形边界框内；所述背景图像为强噪音复杂背景图像；

以所述背景图像为输入，以矩形边界框和置信度为输出，构建神经网络模型；其中，每个矩形边界框对应一个置信度，每个置信度对应一个汉字类别；

获取待定位的第一背景图像，通过所述神经网络模型，调整所述第一背景图像的尺寸，并根据所述神经网络模型内设置的边框调整参数和默认边界框，确定所述第一背景图像的第一边界框集合；

分别计算所述第一边界框集合内各边界框对应的置信度，并通过所述神经网络模型，从所述第一边界框集合中筛选出N个边界框，以实现所述第一背景图像的汉字定位；其中，所述第一背景图像包含N个汉字，所述N个汉字分别一一对应所述N个边界框；N为正整数。

进一步的，以所述背景图像为输入，以矩形边界框和置信度为输出，构建神经网络模型，具体为：

构建初始模型，并以所述背景图像为输入，以矩形边界框和置信度为输出，对所述初始模型进行训练，调整并优化所述初始模型的尺寸调整参数、边框调整参数、重合度筛选参数、置信度计算参数，并根据优化后的参数，构建所述神经网络模型；

其中，所述尺寸调整参数用于供所述神经网络模型调整输入图像的尺寸；

所述边框调整参数用于供所述神经网络模型调整默认边界框的尺度和长宽比例；

所述重合度筛选参数用于供所述神经网络模型剔除高重合度的边界框；

所述置信度计算参数用于供所述神经网络模型计算每个边界框的置信度。

进一步的，所述通过所述神经网络模型，从所述第一边界框集合中筛选出N个边界框，具体为：

根据所述第一边界框集合内各边界框对应的置信度，筛选出分数最高的边界框box1，使用IoU方法剔除与边界框box1重合度高于所述重合度筛选参数的边界框，再从剩余的边界框中选出分数最高的边界框box2，按照相同的方法进行剔除，直到选出N个边界框。

进一步的，所述神经网络模采用扩展后的图像数据进行训练，以便于进一步优化所述神经网络模型的参数；

所述扩展后的图像数据为经过翻转操作的所述若干个背景图像和矩形边界框。

进一步的，所述翻转操作为随机水平翻转、随机竖直翻转、随机旋转和/或随机裁剪。

相应地，本发明实施例还提供一种强噪声复杂背景图像中的汉字识别方法，包括：

根据上文所述的强噪声复杂背景图像中的汉字定位方法，对若干个原始图像进行汉字定位，获得多个汉字定位框；

根据所述多个汉字定位框，对所述原始图像进行预处理，获得多个图像数据集；其中，每个图像数据集有且仅有一个汉字的多个汉字图像；

基于深度学习网络Inception V3，建立深度学习模型，并以所述多个图像数据集，优化所述深度学习模型的训练轮数、学习率、学习衰减率和训练批次；

在训练结束后，根据优化后的参数生成识别模型文件，以便于在获取到待识别图像时，通过所述识别模型文件，对所述待识别图像进行汉字识别。

进一步的，根据所述多个汉字定位框，对所述原始图像进行预处理，获得多个图像数据集，具体为：

根据汉字定位框对所述原始图像进裁剪，获得第一图像数据集；

剔除所述第一图像数据集中的错误图像数据，获得第二图像数据集；其中，所述错误图像数据为没有包含一个完整汉字的图像数据；

将每个汉字作为单独的汉字类别，并以此将所述第二图像数据集中的图像数据进行分类，以使每个汉字类别对应一个图像数据集；

由所有汉字类别分别对应的图像数据集组成所述多个图像数据集，并对每个汉字类别设置相应标签文件。

进一步的，在所述第二图像数据集分类完成之后，还包括：

对汉字类别对应的图像数据的数量少于预设的阈值的第三图像数据集，采用ImageDataGenerator方法对图像数据进行数据增强操作，以增加第三图像数据集中的图像数据的数量。

进一步的，在训练结束后，还包括：

根据优化后的参数生成权重文件；所述权重文件用于所述深度学习模型的再训练。

实施本发明实施例，具有如下有益效果：

本发明实施例提供的强噪声复杂背景图像中的汉字定位方法，先根据采集数据样品，构建出神经网络模型，并以此训练和优化该神经网络模型的参数；对待定位的第一背景图像，通过训练好的神经网络模型对其进行尺寸调整，并筛选出相应的第一边界框集合和每个边界框对应的置信度，在根据置信度筛选出每个汉字对应的边界框，实现汉字定位。相比于现有技术通过传统的OCR技术对强噪声复杂背景图像的定位不准确，本发明技术方案针对该类型的图像进采样并构建相应的神经网络模型，能够提高在强噪声复杂背景图像中汉字定位的准确性。

相应地，本发明提供的汉字识别方法，在本发明的汉字定位后，基于深度学习网络，构建识别模型文件，并以此对待识别图像进行汉字识别，能够在在强噪声复杂背景图像中汉字识别的准确性。

附图说明

图1是本发明提供的强噪声复杂背景图像中的汉字定位方法的一种实施例的流程示意图；

图2是本发明提供的强噪声复杂背景图像中的汉字识别方法的一种实施例的流程示意图；

图3是本发明提供的深度学习网络的一种实施例的网络结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

参见图1，是本发明提供的强噪声复杂背景图像中的汉字定位方法的一种实施例的流程示意图。该示意图更详细、更具体的步骤包括步骤101至104，具体如下：

步骤101：获取若干个包含汉字的背景图像，其中，每个汉字分别设置在其对应预设的矩形边界框内；背景图像为强噪音复杂背景图像。

在本实施例中，通过编写网络爬虫程序，自动抓取大量图像，这些图像均为包含汉字的背景图，且均为强噪音复杂背景图像。本发明定义的强噪声复杂背景图像：在复杂背景下的强噪声图像。复杂背景一般指自然背景照片、艺术画作、风景等为单独背景或多种背景的叠加。强噪声图像指目标被白噪声、扭曲变形、旋转等人为或自然的干扰后得到的图像。

对抓取的背景图像进行预处理，具体为：将图像中的汉字用矩形边界框框起来，并连同图像保存为为Pascal VOC的标准格式，然后将该数据集转换为一个TFRecord文件用于训练。

步骤102：以背景图像为输入，以矩形边界框和置信度为输出，构建神经网络模型；其中，每个矩形边界框对应一个置信度，每个置信度对应一个汉字类别。

在本实施例中，步骤102具体为：构建初始模型，并以背景图像为输入，以矩形边界框和置信度为输出，对初始模型进行训练，调整并优化初始模型的尺寸调整参数、边框调整参数、重合度筛选参数、置信度计算参数，并根据优化后的参数，构建神经网络模型。

在本实施例中，构建的神经网络模型的网络架构为SSD，特征提取器为MobileNet。本发明构建的神经网络模型将一个汉字作为一个单独的类别，将背景作为一个单独的类别(表示图像不属于任何已知类别)，num_classes表示所有汉字类别的数量。对于一个图像输入，模型会输出多个边界框和置信度。每个边界框对应有num_classes+1个置信度，一个置信度对应一个类别。

在本实施例中，尺寸调整参数用于供神经网络模型调整输入图像的尺寸。由于本发明涉及的图像具有固定的尺寸，避免因图像的缩放影响定位效果。

在本实施例中，边框调整参数用于供神经网络模型调整默认边界框的尺度和长宽比例。在本发明中，汉字的边界框的尺度和长宽比例一般在某个范围之内，因此可根据样品的相关信息，调整该参数。

在本实施例中，重合度筛选参数用于供神经网络模型剔除高重合度的边界框。置信度计算参数用于供神经网络模型计算每个边界框的置信度。

步骤103：获取待定位的第一背景图像，通过神经网络模型，调整第一背景图像的尺寸，并根据神经网络模型内设置的边框调整参数和默认边界框，确定第一背景图像的第一边界框集合。

在本实施例中，在构建并训练好神经网络模型后，获取待定位的第一背景图像，输入到神经网络模型。神经网络模型会根据默认边界框和边框调整参数，输出回归系数，然后利用回归系数对默认框的位置和尺寸进行微调，形成若干个第一边界框，组成第一边界框集合。

步骤104：分别计算第一边界框集合内各边界框对应的置信度，并通过神经网络模型，从第一边界框集合中筛选出N个边界框，以实现第一背景图像的汉字定位；其中，第一背景图像包含N个汉字，N个汉字分别一一对应N个边界框。

在本实施例中，根据置信度计算参数，分别计算第一边界框集合内各边界框对应的置信度，并通过非极大化抑制方法(NMS)筛选出高质量的边界框。

在本实施例中，通过所述神经网络模型，从所述第一边界框集合中筛选出N个边界框，具体为：根据第一边界框集合内各边界框对应的置信度，筛选出分数最高的边界框box1，使用IoU方法剔除与边界框box1重合度高于所述重合度筛选参数的边界框，再从剩余的边界框中选出分数最高的边界框box2，按照相同的方法进行剔除，直到选出N个边界框。N为正整数。

在本实施例中，重合程度使用交并比(IoU)的概念来定义，即用两个边界框的交集面积除以并集面积，根据计算结果来衡量两个边界框的重合程度。

在本实施例中，为了增加样本数量，神经网络模型还可以采用扩展后的图像数据进行训练，以便于进一步优化神经网络模型的参数。扩展后的图像数据为经过翻转操作的若干个背景图像和矩形边界框。翻转操作为随机水平翻转、随机竖直翻转、随机旋转和/或随机裁剪。

在本实施例中，对训练样本中的背景图像和矩形边界框以一定概率执行翻转操作，能提高训练数据的多样性，进而提高最终模型预测时的稳定性和准确性。

由上可见，本发明实施例提供的强噪声复杂背景图像中的汉字定位方法，先根据采集数据样品，构建出神经网络模型，并以此训练和优化该神经网络模型的参数；对待定位的第一背景图像，通过训练好的神经网络模型对其进行尺寸调整，并筛选出相应的第一边界框集合和每个边界框对应的置信度，在根据置信度筛选出每个汉字对应的边界框，实现汉字定位。相比于现有技术通过传统的OCR技术对强噪声复杂背景图像的定位不准确，本发明技术方案针对该类型的图像进采样并构建相应的神经网络模型，能够提高在强噪声复杂背景图像中汉字定位的准确性。

实施例2

参见图2，图2是本发明提供的强噪声复杂背景图像中的汉字识别方法的一种实施例的流程示意图。该示意图更详细的步骤包括步骤201至步骤204，具体如下：

步骤201：根据强噪声复杂背景图像中的汉字定位方法，对若干个原始图像进行汉字定位，获得多个汉字定位框。

在本实施例中，采用实施例1中的汉字定位方法，对原始图像进行汉字定位，获得多个汉字定位框。其中，每个原始图像对应一个或多个汉字定位框，其数量与原始图像内包含的汉字数量相同。

步骤202：根据多个汉字定位框，对原始图像进行预处理，获得多个图像数据集；其中，每个图像数据集有且仅有一个汉字的多个汉字图像。

在本实施例中，步骤202具体为：

步骤2021：根据汉字定位框对所有原始图像进裁剪，获得第一图像数据集；

步骤2022：剔除第一图像数据集中的错误图像数据，获得第二图像数据集；其中，错误图像数据为没有包含一个完整汉字的图像数据；

步骤2023：将每个汉字作为单独的汉字类别，并以此将所述第二图像数据集中的图像数据进行分类，以使每个汉字类别对应一个图像数据集；

步骤2024：由所有汉字类别分别对应的图像数据集组成所述多个图像数据集，并对每个汉字类别设置相应标签文件。

在本实施例中，错误图像数据为没有包含一个完整汉字的图像数据，其具体为：不含汉字的图像、只包含汉字一部分的图像。

在本实施例中，步骤2023和2024具体可以为，将每个汉字作为单独的汉字类别，并生成一个单独的文件夹，将同一汉字的图像数据存储到同一文件夹中，并以该汉字命名该文件夹，则所有汉字对应的文件夹即为所述多个图像数据集，汉字命名为相应的标签文件。

在本实施例中，在步骤2023之后还可以包括：对汉字类别对应的图像数据的数量少于预设的阈值的第三图像数据集，采用ImageDataGenerator方法对图像数据进行数据增强操作，以增加第三图像数据集中的图像数据的数量。对于汉字类别中样本比较少的汉字，可采用ImageDataGenerator方法进行数据增强，如旋转、分割、镜像、椒盐噪声等操作扩充数据集，同时可以调节旋转变换角度、缩放比例、平移变换、尺度变换、对比度变换、滤波、噪声扰动等参数，进一步提高样本的多样性，尽可能解决样本不均匀的问题。

步骤203：基于深度学习网络Inception V3，建立深度学习模型，并以多个图像数据集，优化深度学习模型的训练轮数、学习率、学习衰减率和训练批次。

在本实施例中，模型是基于端对端的深度学习网络Inception V3，网络结构如图3所示。该网络采用的全部都是3x3的卷积核和1x1的卷积核用来替代大型的卷积核，以减少模型的参数，提高模型训练速度，并且采用BN和Dropout来防止过拟合。

训练轮数epoch决定模型的训练轮数，轮数越长训练时间越长，通过模型收敛程度来进行初始设置和优化。学习率learn_rate决定模型的收敛速度，过大的学习率learn_rate会导致梯度***或者模型参数出现震荡。学习率衰减系数lrschedule决定了学习率衰减的快慢。训练批次batch_size决定了训练过程中每次进行梯度下降时使用的训练数据大小，主要根据硬件(内存、现存等)的条件来进行设置，发挥出硬件的最大性能。

在导入样本数据训练时，训练模型使用交叉熵来计算损失，并且通过训练数据集大小除以训练批次来计算每一轮训练的次数，通过epoch轮完成训练，对模型和模型的权重进行保存。本发明使用基于ImageNet数据集预训练的参数初始化模型，以缩短训练时间。譬如千分类的汉字，十万数据集训练时长为20小时左右。

在本实施例中，在训练结束后，还包括根据优化的参数生成权重文件。所述权重文件用于深度学习模型的再训练，以缩短训练时间。

步骤204：在训练结束后，根据优化后的参数生成识别模型文件，以便于在获取到待识别图像时，通过识别模型文件，对待识别图像进行汉字识别。

在获得识别模型文件后，对于一张背景图像，先以本发明实施例1的方法对汉字定位，再将汉字定位框输入到识别模型中，识别出具体的汉字。

由上可见，提供的汉字识别方法，在本发明的汉字定位后，基于深度学习网络，构建识别模型文件，并以此对待识别图像进行汉字识别，能够在在强噪声复杂背景图像中汉字识别的准确性。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random AccessMemory，RAM)等。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

1.一种强噪声复杂背景图像中的汉字定位方法，其特征在于，包括：

2.根据权利要求1所述的强噪声复杂背景图像中的汉字定位方法，其特征在于，以所述背景图像为输入，以矩形边界框和置信度为输出，构建神经网络模型，具体为：

3.根据权利要求2所述的强噪声复杂背景图像中的汉字定位方法，其特征在于，所述通过所述神经网络模型，从所述第一边界框集合中筛选出N个边界框，具体为：

4.根据权利要求2所述的强噪声复杂背景图像中的汉字定位方法，其特征在于，所述神经网络模采用扩展后的图像数据进行训练，以便于进一步优化所述神经网络模型的参数；

5.根据权利要求4所述的强噪声复杂背景图像中的汉字定位方法，其特征在于，所述翻转操作为随机水平翻转、随机竖直翻转、随机旋转和/或随机裁剪。

6.一种强噪声复杂背景图像中的汉字识别方法，其特征在于，包括：

根据权利要求1至5任意一项所述的强噪声复杂背景图像中的汉字定位方法，对若干个原始图像进行汉字定位，获得多个汉字定位框；

7.根据权利要求6所述的强噪声复杂背景图像中的汉字识别方法，其特征在于，所述根据所述多个汉字定位框，对所述原始图像进行预处理，获得多个图像数据集，具体为：

8.根据权利要求7所述的强噪声复杂背景图像中的汉字识别方法，其特征在于，在所述第二图像数据集分类完成之后，还包括：

9.根据权利要求6所述的强噪声复杂背景图像中的汉字识别方法，其特征在于，在训练结束后，还包括：