CN112861840A

CN112861840A - 基于多特征融合卷积网络的复杂场景字符识别方法及***

Info

Publication number: CN112861840A
Application number: CN202110260333.8A
Authority: CN
Inventors: 孙锬锋; 蒋兴浩; 许可; 舒常思
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2021-03-10
Filing date: 2021-03-10
Publication date: 2021-05-28

Abstract

本发明提供了一种基于多特征融合卷积网络的复杂场景字符识别方法及***，包括：特征提取步骤：基于多特征融合的方法构造卷积神经网络，对图像字符的特征进行提取，得到包含相对位置信息与时序信息的特征图；置信度估计步骤：构建双向LSTM网络，将所述特征图全部输入至双向LSTM网络，得到图像字符置信度估计序列；映射步骤：构建转录层，对所述图像字符置信度估计序列进行映射，得到输出序列，作为字符识别结果。本发明解决了现有的方法在图像模糊、车牌倾斜角过大、雨雪雾等天气状况和光线过曝或者过暗等复杂场景下车牌字符识别精度不高的问题，提高了车牌字符识别方法在实际应用上的普适性。

Description

基于多特征融合卷积网络的复杂场景字符识别方法及***

技术领域

本发明涉及计算机视觉领域，具体地，涉及一种基于多特征融合卷积网络的复杂场景下字符识别方法及***。

背景技术

由于近年来我国经济水平的飞速发展，对于字符识别的需求也在不断增加。实现对复杂场景下字符的自动识别，能够提高管理效率、降低人力成本。因此，字符识别技术成为近几年研究的热点。目前常见的字符识别技术可分为两阶段式字符识别技术和一阶段式的字符识别技术。

两阶段式字符识别技术，即第一阶段进行字符分割，第二阶段对分割后的单个字符图像进行识别。字符分割方法包括边缘提取、水平垂直投影、特征投影等方法；字符识别方法包括模版匹配法、隐马尔可夫模型、支持向量机、人工神经网络等方法。由于两个步骤之间的衔接处容易出现差错，且破坏了连续的语义信息，导致整体识别鲁棒性较差。并且该方法很难实现计算的并行化，从而导致平均处理时延高。

一阶段式的字符识别技术，即识别***的输入为完整字符序列图像，根据识别***的字符识别模型一步得到识别后的字符序列结果。目前比较普遍的方法就是利用卷积神经网络模型。该种方法保留了字符序列完整的语义信息，具有较好的鲁棒性和较高的识别准确率。同时，该方法可以在一定程度上实现并行化计算进而提升处理效率。

在现有的字符识别技术中，W.Wang,J.Yang,M.Chen and P.Wang于2019年11月28日在IEEE Access,vol.7上发表的论文“A Light CNN for End-to-End Car LicensePlates Detection and Recognition”中提出了一种端到端的字符识别网络模型，以CNN卷积神经网络进行特征提取，再构建一个RNN网络针对特征网络进行训练。其方法能够免分割对字符序列进行识别，但相对于本发明所设计的多特征融合卷积网络，其在特征提取中采用的CNN卷积网络在针对复杂场景下的车牌时无法高质量的提取有效特征，对于复杂场景下的车牌字符识别准确率较低。湖南省瞬渺通信技术有限公司于2019年12月27日公开的专利文献“一种复杂场景下基于深度学习的实时车牌识别方法”(CN110619327A)中提出了一种基于端到端的车牌字符识别模型，以轻量级的MobileNet神经网络作为特征提取网络,加入深度学习物体检测算法SSD中，采用全联接映射得到字符类别。但是相对于本发明提出的字符识别方法中采用循环神经网络与连接时序分类实现不定长字符序列的识别，该方法在车牌字符识别中采用了七个并行的全连接层分别对七个字符进行预测，无法对8个字符的新能源车牌进行识别，同时对复杂场景下的车牌字符识别准确率较低。

复杂场景包括：图像模糊、字符序列倾斜角过大、雨雪雾等天气状况和光线过曝过暗等导致字符识别准确率不高的场景。

发明内容

针对现有技术中的缺陷，本发明的目的是提供一种基于多特征融合卷积网络的复杂场景字符识别方法及***。

根据本发明提供的一种基于多特征融合卷积网络的复杂场景字符识别方法，包括：

特征提取步骤：基于多特征融合的方法构造卷积神经网络，对图像字符的特征进行提取，得到包含相对位置信息与时序信息的特征图；

置信度估计步骤：构建双向LSTM网络，将所述特征图全部输入至双向LSTM网络，得到图像字符置信度估计序列；

映射步骤：构建转录层，对所述图像字符置信度估计序列进行映射，得到输出序列，作为字符识别结果。

优选地，还包括：

模型训练步骤：通过样本图片训练所述卷积神经网络；

模型测试步骤：将训练好的所述卷积神经网络的参数固定，测试所述卷积神经网络的准确率。

优选地，所述特征提取步骤包括：

构造卷积神经网络，在所述卷积神经网络的第二层中加入多层特征融合结构，所述多层特征融合结构包括在所述卷积神经网络的卷积层上添加两个分支，一个分支连接一个1×1的卷积层，另一个分支连接一个5×5的卷积层。

优选地，所述双向LSTM网络包括：前向LSTM与后向LSTM；

所述前向LSTM与所述后向LSTM均由多个LSTM单元链式连接而成，LSTM单元内包含输入门和输出门，将所述特征图对应输入至相对应的LSTM单元的输入门中，应用激活函数对输出门的输出值进行转化，得到所述图像字符置信度估计序列。

优选地，所述图像字符置信度估计序列设为y＝(y₁,y₂，…，y_T)，则目标序列π的条件概率为

T为LSTM单元的数量，通过多对一映射得到更短的序列作为最终的预测结果，不同的目标序列π映射得到相同的结果，因此最终输出结果的概率为所有得到的目标序列π的条件概率之和

其中β为序列到序列的映射函数，l为映射序列。

根据本发明提供的一种基于多特征融合卷积网络的复杂场景字符识别***，包括：

特征提取模块：基于多特征融合的方法构造卷积神经网络，对图像字符的特征进行提取，得到包含相对位置信息与时序信息的特征图；

置信度估计模块：构建双向LSTM网络，将所述特征图全部输入至双向LSTM网络，得到图像字符置信度估计序列；

映射模块：构建转录层，对所述图像字符置信度估计序列进行映射，得到输出序列，作为字符识别结果。

优选地，还包括：

模型训练模块：通过样本图片训练所述卷积神经网络；

模型测试模块：将训练好的所述卷积神经网络的参数固定，测试所述卷积神经网络的准确率。

优选地，所述特征提取模块包括：

优选地，所述双向LSTM网络包括：前向LSTM与后向LSTM；

优选地，所述图像字符置信度估计序列设为y＝(y₁,y₂,…,y_T)，则目标序列π的条件概率为

其中β为序列到序列的映射函数，l为映射序列。

与现有技术相比，本发明具有如下的有益效果：

1、本发明公开的车牌字符识别方法，适用于不同场景下的车牌识别应用，能够支持不同种类以及字符长度的车牌识别，解决了现有的方法在图像模糊、车牌倾斜角过大、雨雪雾等天气状况和光线过曝或者过暗等复杂场景下车牌字符识别精度不高的问题，提高了车牌字符识别方法在实际应用上的普适性。

2、本发明基于深度学习网络模型，相比于传统的字符识别方法，其无需字符分割步骤，保留了车牌完整语义信息，具备更好的鲁棒性以及更高的识别准确率。

3、本发明在进行特征提取时，采用了多特征融合的方法，相较于传统的卷积，多特征融合能够更好的学习车牌中的低级特征与高级特征，有效的防止由于特征丢失而造成的识别精度的降低，从而提高了本发明对复杂场景下识别的准确率。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明实施例基于深度学习的复杂场景下车牌字符识别方法的整体框架图。

图2为本发明实施例提出的多特征融合的特征提取网络示意图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变化和改进。这些都属于本发明的保护范围。

本实施例是以车牌识别为例，包括普通类型车牌以及新能源、警牌、军牌等特殊类型车牌。但本领域技术人员知道，本发明还可应用于其他字符识别领域，如显示器、纸张等介质上的文字识别等。

如图1所示，本发明提供的一种基于多特征融合卷积网络的复杂场景字符识别方法，包括：

特征提取步骤：基于多特征融合的方法构造卷积神经网络，对图像字符的特征进行提取，得到包含相对位置信息与时序信息的特征图。卷积神经网络网络主要由卷积层、最大池化层、ReLU构造。

置信度估计步骤：构建双向LSTM网络，将所述特征图全部输入至双向LSTM网络，得到图像字符置信度估计序列。

模型训练步骤：通过样本图片训练所述卷积神经网络。

特征提取步骤包括：如图2所示，构造卷积神经网络，在所述卷积神经网络的第二层中加入多层特征融合结构，所述多层特征融合结构包括在所述卷积神经网络的卷积层上添加两个分支，一个分支连接一个1×1的卷积层，另一个分支连接一个5×5的卷积层。

双向LSTM网络包括：前向LSTM与后向LSTM。所述前向LSTM与所述后向LSTM均由多个LSTM单元链式连接而成，LSTM单元内包含输入门和输出门，将所述特征图对应输入至相对应的LSTM单元的输入门中，应用激活函数对输出门的输出值进行转化，得到所述图像字符置信度估计序列。

图像字符置信度估计序列设为y＝(y₁,y₂,…,y_T)，则目标序列π的条件概率为

其中β为序列到序列的映射函数，l为映射序列。

数据集

训练与测试数据集包含从真实环境中收集的真实数据集和使用计算机生成的合成数据集。

真实车牌数据集中的车牌图像来自于现实拍摄以及开源中国车牌数据集CCPD，一共包含了7561张车牌图片。CCPD数据集是由论文Towards End-to-End License PlateDetection and Recognition:A Large Dataset and Baseline(Xu Z，Yang W，Meng A，Computer Vision–ECCV 2018.Springer，Cham，2018.)所设计，于https://github.com/detectRecog/CCPD中可公开下载的中国车牌数据集，总量超过30万张。本发明中从CCPD数据集中选取小型车牌3400张、大型车牌2700张、新能源车牌825张、其余特殊车牌390张。现实拍摄收集是由人手持手机对不同的车辆的车牌区域进行拍摄，限于现实条件主要对小型车牌与大型车牌进行拍摄，同时对较为稀有的新能源车牌与其余特殊车牌进行特殊收集；拍摄过程中一定比例的通过不同角度、不同背景以及不同光照条件等复杂场景进行拍摄。本发明从现实拍摄收集中选取小型车牌116张、大型车牌89张、新能源车牌32张、其余特殊车牌9张。

合成车牌数据集使用基于OpenCV的方法生成仿真车牌10万张，再经由对抗生成网络对其进行风格迁移，得到符合复杂场景的真实风格的合成车牌。其中小型车牌4万张，大型车牌3万张，新能源车牌2万张，其余车牌1万张。

对于正常情况测试集，选取的图像与训练数据集中没有交集，随机选取车牌图像1000张；复杂场景下的测试数据集选取了复杂车牌图像400张。

测试描述

在本实施例的测试过程中，基于深度学习的复杂场景下车牌字符识别模型使用Keras搭建和训练。

首先用生成数据集预训练识别模型，使其学习到一定的先验知识，以得到合适的初始权重。随后使用真实数据集多模型中的权重参数进行微调，得到更优的网络权重。在训练过程中，采用了Keras的EarlyStopping函数，防止训练中出现过拟合的情况。

训练结束后，从所有保存的中间结果中，选取在测试集上loss最低的权重使用。测试在正常与复杂两个测试集中进行。测试的准确率定义为字符完全识别正确的车牌数/测试的车牌总数。

测试结果

本发明在正常情况数据集的测试集上，车牌字符识别准确率为92.7％，在复杂场景数据集的测试集上，车牌字符识别准确率为87.2％；常用的CRNN-CTC车牌识别网络在正常情况数据集的测试集上，车牌字符识别准确率为91.2％，在复杂场景数据集的测试集上，车牌字符识别准确率为80.0％；本发明在正确情况与复杂场景的测试集中识别准确率均更高，特别是在复杂车牌测试集中有明显优势，证明了本发明的有效性。

本领域技术人员知道，除了以纯计算机可读程序代码方式实现本发明提供的***及其各个装置、模块、单元以外，完全可以通过将方法步骤进行逻辑编程来使得本发明提供的***及其各个装置、模块、单元以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同功能。所以，本发明提供的***及其各项装置、模块、单元可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置、模块、单元也可以视为硬件部件内的结构；也可以将用于实现各种功能的装置、模块、单元视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变化或修改，这并不影响本发明的实质内容。在不冲突的情况下，本申请的实施例和实施例中的特征可以任意相互组合。