CN107688784A

CN107688784A - 一种基于深层特征和浅层特征融合的字符识别方法及存储介质

Info

Publication number: CN107688784A
Application number: CN201710741294.7A
Authority: CN
Inventors: 张冬青; 蔡滨海; 刘坤朋; 郑杭; 张木连
Original assignee: FUJIAN LIUREN NETWORK SECURITY Co Ltd
Current assignee: FUJIAN LIUREN NETWORK SECURITY Co Ltd
Priority date: 2017-08-23
Filing date: 2017-08-23
Publication date: 2018-02-13

Abstract

本发明提供了一种基于深层特征和浅层特征融合的字符识别方法及存储介质，通过训练卷积神经网络模型，来检测待识别图像的深层特征，并综合浅层特征进行分析，实现对待识别图像上字符的识别和分类。相较于只通过浅层特征(较为明显的特征，可以由人眼判断得出)来识别图像字符的方式，深层特征识别的引入，可以有效增加对待识别图像上字符的识别率。本发明创造性地将深层特征和浅层特征的识别相结合，提供一种鲁棒的车牌字符方法来改善监控环境下车牌字符识别的鲁棒性，有效提高了车牌识别的准确率。

Description

一种基于深层特征和浅层特征融合的字符识别方法及存储介质

技术领域

本发明涉及计算机技术安全领域，特别涉及一种基于深层特征和浅层特征融合的字符识别方法及存储介质。

背景技术

随着平安中国建设步伐的加快，监控摄像头分布越来越广，摄像头的分辨率越来越高，摄像头的分布往往较为随机，相较于设置于标准卡口位置的图像采集装置而言，采用遍布大街小巷的监控网中的摄像头(如分布于道路上方)在进行车牌时，存在着诸多问题。例如车牌角度变化大，长期使用的摄像头表面附着的尘埃会使采集到的图像模糊、噪点增多，都将导致车牌的识别难度增大、识别率低等问题。

发明内容

为此，需要提供一种基于深层特征和浅层特征融合的字符识别的技术方案，用以解决目前摄像头在进行车牌信息识别时存在的图像模糊、识别率低等问题。

为实现上述目的，发明人提供了一种基于深层特征和浅层特征融合的字符识别方法，所述方法包括：

接收若干训练图像，并根据训练图像训练深层特征提取卷积神经网络模型，所述训练图像包括一个或多个字符，每一训练图像对应一标识信息；

根据训练完成的深层特征提取卷积神经网络模型提取每一训练图像的深层特征；

接收训练图像的浅层特征，并将训练的浅层特征与其对应的深层特征进行融合，得到该训练图像对应的全特征；

根据各个训练图像的全特征以及其对应的标识信息训练支持向量机，得到一个鲁棒的全特征分类模型；

提取待识别图像的深层特征和浅层特征，并将提取的深层特征和浅层特征输入全特征分类模型，输出待识别图像对应的分类结果。

进一步地，“根据训练图像训练深层特征提取卷积神经网络模型”包括以下步骤：

对训练图像进行卷积操作，生成若干个特征图；

对特征图进行下采样操作；

重复执行若干次卷积操作和下采样操作，得到抽象特征；

对抽象特征进行全连接操作，提取出训练图像对应的深层特征。

进一步地，所述卷积神经网络模型包括卷积层和全连接层，所述“对抽象特征进行全连接操作”包括：若卷积层之前为全连接层，所述全连接操作为卷积核为1×1的卷积操作；若卷积层之后仍为卷积层，所述全连接操作为卷积核为h×w的卷积操作，h为全连接层之前的卷积层运算结果的高，w为全连接层之前的卷积层运算结果的宽。

进一步地，所述下采样操作包括执行池化处理。

进一步地，所述待识别图像的浅层特征通过以下方式获得：

对待识别图像进行归一化处理，并对归一化处理后的待识别图像进行灰度化处理；

利用Gamma校正法对输入的待识别图像进行对比度的调节；

对待识别图像中的每个像素进行梯度的计算，捕获轮廓信息；

将待识别图像以NXN为单位划分为多个组块，计算每个组块对应的特征描述子；每一NXN组块包括多个MXM子块，组块对应的特征描述子计算方法具体包括：分别计算同一个NXN组块内各个MXM子块的特征描述子，并将同一个组块内各个MXM子块的特征描述串联起来，得到该NXN组块对应的特征描述子；

将每个组块对应的特征描述子串联起来，得到待识别图像对应的浅层特征。

发明人还提供了一种存储介质，所述存储介质用于存储计算机程序，所述计算机程序被执行时，包括以下步骤：

进一步地，所述计算机程序被执行时还具体包括以下步骤：

对训练图像进行卷积操作，生成若干个特征图；

对特征图进行下采样操作；

重复执行若干次卷积操作和下采样操作，得到抽象特征；

进一步地，所述卷积神经网络模型包括卷积层和全连接层，所述计算机程序被执行时还具体包括：若卷积层之前为全连接层，所述全连接操作为卷积核为1×1的卷积操作；若卷积层之后仍为卷积层，所述全连接操作为卷积核为h×w的卷积操作，h为全连接层之前的卷积层运算结果的高，w为全连接层之前的卷积层运算结果的宽。

进一步地，所述计算机程序被执行时还包括：执行池化处理。

进一步地，所述计算机程序被执行时还包括：

利用Gamma校正法对输入的待识别图像进行对比度的调节；

本发明具有以下特点：通过训练卷积神经网络模型，来检测待识别图像的深层特征，并综合浅层特征进行分析，实现对待识别图像上字符的识别和分类。相较于只通过浅层特征(较为明显的特征，可以由人眼判断得出)来识别图像字符的方式，深层特征识别的引入，可以有效增加对待识别图像上字符的识别率。本发明创造性地将深层特征和浅层特征的识别相结合，提供一种鲁棒的车牌字符方法来改善监控环境下车牌字符识别的鲁棒性，有效提高了车牌识别的准确率。

附图说明

图1为本发明一实施方式涉及的基于深层特征和浅层特征融合的字符识别方法的流程图；

图2为本发明另一实施方式涉及的基于深层特征和浅层特征融合的字符识别方法的流程图；

图3为本发明另一实施方式涉及的基于深层特征和浅层特征融合的字符识别方法的流程图；

图4为本发明另一实施方式涉及的基于深层特征和浅层特征融合的字符识别方法的应用场景的示意图。

具体实施方式

为详细说明技术方案的技术内容、构造特征、所实现目的及效果，以下结合具体实施例并配合附图详予说明。

请参阅图1，为本发明一实施方式涉及的基于深层特征和浅层特征融合的字符识别方法的流程图。所述方法包括：

首先进入步骤S101接收若干训练图像，并根据训练图像训练深层特征提取卷积神经网络模型。所述训练图像包括一个或多个字符，每一训练图像对应一标识信息。所述字符包括但不限于字母、汉字、数字等。标识信息为区分不同类型图像的物理量。标识信息可以按照图像的内容的抽象概念进行确定，例如当图像信息为车牌信息时，对于包含有“闽A”开头的字符的，则可以将标识信息设定为“福州车牌”；标识信息也可以为图像所包含的内容本身，例如当图像信息为车牌信息时，对于包含有“闽A”开头的字符的，则可以将标识信息设定为“闽A”。

而后进入步骤S102根据训练完成的深层特征提取卷积神经网络模型提取每一训练图像的深层特征。深层特征相较于浅层特征而言，为图像上更深层次、人眼不易察觉发现的一些特征细节。对于一个神经网络模型而言，其一般由多层结构堆叠组成，包括卷积层、全连接层和池化层。深度特征提取主要进过卷积和采样两个操作。深度学习(Deeplearning)认为人的视觉是分层，底层提取的是边缘特征，中间层次是对形状或者目标的认知，高层则分析一些运动和行为。从底层到高层是一个抽象的过程，特征表示也是一个抽象的过程，越到高层越能够表现语义或者意图，它是底层特征的组合。卷积层的操作和滑动窗口有些类似，卷积核作用于不同的区域，产生对应的特征图，由于卷积具有这样的特质，给定规格化的字符输入图像，通过卷积运算将产生若干个不一样的特征图。卷积操作结束后将对其结果进行下采样处理。

而后进入步骤S103接收训练图像的浅层特征，并将训练的浅层特征与其对应的深层特征进行融合，得到该训练图像对应的全特征。浅层特征即显性特征，是指图像上可被人眼识别的特征，例如以图像是车牌图像为例，对于图像上清晰可见的字母数字，则可以列为浅层特征。浅层特征提取并不需要训练的过程，它依照实验者的经验选取最符合当前项目的特征进行提取。既可以提取图像的全局特征，如HOG、LBP，也可以提取图像的局部特征，如Haar、SIFT、SURF，或者是局部特征的组合。浅层特征可以对深层特征进行有效补充，使得得到的全特征更好地反应图像上所包含的特征信息。在本实施方式中，所述浅层特征为HOG特征。

而后进入步骤104根据各个训练图像的全特征以及其对应的标识信息训练支持向量机，得到一个鲁棒的全特征分类模型。支持向量机(Support Vector Machine，SVM)是Corinna Cortes和Vapnik等于1995年首先提出的，它在解决小样本、非线性及高维模式识别中表现出许多特有的优势，并能够推广应用到函数拟合等其他机器学习问题中。在机器学习中，支持向量机(SVM，还支持矢量网络)是与相关的学习算法有关的监督学习模型，可以分析数据、识别模式、用于分类和回归分析。例如在实际应用过程中，可以给定一组训练样本，每个标记为属于两类，一个SVM训练算法建立了一个模型，分配新的实例为一类或其他类，使其成为非概率二元线性分类。一个SVM模型的例子，如在空间中的点，映射，使得所述不同的类别的例子是由一个明显的差距是尽可能宽划分的表示。新的实施例则映射到相同的空间中，并预测基于它们落在所述间隙侧上属于一个类别。除了进行线性分类，支持向量机可以使用所谓的核技巧，它们的输入隐含映射成高维特征空间中有效地进行非线性分类。

如图4所示，支持向量机训练好后，就可以实现待识别图像的自动分类功能。同样以车牌识别为例，可以通过识别图像上字符的方式来对不同图像进行分类，例如当大量的训练图像识别到“闽”、“A”且位于开头的字符时，图像的类别可以被归为“福州车辆”一类。当支持向量机再次接收到一张待识别图像时，若提取出该图像的特征包含有“闽”、“A”且位于开头的特征信息，则会将该图像归为“福州车辆”一类。

而后进入步骤105提取待识别图像的深层特征和浅层特征，并将提取的深层特征和浅层特征输入全特征分类模型，输出待识别图像对应的分类结果。浅层特征的提取太过依赖人的经验和主观意识，若只采用浅层特征来决定分类，存在着分类准确率低、误差大等问题。而基于卷积神经网络(CNN)，稀疏自动编码器(AutoEncoder)等机器自学习的特征能够自动学习图像深层次的特征(即深层特征)，能够降低特征选择对分类器的影响，但深层特征提取的可解释性较差，特征选择完全依赖于模型的选择。本申请结合了深层特征和浅层特征的优势，有效提高了图像特征提取、识别、分类的准确率。

如图2所示，在某些实施例中，“根据训练图像训练深层特征提取卷积神经网络模型”包括以下步骤：首先进入步骤S201对训练图像进行卷积操作，生成若干个特征图；而后进入步骤S202对特征图进行下采样操作；下采样通过降低卷积特征图像的分辨率来降低网络对于位移和扭曲的敏感程度；而后进入步骤S203重复执行若干次卷积操作和下采样操作，得到抽象特征；而后进入步骤S204对抽象特征进行全连接操作，提取出训练图像对应的深层特征。

进一步地，所述下采样操作包括执行池化处理。所述池化处理的方法最大池化(MaxPooling)、均值池化(MeanPooling)、高斯池化、可训练池化等。最大池化是指图像上每N个像素点为单位，提取N个像素点中像素值最大的像素点作为下采样后的像素点。均值池化是指图像上每N个像素点为单位，计算N个像素点的平均像素值，并以平均像素值的像素点作为下采样后的像素点。可训练池化是指事先训练函数f，当将N个像素点输入该函数时，将对应生成1个像素点进行输出。高斯池化是解决高斯模糊的方法，对于每一个像素都取周边像素点的平均像素值。经过若干次的卷积操作和池化操作后，可以提取出图像的深层图像。以车牌图像为例，则可以得到图像上字符的抽象表达。

如图3所示，在某些实施例中，所述浅层特征为方向梯度直方图(Histogram ofOriented Gradient，HOG)特征。HOG特征是一种在计算机视觉和图像处理中用来进行物体检测的特征描述子。HOG特征通过对图像局部区域进行cell(即下文提到的子块)和block(即下文提到的组块)的划分，在其上面对梯度方向直方图进行计算和统计，从而构成特征。HOG特征提取的理论基础是梯度和边缘方向密度分布能够较好的对局部目标的表象和形状进行描述。因此，HOG特征是描述一幅图像较好的特征。所述待识别图像的浅层特征通过以下方式获得：

首先进入步骤S301对待识别图像进行归一化处理，并对归一化处理后的待识别图像进行灰度化处理；

而后进入步骤S302利用Gamma校正法对输入的待识别图像进行对比度的调节；将图像的看成是有横坐标、纵坐标、灰度值组成的三维图像，利用Gamma校正法对输入的图像进行对比度的调节，降低图像光照变化和局部阴影对后续工作造成的影响及抑制噪声的干扰。

而后进入步骤S303对待识别图像中的每个像素进行梯度的计算，捕获轮廓信息。所述轮廓信息是指图像上特征的边缘轮廓，以车牌图像为例，图像上的特征为车牌号(汉字、字母、数字组成的字符串)，则轮廓信息则为各个字符的边缘线条。

而后进入步骤S304将待识别图像以NXN为单位划分为多个组块，计算每个组块对应的特征描述子。每一NXN组块包括多个MXM子块，组块对应的特征描述子计算方法具体包括：分别计算同一个NXN组块内各个MXM子块的特征描述子，并将同一个组块内各个MXM子块的特征描述串联起来，得到该NXN组块对应的特征描述子；

而后进入步骤S305将每个组块对应的特征描述子串联起来，得到连续的各个组块对应的特征描述子，即为待识别图像对应的浅层特征。通过上述方法，由小及大，可以快速提取出待识别图像对应的浅层特征。

发明人还提供了一种存储介质，所述存储介质用于存储计算机程序。存储介质为具有数据存储功能的电子元件，所述的存储介质，包括但不限于：RAM、ROM、磁碟、磁带、光盘、闪存、U盘、移动硬盘、存储卡、记忆棒、网络服务器存储、网络云存储等。所述计算机程序被执行时，包括以下步骤：

在某些实施例中，所述计算机程序被执行时还具体包括以下步骤：

对训练图像进行卷积操作，生成若干个特征图；

对特征图进行下采样操作；

重复执行若干次卷积操作和下采样操作，得到抽象特征；

在某些实施例中，所述卷积神经网络模型包括卷积层和全连接层，所述计算机程序被执行时还具体包括：若卷积层之前为全连接层，所述全连接操作为卷积核为1×1的卷积操作；若卷积层之后仍为卷积层，所述全连接操作为卷积核为h×w的卷积操作，h为全连接层之前的卷积层运算结果的高，w为全连接层之前的卷积层运算结果的宽。

在某些实施例中，所述计算机程序被执行时还包括：执行池化处理。所述池化处理的方法最大池化(MaxPooling)、均值池化(MeanPooling)、高斯池化、可训练池化等。最大池化是指图像上每N个像素点为单位，提取N个像素点中像素值最大的像素点作为下采样后的像素点。均值池化是指图像上每N个像素点为单位，计算N个像素点的平均像素值，并以平均像素值的像素点作为下采样后的像素点。可训练池化是指事先训练函数f，当将N个像素点输入该函数时，将对应生成1个像素点进行输出。高斯池化是解决高斯模糊的方法，对于每一个像素都取周边像素点的平均像素值。经过若干次的卷积操作和池化操作后，可以提取出图像的深层图像。以车牌图像为例，则可以得到图像上字符的抽象表达。

在某些实施例中，所述计算机程序被执行时还包括：

利用Gamma校正法对输入的待识别图像进行对比度的调节；

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括……”或“包含……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的要素。此外，在本文中，“大于”、“小于”、“超过”等理解为不包括本数；“以上”、“以下”、“以内”等理解为包括本数。

本领域内的技术人员应明白，上述各实施例可提供为方法、装置、或计算机程序产品。这些实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。上述各实施例涉及的方法中的全部或部分步骤可以通过程序来指令相关的硬件来完成，所述的程序可以存储于计算机设备可读取的存储介质中，用于执行上述各实施例方法所述的全部或部分步骤。所述计算机设备，包括但不限于：个人计算机、服务器、通用计算机、专用计算机、网络设备、嵌入式设备、可编程设备、智能移动终端、智能家居设备、穿戴式智能设备、车载智能设备等；所述的存储介质，包括但不限于：RAM、ROM、磁碟、磁带、光盘、闪存、U盘、移动硬盘、存储卡、记忆棒、网络服务器存储、网络云存储等。

上述各实施例是参照根据实施例所述的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到计算机设备的处理器以产生一个机器，使得通过计算机设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机设备以特定方式工作的计算机设备可读存储器中，使得存储在该计算机设备可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机设备上，使得在计算机设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已经对上述各实施例进行了描述，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改，所以以上所述仅为本发明的实施例，并非因此限制本发明的专利保护范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围之内。

Claims

1.一种基于深层特征和浅层特征融合的字符识别方法，其特征在于，所述方法包括：

2.如权利要求1所述的基于深层特征和浅层特征融合的字符识别方法，其特征在于，“根据训练图像训练深层特征提取卷积神经网络模型”包括以下步骤：

对训练图像进行卷积操作，生成若干个特征图；

对特征图进行下采样操作；

重复执行若干次卷积操作和下采样操作，得到抽象特征；

3.如权利要求2所述的基于深层特征和浅层特征融合的字符识别方法，其特征在于，所述卷积神经网络模型包括卷积层和全连接层，所述“对抽象特征进行全连接操作”包括：若卷积层之前为全连接层，所述全连接操作为卷积核为1×1的卷积操作；若卷积层之后仍为卷积层，所述全连接操作为卷积核为h×w的卷积操作，h为全连接层之前的卷积层运算结果的高，w为全连接层之前的卷积层运算结果的宽。

4.如权利要求2所述的基于深层特征和浅层特征融合的字符识别方法，其特征在于，所述下采样操作包括执行池化处理。

5.如权利要求1所述的基于深层特征和浅层特征融合的字符识别方法，其特征在于，所述待识别图像的浅层特征通过以下方式获得：

利用Gamma校正法对输入的待识别图像进行对比度的调节；

6.一种存储介质，其特征在于，所述存储介质用于存储计算机程序，所述计算机程序被执行时，包括以下步骤：

7.如权利要求6所述的存储介质，其特征在于，所述计算机程序被执行时还具体包括以下步骤：

对训练图像进行卷积操作，生成若干个特征图；

对特征图进行下采样操作；

重复执行若干次卷积操作和下采样操作，得到抽象特征；

8.如权利要求7所述的存储介质，其特征在于，所述卷积神经网络模型包括卷积层和全连接层，所述计算机程序被执行时还具体包括：若卷积层之前为全连接层，所述全连接操作为卷积核为1×1的卷积操作；若卷积层之后仍为卷积层，所述全连接操作为卷积核为h×w的卷积操作，h为全连接层之前的卷积层运算结果的高，w为全连接层之前的卷积层运算结果的宽。

9.如权利要求7所述的存储介质，其特征在于，所述计算机程序被执行时还包括：执行池化处理。

10.如权利要求6所述的存储介质，其特征在于，所述计算机程序被执行时还包括：

利用Gamma校正法对输入的待识别图像进行对比度的调节；