CN112508018A - 车牌识别方法、装置及存储介质 - Google Patents

车牌识别方法、装置及存储介质 Download PDF

Info

Publication number
CN112508018A
CN112508018A CN202011481790.1A CN202011481790A CN112508018A CN 112508018 A CN112508018 A CN 112508018A CN 202011481790 A CN202011481790 A CN 202011481790A CN 112508018 A CN112508018 A CN 112508018A
Authority
CN
China
Prior art keywords
sequence
license plate
target
input
target image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011481790.1A
Other languages
English (en)
Inventor
王昊
申省梅
谢佩博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Pengsi Technology Co ltd
Original Assignee
Beijing Pengsi Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Pengsi Technology Co ltd filed Critical Beijing Pengsi Technology Co ltd
Priority to CN202011481790.1A priority Critical patent/CN112508018A/zh
Publication of CN112508018A publication Critical patent/CN112508018A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • G06V20/63Scene text, e.g. street names
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • G06V20/625License plates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本申请提供的一种车牌识别方法、装置及存储介质,涉及图像识别技术领域。该方法包括:获取待识别的包含车牌的目标图像;将该目标图像输入目标卷积神经网络中,得到该目标图像对应的特征图,并根据该特征图得到初始特征序列;将该初始特征序列输入编码模块,得到编码后的中间特征序列;将该中间特征序列输入解码模块,得到解码后的目标特征序列;根据该目标特征序列得到识别结果,用于标识该目标图像中所包含的车牌的字符,其中,编码模块和解码模块都是基于包括多头注意力组件的变换器的,且多头注意力组件具有三个输入变量:查询、键和值。通过本申请中的车牌识别方法,能够提高对与车牌的字符进行识别的准确性。

Description

车牌识别方法、装置及存储介质
技术领域
本申请涉及图像识别技术领域,具体而言,涉及一种车牌识别方法、装置及存储介质。
背景技术
随着图像识别技术的发展,其在各个领域得到了广泛的应用。特别是在智慧交通领域,如公共场所门禁、交通卡口以及交通路口等场所,均可实现对车牌进行自动识别的功能。
目前,可将包含有车牌的图像输入卷积神经网络,通过卷积神经网络的卷积层、激励层、池化层以及全连接层对该图像进行识别,输出该图像上包含的车牌字符。
现有技术仅通过卷积神经网络对车牌进行识别,然而,该卷积神经网络通过对图像中的局部信息进行采样识别该图像中的车牌,并且该卷积神经网络存在归纳偏置的问题,这样会导致对车牌识别准确性不高的问题。
发明内容
本申请的目的在于,针对上述现有技术中的不足,提供一种车牌识别方法、装置及存储介质,可以提高对车牌识别的准确性。
第一方面,本申请实施例提供了一种车牌识别方法,所述方法包括:
获取待识别的包含车牌的目标图像;
将所述目标图像输入目标卷积神经网络中,得到所述目标图像对应的特征图,并根据所述特征图得到初始特征序列;
将所述初始特征序列输入编码模块,得到编码后的中间特征序列;
将所述中间特征序列输入解码模块,得到解码后的目标特征序列;
根据所述目标特征序列得到所述目标图像的识别结果,所述识别结果用于标识所述目标图像中所包含的车牌的字符,
其中,所述编码模块和所述解码模块都是基于包括多头注意力组件的变换器的,所述多头注意力组件具有三个输入变量:分别为:查询、键和值。
第二方面,本申请实施例还提供了一种车牌识别装置,所述装置包括:
获取模块,用于获取待识别的包含车牌的目标图像;
第一处理模块,用于将所述目标图像输入目标卷积神经网络中,得到所述目标图像对应的特征图,并根据所述特征图得到初始特征序列;
第二处理模块,用于将所述初始特征序列输入编码模块,得到编码后的中间特征序列;
第三处理模块,用于将所述中间特征序列输入解码模块,得到解码后的目标特征序列;
识别模块,用于根据所述目标特征序列得到所述目标图像的识别结果,所述识别结果用于标识所述目标图像中所包含的车牌的字符,
其中,所述编码模块和所述解码模块都是基于包括多头注意力组件的变换器的,所述多头注意力组件具有三个输入变量:分别为:查询、键和值。
第三方面,本申请实施例提供了一种车牌识别装置,包括:处理器、存储介质和总线,所述存储介质存储有所述处理器可执行的机器可读指令,所述处理器与所述存储介质之间通过总线通信,所述处理器执行所述机器可读指令,以执行上述第一方面的所述车牌识别方法的步骤。
第四方面,本申请实施例提供了一种存储介质,所述存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行上述第一方面的所述车牌识别方法的步骤。
第五方面,本申请实施例提供一种计算机程序产品,所述计算机程序产品包括计算机程序代码,在所述计算机程序代码被计算设备执行时,所述计算设备执行前述第一方面或第一方面的任意可能的实现方式中提供的方法。该计算机程序产品可以为一个软件安装包,在需要使用前述第一方面或第一方面的任意可能的实现方式中提供的方法的情况下,可以下载该计算机程序产品并在计算设备上执行该计算机程序产品。
本申请实施例提供了一种车牌识别方法、装置及存储介质,通过将卷积神经网络、编码模块以及解码模块相结合的方式,对目标图像中的字符进行识别,这样可以避免卷积神经网络存在的归纳偏置问题,提高了对车牌识别的准确性。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的一种车牌识别***的结构示意图;
图2为本申请实施例提供的一种车牌识别方法的流程示意图;
图3为本申请实施例提供的变换器的结构示意图;
图4为本申请实施例提供的多头注意力组件的示意图;
图5为本申请实施例提供的编码器的示意图;
图6为本申请实施例提供的解码器的示意图;
图7为本申请实施例提供的一种车牌识别方法的流程示意图;
图8为本申请实施例提供的一种车牌识别装置的结构示意图;
图9为本申请实施例提供的一种车牌识别装置的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。
因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本申请的选定实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
在对本申请实施例进行详细解释之前,首先对本申请的应用场景予以介绍。该应用场景具体可以为对车牌进行识别的场景,也可以为对网络图片文字、证件、票据等进行识别的场景,本申请不对其进行限定。图1为本申请实施例提供的一种车牌识别***的结构示意图,如图1所示,该***包括图像采集设备101以及图像处理设备102,其中,图像采集设备101可以通过有线或者无线通信方式与图像处理设备102连接。
需要说明的是,图像采集设备101可以是图像处理设备102之外的一个外部设备,也可以是集成在图像处理设备102内的一个设备,本申请不对其进行限定。
图像采集设备101的具体形态可以为相机、摄像头、手机或者电脑等具有图像采集功能的设备,图像采集设备101用于采集包含车牌的目标图像,并将采集到的目标图像发送给图像处理设备102,图像处理设备102可利用预先训练好的图像识别模型对目标图像进行识别,得到该目标图像中包含的字符,该字符可以为字母、数字、文字以及符号等。该图像识别模型可包括卷积神经网络模型、编码模块以及解码模块等。图像处理设备102的具体形态可以为手机、电脑等具有图像处理功能的硬件设备,或者可以是诸如服务器、云平台之类的软件设备,需要说明的是,本申请不对图像采集设备101以及图像处理设备102的具体形态进行限定。
如下结合附图对本申请提到的车牌识别方法进行示例说明。图2为本申请实施例提供的一种车牌识别方法的流程示意图,该方法可以由上述车牌识别***中的图像处理设备102执行。如图2所示,该方法可包括:
S201、获取待识别的包含车牌目标图像。
其中,可通过图像采集设备(如摄像设备、监控设备)获取待识别的包含车牌的目标图像,例如该目标图像中可以至少包括7个字符或8个字符等,该字符不限于数字、字母等其他计算机可读的字符,本申请不对其进行限定。该目标图像可以是该图像采集设备主动获取的图像,也可以是用户截取的图像。
以车牌识别场景为例,例如在公共场所出入口(小区出入口、停车场出入口等)、交通卡口以及交通路口的摄像头可获取目标车辆的静态图像或者动态视频的图像帧,图像处理设备可对将获取到的静态图像或动态视频的图像帧进行图像识别,可识别出该目标车辆的车牌的字符(车牌号)。
S202、将该目标图像输入目标卷积神经网络中,得到该目标图像对应的特征图,并根据所述特征图得到初始特征序列。
其中,该初始特征序列可以通过将特征图进行序列化展开后得到,具体的,可将目标卷积神经网络输出的特征图进行逐行扫描或者逐列扫描得到该初始特征序列。
输入到该目标卷积神经网络中的目标图像的类型可以为彩色图像,也可以为灰度图像,本申请不对其进行限定。该目标卷积神经网络至少包括卷积层、激活层、池化层,该目标卷积神经网络中各层的个数可为多个。其中,该卷积层上可包括多个过滤器(卷积核),其作用都是为了提取该目标图像上的特征;该激活层的作用是为了增加模型的非线性程度,具体采用的激活函数可为线性整流函数(Rectified Linear Unit,ReLU),又称修正线性单元,或者,带有可学习参数的神经网络激活函数-含参修正线性单元(ParameterizedRectified Linear Unit,PReLU);该池化层可对该图像的尺寸进行压缩。
举例来说,假设表1是该目标卷积神经网络的具体结构,包括诸如卷积、批归一化、含参线性修正、最大池化等组件。通过该结构,目标卷积神经网络可将维度为3×80×208的目标图像变为维度为128×10×26的特征图,其中,本申请中的三个维度依次为通道、高和宽。例如,维度3×80×208表示目标图像的通道为3(即为彩色图像)、高为80、宽为208,维度128×10×26同理。也就是说,该目标卷积神经网络将该目标图像的尺寸压缩了1/8,通道数增加到了128。需要说明的是,表1中的其他内容都为本领域技术人员熟知的信息,本申请不再详细介绍。值得注意的是,本申请中的目标卷积神经网络也可为其他结构的网络,只要该网络能够增加目标图像的通道数以及减少目标图像的尺寸都可以,本申请不对其进行限定。
本申请中,可以将输入至目标卷积神经网络的目标图像的维度表示为Cin×Hin×Win,将从目标卷积神经网络输出的特征张量(即上述特征图)的维度表示为Cout×Hout×Wout。一般地,Cin为1或3。并且还满足,Hin大于Hout的若干倍(如7或8),Win大于Wout的若干倍(如7或8),Cout远大于Cin
表1
Figure BDA0002835821820000071
Figure BDA0002835821820000081
S202中还将目标卷积神经网络输出的特征图展开为初始特征序列。结合上述的表1,假设目标卷积神经网络输出的特征图的维度为128×10×26,其中10为高度,26为宽度,128为通道数。那么将其展开,可以得到序列长度为N、特征维度为E的初始特征序列,表示为
Figure BDA0002835821820000082
并且,在本例中,N=260,E=128。
S203、将该初始特征序列输入编码模块,得到编码后的中间特征序列,其中,所述编码模块是基于包括多头注意力组件的变换器的。
具体地,本申请中可以基于变换器(transformer)来构建编码模块。编码模块可以包括串联连接的多个编码器(例如6个),每个编码器都是包括多头注意力(Multi-headAttention)组件的变换器(transformer)。
示例性地,如图3所示,变换器可以包括多头注意力组件、第一规范化层、感知器模型以及第二规范化层。且如图3中感知器模型包括线性变换层和激活层,例如可以是顺序连接的线性变换层、激活层和线性变换层,其中激活层选用的激活函数可以是GELU,但本申请不限于此。
如图3,变换器的第一个组件是多头注意力组件,其具有三个输入变量,分别为:查询(Query,Q)、键(Key,K)和值(Value,V);且得到一个输出。多头注意力组件包含并列运行的多个注意力层,多个注意力层的结果可以通过连结和线性化模块得到多头注意力组件的输出。如图4所示,其中包含h个注意力层,每个注意力层包括针对三个输入变量的三个并行的线性化模块以及量化的点乘注意力(ScaledDot-ProductAttention)组件。关于多头注意力组件可以参照Vaswani等人在NIPS2017上的《Attentionisallyouneed》一文,本说明书中不再赘述。
再回到图3,第一规范化层可以执行归一化操作,相应地,第一规范化层可以为归一化层。具体地,多头注意力组件输出的张量可以与其输入的值相加后再进行归一化。类似地,第二规范化层也可以执行归一化操作,相应地,第二规范化层也可以为归一化层。具体地,感知器模型的输出与其自己的输入相加后再进行归一化,从而得到了变换器的输出。
S203中的编码模块可以包括串联连接的多个编码器,并且每个编码器可以包括如上所述的变换器。编码器可以获取一个输入序列并得到一个输出序列。串联连接的多个编码器中的第一个编码器的输入序列是初始特征序列,串联连接的多个编码器中的其他编码器的输入序列是位于该编码器之前的相邻编码器的输出序列,串联连接的多个编码器中的最后一个编码器的输出序列即S203所述的中间特征序列。基于此,本申请中的编码模块也可以称为自注意力编码模块。
对任一个编码器而言,其获取输入序列,基于输入序列以及二维位置编码得到将输入到变换器的查询、键和值。具体地,可以将输入序列与二维位置编码相加作为查询,将输入序列与二维位置编码相加作为键,将输入序列作为值,如图5所示。
其中的二维位置编码可以基于S202中的特征图的维度(或者理解为初始特征序列的形状)进行构建。相应地,可理解,在S202之后,还可以包括:根据初始特征序列的维度(或形状)构建得到二维位置编码。或者,在另一个实施例中,可以预先构建二维位置编码,例如在训练阶段构建,本申请对此不限定。该二维位置编码在S203和S204中可以作为已知编码直接使用。
本申请中的二维位置编码是指先进行宽度方向的一维位置编码再进行高度方向的一维位置编码,或者是指先进行高度方向的一维位置编码再进行宽度方向的一维位置编码。
其中,二维位置编码具有与初始特征序列相同的形状,下面对本申请中的二维位置编码进行详细描述。
先介绍一维位置编码,针对序列
Figure BDA0002835821820000101
N为序列长度,E为特征维度,则其对应的一维位置编码(PositionalEncoding)PE由以下两式定义:
Figure BDA0002835821820000102
Figure BDA0002835821820000103
其中,2i和2i+1是序列下标,分别表示偶数和奇数,取值范围是0至N-1。其中,j是特征下标,取值范围是0至E-1。
进一步地,二维位置编码是指针对序列
Figure BDA0002835821820000111
先将特征维度0至E/2-1进行第一方向上的一维位置编码,再将特征维度E/2至E-1进行第二方向上的一维位置编码。其中,第一方向是宽,第二方向是高。或者,其中,第一方向是高,第二方向是宽。
在上述表1的基础上,本实施例中的N=260,E=128。那么在进行二维位置编码时,把特征维度E=128分为两个64维,前者去编码纵轴方向的位置,后者去编码横轴方向的位置即可。具体而言,纵向位置编码形状64×260,序列下标作为被除数(64)与除数26(宽)的商(整数)作为2i或2i+1的取值带入上述公式,特征下标0~63。同样地,横向位置编码64×260,序列下标作为被除数(64)与除数26(宽)的余数作为2i或2i+1带入上述公式,特征下标0~63。最后将宽度方向的位置编码以及高度方向的位置编码进行合并就得到了二维位置编码,与序列形状相同,均为128×260。
由此可见,本申请中的编码模块考虑了二维位置编码,能够适配车牌识别问题。
S204、将该中间特征序列输入解码模块,得到解码后的目标特征序列,其中,所述解码模块是基于包括多头注意力组件的变换器的。
其中,关于变换器可以参照上述在S203部分的描述,这里不再赘述。具体地,本申请中可以基于变换器(transformer)来构建解码模块。解码模块可以包括串联连接的多个解码器(例如6个),,每个解码器包括多头注意力(Multi-headAttention)组件的变换器(transformer)。
应注意的是,本申请中的解码器的数量与编码器的数量可以相等或不相等,本申请对此不限定。另外,本申请中解码器的串联连接方式不同于上述的编码器的串联连接方式,本申请中解码模块为互注意力解码模块,具体如下所述。
解码器可以获取中间特征序列(S203得到的)和一个输入序列,得到一个输出序列。具体地可以根据中间特征序列和输入序列,并结合二维位置编码和在训练阶段得到的目标查询编码,得到一个输出序列。对于串联连接的多个解码器中的第一个解码器而言,其输入序列是零序列。其中,零序列中每一项都是零向量,且零序列的形状与目标查询编码的形状相同。对于串联连接的多个解码器中的其他解码器而言,其输入序列是位于该解码器之前的相邻解码器的输出序列。串联连接的多个解码器中的最后一个解码器的输出序列即目标特征序列。
对任一个解码器而言,其获取中间特征序列、输入序列、目标查询编码,基于此得到将输入到变换器的查询、键和值。具体地,可以将中间特征序列与二维位置编码相加作为键,将中间特征序列作为值,将输入序列与目标查询编码相加作为查询,如图6所示。
其中,第一个解码器的输入序列是0序列,后续解码器的输入序列是前一解码器的输出序列。
其中,目标查询编码在训练阶段是可学习参数的第一部分,即目标查询编码是在训练中通过迭代等所确定的。
由此可见,本申请中的解码模块是互注意力解码模块,不包含自注意力结构,因此能够保证各个特征序列的成员之间互不干涉。
S205、根据该目标特征序列得到该目标图像的识别结果。
其中,该识别结果用于标识该目标图像中所包含的车牌的字符。可将目标特征序列输入字符分类器中,该字符分类器具体可以为softmax字符分类器,在该字符分类器中,可以通过线性回归网络对该解码模块的输出结果(目标特征序列)进行回归计算,依次输出目标图像中所包含的字符。
示例性地,S205中可以使用线性分类器进行字符识别,其中线性分类器能够用于对目标特征序列中的各个特征向量进行线性变换,从而得到各个字符。在一个实施例中,线性分类器可以包括一维卷积、批归一化、线性修正单元等组件。
这样,通过本申请中的车牌识别方法,能够识别目标图像中的车牌的字符。如图7所示是图2中识别方法的流程的一个示意图,其中假设编码模块包括两个编码器,分别是第一编码器和第二编码器;其中假设解码模块包括两个解码器,分别是第一解码器和第二解码器。关于图7的实现流程可以参照上述结合图2至图6部分的实施例,这里不再重复描述。
综上所述,采用本申请实施例提供的车牌识别方法,通过将卷积神经网络、编码模块以及解码模块相结合的方式,对目标图像中的字符进行识别,这样可以避免卷积神经网络存在的归纳偏置问题,提高了对车牌识别的准确性。
图8为本申请实施例提供的一种车牌识别装置的结构示意图。如图8所示,该装置可以包括:
获取模块801,用于获取待识别的包含车牌的目标图像。第一处理模块802,用于将目标图像输入目标卷积神经网络中,得到目标图像对应的特征图,并根据特征图得到初始特征序列。第二处理模块803,用于将初始特征序列输入编码模块,得到编码后的中间特征序列。第三处理模块804,用于将中间特征序列输入解码模块,得到解码后的目标特征序列。识别模块805,用于根据目标特征序列得到目标图像的识别结果,识别结果用于标识目标图像中所包含的字符。其中,所述编码模块和所述解码模块都是基于包括多头注意力组件的变换器的,所述多头注意力组件具有三个输入变量:分别为:查询、键和值。
示例性地,所述编码模块包括串联连接的多个编码器,并且每个编码器包括变换器,每个编码器用于获取一个输入序列并得到一个输出序列。
其中,所述串联连接的多个编码器中的第一个编码器的输入序列是所述初始特征序列,所述串联连接的多个编码器中的其他编码器的输入序列是位于该编码器之前的相邻编码器的输出序列,所述串联连接的多个编码器中的最后一个编码器的输出序列为所述中间特征序列。
示例性地,对任一个编码器而言,其获取输入序列,并得到将输入到变换器的查询、键和值。其中,将输入序列与二维位置编码相加作为查询,将输入序列与二维位置编码相加作为键,将输入序列作为值。
示例性地,所述解码模块包括串联连接的多个解码器,并且每个解码器包括变换器,每个解码器用于获取中间特征序列和输入序列,并结合在训练阶段得到的目标查询编码得到输出序列。
其中,所述串联连接的多个解码器中的第一个解码器的输入序列是零序列,所述串联连接的多个解码器中的其他解码器的输入序列是位于该解码器之前的相邻解码器的输出序列,所述串联连接的多个解码器中的最后一个解码器的输出序列为所述目标特征序列。
示例性地,对任一个解码器而言,其获取中间特征序列、输入序列、目标查询编码,并得到将输入到变换器的查询、键和值。其中,将中间特征序列与二维位置编码相加作为键,将中间特征序列作为值,将输入序列与目标查询编码相加作为查询。
示例性地,所述二维位置编码是指:针对序列
Figure BDA0002835821820000151
先将特征维度0至E/2-1进行第一方向上的一维位置编码,再将特征维度E/2至E-1进行第二方向上的一维位置编码。其中,第一方向是宽,第二方向是高,或者,第一方向是高,第二方向是宽,其中,N为序列长度,E为特征维度。
可选地,编码模块包括:多个编码器,每个编码器包括:多头注意力组件、第一规范化层、感知器模型以及第二规范化层;
解码模块包括:多个解码器,每个解码器包括:多头注意力组件、第一规范化层、感知器模型以及第二规范化层。
可选地,多个编码器包括第一编码器以及至少一个第二编码器,第一编码器为编码模块中的首个编码器;
相应地,第二处理模块803,具体用于根据初始特征序列以及位置编码,得到第一编码器的查询、键、值;将第一编码器的查询、键、值输入第一编码器中的多头注意力组件,得到张量信息;将张量信息以及第一编码器的值输入第一编码器中的第一规范化层,由第一规范化层对张量信息、第一编码器的值进行相加以及对相加结果进行归一化处理,得到归一化处理结果;将归一化处理结果输入第一编码器中的感知器模型,由感知器模型进行线性变换,得到线性变换结果;将线性变换结果以及归一化处理结果输入第一编码器中的第二规范化层,由第二规范化层对线性变换结果、归一化处理结果进行相加以及对相加结果进行归一化处理,得到第一编码器输出的第一特征序列;以第一特征序列以及位置编码作为第二编码器的输入,得到编码后的中间特征序列。
可选地,第二处理模块803,还具体用于将初始特征序列与位置编码相加作为第一编码器的查询、键;将初始特征序列作为第一编码器的值。
可选地,第二编码器的数量为N0个,N0为大于零的整数;
相应地,第二处理模块803,具体用于将第一特征序列以及位置编码作为第一个第二编码器的输入,得到第一个第二编码器输出的特征序列;若N0大于1,将第M个第二编码器输出的特征序列以及位置编码作为第M+1个第二编码器的输入,得到第M+1个第二编码器输出的特征序列,其中,M为大于零且小于N0的整数;当M+1等于N0时,将第M+1个第二编码器输出的特征序列作为中间特征序列。
可选地,解码模块包括多个解码器,多个解码器包括第一解码器以及至少一个第二解码器,第一解码器为解码模块中的首个解码器;
相应地,第三处理模块804,具体用于根据中间特征序列、位置编码以及目标查询编码,得到第一解码器的查询、键、值;将第一解码器的查询、键、值输入第一解码器中的多头注意力组件,得到输出张量信息;将张量信息以及第一解码器的值输入第一解码器中的第一规范化层,由第一规范化层对张量信息、第一解码器的值进行相加以及对相加结果进行归一化处理,得到归一化处理结果;将归一化处理结果输入第一解码器中的感知器模型,由感知器模型进行线性变换,得到线性变换结果;将线性变换结果以及归一化处理结果输入第一解码器中的第二规范化层,由第二规范化层对线性变换结果、归一化处理结果进行相加以及对相加结果进行归一化处理,得到第一解码器输出的第二特征序列;以第二特征序列、中间特征序列、位置编码以及目标查询编码作为第二解码器的输入,得到解码后的目标特征序列。
可选地,第二解码器的数量为L个,L为大于零的整数;
相应地,第三处理模块804,具体用于根据第二特征序列以及目标查询编码,得到第一个第二解码器的查询;根据中间特征序列以及位置编码,得到第一个第二解码器的键和值;根据第一个第二解码器的查询、键和值,得到第一个第二解码器输出的特征序列;若L大于1,将第P个第二解码器输出的特征序列、中间特征序列、位置编码以及目标查询编码作为第P+1个第二解码器的输入,得到第P+1个第二解码器输出的特征序列,其中,P为大于零且小于L的整数;当P+1等于L时,将第P+1个第二解码器输出的特征序列作为目标特征序列。
可选地,识别模块805,具体用于对目标特征序列中的每个特征向量进行线性变换,得到目标图像所包含的字符。
上述装置用于执行前述实施例提供的方法,其实现原理和技术效果类似,在此不再赘述。
以上这些模块可以是被配置成实施以上方法的一个或多个集成电路,例如:一个或多个特定集成电路(Application Specific Integrated Circuit,简称ASIC),或,一个或多个微处理器(Digital Signal Processor,简称DSP),或,一个或者多个现场可编程门阵列(Field Programmable Gate Array,简称FPGA)等。再如,当以上某个模块通过处理元件调度程序代码的形式实现时,该处理元件可以是通用处理器,例如中央处理器(CentralProcessing Unit,简称CPU)或其它可以调用程序代码的处理器。再如,这些模块可以集成在一起,以片上***(system-on-a-chip,简称SOC)的形式实现。
图9为本申请实施例提供的一种车牌识别装置的结构示意图。如图9所示,该车牌识别装置可以包括:处理器901、存储介质902和总线903,存储介质902存储有处理器901可执行的机器可读指令,处理器901与存储介质902之间通过总线903通信,处理器901执行机器可读指令,以执行上述车牌识别方法的步骤。具体实现方式和技术效果类似,这里不再赘述。
可理解的是,上述图8或图9的车牌识别装置可以是如图1中的图像处理设备102,或者可以是图像处理设备102的一个内部模块,本申请对此不限定。
可选地,本申请还提供了一种存储介质,存储介质上存储有计算机程序,计算机程序被处理器运行时执行上述车牌识别方法的步骤。其中,存储介质为计算机可读存储介质或非易失性存储介质等。
可选地,本申请还提供一种计算机程序产品,该计算机程序产品包括计算机程序代码,在该计算机程序代码被计算设备执行时,该计算设备执行前述车牌识别的任意可能的实现方式中提供的方法。该计算机程序产品可以为一个软件安装包,在需要使用前述车牌识别的任意可能的实现方式中提供的方法的情况下,可以下载该计算机程序产品并在计算设备上执行该计算机程序产品。
由此可见,本申请提供了一种车牌识别方法、装置、存储介质以及计算机程序产品,通过将目标图像输入到目标卷积神经网络得到特征图对应的初始特征序列,再利用基于变换器的编码模块和解码模块,能够成功识别出目标图像中的车牌的字符。其中编码模块和解码模块考虑了二维位置编码,能够更加适配车牌的识别问题;其中解码模块不包含自注意力结构,通过互注意力结构能够避免输出序列之间互相干扰。本申请中的实现方式能够更加高效地识别出车牌的字符,且识别出的准确率更高。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(英文:processor)执行本申请各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(英文:Read-Only Memory,简称:ROM)、随机存取存储器(英文:Random Access Memory,简称:RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims (10)

1.一种车牌识别方法,其特征在于,所述方法包括:
获取待识别的包含车牌的目标图像;
将所述目标图像输入目标卷积神经网络中,得到所述目标图像对应的特征图,并根据所述特征图得到初始特征序列;
将所述初始特征序列输入编码模块,得到编码后的中间特征序列;
将所述中间特征序列输入解码模块,得到解码后的目标特征序列;
根据所述目标特征序列得到所述目标图像的识别结果,所述识别结果用于标识所述目标图像中所包含的车牌的字符,
其中,所述编码模块和所述解码模块都是基于包括多头注意力组件的变换器的,所述多头注意力组件具有三个输入变量:分别为:查询、键和值。
2.根据权利要求1所述的方法,其特征在于,所述编码模块包括串联连接的多个编码器,并且每个编码器包括变换器,每个编码器用于获取一个输入序列并得到一个输出序列,
其中,所述串联连接的多个编码器中的第一个编码器的输入序列是所述初始特征序列,所述串联连接的多个编码器中的其他编码器的输入序列是位于该编码器之前的相邻编码器的输出序列,所述串联连接的多个编码器中的最后一个编码器的输出序列为所述中间特征序列。
3.根据权利要求2所述的方法,其特征在于,对任一个编码器而言,其获取输入序列,并得到将输入到变换器的查询、键和值,
其中,将输入序列与二维位置编码相加作为查询,将输入序列与二维位置编码相加作为键,将输入序列作为值。
4.根据权利要求1所述的方法,其特征在于,所述解码模块包括串联连接的多个解码器,并且每个解码器包括变换器,每个解码器用于获取中间特征序列和输入序列,并结合在训练阶段得到的目标查询编码得到输出序列,
其中,所述串联连接的多个解码器中的第一个解码器的输入序列是零序列,所述串联连接的多个解码器中的其他解码器的输入序列是位于该解码器之前的相邻解码器的输出序列,所述串联连接的多个解码器中的最后一个解码器的输出序列为所述目标特征序列。
5.根据权利要求4所述的方法,其特征在于,对任一个解码器而言,其获取中间特征序列、输入序列、目标查询编码,并得到将输入到变换器的查询、键和值,
其中,将中间特征序列与二维位置编码相加作为键,将中间特征序列作为值,将输入序列与目标查询编码相加作为查询。
6.根据权利要求3所述的方法,其特征在于,所述二维位置编码是指:
针对序列
Figure FDA0002835821810000021
先将特征维度0至E/2-1进行第一方向上的一维位置编码,再将特征维度E/2至E-1进行第二方向上的一维位置编码;
其中,第一方向是宽,第二方向是高,或者,第一方向是高,第二方向是宽,
其中,N为序列长度,E为特征维度。
7.根据权利要求1至6中任一项所述的方法,其特征在于,所述根据所述目标特征序列得到所述目标图像的识别结果,所述识别结果用于标识所述目标图像中所包含的车牌的字符,包括:
对所述目标特征序列中的每个特征向量进行线性变换,得到所述目标图像所包含的字符。
8.一种车牌识别装置,其特征在于,所述装置包括:
获取模块,用于获取待识别的包含车牌的目标图像;
第一处理模块,用于将所述目标图像输入目标卷积神经网络中,得到所述目标图像对应的特征图,并根据所述特征图得到初始特征序列;
第二处理模块,用于将所述初始特征序列输入编码模块,得到编码后的中间特征序列;
第三处理模块,用于将所述中间特征序列输入解码模块,得到解码后的目标特征序列,其中,所述编码模块和所述解码模块都是基于包括多头注意力组件的变换器的,所述多头注意力组件具有三个输入变量:分别为:查询、键和值;
识别模块,用于根据所述目标特征序列得到所述目标图像的识别结果,所述识别结果用于标识所述目标图像中所包含的车牌的字符。
9.一种车牌识别装置,其特征在于,包括:处理器、存储介质和总线,所述存储介质存储有所述处理器可执行的机器可读指令,所述处理器与所述存储介质之间通过总线通信,所述处理器执行所述机器可读指令,以执行如权利要求1-7任一项所述车牌识别方法的步骤。
10.一种存储介质,其特征在于,所述存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如权利要求1-7任一项所述车牌识别方法的步骤。
CN202011481790.1A 2020-12-14 2020-12-14 车牌识别方法、装置及存储介质 Pending CN112508018A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011481790.1A CN112508018A (zh) 2020-12-14 2020-12-14 车牌识别方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011481790.1A CN112508018A (zh) 2020-12-14 2020-12-14 车牌识别方法、装置及存储介质

Publications (1)

Publication Number Publication Date
CN112508018A true CN112508018A (zh) 2021-03-16

Family

ID=74972244

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011481790.1A Pending CN112508018A (zh) 2020-12-14 2020-12-14 车牌识别方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN112508018A (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113139623A (zh) * 2021-05-14 2021-07-20 中国人民解放军91977部队 舰船目标识别方法及装置
CN113569868A (zh) * 2021-06-11 2021-10-29 北京旷视科技有限公司 一种目标检测方法、装置及电子设备
CN113850253A (zh) * 2021-08-24 2021-12-28 中国船舶重工集团公司第七0九研究所 基于深度学习的车牌识别方法及***、服务器及介质
CN114359283A (zh) * 2022-03-18 2022-04-15 华东交通大学 基于Transformer的缺陷检测方法和电子设备
CN114882448A (zh) * 2022-04-01 2022-08-09 北京卓视智通科技有限责任公司 一种车辆监控方法和电子设备
WO2022205018A1 (zh) * 2021-03-30 2022-10-06 广州视源电子科技股份有限公司 车牌字符识别方法、装置、设备及存储介质
CN116245181A (zh) * 2021-12-03 2023-06-09 友好人工智能公司 用于基于转换器的生成任务的推理***的选择性分批
CN116311213A (zh) * 2023-05-18 2023-06-23 珠海亿智电子科技有限公司 基于全局信息整合的车牌识别方法、装置、设备及介质
CN116665110A (zh) * 2023-07-25 2023-08-29 上海蜜度信息技术有限公司 一种视频动作识别的方法及设备
CN116935373A (zh) * 2023-09-18 2023-10-24 珠海亿智电子科技有限公司 多类型车牌识别模型的训练方法、装置、设备及存储介质
CN117237443A (zh) * 2023-02-20 2023-12-15 北京中科海芯科技有限公司 姿态估计方法、装置、电子设备以及存储介质
CN117333492A (zh) * 2023-12-01 2024-01-02 深圳菲尔泰光电有限公司 基于图像处理的光学薄膜质量检测方法及相关装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110956169A (zh) * 2018-09-27 2020-04-03 杭州海康威视数字技术股份有限公司 一种车牌识别方法、装置及电子设备
CN111027555A (zh) * 2018-10-09 2020-04-17 杭州海康威视数字技术股份有限公司 一种车牌识别方法、装置及电子设备
CN111191663A (zh) * 2019-12-31 2020-05-22 深圳云天励飞技术有限公司 车牌号码识别方法、装置、电子设备及存储介质
CN111222513A (zh) * 2019-12-31 2020-06-02 深圳云天励飞技术有限公司 车牌号码识别方法、装置、电子设备及存储介质
CN111626293A (zh) * 2020-05-21 2020-09-04 咪咕文化科技有限公司 图像文本识别方法、装置、电子设备及存储介质
CN111832568A (zh) * 2020-06-12 2020-10-27 北京百度网讯科技有限公司 车牌识别方法、车牌识别模型的训练方法和装置
CN111914842A (zh) * 2020-08-10 2020-11-10 深圳市视美泰技术股份有限公司 车牌信息的识别方法、装置、计算机设备及存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110956169A (zh) * 2018-09-27 2020-04-03 杭州海康威视数字技术股份有限公司 一种车牌识别方法、装置及电子设备
CN111027555A (zh) * 2018-10-09 2020-04-17 杭州海康威视数字技术股份有限公司 一种车牌识别方法、装置及电子设备
CN111191663A (zh) * 2019-12-31 2020-05-22 深圳云天励飞技术有限公司 车牌号码识别方法、装置、电子设备及存储介质
CN111222513A (zh) * 2019-12-31 2020-06-02 深圳云天励飞技术有限公司 车牌号码识别方法、装置、电子设备及存储介质
CN111626293A (zh) * 2020-05-21 2020-09-04 咪咕文化科技有限公司 图像文本识别方法、装置、电子设备及存储介质
CN111832568A (zh) * 2020-06-12 2020-10-27 北京百度网讯科技有限公司 车牌识别方法、车牌识别模型的训练方法和装置
CN111914842A (zh) * 2020-08-10 2020-11-10 深圳市视美泰技术股份有限公司 车牌信息的识别方法、装置、计算机设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
ASHISH VASWANI 等: ""Attention Is All You Need"", 《ADVANCES IN NEURAL INFORMATION PROCESSING SYSTEMS 30》, vol. 30, pages 1 - 15 *

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022205018A1 (zh) * 2021-03-30 2022-10-06 广州视源电子科技股份有限公司 车牌字符识别方法、装置、设备及存储介质
CN113139623A (zh) * 2021-05-14 2021-07-20 中国人民解放军91977部队 舰船目标识别方法及装置
CN113569868B (zh) * 2021-06-11 2023-09-19 北京旷视科技有限公司 一种目标检测方法、装置及电子设备
CN113569868A (zh) * 2021-06-11 2021-10-29 北京旷视科技有限公司 一种目标检测方法、装置及电子设备
CN113850253A (zh) * 2021-08-24 2021-12-28 中国船舶重工集团公司第七0九研究所 基于深度学习的车牌识别方法及***、服务器及介质
CN116245181A (zh) * 2021-12-03 2023-06-09 友好人工智能公司 用于基于转换器的生成任务的推理***的选择性分批
CN114359283A (zh) * 2022-03-18 2022-04-15 华东交通大学 基于Transformer的缺陷检测方法和电子设备
CN114359283B (zh) * 2022-03-18 2022-07-05 华东交通大学 基于Transformer的缺陷检测方法和电子设备
CN114882448A (zh) * 2022-04-01 2022-08-09 北京卓视智通科技有限责任公司 一种车辆监控方法和电子设备
CN114882448B (zh) * 2022-04-01 2023-10-31 北京卓视智通科技有限责任公司 一种车辆监控方法和电子设备
CN117237443A (zh) * 2023-02-20 2023-12-15 北京中科海芯科技有限公司 姿态估计方法、装置、电子设备以及存储介质
CN117237443B (zh) * 2023-02-20 2024-04-19 北京中科海芯科技有限公司 姿态估计方法、装置、电子设备以及存储介质
CN116311213B (zh) * 2023-05-18 2023-08-22 珠海亿智电子科技有限公司 基于全局信息整合的车牌识别方法、装置、设备及介质
CN116311213A (zh) * 2023-05-18 2023-06-23 珠海亿智电子科技有限公司 基于全局信息整合的车牌识别方法、装置、设备及介质
CN116665110A (zh) * 2023-07-25 2023-08-29 上海蜜度信息技术有限公司 一种视频动作识别的方法及设备
CN116665110B (zh) * 2023-07-25 2023-11-10 上海蜜度信息技术有限公司 一种视频动作识别的方法及设备
CN116935373A (zh) * 2023-09-18 2023-10-24 珠海亿智电子科技有限公司 多类型车牌识别模型的训练方法、装置、设备及存储介质
CN116935373B (zh) * 2023-09-18 2024-03-12 珠海亿智电子科技有限公司 多类型车牌识别模型的训练方法、装置、设备及存储介质
CN117333492A (zh) * 2023-12-01 2024-01-02 深圳菲尔泰光电有限公司 基于图像处理的光学薄膜质量检测方法及相关装置
CN117333492B (zh) * 2023-12-01 2024-03-15 深圳菲尔泰光电有限公司 基于图像处理的光学薄膜质量检测方法及相关装置

Similar Documents

Publication Publication Date Title
CN112508018A (zh) 车牌识别方法、装置及存储介质
Xing et al. Stacked denoise autoencoder based feature extraction and classification for hyperspectral images
CN110738203B (zh) 字段结构化输出方法、装置及计算机可读存储介质
US11328184B2 (en) Image classification and conversion method and device, image processor and training method therefor, and medium
EP2782066B1 (en) Local feature descriptor extracting apparatus, method for extracting local feature descriptor, and program
CN102246165A (zh) 利用压缩梯度直方图来代表和标识特征描述符的方法和装置
Deguerre et al. Fast object detection in compressed jpeg images
Armas Vega et al. Digital images authentication technique based on dwt, dct and local binary patterns
Li et al. Fast detection method of quick response code based on run‐length coding
EP4283876A1 (en) Data coding method and related device
Alphonse et al. Novel directional patterns and a Generalized Supervised Dimension Reduction System (GSDRS) for facial emotion recognition
CN111935487B (zh) 一种基于视频流检测的图像压缩方法及***
WO2023051335A1 (zh) 数据编码方法、数据解码方法以及数据处理装置
CN116168394A (zh) 图像文本识别方法和装置
CN116597260A (zh) 图像处理方法、电子设备、存储介质及计算机程序产品
CN115661635A (zh) 基于Transformer融合卷积神经网络的高光谱图像重建方法
CN113223502B (zh) 语音识别***优化方法、装置、设备及可读存储介质
CN112861135B (zh) 基于注意力机制的恶意代码检测方法
CN116432868B (zh) 基于节点查询集的地铁客流量预测方法、装置及存储介质
CN117079264A (zh) 场景文本图像识别方法、***、设备及存储介质
Limonova et al. Bipolar morphological u-net for document binarization
Wu A QR Code-Based on-Street Parking Fee Payment Mechanism
Trevino-Sanchez et al. Hybrid pooling with wavelets for convolutional neural networks
Fitas et al. Design and comparison of image hashing methods: A case study on cork stopper unique identification
CN113727050B (zh) 面向移动设备的视频超分辨率处理方法、装置、存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination