CN111008634B

CN111008634B - 一种基于实例分割的字符识别方法及字符识别装置

Info

Publication number: CN111008634B
Application number: CN201911159564.9A
Authority: CN
Inventors: 许永喜; 孙巍巍; 师小凯; 邓一星
Original assignee: Beijing Elite Road Technology Co ltd
Current assignee: Beijing Elite Road Technology Co ltd
Priority date: 2019-11-22
Filing date: 2019-11-22
Publication date: 2023-08-22
Anticipated expiration: 2039-11-22
Also published as: CN111008634A

Abstract

本申请提供一种基于实例分割的字符识别方法及字符识别装置，用于提高字符识别的准确率。该基于实例分割的字符识别方法包括：获取待识别图像；其中，所述待识别图像包括至少一个待识别字符；对所述待识别图像进行实例分割，获得所述至少一个待识别字符的载体的第一实例分割图像；对所述第一实例分割图像进行实例分割，获得所述至少一个待识别字符的第二实例分割图像；对所述第二实例分割图像进行字符识别，获得所述至少一个待识别字符。

Description

一种基于实例分割的字符识别方法及字符识别装置

技术领域

本申请涉及图像模式识别、视频目标检测与跟踪、智能视频监控或智能交通等技术领域，特别涉及一种基于实例分割的字符识别方法及字符识别装置。

背景技术

随着机器学习技术在图像处理领域的应用，大幅提高了图像处理技术的应用效果。图像处理领域的一个重要内容就是字符识别，而字符识别的一个重要应用场景就是车牌识别。

目前车牌识别***主要包括3个处理模块，例如车牌检测、字符分割和字符识别。其中，传统的字符分割是将分属不同物体的像素区域分开，例如前景与后景分开，将各个字符的区域与背景分割开，分割方式较为粗略，精度低，不免会对后续的字符识别的准确度带来一定的影响。

可见，现有技术中的字符识别的准确率较低。

发明内容

本申请实施例提供一种基于实例分割的字符识别方法及字符识别装置，用于提高字符识别的准确率。

第一方面，本申请提供了一种基于实例分割的字符识别方法，包括：获取待识别图像；其中，所述待识别图像包括至少一个待识别字符；对所述待识别图像进行实例分割，获得所述至少一个待识别字符的载体的第一实例分割图像；对所述第一实例分割图像进行实例分割，获得所述至少一个待识别字符的第二实例分割图像；对所述第二实例分割图像进行字符识别，获得所述至少一个待识别字符。

在本申请实施例中，对待识别图像进行实例分割，实现了像素级的分割，从而能够保证字符识别的准确率。

进一步，在本申请实施例中，先是对待识别图像进行实例分割，得到至少一个待识别字符的载体的第一实例分割图像，然后基于第一实例分割图像进行实例分割和字符识别，相较于基于原待识别图像进行实例分割和字符识别，消除了待识别图像中其它背景物体的干扰，从而能够提高至少一个待识别字符的分割的正确率，进而进一步提高字符识别的准确率。

另一方面，在本申请实施例中，由于消除了待识别图像中其它背景物体的干扰，则相当于是缩小了至少一个待识别字符的检测范围，从而提高了至少一个待识别字符的分割效率，也就是提高了字符识别的效率。

在一个可能的设计中，对所述待识别图像进行实例分割，获得所述至少一个待识别字符的载体的第一实例分割图像，包括：利用第一实例分割模型对所述待识别图像进行实例分割，获得所述第一实例分割图像；其中，所述第一实例分割模型对应的第一实例分割网络的训练样本集对应至少两种光照强度和/或至少两种倾斜角度；相应的，对所述第一实例分割图像进行实例分割，获得所述至少一个待识别字符的第二实例分割图像，包括：利用第二实例分割模型对所述第一实例分割图像进行实例分割，获得所述第二实例分割图像；其中，所述第二实例分割模型对应的第二实例分割网络的训练样本集对应至少两种光照强度和/或至少两种倾斜角度。

在本申请实施例中，第一实例分割网络和第二实例分割网络的训练样本集均对应至少两种光照强度和/或至少两种倾斜角度，因此，对第一实例分割网络进行训练后的第一实例分割模型和对第二实例分割网络进行训练后的得到的第二实例分割模型能够消除因待识别图像的受光照强度和/或倾斜角度的影响，而导致字符识别错误，从而能够进一步提高字符识别的准确率。

在一个可能的设计中，所述第一实例分割网络的结构和所述第二实例分割网络的结构相同；或所述第一实例分割网络的结构和所述第二实例分割网络的结构不同；其中，在所述第一实例分割网络的结构和所述第二实例分割网络的结构不同时，所述第一实例分割网络的卷积核的尺寸大于所述第二实例分割网络的卷积核的尺寸。

在本申请实施例中，在第一实例分割网络的结构和第二实例分割网络的结构为不同的实例分割网络结构时，第一实例分割网络的卷积核尺寸大于第二实例分割网络的卷积核尺寸。这主要是由于至少一个待识别字符的载体的图像区域大于至少一个待识别字符中每个待识别字符的图像区域，通过这样的设置能够获得更多分辨率的载体的特征图，进而提高实例分割的准确率，进而能够提高字符识别的准确率。

在一个可能的设计中，所述第一实例分割网络和所述第二实例分割网络的卷积层数均小于预设卷积层数。

在本申请实施例中，第一实例分割网络和第二实例分割网络的卷积层数均小于预设卷积层数，从而能够减少计算量，以提高字符识别的效率。其中，预设卷积层层数可以是23层、20层或18层，这里可以根据实际需要进行设置。

在一个可能的设计中，对所述第一实例分割图像进行实例分割，获得所述至少一个待识别字符的第二实例分割图像，包括：对所述第一实例分割图像进行边缘拟合，得到拟合后的第一实例分割图像；对所述拟合后的第一实例分割图像进行实例分割，获得所述第二实例分割图像。

由于获取的第一实例分割图像边缘不够规则，在具体实现过程中，可以采用实例分割所获取的边缘点对第一实例分割图像的边缘进行拟合，使得第一实例分割图像的边缘更规则，从而能够方便后续的特征选取。

第二方面，本申请实施例还提供一种字符识别装置，包括：

获取模块，用于获取待识别图像；其中，所述待识别图像包括至少一个待识别字符；

第一分割模块，用于对所述待识别图像进行实例分割，获得所述至少一个待识别字符的载体的第一实例分割图像；

第二分割模块，用于对所述第一实例分割图像进行实例分割，获得所述至少一个待识别字符的第二实例分割图像；

识别模块，用于对所述第二实例分割图像进行字符识别，获得所述至少一个待识别字符。

在一个可能的设计中，在所述第一分割模块对所述待识别图像进行实例分割，获得所述至少一个待识别字符的载体的第一实例分割图像时，具体用于：

利用第一实例分割模型对所述待识别图像进行实例分割，获得所述第一实例分割图像；其中，所述第一实例分割模型对应的第一实例分割网络的训练样本集对应至少两种光照强度和/或至少两种倾斜角度；

相应的，在所述第二分割模块对所述第一实例分割图像进行实例分割，获得所述至少一个待识别字符的第二实例分割图像时，具体用于：

利用第二实例分割模型对所述第一实例分割图像进行实例分割，获得所述第二实例分割图像；其中，所述第二实例分割模型对应的第二实例分割网络的训练样本集对应至少两种光照强度和/或至少两种倾斜角度。

在一个可能的设计中，所述第一实例分割网络的结构和所述第二实例分割网络的结构相同；或

所述第一实例分割网络的结构和所述第二实例分割网络的结构不同；

其中，在所述第一实例分割网络的结构和所述第二实例分割网络的结构不同时，所述第一实例分割网络的卷积核的尺寸大于所述第二实例分割网络的卷积核的尺寸。

在一个可能的设计中，在所述第二分割模块对所述第一实例分割图像进行实例分割，获得所述至少一个待识别字符的第二实例分割图像时，具体用于：

对所述第一实例分割图像进行边缘拟合，得到拟合后的第一实例分割图像；

对所述拟合后的第一实例分割图像进行实例分割，获得所述第二实例分割图像。

第三方面，本申请还提供一种字符识别装置，包括：

存储器，存储有指令；

处理器，用于读取所述存储器中存储的指令，执行如第一方面及第一方面的任意一种设计的方法。

第四方面，本申请提供一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述各方面所述的方法。

第五方面，本申请提供一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述各方面所述的方法。

更进一步，在本申请实施例中，由于消除了待识别图像中其它背景物体的干扰，则相当于是缩小了至少一个待识别的字符的检测范围，从而提高了至少一个待识别字符的分割效率，也就是提高了字符识别的效率。

附图说明

图1为现有技术中U-net分割网络的结构示意图；

图2为本申请采集的车辆图像的示意图；

图3为本申请提供的一种应用场景的示意图；

图4为本申请提供的一种基于实例分割的字符识别方法的流程示意图；

图5A-图5B为本申请中对样本数据进行标注的示意图；

图6为本申请对第一实例分割图像进行第一次校正的示意图；

图7为本申请对第一实例分割进行第二次校正的示意图；

图8为本申请提供的基于实例分割的字符识别方法应用于车牌识别的具体流程示意图；

图9为本申请提供的基于实例分割的字符识别方法应用于车牌识别的基本流程示意图；

图10为本申请实施例提供的字符识别装置的结构示意图；

图11为本申请实施例提供的另一字符识别装置的结构示意图；

图12为本申请实施例提供的字符识别装置是服务器时的结构示意图；

图13为本申请实施例提供的字符识别装置是终端设备时的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。

以下，对本申请实施例中的部分用语进行解释说明，以便于本领域技术人员理解。

(1)U-net分割网络。请参见图1，U-net分割网络包括卷积层、最大池化层(下采样)、反卷积层(上采样)以及激活函数(Rectified Linear Unit，ReLU)，下面将详细介绍。

最大池化层，下采样过程：

假设最初输入的图像尺寸是572×572的灰度图，经过两次3×3×64(64个卷积核，得到64个特征图)的卷积核进行卷积操作后，得到尺寸是568×568×64的图像。然后进行2×2的最大池化操作，尺寸变为248×248×64。其中，3×3卷积之后会采用ReLU对原始图像进行降采样操作。且每一次降采样都会增加一倍通道数，也就是卷积核数量成倍增加。

在达到最底层时即第4次最大池化后，图像尺寸变为32×32×512，然后在进行两次3×3×1024的卷积操作，得到尺寸大小为28×28×1024的图像。

反卷积层，上采样过程：

首先进行2×2的反卷积操作，得到尺寸是56×56×512的图像，然后对对应最大池化层之前的图像进行复制和剪裁，与反卷积得到的图像拼接起来得到尺寸是56×56×1024的图像，然后再进行3×3×512的卷积操作。

按照上述过程重复4次，也就是进行4次2×2反卷积+3×3卷积，在进行每一次拼接之后的第一个3×3卷积操作，卷积核数量成倍减少。在达到最上层时即第4次反卷积之后，图像尺寸变为392×392×64，进行复制和剪裁然后拼接得到尺寸是392×392×128图像，然后再进行两次3×3×64的卷积操作，得到尺寸为388×388×64的图像，最后再进行一次1×1×2的卷积操作，通过这一操作可以将64通道的特征向量转换为所需要的分类结果的数量。

(2)本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，如无特殊说明，一般表示前后关联对象是一种“或”的关系。且在本申请实施例的描述中，“第一”、“第二”等词汇，仅用于区分描述的目的，而不能理解为指示或暗示相对重要性，也不能理解为指示或暗示顺序。

在介绍本申请提供的基于实例分割的字符识别方法之前，首先介绍本申请提供的基于实例分割的字符识别方法的应用场景，包括但不限于以下几种应用场景，下面将分别进行简单介绍。

一、车牌识别场景

作为示例，车牌识别场景包括但不限于道路交通监控、交通事故现场勘查、交通违章自动记录、高速公路自动收费***、停车场自动安全管理、智能圆圈管理等。其中，以交通违章自动记录为例，由图像采集装置采集视频图像后，发送至服务器，服务器从获取的视频图像中获取车辆图像(例如图2所示的车辆图像)，进而对车辆图像中的车牌进行识别，从而自动获得违规车辆的信息。

二、光学字符识别(Optical Character Recognition，OCR)场景

OCR是通过字符识别将待识别文件中的文字转换成文本格式的过程，例如邮政编码、书籍扫描文档传真、识别身份证的性别、行驶证的车辆类型等等。

应理解，本申请实施例提供的基于实例分割的字符识别方法可以应用于与终端设备和服务器交互的实施环境中。在应用于与终端设备和服务器交互的实施环境中时，请参见图3，该实施环境包括：包括服务器、与服务器通过网络相连的终端设备。其中，终端设备用于将自身录制的视频数据发送至服务器，服务器用于执行本申请实施例提供的基于实例分割的字符识别方法，以在终端设备发送的视频数据包括的各视频帧中进行字符识别，或终端设备用于将自身采集的图像数据发送至服务器，服务器用于执行本申请实施例提供的基于实例分割的字符识别方法。

其中，终端设备可以通过无线网络例如无线保真(Wireless Fidelity，WIFI)、第三代移动通信技术(the 3th Genemation，3G)、***移动通信技术(the 4^thGenernation，4G)、第五代移动通信技术(the 5^th Genernation，5G)与服务器进行通信，或者通过有线网络与服务器进行通信。终端设备可以是独立的具有图像采集功能的设备，例如摄像头等，也可以是集成有图像采集功能模块的设备，例如计算机、智能手机、平板电脑等。服务器可以是应用服务器，也可以是万维网(World Wide Web)服务器，在实际应用部署时，该服务器可以是独立的服务器，也可以是由多个服务器组成的集群服务器，服务器还可以是嵌入式智能分析设备，例如嵌入式开发板，算法的运行平台。

当然，本申请实施例提供的基于实例分割的字符识别方法也可以应用于终端设备中。其中，终端设备可以是具有智能分析一体球机(球机是球形摄像机的简称，用于获取视频数据)，也可以是便携式设备，作为示例移动设备，例如手机、平板电脑、笔记本计算机或具备无线通讯功能的可穿戴设备(如智能手表或智能眼镜等)等。该移动设备的示例性实施例包括但不限于搭载或者其它操作***的设备。

在下面的介绍过程中，以该基于实例分割的字符识别方法应用于终端设备为例进行说明。应理解，该基于实例分割的字符识别方法的执行主体并不仅限于终端设备，还可以应用于服务器等具备图像处理功能的设备。请参见图4，为本申请一实施例提供的一种基于实例分割的字符识别方法的流程示意图，该方法的流程描述如下：

S401：获取待识别图像；其中，所述待识别图像包括至少一个待识别字符。

在具体实现过程中，由于字符识别结果取决于待识别图像的清晰度，例如，在待识别图像的清晰度较低时，导致字符识别的准确率较低，而在识别错误的情况下，则需要重新获取待识别图像，从而也会影响字符识别的效率。

而待识别图像的清晰度往往容易受终端设备在采集图像时所处环境因素的影响，例如抖动或光照强度。那在本申请实施例中，为避免抖动和/或光照强度对字符识别的影响。在具体实现过程中，在图像采集装置采集图像时，首先获取终端设备的稳定参数。其中，所述稳定参数用于评估终端设备的稳定程度。也就是稳定参数用于表示该终端设备是否处于稳定状态，也即稳定参数用于表示该终端设备的抖动程度。例如当终端设备的抖动幅度较大时，该终端设备的稳定参数表示该终端设备的稳定程度低。

在本申请实施例中，该稳定参数可以通过终端设备中的传感器进行测量，例如陀螺仪传感器、重力传感器、加速度传感器、旋转矢量传感器等。作为示意，通过陀螺仪传感器测量图像采集装置在预设时长内的旋转角度、通过重力传感器测量图像采集装置在预设时长内在重力方向的位移，通过加速度传感器测量图像采集装置在预设时长内在一个方向上的加速度值。

再次，在图像采集装置采集图像时，还要获取终端设备当前所处环境的光照强度。例如可以通过终端设备中光线传感器进行采集。

此处应理解，在实际操作过程中，可以先获取光照强度，也可以先获取稳定参数，当然，也可以同时获取光照强度和稳定参数，这两者的获取顺序不受上述描述顺序的限制。在获取终端设备的稳定参数、光照强度后，则确定稳定参数及光照强度是否满足预设条件，在稳定参数及光照强度均满足预设条件时，才采集图像。作为示例，稳定参数中的加速度值小于预设加速度，光照强度大于第一预设光照强度且小于第二预设光照强度。在具体实现过程中，在稳定参数及光照强度不满足预设条件时，可以通过人工干预，调整终端设备的稳定参数，或光照强度，使得两者均能够满足预设条件。

此处需要说明的是，当本申请的基于实例分割的字符识别方法应用在车牌识别场景时，由于终端设备大多是处于固定状态，也就是说终端设备大多是处于稳定状态，那么在该应用场景下，可以不用获取终端设备的稳定参数。那么在终端设备所处环境的光照强度满足预设条件后，终端设备即可产生实时视频数据，并从视频数据中获取视频帧数据，也就是步骤S301中的待识别图像。

而在本申请的基于实例分割的字符识别方法应用在OCR场景时，终端设备大多是处于手持状态，也就是由终端设备的用户握持终端设备，而在用户手持终端设备时，难免会因为外界因素的影响导致图像采集装置处于抖动状态。因此在该场景下，既需要获取终端设备的稳定参数，也要获取终端设备所处环境的光照强度。那么在稳定参数和光照强度均满足预设条件后，终端设备采集待识别图像。

在介绍完步骤S401中终端设备如何获取待识别图像后，则简单说明下待识别图像中包括的至少一个待识别字符。在本申请实施例中，至少一个待识别字符可以是汉字、数字、符号、英文字母中的任意一种或多种组合。作为示例，一辆轿车的车牌是X A12345，其中既包括汉字X，也包括英文字母A和数字12345。作为另一示例，书本上的一段文字“智能交通的理论和应用研究掀起了热潮”，其中包括汉字和符号。

在终端设备获取待识别图像之后，则对待识别图像进行处理，以进行后续的字符识别，下面先介绍步骤S402：对所述待识别图像进行实例分割，获得所述至少一个待识别字符的载体的第一实例分割图像；以及步骤S403：对所述第一实例分割图像进行实例分割，获得所述至少一个待识别字符的第二实例分割图像。

其中，至少一个待识别字符的载体指的是至少一个待识别字符的第一承载物。作为示例，待识别图像是车辆图像，则至少一个待识别字符的载体指的是车牌，而并是不车辆；作为另一示例，待识别图像是饮料瓶，则至少一个待识别字符的载体指的是粘贴在饮料瓶上的标签，而并不是饮料瓶。

下面将详细介绍步骤S402和步骤S403的具体实现过程，包括如下步骤：

相应的，利用第二实例分割模型对所述第一实例分割图像进行实例分割，获得所述第二实例分割图像；其中，所述第二实例分割模型对应的第二实例分割网络的训练样本集对应至少两种光照强度和/或至少两种倾斜角度。

在此需要说明的是，实例分割模型是实例分割网络通过不断的学习训练得到的，此处将第一实例分割模型对应的分割网络称为第一实例分割网络，将第二实例分割模型对应的分割网络称为第二实例分割网络。

在本申请实施例中，第一实例分割网络的结构和第二实例分割网络的结构可以相同，例如第一实例分割网络的结构和第二实例分割网络的结构均包括收缩路径和扩展路径，收缩路径上每两个卷积层的后面都会跟一个2*2的最大池化层，且每个卷积层后面会采用ReLU激活函数对原始图像进行降采样操作。此处需要说明的是，收缩路径上的最上层的卷积核的尺寸要大于下层的卷积核的尺寸，例如最上层的卷积核的尺寸是6*6，下层的卷积核的尺寸是3*3；扩展路径上，每一步会有一个2*2的卷积层和一个两个的3*3的卷积层，在网络的最后一层是一个1*1的卷积层，共包括23层卷积层。

在具体实现过程中，第一实例分割网络的结构和第二实例分割网络的结构也可以不同。而在第一实例分割网络的结构和第二实例分割网络的结构不同时，第一实例分割网络的卷积核的尺寸大于第二实例分割网络的卷积核的尺寸。作为示例，将上一段落中介绍的实例分割网络作为第一实例分割网络，将U-net分割网络作为第二实例分割网络。其中，将第一实例分割网络的卷积核的尺寸设计为大于第二实例分割网络的卷积核的尺寸是因为至少一个待识别字符的载体的图像区域大于至少一个待识别字符的图像区域，那么为了提取出更多分辨率的特征图，可以将用于对待识别图像进行实例分割的第一实例分割网络的卷积层的卷积核的尺寸设置的大些。

进一步，在本申请实施例中，为减少计算量，提高实例分割效率。在具体实现过程中，第一实例分割网络和第二实例分割网络的卷积层数均小于预设卷积层数。此处预设卷积层数可以是17层、18层、23层，或者为其它层数，具体可以根据实际需要进行设置。作为示例，以预设卷积层层数是23为例，第一实例分割网络的卷积层层数是18，第二实例分割网络的卷积层层数是20；或者第一实例分割网络的卷积层层数是20，第二实例分割网络的卷积层层数也是20，在此不再一一举例。因此，为进一步减少计算量，可以将上述设计的第一实例分割网络的卷积层缩减至18层，将U-net分割网络的卷积层缩减至20层。

此处可以理解的是，第一实例分割模型是对至少一个待识别字符的载体的进行分割，因此第一实例分割模型可以被称为为载体实例分割模型，作为示例，在本申请提供的基于实例分割的字符识别方法应用于车牌识别时，第一实例分割模型具体可以被称为车牌实例分割模型；第二实例分割模型是对至少一个待识别字符进行分割，因此第二实例分割模型具体可以被称为字符实例分割模型。当然在具体实现过程中，第一实例分割模型和第二实例分割模型还可以根据其实际功能命名为其它名称，在本申请实施例中不作限制。

在介绍完第一实例分割网络的结构和第二实例分割网络的结构后，下面再分别介绍下如何对第一实例分割网络和第二实例分割网络进行训练，以得到第一实例分割模型和第二实例分割模型。

目前，传统的字符识别方法是先对待识别图像进行归一化处理，形成由像素灰度组成的图像，像素被设置为0或者1，然后再进行字符识别。这种算法容易受到外界条件的影响，例如光照强度、倾斜角度等，当光照强度过强或过弱会导致像素位的输入特征值0或1设置错误，从而造成字符的误识别。

那么在本申请实施例中，为降低字符误识别的概率，在对第一实例分割网络和第二实例分割网络进行训练时，在训练样本中就会考虑到光照强度、倾斜角度等的影响，下面则分别介绍。此处应说明的是，在下面的介绍过程中，以将本申请提供的基于实例分割的字符识别方法应用于车牌字符识别为例。

1)对第一实例分割网络进行训练

首先准备训练样本集。

在本申请实施例中，训练样本集中的训练样本采集的方式包括但不限于以下两种方式，下面分别进行介绍。

方式一

利用终端设备采集一个周期内每天不同时间段的车辆的图像，该周期可以是半个月、一个星期、五个工作日等，可以根据实际需要进行设置。由于是采集一天不同时间段的车辆图像，所获取的车辆图像数据会包含不同光照强度的情况，且在终端设备采集过程中，被采集的车辆是运动变化的，例如前进、左拐、右拐等，因此所采集到的车辆图像数据会包含不同的倾斜角度。

方式二

利用终端设备采集一张车辆的图像，然后利用图像处理技术，例如对该车辆的图像的光照强度进行调整，对该车辆的图像进行拉伸、缩放、旋转，进而能够得到一组图像，该组图像中就包括对应不同光照强度的车辆照片以及包括对应不同倾斜角度的照片。

再次，利用获得的训练样本集对第一实例分割网络进行训练。

在采集完车辆图像或得到经处理后的车辆图像后，则将获得的车辆图像数据中的75％作为第一实例分割网络的训练数据，也就是第一实例分割网络的训练样本集，将车辆图像数据中剩余的25％作为第一实例分割网络的测试数据。

在对第一实例分割网络进行训练之前，先利用图像标注工具Labelme对训练集样本集中的车辆图像进行标注，也就是在训练样本集中的车辆图像上标注出车牌区域，具体可以参见图5A、图5B，然后将标注后的车辆图像数据输入第一实例分割网络中，训练完成得到第一实例分割模型。

2)对第二实例分割网络进行训练

对第二实例分割网络的训练首先也是要准备训练样本集，应理解，该训练样本集中的训练样本应是车牌图像数据。其中，第二实例分割网络的训练数据集中的训练样本的获取方式同第一实例分割网络的训练样本的获取方式，在此不再赘述。

在采集完车牌图像或得到经处理后的车牌图像后，则将获得的车牌图像数据中的75％作为第二实例分割网络的训练数据，也就是第二实例分割网络的训练样本集，将车牌图像数据中剩余的25％作为第二实例分割网络的测试数据。

在对第二实例分割网络进行训练之前，先是利用图像标注工具Labelme对训练样本集中的训练样本进行标注，也就是在训练样本集中的车牌图像上标注出字符区域，然后将标注后的车牌图像数据输入第二实例分割网络，在训练完成后，得到第二实例分割模型。

在得到第一实例分割模型和第二实例分割模型之后，则对待识别图像进行分割。首先，利用第一实例分割模型对待识别图像进行实例分割，得到对至少一个待识别字符的载体的第一实例分割图像。

在得到第一实例分割图像之后，则接着执行步骤S403，在具体实现过程中，步骤S403的具体实现过程，包括如下步骤：

在具体实现过程中，获得的第一实例分割图像的边缘可能是一些离散的点或线段，不规则，为使其边缘更加规则，为后续的特征选取打下基础，则可以采用实例分割所获取的边缘像素点对第一实例分割图像的边缘进行拟合。其中拟合方法可以是最小二乘拟合、梯度下降法拟合或者是高斯牛顿、列-马算法拟合，或者是其它拟合算法，在此不再一一举例。

在对第一实例分割图像进行拟合后，则利用第二实例分割模型对拟合后的第一实例分割图像进行实例分割。而在终端设备获取待识别图像时，会由于外在因素的影响，例如车牌悬架的角度和位置、车辆的轨迹或终端设备的倾斜，导致所采集图像倾斜，而当采集图像的倾斜角度大于或等于2度时，就会影响后续的分割准确度和字符识别率。因此，在本申请实施例中，在对拟合后的第一实例分割图像进行实例分割之前，还需要对拟合后的图像进行倾斜角度的矫正。

在具体实现过程中，对拟合后的图像进行矫正主要包括以下步骤：

步骤一、角度检测

在本申请实施例中，采用基于Radon变换的方法，搜索构成矩形的直线段及其倾斜角度。其中，Randon变换的基本思想是点-线的对偶性。图像变换前在图像空间，变换后在参数空间。具体步骤如下：

对拟合后的图像进行二值化，然后对二值图像边缘化后进行Radon变换，接着计算出Radon变换矩阵中的峰值。Radon变换后，原图像中的直线段对应Radon空间中的点，且线段越长，对应的点亮度越大。所以在Radon空间中找峰值点(ρ，θ)，θ即为对应原图像中的直线段的倾斜角度。

步骤二、校正

校正为分两步。首先，把表示车牌区域的四边型的一边规划到与y轴平行，如图6所示。不失一般性，假设旋转中心为(x₀，y₀)，旋转角度为α，把原图中任一点(x，y)转换到点(x_k，y_k)，可用下式描述：

其中，顺时针时，α取负值，逆时针时取正值。

然后，再对变换后的新图像操作。根据车牌水平边的斜率对像素位置进行调整，取平行四边形的最低点为基准像素点，以之作一基准水平线，底边上各像素点垂直下沉到基准直线上，图像上其它元素再依次下移，如图7所示。

设最低点A的坐标为(x₁，y₁)，斜边与基准直线的夹角为β，车牌中的任一像素点(x，y)，校正得到新点的坐标为(x′，y′)，其关系可用下式表示：

这样，经过两次校正，倾斜的图像就转换到正常的位置。

在对拟合后的第一实例图像进行倾斜校正后，得到经校正的第一实例分割图像，然后利用第二实例分割模型对经校正的第一实例分割图像进行实例分割，得到第二实例分割图像。

在得到第二实例分割图像后，则执行步骤S404：对所述第二实例分割图像进行字符识别，获得所述至少一个待识别字符。

在本申请实施例中，对第二实例分割图像进行字符识别的方法可以是可支持向量机(Support vector machine，SVM)，也可以是基于神经网络，例如卷积神经网络(Convolutional Neural Networks，CNN)、循环神经网络(Recurrent neural Network，RNN)、前馈神经网络以及后馈神经网络中的至少一种。其中，神经网络模型可以是通过样本字符进行训练后得到的模型，该样本字符为标注为实际字符结果的数据。

上面分步骤详细的介绍了本申请提供的基于实例分割的字符识别方法，下面则给出将基于实例分割的字符识别方法应用于车牌识别领域的完整流程图，具体请参见图8。

步骤1：获取待识别图像；其中，待识别图像是从获取的视频数据中提取的，视频数据是终端设备利用图像采集单元采集的包括至少两帧图像的数据。

步骤2：获取车牌实例分割模型；其中，此处车牌实例分割模型的结构及训练过程可以参照上述基于实例分割的字符识别方法中对第一实例分割模型的介绍，在此不再赘述。

步骤3：利用车牌实例分割模型对待识别图像进行实例分割，获得分割后的车牌图像，其中，对应该步骤的图片中的画斜线的区域则为分割后的车牌图像；

步骤4：对分割后的车牌图像进行边缘拟合，获得拟合后的车牌图像；其中，此处的拟合方法同在基于实例分割的字符识别方法中介绍的拟合方法，在此不再赘述。

步骤5：对拟合后的车牌图像进行校正，获得校正后的车牌图像；

步骤6：获取字符实例分割模型；其中，此处字符实例分割模型的结构及训练过程可以参照上述基于实例分割的字符识别方法中对第二实例分割模型的介绍，在此不再赘述。

步骤7：利用字符实例分割模型对矫正后的车牌图像进行实例分割，获得字符分割图像；

步骤8：对字符分割图像进行字符识别，获得至少一个待识别字符；其中，此处的字符识别方法同上述介绍的字符识别算法，在此不再赘述。

步骤9：输出至少一个待识别字符。

综上所述，请参见图9，本申请提供的基本车牌识别流程主要包括如下几个部分：采集车辆图像，然后进行车牌定位(也就是对待识别图像进行两次实例分割的过程)，接着对车牌进行字符识别，输出至少一个待识别字符，以对至少一个待识别字符进行处理。

基于同一发明构思，请参见图10，本申请还提供一种字符识别装置1000，包括：

获取模块1001，用于获取待识别图像；其中，所述待识别图像包括至少一个待识别字符；

第一分割模块1002，用于对所述待识别图像进行实例分割，获得所述至少一个待识别字符的载体的第一实例分割图像；

第二分割模块1003，用于对所述第一实例分割图像进行实例分割，获得所述至少一个待识别字符的第二实例分割图像；

识别模块1004，用于对所述第二实例分割图像进行字符识别，获得所述至少一个待识别字符。

在一个可能的设计中，在所述第一分割模块1002对所述待识别图像进行实例分割，获得所述至少一个待识别字符的载体的第一实例分割图像时，具体用于：

相应的，在所述第二分割模块1003对所述第一实例分割图像进行实例分割，获得所述至少一个待识别字符的第二实例分割图像时，具体用于：

在一个可能的设计中，在所述第二分割模块1003对所述第一实例分割图像进行实例分割，获得所述至少一个待识别字符的第二实例分割图像时，具体用于：

请参见图11，本申请实施例还提供一种字符识别装置1100，包括：

存储器1101，用于存储指令；

处理器1102，用于读取所述存储器中存储的指令，实现如图4所示的基于实例分割的字符识别方法。

其中，存储器1101的数量可以是一个或多个，存储器1101可以是只读存储器(Read-only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)或磁盘存储器等等。

处理器1102可以包括一个或多个处理核心，例如4核核心处理器、8核核心处理器。处理器1102可以是中央处理器(Central Prcessing Unit，CPU)、通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application SpecificIntegrated Circuit，ASIC)、现场可编程门阵列(Field Programmable Gate Array，FPGA)或其它可编程逻辑器件、晶体管逻辑器件，硬件部件或者其任意组合。处理器1102也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU，协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器1102可以再集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器1102还可以包括人工智能(Artificial Intelligence，AI)处理器，该AI处理器用于处理有关机器学习的操作。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框、模块和电路。

在介绍本申请提供的基于实例分割的字符识别方法之前就提到，本申请的执行主体可以是服务，也可以是终端设备，因此此处的字符识别装置1100可以服务器，也可以是终端设备；其中，在字符识别装置1100为终端设备时，终端设备可以是智能分析一体球机，也可以是手机。

请参见图12，在字符识别装置1100是服务器时，字符识别装置1100还可以包括至少一个电源，至少一个有线或无线网络接口，至少一个输入输出接口，和/或至少一个操作***。

请参见图13，在字符识别装置1100是终端设备时，此处以终端设备是球机为例，球机还可以无线通信模块、语音采集模块、传感器及电源等部件。本领域普通技术人员应理解，上述给出的球机结构并不构成对球机的限定，可以包括比上述更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面以终端设备是球机，对球机的各个构成部件进行具体的介绍：

无线通信模块，作为示例，WIFI模块、蓝牙模块、3G模块、4G模块、5G通信模块，或者为其它下一代通信模块等；

语音采集模块，例如麦克风，用于采集语音信息，以实现语音自动定位或者是声音识别，以实现身份识别等；

球机还可以包括至少一种传感器，例如光传感器、加速度传感器、重力传感器。球机还可以包括给各个部件供电的电源，其中，电源可以通过电源管理***与处理器逻辑相连，从而通过电源管理***实现管理充电、放电、以及功耗管理等功能。

本申请实施例还提供一种计算机存储介质，该存储介质可以包括存储器，该存储器可存储有程序，该程序执行时包括如前的图4所示的方法实施例中记载的终端设备所执行的全部步骤。

本领域内的技术人员应明白，本申请的实施例可提供为方法、***、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种基于实例分割的字符识别方法，其特征在于，包括：

获取待识别图像；其中，所述待识别图像包括至少一个待识别字符；

对所述待识别图像进行实例分割，获得所述至少一个待识别字符的载体的第一实例分割图像；

对所述第一实例分割图像进行实例分割，获得所述至少一个待识别字符的第二实例分割图像；

对所述第二实例分割图像进行字符识别，获得所述至少一个待识别字符；

其中，所述第一实例分割图像的边缘包括离散的边缘像素点；所述对所述第一实例分割图像进行实例分割，获得所述至少一个待识别字符的第二实例分割图像包括：

基于拟合算法，采用所述边缘像素点对所述第一实例分割图像的边缘进行拟合，得到拟合后的第一实例分割图像；以及

2.根据权利要求1所述的方法，其特征在于，对所述待识别图像进行实例分割，获得所述至少一个待识别字符的载体的第一实例分割图像，包括：

相应的，对所述第一实例分割图像进行实例分割，获得所述至少一个待识别字符的第二实例分割图像，包括：

3.根据权利要求2所述的方法，其特征在于，

所述第一实例分割网络的结构和所述第二实例分割网络的结构相同；或

4.根据权利要求2所述的方法，其特征在于，

所述第一实例分割网络和所述第二实例分割网络的卷积层数均小于预设卷积层数。

5.一种字符识别装置，其特征在于，包括：

识别模块，用于对所述第二实例分割图像进行字符识别，获得所述至少一个待识别字符，

其中，所述第一实例分割图像的边缘包括离散的边缘像素点；所述第二分割模块具体用于：

6.根据权利要求5所述的装置，其特征在于，在所述第一分割模块对所述待识别图像进行实例分割，获得所述至少一个待识别字符的载体的第一实例分割图像时，具体用于：

7.根据权利要求6所述的装置，其特征在于，

8.一种字符识别装置，其特征在于，包括：

存储器，存储有指令；

处理器，用于读取所述存储器中存储的指令，执行如权利要求1-4任一项所述的方法。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有指令，当所述指令在计算机上运行时，使得所述计算机执行如权利要求1-4任一项所述的方法。