CN111881897B

CN111881897B - 一种停车场地面中文标志识别方法及其***、存储介质

Info

Publication number: CN111881897B
Application number: CN202011031029.8A
Authority: CN
Inventors: 钟力阳; 何俏君; 王薏; 付颖; 郭继舜; 张志德
Original assignee: Guangzhou Automobile Group Co Ltd
Current assignee: Guangzhou Automobile Group Co Ltd
Priority date: 2020-09-27
Filing date: 2020-09-27
Publication date: 2021-01-01
Anticipated expiration: 2040-09-27
Also published as: CN111881897A

Abstract

本发明公开了一种停车场地面中文标志识别方法及其***、存储介质，所述方法包括：获取停车位图像，并进行预处理；利用神经网络模型对预处理后的图像进行中文字符识别；当图像中不存在中文字符时，神经网络模型输出无中文字符的识别结果；当图像中存在中文字符时，神经网络模型提取包含中文字符的文本区域图像，并输出；当神经网络模型输出无中文字符的识别结果，结束流程；当神经网络模型输出文本区域图像时，对文本区域图像进行文本校正，对校正后的文本区域图像进行字符分割得到多个字符区域图像，并对多个字符区域图像进行分类，输出地面中文标志的识别结果。本发明能够对停车场的地面中文标志进行识别，避免泊车时将车停到不恰当的区域。

Description

一种停车场地面中文标志识别方法及其***、存储介质

技术领域

本发明涉及智能驾驶感知技术领域，具体涉及一种停车场地面中文标志识别方法及其***、存储介质。

背景技术

对于自主代客泊车等停车场场景内的自动驾驶功能来说，车辆对停车场周围环境（车位、车道线、障碍物以及各类的交通标识和地面标志）的感知能力将直接决定泊车的成功率和准确率。在这些环境信息中，地面标志是最容易令人忽略的重要信息之一。对于国内许多停车场而言，地面标志经常用于提供车辆行驶与停靠的一些限制条件，且种类五花八门，尤其是一些带有中文字体的地面标志，例如图1所示的残疾人士专用车位，图2所示的电动汽车充电车位，图3所示的共享汽车专用车位，等等；现有的识别模型往往没有对这些中文地面标志的场景进行针对性的优化，导致泊车时将车停到不恰当的区域。

发明内容

本发明的目的在于提出一种停车场地面中文标志识别方法及其***、计算机可读存储介质，以对停车场的地面中文标志进行识别，避免泊车时将车停到不恰当的区域。

为实现上述目的，根据第一方面，本发明的实施例提出一种停车场地面中文标志识别方法，包括：

获取停车位图像，并对所述停车位图像进行预处理；

利用预先设置的神经网络模型对预处理后的图像进行中文字符识别；其中，当图像中不存在中文字符时，所述神经网络模型输出无中文字符的识别结果；当图像中存在中文字符时，所述神经网络模型提取包含中文字符的文本区域图像，并输出；

当所述神经网络模型输出无中文字符的识别结果，结束当前停车场地面中文标志识别流程；

当所述神经网络模型输出文本区域图像时，对所述文本区域图像进行文本校正，对校正后的文本区域图像进行字符分割得到多个字符区域图像，并对所述多个字符区域图像输入预先设置的中文字符分类器进行分类，输出地面中文标志的识别结果。

可选地，所述神经网络模型包括：依次连接的第一卷积层、第一池化层、第二卷积层、第二池化层、第三卷积层、第四卷积层、第五卷积层、第三池化层、第一全连接层以及第二全连接层；

其中，所述预处理后的图像依次经第一卷积层、第一池化层、第二卷积层、第二池化层、第三卷积层、第四卷积层、第五卷积层、第三池化层、第一全连接层以及第二全连接层进行处理，输出图像识别结果。

可选地，所述对所述停车位图像进行预处理，包括：

将所述停车位图像转换为灰度图像；

利用低通滤波器去除所述灰度图像中的高频噪声部分，并将图像尺寸调整为预设大小。

可选地，所述对所述文本区域图像进行文本校正，包括：

对所述文本区域图像进行边缘检测，得到二值化后的边缘轮廓图像；

检测所述边缘轮廓图像内的直线，并统计检测到的所有直线的斜率平均值；

根据所述斜率平均值计算对应的旋转矩阵，并根据所述旋转矩阵对所述文本区域图像进行仿射变换，得到校正后的文本区域图像。

可选地，所述对校正后的文本区域图像进行字符分割得到多个字符区域图像，包括：

对校正后的文本区域图像的每一行像素点进行统计，根据统计结果确定水平分界线，并根据所述水平分界线对校正后的文本区域图像进行水平划分得到一个或多个单行文本区域图像；其中，若某一行像素值为1的像素点个数小于预设的第一阈值，则该行为水平分界线；

对所述一个或多个单行文本区域图像的每一列像素点进行统计，根据统计结果确定所述一个或多个单行文本区域图像的垂直分界线，并根据所述垂直分界线对所述一个或多个单行文本区域图像进行垂直划分得到多个字符区域图像，每个字符区域图像有且仅有一个字符；其中，若单行文本区域图像中的某一列像素值为1的像素点个数小于预设的第二阈值，则该列为垂直分界线。

根据第二方面，本发明的实施例提出一种停车场地面中文标志识别***，包括：

图像预处理单元，用于获取停车位图像，并对所述停车位图像进行预处理；

文本区域识别单元，用于利用预先设置的神经网络模型对预处理后的图像进行中文字符识别；其中，当图像中不存在中文字符时，所述神经网络模型输出无中文字符的识别结果；当图像中存在中文字符时，所述神经网络模型提取包含中文字符的文本区域图像，并输出；

结束执行单元，用于当所述神经网络模型输出无中文字符的识别结果，结束当前停车场地面中文标志识别流程；以及

字符识别单元，用于当所述神经网络模型输出文本区域图像时，对所述文本区域图像进行文本校正，对校正后的文本区域图像进行字符分割得到多个字符区域图像，并对所述多个字符区域图像输入预先设置的中文字符分类器进行分类，输出地面中文标志的识别结果。

可选地，所述字符识别单元，具体用于：

检测所述边缘轮廓图像内的直线，并统计检测到的所有直线的斜率平均值；以及

可选地，所述字符识别单元，具体用于：

根据第三方面，本发明的实施例提出一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现第一方面所述停车场地面中文标志识别方法。

本发明实施例提出一种停车场地面中文标志识别方法及其***、计算机可读存储介质，用于车内停车场地面中文标志的检测，当车辆进入停车场区域进行停车时，获取车辆摄像头所拍摄的停车位图像，并对所述停车位图像进行预处理；利用预先设置的神经网络模型对预处理后的图像进行中文字符识别；其中，当图像中不存在中文字符时，所述神经网络模型输出无中文字符的识别结果，并进入结束流程；当图像中存在中文字符时，所述神经网络模型提取包含中文字符的文本区域图像，并输出；进一步地，对所述神经网络模型输出的文本区域图像进行文本校正，对校正后的文本区域图像进行字符分割得到多个字符区域图像，并对所述多个字符区域图像输入预先设置的中文字符分类器进行分类，输出地面中文标志的识别结果，该地面中文标志的识别结果可以作为泊车时的感知信息，感知信息会送至自主泊车的决策单元以辅助泊车决策，从而为自主泊车等自动驾驶功能提供更多的感知信息。基于以上方案，能够解决目前已有方法无法识别地面中文标志的问题，避免泊车时将车停到不恰当的区域，并且运行方法时占用计算资源较小。

本发明的其它特征和优点将在随后的说明书中阐述。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1所示的残疾人士专用车位示意图。

图2所示的电动汽车充电车位示意图。

图3所示的共享汽车专用车位示意图。

图4为本发明一实施例中一种停车场地面中文标志识别方法的流程图。

图5为本发明一实施例中提取文本区域图像示意图。

图6为本发明一实施例中神经网络模型结构示意图。

图7为本发明另一实施例中一种停车场地面中文标志识别***的框架结构示意图。

具体实施方式

以下将参考附图详细说明本公开的各种示例性实施例、特征和方面。另外，为了更好的说明本发明，在下文的具体实施例中给出了众多的具体细节。本领域技术人员应当理解，没有某些具体细节，本发明同样可以实施。在一些实例中，对于本领域技术人员熟知的手段未作详细描述，以便于凸显本发明的主旨。

本发明的一实施例提出一种停车场地面中文标志识别方法，用于车内停车场地面中文标志的检测识别，以为自主泊车等自动驾驶功能提供更多的感知信息；参阅图4，本实施例方法包括以下步骤S1~S4：

步骤S1、获取停车位图像，并对所述停车位图像进行预处理。

具体而言，当车辆进入停车场区域进行停车时，获取车辆摄像头所拍摄的停车位图像，图像格式要求为RGB格式，并对所述停车位图像进行预处理，所述停车位图像包含停车位，例如图1~3所示；步骤中对图像进行预处理的目的在于，减少图像不必要的数据量，便于后续的图像识别。可以理解的是，图像的预处理方式与神经网络模型的输入以及处理方式相匹配，实施本发明的过程中，可以根据实际技术要求选择合理的预处理方式。

步骤S2、利用预先设置的神经网络模型对预处理后的图像进行中文字符识别；其中，当图像中不存在中文字符时，所述神经网络模型输出无中文字符的识别结果；当图像中存在中文字符时，所述神经网络模型提取包含中文字符的文本区域图像，并输出。

具体而言，步骤中的神经网络模型预先进行训练，基于训练学习得到的关于中文字符特征与非中文字符特征的识别能力，能够达到能够根据图像的特征识别图像中的中文字符，并将图像中包含中文字符的文本区域图像提取出来，其中中文字符特征可以是笔画的特征；在提取文本区域时，可以选用检测矩形框进行检测提取，最终输出该检测矩形框所包含的文本区域图像，例如图5所示。

可以理解的是，对于根据图像特征提取区域图像的神经网络模型而言，其在图像识别领域有广泛的应用，例如YOLO模型，本实施例中并不限制于某一种神经网络模型。

步骤S3、当所述神经网络模型输出无中文字符的识别结果，结束当前停车场地面中文标志识别流程。

具体而言，当所述神经网络模型检测不到中文字符时，则表示停车位没有中文字符，因此，结束当前流程，输出的感知信息为无效信号。

步骤S4、当所述神经网络模型输出文本区域图像时，对所述文本区域图像进行文本校正，对校正后的文本区域图像进行字符分割得到多个字符区域图像，并对所述多个字符区域图像输入预先设置的中文字符分类器进行分类，输出地面中文标志的识别结果。

具体而言，步骤S3与S4为并列的步骤，步骤的序号并不构成顺序限定。可以理解的是，由于摄像角度问题，获取的停车位图像中的停车位可能是倾斜的，对应地，图像中的文本也可能是倾斜的，因此，为了更准确地识别中文标志的内容，需要对所述文本区域图像进行文本校正，然后再对校正后的文本区域图像进行字符分割和分类。

优选地，步骤中的中文字符分类器可以采用SVM分类器，英文为Support VectorMachines，即支持向量机。

本实施例步骤S4的地面中文标志的识别结果可以作为泊车时的感知信息，感知信息会送至自主泊车的决策单元以辅助泊车决策，从而为自主泊车等自动驾驶功能提供更多的感知信息。基于以上方法，能够解决目前已有方法无法识别地面中文标志的问题，避免泊车时将车停到不恰当的区域，并且运行方法时占用计算资源较小。

可选地，参阅图6，本实施例中所述神经网络模型，具体包括：依次连接的第一卷积层CONV1、第一池化层POOL1、第二卷积层CONV2、第二池化层POOL2、第三卷积层CONV3、第四卷积层CONV4、第五卷积层CONV5、第三池化层POOL3、第一全连接层FC1以及第二全连接层FC2；

其中，所述预处理后的图像依次经第一卷积层CONV1、第一池化层POOL1、第二卷积层CONV2、第二池化层POOL2、第三卷积层CONV3、第四卷积层CONV4、第五卷积层CONV5、第三池化层POOL3、第一全连接层FC1以及第二全连接层FC2进行卷积、池化或全连接处理，输出图像识别结果。

优选地，本实施例中所述神经网络模型的各层参数如下表所示：

网络层	输入维度	卷积核尺寸	步长	输出维度
					CONV1	1224224	7*7	2	96110110
POOL1	96110110	3*3	2	965555
					CONV2	965555	5*5	2	2562626
POOL2	2562626	3*3	2	2561313
					CONV3	2561313	3*3	1	3841313
CONV4	3841313	3*3	1	3841313
					CONV5	3841313	1*1	1	2561313
POOL3	2561313	3*3	2	25666
					FC1	25666	1*1	1	409611
FC2	409611	1*1	1	7710

具体而言，YOLO模型常用于文本区域区域图像的提取，传统YOLO模型的模型结构复杂，计算量大，算法处理速度慢。由于YOLO模型仅仅需要对文本区域进行回归，在保证检测精度的前提下，本实施例所述神经网络模型对现有的YOLO模型进行了改进，相对于传统的YOLO模型，本实施例所述神经网络模型仅仅使用5层卷积层作为backbone以尽量减少卷积层的数量，并且将每个卷积层+池化层之后的sigmoid层改为计算量更少的ReLU层。同时，本实施例所述神经网络模型的输入为单通道的灰度图像，并对低层的卷积层设置较大的步长，使得卷积的运算量大大减少了，从而加快算法处理速度。

可选地，本实施例中所述步骤S1，具体包括：

步骤S11、获取停车位图像；

步骤S12、将所述停车位图像转换为灰度图像；

步骤S13、利用低通滤波器去除所述灰度图像中的高频噪声部分，并将图像尺寸调整为预设大小。

具体而言，本实施例中预处理过程主要包括灰度图像的转换及噪声去除。灰度图像的转换是指将RGB格式的图像转换为灰度图像。噪声去除是指利用低通滤波器去除图像中处于高频部分的噪声，从而使图像更加平滑。同时，将原始停车位图像的分辨率调整为224*224。

可选地，在本实施例步骤S4中，对所述文本区域图像进行文本校正，包括如下步骤S411~S413：

步骤S411、对所述文本区域图像进行边缘检测，得到二值化后的边缘轮廓图像。

具体而言，边缘检测的目的是标识数字图像中亮度变化明显的像素点，可以理解的是，对于停车位图像，图像中的停车位地面与中文字符存在明显的亮度变化差异，因此可以通过边缘检测来找到图像中的中文字符。

示例性地，可以利用canny算子、Laplacian算子等算子，对所述文本区域图像进行边缘检测。

步骤S412、检测所述边缘轮廓图像内的直线，并统计检测到的所有直线的斜率平均值。

具体而言，中文字符由笔画构成，笔画包括横、竖、撇、捺、提点、反点等，步骤中的所述边缘轮廓图像内的直线指的是横、竖笔画，横、竖笔画是最能够放映中文字符倾斜情况的，可以理解的是，因为所有中文字符是整体倾斜时，因此横、竖笔画均会发生相同角度的倾斜，因此本实施例中根据所有直线的斜率平均值来进行校正。

优选地，本实施例中利用霍夫（Hough）变换检测所述边缘轮廓图像内的直线。

步骤S413、根据所述斜率平均值计算对应的旋转矩阵，并根据所述旋转矩阵对所述文本区域图像进行仿射变换，得到校正后的文本区域图像。

具体而言，通过统计检测到的所有直线的斜率平均值，可以确定所有中文字符整体的倾斜程度，据此，来确定对应的角度调整变换。在进行变换校正时，是通过旋转矩阵来对文本区域图像进行仿射变换的，简单来说，就是图像数据矩阵乘以对应的旋转矩阵，使得原始图像发生对应角度的偏转，就可以得到校正后的文本区域图像，具体的角度调整变换方式可以预先根据多个样本来确定不同斜率平均值所对应的旋转矩阵。

可选地，在本实施例步骤S4中，所述对校正后的文本区域图像进行字符分割得到多个字符区域图像，包括如下步骤S421~S422：

步骤S421、对校正后的文本区域图像的每一行像素点进行统计，根据统计结果确定水平分界线，并根据所述水平分界线对校正后的文本区域图像进行水平划分得到一个或多个单行文本区域图像；其中，若某一行像素值为1的像素点个数小于预设的第一阈值，则该行为水平分界线；

步骤S422、对所述一个或多个单行文本区域图像的每一列像素点进行统计，根据统计结果确定所述一个或多个单行文本区域图像的垂直分界线，并根据所述垂直分界线对所述一个或多个单行文本区域图像进行垂直划分得到多个字符区域图像，每个字符区域图像有且仅有一个字符；其中，若单行文本区域图像中的某一列像素值为1的像素点个数小于预设的第二阈值，则该列为垂直分界线。

具体而言，本实施例中对文本区域图像的文本进行字符分割，包括水平分割和垂直分割。所述水平分割是指将包含多行文本内容的区域分割为多个单行文本区域图像，即步骤S421；所述垂直分割是指将单行文本区域图像中的各个字符区域分割出来，即步骤S422。

步骤S421中，对文本区域图像的每一行像素点（水平方向）进行统计，统计内容为一行中像素值为1的像素点数量。设定一个预先设置的第一阈值thresh1，若某一行像素值为1的像素点个数小于thresh1，则认为该行为水平分界线。假设该图像的水平分界线有m条，则根据这些分界线将图像水平划分为m+1个文本区域，每个文本区域图像均为单行文本区域图像。

步骤S422中，对步骤S421得到的单行文本区域图像的每一列像素点（垂直方向）进行统计，统计内容为一列中像素值为1的像素点数量。设定一个预先设置的第二阈值thresh2，若某一列像素值为1的像素点个数小于thresh2，则认为该列为垂直分界线。假设该单行文本区域图像的垂直分界线有n条，则根据这些分界线将单行文本区域图像垂直划分为n+1个字符区域，每个字符区域有且仅有一个字符。

示例性地，将包括单个字符的二维字符区域图像按行的顺序转换为一维向量，并将此向量输入到训练好的SVM中文字符分类器中进行分类，得到对应字符的类型。

参阅图7，本发明的实施例提出一种停车场地面中文标志识别***，包括：

图像预处理单元1，用于获取停车位图像，并对所述停车位图像进行预处理；

文本区域识别单元2，用于利用预先设置的神经网络模型对预处理后的图像进行中文字符识别；其中，当图像中不存在中文字符时，所述神经网络模型输出无中文字符的识别结果；当图像中存在中文字符时，所述神经网络模型提取包含中文字符的文本区域图像，并输出；

结束执行单元3，用于当所述神经网络模型输出无中文字符的识别结果，结束当前停车场地面中文标志识别流程；以及

字符识别单元4，用于当所述神经网络模型输出文本区域图像时，对所述文本区域图像进行文本校正，对校正后的文本区域图像进行字符分割得到多个字符区域图像，并对所述多个字符区域图像输入预先设置的中文字符分类器进行分类，输出地面中文标志的识别结果。

可选地，所述神经网络模型包括：依次连接的第一卷积层CONV1、第一池化层POOL1、第二卷积层CONV2、第二池化层POOL2、第三卷积层CONV3、第四卷积层CONV4、第五卷积层CONV5、第三池化层POOL3、第一全连接层FC1以及第二全连接层FC2；

可选地，所述字符识别单元4，具体用于：

并且，上述实施例所述停车场地面中文标志识别***如果以软件功能单元的形式实现并作为独立的产品销售或使用时，则软件功能单元可以存储在一个计算机可读取存储介质中。

需说明的是，上述实施例***与上述实施例方法对应，因此，上述实施例***未详述的相关内容可以参阅上述实施例方法内容得到，此处不再赘述。

本发明的另一实施例还提出一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述实施例所述停车场地面中文标志识别方法的步骤。

具体而言，所述计算机可读存储介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。

以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种停车场地面中文标志识别方法，其特征在于，包括：

获取停车位图像，并对所述停车位图像进行预处理；

利用预先设置的神经网络模型对预处理后的图像进行中文字符识别；其中，当图像中不存在中文字符时，所述神经网络模型输出无中文字符的识别结果；当图像中存在中文字符时，所述神经网络模型提取包含中文字符的文本区域图像，并输出；所述神经网络模型包括：依次连接的第一卷积层、第一池化层、第一ReLU层、第二卷积层、第二池化层、第二ReLU层、第三卷积层、第四卷积层、第五卷积层、第三池化层、第三ReLU层、第一全连接层以及第二全连接层，所述预处理后的图像依次经第一卷积层、第一池化层、第一ReLU层、第二卷积层、第二池化层、第二ReLU层、第三卷积层、第四卷积层、第五卷积层、第三池化层、第三ReLU层、第一全连接层以及第二全连接层进行处理，输出图像识别结果；

当所述神经网络模型输出文本区域图像时，对所述文本区域图像进行文本校正，对校正后的文本区域图像进行字符分割得到多个字符区域图像，并对所述多个字符区域图像输入预先设置的中文字符分类器进行分类，输出地面中文标志的识别结果；其中，所述对所述文本区域图像进行文本校正，包括：对所述文本区域图像进行边缘检测，得到二值化后的边缘轮廓图像；检测所述边缘轮廓图像内的直线，并统计检测到的所有直线的斜率平均值；以及，根据所述斜率平均值计算对应的旋转矩阵，并根据所述旋转矩阵对所述文本区域图像进行仿射变换，得到校正后的文本区域图像。

2.根据权利要求1所述的停车场地面中文标志识别方法，其特征在于，所述对所述停车位图像进行预处理，包括：

将所述停车位图像转换为灰度图像；

3.根据权利要求1或2所述的停车场地面中文标志识别方法，其特征在于，所述对校正后的文本区域图像进行字符分割得到多个字符区域图像，包括：

4.一种停车场地面中文标志识别***，其特征在于，包括：

文本区域识别单元，用于利用预先设置的神经网络模型对预处理后的图像进行中文字符识别；其中，当图像中不存在中文字符时，所述神经网络模型输出无中文字符的识别结果；当图像中存在中文字符时，所述神经网络模型提取包含中文字符的文本区域图像，并输出；所述神经网络模型包括：依次连接的第一卷积层、第一池化层、第一ReLU层、第二卷积层、第二池化层、第二ReLU层、第三卷积层、第四卷积层、第五卷积层、第三池化层、第三ReLU层、第一全连接层以及第二全连接层，所述预处理后的图像依次经第一卷积层、第一池化层、第一ReLU层、第二卷积层、第二池化层、第二ReLU层、第三卷积层、第四卷积层、第五卷积层、第三池化层、第三ReLU层、第一全连接层以及第二全连接层进行处理，输出图像识别结果；

字符识别单元，用于当所述神经网络模型输出文本区域图像时，对所述文本区域图像进行文本校正，对校正后的文本区域图像进行字符分割得到多个字符区域图像，并对所述多个字符区域图像输入预先设置的中文字符分类器进行分类，输出地面中文标志的识别结果；其中，所述字符识别单元用于对所述文本区域图像进行文本校正具体包括：对所述文本区域图像进行边缘检测，得到二值化后的边缘轮廓图像；检测所述边缘轮廓图像内的直线，并统计检测到的所有直线的斜率平均值；以及，根据所述斜率平均值计算对应的旋转矩阵，并根据所述旋转矩阵对所述文本区域图像进行仿射变换，得到校正后的文本区域图像。

5.根据权利要求4所述的停车场地面中文标志识别***，其特征在于，所述字符识别单元，具体用于：

6.一种计算机可读存储介质，其上存储有计算机程序，其特征在于：所述计算机程序被处理器执行时实现权利要求1-3中任一项所述停车场地面中文标志识别方法。