CN108960079A

CN108960079A - 一种图像识别方法及装置

Info

Publication number: CN108960079A
Application number: CN201810612077.2A
Authority: CN
Inventors: 钱嵊山; 雷天悟; 叶剑; 宋智; 元伟红
Original assignee: Duolun Polytron Technologies Inc
Current assignee: Duolun Polytron Technologies Inc; Duolun Technology Co Ltd
Priority date: 2018-06-14
Filing date: 2018-06-14
Publication date: 2018-12-07

Abstract

本发明公开了一种图像识别方法及装置，该方法通过安装摄像装置，摄像装置以一定帧率实时获取图像。结合先验知识，我们截取采集到的图像的一部分作为感兴趣区域，使用深度学习方法进行图像识别，通过设计神经网络结构提高待识别目标的识别率和准确率。

Description

一种图像识别方法及装置

技术领域

本发明涉及一种图像识别方法及装置，具体涉及一种使用深度学习技术的识别方法及装置。

背景技术

图像识别技术已经广泛应用于人脸识别，交通信号灯识别等领域。专利CN104537857B公开了一种基于行车记录仪识别交通红绿灯的提醒方法及***，行车录像仪通过摄像头实时获取并存储视频信息，并对视频信息进行分析，判断是否存在红绿灯交通标志；当判断存在红绿灯交通标志时，行车录像仪的MCU对所获得的红绿灯图像通过算法进行处理，判断出当前的红绿灯状态；根据当前的红绿灯状态，对车主进行相应的语音提醒。将采集到的图像转换为灰度图像，进行二值化分割，先判断出红绿灯的位置，再判断出红绿灯的种类。

专利CN106682597A公开了一种交通信号灯识别方法：A、对采集到的交通信号灯图像进行图像预处理，根据交通信号灯图像的背景光线情况选择如下两种处理方法之一：A1、当交通信号灯图像的背景光线较弱时，采用光线补偿算法对交通信号灯图像进行亮度调整：A2、当交通信号灯图像的背景光线较强时，采用直方图均衡化算法对交通信号灯图像进行图像整体对比度调整：B、选取合适的颜色空间对步骤A中图像预处理后的交通信号灯图像进行处理，用以区分红绿灯；C、按照RGB中黄绿蓝的三种颜色阈值对交通信号灯图像进行二值化处理，并识别出交通信号灯图像上的颜色。该方法也是先二值化处理图像，然后再是识别出红绿灯种类。

上述传统的交通信号识别方法已经不能广泛应用在复杂多变的交通路段识别场景。上述两种图像识别方法都采用了对采集图像直接进行像素特征分析处理来实现目标的识别，存在检测效果差，识别度低的缺点。使用不同的特别是在识别较小目标的场景中上述识别方法已经不能实现有效识别。

发明内容

发明目的：随着机器视觉学习技术的快速发展，为了提高图像识别的准确率和高效性，本发明引入深度学习技术进行图像识别，通过合理设计神经网络结构来提高识别目标的准确率。

技术方案：为实现上述目的，本发明公开了一种图像识别方法，该方法通过安装摄像装置，摄像装置以一定帧率实时获取图像，我们截取采集到的图像的一部分作为感兴趣区域，对待识别目标进行定位识别。

所述识别方法还包括如下步骤：

步骤S1:将采集到的包含待识别目标的图像组进行预处理，记处理好的这组图像为图像集img，将图像集img分为训练集和验证集；

步骤S2:将图像集img中各图像所包含的区域标注信息排列为{该区域是否是背景，该区域的边界框中心坐标，该区域的边界框的长，该区域的边界框的宽}，记为标注集label，其中，该区域的边界框标注的范围包含待识别目标；

步骤S3:构造神经网络模型为Y(img)＝label,将图像集img和标注集label放入神经网络模型Y进行训练，训练可得神经网络模型Y的参数；

步骤S4:将预处理后的识别场景图像new_img放入训练好的神经网络模型Y可得识别场景图像中的待识别目标位置标注new_label,依据new_label可截得待识别目标图像，实现对目标的识别。

进一步地，步骤S3中，神经网络包括卷积、激活、池化操作。

进一步地，步骤S3中，神经网络模型为Y中训练识别目标位置的类别使用的损失函数为：

其中m为样本数，i取1到m；k为类别数，l取1到k；e为自然常数。

进一步地，步骤S3中，用于回归该识别目标位置边界框的损失函数为loss＝||Y(img)-label||₂。

进一步地，所述识别方法还包括：将步骤S4识别出来的包含次级待识别目标的图像，重复步骤S1-S4，实现对次级目标的识别。

进一步地，为了提高对较小识别目标的高精度识别，可重复步骤S1-S4多次，直至识别精度达到要求。

本发明还公开了一种图像识别装置，该图像识别装置包括摄像装置和存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，其特征在于所述处理器执行所述计算机程序时实现以下步骤：

步骤S1：将采集到的包含待识别目标的图像组进行预处理，记处理好的这组图像为图像集img，将图像集img分为训练集和验证集；

步骤S2：将图像集img中各图像所包含的区域的标注信息排列为{该区域是否是背景，该区域的边界框中心坐标，该区域的边界框的长，该区域的边界框的宽}，记为标注集label，其中，该区域的边界框的标注范围包含待识别目标；

步骤S3：构造神经网络模型为Y(img)＝label,将图像集img和标注集label放入神经网络模型Y进行训练，训练可得神经网络模型Y的参数；

步骤S4：将预处理后的识别场景图像new_img放入训练好的神经网络模型Y,可得识别场景图像中的待识别目标位置标注new_label,依据new_label可截得待识别目标的图像，实现对目标的识别。

进一步地，步骤S3中，神经网络模型Y中训练识别目标位置的类别使用的损失函数为：

进一步地，所述处理器执行所述计算机程序时还包括：将步骤S4识别出来的包含次级待识别目标的图像，重复步骤S1-S4，实现对次级目标的识别。

进一步地，所述摄像装置选用广角镜头。

有益效果：本发明提供的引入深度学习方法进行图像识别，通过合理设计神经网络结构提高交通信号灯的识别率和准确率。对较小识别目标的高精度识别，采用多次识别步骤，重复步骤S1-S4实现待识别目标图像中的次级目标图像的识别。

附图说明

图1为在采集到的图像中识别出信号灯本***置。

图2为在采集到的信号灯本***置中识别出信号灯源的类型。

图3为在采集到的图像中识别出人脸位置。

图4为在采集到的人脸图像中识别出人眼或者人嘴位置。

具体实施方式

下面结合附图及实施例对本发明作更进一步的说明。为了提高对较小识别目标的高精度识别，采用分级识别步骤，实现待识别目标图像中的次级待识别目标图像的识别。

实施例1：现有技术识别交通信号灯，通常采用一步法直接识别交通信号灯灯源的识别方法，常常由于图像中存在其他灯源元素而导致识别错误。本发明采用分级识别步骤，先在采集的道路场景图像中识别出信号灯本体，再在信号灯本体图像中识别出信号灯灯源信息。信号灯本体在道路场景图像和信号灯灯源在信号灯本体图像中都有着明显的图像特征，能够快速高效识别，采用分级识别技术，进而实现信号灯灯源信息的快速高精度识别。

首先固定采集视频的摄像头的位置，安装在行驶车辆的后视镜中间位置，距离地面1-1.2米，摄像头广角大于120度，分辨率大于1920*1080。通过汽车上的摄像装置，以5-30帧/秒的帧率实时获取行驶汽车前方道路场景图像。结合先验知识，我们截取道路场景图像的一部分作为感兴趣区域，对信号灯信息进行定位识别。

将类似感兴趣区域的一组图像进行预处理：裁剪、旋转、翻转、调整亮度、对比度、从RGB颜色空间{R:[0,255],G:[0,255],B:[0,255]}转换至RGB颜色空间{R:[-1.0,1.0],G:[-1.0,1.0],B:[-1.0,1.0]}，记处理好的这组图像记为图像集img。其中，RGB颜色空间转换公式如下所示：

将图像待识别目标-信号灯本体标注信息排列为:{该区域是否是背景，边界框中心坐标，边界框的长，边界框的宽}，记为标注集label，边界框标注的长度和宽度偏大，边界框标注面积包括信号灯本体周边环境信息。

将处理好的图像集img以及交通信号灯本***置标注集label放入人工神经网络模型Y进行训练，神经网络模型记为：Y₁(img)＝label。

神经网络设计如表1所示:

表1

次序	类别	滤波器数量	尺寸	步长	填充大小
						0	卷积	16	3	1	1
1	激活
						2	池化		2	2	0
3	卷积	32	3	1	1
						4	激活
5	池化		2	2	0
						6	卷积	64	3	1	1
7	激活
						8	池化		2	2	0
9	卷积	128	3	1	1
						10	激活
11	池化		2	2	0
						12	卷积	256	3	1	1
13	激活
						14	池化		2	2	0
15	卷积	512	3	1	1
						16	激活
17	池化		2	2	0
						18	卷积	512	3	1	1
19	卷积	1024	3	1	1
						20	卷积	6	3	1	1

其中，用于判断该位置是背景还是信号灯本体(k＝2)的两个类别使用损失函数：

式中，m为样本数。

用于回归该信号灯本***置边界框的损失函数为:

loss＝||Y₁(img)-label||₂

将识别场景图像new_img(图1中左侧道路场景图像所示)经过步骤S1预处理后放入训练好的神经网络模型Y₁,可得识别场景图像中的待识别目标-信号灯本***置标注new_label,依据new_label可截得待识别目标的图像(图1中的右侧图像信号灯本体红框所示)，实现对交通信号灯本体的识别。

以图1中的识别出来的交通信号灯本体图像为例，进一步识别图像中的次级待识别目标-信号灯灯源。

我们将交通信号灯中的灯源部分指示的内容记为MSG，MSG共有15种(红上，红掉头，红左，红右，红，绿上，绿掉头，绿左，绿右，绿，黄上，黄掉头，黄左，黄右，黄)。将截得的一组信号灯本体图像进行裁剪等预处理，从RGB颜色空间{R:[0,255],G:[0,255],B:[0,255]}转换至RGB颜色空间{R:[-1.0,1.0],G:[-1.0,1.0],B:[-1.0,1.0]}，记处理好的这组图像集为MSG_img。其中，RGB颜色空间转换公式如下所示：

将图像中信号灯灯源位置标注信息排列为{该区域是否是背景或某种信号灯灯源(信号灯源有15种)，边界框中心坐标，边界框的长，边界框的宽}，记为位置标注集MSG_label，其中类别数为16，边界框标注面积包括信号灯灯源周边环境信息。

将处理好的信号灯本体图像集MSG_img以及交通信号灯灯源位置标注集MSG_label放入人工神经网络进行训练，记神经网络模型为MSG_Y₂(img)＝label，神经网络设计如表2所示：

表2

次序	类别	滤波器数量	尺寸	步长	填充大小
						0	卷积	16	3	1	1
1	激活
						2	池化		2	2	0
3	卷积	32	3	1	1
						4	激活
5	池化		2	2	0
						6	卷积	64	3	1	1
7	激活
						8	池化		2	2	0
9	卷积	128	3	1	1
						10	激活
11	池化		2	2	0
						12	卷积	256	3	1	1
13	激活
						14	池化		2	2	0
15	卷积	512	3	1	1
						16	激活
17	池化		2	2	0
						18	卷积	512	3	1	1
19	卷积	1024	3	1	1
						20	卷积	20	3	1	1

其中，用于判断该位置是背景还是信号灯灯源(类别数k＝16)的16个类别使用损失函数为：

m为样本数，用于回归该信号灯灯源位置边界框的损失函数为:

loss＝||MSG_Y₂(img)-label||₂

将识别场景图像信号灯本体图像(图2中左侧信号灯本体图像所示)经过步骤S1预处理之后获得new MSG_img，将new MSG_img放入神经网络模型MSG_Y₂可得信号灯灯源的位置标注new MSG_label及其信号灯源指示内容(红上)，如图2右侧信号灯灯源图像中红框所示。

实施例2：下面以识别人眼和人嘴图像信息来判断驾驶员是否疲劳驾驶为例，具体介绍如何定位识别人眼和人嘴图像信息的。普通的人眼或者人嘴识别技术采用一步法识别，存在较大的识别误差。由于人眼或者人嘴属于人脸信息中的次级特征信息使用两步识别方法，先识别出驾驶员人脸部位，再识别出驾驶员人眼或者人嘴部位，可以实现高效快速的目标识别。

首先固定采集人脸视频的摄像装置的位置，摄像装置的安装位置为仪表盘上方的附近，采集到的图像如图3所示。摄像头以5-30帧/秒的帧率实时获驾驶员部位的图像。结合先验知识，我们截取驾驶室场景图像的一部分(驾驶员头部区域)作为感兴趣区域，对驾驶员人脸进行定位识别。

将采集的驾驶员部位一组图像进行裁剪等预处理，从RGB颜色空间{R:[0,255],G:[0,255],B:[0,255]}转换至RGB颜色空间{R:[-1.0,1.0],G:[-1.0,1.0],B:[-1.0,1.0]}，记处理好的图像为驾驶员部位图像集img，转换公式如下所示:

将图像中驾驶员人脸位置标注信息排列为{该区域是否是背景，边界框中心坐标，边界框的长，边界框的宽}，记为驾驶员人脸位置标注集label，边界框标注面积包括人脸周边环境信息。

将处理好的驾驶员部位图像集img以及驾驶员人脸位置标注集label放入人工神经网络Y₃进行训练，神经网络模型Y₃(img)＝label,神经网络设计如表3所示。

表3

其中，用于判断该位置是背景还是人脸(k＝2)的两个类别使用损失函数：

m为样本数，用于回归该人脸位置边界框的损失函数为loss＝||Y₃(img)-label||₂。

将实际业务图像(图3)经过处理之后获得图像new_img，将图像new_img放入神经网络模型Y₃可得人脸位置标注new_label，依据new_label可截得人脸图像如图3中白框所示。

我们将驾驶员人脸图像中的眼睛部分指示的内容记为MSQ，将截得的一组驾驶员人脸图像从RGB颜色空间{R:[0,255],G:[0,255],B:[0,255]}转换至RGB颜色空间{R:[-1.0,1.0],G:[-1.0,1.0],B:[-1.0,1.0]}，记处理好的这组图像为驾驶员人脸图像集MSQ_img，转换公式如下所示:

将图像中人眼位置标注信息排列为{该区域是否是背景或某种人眼，边界框中心坐标，边界框的长，边界框的宽}，记为驾驶员人眼位置标注集MSQ_label，边界框标注面积引入人眼周边环境信息。

将处理好的人脸图像集MSQ_img以及人眼位置标注集MSQ_label放入人工神经网络Y进行训练，记神经网络模型为MSQ_Y₄(img)＝label，神经网络设计如表4所示。

表4

其中，训练识别目标位置是背景还是人眼(k＝2)的两个类别使用损失函数

m为样本数，回归该识别目标人眼边界框的损失函数为

loss＝||MSQ_Y₄(img)-label||₂

将识别场景人脸图像经过步骤S1处理之后获得图像new MSQ_img，将new MSQ_img放入神经网络模型MSQ_Y₄可得人眼位置标注new MSQ_label，依据new MSQ_label可截得人眼图像，如图4中白框所示，判断其人眼是否闭合。同理通过上述类似的方法截得人嘴图像，如图4中黑框所示，判断其人嘴是否闭合。最后通过识别人眼闭合或者人嘴闭合状态来确定驾驶员是否疲劳驾驶。

尽管以上结合附图对本发明的实施方案进行了描述，但本发明并不局限于上述的具体实施方案和应用领域，上述的具体实施方案仅仅是示意性的、指导性的，而不是限制性的。本领域的普通技术人员在本说明书的启示下，在不脱离本发明权利要求所保护的范围的情况下，还可以做出很多种的形式，这些均属于本发明保护之列。

Claims

1.一种图像识别方法，其特征在于，该方法包括以下步骤:

步骤S1：将采集到的包含待识别目标的图像组进行预处理，记处理好的这组图像为图像集img；

步骤S2：将图像集img中各图像所包含的区域的标注信息排列为{该区域是否是背景，该区域的边界框中心坐标，该区域的边界框的长，该区域的边界框的宽}，记为标注集label，其中，该区域的边界框标注的范围包含待识别目标；

步骤S3：构造神经网络模型为Y(img)＝label，将图像集img和标注集label放入神经网络模型Y进行训练，训练可得神经网络模型Y的参数；

2.根据权利要求1所述的识别方法，其特征在于，步骤S3中，神经网络包括卷积、激活、池化操作。

3.根据权利要求1所述的识别方法，其特征在于，步骤S3中，神经网络模型Y中训练识别目标位置的类别使用的损失函数为：

4.根据权利要求1所述的识别方法，其特征在于，步骤S3中，用于回归该识别目标位置边界框的损失函数为loss＝||Y(img)-label||₂。

5.根据权利要求1所述的识别方法，其特征在于，该方法还包括：

将步骤S4识别出来的包含次级待识别目标的图像，重复步骤S1-S4，实现对次级目标的识别。

6.一种图像识别装置，该装置包括摄像装置和存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现以下步骤：

7.根据权利要求6所述的识别装置，其特征在于，步骤S3中，神经网络包括卷积、激活、池化操作。

8.根据权利要求6所述的识别装置，其特征在于，步骤S3中，神经网络模型Y中训练识别目标位置的类别使用的损失函数为：

9.根据权利要求6所述的识别装置，其特征在于，步骤S3中，用于回归该识别目标位置边界框的损失函数为loss＝||Y(img)-label||₂。

10.根据权利要求6所述的识别装置，其特征在于，所述处理器执行所述计算机程序时还包括：将步骤S4中识别出来的包含次级待识别目标的图像，重复步骤S1-S4，实现对次级目标的识别。