CN109145927A

CN109145927A - 一种对形变图像的目标识别方法及装置

Info

Publication number: CN109145927A
Application number: CN201710457725.7A
Authority: CN
Inventors: 许昀璐; 郑钢; 程战战; 钮毅
Original assignee: Hangzhou Hikvision Digital Technology Co Ltd
Current assignee: Hangzhou Hikvision Digital Technology Co Ltd
Priority date: 2017-06-16
Filing date: 2017-06-16
Publication date: 2019-01-04
Also published as: US20200134366A1; US11126888B2; EP3640844A1; WO2018228375A1; EP3640844A4

Abstract

本发明实施例提供了一种对形变图像的目标识别方法及装置，所述方法包括：将待识别图像输入预设定位网络，获取所述待识别图像的多个定位参数，所述定位网络包括预设个卷积层，所述多个定位参数是所述待识别图像卷积后得到的特征图中的图像特征回归后得到的；根据所述多个定位参数，对所述待识别图像进行空间变换，得到校正后的待识别图像；将所述校正后的待识别图像输入预设识别网络，获取所述待识别图像的目标分类结果。本发明实施例在基于神经网络的目标识别过程中，先对形变图像进行校正，基于校正后的图像进行目标识别，能够减少形变对目标识别的干扰，因此本发明实施例能够针对形变图像，提高目标识别的准确性。

Description

一种对形变图像的目标识别方法及装置

技术领域

本发明涉及图像识别领域，特别是涉及一种对形变图像的目标识别方法及装置。

背景技术

随着神经网络技术的发展，基于图像的目标识别技术得到了迅速发展。基于神经网络的目标识别方法是利用神经网络的自主学习特性，提取图像特征，获得目标的分类结果，也就是目标的识别结果。相比于传统的目标识别方法，能够提高目标识别的准确率，且能够识别的目标的类型也更广泛，如人、动物、植物、建筑物、车辆、字符等等。

现有的基于神经网络的目标识别方法，使用深度神经网络模型对图像进行目标识别，但目标识别的过程中未考虑在复杂场景中，由于拍摄或其他原因导致的目标的形变对目标识别带来的影响，如图像拍摄过程中拍摄视角变化带来的目标的倾斜、缩放和透视变换等，或自然场景中目标的人为形变，如字符识别中遇到的字体设计和变化带来的倾斜、扭曲等。针对形变图像，现有的基于神经网络的目标识别方法将形变大的目标直接进行分类，导致目标识别的准确率降低。

发明内容

本发明实施例的目的在于提供一种对形变图像的目标识别方法及装置，能够针对形变图像，提高目标识别的准确性。具体技术方案如下：

本发明实施例公开了一种对形变图像的目标识别方法，包括：

将待识别图像输入预设定位网络，获取所述待识别图像的多个定位参数，所述定位网络包括预设个卷积层，所述多个定位参数是所述待识别图像卷积后得到的特征图中的图像特征回归后得到的；

根据所述多个定位参数，对所述待识别图像进行空间变换，得到校正后的待识别图像；

将所述校正后的待识别图像输入预设识别网络，获取所述待识别图像的目标分类结果。

可选的，所述将待识别图像输入预设定位网络，获取所述待识别图像的多个定位参数，包括：

利用所述预设个卷积层对所述待识别图像提取图像特征，获得含有图像特征的待识别图像的特征图；

利用预设定位网络中的全连接层，对所述待识别图像的特征图中的图像特征进行回归处理，获取所述待识别图像的多个定位参数，所述定位参数为，待识别图像中，与校正后的待识别图像中预设数量个基准点的图像特征匹配的像素点的坐标。

可选的，所述根据所述多个定位参数，对所述待识别图像进行空间变换，得到校正后的待识别图像，包括：

根据预设数量个基准点对应的定位参数、预设数量个基准点在校正后的待识别图像中的坐标，获取基准点在待识别图像和校正后的待识别图像之间的空间变换关系；

根据所述空间变换关系，获得待识别图像中所有像素点对应在校正后的待识别图像中的坐标，获得校正后的待识别图像。

可选的，所述根据预设数量个基准点对应的定位参数、预设数量个基准点在校正后的待识别图像中的坐标，获取基准点在待识别图像和校正后的待识别图像之间的空间变换关系，包括：

根据预设数量个基准点对应的定位参数、预设数量个基准点在校正后的待识别图像中的坐标，获得将基准点在待识别图像中的坐标变换为基准点在校正后的待识别图像中的坐标的预设变换算法所需要的变换参数，所述预设变换算法包括仿射变换算法、透视变换算法、薄板样条变换算法之一；

所述根据所述空间变换关系，获得待识别图像中所有像素点对应在校正后的待识别图像中的坐标，获得校正后的待识别图像，包括：

根据所述预设变换算法所需要的变换参数，利用所述预设变换算法，计算待识别图像中所有像素点在待识别图像中的坐标，获得待识别图像中所有像素点对应在校正后的待识别图像中的坐标，获得校正后的待识别图像。

可选的，所述将所述校正后的待识别图像输入预设识别网络，获取所述待识别图像的目标分类结果，包括：

利用所述预设识别网络中的卷积层，对所述校正后的待识别图像提取图像特征，获得含有图像特征的校正后的待识别图像的特征图；

利用所述预设识别网络中的全连接层，对所述校正后的待识别图像的特征图中的图像特征进行分类处理，获取待识别图像的目标分类结果。

本发明实施例还公开了一种对形变图像的目标识别装置，包括：

定位模块，用于将待识别图像输入预设定位网络，获取所述待识别图像的多个定位参数，所述定位网络包括预设个卷积层，所述多个定位参数是所述待识别图像卷积后得到的特征图中的图像特征回归后得到的；

空间变换模块，用于根据所述多个定位参数，对所述待识别图像进行空间变换，得到校正后的待识别图像；

识别模块，用于将所述校正后的待识别图像输入预设识别网络，获取所述待识别图像的目标分类结果。

可选的，所述定位模块，包括：

特征图获取子模块，用于利用所述预设个卷积层对所述待识别图像提取图像特征，获得含有图像特征的待识别图像的特征图；

定位子模块，用于利用预设定位网络中的全连接层，对所述待识别图像的特征图中的图像特征进行回归处理，获取所述待识别图像的多个定位参数，所述定位参数为，待识别图像中，与校正后的待识别图像中预设数量个基准点的图像特征匹配的像素点的坐标。

可选的，所述空间变换模块，包括：

变换关系获取子模块，用于根据预设数量个基准点对应的定位参数、预设数量个基准点在校正后的待识别图像中的坐标，获取基准点在待识别图像和校正后的待识别图像之间的空间变换关系；

校正子模块，用于根据所述空间变换关系，计算待识别图像中所有像素点在待识别图像中的坐标，获得待识别图像中所有像素点对应在校正后的待识别图像中的坐标，获得校正后的待识别图像。

可选的，所述变换关系获取子模块，具体用于：

所述校正子模块，具体用于：

根据所述预设变换算法所需要的变换参数，利用所述预设变换算法，获得待识别图像中所有像素点对应在校正后的待识别图像中的坐标，获得校正后的待识别图像。

可选的，所述识别模块，包括：

特征图获取子模块，用于利用所述预设识别网络中的卷积层，对所述校正后的待识别图像提取图像特征，获得含有图像特征的校正后的待识别图像的特征图；

分类子模块，用于利用所述预设识别网络中的全连接层，对所述校正后的待识别图像的特征图中的图像特征进行分类处理，获取待识别图像的目标分类结果。

本发明实施例提供的对形变图像的目标识别方法及装置，首先将待识别图像输入预设定位网络，获取所述待识别图像的多个定位参数，所述定位网络包括预设个卷积层，所述多个定位参数是所述待识别图像卷积后得到的特征图中的图像特征回归后得到的。其次根据所述多个定位参数，对所述待识别图像进行空间变换，得到校正后的待识别图像。最后将所述校正后的待识别图像输入预设识别网络，获取所述待识别图像的目标分类结果。本发明实施例在基于神经网络的目标识别过程中，先对形变图像进行校正，基于校正后的图像进行目标识别，能够减少形变对目标识别的干扰，因此本发明实施例能够针对形变图像，提高目标识别的准确性。当然，实施本发明的任一产品或方法必不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例的对形变图像的目标识别方法的一种流程图；

图2为本发明实施例的神经网络的训练流程图；

图3为本发明实施例的神经网络的结构图；

图4为本发明实施例的对形变图像的目标识别方法的另一种流程图；

图5为本发明实施例的对形变图像的目标识别装置的一种结构图；

图6为本发明实施例的对形变图像的目标识别装置的另一种结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例公开了一种对形变图像的目标识别方法及装置，能够针对形变图像，提高目标识别的准确性。

下面首先对本发明实施例提供的一种对形变图像的目标识别方法进行介绍。

神经网络的发展极大提高了目标识别的准确率，基于神经网络的目标识别技术被广泛应用于多个领域，如智能监控领域、字符识别领域等。基于神经网络的目标识别技术，首先通过大量样本图像、样本图像中已知目标识别结果，对预先构建的神经网络进行训练，利用神经网络自主学习特性，提取样本图像的图像特征，获得样本图像中目标的识别结果，并通过对比样本图像中已知目标识别结果，自动调整神经网络的参数，最终获得目标识别准确度高的神经网络。之后利用训练好的神经网络，针对任意待识别图像即可获得准确度高的目标识别结果，目标的识别结果体现图像中的目标信息。通过基于神经网络的目标识别技术能够识别的目标类型广泛，如车牌、字符、人脸、动物、植物等等。比如，基于神经网络的文字识别技术即对图像中字符串信息进行检测和识别，包括图像中可能出现的车牌号、集装箱号、火车号、快递单号、条码号等。

现有的基于神经网络的目标识别方法，虽然使用深度神经网络模型对图像进行目标识别，但目标识别的过程中未考虑在复杂场景中，由于拍摄或其他原因导致的目标的形变对目标识别带来的影响，如图像拍摄过程中拍摄视角变化带来的目标的倾斜、缩放和透视变换等，或自然场景中目标的人为形变，如字符识别中遇到的字体设计和变化带来的倾斜、扭曲等。针对形变图像，现有的基于神经网络的目标识别方法将形变大的目标直接进行分类，导致目标识别的准确率降低。

本发明实施例提出一种对形变图像的目标识别方法，该方法提出一种端到端的深度神经网络模型，本发明实施例的端到端的深度神经网络模型可以根据大量形变图像的样本图像及已知的样本图像中目标识别结果训练得到。本发明实施例方法主要包括：

第一步，获得形变校正后的图像，主要包括：首先将待识别图像输入本发明实施例训练好的神经网络，利用其中校正网络的多层卷积层卷积处理待识别图像，获得待识别图像的特征图，其次对待识别图像的特征图中的图像特征进行回归处理，获得待识别图像的多个定位参数，然后根据多个定位参数，对待识别图像进行空间变换，得到校正后的待识别图像。

第二步，利用形变校正后的图像获得目标分类结果，主要包括：将校正后的待识别图像输入预设识别网络，获取待识别图像的目标分类结果，其中，预设识别网络可以为多种现有的目标识别网络。

本发明实施例在基于神经网络的目标识别过程中，先对形变图像进行校正，基于校正后的图像再进行目标识别，能够减少形变对目标识别的干扰，因此本发明实施例能够针对形变图像，提高目标识别的准确性。

参见图1，图1为本发明实施例的对形变图像的目标识别方法的一种流程图，包括如下步骤：

步骤101，将待识别图像输入预设定位网络，获取待识别图像的多个定位参数，定位网络包括预设个卷积层，多个定位参数是待识别图像卷积后得到的特征图中的图像特征回归后得到的。

本发明实施例中，待识别图像为任意图像拍摄设备拍摄的含有目标的图像，如摄像头拍摄的图像、相机拍摄的图像、手机拍摄的图像等，目标可以为人、动物、植物、建筑物、车辆、字符等多种类型。

本发明实施例中的待识别图像可以为无形变图像，也可以为形变图像，以下均以待识别图像为形变图像说明本发明实施例方法。形变是指图像中的目标存在如平移、放缩、旋转、扭曲等形态变化。本发明实施例中的形变可以是图像拍摄过程中由于拍摄视角变化带来的目标的倾斜、缩放和透视变换等，也可以是复杂自然场景中由于人为造成的目标的形变，如字体设计和变化带来的倾斜、扭曲等。

本发明实施例提出一种端到端的深度神经网络模型，在该模型思想下，本发明实施例可以针对不同的形变类型，使用形变类型对应的具体网络进行图像校正、识别，不同的具体网络基于同一模型思想，但图像校正部分的网络结构、参数等可能略有不同，不同形变类型对应的具体网络可以基于一基本网络，对图像校正部分的网络结构、参数等进行微调获得。具体来说，本发明实施例针对的形变类型可以有多种预设形变类型，如含有旋转、平移、放缩之一或任意组合的形变，及在此基础上含有多角度拉伸形变等。本发明实施例可以针对各种预设形变类型，预先分别训练获得对应的具体的网络。

在对待识别图像进行识别时，本发明实施例针对不同的图像任务、需求，或者产生图像的不同场景，可以预判出一待识别图像的形变类型，如在不同拍摄角度下产生的图像存在的形变基本为拍摄角度带来的透视问题，该拍摄角度带来的透视问题的形变可能不仅含有旋转、平移、放缩之一或任意组合，且在此基础上还可能存在多角度拉伸形变，针对该拍摄角度带来的透视问题类型的形变，本发明实施例采用与该形变类型对应的训练好的一具体网络进行图像校正、目标识别，该具体网络是根据大量的含有旋转、平移、放缩之一或任意组合形变，及在此基础上还存在的多角度拉伸形变的形变样本图像训练得到的，网络中的参数及变换算法等均已针对该形变类型的样本图像进行过优化调整，使得应用该训练好的具体网络能够针对一具有拍摄角度带来的透视问题的形变图像，校正旋转、平移、放缩、之一或任意组合，及在此基础上的多角度拉伸形变，获得针对该形变类型的识别正确率高的目标识别结果。

本发明实施例针对一待识别图像，可以假想有一空白的图像为校正后的待识别图像，如果能够将该空白的校正后的待识别图像中的像素点全部填充完毕，即可获得一具体的校正后的待识别图像，本发明实施例正是基于该种想法，针对要获得的校正后的待识别图像，设置预设数量个像素点作为基准点，这些基准点的位置和数量均是由训练好的预设定位网络自动分析图像特征后输出的，选取的基准点能够提供校正形变所需要的参数，使得形变图片能够得以校正，这些基准点的设置原则是能够尽可能反映校正后的待识别图像的形状信息，以使得利用预设数量个基准点能够获得校正后的待识别图像的形状轮廓。比如预设数量个基准点可以是校正后的待识别图像的边缘均匀分布的多个像素点。具体来说，比如对于通常的基于图像的字符识别，期望校正后的待识别图像，也就是输入给识别网络的图像为规则的矩形，以减小识别网络的计算量及计算复杂度，而且期望校正后的待识别图像中的字符能填充整个矩形框的范围，以使得校正后的待识别图像中的像素点具有最大限度的可用图像信息，则本发明实施例的预设数量个基准点就设置为均匀分布在矩形框边缘的预设数量个像素点，使得校正后的待识别图像的形状信息就通过均匀分布在这个矩形框外轮廓边缘的预设数量个基准点来反映。

本发明实施例针对不同的形变类型，使用形变类型对应的预设定位网络，与形变类型对应的基准点的位置、数量是通过训练好的对应的预设定位网络直接输出的，不同的形变类型对应的预设定位网络输出的校正后的待识别图像的基准点的位置和数量可以是不同的，如仅针对平移形变，基准点可以为图像中任一像素点，而对于其他较复杂的形变如透视变换，至少需要图像边缘4个角点作为基准点，可以理解的是，形变类型越复杂，需要的基准点的数量会越多，基准点的位置要求也会越高。

本发明实施例的预设定位网络为预设的神经网络，包含多个卷积层和至少一层全连接层。每个卷积层中包含多个含有权值的卷积核，全连接层含有权值矩阵。卷积核能够提取待识别图像中不同的图像特征，如图像边缘、锐角等特征，通过提取图像特征获得含有图像特征的待识别图像的特征图，全连接层中的权值矩阵含有多个权值，权值体现输入数据和对应分类结果的线性关系，本发明实施例的预设定位网络中的全连接层通过训练，权值矩阵中的权值体现待识别图像的特征图，与预设数量个基准点在待识别图像中的位置的线性关系，本步骤101主要过程为，利用本发明实施例的多层卷积层提取待识别图像中的不同的图像特征，然后利用全连接层在待识别图像的图像特征中，寻找与预设数量个基准点的图像特征匹配的图像特征，也就是按照基准点的图像特征进行回归处理，将获取到的待识别图像中，与基准点的图像特征匹配的图像特征所在的像素点的位置称之为定位参数。也就是通过步骤101，本发明实施例可以获得待识别图像的预设数量个基准点在校正后的待识别图像中的位置、及预设数量个基准点对应在待识别图像中的位置。

步骤102，根据多个定位参数，对待识别图像进行空间变换，得到校正后的待识别图像。

本发明实施例根据基准点在待识别图像中的位置、基准点在校正后的待识别图像中的位置，获得一个满足于所有基准点的从待识别图像到校正后的待识别图像的空间变换关系，该空间变换关系适用于待识别图像中所有像素点，利用该空间变换关系获得待识别图像中所有像素点对应在校正后的待识别图像中的位置，继而得到校正后的待识别图像。

本发明实施例针对不同的形变类型，空间变换采用的具体变换算法不同，如针对旋转、平移、放缩之一或任意组合的形变类型，采用仿射变换算法，针对在旋转、平移、放缩之一或任意组合之外还存在多角度拉伸形变，采用透视变换算法，而针对透视变换之上的空间扭曲形变，采用薄板样条变换算法，以上例举的针对三种变换算法的基准点不同，变换算法针对的形变类型的复杂度依次上升，对应的空间变换关系的复杂度也依次上升，如仿射变换算法的空间变换关系可能为一个含有基准点位置坐标变化关系的坐标变换矩阵，而薄板样条变换算法含有多重的复杂变换步骤，其中含有多个变换参数或者公式等。

不同的变换算法均是以定位参数为基础数据，继而获得对应变换算法各自需要的变换参数进行空间变换的。具体来说，本发明实施例根据基准点在校正后的待识别图像中的位置，也就是基准点的预设位置，并根据定位参数，也就是基准点在待识别图像中的位置，获得对应的变换算法所需要的变换参数，然后利用获得的变换参数，使用对应的变换算法计算待识别图像的像素点，得到校正后的待识别图像的像素点位置信息等，获得校正后的待识别图像的所有像素点位置信息就能够获得校正后的待识别图像。

步骤103，将校正后的待识别图像输入预设识别网络，获取待识别图像的目标分类结果。

预设识别网络为一个或多个已经训练完成的神经网络，预设识别网络利用卷积层对校正后的待识别图像提取图像特征，获得校正后的待识别图像的特征图，再利用全连接层对校正后的待识别图像的特征图中的图像特征进行分类，获得目标的分类结果。

本发明实施例中的预设识别网络可以是多种现有的目标识别网络，根据识别目标的类型不同，预设识别网络可以为，与目标的类型对应的识别网络，如识别字符的网络、识别人脸的网络等等。

本发明实施例可以结合、替换多种现有的目标识别网络，实现对多种类型目标进行识别的目的。

可见，本发明实施例提供的对形变图像的目标识别方法，首先将待识别图像输入预设定位网络，获取待识别图像的多个定位参数，定位网络包括预设个卷积层，多个定位参数是待识别图像卷积后得到的特征图中的图像特征回归后得到的。其次根据多个定位参数，对待识别图像进行空间变换，得到校正后的待识别图像。最后将校正后的待识别图像输入预设识别网络，获取待识别图像的目标分类结果。本发明实施例在基于神经网络的目标识别过程中，先对形变图像进行校正，基于校正后的图像进行目标识别，能够减少形变对目标识别的干扰，因此本发明实施例能够针对形变图像，提高目标识别的准确性。

本发明实施例可以利用图1所示方法建立并训练一个神经网络，以利用建立并训练的神经网络具体执行本发明实施例方法。参见图2，图2为本发明实施例的神经网络的训练流程图，包括：

步骤201，构建初始神经网络的结构，并设置初始神经网络的参数值。

神经网络目前已被广泛应用于图像识别等领域，存在多种已有的神经网络结构，本发明实施例可以预先结合已有的神经网络结构，构建初始神经网络的结构，本发明实施例的神经网络按照功能可以包括校正网络及识别网络，校正网络包括定位网络及空间变换网络，校正网络及识别网络包括至少一层卷积层、至少一层全连接层，参数值包括卷积层的卷积核数量、卷积核尺寸、卷积核权重值、全连接层的权值矩阵值等。

本发明实施例在构建初始神经网络的结构的同时，设置初始神经网络的参数值，参数值包括卷积层的卷积核数量，如32个、64个等、卷积核尺寸，如3*3、5*5等、卷积核权重值、全连接层的权矩阵值等。本发明实施例可以对初始神经网络的各个矩阵值赋以任意已知值作为初始值，或者可以利用如初始化方法msra等方法，对初始神经网络的各个矩阵值产生随机数作为初始值，这些随机数均是以实数的形式存在。

至此为止，本发明实施例的初始神经网络构建完成。本发明实施例可以针对预设形变类型，对校正网络的结构、参数等进行调整，获得多个针对不同预设形变类型的具体的初始神经网络。

步骤202，获取形变图像的各样本图像，以及各样本图像已知的目标识别结果。

本发明实施例预先获取大量的含有目标的形变图像的各样本图像，以及各样本图像已知的目标识别结果。形变图像为图像中的目标存在如平移、放缩、旋转、扭曲等形变的图像，本发明实施例中的目标可以为人、动物、植物、建筑物、车辆、字符等等。图像的来源可以是任意图像拍摄设备拍摄的图像，如摄像头拍摄的图像、相机拍摄的图像、手机拍摄的图像等，样本图像既可以是实时获取的图像，也可以是已存储的历史图像。

本发明实施例预设多种形变类型，获取预设形变类型对应的含有目标的样本图像，并针对不同的预设形变类型，利用对应的样本图像训练各自的神经网络。

步骤203，将各样本图像及各样本图像已知的目标识别结果，输入初始神经网络，得到各样本图像经初始神经网络得到的对应的目标识别结果。

本发明实施例将预设形变类型对应的每个样本图像、每个样本图像已知的目标识别结果输入预设形变类型的具体的初始神经网络，得到该初始神经网络输出的，每个样本图像经初始神经网络得到的目标识别结果。

步骤204，根据各样本图像经初始神经网络得到的对应的目标识别结果，与各样本图像已知的目标识别结果，获得损失函数的响应值。

本发明实施例中可以预设一个或多个损失函数，每个损失函数以一定角度衡量样本图像经初始神经网络得到的对应的目标识别结果，与已知的目标识别结果的差异，如损失函数可以是样本图像经初始神经网络得到的对应的目标识别结果，与已知的目标识别结果的减函数，或者是求取两者欧式距离的函数等，本发明实施例可以将多个损失函数的响应值进行加权，获得多个角度综合衡量两者差异的结果，以此更加准确地衡量每个样本图像经初始神经网络得到的对应的目标识别结果，与已知的目标识别结果的差异程度。

步骤205，根据损失函数的响应值，不断调整初始神经网络的结构或参数值，直至神经网络满足预设条件，获得训练得到的神经网络。

本发明实施例旨在训练神经网络以逼近损失函数达到极小值，因此本发明实施例可以对损失函数的响应值设置目标值，不断调整初始神经网络的结构或参数值，直至神经网络满足预设条件为损失函数的响应值达到目标值，获得训练得到的神经网络。

在实际训练过程中，通常可以采用，多次抽检并对比损失函数的响应值，在损失函数的响应值的减小程度达到预设值时，测试一样本图像经神经网络输出的目标识别结果，将神经网络输出的目标识别结果，与该样本已知目标识别结果对比获得识别正确率，当识别正确率达到预设正确率时，如预设正确率为98％等，此时停止训练，获得训练得到的神经网络。该过程以目标识别结果的识别正确率为导向，不用设置损失函数的响应值，更贴合使用目的及实际使用情况。

其中，调整初始神经网络的结构可以为，更改网络中各层类型、数量等，还可以增加或者减少其他组件等。调整初始神经网络的参数值可以为，修改卷积层的卷积核数量、卷积核尺寸、卷积核权重值、全连接层的权值矩阵值等。调整初始神经网络的参数值可以采用梯度下降法等。

通过步骤201至步骤205，完成了本发明实施例的神经网络的建立及训练过程，训练得到的神经网络针对输入的含有目标的任意图像，都能够自动提取图像特征，输出获得图像中目标识别结果，具体来说，本发明实施例针对多种预设形变类型，训练得到形变类型对应的具体神经网络，在之后的基于图像的目标识别中，针对一预设形变类型的图像，采用预设形变类型对应的具体神经网络进行计算能够获得目标识别正确率高的识别结果。参见图3，图3为本发明实施例的神经网络的结构图，包括校正网络和识别网络，其中，校正网络又包括定位网络和空间变换网络。

在图1、图2、图3的基础上，作为优选的实施例，参见图4，图4为本发明实施例的对形变图像的目标识别方法的另一种流程图，包括如下步骤：

步骤401，利用预设个卷积层对待识别图像提取图像特征，获得含有图像特征的待识别图像的特征图。

根据现有图像知识可知，常见的图像有红、绿、蓝三个通道，通道是代指图像特定成分的习语，每种颜色对应的图像数据为一个二维矩阵，每个矩阵中的值为像素点的值，数值范围在0-255之间，将三个通道的二维矩阵进行叠加，就是原图的像素点对应的矩阵，也就是原图像数据。

本发明实施例中，将待识别图像输入训练好的神经网络，利用定位网络预设个卷积层中的多个卷积核，对待识别图像像素点对应的矩阵进行卷积运算，卷积核可以理解为一些可学习的滤波器，每个滤波器在空间上的宽度尺寸和高度尺寸小于待识别图像像素点对应的矩阵的尺寸，但是深度和待识别图像像素点对应的矩阵的尺寸一致，卷积核可以视为一个含有权值的矩阵，卷积核就是利用其权值提取图像特征，举例来说，第一层卷积层的一个典型的卷积核的尺寸可以是5x5x3，也就是宽、高为5，深度为3的一个含有权值的矩阵，深度为3是因为输入图像，也就是待识别图像有红、绿、蓝3个颜色通道。在卷积运算时，每个卷积核，也就是滤波器，都在输入数据，也就是在待识别图像像素点对应的矩阵的宽度和高度上滑动，在滑动滤波器的时候，需要预设滑动步长，当步长为1时，滤波器每次移动1个像素。然后计算整个滤波器和输入数据任一处的内积,也就是计算滤波器的权值和对应位置的像素点的值的内积。当滤波器沿着输入数据的宽度和高度滑动完成后，会生成一个二维的激活图，也就是本发明实施例的待识别图像的特征图，该激活图给出了在每个空间位置处滤波器的反应，也就是滤波器提取的图像特征。直观地来说，卷积神经网络会让滤波器学习到，当它看到某些类型的图像特征时就激活，具体的视觉图像特征可能是某些方位上的边界，或者某些颜色的斑点等。每个滤波器在输入数据中寻找一些不同的东西，也就是不同的图像特征，将获得的不同的图像特征进行叠加得到待识别图像的特征图。

本发明实施例在卷积层处理后，还可以加入池化层Pool，对卷积层得到的特征图进行降采样处理。池化层的主要处理过程为将卷积层得到的特征图划分为多个预设区域，将每个预设区域内的多个像素值，降采样处理为一个像素值，以减小数据量，获得降采样后的特征图。

举例来说，如果第一层卷积层的输入是原始图像，那么在深度维度上的不同神经元将可能被不同方向的边界，或者是颜色斑点激活。将这些沿着深度方向排列、接受区域相同的神经元集合称为深度列或者深度切片。池化层Pool的作用是降低数据体的空间尺寸，这样就能减少网络中参数的数量，使得计算资源耗费变少，也能有效控制过拟合。池化层可以使用最大MAX操作，对输入数据体的每一个深度切片独立进行操作，改变它的空间尺寸。最常见的形式是池化层使用尺寸2×2的滤波器，以步长为2对每个深度切片进行降采样，举例说明，如果卷积层输出的是32*32*12的数据体，池化层将32*32分成16*16个2*2数据体，然后在每个2*2的数据体里面，也就是2*2的4个数字中选取一个最大值，最后得到一个采样过后的16*16*12的数据体。该数据体相比于原来的32*32*12的数据体，宽高缩小，但深度不变。MaxPool将原数据体中可能75％的激活信息都丢掉，能够减小数据量。当然池化层也可以使用平均池化mean pool等其他池化方式。

步骤402，利用预设定位网络中的全连接层，对待识别图像的特征图中的图像特征进行回归处理，获取待识别图像的多个定位参数，定位参数为，待识别图像中，与校正后的待识别图像中预设数量个基准点的图像特征匹配的像素点的坐标。

本发明实施例针对预设形变类型，通过与形变类型对应的预先训练好的神经网络中的预设定位网络获得预设数量个基准点，也就是获得预设数量个像素点的坐标，该坐标可以理解为在空白的校正后的待识别图像中的坐标。基准点的位置和个数是，能够满足提供该形变类型的形变校正所需要的参数使得形变图像得以校正所需要的像素点的位置和个数。如对于形变类型为旋转的待识别图像，通过至少一个基准点获得旋转角度这一个形变校正的参数即可获得校正后的待识别图像，对于形变类型为透视变换至少需要图像边缘四个角点作为基准点，获得形变校正所需要的参数以得到校正后的待识别图像，对于空间扭曲等复杂形变，需要获取图像中20个或者更多个像素点作为基准点，获得形变校正所需要的参数来得到校正后的待识别图像。

因此，本发明实施例的基准点与形变类型相关，基准点的设置原则为能够使待识别图像的整张图像在所提供的基准点位置、个数下能够得到预期的校正效果。本发明实施例对待识别图像中的图像特征进行分类，识别出哪些图像特征是与校正后的待识别图像中预设的基准点的图像特征匹配的，也就是对于一个预设的基准点，在待识别图像中寻找与该预设的基准点的图像特征一致的一个像素点，将该像素点的坐标作为该基准点对应的定位参数。具体为，本发明实施例的预设定位网络中的全连接层通过训练，权值矩阵中的权值体现待识别图像的特征图，与预设数量个基准点在待识别图像中的位置的线性关系，将训练好的全连接层的权值矩阵，与待识别图像的特征图对应的像素点矩阵相乘，获得预设数量个定位参数，也就是校正后的待识别图像中，预设数量个基准点分别对应在待识别图像中的坐标。比如选取20个基准点，通过步骤402获得的定位参数为20个基准点的坐标，为含有x坐标分量、y坐标分量的一共40个坐标值。

步骤403，根据预设数量个基准点对应的定位参数、预设数量个基准点在校正后的待识别图像中的坐标，获取基准点在待识别图像和校正后的待识别图像之间的空间变换关系。

本发明实施例根据预设数量个基准点对应的定位参数，也就是基准点在待识别图像中的坐标，并根据预设数量个基准点在校正后的待识别图像中的坐标，获取基准点在待识别图像和校正后的待识别图像之间的空间变换关系，本发明实施例就是通过基准点在待识别图像与校正后的待识别图像中的坐标对应关系计算出整个空间变换关系，继而通过由少数的预设数量个基准点得到的整个空间变换关系校正整张待识别图像中所有像素点的坐标，获得待识别图像中所有像素点对应在校正后的待识别图像中的坐标，也就实现填充整张校正后的待识别图像的目的，本发明实施例的空间变换关系与形变类型相关，如对于简单的变换比如单纯的平移形变，仅需要位移的坐标变化量作为形变所需要的参数就足以完成空间变换，对于无平移、无旋转，仅存在放缩的形变，仅需要放缩的倍数作为形变所需要的参数就足以完成空间变换，而对于非常复杂的形变，比如包括平移、旋转、放缩、扭曲在内的形变，仅仅提供个别像素点坐标或者一两个形变所需要的参数已经无法完成整个空间变换，所以需要相应地增加基准点，以获得更多、更复杂的形变所需要的参数来推算整个空间变换关系。空间变换关系根据形变类型的不同复杂程度可能含有多种步骤、参数、计算公式或者数学计算形式等，如最简单的空间变换方式可以为基准点的坐标在待识别图像和校正后的待识别图像中的一个坐标变换矩阵，该坐标变换矩阵是根据预设数量个基准点对应的定位参数，也就是预设数量个基准点在待识别图像中的坐标，并根据预设数量个基准点在校正后的待识别图像中的坐标总结出的，是适合于待识别图像中所有像素点的，表述像素点坐标从待识别图像变换到校正后的待识别图像的一个坐标变换矩阵。需要说明的是，坐标变换矩阵是空间变换关系的一种举例，统一概括来讲，定位参数是空间变换所必须的信息，对于一种形变类型，一旦获得定位参数，就能够获得校正该形变类型的对应变换算法所需的具体变换参数，具体变换参数可能包括具体的不同的步骤、多种参数及计算方式等，利用该具体的不同的步骤、多种参数及计算方式等就能够利用对应的变换算法对该形变类型进行对应的校正。

因此，步骤403可以进一步具体概括为：

根据预设数量个基准点对应的定位参数、预设数量个基准点在校正后的待识别图像中的坐标，获得将基准点在待识别图像中的坐标变换为基准点在校正后的待识别图像中的坐标的预设变换算法所需要的变换参数，预设变换算法包括仿射变换算法、透视变换算法、薄板样条变换算法之一。

步骤404，根据空间变换关系，获得待识别图像中所有像素点对应在校正后的待识别图像中的坐标，获得校正后的待识别图像。

本发明实施例中针对不同复杂程度的形变类型，空间变换关系可以具有不同的步骤、多种参数及计算方式等，本发明实施例根据校正预设形变类型对应的空间变换关系，利用对应的变换算法，以不同步骤、参数及计算方式等获得待识别图像中所有像素点对应在校正后的待识别图像中的坐标，获得校正后的待识别图像。

如前述的三种变换算法：仿射变换算法、透视变换算法、薄板样条变换算法，是针对不同复杂度的形变类型的具体的变换算法，在本发明实施例的具体网络中，每个具体网络根据形变类型选择一种变换算法，三种变换算法针对各自对应的形变类型单独使用，比如针对拍摄角度带来的透视问题，本发明实施例仅需要使用透视变换算法即可；因为针对拍摄角度带来的透视问题，仿射变换算法不能解决透视问题，在针对拍摄角度带来的透视问题的形变类型时不使用仿射变换算法；另外，薄板样条算法也可以解决透视变换，当然也可以在网络中替换透视变换算法来使用，但薄板样条算法除了解决透视还能解决扭曲、弯折等各种各样的形变问题，功能强大的同时所需要的计算量和时间开销也相应的更大，所以一般当仅需要解决透视问题的时候不需要采用薄板样条算法，采用透视变换算法足以。

以上述的坐标变换矩阵举例来说，本发明实施例可以采用仿射变换算法将待识别图像对应的像素点的坐标矩阵，与坐标变换矩阵相乘，获得校正后的待识别图像对应的像素点的坐标矩阵。并根据校正后的待识别图像对应的像素点的坐标矩阵，获得待识别图像所有像素点在校正后的待识别图像中的坐标，最终获得校正后的待识别图像。

因此，步骤404可以进一步具体概括为，根据预设变换算法所需要的变换参数，利用预设变换算法，计算待识别图像中所有像素点在待识别图像中的坐标，获得待识别图像中所有像素点对应在校正后的待识别图像中的坐标，获得校正后的待识别图像。

步骤405，利用预设识别网络中的卷积层，对校正后的待识别图像提取图像特征，获得含有图像特征的校正后的待识别图像的特征图。

本发明实施例的预设识别网络为训练好的神经网络，可以为多种现有的与目标类型对应的目标识别网络，如在字符识别中，可以为由卷积神经网络CNN和循环神经网络RNN组成的识别网络等。

本发明实施例将校正后的待识别图像的各个像素点，与预设识别网络中的卷积层的卷积核进行卷积运算，获得卷积核提取的，含有校正后的待识别图像的图像特征信息的特征图。

步骤406，利用预设识别网络中的全连接层，对校正后的待识别图像的特征图中的图像特征进行分类处理，获取待识别图像的目标分类结果。

本发明实施例将校正后的待识别图像的特征图对应的像素点矩阵，与预设识别网络中的全连接层的权值矩阵相乘，获得对校正后的待识别图像的特征图中目标的分类结果。

如在字符识别中，首先采用卷积神经网络CNN和循环神经网络RNN对校正后的待识别图像进行特征提取获得校正后的待识别图像的特征图，再利用全连接层对校正后的待识别图像的特征图分类获得特征序列，特征序列仍是像素点的值对应的数据信息，然后利用预设有特征序列与字符串对应关系的序列解码器，完成特征序列与字符串结果的转换，得到识别后的字符串。如将一张包含字符串“hello”的图像经过卷积层及全连接层的处理，得到一个1*60的特征序列，该特征序列含有图像特征对应的数据信息，如0、1等不同数值，将该特征序列输入序列解码器，序列解码器输出8、5、12、12、15，进一步的，根据序列解码器中预设的特征序列与字符串的对应关系，序列解码器就能得到“hello”这个字符串。

可见，本发明实施例提供的对形变图像的目标识别方法，首先，将待识别图像输入预设定位网络，利用预设个卷积层对待识别图像提取图像特征，获得含有图像特征的待识别图像的特征图，利用预设定位网络中的全连接层，对待识别图像的特征图中的图像特征进行回归处理，获取待识别图像的多个定位参数，定位参数为，待识别图像中，与校正后的待识别图像中预设数量个基准点的图像特征匹配的像素点的坐标。其次，根据预设数量个基准点对应的定位参数、预设数量个基准点在校正后的待识别图像中的坐标，获取基准点在待识别图像和校正后的待识别图像之间的空间变换关系，并根据空间变换关系，获得待识别图像中所有像素点对应在校正后的待识别图像中的坐标，获得校正后的待识别图像。最后，利用预设识别网络中的卷积层，对校正后的待识别图像提取图像特征，获得含有图像特征的校正后的待识别图像的特征图，再利用预设识别网络中的全连接层，对校正后的待识别图像的特征图中的图像特征进行分类处理，获取待识别图像的目标分类结果。本发明实施例在基于神经网络的目标识别过程中，先对形变图像进行校正，基于校正后的图像进行目标识别，能够减少形变对目标识别的干扰，因此本发明实施例能够针对形变图像，提高目标识别的准确性。

参见图5，图5为本发明实施例的对形变图像的目标识别装置的一种结构图，包括：

定位模块501，用于将待识别图像输入预设定位网络，获取待识别图像的多个定位参数，定位网络包括预设个卷积层，多个定位参数是待识别图像卷积后得到的特征图中的图像特征回归后得到的。

空间变换模块502，用于根据多个定位参数，对待识别图像进行空间变换，得到校正后的待识别图像。

识别模块503，用于将校正后的待识别图像输入预设识别网络，获取待识别图像的目标分类结果。

可见，本发明实施例提供的对形变图像的目标识别装置，首先将待识别图像输入预设定位网络，获取待识别图像的多个定位参数，定位网络包括预设个卷积层，多个定位参数是待识别图像卷积后得到的特征图中的图像特征回归后得到的。其次根据多个定位参数，对待识别图像进行空间变换，得到校正后的待识别图像。最后将校正后的待识别图像输入预设识别网络，获取待识别图像的目标分类结果。本发明实施例在基于神经网络的目标识别过程中，先对形变图像进行校正，基于校正后的图像进行目标识别，能够减少形变对目标识别的干扰，因此本发明实施例能够针对形变图像，提高目标识别的准确性。

需要说明的是，本发明实施例的装置是应用上述对形变图像的目标识别方法的装置，则上述应用对形变图像的目标识别方法的所有实施例均适用于该装置，且均能达到相同或相似的有益效果。

在图5基础上，作为优选的实施例，参见图6，图6为本发明实施例的对形变图像的目标识别装置的另一种结构图，包括：

本发明实施例中，定位模块601，包括：

特征图获取子模块6011，用于利用预设个卷积层对待识别图像提取图像特征，获得含有图像特征的待识别图像的特征图。

定位子模块6012，用于利用预设定位网络中的全连接层，对待识别图像的特征图中的图像特征进行回归处理，获取待识别图像的多个定位参数，定位参数为，待识别图像中，与校正后的待识别图像中预设数量个基准点的图像特征匹配的像素点的坐标。

本发明实施例中，空间变换模块602，包括：

变换关系获取子模块6021，用于根据预设数量个基准点对应的定位参数、预设数量个基准点在校正后的待识别图像中的坐标，获取基准点在待识别图像和校正后的待识别图像之间的空间变换关系。

校正子模块6022，用于根据空间变换关系，获得待识别图像中所有像素点对应在校正后的待识别图像中的坐标，获得校正后的待识别图像。

本发明实施例中，变换关系获取子模块6021，具体用于：

根据预设数量个基准点对应的定位参数、预设数量个基准点在校正后的待识别图像中的坐标，获得将基准点在待识别图像中的坐标变换为基准点在校正后的待识别图像中的坐标的预设变换算法所需要的变换参数，预设变换算法为仿射变换算法、透视变换算法、薄板样条变换算法之一。

校正子模块6022，具体用于：

根据预设变换算法所需要的变换参数，利用预设变换算法，计算待识别图像中所有像素点在待识别图像中的坐标，获得待识别图像中所有像素点对应在校正后的待识别图像中的坐标，获得校正后的待识别图像。

本发明实施例中，识别模块603，包括：

特征图获取子模块6031，用于利用预设识别网络中的卷积层，对校正后的待识别图像提取图像特征，获得含有图像特征的校正后的待识别图像的特征图。

分类子模块6032，用于利用预设识别网络中的全连接层，对校正后的待识别图像的特征图中的图像特征进行分类处理，获取待识别图像的目标分类结果。

可见，本发明实施例提供的对形变图像的目标识别装置，首先，将待识别图像输入预设定位网络，利用预设个卷积层对待识别图像提取图像特征，获得含有图像特征的待识别图像的特征图，利用预设定位网络中的全连接层，对待识别图像的特征图中的图像特征进行回归处理，获取待识别图像的多个定位参数，定位参数为，待识别图像中，与校正后的待识别图像中预设数量个基准点的图像特征匹配的像素点的坐标。其次，根据预设数量个基准点对应的定位参数、预设数量个基准点在校正后的待识别图像中的坐标，获取基准点在待识别图像和校正后的待识别图像之间的空间变换关系，并根据空间变换关系，获得待识别图像中所有像素点对应在校正后的待识别图像中的坐标，获得校正后的待识别图像。最后，利用预设识别网络中的卷积层，对校正后的待识别图像提取图像特征，获得含有图像特征的校正后的待识别图像的特征图，再利用预设识别网络中的全连接层，对校正后的待识别图像的特征图中的图像特征进行分类处理，获取待识别图像的目标分类结果。本发明实施例在基于神经网络的目标识别过程中，先对形变图像进行校正，基于校正后的图像进行目标识别，能够减少形变对目标识别的干扰，因此本发明实施例能够针对形变图像，提高目标识别的准确性。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于***实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种对形变图像的目标识别方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述将待识别图像输入预设定位网络，获取所述待识别图像的多个定位参数，包括：

3.根据权利要求2所述的方法，其特征在于，所述根据所述多个定位参数，对所述待识别图像进行空间变换，得到校正后的待识别图像，包括：

4.根据权利要求3所述的方法，其特征在于，所述根据预设数量个基准点对应的定位参数、预设数量个基准点在校正后的待识别图像中的坐标，获取基准点在待识别图像和校正后的待识别图像之间的空间变换关系，包括：

5.根据权利要求1所述的方法，其特征在于，所述将所述校正后的待识别图像输入预设识别网络，获取所述待识别图像的目标分类结果，包括：

6.一种对形变图像的目标识别装置，其特征在于，包括：

7.根据权利要求6所述的装置，其特征在于，所述定位模块，包括：

8.根据权利要求7所述的装置，其特征在于，所述空间变换模块，包括：

9.根据权利要求8所述的装置，其特征在于，所述变换关系获取子模块，具体用于：

所述校正子模块，具体用于：

10.根据权利要求6所述的装置，其特征在于，所述识别模块，包括：