CN114241249A

CN114241249A - 基于目标检测算法与卷积神经网络的图像分类方法和***

Info

Publication number: CN114241249A
Application number: CN202210169610.9A
Authority: CN
Inventors: 吴琎; 何振东
Original assignee: Beijing Kitten and Puppy Technology Co Ltd
Current assignee: Beijing Kitten and Puppy Technology Co Ltd
Priority date: 2022-02-24
Filing date: 2022-02-24
Publication date: 2022-03-25
Anticipated expiration: 2042-02-24
Also published as: CN114241249B

Abstract

本公开涉及一种基于目标检测算法与卷积神经网络的图像分类方法和***，包括对原始图像进行目标检测得到预测框；将目标图像随机填充至预定的网格中，所述网格中网格单元与目标图像的尺寸一致，并根据填充网格后的图像得到与原始图像大小相同的新图像；根据新图像进行特征提取网络运算获得特征图；对每个特征图进行卷积计算分别获得对应的卷积值，合并卷积值得到一维向量；将一维向量和对应的图像标签构成训练数据集，利用训练数据集对图像分类模型进行有监督训练，获得训练后的图像分类模型；使用训练后的模型对图像中目标进行分类。通过目标区域重新组合能够过滤无用信息的干扰，进一步使用特征提取网络进行运算，提高了模型分类结果的准确率。

Description

基于目标检测算法与卷积神经网络的图像分类方法和***

技术领域

本发明涉及计算机视觉领域。具体而言，涉及一种基于目标检测算法与卷积神经网络的图像分类方法和***。

背景技术

随着计算机视觉领域的发展以及图像获取设备性能的提高，图像的智能识别与目标检测已经越来越成熟，图像识别任务即为图像分类任务，其主流方法在于设计不同结构形式的卷积神经网络，或者添加注意力机制提高图像识别的准确率；目标检测任务根据其实现方法可以划分为一阶段检测方法和二阶段检测方法。

在现有的图像分类方法中对于目标突出，场景单一的图像识别效果较好，但是针对场景复杂且存在多个显著目标的图像由于其无法快速准确的定位目标物体导致其图像分类的准确率降低。

发明内容

本发明正是基于现有技术的上述需求而提出的，本发明要解决的技术问题是提供一种基于目标检测算法与卷积神经网络的图像分类方法和***。

为了解决上述问题，本发明是采用如下技术方案实现的：

一种基于目标检测算法与卷积神经网络的图像分类方法，该方法包括：

对原始图像进行目标检测，得到图像中所包含的目标图像的预测框；

将所述目标图像随机填充至预定的网格中，所述网格中网格单元的尺寸与所述目标图像的尺寸一致，并根据填充网格后的图像得到与所述原始图像大小相同的新图像；

根据所述新图像进行特征提取网络运算，获得基于所述新图像的特征图；

对每个特征图利用与所述特征图大小相同的卷积核进行卷积计算，分别获得对应的卷积值，将所有卷积值进行合并，得到一维向量；

将所述一维向量和对应的图像标签构成训练数据集，利用所述训练数据集对图像分类模型进行有监督训练，获得训练后的图像分类模型；

使用训练后的图像分类模型对图像中的目标进行分类。

可选地，对原始图像进行目标检测包括：

将原始图像划分为多个相同大小的区域图像，并将所述区域图像进行残差网络计算，得到区域图像的特征图；

对各个区域图像的特征图进行目标检测计算，预测得到各个区域中的目标坐标值和目标分数；基于所述目标坐标值，绘制得到检测框；

对所述检测框执行排序删除操作，所述排序删除操作是按照所述目标分数将所述检测框进行排序，选取目标分数最大的检测框，计算其它检测框与所述目标分数最大的检测框的交并比，获得重叠率值；并将所述重叠率值超过所述置信度阈值的对应检测框删除；

对剩余的检测框重复执行所述排序删除操作，直至所有的检测框都被处理，得到图像中所包含的目标图像的预测框。

可选地，将所述目标图像随机填充至预定的网格中，所述网格中网格单元的尺寸与所述目标图像的尺寸一致，并根据填充网格后的图像得到与所述原始图像大小相同的新图像，包括：

将所有目标图像随机填充至预定的网格中进行重新组合，当检测目标数不足以构成一张新图像时，选择现有目标图像对空缺部分进行填充，并根据填充网格后的图像进行双线性插值计算，得到与所述原始图像大小相同的新图像，所述新图像由目标检测算法的识别结果组成。

可选地，目标检测计算中，使用目标检测模型进行目标检测计算，所述目标检测模型是使用多物体图像数据集对目标检测算法进行训练得到。

可选地，基于所述目标坐标值，绘制得到检测框，包括：

基于所述目标坐标值，对每个区域的目标进行三种尺寸的检测框绘制，得到目标检测框；其中所述三种尺寸选自九种不同尺寸的先验框，所述九种尺寸的先验框由对所述多物体图像数据集中所有标签的尺寸利用K-means算法进行聚类处理得到。

一种基于目标检测算法与卷积神经网络的图像分类***，其特征在于，包括：

预测框检测模块，用于对原始图像进行目标检测，得到图像中所包含的目标图像的预测框；

图像重组模块，用于将所述目标图像随机填充至预定的网格中，所述网格中网格单元的尺寸与所述目标图像的尺寸一致，并根据填充网格后的图像得到与所述原始图像大小相同的新图像；

特征提取模块，用于根据所述新图像进行特征提取网络运算，获得基于所述新图像的特征图；

卷积运算模块，用于对每个特征图利用与所述特征图大小相同的卷积核进行卷积计算，分别获得对应的卷积值，将所有卷积值进行合并，得到一维向量；

模型训练模块，用于将所述一维向量和对应的图像标签构成训练数据集，利用所述训练数据集对图像分类模型进行有监督训练，获得训练后的图像分类模型；

分类模块，用于使用训练后的图像分类模型对图像中的目标进行分类。

可选地，所述预测框检测模块用于：

可选地，所述图像重组模块用于：

可选地，所述预测框检测模块用于：

与现有技术相比，本发明使用目标检测算法对原始图像进行目标检测，能够检测出目标区域，对目标区域进行重新组合能够过滤无用信息的干扰，为下一步图像特征提取提供帮助。进一步地使用了特征提取网络结构进行特征提取，通过增加小卷积核的个数以及网络的深度提高了模型分类结果的准确率。

附图说明

为了更清楚地说明本说明书实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本说明书实施例中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1是本发明具体实施方式提供的一种基于目标检测算法与卷积神经网络的图像分类方法的流程图；

图2是本发明具体实施方式提供的一种基于目标检测算法与卷积神经网络的图像分类方法的模型框架示意图；

图3是本发明具体实施方式提供的一种基于目标检测算法与卷积神经网络的图像分类***的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为便于对本发明实施例的理解，下面将结合附图以具体实施例做进一步的解释说明，实施例并不构成对本发明实施例的限定。

实施例1

本实施例提供了一种基于目标检测算法与卷积神经网络的图像分类方法，其流程如图1所示，具体包括：

S1：对原始图像进行目标检测，得到图像中所包含的目标图像的预测框。

对原始图像进行目标检测，首先将原始图像向量化后输入进残差特征提取网络中进行特征提取，然后将特征向量输入目标检测器中进行坐标信息生成，最终使用非极大值抑制方法进行检测框的筛选，得到目标的预测框。其中，所述原始图像特征为场景分布复杂，且无前后景明显区别。

对于具有多个关注目标，且场景分布复杂的待识别图像，使用目标检测算法进行特定目标检测，一阶段目标检测方法的主要特点在于模型运算速度快，但是识别精度较两阶段目标检测方法低，为了权衡运算速度与识别精度，选择目标检测算法作为基于特征提取网络的图像分类方法的预处理方法。

在本步骤中，目标检测计算中，使用目标检测模型进行目标检测计算，所述目标检测模型是使用多物体图像数据集对目标检测算法进行训练得到。

在S1步骤中，具体执行步骤包括：

S10：将原始图像划分为多个相同大小的区域图像，并将所述区域图像进行残差网络计算，得到区域图像的特征图。

所述残差网络为Darknet53，Darknet53作为全卷积特征提取网络能够适应各种尺寸的图像。在本发明实施例中，将原始图像划分为多个416×416像素的区域图像。

Darknet53网络结构共由53层卷积层组成，除去最后一层全连接层共有52层卷积层，其中全连接层是由1×1卷积核组建的卷积层。将所述区域图像输入至残差网络进行处理的具体过程包括：

首先对原始图像使用具有32个过滤器的卷积核进行特征提取，然后依次使用5组重复的残差单元进行特征提取，其中，在5组残差单元中，每个单元由1个单独的卷积层与一组重复执行的卷积层构成，重复执行的卷积层分别重复1次、2次、8次、8次、4次；在每个重复执行的卷积层中，先执行卷积核为1x1的卷积操作，再执行卷积核为3x3的卷积操作，过滤器数量先减半，再恢复，需要注意的是残差计算不属于卷积层计算。

Darknet53中引入了残差结构，残差结构将上一层的输出与本层的输出相加融合，能够避免因为网络层数过深带来的梯度消失或者梯度***问题。

S11：对各个区域图像的特征图进行目标检测计算，预测得到各个区域中的目标坐标值和目标分数；基于所述目标坐标值，绘制得到检测框。

对每个区域特征图进行目标检测计算，预测此区域是某一个类别的概率，在每个区域的预测结果中包含目标坐标值和目标分数，根据目标坐标值绘制目标的预测框。

目标检测中，使用K-means聚类算法提前对多物体图像数据集中所有标签的尺寸进行聚类，得到9种不同尺寸的标注框作为先验框，并且为每一个目标规定三种尺寸的检测框用来适应不同尺寸的目标，并使用非极大值抑制方法获取到最精准的目标位置信息。

为了适应不同目标的尺寸，在每个目标预测过程中均会产生三种不同长宽比的预测框，并且模型在多物体图像数据集中对标注框进行了计算，得到了9种长宽比的标注框作为模型训练过程中的先验框，提高模型对于不同物体的检测精度。

在本步骤中，基于所述目标坐标值，绘制得到预测框具体执行操作如下：

S12：对所述检测框执行排序删除操作，所述排序删除操作是按照所述目标分数将所述检测框进行排序，选取目标分数最大的检测框，计算其它检测框与所述目标分数最大的检测框的交并比，获得重叠率值；并将所述重叠率值超过所述置信度阈值的对应检测框删除。

S13：对剩余的检测框重复执行所述排序删除操作，直至所有的检测框都被处理，得到图像中所包含的目标图像的预测框。

由于目标检测算法会针对同一目标生成多个检测框，也就是说将所有超过预先设定阈值的检测框绘制出来，造成了大量无用检测框的生成，所以需要将无用的检测框过滤，选择出置信度分数最高的检测框，作为目标的预测框。

S12-S13具体实施过程为：对所有检测到的检测框按照他们的目标分数进行排序并选出目标分数最大的检测框A，设定阈值b，在剩下的检测框中，计算他们与最大检测框A之间的交并比（Intersection over Union，IoU），若IoU大于阈值b，即检测框之间重叠率高。则删除这些检测框；有可能存在与当前检测框完全不重叠的，或者他们的重叠面积非常小（IoU小于阈值b），接下来对这些没有处理过的检测框重新排序，排序完成后同样选择一个得分最大的检测框，然后计算其他检测框与最大检测框的IoU值，并将IoU大于阈值b的检测框再进行一次删除，这个过程不断迭代，直到所有的检测框都被处理之后，输出最后的检测结果。

经过上述步骤的处理，能够消除多余的检测框，找到最佳的目标检测的位置。

当S1执行完成后，得到图像中所包含的目标图像的预测框。

S2：将所述目标图像随机填充至预定的网格中，所述网格中网格单元的尺寸与所述目标图像的尺寸一致，并根据填充网格后的图像得到与所述原始图像大小相同的新图像。

为了提高模型的鲁棒性，目标图像的重组方式为随机填充排列，排除了排列方式对识别结果的影响，因为图像重组元素为目标检测算法的识别结果（显著图像区域），因此重组后的图像能够过滤图像背景的干扰，进而为下一步特征提取提供帮助。

S3：根据所述新图像进行特征提取网络运算，获得基于所述新图像的特征图。

在本发明实施例中，使用VGG16特征提取网络进行特征提取，VGG16网络结构大量使用3×3卷积核，并通过增加小卷积核的个数以及网络的深度提高模型分类结果的准确率。

VGG16共有16层，共由13层卷积层和3层全连接层组成，其网络结构的输入图像大小为224×224像素，通道数为3，包含5段卷积层，每段卷积层内含有2个或3个卷积层，在每段卷积层的结尾处连接一个最大池化层，其中，各个段内卷积层的卷积核的数量一致，将新图像输入至VGG16网络进行特征提取具体执行步骤为：

针对第一段卷积层，在第一段的第一卷积层中，使用3×3卷积核对新图像进行处理，得到224×224特征图；在第一段的其他卷积层中，使用3×3卷积核处理对应上一层的特征图得到新的特征图；在该段卷积层中，特征通道数从3依次增加至64，卷积层处理完成后，再对224×224特征图进行最大池化处理得到112×112特征图。

针对其他段卷积层，在其他段的第一卷积层中，使用3×3卷积核处理由上面紧邻的最大池化层得到的特征图；在其他段的其他卷积层中，使用3×3卷积核处理对应上一层的特征图得到新的特征图；在每段卷积层处理完成后得到的特征图的通道数是上一段卷积层特征图的2倍；并且在每段卷积层处理完成后，再对该段得到特征图进行最大池化处理得到池化后特征图，所述池化后的特征图大小降维至处理前一半。

在本步骤中，对新图像进行VGG16网络处理，共进行了5次特征降维，从224×224依次降维至112×112、56×56、28×28、14×14和7×7，其中降维操作通过最大池化层实现，特征通道数从3依次增加至64、128、256和512。

VGG16网络结构的特点在于通过小卷积叠加的形式实现了和大卷积核相同的感受野的效果；所有的卷积层不进行降维操作，使用最大池化层实现特征图降维。

VGG16的网络结构比较简洁，只涉及了卷积层、最大池化层和全连接层。卷积层的作用是通过设置不同大小的卷积核和不同的步长使每一个卷积层的感受野不同，从而提取不同范围图像特征，最大池化层的作用是提取出图像中最具特点的特征，相当于“锐化”操作。

S4：对每个特征图利用与所述特征图大小相同的卷积核进行卷积计算，分别获得对应的卷积值，将所有卷积值进行合并，得到一维向量。

在本发明实施例中，使用与特征图大小相同的卷积核对所述特征图的二维特征矩阵进行卷积，这样二维特征矩阵被压缩成了一个数，进而多个特征图就被转换成了一维向量。这样做的好处不仅方便计算图像对应的类别概率，而且还能够减少参数量。

S5：将所述一维向量和对应的图像标签构成训练数据集，利用所述训练数据集对图像分类模型进行有监督训练，获得训练后的图像分类模型。

S6：使用训练后的图像分类模型对图像中的目标进行分类。

使用所述图像分类模型对图像目标类别进行预测，其中VGG16输出的特征向量作为全连接层的输入，对全连接层的输出采用Softmax分类器进行图像分类。

综上所述，本发明提供的一种基于目标检测算法与卷积神经网络的图像分类方法，包括，获取原始图像，使用目标检测器对原始图像进行目标检测，检测出目标区域；对目标区域进行重新组合，获得与原始图像大小相同的新图像，并对新图像重新调整大小；根据特征提取网络对调整后的新图像进行特征提取，获得特征图；将特征图转换为一维向量并和对应的图像标签构成训练数据集，对训练数据集进行有监督训练，获得图像分类模型，使用图像分类模型对图像目标类别进行预测，具体如图2的模型框架示意图所示。本发明通过预先使用目标检测模型对图像中目标物体进行检测，降低由于图像场景分布复杂且存在多个显著物体带来的特征提取困难问题。通过进一步获取到目标图像的位置并进行特征的重点提取，提高图像分类的识别准确率。

实施例2

图3是根据本发明具体实施例提供的一种基于目标检测算法与卷积神经网络的图像分类***的结构示意图。如图3所示，该***包括：预测框检测模块30，图像重组模块31，特征提取模块32，卷积运算模块33，模型训练模块34，分类模块35。

预测框检测模块30，用于对原始图像进行目标检测，得到图像中所包含的目标图像的预测框；

图像重组模块31，用于将所述目标图像随机填充至预定的网格中，所述网格中网格单元的尺寸与所述目标图像的尺寸一致，并根据填充网格后的图像得到与所述原始图像大小相同的新图像；

特征提取模块32，用于根据所述新图像进行特征提取网络运算，获得基于所述新图像的特征图；

卷积运算模块33，用于对每个特征图利用与所述特征图大小相同的卷积核进行卷积计算，分别获得对应的卷积值，将所有卷积值进行合并，得到一维向量；

模型训练模块34，用于将所述一维向量和对应的图像标签构成训练数据集，利用所述训练数据集对图像分类模型进行有监督训练，获得训练后的图像分类模型；

分类模块35，用于使用训练后的图像分类模型对图像中的目标进行分类。

可选地，预测框检测模块30用于：

可选地，图像重组模块31用于：

可选地，预测框检测模块30用于：

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行每个实施例或者实施例的某些部分所述的方法。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于目标检测算法与卷积神经网络的图像分类方法，其特征在于，包括：

使用训练后的图像分类模型对图像中的目标进行分类。

2.如权利要求1所述的一种基于目标检测算法与卷积神经网络的图像分类方法，其特征在于，对原始图像进行目标检测包括：

对所述检测框执行排序删除操作，所述排序删除操作是按照所述目标分数将所述检测框进行排序，选取目标分数最大的检测框，计算其它检测框与所述目标分数最大的检测框的交并比，获得重叠率值；并将所述重叠率值超过预先设定的置信度阈值的对应检测框删除；

3.如权利要求1所述的一种基于目标检测算法与卷积神经网络的图像分类方法，其特征在于，将所述目标图像随机填充至预定的网格中，所述网格中网格单元的尺寸与所述目标图像的尺寸一致，并根据填充网格后的图像得到与所述原始图像大小相同的新图像，包括：

4.如权利要求2所述的一种基于目标检测算法与卷积神经网络的图像分类方法，其特征在于，目标检测计算中，使用目标检测模型进行目标检测计算，所述目标检测模型是使用多物体图像数据集对目标检测算法进行训练得到。

5.如权利要求4所述的一种基于目标检测算法与卷积神经网络的图像分类方法，其特征在于，基于所述目标坐标值，绘制得到检测框，包括：

6.一种基于目标检测算法与卷积神经网络的图像分类***，其特征在于，包括：

7.如权利要求6所述的一种基于目标检测算法与卷积神经网络的图像分类***，其特征在于，所述预测框检测模块用于：

8.如权利要求6所述的一种基于目标检测算法与卷积神经网络的图像分类***，其特征在于，所述图像重组模块用于：

9.如权利要求7所述的一种基于目标检测算法与卷积神经网络的图像分类***，其特征在于，目标检测计算中，使用目标检测模型进行目标检测计算，所述目标检测模型是使用多物体图像数据集对目标检测算法进行训练得到。

10.如权利要求9所述的一种基于目标检测算法与卷积神经网络的图像分类***，其特征在于，所述预测框检测模块用于：