CN108304821B

CN108304821B - 图像识别方法及装置、图像获取方法及设备、计算机设备及非易失性计算机可读存储介质

Info

Publication number: CN108304821B
Application number: CN201810151420.8A
Authority: CN
Inventors: 张弓
Original assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Current assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date: 2018-02-14
Filing date: 2018-02-14
Publication date: 2020-12-18
Anticipated expiration: 2038-02-14
Also published as: CN108304821A

Abstract

本发明公开了一种基于多层卷积神经网络的图像识别方法及装置、图像获取方法及设备、计算机设备及非易失性计算机可读存储介质。本发明实施方式的基于多层卷积神经网络的图像识别方法及装置、图像获取方法及设备、计算机设备及非易失性计算机可读存储介质构建三层卷积层加两层池化层的多层卷积神经网络模型，并使用分辨率归一化为第一分辨率的训练图像训练多层卷积神经网络模型，使用分辨率归一化为第二分辨率的测试图像测试多层卷积神经网络模型，无需使用全连接层即可实现对图像场景的识别，减小了场景识别算法的复杂度，场景识别的计算量较小，计算耗时较短。

Description

图像识别方法及装置、图像获取方法及设备、计算机设备及非易失性计算机可读存储介质

技术领域

本发明涉及图像处理技术领域，特别涉及一种基于多层卷积神经网络模型的图像识别方法、基于多层卷积神经网络模型的图像识别装置、图像获取方法、图像获取设备、计算机设备、及非易失性计算机可读存储介质。

背景技术

现有的采用人工设计的特征来识别图像场景的方法存在设计周期长、鲁棒性差的缺点，且对于复杂的图像场景的识别能力较差。而基于卷积神经网络的场景是识别方法需要用到全连接层，存在计算量大、计算时间长的缺陷。

发明内容

本发明的实施例提供了一种基于多层卷积神经网络模型的图像识别方法、基于多层卷积神经网络模型的图像识别装置、图像获取方法、图像获取设备、计算机设备、及非易失性计算机可读存储介质。

本发明提供一种基于多层卷积神经网络模型的图像识别方法，所述图像识别方法包括：

对预先采集的每幅训练图像标记目标类别，并对每幅所述训练图像进行预处理以得到多幅第一分辨率的所述训练图像；

设定所述多层卷积神经网络模型的初始结构，所述初始结构为顺序排列的第一层卷积层、第二层池化层、第三层卷积层、第四层池化层和第五层卷积层；

根据第一分辨率的所述训练图像与第一层卷积层的第一参数计算得到至少一幅第一特征图像；

将所述第一特征图像输入所述第二层池化层以计算得到与所述第一特征图像一一对应的第二特征图像；

根据所述第二特征图像与所述第三层卷积层的第三参数计算得到至少一幅第三特征图像；

将所述第三特征图像输入所述第四层池化层以计算得到与所述第三特征图像一一对应的第四特征图像；

根据所述第四特征图像与所述第五层卷积层的第五参数计算得到至少一幅第五特征图像；

根据所述第五特征图像确认每幅所述训练图像的场景识别结果；

根据所述目标类别和所述场景识别结果计算所述多层卷积神经网络的损耗值；

在所述损耗值小于预设损耗值时确认所述多层卷积神经网络模型收敛；

对采集的测试图像进行预处理以得到多幅第二分辨率的所述测试图像，所述第二分辨率大于所述第一分辨率；

输入所述测试图像至收敛的所述多层卷积神经网络模型以测试收敛的所述多层卷积神经网络模型；和

采用测试后的所述多层卷积神经网络模型识别场景图像中的场景类别。

本发明提供一种图像获取方法，所述图像获取方法包括：

获取场景图像；

采用上述的多层卷积神经网络模型识别所述场景图像中的场景类别；

根据所述场景类别调整摄像头的拍摄参数以获取与所述场景图像对应的新场景图像，所述拍摄参数包括色温、曝光时间、感光度和曝光补偿中的至少一种。

本发明提供一种基于多层卷积神经网络模型的图像识别装置。所述图像识别装置包括第一预处理模块、设定模块、第一计算模块、第二计算模块、第三计算模块、第四计算模块、第五计算模块、第一确认模块、第六计算模块、第二确认模块第二预处理模块、测试模块和识别模块。所述第一预处理模块用于对预先采集的每幅训练图像标记目标类别，并对每幅所述训练图像进行预处理以得到多幅第一分辨率的所述训练图像。所述设定模块用于设定所述多层卷积神经网络模型的初始结构，所述初始结构为顺序排列的第一层卷积层、第二层池化层、第三层卷积层、第四层池化层和第五层卷积层。所述第一计算模块用于根据第一分辨率的所述训练图像与第一层卷积层的第一参数计算得到至少一幅第一特征图像。所述第二计算模块用于将所述第一特征图像输入所述第二层池化层以计算得到与所述第一特征图像一一对应的第二特征图像。所述第三计算模块用于根据所述第二特征图像与所述第三层卷积层的第三参数计算得到至少一幅第三特征图像。所述第四计算模块用于将所述第三特征图像输入所述第四层池化层以计算得到与所述第三特征图像一一对应的第四特征图像。所述第五计算模块用于根据所述第四特征图像与所述第五层卷积层的第五参数计算得到至少一幅第五特征图像。所述第一确认模块用于根据所述第五特征图像确认每幅所述训练图像的场景识别结果。所述第六计算模块用于根据所述目标类别和所述场景识别结果计算所述多层卷积神经网络的损耗值。所述第二确认模块用于在所述损耗值小于预设损耗值时确认所述多层卷积神经网络模型收敛。所述第二预处理模块用于对采集的测试图像进行预处理以得到多幅第二分辨率的所述测试图像，所述第二分辨率大于所述第一分辨率。所述测试模块用于输入所述测试图像至收敛的所述多层卷积神经网络模型以测试收敛的所述多层卷积神经网络模型。所述识别模块用于采用测试后的所述多层卷积神经网络模型识别场景图像中的场景类别。

本发明提供一种图像获取设备，所述图像获取设备包括获取单元和图像识别装置。所述获取单元用于获取场景图像。所述图像识别装置用于采用上述的多层卷积神经网络模型识别所述场景图像中的场景类别。所述获取单元还用于根据所述场景类别调整摄像头的拍摄参数以获取与所述场景图像对应的新场景图像，所述拍摄参数包括色温、曝光时间、感光度和曝光补偿中的至少一种。

本发明提供一种计算机设备，包括存储器及处理器，所述存储器中存储有计算机可读指令，所述计算机可读指令被所述处理器执行时，使得所述处理器执行上述的图像识别方法和上述的图像获取方法。

本发明提供一个或多个包含计算机可执行指令的非易失性计算机可读存储介质，当所述计算机可执行指令被一个或多个处理器执行时，使得所述处理器执行上述的图像识别方法和上述的图像获取方法。

本发明实施方式的多层卷积神经网络模型的构建方法及装置、图像获取方法及设备、计算机设备及非易失性计算机可读存储介质构建三层卷积层加两层池化层的多层卷积神经网络模型，并使用分辨率归一化为第一分辨率的训练图像训练多层卷积神经网络模型，使用分辨率归一化为第二分辨率的测试图像测试多层卷积神经网络模型，无需使用全连接层即可实现对图像场景的识别，减小了场景识别算法的复杂度，场景识别的计算量较小，计算耗时较短。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1是本发明某些实施方式基于多层卷积神经网络模型的图像识别方法的流程示意图。

图2是本发明某些实施方式基于多层卷积神经网络模型的图像识别装置的模块示意图。

图3是本发明某些实施方式的计算机设备的模块示意图。

图4是本发明某些实施方式的基于多层卷积神经网络模型的图像识别方法的场景示意图。

图5是本发明某些实施方式的基于多层卷积神经网络模型的图像识别方法的流程示意图。

图6是本发明某些实施方式的基于多层卷积神经网络模型的图像识别装置的模块示意图。

图7是本发明某些实施方式的基于多层卷积神经网络模型的图像识别方法的流程示意图。

图8是本发明某些实施方式的基于多层卷积神经网络模型的图像识别装置的模块示意图。

图9是本发明某些实施方式的图像获取方法的流程示意图。

图10是本发明某些实施方式的图像获取设备的模块示意图。

图11是本发明某些实施方式的计算机设备的模块示意图。

图12本发明某些实施方式的图像处理电路的模块示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

请参阅图1，本发明提供一种基于多层卷积神经网络模型的图像识别方法。图像识别方法包括：

00：对预先采集的每幅训练图像标记目标类别，并对每幅训练图像进行预处理以得到多幅第一分辨率的训练图像；

01：设定多层卷积神经网络模型的初始结构，初始结构为顺序排列的第一层卷积层、第二层池化层、第三层卷积层、第四层池化层和第五层卷积层；

02：根据第一分辨率的训练图像与第一层卷积层的第一参数计算得到至少一幅第一特征图像；

03：将第一特征图像输入第二层池化层以计算得到与第一特征图像一一对应的第二特征图像；

04：根据第二特征图像与第三层卷积层的第三参数计算得到至少一幅第三特征图像；

05：将第三特征图像输入第四层池化层以计算得到与第三特征图像一一对应的第四特征图像；

06：根据第四特征图像与第五层卷积层的第五参数计算得到至少一幅第五特征图像；

07：根据第五特征图像确认每幅训练图像的场景识别结果；

08：根据目标类别和场景识别结果计算多层卷积神经网络的损耗值；

09：在损耗值小于预设损耗值时确认多层卷积神经网络模型收敛；

011：对采集的测试图像进行预处理以得到多幅第二分辨率的测试图像，第二分辨率大于所述第一分辨率；

012：输入测试图像至收敛的多层卷积神经网络模型以测试收敛的多层卷积神经网络模型；和

013：采用测试后的多层卷积神经网络模型识别场景图像中的场景类别。

请参阅图2，本发明还提供一种基于多层卷神经网络模型的图像识别装置100。本发明实施方式的基于多层卷积神经网络的图像识别方法可以由本发明实施方式的基于多层卷积神经网络的图像识别装置100实现。图像识别装置100包括第一预处理模块30、设定模块 31、第一计算模块32、第二计算模块33、第三计算模块34、第四计算模块35、第五计算模块36、第一确认模块37、第六计算模块38、第二确认模块39、第二预处理模块41、测试模块42和识别模块43。步骤00可以由第一预处理模块30实现。步骤01可以由设定模块31实现。步骤02可以由第一计算模块32实现。步骤03可以由第二计算模块33实现。步骤04可以由第三计算模块34实现。步骤05可以由第四计算模块35实现。步骤06可以由第五计算模块36实现。步骤07可以由第一确认模块37实现。步骤08可以由第六计算模块38实现。步骤09可以由第二确认模块39实现。步骤011可以由第二预处理模块41 实现。步骤012可以由测试模块42实现。步骤013可以由识别模块43实现。

也即是说，第一预处理模块30可用于对预先采集的每幅训练图像标记目标类别，并对每幅训练图像进行预处理以得到多幅第一分辨率的训练图像。设定模块31可用于设定多层卷积神经网络模型的初始结构，初始结构为顺序排列的第一层卷积层、第二层池化层、第三层卷积层、第四层池化层和第五层卷积层。第一计算模块32可用于根据第一分辨率的训练图像与第一层卷积层的第一参数计算得到至少一幅第一特征图像。第二计算模块33可用于将第一特征图像输入第二层池化层以计算得到与第一特征图像一一对应的第二特征图像。第三计算模块34可用于根据第二特征图像与第三层卷积层的第三参数计算得到至少一幅第三特征图像。第四计算模块35可用于将第三特征图像输入所述第四层池化层以计算得到与第三特征图像一一对应的第四特征图像。第五计算模块36可用于根据第四特征图像与第五层卷积层的第五参数计算得到至少一幅第五特征图像。第一确认模块37可用于根据第五特征图像确认每幅训练图像的场景识别结果。第六计算模块38可用于根据目标类别和场景识别结果计算多层卷积神经网络的损耗值。第二确认模块39可用于在损耗值小于预设损耗值时确认多层卷积神经网络模型收敛。第二预处理模块41可用于对采集的测试图像进行预处理以得到多幅第二分辨率的测试图像，第二分辨率大于所述第一分辨率。测试模块42 可用于输入测试图像至收敛的多层卷积神经网络模型以测试收敛的多层卷积神经网络模型。识别模块43可用于采用测试后的多层卷积神经网络模型识别场景图像中的场景类别。

请参阅图3，本发明提供一种计算机设备1000。计算机设备1000包括存储器61和处理器62。存储器61中存储有计算机可读指令611。计算机可读指令611被处理器62执行时，使得处理器62执行以下操作：对预先采集的每幅训练图像标记目标类别，并对每幅训练图像进行预处理以得到多幅第一分辨率的训练图像；设定多层卷积神经网络模型的初始结构，初始结构为顺序排列的第一层卷积层、第二层池化层、第三层卷积层、第四层池化层和第五层卷积层；根据第一分辨率的训练图像与第一层卷积层的第一参数计算得到至少一幅第一特征图像；将第一特征图像输入第二层池化层以计算得到与第一特征图像一一对应的第二特征图像；根据第二特征图像与第三层卷积层的第三参数计算得到至少一幅第三特征图像；将第三特征图像输入第四层池化层以计算得到与第三特征图像一一对应的第四特征图像；根据第四特征图像与第五层卷积层的第五参数计算得到至少一幅第五特征图像；根据第五特征图像确认每幅训练图像的场景识别结果；根据目标类别和场景识别结果计算多层卷积神经网络的损耗值；在损耗值小于预设损耗值时确认多层卷积神经网络模型收敛；对采集的测试图像进行预处理以得到多幅第二分辨率的测试图像，第二分辨率大于所述第一分辨率；输入测试图像至收敛的多层卷积神经网络模型以测试收敛的多层卷积神经网络模型；采用测试后的多层卷积神经网络模型识别场景图像中的场景类别。其中损耗值小于预设损值说明多层卷积神经网络模型的识别准确率较高。

本发明实施方式的多层卷积神经网络模型用于场景识别。其中，多层卷积神经网络模型中的第一参数包括第一特征矩阵和第一偏置项，第三参数包括第三特征矩阵和第三偏置项。第五参数包括第五特征矩阵和第五偏置项。第一特征矩阵、第三特征矩阵和第五特征矩阵的个数均可以为多个。多个的特征矩阵用于提取图像中的特征，以根据特征对图像进行分类。较多的特征有利于图像的分类。

请结合图4，具体地，首先采集包括场景的大量训练图像，训练图像可以来源于微博、微信等新媒体平台，训练图像中包含各种常见的场景，例如，天空，海岸，草地，森林，餐厅等。每幅训练图像中可以包括一个或多个场景，但每幅训练图像中须有一个主场景，主场景在训练图像中的占比相对于其他场景在训练图像中的占比大。假设每幅训练图像为 X，则将每幅训练图像中的主场景标记为目标类别Y。

其次，对每幅训练图像X进行预处理。其中，预处理的操作包括归一化所有训练图像 X的分辨率。可以理解，从各种渠道获取的训练图片X的分辨率极大可能是不相同的，在识别训练图像X的场景前先对分辨率进行归一化可以方便多层卷积神经网络模型的训练，加快多层卷积神经网络模型的训练的收敛性。分辨率的归一化具体是对每幅训练图像X进行下采样。在本发明的具体实施例中，统一将所有训练图像X的分辨率均归一化到64x64，也即是说，第一分辨率为64x64。

随后，将64x64的训练图像X输入到第一层卷积层。第一层卷积层中的第一特征矩阵为W^layer1，其中，W^layer1的个数N₁可为多个，在本发明的具体实施例中，第一特征矩阵W^layer1的个数N₁的值为32。每个第一特征矩阵W^layer1的感知域大小为k₁×k₁，在本发明的具体实施例中，k₁的值为3。定义第一层卷积层输出的第一特征图像为F^layer1，则 F^layer1＝δ(X*W^layer1+b^layer1)，其中，

为第一偏置项，R^N1指代与N₁相关的实数空间；δ(x)＝max(x,0)为激活函数。第一特征矩阵W^layer1的作用是拟合函数，使得该函数可以对图像中的场景进行分类。具体地，第一特征矩阵W^layer1可以提取训练图像X中的特征，多个第一特征矩阵W^layer1可提取训练图像X中的多个特征，如此，多个特征可以用于场景分类，提升场景分类的准确性。第一偏置项b^layer1的作用类似线性函数中的截距，可以提升拟合的函数分类场景的精确性。激活函数δ(x)＝max(x,0)用于增加拟合的函数的非线性，可进一步提升拟合的函数分类场景的精确性。在本发明的具体实施例中，训练图像X与第一特征矩阵W^layer1做卷积运算时，窗口的滑动步长为2。第一层卷积层中第一特征矩阵W^layer1的个数N₁为32个，则第一层卷积层可输出32幅第一特征图像F^layer1，对于第i幅第一特征图像F_i ^layer1：

其中i的取值范围为[1,32]，i为正整数，j 的取值范围为[1,32]，j为正整数，每一幅第一特征图像F^layer1的分辨率为31x31。

随后，将第一层卷积层输出的32幅第一特征图像F^layer1输入到第二层池化层进行池化。在本发明的具体实施例中，采用最大池化的方法对每一幅第一特征图像F^layer1进行池化操作。具体地，第二层池化层的核函数大小为3x3，窗口滑动步长为2，则每一幅第一特征图像F^layer1经第二层池化层池化操作后输出与每一幅第一特征图像F^layer1对应的第二特征图像 F^layer2，每一幅第二特征图像F^layer2的分辨率均为15x15。第二层池化层输出的第二特征图像F^layer2的数量为32幅。

随后，将32幅第二特征图像F^layer2输入到第三层卷积层。第三层卷积层中的第三特征矩阵为W^layer3，其中，W^layer3的个数N₃可为多个，在本发明的具体实施例中，第三特征矩阵W^layer3的个数N₃的值为32。每个第三特征矩阵W^layer3的感知域大小为k₃×k₃，在本发明的具体实施例中，k₃的值为3。定义第三层卷积层输出的第三特征图像为F^layer3，则 F^layer3＝δ(F^layer2*W^layer3+b^layer3)，其中，

为第三偏置项，

指代与N₃相关的实数空间；δ(x)＝max(x,0)为激活函数。第三特征矩阵W^layer3的作用是拟合函数，使得该函数可以对图像中的场景进行分类。第三偏置项b^layer3的作用类似线性函数中的截距，可以提升拟合的函数分类场景的精确性。激活函数δ(x)＝max(x,0)用于增加拟合的函数的非线性，可进一步提升拟合的函数分类场景的精确性。在本发明的具体实施例中，第二特征图像F^layer2与第三特征矩阵W^layer3做卷积运算时，窗口的滑动步长为2。第三层卷积层中第三特征矩阵W^layer3的个数N₃为32个，则第三层卷积层可输出32幅第三特征图像F^layer3，对于第i幅第三特征图像F_i ^layer3：

也即是说，第三层卷积层输出的每一幅第三特征图像F^layer3是多幅第二特征图像F^layer2与同一个第三特征矩阵 W^layer3卷积后相加得到的，其中i的取值范围为[1,32]，i为正整数，j的取值范围为[1,32]， j为正整数，每一幅第三特征图像F^layer3的分辨率为7x7。

随后，将第三层卷积层输出的32幅第三特征图像F^layer3输入到第四层池化层进行池化。在本发明的具体实施例中，采用最大池化的方法对每一幅第三特征图像F^layer3进行池化操作。具体地，第四层池化层的核函数大小为3x3，窗口滑动步长为2，则每一幅第三特征图像F^layer3经第四层池化层后输出与每一幅第三特征图像F^layer3对应的第四特征图像F^layer4，每一幅第四特征图像F^layer4的分辨率均为3x3。第四层池化层输出的第四特征图像F^layer4的数量为32幅。

随后，将32幅第四特征图像F^layer4输入到第五层卷积层。第五层卷积层中的第五特征矩阵为W^layer5，其中，W^layer5的个数N₅可为多个，每个第五特征矩阵W^layer5对应一个场景的类别，在本发明的具体实施例中，第五特征矩阵W^layer5的个数N₅的值为10。每个第五特征矩阵的感知域大小为k₅×k₅，在本发明的具体实施例中，k₅的值为3。定义第五层卷积层输出的第五特征图像为F^layer5，则F^layer5＝δ(F^layer4*W^layer5+b^layer5)，其中，

为第五偏置项，

指代与N₅相关的实数空间；δ(x)＝max(x,0)为激活函数。第五特征矩阵W^layer5的作用是拟合函数，使得该函数可以对图像中的场景进行分类。第五偏置项b^layer5的作用类似线性函数中的截距，可以提升拟合的函数分类场景的精确性。激活函数δ(x)＝max(x,0) 用于增加拟合的函数的非线性，可进一步提升拟合的函数分类场景的精确性。在本发明的具体实施例中，第四特征图像F^layer4与第五特征矩阵W^layer5做卷积运算时，窗口的滑动步长为1。第五层卷积层中第五特征矩阵W^layer5的个数N₅为10个，则第五层卷积层可输出10 幅第五特征图像F^layer5，对于第i幅第五特征图像F_i ^layer5：

也即是说，第五层卷积层输出的每一幅第五特征图像 F^layer5是多幅第四特征图像F^layer4与同一个第五特征矩阵W^layer5卷积后相加得到的，其中i 的取值范围为[1,32]，i为正整数，j的取值范围为[1,32]，j为正整数，每一幅第五特征图像 F^layer5的分辨率为1x1。

随后，从所述得到的10幅第五特征图像F^layer5中选取F^layer5值最大的一幅第五特征图像，则用于计算得到F^layer5值最大的第五特征图像的第五特征矩阵W^layer5对应的类目即为识别出的场景类别

对于每一幅训练图像X均可以通过上述的方式进行场景的识别，得到其唯一的场景类别

因此，在使用上述的多层卷积神经网络模型获取得到每一幅训练图像X的场景类别

后，根据目标类别Y和识别出的类别

计算多层卷积神经网络模型的损耗值Loss：

其中，N为训练图像X的数量，k为第k幅训练图像X，k 为正整数。当损耗值Loss小于预设损耗值时确认多层卷积神经网络模型收敛。预设损耗值表征多层卷积神经网络模型用于场景识别时的识别错误率。当损耗值Loss小于预设损耗值时，说明多层卷积神经网络模型识别场景类别的识别错误率较低，换言之，多层卷积神经网络模型识别场景类别的识别准确率较高。至此，完成多层卷积神经网络模型的构建和训练。

在模型构建初期需预先采集大量图像，这些图像中的任意两幅图像之间均是不同的。这些图像按照4:1的比例被划分为训练图像和测试图像，例如，采集的图像有3000张，其中2400张作为训练图像，用于训练多层卷积神经网络模型，600张图像作为测试图像，用于测试多层卷积神经网络模型。训练图像和测试图像以4:1为比例较为适中，一方面可以满足多层卷积神经网络模型的训练后的识别准确率的需求，同时多层卷积神经网络模型构建的时间复杂度也较低。

因此，在多层卷积神经网络模型训练完毕后，进一步地，采用测试图像对训练好的多层卷积神经网络模型进行测试。具体地，先对测试图像进行分辨率的归一化处理以得到第二分辨率的测试图像，具体可通过下采样的方式对测试图像进行分辨率的归一化处理。随后，将第二分辨率的测试图像输入到收敛的多层卷积神经网络模型以测试收敛的多层卷积神经网络模型。采用测试图像测试收敛后的多层卷积神经网络模型可以避免多层卷积神经网络模型的过度拟合。而在训练阶段采用分辨率较低的第一分辨率训练多层卷积神经网络模型可以减小多层卷积神经网络模型构建过程中的计算量，在测试阶段采用分辨率较高的第二分辨率测试多层卷积神经网络模型，则第五层卷积层输出的第五特征图像的分辨率较高，可以用于后续的场景布局构建。

本发明实施方式的基于多层卷积神经网络模型的图像识别方法、图像识别装置100及计算机设备1000构建三层卷积层加两层池化层的多层卷积神经网络模型，并使用分辨率归一化为第一分辨率的训练图像训练多层卷积神经网络模型，使用分辨率归一化为第二分辨率的测试图像测试多层卷积神经网络模型，无需使用全连接层即可实现对图像场景的识别，减小了场景识别算法的复杂度，场景识别的计算量较小，计算耗时较短。

请参阅图5，在某些实施方式中，基于多层卷积神经网络模型的图像识别方法还包括：

010：在损耗值大于或等于预设损耗值时，修改第一参数、第三参数和第五参数；

返回到步骤02根据第一分辨率的训练图像与第一层卷积层的第一参数计算得到至少一幅第一特征图像。

请参阅图6，在某些实施方式中，图像识别装置100还包括修改模块40。步骤010可以由修改模块40实现。也即是说，修改模块40可用于在损耗值大于或等于预设损耗值时，修改第一参数、第三参数和第五参数，并在参数修改完毕后进入步骤02。

请再参阅图3，在某些实施方式中，计算机可读指令611被处理器62执行时，还使得处理器62执行在损耗值大于或等于预设损耗值时，修改第一参数、第三参数和第五参数，以及在参数修改完毕后进入步骤02的操作。

具体地，在损耗值大于或等于预设损耗值时，修改第一层卷积层中的第一特征矩阵和第一偏置项、第三层卷积层中的第三特征矩阵和第三偏置项、第五层卷积层中的第五特征矩阵和第五偏置项。

可以理解，在损耗值较大时，说明该多层卷积神经网络模型识别图像场景的准确率较低，因此，应该修改每一层的特征矩阵和偏置项，使得每一层的特征矩阵和偏置项形成的拟合函数可以更精确地识别图像场景，进一步提升整个多层卷积神经网络模型识别图像场景的准确率。

请参阅图7，在某些实施方式中，基于多层卷积神经网络模型的图像识别方法在步骤 013后还包括：

014：对与场景类别对应的第五特征图像进行膨胀或腐蚀处理以获取场景的轮廓。

请参阅图8，在某些实施方式中，图像识别装置100还包括处理模块44。步骤014可以由处理模块44实现。也即是说，处理模块44可用于对与场景类别对应的第五特征图像进行膨胀或腐蚀处理以获取场景的轮廓。

请再参阅图3，在某些实施方式中，计算机可读指令611被处理器62执行时，还使得处理器62执行对与场景类别对应的第五特征图像进行膨胀或腐蚀处理以获取场景的轮廓的操作。

具体地，在多层卷积神经网络模型训练完毕后，输入一幅待识别图像，待识别图像可先做下采样以降低分辨率，但分辨率应大于64x64，如此，可使得最终选出的第五特征图像的分辨率不会过小，便于场景轮廓的获取。输入待识别图像后，将在第五层卷积层输出与待识别图像对应的10幅第五特征图像，从第五特征图像中选出F^layer5最大的第五特征图像，该幅第五特征图像对应的特征矩阵所指代的类别即为识别到的场景的类别。随后，根据选出的F^layer5最大的第五幅特征图像的像素点确定待识别图像中与各个像素点对应的区域，并对这些区域进行膨胀和腐蚀处理以得到场景的轮廓。

本发明还提供一个或多个包含计算机可执行指令的非易失性计算机可读存储介质，当计算机可执行指令被一个或多个处理器62执行时，使得处理器62执行上述任意一项实施方式所述的多层卷积神经网络模型的构建方法。

例如，当计算机可执行指令被一个或多个处理器62执行时，使得处理器62执行以下步骤的操作：

05：将第三特征图像输入所述第四层池化层以计算得到与第三特征图像一一对应的第四特征图像；

07：根据第五特征图像确认每幅训练图像的场景识别结果；

再例如，当计算机可执行指令被一个或多个处理器62执行时，使得处理器62执行以下步骤的操作：

请参阅图9，本发明还提供一种图像获取方法。图像获取方法包括：

21：获取场景图像；

22：采用上述任意一项实施方式所述的多层卷积神经网络模型识别场景图像中的场景类别；和

23：根据场景类别调整摄像头的拍摄参数以获取与场景图像对应的新场景图像，拍摄参数包括色温、曝光时间、感光度和曝光补偿中的至少一种。

请参阅图10，本发明还提供一种图像获取设备200。本发明实施方式的图像获取方法可以由本发明实施方式的图像获取设备200实现。图像获取设备200包括获取单元50和图像识别装置100。步骤21和步骤23均可以由获取单元50实现。步骤22可以由图像识别装置100实现。也即是说，获取单元50可用于获取场景图像。图像识别装置100可用于采用上述任意一项实施方式所述的多层卷积神经网络模型识别场景图像中的场景类别。获取单元50还可用于根据场景类别调整摄像头的拍摄参数以获取与场景图像对应的新场景图像，拍摄参数包括色温、曝光时间、感光度和曝光补偿中的至少一种。

请再参阅图3，在计算机可读指令611被处理器62执行时，还使得处理器62执行获取场景图像，采用上述任意一项实施方式所述的多层卷积神经网络模型识别场景图像中的场景类别，以及根据场景类别调整摄像头的拍摄参数以获取与场景图像对应的新场景图像的操作。其中，场景图像由摄像头81(图12所示)拍摄，处理器62与摄像头81连接以读取该场景图像。

拍摄参数包括色温、曝光时间、感光度和曝光补偿中的至少一种指的是：拍摄参数可以仅包括色温、曝光时间、感光度或曝光补偿。拍摄参数也可同时包括色温和曝光时间，或同时包括色温、曝光时间和感光度，或同时包括色温、曝光时间、感光度和曝光补偿等。

具体地，例如，摄像头81拍摄一幅场景图像后，处理器62执行使用多层卷积神经网络模型识别场景图像中的场景类别的操作，若识别出场景为海岸，由于海岸的场景通常有较为强烈的阳光，则可以适当减小曝光时间以防止拍出的图像过曝，并以较短的曝光时间拍摄一张新场景图像等。

如此，采用本发明实施方式的多层卷积神经网络模型识别场景图像，可以得到场景图像的类别，还可提取场景图像的轮廓。进一步地，根据识别出的场景对摄像头81的拍摄参数进行调整，可以改善拍摄后的新场景图像的质量，提升用户的使用体验。

此外，在某些实施方式中，在获取完毕新场景图像后，由于新场景图像中的场景已知，还可以根据已知场景对新场景图像进行进一步处理，例如，新场景图像中的场景为海岸，则为新场景图像配上一段海浪的音频，在用户浏览存储好的新场景图像的过程中，实时播放海浪的音频；再例如，新场景图像中场景为森林，则为新场景图像配上一段含有鸟叫声的音频，在用户浏览存储好的新场景图像的过程中，实时播放该段含有鸟叫声的音频，如此，根据场景对新场景图像增加与场景对应的音频信息，提升用户的拍摄趣味，改善用户的使用体验。

本发明还提供一个或多个包含计算机可执行指令的非易失性计算机可读存储介质，当计算机可执行指令被一个或多个处理器62执行时，使得处理器62执行以下图像获取方法：

21：获取场景图像；

图11为一个实施例中的计算机设备1000的内部模块示意图。如图11所示，该计算机设备1000包括通过***总线66连接的处理器62、存储器61(例如为非易失性存储介质)、内存储器63、显示屏65和输入装置64。其中，计算机设备1000 的存储器61存储有操作***和计算机可读指令611(图3所示)。该计算机可读指令611可被处理器62执行，以实现上述任意一项实施方式所述的基于多层卷积神经网络模型的图像识别方法以及上述任意一项实施方式所述的图像获取方法。该处理器62可用于提供计算和控制能力，支撑整个计算机设备1000的运行。计算机设备1000的内存储器63为存储器61中的计算机可读指令611 运行提供环境。计算机设备1000的显示屏65可以是液晶显示屏或者电子墨水显示屏等，输入装置64可以是显示屏65上覆盖的触摸层，也可以是计算机设备1000外壳上设置的案件、轨迹球或触控板，也可以是外接的键盘、触控板或鼠标等。该计算机设备1000可以是手机、平板电脑、笔记本电脑、个人数字助理或穿戴式设备(例如智能手环、智能手表、智能头盔、智能眼镜)等。本领域技术人员可以理解，图11中示出的结构，仅仅是与本发明方案相关的部分结构的示意图，并不构成对本发明方案所应用于其上的计算机设备1000 的限定，具体的计算机设备1000可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

请参阅图12，本发明实施例的计算机设备1000包括图像处理器电路80。图像处理电路80可以利用硬件和/或软件实现。可包括定义ISP(Image Signal Processing，图像信号处理)管线的各种处理单元。图12为一个实施例中图像处理电路80的示意图。如图12所示，为便于说明，仅示出与本发明实施例相关的图像处理技术的各个方面。

如图12所示，图像处理电路包括ISP处理器(ISP处理器可为处理器62或处理器62的一部分)和控制逻辑器84。摄像头81捕捉的图像数据首先由ISP处理器83处理，ISP 处理器83对图像数据进行分析以捕捉可用于确定摄像头81的一个或多个控制参数的图像统计信息。摄像头81可包括透镜811和图像传感器812。图像传感器812可获取每个成像像素捕捉的光强度和波长信息，并提供可由ISP处理器83处理的一组原始图像数据。传感器82(如陀螺仪)可基于传感器接口类型把采集的图像处理的参数(如防抖参数)提供给 ISP处理器83。传感器接口可以为SMIA(Standard Mobile Imaging Architecture，标准移动成像架构)接口、其它串行或并行照相机接口或上述接口的组合。

此外，图像传感器812也可将原始图像数据发送给传感器82，传感器82可基于传感器接口类型把原始图像数据提供给ISP处理器83，或者传感器将原始图像数据存储到存储器61中。

ISP处理器83按多种格式逐个像素地处理原始图像数据。例如，每个图像像素可具有8、10、12或14比特的位深度，ISP处理器83可对原始图像数据进行一个或多个图像处理操作、收集关于图像数据的统计信息。其中，图像处理操作可按相同或不同的位深度精度进行。

ISP处理器83还可从存储器61接收图像数据。例如，传感器接口将原始图像数据发送给存储器61，存储器61中的原始图像数据再提供给ISP处理器83以供处理。

当接收到来自图像传感器接口或来自传感器82接口或来自存储器61的原始图像数据时，ISP处理器83可进行一个或多个图像处理操作，如时域滤波。处理后的图像数据可发送给存储器61，以便在被显示之前进行另外的处理。ISP处理器83从存储器61接收处理数据，并对所述处理数据进行图像数据处理。ISP处理器83处理后的图像数据可输出给显示屏，以供用户观看和/或由图形引擎或GPU(Graphics Processing Unit，图形处理器)进一步处理。此外，ISP处理器83的输出还可发送给存储器61，且显示屏65可从存储器61 读取图像数据。在一个实施例中，存储器61可被配置为实现一个或多个帧缓冲器。此外， ISP处理器83的输出可发送给编码器/解码器85，以便编码/解码图像数据。编码的图像数据可被保存，并在显示于显示屏65上之前解压缩。编码器/解码器85可由CPU或GPU或协处理器实现。

ISP处理器83确定的统计数据可发送给控制逻辑器单元84。例如，统计数据可包括自动曝光、自动聚焦、闪烁检测、黑电平补偿、透镜阴影校正等图像传感器统计信息。控制逻辑器84可包括执行一个或多个例程(如固件)的处理元件和/或微控制器，一个或多个例程可根据接收的统计数据，确定摄像头81的控制参数及ISP处理器83的控制参数。例如，摄像头81的控制参数可包括传感器82控制参数(例如增益、曝光控制的积分时间、防抖参数等)、照相机闪光控制参数、透镜控制参数(例如聚焦或变焦用焦距)、或这些参数的组合。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一非易失性计算机可读存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)等。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种基于多层卷积神经网络模型的图像识别方法，其特征在于，所述图像识别方法包括：

输入所述测试图像至收敛的所述多层卷积神经网络模型以测试收敛的所述多层卷积神经网络模型；

对待识别的场景图像进行下采样处理以得到分辨率大于所述第一分辨率的场景图像，并采用测试后的所述多层卷积神经网络模型识别下采样后的所述场景图像中的场景类别；和

根据与所述场景类别对应的所述第五特征图像的像素点确定待识别的所述场景图像中与各个所述像素点对应的区域，并对所述区域进行膨胀和腐蚀处理以得到所述场景图像中的场景的轮廓。

2.根据权利要求1所述的图像识别方法，其特征在于，所述训练图像包括多幅，所述测试图像包括多幅，所述训练图像的数目与所述测试图像的数目的比例为4:1；

所述对所述训练图像进行预处理包括对所述训练图像进行归一化处理；

所述对采集的测试图像进行预处理包括对所述测试图像进行归一化处理。

3.根据权利要求1所述的图像识别方法，其特征在于，所述第一参数包括第一特征矩阵和第一偏置项；所述第三参数包括第三特征矩阵和第三偏置项；所述第五参数包括第五特征矩阵和第五偏置项。

4.根据权利要求3所述的图像识别方法，其特征在于，所述第一特征矩阵的个数为32个，每个所述第一特征矩阵的感知域的大小为3×3；和/或

所述第三特征矩阵的个数为32个，每个所述第三特征矩阵的感知域的大小为3×3；和/或

所述第五特征矩阵的个数为10个，每个所述第五特征矩阵的感知域的大小为3×3。

5.根据权利要求3所述的图像识别方法，其特征在于，所述图像识别方法还包括：

在所述损耗值大于或等于所述预设损耗值时，修改所述第一参数、所述第三参数和所述第五参数；和

返回到所述根据第一分辨率的所述训练图像与第一层卷积层的第一参数计算得到至少一幅第一特征图像的步骤。

6.一种图像获取方法，其特征在于，所述图像获取方法包括：

获取场景图像；

采用权利要求1至5任意一项所述的多层卷积神经网络模型识别所述场景图像中的场景类别；

7.一种基于多层卷积神经网络模型的图像识别装置，其特征在于，所述图像识别装置包括：

第一预处理模块，所述第一预处理模块用于对预先采集的每幅训练图像标记目标类别，并对每幅所述训练图像进行预处理以得到多幅第一分辨率的所述训练图像；

设定模块，所述设定模块用于设定所述多层卷积神经网络模型的初始结构，所述初始结构为顺序排列的第一层卷积层、第二层池化层、第三层卷积层、第四层池化层和第五层卷积层；

第一计算模块，所述第一计算模块用于根据第一分辨率的所述训练图像与第一层卷积层的第一参数计算得到至少一幅第一特征图像；

第二计算模块，所述第二计算模块用于将所述第一特征图像输入所述第二层池化层以计算得到与所述第一特征图像一一对应的第二特征图像；

第三计算模块，所述第三计算模块用于根据所述第二特征图像与所述第三层卷积层的第三参数计算得到至少一幅第三特征图像；

第四计算模块，所述第四计算模块用于将所述第三特征图像输入所述第四层池化层以计算得到与所述第三特征图像一一对应的第四特征图像；

第五计算模块，所述第五计算模块用于根据所述第四特征图像与所述第五层卷积层的第五参数计算得到至少一幅第五特征图像；

第一确认模块，所述第一确认模块用于根据所述第五特征图像确认每幅所述训练图像的场景识别结果；

第六计算模块，所述第六计算模块用于根据所述目标类别和所述场景识别结果计算所述多层卷积神经网络的损耗值；

第二确认模块，所述第二确认模块用于在所述损耗值小于预设损耗值时确认所述多层卷积神经网络模型收敛；

第二预处理模块，所述第二预处理模块用于对采集的测试图像进行预处理以得到多幅第二分辨率的所述测试图像，所述第二分辨率大于所述第一分辨率；

测试模块，所述测试模块用于输入所述测试图像至收敛的所述多层卷积神经网络模型以测试收敛的所述多层卷积神经网络模型；

识别模块，所述识别模块用于对待识别的场景图像进行下采样处理以得到分辨率大于所述第一分辨率的场景图像，并采用测试后的所述多层卷积神经网络模型识别下采样后的所述场景图像中的场景类别；和

处理模块，所述处理模块用于根据与所述场景类别对应的所述第五特征图像的像素点确定待识别的所述场景图像中与各个所述像素点对应的区域，并对所述区域进行膨胀和腐蚀处理以得到所述场景图像中的场景的轮廓。

8.根据权利要求7所述的图像识别装置，其特征在于，所述训练图像包括多幅，所述测试图像包括多幅，所述训练图像的数目与所述测试图像的数目的比例为4:1；

9.根据权利要求7所述的图像识别装置，其特征在于，所述第一参数包括第一特征矩阵和第一偏置项；所述第三参数包括第三特征矩阵和第三偏置项；所述第五参数包括第五特征矩阵和第五偏置项。

10.根据权利要求9所述的图像识别装置，其特征在于，所述第一特征矩阵的个数为32个，每个所述第一特征矩阵的感知域的大小为3×3；和/或

11.根据权利要求9所述的图像识别装置，其特征在于，所述图像识别装置还包括修改模块，所述修改模块用于：

12.一种图像获取设备，其特征在于，所述图像获取设备包括：

获取单元，所述获取单元用于获取场景图像；

图像识别装置，所述图像识别装置用于采用权利要求1至5任意一项所述的多层卷积神经网络模型识别所述场景图像中的场景类别；

所述获取单元还用于根据所述场景类别调整摄像头的拍摄参数以获取与所述场景图像对应的新场景图像，所述拍摄参数包括色温、曝光时间、感光度和曝光补偿中的至少一种。

13.一种计算机设备，包括存储器及处理器，所述存储器中存储有计算机可读指令，所述计算机可读指令被所述处理器执行时，使得所述处理器执行权利要求1至5任意一项所述的图像象识别方法，以及权利要求6所述的图像获取方法。

14.一个或多个包含计算机可执行指令的非易失性计算机可读存储介质，当所述计算机可执行指令被一个或多个处理器执行时，使得所述处理器执行权利要求1至5任意一项所述的图像识别方法，以及权利要求6所述的图像获取方法。