CN110956190A

CN110956190A - 图像识别方法及装置、计算机装置和计算机可读存储介质

Info

Publication number: CN110956190A
Application number: CN201811133534.6A
Authority: CN
Inventors: 辛浩然; 王孝宇; 黄轩
Original assignee: Shenzhen Intellifusion Technologies Co Ltd
Current assignee: Shenzhen Intellifusion Technologies Co Ltd
Priority date: 2018-09-27
Filing date: 2018-09-27
Publication date: 2020-04-03

Abstract

一种图像识别方法，所述方法包括：获取待识别图像；对所述待识别图像进行预处理；将预处理后的所述待识别图像分别输入第一深度残差网络和第二深度残差网络，从所述第一深度残差网络得到所述待识别图像的整体特征信息，从所述第二深度残差网络得到所述待识别图像的局部特征信息；根据所述待识别图像的整体特征信息和局部特征信息得到所述待识别图像的图像类别。本发明还提供一种图像识别装置、计算机装置及可读存储介质。本发明可以实现快速、高准确率、低误识别率的图像识别。

Description

图像识别方法及装置、计算机装置和计算机可读存储介质

技术领域

本发明涉及计算机视觉技术领域，具体涉及一种图像识别方法及装置、计算机装置和计算机可读存储介质。

背景技术

随着近年来移动互联网的迅速发展，人们越来越频繁地接触网络信息。而由于网络监管机制并不完善，大量不良视频、图像(例如，***、赌博游戏、暴恐内容等)快速泛滥，严重影响了以青少年为主体的广大网民的身心健康。在此背景下，不良内容的自动化检测工作变得十分重要。

在深度学习普及之前，一般是通过模式识别算法对不良内容进行识别。模式识别鉴别不良内容的方法大多基于肤色检测、关键部位检测，这些方法准确率较低，误识别率较高。从技术层面上来说，无论是RGB、HSV、YCBCR或者其他彩色空间，肤色检测的准确性都值得质疑。例如，即使人眼都无法分辨出淡黄色的背景和亚洲人肤色，机器执行的肤色检测识别准确率也不高。另外，基于关键部位的检测误识别率较高。例如，人眼在haar特征中的表达往往跟色情图像中的关键点相近，难以有效区分。

深度学习神经网络模型近年来在图像识别领域取得了巨大成功，也越来越多地应用在不良内容识别上。想要达到更好的识别效果意味着需要不断增加深度学习神经网络模型的深度。然而，越来越多的网络层数往往意味着对计算设备运算能力的要求越来越高，也意味着算法容易出现过拟合。

发明内容

鉴于以上内容，有必要提出一种图像识别方法及装置、计算机装置和计算机可读存储介质，其可以实现快速、高准确率、低误识别率的图像识别。

本申请的第一方面提供一种图像识别方法，所述方法包括：

获取待识别图像；

对所述待识别图像进行预处理；

将预处理后的所述待识别图像分别输入第一深度残差网络和第二深度残差网络，从所述第一深度残差网络得到所述待识别图像的整体特征信息，从所述第二深度残差网络得到所述待识别图像的局部特征信息；

根据所述待识别图像的整体特征信息和局部特征信息得到所述待识别图像的图像类别。

另一种可能的实现方式中，所述对所述待识别图像进行预处理包括如下任意一项或多项的组合：

对所述待识别图像进行缩放；

对所述待识别图像进行裁剪；

对所述待识别图像进行平移；

对所述待识别图像进行旋转和/或翻转；

对所述待识别图像进行颜色转换。

另一种可能的实现方式中，所述第一深度残差网络的层数为10，所述第二深度残差网络的层数为50。

另一种可能的实现方式中，所述整体特征信息和所述局部特征信息包括如下任意两项或两项以上的组合：纹理特征、轮廓特征、边缘特征、人与人之间的关系特征、人与环境之间的关系特征。

另一种可能的实现方式中，所述第一深度残差网络和所述第二深度残差网络包括多个残差模块，每个残差模块包括一个恒等映射和至少两个卷积层，每个残差模块的恒等映射由该残差模块的输入端指向该残差块的输出端。

另一种可能的实现方式中，所述根据所述待识别图像的整体特征信息和局部特征信息得到所述待识别图像的图像类别包括：

将所述待识别图像的整体特征信息与所述第一深度残差网络的各个预设图像类别的整体特征信息进行对比，得到第一预测结果；

将所述待识别图像的局部特征信息与所述第二深度残差网络的各个预设图像类别的局部特征信息进行对比，得到第二预测结果；

对所述第一预测结果与第二预测结果进行投票，得到所述待识别图像的图像类别。

本申请的第二方面提供一种图像识别装置，所述装置包括：

获取单元，用于获取待识别图像；

预处理单元，用于对所述待识别图像进行预处理；

特征提取单元，用于将预处理后的所述待识别图像分别输入第一深度残差网络和第二深度残差网络，从所述第一深度残差网络得到所述待识别图像的整体特征信息，从所述第二深度残差网络得到所述待识别图像的局部特征信息；

识别单元，用于根据所述待识别图像的整体特征信息和局部特征信息得到所述待识别图像的图像类别。

另一种可能的实现方式中，所述预处理单元具体用于执行如下任意一项或多项：

对所述待识别图像进行缩放；

对所述待识别图像进行裁剪；

对所述待识别图像进行平移；

对所述待识别图像进行旋转和/或翻转；

对所述待识别图像进行颜色转换。

本申请的第三方面提供一种计算机装置，所述计算机装置包括处理器，所述处理器用于执行存储器中存储的计算机程序时实现所述图像识别方法。

本申请的第四方面提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现所述图像识别方法。

本发明获取待识别图像；对所述待识别图像进行预处理；将预处理后的所述待识别图像分别输入第一深度残差网络和第二深度残差网络，从所述第一深度残差网络得到所述待识别图像的整体特征信息，从所述第二深度残差网络得到所述待识别图像的局部特征信息；根据所述待识别图像的整体特征信息和局部特征信息得到所述待识别图像的图像类别。

本发明使用深度残差网络来提取图像特征。当深度网络层数达到一定的数目以后，网络的性能就会饱和，再增加深度网络的性能便会开始退化。深度残差网络可以解决网络深度在变深以后的性能退化问题，加快模型拟合时间，防止过拟合。并且，深度残差网络可以大大减小网络模型架构的计算量，将网络模型的复杂度控制在一定的范围，从而可以在服务器端、PC终端、智能终端等加载，适用于多种场景(如PC端直播、手机端直播等不良内容实时监控)。此外，本发明使用不同深度的第一深度残差网络和第二深度残差网络提取图像特征，第一深度残差网络得到待识别图像的整体特征信息，第二深度残差网络得到待识别图像的局部特征信息，结合待识别图像的整体特征信息和局部特征信息进行识别，更准确的表达图像的特征，提高了图像的识别准确率，降低了误识别率。因此，本发明解决了现有方法误识别率过高、容易出现过拟合、算法复杂度高的问题，实现了快速、高准确率、低误识别率的图像识别。

附图说明

图1是本发明实施例一提供的图像识别方法的流程图。

图2是残差模块的结构示意图。

图3是本发明实施例二提供的图像识别装置的结构图。

图4是本发明实施例三提供的计算机装置的示意图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施例对本发明进行详细描述。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明。

优选地，本发明的图像识别方法应用在一个或者多个计算机装置中。所述计算机装置是一种能够按照事先设定或存储的指令，自动进行数值计算和/或信息处理的设备，其硬件包括但不限于微处理器、专用集成电路(Application Specific IntegratedCircuit，ASIC)、可编程门阵列(Field－Programmable Gate Array，FPGA)、数字处理器(Digital Signal Processor，DSP)、嵌入式设备等。

所述计算机装置可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机装置可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。

实施例一

图1是本发明实施例一提供的图像识别方法的流程图。所述图像识别方法应用于计算机装置。所述图像识别方法可以检测图像的图像类别。在一实施例中，所述图像类别包括色情图像、涉暴图像、涉恐图像和正常图像。

如图1所示，所述图像识别方法具体包括以下步骤：

101：获取待识别图像。

可以获取预先存储的待识别图像。例如，可以预先建立图像数据库，从所述图像数据库库中获取待识别图像。

或者，可以接收用户上传的图像，将该图像作为待识别图像。例如，接收用户在社交平台上传的图像，将该图像作为待识别图像。

或者，可以从视频中截取图像，得到待识别图像。例如，从网络直播视屏中截取图像，得到待识别图像。可以通过间隔截图、关键帧截图等方式从视频中截取图像。

或者，可以控制相机、摄像头等设备进行拍摄，得到待识别图像。例如，所述计算机装置包括摄像头，控制所述摄像头进行拍摄，得到待识别图像。

所述待识别图像可以是不同格式的图像，例如jpg格式的图像、PNG格式的图像、TIF格式的图像、BMP格式的图像等。

所述待识别图像可以是灰度图像，也可以是彩色图像，例如RGB图像、YUV图像或HSV图像。

102：对所述待识别图像进行预处理。

预处理是对图像的大小、方向、颜色等进行转换，获得更多样性的图像，以提高待识别图像的识别正确率。

对待识别图像进行预处理可以包括对待识别图像进行缩放。可以对待识别图像进行任意比例的缩放(可以放大也可以缩小)。例如，对待识别图像进行0.5倍缩放。又如，对待识别图像进行0.75倍缩放。再如，对待识别图像进行1.5倍缩放。

对待识别图像进行预处理还可以包括对待识别图像进行裁剪。可以对待识别图像进行随机裁剪。

对待识别图像进行预处理还可以包括对待识别图像进行平移。可以将待识别图像沿水平方向(即x轴)平移。或者，可以将待识别图像沿垂直方向(即y轴)平移。或者，可以将待识别图像沿水平方向和垂直方向平移。

对待识别图像进行预处理还可以包括对待识别图像进行旋转和/或翻转。可以对待识别图像进行任意角度和方向(顺时针或逆时针)的旋转。例如，将待识别图像逆时针旋转90度。又如，将待识别图像顺时针旋转180度。再如，将待识别图像顺时针旋转270度。可以对待识别图像进行水平翻转或垂直翻转。

对待识别图像进行预处理还可以包括对待识别图像进行颜色转换。例如，将待处理图像由彩色图像转换为灰度图像。又如，将待处理图像由RBG图像转换为YUV图像。

可以理解，可以对待识别图像进行一种或多种预处理。例如，对待识别图像进行0.75倍缩放得到缩放后的图像，再对缩放后的图像进行裁剪。又如，对待识别图像进行颜色转换，从彩色图像转换为灰度图像，再对灰度图像顺时针旋转90度。

103：将预处理后的所述待识别图像分别输入第一深度残差网络和第二深度残差网络，从所述第一深度残差网络得到所述待识别图像的整体特征信息，从所述第二深度残差网络得到所述待识别图像的局部特征信息。

所述第一深度残差网络和第二深度残差网络是层数不同的深度残差网络，所述第一深度残差网络的层数小于所述第二深度残差网络。在一具体实施例中，所述第一深度残差网络的层数为10，所述第二深度残差网络的层数为50。

所述第一深度残差网络和所述第二深度残差网络包括卷积层和池化层。在本实施例中，所述第一深度残差网络和所述第二深度残差网络都包括卷积核大小为3*3、1*1、7*7的卷积层。

所述第一深度残差网络和所述第二深度残差网络包括多个残差模块，每个残差模块包括一个恒等映射和至少两个卷积层，每个残差模块的恒等映射由该残差模块的输入端指向该残差块的输出端。

普通的网络层主要作用是学习输入数据的原始分布特征，而残差模块是学习下一层数据相对于上一层数据的变化量的分布特征。

参阅图2所示，是残差模块的结构示意图，该残差模块包括两个卷积层。其中，X是输入的矢量数据矩阵，经过两个卷积层的数据处理后生成H(X)。但是残差模块则是在数据入口处添加一个分支(即恒等映射)，将数据X直接从分支输出，最后输出F(x)+x。相同的数据X有相同的特征，所以该段网络处理后的输出应该是一致的，故有如下公式始终成立：

H(X)＝F(X)+X。

显然F(X)远比H(X)容易求得，试想极端情况，当该段网络不对数据提取特征(即输出数据相较于输出数据未发生改变)，则H(X)＝X，如果是残差模块，则只要学习F(X)＝0的表达式即可，而普通网络则要学习H(X)＝X表达式，而对于计算机而言F(x)＝0的表达式更容易处理。因此，深度残差网络可以极大地减小架构的计算量，加快模型拟合时间，更准确的表达矢量数据的特征，从而提高模型分类精确率。

在本实施例中，所述第一深度残差网络和所述第二深度残差网络的第一个残差模块之前可以包括最大池化层，用于降低维度，减小卷积层数误差造成估计均值的偏移，提高网络的泛化能力。

所述整体特征信息和所述局部特征信息包括相同的多个(两个或两个以上)特征。在本实施例中，所述整体特征信息和所述局部特征信息可以包括纹理特征、轮廓特征、边缘特征、人与人之间的关系特征、人与环境之间的关系特征中的任意两个或两个以上特征。在一具体实施例中，所述整体特征信息和所述局部特征信息都包括纹理特征、轮廓特征、边缘特征、人与人之间的关系特征、人与环境之间的关系特征。

纹理特征是一种反映图像中同质现象的视觉特征，它体现了物体表面的具有缓慢变化或者周期性变化的表面结构组织排列属性。

边缘特征是指图像中明暗变化剧烈(即梯度变化比较大)像素点。

轮廓特征是指图像中的对象(什么是对象)边界

人与人的关系特征是指人与人的位置、行为等关系。

人与环境的关系特征是指人与图像中除去人之外的所有对象之间的关系。

在对待识别图像进行识别之前，需要对所述第一深度残差网络和所述第二深度残差网络进行训练。所述第一深度残差网络和所述第二深度残差网络的训练样本集包括多个标注有图像类别的正样本和负样本。例如，所述第一深度残差网络和所述第二深度残差网络用于识别色情图像、涉暴图像、涉恐图像，则正样本包括多个色情图像、多个涉暴图像以及多个涉恐图像，所述负样本包括多个正常图像，即非色情、涉暴、涉恐的图像。

对所述第一深度残差网络和所述第二深度残差网络进行训练包括对每个训练样本进行识别(训练样本的识别同待识别图像的识别)，得到每个训练样本的图像类别，根据每个训练样本识别得到的图像类别和标注的图像类别对所述第一深度残差网络和所述第二深度残差网络的网络参数进行调整。具体地，将每个训练样本(正样本或负样本)进行预处理，分别输入第一深度残差网络和第二深度残差网络，从第一深度残差网络得到所述训练样本的整体特征信息，从所述第二深度残差网络得到所述训练样本的局部特征信息，根据所述训练样本的整体特征信息和局部特征信息得到所述训练样本识别得到的图像类别，根据所述训练样本识别得到的图像类别(即识别结果)和所述训练样本标注的图像类别(即真实结果)对所述第一深度残差网络和所述第二深度残差网络的网络参数进行调整。

如果需要识别新的图像类别(例如涉赌图像)，可以相应地增加该新的图像类别的正样本，利用该新的图像类别的正样本对所述第一深度残差网络和所述第二深度残差网络进行训练。

所述第一深度残差网络和所述第二深度残差网络训练时可以使用反向传播方法，采用随机梯度下降算法进行训练。反向传播方法和随机梯度下降算法为现有技术，此处不再赘述。

104：根据所述待识别图像的整体特征信息和局部特征信息得到所述待识别图像的图像类别。

具体地，将所述待识别图像的整体特征信息与所述第一深度残差网络的各个预设图像类别的整体特征信息进行对比，得到第一预测结果；将所述待识别图像的局部特征信息与所述第二深度残差网络的各个预设图像类别的局部特征信息进行对比，得到第二预测结果；对所述第一预测结果与第二预测结果进行投票，得到所述待识别图像的图像类别。

例如，所述整体特征信息包括整体纹理特征、整体轮廓特征、整体边缘特征、整体人与人之间的关系特征、整体人与环境之间的关系特征，所述局部特征信息包括局部纹理特征、局部轮廓特征、局部边缘特征、局部人与人之间的关系特征、局部人与环境之间的关系特征。将待识别图像的整体纹理特征与所述第一深度残差网络的各个预设图像类别的整体纹理特征进行对比，确定待识别图像为第一图像类别；将待识别图像的整体轮廓特征与所述第一深度残差网络的各个预设图像类别的整体轮廓特征进行对比，确定待识别图像为第二图像类别；将待识别图像的整体边缘特征与所述第一深度残差网络的各个预设图像类别的整体边缘特征进行对比，确定待识别图像为第三图像类别；将待识别图像的整体人与人之间的关系特征与所述第一深度残差网络的各个预设图像类别的整体人与人之间的关系特征进行对比，确定待识别图像为第四图像类别；将待识别图像的整体人与环境之间的关系特征与所述第一深度残差网络的各个预设图像类别的整体人与环境之间的关系特征进行对比，确定待识别图像为第五图像类别；将待识别图像的局部纹理特征与所述第二深度残差网络的各个预设图像类别的局部纹理特征进行对比，确定待识别图像为第六图像类别；将待识别图像的局部轮廓特征与所述第二深度残差网络的各个预设图像类别的局部轮廓特征进行对比，确定待识别图像为第七图像类别；将待识别图像的局部边缘特征与所述第二深度残差网络的各个预设图像类别的局部边缘特征进行对比，确定待识别图像为第八图像类别；将待识别图像的局部人与人之间的关系特征与所述第二深度残差网络的各个预设图像类别的局部人与人之间的关系特征进行对比，确定待识别图像为第九图像类别；将待识别图像的局部人与环境之间的关系特征与所述第二深度残差网络的各个预设图像类别的局部人与环境之间的关系特征进行对比，确定待识别图像为第十图像类别。对所述第一图像类别、第二图像类别、第三图像类别、第四图像类别、第五图像类别、第六图像类别、第七图像类别、第八图像类别、第九图像类别、第十图像类别进行投票，得到所述待识别图像的图像类别。所述第一图像类别、第二图像类别、第三图像类别、第四图像类别、第五图像类别、第六图像类别、第七图像类别、第八图像类别、第九图像类别、第十图像类别中任意二者可以相同也可以不同。例如，第一图像类别为色情图像、第二图像类别为色情图像、第三图像类别为涉暴图像、第四图像类别为涉暴图像、第五图像类别为色情图像、第六图像类别为色情图像、第七图像类别为色情图像、第八图像类别为色情图像、第九图像类别为色情图像、第十图像类别为色情图像，则所述待识别图像的图像类别为色情图像。在该例子中，第一预测结果包括第一图像类别、第二图像类别、第三图像类别、第四图像类别，第二预测结果包括第五图像类别、第六图像类别、第七图像类别、第八图像类别、第九图像类别、第十图像类别。所述投票是指多数投票，即数量最多的预测结果为待识别图像的图像类别。

所述第一深度残差网络的各个预设图像类别的整体特征信息和所述第二深度残差网络的各个预设图像类别的局部特征信息可以预先存储在所述计算机装置中。

将所述待识别图像的整体特征信息与所述第一深度残差网络的各个预设图像类别的整体特征信息进行对比，可以是计算所述待识别图像的整体特征信息与所述第一深度残差网络的各个预设图像类别(例如色情图像、涉暴图像、涉恐图像)的整体特征信息的匹配度，将匹配度最高的图像类别确定为所述待识别图像的图像类别。类似地，将所述待识别图像的局部特征信息与所述第二深度残差网络的各个预设图像类别的局部特征信息进行对比，可以是计算所述待识别图像的局部特征信息与所述二深度残差网络的各个预设图像类别(例如色情图像、涉暴图像、涉恐图像)的局部特征信息的匹配度，将匹配度最高的图像类别确定为所述待识别图像的图像类别。若待识别图像的整体特征信息与第一深度残差网络的所有图像类别的整体特征信息的匹配度小于预设阈值，或者待识别图像的局部特征信息与第二深度残差网络的所有图像类别的局部特征信息的匹配度小于预设阈值，则可以确定待识别图像为正常图像(即非预设图像类别)，例如色情图像、涉暴图像、涉恐图像均不属于。

实施例一的图像识别方法获取待识别图像；对所述待识别图像进行预处理；将预处理后的所述待识别图像分别输入第一深度残差网络和第二深度残差网络，从所述第一深度残差网络得到所述待识别图像的整体特征信息，从所述第二深度残差网络得到所述待识别图像的局部特征信息；根据所述待识别图像的整体特征信息和局部特征信息得到所述待识别图像的图像类别。

实施例一的图像识别方法使用深度残差网络来提取图像特征。当深度网络层数达到一定的数目以后，网络的性能就会饱和，再增加深度网络的性能便会开始退化。深度残差网络可以解决网络深度在变深以后的性能退化问题，加快模型拟合时间，防止过拟合。并且，深度残差网络可以大大减小网络模型架构的计算量，将网络模型的复杂度控制在一定的范围，从而可以在服务器端、PC终端、智能终端等加载，适用于多种场景(如PC端直播、手机端直播等不良内容实时监控)。此外，实施例一的图像识别方法使用不同深度的第一深度残差网络和第二深度残差网络提取图像特征，第一深度残差网络得到待识别图像的整体特征信息，第二深度残差网络得到待识别图像的局部特征信息，结合待识别图像的整体特征信息和局部特征信息进行识别，更准确的表达图像的特征，提高了图像的识别准确率，降低了误识别率。因此，实施例一的图像识别方法解决了现有方法误识别率过高、容易出现过拟合、算法复杂度高的问题，实现了快速、高准确率、低误识别率的图像识别。

实施例二

图3为本发明实施例二提供的图像识别装置的结构图。如图3所示，所述图像识别装置10可以包括：获取单元301、预处理单元302、特征提取单元303、识别单元304。

获取单元301，用于获取待识别图像。

预处理单元302，用于对所述待识别图像进行预处理。

特征提取单元303，用于将预处理后的所述待识别图像分别输入第一深度残差网络和第二深度残差网络，从所述第一深度残差网络得到所述待识别图像的整体特征信息，从所述第二深度残差网络得到所述待识别图像的局部特征信息。

H(X)＝F(X)+X。

轮廓特征是指图像中的对象(什么是对象)边界

人与人的关系特征是指人与人的位置、行为等关系。

在对待识别图像进行识别之前，需要对所述第一深度残差网络和所述第二深度残差网络进行训练。所述第一深度残差网络和所述第二深度残差网络的训练样本集包括多个标注有图像类别的正样本和负样本。例如，所述第一深度残差网络和所述第二深度残差网络用于识别色情图像、涉暴图像、涉恐图像，则正样本包括多个色情图像、多个涉暴图像以及多个涉恐图像，所述负样本包括多个非色情、涉暴、涉恐的图像(即负样本既不是色情图像，也不是涉暴图像，亦不是涉恐图像)。

对所述第一深度残差网络和所述第二深度残差网络进行训练包括对每个训练样本进行识别(训练样本的识别同待识别图像的识别)，得到每个训练样本的图像类别，根据每个训练样本识别得到的图像类别和标注的图像类别对所述第一深度残差网络和所述第二深度残差网络的网络参数进行调整。具体地，将每个训练样本(正样本或负样本)进行预处理，分别输入第一深度残差网络和第二深度残差网络，从第一深度残差网络得到所述训练样本的整体特征信息，从所述第二深度残差网络得到所述训练样本的局部特征信息，根据所述训练样本的整体特征信息和局部特征信息得到所述训练样本的图像类别，根据所述训练样本识别得到的图像类别(即识别结果)和所述训练样本标注的图像类别(即真实结果)对所述第一深度残差网络和所述第二深度残差网络的网络参数进行调整。

识别单元304，用于根据所述待识别图像的整体特征信息和局部特征信息得到所述待识别图像的图像类别。

具体地，将所述待识别图像的整体特征信息与所述第一深度残差网络的各个预设图像类别的整体特征信息进行对比，得到第一预测结果，将所述待识别图像的局部特征信息与所述第二深度残差网络的各个预设图像类别的局部特征信息进行对比，得到第二预测结果，对所述第一预测结果与第二预测结果进行投票，得到所述待识别图像的图像类别。

例如，所述整体特征信息包括整体纹理特征、整体轮廓特征、整体边缘特征、整体人与人之间的关系特征、整体人与环境之间的关系特征，所述局部特征信息包括局部纹理特征、局部轮廓特征、局部边缘特征、局部人与人之间的关系特征、局部人与环境之间的关系特征。将待识别图像的整体纹理特征与所述第一深度残差网络的各个预设图像类别的整体纹理特征进行对比，确定待识别图像为第一图像类别；将待识别图像的整体轮廓特征与所述第一深度残差网络的各个预设图像类别的整体轮廓特征进行对比，确定待识别图像为第二图像类别；将待识别图像的整体边缘特征与所述第一深度残差网络的各个预设图像类别的整体边缘特征进行对比，确定待识别图像为第三图像类别；将待识别图像的整体人与人之间的关系特征与所述第一深度残差网络的各个预设图像类别的整体人与人之间的关系特征进行对比，确定待识别图像为第四图像类别；将待识别图像的整体人与环境之间的关系特征与所述第一深度残差网络的各个预设图像类别的整体人与环境之间的关系特征进行对比，确定待识别图像为第五图像类别；将待识别图像的局部纹理特征与所述第二深度残差网络的各个预设图像类别的局部纹理特征进行对比，确定待识别图像为第六图像类别；将待识别图像的局部轮廓特征与所述第二深度残差网络的各个预设图像类别的局部轮廓特征进行对比，确定待识别图像为第七图像类别；将待识别图像的局部边缘特征与所述第二深度残差网络的各个预设图像类别的局部边缘特征进行对比，确定待识别图像为第八图像类别；将待识别图像的局部人与人之间的关系特征与所述第二深度残差网络的各个预设图像类别的局部人与人之间的关系特征进行对比，确定待识别图像为第九图像类别；将待识别图像的局部人与环境之间的关系特征与所述第二深度残差网络的各个预设图像类别的局部人与环境之间的关系特征进行对比，确定待识别图像为第十图像类别。对所述第一图像类别、第二图像类别、第三图像类别、第四图像类别、第五图像类别、第六图像类别、第七图像类别、第八图像类别、第九图像类别、第十图像类别进行投票，得到所述待识别图像的图像类别。所述第一图像类别、第二图像类别、第三图像类别、第四图像类别、第五图像类别、第六图像类别、第七图像类别、第八图像类别、第九图像类别、第十图像类别中任意二者可以相同也可以不同。例如，第一图像类别为色情图像、第二图像类别为色情图像、第三图像类别为涉暴图像、第四图像类别为涉暴图像、第五图像类别为色情图像、第六图像类别为色情图像、第七图像类别为色情图像、第八图像类别为色情图像、第九图像类别为色情图像、第十图像类别为色情图像，则所述待识别图像的图像类别为色情图像。在该例子中，第一预测结果包括第一图像类别、第二图像类别、第三图像类别、第四图像类别，第二预测结果包括第五图像类别、第六图像类别、第七图像类别、第八图像类别、第九图像类别、第十图像类别。所述投票是指多数投票，即数量最多的预测结果为所述待识别图像识别得到的图像类别。

将所述待识别图像的整体特征信息与所述第一深度残差网络的各个预设图像类别(例如色情图像、涉暴图像、涉恐图像)的整体特征信息进行对比，可以是计算所述待识别图像的整体特征信息与所述第一深度残差网络的各个预设图像类别的整体特征信息的匹配度，将匹配度最高的图像类别确定为所述待识别图像的图像类别。类似地，将所述待识别图像的局部特征信息与所述第二深度残差网络的各个预设图像类别的局部特征信息进行对比，可以是计算所述待识别图像的局部特征信息与所述二深度残差网络的各个预设图像类别的局部特征信息的匹配度，将匹配度最高的图像类别确定为所述待识别图像的图像类别。若待识别图像的整体特征信息与第一深度残差网络的所有图像类别的整体特征信息的匹配度小于预设阈值，或者待识别图像的局部特征信息与第二深度残差网络的所有图像类别的局部特征信息的匹配度小于预设阈值，则可以确定待识别图像为其他类型(即非预设图像类别)，例如色情图像、涉暴图像、涉恐图像均不属于。

实施例二获取待识别图像；对所述待识别图像进行预处理；将预处理后的所述待识别图像分别输入第一深度残差网络和第二深度残差网络，从所述第一深度残差网络得到所述待识别图像的整体特征信息，从所述第二深度残差网络得到所述待识别图像的局部特征信息；根据所述待识别图像的整体特征信息和局部特征信息得到所述待识别图像的图像类别。

实施例二使用深度残差网络来提取图像特征。当深度网络层数达到一定的数目以后，网络的性能就会饱和，再增加深度网络的性能便会开始退化。深度残差网络可以解决网络深度在变深以后的性能退化问题，加快模型拟合时间，防止过拟合。并且，深度残差网络可以大大减小网络模型架构的计算量，将网络模型的复杂度控制在一定的范围，从而可以在服务器端、PC终端、智能终端等加载，适用于多种场景(如PC端直播、手机端直播等不良内容实时监控)。此外，实施例二使用不同深度的第一深度残差网络和第二深度残差网络提取图像特征，第一深度残差网络得到待识别图像的整体特征信息，第二深度残差网络得到待识别图像的局部特征信息，结合待识别图像的整体特征信息和局部特征信息进行识别，更准确的表达图像的特征，提高了图像的识别准确率，降低了误识别率。因此，实施例二解决了现有方法误识别率过高、容易出现过拟合、算法复杂度高的问题，实现了快速、高准确率、低误识别率的图像识别。

实施例三

本实施例提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述道路识别方法实施例中的步骤，例如图1所示的步骤101-104：

101：获取待识别图像；

102：对所述待识别图像进行预处理；

103：将预处理后的所述待识别图像分别输入第一深度残差网络和第二深度残差网络，从所述第一深度残差网络得到所述待识别图像的整体特征信息，从所述第二深度残差网络得到所述待识别图像的局部特征信息；

或者，该计算机程序被处理器执行时实现上述装置实施例中各模块/单元的功能，例如图3中的单元301-304：

获取单元301，用于获取待识别图像；

预处理单元302，用于对所述待识别图像进行预处理；

特征提取单元303，用于将预处理后的所述待识别图像分别输入第一深度残差网络和第二深度残差网络，从所述第一深度残差网络得到所述待识别图像的整体特征信息，从所述第二深度残差网络得到所述待识别图像的局部特征信息；

实施例四

图4为本发明实施例四提供的计算机装置的示意图。所述计算机装置1包括存储器20、处理器30以及存储在所述存储器20中并可在所述处理器30上运行的计算机程序40，例如图像识别程序。所述处理器30执行所述计算机程序40时实现上述图像识别方法实施例中的步骤，例如图1所示的步骤101-104：

101：获取待识别图像；

102：对所述待识别图像进行预处理；

或者，所述处理器30执行所述计算机程序40时实现上述装置实施例中各模块/单元的功能，例如图3中的单元301-304：

获取单元301，用于获取待识别图像；

预处理单元302，用于对所述待识别图像进行预处理；

示例性的，所述计算机程序40可以被分割成一个或多个模块/单元，所述一个或者多个模块/单元被存储在所述存储器20中，并由所述处理器30执行，以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序40在所述计算机装置1中的执行过程。例如，所述计算机程序40可以被分割成图3中的获取单元301、预处理单元302、特征提取单元303、识别单元304，各单元具体功能参见实施例二。

所述计算机装置1可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。本领域技术人员可以理解，所述示意图4仅仅是计算机装置1的示例，并不构成对计算机装置1的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述计算机装置1还可以包括输入输出设备、网络接入设备、总线等。

所称处理器30可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器30也可以是任何常规的处理器等，所述处理器30是所述计算机装置1的控制中心，利用各种接口和线路连接整个计算机装置1的各个部分。

所述存储器20可用于存储所述计算机程序40和/或模块/单元，所述处理器30通过运行或执行存储在所述存储器20内的计算机程序和/或模块/单元，以及调用存储在存储器20内的数据，实现所述计算机装置1的各种功能。所述存储器20可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据计算机装置1的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器20可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

所述计算机装置1集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

在本发明所提供的几个实施例中，应该理解到，所揭露的计算机装置和方法，可以通过其它的方式实现。例如，以上所描述的计算机装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

另外，在本发明各个实施例中的各功能单元可以集成在相同处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在相同单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能模块的形式实现。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外，显然“包括”一词不排除其他单元或步骤，单数不排除复数。计算机装置权利要求中陈述的多个单元或计算机装置也可以由同一个单元或计算机装置通过软件或者硬件来实现。第一，第二等词语用来表示名称，而并不表示任何特定的顺序。

最后应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或等同替换，而不脱离本发明技术方案的精神和范围。

Claims

1.一种图像识别方法，其特征在于，所述方法包括：

获取待识别图像；

对所述待识别图像进行预处理；

2.如权利要求1所述的方法，其特征在于，所述对所述待识别图像进行预处理包括如下任意一项或多项的组合：

对所述待识别图像进行缩放；

对所述待识别图像进行裁剪；

对所述待识别图像进行平移；

对所述待识别图像进行旋转和/或翻转；

对所述待识别图像进行颜色转换。

3.如权利要求1所述的方法，其特征在于，所述第一深度残差网络的层数为10，所述第二深度残差网络的层数为50。

4.如权利要求1所述的方法，其特征在于，所述整体特征信息和所述局部特征信息包括如下任意两项或两项以上的组合：纹理特征、轮廓特征、边缘特征、人与人之间的关系特征、人与环境之间的关系特征。

5.如权利要求1所述的方法，其特征在于，所述第一深度残差网络和所述第二深度残差网络包括多个残差模块，每个残差模块包括一个恒等映射和至少两个卷积层，每个残差模块的恒等映射由该残差模块的输入端指向该残差块的输出端。

6.如权利要求1至5中任一项所述的方法，其特征在于，所述根据所述待识别图像的整体特征信息和局部特征信息得到所述待识别图像的图像类别包括：

7.一种图像识别装置，其特征在于，所述装置包括：

获取单元，用于获取待识别图像；

预处理单元，用于对所述待识别图像进行预处理；

8.如权利要求7所述的装置，其特征在于，所述预处理单元具体用于执行如下任意一项或多项：

对所述待识别图像进行缩放；

对所述待识别图像进行裁剪；

对所述待识别图像进行平移；

对所述待识别图像进行旋转和/或翻转；

对所述待识别图像进行颜色转换。

9.一种计算机装置，其特征在于：所述计算机装置包括处理器，所述处理器用于执行存储器中存储的计算机程序时实现如权利要求1-6中任一项所述图像识别方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于：所述计算机程序被处理器执行时实现如权利要求1-6中任一项所述图像识别方法。