CN109359551A

CN109359551A - 一种基于机器学习的敏感图像识别方法与***

Info

Publication number: CN109359551A
Application number: CN201811104850.0A
Authority: CN
Inventors: 陈舒; 李雄; 潘颋璇; 向阳
Original assignee: Shenzhen Xuanji Laboratory Co ltd
Current assignee: Shenzhen Xuanji Laboratory Co ltd
Priority date: 2018-09-21
Filing date: 2018-09-21
Publication date: 2019-02-19

Abstract

本发明公开一种基于机器学习的敏感图像识别方法，步骤如下：S1、***初始化，设置人脸占肤色模型比重阈值；S2、输入图像；S3、人脸识别；S4、肤色检测；S5、基于机器学习的敏感图像识别。本发明对图像进行人脸识别，排除不包含人脸信息的图像；利用肤色检测模型，检测肤色在图像中的面积以及人脸在肤色面积中所占比重，排除肤色面积较少和人脸占肤色比重大于阈值的图像；如果人脸占肤色比重小于阈值，利用训练完成的卷积神经网络提取图像特征并通过支持向量机分类器分类判断图像属性。本发明将人脸识别、肤色检测与深度学习三种技术结合，不仅能高效的分辨出敏感图像，而且满足敏感图像实时处理的要求，减少了识别时间。

Description

一种基于机器学习的敏感图像识别方法与***

技术领域

本发明以互联网中敏感图像(特指色情图像)为研究对象，运用深度学习技术，建立卷积神经网络结构，通过迁移学习，对经过人脸识别和肤色检测两层筛选后的图像提取语义特征，构建语义特征数据库，最后建立支持向量机分类器，判断图像属性，建立了一种基于机器学习的敏感图像识别方法与***。

背景技术

在互联网技术飞速发展的条件下，当今社会步入了以多媒体信息为主的大数据时代。图像相比于其他多媒体能更直接的表现事物的特点，且内容丰富没有语言鸿沟，因此海量的数字图像在互联网上产生，如百度收录数亿张来源不同的图片,并且数量在不断增加中，同类型的搜索引擎Google以及社交网站微博、Twitter、Facebook等同样拥有大量的图片。由于互联网的复杂性，导致网络在带给人们便利的同时，色情信息也大肆传播。在我国，虽然法律明确规定严禁传播淫秽色情等有害信息，但是仍有不少地下网站靠色情信息谋取暴利。由于网络访问内容没有分级限制，即网络上任何内容可被任何人访问，导致色情信息给青少年的身心健康造成极大的伤害，因此抑制互联网色情信息的传播、打击非法网站、屏蔽色情信息成为一项重要的社会问题。

为了青少年的安全上网，一些反黄软件应运而生，目的在于识别敏感图像，并将这些敏感图像屏蔽。目前这些反黄软件主要采用两种技术：一种是基于网络域名和文本信息的图像识别，该方法主要是通过屏蔽IP地址和关键字达到屏蔽相应图像的目的，不能自动的通过识别判断图像是否为敏感图像，而且现在许多***来自境外服务器，导致域名难以发现。第二种方法是基于内容的图像识别过滤技术，通过对图像肤色分割和人体姿态等几何特征来判断图像是否为敏感图像，取得较好的效果。但是这类方法提取特征是低层特征，不仅描述能力有限，而且特征维数高、计算量大，特别是当写真图像与敏感图像非常相似时，利用现有的两种技术很难正确区分敏感图像与非敏感图像。如何提取高层语义且易区分的特征成为敏感图像识别的一个难点。

随着机器学习的快速发展，深度学习应运而生，成为目前最蓬勃发展的分支，也是整个人工智能领域中应用前景最广阔的技术。其中在计算机视觉中应用最广泛的模型为卷积神经网络(Convolutional Neural Network,CNN),CNN模型通过局部感受野和权值共享的策略，实现了较少模型参数下由原始图像像素到抽象语义表征的映射模式。由于深度神经网络模型，可以模拟人的神经感知机制，对图像内容进行从底层到高层的逐渐抽象的表达，更接近人类对图像的语义认知，而且通过学习的方式提取特征不是人为设计提取，因此提取的特征性能更好。

发明内容

本发明的目的在于克服现有技术的弊端，提出一种基于机器学习的敏感图像识别方法与***，将人脸识别、肤色检测与基于深度学习的特征提取融合，不仅能高效的分辨出敏感图像，而且满足敏感图像实时处理的要求，更减少了识别时间。

本发明解决其技术弊端所采用的技术方案是：一种基于机器学习的敏感图像识别方法，包括：

S1、***初始化，设置人脸占肤色模型比重阈值。

S2、输入图像

S3、人脸识别：对用户输入的图像首先利用Haar算法和AdaBoost算法进行人脸识别，若图像中不包括人脸，排除其为敏感图像的可能性，不必进行后续识别，从而减少识别时间，提高识别效率。

S31、Haar-Like小波特征提取：对输入的图像提取Haar-Like小波特征来描述图像的人脸信息，通过公式(1)计算图像的矩阵特征，并采用积分图方法快速求取特征值，该方法只需遍历一次图像便可得到图像所有区域的像素和，避免了每次计算矩阵特征值时都要的像素和运算，从而加快了整体的计算速度。

f_I＝∑_{i∈I＝{1，...，N)}w_i·RecSum(r_i) (1)

式中f_I是第I个矩阵的特征值，w_i是第i个矩阵特征的权值，r_i是第i个矩阵特征，RecSum(r_i)是第i个矩阵特征的像素和。

S32、AdaBoost算法对人脸特征进行组合优化：利用Haar-Like算法提取的小波特征训练弱分类器，通过公式(2)得到分类错误率相对最小的弱分类器，并多次重复该训练步骤，不断加入新的弱分类器，直到达到预定的误差率，然后通过加权投票的方式对每个训练样本赋予一个权重，从而将弱分类器组合成强分类器。为了准确的识别出包含人脸的图像，将多个强分类器串联，通过调节每个强分类器的阈值，让前面分类器的输出作为后面分类器的输入，多层筛选，从而得到准确率较高的人脸识别分类器。

式中ε_j表示分类错误率，x_i是第i个训练样本，y_i是第i个训练样本的标签，其中y_i∈{0，1}，分别表示人脸和非人脸，n为训练样本总数，h_j表示Haar-Like特征f_i训练得到的弱分类器，w_t(i)表示第t次迭代中第i个训练样本的误差权值。

S4、肤色检测：敏感图像中往往存在有大量肤色裸露的部分，因此对于包含人脸的图像在YCbCr彩色空间下进行肤色检测，采用公式(3)计算图像肤色模型，根据非脸部区域肤色面积大于脸部肤色面积两倍的先验概率，设置人脸在图像肤色区域中的比重阈值，如果图像中不含肤色或者含有较少肤色以及人脸占肤色的绝大部分，即人脸肤色所占比重大于阈值，则立即判断该图像为非敏感图像。

式中，‘1’表示图像的该部分像素属于肤色，‘0’则表示该像素不属于肤色。

S5、基于机器学习的敏感图像识别

S51、训练阶段：选取大量标记的不同种类的图像作为训练数据集，然后搭建深度学***均值的方法，使提取的图像特征提取具有平移不变形，卷积层和池化层组合为卷积神经网络加入很强的先验经验，即强调图像局部的连续性与相关性，同时保持特征不变形。由于模型层数的增加，导致参数增多和复杂度增加的弊端，采用初始化VGG16的参数初始化为其在ImageNet上训练好的数值，通过支持向量机分类器比较提取的特征与训练集图像的标签，建立损失函数，然后采用公式(4)和公式(5)反向传播对参数微调，进行迁移学习。通过迁移学习后的卷积神经网络提取图像特征，建立训练集图像特征库。

w^l→w^l-α∑_xδ^x，l(a^x，l-1)^T (4)

b^l→b^l-α∑_xδ^x，l (5)

式中w^l表示权值，b^l表示偏置，δ^x，l表示输入的样本x在第l层神经元中产生的错误(即实际值与预测值之间的误差),a^x，l-1表示输入的样本x在第l-1层的输出，α表示学习率，T表示转置。

S52、测试阶段：经过人脸识别和肤色检测的图像，通过已经训练好的卷积神经网络VGG16提取特征，然后将查询图像与图像特征库中图像进行相似度度量，通过支持向量机分类器判断图像属性。

一种基于机器学习的敏感图像识别***，包括：

输入***，用来初始化***，设定阈值，并输入图像。

第一比较判别***，所述输入***的输出作为第一比较判别***的输入；该第一比较判别***用于对输入图像进行人脸识别，根据是否包含人脸，判断是否继续执行。

第二比较判别***，所述第一比较判别***的输出作为第二比较判别***的输入；该第二比较判别***用来对包含人脸的图像进行肤色检测，根据图像中肤色模型以及人脸在肤色模型中的比重，判断是否继续执行。

深度学习***，所述第二比较判别***的输出作为深度学习***的输入；该深度学习***用来提取图像的特征，并通过分类器判断图像属性，输出图像属性结果；该深度学习***分为训练阶段和测试测试，在输入图像进入深度学习***之前，该深度学习***的训练阶段需完成，卷积神经网络VGG16参数通过训练阶段完成调整；当输入图像到达深度学习***时，直接通过调整好的卷积神经网络完成特征提取的过程，并通过支持向量机完成分类以判断图像属性。

本发明一种基于机器学习的敏感图像识别方法与***，其优点及效果在于：

本发明对现有的敏感图像识别方式改进，结合人脸识别、肤色检测与深度学习，提出一种基于深度学习的敏感图像识别方法与***。本发明对图像进行人脸识别，排除不包含人脸信息的图像；利用肤色检测模型，检测肤色在图像中的面积以及人脸在肤色面积中所占比重，排除肤色面积较少和人脸占肤色比重大于阈值的图像；如果人脸占肤色比重小于阈值，利用训练完成的卷积神经网络提取图像特征并通过支持向量机分类器分类判断图像属性。本发明将人脸识别、肤色检测与深度学习三种技术结合，不仅能高效的分辨出敏感图像，而且满足敏感图像实时处理的要求，减少了识别时间。

附图说明

图1敏感图像识别的主流程图。

图2人脸识别过程流程图。

图3强分类器串联框图。

图4肤色检测过程流程图。

图5a、b基于机器学习的图像识别流程。

图6基于机器学习的敏感图像识别***图。

具体实施方式

参见图1所示，本发明是一种基于机器学习的敏感图像识别方法，包括：

S1、首先***初始化，由已知的先验知识设置各项阈值，包括：正常图像的肤色占人体比例和人脸占肤色比重；先验知识特指这一行业已经经过验证的历史数据。

S2、输入图像，将需要判断的图像输入，可实时处理。

S3、对输入的图像进行人脸识别，该步骤参见图2所示，选择具有极快检测速度的Haar-Like小波人脸检测算法。首先，提取图像的Haar-Like小波特征，用积分图法计算Haar-Like特征的特征值，然后采用AdaBoost算法对得到的人脸特征进行组合和优化，由得到的分类误差率最小的一种弱分类器组成强分类器，然后多级强分类器串联来提高人脸检测的精度。

对输入的图像提取Haar-Like小波特征来描述图像的人脸信息，采用公式(6)计算图像的矩阵特征。

f_I＝∑_{i∈I＝{1，...，N}}w_i·RecSum(r_i) (6)

采用积分图方法快速求取特征值，该方法逐行扫描图像，采用公式(7)递归计算时,图像从起点开始到各个点所形成的矩形区域像素之和作为一个数组的元素保存在内存中，当要计算某个区域的像素和时可以直接索引数组的元素，只需遍历一次图像便可得到图像所有区域的像素和，避免了每次计算矩阵特征值时都要的像素和运算，从而加快了整体的计算速度。

式中(i,j)表示图像中任意一点，s(i，j)表示该点行方向的累加和，初始化s(i，-1)为0，n(i，j)表示积分图像，初始化n(-1，j)为0。

AdaBoost算法对人脸特征进行组合优化：利用Haar-Like算法提取的小波特征训练弱分类器，通过公式(8)得到分类错误率相对最小的弱分类器。

然后采用公式(9)加权投票的方式对每个训练样本赋予一个权重，更新所有样本的权值参数：

式中，表示第t个学习器的参数权重,ε_t表示分类错误率，σ_i＝0时表示分类正确，权值更新，σ_i＝1时表示分类错误，权值不变。

多次重复该训练步骤，不断加入新的弱分类器，经过N次迭代后，直到达到预定的误差率，然后将弱分类器组合成强分类器。

为了准确的识别出包含人脸的图像，将多个强分类器串联，参见图3所示，通过调节每个强分类器的阈值，让前面分类器的输出作为后面分类器的输入，多层筛选，从而得到准确率较高的人脸识别分类器。

S4、肤色检测：参见图4所示，对包含人脸信息的图像执行肤色检测。

敏感图像中往往存在有大量肤色裸露的部分，因此对于包含人脸的图像在YCbCr彩色空间下(Y代表图像亮度分量，Cb代表蓝色亮度分量，Cr代表红色亮度分量)进行肤色检测，由已知的先验知识采用公式(10)计算图像肤色模型。

根据人体脸非脸部区域肤色面积大于脸部肤色面积两倍的先验概率，设置人脸在图像肤色区域中的比重阈值，如果图像中不含肤色或者含有较少肤色以及人脸占肤色的绝大部分，即人脸肤色所占比重大于阈值，则立即判断该图像为非敏感图像。

S5、基于机器学习的敏感图像识别的步骤参见图5a、b所示，包括两个阶段：训练阶段和测试阶段。

S51、训练阶段：选取大量标记的不同种类的图像作为训练数据集，然后搭建深度学习模型，采用卷积神经网络模型VGG16，它有13个卷积层，3个全连接层。

卷积层主要有三个特点：局部感知、权值共享、多核卷积。对于每一个计算单元，只需考虑其像素位置附近的输入，不需要与上一层的所有节点连接，符合人类对图像的理解，并且对一张图片进行卷积时，卷积核逐一滑过图片的每个像素，即处理每个像素点的参数相同。图像每通过一个卷积核，都是对图像提取的特征提取的过程。

池化层利用最大值或平均值的方法，使提取的图像特征提取具有平移不变形，卷积层和池化层组合为卷积神经网络加入很强的先验经验，即强调图像局部的连续性与相关性，同时保持特征不变形。

为了实现线性可分，将一个特征空间的向量通过非线性变换映射到另一个空间中，卷积神经网络中必须加入激活函数，采用公式(11)ReLU函数作为本框架的激活函数。

f(x)＝max(0，x) (11)

其导数为公式(12):

当x取值为负数时，封闭节点；当x大于0时，函数导数始终为1，完全避免了梯度消失的问题，保证参数能持续收敛。

由于模型层数的增加，导致参数增多和复杂度增加的弊端，采用初始化VGG16的参数初始化为其在ImageNet上训练好的数值，通过支持向量机分类器比较提取的特征与训练集图像的标签，建立损失函数，然后采用公式(13)和公式(14)反向传播对参数微调，进行迁移学习。

w^l→w^l-α∑_xδ^x，l(a^x，l-1)^T (13)

b^l→b^l-α∑_xδ^x，l (14)

式中w^l表示权值，b^l表示偏置，δ^x，l表示输入的样本x在第l层神经元中产生的错误(即实际值与预测值之间的误差),a^x，l-1表示输入的样本x在第l-1层的输出，α表示学习率，T为转置。

通过迁移学习后的卷积神经网络提取图像特征，建立训练集图像特征库，保存迁移学习后卷积神经网络模型的参数。

S52、测试阶段：对经过人脸识别和肤色检测的图像，通过已经训练好的卷积神经网络提取特征，然后将查询图像与图像特征库中图像进行相似度度量，通过支持向量机分类器判断图像属性。

一种基于深度学习的敏感图像识别***，参见图6所示，包括：

输入***，用来初始化***，设定阈值，并输入图像。

上述实施仅用来进一步说明本发明的一种基于深度学习的敏感图像识别方法与***，但本发明不局限与实施例，凡是依据本发明的技术实质对以上实施例所作的任何简单修改，等同变化与修饰，均落入本发明技术方案的保护范围。

Claims

1.一种基于机器学习的敏感图像识别方法，其特征在于：该方法步骤如下：

S1、***初始化，设置人脸占肤色模型比重阈值；

S2、输入图像；

S3、人脸识别：对用户输入的图像首先利用Haar算法和AdaBoost算法进行人脸识别，若图像中不包括人脸，排除其为敏感图像的可能性，不必进行后续识别，从而减少识别时间，提高识别效率；

S4、肤色检测：对于包含人脸的图像在YCbCr彩色空间下进行肤色检测，采用公式(3)计算图像肤色模型，根据非脸部区域肤色面积大于脸部肤色面积两倍的先验概率，设置人脸在图像肤色区域中的比重阈值，如果图像中不含肤色或者含有较少肤色以及人脸占肤色的绝大部分，即人脸肤色所占比重大于阈值，则立即判断该图像为非敏感图像；

式中，‘1’表示图像的该部分像素属于肤色，‘0’则表示该像素不属于肤色；

S5、基于机器学习的敏感图像识别。

2.根据权利要求1所述的一种基于机器学习的敏感图像识别方法，其特征在于：所述步骤S3人脸识别，具体如下：

S31、Haar-Like小波特征提取：对输入的图像提取Haar-Like小波特征来描述图像的人脸信息，通过公式(1)计算图像的矩阵特征，并采用积分图方法快速求取特征值：

f_I＝∑_{i∈I＝{1，...，N}}w_i·RecSum(r_i) (1)

式中f_I是第I个矩阵的特征值，w_i是第i个矩阵特征的权值，r_i是第i个矩阵特征，RecSum(r_i)是第i个矩阵特征的像素和；

S32、AdaBoost算法对人脸特征进行组合优化：利用Haar-Like算法提取的小波特征训练弱分类器，通过公式(2)得到分类错误率相对最小的弱分类器，并多次重复该训练步骤，不断加入新的弱分类器，直到达到预定的误差率，然后通过加权投票的方式对每个训练样本赋予一个权重，从而将弱分类器组合成强分类器：

3.根据权利要求1所述的一种基于机器学习的敏感图像识别方法，其特征在于：所述步骤S5基于机器学习的敏感图像识别，具体如下：

S51、训练阶段：选取大量标记的不同种类的图像作为训练数据集，然后搭建深度学***均值的方法，使提取的图像特征提取具有平移不变形，卷积层和池化层组合为卷积神经网络加入很强的先验经验，即强调图像局部的连续性与相关性，同时保持特征不变形；由于模型层数的增加，导致参数增多和复杂度增加的弊端，采用初始化VGG16的参数初始化为其在ImageNet上训练好的数值，通过支持向量机分类器比较提取的特征与训练集图像的标签，建立损失函数，然后采用公式(4)和公式(5)反向传播对参数微调，进行迁移学习；通过迁移学习后的卷积神经网络提取图像特征，建立训练集图像特征库：

w^l→w^l-α∑_xδ^x，l(a^x，l-1)^T (4)

b^l→b^l-α∑_xδ^x，l (5)

式中w^l表示权值，b^l表示偏置，δ^x，l表示输入的样本x在第l层神经元中产生的错误(即实际值与预测值之间的误差),a^x，l-1表示输入的样本x在第l-1层的输出，α表示学习率，T表示转置；

4.一种基于机器学习的敏感图像识别***，其特征在于：该敏感图像识别***包括：

输入***，用来初始化***，设定阈值，并输入图像；

第一比较判别***，上述输入***的输出作为第一比较判别***的输入；该第一比较判别***用于对输入图像进行人脸识别，根据是否包含人脸，判断是否继续执行；

第二比较判别***，所述第一比较判别***的输出作为第二比较判别***的输入；该第二比较判别***用来对包含人脸的图像进行肤色检测，根据图像中肤色模型以及人脸在肤色模型中的比重，判断是否继续执行；