CN108564138A - 色情应用检测方法、装置、计算机可读存储介质和服务器 - Google Patents

色情应用检测方法、装置、计算机可读存储介质和服务器 Download PDF

Info

Publication number
CN108564138A
CN108564138A CN201810430728.6A CN201810430728A CN108564138A CN 108564138 A CN108564138 A CN 108564138A CN 201810430728 A CN201810430728 A CN 201810430728A CN 108564138 A CN108564138 A CN 108564138A
Authority
CN
China
Prior art keywords
application
pornographic
sample
detected
pictorial information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810430728.6A
Other languages
English (en)
Inventor
潘岸腾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba China Co Ltd
Original Assignee
Guangzhou Youshi Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Youshi Network Technology Co Ltd filed Critical Guangzhou Youshi Network Technology Co Ltd
Priority to CN201810430728.6A priority Critical patent/CN108564138A/zh
Publication of CN108564138A publication Critical patent/CN108564138A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种色情应用检测方法、装置、计算机可读存储介质和服务器,以解决现有技术中色情应用检测方案效率低的技术问题。所述的方法包括步骤:获取待检测应用的图片信息;基于所述图片信息生成所述待检测应用的特征向量;将所述待检测应用的特征向量输入预先生成的色情应用检测模型中,得到所述待检测应用的预测值,其中,所述色情应用检测模型由各个样本应用训练卷积神经网络生成,用于表征特征向量与预测值之间的关联关系;若所述待检测应用的预测值大于预设阀值,确定所述待检测应用为色情应用。本发明实施例提高了色情应用检测的效率。

Description

色情应用检测方法、装置、计算机可读存储介质和服务器
技术领域
本发明涉及计算机技术领域,具体而言,本发明涉及一种色情应用检测方法、装置、计算机可读存储介质和服务器。
背景技术
在应用商店的运营过程中,几乎每天都有大量的应用上架,而这些应用中不可避免的存在一些色情应用,这些色情应用严重影响用户的身心健康,有的还会造成用户经济的损失。为了避免这些色情应用对用户,尤其是对青少年造成不良影响,避免造成用户经济的损失,从海量的应用中准确识别色情应用具有重要意义。现有技术中一般是通过人工筛选的方法对色情应用进行检测,效率很低。
发明内容
本发明针对现有方式的缺点,提出一种色情应用检测方法、装置、计算机可读存储介质和服务器,用以解决现有技术中由于通过人工对色情应用筛选而导致的效率低的问题,以实现对色情应用的自动准确检测,提高效率。
本发明的实施例根据第一个方面,提供了一种色情应用检测方法,包括步骤:
获取待检测应用的图片信息;
基于所述图片信息生成所述待检测应用的特征向量;
将所述待检测应用的特征向量输入预先生成的色情应用检测模型中,得到所述待检测应用的预测值,其中,所述色情应用检测模型由各个样本应用训练卷积神经网络生成,用于表征特征向量与预测值之间的关联关系;
若所述待检测应用的预测值大于预设阀值,确定所述待检测应用为色情应用。
在一个实施例中,所述将所述待检测应用的特征向量输入预先生成的色情应用检测模型中,得到所述待检测应用的预测值之前,还包括:
获取各个样本应用的图片信息,以及用于指示各个样本应用是否为色情应用的标识;
对各个样本应用的图片信息进行灰度化处理,得到各个样本应用的图片信息矩阵;
基于各个样本应用的图片信息矩阵生成各个样本应用的特征向量;
将各个样本应用的特征向量和各自的标识输入卷积神经网络中进行训练,生成色情应用检测模型。
在一个实施例中,所述获取各个样本应用的图片信息,包括:
从各个样本应用的应用简介中选取若干个图片,作为各个样本应用的图片信息。
在一个实施例中,所述基于各个样本应用的图片信息矩阵生成各个样本应用的特征向量,包括:
对各个样本应用的图片信息矩阵包含的各个元素分别进行依次排列,生成各个样本应用的特征向量。
在一个实施例中,所述将各个样本应用的特征向量和各自的标识输入卷积神经网络中进行训练,生成色情应用检测模型,包括:
通过梯度下降法求解预先构建的损失函数最小时卷积神经网络的模型参数,基于求解的所述卷积神经网络的模型参数得到色情应用检测模型;
其中,所述损失函数为与各个样本应用的预测值和标识有关的函数,各个样本应用的预测值为与所述卷积神经网络的模型参数和各个样本应用的特征向量有关的变量。
在一个实施例中,所述预设阀值通过以下步骤生成:
获取各个样本色情应用的图片信息;
对各个样本色情应用的图片信息进行灰度化处理,得到各个样本色情应用的图片信息矩阵;
基于各个样本色情应用的图片信息矩阵生成各个样本色情应用的特征向量;
将各个样本色情应用的特征向量输入所述色情应用检测模型中,得到各个样本色情应用的预测值;
对各个样本色情应用的预测值求均值,得到色情应用的基线值;
将所述色情应用的基线值与预设值相乘,得到预设阀值。
在一个实施例中,所述得到所述待检测应用的预测值之后,还包括:
若所述待检测应用的预测值小于等于预设阀值,确定所述待检测应用为正常应用。
在一个实施例中,所述图片信息包括像素值;所述基于所述图片信息生成所述待检测应用的特征向量,包括:基于所述图片信息中的像素值生成所述待检测应用的特征向量。
本发明的实施例根据第二个方面,还提供了一种色情应用识别装置,包括:
图片信息获取模块,用于获取待检测应用的图片信息;
特征向量生成模块,用于基于所述图片信息生成所述待检测应用的特征向量;
预测值获得模块,用于将所述待检测应用的特征向量输入预先生成的色情应用检测模型中,得到所述待检测应用的预测值,其中,所述色情应用检测模型由各个样本应用训练卷积神经网络生成,用于表征特征向量与预测值之间的关联关系;
检测模块,用于在所述待检测应用的预测值大于预设阀值时,确定所述待检测应用为色情应用。
本发明的实施例根据第三个方面,还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述任意一项所述的色情应用检测方法。
本发明的实施例根据第四个方面,还提供了一种服务器,所述服务器包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现上述任意一项所述的色情应用检测方法。
上述的色情应用检测方法、装置、计算机可读存储介质和服务器,根据待检测应用的图片信息生成待检测应用的特征向量,将该待检测应用的特征向量输入色情应用检测模型中得到该待检测应用的预测值,在该预测值大于预设阀值时确定该待检测应用为色情应用,实现了对应用是否为色情应用的自动准确判断,为清洁应用商店环境,打压不法应用开发商提供基础的数据支撑。
本发明附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本发明一个实施例的色情应用检测模型生成方法的流程示意图;
图2为本发明一实施例的应用A的简介示意图;
图3为本发明一实施例的CNN模型的结构示意图;
图4为本发明一个实施例的色情应用检测方法的流程示意图;
图5为本发明一个实施例的色情应用检测装置的结构示意图;
图6为本发明一个实施例的服务器的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。
本技术领域技术人员可以理解,这里所使用的服务器其包括但不限于计算机、网络主机、单个网络服务器、多个网络服务器集或多个服务器构成的云。在此,云由基于云计算(Cloud Computing)的大量计算机或网络服务器构成,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机。
有必要先对本发明的原理进行如下的先导性说明。
本发明实施例通过色情应用检测模型实现对应用是否为色情应用的自动检测,因此本发明实施例提供的技术方案分两部分构成:第一部分利用各个样本应用进行CNN(Convolutional Neural Network,卷积神经网络)模型训练,生成色情应用检测模型;第二部分利用训练好的色情应用检测模型判断待检测应用是否为色情应用。
下面按照色情应用检测模型生成、色情应用检测模型对待检测应用检测的顺序对本发明实施例进行详细介绍。
第一部分:色情应用检测模型生成
如图1所示,在一个实施例中,色情应用检测模型通过以下步骤生成:
S110、获取各个样本应用的图片信息,以及用于指示各个样本应用是否为色情应用的标识。
各个样本应用可以是从某一个应用商店中随机抽取出的一批应用,也可以是从该应用商店中按照预设规则抽取出的一批应用,也可以是从多个应用商店中随机抽取的一批应用,也可以是从多个应用商店中按照预设规则抽取出来的一批应用,等等,本发明并不对此作出限定。
可选的,图片信息包括像素值。样本应用的图片信息获取的方式有很多。例如,在一个实施例中,所述获取各个样本应用的图片信息,包括:从各个样本应用的应用简介中选取若干个图片,作为各个样本应用的图片信息。应用商店一般会对样本应用的基本信息进行介绍,该介绍界面中一般包括多个图片简介,可以从该样本应用的多个图片简介中抽取一个或多个图片作为该样本应用的图片信息。为了降低计算量,可选的,将第一张图片简介作为该样本应用的图片信息。
在另一个实施例中,还可以获取样本应用运行过程中的截图,将该截图作为该样本应用的图片信息。用户还可以采取其他方式获取样本应用的图片信息,本发明并不对此作出限定。
如图2所示,为一实施例的应用A的简介示意图,该简介示意图中包括图片简介1、图片简介2以及其它未示意的图片,那么就可以从多个图片简介中抽取一个或多个图片作为该应用A的图片信息,或者将应用A的简介中的第一张图片提取出来,作为应用A的图片信息。
标识用于指示样本应用是否为色情应用,具体形式可以根据用户实际需要进行设置。例如,一个样本应用的标识为1,表明该样本应用为色情应用,一个样本应用的标识为0,表明该样本应用为正常应用。又例如,一个样本应用的标识为1,表明该样本应用为正常应用,一个样本应用的标识为0,表明该样本应用为色情应用等等。
各个样本应用的标识可以由人工进行判断,例如,获取到样本应用的图片信息后,根据该图片信息由人工判断该样本应用是否为色情应用。各个样本应用的标识也可以根据先前已有的是否为色情应用的识别结果进行确定,例如,先前已经将某一应用标记为色情应用,则可以根据该标记直接将该应用的标识设置为指示色情应用的标识。另外,为了方便后续处理,可以将色情应用作为正样本,将正常应用作为负样本。需要说明的是,本发明并不对正样本和负样本包含的类型进行限定,也可以将色情应用作为负样本,将正常应用作为正样本。
S120、对各个样本应用的图片信息进行灰度化处理,得到各个样本应用的图片信息矩阵。
由于图片信息一般是彩色图片信息,即图片信息是由3个矩阵构成,因此需要对图片信息进行灰度化处理。可选的,通过平均值法,把图片信息转化为1个矩阵,灰度公式如下所示:
其中,f(i,j)表示灰度化后,第i行,第j列像素的值;R(红)、G(绿)、B(蓝)分别是彩色图像的三维信息。
例如,某一彩色图片信息灰度化后的结果如下:
应当理解的是,上述灰度化方法仅用于示例,本发明并不对灰度化方法进行限定。
S130、基于各个样本应用的图片信息矩阵生成各个样本应用的特征向量。
特征向量用于标识样本应用。在一个实施例中,所述基于各个样本应用的图片信息矩阵生成各个样本应用的特征向量,包括:对各个样本应用的图片信息矩阵包含的各个元素分别进行依次排列,生成各个样本应用的特征向量。
针对每一个样本应用的图片信息矩阵,对该图片信息矩阵中的所有元素从前到后依次排列,得到一个特征向量X,将该特征向量X作为该样本应用的特征向量,也即是卷积神经网络的输入特征。
在一个实施例中,所述对各个样本应用的图片信息矩阵包含的各个元素分别进行依次排列,生成各个样本应用的特征向量,包括:按照矩阵行数从小到大的排列顺序,对各个样本应用的图片信息矩阵包含的各个元素分别进行依次排列,生成各个样本应用的特征向量。矩阵行数从小到达的排列顺序即从第一行开始,然后沿着第二行、第三行……的顺序直至到最后一行。
例如,应用简介中图片信息存放的3个大小为1920*1080的矩阵,灰度化后图片信息矩阵大小是行为1920,列为1080,模型输入就为灰度化后的矩阵,大小为1920*1080。
应当理解,本发明并不对排列顺序进行限定,还可以按照采用其它的排列顺序对图片信息矩阵中的各个元素进行依次排列,生成各个样本应用的特征向量。
S140、将各个样本应用的特征向量和各自的标识输入卷积神经网络中进行训练,生成色情应用检测模型。
首先结合一个具体实施对卷积神经网络的结构进行介绍,应当理解,本发明并不限制于该卷积神经网络,还可以是其他类别的卷积神经网络。
如图3所示,该卷积神经网络包括1个输入层、1个卷积层、1个采样层以及1个输出层。下面对各层结构以及卷积神经网络模型的模型参数进行介绍:
X表示输入层矩阵,是一个1920*1080的矩阵;
K表示卷积核,是一个41*41的矩阵,是模型参数,需要根据训练样本求解;
C表示通过卷积核K进行卷积得到的矩阵,大小为1880*1040;
S表示采样层,是47*26矩阵,采样的方法是平均值法,横向纵向采样频率都为40;
W表示采样层到输出层全连接的权重矩阵,是1222维的向量;
B表示输出层的偏置参数,是1维向量;
Y表示输出层,是一个由采样层全连接输出的神经元,参数有47*26+1=1223个。
CNN模型各层级关系如下:
输入层X与卷积层C的关系
卷积层C与采样层S的关系
采样层S与输出层Y的关系
上述关系式中,xi,j是训练样本的输入数据,需要求解的模型参数有:
K={km,n},W={wi,j},B={b}
下面介绍基于卷积神经网络具体生成色情应用检测模型的过程。
在一个实施例中,所述将各个样本应用的特征向量和各自的标识输入卷积神经网络中进行训练,生成色情应用检测模型,包括:
通过梯度下降法求解预先构建的损失函数最小时卷积神经网络的模型参数,基于求解的所述卷积神经网络的模型参数得到色情应用检测模型;
其中,所述损失函数为与各个样本应用的预测值和标识有关的函数,各个样本应用的预测值为与所述卷积神经网络的模型参数和各个样本应用的特征向量有关的变量。
假设n表示收集的样本应用的数量;(Xi,yi)表示提取的第i个样本应用的CNN模型参数输入Xi,以及用于指示是否是色情应用的标识yi;Yi表示预测应用是否为色情应用的值,通过上面公式可知是关于W,K,B的变量,那么损失函数为:
把所有Yi按照上面的计算表达式展开,通过梯度下降法求解损失函数los最小时对应解W,K,B,该解即为卷积神经网络的模型参数。
根据梯度下降法求解损失函数los的具体过程为:
第1步:把模型所有参数统一记到一个集合,假设记为θ={θi},随机给定一组在0-1之间,设为θ(0),初始化迭代步数k=0;
第2步:迭代计算
其中ρ用于控制收敛速度,可选的,取0.01
第3步:判断是否收敛
如果那么就返回θ(k+1),否则回到第2步继续计算,其中α是一个很小的值,可以取α=0.01·ρ。
至此就生成色情应用检测模型,以应用于后续的应用是否为色情应用的检测。
第二部分:利用色情应用检测模型对待检测应用进行识别
如图4所示,在一个实施例中,一种色情应用检测方法,包括步骤:
S210、获取待检测应用的图片信息。
待检测应用指的是待分析是否为色情应用的应用,可以是用户输入的自行设计的应用,也可以是用户从已有的应用中选择的某一个应用。可选的,图片信息包括像素值。待检测应用的图片信息获取的方式有很多。例如,可以从待检测应用的多个图片简介中抽取一个或多个图片作为该待检测应用的图片信息。为了降低计算量,可选的,将第一张图片简介作为该待检测应用的图片信息。又例如,可以获取待检测应用运行过程中的截图,将该截图作为该待检测应用的图片信息。用户还可以采取其他方式获取待检测应用的图片信息,本发明并不对此作出限定。
S220、基于所述图片信息生成所述待检测应用的特征向量。
特征向量用于标识待检测应用。若图片信息包括像素值,在一个实施例中,所述基于所述图片信息生成所述待检测应用的特征向量,包括:基于所述图片信息中的像素值生成所述待检测应用的特征向量。
在一个实施例中,所述基于所述图片信息生成所述待检测应用的特征向量,包括:
S2201、对所述图片信息进行灰度化处理,得到待检测应用的图片信息矩阵。
灰度化处理可以采用上述相同的方式实现,在此不予赘述。同样,本发明并不对灰度化进行限定。
S2202、对待检测应用的图片信息矩阵包含的各个元素分别进行依次排列,生成待检测应用的特征向量。
对待检测应用的图片信息矩阵中的各个元素从前到后依次排列,得到一个特征向量X,将该特征向量X作为该待检测应用的特征向量。
在一个实施例中,所述对待检测应用的图片信息矩阵包含的各个元素分别进行依次排列,生成待检测应用的特征向量,包括:
按照矩阵行数从小到大的排列顺序,对待检测应用的图片信息矩阵包含的各个元素分别进行依次排列,生成待检测应用的特征向量。
矩阵行数从小到达的排列顺序即从第一行开始,然后沿着第二行、第三行……的顺序直至到最后一行。应当理解,本发明并不对排列顺序进行限定,还可以按照采用其它的排列顺序对图片信息矩阵中的各个元素进行依次排列,生成待检测应用的特征向量。
S230、将所述待检测应用的特征向量输入预先生成的色情应用检测模型中,得到所述待检测应用的预测值,其中,所述色情应用检测模型由各个样本应用训练卷积神经网络生成,用于表征特征向量与预测值之间的关联关系。
将待检测应用的特征向量输入事先训练好的色情应用检测模型中,该色情应用检测模型就可以输出该待检测应用的预测值。例如,给定一个应用A,按照上述介绍方法提取应用A的特征向量,然后将应用A的特征向量输入色情应用检测模型,得到预测值Y。
S240、若所述待检测应用的预测值大于预设阀值,确定所述待检测应用为色情应用。
预测阈值用于确定应用是否为色情应用,因此其准确性会影响识别结果的准确性。为了实现应用的准确识别,在一个实施例中,所述预设阀值通过以下步骤生成:
S2001、获取各个样本色情应用的图片信息;
S2002、对各个样本色情应用的图片信息进行灰度化处理,得到各个样本色情应用的图片信息矩阵;
S2003、基于各个样本色情应用的图片信息矩阵生成各个样本色情应用的特征向量;
S2004、将各个样本色情应用的特征向量输入所述色情应用检测模型中,得到各个样本色情应用的预测值;
S2005、对各个样本色情应用的预测值求均值,得到色情应用的基线值;
S2006、将所述色情应用的基线值与预设值相乘,得到预设阀值。
样本色情应用为标识为色情应用的样本应用。如果在训练CNN模型时划分了正样本和负样本,其中,正样本为色情应用,负样本为正常应用,则可以提取所有正样本的特征向量,把所有正样本的特征向量输入到训练好的CNN模型中,即色情应用检测模型中,得到所有正样本的预测值,然后计算均值,作为色情应用的基线值,然后将该基线值与预设值相乘,得到预设阀值。其中,预设值可以根据实际需要进行设置,可选的,预设值设置为0.5,基线值base可以根据下述公式确定:
若所述待检测应用的预测值大于预设阀值,确定所述待检测应用为色情应用。在一个实施例中,所述得到所述待检测应用的预测值之后,还包括:若所述待检测应用的预测值小于等于预设阀值,确定所述待检测应用为正常应用。
以预设值为0.5为例,如果待检测应用的预测值Y大于0.5*base,那么就判断为色情应用,否则判断为非色情应用,即正常应用。
基于同一发明构思,本发明还提供一种色情应用识别装置,下面结合附图对本发明装置的具体实施方式进行详细介绍。
如图5所示,在一个实施例中,一种色情应用识别装置,包括:
图片信息获取模块210,用于获取待检测应用的图片信息;
特征向量生成模块220,用于基于所述图片信息生成所述待检测应用的特征向量;
预测值获得模块230,用于将所述待检测应用的特征向量输入预先生成的色情应用检测模型中,得到所述待检测应用的预测值,其中,所述色情应用检测模型由各个样本应用训练卷积神经网络生成,用于表征特征向量与预测值之间的关联关系;
检测模块240,用于在所述待检测应用的预测值大于预设阀值时,确定所述待检测应用为色情应用。
在一个实施例中,还包括与所述预测值获得模块230相连的色情应用检测模型生成模块,色情应用检测模型生成模块用于执行以下操作:
获取各个样本应用的图片信息,以及用于指示各个样本应用是否为色情应用的标识;
对各个样本应用的图片信息进行灰度化处理,得到各个样本应用的图片信息矩阵;
基于各个样本应用的图片信息矩阵生成各个样本应用的特征向量;
将各个样本应用的特征向量和各自的标识输入卷积神经网络中进行训练,生成色情应用检测模型。
在一个实施例中,色情应用检测模型生成模块通过执行以下操作获取各个样本应用的图片信息:
从各个样本应用的应用简介中选取若干个图片,作为各个样本应用的图片信息。
在一个实施例中,色情应用检测模型生成模块通过执行以下操作生成各个样本应用的特征向量:
对各个样本应用的图片信息矩阵包含的各个元素分别进行依次排列,生成各个样本应用的特征向量。
在一个实施例中,色情应用检测模型生成模块通过执行以下操作生成色情应用检测模型:
通过梯度下降法求解预先构建的损失函数最小时卷积神经网络的模型参数,基于求解的所述卷积神经网络的模型参数得到色情应用检测模型;
其中,所述损失函数为与各个样本应用的预测值和标识有关的函数,各个样本应用的预测值为与所述卷积神经网络的模型参数和各个样本应用的特征向量有关的变量。
在一个实施例中,还包括与检测模块240相连的预设阀值生成模块,所述预设阀值生成模块用于执行以下操作:
获取各个样本色情应用的图片信息;
对各个样本色情应用的图片信息进行灰度化处理,得到各个样本色情应用的图片信息矩阵;
基于各个样本色情应用的图片信息矩阵生成各个样本色情应用的特征向量;
将各个样本色情应用的特征向量输入所述色情应用检测模型中,得到各个样本色情应用的预测值;
对各个样本色情应用的预测值求均值,得到色情应用的基线值;
将所述色情应用的基线值与预设值相乘,得到预设阀值。
在一个实施例中,检测模块240还用于在所述待检测应用的预测值小于等于预设阀值时,确定所述待检测应用为正常应用。
在一个实施例中,所述图片信息包括像素值;特征向量生成模块220用于基于所述图片信息中的像素值生成所述待检测应用的特征向量。
上述色情应用检测装置的其它技术特征与上述色情应用检测方法的技术特征相同,在此不予赘述。
本发明实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述任意一项所述的色情应用检测方法。其中,所述存储介质包括但不限于任何类型的盘(包括软盘、硬盘、光盘、CD-ROM、和磁光盘)、ROM(Read-Only Memory,只读存储器)、RAM(Random AcceSS Memory,随即存储器)、EPROM(EraSable ProgrammableRead-Only Memory,可擦写可编程只读存储器)、EEPROM(Electrically EraSableProgrammable Read-Only Memory,电可擦可编程只读存储器)、闪存、磁性卡片或光线卡片。也就是,存储介质包括由设备(例如,计算机)以能够读的形式存储或传输信息的任何介质。可以是只读存储器,磁盘或光盘等。
本发明实施例还提供一种服务器,所述服务器包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现上述任意一项所述的色情应用检测方法。
图6为本发明服务器的结构示意图,包括处理器320、存储装置330、输入单元340以及显示单元350等器件。本领域技术人员可以理解,图6示出的结构器件并不构成对所有服务器的限定,可以包括比图示更多或更少的部件,或者组合某些部件。存储装置330可用于存储应用程序310以及各功能模块,处理器320运行存储在存储装置330的应用程序310,从而执行设备的各种功能应用以及数据处理。存储装置330可以是内存储器或外存储器,或者包括内存储器和外存储器两者。内存储器可以包括只读存储器、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦写可编程ROM(EEPROM)、快闪存储器、或者随机存储器。外存储器可以包括硬盘、软盘、ZIP盘、U盘、磁带等。本发明所公开的存储装置包括但不限于这些类型的存储装置。本发明所公开的存储装置330只作为例子而非作为限定。
输入单元340用于接收信号的输入,以及接收用户输入的待检测应用。输入单元340可包括触控面板以及其它输入设备。触控面板可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板上或在触控面板附近的操作),并根据预先设定的程序驱动相应的连接装置;其它输入设备可以包括但不限于物理键盘、功能键(比如播放控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。显示单元350可用于显示用户输入的信息或提供给用户的信息以及计算机设备的各种菜单。显示单元350可采用液晶显示器、有机发光二极管等形式。处理器320是计算机设备的控制中心,利用各种接口和线路连接整个电脑的各个部分,通过运行或执行存储在存储装置330内的软件程序和/或模块,以及调用存储在存储装置内的数据,执行各种功能和处理数据。
在一实施方式中,服务器包括一个或多个处理器320,以及一个或多个存储装置330,一个或多个应用程序310,其中所述一个或多个应用程序310被存储在存储装置330中并被配置为由所述一个或多个处理器320执行,所述一个或多个应用程序310配置用于执行以上实施例所述的色情应用检测方法。
上述的色情应用检测方法、装置、计算机可读存储介质和服务器,根据待检测应用的图片信息生成待检测应用的特征向量,将该待检测应用的特征向量输入色情应用检测模型中得到该待检测应用的预测值,在该预测值大于预设阀值时确定该待检测应用为色情应用,实现了对该待检测应用是否为色情应用的自动准确判断,为清洁应用商店环境,打压不法应用开发商提供基础的数据支撑。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
应该理解的是,在本发明各实施例中的各功能单元可集成在一个处理模块中,也可以各个单元单独物理存在,也可以两个或两个以上单元集成于一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
以上所述仅是本发明的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (11)

1.一种色情应用检测方法,其特征在于,包括步骤:
获取待检测应用的图片信息;
基于所述图片信息生成所述待检测应用的特征向量;
将所述待检测应用的特征向量输入预先生成的色情应用检测模型中,得到所述待检测应用的预测值,其中,所述色情应用检测模型由各个样本应用训练卷积神经网络生成,用于表征特征向量与预测值之间的关联关系;
若所述待检测应用的预测值大于预设阀值,确定所述待检测应用为色情应用。
2.根据权利要求1所述的色情应用检测方法,其特征在于,所述将所述待检测应用的特征向量输入预先生成的色情应用检测模型中,得到所述待检测应用的预测值之前,还包括:
获取各个样本应用的图片信息,以及用于指示各个样本应用是否为色情应用的标识;
对各个样本应用的图片信息进行灰度化处理,得到各个样本应用的图片信息矩阵;
基于各个样本应用的图片信息矩阵生成各个样本应用的特征向量;
将各个样本应用的特征向量和各自的标识输入卷积神经网络中进行训练,生成色情应用检测模型。
3.根据权利要求2所述的色情应用检测方法,其特征在于,所述获取各个样本应用的图片信息,包括:
从各个样本应用的应用简介中选取若干个图片,作为各个样本应用的图片信息。
4.根据权利要求2所述的色情应用检测方法,其特征在于,所述基于各个样本应用的图片信息矩阵生成各个样本应用的特征向量,包括:
对各个样本应用的图片信息矩阵包含的各个元素分别进行依次排列,生成各个样本应用的特征向量。
5.根据权利要求2所述的色情应用检测方法,其特征在于,所述将各个样本应用的特征向量和各自的标识输入卷积神经网络中进行训练,生成色情应用检测模型,包括:
通过梯度下降法求解预先构建的损失函数最小时卷积神经网络的模型参数,基于求解的所述卷积神经网络的模型参数得到色情应用检测模型;
其中,所述损失函数为与各个样本应用的预测值和标识有关的函数,各个样本应用的预测值为与所述卷积神经网络的模型参数和各个样本应用的特征向量有关的变量。
6.根据权利要求1至5任意一项所述的色情应用检测方法,其特征在于,所述预设阀值通过以下步骤生成:
获取各个样本色情应用的图片信息;
对各个样本色情应用的图片信息进行灰度化处理,得到各个样本色情应用的图片信息矩阵;
基于各个样本色情应用的图片信息矩阵生成各个样本色情应用的特征向量;
将各个样本色情应用的特征向量输入所述色情应用检测模型中,得到各个样本色情应用的预测值;
对各个样本色情应用的预测值求均值,得到色情应用的基线值;
将所述色情应用的基线值与预设值相乘,得到预设阀值。
7.根据权利要求1至5任意一项所述的色情应用检测方法,其特征在于,所述得到所述待检测应用的预测值之后,还包括:
若所述待检测应用的预测值小于等于预设阀值,确定所述待检测应用为正常应用。
8.根据权利要求1至5任意一项所述的色情应用检测方法,其特征在于,所述图片信息包括像素值;
所述基于所述图片信息生成所述待检测应用的特征向量,包括:
基于所述图片信息中的像素值生成所述待检测应用的特征向量。
9.一种色情应用检测装置,其特征在于,包括:
图片信息获取模块,用于获取待检测应用的图片信息;
特征向量生成模块,用于基于所述图片信息生成所述待检测应用的特征向量;
预测值获得模块,用于将所述待检测应用的特征向量输入预先生成的色情应用检测模型中,得到所述待检测应用的预测值,其中,所述色情应用检测模型由各个样本应用训练卷积神经网络生成,用于表征特征向量与预测值之间的关联关系;
检测模块,用于在所述待检测应用的预测值大于预设阀值时,确定所述待检测应用为色情应用。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1至8中任意一项所述的色情应用检测方法。
11.一种服务器,其特征在于,所述服务器包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1至8中任意一项所述的色情应用检测方法。
CN201810430728.6A 2018-05-08 2018-05-08 色情应用检测方法、装置、计算机可读存储介质和服务器 Pending CN108564138A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810430728.6A CN108564138A (zh) 2018-05-08 2018-05-08 色情应用检测方法、装置、计算机可读存储介质和服务器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810430728.6A CN108564138A (zh) 2018-05-08 2018-05-08 色情应用检测方法、装置、计算机可读存储介质和服务器

Publications (1)

Publication Number Publication Date
CN108564138A true CN108564138A (zh) 2018-09-21

Family

ID=63538304

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810430728.6A Pending CN108564138A (zh) 2018-05-08 2018-05-08 色情应用检测方法、装置、计算机可读存储介质和服务器

Country Status (1)

Country Link
CN (1) CN108564138A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110456955A (zh) * 2019-08-01 2019-11-15 腾讯科技(深圳)有限公司 暴露服饰检测方法、装置、***、设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107229946A (zh) * 2017-05-11 2017-10-03 宸盛科华(北京)科技有限公司 基于人工神经网络的***检测方法及装置
CN107256246A (zh) * 2017-06-06 2017-10-17 西安工程大学 基于卷积神经网络的印花织物图像检索方法
CN107665333A (zh) * 2017-08-28 2018-02-06 平安科技(深圳)有限公司 一种基于卷积神经网络的不雅图片识别方法、终端、设备及计算机可读存储介质
CN107895119A (zh) * 2017-12-28 2018-04-10 北京奇虎科技有限公司 程序安装包检测方法、装置及电子设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107229946A (zh) * 2017-05-11 2017-10-03 宸盛科华(北京)科技有限公司 基于人工神经网络的***检测方法及装置
CN107256246A (zh) * 2017-06-06 2017-10-17 西安工程大学 基于卷积神经网络的印花织物图像检索方法
CN107665333A (zh) * 2017-08-28 2018-02-06 平安科技(深圳)有限公司 一种基于卷积神经网络的不雅图片识别方法、终端、设备及计算机可读存储介质
CN107895119A (zh) * 2017-12-28 2018-04-10 北京奇虎科技有限公司 程序安装包检测方法、装置及电子设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
何冰: "基于贝塞尔-傅里叶矩的彩色图像零水印算法", 《计算机与数字工程》 *
杨丽萍等: "一种新的背景预测方法在红外弱小目标检测中的应用", 《电子技术应用》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110456955A (zh) * 2019-08-01 2019-11-15 腾讯科技(深圳)有限公司 暴露服饰检测方法、装置、***、设备及存储介质

Similar Documents

Publication Publication Date Title
CN108595585B (zh) 样本数据分类方法、模型训练方法、电子设备及存储介质
CN107045503B (zh) 一种特征集确定的方法及装置
Kang et al. A universal defect detection approach for various types of fabrics based on the Elo-rating algorithm of the integral image
Ege et al. Image-based food calorie estimation using recipe information
CN109726683A (zh) 目标对象检测方法和装置、电子设备和存储介质
CN109446430A (zh) 产品推荐的方法、装置、计算机设备及可读存储介质
CN109729395A (zh) 视频质量评估方法、装置、存储介质和计算机设备
JP2014511530A5 (zh)
CN108090032A (zh) 逻辑回归模型的可视化解释方法及装置
CN107729473B (zh) 文章推荐方法及其装置
Park et al. AxGames: Towards crowdsourcing quality target determination in approximate computing
WO2022193753A1 (zh) 持续学习方法、装置、终端及存储介质
CN108536784A (zh) 评论信息情感分析方法、装置、计算机存储介质和服务器
RU2746152C2 (ru) Обнаружение биологического объекта
CN108509959A (zh) 色情应用识别方法、装置、计算机可读存储介质和服务器
CN109388376A (zh) 软件开发风险评估方法、装置、设备及可读存储介质
Welty et al. Metrology for AI: From benchmarks to instruments
CN109598249A (zh) 服饰检测方法和装置、电子设备、存储介质
CN106708729B (zh) 代码缺陷的预测方法及装置
CN108228684A (zh) 聚类模型的训练方法、装置、电子设备和计算机存储介质
CN104504579B (zh) 一种信息审核方法和装置
Shiau et al. Shop the look: Building a large scale visual shopping system at pinterest
CN111325200A (zh) 图像标注方法、装置、设备及计算机可读存储介质
Hunold et al. Reproducible MPI micro-benchmarking isn't as easy as you think
CN108564138A (zh) 色情应用检测方法、装置、计算机可读存储介质和服务器

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20200422

Address after: 310052 room 508, floor 5, building 4, No. 699, Wangshang Road, Changhe street, Binjiang District, Hangzhou City, Zhejiang Province

Applicant after: Alibaba (China) Co.,Ltd.

Address before: 510640 Guangdong city of Guangzhou province Whampoa Tianhe District Road No. 163 Xiping Yun Lu Yun Ping square B radio tower 15 layer self unit 02

Applicant before: GUANGZHOU UC NETWORK TECHNOLOGY Co.,Ltd.

TA01 Transfer of patent application right
RJ01 Rejection of invention patent application after publication

Application publication date: 20180921

RJ01 Rejection of invention patent application after publication