CN107895119A

CN107895119A - 程序安装包检测方法、装置及电子设备

Info

Publication number: CN107895119A
Application number: CN201711461925.6A
Authority: CN
Inventors: 钱吕见; 卢加磊
Original assignee: Beijing Qihoo Technology Co Ltd
Current assignee: Beijing Qihoo Technology Co Ltd
Priority date: 2017-12-28
Filing date: 2017-12-28
Publication date: 2018-04-10

Abstract

本发明公开了一种程序安装包检测方法、装置及电子设备，属于计算机技术领域。所述方法包括：获取程序安装包中的图像数据，利用预设的第一模型提取每个图像数据的特征向量，将提取的特征向量输入预设的第二模型，得到每个图像数据对应的特征值，根据所得到的特征值判定所述程序安装包是否包含不良图像。将预先训练好的第一模型和第二模型结合用于检测包含不良图像的程序安装包，有效地提高了检出率和检测精度。

Description

程序安装包检测方法、装置及电子设备

技术领域

本发明涉及计算机技术领域，尤其涉及一种程序安装包检测方法、装置及电子设备。

背景技术

随着移动互联网时代的到来，智能手机市场得到广泛发展。与此同时，涉黄的APK手机软件日益猖獗。这类APK手机软件通常包含以下行为：(1)包含色情、暴露的图片或者视频，从而诱导用户点击，引发扣费操作；(2)强制联网，从而偷取流量；(3)发送恶意扣费短信或者私自发短信；(4)安装恶意插件；(5)推送广告；(6)盗取用户信息等等。这些行为严重损害了用户的利益，甚至会造成用户的巨大财产损失。因此，识别这类涉黄的APK手机软件，以及时地提醒、告诫用户，有利于保障用户利益。

现有技术中，对涉黄图像进行检测主要是基于皮肤色彩特征匹配的方法，这种方法仅通过图像中皮肤的百分比判断图像是否涉黄，识别率低，且错误率较高。

发明内容

鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的程序安装包检测方法、装置及电子设备。

第一方面，本发明实施例提供了一种程序安装包检测方法，所述方法包括：获取程序安装包中的图像数据；通过预设的第一模型提取每个所述图像数据的特征向量；将所述特征向量输入预设的第二模型，得到每个所述图像数据对应的特征值；根据所得到的特征值判定所述程序安装包是否包含不良图像。

优选的，所述第二模型通过下述方式预先获得：获取图像样本，所述图像样本包括多个第一图像数据和多个第二图像数据，所述多个第一图像数据均对应于预设的第一标签，所述多个第二图像数据均对应于第二标签；通过所述第一模型提取所述图像样本中所有图像数据的特征向量；对所述图像样本中所有图像数据的特征向量进行分类模型训练，得到所述第二模型。

优选的，所述对所述图像样本中所有图像数据的特征向量进行分类模型训练，得到所述第二模型的步骤，包括：利用预设的逻辑回归算法对所述图像样本中所有图像数据的特征向量进行训练，得到逻辑回归分类模型，将所述逻辑回归分类模型作为所述第二模型。

优选的，所述通过所述第一模型提取所述图像样本中所有图像数据的特征向量之前，还包括：将所述图像样本中的所有图像数据均缩放到预设尺寸。

优选的，所述根据所得到的特征值判定所述程序安装包是否包含不良图像的步骤，包括：将得到的所述特征值与预设阈值进行比较，若存在大于所述预设阈值的特征值，则判定所述程序安装包包含不良图像；若不存在大于所述预设阈值的特征值，则判定所述程序安装包不包含不良图像。

优选的，所述第一模型为AlexNet深度学习网络模型。

优选的，所述特征向量为所述图像数据对应的4096维特征向量。

第二方面，本发明实施例提供了一种程序安装包检测装置，所述装置包括：数据获取模块、特征向量提取模块、特征值计算模块和检测模块。数据获取模块，用于获取程序安装包中的图像数据。特征向量提取模块，用于通过预设的第一模型提取每个所述图像数据的特征向量。特征值计算模块，用于将所述特征向量输入预设的第二模型，得到每个所述图像数据对应的特征值。检测模块，用于根据所得到的特征值判定所述程序安装包是否包含不良图像。

优选的，所述装置还包括：样本获取模块、样本特征提取模块和训练模块。样本获取模块，用于获取图像样本，所述图像样本包括多个第一图像数据和多个第二图像数据，所述多个第一图像数据均对应于预设的第一标签，所述多个第二图像数据均对应于第二标签。样本特征提取模块，用于通过所述第一模型提取所述图像样本中所有图像数据的特征向量。训练模块，用于对所述图像样本中所有图像数据的特征向量进行分类模型训练，得到所述第二模型。

优选的，所述训练模块具体用于：利用预设的逻辑回归算法对所述图像样本中所有图像数据的特征向量进行训练，得到逻辑回归分类模型，将所述逻辑回归分类模型作为所述第二模型。

优选的，所述装置还包括：预处理模块，用于将所述图像样本中的所有图像数据均缩放到预设尺寸。

优选的，所述检测模块具体用于：将得到的所述特征值与预设阈值进行比较，若存在大于所述预设阈值的特征值，则判定所述程序安装包包含不良图像，若不存在大于所述预设阈值的特征值，则判定所述程序安装包不包含不良图像。

优选的，所述第一模型为AlexNet深度学习网络模型。

第三方面，本发明实施例提供了一种电子设备，包括处理器和存储器，所述存储器耦接到所述处理器，所述存储器存储指令，当所述指令由所述处理器执行时使所述电子设备执行以下操作：获取程序安装包中的图像数据；通过预设的第一模型提取每个所述图像数据的特征向量；将所述特征向量输入预设的第二模型，得到每个所述图像数据对应的特征值；根据所得到的特征值判定所述程序安装包是否包含不良图像。

第四方面，本发明实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述的程序安装包检测方法所述的步骤。

本申请实施例中提供的技术方案，至少具有如下技术效果或优点：

在本发明实施例的技术方案中，通过获取程序安装包中的图像数据，利用预设的第一模型提取每个图像数据的特征向量，再将提取的特征向量输入预设的第二模型，得到每个图像数据对应的特征值，然后将根据所得到的特征值判定所述程序安装包是否包含不良图像。相比于现有技术，本发明实施例提供的技术方案，将预先训练好的第一模型和第二模型结合用于检测包含不良图像的程序安装包，有效地提高了检出率和检测精度。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了本发明第一实施例提供的一种程序安装包检测方法的流程图；

图2示出了本发明第一实施例提供的训练第二模型的步骤流程图；

图3示出了本发明第二实施例提供的一种程序安装包检测装置的示意图；

图4示出了本发明第二实施例提供的第二模型训练部分的示意图；

图5示出了本发明第三实施例提供的电子设备的示意图。

具体实施方式

本发明实施例提供了一种程序安装包检测方法、装置及电子设备，用于提高包含不良图像的程序安装包的检出率和检测精度。其中，所述的程序安装包检测方法包括：获取程序安装包中的图像数据；通过预设的第一模型提取每个所述图像数据的特征向量；将所述特征向量输入预设的第二模型，得到每个所述图像数据对应的特征值；根据所得到的特征值判定所述程序安装包是否包含不良图像。

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

请参见图1，为本发明第一实施例提供的程序安装包检测方法的流程图。本发明实施例提供的程序安装包检测方法可以应用于用户终端，也可以应用于服务器。其中，程序安装包为开源***的程序安装包。下面将以安卓安装包APK文件为例对本发明提供的程序安装包检测方法进行说明。如图1所示，所述方法包括以下步骤：

步骤S101，获取APK文件中的图像数据；

APK是AndroidPackage的缩写，即安卓安装包，可理解为用于在安卓***上安装的应用软件。Android应用是用Java编写的，利用Android软件开发工具包(SoftwareDevelopment Kit，SDK)编译代码，并且把所有的数据和资源文件打包成一个APK文件，这是一个后缀名为.apk的压缩文件，APK文件中包含了一个Android应用程序的所有内容，是Android平台用于安装应用程序的文件。APK文件就是一个zip压缩包，经过解包操作后，就可以得到APK文件的文件结构。APK文件结构中的用于存放资源文件的res目录下，存放有这个安卓应用所使用的图像资源。因此，对APK文件进行解包操作，就可以获取APK文件中存放的所有图像数据。

作为一种实施方式，步骤S101可以包括：对APK文件进行解包操作，获取APK文件中存放的所有图像数据。具体的，可以将APK文件输入样本解包接口，得到APK文件包括的所有图像数据，从而对APK文件中的所有图像数据执行后续步骤，根据所有图像数据对该APK文件进行检测。

作为另一种实施方式，步骤S101可以包括：对APK文件进行解包操作，从APK文件包括的所有图像数据中，随机抽取预设数量的图像数据。从而对抽取的预设数量的图像数据执行后续步骤，根据这些预设数量的图像数据对该APK文件进行检测。其中，预设数据可以根据多次试验确定，以达到较高的检测精度。

也就是说，上述第一种实施方式是采用全检的方式，对APK文件中的所有图像数据均进行检测。而上述的第二种实施方式是采用抽检的方式，对APK文件包含的所有图像数据进行随机抽样，选取的预设数量的图像数据作为该APK文件的检测样本。相较而言，采用全检的方式检测，检出率更高。而采用抽检的方式检测，检测速度更快。

步骤S102，通过预设的第一模型提取每个所述图像数据的特征向量；

将步骤S101获取的图像数据输入预设的第一模型，得到每个图像数据的特征向量。于本发明实施例中，训练好的第一模型预先存储于电子设备中，用于提取图像数据对应的特征向量。具体的，第一模型为深度学习网络模型，利用深度学习技术构建神经网络来提取图像的特征向量，作为图像数据对应的特征向量。例如，LeNet网络模型、Alexnet网络模型、Googlenet网络模型、VGG网络模型以及Deep Residual Learning网络模型等卷积神经网络模型。

作为一种可选的实施例，第一模型可以采用AlexNet深度学习网络模型。AlexNet深度学习网络模型具有8层的网络结构，包括5层卷积层和3层全连接层。其中，卷积层包含11*11、5*5和3*3大小的卷积核，而3层全连接层分别包含4096、4096和1000个隐层节点数。在ImageNet上的图像分类挑战任务中，Alex提出的AlexNet网络结构模型赢得了2012届的冠军。该模型在当时的Top-5的错误率为16.4％，效果明显好于之前的LeNet网络模型。因此，相较于其他卷积神经网络模型，AlexNet深度学习网络模型有利于在相对较短的时间内达到较好的效果，从而有利于同时兼顾检测时间和检测精度。

作为一种可选的实施例，特征向量可以为图像数据对应的4096维特征向量。

具体的，当第一模型采用训练好的AlexNet深度学习网络模型时，将步骤S101获取的图像数据输入给训练好的AlexNet网络模型。利用AlexNet网络模型做一次前向运算，然后提取网络第7层的全连接层的4096维数值作为图像数据对应的特征向量。可选的，可以将所提取的特征向量存入到相应文件***之中，以便于进一步根据所提取的特征向量识别对应的APK文件是否涉黄。

另外，为了后续可以很好地提取图像的特征，作为一种可选的实施例，在执行步骤S102之前，可以先对图像数据进行预处理。具体的，该预处理步骤可以包括：将所获取的图像数据均缩放到预设尺寸。本实施例中，预设尺寸可以根据需要设置。例如，预设尺寸可以为256*256像素大小。

步骤S103，将所述特征向量输入预设的第二模型，得到每个所述图像数据对应的特征值；

于本发明实施例中，训练好的第二模型也预先存储于电子设备中，用于根据图像数据的特征向量得到该图像数据对应的特征值。该特征值用于表示该图像数据属于不良图像的概率，以便于进一步根据该特征值确定该图像数据是否为不良图像，从而确定该图像数据对应的APK文件是否涉黄。需要说明的是，本发明实施例中，不良图像表示色情图像。

具体的，如图2所示，训练第二模型的步骤可以包括：

步骤S201，获取图像样本，所述图像样本包括多个第一图像数据和多个第二图像数据，所述多个第一图像数据均对应于预设的第一标签，所述多个第二图像数据均对应于第二标签；

于本实施例中，图像样本可以从预设的APK文件样本中提取。其中，多个第一图像数据为从APK文件样本中提取的第一特定数量的色情图像，多个第二图像数据为从APK文件样本中提取的第二特定数量的非色情图像。第一标签为用于标识色情图像的标签，第二标签为用于标识非色情图像的标签。例如，可以从APK文件样本中抽取13350张色情图像和13350张非色情图像，并将这些图像相应地与第一标签和第二标签对应。

步骤S202，通过所述第一模型提取所述图像样本中所有图像数据的特征向量；

可以理解的是，步骤S202中采用的第一模型与上述步骤S102中采用的第一模型相同。步骤S202与步骤S102的区别在于特征提取对象不同，步骤S202中是对图像样本中的所有图像数据进行特征提取，而步骤S102中是对步骤S101获取的待检测APK文件的图像数据进行特征提取。因此，步骤S202的实施方式与上述步骤S102的实施方式类似，具体可以参照上述步骤S102，此处不再赘述。

步骤S203，对所述图像样本中所有图像数据的特征向量进行分类模型训练，得到所述第二模型。

其中，第二模型用于对未知标签的图像数据进行回归预测。作为一种实施方式，所述的对所述图像样本中所有图像数据的特征向量进行分类模型训练，得到所述第二模型的步骤，可以包括：利用预设的逻辑回归算法对所述图像样本中所有图像数据的特征向量进行训练，得到逻辑回归分类模型，将所述逻辑回归分类模型作为所述第二模型。

逻辑回归算法，又称为逻辑回归分析，是分类和预测算法中的一种。通过历史数据的表现对未来结果发生的概率进行预测。回归是一种极易理解的模型，就相当于y＝f(x)，表明自变量x与因变量y的关系。最常见问题有如医生治病时的望、闻、问、切，之后判定病人是否生病或生了什么病，其中的望、闻、问、切就是获取自变量x，即特征数据，判断是否生病就相当于获取因变量y，即预测分类。训练用于APK文件涉黄检测的逻辑回归分类模型主要是将图像样本中所有图像数据的特征向量输入给逻辑回归算法，逻辑回归算法通过梯度下降策略不断地迭代从而尽可能地拟合给定的标签，当训练到一定程度时，就可以得到逻辑回归分类模型。可选的，然后存入相应的文件***。例如，可以存储于分布式文件***(Hadoop Distributed File System，HDFS)中。此后，就可以从HDFS中读取训练好的分类模型作为第二模型，对未知标签的图像数据进行回归预测。

例如，训练第二模型具体过程可以为：将人工标识的色情图像和非色情图像数据集输入训练好的AlexNet深度学习网络模型，AlexNet深度学习网络模型输出这些图像数据的4096维特征向量，将这些图像数据的4096维特征向量输入预设的逻辑回归算法，训练得到逻辑回归分类模型，将输出的逻辑回归分类模型作为第二模型，存入分布式文件***HDFS中。

当第二模型为训练好的逻辑回归分类模型时，在上述步骤S103中，将步骤S102提取的、未知标签的图像数据的特征向量输入给该分类模型，该分类模型最终输出一个回归分数值。将该回归分数值作为该图像数据的特征值，以表示该图像数据属于色情图像的概率。具体的，该回归分数值可以是一个范围在0到1之间的数值。

当然，除了逻辑回归算法外，于本发明的其他实施例中，也可以采用其他算法对图像样本中所有图像数据的特征向量进行训练，得到可以用于对未知标签的图像数据对应的标签进行预测的分类模型，作为上述的第二模型。

另外，为了后续可以很好地提取图像的特征，在执行步骤S202之前，可以对图像样本中的所有图像数据进行预处理。相应地，预处理步骤可以包括：将图像样本中的所有图像数据均缩放到预设尺寸。可以理解的是，为了保证检测精度，若在训练第二模型的过程中执行了该预处理步骤，则在待检测APK文件的检测过程中，在执行上述步骤S102之前，也应该对步骤S101获取的图像数据进行相同的预处理。

作为一种可选的实施例，上述步骤S103中的第二模型也可以是实时训练的，即所述APK检测方法可以包括上述步骤S201至步骤S203。需要说明的是，上述步骤S201至步骤S203应在上述步骤S103之前执行，具体与步骤S101和步骤S102的先后顺序，本实施例中不做限定。

步骤S104，根据所得到的特征值判定所述APK文件是否包含不良图像。

每个图像数据对应的特征值即表示该图像数据属于不良图像的概率。具体的，可以根据预设规则对步骤S103所得到的特征值进行处理，判定对应的APK文件是否包含不良图像，实现APK文件的涉黄检测。具体的，预设规则可以根据需要设置。

作为一种实施方式，可以将所得到的所述特征值与预设阈值进行比较，若存在大于所述预设阈值的特征值，则判定所述APK文件包含不良图像，若不存在大于所述预设阈值的特征值，则判定所述APK文件不包含不良图像。具体的，预设阈值可以根据多次试验设置。

图像数据对应的特征值大于预设阈值，则表示该图像数据属于不良图像。也就是说，若步骤S101获取的APK文件的图像数据中，存在一个图像数据对应的特征值大于预设阈值，则判定该APK文件包含不良图像，即该APK文件涉黄，属于色情类APK文件。若步骤S101获取的APK文件的图像数据中，不存在图像数据对应的特征值大于预设阈值，即所有图像数据对应的特征值均不大于预设阈值，则判定该APK文件不包含不良图像，即该APK文件不涉黄，属于非色情类APK文件。从而实现对APK文件涉黄检测的目的。

例如，对APK文件进行涉黄检测的过程具体可以为：将APK文件输入样本解包接口，输出该APK文件包含的图像数据，这些图像数据均为未知标签的图像数据。进一步将这些未知标签的图像数据输入AlexNet深度学习网络模型，提取这些未知标签的图像数据的4096维特征向量。从分布式文件***HDFS中读取预先得到的逻辑回归分类模型，将所提取的图像数据的4096维特征向量输入该逻辑回归分类模型中，即可输出回归分数值，即上述特征值，将该回归分数值与预设阈值进行比较，当存在图像数据的回归分数值大于预设阈值时，表明该回归分数值对应的图像数据为不良图像，也就是说，该APK文件包含不良图像。当该回归分数值不大于预设阈值时，表明该回归分数值对应的图像数据为非不良图像。若APK文件包含的所有图像数据均为非不良图像时，则说明该APK文件不包含不良图像，即不涉黄。

作为另一种实施方式，可以将所得到的所述特征值与预设阈值进行比较，得到大于所述预设阈值的特征值的数量，若大于所述预设阈值的特征值的数量超过指定数量，则判定所述APK文件包含不良图像，若大于所述预设阈值的特征值的数量不超过指定数量，则判定所述APK文件不包含不良图像。具体的，预设阈值和指定数量可以根据多次试验设置。例如，指定数量可以为3，这样当大于所述预设阈值的特征值的数量不超过3时，可以认为该APK文件为非色情类的APK文件。由于涉黄的APK文件通常包括大量的***，当检测出的属于色情图像的数量不超过指定数量时，可能是出现误报情况，这样就可以给***提供一定的容错率。

进一步地，作为一种可选的实施例，在判定APK文件包含不良图像，即判定该APK文件属于色情类APK文件之后，所述方法还可以包括：输出预设的警示信息。预设的警示信息用于提醒用户该APK文件为涉黄的APK文件。具体的，可以通过电子设备上的显示单元对预设的警示信息进行显示，以及时对用户进行告警。

进一步地，作为一种可选的实施例，所述方法还可以包括：每间隔预设时间段，获取测试样本，其中，所述测试样本包括一个以上的已知类别的APK文件，将所述测试样本作为待检测的APK文件，执行所述的获取APK文件中的图像数据，通过预设的第一模型提取每个所述图像数据的特征向量，将所述特征向量输入预设的第二模型，得到每个所述图像数据对应的特征值，根据所得到的特征值判定所述APK文件是否包含不良图像的步骤，根据所述测试样本对应的类别判断检测结果是否满足预设条件，若不满足预设条件，则根据所述测试样本对所述第二模型进行优化。

具体的，预设时间段可以根据需要设置，例如，可以设置为1天、7天、15天或一个月。已知类别的APK文件为人工标记的APK文件，即对选定的新增APK文件进行人工审核，对这些APK文件中包含的所有图像数据进行标记，并根据审核结果对这些APK文件的类别进行标记。例如，测试样本中包括的APK文件的类别可以分为色情类和非色情类，色情类APK文件为包含不良图像的APK文件，非色情类APK文件为不包含不良图像的APK文件。

对测试样本中包括的已知类别的APK文件执行上述步骤S101至步骤S104即可以得到相应的检测结果。当测试样本包括多个已知类别的APK文件时，作为一种实施方式，可以根据所述测试样本对应的类别判断检测结果的正确率是否达到目标值，若达到目标值，则判定检测结果满足预设条件，若没有达到目标值，则判定检测结果不满足预设条件。可以理解的是，当对测试样本的检测结果满足预设条件时，则不需要对第二模型进行优化。

测试样本中，每个APK文件包括的所有图像数据均对应有标签。此时，根据所述测试样本对所述第二模型进行优化的实施方式可以为：将测试样本中包括的所有图像数据均相应地添加到用于训练所述第二模型的图像样本中，重新根据上述步骤S201至步骤S203对新的图像样本进行训练，根据训练结果对所述第二模型进行更新，即用重新训练得到的分类模型，作为更新后的第二模型。

或者，根据所述测试样本对所述第二模型进行优化的实施方式还可以为：将所述测试样本中检测结果有误的APK文件包括的图像数据添加到用于训练第二模型的图像样本中，重新根据上述步骤S201至步骤S203对新的图像样本进行训练，对所述第二模型进行更新，即用重新训练得到的分类模型，作为更新后的第二模型。

另外，当测试样本为一个已知类别的APK文件时，作为另一种实施方式，可以根据所述测试样本对应的类别判断检测结果是否正确，若正确，则判定检测结果满足预设条件，若不正确，则判定检测结果不满足预设条件。可以理解的是，当对测试样本的检测结果满足预设条件时，则不需要对第二模型进行优化。

通过定期利用测试样本对检测结果的进行验证，并根据验证结果对第二模型进行优化，有利于保证检测结果的准确性。

请参见图3，为本发明第二实施例提供的程序安装包检测装置的模块框图。该程序安装包检测装置用于实现第一实施例提供的程序安装包检测方法。于本发明实施例中，程序安装包检测装置可以运行于用户终端，也可以运行于服务器。其中，程序安装包为开源***的程序安装包。下面将以安卓安装包APK文件为例对本发明提供的程序安装包检测装置进行说明。如图3所示，该程序安装包检测装置包括：数据获取模块301、特征向量提取模块302、特征值计算模块303和检测模块304。

其中，数据获取模块301，用于获取APK文件中的图像数据；

特征向量提取模块302，用于通过预设的第一模型提取每个所述图像数据的特征向量；

特征值计算模块303，用于将所述特征向量输入预设的第二模型，得到每个所述图像数据对应的特征值；

检测模块304，用于根据所得到的特征值判定所述APK文件是否包含不良图像。

作为一种可选的实施例，如图4所示，所述装置还包括：样本获取模块401、样本特征提取模块402和训练模块403。

样本获取模块401，用于获取图像样本，所述图像样本包括多个第一图像数据和多个第二图像数据，所述多个第一图像数据均对应于预设的第一标签，所述多个第二图像数据均对应于第二标签；

样本特征提取模块402，用于通过所述第一模型提取所述图像样本中所有图像数据的特征向量；

训练模块403，用于对所述图像样本中所有图像数据的特征向量进行分类模型训练，得到所述第二模型。

作为一种可选的实施例，所述训练模块403具体用于：利用预设的逻辑回归算法对所述图像样本中所有图像数据的特征向量进行训练，得到逻辑回归分类模型，将所述逻辑回归分类模型作为所述第二模型。

作为一种可选的实施例，所述装置还包括：预处理模块。预处理模块，用于将所述图像样本中的所有图像数据均缩放到预设尺寸。

作为一种可选的实施例，所述检测模块304具体用于：将得到的所述特征值与预设阈值进行比较，若存在大于所述预设阈值的特征值，则判定所述APK文件包含不良图像，若不存在大于所述预设阈值的特征值，则判定所述APK文件不包含不良图像。

作为一种可选的实施例，所述第一模型为AlexNet深度学习网络模型。

作为一种可选的实施例，所述特征向量为所述图像数据对应的4096维特征向量。

作为一种可选的实施例，所述装置还包括：输出模块，用于输出预设的警示信息。警示信息用于提醒用户该APK文件为涉黄的APK文件。具体的，可以通过电子设备上的显示单元对预设的警示信息进行显示。

作为一种可选的实施例，所述装置还包括：优化模块。所述优化模块用于：每间隔预设时间段，获取测试样本，其中，所述测试样本包括一个以上的已知类别的APK文件，将所述测试样本作为待检测的APK文件，执行所述的获取APK文件中的图像数据，通过预设的第一模型提取每个所述图像数据的特征向量，将所述特征向量输入预设的第二模型，得到每个所述图像数据对应的特征值，根据所得到的特征值判定所述APK文件是否包含不良图像的步骤，根据所述测试样本对应的类别判断检测结果是否满足预设条件，若不满足预设条件，则根据所述测试样本对所述第二模型进行优化。

通过上述的数据获取模块301、特征向量提取模块302、特征值计算模块303以及检测模块304对测试样本中包括的已知类别的APK文件进行处理，即可以得到相应的检测结果。当测试样本包括多个已知类别的APK文件时，作为一种实施方式，可以根据所述测试样本对应的类别判断检测结果的正确率是否达到目标值，若达到目标值，则判定检测结果满足预设条件，若没有达到目标值，则判定检测结果不满足预设条件。可以理解的是，当对测试样本的检测结果满足预设条件时，则不需要对第二模型进行优化。

测试样本中，每个APK文件包括的所有图像数据均对应有标签。此时，根据所述测试样本对所述第二模型进行优化的实施方式可以为：将测试样本中包括的所有图像数据均相应地添加到用于训练所述第二模型的图像样本中，重新通过上述样本获取模块401、样本特征提取模块402和训练模块403对新的图像样本进行训练，根据训练结果对所述第二模型进行更新，即用重新训练得到的分类模型，作为更新后的第二模型。

或者，根据所述测试样本对所述第二模型进行优化的实施方式还可以为：将所述测试样本中检测结果有误的APK文件包括的图像数据添加到用于训练第二模型的图像样本中，重新通过上述样本获取模块401、样本特征提取模块402和训练模块403对新的图像样本进行训练，对所述第二模型进行更新，即用重新训练得到的分类模型，作为更新后的第二模型。

在本发明实施例的技术方案中，通过获取APK文件中的图像数据，利用预设的第一模型提取每个图像数据的特征向量，再将提取的特征向量输入预设的第二模型，得到每个图像数据对应的特征值，然后将得到的所述特征值与预设阈值进行比较，确定APK文件是否包含不良图像，实现APK文件的涉黄检测。相比于现有技术，本发明实施例提供的技术方案中，预设的第二模型是通过将多个预先标记好的第一图像数据和第二图像数据组成样本图像，利用第一模型提取样本图像的特征向量，再对样本图像的特征向量进行训练得到的，且第一模型采用了深度学习网络模型，这样将第一模型和第二模型结合用于检测包含不良图像的APK文件，能够有效地提高检出率和检测精度。

本发明第三实施例还提供了一种电子设备，如图5所示，为了便于说明，仅示出了与本发明实施例相关的部分，具体技术细节未揭示的，请参照本发明实施例方法部分。该电子设备可以为用户终端，也可以为服务器。其中，用户终端可以为安装有安卓***的包括手机、平板电脑、PDA(Personal DigitalAssistant，个人数字助理)、POS(Point of Sales，销售终端)、车载电脑等任意终端设备，以终端为手机为例：

图5示出的是与本发明实施例提供的电子设备相关的手机的部分结构的框图。参考图5，手机包括：射频(Radio Frequency，RF)电路510、存储器520、输入单元530、显示单元540、传感器550、音频电路560、无线保真(wireless-fidelity，Wi-Fi)模块570、处理器580、以及电源590等部件。本领域技术人员可以理解，图5中示出的手机结构并不构成对手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图5对手机的各个构成部件进行具体的介绍：

RF电路510可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，给处理器580处理；另外，将设计上行的数据发送给基站。通常，RF电路510包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(Low NoiseAmplifier，LNA)、双工器等。此外，RF电路510还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯***(GlobalSystem of Mobile communication，GSM)、通用分组无线服务(General Packet RadioService，GPRS)、码分多址(Code Division Multiple Access，CDMA)、宽带码分多址(Wideband Code Division Multiple Access,WCDMA)、长期演进(Long Term Evolution，LTE)、电子邮件、短消息服务(Short Messaging Service，SMS)等。

存储器520可用于存储软件程序以及模块，处理器580通过运行存储在存储器520的软件程序以及模块，从而执行手机的各种功能应用以及数据处理。存储器520可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器520可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

输入单元530可用于接收输入的数字或字符信息，以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地，输入单元530可包括触控面板531以及其他输入设备532。触控面板531，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板531上或在触控面板531附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触控面板531可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器580，并能接收处理器580发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板531。除了触控面板531，输入单元530还可以包括其他输入设备532。具体地，其他输入设备532可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元540可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元540可包括显示面板541，可选的，可以采用液晶显示器(Liquid CrystalDisplay，LCD)、有机发光二极管(Organic Light-Emitting Diode,OLED)等形式来配置显示面板541。进一步的，触控面板531可覆盖显示面板541，当触控面板531检测到在其上或附近的触摸操作后，传送给处理器580以确定触摸事件的类型，随后处理器580根据触摸事件的类型在显示面板541上提供相应的视觉输出。虽然在图5中，触控面板531与显示面板541是作为两个独立的部件来实现手机的输入和输入功能，但是在某些实施例中，可以将触控面板531与显示面板541集成而实现手机的输入和输出功能。

手机还可包括至少一种传感器550，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板541的亮度，接近传感器可在手机移动到耳边时，关闭显示面板541和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路560、扬声器561和传声器562可提供用户与手机之间的音频接口。音频电路560可将接收到的音频数据转换后的电信号，传输到扬声器561，由扬声器561转换为声音信号输出；另一方面，传声器562将收集的声音信号转换为电信号，由音频电路560接收后转换为音频数据，再将音频数据输出处理器580处理后，经RF电路510以发送给比如另一手机，或者将音频数据输出至存储器520以便进一步处理。

WiFi属于短距离无线传输技术，手机通过WiFi模块570可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图5示出了WiFi模块570，但是可以理解的是，其并不属于手机的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器580是手机的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器520内的软件程序和/或模块，以及调用存储在存储器520内的数据，执行手机的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器580可包括一个或多个处理单元；优选的，处理器580可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作***、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器580中。

手机还包括给各个部件供电的电源590(比如电池)，优选的，电源590可以通过电源管理***与处理器580逻辑相连，从而通过电源管理***实现管理充电、放电、以及功耗管理等功能。

尽管未示出，手机还可以包括摄像头、蓝牙模块等，在此不再赘述。

在本发明实施例中，该电子设备所包括的处理器580还具有以下功能：

获取程序安装包中的图像数据；

通过预设的第一模型提取每个所述图像数据的特征向量；

将所述特征向量输入预设的第二模型，得到每个所述图像数据对应的特征值；

根据所得到的特征值判定所述程序安装包是否包含不良图像。

本发明第四实施例提供了一种计算机可读存储介质，其上存储有计算机程序，本发明第二实施例中的程序安装包检测装置集成的功能模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述第一实施例的程序安装包检测方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

在此提供的算法和显示不与任何特定计算机、虚拟***或者其它设备固有相关。各种通用***也可以与基于在此的示教一起使用。根据上面的描述，构造这类***所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的网关、代理服务器、***中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

本发明公开了A1、一种程序安装包检测方法，所述方法包括：

获取程序安装包中的图像数据；

通过预设的第一模型提取每个所述图像数据的特征向量；

A2、如A1所述的程序安装包检测方法，所述第二模型通过下述方式预先获得：

获取图像样本，所述图像样本包括多个第一图像数据和多个第二图像数据，所述多个第一图像数据均对应于预设的第一标签，所述多个第二图像数据均对应于第二标签；

通过所述第一模型提取所述图像样本中所有图像数据的特征向量；

对所述图像样本中所有图像数据的特征向量进行分类模型训练，得到所述第二模型。

A3、如A2所述的程序安装包检测方法，所述对所述图像样本中所有图像数据的特征向量进行分类模型训练，得到所述第二模型的步骤，包括：

利用预设的逻辑回归算法对所述图像样本中所有图像数据的特征向量进行训练，得到逻辑回归分类模型，将所述逻辑回归分类模型作为所述第二模型。

A4、如A2所述的程序安装包检测方法，所述通过所述第一模型提取所述图像样本中所有图像数据的特征向量之前，还包括：

将所述图像样本中的所有图像数据均缩放到预设尺寸。

A5、如A1所述的程序安装包检测方法，所述根据所得到的特征值判定所述程序安装包是否包含不良图像的步骤，包括：

将得到的所述特征值与预设阈值进行比较，若存在大于所述预设阈值的特征值，则判定所述程序安装包包含不良图像；若不存在大于所述预设阈值的特征值，则判定所述程序安装包不包含不良图像。

A6、如A1所述的程序安装包检测方法，所述第一模型为AlexNet深度学习网络模型。

A7、如A1所述的程序安装包检测方法，所述特征向量为所述图像数据对应的4096维特征向量。

本发明公开了B8、一种程序安装包检测装置，所述装置包括：

数据获取模块，用于获取程序安装包中的图像数据；

特征向量提取模块，用于通过预设的第一模型提取每个所述图像数据的特征向量；

特征值计算模块，用于将所述特征向量输入预设的第二模型，得到每个所述图像数据对应的特征值；

检测模块，用于根据所得到的特征值判定所述程序安装包是否包含不良图像。

B9、如B8所述的程序安装包检测装置，所述装置还包括：

样本获取模块，用于获取图像样本，所述图像样本包括多个第一图像数据和多个第二图像数据，所述多个第一图像数据均对应于预设的第一标签，所述多个第二图像数据均对应于第二标签；

样本特征提取模块，用于通过所述第一模型提取所述图像样本中所有图像数据的特征向量；

训练模块，用于对所述图像样本中所有图像数据的特征向量进行分类模型训练，得到所述第二模型。

B10、如B9所述的程序安装包检测装置，所述训练模块具体用于：

B11、如B9所述的程序安装包检测装置，所述装置还包括：

预处理模块，用于将所述图像样本中的所有图像数据均缩放到预设尺寸。

B12、如B8所述的程序安装包检测装置，所述检测模块具体用于：

B13、如B8所述的程序安装包检测装置，所述第一模型为AlexNet深度学习网络模型。

B14、如B8所述的程序安装包检测装置，所述特征向量为所述图像数据对应的4096维特征向量。

本发明公开了C15、一种电子设备，包括处理器和存储器，所述存储器耦接到所述处理器，所述存储器存储指令，当所述指令由所述处理器执行时使所述电子设备执行以下操作：

获取程序安装包中的图像数据；

通过预设的第一模型提取每个所述图像数据的特征向量；

本发明公开了D16、一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现A1-A7中任一项所述的步骤。

Claims

1.一种程序安装包检测方法，其特征在于，所述方法包括：

获取程序安装包中的图像数据；

通过预设的第一模型提取每个所述图像数据的特征向量；

2.如权利要求1所述的方法，其特征在于，所述第二模型通过下述方式预先获得：

3.如权利要求2所述的方法，其特征在于，所述对所述图像样本中所有图像数据的特征向量进行分类模型训练，得到所述第二模型的步骤，包括：

4.如权利要求2所述的方法，其特征在于，所述通过所述第一模型提取所述图像样本中所有图像数据的特征向量之前，还包括：

将所述图像样本中的所有图像数据均缩放到预设尺寸。

5.如权利要求1所述的方法，其特征在于，所述根据所得到的特征值判定所述程序安装包是否包含不良图像的步骤，包括：

6.如权利要求1所述的方法，其特征在于，所述第一模型为AlexNet深度学习网络模型。

7.如权利要求1所述的方法，其特征在于，所述特征向量为所述图像数据对应的4096维特征向量。

8.一种程序安装包检测装置，其特征在于，所述装置包括：

数据获取模块，用于获取程序安装包中的图像数据；

9.一种电子设备，其特征在于，包括处理器和存储器，所述存储器耦接到所述处理器，所述存储器存储指令，当所述指令由所述处理器执行时使所述电子设备执行以下操作：

获取程序安装包中的图像数据；

通过预设的第一模型提取每个所述图像数据的特征向量；

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1-7中任一项所述的步骤。