CN108287860A

CN108287860A - 模型生成方法、垃圾文件识别方法及装置

Info

Publication number: CN108287860A
Application number: CN201710791588.0A
Authority: CN
Inventors: 曹聪; 曹一聪; 魏雪
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2017-09-05
Filing date: 2017-09-05
Publication date: 2018-07-17

Abstract

本发明公开了一种模型生成方法、垃圾文件识别方法及装置，属于数据处理领域。所述方法包括：获取第一数据集和第二数据集，计算第一数据集对应的第一特征矩阵和第二数据集对应的第二特征矩阵，第一特征矩阵用于指示第一目录信息的文本特征，第二特征矩阵用于指示第二目录信息的文本特征；根据第一特征矩阵和第二特征矩阵，训练得到目标分类模型。本发明通过对特征矩阵进行训练得到用于确定待检测文件是否为所述垃圾文件的目标分类模型，使得后续过程中能够直接使用该目标分类模型智能识别垃圾文件，减轻了相关技术中人工维护配置文件的工作量。

Description

模型生成方法、垃圾文件识别方法及装置

技术领域

本发明实施例涉及数据处理领域，特别涉及一种模型生成方法、垃圾文件识别方法及装置。

背景技术

随着智能终端的普及，各种终端应用软件层出不穷，伴随而来的是终端上经常存在各种垃圾文件，如浏览器缓存文件、蓝牙文件、图片缓存等，这些垃圾文件很容易导致终端运行缓慢或增大耗电量。因此，有必要对垃圾文件进行及时的识别并清理。

目前使用较为广泛的垃圾文件识别方法是基于配置文件的垃圾文件识别方法。基于配置文件的垃圾文件识别方法的核心思想包括：预先通过人工观察各个应用程序运行中所产生的垃圾文件，确定出n个垃圾文件的垃圾类型和所在路径的路径信息等目录信息，将这n个垃圾文件对应的目录信息记录在配置文件中；客户端程序将按照该配置文件中的路径依次进行扫描，若扫描到的文件的类型与垃圾类型一致，则识别出该文件为垃圾文件。

但是，在上述方法中，配置文件是需要人工实时维护的，即每当出现新的垃圾类型时，均需要先经过人工观察和确定该垃圾类型，再对配置文件进行编辑和更新。在配置文件更新完成后，客户端程序才能基于更新后的配置文件识别垃圾文件。而随着垃圾类型的增多，人工维护配置文件不仅非常烦琐，而且不容易操作，导致垃圾文件的识别效果不佳。

发明内容

为了解决相关技术中人工维护配置文件导致基于配置文件的垃圾文件识别方法的识别效果不佳的问题，本发明实施例提供了模型生成方法、垃圾文件识别方法及装置。所述技术方案如下：

第一方面，提供了一种模型生成方法，所述方法包括：

获取第一数据集和第二数据集，所述第一数据集包括至少一个垃圾文件的第一目录信息，所述第二数据集包括至少一个非垃圾文件的第二目录信息，所述第一数据集和所述第二数据集不存在交集；

根据所述至少一个垃圾文件的所述第一目录信息，计算所述第一数据集对应的第一特征矩阵，所述第一特征矩阵用于指示所述第一目录信息的文本特征；

根据所述至少一个非垃圾文件的所述第二目录信息，计算所述第二数据集对应的第二特征矩阵，所述第二特征矩阵用于指示所述第二目录信息的文本特征；

根据所述第一特征矩阵和所述第二特征矩阵，训练得到目标分类模型，所述目标分类模型用于确定待检测文件是否为所述垃圾文件。

第二方面，提供了一种垃圾文件识别方法，采用如第一方面所述的模型生成方法所生成的所述目标分类模型，所述方法包括：

获取待检测文件的目录信息，所述待检测文件的目录信息包括所述待检测文件的扩展名信息和所述待检测文件所在路径的路径信息；

根据所述待检测文件的扩展名信息和对应的所述路径信息，采用所述目标分类模型得到所述待检测文件的识别结果，所述识别结果用于指示所述待检测文件是垃圾文件或者非垃圾文件。

第三方面，提供了一种模型生成装置，所述装置包括：

获取模块，用于获取第一数据集和第二数据集，所述第一数据集包括至少一个垃圾文件的第一目录信息，所述第二数据集包括至少一个非垃圾文件的第二目录信息，所述第一数据集和所述第二数据集不存在交集；

第一计算模块，用于根据所述至少一个垃圾文件的所述第一目录信息，计算所述第一数据集对应的第一特征矩阵，所述第一特征矩阵用于指示所述第一目录信息的文本特征；

第二计算模块，用于根据所述至少一个非垃圾文件的所述第二目录信息，计算所述第二数据集对应的第二特征矩阵，所述第二特征矩阵用于指示所述第二目录信息的文本特征；

训练模块，用于根据所述第一特征矩阵和所述第二特征矩阵，训练得到目标分类模型，所述目标分类模型用于确定待检测文件是否为所述垃圾文件。

在一种可能的实现方式中，所述获取模块，包括：获取单元和第一确定单元；

所述获取单元，用于获取垃圾配置文件，所述垃圾配置文件包括预设的所述至少一个垃圾文件的第一扩展名信息和所在路径的第一路径信息；

所述第一确定单元，用于对于每个所述垃圾文件，将所述垃圾文件的所述第一扩展名信息和所述第一路径信息确定为所述垃圾文件的所述第一目录信息，得到包括所述至少一个第一目录信息的所述第一数据集。

在一种可能的实现方式中，所述获取模块，包括：遍历单元、第二确定单元和得到单元；

所述遍历单元，用于遍历所述操作***中的k个磁盘文件各自对应的目录信息，所述目录信息包括所述磁盘文件的扩展名信息和所述磁盘文件所在路径的路径信息，所述k为正整数；

所述第二确定单元，用于当检测到第i个磁盘文件为所述非垃圾文件时，将所述第i个磁盘文件的所述目录信息确定为所述第二目录信息，将所述第二目录信息添加至所述第二数据集中，所述i为正整数，所述i≤k；

所述得到单元，用于得到包括所述至少一个第二目录信息的所述第二数据集。

在一种可能的实现方式中，所述至少一个垃圾文件的第一目录信息包括所述至少一个垃圾文件的第一扩展名信息和第一路径信息，

所述获取模块，还用于当所述第i个磁盘文件的所述目录信息满足第一预设条件时，确定所述第i个磁盘文件为所述非垃圾文件；

其中，所述第一预设条件包括所述第i个磁盘文件的所述扩展名信息与所述至少一个第一扩展名信息均不同，和/或所述第i个磁盘文件对应的所述路径信息与所述至少一个第一路径信息均不同。

在一种可能的实现方式中，所述第一计算模块，包括：第一分词单元、第一计算单元和第一生成单元；

所述第一分词单元，用于对所述至少一个第一目录信息进行分词处理，得到m个第一特征词语，所述m为正整数；

所述第一计算单元，用于计算所述m个第一特征词语各自对应的第一特征值，所述第一特征值用于指示所述第一特征词语对所述垃圾文件判定的区别能力；

所述第一生成单元，用于根据所述m个第一特征词语各自对应的所述第一特征值，生成所述第一数据集对应的所述第一特征矩阵。

在一种可能的实现方式中，所述第二计算模块，包括：第二分词单元、第二计算单元和第二生成单元；

所述第二分词单元，用于对所述至少一个第二目录信息进行分词处理，得到n个第二特征词语，所述n为正整数；

所述第二计算单元，用于计算所述n个第二特征词语各自对应的第二特征值，所述第二特征值用于指示所述第二特征词语对所述非垃圾文件判定的区别能力；

所述第二生成单元，用于根据所述n个第二特征词语各自对应的所述第二特征值，生成所述第二数据集对应的所述第二特征矩阵。

在一种可能的实现方式中，所述装置，还包括：

分类模块，用于将所述第一数据集分成第一训练集和第一测试集，将所述第二数据集分成第二训练集和第二测试集，所述第一训练集和所述第二训练集用于训练得到所述目标分类模型，所述第一测试集和所述第二测试集用于对所述目标分类模型进行测试得到分类准确率；

所述训练模块，包括：第三确定单元、第四确定单元和训练单元；

所述第三确定单元，用于根据所述第一特征矩阵，确定所述第一训练集对应的第一特征子矩阵；

所述第四确定单元，用于根据所述第二特征矩阵，确定所述第二训练集对应的第二特征子矩阵；

所述训练单元，用于根据所述第一特征子矩阵和所述第二特征子矩阵，训练得到所述目标分类模型。

在一种可能的实现方式中，所述训练单元，还用于将所述第一特征子矩阵和所述第二特征子矩阵输入逻辑回归模型中，训练得到所述目标分类模型。

第四方面，提供了一种垃圾文件识别装置，采用如第一方面所述的模型生成装置所生成的所述目标分类模型，所述装置包括：

获取模块，用于获取待检测文件的目录信息，所述待检测文件的目录信息包括所述待检测文件的扩展名信息和所述待检测文件所在路径的路径信息；

识别模块，用于根据所述待检测文件的扩展名信息和对应的所述路径信息，采用所述目标分类模型得到所述待检测文件的识别结果，所述识别结果用于指示所述待检测文件是否为垃圾文件。

第五方面，提供了一种模型生成设备，所述模型生成设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现第一方面所提供的模型生成方法。

第六方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现第一方面所提供的模型生成方法。

第七方面，提供了一种垃圾文件识别设备，所述垃圾文件识别设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现第二方面所提供的垃圾文件识别方法。

第八方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现第二方面所提供的垃圾文件识别方法。

本发明实施例提供的技术方案带来的有益效果是：

本发明实施例通过获取包括至少一个垃圾文件的第一目录信息的第一数据集和包括至少一个非垃圾文件的第二目录信息的第二数据集，分别计算第一数据集对应的第一特征矩阵和第二数据集对应的第二特征矩阵，根据第一特征矩阵和第二特征矩阵，训练得到目标分类模型；一方面，由于特征矩阵用于指示至少一个目录信息的文本特征，通过对特征矩阵进行训练得到目标分类模型，使得训练得到的目标分类模型更加可靠，进而提高了识别垃圾文件的准确率；另一方面，训练得到的目标分类模型用于确定待检测文件是否为垃圾文件，使得后续过程中能够直接使用该目标分类模型智能识别垃圾文件，减轻了相关技术中人工维护配置文件的工作量。

附图说明

图1A是本发明实施例涉及的实施环境的示意图；

图1B是本发明一个实施例提供的模型生成方法和垃圾文件识别方法的流程图；

图2是本发明另一个实施例提供的模型生成方法和垃圾文件识别方法的流程图；

图3是本发明另一个实施例提供的模型生成方法和垃圾文件识别方法的流程图；

图4是本发明另一个实施例提供的模型生成方法和垃圾文件识别方法的流程图；

图5是本发明一个实施例提供的模型生成方法的原理示意图；

图6是本发明另一个实施例提供的垃圾文件识别方法的流程图；

图7是本发明一个实施例提供的垃圾文件识别方法所涉及的界面示意图；

图8是本发明一个实施例提供的模型生成装置的结构示意图；

图9是本发明另一个实施例提供的模型生成装置的结构示意图；

图10是本发明一个实施例提供的垃圾文件识别装置的结构示意图；

图11是本发明一个实施例提供的终端1100的结构示意图；

图12是本发明一个实施例提供的服务器1200的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

首先，对本发明实施例涉及到的一些名词进行解释：

词频-反文档频率(Term Frequency–Inverse Document Frequency，TF-IDF)算法：是一种用于提取文本内容的文本特征的算法。

TF-IDF算法的核心思想是：对文本内容进行切词，得到各个特征词语；对于每个特征词语，获取该特征词语在文本内容中出现的TF，计算该特征词语的IDF，将该特征词语的TF与IDF的乘积作为该特征词语的TF-IDF值即特征值，通过各个特征词语的特征值表示文本内容的语义。

逻辑回归模型：是LR(Logistic Regression，逻辑回归)算法构建的LR模型。LR模型是一种线性分类模型，模型结构简单、分类效果较好，且具有现成的lib(library)库。

本发明实施例提供的技术方案，包括模型生成方法和垃圾文件识别方法，其中，模型生成方法主要用于训练得到用于确定待检测文件是否为垃圾文件的目标分类模型，垃圾文件识别方法主要用于将待检测文件的目录信息输入至上述训练得到的目标分类模型中，得到识别结果，该识别结果用于指示待检测文件是否为垃圾文件。

需要说明的是，该模型生成方法通常由服务器来完成；示意性的，该模型生成方法也可以由终端来完成，该垃圾文件识别方法通常由终端来完成，示意性的，该垃圾文件识别方法也可由服务器来完成。为了便于描述，在下述方法实施例中，仅以服务器完成模型生成方法，终端完成垃圾文件识别方法为例进行说明。

请参考图1A，其示出了本发明实施例涉及的实施环境的示意图。该实施环境包括服务器120和终端140。

服务器120是一台服务器，或者是若干台服务器，或者是一个虚拟化平台，或者是一个云计算服务中心。服务器120用于完成本发明实施例中所提供的模型生成方法。

可选的，当服务器120通过机器学习算法训练得到目标分类模型，该目标分类模型用于确定待检测文件是否为垃圾文件时，将该目标分类模型发送至终端140。

服务器120与终端140之间通过通信网络相连。可选地，通信网络是有线网络或无线网络。

终端140可以是手机、平板电脑、电子书阅读器、MP3播放器(Moving PictureExperts Group Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(MovingPicture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。终端140用于完成本发明实施例中所提供的垃圾文件识别方法。

可选的，终端140中安装有操作***管理类应用程序，终端140中的操作***管理类应用程序用于完成本发明实施例中所提供的垃圾文件识别方法；比如，操作***管理类应用程序为电脑管家。

通常，当服务器120通过机器学习算法训练得到目标分类模型，该目标分类模型用于确定待检测文件是否为垃圾文件时，将该目标分类模型发送至终端140；对应的，终端140根据接收到的目标分类模型，对终端140中的各个磁盘文件进行扫描识别，确定是否包括垃圾文件。

请参考图1B，其示出了本发明一个实施例提供的模型生成方法和垃圾文件识别方法的流程图。该模型生成方法和垃圾文件识别方法包括：

步骤101，获取第一数据集和第二数据集，第一数据集包括至少一个垃圾文件的第一目录信息，第二数据集包括至少一个非垃圾文件的第二目录信息，第一数据集和第二数据集不存在交集。

操作***中的磁盘文件包括垃圾文件和非垃圾文件，垃圾文件包括***垃圾文件、软件垃圾文件、上网垃圾文件、注册表垃圾文件、缓存文件中的至少一种，非垃圾文件是在操作***中除垃圾文件以外的其它磁盘文件。

磁盘文件的目录信息包括扩展名信息和所在路径的路径信息。

扩展名信息用于指示该磁盘文件的文件类型，扩展名信息包括该磁盘文件的文件扩展名(英文：filename extension)，文件扩展名称为文件的后缀名；比如，磁盘文件A的文件名为“读我.txt”，则该磁盘文件A的扩展名信息为“txt”，用于表示该磁盘文件A的文件类型为纯文本文件类型。

路径信息用于指示该磁盘文件在操作***中的文件位置；比如，磁盘文件A的路径信息为“c:\windows\xxx”。

为了方便区分垃圾文件的目录信息和非垃圾文件的目录信息，下面仅以垃圾文件的第一目录信息包括垃圾文件的第一扩展名信息和所在路径的第一路径信息，非垃圾文件的第二目录信息包括非垃圾文件的第二扩展名信息和所在路径的第二路径信息为例进行说明。

可选的，服务器中预先存储有垃圾配置文件和非垃圾配置文件，垃圾配置文件中包括至少一个垃圾文件的第一目录信息，非垃圾配置文件中包括至少一个非垃圾文件的第二目录信息。服务器获取第一数据集和第二数据集的方式包括：服务器从垃圾配置文件中获取包括至少一个第一目录信息的第一数据集，从非垃圾配置文件中获取包括至少一个第二目录信息的第二数据集。

步骤102，根据至少一个垃圾文件的第一目录信息，计算第一数据集对应的第一特征矩阵，第一特征矩阵用于指示第一目录信息的文本特征。

服务器根据至少一个垃圾文件的第一目录信息，确定第一目录信息的文本特征，计算第一数据集对应的第一特征矩阵。第一数据集对应的第一特征矩阵的计算过程参见下述实施例中的相关细节，在此不再赘述。

文本特征包括词频特征，第一目录信息的文本特征用于指示字词在至少一个第一目录信息中出现频率的特征。比如，文本特征包括：字词对应的TF-IDF，第一特征矩阵为TF-IDF矩阵。

步骤103，根据至少一个非垃圾文件的第二目录信息，计算第二数据集对应的第二特征矩阵，第二特征矩阵用于指示第二目录信息的文本特征。

服务器根据至少一个非垃圾文件的第二目录信息，确定第二目录信息的文本特征，计算第二数据集对应的第二特征矩阵。第一特征矩阵和第二特征矩阵的计算过程参见下述实施例中的相关细节，在此不再赘述。

步骤104，根据第一特征矩阵和第二特征矩阵，训练得到目标分类模型，目标分类模型用于确定待检测文件是否为垃圾文件。

服务器预先构建逻辑回归模型，服务器将第一特征矩阵和第二特征矩阵输入至该逻辑回归模型中，训练得到目标分类模型。可选的，逻辑回归模型为LR模型。

以上是生成模型的过程，可选的，生成模型之后，服务器将训练好的目标分类模型下发至终端，对应的，终端获取到该目标分类模型，用于执行如下所述的垃圾文件识别过程。

步骤105，获取待检测文件的目录信息，待检测文件的目录信息包括待检测文件的扩展名信息和待检测文件所在路径的路径信息。

其中，待检测文件为操作***中的任意一个磁盘文件。

在一种可能的实现方式中，终端中预存有各个磁盘文件和每个磁盘文件对应的目录信息，当终端确定待检测文件时，获取与该待检测文件对应的目录信息。在另一种可能的实现方式中，待检测文件中携带有该待检测文件的目录信息，当终端确定待检测文件时，对待检测文件进行解析获取待检测文件的目录信息。

步骤106，根据待检测文件的扩展名信息和对应的路径信息，采用目标分类模型中得到该待检测文件的识别结果，识别结果用于指示待检测文件是否为垃圾文件。

终端将待检测文件的扩展名信息和对应的路径信息进行处理后，以特征向量的形式输入至目标分类模型中，得到该待检测文件的识别结果。

需要说明的是，步骤101至步骤104可以单独实现成为一种模型生成方法，步骤105和步骤106可以单独实现成为一种垃圾文件识别方法，本实施例对此不加以限定。

综上所述，本发明实施例通过获取包括至少一个垃圾文件的第一目录信息的第一数据集和包括至少一个非垃圾文件的第二目录信息的第二数据集，分别计算第一数据集对应的第一特征矩阵和第二数据集对应的第二特征矩阵，根据第一特征矩阵和第二特征矩阵，训练得到目标分类模型；一方面，由于特征矩阵用于指示至少一个目录信息的文本特征，通过对特征矩阵进行训练得到目标分类模型，使得训练得到的目标分类模型更加可靠，进而提高了识别垃圾文件的准确率；另一方面，训练得到的目标分类模型用于确定待检测文件是否为垃圾文件，使得后续过程中能够直接使用该目标分类模型智能识别垃圾文件，减轻了相关技术中人工维护配置文件的工作量。

由于操作***中非垃圾文件的数量远远大于垃圾文件的数量，若服务器中即存储有包括垃圾文件的第一目录信息的垃圾配置文件，又存储有包括所有非垃圾文件的第二目录信息的非垃圾配置文件，则会浪费大量的存储资源，因此在一种可能的实现方式中，步骤101可被替代实现如下几个步骤，如图2所示：

步骤201，获取垃圾配置文件，垃圾配置文件包括预设的至少一个垃圾文件的第一扩展名信息和所在路径的第一路径信息。

在服务器获取垃圾配置文件之前，在操作***中的各个磁盘文件中预先确定至少一个垃圾文件，服务器中存储有包括至少一个垃圾文件的第一扩展名信息和第一路径信息的垃圾配置文件。因此，在进行垃圾文件识别时，服务器获取预先存储的垃圾配置文件。

步骤202，对于每个垃圾文件，将垃圾文件的第一扩展名信息和第一路径信息确定为垃圾文件的第一目录信息，得到包括至少一个第一目录信息的第一数据集。

服务器从垃圾配置文件中提取至少一个垃圾文件的第一扩展名信息和第一路径信息，将每个垃圾文件的第一扩展名信息和第一路径信息作为该垃圾文件的第一目录信息，从而得到第一数据集。

步骤203，遍历操作***中的k个磁盘文件各自对应的目录信息，目录信息包括磁盘文件的扩展名信息和磁盘文件所在路径的路径信息，k为正整数。

服务器在获取到垃圾配置文件之后，通过遍历操作***中的所有磁盘文件的目录信息，排除目录信息为第一目录信息的磁盘文件即垃圾文件，得到目录信息不是第一目录信息的磁盘文件即至少一个非垃圾文件。

可选的，k的取值为该操作***中所有磁盘文件的数量，或者k的取值为预设数值。本实施例对比不加以限定。

步骤204，当第i个磁盘文件的目录信息满足第一预设条件时，确定第i个磁盘文件为非垃圾文件，i为正整数，i≤k。

其中，第一预设条件包括第i个磁盘文件的扩展名信息与至少一个第一扩展名信息均不同，和/或第i个磁盘文件对应的路径信息与至少一个第一路径信息均不同。

每当服务器检测到一个磁盘文件时，判断该磁盘文件的扩展名信息与至少一个垃圾文件的第一扩展名信息是否相同，并判断该磁盘文件的路径信息与至少一个垃圾文件的第一路径信息是否相同；当该磁盘文件的目录信息满足：扩展名信息与至少一个第一扩展名信息均不同，和路径信息与至少一个第一路径信息均不同这两个条件中的至少一种时，确定该磁盘文件为非垃圾文件。

步骤205，当检测到第i个磁盘文件为非垃圾文件时，将第i个磁盘文件的目录信息确定为第二目录信息，将第二目录信息添加至第二数据集中，得到包括至少一个第二目录信息的第二数据集。

当检测到第i个磁盘文件为非垃圾文件时，服务器将第i个磁盘文件的目录信息确定为第二目录信息，即将第i个磁盘文件的扩展名信息确定为第二扩展名信息，将第i个磁盘文件对应的路径信息确定为第二路径信息。

比如，设置k为500万，即操作***中包括500万个磁盘文件，当检测出第500万个磁盘文件为非垃圾文件时，得到包括415万个第二目录信息的第二数据集。

综上所述，本发明实施例还通过垃圾配置文件获取包括至少一个垃圾文件的第一目录信息的第一数据集，通过遍历操作***中的各个磁盘文件确定至少一个非垃圾文件，获取包括至少一个非垃圾文件的第二目录信息的第二数据集；使得服务器中在不需要存储有非垃圾配置文件，而仅需要存储有垃圾配置文件的情况下，能够获取到准确的第一数据集和第二数据集，节省大量的存储资源。

下面，对上述的步骤102和步骤103中第一数据集对应的第一特征矩阵和第二数据集对应的第二特征矩阵的生成过程进行示意性的介绍。步骤102和步骤103可被替代实现成为如下几个步骤，如图3所示：

步骤301，对至少一个第一目录信息进行分词处理，得到m个第一特征词语，m为正整数。

分词处理是指采用预设的词语分词策略将至少一个第一目录信息分为若干个第一特征词语。词语分词策略包括字符串匹配的分词方法、词义分词法和统计分词法中的至少一种。

由于经分词处理后得到的若干个第一特征词语中，包括一些无意义词语，而这些无意义词语不具有实际意义，对特征词语的提取来说是冗余的，因而，需要进行过滤处理。

可选的，服务器对至少一个第一目录信息进行分词处理得到x个第一特征词语之后，服务器根据预先设置的词语过滤策略对x个第一特征词语进行过滤处理，得到m个第一特征词语，x为正整数，m≤x。

其中，词语过滤策略包括从x个第一特征词语中去除无意义词语，无意义词语包括停用词和/或无关词性词，停用词是指无意义的常见词或一些符号，例如，“\”、“.”、“:”等，无关词性词包括：连词、状态词、语气虚词、形容词、代词等。

比如，第一目录信息为Q，对Q进行分词之后，可以得到6个第一特征词语，分别表示为o、p、q、r、s和t；通过过滤处理去除无意义词语，得到3个第一特征词语，分别表示为o、r和t。

步骤302，计算m个第一特征词语各自对应的第一特征值，第一特征值用于指示第一特征词语对垃圾文件判定的区别能力。

第一特征值用于指示第一特征词语对垃圾文件判定的区别能力，也就是说，第一特征值越大，表示该第一特征词语越能代表垃圾文件的特征，即用该第一特征词语作为垃圾文件的特征以区别非垃圾文件的区别能力越强。

第一特征词语的第一特征值可以通过算法预先计算，也可以通过模型进行训练得到。

在一种可能的实现方式中，对于每个第一特征词语，服务器统计该第一特征词语在至少一个第一目录信息中出现的词频TF，计算该第一特征词语的反文档频率IDF，从而计算该第一特征词语的词频TF与反文档频率IDF的乘积，将该乘积作为该第一特征词语的TF-IDF值即第一特征值。

示意性的，对于一个目标文档d_j中的特征词语t_i，通过如下公式计算词频TF_i，j：

其中，TF_i，j为特征词语t_i在目标文档d_j中的词频，n_i，j为特征词语t_i在目标文档d_j中的出现次数，∑_kn_k,j为目标文档d_j中所有词语的出现次数之和。

示意性的，对于一个目标文档d_j中的特征词语t_i，通过如下公式计算反向文档频率IDF_i：

其中，IDF_i是特征词语t_i的反向文档频率，|D|是总文档库中的文档数之和，是总文档库中包含词语t_i的文档的文档信息w_j之和。

步骤303，根据m个第一特征词语各自对应的第一特征值，生成第一数据集对应的第一特征矩阵。

服务器将m个第一特征词语各自对应的第一特征值以矩阵的形式表示，得到第一数据集对应的第一特征矩阵。比如，第一特征矩阵为TF-IDF矩阵。

步骤304，对至少一个第二目录信息进行分词处理，得到n个第二特征词语，n为正整数。

服务器对至少一个第二目录信息进行分词处理，得到n个第二特征词语。

步骤305，计算n个第二特征词语各自对应的第二特征值，第二特征值用于指示第二特征词语对非垃圾文件判定的区别能力。

服务器计算n个第二特征词语各自对应的第二特征值。

步骤306，根据n个第二特征词语各自对应的第二特征值，生成第二数据集对应的第二特征矩阵。

服务器根据n个第二特征词语各自对应的第二特征值，生成第二数据集对应的第二特征矩阵。

需要说明的是，步骤301至步骤303、与步骤304至步骤306可以并列执行。第二数据集对应的第二特征矩阵的生成过程可类比参考步骤301至步骤303中第一特征矩阵的生成过程，在此不再赘述。

为了对训练得到的目标分类模型进行测试，确定该目标分类模型的分类准确率，在一种可能的实现方式中，将第一数据集分成第一训练集和第一测试集，将第二数据集分成第二训练集和第二测试集；其中，第一训练集和第二训练集用于训练得到目标分类模型，第一测试集和第二测试集用于对目标分类模型进行测试得到分类准确率，步骤104可被替换成为如下几个步骤，如图4所示：

步骤401，将第一数据集分成第一训练集和第一测试集。

可选的，第一数据集包括y个垃圾文件的第一目录信息，将第一数据集按照预设比例随机分成第一训练集和第一测试集，第一训练集包括y1个垃圾文件的第一目录信息，第一测试集包括y2个垃圾文件各自对应的第一目录信息，y＝y1+y2，y、y1、y2均为正整数。

预设比例可以是y1:y2＝1:1，也可以是y1:y2＝2:1，本实施例对此不加以限定。

步骤402，将第二数据集分成第二训练集和第二测试集。

可选的，第二数据集包括w个垃圾文件的第二目录信息，将第二数据集按照预设比例随机分成第二训练集和第二测试集，第二训练集包括w1个第二目录信息，第二测试集包括w2个第二目录信息，w＝w1+w2，w、w1、w2均为正整数。

预设比例可以是w1:w2＝1:1，也可以是w1:w2＝2:1，本实施例对此不加以限定。

步骤403，根据第一特征矩阵，确定第一训练集对应的第一特征子矩阵。

服务器确定第一训练集中的y1个第一目录信息，从第一特征矩阵中的各个第一特征值中确定确定与y1个第一目录信息各自对应的第一特征值，将这y1个第一特征值以矩阵的形式表示，得到第一训练集对应的第一特征子矩阵。

步骤404，根据第二特征矩阵，确定第二训练集对应的第二特征子矩阵。

服务器根据第一特征矩阵，确定与第二训练集中w1个第二目录信息各自对应的第二特征值，得到w1个第二特征值对应的第二特征子矩阵。

服务器确定第二训练集中的w1个第二目录信息，从第二特征矩阵中的各个第二特征值中确定确定与w1个第二目录信息各自对应的第二特征值，将这w1个第二特征值以矩阵的形式表示，得到第二训练集对应的第二特征子矩阵。

需要说明的是，步骤401和步骤403与步骤402和步骤404可以并列执行。

步骤405，根据第一特征子矩阵和第二特征子矩阵，训练得到目标分类模型。

可选的，服务器将第一特征子矩阵和第二特征子矩阵输入LR模型中，训练得到目标分类模型。

为了检查训练得到的目标分类模型的垃圾文件识别的性能，在一种可能的实现方式中，根据第一测试集和第二测试集，对目标分类模型进行测试得到分类准确率。

根据第一特征矩阵，确定第一测试集对应的第三特征子矩阵，根据第二特征矩阵，确定第二训练集对应的第四特征子矩阵，根据第三特征子矩阵和第四特征子矩阵，对目标分类模型进行测试得到分类准确率。

可选的，分类准确率包括总体分类准确率和/或个体分类准确率，总体分类准确率用于指示各个类别的总体对应的分类准确率，个体分类准确率用于指示一个类别对应的分类准确率。

比如，根据第三特征子矩阵和第四特征子矩阵，对目标分类模型进行测试,得到的垃圾文件对应的分类准确率为90％，非垃圾文件对应的分类准确率为95％，总体分类准确率为92％。

在一个示意性的例子中，如图5所示，服务器获取第一数据集和第二数据集，将第一数据集按比例随机分为第一训练集和第一测试集，将第二数据集按比例随机分为第二训练集和第二测试集。服务器对第一训练集中的至少一个第一目录信息和第二训练集中的至少一个第二录信息分别进行文本预处理和特征计算，得到第一训练集对应的特征子矩阵1和第二训练集对应的特征子矩阵2；对第一测试集中的至少一个第一目录信息和第二测试集中的至少一个第二录信息分别进行文本预处理和特征计算，得到第一测试集对应的特征子矩阵3和第二测试集对应的特征子矩阵4；其中文本预处理包括分词处理和过滤处理。服务器根据特征子矩阵1和特征子矩阵2进行训练得到目标分类模型，使用训练得到的目标分类模型对特征子矩阵3和特征子矩阵4进行测试，得到分类准确率为90％。

综上所述，本发明实施例还通过将第一数据集分成第一训练集和第一测试集，将第二数据集分成第二训练集和第二测试集，根据第一特征矩阵，确定第一训练集对应的第一特征子矩阵，根据第二特征矩阵，确定第二训练集对应的第二特征子矩阵，根据第一特征子矩阵和第二特征子矩阵，训练得到目标分类模型；使得通过第一训练集和第二训练集训练得到目标分类模型，通过第一测试集和第二测试集对目标分类模型进行测试得到分类准确率，检查目标分类模型的垃圾文件识别的性能。

请参考图6，其示出了本发明一个实施例提供的垃圾文件识别方法的流程图。该垃圾文件识别方法包括：

步骤601，自动扫描操作***中的各个待检测文件。

在一种可能的实现方式中，用户手动开启自动扫描程序，使得终端扫描操作***中的各个待检测文件。即终端在打开特定应用程序的主界面之后，当获取到对应于扫描入口的扫描触发操作时，开启自动扫描程序，即自动扫描操作***中的各个待检测文件。可选的，特定应用程序为操作***管理类应用程序。

扫描入口是用于开启自动扫描程序的可操作控件。可选的，扫描入口的类型包括按钮、可操控的条目、滑块中的至少一种。本发明实施例中的第一清理入口和第二清理入口可类比参考扫描入口的描述，不再赘述。

扫描触发操作是用于触发开启扫描入口对应的自动扫描程序的用户操作。可选的，扫描触发操作包括点击操作、滑动操作、按压操作、长按操作中的任意一种或多种的组合。本发明实施例中的第一触发操作和第二触发操作可类比参考扫描触发操作的描述，不再赘述。

在另一种可能的实现方式中，在***启动后，通过后台启动扫描程序自动扫描操作***中的各个待检测文件，简化了用户操作。

进一步地，为了能够及时地清理垃圾文件，在启动扫描程序自动扫描垃圾文件时，可通过启动的扫描程序实时扫描垃圾文件。由于是实时扫描，因而能够及时扫描并清理垃圾文件，进而加快***运行速度，并节省因垃圾文件的运行而消耗的资源。

除此之外，为了避免因实时扫描垃圾文件对用户造成困扰，采用定时扫描垃圾文件的方式，例如，每隔5分钟通过启动的扫描程序扫描垃圾文件，或每隔10分钟通过启动的扫描程序扫描垃圾文件。本实施例对定时扫描垃圾文件的时间不加以限定，实际应用过程中，还可以由用户来设定定时扫描垃圾文件的时间。

步骤602，对于每个待检测文件，获取待检测文件的目录信息，待检测文件的目录信息包括待检测文件的扩展名信息和待检测文件所在路径的路径信息。

当终端扫描到一个待检测文件时，对待检测文件进行解析，得到该待检测文件的扩展名信息和路径信息。

步骤603，根据待检测文件的扩展名信息和对应的路径信息，采用目标分类模型得到该待检测文件对应的识别结果，识别结果用于指示待检测文件是否为垃圾文件。

终端将待检测文件的扩展名信息和对应的路径信息进行预处理，包括分词处理和过滤处理，得到至少一个特征词语，计算至少一个特征词语的特征值，将该特征值以特征向量的形式输入至目标分类模型中，得到该待检测文件对应的识别结果。

步骤604，根据至少一个用于指示待检测文件是垃圾文件的识别结果，显示扫描结果，该扫描结果包括至少一个垃圾文件的文件信息。

终端采用目标分类模型依次对扫描到的待检测文件进行识别，得到各个待检测文件各自对应的识别结果，根据至少一个用于指示待检测文件是垃圾文件的识别结果，显示包括至少一个垃圾文件的文件信息的扫描结果。可选的，至少一个垃圾文件的文件信息包括但不限于垃圾文件的文件类型和数量。

可选的，以浮动窗口或提示条的形式在用户界面中显示扫描结果，该浮动窗口或提示条显示于用户界面的固定位置，或者，该浮动窗口或提示条随用户界面的滑动而移动显示。

浮动窗口可以固定显示在桌面的中间位置，还可以显示在桌面的其他任意位置，且如果终端进入其他应用界面，该浮动窗口还可以随着页面的滑动而移动显示，本实施例不对显示扫描结果的方式及位置进行限定。由于在扫描到垃圾文件之后，通过将其显示给用户，使用户可以清楚地获知***速度变慢的原因，促使用户及时确认是否清理扫描到的垃圾文件。

步骤605，显示提示信息，提示信息用于提示是否清理垃圾文件。

进一步地，在显示扫描到的垃圾文件后，为了实现在用户确认的情况下及时清理扫描到的垃圾文件，以避免误清理用户当前正在使用的文件，影响用户的操作，本实施例提供的方法在显示扫描结果的同时，还包括：当识别结果用于指示待检测文件是垃圾文件时，终端显示用于提示是否清理垃圾文件的提示信息。

在一种可能的实现方式中，提示信息包括第一清理入口，当终端显示扫描结果和第一清理入口时，若用户确定清理该垃圾文件，则对第一清理入口进行第一触发操作，以使得终端获取到第一清理入口对应的第一触发操作；若用户确定不清理该垃圾文件，则不对第一清理入口进行第一触发操作。

比如，第一清理入口是显示有文字“立即清理”的按钮，当用户点击按钮“立即清理”时用于指示终端清理该垃圾文件。

在另一种可能的实现方式中，提示信息包括第一清理入口和第二清理入口，当终端显示扫描结果、第一清理入口和第二清理入口时，若用户确定清理该垃圾文件，则对第一清理入口进行第一触发操作；若用户确定不清理该垃圾文件，则对第二清理入口进行第二触发操作。

比如，第一清理入口是显示有文字“是”的按钮，第二清理入口是显示有文字“否”的按钮，当用户点击按钮“是”时用于指示终端清理该垃圾文件，当用户点击按钮“否”时用于指示终端不清理该垃圾文件。

步骤606，判断获取到的触发操作是否为第一触发操作。

当终端判断出获取到的触发操作是第一触发操作时，该执行步骤607；当终端判断出获取到的触发操作不是第一触发操作时，执行步骤608。

步骤607，当获取到的触发操作为第一触发操作时，清理垃圾文件。

当获取到的触发操作为第一触发操作时，清理垃圾文件。可选的，在清理垃圾文件之前，将该垃圾文件的目录信息添加至垃圾配置文件中，即将该垃圾文件的扩展名信息和对应的路径信息添加至垃圾配置文件中。

步骤608，当获取到的触发操作不是第一触发操作时，不清理垃圾文件。

当获取到的触发操作不是第一触发操作时，生成并存储误判信息，误判信息用于指示将待检测文件重新确定为非垃圾文件。

当终端获取到的触发操作不是第一触发操作时，不清理垃圾文件。可选的，终端生成误判信息，该误判信息用于指示将待检测文件重新确定为非垃圾文件，并将该误判信息存储在终端中，以便后续过程中终端能够更加精准地对待检测文件进行识别。

可选的，在终端生成误判信息之后，当终端接收对应于该误判信息的触发操作，该触发操作用于指示终端将误判信息发送至后台服务器时，终端根据该触发操作将误判信息发送至服务器；对应的，服务器接收并存储该误判信息。服务器用于对接收到的若干个误判信息进行聚类分析，通过人工确定得到被误判次数高于预定阈值的误判信息，进而使得在后续过程中服务器能够根据被误判次数高于预定阈值的误判信息，对目标分类模型进行改进。

可选的，终端在扫描到垃圾文件后，显示扫描结果，该扫描结果包括第一扫描结果和/或第二扫描结果，第一扫描结果包括相关技术中依赖于配置文件所扫描出来的至少一个垃圾文件的文件信息，第二扫描结果包括利用本发明实施例所提供的垃圾文件识别方法所扫描出来的至少一个垃圾文件的文件信息。

在一个示意性的例子中，如图7所示，第一扫描结果71包括***垃圾、软件垃圾、上网垃圾这三个选项，第二扫描结果72包括深度垃圾这一个选项，第一扫描结果71默认被选择，且第二扫描结果72默认不被选择，再由用户确定需要清理的选项，通过点击“立即清理”按钮73确定清理选中的选项以释放磁盘空间。

下述为本发明装置实施例，可以用于执行本发明方法实施例。对于本发明装置实施例中未披露的细节，请参照本发明方法实施例。

请参考图8，其示出了本发明一个实施例提供的模型生成装置的结构示意图。该模型生成装置可以通过专用硬件电路，或者，软硬件的结合实现成为模型生成设备的全部或一部分，该模型生成装置包括：获取模块810、第一计算模块820、第二计算模块830和训练模块840。

获取模块810，用于实现上述步骤101；

第一计算模块820，用于实现上述步骤102；

第二计算模块830，用于实现上述步骤103；

训练模块840，用于实现上述步骤104。

在基于图8所示实施例提供的一个可选实施例中，如图9所示，该获取模块810，包括：获取单元811和第一确定单元812；

获取单元811，用于实现上述步骤201；

第一确定单元812，用于实现上述步骤202。

在基于图8所示实施例提供的一个可选实施例中，如图9所示，该获取模块810，包括：遍历单元813、第二确定单元814和得到单元815；

遍历单元813，用于实现上述步骤203；

第二确定单元814，用于实现上述步骤205；

得到单元815，用于实现上述步骤206。

在基于图8所示实施例提供的一个可选实施例中，如图9所示，至少一个垃圾文件的第一目录信息包括至少一个垃圾文件的第一扩展名信息和第一路径信息，

获取模块810，还用于实现上述步骤204。

在基于图8所示实施例提供的一个可选实施例中，如图9所示，该第一计算模块820，包括：第一分词单元821、第一计算单元822和第一生成单元823；

第一分词单元821，用于实现上述步骤301；

第一计算单元822，用于实现上述步骤302；

第一生成单元823，用于实现上述步骤303。

在基于图8所示实施例提供的一个可选实施例中，如图9所示，该第二计算模块830，包括：第二分词单元831、第二计算单元832和第二生成单元833；

第二分词单元831，用于实现上述步骤304；

第二计算单元832，用于实现上述步骤305；

第二生成单元833，用于实现上述步骤306。

在基于图8所示实施例提供的一个可选实施例中，如图9所示，该装置，还包括：分类模块850。

分类模块850，用于实现上述步骤401和步骤402；

训练模块840，包括：第三确定单元841、第四确定单元842和训练单元843；

第三确定单元841，用于实现上述步骤403；

第四确定单元842，用于实现上述步骤404；

训练单元843，用于实现上述步骤405。

在基于图8所示实施例提供的一个可选实施例中，如图9所示，该训练单元843，还用于将第一特征子矩阵和第二特征子矩阵输入逻辑回归模型中，训练得到目标分类模型。

相关细节可结合参考图1B至图7所示的方法实施例。其中，获取模块810还用于实现上述方法实施例中其他任意隐含或公开的与获取步骤相关的功能；第一计算模块820和第二计算模块830还用于实现上述方法实施例中其他任意隐含或公开的与计算步骤相关的功能；训练模块840还用于实现上述方法实施例中其他任意隐含或公开的与训练步骤相关的功能。

请参考图10，其示出了本发明一个实施例提供的垃圾文件识别装置的结构示意图。该垃圾文件识别装置可以通过专用硬件电路，或者，软硬件的结合实现成为垃圾文件识别装置的全部或一部分，采用如第一方面的模型生成装置所生成的目标分类模型，该垃圾文件识别装置包括：获取模块1010和识别模块1020。

获取模块1010，用于实现上述步骤105；

识别模块1020，用于实现上述步骤106。

相关细节可结合参考图1B至图7所示的方法实施例。其中，获取模块1010还用于实现上述方法实施例中其他任意隐含或公开的与获取步骤相关的功能；识别模块1010还用于实现上述方法实施例中其他任意隐含或公开的与识别步骤相关的功能。

需要说明的是，上述实施例提供的装置，在实现其功能时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的装置与方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

本发明实施例提供了一种模型生成设备，该模型生成设备包括处理器和存储器，存储器中存储有至少一条指令、至少一段程序、代码集或指令集，至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现上述各个方法实施例提供的模型生成方法。

可选的，该模型生成设备为服务器。

本发明实施例提供了一种垃圾文件识别设备，该垃圾文件识别设备包括处理器和存储器，存储器中存储有至少一条指令、至少一段程序、代码集或指令集，至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现上述各个方法实施例提供的垃圾文件识别方法。

可选的，该垃圾文件识别设备为服务器。

请参考图11，其示出了本发明一个实施例提供的终端1100的结构示意图。该终端1100可以包括RF(Radio Frequency，射频)电路1110、包括有一个或一个以上计算机可读存储介质的存储器1120、输入单元1130、显示单元1140、传感器1150、音频电路1160、WiFi(wireless fidelity，无线保真)模块1170、包括有一个或者一个以上处理核心的处理器1180、以及电源1190等部件。本领域技术人员可以理解，图11中示出的设备结构并不构成对设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

RF电路1110可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，交由一个或者一个以上处理器1180处理；另外，将涉及上行的数据发送给基站。通常，RF电路1110包括但不限于天线、至少一个放大器、调谐器、一个或多个振荡器、用户身份模块(SIM)卡、收发信机、耦合器、LNA(Low Noise Amplifier，低噪声放大器)、双工器等。此外，RF电路1110还可以通过无线通信与网络和其他设备通信。无线通信可以使用任一通信标准或协议，包括但不限于GSM(Global System of Mobile communication，全球移动通讯***)、GPRS(General Packet Radio Service，通用分组无线服务)、CDMA(CodeDivision Multiple Access，码分多址)、WCDMA(Wideband Code Division MultipleAccess,宽带码分多址)、LTE(Long Term Evolution,长期演进)、电子邮件、SMS(ShortMessaging Service，短信息服务)等。存储器1120可用于存储软件程序以及模块。处理器1180通过运行存储在存储器1120的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器1120可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据终端1100的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器1120可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器1120还可以包括存储器控制器，以提供处理器1180和输入单元1130对存储器1120的访问。

输入单元1130可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。具体地，输入单元1130可包括触敏表面1131以及其他输入设备1132。触敏表面1131，也称为触摸显示屏或者触控板，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触敏表面1131上或在触敏表面1131附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触敏表面1131可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器1180，并能接收处理器1180发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触敏表面1131。除了触敏表面1131，输入单元1130还可以包括其他输入设备1132。具体地，其他输入设备1132可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元1140可用于显示由用户输入的信息或提供给用户的信息以及设备110的各种图形用户接口，这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元1140可包括显示面板1141，可选的，可以采用LCD(Liquid Crystal Display，液晶显示器)、OLED(Organic Light-Emitting Diode,有机发光二极管)等形式来配置显示面板1141。进一步的，触敏表面1131可覆盖在显示面板1141之上，当触敏表面1131检测到在其上或附近的触摸操作后，传送给处理器1180以确定触摸事件的类型，随后处理器1180根据触摸事件的类型在显示面板1141上提供相应的视觉输出。虽然在图11中，触敏表面1131与显示面板1141是作为两个独立的部件来实现输入和输入功能，但是在某些实施例中，可以将触敏表面1131与显示面板1141集成而实现输入和输出功能。

终端1100还可包括至少一种传感器1150，比如光传感器、运动传感器以及其它传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板1141的亮度，接近传感器可在终端1100移动到耳边时，关闭显示面板1141和/或背光。作为运动传感器的一种，重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于终端1100还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其它传感器，在此不再赘述。

音频电路1160、扬声器1121，传声器1122可提供用户与终端1100之间的音频接口。音频电路1160可将接收到的音频数据转换后的电信号，传输到扬声器1121，由扬声器1121转换为声音信号输出；另一方面，传声器1122将收集的声音信号转换为电信号，由音频电路1160接收后转换为音频数据，再将音频数据输出处理器1180处理后，经RF电路1110以发送给另一设备，或者将音频数据输出至存储器1120以便进一步处理。音频电路1160还可能包括耳塞插孔，以提供外设耳机与终端1100的通信。

WiFi属于短距离无线传输技术，终端1100通过WiFi模块1170可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图11示出了WiFi模块1170，但是可以理解的是，其并不属于终端1100的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器1180是终端1100的控制中心，利用各种接口和线路连接整个设备的各个部分，通过运行或执行存储在存储器1120内的软件程序和/或模块，以及调用存储在存储器1120内的数据，执行终端1100的各种功能和处理数据，从而对设备进行整体监控。可选的，处理器1180可包括一个或多个处理核心；可选的，处理器1180可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作***、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器1180中。

终端1100还包括给各个部件供电的电源1190(比如电池)，优选的，电源可以通过电源管理***与处理器1180逻辑相连，从而通过电源管理***实现管理充电、放电、以及功耗管理等功能。电源1190还可以包括一个或一个以上的直流或交流电源、再充电***、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

尽管未示出，终端1100还可以包括摄像头、蓝牙模块等，在此不再赘述。

请参考图12，其示出了本发明一个实施例提供的服务器1200的结构示意图。该服务器1200包括中央处理单元(CPU)1201、包括随机存取存储器(RAM)1202和只读存储器(ROM)1203的***存储器1204，以及连接***存储器1204和中央处理单元1201的***总线1205。所述服务器1200还包括帮助计算机内的各个器件之间传输信息的基本输入/输出***(I/O***)1206，和用于存储操作***1213、应用程序1214和其他程序模块1215的大容量存储设备1207。

所述基本输入/输出***1206包括有用于显示信息的显示器1208和用于用户输入信息的诸如鼠标、键盘之类的输入设备1209。其中所述显示器1208和输入设备1209都通过连接到***总线1205的输入输出控制器1210连接到中央处理单元1201。所述基本输入/输出***1206还可以包括输入输出控制器1210以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地，输入输出控制器1210还提供输出到显示屏、打印机或其他类型的输出设备。

所述大容量存储设备1207通过连接到***总线1205的大容量存储控制器(未示出)连接到中央处理单元1201。所述大容量存储设备1207及其相关联的计算机可读介质为服务器1200提供非易失性存储。也就是说，所述大容量存储设备1207可以包括诸如硬盘或者CD-ROI驱动器之类的计算机可读介质(未示出)。

不失一般性，所述计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM、EEPROM、闪存或其他固态存储其技术，CD-ROM、DVD或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知所述计算机存储介质不局限于上述几种。上述的***存储器1204和大容量存储设备1207可以统称为存储器。

根据本发明的各种实施例，所述服务器1200还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即服务器1200可以通过连接在所述***总线1205上的网络接口单元1211连接到网络1212，或者说，也可以使用网络接口单元1211来连接到其他类型的网络或远程计算机***(未示出)。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

本领域普通技术人员可以理解实现上述实施例的模型生成方法和垃圾文件识别方法中全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。或者说，该存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，该至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现如上述各个方法实施例中的模型生成方法和/或垃圾文件识别方法。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种模型生成方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述获取第一数据集，包括：

获取垃圾配置文件，所述垃圾配置文件包括预设的所述至少一个垃圾文件的第一扩展名信息和所在路径的第一路径信息；

对于每个所述垃圾文件，将所述垃圾文件的所述第一扩展名信息和所述第一路径信息确定为所述垃圾文件的所述第一目录信息，得到包括所述至少一个第一目录信息的所述第一数据集。

3.根据权利要求1所述的方法，其特征在于，所述获取第二数据集，包括：

遍历所述操作***中的k个磁盘文件各自对应的目录信息，所述目录信息包括所述磁盘文件的扩展名信息和所述磁盘文件所在路径的路径信息，所述k为正整数；

当检测到第i个磁盘文件为所述非垃圾文件时，将所述第i个磁盘文件的所述目录信息确定为所述第二目录信息，将所述第二目录信息添加至所述第二数据集中；得到包括所述至少一个第二目录信息的所述第二数据集，所述i为正整数，所述i≤k。

4.根据权利要求3所述的方法，其特征在于，所述至少一个垃圾文件的第一目录信息包括所述至少一个垃圾文件的第一扩展名信息和第一路径信息，

所述当检测到第i个磁盘文件为所述非垃圾文件时，将所述第i个磁盘文件的目录信息确定为所述第二目录信息之前，包括：

当所述第i个磁盘文件的所述目录信息满足第一预设条件时，确定所述第i个磁盘文件为所述非垃圾文件；

5.根据权利要求1至4任一所述的方法，其特征在于，所述根据所述至少一个垃圾文件的所述第一目录信息，计算所述第一数据集对应的第一特征矩阵，包括：

对所述至少一个第一目录信息进行分词处理，得到m个第一特征词语，所述m为正整数；

计算所述m个第一特征词语各自对应的第一特征值，所述第一特征值用于指示所述第一特征词语对所述垃圾文件判定的区别能力；

根据所述m个第一特征词语各自对应的所述第一特征值，生成所述第一数据集对应的所述第一特征矩阵。

6.根据权利要求1至4任一所述的方法，其特征在于，所述根据所述至少一个非垃圾文件的所述第二目录信息，计算所述第二数据集对应的第二特征矩阵，包括：

对所述至少一个第二目录信息进行分词处理，得到n个第二特征词语，所述n为正整数；

计算所述n个第二特征词语各自对应的第二特征值，所述第二特征值用于指示所述第二特征词语对所述非垃圾文件判定的区别能力；

根据所述n个第二特征词语各自对应的所述第二特征值，生成所述第二数据集对应的所述第二特征矩阵。

7.根据权利要求1所述的方法，其特征在于，所述根据所述第一特征矩阵和所述第二特征矩阵，训练得到目标分类模型之前，还包括：

将所述第一数据集分成第一训练集和第一测试集，将所述第二数据集分成第二训练集和第二测试集，所述第一训练集和所述第二训练集用于训练得到所述目标分类模型，所述第一测试集和所述第二测试集用于对所述目标分类模型进行测试得到分类准确率；

所述根据所述第一特征矩阵和所述第二特征矩阵，训练得到目标分类模型，包括：

根据所述第一特征矩阵，确定所述第一训练集对应的第一特征子矩阵；

根据所述第二特征矩阵，确定所述第二训练集对应的第二特征子矩阵；

根据所述第一特征子矩阵和所述第二特征子矩阵，训练得到所述目标分类模型。

8.根据权利要求7所述的方法，其特征在于，所述根据所述第一特征子矩阵和所述第二特征子矩阵，训练得到目标分类模型，包括：

将所述第一特征子矩阵和所述第二特征子矩阵输入逻辑回归模型中，训练得到所述目标分类模型。

9.一种垃圾文件识别方法，其特征在于，采用如权1至权8任一所述的模型生成方法所生成的所述目标分类模型，所述方法包括：

根据所述待检测文件的扩展名信息和对应的所述路径信息，采用所述目标分类模型得到所述待检测文件的识别结果，所述识别结果用于指示所述待检测文件是否为垃圾文件。

10.一种模型生成装置，其特征在于，所述装置包括：

11.一种垃圾文件识别装置，其特征在于，采用如第一方面所述的模型生成装置所生成的所述目标分类模型，所述装置包括：

12.一种模型生成设备，其特征在于，所述模型生成设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至8任一所述的模型生成方法。

13.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至8任一所述的模型生成方法。

14.一种垃圾文件识别设备，其特征在于，所述垃圾文件识别设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求9所述的垃圾文件识别方法。

15.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求9所述的垃圾文件识别方法。