CN106815605B

CN106815605B - 一种基于机器学习的数据分类方法及设备

Info

Publication number: CN106815605B
Application number: CN201710051325.6A
Authority: CN
Inventors: 李洋; 张志勇; 高政伟
Original assignee: Shanghai Suninfo Technology Co ltd
Current assignee: Shanghai Suninfo Technology Co ltd
Priority date: 2017-01-23
Filing date: 2017-01-23
Publication date: 2021-04-13
Anticipated expiration: 2037-01-23
Also published as: CN106815605A

Abstract

本发明提出了一种基于机器学习的数据分类方法，包括如下步骤：S11，基于学习数据确定每种数据对应的第一特征词群；S12，根据特征词对学习数据进行分类；S13，判断学习数据的分类是否正确，如果是，至步骤S15；如果否，调整第一特征词群，至步骤S12；S15，基于第一特征词群建立数据分类模型；一种基于机器学习的数据分类设备包括第一特征词群确定模块、第一数据分类模块、判断分类模块、第二特征词群确定模块、建模模块。本发明对文件内容进行切词处理，采用TFIDF算法，算出词的权重，然后计算文件相似度，将同类文件进行聚类。特征词提取。特征词不同于关键字，特征词更具代表性，更适合作为敏感信息，来与其他类加以区分。

Description

一种基于机器学习的数据分类方法及设备

技术领域

本发明涉及数据分类领域，具体涉及一种基于机器学习的数据分类方法及设备。

背景技术

随着关键数据在保障企业运营中的重要性不断上升，管理者对数据安全的关注也不断提高。与此同时，敏感文件外泄事件频繁发生，但单凭人为的去识别并归类敏感文件，显然是很难完成的。针对一批文件，单靠文件名称或文件类型是很难准确地区分哪些文件属于哪一类。对于敏感数据的提取，如果只靠人工方式，进行过滤筛选，再提取，显然是非常困难的。

内部人员本身缺乏经验、动力和技术支持来完成数据梳理工作。现有的敏感数据发现技术架构一般都是要求用户先做好数据梳理工作，为各个敏感数据打上恰当的标签以后，再使用关键词和正则表达式去检测标签属性，从而完成数据分类。但是出于内部现有状况的角度出发，用户希望通过抓取敏感数据来推动数据梳理工作的进展。

此外，还主要体现在以下几个方面：

(1)聚类结果差强人意，当得到聚类结果后，往往都是直接以分出的结果为准，无法进行更为灵活的调整。而实际上有些词语具有多义性，在不同的文件中有不同的意思，包括成语，谚语等，这些词在切词过程中很有可能被分开，这就导致原本极具代表性的词变成了普普通通的词语，这就会严重影响聚类效果。

(2)关键字过短，且在其他类别的文件中也有一定几率出现，这样就需要提供足够的关键字，才能作为这一类文挡的特征，而选取关键字的过程也不是很容易的，数量过多，就需要耗费相当多的时间。如果为节省时间而全选，那么其中就会有相当一部分词汇是多余的，在一定程度上会影响匹配的结果以及效率。如果只选取一部分词，就需要人工的到文章中去比对筛选，这种做法显然也是不可取的。

(3)流程过于复杂，操作起来不够连贯，上手难，在整个操作的过程中很可能漏掉某个环节，或是浪费掉不必要的时间。

基于以上分析，要想解决上述问题，不仅要能够人为的干预聚类结果，还要提高关键字的代表性，使之能够更好的作为具有代表性的敏感词汇，且整个过程简单易懂，操作简单，并且可手动调整聚类的结果。

本发明正是基于对以上要素的综合考虑，而设计的。

发明内容

为了解决上述问题，本发明提供了一种基于机器学习的数据分类方法及设备。本发明提供的一种基于机器学习的数据分类方法及设备，通过机器学习建立数据分类模型，根据数据分类模型对待分类数据读取分类，数据分类模型基于特征词建立,特征词不同于关键字，特征词更具代表性，更适合作为敏感信息，来与其他类加以区分。

本发明采用的技术方案如下：

一种基于机器学习的数据分类方法，包括如下步骤；

S11，基于学习数据确定每种数据对应的第一特征词群；

S12，根据第一特征词群对学习数据进行数据分类；

S13,判断学习数据的分类是否正确，如果是，至步骤S15；如果否，调整第一特征词群，至步骤S12；

S15，基于第一特征词群建立数据分类模型。

上述的一种基于机器学习的数据分类方法，其中，所述步骤S11包括：

S111，从学习数据中的每种数据中读取N份数据，将其中的词汇按照权重排序；

S112，将S111中排序前X位词汇选取为第一特征词群。

上述的一种基于机器学习的数据分类方法，其中，所述步骤S112还包括用户根据需要对S111中排序前X位词汇进行筛选获得第一特征词群。

上述的一种基于机器学习的数据分类方法，其中，当步骤S13判断学习数据分类正确时，至步骤S14，所述步骤S14包括，读取通过S12分好类的学习数据的内容，将每一类数据中的词汇按照权重排序，将排序后前Y位词汇选取为第二特征词群。

上述的一种基于机器学习的数据分类方法，其中，用户根据需要对S14中排序前Y位词汇进行筛选获得第二特征词群。

上述的一种基于机器学习的数据分类方法，其中，所述步骤S15为基于第二特征词群建立数据分类模型。

一种基于机器学习的数据分类设备，包括：

第一特征词群确定模块：用于基于学习数据确定每种数据对应的第一特征词群；

第一数据分类模块：用于根据第一特征词群对学习数据进行数据分类；

判断分类模块：用于判断学习数据的分类是否正确，如果是，至建模模块；如果否，调整第一特征词群，至第一数据分类模块；

建模模块：用于基于第一特征词群建立数据分类模型。

上述的一种基于机器学习的数据分类设备，其中，所述数据分类模块包括：

权重排序单元：用于从学习数据中的每种数据中读取N份数据，将其中的词汇按照权重排序；

第一特征词群选取单元：用于将权重排序单元中排序前X位词汇选取为第一特征词群。

上述的一种基于机器学习的数据分类设备，其中，所述第一特征词群选取单元还用于用户根据需要将权重排序单元排序前X位词汇进行筛选获得第一特征词群。

上述的一种基于机器学习的数据分类设备，其中，当判断分类模块判断学习数据分类正确时，至第二特征词群确定模块，所述第二特征词群确定模块用于读取第一数据分类模块分好类的学习数据的内容，将每一类数据中的词汇按照权重排序，将排序后前Y位词汇选取为第二特征词群。

上述的一种基于机器学习的数据分类设备，其中，用户根据需要对第二特征词群确定模块中排序前Y位词汇进行筛选获得第二特征词群。

上述的一种基于机器学习的数据分类设备，其中，所述建模模块用于基于第二特征词群建立数据分类模型。

本发明主要采用TFIDF算法以及贝叶斯算法，整个流程操作简单，支持自定义词典，聚类效果好，可以进行手动纠正，特征词代表性强，整体效率高。

本发明会对指定范围内的文件进行聚类处理，用户可根据实际聚类结果进行动态调整，调整分类个数和文件归属类别。调整完毕可针对某一类提取关键词，用户可通过手动方式筛选关键词作为敏感信息，然后根据选取的关键词生成模型。这个模型将被用作文档分类，通过模型中记录的敏感信息将匹配的文件进行汇总，还会将汇总后的文件直接定位到敏感文件所在位置，用户既可以跟踪到指定目录取收集敏感文件，亦可以将所选文件作导出处理。

本发明是通过对文本内容的分析，来确定文件类型的，同时还可借助自定义词汇来优化关键词的提取效果，帮助企业有针对性的对关键数据进行聚类和分类。用户还可实时对学习文件内容进行检查，因为只靠文件名是无法确定文件类型的，因此聚类/分类结果以实际文件内容为准。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一种基于机器学习的数据分类方法的实施例一的流程图；

图2是本发明一种基于机器学习的数据分类方法的实施例二的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一

如图1所示，一种基于机器学习的数据分类方法，通过机器学习建立数据分类模型，根据数据分类模型对待分类数据读取分类，数据分类模型基于特征词建立,对文档进行聚类处理。对文件内容进行切词处理，采用TFIDF算法，算出词的权重，然后计算文件相似度，将同类文件进行聚类。

实施例一方法包括如下步骤：

S11，基于学习数据确定每种数据对应的第一特征词群；

学习数据，即所关心的用于机器学习的样本数据，这些样本数据为已经分好类的数据，比如这些样本数据选取包括医学、林业、建筑、石油等不同领域的学术资料。因为相同领域也会分不同的种类或研究方向，因此本发明将会对这些数据进行聚类，尽可能将相似度较高的文档归为一类，然后针对这一类计算出对应的规则，即模型，这个模型中所包含的即是该类的特征，有了这个特征，用户就可以从海量的文档中搜索出用户所关心的，即符合模型特征的文档，比人工检索、识别、分类更高效。

S111，从学习数据中的每种数据中读取2-5份数据，将其中的词汇按照权重排序；

S112，将S111中排序前X位词汇选取为第一特征词群，进一步的，用户根据需要对S111中排序前X位词汇进行筛选获得第一特征词群；特征词不同于关键字，特征词更具代表性，更适合作为敏感信息，来与其他类加以区分。

S12，根据第一特征词群对学习数据进行数据分类；

S15，基于第一特征词群建立数据分类模型。

一种基于机器学习的数据分类设备，包括第一特征词群确定模块、第一数据分类模块、判断分类模块、建模模块，其中：

建模模块：用于基于第一特征词群建立数据分类模型。

上述的一种基于机器学习的数据分类设备，所述数据分类模块包括：

第一特征词群选取单元：用于将权重排序单元中排序前X位词汇选取为第一特征词群，进一步的，用户根据需要将权重排序单元排序前X位词汇进行筛选获得第一特征词群。

实施例二

如图2所示，一种基于机器学习的数据分类方法，包括如下步骤：

S11，基于学习数据确定每种数据对应的第一特征词群；

S112，将S111中排序前X位词汇选取为第一特征词群，进一步的，用户根据需要对S111中排序前X位词汇进行筛选获得第一特征词群；特征词不同于关键字，特征词更具代表性，更适合作为敏感信息，来与其他类加以区分。如果某个词或短语在一篇文章中出现的频率高，并且在其他文章中很少出现，则认为此词或者短语具有很好的类别区分能力，适合作为特征词用来分类。

S12，根据第一特征词群对学习数据进行数据分类；

S13,判断学习数据的分类是否正确，如果是，至步骤S14；如果否，调整第一特征词群，至步骤S12；

在判断学习数据的分类是否正确时，还会根据类的数量，把相似度更高的文档分在一起，比如，假设有5个类别，而首次分类只分了三类，这样得到的结果肯定是与实际类别相差较大，这时，不仅要调整第一特征词群，还要调整分类的个数，例如达到5个分类的类别，然后重新分类，这样的到的结果会更加接近于预期的效果)。

S14，读取通过S12分好类的学习数据的内容，将每一类数据中的词汇按照权重排序，将排序后前Y位词汇选取为第二特征词群，在排序的过程中，先使用朴素贝叶斯算法对同类的文件提取特征词，；进一步的，用户根据需要对排序前Y位词汇进行筛选获得第二特征词群；S15，基于第二特征词群建立数据分类模型，使用TFIDF算法将不同的文件分类。TFIDF算法是评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度；比如说：如果词w在一篇文档d中出现的频率高，并且在其他文档中很少出现，则认为词w具有很好的区分能力，适合用来把文章d和其他文章区分开来。

一种基于机器学习的数据分类设备，包括第一特征词群确定模块、第一数据分类模块、判断分类模块、第二特征词群确定模块、建模模块，其中：

判断分类模块：用于判断学习数据的分类是否正确，如果是，至第二特征词群确定模块；如果否，调整第一特征词群，至第一数据分类模块；

第二特征词群确定模块：用于读取第一数据分类模块分好类的学习数据的内容，将每一类数据中的词汇按照权重排序，将排序后前Y位词汇选取为第二特征词群，进一步的，用户根据需要对第二特征词群确定模块中排序前Y位词汇进行筛选获得第二特征词群；

建模模块：用于基于第二特征词群建立数据分类模型。

基于上述两个实施例，进一步的，在使用本发明方法时，先通过使用内容识别引擎，识别包括doc、docx、xls、xlsx、ppt、pptx、pdf、zip、rar、7z、txt等常见的文件内容，包括对多层嵌套压缩文件内容以及由文档转换而成的图片内容的识别。进一步的，对于不带扩展名或修改扩展名的文件，同样能根据其文件特征识别其文件类型，支持自定义文件类型。能够识别加密的Office类文档RAR、ZIP、ARJ压缩包、PDF文档。支持Unicode、GB18030、GBK编码格式。识别图片文件格式。识别单个大容量的文件，支持1G以内文档内容识别。为达到最优效果，使用该方法前，可针对用户最关心的业务数据类型，提供一篇符合此业务数据类型特征的典型的实际数据样本。根据以上典型数据样本，提供2-3个最代表此样本内容的关键词。然后针对一批样本数据，按用户调研中给出的关键字按关键字规则进行样本扫描，进行初步筛选，也就是“海选”；然后将初筛样本进行机器学习自动聚类,建议加入一些与学习样本具有明显差异化的数据一起聚类，提高聚类准确性，也就是“精选”，接着再制作属于该类的模型；最后，再加载生成好的模型，对指定范围内的文件进行扫描，查看扫描分类结果是否正确，以此检验规则是否有误报，如上一步规则校验发现误报，通过数据梳理规则制作软件将误报样本重新提取语义特征，形成对照组对比，重新选择原规则语义特征，优化模型，再次重复扫描过程，验证进一步优化后的模型的准确性。以上步骤重复迭代优化，以达到最优效果。

另外，本申请的一部分可被应用为计算机程序产品，例如计算机程序指令，当其被计算机执行时，通过该计算机的操作，可以调用或提供根据本申请的方法和/或技术方案。而调用本申请的方法的程序指令，可能被存储在固定的或可移动的记录介质中，和/或通过广播或其他信号承载媒体中的数据流而被传输，和/或被存储在根据所述程序指令运行的计算机设备的工作存储器中。在此，根据本申请的一个实施例包括一个装置，该装置包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器，其中，当该计算机程序指令被该处理器执行时，触发该装置运行基于前述根据本申请的多个实施例的方法和/或技术方案。

对于本领域技术人员而言，显然本申请不限于上述示范性实施例的细节，而且在不背离本申请的精神或基本特征的情况下，能够以其他的具体形式实现本申请。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本申请的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外，显然“包括”一词不排除其他单元或步骤，单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一，第二等词语用来表示名称，而并不表示任何特定的顺序。

当然，对于本领域技术人员而言，显然本申请不限于上述示范性实施例的细节，而且在不背离本申请的精神或基本特征的情况下，能够以其他的具体形式实现本申请。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本申请的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于机器学习的数据分类方法，其特征在于，包括如下步骤；

S11，基于学习数据确定每种数据对应的第一特征词群；

S12，根据第一特征词群对学习数据进行数据分类；

S13，判断学习数据的分类以及分类对应的类别数量是否正确，如果是，至步骤S15；如果否，调整第一特征词群，至步骤S12；

当步骤S13判断学习数据分类正确时，至步骤S14，所述步骤S14包括，读取通过S12分好类的学习数据的内容，对每一类学习数据内容进行切词处理得到每一类数据中的词汇，将所述每一类数据中的词汇按照权重排序，将排序后前Y位词汇选取为第二特征词群；

S15，基于第二特征词群建立数据分类模型。

2.根据权利要求1所述的一种基于机器学习的数据分类方法，其特征在于，所述步骤S11包括：

S112，将S111中排序前X位词汇选取为第一特征词群。

3.根据权利要求2所述的一种基于机器学习的数据分类方法，其特征在于，所述步骤S112还包括用户根据需要对S111中排序前X位词汇进行筛选获得第一特征词群。

4.根据权利要求1所述的一种基于机器学习的数据分类方法，其特征在于，用户根据需要对S14中排序前Y位词汇进行筛选获得第二特征词群。

5.一种基于机器学习的数据分类设备，其特征在于，包括：

判断分类模块：用于判断学习数据的分类以及分类对应的类别数量是否正确，如果是，至建模模块；如果否，调整第一特征词群，至第一数据分类模块；

当判断分类模块判断学习数据分类正确时，至第二特征词群确定模块，所述第二特征词群确定模块用于读取第一数据分类模块分好类的学习数据的内容，对每一类学习数据内容进行切词处理得到每一类数据中的词汇，将所述每一类数据中的词汇按照权重排序，将排序后前Y位词汇选取为第二特征词群；

建模模块：用于基于第二特征词群建立数据分类模型。

6.根据权利要求5所述的一种基于机器学习的数据分类设备，其特征在于，所述数据分类模块包括：

7.根据权利要求6所述的一种基于机器学习的数据分类设备，其特征在于，所述第一特征词群选取单元还用于用户根据需要将权重排序单元排序前X位词汇进行筛选获得第一特征词群。

8.根据权利要求5所述的一种基于机器学习的数据分类设备，其特征在于，用户根据需要对第二特征词群确定模块中排序前Y位词汇进行筛选获得第二特征词群。