CN108268620A

CN108268620A - 一种基于hadoop数据挖掘的文档分类方法

Info

Publication number: CN108268620A
Application number: CN201810015666.2A
Authority: CN
Inventors: 王海勇; 窦敏
Original assignee: Nanjing Post and Telecommunication University
Current assignee: Nanjing Post and Telecommunication University; Nanjing University of Posts and Telecommunications
Priority date: 2018-01-08
Filing date: 2018-01-08
Publication date: 2018-07-10

Abstract

本发明公开了一种基于hadoop数据挖掘的文档分类方法，包括：A、对数据文档进行预处理，确定关键词以及每个关键词与其所属文档的对应关系；B、采用属性特征转换的方法描述文档中数据的属性特征；C、采用匹配规则从关键词集合生成其关键词向量，根据关键词向量以及步骤B获得的数据属性特征集合生成概念向量；D、根据步骤C中的关键词向量和概念向量计算待分类数据文档中任意两个文本文档之间的相似性；E、针对属性向量执行基于聚类处理的分类操作，获得所述属性向量的分类结果，分类结果指示每个属性向量所对应的目标对象的分类；F、Hadoop自动收集上述分类结果，对待分类数据文档进行分类。本发明具有易于实现、分类准确度高的显著优点。

Description

一种基于hadoop数据挖掘的文档分类方法

技术领域

本发明属于数据分类技术领域，具体涉及一种基于hadoop数据挖掘的文档分类方法。

背景技术

Hadoop实现了一个分布式文件***，简称HDFS。HDFS有高容错性的特点，并且设计用来部署在低廉的硬件上；而且它提供高吞吐量来访问应用程序的数据，适合那些有着超大数据集的应用程序。HDFS放宽了POSIX的要求，可以以流的形式访问文件***中的数据。

随着互联网技术的高速发展，网络文档的数量正经历着***式地增长。海量的文档为用户方便地获取文档提供了基础，同时也为获得可用的、用户期望的文档带来了巨大挑战。文档分类技术是一种高效地将文档进行归类的技术，该方法通过用户提交给分类装置的样例文档，将文档库中未被分类的文档快速、准确地进行分类。现有技术中的文档分类需要进行非常巨大的文本相似性匹配计算，耗费的时间和空间都是***很难承受的。

发明内容

本发明的目的在于提供一种基于hadoop数据挖掘的文档分类方法，以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：一种基于hadoop数据挖掘的文档分类方法,包括以下步骤：

A、对数据文档进行预处理，并且确定数据文档库中的各个关键词以及每个关键词与其所属文档的对应关系；

B、采用属性特征转换的方法描述文档中数据的属性特征；

C、采用匹配规则从步骤A中数据文档的关键词集合生成其关键词向量，根据关键词向量以及步骤B获得的数据属性特征集合生成概念向量；

D、根据步骤C中的关键词向量和概念向量，计算待分类数据文档中任意两个文本文档之间的相似性；并将该文档稳定的至少一个属性数据的值标识为属性向量；

E、针对步骤D中属性向量执行基于聚类处理的分类操作，以获得所述属性向量的分类结果，分类结果指示每个属性向量所对应的目标对象的分类；

F、Hadoop自动收集步骤F中属性向量的分类结果，对待分类数据文档进行分类。

优选的，所述步骤C中匹配规则中的匹配方法包括以下步骤：

A、获取匹配条件，匹配条件包括以下一种或多种匹配信息：一个或多个查询属性、查询属性值、查询属性值的匹配运算或多个所述查询属性之间的逻辑运算；

B、利用匹配条件生成匹配树，匹配树记录有所述查询属性值、所述查询属性在原始数据中的位置、用于匹配所述查询属性的匹配函数或所述逻辑运算；

C、对原始数据中关键字进行哈希处理，获得待查找关键字的哈希索引值；根据待查找关键字的哈希索引值在查找表中查找到匹配的待查找内容；

D、利用匹配树在待查找内容中查找出与所述匹配条件匹配的数据。

优选的，所述步骤E中聚类处理的分类操作包括以下步骤：

A、读取属性向量数据，并获取处理数据的多个预设聚类中心；

B、根据多个预设聚类中心，对处理数据进行分类，得到分类后处理数据；

C、根据分类后处理数据，建立多个可合并的计算任务；

D、使用多个计算线程对所述可合并的计算任务进行计算，并对计算结果进行合并操作；

E、根据合并后的计算结果对预设聚类中心进行修正以及保存；以及根据所述预设聚类中心、修正后的预设聚类中心以及修正操作次数，确定数据聚类处理结果。

优选的，所述步骤D中，计算处理时，计算机首先对待处理数据对象进行预处理，完成数据对象的分组，然后计算组内数据对象的相似度矩阵，并依据相似度大小合并生成新数据对象，记录合并生成过程同时删除旧数据对象。

与现有技术相比，本发明的有益效果是：

1，本发明采用的分类方法易于实现，且分类准确度高，其中，采用的匹配方法能够对数据进行数据过滤、查询或匹配；

2，可以根据匹配条件自动生成用于匹配数据的匹配树，因此能解决查询需求多样性的问题，能实现灵活的数据匹配或过滤；

3，采用的聚类处理的分类操作能够降低总体计算复杂度以及提高了计算的稳定性，而且数据概况分析能力强，适于海量数据的快速聚类处理，进一步提高了数据文档分类的精确性。

附图说明

图1为本发明整体分类流程图；

图2为本发明匹配方法流程图；

图3为本发明聚类处理的分类操作流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，本发明提供一种技术方案：一种基于hadoop数据挖掘的文档分类方法,包括以下步骤：

B、采用属性特征转换的方法描述文档中数据的属性特征；

如图2所示，本发明中，步骤C中匹配规则中的匹配方法包括以下步骤：

匹配方法能够对数据进行数据过滤、查询或匹配。对原始数据，可以根据匹配条件获取匹配信息，并自动生成匹配树，由于匹配树中携带有匹配信息，因此可以利用匹配树在原始数据中查找出与匹配条件匹配的数据。

如图3所示，本发明中，步骤E中聚类处理的分类操作包括以下步骤：

C、根据分类后处理数据，建立多个可合并的计算任务；

其中，步骤D中，计算处理时，计算机首先对待处理数据对象进行预处理，完成数据对象的分组，然后计算组内数据对象的相似度矩阵，并依据相似度大小合并生成新数据对象，记录合并生成过程同时删除旧数据对象。

本发明采用的分类方法易于实现，且分类准确度高；其中，采用的匹配方法能够对数据进行数据过滤、查询或匹配；可以根据匹配条件自动生成用于匹配数据的匹配树，因此能解决查询需求多样性的问题，能实现灵活的数据匹配或过滤；采用的聚类处理的分类操作能够降低总体计算复杂度以及提高了计算的稳定性，而且数据概况分析能力强，适于海量数据的快速聚类处理，进一步提高了数据文档分类的精确性。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种基于hadoop数据挖掘的文档分类方法,其特征在于：包括以下步骤：

B、采用属性特征转换的方法描述文档中数据的属性特征；

C、采用一定的匹配规则从步骤A中数据文档的关键词集合生成其关键词向量，根据关键词向量以及步骤B获得的数据属性特征集合生成概念向量；

D、根据步骤C中的关键词向量和概念向量，计算待分类数据文档中任意两个文本文档之间的相似性，并将该文档稳定的至少一个属性数据的值标识为属性向量；

F、利用Hadoop自动收集步骤F中属性向量的分类结果，对待分类数据文档进行分类。

2.根据权利要求1所述的一种基于hadoop数据挖掘的文档分类方法，其特征在于：所述步骤C中的匹配规则包括以下步骤：

C、对原始数据中关键字进行哈希处理，获得待查找关键字的哈希索引值，根据待查找关键字的哈希索引值在查找表中查找到匹配的待查找内容；

3.根据权利要求1所述的一种基于hadoop数据挖掘的文档分类方法，其特征在于：所述步骤E中聚类处理的分类操作包括以下步骤：

C、根据分类后处理数据，建立多个可合并的计算任务；

E、根据合并后的计算结果对预设聚类中心进行修正以及保存，以及根据所述预设聚类中心、修正后的预设聚类中心以及修正操作次数，确定数据聚类处理结果。

4.根据权利要求3所述的一种基于hadoop数据挖掘的文档分类方法，其特征在于：所述步骤D中，计算处理时，计算机首先对待处理数据对象进行预处理，完成数据对象的分组，然后计算组内数据对象的相似度矩阵，并依据相似度大小合并生成新数据对象，记录合并生成过程同时删除旧数据对象。