CN108268620A - 一种基于hadoop数据挖掘的文档分类方法 - Google Patents

一种基于hadoop数据挖掘的文档分类方法 Download PDF

Info

Publication number
CN108268620A
CN108268620A CN201810015666.2A CN201810015666A CN108268620A CN 108268620 A CN108268620 A CN 108268620A CN 201810015666 A CN201810015666 A CN 201810015666A CN 108268620 A CN108268620 A CN 108268620A
Authority
CN
China
Prior art keywords
data
document
vector
keyword
matching
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810015666.2A
Other languages
English (en)
Inventor
王海勇
窦敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Post and Telecommunication University
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing Post and Telecommunication University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Post and Telecommunication University filed Critical Nanjing Post and Telecommunication University
Priority to CN201810015666.2A priority Critical patent/CN108268620A/zh
Publication of CN108268620A publication Critical patent/CN108268620A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于hadoop数据挖掘的文档分类方法,包括:A、对数据文档进行预处理,确定关键词以及每个关键词与其所属文档的对应关系;B、采用属性特征转换的方法描述文档中数据的属性特征;C、采用匹配规则从关键词集合生成其关键词向量,根据关键词向量以及步骤B获得的数据属性特征集合生成概念向量;D、根据步骤C中的关键词向量和概念向量计算待分类数据文档中任意两个文本文档之间的相似性;E、针对属性向量执行基于聚类处理的分类操作,获得所述属性向量的分类结果,分类结果指示每个属性向量所对应的目标对象的分类;F、Hadoop自动收集上述分类结果,对待分类数据文档进行分类。本发明具有易于实现、分类准确度高的显著优点。

Description

一种基于hadoop数据挖掘的文档分类方法
技术领域
本发明属于数据分类技术领域,具体涉及一种基于hadoop数据挖掘的文档分类方法。
背景技术
Hadoop实现了一个分布式文件***,简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的硬件上;而且它提供高吞吐量来访问应用程序的数据,适合那些有着超大数据集的应用程序。HDFS放宽了POSIX的要求,可以以流的形式访问文件***中的数据。
随着互联网技术的高速发展,网络文档的数量正经历着***式地增长。海量的文档为用户方便地获取文档提供了基础,同时也为获得可用的、用户期望的文档带来了巨大挑战。文档分类技术是一种高效地将文档进行归类的技术,该方法通过用户提交给分类装置的样例文档,将文档库中未被分类的文档快速、准确地进行分类。现有技术中的文档分类需要进行非常巨大的文本相似性匹配计算,耗费的时间和空间都是***很难承受的。
发明内容
本发明的目的在于提供一种基于hadoop数据挖掘的文档分类方法,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:一种基于hadoop数据挖掘的文档分类方法,包括以下步骤:
A、对数据文档进行预处理,并且确定数据文档库中的各个关键词以及每个关键词与其所属文档的对应关系;
B、采用属性特征转换的方法描述文档中数据的属性特征;
C、采用匹配规则从步骤A中数据文档的关键词集合生成其关键词向量,根据关键词向量以及步骤B获得的数据属性特征集合生成概念向量;
D、根据步骤C中的关键词向量和概念向量,计算待分类数据文档中任意两个文本文档之间的相似性;并将该文档稳定的至少一个属性数据的值标识为属性向量;
E、针对步骤D中属性向量执行基于聚类处理的分类操作,以获得所述属性向量的分类结果,分类结果指示每个属性向量所对应的目标对象的分类;
F、Hadoop自动收集步骤F中属性向量的分类结果,对待分类数据文档进行分类。
优选的,所述步骤C中匹配规则中的匹配方法包括以下步骤:
A、获取匹配条件,匹配条件包括以下一种或多种匹配信息:一个或多个查询属性、查询属性值、查询属性值的匹配运算或多个所述查询属性之间的逻辑运算;
B、利用匹配条件生成匹配树,匹配树记录有所述查询属性值、所述查询属性在原始数据中的位置、用于匹配所述查询属性的匹配函数或所述逻辑运算;
C、对原始数据中关键字进行哈希处理,获得待查找关键字的哈希索引值;根据待查找关键字的哈希索引值在查找表中查找到匹配的待查找内容;
D、利用匹配树在待查找内容中查找出与所述匹配条件匹配的数据。
优选的,所述步骤E中聚类处理的分类操作包括以下步骤:
A、读取属性向量数据,并获取处理数据的多个预设聚类中心;
B、根据多个预设聚类中心,对处理数据进行分类,得到分类后处理数据;
C、根据分类后处理数据,建立多个可合并的计算任务;
D、使用多个计算线程对所述可合并的计算任务进行计算,并对计算结果进行合并操作;
E、根据合并后的计算结果对预设聚类中心进行修正以及保存;以及根据所述预设聚类中心、修正后的预设聚类中心以及修正操作次数,确定数据聚类处理结果。
优选的,所述步骤D中,计算处理时,计算机首先对待处理数据对象进行预处理,完成数据对象的分组,然后计算组内数据对象的相似度矩阵,并依据相似度大小合并生成新数据对象,记录合并生成过程同时删除旧数据对象。
与现有技术相比,本发明的有益效果是:
1,本发明采用的分类方法易于实现,且分类准确度高,其中,采用的匹配方法能够对数据进行数据过滤、查询或匹配;
2,可以根据匹配条件自动生成用于匹配数据的匹配树,因此能解决查询需求多样性的问题,能实现灵活的数据匹配或过滤;
3,采用的聚类处理的分类操作能够降低总体计算复杂度以及提高了计算的稳定性,而且数据概况分析能力强,适于海量数据的快速聚类处理,进一步提高了数据文档分类的精确性。
附图说明
图1为本发明整体分类流程图;
图2为本发明匹配方法流程图;
图3为本发明聚类处理的分类操作流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,本发明提供一种技术方案:一种基于hadoop数据挖掘的文档分类方法,包括以下步骤:
A、对数据文档进行预处理,并且确定数据文档库中的各个关键词以及每个关键词与其所属文档的对应关系;
B、采用属性特征转换的方法描述文档中数据的属性特征;
C、采用匹配规则从步骤A中数据文档的关键词集合生成其关键词向量,根据关键词向量以及步骤B获得的数据属性特征集合生成概念向量;
D、根据步骤C中的关键词向量和概念向量,计算待分类数据文档中任意两个文本文档之间的相似性;并将该文档稳定的至少一个属性数据的值标识为属性向量;
E、针对步骤D中属性向量执行基于聚类处理的分类操作,以获得所述属性向量的分类结果,分类结果指示每个属性向量所对应的目标对象的分类;
F、Hadoop自动收集步骤F中属性向量的分类结果,对待分类数据文档进行分类。
如图2所示,本发明中,步骤C中匹配规则中的匹配方法包括以下步骤:
A、获取匹配条件,匹配条件包括以下一种或多种匹配信息:一个或多个查询属性、查询属性值、查询属性值的匹配运算或多个所述查询属性之间的逻辑运算;
B、利用匹配条件生成匹配树,匹配树记录有所述查询属性值、所述查询属性在原始数据中的位置、用于匹配所述查询属性的匹配函数或所述逻辑运算;
C、对原始数据中关键字进行哈希处理,获得待查找关键字的哈希索引值;根据待查找关键字的哈希索引值在查找表中查找到匹配的待查找内容;
D、利用匹配树在待查找内容中查找出与所述匹配条件匹配的数据。
匹配方法能够对数据进行数据过滤、查询或匹配。对原始数据,可以根据匹配条件获取匹配信息,并自动生成匹配树,由于匹配树中携带有匹配信息,因此可以利用匹配树在原始数据中查找出与匹配条件匹配的数据。
如图3所示,本发明中,步骤E中聚类处理的分类操作包括以下步骤:
A、读取属性向量数据,并获取处理数据的多个预设聚类中心;
B、根据多个预设聚类中心,对处理数据进行分类,得到分类后处理数据;
C、根据分类后处理数据,建立多个可合并的计算任务;
D、使用多个计算线程对所述可合并的计算任务进行计算,并对计算结果进行合并操作;
E、根据合并后的计算结果对预设聚类中心进行修正以及保存;以及根据所述预设聚类中心、修正后的预设聚类中心以及修正操作次数,确定数据聚类处理结果。
其中,步骤D中,计算处理时,计算机首先对待处理数据对象进行预处理,完成数据对象的分组,然后计算组内数据对象的相似度矩阵,并依据相似度大小合并生成新数据对象,记录合并生成过程同时删除旧数据对象。
本发明采用的分类方法易于实现,且分类准确度高;其中,采用的匹配方法能够对数据进行数据过滤、查询或匹配;可以根据匹配条件自动生成用于匹配数据的匹配树,因此能解决查询需求多样性的问题,能实现灵活的数据匹配或过滤;采用的聚类处理的分类操作能够降低总体计算复杂度以及提高了计算的稳定性,而且数据概况分析能力强,适于海量数据的快速聚类处理,进一步提高了数据文档分类的精确性。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (4)

1.一种基于hadoop数据挖掘的文档分类方法,其特征在于:包括以下步骤:
A、对数据文档进行预处理,并且确定数据文档库中的各个关键词以及每个关键词与其所属文档的对应关系;
B、采用属性特征转换的方法描述文档中数据的属性特征;
C、采用一定的匹配规则从步骤A中数据文档的关键词集合生成其关键词向量,根据关键词向量以及步骤B获得的数据属性特征集合生成概念向量;
D、根据步骤C中的关键词向量和概念向量,计算待分类数据文档中任意两个文本文档之间的相似性,并将该文档稳定的至少一个属性数据的值标识为属性向量;
E、针对步骤D中属性向量执行基于聚类处理的分类操作,以获得所述属性向量的分类结果,分类结果指示每个属性向量所对应的目标对象的分类;
F、利用Hadoop自动收集步骤F中属性向量的分类结果,对待分类数据文档进行分类。
2.根据权利要求1所述的一种基于hadoop数据挖掘的文档分类方法,其特征在于:所述步骤C中的匹配规则包括以下步骤:
A、获取匹配条件,匹配条件包括以下一种或多种匹配信息:一个或多个查询属性、查询属性值、查询属性值的匹配运算或多个所述查询属性之间的逻辑运算;
B、利用匹配条件生成匹配树,匹配树记录有所述查询属性值、所述查询属性在原始数据中的位置、用于匹配所述查询属性的匹配函数或所述逻辑运算;
C、对原始数据中关键字进行哈希处理,获得待查找关键字的哈希索引值,根据待查找关键字的哈希索引值在查找表中查找到匹配的待查找内容;
D、利用匹配树在待查找内容中查找出与所述匹配条件匹配的数据。
3.根据权利要求1所述的一种基于hadoop数据挖掘的文档分类方法,其特征在于:所述步骤E中聚类处理的分类操作包括以下步骤:
A、读取属性向量数据,并获取处理数据的多个预设聚类中心;
B、根据多个预设聚类中心,对处理数据进行分类,得到分类后处理数据;
C、根据分类后处理数据,建立多个可合并的计算任务;
D、使用多个计算线程对所述可合并的计算任务进行计算,并对计算结果进行合并操作;
E、根据合并后的计算结果对预设聚类中心进行修正以及保存,以及根据所述预设聚类中心、修正后的预设聚类中心以及修正操作次数,确定数据聚类处理结果。
4.根据权利要求3所述的一种基于hadoop数据挖掘的文档分类方法,其特征在于:所述步骤D中,计算处理时,计算机首先对待处理数据对象进行预处理,完成数据对象的分组,然后计算组内数据对象的相似度矩阵,并依据相似度大小合并生成新数据对象,记录合并生成过程同时删除旧数据对象。
CN201810015666.2A 2018-01-08 2018-01-08 一种基于hadoop数据挖掘的文档分类方法 Pending CN108268620A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810015666.2A CN108268620A (zh) 2018-01-08 2018-01-08 一种基于hadoop数据挖掘的文档分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810015666.2A CN108268620A (zh) 2018-01-08 2018-01-08 一种基于hadoop数据挖掘的文档分类方法

Publications (1)

Publication Number Publication Date
CN108268620A true CN108268620A (zh) 2018-07-10

Family

ID=62773213

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810015666.2A Pending CN108268620A (zh) 2018-01-08 2018-01-08 一种基于hadoop数据挖掘的文档分类方法

Country Status (1)

Country Link
CN (1) CN108268620A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109684272A (zh) * 2018-12-29 2019-04-26 国家电网有限公司 文档保存方法、***及终端设备
CN111597232A (zh) * 2020-05-26 2020-08-28 华北科技学院 一种数据挖掘方法及***

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103744935A (zh) * 2013-12-31 2014-04-23 华北电力大学(保定) 一种计算机快速海量数据聚类处理方法
CN104699702A (zh) * 2013-12-09 2015-06-10 ***股份有限公司 数据挖掘及分类方法
CN104866502A (zh) * 2014-02-25 2015-08-26 深圳市中兴微电子技术有限公司 数据匹配的方法及装置
CN106095809A (zh) * 2016-05-30 2016-11-09 广东凯通科技股份有限公司 数据匹配方法及***
CN106295670A (zh) * 2015-06-11 2017-01-04 腾讯科技(深圳)有限公司 数据处理方法及数据处理装置
CN106372122A (zh) * 2016-08-23 2017-02-01 温州大学瓯江学院 一种基于维基语义匹配的文档分类方法及***

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104699702A (zh) * 2013-12-09 2015-06-10 ***股份有限公司 数据挖掘及分类方法
CN103744935A (zh) * 2013-12-31 2014-04-23 华北电力大学(保定) 一种计算机快速海量数据聚类处理方法
CN104866502A (zh) * 2014-02-25 2015-08-26 深圳市中兴微电子技术有限公司 数据匹配的方法及装置
CN106295670A (zh) * 2015-06-11 2017-01-04 腾讯科技(深圳)有限公司 数据处理方法及数据处理装置
CN106095809A (zh) * 2016-05-30 2016-11-09 广东凯通科技股份有限公司 数据匹配方法及***
CN106372122A (zh) * 2016-08-23 2017-02-01 温州大学瓯江学院 一种基于维基语义匹配的文档分类方法及***

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109684272A (zh) * 2018-12-29 2019-04-26 国家电网有限公司 文档保存方法、***及终端设备
CN111597232A (zh) * 2020-05-26 2020-08-28 华北科技学院 一种数据挖掘方法及***

Similar Documents

Publication Publication Date Title
Li An improved DBSCAN algorithm based on the neighbor similarity and fast nearest neighbor query
Sreedhar et al. Clustering large datasets using K-means modified inter and intra clustering (KM-I2C) in Hadoop
CN110135494A (zh) 基于最大信息系数和基尼指标的特征选择方法
CN110471916A (zh) 数据库的查询方法、装置、服务器及介质
Sitompul et al. Optimization model of K-means clustering using artificial neural networks to handle class imbalance problem
CN107832456B (zh) 一种基于临界值数据划分的并行knn文本分类方法
CN107291895B (zh) 一种快速的层次化文档查询方法
Kumar et al. Canopy clustering: a review on pre-clustering approach to K-Means clustering
Ou et al. Non-transitive hashing with latent similarity components
Jenni et al. Pre-processing image database for efficient Content Based Image Retrieval
Eghbali et al. Online nearest neighbor search using hamming weight trees
Lee Fast k-nearest neighbor searching in static objects
Zaw et al. Web document clustering by using PSO-based cuckoo search clustering algorithm
CN108268620A (zh) 一种基于hadoop数据挖掘的文档分类方法
Čech et al. Comparing MapReduce-based k-NN similarity joins on Hadoop for high-dimensional data
Gupta et al. Feature selection: an overview
CN105760478A (zh) 一种基于机器学习的大规模分布式的数据聚类方法
Yan et al. Fast approximate matching of binary codes with distinctive bits
Diao et al. An improved DBSCAN algorithm using local parameters
CN108090182B (zh) 一种大规模高维数据的分布式索引方法及***
Zhao et al. MapReduce-based clustering for near-duplicate image identification
Kumar et al. Visual semantic based 3D video retrieval system using HDFS
Liu et al. A potential-based clustering method with hierarchical optimization
Chernyshova et al. Technique of cluster validity for Text Mining
Papanikolaou Distributed algorithms for skyline computation using apache spark

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20180710

RJ01 Rejection of invention patent application after publication