CN102147813A - 一种电力云环境下基于k最近邻算法的文档自动分类方法 - Google Patents

一种电力云环境下基于k最近邻算法的文档自动分类方法 Download PDF

Info

Publication number
CN102147813A
CN102147813A CN 201110086018 CN201110086018A CN102147813A CN 102147813 A CN102147813 A CN 102147813A CN 201110086018 CN201110086018 CN 201110086018 CN 201110086018 A CN201110086018 A CN 201110086018A CN 102147813 A CN102147813 A CN 102147813A
Authority
CN
China
Prior art keywords
document
classification
weight
nearest neighbor
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN 201110086018
Other languages
English (en)
Inventor
赵俊峰
王磊
祁建
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Jiangsu Electric Power Co Ltd
Original Assignee
State Grid Jiangsu Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Jiangsu Electric Power Co Ltd filed Critical State Grid Jiangsu Electric Power Co Ltd
Priority to CN 201110086018 priority Critical patent/CN102147813A/zh
Publication of CN102147813A publication Critical patent/CN102147813A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种电力云环境下基于K最近邻算法的文档自动分类方法,该方法对云计算的MapReduce编程框架进行了改进,其中Map函数完成文档相似性的计算,reduce函数规约出相似性最高的K个样本,统计最近邻所属各个类别的权重,并输出权重最大的类别,对文档进行自动分类。本发明快速完成大量的文档分类任务,大幅缩短文档分类任务的执行时间,提高分类效率;且具备健壮性。

Description

一种电力云环境下基于K最近邻算法的文档自动分类方法
技术领域
本发明属于云计算和数据挖掘领域,涉及一种电力公司文档分类方法,具体地说是一种电力云环境下基于K最近邻算法的文档自动分类方法。
背景技术
自动文档分类技术是利用自然语言,数据挖掘和人工智能技术经过一定的训练之后,使程序能够自动对文档进行识别及分类的技术,在大规模数据处理方面具有重要的应用。
传统的K最近邻算法因为其简单有效,在文档自动分类方面得到了广泛的应用。由于传统的K最近邻算法存在计算复杂度高,可扩展性差的缺点,在电力公司文档急剧增加的情况下,如果直接使用该算法对文档进行分类,其计算量急剧上升,分类实时性下降。自从2007年IBM和Google联合推出云计算以来,云计算已经成为工业界和学术界都关注的热点问题,云计算已成为分布式计算未来发展方向。在此基础上,国家电网建立了电力云仿真实验室,搭建起了电力云计算环境,对智能电网的海量信息进行分析处理。由Google提出的MapReduce编程框架是云计算中的代表性技术,它适用于分布式处理大规模数据集,程序员在Map函数中指定对各分块数据的处理过程,在Reduce函数中指定如何对分块数据处理的中间结果进行规约。但是,传统MapReduce编程框架只能处理单个数据集,而不能直接支持对多个相关数据集的处理,而K最近邻算法的文档分类方法又必然要面对多个相关数据集的处理问题。传统的K最近邻算法虽然应用很广,但是同时也存在计算复杂度高的缺点。在算法的运行过程中,需要找到K个近邻,为此需要计算和所有样本之间的距离,计算量巨大。虽有改进算法,却大部分是以降低分类性能的代价做出的。
发明内容
为了克服传统的K最近邻算法存在的问题,本发明的目的是提供一种电力云环境下基于K最近邻算法的文档自动分类方法,本方法对云计算的MapReduce编程框架进行了改进,其中Map函数完成文档相似性的计算,reduce函数规约出相似性最高的K个样本,能够利用电力云强大的计算能力,大幅缩短文档分类任务的执行时间,提高分类效率;且具备健壮性。
本发明的目的是通过以下技术方案来实现的:
一种电力云环境下基于K最近邻算法的文档自动分类方法,其特征在于该方法对云计算的MapReduce编程框架进行了改进,其中Map函数完成文档相似性的计算,reduce函数规约出相似性最高的K个样本,统计最近邻所属各个类别的权重,并输出权重最大的类别,具体内容包括:
1)利用电力***信息库里的元数据,构造电力***行业专用的的特征词词典、禁用词词集以及概念集;然后将训练集文档进行结构化处理,建立模型,根据禁用词集去除无用、虚泛的禁用词;根据特征词词典对文档进行分词;根据概念集将不同表达方式的相同概念映射为同一概念;将处理后的结构化文档进行特征项提取并处理,最后生成文档矢量库;根据该矢量库将训练集文档以及待分类的新文本文档进行再处理,表示为一个空间向量模型;
2)将训练集文档的空间向量模型以及待分类的新文档的空间向量模型,按行以文件保存在分布式文件***上,每一行表示一个文档的空间向量模型表示;Map函数从DFS按<a,La>读取文件记录,并计算训练文档和新文档之间的相似度,将本结点相似度Top-k个结果作为中间结果返回;Reduce函数汇聚所有Map结点产生的中间结果,计算用户K-最近邻集合N(u);Merge函数基于N(u),再次读取DFS上的行文件或列文件,计算出K-最近邻集合中每个类的权重P(x,u);
3)将权重输入到缓存,并排序,找出其中最大的权重的类,将该类别作为结果输出,完成文档自动分类。
由于传统的MapReduce编程框架只能处理单个数据集,K最近邻算法最后需要统计最近邻所属各个类别的权重,因此本发明在原有MapReduce编程框架上重新构造一个merge函数,用以计算该权重,最后输出权重最大的类别。
本发明将空间向量模型化后的训练集文档以及待分类的新文本文档保存至分布式文件***(DFS)上,用MapReduce编程框架进行处理,将K-最近邻的计算分布到各个节点上并行执行,在不影响K-最近邻算法的计算精度的条件下,利用电力云的强大计算能力,提高K-最近邻算法的执行效率。同时由于MapReduce编程框架只能一次读取数据集,在此基础上,对MapReduce编程框架进行了改进,加入了Merge函数,通过Map、Reduce和Merge三个阶段完成K-最近邻算法的执行过程。
本发明根据K最近邻算法的特点,对该框架进行了一些改进,在此基础上重新设计了K最近邻算法,并使用这种算法对电力公司文档进行自动分类,快速完成大量的文档分类任务,大幅缩短文档分类任务的执行时间,提高分类效率;且具备健壮性。
附图说明
图1是本发明的流程框图。
具体实施方式
一种本发明所述的电力云环境下基于K最近邻算法的文档自动分类方法,该方法对云计算的MapReduce编程框架进行了改进,其中Map函数完成文档相似性的计算,reduce函数规约出相似性最高的K个样本,统计最近邻所属各个类别的权重,并输出权重最大的类别,具体内容包括:
利用电力***信息库里的元数据,构造电力***行业专用的的特征词词典、禁用词词集以及概念集。然后将训练集文档进行结构化处理,建立模型,根据禁用词集去除无用、虚泛的禁用词;根据特征词词典对文档进行分词;根据概念集将不同表达方式的相同概念映射为同一概念。将处理后的结构化文档进行特征项提取并处理,最后生成文档矢量库。根据该矢量库将训练集文档以及待分类的新文本文档进行再处理,表示为一个空间向量模型。
将训练集文档的空间向量模型以及待分类的新文档的空间向量模型,也就是一个矩阵,按行以文件保存在分布式文件***(DFS)上,每一行就是一个文档的空间向量模型表示。Map函数从DFS按<a,La>读取文件记录,并计算训练文档和新文档之间的相似度,将本结点相似度Top-k个结果作为中间结果返回。Reduce函数汇聚所有Map结点产生的中间结果,计算用户K-最近邻集合N(u)。Merge函数基于N(u),再次读取DFS上的行文件或列文件,计算出K-最近邻集合中每个类的权重P(x,u)。
将权重输入到缓存,并排序,找出其中最大的权重的类。将该类别作为结果输出,完成文档自动分类。
实施时,具体步骤如下:
1.文档的预处理。将电力公司文档进行结构化处理,根据电力***的元数据,将文档进行分词,同时去除禁用词并进行概念映射。
2.特征项抽取,并进行缩减,使之能深度刻画电力***中文档的类别。
3.将训练文本根据特征项,保存为空间向量模型。即以向量表示文本: (ω12,...,ωn)其中ωi是第i个特征项的权重。
4.将训练文本的向量按行进行存储,并将各训练文本的类别同时进行存储,所有文件由分布式文件***统一管理,对用户透明;
5.将新文本根据特征项,保存为空间向量模型,待处理。
6.Map函数从DFS读取文件记录,用相似度计算公式计算新文本向量和分布式文件***DFS读取的各训练文本之间的相似度。并将本结点产生的相似度K-top个结果作为中间结果返回。
7.Reduce函数汇聚所有Map结点产生的中间结果,将其进行队列排序,规约出其中相似度最高的K个训练文本向量,生成K最近邻集合N(u)。
8.Merge根据权重计算公式,再次读取DFS上的文件记录,找出在上一步得到的K个训练文本向量,基于上一步生成K最近邻集合N(u),计算每一类的权重。输出到缓存里。
9.将缓存里的各类的权重进行排序,找出最大的权重,其所属的类别就是新文本的类别。
本发明能大幅缩短文档分类任务的执行时间,提高分类效率,且具备健壮性。

Claims (1)

1.一种电力云环境下基于K最近邻算法的文档自动分类方法,其特征在于该方法对云计算的MapReduce编程框架进行了改进,其中Map函数完成文档相似性的计算,reduce函数规约出相似性最高的K个样本,统计最近邻所属各个类别的权重,并输出权重最大的类别,具体内容包括:
1)利用电力***信息库里的元数据,构造电力***行业专用的的特征词词典、禁用词词集以及概念集;然后将训练集文档进行结构化处理,建立模型,根据禁用词集去除无用、虚泛的禁用词;根据特征词词典对文档进行分词;根据概念集将不同表达方式的相同概念映射为同一概念;将处理后的结构化文档进行特征项提取并处理,最后生成文档矢量库;根据该矢量库将训练集文档以及待分类的新文本文档进行再处理,表示为一个空间向量模型;
2)将训练集文档的空间向量模型以及待分类的新文档的空间向量模型,按行以文件保存在分布式文件***上,每一行表示一个文档的空间向量模型表示;Map函数从DFS按<a,La>读取文件记录,并计算训练文档和新文档之间的相似度,将本结点相似度Top-k个结果作为中间结果返回;Reduce函数汇聚所有Map结点产生的中间结果,计算用户K-最近邻集合N(u);Merge函数基于N(u),再次读取DFS上的行文件或列文件,计算出K-最近邻集合中每个类的权重P(x,u);
3)将权重输入到缓存,并排序,找出其中最大的权重的类,将该类别作为结果输出,完成文档自动分类。
CN 201110086018 2011-04-07 2011-04-07 一种电力云环境下基于k最近邻算法的文档自动分类方法 Pending CN102147813A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 201110086018 CN102147813A (zh) 2011-04-07 2011-04-07 一种电力云环境下基于k最近邻算法的文档自动分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 201110086018 CN102147813A (zh) 2011-04-07 2011-04-07 一种电力云环境下基于k最近邻算法的文档自动分类方法

Publications (1)

Publication Number Publication Date
CN102147813A true CN102147813A (zh) 2011-08-10

Family

ID=44422078

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 201110086018 Pending CN102147813A (zh) 2011-04-07 2011-04-07 一种电力云环境下基于k最近邻算法的文档自动分类方法

Country Status (1)

Country Link
CN (1) CN102147813A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102799624A (zh) * 2012-06-19 2012-11-28 北京大学 基于Datalog的分布式环境下大图数据查询方法
CN103279478A (zh) * 2013-04-19 2013-09-04 国家电网公司 一种基于分布式互信息文档特征提取方法
CN103309984A (zh) * 2013-06-17 2013-09-18 腾讯科技(深圳)有限公司 数据处理的方法和装置
CN104699772A (zh) * 2015-03-05 2015-06-10 孟海东 一种基于云计算的大数据文本分类方法
CN104967121A (zh) * 2015-07-13 2015-10-07 中国电力科学研究院 一种大规模电力***节点的潮流计算方法
CN106682035A (zh) * 2015-11-11 2017-05-17 ***通信集团公司 一种个性化学习推荐方法及装置
CN107203579A (zh) * 2016-03-18 2017-09-26 滴滴(中国)科技有限公司 基于用户打车数据的休息日分类方法及装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080120314A1 (en) * 2006-11-16 2008-05-22 Yahoo! Inc. Map-reduce with merge to process multiple relational datasets

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080120314A1 (en) * 2006-11-16 2008-05-22 Yahoo! Inc. Map-reduce with merge to process multiple relational datasets

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
《EDBT》 20110324 K. Selçuk Candan .etc RanKloud: A Scalable Ranked Query Processing Framework on Hadoop 第1-4页 1 , *
《Proceedings of the 2007 ACM SIGMOD international conference on Management of data》 20070614 Hung-chih Yang. etc Map-Reduce-Merge: Simplified Relational Data Processing on Large Clusters 1029-1040 1 , *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102799624A (zh) * 2012-06-19 2012-11-28 北京大学 基于Datalog的分布式环境下大图数据查询方法
CN102799624B (zh) * 2012-06-19 2015-03-04 北京大学 基于Datalog的分布式环境下大图数据查询方法
CN103279478A (zh) * 2013-04-19 2013-09-04 国家电网公司 一种基于分布式互信息文档特征提取方法
CN103279478B (zh) * 2013-04-19 2016-08-10 国家电网公司 一种基于分布式互信息文档特征提取方法
CN103309984A (zh) * 2013-06-17 2013-09-18 腾讯科技(深圳)有限公司 数据处理的方法和装置
CN103309984B (zh) * 2013-06-17 2016-12-28 腾讯科技(深圳)有限公司 数据处理的方法和装置
CN104699772A (zh) * 2015-03-05 2015-06-10 孟海东 一种基于云计算的大数据文本分类方法
CN104967121A (zh) * 2015-07-13 2015-10-07 中国电力科学研究院 一种大规模电力***节点的潮流计算方法
CN104967121B (zh) * 2015-07-13 2018-01-19 中国电力科学研究院 一种大规模电力***节点的潮流计算方法
CN106682035A (zh) * 2015-11-11 2017-05-17 ***通信集团公司 一种个性化学习推荐方法及装置
CN107203579A (zh) * 2016-03-18 2017-09-26 滴滴(中国)科技有限公司 基于用户打车数据的休息日分类方法及装置
CN107203579B (zh) * 2016-03-18 2020-12-25 北京嘀嘀无限科技发展有限公司 基于用户打车数据的休息日分类方法及装置

Similar Documents

Publication Publication Date Title
CN102147813A (zh) 一种电力云环境下基于k最近邻算法的文档自动分类方法
CN104699772B (zh) 一种基于云计算的大数据文本分类方法
CN103838617A (zh) 大数据环境下的数据挖掘平台的构建方法
CN101308496A (zh) 大规模文本数据的外部聚类方法及***
CN102479217B (zh) 一种分布式数据仓库中实现计算均衡的方法及装置
CN105550268A (zh) 大数据流程建模分析引擎
Kumar et al. Canopy clustering: a review on pre-clustering approach to K-Means clustering
TW201833851A (zh) 風控事件自動處理方法及裝置
Zhi Kang et al. Efficient deep learning pipelines for accurate cost estimations over large scale query workload
Jiang et al. Parallel K-Medoids clustering algorithm based on Hadoop
Zhu et al. A classification algorithm of CART decision tree based on MapReduce attribute weights
Siva Prasad et al. Optimisation of the execution time using hadoop-based parallel machine learning on computing clusters
CN103823881B (zh) 分布式数据库的性能优化的方法及装置
Tulasi et al. High Performance Computing and Big Data Analytics a [euro]" Paradigms and Challenges
CN103870342B (zh) 云计算环境中的基于结点属性函数的任务核值计算方法
Ding et al. A framework for distributed nearest neighbor classification using Hadoop
CN103942235A (zh) 针对大规模数据集交叉比较的分布式计算***和方法
CN103678617A (zh) 一种基于流计算的移动感知上下文处理***及方法
Wang et al. An adaptively disperse centroids k-means algorithm based on mapreduce model
CN113641705A (zh) 一种基于计算引擎的营销处置规则引擎方法
Pan et al. Application of Parallel Clustering Algorithm Based on R in Power Customer Classification
Meyer et al. I/O-efficient shortest path algorithms for undirected graphs with random or bounded edge lengths
Talan et al. An overview of Hadoop MapReduce, spark, and scalable graph processing architecture
Abdel Hai et al. On scalability of distributed machine learning with big data on apache spark
CN111177156B (zh) 一种大数据存储方法及***

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20110810