CN102147813A

CN102147813A - 一种电力云环境下基于k最近邻算法的文档自动分类方法

Info

Publication number: CN102147813A
Application number: CN 201110086018
Authority: CN
Inventors: 赵俊峰; 王磊; 祁建
Original assignee: State Grid Jiangsu Electric Power Co Ltd
Current assignee: State Grid Jiangsu Electric Power Co Ltd
Priority date: 2011-04-07
Filing date: 2011-04-07
Publication date: 2011-08-10

Abstract

本发明公开了一种电力云环境下基于K最近邻算法的文档自动分类方法，该方法对云计算的MapReduce编程框架进行了改进，其中Map函数完成文档相似性的计算，reduce函数规约出相似性最高的K个样本，统计最近邻所属各个类别的权重，并输出权重最大的类别，对文档进行自动分类。本发明快速完成大量的文档分类任务，大幅缩短文档分类任务的执行时间，提高分类效率；且具备健壮性。

Description

一种电力云环境下基于K最近邻算法的文档自动分类方法

技术领域

本发明属于云计算和数据挖掘领域，涉及一种电力公司文档分类方法，具体地说是一种电力云环境下基于K最近邻算法的文档自动分类方法。

背景技术

自动文档分类技术是利用自然语言，数据挖掘和人工智能技术经过一定的训练之后，使程序能够自动对文档进行识别及分类的技术，在大规模数据处理方面具有重要的应用。

传统的K最近邻算法因为其简单有效，在文档自动分类方面得到了广泛的应用。由于传统的K最近邻算法存在计算复杂度高，可扩展性差的缺点，在电力公司文档急剧增加的情况下，如果直接使用该算法对文档进行分类，其计算量急剧上升，分类实时性下降。自从2007年IBM和Google联合推出云计算以来，云计算已经成为工业界和学术界都关注的热点问题，云计算已成为分布式计算未来发展方向。在此基础上，国家电网建立了电力云仿真实验室，搭建起了电力云计算环境，对智能电网的海量信息进行分析处理。由Google提出的MapReduce编程框架是云计算中的代表性技术，它适用于分布式处理大规模数据集，程序员在Map函数中指定对各分块数据的处理过程，在Reduce函数中指定如何对分块数据处理的中间结果进行规约。但是，传统MapReduce编程框架只能处理单个数据集，而不能直接支持对多个相关数据集的处理，而K最近邻算法的文档分类方法又必然要面对多个相关数据集的处理问题。传统的K最近邻算法虽然应用很广，但是同时也存在计算复杂度高的缺点。在算法的运行过程中，需要找到K个近邻，为此需要计算和所有样本之间的距离，计算量巨大。虽有改进算法，却大部分是以降低分类性能的代价做出的。

发明内容

为了克服传统的K最近邻算法存在的问题，本发明的目的是提供一种电力云环境下基于K最近邻算法的文档自动分类方法，本方法对云计算的MapReduce编程框架进行了改进，其中Map函数完成文档相似性的计算，reduce函数规约出相似性最高的K个样本，能够利用电力云强大的计算能力，大幅缩短文档分类任务的执行时间，提高分类效率；且具备健壮性。

本发明的目的是通过以下技术方案来实现的：

一种电力云环境下基于K最近邻算法的文档自动分类方法，其特征在于该方法对云计算的MapReduce编程框架进行了改进，其中Map函数完成文档相似性的计算，reduce函数规约出相似性最高的K个样本，统计最近邻所属各个类别的权重，并输出权重最大的类别，具体内容包括：

1）利用电力***信息库里的元数据，构造电力***行业专用的的特征词词典、禁用词词集以及概念集；然后将训练集文档进行结构化处理，建立模型，根据禁用词集去除无用、虚泛的禁用词；根据特征词词典对文档进行分词；根据概念集将不同表达方式的相同概念映射为同一概念；将处理后的结构化文档进行特征项提取并处理，最后生成文档矢量库；根据该矢量库将训练集文档以及待分类的新文本文档进行再处理，表示为一个空间向量模型；

2）将训练集文档的空间向量模型以及待分类的新文档的空间向量模型，按行以文件保存在分布式文件***上，每一行表示一个文档的空间向量模型表示；Map函数从DFS按<a,La>读取文件记录，并计算训练文档和新文档之间的相似度，将本结点相似度Top-k个结果作为中间结果返回；Reduce函数汇聚所有Map结点产生的中间结果，计算用户K-最近邻集合N(u)；Merge函数基于N(u)，再次读取DFS上的行文件或列文件，计算出K-最近邻集合中每个类的权重P(x,u)；

3）将权重输入到缓存，并排序，找出其中最大的权重的类，将该类别作为结果输出，完成文档自动分类。

由于传统的MapReduce编程框架只能处理单个数据集，K最近邻算法最后需要统计最近邻所属各个类别的权重，因此本发明在原有MapReduce编程框架上重新构造一个merge函数，用以计算该权重，最后输出权重最大的类别。

本发明将空间向量模型化后的训练集文档以及待分类的新文本文档保存至分布式文件***（DFS）上，用MapReduce编程框架进行处理，将K-最近邻的计算分布到各个节点上并行执行，在不影响K-最近邻算法的计算精度的条件下，利用电力云的强大计算能力，提高K-最近邻算法的执行效率。同时由于MapReduce编程框架只能一次读取数据集，在此基础上，对MapReduce编程框架进行了改进，加入了Merge函数，通过Map、Reduce和Merge三个阶段完成K-最近邻算法的执行过程。

本发明根据K最近邻算法的特点，对该框架进行了一些改进，在此基础上重新设计了K最近邻算法，并使用这种算法对电力公司文档进行自动分类，快速完成大量的文档分类任务，大幅缩短文档分类任务的执行时间，提高分类效率；且具备健壮性。

附图说明

图1是本发明的流程框图。

具体实施方式

一种本发明所述的电力云环境下基于K最近邻算法的文档自动分类方法，该方法对云计算的MapReduce编程框架进行了改进，其中Map函数完成文档相似性的计算，reduce函数规约出相似性最高的K个样本，统计最近邻所属各个类别的权重，并输出权重最大的类别，具体内容包括：

利用电力***信息库里的元数据，构造电力***行业专用的的特征词词典、禁用词词集以及概念集。然后将训练集文档进行结构化处理，建立模型，根据禁用词集去除无用、虚泛的禁用词；根据特征词词典对文档进行分词；根据概念集将不同表达方式的相同概念映射为同一概念。将处理后的结构化文档进行特征项提取并处理，最后生成文档矢量库。根据该矢量库将训练集文档以及待分类的新文本文档进行再处理，表示为一个空间向量模型。

将训练集文档的空间向量模型以及待分类的新文档的空间向量模型，也就是一个矩阵，按行以文件保存在分布式文件***（DFS）上，每一行就是一个文档的空间向量模型表示。Map函数从DFS按<a,La>读取文件记录，并计算训练文档和新文档之间的相似度，将本结点相似度Top-k个结果作为中间结果返回。Reduce函数汇聚所有Map结点产生的中间结果，计算用户K-最近邻集合N(u)。Merge函数基于N(u)，再次读取DFS上的行文件或列文件，计算出K-最近邻集合中每个类的权重P(x,u)。

将权重输入到缓存，并排序，找出其中最大的权重的类。将该类别作为结果输出，完成文档自动分类。

实施时，具体步骤如下：

1.文档的预处理。将电力公司文档进行结构化处理，根据电力***的元数据，将文档进行分词，同时去除禁用词并进行概念映射。

2.特征项抽取，并进行缩减，使之能深度刻画电力***中文档的类别。

3.将训练文本根据特征项，保存为空间向量模型。即以向量表示文本: (ω₁,ω₂,...,ω_n)其中ω_i是第i个特征项的权重。

4.将训练文本的向量按行进行存储，并将各训练文本的类别同时进行存储，所有文件由分布式文件***统一管理，对用户透明；

5.将新文本根据特征项，保存为空间向量模型，待处理。

6.Map函数从DFS读取文件记录，用相似度计算公式计算新文本向量和分布式文件***DFS读取的各训练文本之间的相似度。并将本结点产生的相似度K-top个结果作为中间结果返回。

7.Reduce函数汇聚所有Map结点产生的中间结果，将其进行队列排序，规约出其中相似度最高的K个训练文本向量，生成K最近邻集合N(u)。

8.Merge根据权重计算公式，再次读取DFS上的文件记录，找出在上一步得到的K个训练文本向量，基于上一步生成K最近邻集合N(u)，计算每一类的权重。输出到缓存里。

9.将缓存里的各类的权重进行排序，找出最大的权重，其所属的类别就是新文本的类别。

本发明能大幅缩短文档分类任务的执行时间，提高分类效率，且具备健壮性。

Claims

1.一种电力云环境下基于K最近邻算法的文档自动分类方法，其特征在于该方法对云计算的MapReduce编程框架进行了改进，其中Map函数完成文档相似性的计算，reduce函数规约出相似性最高的K个样本，统计最近邻所属各个类别的权重，并输出权重最大的类别，具体内容包括：