CN103198099A

CN103198099A - 基于云计算的面向电信业务的数据挖掘应用方法

Info

Publication number: CN103198099A
Application number: CN2013100792684A
Authority: CN
Inventors: 季一木; 潘俏羽; 王汝传; 孙力娟; 王振洪; 马晓东; 韩志杰; 付雄; 张琳
Original assignee: JIANGSU YITONG HIGH-TECH Co Ltd; Nanjing Post and Telecommunication University
Current assignee: JIANGSU YITONG HIGH-TECH Co Ltd; Nanjing Post and Telecommunication University; Nanjing University of Posts and Telecommunications
Priority date: 2013-03-12
Filing date: 2013-03-12
Publication date: 2013-07-10

Abstract

本发明是一种基于云计算的面向电信业务的数据挖掘应用方法，该方法采用分层的思想，自顶向下每层都透明的调用下层接口，最顶层为交互层，用于用户和***之间的交互，使用分层，各层之间变得独立，易于***的扩展，该方法的使用有利于我们方便、快速的实现计算机集群。在HADOOP平台上，采用了HDFS(分布式文件***)来实现超大文件的存储和容错，而使用了MapReduce的编程模式来进行计算。将HADOOP运用到数据挖掘，将一些传统的数据挖掘算法实行并行化。对于传统的数据挖掘算法，结合算法自身的特点，可以很容易或者需要深入研究发现它是否能够并行。

Description

基于云计算的面向电信业务的数据挖掘应用方法

技术领域

本发明是基于云计算HADOOP的平台的面向电信业务数据挖掘应用方法的研究。主要用于解决电信业务中产生的海量数据的挖掘,从而提取出隐含的、未知的、潜在的和有用的信息,发现存在于电信数据库中的业务或属性间的实用的商业关系，且这些关系是预先未知的或者被隐藏的。

背景技术

移动通信的迅速发展，电信获取的用户信息的数量大大增加，业务交易量与日俱增，电信公司每天在运作的过程中会接受到的信息数以万计，存储这些信息的交易数据库变得异常庞大复杂，电信公司也越来越关注如何从这些海量的数据中挖掘出有用的信息来帮助电信制定决策，为电信创造竞争优势。数据挖掘技术出现在上个世纪80年代，先在数据挖掘技术需要在大型数据库中发现有用信息，处理海量数据，这个过程是结合了传统的数据分析方法与处理海量数据的复杂算法。如今云计算的出现以及分布式的数据存储使得数据挖掘更是应用广泛，并出现一种商品化趋势。数据挖掘的一个重要特点就是能够发现一些隐含的信息，包括从海量的数据库中挖掘一种趋势，模式和相互关系。

HADOOP作为云计算的主要应用平台，它的分布式计算框架作为Apache下的一个开源项目，目前得到了大量的应用，HADOOP已经成长为包括Hadoop common，HDFS,MapReduce，ZooKeeper，Avro，Chukwa，HBase，Hive，Mahout，Pig在内的10个子项目，其中HDFS和MapReduce是使用HADOOP构建自己的云计算服务平台的核心。利用HADOOP优良的集群特性，强大的计算能力，存储能力，灵活的伸缩性和扩展性，可以很好的解决传统的数据挖掘算法在面对大数据集时表现出的计算能力不能让人满意，同时伸缩性、扩展性也很差的问题。

发明内容

技术问题：本发明的目的是提供一种基于云计算的面向电信业务的数据挖掘应用方法，来提高电信业务间协调性，增强电信公司的整体竞争性。通过使用本发明提出的方案可以找出业务之间的隐藏的关联关系，进而优化业务套餐，抓住更大的市场，同时也提高了执行的效率。

技术方案：本发明是一种策略性的方案，基于HADOOP平台集群的巨大的存储和计算能力，组建基于HADOOP的数据挖掘***，充分利用HADOOP的集群特征，将数据挖掘***中需要巨大计算能力的各个模块的计算和存储要求扩展到HADOOP集群中的各个节点上，利用集群的并行计算和存储能力来进行相关数据挖掘工作，采用分层的设计思想，在底层，使用HADOOP来存储、分析和处理巨大的数据量，而在高层通过接口直接透明的调用底层的计算和存储能力。

本发明的基于云计算的面向电信业务的数据挖掘应用方法采用分层的思想，自顶向下每层都透明的调用下层接口，最顶层为交互层，用于用户和***之间的交互，使用分层，各层之间变得独立，易于***的扩展，具体如下：

1）分割电信业务的文件：首先，将众多电信业务的文件分成大小不等的若干小块数据，数据块大小由用户给定参数控制，然后启动机器集群中的众多程序拷贝，

2）指派聚合Map、分流Reduce任务，运用并行的数据挖掘算法进行数据挖掘：在众多程序拷贝中有一个管理机的主程序，其他的均为工作站程序，工作站程序有管理机指派任务，主程序指派空闲的工作站程序执行聚合任务或是Reduce任务，

3）读取电信业务的数据：被指派执行聚合任务的工作站读取相关的数据块，从原始数据中解析出数据对，经过聚合函数处理，得到中间键值对时，存入内存缓冲区，

4）本地写入电信业务的数据：内存中的数据组被划分函数周期性的划分到R个区域写入本地磁盘，这些在本地磁盘的数据数列的存放位置信息被送回管理机，管理机负责将这些位置信息传送到执行分流任务的工作站。

5）远程读取处理后的电信业务的数据：当执行分流任务的工作站被告知这些数据的位置，它通过远程方式读取执行聚合任务的工作站中的本地缓冲数据；分流工作站读取完所有中间数据后，通过中间关键字对数据进行分组，把具有相同关键字的数据分为一类；排序操作是必须的，因为具有不同的关键字聚合后会进行相同的分流操作，如果中间数据的数量大到不适合存入内存时，就启用外部存储，

6）写到输出文件，得出电信业务之间的关系：分流工作站对每一个由唯一的中间关键字对应的中间数据进行分组，它发送关键字和相对应的中间值给用户的分流函数，分流函数输出的结果是电信业务之间的关系。

有益效果：使用该方案有如下优点：

(1)有效的容错机制。

HADOOP将硬件的故障作为常态，通过块的冗余存储机制保证数据的高可靠性，在大多数情况下，块的副本系数为3，文件分布式***的存放策略是将一个副本存放在本地机架的节点上，一个副本放在同一机架的另一个节点上，最后的一个副本存放在不同机架的节点上，形成有效地容错机制。

(2)合理的调度机制，节约内存空间。

HADOOP中常见的调度器有三种，分别为：

（a）默认的调度器FIFO

HADOOP中默认的调度器，它先按照作业的优先级高低，再按照到达时间的先后选择被执行的作业。

（b）计算能力调度器Capacity Scheduler支持多个队列，每个队列可配置一定的资源量，每个队列采用FIFO调度策略，为了防止同一个用户的作业独占队列中的资源，该调度器会对同一用户提交的作业所占资源量进行限定。

（c）公平调度器Fair Scheduler

同计算能力调度器类似，支持多队列多用户，每个队列中的资源量可以配置，同一队列中的作业公平共享队列中所有资源。

在Hadoop***中，调度器是一个非常重要的组件，它的作用是将***中空闲的资源按一定策略分配作业。在Hadoop中，调度器是一个可插拔的模块，用户可以根据自己的实际应用要求设计调度器，合理的利用了资源，节约了内存空间。

附图说明

图1是基于HADOOP的数据挖掘***模型。

图2是电信业务概述。

图3是判断业务之间的关系的决策树模型的举例。

图4是MapReduce方法流程。

具体实施方式

具体实施的步骤如下：

·搭建实验平台，包括硬件平台和软件平台；

·安装和配置HADOOP；

·配置好HADOOP集群后，我们可以使用常见命令进行操作；

·将决策树并行算法放到HADOOP平台上进行运算；

·根据挖掘结果，制定业务之间的组合。

体系结构：电信业务主要有基础电信业务和增值电信业务，其中基础电信业务包括第一类基础电信业务和第二类基础电信业务，增值电信业务包括第一类增值电信业务和第二类增值电信业务。

基础电信业务中的第一类基础电信业务有固定通信业务，蜂窝移动通信业务，第一类卫星通信业务，第一类数据通信业务。第二类基础电信业务有集群通信业务，无线寻呼业务，第二类卫星通信业务，第二类数据通信业务，网络接入业务，国内通信设施服务业务和网络托管业务。图1所示的是电信业务概述。

基于HADOOP的电信业务的数据挖掘***，采用分层的思想，自顶向下每层都透明的调用下层接口，最顶层为交互层，用于用户和***之间的交互。最底层为分布式计算层，使用HADOOP来实现文件分布式存储和并行计算功能。使用分层，各层之间变得独立，易于***的扩展。下面如图1所示是基于HADOOP的数据挖掘***模型。

·交互层

这一层主要提供***和电信管理者之间的接口。通过提供具有良好表现形式的图形界面，使得电信管理者可以登陆***定制各种细粒度的业务，查看或者保存各种输出结果。

应用层

这一层上提供了各种业务使用情况的逻辑并实现了对各种业务流程的控制和调度。用户使用业务情况在这一层被处理，控制和调度。如：应用层通过调用数据挖掘算法层的多个模块来完成交互层提交的任务，并返回结果到交互层。业务应用层还控制和调度着数据挖掘平台的各个模块的执行。

·数据挖掘平台层

数据挖掘平台层为业务应用层提供数据挖掘阶段业务流需要的各个模块，并且具有较细的粒度。如数据预处理，模式评估，数据挖掘，结果展示等功能组件。这一层是整个***的核心，在这一层，主要的任务在于实现各种任务过程中算法的并行化，并将任务提交到HADOOP分布计算层进行运算。并将结果返回给业务应用层。

决策树构造可以分两步进行。第一步，决策树的生成：由业务数据样本集生成决策树。第二步，决策树的剪技：决策树的剪枝是对上一阶段生成的决策树进行检验、校正和修下的过程，主要是用新的样本数扼集（称为测试数据集）中的数据校验决策树生成过程中产生的初步规则，将那些影响预衡准确性的分枝剪除。

1）树以电信业务数据样本的单个结点开始。

2）如果样本都在同一个类．则该结点成为树叶，并用该类标记。

3）否则，算法选择最有分类能力的属性作为决策树的当前结点。

4）根据当前决策结点属性取值的不同，将电信业务数据样本数据集分为若干子集，每个取值形成一个分枝，有几个取值形成几个分枝。然后对上一步得到的一个子集进行重复先前步骤，递层形成每个划分电信业务数据上的决策树。一旦一个属性出现在一个结点上，就不必在该结点的任何后代考虑它。

5）递归划分步骤仅当下列条件之一成立时停止：

①给定结点的所有电信业务数据属于同一类。

②没有剩余属性可以用来进一步划分样本．在这种情况下．使用多数表决，将给定的结点转换成树叶，并以样本中元组个数最多的类别作为类别标记，同时也可以存放该结点样木的类别分布。

③如果某一分枝没有电信业务数据样本，则以电信业务数据样本的多数类创建一个树叶。

此处用的是决策树模型，图3为判断业务之间的关系的决策树模型的举例。

·分布式计算平台层

这一层我们使用HADOOP框架来实现集群存储、计算。HADOOP提供了分布式文件***和并行的运行模式，同时实现了对分布式***的管理。我们需要在此之上实现任务提交的server。

一、方法流程：

分割文件

首先，将众多文件分成大小不等的若干小块数据，数据块大小由用户给定参数控制，然后启动机器集群中的众多程序拷贝。

指派MapReduce任务

在众多程序拷贝中有一个管理机的主程序，其他的均为工作站程序，工作站程序有管理机指派任务。主程序指派空闲的工作站程序执行Map任务或是Reduce任务。

读取

被指派执行Map任务的工作站读取相关的数据块，从原始数据中解析出数据对，经过Map函数处理，得到中间键值对时，存入内存缓冲区。

本地写入

内存中的数据组被划分函数周期性的划分到R个区域写入本地磁盘。这些在本地磁盘的数据数列的存放位置信息被送回管理机，管理机负责将这些位置信息传送到执行Reduce任务的工作站。

远程读取

当执行Reduce任务的工作站被告知这些数据的位置，它通过远程方式读取执行Map任务的工作站中的本地缓冲数据。Reduce工作站读取完所有中间数据后，通过中间关键字对数据进行分组，把具有相同关键字的数据分为一类。排序操作是必须的，因为具有不同的关键字Map后会进行相同的Reduce操作。如果中间数据的数量太大不适合存入内存，就启用外部存储。

写到输出文件

Reduce工作站对每一个由唯一的中间关键字对应的中间数据进行分组，它发送关键字和相对应的中间值给用户的Reduce函数。Reduce函数的输出结果将被添加到最后的输出文件中。

当所有的Map任务和Reduce任务都已经完成了的时候，管理机的主程序激活用户程序。这时候MapReduce返回用户程序的调用点。图3为MapReduce方法流程。

Claims

1.一种基于云计算的面向电信业务的数据挖掘应用方法，其特征在于该方法采用分层的思想，自顶向下每层都透明的调用下层接口，最顶层为交互层，用于用户和***之间的交互，使用分层，各层之间变得独立，易于***的扩展，具体如下：

2）指派聚合Map、分流Reduce任务，运用并行的数据挖掘算法进行数据挖掘：在众多程序拷贝中有一个管理机的主程序，其他的均为工作站程序，工作站程序有管理机指派任务，主程序指派空闲的工作站程序执行聚合任务或是 Reduce 任务，

4）本地写入电信业务的数据：内存中的数据组被划分函数周期性的划分到 R 个区域写入本地磁盘，这些在本地磁盘的数据数列的存放位置信息被送回管理机，管理机负责将这些位置信息传送到执行分流任务的工作站，