CN105354251A

CN105354251A - 电力***中基于Hadoop的电力云数据管理索引方法

Info

Publication number: CN105354251A
Application number: CN201510680503.2A
Authority: CN
Inventors: 杨云; 吴维农; 卓灵; 郑元兵; 王吉哲; 胡洛娜; 肖静薇; 吴烈
Original assignee: State Grid Corp of China SGCC; Information and Telecommunication Branch of State Grid Chongqing Electric Power Co Ltd
Current assignee: State Grid Corp of China SGCC; Information and Telecommunication Branch of State Grid Chongqing Electric Power Co Ltd
Priority date: 2015-10-19
Filing date: 2015-10-19
Publication date: 2016-02-24
Anticipated expiration: 2035-10-19
Also published as: CN105354251B

Abstract

本发明提供的电力***中基于Hadoop的电力云数据管理索引方法，包括b.将接收到的数据分为海量数据类型和信息数据类型；c.根据数据的类型建立每种类型对应的索引；d.根据用户的查询条件生成请求信息，根据请求信息进行搜索，并将搜索结果反馈给用户；本发明有效的满足频发更新、快速的多维查询要求，并且在一定程度上减少了索引创建对***写入性能的影响，减小了检索对***稳定性造成的威胁。

Description

电力***中基于Hadoop的电力云数据管理索引方法

技术领域

本发明涉及计算机领域，尤其涉及一种电力***中基于Hadoop的电力云数据管理索引方法。

背景技术

电力供应的安全稳定，是电力部门的首要目标。在计算机设备不断进入电力行业的今天，随着物联网、云计算、移动互联网的快速发展，数据以***化的形式中急剧膨胀，电力***数据存储的稳定和安全，成为保障电力***稳定运行的重要条件。

近年来，随着智能变电站等基础设施的大规模建设，电网企业的数据量正在以几何级速率疯狂增长，其数据来源具有复杂性和多样性(结构化、半结构化和非结构化)的特点。各种异构信息的存储，如：通信电源、图像监视、安全警卫、主变压器消防、给排水、火灾报警、采暖通风、门禁、动力环境监视等辅助生产***以及开关状态、设备状态等在线监测设备的处理成为亟待解决的问题。

在现有的电力***领域中，存储数据主要分为两大类型：海量数据和信息数据。其中，海量数据主要由多媒体数据(原始音、视频，图片)、传感器数据和***设备数据等组成，具有存储量大，访问频率低的特点，主要用于检索回放和备份存储；信息数据主要以业务操作数据为主，具有存储量小，访问频率高的特点，主要用于报表查看等业务操作。

目前，现有的文件***难以满足电力行业实际的存储需求。直接用于电力***中会导致很多问题，例如：(1)磁盘空间利用率低。由于监控业务的并发突发，视频文件存储量大，小文件多等特点，就安防监控业务来看，使用传统的文件***会导致磁盘碎片过多，使空间利用率不高；(2)文件检索效率不高。文件检索查找等业务操作会随着存储***中文件数量的急剧增多(增涨到数千万以上时)给***效率带来巨大的考验。当文件的数量超过一定数量时，甚至会造成***崩溃等问题；(3)存储技术的融合不够。现有的技术手段主要考虑的是现有硬件基础架构加上软件，以SAN架构+卷管理软件(或并行文件***)为代表。在继承了架构缺点的同时也继承了卷管理软件或并行文件***的缺点，如：在构建和维护上流程复杂，其次由于数据块和网络需求等多方面原因，基于SAN的***也很难扩容，无法满足大数据存储需求。

发明内容

有鉴于此，本发明提供一种电力***中基于Hadoop的电力云数据管理索引方法，以解决上述问题。

本发明提供的电力***中基于Hadoop的电力云数据管理索引方法，包括：

b.将接收到的数据分为海量数据类型和信息数据类型；

c.根据数据的类型建立每种类型对应的索引；

d.根据用户的查询条件生成请求信息，根据请求信息进行搜索，并将搜索结果反馈给用户。

进一步，在步骤b之前还包括

a.将电力***的数据处理架构划分为：

数据访问层，用于根据用户的业务检索请求对数据进行判断和分类处理，

数据处理层，用于接收电力***中的数据并对电力***中的数据类型进行判别，

数据存储层，用于数据索引的创建、维护和原始数据存储。

进一步，所述步骤b还包括

b1.将数据传输给数据处理层，数据处理层将数据进行分类处理并向存储层传递待存储信息和数据类型信息。

进一步，数据存储层对接收到的所述待存储信息和数据类型信息进行解析，并根据数据类型信息将数据建立对应的索引。

进一步，当数据类型为信息数据时，所述步骤c中建立索引包括

c11.判断请求信息是否为数据存储请求，

若是存储请求，则将数据分析信息和原始数据信息传递给虚拟存储***，虚拟存储***在可信服务器中进行索引创建形成对应的反向索引表和词典文件，并按照数据存储结构进行存储；

若不是存储请求，则将请求信息交由虚拟存储***的存储层进行搜索，可信服务器根据搜索的提交的关键词和语法树来计算文件权重，并返回用户查找相关信息数据类型信息。

进一步，当数据类型为海量数据时，所述步骤c中建立索引包括

c21.分别建立索引簇和Hbase簇，

c22.当海量数据到达时，***同时将其传送给索引簇和Hbase簇；

c23.索引簇建立粗粒度索引，并向HBase簇发送信息；

c24.Hbase簇收到索引簇的发送的信息后，在每个存储块中建立一个细粒度索引，获取需求信息。

进一步，所述c24中的细粒度索引为本地索引，所述本地索引的建立过程包括：

c241.将时间划分成n个间隔块，

c242.在一个时间间隔内，将其中的数据按类别动态的划分成对应的子部分，每一个子部分的数据块存储到HBase中，

c243.当前划分的时间间隔结束后，随后产生的数据将会从下个时间间隔中重复步骤c241进行存储。

进一步，所述粗粒度索引包括时间间隔索引和数据类别索引。

进一步，所述步骤c11中的数据存储结构为Store{ID,HEAD(Freq,Type,Keys,TStamp),BODY}，其中ID表示存储标号，Head是由内容标签页组成，分别为：Freq-表示频率，Type-表示类型，Keys-表示关键词和TStamp-表示时间戳；Body表示存储信息数据。

进一步，所述步骤c11中文件权重，通过如下公式计算

W_{k, d} = f_{k, d} \times \sqrt{M / m_{k, d}}

其中，W_k,d表示关键词key在存储数据中的权重，f_k,d表示关键词key在存储数据中的频率，M表示该段存储数据的总大小，m_k,d表示关键词key在存储数据中所占的大小。

本发明的有益效果：本发明将数据进行分类，符合电力行业在实际业务中所产生的海量异构信息的特点，缓解分布式检索效率不高、空间利用率低磁盘碎片多的实际问题。数据存储层对传递的数据中不同的标记进行分类，并分别为不同类型的数据构建生成不同的索引，同时对原始数据做相应处理。将生成好的索引和处理后的原始数据根据不同的存储策略进行存储，有效的满足频发更新、快速的多维查询要求，并且在一定程度上减少了索引创建对***写入性能的影响，减小了检索对***稳定性造成的威胁。

附图说明

下面结合附图和实施例对本发明作进一步描述：

图1是本发明的***构架示意图。

图2是本发明的***流程示意图。

图3是本发明的信息数据存储格式示意图。

图4是本发明的海量数据存储和检索流程示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步描述：图1是本发明的***构架示意图，图2是本发明的***流程示意图，图3是本发明的信息数据存储格式示意图，图4是本发明的海量数据存储和检索流程示意图。

本实施例中的电力***中基于Hadoop的电力云数据管理索引方法，包括

a.将电力***的数据处理架构划分为：

数据访问层--用于根据用户的业务检索请求对数据进行判断和分类处理，

数据处理层--用于接收电力***中的数据并对电力***中的数据类型进行判别，

数据存储层--用于数据索引的创建、维护和原始数据存储；

b.将接收到的数据分为海量数据类型和信息数据类型；

c.根据数据的类型建立每种类型对应的索引；

如图1所示，在本实施例中，数据访问层负责对用户提交的业务检索请求作类型分类处理，例如报表查看、视频查看、机房硬件状态查看等；数据处理层包括数据接口模块和数据类型认证模块，负责接收和判别电力***的中的数据类型；数据存储层负责对数据索引进行创建、维护以及原始数据进行存储的功能。其中，电力***数据的存储和索引主要在数据存储层中完成。

如图2所示，所述步骤b还包括

b1.将数据传输给数据处理层，数据处理层将数据进行分类处理并向存储层传递待存储信息和数据类型信息。在数据的虚拟化存储中电力***将产生的数据通过数据处理层的数据接口传输给数据类型认证模块后，数据类型认证模块将接收到的数据进行分类认证处理并向数据存储层传递信息Message{Data,Type}(其中，Data为数据接口中传递的原始数据；Type是数据类型的分类，按电力***数据的特点分为海量数据类型和信息数据类型，分别用0和1进行标记)；

数据存储层对接收到的所述待存储信息和数据类型信息进行解析，并根据数据类型信息将数据建立对应的索引，本实施例中数据存储层接收到数据处理层发送的消息后解析Message中的Type，并按照Type的类型将数据按照不同的存储策略，建立不同Type类型对应的索引。

在本实施例中，在数据检索部分，用户向***发业务检索请求Request{Type,Keys,Conditions}(其中，Type是***根据用户的业务检索请求的数据类型自动生成的标记，用于区别两种不同的数据类型：海量数据类型和信息数据类型；Keys主要用于信息数据类型的检索，用来表示用户搜索关键字的组合，通过异或实现；Conditions是用于识别用户请求业务数据的条件，如报表、时间等)；数据存储层在接收到***根据用户业务检索请求生成的Request后，按对应的索引策略检索并返回用户的需求信息。

在本实施例中，当数据类型为信息数据时，所述步骤c中建立索引包括

c11.判断请求信息是否为数据存储请求，

在本实施例中，构建反向索引主要使用两个Hash函数，分别实现对高频和低频词映射形成倒排文件。由齐夫定律(Zipf'sLaw)，一个单词在大规模文本集中出现的频率和它在词组频率表中的排名成反比，即频率最高的单词出现的频率大约是第二位的2倍，第二位是第三位的3/2倍，由此可得出词频出现的概率：

P (r) = \frac{n}{q^{m}} - - - (1)

q表示分词在出现的大致排名，P(r)表示在词库文本中的概率。在单词频率分布中n≈0.1，m≈1。故得出公式2：

P (r) = \frac{0.1}{q} - - - (2)

由公式2用在文件倒排中，即对于80％的低频关键词，倒排索引文件占20％，将词典库中的前20％设为高频词，后80％设为低频词，利用hash函数进行映射。

Hash1函数采用MD5函数进行映射，将关键词作为函数的输入，函数的输出保存该关键字的倒排索引文件名。

Hash2将低频词的频率排名作为函数的输出，输出也保存该词倒排索引的文件名。Hash2的表示如公式3所示：

Hash2＝MD5(h(p))(3)

其中MD5是MD5函数，p是关键词在词典中的排名，h(p)公式定义见公式4：

h (p) = \{\begin{matrix} p - p % (10 m) & N < p \leq 10 N \\ p - p % (20 m) & 10 N < p \leq 50 N \\ p - p % (40 m) & 50 N < p \end{matrix} - - - (4)

h(p)中N是阀值，在词库中大于N的属于低频词，小于等于N的是高频词。在Hbase中m取值1。

Hash2在将若干个关键字的倒排索引映射到同一个文件名时，排名越小的关键字，与映射倒排文件越小。

在本实施例中，使用基于Hadoop***下的虚拟化存储平台，Hadoop是一个由Apache基金会所开发的分布式***基础架构。数据处理层对电力***数据接口是否有数据需要存储进行判断，若需要存储，则数据存储层终端在接收到数据后根据存储需求对数据进行分析，并检验标记信息；若不需要存储，则等待，当数据存储层接收到***发送的Request请求时，用户在访问层中提交的查询条件信息，交由虚拟存储***的存储层进行搜索，可信服务器根据搜索的提交的关键词和语法树来计算文件权重其中，W_k,d表示关键词key在存储数据中的权重；f_k,d表示关键词key在存储数据中的频率；M表示该段存储数据的总大小；m_k,d表示关键词key在存储数据中所占的大小，并返回用户查找相关信息数据类型信息，可信服务器按频率的变化，***定期将信息更新索引文件信息。

如图3所示，在本实施例中，当数据类型为海量数据时，所述步骤c中建立索引包括

c21.分别建立索引簇和Hbase簇，

c22.当海量数据到达时，***同时将其传送给索引簇和Hbase簇；

c23.索引簇建立粗粒度索引，并向HBase簇发送信息；

在本实施例中，Hbase(HadoopDatabase)是一个高可靠性、高性能、面向列、可伸缩的分布式存储***，索引簇主要负责用于对数据的***和用户查询信息的检索；HBase簇主要负责存储数据以及索引每个存储块中的历史数据信息，当海量数据到达时，***在接收到海量数据类型后会同时将海量数据传送给索引簇和Hbase簇；索引簇会对此建立粗度的索引，并向HBase簇发送信息；Hbase簇在收到索引簇的请求后，在每个存储块中建立一个本地索引；在接受到用户的查询处理请求时，虚拟化存储***利用索引簇，根据查询条件获取与之相关的存储块，再通过HBase簇从对应的存储块中获取相应的需求信息。

在本实施例中，所述c24中的细粒度索引为本地索引，所述本地索引的建立过程包括：

c241.将时间划分成n个间隔块，

海量数据存储过程主要通过建立索引框架实现数据的存储处理，有三种不同类别的索引，分别是时间间隔索引、数据类别索引和本地索引。其中，时间间隔索引和数据类别索引属于粗粒度级别的索引，用于负责根据数据的存储的时间和类别对当前数据进行检索；本地索引是细粒度级别索引可以用于对历史数据的检索。利用时间间隔将时间划分成n个间隔块，B⁺-tree索引可以用来检索这些时间间隔；在一个具体的时间间隔内，将其中的数据按类别动态的划分成对应的子部分。每一个子部分的数据块被存储到HBase的数据块中；当前划分的时间间隔结束后，随后产生的数据将会从下个时间间隔中重复上述划分时间间隔的方法进行存储；原有的历史数据被存储到HBase之后将不再被改变，针对这些历史数据可以批量通过R-tree(R树是B树向多维空间发展的另一种形式)来建立对应的本地索引。通过这种索引策略可以在检索当前数据时只检索时间间隔和对应的子空间，而不需要检索当前数据本身；在数据***期间，索引的更新时间也可以有效的被降低，从而适应高频率的数据更新的要求。

如图3所示，在本实施例中，所述步骤c11中的数据存储结构为Store{ID,HEAD(Freq,Type,Keys,TStamp),BODY}，其中ID表示存储标号，Head是由内容标签页组成，分别为：Freq-表示频率，Type-表示类型，Keys-表示关键词和TStamp-表示时间戳；Body表示存储信息数据。其中，频率和时间戳用来表示文件的被检索的频率，类型和关键词是用来表示所存储数据的基本信息内容，便于检索。Body部分用于存储信息数据的具体数据内容。

在本实施例中，所述步骤c11中文件权重，通过如下公式计算

W_{k, d} = f_{k, d} \times \sqrt{M / m_{k, d}}

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种电力***中基于Hadoop的电力云数据管理索引方法，其特征在于：包括

b.将接收到的数据分为海量数据类型和信息数据类型；

c.根据数据的类型建立每种类型对应的索引；

2.根据权利要求1所述的电力***中基于Hadoop的电力云数据管理索引方法，其特征在于：在步骤b之前还包括

a.将电力***的数据处理架构划分为：

数据存储层，用于数据索引的创建、维护和原始数据存储。

3.根据权利要求2所述的电力***中基于Hadoop的电力云数据管理索引方法，其特征在于：所述步骤b还包括

4.根据权利要求3所述的电力***中基于Hadoop的电力云数据管理索引方法，其特征在于：数据存储层对接收到的所述待存储信息和数据类型信息进行解析，并根据数据类型信息将数据建立对应的索引。

5.根据权利要求4所述的电力***中基于Hadoop的电力云数据管理索引方法，其特征在于：当数据类型为信息数据时，所述步骤c中建立索引包括

c11.判断请求信息是否为数据存储请求，

6.根据权利要求4所述的电力***中基于Hadoop的电力云数据管理索引方法，其特征在于：当数据类型为海量数据时，所述步骤c中建立索引包括

c21.分别建立索引簇和Hbase簇，

c22.当海量数据到达时，***同时将其传送给索引簇和Hbase簇；

c23.索引簇建立粗粒度索引，并向HBase簇发送信息；

7.根据权利要求6所述的电力***中基于Hadoop的电力云数据管理索引方法，其特征在于：所述c24中的细粒度索引为本地索引，所述本地索引的建立过程包括：

c241.将时间划分成n个间隔块，

8.根据权利要求6所述的电力***中基于Hadoop的电力云数据管理索引方法，其特征在于：所述粗粒度索引包括时间间隔索引和数据类别索引。

9.根据权利要求6所述的电力***中基于Hadoop的电力云数据管理索引方法，其特征在于：所述步骤c11中的数据存储结构为Store{ID,HEAD(Freq,Type,Keys,TStamp),BODY}，其中ID表示存储标号，Head是由内容标签页组成，分别为：Freq-表示频率，Type-表示类型，Keys-表示关键词和TStamp-表示时间戳；Body表示存储信息数据。

10.根据权利要求6所述的电力***中基于Hadoop的电力云数据管理索引方法，其特征在于：所述步骤c11中文件权重，通过如下公式计算

W_{k, d} = f_{k, d} \times \sqrt{M / m_{k, d}}