CN104750681B

CN104750681B - 一种海量数据的处理方法及装置

Info

Publication number: CN104750681B
Application number: CN201310726882.5A
Authority: CN
Inventors: 姜国强; 宋炜
Original assignee: China Mobile Group Liaoning Co Ltd
Current assignee: China Mobile Group Liaoning Co Ltd
Priority date: 2013-12-25
Filing date: 2013-12-25
Publication date: 2018-02-23
Anticipated expiration: 2033-12-25
Also published as: CN104750681A

Abstract

本发明公开了一种海量数据的处理方法及装置，涉及数据业务领域，解决了现有技术中海量数据查询时效率低下等技术问题。其中，该方法包括：接收用业务元数据描述的查询请求，所述查询请求中包括查询条件；根据业务元数据与技术元数据之间的映射关系查找所述查询条件对应的技术元数据；根据所述技术元数据到数据库中查找符合查询条件的索引范围；在所述索引范围中根据查询条件确定详单数据。该方法主要用于大量数据查询。

Description

一种海量数据的处理方法及装置

技术领域

本发明涉及数据业务领域，特别涉及一种海量数据的处理方法及装置。

背景技术

现有的综合分析***对大量数据的查询、数据导出等给出了相关的技术思路。如图1所示是该综合分析***中的查询方案实现过程。从图1中可知，现有的综合分析***采用传统关系型数据库存储多结构化数据，并且直接对外提供详单查询。

由此可知，现有的综合分析***在处理海量数据查询和存储过程中，至少存在如下技术问题：

传统关系型数据库存储和查询文本非结构化数据效率极其低下，文本在数据库中只能采用大字段存储，无论是存储还是检索，效率非常低下。

查询并发性低，通过rowkey从关系数据库中直接查询详单数据，受磁盘IO和关系数据库存储方式的约束，不能提供低延时的高并发查询。

查询条件需要输入较专业的技术内容，对查询人员的技术要求较高，并且组合条件查询需要建立非常多的联合索引，为了保持数据的一致性，会影响入库效率，为了能够匹配更多的条件组合，需要建立非常多的联合索引，以提高查询效率，直接导致联合索引的维护性差。

发明内容

为了解决现有技术中面对海量数据的存储和查询时效率低、维护性差等技术问题，本发明提出一种海量数据的处理方法及装置。

一种海量数据的处理方法，包括：

接收用业务元数据描述的查询请求，所述查询请求中包括查询条件；

根据业务元数据与技术元数据之间的映射关系查找所述查询条件对应的技术元数据；

根据所述技术元数据到数据库中查找符合查询条件的索引范围；

在所述索引范围中根据查询请求确定详单数据。

一种海量数据的处理装置，包括：

接收模块，用于接收用业务元数据描述的查询请求，所述查询请求中包括查询条件；

映射模块，用于根据业务元数据与技术元数据之间的映射关系查找所述查询条件对应的技术元数据；

索引模块，用于根据所述技术元数据到数据库中查找符合查询条件的索引范围；

确定模块，用于在所述索引范围中根据查询条件确定详单数据。

本发明提供的方案中结合开源的大数据架构，通过将业务元数据自动映射成业务元数据的手段，对应用屏蔽了复杂的技术结构，解决了现有技术中查询人员使用数据库时由于需要较专业的技术内容导致的查询效率低下，可用性差的技术问题，提高了***的易用性和灵活性，并且通过确定的范围索引提高了组合条件查询的实用性，提高了查询效率和***的维护性。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为背景技术中综合分析***中的查询方案实现过程示意图；

图2为本发明实施例1提供的海量数据的处理过程示意图；

图3为本发明实施例1提供的海量数据的处理方法的流程图；

图4为本发明实施例1提供的海量数据的处理方法中业务元数据与技术元数据之间的关系示意图；

图5为本发明实施例1提供的海量数据的处理方法中业务元数据与技术元数据之间的另一关系示意图；

图6为本发明实施例1提供的海量数据的处理方法中实现多级索引过程的示意图；

图7为本发明实施例2提供的海量数据的处理装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

并且，以下各实施例均为本发明的可选方案，实施例的排列顺序及实施例的编号与其优选执行的顺序无关。

实施例1

本实施例，提供了一种海量数据的处理方法，该方法适合基于分布式文件***和非关系型的数据库（NOSQL）中海量数据的查询与存储等处理。具体的，该数据库可以为HBase(Hadoop Database，一种分布式的、面向列的开源数据库)。此外，本实施例方法中的执行主体为索引服务器，该索引服务器可以部署在HBase数据库***中的适当位置，如该索引服务器可以部署在关系节点服务器上等。

如图2为该方法实施改进的示意图，其中将应用层、接口（即查询代理服务）、元数据、数据库（即Hbaes）、存储（HDFS，文件存储***）等五个独立模块解耦，重新组合到一起，以提高低延时的高并发性随机查询服务。

如图3所示，该方法主要包括：

步骤101，应用层将用业务元数据描述的查询请求发给查询代理服务的业务元数据转义功能部分，该查询请求中包括查询条件，所述查询条件即为至少一个业务维度。

元数据（Metadata）是关于数据的数据。在数据仓库***中，元数据可以帮助数据仓库管理员和数据仓库的开发人员非常方便地找到他们所关心的数据；元数据是描述数据仓库内数据的结构和建立方法的数据，可将其按用途的不同分为两类：技术元数据（Technical Metadata）和业务元数据（Business Metadata）

1.技术元数据是存储关于数据仓库***技术细节的数据，是用于开发和管理数据仓库使用的数据，它主要包括以下信息：(1)数据仓库结构的描述，包括仓库模式、视图、维、层次结构和导出数据的定义，以及数据集市的位置和内容；(2)业务***、数据仓库和数据集市的体系结构和模式；(3)汇总用的算法，包括度量和维定义算法，数据粒度、主题领域、聚集、汇总、预定义的查询与报告；(4)由操作环境到数据仓库环境的映射，包括源数据和它们的内容、数据分割、数据提取、清理、转换规则和数据刷新规则、安全（用户授权和存取控制）。

2.业务元数据从业务角度描述了数据仓库中的数据，它提供了介于使用者和实际***之间的语义层，使得不懂计算机技术的业务人员也能够“读懂”数据仓库中的数据。业务元数据主要包括以下信息：使用者的业务术语所表达的数据模型、对象名和属性名；访问数据的原则和数据的来源；***所提供的分析方法以及公式和报表的信息等。由于技术元数据与业务元数据在本实施例中的定义与现有技术相同，同时也属于本领域技术人员的公知常识范围，故而不赘述。

步骤102，业务元数据转义功能部分接收应用层用业务元数据描述的查询请求后，在元数据中根据业务元数据与技术元数据之间的映射关系查找用业务元数据描述的该查询条件所对应的技术元数据。

元数据在IT***中比较常见，但大多描述技术方面的元数据信息，而业务信息的元数据通常都是使用文档形式来记录，而且没有手段可以保证文档与***的定义的一致性；并且，技术元数据与业务元数据关联性不直观，通常需要业务人员掌握一定的IT技术，才可以找到对应的关联性，费时费力。因此上述步骤102中将业务元数据映射成技术元数据的过程，是本实施例的一个改进点之一，故而上述根据业务元数据与技术元数据之间的映射关系查找用业务元数据描述的该查询条件所对应的技术元数据，具体包括：

分析用业务元数据描述的查找请求中所包含的业务维度所对应的用技术元数据描述的技术维度；

根据查找到的技术维度确定技术元数据的物理表，物理表中包括物理表的存放目录（如图4中的HDFS），物理表中记录的列字段，物理表中记录的技术元数据的主键rowkey，多级索引以及物理表中记录的技术元数据的来源（如图4中的ETL元数据）。

例如：如图4所示，业务元数据与技术元数据原本是两个独立的部分块，本实施例中通过对业务元数据与技术元数据增加一层映射关系，通过对关系的定义，让业务元数据与技术元数据整合在成一块，使得业务元数据真正的有迹可寻。

如图5所示，本实施例定义了元数据之间的关系，一个业务应用包含多个指标，由多个业务维度组合而成，并映射到一张物理表上，通过技术元数据可以清楚了解物理表由哪些列组成，存放在哪个HDFS目录中，并通过ETL元数据还能了解表里的数据是从哪来的，从而达到溯源（血统）的目的。

例如：在应用层上为用户提供输入查询条件的界面，用户可以输入作为查询条件的业务指标和业务维度，但至少需要在该界面输入用业务元数据描述的业务维度，如姓名，根据该姓名业务维度映射到的技术元数据为包括named字段名的物理表。同时，该物理表中也提供了姓名的rowkey、存放目录以及可以清楚知道该表的数据是从哪里来的。

在建立技术元数据与业务元数据之间映射关系的过程中，主要有如下关键路径：

1.维度、指标命名规范;首先需要建立业务元数据中的维度、指标命名规范，在全***中的维度、指标命名唯一且业务含义清晰。

2.词汇库;从现有指标规范中获取所有维度和指标名称中的通信词汇，形成中文与英文对应的词汇库。

3.业务元数据;主要是业务指标、业务维度的名称及其它相关信息

4.中文匹配;将业务指标和业务维度名称和词汇库中的通信词汇进行中文匹配，匹配后可获取相应的英文字段

5.维度匹配;将业务指标的维度属性和字典表进行匹配，匹配后可获取相应的英文表名

6.关联出技术元数据：最终***可自动组合出业务元数据对应的技术元数据。

本实施例提供的这种可以根据业务数据映射成技术元数据的元数据有三个明显的好处：

业务人员无需掌握IT技术，就可以了解业务数据来源以及过程，可以分析数据的准确性，快速找出数据存在的问题。

技术人员在对数据进行修改时，可以清楚的知道修改的数据会影响到哪些业务，以减少数据维护过程所产生的问题。

***采用自然语言的分词模式自动从后台建立业务元数据与技术元数据之间的映射关系。

步骤103，返回查找到的技术元数据给技术元数据转义功能部分。

步骤104，技术元数据转义功能部分根据技术元数据直接从HBase NOSQL数据库中查找符合查询条件的索引范围。

上述根据技术元数据从HBase NOSQL数据库中查找符合查询条件的索引范围，具体包括：

在与查询请求的各项查询条件（即业务维度）各自相匹配的维度范围索引中查找该项业务维度的rowkey的范围；将查找到的各项业务维度的rowkey范围取交集作为索引范围。

本实施例中的查找索引范围的过程是一种二级或多级索引过程，与现有技术中根据用户输入的查询条件直接查找rowkey的过程不同。如图6所示，首先从各自的查询条件所对应的业务维度中定位各个查询条件所覆盖的rowkey的范围，然后将定位得到的各个rowkey范围进行取交集处理，这样我们就可以获取一个较小的rowkey范围。最后再组织过滤器，在这个rowkey范围进行全表扫描，获得查询结果。

例如：查询条件：年龄范围[20,27];性别=男;消费水平[200,500]

业务维度定位/索引：每个业务维度有一个维度范围索引表，如果上述三个条件要查询的数据表为三个业务维度，也就是有三个维度，则会有三个维度范围索引表，即年龄范围索引表、性别范围索引表和消费水平范围索引表，年龄范围索引表示例数据如下表一：

表一

表一为一个年龄的业务维度范围索引表，第一列是索引表的主键rowkey，用年龄的不同阶段作为rowkey的值。如上表一所示，要查询的年龄20至27范围内的数据横跨了20-25和25-30两个索引行，即我们可以圈定20到27岁在常规表的数据rowkey范围为[30000,60000]。

其他维度表的索引表也类同，然后用年龄范围索引表、性别范围索引表和消费水平范围索引表返回来的指向常规数据表的rowkey范围做一个交集，即表示在常规表中，该rowkey范围的数据包含条件数据，这样就缩小了要查询数据的范围。

最后,在该范围内进行逐行扫描，匹配年龄字段的值是否在20到27之间，并且性别字段的值是否为男，且消费水平字段的值是否在200到500之间，返回完全匹配的结果集。在实际项目中，为了能够快速返回匹配的结果可以直接返回前100条，以及100条所指向的rowkey，方便应用做翻页再次查询，翻页的时候就可以直接从100条的rowkey开始范围匹配了。

本实施例中提供的方法中先进行索引范围查找的做法有两个非常显著的好处：

不会有网络瓶颈，从业务维度索引查询出来的数据都是两个值，占用网络带宽小。

方便增加维度，增加一个维度就意味着增加一个维度范围索引，而这个索引的数据量也是非常小的。

在上述的索引范围内，技术元数据转义功能部分可以根据查询请求中的查询组合条件（此时已经被映射成用技术元数据描述的形式）确定详单数据，具体包括下面步骤105-108。

步骤105，到数据库的memstore（MemStore是Sorted Memory Buffer,用户写入的数据首先会放入MemStore）缓存里的索引范围中根据查询请求查找对应的详单数据，若查找到，则执行步骤106，若未查找到，则执行步骤107。

步骤106，将查找到的详单数据返回给应用层，并结束本流程。

步骤107，到底层文件存储***查找，即在HDFS中查找；

步骤108，将查找到的详单数据返回给应用层，并结束本流程。

本实施例提供的方法中利用开源的大数据架构，对应用层屏蔽了复杂的技术结构，通过映射的方式减轻对查询人员的技术要求，提高了***的易用性和灵活性，并且通过业务维度范围索引提高了组合条件查询的实用性，提高了查询效率和***的维护性。

实施例2

为了便于实施例1中方法实现，本实施例提供一种海量数据的处理装置，优选地，该装置适用于HBase，相当于实施例1中的索引服务器，如图7所示，包括：接收模块21，映射模块22，索引模块23，确定模块24。

接收模块21，用于接收用业务元数据描述的查询请求，所述查询请求中包括查询条件；映射模块22，用于根据业务元数据与技术元数据之间的映射关系查找查询条件对应的技术元数据；索引模块23，用于根据技术元数据到数据库中查找符合查询条件的索引范围；确定模块24，用于在索引范围中根据查询条件确定详单数据。

优选地，上述查询条件具体为至少一个业务维度。其中，映射模块22可相当于实施例1中提到的业务元数据转义功能部分，具体包括：

分析单元，用于分析用业务元数据描述的查找请求中所包含的业务维度所对应的用技术元数据描述的技术维度；

确定单元，用于根据查找到的技术维度确定技术元数据的物理表，物理表中包括物理表的存放目录，物理表中记录的列字段，物理表中记录的技术元数据的主键rowkey，多级索引和物理表中记录的技术元数据的来源。

索引模块23可相当于实施例1中提到额度技术元数据转义功能部分，具体包括：

范围单元，用于在与查询请求的各项业务维度各自相匹配的维度范围索引中查找该项业务维度的rowkey的范围；

交集单元，用于将查找到的各项业务维度的rowkey范围取交集作为索引范围。

进一步地，确定模块24，具体用于到数据库的memstore缓存里的索引范围中根据查询请求查找对应的详单数据，若查找到，则返回；若未查找到，则到底层文件存储***中查找。

本实施例提供的装置具有将业务元数据映射成对应的技术元数据，且通过多级索引确定索引范围，并在该索引范围内确定详单数据的功能，故而解决了现有技术中在海量数据库中进行查询时，对查询人员技术要求较高，且对多并发查询条件查询效率低下的技术问题，进而取得了提高海量数据的查询效率，增加查询灵活性和可用性的技术效果。

本发明实施例提供的上述设备或装置等产品是属于以计算机程序的流程方法为依据，并按照与方法实施例1和/或附图中方法流程的各步骤完全对应一致的方式，所提供的功能模块。并且由于这种功能模块是通过计算机程序的方式实现的软件装置，所以对于装置实施例2未具体提及的功能模块，由于考虑到根据上述方法实施例记载的内容已经足够使本领域技术人员从方法记录的各流程步骤直接地、毫无意外地确定实现所述步骤所必须建立的功能模块，所以在此不赘述。

本发明的技术方案本质上或者说对现有技术做出贡献的部分是以软件产品的形式体现出来的功能，也即是说：本发明的装置、设备或者组成***的各个设备其所执行的方法或实现的功能主体即便为硬件，但是实际上实现本发明上述功能的部分却是计算机软件产品的模块或单元。并且该计算机软件产品可存储在可读取的存储介质中，如计算机的软盘，硬盘或光盘等，包括若干指令用以使得一台设备执行本发明各个实施例所述的方法。

以上所述，仅为本发明的具体实施方式，但本发明能有多种不同形式的具体实施方式，上文结合附图对本发明做举例说明，这并不意味着本发明所应用的具体实施方式只能局限在这些特定的具体实施方式中，本领域的技术人员应当了解，上文所提供的具体实施方式只是多种优选实施方式中的一些示例，任何体现本发明权利要求的具体实施方式均应在本发明权利要求所要求保护的范围之内；本领域的技术人员能够对上文各具体实施方式中所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换或者改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种海量数据的处理方法，其特征在于，包括：

在所述索引范围中根据查询请求确定详单数据；

所述查询条件包含至少一个业务维度；所述根据业务元数据与技术元数据之间的映射关系查找所述查询条件对应的技术元数据，具体包括：

分析用业务元数据描述的查询请求中所包含的业务维度所对应的用技术元数据描述的技术维度；

根据查找到的技术维度确定技术元数据的物理表，所述物理表中包括所述物理表的存放目录，物理表中记录的列字段，物理表中记录的技术元数据的主键rowkey，多级索引和物理表中记录的技术元数据的来源。

2.根据权利要求1所述的方法，其特征在于，所述根据所述技术元数据到数据库中查找符合查询条件的索引范围，具体包括：

在与查询请求的各项业务维度各自相匹配的维度范围索引中查找该项业务维度的rowkey的范围；

将查找到的各项业务维度的rowkey范围取交集作为索引范围。

3.根据权利要求1所述的方法，其特征在于，所述在所述索引范围中根据查询请求确定详单数据，具体包括：

到数据库的缓存里的所述索引范围中根据查询请求查找对应的详单数据，若查找到，则返回；若未查找到，则到底层文件存储***中查找。

4.根据权利要求1所述的方法，其特征在于，所述数据库为分布式数据库。

5.一种海量数据的处理装置，其特征在于，包括：

映射模块，用于根据业务元数据与技术元数据之间的映射关系查找所述查询条件请求对应的技术元数据；

确定模块，用于在所述索引范围中根据查询条件确定详单数据；

所述查询条件包含至少一个业务维度；

所述映射模块，具体包括：

确定单元，用于根据查找到的技术维度确定技术元数据的物理表，所述物理表中包括所述物理表的存放目录，物理表中记录的列字段，物理表中记录的技术元数据的主键rowkey，多级级索引和物理表中记录的技术元数据的来源。

6.根据权利要求5所述的装置，其特征在于，所述索引模块，具体包括：

范围单元，用于在与查询请求的各项业务各自相匹配的维度范围索引中查找该项业务维度的rowkey的范围；

交集单元，用于将查找到的各项查询条件业务维度的rowkey范围取交集作为索引范围。

7.根据权利要求5所述的装置，其特征在于，所述确定模块，具体用于到数据库的memstore缓存里的所述索引范围中根据查询请求查找对应的详单数据，若查找到，则返回；若未查找到，则到底层文件存储***中查找。

8.根据权利要求5所述的装置，其特征在于，该装置适用于分布式数据库。