CN102779160A

CN102779160A - 海量数据信息索引***和索引构建方法

Info

Publication number: CN102779160A
Application number: CN2012101997297A
Authority: CN
Inventors: 安旭; 叶嘉明; 陈德全
Original assignee: CENTRIN DATA SYSTEMS CO LTD
Current assignee: China Gold Data Systems Co., Ltd.; Yantai gold Data System Co., Ltd.
Priority date: 2012-06-14
Filing date: 2012-06-14
Publication date: 2012-11-14
Anticipated expiration: 2032-06-14
Also published as: CN102779160B

Abstract

本发明涉及一种海量数据信息索引***和构建方法，其包括，数据分发服务器机群，包括多台数据分发服务器，用于将需要创建的数据拆分并分发给创建数据索引服务器；创建数据索引服务器机群，包括多台创建数据索引服务器，接收数据分发服务器分发的数据并为数据创建索引；检索服务器机群，包括多台检索服务器，接收创建数据索引服务器创建的索引并对数据索引进行检索；合并检索结果服务器机群，包括多台合并检索结果服务器，接收检索条件，接收并合并检索服务器索出的结果。根据索引过程中需要完成的功能对服务器进行分配，避免抢资源；检索的过程中一旦出错，可根据出错原因快速定位出出错的服务器，便于维修维护，降低维修和使用成本。

Description

海量数据信息索引***和索引构建方法

技术领域

本发明涉及一种数据索引***和构建方法，尤其是一种海量数据信息索引***和索引构建方法。

背景技术

随着技术的进步和发展，数据量越来越大，尤其是云概念的出现，集中的数据量更加庞大。为了在浩如烟海的数据中快速找到需要的特定数据，索引有着重要的意义。

中国专利文献CN101576915B公开了一种分布式B+树索引***及构建方法，具体，包括主服务器、事务服务器机群和索引服务机群和版本控制服务器；事务服务器机群包括多个事务服务器，索引服务器机群包括多个索引服务器；主服务器负责管理META数据，并对索引服务器机群进行负载平衡调度；事务服务器机群负责对分布式文件***索引数据访问的事务控制；索引服务器机群负责管理和读写分布式文件***的索引数据，有效地实现了并发环境下索引数据的事务功能。

上述专利文献中公开的索引技术只是将索引建立到一个或者多个索引库服务器中，建立索引和检索索引都在一个或者多个索引服务器中执行。建立索引任务和检索索引任务在一台或者多台的索引库中发生，可能会导致抢资源的问题，从而导致索引服务器资源不足，影响检索或者建立索引的效率。而且，检索的过程一旦出现问题，也无法判断实在检索的具体哪个环节出了问题，修复难度大。

发明内容

为此，本发明所要解决的是索引功能在一个或者多个索引服务器中执行带来的检索服务器资源不足和修复难度大的技术问题，提供一种海量数据信息索引***和索引构建方法。

为解决上述技术问题，本发明采用的技术方案如下：

一种海量数据信息索引***，包括，

数据分发服务器机群，包括多台数据分发服务器，用于将需要创建的数据拆分并分发；

创建数据索引服务器机群，包括多台创建数据索引服务器，各所述创建数据索引服务器分别接收所述数据分发服务器分发的数据并为所述数据创建索引；

检索服务器机群，包括多台检索服务器，接收所述创建数据索引服务器创建的所述索引并根据检索条件对数据索引进行检索；

合并检索结果服务器机群，包括多台合并检索结果服务器，接收检索条件，接收并合并所述检索服务器检出的结果。

每个所述检索服务器均包括一个备份区，用于备份该检索服务器检索出的数据。

还包括备份数据服务器机群，包括多台备份数据服务器，接收并备份所述数据分发服务器、所述创建数据索引服务器、所述检索服务器和所述合并检索结果服务器上的数据。

所述创建数据索引服务器创建的索引类型为倒排索引。

所述数据分发服务器存储有一个实现数据分发功能的分发文件，所述分发文件记录有所有创建数据索引服务器、检索服务器和合并检索结果服务器的位置和信息。

所述分发文件为XML文件。

同时，提供一种海量数据信息索引的构建方法，包括如下步骤：

①将检索用服务器按照功能划分为数据分发服务器、创建数据索引服务器、用于检索服务器和用于合并检索结果服务器，按照检索的功能的计算量配备完成每一个功能的服务器数量；

②将需要建立索引的数据以文件的形式放置在数据分发服务器上；

运行建立索引脚本，按照创建数据索引服务器的数量将文件拆分，并分发到各个创建数据索引服务器；

③创建数据索引服务器接收文件，并为该文件建立索引，并和之前建立过的索引进行合并，最后将新建的索引传输到检索服务器上；

④检索条件发送到合并检索结果服务器；

⑤检索结果服务器将检索条件发送到所有检索服务器上；

⑥检索服务器接收检索条件并对已建立的索引进行检索，将检索结果返回给合并检索结果服务器；

⑦合并检索结果服务器接收到所有检索结果数据后进行数据合并，并将合并后的检索结果返回给检索用户。

所述步骤中还包括备份各个步骤中产生的数据的步骤。

所述步骤③中创建的索引为倒排索引。

所述步骤①中通过在数据分发服务器上存储有一个记录数据分发服务器、创建数据索引服务器、检索服务器和合并检索结果服务器位置信息的分发文件，实现各服务器功能的划分。

分发文件为XML文件,执行过程中，XML文件通过解析，将各个功能的信息通过SSH技术分发到XML文件上指定的服务器上。

所述各步骤之间通过http协议实现传输。

本发明的上述技术方案相比现有技术具有以下优点：

本发明的海量数据信息索引***和方法，根据索引过程中需要完成的功能对服务器进行分配，配置不同的服务器用于完成不同检索功能，避免抢资源；同时，使得每台服务器的职责更加明确；可根据不同功能的特性对不同的服务器机群进行特定配置，便于提高检索效率；检索的过程中一旦出错，可根据出错原因快速定位出出错的服务器，便于维修维护，降低维修和使用成本。

附图说明

为了使本发明的内容更容易被清楚的理解，下面根据本发明的具体实施例并结合附图，对本发明作进一步详细的说明，其中

图1为发明一个实施例的海量数据信息索引***的结构示意图；

其中，附图标记表示为：1-数据分发服务器，2-创建数据索引服务器，3-检索服务器，4-合并检索结果服务器。

具体实施方式

参见图1所示为本发明一个实施例的海量数据信息索引***，包括，数据分发服务器机群，包括两台数据分发服务器1，用于将需要创建的数据拆分并分发给创建数据索引服务器2；

创建数据索引服务器机群，包括四台创建数据索引服务器2，接收所述数据分发服务器1分发的数据并为所述数据创建倒排索引；其中，倒排索引源于实际应用中需要根据属性的值来查找记录，这种索引表中的每一项都包括一个属性值和具有该属性值的各记录地址，由于不是由记录来确定属性值，而是由属性那个值来确定记录的位置，因而为倒排索引；

检索服务器机群，包括四台检索服务器3，接收所述创建数据索引服务器2创建的所述数据索引并根据检索条件对数据索引进行检索，每台所述检索服务器3均包括一个备份区，用于存储该检索服务器3检索出的数据；

合并检索结果服务器机群，包括两台合并检索结果服务器4，接收所述检索服务器3索出的结果并对所述结果进行合并。

作为上述实施例的一个变形，该***还包括备份数据服务器机群，其包括两台备份数据服务器，接收所述数据分发服务器1、所述创建数据索引服务器2、所述检索服务器3和所述合并检索结果服务器4上的数据并备份，所述检索服务器3不具备备份功能，其他同上述实施例；同样能实现本发明的目的，属于本发明的保护范围。

上述实施例中的XML文件可以为YAML(YAML Ain't Markup Language，意为YAML不是一种标记语言）文件或者JSON（英文全称为JavaScriptObject Notation，意为数据交换语言）文件。

本发明上述实施例的海量数据信息索引***，可根据完成不同功能的需要的工作量的多少配备相应的服务器数量，保证资源利用最大化，便于提高检索效率；同时，不同功能由不同的服务器完成也避免了抢资源现象；检索的过程中一旦出错，可根据出错原因快速定位出出错的服务器，便于维修维护，降低维修和使用成本；而且，本发明中上述***可根据检索的工作量动态增加相应功能的服务器，动态扩展性强。

同时本发明提供一种上述实施例的海量数据信息索引的构建方法，其包括如下步骤：

①在数据分发服务器1上存储有一个记录数据分发服务器1、创建数据索引服务器2、检索服务器3和合并检索结果服务器4位置信息的XML文件，将检索用服务器按照功能划分为数据分发服务器1、创建数据索引服务器2、用于检索服务器3和用于合并检索结果服务器4，按照检索的功能的计算量配备完成每一个功能的服务器数量；本实施例中，包括两台数据分发服务器1、四台创建数据索引服务器2、四台检索服务器3、两台合并检索结果服务器4和两台备份数据服务器；执行过程中，XML文件通过解析，将各个功能的信息通过SSH技术分发到XML文件上指定的服务器上;其中，XML，英文全称为Extensible Markup Language，意为可扩展标记语言，SSH，英文全称为Secure Shell意为建立在应用层和传输层基础上的安全协议;上述SSH可为现行任何一种传输协议代替，比如http传输协议，选用SSH相对简单、安全；

②将需要建立索引的数据以文件的形式放置在数据分发服务器1上；运行建立索引脚本，按照创建数据索引服务器2的数量将文件分开，并将每条数据通过“http”请求的方式分发到各个创建数据索引服务器2；其中，http，英文全称为hypertext transport protocol，意为超文本传送协议；其中，需要创建索引的数据进行格式化处理，具体是在数据分发服务器1上定义一个数据的构架，定义需要创建索引的数据的列信息（包括名称和类型），这其中包括一个ID属性，以区分每一个记录；上述http也可用现有技术中的任何一种传输协议代替，比如ftp；其中，ftp，英文全称为File TransferProtocol，意为文件传输协议；

③创建数据索引服务器2接收文件，并为该文件建立倒排索引，并和之前建立过的索引进行合并，最后将新建的索引通过“http”请求的方式传输到检索服务器3上；

④检索条件发送到合并检索结果服务器4，其中，需要检索的数据必须是格式化数据；

⑤合并检索结果服务器4将检索条件通过“http”请求的方式发送到所有检索服务器3上；

⑥检索服务器3接收检索条件并对已建立的索引进行检索，将检索结果返回给合并检索结果服务器4，同时将检索结果在检索服务器3上备份；

⑦合并检索结果服务器4接收到所有“http”响应的检索结果数据后进行数据合并，并将合并后的检索结果返回给检索用户。

作为上述方法的一个变形，任何一个服务器上的数据在发生改变时，均将发生改变的索引数据，通过“http”请求的方式传输到备份服务器上，以防止数据丢失。

下面结合一个具体的实施例对本发明的海量数据信息索引***和构建方法进行详细说明：

以一个实际需要处理的文件举例，文件中含有100条数据，现在海量数据信息索引***有五台创建数据索引服务器2，五台检索服务器3，一台数据分发服务器1和一台合并检索结果服务器4：

创建索引用户建立索引的具体过程如下：

需要将文件放置在数据分发服务器1上，然后在数据分发服务器1上进入程序放置根目录，并执行建立索引命令“shbin/distdaemon.shpost{放置文件位置}”。

数据分发服务器1会通过执行命令参数，找到该文件，并通过“索引拆分”模块，将这个文件拆分成为五份，每一份“索引数据块”都会含有20条数据。

当数据分发服务器1通过“索引拆分”模块将文件拆分完成后，会将五份“索引数据块”依次分发到五台创建数据索引服务器2上。

以单个创建数据索引服务器2为例（其余创建数据索引服务器2的处理方式一致），当其中一个创建数据索引服务器2接收到数据分发服务器1发送给它的“索引数据块”（其中含有20条数据）之后，会将该“索引数据块”根据之前定义的“架构”（schema）文件定义的列名和类型进行拆分，得到类似一个HASH(意为散列)形式的数组，比如schema文件定义第一列是文件名(filename)、第二列是文件大小(filesize)，“索引数据快”得到的第一列是file01，第二列是1000M，那么经过数据拆分会得到一个数组“{[0]=>{‘filename’=>‘file01’,‘filesize’=>‘1000M’,[1]=>{…},…,[20]=>{…}}}”。

之后会将得到的这个hash形式的数组，通过倒排算法生成为“倒排数据索引”。如hash的数据格式是{‘001’=>{‘filename’=>‘file01’,‘filesize’=>‘1000M’},‘002’=>{‘filename’=>‘file02’,‘filesize’=>‘1000M’},…,’020’=>{‘filename’=>‘file20’,‘filesize’=>‘1000M’}}，那么通过“倒排”完成后的格式应为{‘filename’=>{‘file01’=>{‘001’},‘file02’=>{‘002’},‘file20’=>{‘020’}},‘filesize’=>{‘1000M’=>{‘001’,‘002’,‘020’}},…}。

创建数据索引服务器2生成倒排索引后，经过“合并索引”可以将新建立的索引合并到已有的索引中。

最后将新建立的索引通过“http”协议的方式同步到检索服务器3中。

检索用户检索索引数据的具体过程如下：

检索用户通过向合并检索结果服务器4发送检索请求，比如检索用户发送检索文件大小（filesize）为1000M的所有文件。则用户会发送一个http://{merger-host}/{port}/{path}/{fn}?q=filesize%3A1000M的请求。

创建索引服务器接收到用户发送的请求后，将该请求分别发送给五台检索服务器3如：

http://{slave-host}/{port}/{path}/{fn}?q=filesize%3A1000M。

以单个检索服务器3为例（其余检索服务器3的处理方式一致），接受到创建数据索引服务器2发送的请求后，通过解析请求获得filesize等于1000M的检索条件。

通过该条件到已存在的“倒排数据索引”中检索数据。比如会得到{‘001’=>{‘filename’=>‘file01’,‘filesize’=>‘1000M’},‘002’=>{‘filename’=>‘file02’,‘filesize’=>‘1000M’},’020’=>{‘filename’=>‘file20’,‘filesize’=>‘1000M’}}的结果，并将结果返回给合并检索结果服务器4。

合并检索结果服务器4得到五台检索服务器3返回的数据，将他们合并排序等。

合并完成后，将结果返回给客户，检索完成。

经过实际测试：

一台数据分发服务器1和三台创建数据索引服务器2，建5000万条数据索引，每条数据大概有20-30个数据特征，花费30分钟可以完成创建索引的工作；

一台合并检索结果服务器4、五台检索服务器3，共有一亿条左右的索引，一百个用户并发检索，检索条件包括检索范围，排序等复杂条件，平均响应在三秒以内。

显然，上述实施例仅仅是为清楚地说明所作的举例，而并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims

1.一种海量数据信息索引***，其特征在于：包括，

合并检索结果服务器机群，包括多台合并检索结果服务器，接收并合并所述检索服务器检出的结果。

2.根据权利要求1所述的一种海量数据信息索引***，其特征在于：每个所述检索服务器均包括一个备份区，用于备份该检索服务器检索出的数据。

3.根据权利要求1所述的一种海量数据信息索引***，其特征在于：还包括备份数据服务器机群，包括多台备份数据服务器，接收并备份所述数据分发服务器、所述创建数据索引服务器、所述检索服务器和所述合并检索结果服务器上的数据。

4.根据权利要求1-3任一所述的一种海量数据信息索引***，其特征在于：所述创建数据索引服务器创建的索引类型为倒排索引。

5.根据权利要求1-4任一所述的一种海量数据信息索引***，其特征在于：所述数据分发服务器存储有一个实现数据分发功能的分发文件，所述分发文件记录有所有创建数据索引服务器、检索服务器和合并检索结果服务器的位置和信息。

6.根据权利要求5所述的一种海量数据信息索引***，其特征在于：所述分发文件为XML文件。

7.一种如权利要求1-6任一所述海量数据信息索引的构建方法，其特征在于，包括如下步骤：

④检索条件发送到合并检索结果服务器；

⑤检索结果服务器将检索条件发送到所有检索服务器上；

8.根据权利要求7所述的海量数据信息索引构建方法，其特征在于：所述步骤中还包括备份各个步骤中产生的数据的步骤。

9.根据权利要求7或8所述的海量数据信息索引构建方法，其特征在于:所述步骤③中创建的索引为倒排索引。

10.根据权利要求7-9任一所述的海量数据信息索引构建方法，其特征在于:所述步骤①中通过在数据分发服务器上存储有一个记录数据分发服务器、创建数据索引服务器、检索服务器和合并检索结果服务器位置信息的分发文件，实现各服务器功能的划分。

11.根据权利要求10所述的海量数据信息索引构建方法，其特征在于:分发文件为XML文件,执行过程中，XML文件通过解析，将各个功能的信息通过SSH技术分发到XML文件上指定的服务器上。

12.根据权利要求7-11任一所述的海量数据信息索引构建方法，其特征在于:所述各步骤之间通过http协议实现传输。