CN103544261B - 一种海量结构化日志数据全局索引管理方法及装置 - Google Patents
一种海量结构化日志数据全局索引管理方法及装置 Download PDFInfo
- Publication number
- CN103544261B CN103544261B CN201310484663.0A CN201310484663A CN103544261B CN 103544261 B CN103544261 B CN 103544261B CN 201310484663 A CN201310484663 A CN 201310484663A CN 103544261 B CN103544261 B CN 103544261B
- Authority
- CN
- China
- Prior art keywords
- global index
- information
- index
- server
- client
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000007726 management method Methods 0.000 title claims abstract description 12
- 238000013500 data storage Methods 0.000 claims abstract description 38
- 230000004044 response Effects 0.000 claims abstract description 8
- 230000005540 biological transmission Effects 0.000 claims description 6
- 230000008859 change Effects 0.000 claims description 6
- 238000000034 method Methods 0.000 abstract description 10
- 230000007246 mechanism Effects 0.000 description 9
- 230000006872 improvement Effects 0.000 description 3
- 230000002688 persistence Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013523 data management Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000011982 device technology Methods 0.000 description 1
- 238000013467 fragmentation Methods 0.000 description 1
- 238000006062 fragmentation reaction Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000013468 resource allocation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2228—Indexing structures
- G06F16/2272—Management thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2228—Indexing structures
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种海量结构化日志数据全局索引管理方法,包括以下步骤:在数据存储子***中在其内部的各个数据节点中建立关于结构化日志数据的局部数据块及索引信息,在全局索引服务器中建立全局索引表;客户端解析用户输入的查询请求,获取目标局部数据块的信息,客户端确认本地是否有全局索引服务器的地址信息,客户端根据包含有目标局部数据块的数据节点的地址信息向数据存储子***中的相应数据节点发送远程调用请求;数据存储子***汇总各数据节点的响应数据,将最终查询结果发送给客户端。本发明该方法有效地增加了***的查询多样性和查询效率,并且提高了***的可扩展性。
Description
技术领域
本发明涉及一种海量结构化日志数据管理方法,特别涉及一种海量结构化日志数据全局索引管理方法及装置。
背景技术
随着计算机技术不断的发展,人类迎来了数字化时代,网络技术迅猛发展并得到广泛应用,网络规模不断扩大,新的网络协议和网络业务不断出现。在互联网用户数量迅猛增长的同时,互联网用户在访问互联网时留下的结构化日志数据也呈现指数级的增长趋势。存储并分析海量结构化日志数据,在分析用户行为、网络资源配置优化以及信息安全等领域存在重要的研究与应用价值。同时,存储设备技术也在发展,能提供越来越多的存储容量,存储容量瓶颈问题已经得到了很大程度的解决。因此,如何对海量结构化日志数据进行最佳组织,提高存储与检索效率,成为了一个非常有意义的研究课题。
面对如此的海量日志数据,传统的单机存储数据已经不可行,分布式存储***成为了解决这些问题的必然选择,而高效快速的全局索引***成为分布式存储***的关键。
索引是信息资源快速查找访问的一种有效的手段,传统的海量数据存储***主要利用哈希索引或树索引进行全局索引设计。哈希索引是一种散列的方法,采用直接寻址技术,在理想情况下,在极短的时间内即可以找到待查关键字,查找的期望时间为O(1);然而,哈希索引只适合精确查找,不适合范围检索,而且,Hash索引的可扩展性较差,不能很好的适应存储节点增加或删减的情况。树索引是一种基于树构建的元素查找方法,常见的有二叉排序树、B树、B+树等。B+树是一种多路平衡树,在文件***中很有用,它的内节点用户知道搜索,叶子节点包含数据目录项,B+树在全局索引***中应用也很广泛。B+树索引具有较高的空间利用率和良好的存取性能,比较适合作为海量信息的索引机制。但是,B+树索引不适合维护多个key的索引,查询方式也比较单一,在处理多key的复杂检索情况下表现不够理想。
在全文索引领域,目前最权威的方案是Apache的Lucene。Lucene是一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎,其主要实现目的是全文索引,通过文档倒排索引及打分机制把最符合用户查询条件的文档放在靠前的位置。为了实现这个目标,Lucene对于文档建立了比较复杂的打分***,而在分布式场景下,打分机制就显得并不必要,因为对于记录的评判标注只有命中,与未命中两种。在分布式存储场景中,如果保留打分的一系列操作,对于查询的效率有非常大的影响,尤其是在命中的记录条数比较多的情况下。
和目前的方法相比,针对于海量结构化日志数据的存储与检索问题,本发明提出了一种新的索引管理机制。该方法将基于Lucene机制的倒排索引原理与全局索引思想相结合,可以维护多个Key的索引,支持范围检索,并且实现了基于Lucene倒排索引的索引合并与***机制,该方法能够高效的将全局索引进行合并与***,增加了***的可扩展性与查询效率;与此同时,本发明对Lucene索引机制进行了优化,减少了打分机制,提高了其在分布式存储场景下的效率。
发明内容
本发明所要解决的技术问题是提供一种能够解决数据量与检索速率的矛盾、满足海量结构化日志数据检索需求的海量结构化日志数据全局索引管理方法及装置。
本发明解决上述技术问题的技术方案如下:一种海量结构化日志数据全局索引管理方法,包括以下步骤:
步骤1:在数据存储子***中在其内部的各个数据节点中建立关于结构化日志数据的局部数据块及索引信息,在全局索引服务器中建立全局索引表;
步骤2:客户端解析用户输入的查询请求,获取目标局部数据块的信息,客户端确认本地是否有全局索引服务器的地址信息,如果有,转入步骤3,如果没有,客户端向元数据集群发送查询请求,元数据集群根据查询请求将全局索引服务器的地址信息反馈给客户端;
步骤3:客户端根据全局索引服务器的地址信息访问全局索引服务器,根据目标局部数据块的信息获取目标局部数据块的地址信息,根据目标局部数据块的地址信息,从全局索引服务器中的全局索引表中获取包含有目标局部数据块的数据节点的地址信息;
步骤4:客户端根据包含有目标局部数据块的数据节点的地址信息向数据存储子***中的相应数据节点发送远程调用请求;
步骤5:数据存储子***汇总各数据节点的响应数据,将最终查询结果发送给客户端。
本发明的有益效果是:本发明采用基于Lucene倒排索引组织结构的全局索引维护方式,同时,对Lucene索引技术进行效率改进,并添加了基于Lucene机制的全局索引合并与***功能,有效地增加了***的查询多样性和查询效率,并且提高了***的可扩展性。
在上述技术方案的基础上,本发明还可以做如下改进。
进一步,所述步骤1具体为:
步骤1.1:客户端将结构化日志数据发送给数据存储子***,数据存储子***将结构化日志数据分发给各个数据节点,并根据结构化日志数据在每个数据节点上建立局部数据块及索引信息;
步骤1.2:数据节点向全局索引服务器发送全局索引信息更新请求,所述全局索引信息更新请求中携带全局索引表中的全局索引信息数量变化的信息;
步骤1.3:全局索引服务器收到全局索引信息更新请求后,根据全局索引表中的全局索引信息数量变化的信息,相应的对全局索引表进行合并或者***。
进一步,一种海量结构化日志数据全局索引管理装置,包括客户端,数据存储子***,全局索引服务器和元数据集群;
所述客户端,用于解析用户输入的查询请求,获取目标局部数据块的信息,确认本地是否有全局索引服务器的地址信息,如果有,根据全局索引服务器的地址信息访问全局索引服务器,根据目标局部数据块的信息获取目标局部数据块的地址信息,根据目标局部数据块的地址信息,从全局索引服务器中的全局索引表中获取包含有目标局部数据块的数据节点的地址信息,如果没有,向元数据集群发送查询请求,根据包含有目标局部数据块的数据节点的地址信息向数据存储子***中的相应数据节点发送远程调用请求
所述数据存储子***,用于在其内部的各个数据节点中建立关于结构化日志数据的局部数据块及索引信息,汇总各数据节点的响应数据,将最终查询结果发送给客户端;
所述全局索引服务器,用于存储全局索引表;
所述元数据集群,用于根据查询请求将全局索引服务器的地址信息反馈给客户端。
进一步,所述客户端还用于将结构化日志数据发送给数据存储子***。
进一步,所述数据存储子***还用于将结构化日志数据分发给各个数据节点,并根据结构化日志数据在每个数据节点上建立局部数据块及索引信息,其中的数据节点向全局索引服务器发送全局索引信息更新请求,所述全局索引信息更新请求中携带全局索引表中的全局索引信息数量变化的信息。
进一步,所述全局索引服务器,还用于在收到全局索引信息更新请求后,根据全局索引表中的全局索引信息数量变化的信息,相应的对全局索引表进行合并或者***。
附图说明
图1为本发明方法步骤流程图;
图2为本发明步骤1具体步骤流程图;
图3为本发明装置结构图。
附图中,各标号所代表的部件列表如下:
1、客户端,2、数据存储子***,3、全局索引服务器,4、元数据集群。
具体实施方式
以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
如图1所示,为本发明方法步骤流程图;图2为本发明步骤1具体步骤流程图;图3为本发明装置结构图。
实施例1
一种海量结构化日志数据全局索引管理方法,包括以下步骤:
步骤1:在数据存储子***中在其内部的各个数据节点中建立关于结构化日志数据的局部数据块及索引信息,在全局索引服务器中建立全局索引表;
步骤2:客户端解析用户输入的查询请求,获取目标局部数据块的信息,客户端确认本地是否有全局索引服务器的地址信息,如果有,转入步骤3,如果没有,客户端向元数据集群发送查询请求,元数据集群根据查询请求将全局索引服务器的地址信息反馈给客户端;
步骤3:客户端根据全局索引服务器的地址信息访问全局索引服务器,根据目标局部数据块的信息获取目标局部数据块的地址信息,根据目标局部数据块的地址信息,从全局索引服务器中的全局索引表中获取包含有目标局部数据块的数据节点的地址信息;
步骤4:客户端根据包含有目标局部数据块的数据节点的地址信息向数据存储子***中的相应数据节点发送远程调用请求;
步骤5:数据存储子***汇总各数据节点的响应数据,将最终查询结果发送给客户端。
所述步骤1具体为:
步骤1.1:客户端将结构化日志数据发送给数据存储子***,数据存储子***将结构化日志数据分发给各个数据节点,并根据结构化日志数据在每个数据节点上建立局部数据块及索引信息;
步骤1.2:数据节点向全局索引服务器发送全局索引信息更新请求,所述全局索引信息更新请求中携带全局索引表中的全局索引信息数量变化的信息;
步骤1.3:全局索引服务器收到全局索引信息更新请求后,根据全局索引表中的全局索引信息数量变化的信息,相应的对全局索引表进行合并或者***。
一种海量结构化日志数据全局索引管理装置,包括客户端1,数据存储子***2,全局索引服务器3和元数据集群4;
所述客户端1,用于解析用户输入的查询请求,获取目标局部数据块的信息,确认本地是否有全局索引服务器的地址信息,如果有,根据全局索引服务器的地址信息访问全局索引服务器,根据目标局部数据块的信息获取目标局部数据块的地址信息,根据目标局部数据块的地址信息,从全局索引服务器中的全局索引表中获取包含有目标局部数据块的数据节点的地址信息,如果没有,向元数据集群发送查询请求,根据包含有目标局部数据块的数据节点的地址信息向数据存储子***中的相应数据节点发送远程调用请求;
所述数据存储子***2,用于在其内部的各个数据节点中建立关于结构化日志数据的局部数据块及索引信息,汇总各数据节点的响应数据,将最终查询结果发送给客户端;
所述全局索引服务器3,用于存储全局索引表;
所述元数据集群4,用于根据查询请求将全局索引服务器的地址信息反馈给客户端。
所述客户端1还用于将结构化日志数据发送给数据存储子***。
所述数据存储子***2还用于将结构化日志数据分发给各个数据节点,并根据结构化日志数据在每个数据节点上建立局部数据块及索引信息,其中的数据节点向全局索引服务器发送全局索引信息更新请求,所述全局索引信息更新请求中携带全局索引表中的全局索引信息数量变化的信息。
所述全局索引服务器3,还用于在收到全局索引信息更新请求后,根据全局索引表中的全局索引信息数量变化的信息,相应的对全局索引表进行合并或者***。
本发明客户端1负责接收用户输入的数据,完成元数据的表结构信息读取,并通过内置路由引擎将数据发送给数据存储子***进行数据持久化工作。客户端1用来接收用户的查询请求,解析并生成统一查询结构,完成与元数据以及全局索引模块的交互,获取检索请求所对应的具体数据块列表,并与数据存储子***2交互进行数据读取操作。数据存储子***2主要完成数据的复杂均衡、副本拷贝、持久化等存储与管理工作,其内部通过数据块或数据分片的方式来保存海量数据;元数据集群4用来维护***的所有元数据信息,元数据信息总体上分为三类,第一类是物理结构信息,包括节点的开放地址、端口号及运行状态等;第二类是逻辑结构信息,如各业务的存储表结构信息,存储模块各数据块的概要描述信息,如数据块大小,记录数,所在节点及目录位置等;第三类是其它辅助信息,如全局索引服务器3的地址,当前各运行节点资源占用情况监测结果等。全局索引服务器3主要完成***的全局索引管理工作,其内部保存着基于字段的索引记录信息,例如业务字段的key值以及key值对应的局部数据块逻辑ID信息等,全局索引服务器3通过在分布式的索引管理服务器上维护基于Lucene的倒排索引结构信息,来提升数据的检索响应效率。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (4)
1.一种海量结构化日志数据全局索引管理方法,其特征在于,包括以下步骤:
步骤1:在数据存储子***内部的各个数据节点中建立关于结构化日志数据的局部数据块及索引信息,在全局索引服务器中建立全局索引表;所述步骤1具体为:
步骤1.1:客户端将结构化日志数据发送给数据存储子***,数据存储子***将结构化日志数据分发给各个数据节点,并根据结构化日志数据在每个数据节点上建立局部数据块及索引信息;
步骤1.2:数据节点向全局索引服务器发送全局索引信息更新请求,所述全局索引信息更新请求中携带全局索引表中的全局索引信息数量变化的信息;
步骤1.3:全局索引服务器收到全局索引信息更新请求后,根据全局索引表中的全局索引信息数量变化的信息,相应的对全局索引表进行合并或者***;
步骤2:客户端解析用户输入的查询请求,获取目标局部数据块的信息,客户端确认客户端上是否有全局索引服务器的地址信息,如果有,转入步骤3,如果没有,客户端向元数据集群发送查询请求,元数据集群根据查询请求将全局索引服务器的地址信息反馈给客户端;
步骤3:客户端根据全局索引服务器的地址信息访问全局索引服务器,根据目标局部数据块的信息获取目标局部数据块的地址信息,根据目标局部数据块的地址信息,从全局索引服务器中的全局索引表中获取包含有目标局部数据块的数据节点的地址信息;
步骤4:客户端根据包含有目标局部数据块的数据节点的地址信息向数据存储子***中的相应数据节点发送远程调用请求;
步骤5:数据存储子***汇总各数据节点的响应数据,将最终查询结果发送给客户端。
2.一种海量结构化日志数据全局索引管理装置,其特征在于:包括客户端(1),数据存储子***(2),全局索引服务器(3)和元数据集群(4);
所述客户端(1),用于解析用户输入的查询请求,获取目标局部数据块的信息,确认客户端(1)上是否有全局索引服务器的地址信息,如果有,根据全局索引服务器的地址信息访问全局索引服务器,根据目标局部数据块的信息获取目标局部数据块的地址信息,根据目标局部数据块的地址信息,从全局索引服务器中的全局索引表中获取包含有目标局部数据块的数据节点的地址信息,如果没有,向元数据集群发送查询请求,根据包含有目标局部数据块的数据节点的地址信息向数据存储子***中的相应数据节点发送远程调用请求;
所述数据存储子***(2),用于在其内部的各个数据节点中建立关于结构化日志数据的局部数据块及索引信息,汇总各数据节点的响应数据,将最终查询结果发送给客户端;
所述全局索引服务器(3),用于存储全局索引表,还用于在收到全局索引信息更新请求后,根据全局索引表中的全局索引信息数量变化的信息,相应的对全局索引表进行合并或者***;
所述元数据集群(4),用于根据查询请求将全局索引服务器的地址信息反馈给客户端。
3.根据权利要求2所述的海量结构化日志数据全局索引管理装置,其特征在于:所述客户端(1)还用于将结构化日志数据发送给数据存储子***。
4.根据权利要求3所述的海量结构化日志数据全局索引管理装置,其特征在于:所述数据存储子***(2)还用于将结构化日志数据分发给各个数据节点,并根据结构化日志数据在每个数据节点上建立局部数据块及索引信息,其中的数据节点向全局索引服务器发送全局索引信息更新请求,所述全局索引信息更新请求中携带全局索引表中的全局索引信息数量变化的信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310484663.0A CN103544261B (zh) | 2013-10-16 | 2013-10-16 | 一种海量结构化日志数据全局索引管理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310484663.0A CN103544261B (zh) | 2013-10-16 | 2013-10-16 | 一种海量结构化日志数据全局索引管理方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103544261A CN103544261A (zh) | 2014-01-29 |
CN103544261B true CN103544261B (zh) | 2016-06-22 |
Family
ID=49967713
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310484663.0A Expired - Fee Related CN103544261B (zh) | 2013-10-16 | 2013-10-16 | 一种海量结构化日志数据全局索引管理方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103544261B (zh) |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105022743A (zh) * | 2014-04-24 | 2015-11-04 | 中兴通讯股份有限公司 | 一种管理索引的方法及装置 |
CN104917627B (zh) * | 2015-01-20 | 2018-06-19 | 杭州安恒信息技术有限公司 | 一种用于大型服务器集群的日志集群扫描与分析方法 |
CN107368490A (zh) * | 2016-05-12 | 2017-11-21 | ***通信集团河北有限公司 | 数据处理方法及装置 |
CN106156328B (zh) * | 2016-07-06 | 2019-05-07 | 中国银行股份有限公司 | 一种银行运行日志数据监控方法及*** |
CN106294721B (zh) * | 2016-08-08 | 2020-05-19 | 无锡天脉聚源传媒科技有限公司 | 一种集群数据统计及导出方法及装置 |
CN106339415B (zh) * | 2016-08-12 | 2019-08-23 | 北京奇虎科技有限公司 | 数据的查询方法、装置及*** |
CN106790718A (zh) * | 2017-03-16 | 2017-05-31 | 北京搜狐新媒体信息技术有限公司 | 服务调用链路分析方法及*** |
CN107798093B (zh) * | 2017-10-25 | 2022-05-03 | 成都尽知致远科技有限公司 | 图像检索方法 |
CN111221851A (zh) * | 2018-11-27 | 2020-06-02 | 北京京东尚科信息技术有限公司 | 一种基于Lucene的海量数据查询、存储的方法和装置 |
CN109739434A (zh) * | 2018-12-03 | 2019-05-10 | 中科恒运股份有限公司 | 文件读取地址获取方法、文件读取方法和终端设备 |
CN111813756B (zh) * | 2019-04-12 | 2024-06-28 | 北京嘀嘀无限科技发展有限公司 | 一种日志检索***、方法、装置、电子设备及存储介质 |
CN110990366B (zh) * | 2019-12-04 | 2024-02-23 | 中国农业银行股份有限公司 | 一种提升基于es的日志***性能的索引分配方法及装置 |
CN111769939B (zh) * | 2020-06-29 | 2021-02-09 | 北京海泰方圆科技股份有限公司 | 业务***的访问方法、装置、存储介质及电子设备 |
CN112000850B (zh) * | 2020-08-26 | 2024-02-20 | 杭州海康威视***技术有限公司 | 进行数据处理的方法、装置、***及设备 |
CN117555906B (zh) * | 2024-01-12 | 2024-04-05 | 腾讯科技(深圳)有限公司 | 数据处理方法、装置、电子设备及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6829610B1 (en) * | 1999-03-11 | 2004-12-07 | Microsoft Corporation | Scalable storage system supporting multi-level query resolution |
CN103069421A (zh) * | 2010-08-23 | 2013-04-24 | 诺基亚公司 | 用于处理针对分区式索引的搜索请求的方法和装置 |
-
2013
- 2013-10-16 CN CN201310484663.0A patent/CN103544261B/zh not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6829610B1 (en) * | 1999-03-11 | 2004-12-07 | Microsoft Corporation | Scalable storage system supporting multi-level query resolution |
CN103069421A (zh) * | 2010-08-23 | 2013-04-24 | 诺基亚公司 | 用于处理针对分区式索引的搜索请求的方法和装置 |
Non-Patent Citations (2)
Title |
---|
"搜索引擎中混合型分布式索引组织策略";陈伟 等;《浙江大学学报(工学版)》;20090831;第43卷(第8期);第1363页第3-6段、第1364页1-11段,附图2-3,表1 * |
"数字图书馆中海量数据存储组织的研究与实现";沈春辉;《中国优秀硕士学位论文全文数据库信息科技辑》;20110715(第7期);正文第14页第1-4段、第34页第3-5段、第35页第1-3段、第36页第1-4段、第37页第1-2段、第39页第1-4段、第41页第1-5段、第45页第2段,附图4.1-4.6 * |
Also Published As
Publication number | Publication date |
---|---|
CN103544261A (zh) | 2014-01-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103544261B (zh) | 一种海量结构化日志数据全局索引管理方法及装置 | |
CN106484877B (zh) | 一种基于hdfs的文件检索*** | |
Cambazoglu et al. | Scalability challenges in web search engines | |
CN102122285B (zh) | 一种数据缓存***中的数据查询***和数据查询方法 | |
US8359318B2 (en) | System and method for distributed index searching of electronic content | |
US8397080B2 (en) | Scalable segment-based data de-duplication system and method for incremental backups | |
CN106066896B (zh) | 一种应用感知的大数据重复删除存储***及方法 | |
CN107368527B (zh) | 基于数据流的多属性索引方法 | |
CN106294190B (zh) | 一种存储空间管理方法及装置 | |
CN105677826A (zh) | 一种针对海量非结构化数据的资源管理方法 | |
EP2629212A1 (en) | Method for storing and searching tagged content items in a distributed system | |
US11294920B2 (en) | Method and apparatus for accessing time series data in memory | |
CN107357843B (zh) | 基于数据流结构的海量网络数据查找方法 | |
CN104408111A (zh) | 一种删除重复数据的方法及装置 | |
US9262511B2 (en) | System and method for indexing streams containing unstructured text data | |
CN104239377A (zh) | 跨平台的数据检索方法及装置 | |
CN103198153A (zh) | 一种应用于分布式文件***的元数据分簇管理方法和模块 | |
WO2014110940A1 (en) | A method, apparatus and system for storing, reading the directory index | |
CN105117433A (zh) | 一种基于Hive解析HFile统计查询HBase的方法和*** | |
US20170351620A1 (en) | Caching Framework for Big-Data Engines in the Cloud | |
Von der Weth et al. | Multiterm keyword search in NoSQL systems | |
Challa et al. | DD-Rtree: A dynamic distributed data structure for efficient data distribution among cluster nodes for spatial data mining algorithms | |
WO2023179787A1 (zh) | 分布式文件***的元数据管理方法和装置 | |
US9767107B1 (en) | Parallel file system with metadata distributed across partitioned key-value store | |
CN109213760B (zh) | 非关系数据存储的高负载业务存储及检索方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20160622 |
|
CF01 | Termination of patent right due to non-payment of annual fee |