CN102004778A - 一种云环境中的文本索引在线更新方法 - Google Patents

一种云环境中的文本索引在线更新方法 Download PDF

Info

Publication number
CN102004778A
CN102004778A CN 201010554536 CN201010554536A CN102004778A CN 102004778 A CN102004778 A CN 102004778A CN 201010554536 CN201010554536 CN 201010554536 CN 201010554536 A CN201010554536 A CN 201010554536A CN 102004778 A CN102004778 A CN 102004778A
Authority
CN
China
Prior art keywords
index
node
pieces
updated
batch
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN 201010554536
Other languages
English (en)
Other versions
CN102004778B (zh
Inventor
***
丁贵广
张君
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN201010554536XA priority Critical patent/CN102004778B/zh
Publication of CN102004778A publication Critical patent/CN102004778A/zh
Application granted granted Critical
Publication of CN102004778B publication Critical patent/CN102004778B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种云环境中的文本索引在线更新方法,属于计算机信息检索技术领域。用户向文本检索***添加、删除或更新文件后,索引模块创建文件所属索引片的增量数据,并将同一索引片的多组增量数据合并。集群主节点通过对子节点负载大小排序选出首批节点和次批节点,分批执行索引更新。每批节点收到更新命令后,首先停止检索服务,并将读取到的增量数据合并到自己的索引片中,然后恢复检索服务。集群主节点根据用户设定的索引服务切换条件,决定启用首批节点检索服务、次批节点开始更新的时机。最后,集群主节点恢复所有节点的检索服务,完成更新。本方法降低了索引更新对网络带宽和计算资源需求,缩短了索引更新时间。

Description

一种云环境中的文本索引在线更新方法
技术领域
本发明涉及一种云环境中的文本索引在线更新方法,属于计算机信息检索技术领域。
背景技术
互联网和企业信息化的发展,产生了大量的非结构化数据,如产品模型、技术文档、管理文本、电子邮件等,文本数据就是最常见的非结构化数据之一。为了实现海量数据的存储、索引和检索,许多的文本检索***都采用了云计算方案。网络文本搜索引擎是一类最常见的提供文本检索服务的应用,如Google和Nutch。
在云环境中,索引数据一般被切分成许多的索引片,然后部署在集群中,每个节点持有其中部分索引片,每个索引片一般都有多个备份来保证容错性和负载平衡。许多采用云计算方案的文本检索***表现出了优异的索引和检索性能,却忽略了索引的即时性要求。它们假设文本数据索引在一段时间内是不变的,因此采取批量更新索引的方法,在一段时间内持续对新到来的数据进行索引,定期地将新索引数据批量更新到集群中,其索引数据更新周期一般比较长。
对于云环境的文本检索***来说,用户要求将随时到来的新文档在尽可能短的时间内更新到索引中,传统的批量更新方法无法满足用户的需求。高度的精确性和时效性要求,使得其索引管理与更新成为一个重点,也是一个难点。
索引的在线更新就是在此环境下提出来的。它要求文本检索***能够在不影响其他索引数据、不中止检索服务的情况下进行指定索引数据的更新。不过,在多数情况下,索引更新都会导致一定时间的服务中断;而在线更新的目标就是,将服务中断的时间尽可能地缩短。
Mauricio Marin等人设计了一个支持在线更新的文本搜索引擎。该搜索引擎允许用户执行检索操作及添加文本的操作。添加的文本被索引后,索引数据发送到相应节点进行更新。该***通过索引读写的并发控制来避免读写冲突。但是该***并没有对索引做冗余备份,无法提供可靠的索引服务和负载平衡。对于每个新文本,该***都直接添加到索引数据中;在许多这样的请求同时发生的时候,节点就需要频繁地更新同一索引,导致CPU的过度繁忙;而对索引读写的并发控制使得用户此时的检索请求得不到及时的响应。
Mark H.Butler和James Rutherford开发的Distributed Lucene也是一个支持索引在线更新的分布式文本索引***。该***采用了lease机制来实现索引的并发控制,当一个节点更新其索引备份时,该节点必须先获得该索引的lease。用户向一个索引中增加或删除文档时,需要为该索引创建一个Uncommited IndexVersion,操作完成后显式地将其提交。但是对于一个索引只能创建一个Uncommited IndexVersion,这就使得并发用户不得不等待前面用户的操作完成,影响了并发的效率。另外,该***中的索引操作是在节点中执行的,用户需要将原始文本传送到节点上;因为文本的索引相对于原始文本来说一般比较小,这样的设计会导致较大的网络带宽资源浪费。
传统的索引批量更新方法一般是,首先在一定时间内持续地创建新索引数据,等到创建完成,将集群内的原始数据全部删除,然后再将新的索引数据部署到集群中,从而启动新索引数据的检索服务。这种方法存在着较多的缺点:
一方面,批量更新一般需要重建全部索引,然后将新的索引数据部署到集群中,这将导致极大的数据传输量,因此占用很多的网络带宽和计算资源,执行时间也会很长,随着索引越来越大,对资源的需求将越来越高,成为***的瓶颈。
另一方面,批量更新一般需要将原索引数据删除,然后再执行索引的更新。在索引的更新期间,***必将停止检索服务。如果更新时间较长,那么必然导致***长时间无法提供服务。
发明内容
本发明的目的是提出一种云环境中的文本索引在线更新方法,针对已有技术中批量更新的不足,设计了在线更新机制、索引片增量的缓存机制等,以保证并发更新的一致性,并避免索引的频繁更新,降低带宽资源和计算资源的占用。
本发明提出的云环境中的文本索引在线更新方法,包括以下步骤:
(1)在用户向文本检索***添加、删除或更新文件后,将该文件的识别信息发送至索引模块;索引模块根据文本检索***中定义的索引切分规则,对接收的识别信息进行判断,确定该文件所属的索引片,并为该文件创建一个与该索引片相对应的增量数据;索引模块将该增量数据缓存,并对相同索引片的多次添加、删除或更新产生的增量数据合并;当用户结束添加、删除或更新操作后,索引模块将所有的索引片增量数据上传到共享文件***中;索引模块向文本检索***中的集群主节点发出索引片更新命令,该命令中包括:每个被更新索引片的名称、增量类型、增量的存储路径;
(2)文本检索***中的索引锁管理器为每个索引片建立一个锁申请队列;文本检索***中的集群主节点接收上述索引片更新命令后,向文本检索***中的索引锁管理器申请被更新索引片的锁;索引锁管理器根据被更新索引片的名称将本更新操作加入到与被更新索引片相对应的锁申请队列中,并依次将锁赋予申请队列中的更新操作;当更新操作获得被更新索引片的锁后,文本检索***中的集群主节点根据存储的索引部署状态信息,确定集群中持有被更新索引片的所有子节点;文本检索***中的集群主节点向持有被更新索引片的所有子节点询问当前的负载情况,并根据各子节点负载的大小进行排序,将其中一半负载较低的节点作为首批更新的节点,剩余节点作为次批更新的节点;
(3)文本检索***中的集群主节点在索引片检索服务分布状态中,将首批节点提供的基于被更新索引片的检索服务标记为中止,并向首批节点发出索引片更新命令,该更新命令中包括:被更新索引片的名称、增量类型、增量的存储路径;
(4)首批节点接收到上述索引片更新命令后,停止本节点提供的基于被更新索引片的检索服务,并根据上述被更新索引片的增量的存储路径,从上述共享文件***上读取相应的增量数据,根据增量类型,将增量数据合并到本节点持有的被更新索引片中;更新完成后,首批节点启用被更新索引片在本节点的检索服务,并将更新完成的信息发送至主节点;
(5)文本检索***中的集群主节点接收首批节点发送的更新完成信息后,根据用户设定的索引服务切换条件,当设定数量的子节点的更新操作完成后,在索引片检索服务分布状态中,将首批节点提供的基于被更新索引片的检索服务标记为中止,并将次批节点提供的基于被更新索引片的检索服务标记为启用,并向次批节点发出索引片更新命令,该更新命令中包括:被更新索引片的名称、增量类型、增量的存储路径;
(6)次批节点接收到上述索引片更新命令后,停止本节点提供的基于被更新索引片的检索服务,并根据上述被更新索引片的增量的存储路径,从上述共享文件***上读取相应的增量数据,根据增量类型,将增量数据合并到本节点持有的被更新索引片中;更新完成后,次批节点启用被更新索引片在本节点的检索服务,并将更新完成的信息发送至主节点;
(7)文本检索***中的集群主节点接收次批节点发送的更新完成信息后,在索引片检索服务分布状态中,将所有已完成更新操作的子节点提供的基于被更新索引片的检索服务标记为启用;当所有子节点都完成更新操作后,集群主节点向索引锁管理器释放锁,完成此次更新。
本发明提出的云环境中的文本索引在线更新方法,其优点是:
1、设计了基于索引片增量的在线更新机制、索引片增量的缓存机制,在更新时仅传输必要的增量数据,避免了索引的频繁更新和过多冗余数据的传输,降低了索引更新对网络带宽和计算资源的需求,缩短了索引更新的时间。
2、本发明方法中还设计了多备份索引片的投机性次序更新机制,允许在索引更新的同时,仍能够持续提供检索服务,同时保证各节点服务的一致性。
3、本发明方法还设计了基于锁的并发更新控制协议,保证索引更新的一致性。
4、本发明方法在更新时只选择相关的节点执行更新操作,避免索引重新部署带来的过高代价。
5、本发明方法将已有数据更新中的“被动更新”改为“主动更新”,允许节点动态更新索引,主动地将增量数据合并到自己的索引中,而不是仅仅被动地接收数据,这使得索引的更新更加灵活,实现了在线更新。
6、本发明方法保证了更新过程中检索服务的持续性,并通过投机性策略尽快地启用新索引数据的检索服务。
附图说明
图1是本发明提出的云环境中文本检索***的体系结构示意图。
图2是本发明提出的云环境中文本索引在线更新方法的流程框图。
图3是子节点的索引片更新过程框图。
具体实施方式
本发明提出的云环境中的文本索引在线更新方法,其流程框图如图2所示,包括:
(1)在用户向文本检索***添加、删除或更新文件后,将该文件的识别信息发送至索引模块;索引模块根据文本检索***中定义的索引切分规则,对接收的识别信息进行判断,确定该文件所属的索引片,并为该文件创建一个与该索引片相对应的增量数据;索引模块将该增量数据缓存,并对相同索引片的多次添加、删除或更新产生的增量数据合并;当用户结束添加、删除或更新操作后,索引模块将所有的索引片增量数据上传到共享文件***中;索引模块向文本检索***中的集群主节点发出索引片更新命令,该命令中包括:每个被更新索引片的名称、增量类型、增量的存储路径;
(2)文本检索***中的索引锁管理器为每个索引片建立一个锁申请队列;文本检索***中的集群主节点接收上述索引片更新命令后,向文本检索***中的索引锁管理器申请被更新索引片的锁;索引锁管理器根据被更新索引片的名称将本更新操作加入到与被更新索引片相对应的锁申请队列中,并依次将锁赋予申请队列中的更新操作;当更新操作获得被更新索引片的锁后,文本检索***中的集群主节点根据存储的索引部署状态信息,确定集群中持有被更新索引片的所有子节点;文本检索***中的集群主节点向持有被更新索引片的所有子节点询问当前的负载情况,并根据各子节点负载的大小进行排序,将其中一半负载较低的节点作为首批更新的节点,剩余节点作为次批更新的节点;
(3)文本检索***中的集群主节点在索引片检索服务分布状态中,将首批节点提供的基于被更新索引片的检索服务标记为中止,并向首批节点发出索引片更新命令,该更新命令中包括:被更新索引片的名称、增量类型、增量的存储路径;
(4)首批节点接收到上述索引片更新命令后,停止本节点提供的基于被更新索引片的检索服务,并根据上述被更新索引片的增量的存储路径,从上述共享文件***上读取相应的增量数据,根据增量类型,将增量数据合并到本节点持有的被更新索引片中;更新完成后,首批节点启用被更新索引片在本节点的检索服务,并将更新完成的信息发送至主节点;
(5)文本检索***中的集群主节点接收首批节点发送的更新完成信息后,根据用户设定的索引服务切换条件,当设定数量的子节点的更新操作完成后,在索引片检索服务分布状态中,将首批节点提供的基于被更新索引片的检索服务标记为中止,并将次批节点提供的基于被更新索引片的检索服务标记为启用,并向次批节点发出索引片更新命令,该更新命令中包括:被更新索引片的名称、增量类型、增量的存储路径;
(6)次批节点接收到上述索引片更新命令后,停止本节点提供的基于被更新索引片的检索服务,并根据上述被更新索引片的增量的存储路径,从上述共享文件***上读取相应的增量数据,根据增量类型,将增量数据合并到本节点持有的被更新索引片中;更新完成后,次批节点启用被更新索引片在本节点的检索服务,并将更新完成的信息发送至主节点;
(7)文本检索***中的集群主节点接收次批节点发送的更新完成信息后,在索引片检索服务分布状态中,将所有已完成更新操作的子节点提供的基于被更新索引片的检索服务标记为启用;当所有子节点都完成更新操作后,集群主节点向索引锁管理器释放锁,完成此次更新。
典型的云环境中的文本检索***一般由多台机器组成的集群构成,其中至少有一台机器称为主节点(Master),其余机器称为子节点(Slave)。每个子节点都持有整体索引数据的一部分,提供基于其持有的部分索引的检索服务;主节点负责管理所有的子节点,并向用户提供服务接口。将每个子节点持有的部分索引称为整体索引的一个索引片。
在本发明中,索引片增量(Shard Increment)是指相对于索引片中原数据而言,需要增加或者删除的数据信息。索引片增量按照索引更新的不同类型分为正增量和负增量,其中正增量用于封装新增的索引数据;负增量存储要删除的文件信息或者关键词信息。
在本发明中,集群的节点可以分为主引擎模块、主节点、子节点、索引模块、共享文件***等五类。***的体系结构如图1所示。其中主引擎模块是整个文本检索***的对外接口,响应用户请求;主节点负责集群中索引的管理、检索任务的分配与调度;子节点负责维护自己的索引片并提供检索服务;索引模块负责为指定的文档创建索引;共享文件***提供了数据文件的存储服务。
本发明设计的索引片增量缓存机制是指,在用户的一个会话中创建的索引增量会先在索引器本地缓存。所有针对同一个索引片的增量数据都合并为一个增量文件。当增量积累到一定程度,或者用户显式地提交增量的时候,增量数据才会被更新到集群中。这就在一定程度上避免了频繁的索引更新和网络传输。
本发明中设计的多备份索引片的投机性次序更新机制是指,当目标索引片在集群中有多个备份的时候,不要求所有备份同步更新,而是选择部分节点首先更新,其余节点继续提供服务;等首批节点更新完成,再将检索服务切换到首批节点上,次批节点再进行更新。这里“投机性”的含义包括两方面:
一方面在于如何选择第一批更新的节点。为了尽快提供新索引数据的检索服务,一般选择一部分当前负载较小、性能较好的节点优先执行索引更新;因为在更新阶段提供检索服务的只有一部分节点,为了平衡索引服务切换前后的***负载,一般要求前后两批的节点数量相同。另一方面在于检索服务切换的时机。可以选择第一批的全部节点更新完成后才切换检索服务;也可以在第一批节点中有部分节点更新完成的时候,就将索引服务切换到这些节点上,启动第二批节点的更新,后面的节点在更新完成后再加入到检索服务中。第二种选择的优点在于尽早地启用新索引,但是缺点在于服务切换以后,由于能提供检索服务的节点比较少,可能导致压力较大;而第一种方法则能够较好地平衡负载压力。因此,检索服务切换的时机一般要根据当前***的压力来决定。
本发明方法允许用户自行设定检索服务的切换条件。
在本发明提出的不中止服务的轻量级索引在线更新方法中,索引更新的具体实施方式如下:
1、创建并上传索引片增量
在用户向文本检索***添加、删除或更新文件后,将该文件的识别信息发送至索引模块。索引模块根据文本检索***中定义的索引切分规则,对接收的识别信息进行判断,确定该文件所属的索引片,并为该文件创建一个与该索引片相对应的增量数据。对于新增的文件,索引模块为其创建一个正增量,其中包含了该文件的全部索引数据;对于删除的文件,索引模块为其创建一个负增量,其中包含了要删除的文件具体信息(文件名、文件路径等);对于更新的文件,则分别为旧文件创建一个负增量、为新文件创建一个正增量。
为了避免索引更新操作的频繁执行,索引模块将该增量数据缓存,并对相同索引片的多次添加、删除或更新产生的增量数据合并;当用户结束添加、删除或更新操作后,索引模块将所有的索引片增量数据上传到共享文件***中。最后,索引模块向文本检索***中的集群主节点发出索引片更新命令,该命令中包括:每个被更新索引片的名称、增量类型、增量的存储路径。
2、集群主节点创建索引片更新计划
文本检索***采用锁协议实现索引更新的并发控制,每一个索引更新操作必选先获得被更新索引片的锁才可以执行。文本检索***中的索引锁管理器为每个索引片建立一个锁申请队列。文本检索***中的集群主节点接收上述索引片更新命令后,向索引锁管理器申请被更新索引片的锁。索引锁管理器根据被更新索引片的名称将本更新操作加入到与被更新索引片相对应的锁申请队列中,并依次将锁赋予申请队列中的更新操作。
文本检索***中的集群主节点存储着集群中的索引部署状态,索引部署状态中记录了持有任何一个索引片的所有子节点和每个子节点持有的所有索引片。当更新操作获得被更新索引片的锁后,文本检索***中的集群主节点根据存储的索引部署状态信息,确定集群中持有被更新索引片的所有子节点。文本检索***的结构图如图1所示,其中的集群主节点向持有被更新索引片的所有子节点询问当前的负载情况,并根据各子节点负载的大小进行排序,将一半负载较低的节点作为首批更新的节点,剩余节点作为次批更新的节点。
3、集群主节点启动首批节点的更新操作
文本检索***中的集群主节点存储着集群中的索引片检索服务分布状态。索引片检索服务分布状态对于任何一个索引片记录了提供基于该索引片的检索服务的所有子节点。
文本检索***中的集群主节点在索引片检索服务分布状态中,将首批节点提供的基于被更新索引片的检索服务状态标记为中止。对于此后到来的检索请求,集群主节点不会将其发送到检索服务标记为中止的节点上,但这些节点仍然在提供着检索服务,只是没有暴露给外界。
然后,文本检索***中的集群主节点向首批节点发出索引片更新命令,该命令中包括:被更新索引片的名称、增量类型、增量的存储路径。
4、首批节点执行索引更新(其流程框图如图3所示)
首批节点接收到上述索引片更新命令后,停止本节点的基于被更新索引片的检索服务,并根据上述被更新索引片的增量的存储路径,从上述共享文件***上读取相应的增量数据,根据增量类型,将增量数据合并到本节点持有的被更新索引片中。
更新完成后,首批节点启动在本节点的基于被更新索引片的检索服务,并将更新完成的信息发送至集群主节点。
5、集群主节点切换检索服务提供者,启动次批节点的索引更新操作
文本检索***中的集群主节点接收首批节点发送的更新完成信息后,根据用户设定的索引服务切换条件,当设定数量的子节点的更新操作完成后,在索引片检索服务分布状态中,将首批节点提供的基于被更新索引片的检索服务标记为启用,并将次批节点提供的基于被更新索引片的检索服务标记为中止。
然后,文本检索***中的集群主节点向次批节点发出索引片更新命令,该命令中包括:被更新索引片的名称、增量类型、增量的存储路径。
6、次批节点执行索引更新(其流程框图如图3所示)
次批节点接收到上述索引片更新命令后,停止本节点的基于被更新索引片的检索服务,并根据上述被更新索引片的增量的存储路径,从上述共享文件***上读取相应的增量数据,根据增量类型,将增量数据合并到本节点持有的被更新索引片中。
更新完成后,次批节点启动在本节点的基于被更新索引片的检索服务,并将更新完成的信息发送至集群主节点。
7、集群主节点启用次批子节点的检索服务
文本检索***中的集群主节点接收次批节点发送的更新完成信息后,在索引片检索服务分布状态中,将所有已完成更新操作的子节点提供的基于被更新索引片的检索服务标记为启用。
当所有子节点都完成更新操作后,集群主节点向索引锁管理器释放锁,完成此次更新。

Claims (1)

1.一种云环境中的文本索引在线更新方法,其特征在于该方法包括以下步骤:
(1)在用户向文本检索***添加、删除或更新文件后,将该文件的识别信息发送至索引模块;索引模块根据文本检索***中定义的索引切分规则,对接收的识别信息进行判断,确定该文件所属的索引片,并为该文件创建一个与该索引片相对应的增量数据;索引模块将该增量数据缓存,并对相同索引片的多次添加、删除或更新产生的增量数据合并;当用户结束添加、删除或更新操作后,索引模块将所有的索引片增量数据上传到共享文件***中;索引模块向文本检索***中的集群主节点发出索引片更新命令,该命令中包括:每个被更新索引片的名称、增量类型、增量的存储路径;
(2)文本检索***中的索引锁管理器为每个索引片建立一个锁申请队列;文本检索***中的集群主节点接收上述索引片更新命令后,向文本检索***中的索引锁管理器申请被更新索引片的锁;索引锁管理器根据被更新索引片的名称将本更新操作加入到与被更新索引片相对应的锁申请队列中,并依次将锁赋予申请队列中的更新操作;当更新操作获得被更新索引片的锁后,文本检索***中的集群主节点根据存储的索引部署状态信息,确定集群中持有被更新索引片的所有子节点;文本检索***中的集群主节点向持有被更新索引片的所有子节点询问当前的负载情况,并根据各子节点负载的大小进行排序,将其中一半负载较低的节点作为首批更新的节点,剩余节点作为次批更新的节点;
(3)文本检索***中的集群主节点在索引片检索服务分布状态中,将首批节点提供的基于被更新索引片的检索服务标记为中止,并向首批节点发出索引片更新命令,该更新命令中包括:被更新索引片的名称、增量类型、增量的存储路径;
(4)首批节点接收到上述索引片更新命令后,停止本节点提供的基于被更新索引片的检索服务,并根据上述被更新索引片的增量的存储路径,从上述共享文件***上读取相应的增量数据,根据增量类型,将增量数据合并到本节点持有的被更新索引片中;更新完成后,首批节点启用被更新索引片在本节点的检索服务,并将更新完成的信息发送至主节点;
(5)文本检索***中的集群主节点接收首批节点发送的更新完成信息后,根据用户设定的索引服务切换条件,当设定数量的子节点的更新操作完成后,在索引片检索服务分布状态中,将首批节点提供的基于被更新索引片的检索服务标记为中止,并将次批节点提供的基于被更新索引片的检索服务标记为启用,并向次批节点发出索引片更新命令,该更新命令中包括:被更新索引片的名称、增量类型、增量的存储路径;
(6)次批节点接收到上述索引片更新命令后,停止本节点提供的基于被更新索引片的检索服务,并根据上述被更新索引片的增量的存储路径,从上述共享文件***上读取相应的增量数据,根据增量类型,将增量数据合并到本节点持有的被更新索引片中;更新完成后,次批节点启用被更新索引片在本节点的检索服务,并将更新完成的信息发送至主节点;
(7)文本检索***中的集群主节点接收次批节点发送的更新完成信息后,在索引片检索服务分布状态中,将所有已完成更新操作的子节点提供的基于被更新索引片的检索服务标记为启用;当所有子节点都完成更新操作后,集群主节点向索引锁管理器释放锁,完成此次更新。
CN201010554536XA 2010-11-19 2010-11-19 一种云环境中的文本索引在线更新方法 Expired - Fee Related CN102004778B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201010554536XA CN102004778B (zh) 2010-11-19 2010-11-19 一种云环境中的文本索引在线更新方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201010554536XA CN102004778B (zh) 2010-11-19 2010-11-19 一种云环境中的文本索引在线更新方法

Publications (2)

Publication Number Publication Date
CN102004778A true CN102004778A (zh) 2011-04-06
CN102004778B CN102004778B (zh) 2012-02-29

Family

ID=43812140

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201010554536XA Expired - Fee Related CN102004778B (zh) 2010-11-19 2010-11-19 一种云环境中的文本索引在线更新方法

Country Status (1)

Country Link
CN (1) CN102004778B (zh)

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102779185A (zh) * 2012-06-29 2012-11-14 浙江大学 一种高可用分布式全文索引方法
CN102799679A (zh) * 2012-07-24 2012-11-28 河海大学 基于Hadoop的海量空间数据索引更新***及方法
CN103731369A (zh) * 2013-12-27 2014-04-16 乐视网信息技术(北京)股份有限公司 服务器中的数据队列的更新方法及***
CN104021451A (zh) * 2014-06-20 2014-09-03 江苏易合大成网络科技有限公司 基于云存储和本地存储的混合式企业内容管理方法和***
CN104077379A (zh) * 2014-06-25 2014-10-01 北京海泰方圆科技有限公司 一种索引更新的方法
CN104778267A (zh) * 2015-04-22 2015-07-15 无锡天脉聚源传媒科技有限公司 一种搜索及索引更新的方法及装置
CN105045684A (zh) * 2015-07-16 2015-11-11 北京京东尚科信息技术有限公司 索引切换和索引控制的方法及装置
CN105208105A (zh) * 2015-08-26 2015-12-30 北京奇虎科技有限公司 索引更新方法和装置
CN105404667A (zh) * 2015-11-13 2016-03-16 重庆大学 一种用于内存文件***的文件数据一致性更新方法
CN105550362A (zh) * 2015-12-31 2016-05-04 浙江大华技术股份有限公司 一种存储***的索引数据修复方法和存储***
CN105721617A (zh) * 2016-04-28 2016-06-29 安徽四创电子股份有限公司 一种云服务***的滚动更新方法
CN105765908A (zh) * 2014-06-30 2016-07-13 北京新媒传信科技有限公司 一种多站点自动更新方法、客户端和***
CN106021381A (zh) * 2016-05-11 2016-10-12 北京搜狐新媒体信息技术有限公司 一种云存储服务***的数据访问/存储方法及装置
CN108230041A (zh) * 2018-01-24 2018-06-29 微梦创科网络科技(中国)有限公司 一种基于广告投放的索引热加载方法及装置
CN110166266A (zh) * 2018-02-12 2019-08-23 电信科学技术研究院有限公司 一种从节点配置更新的处理方法、主节点及从节点
CN111209462A (zh) * 2020-01-02 2020-05-29 北京字节跳动网络技术有限公司 数据处理方法、装置及设备
CN111245876A (zh) * 2018-11-29 2020-06-05 杭州海康威视数字技术股份有限公司 名单同步方法和集群***
CN111949833A (zh) * 2020-08-17 2020-11-17 北京字节跳动网络技术有限公司 索引构建方法、数据处理方法、装置、电子设备及介质
CN115203378A (zh) * 2022-09-09 2022-10-18 北京澜舟科技有限公司 基于预训练语言模型的检索增强方法、***及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050010560A1 (en) * 2003-07-07 2005-01-13 International Business Machines Corporation Method of generating a distributed text index for parallel query processing
US20080082490A1 (en) * 2006-09-28 2008-04-03 Microsoft Corporation Rich index to cloud-based resources
CN101650741A (zh) * 2009-08-27 2010-02-17 中国电信股份有限公司 一种分布式全文检索的索引实时更新的方法和***

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050010560A1 (en) * 2003-07-07 2005-01-13 International Business Machines Corporation Method of generating a distributed text index for parallel query processing
US20080082490A1 (en) * 2006-09-28 2008-04-03 Microsoft Corporation Rich index to cloud-based resources
CN101650741A (zh) * 2009-08-27 2010-02-17 中国电信股份有限公司 一种分布式全文检索的索引实时更新的方法和***

Cited By (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102779185B (zh) * 2012-06-29 2014-11-12 浙江大学 一种高可用分布式全文索引方法
CN102779185A (zh) * 2012-06-29 2012-11-14 浙江大学 一种高可用分布式全文索引方法
CN102799679A (zh) * 2012-07-24 2012-11-28 河海大学 基于Hadoop的海量空间数据索引更新***及方法
CN102799679B (zh) * 2012-07-24 2014-10-22 河海大学 基于Hadoop的海量空间数据索引更新***及方法
CN103731369A (zh) * 2013-12-27 2014-04-16 乐视网信息技术(北京)股份有限公司 服务器中的数据队列的更新方法及***
CN104021451A (zh) * 2014-06-20 2014-09-03 江苏易合大成网络科技有限公司 基于云存储和本地存储的混合式企业内容管理方法和***
CN104077379A (zh) * 2014-06-25 2014-10-01 北京海泰方圆科技有限公司 一种索引更新的方法
CN105765908A (zh) * 2014-06-30 2016-07-13 北京新媒传信科技有限公司 一种多站点自动更新方法、客户端和***
CN105765908B (zh) * 2014-06-30 2019-07-19 北京新媒传信科技有限公司 一种多站点自动更新方法、客户端和***
CN104778267A (zh) * 2015-04-22 2015-07-15 无锡天脉聚源传媒科技有限公司 一种搜索及索引更新的方法及装置
CN105045684B (zh) * 2015-07-16 2018-06-15 北京京东尚科信息技术有限公司 索引切换和索引控制的方法及装置
CN105045684A (zh) * 2015-07-16 2015-11-11 北京京东尚科信息技术有限公司 索引切换和索引控制的方法及装置
CN105208105A (zh) * 2015-08-26 2015-12-30 北京奇虎科技有限公司 索引更新方法和装置
CN105208105B (zh) * 2015-08-26 2019-03-08 北京奇虎科技有限公司 索引更新方法和装置
CN105404667A (zh) * 2015-11-13 2016-03-16 重庆大学 一种用于内存文件***的文件数据一致性更新方法
CN105404667B (zh) * 2015-11-13 2018-08-24 重庆大学 一种用于内存文件***的文件数据一致性更新方法
CN105550362A (zh) * 2015-12-31 2016-05-04 浙江大华技术股份有限公司 一种存储***的索引数据修复方法和存储***
CN105550362B (zh) * 2015-12-31 2019-11-19 浙江大华技术股份有限公司 一种存储***的索引数据修复方法和存储***
CN105721617A (zh) * 2016-04-28 2016-06-29 安徽四创电子股份有限公司 一种云服务***的滚动更新方法
CN105721617B (zh) * 2016-04-28 2019-05-14 安徽四创电子股份有限公司 一种云服务***的滚动更新方法
CN106021381A (zh) * 2016-05-11 2016-10-12 北京搜狐新媒体信息技术有限公司 一种云存储服务***的数据访问/存储方法及装置
CN108230041A (zh) * 2018-01-24 2018-06-29 微梦创科网络科技(中国)有限公司 一种基于广告投放的索引热加载方法及装置
CN108230041B (zh) * 2018-01-24 2022-01-28 微梦创科网络科技(中国)有限公司 一种基于广告投放的索引热加载方法及装置
CN110166266A (zh) * 2018-02-12 2019-08-23 电信科学技术研究院有限公司 一种从节点配置更新的处理方法、主节点及从节点
CN111245876A (zh) * 2018-11-29 2020-06-05 杭州海康威视数字技术股份有限公司 名单同步方法和集群***
CN111245876B (zh) * 2018-11-29 2023-04-28 杭州海康威视数字技术股份有限公司 名单同步方法和集群***
CN111209462A (zh) * 2020-01-02 2020-05-29 北京字节跳动网络技术有限公司 数据处理方法、装置及设备
CN111949833A (zh) * 2020-08-17 2020-11-17 北京字节跳动网络技术有限公司 索引构建方法、数据处理方法、装置、电子设备及介质
CN115203378A (zh) * 2022-09-09 2022-10-18 北京澜舟科技有限公司 基于预训练语言模型的检索增强方法、***及存储介质
CN115203378B (zh) * 2022-09-09 2023-01-24 北京澜舟科技有限公司 基于预训练语言模型的检索增强方法、***及存储介质

Also Published As

Publication number Publication date
CN102004778B (zh) 2012-02-29

Similar Documents

Publication Publication Date Title
CN102004778B (zh) 一种云环境中的文本索引在线更新方法
JP7138126B2 (ja) リソース配置を最適化するための適時性リソース移行
JP6893284B2 (ja) リソーススケジューリング方法、スケジューリングサーバ、クラウドコンピューティングシステム、及び記憶媒体
US8271455B2 (en) Storing replication requests for objects in a distributed storage system
CN101770515B (zh) 一种基于数据块比较的数据更新方法
CN111386522B (zh) 用于数据存储的***和方法
CN112470112A (zh) 块存储***的分布式副本
CN101930472A (zh) 一种支持分布式数据库基于并行查询的方法
WO2016148670A1 (en) Deduplication and garbage collection across logical databases
CN101375241A (zh) 集群文件***中的有效数据管理
CN110377580B (zh) 一种数据迁移方法、装置及设备
JP5375972B2 (ja) 分散ファイルシステム、そのデータ選択方法およびプログラム
CN109901786A (zh) 数据迁移方法、***、装置及计算机可读存储介质
CN107704550A (zh) 文件迁移方法、装置以及计算机可读存储介质
US11210212B2 (en) Conflict resolution and garbage collection in distributed databases
CN102567419A (zh) 基于树结构的海量数据存储装置及方法
CN108933813A (zh) 在顺序保留数据流消耗期间防止读取器饥饿
WO2016174739A1 (ja) 複合計算機システム、管理計算機、およびデータ連携管理方法
CN102867029A (zh) 一种管理分布式文件***目录的方法及分布式文件***
CN113253924A (zh) 数据处理方法、装置、电子设备及计算机可读存储介质
CN112799585A (zh) 数据处理方法、装置、电子设备及可读存储介质
WO2023109554A1 (zh) 分布式***的数据处理方法、***、节点和存储介质
CN113297304B (zh) 数据导入***及方法
Gu Efficient Resource Management for Deep Learning Clusters
CN115396447A (zh) 一种分布式数据库的负载均衡方法、装置、设备及介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20120229

Termination date: 20211119

CF01 Termination of patent right due to non-payment of annual fee