CN105488167B - 一种索引库更新方法及装置 - Google Patents

一种索引库更新方法及装置 Download PDF

Info

Publication number
CN105488167B
CN105488167B CN201510857602.3A CN201510857602A CN105488167B CN 105488167 B CN105488167 B CN 105488167B CN 201510857602 A CN201510857602 A CN 201510857602A CN 105488167 B CN105488167 B CN 105488167B
Authority
CN
China
Prior art keywords
data
deleted
module
obtaining
internet
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510857602.3A
Other languages
English (en)
Other versions
CN105488167A (zh
Inventor
虞航仲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Kingsoft Internet Security Software Co Ltd
Original Assignee
Beijing Kingsoft Internet Security Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Kingsoft Internet Security Software Co Ltd filed Critical Beijing Kingsoft Internet Security Software Co Ltd
Priority to CN201510857602.3A priority Critical patent/CN105488167B/zh
Publication of CN105488167A publication Critical patent/CN105488167A/zh
Application granted granted Critical
Publication of CN105488167B publication Critical patent/CN105488167B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • G06F16/2272Management thereof

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了一种索引库更新方法及装置,预先建立用于存储目标数据类型的数据的索引库;方法包括:从互联网中获得所述目标数据类型的第一数据;根据所述目标数据类型的数据的有效时长,确定所述第一数据和第二数据中待删除数据,其中,所述第二数据为所述索引库中存储的所述目标数据类型的数据;删除所述第一数据和所述第二数据中的待删除数据;将所获得的第一数据中的非待删除数据,添加在所述索引库中。应用本发明实施例,将超过有效时长的数据删除,减少了存储空间的占用,并无需对存储空间进行扩容,进而节省了成本。

Description

一种索引库更新方法及装置
技术领域
本发明涉及索引技术领域,特别涉及一种索引库更新方法及装置。
背景技术
索引服务是一项***服务(Indexing Service),使用文档筛选器读取整个文档,并提取文档和属性传递给索引程序,这个过程称为“索引”。索引服务可以从一组文档中提取并组织信息,以便通过Windows搜索功能、索引服务查询表或Web浏览器快速容易地访问该信息,该信息可以包含文档中的文本(内容)、文档的特征和参数(属性)。通过索引可以对信息进行快速访问。
目前,更新索引库的方法为:将每次获取到的数据添加在索引库中。
但是,应用上述的方法更新索引库,较占用***存储空间,需要运维人员每隔一段时间对***存储空间进行扩容。
发明内容
本发明实施例的目的在于提供一种索引库更新方法及装置,以减少存储空间的占用。
为达到上述目的,本发明实施例公开了一种索引库更新方法,预先建立用于存储目标数据类型的数据的索引库;方法包括:
从互联网中获得所述目标数据类型的第一数据;
根据所述目标数据类型的数据的有效时长,确定所述第一数据和第二数据中待删除数据,其中,所述第二数据为所述索引库中存储的所述目标数据类型的数据;
删除所述第一数据和所述第二数据中的待删除数据;
将所获得的第一数据中的非待删除数据,添加在所述索引库中。
可选的,所述从互联网中获得所述目标数据类型的第一数据,包括:
利用爬虫技术,从互联网中获得所述第一数据。
可选的,所述从互联网中获得所述目标数据类型的第一数据,包括:
每隔预设时间或每达到预设时间点,从互联网中获得所述第一数据。
可选的,所述从互联网中获得所述目标数据类型的第一数据,包括:
从互联网中获得未超过所述有效时长的所述目标数据类型的第一数据。
可选的,所述根据所述目标数据类型的数据的有效时长,确定所述第一数据和第二数据中待删除数据,包括:
将所述第一数据中、当前时间与数据创建时间之差不小于所述有效时长对应的数据,确定为所述第一数据中待删除数据;
将所述第二数据中、当前时间与数据创建时间之差不小于所述有效时长对应的数据,确定为所述第二数据中待删除数据。
为达到上述目的,本发明实施例公开了一种索引库更新装置,包括:建立模块、获得模块、确定模块、删除模块和更新模块,其中,
所述建立模块,用于预先建立用于存储目标数据类型的数据的索引库;
所述获得模块,用于从互联网中获得所述目标数据类型的第一数据;
所述确定模块,用于根据所述目标数据类型的数据的有效时长,确定所述第一数据和第二数据中待删除数据,其中,所述第二数据为所述索引库中存储的所述目标数据类型的数据;
所述删除模块,用于删除所述确定模块确定的待删除数据;
所述更新模块,用于将所述获得模块获得的第一数据中的非待删除数据,添加在所述建立模块建立的索引库中。
可选的,所述获得模块,具体用于:
利用爬虫技术,从互联网中获得所述第一数据。
可选的,所述获得模块,具体用于:
每隔预设时间或每达到预设时间点,从互联网中获得所述第一数据。
可选的,所述获得模块,具体用于:
从互联网中获得未超过所述有效时长的所述目标数据类型的第一数据。
可选的,所述确定模块,具体用于:
将所述第一数据中、当前时间与数据创建时间之差不小于所述有效时长对应的数据,确定为所述第一数据中待删除数据;
将所述第二数据中、当前时间与数据创建时间之差不小于所述有效时长对应的数据,确定为所述第二数据中待删除数据。
由上述的技术方案可见,本发明实施例提供了一种索引库更新方法及装置,预先建立用于存储目标数据类型的数据的索引库;方法包括:从互联网中获得所述目标数据类型的第一数据;根据所述目标数据类型的数据的有效时长,确定所述第一数据和第二数据中待删除数据,其中,所述第二数据为所述索引库中存储的所述目标数据类型的数据;删除所述第一数据和所述第二数据中的待删除数据;将所获得的第一数据中的非待删除数据,添加在所述索引库中。
应用本发明实施例所提供的技术方案,将超过有效时长的数据删除,减少了存储空间的占用,并无需对存储空间进行扩容,进而节省了成本。
当然,实施本发明的任一产品或方法必不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种索引库更新方法的流程示意图;
图2为本发明实施例提供的一种索引库更新装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为了解决现有技术问题,本发明实施例提供了一种索引库更新方法及装置。下面首先对本发明实施例所提供的一种索引库更新方法进行介绍。
需要说明的是,本发明的实施例优选适用于电子设备,在实际应用中,该电子设备可以为服务器,本发明对此不作限定。
对索引库进行更新,需要预先建立用于存储目标数据类型的数据的索引库;其中,在实际应用中,目标数据类型可以为文本、图片、视频、音频、网页等等,本发明并不对目标数据类型进行限定;并且索引库当且仅当被建立一次,当对索引库进行更新时,无需重新建立索引库,对索引库的更新操作全部针对该索引库。
图1为本发明实施例提供的一种索引库更新方法的流程示意图,可以包括:
S101:从互联网中获得目标数据类型的第一数据;
S102:根据目标数据类型的数据的有效时长,确定第一数据和第二数据中待删除数据;
其中,第二数据为索引库中存储的目标数据类型的数据;
S103:删除第一数据和第二数据中的待删除数据;
S104:将所获得的第一数据中的非待删除数据,添加在索引库中。
具体的,在实际应用中,从互联网中获得目标数据类型的第一数据,可以利用爬虫技术,从互联网中获得目标数据类型的第一数据,即利用针对目标数据类型的数据的抓取程序,从互联网中抓取目标数据类型的数据。其中,利用爬虫技术,从互联网中抓取数据为现有技术,本发明实施例在此不对其进行赘述。
在实际应用中,可以每隔预设时间,从互联网中获得目标数据类型的第一数据,例如:每隔1小时或1天从互联网中获得目标数据类型的第一数据;也可以每达到预设时间点,从互联网中获得目标数据类型的第一数据,例如:预设时间点为每日的8:00,11:00,13:00,17:00,则每到达上述时间点时,从互联网中获得目标数据类型的第一数据。
示例性的,假设目标数据类型为新闻。预设新闻数据的有效时长为1天。
假设索引库中当前存储的新闻类型的数据分别为新闻x、新闻y和新闻z,抓取到的新闻类型的数据分别为新闻a、新闻b、新闻c,则针对新闻x、新闻y、新闻z、新闻a、新闻b和新闻c中的每一新闻数据,分别根据新闻数据的有效时长,判断其是否为待删除数据。
假设确定出当前存储的数据中待删除数据为新闻y;所抓取到的数据中待删除数据为新闻a和新闻c,则将新闻y、新闻a和新闻c删除。
将所抓取到的数据中非待删除数据,添加在索引库中。
在实际应用中,每个数据均有数据创建时间属性,因此根据所述目标数据类型的数据的有效时长,确定所述第一数据和第二数据中待删除数据,可以将所述第一数据中、当前时间与数据创建时间之差不小于所述有效时长对应的数据,确定为所述第一数据中待删除数据;将所述第二数据中、当前时间与数据创建时间之差不小于所述有效时长对应的数据,确定为所述第二数据中待删除数据。
示例性的,以上述的新闻a为例,假设新闻a的创建时间为2015年10月21日18:00;当前时间为2015年10月25日13:00,当前时间与新闻a的创建时间之差大于1天,则将新闻a确定为待删除数据。进而可以确定出第一数据和第二数据中的所有待删除数据。
具体的,在实际应用中,每个数据均有数据创建时间属性,因此从互联网中获得所述目标数据类型的第一数据,可以从互联网中获得未超过所述有效时长的所述目标数据类型的第一数据。即从互联网获得数据时,先判断该数据的创建时间至当前时间是否超过1天,如果超过,则丢弃该数据,仅获得创建时间至当前时间未超过1天的数据,即获得未超过有效时长的数据。
以上述新闻a、新闻b和新闻c为例,假设当前时间为2015年10月25日13:00;新闻a的创建时间为2015年10月21日18:00;新闻b的创建时间为2015年10月24日17:35;新闻c的创建时间为2015年10月22日8:52;可判断出新闻a和新闻c的创建时间至当前时间超过1天,新闻b的创建时间至当前时间未超过1天,则仅获得新闻b。由于获得的数据均未超过有效时长,因此在确定待删除数据时,仅需确定索引库中存储的数据中待删除数据即可。
需要说明的是,上述以目标数据类型为新闻,新闻x、新闻y、新闻z、新闻a、新闻b和新闻c为例进行说明,仅为本发明的一具体实例,并不够成对本发明的限定。
应用本发明图1所示实施例,将超过有效时长的数据删除,减少了存储空间的占用,并无需对存储空间进行扩容,进而节省了成本。
与上述的方法实施例相对应,本发明实施例还提供一种索引库更新装置。
图2为本发明实施例提供的一种索引库更新装置的结构示意图,可以包括:建立模块201、获得模块202、确定模块203、删除模块204和更新模块205,其中,
建立模块201,用于预先建立用于存储目标数据类型的数据的索引库;
获得模块202,用于从互联网中获得所述目标数据类型的第一数据;
在实际应用中,本发明实施例所示的获得模块202,具体可以用于:
利用爬虫技术,从互联网中获得所述第一数据。
在实际应用中,本发明实施例所示的获得模块202,具体可以用于:
每隔预设时间或每达到预设时间点,从互联网中获得所述第一数据。
在实际应用中,本发明实施例所示的获得模块202,具体可以用于:
从互联网中获得未超过所述有效时长的所述目标数据类型的第一数据。
确定模块203,用于根据所述目标数据类型的数据的有效时长,确定所述第一数据和第二数据中待删除数据,其中,所述第二数据为所述索引库中存储的所述目标数据类型的数据;
在实际应用中,本发明实施例所示的确定模块203,具体可以用于:
将所述第一数据中、当前时间与数据创建时间之差不小于所述有效时长对应的数据,确定为所述第一数据中待删除数据;
将所述第二数据中、当前时间与数据创建时间之差不小于所述有效时长对应的数据,确定为所述第二数据中待删除数据。
删除模块204,用于删除确定模块203确定的待删除数据;
更新模块205,用于将获得模块202获得的第一数据中的非待删除数据,添加在建立模块201建立的索引库中。
应用本发明图2所示实施例,将超过有效时长的数据删除,减少了存储空间的占用,并无需对存储空间进行扩容,进而节省了成本。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本领域普通技术人员可以理解实现上述方法实施方式中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,所述的程序可以存储于计算机可读取存储介质中,这里所称得的存储介质,如:ROM/RAM、磁碟、光盘等。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (6)

1.一种索引库更新方法,其特征在于,预先建立用于存储目标数据类型的数据的索引库;方法包括:
从互联网中获得未超过有效时长的所述目标数据类型的第一数据;
根据所述目标数据类型的数据的所述有效时长,确定所述第一数据和第二数据中待删除数据,其中,所述第二数据为所述索引库中存储的所述目标数据类型的数据,包括:将所述第一数据中、当前时间与数据创建时间之差不小于所述有效时长对应的数据,确定为所述第一数据中待删除数据;将所述第二数据中、当前时间与数据创建时间之差不小于所述有效时长对应的数据,确定为所述第二数据中待删除数据;
删除所述第一数据和所述第二数据中的待删除数据;
将所获得的第一数据中的非待删除数据,添加在所述索引库中。
2.根据权利要求1所述的方法,其特征在于,所述从互联网中获得所述目标数据类型的第一数据,包括:
利用爬虫技术,从互联网中获得所述第一数据。
3.根据权利要求1所述的方法,其特征在于,所述从互联网中获得所述目标数据类型的第一数据,包括:
每隔预设时间或每达到预设时间点,从互联网中获得所述第一数据。
4.一种索引库更新装置,其特征在于,包括:建立模块、获得模块、确定模块、删除模块和更新模块,其中,
所述建立模块,用于预先建立用于存储目标数据类型的数据的索引库;
所述获得模块,用于从互联网中获得未超过有效时长的所述目标数据类型的第一数据;
所述确定模块,用于根据所述目标数据类型的数据的所述有效时长,确定所述第一数据和第二数据中待删除数据,其中,所述第二数据为所述索引库中存储的所述目标数据类型的数据,具体用于:将所述第一数据中、当前时间与数据创建时间之差不小于所述有效时长对应的数据,确定为所述第一数据中待删除数据;将所述第二数据中、当前时间与数据创建时间之差不小于所述有效时长对应的数据,确定为所述第二数据中待删除数据;
所述删除模块,用于删除所述确定模块确定的待删除数据;
所述更新模块,用于将所述获得模块获得的第一数据中的非待删除数据,添加在所述建立模块建立的索引库中。
5.根据权利要求4所述的装置,其特征在于,所述获得模块,具体用于:
利用爬虫技术,从互联网中获得所述第一数据。
6.根据权利要求4所述的装置,其特征在于,所述获得模块,具体用于:
每隔预设时间或每达到预设时间点,从互联网中获得所述第一数据。
CN201510857602.3A 2015-11-30 2015-11-30 一种索引库更新方法及装置 Active CN105488167B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510857602.3A CN105488167B (zh) 2015-11-30 2015-11-30 一种索引库更新方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510857602.3A CN105488167B (zh) 2015-11-30 2015-11-30 一种索引库更新方法及装置

Publications (2)

Publication Number Publication Date
CN105488167A CN105488167A (zh) 2016-04-13
CN105488167B true CN105488167B (zh) 2019-12-13

Family

ID=55675141

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510857602.3A Active CN105488167B (zh) 2015-11-30 2015-11-30 一种索引库更新方法及装置

Country Status (1)

Country Link
CN (1) CN105488167B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106446101A (zh) * 2016-09-13 2017-02-22 郑州云海信息技术有限公司 一种数据管理***
US10956453B2 (en) * 2017-05-24 2021-03-23 International Business Machines Corporation Method to estimate the deletability of data objects

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101216821A (zh) * 2007-01-05 2008-07-09 中兴通讯股份有限公司 数据采集***的存储管理方法
CN101556589A (zh) * 2008-04-09 2009-10-14 北京闻言科技有限公司 一种Oracle在数据库中定期淘汰过期数据的方法
CN103530349A (zh) * 2013-09-30 2014-01-22 乐视致新电子科技(天津)有限公司 一种缓存更新方法及设备
CN104572920A (zh) * 2014-12-27 2015-04-29 北京奇虎科技有限公司 一种数据整理方法和装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102750376A (zh) * 2012-06-25 2012-10-24 天津神舟通用数据技术有限公司 一种多版本数据库存储引擎***及其相关处理的实现方法
US9122786B2 (en) * 2012-09-14 2015-09-01 Software Ag Systems and/or methods for statistical online analysis of large and potentially heterogeneous data sets
US20140201192A1 (en) * 2013-01-15 2014-07-17 Syscom Computer Engineering Co. Automatic data index establishment method
CN103997753B (zh) * 2014-06-03 2017-11-07 杭州东信网络技术有限公司 间隔式追加采集移动通信无线网络性能数据的方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101216821A (zh) * 2007-01-05 2008-07-09 中兴通讯股份有限公司 数据采集***的存储管理方法
CN101556589A (zh) * 2008-04-09 2009-10-14 北京闻言科技有限公司 一种Oracle在数据库中定期淘汰过期数据的方法
CN103530349A (zh) * 2013-09-30 2014-01-22 乐视致新电子科技(天津)有限公司 一种缓存更新方法及设备
CN104572920A (zh) * 2014-12-27 2015-04-29 北京奇虎科技有限公司 一种数据整理方法和装置

Also Published As

Publication number Publication date
CN105488167A (zh) 2016-04-13

Similar Documents

Publication Publication Date Title
CN105608117B (zh) 一种信息推荐方法及装置
US8332763B2 (en) Aggregating dynamic visual content
CN106874481B (zh) 一种分布式文件***元数据信息读取方法及***
US8315978B2 (en) Synchronization adapter for synchronizing data to applications that do not directly support synchronization
US20070005652A1 (en) Apparatus and method for gathering of objectional web sites
US20140075301A1 (en) Information processing apparatus, control method, and recording medium
CN102693305A (zh) 一种文件信息预览方法及***
CN106777179B (zh) 一种文档在线预览方法及***
CN107016123B (zh) 文件管理方法及终端设备
CN107291768B (zh) 一种索引建立的方法及装置
CN105488167B (zh) 一种索引库更新方法及装置
CN104462096A (zh) 舆情监测分析方法和装置
CN108415748B (zh) 信息显示方法和***、计算机存储介质及设备
CN110781372A (zh) 一种优化网站的方法、装置、计算机设备及存储介质
CN105824827A (zh) 一种文件路径的存储和本地文件的访问方法及装置
CN105426128A (zh) 一种索引的维护方法及装置
CN107193870B (zh) 网页内容的提取方法和***
CN105893640B (zh) 收藏夹合并的方法及装置
CN104850386A (zh) 一种软件***国际化资源的处理方法
CN105488166A (zh) 一种索引建立方法及装置
CN108595262B (zh) 数据处理方法及装置
CN110543627A (zh) 一种报表配置信息的存储方法及***
CN110888847A (zh) 一种回收站***及文件回收方法
KR20180021152A (ko) 정보 푸시 방법 및 장치
CN110119409A (zh) 分布式应用中缓存设计方法、装置、设备及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant