CN109299352A - 搜索引擎中网站数据的更新方法、装置和搜索引擎 - Google Patents

搜索引擎中网站数据的更新方法、装置和搜索引擎 Download PDF

Info

Publication number
CN109299352A
CN109299352A CN201811350507.4A CN201811350507A CN109299352A CN 109299352 A CN109299352 A CN 109299352A CN 201811350507 A CN201811350507 A CN 201811350507A CN 109299352 A CN109299352 A CN 109299352A
Authority
CN
China
Prior art keywords
data
website
search engine
targeted website
structural
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811350507.4A
Other languages
English (en)
Other versions
CN109299352B (zh
Inventor
张安站
徐中杰
刘伟
郝洪霆
刘桐仁
滕岩松
朱月俊
强伟
陈正亮
王鹏
李立
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu Online Network Technology Beijing Co Ltd
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201811350507.4A priority Critical patent/CN109299352B/zh
Publication of CN109299352A publication Critical patent/CN109299352A/zh
Application granted granted Critical
Publication of CN109299352B publication Critical patent/CN109299352B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种搜索引擎中网站数据的更新方法、装置和搜索引擎,其中,方法包括:接收网站站长本次提交的目标网站的结构化数据,通过文件形式在分布式存储***中保存目标网站的结构化数据,支持站点海量数据的引入,针对目标网站,并将本次提交的目标网站的结构化数据和上次提交的结构化数据进行比较,并根据比较结果更新网页数据库中目标网站的结构化数据。由此,提高了搜索引擎中引入网站的结构化数据的引入效率,并且提高了搜索引擎中收录网站的更新内容的效率,进而在后续用户通过搜索引擎进行搜索时,可提高搜索结果的准确性以及时效性。

Description

搜索引擎中网站数据的更新方法、装置和搜索引擎
技术领域
本申请涉及互联网技术领域,尤其涉及一种搜索引擎中网站数据的更新方法、装置和搜索引擎。
背景技术
结构化资源是指网站站长向搜索引擎提供的、可以被搜索引擎直接收录、索引和展现的优质数据,实现即搜即得的功能。而结构化资源进入搜索引擎的网页库后,搜索引擎控制力更强,也有更好的质量保证,能够为用户提供优质的搜索体验。因此,大量的站点全站数据都是通过结构化资源的方式直接向搜索引擎提交的。
相关技术中,在网站对应网页的网页内容更新时,为了使得搜索引擎所提供的该网站的网页内容也进行同步更新。一般是由站长提交网站新增、删除和/或更改的数据,然后,通过关系数据库保存站长提交的网站新增、删除和/或更改的数据。然而,对于数据规模量较大的网站时,站长需要自己做数据引入的预处理,效率较低,并且,通过关系数据库保存网站新增、删除和/或更改的数据,对于数据库造成过大的压力,无法及时引入,从而导致搜索引擎中对应网页中的删除数据不能被及时删除,新增数据无法及时进入搜索引擎,继而导致用户不能及时使用网站的新内容,检索时效性就会出现问题。
发明内容
本申请旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本申请的第一个目的在于提出一种搜索引擎中网站数据的更新方法,该方法提高了搜索引擎中引入网站的结构化数据的引入效率,并且提高了搜索引擎中收录网站的更新内容的效率,进而在后续用户通过搜索引擎进行搜索时,可提高搜索结果的准确性以及时效性。
本申请的第二个目的在于提出一种搜索引擎中网站数据的更新装置。
本申请的第三个目的在于提出一种搜索引擎。
本申请的第四个目的在于提出一种非临时性计算机可读存储介质。
本申请的第五个目的在于提出一种计算机程序产品。
为达上述目的,本申请第一方面实施例提出了搜索引擎中网站数据的更新方法,包括:所述搜索引擎包括分布式存储***和网页数据库,所述方法包括:
接收网站站长本次提交的目标网站的第一结构化数据;将所述第一结构化数据写入目标文件,并将所述目标文件存储至所述分布式存储***,并保存所述第一结构化数据的第一存储位置;在监控到所述第一结构化数据存储完毕时,针对所述目标网站,根据所述第一存储位置从所述分布式存储***的所述目标文件中获取所述第一结构化数据;获取所述网页数据库中与所述目标网站对应的第二结构化数据,其中,所述第二结构化数据为所述网站站长上次提交的结构化数据;将所述第一结构化数据与所述第二结构化数据进行比较,并根据比较结果更新所述网页数据库中所述目标网站的所述第二结构化数据。
本申请实施例的搜索引擎中网站数据的更新方法,接收网站站长本次提交的目标网站的结构化数据,通过文件形式在分布式存储***中保存目标网站的结构化数据,支持站点海量数据的引入,针对目标网站,并将本次提交的目标网站的结构化数据和上次提交的结构化数据进行比较,并根据比较结果更新网页数据库中目标网站的结构化数据。由此,提高了搜索引擎中引入网站的结构化数据的引入效率,并且提高了搜索引擎中收录网站的更新内容的效率,进而在后续用户通过搜索引擎进行搜索时,可提高搜索结果的准确性以及时效性。
为达上述目的,本申请第二方面实施例提出了一种搜索引擎中网站数据的更新装置,包括:所述搜索引擎包括分布式存储***和网页数据库,所述装置包括:接收模块,用于接收网站站长本次提交的目标网站的第一结构化数据;存储控制模块,用于将所述第一结构化数据写入目标文件,并将所述目标文件存储至所述分布式存储***,并保存所述第一结构化数据的第一存储位置;第一获取模块,用于在监控到所述第一结构化数据存储完毕时,针对所述目标网站,根据所述第一存储位置从所述分布式存储***的所述目标文件中获取所述第一结构化数据;第二获取模块,用于获取所述网页数据库中与所述目标网站对应的第二结构化数据,其中,所述第二结构化数据为所述网站站长上次提交的结构化数据;更新模块,用于将所述第一结构化数据与所述第二结构化数据进行比较,并根据比较结果更新所述网页数据库中所述目标网站的所述第二结构化数据。
本申请实施例的搜索引擎中网站数据的更新装置,接收网站站长本次提交的目标网站的结构化数据,通过文件形式在分布式存储***中保存目标网站的结构化数据,支持站点海量数据的引入,针对目标网站,并将本次提交的目标网站的结构化数据和上次提交的结构化数据进行比较,并根据比较结果更新网页数据库中目标网站的结构化数据。由此,提高了搜索引擎中引入网站的结构化数据的引入效率,并且提高了搜索引擎中收录网站的更新内容的效率,进而在后续用户通过搜索引擎进行搜索时,可提高搜索结果的准确性以及时效性。
为达上述目的,本申请第三方面实施例提出了一种搜索引擎,包括:处理器和存储器;其中,所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序,以用于实现如上述实施例描述的搜索引擎中网站数据的更新方法。
为了实现上述目的,本申请第四方面实施例提出了一种非临时性计算机可读存储介质,该程序被处理器执行时实现如上述实施例描述的搜索引擎中网站数据的更新方法。
为了实现上述目的,本申请第五方面实施例提出了一种计算机程序产品,当所述计算机程序产品中的指令处理器执行时,执行如上述实施例描述的搜索引擎中网站数据的更新方法。
本申请附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1是根据本申请一个实施例的搜索引擎中网站数据的更新方法的流程图;
图2是根据本申请另一个实施例的搜索引擎中网站数据的更新方法的流程图;
图3是本申请一个实施例的数据的引入和存储的过程的示例图;
图4是本申请一个实施例的数据比较的具体过程的示例图;
图5是根据本申请一个实施例的搜索引擎中网站数据的更新装置的结构示意图;
图6是根据本申请另一个实施例的搜索引擎中网站数据的更新装置的结构示意图;
图7是根据本申请另一个实施例的搜索引擎中网站数据的更新装置的结构示意图;
图8是本申请实施例提供的执行搜索引擎中网站数据的更新方法的搜索引擎的硬件结构示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本申请,而不能理解为对本申请的限制。
下面参考附图描述本申请实施例的搜索引擎中网站数据的更新方法、装置及搜索引擎。
图1是根据本申请一个实施例的搜索引擎中网站数据的更新方法的流程图。
如图1所示,该方法可以包括:
步骤101,接收网站站长本次提交的目标网站的第一结构化数据。
其中,需要理解的是,本实施例的搜索引擎中网站数据的更新方法应用在搜索引擎中网站数据的更新装置,该更新装置位于搜索引擎中。
其中,需要说明的是,该实施例的搜索引擎中可以包括但不限于分布式存储***和网页数据库。
其中,分布式存储***用于以文件的形式保存目标网站的结构化数据。
其中,目标网站所对应的目标网页中的数据资源可以包括但不限于小说、图片、音频、视频等资源,该实施例对此不作限定。
其中,需要理解的是,目标网站可以为基于结构化数据框架的网站,也可以为不是基于结构化数据框架的网站。
其中,需要理解的是,为了可向搜索引擎提供结构化数据,作为一种示例性的实施方式,在确定目标网站所对应的网页内容的数据资源包含非结构化资源时,可通过该网站后台的结构化数据插件程序将目标网站的数据资源进行结构化处理。
其中,第一结构化数据可以包括但不限于实体名称及对应实体属性信息。
以目标网站为基于结构化数据框架的音乐类网站为例,对于音乐类网站的每首歌曲而言,当前歌曲的结构化数据为当前歌曲的歌曲名称,当前歌曲的实体属性信息可以包括但不限于版权信息、描述信息(如歌手姓名)、歌词信息、下载地址、当前歌曲的封面图片等信息。其中,需要理解的是,一首歌曲对应一条结构化数据。
其中,需要理解的是,在提交目标网站的第一结构化数据时,可以为XML、JSON等格式文件的方式向搜索引擎提交目标网站的网站数据。对应地,搜索引擎在接收到目标网站的网站数据后,根据对应地解析规则对对应文件进行解析,以获取目标网站对应的第一结构化数据。
例如,网站站长以JSON格式文件向搜索引擎提交目标网站的结构化数据。对应地,搜索引擎根据SON格式文件解析规则对目标网站对应的JSON格式文件进行解析,以获取目标网站的结构化数据。
其中,需要理解的是,对于具有海量数据的目标网站而言,在将该目标网站的第一结构化数据上传后,对应地,该目标网站会很有多条第一结构化数据。因此,作为一种示例性的实施方式,在根据对应解析规则对对应文件进行解析时,为了避免数据丢失,在逐条解析出对应文件中的第一结构化数据后,可将解析出的第一结构化数据逐条存储到消息队列中。
其中,消息队列是可以基于自己研发的消息中间件所构建的,也可以是基于开源的kafka、rabbitmq、rocketmq等消息中间件所构建的,该实施例对此不作限定。
步骤102,将第一结构化数据写入目标文件,并将目标文件存储至分布式存储***,并保存第一结构化数据的第一存储位置。
其中,第一存储位置可以包括但不限于目标文件的文件标识、第一结构化数据在目标文件中的开始位置、大小等信息,例如,第一存储位置还可以包括目标文件在分布式存储***中的位置信息(比如目标文件存在分布式存储***中存储设备标识信息)。
其中,需要理解的是,对于具有海量数据的目标网站而言,在将该目标网站的第一结构化数据上传后,对应地,该目标网站会很有多条第一结构化数据。由于每个文件所存储的数量有限,作为一种示例性的实施方式,可通过多个子文件存储目标网站的多条第一结构化数据。
其中,每个子文件中保存目标网站的部分结构化数据。
具体而言,在检测到消息队列的结构化数据的数量达到预设数量阈值时,可以将消息队列中所缓存的结构化数据写入到对应的子文件中。
举例而言,目标网站为基于结构化数据框架的音乐类网站,假设该音乐类网站中包括300万条结构化数据,假设分布式存储***中的每个文件可存储30万条结构化数据。此时,需要10个文件保存该音乐类网站对应的结构化数据。
其中,需要理解的是,在分布式存储***中,由于文件的数目过多时,目录内的文件数会很多、目录层次也会变深,影响路径查找,一次路径名查找可能需要多次磁盘IO,因此,为了提高后续从分布式存储***中读取结构化数据的效率,进而提高搜索引擎收录网站更新的内容的效率,作为一种示例性的实施方式,在通过多个子文件存储目标网站的多条第一结构化数据后,可对多个子文件进行合并,以得到目标文件。对应地,将目标文件存储到分布式存储***中,并保存第一结构化的第一存储位置。
其中,需要理解的是,上述第一存储位置还可以包括但不限于目标文件的文件标识、子文件的文件标识以及子文件在目标文件的位置信息。
步骤103,在监控到第一结构化数据存储完毕时,针对目标网站,根据第一存储位置从分布式存储***中获取第一结构化数据。
步骤104,获取网页数据库中与目标网站对应的第二结构化数据,其中,第二结构化数据为网站站长上次提交的结构化数据。
步骤105,将第一结构化数据与第二结构化数据进行比较,并根据比较结果更新网页数据库中目标网站的第二结构化数据。
具体地,将第一结构化数据与第二结构化数据进行比较,以第一结构化数据与第二结构化数据之间的差异性数据,然后,根据差异性对网页数据库中的目标网站的第一结构化数据进行更新。
其中,差异性数据可以包括但不限于新增加的数据、删除的数据以及修改的数据。
新增加的数据可以包括新增加的至少一条结构化数据,还可以包括对于一条结构化数据而言,增加其对应的实体名称和实体属性信息。
删除的数据可以包括被删除的至少一条结构化数据,还可以包括对于一条结构化数据而言,删除该条结构化数据的部分实体名称和/或部分实体属性信息。
修改的数据是指对于上次提交以及本次条件中相同实体名称的结构化数据而言,本次提交的该实体名称的结构化数据与上次条件的该名称的结构化相比而言,该实体名称仅是对其对应的实体属性信息略有改变。
例如,对于一首歌曲A,假设上次提交时,该歌曲A的描述信息为文字1、文字2、……、文字10。在本次提交时,该歌曲A的描述信息为字1、文字2、……、文字10、文字11、……、文字20。通过比较可确定该歌曲A为修改的数据,需要在搜索引擎的网页数据库中将该歌曲A的描述信息中添加文字10之后,添加文字10、文字2、……、文字10。
作为一种示例性的实施方式,针对第一结构化数据和第二结构化数据,可从第一结构化数据和第二结构化数据确定出与上次提交的第一结构化数据而言,本次提交的目标网站的新结构化数据中所新增加的数据、删除的数据以及修改的数据。
其中,需要理解的是,对于目标网站而言,通常目标网站会有海量条结构化数据,针对每条结构化数据而言,如果本次提交以及上次提交的该条结构化数据的完全相同,即两次所提交的该条结构化数据的实体名称以及对应的实体属性信息均相同,则说明目标网站中该条结构化数据所对应的网站内容没有发生。
针对每条结构化数据而言,如果两次提交的该条结构化数据的实体名称相同,但是两次提交版本的实体属性信息存在差异,则获取与上次提交的结构化数据而言,修改的实体属性信息。
针对每条结构化数据而言,如果两次提交的该条结构化数据的实体名称不一致,则确定相对于上次提交的该结构化数据而言,新增加和/或删除的实体名称以及对应实体名称对应的实体属性信息。
其中,需要理解的是,对于两次提交的多条结构化数据,获取相对于上次提交所新增加的数据、删除的数据和/或修改的数据。
举例而言,假设目标网站为基于结构化数据框架的音乐类网站,假设一条结构化数据与一首歌曲对应,假设该音乐类网站中上次提交时提交了300万条结构化数据,而本次提交时提交了301万条结构化数据,其中,这301万条结构化数据,相对于上次提交的300万条结构化数据而言,网站站长从300万条结构化数据删除了1万条结构化数据,并增加了3万条结构化数据,因此,通过比较本次提交的结构化数据和上次提交的结构化数据,确定出本次提交的结构化数据和上次提交的结构化数据之间的差异性数据,并根据差异性数据对搜索引擎中的网页数据库中的结构化数据进行更新。
综上,本申请实施例的搜索引擎中网站数据的更新方法,接收网站站长本次提交的目标网站的结构化数据,通过文件形式在分布式存储***中保存目标网站的结构化数据,支持站点海量数据的引入,针对目标网站,并将本次提交的目标网站的结构化数据和上次提交的结构化数据进行比较,并根据比较结果更新网页数据库中目标网站的结构化数据。由此,提高了搜索引擎中引入网站的结构化数据的引入效率,并且提高了搜索引擎中收录网站的更新内容的效率,进而在后续用户通过搜索引擎进行搜索时,可提高搜索结果的准确性以及时效性。
基于上述实施例的基础上,通常搜索引擎中通常会对海量网站提供服务,在监控到第一结构化数据存储完毕时,为了可从保存多个网站的不同数据版本的分布式存储***中读取目标网站对应数据版本的结构化数据,因此,作为一种示例性的实施方式,针对目标网站,根据第一存储位置从分布式存储***中获取第一结构化数据之前,该方法还可以包括:根据数据版本信息数据库,获取目标网站的网站标识、本次提交的第一结构化数据的第一数据版本以及上次提交的第二结构化数据的第二数据版本,然后,根据网站标识和第一数据版本,确定第一结构化数据的第一存储位置,并根据网站标识和第二数据版本,确定网页数据库中与目标网站对应的第二存储位置。
其中,步骤104可以包括:根据第二存储位置,从网页数据库中获取与目标网站对应的第二结构化数据。
图2是根据本申请另一个实施例的搜索引擎中网站数据的更新方法的流程图。
如图2所示,该方法可以包括:
步骤201,接收网站站长本次提交的目标网站的第一结构化数据。
步骤202,获取本次提交的第一结构化数据的第一数据版本,并在数据版本信息数据库中保存第一数据版本与目标网站的网站标识的对应关系。
步骤203,将第一结构化数据写入目标文件,并将目标文件存储至分布式存储***,并保存第一结构化数据的第一存储位置。
步骤204,将第一数据版本、第一存储位置和网站标识之间的对应关系,存储到预设的数据版本、存储位置和网站标识之间的关系数据库。
步骤205,在监控到第一结构化数据存储完毕时,根据数据版本信息数据库,获取目标网站的网站标识、本次提交的第一结构化数据的第一数据版本以及上次提交的第二结构化数据的第二数据版本。
步骤206,根据网站标识、第一数据版本和该关系数据库,确定第一结构化数据的第一存储位置。
步骤207,根据网站标识和第二数据版本,确定网页数据库中与目标网站对应的第二存储位置。
步骤208,针对目标网站,根据第一存储位置从分布式存储***的目标文件中获取第一结构化数据。
步骤209,根据第二存储位置,从网页数据库中获取与目标网站对应的第二结构化数据,其中,第二结构化数据为网站站长上次提交的结构化数据。
步骤210,将第一结构化数据与第二结构化数据进行比较,并根据比较结果更新网页数据库中目标网站的第二结构化数据。
本申请实施例的搜索引擎中网站数据的更新方法,接收网站站长本次提交的目标网站的结构化数据,通过文件形式在分布式存储***中保存目标网站的结构化数据,支持站点海量数据的引入,针对目标网站,并将本次提交的目标网站的结构化数据和上次提交的结构化数据进行比较,并根据比较结果更新网页数据库中目标网站的第二结构化数据。由此,提高了搜索引擎中引入网站的结构化数据的引入效率,并且提高了搜索引擎中收录网站的更新内容的效率,进而在后续用户通过搜索引擎进行搜索时,可提高搜索结果的准确性以及时效性。
为了使得本领域的技术人员理解本申请实施例的搜索引擎中网站数据的更新方法,下面结合图3对该实施例的搜索引擎中网站数据的更新方法进行示例性描述,该实施例以网站站长以json文件格式的方式提交目标网站的结构化数据为例进行描述。
搜索引擎中网站数据的更新方法具体过程为:
1、数据的引入和存储
具体地,网站站长以json文件提交本次的目标网站的结构化数据。对应地,搜索引擎对json文件进行解析,并将数据逐条存储到消息队列。
其中,需要说明的是,消息队列的作用是缓存数据、防止数据丢失。
其中,在对json文件进行解析的过程中,可获知本次所提交的目标网站的结构化数据的数据版本,并将该目标网站的数据版本存储在数据版本信息数据库中。
其中,需要说明的是,站长每次提交的数据属于同一个数据版本。
数据的shuffle处理程序,负责从消息队列中订阅数据,并且将结构化数据积攒到一定数目后,以文件的形式记录到分布式存储***中,并且在meta数据库中保存结构化数据和文件的映射关系。此时,保存在分布式***的数据是全局有序的。
其中,需要说明的是,由于文件的数目过多,会对数据计算的性能造成一定的影响,因此,实现一个周期性的压缩compact程序来做文件的合并。
其中,数据的引入和存储的过程的示例图,如图3所示。
2.数据集齐判断
数据引入时,会将数据的基础信息,包括版本号、数据量保存到数据库中。并且数据的接手和shuffle程序在接受到完整数据,并且将数据存储到分布式文件***后,会给数据的比较模块下发比较命令。
3.数据的比较
首先从数据版本信息数据库中获取两个版本的基础信息,然后从网站标识(例如可以统一资源定位符URL作为网站标识)、结构化数据和文件的映射关系数据库中获取两个版本的存储的文件列表信息。然后,从分布式存储***中读取一定数量本次提交的结构化数据,以及从搜索引擎的网页数据库中获取一定数量目标网站的上次提交的结构化数据,比如每次获取5000个数据。这5000个数据都是全局有序的,然后,将两个版本对应的结构化数据进行比较,并根据比较结果获得新增、删除和/或修改的数据。对应地,根据新增、删除和/或修改的数据对搜索引擎的网页数据库的该目标网站的结构化数据进行更新。
其中,数据比较的具体过程的示例图,如图4所示。
其中,顺序比较本次提交版本和上次提交版本的目标网站的结构化数据的代码的示意如下所示:
为了实现上述实施例,本申请还提出一种搜索引擎中网站数据的更新装置。
图5是根据本申请一个实施例的搜索引擎中网站数据的更新装置的结构示意图。
其中,需要说明的是,该实施例的搜索引擎中网站数据的更新装置位于搜索引擎中,其中,搜索引擎可以包括但不限于分布式存储***和网页数据库。
如图5所示,该搜索引擎中网站数据的更新装置可以包括接收模块110、存储控制模块120、第一获取模块130、第二获取模块140和更新模块150,其中:
接收模块110,用于接收网站站长本次提交的目标网站的第一结构化数据。
存储控制模块120,用于将第一结构化数据写入目标文件,并将目标文件存储至分布式存储***,并保存第一结构化数据的第一存储位置。
第一获取模块130,用于在监控到第一结构化数据存储完毕时,针对目标网站,根据第一存储位置从分布式存储***的目标文件中获取第一结构化数据。
第二获取模块140,用于获取网页数据库中与目标网站对应的第二结构化数据,其中,第二结构化数据为网站站长上次提交的结构化数据。
更新模块150,用于将第一结构化数据与第二结构化数据进行比较,并根据比较结果更新网页数据库中目标网站的第二结构化数据。
其中,需要说明的是,前述对搜索引擎中网站数据的更新方法实施例的解释说明也适用于该实施例的搜索引擎中网站数据的更新装置,此处不再赘述。
本申请实施例的搜索引擎中网站数据的更新装置,接收网站站长本次提交的目标网站的结构化数据,通过文件形式在分布式存储***中保存目标网站的结构化数据,支持站点海量数据的引入,针对目标网站,并将本次提交的目标网站的结构化数据和上次提交的结构化数据进行比较,并根据比较结果更新网页数据库中目标网站的结构化数据。由此,提高了搜索引擎中引入网站的结构化数据的引入效率,并且提高了搜索引擎中收录网站的更新内容的效率,进而在后续用户通过搜索引擎进行搜索时,可提高搜索结果的准确性以及时效性。
在本申请的一个实施例中,更新模块150,具体用于:将第一结构化数据与第二结构化数据进行比较,以确定第一结构化数据与第二结构化数据之间的差异性数据;根据差异性对网页数据库中的目标网站的第一结构化数据进行更新。
其中,差异性数据可以包括但不限于新增加的数据、删除的数据以及修改的数据。
新增加的数据可以包括新增加的至少一条结构化数据,还可以包括对于一条结构化数据而言,增加其对应的实体名称和实体属性信息。
删除的数据可以包括被删除的至少一条结构化数据,还可以包括对于一条结构化数据而言,删除该条结构化数据的部分实体名称和/或部分实体属性信息。
修改的数据是指对于上次提交以及本次条件中相同实体名称的结构化数据而言,本次提交的该实体名称的结构化数据与上次条件的该名称的结构化相比而言,该实体名称仅是对其对应的实体属性信息略有改变。
在本申请的一个实施例中,存储控制模块120具体用于:通过多个子文件保存多条第一结构化数据;将多个子文件进行合并,得到目标文件。
在本申请的一个实施例中,在图5所示的装置实施例的基础上,如图6所示,该装置还可以包括:
第三获取模块160,用于根据数据版本信息数据库,获取目标网站的网站标识、本次提交的第一结构化数据的第一数据版本以及上次提交的第二结构化数据的第二数据版本;
第一确定模块170,根据网站标识和第一数据版本,确定第一结构化数据的第一存储位置;
第二确定模块180,用于根据网站标识和第二数据版本,确定网页数据库中与目标网站对应的第二存储位置;
其中,第二获取模块140,具体用于:根据第二存储位置,从网页数据库中获取与目标网站对应的第二结构化数据。
在本申请的一个实施例中,在图6所示的基础上,如图7所示,该装置还可以包括:
第四获取模块190,用于获取本次提交的第一结构化数据的第一数据版本,并在数据版本信息数据库中保存第一数据版本与目标网站的网站标识的对应关系.
存储模块200,用于将所述第一数据版本、所述第一存储位置和所述网站标识之间的对应关系,存储到预设的数据版本、存储位置和网站标识之间的关系数据库。
为了实现上述实施例,本申请还提出一种非临时性计算机可读存储介质,当存储介质中的指令由处理器被执行时,使得能够执行上述实施例示出的搜索引擎中网站数据的更新方法。
为了实现上述实施例,本申请还提出一种计算机程序产品,当计算机程序产品中的指令处理器执行时,执行上述实施例示出的搜索引擎中网站数据的更新方法。
图8是本申请实施例提供的执行搜索引擎中网站数据的更新方法的搜索引擎的硬件结构示意图,如图8所示,该搜索引擎包括:
一个或多个处理器810以及存储器820,图8中以一个处理器810为例。
该电子设备还可以包括:输入装置830和输出装置840。
处理器810、存储器820、输入装置830和输出装置840可以通过总线或者其他方式连接,图8中以通过总线连接为例。
存储器820作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块,如本申请实施例中的搜索引擎中网站数据的更新方法对应的程序指令/模块(例如,附图5所示的接收模块110、存储控制模块120、第一获取模块130、第二获取模块140和更新模块150)。处理器810通过运行存储在存储器820中的非暂态软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例中的搜索引擎中网站数据的更新方法。
存储器820可以包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需要的应用程序;存储数据区可存储根据搜索引擎中网站数据的更新装置的使用所创建的数据等。此外,存储器820可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中,存储器820可选包括相对于处理器810远程设置的存储器,这些远程存储器可以通过网络连接至搜索引擎中网站数据的更新装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置830可接收输入的数字或字符信息,以及产生与搜索引擎中网站数据的更新装置的用户设置以及功能控制有关的键信号输入。输出装置840可包括显示屏等显示设备。
一个或者多个模块存储在存储器820中,当被一个或者多个处理器810执行时,执行上述任意方法实施例中的搜索引擎中网站数据的更新方法。
上述产品可执行本申请实施例所提供的方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本申请实施例所提供的方法。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行***、装置或设备(如基于计算机的***、包括处理器的***或其他可以从指令执行***、装置或设备取指令并执行指令的***)使用,或结合这些指令执行***、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行***、装置或设备或结合这些指令执行***、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得程序,然后将其存储在计算机存储器中。
应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本申请各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (12)

1.一种搜索引擎中网站数据的更新方法,其特征在于,所述搜索引擎包括分布式存储***和网页数据库,所述方法包括:
接收网站站长本次提交的目标网站的第一结构化数据;
将所述第一结构化数据写入目标文件,并将所述目标文件存储至所述分布式存储***,并保存所述第一结构化数据的第一存储位置;
在监控到所述第一结构化数据存储完毕时,针对所述目标网站,根据所述第一存储位置从所述分布式存储***的所述目标文件中获取所述第一结构化数据;
获取所述网页数据库中与所述目标网站对应的第二结构化数据,其中,所述第二结构化数据为所述网站站长上次提交的结构化数据;
将所述第一结构化数据与所述第二结构化数据进行比较,并根据比较结果更新所述网页数据库中所述目标网站的所述第二结构化数据。
2.如权利要求1所述的方法,其特征在于,所述将所述第一结构化数据与所述第二结构化数据进行比较,并根据比较结果更新所述网页数据库中所述目标网站的所述第二结构化数据,包括:
将所述第一结构化数据与所述第二结构化数据进行比较,以确定所述第一结构化数据与所述第二结构化数据之间的差异性数据;
根据所述差异性对所述网页数据库中的所述目标网站的所述第一结构化数据进行更新。
3.如权利要求1所述的方法,其特征在于,所述第一结构化数据包括多条,所述将所述第一结构化数据写入目标文件,包括:
通过多个子文件保存多条所述第一结构化数据;
将多个所述子文件进行合并,得到所述目标文件。
4.如权利要求1所述的方法,其特征在于,针对所述目标网站,根据所述第一存储位置从所述分布式存储***的所述目标文件中获取所述第一结构化数据之前,还包括:
根据数据版本信息数据库,获取所述目标网站的网站标识、本次提交的所述第一结构化数据的第一数据版本以及上次提交的所述第二结构化数据的第二数据版本;
根据所述网站标识和所述第一数据版本,确定所述第一结构化数据的所述第一存储位置;
根据所述网站标识和所述第二数据版本,确定所述网页数据库中与所述目标网站对应的第二存储位置;
其中,所述获取所述网页数据库中与所述目标网站对应的第二结构化数据,包括:
根据第二存储位置,从所述网页数据库中获取与所述目标网站对应的第二结构化数据。
5.如权利要求4所述的方法,其特征在于,还包括:
获取本次提交的所述第一结构化数据的所述第一数据版本,并在数据版本信息数据库中保存所述第一数据版本与所述目标网站的网站标识的对应关系;
将所述第一数据版本、所述第一存储位置和所述网站标识之间的对应关系,存储到预设的数据版本、存储位置和网站标识之间的关系数据库。
6.一种搜索引擎中网站数据的更新装置,其特征在于,所述搜索引擎包括分布式存储***和网页数据库,所述装置包括:
接收模块,用于接收网站站长本次提交的目标网站的第一结构化数据;
存储控制模块,用于将所述第一结构化数据写入目标文件,并将所述目标文件存储至所述分布式存储***,并保存所述第一结构化数据的第一存储位置;
第一获取模块,用于在监控到所述第一结构化数据存储完毕时,针对所述目标网站,根据所述第一存储位置从所述分布式存储***的所述目标文件中获取所述第一结构化数据;
第二获取模块,用于获取所述网页数据库中与所述目标网站对应的第二结构化数据,其中,所述第二结构化数据为所述网站站长上次提交的结构化数据;
更新模块,用于将所述第一结构化数据与所述第二结构化数据进行比较,并根据比较结果更新所述网页数据库中所述目标网站的所述第二结构化数据。
7.如权利要求6所述的装置,其特征在于,所述更新模块,具体用于:
将所述第一结构化数据与所述第二结构化数据进行比较,以确定所述第一结构化数据与所述第二结构化数据之间的差异性数据;
根据所述差异性对所述网页数据库中的所述目标网站的所述第一结构化数据进行更新。
8.如权利要求6所述的装置,其特征在于,所述存储控制模块,具体用于:
通过多个子文件保存多条所述第一结构化数据;
将多个所述子文件进行合并,得到所述目标文件。
9.如权利要求6所述的装置,其特征在于,还包括:
第三获取模块,用于根据数据版本信息数据库,获取所述目标网站的网站标识、本次提交的所述第一结构化数据的第一数据版本以及上次提交的所述第二结构化数据的第二数据版本;
第一确定模块,根据所述网站标识和所述第一数据版本,确定所述第一结构化数据的所述第一存储位置;
第二确定模块,用于根据所述网站标识和所述第二数据版本,确定所述网页数据库中与所述目标网站对应的第二存储位置;
其中,所述第二获取模块,具体用于:
根据第二存储位置,从所述网页数据库中获取与所述目标网站对应的第二结构化数据。
10.如权利要求9所述的装置,其特征在于,还包括:
第四获取模块,用于获取本次提交的所述第一结构化数据的所述第一数据版本,并在数据版本信息数据库中保存所述第一数据版本与所述目标网站的网站标识的对应关系;
存储模块,用于将所述第一数据版本、所述第一存储位置和所述网站标识之间的对应关系,存储到预设的数据版本、存储位置和网站标识之间的关系数据库。
11.一种搜索引擎,其特征在于,包括处理器和存储器;
其中,所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序,以用于实现如权利要求1-5中任一所述的搜索引擎中网站数据的更新方法。
12.一种非临时性计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-5中任一所述的搜索引擎中网站数据的更新方法。
CN201811350507.4A 2018-11-14 2018-11-14 搜索引擎中网站数据的更新方法、装置和搜索引擎 Active CN109299352B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811350507.4A CN109299352B (zh) 2018-11-14 2018-11-14 搜索引擎中网站数据的更新方法、装置和搜索引擎

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811350507.4A CN109299352B (zh) 2018-11-14 2018-11-14 搜索引擎中网站数据的更新方法、装置和搜索引擎

Publications (2)

Publication Number Publication Date
CN109299352A true CN109299352A (zh) 2019-02-01
CN109299352B CN109299352B (zh) 2022-02-01

Family

ID=65146740

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811350507.4A Active CN109299352B (zh) 2018-11-14 2018-11-14 搜索引擎中网站数据的更新方法、装置和搜索引擎

Country Status (1)

Country Link
CN (1) CN109299352B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110502673A (zh) * 2019-06-12 2019-11-26 广州虎牙科技有限公司 数据处理方法、服务器、以及具有存储功能的装置
CN111367692A (zh) * 2020-03-09 2020-07-03 政采云有限公司 一种搜索引擎数据处理方法、装置、电子设备及介质
CN113326417A (zh) * 2021-06-17 2021-08-31 北京百度网讯科技有限公司 用于更新网页库的方法和装置
CN114625950A (zh) * 2022-03-18 2022-06-14 北京字节跳动网络技术有限公司 网站搜索引擎优化处理方法、装置、电子设备和存储介质

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1997976A (zh) * 2002-02-07 2007-07-11 Sap股份公司 多模态同步结构中的用户接口和动态语法
CN101617336A (zh) * 2007-02-13 2009-12-30 微软公司 使用结构化数据管理网页链接
CN102073726A (zh) * 2011-01-11 2011-05-25 百度在线网络技术(北京)有限公司 搜索引擎***及该搜索引擎***的结构化数据引入方法
CN102571355A (zh) * 2012-02-02 2012-07-11 飞天诚信科技股份有限公司 一种不落地导入密钥的方法及装置
CN103365961A (zh) * 2013-06-19 2013-10-23 北京时间中国网科技有限公司 一种面向精准搜索的网站结构化标注方法和***
CN103714078A (zh) * 2012-09-29 2014-04-09 百度在线网络技术(北京)有限公司 网页更新内容的提供方法、***及装置
US20150026304A1 (en) * 2013-07-17 2015-01-22 Go Daddy Operating Company, LLC System for maintaining common data across multiple platforms
CN105630843A (zh) * 2014-11-17 2016-06-01 广州市动景计算机科技有限公司 网页变化监控方法及装置
CN105912609A (zh) * 2016-04-06 2016-08-31 中国农业银行股份有限公司 一种数据文件处理方法和装置
CN106469152A (zh) * 2015-08-14 2017-03-01 阿里巴巴集团控股有限公司 一种基于etl的文件处理方法及***
US20170109400A1 (en) * 2015-10-19 2017-04-20 Ebay Inc. Comparison and visualization system
CN106919405A (zh) * 2015-12-24 2017-07-04 阿里巴巴集团控股有限公司 一种客户端的初始化方法及装置
CN106937275A (zh) * 2017-02-13 2017-07-07 深圳盈达信息科技有限公司 一种在安卓***下保存***唯一标识及硬件id的设备

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1997976A (zh) * 2002-02-07 2007-07-11 Sap股份公司 多模态同步结构中的用户接口和动态语法
CN101617336A (zh) * 2007-02-13 2009-12-30 微软公司 使用结构化数据管理网页链接
CN102073726A (zh) * 2011-01-11 2011-05-25 百度在线网络技术(北京)有限公司 搜索引擎***及该搜索引擎***的结构化数据引入方法
CN102571355A (zh) * 2012-02-02 2012-07-11 飞天诚信科技股份有限公司 一种不落地导入密钥的方法及装置
CN103714078A (zh) * 2012-09-29 2014-04-09 百度在线网络技术(北京)有限公司 网页更新内容的提供方法、***及装置
CN103365961A (zh) * 2013-06-19 2013-10-23 北京时间中国网科技有限公司 一种面向精准搜索的网站结构化标注方法和***
US20150026304A1 (en) * 2013-07-17 2015-01-22 Go Daddy Operating Company, LLC System for maintaining common data across multiple platforms
CN105630843A (zh) * 2014-11-17 2016-06-01 广州市动景计算机科技有限公司 网页变化监控方法及装置
CN106469152A (zh) * 2015-08-14 2017-03-01 阿里巴巴集团控股有限公司 一种基于etl的文件处理方法及***
US20170109400A1 (en) * 2015-10-19 2017-04-20 Ebay Inc. Comparison and visualization system
CN106919405A (zh) * 2015-12-24 2017-07-04 阿里巴巴集团控股有限公司 一种客户端的初始化方法及装置
CN105912609A (zh) * 2016-04-06 2016-08-31 中国农业银行股份有限公司 一种数据文件处理方法和装置
CN106937275A (zh) * 2017-02-13 2017-07-07 深圳盈达信息科技有限公司 一种在安卓***下保存***唯一标识及硬件id的设备

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110502673A (zh) * 2019-06-12 2019-11-26 广州虎牙科技有限公司 数据处理方法、服务器、以及具有存储功能的装置
CN111367692A (zh) * 2020-03-09 2020-07-03 政采云有限公司 一种搜索引擎数据处理方法、装置、电子设备及介质
CN111367692B (zh) * 2020-03-09 2023-08-22 政采云有限公司 一种搜索引擎数据处理方法、装置、电子设备及介质
CN113326417A (zh) * 2021-06-17 2021-08-31 北京百度网讯科技有限公司 用于更新网页库的方法和装置
CN113326417B (zh) * 2021-06-17 2023-08-01 北京百度网讯科技有限公司 用于更新网页库的方法和装置
CN114625950A (zh) * 2022-03-18 2022-06-14 北京字节跳动网络技术有限公司 网站搜索引擎优化处理方法、装置、电子设备和存储介质

Also Published As

Publication number Publication date
CN109299352B (zh) 2022-02-01

Similar Documents

Publication Publication Date Title
CN109299352A (zh) 搜索引擎中网站数据的更新方法、装置和搜索引擎
JP4189416B2 (ja) 構造化文書管理システム及びプログラム
CN107562600B (zh) 页面检测方法、装置、计算设备以及存储介质
CN104391725A (zh) 页面展示方法和页面展示装置
CN106970958B (zh) 一种流文件的查询与存储方法和装置
JP5147947B2 (ja) クエリ別検索コレクション生成方法およびシステム
CN113568995B (zh) 基于检索条件的动态瓦片地图制作方法及瓦片地图***
US20090019364A1 (en) Method and apparatus for generating electronic content guide
CN103608809A (zh) 推荐数据富集
CN110245069A (zh) 页面版本的测试方法和装置、页面的展示方法和装置
CN107526828B (zh) 页面信息推荐方法和装置
CN113177168B (zh) 一种基于Web元素属性特征的定位方法
CN106156164A (zh) 资源信息处理方法和装置
CN104462590A (zh) 信息搜索方法及装置
CN104462532A (zh) 网页正文提取的方法和装置
CN103488633A (zh) 网络电子地图信息处理方法
US20020035643A1 (en) Search support device and method, and recording medium storing program for computer to carry out operation with said search support device
CN105183829A (zh) 一种图片分类方法和装置
CN110502472A (zh) 一种大量小文件的云存储优化方法及其***
JP5063877B2 (ja) 情報処理装置およびコンピュータプログラム
CN114021042A (zh) 网页内容的提取方法、装置、计算机设备和存储介质
CN101593187A (zh) 用于管理书签的方法和***
US8645381B2 (en) Document taxonomy generation from tag data using user groupings of tags
CN111984600B (zh) 一种文件聚合方法、装置、设备及可读存储介质
JPWO2005006192A1 (ja) 構造化文書処理方法及び装置並びに記憶媒体

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant