具体实施方式
下面结合附图对本发明作进一步详细描述。
图1为根据本发明一个方面的设备示意图,示出用于基于站点检测多个资源链接的状态的检测设备。其中,检测设备1包括获取装置11、选择装置12和检测装置13。具体地,获取装置11获取一个或多个链接站点,其中,每个链接站点包括从属于所述链接站点的一个或多个资源链接;接着,选择装置12从所述一个或多个链接站点中,选择待检测站点;随后,检测装置13根据所述待检测站点所含资源链接的相关信息,检测所述待检测站点的一个或多个资源链接的状态。
更具体地,获取装置11获取一个或多个链接站点,其中,每个链接站点包括从属于所述链接站点的一个或多个资源链接。具体地,获取装置11从诸如其自身装置、检测设备1的其他装置、搜索引擎索引信息库、或者其他第三方设备处获取一个或多个链接站点,其中,每个链接站点包括从属于所述链接站点的一个或多个资源链接。例如,获取装置11通过约定的通信方式向搜索引擎的应用程序接口(API)发送获取链接站点的请求,并接收该搜索引擎返回的基于该请求在索引信息库中查询获得的链接站点,其中,该链接站点包括一个或多个资源链接。又如,获取装置11通过“网络蜘蛛(spider)”、“网络爬虫(crawler)”或者“机器人(robot)”等网页抓取工具从网络中抓取多个资源链接,并从这些资源链接的相应字段提取资源链接所属的站点,并按站点排列这些资源链接,以获得一个或多个链接站点,其中,每个链接站点包括一个或多个资源链接。本领域技术人员应能理解上述获取链接站点的方式以及网页抓取工具仅为举例,其他现有的或今后可能出现的获取链接站点的方式或者网页抓取工具如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
接着,选择装置12从所述一个或多个链接站点中,选择待检测站点。具体地,选择装置12根据获取装置11获取的一个或多个链接站点,从这(些)链接站点中,选择待检测站点。例如,假设获取装置11仅获取一个链接站点,则该链接站点为待检测站点;当获取装置11获取多个链接站点时,根据站点检测周期,确定当前可以检测的站点,再从这些站点中,选择上次检测时间最早的站点作为待检测站点。本领域技术人员应能理解上述选择待检测站点的方式仅为举例,其他现有的或今后可能出现的选择待检测站点的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
随后,检测装置13根据所述待检测站点所含资源链接的相关信息,检测所述待检测站点的一个或多个资源链接的状态。具体地,检测装置13按照诸如随机检测、顺序检测或者按特定顺序检测等方式,根据选择装置12选择的待检测站点中所包括的资源链接的相关信息,诸如URL链表、URL列表或者URL队列等,检测该待检测站点的一个或多个资源链接的状态,例如通过发送访问请求检测某个资源链接是否可以访问。例如,选择装置12选定待检测站点,检测装置13按照该待检测站点的URL链表顺序检测该待检测站点的资源链接是否可以访问,当检测装置13向该资源链接所属的站点发送访问请求,该站点的返回码是200,则认为该资源链接是可以访问的。本领域技术人员应能理解上述检测顺序、资源链接的相关信息以及检测资源链接的状态的方式仅为举例,其他现有的或今后可能出现的检测顺序、资源链接的相关信息或者检测资源链接的状态的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
优选地,获取装置11、选择装置12和检测装置13是持续不断工作的。具体地,获取装置11获取一个或多个链接站点,其中,每个链接站点包括从属于所述链接站点的一个或多个资源链接;接着,选择装置12从所述一个或多个链接站点中,选择待检测站点;随后,检测装置13根据所述待检测站点所含资源链接的相关信息,检测所述待检测站点的一个或多个资源链接的状态。在此,本领域技术人员应理解“持续”是指获取装置11、选择装置12和检测装置13分别按照设定的或实时调整的工作模式要求进行链接站点的获取、待检测站点的选择及资源链接的状态的检测,直至检测设备1在较长时间内停止获取包括一个或多个资源链接的链接站点。
在一个优选实施例中(参照图1),获取装置11还由一个或多个资源链接获取其所属的所述一个或多个链接站点。具体地,获取装置11根据一个或多个资源链接,通过如从这(些)资源链接的相关字段识别域名后缀等方式,获取这(些)资源链接所属的一个或多个链接站点。例如,获取装置11按照约定的通信方式向搜索引擎发送资源链接获取请求,接收该搜索引擎基于该获取请求返回的多个资源链接,根据预设域名后缀库,对这些资源链接做匹配查询,从这些链接的相关字段识别出相应的域名后缀,从而获得这些资源链接所属的一个或多个链接站点。又如,假设第三方设备存储有资源链接,获取装置11按照约定的通信方式,如Http通信协议,向该第三方设备发送资源链接获取请求,接收该第三方设备响应该获取请求返回的资源链接,如“http://www.***.com/m/a.mp3”,“http://www.***.com/m/b.mp3”,找到这些资源链接的协议字段“http://”,以及路径字段“/m/”,即获得这些资源链接所属的链接站点“www.***.com”。本领域技术人员应能理解上述获取资源链接所属站点的方式仅为举例,其他现有的或今后可能出现的获取资源链接所属站点的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
优选地,获取装置11还从网络中获取所述一个或多个资源链接。具体地,获取装置11通过“网络蜘蛛(spider)”、“网络爬虫(crawler)”或者“机器人(robot)”等网页抓取工具,从网络中直接抓取一个或多个资源链接,根据这(些)资源链接,获得相应的一个或多个链接站点。例如,获取装置11从网络中爬取资源链接,从这些资源链接的相关字段中提取其所属的链接站点,从而获得相应的一个或多个链接站点。
在另一个优选实施例中(参照图1),检测装置13中的检测操作的顺序包括但不限于,以下至少任一项:
1)随机检测所述待检测站点的一个或多个资源链接的状态;
2)按照所述待检测站点所含资源链接的相关信息,来顺序检测所述待检测站点的一个或多个资源链接的状态;
3)按照所述待检测站点所含资源链接的相关信息,以特定顺序检测所述待检测站点的一个或多个资源链接的状态。
在此,选择装置12选定待检测站点后,检测装置13根据该待检测站点中包括的资源链接,可以随机对这些资源链接进行状态检测;也可以按照这些资源链接的相关信息,如URL链表,顺序进行状态检测;还可以根据这些资源链接的相关信息,如URL链表,按照特定顺序进行状态检测,如先检测最新抓取的资源链接的状态,再检测历史抓取的资源链接的状态。
优选地,所述按照特定顺序检测资源链接的步骤包括:
i)首先检测所述待检测站点中从未检测过的资源链接中最先获取的第一资源链接和所述第一资源链接的后续资源链接;
ii)然后检测所述待检测站点中上次检测到的第二资源链接和上次未检测到的所述第二资源链接的后续资源链接;
iii)最后检测所述待检测站点中最先获取的第三资源链接和所述第三资源链接的后续资源链接。
具体地,根据待检测站点中资源链接的相关信息,将该待检测站点中最先获取的第三资源链接标记为A,将该待检测站点中上次检测时最后检测到的第二资源链接标记为B,将该待检测站点中从未检测到的资源链接中最早获取的第一资源链接标记为C,检测装置13首先检测C及该资源链接的相关信息中C以后的资源链接,接着检测B及该资源链接的相关信息中B以后的资源链接,最后检测A及该资源链接的相关信息中A以后的资源链接。例如,假设待检测站点中资源链接的相关信息为URL链表,并且检测装置13每次检测时,均需检测待检测站点中的全部资源链接,则C及C以后的资源链接即为上次检测后新添加入该URL链表中的资源链接,B即为上次检测时最后检测到的该URL链表中的资源链接,B以后的资源链接即为C,A及A以后的资源链接即为该URL链表中的最早的资源链接和该URL链表中A至B之间的资源链接。又如,假设待检测站点中资源链接的相关信息仍为URL链表,而检测装置13按照预定的检测时间或者预定的检测资源链接的数量对该URL链接进行检测,此时C及C以后的资源链接仍对应该URL链表中上次检测后新添加的资源链接,B仍对应上次检测该URL链表时最后检测到的资源链接,B以后的资源链接对应该URL链表中B至C之间的资源链接,A及A以后的资源链接仍对应该URL链表中的最早的资源链接和该URL链表中A至B之间的资源链接;由于检测时间或者检测资源链接的数量的限制,当URL链表中的资源链接数量过多时,检测装置13按照该URL链表进行一次检测,无法完全检测B至C之间和A至B之间的全部资源链接,可能在检测到A至B之间的某个资源链接,甚至是B至C之间的某个资源链接时,本次检测即结束,此时,最后检测到的资源链接即为下次检测时的B。
更优选地,检测设备1还包括更新装置(未示出),该更新装置根据所述一个或多个资源链接的状态,更新所述待检测站点所含资源链接的相关信息。具体地,更新装置根据检测装置13检测到的待检测站点中的一个或多个资源链接的状态,更新该待检测站点的资源链接的相关信息。例如,检测装置13检测到的待检测站点中多个资源链接的状态为不可访问,据此,更新装置将该待检测站点的URL链表中相应的资源链接删除;或者标记为不可访问,以待这些资源链接恢复可访问状态时进行变更。本领域技术人员应能理解上述更新资源链接的相关信息的方式仅为举例,其他现有的或今后可能出现的更新资源链接的相关信息的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
图2为根据本发明一个优选实施例的设备示意图,示出用于基于站点检测多个资源链接的状态的检测设备。其中,选择装置12’还包括确定单元121’和选择单元122’。具体地,确定单元121’从所述一个或多个链接站点中确定当前可检测站点;选择单元122’由所述当前可检测站点中选择所述待检测站点。
更具体地,确定单元121’从获取装置11获取的一个或多个链接站点中,根据诸如站点访问压力、站点更新时间、或者站点流量等确定当前可检测站点;随后,选择单元122’由确定单元121’确定的当前可检测站点中,根据诸如站点优先级、站点产生时间等,选择待检测站点。例如,获取装置11获取多个链接站点,确定单元121’根据站点访问压力,从这些链接站点中确定当前可以频繁访问的链接站点作为当前可检测站点,选择单元122’再根据这些当前可检测站点的产生时间,选择产生时间最早的作为待检测站点。本领域技术人员应能理解上述确定当前可检测站点的方式以及选择待检测站点的方式仅为举例,其他现有的或今后可能出现的确定当前可检测站点的方式或者选择待检测站点的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
优选地,选择单元122’还根据所述当前可检测站点的站点相关特性,确定所述当前可检测站点的优先级;根据所述当前可检测站点的优先级,确定所述待检测站点。具体地,选择单元122’根据确定单元121’确定的当前可检测站点的站点相关特性,诸如上次检测时间、流量、更新时间等,确定这些当前可检测站点的优先级,并根据该优先级,确定待检测站点。例如,选择单元122’根据当前可检测站点的上次检测时间,确定这些当前可检测站点的优先级,如上次检测时间越早的,优先级越高,再根据该优先级,从这些当前可检测站点中选择上次检测时间最早的作为待检测站点。
更优选地,所述站点相关特性包括但不限于,以下至少任一项:
1)所述当前可检测站点的上次检测时间;
2)所述当前可检测站点的流量;
3)所述当前可检测站点的链接数量;
4)所述当前可检测站点的更新时间;
5)所述当前可检测站点的资源量。
具体地,当前可检测站点的上次检测时间越早,其优先级越高,也即更应该尽早对相应的当前可检测站点进行检测,以防止在两次检测的间隔时间内,该当前可检测站点的访问状态发生变化,从而影响该站点中的资源链接提供给用户时的用户使用体验。当前可检测站点的流量越大,说明其用户访问量越大,相应的不能访问的可能性也越小,故当前可检测站点的流量越小,其优先级越高。当前可检测站点的链接数量越多表明该当前可检测站点的内部链接之间,以及该当前可检测站点的内部链接和该当前可检测站点的外部链接之间的关系越密切,该当前可检测站点对用户的影响也越大,相应的优先级也越高。当前可检测站点的更新时间越近,说明其越活跃,相应的不能访问的可能性也越低,故当前可检测站点的更新时间越早的,其优先级越高。当前可检测站点的资源量越多,表明该当前可检测站点的内容越丰富,相应的用户需求量也越高,故其优先级也越高。本领域技术人员应能理解,上述站点相关特性不仅能够单独用来确定当前可检测站点的优先级,还可以相互结合用以确定当前可检测站点的优先级。本领域技术人员还应能理解上述站点相关特性仅为举例,其他现有的或今后可能出现的站点相关特性如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
优选地,所述当前可检测站点基于但不限于,以下至少任一项来确定:
1)所述链接站点的访问压力;
2)所述链接站点是否包括从未检测的资源链接;
3)所述链接站点的预设检测周期。
具体地,链接站点的访问压力指链接站点当前能够接受的访问频率,如果链接站点中的需要检测的资源链接较多,其相应的访问压力也较大,故需要根据链接站点的访问压力来确定该链接站点是否为当前可检测站点。由于网络中链接站点的数量巨大,而链接站点中如果包括从未检测的资源链接,那么将该链接站点中的资源链接提供给用户时,其是否可访问的不确定性更大,故需要将包括从未检测的资源链接的链接站点作为当前可检测站点。对链接站点设定检测周期,按照预设检测周期确定当前可检测站点,可以提高对链接站点的状态的检测效率,并且可以进一步将链接站点分组,对不同的分组采用不同的预设检测周期,使得对链接站点的状态检测全面、高效,从而能够更好的为用户提供高质量的搜索结果。本领域技术人员应能理解上述确定当前可检测站点的因素仅为举例,其他现有的或今后可能出现的确定当前可检测站点的因素如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
在一个优选实施例中(参照图1),检测设备1还包括第一降频装置(未示出),该第一降频装置当一个资源链接的状态连续被检测为可访问状态的次数超过第一预定阈值时,降低对该资源链接的检测频率。具体地,对资源链接被连续检测为可访问状态的次数设定第一预定阈值,第一降频装置当一个资源链接的状态连续被检测为可访问状态的次数超过该第一预定阈值时,降低该资源链接的检测频率。例如,假设第一预定阈值为5次,当一个资源链接被连续5次被检测为可访问状态时,第一降频装置降低对该资源的检测频率,如从每次检测该资源链接所属的链接站点时检测该资源链接,降低至每两次检测该资源链接所属的链接站点时检测该资源链接。
优选地,检测设备1还包括第二降频装置(未示出),该第二降频装置当从属于同一站点的检测频率低于第二预定阈值的资源链接的个数超过第三预定阈值时,降低对所述站点的站点检测频率。具体地,对资源链接的检测频率设定第二预定阈值,对同一站点中检测频率低于第二预定阈值的资源链接的个数设定第三预定阈值,第二降频装置当从属于同一站点的检测频率低于该第二预定阈值的资源链接的个数超过该第三预定阈值时,降低对该站点的站点检测频率。例如,记录同一站点中资源链接的检测频率,以及该站点中检测频率低于第二预定阈值的资源链接的个数,当该个数超过第三预定阈值时,第二降频装置降低对该站点的站点检测频率。
本领域技术人员还应能理解,上述第一降频装置与第二降频装置仅为示例,在实践中,第一降频装置与第二降频装置可以是两个独立的模块,也可以集成在一起。
图3为根据本发明另一个方面的方法流程图,示出用于基于站点检测多个资源链接的状态的过程。具体地,在步骤S1中,检测设备1获取一个或多个链接站点,其中,每个链接站点包括从属于所述链接站点的一个或多个资源链接;接着,在步骤S2中,检测设备1从所述一个或多个链接站点中,选择待检测站点;随后,在步骤S3中,检测设备1根据所述待检测站点所含资源链接的相关信息,检测所述待检测站点的一个或多个资源链接的状态。
更具体地,在步骤S1中,检测设备1获取一个或多个链接站点,其中,每个链接站点包括从属于所述链接站点的一个或多个资源链接。具体地,在步骤S1中,检测设备1从诸如其自身装置、搜索引擎索引信息库、或者其他第三方设备处获取一个或多个链接站点,其中,每个链接站点包括从属于所述链接站点的一个或多个资源链接。例如,检测设备1通过约定的通信方式向搜索引擎的应用程序接口(API)发送获取链接站点的请求,并接收该搜索引擎返回的基于该请求在索引信息库中查询获得的链接站点,其中,该链接站点包括一个或多个资源链接。又如,检测设备1通过“网络蜘蛛(spider)”、“网络爬虫(crawler)”或者“机器人(robot)”等网页抓取工具从网络中抓取多个资源链接,并从这些资源链接的相应字段提取资源链接所属的站点,并按站点排列这些资源链接,以获得一个或多个链接站点,其中,每个链接站点包括一个或多个资源链接。本领域技术人员应能理解上述获取链接站点的方式以及网页抓取工具仅为举例,其他现有的或今后可能出现的获取链接站点的方式或者网页抓取工具如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
接着,在步骤S2中,检测设备1从所述一个或多个链接站点中,选择待检测站点。具体地,在步骤S1中,检测设备1根据其在步骤S1中获取的一个或多个链接站点,从这(些)链接站点中,选择待检测站点。例如,假设在步骤S1中,检测设备1仅获取一个链接站点,则该链接站点为待检测站点;当获取多个链接站点时,在步骤S2中,检测设备1根据站点检测周期,确定当前可以检测的站点,再从这些站点中,选择上次检测时间最早的站点作为待检测站点。本领域技术人员应能理解上述选择待检测站点的方式仅为举例,其他现有的或今后可能出现的选择待检测站点的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
随后,在步骤S3中,检测设备1根据所述待检测站点所含资源链接的相关信息,检测所述待检测站点的一个或多个资源链接的状态。具体地,在步骤S3中,检测设备1按照诸如随机检测、顺序检测或者按特定顺序检测等方式,根据其在步骤S2中选择的待检测站点中所包括的资源链接的相关信息,诸如URL链表、URL列表或者URL队列等,检测该待检测站点的一个或多个资源链接的状态,例如通过发送访问请求检测某个资源链接是否可以访问。例如,在步骤S2中,检测设备1选定待检测站点;在步骤S3中,检测设备1按照该待检测站点的URL链表顺序检测该待检测站点的资源链接是否可以访问,当检测设备1向该资源链接所属的站点发送访问请求,该站点的返回码是200,则认为该资源链接是可以访问的。本领域技术人员应能理解上述检测顺序、资源链接的相关信息以及检测资源链接的状态的方式仅为举例,其他现有的或今后可能出现的检测顺序、资源链接的相关信息或者检测资源链接的状态的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
优选地,步骤S1、步骤S2和步骤S3是持续不断工作的。具体地,在步骤S1中,检测设备1获取一个或多个链接站点,其中,每个链接站点包括从属于所述链接站点的一个或多个资源链接;接着,在步骤S1中,检测设备1从所述一个或多个链接站点中,选择待检测站点;随后,在步骤S1中,检测设备1根据所述待检测站点所含资源链接的相关信息,检测所述待检测站点的一个或多个资源链接的状态。在此,本领域技术人员应理解“持续”是指检测设备1在步骤S1、步骤S2和步骤S3分别按照设定的或实时调整的工作模式要求进行链接站点的获取、待检测站点的选择及资源链接的状态的检测,直至检测设备1在较长时间内停止获取包括一个或多个资源链接的链接站点。
在一个优选实施例中(参照图3),在步骤S1中,检测设备1还由一个或多个资源链接获取其所属的所述一个或多个链接站点。具体地,在步骤S1中,检测设备1根据一个或多个资源链接,通过如从这(些)资源链接的相关字段识别域名后缀等方式,获取这(些)资源链接所属的一个或多个链接站点。例如,在步骤S1中,检测设备1按照约定的通信方式向搜索引擎发送资源链接获取请求,接收该搜索引擎基于该获取请求返回的多个资源链接,根据预设域名后缀库,对这些资源链接做匹配查询,从这些链接的相关字段识别出相应的域名后缀,从而获得这些资源链接所属的一个或多个链接站点。又如,假设第三方设备存储有资源链接,检测设备1按照约定的通信方式,如Http通信协议,向该第三方设备发送资源链接获取请求,接收该第三方设备响应该获取请求返回的资源链接,如“http://www.***.com/m/a.mp3”,“http://www.***.com/m/b.mp3”,找到这些资源链接的协议字段“http://”,以及路径字段“/m/”,即获得这些资源链接所属的链接站点“www.***.com”。本领域技术人员应能理解上述获取资源链接所属站点的方式仅为举例,其他现有的或今后可能出现的获取资源链接所属站点的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
优选地,在步骤S1中,检测设备1还从网络中获取所述一个或多个资源链接。具体地,在步骤S1中,检测设备1通过“网络蜘蛛(spider)”、“网络爬虫(crawler)”或者“机器人(robot)”等网页抓取工具,从网络中直接抓取一个或多个资源链接,根据这(些)资源链接,获得相应的一个或多个链接站点。例如,获取装置11从网络中爬取资源链接,从这些资源链接的相关字段中提取其所属的链接站点,从而获得相应的一个或多个链接站点。
在另一个优选实施例中(参照图3),在步骤S3中,检测设备1中的检测操作的顺序包括但不限于,以下至少任一项:
1)随机检测所述待检测站点的一个或多个资源链接的状态;
2)按照所述待检测站点所含资源链接的相关信息,来顺序检测所述待检测站点的一个或多个资源链接的状态;
3)按照所述待检测站点所含资源链接的相关信息,以特定顺序检测所述待检测站点的一个或多个资源链接的状态。
在此,在步骤S2检测设备1选定待检测站点后,在步骤S3中,检测设备1根据该待检测站点中包括的资源链接,可以随机对这些资源链接进行状态检测;也可以按照这些资源链接的相关信息,如URL链表,顺序进行状态检测;还可以根据这些资源链接的相关信息,如URL链表,按照特定顺序进行状态检测,如先检测最新抓取的资源链接的状态,再检测历史抓取的资源链接的状态。
优选地,所述按照特定顺序检测资源链接的步骤包括:
i)首先检测所述待检测站点中从未检测过的资源链接中最先获取的第一资源链接和所述第一资源链接的后续资源链接;
ii)然后检测所述待检测站点中上次检测到的第二资源链接和上次未检测到的所述第二资源链接的后续资源链接;
iii)最后检测所述待检测站点中最先获取的第三资源链接和所述第三资源链接的后续资源链接。
具体地,根据待检测站点中资源链接的相关信息,将该待检测站点中最先获取的第三资源链接标记为A,将该待检测站点中上次检测时最后检测到的第二资源链接标记为B,将该待检测站点中从未检测到的资源链接中最早获取的第一资源链接标记为C,检测设备1首先检测C及该资源链接的相关信息中C以后的资源链接,接着检测B及该资源链接的相关信息中B以后的资源链接,最后检测A及该资源链接的相关信息中A以后的资源链接。例如,假设待检测站点中资源链接的相关信息为URL链表,并且检测设备1每次检测时,均需检测待检测站点中的全部资源链接,则C及C以后的资源链接即为上次检测后新添加入该URL链表中的资源链接,B即为上次检测时最后检测到的该URL链表中的资源链接,B以后的资源链接即为C,A及A以后的资源链接即为该URL链表中的最早的资源链接和该URL链表中A至B之间的资源链接。又如,假设待检测站点中资源链接的相关信息仍为URL链表,而检测设备1按照预定的检测时间或者预定的检测资源链接的数量对该URL链接进行检测,此时C及C以后的资源链接仍对应该URL链表中上次检测后新添加的资源链接,B仍对应上次检测该URL链表时最后检测到的资源链接,B以后的资源链接对应该URL链表中B至C之间的资源链接,A及A以后的资源链接仍对应该URL链表中的最早的资源链接和该URL链表中A至B之间的资源链接;由于检测时间或者检测资源链接的数量的限制,当URL链表中的资源链接数量过多时,检测设备1按照该URL链表进行一次检测,无法完全检测B至C之间和A至B之间的全部资源链接,可能在检测到A至B之间的某个资源链接,甚至是B至C之间的某个资源链接时,本次检测即结束,此时,最后检测到的资源链接即为下次检测时的B。
更优选地,该过程还包括步骤S4(未示出),在步骤S4中,检测设备1根据所述一个或多个资源链接的状态,更新所述待检测站点所含资源链接的相关信息。具体地,在步骤S1中,检测设备1根据其在步骤S3中检测到的待检测站点中的一个或多个资源链接的状态,更新该待检测站点的资源链接的相关信息。例如,在步骤S3中,检测设备1检测到的待检测站点中多个资源链接的状态为不可访问,据此,在步骤S4中,检测设备1将该待检测站点的URL链表中相应的资源链接删除;或者标记为不可访问,以待这些资源链接恢复可访问状态时进行变更。本领域技术人员应能理解上述更新资源链接的相关信息的方式仅为举例,其他现有的或今后可能出现的更新资源链接的相关信息的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
图4示出根据本发明一个优选实施例的用于基于站点检测多个资源链接的状态的方法流程图。其中,步骤S2’还包括步骤S21’和步骤S22’。具体地,在步骤S21’中,检测设备1从所述一个或多个链接站点中确定当前可检测站点;在步骤S22’中,检测设备1由所述当前可检测站点中选择所述待检测站点。
图4中步骤S1’和步骤S3’的内容与图3中步骤S1和步骤S3的内容相同,为简明起见,不再赘述,以引用方式包含于此。
更具体地,在步骤S21’中,检测设备1从其获取的一个或多个链接站点中,根据诸如站点访问压力、站点更新时间、或者站点流量等确定当前可检测站点;随后,在步骤S22’中,检测设备1由其在步骤S21’确定的当前可检测站点中,根据诸如站点优先级、站点产生时间等,选择待检测站点。例如,在步骤S1’中,检测设备1获取多个链接站点,在步骤S21’中,检测设备1根据站点访问压力,从这些链接站点中确定当前可以频繁访问的链接站点作为当前可检测站点,在步骤S22’中,检测设备1再根据这些当前可检测站点的产生时间,选择产生时间最早的作为待检测站点。本领域技术人员应能理解上述确定当前可检测站点的方式以及选择待检测站点的方式仅为举例,其他现有的或今后可能出现的确定当前可检测站点的方式或者选择待检测站点的方式如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
优选地,在步骤S22’中,检测设备1还根据所述当前可检测站点的站点相关特性,确定所述当前可检测站点的优先级;根据所述当前可检测站点的优先级,确定所述待检测站点。具体地,在步骤S22’中,检测设备1根据其在步骤S21’确定的当前可检测站点的站点相关特性,诸如上次检测时间、流量、更新时间等,确定这些当前可检测站点的优先级,并根据该优先级,确定待检测站点。例如,在步骤S22’中,检测设备1根据当前可检测站点的上次检测时间,确定这些当前可检测站点的优先级,如上次检测时间越早的,优先级越高,再根据该优先级,从这些当前可检测站点中选择上次检测时间最早的作为待检测站点。
更优选地,所述站点相关特性包括但不限于,以下至少任一项:
1)所述当前可检测站点的上次检测时间;
2)所述当前可检测站点的流量;
3)所述当前可检测站点的链接数量;
4)所述当前可检测站点的更新时间;
5)所述当前可检测站点的资源量。
具体地,当前可检测站点的上次检测时间越早,其优先级越高,也即更应该尽早对相应的当前可检测站点进行检测,以防止在两次检测的间隔时间内,该当前可检测站点的访问状态发生变化,从而影响该站点中的资源链接提供给用户时的用户使用体验。当前可检测站点的流量越大,说明其用户访问量越大,相应的不能访问的可能性也越小,故当前可检测站点的流量越小,其优先级越高。当前可检测站点的链接数量越多表明该当前可检测站点的内部链接之间,以及该当前可检测站点的内部链接和该当前可检测站点的外部链接之间的关系越密切,该当前可检测站点对用户的影响也越大,相应的优先级也越高。当前可检测站点的更新时间越近,说明其越活跃,相应的不能访问的可能性也越低,故当前可检测站点的更新时间越早的,其优先级越高。当前可检测站点的资源量越多,表明该当前可检测站点的内容越丰富,相应的用户需求量也越高,故其优先级也越高。本领域技术人员应能理解,上述站点相关特性不仅能够单独用来确定当前可检测站点的优先级,还可以相互结合用以确定当前可检测站点的优先级。本领域技术人员还应能理解上述站点相关特性仅为举例,其他现有的或今后可能出现的站点相关特性如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
优选地,所述当前可检测站点基于但不限于,以下至少任一项来确定:
1)所述链接站点的访问压力;
2)所述链接站点是否包括从未检测的资源链接;
3)所述链接站点的预设检测周期。
具体地,链接站点的访问压力指链接站点当前能够接受的访问频率,如果链接站点中的需要检测的资源链接较多,其相应的访问压力也较大,故需要根据链接站点的访问压力来确定该链接站点是否为当前可检测站点。由于网络中链接站点的数量巨大,而链接站点中如果包括从未检测的资源链接,那么将该链接站点中的资源链接提供给用户时,其是否可访问的不确定性更大,故需要将包括从未检测的资源链接的链接站点作为当前可检测站点。对链接站点设定检测周期,按照预设检测周期确定当前可检测站点,可以提高对链接站点的状态的检测效率,并且可以进一步将链接站点分组,对不同的分组采用不同的预设检测周期,使得对链接站点的状态检测全面、高效,从而能够更好的为用户提供高质量的搜索结果。本领域技术人员应能理解上述确定当前可检测站点的因素仅为举例,其他现有的或今后可能出现的确定当前可检测站点的因素如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
在一个优选实施例中(参照图3),该过程还包括步骤S5(未示出),在步骤S5中,检测设备1当一个资源链接的状态连续被检测为可访问状态的次数超过第一预定阈值时,降低对该资源链接的检测频率。具体地,对资源链接被连续检测为可访问状态的次数设定第一预定阈值,在步骤S5中,检测设备1当一个资源链接的状态连续被检测为可访问状态的次数超过该第一预定阈值时,降低该资源链接的检测频率。例如,假设第一预定阈值为5次,当一个资源链接被连续5次被检测为可访问状态时,检测设备1降低对该资源的检测频率,如从每次检测该资源链接所属的链接站点时检测该资源链接,降低至每两次检测该资源链接所属的链接站点时检测该资源链接。
优选地,该过程还包括步骤S6(未示出),在步骤S6中,检测设备1当从属于同一站点的检测频率低于第二预定阈值的资源链接的个数超过第三预定阈值时,降低对所述站点的站点检测频率。具体地,对资源链接的检测频率设定第二预定阈值,对同一站点中检测频率低于第二预定阈值的资源链接的个数设定第三预定阈值,在步骤S6中,检测设备1当从属于同一站点的检测频率低于该第二预定阈值的资源链接的个数超过该第三预定阈值时,降低对该站点的站点检测频率。例如,记录同一站点中资源链接的检测频率,以及该站点中检测频率低于第二预定阈值的资源链接的个数,当该个数超过第三预定阈值时,检测设备1降低对该站点的站点检测频率。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。***权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。