CN104503983A - 为搜索引擎提供网站认证数据的方法及装置 - Google Patents

为搜索引擎提供网站认证数据的方法及装置 Download PDF

Info

Publication number
CN104503983A
CN104503983A CN201410706699.3A CN201410706699A CN104503983A CN 104503983 A CN104503983 A CN 104503983A CN 201410706699 A CN201410706699 A CN 201410706699A CN 104503983 A CN104503983 A CN 104503983A
Authority
CN
China
Prior art keywords
site certificate
certificate data
data
search engine
website
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410706699.3A
Other languages
English (en)
Inventor
董长阳
张振平
崔燕
张铮
周启
谭静
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu Online Network Technology Beijing Co Ltd
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201410706699.3A priority Critical patent/CN104503983A/zh
Publication of CN104503983A publication Critical patent/CN104503983A/zh
Priority to US15/531,070 priority patent/US10491606B2/en
Priority to EP15862508.7A priority patent/EP3226149A1/en
Priority to JP2017528100A priority patent/JP6453464B2/ja
Priority to KR1020177017441A priority patent/KR102009020B1/ko
Priority to PCT/CN2015/090781 priority patent/WO2016082616A1/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/12Applying verification of the received information
    • H04L63/123Applying verification of the received information received data contents, e.g. message integrity
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/64Protecting data integrity, e.g. using checksums, certificates or signatures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/30Authentication, i.e. establishing the identity or authorisation of security principals
    • G06F21/44Program or device authentication
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/08Network architectures or network communication protocols for network security for authentication of entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6227Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database where protection concerns the structure of data, e.g. records, types, queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2221/00Indexing scheme relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/21Indexing scheme relating to G06F21/00 and subgroups addressing additional information or applications relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/2119Authenticating web pages, e.g. with suspicious links

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computing Systems (AREA)
  • Signal Processing (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • Health & Medical Sciences (AREA)
  • Information Transfer Between Computers (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供了一种为搜索引擎提供网站认证数据的方法及装置,其中的方法包括:接收来自多个认证数据来源的网站认证数据;存储所述网站认证数据;在接收到搜索引擎检索所述网站认证数据的请求时,将存储的所述网站认证数据发送给所述搜索引擎。通过该方法搜索引擎可以快速的检索到完整的网站认证数据,为提高搜索引擎的搜索速度提供保证。

Description

为搜索引擎提供网站认证数据的方法及装置
技术领域
本发明涉及计算机领域,尤其涉及一种为搜索引擎提供网站认证数据的方法及装置。
背景技术
搜索引擎在根据用户输入的搜索关键字进行搜索时,为保证搜索结果的可信赖性,需获取相应搜索结果链接的认证数据,如图6中所示,“V2”对应的方框中的内容即为该条搜索结果的部分网站认证数据。目前,由于各网站认证数据分散于不同的业务(例如,百度统计、百度口碑、百度百科等)中,搜索引擎在搜索该网站认证数据时,需要基于搜索结果的URL(统一资源定位符)到不同的业务中搜索,例如,需要在口碑认证业务中搜索网站的网民评论数据,在电话认证业务中搜索网站的电话认证数据。从不同业务搜索获取的认证数据可能是重复或者没有更新的。因此,现有的搜索引擎搜索网站认证数据的效率较低,从而影响搜索引擎搜索速度和认证数据的准确度。
发明内容
本发明解决的技术问题之一是快速为搜索引擎提供分散于多个认证数据来源的网站认证数据,提高搜索引擎搜索速度。
根据本发明一方面的一个实施例,提供了一种为搜索引擎提供网站认证数据的方法,其中,包括:
接收来自多个认证数据来源的网站认证数据;
存储所述网站认证数据;
在接收到搜索引擎检索所述网站认证数据的请求时,将存储的所述网站认证数据发送给所述搜索引擎。
可选地,存储所述网站认证数据包括:
直接存储接收的所述网站认证数据;或
将所述网站认证数据重组成便于搜索引擎检索的数据结构,存储重组后的网站认证数据。
可选地,将所述网站认证数据重组成便于搜索引擎检索的数据结构,具体包括:
将网站认证数据重组成以统一资源定位符和/或用户标识为索引来检索相关的网站认证数据。
可选地,将所述网站认证数据重组成便于搜索引擎检索的数据结构,具体包括:
从以用户标识为索引的数据中分离出以统一资源定位符为索引的网站认证数据,将以同一统一资源定位符为索引的数据合并;以及
将以同一用户标识为索引的数据合并。
可选地,还包括:
从接收的网站认证数据中过滤掉重复的网站认证数据。
可选地,存储所述网站认证数据还包括:
存储所述网站认证数据的更新时间。
根据本发明另一方面的一个实施例,提供了一种为搜索引擎提供网站认证数据的装置,其中,包括:
接收单元,用于接收来自多个认证数据来源的网站认证数据;
存储单元,用于存储所述网站认证数据;
发送单元,用于在接收到搜索引擎检索所述网站认证数据的请求时,将存储的所述网站认证数据发送给所述搜索引擎。
可选地,存储单元包括:
重组子单元:用于将所述网站认证数据重组成便于搜索引擎检索的数据结构;
存储子单元:用于存储重组后的网站认证数据。
可选地,所述重组子单元具体用于:
将网站认证数据重组成以统一资源定位符和/或用户标识为索引来检索相关的网站认证数据。
可选地,所述重组子单元具体用于:
从以用户标识为索引的数据中分离出以统一资源定位符为索引的网站认证数据,将以同一统一资源定位符为索引的数据合并;以及
将以同一用户标识为索引的数据合并。
可选地,还包括:
过滤单元,用于从接收的网站认证数据中过滤掉重复的网站认证数据。
可选地,存储单元还用于:
存储所述网站认证数据的更新时间。
由于本实施例可以接收来自多个认证数据来源的网站认证数据,并可以将该接收的网站认证数据存储在一起,以便在接收到搜索引擎检索网站认证数据的请求时,将存储的网站认证数据发送给所述搜索引擎。通过该方法搜索引擎可以快速的检索到分散于多个认证数据来源的网站认证数据,从而可有助于提高搜索引擎的搜索速度。
本领域普通技术人员将了解,虽然下面的详细说明将参考图示实施例、附图进行,但本发明并不仅限于这些实施例。而是,本发明的范围是广泛的,且意在仅通过后附的权利要求限定本发明的范围。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1是根据本发明一个实施例的为搜索引擎提供网站认证数据的方法的流程图。
图2是根据本发明另一个实施例的为搜索引擎提供网站认证数据的方法的流程图。
图3是根据本发明一个实施例的为搜索引擎提供网站认证数据的装置结构示意图。
图4是根据本发明一个实施例的存储单元结构示意图。
图5是根据本发明另一个实施例的为搜索引擎提供网站认证数据的装置结构示意图。
图6是背景技术中搜索引擎搜索并显示的部分网站认证数据的示意图。
附图中相同或相似的附图标记代表相同或相似的部件。
具体实施方式
下面结合附图对本发明作进一步详细描述。
图1是根据本发明一个实施例的为搜索引擎提供网站认证数据的方法的流程图。本发明中的方法主要通过计算机设备中的操作***或处理控制器来完成。将操作***或处理控制器称为为搜索引擎提供网站认证数据的装置。该计算机设备包括但不限于以下中的至少一个:用户设备、网络设备。用户设备包括但不限于计算机、智能手机、PDA等。网络设备包括但不限于单个网络服务器、多个网络服务器组成的服务器组或基于云计算的由大量计算机或网络服务器构成的云,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机。
如图1中所示,本实施例所述为搜索引擎提供网站认证数据的方法主要包括如下步骤:
S100、接收来自多个认证数据来源的网站认证数据;
S110、存储所述网站认证数据;
S130、在接收到搜索引擎检索所述网站认证数据的请求时,将存储的所述网站认证数据发送给所述搜索引擎。
下面对各步骤做进一步详细介绍。
步骤S100中,接收来自多个认证数据来源的网站认证数据可以为:接收各网站主动推送的网站认证数据,也可以是主动去获取各网站的网站认证数据。
其中,对于接收各网站主动推送网站认证数据的方案,具体实施中,可通过提供对各网站公开的接口来接收网站认证数据,提供对各网站公开的接口,即,公开该接口的接口信息给各网站,所述接口信息包括以下至少一种:接口的IP地址、端口号、接口文件名以及接口参数公开给各网站。该接口可以为基于HTTP(Hypertext transfer protocol,超级文本传送协议)的远程过程调用接口,通过该接口可接收各网站的网站认证数据。接收各网站主动推送网站认证数据的方案,可在网站更新网站认证数据时及时接收到更新后的网站认证数据。
对于主动去获取各网站的网站认证数据的方案,可设置获取时间周期,其中可以实时获取,也可以定期获取。
其中,所接收的网站认证数据可包括任一网站的不同种类的网站认证数据,当然,可以包括一个网站的所有认证数据。例如,可包括:网站所属公司的名称、经营范围、所属行业、网站的ICP(Internet Content Provider,网络内容提供商)备案号码等公司相关信息,还可包括:网民对网站的评论等等口碑相关信息。该接收的不同种类的网站认证数据可以来自于认证网站的不同的业务,例如,来自于:网站认证、官网认证、电话认证或口碑认证等等。
本申请实施例将接收的网站认证数据主要划分为两类,例如,可以包括如下两类:
一类为主动认证数据:
该类网站认证数据一般为用户在认证网站上注册账号,生成userid(用户标识),并基于该userid所填写的认证数据,其中包括以下至少一个:网址、网站的ICP备案号码、网站所属公司的名称、经营范围、所属行业等,因此该类网站认证数据的组织形式是一个userid对应多个认证数据。由于存在多个网站共用一个userid的情况,也就是多个网站的userid相同,因此,存在从不同网站获取的不同网站认证数据对应同一userid的情况。
另一类为被动认证数据:
该类网站认证数据为网民对网站的评论数据,包括:评论内容、评论数、好评率等等。
需要说明的是,所述多个认证数据来源可以为可提供网站认证数据的不同的业务,例如,可提供网站电话认证数据的电话认证业务,或可提供口碑相关数据的口碑认证业务,该不同业务可以位于同一网站,也可以位于不同网站。
步骤S110中,存储网站认证数据的目的在于,当搜索引擎需要检索网站认证数据时,可以从该存储设备(例如,关系数据库)中快速获取完整的网站认证数据,而不需在各个业务中分别查找,有利于加快搜索引擎检索网站认证数据的速度。
在存储网站认证数据时,可保存更新时间,例如,在相应的网站认证数据的认证内容列中加入时间戳,根据该时间戳可识别出网站认证数据的更新时间。
另外,为避免重复接收同一网站的相同内容的网站认证数据,在接收到网站认证数据后,可过滤掉重复的网站认证数据,即,本实施例提供一种网络包过滤机制,通过比对同一网站的相邻的两个网站认证数据包中的内容是否一致,来判断是否为重复的网站认证数据。其中,可在接收网站认证数据后,存储该网站认证数据前执行该过滤操作。
例如,针对同一网站的网站认证数据,计算并记录每次所接收的网站认证数据包中内容的MD5(Message Digest Algorithm,消息摘要算法第五版)值,将当前接收的网站认证数据包中内容的MD5值与上一次记录的MD5值比较,若相同,则说明两次接收的该网站的网站认证数据是重复的数据,则可过滤掉本次接收的该网站的网站认证数据,例如,丢弃本次接收的该网站的网站认证数据;若不同,则可执行后续的处理。
步骤S120中所述内容,是在接收到搜索引擎检索所述网站认证数据的请求时,将存储的所述网站认证数据发送给所述搜索引擎,即,搜索引擎在执行检索操作时,会以检索到的网站的URL和/或Userid作为检索关键词检索该网站对应的网站认证数据,则根据该检索关键词可以在当前存储的网站认证数据中快速查找到该网站对应的完整的网站认证数据。
本实施例所述为搜索引擎提供网站认证数据的方法,可以将任一网站的来自多个认证数据源的网站认证数据存储在一起,以便在接收到搜索引擎检索网站认证数据的请求时,将存储的网站认证数据发送给所述搜索引擎。通过该方法搜索引擎可以快速的检索到来自多个认证数据源的网站认证数据,从而可有助于提高搜索引擎的搜索速度。
如图2中所示为根据本申请另一实施例的为搜索引擎提供网站认证数据的方法,该方法主要包括如下步骤:
S200、接收来自多个认证数据来源的网站认证数据;
S210、将所述网站认证数据重组成便于搜索引擎检索的数据结构,得到重组后的网站认证数据;
S220、存储所述重组后的网站认证数据;
S230、在接收到搜索引擎检索所述网站认证数据的请求时,将存储的所述重组后的网站认证数据发送给所述搜索引擎。
下面对各步骤做进一步详细介绍。
步骤S200中,接收来自多个认证数据来源的网站认证数据可以为:接收各网站主动推送的网站认证数据,也可以是主动去获取各网站的网站认证数据。
其中,对于接收各网站主动推送网站认证数据的方案,具体实施中,可通过提供对各网站公开的接口来接收网站认证数据,提供对各网站公开的接口,即,公开该接口的接口信息给各网站,所述接口信息包括以下至少一种:接口的IP地址、端口号、接口文件名以及接口参数公开给各网站。该接口可以为基于HTTP(Hypertext transfer protocol,超级文本传送协议)的远程过程调用接口,通过该接口可接收各网站的网站认证数据。接收各网站主动推送网站认证数据的方案,可在网站更新网站认证数据时及时接收到更新后的网站认证数据。
对于主动去获取各网站的网站认证数据的方案,可设置获取时间周期,其中可以实时获取,也可以定期获取。
其中,所接收的网站认证数据可包括任一网站的不同种类的网站认证数据,当然,可以包括一个网站的所有认证数据。例如,可包括:网站所属公司的名称、经营范围、所属行业、网站的ICP(Internet Content Provider,网络内容提供商)备案号码等公司相关信息,还可包括:网民对网站的评论等等口碑相关信息。该接收的不同种类的网站认证数据可以来自于认证网站的不同的业务,例如,来自于:网站认证、官网认证、电话认证或口碑认证等等。
本申请实施例将接收的网站认证数据主要划分为两类,例如,可以包括如下两类:
一类为主动认证数据:
该类网站认证数据一般为用户在认证网站上注册账号,生成userid(用户标识),并基于该userid所填写的认证数据,其中包括以下至少一个:网址、网站的ICP备案号码、网站所属公司的名称、经营范围、所属行业等,因此该类网站认证数据的组织形式是一个userid对应多个认证数据。由于存在多个网站共用一个userid的情况,也就是多个网站的userid相同,因此,存在从不同网站获取的不同网站认证数据对应同一userid的情况。
另一类为被动认证数据:
该类网站认证数据为网民对网站的评论数据,包括:评论内容、评论数、好评率等等。
需要说明的是,所述多个认证数据来源可以为可提供网站认证数据的不同的业务,例如,可提供网站电话认证数据的电话认证业务,或可提供口碑相关数据的口碑认证业务,该不同业务可以位于同一网站,也可以位于不同网站。
另外,为避免重复接收同一网站的相同内容的网站认证数据,在接收到网站认证数据后,过滤掉重复的网站认证数据,即,本实施例提供一种网络包过滤机制,通过比对同一网站的相邻的两个网站认证数据包中的内容是否一致,来判断是否为重复的网站认证数据。
例如,针对同一网站的网站认证数据,计算并记录每次所接收的网站认证数据包中内容的MD5(Message Digest Algorithm,消息摘要算法第五版)值,将当前接收的网站认证数据包中内容的MD5值与上一次记录的MD5值比较,若相同,则说明两次接收的该网站的网站认证数据是重复的数据,则可过滤掉本次接收的该网站的网站认证数据,例如,丢弃本次接收的该网站的网站认证数据;若不同,则可执行后续的处理。
步骤S210中,将所述网站认证数据重组成便于搜索引擎检索的数据结构,得到重组后的网站认证数据。所述的便于搜索引擎检索,即,便于搜索引擎快速检索到分散于多个认证数据来源的网站认证数据,而不需要从多个认证数据来源中查找再获取。
具体的,可将网站认证数据重组成以URL(Uniform Resource Locator,统一资源定位符)和/或Userid为索引来检索相关的网站认证数据,例如重组成以URL和/或Userid为关键字的键值对的数据结构,即,可以将网站认证数据中的Userid和URL与对应的认证内容组成键值对,便于搜索引擎根据URL和/或Userid可以检索到网站完整的网站认证数据。
其中将所述网站认证数据重组成便于搜索引擎检索的数据结构,具体可包括如下操作步骤:
首先,从以Userid为索引的数据中分离出以URL为索引的网站认证数据,将以同一URL为索引的数据合并;
例如,针对上面所述的两类网站认证数据,其组成的键值对可分别为:
Userid->{(URL 1/URL 2/URL 3…),公司相关信息};和
URL->{口碑相关信息}。
其中的公司相关信息包括但不限于:公司名称、网站的ICP备案号码、官网认证查询、公司经营范围及公司所属行业等等;其中的口碑相关信息包括但不限于:评论内容、评论数及好评率等等。
所述的从以Userid为索引的数据中分离出以URL为索引的网站认证数据,即,从键值对Userid->{(URL 1/URL 2/URL 3…),公司相关信息}中,分离出以URL 1/URL 2/URL 3…为索引的网站认证数据,分离后的结果为:
URL1->{Userid,公司相关信息}、URL2->{Userid,公司相关信息}、URL3->{Userid,公司相关信息}…;
假如,URL与URL1相同,则将以同一URL为索引的数据合并,即合并URL和URL1对应的网站认证数据,合并后的结果如下:
URL->{口碑相关信息,公司相关信息};以及
URL2->{Userid,公司相关信息};
URL3->{Userid,公司相关信息}…。
之后,将以同一Userid为索引的数据合并。
如前面所述,由于存在从不同网站获取的不同网站认证数据对应同一userid的情况,因此,可将以同一Userid为索引的网站认证数据合并,合并后的结果为Userid->{公司相关信息}。
上述两组键值对重组后得到的网站认证数据为:
URL->{口碑相关信息,公司相关信息};以及
URL2->{Userid,公司相关信息};
URL3->{Userid,公司相关信息}…;
Userid->{公司相关信息}。
可以理解的是,由于网站认证数据有可能随时更新,则上述重组的键值对可根据更新后的网站认证数据进行对应的修改,包括:增加部分内容,例如,增加电话认证、官网;或删除部分内容,例如,删除官网、电话认证;或者修改部分内容,例如,修改口碑相关信息等等。
步骤S220中,存储重组后的网站认证数据的目的在于,当搜索引擎需要检索网站认证数据时,可以从该存储设备(例如,关系数据库)中快速获取完整的网站认证数据,而不需在各个业务中分别查找认证网站的网站认证数据,有利于加快搜索引擎检索网站认证数据的速度。
在存储重组后的网站认证数据时,一种实现方式可以为上述重组后得到的键值对建立Userinfo和Urlinfo两个表格,分别以Userid和URL作为主键,对应的认证内容作为对应项。
另外,在存储所述重组后的网站认证数据的同时可保存更新时间,例如,在上述Userinfo和Urlinfo两个表格的认证内容列中加入时间戳,根据该时间戳可识别出网站认证数据的更新时间。
步骤S230中所述内容,是在接收到搜索引擎检索所述网站认证数据的请求时,将存储的所述重组后的网站认证数据发送给所述搜索引擎,即,搜索引擎在执行检索操作时,会以检索到的网站的URL和/或Userid作为检索关键词检索该网站对应的网站认证数据,则根据该检索关键词可以在当前存储的网站认证数据中快速查找到该网站对应的完整的网站认证数据。
本实施例所述为搜索引擎提供网站认证数据的方法,可以将来自多个认证数据来源的网站认证数据重组成便于搜索引擎检索的数据结构,并存储重组后的网站认证数据,以便在接收到搜索引擎检索网站认证数据的请求时,将存储的重组后的网站认证数据发送给所述搜索引擎。通过该方法搜索引擎可以快速的检索到重组后的完整的网站认证数据,从而可有助于提高搜索引擎的搜索速度。
上述为本申请实施例提供的为搜索引擎提供网站认证数据的方法,基于上述方法同样的思路,本申请实施例还提供一种为搜索引擎提供网站认证数据的装置,如图3中所示,该装置主要包括:接收单元300、存储单元310及发送单元320。
其中,接收单元300,主要用于接收来自多个认证数据来源的网站认证数据。
具体的,该接收单元300接收的来自多个认证数据来源的网站认证数据可以为:接收各网站主动推送的网站认证数据,也可以是主动去获取各网站的网站认证数据。
其中,对于接收各网站主动推送网站认证数据的方案,具体实施中,可通过提供对各网站公开的接口来接收网站认证数据,提供对各网站公开的接口,即,公开该接口的接口信息给各网站,所述接口信息包括以下至少一种:接口的IP地址、端口号、接口文件名以及接口参数公开给各网站。该接口可以为基于HTTP(Hypertext transfer protocol,超级文本传送协议)的远程过程调用接口,通过该接口可接收各网站的网站认证数据。接收各网站主动推送网站认证数据的方案,可在网站更新网站认证数据时及时接收到更新后的网站认证数据。
对于主动去获取各网站的网站认证数据的方案,可设置获取时间周期,其中可以实时获取,也可以定期获取。
本实施例中所接收的网站认证数据可包括任一网站的不同种类的网站认证数据,当然,可以包括一个网站的完整认证数据。例如,可包括:网站所属公司的名称、经营范围、所属行业、网站的ICP备案号码等公司相关信息,还可包括:网民对网站的评论等等口碑相关信息。该接收的不同种类的网站认证数据可以来自于认证网站的不同的业务,例如,来自于:网站认证、官网认证、电话认证或口碑认证等等。
本申请实施例将接收的网站认证数据主要划分为两类,例如,可以包括如下两类:
一类为主动认证数据:
该类网站认证数据一般为用户在认证网站上注册账号,生成userid(用户标识),并基于该userid所填写的认证数据,其中包括以下至少一个:网址、网站的ICP备案号码、网站所属公司的名称、经营范围、所属行业等,因此该类网站认证数据的组织形式是一个userid对应多个认证数据。由于存在多个网站共用一个userid的情况,也就是多个网站的userid相同,因此,存在从不同网站获取的不同网站认证数据对应同一userid的情况。
另一类为被动认证数据:
该类网站认证数据为网民对网站的评论数据,包括:评论内容、评论数、好评率等等。
需要说明的是,所述多个认证数据来源可以为可提供网站认证数据的不同的业务,例如,可提供网站电话认证数据的电话认证业务,或可提供口碑相关数据的口碑认证业务,该不同业务可以位于同一网站,也可以位于不同网站。
其中,存储单元310,主要用于存储所述网站认证数据;
存储网站认证数据的目的在于,当搜索引擎需要检索网站认证数据时,可以从该存储设备(例如,关系数据库)中快速获取原本分散在多个认证数据来源的网站认证数据,而不需在所述多个认证数据来源中分别查找,有利于加快搜索引擎检索网站认证数据的速度。
一种实施例,该存储单元310可以直接存储接收单元300接收的网站认证数据。
另一实施例,如图4中所示,该存储单元310可进一步包括如下子单元用于存储网站认证数据:重组子单元3101和存储子单元3102。
重组子单元3101:用于将所述网站认证数据重组成便于搜索引擎检索的数据结构;
该重组子单元3101将所述网站认证数据重组成便于搜索引擎检索的数据结构,得到重组后的网站认证数据。所述的便于搜索引擎检索,即,便于搜索引擎快速检索到分散于多个认证数据来源的网站认证数据,而不需要从多个认证数据来源中查找再获取。
具体的,重组子单元3101可将网站认证数据重组成以URL(UniformResource Locator,统一资源定位符)和/或Userid为索引来检索相关的网站认证数据,例如重组成以URL和/或Userid为关键字的键值对的数据结构,即,可以将网站认证数据中的Userid和URL与对应的认证内容组成键值对,便于搜索引擎根据URL和/或Userid可以检索到网站完整的网站认证数据。
其中重组子单元3101将所述网站认证数据重组成便于搜索引擎检索的数据结构,具体可包括如下操作:
首先,从以Userid为索引的数据中分离出以URL为索引的网站认证数据,将以同一URL为索引的数据合并;
例如,针对上面所述的两类网站认证数据,其组成的键值对可分别为:
Userid->{(URL 1/URL 2/URL 3…),公司相关信息};和
URL->{口碑相关信息}。
其中的公司相关信息包括但不限于:公司名称、网站的ICP备案号码、官网认证查询、公司经营范围及公司所属行业等等;其中的口碑相关信息包括但不限于:评论内容、评论数及好评率等等。
所述的从以Userid为索引的数据中分离出以URL为索引的网站认证数据,即,从键值对Userid->{(URL 1/URL 2/URL 3…),公司相关信息}中,分离出以URL 1/URL 2/URL 3…为索引的网站认证数据,分离后的结果为:
URL1->{Userid,公司相关信息}、URL2->{Userid,公司相关信息}、URL3->{Userid,公司相关信息}…;
假如,URL与URL1相同,则将以同一URL为索引的数据合并,即合并URL和URL1对应的网站认证数据,合并后的结果如下:
URL->{口碑相关信息,公司相关信息};以及
URL2->{Userid,公司相关信息};
URL3->{Userid,公司相关信息}…。
之后,将以同一Userid为索引的数据合并。
如前面所述,由于存在从不同网站获取的不同网站认证数据对应同一userid的情况,因此,可将以同一Userid为索引的网站认证数据合并,合并后的结果为Userid->{公司相关信息}。
上述两组键值对重组后得到的网站认证数据为:
URL->{口碑相关信息,公司相关信息};以及
URL2->{Userid,公司相关信息};
URL3->{Userid,公司相关信息}…;
Userid->{公司相关信息}。
可以理解的是,由于网站认证数据有可能随时更新,则重组子单元3101可根据更新后的网站认证数据对上述重组的网站认证数据进行对应的修改,包括:增加部分内容,例如,增加电话认证、官网;或删除部分内容,例如,删除官网、电话认证;或者修改部分内容,例如,修改口碑相关信息等等。
其中存储子单元3102:用于存储重组后的网站认证数据。在存储子单元3102存储重组后的网站认证数据时,一种实现方式可以为上述重组后得到的键值对建立Userinfo和Urlinfo两个表格,分别以Userid和URL作为主键,对应的认证内容作为对应项。
另外,本实施例的存储单元310,在存储网站认证数据时,可保存更新时间,例如,针对重组后的网站认证数据,在上述Userinfo和Urlinfo两个表格的认证内容列中加入时间戳,根据该时间戳可识别出网站认证数据的更新时间。
其中发送单元320,主要用于在接收到搜索引擎检索所述网站认证数据的请求时,将存储的所述网站认证数据发送给所述搜索引擎,即,搜索引擎在执行检索操作时,会以检索到的网站的URL和/或Userid作为检索关键词检索该网站对应的网站认证数据,则根据该检索关键词可以在当前存储的网站认证数据中快速查找到该网站对应的完整的网站认证数据。
可选地,如图5中所示,本实施例所述装置还可包括:
过滤单元330,主要用于从接收的网站认证数据中过滤掉重复的网站认证数据。
为避免重复接收同一网站的相同内容的网站认证数据,在接收单元300到网站认证数据后,由过滤单元330过滤掉重复的网站认证数据,可通过比对同一网站的相邻的两个网站认证数据包中的内容是否一致,来判断是否为重复的网站认证数据。
例如,针对同一网站的网站认证数据,计算并记录每次所接收的网站认证数据包中内容的MD5(Message Digest Algorithm,消息摘要算法第五版)值,将当前接收的网站认证数据包中内容的MD5值与上一次记录的MD5值比较,若相同,则说明两次接收的该网站的网站认证数据是重复的数据,则可过滤掉本次接收的该网站的网站认证数据,例如,丢弃本次接收的该网站的网站认证数据;若不同,则可执行后续的处理。
本实施例所述为搜索引擎提供网站认证数据的方法,可以将任一网站的来自多个认证数据来源的网站认证数据存储在一起,以便在接收到搜索引擎检索网站认证数据的请求时,将存储的网站认证数据发送给所述搜索引擎。通过该方法搜索引擎可以快速的检索到原本分散在多个认证数据来源的网站认证数据,从而可有助于提高搜索引擎的搜索速度。
需要注意的是,本发明可在软件和/或软件与硬件的组合体中被实施,例如,可采用专用集成电路(ASIC)、通用目的计算机或任何其他类似硬件设备来实现。在一个实施例中,本发明的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地,本发明的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中,例如,RAM存储器,磁或光驱动器或软磁盘及类似设备。另外,本发明的一些步骤或功能可采用硬件来实现,例如,作为与处理器配合从而执行各个步骤或功能的电路。
另外,本发明的一部分可被应用为计算机程序产品,例如计算机程序指令,当其被计算机执行时,通过该计算机的操作,可以调用或提供根据本发明的方法和/或技术方案。而调用本发明的方法的程序指令,可能被存储在固定的或可移动的记录介质中,和/或通过广播或其他信号承载媒体中的数据流而被传输,和/或被存储在根据所述程序指令运行的计算机设备的工作存储器中。在此,根据本发明的一个实施例包括一个装置,该装置包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器,其中,当该计算机程序指令被该处理器执行时,触发该装置运行基于前述根据本发明的多个实施例的方法和/或技术方案。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。***权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。

Claims (12)

1.一种为搜索引擎提供网站数认证据的方法,其中,包括:
接收来自多个认证数据来源的网站认证数据;
存储所述网站认证数据;
在接收到搜索引擎检索所述网站认证数据的请求时,将存储的所述网站认证数据发送给所述搜索引擎。
2.根据权利要求1所述的方法,其中存储所述网站认证数据包括:
直接存储接收的所述网站认证数据;或
将所述网站认证数据重组成便于搜索引擎检索的数据结构,存储重组后的网站认证数据。
3.根据权利要求2所述的方法,其中将所述网站认证数据重组成便于搜索引擎检索的数据结构,具体包括:
将网站认证数据重组成以统一资源定位符和/或用户标识为索引来检索相关的网站认证数据。
4.根据权利要求3所述的方法,其中将所述网站认证数据重组成便于搜索引擎检索的数据结构,具体包括:
从以用户标识为索引的数据中分离出以统一资源定位符为索引的网站认证数据,将以同一统一资源定位符为索引的数据合并;以及
将以同一用户标识为索引的数据合并。
5.根据权利要求1-4中任一项所述的方法,其中还包括:
从接收的网站认证数据中过滤掉重复的网站认证数据。
6.根据权利要求1所述的方法,其中存储所述网站认证数据还包括:
存储所述网站认证数据的更新时间。
7.一种为搜索引擎提供网站认证数据的装置,其中,包括:
接收单元,用于接收来自多个认证数据来源的网站认证数据;
存储单元,用于存储所述网站认证数据;
发送单元,用于在接收到搜索引擎检索所述网站认证数据的请求时,将存储的所述网站认证数据发送给所述搜索引擎。
8.根据权利要求7所述的装置,其中存储单元包括:
重组子单元:用于将所述网站认证数据重组成便于搜索引擎检索的数据结构;
存储子单元:用于存储重组后的网站认证数据。
9.根据权利要求8所述的装置,其中所述重组子单元具体用于:
将网站认证数据重组成以统一资源定位符和/或用户标识为索引来检索相关的网站认证数据。
10.根据权利要求9所述的装置,其中所述重组子单元具体用于:
从以用户标识为索引的数据中分离出以统一资源定位符为索引的网站认证数据,将以同一统一资源定位符为索引的数据合并;以及
将以同一用户标识为索引的数据合并。
11.根据权利要求7-10中任一项所述的装置,其中还包括:
过滤单元,用于从接收的网站认证数据中过滤掉重复的网站认证数据。
12.根据权利要求7所述的装置,其中存储单元还用于:
存储所述网站认证数据的更新时间。
CN201410706699.3A 2014-11-27 2014-11-27 为搜索引擎提供网站认证数据的方法及装置 Pending CN104503983A (zh)

Priority Applications (6)

Application Number Priority Date Filing Date Title
CN201410706699.3A CN104503983A (zh) 2014-11-27 2014-11-27 为搜索引擎提供网站认证数据的方法及装置
US15/531,070 US10491606B2 (en) 2014-11-27 2015-09-25 Method and apparatus for providing website authentication data for search engine
EP15862508.7A EP3226149A1 (en) 2014-11-27 2015-09-25 Method and device for providing website authentication data for search engine
JP2017528100A JP6453464B2 (ja) 2014-11-27 2015-09-25 検索エンジンにウェブサイト認証データを提供するための方法及び装置
KR1020177017441A KR102009020B1 (ko) 2014-11-27 2015-09-25 검색 엔진으로 웹 사이트 인증 데이터를 제공하기 위한 방법 및 장치
PCT/CN2015/090781 WO2016082616A1 (zh) 2014-11-27 2015-09-25 为搜索引擎提供网站认证数据的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410706699.3A CN104503983A (zh) 2014-11-27 2014-11-27 为搜索引擎提供网站认证数据的方法及装置

Publications (1)

Publication Number Publication Date
CN104503983A true CN104503983A (zh) 2015-04-08

Family

ID=52945381

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410706699.3A Pending CN104503983A (zh) 2014-11-27 2014-11-27 为搜索引擎提供网站认证数据的方法及装置

Country Status (6)

Country Link
US (1) US10491606B2 (zh)
EP (1) EP3226149A1 (zh)
JP (1) JP6453464B2 (zh)
KR (1) KR102009020B1 (zh)
CN (1) CN104503983A (zh)
WO (1) WO2016082616A1 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016082616A1 (zh) * 2014-11-27 2016-06-02 百度在线网络技术(北京)有限公司 为搜索引擎提供网站认证数据的方法及装置
CN105809342A (zh) * 2016-03-07 2016-07-27 成都亿信标准认证集团有限公司 企业质量认证数据管理系
WO2017187201A1 (en) * 2016-04-29 2017-11-02 House of IPY Limited Search engine for authenticated network resources
CN108021580A (zh) * 2016-11-04 2018-05-11 广东亿迅科技有限公司 一种数据同步更新方法及其***

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104572837B (zh) * 2014-12-10 2019-07-26 百度在线网络技术(北京)有限公司 在网页上提供认证信息的方法及装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101079124A (zh) * 2006-05-26 2007-11-28 辽宁三鑫发展有限公司 将企业信息转换成电子媒体并进行行业排序的方法
CN101883180A (zh) * 2010-05-11 2010-11-10 中兴通讯股份有限公司 屏蔽移动终端访问无线网络信息的方法、移动终端和***
CN102375952A (zh) * 2011-10-31 2012-03-14 北龙中网(北京)科技有限责任公司 在搜索引擎结果中显示网站是否为可信验证的方法
WO2012054449A2 (en) * 2010-10-20 2012-04-26 Mcafee, Inc. Method and system for protecting against unknown malicious activities by determining a reputation of a link
CN102855256A (zh) * 2011-06-29 2013-01-02 北京百度网讯科技有限公司 用于确定网站评价信息的方法、装置及设备
CN103179125A (zh) * 2013-03-25 2013-06-26 北京奇虎科技有限公司 网站认证信息的显示方法及浏览器
CN103401835A (zh) * 2013-07-01 2013-11-20 北京奇虎科技有限公司 一种展现微博页面的安全检测结果的方法及装置

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7028029B2 (en) * 2003-03-28 2006-04-11 Google Inc. Adaptive computation of ranking
US20080022013A1 (en) * 2004-10-29 2008-01-24 The Go Daddy Group, Inc. Publishing domain name related reputation in whois records
KR100644411B1 (ko) 2005-08-12 2006-11-10 주식회사 케이티프리텔 웹 사이트 인증 정보 제공 방법 및 장치
CN101127101A (zh) 2006-08-18 2008-02-20 鸿富锦精密工业(深圳)有限公司 商标信息监控***及方法
CN101169783A (zh) * 2007-06-15 2008-04-30 黄海 用于多媒体对象的数字水印搜索引擎
US8219572B2 (en) * 2008-08-29 2012-07-10 Oracle International Corporation System and method for searching enterprise application data
US20110055248A1 (en) * 2009-08-28 2011-03-03 The Go Daddy Group, Inc. Search engine based domain name control validation
CN101916283B (zh) * 2010-08-17 2012-08-08 奇诺光瑞电子(深圳)有限公司 由动态网页上获取链接信息的方法及其服务器
US8650191B2 (en) * 2010-08-23 2014-02-11 Vistaprint Schweiz Gmbh Search engine optimization assistant
JP2012123457A (ja) 2010-12-06 2012-06-28 Canon Marketing Japan Inc 可搬記憶装置、制御方法、プログラム
US9569554B2 (en) * 2011-07-29 2017-02-14 Xink System and computer-implemented method for incorporating an image into a page of content for transmission over a telecommunications network
US20150113019A1 (en) * 2012-09-18 2015-04-23 Google Inc. Obtaining Access-Restricted Search Related Structured Data
EP3061272B1 (en) * 2013-10-21 2019-09-25 Convida Wireless, LLC Crawling of m2m devices
CN104503983A (zh) * 2014-11-27 2015-04-08 百度在线网络技术(北京)有限公司 为搜索引擎提供网站认证数据的方法及装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101079124A (zh) * 2006-05-26 2007-11-28 辽宁三鑫发展有限公司 将企业信息转换成电子媒体并进行行业排序的方法
CN101883180A (zh) * 2010-05-11 2010-11-10 中兴通讯股份有限公司 屏蔽移动终端访问无线网络信息的方法、移动终端和***
WO2012054449A2 (en) * 2010-10-20 2012-04-26 Mcafee, Inc. Method and system for protecting against unknown malicious activities by determining a reputation of a link
CN102855256A (zh) * 2011-06-29 2013-01-02 北京百度网讯科技有限公司 用于确定网站评价信息的方法、装置及设备
CN102375952A (zh) * 2011-10-31 2012-03-14 北龙中网(北京)科技有限责任公司 在搜索引擎结果中显示网站是否为可信验证的方法
CN103179125A (zh) * 2013-03-25 2013-06-26 北京奇虎科技有限公司 网站认证信息的显示方法及浏览器
CN103401835A (zh) * 2013-07-01 2013-11-20 北京奇虎科技有限公司 一种展现微博页面的安全检测结果的方法及装置

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016082616A1 (zh) * 2014-11-27 2016-06-02 百度在线网络技术(北京)有限公司 为搜索引擎提供网站认证数据的方法及装置
US10491606B2 (en) 2014-11-27 2019-11-26 Baidu Online Network Technology (Beijing) Co., Ltd. Method and apparatus for providing website authentication data for search engine
CN105809342A (zh) * 2016-03-07 2016-07-27 成都亿信标准认证集团有限公司 企业质量认证数据管理系
WO2017187201A1 (en) * 2016-04-29 2017-11-02 House of IPY Limited Search engine for authenticated network resources
US10645067B2 (en) 2016-04-29 2020-05-05 House of IPY Limited Search engine for authenticated network resources
CN108021580A (zh) * 2016-11-04 2018-05-11 广东亿迅科技有限公司 一种数据同步更新方法及其***

Also Published As

Publication number Publication date
JP2018502372A (ja) 2018-01-25
EP3226149A4 (en) 2017-10-04
WO2016082616A1 (zh) 2016-06-02
US10491606B2 (en) 2019-11-26
KR20170088950A (ko) 2017-08-02
KR102009020B1 (ko) 2019-08-08
EP3226149A1 (en) 2017-10-04
US20180337930A1 (en) 2018-11-22
JP6453464B2 (ja) 2019-01-16

Similar Documents

Publication Publication Date Title
CN107609135B (zh) 页面元素确定方法及设备、用户行为路径确定方法及装置
CN103678293B (zh) 一种数据存储方法及装置
CN104679778A (zh) 一种搜索结果的生成方法及装置
CN105447113A (zh) 一种基于大数据的信息分析方法
CN104503983A (zh) 为搜索引擎提供网站认证数据的方法及装置
US20130185429A1 (en) Processing Store Visiting Data
CN106815254B (zh) 一种数据处理方法和装置
CN107203532B (zh) 索引***的构建方法、搜索的实现方法及装置
CN108228322B (zh) 一种分布式链路跟踪、分析方法及服务器、全局调度器
CN110727727B (zh) 一种数据库的统计方法及装置
US20150249719A1 (en) Method and device for pushing information
CN111258978A (zh) 一种数据存储的方法
CN111740868A (zh) 告警数据的处理方法和装置及存储介质
CN111368227A (zh) 一种url处理方法以及装置
CN103684823A (zh) 网络日志记录方法、网络访问路径确定方法及相关装置
CN103530369A (zh) 一种去重方法及***
CN112199463A (zh) 数据查询方法、装置及设备
CN108418871A (zh) 一种云存储性能优化方法和***
CN109389271B (zh) 应用性能管理方法及***
CN107977381B (zh) 数据配置方法、索引管理方法、相关装置以及计算设备
CN109428774B (zh) 一种dpi设备的数据处理方法及相关的dpi设备
CN103365903A (zh) 一种为搜索引擎获取结构化数据的方法、装置与***
CN111078975A (zh) 一种多节点增量式数据采集***及采集方法
US20140108420A1 (en) Index creation method and system
Fang et al. Parallelized user clicks recognition from massive HTTP data based on dependency graph model

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20150408