CN106657422A - 爬取网站页面的方法、装置及*** - Google Patents

爬取网站页面的方法、装置及*** Download PDF

Info

Publication number
CN106657422A
CN106657422A CN201510728918.2A CN201510728918A CN106657422A CN 106657422 A CN106657422 A CN 106657422A CN 201510728918 A CN201510728918 A CN 201510728918A CN 106657422 A CN106657422 A CN 106657422A
Authority
CN
China
Prior art keywords
address
http
dns server
default
website page
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510728918.2A
Other languages
English (en)
Other versions
CN106657422B (zh
Inventor
杨杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Gridsum Technology Co Ltd
Original Assignee
Beijing Gridsum Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Gridsum Technology Co Ltd filed Critical Beijing Gridsum Technology Co Ltd
Priority to CN201510728918.2A priority Critical patent/CN106657422B/zh
Publication of CN106657422A publication Critical patent/CN106657422A/zh
Application granted granted Critical
Publication of CN106657422B publication Critical patent/CN106657422B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L61/00Network arrangements, protocols or services for addressing or naming
    • H04L61/45Network directories; Name-to-address mapping
    • H04L61/4505Network directories; Name-to-address mapping using standardised directories; using standardised directory access protocols
    • H04L61/4511Network directories; Name-to-address mapping using standardised directories; using standardised directory access protocols using domain name system [DNS]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/02Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种爬取网站页面的方法、装置及***,设计互联网领域,用于爬取网站页面。本发明提供的方法包括:获取爬虫爬取的超文本传输协议HTTP地址;检测所述HTTP地址是否异常;当检测到所述HTTP地址异常时,按照预设规则修改所述HTTP地址;将修改后的HTTP地址发送至预设域名***DNS服务器,以使所述预设DNS服务器根据所述修改后的HTTP地址得到对应的IP地址,所述IP地址与所述HTTP地址相对应;接收所述预设DNS服务器发送的IP地址,访问所述IP地址以爬取所述HTTP地址对应的网站页面。

Description

爬取网站页面的方法、装置及***
技术领域
本发明涉及互联网领域,尤其涉及一种爬取网站页面的方法、装置及***。
背景技术
网络爬虫是一种自动获取网页内容的程序,是搜索引擎的重要组成部分。在爬虫爬取网站页面内容期间,对于网站域名的DNS(Domain NameSystem,域名***)解析工作是非常重要的。一个DNS域名的解析工作通常是将网站的域名转换为IP(Internet Protocol,互联网)地址,但是在DNS解析域名IP的过程中可能存在各种隐患。例如,当DNS服务器遭到污染时(例如受到黑客攻击),DNS服务器对于一些网站域名的IP指向会被篡改,会导致爬虫根据错误的IP地址,爬取错误的地址页面。
发明人在实现本发明的过程中,发现至少存在如下问题:
当DNS服务器遭到污染、导致对于一些网站域名的IP指向被篡改时,无法根据域名获取正确IP地址。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的爬取网站页面的方法、装置及***。
一方面,本发明提供一种爬取网站页面的方法,所述方法包括:
获取爬虫爬取的超文本传输协议HTTP地址;
检测所述HTTP地址是否异常;
当检测到所述HTTP地址异常时,按照预设规则修改所述HTTP地址;
将修改后的HTTP地址发送至预设域名***DNS服务器,以使所述预设DNS服务器根据所述修改后的HTTP地址得到对应的IP地址,所述IP地址与所述HTTP地址相对应;
接收所述预设DNS服务器发送的IP地址,访问所述IP地址以爬取所述HTTP地址对应的网站页面。
另一方面,本发明提供了一种爬取网站页面的装置,所述装置包括:
获取单元,用于获取爬虫爬取的超文本传输协议HTTP地址;
检测单元,用于检测所述获取单元获取的所述HTTP地址是否异常;
修改单元,用于当所述检测单元检测到所述HTTP地址异常时,按照预设规则修改所述HTTP地址;
发送单元,用于将所述修改单元修改后的HTTP地址发送至预设域名***DNS服务器,以使所述预设DNS服务器根据所述修改后的HTTP地址得到对应的IP地址,所述IP地址与所述HTTP地址相对应;
访问单元,用于接收所述预设DNS服务器发送的IP地址,访问所述IP地址以爬取所述HTTP地址对应的网站页面。
借由上述技术方案,本发明提供的爬取网站页面的方法、装置及***,当爬虫爬取的HTTP地址异常时,可以将该HTTP地址转发到预设DNS服务器,从所述预设DNS服务器获取与所述HTTP地址对应的正确的IP地址,从而使得所述爬虫爬取正确的网站页面内容。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本发明实施例中的一种爬取网站页面的方法流程示意图;
图2示出了本发明实施例中的另一种爬取网站页面的方法流程示意图;
图3示出了本发明实施例中的一种爬取网站页面的装置框图;
图4示出了本发明实施例中的另一种爬取网站页面的装置框图;
图5示出了本发明实施例中的一种爬取网站页面的***框图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
本发明实施例提供了一种爬取网站页面的方法,本实施例提供的方法适合应用于爬虫服务器,即部署有爬虫的服务器。值得说明的是,本实施例提供的方法稍作适应性修改,也可以适用于其他部署有爬虫的网络设备,对此不做限定。
为了便于理解,本实施例以爬虫服务器为例进行说明。如图1所示,本实施例提供的方法包括:
101、爬虫服务器获取爬虫爬取的HTTP(HyperText Transfer Protocol,超文本传输协议)地址。
其中,爬虫爬取的HTTP地址中包括待访问页面的域名。
102、爬虫服务器检测所述HTTP地址是否异常。
例如,当所述HTTP地址在一些区域无法正常访问时,可以判定所述HTTP地址发生异常。
103、当检测到所述HTTP地址异常时,爬虫服务器按照预设规则修改所述HTTP地址。
104、爬虫服务器将修改后的HTTP地址发送至预设DNS服务器,以使所述预设DNS服务器根据所述修改后的HTTP地址得到对应的IP地址,所述IP地址与所述HTTP地址相对应。
105、爬虫服务器接收所述预设DNS服务器发送的IP地址,访问所述IP地址以爬取所述HTTP地址对应的网站页面。
本实施例中,所述HTTP地址是指爬虫爬取的地址。
本发明提供的爬取网站页面的方法,当爬虫爬取的HTTP地址异常时,可以将该HTTP地址转发到预设DNS服务器,从所述预设DNS服务器获取与所述HTTP地址对应的正确的IP地址,从而使得所述爬虫爬取正确的网站页面内容。
基于图1所示实施例,本实施例还提供一种爬取网站页面的方法,如图2所示,所述方法包括:
201、爬虫服务器获取爬虫爬取的HTTP地址。
为了便于理解,本实施例以爬虫爬取到的HTTP地址为“http://www.***.com/index.htm”为例进行说明。
202、检测所述HTTP网址是否存在无法正确访问的记录,即检测“http://www.***.com/index.htm”是否存在无法正确访问的记录。
203、当检测到所述HTTP网址存在无法正确访问的记录时,确定所述HTTP网址存在异常。
例如,当检测到存在“http://www.***.com/index.htm”在一些省份区域无法正常访问时,则判定该网址存在异常。
值得说明的是,步骤203由监控模块执行,所述监控模块用于监控网址在不同区域的访问情况。所述监控模块可以是一个独立的、与爬虫服务器联通的设备,也可以是配置在爬虫服务器上的一个功能模块,本实施例不做限定。
204、当检测到所述HTTP地址异常时,获取预设DNS服务器的地址,爬虫服务器将所述预设DNS服务器的地址添加到所述HTTP地址中,得到修改后的HTTP地址。其中,所述预设DNS服务器是运行正常的DNS服务器,所述DNS服务器具备执行正确域名解析的能力。
例如,一种可能的修改方式是,修改后的HTTP地址为
“http://预设DNS服务器的IP地址/getHostPage?host=
www.***.com&address=http://www.***.com/index.htm”
例如,预设DNS服务器的地址为“192.168.3.133”,则修改后的HTTP地址为“http://192.168.3.133/getHostPage?host=
www.***.com&address=http://www.***.com/index.htm”。
205、爬虫服务器基于所述修改后的HTTP地址中的所述预设DNS服务器的地址,确定所述预设DNS服务器,将所述修改后的HTTP地址发送至所述预设DNS服务器。
206、所述预设DNS服务器对所述修改后的HTTP地址进行解析,得到所述爬虫爬取的所述HTTP地址,查找与所述HTTP地址对应的IP地址。
例如,预设DNS服务器对则修改后的HTTP地址“http://192.168.3.133/getHostPage?host=www.***.com&address=http://www.***.com/index.htm”进行解析,得到爬虫爬取的HTTP地址为“http://www.***.com/index.htm”,通过DNS映射确定对应的IP地址,例如对应的IP地址为“192.168.1.1”,则将所述爬虫爬取的HTTP中的域名替换为所述IP地址,得到的结果为“http//192.168.1.1/index.htm”。
207、预设DNS服务器采用HTTP302协议将所述得到的IP地址发送给爬虫服务器。
208、爬虫服务器接收所述预设DNS服务器采用HTTP302协议发送的所述IP地址,根据所述IP地址跳转至相应网站页面。
爬虫服务器得到的是一个HTTP的跳转地址,就像是在用浏览器访问页面时被自动跳转到了别的网站一样,爬虫服务器拿到这个跳转地址后随即访问这个跳转地址,从而拿到了http://www.***.com/index.htm这个页面的真实HTML内容。
通过本实施例提供的爬取网站页面的方法,当爬虫爬取的HTTP地址异常时,可以将该HTTP地址转发到预设DNS服务器,从所述预设DNS服务器获取与所述HTTP地址对应的正确的IP地址,从而使得所述爬虫爬取正确的网站页面内容,提升爬虫爬取数据的质量。
本发明实施例还提供了一种爬取网站页面的装置,能够实现上述图1和图2所示的方法实施例。如图3所示,所述爬取网站页面的装置包括:
获取单元31,用于获取爬虫爬取的超文本传输协议HTTP地址;
检测单元32,用于检测所述获取单元31获取的所述HTTP地址是否异常;
修改单元33,用于当所述检测单元32检测到所述HTTP地址异常时,按照预设规则修改所述HTTP地址;
发送单元34,用于将所述修改单元33修改后的HTTP地址发送至预设域名***DNS服务器,以使所述预设DNS服务器根据所述修改后的HTTP地址得到对应的IP地址,所述IP地址与所述HTTP地址相对应;
访问单元35,用于接收所述预设DNS服务器发送的IP地址,访问所述IP地址以爬取所述HTTP地址对应的网站页面。
本发明实施还提供一种爬取网站页面的装置,如图4所示,
所述检测单元32包括:
检测模块321,用于检测所述HTTP网址是否存在无法正确访问的记录;
判断模块322,用于当所述检测模块321检测到所述HTTP网址存在无法正确访问的记录时,确定所述HTTP网址存在异常。
所述修改单元33包括:
获取模块331,用于获取所述预设DNS服务器的地址;
修改模块332,用于将所述获取模块331获取的所述预设DNS服务器的地址添加到所述HTTP地址中,得到修改后的HTTP地址;
所述发送单元34,用于基于所述修改后的HTTP地址中的所述预设DNS服务器的地址,确定所述预设DNS服务器,将所述修改后的HTTP地址发送至所述预设DNS服务器。
所述访问单元35,包括:
接收模块351,用于接收所述预设DNS服务器采用HTTP302协议发送的所述IP地址;
调整模块352,用于根据所述接收模块351接收的所述IP地址跳转至相应网站页面。
通过本实施例提供的爬取网站页面的装置,当爬虫爬取的HTTP地址异常时,可以将该HTTP地址转发到预设DNS服务器,从所述预设DNS服务器获取与所述HTTP地址对应的正确的IP地址,从而使得所述爬虫爬取正确的网站页面内容,提升爬虫爬取数据的质量。
本发明还一种爬取网站页面的***,能够实现图1和图2所示的方法,如图5所示,所述***包括爬虫服务器51,预设DNS服务器52;
所述爬虫服务器51用于将异常的HTTP地址修改后发送给所述预设DNS服务器52;
所述预设DNS服务器52是运行正常的DNS服务器,所述DNS服务器具备执行正确域名解析的能力;所述预设DNS服务器52用于接收修改后的HTTP地址,对所述修改后的HTTP地址进行解析,得到爬虫爬取到的HTTP地址,查找与所述HTTP地址对应的IP地址。
所述爬取网站页面的装置包括处理器和存储器,上述获取单元、检测单元、修改单元、发送单元和访问单元等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来爬取网站页面。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flashRAM),存储器包括至少一个存储芯片。
本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序代码:获取爬虫爬取的HTTP地址;检测所述HTTP地址是否异常;当检测到所述HTTP地址异常时,按照预设规则修改所述HTTP地址;将修改后的HTTP地址发送至预设DNS服务器,以使所述预设DNS服务器根据所述修改后的HTTP地址得到对应的IP地址,所述IP地址与所述HTTP地址相对应;接收所述预设DNS服务器发送的IP地址,访问所述IP地址以爬取所述HTTP地址对应的网站页面。
本领域内的技术人员应明白,本申请的实施例可提供为方法、***、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flashRAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (10)

1.一种爬取网站页面的方法,其特征在于,包括:
获取爬虫爬取的超文本传输协议HTTP地址;
检测所述HTTP地址是否异常;
当检测到所述HTTP地址异常时,按照预设规则修改所述HTTP地址;
将修改后的HTTP地址发送至预设域名***DNS服务器,以使所述预设DNS服务器根据所述修改后的HTTP地址得到对应的IP地址,所述IP地址与所述HTTP地址相对应;
接收所述预设DNS服务器发送的IP地址,访问所述IP地址以爬取所述HTTP地址对应的网站页面。
2.根据权利要求1所述的爬取网站页面的方法,其特征在于,所述检测所述HTTP地址是否异常,包括:
检测所述HTTP网址是否存在无法正确访问的记录;
当检测到所述HTTP网址存在无法正确访问的记录时,确定所述HTTP网址存在异常。
3.根据权利要求1或2所述的爬取网站页面的方法,其特征在于,
所述按照预设规则修改所述HTTP地址,包括:
获取所述预设DNS服务器的地址;
将所述预设DNS服务器的地址添加到所述HTTP地址中,得到修改后的HTTP地址;
所述将修改后的HTTP地址发送至预设域名***DNS服务器,包括:
基于所述修改后的HTTP地址中的所述预设DNS服务器的地址,确定所述预设DNS服务器,将所述修改后的HTTP地址发送至所述预设DNS服务器。
4.根据权利要求3所述的爬取网站页面的方法,其特征在于,所述预设DNS服务器是运行正常的DNS服务器,所述DNS服务器具备执行正确域名解析的能力;
所述预设DNS服务器根据所述修改后的HTTP地址得到对应的IP地址,包括:
所述预设DNS服务器对所述修改后的HTTP地址进行解析,得到所述爬虫爬取的所述HTTP地址,查找与所述HTTP地址对应的IP地址。
5.根据权利要求4所述的爬取网站页面的方法,所述接收所述预设DNS服务器发送的IP地址,访问所述IP地址以爬取所述HTTP地址对应的网站页面,包括:
接收所述预设DNS服务器采用HTTP302协议发送的所述IP地址;
根据所述IP地址跳转至相应网站页面。
6.一种爬取网站页面的装置,其特征在于,包括:
获取单元,用于获取爬虫爬取的超文本传输协议HTTP地址;
检测单元,用于检测所述获取单元获取的所述HTTP地址是否异常;
修改单元,用于当所述检测单元检测到所述HTTP地址异常时,按照预设规则修改所述HTTP地址;
发送单元,用于将所述修改单元修改后的HTTP地址发送至预设域名***DNS服务器,以使所述预设DNS服务器根据所述修改后的HTTP地址得到对应的IP地址,所述IP地址与所述HTTP地址相对应;
访问单元,用于接收所述预设DNS服务器发送的IP地址,访问所述IP地址以爬取所述HTTP地址对应的网站页面。
7.根据权利要求6所述的爬取网站页面的装置,其特征在于,所述检测单元包括:
检测模块,用于检测所述HTTP网址是否存在无法正确访问的记录;
判断模块,用于当所述检测模块检测到所述HTTP网址存在无法正确访问的记录时,确定所述HTTP网址存在异常。
8.根据权利要求6或7所述的爬取网站页面的装置,其特征在于,所述修改单元包括:
获取模块,用于获取所述预设DNS服务器的地址;
修改模块,用于将所述获取模块获取的所述预设DNS服务器的地址添加到所述HTTP地址中,得到修改后的HTTP地址;
所述发送单元,用于基于所述修改后的HTTP地址中的所述预设DNS服务器的地址,确定所述预设DNS服务器,将所述修改后的HTTP地址发送至所述预设DNS服务器。
9.根据权利要求8所述的爬取网站页面的装置,所述访问单元,包括:
接收模块,用于接收所述预设DNS服务器采用HTTP302协议发送的所述IP地址;
调整模块,用于根据所述接收模块接收的所述IP地址跳转至相应网站页面。
10.一种爬取网站页面的***,其特征在于,所述***包括爬虫服务器,预设域名***DNS服务器;
所述爬虫服务器用于将异常的HTTP地址修改后发送给所述预设DNS服务器;
所述预设DNS服务器是运行正常的DNS服务器,所述DNS服务器具备执行正确域名解析的能力;所述预设DNS服务器用于接收修改后的HTTP地址,从修改后的HTTP地址中解析得到爬虫爬取到的HTTP地址,查找与所述HTTP地址对应的IP地址。
CN201510728918.2A 2015-10-30 2015-10-30 爬取网站页面的方法、装置、***和存储介质 Active CN106657422B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510728918.2A CN106657422B (zh) 2015-10-30 2015-10-30 爬取网站页面的方法、装置、***和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510728918.2A CN106657422B (zh) 2015-10-30 2015-10-30 爬取网站页面的方法、装置、***和存储介质

Publications (2)

Publication Number Publication Date
CN106657422A true CN106657422A (zh) 2017-05-10
CN106657422B CN106657422B (zh) 2020-02-21

Family

ID=58810893

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510728918.2A Active CN106657422B (zh) 2015-10-30 2015-10-30 爬取网站页面的方法、装置、***和存储介质

Country Status (1)

Country Link
CN (1) CN106657422B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109977332A (zh) * 2019-03-19 2019-07-05 广州品唯软件有限公司 移动端的图片访问方法、装置及存储介质
CN111177619A (zh) * 2019-12-19 2020-05-19 山石网科通信技术股份有限公司 网页识别方法、装置、存储介质和处理器
CN112579857A (zh) * 2019-09-30 2021-03-30 北京国双科技有限公司 一种数据爬取的方法、装置、电子设备及存储介质
CN113343064A (zh) * 2021-06-18 2021-09-03 北京百度网讯科技有限公司 数据处理方法、装置、设备、存储介质以及计算机程序产品

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102457588A (zh) * 2011-12-20 2012-05-16 北京瑞汛世纪科技有限公司 一种实现反向域名解析的方法及装置
CN103001817A (zh) * 2011-09-16 2013-03-27 厦门市美亚柏科信息股份有限公司 一种实时检测网页跨域请求的方法和装置
CN103916490A (zh) * 2014-04-03 2014-07-09 深信服网络科技(深圳)有限公司 一种域名***dns防篡改方法及装置
CN104967698A (zh) * 2015-02-13 2015-10-07 腾讯科技(深圳)有限公司 一种爬取网络数据的方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103001817A (zh) * 2011-09-16 2013-03-27 厦门市美亚柏科信息股份有限公司 一种实时检测网页跨域请求的方法和装置
CN102457588A (zh) * 2011-12-20 2012-05-16 北京瑞汛世纪科技有限公司 一种实现反向域名解析的方法及装置
CN103916490A (zh) * 2014-04-03 2014-07-09 深信服网络科技(深圳)有限公司 一种域名***dns防篡改方法及装置
CN104967698A (zh) * 2015-02-13 2015-10-07 腾讯科技(深圳)有限公司 一种爬取网络数据的方法和装置

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109977332A (zh) * 2019-03-19 2019-07-05 广州品唯软件有限公司 移动端的图片访问方法、装置及存储介质
CN112579857A (zh) * 2019-09-30 2021-03-30 北京国双科技有限公司 一种数据爬取的方法、装置、电子设备及存储介质
CN111177619A (zh) * 2019-12-19 2020-05-19 山石网科通信技术股份有限公司 网页识别方法、装置、存储介质和处理器
CN111177619B (zh) * 2019-12-19 2022-09-09 山石网科通信技术股份有限公司 网页识别方法、装置、存储介质和处理器
CN113343064A (zh) * 2021-06-18 2021-09-03 北京百度网讯科技有限公司 数据处理方法、装置、设备、存储介质以及计算机程序产品
CN113343064B (zh) * 2021-06-18 2023-07-28 北京百度网讯科技有限公司 数据处理方法、装置、设备、存储介质以及计算机程序产品

Also Published As

Publication number Publication date
CN106657422B (zh) 2020-02-21

Similar Documents

Publication Publication Date Title
US11727114B2 (en) Systems and methods for remote detection of software through browser webinjects
US9356937B2 (en) Disambiguating conflicting content filter rules
CN105512559B (zh) 一种用于提供访问页面的方法与设备
CN104881603B (zh) 网页重定向漏洞检测方法及装置
CN102663319B (zh) 下载链接安全提示方法及装置
CN104933363B (zh) 检测恶意文件的方法和装置
CN103001817B (zh) 一种实时检测网页跨域请求的方法和装置
CN103077254B (zh) 网页获取方法和装置
CN106657422A (zh) 爬取网站页面的方法、装置及***
US11200244B2 (en) Keyword reporting for mobile applications
CN102724187A (zh) 一种针对网址的安全检测方法及装置
US9792370B2 (en) Identifying equivalent links on a page
CN106126693A (zh) 一种网页的相关数据的发送方法及装置
CN104679747B (zh) 一种网址重定向的检测装置及方法
CN102752300A (zh) 动态防盗链***和动态防盗链方法
CN103701779A (zh) 一种二次访问网站的方法、装置及防火墙设备
CN113961930A (zh) Sql注入漏洞检测方法、装置及电子设备
CN104008331A (zh) 一种恶意网站的访问方法、装置和***
CN104391953A (zh) 检测网页更新的方法及装置
WO2017086992A1 (en) Malicious web content discovery through graphical model inference
CN103475673B (zh) 钓鱼网站识别方法、装置及客户端
CN104717226A (zh) 一种针对网址的检测方法及装置
CN106911649A (zh) 一种检测网络攻击的方法和装置
CN102917053B (zh) 一种用于判断网页网址重写的方法、设备和***
CN105930385A (zh) 一种数据爬取方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 100083 No. 401, 4th Floor, Haitai Building, 229 North Fourth Ring Road, Haidian District, Beijing

Applicant after: Beijing Guoshuang Technology Co.,Ltd.

Address before: 100086 Cuigong Hotel, 76 Zhichun Road, Shuangyushu District, Haidian District, Beijing

Applicant before: Beijing Guoshuang Technology Co.,Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant