CN107943838B - 一种自动获取xpath生成爬虫脚本的方法及*** - Google Patents

一种自动获取xpath生成爬虫脚本的方法及*** Download PDF

Info

Publication number
CN107943838B
CN107943838B CN201711034452.1A CN201711034452A CN107943838B CN 107943838 B CN107943838 B CN 107943838B CN 201711034452 A CN201711034452 A CN 201711034452A CN 107943838 B CN107943838 B CN 107943838B
Authority
CN
China
Prior art keywords
webpage
tags
xpath
script
crawler
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711034452.1A
Other languages
English (en)
Other versions
CN107943838A (zh
Inventor
姬永杰
陈国强
***
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Dasy Technology Development Co ltd
Original Assignee
Beijing Dasy Technology Development Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Dasy Technology Development Co ltd filed Critical Beijing Dasy Technology Development Co ltd
Priority to CN201711034452.1A priority Critical patent/CN107943838B/zh
Publication of CN107943838A publication Critical patent/CN107943838A/zh
Application granted granted Critical
Publication of CN107943838B publication Critical patent/CN107943838B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/30Creation or generation of source code
    • G06F8/31Programming languages or programming paradigms

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种自动获取xpath生成爬虫脚本的方法及***,所述方法包括以下步骤:(1)通过url地址打开网页,遍历网页中所有的<a>标签;(2)取出每个<a>标签对应的xpath路径;(3)按xpath路径相同划分为一组;然后,统计分组后<a>标签个数;(4)取出每组中的一个<a>标签,打开该链接网页;(5)对于步骤4中每个被打开的网页,统计网页中的<a>标签个数以及文字个数;(6)取出文字个数最多且<a>标签个数最少的一组,记录其对应的xpath路径;(7)基于Scrapy框架,根据对应的xpath路径生成爬虫脚本。该方法能够基于Scrapy框架对政府网站***息进行爬取,可以自动解析出网页中所需内容的xpath路径,提升爬虫管理的自动化水平。

Description

一种自动获取xpath生成爬虫脚本的方法及***
技术领域
本发明涉及网络爬虫技术领域,具体涉及一种自动获取xpath生成爬虫 脚本的方法及***。所述xpath指xpath路径。
背景技术
随着进一步加大政府信息公开和数据开放力度,越来越多的政府信息被 公开在政府网站上形成海量的政府网站***息。现有的政府网站由各级政 府的各类部门建立和维护、管理,从政府网站上方便快速的获得政府网站公 开信息,必将给用户带来巨大的价值。
但是,这些政府网站的内容不同,网页的结构各异,现在的互联网爬虫 (亦称为网络爬虫,简称即爬虫),对政府网站进行爬取时,都需要专业技术 人员分析网页的结构,从而定位所需内容并对其进行爬取,这是因为:
网页中所需内容的xpath路径各不相同,进行爬取时需要人工解析所需 内容的xpath路径,这显然将会花费大量的时间和人力,工作量大,劳动繁 琐。面对成千上万的政府网站,这种模式显然效率较低。
本发明涉及以下技术术语:
1、爬取,是指访问网站,并从网页获取信息,实现网页数据采集。
2、xpath,是在网页(尤其XML文档)中查找信息的语言(爬虫),用 来对网页(尤其XML文档)中的元素和属性进行遍历。xpath属于Html路 径语言,它是可以用来确定Html文档中某部分位置的语言。
3、Scrapy,是Python开发的一个快速、高层次的屏幕抓取和web抓取 框架(爬虫框架),用于抓取web站点并从网页中提取结构化的数据。Scrapy 用途广泛,可以用于数据挖掘、监测和自动化测试。在基于Scrapy框架的爬 虫脚本中,最关键的步骤是识别网页中所需内容的xpath路径,以便爬取指 定网页内容。
4、互联网爬虫,是一种按照一定的规则,自动地抓取万维网信息的程序 或者脚本,其主要为两种方式:
第一种是类似百度等搜索引擎的全网爬取;
第二种是面向某种类别的定向爬取,定向爬取是指爬取指定网页内容(指 定网页的定向内容)。
但是,对于定向爬取的方式,如前所述,由于政府网站的网页布局比较 杂乱,获取指定网页内容(网页中所需内容)的xpath路径,需要专业技术 人员在已有网页的url地址前提下,查看网页源代码,经过分析后,获得正 确xpath路径。
发明内容
针对现有技术中存在的缺陷,本发明的目的在于提供一种自动获取xpath 生成爬虫脚本的方法及***,通过该方法能够基于Scrapy框架对政府网站公 开信息进行爬取,可以自动解析出网页中所需内容的xpath路径,提升爬虫 管理的自动化水平。
为实现上述目的,本发明采用的技术方案如下:
一种自动获取xpath生成爬虫脚本的方法,包括以下步骤:
步骤1,获取网页的url地址,并通过url地址打开网页,遍历网页中所 有的<a>标签;
所述<a>标签用于定义超链接;
步骤2,取出每个<a>标签对应的xpath路径;
步骤3,按以下原则对<a>标签进行分组:xpath路径相同则划分为一组; 然后,统计分组后<a>标签个数;
步骤4,取出每组中的一个<a>标签,打开该链接网页;
步骤5,对于步骤4中每个被打开的网页,统计网页中的<a>标签个数以 及文字个数;
所述文字个数指<a>标签的文字个数;
步骤6,取出文字个数最多且<a>标签个数最少的一组,记录其对应的xpath路径;
步骤7,基于Scrapy框架,根据对应的xpath路径生成爬虫脚本。
进一步,如上所述的一种自动获取xpath生成爬虫脚本的方法,步骤1 中,所述网页为包含主题信息列表的网页。
进一步,如上所述的一种自动获取xpath生成爬虫脚本的方法,步骤2 的具体步骤为:
步骤2.1,通过jsoup包,获取<a>标签的父级标签;
步骤2.2,递归调用,即对每个父级标签再获得其父级标签;
步骤2.3,直到获得的父级标签为<html>结束;
步骤2.4,将获得的所有父级标签依次连接,得到该<a>标签的xpath路 径。
进一步,如上所述的一种自动获取xpath生成爬虫脚本的方法,步骤5 的具体步骤为:通过jsoup获得所有<a>标签,及对应的text()内容,并统计 <a>标签个数及text()内容的文字个数。
进一步,如上所述的一种自动获取xpath生成爬虫脚本的方法,步骤7 的具体步骤为:将步骤1中的网页的url地址及步骤6记录的xpath路径发送 给Scrapy框架,生成相应的Scrapy爬虫脚本。
一种用于实现上述方法的自动获取xpath生成爬虫脚本的***,包括:
<a>标签遍历模块,用于打开url地址对应的网页,并遍历网页中所有的 <a>标签;
xpath路径生成模块,用于取出每个<a>标签对应的xpath路径;
标签分组模块,用于对<a>标签进行分组,用于统计分组后<a>标签个数;
链接网页获取模块,用于根据<a>标签打开该链接网页;
信息统计模块,用于统计网页中的<a>标签个数以及文字个数;
xpath路径判别模块,用于分析出文字个数最多且<a>标签个数最少的分 组对应的xpath路径;
爬虫脚本生成模块,用于根据对应的xpath路径生成爬虫脚本。
进一步,如上所述的一种自动获取xpath生成爬虫脚本的***,所述爬 虫脚本生成模块,基于Scrapy框架,根据网页的url地址及xpath路径,生 成相应的Scrapy爬虫脚本。
本发明的有益效果在于:通过本方法,在不需要专业技术人员参与下, 只需通过网页的url地址即可自动获取xpath路径。
通过本方法,实现了自动定位网页中所需内容的xpath路径,生成爬虫 脚本,使爬虫管理简单化,自动化;由原来必须由专业技术人员编写爬虫脚 本,一个月只能维护近百个爬虫脚本,提升到一个普通人员即可凭借本方法 维护上千个爬虫脚本,极大提高了工作效率。
附图说明
图1为本发明具体实施方式中提供的一种自动获取xpath生成爬虫脚本 的方法的流程图;
图2为本发明具体实施方式中提供的一种自动获取xpath生成爬虫脚本 的***的结构框图。
图3为某政府网站网页示例。
图4为图3所示网页中<a>标签对应网页打开示意图。
具体实施方式
下面结合说明书附图与具体实施方式对本发明做进一步的详细说明。
Scrapy是目前主流的爬虫框架,它需要获得网页中所需内容(需要进行 爬取的内容,例如主题信息列表)的Html唯一标签即xpath路径,才能够进 行爬取。因此,本发明的目的之一是能够自动的识别网页中主题信息列表所 在的xpath路径,只对主题信息列表中的信息进行爬取,而过滤掉网页中的 其它信息。
本发明所述方法主要思路是:政府网站相对来讲,包含政府网站*** 息的网页的结构是有一定的共通性的。基本一个包含政府网站***息的网 页,大都包含:菜单导航,通知公告,主题信息列表,其它导航,广告及其 它链接等内容。但是,不同的网页,主题信息列表对应的xpath路径都不相 同,本发明给出如下方法即可自动筛选出主题信息列表的xpath路径,自动 生成爬虫脚本,并对主题信息列表中的信息进行爬取。
图1示出了本发明具体实施方式中提供的一种自动获取xpath生成爬虫 脚本的方法的流程图,该方法主要包括以下步骤:
步骤1,获取网页的url地址,并通过url地址打开网页,遍历网页中所 有的<a>标签;
所述<a>标签用于定义超链接;
所述网页为包含主题信息列表的网页,此类网页的url地址,可以人工 收集整理,也可以根据不同政府网站的架构,预先设定;
所述遍历网页中所有的<a>标签的具体算法如下:调用jsoup包的方法, 获取网页中所有的<a>标签及其内容;jsoup是一个解析网页的包,用java开 发的,提供了类似DOM,CSS选择器的方式来查找和提取文档中的内容;
步骤2,取出每个<a>标签对应的xpath路径;
具体算法如下:
步骤2.1,通过jsoup包,获取<a>标签的父级标签;
步骤2.2,递归调用,即对每个父级标签再获得其父级标签;
步骤2.3,直到获得的父级标签为<html>结束;
步骤2.4,将获得的所有父级标签依次连接,得到该<a>标签的xpath路 径;
步骤3,按以下原则对<a>标签进行分组:xpath路径相同则划分为一组; 即:将Xpath路径相同的<a>标签划分为一组;然后,统计分组后<a>标签个 数;
步骤4,取出每组中的一个<a>标签,打开该链接网页;
由于步骤3的分组方式,任意一个该组中的<a>标签,所打开的链接网 页都是相同的;
步骤5,对于步骤4中每个被打开的网页,统计网页中的<a>标签个数以 及文字个数;
所述文字个数指<a>标签的文字个数;
具体算法如下:通过jsoup获得所有<a>标签,及对应的text()内容,并 统计<a>标签个数及text()内容的文字个数;
<a>标签个数即<a>标签的个数;
文字个数即文字字数;
步骤6,取出文字个数最多且<a>标签个数最少的一组,记录其对应的 xpath路径;
步骤7,基于Scrapy框架,根据对应的xpath路径生成爬虫脚本,所述 爬虫脚本指Scrapy爬虫脚本;
具体算法如下:将步骤1中的网页的url地址及步骤6记录的xpath路径 发送给Scrapy框架,生成相应的Scrapy爬虫脚本;
Scrapy爬虫脚本只需要网页的url地址及xpath路径,其它内容基本固定 不变,所以只需获得url及xpath即可通过Scrapy框架生成Scrapy爬虫脚本。
本发明所述方法,通过上百个政府类网页的验证,可以将80%的包含政 府网站***息的网页,自动分析并得到主题信息列表对应的xpath路径, 从而生成爬虫脚本,该方法平均耗时1分钟左右,证明方法可行且效率较高。
但是确有一些网站的架构较特殊,本方法或不能完全准确的获取xpath 路径,可以根据遇到的具体情况,通过总结这些网站的架构的特点,改进步 骤5、6的算法,达到准确获取xpath路径的目的。例如:一些网页列表链接 只有几条,而其它链接却比较多,这类特殊情况不在本发明讨论范围内,不 再详述。
以下为一具体实施例。
如图3所示,为一政府网站的网页示例,该示例中可见:
顶部的菜单导航,
左侧的其它导航,
下部的广告及其它链接,
中部的主题信息列表。
该网页的url地址是已知的。
具体步骤如下:
步骤1,打开该网页后,遍历网页中的所有<a>标签;
该网页中有以下<a>标签:
<a href="/defaults/news/news/nid/5701"title="北京第二外国语学院贯培学院五位一体多功能实验室建设政府采购项目中标公告">
<a href="/defaults/news/news/nid/5693"title="北京市监狱改扩建安防***建设一期政府采购项目视频监控***专项设备采购中标公告">
<a href="/defaults/news/news/nid/5692"title="北京市人民政府国有资产监督管理委员会出资企业2017-2019年度决算审计咨询、质量检查与管理政 府采购项目中标公告">
(标签过多,未全部列举)
步骤2,取出每个<a>标签对应的xpath路径;各<a>标签对应的xpath路 径如下:
//*[@id="nav_right"]/ul[2]/li[1]/a
//*[@id="newslist"]/ul/li[1]/span[1]/a
//*[@id="newstype_list"]/dl/dt[1]/a
//*[@id="footer"]/div[2]/ul/li[1]/a
步骤3,按xpath路径相同的对<a>标签进行分组;分组结果如下表:
网页内容 Xpath路径 <a>标签个数
菜单导航 //*[@id="nav_right"]/ul[2]/li[1]/a 6
主题信息列表 //*[@id="newslist"]/ul/li[1]/span[1]/a 15
其它导航 //*[@id="newstype_list"]/dl/dt[1]/a 5
广告及其它链接 //*[@id="footer"]/div[2]/ul/li[1]/a 5
步骤4,取出每组中的一个<a>标签,打开该链接网页,本具体实施例中 有四个分组,则四个对应的网页如图4所示,
步骤5,对于步骤4中每个被打开的网页,统计网页中的<a>标签个数以 及文字个数;统计结果如下表:
网页内容 <a>标签个数 网页文字个数
菜单导航 42 222
主题信息列表 33 1607
其它导航 59 836
广告及其它链接 44 283
步骤6,取出文字个数最多且<a>标签个数最少的一组,记录其对应的 xpath路径;
根据上表,符合“文字个数最多且<a>标签个数最少的”的为主题信息 列表对应的xpath路径;
步骤7,根据主题信息列表对应的xpath路径生成爬虫脚本。
由此可见,这种通过每组<a>标签的网页文字个数与<a>标签个数判断主 题信息列表的xpath路径,无需专业技术人员参与识别,普通人员即可完成 爬虫管理。
与图1中所示的方法相对应,本发明实施方式中还提供了一种自动获取 xpath生成爬虫脚本的***,如图2所示,该***包括:
<a>标签遍历模块,用于打开url地址对应的网页,并遍历网页中所有的 <a>标签;
xpath路径生成模块,用于取出每个<a>标签对应的xpath路径;
标签分组模块,用于对<a>标签进行分组,用于统计分组后<a>标签个数;
链接网页获取模块,用于根据<a>标签打开该链接网页;
信息统计模块,用于统计网页中的<a>标签个数以及文字个数;
xpath路径判别模块,用于分析出文字个数最多且<a>标签个数最少的分 组对应的xpath路径;
爬虫脚本生成模块,用于根据对应的xpath路径生成爬虫脚本。
在上述技术方案的基础上,所述爬虫脚本生成模块,基于Scrapy框架, 根据网页的url地址及xpath路径,生成相应的Scrapy爬虫脚本。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本 发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要 求及其同等技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (3)

1.一种自动获取政府网站xpath生成爬虫脚本的方法,包括以下步骤:
步骤1,获取网页的url地址,并通过url地址打开网页,遍历网页中所有的<a>标签;
所述<a>标签用于定义超链接;所述网页为包含主题信息列表的政府网站;所述遍历网页中所有的<a>标签的具体算法如下:调用jsoup包的方法,获取网页中所有的标签及其内容;
步骤2,取出每个<a>标签对应的xpath路径;
所述步骤2的具体步骤为:
步骤2.1,通过jsoup包,获取<a>标签的父级标签;
步骤2.2,递归调用,即对每个父级标签再获得其父级标签;
步骤2.3,直到获得的父级标签为<html>结束;
步骤2.4,将获得的所有父级标签依次连接,得到该<a>标签的xpath路径;
步骤3,按以下原则对<a>标签进行分组:xpath路径相同则划分为一组;然后,统计分组后<a>标签个数;
基于所述步骤3的分组,任意一个该组中的标签,所打开的链接网页都是相同的;
所述分组结果包括:菜单导航、主题信息列表、其他导航、广告及其他链接;
步骤4,取出每组中的一个<a>标签,打开该链接网页;
步骤5,对于步骤4中每个被打开的网页,统计网页中的<a>标签个数以及文字个数;
所述文字个数指<a>标签的文字个数;
步骤5的具体步骤为:通过jsoup获得所有<a>标签,及对应的text()内容,并统计<a>标签个数及text()内容的文字个数;
步骤6,取出文字个数最多且<a>标签个数最少的一组,记录其对应的xpath路径;
步骤7,基于Scrapy框架,根据对应的xpath路径生成爬虫脚本;
步骤7的具体步骤为:将步骤1中的网页的url地址及步骤6记录的xpath路径发送给Scrapy框架,生成相应的Scrapy爬虫脚本。
2.根据权利要求1所述的一种自动获取政府网站xpath生成爬虫脚本的方法,其特征在于:步骤1中,所述网页为包含主题信息列表的网页。
3.一种自动获取政府网站xpath生成爬虫脚本的***,包括:
<a>标签遍历模块,用于打开url地址对应的网页,并遍历网页中所有的<a>标签;所述<a>标签用于定义超链接;所述网页为包含主题信息列表的政府网站;所述遍历网页中所有的<a>标签的具体算法如下:调用jsoup包的方法,获取网页中所有的标签及其内容;
xpath路径生成模块,用于取出每个<a>标签对应的xpath路径;所述xpath路径生成模块通过jsoup包,获取<a>标签的父级标签;然后递归调用,即对每个父级标签再获得其父级标签,直到获得的父级标签为<html>结束,最后将获得的所有父级标签依次连接,得到该<a>标签的xpath路径;
标签分组模块,用于对<a>标签进行分组,用于统计分组后<a>标签个数;基于所述标签分组模块的分组,任意一个该组中的标签,所打开的链接网页都是相同的;所述分组结果包括:菜单导航、主题信息列表、其他导航、广告及其他链接;
链接网页获取模块,用于根据<a>标签打开该链接网页;
信息统计模块,用于统计网页中的<a>标签个数以及文字个数;所述文字个数指<a>标签的文字个数;所述信息统计模块通过jsoup获得所有<a>标签,及对应的text()内容,并统计<a>标签个数及text()内容的文字个数;
xpath路径判别模块,用于分析出文字个数最多且<a>标签个数最少的分组对应的xpath路径;
爬虫脚本生成模块,用于根据对应的xpath路径生成爬虫脚本;所述爬虫脚本生成模块将所述<a>标签遍历模块的网页的url地址及所述xpath路径判别模块记录的xpath路径发送给Scrapy框架,生成相应的Scrapy爬虫脚本。
CN201711034452.1A 2017-10-30 2017-10-30 一种自动获取xpath生成爬虫脚本的方法及*** Active CN107943838B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711034452.1A CN107943838B (zh) 2017-10-30 2017-10-30 一种自动获取xpath生成爬虫脚本的方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711034452.1A CN107943838B (zh) 2017-10-30 2017-10-30 一种自动获取xpath生成爬虫脚本的方法及***

Publications (2)

Publication Number Publication Date
CN107943838A CN107943838A (zh) 2018-04-20
CN107943838B true CN107943838B (zh) 2021-09-07

Family

ID=61936673

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711034452.1A Active CN107943838B (zh) 2017-10-30 2017-10-30 一种自动获取xpath生成爬虫脚本的方法及***

Country Status (1)

Country Link
CN (1) CN107943838B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109246069B (zh) * 2018-06-15 2020-10-16 华为技术有限公司 网页登录方法、装置和可读存储介质
CN109657117A (zh) * 2018-11-12 2019-04-19 厦门市美亚柏科信息股份有限公司 一种网页要素的自动提取方法、***及计算机存储介质
CN110147476A (zh) * 2019-04-12 2019-08-20 深圳壹账通智能科技有限公司 基于Scrapy的数据爬取方法、终端设备及计算机可读存储介质
CN111444407B (zh) * 2020-03-26 2023-05-16 桂林理工大学 一种网络爬虫的页面列表信息自动提取方法及***
CN111460259B (zh) * 2020-03-31 2023-04-14 腾讯科技(深圳)有限公司 一种同类元素确定方法、装置、计算机设备及存储介质
CN111831874B (zh) * 2020-07-16 2022-08-19 深圳赛安特技术服务有限公司 网页数据信息获取方法、装置、计算机设备及存储介质
CN112099778B (zh) * 2020-11-13 2021-02-02 北京智慧星光信息技术有限公司 基于xpath的数据采集方法、电子设备及存储介质
CN112417252B (zh) * 2020-12-04 2023-05-09 天津开心生活科技有限公司 爬虫路径确定方法、装置、存储介质与电子设备
CN114201971B (zh) * 2021-12-13 2023-06-13 海南港航控股有限公司 一种从网页中提取人物属性的方法及***

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102073730A (zh) * 2011-01-14 2011-05-25 哈尔滨工程大学 一种主题网络爬虫***的构建方法
CN103020156A (zh) * 2012-11-23 2013-04-03 北京小米科技有限责任公司 一种针对网页的处理方法、装置和设备
CN103778238A (zh) * 2014-01-27 2014-05-07 西安交通大学 一种从***半结构化数据自动构建分类树的方法
CN104090931A (zh) * 2014-06-25 2014-10-08 华南理工大学 一种基于网页链接参数分析的信息预测采集方法
CN104142985A (zh) * 2014-07-23 2014-11-12 哈尔滨工业大学(威海) 一种半自动化的垂直爬虫生成工具及方法
CN104598462A (zh) * 2013-10-30 2015-05-06 深圳市国信互联科技有限公司 提取结构化数据的方法及装置
CN105677764A (zh) * 2015-12-30 2016-06-15 百度在线网络技术(北京)有限公司 信息提取方法和装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104360882B (zh) * 2014-11-07 2018-07-27 北京奇虎科技有限公司 一种浏览器中对网页中图片进行显示方法和装置
CN107016102B (zh) * 2017-04-12 2019-12-03 成都四方伟业软件股份有限公司 一种大数据网络爬虫分页配置方法
CN107066576B (zh) * 2017-04-12 2019-11-12 成都四方伟业软件股份有限公司 一种大数据网络爬虫分页选择方法和***

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102073730A (zh) * 2011-01-14 2011-05-25 哈尔滨工程大学 一种主题网络爬虫***的构建方法
CN103020156A (zh) * 2012-11-23 2013-04-03 北京小米科技有限责任公司 一种针对网页的处理方法、装置和设备
CN104598462A (zh) * 2013-10-30 2015-05-06 深圳市国信互联科技有限公司 提取结构化数据的方法及装置
CN103778238A (zh) * 2014-01-27 2014-05-07 西安交通大学 一种从***半结构化数据自动构建分类树的方法
CN104090931A (zh) * 2014-06-25 2014-10-08 华南理工大学 一种基于网页链接参数分析的信息预测采集方法
CN104142985A (zh) * 2014-07-23 2014-11-12 哈尔滨工业大学(威海) 一种半自动化的垂直爬虫生成工具及方法
CN105677764A (zh) * 2015-12-30 2016-06-15 百度在线网络技术(北京)有限公司 信息提取方法和装置

Also Published As

Publication number Publication date
CN107943838A (zh) 2018-04-20

Similar Documents

Publication Publication Date Title
CN107943838B (zh) 一种自动获取xpath生成爬虫脚本的方法及***
CN103559235B (zh) 一种在线社交网络恶意网页检测识别方法
CN103927370B (zh) 一种组合文字和图片信息的网络资讯批量采集方法
CN109857956B (zh) 基于标签和分块特征的新闻网页关键信息自动抽取方法
CN108334641B (zh) 采集用户行为数据的方法、***、电子设备、存储介质
CN106649810A (zh) 基于Ajax的新闻网页动态数据的抓取方法及***
CN107153716B (zh) 网页内容提取方法和装置
CN103902889A (zh) 一种恶意消息云检测方法和服务器
CN103605738A (zh) 网页访问数据统计方法及装置
CN105468744A (zh) 一种实现税务舆情分析和全文检索的大数据平台
CN103838796A (zh) 一种网页结构化信息抽取方法
CN103530429A (zh) 一种网页正文抽取的方法
CN107526833B (zh) 一种url管理方法、***
KR102124935B1 (ko) 크라우드 소싱을 활용한 재난 모니터링 시스템, 재난 모니터링 방법 및 이를 수행하기 위한 컴퓨터 프로그램
CN102902790A (zh) 网页分类***及方法
CN104636340A (zh) 网页url过滤方法、装置及***
CN101576933A (zh) 基于标题分隔符的全自动web页面分组法
CN104331512A (zh) 一种bbs页面自动采集方法
KR20190040046A (ko) 정보 수집 시스템, 정보 수집 방법 및 기록 매체
CN109614535B (zh) 一种基于Scrapy框架的网络数据的采集方法及装置
Pirnau Tool for monitoring Web sites for emergency-related posts and post analysis
CN105550279A (zh) 基于视觉的列表页识别方法
CN111241446B (zh) 一种web网页的正文内容提取方法、装置、设备及介质
CN103106217A (zh) 一种留言信息的处理方法和设备
CN116821548B (zh) 一种网页分页方法、装置及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information

Inventor after: Ji Yongjie

Inventor after: Chen Guoqiang

Inventor after: Ren Jianxin

Inventor before: Ji Yongjie

Inventor before: Chen Guoqiang

Inventor before: Wang Changyong

Inventor before: Ren Jianxin

CB03 Change of inventor or designer information
GR01 Patent grant
GR01 Patent grant
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: A method and system for automatically obtaining xpath to generate crawler scripts

Effective date of registration: 20231114

Granted publication date: 20210907

Pledgee: Beijing first financing Company limited by guarantee

Pledgor: BEIJING DASY TECHNOLOGY DEVELOPMENT CO.,LTD.

Registration number: Y2023110000472

PE01 Entry into force of the registration of the contract for pledge of patent right