CN107943862A - 一种智能生成爬虫的方法及装置 - Google Patents
一种智能生成爬虫的方法及装置 Download PDFInfo
- Publication number
- CN107943862A CN107943862A CN201711098395.3A CN201711098395A CN107943862A CN 107943862 A CN107943862 A CN 107943862A CN 201711098395 A CN201711098395 A CN 201711098395A CN 107943862 A CN107943862 A CN 107943862A
- Authority
- CN
- China
- Prior art keywords
- reptile
- webpage
- rule
- tree
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
- G06F16/986—Document structures and storage, e.g. HTML extensions
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明公开了一种智能生成爬虫的方法及装置。所述智能生成爬虫的方法,包括:构造出通用的爬虫代码;根据输入的网页信息,通过所述爬虫代码生成所述网页的树状结构;根据用户对所述网页的树状结构的选择指令,生成相应的爬虫规则;根据所述爬虫规则下载对应的数据内容并保存。本发明无需用户具备一定的专业知识,根据用户的实际需求生成各种策略的爬虫代码,获取并存储用户实际需要的内容。
Description
技术领域
本发明涉及爬虫技术领域,特别涉及一种智能生成爬虫的方法及装置。
背景技术
随着网络时代的数据量的几何级的发展速度,在获取网络资源的效率方面的价值就越发被人们所重视。针对众多用户的关注点而言,对同一个网页中的感兴趣内容也不尽相同。使用爬虫工具虽然可以大量快速的获取网页中的内容,但是往往需要具备一定专业知识的用户才可以根据不同的关注点来获取网页中的相应的内容,对于不同类型的网页还需要具备专业知识的用户进行相应的修改,缺乏一定专业知识的用户难以灵活的更改爬虫策略来获取用户在各种不同类型的网页中感兴趣的内容。如何妥善的处理上述问题,就成为了业界亟待解决的课题。
发明内容
本发明提供一种智能生成爬虫的方法及装置,用以在用户不具备一定的专业知识的情况下,即可根据用户的实际需求生成各种策略的爬虫代码,获取并存储用户实际需要的内容。
根据本发明实施例的第一方面,提供一种智能生成爬虫的方法,包括:
构造出通用的爬虫代码;
根据输入的网页信息,通过所述爬虫代码生成所述网页的树状结构;
根据用户对所述网页的树状结构的选择指令,生成相应的爬虫规则;
根据所述爬虫规则下载对应的数据内容并保存。
在一个实施例中,所述根据输入的网页生成,通过所述爬虫代码生成所述网页的树状结构,包括:
预先构造适用于各种类型的存储结构,所述各种类型包括新闻、视频中的任一者或多者,所述存储结构包括至少一种字段,所述字段包括至少一个具体属性且所述字段包括文字、链接、图片、音频和视频中的任一者或多者;
根据所述适用于各种类型的存储结构,设计出通用的爬虫代码,所述通用的爬虫代码和所述适用于各种类型的信息载体的存储结构相匹配。
在一个实施例中,所述根据输入的网页信息,通过所述爬虫代码生成所述网页的树状结构,包括:
分析出输入的网页信息对应的所述网页的统一资源定位符;
根据所述网页的统一资源定位符,通过所述爬虫代码获取出网页的代码文件;
根据所述网页的代码文件解析出所述网页的至少一个区域模块;
分析所述至少一个区域模块的至少一个字段,所述字段包括文字、链接、图片、音频和视频中的任一者或多者;
按照所述至少一个字段在所述网页的代码文件中的结构位置,生成相应的所述网页的树状结构;
同时向用户展示所述网页的原页面,以便用户结合所述网页的树状结构对照查看。
在一个实施例中,所述根据用户对所述网页的树状结构的选择指令,生成相应的爬虫规则,包括:
根据输入的对区域模块的选择指令,生成所述爬虫规则的编辑页面,所述爬虫规则的编辑页面包括选定区域模块的树状结构和爬虫规则生成区域中的任一者或多者;
根据输入的对所述选定区域模块中的树状结构的至少一个字段的选择指令,生成相应的爬虫规则;
叠加后续输入的至少一个选择指令,在之前的所述相应的爬虫规则的基础上,逐一添加所述后续输入的至少一个选择指令对应的爬虫规则。
在一个实施例中,所述根据所述爬虫规则,下载对应的数据内容并保存,包括:
在所述爬虫规则的基础上,接收输入的存储指令,所述存储指令可针对任一区域模块中的任一字段;
获取输入的针对所述任一字段包含的至少一个具体属性;
根据输入的所有的存储指令,下载对应的数据内容并保存到对应的具体属性中。
根据本发明实施例的第二方面,提供一种智能生成爬虫的装置,包括:
构造模块,用于构造出通用的爬虫代码;
第一生成模块,用于根据输入的网页信息,通过所述爬虫代码生成所述网页的树状结构;
第二生成模块,用于根据用户对所述网页的树状结构的选择指令,生成相应的爬虫规则;
下载模块,用于根据所述爬虫规则下载对应的数据内容并保存。
在一个实施例中,所述构造模块,包括:
构造子模块,用于预先构造适用于各种类型的存储结构,所述各种类型包括新闻、视频中的任一者或多者,所述存储结构包括至少一种字段,所述字段包括至少一个具体属性且所述字段包括文字、链接、图片、音频和视频中的任一者或多者;
设计子模块,用于根据所述适用于各种类型的存储结构,设计出通用的爬虫代码,所述通用的爬虫代码和所述适用于各种类型的信息载体的存储结构相匹配。
在一个实施例中,所述第一生成模块,包括:
第一分析子模块,用于分析出输入的网页信息对应的所述网页的统一资源定位符;
第一获取子模块,用于根据所述网页的统一资源定位符,通过所述爬虫代码获取出网页的代码文件;
解析子模块,用于根据所述网页的代码文件解析出所述网页的至少一个区域模块;
第二分析子模块,用于分析所述至少一个区域模块的至少一个字段,所述字段包括文字、链接、图片、音频和视频中的任一者或多者;
第一生成子模块,用于按照所述至少一个字段在所述网页的代码文件中的结构位置,生成相应的所述网页的树状结构;
展示子模块,用于同时向用户展示所述网页的原页面,以便用户结合所述网页的树状结构对照查看。
在一个实施例中,所述第二生成模块,包括:
第二生成子模块,用于根据输入的对区域模块的选择指令,生成所述爬虫规则的编辑页面,所述爬虫规则的编辑页面包括选定区域模块的树状结构和爬虫规则生成区域中的任一者或多者;
第三生成子模块,用于根据输入的对所述选定区域模块中的树状结构的至少一个字段的选择指令,生成相应的爬虫规则;
叠加子模块,用于叠加后续输入的至少一个选择指令,在之前的所述相应的爬虫规则的基础上,逐一添加所述后续输入的至少一个选择指令对应的爬虫规则。
在一个实施例中,所述下载模块,包括:
接收子模块,用于在所述爬虫规则的基础上,接收输入的存储指令,所述存储指令可针对任一区域模块中的任一字段;
第二获取子模块,用于获取输入的针对所述任一字段包含的至少一个具体属性;
下载子模块,用于根据输入的所有的存储指令,下载对应的数据内容并保存到对应的具体属性中。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明一示例性实施例示出的一种智能生成爬虫的方法的流程图;
图2为本发明一示例性实施例示出的一种智能生成爬虫的方法的步骤S11的流程图;
图3为本发明一示例性实施例示出的一种智能生成爬虫的方法的步骤S12的流程图;
图4为本发明一示例性实施例示出的一种智能生成爬虫的方法的步骤S13的流程图;
图5为本发明一示例性实施例示出的一种智能生成爬虫的方法的步骤S14的流程图;
图6为本发明一示例性实施例示出的一种智能生成爬虫的装置的框图;
图7为本发明一示例性实施例示出的一种智能生成爬虫的装置的构造模块61的框图;
图8为本发明一示例性实施例示出的一种智能生成爬虫的装置的第一生成模块62的框图;
图9为本发明一示例性实施例示出的一种智能生成爬虫的装置的第二生成模块63的框图;
图10为本发明一示例性实施例示出的一种智能生成爬虫的装置的下载模块的框图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
图1是根据一示例性实施例示出的一种智能生成爬虫的方法流程图,如图1所示,该智能生成爬虫的方法,包括以下步骤S11-S14:
在步骤S11中,构造出通用的爬虫代码;
在步骤S12中,根据输入的网页信息,通过所述爬虫代码生成所述网页的树状结构;
在步骤S13中,根据用户对所述网页的树状结构的选择指令,生成相应的爬虫规则;
在步骤S14中,根据所述爬虫规则下载对应的数据内容并保存。
在一个实施例中,随着网络时代的数据量的几何级的发展速度,在获取网络资源的效率方面的价值就越发被人们所重视。针对众多用户的关注点而言,对同一个网页中的感兴趣内容也不尽相同。使用爬虫工具虽然可以大量快速的获取网页中的内容,但是往往需要具备一定专业知识的用户才可以根据不同的关注点来获取网页中的相应的内容,对于不同类型的网页还需要具备专业知识的用户进行相应的修改,缺乏一定专业知识的用户难以灵活的更改爬虫策略来获取用户在各种不同类型的网页中感兴趣的内容。本实施例中的技术方案可妥善的处理上述问题。
构造出通用的爬虫代码。其中,预先构造适用于各种类型的存储结构,该各种类型包括新闻、视频中的任一者或多者,该存储结构包括至少一种字段,该字段包括至少一个具体属性且该字段包括文字、链接、图片、音频和视频中的任一者或多者。根据该适用于各种类型的存储结构,设计出通用的爬虫代码,该通用的爬虫代码和该适用于各种类型的信息载体的存储结构相匹配。
根据输入的网页信息,通过该爬虫代码生成该网页的树状结构。其中,分析出输入的网页信息对应的该网页的统一资源定位符。根据该网页的统一资源定位符,通过该爬虫代码获取出网页的代码文件。根据该网页的代码文件解析出该网页的至少一个区域模块。分析该至少一个区域模块的至少一个字段,该字段包括文字、链接、图片、音频和视频中的任一者或多者。按照该至少一个字段在该网页的代码文件中的结构位置,生成相应的该网页的树状结构。同时向用户展示该网页的原页面,以便用户结合该网页的树状结构对照查看。
根据用户对该网页的树状结构的选择指令,生成相应的爬虫规则。其中,根据输入的对区域模块的选择指令,生成该爬虫规则的编辑页面,该爬虫规则的编辑页面包括选定区域模块的树状结构和爬虫规则生成区域中的任一者或多者。根据输入的对该选定区域模块中的树状结构的至少一个字段的选择指令,生成相应的爬虫规则。叠加后续输入的至少一个选择指令,在之前的该相应的爬虫规则的基础上,逐一添加该后续输入的至少一个选择指令对应的爬虫规则。
根据该爬虫规则下载对应的数据内容并保存。其中,在该爬虫规则的基础上,接收输入的存储指令,该存储指令可针对任一区域模块中的任一字段。获取输入的针对该任一字段包含的至少一个具体属性。根据输入的所有的存储指令,下载对应的数据内容并保存到对应的具体属性中。
通过本实施例中的技术方案无需用户具备一定的专业知识,即可根据用户的实际需求生成各种策略的爬虫代码,获取并存储用户实际需要的内容。
在一个实施例中,如图2所示,步骤S11包括如下步骤S21-S22:
在步骤S21中,预先构造适用于各种类型的存储结构,所述各种类型包括新闻、视频中的任一者或多者,所述存储结构包括至少一种字段,所述字段包括至少一个具体属性且所述字段包括文字、链接、图片、音频和视频中的任一者或多者;
在步骤S22中,根据所述适用于各种类型的存储结构,设计出通用的爬虫代码,所述通用的爬虫代码和所述适用于各种类型的信息载体的存储结构相匹配。
在一个实施例中,预先构造适用于各种类型的存储结构,比如说,新闻、视频和电商等各种类型。该些存储结构包括至少一种字段,字段包括文字、链接、图片、音频和视频中的任一者或多者,每一种字段包括至少一个具体属性。例如,当类型为新闻时,该存储结构会自动适配,新闻的字段包括文字、链接、图片、音频和视频中的任一者或多者,生成的新闻存储结构的具体属性包括有新闻标题、新闻类别、新闻来源、新闻发生地、新闻事件、新闻图片、新闻文字内容和新闻视频中的任一者或多者。再例如,类型为视频,该存储结构会自动适配,视频的字段包括文字、连接、图片和视频中的任一者或多者,生成的新闻存储结构的具体属包括视频标题、视频导演、视频演员、视频评分、视频简介、视频字幕和视频中的任一者或多者。根据上述的适用于各种类型的存储结构,涉及出通用的爬虫代码,使用该通用的爬虫代码可以和各种类型的信息载体的存储结构相匹配。
在一个实施例中,如图3所示,步骤S12包括如下步骤S31-S36:
在步骤S31中,分析出输入的网页信息对应的所述网页的统一资源定位符;
在步骤S32中,根据所述网页的统一资源定位符,通过所述爬虫代码获取出网页的代码文件;
在步骤S33中,根据所述网页的代码文件解析出所述网页的至少一个区域模块;
在步骤S34中,分析所述至少一个区域模块的至少一个字段,所述字段包括文字、链接、图片、音频和视频中的任一者或多者;
在步骤S35中,按照所述至少一个字段在所述网页的代码文件中的结构位置,生成相应的所述网页的树状结构;
在步骤S36中,同时向用户展示所述网页的原页面,以便用户结合所述网页的树状结构对照查看。
在一个实施例中,分析出输入的网页信息对应的该网页的URL(Uniform ResourceLocator,统一资源定位符),根据该网页的URL,通过该爬虫代码获取出网页的代码文件,例如XML文件。对XML文件进行解析,提取出该网页所包含的至少一个区域模块,例如,对于视频类型的网页包含有的区域模块包括“为您推荐”区域模块、“最新上映”区域模块和“排名前10名”区域模块等等。其中,每个区域模块包含文字字段、图片字段、连接字段和视频字段中的任一种或多种字段。按照该网页的至少一个字段在该网页的代码文件中的结构位置,生成相应的该网页的树状结构,该树状结构根据实际情况会存在多层结构。为了用户可以更好的确定在树状结构中的某个字段与该网页的关系,所以同时也向用户展示该网页的原页面。
在一个实施例中,如图4所示,步骤S13包括如下步骤S41-S43:
在步骤S41中,根据输入的对区域模块的选择指令,生成所述爬虫规则的编辑页面,所述爬虫规则的编辑页面包括选定区域模块的树状结构和爬虫规则生成区域中的任一者或多者;
在步骤S42中,根据输入的对所述选定区域模块中的树状结构的至少一个字段的选择指令,生成相应的爬虫规则;
在步骤S43中,叠加后续输入的至少一个选择指令,在之前的所述相应的爬虫规则的基础上,逐一添加所述后续输入的至少一个选择指令对应的爬虫规则。
在一个实施例中,根据用户输入的对区域模块的选择指令,生成对应的该爬虫规则的编辑页面,没有选择的区域模块不会被列入该对应的爬虫规则的编辑页面。在该爬虫规则的编辑页面中,分为两个部分,第一部分用来展示是已选定的区域模块的树状结构,第二部分用来呈现爬虫规则生成区域。根据输入的对该选定区域模块中的树状结构的至少一个字段的选择指令,生成相应的爬虫规则。用户可能会进行多次选择,每一次选择所生成的爬虫规则都是在上一次生成的爬虫规则的基础上叠加的。实现的过程是将上一次生成的爬虫规则的编辑页面生成一个链接,本次根据该连接来获取到上一次生成的爬虫规则的编辑页面,在已选定的区域模块的树状结构的基础上添加新的已选定的区域模块,并在已存在爬虫规则的基础上进行相应的修改。逐一的实现用户输入的所有的选择指令,直至生成最终的爬虫规则。
在一个实施例中,如图5所示,步骤S14包括如下步骤S51-S53:
在步骤S51中,在所述爬虫规则的基础上,接收输入的存储指令,所述存储指令可针对任一区域模块中的任一字段;
在步骤S52中,获取输入的针对所述任一字段包含的至少一个具体属性;
在步骤S53中,根据输入的所有的存储指令,下载对应的数据内容并保存到对应的具体属性中。
在一个实施例中,在上一个实施例的基础上,即生成的爬虫规则的技术上,进一步的接收用户的存储指令,该存储指令用于将爬虫规则的编辑页面中的已选定区域模块中的树状结构的至少一个字段,其中,若直接选择存储某个区域模块就等价于选择存储了该区域模块中的所有字段。对于某一个字段而言,可能会包括多个具体属性,根据用户的输入的存储指令来确定要存储的具体属性。在接收完用户输入的所有的存储指令后,该爬虫规则下载所有选定的具体属性在该网页中对应的数据内容,并将数据内容分门别类的存储在对应的各个具体属性中。通过本实施例中的技术方案无需用户具备一定的专业知识,根据用户的实际需求生成相应策略的爬虫代码并可广泛的适用于各种类型的网页,获取并存储用户实际需要的内容。
在一个实施例中,图6是根据一示例性实施例示出的一种智能生成爬虫的装置框图。如图6示,该装置包括构造模块61、第一生成模块62、第二生成模块63和下载模块64。
该构造模块61,用于构造出通用的爬虫代码;
该第一生成模块62,用于根据输入的网页信息,通过所述爬虫代码生成所述网页的树状结构;
该第二生成模块63,用于根据用户对所述网页的树状结构的选择指令,生成相应的爬虫规则;
该下载模块64,用于根据所述爬虫规则下载对应的数据内容并保存。
如图7所示,该构造模块61包括构造子模块71和设计子模块72。
该构造子模块71,用于预先构造适用于各种类型的存储结构,所述各种类型包括新闻、视频中的任一者或多者,所述存储结构包括至少一种字段,所述字段包括至少一个具体属性且所述字段包括文字、链接、图片、音频和视频中的任一者或多者;
该设计子模块72,用于根据所述适用于各种类型的存储结构,设计出通用的爬虫代码,所述通用的爬虫代码和所述适用于各种类型的信息载体的存储结构相匹配。
如图8所示,该第一生成模块62包括第一分析子模块81、第一获取子模块82、解析子模块83、第二分析子模块84、第一生成子模块85和展示子模块86。
该第一分析子模块81,用于分析出输入的网页信息对应的所述网页的统一资源定位符;
该第一获取子模块82,用于根据所述网页的统一资源定位符,通过所述爬虫代码获取出网页的代码文件;
该解析子模块83,用于根据所述网页的代码文件解析出所述网页的至少一个区域模块;
该第二分析子模块84,用于分析所述至少一个区域模块的至少一个字段,所述字段包括文字、链接、图片、音频和视频中的任一者或多者;
该第一生成子模块85,用于按照所述至少一个字段在所述网页的代码文件中的结构位置,生成相应的所述网页的树状结构;
该展示子模块86,用于同时向用户展示所述网页的原页面,以便用户结合所述网页的树状结构对照查看。
如图9所示,该第二生成模块63包括第二生成子模块91、第三生成子模块92和叠加子模块93。
该第二生成子模块91,用于根据输入的对区域模块的选择指令,生成所述爬虫规则的编辑页面,所述爬虫规则的编辑页面包括选定区域模块的树状结构和爬虫规则生成区域中的任一者或多者;
该第三生成子模块92,用于根据输入的对所述选定区域模块中的树状结构的至少一个字段的选择指令,生成相应的爬虫规则;
该叠加子模块93,用于叠加后续输入的至少一个选择指令,在之前的所述相应的爬虫规则的基础上,逐一添加所述后续输入的至少一个选择指令对应的爬虫规则。
如图10所示,下载模块64包括接收子模块101、第二获取子模块102和下载子模块103。
该接收子模块101,用于在所述爬虫规则的基础上,接收输入的存储指令,所述存储指令可针对任一区域模块中的任一字段;
该第二获取子模块102,用于获取输入的针对所述任一字段包含的至少一个具体属性;
该下载子模块103,用于根据输入的所有的存储指令,下载对应的数据内容并保存到对应的具体属性中。
本领域内的技术人员应明白,本发明的实施例可提供为方法、***、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
上述实施例可自由组合。显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (10)
1.一种智能生成爬虫的方法,其特征在于,包括:
构造出通用的爬虫代码;
根据输入的网页信息,通过所述爬虫代码生成所述网页的树状结构;
根据用户对所述网页的树状结构的选择指令,生成相应的爬虫规则;
根据所述爬虫规则下载对应的数据内容并保存。
2.如权利要求1所述的方法,其特征在于,所述根据输入的网页生成,通过所述爬虫代码生成所述网页的树状结构,包括:
预先构造适用于各种类型的存储结构,所述各种类型包括新闻、视频中的任一者或多者,所述存储结构包括至少一种字段,所述字段包括至少一个具体属性且所述字段包括文字、链接、图片、音频和视频中的任一者或多者;
根据所述适用于各种类型的存储结构,设计出通用的爬虫代码,所述通用的爬虫代码和所述适用于各种类型的信息载体的存储结构相匹配。
3.如权利要求1所述的方法,其特征在于,所述根据输入的网页信息,通过所述爬虫代码生成所述网页的树状结构,包括:
分析出输入的网页信息对应的所述网页的统一资源定位符;
根据所述网页的统一资源定位符,通过所述爬虫代码获取出网页的代码文件;
根据所述网页的代码文件解析出所述网页的至少一个区域模块;
分析所述至少一个区域模块的至少一个字段,所述字段包括文字、链接、图片、音频和视频中的任一者或多者;
按照所述至少一个字段在所述网页的代码文件中的结构位置,生成相应的所述网页的树状结构;
同时向用户展示所述网页的原页面,以便用户结合所述网页的树状结构对照查看。
4.如权利要求3所述的方法,其特征在于,所述根据用户对所述网页的树状结构的选择指令,生成相应的爬虫规则,包括:
根据输入的对区域模块的选择指令,生成所述爬虫规则的编辑页面,所述爬虫规则的编辑页面包括选定区域模块的树状结构和爬虫规则生成区域中的任一者或多者;
根据输入的对所述选定区域模块中的树状结构的至少一个字段的选择指令,生成相应的爬虫规则;
叠加后续输入的至少一个选择指令,在之前的所述相应的爬虫规则的基础上,逐一添加所述后续输入的至少一个选择指令对应的爬虫规则。
5.如权利要求1所述的方法,其特征在于,所述根据所述爬虫规则,下载对应的数据内容并保存,包括:
在所述爬虫规则的基础上,接收输入的存储指令,所述存储指令可针对任一区域模块中的任一字段;
获取输入的针对所述任一字段包含的至少一个具体属性;
根据输入的所有的存储指令,下载对应的数据内容并保存到对应的具体属性中。
6.一种智能生成爬虫的装置,其特征在于,包括:
构造模块,用于构造出通用的爬虫代码;
第一生成模块,用于根据输入的网页信息,通过所述爬虫代码生成所述网页的树状结构;
第二生成模块,用于根据用户对所述网页的树状结构的选择指令,生成相应的爬虫规则;
下载模块,用于根据所述爬虫规则下载对应的数据内容并保存。
7.根据权利要求6的装置,其特征在于,所述构造模块,包括:
构造子模块,用于预先构造适用于各种类型的存储结构,所述各种类型包括新闻、视频中的任一者或多者,所述存储结构包括至少一种字段,所述字段包括至少一个具体属性且所述字段包括文字、链接、图片、音频和视频中的任一者或多者;
设计子模块,用于根据所述适用于各种类型的存储结构,设计出通用的爬虫代码,所述通用的爬虫代码和所述适用于各种类型的信息载体的存储结构相匹配。
8.根据权利要求6的装置,其特征在于,所述第一生成模块,包括:
第一分析子模块,用于分析出输入的网页信息对应的所述网页的统一资源定位符;
第一获取子模块,用于根据所述网页的统一资源定位符,通过所述爬虫代码获取出网页的代码文件;
解析子模块,用于根据所述网页的代码文件解析出所述网页的至少一个区域模块;
第二分析子模块,用于分析所述至少一个区域模块的至少一个字段,所述字段包括文字、链接、图片、音频和视频中的任一者或多者;
第一生成子模块,用于按照所述至少一个字段在所述网页的代码文件中的结构位置,生成相应的所述网页的树状结构;
展示子模块,用于同时向用户展示所述网页的原页面,以便用户结合所述网页的树状结构对照查看。
9.根据权利要求8的装置,其特征在于,所述第二生成模块,包括:
第二生成子模块,用于根据输入的对区域模块的选择指令,生成所述爬虫规则的编辑页面,所述爬虫规则的编辑页面包括选定区域模块的树状结构和爬虫规则生成区域中的任一者或多者;
第三生成子模块,用于根据输入的对所述选定区域模块中的树状结构的至少一个字段的选择指令,生成相应的爬虫规则;
叠加子模块,用于叠加后续输入的至少一个选择指令,在之前的所述相应的爬虫规则的基础上,逐一添加所述后续输入的至少一个选择指令对应的爬虫规则。
10.根据权利要求6的装置,其特征在于,所述下载模块,包括:
接收子模块,用于在所述爬虫规则的基础上,接收输入的存储指令,所述存储指令可针对任一区域模块中的任一字段;
第二获取子模块,用于获取输入的针对所述任一字段包含的至少一个具体属性;
下载子模块,用于根据输入的所有的存储指令,下载对应的数据内容并保存到对应的具体属性中。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711098395.3A CN107943862A (zh) | 2017-11-09 | 2017-11-09 | 一种智能生成爬虫的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711098395.3A CN107943862A (zh) | 2017-11-09 | 2017-11-09 | 一种智能生成爬虫的方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107943862A true CN107943862A (zh) | 2018-04-20 |
Family
ID=61933643
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711098395.3A Pending CN107943862A (zh) | 2017-11-09 | 2017-11-09 | 一种智能生成爬虫的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107943862A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108804559A (zh) * | 2018-05-22 | 2018-11-13 | 清华大学 | 一种移动应用内容获取方法及装置 |
CN109635176A (zh) * | 2018-11-14 | 2019-04-16 | 新华三大数据技术有限公司 | 网页数据获取方法、装置及电子设备 |
CN109902254A (zh) * | 2019-01-28 | 2019-06-18 | 北京三快在线科技有限公司 | 信息录入方法、装置、电子设备 |
CN113515681A (zh) * | 2021-04-30 | 2021-10-19 | 广东科学技术职业学院 | 基于scrapy框架的房地产数据爬虫方法及装置 |
-
2017
- 2017-11-09 CN CN201711098395.3A patent/CN107943862A/zh active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108804559A (zh) * | 2018-05-22 | 2018-11-13 | 清华大学 | 一种移动应用内容获取方法及装置 |
CN109635176A (zh) * | 2018-11-14 | 2019-04-16 | 新华三大数据技术有限公司 | 网页数据获取方法、装置及电子设备 |
CN109902254A (zh) * | 2019-01-28 | 2019-06-18 | 北京三快在线科技有限公司 | 信息录入方法、装置、电子设备 |
CN109902254B (zh) * | 2019-01-28 | 2021-09-24 | 北京三快在线科技有限公司 | 信息录入方法、装置、电子设备 |
CN113515681A (zh) * | 2021-04-30 | 2021-10-19 | 广东科学技术职业学院 | 基于scrapy框架的房地产数据爬虫方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10636425B2 (en) | Voice application platform | |
US9818208B2 (en) | Identifying and abstracting the visualization point from an arbitrary two-dimensional dataset into a unified metadata for further consumption | |
US11645345B2 (en) | Systems and methods for issue tracking systems | |
US10853566B2 (en) | Systems and methods for automatically creating tables using auto-generated templates | |
US9659278B2 (en) | Methods, systems, and computer program products for displaying tag words for selection by users engaged in social tagging of content | |
US9626158B1 (en) | Dynamic availability-based integration of external functionality | |
US10592737B2 (en) | Mathematical formula learner support system | |
CN107943862A (zh) | 一种智能生成爬虫的方法及装置 | |
CN102915237B (zh) | 根据用户应用程序要求改写数据质量规则的方法和*** | |
US20150067476A1 (en) | Title and body extraction from web page | |
CN108090104B (zh) | 用于获取网页信息的方法和装置 | |
US8495510B2 (en) | System and method for managing browser extensions | |
EP4062298A1 (en) | Automatic template generation with inbuilt template logic interface | |
CN104584014B (zh) | 信息显示方法及记录介质 | |
US9934291B2 (en) | Dynamic presentation of a results set by a form-based software application | |
CN108595179A (zh) | 任务生成方法、装置、电子设备及计算机可读存储介质 | |
EP3839770A1 (en) | A system and method for dynamic generation of personalized video content through a browser embedded video player | |
JP2000067075A (ja) | データベース検索システム,検索用サーバ装置,クライアント端末およびそれらのプログラム記録媒体 | |
US8082496B1 (en) | Producing a set of operations from an output description | |
CN107077499B (zh) | 用于内容管理***的映射定义的生成 | |
US20220342955A1 (en) | Information processing apparatus, information processing method, and program | |
US20050120299A1 (en) | System and method for creation of a network server application page | |
US20140089207A1 (en) | System and method for providing high level view tracking of changes in sca artifacts | |
Ramakrishnan et al. | Bridging the web accessibility divide | |
KR20100014116A (ko) | 탭을 위한 규칙 기반의 사용자 정의된 wi-메카니즘 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20180420 |
|
WD01 | Invention patent application deemed withdrawn after publication |