CN107704515A - 基于互联网数据抓取***的数据抓取方法 - Google Patents
基于互联网数据抓取***的数据抓取方法 Download PDFInfo
- Publication number
- CN107704515A CN107704515A CN201710776642.4A CN201710776642A CN107704515A CN 107704515 A CN107704515 A CN 107704515A CN 201710776642 A CN201710776642 A CN 201710776642A CN 107704515 A CN107704515 A CN 107704515A
- Authority
- CN
- China
- Prior art keywords
- data
- url
- crawl
- method based
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/04—Trading; Exchange, e.g. stocks, commodities, derivatives or currency exchange
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Technology Law (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于互联网数据抓取***的数据抓取方法,S1:提供现有关键词库内的关键词,在搜索引擎上URL采集,并提供用户自定义关键词的采集;S2:***利用URL校验的方式将获取到的URL进行去重;S3:URL采集爬虫包含深度优先和广度优先算法;S4:确定抓取目标网址,先找到含有所需数据的网址,判断数据的可靠性以及抓取的可行性和难度;S5:分析页面内容及其组织方式,确定抓取规则;S6:正则表达式匹配对每个层次的文本,根据定义的标识串,对网页文本进行匹配搜索以提取所需数据。对抓取到的数据进行去重处理,改变传统的数据抓取量大问题。
Description
技术领域
本发明属于数据抓取技术领域,更具体地说,尤其涉及一种基于互联网数据抓取***的数据抓取方法。
背景技术
随着技术的不断进步,中国互联网已经形成规模,互联网应用走向多元化。互联网越来越深刻地改变着人们的学习、工作以及生活方式,甚至影响着整个社会进程。信息抓取是将非结构化的信息从网站中抓取出来保存到结构化的数据库中的过程。信息抓取是企业信息化的根基和第一步,只有利用先进的技术作好了信息抓取工作,才能为信息化带来最大的价值!
现缺少一种基于互联网数据抓取***的数据抓取方法,互联网数据抓取***在数据抓取中有很大的发展潜力,数据抓取方法比较固定,无法对抓取的数据进行去重处理,造成数据抓取量大,需要进一步优化和完善,这对数据抓取的发展具有非常重要的意义。
发明内容
本发明的目的是为了解决现有技术中存在的缺点,而提出的一种基于互联网数据抓取***的数据抓取方法。
为实现上述目的,本发明提供如下技术方案:一种基于互联网数据抓取***的数据抓取方法,具体包括如下步骤:
S1:提供现有关键词库内的关键词,在搜索引擎上URL采集,并提供用户自定义关键词的采集;
S2:***利用URL校验的方式将获取到的URL进行去重;
S3:URL采集爬虫包含深度优先和广度优先算法,并可配置爬取深度和用户权限,提供对URL标签解析功能,包含标题、日期、作者、正文特定标签下的内容提取并分类,提供对搜索出结果的特定标签内关键信息进行抽取,有新闻资讯类网页的正文信息抽取功能;
S4:确定抓取目标网址,先找到含有所需数据的网址,判断数据的可靠性以及抓取的可行性和难度;
S5:分析页面内容及其组织方式,确定抓取规则;
S6:正则表达式匹配对每个层次的文本,根据定义的标识串,对网页文本进行匹配搜索以提取所需数据。
优选的,所述步骤S4中,注意避免应用了防采集措施的网站,如:限定IP地址在一定时间内对页面的访问次数、用javascript加密内容页面、只允许用户登陆后才可以浏览和只允许通过本站页面连接查看的网站。
优选的,所述步骤S5中,由于网页是半结构化文档,除了数据内容之外,还包括大量格式和其它多媒体信息,抓取前务必了解网页数据的组织特点,确定目标数据项的识别规则,通过查看源文件进行分析。
优选的,所述步骤S6中匹配搜索过程中,为了尽可能的增强灵活性,采用了正则表达式。
本发明的技术效果和优点:本发明一种基于互联网数据抓取***的数据抓取方法,首先通过资金管理平台确定可操作资金,根据博弈论的均衡策略确定买入比例,市场处于下跌行情时,对股票组合最小价值的一个保全措施安排,当价格上涨时,股票组合仍不失去盈利的机会,利用两类产品在不同市场上出现的瞬间定价的不同来迅速实现贱买贵卖的交易,并从中获得价差收益,将股票分类为价值被高估的股票和价值被低估的股票,在预定***位的一定波动范围内建仓,最终使综合成本等于预定成本,在账面出现盈利时,按以利博利的手段达到控制阶段性盈利,从而最终实现战略盈利。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合具体实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供的一种基于互联网数据抓取***的数据抓取方法,具体包括如下步骤:
S1:提供现有关键词库内的关键词,在搜索引擎上URL采集,并提供用户自定义关键词的采集;
S2:***利用URL校验的方式将获取到的URL进行去重;
S3:URL采集爬虫包含深度优先和广度优先算法,并可配置爬取深度和用户权限,提供对URL标签解析功能,包含标题、日期、作者、正文特定标签下的内容提取并分类,提供对搜索出结果的特定标签内关键信息进行抽取,有新闻资讯类网页的正文信息抽取功能;
S4:确定抓取目标网址,先找到含有所需数据的网址,判断数据的可靠性以及抓取的可行性和难度;
S5:分析页面内容及其组织方式,确定抓取规则;
S6:正则表达式匹配对每个层次的文本,根据定义的标识串,对网页文本进行匹配搜索以提取所需数据。
所述步骤S4中,注意避免应用了防采集措施的网站,如:限定IP地址在一定时间内对页面的访问次数、用javascript加密内容页面、只允许用户登陆后才可以浏览和只允许通过本站页面连接查看的网站,所述步骤S5中,由于网页是半结构化文档,除了数据内容之外,还包括大量格式和其它多媒体信息,抓取前务必了解网页数据的组织特点,确定目标数据项的识别规则,通过查看源文件进行分析,所述步骤S6中匹配搜索过程中,为了尽可能的增强灵活性,采用了正则表达式。
综上所述:本发明一种基于互联网数据抓取***的数据抓取方法,提供现有关键词库内的关键词,在搜索引擎上URL采集,并提供用户自定义关键词的采集,***利用URL校验的方式将获取到的URL进行去重,URL采集爬虫包含深度优先和广度优先算法,并可配置爬取深度和用户权限,提供对URL标签解析功能,包含标题、日期、作者、正文特定标签下的内容提取并分类,提供对搜索出结果的特定标签内关键信息进行抽取,有新闻资讯类网页的正文信息抽取功能,确定抓取目标网址,先找到含有所需数据的网址,判断数据的可靠性以及抓取的可行性和难度,分析页面内容及其组织方式,确定抓取规则,正则表达式匹配对每个层次的文本,根据定义的标识串,对网页文本进行匹配搜索以提取所需数据。
在本发明中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (4)
1.一种基于互联网数据抓取***的数据抓取方法,其特征在于:具体包括如下步骤:
S1:提供现有关键词库内的关键词,在搜索引擎上URL采集,并提供用户自定义关键词的采集;
S2:***利用URL校验的方式将获取到的URL进行去重;
S3:URL采集爬虫包含深度优先和广度优先算法,并可配置爬取深度和用户权限,提供对URL标签解析功能,包含标题、日期、作者、正文特定标签下的内容提取并分类,提供对搜索出结果的特定标签内关键信息进行抽取,有新闻资讯类网页的正文信息抽取功能;
S4:确定抓取目标网址,先找到含有所需数据的网址,判断数据的可靠性以及抓取的可行性和难度;
S5:分析页面内容及其组织方式,确定抓取规则;
S6:正则表达式匹配对每个层次的文本,根据定义的标识串,对网页文本进行匹配搜索以提取所需数据。
2.根据权利要求1所述的一种基于互联网数据抓取***的数据抓取方法,其特征在于:所述步骤S4中,注意避免应用了防采集措施的网站,限定IP地址在一定时间内对页面的访问次数、用javascript加密内容页面、只允许用户登陆后才可以浏览和只允许通过本站页面连接查看的网站。
3.根据权利要求1所述的一种基于互联网数据抓取***的数据抓取方法,其特征在于:所述步骤S5中,由于网页是半结构化文档,除了数据内容之外,还包括大量格式和其它多媒体信息,抓取前务必了解网页数据的组织特点,确定目标数据项的识别规则,通过查看源文件进行分析。
4.根据权利要求1所述的一种基于互联网数据抓取***的数据抓取方法,其特征在于:所述步骤S6中匹配搜索过程中采用正则表达式。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710776642.4A CN107704515A (zh) | 2017-09-01 | 2017-09-01 | 基于互联网数据抓取***的数据抓取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710776642.4A CN107704515A (zh) | 2017-09-01 | 2017-09-01 | 基于互联网数据抓取***的数据抓取方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107704515A true CN107704515A (zh) | 2018-02-16 |
Family
ID=61171531
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710776642.4A Withdrawn CN107704515A (zh) | 2017-09-01 | 2017-09-01 | 基于互联网数据抓取***的数据抓取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107704515A (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108804559A (zh) * | 2018-05-22 | 2018-11-13 | 清华大学 | 一种移动应用内容获取方法及装置 |
CN109190062A (zh) * | 2018-08-03 | 2019-01-11 | 平安科技(深圳)有限公司 | 目标语料数据的爬取方法、装置及存储介质 |
CN110874434A (zh) * | 2018-08-31 | 2020-03-10 | 珠海格力电器股份有限公司 | 网页数据采集方法、装置、存储介质及电子设备 |
CN111259220A (zh) * | 2020-01-11 | 2020-06-09 | 杭州拾贝知识产权服务有限公司 | 一种基于大数据的数据采集方法和*** |
CN111324797A (zh) * | 2020-02-20 | 2020-06-23 | 民生科技有限责任公司 | 一种高速精准获取数据的方法和装置 |
CN111414523A (zh) * | 2020-03-11 | 2020-07-14 | 中国建设银行股份有限公司 | 一种数据获取方法和装置 |
CN111538887A (zh) * | 2020-04-30 | 2020-08-14 | 广东所能网络有限公司 | 一种基于人工智能的大数据图文识别***及方法 |
CN113553512A (zh) * | 2021-08-09 | 2021-10-26 | 南京今日商讯信息科技有限公司 | 一种数据抓取***及数据抓取方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101676907A (zh) * | 2008-09-16 | 2010-03-24 | 北京雷速科技有限公司 | 一种互联网资源定向获取方法及*** |
CN103365924A (zh) * | 2012-04-09 | 2013-10-23 | 北京大学 | 一种搜索信息的方法、装置和终端 |
CN103744944A (zh) * | 2013-12-31 | 2014-04-23 | 上海伯释信息科技有限公司 | 网络爬虫在抓取网页或数据时再过滤的方法 |
CN103838791A (zh) * | 2012-11-27 | 2014-06-04 | 大连灵动科技发展有限公司 | 一种网络机器人方法 |
CN103838785A (zh) * | 2012-11-27 | 2014-06-04 | 大连灵动科技发展有限公司 | 一种专利领域的垂直搜索引擎 |
CN103902667A (zh) * | 2014-03-14 | 2014-07-02 | 浪潮电子信息产业股份有限公司 | 一种基于元搜索的网络信息采集器简单实现方法 |
-
2017
- 2017-09-01 CN CN201710776642.4A patent/CN107704515A/zh not_active Withdrawn
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101676907A (zh) * | 2008-09-16 | 2010-03-24 | 北京雷速科技有限公司 | 一种互联网资源定向获取方法及*** |
CN103365924A (zh) * | 2012-04-09 | 2013-10-23 | 北京大学 | 一种搜索信息的方法、装置和终端 |
CN103838791A (zh) * | 2012-11-27 | 2014-06-04 | 大连灵动科技发展有限公司 | 一种网络机器人方法 |
CN103838785A (zh) * | 2012-11-27 | 2014-06-04 | 大连灵动科技发展有限公司 | 一种专利领域的垂直搜索引擎 |
CN103744944A (zh) * | 2013-12-31 | 2014-04-23 | 上海伯释信息科技有限公司 | 网络爬虫在抓取网页或数据时再过滤的方法 |
CN103902667A (zh) * | 2014-03-14 | 2014-07-02 | 浪潮电子信息产业股份有限公司 | 一种基于元搜索的网络信息采集器简单实现方法 |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108804559A (zh) * | 2018-05-22 | 2018-11-13 | 清华大学 | 一种移动应用内容获取方法及装置 |
CN109190062A (zh) * | 2018-08-03 | 2019-01-11 | 平安科技(深圳)有限公司 | 目标语料数据的爬取方法、装置及存储介质 |
CN109190062B (zh) * | 2018-08-03 | 2023-04-07 | 平安科技(深圳)有限公司 | 目标语料数据的爬取方法、装置及存储介质 |
CN110874434A (zh) * | 2018-08-31 | 2020-03-10 | 珠海格力电器股份有限公司 | 网页数据采集方法、装置、存储介质及电子设备 |
CN111259220A (zh) * | 2020-01-11 | 2020-06-09 | 杭州拾贝知识产权服务有限公司 | 一种基于大数据的数据采集方法和*** |
CN111324797A (zh) * | 2020-02-20 | 2020-06-23 | 民生科技有限责任公司 | 一种高速精准获取数据的方法和装置 |
CN111324797B (zh) * | 2020-02-20 | 2023-08-11 | 民生科技有限责任公司 | 一种高速精准获取数据的方法和装置 |
CN111414523A (zh) * | 2020-03-11 | 2020-07-14 | 中国建设银行股份有限公司 | 一种数据获取方法和装置 |
CN111538887A (zh) * | 2020-04-30 | 2020-08-14 | 广东所能网络有限公司 | 一种基于人工智能的大数据图文识别***及方法 |
CN111538887B (zh) * | 2020-04-30 | 2023-11-10 | 贵阳杰汇数字创新中心有限公司 | 一种基于人工智能的大数据图文识别***及方法 |
CN113553512A (zh) * | 2021-08-09 | 2021-10-26 | 南京今日商讯信息科技有限公司 | 一种数据抓取***及数据抓取方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107704515A (zh) | 基于互联网数据抓取***的数据抓取方法 | |
Lakshmi et al. | Efficient prediction of phishing websites using supervised learning algorithms | |
Fu et al. | WASTK: A weighted abstract syntax tree kernel method for source code plagiarism detection | |
Zhang et al. | A domain-feature enhanced classification model for the detection of Chinese phishing e-Business websites | |
Li et al. | Keyword extraction based on tf/idf for Chinese news document | |
CN106230835B (zh) | 基于Nginx日志分析和IPTABLES转发的反恶意访问的方法 | |
EP3289487B1 (en) | Computer-implemented methods of website analysis | |
CN109033203A (zh) | 一种面向大数据的特征提取并行处理方法 | |
CN109918621A (zh) | 基于数字指纹和语义特征的新闻文本侵权检测方法与装置 | |
Park et al. | Using syntactic features for phishing detection | |
Mansoor et al. | Computer-based plagiarism detection techniques: A comparative study | |
Lindemann et al. | Classification of web sites at super-genre level | |
Lau et al. | Semi-supervised statistical inference for business entities extraction and business relations discovery | |
CN109284465A (zh) | 一种基于url的网页分类器构建方法及其分类方法 | |
Lippman et al. | Toward finding malicious cyber discussions in social media | |
Bellaachia et al. | Learning from twitter hashtags: Leveraging proximate tags to enhance graph-based keyphrase extraction | |
Osman et al. | SVM significant role selection method for improving semantic text plagiarism detection | |
Chen et al. | Detecting fake reviews of hype about restaurants by sentiment analysis | |
CN112115271B (zh) | 知识图谱构建方法及装置 | |
CN104063491B (zh) | 一种检测页面篡改的方法及装置 | |
CN109657136A (zh) | 互联网数据收集***的重复数据剔除方法 | |
Chiranjeevi et al. | Finding and classifying the deceptive spam reviews using LIWC dictionary variables and decision tree classifier | |
Tong et al. | Detecting gambling sites from post behaviors | |
CN104063494B (zh) | 页面篡改检测方法及黑链数据库生成方法 | |
Chakraborty et al. | Detecting stance in tweets: A signed network based approach |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20180216 |
|
WW01 | Invention patent application withdrawn after publication |