CN111460253A - 适用于大数据分析互联网数据抓取方法 - Google Patents

适用于大数据分析互联网数据抓取方法 Download PDF

Info

Publication number
CN111460253A
CN111460253A CN202010212831.0A CN202010212831A CN111460253A CN 111460253 A CN111460253 A CN 111460253A CN 202010212831 A CN202010212831 A CN 202010212831A CN 111460253 A CN111460253 A CN 111460253A
Authority
CN
China
Prior art keywords
data
information
internet
screening
method suitable
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010212831.0A
Other languages
English (en)
Inventor
相辉
张永力
苏睿清
张弘媛
蔡鹏飞
张静
卢焱
杨青卓
李昊兰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Hebei Public Bidding Co ltd
State Grid Corp of China SGCC
Materials Branch of State Grid Hebei Electric Power Co Ltd
Original Assignee
State Grid Hebei Public Bidding Co ltd
State Grid Corp of China SGCC
Materials Branch of State Grid Hebei Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Hebei Public Bidding Co ltd, State Grid Corp of China SGCC, Materials Branch of State Grid Hebei Electric Power Co Ltd filed Critical State Grid Hebei Public Bidding Co ltd
Priority to CN202010212831.0A priority Critical patent/CN111460253A/zh
Publication of CN111460253A publication Critical patent/CN111460253A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了适用于大数据分析互联网数据抓取方法,包括以下步骤:S1,数据获取终端产生应用数据,数据获取终端将各种应用软件平台使用后和预览网站后产生的数据传送到对应厂商的服务器和云端数据库内,或者是保存在第三方云端数据库内;S2,服务器和云端数据库内保存的应用数据会进行甄别分析,数据甄别分析会将数据与通用信息库内储存的信息进行对比,作为第一步程序筛选;S3,机选后产生三种判断结果,第一种是与通用信息库数据对比后无疑义的信息会直接通过平台和网站反馈给客户。本发明将储存的数据进行程序筛选和人工筛选,由此提高了数据的价值性,减低假冒诈骗的信息的流传,从而有利于产业的健康发展。

Description

适用于大数据分析互联网数据抓取方法
技术领域
本发明涉及互联网大数据技术领域,尤其涉及适用于大数据分析互联网数据抓取方法。
背景技术
大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。大数据技术有三个层次,一是用于数据管理的底层技术。第二个层次就是人工智能技术。互联网大数据当前发展的三大趋势,第一个趋势是“个性化”;第二个趋势是“智能化”;第三个趋势是“产业化”。
现有的互联网大数据在抓取时,其数据的由来一般是互联网+物联网的结合,所以其产生的大数据是及其复杂的,而且很多大数据是无用的。然而现有的互联网大数据在抓取时主要是为了更好的为产业服务,向客户推荐更准确的产品,然而在海量的无用以及干扰数据的影响下,会严重影响大数据的正确推送和安全抓取,从而不利于产业的健康发展,因此当前正是缺少这种安全而高效的大数据抓取方法来解决此类问题,为此我们提出了适用于大数据分析互联网数据抓取方法。
发明内容
本发明的目的是为了解决现有技术中存在的缺点,而提出的适用于大数据分析互联网数据抓取方法。
为了实现上述目的,本发明采用了如下技术方案:
适用于大数据分析互联网数据抓取方法,包括以下步骤:
S1,数据获取终端产生应用数据,数据获取终端将各种应用软件平台使用后和预览网站后产生的数据传送到对应厂商的服务器和云端数据库内,或者是保存在第三方云端数据库内;
S2,服务器和云端数据库内保存的应用数据会进行甄别分析,数据甄别分析会将数据与通用信息库内储存的信息进行对比,作为第一步程序筛选;
S3,机选后产生三种判断结果,第一种是与通用信息库数据对比后无疑义的信息会直接通过平台和网站反馈给客户,第二种就是存在疑义的信息则进入下一步人工筛选,第三种则是明显不符合相关法规和标准的信息,则对其发出相应的警告或直接报警。
优选的,所述数据获取终端包括物联网终端、计算机终端和手持终端,物联网终端在使用时主要产生位置信息、状态信息和设备信息,计算机终端在使用时主要产生软件平台信息和IP地址信息,而手持终端在使用时则主要产生软件平台信息、位置信息、状态信息和IP 地址信息。
优选的,所述通用信息库包括假冒诈骗信息库、危害言论信息库和违禁图像信息库,所述通用信息库采用计算机联网,对世面上出现的信息进行及时更新添加。
优选的,所述程序筛选包括关键字检索和敏感图像检索两大类。
优选的,所述数据获取终端采用页面解析器、爬行策略搜索技术、主体爬虫技术、链接相关度估算技术、内容相关度计算技术、动态 Web页面获取技术、动态页面的分类技术、微博信息内容获取技术和 DeepWeb数据获取技术进行数据分析检索。
优选的,所述数据获取终端具有明确的区分,对数据的来源进行分类,确定目标数据和根源数据,其中目标数据来源个体客户,而根源数据则来源于企业客户,在数据反馈时,将个体客户的数据反馈给企业客户。
优选的,所述人工筛选时,由专业经过培训的平台官方工作人员对具有疑义的信息进行预览,预览判断无疑义的信息则可以直接反馈给客户,如果判断不符合相关法规和标准的信息,则对其发出相应的警告或直接报警。
本发明提出的通过将数据获取终端的数据利用页面解析器、爬行策略搜索技术、主体爬虫技术、链接相关度估算技术、内容相关度计算技术、动态Web页面获取技术、动态页面的分类技术、微博信息内容获取技术、DeepWeb数据获取技术进行获取并储存,并将储存的数据进行程序筛选和人工筛选,由此提高了数据的价值性,减低假冒诈骗的信息的流传,从而有利于产业的健康发展。
附图说明
图1为本发明提出的适用于大数据分析互联网数据抓取方法的数据抓取反馈流程图;
图2为本发明提出的适用于大数据分析互联网数据抓取方法数据分析流程图。
具体实施方式
下面将对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
本实施例中提出
适用于大数据分析互联网数据抓取方法,包括以下步骤:
S1,数据获取终端产生应用数据,数据获取终端将各种应用软件平台使用后和预览网站后产生的数据传送到对应厂商的服务器和云端数据库内,或者是保存在第三方云端数据库内;
S2,服务器和云端数据库内保存的应用数据会进行甄别分析,数据甄别分析会将数据与通用信息库内储存的信息进行对比,作为第一步程序筛选;
S3,机选后产生三种判断结果,第一种是与通用信息库数据对比后无疑义的信息会直接通过平台和网站反馈给客户,第二种就是存在疑义的信息则进入下一步人工筛选,第三种则是明显不符合相关法规和标准的信息,则对其发出相应的警告或直接报警。
本实施例中,所述数据获取终端包括物联网终端、计算机终端和手持终端,物联网终端在使用时主要产生位置信息、状态信息和设备信息,计算机终端在使用时主要产生软件平台信息和IP地址信息,而手持终端在使用时则主要产生软件平台信息、位置信息、状态信息和IP地址信息。
本实施例中,所述通用信息库包括假冒诈骗信息库、危害言论信息库和违禁图像信息库,所述通用信息库采用计算机联网,对世面上出现的信息进行及时更新添加。
本实施例中,所述程序筛选包括关键字检索和敏感图像检索两大类。
本实施例中,所述数据获取终端采用页面解析器、爬行策略搜索技术、主体爬虫技术、链接相关度估算技术、内容相关度计算技术、动态Web页面获取技术、动态页面的分类技术、微博信息内容获取技术和DeepWeb数据获取技术进行数据分析检索。
本实施例中,所述数据获取终端具有明确的区分,对数据的来源进行分类,确定目标数据和根源数据,其中目标数据来源个体客户,而根源数据则来源于企业客户,在数据反馈时,将个体客户的数据反馈给企业客户。
本实施例中,所述人工筛选时,由专业经过培训的平台官方工作人员对具有疑义的信息进行预览,预览判断无疑义的信息则可以直接反馈给客户,如果判断不符合相关法规和标准的信息,则对其发出相应的警告或直接报警。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。

Claims (7)

1.适用于大数据分析互联网数据抓取方法,其特征在于,包括以下步骤:
S1,数据获取终端产生应用数据,数据获取终端将各种应用软件平台使用后和预览网站后产生的数据传送到对应厂商的服务器和云端数据库内,或者是保存在第三方云端数据库内;
S2,服务器和云端数据库内保存的应用数据会进行甄别分析,数据甄别分析会将数据与通用信息库内储存的信息进行对比,作为第一步程序筛选;
S3,机选后产生三种判断结果,第一种是与通用信息库数据对比后无疑义的信息会直接通过平台和网站反馈给客户,第二种就是存在疑义的信息则进入人工筛选,第三种则是明显不符合相关法规和标准的信息,则对其发出相应的警告或直接报警。
2.根据权利要求1所述的适用于大数据分析互联网数据抓取方法,其特征在于,所述数据获取终端包括物联网终端、计算机终端和手持终端,物联网终端在使用时产生位置信息、状态信息和设备信息,计算机终端在使用时产生软件平台信息和IP地址信息,而手持终端在使用时则产生软件平台信息、位置信息、状态信息和IP地址信息。
3.根据权利要求1所述的适用于大数据分析互联网数据抓取方法,其特征在于,所述通用信息库包括假冒诈骗信息库、危害言论信息库和违禁图像信息库,所述通用信息库采用计算机联网,对世面上出现的信息进行及时更新添加。
4.根据权利要求1所述的适用于大数据分析互联网数据抓取方法,其特征在于,所述程序筛选包括关键字检索和敏感图像检索两大类。
5.根据权利要求1所述的适用于大数据分析互联网数据抓取方法,其特征在于,所述数据获取终端采用页面解析器、爬行策略搜索技术、主体爬虫技术、链接相关度估算技术、内容相关度计算技术、动态Web页面获取技术、动态页面的分类技术、微博信息内容获取技术和DeepWeb数据获取技术进行数据分析检索。
6.根据权利要求1所述的适用于大数据分析互联网数据抓取方法,其特征在于,所述数据获取终端具有明确的区分,对数据的来源进行分类,确定目标数据和根源数据,其中目标数据来源个体客户,而根源数据则来源于企业客户,在数据反馈时,将个体客户的数据反馈给企业客户。
7.根据权利要求1所述的适用于大数据分析互联网数据抓取方法,其特征在于,所述人工筛选时,由专业经过培训的平台官方工作人员对具有疑义的信息进行预览,预览判断无疑义的信息则直接反馈给客户,如果判断不符合相关法规和标准的信息,则对其发出相应的警告或直接报警。
CN202010212831.0A 2020-03-24 2020-03-24 适用于大数据分析互联网数据抓取方法 Pending CN111460253A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010212831.0A CN111460253A (zh) 2020-03-24 2020-03-24 适用于大数据分析互联网数据抓取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010212831.0A CN111460253A (zh) 2020-03-24 2020-03-24 适用于大数据分析互联网数据抓取方法

Publications (1)

Publication Number Publication Date
CN111460253A true CN111460253A (zh) 2020-07-28

Family

ID=71685700

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010212831.0A Pending CN111460253A (zh) 2020-03-24 2020-03-24 适用于大数据分析互联网数据抓取方法

Country Status (1)

Country Link
CN (1) CN111460253A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113064947A (zh) * 2021-04-08 2021-07-02 深圳石方数链科技有限公司 一种基于客户管理***的客户数据保护***

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102208992A (zh) * 2010-06-13 2011-10-05 天津海量信息技术有限公司 面向互联网的不良信息过滤***及其方法
CN104063448A (zh) * 2014-06-18 2014-09-24 华东师范大学 一种视频领域相关的分布式微博数据抓取***
GB201507530D0 (en) * 2015-05-01 2015-06-17 Salesoptimize Ltd Computer-implemented methods of website analysis
CN105117484A (zh) * 2015-09-17 2015-12-02 广州银讯信息科技有限公司 一种互联网舆情监测方法和***
CN105893368A (zh) * 2014-11-19 2016-08-24 北京航天长峰科技工业集团有限公司 多语种网络舆情分析方法
CN106960063A (zh) * 2017-04-20 2017-07-18 广州优亚信息技术有限公司 一种针对招商引资领域的互联网情报抓取和推荐***
CN109063054A (zh) * 2018-07-19 2018-12-21 天津迈基生物科技有限公司 一种机器学习和大数据处理***
CN109255063A (zh) * 2018-08-01 2019-01-22 宜人恒业科技发展(北京)有限公司 一种爬取网页内容的方法和装置
CN110321471A (zh) * 2019-04-19 2019-10-11 四川政资汇智能科技有限公司 一种基于政策性资源汇聚的互联网科技金融智能匹配方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102208992A (zh) * 2010-06-13 2011-10-05 天津海量信息技术有限公司 面向互联网的不良信息过滤***及其方法
CN104063448A (zh) * 2014-06-18 2014-09-24 华东师范大学 一种视频领域相关的分布式微博数据抓取***
CN105893368A (zh) * 2014-11-19 2016-08-24 北京航天长峰科技工业集团有限公司 多语种网络舆情分析方法
GB201507530D0 (en) * 2015-05-01 2015-06-17 Salesoptimize Ltd Computer-implemented methods of website analysis
CN105117484A (zh) * 2015-09-17 2015-12-02 广州银讯信息科技有限公司 一种互联网舆情监测方法和***
CN106960063A (zh) * 2017-04-20 2017-07-18 广州优亚信息技术有限公司 一种针对招商引资领域的互联网情报抓取和推荐***
CN109063054A (zh) * 2018-07-19 2018-12-21 天津迈基生物科技有限公司 一种机器学习和大数据处理***
CN109255063A (zh) * 2018-08-01 2019-01-22 宜人恒业科技发展(北京)有限公司 一种爬取网页内容的方法和装置
CN110321471A (zh) * 2019-04-19 2019-10-11 四川政资汇智能科技有限公司 一种基于政策性资源汇聚的互联网科技金融智能匹配方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113064947A (zh) * 2021-04-08 2021-07-02 深圳石方数链科技有限公司 一种基于客户管理***的客户数据保护***

Similar Documents

Publication Publication Date Title
CN107888574B (zh) 检测数据库风险的方法、服务器及存储介质
CN111245793A (zh) 网络数据的异常分析方法及装置
CN113098870A (zh) 一种网络诈骗检测方法、装置、电子设备及存储介质
CN109347808B (zh) 一种基于用户群行为活动的安全分析方法
CN115134099B (zh) 基于全流量的网络攻击行为分析方法及装置
CN109756467B (zh) 一种钓鱼网站的识别方法及装置
CN108229170B (zh) 利用大数据和神经网络的软件分析方法和装置
KR101692982B1 (ko) 로그 분석 및 특징 자동 학습을 통한 위험 감지 및 접근제어 자동화 시스템
CN113409555B (zh) 一种基于物联网的实时报警联动方法及***
CN108337269A (zh) 一种WebShell检测方法
CN113572757B (zh) 服务器访问风险监测方法及装置
CN109657119A (zh) 一种基于访问日志ip分析的网络爬虫检测方法
CN112839014A (zh) 建立识别异常访问者模型的方法、***、设备及介质
CN114244564A (zh) 攻击防御方法、装置、设备及可读存储介质
CN115982762A (zh) 一种基于大数据的数据安全防漏管理方法、***和介质
CN113918938A (zh) 一种持续免疫安全***的用户实体行为分析方法及***
CN111460253A (zh) 适用于大数据分析互联网数据抓取方法
CN117609992A (zh) 一种数据泄密检测方法、装置及存储介质
CN112528325B (zh) 一种数据信息的安全处理方法及***
CN112084239A (zh) 基于大数据特征模型识别的信令网络安全挖掘分析方法
CN113923037B (zh) 一种基于可信计算的异常检测优化装置、方法及***
CN113688346A (zh) 一种违法网站识别方法、装置、设备及存储介质
CN105205134B (zh) 识别用户点击访问网站行为的方法及装置
CN114389875A (zh) 一种人机行为检测方法、***、设备及介质
CN113132340B (zh) 一种基于视觉与主机特征的钓鱼网站识别方法及电子装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information

Inventor after: Xiang Hui

Inventor after: Zhang Yongli

Inventor after: Su Ruiqing

Inventor after: Zhang Hongyuan

Inventor after: Cai Pengfei

Inventor after: Zhang Jing

Inventor after: Lu Yan

Inventor after: Yang Qingzhuo

Inventor after: Li Haolan

Inventor before: Xiang Hui

Inventor before: Zhang Yongli

Inventor before: Su Ruiqing

Inventor before: Zhang Hongyuan

Inventor before: Cai Pengfei

Inventor before: Zhang Jing

Inventor before: Lu Yan

Inventor before: Yang Qingzhuo

Inventor before: Li Haolan

CB03 Change of inventor or designer information
RJ01 Rejection of invention patent application after publication

Application publication date: 20200728

RJ01 Rejection of invention patent application after publication