CN110417873B - 一种实现记录网页交互操作的网络信息提取*** - Google Patents

一种实现记录网页交互操作的网络信息提取*** Download PDF

Info

Publication number
CN110417873B
CN110417873B CN201910608155.6A CN201910608155A CN110417873B CN 110417873 B CN110417873 B CN 110417873B CN 201910608155 A CN201910608155 A CN 201910608155A CN 110417873 B CN110417873 B CN 110417873B
Authority
CN
China
Prior art keywords
information
server
module
task
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910608155.6A
Other languages
English (en)
Other versions
CN110417873A (zh
Inventor
罗永秀
张华�
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Hongyi Software Technology Co ltd
Original Assignee
Shanghai Hongyi Software Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Hongyi Software Technology Co ltd filed Critical Shanghai Hongyi Software Technology Co ltd
Priority to CN201910608155.6A priority Critical patent/CN110417873B/zh
Publication of CN110417873A publication Critical patent/CN110417873A/zh
Application granted granted Critical
Publication of CN110417873B publication Critical patent/CN110417873B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9566URL specific, e.g. using aliases, detecting broken or misspelled links
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • G06F16/972Access to data in other repository systems, e.g. legacy data or dynamic Web page generation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/08Configuration management of networks or network elements
    • H04L41/0803Configuration setting
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/02Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1001Protocols in which an application is distributed across nodes in the network for accessing one among a plurality of replicated servers
    • H04L67/1004Server selection for load balancing
    • H04L67/1008Server selection for load balancing based on parameters of servers, e.g. available memory or workload

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明涉及一种实现记录网页交互操作的网络信息提取***,包括浏览器插件和服务端。***控制模块控制***的启动关闭。任务管理模块使用户可以根据自己的需求,创建一个或者多个网络信息提取任务,每个网络信息提取任务可以根据用户需求配置不同的功能。交互操作录制模块,记录用户在当前浏览器中的操作,包括访问的网站地址及交互信息。服务端基于负载均衡和无头浏览器实现了网络信息的精确高效获取。

Description

一种实现记录网页交互操作的网络信息提取***
技术领域
本发明涉及互联网技术领域,为一种使用浏览器插件技术实现记录网页交互操作的网络信息提取***。
背景技术
随着互联网时代的到来,互联网信息数据正以极快的速度增长。随着大数据的发展,也迫切的需要一种快速、大量、稳定获取互联网信息的方法,因此网络信息提取***有着非常广泛的应用前景。传统的网络信息提取方法大多是基于页面的静态分析,提取页面中的链接标签,从而获取其他页面的链接。这些网络信息提取***主要针对企业级用户,功能单一,且不够灵活易用。基于分布式网络的网络信息提取***的稳定性也较差,***工作依赖于主节点,一旦主节点异常,整个网络提取***就会瘫痪。而且由于每个从节点都要与主节点进行通信,资源分配的方式是按顺序分配,缺乏统一的资源调度,导致***性能较差。
发明内容
有鉴于此,本发明提供一种解决或部分解决上述问题的一种使用浏览器插件技术实现记录网页交互操作的网络信息提取***。
为达到上述技术方案的效果,本发明的技术方案为:一种使用浏览器插件技术实现记录网页交互操作的网络信息提取***,包含以下:一种实现记录网页交互操作的网络信息提取***,其特征在于,包括浏览器插件(A)、服务端(B)、网络模块(C);浏览器插件(A),包括***控制模块(1)、任务管理模块(2)、交互操作录制模块(3),服务端(B),包括服务器模块(4)、数据存储模块(5);
浏览器插件(A)与服务端(B)通过网络模块(C)进行通信,浏览器插件(A) 将***自定义的配置信息,包括:网络信息提取***的开启和终止、信息更新间隔、待提取的种子URL信息、关键字、是否进行智能匹配、智能匹配精度;并通过网络模块(C),发送到服务端(B);服务端(B)根据配置信息提取网络信息;当网络信息提取完成时,服务端(B)通过网络模块(C)通知浏览器插件(A)信息提取完成,用户通过浏览器插件(A)的任务管理模块(2),查看信息提取结果报告和访问任务所提取的数据;其中信息提取结果报告包括:本次信息提取的原始配置信息、信息提取总数、更新频率、信息提取时间、访问网站列表;访问任务所提取的数据根据文件类型、文件大小、与主题相关度进行排序,并以不同的格式批量导出;
用户通过***控制模块(1),供用户的个人信息及***级的配置信息,控制网络信息提取***的开启和关闭,当任务管理模块(2)创建的某一任务完成时,服务端(B),通过网络模块(C)将结果信息发送至***控制模块(1)配置的邮箱中;查看每个网络信息提取任务的状态及结果;
任务管理模块(2),用户根据自己的需求,创建一个或者多个网络信息提取任务,每个网络信息提取任务根据用户需求配置不同的功能;任务管理模块(2)包括种子信息配置模块(2-1)、智能匹配设置模块(2-2)、任务目标设置模块(2-3)、抓取结果管理模块(2-4);
种子信息配置模块(2-1)通过URL、关键字、网页交互信息录制三种方式指定网络信息提取的种子信息;当用户选择URL时,指定一个或者多个URL地址。当用户选择关键字时,指定一个或者多个关键字,当用户选择网页交互信息录制时,将启动交互操作录制模块(3)进行交互操作录制;当任务管理模块(2)的任务启动时,将种子信息配置模块(2-1)配置的种子信息,通过网络模块(C) 发送至服务端(B);
智能匹配设置模块(2-2)基于N-Gram模糊匹配算法;在没有智能匹配的模式下,只严格按照种子信息配置模块(2-1)中所配置的内容抓取信息;在智能匹配模式下,将根据所给的种子信息,智能匹配相关信息,实现信息的抓取;
通过任务目标设置模块(2-3)设置任务执行时间、网络信息更新间隔、抓取网络信息数量;并发送至服务端(B),服务端(B)将根据信息执行网络信息抓取任务;
抓取结果管理模块(2-4)实时显示服务器端(B)返回的任务状态,包括当前任务预计抓取数据的总量、已抓取数据量、预计完成时间、已抓取时间、数据更新频率;并查看已完成任务的结果报告,本次任务中所提取的数据;其中信息提取结果报告包括:本信息提取的原始配置信息、信息提取总数、更新频率、信息提取时间、访问网站列表;抓取数据按文件类型、文件大小、与主题相关度进行排序,并以不同的格式批量导出;
交互操作录制模块(3),记录用户在当前浏览器中的操作,包括访问的网站地址,交互信息,请求的html页面、JavaScript文件、监听到的触发的事件;将其通过网络模块(C)发送至服务端(B);
服务器模块(4),包括负载均衡服务器(4-1)、网络信息抓取服务器(4-2),连接数据存储模块(5);
负载均衡服务器(4-1),采用加权轮询方法实现对网络信息抓取服务器(4-2) 的负载均衡控制;负载均衡服务器(4-1)每隔一定的时间依次访问所有网络信息抓取服务器(4-2),并根据当前网络信息抓取服务器(4-2)的配置高低及实际负载量计算每台网络信息抓取服务器当前的负载权重;按负载权重有小到大的顺序更新服务器状态队列,当有新任务到来时,优先分配给排在队列前面的信息抓取服务器,即当前负载较少的服务器;
网络信息抓取服务器(4-2),接收负载均衡服务器(4-1)的调度,根据浏览器插件(A)提供的种子信息及任务配置信息,执行网络信息抓取任务,并将结果保存至数据存储模块(5),同时向浏览器插件(A)发送任务完成或者异常信息;网络信息抓取服务器(4-2),基于无头浏览器Headless Chrome;当接收到的种子信息为URL时,通过调用浏览器内核的API,访问种子URL,获取页面的DOM信息及请求的JavaScript文件;然后基于进行深度优先遍历,扫描DOM信息中的所有链接,及绑定的事件,根据绑定事件列表扫描JavaScript文件,并依次触发,重复上述步骤,获得所有URL链接,然后对URL进行去重,并按照网站信用评价数据表中存储的网站信用分数,将信用分数低于30的URL去除,剩余URL按照信用分数,依次进行信息提取;当接收到的种子信息为关键字时,启动关键字搜索引擎,将搜索结果作为种子URL,然后执行URL为原始种子的信息抓取步骤;当接收到的种子信息为交互操作录制模块(3)录制的交互信息时,将启动无头浏览器Headless Chrome,执行录制的交互信息,抓取过程中所有的数据;网络信息抓取服务器(4-2)接收智能匹配设置模块(2-2)的控制,根据智能匹配的程度动态抓取与种子信息相关的数据;数据存储模块(5)接收由网络信息抓取服务器(4-2)抓取的网络信息,当抓取任务完成时用户通过浏览器插件(A),访问数据存储模块(5)中的所有数据。
附图说明
图 1 为 本申请实施例提供的 使用浏览器插件技术实现记录网页交互操作的网络信息提取***。
具体实施方式
为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚明白,以下结合实施例,对本发明进行详细的说明。应当说明的是,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明,能实现同样功能的产品属于等同替换和改进,均包含在本发明的保护范围之内。具体方法如下:
实施例1:下面将对一种使用浏览器插件技术实现记录网页交互操作的网络信息提取***的应用场景举例如下:
如图 1 所示, 一种使用浏览器插件技术实现记录网页交互操作的网络信息提取***,包含浏览器插件(A)、服务端(B)、网络模块(C),其特征在于,所述浏览器插件(A),包括***控制模块(1)、任务管理模块(2)、交互操作录制模块(3),所述服务端(B),包括服务器模块(4)、数据存储模块(5);
浏览器插件(A)与所述服务端(B)通过所述网络模块(C)进行通信,所述浏览器插件(A)将***的自定义配置信息,包括:网络信息提取***的开启和终止、信息更新间隔、待提取的种子URL信息、关键字、是否进行智能匹配、智能匹配精度,通过所述网络模块(C),发送到所述服务端(B);所述服务端(B)根据配置信息提取网络信息;当网络信息提取完成时,所述服务端(B)通过所述网络模块(C)通知所述浏览器插件(A)信息提取完成,用户可以通过所述浏览器插件(A)的所述任务管理模块(2),查看信息提取结果报告,访问该任务所提取的数据;其中信息提取结果报告包括:该次信息提取的原始配置信息、信息提取总数、更新频率、信息提取时间、访问网站列表;提取数据可以按文件类型、文件大小、与主题相关度进行排序,并能以不同的格式批量导出;
***控制模块(1),用户通过该模块,供用户的个人信息及***级的配置信息,控制网络信息提取***的开启和关闭,当所述任务管理模块(2)创建的某一任务完成时,所述服务端(B),通过所述网络模块(C)将结果信息发送至所述***控制模块(1)配置的邮箱中。查看每个网络信息提取任务的状态及结果;
任务管理模块(2),用户可以根据自己的需求,创建一个或者多个网络信息提取任务,每个网络信息提取任务可以根据用户需求配置不同的功能;所述任务管理模块(2),包括:种子信息配置模块(2-1)、智能匹配设置模块(2-2)、任务目标设置模块(2-3)、抓取结果管理模块(2-4);
种子信息配置模块(2-1),该模块可以通过URL、关键字、网页交互信息录制三种方式指定网络信息提取的种子信息;当用户选择URL时,可以指定一个或者多个URL地址。当用户选择关键字时,可以指定一个或者多个关键字,当用户选择网页交互信息录制时,将启动所述交互操作录制模块(3)进行交互操作录制;当所述任务管理模块(2)的任务启动时,将所述种子信息配置模块(2-1)配置的种子信息,通过所述网络模块(C)发送至所述服务端(B);
智能匹配设置模块(2-2),基于N-Gram模糊匹配算法。在没有智能匹配的模式下,该***只严格按照所述种子信息配置模块(2-1)中所配置的内容抓取信息;在智能匹配模式下,将根据所给的种子信息,智能匹配相关信息,实现相关信息的抓取;
任务目标设置模块(2-3),通过该模块可以设置任务执行时间、网络信息更新间隔、抓取网络信息数量;并发送至所述服务端(B),所述服务端(B)将根据该信息执行网络信息抓取任务;
抓取结果管理模块(2-4),该模块实时显示服务器端(B)返回的任务状态,包括当前任务预计抓取数据的总量、已抓取数据量、预计完成时间、已抓取时间、数据更新频率;并可以查看已完成任务的结果报告,该次任务中所提取的数据;其中信息提取结果报告包括:该次信息提取的原始配置信息、信息提取总数、更新频率、信息提取时间、访问网站列表;抓取数据可以按文件类型、文件大小、与主题相关度进行排序,并能以不同的格式批量导出;
交互操作录制模块(3),记录用户在当前浏览器中的操作,包括访问的网站地址,及交互信息;将其通过所述网络模块(C)发送至所述服务端(B);
服务器模块(4),包括负载均衡服务器(4-1)、网络信息抓取服务器(4-2),连接数据存储模块(5);
负载均衡服务器(4-1),采用加权轮询方法,实现对所述网络信息抓取服务器 (4-2)的负载均衡控制;所述负载均衡服务器(4-1)每隔一定的时间依次访问所有所述网络信息抓取服务器(4-2),并根据当前所述网络信息抓取服务器(4-2) 的配置高低及实际负载量计算每台网络信息抓取服务器当前的负载权重;按负载权重有小到大的顺序更新服务器状态队列,当有新任务到来时,优先分配给排在队列前面的信息抓取服务器,即当前负载较少的服务器;
网络信息抓取服务器(4-2),接收所述负载均衡服务器(4-1)的调度,根据所述浏览器插件(A)提供的种子信息及任务配置信息,执行网络信息抓取任务,并将结果保存至所述数据存储模块(5),同时向所述浏览器插件(A)发送任务完成或者异常信息;所述网络信息抓取服务器(4-2),基于无头浏览器Headless Chrome;当接收到的种子信息为URL时,通过调用浏览器内核的API,访问种子 URL,获取该页面的DOM信息及请求的JavaScript文件;然后基于进行深度优先遍历,扫描DOM信息中的所有链接,及绑定的事件,根据绑定事件列表扫描 JavaScript文件,并依次触发,重复上述步骤,获得所有URL链接,然后对URL 进行去重,并按照网站信用评价数据表中存储的网站信用分数,将信用分数低于 30的URL去除,剩余URL按照信用分数,依次进行信息提取;当接收到的种子信息为关键字时,启动关键字搜索引擎,将搜索结果作为种子URL,然后执行URL 为原始种子的信息抓取步骤;当接收到的种子信息为所述交互操作录制模块(3) 录制的交互信息时,将启动无头浏览器HeadlessChrome,执行录制的交互信息,抓取该过程中所有的数据;所述网络信息抓取服务器(4-2),也接收所述智能匹配设置模块(2-2)的控制,根据智能匹配的程度,动态抓取与种子信息相关的数据;
数据存储模块(5),接收由所述网络信息抓取服务器(4-2)抓取的网络信息,当抓取任务完成时,用户可以通过任务完成时发送的链接,访问该模块中的所有数据;
浏览器插件(A),包括***控制模块(1)、任务管理模块(2)、交互操作录制模块(3),服务端(B),包括服务器模块(4)、数据存储模块(5);
浏览器插件(A)与服务端(B)通过网络模块(C)进行通信,浏览器插件(A) 将***的自定义配置信息,包括:网络信息提取***的开启和终止、信息更新间隔、待提取的种子URL信息、关键字、是否进行智能匹配、智能匹配精度,通过网络模块(C),发送到服务端(B);服务端(B)根据配置信息提取网络信息;当网络信息提取完成时,服务端(B)通过网络模块(C)通知浏览器插件(A)信息提取完成,用户可以通过浏览器插件(A)的任务管理模块(2),查看信息提取结果报告,访问该任务所提取的数据;其中信息提取结果报告包括:该次信息提取的原始配置信息、信息提取总数、更新频率、信息提取时间、访问网站列表;提取数据可以按文件类型、文件大小、与主题相关度进行排序,并能以不同的格式批量导出;
***控制模块(1),用户通过该模块,供用户的个人信息及***级的配置信息,控制网络信息提取***的开启和关闭,当任务管理模块(2)创建的某一任务完成时,服务端(B),通过网络模块(C)将结果信息发送至***控制模块(1)配置的邮箱中。查看每个网络信息提取任务的状态及结果;
任务管理模块(2),用户可以根据自己的需求,创建一个或者多个网络信息提取任务,每个网络信息提取任务可以根据用户需求配置不同的功能;任务管理模块(2),包括:种子信息配置模块(2-1)、智能匹配设置模块(2-2)、任务目标设置模块(2-3)、抓取结果管理模块(2-4);
种子信息配置模块(2-1),该模块可以通过URL、关键字、网页交互信息录制三种方式指定网络信息提取的种子信息;当用户选择URL时,可以指定一个或者多个URL地址。当用户选择关键字时,可以指定一个或者多个关键字,当用户选择网页交互信息录制时,将启动交互操作录制模块(3)进行交互操作录制;当任务管理模块(2)的任务启动时,将种子信息配置模块(2-1)配置的种子信息,通过网络模块(C)发送至服务端(B);
智能匹配设置模块(2-2),基于N-Gram模糊匹配算法。在没有智能匹配的模式下,该***只严格按照种子信息配置模块(2-1)中所配置的内容抓取信息;在智能匹配模式下,将根据所给的种子信息,智能匹配相关信息,实现相关信息的抓取;
任务目标设置模块(2-3),通过该模块可以设置任务执行时间、网络信息更新间隔、抓取网络信息数量;并发送至服务端(B),服务端(B)将根据该信息执行网络信息抓取任务;
抓取结果管理模块(2-4),该模块实时显示服务器端(B)返回的任务状态,包括当前任务预计抓取数据的总量、已抓取数据量、预计完成时间、已抓取时间、数据更新频率;并可以查看已完成任务的结果报告,该次任务中所提取的数据;其中信息提取结果报告包括:该次信息提取的原始配置信息、信息提取总数、更新频率、信息提取时间、访问网站列表;抓取数据可以按文件类型、文件大小、与主题相关度进行排序,并能以不同的格式批量导出;
交互操作录制模块(3),记录用户在当前浏览器中的操作,包括访问的网站地址,及交互信息;将其通过网络模块(C)发送至服务端(B);
服务器模块(4),包括负载均衡服务器(4-1)、网络信息抓取服务器(4-2),连接数据存储模块(5);
负载均衡服务器(4-1),采用加权轮询方法,实现对网络信息抓取服务器(4-2) 的负载均衡控制;负载均衡服务器(4-1)每隔一定的时间依次访问所有网络信息抓取服务器(4-2),并根据当前网络信息抓取服务器(4-2)的配置高低及实际负载量计算每台网络信息抓取服务器当前的负载权重;按负载权重有小到大的顺序更新服务器状态队列,当有新任务到来时,优先分配给排在队列前面的信息抓取服务器,即当前负载较少的服务器;
网络信息抓取服务器(4-2),接收负载均衡服务器(4-1)的调度,根据浏览器插件(A)提供的种子信息及任务配置信息,执行网络信息抓取任务,并将结果保存至数据存储模块(5),同时向浏览器插件(A)发送任务完成或者异常信息;网络信息抓取服务器(4-2),基于无头浏览器Headless Chrome;当接收到的种子信息为URL时,通过调用浏览器内核的API,访问种子URL,获取该页面的DOM 信息及请求的JavaScript文件;然后基于进行深度优先遍历,扫描DOM信息中的所有链接,及绑定的事件,根据绑定事件列表扫描JavaScript文件,并依次触发,重复上述步骤,获得所有URL链接,然后对URL进行去重,并按照网站信用评价数据表中存储的网站信用分数,将信用分数低于30的URL去除,剩余URL按照信用分数,依次进行信息提取;当接收到的种子信息为关键字时,启动关键字搜索引擎,将搜索结果作为种子URL,然后执行URL为原始种子的信息抓取步骤;当接收到的种子信息为交互操作录制模块(3)录制的交互信息时,将启动无头浏览器Headless Chrome,执行录制的交互信息,抓取该过程中所有的数据;网络信息抓取服务器(4-2),也接收智能匹配设置模块(2-2)的控制,根据智能匹配的程度,动态抓取与种子信息相关的数据;
数据存储模块(5),接收由网络信息抓取服务器(4-2)抓取的网络信息,当抓取任务完成时,用户可以通过任务完成时发送的链接,访问该模块中的所有数据;
本发明的有益成果为:本发明提供了一种使用浏览器插件技术实现记录网页交互操作的网络信息提取***,基于浏览器插件,提供了多种灵活的种子信息配置方案及任务管理方案,尤其提供了一种简单快速的基于网页信息交互操作的种子信息设置方案。服务端基于负载均衡和无头浏览器实现了网络信息的精确高效获取。
以上仅为本发明之较佳实施例,并非用以限定本发明的权利要求保护范围。同时以上说明,对于相关技术领域的技术人员应可以理解及实施,因此其他基于本发明所揭示内容所完成的等同改变,均应包含在本权利要求书的涵盖范围内。

Claims (1)

1.一种实现记录网页交互操作的网络信息提取***,其特征在于,包括浏览器插件(A)、服务端(B)、网络模块(C);所述浏览器插件(A),包括***控制模块(1)、任务管理模块(2)、交互操作录制模块(3),所述服务端(B),包括服务器模块(4)、数据存储模块(5);
所述浏览器插件(A)与所述服务端(B)通过所述网络模块(C)进行通信,所述浏览器插件(A)将***自定义的配置信息,包括:网络信息提取***的开启和终止、信息更新间隔、待提取的种子URL信息、关键字、是否进行智能匹配、智能匹配精度;并通过所述网络模块(C),发送到所述服务端(B);所述服务端(B)根据配置信息提取网络信息;当网络信息提取完成时,所述服务端(B)通过所述网络模块(C)通知所述浏览器插件(A)信息提取完成,用户通过所述浏览器插件(A)的所述任务管理模块(2),查看信息提取结果报告和访问任务所提取的数据;其中信息提取结果报告包括:本次信息提取的原始配置信息、信息提取总数、更新频率、信息提取时间、访问网站列表;访问任务所提取的数据根据文件类型、文件大小、与主题相关度进行排序,并以不同的格式批量导出;
用户通过所述***控制模块(1),供用户的个人信息及***级的配置信息,控制网络信息提取***的开启和关闭,当所述任务管理模块(2)创建的某一任务完成时,所述服务端(B),通过所述网络模块(C)将结果信息发送至所述***控制模块(1)配置的邮箱中;查看每个网络信息提取任务的状态及结果;
所述任务管理模块(2),用户根据自己的需求,创建一个或者多个网络信息提取任务,每个网络信息提取任务根据用户需求配置不同的功能;所述任务管理模块(2)包括种子信息配置模块(2-1)、智能匹配设置模块(2-2)、任务目标设置模块(2-3)、抓取结果管理模块(2-4);
所述种子信息配置模块(2-1)通过URL、关键字、网页交互信息录制三种方式指定网络信息提取的种子信息;当用户选择URL时,指定一个或者多个URL地址;当用户选择关键字时,指定一个或者多个关键字,当用户选择网页交互信息录制时,将启动所述交互操作录制模块(3)进行交互操作录制;当所述任务管理模块(2)的任务启动时,将所述种子信息配置模块(2-1)配置的种子信息,通过所述网络模块(C)发送至所述服务端(B);
所述智能匹配设置模块(2-2)基于N-Gram模糊匹配算法;在没有智能匹配的模式下,只严格按照所述种子信息配置模块(2-1)中所配置的内容抓取信息;在智能匹配模式下,将根据所给的种子信息,智能匹配相关信息,实现信息的抓取;
通过所述任务目标设置模块(2-3)设置任务执行时间、网络信息更新间隔、抓取网络信息数量;并发送至所述服务端(B),所述服务端(B)将根据信息执行网络信息抓取任务;
所述抓取结果管理模块(2-4)实时显示服务器端(B)返回的任务状态,包括当前任务预计抓取数据的总量、已抓取数据量、预计完成时间、已抓取时间、数据更新频率;并查看已完成任务的结果报告,本次任务中所提取的数据;其中信息提取结果报告包括:本信息提取的原始配置信息、信息提取总数、更新频率、信息提取时间、访问网站列表;抓取数据按文件类型、文件大小、与主题相关度进行排序,并以不同的格式批量导出;
所述交互操作录制模块(3),记录用户在当前浏览器中的操作,包括访问的网站地址,交互信息,请求的html页面、JavaScript文件、监听到的触发的事件;将其通过所述网络模块(C)发送至所述服务端(B);
所述服务器模块(4),包括负载均衡服务器(4-1)、网络信息抓取服务器(4-2);
所述负载均衡服务器(4-1),采用加权轮询方法实现对所述网络信息抓取服务器(4-2)的负载均衡控制;所述负载均衡服务器(4-1)每隔一定的时间依次访问所有所述网络信息抓取服务器(4-2),并根据当前所述网络信息抓取服务器(4-2)的配置高低及实际负载量计算每台网络信息抓取服务器当前的负载权重;按负载权重从小到大的顺序更新服务器状态队列,当有新任务到来时,优先分配给排在队列前面的信息抓取服务器,即当前负载较少的服务器;
所述网络信息抓取服务器(4-2),接收所述负载均衡服务器(4-1)的调度,根据所述浏览器插件(A)提供的种子信息及任务配置信息,执行网络信息抓取任务,并将结果保存至所述数据存储模块(5),同时向所述浏览器插件(A)发送任务完成或者异常信息;所述网络信息抓取服务器(4-2),基于无头浏览器Headless Chrome;当接收到的种子信息为URL时,通过调用浏览器内核的API,访问种子URL,获取页面的DOM信息及请求的JavaScript文件;然后基于进行深度优先遍历,扫描DOM信息中的所有链接,及绑定的事件,根据绑定事件列表扫描JavaScript文件,并依次触发,重复上述步骤,获得所有URL链接,然后对URL进行去重,并按照网站信用评价数据表中存储的网站信用分数,将信用分数低于30的URL去除,剩余URL按照信用分数,依次进行信息提取;当接收到的种子信息为关键字时,启动关键字搜索引擎,将搜索结果作为种子URL,然后执行URL为原始种子的信息抓取步骤;当接收到的种子信息为所述交互操作录制模块(3)录制的交互信息时,将启动无头浏览器HeadlessChrome,执行录制的交互信息,抓取过程中所有的数据;所述网络信息抓取服务器(4-2)接收所述智能匹配设置模块(2-2)的控制,根据智能匹配的程度动态抓取与种子信息相关的数据;所述数据存储模块(5)接收由所述网络信息抓取服务器(4-2)抓取的网络信息,当抓取任务完成时用户通过所述浏览器插件(A),访问所述数据存储模块(5)中的所有数据。
CN201910608155.6A 2019-07-08 2019-07-08 一种实现记录网页交互操作的网络信息提取*** Active CN110417873B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910608155.6A CN110417873B (zh) 2019-07-08 2019-07-08 一种实现记录网页交互操作的网络信息提取***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910608155.6A CN110417873B (zh) 2019-07-08 2019-07-08 一种实现记录网页交互操作的网络信息提取***

Publications (2)

Publication Number Publication Date
CN110417873A CN110417873A (zh) 2019-11-05
CN110417873B true CN110417873B (zh) 2021-04-02

Family

ID=68360526

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910608155.6A Active CN110417873B (zh) 2019-07-08 2019-07-08 一种实现记录网页交互操作的网络信息提取***

Country Status (1)

Country Link
CN (1) CN110417873B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111177177B (zh) * 2019-12-02 2023-06-16 国网吉林省电力有限公司吉林供电公司 一种基于多源异构数据融合的自动报表***及其方法
CN112994968B (zh) * 2019-12-17 2023-05-02 北京沃东天骏信息技术有限公司 一种网络信息采集方法、服务器、终端和***
CN111428115A (zh) * 2020-04-16 2020-07-17 行吟信息科技(上海)有限公司 一种网页信息处理方法及装置
CN113407760B (zh) * 2021-08-18 2021-11-12 云上(江西)大数据发展有限公司 一种用于共享平台的政务数据分析***
CN115086752B (zh) * 2022-07-21 2022-11-08 南京百家云科技有限公司 一种针对浏览器页面内容的录制方法、***及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104516982A (zh) * 2015-01-06 2015-04-15 南通大学 一种基于Nutch的Web信息提取方法和***
CN109597927A (zh) * 2018-12-05 2019-04-09 贵阳高新数通信息有限公司 招投标相关网页页面信息提取方法及***

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103095681B (zh) * 2012-12-03 2016-08-03 微梦创科网络科技(中国)有限公司 一种检测漏洞的方法及装置
CN105678170B (zh) * 2016-01-05 2018-05-29 广东工业大学 一种动态检测xss漏洞的方法
CN109471993A (zh) * 2018-10-09 2019-03-15 重庆易保全网络科技有限公司 在线实时网页取证方法、装置、存储介质及设备
CN109710830A (zh) * 2018-12-28 2019-05-03 四川新网银行股份有限公司 一种基于浏览器插件的分布式网络爬虫方法及***

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104516982A (zh) * 2015-01-06 2015-04-15 南通大学 一种基于Nutch的Web信息提取方法和***
CN109597927A (zh) * 2018-12-05 2019-04-09 贵阳高新数通信息有限公司 招投标相关网页页面信息提取方法及***

Also Published As

Publication number Publication date
CN110417873A (zh) 2019-11-05

Similar Documents

Publication Publication Date Title
CN110417873B (zh) 一种实现记录网页交互操作的网络信息提取***
CN107895009B (zh) 一种基于分布式的互联网数据采集方法及***
CN107273409B (zh) 一种网络数据采集、存储及处理方法及***
CN109902220B (zh) 网页信息获取方法、装置和计算机可读存储介质
AU2018201459B2 (en) System and method for improving access to search results
USRE46967E1 (en) System, apparatus, method, and computer program product for indexing a file
EP3575984A1 (en) Artificial intelligence based-document processing
CN100596353C (zh) 提供日志服务的方法及***
US9094478B2 (en) Prereading method and system for web browser
CN106126648B (zh) 一种基于重做日志的分布式商品信息爬虫方法
CN104765592B (zh) 一种面向网页采集任务的插件管理方法及其装置
CN103942268B (zh) 搜索与应用相结合的方法、设备以及应用接口
CN110321383A (zh) 大数据平台数据同步方法、装置、计算机设备及存储介质
KR102222287B1 (ko) 은닉 url에 포함된 정형 및 비정형 데이터의 수집을 위한 웹 크롤러 시스템
CN103927370A (zh) 一种组合文字和图片信息的网络资讯批量采集方法
CN102710795A (zh) 热点聚合方法及装置
CN113656673A (zh) 面向广告投放的主从分布内容爬取机器人
CN104182425A (zh) 一种多语种网站的静态页面生成方法
EP2608064A1 (en) Information provision device, information provision method, programme, and information recording medium
WO2005017773A2 (en) Search result based automatic query reformulation
CN105721519B (zh) 一种网页数据采集方法、装置及***
CN111125485A (zh) 基于Scrapy的网站URL爬取方法
CN111444412B (zh) 网络爬虫任务的调度方法及装置
EP2608065A1 (en) Information provision device, information provision method, programme, and information recording medium
CN113821754A (zh) 一种敏感数据接口爬虫识别方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant