CN106777362A - 一种html页面的信息采集方法 - Google Patents

一种html页面的信息采集方法 Download PDF

Info

Publication number
CN106777362A
CN106777362A CN201710043553.9A CN201710043553A CN106777362A CN 106777362 A CN106777362 A CN 106777362A CN 201710043553 A CN201710043553 A CN 201710043553A CN 106777362 A CN106777362 A CN 106777362A
Authority
CN
China
Prior art keywords
plug
information
units
collecting method
html pages
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710043553.9A
Other languages
English (en)
Inventor
杨伟丽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Yun Ling Science And Technology Ltd
Original Assignee
Hangzhou Yun Ling Science And Technology Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Yun Ling Science And Technology Ltd filed Critical Hangzhou Yun Ling Science And Technology Ltd
Priority to CN201710043553.9A priority Critical patent/CN106777362A/zh
Publication of CN106777362A publication Critical patent/CN106777362A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • G06F16/986Document structures and storage, e.g. HTML extensions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种html页面的信息采集方法,包括以下步骤:S1.采用BHO插件监听方式或npapi插件监听方式,监听网页表单提交事件,并在事件处理中获取表单元素信息;S2.BHO插件或npapi插件将获取到的元素信息进行加密处理;S3.将加密处理过的信息,传输到服务器端。本方法无需在网站服务端做出任何更改,只需在客户机上安装插件,即可获取表单信息,并发送到服务器进行统计;信息提取成本低,可大大提高信息录入的速度和准确性。

Description

一种html页面的信息采集方法
技术领域
本发明属于信息与数据处理领域,特别地涉及一种html页面的信息采集方法。
背景技术
随着信息化程度不断加深,企业对情报信息化集成的渴求也日益强烈;互联网持续增长的信息资源蕴含了巨量的具有商业价值的信息,成为重要的情报信息源头。目前,html页面的信息采集的相关产品为数不多,且产品对用户本身的基础信息设施要求高,实施周期长,***建设和维护成本高,主要客户是超大型企业和政府,普通企业无
力承受。
目前在客户机、服务端(C/S)模型下,服务端可以直接获取客户机上提交的表单。但对于第三方应用开发,由于服务端是不可再更改的,这时就无法直接进行html表单统计。
发明内容
为解决上述问题,本发明的目的在于提供一种无需更改服务端就能实现html页面信息采集的方法。
为实现上述目的,本发明的技术方案为:
一种html页面的信息采集方法,包括以下步骤:
S1.采用BHO插件监听方式或npapi插件监听方式,监听网页表单提交事件,并在事件处理中获取表单元素信息;
S2.BHO插件或npapi插件将获取到的元素信息进行加密处理;
S3.将加密处理过的信息,传输到服务器端。
进一步的,在S1中,对于IE内核的浏览器采用BHO插件监听方式;对于非IE内核的浏览器采用npapi插件监听方式。
进一步的,BHO插件监听方式包括以下步骤:
S111.BHO插件监听浏览器的html文档加载完毕事件;
S112.在html文档加载完毕事件中,获取引发鼠标点击事件的对应元素;
S113.通过该元素的com接口,获取元素信息;
S114.将获取到的元素信息保存在BHO插件中,准备发往服务器。
优选地,S112中,若引发鼠标点击事件的是表单提交按钮,对应多个元素,则选取当前html文档需要的对应元素。
进一步的,npapi插件监听方式包括以下步骤:
S121.浏览器扩展引用npapi插件,启动npapi插件中一个类的实例,注入执行javascript脚本;
S122.在执行javascript脚本过程中,监听表单提交按钮的点击事件;
S123.在javascript脚本的点击事件处理函数中,获取引发鼠标点击事件的对应元素信息;
S124.javascript脚本将元素信息传给npapi插件,并准备发往服务器。
进一步的,在S2中,所述的加密处理为:
BHO插件或npapi插件将信息进行格式化,对其中的敏感字段进行加密,并对格式化后的信息报文进行签名,服务器端对签名进行验证。
优选地,信息按照json格式进行格式化。
优选地,对敏感字段的加密方式为RSA公钥,服务器端使用私钥解密;对信息报文使用RSA私钥签名,服务器端使用RSA公钥验证签名。
优选地,在S3中,传输协议使用http协议。
本发明的有益效果是:
(1)本方法无需在网站服务端做出任何更改,只需在客户机上安装插件,即可获取表单信息,并发送到服务器进行统计;信息提取成本低,可大大提高信息录入的速度和准确性。
(2)本方法具有网站无关性,对于任意需要采集信息的html页面,都可以使用本方法直接采集信息。
附图说明
图1为本发明实施例中的html信息采集流程图;
图2为本发明实施例中的BHO插件监听方式流程图;
图3为本发明实施例中的npapi插件监听方式流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
相反,本发明涵盖任何由权利要求定义的在本发明的精髓和范围上做的替代、修改、等效方法以及方案。进一步,为了使公众对本发明有更好的了解,在下文对本发明的细节描述中,详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。
本发明实施例的html信息录入方法流程如图 1 所示。
一种html页面的信息采集方法,包括以下步骤:
S1.采用BHO插件监听方式或npapi插件监听方式,监听网页表单提交事件,并在事件处理中获取表单元素信息;
S2.BHO插件或npapi插件将获取到的元素信息进行加密处理;
S3.将加密处理过的信息,传输到服务器端。
在S1中,对于IE内核的浏览器采用BHO插件监听方式;对于非IE内核的浏览器采用npapi插件监听方式。
其中,BHO插件是针对IE浏览器的插件,BHO插件是一种com组件,实现了IObjectWithSite接口。并需要根据浏览器是32位还是64位,到注册表\\HKLM\SOFTWARE\Microsoft\Windows\CurrentVersion\Explorer\Browser Helper Objects 注册BHO插件的guid。
BHO插件监听方式包括以下步骤:
S111.BHO插件监听浏览器的html文档加载完毕事件;实际上上是某个提交按钮的点击事件,事件ID: DISPID_HTMLDOCUMENTEVENTS2_ONCLICK。
S112.在html文档加载完毕事件中,获取引发鼠标点击事件的对应元素;若引发鼠标点击事件的是表单提交按钮,对应多个元素,则选取当前html文档需要的对应元素。
S113.通过该元素的com接口,获取元素信息;使用IHTMLDocument2的get_all函数,即可获取所有的元素接口IHTMLElement,使用该接口的getAttribute方法,即可获取元素内容,即元素信息。
S114.将获取到的元素信息保存在BHO插件中,准备发往服务器。
其中,npapi插件即网景插件应用程序编程接口,是遵循网景通信公司(NetscapeCommunications Corporation)所制定规范的一组单纯的 C Plugin应用程序接口,主要针对非IE浏览器。2004年底时,各家浏览器公司(IE, Opera, Mozilla 等) 都同意支援NPRuntime延伸 API(应用程序编程接口)以支援Scriptability,所以目前需要以NPRuntime API为基础,才能使Plugin跨越各种浏览器。
将包含npapi插件的扩展安装到浏览器上,当浏览器启动后,会在默认的plugins文件夹中加载npapi插件,并读取插件的MimeType属性,保存到浏览器内部。插件初始化时,浏览器通过NP_Initialize接口将自己的接口传递给npapi插件,npapi插件通过NP_GetEntryPoints接口将自身接口传递给浏览器,从而达到双方互调的目的。
npapi插件监听方式包括以下步骤:
S121.浏览器扩展通过在background html中引用npapi插件,启动npapi插件中一个类的实例,当目标网站与浏览器扩展中的matches定义的相匹配时,注入执行javascript脚本;
S122.在执行javascript脚本过程中,使用addListener函数监听表单提交按钮的点击事件;
S123.在javascript脚本的点击事件处理函数中,获取引发鼠标点击事件的对应元素信息;
S124.javascript脚本将元素信息传给npapi插件,并准备发往服务器。
在S2中,所述的加密处理为:
BHO插件或npapi插件将获得的信息按照json格式进行格式化,对其中的敏感字段使用RAS公钥加密,该公钥为***初始化时服务器端下发的。服务器端使用私钥解密,保证数据不可被识别。对组建完毕的json报文,使用RSA私钥进行签名,服务器端使用RSA公钥验证签名,保证数据的不可篡改性。
另外,在S3中,传输协议使用http协议。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种html页面的信息采集方法,其特征在于,包括以下步骤:
S1.采用BHO插件监听方式或npapi插件监听方式,监听网页表单提交事件,并在事件处理中获取表单元素信息;
S2.BHO插件或npapi插件将获取到的元素信息进行加密处理;
S3.将加密处理过的信息,传输到服务器端。
2.如权利要求1所述的html页面的信息采集方法,其特征在于,在S1中,对于IE内核的浏览器采用BHO插件监听方式。
3.如权利要求1所述的html页面的信息采集方法,其特征在于,在S1中,对于非IE内核的浏览器采用npapi插件监听方式。
4.如权利要求2所述的html页面的信息采集方法,其特征在于,BHO插件监听方式包括以下步骤:
S111.BHO插件监听浏览器的html文档加载完毕事件;
S112.在html文档加载完毕事件中,获取引发鼠标点击事件的对应元素;
S113.通过该元素的com接口,获取元素信息;
S114.将获取到的元素信息保存在BHO插件中,准备发往服务器。
5.如权利要求4所述的html页面的信息采集方法,其特征在于,
S112中,若引发鼠标点击事件的是表单提交按钮,对应多个元素,则选取当前html文档需要的对应元素。
6.如权利要求3所述的html页面的信息采集方法,其特征在于,npapi插件监听方式包括以下步骤:
S121.浏览器扩展引用npapi插件,启动npapi插件中一个类的实例,注入执行javascript脚本;
S122.在执行javascript脚本过程中,监听表单提交按钮的点击事件;
S123.在javascript脚本的点击事件处理函数中,获取引发鼠标点击事件的对应元素信息;
S124.javascript脚本将元素信息传给npapi插件,并准备发往服务器。
7.如权利要求1所述的html页面的信息采集方法,其特征在于,在S2中,所述的加密处理为:
BHO插件或npapi插件将信息进行格式化,对其中的敏感字段进行加密,并对格式化后的信息报文进行签名,服务器端对签名进行验证。
8.如权利要求7所述的html页面的信息采集方法,其特征在于,信息按照json格式进行格式化。
9.如权利要求7所述的html页面的信息采集方法,其特征在于,对敏感字段的加密方式为RSA公钥,服务器端使用私钥解密;对信息报文使用RSA私钥签名,服务器端使用RSA公钥验证签名。
10.如权利要求1所述的html页面的信息采集方法,其特征在于,在S3中,传输协议使用http协议。
CN201710043553.9A 2017-01-19 2017-01-19 一种html页面的信息采集方法 Pending CN106777362A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710043553.9A CN106777362A (zh) 2017-01-19 2017-01-19 一种html页面的信息采集方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710043553.9A CN106777362A (zh) 2017-01-19 2017-01-19 一种html页面的信息采集方法

Publications (1)

Publication Number Publication Date
CN106777362A true CN106777362A (zh) 2017-05-31

Family

ID=58943773

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710043553.9A Pending CN106777362A (zh) 2017-01-19 2017-01-19 一种html页面的信息采集方法

Country Status (1)

Country Link
CN (1) CN106777362A (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107239546A (zh) * 2017-06-05 2017-10-10 成都知道创宇信息技术有限公司 一种网页局部内容跟踪与提醒的方法
CN108415804A (zh) * 2018-01-23 2018-08-17 平安普惠企业管理有限公司 获取信息的方法、终端设备及计算机可读存储介质
CN108540501A (zh) * 2018-07-18 2018-09-14 郑州云海信息技术有限公司 一种不对称加密的方法和装置
CN108681605A (zh) * 2018-05-24 2018-10-19 四川物联亿达科技有限公司 一种基于电子政务网的档案数据采集方法
CN110083755A (zh) * 2019-04-29 2019-08-02 北京脉冲星科技有限公司 一种高仿真解析网页方法、装置和电子设备
CN110119634A (zh) * 2018-11-28 2019-08-13 熵加网络科技(北京)有限公司 一种用浏览器插件对文字加解密的方法
CN110955531A (zh) * 2018-09-27 2020-04-03 长沙博为软件技术股份有限公司 一种基于浏览器的扩展程序-bho技术实现多个页签间通讯的方法
CN111741030A (zh) * 2020-08-26 2020-10-02 北京赛宁网安科技有限公司 结合Web自动化与代理拦截的网站安全检测***及方法
CN113343159A (zh) * 2021-08-06 2021-09-03 万商云集(成都)科技股份有限公司 一种从任意渠道快速获取数据并分析与存储的方法及***
CN114676330A (zh) * 2022-03-30 2022-06-28 南京厚建软件有限责任公司 一种互联网平台互动数据统一回收的方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102789561A (zh) * 2012-06-29 2012-11-21 奇智软件(北京)有限公司 一种浏览器中摄像头的使用方法和装置
CN104023013A (zh) * 2014-05-30 2014-09-03 上海帝联信息科技股份有限公司 数据传输方法、服务端和客户端
CN104750471A (zh) * 2013-12-30 2015-07-01 上海格尔软件股份有限公司 一种基于浏览器的web页面性能检测与采集分析插件以及方法
CN105426549A (zh) * 2015-12-29 2016-03-23 北京金山安全软件有限公司 一种读取网页资源的方法、装置及电子设备
CN106250437A (zh) * 2016-07-27 2016-12-21 长沙麦斯森信息科技有限公司 一种电子监察前端数据采集方法及***

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102789561A (zh) * 2012-06-29 2012-11-21 奇智软件(北京)有限公司 一种浏览器中摄像头的使用方法和装置
CN104750471A (zh) * 2013-12-30 2015-07-01 上海格尔软件股份有限公司 一种基于浏览器的web页面性能检测与采集分析插件以及方法
CN104023013A (zh) * 2014-05-30 2014-09-03 上海帝联信息科技股份有限公司 数据传输方法、服务端和客户端
CN105426549A (zh) * 2015-12-29 2016-03-23 北京金山安全软件有限公司 一种读取网页资源的方法、装置及电子设备
CN106250437A (zh) * 2016-07-27 2016-12-21 长沙麦斯森信息科技有限公司 一种电子监察前端数据采集方法及***

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107239546A (zh) * 2017-06-05 2017-10-10 成都知道创宇信息技术有限公司 一种网页局部内容跟踪与提醒的方法
CN108415804A (zh) * 2018-01-23 2018-08-17 平安普惠企业管理有限公司 获取信息的方法、终端设备及计算机可读存储介质
CN108415804B (zh) * 2018-01-23 2021-06-04 平安普惠企业管理有限公司 获取信息的方法、终端设备及计算机可读存储介质
CN108681605A (zh) * 2018-05-24 2018-10-19 四川物联亿达科技有限公司 一种基于电子政务网的档案数据采集方法
CN108540501A (zh) * 2018-07-18 2018-09-14 郑州云海信息技术有限公司 一种不对称加密的方法和装置
CN108540501B (zh) * 2018-07-18 2021-07-27 郑州云海信息技术有限公司 一种不对称加密的方法和装置
CN110955531A (zh) * 2018-09-27 2020-04-03 长沙博为软件技术股份有限公司 一种基于浏览器的扩展程序-bho技术实现多个页签间通讯的方法
CN110119634A (zh) * 2018-11-28 2019-08-13 熵加网络科技(北京)有限公司 一种用浏览器插件对文字加解密的方法
CN110083755A (zh) * 2019-04-29 2019-08-02 北京脉冲星科技有限公司 一种高仿真解析网页方法、装置和电子设备
CN111741030A (zh) * 2020-08-26 2020-10-02 北京赛宁网安科技有限公司 结合Web自动化与代理拦截的网站安全检测***及方法
CN111741030B (zh) * 2020-08-26 2020-12-04 北京赛宁网安科技有限公司 结合Web自动化与代理拦截的网站安全检测***及方法
CN113343159A (zh) * 2021-08-06 2021-09-03 万商云集(成都)科技股份有限公司 一种从任意渠道快速获取数据并分析与存储的方法及***
CN114676330A (zh) * 2022-03-30 2022-06-28 南京厚建软件有限责任公司 一种互联网平台互动数据统一回收的方法
CN114676330B (zh) * 2022-03-30 2023-12-08 南京厚建软件有限责任公司 一种互联网平台互动数据统一回收的方法

Similar Documents

Publication Publication Date Title
CN106777362A (zh) 一种html页面的信息采集方法
US12021972B2 (en) Aggregating encrypted network values
CN107864677B (zh) 内容访问验证***和方法
US11757619B2 (en) Generating sequences of network data while preventing acquisition or manipulation of time data
US20240187420A1 (en) Securing browser cookies
US20240214219A1 (en) Preventing data manipulation using multiple aggregation servers
KR20220123695A (ko) 암호화 방식으로 보안 요청 검증
US20240095364A1 (en) Privacy-preserving and secure application install attribution
JP7157258B2 (ja) 集約されたネットワーク測定における不正の防止
EP4042312B1 (en) Multi-recipient secure communication
US11863690B2 (en) Preventing data manipulation and protecting user privacy in telecommunication network measurements

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20170531

RJ01 Rejection of invention patent application after publication