CN106777362A - 一种html页面的信息采集方法 - Google Patents
一种html页面的信息采集方法 Download PDFInfo
- Publication number
- CN106777362A CN106777362A CN201710043553.9A CN201710043553A CN106777362A CN 106777362 A CN106777362 A CN 106777362A CN 201710043553 A CN201710043553 A CN 201710043553A CN 106777362 A CN106777362 A CN 106777362A
- Authority
- CN
- China
- Prior art keywords
- plug
- information
- units
- collecting method
- html pages
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
- G06F16/986—Document structures and storage, e.g. HTML extensions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明公开了一种html页面的信息采集方法,包括以下步骤:S1.采用BHO插件监听方式或npapi插件监听方式,监听网页表单提交事件,并在事件处理中获取表单元素信息;S2.BHO插件或npapi插件将获取到的元素信息进行加密处理;S3.将加密处理过的信息,传输到服务器端。本方法无需在网站服务端做出任何更改,只需在客户机上安装插件,即可获取表单信息,并发送到服务器进行统计;信息提取成本低,可大大提高信息录入的速度和准确性。
Description
技术领域
本发明属于信息与数据处理领域,特别地涉及一种html页面的信息采集方法。
背景技术
随着信息化程度不断加深,企业对情报信息化集成的渴求也日益强烈;互联网持续增长的信息资源蕴含了巨量的具有商业价值的信息,成为重要的情报信息源头。目前,html页面的信息采集的相关产品为数不多,且产品对用户本身的基础信息设施要求高,实施周期长,***建设和维护成本高,主要客户是超大型企业和政府,普通企业无
力承受。
目前在客户机、服务端(C/S)模型下,服务端可以直接获取客户机上提交的表单。但对于第三方应用开发,由于服务端是不可再更改的,这时就无法直接进行html表单统计。
发明内容
为解决上述问题,本发明的目的在于提供一种无需更改服务端就能实现html页面信息采集的方法。
为实现上述目的,本发明的技术方案为:
一种html页面的信息采集方法,包括以下步骤:
S1.采用BHO插件监听方式或npapi插件监听方式,监听网页表单提交事件,并在事件处理中获取表单元素信息;
S2.BHO插件或npapi插件将获取到的元素信息进行加密处理;
S3.将加密处理过的信息,传输到服务器端。
进一步的,在S1中,对于IE内核的浏览器采用BHO插件监听方式;对于非IE内核的浏览器采用npapi插件监听方式。
进一步的,BHO插件监听方式包括以下步骤:
S111.BHO插件监听浏览器的html文档加载完毕事件;
S112.在html文档加载完毕事件中,获取引发鼠标点击事件的对应元素;
S113.通过该元素的com接口,获取元素信息;
S114.将获取到的元素信息保存在BHO插件中,准备发往服务器。
优选地,S112中,若引发鼠标点击事件的是表单提交按钮,对应多个元素,则选取当前html文档需要的对应元素。
进一步的,npapi插件监听方式包括以下步骤:
S121.浏览器扩展引用npapi插件,启动npapi插件中一个类的实例,注入执行javascript脚本;
S122.在执行javascript脚本过程中,监听表单提交按钮的点击事件;
S123.在javascript脚本的点击事件处理函数中,获取引发鼠标点击事件的对应元素信息;
S124.javascript脚本将元素信息传给npapi插件,并准备发往服务器。
进一步的,在S2中,所述的加密处理为:
BHO插件或npapi插件将信息进行格式化,对其中的敏感字段进行加密,并对格式化后的信息报文进行签名,服务器端对签名进行验证。
优选地,信息按照json格式进行格式化。
优选地,对敏感字段的加密方式为RSA公钥,服务器端使用私钥解密;对信息报文使用RSA私钥签名,服务器端使用RSA公钥验证签名。
优选地,在S3中,传输协议使用http协议。
本发明的有益效果是:
(1)本方法无需在网站服务端做出任何更改,只需在客户机上安装插件,即可获取表单信息,并发送到服务器进行统计;信息提取成本低,可大大提高信息录入的速度和准确性。
(2)本方法具有网站无关性,对于任意需要采集信息的html页面,都可以使用本方法直接采集信息。
附图说明
图1为本发明实施例中的html信息采集流程图;
图2为本发明实施例中的BHO插件监听方式流程图;
图3为本发明实施例中的npapi插件监听方式流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
相反,本发明涵盖任何由权利要求定义的在本发明的精髓和范围上做的替代、修改、等效方法以及方案。进一步,为了使公众对本发明有更好的了解,在下文对本发明的细节描述中,详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。
本发明实施例的html信息录入方法流程如图 1 所示。
一种html页面的信息采集方法,包括以下步骤:
S1.采用BHO插件监听方式或npapi插件监听方式,监听网页表单提交事件,并在事件处理中获取表单元素信息;
S2.BHO插件或npapi插件将获取到的元素信息进行加密处理;
S3.将加密处理过的信息,传输到服务器端。
在S1中,对于IE内核的浏览器采用BHO插件监听方式;对于非IE内核的浏览器采用npapi插件监听方式。
其中,BHO插件是针对IE浏览器的插件,BHO插件是一种com组件,实现了IObjectWithSite接口。并需要根据浏览器是32位还是64位,到注册表\\HKLM\SOFTWARE\Microsoft\Windows\CurrentVersion\Explorer\Browser Helper Objects 注册BHO插件的guid。
BHO插件监听方式包括以下步骤:
S111.BHO插件监听浏览器的html文档加载完毕事件;实际上上是某个提交按钮的点击事件,事件ID: DISPID_HTMLDOCUMENTEVENTS2_ONCLICK。
S112.在html文档加载完毕事件中,获取引发鼠标点击事件的对应元素;若引发鼠标点击事件的是表单提交按钮,对应多个元素,则选取当前html文档需要的对应元素。
S113.通过该元素的com接口,获取元素信息;使用IHTMLDocument2的get_all函数,即可获取所有的元素接口IHTMLElement,使用该接口的getAttribute方法,即可获取元素内容,即元素信息。
S114.将获取到的元素信息保存在BHO插件中,准备发往服务器。
其中,npapi插件即网景插件应用程序编程接口,是遵循网景通信公司(NetscapeCommunications Corporation)所制定规范的一组单纯的 C Plugin应用程序接口,主要针对非IE浏览器。2004年底时,各家浏览器公司(IE, Opera, Mozilla 等) 都同意支援NPRuntime延伸 API(应用程序编程接口)以支援Scriptability,所以目前需要以NPRuntime API为基础,才能使Plugin跨越各种浏览器。
将包含npapi插件的扩展安装到浏览器上,当浏览器启动后,会在默认的plugins文件夹中加载npapi插件,并读取插件的MimeType属性,保存到浏览器内部。插件初始化时,浏览器通过NP_Initialize接口将自己的接口传递给npapi插件,npapi插件通过NP_GetEntryPoints接口将自身接口传递给浏览器,从而达到双方互调的目的。
npapi插件监听方式包括以下步骤:
S121.浏览器扩展通过在background html中引用npapi插件,启动npapi插件中一个类的实例,当目标网站与浏览器扩展中的matches定义的相匹配时,注入执行javascript脚本;
S122.在执行javascript脚本过程中,使用addListener函数监听表单提交按钮的点击事件;
S123.在javascript脚本的点击事件处理函数中,获取引发鼠标点击事件的对应元素信息;
S124.javascript脚本将元素信息传给npapi插件,并准备发往服务器。
在S2中,所述的加密处理为:
BHO插件或npapi插件将获得的信息按照json格式进行格式化,对其中的敏感字段使用RAS公钥加密,该公钥为***初始化时服务器端下发的。服务器端使用私钥解密,保证数据不可被识别。对组建完毕的json报文,使用RSA私钥进行签名,服务器端使用RSA公钥验证签名,保证数据的不可篡改性。
另外,在S3中,传输协议使用http协议。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种html页面的信息采集方法,其特征在于,包括以下步骤:
S1.采用BHO插件监听方式或npapi插件监听方式,监听网页表单提交事件,并在事件处理中获取表单元素信息;
S2.BHO插件或npapi插件将获取到的元素信息进行加密处理;
S3.将加密处理过的信息,传输到服务器端。
2.如权利要求1所述的html页面的信息采集方法,其特征在于,在S1中,对于IE内核的浏览器采用BHO插件监听方式。
3.如权利要求1所述的html页面的信息采集方法,其特征在于,在S1中,对于非IE内核的浏览器采用npapi插件监听方式。
4.如权利要求2所述的html页面的信息采集方法,其特征在于,BHO插件监听方式包括以下步骤:
S111.BHO插件监听浏览器的html文档加载完毕事件;
S112.在html文档加载完毕事件中,获取引发鼠标点击事件的对应元素;
S113.通过该元素的com接口,获取元素信息;
S114.将获取到的元素信息保存在BHO插件中,准备发往服务器。
5.如权利要求4所述的html页面的信息采集方法,其特征在于,
S112中,若引发鼠标点击事件的是表单提交按钮,对应多个元素,则选取当前html文档需要的对应元素。
6.如权利要求3所述的html页面的信息采集方法,其特征在于,npapi插件监听方式包括以下步骤:
S121.浏览器扩展引用npapi插件,启动npapi插件中一个类的实例,注入执行javascript脚本;
S122.在执行javascript脚本过程中,监听表单提交按钮的点击事件;
S123.在javascript脚本的点击事件处理函数中,获取引发鼠标点击事件的对应元素信息;
S124.javascript脚本将元素信息传给npapi插件,并准备发往服务器。
7.如权利要求1所述的html页面的信息采集方法,其特征在于,在S2中,所述的加密处理为:
BHO插件或npapi插件将信息进行格式化,对其中的敏感字段进行加密,并对格式化后的信息报文进行签名,服务器端对签名进行验证。
8.如权利要求7所述的html页面的信息采集方法,其特征在于,信息按照json格式进行格式化。
9.如权利要求7所述的html页面的信息采集方法,其特征在于,对敏感字段的加密方式为RSA公钥,服务器端使用私钥解密;对信息报文使用RSA私钥签名,服务器端使用RSA公钥验证签名。
10.如权利要求1所述的html页面的信息采集方法,其特征在于,在S3中,传输协议使用http协议。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710043553.9A CN106777362A (zh) | 2017-01-19 | 2017-01-19 | 一种html页面的信息采集方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710043553.9A CN106777362A (zh) | 2017-01-19 | 2017-01-19 | 一种html页面的信息采集方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106777362A true CN106777362A (zh) | 2017-05-31 |
Family
ID=58943773
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710043553.9A Pending CN106777362A (zh) | 2017-01-19 | 2017-01-19 | 一种html页面的信息采集方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106777362A (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107239546A (zh) * | 2017-06-05 | 2017-10-10 | 成都知道创宇信息技术有限公司 | 一种网页局部内容跟踪与提醒的方法 |
CN108415804A (zh) * | 2018-01-23 | 2018-08-17 | 平安普惠企业管理有限公司 | 获取信息的方法、终端设备及计算机可读存储介质 |
CN108540501A (zh) * | 2018-07-18 | 2018-09-14 | 郑州云海信息技术有限公司 | 一种不对称加密的方法和装置 |
CN108681605A (zh) * | 2018-05-24 | 2018-10-19 | 四川物联亿达科技有限公司 | 一种基于电子政务网的档案数据采集方法 |
CN110083755A (zh) * | 2019-04-29 | 2019-08-02 | 北京脉冲星科技有限公司 | 一种高仿真解析网页方法、装置和电子设备 |
CN110119634A (zh) * | 2018-11-28 | 2019-08-13 | 熵加网络科技(北京)有限公司 | 一种用浏览器插件对文字加解密的方法 |
CN110955531A (zh) * | 2018-09-27 | 2020-04-03 | 长沙博为软件技术股份有限公司 | 一种基于浏览器的扩展程序-bho技术实现多个页签间通讯的方法 |
CN111741030A (zh) * | 2020-08-26 | 2020-10-02 | 北京赛宁网安科技有限公司 | 结合Web自动化与代理拦截的网站安全检测***及方法 |
CN113343159A (zh) * | 2021-08-06 | 2021-09-03 | 万商云集(成都)科技股份有限公司 | 一种从任意渠道快速获取数据并分析与存储的方法及*** |
CN114676330A (zh) * | 2022-03-30 | 2022-06-28 | 南京厚建软件有限责任公司 | 一种互联网平台互动数据统一回收的方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102789561A (zh) * | 2012-06-29 | 2012-11-21 | 奇智软件(北京)有限公司 | 一种浏览器中摄像头的使用方法和装置 |
CN104023013A (zh) * | 2014-05-30 | 2014-09-03 | 上海帝联信息科技股份有限公司 | 数据传输方法、服务端和客户端 |
CN104750471A (zh) * | 2013-12-30 | 2015-07-01 | 上海格尔软件股份有限公司 | 一种基于浏览器的web页面性能检测与采集分析插件以及方法 |
CN105426549A (zh) * | 2015-12-29 | 2016-03-23 | 北京金山安全软件有限公司 | 一种读取网页资源的方法、装置及电子设备 |
CN106250437A (zh) * | 2016-07-27 | 2016-12-21 | 长沙麦斯森信息科技有限公司 | 一种电子监察前端数据采集方法及*** |
-
2017
- 2017-01-19 CN CN201710043553.9A patent/CN106777362A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102789561A (zh) * | 2012-06-29 | 2012-11-21 | 奇智软件(北京)有限公司 | 一种浏览器中摄像头的使用方法和装置 |
CN104750471A (zh) * | 2013-12-30 | 2015-07-01 | 上海格尔软件股份有限公司 | 一种基于浏览器的web页面性能检测与采集分析插件以及方法 |
CN104023013A (zh) * | 2014-05-30 | 2014-09-03 | 上海帝联信息科技股份有限公司 | 数据传输方法、服务端和客户端 |
CN105426549A (zh) * | 2015-12-29 | 2016-03-23 | 北京金山安全软件有限公司 | 一种读取网页资源的方法、装置及电子设备 |
CN106250437A (zh) * | 2016-07-27 | 2016-12-21 | 长沙麦斯森信息科技有限公司 | 一种电子监察前端数据采集方法及*** |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107239546A (zh) * | 2017-06-05 | 2017-10-10 | 成都知道创宇信息技术有限公司 | 一种网页局部内容跟踪与提醒的方法 |
CN108415804A (zh) * | 2018-01-23 | 2018-08-17 | 平安普惠企业管理有限公司 | 获取信息的方法、终端设备及计算机可读存储介质 |
CN108415804B (zh) * | 2018-01-23 | 2021-06-04 | 平安普惠企业管理有限公司 | 获取信息的方法、终端设备及计算机可读存储介质 |
CN108681605A (zh) * | 2018-05-24 | 2018-10-19 | 四川物联亿达科技有限公司 | 一种基于电子政务网的档案数据采集方法 |
CN108540501A (zh) * | 2018-07-18 | 2018-09-14 | 郑州云海信息技术有限公司 | 一种不对称加密的方法和装置 |
CN108540501B (zh) * | 2018-07-18 | 2021-07-27 | 郑州云海信息技术有限公司 | 一种不对称加密的方法和装置 |
CN110955531A (zh) * | 2018-09-27 | 2020-04-03 | 长沙博为软件技术股份有限公司 | 一种基于浏览器的扩展程序-bho技术实现多个页签间通讯的方法 |
CN110119634A (zh) * | 2018-11-28 | 2019-08-13 | 熵加网络科技(北京)有限公司 | 一种用浏览器插件对文字加解密的方法 |
CN110083755A (zh) * | 2019-04-29 | 2019-08-02 | 北京脉冲星科技有限公司 | 一种高仿真解析网页方法、装置和电子设备 |
CN111741030A (zh) * | 2020-08-26 | 2020-10-02 | 北京赛宁网安科技有限公司 | 结合Web自动化与代理拦截的网站安全检测***及方法 |
CN111741030B (zh) * | 2020-08-26 | 2020-12-04 | 北京赛宁网安科技有限公司 | 结合Web自动化与代理拦截的网站安全检测***及方法 |
CN113343159A (zh) * | 2021-08-06 | 2021-09-03 | 万商云集(成都)科技股份有限公司 | 一种从任意渠道快速获取数据并分析与存储的方法及*** |
CN114676330A (zh) * | 2022-03-30 | 2022-06-28 | 南京厚建软件有限责任公司 | 一种互联网平台互动数据统一回收的方法 |
CN114676330B (zh) * | 2022-03-30 | 2023-12-08 | 南京厚建软件有限责任公司 | 一种互联网平台互动数据统一回收的方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106777362A (zh) | 一种html页面的信息采集方法 | |
US12021972B2 (en) | Aggregating encrypted network values | |
CN107864677B (zh) | 内容访问验证***和方法 | |
US11757619B2 (en) | Generating sequences of network data while preventing acquisition or manipulation of time data | |
US20240187420A1 (en) | Securing browser cookies | |
US20240214219A1 (en) | Preventing data manipulation using multiple aggregation servers | |
KR20220123695A (ko) | 암호화 방식으로 보안 요청 검증 | |
US20240095364A1 (en) | Privacy-preserving and secure application install attribution | |
JP7157258B2 (ja) | 集約されたネットワーク測定における不正の防止 | |
EP4042312B1 (en) | Multi-recipient secure communication | |
US11863690B2 (en) | Preventing data manipulation and protecting user privacy in telecommunication network measurements |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20170531 |
|
RJ01 | Rejection of invention patent application after publication |