CN108681605A - 一种基于电子政务网的档案数据采集方法 - Google Patents

一种基于电子政务网的档案数据采集方法 Download PDF

Info

Publication number
CN108681605A
CN108681605A CN201810509007.4A CN201810509007A CN108681605A CN 108681605 A CN108681605 A CN 108681605A CN 201810509007 A CN201810509007 A CN 201810509007A CN 108681605 A CN108681605 A CN 108681605A
Authority
CN
China
Prior art keywords
official document
data acquisition
plug
method based
gov network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810509007.4A
Other languages
English (en)
Inventor
唐苏
韩烨
周才
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan Wulian Yida Technology Co Ltd
Original Assignee
Sichuan Wulian Yida Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan Wulian Yida Technology Co Ltd filed Critical Sichuan Wulian Yida Technology Co Ltd
Priority to CN201810509007.4A priority Critical patent/CN108681605A/zh
Publication of CN108681605A publication Critical patent/CN108681605A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于电子政务网的档案数据采集方法,涉及政务网与档案***的数据采集方法;其包括步骤1:安装插件并登录档案***绑定政务网账号完成数据采集准备;步骤2:登录政务网选择公文后利用插件提交公文采集的请求数据;步骤3:档案***根据请求数据响应请求获取公文完成数据采集;本发明解决了现有政务网对外未设置开发接口导致采用线下采集公文数据进行档案管理带来的工作效率和工作质量低的问题,达到了简便公文数据的档案管理,提高档案管理效率的效果。

Description

一种基于电子政务网的档案数据采集方法
技术领域
本发明涉及政务网与档案***的数据采集方法领域,尤其是一种基于电子政务网的档案数据采集方法。
背景技术
电子政务***是基于互联网技术的面向政府机关内部、其他政府机构的信息服务和信息处理***,政府的主要职能在于经济管理、市场监管、社会管理和公共服务,而电子政务需要将四大职能电子化和网络化,实现利用高现代信息技术对政府进行信息化改造以提高政府部门依法行政的水平;电子政务的4个突出的特点:电子政务将政务工作更有效、更精简;电子政务将政府工作更公开、更透明;电子政务将为企业和居民提供更好的服务;电子政务将重新构造政府、企业、居民之间的关系,使之比以前更加协调,使企业和居民能够更好的参与政府的管理;处理电子政务的电子政务网,因为其性质对外未设置开发接口,外界无法采集公文数据,因此无法将档案***与电子政务网进行连接实现线上的数据采集与管理。
插件是一种遵循一定规范的应用程序接口编写出来的程序,插件需要调用原纯净***提供的函数库或者数据,其只能运行在程序规定的***平台下,而不能脱离指定的平台单独运行。
其中电子政务网中的公文需要按规定每年移交至档案局进行保管,现有采用将公文打印,封装成册线下移交,档案局工作人员录入档案***完成公文的存档和保管,采用这种方法处理速度慢,容易出现公文信息的重复录入或者错误录入,工作人员的工作量极大,因此需要改进现有的公文档案管理方法。
发明内容
本发明的目的在于:本发明提供了一种基于电子政务网的档案数据采集方法,解决了现有政务网对外未设置开发接口导致采用线下采集公文数据进行档案管理带来的工作效率和工作质量低的问题。
本发明采用的技术方案如下:
一种基于电子政务网的档案数据采集方法,包括如下步骤:
步骤1:安装插件并登录档案***绑定政务网账号完成数据采集准备;
步骤2:登录政务网选择公文后利用插件提交公文采集的请求数据;
步骤3:档案***根据请求数据响应请求获取公文完成数据采集。
优选地,所述步骤2包括如下步骤:
步骤2.1:在浏览器中登录政务网,选择需要移交的公文;
步骤2.2:右击鼠标选中一键采集菜单,插件完成解析HTML后提取公文元数据并提交公文采集的请求数据。
优选地,所述步骤3包括如下步骤:
步骤3.1:档案***根据请求数据判断是否重复采集,若是,则结束采集,若否,则跳至步骤3.2;
步骤3.2:模拟登录政务网后判断登录是否成功,若是,档案***采集政务网公文交换***公文附件后跳至步骤3.3;若否,则结束采集;
步骤3.3:档案***存储公文附件数据和公文元数据完成数据采集。
优选地,所述插件基于IE浏览器安装。
优选地,所述公文元数据包括文号、提名、责任者、成文日期、附件路径和页数;提取方式采用逐个提取方式。
综上所述,由于采用了上述技术方案,本发明的有益效果是:
1.本发明通过设置基于浏览器的公文采集插件,插件获取和过滤公文数据,档案***获取公文附件数据,实现公文数据线上采集和档案管理,解决了现有政务网对外未设置开发接口导致采用线下采集公文数据进行档案管理带来的工作效率和工作质量低的问题,达到了简便公文数据的档案管理,提高档案管理效率的效果;
2.本发明的插件设计时需要考虑插件与档案***之间参数的匹配满足其的兼容性,提交到档案***的参数按照正则表达式的格式提交考虑采集量过度时的优化措施,保证数据采集的稳定性和安全性,实现政务网与档案***的数据共享。
附图说明
本发明将通过例子并参照附图的方式说明,其中:
图1是本发明的流程图;
图2是本发明的流程示意图。
具体实施方式
本说明书中公开的所有特征,或公开的所有方法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以以任何方式组合。
下面结合图1、图2对本发明作详细说明。
实施例1
一种基于电子政务网的档案数据采集方法,包括如下步骤:
步骤1:安装插件并登录档案***绑定政务网账号完成数据采集准备;
步骤2:登录政务网选择公文后利用插件提交公文采集的请求数据;
步骤3:档案***根据请求数据响应请求获取公文完成数据采集。
步骤2包括如下步骤:
步骤2.1:在浏览器中登录政务网,选择需要移交的公文;
步骤2.2:右击鼠标选中一键采集菜单,执行onContentMenu函数,通过external.menuArguments.event.srcElement获取到当前公文的HTML代码,去掉无用的HTML代码并进行Base64编码,将编码后的HTML代码作为参数调用插件程序,插件程序解析HTML提取公文元数据向档案***提交公文采集的请求数据;
步骤3包括如下步骤:
步骤3.1:档案***根据请求数据判断是否重复采集,若是,则结束采集,若否,则跳至步骤3.2;
步骤3.2:模拟登录政务网后判断登录是否成功,若是,档案***采集政务网公文交换***公文附件后跳至步骤3.3;若否,则结束采集;档案***从政务网获取公文附件的地址,档案***通过地址下载文件;
步骤3.3:档案***存储公文附件数据和公文元数据完成数据采集。
在电脑上安装公文采集插件,登录档案***绑定政务网账号,完成数据采集准备,当档案操作员通过IE浏览器进入政务网管理公文时,选择需要归档或者移交的公文,在浏览器中鼠标右击选择弹出菜单中一键采集,执行onContentMenu函数,通过external.menuArguments.event.srcElement获取到当前公文的HTML代码,去掉无用的HTML代码并进行Base64编码,将编码后的HTML代码作为参数调用插件程序,插件程序对HTML代码进行Base64解码并分析需要的元数据提交给档案***;档案***模拟登录到政务网后获取政务网上公文附件的地址,根据地址下载公文附件并保存至本地;整个数据采集过程,插件和档案***共同参与完成,插件获取和过滤数据公文数据,档案***获取公文附件数据。
设计的插件用IE浏览器是因为考虑其兼容性,政务网推荐使用IE浏览器,同时IE浏览器支持通过注册表添加浏览器菜单进而调用插件;数据采集过程中采集的html内容太多,会超过cmd命令参数的限制,因此需要分析并提取关键元数据:文号、提名、责任者、成文日期、附件路径、页数,分析时采用正则表达式的方式,比如按照“FileNo=文号&Title=提名&Responsibility=责任者&FormationDate=成文日期&Attachment=附件路径&PageCount=页数”的格式提交,对上述元数据逐个提取。
本发明通过设置基于浏览器的公文采集插件,插件获取和过滤公文数据,档案***获取公文附件数据,实现公文数据线上采集和档案管理,解决了现有政务网对外未设置开发接口导致采用线下采集公文数据进行档案管理带来的工作效率和工作质量低的问题,达到了简便公文数据的档案管理,提高档案管理效率的效果。

Claims (5)

1.一种基于电子政务网的档案数据采集方法,其特征在于:包括如下步骤:
步骤1:安装插件并登录档案***绑定政务网账号完成数据采集准备;
步骤2:登录政务网选择公文后利用插件提交公文采集的请求数据;
步骤3:档案***根据请求数据响应请求获取公文完成数据采集。
2.根据权利要求1所述的一种基于电子政务网的档案数据采集方法,其特征在于:所述步骤2包括如下步骤:
步骤2.1:在浏览器中登录政务网,选择需要移交的公文;
步骤2.2:右击鼠标选中一键采集菜单,插件完成解析HTML后提取公文元数据并提交公文采集的请求数据。
3.根据权利要求1所述的一种基于电子政务网的档案数据采集方法,其特征在于:所述步骤3包括如下步骤:
步骤3.1:档案***根据请求数据判断是否重复采集,若是,则结束采集,若否,则跳至步骤3.2;
步骤3.2:模拟登录政务网后判断登录是否成功,若是,档案***采集政务网公文交换***公文附件后跳至步骤3.3;若否,则结束采集;
步骤3.3:档案***存储公文附件数据和公文元数据完成数据采集。
4.根据权利要求1所述的一种基于电子政务网的档案数据采集方法,其特征在于:所述插件基于IE浏览器安装。
5.根据权利要求2所述的一种基于电子政务网的档案数据采集方法,其特征在于:所述公文元数据包括文号、提名、责任者、成文日期、附件路径和页数;提取方式采用逐个提取方式。
CN201810509007.4A 2018-05-24 2018-05-24 一种基于电子政务网的档案数据采集方法 Pending CN108681605A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810509007.4A CN108681605A (zh) 2018-05-24 2018-05-24 一种基于电子政务网的档案数据采集方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810509007.4A CN108681605A (zh) 2018-05-24 2018-05-24 一种基于电子政务网的档案数据采集方法

Publications (1)

Publication Number Publication Date
CN108681605A true CN108681605A (zh) 2018-10-19

Family

ID=63808232

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810509007.4A Pending CN108681605A (zh) 2018-05-24 2018-05-24 一种基于电子政务网的档案数据采集方法

Country Status (1)

Country Link
CN (1) CN108681605A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109741022A (zh) * 2018-12-24 2019-05-10 广州市中智软件开发有限公司 电子政务前端信息共享的方法、装置、存储介质及设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102750319A (zh) * 2012-05-08 2012-10-24 上海互联网软件有限公司 一种数据抓取***的数据抓取方法
CN105809375A (zh) * 2016-05-19 2016-07-27 四川物联亿达科技有限公司 一种扩展表单设计集成方法
CN106777362A (zh) * 2017-01-19 2017-05-31 杭州云灵科技有限公司 一种html页面的信息采集方法
CN107729449A (zh) * 2017-10-09 2018-02-23 广州市万表科技股份有限公司 一种网络内容抓取展示方法和平台
US20180121399A1 (en) * 2016-10-28 2018-05-03 Microsoft Technology Licensing, Llc Browser Plug-In To Conserve Bandwidth

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102750319A (zh) * 2012-05-08 2012-10-24 上海互联网软件有限公司 一种数据抓取***的数据抓取方法
CN105809375A (zh) * 2016-05-19 2016-07-27 四川物联亿达科技有限公司 一种扩展表单设计集成方法
US20180121399A1 (en) * 2016-10-28 2018-05-03 Microsoft Technology Licensing, Llc Browser Plug-In To Conserve Bandwidth
CN106777362A (zh) * 2017-01-19 2017-05-31 杭州云灵科技有限公司 一种html页面的信息采集方法
CN107729449A (zh) * 2017-10-09 2018-02-23 广州市万表科技股份有限公司 一种网络内容抓取展示方法和平台

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
吃饭了吗: "chrome浏览器插件启动本地应用程序", 《HTTPS://WWW.CNBLOGS.COM/DEVELOPER-IOS/P/6057956.HTML》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109741022A (zh) * 2018-12-24 2019-05-10 广州市中智软件开发有限公司 电子政务前端信息共享的方法、装置、存储介质及设备
CN109741022B (zh) * 2018-12-24 2024-04-05 广州市中智软件开发有限公司 电子政务前端信息共享的方法、装置、存储介质及设备

Similar Documents

Publication Publication Date Title
JP6488508B2 (ja) ウェブページのアクセス方法、装置、デバイス及びプログラム
CN106446228A (zh) 一种web页面数据的采集分析方法及装置
CN110110075A (zh) 网页分类方法、装置以及计算机可读存储介质
CN109062972A (zh) 网页分类方法、装置及计算机可读存储介质
CN104376043B (zh) 日志记录与显示方法及装置
US10019420B2 (en) System and method for adding functionality to web-based applications having no extensibility features
CN101315695A (zh) 银行信息处理方法及数据提取组件
CN104090920A (zh) 一种实现数字内容跨终端出版的***
CN109614319B (zh) 自动化测试方法、装置、电子设备及计算机可读介质
CN107347007A (zh) 一种施工图审查用的cad签章认证***及cad签章认证方法
CN107657030A (zh) 收集用户阅读数据的方法、装置、终端设备及存储介质
CN107526755B (zh) 数据的处理方法及装置
CN116992081A (zh) 页面表单的数据处理方法、装置和用户终端
CN102567521A (zh) 网页数据抓取过滤方法
CN105550179A (zh) 一种网页收藏方法和浏览器插件
CN106528566A (zh) 日志文件的输出方法、服务器及客户端
CN108681605A (zh) 一种基于电子政务网的档案数据采集方法
US20210194878A1 (en) Communication tracking system for correctional facilities
CN111026945B (zh) 多平台爬虫调度方法、装置和存储介质
KR100762712B1 (ko) 규칙기반의 전자문서 변환방법 및 그 시스템
CN110457603A (zh) 用户关系抽取方法、装置、电子设备及可读存储介质
Martino et al. Using Natural Language Processing to Code Patient Experience Narratives: Capabilities and Challenges
KR101458284B1 (ko) 집단지성에 기반하여 검색결과의 부가정보 제공 방법 및 시스템
WO2010119628A1 (ja) 環境情報集計システム及び方法
CN113724065B (zh) 基于流程指导的辅助催收方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20181019

RJ01 Rejection of invention patent application after publication