CN107315839A - 一种教育资源数据采集方法 - Google Patents

一种教育资源数据采集方法 Download PDF

Info

Publication number
CN107315839A
CN107315839A CN201710582634.6A CN201710582634A CN107315839A CN 107315839 A CN107315839 A CN 107315839A CN 201710582634 A CN201710582634 A CN 201710582634A CN 107315839 A CN107315839 A CN 107315839A
Authority
CN
China
Prior art keywords
data
initial data
collecting method
processing
educational resource
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710582634.6A
Other languages
English (en)
Inventor
向泽红
李爱卿
卜凡山
张疏琦
伍国泉
姚书勤
梁丽燕
赵峰
贾振娜
孟祥文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qingdao Yuan Yuan Digital Technology Co Ltd
Guangdong Communications Polytechnic
Original Assignee
Qingdao Yuan Yuan Digital Technology Co Ltd
Guangdong Communications Polytechnic
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qingdao Yuan Yuan Digital Technology Co Ltd, Guangdong Communications Polytechnic filed Critical Qingdao Yuan Yuan Digital Technology Co Ltd
Priority to CN201710582634.6A priority Critical patent/CN107315839A/zh
Publication of CN107315839A publication Critical patent/CN107315839A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/20Education
    • G06Q50/205Education administration or guidance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/51Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/61Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/71Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/907Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Business, Economics & Management (AREA)
  • Multimedia (AREA)
  • Educational Administration (AREA)
  • Tourism & Hospitality (AREA)
  • Strategic Management (AREA)
  • Educational Technology (AREA)
  • Artificial Intelligence (AREA)
  • Economics (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Library & Information Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种教育资源数据采集方法,采用的数据采集技术,不需要各个业务***做改变,通过数据采集平台自动将数据采集到中间环境,并形成元数据库和数字资源库的结构,同时按照学校具体工作情况梳理业务,形成知识库检索。本发明提供的教育资源数据采集方法,包括:通过数据采集接口获取原始数据;对所述原始数据进行格式处理,得到能够长期保存的处理数据;步骤所述通过数据采集接口获取原始数据在中间服务器上进行。

Description

一种教育资源数据采集方法
技术领域
本发明涉及信息处理技术领域,尤其涉及一种教育资源数据采集方法。
背景技术
近几年,随着高校信息化的快速发展,教学、行政、科研等各个领域都基本完成了信息化搭建,业务信息***辅助办学的同时,也产生了大量的宝贵资源。如何能避免这些资源的流失,如何能将这些资源进行统一的整合利用,并使得***用户有一个统一的地方进行资源的查询,如何能使资源查找变得快速、便捷、一次到位,成为目前各大高校亟待解决的问题,也是我们搭建高校资源管理***的理由和目的。
通过***的建设,将本学校产生的有长期保存和利用价值的信息资源(文件、档案、信息、数据、知识)进行全面收集、过程管理、安全存储以及综合利用。使资源管理***成为未来学校重要资源的集中地和查询地。
整合学校信息资源孤岛,通过梳理和分析学校业务实际情况,实现信息资源的全生命周期管理和知识库服务。通过先进技术的辅助,实现高校信息资源的过程可追溯式查询以及视图化虚拟展现。
建立高等院校数据资源中心***一个重要的问题是资源的整合,因为整个单位的数字资源分布在单位的各个应用***中,现有的数据交换技术中比较主流的是通过Webservice以及XML方式,但这两种方式都需要数据交互的双方参与其中,做相应的开发,这对大多数单位来讲是无法做到的,尤其一些上线时间较长的业务***,没办法再提供支持。
如何采用的数据采集技术,不需要各个业务***做改变形成元数据库和数字资源库的结构,同时按照学校具体工作情况梳理业务,形成知识库检索成为业界亟待解决的技术问题。
发明内容
本发明实施例提供了一种教育资源数据采集方法,采用的数据采集技术,不需要各个业务***做改变,通过数据采集平台自动将数据采集到中间环境,并形成元数据库和数字资源库的结构,同时按照学校具体工作情况梳理业务,形成知识库检索。
本发明实施例提供的教育资源数据采集方法,包括:
通过数据采集接口获取原始数据;
对所述原始数据进行格式处理,得到能够长期保存的处理数据;
步骤所述通过数据采集接口获取原始数据在中间服务器上进行。
可选的,
步骤所述通过数据采集接口获取原始数据包括:
通过业务***数据采集接口从至少一个业务***中采集所述原始数据。
可选的,
步骤所述通过数据采集接口获取原始数据包括:
通过网络定向、定题采集接口从互联网及相关网站群中采集所述原始数据。
可选的,
在步骤所述通过数据采集接口获取原始数据中对所述原始数据设置只读权限。
可选的,
步骤所述通过数据采集接口获取原始数据包括:
对纸质材料进行OCR扫描识别处理,从图片中识别处文字信息;
将所述文字信息储存到底层形成双层PDF文件。
可选的,
根据所述文字信息生成全文检索库。
可选的,
步骤所述对所述原始数据进行格式处理,得到能够长期保存的处理数据包括:
将原始数据经过组合、逻辑运算等步骤处理为标准元数据,并自动生成档号、保管期限、档案分类等档案相关属性;
可选的,
步骤所述对所述原始数据进行格式处理,得到能够长期保存的处理数据包括:
将原始数据通过提取、组合、逻辑运算等步骤将数据写入表格模版,生成版式化文件。
可选的,
步骤所述对所述原始数据进行格式处理,得到能够长期保存的处理数据包括:
将原始数据中的关联关系生成到经过处理后的数据中,使处理后的数据和原始数据的关联信息保持一致。
可选的,
步骤所述对所述原始数据进行格式处理,得到能够长期保存的处理数据之后还包括:
对所述处理数据进行准确性、完整性、可用性和安全性的四性检测。
从以上技术方案可以看出,本发明实施例具有以下优点:
与现有技术相比,数据采集过程主要完成各个业务***原始相关数据的提取。数据采集过程需要与业务***做数据交互,我们应以确保原***数据安全和对原***造成的压力最小为原则来实现数据的传递。在本发明实施例中要确保不会修改原***的数据。业务***后台数据库可以分配给档案采集程序一个只读性账号,该账号对***数据只有读取权限,没有写入、修改、删除权限,这样利用数据库自己的权限机制来保证原***的安全性。
具体实施方式
本发明实施例提供了一种教育资源数据采集方法,采用的数据采集技术,不需要各个业务***做改变,通过数据采集平台自动将数据采集到中间环境,并形成元数据库和数字资源库的结构,同时按照学校具体工作情况梳理业务,形成知识库检索。
本发明实施例提供的教育资源数据采集方法,包括:
通过数据采集接口获取原始数据;
对所述原始数据进行格式处理,得到能够长期保存的处理数据;
步骤所述通过数据采集接口获取原始数据在中间服务器上进行。
本实施例中,数据采集过程主要完成各个业务***原始相关数据的提取。数据采集过程需要与业务***做数据交互,我们应以确保原***数据安全和对原***造成的压力最小为原则来实现数据的传递。在本发明实施例中要确保不会修改原***的数据。业务***后台数据库可以分配给档案采集程序一个只读性账号,该账号对***数据只有读取权限,没有写入、修改、删除权限,这样利用数据库自己的权限机制来保证原***的安全性。
下面对本发明具体应用的例子进行说明:
***建立与单位OA***、财务***、教务***、学生***等***的数据采集接口,完成业务***内重要数字资源的全面自动化。***的采集接口是通用的,通过配置可以采集不同业务***的数据。功能包括数据分析配置平台、数据采集软件包、数据处理软件包、数据平台功能。
***数据采集过程可以是手动完成也可以是自动定时完成的,采集后的数据通过数据处理软件包自动形成单位的元数据库和资源库结构,形成的结构可以直接提供检索利用,也可以到档案库中。
数据采集过程主要完成各个业务***原始相关数据的提取。数据采集过程需要与业务***做数据交互,我们应以确保原***数据安全和对原***造成的压力最小为原则来实现数据的传递。
第一是我们在过程中要确保不会修改原***的数据。业务***后台数据库可以分配给档案采集程序一个只读性账号,该账号对***数据只有读取权限,没有写入、修改、删除权限,这样利用数据库自己的权限机制来保证原***的安全性。
第二是要考虑时原***的性能不受影响。确定数据的采集应在一个中间环境即中间服务器上进行,采集完成后,采集***将采集的数据保存到中间服务器的源数据库中,并自动与业务***服务器断开连接,保证不影响原业务***性能不受影响。如果企业已经建立了数据中心或存储备份***,那么采集***可以从备份***中采集数据,不直接与业务***连接。该平台主要用来配置业务***需要采集的源表以及采集的频率等信息。根据采集的不同范围的数据资源,充分考虑到前端业务***中该部分资源的形成条件。对每日或灵活的时间周期内产生的资源使采用不同的频率,对于月结类型数据采用逐月读取的方式;对固定季度产生,如季收发存统计表、季度财务报告等采用按季度读取的方式,对于年度财务报告等形成的报表,采用按年度读取的方式。
数据处理过程是将采集到的原始数据处理为可以支持长久保存以及服务利用的格式。包括元数据提取与生成、电子文件版式化合成、关联信息提取几个过程。
元数据提取与生成是将原始数据经过组合、逻辑运算等步骤处理为标准元数据,并自动生成档号、保管期限、档案分类等档案相关属性。
电子文件版式化合成是指将原始数据通过提取、组合、逻辑运算等步骤将数据写入表格模版,生成版式化文件。
关联信息提取是将原始数据中的关联关系生成到经过处理后的数据中,使处理后的数据和原始数据的关联信息保持一致。
***将互联网上的重要信息通过互联网信息采集接口,利于爬虫技术将网络上有价值的资源采集到统一的资源管理平台。采集的信息可以包括文本、图片、音视频、元数据等。
***中的纸质档案通过数字化软件扫描上传到资源管理平台中。并在数字化过程中对扫描形成的图片进行OCR识别,将图片中的文字识别出来,存储到PDF底层形成双层PDF文件,并把识别的文字加入索引库中,以提供全文检索。
***将各种来源获取到的文件、档案、信息、数据、知识统一规范化管理。按照国家数字档案管理的相关要求,对数字资源进行统一的封装管理、实现电子文件和元数据的长期保存,并通过提供电子文件四性检测功能对资源的准确性、完整性、可用性、安全性做四性检测。包括元数据管理、资源库管理、文件封装、全文索引、知识库管理、借阅管理、数据统计、权限管理、流程管理、专题推送、档案整理、档案鉴定等功能。
提供文件封装功能实现所有资源的长久保存、规范管理。将doc、xls、ppt等文本类型的数据统一转换为PDF格式提供利用,将音视频文件统一转换为flv格式提供利用。
***对电子文件正文建立索引库,为实现全文检索打下基础。具体功能如下:
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种教育资源数据采集方法,其特征在于,包括:
通过数据采集接口获取原始数据;
对所述原始数据进行格式处理,得到能够长期保存的处理数据;
步骤所述通过数据采集接口获取原始数据在中间服务器上进行。
2.根据权利要求1所述的教育资源数据采集方法,其特征在于,
步骤所述通过数据采集接口获取原始数据包括:
通过业务***数据采集接口从至少一个业务***中采集所述原始数据。
3.根据权利要求1所述的教育资源数据采集方法,其特征在于,
步骤所述通过数据采集接口获取原始数据包括:
通过网络定向、定题采集接口从互联网及相关网站群中采集所述原始数据。
4.根据权利要求1所述的教育资源数据采集方法,其特征在于,
在步骤所述通过数据采集接口获取原始数据中对所述原始数据设置只读权限。
5.根据权利要求1所述的教育资源数据采集方法,其特征在于,
步骤所述通过数据采集接口获取原始数据包括:
对纸质材料进行OCR扫描识别处理,从图片中识别处文字信息;
将所述文字信息储存到底层形成双层PDF文件。
6.根据权利要求5所述的教育资源数据采集方法,其特征在于,
根据所述文字信息生成全文检索库。
7.根据权利要求1所述的教育资源数据采集方法,其特征在于,
步骤所述对所述原始数据进行格式处理,得到能够长期保存的处理数据包括:
将原始数据经过组合、逻辑运算等步骤处理为标准元数据,并自动生成档号、保管期限、档案分类等档案相关属性。
8.根据权利要求1所述的教育资源数据采集方法,其特征在于,
步骤所述对所述原始数据进行格式处理,得到能够长期保存的处理数据包括:
将原始数据通过提取、组合、逻辑运算等步骤将数据写入表格模版,生成版式化文件。
9.根据权利要求1所述的教育资源数据采集方法,其特征在于,
步骤所述对所述原始数据进行格式处理,得到能够长期保存的处理数据包括:
将原始数据中的关联关系生成到经过处理后的数据中,使处理后的数据和原始数据的关联信息保持一致。
10.根据权利要求1所述的教育资源数据采集方法,其特征在于,
步骤所述对所述原始数据进行格式处理,得到能够长期保存的处理数据之后还包括:
对所述处理数据进行准确性、完整性、可用性和安全性的四性检测。
CN201710582634.6A 2017-07-17 2017-07-17 一种教育资源数据采集方法 Pending CN107315839A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710582634.6A CN107315839A (zh) 2017-07-17 2017-07-17 一种教育资源数据采集方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710582634.6A CN107315839A (zh) 2017-07-17 2017-07-17 一种教育资源数据采集方法

Publications (1)

Publication Number Publication Date
CN107315839A true CN107315839A (zh) 2017-11-03

Family

ID=60178708

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710582634.6A Pending CN107315839A (zh) 2017-07-17 2017-07-17 一种教育资源数据采集方法

Country Status (1)

Country Link
CN (1) CN107315839A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111414336A (zh) * 2020-03-20 2020-07-14 北京师范大学 一种知识点导向的教育资源采集与分类的方法和***
CN113704214A (zh) * 2021-08-27 2021-11-26 北京市律典通科技有限公司 电子卷宗文件类型转换方法、装置及计算机设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103793399A (zh) * 2012-10-31 2014-05-14 北京航天长峰科技工业集团有限公司 一种政法***信息资源整合方法
CN106327353A (zh) * 2015-07-06 2017-01-11 国家电网公司 一种实现电网统计线损率同期性的方法
CN106780149A (zh) * 2016-12-30 2017-05-31 中核核电运行管理有限公司 一种基于定时任务调度的设备实时监测***
US20170201433A1 (en) * 2016-01-13 2017-07-13 Ricoh Company, Ltd. System And Method For Monitoring, Sensing And Analytics Of Collaboration Devices

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103793399A (zh) * 2012-10-31 2014-05-14 北京航天长峰科技工业集团有限公司 一种政法***信息资源整合方法
CN106327353A (zh) * 2015-07-06 2017-01-11 国家电网公司 一种实现电网统计线损率同期性的方法
US20170201433A1 (en) * 2016-01-13 2017-07-13 Ricoh Company, Ltd. System And Method For Monitoring, Sensing And Analytics Of Collaboration Devices
CN106780149A (zh) * 2016-12-30 2017-05-31 中核核电运行管理有限公司 一种基于定时任务调度的设备实时监测***

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
***行政事业审计司: "《部门预算执行审计指南》", 30 November 2007 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111414336A (zh) * 2020-03-20 2020-07-14 北京师范大学 一种知识点导向的教育资源采集与分类的方法和***
CN113704214A (zh) * 2021-08-27 2021-11-26 北京市律典通科技有限公司 电子卷宗文件类型转换方法、装置及计算机设备

Similar Documents

Publication Publication Date Title
Littman et al. API-based social media collecting as a form of web archiving
Niu An overview of web archiving
KR20210040891A (ko) 정보 추천 방법과 장치, 전자 장비, 컴퓨터 판독가능 저장 매체 및 컴퓨터 프로그램
US20090089315A1 (en) System and method for associating metadata with electronic documents
KR20130018641A (ko) 포렌식 시스템과 포렌식 방법 및 포렌식 프로그램
CN103366247B (zh) 标准有效性判断***及方法
Zainal et al. Big data initiatives by governments--issues and challenges: A review
CN107368576A (zh) 一种教育资源数据采集***
Weber et al. Journalism history, web archives, and new methods for understanding the evolution of digital journalism
CN112347243A (zh) 一种基于大数据收集、处理和个性化展示推送的企业破产信息服务方法
CN106021393A (zh) 面向移动设备的电网设备标准信息检索方法和***
Ruest et al. An open-source strategy for documenting events: The case study of the 42nd Canadian federal election on Twitter
CN107315839A (zh) 一种教育资源数据采集方法
CN112307318A (zh) 一种内容发布方法、***及装置
Khan et al. Document management system: An explicit knowledge management system
Lawton et al. eDiscovery in digital forensic investigations
CN104216901A (zh) 信息搜索的方法和***
Pledge et al. Process and progress: working with born-digital material in the Wendy Cope Archive at the British Library
Kupfer et al. Digitization and digital preservation of government information
Stančić Computational archival science
CN113177150A (zh) 出版物资源整合方法与出版物资源整合***
Landis et al. GaNCH: using linked open data for Georgia’s natural, cultural and historic organizations’ disaster response
Piedboeuf et al. The state of OAI-PMH repositories in Canadian Universities
Chambers et al. Towards a national web archive in a federated country: a Belgian case study
Huhtamäki et al. Learn to Rehydrate Twitter Data Using Python: A# hellobrother Case Study (2019)

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20171103