CN113722301A - 基于教育信息的大数据处理方法、装置及***、存储介质 - Google Patents

基于教育信息的大数据处理方法、装置及***、存储介质 Download PDF

Info

Publication number
CN113722301A
CN113722301A CN202110859432.8A CN202110859432A CN113722301A CN 113722301 A CN113722301 A CN 113722301A CN 202110859432 A CN202110859432 A CN 202110859432A CN 113722301 A CN113722301 A CN 113722301A
Authority
CN
China
Prior art keywords
data
information
database
layer
education
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110859432.8A
Other languages
English (en)
Inventor
叶小卫
郭伟锋
章锐
沈丽倩
陈林
朱玮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Public Information Industry Co ltd
Original Assignee
Zhejiang Public Information Industry Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Public Information Industry Co ltd filed Critical Zhejiang Public Information Industry Co ltd
Priority to CN202110859432.8A priority Critical patent/CN113722301A/zh
Publication of CN113722301A publication Critical patent/CN113722301A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/258Data format conversion from or to a database
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/283Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/20Education
    • G06Q50/205Education administration or guidance

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Tourism & Hospitality (AREA)
  • Educational Administration (AREA)
  • Bioethics (AREA)
  • Strategic Management (AREA)
  • Educational Technology (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • General Business, Economics & Management (AREA)
  • Quality & Reliability (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供了一种基于教育信息的大数据处理方法及装置、***、存储介质,所述方法包括:至少通过API对设定区域内的教育数据及多种文件类型数据的批量采集,将采集到的各来源的异构数据进行跨域汇聚;对数据采集行为进行统一调度与监控,在数据采集任务异常时进行告警;至少按操作数据层、明细数据层、服务数据层、数据应用层的分层方式将所采集到的数据进行存储;对所采集的数据进行标准制定,基于所制定的标准对采集到的数据进行清洗,基于清洗后的数据进行设定方式的治理,而实现数据服务开放共享互融互通、数据决策支持;响应于数据查询及数据统计请求,将汇总结果作为响应结果进行输出或发送。本发明顺应了教育改革预期,加快了教育现代化。

Description

基于教育信息的大数据处理方法、装置及***、存储介质
技术领域
本发明涉及数据处理技术,尤其涉及一种基于教育信息的大数据处 理方法及装置、***、存储介质。
背景技术
目前,教育管理机构、学校及培训机构等之间的管理相当分散,教 育信息散乱而缺乏统一长远的规划及管理,无法为决策层提供详实而全 面的数据,教育策略不能精准而深入地满足各方需求。结合当前的教育 信息化现状,如各类数据分散不统一且无标准的现实情况,为服务智慧 教育长远发展和公众需求,实现推进优质教育资源的广泛共享,提升教 育公平的水准,需要促进区域教育从经验管理模式走向大数据精准治理 模式。
发明内容
本发明提供一种基于教育信息的大数据处理方法及装置、***、存 储介质,以至少解决现有技术中存在的以上技术问题。
本发明一方面提供一种基于教育信息的大数据处理方法,包括:
至少通过API接口对设定区域内的教育数据及多种文件类型数据的 批量采集,将采集到的各来源的异构数据进行跨域汇聚;对数据采集行 为进行统一调度与监控,在数据采集任务异常时进行告警;
至少按操作数据层、明细数据层、服务数据层、数据应用层的分层 方式将所采集到的数据进行存储,其中,操作数据层存储的数据包括不 经过任何加工的数据,为冗余数据,只能新增数据且不能修改,并为每 条数据增加时间版本来区分相同的数据;明细数据层的结构和粒度与操 作数据层保持一致,对操作数据层层数据进行编码转化,并去除其中的 空值、脏数据、超过极限范围的数据,不进行横向整合;服务数据层以 明细数据层为基础,进行汇总聚集,至少聚集到以用户当日、设备当日、 商家当日、商品当日的粒度,并以某一维度为线索,组成跨主题的宽表, 所述宽表中至少包括用户当日下单数、支付数、退款数、展示项点击数 的多列表;面向实际的数据需求,以服务数据层或明细数据层的数据为基础,组成统计报表,以供应用***查询调用;
对所采集的数据进行标准制定,基于所制定的标准对采集到的数据 进行清洗,基于清洗后的数据进行设定方式的治理,而实现数据服务开 放共享互融互通、数据决策支持;
响应于数据查询及数据统计请求,基于查询及统计关键词,对清洗 后的数据进行数据查询及调用,对查询及统计结果中的数据进行智能分 析,进行关联数据合并及汇总,将汇总结果作为响应结果进行输出或发 送,以作为基于设定区域教育信息化大数据的管理辅助数据。
可选地,所述基于所制定的标准对采集到的数据进行清洗,包括:
对按层存储的数据进行过滤,至少包括过滤不完整数据、错误数据 和重复数据;
其中,不完整数据包括信息缺失的数据,包括供应商的名称、分公 司的名称、客户区域信息缺失的数据,以及业务***中主表与明细表不 能匹配的数据;过滤不完整数据来,按缺失内容分别写入不同Excel文 件,并提交给相应的用户,并在接收到用户发送的完整数据后,再以分 层方式进行存储;错误数据包括业务***不健全、在接收未进行判断直接存储的数据,包括数值数据为全角数字字符、字符串数据包含回车符、 日期格式不正确、日期越界的数据;对错误数据进行修正,对修正正确 的数据进行分层存储;重复数据是维表中包含有重复字段的数据,通过 将重复数据记录的所有字段导出并返回相应用户,接收到用户的整理确 认后再进行分层存储;
对不完整数据、错误数据和重复数据进行反复持续进行清洗,对于 是否过滤、是否修正由用户确认,并将确认后的数据进行存储,对于过 滤掉的数据,写入Excel文件或将过滤数据写入数据表。
可选地,所述对操作数据层层数据进行编码转化,包括:
对采集的不一致数据进行转换,将所采集的不同业务***的相同类 型的数据进行统一,将所抽取的数据统一转换成一个编码;
对采集的不同数据粒度的数据进行转换,将业务***存储的明细数 据,按照数据库粒度进行聚合;以及
根据不同的企业的不同业务规则、不同的数据指标,对所采集的数 据进行指标计算,并存储。
可选地,所述将所采集到的数据按分层存储于数据库中,所述数据 库至少包括组织机构基础信息数据库、学生基础信息数据库、教职工基 础信息数据库、主题数据库、共享数据库;其中,
学生基础信息数据库包括设定区域内各级各类学校学生的基本信 息、学籍信息、结业信息;
教职工基础信息数据库包括设定区域内各级各类学校教职工的基 本信息、资质信息、任职信息、异动信息。
组织机构基础信息数据库包括设定区域内各级各类学校和下属主 管机构的基本信息、经费信息、教学信息、资产信息;
所述主题数据库根据数据主题分析应用需求,从所采集的基础数 据、应用数据中抽取和重组而生成主题数据,所述主题数据包括学生发 展主题、校园安全主题、教育资源主题的至少之一;
所述共享数据库在所述主题数据库的基础上,结合设定的分析应用 需要,改进数据的抽取及整合方式,形成针对设定应用服务的数据集市, 以更好地提供多样的信息分析应用功能。
本发明另一方面提供一种基于教育信息的大数据处理装置,包括:
采集单元,用于至少通过API接口对设定区域内的教育数据及多种 文件类型数据的批量采集,将采集到的各来源的异构数据进行跨域汇 聚;
监控单元,用于对数据采集行为进行统一调度与监控,在数据采集 任务异常时进行告警;
存储单元,用于至少按操作数据层、明细数据层、服务数据层、数 据应用层的分层方式将所采集到的数据进行存储,其中,操作数据层存 储的数据包括不经过任何加工的数据,为冗余数据,只能新增数据且不 能修改,并为每条数据增加时间版本来区分相同的数据;明细数据层的 结构和粒度与操作数据层保持一致,对操作数据层层数据进行编码转化,并去除其中的空值、脏数据、超过极限范围的数据,不进行横向整 合;服务数据层以明细数据层为基础,进行汇总聚集,至少聚集到以用 户当日、设备当日、商家当日、商品当日的粒度,并以某一维度为线索, 组成跨主题的宽表,所述宽表中至少包括用户当日下单数、支付数、退 款数、展示项点击数的多列表;面向实际的数据需求,以服务数据层或 明细数据层的数据为基础,组成统计报表,以供应用***查询调用;
清洗单元,用于对所采集的数据进行标准制定,基于所制定的标准 对采集到的数据进行清洗,基于清洗后的数据进行设定方式的治理,而 实现数据服务开放共享互融互通、数据决策支持;
输出单元,用于响应于数据查询及数据统计请求,基于查询及统计 关键词,对清洗后的数据进行数据查询及调用,对查询及统计结果中的 数据进行智能分析,进行关联数据合并及汇总,将汇总结果作为响应结 果进行输出或发送,以作为基于设定区域教育信息化大数据的管理辅助 数据。
可选地,所述清洗单元,还用于:
对按层存储的数据进行过滤,至少包括过滤不完整数据、错误数据 和重复数据;
其中,不完整数据包括信息缺失的数据,包括供应商的名称、分公 司的名称、客户区域信息缺失的数据,以及业务***中主表与明细表不 能匹配的数据;过滤不完整数据来,按缺失内容分别写入不同Excel文 件,并提交给相应的用户,并在接收到用户发送的完整数据后,再以分 层方式进行存储;错误数据包括业务***不健全、在接收未进行判断直接存储的数据,包括数值数据为全角数字字符、字符串数据包含回车符、 日期格式不正确、日期越界的数据;对错误数据进行修正,对修正正确 的数据进行分层存储;重复数据是维表中包含有重复字段的数据,通过 将重复数据记录的所有字段导出并返回相应用户,接收到用户的整理确 认后再进行分层存储;
对不完整数据、错误数据和重复数据进行反复持续进行清洗,对于 是否过滤、是否修正通过用户确认,对于过滤掉的数据,写入Excel文 件或将过滤数据写入数据表。
可选地,所述存储单元,还用于:
对采集的不一致数据进行转换,将所采集的不同业务***的相同类 型的数据进行统一,将所抽取的数据统一转换成一个编码;
对采集的不同数据粒度的数据进行转换,将业务***存储的明细数 据,按照数据库粒度进行聚合;以及
根据不同的企业的不同业务规则、不同的数据指标,对所采集的数 据进行指标计算,并存储。
可选地,所述存储单元,还用于:
将所采集到的数据按分层存储于数据库中,所述数据库至少包括组 织机构基础信息数据库、学生基础信息数据库、教职工基础信息数据库、 主题数据库、共享数据库;其中,
学生基础信息数据库包括设定区域内各级各类学校学生的基本信 息、学籍信息、结业信息;
教职工基础信息数据库包括设定区域内各级各类学校教职工的基 本信息、资质信息、任职信息、异动信息。
组织机构基础信息数据库包括设定区域内各级各类学校和下属主 管机构的基本信息、经费信息、教学信息、资产信息;
所述主题数据库根据数据主题分析应用需求,从所采集的基础数 据、应用数据中抽取和重组而生成主题数据,所述主题数据包括学生发 展主题、校园安全主题、教育资源主题的至少之一;
所述共享数据库在所述主题数据库的基础上,结合设定的分析应用 需要,改进数据的抽取及整合方式,形成针对设定应用服务的数据集市, 以更好地提供多样的信息分析应用功能。
本发明另一方面提供一种基于教育信息的大数据处理***,包括处 理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储 器通过通信总线完成相互间的通信;存储器,用于存放计算机程序;处 理器,用于执行存储器上所存放的程序时,实现所述基于教育信息的大 数据处理方法的步骤。
本发明再一方面提供一种计算机可读存储介质,所述计算机可读存 储介质内存储有计算机程序,所述计算机程序被处理器执行时实现所述 基于教育信息的大数据处理方法的步骤。
本发明通过对设定区域如市、县、省等行政区划内的教育数据及多 种文件类型数据的批量采集,将采集到的各来源的异构数据进行跨域汇 聚,并对数据进行分层存储,这样,通过建设功能完善、开放灵活的教 育大数据汇聚与分析平台,推动教育管理和学习方式变革,加快实现教 育现代化。
附图说明
图1示出了本发明实施例的基于教育信息的大数据处理方法的流程 图;
图2示出了本发明实施例的基于教育信息的大数据处理平台的结构 示意图;
图3示出了本发明实施例的教育中台的结构示意图;
图4示出了本发明实施例的信息传输装置的组成结构示意图;
图5示出了本发明实施例的基于教育信息的大数据处理***的结构 图。
具体实施方式
为使本发明的目的、特征、优点能够更加的明显和易懂,下面将结 合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完 整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而非全 部实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性 劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1示出了本发明实施例的基于教育信息的大数据处理方法的流程 图,如图1所示,本发明实施例的基于教育信息的大数据处理方法包括 以下处理步骤:
步骤101,至少通过API接口对设定区域内的教育数据及多种文件 类型数据的批量采集,将采集到的各来源的异构数据进行跨域汇聚;对 数据采集行为进行统一调度与监控,在数据采集任务异常时进行告警。
本发明实施例中,提供各种应用接口采集教育相关的数据。并对数 据采集过程进行调度及监控,以在数据采集任务异常时进行告警。本发 明实施例中,所采集的教育数据包含以下至少之一:视频、图片、文字 的数据。
步骤102,至少按操作数据层、明细数据层、服务数据层、数据应 用层的分层方式将所采集到的数据进行存储。
本发明实施例中,操作数据层存储的数据包括不经过任何加工的数 据,为冗余数据,只能新增数据且不能修改,并为每条数据增加时间版 本来区分相同的数据;明细数据层的结构和粒度与操作数据层保持一 致,对操作数据层层数据进行编码转化,并去除其中的空值、脏数据、 超过极限范围的数据,不进行横向整合;服务数据层以明细数据层为基础,进行汇总聚集,至少聚集到以用户当日、设备当日、商家当日、商 品当日的粒度,并以某一维度为线索,组成跨主题的宽表,所述宽表中 至少包括用户当日下单数、支付数、退款数、展示项点击数的多列表; 面向实际的数据需求,以服务数据层或明细数据层的数据为基础,组成 统计报表,以供应用***查询调用。
所述将所采集到的数据按分层存储于数据库中,所述数据库至少包 括组织机构基础信息数据库、学生基础信息数据库、教职工基础信息数 据库、主题数据库、共享数据库;其中,
学生基础信息数据库包括设定区域内各级各类学校学生的基本信 息、学籍信息、结业信息;
教职工基础信息数据库包括设定区域内各级各类学校教职工的基 本信息、资质信息、任职信息、异动信息。
组织机构基础信息数据库包括设定区域内各级各类学校和下属主 管机构的基本信息、经费信息、教学信息、资产信息;
所述主题数据库根据数据主题分析应用需求,从所采集的基础数 据、应用数据中抽取和重组而生成主题数据,所述主题数据包括学生发 展主题、校园安全主题、教育资源主题的至少之一;
所述共享数据库在所述主题数据库的基础上,结合设定的分析应用 需要,改进数据的抽取及整合方式,形成针对设定应用服务的数据集市, 以更好地提供多样的信息分析应用功能。
步骤103,对所采集的数据进行标准制定,基于所制定的标准对采 集到的数据进行清洗,基于清洗后的数据进行设定方式的治理,而实现 数据服务开放共享互融互通、数据决策支持。
本发明实施例中,基于所制定的标准对采集到的数据进行清洗,包 括:对按层存储的数据进行过滤,至少包括过滤不完整数据、错误数据 和重复数据;其中,不完整数据包括信息缺失的数据,包括供应商的名 称、分公司的名称、客户区域信息缺失的数据,以及业务***中主表与 明细表不能匹配的数据;过滤不完整数据来,按缺失内容分别写入不同Excel文件,并提交给相应的用户,并在接收到用户发送的完整数据后, 再以分层方式进行存储;错误数据包括业务***不健全、在接收未进行 判断直接存储的数据,包括数值数据为全角数字字符、字符串数据包含 回车符、日期格式不正确、日期越界的数据;对错误数据进行修正,对 修正正确的数据进行分层存储;重复数据是维表中包含有重复字段的数 据,通过将重复数据记录的所有字段导出并返回相应用户,接收到用户 的整理确认后再进行分层存储;对不完整数据、错误数据和重复数据进 行反复持续进行清洗,对于是否过滤、是否修正由用户确认,并将确认 后的数据进行存储,对于过滤掉的数据,写入Excel文件或将过滤数据 写入数据表。
步骤104,响应于数据查询及数据统计请求,基于查询及统计关键 词,对清洗后的数据进行数据查询及调用,对查询及统计结果中的数据 进行智能分析,进行关联数据合并及汇总,将汇总结果作为响应结果进 行输出或发送,以作为基于设定区域教育信息化大数据的管理辅助数 据。
本发明实施例中,可以建立统一用户管理与认证平台,提供统一的 用户身份管理、权限配置管理、资源配置管理、身份同步服务等功能, 实现应用支撑平台及各应用***基础信息的统一管理与服务,不仅支持 关系型数据库的各种查询服务,还支持目录数据库包括Ldap、Windows 域目录。
本发明实施例中,作为一种示例,数据规范可以根据《教育管理信 息教育管理基础代码》和省、市等相关数据标准,进行数据格式的处理。 其技术规范遵循国家、省、市级相关技术规范和标准,制定并形成认证、 公共软件、数据共享与交换等技术规范,并根据实际需要进行扩展。
本发明实施例中,通过教育相关数据中心的建设,利用基础数据的 标准化建设为横向业务部门及下属学校做业务运维支持,保证相应区域 的人与组织的标准化管理;将通过数据中心基础支撑的构建,为智慧城 市、不见面办事等利民工程做教育口的数据支撑服务。本发明实施例通 过数据中心的建设,同时打造与资源公共服务体系的互融互通;利用资 源平台的运维提供业务行为数据,通过行为数据从空间、资源、固资、 教师、学生、家长、成绩、网络、监控等多维度数据比对分析,为区局、 主管部门、学校、用户提供直观的可视化业务分析模型,构建决策预警 与依据。本发明实施例的开放平台是为教育信息化标准运维建立通道和 窗口,主要分为媒介开放平台和接口管理中心。其中,应用开发者通过 平台注册为开发者并创建和开发应用。如果应用满足可用性、性能、安 全性、隐私保护、合规性的审核标准和合理的运维标准,平台管理方通 过相应的审核机制允许使用接口及发布和推广。而接口管理中心主要对 平台中任意接口(含第三方)注册、接口审核、中介代理、接口发布、 接口调用日志、接口版本更新、失效接口虚化等相关工作,满足第三方 应用程序通过接口中心的透明安全调用,实现内部应用程序提供的接口 隐藏,从而实现数据订阅接口、应用业务接口、应用服务接口等不同接 口的安全、高效管理和服务提供。
本发明实施例根据数据中心的建设需求,平台实现统一的数据采 集、转换、加载、处理以及统一调度、管控等功能。
其中,存储层:即明细数据层,是数据计算核心层数据模型之一, 用于存放由清洗、转换层来的数据或者接口层直接来的数据,其设计目 标是为后续的汇总数据层和信息子层提供数据基础。
汇总层:即轻度汇总数据层,也是数据计算核心层数据模型之一, 该层实现对主题内的数据做轻量汇总。设计目标是为应用层提供足够灵 活、方便的基础数据,并保证从该层获取数据是性能最优。
应用层:在汇总数据层之上,数据按照应用需求做数据聚合,生成 相关应用所需数据的数据层。应用数据层是面向应用的,但是也不是每 个应用都在应用数据层对应一个表,对应用要在数据应用层中进行整 合。
本发明实施例的数据门户将作为不同角色下数据价值的展示和分 析,利用数据中心的建模标准,我们将实时的汇聚、评估、展示和预警 等不同维度利用业务数据形成可视化报告数据;为各角色岗位的人员提 供有效决策分析依据。
具体地,本次项目各项功能模块之间实现弱耦合,能够独立运行, 任一模块的升级调整、关机重启,不影响其它功能模块的继续运行。我 们采用的模式为:区域教育大数据中枢支撑局/校应用的模式。区教育局 确保运维标准、用户体系、数据标准、组织结构、认证体系,供应区/ 学校以应用满足业务需求,通过数据融通和数据服务赋能提效应用。图 2示出了本发明实施例的基于教育信息的大数据处理平台的结构示意 图,如图2所示,本发明实施例的基于教育信息的大数据处理平台包括 包含基础服务、教育数据中台、教育业务中台、能力中台和场景应用服 务层。其中,
教育数据中台:体现教育数据中心服务能力的核心,为区域大数据 平台的各类应用服务提供数据驱动和数据赋能支持,包括数据标准、数 据汇聚、数据转换、数据治理、数据共享、数据服务等。
教育业务中台:提供面向教育监管者(教育局)、教育用户、生态 供应商、生态管理者(省/市电信)的基础服务和基础应用。保障生态 有效协同运作,保障能快速的提供给用户各种场景适配的应用和解决方 案,保障面向客户的应用推介、售卖、计费、售后等能闭环高效处理。
能力中台:汇聚、调取集团原子能力和DICT专业能力,供应给DICT 自有教育应用、生态合作伙伴和客户,提升其研发交付能力。本期实现 供自有教育应用调用,后续可进一步考虑实现能力的按服务售卖。
基础服务:实现提供业务应用融合支撑开展和***运维保障等能 力。集成了各个应用***所必要的通用组件,包括统一用户、统一认证、 统一融合、统一监控、安全服务等。
场景应用服务层:面向教育局和学校,提供包括教育管理、教育教 育、教育评价、生活服务、精准治理类应用,主体有机调控生态厂家供 应。
本发明实施例的业务平台包括开放性、灵活性与扩展性等关键性指 标,其中开放性采用类似与微信(钉钉)开放平台的方式由第三方入驻、 接口申请、数据交换进行无缝整合。灵活性与扩展性主要基于微服务模 式进行模块拆分,保障后续***扩展;***提供表单、流程、表结构开 放、自定义报表等满足教育局未来的变化。
图3示出了本发明实施例的教育中台的结构示意图,如图3所示, 本发明实施例的教育数据中台为区域教育大数据平台的核心,通过数据标准 制定、数据汇聚、数据转换、数据治理、数据共享、数据服务等,实现区域 数据互融互通打破数据孤岛,实现为教育应用提供数据赋能,助力教育局通 过大数据分析进行教育决策、资源调配、业务监测和精准评价等,实现区域 教育管理走向大数据精准治理模式。其中,
数据汇聚/开发/治理中心:展开对数据对接、数据归集、数据加工、质 量管理、数据模型等一系列的具体化工作,重新对数据规划利用和规范管理, 是将无序的数据进行资产化的核心。一是实现把教育相关数据从教育体系内 外归集到原始库数据湖中,保障不干扰数据源业务***的正常运转,二是实 现数据依据标准进行清洗治理,按标准有序的沉淀在基础库或主题库中,确 保基础数据一数一源,并使得业务主题数据能保障质量为数据服务奠定基础; 三是基于基础库和主题库,面向后续使用的业务场景对数据进行针对性的数据开发形成共享库,以提升数据共享的效率。
数据共享和服务管控中心:基于数据使用(自行或生态调用)的标准和规 范,构建教育生态数据开放能力中心。一是实现API接口运维平台,满足第 三方应用程序通过接口中心的透明安全调用,实现内部应用程序提供的接口 隐藏,从而实现数据订阅接口、应用业务接口、应用服务接口等不同接口的 安全、高效管理和服务提供;二是实现应用服务中心,主要为第三方应用的 获取数据服务实现规范化管理,为现有业务***接入或后续数据应用开发搭 建基础。
数据探索与智能监测中心:构建数据智能能力,实现数据可视化分析引 擎架构在数据资产沉淀的基础之上,为数据分析人员提供稳定、高质量的跨 主题数据资源。可视化分析平台持续集成最新实用分析工具,实现拖拽式快 速构建复杂模型,直观地对数据进行分析和感知。
基于数据共享和服务管控,可自行或生态合作创建丰富的数据应用,助 力教育体系精准管理、精准教学,如教育综合智能监测驾驶舱、教学质量评 价、教育预警综合服务应用等等。本项目建设教育智能监测的部分标准化提 供(教育基础数据分析监测、教育资源数据分析监测、学业学情数据分析监 测、教育网络分析监测、信息化设备分析监测、固定资产监测分析)。
数据汇聚与数据开发中心具体包括以下处理功能:
1)数据采集
数据采集***是专为实现将各级教育业务***、省部垂直***、省市大 数据仓、互联网、物联网、第三方教育应用等方面的数据汇聚而设计的方案。
数据采集***不仅支持数据库方式进行批量采集,也支持对通过api接口 进行数据采集和多种文件类型(excel,txt,csv,xml)的数据采集,最终实现 各个来源的异构数据跨域汇聚。同时***对所有采集任务提供统一的调度机 制与监控机制,在任务异常时能够及时告警,为整个采集过程提供了可靠、 可观、可控等操作保障,最终实现各个来源的异构数据跨域汇聚。
数据入仓及数据融合:数据融合阶段,同时支持与存放DW的数据库*** 相同或不同的数据源的接入,同时考虑数据库、API接口与不同文件类型数 据源(EXCEL、TXT、CSV、XML)的数据的抽取,对不一致数据进行转换统一, 将业务***数据按照数据仓库粒度进行聚合,并根据不同的业务规则、数据 指标进行计算并存储在数据仓库中,以便分析使用。
2)数据清洗:数据清洗(data cleaning/data scrubbing)是在数据仓 库/数据库中过滤那些不符合要求的数据,将过滤的结果交给业务主管部门, 确认是否过滤掉还是由业务单位修正之后再进行抽取。不符合要求的数据主 要是有不完整数据、错误数据和重复数据三大类。其中,不完整数据:其特 征是是一些应该有的信息缺失,如供应商的名称,分公司的名称,客户的区 域信息缺失、业务***中主表与明细表不能匹配等。需要将这一类数据过滤 出来,按缺失的内容分别写入不同Excel文件向客户提交,要求在规定的时 间内补全。补全后才写入数据仓库。错误数据:产生原因是业务***不够健 全,在接收输入后没有进行判断直接写入后台数据库造成的,比如数值数据 输成全角数字字符、字符串数据后面有一个回车、日期格式不正确、日期越 界等。这一类数据也要分类,对于类似于全角字符、数据前后有不面见字符 的问题只能写SQL的方式找出来,然后要求客户在业务***修正之后抽取; 日期格式不正确的或者是日期越界的这一类错误会导致ETL运行失败,这一类错误需要去业务***数据库用SQL的方式挑出来,交给业务主管部门要求 限期修正,修正之后再抽取。重复数据:特别是维表中比较常见,将重复数 据的记录所有字段导出来,让客户确认并整理。
数据清洗是一个反复的过程,不可能在几天内完成,只有不断的发现问 题,解决问题。对于是否过滤、是否修正一般要求客户确认;对于过滤掉的 数据,写入Excel文件或者将过滤数据写入数据表,在ETL开发的初期可以 每天向业务单位发送过滤数据的邮件,促使他们尽快的修正错误,同时也可 以作为将来验证数据的依据。数据清洗需要注意的是不要将有用的数据过滤 掉了,对于每个过滤规则认真进行验证,并要用户确认才行。
3)数据转换:数据转换的任务主要是进行不一致的数据转换、数据粒度 的转换和一些商务规则的计算。具体包括:
不一致数据转换:这个过程是一个整合的过程,将不同业务***的相同 类型的数据统一,比如同一个供应商在结算***的编码是XX0001,而在CRM 中编码是YY0001,这样在抽取过来之后统一转换成一个编码。
数据粒度的转换:业务***一般存储非常明细的数据,而数据仓库中的 数据是用来分析的,不需要非常明细的数据,一般情况下,会将业务***数 据按照数据仓库粒度进行聚合。
商务规则的计算:不同的企业有不同的业务规则,不同的数据指标,这 些指标有的时候不是简单的加加减减就能完成,这个时候需要在ETL中将这 些数据指标计算好了之后存储在数据仓库中,供分析使用。
4)数据管理包括:
元数据管理:元数据提供文件、数据库多种对象类型元数据、作业类元 数据采集及管理功能,如表、视图、存储过程、触发器、DATAX作业、KETTLE 作业等。并支持过程类元数据的关系自动采集、关系管理功能,为数据的溯 源、影响提供基本的数据支持。
数据集管理:数据集可基于不同的原始数据来源,如数据库、XML文件等; 并且可以基于对原始数据的处理生成,比如在SQL中进行关联、过滤、计算, 使用存储过程等等。甚至可以通过自定义数据集,由开发者自行处理任意需 求的数据来源格式和预计算要求。
根据数据集所存储的位置和使用的范围可将数据集分为公有和私有类 型。用户可在资源中心下直接建立的公有数据集,或在报表设计器中新建数 据集时选择保存为公有。公有数据集可以同时被多个报表引用,当公有数据 集发生变化时,重新修改引用该数据集制作的报表,报表设计界面会提示数 据集更新,用户可根据自己需要选择是否更新为最新公有数据集。用户可在 报表设计器中新建数据集时选择私有数据集,并且私有数据集仅可被当前报 表引用。对于公有数据集,用户如果具有数据资源修改权限可以在报表设计器中进行修改,修改后可同步至资源中心的数据集;没有数据资源新建、修 改权限的用户,只可在报表设计器中修改和新建私有数据集,私有数据集的 结果仅更新至当前报表。
5)运维监控:运维监控平台是一个集成化、可扩展、可自定义的监控系 统,能够通过一系列的配置来监控服务器的运行状况,脚本作业的执行情况, 并能够在达到预警阀值后,通过邮短信等方式通知相关人员经行维护;运维 监控主要包括:告警策略,服务器监控,数据库监控,***管理,日志管理 等。采集任务做到完全可视化配置;job维护可视化运维平台。其中,服务 器监控:对服务器进行监控,显示未启动、正常、预警、异常的服务器。数据监控:包括呈现横向单位共享的所需求的共享库,以及数据仓内的各类基 础库,主题库,标准库等。作业监控:作业监控界面中,呈现不同作业运行 情况,***分别用图、表的方式呈现作业名、节点、目标节点、状态、开始 时间、结束时间、运行时长、新增、更新、删除等信息。
本发明实施例中,还包括数据体系与数据治理中心,其中,原始库将从 各省教育业务数据源和体系外教育相关数据(房产、民政、卫计等)采集到 的数据经过数据清洗、转换、加载,最终汇集到该基础数据库中。对各个省 教育业务数据进行采集、汇聚、整合、增加数据标识、非结构转化为结构数 据等,不做深度清洗加工——数据汇聚接入。主要是为了弥补业务***和数 据仓之间的数据同步差距,保证数据仓与其他数据库之间数据实时同步和一 致性。基础数据库的标准制定涉及:组织机构基础信息、学生基础信息、教 职工基础信息等。基础数据库中的数据按照类型可以分为组织机构基础信息 数据库、教职工基础信息数据库、学生基础信息数据库等。这些数据在元数 据库的支撑下被分层分类的、有序的、成体系的组织在一起。学生基础信息 数据库包括全市各级各类学校学生(含外籍学生),主要信息包括:基本信 息、学籍信息、结业信息等,不同教育阶段内容依据管理特点有所侧重。教 职工基础信息数据库包括全市各级各类学校教职工(含外籍教师),主要信 息包括:基本信息、资质信息、任职信息、异动信息等,不同教育阶段内容 依据管理特点有所侧重。组织机构基础信息数据库包括全区域各级各类学校 和下属主管机构,主要信息包括:基本信息、经费信息、教学信息、资产信 息等,不同教育阶段内容依据管理特点有所侧重。主题库是根据主题分析应 用需求,从基础数据、应用数据中抽取和重组而成,提供满足应用服务需要的 包含多层次信息的专项数据。如学生发展主题、校园安全主题、教育资源主 题等等。共享库在主题数据库基础上可以结合具体分析应用需要再改进数据 的抽取和整合形成针对特定应用服务的数据集市,以更好的提供多种多样的 信息分析应用功能。原则上对数据进行共享开放,都基于该类库进行。
本发明实施例中,数据标准是省教育数据内外部使用和交换的一致性和准 确性规范性约束,其建设主要包含以下两个方面:基础类数据标准:包括数 据维度标准、主数据标准、逻辑数据模型标准、物理数据模型标准、元数据 标准,脚本标准。基础类数据是省教育的“黄金数据”,其具备业务共享和 高价值两个属性。标准化之前可能存在于省教育不同的业务***中,它们可 能分散、种类繁多,数据质量比较差,而标准化就是数据一致性、完整性、 相关性和精确性化的过程,也是提升数据质量的过程,其要经历对省教育的 业务数据采集、分析、萃取,审核、归集最终形成基础类标准。指标数据标 准:分为基础指标标准和计算指标(又称组合指标)标准。基础指标一般不 含维度信息,且具有特定业务含义,计算指标通常由两个以上基础指标计算 得出。本次建设主要通过统一定义和管理,构建命名规范、口径一致和算法 统一等手段来实现。
元数据管理:元数据是为了描述业务数据的而定义的数据,对元数据的管 理包含了元数据分类,数据关系分析。元数据分类包括:技术元数据:描述 数据***中技术领域相关概念、关系和规则的数据。包括数据平台内对象和 数据结构的定义、源数据到目标数据的映射、数据转换的描述,存储位置、 数据模型、数据库表、字段长度、字段类型、ETL脚本、SQL脚本、接口程序、 数据关系进行标准化。业务元数据:描述数据***中业务领域相关概念、关 系和规则的数据。包括业务术语、信息分类、指标、统计口径等。管理元数 据:描述数据***中管理领域相关概念、关系和规则的数据。主要包括人员 角色、岗位职责、管理流程,管理部门、管理责任人、权限等数据。
数据关系分析包含:血缘分析和数据地图。血缘分析,实现数据级别和字 段级别的两种分析。数据级别,本次建设主要是针对关系型数据库,依据表 之间的血缘关系,实现表之间的依赖链和表的重要程度。字段级别的血缘关 系,即关系数据库表字段与表字段之间的逻辑关系,体现字段如何产生、修 改字段的影响范围等。数据地图,对整个元数据进行统一查询、管理的地图, 汇聚所有数据信息,通过元数据信息收集来源、元数据储存,数据血缘探查、 数据权限申请授权等手段,帮助省教育完成数据信息的收集和查询,解决“有哪些元数据可用”、“到哪里可以找到元数据”。数据质量管理:以数据标 准为数据检核依据,以元数据为数据检核对象,通过向导化、可视化等简易 操作手段,将质量评估、质量检核、质量整改与质量报告等工作环节进行流 程整合,形成完整的数据质量管理闭环。质量管理包含质量报告,生成过程 为数据质量规划设计,数据质量校验规则定制,数据质量问题管理,数据质 量报告生成。数据质量规划设计主要从数据的完整性、规范性、一致性、重复性、准确性、唯一性、时效性入手,制定出一整套的可自定义的配置校验 规则和度量规则,统一由任务调度***自动生成规范的数据质量报告。质量 管理包含了质量巡检,制定巡检业务逻辑,定时定量对所需监测的数据进行 有效核查,通过检查数据质量、数据是否一致、数据变更方式等监测内容。 质量管理也包含了质量监控,配置核查的频率、范围、时间,***功能自动 调用,并触发“监测器”的规则,从而实行检测、监控,产生监控信息的汇总。异常数据采用报告或邮件或短信第一时间通知监管人员。
数据资产梳理是数据安全治理的基础,通过对数据资产的梳理,可以确 定敏感性数据在***内部的分布、确定敏感数据是被何人如何被访问的。
数据安全分类,是按照一定的原则和方法对数据进行归类,建立起一定 的分类体系,以便更好地管理和使用数据的过程,数据分级按照一定的分级 原则和涉密程度的高低对分类后的数据进行定级,从而使数据的能够安全合 规的进行使用。
数据脱敏,定义敏感数据,对敏感数据进行脱敏处理。对数据库存储的 敏感数据进行加密,无论是外部攻击导致的“拖库”,还是内部高权限账户的 越权访问,都无法对没有权限的加密数据进行破解和提取,从而保障敏感数据 的访问安全。同时保障在不影响开发测试使用数据的情况下,实现数据的安 全。使用可逆脱敏算法和实时连接数据库的动态脱敏技术,可以保障数据分析 场景下对分析结果的还原,并根据访问生产数据的数据应用人员身份返回脱 敏后的数据,从而保障数据应用场景下的数据安全。
数据访问视力与权限,基于数据的分类分级制定数据访问控制策略,形 成敏感分级数据与用户角色的访问控制矩阵,为数据的安全合规使用提供支 撑,其包含了统一认证,租户隔离,角色授权。提供数据库运维管理,通过 流程化的数据库运维管理机制,实现对数据库运维操作的事前审批、事中控 制、事后审计、定期报表等功能,将审批、控制和追责有效结合,保障数据运 维场景下的敏感数据安全。
日志审计,对***访问数据库的行为日志进行实时、动态监控,一旦发现 漏洞攻击、SQL注入等风险行为,可及时进行拦截,确保***访问敏感数据的 安全。
部署数据安全防控***,主要包含安全扫描服务,渗透测试服务,安全 加固,遵循国家等级保护要求,协助进行定级、差距评估、整改方案设计、 安全加固、整理测评资料和协助通过测评。
数据资产管理,有以下部分组成:数据资产规划,即数据架构规划,从 省厅教育业务、业务流程数据研究入手,明确各个业务的数据资产管理组织 架构,明确当前业务资产的主要负责人,理清现有的业务数据,理清跨域专 业数据,理清数据的来龙去脉,并对数据进行顶层架构分类,构建数据标准 体系的规范,制定数据标准管理办法、实施流程要求,绘制数据资产地图。 通过数据资产规划,可以让省教育数据管理和使用者,清楚的知道省教育都 有哪些数据,这些数据存在什么地方,数据被谁管理,如何获取等等。数据 资产应用,其包含数据模型设计,数据指标设计,数据流程设计等等应用, 为数据资产管理提供管理工具,其功能包含数据资产进行操作,如数据设计 生成、数据映射、数据变更查询、数据映射查询、数据维护、数据版本查询、 数据校验和标准导出等等。数据资产共享,数据共享管理指数据的所有者通 过数据的建模分析挖掘,把隐藏在海量数据中的符合共享开放层级的信息作 为应用商品,以合规安全的形式完成共享交换或开放发布,使得数据具有流 通属性,能方便提供数据消费者使用。其包含了数据开放平台,数据搜索, 数据标签,BI可视化分析报表等具体实现。数据资产统计,统计是对数据资 产价值的度量,可以从数据资产成本和数据资产应用价值两方面来开展。数 据资产成本一般包括采集获取和存储的费用和运维费用。数据应用价值主要 考虑数据资产的分类、使用频次、使用对象、使用效果和共享流通等因素。 体现数据资产的总体价值,数据的应用场景,在不同应用场景下的数据集成 度水平。数据资产运维,其包含数据任务调度,数据运行监控,告警管理, 作为整套资产管理的监控底层支撑,保障体系正常运行。
本发明实施例的教育数据开放能力中心包括:数据中心提供统一的、面 向应用的、主题式的数据服务,将数据资产管理平台、数据分析挖掘平台的 数据处理和分析结果以数据服务形式对外提供,同时生成以业务为导向的服 务资源目录,让前台应用更清晰的使用数据中台里的各类数据,实现以数据 驱动业务。API接口运维平台:接口中心主要对平台中任意接口(含第三方) 注册、接口审核、中介代理、接口发布、接口调用日志、接口版本更新、失 效接口虚化等相关工作,满足第三方应用程序通过接口中心的透明安全调用, 实现内部应用程序提供的接口隐藏,从而实现数据订阅接口、应用业务接口、 应用服务接口等不同接口的安全、高效管理和服务提供。接口申请:基础支 撑平台或任何第三方应用产生的接口,都需要进行相应的接口注册、申请, 包括实际的接口地址、接口说明、传递参数、版本、用途等信息。接口审核: 提交上来的接口进行相应的审核,检测是否有安全隐患等,通过后进行接口 归类,并通过接口代理服务器,生成虚拟接口地址以及嵌入接口调用日志, 然后进行合法登记。接口发布:合法登记过的接口进行对外信息发布,发布 后任何第三方或互联网上能访问的用户都可以看到该接口的调用说明、调用 产生的结果等信息,便于第三方开发者使用。接口管理:主要针对接口调用 后的生命周期进行管理,包括调用频次、调用稳定性、调用效率、调用日志、 哪些应用调用等进行全方位管理。同时对不稳定、没人用等相应接口进行提 醒后或下线管理。
本发明实施例的安全体系除了能够安全保障除了token和应用IP白名单以 外,增加还须提供API数据加密、数字签名、网关数据监控、授权有效期可 配置及配置热加载等功能,提供更加稳定的保障。后台管理中可对应用申请 的token的有效时间支持配置,范围可以最小单位为1小时,默认有效时间 可以由管理员设置。接口流控分为(每天调用次数限制)和(每分钟调用次 数限制)流控,为了更好分摊接口压力,网关支持开发者每个接口进行流控, 避免出现接口高峰期压力过大,造成***服务崩溃的情况。热点数据存放入 缓存中,在配置中心中已经进行描述。API网关接口要支持非人工、自动的 横向快速扩容。
本发明实施例能够提供以下数据服务:
可视化分析引擎:可视化分析平台架构在数据资产管理平台之上,为数据 分析人员提供稳定、高质量的跨主题数据资源。可视化分析平台持续集成最 新实用分析工具,实现拖拽式快速构建复杂模型,直观地对数据进行分析和 感知。支持以模块化、自助方式对数据进行选取,自动抽取、清洗数据,根 据需求选择、生成相应的可视化图形。可自行将基础数据、业务数据、临时 上传数据通过可视化数据建模或SQL数据建模的方式,进行数据分析和数据 挖掘,生成数据图表(饼图、柱状图、雷达图、散点图、地图等)和表格, 建立数据分析图表库。数据图表和表格将随着数据的更新而自动更新。用户 可自行组建数据分析图表或数据表格,通过可视化拖拽的方式,实现数据分 析报告的生成,并支持分享给指定角色进行查看。数据分析报告支持报告格 式的自定义排版,并支持文本、图表、表格、动态数据等格式。除了针对业 务展示优化过的常规图表外,还能够绘制包括海量数据的热力分布、地域区 块、3D地图、实现地理数据的多层叠加。此外还有拓扑关系、树图等异形图 表供自由搭配。能够接入平台的分析型数据库和关系型数据库,支持本地CSV 上传、在线API接入及动态请求。满足各类大数据实时计算、监控的需求, 充分发挥大数据计算的能力。本发明实施例还能提供多种业务模块级别而非 图表组件的工具,所见即所得的配置方式,无需编程能力,只需要通过拖拽, 即可创造出专业的可视化应用。后续可更进一步的,建设数据分析挖掘平台, 支持自然语言处理、机器学***台、智能标签+动态知识图谱等多个易用 的数据挖掘工具集。
本发明实施例的教育智能监测中心为教育综合决策服务中心,是依托教育 数据中台数据融通能力建设面向教育行业主管部门的大数据专题应用,是将 大数据能力直接进行工具化形成的应用***。主要包括:数据统计类应用, 如教育大数据统计服务、教学数据统计报表***、区域/校园管理数据统计报 表***等;数据分析类应用,如教育大数据业务分析服务、学情分析***、 区域/校园教育管理分析大屏***等。
图4示出了本发明实施例的基于教育信息的大数据处理装置的组成 结构示意图,如图4所示,本发明实施例的基于教育信息的大数据处理 装置包括:
采集单元40,用于至少通过API接口对设定区域内的教育数据及多 种文件类型数据的批量采集,将采集到的各来源的异构数据进行跨域汇 聚;
监控单元41,用于对数据采集行为进行统一调度与监控,在数据采 集任务异常时进行告警;
存储单元42,用于至少按操作数据层、明细数据层、服务数据层、 数据应用层的分层方式将所采集到的数据进行存储,其中,操作数据层 存储的数据包括不经过任何加工的数据,为冗余数据,只能新增数据且 不能修改,并为每条数据增加时间版本来区分相同的数据;明细数据层 的结构和粒度与操作数据层保持一致,对操作数据层层数据进行编码转化,并去除其中的空值、脏数据、超过极限范围的数据,不进行横向整 合;服务数据层以明细数据层为基础,进行汇总聚集,至少聚集到以用 户当日、设备当日、商家当日、商品当日的粒度,并以某一维度为线索, 组成跨主题的宽表,所述宽表中至少包括用户当日下单数、支付数、退 款数、展示项点击数的多列表;面向实际的数据需求,以服务数据层或 明细数据层的数据为基础,组成统计报表,以供应用***查询调用;
清洗单元43,用于对所采集的数据进行标准制定,基于所制定的标 准对采集到的数据进行清洗,基于清洗后的数据进行设定方式的治理, 而实现数据服务开放共享互融互通、数据决策支持;
输出单元44,用于响应于数据查询及数据统计请求,基于查询及统 计关键词,对清洗后的数据进行数据查询及调用,对查询及统计结果中 的数据进行智能分析,进行关联数据合并及汇总,将汇总结果作为响应 结果进行输出或发送,以作为基于设定区域教育信息化大数据的管理辅 助数据。
作为一种实现方式,所述清洗单元43,还用于:
对按层存储的数据进行过滤,至少包括过滤不完整数据、错误数据 和重复数据;
其中,不完整数据包括信息缺失的数据,包括供应商的名称、分公 司的名称、客户区域信息缺失的数据,以及业务***中主表与明细表不 能匹配的数据;过滤不完整数据来,按缺失内容分别写入不同Excel文 件,并提交给相应的用户,并在接收到用户发送的完整数据后,再以分 层方式进行存储;错误数据包括业务***不健全、在接收未进行判断直接存储的数据,包括数值数据为全角数字字符、字符串数据包含回车符、 日期格式不正确、日期越界的数据;对错误数据进行修正,对修正正确 的数据进行分层存储;重复数据是维表中包含有重复字段的数据,通过 将重复数据记录的所有字段导出并返回相应用户,接收到用户的整理确 认后再进行分层存储;
对不完整数据、错误数据和重复数据进行反复持续进行清洗,对于 是否过滤、是否修正通过用户确认,对于过滤掉的数据,写入Excel文 件或将过滤数据写入数据表。
作为一种实现方式,所述存储单元42,还用于:
对采集的不一致数据进行转换,将所采集的不同业务***的相同类 型的数据进行统一,将所抽取的数据统一转换成一个编码;
对采集的不同数据粒度的数据进行转换,将业务***存储的明细数 据,按照数据库粒度进行聚合;以及
根据不同的企业的不同业务规则、不同的数据指标,对所采集的数 据进行指标计算,并存储。
作为一种实现方式,所述存储单元42,还用于:
将所采集到的数据按分层存储于数据库中,所述数据库至少包括组 织机构基础信息数据库、学生基础信息数据库、教职工基础信息数据库、 主题数据库、共享数据库;其中,
学生基础信息数据库包括设定区域内各级各类学校学生的基本信 息、学籍信息、结业信息;
教职工基础信息数据库包括设定区域内各级各类学校教职工的基 本信息、资质信息、任职信息、异动信息。
组织机构基础信息数据库包括设定区域内各级各类学校和下属主 管机构的基本信息、经费信息、教学信息、资产信息;
所述主题数据库根据数据主题分析应用需求,从所采集的基础数 据、应用数据中抽取和重组而生成主题数据,所述主题数据包括学生发 展主题、校园安全主题、教育资源主题的至少之一;
所述共享数据库在所述主题数据库的基础上,结合设定的分析应用 需要,改进数据的抽取及整合方式,形成针对设定应用服务的数据集市, 以更好地提供多样的信息分析应用功能。
在示例性实施例中,采集单元40、监控单元41、存储单元42、清 洗单元43和输出单元等可以被一个或多个中央处理器(CPU,Central Processing Unit)、图形处理器(GPU,Graphics Processing Unit)、基 带处理器(BP,Base Processor)、应用专用集成电路(ASIC,Application Specific Integrated Circuit)、数字信号处理器(Digital SignalProcessor, DSP)、可编程逻辑器件(PLD,Programmable Logic Device)、复杂可 编程逻辑器件(CPLD,Complex Programmable Logic Device)、现场可 编程门阵列(FPGA,Field-Programmable Gate Array)、通用处理器、 控制器、微控制器(MCU,Micro ControllerUnit)、微处理器 (Microprocessor)、或其他电子元件实现,用于执行前述实施例的基于教育信息的大数据处理方法的步骤。
在本公开实施例中,图4示出的基于教育信息的大数据处理装置中 各个单元执行操作的具体方式已经在有关该方法的实施例中进行了详 细描述,此处将不做详细阐述说明。
下面,参考图5来描述根据本申请实施例的基于教育信息的大数据 处理***11。
如图5所示,基于教育信息的大数据处理***11包括一个或多个处 理器111和存储器112。
处理器111可以是中央处理单元(CPU)或者具有数据处理能力和/ 或指令执行能力的其他形式的处理单元,并且可以控制电子设备11中的 其他组件以执行期望的功能。
存储器112可以包括一个或多个计算机程序产品,所述计算机程序 产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/ 或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器 (RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如 可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储 介质上可以存储一个或多个计算机程序指令,处理器111可以运行所述 程序指令,以实现上文所述的本申请的各个实施例的验证方法以及/或者 其他期望的功能。在所述计算机可读存储介质中还可以存储诸如输入信 号、信号分量、噪声分量等各种内容。
在一个示例中,基于教育信息的大数据处理***11还可以包括:输 入装置113和输出装置114,这些组件通过总线***和/或其他形式的连 接机构(未示出)互连。
该输入设备113可以包括例如键盘、鼠标等等。
该输出装置114可以向外部输出各种信息,包括确定出的距离信息、 方向信息等。该输出设备114可以包括例如显示器、扬声器、打印机、 以及通信网络及其所连接的远程输出设备等等。
当然,为了简化,图5中仅示出了该基于教育信息的大数据处理系 统11中与本申请有关的组件中的一些,省略了诸如总线、输入/输出接 口等等的组件。除此之外,根据具体应用情况,电子设备11还可以包括 任何其他适当的组件。
除了上述方法和设备以外,本申请的实施例还可以是计算机程序产 品,其包括计算机程序指令,所述计算机程序指令在被处理器运行时使 得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申 请各种实施例的方法中的步骤。
所述计算机程序产品可以以一种或多种程序设计语言的任意组合 来编写用于执行本申请实施例操作的程序代码,所述程序设计语言包括 面向对象的程序设计语言,诸如Java、C++等,还包括常规的过程式程 序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完 全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立 的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或 者完全在远程计算设备或服务器上执行。
此外,本申请的实施例还可以是计算机可读存储介质,其上存储有 计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理 器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施 例的方法中的步骤。
所述计算机可读存储介质可以采用一个或多个可读介质的任意组 合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例 如可以包括但不限于电、磁、光、电磁、红外线、或半导体的***、装 置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷 举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随 机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储 器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、 光存储器件、磁存储器件、或者上述的任意合适的组合。
以上结合具体实施例描述了本申请的基本原理,但是,需要指出的 是,在本申请中提及的优点、优势、效果等仅是示例而非限制,不能认 为这些优点、优势、效果等是本申请的各个实施例必须具备的。另外, 上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限 制,上述细节并不限制本申请为必须采用上述具体的细节来实现。
本申请中涉及的器件、装置、设备、***的方框图仅作为例示性的 例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布 置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、 配置这些器件、装置、设备、***。诸如“包括”、“包含”、“具有” 等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。 这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用, 除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“如 但不限于”,且可与其互换使用。
还需要指出的是,在本申请的装置、设备和方法中,各部件或各步 骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请 的等效方案。
提供所公开的方面的以上描述以使本领域的任何技术人员能够做 出或者使用本申请。对这些方面的各种修改对于本领域技术人员而言是 非常显而易见的,并且在此定义的一般原理可以应用于其他方面而不脱 离本申请的范围。因此,本申请不意图被限制到在此示出的方面,而是 按照与在此公开的原理和新颖的特征一致的最宽范围。
为了例示和描述的目的已经给出了以上描述。此外,此描述不意图 将本申请的实施例限制到在此公开的形式。尽管以上已经讨论了多个示 例方面和实施例,但是本领域技术人员将认识到其某些变型、修改、改 变、添加和子组合。

Claims (10)

1.一种基于教育信息的大数据处理方法,其特征在于,所述方法包括:
至少通过API接口对设定区域内的教育数据及多种文件类型数据的批量采集,将采集到的各来源的异构数据进行跨域汇聚;对数据采集行为进行统一调度与监控,在数据采集任务异常时进行告警;
至少按操作数据层、明细数据层、服务数据层、数据应用层的分层方式将所采集到的数据进行存储,其中,操作数据层存储的数据包括不经过任何加工的数据,为冗余数据,只能新增数据且不能修改,并为每条数据增加时间版本来区分相同的数据;明细数据层的结构和粒度与操作数据层保持一致,对操作数据层层数据进行编码转化,并去除其中的空值、脏数据、超过极限范围的数据,不进行横向整合;服务数据层以明细数据层为基础,进行汇总聚集,至少聚集到以用户当日、设备当日、商家当日、商品当日的粒度,并以某一维度为线索,组成跨主题的宽表,所述宽表中至少包括用户当日下单数、支付数、退款数、展示项点击数的多列表;面向实际的数据需求,以服务数据层或明细数据层的数据为基础,组成统计报表,以供应用***查询调用;
对所采集的数据进行标准制定,基于所制定的标准对采集到的数据进行清洗,基于清洗后的数据进行设定方式的治理,而实现数据服务开放共享互融互通、数据决策支持;
响应于数据查询及数据统计请求,基于查询及统计关键词,对清洗后的数据进行数据查询及调用,对查询及统计结果中的数据进行智能分析,进行关联数据合并及汇总,将汇总结果作为响应结果进行输出或发送,以作为基于设定区域教育信息化大数据的管理辅助数据。
2.根据权利要求1所述的方法,其特征在于,所述基于所制定的标准对采集到的数据进行清洗,包括:
对按层存储的数据进行过滤,至少包括过滤不完整数据、错误数据和重复数据;
其中,不完整数据包括信息缺失的数据,包括供应商的名称、分公司的名称、客户区域信息缺失的数据,以及业务***中主表与明细表不能匹配的数据;过滤不完整数据来,按缺失内容分别写入不同Excel文件,并提交给相应的用户,并在接收到用户发送的完整数据后,再以分层方式进行存储;错误数据包括业务***不健全、在接收未进行判断直接存储的数据,包括数值数据为全角数字字符、字符串数据包含回车符、日期格式不正确、日期越界的数据;对错误数据进行修正,对修正正确的数据进行分层存储;重复数据是维表中包含有重复字段的数据,通过将重复数据记录的所有字段导出并返回相应用户,接收到用户的整理确认后再进行分层存储;对不完整数据、错误数据和重复数据进行反复持续进行清洗,对于是否过滤、是否修正由用户确认,并将确认后的数据进行存储,对于过滤掉的数据,写入Excel文件或将过滤数据写入数据表。
3.根据权利要求1所述的方法,其特征在于,所述对操作数据层层数据进行编码转化,包括:
对采集的不一致数据进行转换,将所采集的不同业务***的相同类型的数据进行统一,将所抽取的数据统一转换成一个编码;
对采集的不同数据粒度的数据进行转换,将业务***存储的明细数据,按照数据库粒度进行聚合;以及
根据不同的企业的不同业务规则、不同的数据指标,对所采集的数据进行指标计算,并存储。
4.根据权利要求1所述的方法,其特征在于,所述将所采集到的数据按分层存储于数据库中,所述数据库至少包括组织机构基础信息数据库、学生基础信息数据库、教职工基础信息数据库、主题数据库、共享数据库;其中,
学生基础信息数据库包括设定区域内各级各类学校学生的基本信息、学籍信息、结业信息;
教职工基础信息数据库包括设定区域内各级各类学校教职工的基本信息、资质信息、任职信息、异动信息。
组织机构基础信息数据库包括设定区域内各级各类学校和下属主管机构的基本信息、经费信息、教学信息、资产信息;
所述主题数据库根据数据主题分析应用需求,从所采集的基础数据、应用数据中抽取和重组而生成主题数据,所述主题数据包括学生发展主题、校园安全主题、教育资源主题的至少之一;
所述共享数据库在所述主题数据库的基础上,结合设定的分析应用需要,改进数据的抽取及整合方式,形成针对设定应用服务的数据集市,以更好地提供多样的信息分析应用功能。
5.一种基于教育信息的大数据处理装置,其特征在于,所述装置包括:
采集单元,用于至少通过API接口对设定区域内的教育数据及多种文件类型数据的批量采集,将采集到的各来源的异构数据进行跨域汇聚;
监控单元,用于对数据采集行为进行统一调度与监控,在数据采集任务异常时进行告警;
存储单元,用于至少按操作数据层、明细数据层、服务数据层、数据应用层的分层方式将所采集到的数据进行存储,其中,操作数据层存储的数据包括不经过任何加工的数据,为冗余数据,只能新增数据且不能修改,并为每条数据增加时间版本来区分相同的数据;明细数据层的结构和粒度与操作数据层保持一致,对操作数据层层数据进行编码转化,并去除其中的空值、脏数据、超过极限范围的数据,不进行横向整合;服务数据层以明细数据层为基础,进行汇总聚集,至少聚集到以用户当日、设备当日、商家当日、商品当日的粒度,并以某一维度为线索,组成跨主题的宽表,所述宽表中至少包括用户当日下单数、支付数、退款数、展示项点击数的多列表;面向实际的数据需求,以服务数据层或明细数据层的数据为基础,组成统计报表,以供应用***查询调用;
清洗单元,用于对所采集的数据进行标准制定,基于所制定的标准对采集到的数据进行清洗,基于清洗后的数据进行设定方式的治理,而实现数据服务开放共享互融互通、数据决策支持;
输出单元,用于响应于数据查询及数据统计请求,基于查询及统计关键词,对清洗后的数据进行数据查询及调用,对查询及统计结果中的数据进行智能分析,进行关联数据合并及汇总,将汇总结果作为响应结果进行输出或发送,以作为基于设定区域教育信息化大数据的管理辅助数据。
6.根据权利要求5所述的装置,其特征在于,所述清洗单元,还用于:
对按层存储的数据进行过滤,至少包括过滤不完整数据、错误数据和重复数据;
其中,不完整数据包括信息缺失的数据,包括供应商的名称、分公司的名称、客户区域信息缺失的数据,以及业务***中主表与明细表不能匹配的数据;过滤不完整数据来,按缺失内容分别写入不同Excel文件,并提交给相应的用户,并在接收到用户发送的完整数据后,再以分层方式进行存储;错误数据包括业务***不健全、在接收未进行判断直接存储的数据,包括数值数据为全角数字字符、字符串数据包含回车符、日期格式不正确、日期越界的数据;对错误数据进行修正,对修正正确的数据进行分层存储;重复数据是维表中包含有重复字段的数据,通过将重复数据记录的所有字段导出并返回相应用户,接收到用户的整理确认后再进行分层存储;
对不完整数据、错误数据和重复数据进行反复持续进行清洗,对于是否过滤、是否修正通过用户确认,对于过滤掉的数据,写入Excel文件或将过滤数据写入数据表。
7.根据权利要求5所述的装置,其特征在于,所述存储单元,还用于:
对采集的不一致数据进行转换,将所采集的不同业务***的相同类型的数据进行统一,将所抽取的数据统一转换成一个编码;
对采集的不同数据粒度的数据进行转换,将业务***存储的明细数据,按照数据库粒度进行聚合;以及
根据不同的企业的不同业务规则、不同的数据指标,对所采集的数据进行指标计算,并存储。
8.根据权利要求5所述的装置,其特征在于,所述存储单元,还用于:
将所采集到的数据按分层存储于数据库中,所述数据库至少包括组织机构基础信息数据库、学生基础信息数据库、教职工基础信息数据库、主题数据库、共享数据库;其中,
学生基础信息数据库包括设定区域内各级各类学校学生的基本信息、学籍信息、结业信息;
教职工基础信息数据库包括设定区域内各级各类学校教职工的基本信息、资质信息、任职信息、异动信息。
组织机构基础信息数据库包括设定区域内各级各类学校和下属主管机构的基本信息、经费信息、教学信息、资产信息;
所述主题数据库根据数据主题分析应用需求,从所采集的基础数据、应用数据中抽取和重组而生成主题数据,所述主题数据包括学生发展主题、校园安全主题、教育资源主题的至少之一;
所述共享数据库在所述主题数据库的基础上,结合设定的分析应用需要,改进数据的抽取及整合方式,形成针对设定应用服务的数据集市,以更好地提供多样的信息分析应用功能。
9.一种基于教育信息的大数据处理***,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;存储器,用于存放计算机程序;处理器,用于执行存储器上所存放的程序时,实现权利要求1-4任一项所述的基于教育信息的大数据处理方法步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-5任一项所述的基于教育信息的大数据处理方法步骤。
CN202110859432.8A 2021-07-28 2021-07-28 基于教育信息的大数据处理方法、装置及***、存储介质 Pending CN113722301A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110859432.8A CN113722301A (zh) 2021-07-28 2021-07-28 基于教育信息的大数据处理方法、装置及***、存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110859432.8A CN113722301A (zh) 2021-07-28 2021-07-28 基于教育信息的大数据处理方法、装置及***、存储介质

Publications (1)

Publication Number Publication Date
CN113722301A true CN113722301A (zh) 2021-11-30

Family

ID=78674245

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110859432.8A Pending CN113722301A (zh) 2021-07-28 2021-07-28 基于教育信息的大数据处理方法、装置及***、存储介质

Country Status (1)

Country Link
CN (1) CN113722301A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114756278A (zh) * 2022-06-15 2022-07-15 昆仑智汇数据科技(北京)有限公司 一种工业数据模型与数据版本的协同管理方法及装置
CN114780525A (zh) * 2022-04-06 2022-07-22 厦门知彦信息科技有限公司 一种面向教育领域全生命周期的数据治理平台
CN114925145A (zh) * 2022-05-25 2022-08-19 盐城金堤科技有限公司 数据存储方法、装置以及存储介质和电子设备
CN116781550A (zh) * 2023-08-23 2023-09-19 北京赢科天地电子有限公司 数据采集的实现方法、***及设备
CN117390054A (zh) * 2023-12-08 2024-01-12 先进操作***创新中心(天津)有限公司 一种国产化生态适配数据的数据治理方法及***

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114780525A (zh) * 2022-04-06 2022-07-22 厦门知彦信息科技有限公司 一种面向教育领域全生命周期的数据治理平台
CN114925145A (zh) * 2022-05-25 2022-08-19 盐城金堤科技有限公司 数据存储方法、装置以及存储介质和电子设备
CN114925145B (zh) * 2022-05-25 2024-05-14 盐城天眼察微科技有限公司 数据存储方法、装置以及存储介质和电子设备
CN114756278A (zh) * 2022-06-15 2022-07-15 昆仑智汇数据科技(北京)有限公司 一种工业数据模型与数据版本的协同管理方法及装置
CN116781550A (zh) * 2023-08-23 2023-09-19 北京赢科天地电子有限公司 数据采集的实现方法、***及设备
CN117390054A (zh) * 2023-12-08 2024-01-12 先进操作***创新中心(天津)有限公司 一种国产化生态适配数据的数据治理方法及***

Similar Documents

Publication Publication Date Title
CN112685385B (zh) 一种用于智慧城市建设的大数据平台
Batini et al. Data and information quality
US10346637B2 (en) Data processing systems for the identification and deletion of personal data in computer systems
CN113722301A (zh) 基于教育信息的大数据处理方法、装置及***、存储介质
CN113592680A (zh) 基于区域级教育大数据的服务平台
US8271369B2 (en) Financial modeling and forecasting system
Schintler et al. Encyclopedia of big data
Southerton Datafication
CN105205575A (zh) 业务流程绩效评估及决策分析***
CN111680153A (zh) 一种基于知识图谱的大数据鉴真方法与***
Cao Social security and social welfare data mining: An overview
US10776517B2 (en) Data processing systems for calculating and communicating cost of fulfilling data subject access requests and related methods
CN115617776A (zh) 一种数据管理***及方法
Alghushairy et al. Data storage
Imran et al. Data provenance
CN116415203A (zh) 一种基于大数据的政务信息智能融合***及方法
Huang Data processing
Gagliardelli et al. A big data platform exploiting auditable tokenization to promote good practices inside local energy communities
Worrall The role of GIS-based spatial analysis in strategic management in local government
CN117540936A (zh) 一种用于基层社会治理的多源数据处理方法及***
Hogan Data center
CN115718776A (zh) 一种大数据应用平台***
CN115271514A (zh) 通讯企业的监控方法、装置、电子设备及存储介质
KR20180131829A (ko) 장기생태연구를 지원하는 전주기 데이터 관리 장치 및 방법
Zhang Data Synthesis

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination