CN112231304A

CN112231304A - 一种引入数据仓库构建技术的数据处理***及方法

Info

Publication number: CN112231304A
Application number: CN202011479233.6A
Authority: CN
Inventors: 郁强; 李开民; 李圣权
Original assignee: CCI China Co Ltd
Current assignee: CCI China Co Ltd
Priority date: 2020-12-16
Filing date: 2020-12-16
Publication date: 2021-01-15

Abstract

本发明涉及数据仓库技术领域，具体地说，涉及一种引入数据仓库构建技术的数据处理***。其包括数据源单元、数据处理单元、数据查询统计分析单元、元数据单元和管理中心单元，数据源单元用于建立数据库文件、平面文件、html文件及xml文件，数据处理单元用于处理数据源单元中的数据，数据查询统计分析单元用于对信息数据进行统一的记录和分析，元数据管理单元用于存储数据查询统计分析单元内的数据，管理中心单元用于整个***的管理和维护，本发明可通过远程访问服务的方式提供用户查询，具有更高的灵活性、可控性和专业职能性，方便对数据进行查询分析，信息关联性强。

Description

一种引入数据仓库构建技术的数据处理***及方法

技术领域

本发明涉及数据仓库技术领域，具体地说，涉及一种引入数据仓库构建技术的数据处理***及方法。

背景技术

随着计算机网络与数据库技术的迅速发展和广泛应用，已经使各行各业的信息管理进入一个崭新的时代。早期的数据库主要是一些独立的数据库,应用于数据处理领域的各个方面；

这些独立的数据库***一般具有以下的特点:功能单一，只针对某个具体的业务，越来越无法适应大量日趋复杂的应用，或多或少地需要进行手工处理作业；已有的业务信息***是在不同的硬件平台上的开发的，使用操作***、数据库管理***都不尽相同，不能提供统一的数据接口；这些业务信息***在物理上分散，相互联系程度低，信息相对封闭，共享程度低，鉴于此，我们提出一种引入数据仓库构建技术的数据处理***及方法。

发明内容

本发明的目的在于提供一种引入数据仓库构建技术的数据处理***及方法，以解决上述背景技术中提出的问题。

为实现上述目的，一方面，本发明提供一种引入数据仓库构建技术的数据处理***，包括数据源单元、数据处理单元、数据查询统计分析单元、元数据管理单元和管理中心单元；

所述数据源单元用于建立数据库文件、平面文件、html文件及xml文件；

所述数据处理单元用于处理所述数据源单元中的数据；

所述数据查询统计分析单元用于对信息数据进行统一的记录和分析；

所述元数据管理单元用于存储所述数据查询统计分析单元内的数据；

所述元数据管理单元包括数据元数据模块和过程元数据模块，所述数据元数据模块用于检索、存取和理解源信息；所述过程元数据模块用于查找、评估、存取和管理数据；

所述管理中心单元用于整个***的管理和维护，所述管理中心单元包括权限控制模块、性能管理模块和故障恢复模块，所述权限控制模块用于设置用户登录的权限验证所述性能管理模块用于设备的性能和网络单元进行评估，方便及时发现网络堵塞或中断情况、全面的故障排除、基于事实的容量规划和有效地分配网络资源，所述故障恢复模块用于自动创建还原点，使***回到工作状态，在不需要重新安装和不会破坏数据文件的前提下，可以快速故障恢复。

作为优选，所述数据源单元包括联机事务处理模块、遗留数据模块、内部办公数据模块和外部数据模块；

所述联机事务处理模块用于反映企业日常运作情况，联机事务处理模块是企业数据仓库的主要数据来源，反映了企业日常运作的情况，通常粒度比较细；

所述遗留数据模块用于数据的挖掘和趋势分析，遗留数据模块是脱机或档案数据，对于数据挖掘和趋势分析等具有重大的历史价值，用适当的应用程序将其导人数据仓库中；

所述内部办公数据模块用于对企业办公的数据分析，包括非结构化的(比如非电子形式的文档)、结构化的(比如电子报表、文字处理文档等)和半结构化的(比如年度报告等)，这些数据对于支持跨部门的分析是很有用的；

所述外部数据模块用于记录人口统计信息、竞争对手情报信息、问卷调查、xml文档的数据。

作为优选，所述数据处理单元包括数据提取模块、数据验证模块、数据清理模块、数据整合模块、数据聚集模块和数据装载模块；

所述数据提取模块用于捕获数据，捕获数据有两种主要的方式:完全捕获方式和增量捕获方式，完全捕获方式是提取数据源的完整信息；增量捕获方式更关注数据中修改的数据，必须在做了一次完全捕获方式之后，采用增量捕获方式，在实时抽取中，增量捕获方式可以减少抽取数据量，减少网络流量；

所述数据验证模块用于对所述数据源单元中的数据进行检测，包括丢失的数据恢复、模糊的数据转换和业务操作的数据问题，解决的数据质量问题，检测的内容包括属性的有效值(域检查)、关系在该表和其他表中的行间是有效的(外键检查)、相似重复记录的检测和缺失值的检测，属性的有效值(域检查)和关系在该表和其他表中的行间是有效的(外键检查)是利用数据库自身的参照完整性检查，相似重复记录是指同一个现实实体在不同数据集中用多个不完全相同的记录来表示，由于他们在格式、拼写上有些差异而导致DBMS不能正确识别，这些记录称作“相似重复记录”；

所述数据清理模块用于将所述数据验证模块中检测出的脏数据进行清除，保证数据的正确性、一致性、完整性和可靠性，保证信息源的数据质量，同时保证辅助决策的原始数据的正确性和准确性；

所述数据整合模块用于将多个数据整合成统一的数据进行分析；

所述数据聚集模块用于收集和总结信息数据，数据聚集模块的数据聚集方法有数值聚集和维归约，数值聚集，即通过选择较小的数据量替代原有的数据集，加大数据的粒度，去除源数据中的不需要细节实际上是对二维表纵向数据的压缩，维归约，通过删除不相关的属性来减少数据量,它是对二维表横向属性的压缩，有助于将实体的实例数目减少到易于驾驭的水平,也有助于预先计算出广泛应用的概括数字；

所述数据装载模块用于将转换好的数据保存起来，使不好的数据产生错误报告。

作为优选，所述数据整合模块中数值型的数据度量的计算公式如下：

其中n是元组个数，

和

分别是A和B的平均值，σ_A和σ_B分别是A和B的标准差。

作为优选，所述数据整合模块中非数值型的数据度量的计算公式如下：

其中P(A)、P(B)、P(A∪B)分别为属性A_I、B_I、A∪B在属性集合I={i₁，i₂，i₃⋯，i_m}中出现的概率。

作为优选，所述数据查询统计分析单元中的信息数据包括市场总体情况、市场结构、市场动态、投资结构、上市公司财务情况、市场指标和宏观经济指标。

作为优选，所述数据查询统计分析单元包括数据仓库模块、数据集市模块、操作性数据存储模块和前端访问模块；

所述数据仓库模块用于支持企业分析型决策的数据集合，数据仓库模块面向主题的，集成的、随时间变化、不可更新，为整个企业的数据提供了全局的视图；

所述数据集市模块用于支持部门决策的数据集合，所述数据集市模块为所述数据仓库模块的一个逻辑子集，是面向部门决策支持的数据集合，相对于数据仓库来说，它具有更高的灵活性、可控性和专业职能性；

所述操作性数据存储模块用于支持企业日常应用的数据集合，具有面向主题的、集成的、可变的、数据是当前或接近当前的特点；

所述前端访问模块用于对数据整理加工后以文字、报表、曲线和图形的方式表现出来，可以简便、快捷的展示出来。

作为优选，所述数据仓库模块包括多维数据模型、星型模型和雪花模型；

多维数据模型以直观的方式组织数据，并支持高性能的数据访问，每一个多维数据模型由多个多维数据模式表示；星型模型可以很好地支持数据集市中具有以下特点的多维分析:已知的、需求稳定的、需要合理响应时间的、完全可预知的查询和重复性报表，在应用比较复杂的情况下；雪花模型是对星形模型的扩展，其事实表可以连接到多个层次的维表，每一个点都沿半径连接到多个点。

作为优选，另一方面，本发明还提供一种引入数据仓库构建技术的数据处理的方法，包括上述中任意一项所述的引入数据仓库构建技术的数据处理***，其操作步骤如下：

S1、建立数据源：在数据源单元下建立数据库文件、平面文件、html文件及xml文件；

S2、数据处理：从数据源单元中抽取数据，然后通过数据处理单元处理数据，并进行整理、组织、加工，装载到目标数据库中，同时可周期性地刷新反映数据源的变化；

S3、建设数据仓库：通过数据查询统计分析单元收集用户的需求信息，估算数据量，然后选择合适的软硬件平台设计数据模型，存储经过检验、整理、加工和重组后的数据，建设数据仓库模块，并对数据进行管理；

S4、前端访问和分析：由前端访问模块对数据仓库模块中的数据进行各种加工整理并进行挖掘、预测，然后将获得的数据以文字、报表、曲线的方式展现出来；

S5、存储数据：通过元数据管理单元存储数据查询统计分析单元内的数据，使整个企业的语法和语义上保持一致；

S6、权限设置：通过权限控制模块设置用户登录的权限验证，使用户可以随时登陆查询，并由性能管理模块对设备的性能和网络单元进行评估。

与现有技术相比，本发明的有益效果：该引入数据仓库构建技术的数据处理***及方法中，通过设置数据处理单元和数据查询统计分析单元，采用实体化数据仓库的技术来适应***的条件，对用户提出的主题进行相关数据的集成和综合，同时对未抽取的数据，可通过远程访问服务的方式提供用户查询，具有更高的灵活性、可控性和专业职能性，并且由前端访问模块对数据仓库模块中的数据进行各种加工整理并进行挖掘、预测，然后将获得的数据以文字、报表、曲线的方式展现出来，方便对数据进行查询分析，信息关联性强。

附图说明

图1为本发明的整体结构框图；

图2为本发明的数据源单元结构框图；

图3为本发明的数据处理单元结构框图；

图4为本发明的数据查询统计分析单元结构框图；

图5为本发明的元数据管理单元结构框图；

图6为本发明的管理中心单元结构框图；

图7为本发明的数据处理方法流程图。

图中各个标号意义为：

100、数据源单元；

110、联机事务处理模块；120、遗留数据模块；130、内部办公数据模块；140、外部数据模块；

200、数据处理单元；

210、数据提取模块；220、数据验证模块；230、数据清理模块；240、数据整合模块；250、数据聚集模块；260、数据装载模块；

300、数据查询统计分析单元；

310、数据仓库模块；320、数据集市模块；330、操作性数据存储模块；340、前端访问模块；

400、元数据管理单元；410、数据元数据模块；420、过程元数据模块；

500、管理中心单元；510、权限控制模块；520、性能管理模块；530、故障恢复模块。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的描述中，需要理解的是，术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”、“顺时针”、“逆时针”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的设备或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

实施例1

请参阅图1所示，本实施例提供一种引入数据仓库构建技术的数据处理***，包括数据源单元100、数据处理单元200、数据查询统计分析单元300、元数据管理单元400和管理中心单元500；

数据源单元100用于建立数据库文件、平面文件、html文件及xml文件；

数据处理单元200用于处理数据源单元100中的数据，与传统数据库面向应用相对应主题是一个在较高层次上将企业信息***中的数据综合、归类并进行分析利用的抽象，每一个主题对应一个宏观的分析领域，能反映的是一段的时间内历史数据的内容；

数据查询统计分析单元300用于对信息数据进行统一的记录和分析；

元数据管理单元400用于存储数据查询统计分析单元300内的数据；

请参阅图5所示，元数据管理单元400包括数据元数据模块410和过程元数据模块420，数据元数据模块410用于检索、存取和理解源信息，保证了在新的应用环境中使用信息，支持了整个信息结构的演进；过程元数据模块420用于查找、评估、存取和管理数据，大的软件结构中包括描述各个组件接口、功能和依赖关系的元数据，这些元数据保证了软件组件的灵活动态配置；

请参阅图6所示，管理中心单元500用于整个***的管理和维护，管理中心单元500包括权限控制模块510、性能管理模块520和故障恢复模块530，权限控制模块510用于设置用户登录的权限验证，保证***的安全性，性能管理模块520用于设备的性能和网络单元进行评估，方便及时发现网络堵塞或中断情况、全面的故障排除、基于事实的容量规划和有效地分配网络资源，故障恢复模块530用于自动创建还原点，使***回到工作状态，在不需要重新安装和不会破坏数据文件的前提下，可以快速故障恢复。

进一步的，请参阅图2所示，数据源单元100包括联机事务处理模块110、遗留数据模块120、内部办公数据模块130和外部数据模块140；

联机事务处理模块110用于反映企业日常运作情况，联机事务处理模块110是企业数据仓库的主要数据来源，反映了企业日常运作的情况，通常粒度比较细；

遗留数据模块120用于数据的挖掘和趋势分析，遗留数据模块120是脱机或档案数据，对于数据挖掘和趋势分析等具有重大的历史价值，用适当的应用程序将其导人数据仓库中；

内部办公数据模块130用于对企业办公的数据分析，包括非结构化的(比如非电子形式的文档)、结构化的(比如电子报表、文字处理文档等)和半结构化的(比如年度报告等)，这些数据对于支持跨部门的分析是很有用的；

外部数据模块140用于记录人口统计信息、竞争对手情报信息、问卷调查、xml文档的数据。

更进一步的，请参阅图3所示，数据处理单元200包括数据提取模块210、数据验证模块220、数据清理模块230、数据整合模块240、数据聚集模块250和数据装载模块260；

数据提取模块210用于捕获数据，捕获数据有两种主要的方式:完全捕获方式和增量捕获方式，完全捕获方式是提取数据源的完整信息；增量捕获方式更关注数据中修改的数据，必须在做了一次完全捕获方式之后，采用增量捕获方式，在实时抽取中，增量捕获方式可以减少抽取数据量，减少网络流量；

数据验证模块220用于对数据源单元100中的数据进行检测，包括丢失的数据恢复、模糊的数据转换和业务操作的数据问题，解决的数据质量问题，检测的内容包括属性的有效值(域检查)、关系在该表和其他表中的行间是有效的(外键检查)、相似重复记录的检测和缺失值的检测，属性的有效值(域检查)和关系在该表和其他表中的行间是有效的(外键检查)是利用数据库自身的参照完整性检查，相似重复记录是指同一个现实实体在不同数据集中用多个不完全相同的记录来表示，由于他们在格式、拼写上有些差异而导致DBMS不能正确识别，这些记录称作“相似重复记录”；

数据清理模块230用于将数据验证模块220中检测出的脏数据进行清除，保证数据的正确性、一致性、完整性和可靠性，保证信息源的数据质量，同时保证辅助决策的原始数据的正确性和准确性；

数据整合模块240用于将多个数据整合成统一的数据进行分析；

数据聚集模块250用于收集和总结信息数据，数据聚集模块250的数据聚集方法有数值聚集和维归约，数值聚集，即通过选择较小的数据量替代原有的数据集，加大数据的粒度，去除源数据中的不需要细节实际上是对二维表纵向数据的压缩，维归约，通过删除不相关的属性来减少数据量,它是对二维表横向属性的压缩，有助于将实体的实例数目减少到易于驾驭的水平,也有助于预先计算出广泛应用的概括数字；

数据装载模块260用于将转换好的数据保存起来，使不好的数据产生错误报告，以便后期对脏数据进行校正。

具体的，数据整合模块240中数值型的数据度量的计算公式如下：

其中n是元组个数，

和

分别是A和B的平均值，σ_A和σ_B分别是A和B的标准差，如果A和B是正相关的，r_A,B值足够大，表明其中一个属性是冗余的，可以去掉,如果r_A,B=O，表明A和B是不相关的，也有可能r_A,B`0，这时A和B是负相关的，表明A(B)出现时会阻止B(A)的出现，因此没有冗余。

具体的，数据整合模块240中非数值型的数据度量的计算公式如下：

其中P(A)、P(B)、P(A∪B)分别为属性A_I、B_I、A∪B在属性集合I={i₁，i₂，i₃⋯，i_m}中出现的概率，若corr_A,B∃1，则A和B是正相关的，意味着有冗余的存在，若corr_A,B=1,则A和B是独立的，若corr_A,B`0，则A和B是负相关的。

其中，数据查询统计分析单元300中的信息数据包括市场总体情况、市场结构、市场动态、投资结构、上市公司财务情况、市场指标和宏观经济指标。

进一步的，请参阅图4所示，数据查询统计分析单元300包括数据仓库模块310、数据集市模块320、操作性数据存储模块330和前端访问模块340；

数据仓库模块310用于支持企业分析型决策的数据集合，数据仓库模块310面向主题的，集成的、随时间变化、不可更新，为整个企业的数据提供了全局的视图；

数据集市模块320用于支持部门决策的数据集合，数据集市模块320为数据仓库模块310的一个逻辑子集，是面向部门决策支持的数据集合，相对于数据仓库来说，它具有更高的灵活性、可控性和专业职能性；

操作性数据存储模块330用于支持企业日常应用的数据集合，具有面向主题的、集成的、可变的、数据是当前或接近当前的特点；

前端访问模块340用于对数据整理加工后以文字、报表、曲线和图形的方式表现出来，可以简便、快捷的展示出来。

具体的，数据仓库模块310包括多维数据模型、星型模型和雪花模型；

另一方面，请参阅图7所示，本发明还提供一种引入数据仓库构建技术的数据处理的方法，其操作步骤如下：

S1、建立数据源：在数据源单元100下建立数据库文件、平面文件、html文件及xml文件；

S2、数据处理：从数据源单元100中抽取数据，然后通过数据处理单元200处理数据，并进行整理、组织、加工，装载到目标数据库中，同时可周期性地刷新反映数据源的变化；

S3、建设数据仓库：通过数据查询统计分析单元300收集用户的需求信息，估算数据量，然后选择合适的软硬件平台设计数据模型，存储经过检验、整理、加工和重组后的数据，建设数据仓库模块310，并对数据进行管理；

S4、前端访问和分析：由前端访问模块340对数据仓库模块310中的数据进行各种加工整理并进行挖掘、预测，然后将获得的数据以文字、报表、曲线的方式展现出来；

S5、存储数据：通过元数据管理单元400存储数据查询统计分析单元300内的数据，使整个企业的语法和语义上保持一致；

S6、权限设置：通过权限控制模块510设置用户登录的权限验证，使用户可以随时登陆查询，并由性能管理模块520对设备的性能和网络单元进行评估。

以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的仅为本发明的优选例，并不用来限制本发明，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.一种引入数据仓库构建技术的数据处理***，其特征在于：包括数据源单元（100）、数据处理单元（200）、数据查询统计分析单元（300）、元数据管理单元（400）和管理中心单元（500）；

所述数据源单元（100）用于建立数据库文件、平面文件、html文件及xml文件；

所述数据处理单元（200）用于处理所述数据源单元（100）中的数据；

所述数据查询统计分析单元（300）用于对信息数据进行统一的记录和分析；

所述元数据管理单元（400）用于存储所述数据查询统计分析单元（300）内的数据；

所述元数据管理单元（400）包括数据元数据模块（410）和过程元数据模块（420）；

所述数据元数据模块（410）用于检索、存取和理解源信息；

所述过程元数据模块（420）用于查找、评估、存取和管理数据；

所述管理中心单元（500）用于整个***的管理和维护，所述管理中心单元（500）包括权限控制模块（510）、性能管理模块（520）和故障恢复模块（530）；

所述权限控制模块（510）用于设置用户登录的权限验证；

所述性能管理模块（520）用于设备的性能和网络单元进行评估；

所述故障恢复模块（530）用于自动创建还原点，使***回到工作状态。

2.根据权利要求1所述的引入数据仓库构建技术的数据处理***，其特征在于：所述数据源单元（100）包括联机事务处理模块（110）、遗留数据模块（120）、内部办公数据模块（130）和外部数据模块（140）；

所述联机事务处理模块（110）用于反映企业日常运作情况；

所述遗留数据模块（120）用于数据的挖掘和趋势分析；

所述内部办公数据模块（130）用于对企业办公的数据分析；

所述外部数据模块（140）用于记录人口统计信息、竞争对手情报信息、问卷调查、xml文档的数据；

所述数据处理单元（200）包括数据提取模块（210）、数据验证模块（220）、数据清理模块（230）、数据整合模块（240）、数据聚集模块（250）和数据装载模块（260）；

所述数据提取模块（210）用于捕获数据；

所述数据验证模块（220）用于对所述数据源单元（100）中的数据进行检测，包括丢失的数据恢复、模糊的数据转换和业务操作的数据问题，解决的数据质量问题；

所述数据清理模块（230）用于将所述数据验证模块（220）中检测出的脏数据进行清除；

所述数据整合模块（240）用于将多个数据整合成统一的数据进行分析；

所述数据聚集模块（250）用于收集和总结信息数据；

所述数据装载模块（260）用于将转换好的数据保存起来，使不好的数据产生错误报告；

所述数据整合模块（240）中数值型的数据度量的计算公式如下：

其中n是元组个数，

和

分别是A和B的平均值，σ_A和σ_B分别是A和B的标准差；所述数据整合模块（240）中非数值型的数据度量的计算公式如下：

3.根据权利要求1所述的引入数据仓库构建技术的数据处理***，其特征在于：所述数据查询统计分析单元（300）中的信息数据包括市场总体情况、市场结构、市场动态、投资结构、上市公司财务情况、市场指标和宏观经济指标。

4.根据权利要求1所述的引入数据仓库构建技术的数据处理***，其特征在于：所述数据查询统计分析单元（300）包括数据仓库模块（310）、数据集市模块（320）、操作性数据存储模块（330）和前端访问模块（340）；

所述数据仓库模块（310）用于支持企业分析型决策的数据集合；

所述数据集市模块（320）用于支持部门决策的数据集合，所述数据集市模块（320）为所述数据仓库模块（310）的一个逻辑子集；

所述操作性数据存储模块（330）用于支持企业日常应用的数据集合；

所述前端访问模块（340）用于对数据整理加工后以文字、报表、曲线和图形的方式表现出来。

5.根据权利要求3所述的引入数据仓库构建技术的数据处理***，其特征在于：所述数据仓库模块（310）包括多维数据模型、星型模型和雪花模型。

6.一种引入数据仓库构建技术的数据处理的方法，其特征在于：包括权利要求1-4任意一项所述的引入数据仓库构建技术的数据处理***，其操作步骤如下：

S1、建立数据源：在数据源单元（100）下建立数据库文件、平面文件、html文件及xml文件；

S2、数据处理：从数据源单元（100）中抽取数据，然后通过数据处理单元（200）处理数据，并进行整理、组织、加工，装载到目标数据库中，同时可周期性地刷新反映数据源的变化；

S3、建设数据仓库：通过数据查询统计分析单元（300）收集用户的需求信息，估算数据量，然后选择合适的软硬件平台设计数据模型，存储经过检验、整理、加工和重组后的数据，建设数据仓库模块（310），并对数据进行管理；

S4、前端访问和分析：由前端访问模块（340）对数据仓库模块（310）中的数据进行各种加工整理并进行挖掘、预测，然后将获得的数据以文字、报表、曲线的方式展现出来；

S5、存储数据：通过元数据管理单元（400）存储数据查询统计分析单元（300）内的数据，使整个企业的语法和语义上保持一致；

S6、权限设置：通过权限控制模块（510）设置用户登录的权限验证，使用户可以随时登陆查询，并由性能管理模块（520）对设备的性能和网络单元进行评估。