CN115185663B

CN115185663B - 一种基于大数据的智慧化数据处理***

Info

Publication number: CN115185663B
Application number: CN202210881480.1A
Authority: CN
Inventors: 袁琳琳; 代亮亮; 卢小玉
Original assignee: Guizhou Weiyu Technology Co ltd; Guizhou Open University Guizhou Vocational And Technical College
Current assignee: Guizhou Weiyu Technology Co ltd; Guizhou Open University Guizhou Vocational And Technical College
Priority date: 2022-07-26
Filing date: 2022-07-26
Publication date: 2023-04-07
Anticipated expiration: 2042-07-26
Also published as: CN115185663A

Abstract

本发明涉及大数据领域，并提供了一种基于大数据的智慧化数据处理***。本发明主要用于进行资源调度、数据治理、多源数据采集、元数据存储、数据稽查和数据溯源。在这个过程中，本发明通过资源地图，让资源调度更加有效率。通过引入数据中台，实现目标服务器和数据中台的对接，为用户提供更加灵活的个性化的检索服务和更有效的多类型检索服务；基于智能转换程序，实现更快速的对不同格式数据进行采集。而且元数据的目录编码树实现元数据的高效区分和快速存储，大大降低元数据存储和访问对平台数据处理能力的影响。基于Item‑SOM聚类和三角不等式的缺失值填充算法实现高质量数据稽查；通过数据图谱实现更快速的数据溯源。

Description

一种基于大数据的智慧化数据处理***

技术领域

本发明涉及大数据技术领域，特别涉及一种基于大数据的智慧化数据处理***。

背景技术

目前，对于大数据的应用越来越广泛，但是在数据采集、数据清洗、数据质量、元数据管理、数据溯源、数据架构和资源调度方面，现有技术均存在或多或少的技术问题，问题如下：

在资源调度领域现有技术多采用蚁群算法，但是蚁群算法容易出现局部最优，而不是全局最优，因此，资源调度的效率低，消耗的时间长和能量多；

在数据的清洗管理方面，现有数据治理平台定制化开发模式成本高、开发速度慢等问题，已完全不能满足企业数据治理应用快速变化的需求，而且定制化开发模式对应的数据中台普遍存在资源检索效率低的问题。

针对数据采集，我们主要采集的是多源异构数据，现有技术主要采用数据集成归一，在总线上统一格式，这种方式非常容易出现数据堆积，导致***宕机；

在数据存储方面，数据存储量与日巨增，当数据量变大时，***数据处理能力大大下降，其中一个主要原因是受限于分散式文件***中的元数据管理和访问。由于大部分搜索申请都属于元数据操作，所以元数据的的存储和访问对平台的数据处理能力产生了极大影响。

针对数据质量问题，目前常用缺失值清洗方法有：不处理、直接删除或丢弃缺失数据但会对数据质量产生影响，并会对数据资源产生极大的浪费；

而在数据溯源方面，目前常用的人工标注的溯源机制过程缓慢，满足不了对大量数据进行自动标注的需要。

发明内容

本发明提供一种基于大数据的智慧化数据处理***，用以解决上述背景技术中的情况。

一种基于大数据的智慧化数据处理***，包括：

资源调度模块：用于接收用户设备的资源调度请求，计算资源调度需求，并根据所述资源调度需求在预设的资源地图中调用目标资源服务器；

数据治理模块：用于根据所述目标资源服务器，通过数据中台与所述目标资源服务器对接，获取目标资源服务器的目标数据；

多源数据采集模块：用于确定所述目标数据的采集节点，进行数据采集，并通过采集节点配置的智能转换程序将采集的目标数据转换为统一格式；

元数据存储模块：用于搭建元数据的目录编码树，并进行元数据存储；

数据稽查模块：用于通过缺失值填充算法对所述目标数据进行缺失计算，判断是否存在数据缺失，并输出判断结果；

数据溯源模块：用于构建多源异构数据的数据图谱，通过所述数据图谱对所述目标数据进行数据溯源。

优选的：所述资源调度模块包括：

需求处理单元：用于根据所述资源调度请求，获取资源调度标准其中，

所述资源调度标准包括：调度时间、资源要求和资源价值；

地图搭建单元：用于确定可调用的资源服务器的服务器信息，并对所述资源服务器进行编码，生成多层级资源调度网络；其中，

所述多层级资源调度网络包括：服务器对接层、服务器编码层和服务器索引层；

规则设定单元：用于根据所述资源调度标准，设置服务器筛选规则，确定目标资源服务器；其中，

所述服务器筛选规则包括：时间筛选规则、资源匹配规则和资源价值优化规则；

时间筛选单元：用于根据所述时间筛选规则，对所述多层级资源调度网络中的资源服务器进行时间筛选，获取第一服务器编码集合；其中，

所述时间筛选包括：连接时间筛选和运行状态筛选；

资源匹配筛选单元：用于根据所述资源匹配规则，对所述第一服务器编码集合对应的资源服务器进行匹配筛选，获取第二服务器编码集合；其中，

所述匹配筛选包括：功能匹配和计算效率匹配；

价值筛选单元：用于根据所述资源价值优化规则，对所述第二服务器编码集合对应的资源服务器进行价值优化筛选，获取第三服务器编码集合；其中，

所述价值优化筛选包括：服务器容量价值筛选、服务器联合效用价值筛选和服务器价值优先级筛选；

地图调用单元：用于根据所述多层级资源调度网络，生成资源服务器的资源地图，并通过所述第三服务器编码集合在所述资源地图上进行资源服务器标定；

调用单元：用于获取所述资源服务器标定的标定结果，并通过所述标定结果通过所述服务器索引层确定对应的目标资源服务器，并通过所述服务器对阶层将目标资源服务器和用户设备对接。

优选的：所述数据治理模块包括：

连接协作单元：用于将所述数据中台与所述用户设备和资源服务进行连接，确定异构数据源，并确定待处理的业务数据；

图结构单元：用于将所述业务数据转化为图数据，并生成索引位图；

路径单元：用于通过所述索引位图，设定数据治理规则，建立数据治理节点；

路径确定单元：用于根据数据节点，设置在所述目标资源服务器的连接路径上，生成连接路径集合；

路径调优单元：用于通过流形对齐算法对所述连接路径集合进行筛选，确定最优连接路径；

数据获取单元：根据所述最优连接路径，获取目标数据。

优选的：所述多源数据采集模块包括：

采集流程分析单元：用于根据所述目标数据和目标资源服务器，在预设数据采集流程模板中确定所述目标数据的采集节点；其中，

所述数据采集流程模板包括：数据自动监测节点、数据校验节点、数据压缩节点、数据分割节点、数据上传节点、数据拼接节点、数据解压节点和数据转载节点；

转换植入单元：用于在所述采集节点中植入智能转换程序，将所述目标数据转换为统一格式。

优选的：所述元数据存储模块包括：

所述元数据存储模块包括：

元数据目录单元：用于通过预设的元数据服务器，构建元数据存储的目录编码树；其中，

所述目录编码树用于根据元数据的类型进行数据编码，并根据元数据的操作权重，确定元数据在目录编码树上的编码位置高度；

所述目录编码树用于通过元数据的目录编码，对元数据进行存储索引和调用索引；

所述目录编码树用于和元数据存储库连接，生成多个元数据存储区域；其中，

每个元数据存储区域只存储一种类型的元数据；

元数据请求获取单元：用于根据所述资源调度请求，确定在进行目标资源服务器调度过程中的元数据操作请求；

元数据采集模块：用于根据所述元数据操作请求，进行元数据采集，获取实时元数据；

存储单元：用于将所述实时元数据传输至所述目录编码树，进行元数据编码，并将编码后的元数据存储至对应的元数据存储区域。

优选的：所述数据稽查模块包括：

聚类单元：用于通过Item-SOM结构将相似的目标数据映射到相同的神经元中，并构成目标数据的聚类模型，生成聚类数据集；

相似计算单元：用于通过三角不等式计算所述聚类数据集中每个目标数据和预设数据集之间的相似度，并确定最大相似度的预设数据对所述目标数据进行填充；

稽查确定单元：用于获取填充结果，并根据所述填充结果对目标数据进行质量评估，判断目标数据是否存在缺失；其中，

所述质量评估包括：完整性评估、规范性评估、一致性评估、准确性评估、唯一性评估、时效性评估。

优选的：所述数据溯源模块包括：

元对象单元：用于通过元对象机制构建元对象模型，并通过所述元对象模型确定多源异构数据的溯源元对象模型；

数据融合单元：用于通过所述溯源元对象模型对目标数据进行数据融合，并通过公共仓库元模型确定目标数据的可视化图标；

溯源单元：用于在通过所述多源异构数据构成的数据图谱中确定所述可视化图标的图标信息，根据所述图标信息，对目标数据进行溯源。

优选的：分配单元分配所述目标资源服务器包括如下步骤：

获取目标资源序列对应的资源调度模型作为原始模型；

从所述原始模型中识别资源服务器的型号标识，并从所述原始模型中识别资源服务器的位置信息和参数信息作为识别标识；

将所述识别标识映射到资源调度服务器中，获取服务反馈信息；

根据所述服务反馈信息，确定目标资源服务器。

优选的：所述***还包括：

调度记录单元：用于对资源调度请求的目标资源服务器进行详细解析，并将解析后的结果以CSV文件格式存储到预设的任务数据库中；

维度统一单元：用于设定任务UDP指令对任务数据库进行定时扫描，将任务数据库中数据接入统一时间维度，并存储到***库表；

查询单元：用于在用户设备输入任务查询指令时，对***库表中资源调度的调度数据加载到内存容器中，同时根据任务查询指令，将容器中的数据和目标资源服务器对接，获取详细任务信息。

优选的：所述***还包括：

调度应用单元：用于通过所述目标资源服务器获取目标数据的至少一个数据包；

计量单元：用于根据所述数据包，确定目标数据的缺失量；

追加调度单元：用于根据所述缺失量，调用目标资源服务器的临近资源服务器。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。

在附图中：

图1为本发明实施例中一种基于大数据的智慧化数据处理***的***组成图；

图2为本发明实施例中数据中台结构图。

图3为本发明实施例中分配目标资源服务器的流程图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

一种基于大数据的智慧化数据处理***，包括：

上述技术方案的原理在于：如附图1和附图2所示，本发明主要用于进行资源调度、数据治理、多源数据采集、元数据存储、数据稽查和数据溯源。在这个过程中本发明通过六个模块进行数据处理，解决现有技术中的数据处理繁杂的问题。本发明的处理方式如下：

(1)本发明通过预先设置基于资源调度的资源地图，判断资源调度的调度需求，根据资源调度的调度需求，去调用用户设备需要调用的目标服务器，实现更高程度的资源分配。在这个过程中，资源地图式一种多层级的资源调度网络，所以这个资源地图也是一个多维度的资源地图，资源地图中包括多种服务器以及服务器的信息，能够通过快速的索引，找到对应的资源服务器。

(2)、在数据治理的过程中，本发明是一种通过数据中台和目标资源服务器对接，生成统一的框架，实现数据的快速索引检索的数据治理方式，数据中台作为一个统一数据格式和存在多种数据接口的中间平台，能够实现快速与目标资源服务器接通，并且通过目标资源服务器处理数据，并调取目标资源服务器中的数据。

(3)、本发明的数据采集是多源数据采集，用于对不同数据源的数据进行自动采集，在这个数据采集过程中，通过不同的数据节点能够实现的文件自动监测、数据校验、压缩、分割、上传、拼接、解压、数据转载等过程进行拆分，实现采集过程中任意点的灵活装配；针对异构数据源的采集问题，设计了智能转换程序方法，实现数据的格式统一。

(4)、元数据是中介数据，也是中继数据，用于描述数据属性，通过数据属性表示存储位置、历史数据、资源查找、文件记录等功能，在这个过程中，本发明通过搭建基于元数据的搭建元数据的目录编码树，实现元数据的分类，并在元数据分类后，实现元数据的分类，分区域存储；

(5)、本发明在数据稽查模块，进行数据缺失判断的时候，本发明通过基于Item-SOM聚类和三角不等式的缺失值填充算法，有效提高填充算法的效率。

(6)、在数据书院模块，本发明进行数据溯源的时候，本发明采取元对象机制、应用数据融合引擎、基于公共仓库元模型，借鉴行业真实数据以元数据为主要切入点，设计实现平台元数据的可视化追溯能力，通过可视化图标实现追溯到影响各指标数据的所有源数据库的元数据，完整的呈现出各行业中各业务的数据图谱。该方法赋予平台数据流视图、影响分析和血缘分析等功能，实现数据的合规性审计跟踪。

上述技术方案的有益效果在于：本发明能够实现的功能如附图2所示，本发明通过资源地图，让资源调度更加有效率。通过引入数据中台，实现目标服务器和数据中台的对接，为用户提供更加灵活的个性化的检索服务和更有效的多类型检索服务；基于智能转换程序，实现更快速的对不同格式数据进行采集。而且元数据的目录编码树实现元数据的高效区分和快速存储，大大降低元数据存储和访问对平台数据处理能力的影响。基于Item-SOM聚类和三角不等式的缺失值填充算法实现高质量数据稽查；通过数据图谱实现更快速的数据溯源。

优选的：所述资源调度模块包括：

所述资源调度标准包括：调度时间、资源要求和资源价值；

所述时间筛选包括：连接时间筛选和运行状态筛选；

所述匹配筛选包括：功能匹配和计算效率匹配；

上述技术方案的原理在于：如附图2所示，在资源调度模块，主要目的是确定进行调度的目标资源服务器；在这个调度过程中，我们生成了多层级资源调度网络，这个网络连接了很多的资源服务器包括空闲的和正在运行计算的。这个网络可以按照用户的资源请求，判断需要多大计算能力，需要进行业务功能类型，调度对应的服务器，进行资源服务器的筛选，资源调度请求中包含了资源调度的标准，最后根据功能和计算效率进行资源服务器的匹配，保证能够得到最优的和最合适资源服务器。

上述技术方案的有益效果在于：本发明进行资源服务器的编码是为了通过编码，将每个资源服务器作为节点，更加容易的通过资源节点构建多层级资源调度网络，多层级就表示了本发明是一种多层网络，不同的层级用于体现不同的数据处理和资源调度功能。本发明通过设置资源调度标准，

优选的：所述数据治理模块包括：

数据获取单元：根据所述最优连接路径，获取目标数据。

上述技术方案的原理在于：如附图2所示，本发明在数据治理模块主要功能是进行数据的实力，也就是数据转换、数据清洗和数据融合，因此本发明将数据转换为图数据，图数据更加容易进行索引，所以设置了索引位图，通过索引位图判断不同类型和不同标准的数据如何治理，进而设定治理规则，这些治理规则都通过功能节点的方式设置在用户设备和目标资源服务器的连接路径上，在确定目标资源服务器之后，确定对应的最优连接路径。

优选的：所述多源数据采集模块包括：

上述技术方案的原理在于：如附图2所示，本发明为了实现对不同来源机构、不同***结构、不同数据格式进行采集。针对该问题，平台基于微服务架构，结合模块化、插件式的设计方法，设计了一种能够支持多源异构数据来源和多种采集实现方式的智能装配式多源异构数据采集方法，将数据采集过程中的文件自动监测、数据校验、压缩、分割、上传、拼接、解压、数据转载等过程进行拆分，实现采集过程中任意点的灵活装配；针对异构数据源的采集问题，设计了智能转换程序方法，可将数据导出写入到文本或CSV格式文件。

上述技术方案的有益效果在于：本发明可支持各类关系型数据库和非结构化数据库的数据采集，间接保证平台采集到的数据源格式统一，实现对各种格式数据的采集。

优选的：所述元数据存储模块包括：

所述元数据存储模块包括：

每个元数据存储区域只存储一种类型的元数据；

上述技术方案中，如附图2所示，在对元数据进行存储过程中，本发明搭建了一个目录编码树，这个目录编码树主要是对元数据进行类型划分，每个类型的元数据都可以通过编码的方式进行转换，对于需要存储的元数据通过这个目录编码树转换为编码，目录编码树又是直接连接元数据存储区域，进而通过目录编码树可以直接进行元数据存储，这属于本发明的一个核心技术点，在现有技术中，因为元数据的数据量比较少，所以都是通过统一的数据库或者只是编号记录，这样导致了元数据会存在偏差。而且最重要的是无法实现快速调用。而本发明的方式使得本发明的元数据可以实现快速的调度，这也是本发明构建的目录编码树的技术特性，现有技术在大数据方面，并没有相同的技术效果。

上述技术方案的有益效果在于：本发明目录编码树存在三种功能，分别是元数据识别、元数据转换和元数据存储。

优选的：所述数据稽查模块包括：

上述技术方案的原理在于：如附图2所示，因为对于数据的完整性、规范性、一致性、准确性、唯一性、时效性等建立有效的稽查机制，建立全方位、智能化的数据质量提升技术，有效提高数据的管理效率和质量，保障需求和实现的一致性，实现数据100％正确。针对数据缺失情况，设计基于Item-SOM聚类和三角不等式的缺失值填充算法，有效提高填充算法的效率。无论在生产领域还是科学研究领域，信息采集过程中存在的不足导致数据缺失的问题普遍存在，数据采集中数据的缺失会影响数据集中抽取模式的正确性和导出规则的准确性，影响总体的数据质量，从而会对数据的应用产生错误指引。目前常用缺失值清洗方法有：不处理、直接删除或丢弃缺失数据和对缺失值进行填充，第一种最简单但会对数据质量产生影响；第二种简单直接，但会对数据资源产生极大的浪费；第三种最受欢迎，通过分析发现最可能的数据值填充缺失属性，保留数据集的整体特性，减少数据的偏离，保证数据的质量。目前常见的缺失值填充式方法是聚类方法，但目前基于聚类算法的缺失值填充方法复杂度较高，在现有的缺失值填充的基础上设计一种基于Item-SOM缺失数据聚类和三角不等式的缺失值填充算法，Item-SOM结构使相似的数据映射到相同的神经元中，得到元数据的聚类模型，将完整的数据集进行聚类，利用三角不等式计算缺失数据集中每条数据与完整数据集各类之间的相似度，然后选取相似度最大的类的数据进行填充。该方法有效的减少了聚类工作中的网络参数，减少了训练的复杂度，增加了网络的准确度；同时结合三角不等式进行相似度计算。

上述技术方案的有益效果在于：本发明有效降低了相似度计算过程中的计算量，避免了一些不必要的计算与比较，提高了算法的运行效率。

优选的：所述数据溯源模块包括：

上述技术方案的原理在于：如附图2所示，因为数据源经过中间处理会产生新的数据源，这会对平台数据质量管理产生很大影响，为保证数据质量必须实现全过程的数据溯源机制。做到高效地数据溯源并实现其可视化，不仅可以减轻数据治理的负担，提高数据质量控制，更能够为后期数据应用以及监管审查带来便利。目前常用的人工标注的溯源机制过程缓慢，满足不了对大量数据进行标注的需要。自动或半自动的标注方法对海量数据进行标注，将大大提高数据治理的效率。本平台采取元对象机制、应用数据融合引擎、基于公共仓库元模型，借鉴行业真实数据以元数据为主要切入点，设计实现平台元数据的可视化追溯能力，通过可视化图标实现追溯到影响各指标数据的所有源数据库的元数据，完整的呈现出各行业中各业务的数据图谱。

上述技术方案的有益效果在于：本发明能够通过数据流视图、影响分析和血缘分析等功能，实现数据的合规性审计跟踪。

优选的：分配单元分配所述目标资源服务器包括如下步骤：

获取目标资源序列对应的资源调度模型作为原始模型；

根据所述服务反馈信息，确定目标资源服务器。

上述技术方案的原理在于：如附图3所示，本发明技术对于分配后的目标资源服务器，会通过用户设备和目标资源服务器进行链接，实现资源调用的作用。但是在现有技术的调用过程中，存在调用的时候，因为目标资源服务器和用户设备链接不稳定或者无法对接，造成了资源调度异常，针对这种现象，本发明通过对目标资源服务器的型号表示和识别表示，实时获取目标资源服务器的反馈信息，通过反馈信息确定具体的连接状态。

上述技术方案的有益效果在于：本发明能够在资源调度的时候，对目标资源服务器进行实时监督，通过实时监督的监督结果，时刻监控资源调度的调度状态。

优选的：所述***还包括：

上述技术方案的原理在于：如附图2所示，针对本发明中的资源调度任务，在资源调度任务实施后，还会存在对资源调度任务的查询，现有技术中对于已经实施过的资源调度任务主要是通过日志进行记录，日志记录的资源调度任务信息不是特别准确，只有实施记录。但是对于资源调度任务的具体信息，例如调度过程中的元数据、调度路径等等现有技术中只能通过调度溯源确定具体的信息，但本发明将调度任务的信息都存储到任务数据库中，通过任务UDP指令要扫描的形式确定任务信息，能够得到更加准确的任务信息。

上述技术方案的有益效果在于：本发明通过以任务UDP指令的形式获取资源调度任务的详细信息，首先得到任务信息更加准确，其次能够实现任务目标资源服务器的对接，通过目标资源服务器获取对应的任务信息。

优选的：所述***还包括：

计量单元：用于根据所述数据包，确定目标数据的缺失量；

上述技术方案的原理在于：如附图2所示，本发明在资源调度的时候，存在目标资源服务器不足以辅助用户设备进行数据采集，这时候本发明通过判断采集的数据的缺失量，通过缺失量，判断是否存在临近服务器可以实现资源调度的加强，就通过资源调度的临近调用的方式加强资源调用。

上述技术方案的有益效果在于：本发明可以实现高速的资源数据采集，并且在目标资源服务器的调用不足时，也就是数据采集的效率不足时，可以进行临近资源服务器识别，增加临近资源服务器。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种基于大数据的智慧化数据处理***，其特征在于，包括：

数据溯源模块：用于构建多源异构数据的数据图谱，通过所述数据图谱对所述目标数据进行数据溯源；

所述数据治理模块包括：

数据获取单元：根据所述最优连接路径，获取目标数据。

2.如权利要求1所述的一种基于大数据的智慧化数据处理***，其特征在于，所述资源调度模块包括：

需求处理单元：用于根据所述资源调度请求，获取资源调度标准；其中，

所述资源调度标准包括：调度时间、资源要求和资源价值；

所述时间筛选包括：连接时间筛选和运行状态筛选；

所述匹配筛选包括：功能匹配和计算效率匹配；

3.如权利要求1所述的一种基于大数据的智慧化数据处理***，其特征在于，所述多源数据采集模块包括：

4.如权利要求1所述的一种基于大数据的智慧化数据处理***，其特征在于，所述元数据存储模块包括：

每个元数据存储区域只存储一种类型的元数据；

5.如权利要求1所述的一种基于大数据的智慧化数据处理***，其特征在于，所述数据稽查模块包括：

6.如权利要求1所述的一种基于大数据的智慧化数据处理***，其特征在于，所述数据溯源模块包括：

7.如权利要求1所述的一种基于大数据的智慧化数据处理***，其特征在于，分配单元分配所述目标资源服务器包括如下步骤：

获取目标资源序列对应的资源调度模型作为原始模型；

根据所述服务反馈信息，确定目标资源服务器。

8.如权利要求1所述的一种基于大数据的智慧化数据处理***，其特征在于，所述***还包括：

9.如权利要求1所述的一种基于大数据的智慧化数据处理***，其特征在于，所述***还包括：

计量单元：用于根据所述数据包，确定目标数据的缺失量；