CN114942923B - 基于云平台大数据计算分析用统一管理*** - Google Patents

基于云平台大数据计算分析用统一管理*** Download PDF

Info

Publication number
CN114942923B
CN114942923B CN202210807819.3A CN202210807819A CN114942923B CN 114942923 B CN114942923 B CN 114942923B CN 202210807819 A CN202210807819 A CN 202210807819A CN 114942923 B CN114942923 B CN 114942923B
Authority
CN
China
Prior art keywords
data
invalid
integrity
complete
groups
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210807819.3A
Other languages
English (en)
Other versions
CN114942923A (zh
Inventor
魏俊杰
蓝岸
庄辉
黄松杰
何翼
熊黄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen News Network Media Co ltd
Original Assignee
Shenzhen News Network Media Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen News Network Media Co ltd filed Critical Shenzhen News Network Media Co ltd
Priority to CN202210807819.3A priority Critical patent/CN114942923B/zh
Publication of CN114942923A publication Critical patent/CN114942923A/zh
Application granted granted Critical
Publication of CN114942923B publication Critical patent/CN114942923B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/602Providing cryptographic facilities or services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/64Protecting data integrity, e.g. using checksums, certificates or signatures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/0604Improving or facilitating administration, e.g. storage management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0638Organizing or formatting or addressing of data
    • G06F3/0644Management of space entities, e.g. partitions, extents, pools
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computer Hardware Design (AREA)
  • Bioethics (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Databases & Information Systems (AREA)
  • Quality & Reliability (AREA)
  • Data Mining & Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了基于云平台大数据计算分析用统一管理***,涉及数据统一管理技术领域,解决了未对无效数据内部的重复数据进行处理技术问题;根据大数据内各种各样的数据属性,将多组不同的数据划分为结构化数据、半结构化数据以及非结构化数据,并采用对应的分区进行存储,再对分类后的数据进行再处理,预先对完整数据的完整度进行分析处理,将数据划分为四组不同的段值数据,并获取段值数据的权重占比,根据无效数据占比数值查看数据的完整度是否正常,提取处于异常完整数据内部的无效数据,并提取无效数据的重复数据,将重复数据采用替换标记进行替换,将替换后的重复数据进行存储,便降低完整数据的整体存储量,提升存储管理效果。

Description

基于云平台大数据计算分析用统一管理***
技术领域
本发明属于数据统一管理技术领域,具体是基于云平台大数据计算分析用统一管理***。
背景技术
大数据,或称巨量资料,指的是所涉及的资料量规模巨大到无法透过主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。
专利公开号为CN112818045A的发明申请提供了一种大数据的数据接入统一管理平台,其特征在于:包括高可用+负载均衡模块、分布式协同模块、数据采集集群模块、数据计算集群模块、WEB统一管理调度平台。通过设置统一的接入管理平台,可以针对具有不同输入、输出方式的处理功能及对应数据进行统一管理,不再需要各数据采集环节分别编写独立程序或脚本,有效降低开发、维护难度,也显著提高了平台的性能及稳定性。
针对于云平台大数据所计算分析用的数据进行统一管理过程中,通过云平台大数据内部多组数据属性,将各类数据进行区分并同时将各类数据内部的无效数据剔除,并将不同属性的数据进行分类存储,但此种存储方式,仍存在以下不足需进行改进:
1、未考虑完整数据内部的无效数据占比,当无效数据占比权重过大时,此时的无效数据处于无法剔除状态,但无效数据的存储量可能会过大,并未采用一种较好的方式对无效数据内部的重复数据进行替换压缩,对无效数据的存储量进行降低;
2、未将整个完整数据进行分类压缩存储,并未采用对应标记的形式,使分类压缩存储的数据快速组合成完整数据。
发明内容
本发明旨在至少解决现有技术中存在的技术问题之一;为此,本发明提出了基于云平台大数据计算分析用统一管理***,用于解决未对无效数据内部的重复数据进行处理以及未对整个完整数据进行拆分压实存储的技术问题。
为实现上述目的,根据本发明的第一方面的实施例提出基于云平台大数据计算分析用统一管理***,包括:
初步分类端,用于对云平台大数据端内部的大数据进行分类处理,根据数据的分类属性将大数据依次划分为结构化数据、半结构化数据以及非结构化数据,并将三大分类属性数据依次管理存储于三大分区内;
数据划分端,对三大分区内部的数据再次进行划分,使数据划分为多组完整的段值数据,段值数据包括实体数据、属性数据、记录数据以及字段值数据;
数据完整度处理端,对完整数据的完整度进行分析处理,通过获取段值数据的权重占比,根据权重占比数据获取无效数据占比,根据无效数据占比数值查看数据的完整度是否正常,并对处于异常完整数据内部的无效数据进行替换标记处理,降低无效数据的整体存储量;
数据质量提升端,根据完整数据以及内部所划分的四组不同的段值数据,对完整数据进行压缩处理,提升整个完整数据的数据质量。
优选的,所述数据完整度处理端对完整数据的完整度进行分析处理为:
获取四组不同段值数据的权重占比,权重占比=不同的段值数据容量/完整数据总容量,并依次将实体数据的权重占比标记为STi,将属性数据的权重占比标记为SXi,将记录数据的权重占比标记为JLi,将字段值数据的权重占比标记为ZDi
将四组不同段值数据的权重占比合并处理,得到无效数据占比,并标记为WXi,其中i代表不同的完整数据,无效数据占比=1-四组不同段值数据权重占比之和;
将无效数据占比WXi与预设值X1进行比对,当WXi≥X1时,代表完整数据完整度异常,并生成异常信号发送至外部终端,并将此完整数据标记为待处理完整度异常数据;
当WXi<X1时,代表完整数据完整度正常,并将此完整数据标记为待处理完整度正常数据。
优选的,所述数据完整度处理端提取待处理完整度异常数据内部的无效数据,提取无效数据内部的重复数据,并将重复数据采用替换标记为Ak,其中k代表不同的重复数据,具体的,一串无效数据为:1、2、3、2、4、5、2,则无效数据经过替换后表现形式为:1、A1、3、A1、4、5、A1,此时A1与数据2相匹配,将对应的重复数据与对应的替换标记Ak进行捆绑生成匹配表,并将匹配表传输至数据库内进行存储;
将替换后的无效数据传输至数据库内存储,并将替换后的无效数据与完整数据采用对应的捆绑标记。
优选的,所述数据质量提升端对完整数据进行压缩处理的方式为:
S1、将完整数据划分为实体数据、属性数据、记录数据以及字段值数据时,以实体数据为源数据,以属性数据、记录数据以及字段值数据为配数据,配数据从源数据内进行提取;
S2、在配数据从源数据提取间隔处,设定间隔下标标记,具体的,源数据表现形式为:1、2、3,此时配数据为2,则提取配数据2,并对配数据2进行间隔下标标记,标记后配数据2的整体表现形式为:123,此时配数据提取后的源数据表现形式为:12、*、23;
S3、将配数据提取完毕后,根据配数据的属性,依次划分为属性数据、记录数据以及字段值数据,并将实体数据为源数据,以属性数据、记录数据以及字段值数据为配数据采用对应的捆绑标记,并将四组段值数据进行压缩,输送至数据库内进行存储;
S4、对完整数据进行提取,根据对应的捆绑标记,依次提取实体数据压缩包、属性数据压缩包、记录数据压缩包以及字段值数据压缩包,根据对应的间隔下标标记,将四组段值数据进行整合为待处理完整度正常数据或待处理完整度异常数据,其中无效数据由待处理完整度异常数据剔除而出,在剔除过程中,同时采用步骤S2中的间隔标记形式对所提取的无效数据进行标记,当完整数据整合完毕后,通过捆绑标记,查看数据库内是否存在无效数据,若存在无效数据,根据对应的间隔标记,提取无效数据,并将无效数据整合至待处理完整度异常数据内形成完整数据。
优选的,还包括数据库,且数据库内设置有五组存储区间,五组存储区间分别对实体数据压缩包、属性数据压缩包、记录数据压缩包以及字段值数据压缩包和无效数据压缩包进行存储。
与现有技术相比,本发明的有益效果是:根据大数据内各种各样的数据属性,将多组不同的数据划分为结构化数据、半结构化数据以及非结构化数据,并采用对应的分区进行存储,再对分类后的数据进行再处理,预先对完整数据的完整度进行分析处理,将数据划分为四组不同的段值数据,并获取段值数据的权重占比,根据权重占比数据获取无效数据占比,根据无效数据占比数值查看数据的完整度是否正常,提取处于异常完整数据内部的无效数据,并提取无效数据的重复数据,将重复数据采用替换标记进行替换,将替换后的重复数据进行存储,便降低完整数据的整体存储量,提升存储管理效果;
再对完整数据内部的四组段值数据进行分类压缩存储,在存储时,便再一步降低了存储容量,提升整个完整数据的整体质量,提升统一管理的效果,将四组段值数据从完整数据内拆分时,对拆分点所对应的拆分数据进行间隔下标标记,根据间隔下标标记,在进行数据整合时,不会造成数据混乱,同时保证四组段值数据可快速组合成完整数据。
附图说明
图1为本发明原理框架示意图。
具体实施方式
下面将结合实施例对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
实施例一
请参阅图1,本申请提供了基于云平台大数据端计算分析用统一管理***,包括云平台大数据端、初步分类端、数据划分端、数据质量提升端、数据完整度处理端以及数据库;
所述云平台大数据端输出端与初步分类端输入端电性连接,所述初步分类端输出端与数据划分端输入端电性连接,所述数据划分端输出端分别与数据质量提升端以及数据完整度处理端输入端电性连接,所述数据质量提升端以及数据完整度处理端输出端均与数据库输入端电性连接;
所述初步分类端,用于对云平台大数据端内部的大数据进行分类处理,根据数据的分类属性将大数据依次划分为结构化数据、半结构化数据以及非结构化数据,且三大分类属性数据依次管理存储于三大分区内,三大分区分别为结构分区、半结构分区以及非结构分区,结构分区对结构化数据进行存储,半结构分区对半结构化数据进行存储,非结构分区对非结构化数据进行存储;
所述数据划分端,对三大分区内部的数据再次进行划分,使数据划分为多组完整的段值数据,并将所划分的段值数据传输至后续处理端内,其中,段值数据包括实体数据、属性数据、记录数据以及字段值数据,其中完整的数据包括上述四种数据类型(具体的,完整的数据包括四组段值数据和无效数据);
所述数据完整度处理端,根据四组不同的段值数据,对多组不同数据的完整度进行处理分析,其中处理分析方式为:
获取四组不同段值数据的权重占比(权重占比=不同的段值数据容量/完整数据总容量),并依次将实体数据的权重占比标记为STi,将属性数据的权重占比标记为SXi,将记录数据的权重占比标记为JLi,将字段值数据的权重占比标记为ZDi
将四组不同段值数据的权重占比合并处理,得到无效数据占比,并标记为WXi,其中i代表不同的完整数据(无效数据占比=1-四组不同段值数据权重占比之和);
将无效数据占比WXi与预设值X1进行比对,当WXi≥X1时,代表完整数据完整度异常,并生成异常信号发送至外部终端,并将此完整数据标记为待处理完整度异常数据,此处X1取值为10%;
当WXi<X1时,代表完整数据完整度正常,并将此完整数据标记为待处理完整度正常数据;
提取待处理完整度异常数据内部的无效数据(无效数据为完整数据剔除四组不同段值数据所剩余的数据),提取无效数据内部的重复数据,并将重复数据采用替换标记为Ak,其中k代表不同的重复数据,具体的,一串无效数据为:1、2、3、2、4、5、2(具体的,参数2可能代表一大串的重复数据),则无效数据经过替换后表现形式为:1、A1、3、A1、4、5、A1,此时标记A1只是一种表现形式,使用A1对参数2进行替换,此时A1与数据2相匹配,替换完成后,将对应的重复数据与对应的替换标记Ak进行捆绑生成匹配表,并将匹配表传输至数据库内进行存储;
将替换后的无效数据传输至数据库内存储,并将替换后的无效数据与完整数据采用对应的捆绑标记,便于后期通过捆绑标记将无效数据与完整数据进行合并。
所述数据质量提升端,根据完整数据以及内部所划分的四组不同的段值数据,对完整数据进行压缩,提升整个完整数据的数据质量,其中具体处理方式如下:
S1、将完整数据划分为实体数据、属性数据、记录数据以及字段值数据时,以实体数据为源数据,以属性数据、记录数据以及字段值数据为配数据,配数据从源数据内进行提取;
S2、在配数据从源数据提取间隔处,设定间隔下标标记,具体的,源数据表现形式为:1、2、3,此时配数据为2,则提取配数据2,并对配数据2进行间隔下标标记,标记后配数据2的整体表现形式为:123,此时配数据提取后的源数据表现形式为:12、*、23;
S3、将配数据提取完毕后,根据配数据的属性,依次划分为属性数据、记录数据以及字段值数据,并将实体数据为源数据,以属性数据、记录数据以及字段值数据为配数据(具体的,此处将源数据作为一个数据提取模板,如步骤S2所示的表现形式,将多种不同的配数据从源数据内进行提取,并在提取位置处采用*进行替换,*代表此处存在数据,但数据已经被提取出去了),采用对应的捆绑标记,并将四组段值数据进行压缩,输送至数据库内进行存储,数据库内设置有五组存储区间,五组存储区间分别对实体数据压缩包、属性数据压缩包、记录数据压缩包以及字段值数据压缩包和无效数据压缩包进行存储;
S4、需要对原始的完整数据进行提取时,根据对应的捆绑标记,依次提取实体数据压缩包、属性数据压缩包、记录数据压缩包以及字段值数据压缩包,根据对应的间隔下标标记,将四组段值数据进行整合为待处理完整度正常数据或待处理完整度异常数据,其中无效数据由待处理完整度异常数据中剔除而出,在剔除过程中,同时采用步骤S2中的间隔标记形式对所提取的无效数据进行标记,当完整数据整合完毕后,通过捆绑标记,查看数据库内是否存在无效数据,若存在无效数据,根据对应的间隔标记,提取无效数据,并将无效数据整合至待处理完整度异常数据内形成原始的完整数据(具体的,存在无效数据的情况为,当无效数据占比超出10%时,将无效数据剔除后,则代表经过处理后的完整数据不够完整,则需要将完整数据补齐)。
通过数据质量提升端对完整数据进行质量提升时,便需将四组不同的段值数据从完整数据内提取,并采取压缩的方式,便可压缩整个完整数据的容量,以此提升整个完整数据的整体质量,同时,将对应的完整数据进行拆分,也增强了整体数据加密效果,从而便可提升统一管理效果。
实施例二
本实施例在具体实施过程中,与实施例一相比,具体区别在于,X1取值为7%,其余参数数据均与实施例一一致;
实验
将实施例一与实施例二内部多组参数散布于实验中进行体验,得到实验过程中产生的样本数据,样本数据包括操作用户给出的评价分,具体参数如下表所示:
Figure DEST_PATH_IMAGE001
由表中数据可知,实施例二的数据优于实施例一的数据,外部操作人员可根据个人需求选择对应的实施例。
上述公式中的部分数据均是去除量纲取其数值计算,公式是由采集的大量数据经过软件模拟得到最接近真实情况的一个公式;公式中的预设参数和预设阈值由本领域的技术人员根据实际情况设定或者通过大量数据模拟获得。
本发明的工作原理:根据大数据内各种各样的数据属性,将多组不同的数据划分为结构化数据、半结构化数据以及非结构化数据,并采用对应的分区进行存储,再对分类后的数据进行再处理,预先对完整数据的完整度进行分析处理,将数据划分为四组不同的段值数据,并获取段值数据的权重占比,根据权重占比数据获取无效数据占比,根据无效数据占比数值查看数据的完整度是否正常,提取处于异常完整数据内部的无效数据,并提取无效数据的重复数据,将重复数据采用替换标记进行替换,将替换后的重复数据进行存储,便降低完整数据的整体存储量,提升存储管理效果;
再对完整数据内部的四组段值数据进行分类压缩存储,在存储时,便再一步降低了存储容量,提升整个完整数据的整体质量,提升统一管理的效果,将四组段值数据从完整数据内拆分时,对拆分点所对应的拆分数据进行间隔下标标记,根据间隔下标标记,在进行数据整合时,不会造成数据混乱,同时保证四组段值数据可快速组合成完整数据。
以上实施例仅用以说明本发明的技术方法而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方法进行修改或等同替换,而不脱离本发明技术方法的精神和范围。

Claims (3)

1.基于云平台大数据计算分析用统一管理***,其特征在于,包括:
初步分类端,用于对云平台大数据端内部的大数据进行分类处理,根据数据的分类属性将大数据依次划分为结构化数据、半结构化数据以及非结构化数据,并将三大分类属性数据依次管理存储于三大分区内;
数据划分端,对三大分区内部的数据再次进行划分,使数据划分为多组完整的段值数据,段值数据包括实体数据、属性数据、记录数据以及字段值数据;
数据完整度处理端,对完整数据的完整度进行分析处理,通过获取段值数据的权重占比,根据权重占比数据获取无效数据占比,根据无效数据占比数值查看数据的完整度是否正常,并对处于异常完整数据内部的无效数据进行替换标记处理,降低无效数据的整体存储量;
数据质量提升端,根据完整数据以及内部所划分的四组不同的段值数据,对完整数据进行压缩处理,提升整个完整数据的数据质量;
所述数据完整度处理端对完整数据的完整度进行分析处理为:
获取四组不同段值数据的权重占比,权重占比=不同的段值数据容量/完整数据总容量,并依次将实体数据的权重占比标记为STi,将属性数据的权重占比标记为SXi,将记录数据的权重占比标记为JLi,将字段值数据的权重占比标记为ZDi
将四组不同段值数据的权重占比合并处理,得到无效数据占比,并标记为WXi,其中i代表不同的完整数据,无效数据占比=1-四组不同段值数据权重占比之和;
将无效数据占比WXi与预设值X1进行比对,当WXi≥X1时,代表完整数据完整度异常,并生成异常信号发送至外部终端,并将此完整数据标记为待处理完整度异常数据;
当WXi<X1时,代表完整数据完整度正常,并将此完整数据标记为待处理完整度正常数据;
所述数据完整度处理端提取待处理完整度异常数据内部的无效数据,提取无效数据内部的重复数据,并将重复数据采用替换标记为Ak,其中k代表不同的重复数据,具体的,一串无效数据为:1、2、3、2、4、5、2,则无效数据经过替换后表现形式为:1、A1、3、A1、4、5、A1,此时A1与数据2相匹配,将对应的重复数据与对应的替换标记Ak进行捆绑生成匹配表,并将匹配表传输至数据库内进行存储;
将替换后的无效数据传输至数据库内存储,并将替换后的无效数据与完整数据采用对应的捆绑标记。
2.根据权利要求1所述的基于云平台大数据计算分析用统一管理***,其特征在于,所述数据质量提升端对完整数据进行压缩处理的方式为:
S1、将完整数据划分为实体数据、属性数据、记录数据以及字段值数据时,以实体数据为源数据,以属性数据、记录数据以及字段值数据为配数据,配数据从源数据内进行提取;
S2、在配数据从源数据提取间隔处,设定间隔下标标记,具体的,源数据表现形式为:1、2、3,此时配数据为2,则提取配数据2,并对配数据2进行间隔下标标记,标记后配数据2的整体表现形式为:123,此时配数据提取后的源数据表现形式为:12、*、23;
S3、将配数据提取完毕后,根据配数据的属性,依次划分为属性数据、记录数据以及字段值数据,并将实体数据为源数据,以属性数据、记录数据以及字段值数据为配数据采用对应的捆绑标记,并将四组段值数据进行压缩,输送至数据库内进行存储;
S4、对完整数据进行提取,根据对应的捆绑标记,依次提取实体数据压缩包、属性数据压缩包、记录数据压缩包以及字段值数据压缩包,根据对应的间隔下标标记,将四组段值数据进行整合为待处理完整度正常数据或待处理完整度异常数据,其中无效数据由待处理完整度异常数据剔除而出,在剔除过程中,同时采用步骤S2中的间隔标记形式对所提取的无效数据进行标记,当完整数据整合完毕后,通过捆绑标记,查看数据库内是否存在无效数据,若存在无效数据,根据对应的间隔标记,提取无效数据,并将无效数据整合至待处理完整度异常数据内形成完整数据。
3.根据权利要求2所述的基于云平台大数据计算分析用统一管理***,其特征在于,还包括数据库,且数据库内设置有五组存储区间,五组存储区间分别对实体数据压缩包、属性数据压缩包、记录数据压缩包以及字段值数据压缩包和无效数据压缩包进行存储。
CN202210807819.3A 2022-07-11 2022-07-11 基于云平台大数据计算分析用统一管理*** Active CN114942923B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210807819.3A CN114942923B (zh) 2022-07-11 2022-07-11 基于云平台大数据计算分析用统一管理***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210807819.3A CN114942923B (zh) 2022-07-11 2022-07-11 基于云平台大数据计算分析用统一管理***

Publications (2)

Publication Number Publication Date
CN114942923A CN114942923A (zh) 2022-08-26
CN114942923B true CN114942923B (zh) 2022-10-21

Family

ID=82910639

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210807819.3A Active CN114942923B (zh) 2022-07-11 2022-07-11 基于云平台大数据计算分析用统一管理***

Country Status (1)

Country Link
CN (1) CN114942923B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115248578B (zh) * 2022-09-22 2022-12-30 南京旭上数控技术有限公司 一种工业设备数据采集方法
CN115857826B (zh) * 2022-12-27 2023-09-22 铭派技术开发有限公司 一种船舶工控软件数据存储显示***
CN116401239A (zh) * 2023-04-12 2023-07-07 广州绿石碳科技股份有限公司 一种碳排放数据存储分析平台的数据提取方法及***

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109240661A (zh) * 2018-08-02 2019-01-18 武汉烽火众智数字技术有限责任公司 一种代码生成方法及装置
CN109416681A (zh) * 2016-08-29 2019-03-01 国际商业机器公司 使用幽灵指纹进行工作负载优化的重复数据删除
WO2020123710A1 (en) * 2018-12-13 2020-06-18 Ascava, Inc. Efficient retrieval of data that has been losslessly reduced using a prime data sieve
CN111507053A (zh) * 2020-04-30 2020-08-07 深圳探科技术有限公司 集成电路仿真中数据通信的方法、模块、存储介质及***
WO2021231255A1 (en) * 2020-05-11 2021-11-18 Ascava, Inc. Exploiting locality of prime data for efficient retrieval of data that has been losslessly reduced using a prime data sieve

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9275086B2 (en) * 2012-07-20 2016-03-01 Commvault Systems, Inc. Systems and methods for database archiving
CN108875977B (zh) * 2018-07-06 2021-06-29 上海财经大学 基于区块链的多机构维修管理***
EP3853742A1 (en) * 2018-09-21 2021-07-28 Albert Haag System and method for increasing computing efficiency, system and method for compressing a data base, system and method for querying a data base and database
WO2020263676A1 (en) * 2019-06-24 2020-12-30 Oracle International Corporation Regular expression generation using span highlighting alignment
US20200409972A1 (en) * 2019-06-25 2020-12-31 Periscope Inc. Method for synchronization of repository data using data criteria
CN111597178A (zh) * 2020-05-18 2020-08-28 山东浪潮通软信息科技有限公司 一种清洗重复数据的方法、***、设备及介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109416681A (zh) * 2016-08-29 2019-03-01 国际商业机器公司 使用幽灵指纹进行工作负载优化的重复数据删除
CN109240661A (zh) * 2018-08-02 2019-01-18 武汉烽火众智数字技术有限责任公司 一种代码生成方法及装置
WO2020123710A1 (en) * 2018-12-13 2020-06-18 Ascava, Inc. Efficient retrieval of data that has been losslessly reduced using a prime data sieve
CN111507053A (zh) * 2020-04-30 2020-08-07 深圳探科技术有限公司 集成电路仿真中数据通信的方法、模块、存储介质及***
WO2021231255A1 (en) * 2020-05-11 2021-11-18 Ascava, Inc. Exploiting locality of prime data for efficient retrieval of data that has been losslessly reduced using a prime data sieve

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于网络聚类与自适应概率的数据库缓冲区替换;贺红艳 等;《沈阳工业大学学报》;20171025;第40卷(第1期);65-69 *
基于邻接的单面基因组片段填充问题研究进展;李春良 等;《计算机应用与软件》;20190915;第38卷(第12期);1-6 *

Also Published As

Publication number Publication date
CN114942923A (zh) 2022-08-26

Similar Documents

Publication Publication Date Title
CN114942923B (zh) 基于云平台大数据计算分析用统一管理***
US11762882B2 (en) System and method for analysis and management of data distribution in a distributed database environment
CN109034993B (zh) 对账方法、设备、***及计算机可读存储介质
CN104331435B (zh) 一种基于Hadoop大数据平台的低影响高效率的海量数据抽取方法
CN112181955B (zh) 一种用于重载铁路综合大数据平台信息共享的数据规范治理方法
CN110389950B (zh) 一种快速运行的大数据清洗方法
CN111177360B (zh) 一种基于云上用户日志的自适应过滤方法及装置
CN113360554A (zh) 一种数据抽取、转换和加载etl的方法和设备
CN111079937A (zh) 一种快速建模的方法
CN111311190A (zh) 一种便于数据收集的实验数据管理方法
CN108073582B (zh) 一种计算框架选择方法和装置
CN113918532A (zh) 画像标签聚合方法、电子设备及存储介质
CN103810197A (zh) 一种基于Hadoop的数据处理方法及其***
CN111126957A (zh) 面向检察业务协同流程的检务世系数据采集与集成方法
CN104954351B (zh) 数据检测方法和装置
CN108280224B (zh) 万级维度数据生成方法、装置、设备以及存储介质
CN101866355A (zh) 基于云计算的社会网络划分方法及***
CN111221967A (zh) 一种基于区块链架构的语言数据分类存储***
CN111522705A (zh) 一种工业大数据智能运维解决方法
EP3828712A1 (en) Data parsing method and device
CN109800271A (zh) 一种基于大数据的信息采集方法
CN106227857B (zh) 数据推送和加载方法和装置
CN115314300A (zh) 飞行训练模拟机数据分析***
KR102268549B1 (ko) 빅데이터 플랫폼 관리 방법 및 장치
CN114331665A (zh) 用于预定申请人的信用判定模型的训练方法、装置和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant