CN111737214A - 计算机冗余数据的数据优化处理***及方法 - Google Patents
计算机冗余数据的数据优化处理***及方法 Download PDFInfo
- Publication number
- CN111737214A CN111737214A CN202010605529.1A CN202010605529A CN111737214A CN 111737214 A CN111737214 A CN 111737214A CN 202010605529 A CN202010605529 A CN 202010605529A CN 111737214 A CN111737214 A CN 111737214A
- Authority
- CN
- China
- Prior art keywords
- data
- image
- gray
- matrix
- cleaning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/17—Details of further file system functions
- G06F16/174—Redundancy elimination performed by the file system
- G06F16/1748—De-duplication implemented within the file system, e.g. based on file segments
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/11—File system administration, e.g. details of archiving or snapshots
- G06F16/116—Details of conversion of file system types or formats
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Image Processing (AREA)
Abstract
本发明计算机技术领域,具体涉及计算机冗余数据的数据优化处理***及方法。所述***包括:数据预处理单元,配置用于对冗余数据进行数据预处理,包括:数据清洗和数据标准化,得到预处理数据;数据转换单元,配置用于将预处理数据进行数据转换,首先将预处理数据转换为矩阵化的数值数据,再对矩阵化的数值数据转换为二值化的图像数据。其将数据转换为图像数据进行数据冗余消除处理,再通过图像拼接融合的方式,将不同数据之间的相同数据部分进行冗余消除,大幅度降低了数据冗余度,同时具有数据安全性高的优点。
Description
技术领域
本发明属于计算机技术领域,具体涉及计算机冗余数据的数据优化处理***及方法。
背景技术
数据冗余是指数据之间的重复,也可以说是同一数据存储在不同数据文件中的现象。可以说增加数据的独立性和减少数据冗余是企业范围信息资源管理和大规模信息***获得成功的前提条件。
数据冗余或者信息冗余是生产、生活所必然存在的行为,没有好与不好的总体倾向。数据冗余是指数据之间的重复,也可以说是同一数据存储在不同数据文件中的现象。可以说增加数据的独立性和减少数据冗余是企业范围信息资源管理和大规模信息***获得成功的前提条件。
专利号为:CN201110237373.7A的专利:数据冗余处理方法、装置和分布式存储***提供一种数据冗余处理方法、装置和分布式存储***。方法,包括:采用冗余算法生成待写入数据的M个切片数据和N个冗余片数据,所述M个切片数据和N个冗余片数据中任意损坏至多N个数据时,能够利用未损坏的数据恢复损坏的数据,其中M为大于1的自然数,N为不小于1的自然数;将所述M个切片数据和N个冗余片数据分别存储到位于至少两个存储节点上的对象中,其中,每个存储节点包含至少一个对象集,每个对象集包含至少一个对象。本发明实施例可以提高存储空间地利用率且降低了存储负载,另外可以支持不同的冗余算法,从而满足客户不同的可靠性需求,灵活性较高。
专利号为:CN201310499656.8A的专利:数据冗余处理方法、装置和分布式存储***。提供了一种数据冗余处理方法、装置和分布式存储***。所述装置包括数据分段模块、冗余数据生成模块和存储模块。所述方法为将写入数据进行等长切分,不足长度用二进制0填充,对切分的每个片段再等长切分为4个数据块,通过冗余算法计算出4个冗余数据块,将每个片段的8个数据块存储到至少4个存储节点上。所述分布式存储***利用所述装置或方法存储数据,并包括4个以上的存储节点。当一个片段的8个数据块中部分数据出现损坏时,可利用剩余数据块对损坏的数据进行恢复。本发明提高了存储空间的利用率,降低了存储节点的负载,节省了数据访问时间,且支持多种类型的冗余备份方式,灵活性较高。
综上所述,现有技术针对数据冗余的处理大豆是通过对数据本身进行拆分或者切片处理,这样处理的好处是可以降低数据中的一部分冗余。但相关数据之间的相同部分构成的数据冗余没有得到很好的处理,这样导依然存在较高的数据冗余度。
发明内容
有鉴于此,本发明的主要目的在于提供计算机冗余数据的数据优化处理***及方法,其将数据转换为图像数据进行数据冗余消除处理,再通过图像拼接融合的方式,将不同数据之间的相同数据部分进行冗余消除,大幅度降低了数据冗余度,同时具有数据安全性高的优点。
为达到上述目的,本发明的技术方案是这样实现的:
计算机冗余数据的数据优化处理***,所述***包括:数据预处理单元,配置用于对冗余数据进行数据预处理,包括:数据清洗和数据标准化,得到预处理数据;数据转换单元,配置用于将预处理数据进行数据转换,首先将预处理数据转换为矩阵化的数值数据,再对矩阵化的数值数据转换为二值化的图像数据;图像分析单元,配置用于对二值化的图像数据进行分析,判断各图像数据之间的相似区和相异区,将相似区的图像数据进行剔除,存储到另外的空间,保留相异区的图像数据;图像融合单元,配置用于将相异区的图像数据进行融合,得到融合后的数据,进行加密存储和/或传输。
进一步的,所述数据预处理单元包括:数据清洗单元,配置用于获取待清洗的冗余数据及其所有原始字段;对所述待清洗的冗余数据及其所有原始字段进行预处理,得到待清洗数据及其至少一个清洗字段;基于所述数据清洗规则对所述待清洗数据中的、每个所述清洗字段对应的数据进行清洗,得到清洗后的数据,其中,所述清洗后的数据包括每个所述清洗字段的清洗值;数据标准化单元,配置用于生成清洗后的数据的初始表,所述初始表中包括了每个所述清洗字段的清洗值;从所述初始表中提取所述初始数据的关键字段;获取所述初始表与标准表之间的映射关系;所述标准表中包括了标准字段;根据所述映射关系,将所述关键字段转换为标准字段;利用转换后的多个标准字段生成与所述初始表对应的标准化表。
进一步的,所述数据转换单元,将预处理数据进行数据转换,首先将预处理数据转换为矩阵化的数值数据,再对矩阵化的数值数据转换为二值化的图像数据的方法执行以下步骤:
步骤S1:将预处理数据转换为2进制数据,将2进制数据的每一位都填充到一个矩阵中的位置中;
步骤S2:将填充完的矩阵视为一张图像,基于预设的灰度值范围,对待矩阵进行图像灰度直方处理,分别获得在不同灰度值范围下的对应的灰度直方特性分布;
步骤S3:将得到的灰度直方特性分布,视为矩阵转化为的图像的数据。
进一步的,所述步骤S2:将填充完的矩阵视为一张图像,基于预设的灰度值范围,对待矩阵进行图像灰度直方处理,分别获得在不同灰度值范围下的对应的灰度直方特性分布的方法执行以下步骤:所述灰度直方图在提取特征之前,对每一张图像进行阈值分割,得到二值化图像BW,将图像BW进行一次开闭运算,得到分割后的图像X;具体方法如下:获取多维灰度特征:多维灰度变化特征: 式中,g(x,y)为像素点(x,y)的灰度值,N表示分割图像X中等于1的像素总数,η表示图像分层数,i表示阈值分割的分割上限值,f(x)表示拟合直线的斜率函数;再得到分割后的图像X后,在0~90的灰度范围内,针对分割后的图像X进行灰度直方图统计分析,得到灰度直方特性分布;在90~171的灰度范围内,针对分割后的图像X进行灰度直方图统计分析,得到灰度直方特性分布;在172~255的灰度范围内,针对分割后的图像X进行灰度直方图统计分析,得到灰度直方特性分布。
进一步的,所述图像融合单元,将相异区的图像数据进行融合的方法执行以下步骤:将相异区的图像数据通过插值的方式,合并到一个矩阵中,将合并完的矩阵视为融合后的图像。
一种计算机冗余数据的数据优化处理方法,所述方法执行以下步骤:
步骤1:对冗余数据进行数据预处理,包括:数据清洗和数据标准化,得到预处理数据;
步骤2:将预处理数据进行数据转换,首先将预处理数据转换为矩阵化的数值数据,再对矩阵化的数值数据转换为二值化的图像数据;
步骤3:对二值化的图像数据进行分析,判断各图像数据之间的相似区和相异区,将相似区的图像数据进行剔除,存储到另外的空间,保留相异区的图像数据;
步骤4:将相异区的图像数据进行融合,得到融合后的数据,进行加密存储和/或传输。
进一步的,所述步骤1包括:
步骤1.1:获取待清洗的冗余数据及其所有原始字段;对所述待清洗的冗余数据及其所有原始字段进行预处理,得到待清洗数据及其至少一个清洗字段;基于所述数据清洗规则对所述待清洗数据中的、每个所述清洗字段对应的数据进行清洗,得到清洗后的数据,其中,所述清洗后的数据包括每个所述清洗字段的清洗值:
步骤1.2:生成清洗后的数据的初始表,所述初始表中包括了每个所述清洗字段的清洗值;从所述初始表中提取所述初始数据的关键字段;获取所述初始表与标准表之间的映射关系;所述标准表中包括了标准字段;根据所述映射关系,将所述关键字段转换为标准字段;利用转换后的多个标准字段生成与所述初始表对应的标准化表。
进一步的,所述步骤2:将预处理数据进行数据转换,首先将预处理数据转换为矩阵化的数值数据,再对矩阵化的数值数据转换为二值化的图像数据的方法执行以下步骤:
步骤S1:将预处理数据转换为2进制数据,将2进制数据的每一位都填充到一个矩阵中的位置中;
步骤S2:将填充完的矩阵视为一张图像,基于预设的灰度值范围,对待矩阵进行图像灰度直方处理,分别获得在不同灰度值范围下的对应的灰度直方特性分布;
步骤S3:将得到的灰度直方特性分布,视为矩阵转化为的图像的数据。
进一步的,所述,所述步骤S2:将填充完的矩阵视为一张图像,基于预设的灰度值范围,对待矩阵进行图像灰度直方处理,分别获得在不同灰度值范围下的对应的灰度直方特性分布的方法执行以下步骤:所述灰度直方图在提取特征之前,对每一张图像进行阈值分割,得到二值化图像BW,将图像BW进行一次开闭运算,得到分割后的图像X;具体方法如下:获取多维灰度特征:多维灰度变化特征: 式中,g(x,y)为像素点(x,y)的灰度值,N表示分割图像X中等于1的像素总数,η表示图像分层数,i表示阈值分割的分割上限值,f(x)表示拟合直线的斜率函数;再得到分割后的图像X后,在0~90的灰度范围内,针对分割后的图像X进行灰度直方图统计分析,得到灰度直方特性分布;在90~171的灰度范围内,针对分割后的图像X进行灰度直方图统计分析,得到灰度直方特性分布;在172~255的灰度范围内,针对分割后的图像X进行灰度直方图统计分析,得到灰度直方特性分布。
进一步的,所述步骤4中,将融合后的数据,进行加密存储和/或传输的方法执行以下步骤:
步骤4.3:将字母表中顺序对应于X矩阵中的P参数和Q参数的数值的字母作为最终的加密后数据,对加密后数据进行存储和/或传输。
本发明的计算机冗余数据的数据优化处理***及方法,具有如下有益效果:本发明通过将数据转换为图像数据进行数据冗余消除处理,再通过图像拼接融合的方式,将不同数据之间的相同数据部分进行冗余消除,大幅度降低了数据冗余度,同时具有数据安全性高的优点。主要通过以下过程实现:1.将数字的数据转化为图像数据:将预处理数据转换为矩阵化的数值数据,再对矩阵化的数值数据转换为二值化的图像数据,这样进行后续的数据去冗余化时,处理效率更高;因为单纯的数值数据进行比较,只有将数据从头到尾一个个进行比较,常用的冒泡法就是如此,这样处理的效率非常低下;而将数据转换为图像数据后,其可以从整体上每个矩阵单元中的数据并行进行比较,大大提升处理的效率。2.图像融合来消减数据冗余度:通过判断各图像数据之间的相似区和相异区,将相似区的图像数据进行剔除,存储到另外的空间,保留相异区的图像数据,再对相异区的图像数据进行融合,最大程度上消除了数据冗余度。
附图说明
图1为本发明实施例提供的计算机冗余数据的数据优化处理***的***结构示意图;
图2为本发明实施例提供的计算机冗余数据的数据优化处理方法的方法流程示意图;
图3为本发明实施例提供的计算机冗余数据的数据优化处理方法的步骤2的流程示意图;
图4为本发明实施例提供的计算机冗余数据的数据优化处理***及方法的图像融合的流程示意图;
图5为本发明实施例提供的计算机冗余数据的数据优化处理***及方法的图像的相似区和相异区的结构示意图;
图6为本发明实施例提供的计算机冗余数据的数据优化处理***及方法的数据冗余度随着数据处理次数的变化示意图与现有技术的对比实验效果示意图。
具体实施方式
下面结合附图及本发明的实施例对本发明的方法作进一步详细的说明。
实施例1
如图1所示,计算机冗余数据的数据优化处理***,所述***包括:数据预处理单元,配置用于对冗余数据进行数据预处理,包括:数据清洗和数据标准化,得到预处理数据;数据转换单元,配置用于将预处理数据进行数据转换,首先将预处理数据转换为矩阵化的数值数据,再对矩阵化的数值数据转换为二值化的图像数据;图像分析单元,配置用于对二值化的图像数据进行分析,判断各图像数据之间的相似区和相异区,将相似区的图像数据进行剔除,存储到另外的空间,保留相异区的图像数据;图像融合单元,配置用于将相异区的图像数据进行融合,得到融合后的数据,进行加密存储和/或传输。
参考图6,采用上述技术方案,本发明通过将数据转换为图像数据进行数据冗余消除处理,再通过图像拼接融合的方式,将不同数据之间的相同数据部分进行冗余消除,大幅度降低了数据冗余度,同时具有数据安全性高的优点。主要通过以下过程实现:
将数字的数据转化为图像数据:将预处理数据转换为矩阵化的数值数据,再对矩阵化的数值数据转换为二值化的图像数据,这样进行后续的数据去冗余化时,处理效率更高;因为单纯的数值数据进行比较,只有将数据从头到尾一个个进行比较,常用的冒泡法就是如此,这样处理的效率非常低下;而将数据转换为图像数据后,其可以从整体上每个矩阵单元中的数据并行进行比较,大大提升处理的效率。
参考图4和图5,图像融合来消减数据冗余度:通过判断各图像数据之间的相似区和相异区,将相似区的图像数据进行剔除,存储到另外的空间,保留相异区的图像数据,再对相异区的图像数据进行融合,最大程度上消除了数据冗余度。
实施例2
在上一实施例的基础上,所述数据预处理单元包括:数据清洗单元,配置用于获取待清洗的冗余数据及其所有原始字段;对所述待清洗的冗余数据及其所有原始字段进行预处理,得到待清洗数据及其至少一个清洗字段;基于所述数据清洗规则对所述待清洗数据中的、每个所述清洗字段对应的数据进行清洗,得到清洗后的数据,其中,所述清洗后的数据包括每个所述清洗字段的清洗值;数据标准化单元,配置用于生成清洗后的数据的初始表,所述初始表中包括了每个所述清洗字段的清洗值;从所述初始表中提取所述初始数据的关键字段;获取所述初始表与标准表之间的映射关系;所述标准表中包括了标准字段;根据所述映射关系,将所述关键字段转换为标准字段;利用转换后的多个标准字段生成与所述初始表对应的标准化表。
具体的,数据清洗从名字上也看的出就是把“脏”的“洗掉”,指发现并纠正数据文件中可识别的错误的最后一道程序,包括检查数据一致性,处理无效值和缺失值等。因为数据仓库中的数据是面向某一主题的数据的集合,这些数据从多个业务***中抽取而来而且包含历史数据,这样就避免不了有的数据是错误数据、有的数据相互之间有冲突,这些错误的或有冲突的数据显然是我们不想要的,称为“脏数据”。我们要按照一定的规则把“脏数据”“洗掉”,这就是数据清洗。而数据清洗的任务是过滤那些不符合要求的数据,将过滤的结果交给业务主管部门,确认是否过滤掉还是由业务单位修正之后再进行抽取。不符合要求的数据主要是有不完整的数据、错误的数据、重复的数据三大类。数据清洗是与问卷审核不同,录入后的数据清理一般是由计算机而不是人工完成。
一致性检查(consistency check)是根据每个变量的合理取值范围和相互关系,检查数据是否合乎要求,发现超出正常范围、逻辑上不合理或者相互矛盾的数据。例如,用1-7级量表测量的变量出现了0值,体重出现了负数,都应视为超出正常值域范围。SPSS、SAS、和Excel等计算机软件都能够根据定义的取值范围,自动识别每个超出范围的变量值。具有逻辑上不一致性的答案可能以多种形式出现:例如,许多调查对象说自己开车上班,又报告没有汽车;或者调查对象报告自己是某品牌的重度购买者和使用者,但同时又在熟悉程度量表上给了很低的分值。发现不一致时,要列出问卷序号、记录序号、变量名称、错误类别等,便于进一步核对和纠正。
由于调查、编码和录入误差,数据中可能存在一些无效值和缺失值,需要给予适当的处理。常用的处理方法有:估算,整例删除,变量删除和成对删除。
实施例3
在上一实施例的基础上,所述数据转换单元,将预处理数据进行数据转换,首先将预处理数据转换为矩阵化的数值数据,再对矩阵化的数值数据转换为二值化的图像数据的方法执行以下步骤:
步骤S1:将预处理数据转换为2进制数据,将2进制数据的每一位都填充到一个矩阵中的位置中;
步骤S2:将填充完的矩阵视为一张图像,基于预设的灰度值范围,对待矩阵进行图像灰度直方处理,分别获得在不同灰度值范围下的对应的灰度直方特性分布;
步骤S3:将得到的灰度直方特性分布,视为矩阵转化为的图像的数据。
具体的,直方图(Histogram),又称质量分布图,是一种统计报告图,由一系列高度不等的纵向条纹或线段表示数据分布的情况。一般用横轴表示数据类型,纵轴表示分布情况。
直方图是数值数据分布的精确图形表示。这是一个连续变量(定量变量)的概率分布的估计,并且被卡尔·皮尔逊(Karl Pearson)首先引入。它是一种条形图。为了构建直方图,第一步是将值的范围分段,即将整个值的范围分成一系列间隔,然后计算每个间隔中有多少值。这些值通常被指定为连续的,不重叠的变量间隔。间隔必须相邻,并且通常是(但不是必须的)相等的大小。
实施例4
在上一实施例的基础上,所述步骤S2:将填充完的矩阵视为一张图像,基于预设的灰度值范围,对待矩阵进行图像灰度直方处理,分别获得在不同灰度值范围下的对应的灰度直方特性分布的方法执行以下步骤:所述灰度直方图在提取特征之前,对每一张图像进行阈值分割,得到二值化图像BW,将图像BW进行一次开闭运算,得到分割后的图像X;具体方法如下:获取多维灰度特征:多维灰度变化特征:式中,g(x,y)为像素点(x,y)的灰度值,N表示分割图像X中等于1的像素总数,η表示图像分层数,i表示阈值分割的分割上限值,f(x)表示拟合直线的斜率函数;再得到分割后的图像X后,在0~90的灰度范围内,针对分割后的图像X进行灰度直方图统计分析,得到灰度直方特性分布;在90~171的灰度范围内,针对分割后的图像X进行灰度直方图统计分析,得到灰度直方特性分布;在172~255的灰度范围内,针对分割后的图像X进行灰度直方图统计分析,得到灰度直方特性分布。
具体的,阈值分割法是一种基于区域的图像分割技术,原理是把图像象素点分为若干类。图像阈值化分割是一种传统的最常用的图像分割方法,因其实现简单、计算量小、性能较稳定而成为图像分割中最基本和应用最广泛的分割技术。它特别适用于目标和背景占据不同灰度级范围的图像。它不仅可以极大的压缩数据量,而且也大大简化了分析和处理步骤,因此在很多情况下,是进行图像分析、特征提取与模式识别之前的必要的图像预处理过程。图像阈值化的目的是要按照灰度级,对像素集合进行一个划分,得到的每个子集形成一个与现实景物相对应的区域,各个区域内部具有一致的属性,而相邻区域不具有这种一致属性。这样的划分可以通过从灰度级出发选取一个或多个阈值来实现。
实施例5
在上一实施例的基础上,所述图像融合单元,将相异区的图像数据进行融合的方法执行以下步骤:将相异区的图像数据通过插值的方式,合并到一个矩阵中,将合并完的矩阵视为融合后的图像。
实施例6
如图2所示,一种计算机冗余数据的数据优化处理方法,所述方法执行以下步骤:
步骤1:对冗余数据进行数据预处理,包括:数据清洗和数据标准化,得到预处理数据;
步骤2:将预处理数据进行数据转换,首先将预处理数据转换为矩阵化的数值数据,再对矩阵化的数值数据转换为二值化的图像数据;
步骤3:对二值化的图像数据进行分析,判断各图像数据之间的相似区和相异区,将相似区的图像数据进行剔除,存储到另外的空间,保留相异区的图像数据;
步骤4:将相异区的图像数据进行融合,得到融合后的数据,进行加密存储和/或传输。
实施例7
在上一实施例的基础上,所述步骤1包括:
步骤1.1:获取待清洗的冗余数据及其所有原始字段;对所述待清洗的冗余数据及其所有原始字段进行预处理,得到待清洗数据及其至少一个清洗字段;基于所述数据清洗规则对所述待清洗数据中的、每个所述清洗字段对应的数据进行清洗,得到清洗后的数据,其中,所述清洗后的数据包括每个所述清洗字段的清洗值:
步骤1.2:生成清洗后的数据的初始表,所述初始表中包括了每个所述清洗字段的清洗值;从所述初始表中提取所述初始数据的关键字段;获取所述初始表与标准表之间的映射关系;所述标准表中包括了标准字段;根据所述映射关系,将所述关键字段转换为标准字段;利用转换后的多个标准字段生成与所述初始表对应的标准化表。
实施例8
如图3所示,在上一实施例的基础上,所述步骤2:将预处理数据进行数据转换,首先将预处理数据转换为矩阵化的数值数据,再对矩阵化的数值数据转换为二值化的图像数据的方法执行以下步骤:
步骤S1:将预处理数据转换为2进制数据,将2进制数据的每一位都填充到一个矩阵中的位置中;
步骤S2:将填充完的矩阵视为一张图像,基于预设的灰度值范围,对待矩阵进行图像灰度直方处理,分别获得在不同灰度值范围下的对应的灰度直方特性分布;
步骤S3:将得到的灰度直方特性分布,视为矩阵转化为的图像的数据。
实施例9
在上一实施例的基础上,所述,所述步骤S2:将填充完的矩阵视为一张图像,基于预设的灰度值范围,对待矩阵进行图像灰度直方处理,分别获得在不同灰度值范围下的对应的灰度直方特性分布的方法执行以下步骤:所述灰度直方图在提取特征之前,对每一张图像进行阈值分割,得到二值化图像BW,将图像BW进行一次开闭运算,得到分割后的图像X;具体方法如下:获取多维灰度特征:多维灰度变化特征:式中,g(x,y)为像素点(x,y)的灰度值,N表示分割图像X中等于1的像素总数,η表示图像分层数,i表示阈值分割的分割上限值,f(x)表示拟合直线的斜率函数;再得到分割后的图像X后,在0~90的灰度范围内,针对分割后的图像X进行灰度直方图统计分析,得到灰度直方特性分布;在90~171的灰度范围内,针对分割后的图像X进行灰度直方图统计分析,得到灰度直方特性分布;在172~255的灰度范围内,针对分割后的图像X进行灰度直方图统计分析,得到灰度直方特性分布。
实施例10
在上一实施例的基础上,所述步骤4中,将融合后的数据,进行加密存储和/或传输的方法执行以下步骤:
步骤4.3:将字母表中顺序对应于X矩阵中的P参数和Q参数的数值的字母作为最终的加密后数据,对加密后数据进行存储和/或传输。
所属技术领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的***的具体工作过程及有关说明,可以参考前述方法实施例中的对应过程,在此不再赘述。
需要说明的是,上述实施例提供的***,仅以上述各功能模块的划分进行举例说明,在实际应用中,可以根据需要而将上述功能分配由不同的功能模块来完成,即将本发明实施例中的模块或者步骤再分解或者组合,例如,上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块,以完成以上描述的全部或者部分功能。对于本发明实施例中涉及的模块、步骤的名称,仅仅是为了区分各个模块或者步骤,不视为对本发明的不当限定。
所属技术领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的存储装置、处理装置的具体工作过程及有关说明,可以参考前述方法实施例中的对应过程,在此不再赘述。
本领域技术人员应该能够意识到,结合本文中所公开的实施例描述的各示例的模块、方法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,软件模块、方法步骤对应的程序可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。为了清楚地说明电子硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
术语“第一”、“第二”等是用于区别类似的对象,而不是用于描述或表示特定的顺序或先后次序。
术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素,而且还包括没有明确列出的其它要素,或者还包括这些过程、方法、物品或者设备/装置所固有的要素。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征作出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。
以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。
Claims (10)
1.计算机冗余数据的数据优化处理***,其特征在于,所述***包括:数据预处理单元,配置用于对冗余数据进行数据预处理,包括:数据清洗和数据标准化,得到预处理数据;数据转换单元,配置用于将预处理数据进行数据转换,首先将预处理数据转换为矩阵化的数值数据,再对矩阵化的数值数据转换为二值化的图像数据;图像分析单元,配置用于对二值化的图像数据进行分析,判断各图像数据之间的相似区和相异区,将相似区的图像数据进行剔除,存储到另外的空间,保留相异区的图像数据;图像融合单元,配置用于将相异区的图像数据进行融合,得到融合后的数据,进行加密存储和/或传输。
2.如权利要求1所述的***,其特征在于,所述数据预处理单元包括:数据清洗单元,配置用于获取待清洗的冗余数据及其所有原始字段;对所述待清洗的冗余数据及其所有原始字段进行预处理,得到待清洗数据及其至少一个清洗字段;基于所述数据清洗规则对所述待清洗数据中的、每个所述清洗字段对应的数据进行清洗,得到清洗后的数据,其中,所述清洗后的数据包括每个所述清洗字段的清洗值;数据标准化单元,配置用于生成清洗后的数据的初始表,所述初始表中包括了每个所述清洗字段的清洗值;从所述初始表中提取所述初始数据的关键字段;获取所述初始表与标准表之间的映射关系;所述标准表中包括了标准字段;根据所述映射关系,将所述关键字段转换为标准字段;利用转换后的多个标准字段生成与所述初始表对应的标准化表。
3.如权利要求2所述的***,其特征在于,所述数据转换单元,将预处理数据进行数据转换,首先将预处理数据转换为矩阵化的数值数据,再对矩阵化的数值数据转换为二值化的图像数据的方法执行以下步骤:
步骤S1:将预处理数据转换为2进制数据,将2进制数据的每一位都填充到一个矩阵中的位置中;
步骤S2:将填充完的矩阵视为一张图像,基于预设的灰度值范围,对待矩阵进行图像灰度直方处理,分别获得在不同灰度值范围下的对应的灰度直方特性分布;
步骤S3:将得到的灰度直方特性分布,视为矩阵转化为的图像的数据。
4.如权利要求3所述的***,其特征在于,所述步骤S2:将填充完的矩阵视为一张图像,基于预设的灰度值范围,对待矩阵进行图像灰度直方处理,分别获得在不同灰度值范围下的对应的灰度直方特性分布的方法执行以下步骤:所述灰度直方图在提取特征之前,对每一张图像进行阈值分割,得到二值化图像BW,将图像BW进行一次开闭运算,得到分割后的图像X;具体方法如下:获取多维灰度特征:多维灰度变化特征:式中,g(x,y)为像素点(x,y)的灰度值,N表示分割图像X中等于1的像素总数,η表示图像分层数,i表示阈值分割的分割上限值,f(x)表示拟合直线的斜率函数;再得到分割后的图像X后,在0~90的灰度范围内,针对分割后的图像X进行灰度直方图统计分析,得到灰度直方特性分布;在90~171的灰度范围内,针对分割后的图像X进行灰度直方图统计分析,得到灰度直方特性分布;在172~255的灰度范围内,针对分割后的图像X进行灰度直方图统计分析,得到灰度直方特性分布。
5.如权利要求4所述的***,其特征在于,所述图像融合单元,将相异区的图像数据进行融合的方法执行以下步骤:将相异区的图像数据通过插值的方式,合并到一个矩阵中,将合并完的矩阵视为融合后的图像。
6.一种基于权利要求1至5之一所述***的计算机冗余数据的数据优化处理方法,其特征在于,所述方法执行以下步骤:
步骤1:对冗余数据进行数据预处理,包括:数据清洗和数据标准化,得到预处理数据;
步骤2:将预处理数据进行数据转换,首先将预处理数据转换为矩阵化的数值数据,再对矩阵化的数值数据转换为二值化的图像数据;
步骤3:对二值化的图像数据进行分析,判断各图像数据之间的相似区和相异区,将相似区的图像数据进行剔除,存储到另外的空间,保留相异区的图像数据;
步骤4:将相异区的图像数据进行融合,得到融合后的数据,进行加密存储和/或传输。
7.如权利要求6所述的方法,其特征在于,所述步骤1包括:
步骤1.1:获取待清洗的冗余数据及其所有原始字段;对所述待清洗的冗余数据及其所有原始字段进行预处理,得到待清洗数据及其至少一个清洗字段;基于所述数据清洗规则对所述待清洗数据中的、每个所述清洗字段对应的数据进行清洗,得到清洗后的数据,其中,所述清洗后的数据包括每个所述清洗字段的清洗值:
步骤1.2:生成清洗后的数据的初始表,所述初始表中包括了每个所述清洗字段的清洗值;从所述初始表中提取所述初始数据的关键字段;获取所述初始表与标准表之间的映射关系;所述标准表中包括了标准字段;根据所述映射关系,将所述关键字段转换为标准字段;利用转换后的多个标准字段生成与所述初始表对应的标准化表。
8.如权利要求7所述的方法,其特征在于,所述步骤2:将预处理数据进行数据转换,首先将预处理数据转换为矩阵化的数值数据,再对矩阵化的数值数据转换为二值化的图像数据的方法执行以下步骤:
步骤S1:将预处理数据转换为2进制数据,将2进制数据的每一位都填充到一个矩阵中的位置中;
步骤S2:将填充完的矩阵视为一张图像,基于预设的灰度值范围,对待矩阵进行图像灰度直方处理,分别获得在不同灰度值范围下的对应的灰度直方特性分布;
步骤S3:将得到的灰度直方特性分布,视为矩阵转化为的图像的数据。
9.如权利要求8所述的方法,其特征在于,所述,所述步骤S2:将填充完的矩阵视为一张图像,基于预设的灰度值范围,对待矩阵进行图像灰度直方处理,分别获得在不同灰度值范围下的对应的灰度直方特性分布的方法执行以下步骤:所述灰度直方图在提取特征之前,对每一张图像进行阈值分割,得到二值化图像BW,将图像BW进行一次开闭运算,得到分割后的图像X;具体方法如下:获取多维灰度特征:多维灰度变化特征:式中,g(x,y)为像素点(x,y)的灰度值,N表示分割图像X中等于1的像素总数,η表示图像分层数,i表示阈值分割的分割上限值,f(x)表示拟合直线的斜率函数;再得到分割后的图像X后,在0~90的灰度范围内,针对分割后的图像X进行灰度直方图统计分析,得到灰度直方特性分布;在90~171的灰度范围内,针对分割后的图像X进行灰度直方图统计分析,得到灰度直方特性分布;在172~255的灰度范围内,针对分割后的图像X进行灰度直方图统计分析,得到灰度直方特性分布。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010605529.1A CN111737214A (zh) | 2020-06-29 | 2020-06-29 | 计算机冗余数据的数据优化处理***及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010605529.1A CN111737214A (zh) | 2020-06-29 | 2020-06-29 | 计算机冗余数据的数据优化处理***及方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111737214A true CN111737214A (zh) | 2020-10-02 |
Family
ID=72652197
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010605529.1A Withdrawn CN111737214A (zh) | 2020-06-29 | 2020-06-29 | 计算机冗余数据的数据优化处理***及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111737214A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112506880A (zh) * | 2020-12-18 | 2021-03-16 | 深圳智慧林网络科技有限公司 | 数据处理方法及相关设备 |
CN112613055A (zh) * | 2020-12-24 | 2021-04-06 | 山东鑫泰洋智能科技有限公司 | 基于分布式云服务器和数图转换的图像处理***及方法 |
-
2020
- 2020-06-29 CN CN202010605529.1A patent/CN111737214A/zh not_active Withdrawn
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112506880A (zh) * | 2020-12-18 | 2021-03-16 | 深圳智慧林网络科技有限公司 | 数据处理方法及相关设备 |
CN112613055A (zh) * | 2020-12-24 | 2021-04-06 | 山东鑫泰洋智能科技有限公司 | 基于分布式云服务器和数图转换的图像处理***及方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113010506B (zh) | 一种多源异构水环境大数据管理*** | |
CN111737214A (zh) | 计算机冗余数据的数据优化处理***及方法 | |
JPH01121988A (ja) | 接触文字の分離方法 | |
CN110471945B (zh) | 活跃数据的处理方法、***、计算机设备和存储介质 | |
EP4280088A1 (en) | Time series data trend feature extraction method based on dynamic grid division | |
CN113010505A (zh) | 一种水环境大数据清洗方法 | |
CN113723452A (zh) | 一种基于kpi聚类的大规模异常检测*** | |
CN110399278B (zh) | 基于数据中心异常监控的告警融合***及方法 | |
CN111597806A (zh) | 一种基于统计模型识别短信文本模版的方法、设备及介质 | |
CN113240213B (zh) | 基于神经网络和树模型的人员甄选方法、装置及设备 | |
CN112416920B (zh) | 一种面向mes的数据清洗方法及*** | |
McCulloch et al. | On comparing and selecting approaches to model interval-valued data as fuzzy sets | |
CN114064801A (zh) | 基于知识图谱的区块链数据监管方法、***及计算机设备 | |
CN113610629A (zh) | 一种从大规模特征集中筛选客户数据特征的方法及装置 | |
CN113393155A (zh) | 一种风险成因识别方法、装置及存储介质 | |
CN111382143A (zh) | 一种数据清洗方法、装置及计算机可读存储介质 | |
CN110957016A (zh) | 基于健康云管理平台的体检数据智能识别***及方法 | |
CN117349087B (zh) | 一种互联网信息数据备份方法 | |
CN114218234B (zh) | 一种原生图数据存储方法 | |
Al-Fayoumi | Enhanced Associative classification based on incremental mining Algorithm (E-ACIM) | |
CN116166472B (zh) | 一种用于存储数据的数据恢复方法及*** | |
CN117078466A (zh) | 地区建筑工程化卡片生成方法、装置、智能终端 | |
CN117639789A (zh) | 一种基于大数据的数据压缩存储方法和*** | |
CN112035484B (zh) | 一种故障录波数据的局部故障特征提取方法及*** | |
CN112037065B (zh) | 证券交易费用源数据表的处理方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20201002 |
|
WW01 | Invention patent application withdrawn after publication |