CN115168326A - Hadoop大数据平台分布式能源数据清洗方法及*** - Google Patents
Hadoop大数据平台分布式能源数据清洗方法及*** Download PDFInfo
- Publication number
- CN115168326A CN115168326A CN202210508315.1A CN202210508315A CN115168326A CN 115168326 A CN115168326 A CN 115168326A CN 202210508315 A CN202210508315 A CN 202210508315A CN 115168326 A CN115168326 A CN 115168326A
- Authority
- CN
- China
- Prior art keywords
- data
- distributed energy
- type
- hadoop big
- abnormal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/27—Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Quality & Reliability (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供了一种Hadoop大数据平台分布式能源数据清洗方法及***,以Hadoop大数据平台为依托,利用python的科学计算库进行数据的初步探索分析,利用第三方绘图库plot画图分析数据,查找异常数据类型、缺失值、数据集规模和各特征下的数据分布情况,然后通过Hadoop大数据平台使用聚类分析填充缺失值和处理异常值,对冗余数据进行去重,实现了分布式能源数据的快速和精准清洗。
Description
技术领域
本发明涉及电力数据处理技术领域,特别涉及一种Hadoop大数据平台分布式能源数据清洗方法及***。
背景技术
本部分的陈述仅仅是提供了与本发明相关的背景技术,并不必然构成现有技术。
光伏发电数字化技术不断发展进步,伴随而来的是大批量、高密度、多种类的各种数据。筛选清洗出有效数据、处理异常数据后得到的数据是后期数据分析的基础。光伏***实际运行过程中存在大量的异常值,产生这些异常值的原因包括数据传播信号噪声,传感器故障,通信,测量设备故障电站等,大量的异常数据降低了数据的有效性,筛选有效数据开展定性及定量分析,实现对分布式能源数据的有效清洗,采用Hadoop大数据平台建模的机器分析不仅可以极大的提升效率,而且可以有效避免人工分析的误差,得到清洗后的数据可以为后续大数据建模分析预测提供有力支撑。
发明人发现,现有的光伏发电数据的处理方法,没有针对分布式能源的数据特点进行清洗,对分布式能源数据的一致性检查、无效值和缺失值的处理能力较差,无法高效和准确的得到可用的光伏发电数据。
发明内容
为了解决现有技术的不足,本发明提供了一种Hadoop大数据平台分布式能源数据清洗方法及***,以Hadoop大数据平台为依托,利用python的科学计算库进行数据的初步探索分析,利用第三方绘图库plot画图分析数据,查找异常数据类型、缺失值、数据集规模和各特征下的数据分布情况,然后通过Hadoop大数据平台使用聚类分析填充缺失值和处理异常值,对冗余数据进行去重,实现了分布式能源数据的快速和精准清洗。
为了实现上述目的,本发明采用如下技术方案:
本发明第一方面提供了一种Hadoop大数据平台分布式能源数据清洗方法。
一种Hadoop大数据平台分布式能源数据清洗方法,其特征在于:
包括以下过程:
获取基于Hadoop大数据平台得到的分布式能源数据,将获取的分布式能源数据转换为第一特定数据类型;
利用第一特定数据类型的数据绘制离散图,找出异常数据,确定异常数据类型;
将第一特定数据类型的数据转换为第二特定数据类型,通过时间和设备编码构建唯一主键,清除第二特定数据类型的冗余数据;
判断去除冗余数据后的数据的时间序列是否完整,对时间序列不完整的数据通过相似日填充数据,时间序列完整的进行对数据的缺失值处理;
使用预设聚类算法对缺失值进行分析预测填充缺失值;
对得到的异常数据类型,判断数据属性的重要程度,对属性重要程度大于预设值的数据进行聚类,回填正常值后,得到清洗过后的分布式能源数据。
作为可选的一种实现方式,使用预设聚类算法对缺失值进行分析预测填充缺失值,包括:
使用用户的装机容量、时间与天气作为特征,使用预设聚类算法将数据进行分组,并求平均值存储到字典中,当数据异常或者缺失时,根据当前异常或缺失值的标签与各个组的相似度选取最优的值来填充异常数据。
作为可选的一种实现方式,预设聚类算法,包括:
输入数据为:存储样本数据的文本文件inputfile,存储样本数据的SequenceFile文件inputPath,存储质心数据的SequenceFile文件centerPath,存储聚类结果文件(SequenceFile文件)所处的路径clusterPath,类的数量k;
输出数据为:k个类;
读取inputPath,找出方差最小且利用最大最小距离法选出K个密度大且距离较远的领域的核心点作为初始质心,将质心数据写入centerPath;
当聚类终止条件不满足时,在Mapper阶段,读取inputPath,对于key所对应的点,遍历所有的质心,选择最近的质心,将该质心的编号作为键,该点的编号作为值传递给Reducer;
在Reducer阶段,将Mapper阶段传递过来的值根据键归并输出,结果写入clusterPath;
读取clusterPath,重新计算质心,将结果写入centerPath,循环上述过程直至聚类终止条件满足。
作为可选的一种实现方式,使用ETL工具kettle将获取的分布式能源数据转换为json类型。
作为可选的一种实现方式,使用python引用第三方绘图库plot绘制离散图。
作为可选的一种实现方式,使用python将json类型的数据转换为DataFrame类型,使用扩展程序库pandas进行数据清洗。
作为可选的一种实现方式,通过Hadoop大数据平台使用聚类分析填充缺失值和处理异常数据。
本发明第二方面提供了一种Hadoop大数据平台分布式能源数据清洗***。
一种Hadoop大数据平台分布式能源数据清洗***,包括:
数据获取模块,被配置为:获取基于Hadoop大数据平台得到的分布式能源数据,将获取的分布式能源数据转换为第一特定数据类型;
异常数据识别模块,被配置为:利用第一特定数据类型的数据绘制离散图,找出异常数据,确定异常数据类型;
冗余数据清洗模块,被配置为:将第一特定数据类型的数据转换为第二特定数据类型,通过时间和设备编码构建唯一主键,清除第二特定数据类型的冗余数据;
时间序列完整性判断模块,被配置为:判断去除冗余数据后的数据的时间序列是否完整,对时间序列不完整的数据通过相似日填充数据,时间序列完整的进行对数据的缺失值处理;
缺失值填充模块,被配置为:使用预设聚类算法对缺失值进行分析预测填充缺失值;
异常数据处理模块,被配置为:对得到的异常数据类型,判断数据属性的重要程度,对属性重要程度大于预设值的数据进行聚类,回填正常值后,得到清洗过后的分布式能源数据。
本发明第三方面提供了一种计算机可读存储介质,其上存储有程序,其特征在于,该程序被处理器执行时实现如本发明第一方面所述的Hadoop大数据平台分布式能源数据清洗方法中的步骤。
本发明第四方面提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的程序,所述处理器执行所述程序时实现如本发明第一方面所述的Hadoop大数据平台分布式能源数据清洗方法中的步骤。
与现有技术相比,本发明的有益效果是:
1、本发明所述的Hadoop大数据平台分布式能源数据清洗方法及***,以Hadoop大数据平台为依托,利用python的科学计算库进行数据的初步探索分析,利用第三方绘图库plot画图分析数据,查找异常数据类型、缺失值、数据集规模和各特征下的数据分布情况,然后通过Hadoop大数据平台使用聚类分析填充缺失值和处理异常值,对冗余数据进行去重,实现了分布式能源数据的快速和精准清洗。
2、本发明所述的Hadoop大数据平台分布式能源数据清洗方法及***,获取采集数据后,首先将原数据备份,通过ETL工具转换为可操作的数据类型例如json,通过python的画图分析,查找异常数据类型;再确认异常数据类型,例如重复数据、缺失值或异常数据等;冗余数据处理通过python转换数据类型为DataFrame类型,用时间+设备编码方式确定唯一主键,去除冗余数据;对缺失值的处理,依据数据属性的重要程度及缺失率的多少,重要程度低且缺失率少对数据进行简单填充,主要是对重要程度高且缺失率高的数据进行建模,通过聚类分析对数据进行预测填充;异常数据属性重要程度高且数据不在正常范围则建模聚类预测填充,当作缺失值处理,重要程度低且数据偏移量大进行删除处理;极大的提高了数据清洗的精度。
3、本发明所述的Hadoop大数据平台分布式能源数据清洗方法及***,使用建模的方法去处理属性重要程度高的异常数据,有效解决现有数据清洗对无效值和缺失值等处理能力较差的问题,相较于统计法,专家补全等方法,采用模型法可以实现一次训练好,高复用的成果;相较于传统的聚类算法使用k-means,其问题是初始质心的选择直接决定最终的聚类效果,无法处理噪音数据和异常点,针对k-means对异常点敏感的问题,本发明通过使用改进的K-中心点算法(K-Medoids),通过使用选择方差最小且利用最大最小距离法选出K个密度大且距离较远的领域的核心点作为初始点的选择,有效降低了初始点随机选择导致陷入局部极值的问题,充分考虑算法执行的并行化和分布化。聚类算法中将时间,光伏,天气状况特点作为数据标签,在通过历史数据聚类后填充字典,通过计算标签和词典各分组相似性,达到标准的对缺失值或无效值进行填充,可有效提升数据的可用性,降低噪声、缺失值和不一致数据等的影响,并单独针对分布式能源数据的特点进行清洗,通过得到清洗后的数据高可用,有效提升后续算法模型预测的准确度。
4、本发明所述的Hadoop大数据平台分布式能源数据清洗方法及***,构建的Hadoop大数据表结构,结合实际业务使用Hbase的预分区功能,预设了20个分区,每个分区20个g的存储空间,通过对用户所属台区编号进行Hash求余,把所得到的值确定为分区的key,实现了将各行政区域的数据均匀的分布在各个分区,提高了***性能和查询效率。
本发明附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1为本发明实施例1提供的Hadoop大数据平台分布式能源数据清洗方法的流程示意图。
图2为本发明实施例1提供的聚类分析算法详细过程示意图。
图3为本发明实施例1提供的数据清洗模块流程示意图。
图4为Hadoop大数据平台的Hbase表区域设计。
具体实施方式
下面结合附图与实施例对本发明作进一步说明。
应该指出,以下详细说明都是示例性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
实施例1:
如图1和图2所示,本发明实施例1提供了一种Hadoop大数据平台分布式能源数据清洗方法,包括以下过程:
S1:获取原分布式能源数据并备份后,使用ETL工具kettle转换数据类型为json;
S2:将转换类型之后的数据,使用python引用第三方绘图库plot绘制离散图,找出异常数据;
S3:使用python转换数据类型为DataFrame,使用扩展程序库pandas进行数据清洗,通过时间和设备编码构建唯一主键,清除冗余数据;
S4:判断去除冗余数据后数据时间序列是否完整,对时间序列不完整的通过相似日填充数据,时间序列完整的进行对数据的缺失值处理;
S5:依托Hadoop大数据平台,使用聚类算法对缺失值进行分析预测填充缺失值;
S6:对使用plot画图分析得出的异常数据类型,判断属性重要程度,判断正常范围,对属性重要程度高的进行聚类分析,回填正常值;
S7:最后得到清洗过后的分布式能源数据。
具体的,示例如下:
例如获取一个市的一个月的原始分布式能源数据,使用kettle转换为json数据后输出,对原数据进行备份,针对发电量这个属性进行缺失值,异常值做数据清洗;首先分析发电量属于重要属性,其异常值和缺失值均需要通过Hadoop平台的聚类分析算法进行预测填充;通过plot将数据画图分析后,得出的异常数据类型,有装机容量无发电量,有发电量无光伏容量等数据均删除处理;通过计算用户的发电功率经过plot绘图,对离群数据进行删除处理(异常值判定方法:平均值(mean)±3*标准差(STD)之外的任何值,即为异常值);对于冗余数据处理,通过设备编号+时间确定唯一主键,使用pandas的duplicated()方法清除冗余数据;缺失值和异常值的处理,通过ETL工具将数据源抽取到HDFS存储,通过Hive清洗、处理和计算原始数据,然后进行聚类分析预测后对数据进行填充。
S5中,依托Hadoop大数据平台,使用聚类算法对缺失值进行分析预测填充缺失值,包括:
基于光伏用户的历史数据,使用用户的装机容量,时间与天气作为特征,使用聚类将数据进行分组,并求平均值存储到字典中,当数据异常或者缺失时,可以根据当前异常/缺失值的标签与各个组的相似度来选取最合适的值来填充异常数据。
S5.1:聚类定义
Clustering(聚类),简单地说就是把相似的东西分到一组,聚类的时候,并不关心某一类是什么,需要实现的目标只是把相似的东西聚到一起;因此,一个聚类算法通常只需要知道如何计算相似度就可以开始工作了,因此聚类通常并不需要使用训练数据进行学习,这在机器学习中被称作无监督学习,非常适合用在于数据的预处理过程;聚类中没有任何指导信息,完全按照数据的分布进行类别划分聚类所说的类也不是事先给定的,而是根据数据的相似性和距离来划分,且对象之间的相似度是基于对象间的距离来计算的。
常用的距离的计算方法有欧几里得与曼哈顿等:
(1)欧几里得:d=sqrt(∑(xi1-xi2)^);
(2)曼哈顿:d=|X1-X2|+|Y1-Y2|;
相似度计算方法可以使用余弦相似度皮尔逊。
余弦相似度算法比较常用,与欧几里得不同,是一个通常采用的距离定义,指在m维空间中两个点之间的真实距离,或者向量的自然长度(即该点到原点的距离);在二维和三维空间中的欧氏距离就是两点之间的实际距离。
余弦距离也称为余弦相似度,是用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小的度量;余弦值越接近1,就表明夹角越接近0度,也就是两个向量越相似,这就叫“余弦相似性”;另外:余弦距离使用两个向量夹角的余弦值作为衡量两个个体间差异的大小;相比欧氏距离,余弦距离更加注重两个向量在方向上的差异。
余弦相似性通过测量两个向量的夹角的余弦值来度量它们之间的相似性。0度角的余弦值是1,而其他任何角度的余弦值都不大于1,并且其最小值是-1;从而两个向量之间的角度的余弦值确定两个向量是否大致指向相同的方向;两个向量有相同的指向时,余弦相似度的值为1;两个向量夹角为90°时,余弦相似度的值为0;两个向量指向完全相反的方向时,余弦相似度的值为-1;这结果是与向量的长度无关的,仅仅与向量的指向方向相关;余弦相似度通常用于正空间,因此给出的值为-1到1之间。
两个向量间的余弦值可以通过使用欧几里得点积公式求出。
类内相似度:
类间相似度:
皮尔逊相关系数广泛用于度量两个变量之间的相关程度,其值介于-1与1之间;它是由卡尔·皮尔逊从提出的一个相似却又稍有不同的想法演变而来的;这个相关系数也称作“皮尔逊积矩相关系数”。
两个变量之间的皮尔逊相关系数定义为两个变量之间的协方差和标准差的商:
上式定义了总体相关系数,估算样本的协方差和标准差,可得到皮尔逊相关系数:
这里选用了基于划分的聚类方法,给定一个n个数据对象的合集,构建k个分区,其中每个分区代表一个簇,并且k远小于n,使的每个组至少包含一个对象,大部分划分方法是基于距离的,采用“迭代的重定位技术”,例如k-均值和k-中心点算法。
K-均值是将数据集划分为k个非空子集,然后随机选取K个质心,根据距离将数据点到分配到对应的簇当中去,下一步,计算当前簇的均值点作为新的质心,重新分配各个数据对象,将每个对象指定为最近种子点所在的类;再次计算当前簇的均值点作为新的质心直到质心的位置不在发生变化我们可以认为聚类已经达到期望的结果,算法终止;K-均值收敛速度快。在簇与簇之间区别明显时,它的效果较好;需要调参的参数仅仅是簇数K,但是仅适用于能够定义平均值的数据需要预先指定k,即簇的数量,采取其他技术确定一个较好的k值,而且初始质心的选择直接决定最终的聚类效果无法处理噪音数据和异常点;针对k-means对异常点敏感的问题,选择使用改进的K-中心点算法(K-Medoids)。
k-中心和k-均值很像,不同的是形心的更新选择,k-均值是通过求得均值进行更新形心的,而k-中心是随机选择k个对象作为初始的k个簇的代表点,反复用非代表点来代替代表点,直到找到误差平方和最小的那个点来作为数据中心点;这样划分方法是基于最小化所有对象与其参照点之间的相异度之和的原则来执行的,这是k-medoids方法的基础;与k-means相比,k-中心对噪声和离群点的处理具有更好的鲁棒性,中心点不容易受离群点影响。
S5.2:基于hadoop的分布式聚类具体实现
传统的聚类算法需要将数据集中到一个站点上进行处理,这就意味着需要将全部的数据对象集中在一个站点并且一次性地载入内存;由于网络节点带宽限制、数据的隐私性保护等因素,把数据集中在一起几乎是不可能的;退一步讲,即使允许大量的数据集中并行,也会出现算法执行效率太低或者算法崩溃的情况,而且这种集中执行的成本将会是用户难以接受的;在面对海量数据或者分布式数据时,传统的集中式的聚类算法已经显得捉襟见肘;数据存储方式的改变对聚类算法提出了新的要求,必须考虑到算法的并行化和分布化。
在Hadoop分布式环境下实现K-Means聚类算法的伪代码如下:
输入:
参数0--存储样本数据的文本文件inputfile;
参数1--存储样本数据的SequenceFile文件inputPath;
参数2--存储质心数据的SequenceFile文件centerPath;
参数3--存储聚类结果文件(SequenceFile文件)所处的路径clusterPath;
参数4--类的数量k;
输出:k个类
Begin
读取inputPath,从中选取前k个点作为初始质心,将质心数据写入centerPath;
While聚类终止条件不满足;
在Mapper阶段,读取inputPath,对于key所对应的点,遍历所有的质心,选择最近的质心,将该质心的编号作为键,该点的编号作为值传递给Reducer;
在Reducer阶段,将Mapper阶段传递过来的值根据键归并输出,结果写入clusterPath;
读取clusterPath,重新计算质心,将结果写入centerPath;
EndWhile
End
判断聚类效果好坏的常见指标是下述的准则函数值:
有理由认为上述值越小,聚类效果越好,随着循环的不断进行,上述准则函数值会收敛到一个很小的值,所以可以用这个值不再明显变化作为聚类循环的终止条件。
在map阶段主要做的是计算各个数据点与聚类中心的距离并且找出与样本对应的最近中心,计算新的聚类中心<key,value>,输入key Mapreduce默认格式,即当前样本相对于输入数据文件其实点的偏移量,value是当前样本各维度的值组成的字符串,输出:<key’,value’>,key’是距离最近簇下标,value’是样本点;
reduce阶段:根据map阶段的<key,value>重新计算聚类中心,更新聚类中心;输出:<key.id(下标),新的聚类中心>;
在map阶段,减少数据通信,需要在本地map<key,value>做一次conbine(),减少数据大小,具体是根据key,相加value的每个维度,并记录count。
本发明提供的基于Hadoop大数据平台海量分布式能源数据清洗技术研究与应用,能够自动生成经过清洗后的数据;通过对分布式能源数据进行plot构图分析,冗余数据处理及通过聚类分析预测属性的缺失值和异常值进行填充,最终得到清洗后的分布式能源数据,确保了数据准确高可用,为之后的数据分析和预测奠定了基础。
实施例2:
本发明实施例2提供了一种Hadoop大数据平台分布式能源数据清洗***,包括:
数据获取模块,被配置为:获取基于Hadoop大数据平台得到的分布式能源数据,将获取的分布式能源数据转换为第一特定数据类型;
异常数据识别模块,被配置为:利用第一特定数据类型的数据绘制离散图,找出异常数据,确定异常数据类型;
冗余数据清洗模块,被配置为:将第一特定数据类型的数据转换为第二特定数据类型,通过时间和设备编码构建唯一主键,清除第二特定数据类型的冗余数据;
时间序列完整性判断模块,被配置为:判断去除冗余数据后的数据的时间序列是否完整,对时间序列不完整的数据通过相似日填充数据,时间序列完整的进行对数据的缺失值处理;
缺失值填充模块,被配置为:使用预设聚类算法对缺失值进行分析预测填充缺失值;
异常数据处理模块,被配置为:对得到的异常数据类型,判断数据属性的重要程度,对属性重要程度大于预设值的数据进行聚类,回填正常值后,得到清洗过后的分布式能源数据。
所述***的工作方法与实施例1提供的Hadoop大数据平台分布式能源数据清洗方法相同,这里不再赘述。
实施例3:
本发明实施例3提供了一种计算机可读存储介质,其上存储有程序,其特征在于,该程序被处理器执行时实现如本发明实施例1所述的Hadoop大数据平台分布式能源数据清洗方法中的步骤。
实施例4:
本发明实施例4提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的程序,所述处理器执行所述程序时实现如本发明实施例1所述的Hadoop大数据平台分布式能源数据清洗方法中的步骤。
本领域内的技术人员应明白,本发明的实施例可提供为方法、***、或计算机程序产品。因此,本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种Hadoop大数据平台分布式能源数据清洗方法,其特征在于:
包括以下过程:
获取基于Hadoop大数据平台得到的分布式能源数据,将获取的分布式能源数据转换为第一特定数据类型;
利用第一特定数据类型的数据绘制离散图,找出异常数据,确定异常数据类型;
将第一特定数据类型的数据转换为第二特定数据类型,通过时间和设备编码构建唯一主键,清除第二特定数据类型的冗余数据;
判断去除冗余数据后的数据的时间序列是否完整,对时间序列不完整的数据通过相似日填充数据,时间序列完整的进行对数据的缺失值处理;
使用预设聚类算法对缺失值进行分析预测填充缺失值;
对得到的异常数据类型,判断数据属性的重要程度,对属性重要程度大于预设值的数据进行聚类,回填正常值后,得到清洗过后的分布式能源数据。
2.如权利要求1所述的Hadoop大数据平台分布式能源数据清洗方法,其特征在于:
使用预设聚类算法对缺失值进行分析预测填充缺失值,包括:
使用用户的装机容量、时间与天气作为特征,使用预设聚类算法将数据进行分组,并求平均值存储到字典中,当数据异常或者缺失时,根据当前异常或缺失值的标签与各个组的相似度选取最优的值来填充异常数据。
3.如权利要求1或2所述的Hadoop大数据平台分布式能源数据清洗方法,其特征在于:
预设聚类算法,包括:
输入数据为:存储样本数据的文本文件inputfile,存储样本数据的SequenceFile文件inputPath,存储质心数据的SequenceFile文件centerPath,存储聚类结果文件(SequenceFile文件)所处的路径clusterPath,类的数量k;
输出数据为:k个类;
读取inputPath,从中选取前k个点作为初始质心,将质心数据写入centerPath;
当聚类终止条件不满足时,在Mapper阶段,读取inputPath,对于key所对应的点,遍历所有的质心,选择最近的质心,将该质心的编号作为键,该点的编号作为值传递给Reducer;
在Reducer阶段,将Mapper阶段传递过来的值根据键归并输出,结果写入clusterPath;
读取clusterPath,重新计算质心,将结果写入centerPath,循环上述过程直至聚类终止条件满足。
4.如权利要求1所述的Hadoop大数据平台分布式能源数据清洗方法,其特征在于:
使用ETL工具kettle将获取的分布式能源数据转换为json类型。
5.如权利要求1所述的Hadoop大数据平台分布式能源数据清洗方法,其特征在于:
使用python引用第三方绘图库plot绘制离散图。
6.如权利要求1所述的Hadoop大数据平台分布式能源数据清洗方法,其特征在于:
使用python将json类型的数据转换为DataFrame类型,使用扩展程序库pandas进行数据清洗。
7.如权利要求1所述的Hadoop大数据平台分布式能源数据清洗方法,其特征在于:
通过Hadoop大数据平台使用聚类分析填充缺失值和处理异常数据。
8.一种Hadoop大数据平台分布式能源数据清洗***,其特征在于:
包括:
数据获取模块,被配置为:获取基于Hadoop大数据平台得到的分布式能源数据,将获取的分布式能源数据转换为第一特定数据类型;
异常数据识别模块,被配置为:利用第一特定数据类型的数据绘制离散图,找出异常数据,确定异常数据类型;
冗余数据清洗模块,被配置为:将第一特定数据类型的数据转换为第二特定数据类型,通过时间和设备编码构建唯一主键,清除第二特定数据类型的冗余数据;
时间序列完整性判断模块,被配置为:判断去除冗余数据后的数据的时间序列是否完整,对时间序列不完整的数据通过相似日填充数据,时间序列完整的进行对数据的缺失值处理;
缺失值填充模块,被配置为:使用预设聚类算法对缺失值进行分析预测填充缺失值;
异常数据处理模块,被配置为:对得到的异常数据类型,判断数据属性的重要程度,对属性重要程度大于预设值的数据进行聚类,回填正常值后,得到清洗过后的分布式能源数据。
9.一种计算机可读存储介质,其上存储有程序,其特征在于,该程序被处理器执行时实现如权利要求1-7任一项所述的Hadoop大数据平台分布式能源数据清洗方法中的步骤。
10.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-7任一项所述的Hadoop大数据平台分布式能源数据清洗方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210508315.1A CN115168326A (zh) | 2022-05-11 | 2022-05-11 | Hadoop大数据平台分布式能源数据清洗方法及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210508315.1A CN115168326A (zh) | 2022-05-11 | 2022-05-11 | Hadoop大数据平台分布式能源数据清洗方法及*** |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115168326A true CN115168326A (zh) | 2022-10-11 |
Family
ID=83483091
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210508315.1A Pending CN115168326A (zh) | 2022-05-11 | 2022-05-11 | Hadoop大数据平台分布式能源数据清洗方法及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115168326A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117278343A (zh) * | 2023-11-24 | 2023-12-22 | 戎行技术有限公司 | 一种基于大数据平台数据的数据多级输出处理方法 |
-
2022
- 2022-05-11 CN CN202210508315.1A patent/CN115168326A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117278343A (zh) * | 2023-11-24 | 2023-12-22 | 戎行技术有限公司 | 一种基于大数据平台数据的数据多级输出处理方法 |
CN117278343B (zh) * | 2023-11-24 | 2024-02-02 | 戎行技术有限公司 | 一种基于大数据平台数据的数据多级输出处理方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10916333B1 (en) | Artificial intelligence system for enhancing data sets used for training machine learning-based classifiers | |
CN108154198B (zh) | 知识库实体归一方法、***、终端和计算机可读存储介质 | |
KR20210040248A (ko) | 물질의 생성 구조-특성 역 계산 공동 설계 | |
US20160140434A1 (en) | Method for pseudo-recurrent processing of data using a feedforward neural network architecture | |
CN114332984B (zh) | 训练数据处理方法、装置和存储介质 | |
CN113705793A (zh) | 决策变量确定方法及装置、电子设备和介质 | |
KR20180137386A (ko) | 커뮤니티 검출 방법 및 커뮤니티 검출 프레임워크 장치 | |
CN112163106A (zh) | 二阶相似感知的图像哈希码提取模型建立方法及其应用 | |
CN109542949B (zh) | 一种基于形式向量的决策信息***知识获取方法 | |
CN109961129A (zh) | 一种基于改进粒子群的海上静止目标搜寻方案生成方法 | |
CN115168326A (zh) | Hadoop大数据平台分布式能源数据清洗方法及*** | |
CN112257332B (zh) | 一种仿真模型的评估方法及装置 | |
CN117811801A (zh) | 一种模型训练方法、装置、设备及介质 | |
He et al. | Parallel outlier detection using kd-tree based on mapreduce | |
CN116304213B (zh) | 基于图神经网络的rdf图数据库子图匹配查询优化方法 | |
CN112286996A (zh) | 一种基于网络链接和节点属性信息的节点嵌入方法 | |
Li et al. | An alternating nonmonotone projected Barzilai–Borwein algorithm of nonnegative factorization of big matrices | |
CN107944045B (zh) | 基于t分布哈希的图像检索方法及*** | |
CN116705192A (zh) | 基于深度学习的药物虚拟筛选方法及装置 | |
Kalatzis et al. | Density estimation on smooth manifolds with normalizing flows | |
Chen et al. | Community Detection Based on DeepWalk Model in Large‐Scale Networks | |
Mu et al. | TSC-AutoML: meta-learning for automatic time series classification algorithm selection | |
RU2718409C1 (ru) | Система восстановления трехмерной структуры образца породы | |
Zhang et al. | Self‐Adaptive K‐Means Based on a Covering Algorithm | |
CN112766356A (zh) | 一种基于动态权重D-XGBoost模型的预测方法及*** |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |