CN109857593B - 一种数据中心日志缺失数据恢复方法 - Google Patents

一种数据中心日志缺失数据恢复方法 Download PDF

Info

Publication number
CN109857593B
CN109857593B CN201910056129.7A CN201910056129A CN109857593B CN 109857593 B CN109857593 B CN 109857593B CN 201910056129 A CN201910056129 A CN 201910056129A CN 109857593 B CN109857593 B CN 109857593B
Authority
CN
China
Prior art keywords
data
attribute
log
tensor
discretized
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910056129.7A
Other languages
English (en)
Other versions
CN109857593A (zh
Inventor
梁毅
毕临风
苏醒
苏超
陈金栋
丁治明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN201910056129.7A priority Critical patent/CN109857593B/zh
Publication of CN109857593A publication Critical patent/CN109857593A/zh
Application granted granted Critical
Publication of CN109857593B publication Critical patent/CN109857593B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种数据中心日志中缺失数据的恢复方法,首先使用相关性分析方法发掘数据中心日志中不同数据属性的相关性,选取最优数据属性子集,并使用一个两阶段离散化步长优化算法对数据进行离散化优化;然后将选取的最优数据属性子集作为张量的属性,构建一个稀疏张量;最后使用基于张量分解的张量补全方法,对稀疏张量进行补全,得到一个稠密张量;将该稠密张量与原始不完整日志数据结合,得到一个完整的日志数据集。

Description

一种数据中心日志缺失数据恢复方法
技术领域
本发明属于数据中心日志分析领域,具体涉及一种数据中心日志中缺失数据的恢复方法。
背景技术
大规模数据中心是互联网及相关展业的信息化基础设施,为互联网业务的运营提供计算、存储和网络等软硬件资源。现代数据中心中普遍应用虚拟化技术、容器化技术以及服务器整合技术。在该背景下,数据中心往往多种计算框架共存,多种异质工作负载共存。数据中心在运行过程中会产生海量日志数据,包含数据中心服务器、负载的运行时信息。
数据中心日志分析是数据中心性能优化的重要手段之一。通过数据中心日志分析,数据中心管理者可以获取数据中心负载特征、资源使用模式等重要信息,进一步指导数据中心任务调度、资源管理、编程模型的优化工作。然而随着数据中心规模的不断增长,数据中心日志面临日渐严重的数据缺失问题。数据中心日志的数据缺失问题是日志中部分数据为空或失效数据,无法直接作为日志分析工作的输入。该问题出现的原因主要有两个:(一)在日志数据的获取阶段,监控***中的Bug可能导致数据缺失。同时,由于监控***进程通常被设置在较低的优先级,当机群负载较高时会被剥夺资源,进而导致数据缺失;(二)在日志数据的处理阶段,由于保密等原因,一些数据会被匿名化或者归一化。该过程会直接造成数据缺失,在该过程出现的Bug则会导致意外的数据缺失。然而,当前日志分析领域对缺失数据的处理方法主要有简单移除缺失数据项,以及使用基于均值或者回归的统计学补全方法进行缺失数据恢复。现有方法存在以下问题:
(1)无法应对大比例数据缺失问题。随着数据中心规模增长,数据中心日志数据缺失比例有上升的趋势。在面对大比例数据缺失问题时,现有的简单移除方法会导致日志数据整体信息量大幅减少;而基于均值或回归的统计学补全方法恢复准确率低。两种方法都不能应对大比例数据缺失问题,进而影响日志分析工作的准确性。
(2)无法应对数据中心日志中不同数据属性之间复杂的相关关系。数据中心日志通常拥有十到数十个数据属性。不同的数据属性之间存在着不同的线性或非线性相关关系,对数据属性间的相关关系进行分析可以提高数据恢复的准确性。现有方法在恢复日志缺失数据时未考虑不同数据属性之间的相关关系,导致恢复准确率较低。且在恢复时需要人工指定恢复算法的输入数据属性,非专家人员在未对日志数据进行相关性分析的情况下,很难正确地进行选择。
发明内容
针对上述问题,本发明提出了一种基于张量的数据中心日志缺失数据恢复方法。本发明首先使用相关性分析方法发掘数据中心日志中不同数据属性的相关性,选取最优数据属性子集,并使用一个两阶段离散化步长优化算法对数据进行离散化优化;然后将选取的最优数据属性子集作为张量的属性,构建一个稀疏张量;最后使用基于张量分解的张量补全方法,对稀疏张量进行补全,得到一个稠密张量。将该稠密张量与原始不完整日志数据结合,得到一个完整的日志数据集。
在本发明中,使用CANDECOMP/PARAFAC(CP)分解方法对稀疏进行补全。CP分解是一种广泛应用的张量补全方法,它通过将稀疏张量分解为若干个秩一张量,挖掘张量数据的变化规律,进而对稀疏张量数据进行补全。数据中心日志数据由于其自身特点,构建出的稀疏张量具有低秩性,因此适合使用CP分解进行张量补全。
本发明所述的数据中心日志缺失数据恢复方法主要分为五个步骤:初始化、数据属性选取、数据属性离散化优化、张量构建及补全、日志缺失数据补全。在本方法中,有五个基本参数:离散化分箱数下界NL,离散化分箱数上界NH,属性选取离散化步长S1,离散化优化步长S2,CP分解秩一张量个数R,梯度下降学习率
Figure BDA0001951316550000021
梯度下降目标函数权重λ1和λ2,梯度下降目标函数收敛阈值θ。NL一般取值50-150之间,NH一般取值400-500之间,S1一般取值100-200之间,S2一般取值25-50之间,R一般取值5-30之间,
Figure BDA0001951316550000022
一般取0.00001,λ1和λ2一般取0-1之间,θ一般取0.01。
上述方法按以下步骤实现:
(1)初始化。设日志中共有n个数据属性,m条记录。则数据属性集合可以表示为A,A={a1,a2,…an}。日志中的数据记录集合可以表示为E,E={e1,e2,…em}。日志中的数据可以表示为V,
Figure BDA0001951316550000031
其中vij表示第j条数据记录中第i个数据属性的值。带有缺失数据的数据属性记做aT
(2)数据属性选取。
2.1)人工选取所有可能与目标缺失数据属性有相关关系的数据属性作为候选数据属性集合A′,A′={a1,a2,…an′}。
2.2)构建数据选取阶段的离散化规则集
Figure BDA0001951316550000036
其中每一条规则为ri={ri1,ri2,…rin′},rij表示第i条规则对候选属性aj的离散化箱数。
Figure BDA0001951316550000032
即在由离散化分箱数下界NL,离散化分箱数上界NH,属性选取离散化步长S1确定的搜索空间中,遍历所有数据属性与离散化分箱数的组合。
2.3)使用每一个离散化规则ri∈Rule对数据离散化,使用离散化规则ri离散化后的日志数据可以表示为Vi,
Figure BDA0001951316550000033
然后逐个进行数据属性选取。
2.3.1)利用公式(1)和公式(2)计算所有候选数据属性ai∈A′与目标数据属性aT的AMI,记做AMI(ai;aT)。然后初始化候选数据属性的优先级P,P={p1,p2,…pn},其中pi=AMI(ai;aT)。
Figure BDA0001951316550000034
Figure BDA0001951316550000035
2.3.2)选择一个优先级最高的数据属性(记做ak)加入至选取数据属性集合,并将其从候选数据属性集合A′中移除。将剩余候选数据属性al∈A′的优先级更新为pl×(1-AMI(al,ak))。
2.3.3)重复步骤2.3.2)直到选取数据属性的数量等于目标选取数量。
2.3.4)将选取结果记做resulti并加入到选取结果集合Result中。
2.4)对选取结果集合Result中的所有选取结果进行计数,将出现频率最高的数据属性选取集合作为最终的数据属性选取结果AS,AS={a1,a2,…aq}。
(3)离散化粒度优化。
3.1)构建离散化粒度优化阶段的离散化规则集
Figure BDA00019513165500000411
其中每一条规则为r′i={r′i1,r′i2,…r′iq},r′ij表示第i条规则对候选属性aj的离散化箱数。
Figure BDA0001951316550000041
即在由离散化分箱数下界NL,离散化分箱数上界NH,属性选取离散化步长S2确定的搜索空间中,遍历所有数据属性与离散化分箱数的组合。
3.2)基于选取的数据属性子集AS,使用每一个离散化规则r′i∈Rule′,进行数据离散化。使用离散化规则ri离散化后的日志数据可以表示为Vi′,
Figure BDA0001951316550000042
Figure BDA0001951316550000043
对离散化后的日志数据计算加权变异系数(Weighted coefficient of variation,WCV)。WCV的计算步骤如下:首先将日志数据中的记录按数据属性子集AS中每一个数据属性的值分组,记做G,G={g1,g2,…gp},每一个分组
Figure BDA0001951316550000044
其中每一条记录在所有数据属性ak∈AS上都拥有相等的数值
Figure BDA0001951316550000045
利用公式(3)计算每个分组中目标数据属性aT数值
Figure BDA0001951316550000046
的变异系数,记做ci。利用公式(4)计算每个分组的WCVi,然后利用公式(5)计算整个日志的WCV。
Figure BDA0001951316550000047
Figure BDA0001951316550000048
Figure BDA0001951316550000049
其中σ(X)表示X的标准差,μ(X)表示X的均值,size(X)表示X中的数据条目个数。
3.3)选取WCV值最小的数据离散化结果作为最终的数据离散化结果,离散化后的日志数据记做
Figure BDA00019513165500000410
4)张量构建和张量补全。
4.1)使用离散化后的日志数据VF以及目标数据属性aT构建张量。设每个数据属性ai∈AS上的离散数值个数为
Figure BDA0001951316550000051
则构建一个q维张量
Figure BDA0001951316550000052
4.1.1)将每个数据属性ai∈AS中的离散数值按升序排列,构建数值v到排列序号d的映射
Figure BDA0001951316550000053
4.1.2)将目标数据属性aT的数值作为张量值填入张量。设数据记录ei在选取数据属性AS={a1,a2,…aq}上的数值分别为{vF i1,vF i2…,vF iq},在目标数据属性aT的数值
Figure BDA0001951316550000054
通过映射M获取{vF i1,vF i1…,vF iq}对应的排列序号{di1,di2…,dij},则张量中的数值
Figure BDA0001951316550000055
当有u个记录拥有相同的张量下标时,使用这些记录的目标属性数据均值
Figure BDA0001951316550000056
作为张量的数值。
4.2)使用CP分解方法对张量补全,分解过程使用梯度下降法求解。
4.2.1)使用区间[0,1]上的随机数值初始化q个因子矩阵,因子矩阵
Figure BDA0001951316550000057
对应数据属性ai,Si为ai属性离散数据的个数,R为算法的超参数,根据公式(6)初始化权重矩阵W。
Figure BDA0001951316550000058
4.2.2)根据公式(7)对因子矩阵进行更新。其中ε=χ-[[F1,F2…,Fq]],χ为构建的稀疏张量,“[[]]”为Khatri-Rao运算符,(χ)(N)表示张量χ的N-mode矩阵化,
Figure BDA00019513165500000511
λ1和λ2为算法超参数。
Figure BDA0001951316550000059
4.2.3)根据公式(8)计算目标函数值。
Figure BDA00019513165500000510
4.2.4)重复步骤4.2.2)和4.2.3)直到两次目标函数值的变化量小于阈值θ。
5)日志数据恢复。对每一个带有缺失数据的记录ei在数据属性AS={a1,a2,…aq}上的数值分别为{vF i1,vF i2…,vF iq},通过映射M获取{vF i1,vF i1…,vF iq}对应的排列序号{di1,di2…,dij},则使用补全后的张量值
Figure BDA0001951316550000061
对缺失数据进行恢复。
附图说明
图1为本发明方法的部署图。
图2为本发明的总体流程图。
图3为日志数据属性选取的流程图。
图4为日志数据离散化优化的流程图。
图5为张量构建及补全的流程图。
具体实施方式
下面结合附图和具体实施方式对本发明加以说明。
图1为本发明方法的部署图。本发明由多个计算机服务器组成,服务器间通过网络连接。平台节点分为两类:包括一个存储节点和计算节点。本发明方法所包含两类核心软件模块:日志存储模块和日志处理模块。其中,日志存储模块负责日志数据的存储,在存储节点上部署;日志处理模块负责处理日志数据,在计算节点上部署。
下面结合图2发明内容总流程说明本发明方法的具体实施方法。在本实施方法中,基本参数设置如下:离散化分箱数下界NL=100,离散化分箱数上界NH=500,属性选取离散化步长S1=100,离散化优化步长S2=25,CP分解秩一张量个数R=25,梯度下降学习率
Figure BDA0001951316550000063
梯度下降目标函数权重λ1=0.5和λ2=0.5,梯度下降目标函数收敛阈值θ=0.01。
具体实施方法可分为以下步骤:
(1)初始化。令数据中心日志中共有49个数据属性,10364956条记录。则数据属性集合可以表示为A,A={a1,a2,…a49}。日志中的数据记录集合可以表示为E,E={e1,e2,…e10364956}。日志数据可以表示为V,
Figure BDA0001951316550000062
带有缺失数据的数据属性为real_mem_avg(平均内存使用量),记做aT
(2)数据属性选取,该步骤流程图如图3所示。
2.1)人工选取所有可能与目标缺失数据属性有相关关系的数据属性作为候选数据属性集合A′,A′={plan_cpu,plan_mem,instance_num,duration,
,real_cpu_avg,end_time}(申请CPU资源、申请内存资源、实例数量、持续时间、实际CPU资源使用量平均值、结束时间)。
2.2)构建数据选取阶段的离散化规则集Rule,Rule={r1,r2,…r15625},其中每一条规则为ri={ri1,ri2,…ri6},rij表示第i条规则对候选属性aj的离散化箱数。即在由离散化分箱数下界100,离散化分箱数上界500,属性选取离散化步长100确定的搜索空间中,遍历所有数据属性与离散化分箱数的组合。
2.3)使用每一个离散化规则ri∈Rule对数据离散化,使用离散化规则ri离散化后的日志数据可以表示为Vi,
Figure BDA0001951316550000071
然后逐个进行数据属性选取。
2.3.1)根据发明内容2.3.1)中的方法,计算所有候选数据属性ai∈A′与目标数据属性aT的AMI,记做AMI(ai;aT)。然后初始化候选数据属性的优先级P,P={0.02,0.11,0.018,0.09,0.009,0.14}。
2.3.2)选择一个优先级最高的数据属性end_time加入至选取数据属性集合,并将其从候选数据属性集合A′中移除。根据发明内容2.3.2)中的方法将剩余候选数据属性al∈A′的优先级更新为{0.018,0.09,0.015,0.07,0.0087}。
2.3.3)重复步骤2.3.2)直到选取数据属性的数量等于目标选取数量。
2.3.4)将选取结果记做resulti并加入到选取结果集合Result中。
2.4)对选取结果集合Result中的所有选取结果进行计数,将出现频率最高的数据属性选取集合作为最终的数据属性选取结果AS,AS={end_time,plan_mem,duration}。
(3)离散化粒度优化,该步骤流程图如图4所示。
3.1)构建离散化粒度优化阶段的离散化规则集Rule′,Rule′={r′1,r′2,…r′4096},其中每一条规则为r′i={r′i1,r′i2,r′i3},r′ij表示第i条规则对候选属性{end_time,plan_mem,duration}中第j个属性的离散化箱数。即在由离散化分箱数下界100,离散化分箱数上界500,属性选取离散化步长25确定的搜索空间中,遍历所有数据属性与离散化分箱数的组合。
3.2)基于选取的数据属性子集AS,使用每一个离散化规则r′i∈Rule′,进行数据离散化。使用离散化规则ri离散化后的日志数据可以表示为Vi′,
Figure BDA0001951316550000081
Figure BDA0001951316550000082
根据发明内容3.2)中的方法对离散化后的日志数据计算加WCV=0.35647
3.3)选取WCV值最小的数据离散化结果作为最终的数据离散化结果,离散化后的日志数据记做
Figure BDA0001951316550000083
4)张量构建和张量补全,该步骤流程图如图5所示。
4.1)使用离散化后的日志数据VF以及目标数据属性aT构建张量。每个数据属性ai∈AS上的离散数值个数分别为276,87,61,构建一个3维张量
Figure BDA0001951316550000084
4.1.1)将每个数据属性ai∈AS中的离散数值按升序排列,构建数值v到排列序号d的映射
Figure BDA0001951316550000085
4.1.2)将目标数据属性aT的数值作为张量值填入张量。设数据记录ei在选取数据属性AS={end_time,plan_mem,duration}上的数值分别为{35519,0.016,34},在目标数据属性aT的数值为0.023814,通过映射M获取{35519,0.016,34}对应的排列序号{1,13…,24},则张量中的数值χ1 13 24=0.023814。
4.2)使用CP分解方法对张量补全,分解过程使用梯度下降法求解。
4.2.1)使用区间[0,1]上的随机数值初始化三个因子矩阵,三个因子矩阵分别为
Figure BDA0001951316550000086
根据发明内容4.2.1)中的方法初始化权重矩阵W。
4.2.2)根据发明内容4.2.2)中的方法对三个因子矩阵进行更新。
4.2.3)根据发明内容4.2.2)中的方法计算目标函数值E=7983.348
4.2.4)重复步骤4.2.2)和4.2.3)直到两次目标函数值的变化量小于阈值0.01。
5)日志数据恢复。若带有缺失数据的记录e1在数据属性AS={end_time,plan_mem,duration}上的数值分别为{45682,0.008,89},通过映射M获取{45682,0.008,89}对应的排列序号{34,5,41},则使用补全后的张量值x34 5 41对缺失数据进行恢复。
根据本发明所提出的数据接收通道动态分配方法,发明人进行了相关的性能测试。测试结果表明本发明方法可较准确地恢复数据中心日志中的缺失数据。
性能测试使用阿里巴巴数据中心日志作为测试数据集,并将现存的日志分析工作中的缺失数据恢复方法:均值恢复、线性回归恢复;以及广泛应用于其他领域的先进数据恢复方法:KNN恢复、多层感知机恢复、支持向量机恢复共五种方法进行比较,以体现本发明提出的方法在恢复数据中心日志缺失数据准确率的优势。性能测试运行于由1台计算机,硬件配置包括:AMD Ryzen 7 [email protected]的CPU、32GB DDR4RAM、512GB NVMe SSD。
性能测试使用两个参数评价数据恢复误差:平均相对误差(MRE)和均方根误差(RMSE),它们的计算公式如公式(9)和公式(10)所示:
Figure BDA0001951316550000091
Figure BDA0001951316550000092
性能测试根据不同的日志数据缺失比例和缺失模式分为4个分组,分别为按照阿里巴巴日志缺失模式30%数据缺失率(TM30),按照阿里巴巴日志缺失模式85%数据缺失率(TM85),完全随机缺失30%数据缺失率(RM30),完全随机缺失85%数据缺失率(RM85)。性能测试的结果如表1和表2所示。
表1性能测试结果(MRE)
Figure BDA0001951316550000093
表2性能测试结果(RMSE)
Figure BDA0001951316550000094
Figure BDA0001951316550000101
由表1和表2的数据可以得出,在四组实验中,相对于五种对比方法,本发明方法的MRE平均降低了47.7%,RMSE平均降低了56.6%,MRE最大降低了85.9%,RMSE最大降低了92%。平均误差较低的两个机器学习数据恢复方法多重感知机恢复和支持向量机恢复的误差随数据缺失比例上升明显增大,而本发明方法的误差则保持稳定,在30%和85%两种数据缺失率下MRE的最大提升分别为32.7%和50%。性能测试结果证明相对于五种对比方法,本发明方法的缺失数据恢复误差更低,且更为稳定,在不同的数据缺失率下均能获得较高的准确率。
最后应说明的是:以上示例仅用以说明本发明而并非限制本发明所描述的技术,而一切不脱离发明的精神和范围的技术方案及其改进,其均应涵盖在本发明的权利要求范围当中。

Claims (5)

1.一种数据中心日志缺失数据恢复方法,其特征在于:包括以下步骤:
(1)初始化,设日志中共有n个数据属性,m条记录, 则数据属性集合可以表示为A,A={a1,a2,…an},日志中的数据记录集合可以表示为E,E={e1,e2,…em},日志中的数据可以表示为
Figure FDA0001951316540000011
其中,vij表示第j条数据记录中第i个数据属性的值,带有缺失数据的数据属性记做aT
(2)数据属性选取,
2.1)选取所有可能与目标缺失数据属性有相关关系的数据属性作为候选数据属性集合A′,A′={a1,a2,…an′};
2.2)构建数据选取阶段的离散化规则集Rule,
Figure FDA0001951316540000018
其中每一条规则为ri={ri1,ri2,…rin′},rij表示第i条规则对候选属性aj的离散化箱数,
Figure FDA0001951316540000012
Figure FDA0001951316540000013
即在由离散化分箱数下界NL,离散化分箱数上界NH,属性选取离散化步长S1确定的搜索空间中,遍历所有数据属性与离散化分箱数的组合;
2.3)使用每一个离散化规则ri∈Rule对数据离散化,使用离散化规则ri离散化后的日志数据可以表示为
Figure FDA0001951316540000014
然后逐个进行数据属性选取;
2.4)对选取结果集合Result中的所有选取结果进行计数,将出现频率最高的数据属性选取集合作为最终的数据属性选取结果AS,AS={a1,a2,…aq};
(3)离散化粒度优化
3.1)构建离散化粒度优化阶段的离散化规则集Rule′,
Figure FDA0001951316540000019
其中每一条规则为r′i={r′i1,r′i2,…r′iq},r′ij表示第i条规则对候选属性aj的离散化箱数,
Figure FDA0001951316540000015
即在由离散化分箱数下界NL,离散化分箱数上界NH,属性选取离散化步长S2确定的搜索空间中,遍历所有数据属性与离散化分箱数的组合;
3.2)基于选取的数据属性子集AS,使用每一个离散化规则r′i∈Rule′,进行数据离散化,使用离散化规则ri离散化后的日志数据可以表示为
Figure FDA0001951316540000016
Figure FDA0001951316540000017
对离散化后的日志数据计算加权变异系数(Weighted coefficient of variation,WCV);
3.3)选取WCV值最小的数据离散化结果作为最终的数据离散化结果,离散化后的日志数据记做
Figure FDA0001951316540000021
4)张量构建和张量补全
4.1)使用离散化后的日志数据VF以及目标数据属性aT构建张量, 设每个数据属性ai∈AS上的离散数值个数为
Figure FDA0001951316540000022
则构建一个q维张量
Figure FDA0001951316540000023
Figure FDA0001951316540000024
4.2)使用CP分解方法对张量补全,分解过程使用梯度下降法求解;
5)日志数据恢复
对每一个带有缺失数据的记录ei在数据属性AS={a1,a2,…aq}上的数值分别为{vF i1,vF i2...,vF iq},通过映射M获取{vF i1,vF i1...,vF iq}对应的排列序号{di1,di2...,dij},则使用补全后的张量值
Figure FDA00019513165400000210
对缺失数据进行恢复。
2.如权利要求1所述的数据中心日志缺失数据恢复方法,其特征在于:2.3)包括:
2.3.1)利用公式(1)和公式(2)计算所有候选数据属性ai∈A′与目标数据属性aT的AMI,记做AMI(ai;aT) , 然后初始化候选数据属性的优先级P,P={p1,p2,…pn},其中pi=AMI(ai;aT) ,
Figure FDA0001951316540000025
Figure FDA0001951316540000026
2.3.2)选择一个优先级最高的数据属性(记做ak)加入至选取数据属性集合,并将其从候选数据属性集合A′中移除, 将剩余候选数据属性al∈A′的优先级更新为pl×(1-AMI(al,ak)) ,
2.3.3)重复步骤2.3.2)直到选取数据属性的数量等于目标选取数量,
2.3.4)将选取结果记做resulti并加入到选取结果集合Result中。
3.如权利要求1所述的数据中心日志缺失数据恢复方法,其特征在于:4.1)包括:
4.1.1)将每个数据属性ai∈AS中的离散数值按升序排列,构建数值v到排列序号d的映射
Figure FDA0001951316540000027
4.1.2)将目标数据属性aT的数值作为张量值填入张量,设数据记录ei在选取数据属性As={a1,a2,…aq}上的数值分别为{vF i1,vF i2...,vF iq},在目标数据属性aT的数值
Figure FDA0001951316540000028
通过映射M获取{vF i1,vF i1...,vF iq}对应的排列序号{di1,di2...,dij),则张量中的数值
Figure FDA0001951316540000029
当有u个记录拥有相同的张量下标时,使用这些记录的目标属性数据均值
Figure FDA0001951316540000031
作为张量的数值。
4.如权利要求1所述的数据中心日志缺失数据恢复方法,其特征在于:4.2)包括:
4.2.1)使用区间[0,1]上的随机数值初始化q个因子矩阵,因子矩阵
Figure FDA0001951316540000032
对应数据属性ai,Si为ai属性离散数据的个数,R为算法的超参数,根据公式(6)初始化权重矩阵W,
Figure FDA0001951316540000033
4.2.2)根据公式(7)对因子矩阵进行更新,其中
Figure FDA0001951316540000034
Figure FDA0001951316540000035
为构建的稀疏张量,“[[]]”为Khatri-Rao运算符,
Figure FDA0001951316540000036
表示张量
Figure FDA0001951316540000037
的N-mode矩阵化,
Figure FDA0001951316540000038
λ1和λ2为算法超参数;
Figure FDA0001951316540000039
4.2.3)根据公式(8)计算目标函数值,
Figure FDA00019513165400000310
4.2.4)重复步骤4.2.2)和4.2.3)直到两次目标函数值的变化量小于阈值θ。
5.如权利要求1所述的数据中心日志缺失数据恢复方法,其特征在于:4.2)包括:3.2)中WCV的计算步骤如下:首先将日志数据中的记录按数据属性子集AS中每一个数据属性的值分组,记做G,G={g1,g2,…gp},每一个分组
Figure FDA00019513165400000311
Figure FDA00019513165400000312
其中每一条记录在所有数据属性ak∈AS上都拥有相等的数值vi′ jk, 利用公式(3)计算每个分组中目标数据属性aT数值
Figure FDA00019513165400000313
的变异系数,记做ci, 利用公式(4)计算每个分组的WCVi,然后利用公式(5)计算整个日志的WCV ,
Figure FDA00019513165400000314
Figure FDA00019513165400000315
Figure FDA00019513165400000316
其中σ(X)表示X的标准差,μ(X)表示X的均值,size(X)表示X中的数据条目个数。
CN201910056129.7A 2019-01-21 2019-01-21 一种数据中心日志缺失数据恢复方法 Active CN109857593B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910056129.7A CN109857593B (zh) 2019-01-21 2019-01-21 一种数据中心日志缺失数据恢复方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910056129.7A CN109857593B (zh) 2019-01-21 2019-01-21 一种数据中心日志缺失数据恢复方法

Publications (2)

Publication Number Publication Date
CN109857593A CN109857593A (zh) 2019-06-07
CN109857593B true CN109857593B (zh) 2020-08-28

Family

ID=66895519

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910056129.7A Active CN109857593B (zh) 2019-01-21 2019-01-21 一种数据中心日志缺失数据恢复方法

Country Status (1)

Country Link
CN (1) CN109857593B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112183644B (zh) * 2020-09-29 2024-05-03 中国平安人寿保险股份有限公司 指标稳定性的监控方法、装置、计算机设备及介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102156720A (zh) * 2011-03-28 2011-08-17 中国人民解放军国防科学技术大学 一种数据恢复的方法、装置和***
CN102289524A (zh) * 2011-09-26 2011-12-21 深圳市万兴软件有限公司 一种数据恢复方法及***
CN103631676A (zh) * 2013-11-06 2014-03-12 华为技术有限公司 一种只读快照的快照数据生成方法及装置
CN103838642A (zh) * 2012-11-26 2014-06-04 腾讯科技(深圳)有限公司 一种数据恢复方法、装置和***
CN103942252A (zh) * 2014-03-17 2014-07-23 华为技术有限公司 一种恢复数据的方法及***
CN105955845A (zh) * 2016-04-26 2016-09-21 浪潮电子信息产业股份有限公司 一种数据恢复方法及装置
CN107220142A (zh) * 2016-03-22 2017-09-29 阿里巴巴集团控股有限公司 执行数据恢复操作的方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9058371B2 (en) * 2011-11-07 2015-06-16 Sap Se Distributed database log recovery

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102156720A (zh) * 2011-03-28 2011-08-17 中国人民解放军国防科学技术大学 一种数据恢复的方法、装置和***
CN102289524A (zh) * 2011-09-26 2011-12-21 深圳市万兴软件有限公司 一种数据恢复方法及***
CN103838642A (zh) * 2012-11-26 2014-06-04 腾讯科技(深圳)有限公司 一种数据恢复方法、装置和***
CN103631676A (zh) * 2013-11-06 2014-03-12 华为技术有限公司 一种只读快照的快照数据生成方法及装置
CN103942252A (zh) * 2014-03-17 2014-07-23 华为技术有限公司 一种恢复数据的方法及***
CN107220142A (zh) * 2016-03-22 2017-09-29 阿里巴巴集团控股有限公司 执行数据恢复操作的方法及装置
CN105955845A (zh) * 2016-04-26 2016-09-21 浪潮电子信息产业股份有限公司 一种数据恢复方法及装置

Also Published As

Publication number Publication date
CN109857593A (zh) 2019-06-07

Similar Documents

Publication Publication Date Title
US10445657B2 (en) General framework for cross-validation of machine learning algorithms using SQL on distributed systems
Lou et al. Mining invariants from console logs for system problem detection
CN103513983B (zh) 用于预测性警报阈值确定工具的方法和***
US20210286786A1 (en) Database performance tuning method, apparatus, and system, device, and storage medium
US10223437B2 (en) Adaptive data repartitioning and adaptive data replication
CN104036029B (zh) 大数据一致性对比方法和***
CN110740054B (zh) 一种基于强化学习的数据中心虚拟化网络故障诊断方法
US10268749B1 (en) Clustering sparse high dimensional data using sketches
US9785657B2 (en) Method for synthetic data generation for query workloads
US8037057B2 (en) Multi-column statistics usage within index selection tools
Liu et al. Predicting of job failure in compute cloud based on online extreme learning machine: a comparative study
CN111552509A (zh) 一种接口间依赖关系的确定方法及装置
Wang et al. Heterogeneity-aware gradient coding for straggler tolerance
US7779122B2 (en) Automatically identifying an optimal set of attributes to facilitate generating best practices for configuring a networked system
Cheng et al. Tuning configuration of apache spark on public clouds by combining multi-objective optimization and performance prediction model
CN110704371A (zh) 大规模数据管理与数据分发***及方法
CN110489317A (zh) 基于工作流的云***任务运行故障诊断方法与***
Curry et al. Scaling genetic programming to large datasets using hierarchical dynamic subset selection
CN109857593B (zh) 一种数据中心日志缺失数据恢复方法
US7617315B2 (en) Multi-layered measurement model for data collection and method for data collection using same
CN109933589B (zh) 用于数据汇总的基于ElasticSearch聚合运算结果的数据结构转换方法
CN107480056A (zh) 一种软件测试方法和装置
CN110264392A (zh) 一种基于多gpu的强连通图检测方法
US11953979B2 (en) Using workload data to train error classification model
Iuhasz et al. Monitoring of exascale data processing

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant