CN109857593B

CN109857593B - 一种数据中心日志缺失数据恢复方法

Info

Publication number: CN109857593B
Application number: CN201910056129.7A
Authority: CN
Inventors: 梁毅; 毕临风; 苏醒; 苏超; 陈金栋; 丁治明
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2019-01-21
Filing date: 2019-01-21
Publication date: 2020-08-28
Anticipated expiration: 2039-01-21
Also published as: CN109857593A

Abstract

本发明公开一种数据中心日志中缺失数据的恢复方法，首先使用相关性分析方法发掘数据中心日志中不同数据属性的相关性，选取最优数据属性子集，并使用一个两阶段离散化步长优化算法对数据进行离散化优化；然后将选取的最优数据属性子集作为张量的属性，构建一个稀疏张量；最后使用基于张量分解的张量补全方法，对稀疏张量进行补全，得到一个稠密张量；将该稠密张量与原始不完整日志数据结合，得到一个完整的日志数据集。

Description

一种数据中心日志缺失数据恢复方法

技术领域

本发明属于数据中心日志分析领域，具体涉及一种数据中心日志中缺失数据的恢复方法。

背景技术

大规模数据中心是互联网及相关展业的信息化基础设施，为互联网业务的运营提供计算、存储和网络等软硬件资源。现代数据中心中普遍应用虚拟化技术、容器化技术以及服务器整合技术。在该背景下，数据中心往往多种计算框架共存，多种异质工作负载共存。数据中心在运行过程中会产生海量日志数据，包含数据中心服务器、负载的运行时信息。

数据中心日志分析是数据中心性能优化的重要手段之一。通过数据中心日志分析，数据中心管理者可以获取数据中心负载特征、资源使用模式等重要信息，进一步指导数据中心任务调度、资源管理、编程模型的优化工作。然而随着数据中心规模的不断增长，数据中心日志面临日渐严重的数据缺失问题。数据中心日志的数据缺失问题是日志中部分数据为空或失效数据，无法直接作为日志分析工作的输入。该问题出现的原因主要有两个：(一)在日志数据的获取阶段，监控***中的Bug可能导致数据缺失。同时，由于监控***进程通常被设置在较低的优先级，当机群负载较高时会被剥夺资源，进而导致数据缺失；(二)在日志数据的处理阶段，由于保密等原因，一些数据会被匿名化或者归一化。该过程会直接造成数据缺失，在该过程出现的Bug则会导致意外的数据缺失。然而，当前日志分析领域对缺失数据的处理方法主要有简单移除缺失数据项，以及使用基于均值或者回归的统计学补全方法进行缺失数据恢复。现有方法存在以下问题：

(1)无法应对大比例数据缺失问题。随着数据中心规模增长，数据中心日志数据缺失比例有上升的趋势。在面对大比例数据缺失问题时，现有的简单移除方法会导致日志数据整体信息量大幅减少；而基于均值或回归的统计学补全方法恢复准确率低。两种方法都不能应对大比例数据缺失问题，进而影响日志分析工作的准确性。

(2)无法应对数据中心日志中不同数据属性之间复杂的相关关系。数据中心日志通常拥有十到数十个数据属性。不同的数据属性之间存在着不同的线性或非线性相关关系，对数据属性间的相关关系进行分析可以提高数据恢复的准确性。现有方法在恢复日志缺失数据时未考虑不同数据属性之间的相关关系，导致恢复准确率较低。且在恢复时需要人工指定恢复算法的输入数据属性，非专家人员在未对日志数据进行相关性分析的情况下，很难正确地进行选择。

发明内容

针对上述问题，本发明提出了一种基于张量的数据中心日志缺失数据恢复方法。本发明首先使用相关性分析方法发掘数据中心日志中不同数据属性的相关性，选取最优数据属性子集，并使用一个两阶段离散化步长优化算法对数据进行离散化优化；然后将选取的最优数据属性子集作为张量的属性，构建一个稀疏张量；最后使用基于张量分解的张量补全方法，对稀疏张量进行补全，得到一个稠密张量。将该稠密张量与原始不完整日志数据结合，得到一个完整的日志数据集。

在本发明中，使用CANDECOMP/PARAFAC(CP)分解方法对稀疏进行补全。CP分解是一种广泛应用的张量补全方法，它通过将稀疏张量分解为若干个秩一张量，挖掘张量数据的变化规律，进而对稀疏张量数据进行补全。数据中心日志数据由于其自身特点，构建出的稀疏张量具有低秩性，因此适合使用CP分解进行张量补全。

本发明所述的数据中心日志缺失数据恢复方法主要分为五个步骤：初始化、数据属性选取、数据属性离散化优化、张量构建及补全、日志缺失数据补全。在本方法中，有五个基本参数：离散化分箱数下界N_L，离散化分箱数上界N_H，属性选取离散化步长S₁，离散化优化步长S₂，CP分解秩一张量个数R，梯度下降学习率

梯度下降目标函数权重λ₁和λ₂，梯度下降目标函数收敛阈值θ。N_L一般取值50-150之间，N_H一般取值400-500之间，S₁一般取值100-200之间，S₂一般取值25-50之间，R一般取值5-30之间，

一般取0.00001，λ₁和λ₂一般取0-1之间，θ一般取0.01。

上述方法按以下步骤实现：

(1)初始化。设日志中共有n个数据属性，m条记录。则数据属性集合可以表示为A,A＝{a₁,a₂,…a_n}。日志中的数据记录集合可以表示为E,E＝{e₁,e₂,…e_m}。日志中的数据可以表示为V,

其中v_ij表示第j条数据记录中第i个数据属性的值。带有缺失数据的数据属性记做a_T。

(2)数据属性选取。

2.1)人工选取所有可能与目标缺失数据属性有相关关系的数据属性作为候选数据属性集合A′,A′＝{a₁,a₂,…a_n′}。

2.2)构建数据选取阶段的离散化规则集

其中每一条规则为r_i＝{r_i1,r_i2,…r_in′}，r_ij表示第i条规则对候选属性a_j的离散化箱数。

即在由离散化分箱数下界N_L，离散化分箱数上界N_H，属性选取离散化步长S₁确定的搜索空间中，遍历所有数据属性与离散化分箱数的组合。

2.3)使用每一个离散化规则r_i∈Rule对数据离散化，使用离散化规则r_i离散化后的日志数据可以表示为Vⁱ,

然后逐个进行数据属性选取。

2.3.1)利用公式(1)和公式(2)计算所有候选数据属性a_i∈A′与目标数据属性a_T的AMI，记做AMI(a_i；a_T)。然后初始化候选数据属性的优先级P,P＝{p₁,p₂,…p_n}，其中p_i＝AMI(a_i；a_T)。

2.3.2)选择一个优先级最高的数据属性(记做a_k)加入至选取数据属性集合，并将其从候选数据属性集合A′中移除。将剩余候选数据属性a_l∈A′的优先级更新为p_l×(1-AMI(a_l,a_k))。

2.3.3)重复步骤2.3.2)直到选取数据属性的数量等于目标选取数量。

2.3.4)将选取结果记做result_i并加入到选取结果集合Result中。

2.4)对选取结果集合Result中的所有选取结果进行计数，将出现频率最高的数据属性选取集合作为最终的数据属性选取结果A_S,A_S＝{a₁,a₂,…a_q}。

(3)离散化粒度优化。

3.1)构建离散化粒度优化阶段的离散化规则集

其中每一条规则为r′_i＝{r′_i1,r′_i2,…r′_iq}，r′_ij表示第i条规则对候选属性a_j的离散化箱数。

即在由离散化分箱数下界N_L，离散化分箱数上界N_H，属性选取离散化步长S₂确定的搜索空间中，遍历所有数据属性与离散化分箱数的组合。

3.2)基于选取的数据属性子集A_S，使用每一个离散化规则r′_i∈Rule′，进行数据离散化。使用离散化规则r_i离散化后的日志数据可以表示为Vⁱ′,

对离散化后的日志数据计算加权变异系数(Weighted coefficient of variation，WCV)。WCV的计算步骤如下：首先将日志数据中的记录按数据属性子集A_S中每一个数据属性的值分组，记做G,G＝{g₁,g₂,…g_p}，每一个分组

其中每一条记录在所有数据属性a_k∈A_S上都拥有相等的数值

利用公式(3)计算每个分组中目标数据属性a_T数值

的变异系数，记做c_i。利用公式(4)计算每个分组的WCV_i，然后利用公式(5)计算整个日志的WCV。

其中σ(X)表示X的标准差，μ(X)表示X的均值，size(X)表示X中的数据条目个数。

3.3)选取WCV值最小的数据离散化结果作为最终的数据离散化结果，离散化后的日志数据记做

4)张量构建和张量补全。

4.1)使用离散化后的日志数据V^F以及目标数据属性a_T构建张量。设每个数据属性a_i∈A_S上的离散数值个数为

则构建一个q维张量

4.1.1)将每个数据属性a_i∈A_S中的离散数值按升序排列，构建数值v到排列序号d的映射

4.1.2)将目标数据属性a_T的数值作为张量值填入张量。设数据记录e_i在选取数据属性A_S＝{a₁,a₂,…a_q}上的数值分别为{v^F _i1，v^F _i2…，v^F _iq}，在目标数据属性a_T的数值

通过映射M获取{v^F _i1，v^F _i1…，v^F _iq}对应的排列序号{d_i1，d_i2…，d_ij}，则张量中的数值

当有u个记录拥有相同的张量下标时，使用这些记录的目标属性数据均值

作为张量的数值。

4.2)使用CP分解方法对张量补全，分解过程使用梯度下降法求解。

4.2.1)使用区间[0,1]上的随机数值初始化q个因子矩阵，因子矩阵

对应数据属性a_i，S_i为a_i属性离散数据的个数，R为算法的超参数，根据公式(6)初始化权重矩阵W。

4.2.2)根据公式(7)对因子矩阵进行更新。其中ε＝χ-[[F₁,F₂…,F_q]]，χ为构建的稀疏张量，“[[]]”为Khatri-Rao运算符，(χ)_(N)表示张量χ的N-mode矩阵化，

λ₁和λ₂为算法超参数。

4.2.3)根据公式(8)计算目标函数值。

4.2.4)重复步骤4.2.2)和4.2.3)直到两次目标函数值的变化量小于阈值θ。

5)日志数据恢复。对每一个带有缺失数据的记录e_i在数据属性A_S＝{a₁,a₂,…a_q}上的数值分别为{v^F _i1，v^F _i2…，v^F _iq}，通过映射M获取{v^F _i1，v^F _i1…，v^F _iq}对应的排列序号{d_i1，d_i2…，d_ij}，则使用补全后的张量值

对缺失数据进行恢复。

附图说明

图1为本发明方法的部署图。

图2为本发明的总体流程图。

图3为日志数据属性选取的流程图。

图4为日志数据离散化优化的流程图。

图5为张量构建及补全的流程图。

具体实施方式

下面结合附图和具体实施方式对本发明加以说明。

图1为本发明方法的部署图。本发明由多个计算机服务器组成，服务器间通过网络连接。平台节点分为两类：包括一个存储节点和计算节点。本发明方法所包含两类核心软件模块：日志存储模块和日志处理模块。其中，日志存储模块负责日志数据的存储，在存储节点上部署；日志处理模块负责处理日志数据，在计算节点上部署。

下面结合图2发明内容总流程说明本发明方法的具体实施方法。在本实施方法中，基本参数设置如下：离散化分箱数下界N_L＝100，离散化分箱数上界N_H＝500，属性选取离散化步长S₁＝100，离散化优化步长S₂＝25，CP分解秩一张量个数R＝25，梯度下降学习率

梯度下降目标函数权重λ₁＝0.5和λ₂＝0.5，梯度下降目标函数收敛阈值θ＝0.01。

具体实施方法可分为以下步骤：

(1)初始化。令数据中心日志中共有49个数据属性，10364956条记录。则数据属性集合可以表示为A,A＝{a₁,a₂,…a₄₉}。日志中的数据记录集合可以表示为E,E＝{e₁,e₂,…e_10364956}。日志数据可以表示为V,

带有缺失数据的数据属性为real_mem_avg(平均内存使用量)，记做a_T。

(2)数据属性选取，该步骤流程图如图3所示。

2.1)人工选取所有可能与目标缺失数据属性有相关关系的数据属性作为候选数据属性集合A′,A′＝{plan_cpu,plan_mem,instance_num,duration,

,real_cpu_avg,end_time}(申请CPU资源、申请内存资源、实例数量、持续时间、实际CPU资源使用量平均值、结束时间)。

2.2)构建数据选取阶段的离散化规则集Rule,Rule＝{r₁,r₂,…r₁₅₆₂₅}，其中每一条规则为r_i＝{r_i1,r_i2,…r_i6}，r_ij表示第i条规则对候选属性a_j的离散化箱数。即在由离散化分箱数下界100，离散化分箱数上界500，属性选取离散化步长100确定的搜索空间中，遍历所有数据属性与离散化分箱数的组合。

然后逐个进行数据属性选取。

2.3.1)根据发明内容2.3.1)中的方法，计算所有候选数据属性a_i∈A′与目标数据属性a_T的AMI，记做AMI(a_i；a_T)。然后初始化候选数据属性的优先级P,P＝{0.02,0.11,0.018,0.09,0.009,0.14}。

2.3.2)选择一个优先级最高的数据属性end_time加入至选取数据属性集合，并将其从候选数据属性集合A′中移除。根据发明内容2.3.2)中的方法将剩余候选数据属性a_l∈A′的优先级更新为{0.018,0.09,0.015,0.07,0.0087}。

2.3.4)将选取结果记做result_i并加入到选取结果集合Result中。

2.4)对选取结果集合Result中的所有选取结果进行计数，将出现频率最高的数据属性选取集合作为最终的数据属性选取结果A_S,A_S＝{end_time,plan_mem,duration}。

(3)离散化粒度优化，该步骤流程图如图4所示。

3.1)构建离散化粒度优化阶段的离散化规则集Rule′,Rule′＝{r′₁,r′₂,…r′₄₀₉₆}，其中每一条规则为r′_i＝{r′_i1,r′_i2,r′_i3}，r′_ij表示第i条规则对候选属性{end_time,plan_mem,duration}中第j个属性的离散化箱数。即在由离散化分箱数下界100，离散化分箱数上界500，属性选取离散化步长25确定的搜索空间中，遍历所有数据属性与离散化分箱数的组合。

根据发明内容3.2)中的方法对离散化后的日志数据计算加WCV＝0.35647

4)张量构建和张量补全，该步骤流程图如图5所示。

4.1)使用离散化后的日志数据V^F以及目标数据属性a_T构建张量。每个数据属性a_i∈A_S上的离散数值个数分别为276，87，61，构建一个3维张量

4.1.2)将目标数据属性a_T的数值作为张量值填入张量。设数据记录e_i在选取数据属性A_S＝{end_time,plan_mem,duration}上的数值分别为{35519，0.016，34}，在目标数据属性a_T的数值为0.023814，通过映射M获取{35519，0.016，34}对应的排列序号{1，13…，24}，则张量中的数值χ_{1 13 24}＝0.023814。

4.2.1)使用区间[0,1]上的随机数值初始化三个因子矩阵，三个因子矩阵分别为

根据发明内容4.2.1)中的方法初始化权重矩阵W。

4.2.2)根据发明内容4.2.2)中的方法对三个因子矩阵进行更新。

4.2.3)根据发明内容4.2.2)中的方法计算目标函数值E＝7983.348

4.2.4)重复步骤4.2.2)和4.2.3)直到两次目标函数值的变化量小于阈值0.01。

5)日志数据恢复。若带有缺失数据的记录e₁在数据属性A_S＝{end_time,plan_mem,duration}上的数值分别为{45682，0.008，89}，通过映射M获取{45682，0.008，89}对应的排列序号{34，5，41}，则使用补全后的张量值x_{34 5 41}对缺失数据进行恢复。

根据本发明所提出的数据接收通道动态分配方法，发明人进行了相关的性能测试。测试结果表明本发明方法可较准确地恢复数据中心日志中的缺失数据。

性能测试使用阿里巴巴数据中心日志作为测试数据集，并将现存的日志分析工作中的缺失数据恢复方法：均值恢复、线性回归恢复；以及广泛应用于其他领域的先进数据恢复方法：KNN恢复、多层感知机恢复、支持向量机恢复共五种方法进行比较，以体现本发明提出的方法在恢复数据中心日志缺失数据准确率的优势。性能测试运行于由1台计算机，硬件配置包括：AMD Ryzen 7 [email protected]的CPU、32GB DDR4RAM、512GB NVMe SSD。

性能测试使用两个参数评价数据恢复误差：平均相对误差(MRE)和均方根误差(RMSE)，它们的计算公式如公式(9)和公式(10)所示：

性能测试根据不同的日志数据缺失比例和缺失模式分为4个分组，分别为按照阿里巴巴日志缺失模式30％数据缺失率(TM30)，按照阿里巴巴日志缺失模式85％数据缺失率(TM85)，完全随机缺失30％数据缺失率(RM30)，完全随机缺失85％数据缺失率(RM85)。性能测试的结果如表1和表2所示。

表1性能测试结果(MRE)

表2性能测试结果(RMSE)

由表1和表2的数据可以得出，在四组实验中，相对于五种对比方法，本发明方法的MRE平均降低了47.7％，RMSE平均降低了56.6％，MRE最大降低了85.9％，RMSE最大降低了92％。平均误差较低的两个机器学习数据恢复方法多重感知机恢复和支持向量机恢复的误差随数据缺失比例上升明显增大，而本发明方法的误差则保持稳定，在30％和85％两种数据缺失率下MRE的最大提升分别为32.7％和50％。性能测试结果证明相对于五种对比方法，本发明方法的缺失数据恢复误差更低，且更为稳定，在不同的数据缺失率下均能获得较高的准确率。

最后应说明的是：以上示例仅用以说明本发明而并非限制本发明所描述的技术，而一切不脱离发明的精神和范围的技术方案及其改进，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种数据中心日志缺失数据恢复方法，其特征在于：包括以下步骤：

(1)初始化，设日志中共有n个数据属性，m条记录，则数据属性集合可以表示为A，A＝{a₁，a₂，…a_n}，日志中的数据记录集合可以表示为E，E＝{e₁，e₂，…e_m}，日志中的数据可以表示为

其中，v_ij表示第j条数据记录中第i个数据属性的值，带有缺失数据的数据属性记做a_T；

(2)数据属性选取，

2.1)选取所有可能与目标缺失数据属性有相关关系的数据属性作为候选数据属性集合A′，A′＝{a₁，a₂，…a_n′}；

2.2)构建数据选取阶段的离散化规则集Rule，

其中每一条规则为r_i＝{r_i1，r_i2，…r_in′}，r_ij表示第i条规则对候选属性a_j的离散化箱数，

即在由离散化分箱数下界N_L，离散化分箱数上界NH，属性选取离散化步长S₁确定的搜索空间中，遍历所有数据属性与离散化分箱数的组合；

2.3)使用每一个离散化规则r_i∈Rule对数据离散化，使用离散化规则r_i离散化后的日志数据可以表示为

然后逐个进行数据属性选取；

2.4)对选取结果集合Result中的所有选取结果进行计数，将出现频率最高的数据属性选取集合作为最终的数据属性选取结果A_S，A_S＝{a₁，a₂，…a_q}；

(3)离散化粒度优化

3.1)构建离散化粒度优化阶段的离散化规则集Rule′，

其中每一条规则为r′_i＝{r′_i1，r′_i2，…r′_iq}，r′_ij表示第i条规则对候选属性a_j的离散化箱数，

即在由离散化分箱数下界N_L，离散化分箱数上界N_H，属性选取离散化步长S₂确定的搜索空间中，遍历所有数据属性与离散化分箱数的组合；

3.2)基于选取的数据属性子集A_S，使用每一个离散化规则r′_i∈Rule′，进行数据离散化，使用离散化规则r_i离散化后的日志数据可以表示为

对离散化后的日志数据计算加权变异系数(Weighted coefficient of variation，WCV)；

4)张量构建和张量补全

4.1)使用离散化后的日志数据V^F以及目标数据属性a_T构建张量，设每个数据属性a_i∈A_S上的离散数值个数为

则构建一个q维张量

4.2)使用CP分解方法对张量补全，分解过程使用梯度下降法求解；

5)日志数据恢复

对每一个带有缺失数据的记录e_i在数据属性A_S＝{a₁，a₂，…a_q}上的数值分别为{v^F _i1，v^F _i2...，v^F _iq}，通过映射M获取{v^F _i1，v^F _i1...，v^F _iq}对应的排列序号{d_i1，d_i2...，d_ij}，则使用补全后的张量值

对缺失数据进行恢复。

2.如权利要求1所述的数据中心日志缺失数据恢复方法，其特征在于：2.3)包括：

2.3.1)利用公式(1)和公式(2)计算所有候选数据属性a_i∈A′与目标数据属性a_T的AMI，记做AMI(a_i；a_T) ，然后初始化候选数据属性的优先级P，P＝{p₁，p₂，…p_n}，其中p_i＝AMI(a_i；a_T) ，

2.3.2)选择一个优先级最高的数据属性(记做a_k)加入至选取数据属性集合，并将其从候选数据属性集合A′中移除，将剩余候选数据属性a_l∈A′的优先级更新为p_l×(1-AMI(a_l，a_k)) ，

2.3.3)重复步骤2.3.2)直到选取数据属性的数量等于目标选取数量，

2.3.4)将选取结果记做result_i并加入到选取结果集合Result中。

3.如权利要求1所述的数据中心日志缺失数据恢复方法，其特征在于：4.1)包括：

4.1.2)将目标数据属性a_T的数值作为张量值填入张量，设数据记录e_i在选取数据属性A_s＝{a₁，a₂，…a_q}上的数值分别为{v^F _i1，v^F _i2...，v^F _iq}，在目标数据属性a_T的数值

通过映射M获取{v^F _i1，v^F _i1...，v^F _iq}对应的排列序号{d_i1，d_i2...，d_ij)，则张量中的数值

作为张量的数值。

4.如权利要求1所述的数据中心日志缺失数据恢复方法，其特征在于：4.2)包括：

4.2.1)使用区间[0，1]上的随机数值初始化q个因子矩阵，因子矩阵

对应数据属性a_i，S_i为a_i属性离散数据的个数，R为算法的超参数，根据公式(6)初始化权重矩阵W，

4.2.2)根据公式(7)对因子矩阵进行更新，其中

为构建的稀疏张量，“[[]]”为Khatri-Rao运算符，

表示张量

的N-mode矩阵化，

λ₁和λ₂为算法超参数；

4.2.3)根据公式(8)计算目标函数值，

5.如权利要求1所述的数据中心日志缺失数据恢复方法，其特征在于：4.2)包括：3.2)中WCV的计算步骤如下：首先将日志数据中的记录按数据属性子集A_S中每一个数据属性的值分组，记做G，G＝{g₁，g₂，…g_p}，每一个分组

其中每一条记录在所有数据属性a_k∈A_S上都拥有相等的数值v^i′ _jk，利用公式(3)计算每个分组中目标数据属性a_T数值

的变异系数，记做c_i，利用公式(4)计算每个分组的WCV_i，然后利用公式(5)计算整个日志的WCV ，