CN111274286A

CN111274286A - 基于模式分析的矩阵填充方法及装置

Info

Publication number: CN111274286A
Application number: CN202010049398.3A
Authority: CN
Inventors: 唐晓岚; 鲁思远; 陈文龙; 郝子丰; 周丽娟
Original assignee: Capital Normal University
Current assignee: Capital Normal University
Priority date: 2020-01-16
Filing date: 2020-01-16
Publication date: 2020-06-12
Anticipated expiration: 2040-01-16
Also published as: CN111274286B

Abstract

本发明公开了一种基于模式分析的矩阵填充方法及装置，其中，方法包括以下步骤：根据原始数据建立数据矩阵；确定基本模式数量，并对数据矩阵进行非负矩阵分解，得到系数矩阵和模式矩阵，且对模式矩阵归一化处理，得到归一化后的模式矩阵，并且通过归一化后的模式矩阵更新系数矩阵，以获取数据分类后的矩阵；将分类后的矩阵进行重新排列，且使用矩阵填充算法恢复排列后的矩阵，然后将恢复后的矩阵重新排列成初始形状。该方法能够在相同的采样率下提高数据恢复的准确性，减少恢复矩阵填充所需时间，达到更好的恢复效果，简单易实现。

Description

基于模式分析的矩阵填充方法及装置

技术领域

本发明涉及数据处理技术领域，特别涉及一种基于模式分析的矩阵填充方法及装置。

背景技术

信息时代人们对海量数据分析挖掘的需求日益增长。现实生活中人们往往只能采样或观测到一部分数据信息，其他信息由于各种原因(例如采样成本或设备故障等)丢失或空缺。当收集到的数据不完整时，将会导致后续对数据的利用达不到预期效果，例如，传感器测量空气质量时，可能因为部分传感器故障导致某个位置某一时刻的数据丢失，研究该时刻的总体空气质量就会出现问题。再例如，出租车轨迹数据可能因为某个地点信号不佳出现数据丢失，这会导致对该路段的车流量统计变得不准确。

因此，数据信息的恢复对生产生活十分重要。根据采集到的部分已知信息有效填充缺失项，从而得到较为完整和准确的信息供使用者做出分析和决策。然而，目前恢复数据过程中数据相关性利用往往不够充分，数据恢复效果较差，亟待解决。

发明内容

本申请是基于发明人对以下问题的认识和发现做出的：

本发明解决的问题是：恢复数据过程中数据相关性利用不充分的问题。目前，采用矩阵填充技术可以进行缺失数据的恢复，在矩阵填充中，为了能精确重建数据，原始矩阵的低秩性是矩阵填充的必要条件。然而，研究表明，数据的某些相似特性(如周期性、空间相关性等)是影响数据恢复性能的一个因素，因此如何挖掘并利用数据中隐含的相似性是矩阵填充研究需要解决的问题。

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的一个目的在于提出一种基于模式分析的矩阵填充方法，该方法能够在相同的采样率下提高数据恢复的准确性，减少恢复矩阵填充所需时间，达到更好的恢复效果，简单易实现。

本发明的另一个目的在于提出一种基于模式分析的矩阵填充装置。

为达到上述目的，本发明一方面实施例提出了一种基于模式分析的矩阵填充方法，包括以下步骤：根据原始数据建立数据矩阵；确定基本模式数量，并对所述数据矩阵进行非负矩阵分解，得到系数矩阵和模式矩阵，且对所述模式矩阵归一化处理，得到归一化后的模式矩阵，并且通过所述归一化后的模式矩阵更新所述系数矩阵，以获取数据分类后的矩阵；将所述分类后的矩阵进行重新排列，且使用矩阵填充算法恢复排列后的矩阵，然后将恢复后的矩阵重新排列成初始形状。

本发明实施例的基于模式分析的矩阵填充方法，在进行矩阵填充前，使用模式分析方法从原始数据中提取出基本模式，从而对原始数据进行归类，高效发掘出数据的相似性，并在此基础上对矩阵进行重排，之后再对数据进行填充，能够在相同的采样率下提高数据恢复的准确性，减少恢复矩阵填充所需时间，达到更好的恢复效果，简单易实现。

另外，根据本发明上述实施例的基于模式分析的矩阵填充方法还可以具有以下附加的技术特征：

进一步地，在本发明的一个实施例中，矩阵的更新公式为：

其中，V为原始数据矩阵，C为系数矩阵，C_ik表示第i个位置对应第k个模式的系数，C^T为系数矩阵的转置，P为模式矩阵，P_kj表示第k种模式中第j个时间段的数值，P^T为模式矩阵的转置。

进一步地，在本发明的一个实施例中，归一化的目标函数及其约束公式为：

其中，var_d(·)表示d天数据的方差，avg_d(·)表示d天数据的平均值，

为第d天基本模式矩阵中第r个模式所对应的系数向量，

为第d天第r个模式所对应的数值向量，n为天数，

为第d天第r个模式对应的系数，d’是为了在公式中区分两次不同的累加，d和d’实际都表示天数，

为第d天第r个模式第h个位置的模式数值。

进一步地，在本发明的一个实施例中，用所述归一化后的模式矩阵更新的最优问题为：

其中，{·}_t代表向量中第t个元素，

为第d天原始数据矩阵第i个位置第.个时间段内的数值，

为第d天第i个位置的第.个模式的系数，

表示模式矩阵归一化之后的值，s.t.指 subject to，表示受制于某条件，

为第d天第i个位置的第1个模式的系数，

为第d天第i个位置的第2个模式的系数，

为第d天第i个位置的第3个模式的系数，

为第d天第i个位置的第4个模式的系数。

进一步地，在本发明的一个实施例中，所述将所述分类后的矩阵进行重新排列，包括：计算重排后的方阵行列数

计算子矩阵的行数目

计算原始矩阵分割的矩阵数目

分割所述原始矩阵成多个小矩阵，其中，若最后一个子矩阵不足n′行，通过空行补足，使行数目为n′；通过集成子矩阵建立重排矩阵X′。

为达到上述目的，本发明另一方面实施例提出了一种基于模式分析的矩阵填充装置，包括：建立模块，用于根据原始数据建立数据矩阵；分析模块，用于确定基本模式数量，并对所述数据矩阵进行非负矩阵分解，得到系数矩阵和模式矩阵，且对所述模式矩阵归一化处理，得到归一化后的模式矩阵，并且通过所述归一化后的模式矩阵更新所述系数矩阵，以获取数据分类后的矩阵；处理模块，用于将所述分类后的矩阵进行重新排列，且使用矩阵填充算法恢复排列后的矩阵，以将恢复后的矩阵重新排列成初始形状。

本发明实施例的基于模式分析的矩阵填充装置，在进行矩阵填充前，使用模式分析方法从原始数据中提取出基本模式，从而对原始数据进行归类，高效发掘出数据的相似性，并在此基础上对矩阵进行重排，之后再对数据进行填充，能够在相同的采样率下提高数据恢复的准确性，减少恢复矩阵填充所需时间，达到更好的恢复效果，简单易实现。

另外，根据本发明上述实施例的基于模式分析的矩阵填充装置还可以具有以下附加的技术特征：

进一步地，在本发明的一个实施例中，矩阵的更新公式为：

为第d天基本模式矩阵中第r个模式所对应的系数向量，

为第d天第r个模式所对应的数值向量，n为天数，

为第d天第r个模式对应的系数，d’是为了在公式中区分两次不同的累加，d和d’均表示天数，

为第d天第r个模式第h个位置的模式数值。

其中，{·}_t代表向量中第t个元素，

为第d天原始数据矩阵第i个位置第.个时间段内的数值，

为第d天第i个位置的第.个模式的系数，

为第d天第i个位置的第1个模式的系数，

为第d天第i个位置的第2个模式的系数，

为第d天第i个位置的第3个模式的系数，

为第d天第i个位置的第4个模式的系数。

进一步地，在本发明的一个实施例中，所述处理模块进一步用于：计算重排后的方阵行列数

计算子矩阵的行数目

计算原始矩阵分割的矩阵数目

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为根据本发明实施例的基于模式分析的矩阵填充方法的流程图；

图2为根据本发明一个实施例的基于模式分析的矩阵填充方法的流程图；

图3为根据本发明实施例按模式分析方法重排示例图；

图4为根据本发明实施例矩阵重排与矩阵填充示例图；

图5为根据本发明实施例基于模式分析的矩阵填充装置的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

在介绍基于模式分析的矩阵填充方法及装置之前，先简单介绍一下现有技术及其缺点。

(1)现有技术的实现方案：

近年来对于恢复缺失数据经常使用矩阵填充的方法。先对采集到的数据进行分析，定义合理的数据矩阵来表示所有数据。现有研究表明，对于低秩矩阵而言，通过求解核范数最小化模型或格拉斯曼流形最小化模型可以实现缺失数据的恢复。具体有以下几种经典算法解决这一问题：奇异值阈值算法、加速临近梯度算法、optspace算法等。

在利用矩阵的特性时，常用方案是观察并猜想数据可能具有的特性，并且进行试验验证从而揭露数据中存在的隐藏结构。例如对于可能具有时间稳定性的数据，通过计算每一个相邻时间内数据数值的差异并统计是否在一个可以接受的范围内，如果是，则证明其有时间稳定性。再例如包含位置信息，可能具有空间相关性的数据，通过计算不同位置数据的某种差值，如果均在可以接受的范围内，则证明数据具有空间相关性。经过试验验证具有某些特性后，根据这些特性对矩阵进行重排，可以提高数据恢复的性能。

对于提取数据特性，还有研究者使用矩阵分解的方法。矩阵分解是对数据维数进行消减和压缩的方法，也可以用在模式分析当中。矩阵分解的结果矩阵元素往往有正有负，但在实际应用场景中，例如抽取数据某一特征，往往负值是没有意义的，因此出现了非负矩阵分解。非负矩阵分解是一种矩阵分解的方法，它的目的是将一个非负矩阵分解为两个非负矩阵，并且认为这两个非负矩阵是具有物理意义的。非负矩阵分解公式如下：

V≈CP

其中，

为原始非负矩阵，

m与h根据不同的原始数据表示不同的意义，r指的是最终的模式数量(一般根据实际应用背景来确定r的值)。Daniel等人提出将矩阵进行非负矩阵分解可以得到一个基础特征矩阵和一个系数矩阵，例如对文本数据进行分解，原矩阵的元素表示某个词在某篇文章中出现的频率，分解之后得到一个表示主题的矩阵，和一个对应的系数矩阵，对应的物理意义为一篇文章是由若干个主题组成，通过组合不同主题的比例，可以生成不同的文章。

(2)现有技术的缺点：

矩阵填充可以通过相对少的数据精确恢复一个低秩矩阵。许多数据集内部隐含着相关性，因此这些数据组成的矩阵具有低秩性。对于一个待恢复的数据集，目前的方法大多是先根据数据的特征建立数学模型，生成数据矩阵后，使用合适的矩阵填充算法恢复缺失的数据。这种方法简单直接，但是没有利用数据的隐含特性。

矩阵被精确恢复需要采样数目充分。如果采样数目低于所需的最小值，将使得重建算法需要很长时间，恢复数据不准确，甚至算法不收敛。此外，当数据缺失率很高时，算法性能将受到很大影响。因此不利用数据隐含特性的填充方案将需要更高的采样率，在同等采样率下，直接对矩阵进行填充性能较差。

对于待恢复的数据矩阵，目前的方案除了直接使用合适的矩阵填充算法进行恢复，还有先根据矩阵隐含的相关性进行重新排列而后再进行填充。根据经验或观察列出数据可能具有的特性，对这些可能具有的特性进行实验验证后再对这些特性加以利用，而后对矩阵进行重排等操作。也可以直接根据原始数据矩阵分析数据的模式，但原始数据矩阵的维度一般很大，直接对原始数据矩阵的规律性进行模式分析并进行后续的填充工作会造成特征维度过大，使得算法的时间复杂度过高。

下面参照附图描述根据本发明实施例提出的基于模式分析的矩阵填充方法及装置，首先将参照附图描述根据本发明实施例提出的基于模式分析的矩阵填充方法。

图1是本发明一个实施例的基于模式分析的矩阵填充方法的流程图。

如图1所示，该基于模式分析的矩阵填充方法包括以下步骤：

在步骤S101中，根据原始数据建立数据矩阵。

以气象数据中的PM2.5数据为例，定义矩阵

表示PM2.5数据。其中X^d表示第d天全部传感器位置记录的PM2.5数值，N表示传感器位置，T表示测量的时间槽。矩阵X^d中的一个元素

表示在第d天中第j个单位时间内第i位置上的传感器测到的PM2.5值。因为PM2.5数据都为非负数，因此X^d是一个非负矩阵。

比如，矩阵

是一个包含N个传感器位置，时间维度为24(单位时间为1小时)的PM2.5数据矩阵：

其中40表示第一天第一个传感器位置上第一个单位时间内的PM2.5值是40。

在步骤S102中，确定基本模式数量，并对数据矩阵进行非负矩阵分解，得到系数矩阵和模式矩阵，且对模式矩阵归一化处理，得到归一化后的模式矩阵，并且通过归一化后的模式矩阵更新系数矩阵，以获取数据分类后的矩阵。

可以理解的是，如图2所示，本发明实施例在进行模式分析时，首先，确定基本模式数量r，对数据矩阵进行非负矩阵分解，得到系数矩阵C和模式矩阵P；其次，模式矩阵P 归一化得到

然后，用归一化后的模式矩阵更新C；最后，分析系数矩阵和模式矩阵，将数据分类。

具体而言，(1)确定基本模式数量r，对数据矩阵进行非负矩阵分解，得到系数矩阵C 和模式矩阵P

先确定参数r(基本模式数量)。r的值是未知的，需根据具体问题背景分析进行确定。在本发明的例子中，将r的初始范围定为2至10，将365天的PM2.5数据矩阵进行分解。对于参数r的每个取值，都有365个分解结果。分析这些矩阵，发现当r＝4时，365个基本模式矩阵最稳定，即这些矩阵每一行数据的欧式距离最小。因此在本例中基本模式数量设为4。

确定r后，在基本模式数量设为r时执行非负矩阵分解，得到系数矩阵C和模式矩阵P。

对第d天矩阵非负分解为如下形式：

X^d≈C^dP^d，

C^d表示系数矩阵，P^d表示模式矩阵。N表示传感器位置，T表示测量的时间槽，r指的是最终的模式数量，r＝4。

为了能够定量比较分解后的矩阵与原矩阵的近似程度，选择欧几里得距离方式定义了目标函数J(C,P)＝∑_i,j[X_ij-(CP)_ij]²。定义好目标函数后，需要求解的问题就变为如下形式：

min∑_i,j[X_ij-(CP)_ij]²，

s.t.C≥0,P≥0，

对于上述目标函数，定义乘法更新规则如下，采用下述规则不断更新矩阵C和矩阵P 直到两个矩阵收敛为止。

(2)模式矩阵P归一化得到

上一步得到的P是最稳定的，说明在基本模式数量为4时，365天内的基本模式矩阵相似。为使模式矩阵更准确，这一步使用归一化方法使其差异达到最小。

在确定r＝4之后，之前的分解公式如下：

用

表示模式矩阵归一化之后的值，可以通过乘以某个系数a来得到

并称a为归一化因子，分解公式如下：

用

表示第d天基本模式矩阵中第r个模式所对应的系数向量，向量维度为h，向量中的元素都相等，以表示对该模式的缩放情况。目的是将模式矩阵归一化，即通过乘上归一化因子a之后，365天的模式矩阵之间的差异达到最小，这可以通过最小化

的方差来确定系数a，其中d＝1,2,…,n，n表示PM2.5数据的总天数。目标函数及其约束可以写成公式：

其中var_d(·)表示d天数据的方差，avg_d(·)表示d天数据的平均值。通过解这个最优化问题，我们可以分别求得向量

将矩阵P的各行与系数A相乘，即可得到归一化的模式矩阵

最后，我们通过下面的公式将

的每一行之和变为1。

(3)用归一化后的模式矩阵更新C

归一化后利用每日的数据矩阵X^d和模式矩阵

来得到系数矩阵C^d。由于X^d和

已知，不再采用非负矩阵分解的迭代方法来更新C^d。为了找到合适的C^d，要使X^d与

的差值最小，得到以下最优化问题：

其中{·}_t代表向量中第t个元素。这个最优化问题可以通过Karush-Kuhn-Tucker最优化条件解决。

(4)分析系数矩阵和模式矩阵，将数据分类

不同模式PM2.5数值随时间变化趋势不同，主要包括四个模式，即早晚通勤高峰后PM2.5浓度显著提高、PM2.5峰值集中在早中晚三个时段、PM2.5峰值集中在全天、其他变化趋势。

系数矩阵C的每一行代表不同模式的比重，例如第一个系数大，代表这个传感器位置更偏向于模式1。根据系数矩阵每一行的系数，确认每一个传感器位置更接近哪种模式，将全部传感器位置分成4组。

在步骤S103中，将分类后的矩阵进行重新排列，且使用矩阵填充算法恢复排列后的矩阵，以将恢复后的矩阵重新排列成初始形状。

具体而言，(1)将分类后的矩阵进行重新排列

上一步得到4个不同模式的传感器集合。按每个传感器对应模式的系数降序排列，以列表示每个传感器位置，行表示时间，按顺序将这些列重新排列，得到新的矩阵。

图3中的(1)表示原始数据矩阵，执行步骤S102的模式分析后，得到每一列对应的模式，图3中的(2)表示分析得到的矩阵，图3中的(3)表示根据模式分类重排后得到的矩阵。

由于时间槽数量庞大，因此矩阵的行数和列数相差很大。研究表明，将待填充的矩阵重排成近似于方阵的矩形，在相同的采样率下，重排后的矩阵恢复性能更好。

以天为单位的分割不会过大增加矩阵的秩，且重排矩阵的行空间与列空间的维度不会改变。因此在这里，将矩阵按天(24h)为单位进行裁剪，裁剪后不足行数的，用空行补足并进行重排，使重排后的矩阵为正方形。

矩阵X^m×n(m＞＞n)重排方法总结如下：

1计算重排后可能的方阵行列数。

2计算子矩阵的行数目：

3计算原始矩阵X可以分割的矩阵数目：

4分割原始矩阵成多个小矩阵，如果最后一个子矩阵不足n′行，通过空行补足,使行数目为n′；

5通过集成子矩阵建立重排矩阵X′。

(2)使用矩阵填充算法恢复排列后的矩阵

对于重排后的四个矩阵(每个模式对应一个)，分别使用矩阵填充算法恢复矩阵。

(3)将恢复后的矩阵重新排列成初始形状

将恢复后的矩阵按照重排方法逆序执行，并且按照初始原矩阵的位置将4个模式的矩阵重新排成一个大矩阵。

因矩阵规模通常很大，每个模式的数据可能有多列，每列的重排方式相同。这里以每个模式有一列数据为例，图4展示了矩阵重排、填充及恢复的过程。图4中的(1)表示按模式重排后的矩阵，将这些列拼接为新的矩阵即如图4中的(2)所示，而后进行矩阵重排算法，将矩阵按行(天)分割并重排，使之排列为尽可能方的矩阵，不足行的部分用零补足，得到用零补足后的重排矩阵即如图4中的(3)所示。之后使用矩阵填充算法对重排后的矩阵进行恢复，得到填充后的重排矩阵即如图4中的(4)所示，最后按重排算法的逆序将矩阵恢复原来的形状即如图4中的(5)所示。

综上，当收集到的数据不完整时，将会导致后续对数据的利用达不到预期效果。在对缺失数据进行恢复时，数据的某些相似特性(如周期性、空间相关性等)是影响数据恢复性能的一个因素。因此，本发明实施例在进行矩阵填充前，使用模式分析方法从原始数据中提取出基本模式，从而对原始数据进行归类，高效发掘出数据的相似性，并在此基础上对矩阵进行重排，之后再对数据进行填充，能够在相同的采样率下提高数据恢复的准确性，减少恢复矩阵填充所需时间

其次参照附图描述根据本发明实施例提出的基于模式分析的矩阵填充装置。

图5是本发明一个实施例的基于模式分析的矩阵填充装置的结构示意图。

如图5所示，该基于模式分析的矩阵填充装置10包括：建立模块100、分析模块200和处理模块300。

其中，建立模块100用于根据原始数据建立数据矩阵；分析模块200用于确定基本模式数量，并对数据矩阵进行非负矩阵分解，得到系数矩阵和模式矩阵，且对模式矩阵归一化处理，得到归一化后的模式矩阵，并且通过归一化后的模式矩阵更新系数矩阵，以获取数据分类后的矩阵；处理模块300用于将分类后的矩阵进行重新排列，且使用矩阵填充算法恢复排列后的矩阵，以将恢复后的矩阵重新排列成初始形状。本发明实施例的装置10能够在相同的采样率下提高数据恢复的准确性，减少恢复矩阵填充所需时间，达到更好的恢复效果，简单易实现。

进一步地，在本发明的一个实施例中，矩阵的更新公式为：

为第d天基本模式矩阵中第r个模式所对应的系数向量，

为第d天第r个模式所对应的数值向量，n为天数，

为第d天第r个模式第h个位置的模式数值。

进一步地，在本发明的一个实施例中，用归一化后的模式矩阵更新的最优问题为：

其中，{·}_t代表向量中第t个元素，

为第d天原始数据矩阵第i个位置第.个时间段内的数值，

为第d天第i个位置的第.个模式的系数，

为第d天第i个位置的第1个模式的系数，

为第d天第i个位置的第2个模式的系数，

为第d天第i个位置的第3个模式的系数，

为第d天第i个位置的第4个模式的系数。

进一步地，在本发明的一个实施例中，处理模块进一步用于：计算重排后的方阵行列数

计算子矩阵的行数目

计算原始矩阵分割的矩阵数目

分割原始矩阵成多个小矩阵，其中，若最后一个子矩阵不足n′行，通过空行补足，使行数目为n′；通过集成子矩阵建立重排矩阵X′。

需要说明的是，前述对基于模式分析的矩阵填充方法实施例的解释说明也适用于该实施例的基于模式分析的矩阵填充装置，此处不再赘述。

根据本发明实施例提出的基于模式分析的矩阵填充装置，在进行矩阵填充前，使用模式分析方法从原始数据中提取出基本模式，从而对原始数据进行归类，高效发掘出数据的相似性，并在此基础上对矩阵进行重排，之后再对数据进行填充，能够在相同的采样率下提高数据恢复的准确性，减少恢复矩阵填充所需时间，达到更好的恢复效果，简单易实现。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

在本发明中，除非另有明确的规定和限定，第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触，或第一和第二特征通过中间媒介间接接触。而且，第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方，或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面” 可以是第一特征在第二特征正下方或斜下方，或仅仅表示第一特征水平高度小于第二特征。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。