CN111209974A

CN111209974A - 基于张量分解的异构大数据核心特征提取的方法及***

Info

Publication number: CN111209974A
Application number: CN202010024055.1A
Authority: CN
Inventors: 杨天若; 高源�; 赵雅靓; 杨静
Original assignee: Huazhong University of Science and Technology; Ezhou Institute of Industrial Technology Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology; Ezhou Institute of Industrial Technology Huazhong University of Science and Technology
Priority date: 2020-01-14
Filing date: 2020-01-14
Publication date: 2020-05-29

Abstract

本发明公开了基于张量分解的异构大数据核心特征提取的方法，所述方法根据N+1阶张量的正交Tucker‑N分解模型，将变换后的K个张量数据Y^(k)沿第N+1阶进行串联，获得N+1阶张量Y；并对Y进行正交Tucker‑N模式分解，获得核心张量F；基于核心张量F，获得所述张量数据X^(k)的低维核心特征，不仅对K个张量数据同时进行了降维，且由于对K个张量数据串联后，再进行正交Tucker‑N模式分解，其获得的低维核心特征保持原始K个张量数据的全局信息，使任意两个张量数据的低维核心特征距离等于其对应的两个原始张量之间的张量距离，因此，利于后续直接对提取到的低维核心特征进行深度处理与分析，从而获得更准确的分析结果。

Description

基于张量分解的异构大数据核心特征提取的方法及***

技术领域

本发明涉及张量数据处理技术领域，尤其涉及基于张量分解的异构大数据核心特征提取的方法及***。

背景技术

近年来，随着互联网、物联网、云计算等高新信息技术的迅猛发展，信息社会已经进入大数据时代。现实世界大量的感知设备、智能产品、网络通信、社交媒体等源源不断的产生海量异构的高维数据汇集在信息-物理-社会空间(CPSS，Cyber Physical SocialSystem)。相对于大数据典型特征，如数据规模大(Volume)、类型多(Variety)、产生速度快(Velocity)、数据不完整(Veracity)、价值密度低(Value)等，多样化的数据来源以及组织方式导致了CPSS大数据具有多源、异构、高维、混杂等特点。同时随着数据的源源不断产生以及不同应用领域数据之间的深度融合，CPSS***中的数据结构以及关联关系变得更加复杂。直接对CPSS中采集的低质、高维、海量数据进行处理与分析，一方面会给计算机带来巨大的存储与计算开销，另一方面由于数据的低质、冗余效应，直接影响各种模式识别、机器学习等任务的效率与精度。

为了解决高维数据带来的维度灾难问题，工程上通常会对原始观测数据进行特征提取与数据降维，这不仅可以降低数据特征空间的维度，减少各种学习任务的数据存储空间，而且可以对原始数据进行降噪以及提高学习任务的精度。现有技术中，通过基于张量的流形学习方法保持原始数据固有流形的局部结构或几何性质来实现降维，但降维提取的数据特征难以保留原始张量数据嵌入在高维空间中的低维流形结构。

发明内容

本申请实施例通过提供基于张量分解的异构大数据核心特征提取的方法及***，解决现有对张量数据降维提取的数据特征难以保留原始张量数据嵌入在高维空间中的低维流形结构的技术问题。

一方面，本申请通过本申请的一实施例提供如下技术方案：

一种基于张量分解的异构大数据核心特征提取的方法，所述方法包括：

获取社会物理信息***中的K个N阶张量数据

I₁，I₂，…I_N表示N个特征空间的维度；

基于所述张量数据，获得由元素g_lm构成的系数矩阵g；其中，

σ是正则化参数，

是两个所述张量数据的位置距离；

对g进行特征值分解，获得

对G¹/₂进行张量化操作，获得系数张量G；

将X^(k)与G进行多模乘，获得变换后的张量数据

根据N+1阶张量的正交Tucker-N分解模型，将Y^(k)沿第N+1阶进行串联，获得N+1阶张量Y；

对Y进行正交Tucker-N模式分解，获得N个正交因子矩阵和核心张量F；

基于所述N个正交因子矩阵和所述核心张量F，获得所述张量数据X^(k)的低维核心特征。

可选的，所述对G¹/₂进行张量化操作，获得系数张量G，具体包括：

利用如下公式计算获得系数张量G：

其中，reshape表示重组函数。

可选的，所述将X^(k)与G进行多模乘，获得变换后的张量数据

具体包括：

利用如下公式变化获得

其中，具体的元素运算如下：

可选的，所述根据N+1阶张量的正交Tucker-N分解模型，将Y^(k)沿第N+1阶进行串联，获得N+1阶张量Y，具体包括：

利用如下公式计算获得N+1阶张量Y：

其中，cat表示数组联结函数。

可选的，所述对Y进行正交Tucker-N模式分解，获得N个正交因子矩阵和核心张量F，具体包括：

S1、对Y进行高阶奇异值分解，获得高阶奇异值分解结果；

S2、利用所述高阶奇异值分解结果初始化前N个因子矩阵U⁽¹⁾，U⁽²⁾，…，U^(N)，令k＝0；

S3、令k＝k+1，并计算

S^(-n)←Y×₁U^(1)T…×_n-1U^(n-1)T×_n+1U^(n+1)T…×_NU^(N)T；

S4、对

进行矩阵化展开，计算奇异值矩阵S_(n) ^(-n)＝U∑V^T，确定有效秩J_n，n＝1，2，…，N；

S5、计算F^(k)←Y×₁U^(1)T×₂U^(2)T…×_NU^(N)T，并判断核心张量是否满足收敛条件

若否，则返回S3，迭代直至满足所述收敛条件，获得N个正交因子矩阵和一个核心张量

可选的，所述基于所述N个正交因子矩阵和所述核心张量F，获得所述张量数据X^(k)的低维核心特征，具体包括：

固定所述核心张量的第N+1阶的指标为k，获得N阶子张量

其中，

对应第k个张量数据的低维核心特征，任意两个张量数据的低维核心特征距离等于对应的所述两个张量数据的之间的张量距离。

可选的，在基于所述张量数据，获得由元素g_lm构成的系数矩阵g之前，所述方法还包括：

对所述张量数据进行预处理，获得预处理后的张量数据；

其中，利用如下公式对所述张量数据进行预处理：

所述基于所述张量数据，获得由元素g_lm构成的系数矩阵g，包括：

基于所述预处理后的张量数据，获得由元素g_lm构成的系数矩阵g。

另一方面，本申请通过本申请的另一实施例提供一种基于张量分解的异构大数据核心特征提取的***，所述***包括：

数据获取模块，用于获取社会物理信息***中的K个N阶张量数据

I₁，I₂，…I_N表示N个特征空间的维度；

第一获得模块，用于基于所述张量数据，获得由元素g_lm构成的系数矩阵g；其中，

σ是正则化参数，

是两个所述张量数据的位置距离；

第二获得模块，用于对g进行特征值分解，获得

第三获得模块，用于对G¹/₂进行张量化操作，获得系数张量G；

第四获得模块，用于将X^(k)与G进行多模乘，获得变换后的张量数据

第五获得模块，用于根据N+1阶张量的正交Tucker-N分解模型，将Y^(k)沿第N+1阶进行串联，获得N+1阶张量Y；

第六获得模块，用于对Y进行正交Tucker-N模式分解，获得N个正交因子矩阵和核心张量F；

第七获得模块，用于基于所述N个正交因子矩阵和所述核心张量F，获得所述张量数据X^(k)的低维核心特征。

本发明公开了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述方法的步骤。

本申请实施例中提供的一个或多个技术方案，至少具有如下技术效果或优点：

本发明的方法，首先获取社会物理信息***中的K个N阶张量数据

I₁，I₂，…I_N表示N个特征空间的维度；为了使张量数据所提取低维特征能够保持原始张量数据的张量距离，并减少运算复杂度，需要对样本进行多模乘变换，而在此之前，需要首先基于所述张量数据，获得由元素g_lm构成的系数矩阵g；其中，

σ是正则化参数，

是两个所述张量数据的位置距离；对g进行特征值分解，获得

对G¹/₂进行张量化操作，获得系数张量G；在获得系数张量后，为了避免大规模样本数据在向量化操作以及矩阵乘法变换时，带来额外的时间开销，直接将X^(k)与G进行多模乘，获得变换后的张量数据

为了提取张量数据的有效特征，并且尽可能的保持原始多个张量数据之间的全局信息，本发明的方法根据N+1阶张量的正交Tucker-N分解模型，将变换后的K个张量数据Y^(k)沿第N+1阶进行串联，获得N+1阶张量Y；并对Y进行正交Tucker-N模式分解，获得N个正交因子矩阵和核心张量F；基于N个正交因子矩阵和核心张量F，获得所述张量数据X^(k)的低维核心特征，不仅对K个张量数据同时进行了降维，且由于对K个张量数据串联后，再进行正交Tucker-N模式分解，其获得的低维核心特征保持原始K个张量数据的全局信息，使任意两个张量数据的低维核心特征距离等于其对应的两个原始张量之间的张量距离，因此，利于后续直接对提取到的低维核心特征进行深度处理与分析，从而获得更准确的分析结果。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1是本发明一种实施例中的基于张量分解的异构大数据核心特征提取的方法流程图；

图2是本发明一种实施例中的基于张量分解的异构大数据核心特征提取的***结构图。

具体实施方式

本申请实施例通过提供基于张量分解的异构大数据核心特征提取的方法，解决了现有对张量数据降维提取的数据特征难以保留原始张量数据嵌入在高维空间中的低维流形结构的技术问题。

本申请实施例的技术方案为解决上述技术问题，总体思路如下：

一种基于张量分解的异构大数据核心特征提取的方法，所述方法包括：获取社会物理信息***中的K个N阶张量数据

，I₁，I₂，…I_N表示N个特征空间的维度；基于所述张量数据，获得由元素g_lm构成的系数矩阵g；其中，

σ是正则化参数，

是两个所述张量数据的位置距离；对g进行特征值分解，获得

对G¹/₂进行张量化操作，获得系数张量G；将X^(k)与G进行多模乘，获得变换后的张量数据

根据N+1阶张量的正交Tucker-N分解模型，将Y^(k)沿第N+1阶进行串联，获得N+1阶张量Y；对Y进行正交Tucker-N模式分解，获得核心张量F；基于核心张量F，获得所述张量数据X^(k)的低维核心特征。

为了更好的理解上述技术方案，下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。

首先说明，本文中出现的术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

近年来，随着互联网、物联网、云计算等高新信息技术的迅猛发展，信息社会已经进入大数据时代。现实世界大量的感知设备、智能产品、网络通信、社交媒体等源源不断的产生海量异构的高维数据汇集在信息-物理-社会空间(CPSS)。相对于大数据典型特征，如数据规模大(Volume)、类型多(Variety)、产生速度快(Velocity)、数据不完整(Veracity)、价值密度低(Value)等，多样化的数据来源以及组织方式导致了CPSS大数据具有多源、异构、高维、混杂等特点。同时随着数据的源源不断产生以及不同应用领域数据之间的深度融合，CPSS***中的数据结构以及关联关系变得更加复杂。直接对CPSS中采集的低质、高维、海量数据进行处理与分析，一方面会给计算机带来巨大的存储与计算开销，另一方面由于数据的低质、冗余效应，直接影响各种模式识别、机器学习等任务的效率与精度。

为了解决高维数据带来的维度灾难问题，工程上通常会对原始观测数据进行特征提取与数据降维，这不仅可以降低数据特征空间的维度，减少各种学习任务的数据存储空间，而且可以对原始数据进行降噪以及提高学习任务的精度。其中，一方面，最具代表性的特征提取方法有小波变换、主成分分析(PCA)、核主成分分析(KPCA)、独立成分分析(ICA)以及线性判别分析(LDA)等，利用数学方法分析原始数据本身的特征属性，将原始数据转化为低维子空间中具有较大区分性的特征。然而，这些方法都是基于矩阵或者向量的方法对原始数据进行处理分析的，需要对原始数据进行向量化处理，这在很大程度上破坏了原始数据的结构信息，同时，高维数据的矢量化表示也会带来维度灾难和很高的计算复杂度等问题。另一方面，现有技术还提出了一些基于张量的流形学习方法，主要包括张量邻域保持嵌入(Tensor Neighborhood Preserving Embedding，TNPE)、张量局部保持投影(TensorLocality Preserving Projection，TLPP)以及张量局部判别嵌入(Tensor LocalDiscriminant Embedding，TLDE)等，这些方法通过保持原始数据固有流形的局部结构或几何性质来实现降维。但降维提取的数据特征往往不能最大限度地保留原始数据嵌入在高维空间中的低维流形结构，导致低维子空间的特征区分性不够理想，同时，基于张量的流形学习方法也存在较高的计算复杂度。

为此，本申请提供了如下实施例，以解决大数据融合的问题。

实施例一

本实施例提供一种基于张量分解的异构大数据核心特征提取的方法，参见图1，所述方法包括：

S101、获取社会物理信息***中的K个N阶张量数据

I₁，I₂，…I_N表示N个特征空间的维度；

S102、基于所述张量数据，获得由元素g_lm构成的系数矩阵g；其中，

σ是正则化参数，

是两个所述张量数据的位置距离；

S103、对g进行特征值分解，获得

S104、对G¹/₂进行张量化操作，获得系数张量G；

S105、将X^(k)与G进行多模乘，获得变换后的张量数据

S106、根据N+1阶张量的正交Tucker-N分解模型，将Y^(k)沿第N+1阶进行串联，获得N+1阶张量Y；

S107、对Y进行正交Tucker-N模式分解，获得N个正交因子矩阵和核心张量F；

S108、基于N个正交因子矩阵和

核心张量F，获得所述张量数据X^(k)的低维核心特征。

需要说明的是，本申请中张量数据就是异构大数据的张量表现形式，但并不限于大数据，异构大数据是指多样化的数据来源以及组织方式生成的信息-物理-社会空间(CPSS)大数据，具有多源、异构、高维、混杂等特点。在实际应用中，往往需要对大规模高维张量数据进行模式识别、计算机视觉等任务，而在此之前，需要对高维张量数据进行降维，但现有方法都是针对单个张量数据继续降维，并重点考虑每个张量数据降维后的特征保持，因此，并未考虑张量数据之间的特征保持，例如，原始张量距离特征的保持，对于应用于图像处理任务非常重要。而本发明的方法对张量数据进行拼接后，再提取特征，最大限度的保留了原始张量数据的全局核心特征，后续可直接对提取到的低维核心特征进行深度处理与分析。

下面结合附图，对各步骤进行详细的解释。

参见图1，首先执行S101，获取社会物理信息***中的K个N阶张量数据

I₁，I₂，…I_N表示N个特征空间的维度。

需要说明的是，获取的张量的数据包括各种场景的，因此，本实施例中的张量数据并不受限制性。在具体应用时，可根据具体的模式识别或计算机视觉任务，从不同空间采集的多源异构相关数据，根据融合跨域异构特征空间构建张量数据集。其中，不同空间以及跨域异构特征空间，包括信息空间、物理空间和社会空间中的一种或多种。

接下来，执行S102，基于所述张量数据，获得由元素g_lm构成的系数矩阵g；其中，

σ是正则化参数，

是两个所述张量数据的位置距离。

需要说明的是，对于高阶张量数据，张量距离能够很好的捕获数据间的不同维度之间的关系以及数据的内在结构。因此，对于张量数据的降维处理，最大限度的保留其距离特征，对降维后的数据处理显得尤为重要。在具体实施过程中，为了使张量数据所提取的低维特征能够保持原始数据的张量距离，并减少运算复杂度，需要对张量数据进行多模乘变换。但在进行多模乘之前，需要获得系数矩阵，具体方法如下：

将张量数据的张量距离定义为：

TD表示张量距离，英文全称Tensor Distance，x，y分别表示张量数据

的向量化结果，张量数据中的元素

对应向量化后的元素为

向量化的结果与

相同。其中

σ是正则化参数，

是张量数据的元素

和

的位置距离：

G是由元素g_lm构成的系数矩阵。

为了便于对张量数据的后续处理，在基于所述张量数据，获得由元素g_lm构成的系数矩阵g之前，所述方法还包括：

对所述张量数据进行预处理，获得预处理后的张量数据；

其中，利用如下公式对所述张量数据进行预处理：

接下来，执行S103，对g进行特征值分解，获得

S102中获得的G是非负对称矩阵，可直接对G进行特征值分解

，令

则S102中的张量距离可以进一步表示为：

接下来，执行S104，对G¹/₂进行张量化操作，获得系数张量G。

对G¹/₂进行张量化操作，即将

成2N阶张量。在具体实施过程中，利用如下公式计算获得系数张量G：

其中，reshape表示重组函数。

接下来，执行S105，将X^(k)与G进行多模乘，获得变换后的张量数据

为了避免大规模样本数据在向量化操作以及矩阵乘法变换时，带来额外的时间开销，直接将张量数据

与系数张量

进行多模乘，得到变换后的张量数据数据，具体操作为：

其中，具体的元素运算步骤如下：

接下来，执行S106，根据N+1阶张量的正交Tucker-N分解模型，将Y^(k)沿第N+1阶进行串联，获得N+1阶张量Y。

需要说明的是，为了提取张量数据的有效特征，并且尽可能的保持原始张量数据的全局信息，这里的原始张量数据全局信息指的是尽可能的保持原始张量数据任意两个数据点的张量距离。为此，首先执行S106，将K个张量数据进行串联，作为一种可的实施方式，所述根据N+1阶张量的正交Tucker-N分解模型，将Y^(k)沿第N+1阶进行串联，获得N+1阶张量Y，具体包括：

利用如下公式计算获得N+1阶张量Y：

其中，cat表示数组联结函数。

接下来，执行S107，对Y进行正交Tucker-N模式分解，获得N个正交因子矩阵和核心张量F。

具体的，所述对Y进行正交Tucker-N模式分解，获得N个正交因子矩阵和核心张量F，具体包括：

S1、对Y进行高阶奇异值分解(HOSVD)，获得高阶奇异值分解结果；

S3、令k＝k+1，并计算

S^(-n)←Y×₁U^(1)T…×_n-1U^(n-1)T×_n+1U^(n+1)T…×_NU^(N)T；

S4、对

进行矩阵化展开，计算奇异值矩阵

确定有效秩J_n，n＝1，2，…，N；

分解结果简记为Y≈F×₁U⁽¹⁾×₂U⁽²⁾…×_NU^(N)，即包括N个正交因子矩阵和一个核心张量F。

需要说明的是，这里只分解获得N个正交因子矩阵的原因是：N个正价因子矩阵与核心张量即可全面提取核心特征，不分解生成N+1个因子矩阵，可提高分解效率，从而提高核心特征提取的效率。

接下来，执行S108，基于N个正交因子矩阵和核心张量F，获得所述张量数据X^(k)的低维核心特征。

具体的，固定所述核心张量的第N+1阶的指标为k，获得N阶子张量

其中，

需要说明的是，获得的N阶子张量

具有以下性质：

d_ED(F⁽i⁾，F^(j))≈d_ED(Y⁽ⁱ⁾，Y^(j))＝d_TD(X⁽ⁱ⁾，X^(j))，即任意两个张量数据X⁽ⁱ⁾，X^(j)，按照前述方法提取的低维核心特征中的欧式距离d_ED(F⁽ⁱ⁾，F^(j))，等于原始张量数据的张量距离d_TD(X⁽ⁱ⁾，X^(j))。

因此，对于张量数据提取的低维核心特征

由于其保持原始数据的全局信息，即任意两个样本的低维核心特征距离等于相对应的两个原始张量数据之间的张量距离，后面可直接对提取到的低维核心特征进行深度处理与分析。在大规模高维张量数据进行模式识别、计算机视觉等任务前，进行本实施例方法的处理，对原始的高维张量数据进行全局特征提取与降维预处理，不但可降低数据存储与计算开销，还能提高对高维张量数据处理分析效率与精度。

考虑到在具体执行本实施的步骤过程中，任务数据实时产生，对于新增数据也要快速、准确的进行处理与特征提取。对此，新增数据的特征提取过程如下：对于新增数据

首先对其进行零均值化等预处理过程以及相应的多模乘变换，再对变换后的样本张量

计算其低维核心特征：F′←Y′×₁U^(1)T×₂U^(2)T…×_NU^(N)T。

上述本申请实施例中的技术方案，至少具有如下的技术效果或优点：

本实施的方法，首先获取社会物理信息***中的K个N阶张量数据

σ是正则化参数，

是两个所述张量数据的位置距离；对g进行特征值分解，获得

实施例二

基于与实施例一相同的发明构思，本实施例提供基于张量分解的异构大数据核心特征提取***，参见图2，所述***包括：

I₁，I₂，…I_N表示N个特征空间的维度；

σ是正则化参数，

是两个所述张量数据的位置距离；

第二获得模块，用于对g进行特征值分解，获得

第七获得模块，用于基于N个正交因子矩阵和核心张量F，获得所述张量数据X^(k)的低维核心特征。

由于本实施例所介绍的基于张量分解的异构大数据核心特征提取***为实现本申请实施例基于张量分解的异构大数据核心特征提取方法所采用的***，故而基于本申请实施例一中所介绍的基于张量分解的异构大数据核心特征提取方法，本领域所属技术人员能够了解本实施例的***的具体实施方式以及其各种变化形式，所以在此对于如何利用本中的***实现实施例一中的方法不再详细介绍。只要本领域所属技术人员用于实现本申请实施例中基于张量分解的异构大数据核心特征提取方法所采用的***，都属于本申请所欲保护的范围。

基于与前述实施例中同样的发明构思，本发明实施例还提供一种可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现前文任一所述方法的步骤。

基于与前述实施例中同样的发明构思，本发明实施例还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现前文任一所述方法的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。