CN111209974A - 基于张量分解的异构大数据核心特征提取的方法及*** - Google Patents

基于张量分解的异构大数据核心特征提取的方法及*** Download PDF

Info

Publication number
CN111209974A
CN111209974A CN202010024055.1A CN202010024055A CN111209974A CN 111209974 A CN111209974 A CN 111209974A CN 202010024055 A CN202010024055 A CN 202010024055A CN 111209974 A CN111209974 A CN 111209974A
Authority
CN
China
Prior art keywords
tensor
data
order
core
orthogonal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010024055.1A
Other languages
English (en)
Inventor
杨天若
高源�
赵雅靓
杨静
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huazhong University of Science and Technology
Ezhou Institute of Industrial Technology Huazhong University of Science and Technology
Original Assignee
Huazhong University of Science and Technology
Ezhou Institute of Industrial Technology Huazhong University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huazhong University of Science and Technology, Ezhou Institute of Industrial Technology Huazhong University of Science and Technology filed Critical Huazhong University of Science and Technology
Priority to CN202010024055.1A priority Critical patent/CN111209974A/zh
Publication of CN111209974A publication Critical patent/CN111209974A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Mathematical Analysis (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Mathematics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Optimization (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了基于张量分解的异构大数据核心特征提取的方法,所述方法根据N+1阶张量的正交Tucker‑N分解模型,将变换后的K个张量数据Y(k)沿第N+1阶进行串联,获得N+1阶张量Y;并对Y进行正交Tucker‑N模式分解,获得核心张量F;基于核心张量F,获得所述张量数据X(k)的低维核心特征,不仅对K个张量数据同时进行了降维,且由于对K个张量数据串联后,再进行正交Tucker‑N模式分解,其获得的低维核心特征保持原始K个张量数据的全局信息,使任意两个张量数据的低维核心特征距离等于其对应的两个原始张量之间的张量距离,因此,利于后续直接对提取到的低维核心特征进行深度处理与分析,从而获得更准确的分析结果。

Description

基于张量分解的异构大数据核心特征提取的方法及***
技术领域
本发明涉及张量数据处理技术领域,尤其涉及基于张量分解的异构大数据核心特征提取的方法及***。
背景技术
近年来,随着互联网、物联网、云计算等高新信息技术的迅猛发展,信息社会已经进入大数据时代。现实世界大量的感知设备、智能产品、网络通信、社交媒体等源源不断的产生海量异构的高维数据汇集在信息-物理-社会空间(CPSS,Cyber Physical SocialSystem)。相对于大数据典型特征,如数据规模大(Volume)、类型多(Variety)、产生速度快(Velocity)、数据不完整(Veracity)、价值密度低(Value)等,多样化的数据来源以及组织方式导致了CPSS大数据具有多源、异构、高维、混杂等特点。同时随着数据的源源不断产生以及不同应用领域数据之间的深度融合,CPSS***中的数据结构以及关联关系变得更加复杂。直接对CPSS中采集的低质、高维、海量数据进行处理与分析,一方面会给计算机带来巨大的存储与计算开销,另一方面由于数据的低质、冗余效应,直接影响各种模式识别、机器学习等任务的效率与精度。
为了解决高维数据带来的维度灾难问题,工程上通常会对原始观测数据进行特征提取与数据降维,这不仅可以降低数据特征空间的维度,减少各种学习任务的数据存储空间,而且可以对原始数据进行降噪以及提高学习任务的精度。现有技术中,通过基于张量的流形学习方法保持原始数据固有流形的局部结构或几何性质来实现降维,但降维提取的数据特征难以保留原始张量数据嵌入在高维空间中的低维流形结构。
发明内容
本申请实施例通过提供基于张量分解的异构大数据核心特征提取的方法及***,解决现有对张量数据降维提取的数据特征难以保留原始张量数据嵌入在高维空间中的低维流形结构的技术问题。
一方面,本申请通过本申请的一实施例提供如下技术方案:
一种基于张量分解的异构大数据核心特征提取的方法,所述方法包括:
获取社会物理信息***中的K个N阶张量数据
Figure BDA0002365762140000021
Figure BDA0002365762140000022
I1,I2,…IN表示N个特征空间的维度;
基于所述张量数据,获得由元素glm构成的系数矩阵g;其中,
Figure BDA0002365762140000023
Figure BDA0002365762140000024
σ是正则化参数,
Figure BDA0002365762140000025
是两个所述张量数据的位置距离;
对g进行特征值分解,获得
Figure BDA0002365762140000026
对G1/2进行张量化操作,获得系数张量G;
将X(k)与G进行多模乘,获得变换后的张量数据
Figure BDA0002365762140000027
Figure BDA0002365762140000028
根据N+1阶张量的正交Tucker-N分解模型,将Y(k)沿第N+1阶进行串联,获得N+1阶张量Y;
对Y进行正交Tucker-N模式分解,获得N个正交因子矩阵和核心张量F;
基于所述N个正交因子矩阵和所述核心张量F,获得所述张量数据X(k)的低维核心特征。
可选的,所述对G1/2进行张量化操作,获得系数张量G,具体包括:
利用如下公式计算获得系数张量G:
Figure BDA0002365762140000031
其中,reshape表示重组函数。
可选的,所述将X(k)与G进行多模乘,获得变换后的张量数据
Figure BDA0002365762140000032
Figure BDA0002365762140000033
具体包括:
利用如下公式变化获得
Figure BDA0002365762140000034
Figure BDA0002365762140000035
其中,具体的元素运算如下:
Figure BDA0002365762140000036
可选的,所述根据N+1阶张量的正交Tucker-N分解模型,将Y(k)沿第N+1阶进行串联,获得N+1阶张量Y,具体包括:
利用如下公式计算获得N+1阶张量Y:
Figure BDA0002365762140000037
其中,cat表示数组联结函数。
可选的,所述对Y进行正交Tucker-N模式分解,获得N个正交因子矩阵和核心张量F,具体包括:
S1、对Y进行高阶奇异值分解,获得高阶奇异值分解结果;
S2、利用所述高阶奇异值分解结果初始化前N个因子矩阵U(1),U(2),…,U(N),令k=0;
S3、令k=k+1,并计算
S(-n)←Y×1U(1)T…×n-1U(n-1)T×n+1U(n+1)T…×NU(N)T
S4、对
Figure BDA0002365762140000041
进行矩阵化展开,计算奇异值矩阵S(n) (-n)=U∑VT,确定有效秩Jn,n=1,2,…,N;
S5、计算F(k)←Y×1U(1)T×2U(2)T…×NU(N)T,并判断核心张量是否满足收敛条件
Figure BDA0002365762140000042
若否,则返回S3,迭代直至满足所述收敛条件,获得N个正交因子矩阵和一个核心张量
Figure BDA0002365762140000043
可选的,所述基于所述N个正交因子矩阵和所述核心张量F,获得所述张量数据X(k)的低维核心特征,具体包括:
固定所述核心张量的第N+1阶的指标为k,获得N阶子张量
Figure BDA0002365762140000044
其中,
Figure BDA0002365762140000045
对应第k个张量数据的低维核心特征,任意两个张量数据的低维核心特征距离等于对应的所述两个张量数据的之间的张量距离。
可选的,在基于所述张量数据,获得由元素glm构成的系数矩阵g之前,所述方法还包括:
对所述张量数据进行预处理,获得预处理后的张量数据;
其中,利用如下公式对所述张量数据进行预处理:
Figure BDA0002365762140000051
所述基于所述张量数据,获得由元素glm构成的系数矩阵g,包括:
基于所述预处理后的张量数据,获得由元素glm构成的系数矩阵g。
另一方面,本申请通过本申请的另一实施例提供一种基于张量分解的异构大数据核心特征提取的***,所述***包括:
数据获取模块,用于获取社会物理信息***中的K个N阶张量数据
Figure BDA0002365762140000052
Figure BDA0002365762140000053
I1,I2,…IN表示N个特征空间的维度;
第一获得模块,用于基于所述张量数据,获得由元素glm构成的系数矩阵g;其中,
Figure BDA0002365762140000054
σ是正则化参数,
Figure BDA0002365762140000055
是两个所述张量数据的位置距离;
第二获得模块,用于对g进行特征值分解,获得
Figure BDA0002365762140000056
第三获得模块,用于对G1/2进行张量化操作,获得系数张量G;
第四获得模块,用于将X(k)与G进行多模乘,获得变换后的张量数据
Figure BDA0002365762140000057
Figure BDA0002365762140000058
第五获得模块,用于根据N+1阶张量的正交Tucker-N分解模型,将Y(k)沿第N+1阶进行串联,获得N+1阶张量Y;
第六获得模块,用于对Y进行正交Tucker-N模式分解,获得N个正交因子矩阵和核心张量F;
第七获得模块,用于基于所述N个正交因子矩阵和所述核心张量F,获得所述张量数据X(k)的低维核心特征。
本发明公开了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述方法的步骤。
本申请实施例中提供的一个或多个技术方案,至少具有如下技术效果或优点:
本发明的方法,首先获取社会物理信息***中的K个N阶张量数据
Figure BDA0002365762140000061
Figure BDA0002365762140000062
I1,I2,…IN表示N个特征空间的维度;为了使张量数据所提取低维特征能够保持原始张量数据的张量距离,并减少运算复杂度,需要对样本进行多模乘变换,而在此之前,需要首先基于所述张量数据,获得由元素glm构成的系数矩阵g;其中,
Figure BDA0002365762140000063
σ是正则化参数,
Figure BDA0002365762140000064
是两个所述张量数据的位置距离;对g进行特征值分解,获得
Figure BDA0002365762140000065
对G1/2进行张量化操作,获得系数张量G;在获得系数张量后,为了避免大规模样本数据在向量化操作以及矩阵乘法变换时,带来额外的时间开销,直接将X(k)与G进行多模乘,获得变换后的张量数据
Figure BDA0002365762140000066
为了提取张量数据的有效特征,并且尽可能的保持原始多个张量数据之间的全局信息,本发明的方法根据N+1阶张量的正交Tucker-N分解模型,将变换后的K个张量数据Y(k)沿第N+1阶进行串联,获得N+1阶张量Y;并对Y进行正交Tucker-N模式分解,获得N个正交因子矩阵和核心张量F;基于N个正交因子矩阵和核心张量F,获得所述张量数据X(k)的低维核心特征,不仅对K个张量数据同时进行了降维,且由于对K个张量数据串联后,再进行正交Tucker-N模式分解,其获得的低维核心特征保持原始K个张量数据的全局信息,使任意两个张量数据的低维核心特征距离等于其对应的两个原始张量之间的张量距离,因此,利于后续直接对提取到的低维核心特征进行深度处理与分析,从而获得更准确的分析结果。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1是本发明一种实施例中的基于张量分解的异构大数据核心特征提取的方法流程图;
图2是本发明一种实施例中的基于张量分解的异构大数据核心特征提取的***结构图。
具体实施方式
本申请实施例通过提供基于张量分解的异构大数据核心特征提取的方法,解决了现有对张量数据降维提取的数据特征难以保留原始张量数据嵌入在高维空间中的低维流形结构的技术问题。
本申请实施例的技术方案为解决上述技术问题,总体思路如下:
一种基于张量分解的异构大数据核心特征提取的方法,所述方法包括:获取社会物理信息***中的K个N阶张量数据
Figure BDA0002365762140000081
,I1,I2,…IN表示N个特征空间的维度;基于所述张量数据,获得由元素glm构成的系数矩阵g;其中,
Figure BDA0002365762140000082
σ是正则化参数,
Figure BDA0002365762140000083
是两个所述张量数据的位置距离;对g进行特征值分解,获得
Figure BDA0002365762140000084
Figure BDA0002365762140000085
对G1/2进行张量化操作,获得系数张量G;将X(k)与G进行多模乘,获得变换后的张量数据
Figure BDA0002365762140000086
根据N+1阶张量的正交Tucker-N分解模型,将Y(k)沿第N+1阶进行串联,获得N+1阶张量Y;对Y进行正交Tucker-N模式分解,获得核心张量F;基于核心张量F,获得所述张量数据X(k)的低维核心特征。
为了更好的理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。
首先说明,本文中出现的术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
近年来,随着互联网、物联网、云计算等高新信息技术的迅猛发展,信息社会已经进入大数据时代。现实世界大量的感知设备、智能产品、网络通信、社交媒体等源源不断的产生海量异构的高维数据汇集在信息-物理-社会空间(CPSS)。相对于大数据典型特征,如数据规模大(Volume)、类型多(Variety)、产生速度快(Velocity)、数据不完整(Veracity)、价值密度低(Value)等,多样化的数据来源以及组织方式导致了CPSS大数据具有多源、异构、高维、混杂等特点。同时随着数据的源源不断产生以及不同应用领域数据之间的深度融合,CPSS***中的数据结构以及关联关系变得更加复杂。直接对CPSS中采集的低质、高维、海量数据进行处理与分析,一方面会给计算机带来巨大的存储与计算开销,另一方面由于数据的低质、冗余效应,直接影响各种模式识别、机器学习等任务的效率与精度。
为了解决高维数据带来的维度灾难问题,工程上通常会对原始观测数据进行特征提取与数据降维,这不仅可以降低数据特征空间的维度,减少各种学习任务的数据存储空间,而且可以对原始数据进行降噪以及提高学习任务的精度。其中,一方面,最具代表性的特征提取方法有小波变换、主成分分析(PCA)、核主成分分析(KPCA)、独立成分分析(ICA)以及线性判别分析(LDA)等,利用数学方法分析原始数据本身的特征属性,将原始数据转化为低维子空间中具有较大区分性的特征。然而,这些方法都是基于矩阵或者向量的方法对原始数据进行处理分析的,需要对原始数据进行向量化处理,这在很大程度上破坏了原始数据的结构信息,同时,高维数据的矢量化表示也会带来维度灾难和很高的计算复杂度等问题。另一方面,现有技术还提出了一些基于张量的流形学习方法,主要包括张量邻域保持嵌入(Tensor Neighborhood Preserving Embedding,TNPE)、张量局部保持投影(TensorLocality Preserving Projection,TLPP)以及张量局部判别嵌入(Tensor LocalDiscriminant Embedding,TLDE)等,这些方法通过保持原始数据固有流形的局部结构或几何性质来实现降维。但降维提取的数据特征往往不能最大限度地保留原始数据嵌入在高维空间中的低维流形结构,导致低维子空间的特征区分性不够理想,同时,基于张量的流形学习方法也存在较高的计算复杂度。
为此,本申请提供了如下实施例,以解决大数据融合的问题。
实施例一
本实施例提供一种基于张量分解的异构大数据核心特征提取的方法,参见图1,所述方法包括:
S101、获取社会物理信息***中的K个N阶张量数据
Figure BDA0002365762140000101
Figure BDA0002365762140000102
I1,I2,…IN表示N个特征空间的维度;
S102、基于所述张量数据,获得由元素glm构成的系数矩阵g;其中,
Figure BDA0002365762140000103
Figure BDA0002365762140000104
σ是正则化参数,
Figure BDA0002365762140000105
是两个所述张量数据的位置距离;
S103、对g进行特征值分解,获得
Figure BDA0002365762140000106
S104、对G1/2进行张量化操作,获得系数张量G;
S105、将X(k)与G进行多模乘,获得变换后的张量数据
Figure BDA0002365762140000107
Figure BDA0002365762140000108
S106、根据N+1阶张量的正交Tucker-N分解模型,将Y(k)沿第N+1阶进行串联,获得N+1阶张量Y;
S107、对Y进行正交Tucker-N模式分解,获得N个正交因子矩阵和核心张量F;
S108、基于N个正交因子矩阵和
核心张量F,获得所述张量数据X(k)的低维核心特征。
需要说明的是,本申请中张量数据就是异构大数据的张量表现形式,但并不限于大数据,异构大数据是指多样化的数据来源以及组织方式生成的信息-物理-社会空间(CPSS)大数据,具有多源、异构、高维、混杂等特点。在实际应用中,往往需要对大规模高维张量数据进行模式识别、计算机视觉等任务,而在此之前,需要对高维张量数据进行降维,但现有方法都是针对单个张量数据继续降维,并重点考虑每个张量数据降维后的特征保持,因此,并未考虑张量数据之间的特征保持,例如,原始张量距离特征的保持,对于应用于图像处理任务非常重要。而本发明的方法对张量数据进行拼接后,再提取特征,最大限度的保留了原始张量数据的全局核心特征,后续可直接对提取到的低维核心特征进行深度处理与分析。
下面结合附图,对各步骤进行详细的解释。
参见图1,首先执行S101,获取社会物理信息***中的K个N阶张量数据
Figure BDA0002365762140000111
I1,I2,…IN表示N个特征空间的维度。
需要说明的是,获取的张量的数据包括各种场景的,因此,本实施例中的张量数据并不受限制性。在具体应用时,可根据具体的模式识别或计算机视觉任务,从不同空间采集的多源异构相关数据,根据融合跨域异构特征空间构建张量数据集。其中,不同空间以及跨域异构特征空间,包括信息空间、物理空间和社会空间中的一种或多种。
接下来,执行S102,基于所述张量数据,获得由元素glm构成的系数矩阵g;其中,
Figure BDA0002365762140000112
σ是正则化参数,
Figure BDA0002365762140000113
是两个所述张量数据的位置距离。
需要说明的是,对于高阶张量数据,张量距离能够很好的捕获数据间的不同维度之间的关系以及数据的内在结构。因此,对于张量数据的降维处理,最大限度的保留其距离特征,对降维后的数据处理显得尤为重要。在具体实施过程中,为了使张量数据所提取的低维特征能够保持原始数据的张量距离,并减少运算复杂度,需要对张量数据进行多模乘变换。但在进行多模乘之前,需要获得系数矩阵,具体方法如下:
将张量数据的张量距离定义为:
Figure BDA0002365762140000121
TD表示张量距离,英文全称Tensor Distance,x,y分别表示张量数据
Figure BDA0002365762140000122
的向量化结果,张量数据中的元素
Figure BDA0002365762140000123
对应向量化后的元素为
Figure BDA0002365762140000124
向量化的结果与
Figure BDA0002365762140000125
相同。其中
Figure BDA0002365762140000126
Figure BDA0002365762140000127
σ是正则化参数,
Figure BDA0002365762140000128
是张量数据的元素
Figure BDA0002365762140000129
Figure BDA00023657621400001210
的位置距离:
Figure BDA00023657621400001211
G是由元素glm构成的系数矩阵。
为了便于对张量数据的后续处理,在基于所述张量数据,获得由元素glm构成的系数矩阵g之前,所述方法还包括:
对所述张量数据进行预处理,获得预处理后的张量数据;
其中,利用如下公式对所述张量数据进行预处理:
Figure BDA0002365762140000131
接下来,执行S103,对g进行特征值分解,获得
Figure BDA0002365762140000132
S102中获得的G是非负对称矩阵,可直接对G进行特征值分解
Figure BDA0002365762140000133
,令
Figure BDA0002365762140000134
则S102中的张量距离可以进一步表示为:
Figure BDA0002365762140000135
接下来,执行S104,对G1/2进行张量化操作,获得系数张量G。
对G1/2进行张量化操作,即将
Figure BDA0002365762140000136
成2N阶张量。在具体实施过程中,利用如下公式计算获得系数张量G:
Figure BDA0002365762140000137
其中,reshape表示重组函数。
接下来,执行S105,将X(k)与G进行多模乘,获得变换后的张量数据
Figure BDA0002365762140000138
Figure BDA0002365762140000139
为了避免大规模样本数据在向量化操作以及矩阵乘法变换时,带来额外的时间开销,直接将张量数据
Figure BDA00023657621400001310
与系数张量
Figure BDA00023657621400001311
进行多模乘,得到变换后的张量数据数据,具体操作为:
Figure BDA00023657621400001312
Figure BDA00023657621400001313
其中,具体的元素运算步骤如下:
Figure BDA00023657621400001314
Figure BDA00023657621400001315
接下来,执行S106,根据N+1阶张量的正交Tucker-N分解模型,将Y(k)沿第N+1阶进行串联,获得N+1阶张量Y。
需要说明的是,为了提取张量数据的有效特征,并且尽可能的保持原始张量数据的全局信息,这里的原始张量数据全局信息指的是尽可能的保持原始张量数据任意两个数据点的张量距离。为此,首先执行S106,将K个张量数据进行串联,作为一种可的实施方式,所述根据N+1阶张量的正交Tucker-N分解模型,将Y(k)沿第N+1阶进行串联,获得N+1阶张量Y,具体包括:
利用如下公式计算获得N+1阶张量Y:
Figure BDA0002365762140000141
其中,cat表示数组联结函数。
接下来,执行S107,对Y进行正交Tucker-N模式分解,获得N个正交因子矩阵和核心张量F。
具体的,所述对Y进行正交Tucker-N模式分解,获得N个正交因子矩阵和核心张量F,具体包括:
S1、对Y进行高阶奇异值分解(HOSVD),获得高阶奇异值分解结果;
S2、利用所述高阶奇异值分解结果初始化前N个因子矩阵U(1),U(2),…,U(N),令k=0;
S3、令k=k+1,并计算
S(-n)←Y×1U(1)T…×n-1U(n-1)T×n+1U(n+1)T…×NU(N)T
S4、对
Figure BDA0002365762140000142
进行矩阵化展开,计算奇异值矩阵
Figure BDA0002365762140000143
确定有效秩Jn,n=1,2,…,N;
S5、计算F(k)←Y×1U(1)T×2U(2)T…×NU(N)T,并判断核心张量是否满足收敛条件
Figure BDA0002365762140000151
若否,则返回S3,迭代直至满足所述收敛条件,获得N个正交因子矩阵和一个核心张量
Figure BDA0002365762140000152
分解结果简记为Y≈F×1U(1)×2U(2)…×NU(N),即包括N个正交因子矩阵和一个核心张量F。
需要说明的是,这里只分解获得N个正交因子矩阵的原因是:N个正价因子矩阵与核心张量即可全面提取核心特征,不分解生成N+1个因子矩阵,可提高分解效率,从而提高核心特征提取的效率。
接下来,执行S108,基于N个正交因子矩阵和核心张量F,获得所述张量数据X(k)的低维核心特征。
具体的,固定所述核心张量的第N+1阶的指标为k,获得N阶子张量
Figure BDA0002365762140000153
其中,
Figure BDA0002365762140000154
对应第k个张量数据的低维核心特征,任意两个张量数据的低维核心特征距离等于对应的所述两个张量数据的之间的张量距离。
需要说明的是,获得的N阶子张量
Figure BDA0002365762140000155
具有以下性质:
dED(F(i),F(j))≈dED(Y(i),Y(j))=dTD(X(i),X(j)),即任意两个张量数据X(i),X(j),按照前述方法提取的低维核心特征中的欧式距离dED(F(i),F(j)),等于原始张量数据的张量距离dTD(X(i),X(j))。
因此,对于张量数据提取的低维核心特征
Figure BDA0002365762140000156
由于其保持原始数据的全局信息,即任意两个样本的低维核心特征距离等于相对应的两个原始张量数据之间的张量距离,后面可直接对提取到的低维核心特征进行深度处理与分析。在大规模高维张量数据进行模式识别、计算机视觉等任务前,进行本实施例方法的处理,对原始的高维张量数据进行全局特征提取与降维预处理,不但可降低数据存储与计算开销,还能提高对高维张量数据处理分析效率与精度。
考虑到在具体执行本实施的步骤过程中,任务数据实时产生,对于新增数据也要快速、准确的进行处理与特征提取。对此,新增数据的特征提取过程如下:对于新增数据
Figure BDA0002365762140000161
首先对其进行零均值化等预处理过程以及相应的多模乘变换,再对变换后的样本张量
Figure BDA0002365762140000162
计算其低维核心特征:F′←Y′×1U(1)T×2U(2)T…×NU(N)T
上述本申请实施例中的技术方案,至少具有如下的技术效果或优点:
本实施的方法,首先获取社会物理信息***中的K个N阶张量数据
Figure BDA0002365762140000163
Figure BDA0002365762140000164
I1,I2,…IN表示N个特征空间的维度;为了使张量数据所提取低维特征能够保持原始张量数据的张量距离,并减少运算复杂度,需要对样本进行多模乘变换,而在此之前,需要首先基于所述张量数据,获得由元素glm构成的系数矩阵g;其中,
Figure BDA0002365762140000165
σ是正则化参数,
Figure BDA0002365762140000166
是两个所述张量数据的位置距离;对g进行特征值分解,获得
Figure BDA0002365762140000167
对G1/2进行张量化操作,获得系数张量G;在获得系数张量后,为了避免大规模样本数据在向量化操作以及矩阵乘法变换时,带来额外的时间开销,直接将X(k)与G进行多模乘,获得变换后的张量数据
Figure BDA0002365762140000168
为了提取张量数据的有效特征,并且尽可能的保持原始多个张量数据之间的全局信息,本发明的方法根据N+1阶张量的正交Tucker-N分解模型,将变换后的K个张量数据Y(k)沿第N+1阶进行串联,获得N+1阶张量Y;并对Y进行正交Tucker-N模式分解,获得N个正交因子矩阵和核心张量F;基于N个正交因子矩阵和核心张量F,获得所述张量数据X(k)的低维核心特征,不仅对K个张量数据同时进行了降维,且由于对K个张量数据串联后,再进行正交Tucker-N模式分解,其获得的低维核心特征保持原始K个张量数据的全局信息,使任意两个张量数据的低维核心特征距离等于其对应的两个原始张量之间的张量距离,因此,利于后续直接对提取到的低维核心特征进行深度处理与分析,从而获得更准确的分析结果。
实施例二
基于与实施例一相同的发明构思,本实施例提供基于张量分解的异构大数据核心特征提取***,参见图2,所述***包括:
数据获取模块,用于获取社会物理信息***中的K个N阶张量数据
Figure BDA0002365762140000171
Figure BDA0002365762140000172
I1,I2,…IN表示N个特征空间的维度;
第一获得模块,用于基于所述张量数据,获得由元素glm构成的系数矩阵g;其中,
Figure BDA0002365762140000173
σ是正则化参数,
Figure BDA0002365762140000174
是两个所述张量数据的位置距离;
第二获得模块,用于对g进行特征值分解,获得
Figure BDA0002365762140000175
第三获得模块,用于对G1/2进行张量化操作,获得系数张量G;
第四获得模块,用于将X(k)与G进行多模乘,获得变换后的张量数据
Figure BDA0002365762140000181
第五获得模块,用于根据N+1阶张量的正交Tucker-N分解模型,将Y(k)沿第N+1阶进行串联,获得N+1阶张量Y;
第六获得模块,用于对Y进行正交Tucker-N模式分解,获得N个正交因子矩阵和核心张量F;
第七获得模块,用于基于N个正交因子矩阵和核心张量F,获得所述张量数据X(k)的低维核心特征。
由于本实施例所介绍的基于张量分解的异构大数据核心特征提取***为实现本申请实施例基于张量分解的异构大数据核心特征提取方法所采用的***,故而基于本申请实施例一中所介绍的基于张量分解的异构大数据核心特征提取方法,本领域所属技术人员能够了解本实施例的***的具体实施方式以及其各种变化形式,所以在此对于如何利用本中的***实现实施例一中的方法不再详细介绍。只要本领域所属技术人员用于实现本申请实施例中基于张量分解的异构大数据核心特征提取方法所采用的***,都属于本申请所欲保护的范围。
基于与前述实施例中同样的发明构思,本发明实施例还提供一种可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现前文任一所述方法的步骤。
基于与前述实施例中同样的发明构思,本发明实施例还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现前文任一所述方法的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (10)

1.基于张量分解的异构大数据核心特征提取的方法,其特征在于,所述方法包括:
获取社会物理信息***中的K个N阶张量数据
Figure FDA0002365762130000011
Figure FDA0002365762130000012
I1,I2,…INN表示N个特征空间的维度;
基于所述张量数据,获得由元素glm构成的系数矩阵g;其中,
Figure FDA0002365762130000013
Figure FDA0002365762130000014
σ是正则化参数,
Figure FDA0002365762130000015
是两个所述张量数据的位置距离;
对g进行特征值分解,获得
Figure FDA0002365762130000016
对G1/2进行张量化操作,获得系数张量G;
将X(k)与G进行多模乘,获得变换后的张量数据
Figure FDA0002365762130000017
Figure FDA0002365762130000018
根据N+1阶张量的正交Tucker-N分解模型,将Y(k)沿第N+1阶进行串联,获得N+1阶张量Y;
对Y进行正交Tucker-N模式分解,获得N个正交因子矩阵和核心张量F;
基于所述N个正交因子矩阵和所述核心张量F,获得所述张量数据X(k)的低维核心特征。
2.如权利要求1所述的方法,其特征在于,所述对G1/2进行张量化操作,获得系数张量G,具体包括:
利用如下公式计算获得系数张量G:
Figure FDA0002365762130000021
其中,reshape表示重组函数。
3.如权利要求2所述的方法,其特征在于,所述将X(k)与G进行多模乘,获得变换后的张量数据
Figure FDA0002365762130000022
具体包括:
利用如下公式变化获得
Figure FDA0002365762130000023
Figure FDA0002365762130000024
其中,具体的元素运算如下:
Figure FDA0002365762130000025
4.如权利要求3所述的方法,其特征在于,所述根据N+1阶张量的正交Tucker-N分解模型,将Y(k)沿第N+1阶进行串联,获得N+1阶张量Y,具体包括:
利用如下公式计算获得N+1阶张量Y:
Figure FDA0002365762130000026
其中,cat表示数组联结函数。
5.如权利要求4所述的方法,其特征在于,所述对Y进行正交Tucker-N模式分解,获得核心张量F,具体包括:
S1、对Y进行高阶奇异值分解,获得高阶奇异值分解结果;
S2、利用所述高阶奇异值分解结果初始化前N个因子矩阵U(1),U(2),…,U(N),令k=0;
S3、令k=k+1,并计算
S(-n)←y×1U(1)T…×n-1U(n-1)T×n+1U(n+1)T…×NU(N)T
S4、对S(-n)进行矩阵化展开,计算奇异值矩阵S(n) (-n)=U∑VT,确定有效秩Jn,n=1,2,...,N;
S5、计算F(k)←y×1U(1)T×2U(2)T…×NU(N)T,并判断核心张量是否满足收敛条件
Figure FDA0002365762130000031
若否,则返回S3,迭代直至满足所述收敛条件,获得N个正交因子矩阵和一个核心张互
Figure FDA0002365762130000032
6.如权利要求5所述的方法,其特征在于,所述基于所述N个正交因子矩阵和所述核心张量F,获得所述张量数据X(k)的低维核心特征,具体包括:
固定所述核心张量的第N+1阶的指标为k,获得N阶子张量
Figure FDA0002365762130000033
其中,
Figure FDA0002365762130000034
对应第k个张量数据的低维核心特征,任意两个张量数据的低维核心特征距离等于对应的所述两个张量数据的之间的张量距离。
7.如权利要求1所述的方法,其特征在于,在基于所述张量数据,获得由元素glm构成的系数矩阵g之前,所述方法还包括:
对所述张量数据进行预处理,获得预处理后的张量数据;
其中,利用如下公式对所述张量数据进行预处理:
Figure FDA0002365762130000035
所述基于所述张量数据,获得由元素glm构成的系数矩阵g,包括:
基于所述预处理后的张量数据,获得由元素glm构成的系数矩阵g。
8.基于张量分解的异构大数据核心特征提取***,其特征在于,所述***包括:
数据获取模块,用于获取社会物理信息***中的K个N阶张量数据
Figure FDA0002365762130000041
Figure FDA0002365762130000042
I1,I2,…IN表示N个特征空间的维度;
第一获得模块,用于基于所述张量数据,获得由元素glm构成的系数矩阵g;其中,
Figure FDA0002365762130000043
σ是正则化参数,
Figure FDA0002365762130000044
是两个所述张量数据的位置距离;
第二获得模块,用于对g进行特征值分解,获得
Figure FDA0002365762130000045
第三获得模块,用于对G1/2进行张量化操作,获得系数张量G;
第四获得模块,用于将X(k)与G进行多模乘,获得变换后的张量数据
Figure FDA0002365762130000046
Figure FDA0002365762130000047
第五获得模块,用于根据N+1阶张量的正交Tucker-N分解模型,将Y(k)沿第N+1阶进行串联,获得N+1阶张量Y;
第六获得模块,用于对Y进行正交Tucker-N模式分解,获得N个正交因子矩阵和核心张量F;
第七获得模块,用于基于所述N个正交因子矩阵和所述核心张量F,获得所述张量数据X(k)的低维核心特征。
9.一种可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-7任一项所述方法的步骤。
10.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1-7任一项所述方法的步骤。
CN202010024055.1A 2020-01-14 2020-01-14 基于张量分解的异构大数据核心特征提取的方法及*** Pending CN111209974A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010024055.1A CN111209974A (zh) 2020-01-14 2020-01-14 基于张量分解的异构大数据核心特征提取的方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010024055.1A CN111209974A (zh) 2020-01-14 2020-01-14 基于张量分解的异构大数据核心特征提取的方法及***

Publications (1)

Publication Number Publication Date
CN111209974A true CN111209974A (zh) 2020-05-29

Family

ID=70786044

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010024055.1A Pending CN111209974A (zh) 2020-01-14 2020-01-14 基于张量分解的异构大数据核心特征提取的方法及***

Country Status (1)

Country Link
CN (1) CN111209974A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112488312A (zh) * 2020-12-07 2021-03-12 江苏自动化研究所 一种基于张量的自动编码机的构建方法
CN112674773A (zh) * 2020-12-22 2021-04-20 北京航空航天大学 基于Tucker分解和ripple时间窗的脑磁图源定位方法和装置
CN116186522A (zh) * 2023-04-04 2023-05-30 石家庄学院 大数据核心特征提取方法、电子设备及存储介质
CN116738214A (zh) * 2023-08-03 2023-09-12 石家庄学院 一种基于高阶张量的数据降维预处理方法
CN117473303A (zh) * 2023-12-27 2024-01-30 小舟科技有限公司 基于脑电信号的个性化动态意图特征提取方法及相关装置

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112488312A (zh) * 2020-12-07 2021-03-12 江苏自动化研究所 一种基于张量的自动编码机的构建方法
CN112488312B (zh) * 2020-12-07 2022-02-18 江苏自动化研究所 一种基于张量的网络交换数据的自动编码机的构建方法
CN112674773A (zh) * 2020-12-22 2021-04-20 北京航空航天大学 基于Tucker分解和ripple时间窗的脑磁图源定位方法和装置
CN112674773B (zh) * 2020-12-22 2021-12-24 北京航空航天大学 基于Tucker分解和ripple时间窗的脑磁图源定位方法和装置
CN116186522A (zh) * 2023-04-04 2023-05-30 石家庄学院 大数据核心特征提取方法、电子设备及存储介质
CN116186522B (zh) * 2023-04-04 2023-07-18 石家庄学院 大数据核心特征提取方法、电子设备及存储介质
CN116738214A (zh) * 2023-08-03 2023-09-12 石家庄学院 一种基于高阶张量的数据降维预处理方法
CN116738214B (zh) * 2023-08-03 2023-11-14 石家庄学院 一种基于高阶张量的数据降维预处理方法
CN117473303A (zh) * 2023-12-27 2024-01-30 小舟科技有限公司 基于脑电信号的个性化动态意图特征提取方法及相关装置
CN117473303B (zh) * 2023-12-27 2024-03-19 小舟科技有限公司 基于脑电信号的个性化动态意图特征提取方法及相关装置

Similar Documents

Publication Publication Date Title
CN111209974A (zh) 基于张量分解的异构大数据核心特征提取的方法及***
CN104899253B (zh) 面向社会图像的跨模态图像-标签相关度学习方法
CN110659665B (zh) 一种异维特征的模型构建方法及图像识别方法、装置
Tao et al. Robust spectral ensemble clustering via rank minimization
CN107341510B (zh) 基于稀疏正交的双图非负矩阵分解的图像聚类方法
Shamsolmoali et al. High-dimensional multimedia classification using deep CNN and extended residual units
Zhang et al. Hypergraph spectral clustering for point cloud segmentation
Zhang et al. Symbol recognition with kernel density matching
CN110993037A (zh) 一种基于多视图分类模型的蛋白质活性预测装置
Li et al. Online low-rank representation learning for joint multi-subspace recovery and clustering
CN112529068B (zh) 一种多视图图像分类方法、***、计算机设备和存储介质
CN116152611B (zh) 一种多级多尺度点云补全方法、***、设备及存储介质
Chen et al. LABIN: Balanced min cut for large-scale data
CN111209530A (zh) 基于张量分解的异构大数据因子特征提取的方法及***
Li et al. Image decomposition with multilabel context: Algorithms and applications
CN114386582A (zh) 一种基于对抗训练注意力机制的人体动作预测方法
CN109902720B (zh) 基于子空间分解进行深度特征估计的图像分类识别方法
CN114511745B (zh) 三维点云分类及旋转姿态预测方法及***
Cai et al. Learning unified anchor graph based on affinity relationships with strong consensus for multi-view spectral clustering
Li et al. 3D scene reconstruction using a texture probabilistic grammar
Lee et al. Interpretable embedding procedure knowledge transfer via stacked principal component analysis and graph neural network
Shi et al. Pairwise attention encoding for point cloud feature learning
Ko et al. Deep model compression and inference speedup of sum–product networks on tensor trains
CN112560712A (zh) 基于时间增强图卷积网络的行为识别方法、装置及介质
Liang et al. An inexact splitting method for the subspace segmentation from incomplete and noisy observations

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200529

RJ01 Rejection of invention patent application after publication