CN111241076A - 一种基于张量链分解的流式数据增量处理方法及装置 - Google Patents
一种基于张量链分解的流式数据增量处理方法及装置 Download PDFInfo
- Publication number
- CN111241076A CN111241076A CN202010001952.0A CN202010001952A CN111241076A CN 111241076 A CN111241076 A CN 111241076A CN 202010001952 A CN202010001952 A CN 202010001952A CN 111241076 A CN111241076 A CN 111241076A
- Authority
- CN
- China
- Prior art keywords
- tensor
- data
- chain
- sub
- chain decomposition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000354 decomposition reaction Methods 0.000 title claims abstract description 151
- 238000003672 processing method Methods 0.000 title claims abstract description 18
- 238000012545 processing Methods 0.000 claims abstract description 40
- 238000000034 method Methods 0.000 claims description 35
- 230000004927 fusion Effects 0.000 claims description 11
- 230000006835 compression Effects 0.000 claims description 9
- 238000007906 compression Methods 0.000 claims description 9
- 238000010276 construction Methods 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 abstract description 29
- 238000004880 explosion Methods 0.000 abstract description 4
- 238000010586 diagram Methods 0.000 description 16
- 239000011159 matrix material Substances 0.000 description 10
- 238000011160 research Methods 0.000 description 7
- 238000004458 analytical method Methods 0.000 description 6
- 238000007405 data analysis Methods 0.000 description 4
- 238000003860 storage Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 230000001788 irregular Effects 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000013256 coordination polymer Substances 0.000 description 1
- 238000013499 data model Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005265 energy consumption Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 239000000047 product Substances 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2455—Query execution
- G06F16/24568—Data stream processing; Continuous queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/16—Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Mathematical Analysis (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Optimization (AREA)
- Software Systems (AREA)
- Computational Mathematics (AREA)
- Computational Linguistics (AREA)
- Algebra (AREA)
- Computing Systems (AREA)
- Quality & Reliability (AREA)
- Fuzzy Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及一种基于张量链分解的流式数据增量处理方法及装置,其中,处理方法包括步骤:构建多源异构数据的高阶统一张量表示模型;根据高阶统一张量表示模型将原始数据表示为原始张量,并对原始张量进行张量链分解,得到第一张量链格式;根据高阶统一张量表示模型将新增数据表示为新增张量,并对新增张量进行张量链分解,得到第二张量链格式;根据第一张量链格式和第二张量链格式计算更新张量的张量链分解结果。该处理方法不仅利用新増数据计算结果对原始处理结果快速和准确地更新,而且能***地描述出新増数据与己有计算结果之间的内在联系,同时解决了增量式处理的中间结果***和重复计算两大问题,提高了大数据的处理效率。
Description
技术领域
本发明属于大数据处理方法,具体涉及一种基于张量链分解的流式数据增量处理方法及装置。
背景技术
在传统的工业云架构中,来自物理设备的所有数据都会传输到云端进行存储和高级分析。由于云平台与网络边缘的设备相比具有更高的计算能力,因此将计算密集型任务转移到核心云计算平台是数据处理的有效方式。工业大数据来源多样,数据结构不一,具有不同的属性和标准,有生产周期数据,也有来自企业内部的关系型数据,还有视频监控数据、XML日志等非结构化或者半结构化的数据。
对大数据进行高效分析、挖掘其蕴含的内在规律的前提基础是海量、多源、异构数据的统一表示方式。而非结构化、半结构化和结构化数据在编码方法、存储格式、数据特征等方面不尽相同。不同的数据采集平台绑定了不同的数据格式,各个领域的数据在形式、语义、标识上都存在显著差异。这些数据形成了一个个的信息孤岛,无法统一量化,也难以整体分析,需要一个简洁的模型将异构数据表示在统一的空间中。
大数据时代的数据类型多样,规模巨大,内在结构和关联关系复杂,大数据中往往包括大量的不一致、不完全、重复冗余以及噪音数据,这些低质量的数据在分析挖掘过程中极大地影响了算法的效率和计算结果的准确性,需要研究有效的方法从低质量的原始数据中提取高质量核心数据。现有大数据规模庞大,而且不停地生成,不断地増加,具有流式数据的特点,从而导致出现中间计算结果***和重复处理的问题。
张量是一种大数据分析工具,在复杂、高阶、多维数据的表示和处理方面具有突出优势。基于张量的大数据分析方法可有效实现数据表示、存储、计算、分析、应用等一系列功能。但是基于张量的大数据分析方法仍面临诸多挑战,如高阶张量引起的维度灾难问题、流式数据引起的重复计算问题、巨大规模引起的计算耗时问题、繁杂计算引起的高能耗问题、关系复杂引起的难以分析问题等。
在基于张量的大数据分析和处理方法中,张量分解是一种重要的研究手段,其中最为普遍又很重要的操作是奇异值分解。针对在低维空间的奇异值分解,已有学者提出了一些增量分解方法,如增量式奇异值分解方法。关于增量数据处理的研究方法,当前大多研究是集中在直接通过增量数据进行计算和推理;例如Sarwar在动态增长的数据流上,利用奇异值分解理论对数据进行降维处理;Gorrel利用增量奇异值分解更新历史数据从而得到实时的核心数据集合,然后针对核心数据集合进行快速计算从而及时提供服务。此外,因为大数据中包含着大量的噪音和冗余数据,应用高阶奇异值分解技术求取核心数据集Coreset的方法进行数据快速计算也逐渐成为研究热点。在高维空间,对增量数据进行分解主要有基于投影的增量式高阶奇异值分解方法,以及基于Jacibo旋转实现增量式高阶奇异值分解方法。
针对大数据在时间上延续性很强,在结构上与历史数据非常相似的特征,有研究人员提出增量张量流的方法,应用高阶张量分解技术或高阶奇异值分解方法提取高价值数据,这种方法也被应用到社会标签推荐***中。数据增量处理过程中可以对高维数据进行分块,采用Kruskal置换对张量进行分割是经典的处理方法,而且Khatri-Rao乘积运算能够保证分割后的张量展开矩阵列向量秩在计算前后的不变性。但是目前这些对降维大数据増量处理的研究方法主要考虑对动态更新数据进行快速处理,很少考虑利用新増数据计算结果对原始处理结果快速和准确更新,也未能***地描述出新増数据与己有计算结果之间的相互关系。
综上所述,现有的增量式处理技术中存在以下两个问题:(1)中间计算结果***;(2)重复计算,同时,针对高维大数据増量处理的研究主要考虑对动态更新数据进行快速处理,很少考虑利用新増数据计算结果对原始处理结果快速和准确更新,也不能***地描述出新増数据与己有计算结果之间的相互关系,导致现有的大数据处理速度较慢,处理效率较低。
发明内容
为了解决现有技术中存在的上述问题,本发明提供了一种基于张量链分解的流式数据增量处理方法及装置。本发明要解决的技术问题通过以下技术方案实现:
本发明实施例提供了一种基于张量链分解的流式数据增量处理方法,包括步骤:
构建多源异构数据的高阶统一张量表示模型;
根据所述高阶统一张量表示模型将原始数据表示为原始张量,并对所述原始张量进行张量链分解,得到第一张量链格式;
根据所述高阶统一张量表示模型将新增数据表示为新增张量,并对所述新增张量进行张量链分解,得到第二张量链格式;
根据所述第一张量链格式和所述第二张量链格式计算更新张量的张量链分解结果。
在本发明的一个实施例中,构建多源异构数据的高阶统一张量表示模型包括:
采集所述多源异构数据,其中,所述多源异构数据包括结构化数据、半结构化数据和非结构化数据;
对所述结构化数据、所述半结构化数据和所述非结构化数据分别进行子张量化表示,得到结构化子张量、半结构化子张量和非结构化子张量;
对所述结构化子张量、所述半结构化子张量和所述非结构化子张量进行融合,构建所述高阶统一张量表示模型。
在本发明的一个实施例中,对所述结构化子张量、所述半结构化子张量和所述非结构化子张量进行融合,构建所述高阶统一张量表示模型包括:
根据所述结构化子张量、所述半结构化子张量和所述非结构化子张量中阶的属性以及属性粒度,利用张量融合扩展算子对所述结构化子张量、所述半结构化子张量和所述非结构化子张量进行融合,构建所述高阶统一张量表示模型。
在本发明的一个实施例中,根据所述高阶统一张量表示模型将原始数据表示为原始张量,并对所述原始张量进行张量链分解,得到第一张量链格式包括:
根据所述高阶统一张量表示模型构建所述原始数据的第一模型,并从所述第一模型获取所述原始张量;
对所述原始张量进行张量链分解,得到第一张量链格式。
在本发明的一个实施例中,根据所述高阶统一张量表示模型将新增数据表示为新增张量,并对所述新增张量进行张量链分解,得到第二张量链格式包括:
根据所述高阶统一张量表示模型构建所述新增数据的第二模型,并从所述第二模型中获取所述新增张量;
对所述新增张量进行张量链分解,得到第二张量链格式。
在本发明的一个实施例中,根据所述第一张量链格式和所述第二张量链格式计算更新张量的张量链分解结果包括:
对所述第一张量链格式和所述第二张量链格式分别进行维度补零操作,得到原始张量的张量链分解结果和新增张量的张量链分解结果;
对所述原始张量的张量链分解结果和所述新增张量的张量链分解结果进行求和,得到所述更新张量的张量链分解结果。
在本发明的一个实施例中,在根据所述第一张量链格式和所述第二张量链格式计算更新张量的张量链分解结果之后,还包括:
对所述更新张量的张量链分解结果进行正交和压缩,得到目标张量链分解结果。
本发明的另一个实施例提供了一种基于张量链分解的流式数据增量处理装置,包括:
模型构建模块,用于构建多源异构数据的高阶统一张量表示模型;
第一张量链分解模块,用于根据所述高阶统一张量表示模型将原始数据表示为原始张量,并对所述原始张量进行张量链分解,得到第一张量链格式;
第二张量链分解模块,用于根据所述高阶统一张量表示模型将新增数据表示为新增张量,并对所述新增张量进行张量链分解,得到第二张量链格式;
张量更新模块,用于根据所述第一张量链格式和所述第二张量链格式计算更新张量的张量链分解结果。
在本发明的一个实施例中,所述模型构建模块包括:
数据采集模块,用于采集所述多源异构数据,其中,所述多源异构数据包括结构化数据、半结构化数据和非结构化数据;
数据子张量化模块,用于对所述结构化数据、所述半结构化数据和所述非结构化数据分别进行子张量化表示,得到结构化子张量、半结构化子张量和非结构化子张量;
子张量融合模块,用于对所述结构化子张量、所述半结构化子张量和所述非结构化子张量进行融合,构建所述高阶统一张量表示模型。
在本发明的一个实施例中,所述张量更新模块包括:
维度补零模块,用于对所述第一张量链格式和所述第二张量链格式分别进行维度补零操作,得到原始张量的张量链分解结果和新增张量的张量链分解结果;
求和模块,用于对所述原始张量的张量链分解结果和所述新增张量的张量链分解结果进行求和,得到所述更新张量的张量链分解结果。
与现有技术相比,本发明的有益效果:
本发明基于张量链分解的流式数据增量处理方法,在原始张量的第一张量链格式的基础上,仅需要对新增张量进行张量链分解,然后求取更新张量的张量链分解结果,能够有效实现张量链张量分解,不仅利用新増数据计算结果对原始处理结果快速和准确地更新,也能***地描述出新増数据与己有计算结果之间的内在联系,同时解决了增量式处理的中间结果***和重复计算两大问题,提高了大数据的处理效率。
附图说明
图1为本发明实施例提供的一种基于张量链分解的流式数据增量处理方法的流程示意图;
图2为本发明实施例提供的一种结构化数据子张量化表示的示意图;
图3为本发明实施例提供的一种半结构化数据子张量化表示的示意图;
图4为本发明实施例提供的一种非结构化数据视频文件子张量化表示的示意图;
图5为本发明实施例提供的一种子张量融合为一个张量的示意图;
图6为本发明实施例提供的一种高阶统一张量表示模型的示意图;
图7为本发明实施例提供的一种张量链分解的示意图;
图8为本发明实施例提供的一种由原始张量和新增张量获取更新张量的过程示意图;
图9为本发明实施例提供的一种基于张量链分解的流式数据增量处理装置的结构示意图。
具体实施方式
下面结合具体实施例对本发明做进一步详细的描述,但本发明的实施方式不限于此。
实施例一
请参见图1,图1为本发明实施例提供的一种基于张量链分解的流式数据增量处理方法的流程示意图。该方法包括步骤:
S1、构建多源异构数据的高阶统一张量表示模型。
S11、采集多源异构数据。
具体地,多源异构数据可以来源于工业大数据智能工厂数据;按照数据结构,多源异构数据分类为结构化数据、半结构化数据和非结构化数据。
请参见图2,图2为本发明实施例提供的一种结构化数据子张量化表示的示意图。结构化数据是指由二维表结构来逻辑表达和实现的数据,严格地遵循数据格式与长度规范,主要通过关系型数据库进行存储和管理;也称作行数据,其一般特点是:数据以行为单位,一行数据表示一个实体的信息,每一行数据的属性是相同的。图2中,每一行数据均具有ID、Date、Record、Mum、State、ReeorNum六个属性。
请参见图3,图3为本发明实施例提供的一种半结构化数据子张量化表示的示意图。半结构化数据是结构化数据的一种形式,其数据库是节点的集合,每个节点都是叶子节点或者一个内部节点,每一个半结构化数据都具有层次化的结构,可以将其分解为树形结构,其树形结构由根节点、内部节点以及叶子节点组成。图3中的半结构化数据代表一部电影和其影星,其中,元素用圆圈表示,圆圈与圆圈之间的连接线表示元素与元素之间的关系。
请参见图4,图4为本发明实施例提供的一种非结构化数据视频文件子张量化表示的示意图。非结构化数据是指数据结构不规则或不完整,没有预定义的数据模型,不方便用数据库二维逻辑表来表现的数据,包括所有格式的办公文档、文本、图片、HTML、各类报表、图像和音频/视频信息等等。图4中,非结构化数据视频文件包括四个属性:RGB颜色、视频的宽、视频的高以及时间,这几个属性均不相同,为不规则的结构。
S12、对结构化数据、半结构化数据和非结构化数据分别进行子张量化表示,得到结构化子张量、半结构化子张量和非结构化子张量。
对于结构化数据,可以按照每一行数据的属性进行子张量化表示。例如在图2中,结构化数据按照每一行数据的属性进行子张量化表示后,成为一个6阶张量,其6个阶分别为Iid、Idate、Irecord、Inum、Istate、Ien。
请再次参见图3,对于半结构化数据,可以用三元组将半结构化数据进行子张量化表示,三元组包括标记、类型以及对象的值,从而可以将半结构化数据表示为一个三阶子张量,如下式所示:
其中,Ier为标识矩阵的行;Iec为标识矩阵的列,Iasc为元素的ASCII码。
对于非结构化数据,可以按照非结构化数据的属性对其进行子张量化表示,例如在图4中,非结构化数据视频文件子张量化后,成为一个具有四阶张量,其四个阶分别为:If、Iw、Ih、Ic。
S13、对结构化子张量、半结构化子张量和非结构化子张量进行融合,构建高阶统一张量表示模型。
具体地,根据结构化子张量、半结构化子张量和非结构化子张量中阶的属性以及属性粒度,利用张量融合扩展算子对结构化子张量、半结构化子张量和非结构化子张量进行融合,构建高阶统一张量表示模型。
其中,W为融合后得到的高阶张量。
请参见图5,图5为本发明实施例提供的一种子张量融合为一个张量的示意图。在对张量进行融合时,当两个张量具有相同属性的阶时,可以通过张量扩展将其合并,保留较细的粒度,对于不同属性的阶进行保留。其中,保留较细的粒度是指:将两个相同属性的阶统一表示为该属性具有更高精度的阶;例如,对于时间属性,若一个阶以小时为单位、另一个阶以分钟为单位,则将这两个阶统一表示为以分钟为单位的阶。对于不同属性的阶要进行保留是指:对于一个时间属性的阶和一个地址属性的阶,在进行融合时将二者均保留。如图5所示,经过融合,两个张量的Iid被合并,而Ix、Iy、It、Iname均被保留下来。
在对结构化子张量、半结构化子张量和非结构化子张量进行融合时,可以先对其中两个子张量进行融合,然后再将融合后的张量与剩余的一个子张量融合,进而统一表示为高阶张量。
请参见图6,图6为本发明实施例提供的一种高阶统一张量表示模型的示意图。经过融合,多源异构数据被转换为统一的双层空间,其中基张量空间包括最外层的三个基础特征,如图6的实线所示,不同结构的数据被嵌入到这个基张量空间中,并排列到目标位置,如图6的虚线所示。在这个双层空间中,基张量空间是一个三阶的空间表示模型,异构类型的数据经过编码后,统一纳入到基空间中,原始数据的标识与结构在表示阶段将无损地保存在张量中。所有的数据可沿着张量的阶进行模展开。每一个阶从不同的角度反映了多源异构数据的内部结构。
S2、根据高阶统一张量表示模型将原始数据表示为原始张量,并对原始张量进行张量链分解,得到第一张量链格式。
S21、根据高阶统一张量表示模型,构建原始数据对应的第一模型,并从第一模型获取原始张量。
具体地,将原始数据按照数据结构划分为结构化数据、半结构化数据和非结构化数据。然后按照步骤S1中构建多源异构数据的高阶统一张量表示模型的方法,将不同结构的原始数据统一表示为高阶张量,得到第一模型。其中,第一模型的结构与高阶统一张量表示模型的结构是相同的,第一模型中所包含的高阶张量即为原始张量X,在进行后续处理时,直接从第一模型中获取原始张量X即可。
S22、对第一模型中的原始张量进行张量链分解,得到第一张量链格式。
由于张量链分解作为一种特殊的层次Tucker分解方式,是最简单的张量网络格式,且张量链分解的低阶近似是基于矩阵开展的,其分解算法在面对高阶张量时不需要递归而且是稳定的,张量链分解后的参数和CP分解的参数位于同一级别,因此不会受到维度灾难的影响,因此,本实施例选择张量链分解方法对张量进行分解。
请参见图7,图7为本发明实施例提供的一种张量链分解的示意图。图7中的N阶张量经过1次QR分解(也称为正交三角分解),得到1个核心张量X(1)和T,其中T为分解出张量核之后新的临时张量;经过2次QR分解,得到两个核心张量X(1)、X(2)和T;经过N次QR分解,得到N个核心张量X(1)、X(2)…X(n)…X(N-1)、X(N);每个核心张量为一个三阶张量将上述张量链分解得到的N个核心张量定义为张量链格式。
对第一模型中的原始张量X经过张量链分解后,得到第一张量链格式Xtt,其过程可以表示为X->Xtt。
S3、根据高阶统一张量表示模型将新增数据表示为新增张量,并对新增张量进行张量链分解,得到第二张量链格式。
S31、根据高阶统一张量表示模型构建新增数据的第二模型,并从第二模型中获取新增张量。
具体地,将新增数据按照数据结构划分为结构化数据、半结构化数据和非结构化数据。然后按照步骤S1中构建多源异构数据的高阶统一张量表示模型的方法,将不同结构的新增数据统一表示为高阶张量,得到第二模型。其中,第二模型的结构与高阶统一张量表示模型的结构是相同的,第二模型中所包含的高阶张量即为新增张量Y,在进行后续处理时,直接从第二模型中获取新增张量Y即可。
本实施例中,在对原始数据和新增数据进行处理时,均以高阶统一张量表示模型为基准,使得两种数据可以统一表示,提高了后续更新张量的计算精度,提高了数据的处理效率。
S32、对第二模型中的新增张量进行张量链分解,得到第二张量链格式。
本实施例中,对第二模型中的新增张量Y经过张量链分解后,得到第二张量链格式Ytt,其过程可以表示为Y->Ytt。对新增张量Y进行张量链分解的具体过程请参见步骤S22和图7。
S4、根据第二张量链格式和第一张量链格式计算更新张量的张量链分解结果。
S41、对第二张量链格式和第一张量链格式分别进行维度补零操作,得到原始张量的张量链分解结果和新增张量的张量链分解结果。
具体地,维度补零操作是指将两个张量链格式中属性相同、长度不同的阶进行补零,使这两个阶的长度也相同,补零后阶的长度可以为两个阶的长度之和。以长度为10的时间阶A和长度为20的时间阶B为例,对A补零的长度可以为20,对B补零的长度可以为10,则补零后A和B的长度均为30。
本实施例中,对第一张量链格式Xtt进行补零后得到原始张量链分解结果X'tt,其补零过程可以表示为Xtt->X'tt;对第二张量链格式Ytt进行补零后得到新增张量链分解结果Y'tt,其补零过程可以表示为Ytt->Y'tt。
S42、对原始张量的张量链分解结果和新增张量的张量链分解结果进行求和,得到更新张量的张量链分解结果。
具体地,对原始张量的张量链分解结果X'tt和新增张量的张量链分解结果Y'tt进行求和得到更新张量的张量链分解结果Z'tt,其求和方法如式(3)所示:
其中,X为原始张量,Y为新增张量,Z为更新张量,N为核心张量的个数。
此时,得到更新张量Z准确的张量链分解结果。
S5、对更新张量的张量链分解结果进行正交和压缩,得到目标张量链分解结果。
具体地,对更新张量的张量链分解结果Z'tt的张量核进行正交和压缩,得到目标张量链分解结果Ztt,以减少存储空间。其正交和压缩的步骤如下:
其中,ρ为压缩精度,ε为张量模的压缩精度,N为张量阶数。
b.令n=1开始循环,直至n=N-1。
c.先将张量依次沿模展开:Mn=Reshape(C'n,[rn-1,Inrn])(5),
其中,Mn为模n的展开,Z'n为求和之后的张量,rn-1为第n-1个展开张量的秩,In为张量的第n维的大小,rn为第n个展开张量的秩。
d.对模展开的矩阵做奇异值(SVD)分解:[U,Σ,V]=SVD(M,ε)(6),其中,U为左奇异矩阵,Σ为奇异值,V为右奇异矩阵,M为张量的模展开矩阵,ε为SVD方法分解精度。
e.将张量核更新为U:Zn=Reshape(U,[rn-1,In,rn])(7),
其中,U为左奇异矩阵。
然后将SVT更新为新的临时张量:Zn+1=Zn+1×1ΣVT(8),
其中,Zn+1为原来第n+1个张量核,Zn+1为更新后的第n+1个张量核,×1为1模乘,VT为右奇异矩阵的转置。
f.依次循环,直到最后;在此过程中既完成了对张量核的正交化操作,也完成了张量核的压缩要求。
在一个具体实施例中,请参见图8,图8为本发明实施例提供的一种由原始张量和新增张量获取更新张量的过程示意图,其中,A为对张量进行张量链分解,B为维度补零操作,C为张量求和操作,D为对更新张量的张量核进行正交和压缩。图8中,三阶张量X∈R2×3×3经过张量链分解得到Xtt,三阶张量Y∈R1×3×3经过张量链分解得到Ytt;然后基于Xtt和Ytt进行补零操作,得到X'tt和Y'tt;接着对X'tt和Y'tt求和,得到Z'tt;最后对Z'tt进行正交和压缩,得到目标张量链分解结果Ztt。
本实施例在原始张量的第一张量链格式的基础上,仅需要对新增张量进行张量链分解,然后求取更新张量的张量链分解结果,能够有效实现张量链张量分解,不仅利用新増数据计算结果对原始处理结果快速和准确地更新,减少了总执行时间,而且也能***地描述出新増数据与己有计算结果之间的内在联系,同时解决了增量式处理的中间结果***和重复计算两大问题,从而提高了大数据的处理效率。
实施例二
请参见图9,图9为本发明实施例提供的一种基于张量链分解的流式数据增量处理装置的结构示意图。该流式数据增量处理装置包括:模型构建模块、第一张量链分解模块、第二张量链分解模块和张量更新模块。
其中,模型构建模块用于构建多源异构数据的高阶统一张量表示模型。第一张量链分解模块用于根据高阶统一张量表示模型将原始数据表示为原始张量,并对原始张量进行张量链分解,得到第一张量链格式。第二张量链分解模块用于根据高阶统一张量表示模型将新增数据表示为新增张量,并对新增张量进行张量链分解,得到第二张量链格式。张量更新模块用于根据第一张量链格式和第二张量链格式计算更新张量的张量链分解结果。
在一个具体实施例中,模型构建模块包括:数据采集模块、数据子张量化模块、子张量融合模块。其中,数据采集模块用于采集多源异构数据,多源异构数据按数据结构分为结构化数据、半结构化数据和非结构化数据。数据子张量化模块用于对结构化数据、半结构化数据和非结构化数据分别进行子张量化表示,得到结构化子张量、半结构化子张量和非结构化子张量。子张量融合模块用于对结构化子张量、半结构化子张量和非结构化子张量进行融合,构建高阶统一张量表示模型。
在一个具体实施例中,张量更新模块包括:维度补零模块和计算模块。其中,维度补零模块用于对第二张量链格式和第一张量链格式分别进行维度补零操作,得到原始张量链分解结果和新增张量链分解结果。计算模块用于对新增张量链分解结果和原始张量链分解结果求和,得到更新张量的张量链分解结果。
进一步地,该流式数据增量处理装置还包括正交压缩模块,用于对更新张量的张量链分解结果进行正交和压缩,得到目标张量链分解结果,以减少数据的存储空间。
上述模块中对数据处理的具体过程请参见实施例一,本实施例不再赘述。
本实施例中,第一张量链分解模块和第二张量链分解模块均以模型构建模块构建的高阶统一张量表示模型为基准,对原始数据和新增数据进行统一表示,提高了后续更新张量的计算精度,同时利用新増数据计算结果对原始处理结果快速和准确更新,减少了总执行时间,提高了处理效率。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。
Claims (10)
1.一种基于张量链分解的流式数据增量处理方法,其特征在于,包括步骤:
构建多源异构数据的高阶统一张量表示模型;
根据所述高阶统一张量表示模型将原始数据表示为原始张量,并对所述原始张量进行张量链分解,得到第一张量链格式;
根据所述高阶统一张量表示模型将新增数据表示为新增张量,并对所述新增张量进行张量链分解,得到第二张量链格式;
根据所述第一张量链格式和所述第二张量链格式计算更新张量的张量链分解结果。
2.如权利要求1所述的基于张量链分解的流式数据增量处理方法,其特征在于,构建多源异构数据的高阶统一张量表示模型包括:
采集所述多源异构数据,其中,所述多源异构数据包括结构化数据、半结构化数据和非结构化数据;
对所述结构化数据、所述半结构化数据和所述非结构化数据分别进行子张量化表示,得到结构化子张量、半结构化子张量和非结构化子张量;
对所述结构化子张量、所述半结构化子张量和所述非结构化子张量进行融合,构建所述高阶统一张量表示模型。
3.如权利要求2所述的基于张量链分解的流式数据增量处理方法,其特征在于,对所述结构化子张量、所述半结构化子张量和所述非结构化子张量进行融合,构建所述高阶统一张量表示模型包括:
根据所述结构化子张量、所述半结构化子张量和所述非结构化子张量中阶的属性以及属性粒度,利用张量融合扩展算子对所述结构化子张量、所述半结构化子张量和所述非结构化子张量进行融合,构建所述高阶统一张量表示模型。
4.如权利要求1所述的基于张量链分解的流式数据增量处理方法,其特征在于,根据所述高阶统一张量表示模型将原始数据表示为原始张量,并对所述原始张量进行张量链分解,得到第一张量链格式包括:
根据所述高阶统一张量表示模型构建所述原始数据的第一模型,并从所述第一模型获取所述原始张量;
对所述原始张量进行张量链分解,得到第一张量链格式。
5.如权利要求1所述的基于张量链分解的流式数据增量处理方法,其特征在于,根据所述高阶统一张量表示模型将新增数据表示为新增张量,并对所述新增张量进行张量链分解,得到第二张量链格式包括:
根据所述高阶统一张量表示模型构建所述新增数据的第二模型,并从所述第二模型中获取所述新增张量;
对所述新增张量进行张量链分解,得到第二张量链格式。
6.如权利要求1所述的基于张量链分解的流式数据增量处理方法,其特征在于,根据所述第一张量链格式和所述第二张量链格式计算更新张量的张量链分解结果包括:
对所述第一张量链格式和所述第二张量链格式分别进行维度补零操作,得到原始张量的张量链分解结果和新增张量的张量链分解结果;
对所述原始张量的张量链分解结果和所述新增张量的张量链分解结果进行求和,得到所述更新张量的张量链分解结果。
7.如权利要求1所述的基于张量链分解的流式数据增量处理方法,其特征在于,在根据所述第一张量链格式和所述第二张量链格式计算更新张量的张量链分解结果之后,还包括:
对所述更新张量的张量链分解结果进行正交和压缩,得到目标张量链分解结果。
8.一种基于张量链分解的流式数据增量处理装置,其特征在于,包括:
模型构建模块,用于构建多源异构数据的高阶统一张量表示模型;
第一张量链分解模块,用于根据所述高阶统一张量表示模型将原始数据表示为原始张量,并对所述原始张量进行张量链分解,得到第一张量链格式;
第二张量链分解模块,用于根据所述高阶统一张量表示模型将新增数据表示为新增张量,并对所述新增张量进行张量链分解,得到第二张量链格式;
张量更新模块,用于根据所述第一张量链格式和所述第二张量链格式计算更新张量的张量链分解结果。
9.如权利要求8所述的基于张量链分解的流式数据增量处理装置,其特征在于,所述模型构建模块包括:
数据采集模块,用于采集所述多源异构数据,其中,所述多源异构数据包括结构化数据、半结构化数据和非结构化数据;
数据子张量化模块,用于对所述结构化数据、所述半结构化数据和所述非结构化数据分别进行子张量化表示,得到结构化子张量、半结构化子张量和非结构化子张量;
子张量融合模块,用于对所述结构化子张量、所述半结构化子张量和所述非结构化子张量进行融合,构建所述高阶统一张量表示模型。
10.如权利要求8所述的基于张量链分解的流式数据增量处理装置,其特征在于,所述张量更新模块包括:
维度补零模块,用于对所述第一张量链格式和所述第二张量链格式分别进行维度补零操作,得到原始张量的张量链分解结果和新增张量的张量链分解结果;
求和模块,用于对所述原始张量的张量链分解结果和所述新增张量的张量链分解结果进行求和,得到所述更新张量的张量链分解结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010001952.0A CN111241076B (zh) | 2020-01-02 | 2020-01-02 | 一种基于张量链分解的流式数据增量处理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010001952.0A CN111241076B (zh) | 2020-01-02 | 2020-01-02 | 一种基于张量链分解的流式数据增量处理方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111241076A true CN111241076A (zh) | 2020-06-05 |
CN111241076B CN111241076B (zh) | 2023-10-31 |
Family
ID=70879588
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010001952.0A Active CN111241076B (zh) | 2020-01-02 | 2020-01-02 | 一种基于张量链分解的流式数据增量处理方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111241076B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112531897A (zh) * | 2020-12-03 | 2021-03-19 | 国网山西省电力公司晋城供电公司 | 一种配电设备统一综合状态监测*** |
CN113255264A (zh) * | 2021-06-07 | 2021-08-13 | 上海国微思尔芯技术股份有限公司 | 增量分割处理方法、装置、计算机设备和存储介质 |
CN117592951A (zh) * | 2024-01-19 | 2024-02-23 | 南京邮电大学 | 一种基于张量的多维***数据处理方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2010062268A1 (en) * | 2008-11-28 | 2010-06-03 | Agency For Science, Technology And Research | A method for updating a 2 dimensional linear discriminant analysis (2dlda) classifier engine |
WO2013119324A1 (en) * | 2012-02-10 | 2013-08-15 | Tokyo Electron Limited | Numerical aperture integration in raleigh wavelengths for optical critical dimension (ocd) metrology |
CN107566383A (zh) * | 2017-09-12 | 2018-01-09 | 南京师范大学 | 一种有限网络带宽约束下的高维时空场数据实时传输方法 |
CN107728211A (zh) * | 2017-08-31 | 2018-02-23 | 电子科技大学 | 基于张量核范数正则化的地震信号恢复算法 |
CN109921799A (zh) * | 2019-02-20 | 2019-06-21 | 重庆邮电大学 | 一种基于聚能量字典学习的张量压缩方法 |
-
2020
- 2020-01-02 CN CN202010001952.0A patent/CN111241076B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2010062268A1 (en) * | 2008-11-28 | 2010-06-03 | Agency For Science, Technology And Research | A method for updating a 2 dimensional linear discriminant analysis (2dlda) classifier engine |
WO2013119324A1 (en) * | 2012-02-10 | 2013-08-15 | Tokyo Electron Limited | Numerical aperture integration in raleigh wavelengths for optical critical dimension (ocd) metrology |
CN107728211A (zh) * | 2017-08-31 | 2018-02-23 | 电子科技大学 | 基于张量核范数正则化的地震信号恢复算法 |
CN107566383A (zh) * | 2017-09-12 | 2018-01-09 | 南京师范大学 | 一种有限网络带宽约束下的高维时空场数据实时传输方法 |
CN109921799A (zh) * | 2019-02-20 | 2019-06-21 | 重庆邮电大学 | 一种基于聚能量字典学习的张量压缩方法 |
Non-Patent Citations (7)
Title |
---|
AMRITPAL SINGH等: ""Deep-Learning-Based SDN Model for Internet of Things: An Incremental Tensor Train Approach"", 《IEEE INTERNET OF THINGS JOURNAL(VOLUME: 7, ISSUE: 7, JULY 2020)》, pages 1 - 10 * |
RONGQIANG ZHAO等: ""Selective Locking Tensor Orthogonal Matching Pursuit algorithm based on block sparsity for multidimensional compressive sensing"", 《2016 IEEE INTERNATIONAL INSTRUMENTATION AND MEASUREMENT TECHNOLOGY CONFERENCE PROCEEDINGS》, pages 1 - 4 * |
YANPING CHEN等: ""A Method for Extracting High-Quality Core Data from Edge Computing Nodes"", 《MATHEMATICAL PROBLEMS IN ENGINEERING》, 12 June 2019 (2019-06-12), pages 1 - 10 * |
YANPING CHEN等: ""A Method for Extracting High-Quality Core Data from Edge Computing Nodes"", 《MATHEMATICAL PROBLEMS IN ENGINEERING》, pages 1 - 10 * |
刘慧梅: ""改进的低秩张量补全算法及应用"", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
刘慧梅: ""改进的低秩张量补全算法及应用"", 《西安建筑科技大学》, pages 3 - 5 * |
陈震等: ""预处理最小二乘QR分解法识别桥梁移动荷载的优化分析及试验研究"", 《振动工程学报》, pages 545 - 552 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112531897A (zh) * | 2020-12-03 | 2021-03-19 | 国网山西省电力公司晋城供电公司 | 一种配电设备统一综合状态监测*** |
CN113255264A (zh) * | 2021-06-07 | 2021-08-13 | 上海国微思尔芯技术股份有限公司 | 增量分割处理方法、装置、计算机设备和存储介质 |
CN113255264B (zh) * | 2021-06-07 | 2021-10-01 | 上海国微思尔芯技术股份有限公司 | 增量分割处理方法、装置、计算机设备和存储介质 |
CN117592951A (zh) * | 2024-01-19 | 2024-02-23 | 南京邮电大学 | 一种基于张量的多维***数据处理方法 |
CN117592951B (zh) * | 2024-01-19 | 2024-03-22 | 南京邮电大学 | 一种基于张量的多维***数据处理方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111241076B (zh) | 2023-10-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Kuang et al. | A tensor-based approach for big data representation and dimensionality reduction | |
CN111241076A (zh) | 一种基于张量链分解的流式数据增量处理方法及装置 | |
Liu et al. | Constrained nonnegative matrix factorization for image representation | |
CN108509566B (zh) | 一种基于云上95598数据发布服务业务***网络拓扑可视化方法 | |
CN111428073A (zh) | 一种深度监督量化哈希的图像检索方法 | |
CN103473307B (zh) | 跨媒体稀疏哈希索引方法 | |
US11841839B1 (en) | Preprocessing and imputing method for structural data | |
CN106528898A (zh) | 将非关系型数据库数据转换到关系型数据库的方法及装置 | |
WO2019214455A1 (zh) | 一种数据序列预测方法及计算设备 | |
CN111506950A (zh) | Bim结构变换增量信息的生成和存储***和方法 | |
CN105144157A (zh) | 用于压缩数据库中的数据的***和方法 | |
CN112925920A (zh) | 一种智慧社区大数据知识图谱网络社团检测方法 | |
Bouhamoum et al. | Scaling up schema discovery for RDF datasets | |
CN116975782A (zh) | 基于多层次信息融合的层次化时间序列预测方法和*** | |
CN113704565B (zh) | 基于全局区间误差的学习型时空索引方法、装置及介质 | |
CN113190651B (zh) | 基于定额知识图谱技术的电力数据全局知识图谱补全方法 | |
CN113051408B (zh) | 一种基于信息增强的稀疏知识图谱推理方法 | |
CN117787343A (zh) | 一种针对微博话题趋势的长序列预测方法、装置及计算机存储介质 | |
CN110389953B (zh) | 基于压缩图的数据存储方法、存储介质、存储装置和服务器 | |
CN117573880A (zh) | 一种轧制过程数据元模型与数据空间构建方法及*** | |
CN115982177A (zh) | 一种基于树形维度的数据归集的方法、装置、设备及介质 | |
CN115858498A (zh) | 五维时空分布式数据库构建方法及装置 | |
CN112148830A (zh) | 一种基于最大区域网格的语义数据存储与检索的方法及装置 | |
CN112883238B (zh) | 一种面向交通信息应用的多叉树数据存储***及方法 | |
CN111522975B (zh) | 等价连续变化的二值离散优化的非线性哈希图像检索方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |