CN110751599B

CN110751599B - 一种基于截断核范数的视觉张量数据补全方法

Info

Publication number: CN110751599B
Application number: CN201910458186.8A
Authority: CN
Inventors: 陈曦; 李捷; 何宇明; 彭朔
Original assignee: Changsha University of Science and Technology
Current assignee: Changsha University of Science and Technology
Priority date: 2019-05-29
Filing date: 2019-05-29
Publication date: 2022-08-05
Anticipated expiration: 2039-05-29
Also published as: CN110751599A

Abstract

本发明提供了一种基于截断核范数的视觉张量数据补全方法，包括以下步骤：步骤S1、将待补全张量

存储为三维张量形式的目标张量

并根据待补全张量

初始化目标张量

步骤S2、将目标张量

输入张量补全模型，并采用梯度下降法求解张量补全模型，输出目标张量

的解；张量补全模型为基于瘦的t‑SVD(张量奇异值分解)的张量截断核范数模型。步骤S3、将目标张量

的解转换为数据源对应的格式。张量数据补全效率高，算法速度快，补全结果质量高。

Description

一种基于截断核范数的视觉张量数据补全方法

技术领域

本发明涉及视觉张量数据补全技术领域，尤其涉及一种基于截断核范数的视觉张量数据补全方法。

背景技术

在计算机视觉研究中，很多视觉数据如彩色图像，视频序列等往往具有很复杂的高阶数据结构。传统的数据表示形式如向量和矩阵等不能很好的反映这些多维数据结构信息，张量作为向量(一阶)和矩阵(二阶) 表示的更高阶(大于等于3的阶数)的推广，能更好的反映诸如图像、视频等多维数据的内在结构。

实际获取数据的过程中，由于编码、传输和数据转换等，会造成张量数据中某些元素的丢失，利用张量数据中已知元素预测和恢复未知元素的技术称为张量补全。张量补全的一种处理方式为低秩张量补全，低秩张量补全通常基于以下两种张量分解技术：CANDECOMP/PARAFAC(CP)分解和Tucker分解；CP模型分解一个张量为多个秩1张量的和，但基于 CP分解的模型通常有计算量高和求解方式复杂等问题；Tucker分解模型则沿某一维度将一个N阶的张量分解为一个核心张量和N个矩阵的模式基，但Tucker分解通常需要预先估计展开矩阵的秩，在实际应用中通常不能得到正确的估计结果，从而导致补全效果不佳。另一种处理方式是运用矩阵补全技术，采用凸优化方法，直接最小化张量展开后所有矩阵的迹范数和，这种张量补全方式通常可以取得较好的效果，但需要应用奇异值分解(SVD)在所有展开的矩阵上，故算法效率较低。

Zhou等人提出的方法(Zhou P,Lu C,Lin Z,et al.Tensor Factorization forLow-Rank Tensor Completion.[J].IEEE Trans Image Process,2017, PP(99):1-1.)中采用矩阵分解思想，在优化过程中把大的张量数据分解成两个小的张量数据，然后迭代的求取原目标函数的解。该方法速度快，且算法被证明可以收敛到一个KKT点；但是没有考虑到高阶张量自身重要的结构信息，采用矩阵分解的方法破坏了张量数据的内在低秩结构，并且，在原本张量数据丢失严重和待补全张量数据量大的情况下，该方法对数据中的结构信息和数据的低秩特性不能很好的利用，因而在对张量数据的补全上效果不佳。

中国专利CN201710102313.1公开一种基于局部低秩张量估计的视觉数据补全方法，该方法将原始图像和视频映射为典型的3阶张量数据结构，并将原张量有重叠的分解为多个子张量，以最小化子张量的迹范数加权进行迭代的求解。该专利较好的保留了每个数据元素与周围元素的高相关性；但是分解结果的好坏直接影响最终补全效果，如重叠的张量在实际应用中并不能正确估计最终的补全结果，如彩色图像的补全，会造成图像边缘细节的模糊等问题；该方法的模型为所有分解后小张量的迹范数和，模型本身并不能很好的逼近原始张量的秩，导致最终的补全效果变差。

发明内容

(一)要解决的技术问题

为了解决现有技术的上述问题，本发明提供一种基于截断核范数的视觉张量数据补全方法。张量数据补全效率高，算法速度快，补全结果质量高。

(二)技术方案

为了达到上述目的，本发明采用的主要技术方案包括：

一种基于截断核范数的视觉张量数据补全方法，包括以下步骤：

步骤S1、将待补全张量

存储为三维张量形式的目标张量

并根据待补全张量

初始化目标张量

步骤S2、将目标张量

的解；张量补全模型为基于瘦的t-SVD张量奇异值分解的张量截断核范数模型。

步骤S3、将目标张量

的解转换为数据源对应的格式。

作为本发明基于截断核范数的视觉张量数据补全方法的一种改进，步骤S1中，根据待补全张量

初始化目标张量

具体为：初始化目标张量

以满足映射

其中，

为目标张量映射成的非缺失值数据，

为待补全张量映射成的已知数据，

为目标张量中的缺失值元素。

作为本发明基于截断核范数的视觉张量数据补全方法的一种改进，张量补全模型的具体构建方法如下：根据瘦的t-SVD技术，对目标张量进行分解：

其中

和

是经t- SVD分解后得到的左右奇异张量；

然后建立基于t-SVD的张量截断核范数模型为：

其中，tr(×)是张量的及运算符；*为张量积运算符；

和

是经t-SVD 分解得到的左右奇异张量；

和

采用Matlab形式可表示为

r是

和

沿第二维截取列的数量，

为单位张量(张量第一维切片为单位矩阵，其余切片全部为0。

作为本发明基于截断核范数的视觉张量数据补全方法的一种改进，向张量截断核范数模型中引入权重张量

获得以下加权的截断张量核范数模型：

权重张量

每个正面切片矩阵满足以下公式：

其中，θ>0，N(1<N<p)是一个正整数，

是

的正面切片矩阵W⁽ⁱ⁾(i＝1,…,n₃)中的元素。

作为本发明基于截断核范数的视觉张量数据补全方法的一种改进，步骤S2中，采用梯度下降法求解张量补全模型，具体为：

令算法初始值为

采用以下公式迭代求得所述截断张量核范数模型的闭式解：

其中，a_k>0是一个步长参数；在第k轮迭代中，A_k，B_k，

和

由以下等式求得：

当达到迭代停止准则时，迭代停止；迭代停止准则设定为达到最大迭代次数或相邻两次迭代中的误差

ε为预先设定的阈值。

(三)有益效果

本发明的有益效果是：

1、本发明采用一种瘦的t-SVD技术，只需要在傅里叶域中对前

个张量正面切面矩阵进行奇异值分解操作，避免了张量数据规模变大、存储困难和时间消耗巨大等问题，极大提高了张量数据的补全效率。

2、通过为每次迭代产生的目标张量所有正面切片都引入了一个权重矩阵，当某一切片每行中已知元素越多时，赋予更小权重以增加重建概率；当迭代次数增加时，数据的未知元素稀疏性会显著提升，从而加快算法速度。

3、本发明通过从用户给定的张量数据作为整体进行处理，补全过程中不需要对张量进行多次分解，因而补全合成结果能够很好的保全张量的空间结构信息，从而能够产生高质量的补全结果。

附图说明

本发明借助于以下附图进行描述：

图1为本发明具体实施方式中基于截断核范数的视觉张量补全方法的流程图；

图2为本发明具体实施方式中张量数据转换演示图；

图3为本发明具体实施方式中的原始图像；

图4为本发明具体实施方式中的待补全图像；

图5为本发明具体实施方式中的补全后图像；

图6为本发明具体实施方式中的原始视频序列；

图7为本发明具体实施方式中的待补全视频序列；

图8为本发明具体实施方式中的补全后视频序列。

具体实施方式

为了更好的解释本发明，以便于理解，下面结合附图，通过具体实施方式，对本发明作详细描述。

在对视觉数据(如彩色图像和视频等高维数据)转化为张量数据形式后，即需要对补全过程进行建模。在低秩张量补全模型中，通常采用最小化核范数等凸优化技术逼近原始张量的秩，在实际应用中，数据的主要信息包含在一些较大的奇异值当中(即矩阵的低秩特性)，而最小化张量的所有奇异值并不能很好的逼近张量的秩。改进的张量截断核范数只最小化包含数据主要信息的一部分较大的奇异值，在实际应用中能更好的反映张量准确的秩，从而更好的逼近原始张量的秩。

因此，如图1所示，本发明提供了一种基于截断核范数的视觉张量数据补全方法，包括以下步骤：

步骤S1、将待补全张量

存储为三维张量形式的目标张量

并根据待补全张量

初始化目标张量

步骤S2、将目标张量

步骤S3、将目标张量

的解转换为数据源对应的格式。

步骤S1中，如图2所示，将有缺失值的张量数据(如有缺失像素的图像、视频序列)存储为三维张量形式

具体地，根据待补全张量

初始化目标张量

以满足映射

其中，

为目标张量映射成的已知(非缺失值) 数据，

为待补全张量映射成的已知数据，

为目标张量中的缺失值元素。

步骤S2中，张量补全模型由以下方法构建而成：

基于瘦的t-SVD张量奇异值分解技术，对目标张量进行分解为：

其中

和

是经t-SVD分解后得到的左右奇异张量。

然后构造如下用于张量补全的张量截断核范数模型：

其中，p＝min(n₁,n₂)，r是给定的截断阈值，

是张量

沿第三维由傅里叶变换得到的值。注意这里的张量奇异值σ_i(X)只由张量的一维正面切片决定，即σ_i(X)是S(i,i,1)的第i个元素。

基于以上给出的张量截断核范数模型，和矩阵情形类似，将上述张量截断核范数模型改写为下式：

其中，

为标准张量迹范数；tr(×)是张量的及运算符；*为张量积运算符，具体参照《Tensor Factorization for Low-Rank Tensor Completion》；

和

采用Matlab形式可表示为

r是

和

沿第二维截取列的数量，

并结合广义冯诺依曼不等式

其中，

和

是经t- SVD分解得到的左右奇异张量；得到以下张量截断核范数模型：

对于三阶张量

现有中许多基于奇异值分解的张量补全方法需要在张量矩阵化后全部n₃个矩阵上应用奇异值分解，算法执行效率低下，而本发明采用一种瘦的t-SVD技术，只需要在傅里叶域中对前

上述模型在优化过程中每轮迭代都试图估计所有缺失的值，导致迭代速度很慢。优选地，引入一个权重张量

以平衡每轮得到的目标张量的残差，最后可以得到以下加权的截断张量核范数模型：

权重张量

每个正面切片矩阵满足以下公式：

其中，θ>0，N(1<N<p)是一个正整数，

是

的正面切片矩阵W⁽ⁱ⁾(i＝1,…,n₃)中的元素。

和

唯一的不同在于θ的取值不同。为每次迭代产生的目标张量所有正面切片都引入了一个权重矩阵，当某一切片每行中已知元素越多时赋予更小权重以增加重建概率，当迭代次数增加时，数据的未知元素稀疏性会显著提升，从而加快算法速度。

现有中求解张量补全模型通常使用交替方向乘子法(ADMM)。然而，本发明的模型是非凸的，理论上ADMM方法不能保证非凸函数的收敛性。在本发明中，采用梯度下降法求解本发明的张量补全模型。具体方法如下：

本发明中的截断张量核范数模型可用以下约束问题进行描述：

令算法初始值为

采用以下公式迭代求得上述约束问题的闭式解：

其中，a_k>0是一个步长参数；在第k轮迭代中，A_k，B_k，

和

由以下等式求得：

本发明采用简单的梯度搜索迭代方法，不同于现有张量补全模型中常用的交替方向乘子法(ADMM)，保证了算法每步迭代都能产生闭式解。

判断当前模型求解算法获得的闭式解相对于前一步模型求解算法获得的闭式解的变化值小于预先设定的阈值，或者迭代轮数大于等于预先设定的迭代数时停止迭代，输出目标张量

的解。即

或者 k≥K，K和ε均为预先设定的阈值。

综上所述，本发明相比于现有的基于张量核范数的张量补全方法，通过使用瘦的t-SVD技术，避免了张量数据规模变大、存储困难和时间消耗巨大等问题，极大提高了张量数据的补全效率。通过向每次迭代产生的目标张量所有正面切片都引入了一个权重矩阵，当某一切片每行中已知元素越多时赋予更小权重以增加重建概率，当迭代次数增加时，数据的未知元素稀疏性会显著提升，从而加快算法速度。本发明通过从用户给定的张量数据作为整体进行处理，补全过程中不需要对张量进行多次分解，因而补全合成结果能够很好的保全张量的空间结构信息，从而能够产生高质量的补全结果。

采用本发明提出的技术方案对随机损失一定比例数据像素点后的图像(如图4)进行补全恢复任务，结果如图5所示。采用本发明提出的技术方案对随机损失一定比例数据像素点后的视频序列(如图7)进行补全恢复任务，结果如图8所示。将恢复后的图像(图5)与原始图像(图3) 进行对比，将恢复后的视频序列(图8)与原始视频序列(图6)进行对比，可见，在视频序列和图像上应用本发明，获得的恢复结果中整体的视觉效果好，且局部的边缘细节信息也能得到好的恢复。

需要理解的是，以上对本发明的具体实施例进行的描述只是为了说明本发明的技术路线和特点，其目的在于让本领域内的技术人员能够了解本发明的内容并据以实施，但本发明并不限于上述特定实施方式。凡是在本发明权利要求的范围内做出的各种变化或修饰，都应涵盖在本发明的保护范围内。