WO2022006734A1

WO2022006734A1 - 一种数据稀疏投影算法、***、电子装置及存储介质

Info

Publication number: WO2022006734A1
Application number: PCT/CN2020/100618
Authority: WO
Inventors: 顾崇林; 马畅翼; 李文烨; 崔曙光
Original assignee: 香港中文大学（深圳）
Priority date: 2020-07-07
Filing date: 2020-07-07
Publication date: 2022-01-13
Also published as: US11853387B2; US20230259582A1

Abstract

一种数据稀疏投影方法，包括：随机初始化一个高维稀疏二维矩阵（S1）；将高维稀疏二维矩阵固定，使用高维稀疏二维矩阵计算最优的输出变量（S2）；将最优的输出变量固定，使用最优的输出变量计算最优的高维稀疏二维矩阵（S3）；循环固定所述高维稀疏二维矩阵及输出变量，直至在固定所述高维稀疏二维矩阵时最优的输出变量不再增大（S4）；通过随机和迭代的方式不断地优化高维稀疏二维矩阵，能够使得高维稀疏二维矩阵更加稳定，对原始数据相似度特征保护更好，并且该算法的稀疏性和二值性使得其在实际应用中计算速度更快。

Description

一种数据稀疏投影算法、***、电子装置及存储介质

技术领域

本发明涉及数据处理技术领域，尤其涉及一种数据稀疏投影算法、***、电子装置及存储介质。

背景技术

随机投影技术是数据分析的重要工具，其利用矩阵相乘的计算方式对原始输入的样本数据(矩阵形式)进行重新表达，从而在保护原始数据特征的同时获得更好的性能，比如：计算速度、存储空间、精确度等。

现有的随机投影技术主要有LSH(locality sensitive hashing，局部感知哈希)算法和FLY(果蝇算法)。

但是，LSH和FLY的构成较为简单，使得投影矩阵的生成过于随机，导致投影前后样本之间的相似度特征无法得到保护，且由于每次输出结果不断变化，导致在实际应用中不稳定。

发明内容

本发明的主要目的在于提供一种数据稀疏投影算法、***、电子装置及存储介质，旨在解决现有技术中投影矩阵的生成过于随机，导致投影前后样本之间的相似度特征无法得到保护，且由于每次输出结果不断变化，导致在实际应用中不稳定的技术问题。

为实现上述目的，本发明第一方面提供一种数据稀疏投影算法，包括：随机初始化一个高维稀疏二维矩阵；将所述高维稀疏二维矩阵固定，使用所述高维稀疏二维矩阵计算最优的输出变量；将最优的输出变量固定，使用最优的输出变量计算最优的高维稀疏二维矩阵；循环固定所述高维稀疏二维矩阵及输出变量，直至在固定所述高维稀疏二维矩阵时最优的输出变量不再增大，此时生成最终的高维稀疏二维矩阵。

进一步地，所述将所述高维稀疏二维矩阵固定，使用所述高维稀疏二维矩阵计算最优的输出变量包括：根据已有的样本训练集合，所述样本包括输入向量或输入向量与输出变量，所述输入向量为高维稀疏二维矩阵；使用赢者通吃算法建立所述集合中的输入向量及输出向量之间的函数关系；将高维稀疏二维矩阵固定，根据固定的所述高维稀疏二维矩阵及所述函数关系计算最优的输出变量。

进一步地，所述将所述高维稀疏二维矩阵固定，使用所述高维稀疏二维矩阵计算最优的输出变量还包括：根据给定的约束值，对所述高维稀疏二维矩阵做稀疏性约束；根据赢者通吃算法及约束后的高维稀疏二维矩阵对输出变量进行约束。

本发明第二方面提供一种数据稀疏投影***，包括：初始化模块，用于随机初始化一个高维稀疏二维矩阵；最优输出变量计算模块，用于将所述初始化模块初始化的高维稀疏二维矩阵固定，使用所述高维稀疏二维矩阵计算最优的输出变量；最优高维稀疏二维矩阵计算模块，用于将所述最优输出变量计算模块计算出的最优的输出变量固定，使用最优的输出变量计算最优的高维稀疏二维矩阵；循环模块，用于循环固定所述高维稀疏二维矩阵及输出变量，直至在固定所述最优高维稀疏二维矩阵计算模块得到的高维稀疏二维矩阵时最优的输出变量不再增大。

进一步地，所述最优输出变量计算模块包括：集合训练单元，用于根据已有的样本训练集合，所述样本包括输入向量或输入向量与输出变量，所述输入向量为高维稀疏二维矩阵；函数关系建立单元，用于使用赢者通吃算法建立所述集合中的输入向量及输出向量之间的函数关系；计算单元，用于将高维稀疏二维矩阵固定，并根据固定的所述集合训练单元训练的集合中的高维稀疏二维矩阵及所述函数关系建立单元建立的函数关系计算最优的输出变量。

进一步地，所述最优输出变量计算模块还包括：高维稀疏二维矩阵约束单元，用于根据给定的约束值，对高维稀疏二维矩阵做稀疏性约束；输出变量约束单元，用于根据赢者通吃算法及所述高维稀疏二维矩阵约束单元约束后的高维稀疏二维矩阵对输出变量进行约束。

本发明第三方面提供一种电子装置，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现上述中的任意一项所述方法。

本发明第四方面提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，实现上述中的任意一项所述方法。

本发明提供一种数据稀疏投影算法，有益效果在于：通过随机和迭代的方式不断地优化高维稀疏二维矩阵，能够使得高维稀疏二维矩阵更加稳定，对原始数据相似度特征保护更好、其稀疏性和二值性使得其在实际应用中计算速度更快。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例数据稀疏投影算法的流程示意框图；

图2为本发明实施例数据稀疏投影***的结构示意框图；

图3为本发明实施例电子装置的结构示意框图。

具体实施方式

为使得本发明的发明目的、特征、优点能够更加的明显和易懂，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而非全部实施例。基于本发明中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，为一种数据稀疏投影算法，包括：S1、随机初始化一个高维稀疏二维矩阵；S2、将高维稀疏二维矩阵固定，使用高维稀疏二维矩阵计算最优的输出变量；S3、将最优的输出变量固定，使用最优的输出变量计算最优的高维稀疏二维矩阵；S4、循环固定高维稀疏二维矩阵及输出变量，直至在固定高维稀疏二维矩阵时最优的输出变量不再增大。

具体地，在算法开始时，随机初始化一个W，并记做W ¹，通过交互迭代对W和Y不断优化，Y为输出变量，具体迭代优化过程为：

对于第t次迭代，固定W记做W ^t同时最大化关于变量Y的函数L(W，Y)，此时获得最优的Y ^t；随后固定Y记做Y ^t同时最大化关于变量W的函数L(W，Y)，得到W ^t+1，重复以上步骤直至L不再增大，即函数值收敛。

将高维稀疏二维矩阵固定，使用高维稀疏二维矩阵计算最优的输出变量包括：根据已有的样本训练集合，样本包括输入向量或输入向量与输出变量，输入向量为高维稀疏二维矩阵；使用赢者通吃算法建立集合中的输入向量及输出向量之间的函数关系；将高维稀疏二维矩阵固定，并根据固定的高维稀疏二维矩阵及函数关系计算最优的输出变量。

将高维稀疏二维矩阵固定，使用高维稀疏二维矩阵计算最优的输出变量还包括：根据给定的约束值，对高维稀疏二矩阵做稀疏性约束；根据赢者通吃算法及约束后的高维稀疏二维矩阵对输出变量进行二值化约束。

在上述中，关于最优的Y ^t可以很容易通过

求得，其中(1≤m≤n)。

其中，首先要根据给定的样本集合X＝{x _.1，...，x _.n}，其中每个样本x _.m∈R ^d(1≤m≤n)。基于训练集X，我们希望获得一个高维稀疏二值矩阵W将d维输入向量{x _.1，...，x _.n}投影到d′维(d′远大于d)的稀疏二值向量{y _.1，...，y _.n}中，并且每对输入和输出向量之间满足

这望

表示赢者通吃(Winner-Take-All)计算方法。即：对于1≤i≤d′，

这里k表示投影的哈希长度。由于实际训练数据存在噪声，为了寻找投影矩阵W，该问题转化为关于变量W和变量Y的最大化问题，即：

Maximize：

令l _mij＝y _im(1-y _jm)(W _i.x _.m-w _j.x _.m)，当y _im＝1并且y _jm＝0，W _i.x _.m≥w _j.x _.m使得l _mij增大，整体L(W，Y)朝着正向增加；否则，l _mij＝0，对L(W，Y)没有影响，因此该问题最终就是找到理想的W和Y。对于稀疏二值投影，我们对W做稀疏性约束，对于给定的c，我们有：

w _i.∈{0，1} ^d并且

从WTA函数中，我们有关于Y的约束如下：

y _.m∈{0，1} ^d′并且

而关于最优的W ^t+1，有以下推导：

因此最优的W ^t+1是

对于所有的1≤i≤d，并且

通过交互式迭代优化过程，我们的函数值可以获得局部最优解，当函数值L(W，Y)不再上升时收敛。

综上所述，本申请实施例提供的一种数据稀疏投影算法，生成了高质量投影矩阵，对于输入和输出都给定的样本，可直接根据上述中的方法生成最优的高维稀疏二维矩阵，适用于有监督学习。

在对于只给定输入的样本而不给定输出样本的情况下，对于通过随机高维稀疏二维矩阵和迭代的方式不断优化高维稀疏二维矩阵，使得生成的投影矩阵更稳定，对原始数据相似度特征保护更好、其稀疏性和二值性使得其在实际应用中计算速度更快，适合无监督学习。因此，本发明不仅适合于有监督学习，还适合无监督学习，而本发明中的投影矩阵是从输入数据中学习出来的，较已有方法具有更稳定、特征保护性更好、计算更快的有益效果。

请参阅图2，本申请实施例还提供一种数据稀疏投影***，包括：初始化模块1、最优输出变量计算模块2、最优高维稀疏二维矩阵计算模块3及循环模块4；初始化模块1用于随机初始化一个高维稀疏二维矩阵；最优输出变量计算模块2用于将初始化模块1初始化的高维稀疏二维矩阵固定，使用高维稀疏二维矩阵计算最优的输出变量；最优高维稀疏二维矩阵计算模块3用于将最优输出变量计算模块2计算出的最优的输出变量固定，使用最优的输出变量计算最优的高维稀疏二维矩阵；循环模块4用于循环固定高维稀疏二维矩阵及输出变量，直至固定最优输出变量计算模块2得到的输出变量时高维稀疏二维矩阵不再增大。

最优输出变量计算模块2包括：集合训练单元、函数关系建立单元及计算单元；集合训练单元用于根据已有的样本训练集合，样本包括输入向量或输入向量与输出变量，输入向量为高维稀疏二维矩阵；函数关系建立单元用于使用赢者通吃算法建立集合中的输入向量及输出向量之间的函数关系；计算单元用于将高维稀疏二维矩阵固定，并根据固定的集合训练单元训练的集合中的高维稀疏二维矩阵及函数关系建立单元建立的函数关系计算最优的输出变量。

最优输出变量计算模块2还包括：高维稀疏二维矩阵约束单元及输出变量约束单元；高维稀疏二维矩阵约束单元用于根据给定的约束值，对高维稀疏二维矩阵做稀疏性约束；输出变量约束单元用于根据赢者通吃算法及高维稀疏二维矩阵约束单元约束后的高维稀疏二维矩阵对输出变量进行约束。

本申请实施例提供一种电子装置，请参阅3，该电子装置包括：存储器601、处理器602及存储在存储器601上并可在处理器602上运行的计算机程序，处理器602执行该计算机程序时，实现前述中描述的半导体加工模块的故障响应方法。

进一步的，该电子装置还包括：至少一个输入设备603以及至少一个输出设备604。

上述存储器601、处理器602、输入设备603以及输出设备604，通过总线605连接。

其中，输入设备603具体可为摄像头、触控面板、物理按键或者鼠标等等。输出设备604具体可为显示屏。

存储器601可以是高速随机存取记忆体(RAM，R且om Access Memory)存储器，也可为非不稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器601用于存储一组可执行程序代码，处理器602与存储器601耦合。

进一步的，本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质可以是设置于上述各实施例中的电子装置中，该计算机可读存储介质可以是前述实施例中的存储器601。该计算机可读存储介质上存储有计算机程序，该程序被处理器602执行时实现前述方法实施例中描述的半导体加工模块的故障响应方法。

进一步的，该计算机可存储介质还可以是U盘、移动硬盘、只读存储器601(ROM，Read-Only Memory)、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。

需要说明的是，对于前述的各方法实施例，为了简便描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定都是本发明所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。

以上为对本发明所提供的一种数据稀疏投影算法、***、电子装置及存储介质的描述，对于本领域的技术人员，依据本发明实施例的思想，在具体实施方式及应用范围上均会有改变之处，综上，本说明书内容不应理解为对本发明的限制。

Claims

一种数据稀疏投影算法，其特征在于，包括：

随机初始化一个高维稀疏二维矩阵；

将所述高维稀疏二维矩阵固定，使用所述高维稀疏二维矩阵计算最优的输出变量；

将最优的输出变量固定，使用最优的输出变量计算最优的高维稀疏二维矩阵；

循环固定所述高维稀疏二维矩阵及输出变量，直至在固定所述高维稀疏二维矩阵时最优的输出变量不再增大，此时生成最终的高维稀疏二维矩阵。
根据权利要求1所述的数据稀疏投影算法，其特征在于，

所述将所述高维稀疏二维矩阵固定，使用所述高维稀疏二维矩阵计算最优的输出变量包括：

根据已有的样本训练集合，所述样本包括输入向量或输入向量与输出变量，所述输入向量为高维稀疏二维矩阵；

使用赢者通吃算法建立所述集合中的输入向量及输出向量之间的函数关系；

将高维稀疏二维矩阵固定，根据固定的所述高维稀疏二维矩阵及所述函数关系计算最优的输出变量。
根据权利要求2所述的数据稀疏投影算法，其特征在于，

所述将所述高维稀疏二维矩阵固定，使用所述高维稀疏二维矩阵计算最优的输出变量还包括：

根据给定的约束值，对所述高维稀疏二维矩阵做稀疏性约束；

根据赢者通吃算法及约束后的高维稀疏二维矩阵对输出变量进行约束。
一种数据稀疏投影***，其特征在于，包括：

初始化模块，用于随机初始化一个高维稀疏二维矩阵；

最优输出变量计算模块，用于将所述初始化模块初始化的高维稀疏二维矩阵固定，使用所述高维稀疏二维矩阵计算最优的输出变量；

最优高维稀疏二维矩阵计算模块，用于将所述最优输出变量计算模块计算出的最优的输出变量固定，使用最优的输出变量计算最优的高维稀疏二维矩阵；

循环模块，用于循环固定所述高维稀疏二维矩阵及输出变量，直至在固定所述最优高维稀疏二维矩阵计算模块得到的高维稀疏二维矩阵时最优的输出变量不再增大。
根据权利要求4所述的数据稀疏投影***，其特征在于，

所述最优输出变量计算模块包括：

集合训练单元，用于根据已有的样本训练集合，所述样本包括输入向量或输入向量与输出变量，所述输入向量为高维稀疏二维矩阵；

函数关系建立单元，用于使用赢者通吃算法建立所述集合中的输入向量及输出向量之间的函数关系；

计算单元，用于将高维稀疏二维矩阵固定，并根据固定的所述集合训练单元训练的集合中的高维稀疏二维矩阵及所述函数关系建立单元建立的函数关系计算最优的输出变量。
根据权利要求5所述的数据稀疏投影***，其特征在于，

所述最优输出变量计算模块还包括：

高维稀疏二维矩阵约束单元，用于根据给定的约束值，对高维稀疏二维矩阵做稀疏性约束；

输出变量约束单元，用于根据赢者通吃算法及所述高维稀疏二维矩阵约束单元约束后的高维稀疏二维矩阵对输出变量进行二值化约束。
一种电子装置，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时，实现权利要求1至3中的任意一项所述方法。
一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现权利要求1至3中的任意一项所述方法。