CN105630739A - 用于执行随机梯度下降的装置和方法 - Google Patents

用于执行随机梯度下降的装置和方法 Download PDF

Info

Publication number
CN105630739A
CN105630739A CN201410601799.XA CN201410601799A CN105630739A CN 105630739 A CN105630739 A CN 105630739A CN 201410601799 A CN201410601799 A CN 201410601799A CN 105630739 A CN105630739 A CN 105630739A
Authority
CN
China
Prior art keywords
value
function
iteration
solution
bregmann
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410601799.XA
Other languages
English (en)
Inventor
石自强
刘汝杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to CN201410601799.XA priority Critical patent/CN105630739A/zh
Publication of CN105630739A publication Critical patent/CN105630739A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Complex Calculations (AREA)

Abstract

本发明涉及一种用于执行随机梯度下降的装置和方法。该装置包括:初始化单元,被配置为初始化与目标函数的平滑度信息有关的通用常量和预定精度;迭代单元,被配置为随机选取与训练集中的特定样本相关的分量损失函数来进行迭代,以根据所述通用常量和所述预定精度更新每次迭代的中间解,使得所述中间解更接近真实解;输出单元,被配置为在执行完所有迭代之后,输出所有中间解的加权平均作为最终解。

Description

用于执行随机梯度下降的装置和方法
技术领域
本发明涉及随机梯度下降领域,更具体地,涉及用于执行与目标函数的光滑度无关的普适梯度下降的装置和方法。
背景技术
机器学习领域的随机梯度方法是指在每次迭代中随机选取单个样本进行处理,而非将所有的数据批量加载到内存再进行处理。这是近几年大规模机器学习任务中最有发展前景的方法之一。在最近关于深度神经网络、lasso问题、logistic回归、ridge回归、连续斯坦纳(Steiner)问题、支持向量机等相关的著名文献里,随机梯度法已经有了重要的突破和发展。
随机梯度法已经成为处理关于光滑或非光滑大规模优化凸问题的有力工具,但是目前的方法需要知道优化函数的准确平滑程度,并且当目标函数具有中阶Hoelder连续梯度时,目前的任何随机梯度方法都没有办法进行优化。
因此,需要一种能够执行普适随机梯度下降来优化目标函数的装置和方法。
发明内容
在下文中给出关于本发明的简要概述,以便提供关于本发明的某些方面的基本理解。应当理解,这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分,也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。
本发明的一个主要目的在于,提供一种用于执行随机梯度下降的装置,包括:初始化单元,被配置为初始化与目标函数的平滑度信息有关的通用常量和预定精度;迭代单元,被配置为随机选取与训练集中的特定样本相关的分量损失函数来进行迭代,以根据所述通用常量和所述预定精度更新每次迭代的中间解,使得所述中间解更接近真实解;输出单元,被配置为在执行完所有迭代之后,输出所有中间解的加权平均作为最终解。
根据本发明的一个方面,提供了一种用于执行随机梯度过程的方法,包括:初始化步骤,初始化与目标函数的平滑度信息有关的通用常量和预定精度;迭代步骤,随机选取与训练集中的特定样本相关的分量损失函数来进行迭代,以根据通用常量和所述预定精度更新每次迭代的中间解,使得所述中间解更接近真实解;输出步骤,在执行完所有迭代之后,输出所有中间解的加权平均作为最终解。
另外,本发明的实施例还提供了用于实现上述方法的计算机程序。
此外,本发明的实施例还提供了至少计算机可读介质形式的计算机程序产品,其上记录有用于实现上述方法的计算机程序代码。
通过以下结合附图对本发明的最佳实施例的详细说明,本发明的这些以及其他优点将更加明显。
附图说明
参照下面结合附图对本发明实施例的说明,会更加容易地理解本发明的以上和其它目的、特点和优点。附图中的部件只是为了示出本发明的原理。在附图中,相同的或类似的技术特征或部件将采用相同或类似的附图标记来表示。
图1是示出根据本发明的一个实施例用于执行随机梯度下降的装置100的示例性配置的框图;
图2是示出根据本发明的另一个实施例的用于执行快速随机梯度下降的装置100’的示例性配置的框图;
图3示出了根据本发明的一个实施例的用于执行随机梯度下降的方法300的流程图;
图4示出了根据本发明的另一个实施例的用于执行快速随机梯度下降的方法400的流程图;以及
图5是示出可以用于实施本发明的用于执行随机梯度下降的装置和方法的计算设备的示例性结构图。
具体实施方式
下面参照附图来说明本发明的实施例。在本发明的一个附图或一种实施方式中描述的元素和特征可以与一个或更多个其它附图或实施方式中示出的元素和特征相结合。应当注意,为了清楚的目的,附图和说明中省略了与本发明无关的、本领域普通技术人员已知的部件和处理的表示和描述。
本发明提出针对具有中阶Hoelder连续梯度的平滑及非平滑凸问题,提出了一个新的普适随机梯度法(UniversalStochasticGradientMethod,USGM)来优化目标函数。通用随机梯度法不需要先验的获取目标函数的准确平滑度。与此同时,不像传统的随机梯度方法,本发明可以预先假设方法的固定精度。因此扩大了随机梯度下降方法的应用范围,并且提出了一类普适的一阶方法。本发明同时又提出了一种快速普适随机梯度下降的方法。事实证明,普适随机梯度方法和快速普适随机梯度方法都可以得到收敛,并且快速普适随机梯度方法具有更快的收敛速度。
在本发明中,解决了求解两个凸函数之和的最小化问题。其中一个凸函数叫做损失函数或者成本函数,它是具有Hoelder连续梯度的若干有限平滑分量函数的平均值,其分量函数是与训练集中的数据样本相关的函数;另外一个凸函数是一个正则函数或者惩罚函数,它的作用是用来抑制函数的过度拟合。
在本发明的方法中,计算了在目标函数中一些迭代常量必需的平滑信息。每次迭代中,通过使用Bregmann映射来使当前的点更加接近真实解,这是本发明的随机梯度方法的核心。Bregmann映射用来更新每一次迭代的中间解,记为x_t,这些中间解的加权平均在所有迭代结束后作为最终解输出。
下面结合附图详细说明根据本发明的实施例的普适随机梯度下降方法和快速普适随机梯度下降方法。
图1示出了根据本发明的一个实施例用于执行随机梯度下降的装置100的示例性配置的框图。
如图1所示,用于执行随机梯度下降的装置100包括初始化单元102、迭代单元104和输出单元106。
初始化单元102被配置为初始化与目标函数的平滑度信息有关的通用常量和预定精度。
例如,可以选择初始通用的Lipschitz常量(UniversalLipschitzConstant,ULC),和大于零的精度ε。进一步,初始化单元102还要对中间解x_t进行初始化得到x_0,并且初始化Bregmann距离函数。
迭代单元104被配置为随机选取与训练集中的某个样本相关的分量损失函数来进行迭代,以根据通用常量和预定精度更新每次迭代的中间解,使得中间解更接近真实解。
在一个实施例中,迭代单元104被配置为:构建与Bregmann距离函数和所选取的分量损失函数相关的目标函数的线性逼近(LinearizedApproximationoftheObjectiveFunction(LAOF)),得到目标函数的线性逼近在Bregmann映射的值v-LAOF以及与分量损失函数相关的目标函数在Bregmann映射的值v-OBJ;以递增的方式找到最小的与Bregmann映射相关联的系数,使得v-OBJ小于v-LAOF与精度的加权和;用Bregmann映射来更新中间解x_t,并用所找到的最小的系数更新通用常量;以及判断迭代是否收敛,如果收敛,则迭代结束,否则继续进行迭代。
输出单元106被配置为在执行完所有迭代之后,输出所有中间解x_t的加权平均作为最终解。
尽管上述用于执行随机梯度下降的装置100有简单的可操作性,但在实际应用中收敛速度较低。所以根据本发明的另一个实施例,提出了一种用于执行随机梯度下降的装置的加速版本。
图2是示出根据本发明的另一个实施例的用于执行快速随机梯度下降的装置100’的示例性配置的框图。
如图2所示,用于执行随机梯度下降的装置100’包括初始化单元102’、迭代单元104’和输出单元106’。
初始化单元102’被配置为初始化ULC、初始化精度ε(大于零)、初始化中间解x_t(得到x_0)、初始化参考解y_t(得到y_0)、以及初始化基于Bregmann距离的辅助函数,其中x_0=y_0。
迭代单元104’具体被配置为:找到辅助函数的最小值,表示为v_t;随机选取与训练集中的特定样本相关的分量损失函数;构建与所选取的分量损失函数相关的目标函数的线性逼近(LAOF);使用v_t和y_t来构建x_t和y_t各自的加权更新函数;得到目标函数的线性逼近在y_t处的值v-LAOF和与分量损失函数相关的目标函数在x_t处的值v-OBJ;以递增的方式找到最小的与加权更新函数相关的系数,使得v-OBJ小于v-LAOF与经调整的精度的加权和;更新辅助函数、x_t、y_t、加权更新函数的权重、v_t以及ULC;判断迭代是否收敛,如果收敛,则迭代结束,否则继续进行迭代。
输出单元106’与输出单元106的配置相同,即被配置为在执行完所有迭代之后,输出所有中间解x_t的加权平均作为最终解。
可以证明,普适随机梯度方法和快速普适随机梯度方法都可以得到收敛,而快速普适随机梯度方法具有更快的收敛速度。
在上文描述根据本发明的实施例的用于执行随机梯度下降的装置的过程中,显然还公开了一些处理或方法。下文中,在不重复上文中已经讨论过的某些细节的情况下给出这些方法的概述,但是,应当注意,虽然是在描述用于执行随机梯度下降的装置的过程中公开了这些方法,然而,这些方法并不一定采用上述这些部件,或者并不一定由这些部件来执行。例如,可以部分地或者完全地用硬件和/或固件来实现用于执行随机梯度下降的装置的实施方式,而以下讨论的用于执行随机梯度下降的方法也可以完全用计算机可执行的程序来实现,虽然这些方法也可以采用用于执行随机梯度下降的装置的硬件和/或固件。
在此需要说明的是,图1和图2所示的用于执行随机梯度下降的装置100和100’及其组成单元的结构仅仅是示例性的,本领域技术人员可以根据需要对图1和图2所示的结构框图进行修改。
图3示出了根据本发明的一个实施例的用于执行随机梯度下降的方法300的流程图。
在步骤S302中,初始化与目标函数的平滑度信息有关的通用常量ULC和预定精度ε。
在一个实施例中,还要对中间解x_t进行初始化得到x_0,并且初始化Bregmann距离函数。
在步骤S304中,随机选取与训练集中的特定样本相关的分量损失函数来进行迭代,以根据通用常量和预定精度更新每次迭代的中间解,使得中间解更接近真实解。
在一个实施例中,迭代步骤进一步包括:构建与Bregmann距离函数和所选取的分量损失函数相关的目标函数的线性逼近(LinearizedApproximationoftheObjectiveFunction(LAOF)),得到目标函数的线性逼近在Bregmann映射的值v-LAOF以及与分量损失函数相关的目标函数在Bregmann映射的值v-OBJ;以递增的方式找到最小的与Bregmann映射相关联的系数,使得v-OBJ小于v-LAOF与精度的加权和;用Bregmann映射来更新中间解x_t,并用所找到的最小的系数更新通用常量;以及判断迭代是否收敛,如果收敛,则迭代结束,否则继续进行迭代。
在步骤S306中,在执行完所有迭代之后,输出所有中间解x_t的加权平均作为最终解。
图4示出了根据本发明的另一个实施例的用于执行快速随机梯度下降的方法400的流程图。
在步骤S402中,初始化ULC、精度ε(大于零)、中间解x_t(得到x_0)、参考解y_t(得到y_0)、以及基于Bregmann距离的辅助函数,其中x_0=y_0。
在步骤S404中,找到辅助函数的最小值,表示为v_t。
在步骤S406中,随机选取与训练集中的特定样本相关的分量损失函数。
在步骤S408中,构建与所选取的分量损失函数相关的目标函数的线性逼近(LAOF),使用v_t和y_t来构建x_t和y_t各自的加权更新函数,并得到目标函数的线性逼近在y_t处的值v-LAOF和与分量损失函数相关的目标函数在x_t处的值v-OBJ。
在步骤S410中,以递增的方式找到最小的与加权更新函数相关的系数,使得v-OBJ小于v-LAOF与经调整的精度的加权和。
在步骤S412中,更新辅助函数、x_t、y_t、加权更新函数的权重、v_t以及ULC。
在步骤S414中,判断迭代是否收敛,如果收敛,则迭代结束,否则继续进行迭代。
最后,在步骤S416中,在执行完所有迭代之后,输出所有中间解x_t的加权平均作为最终解。
下面给出根据本发明的实施例用于执行随机梯度下降的具体实例。本发明可以解决如下形式的问题:
其中g_t(x)是与训练集中的样本相关的、具有Hoelder连续梯度的凸损失函数,而h(x)是凸惩罚函数(或称为正则函数)。
函数具有程度v的Hoelder连续梯度的意思是:
| | ▿ g ( x ) - ▿ g ( y ) | | * ≤ L v | | x - y | | v , ν ∈ [ 0,1 ]
这里列出在下面的实例中要使用的一些定义:
Bregmann距离: ξ ( x , y ) : = d ( y ) - d ( x ) - ⟨ ▿ d ( x ) , y - x ⟩
其中d(x)是prox-函数,其是具有等于1的凸参数的、可微分强凸函数,其最小值是0。
Bregmann映射:
其中 ψ M , f ( x , y ) = f ( x ) + ⟨ ▿ f ( x ) , y - x ⟩ + Mξ ( x , y ) + h ( y ) ;
基于以上定义,根据本发明的一个实施例的普适随机梯度方法可以用机器伪代码表示如下:
输入:L0>0以及ε>0(其中,L0为ULC的初始值,ε为精度)
1:对于t=0,1,…,T执行:
2:随机选取与训练集中的特定样本相关的一个分量损失函数gkt(x),其中kt∈{0,1,…,T}
3:找到最小的it≥0使得
4:设置并且 L i + 1 = 2 i t - 1 L t
5:t=t+1
6:结束
输出: x ‾ = 1 S T Σ t = 1 T + 1 1 L t x t , 其中 S T = Σ t = 1 T + 1 1 L t .
根据本发明的另一个实施例的快速普适随机梯度方法可以用机器伪代码表达如下:
输入:L0>0,ε>0以及φ0(x)=ξ(x0,x),A0=0,y0=x0(其中,L0为ULC的初始值,ε为精度,Φ0(x)为基于Bregmann距离的辅助函数,x0为初始中间解,y0为初始参考解)
1:对于t=0,1,…,T执行:
2:随机选取与训练集中的特定样本相关的一个分量损失函数gkt(x),其中kt∈{0,1,…,T}
3:找到vt=argminxφt(x)(vt是辅助函数的最小值)
4:找到最小的it≥0使得 a t + 1 , i t 2 = 1 2 i t L t ( A t + a t + 1 , i t ) A t + 1 , i t = A t + a t + 1 , i t , τ t , i t = a t + 1 , i t A t + 1 , i t x t + 1 , i t = τ i , i t v t + ( 1 - τ t , i t ) y t , y t + 1 , i t = τ t , i t x ^ t + 1 , i t + ( 1 - τ t , i t ) y t ,
确保以下关系:
gk t ( y t + 1 , i t ) ≤ gk t ( x t + 1 , i t ) + ⟨ ▿ gk t ( x t + 1 , i t ) , y t + 1 , i t - x t + 1 , i t ⟩ + 2 i t - 1 L t | | y t + 1 , i t - x t + 1 , i t | | 2 + ∈ 2 τ t , i t 成立,
其中 x ^ t + 1 , i t = arg min y { ξ ( v t , y ) + a t + 1 , i t [ ⟨ ▿ gk t ( x t + 1 , i t ) , y ⟩ + h ( y ) ] }
5:设置 x t + 1 = x t + 1 , i t , y t + 1 = y t + 1 , i t , a t + 1 = a t + 1 , i t , 并且定义At+1=At+at+1 L t + 1 = 2 i t - 1 L t , 并且
φ t + 1 ( x ) = φ t ( x ) + a t + 1 [ gk t ( x t + 1 ) + ⟨ ▿ gk t ( x t + 1 ) , x - x t + 1 ⟩ + h ( x ) ]
6:t=t+1
7:结束
输出: x ‾ = 1 S T Σ t = 1 T + 1 1 L t x t , 其中 S T = Σ t = 1 T + 1 1 L t .
可以证明,USGM方法需要次迭代来达到随机收敛ε:E[fg(yT)]-E[fg(x*)]≤∈
而要达到随机收敛ε,快速USGM方法只需要次迭代,因此快速USGM比USGM具有更快的收敛速度。
具体地,根据本发明的实施例的用于执行随机梯度下降的装置和方法例如可以用于解决Lasso问题和Steiner问题。
Lasso问题可以用下式描述:
min imize x ∈ R n * 1 1 T Σ t = 1 T | | a t T x - b t | | 2 + μ | | x | | 1
其中,at,x∈Rn*1,bt是一个标量。如果用A=[a1a2…aT],b=[b1b2…bT],那上面的问题就变为minimize||Ax-b||2+μ||x||1
Lasso问题可以用在很多方面,比如人脸识别、说话人识别等。
在基于稀疏表示的人脸识别中,人脸的稀疏表示是基于光照模型。即一张人脸图像,可以用数据库中同一个人所有的人脸图像的线性组合表示。而对于数据库中其它人的脸,其线性组合的系数理论上为零。由于数据库中一般有很多个不同的人脸的多张图像,如果把数据库中所有的图像的线性组合来表示这张给定的测试人脸,其系数向量是稀疏的。因为除了这张和同一个人的人脸的图像组合系数不为零外,其它的系数都为零。用上面的公式表示就是,其中A表示数据库中很多个不同的人脸的多张图像所组成的矩阵,b表示待识别的未知人脸,x为b在A上的分解系数。求解以上优化问题即得到分解的稀疏表示。
对于说话人识别和上面的情况类似,不再赘述。
利用根据本发明的实施例的用于执行随机梯度下降的装置和方法来求解上面的问题,可以不考虑目标函数的光滑度信息。
在连续Steiner问题中,已知中心ci∈Rn,i=1,...,m。找到服务中心x的优化位置是很有必要的,因为x相对于其他中心来说实现了最小的总距离。因此,可以将问题描述为:
min x ∈ R n f ( x ) : = 1 m Σ i = 1 m | | x - c i | |
其中,本问题中所有标准均为欧式距离。根据本发明的用于执行随机梯度下降的装置和方法有效的解决了这个问题。然而,在现实的应用中,可能会有新的位置加入***,比如有新的店开张或者新的仓库建立,这时就需要在线学习算法了。
本发明提出一种用于执行随机梯度过程的方法,可以看出普适随机梯度方法弥补了平滑与非平滑凸问题之间的较大差异,这是随机梯度方法处理具有Hoelder连续梯度的目标函数的普适框架。传统的方法需要预先知道目标函数的平滑性的实际程度,而本发明将重点放在通过线性搜索方法找出与平滑度有关的变量,将所有必要信息累积在某个常量中,从而实现普适的随机梯度下降方法。
以上结合具体实施例描述了本发明的基本原理,但是,需要指出的是,对本领域的普通技术人员而言,能够理解本发明的方法和装置的全部或者任何步骤或者部件,可以在任何计算装置(包括处理器、存储介质等)或者计算装置的网络中,以硬件、固件、软件或者它们的组合加以实现,这是本领域普通技术人员在阅读了本发明的说明的情况下运用他们的基本编程技能就能实现的。
因此,本发明的目的还可以通过在任何计算装置上运行一个程序或者一组程序来实现。所述计算装置可以是公知的通用装置。因此,本发明的目的也可以仅仅通过提供包含实现所述方法或者装置的程序代码的程序产品来实现。也就是说,这样的程序产品也构成本发明,并且存储有这样的程序产品的存储介质也构成本发明。显然,所述存储介质可以是任何公知的存储介质或者将来所开发出来的任何存储介质。
在通过软件和/或固件实现本发明的实施例的情况下,从存储介质或网络向具有专用硬件结构的计算机,例如图5所示的通用计算机500安装构成该软件的程序,该计算机在安装有各种程序时,能够执行各种功能等等。
在图5中,中央处理单元(CPU)501根据只读存储器(ROM)502中存储的程序或从存储部分508加载到随机存取存储器(RAM)503的程序执行各种处理。在RAM503中,也根据需要存储当CPU501执行各种处理等等时所需的数据。CPU501、ROM502和RAM503经由总线504彼此链路。输入/输出接口505也链路到总线504。
下述部件链路到输入/输出接口505:输入部分506(包括键盘、鼠标等等)、输出部分507(包括显示器,比如阴极射线管(CRT)、液晶显示器(LCD)等,和扬声器等)、存储部分508(包括硬盘等)、通信部分509(包括网络接口卡比如LAN卡、调制解调器等)。通信部分509经由网络比如因特网执行通信处理。根据需要,驱动器510也可链路到输入/输出接口505。可拆卸介质511比如磁盘、光盘、磁光盘、半导体存储器等等根据需要被安装在驱动器510上,使得从中读出的计算机程序根据需要被安装到存储部分508中。
在通过软件实现上述系列处理的情况下,从网络比如因特网或存储介质比如可拆卸介质511安装构成软件的程序。
本领域的技术人员应当理解,这种存储介质不局限于图5所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质511。可拆卸介质511的例子包含磁盘(包含软盘(注册商标))、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)(注册商标))和半导体存储器。或者,存储介质可以是ROM502、存储部分508中包含的硬盘等等,其中存有程序,并且与包含它们的设备一起被分发给用户。
本发明还提出一种存储有机器可读取的指令代码的程序产品。指令代码由机器读取并执行时,可执行上述根据本发明实施例的方法。
相应地,用于承载上述存储有机器可读取的指令代码的程序产品的存储介质也包括在本发明的公开中。存储介质包括但不限于软盘、光盘、磁光盘、存储卡、存储棒等。
本领域的普通技术人员应理解,在此所例举的是示例性的,本发明并不局限于此。
在本说明书中,“第一”、“第二”以及“第N个”等表述是为了将所描述的特征在文字上区分开,以清楚地描述本发明。因此,不应将其视为具有任何限定性的含义。
作为一个示例,上述方法的各个步骤以及上述设备的各个组成模块和/或单元可以实施为软件、固件、硬件或其组合,并作为相应设备中的一部分。上述装置中各个组成模块、单元通过软件、固件、硬件或其组合的方式进行配置时可使用的具体手段或方式为本领域技术人员所熟知,在此不再赘述。
作为一个示例,在通过软件或固件实现的情况下,可以从存储介质或网络向具有专用硬件结构的计算机(例如图5所示的通用计算机500)安装构成该软件的程序,该计算机在安装有各种程序时,能够执行各种功能等。
在上面对本发明具体实施例的描述中,针对一种实施方式描述和/或示出的特征可以以相同或类似的方式在一个或更多个其他实施方式中使用,与其他实施方式中的特征相组合,或替代其他实施方式中的特征。
应该强调,术语“包括/包含”在本文使用时指特征、要素、步骤或组件的存在,但并不排除一个或更多个其他特征、要素、步骤或组件的存在或附加。
此外,本发明的方法不限于按照说明书中描述的时间顺序来执行,也可以按照其他的时间顺序地、并行地或独立地执行。因此,本说明书中描述的方法的执行顺序不对本发明的技术范围构成限制。
本发明及其优点,但是应当理解在不超出由所附的权利要求所限定的本发明的精神和范围的情况下可以进行各种改变、替代和变换。而且,本发明的范围不仅限于说明书所描述的过程、设备、手段、方法和步骤的具体实施例。本领域内的普通技术人员从本发明的公开内容将容易理解,根据本发明可以使用执行与在此的相应实施例基本相同的功能或者获得与其基本相同的结果的、现有和将来要被开发的过程、设备、手段、方法或者步骤。因此,所附的权利要求旨在在它们的范围内包括这样的过程、设备、手段、方法或者步骤。
基于以上的说明,可知公开至少公开了以下技术方案:
附记1、一种用于执行随机梯度下降的装置,包括:
初始化单元,被配置为初始化与目标函数的平滑度信息有关的通用常量和预定精度;
迭代单元,被配置为随机选取与训练集中的特定样本相关的分量损失函数来进行迭代,以根据所述通用常量和所述预定精度更新每次迭代的中间解,使得所述中间解更接近真实解;
输出单元,被配置为在执行完所有迭代之后,输出所有中间解的加权平均作为最终解。
附记2、根据附记1所述的装置,其中,所述初始化单元进一步被配置为:
初始化中间解和Bregmann距离函数。
附记3、根据附记2所述的装置,其中,所述迭代单元进一步被配置为:
构建与所述Bregmann距离函数和所述分量损失函数相关的目标函数的线性逼近,得到第一值以及第二值,其中,所述第一值为所述目标函数的线性逼近在Bregmann映射的值,所述第二值为与所述分量损失函数相关联的目标函数在Bregmann映射的值;
以递增的方式找到最小的与所述Bregmann映射相关联的系数,使得所述第二值小于所述第一值与所述精度的加权和;
用Bregmann映射来更新所述中间解,并用所找到的最小的所述系数更新所述通用常量;
判断所述迭代是否收敛,如果收敛,则所述迭代结束,否则继续进行所述迭代。
附记4、根据附记1所述的装置,其中,所述初始化单元进一步被配置为:
初始化中间解、参考解和基于Bregmann距离的辅助函数,其中,初始化的参考解等于初始化的中间解。
附记5、根据附记4所述的装置,其中,所述迭代单元进一步被配置为:
找到所述辅助函数的最小值;
构建与所选取的分量损失函数相关的目标函数的线性逼近;
使用所述辅助函数的最小值和所述参考解来构建所述中间解和所述参考解各自的加权更新函数;
得到第一值和第二值,其中所述第一值为目标函数的线性逼近在参考解处的值,所述第二值为与所述分量损失函数相关的目标函数在中间解处的值;
以递增的方式找到最小的与所述加权更新函数相关的系数,使得所述第二值小于所述第一值与经调整的所述精度的加权和;
更新所述辅助函数、所述中间解、所述参考解、所述加权更新函数的权重、所述辅助函数的最小值以及所通用述常量;
判断所述迭代是否收敛,如果收敛,则所述迭代结束,否则继续进行所述迭代。
附记6、一种用于执行随机梯度过程的方法,包括:
初始化步骤,初始化与目标函数的平滑度信息有关的通用常量和预定精度;
迭代步骤,随机选取与训练集中的特定样本相关的分量损失函数来进行迭代,以根据所述通用常量和所述预定精度更新每次迭代的中间解,使得所述中间解更接近真实解;
输出步骤,在执行完所有迭代之后,输出所有中间解的加权平均作为最终解。
附记7、根据附记6所述的方法,其中,所述初始化步骤还包括:
初始化中间解和Bregmann距离函数。
附记8、根据附记7所述的方法,其中,所述迭代步骤还包括:
构建与所述Bregmann距离函数和所述分量损失函数相关的目标函数的线性逼近,得到第一值以及第二值,其中,所述第一值为所述目标函数的线性逼近在Bregmann映射的值,所述第二值为与所述分量损失函数相关联的目标函数在Bregmann映射的值;
以递增的方式找到最小的与所述Bregmann映射相关联的系数,使得所述第二值小于所述第一值与所述精度的加权和;
用Bregmann映射来更新所述中间解,并用所找到的最小的所述系数更新所述通用常量;
判断所述迭代是否收敛,如果收敛,则所述迭代结束,否则继续进行所述迭代。
附记9、根据附记6所述的方法,其中,所述初始化步骤还包括:
初始化中间解、参考解和基于Bregmann距离的辅助函数,其中,初始化的参考解等于初始化的中间解。
附记10、根据附记9所述的方法,其中,所述迭代步骤还包括:
找到所述辅助函数的最小值;
构建与所选取的分量损失函数相关的目标函数的线性逼近;
使用所述辅助函数的最小值和所述参考解来构建所述中间解和所述参考解各自的加权更新函数;
得到第一值和第二值,其中所述第一值为目标函数的线性逼近在参考解处的值,所述第二值为与所述分量损失函数相关的目标函数在中间解处的值;
以递增的方式找到最小的与所述加权更新函数相关的系数,使得所述第二值小于所述第一值与经调整的所述精度的加权和;
更新所述辅助函数、所述中间解、所述参考解、所述加权更新函数的权重、所述辅助函数的最小值以及所通用述常量;
判断所述迭代是否收敛,如果收敛,则所述迭代结束,否则继续进行所述迭代。

Claims (10)

1.一种用于执行随机梯度下降的装置,包括:
初始化单元,被配置为初始化与目标函数的平滑度信息有关的通用常量和预定精度;
迭代单元,被配置为随机选取与训练集中的特定样本相关的分量损失函数来进行迭代,以根据所述通用常量和所述预定精度更新每次迭代的中间解,使得所述中间解更接近真实解;
输出单元,被配置为在执行完所有迭代之后,输出所有中间解的加权平均作为最终解。
2.根据权利要求1所述的装置,其中,所述初始化单元进一步被配置为:
初始化中间解和Bregmann距离函数。
3.根据权利要求2所述的装置,其中,所述迭代单元进一步被配置为:
构建与所述Bregmann距离函数和所述分量损失函数相关的目标函数的线性逼近,得到第一值以及第二值,其中,所述第一值为所述目标函数的线性逼近在Bregmann映射的值,所述第二值为与所述分量损失函数相关联的目标函数在Bregmann映射的值;
以递增的方式找到最小的与所述Bregmann映射相关联的系数,使得所述第二值小于所述第一值与所述精度的加权和;
用Bregmann映射来更新所述中间解,并用所找到的最小的所述系数更新所述通用常量;
判断所述迭代是否收敛,如果收敛,则所述迭代结束,否则继续进行所述迭代。
4.根据权利要求1所述的装置,其中,所述初始化单元进一步被配置为:
初始化中间解、参考解和基于Bregmann距离的辅助函数,其中,初始化的参考解等于初始化的中间解。
5.根据权利要求4所述的装置,其中,所述迭代单元进一步被配置为:
找到所述辅助函数的最小值;
构建与所选取的分量损失函数相关的目标函数的线性逼近;
使用所述辅助函数的最小值和所述参考解来构建所述中间解和所述参考解各自的加权更新函数;
得到第一值和第二值,其中所述第一值为目标函数的线性逼近在参考解处的值,所述第二值为与所述分量损失函数相关的目标函数在中间解处的值;
以递增的方式找到最小的与所述加权更新函数相关的系数,使得所述第二值小于所述第一值与经调整的所述精度的加权和;
更新所述辅助函数、所述中间解、所述参考解、所述加权更新函数的权重、所述辅助函数的最小值以及所通用述常量;
判断所述迭代是否收敛,如果收敛,则所述迭代结束,否则继续进行所述迭代。
6.一种用于执行随机梯度过程的方法,包括:
初始化步骤,初始化与目标函数的平滑度信息有关的通用常量和预定精度;
迭代步骤,随机选取与训练集中的特定样本相关的分量损失函数来进行迭代,以根据所述通用常量和所述预定精度更新每次迭代的中间解,使得所述中间解更接近真实解;
输出步骤,在执行完所有迭代之后,输出所有中间解的加权平均作为最终解。
7.根据权利要求6所述的方法,其中,所述初始化步骤还包括:
初始化中间解和Bregmann距离函数。
8.根据权利要求7所述的方法,其中,所述迭代步骤还包括:
构建与所述Bregmann距离函数和所述分量损失函数相关的目标函数的线性逼近,得到第一值以及第二值,其中,所述第一值为所述目标函数的线性逼近在Bregmann映射的值,所述第二值为与所述分量损失函数相关联的目标函数在Bregmann映射的值;
以递增的方式找到最小的与所述Bregmann映射相关联的系数,使得所述第二值小于所述第一值与所述精度的加权和;
用Bregmann映射来更新所述中间解,并用所找到的最小的所述系数更新所述通用常量;
判断所述迭代是否收敛,如果收敛,则所述迭代结束,否则继续进行所述迭代。
9.根据权利要求6所述的方法,其中,所述初始化步骤还包括:
初始化中间解、参考解和基于Bregmann距离的辅助函数,其中,初始化的参考解等于初始化的中间解。
10.根据权利要求9所述的方法,其中,所述迭代步骤还包括:
找到所述辅助函数的最小值;
构建与所选取的分量损失函数相关的目标函数的线性逼近;
使用所述辅助函数的最小值和所述参考解来构建所述中间解和所述参考解各自的加权更新函数;
得到第一值和第二值,其中所述第一值为目标函数的线性逼近在参考解处的值,所述第二值为与所述分量损失函数相关的目标函数在中间解处的值;
以递增的方式找到最小的与所述加权更新函数相关的系数,使得所述第二值小于所述第一值与经调整的所述精度的加权和;
更新所述辅助函数、所述中间解、所述参考解、所述加权更新函数的权重、所述辅助函数的最小值以及所通用述常量;
判断所述迭代是否收敛,如果收敛,则所述迭代结束,否则继续进行所述迭代。
CN201410601799.XA 2014-10-31 2014-10-31 用于执行随机梯度下降的装置和方法 Pending CN105630739A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410601799.XA CN105630739A (zh) 2014-10-31 2014-10-31 用于执行随机梯度下降的装置和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410601799.XA CN105630739A (zh) 2014-10-31 2014-10-31 用于执行随机梯度下降的装置和方法

Publications (1)

Publication Number Publication Date
CN105630739A true CN105630739A (zh) 2016-06-01

Family

ID=56045702

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410601799.XA Pending CN105630739A (zh) 2014-10-31 2014-10-31 用于执行随机梯度下降的装置和方法

Country Status (1)

Country Link
CN (1) CN105630739A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107909150A (zh) * 2017-11-29 2018-04-13 华中科技大学 基于逐块随机梯度下降法在线训练cnn的方法与***
CN109895097A (zh) * 2019-02-19 2019-06-18 宁波凯德科技服务有限公司 一种焊接机器人运动模型次梯度方法
CN110753926A (zh) * 2017-06-12 2020-02-04 微软技术许可有限责任公司 同态数据分析
CN111104767A (zh) * 2018-10-10 2020-05-05 北京大学 一种针对fpga的变精度随机梯度下降的结构及设计方法
CN113449433A (zh) * 2021-07-16 2021-09-28 中存大数据科技有限公司 水泥生产工艺模型对应目标函数的约束优化方法及装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
YU. NESTEROV: ""Universal Gradient Methods for Convex Optimization Problems"", 《CORE DISCUSSION PAPER》 *
ZIQIANG SHI等: ""Online and Stochastic Universal Gradient Methods for Minimizing Regularized H¨older Continuous Finite Sums"", 《HTTPS://ARXIV.ORG/ABS/1311.3832》 *
薄纯娟等: ""基于核非负稀疏表示的人脸识别"", 《计算机应用》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110753926A (zh) * 2017-06-12 2020-02-04 微软技术许可有限责任公司 同态数据分析
CN110753926B (zh) * 2017-06-12 2023-07-21 微软技术许可有限责任公司 用于数据加密的方法、***和计算机可读存储介质
CN107909150A (zh) * 2017-11-29 2018-04-13 华中科技大学 基于逐块随机梯度下降法在线训练cnn的方法与***
CN107909150B (zh) * 2017-11-29 2020-08-18 华中科技大学 基于逐块随机梯度下降法在线训练cnn的方法与***
CN111104767A (zh) * 2018-10-10 2020-05-05 北京大学 一种针对fpga的变精度随机梯度下降的结构及设计方法
CN111104767B (zh) * 2018-10-10 2021-10-01 北京大学 一种针对fpga的变精度随机梯度下降的结构及设计方法
CN109895097A (zh) * 2019-02-19 2019-06-18 宁波凯德科技服务有限公司 一种焊接机器人运动模型次梯度方法
CN109895097B (zh) * 2019-02-19 2022-07-05 宁波凯德科技服务有限公司 一种焊接机器人运动模型次梯度方法
CN113449433A (zh) * 2021-07-16 2021-09-28 中存大数据科技有限公司 水泥生产工艺模型对应目标函数的约束优化方法及装置

Similar Documents

Publication Publication Date Title
EP3542319B1 (en) Training neural networks using a clustering loss
CN105630739A (zh) 用于执行随机梯度下降的装置和方法
CN109783490B (zh) 数据融合方法、装置、计算机设备及存储介质
CN107169534A (zh) 模型训练方法及装置、存储介质、电子设备
CN106021990B (zh) 一种将生物基因以特定的性状进行分类与自我识别的方法
CN112395487B (zh) 信息推荐方法、装置、计算机可读存储介质及电子设备
CN103679190A (zh) 分类装置、分类方法以及电子设备
CN113887643B (zh) 一种基于伪标签自训练和源域再训练的新对话意图识别方法
CN114841257A (zh) 一种基于自监督对比约束下的小样本目标检测方法
CN113254716B (zh) 视频片段检索方法、装置、电子设备和可读存储介质
CN104765728A (zh) 训练神经网络的方法和装置以及确定稀疏特征向量的方法
JPWO2018062265A1 (ja) 音響モデル学習装置、その方法、及びプログラム
JP2019067299A (ja) ラベル推定装置及びラベル推定プログラム
CN114548192A (zh) 样本数据处理方法、装置、电子设备及介质
CN116432037A (zh) 一种在线迁移学习方法、装置、设备和存储介质
CN104679754B (zh) 用于数据预测的模型选择设备和方法
CN104077765A (zh) 图像分割装置、图像分割方法和程序
CN112052865A (zh) 用于生成神经网络模型的方法和装置
CN114255353A (zh) 一种基于加权超图模型的页面显著性要素提取方法及***
Zhang et al. Efficient history matching with dimensionality reduction methods for reservoir simulations
CN117554814A (zh) 一种电池荷电状态预测方法、装置、电子设备及存储介质
CN111260074B (zh) 一种超参数确定的方法、相关装置、设备及存储介质
JP2020060838A (ja) 学習方法および学習システム
CN113689301B (zh) 赔付策略的构建方法、装置、设备及存储介质
CN103377298B (zh) 选择参数的方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20160601

WD01 Invention patent application deemed withdrawn after publication