CN105630739A

CN105630739A - 用于执行随机梯度下降的装置和方法

Info

Publication number: CN105630739A
Application number: CN201410601799.XA
Authority: CN
Inventors: 石自强; 刘汝杰
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2014-10-31
Filing date: 2014-10-31
Publication date: 2016-06-01

Abstract

本发明涉及一种用于执行随机梯度下降的装置和方法。该装置包括：初始化单元，被配置为初始化与目标函数的平滑度信息有关的通用常量和预定精度；迭代单元，被配置为随机选取与训练集中的特定样本相关的分量损失函数来进行迭代，以根据所述通用常量和所述预定精度更新每次迭代的中间解，使得所述中间解更接近真实解；输出单元，被配置为在执行完所有迭代之后，输出所有中间解的加权平均作为最终解。

Description

用于执行随机梯度下降的装置和方法

技术领域

本发明涉及随机梯度下降领域，更具体地，涉及用于执行与目标函数的光滑度无关的普适梯度下降的装置和方法。

背景技术

机器学习领域的随机梯度方法是指在每次迭代中随机选取单个样本进行处理，而非将所有的数据批量加载到内存再进行处理。这是近几年大规模机器学习任务中最有发展前景的方法之一。在最近关于深度神经网络、lasso问题、logistic回归、ridge回归、连续斯坦纳(Steiner)问题、支持向量机等相关的著名文献里，随机梯度法已经有了重要的突破和发展。

随机梯度法已经成为处理关于光滑或非光滑大规模优化凸问题的有力工具，但是目前的方法需要知道优化函数的准确平滑程度，并且当目标函数具有中阶Hoelder连续梯度时，目前的任何随机梯度方法都没有办法进行优化。

因此，需要一种能够执行普适随机梯度下降来优化目标函数的装置和方法。

发明内容

在下文中给出关于本发明的简要概述，以便提供关于本发明的某些方面的基本理解。应当理解，这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分，也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念，以此作为稍后论述的更详细描述的前序。

本发明的一个主要目的在于，提供一种用于执行随机梯度下降的装置，包括：初始化单元，被配置为初始化与目标函数的平滑度信息有关的通用常量和预定精度；迭代单元，被配置为随机选取与训练集中的特定样本相关的分量损失函数来进行迭代，以根据所述通用常量和所述预定精度更新每次迭代的中间解，使得所述中间解更接近真实解；输出单元，被配置为在执行完所有迭代之后，输出所有中间解的加权平均作为最终解。

根据本发明的一个方面，提供了一种用于执行随机梯度过程的方法，包括：初始化步骤，初始化与目标函数的平滑度信息有关的通用常量和预定精度；迭代步骤，随机选取与训练集中的特定样本相关的分量损失函数来进行迭代，以根据通用常量和所述预定精度更新每次迭代的中间解，使得所述中间解更接近真实解；输出步骤，在执行完所有迭代之后，输出所有中间解的加权平均作为最终解。

另外，本发明的实施例还提供了用于实现上述方法的计算机程序。

此外，本发明的实施例还提供了至少计算机可读介质形式的计算机程序产品，其上记录有用于实现上述方法的计算机程序代码。

通过以下结合附图对本发明的最佳实施例的详细说明，本发明的这些以及其他优点将更加明显。

附图说明

参照下面结合附图对本发明实施例的说明，会更加容易地理解本发明的以上和其它目的、特点和优点。附图中的部件只是为了示出本发明的原理。在附图中，相同的或类似的技术特征或部件将采用相同或类似的附图标记来表示。

图1是示出根据本发明的一个实施例用于执行随机梯度下降的装置100的示例性配置的框图；

图2是示出根据本发明的另一个实施例的用于执行快速随机梯度下降的装置100’的示例性配置的框图；

图3示出了根据本发明的一个实施例的用于执行随机梯度下降的方法300的流程图；

图4示出了根据本发明的另一个实施例的用于执行快速随机梯度下降的方法400的流程图；以及

图5是示出可以用于实施本发明的用于执行随机梯度下降的装置和方法的计算设备的示例性结构图。

具体实施方式

下面参照附图来说明本发明的实施例。在本发明的一个附图或一种实施方式中描述的元素和特征可以与一个或更多个其它附图或实施方式中示出的元素和特征相结合。应当注意，为了清楚的目的，附图和说明中省略了与本发明无关的、本领域普通技术人员已知的部件和处理的表示和描述。

本发明提出针对具有中阶Hoelder连续梯度的平滑及非平滑凸问题，提出了一个新的普适随机梯度法(UniversalStochasticGradientMethod，USGM)来优化目标函数。通用随机梯度法不需要先验的获取目标函数的准确平滑度。与此同时，不像传统的随机梯度方法，本发明可以预先假设方法的固定精度。因此扩大了随机梯度下降方法的应用范围，并且提出了一类普适的一阶方法。本发明同时又提出了一种快速普适随机梯度下降的方法。事实证明，普适随机梯度方法和快速普适随机梯度方法都可以得到收敛，并且快速普适随机梯度方法具有更快的收敛速度。

在本发明中，解决了求解两个凸函数之和的最小化问题。其中一个凸函数叫做损失函数或者成本函数，它是具有Hoelder连续梯度的若干有限平滑分量函数的平均值，其分量函数是与训练集中的数据样本相关的函数；另外一个凸函数是一个正则函数或者惩罚函数，它的作用是用来抑制函数的过度拟合。

在本发明的方法中，计算了在目标函数中一些迭代常量必需的平滑信息。每次迭代中，通过使用Bregmann映射来使当前的点更加接近真实解，这是本发明的随机梯度方法的核心。Bregmann映射用来更新每一次迭代的中间解，记为x_t，这些中间解的加权平均在所有迭代结束后作为最终解输出。

下面结合附图详细说明根据本发明的实施例的普适随机梯度下降方法和快速普适随机梯度下降方法。

图1示出了根据本发明的一个实施例用于执行随机梯度下降的装置100的示例性配置的框图。

如图1所示，用于执行随机梯度下降的装置100包括初始化单元102、迭代单元104和输出单元106。

初始化单元102被配置为初始化与目标函数的平滑度信息有关的通用常量和预定精度。

例如，可以选择初始通用的Lipschitz常量(UniversalLipschitzConstant，ULC)，和大于零的精度ε。进一步，初始化单元102还要对中间解x_t进行初始化得到x_0，并且初始化Bregmann距离函数。

迭代单元104被配置为随机选取与训练集中的某个样本相关的分量损失函数来进行迭代，以根据通用常量和预定精度更新每次迭代的中间解，使得中间解更接近真实解。

在一个实施例中，迭代单元104被配置为：构建与Bregmann距离函数和所选取的分量损失函数相关的目标函数的线性逼近(LinearizedApproximationoftheObjectiveFunction(LAOF))，得到目标函数的线性逼近在Bregmann映射的值v-LAOF以及与分量损失函数相关的目标函数在Bregmann映射的值v-OBJ；以递增的方式找到最小的与Bregmann映射相关联的系数，使得v-OBJ小于v-LAOF与精度的加权和；用Bregmann映射来更新中间解x_t，并用所找到的最小的系数更新通用常量；以及判断迭代是否收敛，如果收敛，则迭代结束，否则继续进行迭代。

输出单元106被配置为在执行完所有迭代之后，输出所有中间解x_t的加权平均作为最终解。

尽管上述用于执行随机梯度下降的装置100有简单的可操作性，但在实际应用中收敛速度较低。所以根据本发明的另一个实施例，提出了一种用于执行随机梯度下降的装置的加速版本。

图2是示出根据本发明的另一个实施例的用于执行快速随机梯度下降的装置100’的示例性配置的框图。

如图2所示，用于执行随机梯度下降的装置100’包括初始化单元102’、迭代单元104’和输出单元106’。

初始化单元102’被配置为初始化ULC、初始化精度ε(大于零)、初始化中间解x_t(得到x_0)、初始化参考解y_t(得到y_0)、以及初始化基于Bregmann距离的辅助函数，其中x_0＝y_0。

迭代单元104’具体被配置为：找到辅助函数的最小值，表示为v_t；随机选取与训练集中的特定样本相关的分量损失函数；构建与所选取的分量损失函数相关的目标函数的线性逼近(LAOF)；使用v_t和y_t来构建x_t和y_t各自的加权更新函数；得到目标函数的线性逼近在y_t处的值v-LAOF和与分量损失函数相关的目标函数在x_t处的值v-OBJ；以递增的方式找到最小的与加权更新函数相关的系数，使得v-OBJ小于v-LAOF与经调整的精度的加权和；更新辅助函数、x_t、y_t、加权更新函数的权重、v_t以及ULC；判断迭代是否收敛，如果收敛，则迭代结束，否则继续进行迭代。

输出单元106’与输出单元106的配置相同，即被配置为在执行完所有迭代之后，输出所有中间解x_t的加权平均作为最终解。

可以证明，普适随机梯度方法和快速普适随机梯度方法都可以得到收敛，而快速普适随机梯度方法具有更快的收敛速度。

在上文描述根据本发明的实施例的用于执行随机梯度下降的装置的过程中，显然还公开了一些处理或方法。下文中，在不重复上文中已经讨论过的某些细节的情况下给出这些方法的概述，但是，应当注意，虽然是在描述用于执行随机梯度下降的装置的过程中公开了这些方法，然而，这些方法并不一定采用上述这些部件，或者并不一定由这些部件来执行。例如，可以部分地或者完全地用硬件和/或固件来实现用于执行随机梯度下降的装置的实施方式，而以下讨论的用于执行随机梯度下降的方法也可以完全用计算机可执行的程序来实现，虽然这些方法也可以采用用于执行随机梯度下降的装置的硬件和/或固件。

在此需要说明的是，图1和图2所示的用于执行随机梯度下降的装置100和100’及其组成单元的结构仅仅是示例性的，本领域技术人员可以根据需要对图1和图2所示的结构框图进行修改。

图3示出了根据本发明的一个实施例的用于执行随机梯度下降的方法300的流程图。

在步骤S302中，初始化与目标函数的平滑度信息有关的通用常量ULC和预定精度ε。

在一个实施例中，还要对中间解x_t进行初始化得到x_0，并且初始化Bregmann距离函数。

在步骤S304中，随机选取与训练集中的特定样本相关的分量损失函数来进行迭代，以根据通用常量和预定精度更新每次迭代的中间解，使得中间解更接近真实解。

在一个实施例中，迭代步骤进一步包括：构建与Bregmann距离函数和所选取的分量损失函数相关的目标函数的线性逼近(LinearizedApproximationoftheObjectiveFunction(LAOF))，得到目标函数的线性逼近在Bregmann映射的值v-LAOF以及与分量损失函数相关的目标函数在Bregmann映射的值v-OBJ；以递增的方式找到最小的与Bregmann映射相关联的系数，使得v-OBJ小于v-LAOF与精度的加权和；用Bregmann映射来更新中间解x_t，并用所找到的最小的系数更新通用常量；以及判断迭代是否收敛，如果收敛，则迭代结束，否则继续进行迭代。

在步骤S306中，在执行完所有迭代之后，输出所有中间解x_t的加权平均作为最终解。

图4示出了根据本发明的另一个实施例的用于执行快速随机梯度下降的方法400的流程图。

在步骤S402中，初始化ULC、精度ε(大于零)、中间解x_t(得到x_0)、参考解y_t(得到y_0)、以及基于Bregmann距离的辅助函数，其中x_0＝y_0。

在步骤S404中，找到辅助函数的最小值，表示为v_t。

在步骤S406中，随机选取与训练集中的特定样本相关的分量损失函数。

在步骤S408中，构建与所选取的分量损失函数相关的目标函数的线性逼近(LAOF)，使用v_t和y_t来构建x_t和y_t各自的加权更新函数，并得到目标函数的线性逼近在y_t处的值v-LAOF和与分量损失函数相关的目标函数在x_t处的值v-OBJ。

在步骤S410中，以递增的方式找到最小的与加权更新函数相关的系数，使得v-OBJ小于v-LAOF与经调整的精度的加权和。

在步骤S412中，更新辅助函数、x_t、y_t、加权更新函数的权重、v_t以及ULC。

在步骤S414中，判断迭代是否收敛，如果收敛，则迭代结束，否则继续进行迭代。

最后，在步骤S416中，在执行完所有迭代之后，输出所有中间解x_t的加权平均作为最终解。

下面给出根据本发明的实施例用于执行随机梯度下降的具体实例。本发明可以解决如下形式的问题：

其中g_t(x)是与训练集中的样本相关的、具有Hoelder连续梯度的凸损失函数，而h(x)是凸惩罚函数(或称为正则函数)。

函数具有程度v的Hoelder连续梯度的意思是：

{| | &dtri; g (x) - &dtri; g (y) | |}_{*} \leq L_{v} {| | x - y | |}^{v}, ν &Element; [0,1]

这里列出在下面的实例中要使用的一些定义：

和

Bregmann距离：

ξ (x, y) : = d (y) - d (x) - &lang; &dtri; d (x), y - x &rang;

其中d(x)是prox-函数，其是具有等于1的凸参数的、可微分强凸函数，其最小值是0。

Bregmann映射：

其中

ψ_{M, f} (x, y) = f (x) + &lang; &dtri; f (x), y - x &rang; + Mξ (x, y) + h (y);

设

基于以上定义，根据本发明的一个实施例的普适随机梯度方法可以用机器伪代码表示如下：

输入:L₀>0以及ε>0(其中，L₀为ULC的初始值，ε为精度)

1：对于t＝0,1,…,T执行：

2:随机选取与训练集中的特定样本相关的一个分量损失函数gk_t(x)，其中k_t∈{0,1,…,T}

3：找到最小的i_t≥0使得

4：设置并且

L_{i + 1} = 2^{i_{t} - 1} L_{t}

5：t＝t+1

6:结束

输出：

\overset{&OverBar;}{x} = \frac{1}{S_{T}} Σ_{t = 1}^{T + 1} \frac{1}{L_{t}} x_{t},

其中

S_{T} = Σ_{t = 1}^{T + 1} \frac{1}{L_{t}} .

根据本发明的另一个实施例的快速普适随机梯度方法可以用机器伪代码表达如下：

输入：L₀>0，ε>0以及φ₀(x)＝ξ(x₀，x)，A₀＝0，y₀＝x₀(其中，L₀为ULC的初始值，ε为精度，Φ₀(x)为基于Bregmann距离的辅助函数，x₀为初始中间解，y₀为初始参考解)

1：对于t＝0,1,…,T执行：

3：找到v_t＝argmin_xφ_t(x)(v_t是辅助函数的最小值)

4：找到最小的it≥0使得

\{\begin{matrix} a_{t + 1, i_{t}}^{2} = \frac{1}{2^{i_{t}} L_{t}} (A_{t} + a_{t + 1, i_{t}}) \\ A_{t + 1, i_{t}} = A_{t} + a_{t + 1, i_{t}}, τ_{t, i_{t}} = \frac{a_{t + 1, i_{t}}}{A_{t + 1, i_{t}}} \\ x_{t + 1, i_{t}} = τ_{i, i_{t}} v_{t} + (1 - τ_{t, i_{t}}) y_{t}, \\ y_{t + 1, i_{t}} = τ_{t, i_{t}} {\hat{x}}_{t + 1, i_{t}} + (1 - τ_{t, i_{t}}) y_{t}, \end{matrix}

确保以下关系：

{gk}_{t} (y_{t + 1, i_{t}}) \leq {gk}_{t} (x_{t + 1, i_{t}}) + &lang; &dtri; {gk}_{t} (x_{t + 1, i_{t}}), y_{t + 1, i_{t}} - x_{t + 1, i_{t}} &rang;

+ 2^{i_{t} - 1} L_{t} {| | y_{t + 1, i_{t}} - x_{t + 1, i_{t}} | |}^{2} + \frac{&Element;}{2} τ_{t, i_{t}}

成立，

其中

{\hat{x}}_{t + 1, i_{t}} = \arg \min_{y} {ξ (v_{t, y}) + a_{t + 1, i_{t}} [&lang; &dtri; {gk}_{t} (x_{t + 1, i_{t}}), y &rang; + h (y)]}

5：设置

x_{t + 1} = x_{t + 1, i_{t}}, y_{t + 1} = y_{t + 1, i_{t}}, a_{t + 1} = a_{t + 1, i_{t}},

并且定义A_t+1＝A_t+a_t+1，

L_{t + 1} = 2^{i_{t} - 1} L_{t},

并且

φ_{t + 1} (x) = φ_{t} (x) + a_{t + 1} [{gk}_{t} (x_{t + 1}) + &lang; &dtri; {gk}_{t} (x_{t + 1}), x - x_{t + 1} &rang; + h (x)]

6：t＝t+1

7:结束

输出：

\overset{&OverBar;}{x} = \frac{1}{S_{T}} Σ_{t = 1}^{T + 1} \frac{1}{L_{t}} x_{t},

其中

S_{T} = Σ_{t = 1}^{T + 1} \frac{1}{L_{t}} .

可以证明，USGM方法需要次迭代来达到随机收敛ε：E[f_g(yT)]-E[f_g(x^*)]≤∈

而要达到随机收敛ε，快速USGM方法只需要次迭代，因此快速USGM比USGM具有更快的收敛速度。

具体地，根据本发明的实施例的用于执行随机梯度下降的装置和方法例如可以用于解决Lasso问题和Steiner问题。

Lasso问题可以用下式描述：

\underset{x &Element; R^{n * 1}}{\min imize} \frac{1}{T} Σ_{t = 1}^{T} {| | a_{t}^{T} x - b_{t} | |}^{2} + μ {| | x | |}_{1}

其中，a_t，x∈R^n*1，b_t是一个标量。如果用A＝[a₁a₂…a_T]，b＝[b₁b₂…b_T]，那上面的问题就变为minimize||Ax-b||²+μ||x||₁。

Lasso问题可以用在很多方面，比如人脸识别、说话人识别等。

在基于稀疏表示的人脸识别中，人脸的稀疏表示是基于光照模型。即一张人脸图像，可以用数据库中同一个人所有的人脸图像的线性组合表示。而对于数据库中其它人的脸，其线性组合的系数理论上为零。由于数据库中一般有很多个不同的人脸的多张图像，如果把数据库中所有的图像的线性组合来表示这张给定的测试人脸，其系数向量是稀疏的。因为除了这张和同一个人的人脸的图像组合系数不为零外，其它的系数都为零。用上面的公式表示就是，其中A表示数据库中很多个不同的人脸的多张图像所组成的矩阵，b表示待识别的未知人脸，x为b在A上的分解系数。求解以上优化问题即得到分解的稀疏表示。

对于说话人识别和上面的情况类似，不再赘述。

利用根据本发明的实施例的用于执行随机梯度下降的装置和方法来求解上面的问题，可以不考虑目标函数的光滑度信息。

在连续Steiner问题中，已知中心c_i∈Rⁿ，i＝1，...，m。找到服务中心x的优化位置是很有必要的，因为x相对于其他中心来说实现了最小的总距离。因此，可以将问题描述为：

\min_{x &Element; R^{n}} f (x) : = \frac{1}{m} Σ_{i = 1}^{m} | | x - c_{i} | |

其中，本问题中所有标准均为欧式距离。根据本发明的用于执行随机梯度下降的装置和方法有效的解决了这个问题。然而，在现实的应用中，可能会有新的位置加入***，比如有新的店开张或者新的仓库建立，这时就需要在线学习算法了。

本发明提出一种用于执行随机梯度过程的方法，可以看出普适随机梯度方法弥补了平滑与非平滑凸问题之间的较大差异，这是随机梯度方法处理具有Hoelder连续梯度的目标函数的普适框架。传统的方法需要预先知道目标函数的平滑性的实际程度，而本发明将重点放在通过线性搜索方法找出与平滑度有关的变量，将所有必要信息累积在某个常量中，从而实现普适的随机梯度下降方法。

以上结合具体实施例描述了本发明的基本原理，但是，需要指出的是，对本领域的普通技术人员而言，能够理解本发明的方法和装置的全部或者任何步骤或者部件，可以在任何计算装置(包括处理器、存储介质等)或者计算装置的网络中，以硬件、固件、软件或者它们的组合加以实现，这是本领域普通技术人员在阅读了本发明的说明的情况下运用他们的基本编程技能就能实现的。

因此，本发明的目的还可以通过在任何计算装置上运行一个程序或者一组程序来实现。所述计算装置可以是公知的通用装置。因此，本发明的目的也可以仅仅通过提供包含实现所述方法或者装置的程序代码的程序产品来实现。也就是说，这样的程序产品也构成本发明，并且存储有这样的程序产品的存储介质也构成本发明。显然，所述存储介质可以是任何公知的存储介质或者将来所开发出来的任何存储介质。

在通过软件和/或固件实现本发明的实施例的情况下，从存储介质或网络向具有专用硬件结构的计算机，例如图5所示的通用计算机500安装构成该软件的程序，该计算机在安装有各种程序时，能够执行各种功能等等。

在图5中，中央处理单元(CPU)501根据只读存储器(ROM)502中存储的程序或从存储部分508加载到随机存取存储器(RAM)503的程序执行各种处理。在RAM503中，也根据需要存储当CPU501执行各种处理等等时所需的数据。CPU501、ROM502和RAM503经由总线504彼此链路。输入/输出接口505也链路到总线504。

下述部件链路到输入/输出接口505：输入部分506(包括键盘、鼠标等等)、输出部分507(包括显示器，比如阴极射线管(CRT)、液晶显示器(LCD)等，和扬声器等)、存储部分508(包括硬盘等)、通信部分509(包括网络接口卡比如LAN卡、调制解调器等)。通信部分509经由网络比如因特网执行通信处理。根据需要，驱动器510也可链路到输入/输出接口505。可拆卸介质511比如磁盘、光盘、磁光盘、半导体存储器等等根据需要被安装在驱动器510上，使得从中读出的计算机程序根据需要被安装到存储部分508中。

在通过软件实现上述系列处理的情况下，从网络比如因特网或存储介质比如可拆卸介质511安装构成软件的程序。

本领域的技术人员应当理解，这种存储介质不局限于图5所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质511。可拆卸介质511的例子包含磁盘(包含软盘(注册商标))、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)(注册商标))和半导体存储器。或者，存储介质可以是ROM502、存储部分508中包含的硬盘等等，其中存有程序，并且与包含它们的设备一起被分发给用户。

本发明还提出一种存储有机器可读取的指令代码的程序产品。指令代码由机器读取并执行时，可执行上述根据本发明实施例的方法。

相应地，用于承载上述存储有机器可读取的指令代码的程序产品的存储介质也包括在本发明的公开中。存储介质包括但不限于软盘、光盘、磁光盘、存储卡、存储棒等。

本领域的普通技术人员应理解，在此所例举的是示例性的，本发明并不局限于此。

在本说明书中，“第一”、“第二”以及“第N个”等表述是为了将所描述的特征在文字上区分开，以清楚地描述本发明。因此，不应将其视为具有任何限定性的含义。

作为一个示例，上述方法的各个步骤以及上述设备的各个组成模块和/或单元可以实施为软件、固件、硬件或其组合，并作为相应设备中的一部分。上述装置中各个组成模块、单元通过软件、固件、硬件或其组合的方式进行配置时可使用的具体手段或方式为本领域技术人员所熟知，在此不再赘述。

作为一个示例，在通过软件或固件实现的情况下，可以从存储介质或网络向具有专用硬件结构的计算机(例如图5所示的通用计算机500)安装构成该软件的程序，该计算机在安装有各种程序时，能够执行各种功能等。

在上面对本发明具体实施例的描述中，针对一种实施方式描述和/或示出的特征可以以相同或类似的方式在一个或更多个其他实施方式中使用，与其他实施方式中的特征相组合，或替代其他实施方式中的特征。

应该强调，术语“包括/包含”在本文使用时指特征、要素、步骤或组件的存在，但并不排除一个或更多个其他特征、要素、步骤或组件的存在或附加。

此外，本发明的方法不限于按照说明书中描述的时间顺序来执行，也可以按照其他的时间顺序地、并行地或独立地执行。因此，本说明书中描述的方法的执行顺序不对本发明的技术范围构成限制。

本发明及其优点，但是应当理解在不超出由所附的权利要求所限定的本发明的精神和范围的情况下可以进行各种改变、替代和变换。而且，本发明的范围不仅限于说明书所描述的过程、设备、手段、方法和步骤的具体实施例。本领域内的普通技术人员从本发明的公开内容将容易理解，根据本发明可以使用执行与在此的相应实施例基本相同的功能或者获得与其基本相同的结果的、现有和将来要被开发的过程、设备、手段、方法或者步骤。因此，所附的权利要求旨在在它们的范围内包括这样的过程、设备、手段、方法或者步骤。

基于以上的说明，可知公开至少公开了以下技术方案：

附记1、一种用于执行随机梯度下降的装置，包括：

初始化单元，被配置为初始化与目标函数的平滑度信息有关的通用常量和预定精度；

迭代单元，被配置为随机选取与训练集中的特定样本相关的分量损失函数来进行迭代，以根据所述通用常量和所述预定精度更新每次迭代的中间解，使得所述中间解更接近真实解；

输出单元，被配置为在执行完所有迭代之后，输出所有中间解的加权平均作为最终解。

附记2、根据附记1所述的装置，其中，所述初始化单元进一步被配置为：

初始化中间解和Bregmann距离函数。

附记3、根据附记2所述的装置，其中，所述迭代单元进一步被配置为：

构建与所述Bregmann距离函数和所述分量损失函数相关的目标函数的线性逼近，得到第一值以及第二值，其中，所述第一值为所述目标函数的线性逼近在Bregmann映射的值，所述第二值为与所述分量损失函数相关联的目标函数在Bregmann映射的值；

以递增的方式找到最小的与所述Bregmann映射相关联的系数，使得所述第二值小于所述第一值与所述精度的加权和；

用Bregmann映射来更新所述中间解，并用所找到的最小的所述系数更新所述通用常量；

判断所述迭代是否收敛，如果收敛，则所述迭代结束，否则继续进行所述迭代。

附记4、根据附记1所述的装置，其中，所述初始化单元进一步被配置为：

初始化中间解、参考解和基于Bregmann距离的辅助函数，其中，初始化的参考解等于初始化的中间解。

附记5、根据附记4所述的装置，其中，所述迭代单元进一步被配置为：

找到所述辅助函数的最小值；

构建与所选取的分量损失函数相关的目标函数的线性逼近；

使用所述辅助函数的最小值和所述参考解来构建所述中间解和所述参考解各自的加权更新函数；

得到第一值和第二值，其中所述第一值为目标函数的线性逼近在参考解处的值，所述第二值为与所述分量损失函数相关的目标函数在中间解处的值；

以递增的方式找到最小的与所述加权更新函数相关的系数，使得所述第二值小于所述第一值与经调整的所述精度的加权和；

更新所述辅助函数、所述中间解、所述参考解、所述加权更新函数的权重、所述辅助函数的最小值以及所通用述常量；

附记6、一种用于执行随机梯度过程的方法，包括：

初始化步骤，初始化与目标函数的平滑度信息有关的通用常量和预定精度；

迭代步骤，随机选取与训练集中的特定样本相关的分量损失函数来进行迭代，以根据所述通用常量和所述预定精度更新每次迭代的中间解，使得所述中间解更接近真实解；

输出步骤，在执行完所有迭代之后，输出所有中间解的加权平均作为最终解。

附记7、根据附记6所述的方法，其中，所述初始化步骤还包括：

初始化中间解和Bregmann距离函数。

附记8、根据附记7所述的方法，其中，所述迭代步骤还包括：

附记9、根据附记6所述的方法，其中，所述初始化步骤还包括：

附记10、根据附记9所述的方法，其中，所述迭代步骤还包括：

找到所述辅助函数的最小值；

构建与所选取的分量损失函数相关的目标函数的线性逼近；

Claims

1.一种用于执行随机梯度下降的装置，包括：

2.根据权利要求1所述的装置，其中，所述初始化单元进一步被配置为：

初始化中间解和Bregmann距离函数。

3.根据权利要求2所述的装置，其中，所述迭代单元进一步被配置为：

4.根据权利要求1所述的装置，其中，所述初始化单元进一步被配置为：

5.根据权利要求4所述的装置，其中，所述迭代单元进一步被配置为：

找到所述辅助函数的最小值；

构建与所选取的分量损失函数相关的目标函数的线性逼近；

6.一种用于执行随机梯度过程的方法，包括：

7.根据权利要求6所述的方法，其中，所述初始化步骤还包括：

初始化中间解和Bregmann距离函数。

8.根据权利要求7所述的方法，其中，所述迭代步骤还包括：

9.根据权利要求6所述的方法，其中，所述初始化步骤还包括：

10.根据权利要求9所述的方法，其中，所述迭代步骤还包括：

找到所述辅助函数的最小值；

构建与所选取的分量损失函数相关的目标函数的线性逼近；