CN111985605A

CN111985605A - 信息处理装置、控制方法和存储信息处理程序的存储介质

Info

Publication number: CN111985605A
Application number: CN202010363229.7A
Authority: CN
Inventors: 山崎雅文; 笠置明彦; 田渕晶大
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2019-05-21
Filing date: 2020-04-30
Publication date: 2020-11-24
Also published as: EP3742352A1; US11455533B2; US20200372347A1; JP2020190896A; JP7279507B2

Abstract

本发明涉及信息处理装置、控制方法和存储信息处理程序的存储介质。一种控制信息处理装置的方法，该信息处理装置被配置成通过使用神经网络来执行学习处理，该方法包括：执行计算处理，该计算处理包括计算学习率，该学习率被配置成以连续曲线的形式变化使得从学习率处于最大值的中间值时到学习率达到最小值时的时间短于从学习处理开始时到学习率达到最大值的中间值时的时间；以及执行控制处理，该控制处理包括基于所计算的学习率来控制在更新处理中更新权重参数时的更新量。

Description

信息处理装置、控制方法和存储信息处理程序的存储介质

技术领域

本文讨论的实施方式涉及信息处理装置、控制方法和用于存储信息处理程序的非暂态计算机可读存储介质。

背景技术

在许多情况下，使用深度神经网络(DNN)的学习处理包括用于识别输入数据的前向传播处理、在识别结果与正确数据之间的差值被向后传播时计算梯度信息的后向传播处理以及用于基于梯度信息更新权重参数的更新处理。

在用于更新权重参数的这些处理的更新处理中，基于学习率(LR)控制更新量。在该处理中使用的学习率通常在学习处理开始时被设置为大的值并且随着学习处理的进行而被改变为较小的值。

[引用列表]

[专利文献]

日本公开特许公报第2017-126260号。

日本公开特许公报第2017-16414号。

发明内容

[技术问题]

然而，在使用DNN进行学习处理的情况下，如何改变更新处理中使用的学习率影响在有限时间内获得的学习结果(经训练的模型)的性能。

在一个方面，目的是提高学习结果的性能。

[问题的解决方案]

根据实施方式的方面，一种控制信息处理装置的方法，该信息处理装置被配置成通过使用神经网络来执行学习处理，该方法包括：执行计算处理，该计算处理包括计算学习率，该学习率被配置成以连续曲线的形式变化使得从学习率处于最大值的中间值时到学习率达到最小值时的时间短于从学习处理开始时到学习率达到最大值的中间值时的时间；以及执行控制处理，该控制处理包括基于所计算的学习率来控制在更新处理中更新权重参数时的更新量。

[发明的有益效果]

本公开内容提高了学习结果的性能。

附图说明

图1示出了信息处理装置的功能配置的示例。

图2示出了信息处理装置的硬件配置的示例。

图3示出了学习处理中的学习数据的配置示例。

图4示出了信息处理装置的学习单元的功能配置的示例。

图5是示出信息处理装置的参数接收单元和学习率计算单元的功能配置的示例以及指示学习率的变化的连续曲线的第一图。

图6A和图6B示出了关于由信息处理装置执行的设置处理和学习处理的过程的流程图。

图7示出了学习结果的准确度的示例。

图8是示出信息处理装置的参数接收单元和学习率计算单元的功能配置的示例以及指示学习率的变化的连续曲线的第二图。

具体实施方式

在下文中，参照附图描述实施方式。在本说明书和附图中，具有基本相同的功能配置的部件被分配有相同的附图标记，并且省略重复的描述。

[第一实施方式]

<信息处理装置的功能配置>

首先，描述使用深度神经网络(DNN)执行学习处理的信息处理装置的功能配置。图1示出了信息处理装置的功能配置的示例。信息处理装置100安装有信息处理程序，并且当该程序被执行时，信息处理装置100用作参数接收单元110、学习率计算单元120、学习率设置单元130和学习单元140。

作为接收单元的示例的参数接收单元110接收用于计算指示学习处理期间学习率的变化的连续曲线的参数。由参数接收单元110接收的参数被传送至学习率计算单元120。

作为计算单元的示例的学习率计算单元120基于从参数接收单元110传送的参数来计算指示学习处理期间学习率的变化的连续曲线，并且将该连续曲线传送至学习率设置单元130。

学习率设置单元130将从学习率计算单元120传送的指示学习率的变化的连续曲线设置在学习单元140中。

学习单元140使用DNN执行学习处理。例如，学习单元140从学习数据存储单元150读取输入数据并且识别所读取的输入数据，该处理被称为前向传播处理。

学习单元140从学习数据存储单元150读取正确数据并且计算从前向传播处理获得的识别结果与读取的正确数据之间的差值。学习单元140还在将计算出的差值向后传播时计算梯度信息，该处理被称为后向传播处理。

此外，学习单元140基于梯度信息更新权重参数，该处理被称为更新处理。当学习单元140更新权重参数时，学习单元140通过参考由学习率设置单元130设置的指示学习率的变化的连续曲线来获得学习率，然后学习单元140基于所获得的学习率来控制更新量。

<信息处理装置的硬件配置>

接下来，描述信息处理装置100的硬件配置。图2示出了信息处理装置的硬件配置的示例。如图2所示，信息处理装置100包括中央处理单元(CPU)201和图形处理单元(GPU)202_1至202_4。信息处理装置100还包括只读存储器(ROM)203和随机存取存储器(RAM)204。CPU 201、GPU 202_1至202_4、ROM 203和RAM 204形成所谓的计算机。

信息处理装置100还包括辅助存储装置205、显示装置206、操作装置207和驱动装置208。信息处理装置100中的硬件部件经由总线209彼此耦接。

CPU 201是用于执行安装在辅助存储装置205中的各种程序(例如，信息处理程序等)的计算设备。

GPU 202_1至202_4是用于图像处理的计算设备，并且当CPU 201执行各种程序时，GPU 202_1至202_4通过对作为图像数据的输入数据进行并行处理来执行高速计算。尽管图2的示例示出了信息处理装置100具有四个GPU的情况，但是信息处理装置100中包括的GPU的数目不限于四个。

ROM 203是非易失性存储器。ROM 203用作存储下述各种程序、数据等的主存储设备，所述各种程序、数据等将用于CPU 201执行安装在辅助存储设备205中的各种程序。例如，ROM 203用作存储引导程序例如基本输入/输出***(BIOS)和可扩展固件接口(EFI)的主存储设备。

RAM 204是易失性存储器，例如动态随机存取存储器(DRAM)或静态随机存取存储器(SRAM)。RAM 204用作提供当CPU 201执行安装在辅助存储装置205中的各种程序时这些程序被加载至其的工作区的主存储设备。

辅助存储装置205是存储各种程序和在执行各种程序时要使用的数据的辅助存储设备。例如，学习数据存储单元150在辅助存储装置205中实现。

显示装置206是显示信息处理装置100的内部状态等的显示设备。操作装置207是当信息处理装置100的用户向信息处理装置100输入各种指令时使用的输入设备。

驱动装置208是其中设置有记录介质210的设备。本文讨论的记录介质210的示例包括以光学、电气或磁性方式记录信息的介质，例如CD-ROM、软盘和磁光盘。记录介质210的示例还可以包括以电气方式记录信息的半导体存储器，例如ROM和闪存。

例如，通过将分布式记录介质210设置在驱动装置208中并且驱动装置208读取记录在记录介质210中的各种程序来安装辅助存储装置205中安装的各种程序。可替选地，可以从未示出的网络下载来安装辅助存储装置205中安装的各种程序。

<学习数据的描述>

接下来，描述存储在学习数据存储单元150中的学习数据。图3示出了学习处理中的学习数据的配置示例。如上所述，由于信息处理装置100具有四个GPU(GPU 202_1至202_4)，因此信息处理装置100一个学习步骤接收四个小批量的输入。这里，假设每个小批量包括例如几百个数据集合(输入数据和正确数据的集合)。

图3中的示例指示在一个时期(epoch)中执行N个学习步骤。具体地，学习数据存储单元150存储(几百个数据集合)×4×N的数据组，并且在学习处理时学习单元140重复学习图3所示的一个时期多次(例如，90次)。

<学习单元的功能配置>

接下来，描述学习单元140的功能配置。图4示出了信息处理装置的学习单元的功能配置的示例。由于信息处理装置100具有如上面所描述的四个GPU(GPU 202_1至202_4)，因此学习单元140具有四个单独的功能块(功能块410至440)，每个功能块并行地执行学习处理。功能块410至410中的每一个具有相同或相似的功能，因此，这里描述功能块410的功能。

功能块410借助于GPU 202_1实现，并且如图4所示，包括输入层411；第一神经元层412、第二神经元层413和第三神经元层414，它们是控制单元的示例；以及差获得单元415。包括在功能块410中的神经元层的数目不限于三个。

输入层411从学习数据存储单元150中以小批量为单位读取输入数据和正确数据的集合并且将输入数据输入至第一神经元层412中。输入层411还将正确数据输入至差获得单元415中。

第一神经元层412根据在前一次学习中计算的差值来计算梯度信息并且使用基于所计算的梯度信息更新的权重参数来对输入数据执行计算。第一神经元层412将经过计算的输入数据输入至第二神经元层413中。第一神经元层412以根据由学习率设置单元130设置的学习率的更新量来更新权重参数。

类似地，第二神经元层413根据在前一次学习中计算的差值来计算梯度信息并且使用基于所计算的梯度信息更新的权重参数来对输入数据执行计算。第二神经元层413将经过计算的输入数据输入至第三神经元层414中。第二神经元层413以根据由学习率设置单元130设置的学习率的更新量来更新权重参数。

类似地，第三神经元层414根据在前一次学习中计算的差值来计算梯度信息并且使用基于所计算的梯度信息更新的权重参数来对输入数据执行计算。第三神经元层414将通过对输入数据执行计算获得的识别结果输入至差获得单元415中。第三神经元层414以根据由学习率设置单元130设置的学习率的更新量来更新权重参数。

差获得单元415计算从输入层411输入的正确数据与从第三神经元层414输入的识别结果之间的差值并且将计算出的差值向后传播。利用这种处理，第一神经元层412至第三神经元层414计算要用于下一次学习的梯度信息。

<参数接收单元和学习率计算单元>

接下来，下面描述参数接收单元和学习率计算单元的功能配置，该学习率计算单元基于学习单元140的第一神经元层412至第三神经元层414中的每一个神经元层中的梯度信息来计算用于更新权重参数的学习率。

如图5所示，参数接收单元110接收以下输入：turn_epoch：学习率的衰减率为0.5(最大学习率的中间值)处的时期(epoch)；power：时期的乘数；small_ratio：在turn_epoch之后(在学习率达到最大值的中间值之后直到学习率达到最小值)学习率的衰减的加速率；以及min_ratio：最后一个时期处的学习率(学习率的最小值)。图5的示例指示输入turn_epoch＝70、power＝3、small_ratio＝2以及min_ratio＝0.0001。

学习率计算单元120使用参数接收单元110作为输入已经接收的参数基于下面的等式计算指示学习处理期间学习率的变化的连续曲线lr。

在epoch≤turn_epoch的情况下

x₁＝epoch-turn_epoch

在epoch>turn_epoch的情况下

x₁＝(epoch-turn_epoch)×small_ratio

x₂＝x₁/lr_decay+x₁ ^power/1000

fac_l＝arccot(x_{2_l})

fac＝(1-lr_l)/(1-min_ratio)×(arccot(x₂)-fac_l)/π+min_ratio

lr＝base_lr×fac

在上面的等式中，lr_decay表示学习率的衰减，x_{2_l}表示最后一个时期处的x₂，lr_l表示最后一个时期处的lr，以及base_lr表示参考学习率。

图5中的曲线图510指示由学习率计算单元120计算的指示学习处理期间学习率的变化的连续曲线lr的示例。如图5所示，turn_ecaph的输入指定学习率开始衰减的时间。power的输入指定学习率衰减的总体陡度。small_ratio的输入指定在turn_epoch之后学习率衰减的陡度。此外，min_ratio的输入指定学习处理的结束。

在计算指示学习处理期间学习率的变化的连续曲线lr方面，本申请的申请人已经发现“通过使学习率为高的状态更长会实现具有更高性能的学习结果”。对于参数接收单元110和学习率计算单元120，允许用户指定学习率开始衰减的时间(turn_epoch)、学习率衰减的总体陡度(power)和在turn_epoch之后学习率衰减的陡度(small_ratio)，使得能够计算反映该发现的连续曲线。

该配置使得参数接收单元110和学习率计算单元120能够计算连续曲线lr，使得从学习率处于最大值的中间值时到学习率达到最小值时的时间短于从学习处理开始时到学习率达到最大值的中间值时的时间(例如，使得学习率为高的状态的时段长)。

<设置处理和学习处理的过程>

接下来，描述由信息处理装置100执行的设置处理和学习处理的过程。图6(即，图6A和图6B)是示出由信息处理装置执行的设置处理和学习处理的过程的流程图。

在这些流程图中，图6A是示出由信息处理装置100执行的设置处理的过程的流程图。如图6A所示，在步骤S601处，参数接收单元110接收用于计算指示学习处理期间学习率的变化的连续曲线的参数。

在步骤S602处，学习率计算单元120使用由参数接收单元110接收的参数计算指示学习处理期间学习率的变化的连续曲线。

在步骤S603处，学习率设置单元130将指示学习处理期间学习率的变化的连续曲线设置在学习单元140中。

图6B是示出由信息处理装置100执行的学习处理的过程的流程图。如图6B所示，在步骤S611处，学习单元140从学习数据存储单元150中以小批量为单位读取学习数据。

在步骤S612处，学习单元140对以小批量为单位读取的学习数据中包括的输入数据执行前向传播处理。

在步骤S613处，学习单元140计算在以小批量为单位读取的学习数据中包括的正确数据与通过前向传播处理获得的识别结果之间的差值，并且学习单元140执行其中向后传播所计算的差值并且计算梯度信息的后向传播处理。

在步骤S614处，学习单元140基于梯度信息执行更新处理以更新权重参数。此时，学习单元140通过参考由学习率设置单元130设置的连续曲线来获得学习率，然后学习单元140基于所获得的学习率来控制更新量。

在步骤S615处，学习单元140确定是否结束学习处理。在学习单元140在步骤S615处确定继续学习处理的情况下(在步骤S615为否的情况下)，处理返回至步骤S611。在学习单元140在步骤S615处确定停止学习处理的情况下(在步骤S615为是的情况下)，学习单元140结束学习处理。

<学习结果的性能比较>

接下来，参照图7描述通过信息处理装置100的学习单元140执行学习处理获得的学习结果的性能，并且将其与通过比较例的学习单元执行学习处理获得的学习结果进行比较。图7示出了学习结果的性能改善。

在图的曲线图710中，横轴指示时期号，纵轴指示学习结果的性能(使用学习结果进行推理处理的准确度)。在曲线图710中，虚线指示通过由学习单元140执行的学习处理获得的学习结果(当基于由学习率计算单元120计算的连续曲线lr改变学习率时获得的学习结果)的性能。

曲线图710中的实线指示通过由比较例的学习单元执行的学习处理获得的学习结果(通过在学习处理的早期阶段设置高的学习率并且随着学习处理的进行逐渐将学习率改变为较小的值而获得的学习结果)的性能。

如根据曲线图710而明显的，通过由学习单元140执行的学习处理获得的学习结果在学习处理期间的任何时间处都指示较高的性能。

表720指示当学习处理在有限时间内结束时所达到的最终性能的比较。如表720所示，通过由学习单元140执行的学习处理获得的学习结果作为最终结果也指示较高的性能。

如在上面清楚描述的，信息处理装置100计算以连续曲线的形式变化的学习率，使得从学习率处于最大值的中间值时到学习率达到最小值时的时间短于从学习处理开始时到学习率达到最大值的中间值时的时间。信息处理装置100基于以连续曲线的形式变化的学习率来控制在更新处理中更新权重参数时的更新量。

该操作使得可以在使用神经网络的学习处理中使学习率为高的状态的时段长。因此，第一实施方式提高了在有限时间内获得的学习结果的性能。

[第二实施方式]

在上面的第一实施方式中，允许用户指定学习率开始衰减的时间、学习率衰减的总体陡度和在turn_epoch之后学习率衰减的陡度以计算指示学习率的变化的连续曲线。

然而，指定用于计算指示学习率的变化的连续曲线的项不限于这些项。因此，在第二实施方式中，描述通过指定与第一实施方式中的项不同的项来计算指示学习率的变化的连续曲线的情况。下面主要描述与上面的第一实施方式的不同之处。

<参数接收单元和学习率计算单元>

如图8所示，参数接收单元810是接收单元的示例并且接收以下输入：turn_epoch：学习率的衰减率为0.5(最大学习率的中间值)处的时期；power：时期的乘数；last_epoch：最后一个时期号；以及min_ratio：在last_epoch处的学习率(学习率的最小值)。图8的示例指示输入turn_epoch＝70、power＝3、last_epoch＝90以及min_ratio＝0.0001。

作为计算单元的示例的学习率计算单元820使用参数接收单元810作为输入已经接收的参数并且基于下面的等式计算指示学习处理期间学习率的变化的连续曲线lr。

x₁＝epoch-turn_epoch

x₂＝x₁/lr_decay+x₁ ^power/1000

x_{1_l}＝last_epoch-turn_epoch

x_{2_l}＝x_{1_l}/lr_decay+x_{1_l} ^power/1000

fac_l＝arccot(x_{2_l})

fac＝(1-lr_l)/(1-min_ratio)×(arccot(x₂)-fac_l)/π+min_ratio

lr＝base_lr×fac

在上面的等式中，lr_decay表示学习率的衰减，lr_1表示最后一个时期处的lr，以及base_lr表示参考学习率。

图8中的曲线图830指示由学习率计算单元820计算的指示学习处理期间学习率的变化的连续曲线lr的示例。如图8所示，turn_ecaph的输入指定学习率开始衰减的时间。power的输入指定学习率衰减的总体陡度。last_ecoph的输入指定最后一个时期。此外，min_ratio的输入指定学习处理的结束。

因此，对于参数接收单元810和学习率计算单元820，允许用户指定学习率开始衰减的时间(turn_epoch)、学习率衰减的总体陡度(power)和最后一个时期(last_ecoph)以计算指示学习率的变化的连续曲线lr。

该配置使得参数接收单元810和学***滑地转变至指定值。

[其他实施方式]

在使用arccot计算指示学习处理期间学习率的变化的连续曲线的假设下描述了上面的第一实施方式和第二实施方式。然而，用于计算指示学习处理期间学习率的变化的连续曲线的函数不限于arccot，而是可以使用除arccot以外的函数。

尽管在参数接收单元、学习率计算单元、学习率设置单元和学习单元在单个信息处理装置100中实现的假设下描述了上面的第一实施方式和第二实施方式，但是这些单元可以在多个信息处理装置中实现。

本文提供的所有示例和条件语言旨在用于帮助读者理解本发明和发明人对现有技术所贡献的构思的教示目的，并且不应被解释为受限于这些具体叙述的示例和条件，说明书中这些示例的组织也不涉及本发明的优势和劣势的展示。尽管已经详细描述了本发明的一个或更多个实施方式，但是应当理解，在不脱离本发明的精神和范围的情况下，可以对其进行各种改变、替换和变更。

[附图标记列表]

100：信息处理装置

110：参数接收单元

120：学习率计算单元

130：学习率设置单元

140：学习单元

810：参数接收单元

820：学习率计算单元

Claims

1.一种信息处理装置，其被配置成通过使用神经网络来执行学习处理，所述信息处理装置包括：

存储器；以及

处理器，其耦接至所述存储器，所述处理器被配置成：

执行计算处理，所述计算处理包括计算学习率，所述学习率被配置成以连续曲线的形式变化使得从所述学习率处于最大值的中间值时到所述学习率达到最小值时的时间短于从所述学习处理开始时到所述学习率达到所述最大值的中间值时的时间；以及

执行控制处理，所述控制处理包括基于所计算的学习率来控制在更新处理中更新权重参数时的更新量。

2.根据权利要求1所述的信息处理装置，

其中，所述处理器还被配置成执行：

接收处理，其包括接收用于计算所述连续曲线的参数的输入，其中，所述计算处理被配置成基于所述参数来计算所述连续曲线。

3.根据权利要求2所述的信息处理装置，其中，

所述参数包括：

所述学习率处于所述最大值的中间值的时期，

所述时期的乘数，

从所述学习率处于所述最大值的中间值时到所述学习率达到所述最小值时的衰减的加速率，以及

最后一个时期处的学习率。

4.根据权利要求2所述的信息处理装置，其中

所述参数包括：

所述学习率处于所述最大值的中间值的时期，

所述时期的乘数，

所述学习率处于所述最小值的时期，以及

最后一个时期处的学习率。

5.一种用于存储使计算机执行处理的信息处理程序的非暂态计算机可读存储介质，所述计算机被配置成通过使用神经网络来执行学习处理，所述处理包括：

6.一种控制信息处理装置的方法，所述信息处理装置被配置成通过使用神经网络来执行学习处理，所述方法包括：