CN111985605A - 信息处理装置、控制方法和存储信息处理程序的存储介质 - Google Patents
信息处理装置、控制方法和存储信息处理程序的存储介质 Download PDFInfo
- Publication number
- CN111985605A CN111985605A CN202010363229.7A CN202010363229A CN111985605A CN 111985605 A CN111985605 A CN 111985605A CN 202010363229 A CN202010363229 A CN 202010363229A CN 111985605 A CN111985605 A CN 111985605A
- Authority
- CN
- China
- Prior art keywords
- learning
- learning rate
- information processing
- processing apparatus
- time
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 92
- 230000010365 information processing Effects 0.000 title claims abstract description 58
- 230000008569 process Effects 0.000 claims abstract description 76
- 238000004364 calculation method Methods 0.000 claims abstract description 21
- 238000013528 artificial neural network Methods 0.000 claims abstract description 8
- 230000015654 memory Effects 0.000 claims description 7
- 230000001133 acceleration Effects 0.000 claims description 2
- 230000002238 attenuated effect Effects 0.000 claims 1
- 230000008859 change Effects 0.000 description 23
- 210000002569 neuron Anatomy 0.000 description 20
- 238000013500 data storage Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 7
- KNMAVSAGTYIFJF-UHFFFAOYSA-N 1-[2-[(2-hydroxy-3-phenoxypropyl)amino]ethylamino]-3-phenoxypropan-2-ol;dihydrochloride Chemical compound Cl.Cl.C=1C=CC=CC=1OCC(O)CNCCNCC(O)COC1=CC=CC=C1 KNMAVSAGTYIFJF-UHFFFAOYSA-N 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000000052 comparative effect Effects 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Feedback Control In General (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及信息处理装置、控制方法和存储信息处理程序的存储介质。一种控制信息处理装置的方法,该信息处理装置被配置成通过使用神经网络来执行学习处理,该方法包括:执行计算处理,该计算处理包括计算学习率,该学习率被配置成以连续曲线的形式变化使得从学习率处于最大值的中间值时到学习率达到最小值时的时间短于从学习处理开始时到学习率达到最大值的中间值时的时间;以及执行控制处理,该控制处理包括基于所计算的学习率来控制在更新处理中更新权重参数时的更新量。
Description
技术领域
本文讨论的实施方式涉及信息处理装置、控制方法和用于存储信息处理程序的非暂态计算机可读存储介质。
背景技术
在许多情况下,使用深度神经网络(DNN)的学习处理包括用于识别输入数据的前向传播处理、在识别结果与正确数据之间的差值被向后传播时计算梯度信息的后向传播处理以及用于基于梯度信息更新权重参数的更新处理。
在用于更新权重参数的这些处理的更新处理中,基于学习率(LR)控制更新量。在该处理中使用的学习率通常在学习处理开始时被设置为大的值并且随着学习处理的进行而被改变为较小的值。
[引用列表]
[专利文献]
日本公开特许公报第2017-126260号。
日本公开特许公报第2017-16414号。
发明内容
[技术问题]
然而,在使用DNN进行学习处理的情况下,如何改变更新处理中使用的学习率影响在有限时间内获得的学习结果(经训练的模型)的性能。
在一个方面,目的是提高学习结果的性能。
[问题的解决方案]
根据实施方式的方面,一种控制信息处理装置的方法,该信息处理装置被配置成通过使用神经网络来执行学习处理,该方法包括:执行计算处理,该计算处理包括计算学习率,该学习率被配置成以连续曲线的形式变化使得从学习率处于最大值的中间值时到学习率达到最小值时的时间短于从学习处理开始时到学习率达到最大值的中间值时的时间;以及执行控制处理,该控制处理包括基于所计算的学习率来控制在更新处理中更新权重参数时的更新量。
[发明的有益效果]
本公开内容提高了学习结果的性能。
附图说明
图1示出了信息处理装置的功能配置的示例。
图2示出了信息处理装置的硬件配置的示例。
图3示出了学习处理中的学习数据的配置示例。
图4示出了信息处理装置的学习单元的功能配置的示例。
图5是示出信息处理装置的参数接收单元和学习率计算单元的功能配置的示例以及指示学习率的变化的连续曲线的第一图。
图6A和图6B示出了关于由信息处理装置执行的设置处理和学习处理的过程的流程图。
图7示出了学习结果的准确度的示例。
图8是示出信息处理装置的参数接收单元和学习率计算单元的功能配置的示例以及指示学习率的变化的连续曲线的第二图。
具体实施方式
在下文中,参照附图描述实施方式。在本说明书和附图中,具有基本相同的功能配置的部件被分配有相同的附图标记,并且省略重复的描述。
[第一实施方式]
<信息处理装置的功能配置>
首先,描述使用深度神经网络(DNN)执行学习处理的信息处理装置的功能配置。图1示出了信息处理装置的功能配置的示例。信息处理装置100安装有信息处理程序,并且当该程序被执行时,信息处理装置100用作参数接收单元110、学习率计算单元120、学习率设置单元130和学习单元140。
作为接收单元的示例的参数接收单元110接收用于计算指示学习处理期间学习率的变化的连续曲线的参数。由参数接收单元110接收的参数被传送至学习率计算单元120。
作为计算单元的示例的学习率计算单元120基于从参数接收单元110传送的参数来计算指示学习处理期间学习率的变化的连续曲线,并且将该连续曲线传送至学习率设置单元130。
学习率设置单元130将从学习率计算单元120传送的指示学习率的变化的连续曲线设置在学习单元140中。
学习单元140使用DNN执行学习处理。例如,学习单元140从学习数据存储单元150读取输入数据并且识别所读取的输入数据,该处理被称为前向传播处理。
学习单元140从学习数据存储单元150读取正确数据并且计算从前向传播处理获得的识别结果与读取的正确数据之间的差值。学习单元140还在将计算出的差值向后传播时计算梯度信息,该处理被称为后向传播处理。
此外,学习单元140基于梯度信息更新权重参数,该处理被称为更新处理。当学习单元140更新权重参数时,学习单元140通过参考由学习率设置单元130设置的指示学习率的变化的连续曲线来获得学习率,然后学习单元140基于所获得的学习率来控制更新量。
<信息处理装置的硬件配置>
接下来,描述信息处理装置100的硬件配置。图2示出了信息处理装置的硬件配置的示例。如图2所示,信息处理装置100包括中央处理单元(CPU)201和图形处理单元(GPU)202_1至202_4。信息处理装置100还包括只读存储器(ROM)203和随机存取存储器(RAM)204。CPU 201、GPU 202_1至202_4、ROM 203和RAM 204形成所谓的计算机。
信息处理装置100还包括辅助存储装置205、显示装置206、操作装置207和驱动装置208。信息处理装置100中的硬件部件经由总线209彼此耦接。
CPU 201是用于执行安装在辅助存储装置205中的各种程序(例如,信息处理程序等)的计算设备。
GPU 202_1至202_4是用于图像处理的计算设备,并且当CPU 201执行各种程序时,GPU 202_1至202_4通过对作为图像数据的输入数据进行并行处理来执行高速计算。尽管图2的示例示出了信息处理装置100具有四个GPU的情况,但是信息处理装置100中包括的GPU的数目不限于四个。
ROM 203是非易失性存储器。ROM 203用作存储下述各种程序、数据等的主存储设备,所述各种程序、数据等将用于CPU 201执行安装在辅助存储设备205中的各种程序。例如,ROM 203用作存储引导程序例如基本输入/输出***(BIOS)和可扩展固件接口(EFI)的主存储设备。
RAM 204是易失性存储器,例如动态随机存取存储器(DRAM)或静态随机存取存储器(SRAM)。RAM 204用作提供当CPU 201执行安装在辅助存储装置205中的各种程序时这些程序被加载至其的工作区的主存储设备。
辅助存储装置205是存储各种程序和在执行各种程序时要使用的数据的辅助存储设备。例如,学习数据存储单元150在辅助存储装置205中实现。
显示装置206是显示信息处理装置100的内部状态等的显示设备。操作装置207是当信息处理装置100的用户向信息处理装置100输入各种指令时使用的输入设备。
驱动装置208是其中设置有记录介质210的设备。本文讨论的记录介质210的示例包括以光学、电气或磁性方式记录信息的介质,例如CD-ROM、软盘和磁光盘。记录介质210的示例还可以包括以电气方式记录信息的半导体存储器,例如ROM和闪存。
例如,通过将分布式记录介质210设置在驱动装置208中并且驱动装置208读取记录在记录介质210中的各种程序来安装辅助存储装置205中安装的各种程序。可替选地,可以从未示出的网络下载来安装辅助存储装置205中安装的各种程序。
<学习数据的描述>
接下来,描述存储在学习数据存储单元150中的学习数据。图3示出了学习处理中的学习数据的配置示例。如上所述,由于信息处理装置100具有四个GPU(GPU 202_1至202_4),因此信息处理装置100一个学习步骤接收四个小批量的输入。这里,假设每个小批量包括例如几百个数据集合(输入数据和正确数据的集合)。
图3中的示例指示在一个时期(epoch)中执行N个学习步骤。具体地,学习数据存储单元150存储(几百个数据集合)×4×N的数据组,并且在学习处理时学习单元140重复学习图3所示的一个时期多次(例如,90次)。
<学习单元的功能配置>
接下来,描述学习单元140的功能配置。图4示出了信息处理装置的学习单元的功能配置的示例。由于信息处理装置100具有如上面所描述的四个GPU(GPU 202_1至202_4),因此学习单元140具有四个单独的功能块(功能块410至440),每个功能块并行地执行学习处理。功能块410至410中的每一个具有相同或相似的功能,因此,这里描述功能块410的功能。
功能块410借助于GPU 202_1实现,并且如图4所示,包括输入层411;第一神经元层412、第二神经元层413和第三神经元层414,它们是控制单元的示例;以及差获得单元415。包括在功能块410中的神经元层的数目不限于三个。
输入层411从学习数据存储单元150中以小批量为单位读取输入数据和正确数据的集合并且将输入数据输入至第一神经元层412中。输入层411还将正确数据输入至差获得单元415中。
第一神经元层412根据在前一次学习中计算的差值来计算梯度信息并且使用基于所计算的梯度信息更新的权重参数来对输入数据执行计算。第一神经元层412将经过计算的输入数据输入至第二神经元层413中。第一神经元层412以根据由学习率设置单元130设置的学习率的更新量来更新权重参数。
类似地,第二神经元层413根据在前一次学习中计算的差值来计算梯度信息并且使用基于所计算的梯度信息更新的权重参数来对输入数据执行计算。第二神经元层413将经过计算的输入数据输入至第三神经元层414中。第二神经元层413以根据由学习率设置单元130设置的学习率的更新量来更新权重参数。
类似地,第三神经元层414根据在前一次学习中计算的差值来计算梯度信息并且使用基于所计算的梯度信息更新的权重参数来对输入数据执行计算。第三神经元层414将通过对输入数据执行计算获得的识别结果输入至差获得单元415中。第三神经元层414以根据由学习率设置单元130设置的学习率的更新量来更新权重参数。
差获得单元415计算从输入层411输入的正确数据与从第三神经元层414输入的识别结果之间的差值并且将计算出的差值向后传播。利用这种处理,第一神经元层412至第三神经元层414计算要用于下一次学习的梯度信息。
<参数接收单元和学习率计算单元>
接下来,下面描述参数接收单元和学习率计算单元的功能配置,该学习率计算单元基于学习单元140的第一神经元层412至第三神经元层414中的每一个神经元层中的梯度信息来计算用于更新权重参数的学习率。
图5是示出信息处理装置的参数接收单元和学习率计算单元的功能配置的示例以及指示学习率的变化的连续曲线的第一图。
如图5所示,参数接收单元110接收以下输入:turn_epoch:学习率的衰减率为0.5(最大学习率的中间值)处的时期(epoch);power:时期的乘数;small_ratio:在turn_epoch之后(在学习率达到最大值的中间值之后直到学习率达到最小值)学习率的衰减的加速率;以及min_ratio:最后一个时期处的学习率(学习率的最小值)。图5的示例指示输入turn_epoch=70、power=3、small_ratio=2以及min_ratio=0.0001。
学习率计算单元120使用参数接收单元110作为输入已经接收的参数基于下面的等式计算指示学习处理期间学习率的变化的连续曲线lr。
在epoch≤turn_epoch的情况下
x1=epoch-turn_epoch
在epoch>turn_epoch的情况下
x1=(epoch-turn_epoch)×small_ratio
x2=x1/lr_decay+x1 power/1000
fac_l=arccot(x2_l)
fac=(1-lr_l)/(1-min_ratio)×(arccot(x2)-fac_l)/π+min_ratio
lr=base_lr×fac
在上面的等式中,lr_decay表示学习率的衰减,x2_l表示最后一个时期处的x2,lr_l表示最后一个时期处的lr,以及base_lr表示参考学习率。
图5中的曲线图510指示由学习率计算单元120计算的指示学习处理期间学习率的变化的连续曲线lr的示例。如图5所示,turn_ecaph的输入指定学习率开始衰减的时间。power的输入指定学习率衰减的总体陡度。small_ratio的输入指定在turn_epoch之后学习率衰减的陡度。此外,min_ratio的输入指定学习处理的结束。
在计算指示学习处理期间学习率的变化的连续曲线lr方面,本申请的申请人已经发现“通过使学习率为高的状态更长会实现具有更高性能的学习结果”。对于参数接收单元110和学习率计算单元120,允许用户指定学习率开始衰减的时间(turn_epoch)、学习率衰减的总体陡度(power)和在turn_epoch之后学习率衰减的陡度(small_ratio),使得能够计算反映该发现的连续曲线。
该配置使得参数接收单元110和学习率计算单元120能够计算连续曲线lr,使得从学习率处于最大值的中间值时到学习率达到最小值时的时间短于从学习处理开始时到学习率达到最大值的中间值时的时间(例如,使得学习率为高的状态的时段长)。
<设置处理和学习处理的过程>
接下来,描述由信息处理装置100执行的设置处理和学习处理的过程。图6(即,图6A和图6B)是示出由信息处理装置执行的设置处理和学习处理的过程的流程图。
在这些流程图中,图6A是示出由信息处理装置100执行的设置处理的过程的流程图。如图6A所示,在步骤S601处,参数接收单元110接收用于计算指示学习处理期间学习率的变化的连续曲线的参数。
在步骤S602处,学习率计算单元120使用由参数接收单元110接收的参数计算指示学习处理期间学习率的变化的连续曲线。
在步骤S603处,学习率设置单元130将指示学习处理期间学习率的变化的连续曲线设置在学习单元140中。
图6B是示出由信息处理装置100执行的学习处理的过程的流程图。如图6B所示,在步骤S611处,学习单元140从学习数据存储单元150中以小批量为单位读取学习数据。
在步骤S612处,学习单元140对以小批量为单位读取的学习数据中包括的输入数据执行前向传播处理。
在步骤S613处,学习单元140计算在以小批量为单位读取的学习数据中包括的正确数据与通过前向传播处理获得的识别结果之间的差值,并且学习单元140执行其中向后传播所计算的差值并且计算梯度信息的后向传播处理。
在步骤S614处,学习单元140基于梯度信息执行更新处理以更新权重参数。此时,学习单元140通过参考由学习率设置单元130设置的连续曲线来获得学习率,然后学习单元140基于所获得的学习率来控制更新量。
在步骤S615处,学习单元140确定是否结束学习处理。在学习单元140在步骤S615处确定继续学习处理的情况下(在步骤S615为否的情况下),处理返回至步骤S611。在学习单元140在步骤S615处确定停止学习处理的情况下(在步骤S615为是的情况下),学习单元140结束学习处理。
<学习结果的性能比较>
接下来,参照图7描述通过信息处理装置100的学习单元140执行学习处理获得的学习结果的性能,并且将其与通过比较例的学习单元执行学习处理获得的学习结果进行比较。图7示出了学习结果的性能改善。
在图的曲线图710中,横轴指示时期号,纵轴指示学习结果的性能(使用学习结果进行推理处理的准确度)。在曲线图710中,虚线指示通过由学习单元140执行的学习处理获得的学习结果(当基于由学习率计算单元120计算的连续曲线lr改变学习率时获得的学习结果)的性能。
曲线图710中的实线指示通过由比较例的学习单元执行的学习处理获得的学习结果(通过在学习处理的早期阶段设置高的学习率并且随着学习处理的进行逐渐将学习率改变为较小的值而获得的学习结果)的性能。
如根据曲线图710而明显的,通过由学习单元140执行的学习处理获得的学习结果在学习处理期间的任何时间处都指示较高的性能。
表720指示当学习处理在有限时间内结束时所达到的最终性能的比较。如表720所示,通过由学习单元140执行的学习处理获得的学习结果作为最终结果也指示较高的性能。
如在上面清楚描述的,信息处理装置100计算以连续曲线的形式变化的学习率,使得从学习率处于最大值的中间值时到学习率达到最小值时的时间短于从学习处理开始时到学习率达到最大值的中间值时的时间。信息处理装置100基于以连续曲线的形式变化的学习率来控制在更新处理中更新权重参数时的更新量。
该操作使得可以在使用神经网络的学习处理中使学习率为高的状态的时段长。因此,第一实施方式提高了在有限时间内获得的学习结果的性能。
[第二实施方式]
在上面的第一实施方式中,允许用户指定学习率开始衰减的时间、学习率衰减的总体陡度和在turn_epoch之后学习率衰减的陡度以计算指示学习率的变化的连续曲线。
然而,指定用于计算指示学习率的变化的连续曲线的项不限于这些项。因此,在第二实施方式中,描述通过指定与第一实施方式中的项不同的项来计算指示学习率的变化的连续曲线的情况。下面主要描述与上面的第一实施方式的不同之处。
<参数接收单元和学习率计算单元>
图8是示出信息处理装置的参数接收单元和学习率计算单元的功能配置的示例以及指示学习率的变化的连续曲线的第二图。
如图8所示,参数接收单元810是接收单元的示例并且接收以下输入:turn_epoch:学习率的衰减率为0.5(最大学习率的中间值)处的时期;power:时期的乘数;last_epoch:最后一个时期号;以及min_ratio:在last_epoch处的学习率(学习率的最小值)。图8的示例指示输入turn_epoch=70、power=3、last_epoch=90以及min_ratio=0.0001。
作为计算单元的示例的学习率计算单元820使用参数接收单元810作为输入已经接收的参数并且基于下面的等式计算指示学习处理期间学习率的变化的连续曲线lr。
x1=epoch-turn_epoch
x2=x1/lr_decay+x1 power/1000
x1_l=last_epoch-turn_epoch
x2_l=x1_l/lr_decay+x1_l power/1000
fac_l=arccot(x2_l)
fac=(1-lr_l)/(1-min_ratio)×(arccot(x2)-fac_l)/π+min_ratio
lr=base_lr×fac
在上面的等式中,lr_decay表示学习率的衰减,lr_1表示最后一个时期处的lr,以及base_lr表示参考学习率。
图8中的曲线图830指示由学习率计算单元820计算的指示学习处理期间学习率的变化的连续曲线lr的示例。如图8所示,turn_ecaph的输入指定学习率开始衰减的时间。power的输入指定学习率衰减的总体陡度。last_ecoph的输入指定最后一个时期。此外,min_ratio的输入指定学习处理的结束。
因此,对于参数接收单元810和学习率计算单元820,允许用户指定学习率开始衰减的时间(turn_epoch)、学习率衰减的总体陡度(power)和最后一个时期(last_ecoph)以计算指示学习率的变化的连续曲线lr。
该配置使得参数接收单元810和学***滑地转变至指定值。
[其他实施方式]
在使用arccot计算指示学习处理期间学习率的变化的连续曲线的假设下描述了上面的第一实施方式和第二实施方式。然而,用于计算指示学习处理期间学习率的变化的连续曲线的函数不限于arccot,而是可以使用除arccot以外的函数。
尽管在参数接收单元、学习率计算单元、学习率设置单元和学习单元在单个信息处理装置100中实现的假设下描述了上面的第一实施方式和第二实施方式,但是这些单元可以在多个信息处理装置中实现。
本文提供的所有示例和条件语言旨在用于帮助读者理解本发明和发明人对现有技术所贡献的构思的教示目的,并且不应被解释为受限于这些具体叙述的示例和条件,说明书中这些示例的组织也不涉及本发明的优势和劣势的展示。尽管已经详细描述了本发明的一个或更多个实施方式,但是应当理解,在不脱离本发明的精神和范围的情况下,可以对其进行各种改变、替换和变更。
[附图标记列表]
100:信息处理装置
110:参数接收单元
120:学习率计算单元
130:学习率设置单元
140:学习单元
810:参数接收单元
820:学习率计算单元
Claims (6)
1.一种信息处理装置,其被配置成通过使用神经网络来执行学习处理,所述信息处理装置包括:
存储器;以及
处理器,其耦接至所述存储器,所述处理器被配置成:
执行计算处理,所述计算处理包括计算学习率,所述学习率被配置成以连续曲线的形式变化使得从所述学习率处于最大值的中间值时到所述学习率达到最小值时的时间短于从所述学习处理开始时到所述学习率达到所述最大值的中间值时的时间;以及
执行控制处理,所述控制处理包括基于所计算的学习率来控制在更新处理中更新权重参数时的更新量。
2.根据权利要求1所述的信息处理装置,
其中,所述处理器还被配置成执行:
接收处理,其包括接收用于计算所述连续曲线的参数的输入,其中,所述计算处理被配置成基于所述参数来计算所述连续曲线。
3.根据权利要求2所述的信息处理装置,其中,
所述参数包括:
所述学习率处于所述最大值的中间值的时期,
所述时期的乘数,
从所述学习率处于所述最大值的中间值时到所述学习率达到所述最小值时的衰减的加速率,以及
最后一个时期处的学习率。
4.根据权利要求2所述的信息处理装置,其中
所述参数包括:
所述学习率处于所述最大值的中间值的时期,
所述时期的乘数,
所述学习率处于所述最小值的时期,以及
最后一个时期处的学习率。
5.一种用于存储使计算机执行处理的信息处理程序的非暂态计算机可读存储介质,所述计算机被配置成通过使用神经网络来执行学习处理,所述处理包括:
执行计算处理,所述计算处理包括计算学习率,所述学习率被配置成以连续曲线的形式变化使得从所述学习率处于最大值的中间值时到所述学习率达到最小值时的时间短于从所述学习处理开始时到所述学习率达到所述最大值的中间值时的时间;以及
执行控制处理,所述控制处理包括基于所计算的学习率来控制在更新处理中更新权重参数时的更新量。
6.一种控制信息处理装置的方法,所述信息处理装置被配置成通过使用神经网络来执行学习处理,所述方法包括:
执行计算处理,所述计算处理包括计算学习率,所述学习率被配置成以连续曲线的形式变化使得从所述学习率处于最大值的中间值时到所述学习率达到最小值时的时间短于从所述学习处理开始时到所述学习率达到所述最大值的中间值时的时间;以及
执行控制处理,所述控制处理包括基于所计算的学习率来控制在更新处理中更新权重参数时的更新量。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019095469A JP7279507B2 (ja) | 2019-05-21 | 2019-05-21 | 情報処理装置、情報処理プログラム及び制御方法 |
JP2019-095469 | 2019-05-21 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111985605A true CN111985605A (zh) | 2020-11-24 |
Family
ID=70289667
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010363229.7A Pending CN111985605A (zh) | 2019-05-21 | 2020-04-30 | 信息处理装置、控制方法和存储信息处理程序的存储介质 |
Country Status (4)
Country | Link |
---|---|
US (1) | US11455533B2 (zh) |
EP (1) | EP3742352A1 (zh) |
JP (1) | JP7279507B2 (zh) |
CN (1) | CN111985605A (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7363748B2 (ja) | 2020-11-17 | 2023-10-18 | トヨタ自動車株式会社 | ハイブリッド車両の駆動装置 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106295637A (zh) * | 2016-07-29 | 2017-01-04 | 电子科技大学 | 一种基于深度学习与强化学习的车辆识别方法 |
CN106815971A (zh) * | 2016-12-21 | 2017-06-09 | 西安工程大学 | 一种基于rbf神经网络的滑坡灾害预报方法 |
CN107729992A (zh) * | 2017-10-27 | 2018-02-23 | 深圳市未来媒体技术研究院 | 一种基于反向传播的深度学习方法 |
CN108805264A (zh) * | 2018-05-15 | 2018-11-13 | 哈尔滨理工大学 | 一种基于快速学习率的rbf评估舰载机出动能力的方法 |
CN108881660A (zh) * | 2018-05-02 | 2018-11-23 | 北京大学 | 一种采用优化初始权重的量子神经网络压缩计算全息图的方法 |
CN109325495A (zh) * | 2018-09-21 | 2019-02-12 | 南京邮电大学 | 一种基于深度神经网络建模的作物图像分割***及方法 |
US20190095794A1 (en) * | 2017-09-26 | 2019-03-28 | Intel Corporation | Methods and apparatus for training a neural network |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3276035B2 (ja) * | 1994-09-02 | 2002-04-22 | 日本電信電話株式会社 | 神経回路網モデルの逐次型加速化学習方法 |
JP6620439B2 (ja) | 2015-07-01 | 2019-12-18 | 株式会社リコー | 学習方法、プログラム及び学習装置 |
JP6643905B2 (ja) | 2016-01-15 | 2020-02-12 | クラリオン株式会社 | 機械学習方法および機械学習装置 |
CN110033078B (zh) * | 2018-01-12 | 2024-01-12 | 华为技术有限公司 | 一种基于树状拓扑的计算***及方法 |
CN110795228B (zh) * | 2018-08-03 | 2023-08-25 | 伊姆西Ip控股有限责任公司 | 用于训练深度学习模型的方法和制品、以及计算*** |
WO2020046719A1 (en) * | 2018-08-31 | 2020-03-05 | D5Ai Llc | Self-supervised back propagation for deep learning |
US11061902B2 (en) * | 2018-10-18 | 2021-07-13 | Oracle International Corporation | Automated configuration parameter tuning for database performance |
US11836600B2 (en) * | 2020-08-20 | 2023-12-05 | D5Ai Llc | Targeted incremental growth with continual learning in deep neural networks |
-
2019
- 2019-05-21 JP JP2019095469A patent/JP7279507B2/ja active Active
-
2020
- 2020-04-15 EP EP20169584.8A patent/EP3742352A1/en not_active Withdrawn
- 2020-04-20 US US16/852,611 patent/US11455533B2/en active Active
- 2020-04-30 CN CN202010363229.7A patent/CN111985605A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106295637A (zh) * | 2016-07-29 | 2017-01-04 | 电子科技大学 | 一种基于深度学习与强化学习的车辆识别方法 |
CN106815971A (zh) * | 2016-12-21 | 2017-06-09 | 西安工程大学 | 一种基于rbf神经网络的滑坡灾害预报方法 |
US20190095794A1 (en) * | 2017-09-26 | 2019-03-28 | Intel Corporation | Methods and apparatus for training a neural network |
CN107729992A (zh) * | 2017-10-27 | 2018-02-23 | 深圳市未来媒体技术研究院 | 一种基于反向传播的深度学习方法 |
CN108881660A (zh) * | 2018-05-02 | 2018-11-23 | 北京大学 | 一种采用优化初始权重的量子神经网络压缩计算全息图的方法 |
CN108805264A (zh) * | 2018-05-15 | 2018-11-13 | 哈尔滨理工大学 | 一种基于快速学习率的rbf评估舰载机出动能力的方法 |
CN109325495A (zh) * | 2018-09-21 | 2019-02-12 | 南京邮电大学 | 一种基于深度神经网络建模的作物图像分割***及方法 |
Non-Patent Citations (2)
Title |
---|
BO-YANG HSUEH等: "Stochastic Gradient Descent with Hyperbolic-Tangent Decay on Classification", 《2019 IEEE WINTER CONFERENCE ON APPLICATIONS OF COMPUTER VISION》, pages 435 - 442 * |
KARIM SAYADI等: "Character-Level Dialect Identification in Arabic Using Long Short-Term Memory", 《ANNUAL INTERNATIONAL CONFERENCE ON THE THEORY AND APPLICATIONS OF CRYPTOGRAPHIC TECHNIQUES》, pages 324 - 337 * |
Also Published As
Publication number | Publication date |
---|---|
EP3742352A1 (en) | 2020-11-25 |
US11455533B2 (en) | 2022-09-27 |
US20200372347A1 (en) | 2020-11-26 |
JP2020190896A (ja) | 2020-11-26 |
JP7279507B2 (ja) | 2023-05-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111562977B (zh) | 神经网络模型拆分方法、装置、存储介质和计算机*** | |
US20210158212A1 (en) | Learning method and learning apparatus | |
CN112463189B (zh) | 基于通信操作稀疏化的分布式深度学习多步延迟更新方法 | |
WO2023284770A1 (zh) | 张量程序优化方法及装置 | |
CN111985605A (zh) | 信息处理装置、控制方法和存储信息处理程序的存储介质 | |
US20210034983A1 (en) | Learning device, learning method, and computer program product | |
CN114676761B (zh) | 预训练模型训练处理方法、装置、电子设备及存储介质 | |
EP3742354A1 (en) | Information processing apparatus, information processing method, and program | |
JP2013235512A (ja) | 数理計画問題を解くための装置、プログラムおよび方法 | |
US20230334325A1 (en) | Model Training Method and Apparatus, Storage Medium, and Device | |
JP2019200657A (ja) | 演算装置及び演算装置の制御方法 | |
CN112990461B (zh) | 构建神经网络模型的方法、装置、计算机设备和存储介质 | |
US11372379B2 (en) | Computer system and control method | |
CN111985606A (zh) | 信息处理设备、计算机可读存储介质以及信息处理方法 | |
JP2021197108A (ja) | 学習プログラム、学習方法および情報処理装置 | |
EP4125001A1 (en) | Machine learning program, information processing device, and machine learning method | |
JP2020003860A (ja) | 学習システム、処理装置、処理方法、およびプログラム | |
US20210012192A1 (en) | Arithmetic processing apparatus, control method, and non-transitory computer-readable recording medium having stored therein control program | |
EP3796232A1 (en) | Information processing apparatus, method for processing information, and program | |
US20210089885A1 (en) | Training device and training method | |
EP4220500A1 (en) | Data modification program, data modification method, and information processing apparatus | |
EP4156037A1 (en) | Machine learning program, machine learning method, and information processing apparatus | |
JP7501315B2 (ja) | 演算処理プログラム、演算処理方法および情報処理装置 | |
US20220253693A1 (en) | Computer-readable recording medium storing machine learning program, apparatus, and method | |
CN116974710A (zh) | 一种数据处理的方法和设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |