CN108446534A - 选择神经网络超参数的方法、装置和计算机可读存储介质 - Google Patents
选择神经网络超参数的方法、装置和计算机可读存储介质 Download PDFInfo
- Publication number
- CN108446534A CN108446534A CN201810203061.6A CN201810203061A CN108446534A CN 108446534 A CN108446534 A CN 108446534A CN 201810203061 A CN201810203061 A CN 201810203061A CN 108446534 A CN108446534 A CN 108446534A
- Authority
- CN
- China
- Prior art keywords
- neural network
- gene order
- hyper parameter
- group
- evolution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B25/00—ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Genetics & Genomics (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明属于深度学习领域,提供了一种选择神经网络超参数的方法、装置和计算机可读存储介质,以高效、准确选择出神经网络超参数,减小人力成本。所述方法包括:初始化待求解神经网络超参数;将初始化后的待求解神经网络超参数二进制化为若干组基因序列;通过优化若干组基因序列直至得到一组进化的基因序列;将一组进化的基因序列中的基因序列映射为相应的神经网络超参数,得到一组符合要求的神经网络超参数。本发明的技术方案一方面不依赖于研发人员的经验和能力,超参数的选择的人力成本显著降低;另一方面,采用了启发式算法不断优化基因序列,最后所得最优基因序列,其训练出的神经网络的性能也会显著优化。
Description
技术领域
本发明属于深度学习领域,尤其涉及一种选择神经网络超参数的方法、装置和计算机可读存储介质。
背景技术
使用深度学习或者机器学习来完成图像识别、自然语言处理、序列决策等任务时,需要先训练深度学习模型或者机器学习模型,训练模型的过程包括调整神经网络的参数过程。除了神经网络本身的权重参数之外,神经网络的参数还包括一些不属于深度学习本身所求解的参数,例如,学习率、迭代次数和mini-bach的大小等,这些不属于深度学习本身所求解的参数就是所谓的神经网络超参数。神经网络超参数选择的好坏决定了神经网络模型能否正确收敛、收敛的速度以及模型最后识别的性能等。因此,如何快速、准确地确定神经网络超参数一直是深度学习领域研究的课题。
现有的选择神经网络超参数的方法通常是利用经验来设置一个比较合理的超参数初始值,其是否合理依赖于研发人员的经验。然后,研发人员根据训练的结果对初始值进行调节,而具体的调节过程也需要研发人员的经验来设置。
综上,现有的选择神经网络超参数的方法不仅严重依赖于研发人员的经验、能力,而且每次需要人工去比较训练结果和挑选需要更改的超参数,因此需要耗费大量的精力。
发明内容
本发明的目的在于提供一种选择神经网络超参数的方法、装置和计算机可读存储介质,以高效、准确选择出神经网络超参数,减小人力成本。
本发明第一方面提供一种选择神经网络超参数的方法,所述方法包括:
初始化待求解神经网络超参数;
将所述初始化后的待求解神经网络超参数二进制化为若干组基因序列;
通过逐步优化所述若干组基因序列直至得到一组进化的基因序列;
将所述一组进化的基因序列中的基因序列映射为相应的神经网络超参数,得到一组符合要求的神经网络超参数。
本发明第二方面提供一种选择神经网络超参数的装置,所述装置包括:
初始化模块,用于初始化待求解神经网络超参数;
转换模块,用于将所述初始化后的待求解神经网络超参数二进制化为若干组基因序列;
优化模块,用于通过逐步优化所述若干组基因序列直至得到一组进化的基因序列;
映射模块,用于将所述一组进化的基因序列中的基因序列映射为相应的神经网络超参数,得到一组符合要求的神经网络超参数。
本发明第三方面提供一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如下方法的步骤:
初始化待求解神经网络超参数;
将所述初始化后的待求解神经网络超参数二进制化为若干组基因序列;
通过优化所述若干组基因序列直至得到一组进化的基因序列;
将所述一组进化的基因序列中的基因序列映射为相应的神经网络超参数,得到一组符合要求的神经网络超参数。
本发明第四方面提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如下方法的步骤:
初始化待求解神经网络超参数;
将所述初始化后的待求解神经网络超参数二进制化为若干组基因序列;
通过优化所述若干组基因序列直至得到一组进化的基因序列;
将所述一组进化的基因序列中的基因序列映射为相应的神经网络超参数,得到一组符合要求的神经网络超参数。
从上述本发明技术方案可知,一方面,由于选择神经网络超参数的方法的每一步都是经过定量计算的过程,并不依赖于研发人员的经验和能力,因此,超参数的选择的人力成本显著降低,选择出来的超参数更合理、准确;另一方面,通过优化基因序列,最后所得进化的基因序列,其训练出的神经网络的性能也会显著优化。
附图说明
图1是本发明实施例提供的选择神经网络超参数的方法的实现流程示意图;
图2本发明实施例提供的选择神经网络超参数的装置的结构示意图;
图3是本发明另一实施例提供的选择神经网络超参数的装置的结构示意图;
图4是本发明另一实施例提供的选择神经网络超参数的装置的结构示意图;
图5是本发明另一实施例提供的选择神经网络超参数的装置的结构示意图;
图6是本发明实施例提供的终端设备的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及有益效果更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
以下描述中,为了说明而不是为了限定,提出了诸如特定***结构、技术之类的具体细节,以便透彻理解本发明实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中,省略对众所周知的***、装置、电路以及方法的详细说明,以免不必要的细节妨碍本发明的描述。
附图1是本发明实施例提供的选择神经网络超参数的方法的实现流程示意图,主要包括以下步骤S101至S104,以下详细说明:
S101,初始化待求解神经网络超参数。
待求解神经网络超参数的解空间可能是有限解空间,即,待求解神经网络超参数的解为有限个数,待求解神经网络超参数的解空间亦可能是无穷解空间,即待求解神经网络超参数的解为无穷多个。例如,对于随机梯度下降算法中的学习率,若其解空间是[0.00001,0.2],则根据实数定义,其中有无穷多个解,然而,在工程领域,无需亦无法获取无穷多个解。因此,在本发明实施例中,初始化待求解神经网络超参数可以是:若待求解神经网络超参数的解空间为无穷解空间,则根据精度要求将无穷解空间转化为有限解空间;在有限解空间随机取若干数值作为初始化待求解神经网络超参数的若干初始值。例如,对于解空间是[0.00001,0.2]的学习率这一超参数,若根据精度要求,则可以将其转化为只有1024个解的有限解空间,然后,在这一只有1024个解的有限解空间中随机取若干数值,例如0.16358、0.17589、0.1930、0.1929、0.1898等作为初始化待求解神经网络超参数的若干初始值。
S102,将初始化后的待求解神经网络超参数二进制化为若干组基因序列。
在本发明实施例中,将初始化后的待求解神经网络超参数二进制化为二进制序列,若启发式算法是遗传算法,则这些二进制序列就是所谓的基因序列。需要说明的是,在本发明实施例中,每个基因序列对应一个超参数,一组基因序列对应一组超参数。例如,初始化后的学习率的基因序列是0101,小批量随机梯度算法中初始化后的mini-batch这一参数的基因序列是1011,则两者构成的一组基因序列可以是01011011;当取不同的初始化后的学习率和mini-batch二进制化时,就构成不同的若干组基因序列,例如,初始化后的学习率和mini-batch经二进制化还可能获得形如00101101、00011100等基因序列。
S103,优化若干组基因序列直至得到一组进化的基因序列。
在本发明实施例中,具体地,可以采用启发式算法优化经步骤S102得到的若干组基因序列,其中,启发式算法可以是遗传算法,若干组基因序列中的每组基因序列可以视为遗传算法中种群的个体。例如,假设超参数包括学习率和迭代次数,则种群是这些超参数对应的基因序列构成的组合,例如,学习率的取值为0.1和0.2,其对应的基因序列分别为0010和0011,迭代次数的取值为100和1000,对应的基因序列分别为0100和1101,则0010和0100构成的一组基因序列00100100、0010和1101构成的一组基因序列00101101、0011和0100构成的一组基因序列00110100以及0011和1101构成的一组基因序列00111101总共四组基因序列构成了一个种群,基因序列00100100、00101101、00110100和00111101分别是这个种群的个体。作为本发明一个实施例,通过优化所述若干组基因序列直至得到一组进化的基因序列可通过如下步骤S1031至S1033实现:
S1031,通过以个体对应的神经网络超参数作为训练神经网络时所用超参数训练神经网络,对个体进行淘汰。
作为本发明实施例,通过以个体对应的神经网络超参数作为训练神经网络时所用超参数训练神经网络,对个体进行淘汰可通过如下步骤S1和S2实现:
S1,通过以个体对应的神经网络超参数作为训练神经网络时所用超参数训练神经网络,记录每一轮训练后已训练神经网络的性能。
在本发明实施例中,通过以个体对应的神经网络超参数作为训练神经网络时所用超参数训练神经网络,判断已训练神经网络的性能能否达到预期,从而对神经网络超参数即种群的个体进行评估。由于对个体的评估过程相当于是一个采用少量样本对神经网络训练的过程,而为了确保已训练神经网络不是过拟合的神经网络,因此,在对种群的个体进行评估前,可以对训练的样本进行划分,即,用于优化个体的样本与后续训练神经网络的样本和验证神经网络的样本独立同分布,且一般不会参与后续对神经网络的训练;在样本数量要求上,用于优化个体的样本一般占总样本量的10%~15%左右。在具体评估种群的个体时,可以根据种群的数量和评估时间来决定是否采用单进程或多进程,甚至分布式的多进程来加速评估的运算;若样本总量原本很大,深度学习的模型规模也很大,同时超参数的种群数量也很大,则可以采用分布式的多台机器来同时评估种群内的个体。最终,可以将每一轮训练结束后已训练神经网络的性能作为个体的评估参数并予以记录。
S2,若某一轮训练后已训练神经网络的性能低于预设的性能阈值,则淘汰某一轮训练时所用个体。
其中,预设的性能阈值包括固定的阈值或者上一轮训练后已训练神经网络的最低性能值。例如,可以设置一个固定的阈值作为第一轮训练后已训练神经网络的性能的评估标准,即,第一轮训练后已训练神经网络的性能低于这个固定的阈值,则淘汰第一轮训练时所用的个体。如前所述,由于记录了每一轮训练结束后已训练神经网络的性能,因此,若本轮训练后已训练神经网络的性能低于上一轮训练后已训练神经网络的最低性能值,则淘汰本轮训练时所用个体。
S1032,保留经淘汰后种群中的相对较优个体。
如前所述,每一轮训练结束后,就会对种群内的个体进行一次淘汰。个体淘汰后,可以从种群中得到多个相对较优个体并将其保留起来。
S1033,通过选择、交叉和变异进化经步骤S1032保留下来的相对较优个体,并以进化后得到的相对较优个体重复上述对个体淘汰和保留的过程,直至过程结束时将保留下来的一个最优个体作为一组进化的基因序列。
步骤S1031至步骤S1033是一个反复循环迭代的过程,每一次对个体的淘汰,会得到一些相对较优个体,而通过对这些相对较优个体选择、交叉和变异的方式进化,在过程结束时所保留下来的一个最优个体就是一组进化的基因序列。至于过程结束的条件,可以是最优个体能够使得神经网络模型性能满足预设的要求,也可以是循环迭代这个过程指定的迭代次数完成。
需要说明的是,为了防止陷入局部最优解,在本发明实施例中,可采用轮盘赌选择法对经步骤S1032保留下来的相对较优个体进行选择,从而使得每个合适的基因序列都有一定的概率被选中。至于对选择之后的个体进行交叉和变异,则方法同现有的遗传算法中的交叉和变异,不做赘述。
S104,将经步骤S103得到的一组进化的基因序列中的基因序列映射为相应的神经网络超参数,得到一组符合要求的神经网络超参数。
具体地,步骤S104的实现过程可以是按照映射函数将一组最优基因序列中每个基因序列映射为相应的神经网络超参数,得到一组符合要求的神经网络超参数,其中,x为一组进化的基因序列中的基因序列,max为一组进化的基因序列中每个基因序列对应的超参数的最大取值,min为所述一组进化的基因序列中每个基因序列对应的超参数的最小取值,c为一组进化的基因序列中每个基因序列的二进制的位数,y为x映射后得到的符合预设要求的神经网络超参数。
从上述附图1示例的选择神经网络超参数的方法可知,一方面,由于选择神经网络超参数的方法的每一步都是经过定量计算的过程,并不依赖于研发人员的经验和能力,因此,超参数的选择的人力成本显著降低,选择出来的超参数更合理、准确;另一方面,通过优化基因序列,最后所得进化的基因序列,其训练出的神经网络的性能也会显著优化。
图2是本发明实施例提供的选择神经网络超参数的装置的示意图,主要包括初始化模块201、转换模块202、优化模块203和映射模块204,详细说明如下:
初始化模块201,用于初始化待求解神经网络超参数;
转换模块202,用于将初始化后的待求解神经网络超参数二进制化为若干组基因序列;
优化模块203,用于通过优化若干组基因序列直至得到一组进化的基因序列;
映射模块204,用于将一组进化的基因序列中的基因序列映射为相应的神经网络超参数,得到一组符合要求的神经网络超参数。
需要说明的是,本发明实施例提供的装置,由于与本发明方法实施例基于同一构思,其带来的技术效果与本发明方法实施例相同,具体内容可参见本发明方法实施例中的叙述,此处不再赘述。
附图2示例的初始化模块201可以包括解空间转化单元301和取值单元302,如附图3示例的选择神经网络超参数的装置,其中:
解空间转化单元301,用于若待求解神经网络超参数的解空间为无穷解空间,则根据精度要求将无穷解空间转化为有限解空间;
取值单元302,用于在有限解空间随机取若干数值作为初始化待求解神经网络超参数的若干初始值。
附图2示例的装置中,启发式算法包括遗传算法,若干组基因序列中的每组基因序列视为遗传算法中种群的个体,附图2示例的优化模块203可以包括淘汰单元401、保存单元402和进化单元403,如附图4示例的选择神经网络超参数的装置,其中:
淘汰单元401,用于通过以个体对应的神经网络超参数作为训练神经网络时所用超参数训练神经网络,对个体进行淘汰;
保存单元402,用于保留经淘汰后种群中的相对较优个体;
进化单元403,用于通过选择、交叉和变异进化所述相对较优个体;
淘汰单元401和保存单元402以进化单元403进化后得到的相对较优个体分别重复对个体淘汰和保留的过程,直至该过程结束时将保留下来的一个最优个体作为一组进化的基因序列。
附图4示例的淘汰单元401可以包括记录单元501和个体淘汰单元502,如附图5示例的选择神经网络超参数的装置,其中:
记录单元501,用于通过以个体对应的神经网络超参数作为训练神经网络时所用超参数训练神经网络,记录每一轮训练后已训练神经网络的性能;
个体淘汰单元502,用于若某一轮训练后已训练神经网络的性能低于预设的性能阈值,则淘汰该某一轮训练时所用个体,其中,预设的性能阈值包括固定的阈值或者上一轮训练后已训练神经网络的最低性能值。
附图2至5任一示例的映射模块204具体用于按照映射函数将一组进化的基因序列中每个基因序列映射为相应的神经网络超参数,得到一组符合要求的神经网络超参数,其中,x为一组进化的基因序列中的基因序列,max为一组进化的基因序列中每个基因序列对应的超参数的最大取值,min为一组进化的基因序列中每个基因序列对应的超参数的最小取值,c为一组进化的基因序列中每个基因序列的二进制的位数。
图6是本发明一实施例提供的终端设备的结构示意图。如图6所示,该实施例的终端设备6包括:处理器60、存储器61以及存储在存储器61中并可在处理器60上运行的计算机程序62,例如选择神经网络超参数的方法的程序。处理器60执行计算机程序62时实现上述选择神经网络超参数的方法实施例中的步骤,例如图1所示的步骤S101至S104。或者,处理器60执行计算机程序62时实现上述各装置实施例中各模块/单元的功能,例如图2所示初始化模块201、转换模块202、优化模块203和映射模块204的功能。
示例性地,选择神经网络超参数的方法的计算机程序62主要包括:初始化待求解神经网络超参数;将初始化后的待求解神经网络超参数二进制化为若干组基因序列;通过优化若干组基因序列直至得到一组进化的基因序列;将一组进化的基因序列中的基因序列映射为相应的神经网络超参数,得到一组符合要求的神经网络超参数。计算机程序62可以被分割成一个或多个模块/单元,一个或者多个模块/单元被存储在存储器61中,并由处理器60执行,以完成本发明。一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述计算机程序62在计算设备6中的执行过程。例如,计算机程序62可以被分割成初始化模块201、转换模块202、优化模块203和映射模块204的功能(虚拟装置中的模块),各模块具体功能如下:初始化模块201,用于初始化待求解神经网络超参数;转换模块202,用于将初始化后的待求解神经网络超参数二进制化为若干组基因序列;优化模块203,用于通过优化若干组基因序列直至得到一组进化的基因序列;映射模块204,用于将一组进化的基因序列中的基因序列映射为相应的神经网络超参数,得到一组符合要求的神经网络超参数。
终端设备6可包括但不仅限于处理器60、存储器61。本领域技术人员可以理解,图6仅仅是终端设备6的示例,并不构成对终端设备6的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如终端设备还可以包括输入输出设备、网络接入设备、总线等。
所称处理器60可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器61可以是终端设备6的内部存储单元,例如终端设备6的硬盘或内存。存储器61也可以是终端设备6的外部存储设备,例如终端设备6上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,存储器61还可以既包括终端设备6的内部存储单元也包括外部存储设备。存储器61用于存储计算机程序以及终端设备所需的其他程序和数据。存储器61还可以用于暂时地存储已经输出或者将要输出的数据。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述***中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的实施例中,应该理解到,所揭露的装置/终端设备和方法,可以通过其它的方式实现。例如,以上所描述的装置/终端设备实施例仅仅是示意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,选择神经网络超参数的方法的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤,即,初始化待求解神经网络超参数;将初始化后的待求解神经网络超参数二进制化为若干组基因序列;通过优化若干组基因序列直至得到一组进化的基因序列;将一组进化的基因序列中的基因序列映射为相应的神经网络超参数,得到一组符合要求的神经网络超参数。其中,计算机程序包括计算机程序代码,计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括:能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,RandomAccess Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。
Claims (12)
1.一种选择神经网络超参数的方法,其特征在于,所述方法包括:
初始化待求解神经网络超参数;
将所述初始化后的待求解神经网络超参数二进制化为若干组基因序列;
通过优化所述若干组基因序列直至得到一组进化的基因序列;
将所述一组进化的基因序列中的基因序列映射为相应的神经网络超参数,得到一组符合要求的神经网络超参数。
2.如权利要求1所述的选择神经网络超参数的方法,其特征在于,所述初始化待求解神经网络超参数,包括:
若所述待求解神经网络超参数的解空间为无穷解空间,则根据精度要求将所述无穷解空间转化为有限解空间;
在所述有限解空间随机取若干数值作为所述初始化待求解神经网络超参数的若干初始值。
3.如权利要求1所述的选择神经网络超参数的方法,其特征在于,所述若干组基因序列中的每组基因序列视为所述遗传算法中种群的个体,所述通过优化所述若干组基因序列,直至得到一组进化的基因序列,包括:
通过以所述个体对应的神经网络超参数作为训练神经网络时所用超参数训练神经网络,对所述个体进行淘汰;
保留经淘汰后所述种群中的相对较优个体;
通过选择、交叉和变异进化所述相对较优个体,并以所述进化后得到的相对较优个体重复上述对个体淘汰和保留的过程,直至所述过程结束时将保留下来的一个最优个体作为所述一组进化的基因序列。
4.如权利要求3所述的选择神经网络超参数的方法,其特征在于,所述通过以所述个体对应的神经网络超参数作为训练神经网络时所用超参数训练神经网络,对所述个体进行淘汰,包括:
通过以所述个体对应的神经网络超参数作为训练神经网络时所用超参数训练神经网络,记录每一轮训练后已训练神经网络的性能;
若某一轮训练后已训练神经网络的性能低于预设的性能阈值,则淘汰所述某一轮训练时所用个体,所述预设的性能阈值包括固定的阈值或者上一轮训练后已训练神经网络的最低性能值。
5.如权利要求1至4任意一项所述的选择神经网络超参数的方法,其特征在于,所述将所述一组进化的基因序列中的基因序列映射为相应的神经网络超参数,得到一组符合要求的神经网络超参数,包括:
按照映射函数将所述一组进化的基因序列中每个基因序列映射为相应的神经网络超参数,得到一组符合预设要求的神经网络超参数,所述x为所述一组进化的基因序列中的基因序列,所述max为所述一组进化的基因序列中每个基因序列对应的超参数的最大取值,所述min为所述一组进化的基因序列中每个基因序列对应的超参数的最小取值,所述c为所述一组进化的基因序列中每个基因序列的二进制的位数。
6.一种选择神经网络超参数的装置,其特征在于,所述装置包括:
初始化模块,用于初始化待求解神经网络超参数;
转换模块,用于将所述初始化后的待求解神经网络超参数二进制化为若干组基因序列;
优化模块,用于通过优化所述若干组基因序列直至得到一组进化的基因序列;
映射模块,用于将所述一组进化的基因序列中的基因序列映射为相应的神经网络超参数,得到一组符合要求的神经网络超参数。
7.如权利要求6所述的选择神经网络超参数的装置,其特征在于,所述初始化模块包括:
解空间转化单元,用于若所述待求解神经网络超参数的解空间为无穷解空间,则根据精度要求将所述无穷解空间转化为有限解空间;
取值单元,用于在所述有限解空间随机取若干数值作为所述初始化待求解神经网络超参数的若干初始值。
8.如权利要求6所述的选择神经网络超参数的装置,其特征在于,所述若干组基因序列中的每组基因序列视为所述遗传算法中种群的个体,所述优化模块包括:
淘汰单元,用于通过以所述个体对应的神经网络超参数作为训练神经网络时所用超参数训练神经网络,对所述个体进行淘汰;
保存单元,用于保留经淘汰后所述种群中的相对较优个体;
进化单元,用于通过选择、交叉和变异进化所述相对较优个体;
所述淘汰单元和所述保存单元以所述进化单元进化后得到的相对较优个体分别重复上述对个体淘汰和保留的过程,直至所述过程结束时将保留下来的一个最优个体作为所述一组进化的基因序列。
9.如权利要求8所述的选择神经网络超参数的装置,其特征在于,所述淘汰单元包括:
记录单元,用于通过以所述个体对应的神经网络超参数作为训练神经网络时所用超参数训练神经网络,记录每一轮训练后已训练神经网络的性能;
个体淘汰单元,用于若某一轮训练后已训练神经网络的性能低于预设的性能阈值,则淘汰所述某一轮训练时所用个体,所述预设的性能阈值包括固定的阈值或者上一轮训练后已训练神经网络的最低性能值。
10.如权利要求6至9任意一项所述的选择神经网络超参数的装置,其特征在于,所述映射模块具体用于按照映射函数将所述一组进化的基因序列中每个基因序列映射为相应的神经网络超参数,得到一组符合预设要求的神经网络超参数,所述x为所述一组进化的基因序列中的基因序列,所述max为所述一组进化的基因序列中每个基因序列对应的超参数的最大取值,所述min为所述一组进化的基因序列中每个基因序列对应的超参数的最小取值,所述c为所述一组进化的基因序列中每个基因序列的二进制的位数。
11.一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至5任意一项所述方法的步骤。
12.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5任意一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810203061.6A CN108446534A (zh) | 2018-03-13 | 2018-03-13 | 选择神经网络超参数的方法、装置和计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810203061.6A CN108446534A (zh) | 2018-03-13 | 2018-03-13 | 选择神经网络超参数的方法、装置和计算机可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108446534A true CN108446534A (zh) | 2018-08-24 |
Family
ID=63194737
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810203061.6A Pending CN108446534A (zh) | 2018-03-13 | 2018-03-13 | 选择神经网络超参数的方法、装置和计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108446534A (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109783412A (zh) * | 2019-01-18 | 2019-05-21 | 电子科技大学 | 一种深度强化学习加速训练的方法 |
CN109934348A (zh) * | 2018-09-04 | 2019-06-25 | 中国平安人寿保险股份有限公司 | 机器学习模型超参数推断方法及装置、介质、电子设备 |
CN110889450A (zh) * | 2019-11-27 | 2020-03-17 | 腾讯科技(深圳)有限公司 | 超参数调优、模型构建方法和装置 |
CN111027579A (zh) * | 2018-10-10 | 2020-04-17 | 百度在线网络技术(北京)有限公司 | 超参数的确定方法、装置、设备和介质 |
CN111105029A (zh) * | 2018-10-29 | 2020-05-05 | 北京地平线机器人技术研发有限公司 | 神经网络的生成方法、生成装置和电子设备 |
CN111220921A (zh) * | 2020-01-08 | 2020-06-02 | 重庆邮电大学 | 基于改进卷积-长短时记忆神经网络的锂电池容量估算方法 |
CN111260077A (zh) * | 2020-01-14 | 2020-06-09 | 支付宝(杭州)信息技术有限公司 | 一种确定业务处理模型超参数的方法和装置 |
WO2020259502A1 (zh) * | 2019-06-27 | 2020-12-30 | 腾讯科技(深圳)有限公司 | 神经网络模型的生成方法及装置、计算机可读存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103593703A (zh) * | 2013-11-26 | 2014-02-19 | 上海电机学院 | 基于遗传算法的神经网络优化***及方法 |
CN105279555A (zh) * | 2015-10-28 | 2016-01-27 | 清华大学 | 一种基于进化算法的自适应学习神经网络实现方法 |
CN106897744A (zh) * | 2017-02-27 | 2017-06-27 | 郑州云海信息技术有限公司 | 一种自适应设置深度置信网络参数的方法及*** |
-
2018
- 2018-03-13 CN CN201810203061.6A patent/CN108446534A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103593703A (zh) * | 2013-11-26 | 2014-02-19 | 上海电机学院 | 基于遗传算法的神经网络优化***及方法 |
CN105279555A (zh) * | 2015-10-28 | 2016-01-27 | 清华大学 | 一种基于进化算法的自适应学习神经网络实现方法 |
CN106897744A (zh) * | 2017-02-27 | 2017-06-27 | 郑州云海信息技术有限公司 | 一种自适应设置深度置信网络参数的方法及*** |
Non-Patent Citations (2)
Title |
---|
EMMANUEL DUFOURQ等: "EDEN: Evolutionary Deep Networks for Efficient Machine Learning", 《ARXIV》 * |
闫晶等: "图书馆数字资源聚合质量预测模型构建——基于改进遗传算法和BP神经网络", 《DATA ANALYSIS AND KNOWLEDGE DISCOVERY》 * |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109934348A (zh) * | 2018-09-04 | 2019-06-25 | 中国平安人寿保险股份有限公司 | 机器学习模型超参数推断方法及装置、介质、电子设备 |
CN109934348B (zh) * | 2018-09-04 | 2024-04-23 | 中国平安人寿保险股份有限公司 | 机器学习模型超参数推断方法及装置、介质、电子设备 |
CN111027579A (zh) * | 2018-10-10 | 2020-04-17 | 百度在线网络技术(北京)有限公司 | 超参数的确定方法、装置、设备和介质 |
CN111105029A (zh) * | 2018-10-29 | 2020-05-05 | 北京地平线机器人技术研发有限公司 | 神经网络的生成方法、生成装置和电子设备 |
CN111105029B (zh) * | 2018-10-29 | 2024-04-16 | 北京地平线机器人技术研发有限公司 | 神经网络的生成方法、生成装置和电子设备 |
CN109783412A (zh) * | 2019-01-18 | 2019-05-21 | 电子科技大学 | 一种深度强化学习加速训练的方法 |
CN109783412B (zh) * | 2019-01-18 | 2022-04-22 | 电子科技大学 | 一种深度强化学习加速训练的方法 |
WO2020259502A1 (zh) * | 2019-06-27 | 2020-12-30 | 腾讯科技(深圳)有限公司 | 神经网络模型的生成方法及装置、计算机可读存储介质 |
CN110889450A (zh) * | 2019-11-27 | 2020-03-17 | 腾讯科技(深圳)有限公司 | 超参数调优、模型构建方法和装置 |
CN110889450B (zh) * | 2019-11-27 | 2023-08-11 | 腾讯科技(深圳)有限公司 | 超参数调优、模型构建方法和装置 |
CN111220921A (zh) * | 2020-01-08 | 2020-06-02 | 重庆邮电大学 | 基于改进卷积-长短时记忆神经网络的锂电池容量估算方法 |
CN111260077A (zh) * | 2020-01-14 | 2020-06-09 | 支付宝(杭州)信息技术有限公司 | 一种确定业务处理模型超参数的方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108446534A (zh) | 选择神经网络超参数的方法、装置和计算机可读存储介质 | |
CN110647920A (zh) | 机器学习中的迁移学习方法及装置、设备与可读介质 | |
RU2586864C2 (ru) | Способ и устройство для локального правила состязательного обучения, которое приводит к разреженной связности | |
CN109785928A (zh) | 诊疗方案推荐方法、装置及存储介质 | |
CN106960219A (zh) | 图片识别方法及装置、计算机设备及计算机可读介质 | |
CN107992401A (zh) | 性能测试评价方法、装置、终端设备及存储介质 | |
CN108171280A (zh) | 一种分类器构建方法及预测分类的方法 | |
CN108205707A (zh) | 生成深度神经网络的方法、装置和计算机可读存储介质 | |
CN106796533A (zh) | 自适应地选择执行模式的***和方法 | |
CN108154232A (zh) | 人工神经网络的剪枝方法、装置、设备及可读存储介质 | |
CN107783998A (zh) | 一种数据处理的方法以及装置 | |
CN109784377A (zh) | 多重识别模型构建方法、装置、计算机设备及存储介质 | |
CN116644804B (zh) | 分布式训练***、神经网络模型训练方法、设备和介质 | |
CN108229536A (zh) | 分类预测模型的优化方法、装置及终端设备 | |
CN107392307A (zh) | 并行化时序数据的预测方法 | |
CN115510042A (zh) | 基于生成对抗网络的电力***负荷数据填补方法及装置 | |
CN106295670A (zh) | 数据处理方法及数据处理装置 | |
CN110348563A (zh) | 神经网络半监督训练方法、装置、服务器及存储介质 | |
CN108595815A (zh) | 人工智能体训练***及无源电路优化设计***及方法 | |
CN108256626A (zh) | 时间序列的预测方法及装置 | |
CN113516275A (zh) | 一种配电网超短期负荷预测方法、装置及终端设备 | |
CN107886163A (zh) | 基于agn及cnn的单目标优化问题寻优方法及装置 | |
CN109344877B (zh) | 一种样本数据处理方法、样本数据处理装置及电子设备 | |
CN113449968B (zh) | 一种基于深度学习的新能源电网频率风险评估方法及装置 | |
CN111666991A (zh) | 基于卷积神经网络的模式识别方法、装置和计算机设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180824 |
|
RJ01 | Rejection of invention patent application after publication |