CN108229647A - 神经网络结构的生成方法和装置、电子设备、存储介质 - Google Patents

神经网络结构的生成方法和装置、电子设备、存储介质 Download PDF

Info

Publication number
CN108229647A
CN108229647A CN201710718042.2A CN201710718042A CN108229647A CN 108229647 A CN108229647 A CN 108229647A CN 201710718042 A CN201710718042 A CN 201710718042A CN 108229647 A CN108229647 A CN 108229647A
Authority
CN
China
Prior art keywords
network
neural network
sampling
layer
block
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710718042.2A
Other languages
English (en)
Inventor
钟钊
闫俊杰
刘成林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sensetime Technology Development Co Ltd
Original Assignee
Beijing Sensetime Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sensetime Technology Development Co Ltd filed Critical Beijing Sensetime Technology Development Co Ltd
Priority to CN201710718042.2A priority Critical patent/CN108229647A/zh
Publication of CN108229647A publication Critical patent/CN108229647A/zh
Priority to KR1020207005617A priority patent/KR102170105B1/ko
Priority to SG11201912129TA priority patent/SG11201912129TA/en
Priority to JP2020508039A priority patent/JP6811894B2/ja
Priority to PCT/CN2018/100914 priority patent/WO2019034129A1/zh
Priority to US16/200,140 priority patent/US11270190B2/en
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Feedback Control In General (AREA)
  • Image Analysis (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明实施例公开了一种神经网络结构的生成方法和装置、电子设备、存储介质,包括:对神经网络结构进行采样,生成网络块,所述网络块中包括至少一个网络层;基于所述网络块构建采样神经网络;基于样本数据对所述采样神经网络进行训练,并得到所述采样神经网络对应的准确度;响应于所述准确度中不满足预设条件,根据所述准确度再次生成新的网络块,直至新的网络块构建的采样神经网络满足预设条件,将满足预设条件的采样神经网络作为目标神经网络。本发明实施例基于样本数据通过强化学习生成神经网络中的网络块,使生成的网络块构建的神经网络对样本数据对应的任务和/或数据的准确度能到达预期,降低了网络结构设计的成本和时间。

Description

神经网络结构的生成方法和装置、电子设备、存储介质
技术领域
本发明涉及人工智能技术,尤其是一种神经网络结构的生成方法和装置、电子设备、计算机存储介质。
背景技术
神经网络是一种通过模仿动物神经网络行为特征进行分布式并行信息处理的算法数学模型。随着计算机视觉技术的发展,由于神经网络属于图像识别***中的核心技术,神经网络已被广泛应用于安全监控、金融、乃至无人驾驶等技术领域。针对不同的任务或不同应用场景,需要的神经网络的结构和参数存在区别。
神经网络中的网络层数量和网络参数较多,尤其针对复杂的计算任务,神经网络的网络层数量和网络参数更为复杂,针对不同任务或不同应用场景均需要单独设计相应的神经网络结构,需要的工作量较大,时间较长。
发明内容
本发明实施例提供一种神经网络结构的生成的技术方案。
本发明实施例提供的一种神经网络结构的生成方法,包括:
对神经网络结构进行采样,生成网络块,所述网络块中包括至少一个网络层;
基于所述网络块构建采样神经网络;
基于样本数据对所述采样神经网络进行训练,并得到所述采样神经网络对应的准确度;
响应于所述准确度中不满足预设条件,根据所述准确度再次生成新的网络块,直至新的网络块构建的采样神经网络满足预设条件,将满足预设条件的采样神经网络作为目标神经网络。
在基于本发明上述各方法的另一个实施例中,对神经网络结构进行采样,生成网络块,包括:
基于一个概率向量对神经网络结构进行采样,获得至少一种网络层、所述至少一种网络层对应的网络参数和所述至少一种网络层之间的连接方式,由所述至少一种网络层堆叠构成一种网络块。
在基于本发明上述各方法的另一个实施例中,所述网络层包括以下任意一种或多种:
卷积层、最大池化层、平均池化层、特性层、特征叠加层和连接层。
在基于本发明上述各方法的另一个实施例中,由所述至少一种网络层堆叠构成一种网络块,包括:
分析采样获得的网络层,得到各所述网络层的类型、各种类型所述网络层的数量、和各所述网络层的连接顺序;
将获得的网络层按照各网络层对应的连接顺序,通过各所述网络层之间的连接关系连接构成一种网络块。
在基于本发明上述各方法的另一个实施例中,所述根据所述准确度再次生成新的网络块,包括:
根据所述采样神经网络对应的准确度调整对神经网络结构进行采样的概率向量,通过调整后的概率向量对神经网络结构采样,生成新的一种网络块。
在基于本发明上述各方法的另一个实施例中,基于样本数据对所述采样神经网络进行训练,包括:
利用所述采样神经网络对所述样本数据进行处理,获得处理结果;
利用损失函数,计算所述样本数据标注的监督信息与所述处理结果之间的误差值;所述样本数据标注有监督信息;
基于所述误差值对所述采样神经网络进行训练,直至所述采样神经网络满足收敛条件。
在基于本发明上述各方法的另一个实施例中,基于所述误差值对所述采样神经网络进行训练,直至所述采样神经网络满足收敛条件,包括:
响应于所述损失函数的收敛速度大于或等于预设值,根据获得的误差值,通过反向梯度算法调整所述采样神经网络中的参数,得到调整后的采样神经网络;直到调整后的神经网络对应的损失函数的收敛速度小于预设值。
在基于本发明上述各方法的另一个实施例中,基于所述误差值对所述采样神经网络进行训练,直至所述采样神经网络满足收敛条件,包括:
响应于所述损失函数计算误差值的次数小于预设值,根据获得误差值,通过反向梯度算法调整所述采样神经网络中的参数,得到调整后的采样神经网络,并对所述损失函数计算误差值的次数加一;
直到调整后的神经网络对应的损失函数计算误差值的次数大于或等于预设值。
在基于本发明上述各方法的另一个实施例中,得到所述采样神经网络对应的准确度,包括:
根据训练完成的所述采样神经网络的误差值计算得到所述采样神经网络的预测准确度;
基于所述预测准确度,减掉预设比例的网络计算复杂度和预设比例的网络密度,得到对应所述采样神经网络的准确度;所述网络计算复杂度和所述网络密度对应所述采样神经网络。
在基于本发明上述各方法的另一个实施例中,所述对神经网络结构进行采样,生成网络块,包括:
对神经网络结构进行采样,生成N种网络块,所述N为大于零的整数;
相应的,所述基于所述网络块构建采样神经网络,包括:
分别基于所述N种网络块构建N个采样神经网络;
相应的,所述基于样本数据对所述采样神经网络进行训练,并得到所述采样神经网络对应的准确度,包括:
基于样本数据分别对所述N个采样神经网络进行训练,并得到所述N个采样神经网络对应的N个准确度;
相应的,所述响应于所述准确度中不满足预设条件,根据所述准确度再次生成新的网络块,直至新的网络块构建的采样神经网络满足预设条件,将满足预设条件的采样神经网络作为目标神经网络,包括:
响应于所述N个准确度中不存在满足预设条件的准确度,分别根据所述N个准确度再次生成新的N种网络块,直至新的N种网络块分别构建的N各采样神经网络中存在满足预设条件的神经网络,将满足预设条件的采样神经网络作为目标神经网络。
在基于本发明上述各方法的另一个实施例中,所述得到所述采样神经网络对应的准确度之后,还包括:
响应于所述准确度满足预设条件,将满足预设条件的采样神经网络作为目标神经网络;
或,
响应于所述准确度不满足预设条件,且所述对神经网络结构进行采样已经达到预设次数,则将当前的采样神经网络作为目标神经网络。
根据本发明实施例的一个方面,提供的一种神经网络结构的生成装置,包括:
采样单元,用于对神经网络结构进行采样,生成网络块,所述网络块中包括至少一个网络层;
网络构建单元,用于基于所述网络块构建采样神经网络;
训练单元,用于基于样本数据对所述采样神经网络进行训练,并得到所述采样神经网络对应的准确度;
网络输出单元,用于响应于所述准确度中不满足预设条件,根据所述准确度再次生成新的网络块,直至新的网络块构建的采样神经网络满足预设条件,将满足预设条件的采样神经网络作为目标神经网络。
在基于本发明上述各装置的另一个实施例中,所述采样单元,包括:
概率采样模块,用于基于一个概率向量对神经网络结构进行采样,获得至少一种网络层、所述至少一种网络层对应的网络参数和所述至少一种网络层之间的连接方式;
网络块生成模块,用于由所述至少一种网络层堆叠构成一种网络块。
在基于本发明上述各装置的另一个实施例中,所述网络层包括以下任意一种或多种:
卷积层、最大池化层、平均池化层、特性层、特征叠加层和连接层。
在基于本发明上述各装置的另一个实施例中,所述网络块生成模块,具体用于分析采样获得的网络层,得到各所述网络层的类型、各种类型所述网络层的数量、和各所述网络层的连接顺序;将获得的网络层按照各网络层对应的连接顺序,通过各所述网络层之间的连接关系连接构成一种网络块。
在基于本发明上述各装置的另一个实施例中,所述网络输出单元,具体用于根据所述采样神经网络对应的准确度调整对神经网络结构进行采样的概率向量,通过调整后的概率向量对神经网络结构采样,生成新的一种网络块。
在基于本发明上述各装置的另一个实施例中,所述训练单元,包括:
网络处理模块,用于利用所述采样神经网络对所述样本数据进行处理,获得处理结果;
误差计算模块,用于利用损失函数,计算所述样本数据标注的监督信息与所述处理结果之间的误差值;所述样本数据标注有监督信息;
网络训练模块,用于基于所述误差值对所述采样神经网络进行训练,直至所述采样神经网络满足收敛条件。
在基于本发明上述各装置的另一个实施例中,所述网络训练模块,具体用于:
响应于所述损失函数的收敛速度大于或等于预设值,根据获得的误差值,通过反向梯度算法调整所述采样神经网络中的参数,得到调整后的采样神经网络;直到调整后的神经网络对应的损失函数的收敛速度小于预设值。
在基于本发明上述各装置的另一个实施例中,所述网络训练模块,具体用于:
响应于所述损失函数计算误差值的次数小于预设值,根据获得误差值,通过反向梯度算法调整所述采样神经网络中的参数,得到调整后的采样神经网络,并对所述损失函数计算误差值的次数加一;直到调整后的神经网络对应的损失函数计算误差值的次数大于或等于预设值。
在基于本发明上述各装置的另一个实施例中,所述训练单元,还包括:
准确度预测模块,用于根据训练完成的所述采样神经网络的误差值计算得到所述采样神经网络的预测准确度;
准确度调整模块,用于基于所述预测准确度,减掉预设比例的网络计算复杂度和预设比例的网络密度,得到对应所述采样神经网络的准确度;所述网络计算复杂度和所述网络密度对应所述采样神经网络。
在基于本发明上述各装置的另一个实施例中,所述采样单元,具体用于对神经网络结构进行采样,生成N种网络块,所述N为大于零的整数;
所述网络构建单元,具体用于分别基于所述N种网络块构建N个采样神经网络;
所述训练单元,具体用于基于样本数据分别对所述N个采样神经网络进行训练,并得到所述N个采样神经网络对应的N个准确度;
所述网络输出单元,用于响应于所述N个准确度中不存在满足预设条件的准确度,分别根据所述N个准确度再次生成新的N种网络块,直至新的N种网络块分别构建的N各采样神经网络中存在满足预设条件的神经网络,将满足预设条件的采样神经网络作为目标神经网络。
在基于本发明上述各装置的另一个实施例中,还包括:
目标判断单元,用于响应于所述准确度满足预设条件,将满足预设条件的采样神经网络作为目标神经网络;
或,
用于响应于所述准确度不满足预设条件,且所述对神经网络结构进行采样已经达到预设次数,则将当前的采样神经网络作为目标神经网络。
根据本发明实施例的一个方面,提供的一种电子设备,包括处理器,所述处理器包括如上所述的神经网络结构的生成装置。
根据本发明实施例的一个方面,提供的一种电子设备,包括:存储器,用于存储可执行指令;
以及处理器,用于与所述存储器通信以执行所述可执行指令从而完成如上所述神经网络结构的生成方法的操作。
根据本发明实施例的一个方面,提供的一种计算机存储介质,用于存储计算机可读取的指令,所述指令被执行时执行如上所述神经网络结构的生成方法的操作。
基于本发明上述实施例提供的一种神经网络结构的生成方法和装置、电子设备、计算机存储介质,对神经网络结构进行采样,生成网络块;基于网络块构建采样神经网络;通过采样构建采样神经网络避免了人工设置网络结构;基于样本数据对采样神经网络进行训练,并得到采样神经网络对应的准确度;通过训练使采样神经网络中的参数达到当前结构最佳,能够得到对应该采样神经网络的最佳准确度;响应于准确度中不满足预设条件,根据准确度再次生成新的网络块,直至新的网络块构建的采样神经网络满足预设条件,将满足预设条件的采样神经网络作为目标神经网络;基于样本数据通过强化学习生成的采样神经网络,该采样神经网络对样本数据对应的任务和/或数据的准确度能到达预期,降低了网络结构设计的成本和时间。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
构成说明书的一部分的附图描述了本发明的实施例,并且连同描述一起用于解释本发明的原理。
参照附图,根据下面的详细描述,可以更加清楚地理解本发明,其中:
图1为本发明神经网络结构的生成方法一个实施例的流程图。
图2为本发明实施例中基于网络层构建的一个网络块结构示意图。
图3为本发明实施例中基于网络层构建的另一个网络块结构示意图。
图4为本发明方法构建的分布式***结构示意图。
图5为本发明神经网络结构的生成装置一个实施例的结构示意图。
图6为本发明电子设备一个实施例的结构示意图。
具体实施方式
现在将参照附图来详细描述本发明的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。
同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本发明及其应用或使用的任何限制。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
本发明实施例可以应用于计算机***/服务器,其可与众多其它通用或专用计算***环境或配置一起操作。适于与计算机***/服务器一起使用的众所周知的计算***、环境和/或配置的例子包括但不限于:个人计算机***、服务器计算机***、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的***、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机***、大型计算机***和包括上述任何***的分布式云计算技术环境,等等。
计算机***/服务器可以在由计算机***执行的计算机***可执行指令(诸如程序模块)的一般语境下描述。通常,程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等,它们执行特定的任务或者实现特定的抽象数据类型。计算机***/服务器可以在分布式云计算环境中实施,分布式云计算环境中,任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中,程序模块可以位于包括存储设备的本地或远程计算***存储介质上。
在实现本发明的过程中,发明人发现,现有技术通过人工构造神经网络结构,至少存在以下问题:
构造卷积神经网络的结构需要专家的领域知识,并且还需要大量的尝试,非常的耗时耗钱。如果针对所有特定任务都重新设计卷积神经网络的化,需要大量的投入。人工设计的网络结构并不是最优解。
图1为本发明神经网络结构的生成方法一个实施例的流程图。如图1所示,该实施例方法包括:
步骤101,对神经网络结构进行采样,生成网络块,网络块中包括至少一个网络层。
其中,神经网络结构包括网络层、网络层对应的网络参数、网络层之间的设定连接方式等等,其中,网络层可以包括现有技术中所有种类的网络层,本申请不限制构成网络块的网络层的类型和数量,本发明所指网络层是指用于构建神经网络的能单独实现某功能的单位,如:卷积层、池化层、全连接层等等。
步骤102,基于网络块构建采样神经网络。
其中,神经网络包括至少一个网络块;将网络块作为一个网络子结构,在本发明中,训练的采样神经网络可以预设由K个网络块构成,这K网络块的结构可以是一样的,K为大于等于一的整数。K的值根据实际应用中对训练效率和精度权衡而定。
步骤103,基于样本数据对采样神经网络进行训练,并得到采样神经网络对应的准确度。
步骤104,响应于准确度中不满足预设条件,根据准确度再次生成新的网络块,直至新的网络块构建的采样神经网络满足预设条件,将满足预设条件的采样神经网络作为目标神经网络。
经过训练将得到准确度满足预设条件的目标神经网络,该目标神经网络中的参数经过训练是针对该样本数据的最佳参数,因此,输出的目标神经网络其结构和参数都是适用于该样本数据的,实现了针对特定任务自动设置结构和参数最佳的目标神经网络。
基于本发明上述实施例提供的一种网络训练方法,对神经网络结构进行采样,生成网络块;基于网络块构建采样神经网络;通过采样构建采样神经网络避免了人工设置网络结构;基于样本数据对采样神经网络进行训练,并得到采样神经网络对应的准确度;通过训练使采样神经网络中的参数达到当前结构最佳,能够得到对应该采样神经网络的最佳准确度;响应于准确度中不满足预设条件,根据准确度再次生成新的网络块,直至新的网络块构建的采样神经网络满足预设条件,将满足预设条件的采样神经网络作为目标神经网络;基于样本数据通过强化学习生成的采样神经网络,该采样神经网络对样本数据对应的任务和/或数据的准确度能到达预期,降低了网络结构设计的成本和时间。
本发明神经网络结构的生成方法的另一个实施例,在上述实施例的基础上,操作101,包括:
基于一个概率向量对神经网络结构进行采样,获得至少一种网络层、至少一种网络层对应的网络参数和至少一种网络层之间的连接方式,由至少一种网络层堆叠构成一种网络块。
在本实施例中,由于网络层数据库中包括至少一种网络层,通过对应网络层类型数量的概率向量进行采样,可以采样到至少一种网络层,每个网络层存在对应的网络参数,在采样过程中同时获取对应网络层的网络参数,对于不同网络层,具有其预设的连接方式,在获取网络层的同时,还获取网络层之间的连接方式,其中概率向量中的每个概率值对应一种网络层,当对应某一种网络层的概率值为0时,采样构成的网络块中不包括该种网络层,而根据概率向量中的概率值还能确定采样获得的每种网络层的数量,并不限制为每种网络层采样一个。
在本发明神经网络结构的生成方法上述各实施例的一个具体示例中,网络层包括以下任意一种或多种:
Convolution卷积层、Max Pooling最大池化层、Average Pooling平均池化层、Identity特性层、Elemental Add特征叠加层和concat连接层。
本实施例中列举的以上网络层是为了便于本领域技术人员理解和实现的,并不用于限制本发明,卷积实现的是两个变量在某范围内相乘后求和的结果,卷积层,每层卷积层由若干卷积单元组成,每个卷积单元的参数都是通过反向传播算法优化得到的;卷积运算的目的是提取输入的不同特征,第一层卷积层可能只能提取一些低级的特征如边缘、线条和角等层级,更多层的网络能从低级特征中迭代提取更复杂的特征。Max pooling最大池化层的主要功能是通过对邻域内特征点取最大实现downsampling缩减像素采样,却不会损坏识别结果;Average Pooling平均池化层的主要功能是通过对领域内特征点求平均实现downsampling缩减像素采样,却不会损坏识别结果;Identity特性层的输出等同于它的输入,主要是为了方便对不同网络层进行结合;Elemental Add特征叠加层是将接收的不同网络层的特征相加在一起;concat连接层的主要功能是将接收的不同网络层的特征连接在一起;图2为本发明实施例中基于网络层构建的一个网络块结构示意图。其中包括:Identity特性层、Convolution卷积层、Elemental Add特征叠加层、Max Pooling最大池化层、Average Pooling平均池化层和concat连接层。图3为本发明实施例中基于网络层构建的另一个网络块结构示意图。其中包括:Identity特性层、Convolution卷积层、Elemental Add特征叠加层、Average Pooling平均池化层和concat连接层。由图2和图3所示的网络块结构可知,构成网络块的可以包括部分或全部类型的网络层,并且每种网络层的数量不固定。
在本发明神经网络结构的生成方法上述各实施例的一个具体示例中,由至少一种网络层堆叠构成一种网络块,包括:
分析采样获得的网络层,得到各网络层的类型、各种类型网络层的数量、和各网络层的连接顺序;
将获得的网络层按照各网络层对应的连接顺序,通过各网络层之间的连接关系连接构成一种网络块。
本实施例中为了构建网络块,首先应当确定其包括的所有元素(网络层),确定网络层包括确定类型和数量,已知网络层的类型和数量之后需要确定个网络层的连接顺序和连接关系,具体可以通过设定每个网络层将哪个网络层作为上一个网络层,确定每一个网络层的上一个网络层之后就可以将所有网络层堆叠在一起,构成一个网络块;同样类型和数量的一批网络层,通过不同的堆叠方式可构成多个网络块。
本发明神经网络结构的生成方法的还一个实施例,在上述各实施例的基础上,操作104,包括:
根据采样神经网络对应的准确度调整对神经网络结构进行采样的概率向量,通过调整后的概率向量对神经网络结构采样,生成新的一种网络块。
本实施例中,采用强化学习的方式调整网络块的结构,当神经网络的准确度达不到设定值时,说明这个神经网络结构不够好,返回较低的reward回报,重新进行采样构成新的网络块,再以新的网络块构建神经网络,直到得到准确度达到标准的神经网络。
根据准确度确定神经网络是否达到标准,当该神经网络的准确度达不到设定值时,说明这个神经网络的结构不适用与当前样本数据,而此时神经网络中的参数已经是训练达到最好的,因此,此时需要对网络结构进行调整,而网络结构中可调整的主要是网络块;因此,需要对网络块的结构进行调整,调整网络块的结构可以通过调整网络块中网络层的数量或调整网络块中网络层的连接关系来实现,由于每次对采样的所有网络层已经通过不同连接关系构建了至少一种网络块(各网络块之间:网络层类型和数量相同,网络层的位置和网络层之间的连接关系不同),因此,通过改变采样概率向量,使构成网络块的网络层的数量改变,实现改变网络块的结构。
本发明神经网络结构的生成方法的又一个实施例,在上述各实施例的基础上,操作103基于样本数据对采样神经网络进行训练,包括:
利用采样神经网络对样本数据进行处理,获得处理结果;
利用损失函数,计算样本数据标注的监督信息与处理结果之间的误差值;样本数据标注有监督信息;
基于误差值对采样神经网络进行训练,直至采样神经网络满足收敛条件。
其中,样本数据标注有监督信息,该监督信息是样本数据已知的对应该采样神经网络需要处理的目标结果,监督信息的内容决定训练得到的神经网络的功能。
本实施例中,为了保证构建的神经网络的结构适应于特定的任务数据,需要采用该任务数据对应的样本数据对神经网络进行训练,以识别该神经网络是否能对该任务数据准确的处理,训练神经网络的过程可以采用现有技术中常用的反向梯度算法实现,训练的结果是是神经网络中的参数达到最佳,此时得到的监督信息与处理结果之间的误差值就可以确定该神经网络的准确度,准确度与误差值成反比,误差值越大准确度越小,说明该神经网络对该样本数据的处理效果越差;误差值越小准确度越大,说明该神经网络对该样本数据的处理效果越好。
在本发明神经网络结构的生成方法上述各实施例的一个具体示例中,基于误差值对采样神经网络进行训练,直至采样神经网络满足收敛条件,包括:
响应于损失函数的收敛速度大于或等于预设值,根据获得的误差值,通过反向梯度算法调整采样神经网络中的参数,得到调整后的采样神经网络;直到调整后的神经网络对应的损失函数的收敛速度小于预设值。
在本实施例中,由于不能确定神经网络是否适用于处理该样本数据,因此,收敛条件不能通过设置误差值的大小来实现(有可能存在神经网络无论训练多少次也无法使误差值达到要求),为了使神经网络中的参数达到最佳,需要通过损失函数的收敛速度进行评价,当损失函数的收敛速度降低到预设值以下,说明继续迭代对误差值的影响不大,此时即可结束训练,输出对应的误差值,进一步计算该神经网络对该样本数据的准确度。
在本发明神经网络结构的生成方法上述各实施例的一个具体示例中,基于误差值对采样神经网络进行训练,直至采样神经网络满足收敛条件,包括:
响应于损失函数计算误差值的次数小于预设值,根据获得误差值,通过反向梯度算法调整采样神经网络中的参数,得到调整后的采样神经网络,并对损失函数计算误差值的次数加一;直到调整后的神经网络对应的损失函数计算误差值的次数大于或等于预设值。
本实施例中,为了完成对神经网络的快速训练,设定一个预设值控制迭代次数,当迭代训练的次数达到该预设值,即停止训练,使对神经网络结构的生成速度大大提高。
在本发明神经网络结构的生成方法上述各实施例的一个具体示例中,操作103还包括:
根据训练完成的采样神经网络的误差值计算得到采样神经网络的预测准确度;
基于预测准确度,减掉预设比例的网络计算复杂度和预设比例的网络密度,得到对应采样神经网络的准确度,网络计算复杂度和网络密度对应采样神经网络。
由于上述实施例提出迭代达到设定次数就结束训练,而此时结束训练,得到的准确度必然不是该采样神经网络的最佳准确度,对于准确度的问题,通过本实施例进行修正,具体修正方式可以采用公式(1)实现:
其中,reward为准确度,accuracy为预测准确度,FLOPs是每秒浮点运算次数(亦称每秒峰值速度)是每秒所执行的浮点运算次数(英文:Floating-point operations persecond;缩写:FLOPS)的简称,被用来估算电脑效能,尤其是在使用到大量浮点运算的科学计算领域中,FLOPs做为神经网络的网络计算复杂度时,其理论估算公式可以但不限于公式(2):
其中,nl-1为这一层采样神经网络的输入通道数,nl为这一层采样神经网络的输出通道数,sl为kernel size卷积核的大小,ml为这一层的输出的feature map特征图大小。density为网络密度,是图(数学领域中)的边数除以图的点数,用来度量图的复杂程度。通过公式(1)的修正,得到的准确度即可作为该采样神经网络对应该样本数据的准确度,同时,使用修正的准确度可以迅速地让采样神经网络的准确度收敛至预设条件,提高了网络的训练速度。
本发明神经网络结构的生成方法的再一个实施例,在上述各实施例的基础上,
操作101包括:对神经网络结构进行采样,生成N种网络块,N为大于零的整数。
示例性地,采样过程可以利用一个agent智能体实现,并将N种网络块发送给网络控制器。
操作102包括:分别基于N种网络块构建N个采样神经网络。
示例性地,构建采样神经网络的过程可以通过block list网络控制器实现,网络控制器将N个采样神经网络分别分发给N个训练节点。
操作103包括:基于样本数据分别对N个采样神经网络进行训练,并得到N个采样神经网络对应的N个准确度
示例性地,通过N个env训练节点分别对N个采样神经网络进行训练,每个训练节点接收的样本数据相同或相似(基于从同一训练目标的样本数据集中提取)。操作104包括:响应于N个准确度中不存在满足预设条件的准确度,分别根据N个准确度再次生成新的N种网络块,直至新的N种网络块分别构建的N各采样神经网络中存在满足预设条件的神经网络,将满足预设条件的采样神经网络作为目标神经网络。
示例性地,通过网络控制器将基于N个训练节点获得的N个准确度传输给agent智能体,智能体根据准确度判断该采样神经网络是否为目标神经网络,当该采样神经网络不是目标神经网络时,修正采样概率,获得新的网络块,重新构建新的采样神经网络。
本实施例中,图4为本发明方法构建的分布式***结构示意图。如图4所示,通过构建包括agent智能体、block list网络控制器和至少一个env训练节点的分布式***实现同时训练多个不同神经网络,进而提高神经网络结构的生成速度,节省了训练时间,提高了神经网络训练的效率。
通过对应神经网络的准确度来评价一个神经网络的好坏,当准确度达到设定条件时,可以认为该神经网络是符合要求的,可以对样本数据对应的任务数据进行处理,并得到较好的结果,当然准确度越高说明神经网络对任务数据处理的结果越准确。预设条件可以是:在循环了X次之后,选择N个“采样神经网络”中准确度最高的Y个采样神经网络作为,输出的目标神经网络。
在本发明神经网络结构的生成方法上述各实施例的一个具体示例中,操作103之后,还包括:
响应于准确度满足预设条件,将满足预设条件的采样神经网络作为目标神经网络;
或,
响应于准确度不满足预设条件,且对神经网络结构进行采样已经达到预设次数,则将当前的采样神经网络作为目标神经网络。
在本实施例中,提出了首次通过网络块构成的采样神经网络满足预设条件时,直接将该采样神经网络作为目标神经网络;或在采样达到预设次数时,即将获得的采样神经网络作为目标神经网络,以提高神经网络结构的生成速度。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
图5为本发明神经网络结构的生成装置一个实施例的结构示意图。该实施例的装置可用于实现本发明上述各方法实施例。如图5所示,该实施例的装置包括:
采样单元51,用于对神经网络结构进行采样,生成网络块,网络块中包括至少一个网络层。
网络构建单元52,用于基于网络块构建采样神经网络。
训练单元53,用于基于样本数据对采样神经网络进行训练,并得到采样神经网络对应的准确度。
网络输出单元54,用于响应于准确度中不满足预设条件,根据准确度再次生成新的网络块,直至新的网络块构建的采样神经网络满足预设条件,将满足预设条件的采样神经网络作为目标神经网络。
基于本发明上述实施例提供的一种神经网络结构的生成装置,对神经网络结构进行采样,生成网络块;基于网络块构建采样神经网络;通过采样构建采样神经网络避免了人工设置网络结构;基于样本数据对采样神经网络进行训练,并得到采样神经网络对应的准确度;通过训练使采样神经网络中的参数达到当前结构最佳,能够得到对应该采样神经网络的最佳准确度;响应于准确度中不满足预设条件,根据准确度再次生成新的网络块,直至新的网络块构建的采样神经网络满足预设条件,将满足预设条件的采样神经网络作为目标神经网络;基于样本数据通过强化学习生成的采样神经网络,该采样神经网络对样本数据对应的任务和/或数据的准确度能到达预期,降低了网络结构设计的成本和时间
本发明神经网络结构的生成装置的另一个实施例,在上述实施例的基础上,采样单元51,包括:
概率采样模块,用于基于一个概率向量对神经网络结构进行采样,获得至少一种网络层、至少一种网络层对应的网络参数和至少一种网络层之间的连接方式;
网络块生成模块,用于由至少一种网络层堆叠构成一种网络块。
在本实施例中,由于网络层数据库中包括至少一种网络层,通过对应网络层类型数量的概率向量进行采样,可以采样到至少一种网络层,每个网络层存在对应的网络参数,在采样过程中同时获取对应网络层的网络参数,对于不同网络层,具有其预设的连接方式,在获取网络层的同时,还获取网络层之间的连接方式,其中概率向量中的每个概率值对应一种网络层,当对应某一种网络层的概率值为0时,采样构成的网络块中不包括该种网络层,而根据概率向量中的概率值还能确定采样获得的每种网络层的数量,并不限制为每种网络层采样一个。
在本发明神经网络结构的生成装置上述各实施例的一个具体示例中,网络层包括以下任意一种或多种:
卷积层、最大池化层、平均池化层、特性层、特征叠加层和连接层。
在本发明神经网络结构的生成装置上述各实施例的一个具体示例中,网络块生成模块,具体用于分析采样获得的网络层,得到各网络层的类型、各种类型网络层的数量、和各网络层的连接顺序;将获得的网络层按照各网络层对应的连接顺序,通过各网络层之间的连接关系连接构成一种网络块。
本发明神经网络结构的生成装置的还一个实施例,在上述各实施例的基础上,网络输出单元54,具体用于根据采样神经网络对应的准确度调整对神经网络结构进行采样的概率向量,通过调整后的概率向量对神经网络结构采样,生成新的一种网络块。
本实施例中,采用强化学习的方式调整网络块的结构,当神经网络的准确度达不到设定值时,说明这个神经网络结构不够好,返回较低的reward回报,重新进行采样构成新的网络块,再以新的网络块构建神经网络,直到得到准确度达到标准的神经网络。
本发明神经网络结构的生成装置的又一个实施例,在上述各实施例的基础上,训练单元53,包括:
网络处理模块,用于利用采样神经网络对样本数据进行处理,获得处理结果;
误差计算模块,用于利用损失函数,计算样本数据标注的监督信息与处理结果之间的误差值;样本数据标注有监督信息;
网络训练模块,用于基于误差值对采样神经网络进行训练,直至采样神经网络满足收敛条件。
其中,样本数据标注有监督信息,该监督信息是样本数据已知的对应该采样神经网络需要处理的目标结果,监督信息的内容决定训练得到的神经网络的功能。
本实施例中,为了保证构建的神经网络的结构适应于特定的任务数据,需要采用该任务数据对应的样本数据对神经网络进行训练,以识别该神经网络是否能对该任务数据准确的处理,训练神经网络的过程可以采用现有技术中常用的反向梯度算法实现,训练的结果是是神经网络中的参数达到最佳,此时得到的监督信息与处理结果之间的误差值就可以确定该神经网络的准确度,准确度与误差值成反比,误差值越大准确度越小,说明该神经网络对该样本数据的处理效果越差;误差值越小准确度越大,说明该神经网络对该样本数据的处理效果越好。
在本发明神经网络结构的生成装置上述各实施例的一个具体示例中,网络训练模块,具体用于:
响应于损失函数的收敛速度大于或等于预设值,根据获得的误差值,通过反向梯度算法调整采样神经网络中的参数,得到调整后的采样神经网络;直到调整后的神经网络对应的损失函数的收敛速度小于预设值。
在本发明神经网络结构的生成装置上述各实施例的一个具体示例中,网络训练模块,具体用于:
响应于损失函数计算误差值的次数小于预设值,根据获得误差值,通过反向梯度算法调整采样神经网络中的参数,得到调整后的采样神经网络,并对损失函数计算误差值的次数加一;直到调整后的神经网络对应的损失函数计算误差值的次数大于或等于预设值。
在本发明神经网络结构的生成装置上述各实施例的一个具体示例中,训练单元,还包括:
准确度预测模块,用于根据训练完成的采样神经网络的误差值计算得到采样神经网络的预测准确度;
准确度调整模块,用于基于预测准确度,减掉预设比例的网络计算复杂度和预设比例的网络密度,得到对应采样神经网络的准确度;网络计算复杂度和网络密度对应所述采样神经网络。
本发明神经网络结构的生成装置的再一个实施例,在上述各实施例的基础上,
采样单元51,具体用于对神经网络结构进行采样,生成N种网络块,N为大于零的整数;
网络构建单元52,具体用于分别基于N种网络块构建N个采样神经网络;
训练单元53,具体用于基于样本数据分别对N个采样神经网络进行训练,并得到N个采样神经网络对应的N个准确度;
网络输出单元,用于响应于N个准确度中不存在满足预设条件的准确度,分别根据N个准确度再次生成新的N种网络块,直至新的N种网络块分别构建的N各采样神经网络中存在满足预设条件的神经网络,将满足预设条件的采样神经网络作为目标神经网络。
本实施例中,通过构建包括agent智能体、block list网络控制器和至少一个env训练节点的分布式***实现同时训练多个不同神经网络,进而提高神经网络结构的生成速度,节省了训练时间,提高了神经网络训练的效率。
在本发明神经网络结构的生成装置上述各实施例的一个具体示例中,还包括:
目标判断单元,用于响应于准确度满足预设条件,将满足预设条件的采样神经网络作为目标神经网络;
或,用于响应于准确度不满足预设条件,且对神经网络结构进行采样已经达到预设次数,则将当前的采样神经网络作为目标神经网络。
根据本发明实施例的一个方面,提供的一种电子设备,包括处理器,处理器包括本发明神经网络结构的生成装置各实施例中的任意一项。
根据本发明实施例的一个方面,提供的一种电子设备,包括:存储器,用于存储可执行指令;
以及处理器,用于与存储器通信以执行可执行指令从而完成本发明神经网络结构的生成方法各实施例中的任意一项的操作。
根据本发明实施例的一个方面,提供的一种计算机存储介质,用于存储计算机可读取的指令,所述指令被执行时执行本发明神经网络结构的生成方法各实施例中的任意一项的操作。
本发明实施例还提供了一种电子设备,例如可以是移动终端、个人计算机(PC)、平板电脑、服务器等。下面参考图6,其示出了适于用来实现本申请实施例的终端设备或服务器的电子设备600的结构示意图:如图6所示,计算机***600包括一个或多个处理器、通信部等,所述一个或多个处理器例如:一个或多个中央处理单元(CPU)601,和/或一个或多个图像处理器(GPU)613等,处理器可以根据存储在只读存储器(ROM)602中的可执行指令或者从存储部分608加载到随机访问存储器(RAM)603中的可执行指令而执行各种适当的动作和处理。通信部612可包括但不限于网卡,所述网卡可包括但不限于IB(Infiniband)网卡,
处理器可与只读存储器602和/或随机访问存储器630中通信以执行可执行指令,通过总线604与通信部612相连、并经通信部612与其他目标设备通信,从而完成本申请实施例提供的任一项方法对应的操作,例如,对神经网络结构进行采样,生成网络块,网络块中包括至少一个网络层;基于网络块构建采样神经网络;基于样本数据对采样神经网络进行训练,并得到采样神经网络对应的准确度;响应于准确度中不满足预设条件,根据准确度再次生成新的网络块,直至新的网络块构建的采样神经网络满足预设条件,将满足预设条件的采样神经网络作为目标神经网络。
此外,在RAM 603中,还可存储有装置操作所需的各种程序和数据。CPU601、ROM602以及RAM603通过总线604彼此相连。在有RAM603的情况下,ROM602为可选模块。RAM603存储可执行指令,或在运行时向ROM602中写入可执行指令,可执行指令使处理器601执行上述通信方法对应的操作。输入/输出(I/O)接口605也连接至总线604。通信部612可以集成设置,也可以设置为具有多个子模块(例如多个IB网卡),并在总线链接上。
以下部件连接至I/O接口605:包括键盘、鼠标等的输入部分606;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分607;包括硬盘等的存储部分608;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器610上,以便于从其上读出的计算机程序根据需要被安装入存储部分608。
需要说明的,如图6所示的架构仅为一种可选实现方式,在具体实践过程中,可根据实际需要对上述图6的部件数量和类型进行选择、删减、增加或替换;在不同功能部件设置上,也可采用分离设置或集成设置等实现方式,例如GPU和CPU可分离设置或者可将GPU集成在CPU上,通信部可分离设置,也可集成设置在CPU或GPU上,等等。这些可替换的实施方式均落入本发明公开的保护范围。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括有形地包含在机器可读介质上的计算机程序,计算机程序包含用于执行流程图所示的方法的程序代码,程序代码可包括对应执行本申请实施例提供的方法步骤对应的指令,例如,对神经网络结构进行采样,生成网络块,网络块中包括至少一个网络层;基于网络块构建采样神经网络;基于样本数据对采样神经网络进行训练,并得到采样神经网络对应的准确度;响应于准确度中不满足预设条件,根据准确度再次生成新的网络块,直至新的网络块构建的采样神经网络满足预设条件,将满足预设条件的采样神经网络作为目标神经网络。在这样的实施例中,该计算机程序可以通过通信部分609从网络上被下载和安装,和/或从可拆卸介质611被安装。在该计算机程序被中央处理单元(CPU)601执行时,执行本申请的方法中限定的上述功能。
可能以许多方式来实现本发明的方法和装置、设备。例如,可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本发明的方法和装置、设备。用于方法的步骤的上述顺序仅是为了进行说明,本发明的方法的步骤不限于以上具体描述的顺序,除非以其它方式特别说明。此外,在一些实施例中,还可将本发明实施为记录在记录介质中的程序,这些程序包括用于实现根据本发明的方法的机器可读指令。因而,本发明还覆盖存储用于执行根据本发明的方法的程序的记录介质。
本发明的描述是为了示例和描述起见而给出的,而并不是无遗漏的或者将本发明限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本发明的原理和实际应用,并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有各种修改的各种实施例。

Claims (10)

1.一种神经网络结构的生成方法,其特征在于,包括:
对神经网络结构进行采样,生成网络块,所述网络块中包括至少一个网络层;
基于所述网络块构建采样神经网络;
基于样本数据对所述采样神经网络进行训练,并得到所述采样神经网络对应的准确度;
响应于所述准确度不满足预设条件,根据所述准确度再次生成新的网络块,直至新的网络块构建的采样神经网络满足预设条件,将满足预设条件的采样神经网络作为目标神经网络。
2.根据权利要求1所述的方法,其特征在于,对神经网络结构进行采样,生成网络块,包括:
基于一个概率向量对神经网络结构进行采样,获得至少一种网络层、所述至少一种网络层对应的网络参数和所述至少一种网络层之间的连接方式,由所述至少一种网络层堆叠构成一种网络块。
3.根据权利要求1或2所述的方法,其特征在于,所述网络层包括以下任意一种或多种:
卷积层、最大池化层、平均池化层、特性层、特征叠加层和连接层。
4.根据权利要求2或3所述的方法,其特征在于,由所述至少一种网络层堆叠构成一种网络块,包括:
分析采样获得的网络层,得到各所述网络层的类型、各种类型所述网络层的数量、和各所述网络层的连接顺序;
将获得的网络层按照各网络层对应的连接顺序,通过各所述网络层之间的连接关系连接构成一种网络块。
5.根据权利要求1-4任一所述的方法,其特征在于,所述根据所述准确度再次生成新的网络块,包括:
根据所述采样神经网络对应的准确度调整对神经网络结构进行采样的概率向量,通过调整后的概率向量对神经网络结构采样,生成新的一种网络块。
6.根据权利要求1-5任一所述的方法,其特征在于,基于样本数据对所述采样神经网络进行训练,包括:
利用所述采样神经网络对所述样本数据进行处理,获得处理结果;
利用损失函数,计算所述样本数据标注的监督信息与所述处理结果之间的误差值;所述样本数据标注有监督信息;
基于所述误差值对所述采样神经网络进行训练,直至所述采样神经网络满足收敛条件。
7.一种神经网络结构的生成装置,其特征在于,包括:
采样单元,用于对神经网络结构进行采样,生成网络块,所述网络块中包括至少一个网络层;
网络构建单元,用于基于所述网络块构建采样神经网络;
训练单元,用于基于样本数据对所述采样神经网络进行训练,并得到所述采样神经网络对应的准确度;
网络输出单元,用于响应于所述准确度中不满足预设条件,根据所述准确度再次生成新的网络块,直至新的网络块构建的采样神经网络满足预设条件,将满足预设条件的采样神经网络作为目标神经网络。
8.一种电子设备,其特征在于,包括处理器,所述处理器包括权利要求7所述的神经网络结构的生成装置。
9.一种电子设备,其特征在于,包括:存储器,用于存储可执行指令;
以及处理器,用于与所述存储器通信以执行所述可执行指令从而完成权利要求1至6任意一项所述神经网络结构的生成方法的操作。
10.一种计算机存储介质,用于存储计算机可读取的指令,其特征在于,所述指令被执行时执行权利要求1至6任意一项所述神经网络结构的生成方法的操作。
CN201710718042.2A 2017-08-18 2017-08-18 神经网络结构的生成方法和装置、电子设备、存储介质 Pending CN108229647A (zh)

Priority Applications (6)

Application Number Priority Date Filing Date Title
CN201710718042.2A CN108229647A (zh) 2017-08-18 2017-08-18 神经网络结构的生成方法和装置、电子设备、存储介质
KR1020207005617A KR102170105B1 (ko) 2017-08-18 2018-08-17 신경 네트워크 구조의 생성 방법 및 장치, 전자 기기, 저장 매체
SG11201912129TA SG11201912129TA (en) 2017-08-18 2018-08-17 Neural network structure generation method and device, electronic equipment and storage medium
JP2020508039A JP6811894B2 (ja) 2017-08-18 2018-08-17 ニューラルネットワーク構造の生成方法および装置、電子機器、ならびに記憶媒体
PCT/CN2018/100914 WO2019034129A1 (zh) 2017-08-18 2018-08-17 神经网络结构的生成方法和装置、电子设备、存储介质
US16/200,140 US11270190B2 (en) 2017-08-18 2018-11-26 Method and apparatus for generating target neural network structure, electronic device, and storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710718042.2A CN108229647A (zh) 2017-08-18 2017-08-18 神经网络结构的生成方法和装置、电子设备、存储介质

Publications (1)

Publication Number Publication Date
CN108229647A true CN108229647A (zh) 2018-06-29

Family

ID=62655197

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710718042.2A Pending CN108229647A (zh) 2017-08-18 2017-08-18 神经网络结构的生成方法和装置、电子设备、存储介质

Country Status (6)

Country Link
US (1) US11270190B2 (zh)
JP (1) JP6811894B2 (zh)
KR (1) KR102170105B1 (zh)
CN (1) CN108229647A (zh)
SG (1) SG11201912129TA (zh)
WO (1) WO2019034129A1 (zh)

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109359727A (zh) * 2018-12-07 2019-02-19 北京字节跳动网络技术有限公司 神经网络的结构确定方法、装置、设备及可读介质
WO2019034129A1 (zh) * 2017-08-18 2019-02-21 北京市商汤科技开发有限公司 神经网络结构的生成方法和装置、电子设备、存储介质
CN109598332A (zh) * 2018-11-14 2019-04-09 北京市商汤科技开发有限公司 神经网络生成方法及装置、电子设备和存储介质
CN109635920A (zh) * 2018-11-12 2019-04-16 北京市商汤科技开发有限公司 神经网络优化方法及装置、电子设备和存储介质
CN109800807A (zh) * 2019-01-18 2019-05-24 北京市商汤科技开发有限公司 分类网络的训练方法及分类方法和装置、电子设备
CN110070029A (zh) * 2019-04-17 2019-07-30 北京易达图灵科技有限公司 一种步态识别方法及装置
CN110070120A (zh) * 2019-04-11 2019-07-30 清华大学 基于判别采样策略的深度度量学习方法及***
CN110110861A (zh) * 2019-05-09 2019-08-09 北京市商汤科技开发有限公司 确定模型超参数及模型训练的方法和装置、存储介质
CN110147883A (zh) * 2019-05-28 2019-08-20 航天科工***仿真科技(北京)有限公司 用于作战仿真的模型的训练方法、装置、设备和存储介质
CN110647990A (zh) * 2019-09-18 2020-01-03 无锡信捷电气股份有限公司 基于灰色关联分析的深度卷积神经网络模型的裁剪方法
CN111105029A (zh) * 2018-10-29 2020-05-05 北京地平线机器人技术研发有限公司 神经网络的生成方法、生成装置和电子设备
CN111105031A (zh) * 2019-11-11 2020-05-05 北京地平线机器人技术研发有限公司 网络结构搜索方法和装置、存储介质、电子设备
CN111222637A (zh) * 2020-01-17 2020-06-02 上海商汤智能科技有限公司 神经网络模型部署方法及装置、电子设备和存储介质
CN111325311A (zh) * 2018-12-14 2020-06-23 深圳云天励飞技术有限公司 神经网络模型生成方法、装置、电子设备及存储介质
CN111797983A (zh) * 2020-05-25 2020-10-20 华为技术有限公司 一种神经网络构建方法以及装置
CN111985644A (zh) * 2020-08-28 2020-11-24 北京市商汤科技开发有限公司 神经网络生成方法及装置、电子设备及存储介质
WO2020237688A1 (zh) * 2019-05-31 2020-12-03 深圳市大疆创新科技有限公司 网络结构搜索的方法及装置、计算机存储介质和计算机程序产品
CN112818788A (zh) * 2021-01-25 2021-05-18 电子科技大学 一种基于无人机集群的分布式卷积神经网络分层匹配方法
CN112990461A (zh) * 2019-12-16 2021-06-18 杭州海康威视数字技术股份有限公司 构建神经网络模型的方法、装置、计算机设备和存储介质
WO2021238568A1 (zh) * 2020-05-26 2021-12-02 华为技术有限公司 一种更新参数的方法、装置及存储介质
CN113873539A (zh) * 2020-06-30 2021-12-31 华为技术有限公司 获取神经网络的方法和装置

Families Citing this family (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018033137A1 (zh) * 2016-08-19 2018-02-22 北京市商汤科技开发有限公司 在视频图像中展示业务对象的方法、装置和电子设备
US10678244B2 (en) 2017-03-23 2020-06-09 Tesla, Inc. Data synthesis for autonomous control systems
US11157441B2 (en) 2017-07-24 2021-10-26 Tesla, Inc. Computational array microprocessor system using non-consecutive data formatting
US10671349B2 (en) 2017-07-24 2020-06-02 Tesla, Inc. Accelerated mathematical engine
US11409692B2 (en) 2017-07-24 2022-08-09 Tesla, Inc. Vector computational unit
US11893393B2 (en) 2017-07-24 2024-02-06 Tesla, Inc. Computational array microprocessor system with hardware arbiter managing memory requests
US11561791B2 (en) 2018-02-01 2023-01-24 Tesla, Inc. Vector computational unit receiving data elements in parallel from a last row of a computational array
US11215999B2 (en) 2018-06-20 2022-01-04 Tesla, Inc. Data pipeline and deep learning system for autonomous driving
US11361457B2 (en) 2018-07-20 2022-06-14 Tesla, Inc. Annotation cross-labeling for autonomous control systems
US11636333B2 (en) 2018-07-26 2023-04-25 Tesla, Inc. Optimizing neural network structures for embedded systems
US11562231B2 (en) 2018-09-03 2023-01-24 Tesla, Inc. Neural networks for embedded devices
SG11202103493QA (en) 2018-10-11 2021-05-28 Tesla Inc Systems and methods for training machine models with augmented data
US11196678B2 (en) 2018-10-25 2021-12-07 Tesla, Inc. QOS manager for system on a chip communications
US11816585B2 (en) 2018-12-03 2023-11-14 Tesla, Inc. Machine learning models operating at different frequencies for autonomous vehicles
US11537811B2 (en) 2018-12-04 2022-12-27 Tesla, Inc. Enhanced object detection for autonomous vehicles based on field view
US11610117B2 (en) 2018-12-27 2023-03-21 Tesla, Inc. System and method for adapting a neural network model on a hardware platform
US10997461B2 (en) 2019-02-01 2021-05-04 Tesla, Inc. Generating ground truth for machine learning from time series elements
US11150664B2 (en) 2019-02-01 2021-10-19 Tesla, Inc. Predicting three-dimensional features for autonomous driving
US11567514B2 (en) 2019-02-11 2023-01-31 Tesla, Inc. Autonomous and user controlled vehicle summon to a target
US10956755B2 (en) 2019-02-19 2021-03-23 Tesla, Inc. Estimating object properties using visual image data
CN109948795B (zh) * 2019-03-11 2021-12-14 驭势科技(北京)有限公司 一种确定网络结构精度和延时优化点的方法和装置
CN110390385B (zh) * 2019-06-28 2021-09-28 东南大学 一种基于bnrp的可配置并行通用卷积神经网络加速器
CN112446462B (zh) * 2019-08-30 2024-06-18 华为技术有限公司 目标神经网络模型的生成方法和装置
CN111325343B (zh) * 2020-02-20 2022-09-09 北京市商汤科技开发有限公司 神经网络的确定、目标检测、智能行驶控制方法及装置
CN111582474B (zh) * 2020-04-24 2023-08-25 中科物栖(南京)科技有限公司 神经网络结构探测方法、结构探测模型的训练方法及装置
CN111783937A (zh) * 2020-05-19 2020-10-16 华为技术有限公司 一种神经网络构建方法以及***
KR102455681B1 (ko) * 2020-12-16 2022-10-18 경북대학교 산학협력단 긴 시퀀스 데이터 내 존재하는 관계 정보를 저장 가능한 분산 연관 메모리 네트워크 시스템
CN116964594A (zh) * 2020-12-16 2023-10-27 华为技术有限公司 一种基于演化学习的神经网络结构搜索方法和***
CN113344181B (zh) * 2021-05-31 2022-10-18 北京市商汤科技开发有限公司 神经网络的结构搜索方法、装置、计算机设备及存储介质
CN113869496A (zh) * 2021-09-30 2021-12-31 华为技术有限公司 一种神经网络的获取方法、数据处理方法以及相关设备

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2880556B2 (ja) 1990-04-25 1999-04-12 松下冷機株式会社 冷蔵庫
JPH04353963A (ja) * 1991-05-30 1992-12-08 Toshiba Corp 神経回路網の構築装置および方法
JPH087483A (ja) 1994-06-14 1996-01-12 Sony Corp ディスク再生装置
JPH0887483A (ja) * 1994-09-16 1996-04-02 Hitachi Ltd ネットワーク合成方法
JP3315890B2 (ja) * 1996-05-31 2002-08-19 株式会社東芝 データ処理システム
CN101726742A (zh) * 2009-12-01 2010-06-09 中国地质大学(北京) 农作物污染胁迫水平遥感测量方法
JP6042274B2 (ja) * 2013-06-28 2016-12-14 株式会社デンソーアイティーラボラトリ ニューラルネットワーク最適化方法、ニューラルネットワーク最適化装置及びプログラム
US9679258B2 (en) 2013-10-08 2017-06-13 Google Inc. Methods and apparatus for reinforcement learning
CN108475345A (zh) * 2015-11-12 2018-08-31 谷歌有限责任公司 生成较大神经网络
CN105701540B (zh) 2016-01-11 2017-12-19 清华大学 一种自生成神经网络构建方法
CN106203330A (zh) * 2016-07-08 2016-12-07 西安理工大学 一种基于卷积神经网络的车辆分类方法
KR102415506B1 (ko) * 2016-10-26 2022-07-01 삼성전자주식회사 뉴럴 네트워크 간소화 방법 및 장치
CN106778902B (zh) * 2017-01-03 2020-01-21 河北工业大学 基于深度卷积神经网络的奶牛个体识别方法
KR101932835B1 (ko) * 2017-02-01 2019-03-20 성균관대학교산학협력단 행동 결정 장치 및 방법, 컴퓨터 판독 가능한 저장 매체
CN108229647A (zh) * 2017-08-18 2018-06-29 北京市商汤科技开发有限公司 神经网络结构的生成方法和装置、电子设备、存储介质
CN109902186B (zh) 2019-03-12 2021-05-11 北京百度网讯科技有限公司 用于生成神经网络的方法和装置

Cited By (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11270190B2 (en) 2017-08-18 2022-03-08 Beijing Sensetime Technology Development Co., Ltd. Method and apparatus for generating target neural network structure, electronic device, and storage medium
WO2019034129A1 (zh) * 2017-08-18 2019-02-21 北京市商汤科技开发有限公司 神经网络结构的生成方法和装置、电子设备、存储介质
CN111105029B (zh) * 2018-10-29 2024-04-16 北京地平线机器人技术研发有限公司 神经网络的生成方法、生成装置和电子设备
CN111105029A (zh) * 2018-10-29 2020-05-05 北京地平线机器人技术研发有限公司 神经网络的生成方法、生成装置和电子设备
CN109635920A (zh) * 2018-11-12 2019-04-16 北京市商汤科技开发有限公司 神经网络优化方法及装置、电子设备和存储介质
CN109635920B (zh) * 2018-11-12 2021-09-03 北京市商汤科技开发有限公司 神经网络优化方法及装置、电子设备和存储介质
CN109598332A (zh) * 2018-11-14 2019-04-09 北京市商汤科技开发有限公司 神经网络生成方法及装置、电子设备和存储介质
CN109598332B (zh) * 2018-11-14 2021-04-09 北京市商汤科技开发有限公司 神经网络生成方法及装置、电子设备和存储介质
CN109359727A (zh) * 2018-12-07 2019-02-19 北京字节跳动网络技术有限公司 神经网络的结构确定方法、装置、设备及可读介质
CN109359727B (zh) * 2018-12-07 2022-01-11 北京字节跳动网络技术有限公司 神经网络的结构确定方法、装置、设备及可读介质
CN111325311A (zh) * 2018-12-14 2020-06-23 深圳云天励飞技术有限公司 神经网络模型生成方法、装置、电子设备及存储介质
CN111325311B (zh) * 2018-12-14 2024-03-29 深圳云天励飞技术有限公司 用于图像识别的神经网络模型生成方法及相关设备
CN109800807A (zh) * 2019-01-18 2019-05-24 北京市商汤科技开发有限公司 分类网络的训练方法及分类方法和装置、电子设备
CN110070120A (zh) * 2019-04-11 2019-07-30 清华大学 基于判别采样策略的深度度量学习方法及***
CN110070120B (zh) * 2019-04-11 2021-08-27 清华大学 基于判别采样策略的深度度量学习方法及***
CN110070029A (zh) * 2019-04-17 2019-07-30 北京易达图灵科技有限公司 一种步态识别方法及装置
CN110110861A (zh) * 2019-05-09 2019-08-09 北京市商汤科技开发有限公司 确定模型超参数及模型训练的方法和装置、存储介质
CN110110861B (zh) * 2019-05-09 2021-11-26 北京市商汤科技开发有限公司 确定模型超参数及模型训练的方法和装置、存储介质
CN110147883A (zh) * 2019-05-28 2019-08-20 航天科工***仿真科技(北京)有限公司 用于作战仿真的模型的训练方法、装置、设备和存储介质
WO2020237688A1 (zh) * 2019-05-31 2020-12-03 深圳市大疆创新科技有限公司 网络结构搜索的方法及装置、计算机存储介质和计算机程序产品
CN110647990A (zh) * 2019-09-18 2020-01-03 无锡信捷电气股份有限公司 基于灰色关联分析的深度卷积神经网络模型的裁剪方法
CN111105031A (zh) * 2019-11-11 2020-05-05 北京地平线机器人技术研发有限公司 网络结构搜索方法和装置、存储介质、电子设备
CN111105031B (zh) * 2019-11-11 2023-10-17 北京地平线机器人技术研发有限公司 网络结构搜索方法和装置、存储介质、电子设备
CN112990461B (zh) * 2019-12-16 2023-09-19 杭州海康威视数字技术股份有限公司 构建神经网络模型的方法、装置、计算机设备和存储介质
CN112990461A (zh) * 2019-12-16 2021-06-18 杭州海康威视数字技术股份有限公司 构建神经网络模型的方法、装置、计算机设备和存储介质
CN111222637A (zh) * 2020-01-17 2020-06-02 上海商汤智能科技有限公司 神经网络模型部署方法及装置、电子设备和存储介质
CN111222637B (zh) * 2020-01-17 2023-11-28 上海商汤智能科技有限公司 神经网络模型部署方法及装置、电子设备和存储介质
CN111797983A (zh) * 2020-05-25 2020-10-20 华为技术有限公司 一种神经网络构建方法以及装置
WO2021238568A1 (zh) * 2020-05-26 2021-12-02 华为技术有限公司 一种更新参数的方法、装置及存储介质
WO2022001822A1 (zh) * 2020-06-30 2022-01-06 华为技术有限公司 获取神经网络的方法和装置
CN113873539A (zh) * 2020-06-30 2021-12-31 华为技术有限公司 获取神经网络的方法和装置
CN111985644B (zh) * 2020-08-28 2024-03-08 北京市商汤科技开发有限公司 神经网络生成方法及装置、电子设备及存储介质
CN111985644A (zh) * 2020-08-28 2020-11-24 北京市商汤科技开发有限公司 神经网络生成方法及装置、电子设备及存储介质
CN112818788B (zh) * 2021-01-25 2022-05-03 电子科技大学 一种基于无人机集群的分布式卷积神经网络分层匹配方法
CN112818788A (zh) * 2021-01-25 2021-05-18 电子科技大学 一种基于无人机集群的分布式卷积神经网络分层匹配方法

Also Published As

Publication number Publication date
JP2020526855A (ja) 2020-08-31
JP6811894B2 (ja) 2021-01-13
WO2019034129A1 (zh) 2019-02-21
US20190095780A1 (en) 2019-03-28
KR20200031163A (ko) 2020-03-23
SG11201912129TA (en) 2020-02-27
KR102170105B1 (ko) 2020-10-26
US11270190B2 (en) 2022-03-08

Similar Documents

Publication Publication Date Title
CN108229647A (zh) 神经网络结构的生成方法和装置、电子设备、存储介质
CN110674714A (zh) 基于迁移学习的人脸和人脸关键点联合检测方法
CN106548192B (zh) 基于神经网络的图像处理方法、装置和电子设备
CN108229479A (zh) 语义分割模型的训练方法和装置、电子设备、存储介质
CN108229591A (zh) 神经网络自适应训练方法和装置、设备、程序和存储介质
CN105488528B (zh) 基于改进自适应遗传算法的神经网络图像分类方法
CN109690576A (zh) 在多个机器学习任务上训练机器学习模型
WO2019111118A1 (en) Robust gradient weight compression schemes for deep learning applications
CN108921283A (zh) 深度神经网络的归一化方法和装置、设备、存储介质
CN107273936A (zh) 一种gan图像处理方法及***
CN108427927A (zh) 目标再识别方法和装置、电子设备、程序和存储介质
CN108628657A (zh) 弹窗处理方法、装置、计算机设备及存储介质
CN108805222A (zh) 一种基于arm平台的深度学习数字手写体识别方法
CN108496188A (zh) 神经网络训练的方法、装置、计算机***和可移动设备
US11568212B2 (en) Techniques for understanding how trained neural networks operate
KR101887267B1 (ko) 부분구조 학습기법과 영상데이터를 이용한 신경망 학습 방법 및 장치
CN109165562A (zh) 神经网络的训练方法、横向控制方法、装置、设备及介质
CN110956263A (zh) 一种二值化神经网络的构建方法、存储介质及终端设备
WO2018084974A1 (en) Convolutional neural network
CN108229648A (zh) 卷积计算方法和装置、电子设备、计算机存储介质
CN111814804B (zh) 基于ga-bp-mc神经网络的人体三维尺寸信息预测方法及装置
CN110298394A (zh) 一种图像识别方法和相关装置
CN115374948A (zh) 量子神经网络的训练方法、数据处理方法、设备及介质
CN114511042A (zh) 一种模型的训练方法、装置、存储介质及电子装置
CN109388135A (zh) 使用深度时空学习的自主操作

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180629