CN110751267A

CN110751267A - 神经网络的结构搜索方法、训练方法、装置及存储介质

Info

Publication number: CN110751267A
Application number: CN201910943886.6A
Authority: CN
Inventors: 李婷; 张钧波; 宋礼; 郑宇�
Original assignee: Jingdong City Beijing Digital Technology Co Ltd
Current assignee: Jingdong City Beijing Digital Technology Co Ltd
Priority date: 2019-09-30
Filing date: 2019-09-30
Publication date: 2020-02-04
Anticipated expiration: 2039-09-30
Also published as: CN110751267B

Abstract

本发明实施例提供了一种神经网络的结构搜索方法、训练方法、装置及存储介质。其中，所述神经网络的结构搜索方法包括：基于预设网络构架，利用结构搜索变量及结构搜索全集对至少一个中间网络层中的各中间网络层进行链接，得到待确定的神经网络的输出；其中，所述预设网络架构包括输入网络层、输出网络层以及至少一个中间网络层；基于所述待确定的神经网络的输出及训练集，确定第一损失函数；基于所述待确定的神经网络的输出及验证集，确定第二损失函数；基于第一损失函数更新所述待确定的神经网络的模型参数；基于第二损失函数更新所述待确定的神经网络的结构参数；利用更新后的模型参数以及更新后的结构参数，确定待确定的神经网络的结构。

Description

神经网络的结构搜索方法、训练方法、装置及存储介质

技术领域

本发明涉及机器学习技术领域，尤其涉及一种神经网络的结构搜索方法、训练方法、装置及存储介质。

背景技术

机器学习(ML，Machine Learning)是人工智能的一个分支，机器学习的目的是让机器根据先验的知识进行学习，从而具有分类和判断的逻辑能力。以神经网络为代表的机器学习模型不断发展，被越来越多地应用到各个行业中。然而，相关技术中神经网络的设计需要结合专家经验，并进行大量的参数调试实验，整个设计过程均需要依赖人工完成，耗时耗力。

发明内容

为解决现有存在的技术问题，本发明实施例提供一种神经网络的结构搜索方法、训练方法、装置及存储介质，能够实现自动搜索出神经网络结构，节省了时间，提高了效率。

本发明实施例提供一种神经网络的结构搜索方法，包括：

基于预设网络构架，利用结构搜索变量及结构搜索全集对至少一个中间网络层中的各中间网络层进行链接，得到待确定的神经网络的输出；其中，所述预设网络架构包括输入网络层、输出网络层以及至少一个中间网络层；

基于所述待确定的神经网络的输出及训练集，确定第一损失函数；基于所述待确定的神经网络的输出及验证集，确定第二损失函数；

基于所述第一损失函数更新所述待确定的神经网络的模型参数；基于所述第二损失函数更新所述待确定的神经网络的结构参数；

利用更新后的模型参数以及更新后的结构参数，确定待确定的神经网络的结构。

上述方案中，所述基于预设网络构架，利用结构搜索变量及结构搜索全集对至少一个中间网络层中的各中间网络层进行链接，得到待确定的神经网络的输出，包括：

利用结构控制器和模型参数控制器，得到当前中间网络层的混合卷积操作的输出；所述混合卷积操作包括多个基本卷积操作；所述结构控制器为所述结构搜索变量所包括的各候选量的权重值；所述模型参数控制器为各基本卷积操作的卷积核对应的权重值；

利用所述结构控制器，得到所述当前中间网络层的混合连接操作的输出；

利用所述混合卷积操作的输出以及所述混合连接操作的输出，得到所述当前中间网络层的输出；

利用所述当前中间网络层的输出，得到所述待确定的神经网络的输出。

上述方案中，所述利用结构控制器和模型参数控制器，得到当前中间网络层的混合卷积操作的输出，包括：

对各基本卷积操作与所述各基本卷积操作对应的权重值的乘积求和，得到当前中间网络层的混合卷积操作的输出；所述结构控制器包括各基本卷积操作对应的权重值；所述基本卷积操作是利用所述模型参数控制器与当前中间网络层的前一层中间网络层的输出得到的。

上述方案中，所述利用所述结构控制器，得到所述当前中间网络层的混合连接操作的输出，包括：

对各基本连接操作与所述各基本连接操作对应的权重值的乘积求和，得到当前中间网络层的混合卷积操作的输出；所述混合连接操作包括多个基本连接操作；所述结构控制器包括各基本连接操作对应的权重值。

上述方案中，所述基于所述第一损失函数更新所述待确定的神经网络的模型参数，包括：

基于所述第一损失函数，利用梯度下降方法，更新所述待确定的神经网络的模型参数；

所述基于所述第二损失函数更新所述待确定的神经网络的结构参数，包括：

基于所述第二损失函数，利用梯度下降方法，更新所述待确定的神经网络的结构参数。

上述方案中，所述利用更新后的模型参数以及更新后的结构参数，确定待确定的神经网络的结构，包括：

循环更新所述模型参数和所述结构参数，直到所述第一损失函数及所述第二损失函数均收敛；

基于所述第一损失函数及所述第二损失函数收敛时的模型参数及结构参数，确定待确定的神经网络的结构。

本发明实施例还提供一种神经网络的结构搜索装置，包括：

第一确定单元，用于基于预设网络构架，利用结构搜索变量及结构搜索全集对至少一个中间网络层中的各中间网络层进行链接，得到待确定的神经网络的输出；其中，所述预设网络架构包括输入网络层、输出网络层以及至少一个中间网络层；

第二确定单元，用于基于所述待确定的神经网络的输出及训练集，确定第一损失函数；基于所述待确定的神经网络的输出及验证集，确定第二损失函数；

更新单元，用于基于所述第一损失函数更新所述待确定的神经网络的模型参数；基于所述第二损失函数更新所述待确定的神经网络的结构参数；

第三确定单元，用于利用更新后的模型参数以及更新后的结构参数，确定待确定的神经网络的结构。

本发明实施例还提供一种神经网络的训练方法，包括：

获取输入数据集；

将所述输入数据集输入到待训练神经网络中，得到所述待训练神经网络的预测值；

基于所述预测值，确定所述待训练神经网络的损失函数；

基于所述损失函数，更新所述待训练神经网络的模型参数；

其中，所述待训练神经网络是基于本发明实施例提供的神经网络的结构搜索方法搜索得到的。

本发明实施例还提供一种神经网络的训练装置，包括：

获取单元，用于获取输入数据集；

预测单元，用于将所述输入数据集输入到待训练神经网络中，得到所述待训练神经网络的预测值；

确定单元，用于基于所述预测值，确定所述待训练神经网络的损失函数；

更新单元，用于基于所述损失函数，更新所述待训练神经网络的模型参数；

本发明实施例还提供一种电子设备，包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现本发明实施例提供的神经网络的结构搜索方法、或实现本发明实施例提供的神经网络的训练方法。

本发明实施例还提供一种存储介质，所述存储介质存储有可执行指令，当所述可执行指令被至少一个处理器执行时，实现本发明实施例提供的神经网络的结构搜索方法、或实现本发明实施例提供的神经网络的训练方法。

本发明实施例提供了一种神经网络的结构搜索方法、训练方法、装置及存储介质。其中，所述神经网络的结构搜索方法包括：基于预设网络构架，利用结构搜索变量及结构搜索全集对至少一个中间网络层中的各中间网络层进行链接，得到待确定的神经网络的输出；其中，所述预设网络架构包括输入网络层、输出网络层以及至少一个中间网络层；基于所述待确定的神经网络的输出及训练集，确定第一损失函数；基于所述待确定的神经网络的输出及验证集，确定第二损失函数；基于所述第一损失函数更新所述待确定的神经网络的模型参数；基于所述第二损失函数更新所述待确定的神经网络的结构参数；利用更新后的模型参数以及更新后的结构参数，确定待确定的神经网络的结构。本发明实施例中，将结构搜索全集链接到了待确定的神经网络的各中间网络层上，以获得能够体现待确定的神经网络的所有可选网络结构方案的输出，之后利用该输出以及训练集对该待确定的神经网络的模型参数进行更新，利用该输出及验证集对该待确定的神经网络的模型参数结构参数的更新，直到找到最优的模型参数及结构参数，最后利用最优的模型参数及结构参数得到待确定的神经网络的结构。如此，能够实现自动搜索出神经网络结构，节省了时间，提高了效率。

附图说明

图1为相关技术中的交通流量预测模型时空残差网络的架构示意图；

图2为本发明实施例提供的神经网络的结构搜索方法的实现流程示意图；

图3为本发明实施例待确定的神经网络的预设网络构架的示意图一；

图4为本发明实施例待确定的神经网络的预设网络构架的示意图二；

图5为本发明实施例混合卷积操作过程的示意图；

图6为本发明实施例混合连接操作过程的示意图；

图7为本发明实施例提出的交通流量预测模型的架构示意图；

图8为本发明实施例提出的交通流量预测模型的结构搜索方法的实现示意图；

图9a为利用本发明实施例的结构搜索方法得到的针对邻近性特性的网络结构NAS-C-Net的示意图；

图9b为利用本发明实施例的结构搜索方法得到的针对周期性特性的网络结构NAS-P-Net的示意图；

图9c为利用本发明实施例的结构搜索方法得到的针对趋势性特性的网络结构NAS-T-Net的示意图；

图10a为利用本发明实施例的结构搜索方法得到的用于预测北京市的出租车流量的网络结构示意图；

图10b为利用本发明实施例的结构搜索方法得到的用于预测宿迁市的人流量的网络结构示意图；

图11为本发明实施例提供的神经网络的结构搜索装置的组成结构示图；

图12为本发明实施例提供的神经网络的训练方法的实现流程示意图；

图13为本发明实施例提供的神经网络的训练装置的组成结构示图；

图14为本发明实施例提供的一种电子设备的硬件结构示意图；

图15a为利用本发明实施例的结构搜索方法得到的模型ST-NASNet与专家设计的网络结构ST-ResNet对于不同的卷积过滤器的均方根误差的比较结果示意图；

图15b为利用本发明实施例的结构搜索方法得到的模型ST-NASNet与专家设计的网络结构ST-ResNet对于不同的卷积过滤器的平均绝对误差的比较结果示意图；

图15c为利用本发明实施例的结构搜索方法得到的模型ST-NASNet与专家设计的网络结构ST-ResNet对于不同的卷积过滤器的平均绝对百分误差的比较结果示意图；

图15d为利用本发明实施例的结构搜索方法得到的模型ST-NASNet与专家设计的网络结构ST-ResNet对于不同的学习率的均方根误差的比较结果示意图；

图15e为利用本发明实施例的结构搜索方法得到的模型ST-NASNet与专家设计的网络结构ST-ResNet对于不同的学***均绝对误差的比较结果示意图；

图15f为利用本发明实施例的结构搜索方法得到的模型ST-NASNet与专家设计的网络结构ST-ResNet对于不同的学***均绝对百分误差的比较结果示意图；

图15g为利用本发明实施例的结构搜索方法得到的模型ST-NASNet与专家设计的网络结构ST-ResNet对于不同的测试集规模的均方根误差的比较结果示意图；

图15h为利用本发明实施例的结构搜索方法得到的模型ST-NASNet与专家设计的网络结构ST-ResNet对于不同的测试集规模的平均绝对误差的比较结果示意图；

图15i为利用本发明实施例的结构搜索方法得到的模型ST-NASNet与专家设计的网络结构ST-ResNet对于不同的测试集规模的平均绝对百分误差的比较结果示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。

相关技术中的神经网络的结构一般依赖相关专业人员的手工设计，并且神经网络的最终确定一般还需要大量的实验来进行相关模型参数的调试，参数调试完成后得到一个网络结构相对固定的神经网络。然而，在人工设计出的神经网络的网络结构相对固定的情况下，这些神经网络并不能对相同输入数据集表征的不同方面的特征有针对性的进行学习，也不能根据不同输入数据集的特点自动对自身的网络结构做出适应性调整。

例如，相关技术中的交通流量预测模型是时空残差网络(ST-ResNet，Spatial-Temporal Residual Network)，ST-ResNet的主要的架构图如图1所示。ST-ResNet能够同时考虑时间的邻近性、周期性和趋势性三个方面的特征，并且还会考虑天气、节假日、赛事等额外影响因素。ST-ResNet利用三个残差网络分别抽取邻近性、周期性和趋势性三个方面的特征；并利用全连接网络抽取额外影响因素的特征，再对这四个方面的特征进行融合，最后实现交通流量的预测。然而，邻近性、周期性和趋势性是从不同的方面对交通流量进行刻画，ST-ResNet采用相同的网络结构，对于不同方面的特征的表征能力不够；同时，不同的输入数据集具有不同的数据分布和规律，如北京的人流量和新疆的人流量数据分布不同，而且稀疏程度不同，此时，对于不同的输入数据集使用相同的网络结构可能导致学习不充分或者过拟合。

基于此，本发明的各实施例中，将结构搜索全集链接到了待确定的神经网络的各中间网络层上，以获得能够体现待确定的神经网络的所有可选网络结构方案的输出，之后利用该输出以及训练集对该待确定的神经网络的模型参数进行更新，利用该输出及验证集对该待确定的神经网络的模型参数结构参数的更新，直到找到最优的模型参数及结构参数，最后利用最优的模型参数及结构参数得到待确定的神经网络的结构。更进一步的，这些搜索得到的神经网络能够对同一输入数据集表征的不同方面的特征有针对性的进行学习，也能够根据不同输入数据集的特点自动对自身的网络结构做出适应性调整。

本发明实施例提供一种神经网络的结构搜索方法，图2为本发明实施例神经网络的结构搜索方法的实现流程示意图。如图2所示，所述方法包括以下步骤：

步骤201：基于预设网络构架，利用结构搜索变量及结构搜索全集对至少一个中间网络层中的各中间网络层进行链接，得到待确定的神经网络的输出；其中，所述预设网络架构包括输入网络层、输出网络层以及至少一个中间网络层；

步骤202：基于所述待确定的神经网络的输出及训练集，确定第一损失函数；基于所述待确定的神经网络的输出及验证集，确定第二损失函数；

步骤203：基于所述第一损失函数更新所述待确定的神经网络的模型参数；基于所述第二损失函数更新所述待确定的神经网络的结构参数；

步骤204：利用更新后的模型参数以及更新后的结构参数，确定待确定的神经网络的结构。

在步骤201中，这里预设的网络构架为待确定的神经网络的预设网络构架。

考虑到一般的神经网络构架包括：输入网络层、中间网络层及输出网络层；其中，所述中间网络层包括至少一个中间网络层；并且当前中间网络层与当前中间网络层的前一层网络层之间通过卷积操作(convolution operation)进行链接；当前中间网络层与当前中间网络层之前的各层网络层之间通过连接操作(skip connection operation)进行链接。这里，当前中间网络层为多个中间网络层中进行结构搜索时正在进行处理的某一个中间网络层。当前中间网络层之前的各层网络层可以包括输入网络层和当前中间网络层之前的中间网络层。

在本申请实施例中，所述待确定的神经网络的预设网络架构均包括：输入网络层、中间网络层及输出网络层；其中，所述中间网络层包括至少一个中间网络层；并且当前中间网络层与当前中间网络层的前一层网络层之间通过混合卷积操作(mix convolutionoperation)进行链接；当前中间网络层与当前中间网络层之前的各层网络层之间通过混合连接操作(mix skip connection operation)进行链接。

需要说明的是：这里，卷积操作可以理解为一种固定的基本卷积操作，连接操作可以理解为一种固定的基本卷积操作；混合卷积操作可以理解为包括多种基本卷积操作可能性的操作，混合连接操作可以理解为包括多种基本连接方式可能性的操作。

如图3为待确定的神经网络的预设网络构架的示意图，该网络构架包括：输入网络层、中间网络层及输出网络层；其中，所述中间网络层包括四层中间网络层。实际应用中，将神经网络包括的中间网络层的层数称为网络层数。图3中的输入表示输入网络层；图3中的1、2、3、4分别表示四层中间网络层，即：第一中间网络层、第二中间网络层、第三中间网络层、第四中间网络层；图3中的输出表示输出网络层。所述四个中间网络层中的当前中间网络层与当前中间网络层的前一层网络层之间通过混合卷积操作进行链接；当前中间网络层与当前中间网络层之前的各层网络层之间通过混合连接操作进行链接。如，进行结构搜索时，当图3中的第三中间网络层作为当前中间网络层时，第三中间网络层与第二中间网络层之间是通过混合卷积操作进行链接的，第三中间网络层与输入网络层、第一中间网络层以及第二中间网络层之间通过混合连接操作进行链接。

需要说明的是：网络层数为超参数，并不属于神经网络的结构搜索变量。实际应用时，网络层数可以根据实际情况进行调整。在本申请实施例的网络构架中以网络层数为四层进行举例说明，但该网络层数不用于限制本发明网络构架中的网络层数。这里，超参数是在开始学习过程之前设置值的参数，而不是通过训练得到的参数数据。

这里，所述结构搜索变量是指待确定的神经网络需要利用结构搜索方法确定出的网络结构参数。根据图3的网络构架，可以看出：针对每个中间网络层需要确定两个结构搜索变量，即第一结构搜索变量和第二结构搜索变量；其中，第一结构搜索变量具体为：多个中间网络层中的当前中间网络层与当前中间网络层的前一层网络层之间具体通过何种基本卷积操作进行链接；第二结构搜索变量具体为：当前中间网络层与当前中间网络层之前的各层网络层具体是如何进行连接操作的。

在确定了结构搜索变量后，需要进一步确定这些结构搜索变量的结构搜索全集，这里结构搜索全集是指结构搜索变量所包括的所有候选量构成的集合。候选量可以具体理解为：对于第一结构搜索变量，候选量为混合卷积操作所包含的所有基本卷积操作；对于第二结构搜索变量，候选量为混合连接操作中包含的所有基本连接操作。

实际应用时，卷积操作的具体类型包括：标准卷积、分离卷积、空洞卷积等；同时，卷积操作的尺寸大小具体包括：1×1、3×3、5×5、7×7等，实际应用时可以根据实际情况选择合适的卷积操作的类型及尺寸。

在一些实施例中，混合卷积操作包括六个基本的卷积操作：标准卷积3×3(standard convolution 3×3)、标准卷积5×5(standard convolution 5×5)、分离卷积3×3(separable convolution 3×3)、分离卷积5×5(separable convolution 5×5)、空洞卷积3×3(dilation convolution 3×3)、空洞卷积5×5(dilation convolution 5×5)。这里，六个基本的卷积操作构成了第一结构搜索变量的结构搜索全集。

在一些实施例中，混合连接操作包括两个基本的连接操作：连接、不连接。这里，两个基本的卷积操作构成了第二结构搜索变量的结构搜索全集。

这里，所述待确定的神经网络的输出是对待确定的神经网络中各中间网络层的所有可能链接方式的加权求和表征。

在一些实施例中，所述基于预设网络构架，利用结构搜索变量及结构搜索全集对所述至少一个中间网络层中的各中间网络层进行链接，得到所述待确定的神经网络的输出，包括：

步骤a1：利用结构控制器和模型参数控制器，得到当前中间网络层的混合卷积操作的输出；所述混合卷积操作包括多个基本卷积操作；所述结构控制器为所述结构搜索变量所包括的各候选量的权重值；所述模型参数控制器为各基本卷积操作的卷积核对应的权重值；

步骤b1：利用所述结构控制器，得到所述当前中间网络层的混合连接操作的输出；

步骤c1：利用所述混合卷积操作的输出以及所述混合连接操作的输出，得到所述当前中间网络层的输出；

步骤d1：利用所述当前中间网络层的输出，得到所述待确定的神经网络的输出。

图4为所述待确定的神经网络预设网络构架的示意图，图4与图3为示例的预设网络构架的不同表现形式。在图4中，中间网络层共有L(L为≥1的正整数)层，当前中间网络层记为第l层中间网络层，则l＝1，2，…,L。

在步骤a1中，所述模型参数控制器为混合卷积操作所包括的各基本卷积操作的卷积核对应的权重值。以下以混合卷积操作包括六个基本卷积操作为例进行说明。

实际应用时，模型参数控制器w_model包括六个基本卷积操作的卷积核对应的权重值，即其中，

表示标准卷积3×3的卷积核的权重值，表示标准卷积5×5的卷积核的权重值，

表示分离卷积3×3的卷积核的权重值，

表示分离卷积5×5的卷积核的权重值，

表示空洞卷积3×3的卷积核的权重值，

表示空洞卷积5×5的卷积核的权重值。而在完成结构搜索后，模型参数控制器中的权重值用来表征对应的基本卷积操作中的各卷积核的重要程度，权重值越大，该权重值对应的基本卷积操作中的相应卷积核越重要。

结构控制器用来表征待确定的神经网络的结构搜索变量所包括的各候选量的权重值。以下以混合卷积操作包括六个基本卷积操作，混合连接操作包括两种基本连接操作为例进行说明。

实际应用时，结构控制器w_arc可以包括卷积控制器(convolution controller)w_p和连接控制器(skip connection controller)w_S两种结构控制器，即w_arc＝{w_p,w_S}。其中，卷积控制器w_p为六个基本卷积操作对应的权重值，在完成结构搜索后，用于控制多个网络层中的当前中间网络层与当前中间网络层的前一层网络层之间具体通过何种基本卷积操作进行链接，即其中：l_p＝L为网络层数，这里L为网络层数，n_p为混合卷积操作中包含的所有基本卷积操作的种类数量，即n_p＝6；连接控制器w_S为两个基本连接操作对应的权重值，在完成结构搜索后，用于控制当前中间网络层与当前中间网络层的前所有层网络层具体是如何进行连接的，即

其中：

为各网络层之间可能产生的连接方式的数量，这里L为网络层数，n_s为混合连接操作中包含的所有基本连接方式的种类数量，即n_s＝2。这里，进行结构搜索时，卷积控制器w_p和连接控制器w_S需要执行全部各可能的链接，即混合卷积操作和混合连接操作。

需要说明的是：混合卷积操作中包含的所有基本卷积操作的种类数量n_p以及混合连接操作中包含的所有基本连接方式的种类数量n_s的具体数量可以根据实际情况作出调整。

需要说明的是：当待确定的神经网络的结构为多个神经网络时，需要多个结构控制器来分别表征多个神经网络的结构搜索变量所包括的各候选量的结构参数的权重值。

这里，对于混合卷积操作的过程仍然以混合卷积操作包括前述的六个基本卷积操作进行说明。

如图5示出了当前中间网络层的前一层网络层与当前中间网络层之间的混合卷积操作过程，即对各基本卷积操作与该基本卷积操作对应的权重值的乘积求和。图5所示的卷积控制器中W₀-W₅分别对应标准卷积3×3、标准卷积5×5、分离卷积3×3、分离卷积5×5、空洞卷积3×3、空洞卷积5×5的权重值。实际应用时，完成结构搜索后，W₀-W₅中的取值越大，表征对应的基本卷积操作越重要，最重要的基本卷积操作即为当前中间网络层的前一层网络层与当前中间网络层之间的最优的基本卷积操作。需要说明的是，具体如何确定W₀-W₅的取值参考后文步骤203的描述。

基于此，在一些实施例中，所述利用结构控制器和模型参数控制器，得到当前中间网络层的混合卷积操作的输出，包括：

实际应用时，混合卷积操作可以利用如下式(1)进行表示：

其中，MConvBlock表示混合卷积操作；n_p表示混合卷积操作中包含的所有基本卷积操作的种类数量；

表示第i个基本卷积操作对应的权重值；p_i(x)表示第i个基本卷积操作。

这里，p_i(x)与w_model之间的关系可以利用如下式(2)进行表示：

其中，p_i(x)表示第i个基本卷积操作；

表示第i个基本卷积操作的卷积核对应的权重值；表示第i个基本卷积操作的卷积核的偏差，与

相对应，可通过查询设定的对应关系得到。

需要说明的是，这里的x为变化量，当MConvBlock为当前中间网络层即第l层的混合卷积操作时，x为第l-1层中间网络层的输出。

将式(2)代入式(1)可以可到当前中间网络层的混合卷积操作的输出。

在步骤b1中，对于混合连接操作的过程仍然以混合连接操作包括前述的两个基本卷积操作进行说明。

如图6示出了当前中间网络层的前所有网络层中某一网络层与当前中间网络层之间的混合连接操作过程、即对各基本连接操作与该基本连接操作对应的权重值的乘积求和。图6所示的连接控制器中W₆-W₇分别对应连接和不连接的权重值。实际应用时，完成搜索后，W₆-W₇中的取值越大，表征对应的基本连接操作越重要，最重要的基本连接操作即为当前中间网络层之前的各网络层中某一网络层与当前中间网络层之间的最优的基本连接操作。需要说明的是，具体如何确定W₆-W₇的取值可参考后文步骤203的描述。

基于此，在一些实施例中，所述利用所述结构控制器，得到所述当前中间网络层的混合连接操作的输出，包括：

实际应用时，混合卷积操作可以利用如下式(3)进行表示：

其中，MConnBlock表示混合连接操作；n_s表示混合连接操作中包含的所有基本连接操作的种类数量；

表示第i个基本连接操作对应的权重值；s_i(x)表示第i个基本连接操作。

需要说明的是，这里的x为变化量，当MConnBlock为当前中间网络层即第l层的混合连接时，x为第l-1层中间网络层的输出。另外，这里的基本连接操作并无模型参数，当基本连接操作为连接时，s_i(x)为该连接的中间网络层的输入；当基本连接操作为不连接时，s_i(x)为没有由连接操作带来的中间网络层的输入。

在步骤c1中，从图4可以看出：第l层中间网络层的输出具体与第l-1层网络层的混合卷积操作相关联，例如，与第0层(输入网络层)、第1层中间网络层、第2层中间网络层、…、第L-1层中间网络层的混合连接相关联，因此，实际应用中，当前中间网络层即第l层中间网络层的输出可以利用如下式(4)进行表示：

其中，o_l是第l层中间网络层的输出；MConvBlock_l(o_l-1)表示第l层中间网络层的混合卷积操作；MConnBlock_li(o_i)表示第l层中间网络层包含的第i个(i＝1，2，…,l-1)混合连接操作。

这里，将式(1)、式(2)、式(3)代入(4)中即可得到当前中间网络层的输出。

另外，在图4中，需要说明的是，针对所述待确定的神经网络的中间网络层中的每一个中间网络层，需要对相应网络层中包含的一个混合卷积操作和多个混合连接操作进行融合，对融合后的输出可以进行批归一化(BatchNorm)。这里，批归一化对神经网络中间的某一中间网络层的输出进行求均值以及求方差做归一化，以解决在训练过程中，中间网络层数据分布发生改变的情况。

在步骤d1中，在得到了中间网络层中第l层中间网络层的输出，由于第l层中间网络层的输出与第l层中间网络层之前的每一层网络层的输出关联，从第1层中间网络层开始，依次递推计算可以得到最后一层第L层中间网络层的输出，第L层中间网络层的输出，最后经过输出网络层即得到了待确定的神经网络的输出。

在步骤202中，将输入待确定的神经网络、用于结构搜索的数据称为输入数据集。将输入数据集分为训练集和验证集。并且所述训练集主要用于后续进行结构搜索时模型参数的优化；所述验证集主要用于后续进行结构搜索时结构参数的优化。这里，所述模型参数是指神经网络中卷积核的参数；所述结构参数是指神经网络中卷积操作以及连接操作的参数。

这里，第一损失函数为待确定神经网络的训练集对应的损失函数；第二损失函数为待确定神经网络的验证集对应的损失函数。

实际应用时，将输入数据集中的训练集输入待确定的神经网络中，利用步骤201可以得到训练集在待确定的神经网络中的输出即预测值，利用该训练集的预测值及真实值，可以得到训练集对应的损失函数；将输入数据集中的验证集输入待确定的神经网络中，利用步骤201可以得到验证集在待确定的神经网络中的输出即预测值，利用该验证集的预测值及真实值，可以得到验证集对应的损失函数。

实际应用时，根据预测值和真实值确定损失函数的方式有多种，下面以一种进行举例说明。

如，可以利用式(5)确定出损失函数。

其中，loss表示本申请实施例中待确定神经网络的损失函数；o_pred表示预测值；o_true表示真实值。

在步骤203中，模型参数是指模型参数控制器里的权重值；结构参数是指结构控制器里的权重值。

实际应用时，可以采用梯度下降算法实现对模型参数及结构参数的更新、优化。

具体地，在利用训练集的损失函数进行模型参数优化时，可以利用式(6)进行模型参数的优化；

其中，w_model为基本卷积操作的卷积核对应的当前的权重值、即当前的模型参数，w'_model为基本卷积操作的卷积核对应的更新后的权重值、即更新后的模型参数，loss_train为训练集的损失函数，α为模型优化器optimizer_model的学习率，

为训练集的损失函数的梯度。

具体地，在利用训练集的损失函数进行结构参数优化时，可以利用式(7)进行结构参数的优化。

其中，w_arc为基本卷积操作以及基本连接操作对应的当前的权重值、即当前的结构参数，w'_arc为基本卷积操作以及基本连接操作对应的更新后的权重值、即更新后的结构参数，loss_valid为验证集的损失函数，β为结构优化器optimizer_arc的学习率，

为训练集的损失函数的梯度。

这里，梯度下降法的思想就是沿梯度下降的方向求解极小值。实际应用时，可以先随机确定一个初始的w_model和w_arc，然后根据损失函数的偏导确定梯度下降的方向，并沿梯度下降的方向以预设的步长即公式(6)中的α和公式(7)中的β，求解比上次更小的值，直到得到极小值。这里，α和β的获取方式可以是从小到大，分别测试，选出一个最优解。

需要说明的是，由于待确定神经网络的输出中模型参数和结构参数两者是相乘的关系，为了能够优化出结果，对于每一轮的迭代，可以先固定结构参数，优化模型参数，然后固定模型参数，优化结构参数，如此迭代，直至优化出最优解。

在步骤204中，在一些实施例中，所述利用更新后的模型参数以及更新后的结构参数，确定待确定的神经网络的结构，包括：

实际应用时，对步骤203中的式8和式9，执行多次迭代优化，直至输入数据集训练集的损失以及验证集的损失均达到收敛，如损失函数取值为0。此时，搜索结束，选择权重值最大的基本卷积操作即最优的卷积操作、权重值最大的该基本卷积操作的卷积核即该卷积操作的最优的卷积核、以及权重值最大的基本连接操作即最优的连接操作，并根据最优的卷积操作、该卷积操作的最优的卷积核、最优的连接操作确定搜索到的网络结构即所需的神经网络结构。

本发明实施例提供的神经网络的结构搜索方法通过基于预设网络构架，利用结构搜索变量及结构搜索全集对至少一个中间网络层中的各中间网络层进行链接，得到待确定的神经网络的输出；其中，所述预设网络架构包括输入网络层、输出网络层以及至少一个中间网络层；基于所述待确定的神经网络的输出及训练集，确定第一损失函数；基于所述待确定的神经网络的输出及验证集，确定第二损失函数；基于所述第一损失函数更新所述待确定的神经网络的模型参数；基于所述第二损失函数更新所述待确定的神经网络的结构参数；利用更新后的模型参数以及更新后的结构参数，确定待确定的神经网络的结构。本发明实施例中，将结构搜索全集链接到了待确定的神经网络的各中间网络层上，以获得能够体现待确定的神经网络的所有可选网络结构方案的输出，之后利用该输出以及训练集对该待确定的神经网络的模型参数进行更新，利用该输出及验证集对该待确定的神经网络的模型参数结构参数的更新，直到找到最优的模型参数及结构参数，最后利用最优的模型参数及结构参数得到待确定的神经网络的结构。如此，能够实现自动搜索出神经网络结构，节省了时间，提高了效率。

下面结合附图及具体实施例对本发明作进一步详细的说明。

本申请实施例中提出的交通流量预测模型ST-NASNet的架构如图7所示。本申请用实施例中提出的交通流量预测模型与相关技术中的交通流量预测模型的不同之处在于：本申请实施例中提出的交通流量预测模型采用针对邻近性特征的神经网络即基于网络结构搜索的邻近性神经网络(NAS-C-Net，Network Architecture Search ClosenessNetwork)、针对周期性特征的神经网络即基于网络结构搜索的周期性神经网络(NAS-P-Net，Network Architecture Search Period Network)以及针对趋势性特征的神经网络即基于网络结构搜索的趋势性神经网络(NAS-T-Net，Network Architecture Search TrendNetwork)分别替代相关技术中的交通流量预测模型中的三个用于提取输入数据集中邻近性特征、趋势性特征和周期性特征的残差网络。其中，NAS-C-Net、NAS-P-Net以及NAS-T-Net是分别利用网络结构搜索方法主动学习到的神经网络，NAS-C-Net、NAS-P-Net以及NAS-T-Net的网络结构存在多样性。这里，结构搜索方法也可以称为自动机器学习方法。

需要说明的是：本申请实施例中提到的预测模型和残差网络的实质均为神经网络。

下面将详细介绍如何利用结构搜索方法主动学习到NAS-C-Net、NAS-P-Net以及NAS-T-Net这三个神经网络，NAS-C-Net、NAS-P-Net以及NAS-T-Net为本发明应用实施例中提出的交通流量预测模型中待确定的神经网络。

图8为本发明实施例提供的一种交通流量预测模型的结构搜索方法的实现示意图，如图8所示，所述方法包括以下步骤：

步骤801：获取输入数据集，并将所述输入数据集分为训练集和验证集；

所述输入数据集用作所述交通流量预测模型的输入。实际应用时，将预设区域的地图按预设长度进行网格划分，并根据时间顺序获取该预设区域各网格上的交通流量情况，如此，得到该预设区域的按时间戳排序的多张交通流量的类图网络矩阵，并将该按时间戳排序的多张交通流量的类图网络矩阵作为输入数据集。这里，所述预设区域可以是某一城市，所述预设长度可以是1Km，所述交通流量可以是人流量、自行车流量、出租车流量、公交车流量等。

实际应用中，获取输入数据集的方式为接收输入的输入数据集，如，接收由相关人员通过输入接口输入的输入数据集。这里，所述输入接口可以是键盘、鼠标等。

所述训练集主要用于后续进行结构搜索时模型参数的优化；所述验证集主要用于后续进行结构搜索时结构参数的优化。这里，所述模型参数是指神经网络中卷积核的参数；所述结构参数是指神经网络中卷积操作以及连接操作的参数。

实际应用时，可以根据输入数据集中各数据的时间戳来划分训练集和验证集。

举个例子来说，当获取了北京市2019年2月～9月的交通流量情况，将2019年2月～8月作为输入数据集，需要预测2019年9月的交通流量，那么可以将2019年2月、3月、4月、5月的交通流量情况作为输入数据集中的训练集，将2019年6月、7月的交通流量情况作为输入数据集中的验证集，将2019年8月的交通流量情况作为输入数据集中的测试集，将2019年9月的交通流量情况作为交通流量的真实值。

需要说明的是，NAS-C-Net、NAS-P-Net以及NAS-T-Net这三个神经网络在对输入数据集的邻近性、周期性、以及趋势性的特征进行提取时，会根据输入数据集中数据的时间戳来接收不同输入数据。NAS-C-Net接收的输入数据为输入数据集中数据的时间戳与预测时间接近的数据；NAS-P-Net接收的输入数据为输入数据集中数据的时间戳与预测时间较远的数据；NAS-T-Net接收的输入数据为输入数据集中数据的时间戳与预测时间很远的数据。

这里，接近、较远、很远为时间上前后的相对概念。举个例子来说，现在需要预测某一天8点的交通流量情况，那么接近可以理解为该某一天的7点到8点的交通流量情况；较远可以理解为该某一天的前一天的交通流量情况；很远可以理解为该某一天的前一个周交通流量情况。而当输入的数据集本来就已经是该某一天前一个月的数据时，接近可以是该输入的数据集中相对最靠近该某一天的数据；较远就可以是该输入的数据集中相对离该某一天比较近的数据；很远就可以是该输入的数据集中相对离该某一天比较远的数据。

步骤802：接收交通流量预测模型中待确定的神经网络的预设网络架构、结构搜索变量以及所述结构搜索变量的结构搜索全集；其中，所述预设网络架构包括输入网络层、输出网络层以及至少一个中间网络层；

这里，所述待确定的神经网络即为NAS-C-Net、NAS-P-Net以及NAS-T-Net这三个神经网络。

这里，所述待确定的神经网络即NAS-C-Net、NAS-P-Net以及NAS-T-Net这三个神经网络的预设网络架构均包括：输入网络层、中间网络层及输出网络层；其中，所述中间网络层包括至少一个中间网络层；并且当前中间网络层与当前中间网络层的前一层网络层之间通过混合卷积操作(mix convolution operation)进行链接；当前中间网络层与当前中间网络层之前的各层网络层之间通过混合连接操作(mix skip connection operation)进行链接。这里NAS-C-Net、NAS-P-Net以及NAS-T-Net这三个神经网络的网络构架的示意图同样可以参考图3所示的网络架构的。但需要说明的是：图3中的网络层数即四层仅用来进行举例说明，但该网络层数不用于限制本发明网络构架中的网络层数。

这里，所述结构搜索变量是指待确定的神经网络需要利用结构搜索方法确定出的网络结构参数。针对每个中间网络层需要确定两个结构搜索变量，即第一结构搜索变量和第二结构搜索变量；其中，第一结构搜索变量具体为：多个中间网络层中的当前中间网络层与当前中间网络层的前一层网络层之间具体通过何种基本卷积操作进行链接；第二结构搜索变量具体为：当前中间网络层与当前中间网络层之前的各层网络层具体是如何进行连接操作的。

举个例子来说，当将某一城市的地图按1Km为单位进行网格划分，并根据该城市不同时间轴的交通流量情况在该网格划分的体现得到该城市的类图网络矩阵，并将该类图网络矩阵作为本申请实施例的输入数据集。实际应用中，当需要预测的交通流量具体为自行车流量时，考虑到自行车的主要行进旅程为3公里左右，那么可以选择体现3公里的卷积操作的尺寸3×3以及3×3邻近的5×5。在一些实施例中，混合卷积操作包括六个基本的卷积操作：标准卷积3×3(standard convolution 3×3)、标准卷积5×5(standardconvolution 5×5)、分离卷积3×3(separable convolution 3×3)、分离卷积5×5(separable convolution 5×5)、空洞卷积3×3(dilation convolution 3×3)、空洞卷积5×5(dilation convolution 5×5)。这里，六个基本的卷积操作构成了第一结构搜索变量的结构搜索全集。根据以上描述可见，卷积操作的尺寸可根据交通工具的类型进行选取。

实际应用时，接收待确定的神经网络的预设网络架构、结构搜索变量以及所述结构搜索变量的结构搜索全集的方式为接收预先设定的预设网络架构、结构搜索变量以及所述结构搜索变量的结构搜索全集。

步骤803：基于所述预设网络构架，利用所述结构搜索变量及所述结构搜索变量的结构搜索全集对所述至少一个中间网络层中的各中间网络层进行链接，得到所述待确定的神经网络的输出；

所述待确定的神经网络即NAS-C-Net、NAS-P-Net以及NAS-T-Net这三个神经网络的输出是对待确定的神经网络中各中间网络层的所有可能链接方式的加权求和表征。

这里，所述待确定的神经网络的输出的确定过程可以参照前述步骤201的描述。NAS-C-Net、NAS-P-Net以及NAS-T-Net这三个神经网络均可以利用步骤201的方法得到各神经网络对应的输出。

需要说明的是：这里，在待确定的神经网络的输出时，需要采用三个不同的结构控制器

来分别表征NAS-C-Net、NAS-P-Net以及NAS-T-Net这三个神经网络的结构搜索变量所包括的各候选量的结构参数的权重值。

需要说明的是，步骤801与步骤802和步骤803之间没有明显的先后顺序，步骤801只需要在步骤804开始之前完成即可。

步骤804：基于所述待确定的神经网络的输出及所述训练集得到交通流量预测模型的训练集对应的损失函数；基于所述待确定的神经网络的输出及所述验证集得到交通流量预测模型的验证集对应的损失函数；

实际应用中，所述步骤804的具体实现，包括：

步骤a2：将交通流量预测模型中包含的NAS-C-Net输出、NAS-P-Net输出、NAS-T-Net输出以及额外影响网络的输出这四部分输出进行融合，并经过连接操作tanh得到交通流量预测模型的预测值；

具体，可以利用式(8)得到本申请实施例中交通流量预测模型的预测值。

o_pred＝tanh(o_C+o_P+o_T+o_E) (8)

其中，o_pred表示本申请实施例中交通流量预测模型的预测值；o_C表示NAS-C-Net输出；o_P表示NAS-P-Net输出；o_T表示NAS-T-Net输出；o_E表示额外影响网络的输出。

需要说明的是，o_E可以通过现有方式获得，由于o_E不是本发明的核心重点，在此不做赘述。

步骤b2：利用本申请实施例中交通流量预测模型的预测值及交通流量的真实值，得到损失函数。

实际应用时，将输入数据集中的训练集输入本申请实施例中交通流量预测模型中，利用步骤803可以分别得到训练集在NAS-C-Net、NAS-P-Net以及NAS-T-Net这三个神经网络中的输出，再利用上述步骤a2中的式8即可得到本申请实施例中交通流量预测模型的预测值，利用该预测值及真实值，可以得到本申请实施例中交通流量预测模型的训练集对应的损失函数。将输入数据集中的验证集输入本申请实施例中交通流量预测模型中，利用步骤803可以分别得到验证集在NAS-C-Net、NAS-P-Net以及NAS-T-Net这三个神经网络中的输出，再利用上述步骤a2中的式8即可得到本申请实施例中交通流量预测模型的预测值，利用该预测值及真实值，可以得到本申请实施例中交通流量预测模型的测试集对应的损失函数。

这里，利用本申请实施例中交通流量预测模型的预测值及交通流量的真实值，得到损失函数的具体方法可参考步骤202。

需要说明的是当利用步骤202中式5确定相应的损失函数时，loss表示本申请实施例中交通流量预测模型的损失函数；o_pred表示本申请实施例中交通流量预测模型的预测值；o_true表示本申请实施例中交通流量的真实值。

实际应用时，表征所述交通流量的真实值的数据可以与输入的数据集同时进行获取，表征所述交通流量的真实值的数据的获取方式可以与输入的数据集的获取方式相同。

步骤805：基于所述交通流量预测模型的训练集对应的损失函数更新所述待确定的神经网络的模型参数；基于所述交通流量预测模型的验证集对应的损失函数更新所述待确定的神经网络的结构参数；

这里，模型参数是指模型参数控制器里的权重值，根据所述交通流量预测模型的训练集对应的损失函数更新所述待确定的神经网络即NAS-C-Net、NAS-P-Net以及NAS-T-Net这三个神经网络的模型参数的具体方法可参考步骤203中式(6)。

这里，结构参数是指结构控制器里的权重值，基于所述交通流量预测模型的验证集对应的损失函数更新所述待确定的神经网络即NAS-C-Net、NAS-P-Net以及NAS-T-Net这三个神经网络的结构参数的具体方法可参考步骤203中式(7)。

需要说明的是，NAS-C-Net、NAS-P-Net以及NAS-T-Net这三个神经网络的结构参数需要分别进行相应的更新。

步骤806：利用更新后的模型参数以及更新后的结构参数，确定所述交通流量预测模型中待确定的神经网络的结构。

实际应用时，迭代优化多次，直至所述交通流量预测模型的训练集对应的损失函数以及所述交通流量预测模型的验证集对应的损失函数均达到收敛，如损失函数取值为0。此时，搜索结束，选择权重值最大的基本卷积操作即最优的卷积操作、权重值最大的该基本卷积操作的卷积核即该卷积操作的最优的卷积核、以及权重值最大的基本连接操作即最优的连接操作，并根据最优的卷积操作、该卷积操作的最优的卷积核、最优的连接操作确定搜索到的网络结构即所需的神经网络结构。

在一些实施例中，对于纽约自行车流量数据集，邻近性、周期性、趋势性这三种特性学习出来的网络结构NAS-C-Net、NAS-P-Net、NAS-T-Net分别如图9a、图9b及图9c所示。

本领域技术人员可以理解的是，体现邻近性的输入数据为输入数据集中时间与预测时间最接近的数据，此时预测的交通流量与输入数据中的所有交通流量有着较高的关联性，即在NAS-C-Net中低级的特征(神经网络中，经过的卷积层数越深，得到的特征越高级)会极大的影响最终的交通流量预测，因此在图9a中输入网络层直接连接到了输出网络层。周期性的输入数据为输入数据集中时间与预测时间较远的数据，此时预测的交通流量与输入数据中的同一时刻的交通流量有着较高的关联性，即在NAS-P-Net中某一时刻的特征会明显的影响最终的交通流量预测，因此在图9b中某一层中间网络层的输出(第三层中间网络层)网络层连接到了输出网络层。趋势性的输入数据为输入数据集中时间与预测时间最远的数据，此时预测的交通流量与输入数据中的交通流量中各种层级的交通流量均有着一定的关联性，即在NAS-T-Net中各层级的影响没有偏向性，均与最终的交通流量预测有一定的关联，因此在图9c中输入网络层会连接到多个中间网络层。

从图9a、图9b及图9c中可以看出，对于一个输入数据集，残差结构并不一定是最优的网络结构，并且基于邻近性、周期性、趋势性这三种特性确定出的最优网络结构并不相同。

实际应用中，对于不同的输入数据集，同样可以利用上述神经网络的结构搜索的方法分别进行结构搜索，从而得到不同的适应各自输入数据集的最佳网络结构。

举个例子来说，同样为交通流量预测任务，现在有两个不同的输入数据集，其中，一个输入数据集是北京市的出租车流量的数据集；另一个输入数据集是宿迁市的人流量的数据集。针对上述两个不同的数据集采用上述神经网络的结构搜索的方法分别进行结构搜索，得到了如图10a所示的用于预测北京市的出租车流量的网络结构以及如图10b所示的用于预测宿迁市的人流量的网络结构。

从图10a和图10b中可以看出：对于城市处于核心地理位置，且活动范围距离比较大的北京市出租流量预测任务，最后搜索得到的网络结构中，最后一个中间网络层表示的全局相关性的特征比较重要，且大尺度的操作5×5的卷积比较重要；而对于相对小的城市例如宿迁，且活动范围比较小的人流量预测任务，最后搜索得到的网络结构中，较低中间网络层的特征以及小尺度的操作3×3的卷积会有更好的效果。也就是说，对于不同的输入数据集，可以采用上述神经网络的结构搜索的方法分别进行结构搜索，从而得到不同的适应各自输入数据集的最佳网络结构。

为了实现本发明实施例的方法，本发明实施例还提供一种神经网络的结构搜索装置，设置在电子设备上。图11为本发明实施例神经网络的结构搜索装置的组成结构示图，如图11所示，所述结构搜索装置1100包括：

第一确定单元1101，用于基于预设网络构架，利用结构搜索变量及结构搜索全集对至少一个中间网络层中的各中间网络层进行链接，得到待确定的神经网络的输出；其中，所述预设网络架构包括输入网络层、输出网络层以及至少一个中间网络层；

第二确定单元1102，用于基于所述待确定的神经网络的输出及训练集，确定第一损失函数；基于所述待确定的神经网络的输出及验证集，确定第二损失函数；

更新单元1103，用于基于所述第一损失函数更新所述待确定的神经网络的模型参数；基于所述第二损失函数更新所述待确定的神经网络的结构参数；

第三确定单元1104，用于利用更新后的模型参数以及更新后的结构参数，确定待确定的神经网络的结构。

在一些实施例中，所述第一确定单元1101包括：

第一确定模块，用于利用结构控制器和模型参数控制器，得到当前中间网络层的混合卷积操作的输出；所述混合卷积操作包括多个基本卷积操作；所述结构控制器为所述结构搜索变量所包括的各候选量的权重值；所述模型参数控制器为各基本卷积操作的卷积核对应的权重值；

第二确定模块，用于利用所述结构控制器，得到所述当前中间网络层的混合连接操作的输出；

第三确定模块，用于利用所述混合卷积操作的输出以及所述混合连接操作的输出，得到所述当前中间网络层的输出；

第四确定模块，用于利用所述当前中间网络层的输出，得到所述待确定的神经网络的输出。

在一些实施例中，所述第一确定模块，具体用于：

对各基本卷积操作与所述各基本卷积操作对应的权重值的乘积求和，得到当前中间网络层的混合卷积操作的输出；所述结构控制器包括各基本卷积操作对应的权重值；所述基本卷积操作是利用所述模型控制器与当前中间网络层的前一层中间网络层的输出得到的。

在一些实施例中，所述第二确定模块用于，具体用于：

在一些实施例中，所述更新单元1103包括：

第一更新模块，用于基于所述第一损失函数，利用梯度下降方法，更新所述待确定的神经网络的模型参数；

第二更新模块，用于基于所述第二损失函数，利用梯度下降方法，更新所述待确定的神经网络的结构参数。

在一些实施例中，所述第三确定单元1104包括：

更新判断模块，用于循环更新所述模型参数和所述结构参数，直到所述第一损失函数及所述第二损失函数均收敛；

第五确定模块，用于基于所述第一损失函数及所述第二损失函数收敛时的模型参数及结构参数，确定待确定的神经网络的结构。

实际应用时，第一确定单元1101、第一确定模块、第二确定模块、第三确定模块、第四确定模块、第二确定单元1102、更新单元1103、第一更新模块、第二更新模块、第三确定单元1104、更新判断模块以及第五确定模块可由神经网络的结构搜索装置中的处理器实现。

需要说明的是：上述实施例提供的神经网络的结构搜索装置在进行图像处理模型的训练时，仅以上述各程序模块的划分进行举例说明，实际应用中，可以根据需要而将上述处理分配由不同的程序模块完成，即将装置的内部结构划分成不同的程序模块，以完成以上描述的全部或者部分处理。另外，上述实施例提供的神经网络的结构搜索装置与神经网络的结构搜索方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图12为本发明实施例提供的一种神经网络的训练方法的实现示意图，如图12所示，所述方法包括以下步骤：

步骤1201：获取输入数据集；

步骤1202：将所述输入数据集输入到待训练神经网络中，得到所述待训练神经网络的预测值；

步骤1203：基于所述预测值，确定所述待训练神经网络的损失函数；

步骤1204：基于所述损失函数，更新所述待训练神经网络的模型参数；

在步骤1201中，所述输入数据集用作待训练神经网络的输入。

实际应用时，举个例子来说，当待训练神经网络为交通流量预测模型时。将预设区域(如，某一城市)的地图按预设长度(如，以1Km为单位)进行网格划分，并根据时间顺序获取该预设区域各网格上的交通流量(如，人流量、自行车流量、出租车流量等)情况，如此，得到该预设区域的按时间戳排序的多张交通流量的类图网络矩阵，并将该按时间戳排序的多张交通流量的类图网络矩阵作为输入数据集。

实际应用中，获取输入数据集的方式为接收输入的输入数据集，如，接收由相关人员通过输入接口(如，键盘、鼠标等)输入的包含输入数据集数据信息。

需要说明的是，在本申请实施例中在网络结构已经确定的情况下，只对模型参数进行优化，并不涉及结构参数的优化，因此并不需要将所述输入数据集划分为训练集和验证集。实际应用中，可以把本发明实施例已划分的训练集和验证集合并作为本实施例中的训练集。

在步骤1202中，所述待训练神经网络是基于本发明实施例提供的神经网络的结构搜索方法搜索得到的。

在步骤1203中，当待训练神经网络为交通流量预测模型时，基于所述预测值和交通流量的真实值，确定所述交通流量预测模型损失函数的值。

实际应用时，表征所述交通流量的真实值的数据可以与输入的数据集同时进行获取，表征所述交通流量的真实值的数据的获取方式可以与输入的数据集的获取方式相同。损失函数的计算过程可以参照前述步骤203的描述。

在步骤1204中，实际应用时，迭代优化更新步骤，直至损失收敛。

在本实施例中，对本发明实施例提供的神经网络的结构搜索方法搜索得到的网络结构对待进行训练。

为了实现本发明实施例的方法，本发明实施例还提供一种神经网络的训练装置，设置在电子设备上。图13为本发明实施例神经网络的训练装置的组成结构示图，如图13所示，所述训练装置1300包括：

获取单元1301，用于获取输入数据集；

预测单元1302，用于将所述输入数据集输入到待训练神经网络中，得到所述待训练神经网络的预测值；

确定单元1303，用于基于所述预测值，确定所述待训练神经网络的损失函数；

更新单元1304，用于基于所述损失函数，更新所述待训练神经网络的模型参数；

实际应用时，获取单元1301、预测单元1302、确定单元1303、以及更新单元1304可由神经网络的结构搜索装置中的处理器实现。

需要说明的是：上述实施例提供的神经网络的训练装置在进行神经网络的训练时，仅以上述各程序模块的划分进行举例说明，实际应用中，可以根据需要而将上述处理分配由不同的程序模块完成，即将装置的内部结构划分成不同的程序模块，以完成以上描述的全部或者部分处理。另外，上述实施例提供的神经网络的训练装置与神经网络的训练方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

基于上述程序模块的硬件实现，且为了实现本发明实施例的方法，本发明实施例还提供一种电子设备1400，所述电子设备1400包括：

存储器1401，用于存储可执行指令；

处理器1402，用于执行所述存储器中存储的可执行指令时，实实现本发明实施例提供的神经网络的结构搜索方法、或实现本发明实施例提供的神经网络的训练方法。

实际应用时，如图14所示，所述电子设备1400中的各个组件通过总线***1403耦合在一起。可理解，总线***1403用于实现这些组件之间的连接通信。总线***1403除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图14中将各种总线都标为总线***1403。

在一些实施例中，存储介质可以是磁性随机存取存储器(FRAM，FerromagneticRandom Access Memory)、只读存储器(ROM，Read Only Memory)、可编程只读存储器(PROM，Programmable Read-Only Memory)、可擦除可编程只读存储器(EPROM，ErasableProgrammable Read-Only Memory)、电可擦除可编程只读存储器(EEPROM，ElectricallyErasable Programmable Read-Only Memory)、快闪存储器(Flash Memory)、磁表面存储器、光盘、或只读光盘(CD-ROM，Compact Disc Read-Only Memory)等存储器；也可以是包括上述存储器之一或任意组合的各种设备。

在一些实施例中，可执行指令可以采用程序、软件、软件模块、脚本或代码的形式，按任意形式的编程语言(包括编译或解释语言，或者声明性或过程性语言)来编写，并且其可按任意形式部署，包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。

作为示例，可执行指令可以但不一定对应于文件***中的文件，可以可被存储在保存其它程序或数据的文件的一部分，例如，存储在超文本标记语言(HTML，Hyper TextMarkup Language)文档中的一个或多个脚本中，存储在专用于所讨论的程序的单个文件中，或者，存储在多个协同文件(例如，存储一个或多个模块、子程序或代码部分的文件)中。

作为示例，可执行指令可被部署为在一个计算设备上执行，或者在位于一个地点的多个计算设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算设备上执行。

为了更好地说明利用本发明实施例的方案能够在自动完成网络结构搜索的前提下还能保证网络结构的性能接近或者超过专家设计水平，进行了相应的对比实验。

实验1：性能对比实验

将本发明基于网络结构搜索的模型ST-NASNet与专家设计的网络结构ST-ResNet，以及目前图像和自然语言处理(NLP，Natural Language Processing)领域最优的网络结构搜索模型Darts和ENAS进行性能对比实验，比较结果如表1所示：

表1

从表1中可以看出：ST-NASNet优于专家设计的网络结构ST-ResNet，并且效果和最优的NAS结果接近。此外，性能上ENAS的特别不稳定。

实验2：耗时对比实验

将本发明基于网络结构搜索的模型ST-NASNet与Darts和ENAS进行耗时对比实验，比较结果如表2所示：

表2

从表1中可以看出：在存储消耗接近的情况下，ST-NASNet的时间消耗远远小于Darts和ENAS。

实验3：敏感性对比实验

将本发明基于网络结构搜索的模型ST-NASNet与专家设计的网络结构ST-ResNet进行敏感性对比实验，对于不同的卷积过滤器(filter)的均方根误差的比较结果、不同的卷积过滤器的平均绝对误差的比较结果、不同的卷积过滤器的平均绝对百分误差不同的比较结果、对于不同的学***均绝对误差的比较结果、不同的学***均绝对百分误差不同的比较结果、对于不同的测试集规模的均方根误差的比较结果、不同的测试集规模的平均绝对误差的比较结果、不同的测试集规模的平均绝对百分误差不同的比较结果分别如图15a～图15i所示。

从图15a～图15i可以看出：对于不同的卷积过滤器，不同的学习率，以及不同的测试集规模，基于网络结构搜索的模型ST-NasNet能比专家设计取得更优的结果。

需要说明的是：“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

另外，本发明实施例所记载的技术方案之间，在不冲突的情况下，可以任意组合。

以上所述，仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。

Claims

1.一种神经网络的结构搜索方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述基于预设网络构架，利用结构搜索变量及结构搜索全集对至少一个中间网络层中的各中间网络层进行链接，得到待确定的神经网络的输出，包括：

3.根据权利要求2所述的方法，其特征在于，所述利用结构控制器和模型参数控制器，得到当前中间网络层的混合卷积操作的输出，包括：

4.根据权利要求2所述的方法，其特征在于，所述利用所述结构控制器，得到所述当前中间网络层的混合连接操作的输出，包括：

5.根据权利要求1所述的方法，其特征在于，

所述基于所述第一损失函数更新所述待确定的神经网络的模型参数，包括：

6.根据权利要求1所述的方法，其特征在于，所述利用更新后的模型参数以及更新后的结构参数，确定待确定的神经网络的结构，包括：

7.一种神经网络的结构搜索装置，其特征在于，所述装置包括：

8.一种神经网络的训练方法，其特征在于，所述方法包括：

获取输入数据集；

基于所述预测值，确定所述待训练神经网络的损失函数；

基于所述损失函数，更新所述待训练神经网络的模型参数；

其中，所述待训练神经网络是基于权利要求1至6任一项所述的方法搜索得到的。

9.一种神经网络的训练装置，其特征在于，所述装置包括：

获取单元，用于获取输入数据集；

10.一种电子设备，其特征在于，包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现权利要求1至6任一项所述的神经网络的结构搜索方法、或实现权利要求8所述的神经网络的训练方法。

11.一种存储介质，其特征在于，所述存储介质存储有可执行指令，当所述可执行指令被至少一个处理器执行时，实现权利要求1至6任一项所述的神经网络的结构搜索方法、或实现权利要求8所述的神经网络的训练方法。