CN111832342B

CN111832342B - 神经网络及训练和使用方法、装置、电子设备及介质

Info

Publication number: CN111832342B
Application number: CN201910305394.4A
Authority: CN
Inventors: 陈长国
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2019-04-16
Filing date: 2019-04-16
Publication date: 2024-06-21
Anticipated expiration: 2039-04-16
Also published as: CN111832342A

Abstract

本公开实施例公开了一种神经网络，包括多个神经元，其特征在于，所述多个神经元中的至少一个神经元的激活函数具有分式有理函数形式。本公开实施例还公开了一种训练神经网络的方法、使用神经网络处理数据的方法、装置、电子设备和可读存储介质。使用所述具有分式有理函数形式的激活函数的神经网络在训练时能够快速收敛，满足在线神经网络训练的需要。

Description

神经网络及训练和使用方法、装置、电子设备及介质

技术领域

本公开涉及计算机应用技术领域，具体涉及一种神经网络及训练和使用方法、装置、电子设备及可读存储介质。

背景技术

神经网络(Artificial Neural Network，ANN，简称为“神经网络”)从信息处理角度对人脑神经元网络进行抽象并建立模型，按不同的连接方式组成不同的网络。神经网络包括相互连接的大量节点(或称神经元)。每个神经元代表特定的输出函数，称为激励函数。每两个神经元间的连接都代表一个对于通过该连接的信号的加权值，称之为权重。神经网络的神经元基于其相应的权重、激活函数，及其与其他神经元之间的连接关系等，对输入神经网络的数据进行处理，得到神经网络的输出结果。

近年来，神经网络的研究和应用不断深入，已经取得了很大的进展，其在模式识别、智能机器人、自动控制、预测估计、生物、医学、经济等领域已成功地解决了许多现代计算机难以解决的实际问题，表现出了良好的智能特性。

发明内容

为了解决相关技术中的问题，本公开实施例提供一种神经网络及训练和使用方法、装置、电子设备及可读存储介质。

第一方面，本公开实施例中提供了一种训练神经网络的方法，所述神经网络包括多个神经元，至少一个所述神经元的激活函数具有分式有理函数形式，所述方法包括：

将训练样本输入所述神经网络；

通过所述神经网络中的神经元处理所述训练样本，生成输出结果，其中，所述至少一个神经元使用具有所述分式有理函数形式的激活函数进行所述处理；

调整所述神经网络的参数以优化所述输出结果。

结合第一方面，本公开在第一方面的第一种实现方式中：

所述神经网络用于图像分类，所述训练样本包括图像，所述输出结果包括所述图像所属的类别；或者

所述神经网络用于目标检测，所述训练样本包括图像，所述输出结果包括所述图像中包含的目标所属的类别和/或所述目标的目标框坐标；或者

所述神经网络用于人脸特征点定位，所述训练样本包括人脸图像，所述输出结果包括人脸特征点位置坐标。

结合第一方面，本公开在第一方面的第二种实现方式中，所述分式有理函数为：

其中，α≥1,β>0,γ>0并且α、β、γ的取值使得F(x)的值在[-1,1]区间上，x为向使用所述具有分式有理函数形式的激活函数的所述神经元传输的输入信号的线性处理结果。

结合第一方面的第二种实现方式，本公开在第一方面的第三种实现方式中：

∝＝1，β＝1，γ＝1；或者

∝＝2，β＝2，γ＝1。

结合第一方面，本公开在第一方面的第四种实现方式中：

所述激活函数包括至少一个参数；

所述调整所述神经网络的参数包括调整所述激活函数的参数和/或调整所述神经网络的其他参数。

结合第一方面的第四种实现方式，本公开在第一方面的第五种实现方式中：

所述多个神经元中的至少一些神经元使用相同的激活函数，所述调整所述激活函数的参数包括调整所述至少一些神经元的相应激活函数的参数；或者

所述调整所述激活函数的参数包括分别调整各神经元的激活函数的参数。

结合第一方面，本公开在第一方面的第六种实现方式中：

所述神经网络是以下任意一种或几种的组合：卷积神经网络、全连接神经网络、递归神经网络；并且/或者

所述调整所述神经网络的参数包括通过以下任意一种或几种的组合来调整所述神经网络的参数：遗传算法、遗传规划、进化策略、进化规划、梯度下降优化算法。

结合第一方面，本公开在第一方面的第七种实现方式中，通过所述神经网络中的神经元处理所述训练样本，包括：

对响应于所述训练样本而向所述神经元中的第一神经元传输的至少一个第一输入信号进行线性处理得到第一线性处理结果；

对所述第一线性处理结果应用所述第一神经元的激活函数，获得第一激活处理结果；

从所述第一神经元输出所述第一激活处理结果。

第二方面，本公开实施例中提供了一种使用神经网络处理数据的方法，所述神经网络包括多个神经元，至少一个所述神经元的激活函数具有分式有理函数形式，所述方法包括：

将待处理数据输入所述神经网络；

通过所述神经网络中的神经元处理所述待处理数据，生成处理结果，其中，所述至少一个神经元使用具有所述分式有理函数形式的激活函数进行所述处理；

输出所述处理结果。

结合第二方面，本公开在第二方面的第一种实现方式中：

所述神经网络用于图像分类，所述待处理数据包括图像，所述处理结果包括所述图像所属的类别；或者

所述神经网络用于目标检测，所述待处理数据包括图像，所述处理结果包括所述图像中包含的目标所属的类别和/或所述目标的目标框坐标；或者

所述神经网络用于人脸特征点定位，所述待处理数据包括人脸图像，所述处理结果包括人脸特征点位置坐标。

结合第二方面，本公开在第二方面的第二种实现方式中：所述分式有理函数为：

结合第二方面的第二种实现方式，本公开在第二方面的第三种实现方式中：

∝＝1，β＝1，γ＝1；或者

∝＝2，β＝2，γ＝1。

结合第二方面的第三种实现方式，本公开在第二方面的第四种实现方式中：

所述多个神经元中的至少一些神经元使用相同的激活函数。

结合第二方面，本公开在第二方面的第五种实现方式中：

所述神经网络是以下任意一种或几种的组合：卷积神经网络、全连接神经网络、递归神经网络。

结合第二方面，本公开在第二方面的第六种实现方式中：

通过所述神经网络中的神经元处理所述待处理数据，包括：

对响应于所述待处理数据而向所述神经元中的第一神经元传输的至少一个第二输入信号进行线性处理得到第二线性处理结果；

对所述第二线性处理结果应用所述第一神经元的激活函数，获得第二激活处理结果；

从所述第一神经元输出所述第二激活处理结果。

第三方面，本公开实施例中提供了一种用于训练神经网络的装置，所述神经网络包括多个神经元，至少一个所述神经元的激活函数具有分式有理函数形式，所述装置包括：

第一输入模块，被配置为将训练样本输入所述神经网络；

第一处理模块，被配置为通过所述神经网络中的神经元处理所述训练样本，生成输出结果，其中，所述至少一个神经元使用具有所述分式有理函数形式的激活函数进行所述处理；

调整模块，被配置为调整所述神经网络的参数以优化所述输出结果。

结合第三方面，本公开在第三方面的第一种实现方式中：

结合第三方面，本公开在第三方面的第二种实现方式中，所述分式有理函数为：

结合第三方面的第二种实现方式，本公开在第三方面的第三种实现方式中：

∝＝1，β＝1，γ＝1；或者

∝＝2，β＝2，γ＝1。

结合第三方面，本公开在第三方面的第四种实现方式中：

所述激活函数包括至少一个参数；

结合第三方面的第四种实现方式，本公开在第三方面的第五种实现方式中：

结合第三方面，本公开在第三方面的第六种实现方式中：

结合第三方面，本公开在第三方面的第七种实现方式中，通过所述神经网络中的神经元处理所述训练样本，包括：

从所述第一神经元输出所述第一激活处理结果。

第四方面，本公开实施例中提供了一种用于使用神经网络处理数据的装置，所述神经网络包括多个神经元，至少一个所述神经元的激活函数具有分式有理函数形式，所述装置包括：

第二输入模块，被配置为将待处理数据输入所述神经网络；

第二处理模块，被配置为通过所述神经网络中的神经元处理所述待处理数据，生成处理结果，其中，所述至少一个神经元使用具有所述分式有理函数形式的激活函数进行所述处理；

输出模块，被配置为输出所述处理结果。

结合第四方面，本公开在第四方面的第一种实现方式中：

结合第四方面，本公开在第四方面的第二种实现方式中：所述分式有理函数为：

结合第四方面的第二种实现方式，本公开在第四方面的第三种实现方式中：

∝＝1，β＝1，γ＝1；或者

∝＝2，β＝2，γ＝1。

结合第四方面的第三种实现方式，本公开在第四方面的第四种实现方式中：

所述多个神经元中的至少一些神经元使用相同的激活函数。

结合第四方面，本公开在第四方面的第五种实现方式中：

结合第四方面，本公开在第四方面的第六种实现方式中：

通过所述神经网络中的神经元处理所述待处理数据，包括：

从所述第一神经元输出所述第二激活处理结果。

第五方面，本公开实施例中提供了一种电子设备，其特征在于，包括处理器和存储器，其中：

所述存储器用于存储一条或多条计算机指令；

所述一条或多条计算机指令被所述处理器执行以实现根据第一方面至第二方面第六种实现方式中任一项所述的方法。

第六方面，本公开实施例中提供了一种可读存储介质，其上存储有计算机指令，其特征在于，所述一条或多条计算机指令被所述处理器执行以实现根据第一方面至第二方面第六种实现方式中任一项所述的方法。

第七方面，本公开实施例中提供了一种神经网络，包括多个神经元，其特征在于，所述多个神经元中的至少一个神经元的激活函数具有分式有理函数形式。

结合第七方面，本公开在第七方面的第一种实现方式中：

所述分式有理函数为：

结合第七方面的第一种实现方式，本公开在第七方面的第二种实现方式中：

∝＝1，β＝1，γ＝1；或者

∝＝2，β＝2，γ＝1。

结合第七方面，本公开在第七方面的第三种实现方式中：

所述多个神经元中的至少一些神经元使用相同的激活函数。

结合第七方面，本公开在第七方面的第四种实现方式中：

第八方面，本公开实施例中提供了一种电子设备，包含根据第七方面至第七方面第四种实现方式中任一项所述的神经网络。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

结合附图，通过以下非限制性实施方式的详细描述，本公开的其它特征、目的和优点将变得更加明显。在附图中：

图1示出了示例性神经网络的结构示意图；

图2示出了根据本公开实施例的神经网络的结构示意图；

图3示出了根据本公开实施例包含上述神经网络的电子设备的框图；

图4示出了根据本公开实施例训练神经网络的方法的流程图；

图5示出了根据本公开实施例通过所述神经网络中的神经元处理所述训练样本的流程图；

图6示出了根据本公开实施例使用神经网络处理数据的方法的流程图；

图7示出了根据本公开实施例通过所述神经网络中的神经元处理所述待处理数据的流程图；

图8示出根据本公开的实施例的用于训练神经网络的装置的结构框图；

图9示出根据本公开的实施例的用于使用神经网络处理数据的装置的结构框图；

图10示出根据本公开的实施例的电子设备的结构框图；

图11示出适于用来实现根据本公开实施例的训练神经网络的方法和/或使用神经网络处理数据的方法的计算机***的结构示意图。

具体实施方式

下文中，将参考附图详细描述本公开的示例性实施例，以使本领域技术人员可容易地实现它们。此外，为了清楚起见，在附图中省略了与描述示例性实施例无关的部分。

在本公开中，应理解，诸如“包括”或“具有”等的术语旨在指示本说明书中所公开的特征、数字、步骤、行为、部件、部分或其组合的存在，并且不欲排除一个或多个其他特征、数字、步骤、行为、部件、部分或其组合存在或被添加的可能性。

另外还需要说明的是，在不冲突的情况下，本公开中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本公开。

图1示出了示例性神经网络的结构示意图。

如图1所示，示例性神经网络100包括输入层110、第一隐藏层120、第二隐藏层130和输出层140。输入层110包括神经元u₁、神经元u₂、神经元u₃，第一隐藏层120包括神经元h₁、神经元h₂、神经元h₃、神经元h₄，第二隐藏层130包括神经元v₁、神经元v₂、神经元v₃、神经元v₄，输出层140包括神经元z。

神经元u₁、神经元u₂、神经元u₃的输出信号分别为信号U₁、信号U₂、信号U₃，神经元h₁、神经元h₂、神经元h₃、神经元h₄的输出信号分别为信号H₁、信号H₂、信号H₃、信号H₄，神经元v₁、神经元v₂、神经元v₃、神经元v₄的输出信号分别为信号V₁、信号V₂、信号V₃、信号V₄，神经元z的输出信号为信号OUT。

如图1所示，输入数据IN通过输入层110进入神经网络100，神经元u₁、神经元u₂、神经元u₃分别输出信号U₁、信号U₂、信号U₃。信号U₁、信号U₂、信号U₃传输经过第一隐藏层120、第二隐藏层130及输出层140中各神经元，由所述各神经元分别进行相应的处理，得到输出结果OUT。

下面以神经元h₁为例，说明神经元对信号的处理过程。

如图1所示，神经元u₁与神经元h₁之间的连接的权重为w_h11，神经元u₂与神经元h₁之间的连接的权重为w_h12，神经元u₃与神经元h₁之间的连接的权重为w_h13。神经元h₁的偏置为b_h1，激活函数为f_h1。

从神经元u₁、神经元u₂、神经元u₃向神经元h₁传输的信号分别为信号U₁、信号U₂、信号U₃。神经元h₁对信号U₁、信号U₂、信号U₃求加权和，对加权和应用偏置b_h1，然后对得到的结果应用激活函数f_h1，得到输出信号

类似地，第一隐藏层120中的任一神经元h_j(1≤j≤4)的输出信号其中，神经元u_i与神经元h_j之间的连接的权重为w_hji，神经元h_j的偏置为b_hj，激活函数为f_hj。

第二隐藏层130中的任一神经元v_j(1≤j≤4)的输出信号其中，神经元h_i与神经元v_j之间的连接的权重为w_vji，神经元v_j的偏置为b_vj，激活函数为f_vj。

输出层140的神经元z的输出信号其中，神经元v_i与神经元z之间的连接的权重为w_zi，神经元z的偏置为b_z，激活函数为f_z。

可以理解的是，以上结合图1描述的仅为神经网络的示例。根据实际需要可以设计各种连接关系、权重、偏置和/或激活函数的神经网络，例如全连接神经网络、卷积神经网络、递归神经网络等，本公开对此不做限制。

在实际使用中，一般先使用训练数据对神经网络进行训练，以确定所述神经网络的权重、偏置、激活函数的参数中至少一项或多项的取值或其具体形式。常用的激活函数包括sigmoid函数、tanh函数、relu函数等等。

在做出本公开的过程中，发明人发现，训练神经网络一般比较耗时，为满足在线神经网络训练的需要，希望提出能更快速收敛的神经网络。

基于此考虑，本公开实施例提出一种激活函数，其具有分式有理函数形式。使用所述具有分式有理函数形式的激活函数的神经网络在训练时能够快速收敛，满足在线神经网络训练的需要。

图2示出了根据本公开实施例的神经网络的结构示意图。

如图2所示，神经网络200与图1所示神经网络100的区别在于，至少一个神经元的激活函数F具有分式有理函数形式。

根据本公开的实施例，神经网络的所有激活函数可以都具有分式有理函数形式。例如，图2中的第一隐藏层120、第二隐藏层130和输出层140的神经元的激活函数可以均为分式有理函数形式。

根据本公开的实施例，神经网络可以仅部分神经元的激活函数具有分式有理函数形式。例如，图2中的第一隐藏层120、第二隐藏层130和输出层140中任意一层或两层的神经元的激活函数可以具有分式有理函数形式，而其他神经元可以具有其他形式。或者，图2中的第一隐藏层120、第二隐藏层130和输出层140中的任意一个或多个神经元的激活函数可以具有分式有理函数形式，而其他神经元的激活函数可以具有其他形式，所述多个神经元可以分布在相同或不同的层中。

根据本公开的实施例，神经网络中至少一些神经元的激活函数可以是相同的。例如，在激活函数为分式有理函数形式的神经元中，可以有部分神经元的激活函数相同，所述部分神经元可以分布在相同或不同的层中。

根据本公开的实施例，所述分式有理函数为：

例如，在图2中，神经元第一隐藏层120中的任一神经元h_j(1≤j≤4)的线性处理结果其中，神经元u_i与神经元h_j之间的连接的权重为w_hji，神经元h_j的偏置为b_hj。

第二隐藏层130中的任一神经元v_j(1≤j≤4)的线性处理结果其中，神经元h_i与神经元v_j之间的连接的权重为w_vji，神经元v_j的偏置为b_vj。

输出层140的神经元z的线性处理结果其中，神经元v_i与神经元z之间的连接的权重为w_zi，神经元z的偏置为b_z。

根据本公开的实施例，∝＝1，β＝1，γ＝1；或者∝＝2，β＝2，γ＝1。

根据本公开的实施例，所述神经网络是以下任意一种或几种的组合：卷积神经网络、全连接神经网络、递归神经网络。

图3示出了根据本公开实施例包含上述神经网络的电子设备的框图。

如图3所示，电子设备300包含上述神经网络200。根据本公开的实施例，电子设备300可以是以下任意一种：计算设备、终端设备、服务器。

图4示出了根据本公开实施例训练神经网络的方法的流程图。

根据本公开实施例，所述神经网络包括多个神经元，至少一个所述神经元的激活函数具有分式有理函数形式。根据本公开的实施例，所述神经网络是以下任意一种或几种的组合：卷积神经网络、全连接神经网络、递归神经网络。

如图4所示，所述方法包括步骤S401～S403。

在步骤S401，将训练样本输入所述神经网络。

在步骤S402，通过所述神经网络中的神经元处理所述训练样本，生成输出结果，其中，所述至少一个神经元使用具有所述分式有理函数形式的激活函数进行所述处理。

在步骤S403，调整所述神经网络的参数以优化所述输出结果。

根据本公开的实施例，由于采用分式有理函数形式的激活函数，可以使神经网络在训练时能够快速收敛，满足在线神经网络训练的需要。

根据本公开的实施例，所述神经网络可以用于图像分类，所述训练样本包括图像，所述输出结果包括所述图像所属的类别。例如，可以使用多个已知类别的图像来训练所述神经网络，调节所述神经网络的参数以优化图像的分类结果。例如，训练样本图像包括猫、狗、杯子和帽子四个类别的图像，通过训练神经网络来使得对训练样本图像的分类结果尽可能准确。

根据本公开的实施例，所述神经网络用于目标检测，所述训练样本包括图像，所述输出结果包括所述图像中包含的目标所属的类别和/或所述目标的目标框坐标。例如，可以使用多个包含已知类别和/或目标框坐标的目标的图像来来训练所述神经网络，调节所述神经网络的参数以优化检测到的目标所属类别和/或目标框坐标。例如，训练样本图像为包括目标(例如，猫或狗)的图像，通过训练神经网络得到的输出结果为训练样本图像中的目标的类别(例如，是猫还是狗)和/或目标框坐标(例如，大体上包围目标的方框的四个顶点的坐标)。通过训练神经网络，使检测到的目标所属类别和/或目标框坐标尽可能准确。

根据本公开的实施例，所述神经网络用于人脸特征点定位，所述训练样本包括人脸图像，所述输出结果包括人脸特征点位置坐标。例如，可以使用多个特征点位置坐标已知的人脸图像来来训练所述神经网络，调节所述神经网络的参数以优化定位得到的人脸特征点位置坐标。例如，训练样本图像为特征点已知的人脸图像。人脸特征点例如可以是预先设定的多个点，例如但不限于眼角、嘴角、鼻尖、眉头、眉尾，等等。输出结果为定位到的人脸特征点位置坐标。通过训练神经网络，使定位得到的人脸特征点坐标尽可能准确。

根据本公开的实施例，用于图像分类、目标检测和人脸特征点定位的神经网络可以是卷积神经网络或全连接神经网络。

根据本公开的实施例，所述分式有理函数为：

根据本公开的实施例，所述激活函数包括至少一个参数，所述调整所述神经网络的参数包括调整所述激活函数的参数和/或调整所述神经网络的其他参数。例如，所述其他参数可以包括权重和/或偏置。

具体地，可以在训练时固定激活函数的参数，例如根据经验设置激活函数的参数，而基于训练数据调整其他参数，例如权重和/或偏置。

或者，可以在训练时固定其他参数，例如权重和/或偏置，例如根据经验设置所述其他参数，而基于训练数据调整激活函数的参数。

或者，可以基于训练数据调整激活函数的参数和其他参数。

根据本公开的实施例，所述多个神经元中的至少一些神经元使用相同的激活函数，所述调整所述激活函数的参数包括调整所述至少些神经元的相应激活函数的参数，或者所述调整所述激活函数的参数包括分别调整各神经元的激活函数的参数。

本领域技术人员可以根据所使用的神经网络及其应用场景，自行选择要调整的参数，以满足不同训练速度、精度、计算资源、存储资源、通信资源等的要求，本公开对此不做具体限定。

图5示出了根据本公开实施例通过所述神经网络中的神经元处理所述训练样本的流程图。

如图5所示，通过所述神经网络中的神经元处理所述训练样本，包括步骤S4021～S4023。

在步骤S4021，对响应于所述训练样本而向所述神经元中的第一神经元传输的至少一个第一输入信号进行线性处理得到第一线性处理结果。

根据本公开的实施例，所述第一神经元可以是所述神经网络中除输入层神经元之外的任一神经元。响应于所述训练样本而向第一神经元传输的至少一个第一输入信号包括响应于所述训练样本而由所述第一神经元的“上一跳”神经元产生并向所述第一神经元传输的输入信号。

例如，如果以图2中的神经元h_j作为第一神经元，至少一个第一输入信号包括其“上一跳”神经元u₁、u₂、u₃响应于所述训练样本而产生的输出信号U’₁、U’₂、U’₃，则所述线性处理可以是对信号U’₁、U’₂、U’₃求加权和并加偏置，例如神经元h_j(1≤j≤4)的线性处理结果其中，神经元u_i与神经元h_j之间的连接的权重为w_hji，神经元h_j的偏置为b_hj。

如果以图2中的神经元v_j作为第一神经元，至少一个第一输入信号包括其“上一跳”神经元h₁、h₂、h₃、h₄响应于所述训练样本而产生的输出信号H’₁、H’₂、H’₃、H’₄，则所述线性处理可以是对信号H’₁、H’₂、H’₃、H’₄求加权和并加偏置，例如神经元v_j(1≤j≤4)的线性处理结果其中，神经元h_i与神经元v_j之间的连接的权重为w_vji，神经元v_j的偏置为b_vj。

如果以图2中的神经元z作为第一神经元，则至少一个第一输入信号包括其“上一跳”神经元v₁、v₂、v₃、v₄响应于所述训练样本而产生的输出信号V’₁、V’₂、V’₃、V’₄。所述线性处理可以是对信号V’₁、V’₂、V’₃、V’₄求加权和并加偏置，例如神经元z的线性处理结果其中，神经元v_i与神经元z之间的连接的权重为w_zi，神经元z的偏置为b_z。

在步骤S4022，对所述第一线性处理结果应用所述第一神经元的激活函数，获得第一激活处理结果。

例如，如果以图2中的神经元h_j作为第一神经元，则第一激活处理结果为H′_j＝F_hj(x’_hj)，H’_j即为神经元h_j响应于训练样本而输出的信号，也是神经元h_j响应于训练样本而向其“下一跳”神经元传输的信号。

如果以图2中的神经元v_j作为第一神经元，则第一激活处理结果为V′_j＝F_vj(x’_vj)，V’_j即为神经元v_j响应于训练样本而输出的信号，也是神经元v_j响应于训练样本而向其“下一跳”神经元传输的信号。

如果以图2中的神经元z作为第一神经元，则第一激活处理结果为OUT′_j＝F_z(x’_z)，OUT’即为神经网络的输出结果。

在步骤S4023，从所述第一神经元输出所述第一激活处理结果。

如上文所述，例如，如果以图2中的神经元h_j作为第一神经元，则第一激活处理结果H’_j即为神经元h_j响应于训练样本而向其“下一跳”神经元传输的信号。

如果以图2中的神经元v_j作为第一神经元，则第一激活处理结果V’_j即为神经元v_j响应于训练样本而向其“下一跳”神经元传输的信号。

如果以图2中的神经元z作为第一神经元，则第一激活处理结果OUT’即为神经网络的输出结果。

根据本公开的实施例，所述调整所述神经网络的参数包括通过以下任意一种或几种的组合来调整所述神经网络的参数：遗传算法(Genetic Algorithms)、遗传规划(Genetic Programming)、进化策略(Evolution Strategies)、进化规划(EvolutionProgramming)、梯度下降优化算法。

由于根据本公开实施例的神经网络采用具有分式有理函数形式的激活函数，在训练时能够快速收敛，所以适用于遗传算法、遗传规划、进化策略和进化规划等较为复杂的参数优化方法。

图6示出了根据本公开实施例使用神经网络处理数据的方法的流程图。

如图6所示，所述方法包括步骤S601～S603。

在步骤S601，将待处理数据输入所述神经网络。

在步骤S602，通过所述神经网络中的神经元处理所述待处理数据，生成处理结果，其中，所述至少一个神经元使用具有所述分式有理函数形式的激活函数进行所述处理；

在步骤S603，输出所述处理结果。

根据本公开的实施例，所述神经网络可以用于图像分类，所述待处理数据包括图像，所述处理结果包括所述图像所属的类别。

根据本公开的实施例，所述神经网络可以用于目标检测，所述待处理数据包括图像，所述处理结果包括所述图像中包含的目标所属的类别和/或所述目标的目标框坐标。

根据本公开的实施例，所述神经网络可以用于人脸特征点定位，所述待处理数据包括人脸图像，所述处理结果包括人脸特征点位置坐标。

根据本公开的实施例，所述分式有理函数为：

根据本公开的实施例，所述多个神经元中的至少一些神经元使用相同的激活函数。

图7示出了根据本公开实施例通过所述神经网络中的神经元处理所述待处理数据的流程图。

如图7所示，通过所述神经网络中的神经元处理所述待处理数据，包括步骤S6021～S6023。

在步骤S6021，对响应于所述待处理数据而向所述神经元中的第一神经元传输的至少一个第二输入信号进行线性处理得到第二线性处理结果。

根据本公开的实施例，所述第一神经元可以是所述神经网络中除输入层神经元之外的任一神经元。响应于所述待处理数据而向第一神经元传输的至少一个第二输入信号包括响应于所述待处理数据而由所述第一神经元的“上一跳”神经元产生并向所述第一神经元传输的输入信号。

例如，如果以图2中的神经元h_j作为第一神经元，至少一个第二输入信号包括其“上一跳”神经元u₁、u₂、u₃响应于所述待处理数据而产生的输出信号U”₁、U”₂、U”₃，则所述线性处理可以是对信号U”₁、U”₂、U”₃求加权和并加偏置，例如神经元h_j(1≤j≤4)的线性处理结果其中，神经元u_i与神经元h_j之间的连接的权重为w_hji，神经元h_j的偏置为b_hj。

如果以图2中的神经元v_j作为第一神经元，至少一个第二输入信号包括其“上一跳”神经元h₁、h₂、h₃、h₄响应于所述待处理数据而产生的输出信号H”₁、H”₂、H”₃、H”₄，则所述线性处理可以是对信号H”₁、H”₂、H”₃、H”₄求加权和并加偏置，例如神经元v_j(1≤j≤4)的线性处理结果其中，神经元h_i与神经元v_j之间的连接的权重为w_vji，神经元v_j的偏置为b_vj。

如果以图2中的神经元z作为第一神经元，则至少一个第二输入信号包括其“上一跳”神经元v₁、v₂、v₃、v₄响应于所述待处理数据而产生的输出信号V”₁、V”₂、V”₃、V”₄。所述线性处理可以是对信号V”₁、V”₂、V”₃、V”₄求加权和并加偏置，例如神经元z的线性处理结果其中，神经元v_i与神经元z之间的连接的权重为w_zi，神经元z的偏置为b_z。

在步骤S6022，对所述第二线性处理结果应用所述第一神经元的激活函数，获得第二激活处理结果。

例如，如果以图2中的神经元h_j作为第一神经元，则第二激活处理结果为H″_j＝F_hj(x″_hj)，H”_j即为神经元h_j响应于待处理数据而输出的信号，也是神经元h_j响应于待处理数据而向其“下一跳”神经元传输的信号。

如果以图2中的神经元v_j作为第一神经元，则第二激活处理结果为V″_j＝F_vj(x″_vj)，V”_j即为神经元v_j响应于待处理数据而输出的信号，也是神经元v_j响应于待处理数据而向其“下一跳”神经元传输的信号。

如果以图2中的神经元z作为第一神经元，则第二激活处理结果为OUT″_j＝F_z(x″_z)，OUT”即为神经网络的处理结果。

在步骤S6023，从所述第一神经元输出所述第二激活处理结果。

如上文所述，例如，如果以图2中的神经元h_j作为第一神经元，则第二激活处理结果H”_j即为神经元h_j响应于待处理数据而向其“下一跳”神经元传输的信号。

如果以图2中的神经元v_j作为第一神经元，则第二激活处理结果V”_j即为神经元v_j响应于待处理数据而向其“下一跳”神经元传输的信号。

如果以图2中的神经元z作为第一神经元，则第二激活处理结果OUT”即为神经网络的处理结果。

图8示出根据本公开的实施例的用于训练神经网络的装置的结构框图。

根据本公开的实施例，所述神经网络包括多个神经元，至少一个所述神经元的激活函数具有分式有理函数形式。所述装置可以通过软件、硬件或者两者的结合来实现。

如图8所示，所述用于训练神经网络的装置800包括第一输入模块810、第一处理模块820、调整模块830。

第一输入模块810被配置为将训练样本输入所述神经网络。

第一处理模块820被配置为通过所述神经网络中的神经元处理所述训练样本，生成输出结果，其中，所述至少一个神经元使用具有所述分式有理函数形式的激活函数进行所述处理。

调整模块830被配置为调整所述神经网络的参数以优化所述输出结果。

根据本公开的实施例，所述神经网络用于图像分类，所述训练样本包括图像，所述输出结果包括所述图像所属的类别；或者

根据本公开的实施例，所述分式有理函数为：

根据本公开的实施例，所述激活函数包括至少一个参数，所述调整所述神经网络的参数包括调整所述激活函数的参数和/或调整所述神经网络的其他参数。

根据本公开的实施例，所述多个神经元中的至少一些神经元使用相同的激活函数，所述调整所述激活函数的参数包括调整所述至少一些神经元的相应激活函数的参数。

或者，根据本公开的实施例，所述调整所述激活函数的参数包括分别调整各神经元的激活函数的参数。

根据本公开的实施例，所述调整所述神经网络的参数包括通过以下任意一种或几种的组合来调整所述神经网络的参数：遗传算法、遗传规划、进化策略、进化规划、梯度下降优化算法。

根据本公开的实施例，通过所述神经网络中的神经元处理所述训练样本，包括：

从所述第一神经元输出所述第一激活处理结果。

图9示出根据本公开的实施例的用于使用神经网络处理数据的装置的结构框图。

如图9所示，所述用于使用神经网络处理数据的装置900包括第二输入模块910、第二处理模块920、输出模块930。

第二输入模块910被配置为将待处理数据输入所述神经网络；

第二处理模块920被配置为通过所述神经网络中的神经元处理所述待处理数据，生成处理结果，其中，所述至少一个神经元使用具有所述分式有理函数形式的激活函数进行所述处理；

输出模块930被配置为输出所述处理结果。

根据本公开的实施例，所述神经网络用于图像分类，所述待处理数据包括图像，所述处理结果包括所述图像所属的类别；或者

根据本公开的实施例，所述分式有理函数为：

根据本公开的实施例，通过所述神经网络中的神经元处理所述待处理数据，包括：

从所述第一神经元输出所述第二激活处理结果。

图10示出根据本公开的实施例的电子设备的结构框图。

如图10所示，所述电子设备1000包括存储器1001和处理器1002。所述存储器1001用于存储一条或多条计算机指令。

根据本公开的实施例，所述一条多条计算机指令被所述处理器1002执行以实现以下步骤：

将训练样本输入神经网络，所述神经网络包括多个神经元，至少一个所述神经元的激活函数具有分式有理函数形式；

调整所述神经网络的参数以优化所述输出结果。

根据本公开的实施例，所述分式有理函数为：

从所述第一神经元输出所述第一激活处理结果。

将待处理数据输入神经网络，所述神经网络包括多个神经元，至少一个所述神经元的激活函数具有分式有理函数形式；

输出所述处理结果。

根据本公开的实施例，所述分式有理函数为：

从所述第一神经元输出所述第二激活处理结果。

如图11所示，计算机***1100包括中央处理单元(CPU)1101，其可以根据存储在只读存储器(ROM)1102中的程序或者从存储部分1108加载到随机访问存储器(RAM)1103中的程序而执行上述实施例中的各种处理。在RAM 1103中，还存储有***1100操作所需的各种程序和数据。CPU 1101、ROM 1102以及RAM 1103通过总线1104彼此相连。输入/输出(I/O)接口1105也连接至总线1104。

以下部件连接至I/O接口1105：包括键盘、鼠标等的输入部分1106；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分1107；包括硬盘等的存储部分1108；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分1109。通信部分1109经由诸如因特网的网络执行通信处理。驱动器1110也根据需要连接至I/O接口1105。可拆卸介质1111，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器1110上，以便于从其上读出的计算机程序根据需要被安装入存储部分1108。

特别地，根据本公开的实施例，上文描述的方法可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括有形地包含在及其可读介质上的计算机程序，所述计算机程序包含用于执行上述对象类别确定方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分1109从网络上被下载和安装，和/或从可拆卸介质1111被安装。

附图中的流程图和框图，图示了按照本公开各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的***来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施例中所涉及到的单元或模块可以通过软件的方式实现，也可以通过可编程硬件的方式来实现。所描述的单元或模块也可以设置在处理器中，这些单元或模块的名称在某种情况下并不构成对该单元或模块本身的限定。

作为另一方面，本公开还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中的电子设备或计算机***中所包含的计算机可读存储介质；也可以是单独存在，未装配入设备中的计算机可读存储介质。计算机可读存储介质存储有一个或者一个以上程序，所述程序被一个或者一个以上的处理器用来执行描述于本公开的方法。

以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本公开中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离所述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种训练神经网络的方法，所述神经网络包括多个神经元，至少一个所述神经元的激活函数具有分式有理函数形式，所述方法包括：

将训练样本输入所述神经网络；

调整所述神经网络的参数以优化输出结果；

其中，所述神经网络用于图像分类，所述训练样本包括图像，所述输出结果包括所述图像所属的类别；或者

2.根据权利要求1所述的方法，其特征在于，所述分式有理函数为：

3.根据权利要求2所述的方法，其特征在于：

∝＝1，β＝1，γ＝1；或者

∝＝2，β＝2，γ＝1。

4.根据权利要求1所述的方法，其特征在于：

所述激活函数包括至少一个参数；

5.根据权利要求4所述的方法，其特征在于：

6.根据权利要求1所述的方法，其特征在于：

7.根据权利要求1所述的方法，其特征在于，通过所述神经网络中的神经元处理所述训练样本，包括：

从所述第一神经元输出所述第一激活处理结果。

8.一种使用神经网络处理数据的方法，所述神经网络包括多个神经元，至少一个所述神经元的激活函数具有分式有理函数形式，所述方法包括：

将待处理数据输入所述神经网络；

输出所述处理结果；

其中，所述神经网络用于图像分类，所述待处理数据包括图像，所述处理结果包括所述图像所属的类别；或者

9.根据权利要求8所述的方法，其特征在于，所述分式有理函数为：

10.根据权利要求9所述的方法，其特征在于：

∝＝1，β＝1，γ＝1；或者

∝＝2，β＝2，γ＝1。

11.根据权利要求10所述的方法，其特征在于，所述多个神经元中的至少一些神经元使用相同的激活函数。

12.根据权利要求8所述的方法，其特征在于，所述神经网络是以下任意一种或几种的组合：卷积神经网络、全连接神经网络、递归神经网络。

13.根据权利要求8所述的方法，其特征在于，通过所述神经网络中的神经元处理所述待处理数据，包括：

从所述第一神经元输出所述第二激活处理结果。

14.一种用于训练神经网络的装置，所述神经网络包括多个神经元，至少一个所述神经元的激活函数具有分式有理函数形式，所述装置包括：

第一输入模块，被配置为将训练样本输入所述神经网络；

调整模块，被配置为调整所述神经网络的参数以优化所述输出结果；

15.根据权利要求14所述的装置，其特征在于，所述分式有理函数为：

16.根据权利要求15所述的装置，其特征在于：

∝＝1，β＝1，γ＝1；或者

∝＝2，β＝2，γ＝1。

17.根据权利要求14所述的装置，其特征在于：

所述激活函数包括至少一个参数；

18.根据权利要求17所述的装置，其特征在于：

19.根据权利要求14所述的装置，其特征在于：

20.根据权利要求14所述的装置，其特征在于，通过所述神经网络中的神经元处理所述训练样本，包括：

从所述第一神经元输出所述第一激活处理结果。

21.一种用于使用神经网络处理数据的装置，所述神经网络包括多个神经元，至少一个所述神经元的激活函数具有分式有理函数形式，所述装置包括：

第二输入模块，被配置为将待处理数据输入所述神经网络；

输出模块，被配置为输出所述处理结果；

其中，所述神经网络用于图像分类，训练样本包括图像，输出结果包括所述图像所属的类别；或者

22.根据权利要求21所述的装置，其特征在于，所述分式有理函数为：

23.根据权利要求22所述的装置，其特征在于：

∝＝1，β＝1，γ＝1；或者

∝＝2，β＝2，γ＝1。

24.根据权利要求23所述的装置，其特征在于，所述多个神经元中的至少一些神经元使用相同的激活函数。

25.根据权利要求21所述的装置，其特征在于，所述神经网络是以下任意一种或几种的组合：卷积神经网络、全连接神经网络、递归神经网络。

26.根据权利要求21所述的装置，其特征在于，通过所述神经网络中的神经元处理所述待处理数据，包括：

从所述第一神经元输出所述第二激活处理结果。

27.一种电子设备，其特征在于，包括处理器和存储器，其中：

所述存储器用于存储一条或多条计算机指令；

所述一条或多条计算机指令被所述处理器执行以实现根据权利要求1～13中任一项所述的方法。

28.一种可读存储介质，其上存储有计算机指令，其特征在于，所述一条或多条计算机指令被所述处理器执行以实现根据权利要求1～13中任一项所述的方法。

29.一种神经网络，包括多个神经元，其特征在于，所述多个神经元中的至少一个神经元的激活函数具有分式有理函数形式；

其中，所述神经网络用于图像分类，所述神经网络的训练样本包括图像，所述神经网络的输出结果包括所述图像所属的类别；或者

所述神经网络用于目标检测，所述神经网络的训练样本包括图像，所述神经网络的输出结果包括所述图像中包含的目标所属的类别和/或所述目标的目标框坐标；或者

所述神经网络用于人脸特征点定位，所述神经网络的训练样本包括人脸图像，所述神经网络的输出结果包括人脸特征点位置坐标。

30.根据权利要求29所述的神经网络，其特征在于，所述分式有理函数为：

31.根据权利要求30所述的神经网络，其特征在于：

∝＝1，β＝1，γ＝1；或者

∝＝2，β＝2，γ＝1。

32.根据权利要求31所述的神经网络，其特征在于，所述多个神经元中的至少一些神经元使用相同的激活函数。

33.根据权利要求29所述的神经网络，其特征在于，所述神经网络是以下任意一种或几种的组合：卷积神经网络、全连接神经网络、递归神经网络。

34.一种电子设备，包含根据权利要求29～33中任一项所述的神经网络。