CN111832342B - 神经网络及训练和使用方法、装置、电子设备及介质 - Google Patents

神经网络及训练和使用方法、装置、电子设备及介质 Download PDF

Info

Publication number
CN111832342B
CN111832342B CN201910305394.4A CN201910305394A CN111832342B CN 111832342 B CN111832342 B CN 111832342B CN 201910305394 A CN201910305394 A CN 201910305394A CN 111832342 B CN111832342 B CN 111832342B
Authority
CN
China
Prior art keywords
neural network
neuron
neurons
activation function
processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910305394.4A
Other languages
English (en)
Other versions
CN111832342A (zh
Inventor
陈长国
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201910305394.4A priority Critical patent/CN111832342B/zh
Publication of CN111832342A publication Critical patent/CN111832342A/zh
Application granted granted Critical
Publication of CN111832342B publication Critical patent/CN111832342B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本公开实施例公开了一种神经网络,包括多个神经元,其特征在于,所述多个神经元中的至少一个神经元的激活函数具有分式有理函数形式。本公开实施例还公开了一种训练神经网络的方法、使用神经网络处理数据的方法、装置、电子设备和可读存储介质。使用所述具有分式有理函数形式的激活函数的神经网络在训练时能够快速收敛,满足在线神经网络训练的需要。

Description

神经网络及训练和使用方法、装置、电子设备及介质
技术领域
本公开涉及计算机应用技术领域,具体涉及一种神经网络及训练和使用方法、装置、电子设备及可读存储介质。
背景技术
神经网络(Artificial Neural Network,ANN,简称为“神经网络”)从信息处理角度对人脑神经元网络进行抽象并建立模型,按不同的连接方式组成不同的网络。神经网络包括相互连接的大量节点(或称神经元)。每个神经元代表特定的输出函数,称为激励函数。每两个神经元间的连接都代表一个对于通过该连接的信号的加权值,称之为权重。神经网络的神经元基于其相应的权重、激活函数,及其与其他神经元之间的连接关系等,对输入神经网络的数据进行处理,得到神经网络的输出结果。
近年来,神经网络的研究和应用不断深入,已经取得了很大的进展,其在模式识别、智能机器人、自动控制、预测估计、生物、医学、经济等领域已成功地解决了许多现代计算机难以解决的实际问题,表现出了良好的智能特性。
发明内容
为了解决相关技术中的问题,本公开实施例提供一种神经网络及训练和使用方法、装置、电子设备及可读存储介质。
第一方面,本公开实施例中提供了一种训练神经网络的方法,所述神经网络包括多个神经元,至少一个所述神经元的激活函数具有分式有理函数形式,所述方法包括:
将训练样本输入所述神经网络;
通过所述神经网络中的神经元处理所述训练样本,生成输出结果,其中,所述至少一个神经元使用具有所述分式有理函数形式的激活函数进行所述处理;
调整所述神经网络的参数以优化所述输出结果。
结合第一方面,本公开在第一方面的第一种实现方式中:
所述神经网络用于图像分类,所述训练样本包括图像,所述输出结果包括所述图像所属的类别;或者
所述神经网络用于目标检测,所述训练样本包括图像,所述输出结果包括所述图像中包含的目标所属的类别和/或所述目标的目标框坐标;或者
所述神经网络用于人脸特征点定位,所述训练样本包括人脸图像,所述输出结果包括人脸特征点位置坐标。
结合第一方面,本公开在第一方面的第二种实现方式中,所述分式有理函数为:
其中,α≥1,β>0,γ>0并且α、β、γ的取值使得F(x)的值在[-1,1]区间上,x为向使用所述具有分式有理函数形式的激活函数的所述神经元传输的输入信号的线性处理结果。
结合第一方面的第二种实现方式,本公开在第一方面的第三种实现方式中:
∝=1,β=1,γ=1;或者
∝=2,β=2,γ=1。
结合第一方面,本公开在第一方面的第四种实现方式中:
所述激活函数包括至少一个参数;
所述调整所述神经网络的参数包括调整所述激活函数的参数和/或调整所述神经网络的其他参数。
结合第一方面的第四种实现方式,本公开在第一方面的第五种实现方式中:
所述多个神经元中的至少一些神经元使用相同的激活函数,所述调整所述激活函数的参数包括调整所述至少一些神经元的相应激活函数的参数;或者
所述调整所述激活函数的参数包括分别调整各神经元的激活函数的参数。
结合第一方面,本公开在第一方面的第六种实现方式中:
所述神经网络是以下任意一种或几种的组合:卷积神经网络、全连接神经网络、递归神经网络;并且/或者
所述调整所述神经网络的参数包括通过以下任意一种或几种的组合来调整所述神经网络的参数:遗传算法、遗传规划、进化策略、进化规划、梯度下降优化算法。
结合第一方面,本公开在第一方面的第七种实现方式中,通过所述神经网络中的神经元处理所述训练样本,包括:
对响应于所述训练样本而向所述神经元中的第一神经元传输的至少一个第一输入信号进行线性处理得到第一线性处理结果;
对所述第一线性处理结果应用所述第一神经元的激活函数,获得第一激活处理结果;
从所述第一神经元输出所述第一激活处理结果。
第二方面,本公开实施例中提供了一种使用神经网络处理数据的方法,所述神经网络包括多个神经元,至少一个所述神经元的激活函数具有分式有理函数形式,所述方法包括:
将待处理数据输入所述神经网络;
通过所述神经网络中的神经元处理所述待处理数据,生成处理结果,其中,所述至少一个神经元使用具有所述分式有理函数形式的激活函数进行所述处理;
输出所述处理结果。
结合第二方面,本公开在第二方面的第一种实现方式中:
所述神经网络用于图像分类,所述待处理数据包括图像,所述处理结果包括所述图像所属的类别;或者
所述神经网络用于目标检测,所述待处理数据包括图像,所述处理结果包括所述图像中包含的目标所属的类别和/或所述目标的目标框坐标;或者
所述神经网络用于人脸特征点定位,所述待处理数据包括人脸图像,所述处理结果包括人脸特征点位置坐标。
结合第二方面,本公开在第二方面的第二种实现方式中:所述分式有理函数为:
其中,α≥1,β>0,γ>0并且α、β、γ的取值使得F(x)的值在[-1,1]区间上,x为向使用所述具有分式有理函数形式的激活函数的所述神经元传输的输入信号的线性处理结果。
结合第二方面的第二种实现方式,本公开在第二方面的第三种实现方式中:
∝=1,β=1,γ=1;或者
∝=2,β=2,γ=1。
结合第二方面的第三种实现方式,本公开在第二方面的第四种实现方式中:
所述多个神经元中的至少一些神经元使用相同的激活函数。
结合第二方面,本公开在第二方面的第五种实现方式中:
所述神经网络是以下任意一种或几种的组合:卷积神经网络、全连接神经网络、递归神经网络。
结合第二方面,本公开在第二方面的第六种实现方式中:
通过所述神经网络中的神经元处理所述待处理数据,包括:
对响应于所述待处理数据而向所述神经元中的第一神经元传输的至少一个第二输入信号进行线性处理得到第二线性处理结果;
对所述第二线性处理结果应用所述第一神经元的激活函数,获得第二激活处理结果;
从所述第一神经元输出所述第二激活处理结果。
第三方面,本公开实施例中提供了一种用于训练神经网络的装置,所述神经网络包括多个神经元,至少一个所述神经元的激活函数具有分式有理函数形式,所述装置包括:
第一输入模块,被配置为将训练样本输入所述神经网络;
第一处理模块,被配置为通过所述神经网络中的神经元处理所述训练样本,生成输出结果,其中,所述至少一个神经元使用具有所述分式有理函数形式的激活函数进行所述处理;
调整模块,被配置为调整所述神经网络的参数以优化所述输出结果。
结合第三方面,本公开在第三方面的第一种实现方式中:
所述神经网络用于图像分类,所述训练样本包括图像,所述输出结果包括所述图像所属的类别;或者
所述神经网络用于目标检测,所述训练样本包括图像,所述输出结果包括所述图像中包含的目标所属的类别和/或所述目标的目标框坐标;或者
所述神经网络用于人脸特征点定位,所述训练样本包括人脸图像,所述输出结果包括人脸特征点位置坐标。
结合第三方面,本公开在第三方面的第二种实现方式中,所述分式有理函数为:
其中,α≥1,β>0,γ>0并且α、β、γ的取值使得F(x)的值在[-1,1]区间上,x为向使用所述具有分式有理函数形式的激活函数的所述神经元传输的输入信号的线性处理结果。
结合第三方面的第二种实现方式,本公开在第三方面的第三种实现方式中:
∝=1,β=1,γ=1;或者
∝=2,β=2,γ=1。
结合第三方面,本公开在第三方面的第四种实现方式中:
所述激活函数包括至少一个参数;
所述调整所述神经网络的参数包括调整所述激活函数的参数和/或调整所述神经网络的其他参数。
结合第三方面的第四种实现方式,本公开在第三方面的第五种实现方式中:
所述多个神经元中的至少一些神经元使用相同的激活函数,所述调整所述激活函数的参数包括调整所述至少一些神经元的相应激活函数的参数;或者
所述调整所述激活函数的参数包括分别调整各神经元的激活函数的参数。
结合第三方面,本公开在第三方面的第六种实现方式中:
所述神经网络是以下任意一种或几种的组合:卷积神经网络、全连接神经网络、递归神经网络;并且/或者
所述调整所述神经网络的参数包括通过以下任意一种或几种的组合来调整所述神经网络的参数:遗传算法、遗传规划、进化策略、进化规划、梯度下降优化算法。
结合第三方面,本公开在第三方面的第七种实现方式中,通过所述神经网络中的神经元处理所述训练样本,包括:
对响应于所述训练样本而向所述神经元中的第一神经元传输的至少一个第一输入信号进行线性处理得到第一线性处理结果;
对所述第一线性处理结果应用所述第一神经元的激活函数,获得第一激活处理结果;
从所述第一神经元输出所述第一激活处理结果。
第四方面,本公开实施例中提供了一种用于使用神经网络处理数据的装置,所述神经网络包括多个神经元,至少一个所述神经元的激活函数具有分式有理函数形式,所述装置包括:
第二输入模块,被配置为将待处理数据输入所述神经网络;
第二处理模块,被配置为通过所述神经网络中的神经元处理所述待处理数据,生成处理结果,其中,所述至少一个神经元使用具有所述分式有理函数形式的激活函数进行所述处理;
输出模块,被配置为输出所述处理结果。
结合第四方面,本公开在第四方面的第一种实现方式中:
所述神经网络用于图像分类,所述待处理数据包括图像,所述处理结果包括所述图像所属的类别;或者
所述神经网络用于目标检测,所述待处理数据包括图像,所述处理结果包括所述图像中包含的目标所属的类别和/或所述目标的目标框坐标;或者
所述神经网络用于人脸特征点定位,所述待处理数据包括人脸图像,所述处理结果包括人脸特征点位置坐标。
结合第四方面,本公开在第四方面的第二种实现方式中:所述分式有理函数为:
其中,α≥1,β>0,γ>0并且α、β、γ的取值使得F(x)的值在[-1,1]区间上,x为向使用所述具有分式有理函数形式的激活函数的所述神经元传输的输入信号的线性处理结果。
结合第四方面的第二种实现方式,本公开在第四方面的第三种实现方式中:
∝=1,β=1,γ=1;或者
∝=2,β=2,γ=1。
结合第四方面的第三种实现方式,本公开在第四方面的第四种实现方式中:
所述多个神经元中的至少一些神经元使用相同的激活函数。
结合第四方面,本公开在第四方面的第五种实现方式中:
所述神经网络是以下任意一种或几种的组合:卷积神经网络、全连接神经网络、递归神经网络。
结合第四方面,本公开在第四方面的第六种实现方式中:
通过所述神经网络中的神经元处理所述待处理数据,包括:
对响应于所述待处理数据而向所述神经元中的第一神经元传输的至少一个第二输入信号进行线性处理得到第二线性处理结果;
对所述第二线性处理结果应用所述第一神经元的激活函数,获得第二激活处理结果;
从所述第一神经元输出所述第二激活处理结果。
第五方面,本公开实施例中提供了一种电子设备,其特征在于,包括处理器和存储器,其中:
所述存储器用于存储一条或多条计算机指令;
所述一条或多条计算机指令被所述处理器执行以实现根据第一方面至第二方面第六种实现方式中任一项所述的方法。
第六方面,本公开实施例中提供了一种可读存储介质,其上存储有计算机指令,其特征在于,所述一条或多条计算机指令被所述处理器执行以实现根据第一方面至第二方面第六种实现方式中任一项所述的方法。
第七方面,本公开实施例中提供了一种神经网络,包括多个神经元,其特征在于,所述多个神经元中的至少一个神经元的激活函数具有分式有理函数形式。
结合第七方面,本公开在第七方面的第一种实现方式中:
所述分式有理函数为:
其中,α≥1,β>0,γ>0并且α、β、γ的取值使得F(x)的值在[-1,1]区间上,x为向使用所述具有分式有理函数形式的激活函数的所述神经元传输的输入信号的线性处理结果。
结合第七方面的第一种实现方式,本公开在第七方面的第二种实现方式中:
∝=1,β=1,γ=1;或者
∝=2,β=2,γ=1。
结合第七方面,本公开在第七方面的第三种实现方式中:
所述多个神经元中的至少一些神经元使用相同的激活函数。
结合第七方面,本公开在第七方面的第四种实现方式中:
所述神经网络是以下任意一种或几种的组合:卷积神经网络、全连接神经网络、递归神经网络。
第八方面,本公开实施例中提供了一种电子设备,包含根据第七方面至第七方面第四种实现方式中任一项所述的神经网络。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
结合附图,通过以下非限制性实施方式的详细描述,本公开的其它特征、目的和优点将变得更加明显。在附图中:
图1示出了示例性神经网络的结构示意图;
图2示出了根据本公开实施例的神经网络的结构示意图;
图3示出了根据本公开实施例包含上述神经网络的电子设备的框图;
图4示出了根据本公开实施例训练神经网络的方法的流程图;
图5示出了根据本公开实施例通过所述神经网络中的神经元处理所述训练样本的流程图;
图6示出了根据本公开实施例使用神经网络处理数据的方法的流程图;
图7示出了根据本公开实施例通过所述神经网络中的神经元处理所述待处理数据的流程图;
图8示出根据本公开的实施例的用于训练神经网络的装置的结构框图;
图9示出根据本公开的实施例的用于使用神经网络处理数据的装置的结构框图;
图10示出根据本公开的实施例的电子设备的结构框图;
图11示出适于用来实现根据本公开实施例的训练神经网络的方法和/或使用神经网络处理数据的方法的计算机***的结构示意图。
具体实施方式
下文中,将参考附图详细描述本公开的示例性实施例,以使本领域技术人员可容易地实现它们。此外,为了清楚起见,在附图中省略了与描述示例性实施例无关的部分。
在本公开中,应理解,诸如“包括”或“具有”等的术语旨在指示本说明书中所公开的特征、数字、步骤、行为、部件、部分或其组合的存在,并且不欲排除一个或多个其他特征、数字、步骤、行为、部件、部分或其组合存在或被添加的可能性。
另外还需要说明的是,在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本公开。
图1示出了示例性神经网络的结构示意图。
如图1所示,示例性神经网络100包括输入层110、第一隐藏层120、第二隐藏层130和输出层140。输入层110包括神经元u1、神经元u2、神经元u3,第一隐藏层120包括神经元h1、神经元h2、神经元h3、神经元h4,第二隐藏层130包括神经元v1、神经元v2、神经元v3、神经元v4,输出层140包括神经元z。
神经元u1、神经元u2、神经元u3的输出信号分别为信号U1、信号U2、信号U3,神经元h1、神经元h2、神经元h3、神经元h4的输出信号分别为信号H1、信号H2、信号H3、信号H4,神经元v1、神经元v2、神经元v3、神经元v4的输出信号分别为信号V1、信号V2、信号V3、信号V4,神经元z的输出信号为信号OUT。
如图1所示,输入数据IN通过输入层110进入神经网络100,神经元u1、神经元u2、神经元u3分别输出信号U1、信号U2、信号U3。信号U1、信号U2、信号U3传输经过第一隐藏层120、第二隐藏层130及输出层140中各神经元,由所述各神经元分别进行相应的处理,得到输出结果OUT。
下面以神经元h1为例,说明神经元对信号的处理过程。
如图1所示,神经元u1与神经元h1之间的连接的权重为wh11,神经元u2与神经元h1之间的连接的权重为wh12,神经元u3与神经元h1之间的连接的权重为wh13。神经元h1的偏置为bh1,激活函数为fh1
从神经元u1、神经元u2、神经元u3向神经元h1传输的信号分别为信号U1、信号U2、信号U3。神经元h1对信号U1、信号U2、信号U3求加权和,对加权和应用偏置bh1,然后对得到的结果应用激活函数fh1,得到输出信号
类似地,第一隐藏层120中的任一神经元hj(1≤j≤4)的输出信号其中,神经元ui与神经元hj之间的连接的权重为whji,神经元hj的偏置为bhj,激活函数为fhj
第二隐藏层130中的任一神经元vj(1≤j≤4)的输出信号其中,神经元hi与神经元vj之间的连接的权重为wvji,神经元vj的偏置为bvj,激活函数为fvj
输出层140的神经元z的输出信号其中,神经元vi与神经元z之间的连接的权重为wzi,神经元z的偏置为bz,激活函数为fz
可以理解的是,以上结合图1描述的仅为神经网络的示例。根据实际需要可以设计各种连接关系、权重、偏置和/或激活函数的神经网络,例如全连接神经网络、卷积神经网络、递归神经网络等,本公开对此不做限制。
在实际使用中,一般先使用训练数据对神经网络进行训练,以确定所述神经网络的权重、偏置、激活函数的参数中至少一项或多项的取值或其具体形式。常用的激活函数包括sigmoid函数、tanh函数、relu函数等等。
在做出本公开的过程中,发明人发现,训练神经网络一般比较耗时,为满足在线神经网络训练的需要,希望提出能更快速收敛的神经网络。
基于此考虑,本公开实施例提出一种激活函数,其具有分式有理函数形式。使用所述具有分式有理函数形式的激活函数的神经网络在训练时能够快速收敛,满足在线神经网络训练的需要。
图2示出了根据本公开实施例的神经网络的结构示意图。
如图2所示,神经网络200与图1所示神经网络100的区别在于,至少一个神经元的激活函数F具有分式有理函数形式。
根据本公开的实施例,神经网络的所有激活函数可以都具有分式有理函数形式。例如,图2中的第一隐藏层120、第二隐藏层130和输出层140的神经元的激活函数可以均为分式有理函数形式。
根据本公开的实施例,神经网络可以仅部分神经元的激活函数具有分式有理函数形式。例如,图2中的第一隐藏层120、第二隐藏层130和输出层140中任意一层或两层的神经元的激活函数可以具有分式有理函数形式,而其他神经元可以具有其他形式。或者,图2中的第一隐藏层120、第二隐藏层130和输出层140中的任意一个或多个神经元的激活函数可以具有分式有理函数形式,而其他神经元的激活函数可以具有其他形式,所述多个神经元可以分布在相同或不同的层中。
根据本公开的实施例,神经网络中至少一些神经元的激活函数可以是相同的。例如,在激活函数为分式有理函数形式的神经元中,可以有部分神经元的激活函数相同,所述部分神经元可以分布在相同或不同的层中。
根据本公开的实施例,所述分式有理函数为:
其中,α≥1,β>0,γ>0并且α、β、γ的取值使得F(x)的值在[-1,1]区间上,x为向使用所述具有分式有理函数形式的激活函数的所述神经元传输的输入信号的线性处理结果。
例如,在图2中,神经元第一隐藏层120中的任一神经元hj(1≤j≤4)的线性处理结果其中,神经元ui与神经元hj之间的连接的权重为whji,神经元hj的偏置为bhj
第二隐藏层130中的任一神经元vj(1≤j≤4)的线性处理结果其中,神经元hi与神经元vj之间的连接的权重为wvji,神经元vj的偏置为bvj
输出层140的神经元z的线性处理结果其中,神经元vi与神经元z之间的连接的权重为wzi,神经元z的偏置为bz
根据本公开的实施例,∝=1,β=1,γ=1;或者∝=2,β=2,γ=1。
根据本公开的实施例,所述神经网络是以下任意一种或几种的组合:卷积神经网络、全连接神经网络、递归神经网络。
图3示出了根据本公开实施例包含上述神经网络的电子设备的框图。
如图3所示,电子设备300包含上述神经网络200。根据本公开的实施例,电子设备300可以是以下任意一种:计算设备、终端设备、服务器。
图4示出了根据本公开实施例训练神经网络的方法的流程图。
根据本公开实施例,所述神经网络包括多个神经元,至少一个所述神经元的激活函数具有分式有理函数形式。根据本公开的实施例,所述神经网络是以下任意一种或几种的组合:卷积神经网络、全连接神经网络、递归神经网络。
如图4所示,所述方法包括步骤S401~S403。
在步骤S401,将训练样本输入所述神经网络。
在步骤S402,通过所述神经网络中的神经元处理所述训练样本,生成输出结果,其中,所述至少一个神经元使用具有所述分式有理函数形式的激活函数进行所述处理。
在步骤S403,调整所述神经网络的参数以优化所述输出结果。
根据本公开的实施例,由于采用分式有理函数形式的激活函数,可以使神经网络在训练时能够快速收敛,满足在线神经网络训练的需要。
根据本公开的实施例,所述神经网络可以用于图像分类,所述训练样本包括图像,所述输出结果包括所述图像所属的类别。例如,可以使用多个已知类别的图像来训练所述神经网络,调节所述神经网络的参数以优化图像的分类结果。例如,训练样本图像包括猫、狗、杯子和帽子四个类别的图像,通过训练神经网络来使得对训练样本图像的分类结果尽可能准确。
根据本公开的实施例,所述神经网络用于目标检测,所述训练样本包括图像,所述输出结果包括所述图像中包含的目标所属的类别和/或所述目标的目标框坐标。例如,可以使用多个包含已知类别和/或目标框坐标的目标的图像来来训练所述神经网络,调节所述神经网络的参数以优化检测到的目标所属类别和/或目标框坐标。例如,训练样本图像为包括目标(例如,猫或狗)的图像,通过训练神经网络得到的输出结果为训练样本图像中的目标的类别(例如,是猫还是狗)和/或目标框坐标(例如,大体上包围目标的方框的四个顶点的坐标)。通过训练神经网络,使检测到的目标所属类别和/或目标框坐标尽可能准确。
根据本公开的实施例,所述神经网络用于人脸特征点定位,所述训练样本包括人脸图像,所述输出结果包括人脸特征点位置坐标。例如,可以使用多个特征点位置坐标已知的人脸图像来来训练所述神经网络,调节所述神经网络的参数以优化定位得到的人脸特征点位置坐标。例如,训练样本图像为特征点已知的人脸图像。人脸特征点例如可以是预先设定的多个点,例如但不限于眼角、嘴角、鼻尖、眉头、眉尾,等等。输出结果为定位到的人脸特征点位置坐标。通过训练神经网络,使定位得到的人脸特征点坐标尽可能准确。
根据本公开的实施例,用于图像分类、目标检测和人脸特征点定位的神经网络可以是卷积神经网络或全连接神经网络。
根据本公开的实施例,所述分式有理函数为:
其中,α≥1,β>0,γ>0并且α、β、γ的取值使得F(x)的值在[-1,1]区间上,x为向使用所述具有分式有理函数形式的激活函数的所述神经元传输的输入信号的线性处理结果。
根据本公开的实施例,∝=1,β=1,γ=1;或者∝=2,β=2,γ=1。
根据本公开的实施例,所述激活函数包括至少一个参数,所述调整所述神经网络的参数包括调整所述激活函数的参数和/或调整所述神经网络的其他参数。例如,所述其他参数可以包括权重和/或偏置。
具体地,可以在训练时固定激活函数的参数,例如根据经验设置激活函数的参数,而基于训练数据调整其他参数,例如权重和/或偏置。
或者,可以在训练时固定其他参数,例如权重和/或偏置,例如根据经验设置所述其他参数,而基于训练数据调整激活函数的参数。
或者,可以基于训练数据调整激活函数的参数和其他参数。
根据本公开的实施例,所述多个神经元中的至少一些神经元使用相同的激活函数,所述调整所述激活函数的参数包括调整所述至少些神经元的相应激活函数的参数,或者所述调整所述激活函数的参数包括分别调整各神经元的激活函数的参数。
本领域技术人员可以根据所使用的神经网络及其应用场景,自行选择要调整的参数,以满足不同训练速度、精度、计算资源、存储资源、通信资源等的要求,本公开对此不做具体限定。
图5示出了根据本公开实施例通过所述神经网络中的神经元处理所述训练样本的流程图。
如图5所示,通过所述神经网络中的神经元处理所述训练样本,包括步骤S4021~S4023。
在步骤S4021,对响应于所述训练样本而向所述神经元中的第一神经元传输的至少一个第一输入信号进行线性处理得到第一线性处理结果。
根据本公开的实施例,所述第一神经元可以是所述神经网络中除输入层神经元之外的任一神经元。响应于所述训练样本而向第一神经元传输的至少一个第一输入信号包括响应于所述训练样本而由所述第一神经元的“上一跳”神经元产生并向所述第一神经元传输的输入信号。
例如,如果以图2中的神经元hj作为第一神经元,至少一个第一输入信号包括其“上一跳”神经元u1、u2、u3响应于所述训练样本而产生的输出信号U’1、U’2、U’3,则所述线性处理可以是对信号U’1、U’2、U’3求加权和并加偏置,例如神经元hj(1≤j≤4)的线性处理结果 其中,神经元ui与神经元hj之间的连接的权重为whji,神经元hj的偏置为bhj
如果以图2中的神经元vj作为第一神经元,至少一个第一输入信号包括其“上一跳”神经元h1、h2、h3、h4响应于所述训练样本而产生的输出信号H’1、H’2、H’3、H’4,则所述线性处理可以是对信号H’1、H’2、H’3、H’4求加权和并加偏置,例如神经元vj(1≤j≤4)的线性处理结果其中,神经元hi与神经元vj之间的连接的权重为wvji,神经元vj的偏置为bvj
如果以图2中的神经元z作为第一神经元,则至少一个第一输入信号包括其“上一跳”神经元v1、v2、v3、v4响应于所述训练样本而产生的输出信号V’1、V’2、V’3、V’4。所述线性处理可以是对信号V’1、V’2、V’3、V’4求加权和并加偏置,例如神经元z的线性处理结果其中,神经元vi与神经元z之间的连接的权重为wzi,神经元z的偏置为bz
在步骤S4022,对所述第一线性处理结果应用所述第一神经元的激活函数,获得第一激活处理结果。
例如,如果以图2中的神经元hj作为第一神经元,则第一激活处理结果为H′j=Fhj(x’hj),H’j即为神经元hj响应于训练样本而输出的信号,也是神经元hj响应于训练样本而向其“下一跳”神经元传输的信号。
如果以图2中的神经元vj作为第一神经元,则第一激活处理结果为V′j=Fvj(x’vj),V’j即为神经元vj响应于训练样本而输出的信号,也是神经元vj响应于训练样本而向其“下一跳”神经元传输的信号。
如果以图2中的神经元z作为第一神经元,则第一激活处理结果为OUT′j=Fz(x’z),OUT’即为神经网络的输出结果。
在步骤S4023,从所述第一神经元输出所述第一激活处理结果。
如上文所述,例如,如果以图2中的神经元hj作为第一神经元,则第一激活处理结果H’j即为神经元hj响应于训练样本而向其“下一跳”神经元传输的信号。
如果以图2中的神经元vj作为第一神经元,则第一激活处理结果V’j即为神经元vj响应于训练样本而向其“下一跳”神经元传输的信号。
如果以图2中的神经元z作为第一神经元,则第一激活处理结果OUT’即为神经网络的输出结果。
根据本公开的实施例,所述调整所述神经网络的参数包括通过以下任意一种或几种的组合来调整所述神经网络的参数:遗传算法(Genetic Algorithms)、遗传规划(Genetic Programming)、进化策略(Evolution Strategies)、进化规划(EvolutionProgramming)、梯度下降优化算法。
由于根据本公开实施例的神经网络采用具有分式有理函数形式的激活函数,在训练时能够快速收敛,所以适用于遗传算法、遗传规划、进化策略和进化规划等较为复杂的参数优化方法。
图6示出了根据本公开实施例使用神经网络处理数据的方法的流程图。
根据本公开实施例,所述神经网络包括多个神经元,至少一个所述神经元的激活函数具有分式有理函数形式。根据本公开的实施例,所述神经网络是以下任意一种或几种的组合:卷积神经网络、全连接神经网络、递归神经网络。
如图6所示,所述方法包括步骤S601~S603。
在步骤S601,将待处理数据输入所述神经网络。
在步骤S602,通过所述神经网络中的神经元处理所述待处理数据,生成处理结果,其中,所述至少一个神经元使用具有所述分式有理函数形式的激活函数进行所述处理;
在步骤S603,输出所述处理结果。
根据本公开的实施例,所述神经网络可以用于图像分类,所述待处理数据包括图像,所述处理结果包括所述图像所属的类别。
根据本公开的实施例,所述神经网络可以用于目标检测,所述待处理数据包括图像,所述处理结果包括所述图像中包含的目标所属的类别和/或所述目标的目标框坐标。
根据本公开的实施例,所述神经网络可以用于人脸特征点定位,所述待处理数据包括人脸图像,所述处理结果包括人脸特征点位置坐标。
根据本公开的实施例,所述分式有理函数为:
其中,α≥1,β>0,γ>0并且α、β、γ的取值使得F(x)的值在[-1,1]区间上,x为向使用所述具有分式有理函数形式的激活函数的所述神经元传输的输入信号的线性处理结果。
根据本公开的实施例,∝=1,β=1,γ=1;或者∝=2,β=2,γ=1。
根据本公开的实施例,所述多个神经元中的至少一些神经元使用相同的激活函数。
图7示出了根据本公开实施例通过所述神经网络中的神经元处理所述待处理数据的流程图。
如图7所示,通过所述神经网络中的神经元处理所述待处理数据,包括步骤S6021~S6023。
在步骤S6021,对响应于所述待处理数据而向所述神经元中的第一神经元传输的至少一个第二输入信号进行线性处理得到第二线性处理结果。
根据本公开的实施例,所述第一神经元可以是所述神经网络中除输入层神经元之外的任一神经元。响应于所述待处理数据而向第一神经元传输的至少一个第二输入信号包括响应于所述待处理数据而由所述第一神经元的“上一跳”神经元产生并向所述第一神经元传输的输入信号。
例如,如果以图2中的神经元hj作为第一神经元,至少一个第二输入信号包括其“上一跳”神经元u1、u2、u3响应于所述待处理数据而产生的输出信号U”1、U”2、U”3,则所述线性处理可以是对信号U”1、U”2、U”3求加权和并加偏置,例如神经元hj(1≤j≤4)的线性处理结果其中,神经元ui与神经元hj之间的连接的权重为whji,神经元hj的偏置为bhj
如果以图2中的神经元vj作为第一神经元,至少一个第二输入信号包括其“上一跳”神经元h1、h2、h3、h4响应于所述待处理数据而产生的输出信号H”1、H”2、H”3、H”4,则所述线性处理可以是对信号H”1、H”2、H”3、H”4求加权和并加偏置,例如神经元vj(1≤j≤4)的线性处理结果其中,神经元hi与神经元vj之间的连接的权重为wvji,神经元vj的偏置为bvj
如果以图2中的神经元z作为第一神经元,则至少一个第二输入信号包括其“上一跳”神经元v1、v2、v3、v4响应于所述待处理数据而产生的输出信号V”1、V”2、V”3、V”4。所述线性处理可以是对信号V”1、V”2、V”3、V”4求加权和并加偏置,例如神经元z的线性处理结果其中,神经元vi与神经元z之间的连接的权重为wzi,神经元z的偏置为bz
在步骤S6022,对所述第二线性处理结果应用所述第一神经元的激活函数,获得第二激活处理结果。
例如,如果以图2中的神经元hj作为第一神经元,则第二激活处理结果为H″j=Fhj(x″hj),H”j即为神经元hj响应于待处理数据而输出的信号,也是神经元hj响应于待处理数据而向其“下一跳”神经元传输的信号。
如果以图2中的神经元vj作为第一神经元,则第二激活处理结果为V″j=Fvj(x″vj),V”j即为神经元vj响应于待处理数据而输出的信号,也是神经元vj响应于待处理数据而向其“下一跳”神经元传输的信号。
如果以图2中的神经元z作为第一神经元,则第二激活处理结果为OUT″j=Fz(x″z),OUT”即为神经网络的处理结果。
在步骤S6023,从所述第一神经元输出所述第二激活处理结果。
如上文所述,例如,如果以图2中的神经元hj作为第一神经元,则第二激活处理结果H”j即为神经元hj响应于待处理数据而向其“下一跳”神经元传输的信号。
如果以图2中的神经元vj作为第一神经元,则第二激活处理结果V”j即为神经元vj响应于待处理数据而向其“下一跳”神经元传输的信号。
如果以图2中的神经元z作为第一神经元,则第二激活处理结果OUT”即为神经网络的处理结果。
图8示出根据本公开的实施例的用于训练神经网络的装置的结构框图。
根据本公开的实施例,所述神经网络包括多个神经元,至少一个所述神经元的激活函数具有分式有理函数形式。所述装置可以通过软件、硬件或者两者的结合来实现。
如图8所示,所述用于训练神经网络的装置800包括第一输入模块810、第一处理模块820、调整模块830。
第一输入模块810被配置为将训练样本输入所述神经网络。
第一处理模块820被配置为通过所述神经网络中的神经元处理所述训练样本,生成输出结果,其中,所述至少一个神经元使用具有所述分式有理函数形式的激活函数进行所述处理。
调整模块830被配置为调整所述神经网络的参数以优化所述输出结果。
根据本公开的实施例,所述神经网络用于图像分类,所述训练样本包括图像,所述输出结果包括所述图像所属的类别;或者
所述神经网络用于目标检测,所述训练样本包括图像,所述输出结果包括所述图像中包含的目标所属的类别和/或所述目标的目标框坐标;或者
所述神经网络用于人脸特征点定位,所述训练样本包括人脸图像,所述输出结果包括人脸特征点位置坐标。
根据本公开的实施例,所述分式有理函数为:
其中,α≥1,β>0,γ>0并且α、β、γ的取值使得F(x)的值在[-1,1]区间上,x为向使用所述具有分式有理函数形式的激活函数的所述神经元传输的输入信号的线性处理结果。
根据本公开的实施例,∝=1,β=1,γ=1;或者∝=2,β=2,γ=1。
根据本公开的实施例,所述激活函数包括至少一个参数,所述调整所述神经网络的参数包括调整所述激活函数的参数和/或调整所述神经网络的其他参数。
根据本公开的实施例,所述多个神经元中的至少一些神经元使用相同的激活函数,所述调整所述激活函数的参数包括调整所述至少一些神经元的相应激活函数的参数。
或者,根据本公开的实施例,所述调整所述激活函数的参数包括分别调整各神经元的激活函数的参数。
根据本公开的实施例,所述神经网络是以下任意一种或几种的组合:卷积神经网络、全连接神经网络、递归神经网络。
根据本公开的实施例,所述调整所述神经网络的参数包括通过以下任意一种或几种的组合来调整所述神经网络的参数:遗传算法、遗传规划、进化策略、进化规划、梯度下降优化算法。
根据本公开的实施例,通过所述神经网络中的神经元处理所述训练样本,包括:
对响应于所述训练样本而向所述神经元中的第一神经元传输的至少一个第一输入信号进行线性处理得到第一线性处理结果;
对所述第一线性处理结果应用所述第一神经元的激活函数,获得第一激活处理结果;
从所述第一神经元输出所述第一激活处理结果。
图9示出根据本公开的实施例的用于使用神经网络处理数据的装置的结构框图。
根据本公开的实施例,所述神经网络包括多个神经元,至少一个所述神经元的激活函数具有分式有理函数形式。所述装置可以通过软件、硬件或者两者的结合来实现。
如图9所示,所述用于使用神经网络处理数据的装置900包括第二输入模块910、第二处理模块920、输出模块930。
第二输入模块910被配置为将待处理数据输入所述神经网络;
第二处理模块920被配置为通过所述神经网络中的神经元处理所述待处理数据,生成处理结果,其中,所述至少一个神经元使用具有所述分式有理函数形式的激活函数进行所述处理;
输出模块930被配置为输出所述处理结果。
根据本公开的实施例,所述神经网络用于图像分类,所述待处理数据包括图像,所述处理结果包括所述图像所属的类别;或者
所述神经网络用于目标检测,所述待处理数据包括图像,所述处理结果包括所述图像中包含的目标所属的类别和/或所述目标的目标框坐标;或者
所述神经网络用于人脸特征点定位,所述待处理数据包括人脸图像,所述处理结果包括人脸特征点位置坐标。
根据本公开的实施例,所述分式有理函数为:
其中,α≥1,β>0,γ>0并且α、β、γ的取值使得F(x)的值在[-1,1]区间上,x为向使用所述具有分式有理函数形式的激活函数的所述神经元传输的输入信号的线性处理结果。
根据本公开的实施例,∝=1,β=1,γ=1;或者∝=2,β=2,γ=1。
根据本公开的实施例,所述多个神经元中的至少一些神经元使用相同的激活函数。
根据本公开的实施例,所述神经网络是以下任意一种或几种的组合:卷积神经网络、全连接神经网络、递归神经网络。
根据本公开的实施例,通过所述神经网络中的神经元处理所述待处理数据,包括:
对响应于所述待处理数据而向所述神经元中的第一神经元传输的至少一个第二输入信号进行线性处理得到第二线性处理结果;
对所述第二线性处理结果应用所述第一神经元的激活函数,获得第二激活处理结果;
从所述第一神经元输出所述第二激活处理结果。
图10示出根据本公开的实施例的电子设备的结构框图。
如图10所示,所述电子设备1000包括存储器1001和处理器1002。所述存储器1001用于存储一条或多条计算机指令。
根据本公开的实施例,所述一条多条计算机指令被所述处理器1002执行以实现以下步骤:
将训练样本输入神经网络,所述神经网络包括多个神经元,至少一个所述神经元的激活函数具有分式有理函数形式;
通过所述神经网络中的神经元处理所述训练样本,生成输出结果,其中,所述至少一个神经元使用具有所述分式有理函数形式的激活函数进行所述处理;
调整所述神经网络的参数以优化所述输出结果。
根据本公开的实施例,所述神经网络用于图像分类,所述训练样本包括图像,所述输出结果包括所述图像所属的类别;或者
所述神经网络用于目标检测,所述训练样本包括图像,所述输出结果包括所述图像中包含的目标所属的类别和/或所述目标的目标框坐标;或者
所述神经网络用于人脸特征点定位,所述训练样本包括人脸图像,所述输出结果包括人脸特征点位置坐标。
根据本公开的实施例,所述分式有理函数为:
其中,α≥1,β>0,γ>0并且α、β、γ的取值使得F(x)的值在[-1,1]区间上,x为向使用所述具有分式有理函数形式的激活函数的所述神经元传输的输入信号的线性处理结果。
根据本公开的实施例,∝=1,β=1,γ=1;或者∝=2,β=2,γ=1。
根据本公开的实施例,所述激活函数包括至少一个参数,所述调整所述神经网络的参数包括调整所述激活函数的参数和/或调整所述神经网络的其他参数。
根据本公开的实施例,所述多个神经元中的至少一些神经元使用相同的激活函数,所述调整所述激活函数的参数包括调整所述至少一些神经元的相应激活函数的参数。
或者,根据本公开的实施例,所述调整所述激活函数的参数包括分别调整各神经元的激活函数的参数。
根据本公开的实施例,所述神经网络是以下任意一种或几种的组合:卷积神经网络、全连接神经网络、递归神经网络。
根据本公开的实施例,所述调整所述神经网络的参数包括通过以下任意一种或几种的组合来调整所述神经网络的参数:遗传算法、遗传规划、进化策略、进化规划、梯度下降优化算法。
根据本公开的实施例,通过所述神经网络中的神经元处理所述训练样本,包括:
对响应于所述训练样本而向所述神经元中的第一神经元传输的至少一个第一输入信号进行线性处理得到第一线性处理结果;
对所述第一线性处理结果应用所述第一神经元的激活函数,获得第一激活处理结果;
从所述第一神经元输出所述第一激活处理结果。
根据本公开的实施例,所述一条多条计算机指令被所述处理器1002执行以实现以下步骤:
将待处理数据输入神经网络,所述神经网络包括多个神经元,至少一个所述神经元的激活函数具有分式有理函数形式;
通过所述神经网络中的神经元处理所述待处理数据,生成处理结果,其中,所述至少一个神经元使用具有所述分式有理函数形式的激活函数进行所述处理;
输出所述处理结果。
根据本公开的实施例,所述神经网络用于图像分类,所述待处理数据包括图像,所述处理结果包括所述图像所属的类别;或者
所述神经网络用于目标检测,所述待处理数据包括图像,所述处理结果包括所述图像中包含的目标所属的类别和/或所述目标的目标框坐标;或者
所述神经网络用于人脸特征点定位,所述待处理数据包括人脸图像,所述处理结果包括人脸特征点位置坐标。
根据本公开的实施例,所述分式有理函数为:
其中,α≥1,β>0,γ>0并且α、β、γ的取值使得F(x)的值在[-1,1]区间上,x为向使用所述具有分式有理函数形式的激活函数的所述神经元传输的输入信号的线性处理结果。
根据本公开的实施例,∝=1,β=1,γ=1;或者∝=2,β=2,γ=1。
根据本公开的实施例,所述多个神经元中的至少一些神经元使用相同的激活函数。
根据本公开的实施例,所述神经网络是以下任意一种或几种的组合:卷积神经网络、全连接神经网络、递归神经网络。
根据本公开的实施例,通过所述神经网络中的神经元处理所述待处理数据,包括:
对响应于所述待处理数据而向所述神经元中的第一神经元传输的至少一个第二输入信号进行线性处理得到第二线性处理结果;
对所述第二线性处理结果应用所述第一神经元的激活函数,获得第二激活处理结果;
从所述第一神经元输出所述第二激活处理结果。
图11示出适于用来实现根据本公开实施例的训练神经网络的方法和/或使用神经网络处理数据的方法的计算机***的结构示意图。
如图11所示,计算机***1100包括中央处理单元(CPU)1101,其可以根据存储在只读存储器(ROM)1102中的程序或者从存储部分1108加载到随机访问存储器(RAM)1103中的程序而执行上述实施例中的各种处理。在RAM 1103中,还存储有***1100操作所需的各种程序和数据。CPU 1101、ROM 1102以及RAM 1103通过总线1104彼此相连。输入/输出(I/O)接口1105也连接至总线1104。
以下部件连接至I/O接口1105:包括键盘、鼠标等的输入部分1106;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分1107;包括硬盘等的存储部分1108;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分1109。通信部分1109经由诸如因特网的网络执行通信处理。驱动器1110也根据需要连接至I/O接口1105。可拆卸介质1111,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器1110上,以便于从其上读出的计算机程序根据需要被安装入存储部分1108。
特别地,根据本公开的实施例,上文描述的方法可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括有形地包含在及其可读介质上的计算机程序,所述计算机程序包含用于执行上述对象类别确定方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分1109从网络上被下载和安装,和/或从可拆卸介质1111被安装。
附图中的流程图和框图,图示了按照本公开各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开实施例中所涉及到的单元或模块可以通过软件的方式实现,也可以通过可编程硬件的方式来实现。所描述的单元或模块也可以设置在处理器中,这些单元或模块的名称在某种情况下并不构成对该单元或模块本身的限定。
作为另一方面,本公开还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中的电子设备或计算机***中所包含的计算机可读存储介质;也可以是单独存在,未装配入设备中的计算机可读存储介质。计算机可读存储介质存储有一个或者一个以上程序,所述程序被一个或者一个以上的处理器用来执行描述于本公开的方法。
以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离所述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims (34)

1.一种训练神经网络的方法,所述神经网络包括多个神经元,至少一个所述神经元的激活函数具有分式有理函数形式,所述方法包括:
将训练样本输入所述神经网络;
通过所述神经网络中的神经元处理所述训练样本,生成输出结果,其中,所述至少一个神经元使用具有所述分式有理函数形式的激活函数进行所述处理;
调整所述神经网络的参数以优化输出结果;
其中,所述神经网络用于图像分类,所述训练样本包括图像,所述输出结果包括所述图像所属的类别;或者
所述神经网络用于目标检测,所述训练样本包括图像,所述输出结果包括所述图像中包含的目标所属的类别和/或所述目标的目标框坐标;或者
所述神经网络用于人脸特征点定位,所述训练样本包括人脸图像,所述输出结果包括人脸特征点位置坐标。
2.根据权利要求1所述的方法,其特征在于,所述分式有理函数为:
其中,α≥1,β>0,γ>0并且α、β、γ的取值使得F(x)的值在[-1,1]区间上,x为向使用所述具有分式有理函数形式的激活函数的所述神经元传输的输入信号的线性处理结果。
3.根据权利要求2所述的方法,其特征在于:
∝=1,β=1,γ=1;或者
∝=2,β=2,γ=1。
4.根据权利要求1所述的方法,其特征在于:
所述激活函数包括至少一个参数;
所述调整所述神经网络的参数包括调整所述激活函数的参数和/或调整所述神经网络的其他参数。
5.根据权利要求4所述的方法,其特征在于:
所述多个神经元中的至少一些神经元使用相同的激活函数,所述调整所述激活函数的参数包括调整所述至少一些神经元的相应激活函数的参数;或者
所述调整所述激活函数的参数包括分别调整各神经元的激活函数的参数。
6.根据权利要求1所述的方法,其特征在于:
所述神经网络是以下任意一种或几种的组合:卷积神经网络、全连接神经网络、递归神经网络;并且/或者
所述调整所述神经网络的参数包括通过以下任意一种或几种的组合来调整所述神经网络的参数:遗传算法、遗传规划、进化策略、进化规划、梯度下降优化算法。
7.根据权利要求1所述的方法,其特征在于,通过所述神经网络中的神经元处理所述训练样本,包括:
对响应于所述训练样本而向所述神经元中的第一神经元传输的至少一个第一输入信号进行线性处理得到第一线性处理结果;
对所述第一线性处理结果应用所述第一神经元的激活函数,获得第一激活处理结果;
从所述第一神经元输出所述第一激活处理结果。
8.一种使用神经网络处理数据的方法,所述神经网络包括多个神经元,至少一个所述神经元的激活函数具有分式有理函数形式,所述方法包括:
将待处理数据输入所述神经网络;
通过所述神经网络中的神经元处理所述待处理数据,生成处理结果,其中,所述至少一个神经元使用具有所述分式有理函数形式的激活函数进行所述处理;
输出所述处理结果;
其中,所述神经网络用于图像分类,所述待处理数据包括图像,所述处理结果包括所述图像所属的类别;或者
所述神经网络用于目标检测,所述待处理数据包括图像,所述处理结果包括所述图像中包含的目标所属的类别和/或所述目标的目标框坐标;或者
所述神经网络用于人脸特征点定位,所述待处理数据包括人脸图像,所述处理结果包括人脸特征点位置坐标。
9.根据权利要求8所述的方法,其特征在于,所述分式有理函数为:
其中,α≥1,β>0,γ>0并且α、β、γ的取值使得F(x)的值在[-1,1]区间上,x为向使用所述具有分式有理函数形式的激活函数的所述神经元传输的输入信号的线性处理结果。
10.根据权利要求9所述的方法,其特征在于:
∝=1,β=1,γ=1;或者
∝=2,β=2,γ=1。
11.根据权利要求10所述的方法,其特征在于,所述多个神经元中的至少一些神经元使用相同的激活函数。
12.根据权利要求8所述的方法,其特征在于,所述神经网络是以下任意一种或几种的组合:卷积神经网络、全连接神经网络、递归神经网络。
13.根据权利要求8所述的方法,其特征在于,通过所述神经网络中的神经元处理所述待处理数据,包括:
对响应于所述待处理数据而向所述神经元中的第一神经元传输的至少一个第二输入信号进行线性处理得到第二线性处理结果;
对所述第二线性处理结果应用所述第一神经元的激活函数,获得第二激活处理结果;
从所述第一神经元输出所述第二激活处理结果。
14.一种用于训练神经网络的装置,所述神经网络包括多个神经元,至少一个所述神经元的激活函数具有分式有理函数形式,所述装置包括:
第一输入模块,被配置为将训练样本输入所述神经网络;
第一处理模块,被配置为通过所述神经网络中的神经元处理所述训练样本,生成输出结果,其中,所述至少一个神经元使用具有所述分式有理函数形式的激活函数进行所述处理;
调整模块,被配置为调整所述神经网络的参数以优化所述输出结果;
其中,所述神经网络用于图像分类,所述训练样本包括图像,所述输出结果包括所述图像所属的类别;或者
所述神经网络用于目标检测,所述训练样本包括图像,所述输出结果包括所述图像中包含的目标所属的类别和/或所述目标的目标框坐标;或者
所述神经网络用于人脸特征点定位,所述训练样本包括人脸图像,所述输出结果包括人脸特征点位置坐标。
15.根据权利要求14所述的装置,其特征在于,所述分式有理函数为:
其中,α≥1,β>0,γ>0并且α、β、γ的取值使得F(x)的值在[-1,1]区间上,x为向使用所述具有分式有理函数形式的激活函数的所述神经元传输的输入信号的线性处理结果。
16.根据权利要求15所述的装置,其特征在于:
∝=1,β=1,γ=1;或者
∝=2,β=2,γ=1。
17.根据权利要求14所述的装置,其特征在于:
所述激活函数包括至少一个参数;
所述调整所述神经网络的参数包括调整所述激活函数的参数和/或调整所述神经网络的其他参数。
18.根据权利要求17所述的装置,其特征在于:
所述多个神经元中的至少一些神经元使用相同的激活函数,所述调整所述激活函数的参数包括调整所述至少一些神经元的相应激活函数的参数;或者
所述调整所述激活函数的参数包括分别调整各神经元的激活函数的参数。
19.根据权利要求14所述的装置,其特征在于:
所述神经网络是以下任意一种或几种的组合:卷积神经网络、全连接神经网络、递归神经网络;并且/或者
所述调整所述神经网络的参数包括通过以下任意一种或几种的组合来调整所述神经网络的参数:遗传算法、遗传规划、进化策略、进化规划、梯度下降优化算法。
20.根据权利要求14所述的装置,其特征在于,通过所述神经网络中的神经元处理所述训练样本,包括:
对响应于所述训练样本而向所述神经元中的第一神经元传输的至少一个第一输入信号进行线性处理得到第一线性处理结果;
对所述第一线性处理结果应用所述第一神经元的激活函数,获得第一激活处理结果;
从所述第一神经元输出所述第一激活处理结果。
21.一种用于使用神经网络处理数据的装置,所述神经网络包括多个神经元,至少一个所述神经元的激活函数具有分式有理函数形式,所述装置包括:
第二输入模块,被配置为将待处理数据输入所述神经网络;
第二处理模块,被配置为通过所述神经网络中的神经元处理所述待处理数据,生成处理结果,其中,所述至少一个神经元使用具有所述分式有理函数形式的激活函数进行所述处理;
输出模块,被配置为输出所述处理结果;
其中,所述神经网络用于图像分类,训练样本包括图像,输出结果包括所述图像所属的类别;或者
所述神经网络用于目标检测,所述训练样本包括图像,所述输出结果包括所述图像中包含的目标所属的类别和/或所述目标的目标框坐标;或者
所述神经网络用于人脸特征点定位,所述训练样本包括人脸图像,所述输出结果包括人脸特征点位置坐标。
22.根据权利要求21所述的装置,其特征在于,所述分式有理函数为:
其中,α≥1,β>0,γ>0并且α、β、γ的取值使得F(x)的值在[-1,1]区间上,x为向使用所述具有分式有理函数形式的激活函数的所述神经元传输的输入信号的线性处理结果。
23.根据权利要求22所述的装置,其特征在于:
∝=1,β=1,γ=1;或者
∝=2,β=2,γ=1。
24.根据权利要求23所述的装置,其特征在于,所述多个神经元中的至少一些神经元使用相同的激活函数。
25.根据权利要求21所述的装置,其特征在于,所述神经网络是以下任意一种或几种的组合:卷积神经网络、全连接神经网络、递归神经网络。
26.根据权利要求21所述的装置,其特征在于,通过所述神经网络中的神经元处理所述待处理数据,包括:
对响应于所述待处理数据而向所述神经元中的第一神经元传输的至少一个第二输入信号进行线性处理得到第二线性处理结果;
对所述第二线性处理结果应用所述第一神经元的激活函数,获得第二激活处理结果;
从所述第一神经元输出所述第二激活处理结果。
27.一种电子设备,其特征在于,包括处理器和存储器,其中:
所述存储器用于存储一条或多条计算机指令;
所述一条或多条计算机指令被所述处理器执行以实现根据权利要求1~13中任一项所述的方法。
28.一种可读存储介质,其上存储有计算机指令,其特征在于,所述一条或多条计算机指令被所述处理器执行以实现根据权利要求1~13中任一项所述的方法。
29.一种神经网络,包括多个神经元,其特征在于,所述多个神经元中的至少一个神经元的激活函数具有分式有理函数形式;
其中,所述神经网络用于图像分类,所述神经网络的训练样本包括图像,所述神经网络的输出结果包括所述图像所属的类别;或者
所述神经网络用于目标检测,所述神经网络的训练样本包括图像,所述神经网络的输出结果包括所述图像中包含的目标所属的类别和/或所述目标的目标框坐标;或者
所述神经网络用于人脸特征点定位,所述神经网络的训练样本包括人脸图像,所述神经网络的输出结果包括人脸特征点位置坐标。
30.根据权利要求29所述的神经网络,其特征在于,所述分式有理函数为:
其中,α≥1,β>0,γ>0并且α、β、γ的取值使得F(x)的值在[-1,1]区间上,x为向使用所述具有分式有理函数形式的激活函数的所述神经元传输的输入信号的线性处理结果。
31.根据权利要求30所述的神经网络,其特征在于:
∝=1,β=1,γ=1;或者
∝=2,β=2,γ=1。
32.根据权利要求31所述的神经网络,其特征在于,所述多个神经元中的至少一些神经元使用相同的激活函数。
33.根据权利要求29所述的神经网络,其特征在于,所述神经网络是以下任意一种或几种的组合:卷积神经网络、全连接神经网络、递归神经网络。
34.一种电子设备,包含根据权利要求29~33中任一项所述的神经网络。
CN201910305394.4A 2019-04-16 2019-04-16 神经网络及训练和使用方法、装置、电子设备及介质 Active CN111832342B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910305394.4A CN111832342B (zh) 2019-04-16 2019-04-16 神经网络及训练和使用方法、装置、电子设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910305394.4A CN111832342B (zh) 2019-04-16 2019-04-16 神经网络及训练和使用方法、装置、电子设备及介质

Publications (2)

Publication Number Publication Date
CN111832342A CN111832342A (zh) 2020-10-27
CN111832342B true CN111832342B (zh) 2024-06-21

Family

ID=72915102

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910305394.4A Active CN111832342B (zh) 2019-04-16 2019-04-16 神经网络及训练和使用方法、装置、电子设备及介质

Country Status (1)

Country Link
CN (1) CN111832342B (zh)

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5517667A (en) * 1993-06-14 1996-05-14 Motorola, Inc. Neural network that does not require repetitive training
US5748847A (en) * 1995-12-21 1998-05-05 Maryland Technology Corporation Nonadaptively trained adaptive neural systems
WO2007020466A2 (en) * 2005-08-19 2007-02-22 Axeon Limited Data classification apparatus and method
WO2014060001A1 (en) * 2012-09-13 2014-04-24 FRENKEL, Christina Multitransmitter model of the neural network with an internal feedback
CN104463209B (zh) * 2014-12-08 2017-05-24 福建坤华仪自动化仪器仪表有限公司 一种基于bp神经网络的pcb板上数字代码识别方法
US10831444B2 (en) * 2016-04-04 2020-11-10 Technion Research & Development Foundation Limited Quantized neural network training and inference
CN107516112A (zh) * 2017-08-24 2017-12-26 北京小米移动软件有限公司 对象类别识别方法、装置、设备及存储介质
CN108229298A (zh) * 2017-09-30 2018-06-29 北京市商汤科技开发有限公司 神经网络的训练和人脸识别方法及装置、设备、存储介质
CN108875779A (zh) * 2018-05-07 2018-11-23 深圳市恒扬数据股份有限公司 神经网络的训练方法、装置及终端设备
CN109272115A (zh) * 2018-09-05 2019-01-25 宽凳(北京)科技有限公司 一种神经网络训练方法及装置、设备、介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于神经网络的道路交通污染物浓度预测;杨忠振;吉林大学学报(工学版);705-708 *
过程神经元网络及其在时变信息处理中的应用;何新贵;智能***学报;1-8 *

Also Published As

Publication number Publication date
CN111832342A (zh) 2020-10-27

Similar Documents

Publication Publication Date Title
Hussain et al. A real time face emotion classification and recognition using deep learning model
US20200201871A1 (en) Systems and Methods for Allocating Capital to Trading Strategies for Big Data Trading in Financial Markets
CN107609638B (zh) 一种基于线性编码器和插值采样优化卷积神经网络的方法
CN108073876B (zh) 面部解析设备和面部解析方法
KR20200031163A (ko) 신경 네트워크 구조의 생성 방법 및 장치, 전자 기기, 저장 매체
CN110674714A (zh) 基于迁移学习的人脸和人脸关键点联合检测方法
CN107292352B (zh) 基于卷积神经网络的图像分类方法和装置
CN112257815A (zh) 模型生成方法、目标检测方法、装置、电子设备及介质
CN110889446A (zh) 人脸图像识别模型训练及人脸图像识别方法和装置
CN112529146B (zh) 神经网络模型训练的方法和装置
CN109858505A (zh) 分类识别方法、装置及设备
CN110110794B (zh) 基于特征函数滤波的神经网络参数更新的图像分类方法
CN115761240B (zh) 一种混沌反向传播图神经网络的图像语义分割方法及装置
CN111159279B (zh) 一种模型可视化方法、设备及存储介质
CN115239760B (zh) 一种目标跟踪方法、***、设备及存储介质
CN109902799A (zh) 混合尖峰神经网络和支持向量机分类器
Khashman An emotional system with application to blood cell type identification
CN114723784A (zh) 一种基于域适应技术的行人运动轨迹预测方法
CN113762005B (zh) 特征选择模型的训练、对象分类方法、装置、设备及介质
Song et al. Where-what network 5: Dealing with scales for objects in complex backgrounds
CN111832342B (zh) 神经网络及训练和使用方法、装置、电子设备及介质
CN112287662A (zh) 基于多个机器学习模型的自然语言处理方法、装置和设备
US20220383073A1 (en) Domain adaptation using domain-adversarial learning in synthetic data systems and applications
CN116384516A (zh) 一种基于集成学习的代价敏感云边协同方法
CN110689117A (zh) 基于神经网络的信息处理方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant