CN109919296A - 一种深度神经网络训练方法、装置及计算机设备 - Google Patents

一种深度神经网络训练方法、装置及计算机设备 Download PDF

Info

Publication number
CN109919296A
CN109919296A CN201711319390.9A CN201711319390A CN109919296A CN 109919296 A CN109919296 A CN 109919296A CN 201711319390 A CN201711319390 A CN 201711319390A CN 109919296 A CN109919296 A CN 109919296A
Authority
CN
China
Prior art keywords
node
task
training
network
father node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711319390.9A
Other languages
English (en)
Inventor
谢迪
浦世亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Hikvision Digital Technology Co Ltd
Original Assignee
Hangzhou Hikvision Digital Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Hikvision Digital Technology Co Ltd filed Critical Hangzhou Hikvision Digital Technology Co Ltd
Priority to CN201711319390.9A priority Critical patent/CN109919296A/zh
Priority to EP18889433.1A priority patent/EP3726435A4/en
Priority to PCT/CN2018/119725 priority patent/WO2019114618A1/zh
Priority to US16/771,944 priority patent/US11514315B2/en
Publication of CN109919296A publication Critical patent/CN109919296A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Character Discrimination (AREA)

Abstract

本发明实施例提供了一种深度神经网络训练方法、装置及计算机设备,其中,深度神经网络训练方法包括:针对树状网络拓扑结构中的当前网络层,获取当前网络层中各节点的任务属性,其中,树状网络拓扑结构中的各节点为对应于不同任务的神经网络,树状网络拓扑结构中的叶节点为针对指定任务已完成训练的神经网络;基于当前网络层中各节点的任务属性,对当前网络层中各节点进行聚类分析,提取同一类别中多个节点的任务属性的共性部分,作为多个节点的父节点的任务属性;基于各父节点的任务属性,训练各父节点的网络参数;在对各网络层中各节点完成训练后,确定树状网络拓扑结构对应的深度神经网络训练结束。通过本方案可以提高深度学习的运算效率。

Description

一种深度神经网络训练方法、装置及计算机设备
技术领域
本发明涉及机器学习技术领域,特别是涉及一种深度神经网络训练方法、装置及计算机设备。
背景技术
深度学习是人工智能神经网络基础上发展而来的一种机器学习方法,深度神经网络作为深度学习的主要模型,通过模仿人脑的机制来解释数据,是一种通过建立和模拟人脑进行分析学习的智能模型,其在语音识别、图像分类、人脸识别、自然语言处理、广告投放等应用领域已被广泛应用。
目前,大多数深度学习只针对单个任务,例如,对目标的属性进行检测、对目标的状态进行估计等。针对于复杂的场景,往往需要实现多个任务,通常使用的方法是,利用多个神经网络分别针对各任务进行运算,然后再将运算结果进行合并,这个过程非常消耗时间,并且由于每一个神经网络中存在高度的冗余性,导致深度学习的运算效率较低。
发明内容
本发明实施例的目的在于提供一种深度神经网络训练方法、装置及计算机设备,以提高深度学习的运算效率。具体技术方案如下:
第一方面,本发明实施例提供了一种深度神经网络训练方法,所述方法包括:
针对树状网络拓扑结构中的当前网络层,获取所述当前网络层中各节点的任务属性,其中,所述树状网络拓扑结构中的各节点为对应于不同任务的神经网络,所述树状网络拓扑结构中的叶节点为针对指定任务已完成训练的神经网络;
基于所述当前网络层中各节点的任务属性,对所述当前网络层中各节点进行聚类分析,提取同一类别中多个节点的任务属性的共性部分,作为所述多个节点的父节点的任务属性;
基于各父节点的任务属性,训练各父节点的网络参数;
在对各网络层中各节点完成训练后,确定所述树状网络拓扑结构对应的深度神经网络训练结束。
可选的,所述基于所述当前网络层中各节点的任务属性,对所述当前网络层中各节点进行聚类分析,提取同一类别中多个节点的任务属性的共性部分,作为所述多个节点的父节点的任务属性,包括:
根据所述当前网络层中各节点的任务属性,通过预设算法,生成对应于各节点的任务属性的相似性度量矩阵;
根据所述相似性度量矩阵,将相似性大于预设阈值的多个节点确定为同一类别;
提取同一类别中多个节点的任务属性的共性部分,作为所述多个节点的父节点的任务属性。
可选的,所述基于各父节点的任务属性,训练各父节点的网络参数,包括:
针对任一父节点,基于该父节点的任务属性,通过将该父节点的各子节点的输出特征作为该父节点的输入,训练该父节点的网络参数,完成对该父节点的训练。
可选的,所述基于各父节点的任务属性,训练各父节点的网络参数,包括:
针对任一父节点,基于该父节点的任务属性,利用具有特征信号控制机制的预设结构生成该父节点,通过将该父节点的各子节点的输出特征作为该父节点的输入,选择与任务属性相关的特征信号,消除与任务属性不相关的特征信号,获取与任务属性相关的特征信号的加权组合,作为针对该父节点对应的神经网络的网络参数,完成对该父节点的训练。
可选的,所述在对各网络层中各节点完成训练后,确定所述树状网络拓扑结构对应的深度神经网络训练结束,包括:
从叶节点所处的网络层开始,按照从底层至顶层的训练顺序,依次训练各网络层中节点的网络参数,完成各节点的训练;
在顶层的各节点训练完毕后,确定所述树状网络拓扑结构对应的深度神经网络训练结束。
第二方面,本发明实施例提供了一种深度神经网络训练装置,所述装置包括:
获取模块,用于针对树状网络拓扑结构中的当前网络层,获取所述当前网络层中各节点的任务属性,其中,所述树状网络拓扑结构中的各节点为对应于不同任务的神经网络,所述树状网络拓扑结构中的叶节点为针对指定任务已完成训练的神经网络;
聚类模块,用于基于所述当前网络层中各节点的任务属性,对所述当前网络层中各节点进行聚类分析,提取同一类别中多个节点的任务属性的共性部分,作为所述多个节点的父节点的任务属性;
训练模块,用于基于各父节点的任务属性,训练各父节点的网络参数;
确定模块,用于在对各网络层中各节点完成训练后,确定所述树状网络拓扑结构对应的深度神经网络训练结束。
可选的,所述聚类模块,具体用于:
根据所述当前网络层中各节点的任务属性,通过预设算法,生成对应于各节点的任务属性的相似性度量矩阵;
根据所述相似性度量矩阵,将相似性大于预设阈值的多个节点确定为同一类别;
提取同一类别中多个节点的任务属性的共性部分,作为所述多个节点的父节点的任务属性。
可选的,所述训练模块,具体用于:
针对任一父节点,基于该父节点的任务属性,通过将该父节点的各子节点的输出特征作为该父节点的输入,训练该父节点的网络参数,完成对该父节点的训练。
可选的,所述训练模块,具体用于:
针对任一父节点,基于该父节点的任务属性,利用具有特征信号控制机制的预设结构生成该父节点,通过将该父节点的各子节点的输出特征作为该父节点的输入,选择与任务属性相关的特征信号,消除与任务属性不相关的特征信号,获取与任务属性相关的特征信号的加权组合,作为针对该父节点对应的神经网络的网络参数,完成对该父节点的训练。
可选的,所述确定模块,具体用于:
从叶节点所处的网络层开始,按照从底层至顶层的训练顺序,依次训练各网络层中节点的网络参数,完成各节点的训练;
在顶层的各节点训练完毕后,确定所述树状网络拓扑结构对应的深度神经网络。
第三方面,本发明实施例提供了一种计算机设备,包括处理器和存储器,其中,
所述存储器,用于存放计算机程序;
所述处理器,用于执行所述存储器上所存放的程序时,实现如第一方面所述的方法步骤。
本发明实施例提供的一种深度神经网络训练方法、装置及计算机设备,通过构建树状网络拓扑结构,获取该树状网络拓扑结构中已完成训练的当前网络层中各节点的任务属性,基于任务属性,对当前网络层中各节点进行聚类分析,并将同一类别中多个节点的任务属性的共性部分作为父节点的任务属性,这样就可以根据各父节点的任务属性训练各父节点的网络参数,在对各网络层中各节点完成训练后,可以确定树状网络拓扑结构对应的深度神经网络训练完毕,训练后的深度神经网络可以实现多个任务。由于树状网络拓扑结构中的叶节点为针对指定任务已训练好的神经网络,通过对网络层中各节点的任务属性的共性部分进行提取,可以对指定任务对应的神经网络进行复用,通过一层一层的树状网络拓扑结构的运算,即可以利用一个完整的深度神经网络实现多个指定任务,并且基于任务属性对节点进行聚类,构建属于同一类别的节点的父节点,该父节点可以实现子节点的共性任务,因此可以有效减小神经网络间的冗余,进而提高深度学习的运算效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例的深度神经网络训练方法的流程示意图;
图2为本发明实施例的深度神经网络训练装置的结构示意图;
图3为本发明实施例的计算机设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为了提高深度学习的运算效率,本发明实施例提供了一种深度神经网络训练方法、装置及计算机设备。下面,首先对本发明实施例所提供的深度神经网络训练方法进行介绍。本发明实施例所提供的一种深度神经网络训练方法的执行主体可以为实现多个指定任务的计算机设备,执行主体中至少包括具有数据处理能力的核心处理芯片。实现本发明实施例所提供的一种深度神经网络训练方法的方式可以为设置于执行主体中的软件、硬件电路和逻辑电路中的至少一种方式。
如图1所示,为本发明实施例所提供的一种深度神经网络训练方法,该深度神经网络训练方法可以包括如下步骤:
S101,针对树状网络拓扑结构中的当前网络层,获取当前网络层中各节点的任务属性。
针对多个指定任务,利用预设训练算法,例如反向传播算法、正向传播算法、梯度下降训练算法等,可以得到针对各指定任务的神经网络,每个神经网络可以实现一个具体的任务,例如目标属性检测、目标状态估计等,这些任务之间往往存在一定的相似性,因此实现这些任务的各神经网络中也存在冗余,也就是,已训练好的神经网络之间存在一些相同的网络模型用于实现相同的任务。基于上述考虑,可以基于用于执行不同指定任务的神经网络,设计一个完整的深度神经网络,实现各指定任务。该深度神经网络可以为树状网络拓扑结构,其中每个节点可以为对应于不同任务的神经网络。该树状网络拓扑结构中一共存在三种类型的节点:叶节点、根节点及中间节点。由于最终目的是实现各指定任务,因此,叶节点为针对指定任务已完成训练的神经网络,可以将叶节点视为编码器。中间节点和根节点为基于下一层的节点,向上一层一层训练出来的神经网络。
S102,基于当前网络层中各节点的任务属性,对该当前网络层中各节点进行聚类分析,提取同一类别中多个节点的任务属性的共性部分,作为多个节点的父节点的任务属性。
由于树状网络拓扑结构中的一个网络层中,各节点所对应的任务之间具有一定的相似性,例如,识别目标的性别和识别目标的年龄时,由于这两个指定任务都需要首先检测出人体或者人脸区域,以此为基础进行性别分类与年龄估计,则可以将这两个指定任务对应的两个节点划分为同一类别,并且提取这两个指定任务的共性部分,即对人体或者人脸区域的检测,则可以将对人体或者人脸区域的检测作为上述两个节点的父节点的任务属性。这样,在通过深度神经网络进行运算时,可以先执行对人体或者人脸区域进行检测的任务,在检测出人体或者人脸区域后,再进行目标的性别识别和目标的年龄估计的任务。
聚类分析是将数据分类到不同的类别的过程,因此,同一类别中的对象有很大的相似性。聚类分析的方式有多种,例如***聚类法、分解法、加入法、动态聚类法等,这里不做限定。在本实施例中,聚类分析就是将任务属性相近的节点划分为同一类别,因此可以先根据任务属性的相似性进行任务的聚类,将同一类别的任务属性对应的节点设置为拥有公共的父节点。为了提高聚类分析的效率,可以利用相似性度量进行聚类,因此,可选的,对网络层中各节点进行聚类得到父节点的方式可以包括如下步骤:
第一步,根据当前网络层中各节点的任务属性,通过预设算法,生成对应于各节点的任务属性的相似性度量矩阵。
第二步,根据相似性度量矩阵,将相似性大于预设阈值的多个节点确定为同一类别。
第三步,提取同一类别中多个节点的任务属性的共性部分,作为多个节点的父节点的任务属性。
预设算法为相似性度量所使用的算法,可以为欧氏距离、曼哈顿距离、切比雪夫距离、闵可夫斯基距离、标准化欧氏距离、马氏距离、夹角余弦、汉明距离等,这里不做具体的限定,通过这些算法可以生成任务属性与任务属性之间的相似性度量矩阵,根据该相似性度量矩阵,如果多个任务属性的相似性大于预设阈值,则说明多个任务属性较为相近,则可以将实现这些任务属性的节点确定为同一类别,并且这些任务属性的共性部分可以只运算一次,在基于对任务属性的共性部分的执行后,再执行各任务属性的特性部分,这样就可以有效减少各神经网络之间的冗余,提高运行效率。
S103,基于各父节点的任务属性,训练各父节点的网络参数。
在确定各父节点的任务属性后,即可以确定各父节点需要实现的任务,可以使用实现该任务的传统的神经网络模型,但是各父节点的网络参数需要进行训练才可以确定,也就是使得各父节点的输出可以满足作为其子节点的神经网络的任务的要求,因此,可以通过如下步骤训练各父节点的网络参数:
针对任一父节点,基于该父节点的任务属性,通过将该父节点的各子节点的输出特征作为该父节点的输入,训练该父节点的网络参数,完成对该父节点的训练。
网络参数的训练过程可以是通过将各父节点的子节点的输出特征作为该父节点的输入,然后通过对网络参数进行不断的调整使得各子节点的输出特征满足指定任务。针对树状网络拓扑结构的叶节点,由于神经网络的倒数第一层往往为瞬时函数,而倒数第二层为特征层,即倒数第二层的输出为编码的特征,因此将倒数第二层的输出作为上一层级的节点的输入。
由于不同特征之间会有相互影响,如果输入父节点的特征权值相同,在经过父节点和子节点的运算后,得到的结果可能与原始的任务结果有较大的差别,因此,父节点可以由任意具有信号控制机制的结构构成,例如LSTM(Long Short-Term Memory,长短期记忆)网络机制、注意力Attention机制、GRU(Gated Recurrent Unit,门控循环单元)网络机制等,通过对父节点的输入进行加权组合,训练父节点的网络参数,并在训练的过程中调整权值。即,还可以通过如下步骤训练各父节点的网络参数:
针对任一父节点,基于该父节点的任务属性,利用具有特征信号控制机制的预设结构生成该父节点,通过将该父节点的各子节点的输出特征作为该父节点的输入,选择与任务属性相关的特征信号,消除与任务属性不相关的特征信号,获取与任务属性相关的特征信号的加权组合,作为针对该父节点对应的神经网络的网络参数,完成对该父节点的训练。
父节点可以由任意具有信号控制机制的结构构成的本质就是针对特定的任务属性,自动选择相关的特征信号,同时消除与任务属性不相关的特征信号。并且通过加权组合,可以给子节点中的有效部分分配较大的权值,给无效部分分配较小的权值,这样,就可以在任务结果中突显期望达到的任务效果,同时屏蔽无效部分,从而可以提高指定任务上的性能。
S104,在对各网络层中各节点完成训练后,确定树状网络拓扑结构对应的深度神经网络训练结束。
基于上述过程可以得到树状网络拓扑结构中一个网络层的各节点,通过对各网络层中各节点进行训练,训练结束后即可确定树状网络拓扑结构对应的深度神经网络。
可选的,确定深度神经网络训练结束的步骤,具体可以包括:
从叶节点所处的网络层开始,按照从底层至顶层的训练顺序,依次训练各网络层中节点的网络参数,完成各节点的训练;
在顶层的各节点训练完毕后,确定树状网络拓扑结构对应的深度神经网络训练结束。
执行主体可以周期性的检测是否有新的神经网络,如果新添加了一个指定任务对应的神经网络,则可以按照上述过程,将该神经网络作为树状网络拓扑结构的叶节点,一步步自底至顶训练,直至根节点。为了保证更新的一致性,同一网络层中每一个节点的训练过程是相互独立的,不会受到其他节点的干扰。
应用本实施例,通过构建树状网络拓扑结构,获取该树状网络拓扑结构中已完成训练的当前网络层中各节点的任务属性,基于任务属性,对当前网络层中各节点进行聚类分析,并将同一类别中多个节点的任务属性的共性部分作为父节点的任务属性,这样就可以根据各父节点的任务属性训练各父节点的网络参数,在对各网络层中各节点完成训练后,可以确定树状网络拓扑结构对应的深度神经网络训练完毕,训练后的深度神经网络可以实现多个任务。由于树状网络拓扑结构中的叶节点为针对指定任务已训练好的神经网络,通过对网络层中各节点的任务属性的共性部分进行提取,可以对指定任务对应的神经网络进行复用,通过一层一层的树状网络拓扑结构的运算,即可以利用一个完整的深度神经网络实现多个指定任务,并且通过基于任务属对节点进行聚类,构建属于同一类别的节点的父节点,该父节点可以实现子节点的共性任务,因此可以有效减小神经网络间的冗余,进而提高深度学习的运算效率。
相应于上述方法实施例,本发明实施例提供了一种深度神经网络训练装置,如图2所示,该深度神经网络训练装置可以包括:
获取模块210,用于针对树状网络拓扑结构中的当前网络层,获取所述当前网络层中各节点的任务属性,其中,所述树状网络拓扑结构中的各节点为对应于不同任务的神经网络,所述树状网络拓扑结构中的叶节点为针对指定任务已完成训练的神经网络;
聚类模块220,用于基于所述当前网络层中各节点的任务属性,对所述当前网络层中各节点进行聚类分析,提取同一类别中多个节点的任务属性的共性部分,作为所述多个节点的父节点的任务属性;
训练模块230,用于基于各父节点的任务属性,训练各父节点的网络参数;
确定模块240,用于在对各网络层中各节点完成训练后,确定所述树状网络拓扑结构对应的深度神经网络训练结束。
可选的,所述聚类模块220,具体可以用于:
根据所述当前网络层中各节点的任务属性,通过预设算法,生成对应于各节点的任务属性的相似性度量矩阵;
根据所述相似性度量矩阵,将相似性大于预设阈值的多个节点确定为同一类别;
提取同一类别中多个节点的任务属性的共性部分,作为所述多个节点的父节点的任务属性。
可选的,所述训练模块230,具体可以用于:
针对任一父节点,基于该父节点的任务属性,通过将该父节点的各子节点的输出特征作为该父节点的输入,训练该父节点的网络参数,完成对该父节点的训练。
可选的,所述训练模块230,具体可以用于:
针对任一父节点,基于该父节点的任务属性,利用具有特征信号控制机制的预设结构生成该父节点,通过将该父节点的各子节点的输出特征作为该父节点的输入,选择与任务属性相关的特征信号,消除与任务属性不相关的特征信号,获取与任务属性相关的特征信号的加权组合,作为针对该父节点对应的神经网络的网络参数,完成对该父节点的训练。
可选的,所述确定模块240,具体可以用于:
从叶节点所处的网络层开始,按照从底层至顶层的训练顺序,依次训练各网络层中节点的网络参数,完成各节点的训练;
在顶层的各节点训练完毕后,确定所述树状网络拓扑结构对应的深度神经网络训练结束。
应用本实施例,通过构建树状网络拓扑结构,获取该树状网络拓扑结构中已完成训练的当前网络层中各节点的任务属性,基于任务属性,对当前网络层中各节点进行聚类分析,并将同一类别中多个节点的任务属性的共性部分作为父节点的任务属性,这样就可以根据各父节点的任务属性训练各父节点的网络参数,在对各网络层中各节点完成训练后,可以确定树状网络拓扑结构对应的深度神经网络训练完毕,训练后的深度神经网络可以实现多个任务。由于树状网络拓扑结构中的叶节点为针对指定任务已训练好的神经网络,通过对网络层中各节点的任务属性的共性部分进行提取,可以对指定任务对应的神经网络进行复用,通过一层一层的树状网络拓扑结构的运算,即可以利用一个完整的深度神经网络实现多个指定任务,并且通过基于任务属对节点进行聚类,构建属于同一类别的节点的父节点,该父节点可以实现子节点的共性任务,因此可以有效减小神经网络间的冗余,进而提高深度学习的运算效率。
本发明实施例还提供了一种计算机设备,如图3所示,包括处理器301和存储器302,其中,
存储器302,用于存放计算机程序;
处理器301,用于执行存储器302上所存放的程序时,实现如下步骤:
针对树状网络拓扑结构中的当前网络层,获取所述当前网络层中各节点的任务属性,其中,所述树状网络拓扑结构中的各节点为对应于不同任务的神经网络,所述树状网络拓扑结构中的叶节点为针对指定任务已完成训练的神经网络;
基于所述当前网络层中各节点的任务属性,对所述当前网络层中各节点进行聚类分析,提取同一类别中多个第一节点的任务属性的共性部分,作为所述多个第一节点的父节点的任务属性;
基于各父节点的任务属性,训练各父节点的网络参数;
在对各网络层中各节点完成训练后,确定所述树状网络拓扑结构对应的深度神经网络训练结束。
可选的,所述处理器301在实现所述基于所述当前网络层中各节点的任务属性,对所述当前网络层中各节点进行聚类分析,提取同一类别中多个节点的任务属性的共性部分,作为所述多个节点的父节点的任务属性的步骤中,具体可以实现:
根据所述当前网络层中各节点的任务属性,通过预设算法,生成对应于各节点的任务属性的相似性度量矩阵;
根据所述相似性度量矩阵,将相似性大于预设阈值的多个节点确定为同一类别;
提取同一类别中多个节点的任务属性的共性部分,作为所述多个节点的父节点的任务属性。
可选的,所述处理器301在实现所述基于各父节点的任务属性,训练各父节点的网络参数的步骤中,具体可以实现:
针对任一父节点,基于该父节点的任务属性,通过将该父节点的各子节点的输出特征作为该父节点的输入,训练该父节点的网络参数,完成对该父节点的训练。
可选的,所述处理器301在实现所述基于各父节点的任务属性,训练各父节点的网络参数的步骤中,具体还可以实现:
针对任一父节点,基于该父节点的任务属性,利用具有特征信号控制机制的预设结构生成该父节点,通过将该父节点的各子节点的输出特征作为该父节点的输入,选择与任务属性相关的特征信号,消除与任务属性不相关的特征信号,获取与任务属性相关的特征信号的加权组合,作为针对该父节点对应的神经网络的网络参数,完成对该父节点的训练。
可选的,所述处理器301在实现所述在对各网络层中各节点完成训练后,确定所述树状网络拓扑结构对应的深度神经网络训练结束的步骤中,具体还可以实现:
从叶节点所处的网络层开始,按照从底层至顶层的训练顺序,依次训练各网络层中节点的网络参数,完成各节点的训练;
在顶层的各节点训练完毕后,确定所述树状网络拓扑结构对应的深度神经网络训练结束。
上述存储器可以包括RAM(Random Access Memory,随机存取存储器),也可以包括NVM(Non-Volatile Memory,非易失性存储器),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离上述处理器的存储装置。
上述处理器可以是通用处理器,包括CPU(Central Processing Unit,中央处理器)、NP(Network Processor,网络处理器)等;还可以是DSP(Digital Signal Processing,数字信号处理器)、ASIC(Application Specific Integrated Circuit,专用集成电路)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
本实施例中,该计算机设备的处理器通过读取存储器中存储的计算机程序,并通过运行该计算机程序,能够实现:通过构建树状网络拓扑结构,获取该树状网络拓扑结构中已完成训练的当前网络层中各节点的任务属性,基于任务属性,对当前网络层中各节点进行聚类分析,并将同一类别中多个节点的任务属性的共性部分作为父节点的任务属性,这样就可以根据各父节点的任务属性训练各父节点的网络参数,在对各网络层中各节点完成训练后,可以确定树状网络拓扑结构对应的深度神经网络训练完毕,训练后的深度神经网络可以实现多个任务。由于树状网络拓扑结构中的叶节点为针对指定任务已训练好的神经网络,通过对网络层中各节点的任务属性的共性部分进行提取,可以对指定任务对应的神经网络进行复用,通过一层一层的树状网络拓扑结构的运算,即可以利用一个完整的深度神经网络实现多个指定任务,并且通过基于任务属对节点进行聚类,构建属于同一类别的节点的父节点,该父节点可以实现子节点的共性任务,因此可以有效减小神经网络间的冗余,进而提高深度学习的运算效率。
另外,相应于上述实施例所提供的深度神经网络训练方法,本发明实施例提供了一种计算机可读存储介质,用于存储计算机程序,所述计算机程序被处理器执行时,实现如上述深度神经网络训练方法的步骤。
本实施例中,计算机可读存储介质存储有在运行时执行本发明实施例所提供的深度神经网络训练方法的应用程序,因此能够实现:通过构建树状网络拓扑结构,获取该树状网络拓扑结构中已完成训练的当前网络层中各节点的任务属性,基于任务属性,对当前网络层中各节点进行聚类分析,并将同一类别中多个节点的任务属性的共性部分作为父节点的任务属性,这样就可以根据各父节点的任务属性训练各父节点的网络参数,在对各网络层中各节点完成训练后,可以确定树状网络拓扑结构对应的深度神经网络训练完毕,训练后的深度神经网络可以实现多个任务。由于树状网络拓扑结构中的叶节点为针对指定任务已训练好的神经网络,通过对网络层中各节点的任务属性的共性部分进行提取,可以对指定任务对应的神经网络进行复用,通过一层一层的树状网络拓扑结构的运算,即可以利用一个完整的深度神经网络实现多个指定任务,并且通过基于任务属对节点进行聚类,构建属于同一类别的节点的父节点,该父节点可以实现子节点的共性任务,因此可以有效减小神经网络间的冗余,进而提高深度学习的运算效率。
对于计算机设备以及计算机可读存储介质实施例而言,由于其所涉及的方法内容基本相似于前述的方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置、计算机设备以及计算机可读存储介质实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (11)

1.一种深度神经网络训练方法,其特征在于,所述方法包括:
针对树状网络拓扑结构中的当前网络层,获取所述当前网络层中各节点的任务属性,其中,所述树状网络拓扑结构中的各节点为对应于不同任务的神经网络,所述树状网络拓扑结构中的叶节点为针对指定任务已完成训练的神经网络;
基于所述当前网络层中各节点的任务属性,对所述当前网络层中各节点进行聚类分析,提取同一类别中多个节点的任务属性的共性部分,作为所述多个节点的父节点的任务属性;
基于各父节点的任务属性,训练各父节点的网络参数;
在对各网络层中各节点完成训练后,确定所述树状网络拓扑结构对应的深度神经网络训练结束。
2.根据权利要求1所述的方法,其特征在于,所述基于所述当前网络层中各节点的任务属性,对所述当前网络层中各节点进行聚类分析,提取同一类别中多个节点的任务属性的共性部分,作为所述多个节点的父节点的任务属性,包括:
根据所述当前网络层中各节点的任务属性,通过预设算法,生成对应于各节点的任务属性的相似性度量矩阵;
根据所述相似性度量矩阵,将相似性大于预设阈值的多个节点确定为同一类别;
提取同一类别中多个节点的任务属性的共性部分,作为所述多个节点的父节点的任务属性。
3.根据权利要求1所述的方法,其特征在于,所述基于各父节点的任务属性,训练各父节点的网络参数,包括:
针对任一父节点,基于该父节点的任务属性,通过将该父节点的各子节点的输出特征作为该父节点的输入,训练该父节点的网络参数,完成对该父节点的训练。
4.根据权利要求1所述的方法,其特征在于,所述基于各父节点的任务属性,训练各父节点的网络参数,包括:
针对任一父节点,基于该父节点的任务属性,利用具有特征信号控制机制的预设结构生成该父节点,通过将该父节点的各子节点的输出特征作为该父节点的输入,选择与任务属性相关的特征信号,消除与任务属性不相关的特征信号,获取与任务属性相关的特征信号的加权组合,作为针对该父节点对应的神经网络的网络参数,完成对该父节点的训练。
5.根据权利要求1所述的方法,其特征在于,所述在对各网络层中各节点完成训练后,确定所述树状网络拓扑结构对应的深度神经网络训练结束,包括:
从叶节点所处的网络层开始,按照从底层至顶层的训练顺序,依次训练各网络层中节点的网络参数,完成各节点的训练;
在顶层的各节点训练完毕后,确定所述树状网络拓扑结构对应的深度神经网络训练结束。
6.一种深度神经网络训练装置,其特征在于,所述装置包括:
获取模块,用于针对树状网络拓扑结构中的当前网络层,获取所述当前网络层中各节点的任务属性,其中,所述树状网络拓扑结构中的各节点为对应于不同任务的神经网络,所述树状网络拓扑结构中的叶节点为针对指定任务已完成训练的神经网络;
聚类模块,用于基于所述当前网络层中各节点的任务属性,对所述当前网络层中各节点进行聚类分析,提取同一类别中多个节点的任务属性的共性部分,作为所述多个节点的父节点的任务属性;
训练模块,用于基于各父节点的任务属性,训练各父节点的网络参数;
确定模块,用于在对各网络层中各节点完成训练后,确定所述树状网络拓扑结构对应的深度神经网络训练结束。
7.根据权利要求6所述的装置,其特征在于,所述聚类模块,具体用于:
根据所述当前网络层中各节点的任务属性,通过预设算法,生成对应于各节点的任务属性的相似性度量矩阵;
根据所述相似性度量矩阵,将相似性大于预设阈值的多个节点确定为同一类别;
提取同一类别中多个节点的任务属性的共性部分,作为所述多个节点的父节点的任务属性。
8.根据权利要求6所述的装置,其特征在于,所述训练模块,具体用于:
针对任一父节点,基于该父节点的任务属性,通过将该父节点的各子节点的输出特征作为该父节点的输入,训练该父节点的网络参数,完成对该父节点的训练。
9.根据权利要求6所述的装置,其特征在于,所述训练模块,具体用于:
针对任一父节点,基于该父节点的任务属性,利用具有特征信号控制机制的预设结构生成该父节点,通过将该父节点的各子节点的输出特征作为该父节点的输入,选择与任务属性相关的特征信号,消除与任务属性不相关的特征信号,获取与任务属性相关的特征信号的加权组合,作为针对该父节点对应的神经网络的网络参数,完成对该父节点的训练。
10.根据权利要求6所述的装置,其特征在于,所述确定模块,具体用于:
从叶节点所处的网络层开始,按照从底层至顶层的训练顺序,依次训练各网络层中节点的网络参数,完成各节点的训练;
在顶层的各节点训练完毕后,确定所述树状网络拓扑结构对应的深度神经网络训练结束。
11.一种计算机设备,其特征在于,包括处理器和存储器,其中,
所述存储器,用于存放计算机程序;
所述处理器,用于执行所述存储器上所存放的程序时,实现权利要求1-5任一所述的方法步骤。
CN201711319390.9A 2017-12-12 2017-12-12 一种深度神经网络训练方法、装置及计算机设备 Pending CN109919296A (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN201711319390.9A CN109919296A (zh) 2017-12-12 2017-12-12 一种深度神经网络训练方法、装置及计算机设备
EP18889433.1A EP3726435A4 (en) 2017-12-12 2018-12-07 METHOD AND DEVICE FOR TRAINING DEEP NEURAL NETWORKS AND COMPUTER DEVICE
PCT/CN2018/119725 WO2019114618A1 (zh) 2017-12-12 2018-12-07 一种深度神经网络训练方法、装置及计算机设备
US16/771,944 US11514315B2 (en) 2017-12-12 2018-12-07 Deep neural network training method and apparatus, and computer device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711319390.9A CN109919296A (zh) 2017-12-12 2017-12-12 一种深度神经网络训练方法、装置及计算机设备

Publications (1)

Publication Number Publication Date
CN109919296A true CN109919296A (zh) 2019-06-21

Family

ID=66819940

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711319390.9A Pending CN109919296A (zh) 2017-12-12 2017-12-12 一种深度神经网络训练方法、装置及计算机设备

Country Status (4)

Country Link
US (1) US11514315B2 (zh)
EP (1) EP3726435A4 (zh)
CN (1) CN109919296A (zh)
WO (1) WO2019114618A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110704694A (zh) * 2019-09-29 2020-01-17 哈尔滨工业大学(威海) 一种基于网络表示学习的组织层级划分方法及其应用
CN112990424A (zh) * 2019-12-17 2021-06-18 杭州海康威视数字技术股份有限公司 神经网络模型训练的方法和装置
CN114124654A (zh) * 2020-08-10 2022-03-01 ***通信集团浙江有限公司 告警合并方法、装置、计算设备及计算机存储介质

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7343820B2 (ja) * 2020-04-10 2023-09-13 日本電信電話株式会社 オントロジを用いた文章データ解析情報生成装置、文章データ解析情報生成方法、および文章データ解析情報生成プログラム
US20230153601A1 (en) * 2021-11-15 2023-05-18 International Business Machines Corporation Global neural transducer models leveraging sub-task networks

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9564123B1 (en) * 2014-05-12 2017-02-07 Soundhound, Inc. Method and system for building an integrated user profile
CN106295803A (zh) 2016-08-10 2017-01-04 中国科学技术大学苏州研究院 深度神经网络的构建方法
CN107368294B (zh) * 2017-05-25 2020-06-05 阿里巴巴集团控股有限公司 应用原型生成方法、模板训练方法、装置及***
CN107424612B (zh) 2017-07-28 2021-07-06 北京搜狗科技发展有限公司 处理方法、装置和机器可读介质

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110704694A (zh) * 2019-09-29 2020-01-17 哈尔滨工业大学(威海) 一种基于网络表示学习的组织层级划分方法及其应用
CN110704694B (zh) * 2019-09-29 2021-12-31 哈尔滨工业大学(威海) 一种基于网络表示学习的组织层级划分方法及其应用
CN112990424A (zh) * 2019-12-17 2021-06-18 杭州海康威视数字技术股份有限公司 神经网络模型训练的方法和装置
CN112990424B (zh) * 2019-12-17 2024-05-10 杭州海康威视数字技术股份有限公司 神经网络模型训练的方法和装置
CN114124654A (zh) * 2020-08-10 2022-03-01 ***通信集团浙江有限公司 告警合并方法、装置、计算设备及计算机存储介质
CN114124654B (zh) * 2020-08-10 2023-10-27 ***通信集团浙江有限公司 告警合并方法、装置、计算设备及计算机存储介质

Also Published As

Publication number Publication date
EP3726435A1 (en) 2020-10-21
EP3726435A4 (en) 2021-03-17
WO2019114618A1 (zh) 2019-06-20
US11514315B2 (en) 2022-11-29
US20210073628A1 (en) 2021-03-11

Similar Documents

Publication Publication Date Title
CN109919296A (zh) 一种深度神经网络训练方法、装置及计算机设备
KR102641116B1 (ko) 데이터 증강에 기초한 인식 모델 트레이닝 방법 및 장치, 이미지 인식 방법 및 장치
US20190102655A1 (en) Training data acquisition method and device, server and storage medium
CN109697435A (zh) 人流量监测方法、装置、存储介质及设备
CN107168992A (zh) 基于人工智能的文章分类方法及装置、设备与可读介质
CN109117879A (zh) 图像分类方法、装置及***
CN104112143A (zh) 基于加权超球支持向量机算法的图像分类方法
CN111242948B (zh) 图像处理、模型训练方法、装置、设备和存储介质
CN111739115B (zh) 基于循环一致性的无监督人体姿态迁移方法、***及装置
CN111709468B (zh) 一种定向人工智能的训练方法、装置及存储介质
CN106815310A (zh) 一种对海量文档集的层次聚类方法及***
CN111368911B (zh) 一种图像分类方法、装置和计算机可读存储介质
CN109271546A (zh) 图像检索特征提取模型建立、数据库建立及检索方法
CN109829478A (zh) 一种基于变分自编码器的问题分类方法和装置
Zhou et al. Classroom learning status assessment based on deep learning
CN108073883A (zh) 大规模人群属性识别方法及装置
CN111046655B (zh) 一种数据处理方法、装置及计算机可读存储介质
CN107480627B (zh) 行为识别方法、装置、存储介质和处理器
CN115168720A (zh) 内容交互预测方法以及相关设备
Taslim et al. Plant leaf identification system using convolutional neural network
Ramasso et al. Human action recognition in videos based on the transferable belief model: application to athletics jumps
Ullah et al. Adaptive data balancing method using stacking ensemble model and its application to non-technical loss detection in smart grids
CN113761188A (zh) 文本标签确定方法、装置、计算机设备和存储介质
Yu et al. Augmented semi-supervised learning for salient object detection with edge computing
de Lima et al. Evisclass: a new evaluation method for image data stream classifiers

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination