CN111626098A - 模型的参数值更新方法、装置、设备及介质 - Google Patents

模型的参数值更新方法、装置、设备及介质 Download PDF

Info

Publication number
CN111626098A
CN111626098A CN202010275896.XA CN202010275896A CN111626098A CN 111626098 A CN111626098 A CN 111626098A CN 202010275896 A CN202010275896 A CN 202010275896A CN 111626098 A CN111626098 A CN 111626098A
Authority
CN
China
Prior art keywords
sub
models
output
model
submodels
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010275896.XA
Other languages
English (en)
Other versions
CN111626098B (zh
Inventor
姜慧明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Megvii Technology Co Ltd
Original Assignee
Beijing Megvii Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Megvii Technology Co Ltd filed Critical Beijing Megvii Technology Co Ltd
Priority to CN202010275896.XA priority Critical patent/CN111626098B/zh
Publication of CN111626098A publication Critical patent/CN111626098A/zh
Application granted granted Critical
Publication of CN111626098B publication Critical patent/CN111626098B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/12Fingerprints or palmprints
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/30Scenes; Scene-specific elements in albums, collections or shared content, e.g. social network photos or video
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明实施例提供了一种模型的参数值更新方法、装置、设备及介质,包括:获得携带标签的样本图像,并将样本图像输入到待训练的预设模型,预设模型中包括多个子模型,每个子模型用于对样本图像进行识别;获得由多个子模型各自对样本图像进行识别后输出的识别结果;按照多个子模型各自对应的权重,对多个子模型各自输出的识别结果进行加权处理,得到处理后识别结果;确定处理后识别结果分别与多个子模型各自输出的识别结果之间的损失差异;根据各个损失差异、处理后识别结果、标签以及多个子模型各自输出的识别结果,确定预设模型的整体损失值;根据整体损失值,对多个子模型的参数值分别进行更新。

Description

模型的参数值更新方法、装置、设备及介质
技术领域
本发明涉及机器学习技术领域,特别是涉及一种模型的参数值更新方法、装置、设备及介质。
背景技术
神经网络的学习方式有多种。竞争学习是指网络单元群体中所有单元相互竞争对外界刺激模式响应的权利。竞争取胜的单元的连接权向着对这一刺激模式竞争更有利的方向变化。
对于图像识别问题,通常可以采用竞争学习建立模型。此种情况下,竞争学习包括模型参数学习过程中的类间竞争,多模型共同学习时各子模型输出结果的性能竞争等。
相关技术中,在竞争学习过程中,一个待训练的模型会包括n个子模型,n个子模型之间存在竞争学习,一般为了提高Inference(推理,即用没有训练过的图像输入训练好的模型进行测试的过程)的实时性,最终落地时通常只选择n个子模型中性能最优的子模型,而其他子模型会被丢弃。通过此种方式,虽然能较高效地提高Inference的实时性,但是,选出的最优的子模型实际性能并不佳,导致利用所选出的最优子模型对图像识别的准确性和效率不符合预期。
发明内容
鉴于上述问题,提出了本发明实施例的一种模型的参数值更新方法、装置、设备及存储介质,以便克服上述问题或者至少部分地解决上述问题。
为了解决上述问题,本发明的第一方面公开了一种模型的参数值更新方法,包括:
获得携带标签的样本图像,并将所述样本图像输入到待训练的预设模型,所述预设模型中包括多个子模型,其中,每个子模型用于对所述样本图像进行识别;
获得由所述多个子模型各自对所述样本图像进行识别后输出的识别结果;
按照所述多个子模型各自对应的权重,对所述多个子模型各自输出的识别结果进行加权处理,得到处理后识别结果;
确定所述处理后识别结果分别与所述多个子模型各自输出的识别结果之间的损失差异;
根据各个损失差异、所述处理后识别结果、所述标签以及所述多个子模型各自输出的识别结果,确定所述预设模型的整体损失值;
根据所述整体损失值,对所述多个子模型的参数值分别进行更新。
可选地,在根据所述整体损失值,对所述多个子模型的参数值分别进行更新之后,所述方法还包括:
确定所述多个子模型在该轮训练之前的多轮训练中各自的参数平均值;
根据预设系数、所述多个子模型被更新后各自的参数值、所述多个子模型在该轮训练之前的多轮训练中各自的参数平均值,对所述多个子模型被更新后各自的参数值进行再次更新,得到所述多个子模型在该轮训练结束后各自的新的参数值。
可选地,确定所述处理后识别结果分别与所述多个子模型各自输出的识别结果之间的损失差异,包括:
确定所述处理后识别结果分别与所述多个子模型各自输出的识别结果之间的余弦距离,将所述余弦距离作为所述损失差异;
或者,确定所述处理后识别结果分别与所述多个子模型各自输出的识别结果之间的相对熵,将所述相对熵作为所述损失差异。
可选地,根据各个损失差异、所述处理后识别结果、所述标签以及所述多个子模型各自输出的识别结果,确定所述预设模型的整体损失值,包括:
根据所述标签以及所述多个子模型各自输出的识别结果,确定所述多个子模型各自对应的第一损失值;
根据所述标签以及所述处理后识别结果,确定所述处理后识别结果对应的第二损失值;
将所述第二损失值、各个损失差异以及所述多个子模型各自对应的第一损失值之和,确定为所述预设模型的整体损失值。
可选地,每张样本图像携带多个属性标签,每个子模型用于对所述样本图像的多个属性进行识别;根据各个损失差异、所述权重后处理得到的识别结果、所述标签以及所述多个子模型各自输出的识别结果,确定所述预设模型的整体损失值,包括;
针对每个属性,根据该属性对应的各个损失差异,与该属性对应的处理后识别结果,该属性的属性标签、以及所述多个子模型各自输出的与该属性对应的识别结果,确定该属性对应的整体损失值;
将所述多个属性分别对应的整体损失值之和,确定为所述预设模型的整体损失值。
可选地,所述预设模型还包括权重处理分支;所述方法还包括:
获得所述权重处理分支输出的权重分配比例,所述权重分配比例表征所述多个子模型各自输出的识别结果对应的权重的比值;
按照所述多个子模型各自对应的权重,对所述多个子模型各自输出的识别结果进行加权处理,得到处理后识别结果,包括:
按照所述权重分配比例,对所述多个子模型各自输出的识别结果进行加权求和,得处理后识别结果;
根据所述整体损失值,对所述多个子模型的参数值分别进行更新,包括:
根据所述整体损失值,对所述权重处理分支的参数值和所述多个子模型各自的参数值进行分别更新。
可选地,所述权重处理分支包括:与所述多个子模型的卷积层分别连接的多个一级全连接层,以及与所述多个一级全连接层连接的二级全连接层;其中,所述权重分配比例根据以下步骤获得:
获得由所述多个子模型各自的卷积层输出的特征图,所述特征图由所述多个子模型各自的卷积层对所述样本图像进行特征提取后得到;
将每个子模型的卷积层输出的特征图分别输入到连接至该卷积层的一级全连接层,得到由该一级全连接层输出的结果;
将所述多个一级全连接层各自输出的结果均输入到所述二级全连接层,得到由所述二级全连接层输出的权重比例。
可选地,根据所述整体损失值,对所述多个子模型的参数值分别进行更新之后,所述方法还包括:
以测试集中的测试图像为输入,对训练结束时的预设模型进行测试,得到与所述训练结束时的预设模型中多个子模型分别对应的测试结果;
在所述训练结束时的预设模型中筛选测试结果满足预设测试条件的子模型,得到用于进行图像识别的图像识别模型。
本发明实施例的第二方面,提供一种模型的参数值更新装置,包括:
输入模块,用于获得携带标签的样本图像,并将所述样本图像输入到待训练的预设模型,所述预设模型中包括多个子模型,其中,每个子模型用于对所述样本图像进行识别;
输出结果获得模块,用于获得由所述多个子模型各自对所述样本图像进行识别后输出的识别结果;
权重处理模块,用于按照所述多个子模型各自对应的权重,对所述多个子模型各自输出的识别结果进行加权处理,得到处理后识别结果;
损失差异确定模块,用于确定所述处理后识别结果分别与所述多个子模型各自输出的识别结果之间的损失差异;
整体损失确定模块,用于根据各个损失差异、所述处理后识别结果、所述标签以及所述多个子模型各自输出的识别结果,确定所述预设模型的整体损失值;
参数更新模块,用于根据所述整体损失值,对所述多个子模型的参数值分别进行更新。
本发明实施例的第三方面,还公开了一种电子设备,包括:
一个或多个处理器;和
其上存储有指令的一个或多个机器可读介质,当由所述一个或多个处理器执行时,使得所述设备执行如本发明第一方面实施例所述的一个或多个的模型的参数值更新方法。
本发明实施例的第四方面,还公开了一种计算机可读存储介质,其存储的计算机程序使得处理器执行如本发明第一方面实施例所述的模型的参数值更新方法。
本发明实施例包括以下优点:
在本发明实施例中,将携带标签的样本图像输入到预设模型,根据预设模型中多个子模型各自对应的权重,对多个子模型各自输出的识别结果进行加权处理,得到处理后识别结果,之后,确定该处理后识别结果与多个子模型各自输出的识别结果之间的损失差异,并根据各个损失差异、处理后识别结果、标签,以及多个子模型各自输出的识别结果,确定整体损失值,根据该整体损失值对多个子模型各自的参数值进行更新。
本发明实施例,由于根据多个子模型各自对应的权重,对多个子模型各自输出的识别结果进行加权处理,得到了处理后识别结果,这样,相当于对各个子模型输出的识别结果进行了融合,使得多个竞争学习的子模型之间建立了更强的关联。又由于确定出了处理后识别结果与多个子模型各自输出的识别结果之间的损失差异,并根据该损失差异、处理后识别结果和各个子模型自己输出的识别结果等确定了整体损失值,使得整体损失值可以同时表征各个子模型各自的损失和融合后的识别结果的损失,这样,在根据该整体损失值更新各个子模型的参数时,使得在关联性得到加强的多个子模型中,学习能力较弱的子模型可以辅助学习能力较好的子模型的参数更新,从而可以使得最终被保留的子模型的性能更佳,从而提高了被保留的子模型对图像进行识别的准确性和识别效率。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图
图1是本发明一实施例的一种预设模型的结构示意图;
图2是本发明一实施例的一种模型的参数值更新方法的步骤流程图;
图3是本发明一实施例的另一种预设模型的结构示意图;
图4是本发明一实施例的一种模型的参数值更新装置的框架示意图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参照图1所示,示出了本发明一实施例中的一种预设模型的结构示意图,该预设模型可以包括多个子模型。图1中仅示出了两个子模型101和子模型102,实际中,多个子模型的模型结构可以相同也可以不同,多个子模型可以具有不同的初始参数或相同的初始参数。在一种可能的实施方式中,多个子模型的浅层网络结构(例如:图1中Conv2-Conv3为浅层网络结构,相对地,Conv4-Conv5为深层网络结构)和对应的初始参数可以相同,也可以不同。其中,Conv表示卷积层(convolution)。
其中,多个子模型的输入相同,并可以对相同的输入执行相同的图像识别任务,即,多个子模型均可以对同一输入A进行人脸识别。实际中,该预设模型中多个子模型可以应用于各种图像识别任务中,如人脸识别、视频结构化任务中的行人属性、车辆属性识别、服饰细粒度属性识别、指纹识别等等。
结合图1所示的预设模型,对本发明实施例的一种模型的参数值更新方法进行介绍。
参照图2所示,示出了一实施例中模型的参数值更新方法的步骤流程图,如图2所示,具体可以包括以下步骤:
步骤S201:获得携带标签的样本图像,并将所述样本图像输入到待训练的预设模型。
其中,所述预设模型中包括多个子模型,其中,每个子模型用于对所述样本图像进行识别。
本发明实施例中,子模型的数量可以根据实际需求进行设置,例如可以是3个或5个等。每张样本图像携带的标签可以根据预设模型的识别任务进行设置。
例如,预设模型的识别任务是人脸识别,则携带的标签可以是样本图像中人脸的ID,该ID用于唯一表征该人脸的真实身份,该ID可以是编号。又例如,预设模型的识别任务是行人属性识别,则携带的标签可以表征样本图像中的何人为行人。又例如,预设模型的识别任务是指纹识别,则携带的标签可以是样本图像中的指纹的指纹ID,该指纹ID可以用于唯一表征指纹对应的真实手指。
如图1所示,可以将携带标签的样本图像作为输入,预设模型的卷积层Conv1对样本图像进行卷积处理,得到卷积处理后的特征图,该卷积处理后的特征图分别作为子模型101的输入和子模型102的输入,子模型101和子模型102分别对卷积处理后的特征图进行图像识别,例如,都进行人脸识别或都进行行人属性识别。
步骤S202:获得由所述多个子模型各自对所述样本图像进行识别后输出的识别结果。
本发明实施例中,多个子模型可以分别对卷积处理后的特征图进行图像识别,以得到每个子模型输出的识别结果。
如图1所示,子模型101和子模型102均可以包括不同层级的多个卷积核,该多个卷积和可以对卷积处理后的特征图进行不同层次的卷积处理,之后,子模型101经不同层次的卷积处理得到的特征图作为FC1的输入,FC1输出识别结果P1,子模型102经不同层次的卷积处理得到的特征图作为FC2的输入,FC2输出识别结果P2。
本实施例中,对应于不同识别任务,识别结果的表征方式可以不同,例如,识别任务是指纹识别任务,则识别结果可以是匹配概率,即,表征样本图像中的指纹与底库中预存图像中的指纹为同一手指的指纹的概率。又例如,识别任务是属性识别任务,如是行人属性识别,则识别结果可以是一个1*2的向量,该向量的两个数值分别代表是行人、不是行人。当然,也可以是一个1*3的向量,则该1*3的向量中的三个数值分别代表是行人、不是行人、未知。
步骤S203:按照所述多个子模型各自对应的权重,对所述多个子模型各自输出的识别结果进行加权处理,得到处理后识别结果。
在一种实施方式中,多个子模型各自对应的权重可以预先设置,一个子模型对应的权重可以反映:该子模型输出的识别结果在全部子模型所输出的识别结果中所占的比例。其中,权重可以为小于的正数,各个子模型各自对应的权重之和可以小于或等于1。
对多个子模型各自输出的识别结果进行加权处理可以是指,按照多个子模型各自对应的权重,对多个子模型各自输出的识别结果进行加权求和,将加权求和后的结果作为处理后识别结果。其中,对多个子模型各自输出的识别结果进行加权求和,可以理解为是对多个子模型各自输出的识别结果进行融合,这样,融合后得到的处理后识别结果便可以看作是整个预设模型对图样本进行识别的结果。
示例地,如图1所示,以子模型101对应的权重为0.4、子模型102对应的权重为0.6为例,则对子模型101输出的识别结果P1和子模型102输出的识别结果P2进行加权求和,得到P3,P3=0.4×P1+0.6×P2。该P3可以看作是预设模型对图像识别的识别结果。
步骤S204:确定所述处理后识别结果分别与所述多个子模型各自输出的识别结果之间的损失差异。
本实施例中,由于处理后识别结果是对多个子模型各自输出的识别结果进行加权求和后的结果,则可以进一步确定每个子模型输出的识别结果与该处理后识别结果之间的差异,将该差异作为损失差异。
示例地,如图1所示,可以分别确定P1与P3之间的差异、P2与P3之间的差异,这样便可以得到子模型101对应的损失差异L1和子模型102对应的损失差异L2。
在一种具体实施方式中,可以通过以下步骤S20241或步骤S2042确定损失差异:
步骤S2041:确定所述处理后识别结果分别与所述多个子模型各自输出的识别结果之间的余弦距离,将所述余弦距离作为所述损失差异。
其中,余弦距离也称为余弦相似度,是用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小的度量。在一些属性识别的识别任务中,识别结果可以是1*n的向量,则处理后识别结果也可以是1*n的向量,则可以计算每个子模型输出的识别结果与处理后识别结果在向量空间中的余弦距离,进而该余弦距离可以作为损失差异。其中,余弦距离的取值范围可以是[0,1]。
步骤S2042:确定所述处理后识别结果分别与所述多个子模型各自输出的识别结果之间的相对熵,将所述相对熵作为所述损失差异。
相对熵又被称为Kullback-Leibler散度(Kullback-Leibler divergence)或信息散度(information divergence),是两个概率分布间差异的非对称性度量,等价于两个概率分布的信息熵(Shannon entropy)的差值。
则本实施方式中,在一些人脸识别或指纹识别的识别任务中,识别结果可以是一个匹配概率,则处理后识别结果也可以是匹配概率,则可以计算每个子模型输出的识别结果与处理后识别结果之间的信息熵的差值,进而该差值可以作为损失差异。
步骤S205:根据各个损失差异、所述处理后识别结果、所述标签以及所述多个子模型各自输出的识别结果,确定所述预设模型的整体损失值。
步骤S206:根据所述整体损失值,对所述多个子模型的参数值分别进行更新。
本实施例中,由于整体损失值可以由处理后识别结果、各个损失差异、所述标签以及所述多个子模型各自输出的识别结果得到,则整体损失值可以从整体上表征多个子模型对样本图像进行识别的损失,即可以从整体上反映多个子模型对样本识别的能力,进而可以在竞争学习中,建立多个子模型之间更强的关联,充分地整合了各子模型的性能。则在对各个子模型的参数值进行更新时,使得学习能力较弱的子模型可以辅助学习能力较强的子模型的学习,从而使得各个子模型的参数值更新方向更趋近于全局最优,由此,可以提高各个子模型(特别是学习能力较好的子模型)的图像识别准确度。
其中,整体损失值可以包括处理后识别结果所对应的损失值、多个子模型各自出书的识别结果所对应的损失值以及与每个子模型对应的损失差异。
在一种具体实施方式中,可以通过以下步骤确定预设模型的整体损失值:
步骤S2051:根据所述标签以及所述多个子模型各自输出的识别结果,确定所述多个子模型各自对应的第一损失值。
由于输入到预设模型的样本图像携带标签,该标签对应不同的识别任务,可以反映该识别任务下样本图像的真实情况。例如,识别任务是行人属性识别,则标签可以表征样本图像中的人是否是真实的行人。
实际中,可以采用相关技术中的损失函数,根据标签以及多个子模型各自输出的识别结果,确定多个子模型各自对应的第一损失值。该第一损失值可以表征子模型输出的识别结果与标签所表征的真实情况之间的差距。
步骤S2052:根据所述标签以及所述处理后识别结果,确定所述处理后识别结果对应的第二损失值。
同理,在对多个子模型各自输出的识别结果进行加权处理后,得到的处理后识别结果便可以表征整个预设模型对样本图像进行识别的结果,则也可以采用相关技术中的损失函数,根据标签和处理后识别结果,确定该第二损失值,该第二损失值可以表征多个子模型整体输出的识别结果与标签所表征的真实情况之间的差距。
步骤S2053:将所述第二损失值、各个损失差异以及所述多个子模型各自对应的第一损失值之和,确定为所述预设模型的整体损失值。
本发明实施例,整体损失值可以是第二损失值、各个子模型对应的损失差异以及多个子模型各自对应的第一损失值之和,这样,通过整体损失值的确定便建立了多个子模型之间更强的关联。
上述实施例以输入的一个样本图像为例,对模型的参数值更新进行了说明。实际中,用于训练的样本图像可以有多个,每轮训练时,输入到预设模型的样本图像可以是一张或多张,则仍可以按照以上实施例所述的方法,对每轮输入的每张样本图像确定损失值,并在每轮训练结束时,根据该轮训练结束时的整体损失值,对多个子模型各自的参数值进行更新。
实际中,在一种具体实现中,在每一轮更新多个子模型的参数值后,可以对每一个子模型进行一次参数值修正,以达到更快更准确的收敛。则在每轮训练中对每个子模型的参数值进行更新后,还可以包括以下步骤:
步骤S207:确定所述多个子模型在该轮训练之前的多轮训练中各自的参数平均值。
本实施方式中,在每一轮更新子模型的参数值时,可以根据该轮确定出的整体损失值,对每个模型的参数值先进行一次更新,更新后,便可以得到每个子模型在该轮训练结束时的参数值(以下称该参数值为待修正参数值)。
示例#1,如图1所示,假设该轮更新是第n轮更新,则更新后,子模型101的参数值为m1、子模型102的参数值为m2。
本实施方式中,可以记录每轮训练结束时每个子模型被更新后的参数值,这样,便可以获得本轮训练之前的每轮训练结束时每个子模型的参数值,进而可以确定本轮训练之前的多轮训练中每个子模型的参数值的平均值。
示例#2,如图1所示,可以确定子模型101在第n轮更新前的n-1轮更新中的参数平均值mean1,子模型102在第n轮更新前的n-1轮更新中的参数平均值mean2。
步骤S208:根据预设系数、所述多个子模型被更新后各自的参数值、所述多个子模型在该轮训练之前的多轮训练中各自的参数平均值,对所述多个子模型被更新后各自的参数值进行再次更新,得到所述多个子模型在该轮训练结束后各自的新的参数值。
其中,预设系数可以是预先设置,本实施方式中,可以根据预设系数和每个子模型的参数平均值,对每个子模型的本轮的待修正参数值进行修正,进而得到修正后的参数值,该修正后的参数值作为子模型在该轮训练结束后的新的参数值(以下称该新的参数值为修正后参数值)。
实际中,在得到每个子模型的新的参数值后,在此后的又一轮训练中,便可以对该新的参数值进行更新。
具体地,可以通过以下公式确定每个子模型在本轮训练结束后的新的参数值:
Figure BDA0002444757570000111
其中,y(m,n)表示第m个子模型在第n轮训练结束后的修正后参数值,
Figure BDA0002444757570000112
为预设系数,x(m,n)为第m个子模型在第n轮训练结束时的待修正参数值,xmean为第m个子模型在第n轮训练前的n-1轮更新中得到的的各参数值的平均值。
如图1所示,以上述示例#1和示例#2为例,设预设系数为0.99,则进行参数修正后,子模型101的修正后参数值m101=0.99×m1+(1-0.99)×mean,子模型102的修正后参数值m102=0.99×m2+(1-0.99)×mean2。
采用上述实施方式时,由于在每轮更新时,可以根据训练过程中的历史参数更新记录,对各个子模型更新后的参数值进行一次修正,可以使得参数值更新方向更准确,子模型的性能更佳。
在实际应用中,预设模型执行的识别任务可以是属性识别任务,则预设模型中的各个子模型可以用于对图像的属性进行识别。例如,识别图像中的人是否戴帽子,此种情况下,样本图像携带的标签可以是属性标签。
在一些具体应用场景中,可能需要同时对识别图像中的多种属性进行识别,例如,识别图像中的人是否戴帽子及是否穿裙子。此种情况下,每张样本图像可以携带多个属性标签,每一个属性标签可以表征该样本图像的一个属性。则相应地,每个子模型均可以用于对样本图像的多个属性进行分别识别。
示例地,样本图像携带2个属性标签,其中一个属性标签为样本图像中的人是否戴帽子,如该属性标签是A1时则表示戴帽子,若是A0则表示不戴帽子。另一个属性标签为样本图像中的人是否穿裙子,如该属性标签是B1时表示穿裙子,是B0时表示未穿裙子。则子模型101识别样本图像中的人是否戴帽子以及是否穿裙子,相应地子模型101会输出一个是否戴帽子的属性识别结果和一个是否穿裙子的属性识别结果。
则实际中,在样本图像携带多个属性标签的情况下,每个子模型则会输出与每个属性分别对应的识别结果。如,携带3个属性标签,则每个子模型都会输出3个识别结果,其中,每个识别结果对应一种属性。
此种应用场景中,由于每个子模型都输出了多个不同属性的识别结果,则在确定预设模型的整体损失值时,可以包括以下步骤:
步骤S2061':针对每个属性,根据该属性对应的各个损失差异、与该属性对应的处理后识别结果、该属性的属性标签、以及所述多个子模型各自输出的与该属性对应的识别结果,确定该属性对应的整体损失值。
步骤S2062':将所述多个属性分别对应的整体损失值之和,确定为所述预设模型的整体损失值。
本实施方式中,每个属性对应的整体损失值可以表征预设模型对该样本图像的该属性进行识别的准确性。
具体实现中,每个属性对应的整体损失值,均可以通过以上步骤S202至步骤S206的过程进行。具体地,可以确定每个子模型对每种属性进行识别时所对应的损失差异。针对每个子模型,可以根据每个属性标签和与该属性标签对应的识别结果,确定该子模型中每个属性所对应的损失值。同理,可以针对各个子模型各自输出的与每个属性对应的识别结果,对该属性对应的各识别结果进行加权求和,得到与每个属性对应的处理后识别结果,并根据每个属性对应的处理后识别结果和该属性标签,确定每个属性对应的损失。
示例地,如图1所示,假设属性标签有2个,分别为属性标签A和属性标签B,其中,属性标签A表征是否戴帽子,属性标签B表征是否穿裙子。子模型101输出的识别结果分别为Pa1和Pb1,其中,Pa1对应是否戴帽子的识别结果,Pb1对应是否穿裙子的识别结果。同理,子模型102输出的识别结果分别为Pa2和Pb2。则可以按照子模型101和子模型102分别对应的权重,对Pa1和Pa2进行加权求和得到Pa3,对Pb1和Pb2进行加权求和得到Pb3。
进而,可以得到Pa1与Pa3之间的损失差异La1、Pa2与Pa3之间的损失差异La2、Pb1与Pb3之间的损失差异Lb1、Pb2与Pb3之间的损失差异Lb2。根据Pa1和属性标签A可以得到损失值La1'、根据Pb1和属性标签B得到损失值Lb1',其中,损失值La1'和Lb1'是子模型101对应的损失。同理,根据Pa2和属性标签A可以得到损失值La2'、根据Pb2和属性标签B得到损失值Lb2',其中,损失值La2'和Lb2”是子模型102对应的损失。
进一步,根据属性标签A和Pa3,得到损失值La3,根据属性标签B和Pb3,得到损失值Lb3。则属性标签A对应的损失值为La1、La1'、La2、La2'和La3'的和,则属性标签B对应的损失值为Lb1、Lb1'、Lb2、Lb2'和Lb3'的和。
则预设模型的整体损失值则是属性标签A对应的损失值与属性标签B对应的损失值之和。
实际中,为了提高预设模型的自主学习型,避免人为设置子模型对应的权重时造成的泛化性差和不合理等问题,在一种实施方式中,各个子模型对应的权重也可以是在训练过程中学习得到的。
具体地,在一种具体实现中,所述预设模型还可以包括权重处理分支,该权重处理分支的输入即为各个子模型中对样本图像进行卷积处理后的特征,则在实际处理中,还可以包括以下步骤:
步骤S2020:获得所述权重处理分支输出的权重分配比例,所述权重分配比例表征所述多个子模型各自输出的识别结果对应的权重的比值。
其中,可以在得到多个子模型分别输出的识别结果的同时,得到该权重分配比例。
在一种实施方式中,权重处理分支包括多个一级全连接层和一个二级全连接层,其中,该二级全连接层的输入端可以同时与多个一级全连接层的输出端连接。其中,不同的一级全连接层的输入端可以与一个不同的子模型的卷积层的输出端连接。
参照图3所示,示出了图1所示的预设模型中增加权重处理分支后的结构示意图,如图3所示,权重处理分支可以包括:两个一级全连接层,即FC3和FC4以及一个二级全连接层FC5。其中,一级全连接层FC3的输入端与子模型101中的卷积层的输出端连接,一级全连接层FC4的输入端与子模型102中的卷积层的输出端连接,二级全连接层FC5的输入端同时与一级全连接层FC3的输出端和一级全连接层FC4的输出端连接。
相应地,结合图3所示,对权重处理分支如何输出权重分配比例进行阐述。具体地,权重分配比例根据以下步骤获得:
步骤S20201:获得由所述多个子模型各自的卷积层输出的特征图,所述特征图由所述多个子模型各自的卷积层对所述样本图像进行特征提取后得到。
步骤S20202:将每个子模型的卷积层输出的特征图分别输入到连接至该卷积层的一级全连接层,得到由该一级全连接层输出的结果。
本实施例中,可以将每子模型的卷积层输出的特征图输入到与该子模型的卷积层的输出端连接的一级全连接层中,通过该一级全连接层的处理,得到由该一级全连接层输出的结果。
步骤S20203:将所述多个一级全连接层各自输出的结果均输入到所述二级全连接层,得到由所述二级全连接层输出的权重比例。
本实施方式中,可以将各个一级全连接层各自输出的结果输入到二级全连接层,二级全连接层可以对各个一级全连接层各自输出的结果进行信息处理,以得到各个子模型在竞争学习中的权重,进而形成权重比例进行输出。这样,预设模型可以自主对各个一级全连接层各自输出的结果进行关联,进而学习到一个权重比例,其中,权重比例中的每个权值之和小于或等于1。
示例地,如图1所示,该权重比例为0.4:0.6,则可以表示子模型101的权重为0.4,子模型102的权重为0.6。
相应地,可以通过以下步骤得到处理后识别结果:
步骤S203':按照所述权重分配比例,对所述多个子模型各自输出的识别结果进行加权求和,得处理后识别结果。
本实施方式中,可以根据二级全连接层输出的权重分配比例,得到每个子模型对应的权重,进而对多个子模型各自输出的识别结果进行加权求和,得处理后识别结果。
采用本实施方式时,在对各个子模型的参数值进行更新时,还可以根据所述整体损失值,对所述权重处理分支的参数值进行更新,从而可以实现对权重处理分支一并训练。
本实施例中,在以多个样本图像为训练样本,对预设模型训练结束后,可以根据预设模型中各个子模型对图像进行识别的准确率,保留准确率最高,即性能最优的子模型,从而得到图像识别模型。在一种实施方式中,在对各个子模型的参数值进行多轮更新后,可以通过包括以下步骤的过程得到最终用于进行图像识别的图像识别模型:
步骤S207:以测试集中的测试图像为输入,对训练结束时的预设模型进行测试,得到与所述训练结束时的预设模型中多个子模型分别对应的测试结果。
其中,可以根据训练预设模型时所依据的识别任务,获得测试集中的测试图像,例如,识别任务是指纹识别任务,则测试图像是测试用指纹图像,若识别任务是行人属性识别任务,则测试图像是测试用行人图像,若识别任务是服饰细粒度属性识别任务,则测试图像是测试用人物服饰图像。
实际中,训练结束时的预设模型中包括多个被训练好的子模型,则该多个训练好的子模型可以分别对测试图像进行识别,进而得到多个子模型分别输出的识别结果,该识别结果则为测试结果。
其中,根据不同的识别任务,测试结果的表征方式可以不同。例如,对于服饰细粒度属性识别任务,测试用人物服饰图像中的人是戴帽子的人,则测试结果是子模型对测试用人物服饰图像进行识别后输出的是否戴帽子的1*2的向量。例如,测试结果为(0.8,0.2),则表示戴帽子的概率是0.8。
步骤S208:在所述训练结束时的预设模型中筛选测试结果满足预设测试条件的子模型,得到用于进行图像识别的图像识别模型。
本实施例中,可以根据测试结果确定多个子模型各自对测试图像进行识别的准确率高低,则可以按照准确率从高到低的顺序,将准确率最高所对应的子模型确定为满足预设测试条件的子模型。当然,实际中,也可以将准确率达到预设准确率所对应的子模型确定为满足预设测试条件的子模型。
具体实现中,可以将测试结果满足预设测试条件的子模型进行保留,而对于其余的子模型则可以丢弃,如此,便得到了图像识别模型。
示例地,如图1所示,对于服饰细粒度属性识别任务,子模型101输出的测试结果是为(0.8,0.2),则表示戴帽子的概率是0.8,子模型102输出的测试结果是(0.9,0.1),表示戴帽子的概率是0.9,实际中该测试图像中的人是戴帽子,则子模型102的准确率更高,因此,可以将子模型102保留,将子模型101丢弃,进而得到的图像识别模型中便可以只包括子模型102。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。
基于同一发明构思,参考图4,示出了本发明实施例的一种模型的参数值更新装置的框架示意图,如图4所示,具体可以包括以下模块:
输入模块401,用于获得携带标签的样本图像,并将所述样本图像输入到待训练的预设模型,所述预设模型中包括多个子模型,其中,每个子模型用于对所述样本图像进行识别;
输出结果获得模块402,用于获得由所述多个子模型各自对所述样本图像进行识别后输出的识别结果;
权重处理模块403,用于按照所述多个子模型各自对应的权重,对所述多个子模型各自输出的识别结果进行加权处理,得到处理后识别结果;
损失差异确定模块404,用于确定所述处理后识别结果分别与所述多个子模型各自输出的识别结果之间的损失差异;
整体损失确定模块405,用于根据各个损失差异、所述处理后识别结果、所述标签以及所述多个子模型各自输出的识别结果,确定所述预设模型的整体损失值;
参数更新模块406,用于根据所述整体损失值,对所述多个子模型的参数值分别进行更新。
可选地,所述装置还可以包括参数修正模块,所述参数修正模块具体可以包括以下单元:
参数平均值确定单元,可以用于确定所述多个子模型在该轮训练之前的多轮训练中各自的参数平均值;
参数修正单元,可以用于根据预设系数、所述多个子模型被更新后各自的参数值、所述多个子模型在该轮训练之前的多轮训练中各自的参数平均值,对所述多个子模型被更新后各自的参数值进行再次更新,得到所述多个子模型在该轮训练结束后各自的新的参数值。
可选地,所述损失差异确定模块404,可以用于确定所述处理后识别结果分别与所述多个子模型各自输出的识别结果之间的余弦距离,将所述余弦距离作为所述损失差异;或者,
可以用于确定所述处理后识别结果分别与所述多个子模型各自输出的识别结果之间的相对熵,将所述相对熵作为所述损失差异。
可选地,所述整体损失确定模块405,可以包括以下单元:
第一确定单元,用于根据所述标签以及所述多个子模型各自输出的识别结果,确定所述多个子模型各自对应的第一损失值;
第二确定单元,用于根据所述标签以及所述处理后识别结果,确定所述处理后识别结果对应的第二损失值;
第三确定单元,用于将所述第二损失值、各个损失差异以及所述多个子模型各自对应的第一损失值之和,确定为所述预设模型的整体损失值。
可选地,每张样本图像携带多个属性标签,每个子模型用于对所述样本图像的多个属性进行识别;所述整体损失确定模块,可以包括以下单元;
第四确定单元,可以用于针对每个属性,根据该属性对应的各个损失差异,与该属性对应的处理后识别结果,该属性的属性标签、以及所述多个子模型各自输出的与该属性对应的识别结果,确定该属性对应的整体损失值;
第五确定单元,可以用于将所述多个属性分别对应的整体损失值之和,确定为所述预设模型的整体损失值。
可选地,所述预设模型还包括权重处理分支;所述装置还可以包括以下模块:
权重分配比例获得模块,可以用于获得所述权重处理分支输出的权重分配比例,所述权重分配比例表征所述多个子模型各自输出的识别结果对应的权重的比值;
所述权重处理模块403,具体可以用于按照所述权重分配比例,对所述多个子模型各自输出的识别结果进行加权求和,得处理后识别结果;
根据所述参数更新模块406,具体可以用于根据所述整体损失值,对所述权重处理分支的参数值和所述多个子模型各自的参数值进行分别更新。
可选地,所述权重处理分支包括:与所述多个子模型的卷积层分别连接的多个一级全连接层,以及与所述多个一级全连接层连接的二级全连接层;其中:
各所述一级全连接层,用于对对应的子模型的卷积层输出的特征图进行处理,并输出结果;其中,所述特征图是由所述子模型的卷积层对所述样本图像进行特征提取后得到;
所述二级全连接层,用于对所述多个一级全连接层各自输出的结果进行处理,得到权重比例。
可选地,所述装置还可以包括以下模块:
测试模块,用于以测试集中的测试图像为输入,对训练结束时的预设模型进行测试,得到与所述训练结束时的预设模型中多个子模型分别对应的测试结果;
筛选模块,用于在所述训练结束时的预设模型中筛选测试结果满足预设测试条件的子模型,得到用于进行图像识别的图像识别模型。
本发明实施例还提供了一种电子设备,该电子设备可以用于执行模型的参数值更新方法,可以包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器被配置为执行所述的模型的参数值更新方法。
本发明实施例还提供了一种计算机可读存储介质,其存储的计算机程序使得处理器执行如本发明实施例所述的模型的参数值更新方法。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明实施例是参照根据本发明实施例的方法、终端设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本发明所提供的一种模型的参数值更新方法、装置、设备和存储介质进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (11)

1.一种模型的参数值更新方法,其特征在于,包括:
获得携带标签的样本图像,并将所述样本图像输入到待训练的预设模型,所述预设模型中包括多个子模型,其中,每个子模型用于对所述样本图像进行识别;
获得由所述多个子模型各自对所述样本图像进行识别后输出的识别结果;
按照所述多个子模型各自对应的权重,对所述多个子模型各自输出的识别结果进行加权处理,得到处理后识别结果;
确定所述处理后识别结果分别与所述多个子模型各自输出的识别结果之间的损失差异;
根据各个损失差异、所述处理后识别结果、所述标签以及所述多个子模型各自输出的识别结果,确定所述预设模型的整体损失值;
根据所述整体损失值,对所述多个子模型的参数值分别进行更新。
2.根据权利要求1所述的方法,其特征在于,在根据所述整体损失值,对所述多个子模型的参数值分别进行更新之后,所述方法还包括:
确定所述多个子模型在该轮训练之前的多轮训练中各自的参数平均值;
根据预设系数、所述多个子模型被更新后各自的参数值、所述多个子模型在该轮训练之前的多轮训练中各自的参数平均值,对所述多个子模型被更新后各自的参数值进行再次更新,得到所述多个子模型在该轮训练结束后各自的新的参数值。
3.根据权利要求1所述的方法,其特征在于,确定所述处理后识别结果分别与所述多个子模型各自输出的识别结果之间的损失差异,包括:
确定所述处理后识别结果分别与所述多个子模型各自输出的识别结果之间的余弦距离,将所述余弦距离作为所述损失差异;
或者,确定所述处理后识别结果分别与所述多个子模型各自输出的识别结果之间的相对熵,将所述相对熵作为所述损失差异。
4.根据权利要求1所述的方法,其特征在于,根据各个损失差异、所述处理后识别结果、所述标签以及所述多个子模型各自输出的识别结果,确定所述预设模型的整体损失值,包括:
根据所述标签以及所述多个子模型各自输出的识别结果,确定所述多个子模型各自对应的第一损失值;
根据所述标签以及所述处理后识别结果,确定所述处理后识别结果对应的第二损失值;
将所述第二损失值、各个损失差异以及所述多个子模型各自对应的第一损失值之和,确定为所述预设模型的整体损失值。
5.根据权利要求1所述的方法,其特征在于,每张样本图像携带多个属性标签,每个子模型用于对所述样本图像的多个属性进行识别;根据各个损失差异、所述权重后处理得到的识别结果、所述标签以及所述多个子模型各自输出的识别结果,确定所述预设模型的整体损失值,包括;
针对每个属性,根据该属性对应的各个损失差异,与该属性对应的处理后识别结果,该属性的属性标签、以及所述多个子模型各自输出的与该属性对应的识别结果,确定该属性对应的整体损失值;
将所述多个属性分别对应的整体损失值之和,确定为所述预设模型的整体损失值。
6.根据权利要求1所述的方法,其特征在于,所述预设模型还包括权重处理分支;所述方法还包括:
获得所述权重处理分支输出的权重分配比例,所述权重分配比例表征所述多个子模型各自输出的识别结果对应的权重的比值;
按照所述多个子模型各自对应的权重,对所述多个子模型各自输出的识别结果进行加权处理,得到处理后识别结果,包括:
按照所述权重分配比例,对所述多个子模型各自输出的识别结果进行加权求和,得处理后识别结果;
根据所述整体损失值,对所述多个子模型的参数值分别进行更新,包括:
根据所述整体损失值,对所述权重处理分支的参数值和所述多个子模型各自的参数值进行分别更新。
7.根据权利要求6所述的方法,其特征在于,所述权重处理分支包括:与所述多个子模型的卷积层分别连接的多个一级全连接层,以及与所述多个一级全连接层连接的二级全连接层;其中,所述权重分配比例根据以下步骤获得:
获得由所述多个子模型各自的卷积层输出的特征图,所述特征图由所述多个子模型各自的卷积层对所述样本图像进行特征提取后得到;
将每个子模型的卷积层输出的特征图分别输入到连接至该卷积层的一级全连接层,得到由该一级全连接层输出的结果;
将所述多个一级全连接层各自输出的结果均输入到所述二级全连接层,得到由所述二级全连接层输出的权重比例。
8.根据权利要求1-7任一所述的方法,其特征在于,根据所述整体损失值,对所述多个子模型的参数值分别进行更新之后,所述方法还包括:
以测试集中的测试图像为输入,对训练结束时的预设模型进行测试,得到与所述训练结束时的预设模型中多个子模型分别对应的测试结果;
在所述训练结束时的预设模型中筛选测试结果满足预设测试条件的子模型,得到用于进行图像识别的图像识别模型。
9.一种模型的参数值更新装置,其特征在于,包括:
输入模块,用于获得携带标签的样本图像,并将所述样本图像输入到待训练的预设模型,所述预设模型中包括多个子模型,其中,每个子模型用于对所述样本图像进行识别;
输出结果获得模块,用于获得由所述多个子模型各自对所述样本图像进行识别后输出的识别结果;
权重处理模块,用于按照所述多个子模型各自对应的权重,对所述多个子模型各自输出的识别结果进行加权处理,得到处理后识别结果;
损失差异确定模块,用于确定所述处理后识别结果分别与所述多个子模型各自输出的识别结果之间的损失差异;
整体损失确定模块,用于根据各个损失差异、所述处理后识别结果、所述标签以及所述多个子模型各自输出的识别结果,确定所述预设模型的整体损失值;
参数更新模块,用于根据所述整体损失值,对所述多个子模型的参数值分别进行更新。
10.一种电子设备,其特征在于,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行时实现如权利要求1-8任一所述的模型的参数值更新方法。
11.一种计算机可读存储介质,其特征在于,其存储的计算机程序使得处理器执行如权利要求1-8任一项所述的模型的参数值更新方法。
CN202010275896.XA 2020-04-09 2020-04-09 模型的参数值更新方法、装置、设备及介质 Active CN111626098B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010275896.XA CN111626098B (zh) 2020-04-09 2020-04-09 模型的参数值更新方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010275896.XA CN111626098B (zh) 2020-04-09 2020-04-09 模型的参数值更新方法、装置、设备及介质

Publications (2)

Publication Number Publication Date
CN111626098A true CN111626098A (zh) 2020-09-04
CN111626098B CN111626098B (zh) 2023-04-18

Family

ID=72273006

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010275896.XA Active CN111626098B (zh) 2020-04-09 2020-04-09 模型的参数值更新方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN111626098B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113935400A (zh) * 2021-09-10 2022-01-14 东风商用车有限公司 一种车辆故障诊断方法、装置、***及存储介质
WO2024073935A1 (zh) * 2022-10-08 2024-04-11 深圳先进技术研究院 基于电池制浆工艺的材料参数组合预测电池性能的方法

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108491720A (zh) * 2018-03-20 2018-09-04 腾讯科技(深圳)有限公司 一种应用识别方法、***以及相关设备
CN109886343A (zh) * 2019-02-26 2019-06-14 深圳市商汤科技有限公司 图像分类方法及装置、设备、存储介质
CN109934249A (zh) * 2018-12-14 2019-06-25 网易(杭州)网络有限公司 数据处理方法、装置、介质和计算设备
CN110309922A (zh) * 2019-06-18 2019-10-08 北京奇艺世纪科技有限公司 一种网络模型训练方法和装置
CN110363302A (zh) * 2019-06-13 2019-10-22 阿里巴巴集团控股有限公司 分类模型的训练方法、预测方法及装置
CN110363138A (zh) * 2019-07-12 2019-10-22 腾讯科技(深圳)有限公司 模型训练方法、图像处理方法、装置、终端及存储介质
CN110399895A (zh) * 2019-03-27 2019-11-01 上海灏领科技有限公司 图像识别的方法和装置
US10510002B1 (en) * 2019-02-14 2019-12-17 Capital One Services, Llc Stochastic gradient boosting for deep neural networks
CN110598210A (zh) * 2019-08-29 2019-12-20 深圳市优必选科技股份有限公司 实体识别模型训练、实体识别方法、装置、设备及介质
US20200057883A1 (en) * 2017-11-28 2020-02-20 Tencent Technology (Shenzhen) Company Limited Facial attribute recognition method, electronic device, and storage medium
CN110909784A (zh) * 2019-11-15 2020-03-24 北京奇艺世纪科技有限公司 一种图像识别模型的训练方法、装置及电子设备

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200057883A1 (en) * 2017-11-28 2020-02-20 Tencent Technology (Shenzhen) Company Limited Facial attribute recognition method, electronic device, and storage medium
CN108491720A (zh) * 2018-03-20 2018-09-04 腾讯科技(深圳)有限公司 一种应用识别方法、***以及相关设备
CN109934249A (zh) * 2018-12-14 2019-06-25 网易(杭州)网络有限公司 数据处理方法、装置、介质和计算设备
US10510002B1 (en) * 2019-02-14 2019-12-17 Capital One Services, Llc Stochastic gradient boosting for deep neural networks
CN109886343A (zh) * 2019-02-26 2019-06-14 深圳市商汤科技有限公司 图像分类方法及装置、设备、存储介质
CN110399895A (zh) * 2019-03-27 2019-11-01 上海灏领科技有限公司 图像识别的方法和装置
CN110363302A (zh) * 2019-06-13 2019-10-22 阿里巴巴集团控股有限公司 分类模型的训练方法、预测方法及装置
CN110309922A (zh) * 2019-06-18 2019-10-08 北京奇艺世纪科技有限公司 一种网络模型训练方法和装置
CN110363138A (zh) * 2019-07-12 2019-10-22 腾讯科技(深圳)有限公司 模型训练方法、图像处理方法、装置、终端及存储介质
CN110598210A (zh) * 2019-08-29 2019-12-20 深圳市优必选科技股份有限公司 实体识别模型训练、实体识别方法、装置、设备及介质
CN110909784A (zh) * 2019-11-15 2020-03-24 北京奇艺世纪科技有限公司 一种图像识别模型的训练方法、装置及电子设备

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113935400A (zh) * 2021-09-10 2022-01-14 东风商用车有限公司 一种车辆故障诊断方法、装置、***及存储介质
WO2024073935A1 (zh) * 2022-10-08 2024-04-11 深圳先进技术研究院 基于电池制浆工艺的材料参数组合预测电池性能的方法

Also Published As

Publication number Publication date
CN111626098B (zh) 2023-04-18

Similar Documents

Publication Publication Date Title
CN111523621B (zh) 图像识别方法、装置、计算机设备和存储介质
CN110414432B (zh) 对象识别模型的训练方法、对象识别方法及相应的装置
KR102564855B1 (ko) 표정 변화에 강인한 객체 및 표정 인식 장치 및 방법, 객체 및 표정 트레이닝 장치 및 방법
US10769261B2 (en) User image verification
CN108230291B (zh) 物体识别***训练方法、物体识别方法、装置和电子设备
CN110824587B (zh) 图像预测方法、装置、计算机设备和存储介质
CN113095370A (zh) 图像识别方法、装置、电子设备及存储介质
CN111626098B (zh) 模型的参数值更新方法、装置、设备及介质
US20200410709A1 (en) Location determination apparatus, location determination method and computer program
CN112115996B (zh) 图像数据的处理方法、装置、设备及存储介质
CN114091594A (zh) 模型训练方法及装置、设备、存储介质
CN113379045B (zh) 数据增强方法和装置
CN114565092A (zh) 一种神经网络结构确定方法及其装置
CN113963200A (zh) 模态数据融合处理方法、装置、设备及存储介质
CN111783935A (zh) 卷积神经网络构建方法、装置、设备及介质
CN109255389B (zh) 一种装备评价方法、装置、设备及可读存储介质
CN112560823B (zh) 基于分布学习的自适应方差和权重的人脸年龄估计方法
CN113076963B (zh) 一种图像识别方法、装置和计算机可读存储介质
CN114385846A (zh) 一种图像分类方法、电子设备、存储介质及程序产品
CN111783936B (zh) 卷积神经网络构建方法、装置、设备及介质
CN113486804B (zh) 一种对象识别方法、装置、设备及存储介质
CN115439878A (zh) 目标重识别模型抗遗忘训练方法、目标重识别方法及装置
CN114359796A (zh) 一种目标识别的方法、装置及电子设备
CN115393914A (zh) 多任务模型训练方法、装置、设备及存储介质
CN113822291A (zh) 一种图像处理方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant