CN108197669B - 卷积神经网络的特征训练方法及装置 - Google Patents

卷积神经网络的特征训练方法及装置 Download PDF

Info

Publication number
CN108197669B
CN108197669B CN201810096726.8A CN201810096726A CN108197669B CN 108197669 B CN108197669 B CN 108197669B CN 201810096726 A CN201810096726 A CN 201810096726A CN 108197669 B CN108197669 B CN 108197669B
Authority
CN
China
Prior art keywords
loss function
feature
loss
calculating
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810096726.8A
Other languages
English (en)
Other versions
CN108197669A (zh
Inventor
张默
刘彬
孙伯元
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Moshanghua Technology Co ltd
Original Assignee
Beijing Moshanghua Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Moshanghua Technology Co ltd filed Critical Beijing Moshanghua Technology Co ltd
Priority to CN201810096726.8A priority Critical patent/CN108197669B/zh
Publication of CN108197669A publication Critical patent/CN108197669A/zh
Application granted granted Critical
Publication of CN108197669B publication Critical patent/CN108197669B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24147Distances to closest patterns, e.g. nearest neighbour classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本申请公开了一种卷积神经网络的特征训练方法及装置。该特征训练方法包括:提取第一特征图片;确定所述第一特征图片的特征图,且根据所述特征图获取第一特征;将所述第一特征作为输入,计算损失函数的损失值;以及根据所述损失值更新卷积神经网络。本申请解决了损失目标函数无法保证类内距离相对更近和类间距离相对更远的技术问题。

Description

卷积神经网络的特征训练方法及装置
技术领域
本申请涉及计算机领域,具体而言,涉及一种卷积神经网络的特征训练方法及装置。
背景技术
卷积神经网络在计算机视觉领域取得了很好的表现,尤其在物体识别,物体检测,物体分割等领域。训练卷积神经网络,使用一层层卷积层和激活层堆叠,可以实现很强的视觉表征能力,其中卷积神经网络结构由两部分组成:卷积网络,目标损失函数。
发明人发现,在卷积神经网络中的有一些损失函数,其缺点在于难以确保类内的距离更近,类间的距离更远。如果保证了这个前提,被训练的网络提出的特征的表征性才能更强。另有一些损失函数,保证类内的距离更近,但是却没有保证类间距离更远,同时还会影响物体识别的准确率,故多在人脸分类领域被广泛使用。还一些损失函数,既保证类内距离更近,又保证类间距离更远,然而问题在于如果训练数据本身存在一些噪声,训练的过程就很难收敛。
针对相关技术中损失目标函数无法保证类内距离相对更近和类间距离相对更远的问题,目前尚未提出有效的解决方案。
发明内容
本申请的主要目的在于提供一种卷积神经网络的特征训练方法,以解决问题。
为了实现上述目的,根据本申请的一个方面,提供了一种卷积神经网络的特征训练方法,包括:提取第一特征图片;确定所述第一特征图片的特征图,且根据所述特征图获取第一特征;将所述所述第一特征作为输入,计算损失函数的损失值;以及根据所述损失值更新卷积神经网络;其中,所述损失函数用于使得更新后的卷积神经网络中训练的特征符合预设的类别。
进一步地,计算损失函数的损失值包括:配置第一损失函数,其中,所述第一损失函数用于作为Softmax和交叉熵结合的损失函数;配置第二损失函数,其中,所述第二损失函数用于作为角度损失函数。
进一步地,计算损失函数的损失值包括:
Figure GDA0002926872260000021
其中,
Figure GDA0002926872260000022
表示yi对应的权重,N表示输入图片数量;
通过损失函数计算N张输入图片各自对应的所有的概率相加后得到的平均值。
计算损失函数的损失值包括:
Figure GDA0002926872260000023
其中,
Figure GDA0002926872260000024
表示yi对应的权重,N表示输入图片数量,yi表示每张输入图片对应的类别;
通过损失函数计算N张图片的
Figure GDA0002926872260000025
的平均值。
进一步地,根据所述损失值更新卷积神经网络后还包括:输入待测试的第二图片;通过所述损失值更新后的卷积神经网络后得到对应的第二特征;将所述所述第二特征作为输入,计算损失函数的损失值;确定所述第二图片对应物体的类别。
进一步地,所述损失函数用于使得更新后的卷积神经网络中训练的特征符合预设的类别如下:特征的类内距离;特征的类间距离。
为了实现上述目的,根据本申请的另一方面,提供了一种卷积神经网络的特征训练装置。
根据本申请的卷积神经网络的特征训练装置包括:提取单元,用于提取第一特征图片;确定单元,用于确定所述第一特征图片的特征图,且根据所述特征图获取第一特征;损失函数单元,用于将所述所述第一特征作为输入,计算损失函数的损失值;反向单元,用于根据所述损失值更新卷积神经网络;其中,所述损失函数用于使得更新后的卷积神经网络中训练的特征符合预设的类别。
进一步地,所述损失函数单元包括:第一损失函数单元和第二损失函数单元,所述第一损失函数单元,用于作为Softmax和交叉熵结合的损失函数;所述第二损失函数单元,用于作为角度损失函数。
进一步地,装置还包括:测试单元,用于输入待测试的第二图片;通过所述损失值更新后的卷积神经网络后得到对应的第二特征;将所述所述第二特征作为输入,计算损失函数的损失值;确定所述第二图片对应物体的类别。
进一步地,所述反向单元还用于,通过损失函数使得更新后的卷积神经网络中训练的特征符合预设:特征的类内距离更近;特征的类间距离更远。
在本申请实施例中,采用卷积神经网络中优化特征训练的方式,通过损失函数用于使得更新后的卷积神经网络中训练的特征符合预设的类别,达到了训练识别能力更强的目的,从而实现了训练出识别能力更强的特征的技术效果,进而解决了损失目标函数无法保证类内距离相对更近和类间距离相对更远的技术问题。
附图说明
构成本申请的一部分的附图用来提供对本申请的进一步理解,使得本申请的其它特征、目的和优点变得更明显。本申请的示意性实施例附图及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请第一实施例的卷积神经网络的特征训练方法示意图;
图2是根据本申请第二实施例的卷积神经网络的特征训练方法示意图;
图3是根据本申请第三实施例的卷积神经网络的特征训练方法示意图;以及
图4是根据本申请优选实施例的卷积神经网络的特征训练装置示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
到目前为止很多损失函数被提出,最初的Softmax与交叉熵结合的损失函数,它的缺点在于难以确保类内的距离更近,类间的距离更远,如果保证了这个前提,被训练的网络提出的特征的表征性才能更强。
之后Center-Loss被提出,它可以保证类内的距离更近,但是却没有保证类间距离更远,同时Center-Loss还会影响物体识别的准确率,所以它多在人脸分类领域被广泛使用;在之后L-Softmax被提出,它既保证了类内距离更近,有保证了类间距离更远,然而它的问题是如果训练数据本身存在一些噪声,训练的过程就很难收敛。
通过本申请实施例的方法采用卷积神经网络中优化特征训练的方式,通过损失函数用于使得更新后的卷积神经网络中训练的特征符合预设的类别,达到了训练识别能力更强的目的,从而实现了训练出识别能力更强的特征的技术效果。
本申请实施例中的方法使用的基于角度的损失函数,主要用于基于深度学习卷积神经网络物体识别的训练过程中,其中主要功能体现在:a.训练的特征的表征能力更强,即类内距离更近,类间距离更远;b.在确保a.成立的前提下,保证神经网络训练过程的收敛性。
(4)本方法涉及的目标损失函数,可以用于除了物体识别之外的任务的模型训练,包括物体检测,物体分割等。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
如图1所示,该方法包括如下的步骤S102至步骤S108:
步骤S102,提取第一特征图片;
通过输入N张图片,再对N张图片做归一化预处理,让所有的像素值在[-1,1]之间;然后输入卷积神经网络。
由于卷积神经网络结构包括了多个卷积层,在卷积神经网络中的每个卷积层后面会接一个激活层,每经过一层卷积层,就会得到对应的特征图。
通过上述步骤中的归一化处理后输入卷积神经网络得到对应的特征图。
步骤S104,确定所述第一特征图片的特征图,且根据所述特征图获取第一特征;
确定所述特征图片的特征图是指,根据特征图的通道数、特征图的长和宽,得到特征图片的特征图。
例如,设每张特征图的大小为c*h*w,其中,c为特征图的通道数,h和w为特征图的长和宽,由于输入的是N张图片,即最后可以得到N张特征图。
步骤S106,将所述所述第一特征作为输入,计算损失函数的损失值;
将多张特征图作为输入,经过卷积神经网络中的全连接层,得到维多特征作为输入。
例如,N张特征图作为输入,经过全连接层,得到NxM维特征。即N个特征,对应于N张图片,每个特征M维。
计算损失函数的损失值是指,将NxM维的特征和图片的类别标签作为输入,计算损失函数的损失值。
步骤S108,根据所述损失值更新卷积神经网络;
所述损失函数用于使得更新后的卷积神经网络中训练的特征符合预设的类别。
特征符合预设的类别可以是,保证同类(类内)特征之间的距离更近,异类(类间)特征之间距离更远。
具体地,计算损失函数的损失值,其中包括两个损失函数,第一损失函数是Softmax和交叉熵结合,第二损失函数是角度损失函数。
从以上的描述中,可以看出,本发明实现了如下技术效果:
在本申请实施例中,采用卷积神经网络中优化特征训练的方式,通过损失函数用于使得更新后的卷积神经网络中训练的特征符合预设的类别,达到了训练识别能力更强的目的,从而实现了训练出识别能力更强的特征的技术效果,进而解决了损失目标函数无法保证类内距离相对更近和类间距离相对更远的技术问题。在本申请实施例中方法在训练的时候没有引进更多的超参数,减少了人工调参的成本,同时训练的时候没有明显增加显存和内存的使用量。
本申请实施例中在测试的过程中,提取的图片特征,除了可以用于物体识别领域外,还可以用于物体检索等领域。
根据本发明实施例,作为本实施例中的优选,如图2所示,计算损失函数的损失值包括:
步骤S202,配置第一损失函数,
所述第一损失函数用于作为Softmax和交叉熵结合的损失函数;
计算损失函数的损失值包括:
Figure GDA0002926872260000071
其中,
Figure GDA0002926872260000072
表示yi对应的权重,N表示输入图片数量;
通过损失函数计算N张输入图片各自对应的所有的概率相加后得到的平均值。
损失函数是指
Figure GDA0002926872260000073
其中,f为获取的第一特征,
Figure GDA0002926872260000074
为类别i类对应的权重向量,所以
Figure GDA0002926872260000075
为类别yi对应的权重向量(在本申请中设M个类别,每张输入图片对应自己特定的一个类别yi),yi作为输入图片对应的真实类别。
通过
Figure GDA0002926872260000076
与f相乘得到一个分数,而
Figure GDA0002926872260000077
中的式子,代表f被判断成yi的该类别上的概率。
步骤S204,配置第二损失函数,
所述第二损失函数用于作为角度损失函数。
计算损失函数的损失值包括:
Figure GDA0002926872260000078
其中,
Figure GDA0002926872260000081
表示yi对应的权重,N表示输入图片数量,yi表示每张输入图片对应的类别;
通过损失函数计算N张图片的
Figure GDA0002926872260000082
的平均值。
其中f为获取的第一特征,
Figure GDA0002926872260000083
为类别yi对应的权重向量(在本申请中设M个类别,每张输入图片对应自己特定的一个类别yi),yi作为输入图片对应的真实类别。
Figure GDA0002926872260000084
代表
Figure GDA0002926872260000085
与f的角度的余弦值
Figure GDA0002926872260000086
其范围在[-1,1]之间,越接近1,则
Figure GDA0002926872260000087
向量与f特征向量之间的角度越小。
上述损失函数LossFunction计算的是N张图片的
Figure GDA0002926872260000088
的平均值,可以让
Figure GDA0002926872260000089
与f的角度尽量小。
根据本发明实施例,作为本实施例中的优选,如图3所示,根据所述损失值更新卷积神经网络后还包括:
步骤S302,输入待测试的第二图片;
输入待测试的图片,图片的数量可以是N(N>=1),经过已经完成训练的神经网络,得到对应的特征。
步骤S304,通过所述损失值更新后的卷积神经网络后得到对应的第二特征;
由于在步骤S108中计算损失值之后,使用反向传播来更新整个网络的所有参数。所以将待测试的图片输入更新后的卷积神经网络获取对应的特征图。
步骤S306,将所述所述第二特征作为输入,计算损失函数的损失值;
输入通过Softmax和交叉熵结合的损失函数
Figure GDA0002926872260000091
角度损失函数
Figure GDA0002926872260000092
计算损失函数的损失值。
步骤S308,确定所述第二图片对应物体的类别。
在测试阶段特征经过Softmax层,得到所有已知类别的概率(概率相加为1),选取概率最高的作为该图片对应物体的类别。
作为本实施例中的优选,所述损失函数用于使得更新后的卷积神经网络中训练的特征符合预设的类别如下:特征的类内距离;特征的类间距离。
所述损失函数用于使得更新后的卷积神经网络中训练的特征符合预设时,保特征的类内距离更近,特征的类间距离更远。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机***中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
根据本发明实施例,还提供了一种用于实施上述卷积神经网络的特征训练方法的装置,如图4所示,该装置包括:提取单元10,用于提取第一特征图片;确定单元20,用于确定所述第一特征图片的特征图,且根据所述特征图获取第一特征;损失函数单元30,用于将所述所述第一特征作为输入,计算损失函数的损失值;反向单元40,用于根据所述损失值更新卷积神经网络;其中,所述损失函数用于使得更新后的卷积神经网络中训练的特征符合预设的类别。
本申请实施例的提取单元10中通过输入N张图片,再对N张图片做归一化预处理,让所有的像素值在[-1,1]之间;然后输入卷积神经网络。
由于卷积神经网络结构包括了多个卷积层,在卷积神经网络中的每个卷积层后面会接一个激活层,每经过一层卷积层,就会得到对应的特征图。
通过上述步骤中的归一化处理后输入卷积神经网络得到对应的特征图。
本申请实施例的确定单元20中确定所述特征图片的特征图是指,根据特征图的通道数、特征图的长和宽,得到特征图片的特征图。
例如,设每张特征图的大小为c*h*w,其中,c为特征图的通道数,h和w为特征图的长和宽,由于输入的是N张图片,即最后可以得到N张特征图。
本申请实施例的损失函数单元30中将多张特征图作为输入,经过卷积神经网络中的全连接层,得到维多特征作为输入。
例如,N张特征图作为输入,经过全连接层,得到NxM维特征。即N个特征,对应于N张图片,每个特征M维。
计算损失函数的损失值是指,将NxM维的特征和图片的类别标签作为输入,计算损失函数的损失值。
本申请实施例的反向单元40中所述损失函数用于使得更新后的卷积神经网络中训练的特征符合预设的类别。
特征符合预设的类别可以是,保证同类(类内)特征之间的距离更近,异类(类间)特征之间距离更远。
具体地,计算损失函数的损失值,其中包括两个损失函数,第一损失函数是Softmax和交叉熵结合,第二损失函数是角度损失函数。
作为本实施例中的优选,所述损失函数单元30包括:第一损失函数单元和第二损失函数单元,所述第一损失函数单元,用于作为Softmax和交叉熵结合的损失函数;所述第二损失函数单元,用于作为角度损失函数。
第一损失函数单元中,计算损失函数的损失值包括:
Figure GDA0002926872260000101
其中,
Figure GDA0002926872260000111
表示yi对应的权重,N表示输入图片数量;
通过损失函数计算N张输入图片各自对应的所有的概率相加后得到的平均值。
损失函数是指
Figure GDA0002926872260000112
其中,f为获取的第一特征,
Figure GDA0002926872260000113
为类别i类对应的权重向量,所以
Figure GDA0002926872260000114
为类别yi对应的权重向量(在本申请中设M个类别,每张输入图片对应自己特定的一个类别yi),yi作为输入图片对应的真实类别。
通过
Figure GDA0002926872260000115
与f相乘得到一个分数,而
Figure GDA0002926872260000116
中的式子,代表f被判断成yi的该类别上的概率。
第二损失函数单元中计算损失函数的损失值包括:
Figure GDA0002926872260000117
其中,
Figure GDA0002926872260000118
表示yi对应的权重,N表示输入图片数量,yi表示每张输入图片对应的类别;
通过损失函数计算N张图片的
Figure GDA0002926872260000119
的平均值。
其中f为获取的第一特征,
Figure GDA00029268722600001110
为类别yi对应的权重向量(在本申请中设M个类别,每张输入图片对应自己特定的一个类别yi),yi作为输入图片对应的真实类别。
Figure GDA00029268722600001111
代表
Figure GDA00029268722600001112
与f的角度的余弦值
Figure GDA00029268722600001113
其范围在[-1,1]之间,越接近1,则
Figure GDA0002926872260000121
向量与f特征向量之间的角度越小。
上述损失函数LossFunction计算的是N张图片的
Figure GDA0002926872260000122
的平均值,可以让
Figure GDA0002926872260000123
与f的角度尽量小。
作为本实施例中的优选,还包括:测试单元,用于输入待测试的第二图片;通过所述损失值更新后的卷积神经网络后得到对应的第二特征;将所述所述第二特征作为输入,计算损失函数的损失值;确定所述第二图片对应物体的类别。
本申请实施例的测试单元中输入待测试的图片,图片的数量可以是N(N>=1),经过已经完成训练的神经网络,得到对应的特征。
由于在步骤S108中计算损失值之后,使用反向传播来更新整个网络的所有参数。所以将待测试的图片输入更新后的卷积神经网络获取对应的特征图。
输入通过Softmax和交叉熵结合的损失函数
Figure GDA0002926872260000124
角度损失函数
Figure GDA0002926872260000125
计算损失函数的损失值。
在测试阶段特征经过Softmax层,得到所有已知类别的概率(概率相加为1),选取概率最高的作为该图片对应物体的类别。
作为本实施例中的优选,所述损失函数用于使得更新后的卷积神经网络中训练的特征符合预设的类别如下:特征的类内距离;特征的类间距离。
所述损失函数用于使得更新后的卷积神经网络中训练的特征符合预设时,保特征的类内距离更近,特征的类间距离更远。
用于实施上述卷积神经网络的特征训练方法的装置,训练出识别能力更强的特征,保证特征的类内距离更近,特征的类间距离更远。特征的训练主要通过基于角度优化的损失函数,结合Softmax交叉熵损失函数,相对于传统只使用Softmax交叉熵的方法训练得到的特征,本申请实施例的装置中训练得到的特征在Cifar10和Cifar100等数据集上识别率均有1%的提升,原方法在这两个数据集上训练模型的识别准确率分别为92.5%和69.24%,本申请实施例的装置中的识别准确率为93.7%和72%。
相对于L-Softmax,本申请更容易训练,L-Softmax方法对特征增加了很强的约束,好处是可以训练出识别率更强的特征,但也会面临训练过程很难收敛的问题,本申请在训练过程基本不会发生不收敛的过程,主要因为本方法作为Softmax交叉熵的辅助,不会对特征的约束太强。
具体地,在本申请实施例的装置中按照如下方法执行神经网络的特征训练方法:
主要针对基于深度学习卷积神经网络的物体识别,包括训练阶段和测试阶段,其中本方法主要用于训练阶段,帮助训练识别能力更强的模型;
训练阶段:把整个卷积神经网络作为两个部分,第一部分是提取特征,第二部分是计算特征的损失函数并做优化;
S1输入N张图片,N是批处理中输入图片的数量,对N张图片做归一化预处理,让所有的像素值在[-1,1]之间。
S2通过卷积神经网络结构,卷积神经网络机构有多个卷积层组成,每个卷积层后面会接一个激活层,每经过一层卷积层,就会得到对应的特征图,具体的卷积层数和结构会根据具体的任务而改变,这里只需要最后一层卷积神经网络的输出;
S3得到最后的特征图,这里每张特征图的大小为cxhxw,c为特征图的通道数,h和w为特征图的长和宽,因为输入的是N张图片,所以最后得到N张特征图;
S4N张特征图作为输入,经过全连接层,得到NxM维特征,即N个特征,对应于N张图片,每个特征M维;
S5最后NxM维的特征和图片的类别标签作为输入,计算损失函数的损失值,其中包括两个损失函数,第一损失函数是Softmax和交叉熵结合,第二损失函数是角度损失函数,具体的公式如下:
Figure GDA0002926872260000141
Figure GDA0002926872260000142
S6计算损失值之后,使用反向传播来更新整个网络的所有参数;
测试阶段
S1输入待测试的图片,图片的数量是N(N>=1),经过已经完成训练的神经网络,得到对应的特征;
S2特征经过Softmax层,得到所有已知类别的概率(概率相加为1),选取概率最高的作为该图片对应物体的类别。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (6)

1.一种卷积神经网络的特征训练方法,其特征在于,包括:
提取第一特征图片;
确定所述第一特征图片的特征图,且根据所述特征图获取第一特征;将所述第一特征作为输入,计算损失函数的损失值,其中,所述计算损失函数的损失值包括:配置第一损失函数,其中,所述第一损失函数用于作为Softmax和交叉熵结合的损失函数;配置第二损失函数,其中,所述第二损失函数用于作为角度损失函数;以及
根据所述损失值更新卷积神经网络;
其中,所述损失函数用于使得更新后的卷积神经网络中训练的特征符合预设的类别;
通过第一损失函数得到第一特征所述类别的概率;
通过第二损失函数减小特征的类内距离,增加特征的类间距离;
所述提取第一特征图片包括:
输入N张图片,再对N张图片做归一化预处理,将归一化处理后输入卷积神经网络得到对应的特征图;
将所述第一特征作为输入,计算损失函数的损失值包括:
N张特征图作为输入,经过全连接层,得到N×M维特征,N个特征,对应于N张图片,每个特征M维;将N×M维的特征和图片的类别标签作为输入,计算损失函数的损失值;
其中计算损失函数的损失值包括:计算第一损失函数的损失值以及计算第二损失函数的损失值;
计算第一损失函数的损失值包括:
通过损失函数计算N张输入图片各自对应的所有的概率相加后得到的平均值;
损失函数是指
Figure FDA0002926872250000021
其中,f为获取的第一特征,
Figure FDA0002926872250000022
为类别i类对应的权重向量,所以
Figure FDA0002926872250000023
为类别yi对应的权重向量,M个类别,每张输入图片对应自己特定的一个类别yi,yi作为输入图片对应的真实类别;
通过
Figure FDA0002926872250000024
与f相乘得到一个分数,而
Figure FDA0002926872250000025
中的式子,代表f被判断成yi的该类别上的概率;
计算第二损失函数的损失值包括:
通过损失函数计算N张图片的
Figure FDA0002926872250000026
的平均值;
损失函数为
Figure FDA0002926872250000027
其中,f为获取的第一特征,
Figure FDA0002926872250000028
为类别yi对应的权重向量,M个类别,每张输入图片对应自己特定的一个类别yi,yi作为输入图片对应的真实类别,
Figure FDA0002926872250000029
代表
Figure FDA00029268722500000210
与f的角度的余弦值
Figure FDA00029268722500000211
其范围在[-1,1]之间,越接近1,则
Figure FDA00029268722500000212
向量与f特征向量之间的角度越小。
2.根据权利要求1所述的特征训练方法,其特征在于,根据所述损失值更新卷积神经网络后还包括:
输入待测试的第二图片;
通过所述损失值更新后的卷积神经网络后得到对应的第二特征;
将所述第二特征作为输入,计算损失函数的损失值;
确定所述第二图片对应物体的类别。
3.根据权利要求1-2任一项所述的特征训练方法,其特征在于,所述损失函数用于使得更新后的卷积神经网络中训练的特征符合预设的类别如下:
特征的类内距离更近;
特征的类间距离更远。
4.一种卷积神经网络的特征训练装置,其特征在于,包括:
提取单元,用于提取第一特征图片;
确定单元,用于确定所述第一特征图片的特征图,且根据所述特征图获取第一特征;
损失函数单元,用于将所述第一特征作为输入,计算损失函数的损失值,其中,所述损失函数单元包括:第一损失函数单元和第二损失函数单元,
所述第一损失函数单元,用于作为Softmax和交叉熵结合的损失函数;
所述第二损失函数单元,用于作为角度损失函数;
反向单元,用于根据所述损失值更新卷积神经网络;其中,所述损失函数用于使得更新后的卷积神经网络中训练的特征符合预设的类别;
通过第一损失函数得到第一特征所述类别的概率;
通过第二损失函数减小特征的类内距离,增加特征的类间距离;
所述提取第一特征图片包括:
输入N张图片,再对N张图片做归一化预处理,将归一化处理后输入卷积神经网络得到对应的特征图;
将所述第一特征作为输入,计算损失函数的损失值包括:
N张特征图作为输入,经过全连接层,得到N×M维特征,即N个特征,对应于N张图片,每个特征M维;将N×M维的特征和图片的类别标签作为输入,计算损失函数的损失值;
其中计算损失函数的损失值包括:计算第一损失函数的损失值以及计算第二损失函数的损失值;
计算第一损失函数的损失值包括:
通过损失函数计算N张输入图片各自对应的所有的概率相加后得到的平均值;
损失函数是指
Figure FDA0002926872250000041
其中,f为获取的第一特征,
Figure FDA0002926872250000042
为类别i类对应的权重向量,所以
Figure FDA0002926872250000043
为类别yi对应的权重向量,M个类别,每张输入图片对应自己特定的一个类别yi,yi作为输入图片对应的真实类别;
通过
Figure FDA0002926872250000044
与f相乘得到一个分数,而
Figure FDA0002926872250000045
中的式子,代表f被判断成yi的该类别上的概率;
计算第二损失函数的损失值包括:
通过损失函数计算N张图片的
Figure FDA0002926872250000046
的平均值;
损失函数为
Figure FDA0002926872250000047
其中,f为获取的第一特征,
Figure FDA0002926872250000048
为类别yi对应的权重向量,M个类别,每张输入图片对应自己特定的一个类别yi,yi作为输入图片对应的真实类别,
Figure FDA0002926872250000049
代表
Figure FDA00029268722500000410
与f的角度的余弦值
Figure FDA00029268722500000411
其范围在[-1,1]之间,越接近1,则
Figure FDA00029268722500000412
向量与f特征向量之间的角度越小。
5.根据权利要求4所述的特征训练装置,其特征在于,还包括:测试单元,用于输入待测试的第二图片;
通过所述损失值更新后的卷积神经网络后得到对应的第二特征;
将所述第二特征作为输入,计算损失函数的损失值;
确定所述第二图片对应物体的类别。
6.根据权利要求4所述的特征训练装置,其特征在于,所述反向单元还用于,通过损失函数使得更新后的卷积神经网络中训练的特征符合预设:特征的类内距离更近;特征的类间距离更远。
CN201810096726.8A 2018-01-31 2018-01-31 卷积神经网络的特征训练方法及装置 Active CN108197669B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810096726.8A CN108197669B (zh) 2018-01-31 2018-01-31 卷积神经网络的特征训练方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810096726.8A CN108197669B (zh) 2018-01-31 2018-01-31 卷积神经网络的特征训练方法及装置

Publications (2)

Publication Number Publication Date
CN108197669A CN108197669A (zh) 2018-06-22
CN108197669B true CN108197669B (zh) 2021-04-30

Family

ID=62591623

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810096726.8A Active CN108197669B (zh) 2018-01-31 2018-01-31 卷积神经网络的特征训练方法及装置

Country Status (1)

Country Link
CN (1) CN108197669B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110717359B (zh) * 2018-07-12 2023-07-25 浙江宇视科技有限公司 基于数理统计的反向传播优化方法、装置及电子设备
CN109165566B (zh) * 2018-08-01 2021-04-27 中国计量大学 一种基于新型损失函数的人脸识别卷积神经网络训练方法
CN109977845B (zh) * 2019-03-21 2021-08-17 百度在线网络技术(北京)有限公司 一种可行驶区域检测方法及车载终端
CN110414550B (zh) * 2019-06-14 2022-07-29 北京迈格威科技有限公司 人脸识别模型的训练方法、装置、***和计算机可读介质
CN110378278B (zh) * 2019-07-16 2021-11-02 北京地平线机器人技术研发有限公司 神经网络的训练方法、对象搜索方法、装置以及电子设备
CN113420737B (zh) * 2021-08-23 2022-01-25 成都飞机工业(集团)有限责任公司 一种基于卷积神经网络的3d打印图形识别方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106682734A (zh) * 2016-12-30 2017-05-17 中国科学院深圳先进技术研究院 一种提升卷积神经网络泛化能力的方法及装置
CN107944410B (zh) * 2017-12-01 2020-07-28 中国科学院重庆绿色智能技术研究院 一种基于卷积神经网络的跨领域面部特征解析方法
CN107909145A (zh) * 2017-12-05 2018-04-13 苏州天瞳威视电子科技有限公司 一种卷积神经网络模型的训练方法

Also Published As

Publication number Publication date
CN108197669A (zh) 2018-06-22

Similar Documents

Publication Publication Date Title
CN108197669B (zh) 卷积神经网络的特征训练方法及装置
CN110443143B (zh) 多分支卷积神经网络融合的遥感图像场景分类方法
CN110473141B (zh) 图像处理方法、装置、存储介质及电子设备
CN107529650B (zh) 闭环检测方法、装置及计算机设备
CN111950723B (zh) 神经网络模型训练方法、图像处理方法、装置及终端设备
CN111368943B (zh) 图像中对象的识别方法和装置、存储介质及电子装置
CN110188611A (zh) 一种引入视觉注意力机制的行人重识别方法及***
CN109871845B (zh) 证件图像提取方法及终端设备
CN110717527A (zh) 结合空洞空间金字塔结构的目标检测模型确定方法
CN111539247B (zh) 一种超光谱人脸识别方法、装置、电子设备及其存储介质
CN115171165A (zh) 全局特征与阶梯型局部特征融合的行人重识别方法及装置
CN109543632A (zh) 一种基于浅层特征融合引导的深层网络行人检测方法
CN110516734B (zh) 一种图像匹配方法、装置、设备及存储介质
CN112084895B (zh) 一种基于深度学习的行人重识别方法
CN111541911B (zh) 视频检测方法和装置、存储介质及电子装置
CN106650615A (zh) 一种图像处理方法及终端
CN110222718A (zh) 图像处理的方法及装置
CN114283351A (zh) 视频场景分割方法、装置、设备及计算机可读存储介质
CN115690542A (zh) 一种基于改进yolov5的航拍绝缘子定向识别方法
CN112001386B (zh) 一种基于车牌字符识别方法、***、介质及终端
CN111881716A (zh) 一种基于多视角生成对抗网络的行人重识别方法
CN115565019A (zh) 基于深度自监督生成对抗的单通道高分辨sar图像地物分类方法
CN116994021A (zh) 图像检测方法、装置、计算机可读介质及电子设备
CN113450297A (zh) 红外图像和可见光图像的融合模型构建方法及***
CN117095217A (zh) 多阶段对比知识蒸馏方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
EE01 Entry into force of recordation of patent licensing contract
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20180622

Assignee: Apple R&D (Beijing) Co., Ltd.

Assignor: BEIJING MOSHANGHUA TECHNOLOGY CO., LTD.

Contract record no.: 2019990000054

Denomination of invention: Characteristic training method and device of convolutional neural network

License type: Exclusive License

Record date: 20190211

GR01 Patent grant
GR01 Patent grant