CN111104830A - 用于图像识别的深度学习模型、该模型的训练装置及方法 - Google Patents

用于图像识别的深度学习模型、该模型的训练装置及方法 Download PDF

Info

Publication number
CN111104830A
CN111104830A CN201811266011.9A CN201811266011A CN111104830A CN 111104830 A CN111104830 A CN 111104830A CN 201811266011 A CN201811266011 A CN 201811266011A CN 111104830 A CN111104830 A CN 111104830A
Authority
CN
China
Prior art keywords
deep learning
learning model
layer
attention
loss
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811266011.9A
Other languages
English (en)
Inventor
尹汭
谭志明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to CN201811266011.9A priority Critical patent/CN111104830A/zh
Priority to EP19203573.1A priority patent/EP3648007A1/en
Priority to US16/654,241 priority patent/US11361190B2/en
Priority to JP2019191872A priority patent/JP2020071875A/ja
Publication of CN111104830A publication Critical patent/CN111104830A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/776Validation; Performance evaluation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明实施例提供一种用于图像识别的深度学习模型、该模型的训练装置及方法,该模型具有用于确定特征图中的各个特征是否为关注对象所在位置的特征的确定层,并在对特征进行加权合成时对关注对象所在位置的特征和其他特征赋予不同的权值,因此能够引导该模型聚焦于需要关注的特征并做出正确的判断,从而提高了该模型的性能和精度。

Description

用于图像识别的深度学习模型、该模型的训练装置及方法
技术领域
本发明涉及信息技术领域,尤其涉及一种用于图像识别的深度学习模型、该模型的训练装置及方法。
背景技术
近年来,在深度学习的帮助下,计算机视觉领域的研究取得了很大的进步。深度学习是指在分层神经网络上运用各种机器学习算法解决图像、文本等各种问题的算法集合。深度学习的核心是特征学习,旨在通过分层神经网络获取分层次的特征信息,从而解决以往需要人工设计特征的重要难题。常见的深度学习模型例如具有卷积神经网络(Convolutional Neural Network,CNN),卷积神经网络通过将数据量庞大的图像特征不断降维,最终使得这些图像特征能够被训练。
应该注意,上面对技术背景的介绍只是为了方便对本发明的技术方案进行清楚、完整的说明,并方便本领域技术人员的理解而阐述的。不能仅仅因为这些方案在本发明的背景技术部分进行了阐述而认为上述技术方案为本领域技术人员所公知。
发明内容
发明人发现,在对卷积层输出的特征图进行可视化时,存在一些问题。例如,尽管深度学习模型做出了正确的判断,但是,深度学习模型提取的特征与真值无关。如果该深度学习模型在训练过程中学习到错误的信息,在训练过程中该深度学习模型就不具备良好的普适性。并且,由于该深度学习模型在训练过程中对于作为训练样本的特征都进行相同的处理,导致该模型的性能和精度受到了限制。
本发明实施例提供一种用于图像识别的深度学习模型、该模型的训练装置及方法,该模型具有用于确定特征图中的各个特征是否为关注对象所在位置的特征的确定层,并在对特征进行加权合成时对关注对象所在位置的特征和其他特征赋予不同的权值,因此能够引导该模型聚焦于需要关注的特征并做出正确的判断,从而提高了该模型的性能和精度。
根据本发明实施例的第一方面,提供一种用于图像识别的深度学习模型,所述模型包括:多个卷积层,其对输入图像依次进行特征提取,输出多个尺寸相同的特征图;确定层,其根据所述输入图像中的关注对象所在的位置,确定所述特征图包含的与位置相关的各个特征是否为所述关注对象所在位置的特征;合成层,其根据所述确定层的输出结果,对所述多个卷积层输出的所述多个特征图中的特征进行加权合成处理,所述关注对象所在位置的特征的权值与其他特征的权值不同;以及全连接层,其根据所述合成层进行加权合成处理后的多个特征图,输出识别结果。
根据本发明实施例的第二方面,提供一种根据本发明实施例的第一方面所述的深度学习模型的训练装置,所述装置包括:输入单元,其用于向所述深度学习模型的所述多个卷积层输入训练图像;第一计算单元,其用于根据所述深度学习模型的所述确定层的输出结果和预先设定的关注对象所在的位置的真值,计算关注损失;第二计算单元,其用于根据所述深度学习模型的所述全连接层的输出结果和预先设定的分类真值,计算分类损失;以及调整单元,其用于根据所述关注损失和所述分类损失进行反向传播,以调整所述深度学习模型的所述多个卷积层和所述确定层的参数。
根据本发明实施例的第三方面,提供一种电子设备,所述电子设备包括根据本发明实施例的第二方面所述的装置。
根据本发明实施例的第四方面,提供一种根据本发明实施例的第一方面所述的深度学习模型的训练方法,所述方法包括:向所述深度学习模型的所述多个卷积层输入训练图像;根据所述深度学习模型的所述确定层的输出结果和预先设定的关注对象所在的位置的真值,计算关注损失;根据所述深度学习模型的所述全连接层的输出结果和预先设定的分类真值,计算分类损失;以及根据所述关注损失和所述分类损失进行反向传播,以调整所述深度学习模型的所述多个卷积层和所述确定层的参数。
本发明的有益效果在于:由于该模型具有用于确定特征图中的各个特征是否为关注对象所在位置的特征的确定层,并在对特征进行加权合成时对关注对象所在位置的特征和其他特征赋予不同的权值,因此能够引导该模型聚焦于需要关注的特征并做出正确的判断,从而提高了该模型的性能和精度。
参照后文的说明和附图,详细公开了本发明的特定实施方式,指明了本发明的原理可以被采用的方式。应该理解,本发明的实施方式在范围上并不因而受到限制。在所附权利要求的精神和条款的范围内,本发明的实施方式包括许多改变、修改和等同。
针对一种实施方式描述和/或示出的特征可以以相同或类似的方式在一个或更多个其它实施方式中使用,与其它实施方式中的特征相组合,或替代其它实施方式中的特征。
应该强调,术语“包括/包含”在本文使用时指特征、整件、步骤或组件的存在,但并不排除一个或更多个其它特征、整件、步骤或组件的存在或附加。
附图说明
所包括的附图用来提供对本发明实施例的进一步的理解,其构成了说明书的一部分,用于例示本发明的实施方式,并与文字描述一起来阐释本发明的原理。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1是本发明实施例1的用于图像识别的深度学习模型的一示意图;
图2是本发明实施例1的输入图像的一示意图;
图3是本发明实施例1的对输入图像的多个特征图进行加权和合成的一示意图;
图4是本发明实施例2的训练装置的一示意图;
图5是本发明实施例2的关注对象的真值设定的一示意图;
图6是本发明实施例2的训练过程的一示意图;
图7是本发明实施例3的电子设备的一示意图;
图8是本发明实施例3的电子设备的***构成的一示意框图;
图9是本发明实施例4的训练方法的一示意图。
具体实施方式
参照附图,通过下面的说明书,本发明的前述以及其它特征将变得明显。在说明书和附图中,具体公开了本发明的特定实施方式,其表明了其中可以采用本发明的原则的部分实施方式,应了解的是,本发明不限于所描述的实施方式,相反,本发明包括落入所附权利要求的范围内的全部修改、变型以及等同物。
实施例1
本发明实施例提供一种用于图像识别的深度学习模型。图1是本发明实施例1的用于图像识别的深度学习模型的一示意图。如图1所示,深度学习模型100包括:
多个卷积层101-1~101-N,其对输入图像依次进行特征提取,输出多个尺寸相同的特征图;
确定层102,其根据该输入图像中的关注对象所在的位置,确定该特征图包含的与位置相关的各个特征是否为该关注对象所在位置的特征;
合成层103,其根据该确定层102的输出结果,对该多个卷积层输出的该多个特征图中的特征进行加权合成处理,该关注对象所在位置的特征的权值与其他特征的权值不同;以及
全连接层104,其根据该合成层103进行加权合成处理后的多个特征图,输出识别结果。
由上述实施例可知,由于该模型具有用于确定特征图中的各个特征是否为关注对象所在位置的特征的确定层,并在对特征进行加权合成时对关注对象所在位置的特征和其他特征赋予不同的权值,因此能够引导该模型聚焦于需要关注的特征并做出正确的判断,从而提高了该模型的性能和精度。
在本实施例中,该多个卷积层101-1~101-N可以使用现有的网络结构,N为大于或等于2的整数,该卷积层的数量可以根据实际需要而设置。
在本实施例中,多个卷积层101-1~101-N依次对输入图像依次进行特征提取,输出多个尺寸相同的特征图,该输入图像可以是各种类型的图像,例如,视频的至少一帧图像。
在本实施例中,提取的特征可以是作为输入数据的各种特征,例如,轮廓、纹理、亮度等。
在本实施例中,多个卷积层101-1~101-N对输入图像进行特征提取后得到多个尺寸相同的特征图,例如,多个尺寸相同的特征图可以表示为c×m×n,其中,c表示特征图的数量,c为大于或等于2的整数,其由卷积层的卷积核的个数决定;m×n表示各个特征图的尺寸,其由输入图像的尺寸以及卷积层的卷积步长决定,m表示该特征图的长度方向的尺寸,即在长度方向上具有m个特征,n表示该特征图的宽度方向的尺寸,即在宽度方向上具有n个特征。m和n为正整数,m和n可以相同,也可以不同。
在多个卷积层101-1~101-N输出多个尺寸相同的特征图之后,确定层102根据该输入图像中的关注对象所在的位置,确定该特征图包含的与位置相关的各个特征是否为该关注对象所在位置的特征。
在本实施例中,该关注对象是根据实际需要而预先确定的,例如,需要对篮球视频图像中的投篮进行识别,则可以将打球的人和篮球作为关注对象。打球的人和篮球所在的位置也就是是关注对象所在的位置。为了便于计算,可以将打球的人和篮球划入其中的框所在的区域作为关注对象所在的位置。
图2是本发明实施例1的输入图像的一示意图。如图2所示,可以将打球的人所在的框201和篮球所在的框202所在的区域作为关注对象所在的位置。
确定层102在获得了输入图像中的关注对象所在的位置之后,就能够确定特征图中的哪些特征是该关注对象所在位置的特征,并将确定结果输出。这样,合成层103根据该确定层102的输出结果,对多个卷积层101-1~101-N输出的多个特征图中的特征进行加权合成处理,该关注对象所在位置的特征的权值与其他特征的权值不同
在本实施例中,可以将该关注对象所在位置的特征的权值设置为大于其他特征的权值。例如,将该关注对象所在位置的特征的权值设置为大于或等于1,将其他特征的权值设置为大于等于0且小于1的数值。
另外,也可以是,可以将该关注对象所在位置的特征的权值设置为大于其他特征的权值。在本实施例中,只要这两种特征的权值不同,该模型就能够区分出这两种特征从而进行不同的处理。
在本实施例中,该合成层103可以将该多个特征图与该特征图包含的与位置相关的各个特征的权值相乘,获得加权合成处理后的多个特征图。
图3是本发明实施例1的对输入图像的多个特征图进行加权和合成的一示意图。图3所示,301表示输入图像,302表示从输入图像301中提取的多个特征图X,特征图的数量为c,各个特征图的尺寸为m×m,303表示一个特征图中的各个特征的权值柱状图,高度较高的权值为关注对象所在位置的特征的权值,高度较低的权值为其他特征的权值;将302表示的多个特征图X与303表示的一个特征图中的各个特征的权值相乘,得到以304表示的加权合成处理后的多个特征图
Figure BDA0001844904800000051
另外,305表示对关注对象所在位置的特征进行加强(即增加权值)后得到的图像。
在本实施例中,将合成层103输出加权合成处理后的多个特征图输入全连接层104,得到识别结果。
在本实施例中,该全连接层104可以使用现有的网络结构。
该识别结果是对输入图像的识别结果,例如,对于识别“投篮”为目的的模型,其输入了如图2所示的输入图像,得到的输出结果可以是:“投篮:0.8;非投篮:0.2”,即投篮的概率为0.8,不是投篮的概率为0.2。
本实施例的深度学习模型100可以应用于各种具体的领域。例如,该深度学习模型100可以用于动作检测,例如上面的示例中的“投篮”动作。
又例如,该深度学习模型100还可以用于事件检测,例如对于交通事故的检测,通过该深度学习模型100可以直接检测交通事故而不仅限于场景的变换,而传统方法则需要人工制定复杂的规则。
当用于事件检测时,输入图像需要是在时间上连续的帧序列,例如监控视频的连续的帧序列。
并且,该深度学习模型100还可以包括:
长短期记忆(Long Short-Term Memory,LSTM)层105,其设置在合成层103和全连接层104之间。
这样,通过在深度学习模型中设置LSTM层,能够利用其随着时间记忆有用信息而忘掉无用信息的特性,针对时间上连续的帧序列进行识别。
由上述实施例可知,由于该模型具有用于确定特征图中的各个特征是否为关注对象所在位置的特征的确定层,并在对特征进行加权合成时对关注对象所在位置的特征和其他特征赋予不同的权值,因此能够引导该模型聚焦于需要关注的特征并做出正确的判断,从而提高了该模型的性能和精度。
实施例2
本发明实施例还提供一种如实施例1所述的用于图像识别的深度学习模型的训练装置。该深度学习模型的结构如图1所示,该深度学习模型100包括:多个卷积层101-1~101-N、确定层102、合成层103以及全连接层104。
图4是本发明实施例2的训练装置的一示意图。如图4所示,训练装置400包括:
输入单元401,其用于向该深度学习模型100的该多个卷积层101-1~101-N输入训练图像;
第一计算单元402,其用于根据该深度学习模型100的该确定层102的输出结果和预先设定的关注对象所在的位置的真值,计算关注损失;
第二计算单元403,其用于根据该深度学习模型100的该全连接层104的输出结果和预先设定的分类真值,计算分类损失;以及
调整单元404,其用于根据该关注损失和该分类损失进行反向传播,以调整该深度学习模型100的该多个卷积层101-1~101-N和该确定层102的参数。
这样,通过结合关注损失和分类损失进行反向传播,能够有效且迅速的对深度学习模型100进行训练。
在本实施例中,该训练图像可以是各种类型的图像,其具体的内容可以根据深度学习模型的识别需求而确定。例如,其识别需求是检测“投篮”动作,那么可以将打篮球的视频的多个帧图像作为训练图像。
在本实施例中,可以在卷积神经网络框架(Caffe,Convolutional Architecturefor Fast Feature Embedding)上进行训练。
在本实施例中,第一计算单元402可以计算该确定层输出的各个特征所在位置是关注对象的概率与该位置是关注对象的真值的差值的累计值,获得该关注损失。
例如,第一计算单元402可以根据以下的公式(1)计算关注损失:
Figure BDA0001844904800000071
其中,Lossattention表示关注损失,li,j表示确定层102输出的特征(i,j)是关注对象所在位置的特征的概率,
Figure BDA0001844904800000072
表示该特征(i,j)是关注对象所在位置的真值,m表示特征图的长和宽的尺寸,i,j,m均为正整数。
图5是本发明实施例2的关注对象的真值设定的一示意图。如图5所示,对于输入图像501中的关注对象所在位置的真值进行标定,得到关注对象的位置真值图502,其中,标签“1”表示该位置是关注对象所在的位置,标签“0”表示该位置不是关注对象所在的位置,由于输入图像的特征经过卷积层后进行了降维,因此需要对该位置真值图502进行相应的降维,得到降维后的位置真值图503,其尺寸与特征图相同,均为m×m。
在本实施例中,第二计算单元403根据该全连接层104的输出结果和预先设定的分类真值,计算分类损失。计算分类损失的具体方法可以参考现有技术。
例如,输入了如图2所示的图像作为训练图像,得到的输出结果可以是:“投篮:0.7;非投篮:0.3”,即投篮的概率为0.7。对于该训练图像其预先设定的分类真值为“1”,则分类损失即为1-0.7=0.3。
在本实施例中,调整单元404根据该关注损失和该分类损失进行反向传播,以调整该多个卷积层101-1~101-N和该确定层102的参数
例如,该调整单元404根据该关注损失和该分类损失的加权和进行反向传播,以调整该多个卷积层101-1~101-N和该确定层102的参数。
例如,可以根据以下的公式(2)计算该关注损失和该分类损失的加权和:
Loss=λ1Lossattention2Lossclassification
其中,Lossattention表示关注损失,Lossclassification表示分类损失,Loss表示该关注损失和该分类损失的加权和,λ1和λ2分别表示关注损失和分类损失的权值。
在本实施例中,该调整单元404进行反向传播以调整该多个卷积层101-1~101-N和该确定层102的参数的方法可以参考现有技术。例如,根据该关注损失和该分类损失的加权和对于权重参数和偏置参数的偏导数,调整各层的权重参数和偏置参数。
在本实施例中,该训练装置400还可以包括:
确定单元405,其用于确定该关注损失和分类损失各自的权值。例如,确定单元405根据实际需要来确定其各自的权值。
图6是本发明实施例2的训练过程的一示意图。如图6所示,输入单元401输出训练图像,训练图像被输入至待训练的深度学习模型,并根据该训练图像确定关注对象的位置真值以及分类真值,第一计算单元402根据该位置真值以及确定层102的输出结果计算位置损失,第二计算单元403根据该分类真值和全连接层104的输出结果计算分类损失,调整单元104根据该关注损失和该分类损失的加权和进行反向传播,以调整该多个卷积层101-1~101-N和该确定层102的参数,其中以虚线箭头表示对这些层参数的调整;当该关注损失和该分类损失的加权和收敛时,可以认为训练结束。
由上述实施例可知,通过结合关注损失和分类损失进行反向传播,能够有效且迅速的训练得到实施例1记载的深度学习模型。
实施例3
本发明实施例还提供了一种电子设备,图7是本发明实施例3的电子设备的一示意图。如图7所示,电子设备700包括训练装置701,该训练装置701用于对如实施例1所述的深度学习模型进行训练,该训练装置701的结构和功能与实施例2中的记载相同,此处不再赘述。
图8是本发明实施例3的电子设备的***构成的一示意框图。如图8所示,电子设备800可以包括中央处理器801和存储器802;该存储器802耦合到该中央处理器801。该图是示例性的;还可以使用其它类型的结构,来补充或代替该结构,以实现电信功能或其它功能。
如图8所示,该电子设备800还可以包括:输入单元803、显示器804、电源805。
在一个实施方式中,实施例2所述的训练装置的功能可以被集成到该中央处理器801中。其中,该中央处理器801可以被配置为:向该深度学习模型的该多个卷积层输入训练图像;根据该深度学习模型的该确定层的输出结果和预先设定的关注对象所在的位置的真值,计算关注损失;根据该深度学习模型的该全连接层的输出结果和预先设定的分类真值,计算分类损失;以及根据该关注损失和该分类损失进行反向传播,以调整该深度学习模型的该多个卷积层和该确定层的参数。
例如,该根据该深度学习模型的该确定层的输出结果和预先设定的关注对象所在的位置的真值,计算关注损失,包括:计算该确定层输出的各个特征所在位置是关注对象的概率与该位置是关注对象的真值的差值的累计值,获得该关注损失。
例如,该根据该关注损失和该分类损失进行反向传播,以调整该深度学习模型的该多个卷积层和该确定层的参数,包括:根据该关注损失和该分类损失的加权和进行反向传播,以调整该深度学习模型的该多个卷积层和该确定层的参数。
例如,该中央处理器801还可以被配置为:确定该关注损失和分类损失各自的权值。
在另一个实施方式中,实施例2所述的训练装置可以与该中央处理器801分开配置,例如可以将该训练装置配置为与该中央处理器801连接的芯片,通过该中央处理器801的控制来实现该训练装置的功能。
在本实施例中该电子设备800也并不是必须要包括图8中所示的所有部件。
如图8所示,该中央处理器801有时也称为控制器或操作控件,可以包括微处理器或其它处理器装置和/或逻辑装置,该中央处理器801接收输入并控制该电子设备800的各个部件的操作。
该存储器802,例如可以是缓存器、闪存、硬驱、可移动介质、易失性存储器、非易失性存储器或其它合适装置中的一种或更多种。并且该中央处理器801可执行该存储器802存储的该程序,以实现信息存储或处理等。其它部件的功能与现有类似,此处不再赘述。该电子设备800的各部件可以通过专用硬件、固件、软件或其结合来实现,而不偏离本发明的范围。
由上述实施例可知,通过结合关注损失和分类损失进行反向传播,能够有效且迅速的训练得到实施例1记载的深度学习模型。
实施例4
本发明实施例还提供一种如实施例1所述的用于图像识别的深度学习模型的训练方法,该训练方法对应于实施例2的训练装置。图9是本发明实施例4的训练方法的一示意图。如图9所示,该方法包括:
步骤901:向该深度学习模型的该多个卷积层输入训练图像;
步骤902:根据该深度学习模型的该确定层的输出结果和预先设定的关注对象所在的位置的真值,计算关注损失;
步骤903:根据该深度学习模型的该全连接层的输出结果和预先设定的分类真值,计算分类损失;以及
步骤904:根据该关注损失和该分类损失进行反向传播,以调整该深度学习模型的该多个卷积层和该确定层的参数。
在本实施例中,步骤902和步骤903可以先后执行,例如,先执行步骤902再执行步骤903,或者,先执行步骤903再执行步骤902。另外,也可以是,同时执行步骤902和步骤903。本发明实施例不对步骤902和步骤903的执行顺序进行限制。
在本实施例中,上述各个步骤的具体实现方法与实施例2中的记载相同,此处不再重复。
由上述实施例可知,通过结合关注损失和分类损失进行反向传播,能够有效且迅速的训练得到实施例1记载的深度学习模型。
本发明实施例还提供一种计算机可读程序,其中当在深度学习模型的训练装置或电子设备中执行所述程序时,所述程序使得计算机在所述深度学习模型的训练装置或电子设备中执行实施例4所述的深度学习模型的训练方法。
本发明实施例还提供一种存储有计算机可读程序的存储介质,其中所述计算机可读程序使得计算机在深度学习模型的训练装置或电子设备中执行实施例4所述的深度学习模型的训练方法。
结合本发明实施例描述的在所述深度学习模型的训练装置或电子设备中执行深度学习模型的训练方法可直接体现为硬件、由处理器执行的软件模块或二者组合。例如,图4中所示的功能框图中的一个或多个和/或功能框图的一个或多个组合,既可以对应于计算机程序流程的各个软件模块,亦可以对应于各个硬件模块。这些软件模块,可以分别对应于图9所示的各个步骤。这些硬件模块例如可利用现场可编程门阵列(FPGA)将这些软件模块固化而实现。
软件模块可以位于RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、移动磁盘、CD-ROM或者本领域已知的任何其它形式的存储介质。可以将一种存储介质耦接至处理器,从而使处理器能够从该存储介质读取信息,且可向该存储介质写入信息;或者该存储介质可以是处理器的组成部分。处理器和存储介质可以位于ASIC中。该软件模块可以存储在移动终端的存储器中,也可以存储在可***移动终端的存储卡中。例如,如果电子设备采用的是较大容量的MEGA-SIM卡或者大容量的闪存装置,则该软件模块可存储在该MEGA-SIM卡或者大容量的闪存装置中。
针对图4描述的功能框图中的一个或多个和/或功能框图的一个或多个组合,可以实现为用于执行本申请所描述功能的通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑器件、分立门或晶体管逻辑器件、分立硬件组件、或者其任意适当组合。针对图4描述的功能框图中的一个或多个和/或功能框图的一个或多个组合,还可以实现为计算设备的组合,例如,DSP和微处理器的组合、多个微处理器、与DSP通信结合的一个或多个微处理器或者任何其它这种配置。
以上结合具体的实施方式对本发明进行了描述,但本领域技术人员应该清楚,这些描述都是示例性的,并不是对本发明保护范围的限制。本领域技术人员可以根据本发明的精神和原理对本发明做出各种变型和修改,这些变型和修改也在本发明的范围内。
关于包括以上实施例的实施方式,还公开下述的附记:
附记1.一种用于图像识别的深度学习模型,所述模型包括:
多个卷积层,其对输入图像依次进行特征提取,输出多个尺寸相同的特征图;
确定层,其根据所述输入图像中的关注对象所在的位置,确定所述特征图包含的与位置相关的各个特征是否为所述关注对象所在位置的特征;
合成层,其根据所述确定层的输出结果,对所述多个卷积层输出的所述多个特征图中的特征进行加权合成处理,所述关注对象所在位置的特征的权值与其他特征的权值不同;以及
全连接层,其根据所述合成层进行加权合成处理后的多个特征图,输出识别结果。
附记2.根据附记1所述的深度学习模型,其中,
所述合成层将所述多个特征图与所述特征图包含的与位置相关的各个特征的权值相乘,获得加权合成处理后的多个特征图。
附记3.根据附记1所述的深度学习模型,其中,所述深度学习模型还包括:
长短期记忆层,其设置在所述合成层和所述全连接层之间,
所述输入图像是在时间上连续的帧序列。
附记4.一种根据附记1-3中的任一项所述的深度学习模型的训练装置,所述装置包括:
输入单元,其用于向所述深度学习模型的所述多个卷积层输入训练图像;
第一计算单元,其用于根据所述深度学习模型的所述确定层的输出结果和预先设定的关注对象所在的位置的真值,计算关注损失;
第二计算单元,其用于根据所述深度学习模型的所述全连接层的输出结果和预先设定的分类真值,计算分类损失;以及
调整单元,其用于根据所述关注损失和所述分类损失进行反向传播,以调整所述深度学习模型的所述多个卷积层和所述确定层的参数。
附记5.根据附记4所述的装置,其中,
所述第一计算单元计算所述确定层输出的各个特征所在位置是关注对象的概率与所述位置是关注对象的真值的差值的累计值,获得所述关注损失。
附记6.根据附记4所述的装置,其中,
所述调整单元根据所述关注损失和所述分类损失的加权和进行反向传播,以调整所述深度学习模型的所述多个卷积层和所述确定层的参数。
附记7.根据附记6所述的装置,其中,所述装置还包括:
确定单元,其用于确定所述关注损失和分类损失各自的权值。
附记8.一种电子设备,所述电子设备包括根据附记4-7中的任一项所述的装置。
附记9.一种根据附记1-3中的任一项所述的深度学习模型的训练方法,所述方法包括:
向所述深度学习模型的所述多个卷积层输入训练图像;
根据所述深度学习模型的所述确定层的输出结果和预先设定的关注对象所在的位置的真值,计算关注损失;
根据所述深度学习模型的所述全连接层的输出结果和预先设定的分类真值,计算分类损失;以及
根据所述关注损失和所述分类损失进行反向传播,以调整所述深度学习模型的所述多个卷积层和所述确定层的参数。
附记10.根据附记9所述的方法,其中,
所述根据所述深度学习模型的所述确定层的输出结果和预先设定的关注对象所在的位置的真值,计算关注损失,包括:
计算所述确定层输出的各个特征所在位置是关注对象的概率与所述位置是关注对象的真值的差值的累计值,获得所述关注损失。
附记11.根据附记9所述的方法,其中,
所述根据所述关注损失和所述分类损失进行反向传播,以调整所述深度学习模型的所述多个卷积层和所述确定层的参数,包括:
根据所述关注损失和所述分类损失的加权和进行反向传播,以调整所述深度学习模型的所述多个卷积层和所述确定层的参数。
附记12.根据附记11所述的方法,其中,所述方法还包括:
确定所述关注损失和分类损失各自的权值。

Claims (10)

1.一种用于图像识别的深度学习模型,所述模型包括:
多个卷积层,其对输入图像依次进行特征提取,输出多个尺寸相同的特征图;
确定层,其根据所述输入图像中的关注对象所在的位置,确定所述特征图包含的与位置相关的各个特征是否为所述关注对象所在位置的特征;
合成层,其根据所述确定层的输出结果,对所述多个卷积层输出的所述多个特征图中的特征进行加权合成处理,所述关注对象所在位置的特征的权值与其他特征的权值不同;以及
全连接层,其根据所述合成层进行加权合成处理后的多个特征图,输出识别结果。
2.根据权利要求1所述的深度学习模型,其中,
所述合成层将所述多个特征图与所述特征图包含的与位置相关的各个特征的权值相乘,获得加权合成处理后的多个特征图。
3.根据权利要求1所述的深度学习模型,其中,所述深度学习模型还包括:
长短期记忆层,其设置在所述合成层和所述全连接层之间,
所述输入图像是在时间上连续的帧序列。
4.一种根据权利要求1-3中的任一项所述的深度学习模型的训练装置,所述装置包括:
输入单元,其用于向所述深度学习模型的所述多个卷积层输入训练图像;
第一计算单元,其用于根据所述深度学习模型的所述确定层的输出结果和预先设定的关注对象所在的位置的真值,计算关注损失;
第二计算单元,其用于根据所述深度学习模型的所述全连接层的输出结果和预先设定的分类真值,计算分类损失;以及
调整单元,其用于根据所述关注损失和所述分类损失进行反向传播,以调整所述深度学习模型的所述多个卷积层和所述确定层的参数。
5.根据权利要求4所述的装置,其中,
所述第一计算单元计算所述确定层输出的各个特征所在位置是关注对象的概率与所述位置是关注对象的真值的差值的累计值,获得所述关注损失。
6.根据权利要求4所述的装置,其中,
所述调整单元根据所述关注损失和所述分类损失的加权和进行反向传播,以调整所述深度学习模型的所述多个卷积层和所述确定层的参数。
7.根据权利要求6所述的装置,其中,所述装置还包括:
确定单元,其用于确定所述关注损失和分类损失各自的权值。
8.一种根据权利要求1-3中的任一项所述的深度学习模型的训练方法,所述方法包括:
向所述深度学习模型的所述多个卷积层输入训练图像;
根据所述深度学习模型的所述确定层的输出结果和预先设定的关注对象所在的位置的真值,计算关注损失;
根据所述深度学习模型的所述全连接层的输出结果和预先设定的分类真值,计算分类损失;以及
根据所述关注损失和所述分类损失进行反向传播,以调整所述深度学习模型的所述多个卷积层和所述确定层的参数。
9.根据权利要求8所述的方法,其中,
所述根据所述深度学习模型的所述确定层的输出结果和预先设定的关注对象所在的位置的真值,计算关注损失,包括:
计算所述确定层输出的各个特征所在位置是关注对象的概率与所述位置是关注对象的真值的差值的累计值,获得所述关注损失。
10.根据权利要求8所述的方法,其中,
所述根据所述关注损失和所述分类损失进行反向传播,以调整所述深度学习模型的所述多个卷积层和所述确定层的参数,包括:
根据所述关注损失和所述分类损失的加权和进行反向传播,以调整所述深度学习模型的所述多个卷积层和所述确定层的参数。
CN201811266011.9A 2018-10-29 2018-10-29 用于图像识别的深度学习模型、该模型的训练装置及方法 Pending CN111104830A (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN201811266011.9A CN111104830A (zh) 2018-10-29 2018-10-29 用于图像识别的深度学习模型、该模型的训练装置及方法
EP19203573.1A EP3648007A1 (en) 2018-10-29 2019-10-16 Deep learning model used for image recognition and training apparatus of the model and method thereof
US16/654,241 US11361190B2 (en) 2018-10-29 2019-10-16 Deep learning model used for image recognition and training apparatus of the model and method thereof
JP2019191872A JP2020071875A (ja) 2018-10-29 2019-10-21 画像認識に用いる深層学習モデル及び該モデルの訓練装置と方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811266011.9A CN111104830A (zh) 2018-10-29 2018-10-29 用于图像识别的深度学习模型、该模型的训练装置及方法

Publications (1)

Publication Number Publication Date
CN111104830A true CN111104830A (zh) 2020-05-05

Family

ID=68281182

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811266011.9A Pending CN111104830A (zh) 2018-10-29 2018-10-29 用于图像识别的深度学习模型、该模型的训练装置及方法

Country Status (4)

Country Link
US (1) US11361190B2 (zh)
EP (1) EP3648007A1 (zh)
JP (1) JP2020071875A (zh)
CN (1) CN111104830A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113642363A (zh) * 2020-05-11 2021-11-12 富士通株式会社 神经网络及其训练方法

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7396159B2 (ja) * 2020-03-26 2023-12-12 富士通株式会社 画像処理装置、画像認識システム及び画像処理プログラム
CN111783844B (zh) * 2020-06-10 2024-05-28 广东正扬传感科技股份有限公司 基于深度学习的目标检测模型训练方法、设备及存储介质
CN112308129A (zh) * 2020-10-28 2021-02-02 中国科学院宁波材料技术与工程研究所 一种基于深度学习的植物线虫数据自动标注和分类识别方法
CN112926453B (zh) * 2021-02-26 2022-08-05 电子科技大学 基于运动特征增强和长时时序建模的考场作弊行为分析方法
CN115388705B (zh) * 2022-09-05 2023-04-07 北京子久科技有限公司 基于物联网的轻武器实弹射击训练自动控制***及其方法
CN115482395B (zh) * 2022-09-30 2024-02-20 北京百度网讯科技有限公司 模型训练方法、图像分类方法、装置、电子设备和介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9286524B1 (en) * 2015-04-15 2016-03-15 Toyota Motor Engineering & Manufacturing North America, Inc. Multi-task deep convolutional neural networks for efficient and robust traffic lane detection
CN107153840A (zh) * 2017-04-21 2017-09-12 防城港市丰禾曲辰农业科技有限公司 一种基于卷积神经的农作物害虫图像识别方法
US20170262995A1 (en) * 2016-03-11 2017-09-14 Qualcomm Incorporated Video analysis with convolutional attention recurrent neural networks
US20170294091A1 (en) * 2016-04-06 2017-10-12 Nec Laboratories America, Inc. Video-based action recognition security system
CN107480725A (zh) * 2017-08-23 2017-12-15 京东方科技集团股份有限公司 基于深度学习的图像识别方法、装置和计算机设备
CN107977671A (zh) * 2017-10-27 2018-05-01 浙江工业大学 一种基于多任务卷积神经网络的舌象分类方法
CN108447048A (zh) * 2018-02-23 2018-08-24 天津大学 基于关注层的卷积神经网络图像特征处理方法

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105913117A (zh) 2016-04-04 2016-08-31 北京工业大学 一种计算机智能识别的相关神经网络方法
CN106446930B (zh) 2016-06-28 2019-11-22 沈阳工业大学 基于深层卷积神经网络的机器人工作场景识别方法
CN106600538A (zh) 2016-12-15 2017-04-26 武汉工程大学 一种基于区域深度卷积神经网络的人脸超分辨率算法
US10446442B2 (en) * 2016-12-21 2019-10-15 Globalfoundries Inc. Integrated circuit chip with molding compound handler substrate and method
CN107451552A (zh) 2017-07-25 2017-12-08 北京联合大学 一种基于3d‑cnn和卷积lstm的手势识别方法
US11127175B2 (en) * 2017-09-26 2021-09-21 Rensselaer Polytechnic Institute Monochromatic CT image reconstruction from current-integrating data via machine learning
US11586875B2 (en) * 2017-11-22 2023-02-21 Massachusetts Institute Of Technology Systems and methods for optimization of a data model network architecture for target deployment
US10911732B2 (en) * 2019-01-14 2021-02-02 Fyusion, Inc. Free-viewpoint photorealistic view synthesis from casually captured video
US11252392B2 (en) * 2019-02-22 2022-02-15 Avalon Holographies Inc. Layered scene decomposition CODEC with layered depth imaging
US10646156B1 (en) * 2019-06-14 2020-05-12 Cycle Clarity, LLC Adaptive image processing in assisted reproductive imaging modalities

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9286524B1 (en) * 2015-04-15 2016-03-15 Toyota Motor Engineering & Manufacturing North America, Inc. Multi-task deep convolutional neural networks for efficient and robust traffic lane detection
US20170262995A1 (en) * 2016-03-11 2017-09-14 Qualcomm Incorporated Video analysis with convolutional attention recurrent neural networks
US20170294091A1 (en) * 2016-04-06 2017-10-12 Nec Laboratories America, Inc. Video-based action recognition security system
CN107153840A (zh) * 2017-04-21 2017-09-12 防城港市丰禾曲辰农业科技有限公司 一种基于卷积神经的农作物害虫图像识别方法
CN107480725A (zh) * 2017-08-23 2017-12-15 京东方科技集团股份有限公司 基于深度学习的图像识别方法、装置和计算机设备
CN107977671A (zh) * 2017-10-27 2018-05-01 浙江工业大学 一种基于多任务卷积神经网络的舌象分类方法
CN108447048A (zh) * 2018-02-23 2018-08-24 天津大学 基于关注层的卷积神经网络图像特征处理方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CHENG WANG ET ALL: "A multi-task attentional network with curriculum sampling for person-identification" *
HAO LIU ET ALL: "End to End comparative attention networks for person reidentification" *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113642363A (zh) * 2020-05-11 2021-11-12 富士通株式会社 神经网络及其训练方法

Also Published As

Publication number Publication date
EP3648007A1 (en) 2020-05-06
US20200134385A1 (en) 2020-04-30
JP2020071875A (ja) 2020-05-07
US11361190B2 (en) 2022-06-14

Similar Documents

Publication Publication Date Title
CN111104830A (zh) 用于图像识别的深度学习模型、该模型的训练装置及方法
CN113065558B (zh) 一种结合注意力机制的轻量级小目标检测方法
CN108710847B (zh) 场景识别方法、装置及电子设备
CN109902546B (zh) 人脸识别方法、装置及计算机可读介质
CN108416250B (zh) 人数统计方法及装置
CN111160375B (zh) 三维关键点预测及深度学习模型训练方法、装置及设备
CN111860398B (zh) 遥感图像目标检测方法、***及终端设备
CN107633226B (zh) 一种人体动作跟踪特征处理方法
EP2864933A1 (en) Method, apparatus and computer program product for human-face features extraction
CN111340077B (zh) 基于注意力机制的视差图获取方法和装置
CN103778436B (zh) 一种基于图像处理的行人姿态检测方法
CN111104925B (zh) 图像处理方法、装置、存储介质和电子设备
CN112001403B (zh) 一种图像轮廓检测方法及***
CN111612024B (zh) 特征提取方法、装置、电子设备及计算机可读存储介质
CN111914908B (zh) 一种图像识别模型训练方法、图像识别方法及相关设备
CN108875504B (zh) 基于神经网络的图像检测方法和图像检测装置
CN107564007B (zh) 融合全局信息的场景分割修正方法与***
CN110781962A (zh) 基于轻量级卷积神经网络的目标检测方法
CN111680705A (zh) 适于目标检测的mb-ssd方法和mb-ssd特征提取网络
CN113869282A (zh) 人脸识别方法、超分模型训练方法及相关设备
CN112733767A (zh) 一种人体关键点检测方法、装置、存储介质及终端设备
CN110503090B (zh) 基于受限注意力模型的字符检测网络训练方法、字符检测方法和字符检测器
CN109961103B (zh) 特征提取模型的训练方法、图像特征的提取方法及装置
CN113256683B (zh) 目标跟踪方法及相关设备
CN110826534A (zh) 一种基于局部主成分分析的人脸关键点检测方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20200505