CN111582008B - 训练分类模型的装置和方法及利用分类模型分类的装置 - Google Patents

训练分类模型的装置和方法及利用分类模型分类的装置 Download PDF

Info

Publication number
CN111582008B
CN111582008B CN201910122211.5A CN201910122211A CN111582008B CN 111582008 B CN111582008 B CN 111582008B CN 201910122211 A CN201910122211 A CN 201910122211A CN 111582008 B CN111582008 B CN 111582008B
Authority
CN
China
Prior art keywords
region
global
training
sample image
local
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910122211.5A
Other languages
English (en)
Other versions
CN111582008A (zh
Inventor
张梦
刘汝杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to CN201910122211.5A priority Critical patent/CN111582008B/zh
Priority to JP2019236449A priority patent/JP2020135859A/ja
Priority to EP20150950.2A priority patent/EP3699813A1/en
Priority to US16/738,393 priority patent/US11113513B2/en
Publication of CN111582008A publication Critical patent/CN111582008A/zh
Application granted granted Critical
Publication of CN111582008B publication Critical patent/CN111582008B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/169Holistic features and representations, i.e. based on the facial image taken as a whole
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/171Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

公开了一种训练分类模型的装置和方法及利用分类模型分类的装置。训练分类模型的装置包括:获得局部区域单元,获得作为样本图像的全局区域中的一部分的预定局部区域;特征提取单元,针对每个样本图像,对于全局区域和每个预定局部区域分别设置相应数量的特征提取层,用以分别提取全局区域的全局特征和每个预定局部区域的局部特征,其中,全局区域和预定局部区域共享针对全局区域和每个预定局部区域分别设置的特征提取层中的至少一个层,以在所共享的所述至少一个层中将全局特征和每个局部特征进行结合;以及损失确定单元,利用损失确定层,基于每个样本图像的结合后的特征来计算该样本图像的损失函数,并基于损失函数来训练所述分类模型。

Description

训练分类模型的装置和方法及利用分类模型分类的装置
技术领域
本公开涉及信息处理领域,具体涉及一种训练分类模型的装置和方法、以及利用分类模型进行分类的装置和方法。
背景技术
近年来,由于大规模人脸数据、车辆数据等的收集和卷积神经网络的应用,人脸识别和车牌识别等分类技术在学术界和工业界都取得了很大的进展并得到了广泛的应用。目前提高人脸识别和车牌识别等分类性能的主要思路是提高分类模型的性能。然而,当应用场景出现姿态变化大、分辨率低、质量差等问题时,分类性能会明显降低。进一步地,可以通过增加数据来提高分类性能。然而,收集大规模的数据费事费力。就人脸数据而言,现在存在VGG2Face、Ms-Celeb-1M、MegaFace等公开的人脸数据集。每个数据集都有各自的优缺点,充分利用每个数据集的优点可以有效地提升分类性能。最简单的方法是直接将多个数据集放到一起,但不同数据集的数据有交叉,容易出现同一个数据在不同数据集中标注不一样的情况,简单地将多个数据集融合到一起容易使训练的分类模型不收敛或者性能更差。
发明内容
在下文中给出了关于本公开的简要概述,以便提供关于本公开的某些方面的基本理解。但是,应当理解,这个概述并不是关于本公开的穷举性概述。它并不是意图用来确定本公开的关键性部分或重要部分,也不是意图用来限定本公开的范围。其目的仅仅是以简化的形式给出关于本公开的某些概念,以此作为稍后给出的更详细描述的前序。
鉴于以上问题,本公开的目的是提供能够解决现有技术中的一个或多个缺点的训练分类模型的装置和方法、以及利用分类模型进行分类的装置和方法。
根据本公开的另一方面,提供了一种训练分类模型的装置,包括:获得局部区域单元,被配置成针对训练集中的每个样本图像,获得该样本图像的预定数量的预定局部区域,其中,每个预定局部区域是所述样本图像的全局区域中的一部分;特征提取单元,被配置成针对每个样本图像,对于所述全局区域和每个预定局部区域分别设置相应数量的特征提取层,用以分别提取所述全局区域的全局特征和每个预定局部区域的局部特征,其中,所述全局区域和所述预定数量的预定局部区域共享针对所述全局区域和每个预定局部区域分别设置的相应数量的特征提取层中的至少一个层,以在所共享的所述至少一个层中将所述全局特征和每个局部特征进行结合;以及损失确定单元,被配置成利用损失确定层,基于每个样本图像的结合后的特征来计算该样本图像的损失函数,并基于所述损失函数来训练所述分类模型。
根据本公开的另一方面,提供了一种训练分类模型的方法,包括:获得局部区域步骤,针对训练集中的每个样本图像,获得该样本图像的预定数量的预定局部区域,其中,每个局部区域是所述样本图像的全局区域中的一部分;特征提取步骤,针对每个样本图像,对于所述全局区域和每个预定局部区域分别设置相应的特征提取层,用以分别提取所述全局区域的全局特征和每个预定局部区域的局部特征,其中,所述全局区域和所述预定数量的预定局部区域共享针对所述全局区域和每个预定局部区域分别设置的相应数量的特征提取层中的至少一个层,以在所共享的所述至少一个层中将所述全局特征和每个局部特征进行结合;以及损失确定步骤,利用损失确定层,基于每个样本图像的结合后的特征来计算该样本图像的损失函数,并基于所述损失函数来训练所述分类模型。
根据本公开的另一方面,提供了一种利用分类模型进行分类的装置,包括:第二获得局部区域单元,被配置成获得待分类图像的预定数量的预定局部区域,其中,每个预定局部区域是所述待分类图像的全局区域中的一部分;第二特征提取单元,被配置成利用所述分类模型中的针对所述全局区域和每个局部区域而设置的相应数量的特征提取层来分别提取所述全局区域的全局特征和每个预定局部区域的局部特征,其中,在所述分类模型中,所述全局区域和所述预定数量的预定局部区域共享针对所述全局区域和每个预定局部区域分别设置的相应数量的特征提取层中的至少一个层,以在所共享的所述至少一个层中将所述全局特征和每个局部特征进行结合;以及第二损失确定单元,被配置成利用所述分类模型中的损失确定层,基于所述待分类图像的结合后的特征来计算所述待分类图像的损失函数,并基于所述损失函数来对所述待分类图像进行分类。
根据本公开的其它方面,还提供了用于实现上述根据本公开的方法的计算机程序代码和计算机程序产品。
在下面的说明书部分中给出本公开实施例的其它方面,其中,详细说明用于充分地公开本公开实施例的优选实施例,而不对其施加限定。
附图说明
本公开可以通过参考下文中结合附图所给出的详细描述而得到更好的理解,其中在所有附图中使用了相同或相似的附图标记来表示相同或者相似的部件。所述附图连同下面的详细说明一起包含在本说明书中并形成说明书的一部分,用来进一步举例说明本公开的优选实施例和解释本公开的原理和优点。其中:
图1是示出根据本公开实施例的训练分类模型的装置的功能配置示例的框图;
图2是示意性示出根据本公开实施例的训练分类模型的装置的一个结构配置示例的图;
图3是示意性示出根据本公开实施例的训练分类模型的装置的另一结构配置示例的图;
图4是示出根据本公开实施例的训练分类模型的方法的流程示例的流程图;
图5是示出根据本公开实施例的利用预先训练的分类模型进行分类的装置的功能配置示例的框图;
图6是示出根据本公开实施例的利用预先训练的分类模型进行分类的方法的流程示例的流程图;以及
图7是示出作为本公开实施例中可采用的个人计算机的示例结构的框图。
具体实施方式
在下文中将结合附图对本公开的示范性实施例进行描述。为了清楚和简明起见,在说明书中并未描述实际实施方式的所有特征。然而,应该了解,在开发任何这种实际实施例的过程中必须做出很多特定于实施方式的决定,以便实现开发人员的具体目标,例如,符合与***及业务相关的那些限制条件,并且这些限制条件可能会随着实施方式的不同而有所改变。此外,还应该了解,虽然开发工作有可能是非常复杂和费时的,但对得益于本公开内容的本领域技术人员来说,这种开发工作仅仅是例行的任务。
在此,还需要说明的一点是,为了避免因不必要的细节而模糊了本公开,在附图中仅仅示出了与根据本公开的方案密切相关的设备结构和/或处理步骤,而省略了与本公开关系不大的其它细节。
下面结合附图详细说明根据本公开的实施例。
首先,将参照图1描述根据本公开实施例的训练分类模型的装置100的功能框图。图1是示出根据本公开实施例的训练分类模型的装置100的功能配置示例的框图。如图1所示,根据本公开实施例的训练分类模型的装置100包括获得局部区域单元102、特征提取单元104以及损失确定单元106。
获得局部区域单元102可以被配置成针对训练集中的每个样本图像,获得该样本图像的预定数量的预定局部区域,其中,每个预定局部区域是样本图像的全局区域中的一部分。
作为示例,全局区域是样本图像的整个区域,而局部区域是样本图像的整个区域中的一部分区域。
以样本图像为人脸图像为例,获得局部区域单元102可以根据人脸5个关键点信息(两个眼睛、鼻子以及两个嘴角的信息)将人脸分成预定数量的人脸图像块,从而获得每个样本图像的局部区域例如包括眼睛的区域、包括鼻子的区域、包括嘴部的区域等。样本图像可以是人脸,也可以是车牌等。在获得局部区域单元102中,还可以对除了人脸图像之外的图像(例如,车牌图像)进行上述类似处理。
图2是示意性示出根据本公开实施例的训练分类模型的装置100的一个结构配置示例的图。
如图2所示,存在一个训练集。对于该训练集中的人脸样本图像,获得该样本图像的包括眼睛的局部区域以及包括鼻子和嘴部的局部区域等。
特征提取单元104可以被配置成针对每个样本图像,对于全局区域和每个预定局部区域分别设置相应数量的特征提取层,用以分别提取全局区域的全局特征和每个预定局部区域的局部特征,其中,全局区域和预定数量的预定局部区域共享针对全局区域和每个预定局部区域分别设置的特征提取层中的至少一个层,以在所共享的所述至少一个层中将所述全局特征和每个局部特征进行结合。
作为示例,特征提取层可以是卷积神经网络的卷积层。本领域技术人员可以理解,特征提取层还可以是其他结构,这里不再累述。
对于全局区域和每个预定局部区域分别设置相应数量的特征提取层意味着:对于全局区域和每个预定局部区域分别设置的特征提取层的数量可以各不相同。
优选地,全局区域和预定数量的预定局部区域共享针对全局区域设置的特征提取层中的最后一层并且共享针对每个预定局部区域分别设置的特征提取层中的最后一层,以在最后一层中将全局特征和局部特征进行结合。
特征提取单元104利用针对全局区域设置的特征提取层来提取全局区域的全局特征,并且利用针对每个预定局部区域分别设置的相应数量的特征提取层来分别提取每个预定局部区域的局部特征。如图2的箭头1所示,对于全局区域设置相应数量的特征提取层,用以提取全局区域的全局特征;如图2的箭头2所示,对于包括眼睛的局部区域设置相应数量的特征提取层,用以提取该局部区域的局部特征;以及如图2的箭头3所示,对于包括鼻子和嘴部的局部区域设置相应数量的特征提取层,用以提取该局部区域的局部特征。
如图2所示,作为示例,样本图像的全局区域、包括眼睛的局部区域以及包括鼻子和嘴部的局部区域等共享针对全局区域和每个预定局部区域分别设置的特征提取层中的特征提取层a和b。另外,样本图像的全局区域、包括眼睛的局部区域以及包括鼻子和嘴部的局部区域等也可以共享特征提取层a和b中之一。在所共享的特征提取层a和b中将全局特征和每个局部特征进行结合,使得每个局部区域的局部特征作为对全局特征的补充,每个样本图像的由全局特征和每个局部特征结合后的特征能准确地表征样本图像的特征,从而有助于对样本图像进行准确的分类,会得到更鲁棒的分类模型,此外,可以提高训练的速度。
损失确定单元106可以被配置成利用损失确定层,基于每个样本图像的结合后的特征来计算该样本图像的损失函数,并基于损失函数来训练分类模型。
如上所述,样本图像的结合后的特征既包括全局特征又包括局部特征,因此能准确地表征样本图像的特征。本领域技术人员应该理解,在非神经网络的场景下,因为样本图像的结合后的特征既包括全局特征又包括局部特征,因此可以不再对特征进行融合。而在神经网络的场景下,可以进一步利用特征融合层(作为示例,特征融合层可以是卷积神经网络的全连接层)对样本图像的结合后的特征进行融合,以得到该样本图像的融合后的特征。从而,在非神经网络的场景下,损失确定单元106可以利用每个样本图像的结合后的特征来计算该样本图像的损失函数。而在神经网络的场景下,损失确定单元106可以利用每个样本图像的上述融合后的特征来计算该样本图像的损失函数。此外,在损失确定单元106中,利用损失确定层计算的损失函数的损失值进行误差反传来训练分类模型。作为示例,损失函数可以是softmax损失函数。另外,本领域技术人员还可以想到损失函数的其他示例,这里不再累述。
在现有技术中,利用人脸的多个图像块(即,上述局部区域)进行分类的分类模型为每一个图像块训练一个分类模型,M个图像块需要训练M个分类模型,计算量较大从而影响***的实时性。另外,当应用场景出现姿态变化大(例如侧脸)、分辨率低、质量差(例如,因为光照条件不利导致人脸图像质量差)等问题时,分类性能会明显降低。
通过以上描述可知,在根据本公开实施例的训练分类模型的装置100中,在全局区域和预定数量的预定局部区域所共享的至少一个特征提取层将全局特征和每个局部特征进行结合,每个样本图像的由全局特征和每个局部特征结合后的特征能准确地表征样本图像的特征,从而有助于对样本图像进行准确的分类,会得到更鲁棒的分类模型,即使在应用场景出现姿态变化大、分辨率低、质量差等问题时,也能得到较好的分类性能。此外,因为全局区域和预定数量的预定局部区域共享针对全局区域和每个预定局部区域分别设置的特征提取层中的至少一个层,因此可以减少需要计算和更新的特征提取层的参数的数量,从而可以提高训练的速度。
优选地,训练集包括多个训练集,所述多个训练集中的至少两个训练集至少部分重叠,损失确定层包括分别与多个训练集对应的多个损失确定层,以及损失确定单元106被配置成针对来自多个训练集的每个样本图像,利用与该样本图像所属的训练集对应的损失确定层来计算该样本图像的损失函数。
多个训练集中的至少两个训练集至少部分重叠意味着多个训练集中的至少两个训练集之间存在相同的样本图像,即多个训练集中的至少两个训练集之间存在交叉数据。在存在多个训练集的情况下,通过利用针对样本图像所属的训练集而设置的损失确定层来计算该样本图像的损失函数,可以保证该样本图像被正确地分类。
优选地,多个训练集共享针对每个训练集中的样本图像的全局区域设置的特征提取层中的至少一个层。
优选地,多个训练集还可以共享针对每个训练集中的样本图像的预定数量的预定局部区域中的至少一个预定局部区域设置的特征提取层中的至少一个层。
图3是示意性示出根据本公开实施例的训练分类模型的装置100的另一结构配置示例的图。
如图3所示,存在训练集1、…、训练集N。作为样本图像的示例,图3示出了来自训练集1的男士面部图像和来自训练集N的女士面部图像。作为示例,可以通过以下方式来选取样本图像:从不同训练集中随机选取批量的面部图像,其中批量的面部图像中包括的每个训练集的图像的个数由训练集的大小决定,比如训练集1和训练集N中样本图像的数据量比例为1:P,那么批量的面部图像中训练集1和训练集N的图像个数的比例为1:P。
如图3所示,从每个样本图像得到包括眼睛的局部区域以及包括鼻子和嘴部的局部区域等。并且,为全局区域和每个预定局部区域分别设置相应数量的特征提取层。
为了简化,说明但非限定,在图3中示出了N个训练集共享针对每个训练集中的样本图像的全局区域和每个预定局部区域分别设置的特征提取层。作为示例,如图3中的箭头1和箭头2所示,训练集1和训练集N中的全局区域共享针对全局区域设置的特征提取层,如图3中的箭头3和箭头4所示,训练集1和训练集N中的样本图像的包括眼睛的局部区域共享针对该局部区域设置的特征提取层,以及如图3中的箭头5和箭头6所示,训练集1和训练集N中的样本图像的包括鼻子和嘴部的局部区域共享针对该局部区域设置的特征提取层。
以包括人脸数据的训练集为例,如果多种训练集之间有很多相同的人脸数据(即训练集中存在交叉数据),如现有技术中那样简单地将多个训练集当做一个训练集,会出现存在于不同训练集中的同一个人脸被当做不同标签数据、进而导致训练模型很难收敛或者模型性能下降。
在根据本公开实施例的训练分类模型的装置100中,在对多个训练集进行组合从而形成更大的训练集时,多个训练集通过共享针对每个训练集中的样本图像的全局区域设置的特征提取层中的至少一个特征提取层,使得不同训练集之间的交叉数据能够被正确分类。即,在根据本公开实施例的训练分类模型的装置100中,可以组合多种训练集进行同时训练,并且使得不同训练集之间的交叉数据被正确分类。此外,多个训练集通过还共享针对每个训练集中的样本图像的预定局部区域中的至少一个预定局部区域设置的特征提取层中的至少一个特征提取层,使得不同训练集之间的交叉数据被正确分类的分类精度更高。
另外,作为示例,如图3所示,样本图像的全局区域、包括眼睛的局部区域以及包括鼻子和嘴部的局部区域等共享针对全局区域和每个预定局部区域分别设置的特征提取层中的特征提取层a和b。此外,样本图像的全局区域、包括眼睛的局部区域以及包括鼻子和嘴部的局部区域等还可以共享针对全局区域和每个预定局部区域分别设置的特征提取层中的特征提取层a和b之一。
此外,图3示意性地示出了分别与N个训练集对应的损失确定层,即损失确定层1、…、损失确定层N。如上所述,在利用样本图像训练分类模型时,通过利用针对样本图像所属的训练集而设置的损失确定层来计算该样本图像的损失函数,可以保证该样本图像被正确地分类。
优选地,预定数量的局部区域具有关于全局区域的互补信息。这样会使得局部区域的局部特征更全面地对全局特征进行补充,每个样本图像的由全局特征和每个局部特征结合后的特征能更准确地表征样本图像的特征,从而有助于对样本图像进行更准确的分类。
与上述训练分类模型的装置实施例相对应地,本公开还提供了以下训练分类模型的方法的实施例。
图4是示出根据本公开实施例的训练分类模型的方法400的流程示例的流程图。
如图4所示,根据本公开实施例的训练分类模型的方法400包括获得局部区域步骤S402、特征提取步骤S404以及损失确定步骤S406。
在获得局部区域步骤S402中,针对训练集中的每个样本图像,获得该样本图像的预定数量的预定局部区域,其中,每个预定局部区域是样本图像的全局区域中的一部分。
作为示例,全局区域是样本图像的整个区域,而局部区域是样本图像的整个区域中的一部分区域。
以样本图像为人脸图像为例,可以根据人脸5个关键点信息(两个眼睛、鼻子以及两个嘴角的信息)将人脸分成预定数量的人脸图像块,从而获得每个样本图像的局部区域例如包括眼睛的区域、包括鼻子的区域、包括嘴部的区域等。样本图像还可以是除了人脸图像之外的图像(例如,车牌图像)。在获得局部区域步骤S402中,还可以对除了人脸图像之外的图像进行上述类似处理。
在特征提取步骤S404中,针对每个样本图像,对于全局区域和每个预定局部区域分别设置相应数量的特征提取层,用以分别提取全局区域的全局特征和每个预定局部区域的局部特征,其中,全局区域和预定数量的预定局部区域共享针对全局区域和每个预定局部区域分别设置的相应数量的特征提取层中的至少一个层,以在所共享的所述至少一个层中将所述全局特征和每个局部特征进行结合。
作为示例,特征提取层可以是卷积神经网络的卷积层。本领域技术人员可以理解,特征提取层还可以是其他结构,这里不再累述。
有关对于全局区域和每个预定局部区域分别设置相应数量的特征提取层以及共享特征提取层的具体示例可以参见以上装置实施例中相应部分例如关于图2的描述,在此不再重复。
在损失确定步骤S406中,利用损失确定层,基于每个样本图像的结合后的特征来计算该样本图像的损失函数,并基于损失函数来训练分类模型。
如上所述,样本图像的结合后的特征既包括全局特征又包括局部特征,因此能准确地表征样本图像的特征。本领域技术人员应该理解,在非神经网络的场景下,因为样本图像的结合后的特征既包括全局特征又包括局部特征,因此可以不再对特征进行融合。而在神经网络的场景下,可以进一步利用特征融合层(作为示例,特征融合层可以是卷积神经网络的全连接层)对样本图像的结合后的特征进行融合,以得到该样本图像的融合后的特征。从而,在非神经网络的场景下,在损失确定步骤S406中,可以利用每个样本图像的结合后的特征来计算该样本图像的损失函数。而在神经网络的场景下,可以利用每个样本图像的上述融合后的特征来计算该样本图像的损失函数。此外,在损失确定步骤S406中,利用损失确定层计算的损失函数的损失值进行误差反传来训练分类模型。
在现有技术中,利用人脸的多个图像块(即,上述局部区域)进行分类的分类模型为每一个图像块训练一个分类模型,M个图像块需要训练M个分类模型,计算量较大从而影响***的实时性。另外,当应用场景出现姿态变化大、分辨率低、质量差等问题时,分类性能会明显降低。
通过以上描述可知,在根据本公开实施例的训练分类模型的方法400中,在全局区域和预定数量的预定局部区域所共享的至少一个特征提取层将全局特征和每个局部特征进行结合,每个样本图像的由全局特征和每个局部特征结合后的特征能准确地表征样本图像的特征,从而有助于对样本图像进行准确的分类,会得到更鲁棒的分类模型,即使在应用场景出现姿态变化大、分辨率低、质量差等问题时,也能得到较好的分类性能。此外,因为全局区域和预定数量的预定局部区域共享针对全局区域和每个预定局部区域分别设置的特征提取层中的至少一个层,因此可以减少需要计算和更新的特征提取层的参数的数量,从而可以提高训练的速度。
优选地,训练集包括多个训练集,所述多个训练集中的至少两个训练集至少部分重叠,损失确定层包括分别与多个训练集对应的多个损失确定层,以及在损失确定步骤S406中,针对来自多个训练集的每个样本图像,利用与该样本图像所属的训练集对应的损失确定层来计算该样本图像的损失函数。
多个训练集中的至少两个训练集至少部分重叠意味着多个训练集中的至少两个训练集之间存在相同的样本图像,即多个训练集中的至少两个训练集之间存在交叉数据。在存在多个训练集的情况下,通过利用针对样本图像所属的训练集而设置的损失确定层来计算该样本图像的损失函数,可以保证该样本图像被正确地分类。
优选地,多个训练集共享针对每个训练集中的样本图像的全局区域设置的特征提取层中的至少一个层。
优选地,多个训练集还可以共享针对每个训练集中的样本图像的预定数量的预定局部区域中的至少一个预定局部区域设置的特征提取层中的至少一个层。
以包括人脸数据的训练集为例,如果多种训练集之间有很多相同的人脸数据(即训练集中存在交叉数据),如现有技术中那样简单地将多个训练集当做一个训练集,会出现存在于不同训练集中的同一个人脸被当做不同标签数据、进而导致训练模型很难收敛或者模型性能下降。
在根据本公开实施例的训练分类模型的方法400中,在对多个训练集进行组合从而形成更大的训练集时,多个训练集通过共享针对每个训练集中的样本图像的全局区域设置的特征提取层中的至少一个特征提取层,使得不同训练集之间的交叉数据能够被正确分类。即,在根据本公开实施例的训练分类模型的方法400中,可以组合多种训练集进行同时训练,并且使得不同训练集之间的交叉数据被正确分类。此外,多个训练集通过还共享针对每个训练集中的样本图像的预定局部区域中的至少一个预定局部区域设置的特征提取层中的至少一个特征提取层,使得不同训练集之间的交叉数据被正确分类的分类精度更高。
优选地,预定数量的局部区域具有关于全局区域的互补信息。这样会使得局部区域的局部特征更全面地对全局特征进行补充,每个样本图像的由全局特征和每个局部特征结合后的特征能更准确地表征样本图像的特征,从而有助于对样本图像进行更准确的分类。
本公开还提供了一种利用分类模型进行分类的装置。图5是示出根据本公开实施例的利用预先训练的分类模型进行分类的装置500的功能配置示例的框图。如图5所示,根据本公开实施例的利用预先训练的分类模型进行分类的装置500包括第二获得局部区域单元502、第二特征提取单元504以及第二损失确定单元506。所述预先训练的分类模型可以例如是利用根据本公开上述实施例的训练分类模型的装置100或者例如是根据本公开上述实施例的训练分类模型的方法400训练得到的分类模型。
第二获得局部区域单元502可以被配置成获得待分类图像的预定数量的预定局部区域,其中,每个预定局部区域是待分类图像的全局区域中的一部分。
作为示例,全局区域是样本图像的整个区域,而局部区域是样本图像的整个区域中的一部分区域。以待分类图像的为人脸图像为例,待分类图像的局部区域例如包括眼睛的区域、包括鼻子的区域、包括嘴部的区域等。
作为示例,特征提取层可以是卷积神经网络的卷积层。本领域技术人员可以理解,特征提取层还可以是其他结构,这里不再累述。
第二特征提取单元504可以被配置成利用分类模型中的针对全局区域和每个局部区域而设置的相应数量的特征提取层来分别提取全局区域的全局特征和每个预定局部区域的局部特征,其中,在分类模型中,全局区域和预定数量的预定局部区域共享针对全局区域和每个预定局部区域分别设置的特征提取层中的至少一个层,以在所共享的所述至少一个层中将全局特征和每个局部特征进行结合。
具体地,第二特征提取单元504利用分类模型中的针对全局区域设置的特征提取层来提取全局区域的全局特征,并且利用分类模型中的针对每个预定局部区域分别设置的特征提取层来分别提取每个预定局部区域的局部特征。
在分类模型中,在全局区域和预定数量的预定局部区域所共享的所述至少一个层将全局特征和每个局部特征进行结合,使得每个局部区域的局部特征作为对全局特征的补充,待分类图像的由全局特征和每个局部特征结合后的特征能准确地表征待分类图像的特征,从而有助于对待分类图像进行准确的分类,可以提高分类的速度。
第二损失确定单元506可以被配置成利用分类模型中的损失确定层,基于待分类图像的结合后的特征来计算待分类图像的损失函数,并基于损失函数来对待分类图像进行分类。
如上所述,待分类图像的结合后的特征既包括全局特征又包括局部特征,因此能准确地表征待分类图像的特征。
通过以上描述可知,由于在训练模型中在全局区域和预定局部区域所共享的至少一个特征提取层将全局特征和每个局部特征进行结合,每个待分类图像的由全局特征和每个局部特征结合后的特征能准确地表征样本图像的特征,因此,根据本公开实施例的利用预先训练的分类模型进行分类的装置500有助于对待分类图像进行准确的分类,此外,可以提高分类的速度。
优选地,在分类模型是利用多个训练集而训练得到的情况下,分类模型中的损失确定层包括分别与多个训练集对应的多个损失确定层,并且多个训练集共享针对与每个训练集对应的全局区域设置的特征提取层中的至少一个层,以及第二损失确定单元506被配置成利用多个损失确定层中的每个损失确定层,基于待分类图像的结合后的特征来分别计算待分类图像的损失函数,并基于损失函数来对待分类图像进行分类。
作为示例,第二损失确定单元506可以选择从多个损失确定层计算得到的损失函数中最小的损失函数,将与该最小的损失函数对应的类别作为待分类图像所属的类别。
与上述利用分类模型进行分类的装置实施例相对应地,本公开还提供了以下利用分类模型进行分类的方法的实施例。
图6是示出根据本公开实施例的利用预先训练的分类模型进行分类的方法600的流程示例的流程图。
如图6所示,根据本公开实施例的利用预先训练的分类模型进行分类的方法600包括第二获得局部区域步骤S602、第二特征提取步骤S604以及第二损失确定步骤S606。所述预先训练的分类模型可以例如是利用根据本公开上述实施例的训练分类模型的装置100或者例如可以是根据本公开上述实施例的训练分类模型的方法400训练得到的分类模型。
在第二获得局部区域步骤S602中,获得待分类图像的预定数量的预定局部区域,其中,每个预定局部区域是待分类图像的全局区域中的一部分,在分类模型中,针对全局区域和每个预定局部区域分别设置相应数量的特征提取层。
作为示例,全局区域是样本图像的整个区域,而局部区域是样本图像的整个区域中的一部分区域。以待分类图像的为人脸图像为例,待分类图像的局部区域例如包括眼睛的区域、包括鼻子的区域、包括嘴部的区域等。
作为示例,特征提取层可以是卷积神经网络的卷积层。本领域技术人员可以理解,特征提取层还可以是其他结构,这里不再累述。
在第二特征提取步骤S604中,利用分类模型中的针对全局区域和每个局部区域而设置的相应数量的特征提取层来分别提取全局区域的全局特征和每个预定局部区域的局部特征,其中,在分类模型中,全局区域和预定数量的预定局部区域共享针对全局区域和每个预定局部区域分别设置的特征提取层中的至少一个层,以在所共享的所述至少一个层中将全局特征和每个局部特征进行结合。
具体地,利用分类模型中的针对全局区域设置的特征提取层来提取全局区域的全局特征,并且利用分类模型中的针对每个预定局部区域分别设置的特征提取层来分别提取每个预定局部区域的局部特征。
在分类模型中,在全局区域和预定数量的预定局部区域所共享的所述至少一个层将全局特征和每个局部特征进行结合,使得每个局部区域的局部特征作为对全局特征的补充,待分类图像的由全局特征和每个局部特征结合后的特征能准确地表征待分类图像的特征,从而有助于对待分类图像进行准确的分类,可以提高分类的速度。
在第二损失确定步骤S606中,利用分类模型中的损失确定层,基于待分类图像的结合后的特征来计算待分类图像的损失函数,并基于损失函数来对待分类图像进行分类。
如上所述,待分类图像的结合后的特征既包括全局特征又包括局部特征,因此能准确地表征待分类图像的特征。
通过以上描述可知,由于在训练模型中在全局区域和预定局部区域所共享的至少一个特征提取层将全局特征和每个局部特征进行结合,每个待分类图像的由全局特征和每个局部特征结合后的特征能准确地表征样本图像的特征,因此,根据本公开实施例的利用预先训练的分类模型进行分类的方法600有助于对待分类图像进行准确的分类,此外,可以提高分类的速度。
优选地,在分类模型是利用多个训练集而训练得到的情况下,分类模型中的损失确定层包括分别与多个训练集对应的多个损失确定层,并且多个训练集共享针对与每个训练集对应的全局区域设置的特征提取层中的至少一个层,以及在第二损失确定步骤S606中,利用多个损失确定层中的每个损失确定层,基于待分类图像的结合后的特征来分别计算待分类图像的损失函数,并基于损失函数来对待分类图像进行分类。
作为示例,在第二损失确定步骤S606中,可以选择从多个损失确定层计算得到的损失函数中最小的损失函数,将与该最小的损失函数对应的类别作为待分类图像所属的类别。
应指出,尽管以上描述了根据本公开实施例的训练分类模型的装置和方法、以及利用分类模型进行分类的装置和方法的功能配置以及操作,但是这仅是示例而非限制,并且本领域技术人员可根据本公开的原理对以上实施例进行修改,例如可对各个实施例中的功能模块和操作进行添加、删除或者组合等,并且这样的修改均落入本公开的范围内。
此外,还应指出,这里的方法实施例是与上述装置实施例相对应的,因此在方法实施例中未详细描述的内容可参见装置实施例中相应部分的描述,在此不再重复描述。
此外,本公开还提供了存储介质和程序产品。根据本公开实施例的存储介质和程序产品中的机器可执行的指令可以被配置成执行上述图像处理方法,因此在此未详细描述的内容可参考先前相应部分的描述,在此不再重复进行描述。
相应地,用于承载上述包括机器可执行的指令的程序产品的存储介质也包括在本发明的公开中。该存储介质包括但不限于软盘、光盘、磁光盘、存储卡、存储棒等等。
相应地,用于承载上述包括机器可执行的指令的程序产品的存储介质也包括在本发明的公开中。该存储介质包括但不限于软盘、光盘、磁光盘、存储卡、存储棒等等。
另外,还应该指出的是,上述系列处理和装置也可以通过软件和/或固件实现。在通过软件和/或固件实现的情况下,从存储介质或网络向具有专用硬件结构的计算机,例如图7所示的通用个人计算机700安装构成该软件的程序,该计算机在安装有各种程序时,能够执行各种功能等等。
在图7中,中央处理单元(CPU)701根据只读存储器(ROM)702中存储的程序或从存储部分708加载到随机存取存储器(RAM)703的程序执行各种处理。在RAM 703中,也根据需要存储当CPU 701执行各种处理等时所需的数据。
CPU 701、ROM 702和RAM 703经由总线704彼此连接。输入/输出接口705也连接到总线704。
下述部件连接到输入/输出接口705:输入部分706,包括键盘、鼠标等;输出部分707,包括显示器,比如阴极射线管(CRT)、液晶显示器(LCD)等,和扬声器等;存储部分708,包括硬盘等;和通信部分709,包括网络接口卡比如LAN卡、调制解调器等。通信部分709经由网络比如因特网执行通信处理。
根据需要,驱动器710也连接到输入/输出接口705。可拆卸介质711比如磁盘、光盘、磁光盘、半导体存储器等等根据需要被安装在驱动器710上,使得从中读出的计算机程序根据需要被安装到存储部分708中。
在通过软件实现上述系列处理的情况下,从网络比如因特网或存储介质比如可拆卸介质711安装构成软件的程序。
本领域的技术人员应当理解,这种存储介质不局限于图7所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质711。可拆卸介质711的例子包含磁盘(包含软盘(注册商标))、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)(注册商标))和半导体存储器。或者,存储介质可以是ROM 702、存储部分708中包含的硬盘等等,其中存有程序,并且与包含它们的设备一起被分发给用户。
以上参照附图描述了本公开的优选实施例,但是本公开当然不限于以上示例。本领域技术人员可在所附权利要求的范围内得到各种变更和修改,并且应理解这些变更和修改自然将落入本公开的技术范围内。
例如,在以上实施例中包括在一个单元中的多个功能可以由分开的装置来实现。替选地,在以上实施例中由多个单元实现的多个功能可分别由分开的装置来实现。另外,以上功能之一可由多个单元来实现。无需说,这样的配置包括在本公开的技术范围内。
在该说明书中,流程图中所描述的步骤不仅包括以所述顺序按时间序列执行的处理,而且包括并行地或单独地而不是必须按时间序列执行的处理。此外,甚至在按时间序列处理的步骤中,无需说,也可以适当地改变该顺序。
另外,根据本公开的技术还可以如下进行配置。
附记1.一种训练分类模型的装置,包括:
获得局部区域单元,被配置成针对训练集中的每个样本图像,获得该样本图像的预定数量的预定局部区域,其中,每个预定局部区域是所述样本图像的全局区域中的一部分;
特征提取单元,被配置成针对每个样本图像,对于所述全局区域和每个预定局部区域分别设置相应数量的特征提取层,用以分别提取所述全局区域的全局特征和每个预定局部区域的局部特征,其中,所述全局区域和所述预定数量的预定局部区域共享针对所述全局区域和每个预定局部区域分别设置的相应数量的特征提取层中的至少一个层,以在所共享的所述至少一个层中将所述全局特征和每个局部特征进行结合;以及
损失确定单元,被配置成利用损失确定层,基于每个样本图像的结合后的特征来计算该样本图像的损失函数,并基于所述损失函数来训练所述分类模型。
附记2.根据附记1所述的训练分类模型的装置,其中,
所述训练集包括多个训练集,所述多个训练集中的至少两个训练集至少部分重叠,
所述损失确定层包括分别与所述多个训练集对应的多个损失确定层,以及
所述损失确定单元被配置成针对来自所述多个训练集的每个样本图像,利用与该样本图像所属的训练集对应的损失确定层来计算该样本图像的损失函数。
附记3.根据附记2所述的训练分类模型的装置,其中,
所述多个训练集共享针对每个训练集中的样本图像的所述全局区域设置的特征提取层中的至少一个层。
附记4.根据附记3所述的训练分类模型的装置,其中,所述多个训练集还共享针对每个训练集中的样本图像的所述预定数量的预定局部区域中的至少一个预定局部区域设置的特征提取层中的至少一个层。
附记5.根据附记1所述的训练分类模型的装置,其中,所述预定数量的局部区域具有关于所述全局区域的互补信息。
附记6.根据附记1所述的训练分类模型的装置,
其中,所述特征提取层是卷积神经网络的卷积层。
附记7.一种训练分类模型的方法,包括:
获得局部区域步骤,针对训练集中的每个样本图像,获得该样本图像的预定数量的预定局部区域,其中,每个局部区域是所述样本图像的全局区域中的一部分;
特征提取步骤,针对每个样本图像,对于所述全局区域和每个预定局部区域分别设置相应数量的特征提取层,用以分别提取所述全局区域的全局特征和每个预定局部区域的局部特征,其中,所述全局区域和所述预定数量的预定局部区域共享针对所述全局区域和每个预定局部区域分别设置的相应数量的特征提取层中的至少一个层,以在所共享的所述至少一个层中将所述全局特征和每个局部特征进行结合;以及
损失确定步骤,利用损失确定层,基于每个样本图像的结合后的特征来计算该样本图像的损失函数,并基于所述损失函数来训练所述分类模型。
附记8.根据附记7所述的训练分类模型的方法,其中,
所述训练集包括多个训练集,所述多个训练集中的至少两个训练集至少部分重叠,
所述损失确定层包括分别与所述多个训练集对应的多个损失确定层,以及
在所述损失确定步骤中,针对来自所述多个训练集的每个样本图像,利用与该样本图像所属的训练集对应的损失确定层来计算该样本图像的损失函数。
附记9.根据附记8所述的训练分类模型的方法,其中,
所述多个训练集共享针对每个训练集中的样本图像的所述全局区域设置的特征提取层中的至少一个层。
附记10.根据附记9所述的训练分类模型的装置,其中,所述多个训练集还共享针对每个训练集中的样本图像的所述预定数量的预定局部区域中的至少一个预定局部区域设置的特征提取层中的至少一个层。
附记11.根据附记7所述的训练分类模型的方法,其中,所述预定数量的局部区域具有关于所述全局区域的互补信息。
附记12.根据附记7所述的训练分类模型的方法,
其中,所述特征提取层是卷积神经网络的卷积层。
附记13.一种利用分类模型进行分类的装置,包括:
第二获得局部区域单元,被配置成获得待分类图像的预定数量的预定局部区域,其中,每个预定局部区域是所述待分类图像的全局区域中的一部分;
第二特征提取单元,被配置成利用所述分类模型中的针对所述全局区域和每个局部区域而设置的相应数量的特征提取层来分别提取所述全局区域的全局特征和每个预定局部区域的局部特征,其中,在所述分类模型中,所述全局区域和所述预定数量的预定局部区域共享针对所述全局区域和每个预定局部区域分别设置的相应数量的特征提取层中的至少一个层,以在所共享的所述至少一个层中将所述全局特征和每个局部特征进行结合;以及
第二损失确定单元,被配置成利用所述分类模型中的损失确定层,基于所述待分类图像的结合后的特征来计算所述待分类图像的损失函数,并基于所述损失函数来对所述待分类图像进行分类。
附记14.根据附记13所述的利用分类模型进行分类的装置,
在所述分类模型是利用多个训练集而训练得到的情况下,所述分类模型中的损失确定层包括分别与所述多个训练集对应的多个损失确定层,并且所述多个训练集共享针对与每个训练集对应的全局区域设置的特征提取层中的至少一个层,以及
所述第二损失确定单元被配置成利用所述多个损失确定层中的每个损失确定层,基于所述待分类图像的结合后的特征来分别计算所述待分类图像的损失函数,并基于所述损失函数来对所述待分类图像进行分类。

Claims (8)

1.一种训练分类模型的装置,包括:
获得局部区域单元,被配置成针对训练集中的每个样本图像,获得该样本图像的预定数量的预定局部区域,其中,每个预定局部区域是所述样本图像的全局区域中的一部分;
特征提取单元,被配置成针对每个样本图像,对于所述全局区域和每个预定局部区域分别设置相应数量的特征提取层,用以分别提取所述全局区域的全局特征和每个预定局部区域的局部特征,其中,所述全局区域和所述预定数量的预定局部区域共享针对所述全局区域和每个预定局部区域分别设置的相应数量的特征提取层中的至少一个层,以在所共享的所述至少一个层中将所述全局特征和每个局部特征进行结合;以及
损失确定单元,被配置成利用损失确定层,基于每个样本图像的结合后的特征来计算该样本图像的损失函数,并基于所述损失函数来训练所述分类模型,
其中,所述训练集包括多个训练集,所述多个训练集中的至少两个训练集至少部分重叠,
所述损失确定层包括分别与所述多个训练集对应的多个损失确定层,以及
所述损失确定单元被配置成针对来自所述多个训练集的每个样本图像,利用与该样本图像所属的训练集对应的损失确定层来计算该样本图像的损失函数。
2.根据权利要求1所述的训练分类模型的装置,其中,所述多个训练集共享针对每个训练集中的样本图像的所述全局区域设置的特征提取层中的至少一个层。
3.根据权利要求2所述的训练分类模型的装置,其中,所述多个训练集还共享针对每个训练集中的样本图像的所述预定数量的预定局部区域中的至少一个预定局部区域设置的特征提取层中的至少一个层。
4.根据权利要求1所述的训练分类模型的装置,其中,所述预定数量的局部区域具有关于所述全局区域的互补信息。
5.根据权利要求1所述的训练分类模型的装置,其中,所述特征提取层是卷积神经网络的卷积层。
6.一种训练分类模型的方法,包括:
获得局部区域步骤,针对训练集中的每个样本图像,获得该样本图像的预定数量的预定局部区域,其中,每个局部区域是所述样本图像的全局区域中的一部分;
特征提取步骤,针对每个样本图像,对于所述全局区域和每个预定局部区域分别设置相应数量的特征提取层,用以分别提取所述全局区域的全局特征和每个预定局部区域的局部特征,其中,所述全局区域和所述预定数量的预定局部区域共享针对所述全局区域和每个预定局部区域分别设置的相应数量的特征提取层中的至少一个层,以在所共享的所述至少一个层中将所述全局特征和每个局部特征进行结合;以及
损失确定步骤,利用损失确定层,基于每个样本图像的结合后的特征来计算该样本图像的损失函数,并基于所述损失函数来训练所述分类模型,
其中,所述训练集包括多个训练集,所述多个训练集中的至少两个训练集至少部分重叠,
所述损失确定层包括分别与所述多个训练集对应的多个损失确定层,以及
在所述损失确定步骤中,针对来自所述多个训练集的每个样本图像,利用与该样本图像所属的训练集对应的损失确定层来计算该样本图像的损失函数。
7.根据权利要求6所述的训练分类模型的方法,其中,
所述多个训练集共享针对每个训练集中的样本图像的所述全局区域设置的特征提取层中的至少一个层。
8.一种利用分类模型进行分类的装置,包括:
第二获得局部区域单元,被配置成获得待分类图像的预定数量的预定局部区域,其中,每个预定局部区域是所述待分类图像的全局区域中的一部分;
第二特征提取单元,被配置成利用所述分类模型中的针对所述全局区域和每个局部区域而设置的相应数量的特征提取层来分别提取所述全局区域的全局特征和每个预定局部区域的局部特征,其中,在所述分类模型中,所述全局区域和所述预定数量的预定局部区域共享针对所述全局区域和每个预定局部区域分别设置的相应数量的特征提取层中的至少一个层,以在所共享的所述至少一个层中将所述全局特征和每个局部特征进行结合;以及
第二损失确定单元,被配置成利用所述分类模型中的损失确定层,基于所述待分类图像的结合后的特征来计算所述待分类图像的损失函数,并基于所述损失函数来对所述待分类图像进行分类,
其中,在所述分类模型是利用多个训练集而训练得到的情况下,所述分类模型中的损失确定层包括分别与所述多个训练集对应的多个损失确定层,并且所述多个训练集共享针对与每个训练集对应的全局区域设置的特征提取层中的至少一个层,以及
所述第二损失确定单元被配置成利用所述多个损失确定层中的每个损失确定层,基于所述待分类图像的结合后的特征来分别计算所述待分类图像的损失函数,并基于所述损失函数来对所述待分类图像进行分类。
CN201910122211.5A 2019-02-19 2019-02-19 训练分类模型的装置和方法及利用分类模型分类的装置 Active CN111582008B (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN201910122211.5A CN111582008B (zh) 2019-02-19 2019-02-19 训练分类模型的装置和方法及利用分类模型分类的装置
JP2019236449A JP2020135859A (ja) 2019-02-19 2019-12-26 分類モデルの訓練装置及び方法、並びに分類モデルを用いる分類装置
EP20150950.2A EP3699813A1 (en) 2019-02-19 2020-01-09 Apparatus and method for training classification model and apparatus for classifying with classification model
US16/738,393 US11113513B2 (en) 2019-02-19 2020-01-09 Apparatus and method for training classification model and apparatus for classifying with classification model

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910122211.5A CN111582008B (zh) 2019-02-19 2019-02-19 训练分类模型的装置和方法及利用分类模型分类的装置

Publications (2)

Publication Number Publication Date
CN111582008A CN111582008A (zh) 2020-08-25
CN111582008B true CN111582008B (zh) 2023-09-08

Family

ID=69156332

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910122211.5A Active CN111582008B (zh) 2019-02-19 2019-02-19 训练分类模型的装置和方法及利用分类模型分类的装置

Country Status (4)

Country Link
US (1) US11113513B2 (zh)
EP (1) EP3699813A1 (zh)
JP (1) JP2020135859A (zh)
CN (1) CN111582008B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11182652B2 (en) * 2019-08-16 2021-11-23 Toyota Motor Engineering & Manufacturing North America, Inc. Methods and system for inferring perception based on augmented feature maps of a perception network
US11443193B2 (en) 2020-04-24 2022-09-13 Adobe Inc. Domain adaptation for machine learning models
CN113762005B (zh) * 2020-11-09 2024-06-18 北京沃东天骏信息技术有限公司 特征选择模型的训练、对象分类方法、装置、设备及介质
WO2022099136A1 (en) * 2020-11-09 2022-05-12 Canon U.S.A., Inc. Label-dependent loss function for discrete ordered regression model
CN112907138B (zh) * 2021-03-26 2023-08-01 国网陕西省电力公司电力科学研究院 一种从局部到整体感知的电网场景预警分类方法及***
CN113642602B (zh) * 2021-07-05 2023-07-18 山西大学 一种基于全局与局部标签关系的多标签图像分类方法
CN114049496A (zh) * 2021-11-10 2022-02-15 浙江商汤科技开发有限公司 一种特征检测方法、装置、计算机设备和存储介质
CN116778211A (zh) * 2022-03-07 2023-09-19 腾讯科技(深圳)有限公司 数据处理方法、装置、电子设备和计算机可读存储介质
CN115146675B (zh) * 2022-06-28 2023-09-26 江苏大学 一种深度多特征动态对抗的变工况下旋转机械迁移诊断方法
CN115661486B (zh) * 2022-12-29 2023-04-07 有米科技股份有限公司 图像特征的智能提取方法及装置
CN116051859B (zh) * 2023-02-21 2023-09-08 阿里巴巴(中国)有限公司 服务提供方法、设备和存储介质

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008151471A1 (fr) * 2007-06-15 2008-12-18 Tsinghua University Procédé de positionnementrobuste et précis de l'oeil dans une image d'arrière-plan compliquée
EP2528017A1 (en) * 2011-05-23 2012-11-28 Morpho, Inc. Image identification device, image identification method, image identification program, and recording medium
CN105488515A (zh) * 2014-09-17 2016-04-13 富士通株式会社 训练卷积神经网路分类器的方法和图像处理装置
CN106934765A (zh) * 2017-03-14 2017-07-07 长沙全度影像科技有限公司 基于深度卷积神经网络与深度信息的全景图像融合方法
CN107229614A (zh) * 2017-06-29 2017-10-03 百度在线网络技术(北京)有限公司 用于分类数据的方法和装置
CN107316066A (zh) * 2017-07-28 2017-11-03 北京工商大学 基于多通路卷积神经网络的图像分类方法及***
CN108229659A (zh) * 2017-12-29 2018-06-29 陕西科技大学 基于深度学习的钢琴单键音识别方法
CN108304847A (zh) * 2017-11-30 2018-07-20 腾讯科技(深圳)有限公司 图像分类方法及装置、个性化推荐方法及装置
CN108875548A (zh) * 2018-04-18 2018-11-23 科大讯飞股份有限公司 人物轨迹生成方法及装置、存储介质、电子设备
CN108960140A (zh) * 2018-07-04 2018-12-07 国家新闻出版广电总局广播科学研究院 基于多区域特征提取和融合的行人再识别方法
CN109033938A (zh) * 2018-06-01 2018-12-18 上海阅面网络科技有限公司 一种基于可区分性特征融合的人脸识别方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7660468B2 (en) * 2005-05-09 2010-02-09 Like.Com System and method for enabling image searching using manual enrichment, classification, and/or segmentation
CN106358444B (zh) * 2014-04-11 2019-07-30 北京市商汤科技开发有限公司 用于面部验证的方法和***
US9639806B2 (en) * 2014-04-15 2017-05-02 Xerox Corporation System and method for predicting iconicity of an image
CN105590102A (zh) 2015-12-30 2016-05-18 中通服公众信息产业股份有限公司 一种基于深度学习的前车车脸识别方法
US10420523B2 (en) * 2016-03-21 2019-09-24 The Board Of Trustees Of The Leland Stanford Junior University Adaptive local window-based methods for characterizing features of interest in digital images and systems for practicing same
CN106548165B (zh) 2016-11-28 2019-07-16 中通服公众信息产业股份有限公司 一种基于图像分块加权的卷积神经网络的人脸识别方法
JP6798860B2 (ja) * 2016-11-29 2020-12-09 株式会社Soken 境界線推定装置
CN108319943B (zh) * 2018-04-25 2021-10-12 北京优创新港科技股份有限公司 一种提高戴眼镜条件下人脸识别模型性能的方法
CN108491835B (zh) 2018-06-12 2021-11-30 常州大学 面向面部表情识别的双通道卷积神经网络

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008151471A1 (fr) * 2007-06-15 2008-12-18 Tsinghua University Procédé de positionnementrobuste et précis de l'oeil dans une image d'arrière-plan compliquée
EP2528017A1 (en) * 2011-05-23 2012-11-28 Morpho, Inc. Image identification device, image identification method, image identification program, and recording medium
CN105488515A (zh) * 2014-09-17 2016-04-13 富士通株式会社 训练卷积神经网路分类器的方法和图像处理装置
CN106934765A (zh) * 2017-03-14 2017-07-07 长沙全度影像科技有限公司 基于深度卷积神经网络与深度信息的全景图像融合方法
CN107229614A (zh) * 2017-06-29 2017-10-03 百度在线网络技术(北京)有限公司 用于分类数据的方法和装置
CN107316066A (zh) * 2017-07-28 2017-11-03 北京工商大学 基于多通路卷积神经网络的图像分类方法及***
CN108304847A (zh) * 2017-11-30 2018-07-20 腾讯科技(深圳)有限公司 图像分类方法及装置、个性化推荐方法及装置
CN108229659A (zh) * 2017-12-29 2018-06-29 陕西科技大学 基于深度学习的钢琴单键音识别方法
CN108875548A (zh) * 2018-04-18 2018-11-23 科大讯飞股份有限公司 人物轨迹生成方法及装置、存储介质、电子设备
CN109033938A (zh) * 2018-06-01 2018-12-18 上海阅面网络科技有限公司 一种基于可区分性特征融合的人脸识别方法
CN108960140A (zh) * 2018-07-04 2018-12-07 国家新闻出版广电总局广播科学研究院 基于多区域特征提取和融合的行人再识别方法

Also Published As

Publication number Publication date
CN111582008A (zh) 2020-08-25
US20200265220A1 (en) 2020-08-20
US11113513B2 (en) 2021-09-07
JP2020135859A (ja) 2020-08-31
EP3699813A1 (en) 2020-08-26

Similar Documents

Publication Publication Date Title
CN111582009B (zh) 训练分类模型的装置和方法及利用分类模型分类的装置
CN111582008B (zh) 训练分类模型的装置和方法及利用分类模型分类的装置
Wei et al. Multi-target defect identification for railway track line based on image processing and improved YOLOv3 model
Xie et al. Statistical karyotype analysis using CNN and geometric optimization
CN110598030B (zh) 一种基于局部cnn框架的甲骨拓片分类方法
CN111144215A (zh) 图像处理方法、装置、电子设备及存储介质
CN111986180A (zh) 基于多相关帧注意力机制的人脸伪造视频检测方法
CN104484886A (zh) 一种mr图像的分割方法及装置
Oluwasammi et al. Features to text: a comprehensive survey of deep learning on semantic segmentation and image captioning
Zhang et al. Investigation of pavement crack detection based on deep learning method using weakly supervised instance segmentation framework
CN111339950B (zh) 一种遥感图像目标检测方法
CN104978569A (zh) 一种基于稀疏表示的增量人脸识别方法
CN116206327A (zh) 一种基于在线知识蒸馏的图像分类方法
CN112308148A (zh) 缺陷类别识别、孪生神经网络训练方法、装置及存储介质
Xiang et al. Crowd density estimation method using deep learning for passenger flow detection system in exhibition center
Struski et al. ProMIL: Probabilistic multiple instance learning for medical imaging
CN110717916B (zh) 一种基于卷积神经网络的肺栓塞检测***
Rakowski et al. Hand shape recognition using very deep convolutional neural networks
CN115953506A (zh) 基于图像生成模型的工业零件缺陷图像生成方法及***
Xin et al. Surface defect detection with channel-spatial attention modules and bi-directional feature pyramid
Atif et al. DMPNet: Distributed Multi-Scale Pyramid Network for Real-Time Semantic Segmentation
Bruch et al. Evaluation of semi-supervised learning using sparse labeling to segment cell nuclei
Wu et al. CDText: Scene text detector based on context-aware deformable transformer
CN105844296B (zh) 基于cdcp局部描述子的遥感图像场景分类方法
CN116524297B (zh) 一种基于专家反馈的弱监督学习训练方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant