CN109117781A - 多属性识别模型的建立方法、装置及多属性识别方法 - Google Patents

多属性识别模型的建立方法、装置及多属性识别方法 Download PDF

Info

Publication number
CN109117781A
CN109117781A CN201810890761.7A CN201810890761A CN109117781A CN 109117781 A CN109117781 A CN 109117781A CN 201810890761 A CN201810890761 A CN 201810890761A CN 109117781 A CN109117781 A CN 109117781A
Authority
CN
China
Prior art keywords
attribute
image
eigenmatrix
input
obtains
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810890761.7A
Other languages
English (en)
Other versions
CN109117781B (zh
Inventor
李磊
董远
白洪亮
熊风烨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BEIJING EWAY DACHENG TECHNOLOGY Co.,Ltd.
Original Assignee
Beijing Faceall Co
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Faceall Co filed Critical Beijing Faceall Co
Priority to CN201810890761.7A priority Critical patent/CN109117781B/zh
Publication of CN109117781A publication Critical patent/CN109117781A/zh
Application granted granted Critical
Publication of CN109117781B publication Critical patent/CN109117781B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明实施例提供多属性识别模型的建立方法、装置及多属性识别方法,其中建立方法包括:将预先经过多属性标注的样本图像输入至第一模型进行学习,得到样本图像中每个图像的特征矩阵;将每个图像的特征矩阵输入至第二模型进行学习,得到每个图像的语义‑空间特征矩阵;根据特征矩阵获得各属性的第一预测值,根据语义‑空间特征矩阵获得各属性的第二预测值,将所述第一预测值和所述第二预测值进行加权求和,获得每个图像的各属性的综合预测值;当学习后得到的综合预测值与标签值之间的损失稳定在预设阈值范围内时,确定学习得到多属性识别模型。本发明实施例能够有效利用标注信息获取多属性在空间和语义上的关联,识别准确率高。

Description

多属性识别模型的建立方法、装置及多属性识别方法
技术领域
本发明实施例涉及机器学习技术领域,更具体地,涉及多属性识别模型的建立方法、装置及多属性识别方法。
背景技术
传统的行人多属性识别方式包括多标签的SVM以及Softmax分类器的方法,但这些方法的准确率不如卷积神经网络高。
目前利用卷积神经网络进行多属性识别的方法主要包括:1)采用单属性多模型的形式,一个模型针对性地识别一个属性,最后将多个模型的输出结果整合在一起完成多属性的识别;2)采用多标签的形式,如使用MxNet、Pytorch等深度学习框架,直接输入多标签来进行学习,训练过程中多个属性共享卷积层的结果,最后通过多个不同的全连接层来实现对不同属性的识别;3)利用区域建议网络将图像的区域进行划分,针对特定的区域进行识别,将多属性转化为多个单属性来识别。
采用单属性多模型的方法来实现多属性的识别效率不高;基于现有的深度学习框架采用多标签的形式进行学习,对于整张图像所有的属性一视同仁,忽略了属性之间的关联性,多标签图像中复杂多样的内容使得很难学习获得有效的特征表示和分类器;将图像按照区域进行划分,也忽略了属性之间的关联性,且区域建议的实现相对复杂,实用性不高。
发明内容
本发明实施例提供一种克服上述问题或者至少部分地解决上述问题的多属性识别模型的建立方法、装置及多属性识别方法。
第一方面,本发明实施例提供一种多属性识别模型的建立方法,包括:
将预先经过多属性标注的样本图像输入至第一模型进行学习,得到所述样本图像中每个图像的特征矩阵,所述特征矩阵用于表征该图像的属性特征信息;
将所述每个图像的特征矩阵输入至第二模型进行学习,得到所述每个图像的语义-空间特征矩阵,所述语义-空间特征矩阵用于表征该图像中各属性间的语义关系和空间关系;
将所述每个图像的特征矩阵分别输入至各属性对应的第一全连接层获得所述每个图像中各属性的第一预测值,将所述语义-空间特征矩阵分别输入至各属性对应的第二全连接层获得所述每个图像中各属性的第二预测值,将所述第一预测值和所述第二预测值进行加权求和,获得所述每个图像的各个属性的综合预测值;
当学习后得到的所述每个图像的各个属性的综合预测值与每个图像的各属性标签值之间的损失稳定在预设阈值范围内时,确定学习得到多属性识别模型,所述多属性识别模型包括:所述第一模型、所述第二模型、所述各属性对应的第一全连接层和所述各属性对应的第二全连接层。
第二方面,本发明实施例提供一种多属性识别方法,包括:
将待识别图像输入至预先建立的多属性识别模型中的第一模型,得到所述待识别图像的特征矩阵;
将所述待识别图像的特征矩阵输入至所述多属性识别模型中的第二模型,得到所述待识别图像的语义-空间特征矩阵;
将所述待识别图像的特征矩阵分别输入至所述多属性识别模型的各属性对应的第一全连接层中,获得所述待识别图像各属性的第一预测值,将所述语义-空间特征矩阵分别输入至所述多属性识别模型的各属性对应的第二全连接层中,获得所述待识别图像各属性的第二预测值,将所述第一预测值和所述第二预测值进行加权求和,获得所述待识别图像的各个属性的识别结果。
第三方面,本发明实施例提供一种多属性识别模型的建立装置,包括:
第一学习模块,用于将预先经过多属性标注的样本图像输入至第一模型进行学习,得到所述样本图像中每个图像的特征矩阵,所述特征矩阵用于表征该图像的属性特征信息;
第二学习模块,用于将所述每个图像的特征矩阵输入至第二模型进行学习,得到所述每个图像的语义-空间特征矩阵,所述语义-空间特征矩阵用于表征该图像中各属性间的语义关系和空间关系;
计算模块,用于将所述每个图像的特征矩阵分别输入至各属性对应的第一全连接层获得所述每个图像中各属性的第一预测值,将所述语义-空间特征矩阵分别输入至各属性对应的第二全连接层获得所述每个图像中各属性的第二预测值,将所述第一预测值和所述第二预测值进行加权求和,获得所述每个图像的各个属性的综合预测值;
模型确定模块,用于当学习后得到的所述每个图像的各个属性的综合预测值与每个图像的各属性标签值之间的损失稳定在预设阈值范围内时,确定学习得到多属性识别模型,所述多属性识别模型包括:所述第一模型、所述第二模型、所述各属性对应的第一全连接层和所述各属性对应的第二全连接层。
第四方面,本发明实施例提供一种电子设备,包括:
至少一个处理器;以及
与所述处理器通信连接的至少一个存储器,其中:
所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行上述第一方面的各种可能的实现方式中任一种实现方式所提供的方法。
根据本发明的第五个方面,提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机能够执行上述第一方面的各种可能的实现方式中任一种实现方式所提供的方法。
本发明实施例提出的多属性识别模型的建立方法、装置及多属性识别方法,通过增加了新的网络结构,能够有效利用标注信息获取多属性在空间和语义上的关联,识别准确率高,基于多标签输入能够实现多属性同时并行训练,训练成本低,效率高,同时前级网络容易修改,属性增删简便,具有较高的灵活性。
附图说明
图1为本发明实施例提供的多属性识别模型的建立方法的流程示意图;
图2为本发明实施例提供的多属性识别模型的结构示意图;
图3为本发明实施例提供的多属性识别方法的流程示意图;
图4为本发明实施例提供的多属性识别模型的建立装置的结构示意图;
图5为本发明实施例提供的电子设备的结构示意图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
本发明实施例提供一种多属性识别模型的建立方法、装置及多属性识别方法,与现有技术不同的是,增加了一个网络结构来实现对属性之间潜在的空间区域关系以及语义上的关系进行提取,仅利用图片的标注信息来实现监督学习,能够实现多属性的准确识别,且训练成本低、效率高。多属性识别模型的建立方法也可以理解为训练方法或学习方法。
如图1所示,为本发明实施例提供的多属性识别模型的建立方法的流程示意图,包括:
S101、将预先经过多属性标注的样本图像输入至第一模型进行学习,得到所述样本图像中每个图像的特征矩阵,所述特征矩阵用于表征该图像的属性特征信息。
具体地,可以根据模型训练的需求收集一定数量的图像,并对图像进行多属性标注。在实现时,需要确定待标注的属性类型,以对行人图像进行二分类标注为例,确定图像中的行人属性包括:衣长(2类)、裤长(2类)、背包(2类)、性别(2类)、靴子(2类)、包裹(2类)、手提包(2类)、戴帽(2类),标注完成后,每个行人图像都对应一个属性标签,该属性标签为一个1*8维的向量。然后将标记好的样本图像输入至第一模型进行学习,第一模型在训练开始时随机初始化,样本图像依次输入至第一模型进行学习,得到每个图像对应的特征矩阵。属性特征信息是指图像中与属性相关的特征信息。
第一模型可以采用现有的网络模型结构,只要该网络模型能够针对图像进行学习,学习得到图像的属性特征信息即可。
针对第一模型的具体实现,作为一种可选实施例,第一模型采用带有残差结构的卷积网络模型,通过引入残差网络结构,直接将输入信息绕道传到输出,保护信息的完整性,可以加深网络,减缓因网络层数不断加深导致在训练集上误差增大、梯度弥散的问题。例如选取18层残差网络(Res18)作为第一模型,在实际应用中选用18层网络在速度和准确率上都有较高的保证。
第一模型还可以选用其他网络,如Res50、Res101、Alexnet等,本发明实施例不作限制。
在实现时,本发明实施例可以支持任一格式的图像,这些格式包括但不限于JPG、PNG、TIF、BMP等。当然,为了保证图像处理的统一性和处理速率,也可以在接收到样本图像时,先将样本图像转换成***所支持的统一的一种格式,然后再进行相应处理。当然,为了适应***的处理性能,还可以针对不同大小的样本图像,先将其剪裁成***支持的固定大小的图像,然后再对图像进行相应处理。此外,本发明实施例还支持输入不同宽高的样本图像。
S102、将所述每个图像的特征矩阵输入至第二模型进行学习,得到所述每个图像的语义-空间特征矩阵,所述语义-空间特征矩阵用于表征该图像中各属性间的语义关系和空间关系。
具体地,将样本图像输入至第一模型进行学习所获得的每个图像的特征矩阵输入至第二模型进行学习,目的是将每个图像中的各个属性之间的空间位置关系和语义上的关系提取出来,即获得每个图像的语义-空间特征矩阵。各个属性之间的语义关系是指在两个属性之间,一个属性对另一个属性的判断具有提示作用,即两个属性在语义上是关联的,例如,长发对于性别的预测有一定的作用,识别为女性的结果更大。每个图像中不同的属性所处的空间位置是有一定区域的,各个属性之间的空间位置关系是指每个图像的各个属性之间所处的区域之间的关联关系。
第二模型是能够将每个图像中的各个属性之间的空间位置关系和语义上的关系提取出来的模型结构。
S103、将所述每个图像的特征矩阵分别输入至各属性对应的第一全连接层获得所述每个图像中各属性的第一预测值,将所述语义-空间特征矩阵分别输入至各属性对应的第二全连接层获得所述每个图像中各属性的第二预测值,将所述第一预测值和所述第二预测值进行加权求和,获得所述每个图像的各个属性的综合预测值。
具体地,得到每个图像的特征矩阵后,对特征矩阵进行两方面的处理,一方面,进行第一模型的后续流程,即通过池化层降维,然后输入全连接层并通过softmax进行归一化后得到一个属性中各个类别的概率值,记为第一预测值。如果有N个属性,那么就需要N个全连接层,每个属性都对应一个全连接层。
另一方面,将特征矩阵输入第二模型得到语义-空间特征矩阵后,进行第二模型的后续流程,即将语义-空间特征矩阵输入至每个属性对应的全连接层,经过softmax归一化后得到每个属性中各个类别的概率值,记为第二预测值。同样地,一个属性对应一个全连接层。
将每个属性的第一预测值和其对应的第二预测值进行加权求和计算,获得每个属性的综合预测值。通过加权求和的方式获取多属性的识别结果,能够有效地利用属性之间空间和语义上的关联,提高识别准确率。
具体地,加权求和的公式为:
上式中,为所述第一预测值,为所述第二预测值,α为权重分配系数,α的取值不作限制,一般取为0.5。
以每个属性的综合预测值与其输入标签值之间的softmax loss作为损失函数。通过梯度下降法对多个属性的损失函数同时进行训练,通过上述步骤S101至S103的多次重复处理,可以针对样本图像学习得到每个图像的各个属性的综合预测值。在学习之后,通过步骤S104来决定是否停止学习以得到学习好的多属性识别模型。
S104、当学习后得到的所述每个图像的各个属性的综合预测值与每个图像的各属性标签值之间的损失稳定在预设阈值范围内时,确定学习得到多属性识别模型,所述多属性识别模型包括:所述第一模型、所述第二模型、所述各属性对应的第一全连接层和所述各属性对应的第二全连接层。
具体地,本发明实施例中,学习过程的结束条件为每个图像的各个属性的综合预测值与每个图像的各属性标签值之间的损失能够稳定在预设阈值范围内,稳定在预设阈值范围是指每个图像的各个属性的综合预测值与每个图像的各属性标签值之间的损失都能够满足小于预设阈值,说明学习过程趋于稳定,此时即可以确定学习过程完成,获得建立完成的多属性识别模型。
本发明提出的多属性识别模型的建立方法,通过增加一个新的网络结构(第二模型)来实现对属性之间潜在的空间位置关系以及语义上的关系提取,仅利用图片的标注信息来实现监督学习,能够实现多属性的准确识别,且训练成本低、效率高。
基于上述实施例的内容,作为一种可选实施例,所述将所述每个图像的特征矩阵输入至第二模型进行学习,得到所述每个图像的语义-空间特征矩阵的步骤,具体为:
将所述每个图像的特征矩阵输入至注意力层进行学习,得到所述每个图像的注意力特征矩阵,所述注意力特征矩阵用于表征该图像中各属性对应的通道所占的权重;
将所述每个图像的特征矩阵输入至置信层进行学习,得到所述每个图像的置信矩阵,所述置信矩阵用于表征该图像的属性特征信息的置信程度;
根据所述注意力特征矩阵和所述置信矩阵,计算获得所述每个图像的带权注意力特征矩阵,所述带权注意力特征矩阵用于表征该图像中各目标属性对应的通道所占权重的置信程度;
将所述带权注意力特征矩阵输入至空间正则化层进行学习,得到所述每个图像的语义-空间特征矩阵。
如图2所示,为本发明实施例提供的多属性识别模型的结构示意图。在本实施例中对第二模型的具体实现进行展开描述。为了能够将每个图像的各个属性之间的空间位置关系和语义上的关系提取出来,第二模型由注意力层、置信层和空间正则化层组成。
将每个图像的特征矩阵输入至注意力层进行学习,得到所述每个图像的注意力特征矩阵,注意力层采用注意力机制,学习每一个属性对应的通道上的注意力值。
作为一种可选实施例,所述注意力层由三个卷积层组成,所述三个卷积层的卷积核大小分别为1*1、3*3和1*1;
如果该属性对应的标签为1(即图上存在该属性)则注意力值在学习过程中会趋向于高,获得每个图像的注意力特征矩阵。值得说明的是,在本发明实施例,一个属性对应一个通道。注意力特征矩阵表征了一个图像的各个属性所对应的通道所占的权重。
将每个图像的特征矩阵输入至置信层进行学习,得到每个图像的置信矩阵,置信层由一个卷积核大小为1*1的卷积层组成;
然后将所述置信矩阵通过激活函数后与所述注意力特征矩阵相乘,得到所述每个图像的带权注意力特征矩阵。带权注意力特征矩阵用于表征该图像中各目标属性对应的通道所占权重的置信程度,将注意力特征矩阵进行置信运算后获得带权注意力特征矩阵,能够增加网络对注意力特征提取的准确度。
所述空间正则化层由两个卷积核大小均为1*1的卷积层和一个卷积核大小为w*h的卷积层顺序组成;其中,w为每个图像的宽度,h为每个图像的高度。空间正则化层利用经过注意力层学习得到的注意力特征矩阵来捕捉空间信息。每个图像的输入标签包含了属性间丰富的空间信息,为了有效并更准确地利用该信息,将置信矩阵通过激活函数后与注意力特征相乘来得到带权注意力特征矩阵,使得注意力特征矩阵的权重归一化到[0,1]。将带权注意力特征矩阵输入空间正则化层,空间正则化层中首先是两个卷积核为1的卷积层,1*1的卷积核能保证特正常长宽不变,卷积得到各通道的信息相加,保证了空间信息的不变而获取通道间的关系,通道间的关系即为语义上的联系,因为一个属性对应一个通道。随后将其通过卷积核大小为w*h的卷积层,将空间信息提取,最后输出为1*1的特征层(featuremap),即语义-空间特征矩阵。
本发明另一实施例,在上述实施例的基础上,所述将所述每个图像的特征矩阵输入至第二模型进行学习,得到所述每个图像的语义-空间特征矩阵的步骤,还包括:
将所述注意力特征矩阵与所述置信矩阵相乘,并将相乘后获得的结果输入至第一池化层进行降维,得到属性置信向量;
具体地,上述得到属性置信向量的过程可以通过如下公式进行说明:
其中,l表示第l个属性,Wl和bl是置信层的参数,X表示特征矩阵,xi,j表示特征矩阵X在(i,j)位置的取值,是第l个属性在(i,j)位置的注意力值。可以理解的是,为注意力层的输出,而Wlxi,j+bl即为置信层的输出,为第l个属性的置信向量。
属性置信向量和输入标签之间的交叉熵函数为:
式中,y为输入标签的标注信息,为属性置信向量
相应地,所述当学习后得到的所述每个图像的各个属性的综合预测值与每个图像的各属性标签值之间的损失取最小值时,确定学习得到多属性识别模型的步骤,具体为:
当学习后得到的所述属性置信向量与每个图像的输入标签之间的损失、所述每个图像的各个属性的综合预测值与每个图像的各属性标签值之间的损失,所述两种损失的和稳定在预设阈值范围内时,确定学习得到多属性识别模型。
即通过属性置信向量和输入标签之间的交叉熵损失函数,以及每个图像的各个属性的综合预测值与每个图像的各属性标签值之间的softmax损失,来学习第一模型、第二模型、第一全连接层、第二全连接层中的参数。
当所述两种损失的和稳定在预设阈值范围内时,确定学习得到多属性识别模型。
在本发明实施例中,通过将所述属性置信向量与每个图像的输入标签之间的损失加入到模型的训练过程,能够提高多属性识别模型的识别准确率。
基于上述各实施例的内容,本发明实施例还提供一种多属性识别方法,利用预先建立好的多属性识别模型对图像进行多属性识别,如图3所示,多属性识别方法包括:
S301、将待识别图像输入至预先建立的多属性识别模型中的第一模型,得到所述待识别图像的特征矩阵;
所述第一模型可以为训练完成的带有残差结构的卷积网络模型,也可以选用其他网络,如Res50、Res101、Alexnet等。所述待识别图像的特征矩阵表征了该图像的属性特征信息。
S302、将所述待识别图像的特征矩阵输入至所述多属性识别模型中的第二模型,得到所述待识别图像的语义-空间特征矩阵;
第二模型能够提取待识别图像的各属性在语义和空间上的联系。
S303、将所述待识别图像的特征矩阵分别输入至所述多属性识别模型的各属性对应的第一全连接层中,获得所述待识别图像各属性的第一预测值,将所述语义-空间特征矩阵分别输入至所述多属性识别模型的各属性对应的第二全连接层中,获得所述待识别图像各属性的第二预测值,将所述第一预测值和所述第二预测值进行加权求和,获得所述待识别图像的各个属性的识别结果。
通过加权求和的方式获取多属性的识别结果,能够有效地利用属性之间空间和语义上的关联,提高识别准确率。
基于上述实施例,所述将所述待识别图像的特征矩阵输入至所述多属性识别模型的第二模型中,得到所述待识别图像的语义-空间特征矩阵的步骤,具体为:
将所述待识别图像的特征矩阵输入至注意力层,得到所述待识别图像的注意力特征矩阵;
将所述待识别图像的特征矩阵输入至置信层,得到所述待识别图像的置信矩阵;
根据所述注意力特征矩阵和所述置信矩阵,计算获得所述待识别图像的带权注意力特征矩阵;
将所述带权注意力特征矩阵输入至空间正则化层进行学习,得到所述待识别图像的语义-空间特征矩阵。
具体地,第二模型由注意力层、置信层和空间正则化层组成。注意力层由三个卷积层组成,所述三个卷积层的卷积核大小分别为1*1、3*3和1*1,将所述待识别图像的特征矩阵输入至注意力层,得到所述待识别图像的注意力特征矩阵;置信层由一个卷积核大小为1*1的卷积层组成,将所述待识别图像的特征矩阵输入至置信层,得到所述待识别图像的置信矩阵;空间正则化层由两个卷积核大小均为1*1的卷积层和一个卷积核大小为w*h的卷积层组成;其中,w为每个图像的宽度,h为每个图像的高度,将注意力特征矩阵和置信矩阵相乘,得到带权注意力特征矩阵,然后输入至空间正则化层,将特征矩阵中各属性之间空间信息和通道信息提取出来,获得语义-空间特征矩阵。
本发明实施例提供的多属性识别方法,考虑了属性之间语义和空间上的关联性,识别准确率更高。
另一方面,本发明实施例还提供一种多属性识别模型的建立装置,参见图4,示出了本发明实施例提供的多属性识别模型的建立装置的结构示意图,该装置用于实现在前述各实施例中所述的多属性识别模型的建立方法。因此,在前述各实施例中的方法中的描述和定义,可以用于本发明实施例中各执行模块的理解。
如图4所示,该装置包括:
第一学习模块401,用于将预先经过多属性标注的样本图像输入至第一模型进行学习,得到所述样本图像中每个图像的特征矩阵,所述特征矩阵用于表征该图像的属性特征信息;
第二学习模块402,用于将所述每个图像的特征矩阵输入至第二模型进行学习,得到所述每个图像的语义-空间特征矩阵,所述语义-空间特征矩阵用于表征该图像中各属性间的语义关系和空间关系;
计算模块403,用于将所述每个图像的特征矩阵分别输入至各属性对应的第一全连接层获得所述每个图像中各属性的第一预测值,将所述语义-空间特征矩阵分别输入至各属性对应的第二全连接层获得所述每个图像中各属性的第二预测值,将所述第一预测值和所述第二预测值进行加权求和,获得所述每个图像的各个属性的综合预测值;
模型确定模块404,用于当学习后得到的所述每个图像的各个属性的综合预测值与每个图像的各属性标签值之间的损失稳定在预设阈值范围内时,确定学习得到多属性识别模型,所述多属性识别模型包括:所述第一模型、所述第二模型、所述各属性对应的第一全连接层和所述各属性对应的第二全连接层。
本发明实施例提供的多属性识别模型的建立装置,通过增加一个新的网络结构(第二模型)来实现对属性之间潜在的空间区域关系以及语义上的关系利用进行提取,仅利用图片的标注信息来实现监督学习,能够实现多属性的准确识别,且训练成本低、效率高。
基于上述实施例的内容,作为一种可选实施例,所述第二学习模块402具体用于:
将所述每个图像的特征矩阵输入至注意力层进行学习,得到所述每个图像的注意力特征矩阵,所述注意力特征矩阵用于表征该图像中各属性对应的通道所占的权重;
将所述每个图像的特征矩阵输入至置信层进行学习,得到所述每个图像的置信矩阵,所述置信矩阵用于表征该图像的属性特征信息的置信程度;
根据所述注意力特征矩阵和所述置信矩阵,计算获得所述每个图像的带权注意力特征矩阵,所述带权注意力特征矩阵用于表征该图像中各目标属性对应的通道所占权重的置信程度;
将所述带权注意力特征矩阵输入至空间正则化层进行学习,得到所述每个图像的语义-空间特征矩阵。
图5示出了本发明实施例提供的电子设备的结构示意图,如图5所示,处理器(processor)501、存储器(memory)502和总线503;
其中,处理器501及存储器502分别通过总线503完成相互间的通信;处理器501用于调用存储502中的程序指令,以执行上述实施例所提供的多属性识别模型的建立方法,例如包括:将预先经过多属性标注的样本图像输入至第一模型进行学习,得到所述样本图像中每个图像的特征矩阵,所述特征矩阵用于表征该图像的属性特征信息;将所述每个图像的特征矩阵输入至第二模型进行学习,得到所述每个图像的语义-空间特征矩阵,所述语义-空间特征矩阵用于表征该图像中各属性间的语义关系和空间关系;将所述每个图像的特征矩阵分别输入至各属性对应的第一全连接层获得所述每个图像中各属性的第一预测值,将所述语义-空间特征矩阵分别输入至各属性对应的第二全连接层获得所述每个图像中各属性的第二预测值,将所述第一预测值和所述第二预测值进行加权求和,获得所述每个图像的各个属性的综合预测值;当学习后得到的所述每个图像的各个属性的综合预测值与每个图像的各属性标签值之间的损失稳定在预设阈值范围内时,确定学习得到多属性识别模型,所述多属性识别模型包括:所述第一模型、所述第二模型、所述各属性对应的第一全连接层和所述各属性对应的第二全连接层。
本发明实施例提供一种非暂态计算机可读存储介质,该非暂态计算机可读存储介质存储计算机指令,该计算机指令使计算机执行上述实施例所提供的多属性识别模型的建立方法,例如包括:将预先经过多属性标注的样本图像输入至第一模型进行学习,得到所述样本图像中每个图像的特征矩阵,所述特征矩阵用于表征该图像的属性特征信息;将所述每个图像的特征矩阵输入至第二模型进行学习,得到所述每个图像的语义-空间特征矩阵,所述语义-空间特征矩阵用于表征该图像中各属性间的语义关系和空间关系;将所述每个图像的特征矩阵分别输入至各属性对应的第一全连接层获得所述每个图像中各属性的第一预测值,将所述语义-空间特征矩阵分别输入至各属性对应的第二全连接层获得所述每个图像中各属性的第二预测值,将所述第一预测值和所述第二预测值进行加权求和,获得所述每个图像的各个属性的综合预测值;当学习后得到的所述每个图像的各个属性的综合预测值与每个图像的各属性标签值之间的损失稳定在预设阈值范围内时,确定学习得到多属性识别模型,所述多属性识别模型包括:所述第一模型、所述第二模型、所述各属性对应的第一全连接层和所述各属性对应的第二全连接层。
以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分的方法。
在本发明中,诸如第一、第二、第三、第四等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种多属性识别模型的建立方法,其特征在于,包括:
将预先经过多属性标注的样本图像输入至第一模型进行学习,得到所述样本图像中每个图像的特征矩阵,所述特征矩阵用于表征该图像的属性特征信息;
将所述每个图像的特征矩阵输入至第二模型进行学习,得到所述每个图像的语义-空间特征矩阵,所述语义-空间特征矩阵用于表征该图像中各属性间的语义关系和空间关系;
将所述每个图像的特征矩阵分别输入至各属性对应的第一全连接层获得所述每个图像中各属性的第一预测值,将所述语义-空间特征矩阵分别输入至各属性对应的第二全连接层获得所述每个图像中各属性的第二预测值,将所述第一预测值和所述第二预测值进行加权求和,获得所述每个图像的各个属性的综合预测值;
当学习后得到的所述每个图像的各个属性的综合预测值与每个图像的各属性标签值之间的损失稳定在预设阈值范围内时,确定学习得到多属性识别模型,所述多属性识别模型包括:所述第一模型、所述第二模型、所述各属性对应的第一全连接层和所述各属性对应的第二全连接层。
2.根据权利要求1所述的方法,其特征在于,所述第一模型采用带有残差结构的卷积网络模型。
3.根据权利要求1所述的方法,其特征在于,所述将所述每个图像的特征矩阵输入至第二模型进行学习,得到所述每个图像的语义-空间特征矩阵的步骤,具体为:
将所述每个图像的特征矩阵输入至注意力层进行学习,得到所述每个图像的注意力特征矩阵,所述注意力特征矩阵用于表征该图像中各属性对应的通道所占的权重;
将所述每个图像的特征矩阵输入至置信层进行学习,得到所述每个图像的置信矩阵,所述置信矩阵用于表征该图像的属性特征信息的置信程度;
根据所述注意力特征矩阵和所述置信矩阵,计算获得所述每个图像的带权注意力特征矩阵,所述带权注意力特征矩阵用于表征该图像中各目标属性对应的通道所占权重的置信程度;
将所述带权注意力特征矩阵输入至空间正则化层进行学习,得到所述每个图像的语义-空间特征矩阵。
4.根据权利要求3所述的方法,其特征在于,所述将所述每个图像的特征矩阵输入至第二模型进行学习,得到所述每个图像的语义-空间特征矩阵的步骤,还包括:
将所述注意力特征矩阵与所述置信矩阵相乘,并将相乘后获得的结果输入至第一池化层进行降维,得到属性置信向量;
相应地,所述当学习后得到的所述每个图像的各个属性的综合预测值与每个图像的各属性标签值之间的损失取最小值时,确定学习得到多属性识别模型的步骤,具体为:
当学习后得到的所述属性置信向量与每个图像的输入标签之间的损失、所述每个图像的各个属性的综合预测值与每个图像的各属性标签值之间的损失,所述两种损失的和稳定在预设阈值范围内时,确定学习得到多属性识别模型。
5.根据权利要求3所述的方法,其特征在于,所述注意力层由三个卷积层组成,所述三个卷积层的卷积核大小分别为1*1、3*3和1*1;
所述置信层由一个卷积核大小为1*1的卷积层组成;
所述空间正则化层由两个卷积核大小均为1*1的卷积层和一个卷积核大小为w*h的卷积层顺序组成;其中,w为每个图像的宽度,h为每个图像的高度。
6.一种多属性识别方法,其特征在于,应用如权利要求1-5任一所述方法建立的多属性识别模型,包括:
将待识别图像输入至预先建立的多属性识别模型中的第一模型,得到所述待识别图像的特征矩阵;
将所述待识别图像的特征矩阵输入至所述多属性识别模型中的第二模型,得到所述待识别图像的语义-空间特征矩阵;
将所述待识别图像的特征矩阵分别输入至所述多属性识别模型的各属性对应的第一全连接层中,获得所述待识别图像各属性的第一预测值,将所述语义-空间特征矩阵分别输入至所述多属性识别模型的各属性对应的第二全连接层中,获得所述待识别图像各属性的第二预测值,将所述第一预测值和所述第二预测值进行加权求和,获得所述待识别图像的各个属性的识别结果。
7.根据权利要求6所述的方法,其特征在于,所述将所述待识别图像的特征矩阵输入至所述多属性识别模型中的第二模型,得到所述待识别图像的语义-空间特征矩阵的步骤,具体为:
将所述待识别图像的特征矩阵输入至注意力层,得到所述待识别图像的注意力特征矩阵;
将所述待识别图像的特征矩阵输入至置信层,得到所述待识别图像的置信矩阵;
根据所述注意力特征矩阵和所述置信矩阵,计算获得所述待识别图像的带权注意力特征矩阵;
将所述带权注意力特征矩阵输入至空间正则化层,得到所述待识别图像的语义-空间特征矩阵。
8.一种多属性识别模型的建立装置,其特征在于,包括:
第一学习模块,用于将预先经过多属性标注的样本图像输入至第一模型进行学习,得到所述样本图像中每个图像的特征矩阵,所述特征矩阵用于表征该图像的属性特征信息;
第二学习模块,用于将所述每个图像的特征矩阵输入至第二模型进行学习,得到所述每个图像的语义-空间特征矩阵,所述语义-空间特征矩阵用于表征该图像中各属性间的语义关系和空间关系;
计算模块,用于将所述每个图像的特征矩阵分别输入至各属性对应的第一全连接层获得所述每个图像中各属性的第一预测值,将所述语义-空间特征矩阵分别输入至各属性对应的第二全连接层获得所述每个图像中各属性的第二预测值,将所述第一预测值和所述第二预测值进行加权求和,获得所述每个图像的各个属性的综合预测值;
模型确定模块,用于当学习后得到的所述每个图像的各个属性的综合预测值与每个图像的各属性标签值之间的损失稳定在预设阈值范围内时,确定学习得到多属性识别模型,所述多属性识别模型包括:所述第一模型、所述第二模型、所述各属性对应的第一全连接层和所述各属性对应的第二全连接层。
9.一种电子设备,其特征在于,包括:
至少一个处理器;以及
与所述处理器通信连接的至少一个存储器,其中:
所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行如权利要求1至5任一所述的方法。
10.一种非暂态计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行如权利要求1至5任一所述的方法。
CN201810890761.7A 2018-08-07 2018-08-07 多属性识别模型的建立方法、装置及多属性识别方法 Active CN109117781B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810890761.7A CN109117781B (zh) 2018-08-07 2018-08-07 多属性识别模型的建立方法、装置及多属性识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810890761.7A CN109117781B (zh) 2018-08-07 2018-08-07 多属性识别模型的建立方法、装置及多属性识别方法

Publications (2)

Publication Number Publication Date
CN109117781A true CN109117781A (zh) 2019-01-01
CN109117781B CN109117781B (zh) 2020-09-08

Family

ID=64852781

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810890761.7A Active CN109117781B (zh) 2018-08-07 2018-08-07 多属性识别模型的建立方法、装置及多属性识别方法

Country Status (1)

Country Link
CN (1) CN109117781B (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110837818A (zh) * 2019-11-18 2020-02-25 汕头大学 一种基于卷积神经网路的中华白海豚背鳍识别方法
WO2020144508A1 (en) * 2019-01-07 2020-07-16 International Business Machines Corporation Representative-based metric learning for classification and few-shot object detection
CN111444803A (zh) * 2020-03-18 2020-07-24 北京迈格威科技有限公司 图像处理方法、装置、电子设备及存储介质
CN111476775A (zh) * 2020-04-07 2020-07-31 广州柏视医疗科技有限公司 Dr征象识别装置和方法
CN112069892A (zh) * 2020-08-03 2020-12-11 清华大学 一种图像识别方法、装置、设备及存储介质
CN112508135A (zh) * 2021-02-03 2021-03-16 电子科技大学中山学院 模型训练方法、行人属性预测方法、装置及设备
CN112580794A (zh) * 2019-09-29 2021-03-30 佳能株式会社 属性识别装置、方法和***及识别对象属性的神经网络
CN112732871A (zh) * 2021-01-12 2021-04-30 上海畅圣计算机科技有限公司 一种机器人催收获取客户意向标签的多标签分类方法
CN113420797A (zh) * 2021-06-08 2021-09-21 杭州知衣科技有限公司 一种可在线学习的图像属性识别方法及***
CN116594627A (zh) * 2023-05-18 2023-08-15 湖北大学 一种基于多标签学习的群体软件开发中服务匹配方法
CN116954113A (zh) * 2023-06-05 2023-10-27 深圳市机器时代科技有限公司 智能机器人驱动传感智能控制***及其方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106650813A (zh) * 2016-12-27 2017-05-10 华南理工大学 一种基于深度残差网络和lstm的图像理解方法
CN107609460A (zh) * 2017-05-24 2018-01-19 南京邮电大学 一种融合时空双重网络流和attention机制的人体行为识别方法
CN107729901A (zh) * 2016-08-10 2018-02-23 阿里巴巴集团控股有限公司 图像处理模型的建立方法、装置及图像处理方法及***
CN108052894A (zh) * 2017-12-11 2018-05-18 北京飞搜科技有限公司 一种目标对象的多属性识别方法、设备、介质及神经网络

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107729901A (zh) * 2016-08-10 2018-02-23 阿里巴巴集团控股有限公司 图像处理模型的建立方法、装置及图像处理方法及***
CN106650813A (zh) * 2016-12-27 2017-05-10 华南理工大学 一种基于深度残差网络和lstm的图像理解方法
CN107609460A (zh) * 2017-05-24 2018-01-19 南京邮电大学 一种融合时空双重网络流和attention机制的人体行为识别方法
CN108052894A (zh) * 2017-12-11 2018-05-18 北京飞搜科技有限公司 一种目标对象的多属性识别方法、设备、介质及神经网络

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
SHUANG LI 等: "Diversity Regularized Spatiotemporal Attention for Video-based Person Re-identification", 《IEEE》 *

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020144508A1 (en) * 2019-01-07 2020-07-16 International Business Machines Corporation Representative-based metric learning for classification and few-shot object detection
US10832096B2 (en) 2019-01-07 2020-11-10 International Business Machines Corporation Representative-based metric learning for classification and few-shot object detection
CN112580794A (zh) * 2019-09-29 2021-03-30 佳能株式会社 属性识别装置、方法和***及识别对象属性的神经网络
CN110837818A (zh) * 2019-11-18 2020-02-25 汕头大学 一种基于卷积神经网路的中华白海豚背鳍识别方法
CN111444803A (zh) * 2020-03-18 2020-07-24 北京迈格威科技有限公司 图像处理方法、装置、电子设备及存储介质
CN111476775A (zh) * 2020-04-07 2020-07-31 广州柏视医疗科技有限公司 Dr征象识别装置和方法
CN112069892A (zh) * 2020-08-03 2020-12-11 清华大学 一种图像识别方法、装置、设备及存储介质
CN112732871A (zh) * 2021-01-12 2021-04-30 上海畅圣计算机科技有限公司 一种机器人催收获取客户意向标签的多标签分类方法
CN112732871B (zh) * 2021-01-12 2023-04-28 上海畅圣计算机科技有限公司 一种机器人催收获取客户意向标签的多标签分类方法
CN112508135A (zh) * 2021-02-03 2021-03-16 电子科技大学中山学院 模型训练方法、行人属性预测方法、装置及设备
CN112508135B (zh) * 2021-02-03 2021-04-30 电子科技大学中山学院 模型训练方法、行人属性预测方法、装置及设备
CN113420797A (zh) * 2021-06-08 2021-09-21 杭州知衣科技有限公司 一种可在线学习的图像属性识别方法及***
CN116594627A (zh) * 2023-05-18 2023-08-15 湖北大学 一种基于多标签学习的群体软件开发中服务匹配方法
CN116594627B (zh) * 2023-05-18 2023-12-12 湖北大学 一种基于多标签学习的群体软件开发中服务匹配方法
CN116954113A (zh) * 2023-06-05 2023-10-27 深圳市机器时代科技有限公司 智能机器人驱动传感智能控制***及其方法
CN116954113B (zh) * 2023-06-05 2024-02-09 深圳市机器时代科技有限公司 智能机器人驱动传感智能控制***及其方法

Also Published As

Publication number Publication date
CN109117781B (zh) 2020-09-08

Similar Documents

Publication Publication Date Title
CN109117781A (zh) 多属性识别模型的建立方法、装置及多属性识别方法
CN111797893B (zh) 一种神经网络的训练方法、图像分类***及相关设备
Zhong et al. SatCNN: Satellite image dataset classification using agile convolutional neural networks
WO2021227726A1 (zh) 面部检测、图像检测神经网络训练方法、装置和设备
CN110084173A (zh) 人头检测方法及装置
CN108921198A (zh) 基于深度学习的商品图像分类方法、服务器及***
CN107945204A (zh) 一种基于生成对抗网络的像素级人像抠图方法
US11816149B2 (en) Electronic device and control method thereof
CN109522942A (zh) 一种图像分类方法、装置、终端设备和存储介质
CN109063719B (zh) 一种联合结构相似性和类信息的图像分类方法
CN109711422A (zh) 图像数据处理、模型的建立方法、装置、计算机设备和存储介质
CN110674407A (zh) 基于图卷积神经网络的混合推荐方法
CN109359515A (zh) 一种用于对目标对象的属性特征进行识别的方法及装置
CN113807399A (zh) 一种神经网络训练方法、检测方法以及装置
EP3138058A1 (en) Method and apparatus for classifying object based on social networking service, and storage medium
CN110751027B (zh) 一种基于深度多示例学习的行人重识别方法
CN110457677A (zh) 实体关系识别方法及装置、存储介质、计算机设备
Gao et al. Face detection algorithm based on improved TinyYOLOv3 and attention mechanism
WO2022152009A1 (zh) 目标检测方法、装置、设备以及存储介质
CN116226785A (zh) 目标对象识别方法、多模态识别模型的训练方法和装置
Tian et al. Object localization via evaluation multi-task learning
WO2022100607A1 (zh) 一种神经网络结构确定方法及其装置
Wu et al. Traffic sign detection based on SSD combined with receptive field module and path aggregation network
Zhang et al. Crop pest recognition based on a modified capsule network
Li et al. Lightweight automatic identification and location detection model of farmland pests

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20200721

Address after: Room 502, 5 / F, No.9 Zhichun Road, Haidian District, Beijing 100089

Applicant after: BEIJING EWAY DACHENG TECHNOLOGY Co.,Ltd.

Address before: 100876 Beijing, Haidian District, 10 West Road, Beijing, 12 Beijing, North Post Science and technology exchange center, room 1216

Applicant before: BEIJING FEISOU TECHNOLOGY Co.,Ltd.

GR01 Patent grant
GR01 Patent grant