CN112001279B - 基于双重属性信息的跨模态行人重识别方法 - Google Patents

基于双重属性信息的跨模态行人重识别方法 Download PDF

Info

Publication number
CN112001279B
CN112001279B CN202010805183.XA CN202010805183A CN112001279B CN 112001279 B CN112001279 B CN 112001279B CN 202010805183 A CN202010805183 A CN 202010805183A CN 112001279 B CN112001279 B CN 112001279B
Authority
CN
China
Prior art keywords
pedestrian
text
attribute
feature
picture
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010805183.XA
Other languages
English (en)
Other versions
CN112001279A (zh
Inventor
高赞
陈琳
宋雪萌
王英龙
聂礼强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Institute of Artificial Intelligence
Original Assignee
Shandong Institute of Artificial Intelligence
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Institute of Artificial Intelligence filed Critical Shandong Institute of Artificial Intelligence
Priority to CN202010805183.XA priority Critical patent/CN112001279B/zh
Publication of CN112001279A publication Critical patent/CN112001279A/zh
Priority to NL2028092A priority patent/NL2028092B1/en
Application granted granted Critical
Publication of CN112001279B publication Critical patent/CN112001279B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/23Recognition of whole body movements, e.g. for sport training
    • G06V40/25Recognition of walking or running movements, e.g. gait recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/10Interfaces, programming languages or software development kits, e.g. for simulating neural networks
    • G06N3/105Shells for specifying net layout

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Human Computer Interaction (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Image Analysis (AREA)

Abstract

一种基于双重属性信息的跨模态行人重识别方法,通过基于双重属性信息的跨模态行人重识别方法,充分利用两个模态的数据所提取到丰富的语义信息,提供了一种基于文本属性和图像属性的双重属性空间构建和属性融合算法,通过构建基于隐空间和属性空间的跨模态行人重识别端到端网络提高了模型所提取特征的语义表达性。针对解决跨模态图文行人重识别问题提出了一个新的、基于隐空间和属性空间的跨模态行人重识别端到端网络,大幅度提高了所提取特征的语义表达性,对行人属性信息的应用更加充分。

Description

基于双重属性信息的跨模态行人重识别方法
技术领域
本发明涉及计算机视觉及深度学习领域,具体涉及一种基于双重属性信息的跨模态行人重识别方法。
背景技术
在信息化时代,视频监控在维护公共安全方面发挥了不可取代的作用,行人重识别是视频监控场景下的一个重要子任务,其旨在不同的监控摄像头产生的图像数据中找到属于同一个行人的照片。公共安全监控设施的应用区域越来越广泛,产生了海量的图像数据,如何在海量的图像数据中快速又准确地找到目标人物是计算机视觉领域的研究热点,但是在一些特定的紧急场景下,人们无法及时提供与所寻找的行人相匹配的图片作为检索的依据,只能提供口头描述,因此催生了基于文本描述的跨模态行人重识别这一任务。
跨模态行人重识别是指根据对行人的自然语言描述,在图片库中找到最符合文本描述信息的图片。随着深度学习技术的发展及其在不同任务中取得的优越性能,针对跨模态行人重识别任务,研究者们已经提出了一些深度学习相关跨模态人体重识别算法,它们大致可以分为:1)计算语义亲密度值法,计算图片和文本之间语义关联的亲密度值,提高相同类的图文亲密度,降低不同类的图文亲密度;2)子空间法,该方法致力于为图片和文本建立共同的特征表达空间,并在这个共同的空间中使用度量学习策略拉近属于相同行人id的图文特征之间的距离,拉远属于不同行人id的图文特征之间的距离。然而,这些方法所提取特征的语义表达性还有待提高,它们忽略了利用行人的属性信息来表现语义概念是否有效,或考虑的不够充分。
发明内容
本发明为了克服以上技术的不足,提供了一种基于文本属性和图像属性的双重属性空间构建和属性融合算法的跨模态行人重识别的方法。
本发明克服其技术问题所采用的技术方案是:
一种基于双重属性信息的跨模态行人重识别方法,包括如下步骤:
a)将监控摄像头所拍摄的内容中提取行人文本描述特征T和行人的图片特征I;
b)对提取的行人文本描述中提取出文本属性特征cT,对提取的图片提取出图片属性特征cI
c)将步骤a)中的行人文本描述特征和行人的图片特征输入到共享子空间中并计算难样本三元组损失函数,通过Softmax损失函数计算得到共享子空间中特征的分类损失;
d)将行人文本描述特征T和行人的图片特征I与文本属性cT和图片属性cI进行特征融合;
e)基于属性信息构建特征属性空间;
f)对提取的图片的特征及行人文本描述特征进行检索匹配。
进一步的,步骤a)中提取行人文本描述包括如下步骤:
a-1.1)对监控摄像头所拍摄的内容的描述语句分词后建立词频表;
a-1.2)过滤掉词频表中的低频词语;
a-1.3)对词频表中的单词的编码使用one-hot进行编码;
a-1.4)使用双向LSTM模型进行行人文本描述的特征提取。
进一步的,步骤a)中提取图片包括如下步骤:
a-2.1)使用在ImageNet数据集上完成预训练的ResNet网络进行图片特征提取;
a-2.2)对提取的图片进行语义分割,使用与步骤a-2.1)相同的ResNet网络对语义分割后的结果图片进行特征提取。
进一步的,步骤b)的提取步骤如下:
b-1)使用NLTK工具库对行人文本描述的数据进行预处理,提取出形容词加名词、多个名词叠加两种格式的名词词组;
b-2)将提取的名词词组按照词频进行排序,将低频词组舍弃,保留排名前400的名词词组组成属性表,得到文本属性cT
b-3)将图片使用PA-100K数据集训练,得到26种预测值,将预测值大于0的的图片的属性标记为1,将预测值小于0的图片的属性标记为0,得到图片属性cI。进一步的,步骤c)包括如下步骤:
c-1)通过公式
Figure BDA0002629163320000031
计算得到难样本三元组损失Ltrip(I,T),式中Ik为第k个图片的特征,将Ik作为锚,
Figure BDA0002629163320000032
为与锚Ik距离最近的异类文本样本特征,
Figure BDA0002629163320000033
为与锚Ik距离最远的同类文本样本特征,Tk为第k个行人文本描述特征,将Tk作为锚,
Figure BDA0002629163320000034
为与锚Tk距离最近的异类文本样本特征,
Figure BDA0002629163320000035
为与锚Tk距离最远的同类文本样本特征,ρ1为三元组损失的边界,S()为余弦相似度计算;
c-2)通过公式
Figure BDA0002629163320000036
计算
Figure BDA0002629163320000037
Figure BDA0002629163320000038
之间的余弦相似度,式中
Figure BDA0002629163320000039
为第k个图片的共享子空间特征,
Figure BDA00026291633200000310
为第k个行人文本描述的共享子空间特征;
c-3)通过公式
Figure BDA00026291633200000311
计算共享子空间图片特征Ik的分类损失Lcls(Ik),式中
Figure BDA00026291633200000312
为转置后的共享子空间中的图片特征,式中W为分类器,W∈Rdl×C,dl为共享子空间中的特征维度,C为行人身份信息类别数目,yk为
Figure BDA0002629163320000041
的身份信息,b为偏置向量,
Figure BDA0002629163320000042
为第j类的分类向量,bj为第j类的偏置值,
Figure BDA0002629163320000043
为对应的第yk类的分类向量,byk为第yk类的偏置值,通过公式
Figure BDA0002629163320000044
计算共享子空间行人文本描述特征Tk的分类损失函数Lcls(Tk),
Figure BDA0002629163320000045
为转置后的共享子空间中的文本特征;
c-4)通过公式
Figure BDA0002629163320000046
计算共享子空间的的损失函数Llatent(I,T),n为一个batch中样本数。
进一步的,步骤d)包括如下特征:
d-1)通过公式
Figure BDA0002629163320000047
计算损失函数Lcoral(I,T),图片特征I由
Figure BDA0002629163320000048
组成,行人文本描述特征T由
Figure BDA0002629163320000049
组成,式中|v|表示
Figure BDA00026291633200000410
Figure BDA00026291633200000411
的维度,||·||F为Frobenius范数;
d-2)通过公式t=sigmoid(C×Ug+F×Uf)计算属性特征和图片或文本特征在特征融合时的权重,式中C为待融合的属性特征,F为待融合的图片或文本特征,Ug与Uf为投影矩阵,式中t为投影结果相加后经过sigmoid函数得到特征融合时的权重,Ug∈Rs×da,Uf∈Rda×da为投影矩阵,s为图片属性或文本属性的类别数,da为属性空间的特征维度;
d-3)通过公式A=t*||C×Wg||2+(1-t)*||F×Wf||2计算融合后的特征A,式中Wg∈Rs×da,Wf∈Rda×da为投影矩阵。
进一步的,步骤e)包括如下特征:
e-1)通过公式
Figure BDA0002629163320000051
计算属性空间的三元损失La-trip(I,T),式中ρ2为三元组损失边界,Sa()为cosine相似度计算,
Figure BDA0002629163320000052
为第k个属性空间中的图片的特征,将
Figure BDA0002629163320000053
作为锚,
Figure BDA0002629163320000054
为与锚
Figure BDA0002629163320000055
距离最近的异类文本样本特征,
Figure BDA0002629163320000056
为与锚
Figure BDA0002629163320000057
距离最远的同类文本样本特征,
Figure BDA0002629163320000058
为第k个属性空间中的行人文本描述特征,将
Figure BDA0002629163320000059
作为锚,
Figure BDA00026291633200000510
为与锚
Figure BDA00026291633200000511
距离最近的异类文本样本特征,
Figure BDA00026291633200000512
为与锚
Figure BDA00026291633200000513
距离最远的同类文本样本特征;
e-2)通过公式
Figure BDA00026291633200000514
计算
Figure BDA00026291633200000515
Figure BDA00026291633200000516
的余弦相似度,式中
Figure BDA00026291633200000517
Figure BDA00026291633200000518
均为属性空间中融合属性信息后的具有语义信息的图文特征;
e-3)通过公式
Figure BDA00026291633200000519
计算属性空间中的损失函数Lattr(I,T)。
进一步的,步骤f)包括如下特征:
f-1)通过公式L(I,T)=Llatent(I,T)+Lattr(I,T)计算双重属性网络的损失函数L(I,T);
f-2)通过公式
Figure BDA0002629163320000061
计算双重属性的相似度A(Ik,Tk),式中Al为共享子空间中学到的特征
Figure BDA0002629163320000062
所计算出的相似度,AC为属性空间中学到的特征
Figure BDA0002629163320000063
所计算的相似度;
f-3)根据相似度A(Ik,Tk)计算跨模态匹配的准确率。
本发明的有益效果是:通过基于双重属性信息的跨模态行人重识别方法,充分利用两个模态的数据所提取到丰富的语义信息,提供了一种基于文本属性和图像属性的双重属性空间构建和属性融合算法,通过构建基于隐空间和属性空间的跨模态行人重识别端到端网络提高了模型所提取特征的语义表达性。针对解决跨模态图文行人重识别问题提出了一个新的、基于隐空间和属性空间的跨模态行人重识别端到端网络,大幅度提高了所提取特征的语义表达性,对行人属性信息的应用更加充分。
附图说明
图1为本发明的流程图;
图2为本发明的模型训练过程中的损失函数的变化图;
图3为CUHK-PEDES数据集上本发明的方法与现有方法在Top-k上的对比图。
具体实施方式
下面结合附图1、附图2、附图3对本发明做进一步说明。
如附图1所示,一种基于双重属性信息的跨模态行人重识别方法,包括如下步骤:
a)将监控摄像头所拍摄的内容中提取行人文本描述特征T和行人的图片特征I。本发明致力于将现实场景中监控摄像头所拍摄的行人图片及相应的行人文本描述之间建立语义关联,需要先分别提取两种模态的数据的特征表示,其中,图片特征的提取使用了当下流行的卷积神经网络ResNet完成,文本特征的提取使用了双向LSTM,可以充分获取文本的上下文信息。
b)对提取的行人文本描述中提取出文本属性特征cT,对提取的图片提取出图片属性特征cI。本发明针对现有方法对于属性信息的使用不够充分导致特征的语义表达性不强的问题,设计使用行人属性信息作为辅助信息来提高图文特征的语义表达性。行人图片的属性提取使用了先前工作中比较稳定的行人图片属性提取模型;行人文本的属性则来源于数据集中的统计信息,本发明将数据集中词频较高的名词短语作为行人的文本属性。
c)将步骤a)中的行人文本描述特征和行人的图片特征输入到共享子空间中并计算难样本三元组损失函数,通过Softmax损失函数计算得到共享子空间中特征的分类损失。投影到共同向量空间是解决跨模态检索问题的常见做法,在共享向量空间中可以建立两个模态的数据之间的关联。本发明将提取到的图文特征投影到共同的向量子空间中,利用度量学习的方法使得具有相同行人信息的图文特征之间的距离更近,而不属于同一行人的图文特征之间的距离更远,本发明利用难样本三元组损失来达到以上目的,即在一个批数据中,需要找到跟锚数据距离最近的另一个模态的异类样本和距离最远的另一个模态的同类样本。
d)将行人文本描述特征T和行人的图片特征I与文本属性cT和图片属性cI进行特征融合。现存的方法对于属性信息起到的辅助作用利用不够充分或者仅利用了一种模态的属性信息,导致模型可提取特征的语义表达性不够强,为了解决此问题,本发明利用了提取到的图文的双重属性信息。考虑到不同属性在行人图文匹配时所发挥的作用的重要程度不同,本发明使用了权重机制来使得特征融合时起到关键作用的语义信息发挥更大的作用。本发明利用矩阵投影的策略将待融合的图文特征和属性特征投影到相同的维度空间中,然后将两种特征加权即得到融合了语义信息的行人图文特征。在特征融合之前,为了避免两种模态的特征分布存在较大差异,本发明使用了跨域学习中常用的损失函数coral损失来拉近两种模态的数据之间的分布。
e)基于属性信息构建特征属性空间,融合了语义信息的图文特征同样被送入共享子空间中,本发明称为属性空间。本发明默认具有相同行人信息的图文特征具有相同的语义含义,在属性空间中本发明依然使用难样本三元组损失建立不同模态的行人图文特征之间的语义联系。
f)对提取的图片的特征及行人文本描述特征进行检索匹配。本发明最终提取的图文特征分为两部分,一部分是隐空间中提取的特征,另一部分是属性空间中提取的特征。对提取的模型特征进行检索匹配时,使用cosine距离来计算两个模型特征在特征空间的距离,以此对其相似度进行度量。为了让隐空间中学到的行人身份信息以及属性空间中学到的行人语义信息起到互补作用,本发明将两部分特征的相似度矩阵相加后再排序。
本发明为解决现有的跨模态行人重识别方法无法有效利用行人属性信息作为辅助信息来提高图文特征语义表达性的问题,提供了一种高效的基于双重属性信息的跨模态行人重识别方法,充分利用两个模态的数据所提取到丰富的语义信息,提供了一种基于文本属性和图像属性的双重属性空间构建和属性融合算法,通过构建基于隐空间和属性空间的跨模态行人重识别端到端网络提高了模型所提取特征的语义表达性。针对解决跨模态图文行人重识别问题提出了一个新的、基于隐空间和属性空间的跨模态行人重识别端到端网络,大幅度提高了所提取特征的语义表达性,对行人属性信息的应用更加充分。
实施例1:
步骤a)中提取行人文本描述包括如下步骤:
a-1.1)本发明在对行人文本进行特征提取时,先对文本信息进行了预处理,即对监控摄像头所拍摄的内容的描述语句分词后建立词频表。
a-1.2)过滤掉词频表中的低频词语。
a-1.3)对词频表中的单词的编码使用one-hot进行编码。
a-1.4)使用双向LSTM模型进行行人文本描述的特征提取。双向LSTM模型可以充分考虑每个单词的上下文,使得学习到的文本特征更加丰富。
步骤a)中提取图片包括如下步骤:
a-2.1)使用在ImageNet数据集上完成预训练的ResNet网络进行图片特征提取;
a-2.2)对提取的图片进行语义分割,使用与步骤a-2.1)相同的ResNet网络对语义分割后的结果图片进行特征提取。
实施例2:
针对行人图片属性识别已有许多工作,且取得了不错的效果,本发明选择使用了较稳定的行人属性识别模型,提取出了数据集中行人图片所含的属性及可能性值,步骤b)的提取步骤如下:
b-1)使用NLTK工具库对行人文本描述的数据进行预处理,提取出形容词加名词、多个名词叠加两种格式的名词词组;
b-2)将提取的名词词组按照词频进行排序,将低频词组舍弃,保留排名前400的名词词组组成属性表,得到文本属性cT
b-3)将图片使用PA-100K数据集训练,得到26种预测值,将预测值大于0的的图片的属性标记为1,将预测值小于0的图片的属性标记为0,得到图片属性cI
实施例3:
本发明使用了跨模态行人重识别领域常用的共享子空间法来建立两个模态的特征向量之间的关联,隐空间的设置是为了使得行人的图片特征和文本特征都具有行人id的可分性以及图文特征间具有基本的语义关联。本发明考虑到在跨模态行人图文检索中,同一个行人id对应着多张图片和多个相应的文本描述,因此损失函数的设计目标在于拉近同属于一个行人id的图片和文本描述之间的距离,拉远不属于同一个行人id的图片和文本的距离。具体地,令其中一种模态中的数据作为锚,取另一种模态中的跟锚属于同一类的数据作为正样本,跟锚属于不同类的数据作为负样本。这样不仅起到了分类的作用,还在一定程度上使得不同模态中具有相同语义的图片和文本描述之间形成了对应,在实验中默认同一个行人的图片和文本描述具有相同的语义信息。步骤c)包括如下步骤:c-1)通过公式
Figure BDA0002629163320000091
计算得到难样本三元组损失Ltrip(I,T),式中Ik为第k个图片的特征,将Ik作为锚,
Figure BDA0002629163320000101
为与锚Ik距离最近的异类文本样本特征,
Figure BDA0002629163320000102
为与锚Ik距离最远的同类文本样本特征,Tk为第k个行人文本描述特征,将Tk作为锚,
Figure BDA0002629163320000103
为与锚Tk距离最近的异类文本样本特征,
Figure BDA0002629163320000104
为与锚Tk距离最远的同类文本样本特征,ρ1为三元组损失的边界,S()为余弦相似度计算;
c-2)通过公式
Figure BDA0002629163320000105
计算
Figure BDA0002629163320000106
Figure BDA0002629163320000107
之间的余弦相似度,式中
Figure BDA0002629163320000108
为第k个图片的共享子空间特征,
Figure BDA0002629163320000109
为第k个行人文本描述的共享子空间特征;
c-3)通过公式
Figure BDA00026291633200001010
计算共享子空间图片特征Ik的分类损失Lcls(Ik),式中
Figure BDA00026291633200001011
为转置后的共享子空间中的图片特征,式中W为分类器,W∈Rdl×C,dl为共享子空间中的特征维度,C为行人身份信息类别数目,yk为
Figure BDA00026291633200001012
的身份信息,b为偏置向量,
Figure BDA00026291633200001013
为第j类的分类向量,bj为第j类的偏置值,
Figure BDA00026291633200001014
为对应的第yk类的分类向量,byk为第yk类的偏置值,通过公式
Figure BDA00026291633200001015
计算共享子空间行人文本描述特征Tk的分类损失函数Lcls(Tk),
Figure BDA00026291633200001016
为转置后的共享子空间中的文本特征;
c-4)通过公式
Figure BDA0002629163320000111
计算共享子空间的的损失函数Llatent(I,T),n为一个batch中样本数。
实施例4:
在图文特征与属性特征融合之前,为了避免两种模态的数据分布差异过大,本发明使用了迁移学习中的coral函数来拉近两种模态的数据之间的距离,具体的步骤d)包括如下特征:
d-1)通过公式
Figure BDA0002629163320000112
计算损失函数Lcoral(I,T),图片特征I由
Figure BDA0002629163320000113
组成,行人文本描述特征T由
Figure BDA0002629163320000114
组成,式中|v|表示
Figure BDA0002629163320000115
Figure BDA0002629163320000116
的维度,||·||F为Frobenius范数;
d-2)通过公式t=sigmoid(C×Ug+F×Uf)计算属性特征和图片或文本特征在特征融合时的权重,式中C为待融合的属性特征,F为待融合的图片或文本特征,Ug与Uf为投影矩阵,式中t为投影结果相加后经过sigmoid函数得到特征融合时的权重,Ug∈Rs×da,Uf∈Rda×da为投影矩阵,s为图片属性或文本属性的类别数,da为属性空间的特征维度;
d-3)通过公式A=t*||C×Wg||2+(1-t)*||F×Wf||2计算融合后的特征A,式中Wg∈Rs×da,Wf∈Rda×da为投影矩阵。
实施例5:
隐空间中对特征使用三元组损失来使图片特征和文本特征之间建立联系,属性空间中对于融合了语义信息的特征也使用了难样本三元组损失使不同模态的特征之间建立语义联系。因此步骤e)包括如下特征:
e-1)通过公式
Figure BDA0002629163320000121
计算属性空间的三元损失La-trip(I,T),式中ρ2为三元组损失边界,Sa()为cosine相似度计算,
Figure BDA0002629163320000122
为第k个属性空间中的图片的特征,将
Figure BDA0002629163320000123
作为锚,
Figure BDA0002629163320000124
为与锚
Figure BDA0002629163320000125
距离最近的异类文本样本特征,
Figure BDA0002629163320000126
为与锚
Figure BDA0002629163320000127
距离最远的同类文本样本特征,
Figure BDA0002629163320000128
为第k个属性空间中的行人文本描述特征,将
Figure BDA0002629163320000129
作为锚,
Figure BDA00026291633200001210
为与锚
Figure BDA00026291633200001211
距离最近的异类文本样本特征,
Figure BDA00026291633200001212
为与锚
Figure BDA00026291633200001213
距离最远的同类文本样本特征;
e-2)通过公式
Figure BDA00026291633200001214
计算
Figure BDA00026291633200001215
Figure BDA00026291633200001216
的余弦相似度,式中
Figure BDA00026291633200001217
Figure BDA00026291633200001218
均为属性空间中融合属性信息后的具有语义信息的图文特征;
e-3)通过公式
Figure BDA00026291633200001219
计算属性空间中的损失函数Lattr(I,T)。
实施例6:
在模型学习的过程中,隐空间和属性空间的训练同时进行,步骤f)包括如下特征:
f-1)通过公式L(I,T)=Llatent(I,T)+Lattr(I,T)计算双重属性网络的损失函数L(I,T)。如附图2所示,训练过程中三部分损失函数的变化曲线大致一致,证明了本发明的可应用性与合理性。
f-2)在测试过程中,为了让隐空间中学到的行人身份信息和属性空间中学到的行人语义信息起到互补作用,因此通过公式
Figure BDA0002629163320000131
计算双重属性的相似度A(Ik,Tk),式中Al为共享子空间中学到的特征
Figure BDA0002629163320000132
所计算出的相似度,AC为属性空间中学到的特征
Figure BDA0002629163320000133
所计算的相似度。
f-3)根据最终得到的相似度A(Ik,Tk)计算跨模态匹配的准确率,经过验证,如附图3所示本发明所采用的方法比表中列出的现有的5种方法在性能方面有了显著的提高。
以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,对本发明的技术方案进行修改或者等同替换,都不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (4)

1.一种基于双重属性信息的跨模态行人重识别方法,其特征在于,包括如下步骤:
a)将监控摄像头所拍摄的内容中提取行人文本描述特征T和行人的图片特征I;
b)对提取的行人文本描述中提取出文本属性特征cT,对提取的图片提取出图片属性特征cI
c)将步骤a)中的行人文本描述特征和行人的图片特征输入到共享子空间中并计算难样本三元组损失函数,通过Softmax损失函数计算得到共享子空间中特征的分类损失;
d)将行人文本描述特征T和行人的图片特征I与文本属性cT和图片属性cI进行特征融合;
e)基于属性信息构建特征属性空间;
f)对提取的图片的特征及行人文本描述特征进行检索匹配;
步骤b)的提取步骤如下:
b-1)使用NLTK工具库对行人文本描述的数据进行预处理,提取出形容词加名词、多个名词叠加两种格式的名词词组;
b-2)将提取的名词词组按照词频进行排序,将低频词组舍弃,保留排名前400的名词词组组成属性表,得到文本属性cT
b-3)将图片使用PA-100K数据集训练,得到26种预测值,将预测值大于0的的图片的属性标记为1,将预测值小于0的图片的属性标记为0,得到图片属性cI;步骤c)包括如下步骤:
c-1)通过公式
Figure FDA0003335713010000021
计算得到难样本三元组损失Ltrip(I,T),式中Ik为第k个图片的特征,将Ik作为锚,
Figure FDA0003335713010000022
为与锚Ik距离最近的异类文本样本特征,
Figure FDA0003335713010000023
为与锚Ik距离最远的同类文本样本特征,Tk为第k个行人文本描述特征,将Tk作为锚,
Figure FDA0003335713010000024
为与锚Tk距离最近的异类文本样本特征,
Figure FDA0003335713010000025
为与锚Tk距离最远的同类文本样本特征,ρ1为三元组损失的边界,S()为余弦相似度计算;
c-2)通过公式
Figure FDA0003335713010000026
计算
Figure FDA0003335713010000027
Figure FDA0003335713010000028
之间的余弦相似度,式中
Figure FDA0003335713010000029
为第k个图片的共享子空间特征,
Figure FDA00033357130100000210
为第k个行人文本描述的共享子空间特征;
c-3)通过公式
Figure FDA00033357130100000211
计算共享子空间图片特征Ik的分类损失Lcls(Ik),式中
Figure FDA00033357130100000212
为转置后的共享子空间中的图片特征,式中W为分类器,W∈Rdl×C,dl为共享子空间中的特征维度,C为行人身份信息类别数目,yk为
Figure FDA00033357130100000213
的身份信息,b为偏置向量,
Figure FDA00033357130100000214
为第j类的分类向量,bj为第j类的偏置值,
Figure FDA00033357130100000215
为对应的第yk类的分类向量,byk为第yk类的偏置值,通过公式
Figure FDA0003335713010000031
计算共享子空间行人文本描述特征Tk的分类损失函数Lcls(Tk),
Figure FDA0003335713010000032
为转置后的共享子空间中的文本特征;
c-4)通过公式
Figure FDA0003335713010000033
计算共享子空间的的损失函数Llatent(I,T),n为一个batch中样本数;
步骤d)包括如下特征:
d-1)通过公式
Figure FDA0003335713010000034
计算损失函数Lcoral(I,T),图片特征I由
Figure FDA0003335713010000035
组成,行人文本描述特征T由
Figure FDA0003335713010000036
组成,式中|v|表示
Figure FDA0003335713010000037
Figure FDA0003335713010000038
的维度,||·||F为Frobenius范数;
d-2)通过公式t=sigmoid(C×Ug+F×Uf)计算属性特征和图片或文本特征在特征融合时的权重,式中C为待融合的属性特征,F为待融合的图片或文本特征,Ug与Uf为投影矩阵,式中t为投影结果相加后经过sigmoid函数得到特征融合时的权重,Ug∈Rs×da,Uf∈Rda×da为投影矩阵,s为图片属性或文本属性的类别数,da为属性空间的特征维度;
d-3)通过公式A=t*||C×Wg||2+(1-t)*||F×Wf||2计算融合后的特征A,式中Wg∈Rs×da,Wf∈Rda×da为投影矩阵;
步骤e)包括如下特征:
e-1)通过公式
Figure FDA0003335713010000041
计算属性空间的三元损失La-trip(I,T),式中ρ2为三元组损失边界,Sa()为cosine相似度计算,
Figure FDA0003335713010000042
为第k个属性空间中的图片的特征,将
Figure FDA0003335713010000043
作为锚,
Figure FDA0003335713010000044
为与锚
Figure FDA0003335713010000045
距离最近的异类文本样本特征,
Figure FDA0003335713010000046
为与锚
Figure FDA0003335713010000047
距离最远的同类文本样本特征,
Figure FDA0003335713010000048
为第k个属性空间中的行人文本描述特征,将
Figure FDA0003335713010000049
作为锚,
Figure FDA00033357130100000410
为与锚
Figure FDA00033357130100000411
距离最近的异类文本样本特征,
Figure FDA00033357130100000412
为与锚
Figure FDA00033357130100000413
距离最远的同类文本样本特征;
e-2)通过公式
Figure FDA00033357130100000414
计算
Figure FDA00033357130100000418
Figure FDA00033357130100000419
的余弦相似度,式中
Figure FDA00033357130100000415
Figure FDA00033357130100000416
均为属性空间中融合属性信息后的具有语义信息的图文特征;
e-3)通过公式
Figure FDA00033357130100000417
计算属性空间中的损失函数Lattr(I,T)。
2.根据权利要求1所述的基于双重属性信息的跨模态行人重识别方法,其特征在于,步骤a)中提取行人文本描述包括如下步骤:
a-1.1)对监控摄像头所拍摄的内容的描述语句分词后建立词频表;
a-1.2)过滤掉词频表中的低频词语;
a-1.3)对词频表中的单词的编码使用one-hot进行编码;
a-1.4)使用双向LSTM模型进行行人文本描述的特征提取。
3.根据权利要求1所述的基于双重属性信息的跨模态行人重识别方法,其特征在于,步骤a)中提取图片包括如下步骤:
a-2.1)使用在ImageNet数据集上完成预训练的ResNet网络进行图片特征提取;
a-2.2)对提取的图片进行语义分割,使用与步骤a-2.1)相同的ResNet网络对语义分割后的结果图片进行特征提取。
4.根据权利要求1所述的基于双重属性信息的跨模态行人重识别方法,其特征在于,步骤f)包括如下特征:
f-1)通过公式L(I,T)=Llatent(I,T)+Lattr(I,T)计算双重属性网络的损失函数L(I,T);
f-2)通过公式
Figure FDA0003335713010000051
计算双重属性的相似度A(Ik,Tk),式中Al为共享子空间中学到的特征
Figure FDA0003335713010000052
所计算出的相似度,AC为属性空间中学到的特征
Figure FDA0003335713010000053
所计算的相似度;
f-3)根据相似度A(Ik,Tk)计算跨模态匹配的准确率。
CN202010805183.XA 2020-08-12 2020-08-12 基于双重属性信息的跨模态行人重识别方法 Active CN112001279B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202010805183.XA CN112001279B (zh) 2020-08-12 2020-08-12 基于双重属性信息的跨模态行人重识别方法
NL2028092A NL2028092B1 (en) 2020-08-12 2021-04-29 Cross-modality person re-identification method based on dual-attribute information

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010805183.XA CN112001279B (zh) 2020-08-12 2020-08-12 基于双重属性信息的跨模态行人重识别方法

Publications (2)

Publication Number Publication Date
CN112001279A CN112001279A (zh) 2020-11-27
CN112001279B true CN112001279B (zh) 2022-02-01

Family

ID=73464076

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010805183.XA Active CN112001279B (zh) 2020-08-12 2020-08-12 基于双重属性信息的跨模态行人重识别方法

Country Status (2)

Country Link
CN (1) CN112001279B (zh)
NL (1) NL2028092B1 (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112507853B (zh) * 2020-12-02 2024-05-14 西北工业大学 一种基于互注意力机制的跨模态行人重识别方法
CN114612927B (zh) * 2020-12-09 2023-05-09 四川大学 一种基于图像文本双通道联合的行人重识别方法
CN113627151B (zh) * 2021-10-14 2022-02-22 北京中科闻歌科技股份有限公司 跨模态数据的匹配方法、装置、设备及介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109829430A (zh) * 2019-01-31 2019-05-31 中科人工智能创新技术研究院(青岛)有限公司 基于异构层次化注意机制的跨模态行人再识别方法及***
CN110021051A (zh) * 2019-04-01 2019-07-16 浙江大学 一种基于生成对抗网络通过文本指导的人物图像生成方法
CN110321813A (zh) * 2019-06-18 2019-10-11 南京信息工程大学 基于行人分割的跨域行人重识别方法
CN110909605A (zh) * 2019-10-24 2020-03-24 西北工业大学 基于对比相关的跨模态行人重识别方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9400925B2 (en) * 2013-11-15 2016-07-26 Facebook, Inc. Pose-aligned networks for deep attribute modeling
GB201703602D0 (en) * 2017-03-07 2017-04-19 Selerio Ltd Multi-Modal image search
CN107562812B (zh) * 2017-08-11 2021-01-15 北京大学 一种基于特定模态语义空间建模的跨模态相似性学习方法
CN109344266B (zh) * 2018-06-29 2021-08-06 北京大学深圳研究生院 一种基于双语义空间的对抗性跨媒体检索方法
US11138469B2 (en) * 2019-01-15 2021-10-05 Naver Corporation Training and using a convolutional neural network for person re-identification

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109829430A (zh) * 2019-01-31 2019-05-31 中科人工智能创新技术研究院(青岛)有限公司 基于异构层次化注意机制的跨模态行人再识别方法及***
CN110021051A (zh) * 2019-04-01 2019-07-16 浙江大学 一种基于生成对抗网络通过文本指导的人物图像生成方法
CN110321813A (zh) * 2019-06-18 2019-10-11 南京信息工程大学 基于行人分割的跨域行人重识别方法
CN110909605A (zh) * 2019-10-24 2020-03-24 西北工业大学 基于对比相关的跨模态行人重识别方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Cross-Modality Person Re-Identification Based on Dual-Path Multi-Branch Network;Xuezhi Xiang et al;《IEEE SENSORS JOURNAL》;20191201;第19卷(第23期);11706-11713页 *
Dual Attention Matching Network for Context-Aware Feature Sequence Based Person Re-identification;Jianlou Si et al;《2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition》;20181217;5363-5372页 *
基于深度学习的行人再识别技术研究综述;魏文钰等;《计算机应用》;20200610;1-16页 *
基于深度学习的行人重识别研究进展;罗浩等;《自动化学报》;20191130;第45卷(第11期);2032-2049页 *

Also Published As

Publication number Publication date
CN112001279A (zh) 2020-11-27
NL2028092A (en) 2021-07-28
NL2028092B1 (en) 2022-04-06

Similar Documents

Publication Publication Date Title
CN112001279B (zh) 基于双重属性信息的跨模态行人重识别方法
CN111581961B (zh) 一种中文视觉词汇表构建的图像内容自动描述方法
Wang et al. Improving weakly supervised visual grounding by contrastive knowledge distillation
CN114297473A (zh) 基于多级图文语义对齐模型的新闻事件搜索方法及***
CN106095829B (zh) 基于深度学习与一致性表达空间学习的跨媒体检索方法
CN113779361A (zh) 基于多层注意力机制的跨模态检索模型的构建方法及应用
CN111666843A (zh) 一种基于全局特征和局部特征拼接的行人重识别方法
CN111177446A (zh) 一种用于足迹图像检索的方法
CN108427740B (zh) 一种基于深度度量学习的图像情感分类与检索算法
CN110826639B (zh) 一种利用全量数据训练零样本图像分类方法
CN113076483A (zh) 基于案件要素异构图的舆情新闻抽取式摘要方法
Zhu et al. Image-text matching with fine-grained relational dependency and bidirectional attention-based generative networks
TW201604821A (zh) 協作性人臉標註方法以及協作性人臉標註系統
CN110008365A (zh) 一种图像处理方法、装置、设备及可读存储介质
CN114612767A (zh) 一种基于场景图的图像理解与表达方法、***与存储介质
Yuan Language bias in visual question answering: A survey and taxonomy
CN115187910A (zh) 视频分类模型训练方法、装置、电子设备及存储介质
Jin et al. A semi-naive bayesian method incorporating clustering with pair-wise constraints for auto image annotation
Li et al. Social context-aware person search in videos via multi-modal cues
Liu et al. A multimodal approach for multiple-relation extraction in videos
Wang et al. A novel semantic attribute-based feature for image caption generation
Kumar et al. Semi-supervised annotation of faces in image collection
CN116756363A (zh) 一种由信息量引导的强相关性无监督跨模态检索方法
CN113076490B (zh) 一种基于混合节点图的涉案微博对象级情感分类方法
CN110110598A (zh) 一种基于视觉特征与时空约束的行人再识别方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant