CN109165563A - 行人再识别方法和装置、电子设备、存储介质、程序产品 - Google Patents

行人再识别方法和装置、电子设备、存储介质、程序产品 Download PDF

Info

Publication number
CN109165563A
CN109165563A CN201810848366.2A CN201810848366A CN109165563A CN 109165563 A CN109165563 A CN 109165563A CN 201810848366 A CN201810848366 A CN 201810848366A CN 109165563 A CN109165563 A CN 109165563A
Authority
CN
China
Prior art keywords
feature
image
candidate
language
recognized
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810848366.2A
Other languages
English (en)
Other versions
CN109165563B (zh
Inventor
陈大鹏
李鸿升
刘希慧
邵静
王晓刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sensetime Technology Development Co Ltd
Original Assignee
Beijing Sensetime Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sensetime Technology Development Co Ltd filed Critical Beijing Sensetime Technology Development Co Ltd
Priority to CN201810848366.2A priority Critical patent/CN109165563B/zh
Publication of CN109165563A publication Critical patent/CN109165563A/zh
Application granted granted Critical
Publication of CN109165563B publication Critical patent/CN109165563B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本申请实施例公开了一种行人再识别方法和装置、电子设备、存储介质、程序产品,获取待识别图像和候选图像集;利用特征提取网络对待识别图像和候选图像集中各候选图像进行特征提取,获得待识别图像对应的待识别中间特征和候选图像对应的候选中间特征,特征提取网络经图像特征和语言描述跨模态训练获得;基于待识别中间特征和候选中间特征从候选图像集中获得待识别图像对应的识别结果,利用了图像与描述该图像的语言之间天然的对应关系,以短语重建的方式进一步挖掘局部图片区域与名词短语之间相关性,增强了对图像特征学习的约束,提高了行人再识别视觉特征的质量,进而提高了行人再识别的准确度。

Description

行人再识别方法和装置、电子设备、存储介质、程序产品
技术领域
本申请涉及计算机视觉技术,尤其是一种行人再识别方法和装置、电子设备、存储介质、程序产品。
背景技术
行人再识别是智能视频监控***中的一项关键技术,它旨在通过对给定目标样本和后选样本之间的相似性进行度量,在大量后选样本中找出目标样本。随着深度神经网络的应用,用于行人再识别的视觉特征得到增强。为了进一步提高特征的判别能力,一些方法使用了辅助性数据;但仍存在以下问题:依赖额外的设备或模型,增加算法运行价格和时间的成本;或是对辅助数据定义复杂标注格式,增加了数据标注的人力成本。
发明内容
本申请实施例提供的一种行人再识别技术。
根据本申请实施例的一个方面,提供的一种行人再识别方法,包括:
获取待识别图像和候选图像集;
利用特征提取网络对待识别图像和候选图像集中各候选图像进行特征提取,获得所述待识别图像对应的待识别中间特征和所述候选图像对应的候选中间特征,所述特征提取网络经图像特征和语言描述跨模态训练获得;
基于所述待识别中间特征和所述候选中间特征从所述候选图像集中获得所述待识别图像对应的识别结果,所述识别结果包括至少一个候选图像。
可选地,所述基于所述待识别中间特征和所述候选中间特征从所述候选图像集中获得所述待识别图像对应的识别结果,包括:
所述待识别中间特征和所述候选中间特征分别经过平均池化层和全连接层获得待识别特征和候选特征;
基于所述待识别特征和所述候选特征从所述候选图像集中获得所述待识别图像对应的识别结果。
可选地,还包括:基于语言识别网络对与所述待识别图像相关的描述文字进行特征提取,获得语言特征;
基于所述语言特征对所述识别结果进行筛选,获得所述待识别图像对应的更新识别结果,所述更新识别结果包括至少一个候选图像。
可选地,所述基于所述语言特征对所述识别结果进行筛选,获得所述待识别图像对应的更新识别结果,包括:
基于所述语言特征与所述识别结果对应的至少一个所述候选中间特征之间的距离进行筛选;
获得距离小于或等于预设值的至少一个所述候选中间特征,将获得的所述候选中间特征对应的所述候选图像作为所述更新识别结果。
可选地,还包括:
基于所述语言识别网络对所述待识别图像相关的至少一个描述词语进行特征提取,获得词语特征,每个所述描述词语对应所述待识别图像中的至少一个部分;
基于所述词语特征对所述识别结果或所述更新识别结果进行筛选,获得所述待识别图像对应的目标识别结果,所述目标识别结果包括至少一个所述候选图像。
可选地,所述基于所述词语特征对所述识别结果或所述更新识别结果进行筛选,获得所述待识别图像对应的目标识别结果,包括:
基于所述词语特征与所述识别结果或所述更新识别结果对应的至少一个所述候选中间特征之间的距离进行筛选;
获得距离小于或等于预设值的至少一个所述候选特征,将所述获得的候选中间特征对应的候选图像作为所述目标识别结果。
可选地,所述经图像特征和语言描述跨模态训练获得特征提取网络,包括:
将样本图像输入所述特征提取网络,得到样本图像特征,所述样本图像包括文字描述标注;
基于语言识别网络对所述文字描述标注进行特征提取,得到样本语言特征;
基于所述样本语言特征和所述样本图像特征,训练所述特征提取网络。
可选地,所述基于所述样本语言特征和所述样本图像特征,训练所述特征提取网络,包括:
基于所述样本语言特征和所述样本图像特征,获得全局相关概率;
基于所述全局相关概率和所述样本图像与所述文字描述标注的相关性,利用二元互熵损失获得全局损失;
基于所述全局损失训练所述特征提取网络。
可选地,所述基于所述样本语言特征和所述样本图像特征,获得全局相关概率,包括:
将所述样本图像特征池化后与所述样本语言特征相减,得到差值特征;
对所述差值特征进行逐元素计算平方值获得联合特征;
对所述联合特征执行归一化处理,得到用于表示全局相关性的全局相关概率。
可选地,所述基于所述语言识别网络对所述文字描述标注进行特征提取,得到样本语言特征之前,还包括:
基于样本文字对所述语言识别网络进行预训练,所述样本文字包括标注语言特征。
可选地,所述基于样本文字对所述语言识别网络进行预训练,包括:
将所述样本文字输入所述语言识别网络得到第一预测样本特征;
基于所述第一预测样本特征和所述标注语言特征调整所述语言识别网络的参数。
可选地,还包括:基于所述语言识别网络对所述文字描述标注中至少一个短语标注进行特征提取,得到至少一个局部特征,每个所述短语标注用于描述所述样本图像中的至少一个区域;
基于所述局部特征和所述样本图像特征得到局部损失;
所述基于所述全局损失训练所述特征提取网络,包括:
基于所述全局损失和所述局部损失训练所述特征提取网络。
可选地,所述基于所述语言识别网络对所述文字描述标注中至少一个短语标注进行特征提取,得到至少一个局部特征之前,还包括:
分割所述文字描述标注,得到至少一个短语标注,每个所述短语标注包括至少一个名词,所述获得的短语标注对应一个标注概率,每个概率值表示所述短语标注对应所述样本图像的概率。
可选地,所述分割所述文字描述标注,得到至少一个短语标注,包括:
对所述文字描述标注中的每个单词进行词性识别,得到每个所述单词对应的词性;
基于所述词性结合预设的短语分块条件,将所述文字描述标注分割为至少一个短语标注。
可选地,所述基于所述局部特征和所述样本图像特征确定局部损失,包括:
对所述样本图像特征进行池化操作,得到全局特征图;
基于所述全局特征图和所述局部特征,获得显著性权重;
基于所述显著性权重和所述样本图像特征确定所述每个短语标注对应的预测概率;
基于所述预测概率与所述短语标注对应的标注概率,获得所述局部损失。
可选地,所述基于所述全局特征图和所述局部特征,获得显著性权重,包括:
将所述全局特征图中每个位置的特征值与所述局部特征分别相减,得到局部差值特征;
对所述局部差值特征中每个元素计算平方值获得局部联合特征;
基于所述局部联合特征,获得显著性权重。
可选地,所述基于所述局部联合特征,获得显著性权重,包括:
基于全连接网络对所述局部联合特征进行处理,得到一个表达所述短语标注与所述样本图像匹配程度的匹配值;
对每个所述短语标注对应的全局特征图中每一个位置的匹配值构成的向量进行归一化,得到所述每个短语标注对应的显著性权重。
可选地,所述基于所述显著性权重和所述样本图像特征确定所述每个短语标注对应的预测概率,包括:
将所述样本图像特征中对每一个位置的特征值与所述显著性权重相乘,得到对应每个所述短语标注的加权特征向量集合;
将所述加权特征向量集合中的向量相加,得到所述短语标注对应所述样本图像中的局部视觉特征;
基于所述局部视觉特征获得所述短语标注中每一个单词的预测概率;
基于所述短语标注中每一个单词的预测概率确定所述短语标注对应的预测概率。
可选地,所述基于所述局部视觉特征获得所述短语标注中每一个单词的预测概率,包括:
将所述短语标注分解成单词序列,将所述局部视觉特征输入长短期记忆网络,确定至少一个隐变量,每个所述单词对应一个特征向量;
每一个时刻,前一个时刻的隐变量与当前单词对应的特征向量通过长短期记忆网络相作用获得下一个时刻的隐变量;
基于所述至少一个隐变量进行线性映射,得到每一个单词的预测向量;
基于所述预测向量得到所述短语标注中每一个单词的预测概率。
可选地,基于所述短语标注中每一个单词的预测概率确定所述短语标注对应的预测概率,包括:
将所述短语标注中各个单词的预测概率的乘积,作为所述短语标注的预测概率。
可选地,所述基于所述全局损失和所述局部损失训练所述特征提取网络,包括:
对所述全局损失和所述局部损失求和,得到和损失;
基于所述和损失调整所述特征提取网络的参数。
可选地,还包括:
将身份样本图像输入所述特征提取网络,得到样本预测特征,所述身份样本图像包括标注识别特征;
经池化层和全连接层对所述样本预测特征进行处理,得到预测识别特征;
基于所述标注识别特征和所述预测识别特征调整所述特征提取网络、所述池化层和所述全连接层的参数。
根据本申请实施例的另一个方面,提供的一种行人再识别装置,包括:
图像获取单元,用于获取待识别图像和候选图像集;
特征提取单元,用于利用特征提取网络对所述待识别图像和所述候选图像集中各候选图像进行特征提取,获得所述待识别图像对应的待识别中间特征和所述候选图像对应的候选中间特征,所述特征提取网络经图像特征和语言描述跨模态训练获得;
结果识别单元,用于基于所述待识别中间特征和所述候选中间特征从所述候选图像集中获得所述待识别图像对应的识别结果,所述识别结果包括至少一个候选图像。
可选地,所述结果识别单元,用于所述待识别中间特征和所述候选中间特征分别经过平均池化层和全连接层获得待识别特征和候选特征;基于所述待识别特征和所述候选特征从所述候选图像集中获得所述待识别图像对应的识别结果。
可选地,还包括:
语言筛选单元,用于基于语言识别网络对与所述待识别图像相关的描述文字进行特征提取,获得语言特征;基于所述语言特征对所述识别结果进行筛选,获得所述待识别图像对应的更新识别结果,所述更新识别结果包括至少一个候选图像。
可选地,所述语言筛选单元在基于所述语言特征对所述识别结果进行筛选,获得所述待识别图像对应的更新识别结果时,用于基于所述语言特征与所述识别结果对应的至少一个候选中间特征之间的距离进行筛选;获得所述距离小于或等于预设值的至少一个候选中间特征,将所述获得的候选中间特征对应的候选图像作为所述更新识别结果。
可选地,还包括:
词语筛选单元,用于基于所述语言识别网络对所述待识别图像相关的至少一个描述词语进行特征提取,获得词语特征,每个所述描述词语对应所述待识别图像中的至少一个部分;基于所述词语特征对所述识别结果或所述更新识别结果进行筛选,获得所述待识别图像对应的目标识别结果,所述目标识别结果包括至少一个候选图像。
可选地,所述词语筛选单元基于所述词语特征对所述识别结果或所述更新识别结果进行筛选,获得所述待识别图像对应的目标识别结果时,用于基于所述词语特征与所述识别结果或所述更新识别结果对应的至少一个候选中间特征之间的距离进行筛选;获得所述距离小于或等于预设值的至少一个候选特征,将所述获得的候选中间特征对应的候选图像作为所述目标识别结果。
可选地,所述装置还包括:
样本特征提取单元,用于将样本图像输入所述特征提取网络,得到样本图像特征,所述样本图像包括文字描述标注;
语言特征提取单元,用于基于语言识别网络对所述文字描述标注进行特征提取,得到样本语言特征;
网络训练单元,用于基于所述样本语言特征和所述样本图像特征,训练所述特征提取网络。
可选地,所述网络训练单元,包括:
全局概率模块,用于基于所述样本语言特征和所述样本图像特征,获得全局相关概率;
全局损失模块,用于基于所述全局相关概率和所述样本图像与所述文字描述标注的相关性,利用二元互熵损失获得全局损失;
损失训练模块,用于基于所述全局损失训练所述特征提取网络。
可选地,所述全局概率模块,具体用于将所述样本图像特征池化后与所述样本语言特征相减,得到差值特征;对所述差值特征进行逐元素计算平方值获得联合特征;对所述联合特征执行归一化处理,得到用于表示全局相关性的全局相关概率。
可选地,所述装置还包括:
预训练单元,用于基于样本文字对所述语言识别网络进行预训练,所述样本文字包括标注语言特征。
可选地,所述预训练单元,具体用于将所述样本文字输入所述语言识别网络得到第一预测样本特征;基于所述第一预测样本特征和所述标注语言特征调整所述语言识别网络的参数。
可选地,所述网络训练单元,还包括:
局部特征提取模块,用于基于所述语言识别网络对所述文字描述标注中至少一个短语标注进行特征提取,得到至少一个局部特征,每个所述短语标注用于描述所述样本图像中的至少一个区域;
局部损失模块,用于基于所述局部特征和所述样本图像特征得到局部损失;
所述损失训练模块,具体用于基于所述全局损失和所述局部损失训练所述特征提取网络。
可选地,所述网络训练单元,还包括:
短语分割模块,用于分割所述文字描述标注,得到至少一个短语标注,每个所述短语标注包括至少一个名词,所述获得的短语标注对应一个标注概率,每个概率值表示所述短语标注对应所述样本图像的概率。
可选地,所述短语分割模块,具体用于对所述文字描述标注中的每个单词进行词性识别,得到每个所述单词对应的词性;基于所述词性结合预设的短语分块条件,将所述文字描述标注分割为至少一个短语标注。
可选地,所述局部损失模块,包括:
池化模块,用于对所述样本图像特征进行池化操作,得到全局特征图;
权重模块,用于基于所述全局特征图和所述局部特征,获得显著性权重;
概率预测模块,用于基于所述显著性权重和所述样本图像特征确定所述每个短语标注对应的预测概率;
局部损失获取模块,用于基于所述预测概率与所述短语标注对应的标注概率,获得所述局部损失。
可选地,所述权重模块,用于将所述全局特征图中每个位置的特征值与所述局部特征分别相减,得到局部差值特征;对所述局部差值特征中每个元素计算平方值获得局部联合特征;基于所述局部联合特征,获得显著性权重。
可选地,所述权重模块基于所述局部联合特征,获得显著性权重时,用于基于全连接网络对所述局部联合特征进行处理,得到一个表达所述短语标注与所述样本图像匹配程度的匹配值;对每个所述短语标注对应的全局特征图中每一个位置的匹配值构成的向量进行归一化,得到所述每个短语标注对应的显著性权重。
可选地,所述概率预测模块,用于将所述样本图像特征中对每一个位置的特征值与所述显著性权重相乘,得到对应每个所述短语标注的加权特征向量集合;将所述加权特征向量集合中的向量相加,得到所述短语标注对应所述样本图像中的局部视觉特征;基于所述局部视觉特征获得所述短语标注中每一个单词的预测概率;基于所述短语标注中每一个单词的预测概率确定所述短语标注对应的预测概率。
可选地,所述概率预测模块基于所述局部视觉特征获得所述短语标注中每一个单词的预测概率时,用于将所述短语标注分解成单词序列,将所述局部视觉特征输入长短期记忆网络,确定至少一个隐变量,每个所述单词对应一个特征向量;每一个时刻,前一个时刻的隐变量与当前单词对应的特征向量通过长短期记忆网络相作用获得下一个时刻的隐变量;基于所述至少一个隐变量进行线性映射,得到每一个单词的预测向量;基于所述预测向量得到所述短语标注中每一个单词的预测概率。
可选地,所述概率预测模块基于所述短语标注中每一个单词的预测概率确定所述短语标注对应的预测概率时,用于将所述短语标注中各个单词的预测概率的乘积,作为所述短语标注的预测概率。
可选地,所述损失训练模块,具体用于对所述全局损失和所述局部损失求和,得到和损失;基于所述和损失调整所述特征提取网络的参数。
可选地,所述装置还包括:
身份样本单元,用于将身份样本图像输入所述特征提取网络,得到样本预测特征,所述身份样本图像包括标注识别特征;
预设识别单元,用于经池化层和全连接层对所述样本预测特征进行处理,得到预测识别特征;
参数调整单元,用于基于所述标注识别特征和所述预测识别特征调整所述特征提取网络、所述池化层和所述全连接层的参数。
根据本申请实施例的又一个方面,提供的一种电子设备,包括处理器,所述处理器包括如上任意一项所述的行人再识别装置。
根据本申请实施例的还一个方面,提供的一种电子设备,包括:存储器,用于存储可执行指令;
以及处理器,用于与所述存储器通信以执行所述可执行指令从而完成如上任意一项所述行人再识别方法的操作。
根据本申请实施例的再一个方面,提供的一种计算机可读存储介质,用于存储计算机可读取的指令,所述指令被执行时执行如上任意一项所述行人再识别方法的操作。
根据本申请实施例的再一个方面,提供的一种计算机程序产品,包括计算机可读代码,当所述计算机可读代码在设备上运行时,所述设备中的处理器执行用于实现如上任意一项所述行人再识别方法的指令。
基于本申请上述实施例提供的一种行人再识别方法和装置、电子设备、存储介质、程序产品,通过获取待识别图像和候选图像集;利用特征提取网络对待识别图像和候选图像集中各候选图像进行特征提取,获得待识别图像对应的待识别中间特征和候选图像对应的候选中间特征,特征提取网络经图像特征和语言描述跨模态训练获得;基于待识别中间特征和候选中间特征从候选图像集中获得待识别图像对应的识别结果,识别结果包括至少一个候选图像,通过经过图像特征和语言描述跨模态训练获得的特征提取网络进行行人再识别,利用了图像与描述该图像的语言之间天然的对应关系,以短语重建的方式进一步挖掘局部图片区域与名词短语之间相关性,增强了对图像特征学习的约束,提高了行人再识别视觉特征的质量,进而提高了行人再识别的准确度。
下面通过附图和实施例,对本申请的技术方案做进一步的详细描述。
附图说明
构成说明书的一部分的附图描述了本申请的实施例,并且连同描述一起用于解释本申请的原理。
参照附图,根据下面的详细描述,可以更加清楚地理解本申请,其中:
图1为本申请行人再识别方法一个实施例的流程图。
图2为本申请行人再识别方法一个实施例中步骤130的流程图。
图3为本申请行人再识别方法另一个实施例的流程图。
图4为本申请行人再识别方法另一个实施例中步骤350的流程图。
图5为本申请特征行人再识别方法一个实施例中提取网络的训练的流程图。
图6为本申请实施例中名词短语提取的一个示例流程示意图。
图7为本公开重建短语标注与图像区域之间关联一个示例的结构示意图。
图8为本申请实施例行人再识别装置的一个结构示意图。
图9为适于用来实现本申请实施例的终端设备或服务器的电子设备的结构示意图。
具体实施方式
现在将参照附图来详细描述本申请的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本申请的范围。
同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本申请及其应用或使用的任何限制。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
为了进一步提高特征的判别能力,一些方法开始使用辅助性数据,如:相机编号、人体姿态、行人属性以及红外或深度图像等。这些方法或是需要在测试的过程中依赖额外的设备或模型,如红外、深度相机、姿态估计模型等,增加算法运行价格和时间的成本;或是对辅助数据定义复杂标注格式,如行人属性需要标注者数十项属性进行逐一对照,增加了数据标注的人力成本。针对以上问题,本公开实施例采用自然语言作为辅助训练数据提高图像特征的判别性和可解释性。
图1为本申请行人再识别方法一个实施例的流程图。如图1所示,该实施例方法包括:
步骤110,获取待识别图像和候选图像集。
其中,待识别图像可以为需要进行再识别的行人图像,候选图像集中可以包括至少一个候选图像,本实施例需要从候选图像集中获取与待识别图像匹配的至少一个候选图像。
步骤120,利用特征提取网络对待识别图像和候选图像集中各候选图像进行特征提取,获得待识别图像对应的待识别中间特征和候选图像对应的候选中间特征,其中,特征提取网络经图像特征和语言描述跨模态训练获得。
随着深度神经网络的应用,为了进一步提高特征的判别能力,可使用辅助性数据,本实施例采用自然语言作为辅助训练数据提高图像特征的判别性和可解释性,可选地,通过经图像特征和语言跨模态训练获得的特征提取网络对待识别图像和候选图像集中各候选图像进行特征提取,该经过训练的特征提取网络获得的图像特征编码的效果得到了提升。
步骤130,基于待识别中间特征和候选中间特征从候选图像集中获得待识别图像对应的识别结果。
其中,识别结果包括至少一个候选图像。
基于本申请上述实施例提供的一种行人再识别方法,获取待识别图像和候选图像集;利用特征提取网络对待识别图像和候选图像集中各候选图像进行特征提取,获得待识别图像对应的待识别中间特征和候选图像对应的候选中间特征,特征提取网络经图像特征和语言描述跨模态训练获得;基于待识别中间特征和候选中间特征从候选图像集中获得待识别图像对应的识别结果,识别结果包括至少一个候选图像,通过经过图像特征和语言描述跨模态训练获得的特征提取网络进行行人再识别,利用了图像与描述该图像的语言之间天然的对应关系,以短语重建的方式进一步挖掘局部图片区域与名词短语之间相关性,增强了对图像特征学习的约束,提高了行人再识别视觉特征的质量,进而提高了行人再识别的准确度。
图2为本申请行人再识别方法一个实施例中步骤130的流程图。如图2所示,在一个或多个可选的实施例中,步骤130,可以包括:
步骤1302,待识别中间特征和候选中间特征分别经过平均池化层和全连接层获得待识别特征和候选特征。
本实施例中,通过特征提取网络获得的是中间特征,该中间特征需要进一步经过平均池化和全连接处理后才能得到用于描述待识别图像和候选图像集的视觉特征(待识别特征和候选特征)。
步骤1304,基于待识别特征和候选特征从候选图像集中获得待识别图像对应的识别结果。
在本实施例中,通过计算待识别特征和候选特征之间的相似度,基于相似度的大小即可确定待识别图像的识别结果,实现行人再识别。例如,通过计算待识别特征和候选特征之间的距离(例如:余弦距离、欧式距离等),将该距离作为可确定待识别图像与各候选图像之间的相似度,在其他实施例中,还可以采用其他方式计算相似度,这里不做限定。
图3为本申请行人再识别方法另一个实施例的流程图。如图3所示,在一个或多个可选的实施例中,还包括:
步骤340,基于语言识别网络对与待识别图像相关的描述文字进行特征提取,获得语言特征。
在实际应用过程中,在查找某人(例如:走失儿童等)时,除了提供的图像,还可以辅助以语言描述,通过语言描述内容,可快速筛选去除不符合的识别结果,提高了行人再识别的效率,而语言描述可以是对图像进行整体的描述,还可以是对应图像的至少一个局部的描述。
步骤350,基于语言特征对识别结果进行筛选,获得待识别图像对应的更新识别结果,更新识别结果包括至少一个候选图像。
图4为本申请行人再识别方法另一个实施例中步骤350的流程图。如图2所示,在一个或多个可选的实施例中,步骤350可以包括:
步骤3502,基于语言特征与识别结果对应的至少一个候选中间特征之间的距离进行筛选。
语言描述和图像属于两种不同的表达形式,为了实现基于语言描述对图像进行筛选,需要经过处理,本实施例分别通过语言识别网络和特征提取网络获得相应的语言特征和候选中间特征,以特征之间的距离(例如:欧式距离、余弦距离等)确定语言描述与图像之间的相似度,进而实现基于语言描述对图像的筛选。
步骤3504,获得距离小于或等于预设值的至少一个候选中间特征,将获得的候选中间特征对应的候选图像作为更新识别结果。
在一个或多个可选的实施例中,还包括:
基于语言识别网络对待识别图像相关的至少一个描述词语进行特征提取,获得词语特征,每个描述词语对应待识别图像中的至少一个部分;
在进行行人再识别时,有可能无法获得图像的整体描述词语,只能进行图像中局部的描述词语,例如:对于一个行人,描述其衣着情况,此时,需要通过本实施例中的语言识别网络获得至少一个描述词语对应的词语特征,基于该词语特征对识别结果进行筛选可提高行人再识别的效率。
基于词语特征对识别结果或更新识别结果进行筛选,获得待识别图像对应的目标识别结果,目标识别结果包括至少一个候选图像。
通过词语特征可以对识别结果进行筛选,或对更新识别结果进行筛选,经过词语特征的筛选,实现了基于图像中部分内容的描述对图像进行筛选,更便于基于语言进行图像筛选。
可选地,基于词语特征对识别结果或更新识别结果进行筛选,获得待识别图像对应的目标识别结果,包括:
基于词语特征与识别结果或更新识别结果对应的至少一个候选中间特征之间的距离进行筛选;
可选地,两个候选中间特征之间的距离(例如:欧式距离、余弦距离等)越小说明两个特征对应的词语或图像之间关联度越大,因此,通过候选中间特征之间的距离对识别结果或更新识别结果进行筛选。
获得距离小于或等于预设值的至少一个候选特征,将获得的候选中间特征对应的候选图像作为目标识别结果。
对应待识别图像的描述词语可以包括至少一个,因此,获得的词语特征也包括至少一个,通过候选中间特征与每个词语特征通过距离进行筛选,可实现对行人再识别的提速。
图5为本申请特征行人再识别方法一个实施例中提取网络的训练的流程图。如图5所示,该实施例经图像特征和语言描述跨模态训练获得特征提取网络包括:
步骤510,将样本图像输入特征提取网络,得到样本图像特征。
其中,样本图像包括文字描述标注。
步骤520,基于语言识别网络对文字描述标注进行特征提取,得到样本语言特征。
在一个或多个可选的实施例中,在执行步骤520之前,还可以基于样本文字对语言识别网络进行预训练,样本文字包括标注语言特征,通过预训练,可提高语言识别网络的对文字特征的提取能力,使经过语言识别网络提取的特征能更准确的表达文字的特征,为训练特征提取网络提供更准确的监督信息。
可选地,预训练的过程可以包括:将样本文字输入语言识别网络得到第一预测样本特征;
基于第一预测样本特征和标注语言特征调整语言识别网络的参数。
本实施例所采用的语言识别网络可以是现有技术中的可实现对文字进行特征提取的任意一个神经网络,其具体结构本实施例不做限制,对于该语言识别网络的训练与一般神经网络训练类似,可以包括:基于预测样本特征和标注语言特征获得损失,基于损失利用反向梯度传播调整语言识别网络的参数。
步骤530,基于样本图像特征和样本语言特征,训练特征提取网络。
基于本申请上述实施例,结合描述文字对特征提取网络进行训练,为样本图像提供了更加丰富的标注信息,提高了特征提取网络提取特征的准确度。
可选地,步骤530可以包括:基于样本语言特征和样本图像特征,获得全局相关概率;
基于全局相关概率和样本图像与文字描述标注的相关性,利用二元互熵损失获得全局损失;
基于全局损失训练特征提取网络。
对所获得的全局相关性利用二元互熵损失(Binary Cross-entropy Loss)进行监督,即对图像与语言相关的联合特征使之接近于1,对图像和语言不相关的联合特征使之接近0。
可选地,基于样本语言特征和样本图像特征,获得全局相关概率,可以包括:
将样本图像特征池化后与样本语言特征相减,得到差值特征;
基于差值特征进行逐元素计算平方值获得联合特征;
对联合特征执行归一化处理,得到用于表示全局相关性的全局相关概率。
当样本图像特征Ψ(I)和样本语言特征θg(T)描述同一个目标时(例如:同一个行人),能够通过该目标进行关联,利用判别式的方法对Ψ(I)与θg(T)之间的相关性进行监督学习。监督学习的过程可以为如下步骤:
对Ψ(I)和进行联合表示:对Ψ(I)进行平均池化(average pooling)后获得向量先求两个向量(θg(T)与的差得到差向量,然后对差向量中每一个维度进行逐元素的平方操作,获得联合表示向量(联合特征)
获得可以基于以下公式(1)获得:
其中,表示向量乘法,两个相同的向量进行向量乘法,即该向量的平方。的目的在于表达两个向量的相关性,用于进一步预测两个向量是否相关。
对联合表示向量(联合特征)进行线性映射,并将其映射到(0,1)的范围内,获得Ψ(I)与θg(T)的全局相关性。
在一个或多个可选的实施例中,还包括:
基于语言识别网络对文字描述标注中至少一个短语标注进行特征提取,得到至少一个局部特征,每个短语标注用于描述样本图像中的至少一个区域;
其中,采用的语言识别网络可以是对文字描述标注进行处理得到样本语言特征共享参数的语言识别网络,也可以是不同的语言识别网络,基于语言识别网络分别对短语标注进行特征提取,即可得到与之对应的局部特征,每个局部特征对应样本图像中的一个区域。
基于局部特征和样本图像特征得到局部损失;
网络训练过程中,结合了语言识别网络获得的局部特征,其中,每个局部特征对应样本图像中的一个区域,可选地,利用二元互熵损失获得局部损失。
基于全局损失训练特征提取网络,包括:
基于全局损失和局部损失训练特征提取网络。
对文本内容的提取可包括以下步骤:对与图像相关的一段原始的文字进行预处理。其中,用于训练的原始文字在实际应用中可以从网络中筛选,而在研究中使用网络获得的公开数据集。
可选地,基于所述语言识别网络对文字描述标注进行特征提取,得到局部语言特征之前,还包括:
分割文字描述标注,得到至少一个短语标注,每个短语标注包括至少一个名词。
其中,获得的短语标注对应一个标注概率,每个概率值表示短语标注对应样本图像的概率。
对于描述图片的一整段文字,可以利用自然语言工具包(NLTK)工具将每一句话从该段文字中分割开,对每一句话中的每一个单词进行词性标记,并利用短语分块技术,着重对具有形容词的名字短语和含有由介词连接的多个名词的短语进行筛选。
可选地,分割文字描述标注,得到至少一个短语标注,包括:
对文字描述标注中的每个单词进行词性识别,得到每个单词对应的词性;
基于词性结合预设的短语分块条件,将文字描述标注分割为至少一个短语标注。
图6为本申请实施例中名词短语提取的一个示例流程示意图。如图6所示,对文字描述标注进行词性标注(如:名词、形容词、介词等),对完成标注的词语基于预设规则进行分割,得到至少两个短语标注,对处理完的语言内容进行编码,利用LSTM对全局的语言描述文字和短语标注分别编码,将其映射为特定长度的特征向量,分别标记为θg(T)和θl(P)。
可选地,基于局部语言特征和样本图像特征确定局部损失,包括:
对样本图像特征进行池化操作,得到全局特征图;
基于全局特征图和局部语言特征,获得显著性权重;
基于显著性权重和样本图像特征确定每个短语标注对应的预测概率;
基于预测概率与短语标注对应的标注概率,获得局部损失。
具体地,基于全局特征图和局部语言特征,获得显著性权重,可以包括:将全局特征图中每个位置的特征值与局部特征分别相减,得到局部差值特征;
对局部差值特征中每个元素计算平方值获得局部联合特征;基于局部联合特征,获得显著性权重。
名词短语通常与图片中的每一区域相对应。图7为本公开重建短语标注与图像区域之间关联一个示例的结构示意图。如图7所示。利用重建的方式建立短语标注与图像区域之间的双向映射关系,其过程又分为如下的步骤:
产生显著性权重:中间层特征Ψ(I)通过pooling,减小物体定位的复杂性。针对pooling过后CNN特征图中的每一个位置的特征ψk(In)(灰色图中用红色标记的区域),利用名词短语特征θl(P)与之相作用。
可选地,基于局部联合特征,获得显著性权重,包括:
基于全连接网络对局部联合特征进行处理,得到一个表达短语标注与样本图像匹配程度的匹配值;
对每个短语标注对应的全局特征图中每一个位置的匹配值构成的向量进行归一化,得到每个短语标注对应的显著性权重。
具体地,可包括具体执行步骤包括:(1)对两个向量相减,获得差向量;(2)对差向量中每一个维度的元素进行平方操作,获得一个新的向量;(3)该向量通过全连接网络获得一个样本图像与短语标注匹配程度的标量。(4)针对所有位置产生的标量,利用softmax进行归一化操作使得这些标量的和为一,从而对每一个位置产生数值。该数值为在0和1之间的显著性权重。注意,中间层特征包含每一个位置的特征向量,每一个位置对应的显著性权重即中间层特征的显著性权重。
可选地,基于显著性权重和样本图像特征确定每个短语标注对应的预测概率,包括:
将样本图像特征中每一个位置的特征值与显著性权重相乘,得到对应每个短语标注对应的加权特征向量集合;
将加权特征向量集合中的向量相加,得到短语标注对应样本图像中的局部视觉特征;
基于局部视觉特征获得短语标注中每一个单词的预测概率;
基于短语标注中每一个单词的预测概率确定短语标注对应的预测概率。
获得与名词短语相关的视觉特征:中间层特征Ψ(I)中每一个位置的特征向量根据显著性权重进行加权相乘,得到每一个位置加权后的特征向量,再将所有位置的加权向量相加,获得得针对与给定名词短语相关的某一区域的视觉特征(相关区域的权重会高),该视觉特征的计算公式如公式(2)所示。
其中,r指的是相关性权重,k指的是位置的索引,P是给定的名词短语,I是图片,n是图片的索引。
可选地,基于局部视觉特征获得短语标注中每一个单词的预测概率,包括:
将短语标注分解成单词序列,基于局部视觉特征输入长短期记忆网络,确定至少一个隐变量,每个单词对应一个特征向量;
每一个时刻,前一个时刻的隐变量与当前单词对应的特征向量通过长短期记忆网络相作用获得下一个时刻的隐变量;
基于至少一个隐变量进行线性映射,得到每一个单词的预测向量;
基于预测向量得到短语标注中每一个单词的预测概率。
利用获得的视觉特征对名词短语进行重建:基于长短期记忆网络(LSTM)和线性映射构建短语重建模型。首先输入相关的视觉特征然后通过输入短语中前一个单词来预测短语中后一个单词出现的概率,单词中的概率是通过LSTM中的隐变量进行线性映射一个给定的词汇表并进行softmax归一化获得。其中,第一个和最后一个输入的单词时标记着短语开始和结束的特殊符号,长短期记忆网络中前一个时刻的隐变量与当前单词对应的特征向量通过长短期记忆网络相作用可获得下一个时刻的隐变量。
可选地,基于短语标注中每一个单词的预测概率确定短语标注对应的预测概率,包括:
将短语标注中各个单词的预测概率的乘积,作为短语标注的预测概率。
在一个或多个可选的实施例中,基于全局损失和局部损失训练特征提取网络,包括:
对全局损失和局部损失求和,得到和损失。
由于文字描述标注通过语言识别网络可以获得两个损失,全局损失和局部损失分别对应文字描述标注和标注语句,文字描述标注和标注语句分别对样本图像的整体和局部进行描述,基于和损失进行训练特征提取网络可加快训练速度。
基于和损失调整特征提取网络的参数。
基于全局损失和局部损失的和训练特征提取网络,实现在给定图像和与之对应的描述的情况下,建立描述中的名词短语与图像中部分区域的对应关系的问题。利用所建立的局部对应关系,来进一步约束某一位置的图像特征的编码。
在一个或多个可选的实施例中,还包括:
将身份样本图像输入特征提取网络,得到样本预测特征,身份样本图像包括标注识别特征;
在本实施例中既需要利用目标全局的特征,又需要利用目标特征的空间信息,以便挖掘局部图像的内容。
经池化层和全连接层对样本预测特征进行处理,得到预测识别特征;
可选地,利用经典的CNN网络进行提取,这些网络不但被证明具有很强的目标分类能力,而且在特征提取的过程中保存了部分空间信息,例如:编码衣服和裤子的特征被分别编码在不同位置的特征向量,这种空间信息与实际的物***置存在对应关系,能够提供识别的线索。以ResNet-50为例,对于一个224x224大小的图片,将平均池化(averagepooling)之前的8x4的特征图作为中层特征,标记为Ψ(I),用以和语言特征进行交互.对Ψ(I)进行pooling和全连接映射,获得目标的视觉特征,标记为φ(I)。该特征既编码了高层语义信息,同时也包含了空间位置信息。
基于标注识别特征和预测识别特征调整特征提取网络、池化层和全连接层的参数。
本公开上述实施例旨在利用辅助的语言描述数据增强图像特征编码的质量。其核心发明点在于建立了语言描述与图像特征进行关联的机制,从而使得语言信息能够引导图像特征的学习,使视觉特征侧重于编码具有显著判别意义的图像表观。基于行人的个体类别信息提出了判别式的全局图像与语言的关联策略,将属于同一个体的图像语言联合表示特征与属于不同个体的图像语言联合表示特征相区别。与此同时,上述实施例还利用图像与描述该图像的语言之间天然的对应关系,以短语重建的方式进一步挖掘局部图片区域与名词短语之间相关性,增强对图像特征学习的约束。所提出的技术不仅能够实现提高行人再识别视觉特征质量的目的,而且能够潜在地用于图像和语言跨模态检索和依据名词短语对图像的区域进行检测等任务。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
图8为本申请实施例行人再识别装置的一个结构示意图。该实施例的装置可用于实现本申请上述各方法实施例。如图8所示,该实施例的装置包括:
图像获取单元81,用于获取待识别图像和候选图像集。
特征提取单元82,用于利用特征提取网络对待识别图像和候选图像集中各候选图像进行特征提取,获得待识别图像对应的待识别中间特征和候选图像对应的候选中间特征,特征提取网络经图像特征和语言描述跨模态训练获得。
结果识别单元83,用于基于待识别中间特征和候选中间特征从候选图像集中获得待识别图像对应的识别结果。
识别结果包括至少一个候选图像。
基于本申请上述实施例提供的一种行人再识别装置,利用了图像与描述该图像的语言之间天然的对应关系,以短语重建的方式进一步挖掘局部图片区域与名词短语之间相关性,增强了对图像特征学习的约束,提高了行人再识别视觉特征的质量,进而提高了行人再识别的准确度。
在一个或多个可选的实施例中,结果识别单元83,用于待识别中间特征和候选中间特征分别经过平均池化层和全连接层获得待识别特征和候选特征;基于待识别特征和候选特征从候选图像集中获得待识别图像对应的识别结果。
在一个或多个可选的实施例中,本实施例装置还可以包括:
语言筛选单元,用于基于语言识别网络对与待识别图像相关的描述文字进行特征提取,获得语言特征;基于语言特征对识别结果进行筛选,获得待识别图像对应的更新识别结果,更新识别结果包括至少一个候选图像。
可选地,语言筛选单元在基于语言特征对识别结果进行筛选,获得待识别图像对应的更新识别结果时,用于基于语言特征与识别结果对应的至少一个候选中间特征之间的距离进行筛选;获得距离小于或等于预设值的至少一个候选中间特征,将获得的候选中间特征对应的候选图像作为更新识别结果。
在一个或多个可选的实施例中,本实施例装置还可以包括:
词语筛选单元,用于基于语言识别网络对待识别图像相关的至少一个描述词语进行特征提取,获得词语特征,每个描述词语对应待识别图像中的至少一个部分;基于词语特征对识别结果或更新识别结果进行筛选,获得待识别图像对应的目标识别结果,目标识别结果包括至少一个候选图像。
可选地,词语筛选单元基于词语特征对识别结果或更新识别结果进行筛选,获得待识别图像对应的目标识别结果时,用于基于词语特征与识别结果或更新识别结果对应的至少一个候选中间特征之间的距离进行筛选;获得距离小于或等于预设值的至少一个候选特征,将获得的候选中间特征对应的候选图像作为目标识别结果。
在一个或多个可选的实施例中,本实施例装置还包括:
样本特征提取单元,用于将样本图像输入特征提取网络,得到样本图像特征,样本图像包括文字描述标注;
语言特征提取单元,用于基于语言识别网络对文字描述标注进行特征提取,得到样本语言特征;
网络训练单元,用于基于样本语言特征和样本图像特征,训练特征提取网络。
可选地,网络训练单元,包括:
全局概率模块,用于基于样本语言特征和样本图像特征,获得全局相关概率;
全局损失模块,用于基于全局相关概率和样本图像与文字描述标注的相关性,利用二元互熵损失获得全局损失;
损失训练模块,用于基于全局损失训练特征提取网络。
可选地,全局概率模块,具体用于将样本图像特征池化后与样本语言特征相减,得到差值特征;对差值特征进行逐元素计算平方值获得联合特征;对联合特征执行归一化处理,得到用于表示全局相关性的全局相关概率。
在一个或多个可选的实施例中,本实施例装置还包括:
预训练单元,用于基于样本文字对语言识别网络进行预训练,样本文字包括标注语言特征。
可选地,预训练单元,具体用于将样本文字输入语言识别网络得到第一预测样本特征;基于第一预测样本特征和标注语言特征调整语言识别网络的参数。
可选地,网络训练单元,还包括:
局部特征提取模块,用于基于语言识别网络对文字描述标注中至少一个短语标注进行特征提取,得到至少一个局部特征,每个短语标注用于描述样本图像中的至少一个区域;
局部损失模块,用于基于局部特征和样本图像特征得到局部损失;
损失训练模块,具体用于基于全局损失和局部损失训练特征提取网络。
可选地,网络训练单元,还包括:
短语分割模块,用于分割文字描述标注,得到至少一个短语标注,每个短语标注包括至少一个名词,获得的短语标注对应一个标注概率,每个概率值表示短语标注对应样本图像的概率。
可选地,短语分割模块,具体用于对文字描述标注中的每个单词进行词性识别,得到每个单词对应的词性;基于词性结合预设的短语分块条件,将文字描述标注分割为至少一个短语标注。
可选地,局部损失模块,包括:
池化模块,用于对样本图像特征进行池化操作,得到全局特征图;
权重模块,用于基于全局特征图和局部特征,获得显著性权重;
概率预测模块,用于基于显著性权重和样本图像特征确定每个短语标注对应的预测概率;
局部损失获取模块,用于基于预测概率与短语标注对应的标注概率,获得局部损失。
可选地,权重模块,用于将全局特征图中每个位置的特征值与局部特征分别相减,得到局部差值特征;对局部差值特征中每个元素计算平方值获得局部联合特征;基于局部联合特征,获得显著性权重。
可选地,权重模块基于局部联合特征,获得显著性权重时,用于基于全连接网络对局部联合特征进行处理,得到一个表达短语标注与样本图像匹配程度的匹配值;对每个短语标注对应的全局特征图中每一个位置的匹配值构成的向量进行归一化,得到每个短语标注对应的显著性权重。
在一个或多个可选的实施例中,概率预测模块,用于将样本图像特征中对每一个位置的特征值与显著性权重相乘,得到对应每个短语标注的加权特征向量集合;将加权特征向量集合中的向量相加,得到短语标注对应样本图像中的局部视觉特征;基于局部视觉特征获得短语标注中每一个单词的预测概率;基于短语标注中每一个单词的预测概率确定短语标注对应的预测概率。
可选地,概率预测模块基于局部视觉特征获得短语标注中每一个单词的预测概率时,用于将短语标注分解成单词序列,将局部视觉特征输入长短期记忆网络,确定至少一个隐变量,每个单词对应一个特征向量;每一个时刻,前一个时刻的隐变量与当前单词对应的特征向量通过长短期记忆网络相作用获得下一个时刻的隐变量;基于至少一个隐变量进行线性映射,得到每一个单词的预测向量;基于预测向量得到短语标注中每一个单词的预测概率。
可选地,概率预测模块基于短语标注中每一个单词的预测概率确定短语标注对应的预测概率时,用于将短语标注中各个单词的预测概率的乘积,作为短语标注的预测概率。
在一个或多个可选的实施例中,损失训练模块,具体用于对全局损失和局部损失求和,得到和损失;基于和损失调整特征提取网络的参数。
在一个或多个可选的实施例中,本实施例装置还包括:
身份样本单元,用于将身份样本图像输入特征提取网络,得到样本预测特征,身份样本图像包括标注识别特征;
预设识别单元,用于经池化层和全连接层对样本预测特征进行处理,得到预测识别特征;
参数调整单元,用于基于标注识别特征和预测识别特征调整特征提取网络、池化层和全连接层的参数。
根据本申请实施例的另一个方面,提供的一种电子设备,包括处理器,该处理器包括如上任意一项所述的行人再识别装置。
根据本申请实施例的另一个方面,提供的一种电子设备,包括:存储器,用于存储可执行指令;
以及处理器,用于与该存储器通信以执行所述可执行指令从而完成如上任意一项所述行人再识别方法的操作。
本发明实施例还提供了一种电子设备,例如可以是移动终端、个人计算机(PC)、平板电脑、服务器等。下面参考图9,其示出了适于用来实现本申请实施例的终端设备或服务器的电子设备900的结构示意图:如图9所示,电子设备900包括一个或多个处理器、通信部等,所述一个或多个处理器例如:一个或多个中央处理单元(CPU)901,和/或一个或多个图像处理器(GPU)913等,处理器可以根据存储在只读存储器(ROM)902中的可执行指令或者从存储部分908加载到随机访问存储器(RAM)903中的可执行指令而执行各种适当的动作和处理。通信部912可包括但不限于网卡,所述网卡可包括但不限于IB(Infiniband)网卡,
处理器可与只读存储器902和/或随机访问存储器903中通信以执行可执行指令,通过总线904与通信部912相连、并经通信部912与其他目标设备通信,从而完成本申请实施例提供的任一项方法对应的操作,例如,获取待识别图像和候选图像集;利用特征提取网络对待识别图像和候选图像集中各候选图像进行特征提取,获得待识别图像对应的待识别中间特征和候选图像对应的候选中间特征,其中,特征提取网络经图像特征和语言描述跨模态训练获得;基于待识别中间特征和候选中间特征从候选图像集中获得待识别图像对应的识别结果。
此外,在RAM 903中,还可存储有装置操作所需的各种程序和数据。CPU901、ROM902以及RAM903通过总线904彼此相连。在有RAM903的情况下,ROM902为可选模块。RAM903存储可执行指令,或在运行时向ROM902中写入可执行指令,可执行指令使中央处理单元901执行上述通信方法对应的操作。输入/输出(I/O)接口905也连接至总线904。通信部912可以集成设置,也可以设置为具有多个子模块(例如多个IB网卡),并在总线链接上。
以下部件连接至I/O接口905:包括键盘、鼠标等的输入部分906;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分907;包括硬盘等的存储部分908;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分909。通信部分909经由诸如因特网的网络执行通信处理。驱动器910也根据需要连接至I/O接口905。可拆卸介质911,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器910上,以便于从其上读出的计算机程序根据需要被安装入存储部分908。
需要说明的,如图9所示的架构仅为一种可选实现方式,在具体实践过程中,可根据实际需要对上述图9的部件数量和类型进行选择、删减、增加或替换;在不同功能部件设置上,也可采用分离设置或集成设置等实现方式,例如GPU913和CPU901可分离设置或者可将GPU913集成在CPU901上,通信部可分离设置,也可集成设置在CPU901或GPU913上,等等。这些可替换的实施方式均落入本发明公开的保护范围。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括有形地包含在机器可读介质上的计算机程序,计算机程序包含用于执行流程图所示的方法的程序代码,程序代码可包括对应执行本申请实施例提供的方法步骤对应的指令,例如,获取待识别图像和候选图像集;利用特征提取网络对待识别图像和候选图像集中各候选图像进行特征提取,获得待识别图像对应的待识别中间特征和候选图像对应的候选中间特征,其中,特征提取网络经图像特征和语言描述跨模态训练获得;基于待识别中间特征和候选中间特征从候选图像集中获得待识别图像对应的识别结果。在这样的实施例中,该计算机程序可以通过通信部分909从网络上被下载和安装,和/或从可拆卸介质911被安装。在该计算机程序被中央处理单元(CPU)901执行时,执行本申请的方法中限定的上述功能。
根据本申请实施例的另一个方面,提供的一种计算机可读存储介质,用于存储计算机可读取的指令,该指令被执行时执行如上任意一项所述行人再识别方法的操作。
根据本申请实施例的另一个方面,提供的一种计算机程序产品,包括计算机可读代码,当该计算机可读代码在设备上运行时,设备中的处理器执行用于实现如上任意一项所述行人再识别方法的指令。
可能以许多方式来实现本申请的方法和装置。例如,可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本申请的方法和装置。用于所述方法的步骤的上述顺序仅是为了进行说明,本申请的方法的步骤不限于以上具体描述的顺序,除非以其它方式特别说明。此外,在一些实施例中,还可将本申请实施为记录在记录介质中的程序,这些程序包括用于实现根据本申请的方法的机器可读指令。因而,本申请还覆盖存储用于执行根据本申请的方法的程序的记录介质。
本申请的描述是为了示例和描述起见而给出的,而并不是无遗漏的或者将本申请限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本申请的原理和实际应用,并且使本领域的普通技术人员能够理解本申请从而设计适于特定用途的带有各种修改的各种实施例。

Claims (10)

1.一种行人再识别方法,其特征在于,包括:
获取待识别图像和候选图像集;
利用特征提取网络对所述待识别图像和所述候选图像集中各候选图像进行特征提取,获得所述待识别图像对应的待识别中间特征和所述候选图像对应的候选中间特征,所述特征提取网络经图像特征和语言描述跨模态训练获得;
基于所述待识别中间特征和所述候选中间特征从所述候选图像集中获得所述待识别图像对应的识别结果,所述识别结果包括至少一个所述候选图像。
2.根据权利要求1所述的方法,其特征在于,所述基于所述待识别中间特征和所述候选中间特征从所述候选图像集中获得所述待识别图像对应的识别结果,包括:
所述待识别中间特征和所述候选中间特征分别经过平均池化层和全连接层获得待识别特征和候选特征;
基于所述待识别特征和所述候选特征从所述候选图像集中获得所述待识别图像对应的识别结果。
3.根据权利要求1或2所述的方法,其特征在于,还包括:基于语言识别网络对与所述待识别图像相关的描述文字进行特征提取,获得语言特征;
基于所述语言特征对所述识别结果进行筛选,获得所述待识别图像对应的更新识别结果,所述更新识别结果包括至少一个候选图像。
4.根据权利要求3所述的方法,其特征在于,所述基于所述语言特征对所述识别结果进行筛选,获得所述待识别图像对应的更新识别结果,包括:
基于所述语言特征与所述识别结果对应的至少一个所述候选中间特征之间的距离进行筛选;
获得距离小于或等于预设值的至少一个所述候选中间特征,将获得的所述候选中间特征对应的所述候选图像作为所述更新识别结果。
5.根据权利要求1-4任一所述的方法,其特征在于,还包括:
基于所述语言识别网络对所述待识别图像相关的至少一个描述词语进行特征提取,获得词语特征,每个所述描述词语对应所述待识别图像中的至少一个部分;
基于所述词语特征对所述识别结果或所述更新识别结果进行筛选,获得所述待识别图像对应的目标识别结果,所述目标识别结果包括至少一个所述候选图像。
6.一种行人再识别装置,其特征在于,包括:
图像获取单元,用于获取待识别图像和候选图像集;
特征提取单元,用于利用特征提取网络对所述待识别图像和所述候选图像集中各候选图像进行特征提取,获得所述待识别图像对应的待识别中间特征和所述候选图像对应的候选中间特征,所述特征提取网络经图像特征和语言描述跨模态训练获得;
结果识别单元,用于基于所述待识别中间特征和所述候选中间特征从所述候选图像集中获得所述待识别图像对应的识别结果,所述识别结果包括至少一个候选图像。
7.一种电子设备,其特征在于,包括处理器,所述处理器包括权利要求6所述的行人再识别装置。
8.一种电子设备,其特征在于,包括:存储器,用于存储可执行指令;
以及处理器,用于与所述存储器通信以执行所述可执行指令从而完成权利要求1至5任意一项所述行人再识别方法的操作。
9.一种计算机可读存储介质,用于存储计算机可读取的指令,其特征在于,所述指令被执行时执行权利要求1至5任意一项所述行人再识别方法的操作。
10.一种计算机程序产品,包括计算机可读代码,其特征在于,当所述计算机可读代码在设备上运行时,所述设备中的处理器执行用于实现权利要求1至5任意一项所述行人再识别方法的指令。
CN201810848366.2A 2018-07-27 2018-07-27 行人再识别方法和装置、电子设备、存储介质、程序产品 Active CN109165563B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810848366.2A CN109165563B (zh) 2018-07-27 2018-07-27 行人再识别方法和装置、电子设备、存储介质、程序产品

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810848366.2A CN109165563B (zh) 2018-07-27 2018-07-27 行人再识别方法和装置、电子设备、存储介质、程序产品

Publications (2)

Publication Number Publication Date
CN109165563A true CN109165563A (zh) 2019-01-08
CN109165563B CN109165563B (zh) 2021-03-23

Family

ID=64898549

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810848366.2A Active CN109165563B (zh) 2018-07-27 2018-07-27 行人再识别方法和装置、电子设备、存储介质、程序产品

Country Status (1)

Country Link
CN (1) CN109165563B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109829430A (zh) * 2019-01-31 2019-05-31 中科人工智能创新技术研究院(青岛)有限公司 基于异构层次化注意机制的跨模态行人再识别方法及***
CN110222686A (zh) * 2019-05-27 2019-09-10 腾讯科技(深圳)有限公司 物体检测方法、装置、计算机设备和存储介质
CN110807139A (zh) * 2019-10-23 2020-02-18 腾讯科技(深圳)有限公司 图片识别方法、装置、计算机可读存储介质和计算机设备
CN110807361A (zh) * 2019-09-19 2020-02-18 腾讯科技(深圳)有限公司 人体识别方法、装置、计算机设备及存储介质
CN111259786A (zh) * 2020-01-14 2020-06-09 浙江大学 一种基于视频的外观和运动信息同步增强的行人重识别方法
CN111738186A (zh) * 2020-06-28 2020-10-02 香港中文大学(深圳) 目标定位方法、装置、电子设备及可读存储介质
CN111860100A (zh) * 2020-04-22 2020-10-30 北京嘀嘀无限科技发展有限公司 行人数量的确定方法、装置、电子设备及可读存储介质
CN112052722A (zh) * 2020-07-21 2020-12-08 北京大学 行人身份再识别方法及存储介质
CN112214626A (zh) * 2019-07-09 2021-01-12 北京地平线机器人技术研发有限公司 图像识别方法、装置、可读存储介质及电子设备
CN114494297A (zh) * 2022-01-28 2022-05-13 杭州电子科技大学 处理多种先验知识的自适应视频目标分割方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130343642A1 (en) * 2012-06-21 2013-12-26 Siemens Corporation Machine-learnt person re-identification
CN107480178A (zh) * 2017-07-01 2017-12-15 广州深域信息科技有限公司 一种基于图像与视频跨模态比对的行人重识别方法
US20180060653A1 (en) * 2016-08-26 2018-03-01 Rui Zhang Method and apparatus for annotating a video stream comprising a sequence of frames
CN107766791A (zh) * 2017-09-06 2018-03-06 北京大学 一种基于全局特征和粗粒度局部特征的行人再识别方法及装置
CN107908685A (zh) * 2017-10-31 2018-04-13 西安交通大学 基于迁移学习的多视角商品图像检索与识别方法
CN108228757A (zh) * 2017-12-21 2018-06-29 北京市商汤科技开发有限公司 图像搜索方法和装置、电子设备、存储介质、程序

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130343642A1 (en) * 2012-06-21 2013-12-26 Siemens Corporation Machine-learnt person re-identification
US20180060653A1 (en) * 2016-08-26 2018-03-01 Rui Zhang Method and apparatus for annotating a video stream comprising a sequence of frames
CN107480178A (zh) * 2017-07-01 2017-12-15 广州深域信息科技有限公司 一种基于图像与视频跨模态比对的行人重识别方法
CN107766791A (zh) * 2017-09-06 2018-03-06 北京大学 一种基于全局特征和粗粒度局部特征的行人再识别方法及装置
CN107908685A (zh) * 2017-10-31 2018-04-13 西安交通大学 基于迁移学习的多视角商品图像检索与识别方法
CN108228757A (zh) * 2017-12-21 2018-06-29 北京市商汤科技开发有限公司 图像搜索方法和装置、电子设备、存储介质、程序

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109829430A (zh) * 2019-01-31 2019-05-31 中科人工智能创新技术研究院(青岛)有限公司 基于异构层次化注意机制的跨模态行人再识别方法及***
CN109829430B (zh) * 2019-01-31 2021-02-19 中科人工智能创新技术研究院(青岛)有限公司 基于异构层次化注意机制的跨模态行人再识别方法及***
CN110222686A (zh) * 2019-05-27 2019-09-10 腾讯科技(深圳)有限公司 物体检测方法、装置、计算机设备和存储介质
CN112214626A (zh) * 2019-07-09 2021-01-12 北京地平线机器人技术研发有限公司 图像识别方法、装置、可读存储介质及电子设备
CN112214626B (zh) * 2019-07-09 2024-03-19 北京地平线机器人技术研发有限公司 图像识别方法、装置、可读存储介质及电子设备
CN110807361B (zh) * 2019-09-19 2023-08-08 腾讯科技(深圳)有限公司 人体识别方法、装置、计算机设备及存储介质
CN110807361A (zh) * 2019-09-19 2020-02-18 腾讯科技(深圳)有限公司 人体识别方法、装置、计算机设备及存储介质
CN110807139B (zh) * 2019-10-23 2023-09-01 腾讯科技(深圳)有限公司 图片识别方法、装置、计算机可读存储介质和计算机设备
CN110807139A (zh) * 2019-10-23 2020-02-18 腾讯科技(深圳)有限公司 图片识别方法、装置、计算机可读存储介质和计算机设备
CN111259786A (zh) * 2020-01-14 2020-06-09 浙江大学 一种基于视频的外观和运动信息同步增强的行人重识别方法
CN111259786B (zh) * 2020-01-14 2022-05-03 浙江大学 一种基于视频的外观和运动信息同步增强的行人重识别方法
CN111860100A (zh) * 2020-04-22 2020-10-30 北京嘀嘀无限科技发展有限公司 行人数量的确定方法、装置、电子设备及可读存储介质
CN111860100B (zh) * 2020-04-22 2024-06-07 北京嘀嘀无限科技发展有限公司 行人数量的确定方法、装置、电子设备及可读存储介质
CN111738186A (zh) * 2020-06-28 2020-10-02 香港中文大学(深圳) 目标定位方法、装置、电子设备及可读存储介质
CN111738186B (zh) * 2020-06-28 2024-02-02 香港中文大学(深圳) 目标定位方法、装置、电子设备及可读存储介质
CN112052722A (zh) * 2020-07-21 2020-12-08 北京大学 行人身份再识别方法及存储介质
CN114494297A (zh) * 2022-01-28 2022-05-13 杭州电子科技大学 处理多种先验知识的自适应视频目标分割方法

Also Published As

Publication number Publication date
CN109165563B (zh) 2021-03-23

Similar Documents

Publication Publication Date Title
CN109165563A (zh) 行人再识别方法和装置、电子设备、存储介质、程序产品
CN113283551B (zh) 多模态预训练模型的训练方法、训练装置及电子设备
Conneau et al. Very deep convolutional networks for natural language processing
CN110334354A (zh) 一种中文关系抽取方法
CN108334499A (zh) 一种文本标签标注设备、方法和计算设备
CN110459282A (zh) 序列标注模型训练方法、电子病历处理方法及相关装置
Zhang et al. Discriminative bimodal networks for visual localization and detection with natural language queries
CN111159485B (zh) 尾实体链接方法、装置、服务器及存储介质
CN115115913A (zh) 一种数据处理方法、装置、电子设备及存储介质
CN107220220A (zh) 用于文本处理的电子设备和方法
CN110688489B (zh) 基于交互注意力的知识图谱推演方法、装置和存储介质
CN114092707A (zh) 一种图像文本视觉问答方法、***及存储介质
CN109543181A (zh) 一种基于主动学习和深度学习相结合的命名实体模型和***
CN110232123A (zh) 文本的情感分析方法及其装置、计算设备与可读介质
CN111666376B (zh) 一种基于段落边界扫描预测与词移距离聚类匹配的答案生成方法及装置
CN113220891B (zh) 基于无监督的概念到句子的生成对抗网络图像描述方法
CN112183064A (zh) 基于多任务联合学习的文本情绪原因识别***
CN108345583A (zh) 基于多语注意力机制的事件识别及分类方法及装置
Wang et al. Fabric identification using convolutional neural network
CN115221846A (zh) 一种数据处理方法及相关设备
CN110472062A (zh) 识别命名实体的方法及装置
CN112000778A (zh) 一种基于语义识别的自然语言处理方法、装置和***
Zhao et al. Text-to-remote-sensing-image generation with structured generative adversarial networks
CN108268629A (zh) 基于关键词的图像描述方法和装置、设备、介质、程序
CN115408488A (zh) 用于小说场景文本的分割方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant