CN110766093A - 一种基于多帧特征融合的视频目标重识别方法 - Google Patents
一种基于多帧特征融合的视频目标重识别方法 Download PDFInfo
- Publication number
- CN110766093A CN110766093A CN201911055853.4A CN201911055853A CN110766093A CN 110766093 A CN110766093 A CN 110766093A CN 201911055853 A CN201911055853 A CN 201911055853A CN 110766093 A CN110766093 A CN 110766093A
- Authority
- CN
- China
- Prior art keywords
- target
- feature
- orientation
- fusion
- identifying
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/103—Static body considered as a whole, e.g. static pedestrian or occupant recognition
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于多帧特征融合的视频目标重识别方法,包括以下步骤:获取同一目标的多帧连续图像;按照目标的朝向对所述图像进行分类;对所有图像进行目标特征提取;针对同一朝向的图像进行特征融合和池化得到融合特征;识别待识别目标的朝向,并提取其待识别特征;以待识别特征与对应朝向的融合特征的相似度和朝向的权重因子的乘积作为最终相似度;若最终相似度的最大值大于给定阈值,则识别成功,输出该最终相似度的最大值对应的目标为重识别结果,否则识别失败。本发明对目标进行了时间轴上的相关性关联,并解决了目标不同朝向的匹配问题。
Description
技术领域
本发明涉及图像识别技术领域,尤其涉及一种基于多帧特征融合的视频目标重识别方法。
背景技术
在普通视频中搜索特定行人是一个迫切需要解决的问题,特别是在案件侦查时用来搜索嫌疑目标。通常由于视频中行人目标较小造成行人图像区域的分辨率低,无法通过人脸识别的方法进行认证,基于人体外观特征的行人重识别方法也因此得到了广泛研究,但当前方法大多集中在抽取图像特征上,存在以下缺点:
1、视频具有时间连续性,基于图片的特征提取方法忽略了时间轴上的连续特征,对特征提取不够准确;
2、同一个行人在视频中会处于不同的朝向,不同朝向对最终的识别会有较大影响。
发明内容
本发明的目的在于提供一种基于多帧特征融合的视频目标重识别方法,对目标进行了时间轴上的相关性关联,并解决了目标不同朝向的匹配问题。
为实现上述目的,本发明提供如下技术方案:
一种基于多帧特征融合的视频目标重识别方法,其特征在于,包括以下步骤:
S1,获取同一目标的多帧连续图像;
S2,按照目标的朝向对所述图像进行分类;
S3,对所有图像进行目标特征提取;
S4,针对同一朝向的图像进行特征融合和池化得到融合特征;
S5,识别待识别目标的朝向,并按S3和S4提取其待识别特征;
S6,以待识别特征与对应朝向的融合特征的相似度和朝向的权重因子的乘积作为最终相似度;
S7,若最终相似度的最大值大于给定阈值,则识别成功,输出该最终相似度的最大值对应的目标为重识别结果,否则识别失败。
进一步的,所述S2中朝向的分类采用深度神经网络模型。
进一步的,所述S2中还包括深度神经网络模型的训练,采用经人工标记了朝向的图片作为样本训练深度神经网络模型。
进一步的,所述S3中目标特征的提取采用CNN网络。
进一步的,所述S4特征融合采用RNN网络,采用当前时刻输入的目标特征和上一时刻RNN网络的特征向量的线性组合作为输出,具体为:
o(t)=Wif(t)+Wsr(t-1)
r(t)=Tanh(o(t))
其中,o(t)为RNN网络在当前时刻t的输出;Wi和Ws为权重系数;f(t)为当前时刻t输入的目标特征;r(t-1)为RNN网络上一时刻t-1的特征向量;Tanh(·)为激励函数。
进一步的,所述池化为平均池化:
其中,Vy为融合特征,T为时长。
进一步的,所述S6中最终相似度的计算具体如下:
So=wS(Vx,Vy)
其中,Vx为待识别特征;Vy为融合特征;S(·)为相似度计算函数;w为朝向的权重因子,w∈W,W={ws,wd,wn},ws为Vx和Vy朝向相同的权重因子,wd为Vx和Vy朝向相反的权重因子,wn为Vx和Vy朝向相邻的权重因子;So为最终相似度。
进一步的,所述权重因子的取值为ws=[0.8,0.9],wd=[0.4,0.5],wn=[0.55,0.65]。
进一步的,所述给定阈值为0.6。
与现有技术相比,本发明的有益效果是:本发明将人体分为四个朝向,根据不同朝向设置相应的权重因子,解决了目标不同朝向的匹配问题;另一方面,在多帧特征融合的时候,先以朝向为依据进行分类,对统一朝向的特征进行了时序上的融合,实现了目标在时间轴上的相关性关联。
附图说明
图1为本发明的整体方法流程图。
图2为RNN网络模型图。
具体实施方式
下面对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,本发明提供一种基于多帧特征融合的视频目标重识别方法,包括以下步骤:
S1,获取同一目标的多帧连续图像;
S2,按照目标的朝向对所述图像进行分类获得相应的朝向信息;
具体的,本发明将目标的姿态分为四个朝向,分别为正面、背面、右侧和左侧。分类算法采用事先训练好的深度神经网络模型。所述深度神经网络模型的训练,采用经人工标记了朝向的图片作为样本训练深度神经网络模型。由此将S1中的多帧连续图像按照目标的朝向分成多类,每一类对应一个朝向。
S3,对所有图像进行目标特征提取,优选采用CNN网络。
用i(t)表示t时刻的图像。将i(t)输入CNN网络,经过计算后输出的目标特征表示为f(t)=C(i(t))。
S4,针对同一朝向的图像进行特征融合和池化得到融合特征。
具体的,特征融合采用RNN网络且仅在同一个朝向的图像进行融合,避免朝向不同造成的特征不稳定。如图2所示,采用当前时刻输入的目标特征和上一时刻RNN网络的特征向量的线性组合作为输出,具体为:
o(t)=Wif(t)+Wsr(t-1)
r(t)=Tanh(o(t))
其中,o(t)为RNN网络在当前时刻t的输出;Wi和Ws为权重系数;f(t)为当前时刻t输入的目标特征;r(t-1)为RNN网络上一时刻t-1的特征向量;Tanh(·)为激励函数。
经RNN网络融合后,还需要进行池化操作,具体为平均池化:
其中,Vy为最终得到的融合特征,T为时长。
由此,针对S2分类的每一个朝向的图像集,皆有一个对应的融合特征Vy,构成融合特征集合。
S5,识别待识别目标的朝向,并按S3和S4提取其待识别特征;
具体的,对给定的待识别目标,先根据S2训练好的深度神经网络模型进行朝向识别。再按照S3和S4的步骤,将待识别目标输入CNN网络,得到其待识别特征Vx。
S6,以待识别特征与对应朝向的融合特征的相似度和朝向的权重因子的乘积作为最终相似度;
具体的,所述最终相似度的计算具体如下:
So=wS(Vx,Vy)
其中,Vx为待识别特征;Vy为融合特征;S(·)为相似度计算函数,具体为余弦距离;w为朝向的权重因子,w∈W,W={ws,wd,wn},ws为Vx和Vy朝向相同的权重因子,wd为Vx和Vy朝向相反的权重因子,wn为Vx和Vy朝向相邻的权重因子;So为最终相似度。优选的,所述权重因子的取值为ws=[0.8,0.9],wd=[0.4,0.5],wn=[0.55,0.65]。具体为ws=0.85,wd=0.45,wn=0.6。
值得一提的是所述朝向的相互关系如下:以正面为例,与其相反的朝向为背面,与其相邻的朝向为左侧和右侧。
S7,若最终相似度的最大值大于给定阈值0.6,则识别成功,输出该最终相似度的最大值对应的目标为重识别结果,否则识别失败。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。
Claims (9)
1.一种基于多帧特征融合的视频目标重识别方法,其特征在于,包括以下步骤:
S1,获取同一目标的多帧连续图像;
S2,按照目标的朝向对所述图像进行分类;
S3,对所有图像进行目标特征提取;
S4,针对同一朝向的图像进行特征融合和池化得到融合特征;
S5,识别待识别目标的朝向,并按S3和S4提取其待识别特征;
S6,以待识别特征与对应朝向的融合特征的相似度和朝向的权重因子的乘积作为最终相似度;
S7,若最终相似度的最大值大于给定阈值,则识别成功,输出该最终相似度的最大值对应的目标为重识别结果,否则识别失败。
2.根据权利要求1所述的基于多帧特征融合的视频目标重识别方法,其特征在于,所述S2中朝向的分类采用深度神经网络模型。
3.根据权利要求2所述的基于多帧特征融合的视频目标重识别方法,其特征在于,所述S2中还包括深度神经网络模型的训练,采用经人工标记了朝向的图片作为样本训练深度神经网络模型。
4.根据权利要求1所述的基于多帧特征融合的视频目标重识别方法,其特征在于,所述S3中目标特征的提取采用CNN网络。
5.根据权利要求1所述的基于多帧特征融合的视频目标重识别方法,其特征在于,所述S4特征融合采用RNN网络,采用当前时刻输入的目标特征和上一时刻RNN网络的特征向量的线性组合作为输出,具体为:
o(t)=Wif(t)+Wsr(t-1)
r(t)=Tanh(o(t))
其中,o(t)为RNN网络在当前时刻t的输出;Wi和Ws为权重系数;f(t)为当前时刻t输入的目标特征;r(t-1)为RNN网络上一时刻t-1的特征向量;Tanh(·)为激励函数。
7.根据权利要求1所述的基于多帧特征融合的视频目标重识别方法,其特征在于,所述S6中最终相似度的计算具体如下:
So=wS(Vx,Vy)
其中,Vx为待识别特征;Vy为融合特征;S(·)为相似度计算函数;w为朝向的权重因子,w∈W,W={ws,wd,wn},ws为Vx和Vy朝向相同的权重因子,wd为Vx和Vy朝向相反的权重因子,wn为Vx和Vy朝向相邻的权重因子;So为最终相似度。
8.根据权利要求7所述的基于多帧特征融合的视频目标重识别方法,其特征在于,所述权重因子的取值为ws=[0.8,0.9],wd=[0.4,0.5],wn=[0.55,0.65]。
9.根据权利要求1所述的基于多帧特征融合的视频目标重识别方法,其特征在于,所述给定阈值为0.6。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911055853.4A CN110766093A (zh) | 2019-10-31 | 2019-10-31 | 一种基于多帧特征融合的视频目标重识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911055853.4A CN110766093A (zh) | 2019-10-31 | 2019-10-31 | 一种基于多帧特征融合的视频目标重识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110766093A true CN110766093A (zh) | 2020-02-07 |
Family
ID=69335446
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911055853.4A Pending CN110766093A (zh) | 2019-10-31 | 2019-10-31 | 一种基于多帧特征融合的视频目标重识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110766093A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110909210A (zh) * | 2020-02-18 | 2020-03-24 | 北京海天瑞声科技股份有限公司 | 视频筛选方法、装置及存储介质 |
CN111444817A (zh) * | 2020-03-24 | 2020-07-24 | 咪咕文化科技有限公司 | 一种人物图像识别方法、装置、电子设备和存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106709449A (zh) * | 2016-12-22 | 2017-05-24 | 深圳市深网视界科技有限公司 | 一种基于深度学习和强化学习的行人重识别方法及*** |
CN107767416A (zh) * | 2017-09-05 | 2018-03-06 | 华南理工大学 | 一种低分辨率图像中行人朝向的识别方法 |
CN109145777A (zh) * | 2018-08-01 | 2019-01-04 | 北京旷视科技有限公司 | 车辆重识别方法、装置及*** |
CN109784130A (zh) * | 2017-11-15 | 2019-05-21 | 株式会社日立制作所 | 行人重识别方法及其装置和设备 |
-
2019
- 2019-10-31 CN CN201911055853.4A patent/CN110766093A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106709449A (zh) * | 2016-12-22 | 2017-05-24 | 深圳市深网视界科技有限公司 | 一种基于深度学习和强化学习的行人重识别方法及*** |
CN107767416A (zh) * | 2017-09-05 | 2018-03-06 | 华南理工大学 | 一种低分辨率图像中行人朝向的识别方法 |
CN109784130A (zh) * | 2017-11-15 | 2019-05-21 | 株式会社日立制作所 | 行人重识别方法及其装置和设备 |
CN109145777A (zh) * | 2018-08-01 | 2019-01-04 | 北京旷视科技有限公司 | 车辆重识别方法、装置及*** |
Non-Patent Citations (2)
Title |
---|
HAO LIU等: ""Video-Based Person Re-Identification With Accumulative Motion Context"", 《IEEE TRANSACTIONS ON CIRCUITS AND SYSTEMS FOR VIDEO TECHNOLOGY》 * |
罗浩 等: ""基于深度学习的行人重识别研究进展"", 《自动化学报》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110909210A (zh) * | 2020-02-18 | 2020-03-24 | 北京海天瑞声科技股份有限公司 | 视频筛选方法、装置及存储介质 |
CN111444817A (zh) * | 2020-03-24 | 2020-07-24 | 咪咕文化科技有限公司 | 一种人物图像识别方法、装置、电子设备和存储介质 |
CN111444817B (zh) * | 2020-03-24 | 2023-07-07 | 咪咕文化科技有限公司 | 一种人物图像识别方法、装置、电子设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108830252B (zh) | 一种融合全局时空特征的卷积神经网络人体动作识别方法 | |
CN107832672B (zh) | 一种利用姿态信息设计多损失函数的行人重识别方法 | |
CN108520226B (zh) | 一种基于躯体分解和显著性检测的行人重识别方法 | |
CN106709449B (zh) | 一种基于深度学习和强化学习的行人重识别方法及*** | |
Wang et al. | Static and moving object detection using flux tensor with split Gaussian models | |
CN107563345B (zh) | 一种基于时空显著性区域检测的人体行为分析方法 | |
CN109101865A (zh) | 一种基于深度学习的行人重识别方法 | |
Pigou et al. | Gesture and sign language recognition with temporal residual networks | |
JP5675229B2 (ja) | 画像処理装置及び画像処理方法 | |
Wu et al. | A detection system for human abnormal behavior | |
CN109961051A (zh) | 一种基于聚类和分块特征提取的行人重识别方法 | |
CN110717411A (zh) | 一种基于深层特征融合的行人重识别方法 | |
Damen et al. | Detecting carried objects from sequences of walking pedestrians | |
CN107767416B (zh) | 一种低分辨率图像中行人朝向的识别方法 | |
CN113963032A (zh) | 一种融合目标重识别的孪生网络结构目标跟踪方法 | |
WO2013075295A1 (zh) | 低分辨率视频的服装识别方法及*** | |
CN115527269B (zh) | 一种人体姿态图像智能识别方法及*** | |
CN111539351A (zh) | 一种多任务级联的人脸选帧比对方法 | |
CN111126143A (zh) | 一种基于深度学习的运动评判指导方法及*** | |
Zhou et al. | A study on attention-based LSTM for abnormal behavior recognition with variable pooling | |
CN112784712A (zh) | 一种基于实时监控的失踪儿童预警实现方法、装置 | |
CN110766093A (zh) | 一种基于多帧特征融合的视频目标重识别方法 | |
Liang et al. | Egocentric hand pose estimation and distance recovery in a single RGB image | |
CN112560618A (zh) | 基于骨架和视频特征融合的行为分类方法 | |
Konstantinidis et al. | Skeleton-based action recognition based on deep learning and Grassmannian pyramids |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200207 |
|
RJ01 | Rejection of invention patent application after publication |