CN110111351B - 融合rgbd多模态信息的行人轮廓跟踪方法 - Google Patents
融合rgbd多模态信息的行人轮廓跟踪方法 Download PDFInfo
- Publication number
- CN110111351B CN110111351B CN201910389276.6A CN201910389276A CN110111351B CN 110111351 B CN110111351 B CN 110111351B CN 201910389276 A CN201910389276 A CN 201910389276A CN 110111351 B CN110111351 B CN 110111351B
- Authority
- CN
- China
- Prior art keywords
- pedestrian
- rgb
- image
- confidence map
- target segmentation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/12—Edge-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/13—Edge detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/194—Segmentation; Edge detection involving foreground-background segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10024—Color image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10028—Range image; Depth image; 3D point clouds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20112—Image segmentation details
- G06T2207/20116—Active contour; Active surface; Snakes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种融合RGBD多模态信息的行人轮廓跟踪方法,构建包含RGB目标分割卷积网络模块、Depth目标分割卷积网络模块、特征图叠加模块、卷积模块和置信图融合模块的行人目标置信图获取模型,采用训练样本对行人目标置信图获取模型进行训练,在实际应用时,将RGB图像与Depth图像分别输入行人目标置信图,将得到的融合置信图作为引导主动轮廓进化的外部能量来获取目标轮廓。本发明引入了Depth图像作为输入,可以有效提高在背景光线不足或目标表观与背景表观相似的跟踪场景下的行人轮廓跟踪效果。
Description
技术领域
本发明属于计算机视觉技术领域,更为具体地讲,涉及一种融合RGBD多模态信息的行人轮廓跟踪方法。
背景技术
作为计算机视觉研究领域中极具重要意义的视觉任务之一,目标跟踪包含模式识别、图像处理等先进技术。目标跟踪任务的内容为根据给定视频序列指定帧中所感兴趣目标的位置信息,依次在后续连续帧中将目标找出并给出其位置信息。近年来,随着计算机学科技术的不断发展且生活与工作中越来越多的实际应用需求,目标跟踪算法的研究已经成为计算机视觉领域的一个大热点。
在目前的目标跟踪算法中,绝大多数成熟的跟踪算法都是基于RGB彩色图像的,一是因为目前的RGB图像成像技术是最成熟的,无论是手机或是相机都可以轻松获取大量质量很好的图像,也正是因为如此基于RGB彩色图像的视觉数据集也是极为丰富的,其次是因为在RGB图像上携带了足够丰富的信息,如可以在RGB图像上提取如彩色直方图、HOG、LBP等多种特征信息,这也是其成为视觉任务主要数据来源的最重要原因之一。然而,尽管其拥有如此多的优点,但在现实场景中也存在仅依赖RGB图像无法解决的问题,如在RGB图像中目标物体与背景表观比较相似或是环境光线较暗等等情况。为了弥补单一的RGB图像信息带来的跟踪效果不足,目前很多的跟踪算法也已经引入了如光流图或Depth(深度)图像来作为RGB图像的补充以提高跟踪效果。
Depth图像与RGB彩色图像不同,Depth图像从直观上看是一种记录距离数据的图像,其图片每个像素值记录的是成像物体每个位置到摄像头的距离。Depth图像一般为16位单通道图像,其显示效果和常见的单通道灰度图一样,视觉上成像物体离摄像头越近,Depth图像的像素值越小所以灰度显示越暗,离摄像头越远像素值越大灰度显示越亮。由于Depth图像具有不受光照变化影响且只与距离有关等特性,在一些特定的跟踪场景中如环境光线微弱,背景与目标表观相近等场景,融合Depth图像可以帮助解决由于RGB图像表观信息失效而导致跟踪效果变差的问题。
在目标的跟踪形式上,主要分为基于boundingbox(目标包围框)的跟踪与基于轮廓的跟踪。所谓的基于boundingbox的跟踪即在跟踪目标上使用矩形框或椭圆形框进行跟踪目标的表达,该种跟踪方式较为简单,但形态固定,对于非刚性目标的表达缺乏灵活性。而对于轮廓的跟踪方式,其是对于目标形体边缘的跟踪,该种跟踪方式需要进行较为复杂的数学计算,但它对于非刚性目标的表达确实十分灵活,能够详细的提供目标形态的信息以及变化,是十分具有意义的跟踪方式。就目前而言,如何将Depth图像融入轮廓跟踪中还是一个有待解决的技术问题。
发明内容
本发明的目的在于克服现有技术的不足,提供一种融合RGBD多模态信息的行人轮廓跟踪方法,结合使用RGB图像与Depth图像,提高在背景光线不足或目标表观与背景表观相似的跟踪场景下的行人轮廓跟踪效果。
为实现上述发明目的,本发明融合RGBD多模态信息的行人轮廓跟踪方法包括以下步骤:
S1:构建行人目标置信图获取模型,包括RGB目标分割卷积网络模块,Depth目标分割卷积网络模块,特征图叠加模块,卷积模块和置信图融合模块,其中:
RGB目标分割卷积网络模块以RGB图像作为输入,输出为行人目标分割的置信图TRGB,将最后一层特征图FRGB输出至特征图叠加模块,将置信图TRGB输出至融合模块;
Depth目标分割卷积网络模块以RGB图像对应的Depth图像作为输入,输出为行人目标分割的置信图TDepth,将最后一层特征图FDepth输出至特征图叠加模块,将置信图TDepth输出至融合模块;
特征图叠加模块对特征图FRGB和特征图FDepth进行叠加,得到特征图FSW并输出至卷积模块;
卷积模块用于对特征图FSW进行卷积操作,得到概率转换图SW并输出至融合模块,其中卷积操作表达式如下:
SW=h(WSW*FSW+bSW)
其中,WSW和bSW分别为1*1卷积核的权重参数和偏置项权重参数,h(·)表示激活函数;
置信图融合模块根据概率转换图SW,对接收的置信图TRGB、置信图TDepth进行融合,得到融合后的置信图Tfused,其中融合操作表达式如下:
Tfused=SW⊙TRGB+(1-SW)⊙TDepth
其中,⊙表示对应元素相乘;
S2:获取若干训练样本,每个训练样本包括包含行人目标的RGB图像、对应Depth图像以及行人目标分割标签,行人目标分割标签用于表征各个像素是属于行人目标还是背景;
S3:对行人目标置信图获取模型采用以下方法进行训练:
S3.1:采用训练样本中的RGB图像作为输入,对RGB目标分割卷积网络模块进行训练,训练过程中对输出的置信图采用阈值法获取行人目标分割结果,与行人目标分割标签进行误差计算;
S3.2:采用训练样本中的Depth图像作为输入,对Depth目标分割卷积网络模块进行训练,训练过程中对输出的置信图采用阈值法获取行人目标分割结果,与行人目标分割标签进行误差计算;
S3.3:将行人目标置信图获取模型中RGB目标分割卷积网络模块按照步骤S3.1的训练结果进行初始化,Depth目标分割卷积网络模块按照步骤S3.2的训练结果进行初始化,采用训练样本中的RGB图像作为RGB目标分割卷积网络模块的输入,对应的Depth图像作为Depth目标分割卷积网络模块的输入,对行人目标置信图获取模型进行训练,训练过程中对输出的融合置信图采用阈值法获取出行人目标分割结果,与行人目标分割标签进行误差计算;
S4:获取行人视频序列,手工标定第一帧图像中行人的轮廓,然后对于后续图像,将RGB图像和对应的Depth图像输入行人目标置信图获取模型,得到融合置信图,将融合置信图作为轮廓演化的外部能量输入引导轮廓进行演化,得到当前图像行人轮廓跟踪结果。
本发明融合RGBD多模态信息的行人轮廓跟踪方法,构建包含RGB目标分割卷积网络模块、Depth目标分割卷积网络模块、特征图叠加模块、卷积模块和置信图融合模块的行人目标置信图获取模型,采用训练样本对行人目标置信图获取模型进行训练,在实际应用时,将RGB图像与Depth图像分别输入行人目标置信图,将得到的融合置信图作为引导主动轮廓进化的外部能量来获取目标轮廓。本发明引入了Depth图像作为输入,可以有效提高在背景光线不足或目标表观与背景表观相似的跟踪场景下的行人轮廓跟踪效果。
附图说明
图1是本发明融合RGBD多模态信息的行人轮廓跟踪方法的具体实施方式流程图;
图2是本发明中行人目标置信图获取模型的结构图;
图3是本实施例中OSVOS网络结构图;
图4是本实施例中基于OSVOS网络的行人目标置信图获取模型的结构图;
图5是本实施例中Depth图像转换为RGB图像的示例图;
图6是本实施例中行人目标置信图获取模型在线更新的流程图;
图7是本实施例中本发明与三种对比方法对行人视频序列1的行人轮廓跟踪结果对比图;
图8是本实施例中本发明与三种对比方法对行人视频序列1的行人目标与真实行人目标的区域相似度曲线对比图;
图9是本实施例中本发明与三种对比方法对行人视频序列1的行人轮廓跟踪结果与真实行人轮廓的精度曲线对比图;
图10是本实施例中本发明与三种对比方法对行人视频序列2的行人轮廓跟踪结果对比图;
图11是本实施例中本发明与三种对比方法对行人视频序列2的行人目标与真实行人目标的区域相似度曲线对比图;
图12是本实施例中本发明与三种对比方法对行人视频序列2的行人轮廓跟踪结果与真实行人轮廓的精度曲线对比图。
具体实施方式
下面结合附图对本发明的具体实施方式进行描述,以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是,在以下的描述中,当已知功能和设计的详细描述也许会淡化本发明的主要内容时,这些描述在这里将被忽略。
实施例
图1是本发明融合RGBD多模态信息的行人轮廓跟踪方法的具体实施方式流程图。如图1所示,本发明融合RGBD多模态信息的行人轮廓跟踪方法的具体步骤包括:
S101:构建行人目标置信图获取模型:
图2是本发明中行人目标置信图获取模型的结构图。如图2所示,本发明中行人目标置信图获取模型包括RGB目标分割卷积网络模块、Depth目标分割卷积网络模块、特征图叠加模块、卷积模块和置信图融合模块,下面分别对各个模块进行详细说明。
RGB目标分割卷积网络模块以RGB图像作为输入,输出为行人目标分割的置信图TRGB,将最后一层特征图FRGB输出至特征图叠加模块,将置信图TRGB输出至融合模块。
Depth目标分割卷积网络模块以RGB图像对应的Depth图像作为输入,输出为行人目标分割的置信图TDepth,将最后一层特征图FDepth输出至特征图叠加模块,将置信图TDepth输出至融合模块。
特征图叠加模块对特征图FRGB和特征图FDepth进行叠加,得到特征图FSW并输出至卷积模块。
卷积模块用于对特征图FSW进行卷积操作,得到概率转换图SW并输出至融合模块,其中卷积操作表达式如下:
SW=h(WSW*FSW+bSW)
其中,WSW和bSW分别为1*1卷积核的权重参数和偏置项权重参数,h(·)表示激活函数,本实施例中采用Sigmoid函数。
在本实施例中,概率转换图SW为一个单通道的图像,其像素值在[0,1],其在融合中起到了权衡RGB图像的置信图与Depth图像置信图的决策作用。
置信图融合模块根据概率转换图SW,对接收的置信图TRGB、置信图TDepth进行融合,得到融合后的置信图Tfused,其中融合操作表达式如下:
Tfused=SW⊙TRGB+(1-SW)⊙TDepth
其中,⊙表示对应元素相乘。
本实施例在根据置信图Tfused获取目标分割结果时采用阈值法,即置信图Tfused的像素值大于预设阈值,则将其作为行人目标,否则不作为行人目标。
在本发明中,RGB目标分割卷积网络模块和Depth目标分割卷积网络模块的性能对于本发明的行人轮廓跟踪结果的优劣影响较大,因此在实际应用中,可以根据需要优选目标分割卷积网络。经过多方比较和研究,本实施例中优选OSVOS(One-Shot Video ObjectSegmentation,单镜头视频对象分割)网络作为目标分割卷积网络。OSVOS网络是一种基于深度学习的目标分割网络,基于FCN(Fully Convolutional Networks,全卷积神经网络)框架,可以将学习到的信息转移到通用语义信息,实现前景分割。图3是本实施例中OSVOS网络结构图。如图3所示,OSVOS网络包括5组用于提取特征的卷积组(conv1~conv5)和一层用于融合所有叠加特征图的融合卷积层(conv final),卷积组conv2~conv5输出的特征图经上采样后进行叠加输入融合卷积层,叠加得到的51通道特征图即为最后一层特征图,以两幅51通道特征图经特征图叠加模块叠加后即可形成102通道的特征图,融合卷积层(convfinal)的输出的即为置信图。OSVOS网络的具体结构和工作过程可以参见文献“One-ShotVideo Object Segmentation,S.Caelles,K.K.Maninis,J.Pont-Tuset,L.Leal-Taixé,D.Cremers,and L.Van Gool,Computer Vision and Pattern Recognition(CVPR),2017”。
图4是本实施例中基于OSVOS网络的行人目标置信图获取模型的结构图。如图4所示,将RGB图像和Depth图像分别输入一个OSVOS网络,将置信图输出至卷积模块Conv-sw得到概率转换图SW,将最后一层特征图输入至置信图融合模块fuse,由置信图融合模块fuse进行融合操作得到融合置信图。
由于目前的OSVOS网络主要针对RGB三通道图像,而Depth目标分割卷积网络模块的输入为单通道的Depth图像,因此本实施例中,需要将单通道的Depth图像转换成三通道的图像,具体方法为:
首先对Depth图像进行空洞填充。这是因为Kinect等Depth图像采集设备的成像原理原因,导致所获取的Depth图像有的像素值为无效距离值0,从直观的视觉上看是一片黑色的空洞区域,而大面积的空洞区域对于Depth图像的使用是存在严重影响的,因此需要进行空洞的填充。本实施例在Depth图像的空洞填充处理上使用的是NYU Depth分割数据集工具箱中所提供的空洞填充方法,其原理是基于Anat Levin等人提出的着色化方法(Colorization using optimization),其具体过程在此不再赘述。
然后对空洞填充后的Depth图像进行编码,生成三通道的RGB图像。本实施例中使用Jet colormap的编码方式来对Depth图像进行编码,将其转换为RGB图像。Colormap(色图)是一个m*3的实数矩阵,每一行定义的是一种颜色的RGB向量,而Jet colormap则表示从蓝到红,中间经过青绿、黄和橙色,故通过将Depth图像中不同深度值对应到Jet colormap中逐渐变化的颜色以表示逐渐变化的深度距离,如蓝代表近处,然后随着深度的增加,相应对应的色图颜色也逐渐增加变化,最终到由红色代表的最远处。这种编码方式同时兼顾了深度信息有效性和计算效率,是一种整体较为均衡的编码方式。
图5是本实施例中Depth图像转换为RGB图像的示例图。如图5所示,经过空洞填充和编码,就可以将Depth图像转换为RGB图像,该RGB图像与训练样本中原始的RGB图像不同,该RGB图像仅是采用RGB编码来表示深度信息。
S102:获取训练样本:
获取若干训练样本,每个训练样本包括包含行人目标的RGB图像、对应Depth图像以及行人目标分割标签,行人目标分割标签用于表征各个像素是属于行人目标还是背景,是一幅二值图像。训练样本可以在现有通用样本库中选取,也可以自行获取。
S103:行人目标置信图获取模型训练:
接下来需要对行人目标置信图获取模型进行训练。由于本发明中行人目标置信图获取模型采用了双通道结构模型,为了获取更好的性能,不宜直接进行端到端的训练,而是需要分步进行,即采用“先部分后整体”的训练模式,具体方法如下:
S3.1:RGB目标分割卷积网络模块训练:
采用训练样本中的RGB图像作为输入,对RGB目标分割卷积网络模块进行训练,训练过程中对输出的置信图采用阈值法获取行人目标分割结果,与行人目标分割标签进行误差计算。
S3.2:Depth目标分割卷积网络模块训练:
采用训练样本中的Depth图像作为输入,对Depth目标分割卷积网络模块进行训练,同样地,训练过程中对输出的置信图采用阈值法获取行人目标分割结果,与行人目标分割标签进行误差计算。
由于本实施例中两个目标分割卷积网络采用OSVOS网络,由于基础网络参数能够直接获取,所以基础网络的训练阶段则可以省略而直接对两个使用不同输入信息的单通道网络模型分别进行训练,它们卷积层的参数都可以直接从已训练好的基础网络中迁移过来。每个OSVOS需要经过三个阶段,具体参数为:学习策略选择step,即在迭代达到一定次数时将学习率按照给定的gamma值进行降低;基础学习率设为10-8;gamma衰减率为0.1;stepsize为衰减步长,设为10000;weightdecay权值衰减率设为0.0002;itersize为10,即每次迭代同时送入10张图片进行训练。
S3.3:整体训练:
将行人目标置信图获取模型中RGB目标分割卷积网络模块按照步骤S3.1的训练结果进行初始化,Depth目标分割卷积网络模块按照步骤S3.2的训练结果进行初始化,采用训练样本中的RGB图像作为RGB目标分割卷积网络模块的输入,对应的Depth图像作为Depth目标分割卷积网络模块的输入,对行人目标置信图获取模型进行训练,同样地,训练过程中对输出的融合置信图采用阈值法获取行人目标分割结果,与行人目标分割标签进行误差计算。
本实施例中行人目标置信图获取模型卷积层参数值初始化为0,练迭代次数为20000次。
为了实现对RGB图像的置信图或Depth图像的置信图的自动权衡,本实施例中构建了一个概率转换图SW的伪标签YSW去引导概率转换图SW的学习,YSW的定义为以下公式所示:
YSW=TRGB⊙Y+(1-TRGB)⊙(1-Y)
其中,Y表示训练样本中的行人目标分割标签。
YSW为1则表明RGB图像的置信图所得到的行人目标分割结果与行人目标分割标签一致,此时RGB图像的预测结果是可靠的,YSW将引导概率转换图SW增大对RGB图像置信图的权重,相应地Depth图像置信图的权重将减小;若为0,则表明RGB图像的置信图所得到的行人目标分割结果与行人目标分割标签不一致,此时RGB图像的预测结果不可靠,YSW将引导概率转换图SW减小RGB图像置信图的权重,相应地Depth图像置信图的权重将增大。
S104:行人轮廓跟踪:
获取行人视频序列,手工标定第一帧图像中行人的轮廓,然后对于后续图像,将RGB图像和对应的Depth图像输入行人目标置信图获取模型,得到融合置信图,将置信图作为轮廓演化的外部能量输入引导轮廓进行演化,得到当前图像行人轮廓跟踪结果。
本实施例中采用DRLSE LevelSet模型进行轮廓演化,其演化方程可以表示如下:
其中,φ表示水平集函数,t表示时刻,表示水平集函数梯度,其中p()为双势阱函数,p′()表示其一阶导数,δε(φ)表示Dirac函数,div()表示求取散度,该项表示距离正则化项,g表示边缘指示函数,α表示加权区域面积项系数。
演化方程首项为距离正则化项。演化方程第二项偏微分方程是GAC测地主动轮廓模型中所对应的方程,曲率和边缘梯度函数共同引导曲线演化,曲率演化起到平滑曲线的作用,而曲线能够收敛到图像局部梯度最大值处依靠的是边缘梯度函数。演化方程第三项具有加快水平集演化和决定曲线演化方向的作用。由于在本发明中是采用融合置信图来引导行人目标轮廓进行不断演化,因此需要将此项改为使用融合置信图,记融合置信图为ConfMap,则改变后的水平集演化方程如以下公式所示:
由于本发明行人目标置信图获取模型输出为单张的融合置信图,描述的是每个像素点属于前景目标的概率,数值范围p∈[0,1]。而在LevelSet演化方程中,融合置信图ConfMap要很好地引导轮廓进行进化则需要有正负值(即轮廓内外数值符号相异),取数值范围ConfMap∈[-1,1],所以需要将行人目标置信图获取模型输出的融合置信图进行映射,将其数值映射到[-1,1]范围内。本实施例中采用公式ConfMap=2p-1来进行映射,p表示原始输出的融合置信图。当ConfMap>0时,即在轮廓内部,曲线存在向外扩张的趋势;而当ConfMap<0时,即在轮廓外部,曲线存在向内收缩的趋势,若ConfMap=0时,此时一般处于轮廓边缘,此时则只由曲率和边缘梯度函数引导轮廓曲线演化使得其在边缘上变得平滑。ConfMap除了决定轮廓演化方向外,还决定着轮廓演化速度,其绝对值越大,轮廓演化速度越快。
为了使本发明中的行人目标置信图获取模型更能够适应实际行人目标视频序列的变化,本实施例中还提出了一种在线跟踪更新策略,在完成行人轮廓跟踪后对行人目标置信图获取模型进行在线更新。图6是本实施例中行人目标置信图获取模型在线更新的流程图。如图6所示,本实施例中行人目标置信图获取模型在线更新的具体步骤包括:
S601:对上一帧的融合置信图采用阈值法获取行人目标分割结果,判断上一帧行人目标所包含像素数量是否小于预设阈值,如果是,则不对行人目标置信图获取模型进行更新,否则进入步骤S602。这是因为行人目标可能会被完全遮挡或走出视野,因此在进行更新之前需要计算当上一帧中行人目标前景像素的个数,若前景像素个数少于一定值则判定目标消失,此时将不会对网络进行在线更新,防止网络只学到背景信息而将目标信息给覆盖。
S602:当前帧行人目标分割结果优化:
在基于判别式且用boundingbox标注目标的跟踪方法中,很多方法为了对判别器进行更新,其需要在先前帧已获取的目标位置附近进行正负样本的采集,再将采集到的正负样本来作为判别器更新训练的数据,而这样的做法是基于一般情况下相邻帧之间目标的位置变化不会过大这样一种已知的先验。而在视频目标分割中,由于输入的是整幅图像,故无法单独仅对目标进行样本采集,但是也同样可以基于这样一种先验来对当前帧的行人目标分割结果进行优化,从而得到更新数据,具体方法如下:
对上一帧的融合置信图采用阈值法获取出行人目标分割结果,计算上一帧中各个背景像素与行人目标区域的最小距离,行人目标区域像素的距离设置为0,从而得到距离矩阵。然后对当前帧的融合置信图采用阈值法获取出行人目标分割结果,对于行人目标中的每个像素,从上一帧的距离矩阵中查询得到距离值,如果小于等于预设阈值,则认为其是真实行人目标像素,不作任何操作,如果大于预设阈值,则说明该像素大概率属于背景(基于两帧间目标前景位置变化不会过大的先验),将该像素设置为背景像素。由此便可将当前帧行人目标分割过程中超出范围外误分割的像素进行纠正,这也是为当前帧的分割结果作为下一次更新的数据标签做准确保证,防止网络更新的误差传播累积。
S603:获取更新样本进行模型更新:
根据第一帧图像手工标定的行人轮廓得到行人目标分割标签,将其RGB图像、对应Depth图像和行人目标分割标签作为一个更新样本。根据步骤S602优化后的当前帧的行人目标分割结果得到行人目标分割标签,将其RGB图像、对应Depth图像和行人目标分割标签作为一个更新样本。在以上两个更新样本中选择一个作为本次行人目标置信图获取模型在线更新所使用的更新样本,对行人目标置信图获取模型进行更新。
考虑到在得到的当前帧行人目标在可能活动的区域内也会出现误分割的情况,这样将无法通过距离判断来对其进行纠正,所以在进行更新的时候不能仅仅只将当前帧的行人目标分割结果作为更新的数据,否则会造成误差传播累积。由于在整个行人轮廓跟踪过程中,第一帧给定的标注信息始终是最可靠的(其余帧都是将行人目标分割结果来作为已知标注),因此每次进行更新都始终需要将第一帧也作为一个备选更新样本来对网络进行更新,也就说每次更新都有来自两帧的更新数据,一个是第一帧,另一个是当前帧,在二者中选择一个进行更新。通过使用第一帧的可靠信息可以有效抑制目标活动区域内误分割对网络更新产生的误差传播累积。
经实验发现,在线更新中将对这两个更新样本进行交叉使用可以得到较好的效果,并且当前帧更新样本的使用概率较高,即次数更多些,而第一帧作为起防止误差传播累积的辅助作用,其使用概率较低,即次数相对要少些,这样可以使行人目标置信图获取模型既可以较好地适应实际需要,也可以保持良好的性能。在实际应用中,可以设置第一帧更新样本的使用周期,使用周期大于视频图像间隔,在未达到第一帧更新样本的使用周期时,采用当前帧更新样本进行在线更新,当达到第一帧更新样本的使用周期时,采用第一帧更新样本进行在线更新。
为了更好地说明本发明的技术效果,采用自制的数据集进行行人轮廓跟踪测试验证。本次测试验证中采用仅使用RGB图像作为输入且以MaskTrack方法为置信图提取模块的轮廓跟踪方法(记为MT+LS)、仅使用RGB图像作为输入且以原OSVOS网络为置信图提取模块的轮廓跟踪方法(记为OVS+LS)、仅使用RGB图像作为输入并采用在线更新策略的OSVOS网络为置信图提取模块的轮廓跟踪方法(记为OVS+LS+UPD)作为对方方法,与本发明使用了在线更新策略且使用了Depth信息的行人轮廓跟踪方法的跟踪结果进行比较。
图7是本实施例中本发明与三种对比方法对行人视频序列1的行人轮廓跟踪结果对比图。图8是本实施例中本发明与三种对比方法对行人视频序列1的行人目标与真实行人目标的区域相似度曲线对比图。图9是本实施例中本发明与三种对比方法对行人视频序列1的行人轮廓跟踪结果与真实行人轮廓的精度曲线对比图。
图10是本实施例中本发明与三种对比方法对行人视频序列2的行人轮廓跟踪结果对比图。图11是本实施例中本发明与三种对比方法对行人视频序列2的行人目标与真实行人目标的区域相似度曲线对比图。图12是本实施例中本发明与三种对比方法对行人视频序列2的行人轮廓跟踪结果与真实行人轮廓的精度曲线对比图。
根据图7至图12可知,采用本发明增加了Depth图像信息以及增加了在线更新策略的行人轮廓跟踪方法在光线昏暗以及目标表观与背景表观相似的跟踪场景中有着良好且稳定的跟踪效果。
尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
Claims (6)
1.一种融合RGBD多模态信息的行人轮廓跟踪方法,其特征在于,包括以下步骤:
S1:构建行人目标置信图获取模型,包括RGB目标分割卷积网络模块,Depth目标分割卷积网络模块、特征图叠加模块、卷积模块和置信图融合模块,其中:
RGB目标分割卷积网络模块以RGB图像作为输入,输出为行人目标分割的置信图TRGB,将最后一层特征图FRGB输出至特征图叠加模块,将置信图TRGB输出至融合模块;
Depth目标分割卷积网络模块以RGB图像对应的Depth图像作为输入,输出为行人目标分割的置信图TDepth,将最后一层特征图FDepth输出至特征图叠加模块,将置信图TDepth输出至融合模块;
特征图叠加模块对特征图FRGB和特征图FDepth进行叠加,得到特征图Fsw并输出至卷积模块;
卷积模块用于对特征图FSW进行卷积操作,得到概率转换图SW并输出至融合模块,其中卷积操作表达式如下:
SW=h(WSW*FSW+bSW)
其中,WSW和bSW分别为1*1卷积核的权重参数和偏置项权重参数,h(·)表示激活函数;
置信图融合模块根据概率转换图SW,对接收的置信图TRGB、置信图TDepth进行融合,得到融合后的置信图Tfused,其中融合操作表达式如下:
Tfused=SW⊙TRGB+(1-SW)⊙TDepth
其中,⊙表示对应元素相乘;
S2:获取若干训练样本,每个训练样本包括包含行人目标的RGB图像、对应Depth图像以及行人目标分割标签,行人目标分割标签用于表征各个像素是属于行人目标还是背景;
S3:对行人目标置信图获取模型采用以下方法进行训练:
S3.1:采用训练样本中的RGB图像作为输入,对RGB目标分割卷积网络模块进行训练,训练过程中对输出的置信图采用阈值法获取行人目标分割结果,与行人目标分割标签进行误差计算;
S3.2:采用训练样本中的Depth图像作为输入,对Depth目标分割卷积网络模块进行训练,训练过程中对输出的置信图采用阈值法获取行人目标分割结果,与行人目标分割标签进行误差计算;
S3.3:将行人目标置信图获取模型中RGB目标分割卷积网络模块按照步骤S3.1的训练结果进行初始化,Depth目标分割卷积网络模块按照步骤S3.2的训练结果进行初始化,采用训练样本中的RGB图像作为RGB目标分割卷积网络模块的输入,对应的Depth图像作为Depth目标分割卷积网络模块的输入,对行人目标置信图获取模型进行训练,训练过程中对输出的融合置信图采用阈值法获取行人目标分割结果,与行人目标分割标签进行误差计算;
S4:获取行人视频序列,手工标定第一帧图像中行人的轮廓,然后对于后续图像,将RGB图像和对应的Depth图像输入行人目标置信图获取模型,得到融合置信图,将融合置信图作为轮廓演化的外部能量输入引导轮廓进行演化,得到当前图像行人轮廓跟踪结果。
2.根据权利要求1所述的行人轮廓跟踪方法,其特征在于,所述RGB目标分割卷积网络模块和Depth目标分割卷积网络模块采用OSVOS网络,当OSVOS网络的输入为Depth图像时,需要将单通道的Depth图像转换成三通道的图像,具体方法为:首先对Depth图像进行空洞填充,然后对空洞填充后的Depth图像进行编码,生成三通道的RGB图像。
3.根据权利要求1所述的行人轮廓跟踪方法,其特征在于,所述步骤S3.2中,构建了一个概率转换图SW的伪标签YSW去引导概率转换图SW的学习,YSW的定义为以下公式所示:
YSW=TRGB⊙Y+(1-TRGB)⊙(1-Y)
其中,Y表示训练样本中的行人目标分割标签;
YSW为1则表明RGB图像的置信图所得到的行人目标分割结果与行人目标分割标签一致,此时RGB图像的预测结果是可靠的,YSW将引导概率转换图SW增大对RGB图像置信图的权重,相应地Depth图像置信图的权重将减小;若为0,则表明RGB图像的置信图所得到的行人目标分割结果与行人目标分割标签不一致,此时RGB图像的预测结果不可靠,YSW将引导概率转换图SW减小RGB图像置信图的权重,相应地Depth图像置信图的权重将增大。
4.根据权利要求1所述的行人轮廓跟踪方法,其特征在于,所述步骤S4中采用DRLSELevelSet模型进行轮廓演化。
5.根据权利要求1至4任一所述的行人轮廓跟踪方法,其特征在于,还包括对行人目标置信图获取模型进行在线更新,具体步骤包括:
(1)对上一帧的融合置信图采用阈值法获取行人目标分割结果,判断上一帧行人目标所包含像素数量是否小于预设阈值,如果是,则不对行人目标置信图获取模型进行更新,否则进入步骤(2);
(2)对上一帧的融合置信图采用阈值法获取出行人目标分割结果,计算上一帧中各个背景像素与行人目标区域的最小距离,行人目标区域像素的距离设置为0,从而得到距离矩阵;然后对当前帧的融合置信图采用阈值法获取出行人目标分割结果,对于行人目标中的每个像素,从上一帧的距离矩阵中查询得到距离值,如果小于等于预设阈值,则不作任何操作,如果大于预设阈值,则将该像素设置为背景像素;
(3)根据第一帧图像手工标定的行人轮廓得到行人目标分割标签,将其RGB图像、对应Depth图像和行人目标分割标签作为一个更新样本;根据步骤(2)优化后的当前帧的行人目标分割结果得到行人目标分割标签,将其RGB图像、对应Depth图像和行人目标分割标签作为一个更新样本;在以上两个更新样本中选择一个作为本次行人目标置信图获取模型在线更新所使用的更新样本,对行人目标获取模型进行更新。
6.根据权利要求5所述的行人轮廓跟踪方法,其特征在于,所述更新样本选择时,当前帧更新样本的使用概率高于第一帧更新样本。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910389276.6A CN110111351B (zh) | 2019-05-10 | 2019-05-10 | 融合rgbd多模态信息的行人轮廓跟踪方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910389276.6A CN110111351B (zh) | 2019-05-10 | 2019-05-10 | 融合rgbd多模态信息的行人轮廓跟踪方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110111351A CN110111351A (zh) | 2019-08-09 |
CN110111351B true CN110111351B (zh) | 2022-03-25 |
Family
ID=67489299
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910389276.6A Active CN110111351B (zh) | 2019-05-10 | 2019-05-10 | 融合rgbd多模态信息的行人轮廓跟踪方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110111351B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110796100B (zh) * | 2019-10-31 | 2022-06-07 | 浙江大华技术股份有限公司 | 步态识别方法、装置、终端及存储装置 |
CN111627017B (zh) * | 2020-05-29 | 2024-02-23 | 苏州博动戎影医疗科技有限公司 | 一种基于深度学习的血管管腔自动分割方法 |
CN111968087B (zh) * | 2020-08-13 | 2023-11-07 | 中国农业科学院农业信息研究所 | 一种植物病害区域检测方法 |
CN112990171B (zh) * | 2021-05-20 | 2021-08-06 | 腾讯科技(深圳)有限公司 | 图像处理方法、装置、计算机设备及存储介质 |
CN113556600B (zh) * | 2021-07-13 | 2023-08-18 | 广州虎牙科技有限公司 | 基于时序信息的驱动控制方法、装置、电子设备和可读存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105739702A (zh) * | 2016-01-29 | 2016-07-06 | 电子科技大学 | 用于自然人机交互的多姿态指尖跟踪方法 |
CN106952294A (zh) * | 2017-02-15 | 2017-07-14 | 北京工业大学 | 一种基于rgb‑d数据的视频跟踪方法 |
CN108470355A (zh) * | 2018-04-04 | 2018-08-31 | 中山大学 | 融合卷积网络特征和判别式相关滤波器的目标跟踪方法 |
CN109146921A (zh) * | 2018-07-02 | 2019-01-04 | 华中科技大学 | 一种基于深度学习的行人目标跟踪方法 |
CN109543697A (zh) * | 2018-11-16 | 2019-03-29 | 西北工业大学 | 一种基于深度学习的rgbd图像目标识别方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106157307B (zh) * | 2016-06-27 | 2018-09-11 | 浙江工商大学 | 一种基于多尺度cnn和连续crf的单目图像深度估计方法 |
-
2019
- 2019-05-10 CN CN201910389276.6A patent/CN110111351B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105739702A (zh) * | 2016-01-29 | 2016-07-06 | 电子科技大学 | 用于自然人机交互的多姿态指尖跟踪方法 |
CN106952294A (zh) * | 2017-02-15 | 2017-07-14 | 北京工业大学 | 一种基于rgb‑d数据的视频跟踪方法 |
CN108470355A (zh) * | 2018-04-04 | 2018-08-31 | 中山大学 | 融合卷积网络特征和判别式相关滤波器的目标跟踪方法 |
CN109146921A (zh) * | 2018-07-02 | 2019-01-04 | 华中科技大学 | 一种基于深度学习的行人目标跟踪方法 |
CN109543697A (zh) * | 2018-11-16 | 2019-03-29 | 西北工业大学 | 一种基于深度学习的rgbd图像目标识别方法 |
Non-Patent Citations (4)
Title |
---|
"A spatiotemporal warping-based video synchronization method for video stitching";Xue Zhou .etc;《2018 IEEE Visual Communications and Image Processing (VCIP)》;20190425;第1-4页 * |
"The Design of an Augmented Reality System for Urban Search and Rescue";Runze Wang .etc;《2018 IEEE International Conference on Intelligence and Safety for Robotics (ISR)》;20181115;第267-272页 * |
"融合RGB特征和Depth特征的3D目标识别方法";胡良梅 等;《电子测量与仪器学报》;20151031;第29卷(第10期);第1431-1439页 * |
《基于超像素的多特征融合的水平集轮廓跟踪》;周雪 等;《电子科技大学学报》;20180930;第47卷(第5期);第745-752页 * |
Also Published As
Publication number | Publication date |
---|---|
CN110111351A (zh) | 2019-08-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110111351B (zh) | 融合rgbd多模态信息的行人轮廓跟踪方法 | |
CN109583425B (zh) | 一种基于深度学习的遥感图像船只集成识别方法 | |
CN111507343B (zh) | 语义分割网络的训练及其图像处理方法、装置 | |
CN109636905B (zh) | 基于深度卷积神经网络的环境语义建图方法 | |
CN107945204B (zh) | 一种基于生成对抗网络的像素级人像抠图方法 | |
CN111797716B (zh) | 一种基于Siamese网络的单目标跟踪方法 | |
CN112966684B (zh) | 一种注意力机制下的协同学习文字识别方法 | |
CN109753913B (zh) | 计算高效的多模式视频语义分割方法 | |
CN111368846B (zh) | 一种基于边界语义分割的道路积水识别方法 | |
CN108830171B (zh) | 一种基于深度学习的智能物流仓库引导线视觉检测方法 | |
CN111507210A (zh) | 交通信号灯的识别方法、***、计算设备和智能车 | |
CN109543632A (zh) | 一种基于浅层特征融合引导的深层网络行人检测方法 | |
CN108537147A (zh) | 一种基于深度学习的手势识别方法 | |
WO2019136591A1 (zh) | 基于弱监督时空级联神经网络的显著目标检测方法及*** | |
CN107506792B (zh) | 一种半监督的显著对象检测方法 | |
CN113326735B (zh) | 一种基于YOLOv5的多模态小目标检测方法 | |
CN109920018A (zh) | 基于神经网络的黑白照片色彩恢复方法、装置及存储介质 | |
Wang et al. | A feature-supervised generative adversarial network for environmental monitoring during hazy days | |
CN111079807A (zh) | 一种地物分类方法及装置 | |
CN115100491B (zh) | 一种面向复杂自动驾驶场景的异常鲁棒分割方法与*** | |
CN116486431A (zh) | 基于目标感知融合策略的rgb-t多光谱行人检测方法 | |
CN110942463A (zh) | 一种基于生成对抗网络的视频目标分割方法 | |
CN113506230B (zh) | 一种基于机器视觉的光伏电站航拍影像匀光处理方法 | |
CN114998132A (zh) | 一种通过双网络挖掘互补特征的弱监督阴影检测方法 | |
CN115035429A (zh) | 一种基于复合主干网络和多预测头的航拍目标检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |