CN113963432A - 一种基于双目立体视觉机器人跟随行人的方法 - Google Patents

一种基于双目立体视觉机器人跟随行人的方法 Download PDF

Info

Publication number
CN113963432A
CN113963432A CN202111053365.7A CN202111053365A CN113963432A CN 113963432 A CN113963432 A CN 113963432A CN 202111053365 A CN202111053365 A CN 202111053365A CN 113963432 A CN113963432 A CN 113963432A
Authority
CN
China
Prior art keywords
pedestrian
distance
track
binocular
robot
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111053365.7A
Other languages
English (en)
Inventor
张阳新
�田�浩
玉苏普江司马义
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Zhixiaoyao Robot Co ltd
Original Assignee
Shanghai Zhixiaoyao Robot Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Zhixiaoyao Robot Co ltd filed Critical Shanghai Zhixiaoyao Robot Co ltd
Priority to CN202111053365.7A priority Critical patent/CN113963432A/zh
Publication of CN113963432A publication Critical patent/CN113963432A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2431Multiple classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)

Abstract

本发明提供了一种基于双目立体视觉机器人跟随行人的方法,具体包括如下步骤:建立行人数据集;训练行人检测器,双目检测行人;基于YOLO网络的检测方法将特征提取、目标分类、目标定位统一在一个神经网络中;采用递归卡尔曼滤波和逐帧数据关联的传统单一假设跟踪方法,对目标行人进行跟踪;获取检测到的被跟随行人,获取行人轮廓,两路图像同时提取行人特征点,匹配双目特征点,利用相似三角形计算出特征点在图像上的深度信息;通过深度信息和机器人编码器信息,计算行人的速度和方向,预测行人下一时刻的运动方向轨迹。本方法能够计算行人的速度和方向,预测行人下一时刻的运动方向轨迹,使机器人保持持续追踪能力,快速找到目标行人。

Description

一种基于双目立体视觉机器人跟随行人的方法
技术领域
本发明属于机器人技术领域,具体涉及一种基于双目立体视觉机器人跟随行人的方法。
背景技术
随着机器人行业的快速发展,各种服务机器人层出不穷,机器人在我们的生活、工作中也应用得越来越广泛。在酒店、银行等服务行业的楼宇中,迎宾机器人可以协助实现宾客身份登记、协助宾客存放随身背包等物品,并跟随宾客直到服务结束。而在实际场景下,尤其是在人流量大、人与人相互穿行等场景,机器人容易错认目标宾客或者在目标宾客转弯时错失目标宾客等,因此,需要对现有机器人跟随方法进行改进,保证机器人在各种复杂环境下的跟随效果。
发明内容
本发明的目的在于提供一种基于双目立体视觉机器人跟随行人的方法,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:一种基于双目立体视觉机器人跟随行人的方法,具体包括如下步骤:
步骤1、建立行人数据集;
步骤2、训练行人检测器,双目检测行人:基于YOLO网络的检测方法将候选框提取、特征提取、目标分类、目标定位统一在一个神经网络中;YOLO网络结构由24个卷积层与2个全连接层构成,网络入口为448x448(v2为416x416),图片进入网络先经过resize,网络的输出结果为一个张量,维度为:
S*S*(B*5+C)
其中,S为划分网格数,B为每个网格负责目标个数,C为类别个数;
步骤3、采用递归卡尔曼滤波和逐帧数据关联的传统单一假设跟踪方法,对目标行人进行跟踪;
步骤4、获取检测到的被跟随行人,获取行人轮廓,两路图像同时提取行人特征点,匹配双目特征点,利用相似三角形计算出特征点在图像上的深度信息;
步骤5、通过深度信息和机器人编码器信息,计算行人的速度和方向,预测行人下一时刻的运动方向轨迹。
优选的,所述步骤2中表达式的含义为:
(1)每个小格会对应B个边界框,边界框的宽高范围为全图,表示以该小格为中心寻找物体的边界框位置;
(2)每个边界框对应一个分值,代表该处是否有物体及定位准确度:
(3)每个小格会对应C个概率值,找出最大概率对应的类别P(Class|object),并认为小格中包含该物体或者该物体的一部分。
优选的,所述步骤3中递归卡尔曼滤波和逐帧数据关联的传统单一假设跟踪方法具体包括:
(1)定义8维状态空间
Figure BDA0003253531940000021
其中(u,v)是检测到行人轮廓的中心坐标,γ是长宽比,h是高度,其余四个变量表示在图像坐标系中的速度信息;然后使用扩展卡尔曼滤波器进行状态估计;
(2)使用平方马氏距离来度量预测track的Kalman状态和新到来detection之间的距离,度量预测公式为:
Figure BDA0003253531940000031
(3)使用cosine距离来度量各个track的appearance feature(128维)和detection feature之间的距离,来跟准确地预测ID,度量预测公式为:
Figure BDA0003253531940000032
(4)引入两个二值函数来限制assignment矩阵,分别比较平方马氏距离以及cosine距离和阈值的大小来进行判断,将两个函数结合起来对矩阵进行限制,限制公式为:
Figure BDA0003253531940000033
Figure BDA0003253531940000034
Figure BDA0003253531940000035
(5)使用combined距离来作为cost matrix进行度量各个track和detection之间的距离,其中文中只使用cosine距离进行度量(即将lambda设置为0),使用马氏距离排除不可能的情况,既基于由卡尔曼滤波器推断的可能的物***置忽略不可行的分配,所述cosine距离度量公式为:
ci,j=λd(1)(i,j)+(1-λ)d(2)(i,j)
(6)物体被遮挡一段时间后,卡尔曼滤波预测的不确定性大大增加并且状态空间上可观察性变得很低,并且马氏距离更倾向于不确定性更大的track;引入级联匹配,优先匹配detection与最近出现的track;
(7)在最后结束算法时使用SORT中的IOU距离来解决局部遮挡的问题,通过计算unmatchedtracks(只有前一帧是unmatched的)和unmatched detection的IOU distance。
本发明的技术效果和优点:本方法能够计算行人的速度和方向,预测行人下一时刻的运动方向轨迹,使机器人保持持续追踪能力,快速找到目标行人。
具体实施方式
实施例
一种基于双目立体视觉机器人跟随行人的方法,具体包括如下步骤:
步骤1、建立行人数据集;
步骤2、训练行人检测器,双目检测行人;基于YOLO网络的检测方法将候选框提取、特征提取、目标分类、目标定位统一在一个神经网络中;YOLO网络结构由24个卷积层与2个全连接层构成,网络入口为448x448(v2为416x416),图片进入网络先经过resize,网络的输出结果为一个张量,维度为:
S*S*(B*5+C)
其中,S为划分网格数,B为每个网格负责目标个数,C为类别个数;上述表达式的含义为:
(1)每个小格会对应B个边界框,边界框的宽高范围为全图,表示以该小格为中心寻找物体的边界框位置;
(2)每个边界框对应一个分值,代表该处是否有物体及定位准确度:
(3)每个小格会对应C个概率值,找出最大概率对应的类别P(Class|object),并认为小格中包含该物体或者该物体的一部分。
步骤3、采用递归卡尔曼滤波和逐帧数据关联的传统单一假设跟踪方法,对目标行人进行跟踪,具体包括:
(1)定义8维状态空间
Figure BDA0003253531940000051
其中(u,v)是检测到行人轮廓的中心坐标,γ是长宽比,h是高度,其余四个变量表示在图像坐标系中的速度信息;然后使用扩展卡尔曼滤波器进行状态估计;
(2)使用平方马氏距离来度量预测track的Kalman状态和新到来detection之间的距离,度量预测公式为:
Figure BDA0003253531940000052
(3)使用cosine距离来度量各个track的appearance feature(128维)和detection feature之间的距离,来跟准确地预测ID,度量预测公式为:
Figure BDA0003253531940000053
(4)引入两个二值函数来限制assignment矩阵,分别比较平方马氏距离以及cosine距离和阈值的大小来进行判断,将两个函数结合起来对矩阵进行限制,限制公式为:
Figure BDA0003253531940000054
Figure BDA0003253531940000055
Figure BDA0003253531940000056
(5)使用combined距离来作为cost matrix进行度量各个track和detection之间的距离,其中文中只使用cosine距离进行度量(即将lambda设置为0),使用马氏距离排除不可能的情况,既基于由卡尔曼滤波器推断的可能的物***置忽略不可行的分配,所述cosine距离度量公式为:
ci,j=λd(1)(i,j)+(1-λ)d(2)(i,j)
(6)物体被遮挡一段时间后,卡尔曼滤波预测的不确定性大大增加并且状态空间上可观察性变得很低,并且马氏距离更倾向于不确定性更大的track;引入级联匹配,优先匹配detection与最近出现的track;
(7)在最后结束算法时使用SORT中的IOU距离来解决局部遮挡的问题,通过计算unmatchedtracks(只有前一帧是unmatched的)和unmatched detection的IOU distance;
步骤4、获取检测到的被跟随行人,获取行人轮廓,两路图像同时提取行人特征点,匹配双目特征点,利用相似三角形计算出特征点在图像上的深度信息;
步骤5、通过深度信息和机器人编码器信息,计算行人的速度和方向,预测行人下一时刻的运动方向轨迹。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (3)

1.一种基于双目立体视觉机器人跟随行人的方法,其特征在于:具体包括如下步骤,
步骤1、建立行人数据集;
步骤2、训练行人检测器,双目检测行人:基于YOLO网络的检测方法将候选框提取、特征提取、目标分类、目标定位统一在一个神经网络中;YOLO网络结构由24个卷积层与2个全连接层构成,网络入口为448x448(v2为416x416),图片进入网络先经过resize,网络的输出结果为一个张量,维度为:
S*S*(B*5+C)
其中,S为划分网格数,B为每个网格负责目标个数,C为类别个数;
步骤3、采用递归卡尔曼滤波和逐帧数据关联的传统单一假设跟踪方法,对目标行人进行跟踪;
步骤4、获取检测到的被跟随行人,获取行人轮廓,两路图像同时提取行人特征点,匹配双目特征点,利用相似三角形计算出特征点在图像上的深度信息;
步骤5、通过深度信息和机器人编码器信息,计算行人的速度和方向,预测行人下一时刻的运动方向轨迹。
2.根据权利要求1所述的一种基于双目立体视觉机器人跟随行人的方法,其特征在于:所述步骤2中表达式的含义为:
(1)每个小格会对应B个边界框,边界框的宽高范围为全图,表示以该小格为中心寻找物体的边界框位置;
(2)每个边界框对应一个分值,代表该处是否有物体及定位准确度:
(3)每个小格会对应C个概率值,找出最大概率对应的类别P(Class|object),并认为小格中包含该物体或者该物体的一部分。
3.根据权利要求1所述的一种基于双目立体视觉机器人跟随行人的方法,其特征在于:所述步骤3中递归卡尔曼滤波和逐帧数据关联的传统单一假设跟踪方法具体包括:
(1)定义8维状态空间
Figure FDA0003253531930000021
其中(u,v)是检测到行人轮廓的中心坐标,γ是长宽比,h是高度,其余四个变量表示在图像坐标系中的速度信息;然后使用扩展卡尔曼滤波器进行状态估计;
(2)使用平方马氏距离来度量预测track的Kalman状态和新到来detection之间的距离,度量预测公式为:
Figure FDA0003253531930000022
(3)使用cosine距离来度量各个track的appearance feature(128维)和detectionfeature之间的距离,来跟准确地预测ID,度量预测公式为:
Figure FDA0003253531930000023
(4)引入两个二值函数来限制assignment矩阵,分别比较平方马氏距离以及cosine距离和阈值的大小来进行判断,将两个函数结合起来对矩阵进行限制,限制公式为:
Figure FDA0003253531930000031
Figure FDA0003253531930000032
Figure FDA0003253531930000033
(5)使用combined距离来作为cost matrix进行度量各个track和detection之间的距离,其中文中只使用cosine距离进行度量(即将lambda设置为0),使用马氏距离排除不可能的情况,既基于由卡尔曼滤波器推断的可能的物***置忽略不可行的分配,所述cosine距离度量公式为:
ci,j=λd(1)(i,j)+(1-λ)d(2)(i,j)
(6)物体被遮挡一段时间后,卡尔曼滤波预测的不确定性大大增加并且状态空间上可观察性变得很低,并且马氏距离更倾向于不确定性更大的track;引入级联匹配,优先匹配detection与最近出现的track;
(7)在最后结束算法时使用SORT中的IOU距离来解决局部遮挡的问题,通过计算unmatchedtracks(只有前一帧是unmatched的)和unmatched detection的IOU distance。
CN202111053365.7A 2021-09-09 2021-09-09 一种基于双目立体视觉机器人跟随行人的方法 Pending CN113963432A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111053365.7A CN113963432A (zh) 2021-09-09 2021-09-09 一种基于双目立体视觉机器人跟随行人的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111053365.7A CN113963432A (zh) 2021-09-09 2021-09-09 一种基于双目立体视觉机器人跟随行人的方法

Publications (1)

Publication Number Publication Date
CN113963432A true CN113963432A (zh) 2022-01-21

Family

ID=79461089

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111053365.7A Pending CN113963432A (zh) 2021-09-09 2021-09-09 一种基于双目立体视觉机器人跟随行人的方法

Country Status (1)

Country Link
CN (1) CN113963432A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114897929A (zh) * 2022-05-31 2022-08-12 工业云制造(四川)创新中心有限公司 基于视觉降噪的机器人运动方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114897929A (zh) * 2022-05-31 2022-08-12 工业云制造(四川)创新中心有限公司 基于视觉降噪的机器人运动方法
CN114897929B (zh) * 2022-05-31 2024-06-04 工业云制造(四川)创新中心有限公司 基于视觉降噪的机器人运动方法

Similar Documents

Publication Publication Date Title
CN113034548B (zh) 一种适用于嵌入式终端的多目标跟踪方法及其***
Dewan et al. Motion-based detection and tracking in 3d lidar scans
Lenz et al. Sparse scene flow segmentation for moving object detection in urban environments
CN111862145B (zh) 一种基于多尺度行人检测的目标跟踪方法
Ji et al. RGB-D SLAM using vanishing point and door plate information in corridor environment
CN114998276B (zh) 一种基于三维点云的机器人动态障碍物实时检测方法
CN111797785B (zh) 一种基于深度学习的多航空器跟踪方法
CN110929670A (zh) 基于yolo3技术的渣土车洁净度视频识别分析方法
Arsic et al. Applying multi layer homography for multi camera person tracking
Peker Comparison of tensorflow object detection networks for licence plate localization
He et al. Fast online multi-pedestrian tracking via integrating motion model and deep appearance model
Chen et al. Pedestrian detection and tracking based on 2d lidar
CN116563376A (zh) 基于深度学习的lidar-imu紧耦合语义slam方法及相关装置
Li et al. Pallet detection and localization with RGB image and depth data using deep learning techniques
Mohanapriya Instance segmentation for autonomous vehicle
CN113963432A (zh) 一种基于双目立体视觉机器人跟随行人的方法
CN113724293A (zh) 一种基于视觉的智能网联公交场景下目标跟踪方法及***
Ilyas et al. Staircase recognition and localization using convolution neural network (cnn) for cleaning robot application
CN112884835A (zh) 一种基于深度学习之目标检测的视觉slam方法
CN112949615B (zh) 一种基于融合检测技术的多目标跟踪***及跟踪方法
Liu et al. An end-to-end steel strip surface defects detection framework: Considering complex background interference
Chai et al. Fast vision-based object segmentation for natural landmark detection on Indoor Mobile Robot
Kim et al. Vision-based navigation with efficient scene recognition
Chen et al. Multiple-object tracking based on monocular camera and 3-D lidar fusion for autonomous vehicles
Huang et al. Multi-object detection, tracking and prediction in rugged dynamic environments

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination