CN112965081B - 基于融合行人信息的特征地图的模仿学习社交导航方法 - Google Patents

基于融合行人信息的特征地图的模仿学习社交导航方法 Download PDF

Info

Publication number
CN112965081B
CN112965081B CN202110163401.9A CN202110163401A CN112965081B CN 112965081 B CN112965081 B CN 112965081B CN 202110163401 A CN202110163401 A CN 202110163401A CN 112965081 B CN112965081 B CN 112965081B
Authority
CN
China
Prior art keywords
pedestrian
robot
information
coordinate system
social
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110163401.9A
Other languages
English (en)
Other versions
CN112965081A (zh
Inventor
熊蓉
崔瑜翔
王越
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN202110163401.9A priority Critical patent/CN112965081B/zh
Publication of CN112965081A publication Critical patent/CN112965081A/zh
Application granted granted Critical
Publication of CN112965081B publication Critical patent/CN112965081B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S17/00Systems using the reflection or reradiation of electromagnetic waves other than radio waves, e.g. lidar systems
    • G01S17/88Lidar systems specially adapted for specific applications
    • G01S17/93Lidar systems specially adapted for specific applications for anti-collision purposes
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C21/00Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
    • G01C21/20Instruments for performing navigational calculations
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S17/00Systems using the reflection or reradiation of electromagnetic waves other than radio waves, e.g. lidar systems
    • G01S17/86Combinations of lidar systems with systems other than lidar, radar or sonar, e.g. with direction finders
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Remote Sensing (AREA)
  • Radar, Positioning & Navigation (AREA)
  • General Physics & Mathematics (AREA)
  • Electromagnetism (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Theoretical Computer Science (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Automation & Control Theory (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)

Abstract

本发明公开了一种基于融合行人信息的特征地图的模仿学习社交导航方法。本发明通过引入模仿学习方法来引导机器人模仿专家的运动习惯,规划出符合社交规范的导航方法,提高规划效率并缓解机器人锁死问题,帮助机器人更好地融入人机共融环境。该方法通过序列RGB图像中的行人检测与跟踪以及三维点云对准来获取行人的时序运动状态。随后,结合二维激光数据以及社会力模型,得到标注行人动态信息的局部特征地图。最后,搭建以局部特征地图、机器人当前速度以及目标相对位置为输入,机器人控制指令为输出的深度网络,以专家示教数据为监督进行训练,得到符合社交规范的导航策略。

Description

基于融合行人信息的特征地图的模仿学习社交导航方法
技术领域
本发明属于移动机器人导航领域,具体涉及一种基于融合行人动态信息的特征地图的模仿学习社交导航算法。
背景技术
服务型机器人的定位决定了其工作环境的一大特性,人机混杂。从常规的静态场景到动态特性复杂的人机共融场景,活动范围的大幅扩张对机器人的行为规范提出了更高的要求,符合社交规范。一方面,服务型机器人要能够通过和谐的人机交互及时感知人类的状态,了解人类的需求,找到最佳方案,高质量且高效地辅助人类进行工作,另一方面,服务型机器人也要能够在工作过程中保证周围人类的安全的同时,考虑到人类运动的舒适度,不对人类的活动产生阻碍。
服务型机器人一般通过搭载良好的导航***获取智能的自主移动能力。在导航***的指引下,机器人可以在更大范围内完成服务任务,从而实现更为灵活的服务效果。在静态或近似静态的环境中,传统的导航方式便能够实现良好的路径规划,引导机器人到达目标点且不与环境中的障碍物发生碰撞。然而,人机共享环境具有高动态的特性,复杂的行人运动破坏了传统导航方式的设定条件,继续套用传统导航***将难以在密集环境中规划出顺滑的路径,影响周围行人运动的舒适度,甚至引发碰撞。因此,面向人机共享环境的导航算法的研究亟待解决。
近年来,深度学习的发展大幅推动了机器人技术的研发以及应用。通过建立人工神经网络,深度学习技术可以从大量数据中提取信息的特征表征,从而建立高维的函数模型,用以解决复杂的人工智能问题,其高效性以及可迁移性也在多个领域得到了验证。因此利用深度学习可以对传感器信息进行分析处理,建立环境信息与移动机器人的导航决策间的映射,从而解决人机共融环境下的导航规划问题,具有较高的研究以及实用价值。
发明内容
本发明的目的在于解决现有技术中存在的问题,并提供一种基于融合行人信息的特征地图的模仿学习社交导航方法。本发明借助基于RGB图像的行人检测与跟踪模块以及融合三维点云信息的行人三维位置估计模块,获取机器人视野范围内的行人运动状态,并结合激光信息进一步得到标注行人动态信息的局部特征地图。策略网络以该特征地图为输入,以专家示教数据为监督,训练得到社交导航决策网络。
为了实现上述发明目的,本发明具体采用以下技术方案:
一种基于融合行人信息的特征地图的模仿学习社交导航方法,所述方法的步骤如下:
S1、构建基于社会力模型的行人仿真环境,以模拟人机共存环境;
S2、构建融合行人动态信息的特征地图获取模块,用于处理机器人的传感器信息,表征机器人坐标系下的综合环境状况;所述特征地图获取模块中的流程如S21~S24:
S21、基于机器人上搭载的三维激光雷达获取指定高度平面的二维激光信息,并将其恢复为局部障碍物地图形式;
S22、基于机器人上搭载的RGB相机,利用行人跟踪算法获取场景内行人在图像坐标系中的位置序列;
S23、基于机器人上搭载的三维激光雷达,结合S22中得到的行人检测结果,利用三维点云对准算法,获取机器人坐标系下的多帧行人位置信息,并进一步提取出行人的速度信息;
S24、利用社会力模型根据速度大小以及方向差异计算出每个行人的势场信息,将每个行人的势场信息在S21得到的局部障碍物地图上按照不同的颜色进行标注,得到融合行人动态信息的特征地图;
S3、通过人为操控机器人在该行人仿真环境中躲避动态障碍物并到达目标点,获取大量示教数据,用于策略网络的训练;所述示教数据包含融合行人动态信息的特征地图和机器人当前速度状态以及其对应的操控指令;
S4、建立深度神经网络,利用示教数据对深度神经网络进行训练,逐步逼近符合社交规范的机器人运动决策行为;
S5、利用训练后的深度神经网络生成操控指令,用于操控机器人。
作为优选,步骤S1的具体实现方法为:
采用Gazebo仿真来搭建训练环境,包含多个常见的行人交互场景,各个场景内均包含一个或多个动态障碍物用于行人的模拟;仿真中选用移动机器人来验证导航决策效果,该机器人利用ROS通讯架构,由示教专家通过游戏手柄进行控制,或者由深度神经网络直接进行控制;该训练环境通过随机生成多个依据社会力模型进行运动的模拟行人,构成人机混杂的动态环境。
作为优选,在所述的步骤S2中分别采用Intel RealSense D435深度相机和Velodyne32激光作为感知元件,获取RGB图像和三维激光点云信息。
作为优选,所述的步骤S21中,利用二维激光信息,根据激光点的方向以及距离信息,恢复机器人坐标系下的局部障碍物地图;机器人根据激光传感器返回的角度距离信息判断自身坐标系视角下的障碍物分布情况,以二值图像的形式进行表达,其中障碍物以白色点表示,开阔区域以黑色块表示。
作为优选,在所述的步骤S22中采用Deep SORT算法在RGB图像坐标系下进行行人位置序列提取,并通过S23中的三维点云对准算法获取机器人坐标系下的行人位置,对准中采用聚类以及滤波方法保证行人位置确定的精度。
作为优选,所述步骤S23的具体实现流程如下:
首先,利用相机和激光雷达的位姿以及参数实现图像坐标系和点云坐标系的对准;接着,根据图像坐标系下的行人检测框位置,对三维点云中的对应部分进行分割;然后,根据滤波以及聚类算法,对分割出的点云进行筛选处理,得到单个行人对应点云的三维边界框,中心位置作为当前行人的位置估计;最后,在预设的时间窗口内,对同一目标的帧间位置差异进行平均,便可得到该行人在机器人坐标系下的大致运动状态。
作为优选,在所述的步骤S24中,依据社会力模型中的行人斥力建立运动势场,继而利用等势线对运动状态存在差异的行人进行区别标注,具体过程为:
首先,按照预先设定的行人斥力接受范围,确定分界等势线,并在S21得到的局部障碍物地图上划分出行人的舒适范围,为S22检测得到的各个行人标注占用区域,标注的占用区域的大小与行人的速度大小正相关,使个体间存在差异;随后,依据各个行人的运动方向在局部障碍物地图上对每个行人占用区域进行着色;最终得到融合行人动态信息的特征地图,综合展示机器人坐标系下的环境状态。
作为优选,在所述的步骤S3中,示教专家通过ROS通讯架构,利用游戏手柄控制Gazebo中移动机器人运动在躲避场景内仿真行人到达目标点;机器人运动过程中保存S24得到的局部障碍物地图信息、机器人的自身状态信息、目标相对位置以及对应的专家控制信息,从而得到专家示教数据集。
作为优选,在所述的步骤S4中,通过建立深度神经网络,以局部障碍物地图信息和机器人的自身状态信息为输入,以控制指令为输出,在专家示教数据集下进行迭代训练,从而逐步逼近专家控制准则,习得社交导航策略。
所述深度神经网络中,融合行人动态信息的特征地图通过卷积层提取隐变量,机器人的自身状态信息和目标相对位置各自通过全连接层提取隐变量,三种隐变量拼接后通过两层全连接层后输出控制指令。
作为优选,在所述的步骤S4中,采用在线训练的示教学习算法,采用数据聚合的方式实时更新示教数据集,具体的训练流程如下:示教专家在仿真环境中实时控制移动机器人向目标点运动,并躲避场景内模拟行人;深度神经网络在实时更新存储的示教数据集上进行迭代训练;随着训练的进行,逐步降低专家的控制频率,使得策略网络以一定的概率取得机器人的控制权,一方面评估网络的性能,另一方面丰富示教数据分布,帮助网络提高从偏离轨迹中恢复的能力。
本发明相对于现有技术而言,具有以下有益效果:
本发明利用融合行人动态信息的特征地图来综合处理机器人坐标系下的局部障碍物信息以及动态行人信息,帮助机器人更合理高效地感知环境状态。在获取该信息的基础上,算法利用专家的示教信息,引导深度神经网络更新迭代,逐步逼近专家策略习惯,模仿专家决策方式,从而使得机器人能够按照类似专家的移动方式在复杂人群中进行运动。深度神经网络通过模仿专家行为,能够应对于复杂多变的行人环境,省去了传统算法所需要的行人轨迹预测模块,扩大了机器人的可行域,避免出现传统算法中出现的“锁死问题”。同时由于该算法使用的合理的综合环境表示,算法的执行效率也获得提升。
附图说明
图1为基于融合行人信息的特征地图的模仿学习社交导航方法流程图;
图2为基于融合行人信息的特征地图的模仿学习社交导航方法框架图;
图3为行人检测与跟踪以及三维点云分割效果图;
图4为社会力模型示意图;
图5为人机混杂仿真环境效果图;
图6为融合行人动态信息的特征地图效果图;
图7为深度神经网络结构图;
图8社交导航效果图。
具体实施方式
下面结合附图和具体实施方式对本发明做进一步阐述和说明。本发明中各个实施方式的技术特征在没有相互冲突的前提下,均可进行相应组合。
在本发明的一个较佳实施例中,提供了一种基于融合行人信息的特征地图的模仿学习社交导航方法,该方法面向人机共存环境下的移动机器人导航问题。传统的导航算法多应对于静态或近似静态的简单场景,直接迁移到动态特性复杂的人机共融环境时,难以规划出顺滑的轨迹对行人进行躲避,威胁到行人的运动安全。已有的改进方法通过引入行人检测以及行人轨迹预测信息来进一步限制机器人的可行区域,然而该类方法一方面引入了更多的信息处理压力以及预测不确定性,另一方面由于过分限制了机器人的运动范围,易产生机器人“锁死问题”。而本发明通过引入模仿学习方法来引导机器人模仿专家的运动习惯,规划出符合社交规范的导航算法,提高规划效率并缓解机器人锁死问题,帮助机器人更好地融入人机共融环境。该算法通过序列RGB图像中的行人检测与跟踪以及三维点云对准来获取行人的时序运动状态。随后,结合二维激光数据以及社会力模型,得到标注行人动态信息的局部特征地图。最后,搭建以局部特征地图、机器人当前速度以及目标相对位置为输入,机器人控制指令为输出的深度网络,以专家示教数据为监督进行训练,得到符合社交规范的导航策略。
该方法的具体步骤如图1所示,下面详细描述如下:
S1、构建基于社会力模型的行人仿真环境,以模拟人机共存环境。
S2、构建融合行人动态信息的特征地图获取模块,用于处理机器人的传感器信息,表征机器人坐标系下的综合环境状况。
S3、通过人为操控机器人在该行人仿真环境中躲避动态障碍物并到达目标点,获取大量示教数据,用于策略网络的训练;所述示教数据包含融合行人动态信息的特征地图和机器人当前速度状态以及其对应的操控指令。
S4、建立深度神经网络,利用示教数据对深度神经网络进行训练,逐步逼近符合社交规范的机器人运动决策行为。
S5、利用训练后的深度神经网络生成操控指令,用于操控机器人。
上述导航方法的核心思想参见图2所示,该方法的构思是利用社会力模型融合行人动态信息与局部特征地图,通过搭建模仿学习网络从专家示教数据中学习社交行为规范,从而帮助机器人在人机共融环境下进行合理的导航决策。下面对上述各步骤在本实施例中的具体实现形式进行展开描述。
上述步骤S1的具体实现方法为:
采用Gazebo仿真来搭建训练环境,包含多个常见的行人交互场景,各个场景内均包含一个或多个动态障碍物用于行人的模拟;仿真中选用Turtlebot2移动机器人来验证导航决策效果,该机器人利用ROS通讯架构,由示教专家通过Switch controller pro游戏手柄进行控制,或者由深度神经网络直接进行控制。该训练环境通过随机生成多个依据社会力模型进行运动的模拟行人,构成人机混杂的动态环境。社会力模型的具体形式可参见现有技术,为了便于理解,下面展开叙述。
如图4所示,社会力模型以动力学建模的方式描述复杂动态环境中行人与周围环境的关系以及人群内部各个行人之间的关系。该模型综合考虑复杂环境中的多种影响因素,并将其转化为“力”的表达方式,以具有一定大小以及方向的作用力来量化地描述行人所受到的目标位置、障碍物分布以及社会规范等带来的制约。
考虑到常规人机混杂环境中基本不存在行人个体间紧密接触的情况,且单个行人的空间占用较小,可以忽略行人的体积因素以及相互间因拥挤而产生的相互挤压状况。因此为了统一相互作用力的表达形式,具体实现中采用点模型表达行人以及障碍物。单个行人对应为单个质点模型,形态各异的障碍物则以符合其轮廓特征的点阵来代替,凑而构成点模型的环境表示。对单个行人进行分析时,则考虑除当前点外的所有质点对其产生的合力。合力的表达式如(1)
合力由目标点对于行人的吸引力/>行人之间的相互排斥力/>障碍物对行人的排斥力/>以及场景中热点的吸引力/>四项构成。
目标点的吸引力是行人运动中的驱动力,引导行人向目标位置移动。吸引力调整行人速度方向逐步逼近目标点方向,同时促使行人逐渐加速至理想速度。在没有障碍物阻碍的情况下,行人将进行匀加速运动,直至到达最大速度,因此这里选择以加速度表达目标点的吸引作用效果,表达式如(2)
其中为理想速度大小,/>为目标方向单位向量,/>为当前速度向量。由于行人自身存在一定的反应时间,周边环境也会带来一定的干扰,所以行人在实际运动中难以达到理想状态。公式中通过增加修正因子,松弛时间τα,来描述这一现象。松弛时间表达了实际情况下行人调整自身运动状态所需要的时间长度,行人在该时间间隔内逐步逼近理想速度。
动态行人以及静态障碍物对当前行人的排斥力则阻碍行人前往目标点。由于选用了点模型表达当前环境,行人及障碍物的排斥力均转化为点之间的斥力。斥力随着两点间距的减小而增大,但是减小的快慢在行人的各个方向上存在差异。根据公共场合下的行人社交规范,行人需要一定的舒适运动空间。该空间延运动方向前后延展,在垂直运动方向相对较短,代表行人的大致运动区域,也即在进行必要的避让时的所需区域。这里选用椭圆形等势线的方式对该区域进行描述,如图4所示。
椭圆定义如式(3)所示
定义当前行人为A,周围行人或障碍物点为B。当前行人步长为焦距。AB间当前距离AB与B保持不动而A沿当前运动方向行走一步之后到达A’时的距离A’B之和为长轴长。以此构建出的椭圆即为行人AB交互过程中,当前行人A的大致避让范围。该椭圆的短轴b越长,行人的避让空间越大,行人B给行人A带来的不舒适感也就相对越弱,因此我们定义式(4),以指数函数的形式表达该斥力作用的变化情况。
其中参数M和N与场景的尺度,障碍物的阻碍特性以及人群的特征等相关,表达行人间相互作用的强弱,在实验的具体测试中进行调整。
利用已知的行人间相互作用力方向,行人运动方向以及目标方向间的关系,可以对周边行人是否进入当前行人的视角范围进行判定。计算周围行人对当前行人的作用力在目标方向/>上的投影大小dnow,以及旋转该作用力至视野边缘时,也即在/>位置时,在目标方向/>上的投影大小dmin,对比两者可以判断周围行人是否超出视野。若前者较大则表明该行人位于当前行人的视野范围内,应当予以更大的影响力权重。反之则削弱甚至忽略其对于当前行人产生的影响。
利用社会力模型对行人与环境的交互进行抽象处理,用统一的方式进行量化分析,可以实现合理的人群运动模拟,从而构建人机交互仿真环境。
如图5所示,为本发明构建的人机混杂仿真环境效果图。
在上述步骤S2中,机器人实现感知所采用的硬件设备可以根据需要调整,本实施例中分别采用Intel RealSense D435深度相机和Velodyne32激光作为感知元件,获取RGB图像和三维激光点云信息。
而且,本实施例在步骤S2中,特征地图获取模块中具体执行的流程如S21~S24:
S21、基于机器人上搭载的三维激光雷达获取指定高度平面的二维激光信息,并将其恢复为局部障碍物地图形式;
S22、基于机器人上搭载的RGB相机,利用行人跟踪算法获取场景内行人在图像坐标系中的位置序列。
S23、基于机器人上搭载的三维激光雷达,结合S22中得到的行人检测结果,利用三维点云对准算法,获取机器人坐标系下的多帧行人位置信息,并进一步提取出行人的速度信息。
图3为上述方法在一个场景中得到的行人检测与跟踪以及三维点云分割效果图。
S24、利用社会力模型根据速度大小以及方向差异计算出每个行人的势场信息,将每个行人的势场信息在S21得到的局部障碍物地图上按照不同的颜色进行标注,得到融合行人动态信息的特征地图。本发明通过选用标注行人动态信息的局部特征地图来整合当前环境信息,形成策略网络的输入,有效结合多传感器信息,能够帮助机器人更好地感知并理解环境。
在步骤S21中,利用二维激光信息,根据激光点的方向以及距离信息,恢复机器人坐标系下的局部障碍物地图;机器人根据激光传感器返回的角度距离信息判断自身坐标系视角下的障碍物分布情况,以二值图像的形式进行表达,其中障碍物以白色点表示,开阔区域以黑色块表示。
在步骤S22中采用Deep SORT算法在RGB图像坐标系下进行行人位置序列提取,并通过S23中的三维点云对准算法获取机器人坐标系下的行人位置,对准中采用聚类以及滤波方法保证行人位置确定的精度。
当然,在真实环境中,行人的运动状态信息获取须要通过检测与跟踪来进行进行。而仿真环境中,可以直接通过环境接口进行获取。因此本发明在策略训练中,为了方便数据的采集与网络效果的验证,也利用Gazebo环境接口获取仿真行人的动态信息。
在上述步骤S23中,具体实现流程如下:
首先,利用相机和激光雷达的位姿以及参数实现图像坐标系和点云坐标系的对准;接着,根据图像坐标系下的行人检测框位置,对三维点云中的对应部分进行分割;然后,根据滤波以及聚类算法,对分割出的点云进行筛选处理,得到单个行人对应点云的三维边界框,中心位置作为当前行人的位置估计;最后,在预设的时间窗口内,对同一目标的帧间位置差异进行平均,便可得到该行人在机器人坐标系下的大致运动状态。
Deep SORT算法来实现真实环境中基于RGB图像的行人检测与跟踪,初步确定图像坐标系下的行人位置。Deep SORT在SORT算法的基础上通过引入综合了纹理信息的关联度量以及级联匹配机制,实现了更为鲁棒的跟踪效果,是目前较为主流的多目标跟踪算法。其中目标的纹理特征由在大规模行人数据集上预先训练的卷积神经网络进行提取。通过对比检测框的帧间纹理特征差异得到外观相似度度量,与SORT算法中的运动距离度量相结合,可以构成关联程度的综合判据。以该判据为准进行帧间数据关联,相邻轨迹跟踪中身份交错问题的出现概率获得了大幅减小。
通过结合图像坐标系下的检测跟踪结果与三维点云信息,行人状态信息可以进一步转化到机器人坐标系下,为机器人的导航决策提供参考。首先,利用相机和激光雷达的位姿以及参数实现图像坐标系和点云坐标系的对准。接着,根据图像坐标系下的行人检测框位置,对三维点云中的对应部分进行分割。然后,根据滤波以及聚类算法,对分割出的点云进行筛选处理,得到单个行人对应点云的三维边界框,中心位置作为当前行人的位置估计。最后,在合适的时间窗口内,对同一目标的帧间位置差异进行平均,便可得到该行人在机器人坐标系下的大致运动状态。
在上述步骤S24中,依据社会力模型中的行人斥力建立运动势场,继而利用等势线对运动状态存在差异的行人进行区别标注,具体过程为:
首先,按照预先设定的行人斥力接受范围,确定分界等势线,并在S21得到的局部障碍物地图上划分出行人的舒适范围,为S22检测得到的各个行人标注占用区域,标注的占用区域的大小与行人的速度大小正相关,使个体间存在差异;随后,依据各个行人的运动方向在局部障碍物地图上对每个行人占用区域进行着色;最终得到如图6所示的融合行人动态信息的特征地图,综合展示机器人坐标系下的环境状态。
在上述步骤S3中,示教专家通过ROS通讯架构,利用游戏手柄控制Gazebo中移动机器人运动在躲避场景内仿真行人到达目标点;机器人运动过程中保存S24得到的局部障碍物地图信息、机器人的自身状态信息、目标相对位置以及对应的专家控制信息,从而得到专家示教数据集。此处所谓示教专家是指能够熟练操控机器人的人员。
在上述步骤S4中,通过建立深度神经网络,以局部障碍物地图信息和机器人的自身状态信息为输入,以控制指令为输出,在专家示教数据集下进行迭代训练,从而逐步逼近专家控制准则,习得社交导航策略。其中深度神经网络中,融合行人动态信息的特征地图通过卷积层提取隐变量,机器人的自身状态信息和目标相对位置各自通过全连接层提取隐变量,三种隐变量拼接后通过两层全连接层后输出控制指令。
具体的策略网络结构如图7所示。该网络以标注行人动态信息的局部特征地图,目标点相对位置以及机器人当前速度为输入,直接输出控制指令。从图中可以看出,图像部分利用多层卷积网络进行处理,而目标位置以及机器人速度部分用全连接层进行编码,将两部分得到的中间层隐变量表示进行拼接,作为当前的综合状态信息,最后经由多层全连接层输出最终的控制指令。
在上述步骤S4中,本实施例采用在线训练的示教学习算法,采用数据聚合的方式实时更新示教数据集,具体的训练流程如下:示教专家在仿真环境中实时控制移动机器人向目标点运动,并躲避场景内模拟行人;深度神经网络在实时更新存储的示教数据集上进行迭代训练;随着训练的进行,逐步降低专家的控制频率,使得策略网络以一定的概率取得机器人的控制权,一方面评估网络的性能,另一方面丰富示教数据分布,帮助网络提高从偏离轨迹中恢复的能力。
下面回到原仿真环境中进行测试与评估,将上述S1~S4训练后得到的训练后的深度神经网络生成操控指令,替代示教专家进行操控机器人实验。
实验设定随机初始化的“走廊”场景来验证社会力模型的有效性。在社会力模型的引导下,行人能够尽可能地保持相对距离,相互避让。对于行人密度的变化,模型也呈现出较强的适应性,因此认为模型较为合理,可以用于行人环境的仿真。
实验在Gazebo中搭建了多个人机共存场景,用于策略网络的训练,如图5所示。在每回合训练开始前,随机初始化模拟行人参数,包括初始位置,初始速度以及目标位置等,增强场景的复杂程度,避免策略模型过拟合。模拟行人在交互过程中相互避让,展现出一定的社交特性,满足人群仿真需求,可以用于后续策略训练。
实验选用多个随机初始化的场景来评估模仿学习得到的策略性能。任务要求策略网络控制移动机器人穿过人机共存环境,最终到达目标点。成功到达目标点附近0.5m范围内则认为任务完成,与障碍物或模拟行人发生碰撞则认为任务失败。在四十次导航任务中,基于模仿学习的社交导航策略表现效果如表1所示,基本满足任务需求。
表1模仿学习策略性能
测试过程中,机器人可以应对动态行人进行灵活的导航决策,产生从右方避让,减速跟随等交互效果,如图8所示,因此可以认为该方法一定程度上从专家示教中习得了社交规范,在完成导航任务的基础上,保证行人运动的安全性与舒适性。
以上所述的实施例只是本发明的一种较佳的方案,然其并非用以限制本发明。有关技术领域的普通技术人员,在不脱离本发明的精神和范围的情况下,还可以做出各种变化和变型。因此凡采取等同替换或等效变换的方式所获得的技术方案,均落在本发明的保护范围内。

Claims (8)

1.一种基于融合行人信息的特征地图的模仿学习社交导航方法,其特征在于,所述方法的步骤如下:
S1、构建基于社会力模型的行人仿真环境,以模拟人机共存环境;
S2、构建融合行人动态信息的特征地图获取模块,用于处理机器人的传感器信息,表征机器人坐标系下的综合环境状况;所述特征地图获取模块中的流程如S21~S24:
S21、基于机器人上搭载的三维激光雷达获取指定高度平面的二维激光信息,并将其恢复为局部障碍物地图形式;
S22、基于机器人上搭载的RGB相机,利用行人跟踪算法获取场景内行人在图像坐标系中的位置序列;
S23、基于机器人上搭载的三维激光雷达,结合S22中得到的行人检测结果,利用三维点云对准算法,获取机器人坐标系下的多帧行人位置信息,并进一步提取出行人的速度信息;
S24、利用社会力模型根据速度大小以及方向差异计算出每个行人的势场信息,将每个行人的势场信息在S21得到的局部障碍物地图上按照不同的颜色进行标注,得到融合行人动态信息的特征地图;
S3、通过人为操控机器人在该行人仿真环境中躲避动态障碍物并到达目标点,获取大量示教数据,用于策略网络的训练;所述示教数据包含融合行人动态信息的特征地图和机器人当前速度状态以及其对应的操控指令;
S4、建立深度神经网络,以局部障碍物地图信息和机器人的自身状态信息为输入,以控制指令为输出,在专家示教数据集下进行迭代训练,从而逐步逼近专家控制准则,习得社交导航策略;
所述深度神经网络中,融合行人动态信息的特征地图通过卷积层提取隐变量,机器人的自身状态信息和目标相对位置各自通过全连接层提取隐变量,三种隐变量拼接后通过两层全连接层后输出控制指令;
所述迭代训练采用在线训练的示教学习算法,采用数据聚合的方式实时更新示教数据集,具体的训练流程如下:示教专家在仿真环境中实时控制移动机器人向目标点运动,并躲避场景内模拟行人;深度神经网络在实时更新存储的示教数据集上进行迭代训练;随着训练的进行,逐步降低专家的控制频率,使得策略网络以一定的概率取得机器人的控制权,一方面评估网络的性能,另一方面丰富示教数据分布,帮助网络提高从偏离轨迹中恢复的能力;
S5、利用训练后的深度神经网络生成操控指令,用于操控机器人。
2.如权利要求1所述的基于融合行人信息的特征地图的模仿学习社交导航方法,其特征在于,步骤S1的具体实现方法为:
采用Gazebo仿真来搭建训练环境,包含多个常见的行人交互场景,各个场景内均包含一个或多个动态障碍物用于行人的模拟;仿真中选用移动机器人来验证导航决策效果,该机器人利用ROS通讯架构,由示教专家通过游戏手柄进行控制,或者由深度神经网络直接进行控制;该训练环境通过随机生成多个依据社会力模型进行运动的模拟行人,构成人机混杂的动态环境。
3. 如权利要求1所述的基于融合行人信息的特征地图的模仿学习社交导航方法,其特征在于,在所述的步骤S2中分别采用Intel RealSense D435深度相机和Velodyne32激光作为感知元件,获取RGB图像和三维激光点云信息。
4.如权利要求1所述的基于融合行人信息的特征地图的模仿学习社交导航方法,其特征在于,所述的步骤S21中,利用二维激光信息,根据激光点的方向以及距离信息,恢复机器人坐标系下的局部障碍物地图;机器人根据激光传感器返回的角度距离信息判断自身坐标系视角下的障碍物分布情况,以二值图像的形式进行表达,其中障碍物以白色点表示,开阔区域以黑色块表示。
5. 如权利要求1所述的基于融合行人信息的特征地图的模仿学习社交导航方法,其特征在于,在所述的步骤S22中采用Deep SORT算法在RGB图像坐标系下进行行人位置序列提取,并通过S23中的三维点云对准算法获取机器人坐标系下的行人位置,对准中采用聚类以及滤波方法保证行人位置确定的精度。
6.如权利要求1所述的基于融合行人信息的特征地图的模仿学习社交导航方法,其特征在于,所述步骤S23的具体实现流程如下:
首先,利用相机和激光雷达的位姿以及参数实现图像坐标系和点云坐标系的对准;接着,根据图像坐标系下的行人检测框位置,对三维点云中的对应部分进行分割;然后,根据滤波以及聚类算法,对分割出的点云进行筛选处理,得到单个行人对应点云的三维边界框,中心位置作为当前行人的位置估计;最后,在预设的时间窗口内,对同一目标的帧间位置差异进行平均,便可得到该行人在机器人坐标系下的大致运动状态。
7.如权利要求1所述的基于融合行人信息的特征地图的模仿学习社交导航方法,其特征在于,在所述的步骤S24中,依据社会力模型中的行人斥力建立运动势场,继而利用等势线对运动状态存在差异的行人进行区别标注,具体过程为:
首先,按照预先设定的行人斥力接受范围,确定分界等势线,并在S21得到的局部障碍物地图上划分出行人的舒适范围,为S22检测得到的各个行人标注占用区域,标注的占用区域的大小与行人的速度大小正相关,使个体间存在差异;随后,依据各个行人的运动方向在局部障碍物地图上对每个行人占用区域进行着色;最终得到融合行人动态信息的特征地图,综合展示机器人坐标系下的环境状态。
8.如权利要求1所述的基于融合行人信息的特征地图的模仿学习社交导航方法,其特征在于,在所述的步骤S3中,示教专家通过ROS通讯架构,利用游戏手柄控制Gazebo中移动机器人运动在躲避场景内仿真行人到达目标点;机器人运动过程中保存S24得到的局部障碍物地图信息、机器人的自身状态信息、目标相对位置以及对应的专家控制信息,从而得到专家示教数据集。
CN202110163401.9A 2021-02-05 2021-02-05 基于融合行人信息的特征地图的模仿学习社交导航方法 Active CN112965081B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110163401.9A CN112965081B (zh) 2021-02-05 2021-02-05 基于融合行人信息的特征地图的模仿学习社交导航方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110163401.9A CN112965081B (zh) 2021-02-05 2021-02-05 基于融合行人信息的特征地图的模仿学习社交导航方法

Publications (2)

Publication Number Publication Date
CN112965081A CN112965081A (zh) 2021-06-15
CN112965081B true CN112965081B (zh) 2023-08-01

Family

ID=76274706

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110163401.9A Active CN112965081B (zh) 2021-02-05 2021-02-05 基于融合行人信息的特征地图的模仿学习社交导航方法

Country Status (1)

Country Link
CN (1) CN112965081B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113467462B (zh) * 2021-07-14 2023-04-07 中国人民解放军国防科技大学 机器人的行人伴随控制方法、装置、移动机器人和介质
CN113486871B (zh) * 2021-09-07 2021-11-16 中国人民解放军国防科技大学 基于深度图的无人车局部自主控制方法、装置和设备
CN114296455B (zh) * 2021-12-27 2023-11-10 东南大学 一种基于行人预测的移动机器人避障方法
CN114529588B (zh) * 2022-04-24 2022-07-26 中国电子科技集团公司第二十八研究所 一种基于相对位置的动目标聚合方法
CN115129049B (zh) * 2022-06-17 2023-03-28 广东工业大学 一种具有社交意识的移动式服务机器人路径规划***和方法
CN115204221B (zh) * 2022-06-28 2023-06-30 深圳市华屹医疗科技有限公司 生理参数的检测方法、设备及存储介质
CN115252992B (zh) * 2022-07-28 2023-04-07 北京大学第三医院(北京大学第三临床医学院) 基于结构光立体视觉的气管插管导航***
CN115131407B (zh) * 2022-09-01 2022-11-22 湖南超能机器人技术有限公司 面向数字仿真环境的机器人目标跟踪方法、装置和设备
CN116703161B (zh) * 2023-06-13 2024-05-28 湖南工商大学 一种人机共融风险的预测方法、装置、终端设备及介质
CN118010009B (zh) * 2024-04-10 2024-06-11 北京爱宾果科技有限公司 一种教育机器人在复杂环境下的多模态导航***

Citations (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103558856A (zh) * 2013-11-21 2014-02-05 东南大学 动态环境下服务动机器人导航方法
CN107493400A (zh) * 2016-06-13 2017-12-19 谷歌公司 向人类操作员的升级
CN108255182A (zh) * 2018-01-30 2018-07-06 上海交通大学 一种基于深度强化学习的服务机器人行人感知避障方法
JP2019036192A (ja) * 2017-08-18 2019-03-07 東日本旅客鉄道株式会社 歩行者の歩行行動を模倣する移動ロボット
CN109947119A (zh) * 2019-04-23 2019-06-28 东北大学 一种基于多传感器融合的移动机器人自主跟随***及方法
CN110032949A (zh) * 2019-03-22 2019-07-19 北京理工大学 一种基于轻量化卷积神经网络的目标检测与定位方法
CN110244322A (zh) * 2019-06-28 2019-09-17 东南大学 基于多源传感器的路面施工机器人环境感知***及方法
CN110285813A (zh) * 2019-07-01 2019-09-27 东南大学 一种室内移动机器人人机共融导航装置及方法
CN110675431A (zh) * 2019-10-08 2020-01-10 中国人民解放军军事科学院国防科技创新研究院 一种融合图像和激光点云的三维多目标跟踪方法
CN111289002A (zh) * 2019-09-24 2020-06-16 陈水弟 一种机器人路径规划方法及***
CN111367282A (zh) * 2020-03-09 2020-07-03 山东大学 一种基于多模感知与强化学习的机器人导航方法及***
CN111429515A (zh) * 2020-03-19 2020-07-17 佛山市南海区广工大数控装备协同创新研究院 基于深度学习的机器人避障行为的学习方法
WO2020164270A1 (zh) * 2019-02-15 2020-08-20 平安科技(深圳)有限公司 基于深度学习的行人检测方法、***、装置及存储介质
CN111708042A (zh) * 2020-05-09 2020-09-25 汕头大学 一种行人轨迹预测和跟随的机器人方法及***
CN111754566A (zh) * 2020-05-12 2020-10-09 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 机器人场景定位方法和施工操作方法
CN111752276A (zh) * 2020-06-23 2020-10-09 深圳市优必选科技股份有限公司 局部路径规划方法、装置、计算机可读存储介质及机器人
CN111781922A (zh) * 2020-06-15 2020-10-16 中山大学 一种适用于复杂动态场景的基于深度强化学习的多机器人协同导航方法
CN111932588A (zh) * 2020-08-07 2020-11-13 浙江大学 一种基于深度学习的机载无人机多目标跟踪***的跟踪方法
CN111949032A (zh) * 2020-08-18 2020-11-17 中国科学技术大学 一种基于强化学习的3d避障导航***及方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10768631B2 (en) * 2018-03-27 2020-09-08 Beijing Jingdong Shangke Information Technology Co., Ltd. Method and apparatus for controlling a mobile robot
WO2020160276A1 (en) * 2019-01-30 2020-08-06 Perceptive Automata, Inc. Neural network based navigation of autonomous vehicles through traffic entities

Patent Citations (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103558856A (zh) * 2013-11-21 2014-02-05 东南大学 动态环境下服务动机器人导航方法
CN107493400A (zh) * 2016-06-13 2017-12-19 谷歌公司 向人类操作员的升级
JP2019036192A (ja) * 2017-08-18 2019-03-07 東日本旅客鉄道株式会社 歩行者の歩行行動を模倣する移動ロボット
CN108255182A (zh) * 2018-01-30 2018-07-06 上海交通大学 一种基于深度强化学习的服务机器人行人感知避障方法
WO2020164270A1 (zh) * 2019-02-15 2020-08-20 平安科技(深圳)有限公司 基于深度学习的行人检测方法、***、装置及存储介质
CN110032949A (zh) * 2019-03-22 2019-07-19 北京理工大学 一种基于轻量化卷积神经网络的目标检测与定位方法
CN109947119A (zh) * 2019-04-23 2019-06-28 东北大学 一种基于多传感器融合的移动机器人自主跟随***及方法
CN110244322A (zh) * 2019-06-28 2019-09-17 东南大学 基于多源传感器的路面施工机器人环境感知***及方法
CN110285813A (zh) * 2019-07-01 2019-09-27 东南大学 一种室内移动机器人人机共融导航装置及方法
CN111289002A (zh) * 2019-09-24 2020-06-16 陈水弟 一种机器人路径规划方法及***
CN110675431A (zh) * 2019-10-08 2020-01-10 中国人民解放军军事科学院国防科技创新研究院 一种融合图像和激光点云的三维多目标跟踪方法
CN111367282A (zh) * 2020-03-09 2020-07-03 山东大学 一种基于多模感知与强化学习的机器人导航方法及***
CN111429515A (zh) * 2020-03-19 2020-07-17 佛山市南海区广工大数控装备协同创新研究院 基于深度学习的机器人避障行为的学习方法
CN111708042A (zh) * 2020-05-09 2020-09-25 汕头大学 一种行人轨迹预测和跟随的机器人方法及***
CN111754566A (zh) * 2020-05-12 2020-10-09 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 机器人场景定位方法和施工操作方法
CN111781922A (zh) * 2020-06-15 2020-10-16 中山大学 一种适用于复杂动态场景的基于深度强化学习的多机器人协同导航方法
CN111752276A (zh) * 2020-06-23 2020-10-09 深圳市优必选科技股份有限公司 局部路径规划方法、装置、计算机可读存储介质及机器人
CN111932588A (zh) * 2020-08-07 2020-11-13 浙江大学 一种基于深度学习的机载无人机多目标跟踪***的跟踪方法
CN111949032A (zh) * 2020-08-18 2020-11-17 中国科学技术大学 一种基于强化学习的3d避障导航***及方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Humanoid Balancing Behavior Featured by Underactuated Foot Motion;Yuxiang Cui et al.;《IEEE TRANSACTIONS ON ROBOTICS,》;第第33卷卷(第第2期期);全文 *
一种室内移动机器人自主避让行人控制方法;于佳圆;张雷;张凯博;;小型微型计算机***;第41卷(第08期);全文 *
景深约束下的深度强化学习机器人路径规划;王珂;卜祥津;李瑞峰;赵立军;;华中科技大学学报(自然科学版);第46卷(第12期);全文 *

Also Published As

Publication number Publication date
CN112965081A (zh) 2021-06-15

Similar Documents

Publication Publication Date Title
CN112965081B (zh) 基于融合行人信息的特征地图的模仿学习社交导航方法
Zhu et al. Starnet: Pedestrian trajectory prediction using deep neural network in star topology
CN110285813B (zh) 一种室内移动机器人人机共融导航装置及方法
CN106875424B (zh) 一种基于机器视觉的城市环境行驶车辆行为识别方法
CN110007675B (zh) 一种基于行车态势图的车辆自动驾驶决策***及基于无人机的训练集制备方法
Rudenko et al. Joint long-term prediction of human motion using a planning-based social force approach
CN102411368B (zh) 机器人的主动视觉人脸跟踪方法和跟踪***
CN114970321A (zh) 一种基于动态轨迹流的场景流数字孪生方法及***
US20230015773A1 (en) Crowd motion simulation method based on real crowd motion videos
CN106780735A (zh) 一种语义地图构建方法、装置及一种机器人
Arif et al. Automated body parts estimation and detection using salient maps and Gaussian matrix model
CN101073089A (zh) 跟踪双手运动
Wang et al. Autonomous flights in dynamic environments with onboard vision
CN112106060A (zh) 控制策略确定方法和***
KR20210108044A (ko) 디지털 트윈 기술을 위한 영상 분석 시스템
CN110347035A (zh) 自主跟踪方法及装置、电子设备、存储介质
Wang et al. End-to-end self-driving approach independent of irrelevant roadside objects with auto-encoder
CN116595871A (zh) 基于动态时空交互图的车辆轨迹预测建模方法与装置
Eiffert et al. Predicting responses to a robot's future motion using generative recurrent neural networks
Ingersoll Vision based multiple target tracking using recursive RANSAC
Zhang et al. Crowd evacuation simulation using hierarchical deep reinforcement learning
Nguyen et al. Deep learning-based multiple objects detection and tracking system for socially aware mobile robot navigation framework
Hao et al. Adversarial safety-critical scenario generation using naturalistic human driving priors
CN114548497B (zh) 一种实现场景自适应的人群运动路径规划方法及***
CN114326826A (zh) 多无人机队形变换方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant