CN111578940A - 一种基于跨传感器迁移学习的室内单目导航方法及*** - Google Patents

一种基于跨传感器迁移学习的室内单目导航方法及*** Download PDF

Info

Publication number
CN111578940A
CN111578940A CN202010330835.9A CN202010330835A CN111578940A CN 111578940 A CN111578940 A CN 111578940A CN 202010330835 A CN202010330835 A CN 202010330835A CN 111578940 A CN111578940 A CN 111578940A
Authority
CN
China
Prior art keywords
mobile robot
laser radar
monocular
determining
course angle
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010330835.9A
Other languages
English (en)
Other versions
CN111578940B (zh
Inventor
高会军
李湛
薛喜地
孙维超
杨学博
于兴虎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Institute of Technology
Original Assignee
Harbin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Institute of Technology filed Critical Harbin Institute of Technology
Priority to CN202010330835.9A priority Critical patent/CN111578940B/zh
Priority to US16/931,653 priority patent/US11561544B2/en
Publication of CN111578940A publication Critical patent/CN111578940A/zh
Application granted granted Critical
Publication of CN111578940B publication Critical patent/CN111578940B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/0088Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots characterized by the autonomous decision making process, e.g. artificial intelligence, predefined behaviours
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C21/00Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
    • G01C21/005Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 with correlation of navigation data from several sources, e.g. map or contour matching
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C21/00Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
    • G01C21/20Instruments for performing navigational calculations
    • G01C21/206Instruments for performing navigational calculations specially adapted for indoor navigation
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S17/00Systems using the reflection or reradiation of electromagnetic waves other than radio waves, e.g. lidar systems
    • G01S17/86Combinations of lidar systems with systems other than lidar, radar or sonar, e.g. with direction finders
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S17/00Systems using the reflection or reradiation of electromagnetic waves other than radio waves, e.g. lidar systems
    • G01S17/88Lidar systems specially adapted for specific applications
    • G01S17/89Lidar systems specially adapted for specific applications for mapping or imaging
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S17/00Systems using the reflection or reradiation of electromagnetic waves other than radio waves, e.g. lidar systems
    • G01S17/88Lidar systems specially adapted for specific applications
    • G01S17/93Lidar systems specially adapted for specific applications for anti-collision purposes
    • G01S17/931Lidar systems specially adapted for specific applications for anti-collision purposes of land vehicles
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0221Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving a learning process
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Remote Sensing (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Theoretical Computer Science (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Electromagnetism (AREA)
  • Medical Informatics (AREA)
  • Game Theory and Decision Science (AREA)
  • Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Traffic Control Systems (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)

Abstract

本发明涉及一种基于跨传感器迁移学习的室内单目导航方法及***。所述方法包括:根据仿真单线激光雷达数据,采用确定性策略梯度的深度强化学习方法,确定自主导航模型;获取实际环境中移动机器人在同一时刻的实际单线激光雷达数据和单目摄像头数据;根据实际单线激光雷达数据,采用自主导航模型,确定移动机器人的航向角;根据同一时刻的移动机器人的航向角和相应时刻的单目摄像头数据,采用Resnet18网络和预训练好的YOLO v3网络,确定激光雷达单目视觉导航模型;根据待确定的单目摄像头数据,采用激光雷达单目视觉导航模型,确定移动机器人当前时刻的航向角;根据当前时刻的航向角进行移动机器人的导航。本发明提高了搭载单目摄像头的移动机器人导航的准确性。

Description

一种基于跨传感器迁移学习的室内单目导航方法及***
技术领域
本发明涉及室内视觉导航领域,特别是涉及一种基于跨传感器迁移学习的室内单目导航方法及***。
背景技术
无人机、无人车等可移动机器人能够为人类社会带来极大的便利,以无人机为例,从最初的实验性试飞到民用航拍,再到近些年来的自主导航甚至分布式定位及建图,都极大提高了人们的工作效率。以小型无人机、无人车为代表的移动机器人体积小、机动性高等特点使其在室内及相似复杂环境中能够更加方便地执行任务。因此,如果移动机器人能够在复杂陌生室内环境中自主智能导航,将极大的扩展其应用范围。然而,移动机器人的室内自主导航算法的研发具有很大的挑战性,自从自主导航算法诞生以来,其在环境结构不确定、光线不稳定,以及室内的行人具有形态差异大、行走方向随意性高等场景下自适应稳定导航一直是无人机、无人车等移动机器人自主导航领域中的难点之一。因此研究室内环境下的自主导航方法具有重大意义。
自然界的生物经过长期进化,环境的多变性反复强化了生物对环境的适应能力。生物科学研究表明,生物在适应一个环境时,是通过不断与环境进行交互,并且获得环境的反馈来不断强化生物的某项能力。例如动物的行走、捕猎、群体运动等等,生物都是在不断地试错的过程中来不断改善和提升自身的决策策略。该类型学习过程亦属于演化进化的范畴,其特点是没有对环境进行精确建模,仅仅是通过与环境的不断交互,来获取环境对自身的奖励或者惩罚来不断改进自身的策略。以无人机为例,对于其自主导航,亦可以用这种类型的学习方式来习得在未知环境中的自主导航能力。在此过程中,将无人机类比作生物,无人机不断试错学习的过程类比作生物的学习过程,生物能够获取到自然界反馈的回报,因此对于无人机在自主学习导航的过程中,可以人为的设定对于无人机学习自主导航有利的奖励和惩罚来激励无人机更快适应这个环境。这也是强化学习算法的基本思想,可以看出,强化学习属于端到端的学习类型,输入一个环境状态,直接输出一个决策动作。
目前,根据路径规划是否基于轨迹法,可将移动机器人导航算法分为两大类,分别是基于轨迹规划的方法和基于动作响应的(端到端决策)方法。对于基于轨迹规划的方法,其优点在于通过动态规划,可以求解出一条全局最优路径,其结果更加可控,更加稳定,但是该类方法带来的弊端是算法耗时长,比较依赖计算机的算力,而且往往基于轨迹规划的算法的泛化能力会相对比较弱一些。对于基于动作响应的方法,此类方法的优点在于其为端到端决策类型的算法,通常算法决策耗时比较短,同时目前基于端到端的算法的泛化能力普遍要优于基于轨迹的方法,但是基于端到端的方法的短板也非常明显,那就是其决策并不一定是全局最优解。
基于动作响应的导航算法又可分为自主学习类和非自主学习两类,非自主学习类的算法诸如人工势场法等算法,但由于当移动机器人距离障碍物过近或者离目标位置太远将会导致局部震荡等一系列问题,虽然后续有改进版本的人工势场法,但也使得其参数变得很难整定,实际应用起来很难。对于自主学习类的移动机器人导航算法,目前主要是基于深度强化学习和深度学习的方法。目前应用深度强化学习进行室内导航较为成功的案例有诸如基于状态值估计的Generalization through Simulation Integrating Simulatedand Real Data into Deep Reinforcement Learning forVisionBasedAutonomousFlight(GTS),该方法为移动机器人室内导航的端到端决策方法。
然而对于该深度强化学***滑;最后,该方法(GTS)将仿真环境训练好的网络移植到实物移动机器人上,由于网络模型过于简单,在实物效果上表现为导航裕度不够、路径不稳定。
目前基于单目视觉的端到端移动机器人导航算法几乎都是在无人的环境下进行飞行试验,因为单目摄像头难以求取深度信息,而且,行人运动的特点是随机性比较强,同时人们喜欢聚焦、围观,这使得该类算法的实用性大大下降,甚至无法使用。
发明内容
本发明的目的是提供一种基于跨传感器迁移学习的室内单目导航方法及***,提高搭载单目摄像头的移动机器人导航的准确性。
为实现上述目的,本发明提供了如下方案:
一种基于跨传感器迁移学习的室内单目导航方法,包括:
获取仿真模型中移动机器人的仿真单线激光雷达数据;所述仿真模型在Webots开源仿真环境里搭建;所述移动机器人的型号为大疆Mavic Pro,所述移动机器人上方安装LMS 291单线激光雷达;所述仿真单线激光雷达数据为深度值;
根据所述仿真单线激光雷达数据,采用确定性策略梯度的深度强化学习方法,确定自主导航模型;所述自主导航模型以所述激光雷达数据为输入,以所述移动机器人的航向角为输出;
获取实际环境中移动机器人在同一时刻的实际单线激光雷达数据和单目摄像头数据;
根据所述实际单线激光雷达数据,采用所述自主导航模型,确定移动机器人的航向角;
根据同一时刻的所述移动机器人的航向角和相应时刻的所述单目摄像头数据,采用Resnet18网络和预训练好的YOLO v3网络,确定激光雷达单目视觉导航模型;所述激光雷达单目视觉导航模型以所述单目摄像头数据为输入,以对应时刻的航向角为输出;
获取待确定的单目摄像头数据;
根据所述待确定的单目摄像头数据,采用所述激光雷达单目视觉导航模型,确定移动机器人当前时刻的航向角;
根据所述当前时刻的航向角进行移动机器人的导航。
可选的,所述根据所述仿真单线激光雷达数据,采用深度确定性策略梯度的学习算法,确定自主导航模型,具体包括:
利用
Figure BDA0002464895640000041
确定回报函数;其中,R为回报函数,k为一个常数取值为0.5,dmin为当前移动机器人的安全裕度,Rp为当前移动机器人的动态性能激励项,
Figure BDA0002464895640000042
其中,v为线速度,w为角速度。
可选的,所述根据同一时刻的所述移动机器人的航向角和相应时刻的所述单目摄像头数据,采用Resnet18网络和预训练好的YOLO v3网络,确定激光雷达单目视觉导航模型,具体包括:
根据同一时刻的所述移动机器人的航向角对所述单目摄像头数据打标签,得到样本图像。
可选的,所述根据同一时刻的所述移动机器人的航向角和相应时刻的所述单目摄像头数据,采用Resnet18网络和预训练好的YOLO v3网络,确定激光雷达单目视觉导航模型,具体还包括:
获取所述Resnet18网络和预训练好的YOLO v3网络;
将所述样本图像分别输入所述Resnet18网络和预训练好的YOLO v3网络;
将所述预训练好的YOLO v3网络输出的行人信息向量合并到所述Resnet18网络的全连接层,得到激光雷达单目视觉导航模型。
一种基于跨传感器迁移学习的室内单目导航***,包括:
第一获取模块,用于获取仿真模型中移动机器人的仿真单线激光雷达数据;所述仿真模型在Webots开源仿真环境里搭建;所述移动机器人的型号为大疆Mavic Pro,所述移动机器人上方安装LMS 291单线激光雷达;所述仿真单线激光雷达数据为深度值;
自主导航模型确定模块,用于根据所述仿真单线激光雷达数据,采用确定性策略梯度的深度强化学习方法,确定自主导航模型;所述自主导航模型以所述激光雷达数据为输入,以所述移动机器人的航向角为输出;
第二获取模块,用于获取实际环境中移动机器人在同一时刻的实际单线激光雷达数据和单目摄像头数据;
移动机器人的航向角确定模块,用于根据所述实际单线激光雷达数据,采用所述自主导航模型,确定移动机器人的航向角;
激光雷达单目视觉导航模型确定模块,用于根据同一时刻的所述移动机器人的航向角和相应时刻的所述单目摄像头数据,采用Resnet18网络和预训练好的YOLO v3网络,确定激光雷达单目视觉导航模型;所述激光雷达单目视觉导航模型以所述单目摄像头数据为输入,以对应时刻的航向角为输出;
第三获取模块,用于获取待确定的单目摄像头数据;
移动机器人当前时刻的航向角确定模块,用于根据所述待确定的单目摄像头数据,采用所述激光雷达单目视觉导航模型,确定移动机器人当前时刻的航向角;
导航模块,用于根据所述当前时刻的航向角进行移动机器人的导航。
可选的,自主导航模型确定模块具体包括:
回报函数确定单元,用于利用
Figure BDA0002464895640000051
确定回报函数;其中,R为回报函数,k为一个常数取值为0.5,dmin为当前移动机器人的安全裕度,Rp为当前移动机器人的动态性能激励项,
Figure BDA0002464895640000052
其中,v为线速度,w为角速度。
可选的,所述激光雷达单目视觉导航模型确定模块具体包括:
样本图像确定单元,用于根据同一时刻的所述移动机器人的航向角对所述单目摄像头数据打标签,得到样本图像。
可选的,所述激光雷达单目视觉导航模型确定模块具体还包括:
第一获取单元,用于获取所述Resnet18网络和预训练好的YOLO v3网络;
激光雷达单目视觉导航模型确定单元,用于将所述样本图像分别输入所述Resnet18网络和预训练好的YOLO v3网络,并将所述预训练好的YOLO v3网络输出的行人信息向量合并到所述Resnet18网络的全连接层,得到激光雷达单目视觉导航模型。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
本发明所提供的一种基于跨传感器迁移学习的室内单目导航方法及***,通过在仿真环境中使用虚拟单线激光雷达作为传感器,通过基于确定性策略梯度(DDPG)的深度强化学习方法,得到一个稳定的自主导航模型,然后通过将单线激光雷达与单目摄像头采集的现实环境数据逐帧绑定,利用自主导航模型,对现实环境数据进行实时标注,并采用标注后的数据集进一步训练得到激光雷达单目视觉导航模型,从而实现从只使用激光雷达的仿真环境向只使用单目摄像头的现实环境的跨传感器迁移学习。进而通过只单目摄像头数据获取搭载单目摄像头的移动机器人的导航角,进一步提高搭载单目摄像头的移动机器人导航的准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明所提供的一种基于跨传感器迁移学习的室内单目导航方法流程示意图;
图2为单线激光雷达数据示意图;
图3为自主导航模型结构示意图;
图4为激光雷达单目视觉导航模型结构示意图;
图5为本发明所提供的一种基于跨传感器迁移学习的室内单目导航***结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的目的是提供一种基于跨传感器迁移学习的室内单目导航方法及***,提高搭载单目摄像头的移动机器人导航的准确性。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
图1为本发明所提供的一种基于跨传感器迁移学习的室内单目导航方法流程示意图,如图1所示,本发明所提供的一种基于跨传感器迁移学习的室内单目导航方法,包括:
S101,获取仿真模型中移动机器人的仿真单线激光雷达数据;所述仿真模型在Webots开源仿真环境里搭建;所述移动机器人的型号为大疆Mavic Pro,所述移动机器人上方安装LMS 291单线激光雷达;所述仿真单线激光雷达数据为深度值;单线激光雷达数据如图2所示。
S102,根据所述仿真单线激光雷达数据,采用确定性策略梯度的深度强化学习方法,确定自主导航模型;所述自主导航模型以所述激光雷达数据为输入,以所述移动机器人的航向角为输出。所述强化学习方法包含状态空间设计、动作空间设计、网络设计,回报函数设计四大因素。
1、状态空间设计:状态空间即强化学习的输入状态(state)。激光雷达数据如图2中绿色射线所示,激光雷达在0~180°范围内发射出180条射线,并返回射线的长度值(深度值)。在这里对激光雷达的0~180°范围内的数据进行采样,每隔9°采样一次。由此组成一个新的激光雷达的数据数组,长度为20。此时激光雷达数据如式子(1)所示。其中newLidarData即为新的激光雷达数据,l1,l2,...,l18,l19,l20分别表示这20个采样后的激光雷达数据。将新的激光雷达数据当作强化学习状态state输入,如式子(1)所示。
state=newLidarData=[l1,l2,...,l18,l19,l20] (1)
2、动作空间设计:在这里强化学习策略的输出动作空间定义为0~180°范围内的航向角度数值,为连续值。
3、网络结构:结构示意图如图3所示,“|”后面的数字表示当前层神经元个数。DDPG算法类似对抗生成网络,有两个网络,一个是表演者Actor,一个是评论者Critic,Actor网络输入状态state然后输出动作,Critic输入Actor发出的动作a以及状态state,输出一个评分Q,用来评价Actor输出的动作的好坏。Actor网络的代价函数如式子(2)所示,Critic网络的代价函数如式子(3)所示。式子(2)表示Actor的目标是最大化Critic的评分。式子(3)为经典的时间差分(TD)代价函数,其中r为环境回报,γ为折扣率,常数,一般为0.99。同时,Q(s')、Q(s)分别表示上一个时刻和下一个时刻的评分Q值。
actor_loss=-Q (2)
critic_loss=r+γ·Q(s')-Q(s)
4、回报函数:利用
Figure BDA0002464895640000081
确定回报函数;其中,R为回报函数,k为一个常数取值为0.5,dmin为当前移动机器人的安全裕度,Rp为当前移动机器人的动态性能激励项,
Figure BDA0002464895640000082
其中,v为线速度,w为角速度。
dmin为式(1)中所述的20个激光雷达数据中的最小值,表征移动机器人当前的安全裕度。
回报函数包括两大部分:其一,碰撞惩罚部分,当移动机器人发生碰撞时,其直接给予移动机器人一个-100的惩罚,这种形式虽然能够起作用,但是其回报函数数值突变太过明显,非常不利于神经网络的拟合以及策略决策的平滑性。因此将回报函数设计成
Figure BDA0002464895640000083
形式。
Figure BDA0002464895640000084
表示移动机器人距离所有障碍物越远,所受的惩罚越小,此项用以惩罚移动机器人的碰撞,同时还能激励移动机器人尽量往道路的正中间飞行,安全裕度更大,同时
Figure BDA0002464895640000085
的形式使得移动机器人在避障方面的惩罚函数是连续函数,使得神经网络更加易于拟合以及策略决策的平滑性更高;其二,移动机器人动态性能的激励部分,本部分将移动机器人的角速度和线速度激励融合为一个分段函数,同时分段函数值的差异不是很大,因此不会对神经网络的拟合造成太大的难度。
Rp的表达式中第一项表示若移动机器人的决策线速度v越低,则说明移动机器人极有可能处于静止不动或者原地打转的情况,此时给予惩罚。第二项表示若移动机器人的线速度v和角速度w均不为0,则说明移动机器人正在按照预期在建筑物内漫游并且存活,则给予一定的奖励。第三项表示当移动机器人线速度v不为0时,且偏航角速度w为0,则给予0.1的正激励,目的是为了激励移动机器人积极漫游。值得注意的是,一般情况下数值优先级是
Figure BDA0002464895640000091
这也就意味着子任务的优先级为:避障>积极漫游。这个优先级设置保证移动机器人在稳定避障的同时,能够保证以最大的安全裕度在建筑物内积极漫游,这样就极大提升了移动机器人的“存活”时间。
在具体的实施例中,计算机配置为GPU 1080Ti;CPU i78700K的情况下训练大约4h后策略趋于稳定。
S103,获取实际环境中移动机器人在同一时刻的实际单线激光雷达数据和单目摄像头数据。将单线激光雷达与单目摄像头固定在一起,并用固定后的设备进行同一时刻的实际单线激光雷达数据和单目摄像头数据的采集。采集回来的数据集格式为(image,lidarData),其中image和lidarData分别是同一时刻摄像头采集的图片和激光雷达采集的数据,图片大小为640*480,RGB格式。
S104,根据所述实际单线激光雷达数据,采用所述自主导航模型,确定移动机器人的航向角。
具体的确定过程为:
利用公式directionn=mid(max(lidarData_blank)n)确定移动机器人的航向角。
式中,max(lidarData_blank)n代表求取tn时刻单线激光雷达覆盖范围内连续空白区域面积最大的区域,n=1,2,…。
mid(max(lidarData_blank)n)代表求取区域max(lidarData_blank)n的中心航向角,将求取出的mid(max(lidarData_blank)n)作为tn时刻移动机器人的航向角directionn
S105,根据同一时刻的所述移动机器人的航向角和相应时刻的所述单目摄像头数据,采用Resnet18网络和预训练好的YOLO v3网络,确定激光雷达单目视觉导航模型;所述激光雷达单目视觉导航模型以所述单目摄像头数据为输入,以对应时刻的航向角为输出。
根据同一时刻的所述移动机器人的航向角对所述单目摄像头数据打标签,得到样本图像,其格式为(image,direction),direction为航向角。
获取所述Resnet18网络和预训练好的YOLO v3网络。
将所述样本图像分别输入所述Resnet18网络和预训练好的YOLO v3网络。将所述预训练好的YOLO v3网络输出的行人信息向量合并到所述Resnet18网络的全连接层,得到激光雷达单目视觉导航模型,并如图4所示。
利用预训练好的YOLO v3网络输出行人信息向量合,其具体为:
personn=(xt1,yt1,xb1,yb1,xt2,yt2,xb2,yb2...xti,yti,xbi,ybi...xtI,ytI,xbI,ybI)。
式中,(xti,yti,xbi,ybi)代表tn时刻图像中第i个行人预测框在图像中的左上角顶点坐标和右下角顶点坐标,i=1,2,…,I,I代表tn时刻图像中的行人总个数,personn代表tn时刻图像中全部行人预测框在图像中的左上角顶点坐标和右下角顶点坐标组成的集合。
激光雷达单目视觉导航模型包括Resnet18网络、训练好的YOLO v3网络、隐藏层1~4和输出层,其中Resnet18网络的神经元个数为7168,训练好的YOLO v3网络输出的行人信息个数为40,隐藏层1、隐藏层2、隐藏层3、隐藏层4和输出层的神经元个数分别为7208、256、128、16和1。
激光雷达单目视觉导航模型的隐藏层1~4均采用ReLU激活函数,输出层采用Linear激活函数。
激光雷达单目视觉导航模型的代价函数采用均方误差,代价函数的表达式如公式(3)所示:
Figure BDA0002464895640000101
式中,Loss代表代价函数,yj代表第j张样本图像对应的激光雷达单目视觉导航模型的输出结果,
Figure BDA0002464895640000102
代表第j张样本图像对应的航向角,m代表一个批次的样本图像数量。
S106,获取待确定的单目摄像头数据。
S107,根据所述待确定的单目摄像头数据,采用所述激光雷达单目视觉导航模型,确定移动机器人当前时刻的航向角。
S108,根据所述当前时刻的航向角进行移动机器人的导航。
图5为本发明所提供的一种基于跨传感器迁移学习的室内单目导航***结构示意图,如图5所示,本发明所提供的一种基于跨传感器迁移学习的室内单目导航***,包括:第一获取模块501、自主导航模型确定模块502、第二获取模块503、移动机器人的航向角确定模块504、激光雷达单目视觉导航模型确定模块505、第三获取模块506、移动机器人当前时刻的航向角确定模块507和导航模块508。
第一获取模块501用于获取仿真模型中移动机器人的仿真单线激光雷达数据;所述仿真模型在Webots开源仿真环境里搭建;所述移动机器人的型号为大疆Mavic Pro,所述移动机器人上方安装LMS 291单线激光雷达;所述仿真单线激光雷达数据为深度值;
自主导航模型确定模块502用于根据所述仿真单线激光雷达数据,采用确定性策略梯度的深度强化学习方法,确定自主导航模型;所述自主导航模型以所述激光雷达数据为输入,以所述移动机器人的航向角为输出;
第二获取模块503用于获取实际环境中移动机器人在同一时刻的实际单线激光雷达数据和单目摄像头数据;
移动机器人的航向角确定模块504用于根据所述实际单线激光雷达数据,采用所述自主导航模型,确定移动机器人的航向角;
激光雷达单目视觉导航模型确定模块505用于根据同一时刻的所述移动机器人的航向角和相应时刻的所述单目摄像头数据,采用Resnet18网络和预训练好的YOLO v3网络,确定激光雷达单目视觉导航模型;所述激光雷达单目视觉导航模型以所述单目摄像头数据为输入,以对应时刻的航向角为输出;
第三获取模块506用于获取待确定的单目摄像头数据;
移动机器人当前时刻的航向角确定模块507用于根据所述待确定的单目摄像头数据,采用所述激光雷达单目视觉导航模型,确定移动机器人当前时刻的航向角;
导航模块508用于根据所述当前时刻的航向角进行移动机器人的导航。
自主导航模型确定模块502具体包括:回报函数确定单元。
回报函数确定单元用于利用
Figure BDA0002464895640000121
确定回报函数;其中,R为回报函数,k为一个常数取值为0.5,dmin为当前移动机器人的安全裕度,Rp为当前移动机器人的动态性能激励项,
Figure BDA0002464895640000122
其中,v为线速度,w为角速度。
所述激光雷达单目视觉导航模型确定模块505具体包括:样本图像确定单元、第一获取单元和激光雷达单目视觉导航模型确定单元。
样本图像确定单元用于根据同一时刻的所述移动机器人的航向角对所述单目摄像头数据打标签,得到样本图像。
第一获取单元用于获取所述Resnet18网络和预训练好的YOLO v3网络;
激光雷达单目视觉导航模型确定单元用于将所述样本图像分别输入所述Resnet18网络和预训练好的YOLO v3网络,并将所述预训练好的YOLO v3网络输出的行人信息向量合并到所述Resnet18网络的全连接层,得到激光雷达单目视觉导航模型。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的***而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。

Claims (8)

1.一种基于跨传感器迁移学习的室内单目导航方法,其特征在于,包括:
获取仿真模型中移动机器人的仿真单线激光雷达数据;所述仿真模型在Webots开源仿真环境里搭建;所述移动机器人的型号为大疆Mavic Pro,所述移动机器人上方安装LMS291单线激光雷达;所述仿真单线激光雷达数据为深度值;
根据所述仿真单线激光雷达数据,采用确定性策略梯度的深度强化学习方法,确定自主导航模型;所述自主导航模型以所述激光雷达数据为输入,以所述移动机器人的航向角为输出;
获取实际环境中移动机器人在同一时刻的实际单线激光雷达数据和单目摄像头数据;
根据所述实际单线激光雷达数据,采用所述自主导航模型,确定移动机器人的航向角;
根据同一时刻的所述移动机器人的航向角和相应时刻的所述单目摄像头数据,采用Resnet18网络和预训练好的YOLO v3网络,确定激光雷达单目视觉导航模型;所述激光雷达单目视觉导航模型以所述单目摄像头数据为输入,以对应时刻的航向角为输出;
获取待确定的单目摄像头数据;
根据所述待确定的单目摄像头数据,采用所述激光雷达单目视觉导航模型,确定移动机器人当前时刻的航向角;
根据所述当前时刻的航向角进行移动机器人的导航。
2.根据权利要求1所述的一种基于跨传感器迁移学习的室内单目导航方法,其特征在于,所述根据所述仿真单线激光雷达数据,采用确定性策略梯度的深度强化学习方法,确定自主导航模型,具体包括:
利用
Figure FDA0002464895630000011
确定回报函数;其中,R为回报函数,k为一个常数取值为0.5,dmin为当前移动机器人的安全裕度,Rp为当前移动机器人的动态性能激励项,
Figure FDA0002464895630000021
其中,v为线速度,w为角速度。
3.根据权利要求1所述的一种基于跨传感器迁移学习的室内单目导航方法,其特征在于,所述根据同一时刻的所述移动机器人的航向角和相应时刻的所述单目摄像头数据,采用Resnet18网络和预训练好的YOLO v3网络,确定激光雷达单目视觉导航模型,具体包括:
根据同一时刻的所述移动机器人的航向角对所述单目摄像头数据打标签,得到样本图像。
4.根据权利要求3所述的一种基于跨传感器迁移学习的室内单目导航方法,其特征在于,所述根据同一时刻的所述移动机器人的航向角和相应时刻的所述单目摄像头数据,采用Resnet18网络和预训练好的YOLO v3网络,确定激光雷达单目视觉导航模型,具体还包括:
获取所述Resnet18网络和预训练好的YOLO v3网络;
将所述样本图像分别输入所述Resnet18网络和预训练好的YOLO v3网络;
将所述预训练好的YOLO v3网络输出的行人信息向量合并到所述Resnet18网络的全连接层,得到激光雷达单目视觉导航模型。
5.一种基于跨传感器迁移学习的室内单目导航***,其特征在于,包括:
第一获取模块,用于获取仿真模型中移动机器人的仿真单线激光雷达数据;所述仿真模型在Webots开源仿真环境里搭建;所述移动机器人的型号为大疆Mavic Pro,所述移动机器人上方安装LMS 291单线激光雷达;所述仿真单线激光雷达数据为深度值;
自主导航模型确定模块,用于根据所述仿真单线激光雷达数据,采用确定性策略梯度的深度强化学习方法,确定自主导航模型;所述自主导航模型以所述激光雷达数据为输入,以所述移动机器人的航向角为输出;
第二获取模块,用于获取实际环境中移动机器人在同一时刻的实际单线激光雷达数据和单目摄像头数据;
移动机器人的航向角确定模块,用于根据所述实际单线激光雷达数据,采用所述自主导航模型,确定移动机器人的航向角;
激光雷达单目视觉导航模型确定模块,用于根据同一时刻的所述移动机器人的航向角和相应时刻的所述单目摄像头数据,采用Resnet18网络和预训练好的YOLO v3网络,确定激光雷达单目视觉导航模型;所述激光雷达单目视觉导航模型以所述单目摄像头数据为输入,以对应时刻的航向角为输出;
第三获取模块,用于获取待确定的单目摄像头数据;
移动机器人当前时刻的航向角确定模块,用于根据所述待确定的单目摄像头数据,采用所述激光雷达单目视觉导航模型,确定移动机器人当前时刻的航向角;
导航模块,用于根据所述当前时刻的航向角进行移动机器人的导航。
6.根据权利要求5所述的一种基于跨传感器迁移学习的室内单目导航***,其特征在于,自主导航模型确定模块具体包括:
回报函数确定单元,用于利用
Figure FDA0002464895630000031
确定回报函数;其中,R为回报函数,k为一个常数取值为0.5,dmin为当前移动机器人的安全裕度,Rp为当前移动机器人的动态性能激励项,
Figure FDA0002464895630000032
其中,v为线速度,w为角速度。
7.根据权利要求5所述的一种基于跨传感器迁移学习的室内单目导航***,其特征在于,所述激光雷达单目视觉导航模型确定模块具体包括:
样本图像确定单元,用于根据同一时刻的所述移动机器人的航向角对所述单目摄像头数据打标签,得到样本图像。
8.根据权利要求7所述的一种基于跨传感器迁移学习的室内单目导航方法,其特征在于,所述激光雷达单目视觉导航模型确定模块具体还包括:
第一获取单元,用于获取所述Resnet18网络和预训练好的YOLO v3网络;
激光雷达单目视觉导航模型确定单元,用于将所述样本图像分别输入所述Resnet18网络和预训练好的YOLO v3网络,并将所述预训练好的YOLO v3网络输出的行人信息向量合并到所述Resnet18网络的全连接层,得到激光雷达单目视觉导航模型。
CN202010330835.9A 2020-04-24 2020-04-24 一种基于跨传感器迁移学习的室内单目导航方法及*** Active CN111578940B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202010330835.9A CN111578940B (zh) 2020-04-24 2020-04-24 一种基于跨传感器迁移学习的室内单目导航方法及***
US16/931,653 US11561544B2 (en) 2020-04-24 2020-07-17 Indoor monocular navigation method based on cross-sensor transfer learning and system thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010330835.9A CN111578940B (zh) 2020-04-24 2020-04-24 一种基于跨传感器迁移学习的室内单目导航方法及***

Publications (2)

Publication Number Publication Date
CN111578940A true CN111578940A (zh) 2020-08-25
CN111578940B CN111578940B (zh) 2021-05-11

Family

ID=72118551

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010330835.9A Active CN111578940B (zh) 2020-04-24 2020-04-24 一种基于跨传感器迁移学习的室内单目导航方法及***

Country Status (2)

Country Link
US (1) US11561544B2 (zh)
CN (1) CN111578940B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112270451A (zh) * 2020-11-04 2021-01-26 中国科学院重庆绿色智能技术研究院 一种基于强化学习的监护预警方法及***
CN113867370A (zh) * 2021-12-02 2021-12-31 智道网联科技(北京)有限公司 一种基于时间同步的障碍物航向角计算方法及装置
CN114609925A (zh) * 2022-01-14 2022-06-10 中国科学院自动化研究所 水下探索策略模型的训练方法及仿生机器鱼水下探索方法

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114055471B (zh) * 2021-11-30 2022-05-10 哈尔滨工业大学 一种结合神经运动规划算法和人工势场法的机械臂在线运动规划方法
CN114237235B (zh) * 2021-12-02 2024-01-19 之江实验室 一种基于深度强化学习的移动机器人避障方法
CN114859899B (zh) * 2022-04-18 2024-05-31 哈尔滨工业大学人工智能研究院有限公司 移动机器人导航避障的演员-评论家稳定性强化学习方法
CN115147496A (zh) * 2022-06-29 2022-10-04 中国航天空气动力技术研究院 一种基于深度学习的水下视觉导引实时检测方法及装置
CN115574816B (zh) * 2022-11-24 2023-03-14 东南大学 仿生视觉多源信息智能感知无人平台
CN115805595B (zh) * 2023-02-09 2023-12-26 白杨时代(北京)科技有限公司 机器人导航方法、装置及杂物清理机器人
CN116520281B (zh) * 2023-05-11 2023-10-24 兰州理工大学 一种基于ddpg的扩展目标跟踪优化方法和装置
CN116559927B (zh) * 2023-07-11 2023-09-22 新石器慧通(北京)科技有限公司 激光雷达的航向角确定方法、装置、设备及介质
CN117232531B (zh) * 2023-11-14 2024-01-30 长沙小钴科技有限公司 机器人导航规划方法及存储介质和终端设备
CN117948976A (zh) * 2024-01-04 2024-04-30 中山大学·深圳 一种基于图采样与聚合的无人平台导航方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108594244A (zh) * 2018-04-28 2018-09-28 吉林大学 基于立体视觉和激光雷达的障碍物识别迁移学习方法
CN109348410A (zh) * 2018-11-16 2019-02-15 电子科技大学 基于全局和局部联合约束迁移学习的室内定位方法
CN109766769A (zh) * 2018-12-18 2019-05-17 四川大学 一种基于单目视觉与深度学习的道路目标检测识别方法
CN110084307A (zh) * 2019-04-30 2019-08-02 东北大学 一种基于深度强化学习的移动机器人视觉跟随方法
CN110517228A (zh) * 2019-07-30 2019-11-29 浙江农林大学 基于卷积神经网络与迁移学习的树干图像快速检测方法
CN110751220A (zh) * 2019-10-24 2020-02-04 江西应用技术职业学院 一种基于改进卷积神经网络结构的机器视觉室内定位方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106030430A (zh) * 2013-11-27 2016-10-12 宾夕法尼亚大学理事会 用于使用旋翼微型航空载具(mav)在室内和室外环境中的稳健的自主飞行的多传感器融合

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108594244A (zh) * 2018-04-28 2018-09-28 吉林大学 基于立体视觉和激光雷达的障碍物识别迁移学习方法
CN109348410A (zh) * 2018-11-16 2019-02-15 电子科技大学 基于全局和局部联合约束迁移学习的室内定位方法
CN109766769A (zh) * 2018-12-18 2019-05-17 四川大学 一种基于单目视觉与深度学习的道路目标检测识别方法
CN110084307A (zh) * 2019-04-30 2019-08-02 东北大学 一种基于深度强化学习的移动机器人视觉跟随方法
CN110517228A (zh) * 2019-07-30 2019-11-29 浙江农林大学 基于卷积神经网络与迁移学习的树干图像快速检测方法
CN110751220A (zh) * 2019-10-24 2020-02-04 江西应用技术职业学院 一种基于改进卷积神经网络结构的机器视觉室内定位方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
曹风魁等: "移动机器人长期自主环境适应研究进展和展望", 《自动化学报》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112270451A (zh) * 2020-11-04 2021-01-26 中国科学院重庆绿色智能技术研究院 一种基于强化学习的监护预警方法及***
CN112270451B (zh) * 2020-11-04 2022-05-24 中国科学院重庆绿色智能技术研究院 一种基于强化学习的监护预警方法及***
CN113867370A (zh) * 2021-12-02 2021-12-31 智道网联科技(北京)有限公司 一种基于时间同步的障碍物航向角计算方法及装置
CN114609925A (zh) * 2022-01-14 2022-06-10 中国科学院自动化研究所 水下探索策略模型的训练方法及仿生机器鱼水下探索方法
CN114609925B (zh) * 2022-01-14 2022-12-06 中国科学院自动化研究所 水下探索策略模型的训练方法及仿生机器鱼水下探索方法

Also Published As

Publication number Publication date
US20210333793A1 (en) 2021-10-28
CN111578940B (zh) 2021-05-11
US11561544B2 (en) 2023-01-24

Similar Documents

Publication Publication Date Title
CN111578940B (zh) 一种基于跨传感器迁移学习的室内单目导航方法及***
CN111061277B (zh) 一种无人车全局路径规划方法和装置
Liu et al. Path planning techniques for mobile robots: Review and prospect
Rehder et al. Pedestrian prediction by planning using deep neural networks
CN111210518B (zh) 基于视觉融合地标的拓扑地图生成方法
AlMahamid et al. Autonomous unmanned aerial vehicle navigation using reinforcement learning: A systematic review
Xia et al. Neural inverse reinforcement learning in autonomous navigation
Liu et al. Map-based deep imitation learning for obstacle avoidance
CN112034887A (zh) 无人机躲避柱状障碍物到达目标点的最优路径训练方法
CN116263335A (zh) 一种基于视觉与雷达信息融合与强化学习的室内导航方法
Ou et al. Autonomous quadrotor obstacle avoidance based on dueling double deep recurrent Q-learning with monocular vision
Liu et al. ReinforcementDriving: Exploring trajectories and navigation for autonomous vehicles
Li et al. Learning view and target invariant visual servoing for navigation
Li et al. A behavior-based mobile robot navigation method with deep reinforcement learning
Salvatore et al. A neuro-inspired approach to intelligent collision avoidance and navigation
Yang et al. Autonomous UAV navigation in dynamic environments with double deep Q-networks
Lei et al. A bio-inspired neural network approach to robot navigation and mapping with nature-inspired algorithms
CN111611869B (zh) 一种基于串行深度神经网络的端到端单目视觉避障方法
CN117055601B (zh) 一种无人机送餐路径规划方法、装置、设备及存储介质
CN116679710A (zh) 一种基于多任务学习的机器人避障策略训练与部署方法
Shi et al. Path Planning of Unmanned Aerial Vehicle Based on Supervised Learning
Yu et al. Visual confined-space navigation using an efficient learned bilinear optic flow approximation for insect-scale robots
Zhang et al. A deep reinforcement learning method for mobile robot path planning in unknown environments
Ricardo et al. Low-cost, real-time obstacle avoidance for mobile robots
Gharaee et al. A Bayesian approach to reinforcement learning of vision-based vehicular control

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant