CN114200936B - 基于最优控制及宽度学习的agv实时路径规划方法 - Google Patents

基于最优控制及宽度学习的agv实时路径规划方法 Download PDF

Info

Publication number
CN114200936B
CN114200936B CN202111482549.5A CN202111482549A CN114200936B CN 114200936 B CN114200936 B CN 114200936B CN 202111482549 A CN202111482549 A CN 202111482549A CN 114200936 B CN114200936 B CN 114200936B
Authority
CN
China
Prior art keywords
agv
optimal
width learning
state
optimal control
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111482549.5A
Other languages
English (en)
Other versions
CN114200936A (zh
Inventor
吴宗泽
赖家伦
李嘉俊
任志刚
曾德宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong University of Technology
Original Assignee
Guangdong University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong University of Technology filed Critical Guangdong University of Technology
Priority to CN202111482549.5A priority Critical patent/CN114200936B/zh
Publication of CN114200936A publication Critical patent/CN114200936A/zh
Application granted granted Critical
Publication of CN114200936B publication Critical patent/CN114200936B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0221Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving a learning process
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明提出一种基于最优控制及宽度学习的AGV实时路径规划方法,涉及AGV路径规划的技术领域,首先构建AGV动力学模型,以AGV动力学模型作为动态约束,以时间‑燃耗最优为目标函数,建立最优控制模型并离线正向求解,生成若干不同起始点的最优控制轨迹,在此情况下,考虑离线优化较难实现实时最优控制以达到最优轨迹的目的,为了避免离线优化求解导致的滞后性,引入宽度学习网络,以不同的目标点作为分类依据,将最优控制轨迹整合归类成不同导航任务的训练数据集,增量式训练宽度学习网络,得到最终用于AGV实时路径规划的宽度学习网络,实现一定范围内任意起始点AGV路径规划的实时最优控制。

Description

基于最优控制及宽度学习的AGV实时路径规划方法
技术领域
本发明涉及AGV路径规划的技术领域,更具体地,涉及一种基于最优控制及宽度学习的AGV实时路径规划方法。
背景技术
无人搬运车(Automated Guided Vehicle,简称AGV),指装备有电磁或光学等自动导引装置,能够沿规定的导引路径行驶,具有安全保护以及各种移载功能的运输车,是柔性生产***的关键设备,在物件搬运自动化及智能仓储中起着重要作用。
目前,动态和灵活的制造环境给车间AGV路径规划与实时控制带来了许多挑战。AGV按其控制方式和自主程度大致可分为遥控式、半自主式与自主式三种,基于多磁轨式的导航是AGV最早采用的路径规划方法,同时也是当前AGV大部分路径规划所采用的方法。在该方法中,AGV通过识别铺设在地面的磁轨道确定行进路线,但是这种方法受限于磁轨的不灵活性,扩充路径相对复杂;视觉+二维码式导航也是当前AGV领域应用较多的导航方式,AGV通过识别粘贴在地面上的有间隔的具有唯一性的二维码,获得二维码信息来确定位置和行进路线,这种方式相比于磁轨式,行动更为灵活,易于调度,但是存在着标识易磨损、环境光要求高等问题;激光SLAM式导航是通过AGV发射激光信号,再通过墙壁或立柱上设置的反光板反射回来的信号来确定位置,这种方式能克服以上两种方式的缺点,但是存在着制图时间久、成本高等问题,市场应用较少。
随着深度学习技术的发展,将深度学习应用于AGV路径规划的方法应运而生,如现有技术中公开了一种基于强化学习的AGV路径规划方法及***,在该方法中首先构建了AGV动力学模型,然后以AGV为智能体,以其行驶所感知到的环境信息为状态信息,考虑目的地位置、障碍物位置设计状态空间,以及设计连续性动作空间、多重奖励机制,完成路径规划的马尔科夫过程建模,在该方案中,状态空间可给定任意不同起始点、目标点、任意位置障碍物,可泛化性高,后续引入了Actor-Critic框架进行策略学习训练,在线运行避免了计算量大的问题,算力要求低,实现了AGV对任意目标、障碍物的实时决策控制,不过在该专利的技术方案中因为涉及较为漫长的AGV与环境的试错学习过程,收敛缓慢,耗时相对也较多,训练过程中也涉及合适的奖励函数设计、神经网络结构设计等人为经验依赖部分。
发明内容
为解决现有基于深度学习的AGV路径规划方法中,深度神经网络参数调整复杂,且训练过程缓慢的问题,本发明提出一种基于最优控制及宽度学习的AGV实时路径规划方法,不存在人为先验性强的调参工作,离线高效训练宽度学习网络,耗时低,为未来大规模的车间AGV编队以及避障应用提供进一步的扩展和应用。
为了达到上述技术效果,本发明的技术方案如下:
一种基于最优控制及宽度学习的AGV实时路径规划方法,所述方法包括以下步骤:
S1.构建AGV动力学模型;
S2.以AGV动力学模型作为动态约束,以时间-燃耗最优为目标函数,建立最优控制模型;
S3.随机生成AGV初始点,以初始点作为最优控制模型求解的初始条件,离线正向求解最优控制模型,生成若干不同起始点的最优控制轨迹,最优控制轨迹中包括“最优状态-控制率”对;
S4.构建宽度学习网络,基于“最优状态-控制率”对,按目标位置将最优控制轨迹整合归类为不同的训练数据集,对宽度学习网络进行增量式离线训练;
S5.离线训练完成后,确定宽度学习网络的权重参数,将训练完成的宽度学习网络作为实时控制器,用于AGV的路径实时规划。
在本技术方案中,首先构建AGV动力学模型,以AGV动力学模型作为动态约束,以时间-燃耗最优为目标函数,建立最优控制模型并求解,考虑最优控制模型的数值解具有最优性,但计算复杂度高,在不适于实时计算的前提下,离线正向求解最优控制模型,生成若干不同起始点的最优控制轨迹,在此情况下,考虑离线优化较难实现实时最优控制以达到最优路径规划的目的,为了避免离线优化求解导致的滞后性,引入宽度学习网络,以不同的目标点作为分类依据,将最优控制轨迹整合归类成不同导航任务的训练数据集,增量式训练宽度学习网络,得到最终用于AGV实时路径规划的宽度学习网络,实现一定范围内任意起始的点AGV实时最优控制,宽度学习网络用于在线运行时,由于控制率预测只涉及简单的矩阵运算,不存在计算量大的问题,因此实时性可以保证。
优选地,步骤S1所述的AGV动力学模型为:
Figure BDA0003395413930000031
其中,t为时间变量,t∈[0,tf],tf指定为末端状态所对应的时刻,x(t)、y(t)表示t时刻AGV中点所处的位置坐标的横坐标与纵坐标,以P=(x,y)表示AGV的中心所处的位置坐标;θ(t)表示t时刻的AGV与目标位置间的方位角,φ(t)表示t时刻的转向角,α(t)表示t时刻的方位角方向的加速度;ω(t)表示角速度,Lw表示AGV的轮距长度。
优选地,步骤S2所述以AGV动力学模型作为动态约束,以时间-燃耗最优为目标函数,建立的最优控制模型表达式为:
目标函数:
Figure BDA0003395413930000032
约束条件:
Figure BDA0003395413930000033
其中,J1表示燃耗;
Figure BDA0003395413930000037
表示权衡优化目标中时间最优和燃耗最优的重视程度;ei表示根据已知的障碍物位置设计的路径约束,满足:/>
Figure BDA0003395413930000034
其中,i=1,...,N,
Figure BDA0003395413930000038
表示t时刻下第i个障碍物位置坐标,ri表示所对应的障碍物半径,k表示一个碰撞预警阈值;/>
Figure BDA0003395413930000035
表示转化的路径约束,ε为趋近于0的一个正数;/>
Figure BDA0003395413930000036
表示AGV动力学模型,s(t)=[x(t),y(t),v(t),φ(t),θ(t)]为状态变量,c=[α(t),ω(t)]为控制率,Bound(s(t),u(t))表示AGV的边界值约束;s(t0)和s(tf)表示给定的AGV初始状态和末状态。
优选地,步骤S3所述随机生成的AGV初始点表示为:
s(t0)=[x_random,y_random,0,0,0]
以初始点作为最优控制模型求解的初始条件,离线正向求解最优控制模型,方法不限定于最优控制直接法中的伪谱法和打靶法;首先对状态变量S(τ)和控制率C(τ)进行插值,插值法仅是获得中间点的值用于求解计算,插值方法不限定于拉格朗日插值法,最终生成若干不同起始点的最优控制轨迹,表示为:
Figure BDA0003395413930000041
其中,
Figure BDA0003395413930000042
表示最优控制轨迹集合,每一个(st,ct)组成“最优状态-控制率”对(s,c)。
优选地,根据不同的目标位置整合,基于每个目标位置对应的“最优状态-控制率”对(s,c),将最优控制轨迹整合归类为不同的训练数据集,对应表征为:
Figure BDA0003395413930000043
其中,
Figure BDA0003395413930000044
表示包含以A位置为目标状态下,所有最优控制轨迹得到的“最优状态-控制率”对汇总的独立数据集,/>
Figure BDA0003395413930000045
均同理。
优选地,构建的宽度学习网络包括输入层、隐藏层及输出层,其中,隐藏层包括特征节点、增强节点及增量增强节点;
设S表示以某一位置为目标状态下的训练数据集中的最优状态,C表示以某一位置为目标状态下的训练数据集中的控制率,S输入宽度学习网络的输入层后,经n组特征映射,形成n组特征节点矩阵,设Zi表示第i组特征节点,n组特征节点矩阵拼接为:Zn=[Z1,Z2,...,Zn],其中,第i组特征节点表示为:
Zi=Q(SWeiei),i=1,2,...,n
其中,Q表示线性或非线性激活函数,Wei和βei分别为随机初始化的权重和偏置;映射的特征为随机生成权重的增强节点,在特征节点矩阵的基础上,经过非线性变换,形成m组增强节点矩阵Hm=[H1,H2,...,Hm],Hj表示第j组增强节点,表示为:
Hj=ξ(ZnWhjhj),j=1,2,...,m
其中,ξ表示非线性激活函数,Whj和βhj分别为随机权重和偏置;隐藏层节点矩阵拼接为Am=[Zn|Hm],宽度学习网络的输出为:
Figure BDA0003395413930000051
特征节点不变,新增增强节点后,隐藏层变为Am+1=[Am|ξ(ZnWm+1m+1)],Wm+1和βm+1分别是新的随机权重和偏置,这些权重和偏置均随机产生,并在训练过程中保持不变,通过新增的Wm+1增强宽度学习网络的表式能力,使最后固定的网络结构实现对目标输出控制率C的拟合,借助伪逆矩阵求解出隐藏层与输出层之间的权重,通过岭回归法近似,伪逆矩阵的表达式为:
Figure BDA0003395413930000052
则Wm=(Am)+C。
优选地,通过新增增强节点的方式增量式训练宽度学习网络,设新增增强节点表示为:
Figure BDA0003395413930000053
则隐藏层表示为:Am+1=[Am|Hm+1],因新增增强节点而变化的伪逆矩阵表示为:
Figure BDA0003395413930000054
其中,
Figure BDA0003395413930000055
Figure BDA0003395413930000056
则增加了增强节点后,最优状态到最优控制映射关系的权重矩阵表达式为:
Figure BDA0003395413930000057
此时,宽度学习网络输出层实际输出为:
Figure BDA0003395413930000058
计算实际输出
Figure BDA0003395413930000059
与训练数据集中(s,c)的控制率c的误差:
Figure BDA00033954139300000510
其中,||·||F为二范数,若误差不满足阈值,则继续通过增加增强节点的方式增量式训练宽度学习网络;当误差满足阈值时,则停止增加增强节点,并保存此时的宽度学习网络模型。
在此,宽度学习网络的训练不存在人为先验性强的调参工作,也不存在缓慢的梯度优化直至目标函数收敛的过程,只需要通过迭代式的增量学习方法,通过伪逆矩阵的求解,即可得出网络参数矩阵,耗时低。
优选地,训练数据集在用于宽度学习网络训练之前进行数据的归一化处理。
优选地,在以某一位置为目标状态下的训练数据集中的最优状态S和控制率C输入宽度学习网络完成训练后,宽度学习网络输出的结果需逆归一化处理。
优选地,在以某一位置为目标状态下的训练数据集中的最优状态S和控制率C输入宽度学习网络完成训练后,保存当前宽度学习网络隐藏层的权重,提取除该位置之外的其它位置作为目标状态下的训练数据集中的最优状态和控制率进行训练,直至遍历完所有目标位置对应的训练数据集,与多个目标位置一一对应的宽度学习网络训练完成。
与现有技术相比,本发明技术方案的有益效果是:
本发明提出的基于最优控制及宽度学习的AGV实施路径规划方法相对于传统仅直接离线求解最优控制模型得到路径轨迹的方式,重视了离线优化无法实现实时最优控制以获得最优轨迹的缺陷,为了避免离线优化求解导致的滞后性,引入宽度学习网络,以不同的目标点作为分类依据,将最优控制轨迹归类成不同导航任务的训练数据集,增量式训练宽度学习网络,得到最终用于AGV实时路径规划的宽度学习网络,实现一定范围内任意起始的点AGV实时最优控制,宽度学习网络用于在线运行时,由于控制率预测只涉及简单的矩阵运算,不存在计算量大的问题,保证了路径规划实时性。另外,本发明所提出的方法不存在标识磨损、路径扩充难、环境要求高、制图时间长的问题,并且相比于深度神经网络的离线训练,宽度学习网络的训练不存在人为先验性强的调参工作,也不存在缓慢的梯度优化直至目标函数收敛的过程,仅需要通过迭代式的增量学习方法,得出权重参数矩阵即可完成训练,耗时低。
附图说明
图1表示本发明实施例1中提出的基于最优控制及宽度学习的AGV自适应路径规划方法流程示意图;
图2表示发明实施例1中提出的AGV动力学模型对应的物理示意图;
图3表示本发明实施例1中提出的宽度学习网络的整体框架图;
图4表示本发明实施例3中提出的不同目标位置下的AGV路径输出示意图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
对于本领域技术人员来说,附图中某些公知内容说明可能省略是可以理解的。
下面结合附图和实施例对本发明的技术方案做进一步的说明。
附图中描述位置关系的仅用于示例性说明,不能理解为对本专利的限制;
实施例1
AGV的路径规划问题可以视作一个AGV起始点不固定,但是终点(即配送任务的坐标点)固定的一个轨迹规划问题,传统的轨迹方法可分成:路径搜索+轨迹优化,但是传统的路径搜索方法往往基于网格地图,搜索的路线并不一定符合车辆动力学约束(车辆不可能做出横移的动作),因此,给后期的轨迹优化带来了优化时间、优化质量的不确定性,因此,在实际实施时,为了保证路径规划结果的有效性,开始阶段就将AGV的动力学模型作为约束考虑在规划内,是十分必要的,这时,将AGV路径规划导航问题转化起始点与终点固定的轨迹规划问题,以解两点边界值问题的最优控制方法进行正向求解。
具体的,参见图1,本实施例提出一种基于最优控制及宽度学习的AGV实时路径规划方法,所述方法包括以下步骤:
S1.构建AGV动力学模型;
S2.以AGV动力学模型作为动态约束,以时间-燃耗最优为目标函数,建立最优控制模型;
S3.随机生成AGV初始点,以初始点作为最优控制模型求解的初始条件,离线正向求解最优控制模型,生成若干不同起始点的最优控制轨迹,最优控制轨迹中包括“最优状态-控制率”对;
S4.构建宽度学习网络,基于“最优状态-控制率”对,按目标位置将最优控制轨迹整合归类为不同的训练数据集,对宽度学习网络进行增量式离线训练;
S5.离线训练完成后,确定宽度学习网络的权重参数,将训练完成的宽度学习网络作为实时控制器,用于AGV的路径实时规划。
在本实施例中,基于牛顿经典力学,并根据实际已投用的AGV的普遍性质,采用二自由度的车辆模型对AGV进行运动学建模,结合图2,AGV动力学模型表示为:
Figure BDA0003395413930000071
其中,t为时间变量,t∈[0,tf],tf指定为末端状态所对应的时刻,x(t)、y(t)表示t时刻AGV中点所处的位置坐标的横坐标与纵坐标,以P=(x,y)表示AGV的中心所处的位置坐标;θ(t)表示t时刻的AGV与目标位置间的方位角,φ(t)表示t时刻的转向角,α(t)表示t时刻的方位角方向的加速度;ω(t)表示角速度,Lw表示AGV的轮距长度。
以AGV动力学模型作为动态约束,并对碰撞约束做平滑化处理,以时间-燃耗最优为目标函数,从而把AGV的轨迹规划转化为求解带相应约束的最优控制问题,建立的最优控制模型表达式为:
目标函数(以时间-燃耗最优为优化目标):
Figure BDA0003395413930000081
约束条件:
Figure BDA0003395413930000082
其中,J1表示燃耗;
Figure BDA0003395413930000086
表示权衡优化目标中时间最优和燃耗最优的重视程度;ei表示根据已知的障碍物位置设计的路径约束,满足:
Figure BDA0003395413930000083
其中,i=1,...,N,
Figure BDA0003395413930000087
表示t时刻下第i个障碍物位置坐标,ri表示所对应的障碍物半径,k表示一个碰撞预警阈值;/>
Figure BDA0003395413930000084
表示转化的路径约束,ε为趋近于0的一个正数;/>
Figure BDA0003395413930000085
表示AGV动力学模型,s(t)=[x(t),y(t),v(t),φ(t),θ(t)]为状态变量,c=[α(t),ω(t)]为控制率,Bound(s(t),u(t))表示AGV的边界值约束;s(t0)和s(tf)表示给定的AGV初始状态和末状态。
由于AGV处于一个物料搬运的场景,所以是一个末状态固定的最优控制问题,针对需要的搬运目的地,单独作为末状态,进行迭代计算,求解最优控制模型的方法不限于最优控制的直接法中的一种。具体的,设随机生成的AGV初始点表示为:
s(t0)=[x_random,y_random,0,0,0]
以初始点作为最优控制模型求解的初始条件,离线正向求解最优控制模型,方法不限定于最优控制直接法中的伪谱法和打靶法;首先对状态变量S(τ)和控制率C(τ)进行插值,用于求解计算,其中,插值方法不限定于拉格朗日插值法,对状态变量S(τ)和控制率C(τ)进行插值,过程满足:
Figure BDA0003395413930000091
Figure BDA0003395413930000092
Figure BDA0003395413930000093
Figure BDA0003395413930000094
最终生成若干不同起始点的最优控制轨迹,表示为:
Figure BDA0003395413930000095
其中,
Figure BDA0003395413930000096
表示最优控制轨迹集合,每一个(st,ct)组成“最优状态-控制率”对(s,c)。
实际工程中的许多轨迹优化问题例如航天器轨迹优化、无人车轨迹优化等,都是一个两点边界值问题,都可以表示为最优控制问题进行求解,由于模型的高阶非线性,以及所包含的复杂的路径约束条件,直接求解这类问题比较复杂,一般只能求出数值解。传统的最优控制理论以变分法、Pontryagin极值原理为基础,将最优轨迹设计问题转化为求解哈密顿-雅可比-贝尔曼方程和两点边界值问题,然后控制对象沿着设计好的轨迹进行轨迹跟踪。这种方法常用于性能指标定义成最大化搜索面积、最小化时间消耗、最小化燃耗规划、最小化末状态误差等的最优控制问题。传统最优控制方法的主要思想是根据真实的状态跟踪预先设计好的最优轨迹,然而与这种策略相关的一个重要问题是,由于模型是一个非线性微分方程,优化过程即求解微分方程,对于模型复杂的场景,难以求出解析解。
在此离线求解的前提下,考虑离线优化较难实时实现最优控制以达到最优轨迹的目的,为了避免离线优化求解导致的滞后性,引入宽度学习网络,在正式用于宽度学习网络之前,以不同的目标点作为分类依据,将最优控制轨迹整合归类成不同导航任务的训练数据集,具体为:
根据不同的目标位置整合,基于每个目标位置对应的“最优状态-控制率”对(s,c),将最优控制轨迹整合归类为不同的训练数据集,对应表征为:
Figure BDA0003395413930000097
其中,
Figure BDA0003395413930000101
表示包含以A位置为目标状态下,所有最优控制轨迹得到的“最优状态-控制率”对汇总的独立数据集,/>
Figure BDA0003395413930000102
均同理。
在本实施例中,参见图3,构建的宽度学习网络包括输入层、隐藏层及输出层,其中,隐藏层包括特征节点、增强节点及增量增强节点,该结构是在宽度学习***的基础上引入增量学习思想所形成的,新的结构可迭代式提高模型的特征提取能力,增加模型的表达能力,使模型的拟合性能得到提升,宽度学习网络可以快速利用这些更新的权重学习到更接近实际的规律,具体过程如下:
设S表示以某一位置为目标状态下的训练数据集中的最优状态,C表示以某一位置为目标状态下的训练数据集中的控制率,S输入宽度学习网络的输入层后,经n组特征映射,形成n组特征节点矩阵,设Zi表示第i组特征节点,n组特征节点矩阵拼接为:Zn=[Z1,Z2,...,Zn],在这个特征映射的过程中为了得到输入数据的稀疏表示,可以通过稀疏自编码技术调整输入层与隐藏层的权重,解码过程中自动选取最优权重。其中,第i组特征节点表示为:
Zi=Q(SSeiei),i=1,2,...,n
其中,Q表示线性或非线性激活函数,Wei和βei分别为随机初始化的权重和偏置;映射的特征为随机生成权重的增强节点,在特征节点矩阵的基础上,经过非线性变换,形成m组增强节点矩阵Hm=[H1,H2,...,Hm],Hj表示第j组增强节点,表示为:
Hj=ξ(ZnWhjhj),j=1,2,...,m
其中,ξ表示非线性激活函数,Whj和βhj分别为随机权重和偏置;隐藏层节点矩阵拼接为Am=[Zn|Hm],宽度学习网络的输出为:
Figure BDA0003395413930000104
特征节点不变,新增增强节点后,隐藏层变为Am+1=[Am|ξ(ZnWm+1m+1)],Wm+1和βm+1分别是新的随机权重和偏置,这些权重和偏置均随机产生,并在训练过程中保持不变,通过新增的Wm+1增强宽度学习网络的表式能力,使最后固定的网络结构实现对目标输出控制率C的拟合,借助伪逆矩阵求解出隐藏层与输出层之间的权重,通过岭回归法近似,伪逆矩阵的表达式为:
Figure BDA0003395413930000103
则Wm=(Am)+C。
为了使宽度网络具有更好的拟合性能,通过新增增强节点的方式增量式训练宽度学习网络,设新增增强节点表示为:
Figure BDA0003395413930000111
则隐藏层表示为:Am+1=[Am|Hm+1],因新增增强节点而变化的伪逆矩阵表示为:
Figure BDA0003395413930000112
其中,
Figure BDA0003395413930000113
Figure BDA0003395413930000114
则增加了增强节点后,最优状态到最优控制映射关系的权重矩阵表达式为:
Figure BDA0003395413930000115
此时,宽度学习网络输出层实际输出为:
Figure BDA0003395413930000116
计算实际输出
Figure BDA0003395413930000117
与训练数据集中(s,c)的控制率c的误差:
Figure BDA0003395413930000118
其中,||·||F为二范数,若误差不满足阈值,则继续通过增加增强节点的方式增量式训练宽度学习网络;当误差满足阈值时,则停止增加增强节点,并保存此时的宽度学习网络模型。宽度学习网络的训练不存在人为先验性强的调参工作,也不存在缓慢的梯度优化直至目标函数收敛的过程,只需要通过迭代式的增量学习方法,通过伪逆矩阵的求解,即可得出网络参数矩阵,耗时低。
在以某一位置为目标状态下的训练数据集中的最优状态S和控制率C输入宽度学习网络完成训练后,保存当前宽度学习网络隐藏层的权重,提取除该位置之外的其它位置作为目标状态下的训练数据集中的最优状态和控制率进行训练,直至遍历完所有目标位置对应的训练数据集,与多个目标位置一一对应的宽度学习网络训练完成。
实施例2
在本实施例中,对宽度学习网络除进行实施例1中所述的训练外,由于数据集的数量级不在一个量级内,训练数据集在用于宽度学习网络训练之前进行数据的归一化处理,所用方法包括但不限于最大-最小标准化、Z-score标准化及函数转化。
在以某一位置为目标状态下的训练数据集中的最优状态S和控制率C输入宽度学习网络完成训练后(如开始为
Figure BDA0003395413930000121
),宽度学习网络输出的结果需逆归一化处理,最终作为符合物理意义的控制率。
实施例3
在本实施例中,在实施例1与实施例2的基础上,重点考虑对初始点扩充到任意点以及对目的地扩充到不同末状态的AGV路径规划的探讨,基于某一固定搬运终点求取不同起始点下,“最优状态-控制率”对(s,c)单独训练一个宽度学习网络,通过结合增量式方法的伪逆矩阵求解,可快速的学习出符合最优状态到最优控制映射关系的权重矩阵W,即可以解决起始点变化时的最优控制问题,将在线最优控制中的初始点推广到设定区域内的任意点。
其中,宽度学习网络的每一组特征节点数N,增强节点数M以及每次新增增强节点数可根据具体场景中计算算力与预测精度进行权衡选择。
对于实际搬运场景中不同的搬运目标点,即末状态,只需要对末状态进行重复正向求解最优控制问题,分别学习不同末状态对应的宽度学习网络权重参数后保存网络即可,参见图4,通过调用已训练完的各个宽度学习网络,以实现对不同末状态(如图4中的目标A及与其不同的目标Z)的实时最优路径规划控制。
显然,本发明的上述实施例仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (8)

1.一种基于最优控制及宽度学习的AGV实时路径规划方法,其特征在于,所述方法包括以下步骤:
S1.构建AGV动力学模型;
步骤S1所述的AGV动力学模型为:
Figure FDA0004186161360000011
其中,t为时间变量,t∈[0,tf],tf指定为末端状态所对应的时刻,x(t)、y(t)表示t时刻AGV中点所处的位置坐标的横坐标与纵坐标,以P=(x,y)表示AGV的中心所处的位置坐标;θ(t)表示t时刻的AGV与目标位置间的方位角,φ(t)表示t时刻的转向角,α(t)表示t时刻的方位角方向的加速度;ω(t)表示角速度,Lw表示AGV的轮距长度;
S2.以AGV动力学模型作为动态约束,以时间-燃耗最优为目标函数,建立最优控制模型;
步骤S2所述以AGV动力学模型作为动态约束,以时间-燃耗最优为目标函数,建立的最优控制模型表达式为:
目标函数:
Figure FDA0004186161360000012
约束条件:
Figure FDA0004186161360000013
其中,J1表示燃耗;
Figure FDA0004186161360000014
表示权衡优化目标中时间最优和燃耗最优的重视程度;ei表示根据已知的障碍物位置设计的路径约束,满足:
Figure FDA0004186161360000015
其中,i=1,…,N,
Figure FDA0004186161360000021
表示t时刻下第i个障碍物位置坐标,ri表示所对应的障碍物半径,k表示一个碰撞预警阈值;/>
Figure FDA0004186161360000022
表示转化的路径约束,ε为趋近于0的一个正数;/>
Figure FDA0004186161360000023
表示AGV动力学模型,s(t)=[x(t),y(t),v(t),φ(t),θ(t)]为状态变量,c=[α(t),ω(t)]为控制率,Bound(s(t),u(t))表示AGV的边界值约束;s(t0)和s(tf)表示给定的AGV初始状态和末状态;
S3.随机生成AGV初始点,以初始点作为最优控制模型求解的初始条件,离线正向求解最优控制模型,生成若干不同起始点的最优控制轨迹,最优控制轨迹中包括“最优状态-控制率”对;
S4.构建宽度学习网络,基于“最优状态-控制率”对,按目标位置将最优控制轨迹整合归类为不同的训练数据集,对宽度学习网络进行增量式离线训练;
S5.离线训练完成后,确定宽度学习网络的权重参数,将训练完成的宽度学习网络作为实时控制器,用于AGV的路径实时规划。
2.根据权利要求1所述的基于最优控制及宽度学习的AGV实时路径规划方法,其特征在于,步骤S3所述随机生成的AGV初始点表示为:
s(t0)=[x_random,y_random,0,0,0]
以初始点作为最优控制模型求解的初始条件,离线正向求解最优控制模型;首先对状态变量和控制率进行插值,用于求解计算,最终生成若干不同起始点的最优控制轨迹,表示为:
Figure FDA0004186161360000024
其中,
Figure FDA0004186161360000025
表示最优控制轨迹集合,每一个(st,ct)组成“最优状态-控制率”对(s,c)。
3.根据权利要求2所述的基于最优控制及宽度学习的AGV实时路径规划方法,其特征在于,根据不同的目标位置整合,基于每个目标位置对应的“最优状态-控制率”对(s,c),将最优控制轨迹整合归类为不同的训练数据集,对应表征为:
Figure FDA0004186161360000026
其中,
Figure FDA0004186161360000027
表示包含以A位置为目标状态下,所有最优控制轨迹得到的“最优状态-控制率”对汇总的独立数据集,/>
Figure FDA0004186161360000028
分别表示包含以B位置为目标状态下,所有最优控制轨迹得到的“最优状态-控制率、包含以C位置为目标状态下,所有最优控制轨迹得到的“最优状态-控制率”对汇总的独立数据集。
4.根据权利要求3所述的基于最优控制及宽度学习的AGV实时路径规划方法,其特征在于,构建的宽度学习网络包括输入层、隐藏层及输出层,其中,隐藏层包括特征节点、增强节点及增量增强节点;
设S表示以某一位置为目标状态下的训练数据集中的最优状态,C表示以某一位置为目标状态下的训练数据集中的控制率,S输入宽度学习网络的输入层后,经n组特征映射,形成n组特征节点矩阵,设Zi表示第i组特征节点,n组特征节点矩阵拼接为:Zn=[Z1,Z2,...,Zn],其中,第i组特征节点表示为:
Zi=Q(SWeiei),i=1,2,...,n
其中,Q表示线性或非线性激活函数,Wei和βei分别为随机初始化的权重和偏置;映射的特征为随机生成权重的增强节点,在特征节点矩阵的基础上,经过非线性变换,形成m组增强节点矩阵Hm=[H1,H2,…,Hm],Hj表示第j组增强节点,表示为:
Hj=ξ(ZnWhjhj),j=1,2,...,m
其中,ξ表示非线性激活函数,Whj和βhj分别为随机权重和偏置;隐藏层节点矩阵拼接为Am=[Zn|Hm],宽度学习网络的输出为:
Figure FDA0004186161360000031
特征节点不变,新增增强节点后,隐藏层变为Am+1=[Am|ξ(ZnWm+1m+1)],Wm+1和βm+1分别是新的随机权重和偏置,这些权重和偏置均随机产生,并在训练过程中保持不变,通过新增的Wm+1增强宽度学习网络的表式能力,使最后固定的网络结构实现对目标输出控制率C的拟合,借助伪逆矩阵求解出隐藏层与输出层之间的权重,通过岭回归法近似,伪逆矩阵的表达式为:
Figure FDA0004186161360000032
则Wm=(Am)+C。
5.根据权利要求4所述的基于最优控制及宽度学习的AGV实时路径规划方法,其特征在于,通过新增增强节点的方式增量式训练宽度学习网络,设新增增强节点表示为:
Figure FDA0004186161360000033
Zm+1表示第m+1组特征节点,/>
Figure FDA0004186161360000034
表示第hm+1组随机权重,
Figure FDA0004186161360000035
表示第hm+1组偏置,则隐藏层表示为:Am+1=[Am|Hm+1],因新增增强节点而变化的伪逆矩阵表示为:
Figure FDA0004186161360000041
其中,
Figure FDA0004186161360000042
Figure FDA0004186161360000043
则增加了增强节点后,最优状态到最优控制映射关系的权重矩阵表达式为:
Figure FDA0004186161360000044
此时,宽度学习网络输出层实际输出为:
Figure FDA0004186161360000045
计算实际输出
Figure FDA0004186161360000046
与训练数据集中(s,c)的控制率C的误差:
Figure FDA0004186161360000047
其中,||·||F为二范数,若误差不满足阈值,则继续通过增加增强节点的方式增量式训练宽度学习网络;当误差满足阈值时,则停止增加增强节点,并保存此时的宽度学习网络模型。
6.根据权利要求5所述的基于最优控制及宽度学习的AGV实时路径规划方法,其特征在于,训练数据集在用于宽度学习网络训练之前进行数据的归一化处理。
7.根据权利要求6所述的基于最优控制及宽度学习的AGV实时路径规划方法,其特征在于,在以某一位置为目标状态下的训练数据集中的最优状态S和控制率C输入宽度学习网络完成训练后,宽度学习网络输出的结果需逆归一化处理。
8.根据权利要求7所述的基于最优控制及宽度学习的AGV实时路径规划方法,其特征在于,在以某一位置为目标状态下的训练数据集中的最优状态S和控制率C输入宽度学习网络完成训练后,保存当前宽度学习网络隐藏层的权重信息,提取除该位置之外的其它位置作为目标状态下的训练数据集中的最优状态和控制率进行训练,直至遍历完所有目标位置对应的训练数据集,与多个目标位置一一对应的宽度学习网络训练完成。
CN202111482549.5A 2021-12-06 2021-12-06 基于最优控制及宽度学习的agv实时路径规划方法 Active CN114200936B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111482549.5A CN114200936B (zh) 2021-12-06 2021-12-06 基于最优控制及宽度学习的agv实时路径规划方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111482549.5A CN114200936B (zh) 2021-12-06 2021-12-06 基于最优控制及宽度学习的agv实时路径规划方法

Publications (2)

Publication Number Publication Date
CN114200936A CN114200936A (zh) 2022-03-18
CN114200936B true CN114200936B (zh) 2023-06-13

Family

ID=80650869

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111482549.5A Active CN114200936B (zh) 2021-12-06 2021-12-06 基于最优控制及宽度学习的agv实时路径规划方法

Country Status (1)

Country Link
CN (1) CN114200936B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117391575B (zh) * 2023-12-08 2024-03-22 青岛盈智科技有限公司 一种基于路径分析的货车运输路线规划方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109635245A (zh) * 2018-09-29 2019-04-16 中国矿业大学 一种鲁棒宽度学习***
CN109884886B (zh) * 2019-03-29 2021-09-28 大连海事大学 一种基于宽度学习的船舶运动无模型自适应最优控制方法
CN111880405B (zh) * 2020-07-03 2022-06-14 广东工业大学 柔性制造车间***中的agv自适应路径规划实时控制方法

Also Published As

Publication number Publication date
CN114200936A (zh) 2022-03-18

Similar Documents

Publication Publication Date Title
CN111780777B (zh) 一种基于改进a*算法和深度强化学习的无人车路径规划方法
Zhao et al. A novel direct trajectory planning approach based on generative adversarial networks and rapidly-exploring random tree
Li et al. Prescribed performance concurrent control of connected vehicles with nonlinear third-order dynamics
Orozco-Rosas et al. Mobile robot path planning using a QAPF learning algorithm for known and unknown environments
CN108303982A (zh) 自动引导运输车、其控制方法及控制***
CN109491389A (zh) 一种具有速度约束的机器人轨迹跟踪方法
Li et al. A mobile robot path planning algorithm based on improved A* algorithm and dynamic window approach
CN115683145A (zh) 一种基于轨迹预测的自动驾驶安全避障方法
CN111880405B (zh) 柔性制造车间***中的agv自适应路径规划实时控制方法
CN114200936B (zh) 基于最优控制及宽度学习的agv实时路径规划方法
CN113391633A (zh) 一种面向城市环境的移动机器人融合路径规划方法
Han Automatic parking path planning based on ant colony optimization and the grid method
Li et al. Navigation of mobile robots based on deep reinforcement learning: Reward function optimization and knowledge transfer
Zhang et al. Hybrid path planning model for multiple robots considering obstacle avoidance
Xu et al. Model predictive control-based path tracking control for automatic guided vehicles
Xu et al. Path Planning for Autonomous Articulated Vehicle Based on Improved Goal‐Directed Rapid‐Exploring Random Tree
Yu et al. Hierarchical reinforcement learning combined with motion primitives for automated overtaking
CN113959446B (zh) 一种基于神经网络的机器人自主物流运输导航方法
Chen et al. Framework of active obstacle avoidance for autonomous vehicle based on hybrid soft actor-critic algorithm
Chen et al. Path tracking controller design of automated parking systems via NMPC with an instructible solution
CN115903894A (zh) 基于改进的aapf-irrt算法的无人机轨迹规划及跟踪控制方法
Xie et al. A distributed multi-agent formation control method based on deep Q learning
CN115061470A (zh) 适用狭窄空间的无人车改进teb导航方法
CN114559439A (zh) 一种移动机器人智能避障控制方法、装置和电子设备
Yang et al. Automatic control method of driving direction of unmanned ground vehicle based on association rules

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant