CN115472038B - 一种基于深度强化学习的自动泊车方法和*** - Google Patents

一种基于深度强化学习的自动泊车方法和*** Download PDF

Info

Publication number
CN115472038B
CN115472038B CN202211353517.XA CN202211353517A CN115472038B CN 115472038 B CN115472038 B CN 115472038B CN 202211353517 A CN202211353517 A CN 202211353517A CN 115472038 B CN115472038 B CN 115472038B
Authority
CN
China
Prior art keywords
network
initial
action
vehicle
executor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211353517.XA
Other languages
English (en)
Other versions
CN115472038A (zh
Inventor
邱思杰
黄忠虎
贾鹏
马豪
伍坪
谢华
刘春明
纪联南
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Jiezhiyi Technology Co ltd
Sanming University
Original Assignee
Nanjing Jiezhiyi Technology Co ltd
Sanming University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Jiezhiyi Technology Co ltd, Sanming University filed Critical Nanjing Jiezhiyi Technology Co ltd
Priority to CN202211353517.XA priority Critical patent/CN115472038B/zh
Publication of CN115472038A publication Critical patent/CN115472038A/zh
Application granted granted Critical
Publication of CN115472038B publication Critical patent/CN115472038B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/14Traffic control systems for road vehicles indicating individual free spaces in parking areas
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/09Arrangements for giving variable traffic instructions
    • G08G1/0962Arrangements for giving variable traffic instructions having an indicator mounted inside the vehicle, e.g. giving voice messages
    • G08G1/0967Systems involving transmission of highway information, e.g. weather, speed limits
    • G08G1/096708Systems involving transmission of highway information, e.g. weather, speed limits where the received information might be used to generate an automatic action on the vehicle control
    • G08G1/096725Systems involving transmission of highway information, e.g. weather, speed limits where the received information might be used to generate an automatic action on the vehicle control where the received information generates an automatic action on the vehicle control
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/09Arrangements for giving variable traffic instructions
    • G08G1/0962Arrangements for giving variable traffic instructions having an indicator mounted inside the vehicle, e.g. giving voice messages
    • G08G1/0968Systems involving transmission of navigation instructions to the vehicle
    • G08G1/096805Systems involving transmission of navigation instructions to the vehicle where the transmitted instructions are used to compute a route
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Atmospheric Sciences (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供了一种基于深度强化学习的自动泊车方法和***,包括构建初始评价者网络和初始执行者网络;基于状态的状态价值基线,对所述初始评价者网络和所述初始执行者网络进行训练得到执行者网络;获取车辆的当前图像;获取当前车辆位置和车位位置;将所述当前图像、所述当前车辆位置和所述车位位置输入所述执行者网络,所述执行者网络输出当前动作执行策略;车辆基于所述当前动作执行策略执行动作,并基于执行后的下一图像、下一车辆位置和所述车位位置获取下一动作执行策略,直到车辆完成自动泊车任务;使用深度神经网络生成车辆的控制指令,通过评价者执行者算法完成对深度神经网络的训练,使得能更好地实现自动泊车。

Description

一种基于深度强化学习的自动泊车方法和***
技术领域
本发明涉及自动驾驶技术领域,具体而言,涉及一种基于深度强化学习的自动泊车方法和***。
背景技术
泊车任务是日常生活中经常遇到的情景,尤其当目标泊位周遭可行驶空间范围较小时,泊车任务往往需要驾驶员有着大量的驾驶经验以及驾驶技巧,这对于缺乏经验的驾驶员来说并不能确保相应泊车任务的完成。而传统方案大多采用了多摄像头和车载雷达作为车辆环境感知手段,提高了***成本也加大了特征信息抽取的复杂度,同时将车辆路径规划以及车辆的运动控制相互割裂开来,泊车***模块设计复杂。
有鉴于此,本发明提出了一种基于深度强化学习的自动泊车方法和***,以满足日常生活中对于自动泊车任务的需求的同时提供一种端到端的自动泊车解决方案。该发明采用摄像头作为环境感知手段,使用深度神经网络生成车辆的控制指令,通过评价者执行者算法完成对深度神经网络的训练,最终实现自动泊车功能。
发明内容
本发明的目的在于提供一种基于深度强化学习的自动泊车方法,包括构建初始评价者网络和初始执行者网络;基于状态的状态价值基线,对所述初始评价者网络和所述初始执行者网络进行训练得到执行者网络;其中,训练得到执行者网络,包括基于动作执行策略的价值和所述状态价值基线,构建所述初始执行者网络的收益梯度;其中,构建所述收益梯度的公式为:
Figure 317592DEST_PATH_IMAGE001
其中,
Figure 656169DEST_PATH_IMAGE002
表示所述收益梯度;
Figure 889704DEST_PATH_IMAGE003
表示累计收益;
Figure 189099DEST_PATH_IMAGE004
表示动作奖励;
Figure 746375DEST_PATH_IMAGE005
表示动作奖励的折扣率;
Figure 877142DEST_PATH_IMAGE006
表示车辆在t+1时刻的状态价值基线;
Figure 219262DEST_PATH_IMAGE007
表示 车辆在t时刻的状态价值基线;
Figure 68269DEST_PATH_IMAGE008
表示在状态
Figure 645881DEST_PATH_IMAGE009
的情况下执行动作
Figure 631155DEST_PATH_IMAGE010
的样本动 作执行策略;基于所述收益梯度,更新所述初始执行者网络的网络参数,直到所述收益梯度 达到最大值;将得到最大值收益梯度时的初始执行者网络作为训练好的执行者网络;获取 车辆的当前图像;所述当前图像包括车辆处于当前环境下的状态;获取当前车辆位置和车 位位置;将所述当前图像、所述当前车辆位置和所述车位位置输入所述执行者网络,所述执 行者网络输出当前动作执行策略;车辆基于所述当前动作执行策略执行动作,并基于执行 后的下一图像、下一车辆位置和所述车位位置获取下一动作执行策略,直到车辆完成自动 泊车任务。
进一步的,通过构建多层数据结构,得到所述初始评价者网络和所述初始执行者网络,包括所述数据结构的第一层采用7*7的卷积操作和最大池化操作;所述数据结构的第二层采用残差模块进行特征提取;所述数据结构的第三层采用残差模块进行特征提取;所述数据结构的第四层采用残差模块进行特征提取;所述数据结构的第五层采用残差模块进行特征提取;所述数据结构的第六层采用平均池化操作。
进一步的,所述训练得到执行者网络,包括将样本图像、样本车辆位置和样本车位位置输入所述初始执行者网络,所述初始执行者网络输出样本动作执行策略;车辆基于所述样本动作执行策略执行动作;获取执行所述样本动作执行策略的动作奖励;将所述样本图像、所述执行动作、所述动作奖励和下一样本图像作为训练样本并存入经验池;所述下一样本图像为执行动作后得到的车辆环境的图像;从所述经验池中随机抽取训练样本;将被抽取的训练样本中的样本图像和下一样本图像输入所述初始执行者网络,得到动作执行策略的价值和所述状态价值基线;基于所述动作执行策略的价值和所述状态价值基线,更新所述初始执行者网络和所述初始评价者网络的网络参数;当车辆未发生碰撞且所述初始执行者网络和所述初始评价者网络训练完成时,得到训练好的所述执行者网络和评价者网络。
进一步的,更新所述初始执行者网络的网络参数的公式为:
Figure 206493DEST_PATH_IMAGE011
其中,
Figure 480479DEST_PATH_IMAGE012
表示更新后的所述初始执行者网络的网络参数;
Figure 799465DEST_PATH_IMAGE013
表示所述初始执行 者网络的网络参数;
Figure 983453DEST_PATH_IMAGE014
表示所述初始执行者网络的学习率;
Figure 667375DEST_PATH_IMAGE005
表示动作奖励的折扣率;
Figure 959816DEST_PATH_IMAGE015
表示所述动作执行策略的价值;
Figure 410389DEST_PATH_IMAGE016
表示所述状态价值基线;
Figure 104675DEST_PATH_IMAGE008
表示所述被 抽取的训练样本的样本动作执行策略;更新所述初始评价者网络的网络参数的公式为:
Figure 21816DEST_PATH_IMAGE017
其中,
Figure 535974DEST_PATH_IMAGE018
表示更新后的所述初始评价者网络的网络参数;
Figure 508347DEST_PATH_IMAGE019
表示所述初始评 价者网络的网络参数;
Figure 322719DEST_PATH_IMAGE020
表示所述初始评价者网络的学习率;
Figure 879602DEST_PATH_IMAGE015
表示所述动作执行策略 的价值;
Figure 474532DEST_PATH_IMAGE016
表示所述状态价值基线;
Figure 939011DEST_PATH_IMAGE007
表示所述被选取的训练样本的状态价值 基线。
进一步的,所述评价者网络训练完成,包括基于所述状态价值基线,构建所述初始评价者网络的损失函数;基于所述损失函数,更新所述初始评价者网络的网络参数,直到所述损失函数达到最小值;将得到最小值损失函数时的初始评价者网络作为训练好的评价者网络。
进一步的,构建所述损失函数的公式为:
Figure 545573DEST_PATH_IMAGE021
其中,
Figure 148724DEST_PATH_IMAGE022
表示所述初始评价者网络在网络参数为
Figure 168632DEST_PATH_IMAGE023
时的损失函数;
Figure 108907DEST_PATH_IMAGE024
表 示动作奖励;
Figure 897871DEST_PATH_IMAGE005
表示动作奖励的折扣率;
Figure 655611DEST_PATH_IMAGE025
表示车辆在t+1时刻的状态价值基线;
Figure 897237DEST_PATH_IMAGE026
表示车辆在t时刻的状态价值基线。
进一步的,动作执行策略的公式为:
Figure 641202DEST_PATH_IMAGE027
Figure 550252DEST_PATH_IMAGE028
其中,
Figure 731091DEST_PATH_IMAGE029
表示被选择的动作;
Figure 663275DEST_PATH_IMAGE030
表示车辆的驾驶方向;
Figure 7669DEST_PATH_IMAGE031
表示方向盘的转向。
本发明的目的在于提供一种基于深度强化学习的自动泊车***,包括深度神经网络构建模块、深度神经网络训练模块、图像获取模块、位置获取模块、确定模块和循环模块;所述深度神经网络构建模块用于构建初始评价者网络和初始执行者网络;所述深度神经网络训练模块用于基于状态的状态价值基线,对所述初始评价者网络和所述初始执行者网络进行训练得到执行者网络;其中,训练得到执行者网络,包括基于动作执行策略的价值和所述状态价值基线,构建所述初始执行者网络的收益梯度;其中,构建所述收益梯度的公式为:
Figure 99122DEST_PATH_IMAGE032
其中,
Figure 808452DEST_PATH_IMAGE002
表示所述收益梯度;
Figure 24669DEST_PATH_IMAGE033
表示累计收益;
Figure 172754DEST_PATH_IMAGE004
表示动作奖励;
Figure 603866DEST_PATH_IMAGE005
表 示动作奖励的折扣率;
Figure 811994DEST_PATH_IMAGE006
表示车辆在t+1时刻的状态价值基线;
Figure 453191DEST_PATH_IMAGE007
表示车 辆在t时刻的状态价值基线;
Figure 139387DEST_PATH_IMAGE008
表示在状态
Figure 939853DEST_PATH_IMAGE009
的情况下执行动作
Figure 53302DEST_PATH_IMAGE010
的样本动作 执行策略;基于所述收益梯度,更新所述初始执行者网络的网络参数,直到所述收益梯度达 到最大值;将得到最大值收益梯度时的初始执行者网络作为训练好的执行者网络;所述图 像获取模块用于获取车辆的当前图像;所述当前图像包括车辆处于当前环境下的状态;所 述位置获取模块用于获取当前车辆位置和车位位置;所述确定模块用于将所述当前图像、 所述当前车辆位置和所述车位位置输入所述执行者网络,所述执行者网络输出当前动作执 行策略;所述循环模块用于车辆基于所述当前动作执行策略执行动作,并基于执行后的下 一图像、下一车辆位置和所述车位位置获取下一动作执行策略,直到车辆完成自动泊车任 务。
本发明实施例的技术方案至少具有如下优点和有益效果:
本发明中的一些实施例通过构建收益梯度,并基于收益梯度的最大值来更新执行者网络,可以极大提升网络训练的收敛速率。
本发明中的一些实施例通过采用基于状态基线的评价者执行者算法进行网络的训练,通过在训练执行者网络的同时训练评价者网络,以使得更新后的执行者网络可以基于更新后的评价者网络的评价更新网络的参数,提高了参数更新的准确率,且状态价值基线为评价者网络根据历史动作和价值得到的评价基准,可以使得评价值的变化在一定的范围之内,减少误差。
本发明中的一些实施例通过采用基于势函数差值形式的奖励函数,使得能够进一步提升深度强化学习环境中车辆对于环境空间的探索效率。
附图说明
图1为本发明一些实施例提供的一种基于深度强化学习的自动泊车方法的示例性流程图;
图2为本发明一些实施例提供的训练得到执行者网络的示例性流程图;
图3为本发明一些实施例提供的一种基于深度强化学习的自动泊车***的示例性模块图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
图1为本发明一些实施例提供的一种基于深度强化学习的自动泊车方法的示例性流程图。在一些实施例中,流程100可以由***300执行。如图1所示流程100可以包括以下步骤:
步骤110,构建初始评价者网络和初始执行者网络。在一些实施例中,步骤110可以由深度神经网络构建模块310执行。
初始执行者网络可以是指用于训练得到执行者网络的深度神经网络。执行者网络可以用于基于输入的车辆的当前图像,确定动作执行策略。当前图像可以是指车辆处于当前环境的图像。在一些实施例中,车辆上设置有摄像头,摄像头可以获取车辆所处的环境的图像。动作执行策略可以是指基于车辆当前所处的环境所作能出的执行动作。例如,将维度为3*224*224的车辆的当前图像输入执行者网络,执行者网络输出10*1*1的动作执行策略。其中,10表示十种可以做出的执行动作。
执行动作采用离散的动作空间,在一些实施例中,动作执行策略的公式为:
Figure 181795DEST_PATH_IMAGE027
Figure 671682DEST_PATH_IMAGE028
其中,
Figure 575922DEST_PATH_IMAGE029
表示可以被选择的动作;
Figure 860273DEST_PATH_IMAGE030
表示车辆的驾驶方向。例 如,前进或后退。
Figure 538379DEST_PATH_IMAGE031
表示方向盘的转向。例如,向左90度、向左45度,保持中立、向右45 度和向右90度五个方向盘转向角度。
初始评价者网络可以是指用于训练得到评价者网络的深度神经网络。评价者网络可以用于基于动作执行策略,确定该动作执行策略的价值。
在一些实施例中,深度神经网络构建模块310可以通过各种构建深度神经网络的方式构建执行者网络和评价者网络。
步骤120,基于状态的动作价值基线,对初始评价者网络和初始执行者网络进行训练得到执行者网络。在一些实施例中,步骤120可以由深度神经网络训练模块320执行。
状态价值基线可以反应车辆当前所处的状态。在一些实施例中,状态价值基线可以通过评价者网络得到。例如,可以将车辆的当前图像、执行动作后的下一图像和对应的动作执行策略输入评价者网络,评价者网络输出车辆在当前状态的状态价值基线和车辆在下一状态的状态价值基线。
在一些实施例中,深度神经网络训练模块320可以通过各种训练深度机器学习模型的方法训练初始执行者网络,得到执行者网络。关于训练得到执行者网络的更多内容,参见图2及其相关描述。
步骤130,获取车辆的当前图像;当前图像包括车辆处于当前环境下的状态。在一些实施例中,步骤130可以由图像获取模块330执行。
关于当前图像及获取当前图像的相关内容,参见步骤110及其相关描述。
步骤140,获取当前车辆位置和车位位置。在一些实施例中,步骤140可以由位置获取模块340执行。
在一些实施例中,位置获取模块340可以通过各种可行的方式获取当前车辆位置和车位位置。例如,可以通过车载GPS获取车辆的当前位置;与车库通信连接获取车库中空闲车位的位置信息等。
步骤150,将当前图像、当前车辆位置和车位位置输入执行者网络,执行者网络输出当前动作执行策略。在一些实施例中,步骤150可以由确定模块350执行。
例如,将
Figure 504061DEST_PATH_IMAGE034
时刻的车辆的环境图像、车辆的位置和车位位置输入执行者网络,执行 者网络输出车辆在当前位置可以被选择的动作及其被选择的概率。在一些实施例中,可以 将概率最大的动作作为执行动作。
步骤160,车辆基于当前动作执行策略执行动作,并基于执行后的下一图像、下一车辆位置和车位位置获取下一动作执行策略,直到车辆完成自动泊车任务。在一些实施例中,步骤160可以由循环模块360执行。
下一图像可以是指车辆执行动作后到达下一状态时,获取的车辆周围环境的图像。获取下一图像的方式与获取当前图像的方式一样。下一车辆位置可以是指车辆执行动作后到达的位置。获取下一车辆位置的方式与获取当前车辆位置的方式一样。
在一些实施例中,执行者网络可以分别根据车辆多次所处的环境确定车辆的多次执行动作。车辆可以分别执行动作,直到车辆到达泊车位置。在一些实施例中,可以在车辆上设置GNSS传感器,基于GNSS传感器获取的车辆的传感器经度、传感器维度及车辆姿态和车位的车位经度、车位维度及要求车辆的姿态的差值,确定车辆是否到达泊车位置。在一些实施例中,可以选取车辆当前所处位置GNSS对应的经纬度坐标与车辆在终点位置处(车位)的GNSS经纬度坐标之间的距离构建状态的势函数表示:
Figure 951223DEST_PATH_IMAGE035
其中,
Figure 734371DEST_PATH_IMAGE036
表示
Figure 899773DEST_PATH_IMAGE037
时刻第
Figure 669146DEST_PATH_IMAGE034
个GNSS传感器显示的维度信息,
Figure 970814DEST_PATH_IMAGE038
表示
Figure 675596DEST_PATH_IMAGE037
时刻第
Figure 62715DEST_PATH_IMAGE034
个GNSS 传感器显示的经度信息,
Figure 432517DEST_PATH_IMAGE039
代表第
Figure 791954DEST_PATH_IMAGE034
个传感器在终点位置的纬度坐标,
Figure 854588DEST_PATH_IMAGE040
代表第
Figure 791320DEST_PATH_IMAGE034
个传感 器在终点位置的经度坐标。
当车辆与终点的位置差异越大,对应的基于状态的势函数也就越大。当势函数的 值
Figure 230392DEST_PATH_IMAGE041
小于预设差值阈值时,确定车辆完成自动泊车。预设差值阈值可以是指车辆完成 泊车的势函数的最大值。预设差值阈值可以根据经验设置。
本发明中的一些实施例通过图像信息的变化来表征车辆状态的变化,进而根据车辆所处不同的状态确定最优的动作执行策略,实现了车辆泊车路径的动态规划并同时通过动作执行策略完成了车辆的运动控制。在此,车辆前置摄像头输入图像通过深度神经网络计算后输出车辆的控制策略,以此完成端到端的自动泊车功能实现。
初始评价者网络和初始执行者网络的结构可以包括输入层、输出层和六层数据结构层。通过构建多层数据结构,得到初始评价者网络和初始执行者网络,数据结构的第一层采用7*7的卷积操作和最大池化操作;数据结构的第二层采用残差模块进行特征提取;数据结构的第三层采用残差模块进行特征提取;数据结构的第四层采用残差模块进行特征提取;数据结构的第五层采用残差模块进行特征提取;数据结构的第六层采用平均池化操作。
输入层可以用于输入3*224*224的图像数据。在一些实施例中,输入像素尺寸接受大小为224*224的RGB彩色图片。输出层用于将得到的特征向量全连接后输出。对于执行者网络,其输出的特征向量的维度为10*1*1,其中,10对应车辆的10种动作。对于评价者网络,其输出的特征向量的维度为1*1*1,其中,1对应动作的价值。
图2为本发明一些实施例提供的训练得到执行者网络的示例性流程图。在一些实施例中,流程200可以由深度神经网络训练模块320执行。如图2所示,流程200可以包括以下步骤:
步骤210,将样本图像、样本车辆位置和样本车位位置输入初始执行者网络,初始 执行者网络输出样本动作执行策略。其中,样本图像包括车辆的当前状态,可以被记为
Figure 444335DEST_PATH_IMAGE042
; 样本动作执行策略可以被记为
Figure 677870DEST_PATH_IMAGE043
样本图像可以是指用于训练执行者网络的车辆的当前环境的图像。样本车辆位置可以是指用于训练执行者网络的车辆的当前所在位置。样本车位位置可以是指在训练过程中需要车辆泊车的车位的位置。在一些实施例中,可以通过车辆自动泊车得到样本图像、样本车辆位置和样本车位位置。例如,可以预先设定泊车的样本车位位置和车辆的初始位置,然后模拟车辆的实际工作场景,得到样本图像和样本车辆位置。其中,初始位置可以基于环境的设计得到。
步骤220,车辆基于样本动作执行策略执行动作。其中,执行动作可以被记为
Figure 354096DEST_PATH_IMAGE044
执行动作可以是指车辆从当前状态到达下一状态的动作。例如,车辆根据执行策略中被选取概率最高的动作进行移动。
步骤230,获取执行样本动作执行策略的动作奖励。其中,动作奖励可以被记为
Figure 65700DEST_PATH_IMAGE004
在一些实施例中,计算动作奖励
Figure 196467DEST_PATH_IMAGE004
的公式为:
Figure 538586DEST_PATH_IMAGE045
其中,
Figure 387594DEST_PATH_IMAGE046
表示比例系数,其作用是将
Figure 965206DEST_PATH_IMAGE047
缩放到合理的区间,可以通过需求实际确 定;
Figure 216058DEST_PATH_IMAGE047
表示
Figure 729079DEST_PATH_IMAGE037
时刻奖励函数中基于势函数差值的组成部分;
Figure 144011DEST_PATH_IMAGE048
表示碰撞惩罚,当没 有碰撞发生时为0,当发生碰撞时为-2;
Figure 197418DEST_PATH_IMAGE049
表示完成自动泊入后的奖励,任务完成时给 予+5的奖励。
在一些实施例中,计算
Figure 302777DEST_PATH_IMAGE037
时刻奖励函数中基于势函数差值的组成部分
Figure 986699DEST_PATH_IMAGE047
的公式 为:
Figure 544720DEST_PATH_IMAGE050
即,前后两次车辆所处状态势函数的差值,其中,关于
Figure 729713DEST_PATH_IMAGE041
的计算公式,参见图1 及其相关描述。
步骤240,将样本图像、执行动作、动作奖励和下一样本图像作为训练样本并存入 经验池;下一样本图像为执行动作后得到的车辆环境的图像。其中,下一样本图像可以用于 表示车辆的下一状态,可以被记为
Figure 689579DEST_PATH_IMAGE051
在一些实施例中,存入经验池的训练样本的格式可以为
Figure 544403DEST_PATH_IMAGE052
步骤250,从经验池中随机抽取训练样本。其中,被抽取的训练样本可以被记为
Figure 855298DEST_PATH_IMAGE053
步骤260,将被抽取的训练样本中的样本图像和下一样本图像输入初始执行者网络,得到动作执行策略的价值和状态价值基线。
步骤270,基于动作执行策略的价值和状态价值基线,更新初始执行者网络和初始评价者网络的网络参数。
在一些实施例中,可以通过迭代的方式更新初始执行者网络和初始评价者网络的网络参数。
在一些实施例中,更新初始执行者网络的网络参数的公式为:
Figure 827671DEST_PATH_IMAGE011
其中,
Figure 642044DEST_PATH_IMAGE012
表示更新后的初始执行者网络的网络参数;
Figure 730085DEST_PATH_IMAGE013
表示初始执行者网络的 网络参数,初始网络参数通过初始化模型得到;
Figure 200381DEST_PATH_IMAGE014
表示初始执行者网络的学习率,初始执 行者网络的学习率通过初始化模拟泊车环境确定;
Figure 399281DEST_PATH_IMAGE015
表示动作执行策略的价值;
Figure 396056DEST_PATH_IMAGE016
表 示状态价值基线;
Figure 920578DEST_PATH_IMAGE008
表示被抽取的训练样本的样本动作执行策略。
更新初始评价者网络的网络参数的公式为:
Figure 612591DEST_PATH_IMAGE017
其中,
Figure 880761DEST_PATH_IMAGE018
表示更新后的初始评价者网络的网络参数;
Figure 482775DEST_PATH_IMAGE019
表示初始评价者网络 的网络参数,初始网络参数通过初始化模型得到;
Figure 912619DEST_PATH_IMAGE020
表示初始评价者网络的学习率,初始 评价者网络的学习率通过初始化模拟泊车环境确定;
Figure 357507DEST_PATH_IMAGE015
表示动作执行策略的价值;
Figure 898210DEST_PATH_IMAGE016
表示状态价值基线;
Figure 541681DEST_PATH_IMAGE007
表示被选取的训练样本的状态价值基线。
在一些实施例中,
Figure 470322DEST_PATH_IMAGE054
Figure 199244DEST_PATH_IMAGE055
其中,
Figure 746900DEST_PATH_IMAGE004
表示动作奖励;
Figure 344410DEST_PATH_IMAGE005
表示动作奖励的折扣率,动作奖励的折扣率通过初始化 模拟泊车环境确定;
Figure 850478DEST_PATH_IMAGE006
表示车辆在t+1时刻的状态价值基线;
Figure 269958DEST_PATH_IMAGE007
表示车辆 在t时刻的状态价值基线。
步骤280,当车辆未发生碰撞且初始执行者网络和初始评价者网络训练完成时,得到训练好的执行者网络和评价者网络。
未发生碰撞是指车辆在完成泊车的过程中未发生碰撞。
在一些实施例中,执行者网络训练完成,包括基于动作执行策略的价值和状态价值基线,构建初始执行者网络的收益梯度;基于收益梯度,更新初始执行者网络的网络参数,直到收益梯度达到最大值;将得到最大值收益梯度时的初始执行者网络作为训练好的执行者网络。
在一些实施例中,构建收益梯度的公式为:
Figure 418043DEST_PATH_IMAGE032
其中,
Figure 98423DEST_PATH_IMAGE002
表示收益梯度;
Figure 40971DEST_PATH_IMAGE033
表示累计收益;
Figure 682168DEST_PATH_IMAGE004
表示动作奖励;
Figure 712572DEST_PATH_IMAGE005
表示动 作奖励的折扣率;
Figure 185142DEST_PATH_IMAGE006
表示车辆在t+1时刻的状态价值基线;
Figure 501853DEST_PATH_IMAGE007
表示车辆在 t时刻的状态价值基线;
Figure 692663DEST_PATH_IMAGE008
表示在状态
Figure 244867DEST_PATH_IMAGE009
的情况下执行动作
Figure 837523DEST_PATH_IMAGE010
的样本动作执行 策略。
在一些实施例中,评价者网络训练完成,包括基于状态价值基线,构建初始评价者网络的损失函数;基于损失函数,更新初始评价者网络的网络参数,直到损失函数达到最小值;将得到最小值损失函数时的初始评价者网络作为训练好的评价者网络。
在一些实施例中,构建损失函数的公式为:
Figure 325136DEST_PATH_IMAGE021
其中,
Figure 472083DEST_PATH_IMAGE022
表示初始评价者网络在网络参数为
Figure 765661DEST_PATH_IMAGE023
时的损失函数;
Figure 789987DEST_PATH_IMAGE024
表示动 作奖励;
Figure 448501DEST_PATH_IMAGE005
表示动作奖励的折扣率;
Figure 348324DEST_PATH_IMAGE025
表示车辆在t+1时刻的状态价值基线;
Figure 180014DEST_PATH_IMAGE026
表 示车辆在t时刻的状态价值基线。
若车辆发生碰撞或完成了自动泊车任务,则将车辆所在***环境重新初始化,再次进行训练,直到网络输出的动作策略满足自动泊车需求。
本说明书中的一些实施例采用两个深度神经网络分别用于车辆动作执行策略的生成、即执行者;以及车辆状态价值的估计、即评价者。通过使用基于值函数的强化学习算法对策略梯度算法过程中的车辆动作价值函数进行估计,弥补了策略梯度算法在未知环境中对于车辆状态价值无法准确获得的不足。
图3为本发明一些实施例提供的一种基于深度强化学习的自动泊车***的示例性模块图。如图3所示,***300可以包括深度神经网络构建模块310、深度神经网络训练模块320、图像获取模块330、位置获取模块340、确定模块350和循环模块360。
深度神经网络构建模块310用于构建初始评价者网络和初始执行者网络。关于深度神经网络构建模块310的更多内容,参见图1及其相关描述。
深度神经网络训练模块320用于基于状态的状态价值基线,对初始评价者网络和初始执行者网络进行训练得到执行者网络。关于深度神经网络训练模块320的更多内容,参见图1及其相关描述。
图像获取模块330用于获取车辆的当前图像;当前图像包括车辆处于当前环境下的状态。关于图像获取模块330的更多内容,参见图1及其相关描述。
位置获取模块340用于获取当前车辆位置和车位位置。关于位置获取模块340的更多内容,参见图1及其相关描述。
确定模块350用于将所述当前图像、所述当前车辆位置和所述车位位置输入所述执行者网络,所述执行者网络输出当前动作执行策略。关于确定模块350的更多内容,参见图1及其相关描述。
循环模块360用于车辆基于当前动作执行策略执行动作,并基于执行后的下一图像、下一车辆位置和车位位置获取下一动作执行策略,直到车辆完成自动泊车任务。关于循环模块360的更多内容,参见图1及其相关描述。
以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (5)

1.一种基于深度强化学习的自动泊车方法,其特征在于,包括:
构建初始评价者网络和初始执行者网络;通过构建多层数据结构,得到所述初始评价者网络和所述初始执行者网络,包括:
所述数据结构的第一层采用7*7的卷积操作和最大池化操作;
所述数据结构的第二层采用残差模块进行特征提取;
所述数据结构的第三层采用残差模块进行特征提取;
所述数据结构的第四层采用残差模块进行特征提取;
所述数据结构的第五层采用残差模块进行特征提取;
所述数据结构的第六层采用平均池化操作;
基于状态的状态价值基线,对所述初始评价者网络和所述初始执行者网络进行训练得到执行者网络;其中,训练得到执行者网络,包括:
基于动作执行策略的价值和所述状态价值基线,构建所述初始执行者网络的收益梯度;其中,构建所述收益梯度的公式为:
Figure 383688DEST_PATH_IMAGE001
其中,
Figure 53704DEST_PATH_IMAGE002
表示所述收益梯度;
Figure 902711DEST_PATH_IMAGE003
表示累计收益;
Figure 558952DEST_PATH_IMAGE004
表示动作奖励;
Figure 75384DEST_PATH_IMAGE005
表示动作奖励的折扣率;
Figure 40935DEST_PATH_IMAGE006
表示车辆在t+1时刻的状态价值基线;
Figure 642817DEST_PATH_IMAGE007
表示车辆在t时刻的状态价值基线;
Figure 102749DEST_PATH_IMAGE008
表示在状态
Figure 208108DEST_PATH_IMAGE009
的情况下执行动作
Figure 610139DEST_PATH_IMAGE010
的样本动作执行策略;
基于所述收益梯度,更新所述初始执行者网络的网络参数,直到所述收益梯度达到最大值;
将得到最大值收益梯度时的初始执行者网络作为训练好的执行者网络;
获取车辆的当前图像;所述当前图像包括车辆处于当前环境下的状态;
获取当前车辆位置和车位位置;
将所述当前图像、所述当前车辆位置和所述车位位置输入所述执行者网络,所述执行者网络输出当前动作执行策略;动作执行策略是指基于车辆当前所处的环境所做出的执行动作;动作执行策略的公式为:
Figure 168160DEST_PATH_IMAGE011
Figure 431782DEST_PATH_IMAGE012
其中,
Figure 657227DEST_PATH_IMAGE013
表示被选择的动作;
Figure 964580DEST_PATH_IMAGE014
表示车辆的驾驶方向;
Figure 275476DEST_PATH_IMAGE015
表示方向盘的转向;
所述训练得到执行者网络,还包括:
将样本图像、样本车辆位置和样本车位位置输入所述初始执行者网络,所述初始执行者网络输出样本动作执行策略;
车辆基于所述样本动作执行策略执行动作;
获取执行所述样本动作执行策略的动作奖励;
将所述样本图像、所述执行动作、所述动作奖励和下一样本图像作为训练样本并存入经验池;所述下一样本图像为执行动作后得到的车辆环境的图像;
从所述经验池中随机抽取训练样本;
将被抽取的训练样本中的样本图像和下一样本图像输入所述初始执行者网络,得到动作执行策略的价值和所述状态价值基线;
基于所述动作执行策略的价值和所述状态价值基线,更新所述初始执行者网络和所述初始评价者网络的网络参数;
当车辆未发生碰撞且所述初始执行者网络和所述初始评价者网络训练完成时,得到训练好的所述执行者网络和评价者网络;
车辆基于所述当前动作执行策略执行动作,并基于执行后的下一图像、下一车辆位置和所述车位位置获取下一动作执行策略,直到车辆完成自动泊车任务。
2.根据权利要求1所述的基于深度强化学习的自动泊车方法,其特征在于,更新所述初始执行者网络的网络参数的公式为:
Figure 201844DEST_PATH_IMAGE016
其中,
Figure 157161DEST_PATH_IMAGE017
表示更新后的所述初始执行者网络的网络参数;
Figure 776361DEST_PATH_IMAGE018
表示所述初始执行者网络的网络参数;
Figure 699187DEST_PATH_IMAGE019
表示所述初始执行者网络的学习率;
Figure 429245DEST_PATH_IMAGE005
表示动作奖励的折扣率;
Figure 239070DEST_PATH_IMAGE020
表示所述动作执行策略的价值;
Figure 763592DEST_PATH_IMAGE021
表示所述状态价值基线;
Figure 173714DEST_PATH_IMAGE008
表示所述被抽取的训练样本的样本动作执行策略;
更新所述初始评价者网络的网络参数的公式为:
Figure 441884DEST_PATH_IMAGE022
其中,
Figure 371794DEST_PATH_IMAGE023
表示更新后的所述初始评价者网络的网络参数;
Figure 67217DEST_PATH_IMAGE024
表示所述初始评价者网络的网络参数;
Figure 574422DEST_PATH_IMAGE025
表示所述初始评价者网络的学习率;
Figure 505338DEST_PATH_IMAGE020
表示所述动作执行策略的价值;
Figure 679967DEST_PATH_IMAGE021
表示所述状态价值基线;
Figure 280713DEST_PATH_IMAGE007
表示所述被选取的训练样本的状态价值基线。
3.根据权利要求1所述的基于深度强化学习的自动泊车方法,其特征在于,所述评价者网络训练完成,包括:
基于所述状态价值基线,构建所述初始评价者网络的损失函数;
基于所述损失函数,更新所述初始评价者网络的网络参数,直到所述损失函数达到最小值;
将得到最小值损失函数时的初始评价者网络作为训练好的评价者网络。
4.根据权利要求3所述的基于深度强化学习的自动泊车方法,其特征在于,构建所述损失函数的公式为:
Figure 416159DEST_PATH_IMAGE026
其中,
Figure 760553DEST_PATH_IMAGE027
表示所述初始评价者网络在网络参数为
Figure 914322DEST_PATH_IMAGE028
时的损失函数;
Figure 685969DEST_PATH_IMAGE029
表示动作奖励;
Figure 433345DEST_PATH_IMAGE005
表示动作奖励的折扣率;
Figure 456796DEST_PATH_IMAGE030
表示车辆在t+1时刻的状态价值基线;
Figure 340439DEST_PATH_IMAGE031
表示车辆在t时刻的状态价值基线。
5.一种基于深度强化学习的自动泊车***,其特征在于,包括深度神经网络构建模块、深度神经网络训练模块、图像获取模块、位置获取模块、确定模块和循环模块;
所述深度神经网络构建模块用于构建初始评价者网络和初始执行者网络;通过构建多层数据结构,得到所述初始评价者网络和所述初始执行者网络,包括:
所述数据结构的第一层采用7*7的卷积操作和最大池化操作;
所述数据结构的第二层采用残差模块进行特征提取;
所述数据结构的第三层采用残差模块进行特征提取;
所述数据结构的第四层采用残差模块进行特征提取;
所述数据结构的第五层采用残差模块进行特征提取;
所述数据结构的第六层采用平均池化操作;
所述深度神经网络训练模块用于基于状态的状态价值基线,对所述初始评价者网络和所述初始执行者网络进行训练得到执行者网络;其中,训练得到执行者网络,包括基于动作执行策略的价值和所述状态价值基线,构建所述初始执行者网络的收益梯度;其中,构建所述收益梯度的公式为:
Figure 938779DEST_PATH_IMAGE001
其中,
Figure 642293DEST_PATH_IMAGE002
表示所述收益梯度;
Figure 594068DEST_PATH_IMAGE003
表示累计收益;
Figure 207583DEST_PATH_IMAGE004
表示动作奖励;
Figure 586612DEST_PATH_IMAGE005
表示动作奖励的折扣率;
Figure 777422DEST_PATH_IMAGE006
表示车辆在t+1时刻的状态价值基线;
Figure 680960DEST_PATH_IMAGE007
表示车辆在t时刻的状态价值基线;
Figure 539194DEST_PATH_IMAGE008
表示在状态
Figure 964491DEST_PATH_IMAGE009
的情况下执行动作
Figure 908176DEST_PATH_IMAGE010
的样本动作执行策略;基于所述收益梯度,更新所述初始执行者网络的网络参数,直到所述收益梯度达到最大值;将得到最大值收益梯度时的初始执行者网络作为训练好的执行者网络;
所述图像获取模块用于获取车辆的当前图像;所述当前图像包括车辆处于当前环境下的状态;
所述位置获取模块用于获取当前车辆位置和车位位置;
所述确定模块用于将所述当前图像、所述当前车辆位置和所述车位位置输入所述执行者网络,所述执行者网络输出当前动作执行策略;动作执行策略是指基于车辆当前所处的环境所做出的执行动作;动作执行策略的公式为:
Figure 936175DEST_PATH_IMAGE011
Figure 773549DEST_PATH_IMAGE012
其中,
Figure 759960DEST_PATH_IMAGE013
表示被选择的动作;
Figure 66308DEST_PATH_IMAGE014
表示车辆的驾驶方向;
Figure 163577DEST_PATH_IMAGE015
表示方向盘的转向;
所述训练得到执行者网络,还包括:
将样本图像、样本车辆位置和样本车位位置输入所述初始执行者网络,所述初始执行者网络输出样本动作执行策略;
车辆基于所述样本动作执行策略执行动作;
获取执行所述样本动作执行策略的动作奖励;
将所述样本图像、所述执行动作、所述动作奖励和下一样本图像作为训练样本并存入经验池;所述下一样本图像为执行动作后得到的车辆环境的图像;
从所述经验池中随机抽取训练样本;
将被抽取的训练样本中的样本图像和下一样本图像输入所述初始执行者网络,得到动作执行策略的价值和所述状态价值基线;
基于所述动作执行策略的价值和所述状态价值基线,更新所述初始执行者网络和所述初始评价者网络的网络参数;
当车辆未发生碰撞且所述初始执行者网络和所述初始评价者网络训练完成时,得到训练好的所述执行者网络和评价者网络;
所述循环模块用于车辆基于所述当前动作执行策略执行动作,并基于执行后的下一图像、下一车辆位置和所述车位位置获取下一动作执行策略,直到车辆完成自动泊车任务。
CN202211353517.XA 2022-11-01 2022-11-01 一种基于深度强化学习的自动泊车方法和*** Active CN115472038B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211353517.XA CN115472038B (zh) 2022-11-01 2022-11-01 一种基于深度强化学习的自动泊车方法和***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211353517.XA CN115472038B (zh) 2022-11-01 2022-11-01 一种基于深度强化学习的自动泊车方法和***

Publications (2)

Publication Number Publication Date
CN115472038A CN115472038A (zh) 2022-12-13
CN115472038B true CN115472038B (zh) 2023-02-03

Family

ID=84337502

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211353517.XA Active CN115472038B (zh) 2022-11-01 2022-11-01 一种基于深度强化学习的自动泊车方法和***

Country Status (1)

Country Link
CN (1) CN115472038B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110136481A (zh) * 2018-09-20 2019-08-16 初速度(苏州)科技有限公司 一种基于深度强化学习的停车策略
CN111645673A (zh) * 2020-06-17 2020-09-11 西南科技大学 一种基于深度强化学习的自动泊车方法
CN112061116A (zh) * 2020-08-21 2020-12-11 浙江大学 一种基于势能场函数逼近的强化学习方法的泊车策略
CN112356830A (zh) * 2020-11-25 2021-02-12 同济大学 一种基于模型强化学习的智能泊车方法
CN113859226A (zh) * 2021-11-04 2021-12-31 赵奕帆 一种基于强化学习的运动规划与自动泊车方法
CN114454875A (zh) * 2022-02-25 2022-05-10 深圳信息职业技术学院 一种基于强化学习的城市道路自动泊车方法及***

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190220737A1 (en) * 2018-01-17 2019-07-18 Hengshuai Yao Method of generating training data for training a neural network, method of training a neural network and using neural network for autonomous operations

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110136481A (zh) * 2018-09-20 2019-08-16 初速度(苏州)科技有限公司 一种基于深度强化学习的停车策略
CN111645673A (zh) * 2020-06-17 2020-09-11 西南科技大学 一种基于深度强化学习的自动泊车方法
CN112061116A (zh) * 2020-08-21 2020-12-11 浙江大学 一种基于势能场函数逼近的强化学习方法的泊车策略
CN112356830A (zh) * 2020-11-25 2021-02-12 同济大学 一种基于模型强化学习的智能泊车方法
CN113859226A (zh) * 2021-11-04 2021-12-31 赵奕帆 一种基于强化学习的运动规划与自动泊车方法
CN114454875A (zh) * 2022-02-25 2022-05-10 深圳信息职业技术学院 一种基于强化学习的城市道路自动泊车方法及***

Also Published As

Publication number Publication date
CN115472038A (zh) 2022-12-13

Similar Documents

Publication Publication Date Title
CN110969655B (zh) 用于检测车位的方法、装置、设备、存储介质以及车辆
CN110136199B (zh) 一种基于摄像头的车辆定位、建图的方法和装置
US11494937B2 (en) Multi-task multi-sensor fusion for three-dimensional object detection
CN110954113B (zh) 一种车辆位姿的修正方法和装置
CN110647839A (zh) 自动驾驶策略的生成方法、装置及计算机可读存储介质
CN110126817A (zh) 一种自适应任意点与固定点间泊车或召回的方法及***
CN111860072A (zh) 泊车控制方法、装置、计算机设备及计算机可读存储介质
CN115867940A (zh) 从3d边界框的单眼深度监督
CN113970922A (zh) 点云数据的处理方法、智能行驶控制方法及装置
CN111580526B (zh) 面向固定车辆编队场景的协同驾驶方法
CN115494849A (zh) 一种自动驾驶车辆导航控制方法及***
CN115249266A (zh) 航路点位置预测方法、***、设备及存储介质
CN117058474B (zh) 一种基于多传感器融合的深度估计方法及***
CN115472038B (zh) 一种基于深度强化学习的自动泊车方法和***
CN114220040A (zh) 一种泊车方法、终端及计算机可读存储介质
US20210398014A1 (en) Reinforcement learning based control of imitative policies for autonomous driving
CN116734850A (zh) 一种基于视觉输入的无人平台强化学习自主导航***及方法
CN116664498A (zh) 车位检测模型的训练方法、车位检测方法、装置和设备
CN114104005B (zh) 自动驾驶设备的决策方法、装置、设备及可读存储介质
CN113624223B (zh) 一种室内停车场地图构建方法及装置
CN113034538B (zh) 一种视觉惯导设备的位姿跟踪方法、装置及视觉惯导设备
EP4281945A1 (en) Static occupancy tracking
US12051001B2 (en) Multi-task multi-sensor fusion for three-dimensional object detection
CN116740681B (zh) 目标检测方法、装置、车辆和存储介质
CN117805843A (zh) 基于固态激光雷达的定位与建图方法及相关产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant