CN109109863B - 智能设备及其控制方法、装置 - Google Patents

智能设备及其控制方法、装置 Download PDF

Info

Publication number
CN109109863B
CN109109863B CN201810850160.3A CN201810850160A CN109109863B CN 109109863 B CN109109863 B CN 109109863B CN 201810850160 A CN201810850160 A CN 201810850160A CN 109109863 B CN109109863 B CN 109109863B
Authority
CN
China
Prior art keywords
data
control
model
target
sample data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810850160.3A
Other languages
English (en)
Other versions
CN109109863A (zh
Inventor
袁庭球
黄韬
黄永兵
刘兵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN201810850160.3A priority Critical patent/CN109109863B/zh
Publication of CN109109863A publication Critical patent/CN109109863A/zh
Application granted granted Critical
Publication of CN109109863B publication Critical patent/CN109109863B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W40/00Estimation or calculation of non-directly measurable driving parameters for road vehicle drive control systems not related to the control of a particular sub unit, e.g. by using mathematical models
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W40/00Estimation or calculation of non-directly measurable driving parameters for road vehicle drive control systems not related to the control of a particular sub unit, e.g. by using mathematical models
    • B60W40/02Estimation or calculation of non-directly measurable driving parameters for road vehicle drive control systems not related to the control of a particular sub unit, e.g. by using mathematical models related to ambient conditions
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W40/00Estimation or calculation of non-directly measurable driving parameters for road vehicle drive control systems not related to the control of a particular sub unit, e.g. by using mathematical models
    • B60W40/10Estimation or calculation of non-directly measurable driving parameters for road vehicle drive control systems not related to the control of a particular sub unit, e.g. by using mathematical models related to vehicle motion

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Mathematical Physics (AREA)
  • Transportation (AREA)
  • Mechanical Engineering (AREA)
  • Feedback Control In General (AREA)

Abstract

本申请提供了一种智能设备及其控制方法、装置,属于机器学习领域。该方法可以在接收到针对目标任务的执行指令后,获取检测数据,并将检测数据和目标任务输入至感知模型,得到与该目标任务关联的代表性检测数据;然后可以将目标任务以及代表性检测数据输入至规划模型,得到目标状态数据;之后可以将目标状态数据,以及部分或全部代表性检测数据输入至控制模型,得到用于控制智能设备的控制参数,并基于该控制参数控制智能设备。解决了现有技术的智能设备控制过程中对训练样本的依赖较大,训练效果不理想的问题,能够实现对智能设备更好的控制。

Description

智能设备及其控制方法、装置
技术领域
本申请涉及机器学习领域,特别涉及一种智能设备及其控制方法、装置。
背景技术
智能设备,也可以称为智能体(Intelligent Agent,IA),是一种自主的实体(autonomous entity)。智能设备能够通过传感器感知周围的环境,并可以通过执行器(actuators)来执行操作。常见的智能设备一般包括机器人和自动驾驶车辆等。
相关技术中,智能设备的控制装置中一般设置有基于机器学习算法训练得到的控制模型,该控制模型可以将传感器采集的数据作为输入数据,并对该输入数据进行处理后生成用于控制执行器的控制参数,该控制参数可以用于指示执行器执行相应操作。例如,对于自动驾驶车辆,控制模型可以根据摄像头采集到的道路图像,生成用于控制油门、刹车和方向盘中的至少一种执行器的控制参数。
但是,相关技术中的控制模型的控制效果依赖于模型训练时所采用的样本数据的样本量,当样本量较少时,该控制模型的控制效果较差。
发明内容
本发明实施例提供了一种智能设备及其控制方法、装置,可以解决相关技术中的控制模型的控制效果较差的问题。技术方案如下:
一方面,提供了一种智能设备的控制方法,该方法可以应用于智能设备的控制装置中。该方法可以包括:接收到针对目标任务的执行指令后,获取检测数据,该检测数据可以包括该智能设备周围环境的环境数据,以及该智能设备的状态数据。之后,控制装置可以将检测数据和目标任务输入至感知模型,得到与该目标任务关联的代表性检测数据;然后可以将目标任务以及代表性检测数据输入至规划模型,得到目标状态数据;之后可以将目标状态数据,以及部分或全部代表性检测数据输入至控制模型,得到用于控制智能设备的控制参数,并基于该控制参数控制智能设备执行该目标任务。其中,该控制模型基于控制理论数据初始化得到。
本申请提供的控制方法,控制模型是基于控制理论数据初始化得到的,因此该控制模型训练时对训练样本的依赖较小,训练效果较好。基于该控制模型的控制方法对智能设备进行控制时的控制效果较好。
可选的,该感知模型可以基于深度学习的方式训练得到。该规划模型可以基于强化学习的方式训练得到。该控制模型可以基于强化学习的方式训练得到。
当然,该感知模型也可以基于强化学习或深度强化学习的方式训练得到,该规划模型和控制模型也可以基于深度学习或深度强化学习的方式训练得到。
可选的,在接收针对目标任务的执行指令之前,该方法还可以包括:
获取检测样本数据以及与指定任务关联的代表性检测样本数据,该检测样本数据包括智能设备在执行指定任务时的周围环境的环境样本数据,以及该智能设备的状态样本数据;基于深度学习的方式对该检测样本数据、该指定任务以及该代表性检测样本数据进行训练,得到该感知模型。
在基于深度学习的方式进行训练的过程中,可以将检测样本数据和该指定任务输入至初始感知模型中,然后基于该感知模型输出的代表性检测数据与该代表性检测样本数据的差异,调整该初始感知模型的参数,得到该感知模型。
可选的,在接收针对目标任务的执行指令之前,该方法还包括:
获取与指定任务关联的代表性检测样本数据以及效果值样本数据;基于强化学习的方式,采用该代表性检测样本数据、该指定任务以及该效果值样本数据对初始规划模型进行训练,得到该规划模型。
在基于强化学习的方式进行训练的过程中,可以将代表性检测样本数据和该指定任务输入至初始规划模型中,并基于该效果值样本数据对初始规划模型的参数进行调整,从而得到该规划模型。
可选的,在接收针对目标任务的执行指令之前,该方法还可以包括:
基于该控制理论数据对初始控制模型进行初始化;获取与指定任务关联的部分或全部代表性检测样本数据,目标状态样本数据,以及效果值样本数据;基于强化学习的方式,采用获取到的该代表性检测样本数据,该目标状态样本数据,以及该效果值样本数据,对该初始控制模型进行训练,得到该控制模型。
由于控制理论数据可以直接反映和表现智能设备的控制规律和原理,基于该控制理论数据对初始控制模型进行初始化后,可以有效减少后续模型训练时所需的样本量,提高了训练的效率,降低了训练的成本。
可选的,该控制模型可以包括:用于计算权重的控制子模型,以及用于计算该控制参数的一个或多个计算子模型;在接收针对目标任务的执行指令之前,该方法还包括:
获取与指定任务关联的部分或全部代表性检测样本数据,目标状态样本数据,以及效果值样本数据;基于强化学习的方式,采用获取到的该代表性检测样本数据,该目标状态样本数据,以及该效果值样本数据,对初始控制子模型进行训练,得到该控制子模型;基于该控制理论数据确定每个该计算子模型。
基于控制理论数据确定用于计算控制参数的计算子模型,有效提高了控制模型的训练效率,降低了训练成本。
可选的,该控制模型可以包括:用于计算权重的控制子模型,以及用于计算该控制参数的一个或多个计算子模型;
将该目标状态数据,以及部分或全部该代表性检测数据输入至控制模型,得到用于控制该智能设备的控制参数的过程可以包括:
从该目标状态数据,以及部分或全部该代表性检测数据中获取与每个该计算子模型对应的一组目标输入数据;分别将每组目标输入数据输入至对应的计算子模型,得到每组目标输入数据所对应的控制参数的取值;将该目标状态数据,以及部分或全部代表性检测数据输入至该控制子模型,得到一组权重;根据该一组权重,以及各组目标输入数据对应的控制参数的取值,确定该控制参数的目标取值。
例如,可以根据采用该一组权重,对各组目标输入数据对应的控制参数的取值进行加权求和,得到该控制参数的目标取值。
由于该控制参数的目标取值是基于该控制子模型输出的权重以及计算子模型计算得到的控制参数的取值确定的,因此该权重会对控制参数的目标取值形成约束,即该权重可以约束最终确定的目标取值的取值范围,保证了控制模型输出的控制参数的合理性,确保了基于该控制参数对智能设备进行控制时的安全性和可靠性。
可选的,该方法还可以包括:
在基于该控制参数控制该智能设备之后,获取该智能设备新的状态数据;根据该新的状态数据与该目标任务确定控制效果;根据该控制效果,调整该感知模型、该规划模型和该控制模型中一个或多个模型的参数。
在对智能设备进行控制的过程中,根据智能设备的新的状态数据评估控制效果,并基于该控制效果调整模型的参数,实现了模型的在线调整和完善,能够不断改善对智能设备进行控制时的控制效果。
可选的,根据该新的状态数据与该目标任务确定控制效果的过程可以包括:
将该新的状态数据和该目标任务输入至评价模型,得到该控制参数的控制效果。该评价模型中可以存储有不同任务对应的评价算法,该评价模型获取到目标任务后,可以先选取与该目标任务对应的评价算法,然后再基于该评价算法对新的状态数据进行处理,以确定控制效果。评价模型采用不同的评价算法对执行不同任务时的控制效果进行评价,有效提高了对控制效果进行评价时的灵活性和可靠性。
可选的,该智能设备可以为自动驾驶车辆或者智能机器人。
另一方面,提供了一种智能设备的控制装置,该装置可以包括至少一个模块,该至少一个模块可以用于实现上述方面所提供的智能设备的控制方法。
又一方面,提供了一种智能设备的控制装置,该装置可以包括:存储器,处理器及存储在该存储器上并可在该处理器上运行的计算机程序,该处理器执行该计算机程序时实现如上述方面提供的智能设备的控制方法。
再一方面,提供了一种计算机可读存储介质,该计算机可读存储介质中存储有指令,当该计算机可读存储介质在计算机上运行时,使得计算机执行如上述方面提供的智能设备的控制方法。
再一方面,提供了一种智能设备,该智能设备可以包括上述方面提供的智能设备的控制装置。
再一方面,提供了一种包含指令的计算机程序产品,当该计算机程序产品在计算机上运行时,使得计算机执行如上述方面提供的智能设备的控制方法。
本申请提供的技术方案带来的有益效果至少可以包括:
本申请提供了一种智能设备及其控制方法、装置,该方案可以将获取到的检测数据和目标任务输入至感知模型,得到与该目标任务关联的代表性检测数据。然后可以将目标任务和该代表性检测数据输入至规划模型,得到目标状态数据。之后可以将该目标状态数据和该代表性检测数据输入至控制模型,得到用于控制该智能设备的控制参数。最后即可以基于该控制参数控制该智能设备。由于该控制模型是基于控制理论数据初始化得到的,该控制理论数据能够直接表达和反映智能设备的控制规律和原理,相比于相关技术中直接采用训练样本进行训练,不仅降低了控制模型对训练样本的依赖,提高了训练效率,还可以确保对智能设备的控制效果。
附图说明
图1是本发明实施例提供的一种智能设备的示意图;
图2是本发明实施例提供的一种智能设备的控制方法的流程图;
图3是本发明实施例提供的一种控制***的架构图;
图4是本发明实施例提供的一种感知模型的结构示意图;
图5是本发明实施例提供的一种感知模型获取与目标任务关联的感知数据的方法流程图;
图6是本发明实施例提供的一种感知模型的架构图;
图7是本发明实施例提供的一种规划模型的架构图;
图8是本发明实施例提供的一种控制模型的架构图;
图9是本发明实施例提供的一种控制子模型的架构图;
图10是本发明实施例提供的一种调整控制***中各模型的参数的方法流程图;
图11是本发明实施例提供的一种评价算法模型的架构图;
图12是本发明实施例提供的一种控制***的局部架构图;
图13是本发明实施例提供的一种感知模型的训练方法的流程图;
图14是本发明实施例提供的一种规划知模型的训练方法的流程图;
图15是本发明实施例提供的一种控制模型的训练方法的流程图;
图16是本发明实施例提供的一种智能设备的控制装置的结构示意图;
图17是本发明实施例提供的另一种智能设备的控制装置的结构示意图;
图18是本发明实施例提供的又一种智能设备的控制装置的结构示意图;
图19是本发明实施例提供的再一种智能设备的控制装置的结构示意图。
具体实施方式
随着人工智能技术的发展和成熟,极大推动了智能机器人和自动驾驶车辆等智能设备相关产业的发展,同时对智能设备的控制效果的要求也越来越高。本发明实施例提供了一种智能设备的控制方法,该方法可以应用于智能设备的控制装置。该控制装置可以配置于智能设备中,或者该控制装置也可以配置于与该智能设备建立有通信连接的控制设备中。该控制设备可以与智能设备中的各个传感器以及驱动装置通信,能够获取各个传感器采集到的检测数据,并根据该检测数据对该智能设备的驱动装置进行控制。参考图1,该智能设备00可以为自动驾驶车辆或者智能机器人等。该控制设备可以为服务器,且该服务器可以是一台服务器,或者由若干台服务器组成的服务器集群,或者是一个云计算服务中心。
在本发明实施例中,智能设备00上可以设置有用于检测智能设备周围环境的环境数据的多个传感器,以及用于检测智能设备自身状态数据的多个传感器。由于不同类型的传感器在检测范围、检测精度和检测条件等方面都有各自的优势,因此智能设备中一般设置有多种类型的传感器,该多种类型的传感器的功能可以互补。例如,用于检测环境数据的传感器可以包括视觉传感器、激光雷达、超声传感器和毫米波雷达等;用于检测状态数据的传感器可以包括全球定位***(Global Positioning System,GPS)传感器、速度传感器和转向传感器等。智能设备的控制装置可以获取该多个传感器采集到检测数据(即环境数据和状态数据),并可以根据接收到的目标任务(例如直行、倒车或者自动调整温度等),对该检测数据进行分析处理,得到用于控制智能设备的控制参数。
以图1中所示的自动驾驶车辆为例,该自动驾驶车辆上设置的用于检测环境数据的传感器可以包括激光雷达(分别设置于车顶、车前和车后)、摄像头(分别设置于车辆的前向、后向和侧向)以及前毫米波雷达(分别设置于车前和车后),用于检测状态数据的传感器可以设置在自动驾驶车辆的内部,图中未示出。
该自动驾驶车辆上设置的传感器可以检测周围的环境数据以及自动驾驶车辆自身的状态数据。自动驾驶车辆的控制装置获取到上述检测数据后,可以根据用户下发的目标任务以及该检测数据,生成控制参数。之后,控制装置可以通过自动驾驶车辆的控制总线向自动驾驶车辆的传动装置发送控制参数,进而控制自动驾驶车辆的速度和转向,保证自动驾驶车辆安全可靠地在道路上行驶。
需要说明的是,对于不同类型的智能设备,其上设置的传感器的种类、数量以及设置位置可以根据实际情况进行调整,本发明实施例对此不做限定。
图2是本发明实施例提供的一种智能设备的控制方法的流程图,该方法可以应用于智能设备的控制装置中。参考图2,该方法可以包括:
步骤101、接收到针对目标任务的执行指令后,获取检测数据。
在本发明实施例中,当用户希望通过控制装置对智能设备进行自动控制时,可以通过预设的触发操作,触发该执行指令。例如,该智能设备的显示界面中可以显示有任务图标,该触发操作可以为用户点击目标任务的图标的操作,智能设备检测到该触发操作后,可以生成针对目标任务的执行指令。该目标任务可以为自动驾驶至指定目的地、自动跟车、自动倒车或自动调节车内温湿度等任务。可选的,该触发操作还可以为语音操作、滑动操作或者按压指定按键的操作等,本发明实施例对此不做限定。
控制装置接收到该执行指令后,可以获取智能设备的传感器(例如图像、激光雷达、毫米波雷达和GPS等传感器)所采集到的检测数据。该检测数据可以包括该智能设备周围环境的环境数据,以及该智能设备的状态数据。其中,该环境数据可以包括智能设备周围环境中不同对象的属性数据,例如可以包括道路数据(例如道路的宽度和车道数等)、障碍物数据(例如障碍物的大小、位置和移动速度等)和指示灯数据(例如指示灯的颜色)等。该状态数据可以包括智能设备的行为状态数据,例如可以包括移动速度和转向角度等数据。
可选的,该环境数据还可以包括:温度数据、湿度数据和气压数据等,该状态数据还可以包括:智能设备的剩余电量、剩余油量、胎压、车内温度和车内湿度等能够反映智能设备运行状态或运行效果的数据。该环境数据和状态数据所包括的数据类型可以根据智能设备中设置的传感器的类型进行灵活调整,本发明实施例对不做限定。
可选的,控制装置获取到的检测数据可以是传感器采集到的原始数据,例如激光雷达采集的点云数据,也可以是经过传感器初步处理后的数据,例如激光雷达从点云数据中分析得出的物体的尺寸和距离等数据。
示例的,假设该智能设备为自动驾驶车辆,该自动驾驶车辆的控制装置接收到了自动跟车的执行指令,则该控制装置可以获取自动驾驶车辆的传感器所采集到的检测数据。该检测数据中的环境数据可以包括:车道线曲率k1,车辆当前速度v1,前方障碍物的种类b、速度v2、与本车距离d2,温度t1以及风速v3等数据。该检测数据中的状态数据可以包括自动驾驶车辆的车速v0和转向角度α等数据。
步骤102、将该检测数据和该目标任务输入至感知模型,得到与该目标任务关联的代表性检测数据。
在本发明实施例中,该控制装置中可以配置有控制***,控制装置可以通过该控制***对智能设备进行控制。图3是本发明实施例提供的一种控制***的架构图。如图3所示,该控制***可以包括感知模型01、规划模型02和控制模型03。该感知模型01用于从该检测数据中获取与目标任务关联的代表性检测数据。该规划模型02用于根据该代表性检测数据以及该目标任务,确定智能设备的目标状态数据。该控制模型03用于根据部分或全部该代表性检测数据以及该目标状态数据,得到用于控制智能设备的控制参数。
控制装置在确定目标任务并获取到检测数据后,可以先将该检测数据以及该目标任务输入至感知模型01。感知模型01即可根据输入的数据,获取与该目标任务关联的代表性检测数据。
可选的,为了提高数据的处理效率,感知模型01可以先对输入的检测数据进行预处理,该预处理可以包括:提取、分类和融合中的至少一种。例如,感知模型01可以对输入的检测数据依次进行提取、分类和融合处理。经过预处理后,感知模型01可以滤除无用数据,获取到智能设备周围环境中每个对象的属性数据以及智能设备自身的属性数据。
图4是本发明实施例提供的一种感知模型的结构示意图,如图4所示,该感知模型01可以包括感知融合子模型011和特征提取子模型012。该感知融合子模型011可以用于对该检测数据进行预处理,并将预处理后的检测数据发送至特征提取子模型012。该特征提取子模型012用于从预处理后的检测数据中获取与目标任务关联的代表性检测数据。
该感知融合子模型011在某一时刻t输出的检测数据yt,可以理解为对多个传感器在该时刻t输出的大量检测数据zt进行融合后产生的。因此,该感知融合子模型011在t时刻输出的检测数据yt的概率P可以表示为P(yt|zt)。感知融合子模型011在对检测数据进行预处理过程中,可以计算输出不同yt的概率,并选择概率最大的yt作为实际输出。
示例的,以自动驾驶车辆为例,感知融合子模型011可以根据输入的环境数据,识别出自动驾驶车辆的周围环境中的静态物体和动态物体。对于静态物体,感知融合子模型011可以检测其分类(即类型)和大小等数据;对于动态物体,感知融合子模型011可以检测其速度和意图(即预测轨迹)等数据。之后,感知融合子模型011可以对不同传感器输出的针对同一物体的原始数据进行分类和融合,从而得到不同对象的属性数据以及自身的属性数据。例如,雷达输出的原始数据为许多点组成的点云数据,摄像头输出的原始数据为图像数据,这些原始数据均不包含任何物体的语义信息。感知融合子模型011可以采用卡尔曼滤波等算法对各个传感器输出的原始数据进行分类,并将多种传感器输出的原始数据进行融合后,生成用于表征周围环境的特征以及自动驾驶车辆自身特征的属性数据(也可以称为特征数据)。若自动驾驶车辆及其周围环境的每个特征都用一个维度的数据表达,则该特征数据的维度可以超过100维。
进一步的,特征提取子模型012即可从该预处理后的检测数据中获取与该目标任务关联的代表性检测数据,该代表性检测数据也可以称为代表性特征(RepresentationState)数据。该代表性检测数据作为规划模型02的关键输入,直接影响并决定了规划模型02的执行结果,因此该感知模型01所选取的代表性检测数据的精准度会直接影响该控制***的控制效果。
可选的,参考图3,该控制***还可以包括知识库04,该知识库04可以存储有用于辅助各个模型运行的数据(也可以称为知识)。示例的,该数据可以包括用于辅助该感知模型01获取代表性检测数据的感知数据、用于辅助该规划模型02确定目标状态数据的规划数据以及用于辅助该控制模型生03成控制参数的控制数据。该知识库04可以采用表格或矩阵等形成存储数据。或者,知识库04还可以采用其他更复杂的形成,例如单纯复形等结合几何形状的行驶存储该数据,本发明实施例对此不做限定。
该知识库04中存储的感知数据可以包括不同任务对应的感知数据,该特征提取子模型012获取到输入的目标任务以及检测数据后,可以从该知识库04中获取与该目标任务关联的感知数据。该感知数据可以包括能够辅助该感知模型获取代表性检测数据的数据。例如,该感知数据可以包括代表性检测数据的类型。当该感知模型是基于深度学习(DeepLearning,DL)或强化学习(Reinforcement Learning,RL)等机器学习方法训练得到的模型时,该感知数据还可以包括与该目标任务对应的该感知模型的参数。该参数可以包括感知模型的模型参数、输入参数和输出参数。
如图5所示,感知模型获取与目标任务关联的感知数据的过程可以包括如下步骤:
步骤1021、根据该检测数据确定该智能设备当前所处的场景。
感知模型可以根据检测数据与场景标识的对应关系,确定当前所获取到的检测数据对应的场景标识,并将该场景标识指示的场景确定为智能设备当前所处的场景。
示例的,假设感知模型从该对应关系关系中查询到当前获取的检测数据对应的场景标识为1,则可以将该场景标识1指示的场景确定为自动驾驶车辆当前所处的场景。
步骤1022、检测任务、场景与感知数据的对应关系中是否记录有与该智能设备当前所处的场景对应的感知数据。
在本发明实施例中,控制***中可以存储有任务、场景与感知数据的对应关系。由于智能设备可处的场景较为多样,因此感知模型在确定智能设备当前所处的场景后,可以先检测该对应关系中是否记录有当前所处的场景对应的感知数据。
当该对应关系中记录有该智能设备当前所处的场景对应的感知数据时,感知模型可以执行步骤1023;当感知模型在上述步骤1021中未获取到该检测数据对应的场景标识,或者感知模型获取到的场景标识未记录在该任务、场景与感知数据的对应关系中时,感知模型可以确定该对应关系中未记录该智能设备当前所处的场景对应的感知数据,并可以执行步骤1024。
示例的,假设智能设备为自动驾驶车辆,则其控制***中存储的任务、场景与感知数据的对应关系可以如表1所示。参考表1,任务标识为10的任务,以及场景标识为1的场景所对应的感知数据可以包括代表性检测数据的类型,该代表性检测数据的类型包括:车道线曲率,车辆当前速度,车辆与车道中心线的距离,以及前方障碍物的种类、速度以及与本车的距离。而任务标识为20的任务,以及场景标识为3的场景所对应的感知数据则可以包括该感知模型的模型参数,输入参数的类型:车道线曲率,前方障碍物的种类、速度以及与本车距离,以及输出参数的类型:抽象特征1和抽象特征2。由于基于深度学习或强化学习等机器学习方法训练得到的感知模型所输出的代表性检测数据并非是直接从检测数据中选取的,而是对输入的检测数据进行处理后得到的,因此其输出的代表性检测数据可以称为抽象特征或者隐含特征。
表1
Figure BDA0001747402970000071
步骤1023、获取与该目标任务以及该智能设备当前所处的场景对应的感知数据。
当该对应关系中记录有该智能设备当前所处的场景对应的感知数据时,感知模型可以直接根据目标任务的任务标识以及智能设备当前所处场景的场景标识,从该对应关系中获取对应的感知数据。其中,该目标任务的任务标识可以携带在该执行指令中,或者感知模型可以根据预先存储的任务与标识的对应关系,确定该目标任务的任务标识。
示例的,假设目标任务的任务标识为10,自动驾驶车辆当前所处场景的场景标识为1,则根据表1所示的对应关系,感知模型获取到的感知数据可以为代表性检测数据的类型:车道线曲率,车辆当前速度,车辆与车道中心线的距离,前方障碍物的种类、速度以及与本车距离。
步骤1024、从该对应关系中确定与该当前所处的场景相似的相似场景,并获取与该目标任务以及该相似场景对应的感知数据。
当该智能设备所处的场景中为该任务、场景与感知数据的对应关系中未记录的新场景时,感知模型可以从该对应关系中记录的场景中,确定与该智能设备当前所处的场景相似的相似场景,并获取与该目标任务以及该相似场景对应的感知数据。
可选的,感知模型在确定与智能设备当前所处的场景相似的相似场景时,可以分别计算该对应关系中每个场景对应的检测数据与当前获取到的检测数据的相似度,并将相似度最高的检测数据对应的场景确定为该相似场景。
示例的,假设感知模型在上述步骤1021中所确定的自动驾驶车辆当前所处的场景的场景标识为5。则由于表1所示的对应关系中未记录该场景标识,因此感知模型可以分别计算场景标识1至3中每个场景标识对应的检测数据与当前获取到的检测数据的相似度。若其中场景标识2对应的检测数据与当前获取到的检测数据的相似度最高,则感知模型可以将该场景标识2指示的场景确定为与该场景标识5指示的场景相似的相似场景。进一步的,该感知模型即可从表1所示的对应关系中,获取与该任务标识10和场景标识2对应的感知数据。
在对应关系中未记录当前所处的场景所对应的感知数据时,通过获取相似场景的感知数据,使得该控制***能够快速适应新场景,该控制***的适应性较强,其应用场景不再受到训练样本数据的应用场景的限制,有效提高了该控制***的应用灵活性和可扩展性。
在本发明实施例中,感知模型01中还可以存储有最近获取过的部分感知数据,而上述任务、场景和感知数据的对应关系则可以存储在知识库04中。因此,感知模型01在确定智能设备当前所处的场景后,可以先判断本地是否存储有与该目标任务以及该场景对应的感知数据。如果有,则感知模型01可以直接获取该对应的感知数据。否则,感知模型01可以将预处理后的检测数据或者智能设备当前所处的场景的场景标识发送给知识库04。知识库04接收到感知模型01发送的数据后,可以获取与智能设备当前所处的场景对应的感知数据,并将该感知数据反馈至感知模型01。
在一种可选的实现方式中,若该感知模型01获取到的感知数据包括与目标任务关联的代表性检测数据的类型,则该感知模型01中的特征提取子模型012可以直接从预处理后的检测数据中提取该类型的检测数据,从而得到该代表性检测数据。
示例的,假设预处理后的检测数据包括:车道线曲率k1,车辆当前速度v1,车辆与车道中心线的距离d1,前方障碍物的种类b、速度v2、与本车距离d2,温度t1以及风速v3,自动驾驶车辆的车速v0,转向角度α0。感知模型01获取到的与目标任务关联的感知数据中代表性检测数据的类型包括:车道线曲率,车辆当前速度,车辆与车道中心线的距离,前方障碍物的种类、速度以及与本车距离。则特征提取子模型012从上述预处理后的检测数据中提取出的代表性检测数据可以包括:车道线曲率k1,车辆当前速度v1,车辆与车道中心线的距离d1,前方障碍物的种类b、速度v2、与本车距离d2。
在另一种可选的实现方式中,若该感知模型是基于深度学习或强化学习等机器学习的方式训练得到的模型,则该感知数据可以包括:与该目标任务对应的模型的参数。通过该感知模型提取与该目标任务关联的代表性检测数据时,可以直接将该检测数据和目标任务输入至采用该参数的感知模型,该感知模型的输出即为与该目标任务关联的代表性检测数据。
示例的,该感知模型可以是基于深度学习的方式训练得到的神经网络模型。例如可以为循环神经网络(recurrent neural network,RNN)模型或者卷积神经网络(Convolutional Neural Networks,CNN)模型。图6是本发明实施例提供的一种感知模型的架构图,如图6所示,该感知模型可以为多层互连的神经网络模型,每层神经网络由多个神经元组成。该感知模型获取到的感知数据中的模型的参数中可以包括每个神经元的权重(Weight)。控制装置获取到该模型的参数后,可以为该感知模型中的各个神经元配置对应的权重,然后即可将预处理后的检测数据以及目标任务输入至该感知模型,并将该感知模型的输出确定为代表性检测数据。
可选的,如前文所述,感知模型获取到的感知数据中还可以包括该感知模型的输入参数的类型。则该控制装置可以根据该输入参数的类型,从预处理后的检测数据中选取对应类型的检测数据并输入至该感知模型,得到该感知模型输出的与该目标任务关联的代表性检测数据。
示例的,假设该感知数据中的感知模型的输入参数的类型包括:特征1、特征2和特征3,则控制装置可以先从预处理后的检测数据中选取特征1至特征3共3种类型的检测数据,并将该3种类型的检测数据输入至感知模型。之后,即可将该感知模型输出的抽象特征1和抽象特征2作为代表性检测数据提供至规划模型。
在本发明实施例中,特征提取子模型012需要从检测数据中提取出能够准确反映智能设备所处环境和智能设备当前状态的代表性检测数据,以供规划模型02处理。该代表性检测数据一方面需要完备,另一方面不能人为先验指定。特征提取子模型012从预处理后的检测数据y中提取代表性检测数据h的概率可以满足如下数学模型:P(y1:N,z1:N,h1:N)=∏t=1…Np(yt|zt)p(ht|yt)p(ht|ht-1)。其中,N是指计算该概率的N个时刻,p(yt|zt)是指感知融合子模型011在t时刻从传感器输出的检测数据zt中选取yt输出的概率,p(ht|yt)是指特征提取子模型012在t时刻从感知融合子模型011输出的数据yt中选取ht输出的概率,p(ht|ht-1)是指特征提取子模型012在t-1时刻选取ht-1输出的前提下,在t时刻选取ht输出的概率。∏为求积符号,表示计算表达式p(yt|zt)p(ht|yt)p(ht|ht-1)在t取值依次为1至N时的N个数值的乘积。
该感知模型的工作原理可以理解为:感知模型基于输入的检测数据,通过上述数学模型计算输出不同代表性检测数据h的概率,并将概率最高的代表性检测数据h作为实际输出。
在又一种可选的实现方式中,若该感知模型是基于深度学习或强化学习等机器学习的方式训练得到的模型,则该感知模型中还可以包括与不同任务对应的多个感知子模型。控制装置将预处理后的检测数据和目标任务输入至该感知模型后,该感知模型可以确定与该目标任务对应的目标感知子模型,并将该预处理后的检测数据输入至该目标感知子模型。该目标感知子模型的输出即为与该目标任务关联的代表性检测数据。其中,每个感知子模型的架构可以与图6所示的感知模型的架构类似,此处不再赘述。
可选的,在本发明实施例中,感知模型获取到的与目标任务关联的感知数据还可以包括对智能设备的历史环境数据进行总结分析得到的环境经验数据。例如,对于自动驾驶车辆或者智能机器人,该环境经验数据可以包括:天气经验数据、道路经验数据以及障碍物经验数据中的至少一种。其中,天气经验数据可以包括天气预测常识数据和天气预报数据。道路经验数据可以包括预先获取到的不同道路的属性数据(例如宽度、车道数和车道中心线曲率等)。障碍物经验数据可以为不同类型的障碍物(包括静态障碍物和动态障碍物)的常规属性数据(例如平均大小和平均移动速度等)。
示例的,假设目标任务为自动跟车,则感知模型可以获取与该自动跟车任务关联的感知数据。例如,该感知数据可以包括:代表性检测数据的类型,自动驾驶车辆当前所在道路的属性数据,以及障碍物经验数据。或者,若该目标任务为自动调节车内温度,则感知模型获取的与该自动调节车内温度任务关联的感知数据可以包括:代表性检测数据的类型,以及天气经验数据。
感知模型还可以基于环境经验数据对获取到的代表性检测数据进行完善,以确保该代表性检测数据的完备性和可靠性。例如,当该检测数据中不包括感知数据中所指定的某个类型的数据(例如温度、障碍物的大小或速度等)时,感知模型可以从该环境经验数据中提取该类型的数据作为代表性检测数据。或者,当感知模型从检测数据中提取的某个代表性检测数据的数值超过理论范围时,感知模型可以根据该环境经验数据中相同类型的数据,对该代表性检测数据的数值进行修正。例如,假设感知模型从检测数据中提取的温度为100℃,则由于该温度远远超过了理论温度范围,因此感知模型可以根据环境经验数据中的天气经验数据确定当前温度,并将该确定的温度作为代表性检测数据。
步骤103、将该目标任务和该代表性检测数据输入至规划模型,得到目标状态数据。
在本发明实施例中,该规划模型获取到感知模型发送的代表性检测数据,以及该目标任务后,可以对智能设备的行为进行规划,以确定该智能设备的目标状态数据。该目标状态数据用于指示智能设备所需达到的状态。例如,对于自动驾驶车辆或者智能机器人,该目标状态数据可以包括智能设备所需到达的目标点的位置,以及在该目标点处的速度和转向角度等数据。
可选的,规划模型可以获取与该目标任务关联的规划数据,并在该规划数据的指导下确定该目标状态数据,以保证该最终确定的目标状态数据的可靠性和准确性。其中,该规划数据可以包括对智能设备的历史控制经验进行总结得到的控制经验数据,或者,该规划数据还可以包括控制理论数据(例如,动力学理论数据以及一些常识性的物理知识等),该规划数据可以用于辅助规划模型确定智能设备的意图。
对于自动驾驶车辆或者智能机器人,该控制经验数据可以包括:行驶经验数据和行驶规则数据中的至少一种。其中,行驶经验数据可以包括:智能设备频繁行驶的若干道路的经验数据(例如事故率、拥堵率、围挡情况以及根据大数据分析得出的交通流量和潜在的事故点等数据);行驶规则数据可以包括智能设备频繁行驶的若干道路的行驶规则(例如单行道的行驶方向)。当该规划模型包括基于机器学习的方式训练得到的模型时,该规划数据还可以包括与该目标任务对应的该模型的参数。
示例的,对于自动驾驶车辆,假设目标任务为自动跟车任务,该规划数据包括当前道路的事故率,代表性检测数据包括车辆当前速度,前车速度,以及与前车距离。则规划模型可以根据规划数据和代表性检测数据,确定自动驾驶车辆所需保持的速度。其中,在代表性检测数据不变的前提下,该规划数据中的事故率越高,该规划模型所确定的自动驾驶车辆所需保持的速度越低。
可选的,规划模型02中可以存储有最近获取过的部分规划数据,而上述任务与规划数据的对应关系则可以存储在知识库04中。因此,规划模型02在接收到感知模型01发送的代表性检测数据以及该目标任务后,可以先判断本地是否存储有该目标任务对应的规划数据,如果有,则可以直接获取该对应的规划数据;否则,规划模型02可以从知识库04中获取该目标任务对应的规划数据。
图7是本发明实施例提供的一种规划模型的架构图,如图7所示,该规划模型02可以包括意图预测子模型021、意图分解子模型022以及意图执行子模型023。该意图预测子模型021可以基于该目标任务,以及获取到的代表性检测数据中的环境数据,预测该智能设备的意图。之后,该意图分解子模型022可以对该意图进行分解,得到一个或多个子任务。该意图执行子模型023可以根据规划数据和代表性检测数据,确定与每个子任务对应的目标状态数据。
其中,意图预测子模型021预测的意图可以包括全局意图和局部意图,意图分解子模型022对意图分解后得到的每个子任务也可以称为原子意图。该全局意图是指该智能设备所需实现的宏观目标,例如在自动驾驶场景下,若该目标任务为从A点行驶至B点,则该全局意图可以为自动驾驶车辆从该A点行驶至B点的行驶轨迹(即导航信息)。该局部意图可以是结合环境数据对该全局意图进行分解得到的意图,例如在自动驾驶场景下,该局部意图可以包括:在A点至B点的某个路段,保持当前车道行驶或者换道行驶等意图。该原子意图可以是对该全局意图和局部意图进行分解得到的用于生成控制参数的最小意图,例如可以包括加速或者刹车等意图。
在一种可选的实现方式中,规划模型获取到的规划数据中可以包括意图预测数据、意图分解数据和意图执行数据。该意图预测数据能够辅助意图预测子模型021进行意图预测。在自动驾驶场景下,该意图预测数据可以包括行驶经验数据和行驶规则数据,例如可以包括若干道路的事故率和拥堵率。意图预测子模型021可以根据A点至B点各路段的事故率和拥堵率,确定自动驾驶车辆从A点行驶至B点的行驶轨迹。
该意图分解数据可以为将意图分解为子任务的规则,该规则可以包括每个意图所对应的一个或多个子任务。例如,假设意图为前方100米右转,则该意图对应的子任务可以包括:换道至最右侧车道,右转。意图分解子模型022可以基于该意图分解数据对意图预测子模型021输出的意图进行分解,得到一个或多个子任务。例如,假设目标任务为超车,与该超车任务关联的意图分解数据可以包括:加速、换左边道、换右边道和减速。若规划模型获取到的代表性检测数据中的环境数据包括:车道线曲率k1,车辆当前速度v1,车辆与车道中心线的距离d1,前方障碍物的种类b、速度v2、与本车距离d2。并且基于该车道线曲率k1可以确定当前车道为直行道,前方障碍物的速度v2小于预设阈值。则该意图分解子模型022可以将超车任务分解为四个子任务:加速、换左边道、换右边道和减速。
该意图执行数据可以为基于子任务和代表性检测数据确定目标状态数据的规则,该规则可以为对应关系,也可以为物理或者数学公式。意图执行子模型023可以根据该规则,对代表性检测数据进行处理,得到每个子任务对应的目标状态数据。例如,对于子任务:换左边道,意图执行子模型023可以采用动力学公式和数学公式,对代表性检测数据中车辆与车道中心线的距离、前方障碍物与本车距离等数据进行计算,得到车辆所需移动至的左边道的目标点的位置。
可选的,上述意图预测子模型021和意图执行子模型023也可以是基于机器学习的方式训练得到的模型。相应的,该意图预测数据可以为意图预测子模型021的模型参数,意图执行数据可以为意图执行子模型023的模型参数。
在另一种可选的实现方式中,该规划模型02可以是基于深度学习或强化学习等机器学习的方式训练得到的模型。该规划数据可以包括与该目标任务对应的模型的参数。规划模型在获取目标状态数据时,可以采用与该目标任务对应的参数进行参数配置,然后即可对输入的代表性检测数据和目标任务进行处理,并输出目标状态数据。
在又一种可选的实现方式中,该规划模型可以是基于深度学习或强化学习等机器学习的方式训练得到的模型,且该规划模型中还可以包括与不同任务对应的多个规划子模型。控制装置将代表性检测数据和目标任务输入至该规划模型后,该规划模型可以确定与该目标任务对应的目标规划子模型,并可以将该代表性检测数据输入至该目标规划子模型。该目标规划子模型的输出即为目标状态数据。
可选的,若该智能设备为自动驾驶车辆或者智能机器人,则该感知模型在获取得到代表性检测数据后,还可以基于获取到的周围环境中的障碍物的属性数据,对该障碍物的移动轨迹进行预测,并将预测结果发送至规划模型。规划模型可以结合该预测结果对智能设备的行为作出合理的决策,即确定该目标状态数据。若该目标任务为行驶任务,则该规划模型还需结合路径规划信息以及智能设备当前的位置,确定该目标状态数据。
步骤104、将该目标状态数据,以及部分或全部该代表性检测数据输入至控制模型,得到用于控制该智能设备的控制参数。
在本发明实施例中,该控制模型可以是基于控制理论数据初始化得到的模型。该控制理论数据可以包括:动力学理论数据(例如力学定律)以及一些常识性的物理知识(例如路面的摩擦系数)等。
可选的,该控制模型接收到规划模型发送的目标状态数据后,可以先获取与该目标任务关联的控制数据。该控制数据可以用于辅助控制划模型生成控制参数。该控制数据可以包括控制理论数据。当该控制模型是基于深度学习或强化学习等深度学习的方式训练得到的模型时,该控制数据可以包括与该目标任务对应的模型的参数。该控制模型可以在控制数据的指导下,基于感知模型输出的代表性检测数据,规划模型输出的目标状态数据,生成该控制参数。
可选的,控制模型03中可以存储有最近获取过的部分控制数据,而知识库04中可以存储有任务与控制数据的对应关系。因此,控制模型03在接收到规划模型发送的目标状态数据后,可以先判断本地是否存储有该目标任务对应的控制数据,如果有,则可以直接获取该对应的控制数据;否则,控制模型03可以从知识库04中获取该目标任务对应的控制数据。
若规划模型输出的目标状态数据包括与每个子任务对应的目标状态数据,则控制装置可以将一个或多个子任务中,当前待处理的子任务对应的目标状态数据和该代表性检测数据输入至控制模型,得到与该当前待处理的子任务对应的控制参数。
作为一种可选的实现方式,该控制模型可以为基于机器学习的方式训练得到的模型。相应的,该控制数据可以包括与该目标任务对应的控制模型的模型参数,以及控制模型中所需输入的代表性检测数据的类型(即输入参数的类型)。也即是,对于不同的任务,该控制模型的模型参数不同,且输入的代表性检测数据的类型也不同。对应的,上述步骤104可以包括:
步骤1041a、从该代表性检测数据中获取对应类型的代表性检测数据。
示例的,假设与该自动跟车任务对应的,该控制模型的输入参数的类型包括:车道线曲率和前方障碍物的速度。若感知模型输出的代表性检测数据包括:车道线曲率k1,车辆当前速度v1,车辆与车道中心线的距离d1,前方障碍物的种类b、速度v2、与本车距离d2。则控制模型从输入的代表性检测数据中获取到的对应类型的代表性检测数据可以包括:车道线曲率k1,前方障碍物的速度v2。
可选的,与自动倒车任务对应的,该控制模型的输入参数的类型可以包括:与后方障碍物之间的距离、与左侧障碍物的距离以及与右侧障碍物的距离。与自动驾驶至指定目的地的任务对应的,该控制模型的输入参数的类型可以包括:车道线曲率、与前方障碍物的距离以及前方障碍物的速度。
根据上述分析可知,对于不同的任务,控制模型所需输入的代表性检测数据可以是感知模型输出的全部代表性检测数据,也可以是部分代表性检测数据。可选的,与每个任务对应的,控制模型的输入参数的类型可以是开发人员预先根据经验设定的。
步骤1042a、通过采用该模型参数的控制模型对目标状态数据和获取到的代表性检测数据进行处理,得到用于控制该智能设备的控制参数。
该控制模型可以为基于机器学习的方式训练得到的神经网络模型,例如可以为RNN模型或者CNN模型。该控制数据中的模型参数可以包括该神经网络模型中每个神经元的权重。控制模型获取到该模型参数后,可以为其各个神经元配置对应的权重。之后,即可对输入的目标状态数据和获取到的代表性检测数据进行处理,得到用于控制该智能设备的控制参数。
若该目标状态数据包括与每个子任务对应的目标状态数据,则对于每个子任务,控制装置可以均采用该控制模型对该子任务对应的目标状态数据,以及该代表性检测数据进行处理,以确定与每个子任务对应的控制参数。
以自动驾驶场景为例,如图8所述,假设控制模型的输出参数包括加速度和方向盘的转向角度,控制模型中输入的代表性检测数据为:代表性检测数据1:车道线曲率k1,代表性检测数据2:前方障碍物的速度v2。则控制模型可以对规划模型输出的目标状态数据以及该两个代表性检测数据进行处理。若该控制模型输出的加速度为a1,方向盘的转向角度为α1,则控制装置可以通过自动驾驶车辆的控制总线,对该自动驾驶车辆的传动和动力装置进行控制,使得该自动驾驶车辆的加速度为a1,方向盘的转向角度为α1
作为另一种可选的实现方式中,该控制模型中还可以包括与不同任务对应的多个控制子模型,每个控制子模型可以是基于深度学习、强化学习或深度强化学习等机器学习的方式训练得到。控制装置将目标状态数据以及部分或全部代表性检测数据输入至该控制模型后,该控制模型可以确定与该目标任务对应的目标控制子模型,并将该代表性检测数据和该目标状态数据输入至该目标控制子模型。该目标控制子模型的输出即为控制参数。
其中,输入至该控制模型的代表性检测数据的类型可以是控制装置基于该目标任务确定的。例如,控制装置可以获取与目标任务关联的控制数据,与该目标任务关联的控制数据中可以包括控制模型所需输入的代表性检测数据的类型。也即是,对于不同的任务,该控制模型所需输入的代表性检测数据的类型可以不同。控制装置可以基于与该目标任务关联的控制数据中指定的类型,从感知模型输出的代表性检测数据中获取对应类型的代表性检测数据,并输入至该控制模型。
作为又一种可选的实现方式,该控制数据可以包括与该目标任务对应的用于生成该控制参数的第一规则,以及用于生成该控制参数的代表性检测数据的类型。也即是,对于不同的任务,用于生成该控制参数的规则不同,且用于生成该控制参数的代表性检测数据的类型也不同。对应的,上述步骤104可以包括:
步骤1041b、从该代表性检测数据中获取对应类型的代表性检测数据。
示例的,假设与该自动跟车任务对应的,用于生成该控制参数的代表性检测数据的类型包括:车道线曲率和车辆当前速度。感知模型输出的代表性检测数据包括:车道线曲率k1,车辆当前速度v1,车辆与车道中心线的距离d1,前方障碍物的种类b、速度v2、与本车距离d2。则控制模型从输入的代表性检测数据中获取到的对应类型的代表性检测数据可以包括:车道线曲率k1,车辆当前速度v1。
步骤1042b、采用该第一规则对目标状态数据和获取到的代表性检测数据进行处理,得到用于控制该智能设备的控制参数。
在本发明实施例中,该第一规则可以为目标状态数据、代表性检测数据与控制参数的对应关系。控制模型获取到规划模型发送的目标状态数据,以及获取到对应类型的代表性检测数据后,可以直接从该对应关系中获取对应的控制参数。
或者,该第一规则还可以为目标状态数据、代表性检测数据与控制参数之间的公式(例如物理公式或数学公式)。控制模型可以将获取到规划模型发送的目标状态数据,以及获取到的对应类型的代表性检测数据带入至该公式中,从而计算得到控制参数。
示例的,假设与该自动跟车任务对应的,用于生成控制参数:加速度a的第一规则为数学公式f1,则该加速度a的表达式可以为:a=f1(s,k,v),其中,s为目标状态数据,k为车道线曲率,v为车辆当前速度。若控制模型接收到的目标状态数据为s1,获取到的对应类型的代表性检测数据为:车道线曲率k1,车辆当前速度v1。则控制模型可以将上述参数带入至用于生成加速度的数学公式f1中,从而得到用于控制自动驾驶车辆的加速度a2,该加速度a2满足:a2=f1(s1,k1,v1)。
作为再一种可选的实现方式,该控制模型可以包括用于计算权重的控制子模型,以及用于计算该控制参数的一个或多个计算子模型。其中,该控制子模型可以是基于深度学习或强化学习等机器学习的方式训练得到的模型,该计算子模型可以是基于控制理论数据初始化后确定的计算公式(例如物理公式或数学公式)。该控制数据可以包括:与每个计算子模型对应的一组输入数据的类型。或者,该控制数据也可以包括该控制理论数据,即该用于计算控制参数的一个或多个计算子模型也可以是控制模型从该控制数据中获取到的。对应的,上述步骤104可以包括:
步骤1041c、从该代表性检测数据和该目标状态数据中获取与每个计算子模型对应的一组目标输入数据。
每个计算子模型对应的一组目标输入数据可以包括:至少一种类型的代表性检测数据,和/或,至少一种类型的目标状态数据。且任意两个计算子模型对应的目标输入数据所包括的数据类型可以完全不同,也可以部分相同,本发明实施例对此不做限定。
示例的,假设该控制模型中包括用于计算控制参数:方向盘的转向角度的两个计算子模型,与第一个计算子模型对应的一组目标输入数据包括:车道线曲率,与第二个计算子模型对应的一组输入数据包括:车辆与车道线中心线距离。若感知模型输出的代表性检测数据包括:车道线曲率k1,车辆当前速度v1,车辆与车道中心线的距离d1,前方障碍物的种类b、速度v2、与本车距离d2。则控制模型从输入的代表性检测数据中获取到的与第一个计算子模型对应的一组目标输入数据可以包括:车道线曲率k1;与第二个计算子模型对应的一组目标输入数据可以包括:车辆与车道中心线的距离d1。
步骤1042c、分别将每组目标输入数据输入至对应的计算子模型,得到每组目标输入数据所对应的控制参数的取值。
其中,每个计算子模型可以为对应的一组输入数据与控制参数的取值之间的公式(例如物理公式或数学公式)。控制模型可以将获取到每组目标输入数据分别带入至对应的公式中,从而计算得到每组目标输入数据对应的控制参数的取值。
示例的,假设与该自动跟车任务对应的控制数据中包括用于计算控制参数:方向盘的转向角度α的两个计算子模型均为数学公式,且第一个计算子模型为:α=f2(k),第二个计算子模型为:α=f3(d)。其中,k为车道线曲率,d为车辆与车道中心线的距离。若控制模型获取到的与第一个计算子模型对应的一组目标输入数据为:车道线曲率k1,与第二个计算子模型对应的一组目标输入数据为:车辆与车道中心线的距离d1。则控制模型可以将车道线曲率k1代入对应的数学公式f2,得到该一组目标输入数据对应的转向角度的取值为:α2=f2(k1)。同理,控制模型可以将车辆与车道中心线的距离d1代入对应的数学公式f3,得到该一组目标输入数据对应的转向角度的取值为:α3=f3(d1)。
步骤1043c、将该目标状态数据,以及部分或全部代表性检测数据输入至控制子模型,得到一组权重。
该控制数据中可以包括与目标任务对应的该控制子模型的模型参数。控制模型可以根据获取到的模型参数对控制子模型进行参数配置。之后,即可将目标状态数据,以及部分或全部代表性检测数据输入至采用该模型参数的控制子模型,从而得到一组权重。该一组权重可以包括多个权重。其中,输入至控制子模型的部分或全部代表性检测数据的可以是根据目标任务确定的,例如可以是控制模型根据与目标任务关联的控制数据中所记录的代表性特征数据的类型确定的。
示例的,图9是本发明实施例提供的一种控制子模型的架构图,如图9所示,假设控制模型获取到的部分代表性检测数据为:代表性检测数据3:车道线曲率k1,代表性检测数据4:车辆与车道中心线的距离d1。则控制模型可以将规划模型输出的目标状态数据以及该两个代表性检测数据输入至控制子模型。该控制子模型输出的一组权重可以包括:与第一个计算子模型对应的一组目标输入数据的权重为w1,以及与第二个计算子模型对应的一组目标输入数据的权重w2。
可选的,在本发明实施例中,与该目标任务关联的控制数据中还可以包括控制参数的基准值,该基准值可以为一常量,用于反映其他隐含相关数据对该控制参数的影响。相应的,该控制子模型的输出参数还可以包括与该基准值对应的权重。示例的,如图9所示,该控制子模型可以输出与方向盘的转向角度的基准值对应的权重w3。
步骤1044c、根据该一组权重,以及各组目标输入数据对应的控制参数的取值,确定该控制参数的目标取值。
在本发明实施例一种可选的实现方式中,控制模型可以将每组目标输入数据的权重与该组目标输入数据对应的控制参数的取值相乘,得到每组目标数据对应的乘积,之后再将各组目标输入数据对应的乘积相加,即可得到该控制参数的目标取值。即该控制模型可以根据各组目标输入数据的权重,对各组目标输入数据对应的控制参数的取值进行加权求和,从而得到该控制参数的目标取值。
示例的,假设基于车道线曲率k1得到的方向盘的转向角度的取值为α2,基于车辆与车道中心线的距离d1得到的方向盘的转向角度的取值为α3,方向盘的转向角度的基准值为α0。并且,该车道线曲率k1对应权重w1,车辆与车道中心线的距离d1对应权重w2,转向角度的基准值对应权重w3。则控制模型对上述方向盘的转向角度的取值进行加权求和后,得到的该方向盘的转向角度的目标取值αav可以满足:
αav=w1×α2+w2×α3+w3×α0
在本发明实施例另一种可选的实现方式中,控制模型可以将每组目标输入数据对应的权重与该组目标输入数据对应的控制参数的取值相乘,得到每组目标输入数据对应的乘积。之后控制模型可以将各组目标输入数据对应的乘积中,数值最大或者最小的乘积作为该控制参数的目标取值。或者,控制模型还可以先选取数值最大或者最小的乘积对应的一组目标输入数据,然后再将该选取出的一组目标输入数据对应的控制参数的取值作为该控制参数的目标取值。
在本发明实施例又一种可选的实现方式中,控制模型中还可以预先存储有用于计算该目标取值的加权求和算法,控制模型可以基于该加权求和算法,采用该一组权重对各组目标输入数据对应的控制参数的取值进行加权求和,从而得到该控制参数的目标取值。
可选的,上述步骤1043c还可以在步骤1042c之前执行,即控制模型可以先获取一组权重,然后再计算每组目标输入数据对应的控制参数的取值,并且该一组权重中的部分权重也可以作为计算子模型的输入参数来计算该控制参数的取值。
示例的,假设控制子模型输出的一组权重包括:w1、w2和w3。计算方向盘的转向角度α的两个计算子模型中,第一个计算子模型对应的一组目标输入数据可以包括:车辆轴距W、当前位置处的转向半径R1、下一个目标点位置处的转向半径R2、与车道中心线的距离d以及权重w1。该第一个计算子模型可以为:
α2=asin(W/((R1+R2-d)*0.5*w1)),其中,asin为反正弦函数。转向半径可以是指车辆纵向(即长度方向)对称面与瞬时转向中心O之间的距离。
第二个计算子模型对应的一组目标输入数据可以包括:与车道中心线距离d以及车辆的最远识别距离A_d,该第二个计算子模型可以为:α3=asin(d/A_d)。
控制模型中存储的用于计算转向角度的目标取值αav的加权求和算法可以为:
αav=w2*α2+(1-w2)*(w3*α3+(1-w3)*α0)。其中,α0为方向盘的转向角度的基准值。
步骤105、基于该控制参数控制智能设备执行该目标任务。
在本发明实施例中,该控制装置可以通过智能设备的控制总线与智能设备的底层驱动模块(例如自动驾驶车辆的传动和动力装置)连接。控制装置得到控制参数后,可以基于该控制参数生成操作指令,并将该操作指令发送至智能设备的底层驱动模块,该操作指令可以用于指示该底层驱动模块驱动智能设备执行对应的操作,即执行该目标任务。对于自动驾驶车辆,该操作一般为调整方向盘的转向角度、调整加速度、踩踏油门或者刹车等。
例如,假设该控制参数包括:方向盘的转向角度为αav,则控制装置可以控制自动驾驶车辆调整其方向盘的转向角度为αav
本发明实施例提供的智能设备的控制方法,可以将获取到的检测数据和该目标任务输入至感知模型,得到与该目标任务关联的代表性检测数据。然后可以将目标任务和该代表性检测数据输入至规划模型,得到目标状态数据。之后可以将该目标状态数据和该代表性检测数据输入至控制模型,得到用于控制该智能设备的控制参数。最后即可以基于该控制参数控制该智能设备。由于该控制模型是基于控制理论数据初始化得到的,该控制理论数据能够直接表达和反映智能设备的控制规律和原理,相比于相关技术中直接采用训练样本进行训练,不仅降低了控制模型对训练样本的依赖,提高了训练效率,还可以确保对智能设备的控制效果。
在本发明实施例中,为了进一步改善对智能设备的控制效果,控制装置还可以对控制参数的控制效果进行评价,并基于该评价结果,调整控制***中一个或多个模型的参数。图10是本发明实施例提供的一种调整控制***中各模型的参数的方法流程图,参考图10,该方法可以包括:
步骤106、在基于控制参数控制智能设备之后,获取智能设备的新的状态数据。
控制装置可以在基于控制参数控制智能设备执行对应的操作后,获取智能设备新的状态数据。与检测数据类似,该新的状态数据可以是智能设备上设置的传感器采集到的。在本发明实施例中,该新的状态数据的类型可以与该检测数据的类型相同;或者,可以与该感知模型提取的代表性检测数据的类型相同;又或者,控制装置中还可以存储有任务与新的状态数据类型的对应关系,该控制装置可以基于该对应关系,确定目标任务对应的新的状态数据类型,并获取对应类型的新的状态数据。
步骤107、根据该新的状态数据和该目标任务,确定控制效果。
以自动驾驶场景为例,假设该目标任务为沿车道中心线行驶(即理想情况下,车辆与车道中心线的距离为0),则控制装置可以根据新的状态数据中车辆与车道中心线的距离d与0的差异,也即是该车辆与车道中心线的距离d的大小,确定控制参数的控制效果。并且,该距离d越小,控制装置可以确定控制效果越好。
由于对于不同任务,控制装置生成的控制参数的类型不同,控制装置控制智能设备时的复杂程度也不同,因此对于不同的任务,控制装置还可以采用不同的评价算法来确定其控制效果。
参考图3,控制装置中的控制***还可以包括评价模型05,该评价模型05或者知识库04中可以存储有任务与评价算法的对应关系。评价模型05获取到智能设备的新的状态数据以及该目标任务后,可以从该对应关系中,获取与目标任务对应的评价算法,并可以采用获取到的与目标任务对应的评价算法确定控制效果。
对于较为简单的任务(例如自动跟车或者沿车道中心线行驶),该评价算法可以为新的状态数据与评价结果之间的计算公式。控制***获取到新的状态数据后,可以直接将其带入至该计算公式,从而计算得到用于反映该控制效果好坏的评价结果。
示例的,以自动跟车任务为例,自动跟车任务的目标是跟前车保持一定的距离,而且本车保持在车道线内。控制***基于接收到的自动跟车的执行指令,控制智能设备执行对应的操作后,可以根据任务与新的状态数据类型的对应关系,确定与该自动跟车任务对应的新的状态数据类型,并获取该对应类型的新的状态数据。假设评价模型05获取到的新的状态数据包括:车辆与车道中心线的距离D1,与前方车辆的距离D2。与该自动跟车任务对应的评价算法为公式f0,根据该公式f0计算得到的评价结果可以满足:
s=f0(b×D1,(1-b)×D2)。其中,b为大于等于0,且小于等于1的预设系数。
对于复杂任务,该评价算法可以为基于机器学习的方式训练得到的评价算法模型。示例的,该评价算法模型可以基于强化学习的方式训练得到(例如可以参考强化学习中价值网络的实现方式),或者可以采用基于监督学习的深度学习方法训练得到。并且,该评价算法模型的训练过程可以为离线训练或是在线训练,本发明实施例对此不做限定。
参考图11,该评价算法模型的输入参数除了包括新的状态数据,还可以包括感知模型输出的代表性检测数据。该评价模型可以将新的状态数据以及代表性检测数据输入至该评价算法模型,从而得到评价结果。该评价结果可以是一个大于等于0,且小于等于1的数值,且数值大小与评价结果的好坏正相关,即数值越大,表明评价结果越好,即控制效果越好。若数值小于某个阈值,则表明评价结果较差,即该控制装置的控制效果不符合预期或是不满足要求。如果评价结果在一段时间内的统计值(例如平均值)总是低于某个阈值,则控制装置可以确定该控制***中的某个模型或是整个控制***的运行状态较差,需要对各模型的参数进行调整。
步骤108、根据该控制效果,调整该控制***的参数。
该参数可以包括该控制***的模型参数、输入参数和输出参数中的至少一种。可选的,如图3所示,由于该控制***可以包括感知模型、规划模型和控制模型,因此该评价模型确定出控制效果后,作为一种可选的实现方式,评价模型可以将该控制效果发送至每个模型。该感知模型、规划模型和控制模型中的一个或多个模型可以根据该控制效果对其自身的参数进行调整,且每个模型所调整的参数可以包括模型参数、输入参数和输出参数中的至少一种。作为另一种可选的实现方式,该控制装置可以根据该评价效果,分别调整每个模型的参数,或者随机调整其中若干个模型的参数,又或者,可以按照预先设定的模型的类型,调整对应类型的模型的参数。
示例的,评价模型05可以向感知模型01、规划模型02和控制模型03分别发送用于反映该控制效果好坏的评价结果。每个模型可以在该评价结果的数值小于预设阈值时,调整自身的参数。以感知模型01为例,若感知模型01检测到该控制效果的数值小于预设阈值,可以确定当前选取的代表性检测数据的类型不适合该目标任务以及当前所处的场景,因此可以调整与该目标任务和当前所处的场景对应的代表性检测数据的类型。或者,若该感知模型01为基于深度学习的方式训练得到的模型,则感知模型01可以调整各神经元的权重,或该感知模型01输出的代表性检测数据的类型。
可选的,在本发明实施例中,每个模型获取到的与目标任务关联的数据中还可以包括用于对该模型的参数的调整范围进行限定的约束参数。相应的,每个模型在根据控制效果调整自身的参数时,可以在该约束参数限定的范围内进行调整。由此可以保证控制***的输出符合实际情况需求,进而可以确保对智能设备进行控制时的安全性和可靠性。
参考图3可以看出,该感知模型01、规划模型02和控制模型03紧密结合,每个模型的输入参数或输出参数的调整可能会影响相邻的模型,因此某个模型在对其输入参数或输出参数进行调整时,其相邻模型的参数也需进行相应调整。例如,若感知模型调整其输出参数,即代表性检测数据的类型,相应地,规划模型的输入参数也要相应地调整。
在本发明实施例中,控制装置可以根据评价模型每次生成的控制效果,不断对其参数进行在线调整,从而可以不断完善自身的模型,改善其控制效果。该评价模型反馈的控制效果更直接,使得控制装置进行参数调整时的调整方向更准确。
以感知模型01为例,由于针对复杂任务或复杂场景,感知模型01的代表性检测数据的选取比较复杂,难以通过经验或简单的算法提取出合适的代表性检测数据。而在本发明实施例中,可以通过评价模型05的在线评价和反馈,不断调整其选取的代表性检测数据的类型,从而可以不断改善其性能,以保证后续能够提取更合适的代表性检测数据。例如,通过不断的调整,感知模型01所提取的代表性检测数据的维度可以从100多维减少为5维。
可选的,控制装置可以在对智能设备进行控制时的起始阶段,对整个控制***的控制效果进行评价,并基于该控制效果,对控制***中的每个模型的参数均进行调整。之后,该控制装置可以仅对控制***中特定的模型(例如控制模型)进行效果评价和参数调整。其中,对某个特定模型的效果进行效果评价时,可以保持其他模型的参数不变,仅对该特定模型的参数进行调整,然后对该控制***输出的控制参数的控制效果进行评价,该评价得到的评价结果即可作为该特定模型调整参数后的评价结果。对特定模型的控制效果进行评价的方法,以及对特定模型的参数进行调整的方法可以参考上述步骤106至步骤108,此处不再赘述。
在本发明实施例中,控制装置可以在每次控制智能设备执行操作后,均通过上述步骤106至步骤108所示的方法对其控制效果进行评价,并对控制***的参数进行调整。或者,控制装置也可以在控制智能设备执行若干次操作后,再执行上述步骤106至步骤108所示的方法。又或者,该控制装置还可以在接收到调整指令后,再执行上述步骤106至步骤108所示的方法,该调整指令可以是由用户触发的。
步骤109、根据调整后的各模型的参数,更新知识库中存储的数据。
在本发明实施例中,控制***中的各个模型完成对自身参数的调整后,还可以根据调整后的参数更新知识库中存储的数据。例如,感知模型、规划模型和控制模型可以分别将调整后的参数发送至知识库04,该知识库04中的学习子模型041可以根据调整后的该感知模型01的参数,更新该知识库子模型042中存储的感知数据;根据调整后的该规划模型02的参数,更新该知识库子模型042中存储的规划数据,以及根据调整后的该控制模型03的参数,更新该知识库子模型042中存储的控制数据。
其中,学习子模型041的实现,与感知模型01、规划模型02和控制模型03的算法直接相关,该学习子模型041可以是知识库04的一部分,也可以是感知模型01、规划模型02和控制模型03的一部分,即该感知模型01、规划模型02和控制模型03中的每个模型中均可以设置有一个学习子模型041。
可选的,该学习子模型041也可以包括一个用于学习和提取数据的神经网络模型,该知识库04可以将各模型发送的调整后的参数分别输入到该神经网络模型,并基于该神经网络模型的输出更新知识库子模型042中存储的各个模型对应的数据。
示例的,以感知模型01中的特征提取子模型012为例,参考图12,当该特征提取子模型012根据控制效果调整其提取的代表性检测数据的类型后,该特征提取子模型012可以将调整后的代表性检测数据的类型发送至知识库04中的学习子模型041。学习子模型041可以基于接收到的类型,更新该知识库子模型042中存储的与该目标任务以及当前所处的场景对应的代表性检测数据的类型。由此可以实现对感知数据的在线更新和调整,保证了基于该感知数据提取的代表性检测数据的可靠性。
需要说明的是,本发明实施例提供的智能设备的控制方法的步骤的先后顺序可以进行适当调整,步骤也可以根据情况进行相应增减。例如步骤106至步骤109也可以根据情况删除,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化的方法,都应涵盖在本申请的保护范围之内,因此不再赘述。
综上所述,本发明实施例提供了一种智能设备的控制方法,该方法可以将获取到的检测数据和该目标任务输入至感知模型,得到与该目标任务关联的代表性检测数据。然后可以将目标任务和该代表性检测数据输入至规划模型,得到目标状态数据。之后可以将该目标状态数据和该代表性检测数据输入至控制模型,得到用于控制该智能设备的控制参数。最后即可以基于该控制参数控制该智能设备。由于该控制模型是基于控制理论数据初始化得到的,该控制理论数据能够直接表达和反映智能设备的控制规律和原理,相比于相关技术中直接采用训练样本进行训练,不仅降低了控制模型对训练样本的依赖,提高了训练效率,还可以确保对智能设备的控制效果。
进一步的,本发明实施例提供的方法还可以对控制装置的控制效果进行评价,并可以根据该控制效果对控制装置中各模型的参数进行调整,由此可以在该控制装置的使用过程中,不断完善其性能,提高对智能设备的控制效果。
本发明实施例提供了一种智能设备的控制***的训练方法,该方法可以用于训练上述方法实施例中控制***所包括的感知模型、规划模型和控制模型。该训练方法可以应用于训练装置。该训练装置与该智能设备的控制装置可以为同一装置,或者两者也可以为配置于同一设备中的不同,例如该两个装置可以均配置于该智能设备中。又或者,该训练装置与该控制装置也可以配置于不同的设备中,例如该训练装置可以配置于训练服务器中,该控制装置可以配置于该智能设备中。训练装置完成对控制***中各模型的训练后,可以将该训练好的各模型发送至该控制装置。
其中,该感知模型可以基于深度学习的方式训练得到,例如可以采用基于监督学习的深度学习方法训练得到;该规划模型和该控制模型均可以基于强化学习的方式训练得到。当然,该感知模型也可以基于强化学习或者深度强化学习的方式训练得到,该规划模型和该控制模型也可以基于深度学习或者深度强化学习的方式训练得到。本发明实施例对各模型训练时所基于的机器学习方法的类型不做限定。
可选的,该强化学习的方式可以包括Q学习(Q-learning)方法或者状态-行动-奖励-状态-行动(State Action Reward State Action,SARSA)方法等。该深度强化学习的方式可以包括深度Q网络(Deep Q Network,DQN)或深度确定性策略梯度(DeepDeterministic Policy Gradient,DDPG)等。
作为一种可选的实现方式,参考图13,该感知模型的训练过程可以包括:
步骤201a、获取检测样本数据以及与指定任务关联的代表性检测样本数据。
该检测数据可以包括智能设备在执行指定任务时的周围环境的环境样本数据,以及该智能设备的状态样本数据。该与指定任务关联的代表性检测样本数据可以是从样本数据库中获取的。
步骤202a、基于深度学习的方式对该检测样本数据、该指定任务以及该代表性检测样本数据进行训练,得到该感知模型。
在基于深度学习的方式进行训练的过程中,训练装置可以将该检测样本数据以及该指定任务输入至初始的感知模型,得到该初始的感知模型输出的与该指定任务关联的代表性检测数据。之后,训练装置可以根据该初始的感知模型输出的代表性检测数据与该代表性检测样本数据之间的差异,不断调整该初始的感知模型的参数(例如模型参数、输入参数和输出参数中的至少一种),从而得到该感知模型。
可选的,在本发明实施例中,训练装置可以采用不同任务的检测样本数据以及代表性检测样本数据对初始感知模型进行训练,从而得到与不同任务对应的感知模型的参数,并可以将该不同任务对应的感知模型的参数作为感知数据存储至知识库04中。或者,训练装置可以采用不同任务检测样本数据以及代表性检测样本数据对初始感知模型进行训练,从而得到与不同任务对应的感知子模型。
作为一种可选的实现方式,参考图14,该规划模型的训练过程可以包括:
步骤201b、获取与指定任务关联的代表性检测样本数据以及以及效果值样本数据。
该与指定任务关联的代表性检测样本数据,以及目标状态样本数据均可以是从样本数据库中获取到的。其中,以自动驾驶车辆为例,该效果值样本数据可以是根据相同场景下,手动驾驶时车辆的目标状态数据与初始规划模型所输出的目标状态数据之间的差异确定的。该相同场景是指执行的任务相同,获取到的代表性检测数据相同。
步骤202b、基于强化学习的方式,采用该代表性检测样本数据、该指定任务以及效果值样本数据对初始规划模型进行训练,得到该规划模型。
进一步的,训练装置可以基于强化学习的方式对初始规划模型进行训练。在训练的过程中,可以将该代表性检测样本数据以及指定任务输入至初始规划模型,并基于该效果值(Q值)样本数据对初始规划模型的参数进行调整,以得到该规划模型。其中,该强化学习的方式可以包括Q-learning方法或者SARSA方法等。
可选的,在本发明实施例中,训练装置可以采用不同任务的代表性检测样本数据以及效果值样本数据对初始规划模型进行训练,从而得到与不同任务对应的规划模型的参数,并可以将该不同任务对应的规划模型的参数作为规划数据存储至知识库04中。或者,训练装置可以采用不同任务的代表性检测样本数据以及效果值样本数据对初始规划模型进行训练,从而得到与不同任务对应的规划子模型。
作为一种可选的实现方式,参考图15,该控制模型的训练过程可以包括:
步骤201c、采用该控制理论数据对初始控制模型进行初始化。
训练装置可以根据该控制理论数据为该初始控制模型配置初值,从而对该初始控制模型进行初始化。例如,若该控制模型是基于Q-learning方法进行训练的,则训练装置可以根据该控制理论数据对该初始控制模型的Q表(Q-table)进行初始化。该控制理论数据可以包括:动力学理论数据(例如力学定律)以及一些常识性的物理知识(例如路面的摩擦系数)等,由于该控制理论数据可以直接表达智能设备的控制规律和原理,无需机器学习采集大量的训练样本数据进行训练,不仅可以有效减少机器学习的训练量,提高训练速度(例如训练速度可以提升100倍左右),训练成本更低,训练效果更好。
步骤202c、获取与指定任务关联的部分或全部代表性检测样本数据,目标状态样本数据以及效果值样本数据。
该与指定任务关联的代表性检测样本数据,目标状态样本数据以及效果值样本数据可以均是从样本数据库中获取的。其中,以自动驾驶车辆为例,该效果值样本数据可以是根据相同场景下,手动驾驶时车辆的控制参数与初始控制模型所输出的控制参数之间的差异确定的。该相同场景可以是指获取到的目标状态数据和代表性检测数据均相同。
步骤203c、基于强化学习的方式,采用获取到的代表性检测样本数据,该目标状态样本数据,以及该效果值样本数据,对该初始控制模型进行训练,得到控制模型。
其中,该强化学习的方式可以包括Q-learning方法或者SARSA方法等。在基于该强化学习的方式进行训练的过程,可以将获取到的代表性检测样本数据和该目标状态样本数据输入至初始控制模型,并可以根据该效果值样本数据不断调整该初始控制模型的参数,以不断完善其性能,并最终得到控制模型。
通过控制理论数据对控制模型进行初始化,相比于直接采用训练样本数据进行训练,本发明实施例提供的训练方法的训练效率更高,训练成本更低,对训练样本的依赖更小。例如,若该控制理论数据中包括根据车道线曲率k计算方向盘的转向角度α的公式:α=f2(k),以及根据车辆与车道中心线的距离d计算方向盘的转向角度α的公式:α=f3(d),则采用该控制理论数据对初始控制模型进行初始化后,训练装置就无需再通过大量训练样本数据学习该车道线曲率k,以及该车辆与车道中心线的距离d,与方向盘的转向角度α之间的关系,从而可以有效提高训练的效率,减少训练所需的样本量。
可选的,在本发明实施例中,训练装置可以采用不同任务的代表性检测样本数据,目标状态样本数据以及效果值样本数据对初始控制模型进行训练,从而得到与不同任务对应的控制模型的参数,并可以将该不同任务对应的控制模型的参数作为控制数据存储至知识库04中。或者,训练装置可以采用不同任务的代表性检测样本数据,目标状态样本数据以及效果值样本数据对初始控制模型进行训练,从而得到与不同任务对应的控制子模型。
根据上述步骤1041c至步骤1044c可知,该控制模型可以包括控制子模型以及一个或多个计算子模型。因此在对控制模型进行训练时,作为另一种可选的实现方式,上述步骤201c中,训练装置可以基于该控制理论数据对一个或多个计算模型进行初始化,即确定该每个计算模型的计算公式。相应的,在上述步骤203c中,可以基于强化学习的方式,采用获取到的代表性检测样本数据,该目标状态样本数据,以及该效果值样本数据,对该初始的控制子模型进行训练,从而得到用于计算权重的控制子模型。
可选的,在本发明实施例中,训练装置完成对各模型的训练后,还可以根据各模型的参数更新知识库中存储的与各模型对应的数据。
在本发明实施例中,在对该控制***中的各模型进行训练时,训练装置可以获取大量不同任务的训练样本数据(例如检测样本数据、代表性检测样本数据以及目标状态样本数据),对于每个训练样本数据均可采用上述方法对各个模型进行训练,并对该知识库中存储的数据进行更新,从而不断完善该知识库中存储的数据,以及该控制***中各模型的运行效果。
可选的,在本发明实施例中,该知识库中存储的数据还可以包括用于对该控制***中每个模型的参数的调整范围进行限定的约束参数。相应的,在对每个模型进行训练时,需要在该约束参数限定的范围内对模型的参数进行调整。
由此,该知识库中存储的数据可以对控制***中各模型的训练形成约束,该基于约束的训练方法可以减少机器学***稳性。
综上所述,本发明实施例提供了一种智能设备的控制***中各模型的训练方法,该方法可以采用控制理论数据对控制模型进行初始化,经过初始化后的控制模型在训练时所需的样本量较少,训练效率较高,训练成本较低。
图16是本发明实施例提供的一种智能设备的控制装置的结构示意图,该控制装置可以配置于智能设备中,或者也可以配置于与该智能设备建立有通信连接的控制设备中。该控制装置可以用于实现上述方法实施例提供的智能设备的控制方法。如图16所示,该装置可以包括:
第一获取模块301,可以用于实现上述方法实施例中步骤101所示的方法。
第一处理模块302,可以用于实现上述方法实施例中步骤102所示的方法。
第二处理模块303,可以用于实现上述方法实施例中步骤103所示的方法。
第三处理模块304,可以用于实现上述方法实施例中步骤104所示的方法。
控制模块305,可以用于实现上述方法实施例中步骤105所示的方法。
其中,该控制模型基于控制理论数据初始化得到。
图17是本发明实施例提供的另一种智能设备的控制装置的结构示意图,如图17所示,该装置还可以包括:
第二获取模块306,可以用于实现上述方法实施例中步骤201a所示的方法。
第一训练模块307,可以用于实现上述方法实施例中步骤202a所示的方法。
可选的,如图17所示,该装置还可以包括:
第三获取模块308,可以用于实现上述方法实施例中步骤201b所示的方法。
第二训练模块309,可以用于实现上述方法实施例中步骤202b所示的方法。
可选的,如图17所示,该装置还可以包括:
初始化模块310,可以用于实现上述方法实施例中步骤201c所示的方法。
第四获取模块311,可以用于实现上述方法实施例中步骤202c所示的方法。
第三训练模块312,可以用于实现上述方法实施例中步骤203c所示的方法。
图18是本发明实施例提供的又一种智能设备的控制装置的结构示意图,参考图18,该装置还可以包括:
第五获取模块313,可以用于实现上述方法实施例中步骤106所示的方法。
确定模块314,可以用于实现上述方法实施例中步骤107所示的方法。
调整模块315,可以用于实现上述方法实施例中步骤108所示的方法。
可选的,该控制模型可以包括:用于计算权重的控制子模型,以及用于计算该控制参数的一个或多个计算子模型;该第三处理模块304,可以用于实现上述方法实施例中步骤1041c至步骤1044c所示的方法。
可选的,该调整模块315可以用于:将该新的状态数据和该目标任务输入至评价模型,得到该控制参数的控制效果。
可选的,该智能设备为自动驾驶车辆或者智能机器人。
综上所述,本发明实施例提供了一种智能设备的控制装置,该装置可以将获取到的检测数据和目标任务输入至感知模型,得到与该目标任务关联的代表性检测数据。然后可以将目标任务和该代表性检测数据输入至规划模型,得到目标状态数据。之后可以将该目标状态数据和该代表性检测数据输入至控制模型,得到用于控制该智能设备的控制参数。最后即可以基于该控制参数控制该智能设备。由于该控制模型是基于控制理论数据初始化得到的,该控制理论数据能够直接表达和反映智能设备的控制规律和原理,相比于相关技术中直接采用训练样本进行训练,不仅降低了控制模型对训练样本的依赖,提高了训练效率,还可以确保对智能设备的控制效果。
本发明实施例还提供了一种智能设备的控制装置。如图19所示,该控制装置可以包括:处理器1201(如CPU)、存储器1202、网络接口1203和总线1204。其中,总线1204用于连接处理器1201、存储器1202和网络接口1203。存储器1202可能包含随机存取存储器(RandomAccess Memory,RAM),也可能包含非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。通过网络接口1203(可以是有线或者无线)实现服务器与通信设备之间的通信连接。存储器1202中存储有计算机程序12021,该计算机程序12021用于实现各种应用功能。该处理器1201可以用于执行存储器1202中存储的计算机程序12021来实现上述方法实施例提供的智能设备的控制方法。
本发明实施例还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有指令,当该计算机可读存储介质在计算机上运行时,使得计算机执行如上述方法实施例所提供的智能设备的控制方法。
本发明实施例还提供了一种包含指令的计算机程序产品,当该计算机程序产品在计算机上运行时,使得计算机执行如上述方法实施例所提供的智能设备的控制方法。
本发明实施例还提供了一种智能设备,该智能设备可以包括如图16至图19任一所示的控制装置。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现,所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机的可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如,软盘、硬盘、磁带)、光介质,或者半导体介质(例如固态硬盘)等。
以上所述仅为本申请的可选实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (22)

1.一种智能设备的控制方法,其特征在于,所述方法包括:
接收到针对目标任务的执行指令后,获取检测数据,所述检测数据包括所述智能设备周围环境的环境数据,以及所述智能设备的状态数据;
将所述检测数据和所述目标任务输入至感知模型,得到与所述目标任务关联的代表性检测数据;
将所述目标任务以及所述代表性检测数据输入至规划模型,得到目标状态数据,所述目标状态数据用于指示所述智能设备所需达到的状态;
将所述目标状态数据,以及部分或全部所述代表性检测数据输入至控制模型,得到用于控制所述智能设备的控制参数;
基于所述控制参数控制所述智能设备执行所述目标任务;
其中,所述控制模型基于控制理论数据初始化得到。
2.根据权利要求1所述的方法,其特征在于,
所述感知模型基于深度学习的方式训练得到。
3.根据权利要求1所述的方法,其特征在于,
所述规划模型基于强化学习的方式训练得到。
4.根据权利要求1所述的方法,其特征在于,
所述控制模型基于强化学习的方式训练得到。
5.根据权利要求2所述的方法,其特征在于,在接收针对目标任务的执行指令之前,所述方法还包括:
获取检测样本数据以及与指定任务关联的代表性检测样本数据,所述检测样本数据包括智能设备在执行指定任务时的周围环境的环境样本数据,以及所述智能设备的状态样本数据;
基于深度学习的方式,采用所述检测样本数据、所述指定任务以及所述代表性检测样本数据对初始感知模型进行训练,得到所述感知模型。
6.根据权利要求3所述的方法,其特征在于,在接收针对目标任务的执行指令之前,所述方法还包括:
获取与指定任务关联的代表性检测样本数据以及效果值样本数据;
基于强化学习的方式,采用所述代表性检测样本数据、所述指定任务以及所述效果值样本数据对初始规划模型进行训练,得到所述规划模型。
7.根据权利要求4所述的方法,其特征在于,在接收针对目标任务的执行指令之前,所述方法还包括:
基于所述控制理论数据对初始控制模型进行初始化;
获取与指定任务关联的部分或全部代表性检测样本数据,目标状态样本数据,以及效果值样本数据;
基于强化学习的方式,采用获取到的所述代表性检测样本数据,所述目标状态样本数据,以及所述效果值样本数据,对所述初始控制模型进行训练,得到所述控制模型。
8.根据权利要求4所述的方法,其特征在于,所述控制模型包括:用于计算权重的控制子模型,以及用于计算所述控制参数的一个或多个计算子模型;在接收针对目标任务的执行指令之前,所述方法还包括:
获取与指定任务关联的部分或全部代表性检测样本数据,目标状态样本数据,以及效果值样本数据;
基于强化学习的方式,采用获取到的所述代表性检测样本数据,所述目标状态样本数据,以及所述效果值样本数据,对初始控制子模型进行训练,得到所述控制子模型;
基于所述控制理论数据确定每个所述计算子模型。
9.根据权利要求8所述的方法,其特征在于,所述将所述目标状态数据,以及部分或全部所述代表性检测数据输入至控制模型,得到用于控制所述智能设备的控制参数,包括:
从所述目标状态数据,以及部分或全部所述代表性检测数据中获取与每个所述计算子模型对应的一组目标输入数据;
分别将每组目标输入数据输入至对应的计算子模型,得到每组目标输入数据所对应的控制参数的取值;
将所述目标状态数据,以及部分或全部代表性检测数据输入至所述控制子模型,得到一组权重;
根据所述一组权重,以及各组目标输入数据对应的控制参数的取值,确定所述控制参数的目标取值。
10.根据权利要求1至9任一所述的方法,其特征在于,所述方法还包括:
在基于所述控制参数控制所述智能设备之后,获取所述智能设备新的状态数据;
根据所述新的状态数据与所述目标任务确定控制效果;
根据所述控制效果,调整所述感知模型、所述规划模型和所述控制模型中一个或多个模型的参数。
11.根据权利要求1至9任一所述的方法,其特征在于,所述智能设备为自动驾驶车辆或者智能机器人。
12.一种智能设备的控制装置,其特征在于,所述装置包括:
第一获取模块,用于接收到针对目标任务的执行指令后,获取检测数据,所述检测数据包括所述智能设备周围环境的环境数据,以及所述智能设备的状态数据;
第一处理模块,用于将所述检测数据和所述目标任务输入至感知模型,得到与所述目标任务关联的代表性检测数据;
第二处理模块,用于将所述目标任务以及所述代表性检测数据输入至规划模型,得到目标状态数据,所述目标状态数据用于指示所述智能设备所需达到的状态;
第三处理模块,用于将所述目标状态数据,以及部分或全部所述代表性检测数据输入至控制模型,得到用于控制所述智能设备的控制参数;
控制模块,用于基于所述控制参数控制所述智能设备执行所述目标任务;
其中,所述控制模型基于控制理论数据初始化得到。
13.根据权利要求12所述的装置,其特征在于,所述装置还包括:
第二获取模块,用于在接收针对目标任务的执行指令之前,获取检测样本数据以及与指定任务关联的代表性检测样本数据,所述检测样本数据包括智能设备在执行指定任务时的周围环境的环境样本数据,以及所述智能设备的状态样本数据;
第一训练模块,用于基于深度学习的方式,采用所述检测样本数据、所述指定任务以及所述代表性检测样本数据对初始感知模型进行训练,得到所述感知模型。
14.根据权利要求12所述的装置,其特征在于,所述装置还包括:
第三获取模块,用于在接收针对目标任务的执行指令之前,获取与指定任务关联的代表性检测样本数据以及效果值样本数据;
第二训练模块,用于基于强化学习的方式,采用所述代表性检测样本数据、所述指定任务以及所述效果值样本数据对初始规划模型进行训练,得到所述规划模型。
15.根据权利要求12所述的装置,其特征在于,所述装置还包括:
初始化模块,用于在接收针对目标任务的执行指令之前,基于所述控制理论数据对初始控制模型进行初始化;
第四获取模块,用于获取与指定任务关联的部分或全部代表性检测样本数据,目标状态样本数据,以及效果值样本数据;
第三训练模块,用于基于强化学习的方式,采用获取到的所述代表性检测样本数据,所述目标状态样本数据,以及所述效果值样本数据,对所述初始控制模型进行训练,得到所述控制模型。
16.根据权利要求12所述的装置,其特征在于,所述控制模型包括:用于计算权重的控制子模型,以及用于计算所述控制参数的一个或多个计算子模型;所述装置还包括:
第四获取模块,用于获取与指定任务关联的部分或全部代表性检测样本数据,目标状态样本数据,以及效果值样本数据;
第三训练模块,用于基于强化学习的方式,采用获取到的所述代表性检测样本数据,所述目标状态样本数据,以及所述效果值样本数据,对初始控制子模型进行训练,得到所述控制子模型;
初始化模块,用于基于所述控制理论数据确定每个所述计算子模型。
17.根据权利要求16所述的装置,其特征在于,
所述第三处理模块,用于:
从所述目标状态数据,以及部分或全部所述代表性检测数据中获取与每个所述计算子模型对应的一组目标输入数据;
分别将每组目标输入数据输入至对应的计算子模型,得到每组目标输入数据所对应的控制参数的取值;
将所述目标状态数据,以及部分或全部代表性检测数据输入至所述控制子模型,得到一组权重;
根据所述一组权重,以及各组目标输入数据对应的控制参数的取值,确定所述控制参数的目标取值。
18.根据权利要求12至17任一所述的装置,其特征在于,所述装置还包括:
第五获取模块,用于在基于所述控制参数控制所述智能设备之后,获取所述智能设备新的状态数据;
确定模块,用于根据所述新的状态数据与所述目标任务确定控制效果;
调整模块,用于根据所述控制效果,调整所述感知模型、所述规划模型和所述控制模型中一个或多个模型的参数。
19.根据权利要求18所述的装置,其特征在于,所述调整模块,用于:
将所述新的状态数据和所述目标任务输入至评价模型,得到所述控制参数的控制效果。
20.一种智能设备的控制装置,其特征在于,所述装置包括:存储器,处理器及存储在该所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至11任一所述的智能设备的控制方法。
21.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有指令,当所述计算机可读存储介质在计算机上运行时,使得计算机执行如权利要求1至11任一所述的智能设备的控制方法。
22.一种智能设备,其特征在于,所述智能设备包括如权利要求12至20任一所述的装置。
CN201810850160.3A 2018-07-28 2018-07-28 智能设备及其控制方法、装置 Active CN109109863B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810850160.3A CN109109863B (zh) 2018-07-28 2018-07-28 智能设备及其控制方法、装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810850160.3A CN109109863B (zh) 2018-07-28 2018-07-28 智能设备及其控制方法、装置

Publications (2)

Publication Number Publication Date
CN109109863A CN109109863A (zh) 2019-01-01
CN109109863B true CN109109863B (zh) 2020-06-16

Family

ID=64863520

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810850160.3A Active CN109109863B (zh) 2018-07-28 2018-07-28 智能设备及其控制方法、装置

Country Status (1)

Country Link
CN (1) CN109109863B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109976726A (zh) * 2019-03-20 2019-07-05 深圳市赛梅斯凯科技有限公司 车载边缘智能计算架构、方法、***及存储介质
CN110187727B (zh) * 2019-06-17 2021-08-03 武汉理工大学 一种基于深度学习和强化学习的玻璃熔炉温度控制方法
JP7346980B2 (ja) * 2019-07-30 2023-09-20 マツダ株式会社 車両制御システム
CN110737260B (zh) * 2019-08-29 2022-02-11 南京智慧光信息科技研究院有限公司 基于大数据和人工智能的自动作业方法和机器人***
CN114489044A (zh) * 2019-12-31 2022-05-13 华为技术有限公司 一种轨迹规划方法及装置
CN111694973B (zh) * 2020-06-09 2023-10-13 阿波罗智能技术(北京)有限公司 自动驾驶场景的模型训练方法、装置、电子设备
CN113954858A (zh) * 2020-07-20 2022-01-21 华为技术有限公司 一种规划车辆行驶路线的方法以及智能汽车
CN113077641B (zh) * 2021-03-24 2022-06-14 中南大学 一种面向公交在途控制的决策映射方法、装置及存储介质
JP7248053B2 (ja) * 2021-06-14 2023-03-29 株式会社明電舎 制御装置及び制御方法
CN113468307B (zh) * 2021-06-30 2023-06-30 网易(杭州)网络有限公司 文本处理方法、装置、电子设备及存储介质

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105059288B (zh) * 2015-08-11 2017-10-20 奇瑞汽车股份有限公司 一种车道保持控制***及方法
CN105109483A (zh) * 2015-08-24 2015-12-02 奇瑞汽车股份有限公司 驾驶方法及***
US10139823B2 (en) * 2016-09-13 2018-11-27 Toyota Motor Engineering & Manufacturing North America, Inc. Method and device for producing vehicle operational data based on deep learning techniques
CN107270923A (zh) * 2017-06-16 2017-10-20 广东欧珀移动通信有限公司 一种路线推送的方法、终端及存储介质
CN107390682B (zh) * 2017-07-04 2020-08-07 安徽省现代农业装备产业技术研究院有限公司 一种农用车辆自动驾驶路径跟随方法及***
CN107907886A (zh) * 2017-11-07 2018-04-13 广东欧珀移动通信有限公司 行驶状况识别方法、装置、存储介质及终端设备
CN108297864A (zh) * 2018-01-25 2018-07-20 广州大学 驾驶员与车辆主动安全技术联动的控制方法及控制***

Also Published As

Publication number Publication date
CN109109863A (zh) 2019-01-01

Similar Documents

Publication Publication Date Title
CN109109863B (zh) 智能设备及其控制方法、装置
US11480972B2 (en) Hybrid reinforcement learning for autonomous driving
US11726477B2 (en) Methods and systems for trajectory forecasting with recurrent neural networks using inertial behavioral rollout
US11537134B1 (en) Generating environmental input encoding for training neural networks
US20190147610A1 (en) End-to-End Tracking of Objects
US11472444B2 (en) Method and system for dynamically updating an environmental representation of an autonomous agent
WO2021178909A1 (en) Learning point cloud augmentation policies
KR102043142B1 (ko) Agv 주행제어를 위한 인공신경망 학습 방법 및 장치
JP2021515178A (ja) 自動運転車両においてrnnとlstmを用いて時間平滑化を行うlidar測位
CN115303297B (zh) 基于注意力机制与图模型强化学习的城市场景下端到端自动驾驶控制方法及装置
WO2012004553A1 (en) Assisting vehicle guidance over terrain
US20220335258A1 (en) Systems and methods for dataset and model management for multi-modal auto-labeling and active learning
WO2023187117A1 (en) Simulation-based testing for robotic systems
Wheeler et al. A probabilistic framework for microscopic traffic propagation
Wang et al. Deep understanding of big geospatial data for self-driving: Data, technologies, and systems
Worrall et al. A context-based approach to vehicle behavior prediction
WO2023187121A1 (en) Simulation-based testing for robotic systems
Donthi et al. Self-Driving Car Using Image Processing and Deep Learning
US20220326714A1 (en) Unmapped u-turn behavior prediction using machine learning
Muqeet et al. Self-Car Driving using Artificial Intelligence and Image Processing
Dong et al. An enhanced motion planning approach by integrating driving heterogeneity and long-term trajectory prediction for automated driving systems: A highway merging case study
CN111930117B (zh) 一种基于转向的横向控制方法、装置、设备和存储介质
US12039008B1 (en) Data generation and storage system
RU2800694C2 (ru) Способ прогнозирования траектории агента вблизи беспилотного транспортного средства на основании ранжирования
CN111891132B (zh) 一种基于加减速的业务处理方法、装置、设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant