CN112368198A

CN112368198A - 车辆动力管理***和方法

Info

Publication number: CN112368198A
Application number: CN201980043431.7A
Authority: CN
Inventors: 徐宏明; 周泉
Original assignee: University of Birmingham
Current assignee: University of Birmingham
Priority date: 2018-06-29
Filing date: 2019-06-20
Publication date: 2021-02-12
Also published as: US20210276531A1; EP3814184A1; WO2020002880A1; GB201810755D0

Abstract

一种用于通过管理第一动力源(410)与第二动力源(420)之间的动力分配来优化车辆(400)中的动力效率的车辆动力管理***(100)。接收器(110)从车辆(400)接收多个样本，每个样本包括在各自的时间点测量的车辆状态数据、动力分配和奖励数据。数据存储器(350)存储针对多个动力分配的价值函数估计值。控制***(200)从数据存储器(350)中选择针对在当前时间的车辆状态数据具有最高价值函数值的动力分配，并且发送所选择的动力分配以在车辆(400)处实现。学习***(300)基于多个样本更新数据存储器(350)中的价值函数估计值。

Description

车辆动力管理***和方法

技术领域

本发明涉及混合动力车辆中的动力管理的***和方法。具体但非专有地，本发明可以涉及一种用于通过管理混合动力车辆的动力源之间的动力分配来优化动力效率的车辆动力管理***。

背景技术

由于人们越来越担心车辆燃料消耗和排放的影响，因此对混合动力车辆的需求不断增加。混合动力车辆包括多个动力源以向车辆提供机动动力。这些动力源中的一种可以是使用石油、柴油或其他燃料类型的内燃机。动力源的另一种可以是除内燃机之外的动力源，例如电动机。任何一种动力源都可以提供车辆在特定时间点所需的一些或全部机动动力。因此，混合动力车辆通过从除内燃机之外的动力源获取一部分所需动力来提供解决对关于车辆排放和燃料消耗的担忧的解决方案。

每个动力源根据动力分配向车辆提供机动动力。动力分配可以被表示为由每个动力源提供的车辆的总机动动力需求的比例。例如，动力分配可以指定车辆的机动动力的100％由电动机提供。作为另一个示例，动力分配可以指定车辆的机动动力的20％由电动机提供，而车辆的机动动力的80％由内燃机提供。取决于车辆的运行条件，动力分配随时间而变化。

混合动力车辆中被称为动力管理***(也被称为能量管理***)的组件负责确定动力分配。动力管理***在混合动力车辆性能中起着重要的作用，并且已经努力来确定最佳的动力分配以满足车辆的机动动力需求，同时使排放最小化和能量效率最大化。

现有的动力管理方法可以大致分为基于规则的方法和/或基于优化的方法。一种基于优化的方法是基于模型的预测控制(MPC)。在此方法中，创建模型以预测哪种动力分配会导致最佳的车辆性能，然后使用该模型来确定车辆将要使用的动力分配。若干因素可能会影响MPC的性能，包括对未来动力需求的预测的准确性(该算法用于优化)和预测时间间隔的长度。由于这些因素包括预测元素，因此所生成的模型经常会基于不准确的信息，从而对其性能产生负面影响。预测模型的确定和计算需要大量的计算能力，而且预测时间间隔的长度增加通常会导致更好的结果，但计算时间也会更长。因此，确定性能良好的模型非常耗时，从而难以实时应用。MPC方法包括在优化与时间之间进行权衡，因为降低模型计算的复杂性以减少计算时间会导致模型预测更粗糙。

使用非预测性动力管理方法(例如，仅基于车辆的当前状态确定动力分配)消除了对大量计算能力和冗长计算时间的需求。但是，非预测性方法不考虑所确定的动力分配是否会随时间导致最佳的车辆性能。

发明内容

根据本发明的一个方面，提供了一种用于在包括第一动力源和第二动力源的车辆中通过管理第一动力源与第二动力源之间的动力分配来优化动力效率的车辆动力管理***，该车辆动力管理***包括：接收器，被配置为从车辆接收多个样本，每个样本包括在各自的时间点测量的车辆状态数据、动力分配和奖励数据；数据存储器，被配置为存储针对多个动力分配的价值函数估计值；控制***，被配置为从数据存储器中选择针对在当前时间的车辆状态数据具有最高价值函数值的动力分配，并且发送所选择的动力分配以在车辆处实现；以及学习***，被配置为基于各自在不同的时间点测量的多个样本更新数据存储器中的价值函数估计值。

可选地，车辆状态数据包括车辆所需的动力。

可选地，第一动力源是被配置为从电池接收电力的电动机。

可选地，车辆状态数据还包括电池的充电状态数据。

可选地，车辆动力管理***的学习***被配置为基于在当前更新与最近的先前更新之间的时间段期间采集的样本来更新数据存储器中的价值函数估计值。

可选地，学习***和控制***被分开在不同的机器上。

可选地，学习***被配置为使用预测递归算法来更新数据存储器中的价值函数估计值。

可选地，学习***被配置为根据循环到终端(recurrent-to-terminal)R2T算法来更新数据存储器中的价值函数估计值。

可选地，控制***被配置为：生成0与1之间的随机实数；将该随机生成的数与预定阈值进行比较；并且如果随机数小于阈值，则生成随机动力分配；或者，如果随机数等于或大于阈值，则从数据存储器中选择针对在当前时间的车辆状态数据具有最高价值函数值的动力分配。

根据本发明的另一个方面，提供了一种用于在包括第一动力源和第二动力源的车辆中通过管理第一动力源与第二动力源之间的动力分配来优化动力效率的方法，该方法包括以下步骤：由接收器从车辆接收多个样本，每个样本包括在各自的时间点测量的车辆状态数据、动力分配和奖励数据；在数据存储器中存储针对多个动力分配的价值函数估计值；由控制***从数据存储器中选择针对在当前时间的车辆状态数据具有最高价值函数值的动力分配；以及由学习***基于各自在不同的时间点测量的多个样本更新数据存储器中的价值函数估计值。

可选地，由接收器接收的车辆状态数据包括车辆所需的动力。

可选地，第一动力源是从电池接收电力的电动机。

可选地，车辆状态数据还包括电池的充电状态数据。

可选地，学习***基于在当前更新与最近的先前更新之间的时间段期间采集的样本来更新价值函数估计值。

可选地，由学习***执行的方法步骤在与由控制***执行的方法步骤不同的机器上执行。

可选地，该方法还包括由学习***使用预测递归算法来更新价值函数估计值。

可选地，该方法还包括由学习***根据循环到终端R2T算法来更新数据存储器中的价值函数估计值。

可选地，该方法还包括：由控制***生成0与1之间的随机实数；将该随机生成的数与预定阈值进行比较；如果随机数小于预定阈值，则由控制***生成随机动力分配；或者，如果随机数等于或大于该阈值，则由控制***从数据存储器中选择针对在当前时间的车辆状态数据具有最高价值函数值的动力分配。

根据本发明的另一个方面，提供了一种存储有指令的处理器可读介质，该指令当由计算机执行时使该计算机执行上述方法的步骤。

附图说明

在此参考附图描述本发明的示例性实施例，附图中：

图1是根据本发明的车辆动力管理***的示意图；

图2是根据本发明的车辆动力管理***的控制***的示意图；

图3是根据本发明的车辆动力管理***的学习***的示意图；

图4是示出根据本发明的数据存储器中的价值函数估计值的示意图；

图5是示出根据本发明的学习***更新价值函数估计值的步骤的流程图；

图6是示出根据本发明的控制***进行分配选择的步骤的流程图；

图7a示出了针对下文描述的S2T、A2N和R2T算法、针对更新集合中不同数量的样本所实现的作为学习时间函数的车辆***效率的三个曲线图；

图7b是在R2T算法中、针对折扣因子λ的不同值所实现的作为学习时间函数的车辆***效率的曲线图。

具体实施方式

本文总体上公开的是用于在包括多个动力源的车辆中通过管理这些动力源之间的动力分配来优化动力效率的车辆动力管理***和方法。该车辆是包括两个或更多个动力源的混合动力车辆。通过至少一个动力源(优选地通过动力源的组合)将机动动力提供给车辆，其中，不同的源可以在任一时刻向车辆提供总所需动力的不同比例的动力。如果在一个或多个动力源上还设置了其他动力要求，例如通过内燃机对车辆电池充电，则这些比例的总和可以达到大于机动动力的100％。可能存在多种不同的动力分配，并且从车辆获取的数据可以用于确定针对特定的车辆状态和动力需求哪些动力分配会导致更好的车辆效率。

图1示出了根据本发明的一个方面的车辆动力管理***100的示意图。车辆动力管理***100包括用于从外部环境接收信息和向外部环境(例如，向车辆400)发送信息的接收器110和发送器120。车辆是包括第一动力源410和第二动力源420的混合动力车辆。动力源之一可以是使用燃料(例如，石油或柴油)的内燃机。另一个动力源可以是电动机。可选地，车辆还可以包括任何数量的附加动力源(图1中未示出)。车辆400还可以包括能量存储设备(图1中未示出)，例如一个或多个电池或燃料电池。车辆可以被配置为产生能量(例如，借助于内燃机和/或再生制动)、将所产生的能量存储在能量存储设备中并且使用所存储的能量向动力源之一提供动力(例如，通过将电池中存储的电力提供给电动机)。车辆动力管理***100还包括用于选择和控制车辆400的动力分配的控制***200和用于关于车辆状态和动力分配来估计价值函数值的学习***300。如本文所使用的，术语“价值函数值”是与车辆动力管理***的效率有关的值。价值函数值可以与车辆效率有关。价值函数值还可以涉及与车辆动力管理优化有关的附加和/或可替代目标。如本文所使用的，术语“价值函数”用于描述被配置为优化一个或多个目标的数学函数、算法或其他合适的手段。目标可以包括但不限于车辆动力效率、电池电量(也被称为电池的充电状态)、维护、由燃料驱动的引擎动力源产生的燃料消耗、第一动力源和第二动力源中的一个或多个的效率等。价值函数产生表示目标被优化的程度的值(在本文中被称为价值函数值)。价值函数值用作针对给定车辆状态选择动力分配的效率和收益的技术指标。控制***200和学习***300经由连接130连接。

图2示出了图1所示的控制***200的示例的示意图。控制***包括用于从外部环境接收信息和向外部环境(例如，向学习***300或车辆400)发送信息的接收器210和发送器220。控制***200还包括处理器230和存储器240。处理器230可以被配置为执行存储器240中存储的指令以选择动力分配。发送器220可以被配置为向车辆400发送所选择的分配，使得可以在车辆400处实现该动力分配。

图3示出了图1所示的学习***300的示例的示意图。学习***300包括用于从外部环境接收信息和向外部环境(例如，向控制***200或车辆400)发送信息的接收器310和发送器320。学习***300还包括处理器330和存储器340。处理器330可以被配置为执行存储器340中存储的指令以估计价值函数值。存储器340可以包括被配置为存储价值函数估计值的数据存储器350。存储器340还可以包括被配置为存储从车辆400接收的样本的样本存储器360。每个样本可以包括在特定时间点的车辆状态数据、动力分配数据和相应的奖励数据。当样本被存储时，它可以与时间戳相关联以指示从车辆400接收到它的时间。

数据存储器350可以存储多个价值函数估计值。每个价值函数估计值可以对应于特定的车辆状态s和特定的动力分配a。价值函数估计值可以表示车辆状态和动力分配的组合的质量(也就是说，在给定所提供的车辆状态下，选择特定分配的估计收益)。车辆状态可以包括多个数据元素，其中每个数据元素表示不同的车辆状态参数。价值函数估计值以及相应的车辆状态和分配数据可以以表格的形式或以矩阵的形式被存储在数据存储器350中。车辆状态参数可以例如包括在某一时刻车辆所需的动力P_req。可以通过给车辆的油门输入来指定P_req。在动力源之一是由电池供电的电动机的实施方式中，车辆状态参数可以包括电池的充电状态SoC。充电状态参数表示电池中剩余的可以用于向车辆400提供机动动力的能量(“充电”)。

图4示出了数据存储器中与相应的车辆状态数据有关的价值函数估计值的示例。在图4的示例中，车辆状态数据包括两个参数：车辆所需的动力P_req；以及电池的充电状态SoC。车辆状态参数在图表中由两个轴表示。第一动力源410和第二动力源420之间的动力分配(由字母“a”指示)由第三轴表示。对于不同的车辆状态对(P_req，SoC)，针对不同的可能的动力分配a来估计价值函数值。对于特定的车辆状态，数据存储器350可以用于查找与不同的动力分配a相对应的价值函数估计值。具有最高价值函数值的动力分配(在此被称为最佳价值函数估计值370)可以被选择为该车辆状态的最佳动力分配。数据存储器350中的估计由学习***300确定，并且在本说明书的后面部分提供关于用于获取这些估计的方法和技术的更多细节。

如上所述，车辆动力管理***100包括控制***200(诸如在图2中详细描述的)和学习***300(诸如在图3中详细描述的)。控制***200和学习***300可以被并置(也就是说，位于同一设备中)，或者可以位于彼此实质上紧密接近的不同设备上。例如，控制***200和学习***300两者都可以与配置车辆动力管理***100进行管理的车辆400物理地集成。在控制***200和学习***300位于同一设备上的情况下，连接130可以是该设备内的连接或互连元件的网络。在控制***200和学习***300位于紧密接近的不同设备上的情况下，连接130可以是分别包括控制***200和学习***300的设备之间的有线连接或紧密接近的无线连接。连接130可以被实现为物理连接和软件实现的连接中的一个或多个。物理连接的示例包括但不限于有线数据通信链路(例如，电线或光纤)或无线数据通信链路(例如，Bluetooth^TM或其他射频链路)。如果学习***300和控制***200位于同一设备上，则控制***200的处理器230和学习***300的处理器330可以是同一处理器230、330。处理器也可以是一起工作以实现一个或多个串行或并行任务的处理器集群。可替代地，控制***处理器230和学习***处理器330可以是均位于单个设备内的单独的处理器。

优选地，车辆动力管理***100是分布式***，也就是说，控制***200和学习***300被实现在实质上物理地分离的不同设备中。例如，控制***200可以位于车辆400的内部(或以其他方式与车辆400物理地集成)，而学习***300可以位于车辆400的外部(或以其他方式与车辆400物理地分离)。例如，学习***300可以被实现为基于云的服务。连接130可以是无线连接，例如但不限于无线互联网连接或无线移动数据连接(例如3G、4G(LTE)、IEEE802.11)或多个连接的组合。使学习***300位于车辆外部的优点在于，车辆中的处理器不需要实现由学习***执行的算法的学习步骤所需的计算能力。

在控制***200位于车辆400内并且学习***300位于车辆400的外部的实施例中，车辆动力管理***100的接收器110可以与控制***200的接收器210实质上相同。然后，控制***200可以使用发送器220通过连接130将从车辆400接收的样本发送到学习***300的接收器310，以存储在样本存储器360中。

车辆动力管理***100管理车辆400的第一动力源410与第二动力源420之间的动力分配，以便优化车辆的效率。车辆动力管理***100通过确定车辆所需的总动力的哪一部分应由第一动力源提供以及总动力的哪一部分应由第二动力源提供来进行管理。车辆所需的动力有时被称为所需的扭矩。当确定哪个动力分配是最佳的时，车辆动力管理***100可以考虑当前车辆性能。车辆动力管理***100还可以考虑长期车辆性能(也就是说，在晚于当前时间的一个或多个时刻或时间段的性能)。

本文公开的车辆动力管理***100提供了一种用于确定总所需动力的哪些部分由第一动力源410和第二动力源420提供的智能动力管理***。车辆动力管理***100通过实现一种学习、优化和控制由车辆动力管理***100执行的动力分配策略的方法来实现这一点。学习、优化和控制的一个或多个步骤可以在车辆的实际驾驶期间实现。学习、优化和控制的一个或多个步骤可以在车辆的使用期间连续地实现。优化和学习动力分配策略的步骤可以由学习***300执行。基于该策略控制动力分配的步骤可以由控制***200执行。学习和优化步骤可以基于多个样本，每个样本包括车辆状态数据、车辆动力分配数据和相应的奖励数据。可以在相应的时间点测量每个样本。

学习***

可以周期性地测量样本。测量样本的周期性被称为采样间隔i。样本可以在其被测量到时由车辆400发送给车辆动力管理***100，或者可替代地，以包含多个样本的集合在包含多个采样间隔的集合时间间隔发送。所发送的样本由车辆动力管理***100存储。样本可以被存储在学习***300的样本存储器360中。样本可以由学习***300使用以估计将要被存储在数据存储器350中的价值函数值。

学习***300被配置为更新数据存储器350中存储的价值函数估计值。该更新可以例如在每个更新间隔P中周期性地发生。学习***300执行更新的频率可以是除周期性之外的方式，例如基于车辆400或车辆动力管理***100的一个或多个参数的变化率。更新还可以通过事件的发生来触发，例如检测到一个或多个车辆性能不佳的情况。更新间隔可以具有持续几个采样间隔i的持续时间。落入单个更新间隔内的样本形成一个更新集合。更新集合内包括的采样间隔的数量被称为更新集合大小。学习***300基于多个样本进行更新，其中形成该多个样本的样本数量可以是更新集合大小，并且其中该多个样本是更新集合。使用在不同时间点测量的多个样本的优点在于，当估计价值函数值时，该估计考虑动力分配对车辆性能的当前影响和长期影响两者。

图5示出了更新间隔迭代的流程图。在步骤510中，更新间隔时间计数器t_u被设置为零。在步骤520中，车辆动力管理***100从车辆400接收样本。该样本可以包括在指定时间的车辆状态数据s、分配数据a和相应的奖励数据r。车辆的性能可以被表示为奖励参数。奖励数据r可以由车辆以奖励值的形式提供。可替代地，车辆可以提供奖励数据，从中车辆动力管理***100可以通过控制***200和学习***300之一或两者来确定奖励。样本被添加到更新集合，并且可以被存储在样本存储器360中。在步骤530中，将间隔时间计数器t_u与更新间隔P进行比较。如果t_u小于P，则采样间隔i通过，并且重复步骤520，使得更多的样本可以被添加到更新集合。如果在步骤530发现t_u大于更新间隔P，则该更新间隔的样本采集停止，并且样本集合完成。更新集合所覆盖的时间段可以被称为预测范围。预测范围指示更新数据存储器350中的价值函数值的估计的过程所考虑的总持续时间。在步骤540中，学习***300更新数据存储器350中的价值函数估计值。该估计基于更新集合中的多个样本。更新价值函数估计值所基于的样本全部发生在落入更新间隔中的紧接更新时间之前的时间上，并且覆盖等于预测范围的时间段。下面更详细地描述学习***用来估计用于更新数据存储器350的价值函数值的算法。一旦数据存储器350被更新，学习***就可以将更新的数据存储器350的副本发送到控制***200。更新间隔迭代结束。在前一个更新集合中包括的最后一个样本之后提供的样本用于形成新的更新集合。可能的是，在对价值函数值的前一个更新完成之前，开始新的更新集合样本采集。

控制***200使用数据存储器350的价值函数估计值来选择第一动力源410与第二动力源420之间的动力分配，并且通过将所选择的动力分配发送给车辆来控制车辆处的动力分配。所选择的动力分配然后由车辆400实现，也就是说，控制***200使第一动力源410和第二动力源420根据所选择的动力分配向车辆提供机动动力。控制***200可以使用控制***200与学习***300之间的连接130来访问数据存储器350。可替代地，控制***200可以在其存储器240中包括数据存储器350的最新副本。数据存储器350的该副本允许控制***200独自地运行而无需连接到学习***300。为了使数据存储器350的副本保持最新，学习***可以在更新之后将数据存储器350的副本发送给控制***200。可替代地和/或附加地，控制***可以在预定时间或通过触发请求的其他事件从学习***请求更新的副本。

控制***

图6示出了用于选择动力分配的方法中的步骤。该方法可以被认为是所谓的“ε贪婪”算法的实现。控制***在不同的时间点选择动力分配。分配之间的时间是选择间隔。在步骤610，控制***200在时间t(该迭代的当前时间)开始新的分配选择迭代。在步骤620中，控制***生成测试值γ，其中γ是使用正态分布N(0，1)随机生成的具有0与1之间的值的实数。随机生成可以是伪随机生成。在下一步骤630中，将测试值与阈值进行比较。阈值ε是由控制***200确定的值。它是具有0与1之间的值的实数。阈值ε可以随时间减小，例如作为函数

的一部分，其中

是0与1之间的实数，t表示学习时间。该值t可以是总学习时间。T(t)可以是总学习时间t的函数，用于随总学习时间t增加而减小ε的值。

的值可以是0.9与1之间的常数，但不包括1。阈值ε可以根据除

之外的函数随时间从

逐渐减小趋近于0，例如，ε可以作为总学习时间t的线性、二次或对数函数而减小。如果测试值γ小于阈值ε，则在步骤640，控制***200通过从所有可能的分配中随机选择分配来选择分配。如果测试值γ等于或大于阈值ε，则该方法前进到步骤650，在该步骤中，观察当前的车辆状态s。观察车辆状态可以包括在当前时间t在接收器210处从车辆400接收车辆400的车辆状态数据。可以响应于来自控制***200的请求而由车辆400发送车辆状态数据。在该方法的步骤660中，控制***被配置为从数据存储器350或数据存储器350的本地副本中选择第一动力源410与第二动力源420之间的最佳动力分配。控制***200通过如下操作确定最佳分配：进入数据存储器并且找到与当前给定车辆状态相对应的分配、确定数据存储器350中哪个分配具有相应的最高价值函数估计值以及选择与该最高价值函数值相对应的分配。

在步骤640或660之后，在步骤670中，控制***200使用发送器220来发送分配以在车辆400处实现。在一些实施例中，控制***200可以至少部分地集成到车辆400中，也就是说，它能够直接管理车辆400的各个部分。在这样的实施例中，控制***200将所选择的分配发送给控制***200的管理车辆400的各个部分的部分，并且将该动力分配设置为在当前时间t所选择的分配。控制***完成当前的分配选择过程，并且在下一个选择间隔开始时开始新的分配选择。选择间隔的持续时间决定多久可以更新一次动力分配。控制***需要足够的计算能力来在单个选择间隔内完成分配选择迭代。如果控制***200花费比选择间隔更长的时间来完成单个分配选择迭代，则应增加选择间隔持续时间。选择间隔持续时间可以例如是1秒或0.1秒与15秒之间的包括0.1秒和15秒的任何值。

如上所述，控制***200使用ε贪婪算法的优点在于，它允许基于从数据存储器350获取的价值函数值输入无法以其他方式选择的分配。这允许学习***300通过达到无法以其他方式达到的值来填充数据存储器350中存储的价值函数值。动力分配的偶然随机选择意味着在足够长的时间段内，将针对所有可能的车辆状态实现所有可能的动力分配。ε贪婪算法将所有车辆状态和分配的样本提供给学习***300，用于填充数据存储器350。

使阈值ε随时间减小的优点在于，随着更多时间过去，选择随机分配变得越不可能。这意味着，随着数据存储器350被价值函数值填满，由于已经考虑了更多不同的情况来更新数据存储器的价值函数值，因此估计变得更加可靠，并且随机选择的发生减少。这对车辆性能具有积极影响，因为相比于随机分配选择，基于估计的分配选择会导致更优的车辆效率。

学习算法

本文公开的学习***300优选地使用强化学习算法来估计价值函数值。强化学习算法可以是n步强化学习算法。它基于通过使用车辆(例如，车辆的实际使用)而提供的测量数据，而不是使用模拟数据或其他模型作为起点。学习***300的起点是空白的数据存储器，其中没有确定价值函数值。当对于所观察到的车辆状态没有价值函数估计值时，控制***200可以访问存储器240中存储的后备控制策略。后备控制策略可以在车辆的研究和开发期间确定，并且在制造车辆时被存储在存储器240中。车辆动力管理***100以与采样间隔相对应的速率来采集时间序列的样本。每个样本包括与车辆状态s有关的数据，例如所需动力P_req和第一动力源的状态SoC、动力分配a以及所产生的奖励r。奖励涉及在那一时刻所选择的动力分配和车辆状态所导致的车辆性能，并且可以与例如内燃机的燃料消耗和/或电池的充电状态相关联。形成更新集合的多个样本被学习***300用来使用多步强化学习算法计算价值函数估计值。多步强化学习算法通过预测范围优化车辆性能，也就是说，最佳分配的估计不仅基于当前状态，而且还考虑了分配选择对车辆的未来状态的影响。如本文所述的强化学习的优点在于，它不使用预测的或其他潜在的不正确值，例如来自预测模型或包含来自其他车辆的数据的数据库。本申请中描述的强化学习算法和方法基于表示车辆性能的测量车辆参数。结果，本文公开的无模型强化学习方法可以实现更高的总体最优效率。

如本文所述，使用于优化车辆性能的学习算法基于实际驾驶的优点在于，该算法可以适应个体驾驶员的驾驶风格和/或个体车辆的要求。例如，不同的驾驶员可以具有不同的驾驶风格，并且不同的车辆可以用于不同的目的，例如短距离或长距离和/或在不同的环境中(例如，在繁忙的城市环境中或在安静的道路上)。在单个车辆内，不同的用户可以具有不同的驾驶风格，并且车辆动力管理***100可以包括不同的用户帐户，其中每个用户帐户与一个用户相关联。每个用户帐户可以具有存储在与该用户帐户相关联的数据存储器中的单独的价值函数估计值集合，并且其中，估计基于由该帐户的用户从车辆的实际使用中获取的样本。

在下面的段落中，将描述可以用于估计第一动力源410与第二动力源420之间的动力分配的价值函数值的三种不同的示例算法。所有这三种算法都是迭代地(并且可选地、周期性地)基于样本的集合(被称为更新集合)更新价值函数估计值。更新集合中的样本数量(更新集合大小)可以被表示为“n”。样本跨越等于预测范围的时间间隔，最早的样本在时间t采集，随后的样本以采样间隔i采集，所以t+i,t+2i,……直到最后一个样本在时间t+(n-1)i＝t+p采集。从最早的样本的角度来看，后来的样本采集的时间发生在未来。从最早的样本开始，算法可以被称为“预测的”，因为它们使用未来的样本值，即使所有的样本都是在过去的某一时间获取的并且没有使用实际的预测值来估计价值函数值。

下文所述的算法涉及确定价值函数值(即，当时的给定车辆状态下所选择的动力分配所导致的车辆400的性能效率)。在一些实施例中，优化车辆的效率可以被定义为最小化车辆中的动力损耗P_loss，同时尽可能多地保持电池的充电状态SoC。车辆中的动力损耗可以被表示为第一动力源410中的动力损耗与第二动力源420中的动力损耗之和。在所有时间t保持SoC水平的示例措施是要求电池中剩余的充电SoC水平保持高于参考水平SoC_ref。示例SoC_ref值是30％或20％与35％之间的包括20％和35％的任何值。在动力源之一(例如，第一动力源410)是接收电池电力的电动机的情况下，第二动力源420(可以是内燃机)可以向动力源的电池提供充电。因此，可以使充电状态保持或导致充电状态高于参考充电水平。在分配控制的示例功能中，如果电池的充电状态降到参考水平以下，则可以减少对从该电池汲取动力的动力源的使用，使得电池可以再充电到高于参考充电水平的水平。

价值函数值估计计算部分地基于奖励r(表示与特定车辆状态组合使用的分配所导致的车辆性能的值)。奖励r的值基于由车辆400获取的数据，其中在时间t的奖励被表示为r(t)。车辆可以将奖励r的值提供给车辆动力管理***，或者它可以提供可以从中确定奖励r的值的数据。可以使用以下等式，通过采用初始值r_ini并且使其减去损耗动力量P_loss并且考虑SoC水平来计算与所选择的分配和相关的车辆状态相对应的奖励r：

在上面的等式中，k是平衡对SoC水平和动力损耗的考虑的比例因子。SoC水平在其降到参考值以下时减小奖励r的值，并且奖励的减小量随着电池的充电状态水平进一步降到参考值以下而增加。P_loss是应用于相应的车辆状态和所选择的分配的奖励的惩罚值。如果第一源与第二源之间的动力分配被设置为使得损耗动力量减小，则所得的奖励将会更高。奖励r可以是无量纲的。

估计第一动力源410与第二动力源420之间的动力分配的价值函数值的第一算法是总和到终端算法(S2T)，其将在时间t的当前行为与由在时间t+p的分配a提供的终端奖励桥接起来。将Q(s(t),a(t))作为数据存储器350中的针对车辆状态s和分配a的价值函数估计值，S2T算法使用在时间t,t+i,t+2i,……，t+(n-1)i采集的n个样本的集合并且计算：

在此表示法中，Q_update(s(t),a(t))是针对车辆状态s和分配a的更新的价值函数值。在此表示法中，一旦更新完成，Q_update可以替换旧的Q值。Q可以被认为是价值函数，其提供针对给定车辆状态s和动力分配a的价值函数值。通过采用Q^max(s(t+(n-1)i)，：)来计算更新的价值函数值，Q^max(s(t+(n-1)i)，：)是对于任何分配，针对在时间s+(n-1)i采集的样本的车辆状态所选择的最高已知价值函数值。该最大值减去针对状态s和分配a的当前价值函数值，并且更新值随更新集合中的样本的奖励值之和的值而增加。α是算法的学习率，其具有0<α≤1的值。学习率α确定更新集合中的样本在多大程度上影响已经存在于Q(s(t),a(t))中的信息。学习率等于零将使更新不会从样本中学习任何内容，因为更新算法中包括新样本的项将被设置为等于零。因此，需要非零的学习率α。学习率α等于1将使算法仅考虑来自新样本的知识，因为算法中的+Q(s(t)，a(t))和-αQ(s(t)，a(t))这两项在α等于1时互相抵消。在完全确定性的学习环境中，学习率等于1可能是最佳选择。在随机性的学习环境中，学习率α小于1可能会导致更佳的结果。对于算法的α的示例选择是α＝0.5。以上关于学习率α适用的评论也适用于以下描述的A2N和R2T算法。

估计价值函数值的第二种算法是平均到邻域算法(A2N)。A2N算法使用更新集合的时间序列中的样本与相邻样本的关系。使用如上所述的类似表示法，用于估计价值函数值的等式是：

在A2N算法中，更新的价值函数值基于更新集合中的样本的奖励的算术均数或平均值来确定。

估计第一动力源410与第二动力源420之间的动力分配的价值函数值的第三算法是循环到终端(R2T)算法。这是一种递归算法，其中考虑了每个样本的奖励以及时间序列中的每个样本的最高已知价值函数值与价值函数估计值之间的差异。将加权折扣因子λ应用于等式，其中λ是具有0与1之间的值的实数。对于小于1但大于0的加权折扣因子而言，在较晚的时间点测量的样本被分配的权重更大。对于等于1的折扣因子λ而言，每个样本的权重相等。折扣因子的值可能会影响算法的性能。如图7b所示，较高的λ值随着学习时间增加会导致更好的最佳价值函数值以及更快的学习时间。图7b示出了***效率，也就是说，针对不同的λ值并且作为学习时间的函数的动力转换的车辆动力效率。折扣因子λ的示例值是1.00。图7b所示的折扣因子λ的其他示例值是0.30、0.50、0.95和0.98。

用于使用与第一算法和第二算法类似的表示法来更新价值函数估计值的等式是：

如图7a所示，更新集合中用于更新价值函数估计值的样本数量n对上述三种算法的性能有影响。在图7a中，曲线图的y轴上示出的***效率表示使用车辆动力管理***所导致的并且作为学习时间的函数的车辆动力转换效率。针对S2T、A2N和R2T算法以及针对包括35、55、85和125个样本的更新集合，示出了所得的车辆***效率。在更新迭代中包括更大量的样本(也就是说，增加更新集合大小n)的优点可以达到更高的最佳价值函数估计值，从而达到更好的总体车辆性能。但是，增加更新集合大小n需要更长的实际学习时间以找到这些最佳价值函数值。

以上段落描述了具有第一动力源和第二动力源的混合动力车辆。如上所述的相同方法也适用于具有多于两个动力源的混合动力车辆。

本领域技术人员将理解，在不脱离如所附权利要求书所限定的本发明的范围的情况下，可以对上述实施例进行各种修改。可以对关于上述各种实施例描述的特征加以组合以形成也涵盖在本发明的范围内的实施例。

Claims

1.一种用于在包括第一动力源和第二动力源的车辆中通过管理在所述第一动力源与所述第二动力源之间的动力分配来优化动力效率的车辆动力管理***，所述车辆动力管理***包括：

接收器，被配置为从所述车辆接收多个样本，每个样本包括在各自的时间点测量的车辆状态数据、动力分配和奖励数据；

数据存储器，被配置为存储针对多个动力分配的价值函数估计值；

控制***，被配置为：

从所述数据存储器中选择针对在当前时间的车辆状态数据具有最高价值函数值的动力分配，并且

发送所选择的动力分配以在所述车辆处实现；以及

学习***，被配置为基于各自在不同的时间点测量的多个样本来更新所述数据存储器中的价值函数估计值。

2.根据权利要求1所述的车辆动力管理***，其中，所述车辆状态数据包括所述车辆所需的动力。

3.根据前述权利要求中的任一项所述的车辆动力管理***，其中，所述第一动力源是被配置为从电池接收电力的电动机。

4.根据权利要求3所述的车辆动力管理***，其中，所述车辆状态数据还包括所述电池的充电状态数据。

5.根据前述权利要求中的任一项所述的车辆动力管理***，其中，所述学习***被配置为基于在当前更新与最近的先前更新之间的时间段期间采集的样本来更新所述数据存储器中的所述价值函数估计值。

6.根据前述权利要求中的任一项所述的车辆动力管理***，其中，所述学习***和所述控制***被分开在不同的机器上。

7.根据前述权利要求中的任一项所述的车辆动力管理***，其中，所述学习***被配置为使用预测递归算法来更新所述数据存储器中的所述价值函数估计值。

8.根据前述权利要求中的任一项所述的车辆动力管理***，其中，所述学习***被配置为根据循环到终端R2T算法来更新所述数据存储器中的所述价值函数估计值。

9.根据前述权利要求中的任一项所述的车辆动力管理***，其中，所述控制***被配置为：

生成0与1之间的随机实数；

将该随机生成的数与预定阈值进行比较；并且

如果随机数小于阈值，则生成随机动力分配；或者，

如果所述随机数等于或大于所述阈值，则从所述数据存储器中选择针对在当前时间的车辆状态数据具有最高价值函数值的动力分配。

10.一种用于在包括第一动力源和第二动力源的车辆中通过管理在所述第一动力源与所述第二动力源之间的动力分配来优化动力效率的方法，所述方法包括以下步骤：

由接收器从车辆接收多个样本，每个样本包括在各自的时间点测量的车辆状态数据、动力分配和奖励数据；

在数据存储器中存储针对多个动力分配的价值函数估计值；

由控制***从所述数据存储器中选择针对在当前时间的车辆状态数据具有最高价值函数值的动力分配；以及

由学习***基于各自在不同的时间点测量的所述多个样本来更新所述数据存储器中的所述价值函数估计值。

11.根据权利要求10所述的方法，其中，所述车辆状态数据包括所述车辆所需的动力。

12.根据权利要求10至11中的任一项所述的方法，其中，所述第一动力源是从电池接收电力的电动机。

13.根据权利要求12所述的方法，其中，所述车辆状态数据还包括所述电池的充电状态数据。

14.根据权利要求10至13中的任一项所述的方法，其中，所述学习***基于在当前更新与最近的先前更新之间的时间段期间采集的样本来更新所述价值函数估计值。

15.根据权利要求10至14中任一项所述的方法，其中，由所述学习***执行的方法步骤在与由所述控制***执行的方法步骤不同的机器上执行。

16.根据权利要求10至15中的任一项所述的方法，其中，由所述学习***更新所述价值函数估计值包括使用预测递归算法来更新所述价值函数估计值。

17.根据权利要求10至16中的任一项所述的方法，其中，所述方法还包括：由所述学习***根据循环到终端R2T算法来更新所述数据存储器中的所述价值函数估计值。

18.根据权利要求10至17中的任一项所述的方法，还包括：

由所述控制***生成0与1之间的实数；

将该随机生成的数与预定阈值进行比较；并且

如果随机数小于所述预定阈值，则由所述控制***生成随机动力分配；或者，

如果所述随机数等于或大于该阈值，则由所述控制***从所述数据存储器中选择针对在当前时间的车辆状态数据具有最高价值函数值的动力分配。

19.一种存储有指令的处理器可读介质，所述指令当由计算机执行时使所述计算机执行根据权利要求10至18中的任一项所述的方法的步骤。