CN112682202B

CN112682202B - 车辆用控制***、装置、控制方法以及存储介质

Info

Publication number: CN112682202B
Application number: CN202011090299.6A
Authority: CN
Inventors: 桥本洋介; 片山章弘; 大城裕太; 杉江和纪; 冈尚哉
Original assignee: Toyota Motor Corp
Current assignee: Toyota Motor Corp
Priority date: 2019-10-18
Filing date: 2020-10-13
Publication date: 2023-07-04
Anticipated expiration: 2040-10-13
Also published as: US20210114609A1; CN112682202A; JP6809588B1; JP2021067195A; US11235781B2

Abstract

提供一种车辆用控制***、车辆用控制装置、车辆用学习装置、车辆用控制方法以及存储介质。分类处理基于与车辆有关的信息，将多个车辆分类为多个组群。更新处理为了按被分类后的各组群来对关系规定数据进行更新，将属于同一组群的多个车辆的状态、在属于该同一组群的多个车辆的电子设备的操作中使用了的行动变量的值以及与该操作对应的奖励作为向关系规定数据的更新映射的输入。

Description

车辆用控制***、装置、控制方法以及存储介质

技术领域

本公开涉及车辆用控制***、车辆用控制装置以及车辆用学习装置。

背景技术

例如日本特开2016－6327号公报记载了一种控制装置，其基于对加速踏板的操作量进行滤波处理后的值，对作为搭载于车辆的内燃机的操作部的节气门进行操作。

然而，上述滤波需要根据加速踏板的操作量来将搭载于车辆的内燃机的节气门的操作量设定为适当的操作量。由此，滤波的适配需要熟练人员花费许多工时。这样，以往对于与车辆的状态相应的车辆内的电子设备的操作量等的适配，熟练人员花费了许多工时。

发明内容

以下，对本公开的各方面进行记载。

方面1.提供一种车辆用控制***，其具备存储装置、第1执行装置以及第2执行装置。所述存储装置存储关系规定数据，所述关系规定数据对车辆的状态与行动变量的关系进行规定，所述行动变量是与所述车辆内的电子设备的操作有关的变量。所述第1执行装置搭载于所述车辆，所述第2执行装置有别于车载装置。所述第1执行装置和所述第2执行装置构成为以协作的方式执行以下的处理。状态取得处理取得对所述车辆的状态进行检测的传感器的检测值。操作处理操作所述电子设备。奖励算出处理基于通过所述状态取得处理取得的所述检测值，在所述车辆的特性满足基准的情况下，与所述车辆的特性不满足基准的情况相比，给予较大的奖励。更新处理将基于通过状态取得处理取得的所述检测值的所述车辆的状态、在所述电子设备的操作中使用了的所述行动变量的值以及与该操作对应的所述奖励作为向预先确定的更新映射的输入，从而对所述关系规定数据进行更新。车辆信息取得处理取得与所述车辆有关的信息。分类处理基于与所述车辆有关的信息，将多个所述车辆分类为多个组群。所述第1执行装置构成为至少执行所述状态取得处理和所述操作处理。所述第2执行装置构成为至少执行所述更新处理、所述车辆信息取得处理以及所述分类处理。所述操作处理包括根据通过所述更新处理进行了更新的所述关系规定数据和所述车辆的状态来操作所述电子设备的处理。所述更新映射构成为输出以使按照所述关系规定数据来操作所述电子设备的情况下的关于所述奖励的期待收益增加的方式进行了更新的所述关系规定数据。对于所述更新处理，为了按被分类后的所述组群对所述关系规定数据进行更新，将属于同一组群的多个所述车辆的状态、在属于该同一组群的多个所述车辆的所述电子设备的操作中使用了的行动变量的值以及与该操作对应的所述奖励作为向所述更新映射的输入，从而由所述第2执行装置来执行。

在上述构成中，通过算出伴随着电子设备的操作的奖励，能够掌握通过该操作能得到什么样的奖励。并且，基于奖励来通过进行了强化学习的更新映射对关系规定数据进行更新。由此，能够将车辆的状态与行动变量的关系设定为在车辆的行驶中适当的值。因此，能够在将车辆的状态与行动变量的关系设定为在车辆的行驶中适当的值时，削减对熟练人员所要求的工时。

进一步，在上述构成中，基于关于多个车辆的状态、行动变量的值以及奖励，对单一的关系规定数据进行更新。由此，例如与基于单一车辆的状态、行动变量的值以及奖励来对单一的关系规定数据进行更新的情况相比，能够提高更新频度。

在此，根据车辆的行驶环境、消耗程度、用户的驾驶喜好等，车辆的状态和适当的行动变量的值的组可能不同。于是，在上述构成中，按通过分类处理对车辆进行分类而得到的各组群，对关系规定数据进行更新。由此，例如与基于与具备***内的第1执行装置的整体车辆有关的车辆的状态、行动变量的值以及奖励来对单一的关系规定数据进行更新的情况相比，能够对于各组群来说将关系规定数据更新为更适当的数据。

方面2.根据上述方面1所述的车辆用控制***，所述车辆信息取得处理包括取得表示所述车辆的消耗程度的消耗程度变量来作为与所述车辆有关的信息的处理。

根据车辆的消耗程度，车辆对于用户的驾驶操作的响应性不同。由此，根据车辆的消耗程度，对于车辆的状态来说适当的行动变量的值可能不同。于是，在上述构成中，根据车辆的消耗程度来对车辆进行分类，因此，能够根据车辆的消耗程度来更新为适当的关系规定数据。

方面3.根据上述方面1或者2所述的车辆用控制***，所述车辆信息取得处理包括取得与加速器操作量的每单位时间的变化量的平均值有关的信息来作为与所述车辆有关的信息的处理。

与加速器操作量的每单位时间的变化量的平均值有关的信息有可能包含与用户的驾驶喜好有关的信息、与车辆的消耗程度有关的信息。于是，在上述构成中，基于与加速器操作量的每单位时间的变化量的平均值有关的信息来对车辆进行分类。因此，能够根据用户的驾驶喜好、车辆的消耗程度来对适当的关系规定数据进行更新。

方面4.根据上述方面1～3中任一项所述的车辆用控制***，所述车辆信息取得处理包括取得所述车辆的位置信息来作为与所述车辆有关的信息的处理。

在上述构成中，基于车辆的位置信息来对车辆进行分类。因此，能够在考虑车辆所处的环境的不同、用户的驾驶喜好的不同的同时，对车辆进行分类。

方面5.一种车辆用控制装置，具备上述方面1～4中任一项所记载的所述车辆用控制***中的所述第1执行装置。

方面6.一种车辆用学习装置，具备上述方面1～4中任一项所记载的所述车辆用控制***中的所述第2执行装置。

方面7.作为执行上述各方面中任一项所记载的各种处理的车辆用控制方法来具体化。

方面8.作为存储有使各种装置执行上述各方面中的任一项所记载的各种处理的程序的、非瞬时性的计算机能够读取的记录介质来具体化。

附图说明

图1是表示一个实施方式涉及的车辆用控制***的结构的图。

图2的(a)部分和(b)部分是表示该实施方式涉及的***所执行的处理的步骤的流程图。

图3是表示该实施方式涉及的控制装置所执行的处理的步骤的流程图。

图4的(a)部分和(b)部分是表示该实施方式涉及的***所执行的处理的步骤的流程图。

具体实施方式

以下，参照图1～图4对车辆用控制***的一个实施方式进行说明。

在图1中示出本实施方式涉及的车辆VC1的驱动***和控制***的结构。

如图1所示，在内燃机10的进气通路12，从上游侧开始依次设置有节气门14和燃料喷射阀16，被吸入到进气通路12的空气、从燃料喷射阀16喷射的燃料伴随着进气门18的开阀而流入到由气缸20和活塞22区划的燃烧室24。在燃烧室24内，燃料与空气的混合气伴随着点火装置26的火花放电而被供于燃烧，通过燃烧产生的能量经由活塞22被变换为曲轴28的旋转能量。被供于燃烧的混合气伴随着排气门30的开阀而被作为排气排出到排气通路32。在排气通路32设置有作为对排气进行净化的后处理装置的催化剂34。

在曲轴28能够经由具备锁止离合器42的转矩转换器40而以机械的方式连结有变速装置50的输入轴52。变速装置50是使作为输入轴52的转速与输出轴54的转速之比的变速比为可变的装置。在输出轴54以机械的方式连结有驱动轮60。

控制装置70将内燃机10作为控制对象，为了对作为其控制量的转矩、排气成分比率等进行控制，对节气门14、燃料喷射阀16以及点火装置26等的内燃机10的操作部进行操作。另外，控制装置70将转矩转换器40作为控制对象，为了对锁止离合器42的接合状态进行控制，对锁止离合器42进行操作。另外，控制装置70将变速装置50作为控制对象，为了对作为其控制量的变速比进行控制，对变速装置50进行操作。此外，在图1中记载了节气门14、燃料喷射阀16、点火装置26、锁止离合器42以及变速装置50各自的操作信号MS1～MS5。

控制装置70为了控制量的控制，对由空气流量计80检测的吸入空气量Ga、由节气门传感器82检测的节气门14的开口度(节气门开口度TA)、曲轴角传感器84的输出信号Scr进行参照。另外，控制装置70对由加速器传感器88检测的加速踏板86的踏下量(加速器操作量PA)、由加速度传感器90检测的车辆VC1的前后方向上的加速度Gx、由水温传感器92检测的内燃机10的冷却水的温度(水温THW)、由外部气温传感器94检测的外部气温Tat进行参照。另外，控制装置70对基于全球定位***(GPS96)的位置数据Pgps进行参照。另外，控制装置70对通过模式选择开关98的操作确定的模式变量MV的值进行参照。在此，模式选择开关98是用于车辆VC1的用户对与车辆VC1的行驶控制模式有关的两个选项中的一个进行选择的人机接口。在此，两个行驶控制模式是运动模式和普通模式，是车辆VC1对于用户的驾驶操作的响应性能互不相同的模式。即，运动模式的响应性能被设定为比普通模式的响应性能高。

控制装置70具备CPU72、ROM74、能够电重写的非易失性存储器(存储装置76)、通信机77以及***电路78，那些部件能够经由本地网络79进行通信。在此，***电路78包括生成对内部的动作进行规定的时钟信号的电路、电源电路、复位电路等。

在ROM74中存储有控制程序74a和学习用子程序74b。另一方面，在存储装置76存储有对加速器操作量PA、节气门开口度TA的指令值(节气门开口度指令值TA＊)以及点火装置26的延迟量aop的关系进行规定的关系规定数据DR。在此，延迟量aop是相对于预先确定的基准点火正时的延迟量，基准点火正时是MBT点火正时和爆震极限点中的延迟侧的正时。MBT点火正时是能得到最大转矩的点火正时(最大转矩点火正时)。另外，爆震极限点是在使用爆震极限高的高辛烷值燃料时在所设想的最佳条件下能够落在能容许爆震的等级以内的点火正时的提前极限值。详细而言，关系规定数据DR包括运动模式用数据DR1和普通模式用数据DR2。另外，在存储装置76存储有转矩输出映射数据DT。由转矩输出映射数据DT规定的转矩输出映射是将曲轴28的转速NE、填充效率η以及点火正时作为输入、输出内燃机10的转矩Trq的映射。

上述通信机77是用于经由车辆VC1外部的网络100与数据解析中心110进行通信的设备。

数据解析中心110对从多个车辆VC1、VC2、……发送的数据进行解析。数据解析中心110具有CPU112、ROM114、能够电重写的非易失性存储器(存储装置116)、***电路118以及通信机117，那些部件能够通过本地网络119进行通信。在ROM114中存储有用于通过强化学习对关系规定数据DR进行更新的学习用主程序114a。另外，在存储装置116中存储有关系规定数据DR。

在图2中表示本实施方式涉及的控制***所执行的处理的步骤。对于图2的(a)部分所示的处理，通过CPU72执行存储于图1所示的ROM74的学习用子程序74b来实现。另外，对于图2的(b)部分所示的处理，通过CPU112执行存储于ROM114的学习用主程序114a来实现。以下，通过在开头赋予了“S”的数字来表现各处理的步骤编号。此外，以下沿着时间序列对图2所示的处理进行说明。

如图2的(a)部分所示，CPU72首先取得行驶距离Lt、加速器操作量PA的每单位时间的变化量ΔPA的绝对值的预定期间中的平均值ave(|ΔPA|)、该绝对值的预定期间中的方差var(|ΔPA|)、位置数据Pgps、外部气温Tat、水温THW以及模式变量MV(S10)。接着，CPU72通过对通信机77进行操作，将所取得的数据与车辆VC1的识别信息ID一起发送给数据解析中心110(S12)。此外，CPU72在S12的处理完成的情况下，暂时结束图2的(a)部分所示的一系列处理。

另一方面，如图2的(b)部分所示，CPU112接收通过S12的处理发送来的数据，并使之存储于存储装置116(S20)。接着，CPU112对从多个车辆VC1、VC2、……发送并存储于存储装置116的数据的总数是否成为了预定数量以上进行判定(S22)。并且，CPU112在判定为存储于存储装置116的数据的总数成为了预定数量以上的情况下，基于存储于存储装置116的数据，通过作为无教师学习的聚类(clustering)，将发送源的车辆分类到几个组群(S24)。在本实施方式中，对于分类使用K－means聚类。

即，CPU72首先适当地对构成所接收到的数据的各变量的值进行标准化。在此，例如设为使行驶距离Lt、平均值ave(|ΔPA|)、方差var(|ΔPA|)、位置数据Pgps、外部气温Tat、水温THW以及模式变量MV各自的最大值和最小值之差为相互相等的大小等即可。

接着，CPU112对预定数量以上的数据矢量分别添加标签以使得能够进行识别，该数据矢量是将通过S20的处理接收到的行驶距离Lt、平均值ave(|ΔPA|)、方差var(|ΔPA|)、位置数据Pgps、外部气温Tat、水温THW以及模式变量MV的被标准化后的值作为成分的7维矢量。接着，CPU112将组群的数量设为K个，适当地设定平均矢量的初始值，该平均矢量是表示属于各组群的数据矢量的平均值的K个7维矢量。此外，“K”是预先确定的2以上的整数。

接着，CPU112对数据矢量和平均矢量之差的平方乘以仅取“0”和“1”的2值的指示变量rnk。将关于这样得到的积的预定数量以上的全部数据和基于全部组群的总和定义为应变尺度J。在此，指示变量rnk的n和k是后缀，指示变量rnk的变量n是数据矢量的标签变量，变量k是组群的标签变量。

接着，CPU112为了使应变尺度J最小化，反复进行固定平均矢量而更新指示变量rnk的E步骤、和固定指示变量rnk而更新平均矢量的M步骤，直到应变尺度J的值收敛。

并且，CPU112基于在使应变尺度J进行了最小化时成为“1”的指示变量rij，设为由变量i指定的数据矢量属于由变量j指定的组群。

接着，CPU112确定由识别信息ID确定的车辆对应于第1组群～第K组群中的哪个(S26)。在此，在由从一个车辆发送来的多个数据构成的多个数据矢量属于互不相同的组群的情况下，CPU112对基于从一个车辆发送来的数据的数据矢量所属于的数量最多的组群关联该车辆即可。

接着，CPU112将车辆的识别信息ID和组群相关联，并存储于存储装置116(S28)。

此外，CPU112在S28的处理完成的情况下、在S22的处理中作出否定判定的情况下，暂时结束图2的(b)部分所示的一系列处理。

在图3中表示本实施方式涉及的控制装置70所执行的处理的步骤。对于图3所示的处理，通过CPU72例如以预定周期反复执行存储于ROM74的控制程序74a来实现。

在图3所示的一系列处理中，CPU72首先基于模式变量MV，对在后述的S34的处理中要利用的关系规定数据DR进行选择(S30)。即，CPU72在选择了运动模式的情况下选择运动模式用数据DR1，在选择了普通模式的情况下选择普通模式用数据DR2。接着，CPU72取得加速器操作量PA的包括6个采样值“PA(1)、PA(2)、……、PA(6)”的时间序列数据来作为状态s(S32)。在此，构成时间序列数据的各采样值是在互不相同的定时采样到的值。在本实施方式中，通过以一定的采样周期进行采样的情况下的在时间序列上相互相邻的6个采样值构成时间序列数据。

接着，CPU72按照关系规定数据DR所确定的策略π来设定行动a(S34)，行动a包括与通过S32的处理取得的状态s相应的节气门开口度指令值TA＊和延迟量aop。

在本实施方式中，关系规定数据DR是确定行动价值函数Q和策略π的数据。在本实施方式中，行动价值函数Q是对与状态s和行动a的8维的自变量相应的期待收益的值进行表示的表型式的函数。另外，策略π确定如下规则：在提供了状态s时，虽然优先选择自变量成为所提供的状态s的行动价值函数Q中的期待收益成为最大的行动a(贪婪(greedy)行动)，但是以预定的概率来选择除此之外的行动a。

接着，CPU72基于所设定的节气门开口度指令值TA＊和延迟量aop，通过向节气门14输出操作信号MS1，从而对节气门开口度TA进行操作，并且，通过向点火装置26输出操作信号MS3，从而对点火正时进行操作(S36)。在此，在本实施方式中例示将节气门开口度TA反馈控制为节气门开口度指令值TA＊。由此，即使节气门开口度指令值TA＊为相同的值，多个操作信号MS1也可能成为互不相同的信号。另外，例如在进行周知的爆震控制(KCS)等的情况下，点火正时被设为通过KCS对使基准点火正时延迟了延迟量aop后的值进行了反馈修正而得到的值。在此，基准点火正时通过CPU72根据曲轴28的转速NE和填充效率η来被以可变的方式进行设定。此外，转速NE通过CPU72基于曲轴角传感器84的输出信号Scr来算出。另外，填充效率η通过CPU72基于转速NE和吸入空气量Ga来算出。

接着，CPU72取得内燃机10的转矩Trq、对于内燃机10的转矩指令值Trq＊、以及加速度Gx(S38)。在此，CPU72通过将转速NE、填充效率η以及点火正时输入到转矩输出映射，算出转矩Trq。另外，CPU72根据加速器操作量PA来设定转矩指令值Trq＊。

接着，CPU72对过渡标志F是否为“1”进行判定(S40)。过渡标志F在为“1”的情况下表示处于过渡运转时，在为“0”的情况下表示不处于过渡运转时。CPU72在判定为过渡标志F为“0”的情况下(S40：否)，对加速器操作量PA的每单位时间的变化量ΔPA的绝对值是否为预定量ΔPAth以上进行判定(S42)。在此，变化量ΔPA例如设为S42的处理的执行定时的最新的加速器操作量PA与相对于该定时的单位时间之前的加速器操作量PA之差即可。

CPU72在判定为变化量ΔPA的绝对值为预定量ΔPAth以上的情况下(S42：是)，将“1”代入到过渡标志F(S44)。

对此，CPU72在判定为过渡标志F为“1”的情况下(S40：是)，判定从S44的处理的执行定时起是否经过了预定期间(S46)。在此，预定期间设为到加速器操作量PA的每单位时间的变化量ΔPA的绝对值成为比预定量ΔPAth小的规定量以下的状态持续预定时间为止的期间。CPU72在判定为经过了预定期间的情况下(S46：是)，将“0”代入到过渡标志F(S48)。

CPU72在S44、S48的处理完成的情况下、在S42、S46的处理中作出否定判定的情况下，使接下来的数据存储于存储装置76(S50)。即，CPU72使在S30的处理中所使用的模式变量MV、在S32的处理中所取得的状态s、在S34的处理中所选择的行动a、在S38的处理中所取得的转矩Trq、转矩指令值Trq＊、加速度Gx以及过渡标志F的值存储于存储装置76。

此外，CPU72在S50的处理完成的情况下暂时结束图3所示的一系列处理。

在图4中表示本实施方式涉及的强化学习的处理步骤。对于图4的(a)部分所示的处理，通过CPU72执行存储于图1所示的ROM74的学习用子程序74b来实现。另外，对于图4的(b)部分所示的处理，通过CPU112执行存储于ROM114的学习用主程序114a来实现。以下，沿着时间序列来对图4所示的处理进行说明。

在图4的(a)部分所示的一系列处理中，CPU72首先对是否为行程(trip)结束时进行判定(S60)。在此，行程是指车辆的行驶允许信号为激活(on)状态的一次期间。在本实施方式中，行驶允许信号相当于点火信号。

CPU72在判定为是行程结束时的情况下(S60：是)，通过对通信机77进行操作，发送车辆VC1的识别信息ID和通过S50的处理存储的数据(S62)。

与此相对，如图4的(b)部分所示，CPU112接收通过S62的处理发送来的数据(S70)。并且，CPU112选择所接收到的数据中的过渡标志F为一定的一个期间、即一个情节(episode)(S72)。各情节是指从进行S48的处理到进行S44的处理为止的期间、从进行S44的处理到进行S48的处理为止的期间。

接着，CPU112取得包括所选择的情节中的转矩指令值Trq＊、转矩Trq以及加速度Gx这三个采样值的组的时间序列数据、和状态s以及行动a的时间序列数据(S74)。在图4中示出括号中的数字不同的变量的值为不同的采样定时的变量的值。例如，转矩指令值Trq＊(1)和转矩指令值Trq＊(2)的采样定时互不相同。另外，将属于所选择的情节的行动a的时间序列数据作为行动集合Aj，将属于该情节的状态s的时间序列数据定义为状态集合Sj。

接着，CPU112对属于所选择的情节的任意的转矩Trq与转矩指令值Trq＊之差的绝对值为规定量ΔTrq以下之意的条件(A)和加速度Gx为下限值GxL以上且为上限值GxH以下之意的条件(B)的逻辑积是否为真进行判定(S76)。

在此，CPU112根据情节开始时的加速器操作量PA的每单位时间的变化量ΔPA和模式变量MV的值，以可变的方式设定规定量ΔTrq。即，CPU112在基于情节开始时的变化量ΔPA判定为是与过渡时有关的情节的情况下，将规定量ΔTrq设定为比稳态时的该规定量ΔTrq大的值。另外，CPU112在运动模式的情况下将规定量ΔTrq设定为比普通模式的情况下的该规定量ΔTrq小的值。

另外，CPU112根据情节开始时的加速器操作量PA的每单位时间的变化量ΔPA和模式变量MV的值，以可变的方式设定下限值GxL。即，CPU112在为与过渡时有关的情节、且变化量ΔPA为正的情况下，将下限值GxL设定为比与稳态时有关的情节的情况下的该下限值GxL大的值。另外，CPU112在为与过渡时有关的情节、且变化量ΔPA为负的情况下，将下限值GxL设定为比与稳态时有关的情节的情况下的该下限值GxL小的值。另外，CPU112若变化量ΔPA为正，则在运动模式的情况下将下限值GxL设定为比普通模式的情况下的该下限值GxL大的值。另外，CPU112若变化量ΔPA为负，则在运动模式的情况下将下限值GxL设定为比普通模式的情况下的该下限值GxL小的值。

另外，CPU112根据情节开始时的加速器操作量PA的每单位时间的变化量ΔPA和模式变量MV的值，以可变的方式设定上限值GxH。即，CPU112在为与过渡时有关的情节、且变化量ΔPA为正的情况下，将上限值GxH设定为比与稳态时有关的情节的情况下的该上限值GxH大的值。另外，CPU112在为与过渡时有关的情节、且变化量ΔPA为负的情况下，将上限值GxH设定为与比稳态时有关的情节的情况下的该上限值GxH小的值。另外，CPU112若变化量ΔPA为正，在运动模式的情况下将上限值GxH设定为比普通模式的情况下的该上限值GxH大的值。另外，CPU112若变化量ΔPA为负，则在运动模式的情况下将上限值GxH设定为比普通模式的情况下的该上限值GxH小的值。

CPU112在判定为逻辑积为真的情况下(S76：是)，将“10”代入到奖励r(S78)，另一方面，在判定为逻辑积为假的情况(S76：否)，将“－10”代入到奖励r(S80)。CPU112在S78、S80的处理完成的情况下，基于在S70的处理中取得的识别信息ID，对车辆VC1属于哪个组群进行检索(S82)。

并且，CPU112对所确定的组群共同的关系规定数据DR进行更新。在本实施方式中，在关系规定数据DR的更新中使用ε软同策略型蒙特卡罗法(ε-soft on-policy MonteCarlo method)。

即，CPU112对通过上述S74的处理读出的由各状态和所对应的各行动的组确定的收益R(Sj，Aj)分别加上奖励r(S84)。在此，“R(Sj，Aj)”是对将状态集合Sj的要素之一作为状态、将行动集合Aj的要素之一作为行动的收益R进行了总括的记载。接着，对通过上述S84的处理读出的由各状态和所对应的各行动的组确定的收益R(Sj，Aj)分别进行平均化，将被平均后的收益R(Sj，Aj)代入到所对应的行动价值函数Q(Sj，Aj)(S86)。在此，对于收益R的平均化，设为将通过S84的处理算出的收益R除以对进行了S84的处理的次数加上预定数而得到的数的处理即可。此外，收益R的初始值设为车辆VC1出厂时的所对应的行动价值函数Q的初始值即可。

接着，CPU112关于通过上述S74的处理读出的状态，分别将如下行动代入到行动Aj＊(S88)，该行动为所对应的行动价值函数Q(Sj，A)中的、期待收益成为最大值时的节气门开口度指令值TA＊和延迟量aop的组。在此，“A”表示可取的任意的行动。此外，行动Aj＊根据通过上述S74的处理读出的状态的种类而成为个别的值，但在此将记载简化，用同一标号进行记载。

接着，CPU112关于属于通过S70的处理接收到的1行程量的数据的全部情节，判定是否完成了S72～S90的处理(S92)。并且，CPU112在判定为存在尚未完成S72～S90的处理的情节的情况下(S92：否)，返回到S72的处理。

与此相对，CPU112在关于全部情节判定为完成了S72～S90的处理的情况下(S92：是)，通过对通信机117进行操作，将被更新后的关系规定数据DR发送给通过S70的处理接收到的数据的发送源(S94)。此外，CPU112在完成S94的处理的情况下，暂时结束图4的(b)部分所示的一系列处理。

与此相对，如图4的(a)部分所示，CPU72接收被进行了更新的关系规定数据DR(S64)，通过所接收到的关系规定数据DR，对S34的处理中所利用的关系规定数据DR进行重写(S66)。此外，CPU72在S66的处理完成的情况下、在S60的处理中作出否定判定的情况下，暂时结束图4的(a)部分所示的一系列处理。

此外，在车辆VC1出厂时存储于存储装置76的关系规定数据DR例如设为如下的已学习模型，该已学习模型是在用试验台对车辆的行驶进行模拟等的同时、通过依照图3和图4的处理进行了某种程度的强化学习后的已学习模型。其中，在出厂前的学习中设为：关于作为强化学习的对象的行动价值函数Q的自变量，通过人的见解等削减了状态s和行动a可取的值的全部组合中的一部分。即，例如对于加速器操作量PA的时间序列数据中的相邻的2个采样值中的一个成为加速器操作量PA的最小值、另一个成为最大值，认为不会是由人的加速踏板86的操作产生的，在出厂前的学习中不定义行动价值函数Q。在本实施方式中，通过基于人的见解等进行的维度削减，在出厂前的学习中将定义行动价值函数Q的状态s可取的值限制为10的4次方个以下、更优选是10的3次方个以下。

在此，对本实施方式的作用和效果进行说明。

CPU72伴随着用户的加速踏板86的操作，取得作为状态s的加速器操作量PA的时间序列数据，按照策略π，设定包括节气门开口度指令值TA＊和延迟量aop的行动a。在此，基本上基于关系规定数据DR所规定的行动价值函数Q，选择使期待收益为最大的行动a。但是，CPU72通过以预定的概率ε选择使期待收益最大化的行动a以外的行动，进行使期待收益最大化的行动a的搜索。并且，CPU72向数据解析中心110发送状态s、行动a、转矩Trq、转矩指令值Trq＊以及加速度Gx。

由此，数据解析中心110的CPU112能够伴随着由用户进行的车辆VC1的驾驶，通过强化学习对关系规定数据DR进行更新。因此，能够不使熟练人员的工时过度增大地将与加速器操作量PA相应的节气门开口度指令值TA＊以及延迟量aop设定为在车辆VC1的行驶中适当的值。特别是，通过CPU112基于从多个车辆发送的数据来对一个关系规定数据DR进行更新。由此，例如与基于从一个车辆发送的数据来对一个关系规定数据DR进行更新的情况相比，能够提高关系规定数据DR的更新频度。

在此，CPU112代替使用从多个车辆VC1、VC2、……发送的全部数据来更新关系规定数据DR，而是按通过聚类对车辆进行分类而得到的各组群来对个别的关系规定数据DR进行更新。

在此，根据本实施方式中的分类，期待进行与车辆的消耗程度相应的分类。即，认为在行驶距离Lt长情况下，车辆的消耗程度比行驶距离Lt短的情况下的消耗程度大。并且，在车辆的消耗程度大的情况下，例如由于沉积物沉积于内燃机10的进气通路12、节气门14，相对于节气门开口度指令值TA＊的进气通路12的流路截面积变小，因此，加速感迟钝。由此，用户考虑对加速踏板86的操作进行改变以使得对加速感的迟钝进行补偿。由用户进行的补偿的操作能够根据平均值ave(|ΔPA|)、方差var(|ΔPA|)来掌握。

因此，根据上述分类，能够将加速器操作量PA与节气门开口度指令值TA＊以及延迟量aop的关系学习为与车辆的消耗程度相应的更适当的关系。

根据以上说明的本实施方式，能进一步得到以下记载的作用效果。

(1)用于聚类的数据集合的要素包含了位置数据Pgps。由此，能够在考虑与地域相应的燃料性状的不同、用户的驾驶方式的不同来作为加速踏板86的操作变为不同操作的原因的同时，对车辆进行分类，该燃料性状的不同、用户的驾驶方式的不同是与车辆的消耗程度不同的原因。

(2)用于聚类的数据集合的要素包含了外部气温Tat、水温THW。由此，能够考虑空气密度对填充效率η的影响来作为加速踏板86的操作变为不同操作的原因的同时进行分类，该空气密度对填充效率η的影响是与车辆的消耗程度不同的原因。

(3)在用于聚类的数据集合的要素中包含了模式变量MV。由此，能够在考虑用户的驾驶喜好的不同来作为加速踏板86的操作变为不同操作的原因的同时进行分类，该用户的驾驶喜好的不同是与车辆的消耗程度不同的原因。

(4)在出厂前，处于仅对行动价值函数Q的自变量的值的一部分进行了基于强化学习的学习的状态，能够伴随着出厂后的车辆VC1的运转来对全部自变量的值进行行动价值函数Q的学习。由此，能够基于从多个车辆VC1、VC2、……发送的庞大的数据，通过强化学习来对具有大到在产品出厂前难以学习的程度的维数的自变量的行动价值函数Q进行学习。

(5)行动价值函数Q的自变量包含了加速器操作量PA的时间序列数据。由此，例如与关于加速器操作量PA仅将单一的采样值作为自变量的情况相比，能够相对于加速器操作量PA的各种各样的变化，精细地对行动a的值进行调整。

(6)行动价值函数Q的自变量包含了节气门开口度指令值TA＊自身。由此，例如与将对节气门开口度指令值TA＊的行为进行了模型化的模型式的参数等作为与节气门开口度有关的自变量的情况相比，容易提高基于强化学习的搜索的自由度。

＜对应关系＞

上述实施方式中的事项与上述“发明内容”一栏所记载的事项的对应关系为如以下所述。以下，按“发明内容”一栏所记载的方面的各编号表示对应关系。

[1]、[4]、[5]、[6]电子设备对应于节气门14、点火装置26。第1执行装置对应于CPU72以及ROM74，第2执行装置对应于CPU112以及ROM114。存储装置对应于存储装置76、116。状态取得处理对应于S32、S38的处理。操作处理对应于S36的处理。奖励算出处理对应于S76～S80的处理。更新处理对应于S84～S90的处理。更新映射对应于通过学习用主程序114a确定的通过S84～S90的处理规定的映射。车辆信息取得处理对应于S10～S20的处理。分类处理对应于S24的处理。

[2]消耗程度根据行驶距离Lt来定量化。

[3]加速器操作量的每单位时间的变化量的与平均值有关的信息对应于平均值ave(|ΔPA|)。

＜其他实施方式＞

此外，本实施方式可以通过如以下那样进行变更来实施。本实施方式以及以下的变更例可以在技术上不矛盾的范围内相互组合来实施。

·“关于车辆信息取得处理”

在上述实施方式中，设为了取得行驶距离Lt、平均值ave(|ΔPA|)、方差var(|ΔPA|)、位置数据Pgps、外部气温Tat、水温THW以及模式变量MV的数据组的集合来作为聚类的对象的、与车辆有关的信息，但不限于此。例如，关于那些7个变量，既可以仅使用其中的6个来生成数据组，另外，也可以仅使用5个来生成数据组，或者仅使用4个来生成数据组，或者仅使用3个来生成数据组，或者仅使用2个来生成数据组。另外，例如也可以仅1个为聚类的对象。另外，也可以代替使用加速器操作量PA的每单位时间的变化量ΔPA的绝对值的、预定期间中的平均值、方差，而是使用加速器操作量PA的每单位时间的变化量ΔPA为正的情况下的平均值、方差。

另外，在构成成为聚类的对象的数据集合的数据组中例如也可以包含加速器操作量PA的预定期间中的平均值。另外，例如也可以包含节气门开口度TA的预定期间中的平均值、节气门开口度指令值TA＊的预定期间中的平均值。另外，例如也可以包含节气门开口度TA的每单位时间的变化量的绝对值的预定期间中的平均值、方差，或者包含节气门开口度指令值TA＊的每单位时间的变化量的绝对值的预定期间中的平均值、方差。

“关于分类处理”

在上述实施方式中，通过批量处理执行了K－means聚类，但不限于此，也可以设为在线学习。

在上述实施方式中，预先指定组群的数量，基于K－means聚类进行了聚类，但不限于此。例如，也可以在将组群的数量分别设定为多个值来执行了K－means聚类之后，对采用哪个聚类结果进行选择。在此的选择处理例如按各状态算出关于表示与贪婪行动所对应的行动价值函数Q的值之差的绝对值成为预定值以下的行动价值函数Q的全部行动的、行动价值函数Q的值之和。通过关于属于各组群的全部状态将该和相加，得到各组群的加法运算值。采用对加法运算值大的组群进行定义的变量来作为较大地影响贪婪行动的变量即可。

当然，不限于使用K－means聚类。例如代替上述平均矢量与数据矢量之差的平方，使用将由平均矢量和协方差矩阵定义的数据矢量作为自变量的高斯分布。也可以通过代替指示变量rnk来使用混合系数πk，从而生成混合高斯分布，将其作为数据矢量的周边分布。在该情况下，设为通过最大似然推定等来对平均矢量、协方差矩阵以及混合系数πk进行学习，数据矢量属于分别与混合系数π1～πK对应的负担率中的最大负担率所对应的组群即可。

进一步，也可以在构成成为聚类的对象的数据集合的数据组中包含通过强化学习进行了学习的数据自身来进行聚类。具体而言，例如也可以将行动价值函数Q、状态s以及行动a的组包含于数据组。这例如能够如以下那样来实现。

(i)在数据解析中心110中，分别根据通过S10的处理取得的变量来对车辆进行分类，在各变量下按各组群来对行动价值函数Q进行更新。

(ii)在更新后的贪婪行动根据组群而较大地改变的情况下，将该变量作为较大地影响贪婪行动的变量，在更新后的贪婪行动根据组群而不太变化的情况下，将该变量作为对贪婪行动的影响小的变量。

(iii)使用较大地影响贪婪行动的变量和贪婪行动来进行聚类。这样生成的组群也由较大地影响贪婪行动的1个或者多个变量的值来定义。由此，仅通过那些1个或者多个变量的值来定义最终的组群即可。

·“关于行动变量”

在上述实施方式中，作为与作为行动变量的节气门的开口度有关的变量，例示了节气门开口度指令值TA＊，但不限于此。例如，也可以用无用时间和二阶滞后滤波器表现对于加速器操作量PA的节气门开口度指令值TA＊的响应性，将无用时间、规定二阶滞后滤波器的两个变量的合计三个变量作为与节气门的开口度有关的变量。但是，在该情况下，对于状态变量，优选代替加速器操作量PA的时间序列数据而设为加速器操作量PA的每单位时间的变化量。

在上述实施方式中，作为与作为行动变量的点火正时有关的变量，例示了延迟量aop，但不限于此。例如，也可以是设为KCS的修正对象的点火正时自身。

在上述实施方式中，作为行动变量，例示了与节气门的开口度有关的变量和与点火正时有关的变量，但不限于此。例如，在与节气门的开口度有关的变量和与点火正时有关的变量之外也可以使用燃料喷射量。另外，关于那些三个变量，也可以仅采用与节气门的开口度有关的变量和燃料喷射量来作为行动变量，或仅采用与点火正时有关的变量和燃料喷射量来作为行动变量。进一步，关于那些三个变量，也可以仅采用那些中的一个来作为行动变量。

另外，如下述“关于内燃机”一栏所记载的那样，在为压缩着火式的内燃机的情况下，使用与喷射量有关的变量来代替与节气门的开口度有关的变量，使用与喷射正时有关的变量来代替与点火正时有关的变量即可。此外，优选在与喷射正时有关的变量之外，还添加与一个燃烧周期中的喷射次数有关的变量、与用于一个燃烧周期中的一个气缸的在时间序列上相邻的2个燃料喷射中的一方的结束定时与另一方的开始定时之间的时间间隔有关的变量。

另外，例如也可以在变速装置50为有级变速装置的情况下，将用于通过油压对离合器的接合状态进行调整的电磁阀的电流值等作为行动变量。

另外，例如在如下述“关于车辆”一栏所记载的那样采用混合动力车、电动汽车、燃料电池车来作为车辆的情况下，也可以将旋转电机的转矩、输出添加到行动变量。另外，例如也可以在具备包括压缩机的车载空调装置的情况下将压缩机的负荷转矩包含于行动变量，该压缩机利用内燃机的曲轴的旋转动力进行旋转。另外，在具备电动式的车载空调装置的情况下，也可以将空调装置的消耗电力包含于行动变量。

·“关于表形式的数据的维度削减”

作为表形式的数据的维度削减方法，不限于在上述实施方式中例示的方法。例如加速器操作量PA很少会成为最大值。由此，关于加速器操作量PA成为规定量以上的状态，也可以不定义行动价值函数Q，对加速器操作量PA成为规定量以上的情况下的节气门开口度指令值TA＊等另行进行适配。另外，例如也可以通过从行动可取的值去掉节气门开口度指令值TA＊成为规定值以上的值等来进行维度削减。

此外，在车辆出厂后，与出厂前相比扩大作为强化学习的对象的行动价值函数Q的自变量可取的值的范围也不是必须的。另外，在出厂前进行强化学习自身不是必须的。例如，也可以在通过引用同一排气量的内燃机、且已经进行了行动变量对于状态的适配的车辆的适配数据来设定了行动价值函数Q的初始值之后，使车辆出厂，在出厂后第一次执行强化学习。

·“关于关系规定数据”

在上述实施方式中将行动价值函数Q设为了表形式的函数，但不限于此。例如，也可以使用函数近似器。

例如，代替使用行动价值函数Q，通过将状态s和行动a作为自变量、并将采取行动a的概率作为因变量的函数近似器来表现策略π。也可以根据奖励r来对确定函数近似器的参数进行更新。

·“关于操作处理”

例如如上述“关于关系规定数据”一栏所记载的那样，在将行动价值函数作为函数近似器的情况下，关于与上述实施方式中的表型式的函数的成为自变量的行动有关的离散的值的全部组，与状态s一起输入到行动价值函数Q。由此，选择使行动价值函数Q最大化的行动a即可。

另外，例如如上述“关于关系规定数据”一栏所记载的那样，在将策略π设为将状态s和行动a作为自变量、并将采取行动a的概率作为因变量的函数近似器的情况下，基于由策略π表示的概率，选择行动a即可。

·“关于更新映射”

在S84～S90的处理中，例示了基于ε软同策略型蒙特卡罗法的处理，但不限于此。例如，也可以是基于离策略型蒙特卡罗法(off-policy Monte Carlo method)的处理。当然，不限于蒙特卡罗法，例如也可以使用离策略型TD法，另外，例如也可以使用如SARSA法那样的同策略型TD法，另外，例如也可以使用资格迹法(eligibility trace method)来作为同策略型的学习。

另外，例如如上述“关于关系规定数据”一栏所记载的那样，在使用函数近似器来表现策略π、基于奖励r直接对其进行更新的情况下，使用策略梯度法等来构成更新映射即可。

另外，不限于仅将行动价值函数Q和策略π中的某一方作为基于奖励r的直接的更新对象。例如，也可以如Actor-Critic法那样分别对行动价值函数Q和策略π进行更新。另外，在Actor-Critic法中，不限于此，例如也可以代替行动价值函数Q而将价值函数V作为更新对象。

·“关于奖励算出处理”

在图4的S76的处理中，根据条件(A)和条件(B)的逻辑积是否为真来提供了奖励，但不限于此。例如，也可以执行根据是否满足条件(A)来提供奖励的处理、和根据是否满足条件(B)来提供奖励的处理。另外，例如关于根据是否满足条件(A)来提供奖励的处理、和根据是否满足条件(B)来提供奖励的处理这两个处理，也可以仅执行那些中的任一个处理。

另外，例如也可以代替在满足条件(A)的情况下一律提供相同的奖励，设为如下处理：在转矩Trq与转矩指令值Trq＊之差的绝对值小的情况下，提供比该差的绝对值大的情况下更大的奖励。另外，例如也可以代替在不满足条件(A)的情况下一律提供相同的奖励，设为如下处理：在转矩Trq与转矩指令值Trq＊之差的绝对值大的情况下，提供比该差的绝对值小的情况下更小的奖励。

另外，例如也可以代替在满足条件(B)的情况下一律提供相同的奖励，设为如下处理：根据加速度Gx的大小，使奖励的大小为可变。另外，例如也可以代替在不满足条件(B)的情况下一律提供相同的奖励，设为如下处理：根据加速度Gx的大小，使奖励的大小为可变。

在上述实施方式中，根据是否满足与驾驶性能有关的基准来提供了奖励r，但作为与驾驶性能有关的基准，不限于上述的基准，例如也可以根据噪声、振动强度是否满足基准来进行设定。当然，不限于此，例如可以是上述加速度是否满足基准、转矩Trq的跟随性是否满足基准、噪声是否满足基准、振动强度是否满足基准这4个中的任意一个以上。

作为奖励算出处理，也不限于根据是否满足与驾驶性能有关的基准来提供奖励r的处理。例如也可以是在燃料消耗率满足基准的情况下提供比不满足该基准的情况下大的奖励的处理。另外，例如也可以是在排气特性满足基准的情况下提供比不满足该基准的情况下大的奖励的处理。此外，也可以包括在满足与驾驶性能有关的基准的情况下提供比不满足该基准的情况下大的奖励的处理、在燃料消耗率满足基准的情况下提供比不满足该基准的情况下大的奖励的处理、以及在排气特性满足基准的情况下提供比不满足该基准的情况下大的奖励的处理这三个处理中的两个或者三个。

另外，例如在如上述“关于行动变量”一栏所记载的那样将变速装置50的电磁阀的电流值作为行动变量的情况下，例如在奖励算出处理中包含以下(a)～(c)的三个处理中的至少一个处理即可。

(a)是如下处理：在变速装置的变速比的切换所需要的时间处于预定时间以内的情况下，提供比超过预定时间的情况下大的奖励。

(b)是如下处理：在变速装置的输入轴52的转速的变化速度的绝对值为输入侧预定值以下的情况下，提供比超过输入侧预定值的情况下大的奖励。

(c)是如下处理：在变速装置的输出轴54的转速的变化速度的绝对值为输出侧预定值以下的情况下，提供比超过输出侧预定值的情况下大的奖励。

另外，例如在如上述“关于行动变量”一栏所记载的那样将旋转电机的转矩、输出作为行动变量的情况下，也可以包括如下处理：在电池的充电率处于预定范围内的情况下提供比不处于该预定范围内的情况下大的奖励的处理；在电池的温度处于预定范围内的情况下提供比不处于该预定范围内的情况下大的奖励的处理。另外，例如在如上述“关于行动变量”一栏所记载的那样将压缩机的负荷转矩、空调装置的消耗电力包含于行动变量的情况下，也可以添加如下处理：在车室内的温度处于预定范围内的情况下提供比不处于该预定范围内的情况下大的奖励的处理。

·“关于车辆用控制***”

作为车辆用控制***，不限于由控制装置70和数据解析中心110构成的***。例如，也可以通过控制装置70、便携终端以及数据解析中心110构成车辆用控制***。这能够设为便携终端执行S34的处理等来实现。

·“关于执行装置”

作为执行装置，不限于具备CPU72(112)和ROM74(114)来执行软件处理的装置。例如，也可以具备对在上述实施方式中被设为了软件处理的单元的至少一部分进行硬件处理的例如ASIC等的专用的硬件电路。即，执行装置是以下的(a)～(c)中的任一结构即可。(a)具备按照程序执行全部的上述处理的处理装置和存储程序的ROM等的程序保存装置(可以包括非瞬时性的计算机能够读取的存储介质)。(b)具备按照程序来执行上述处理的一部分的处理装置以及程序保存装置、和执行其余的处理的专用的硬件电路。(c)具备执行全部的上述处理的专用的硬件电路。在此，具备处理装置和程序保存装置的软件执行装置、专用的硬件电路也可以是多个。

·“关于存储装置”

在上述实施方式中，使存储关系规定数据DR的存储装置和存储学习用子程序74b、控制程序74a的存储装置(ROM74)为不同的存储装置，但不限于此。另外，也可以使存储关系规定数据DR的存储装置和存储学习用主程序114a的存储装置(ROM114)为不同的存储装置，但不限于此。

·“关于内燃机”

作为内燃机，不限于具备向进气通路12喷射燃料的端口喷射阀来作为燃料喷射阀的内燃机，也可以是具备向燃烧室24直接喷射燃料的缸内喷射阀的内燃机。另外，例如也可以是具备端口喷射阀和缸内喷射阀这两方的内燃机。

作为内燃机，不限于火花点火式内燃机，也可以是例如使用轻油等来作为燃料的压缩着火式内燃机等。

·“关于车辆”

作为车辆，不限于推力生成装置仅为内燃机的车辆，例如也可以是具备内燃机和旋转电机的所谓的混合动力车辆。另外，例如也可以是不具备内燃机、而是具备旋转电机来作为推力生成装置的所谓的电动汽车、燃料电池车。

Claims

1.一种车辆用控制***，具备存储装置、第1执行装置以及第2执行装置，所述存储装置存储关系规定数据，所述关系规定数据对车辆的状态与行动变量的关系进行规定，所述行动变量是与所述车辆内的电子设备的操作有关的变量，所述第1执行装置搭载于所述车辆，所述第2执行装置有别于车载装置，

所述第1执行装置和所述第2执行装置构成为以协作的方式执行以下的处理，该处理包括：

状态取得处理，取得对所述车辆的状态进行检测的传感器的检测值；

操作处理，操作所述电子设备；

奖励算出处理，基于通过所述状态取得处理取得的所述检测值，在所述车辆的特性满足基准的情况下，与所述车辆的特性不满足基准的情况相比，给予较大的奖励；

更新处理，将基于通过所述状态取得处理取得的所述检测值的所述车辆的状态、在所述电子设备的操作中使用了的所述行动变量的值以及与该操作对应的所述奖励作为向预先确定的更新映射的输入，从而对所述关系规定数据进行更新；

车辆信息取得处理，取得与所述车辆有关的信息；以及

分类处理，基于与所述车辆有关的信息，将多个所述车辆分类为多个组群，

所述第1执行装置构成为至少执行所述状态取得处理和所述操作处理，

所述第2执行装置构成为至少执行所述更新处理、所述车辆信息取得处理以及所述分类处理，

所述操作处理包括根据通过所述更新处理进行了更新的所述关系规定数据和所述车辆的状态来操作所述电子设备的处理，

所述更新映射构成为输出以使按照所述关系规定数据来操作所述电子设备的情况下的关于所述奖励的期待收益增加的方式进行了更新的所述关系规定数据，

对于所述更新处理，为了按被分类后的所述组群对所述关系规定数据进行更新，将属于同一组群的多个所述车辆的状态、在属于该同一组群的多个所述车辆的所述电子设备的操作中使用了的行动变量的值以及与该操作对应的所述奖励作为向所述更新映射的输入，从而由所述第2执行装置来执行。

2.根据权利要求1所述的车辆用控制***，

所述车辆信息取得处理包括取得表示所述车辆的消耗程度的消耗程度变量来作为与所述车辆有关的信息的处理。

3.根据权利要求1所述的车辆用控制***，

所述车辆信息取得处理包括取得与加速器操作量的每单位时间的变化量的平均值有关的信息来作为与所述车辆有关的信息的处理。

4.根据权利要求2所述的车辆用控制***，

5.根据权利要求1所述的车辆用控制***，

所述车辆信息取得处理包括取得所述车辆的位置信息来作为与所述车辆有关的信息的处理。

6.根据权利要求2所述的车辆用控制***，

7.根据权利要求3所述的车辆用控制***，

8.根据权利要求4所述的车辆用控制***，

9.根据权利要求1～8中任一项所述的车辆用控制***，

所述第1执行装置被包括在车辆用控制装置中。

10.根据权利要求1～8中任一项所述的车辆用控制***，

所述第2执行装置被包括在车辆用学习装置中。

11.一种车辆用控制方法，是通过存储装置、第1执行装置以及第2执行装置进行的车辆用控制方法，所述第1执行装置搭载于车辆，所述第2执行装置有别于车载装置，所述车辆用控制方法包括：

通过所述存储装置存储关系规定数据，所述关系规定数据对车辆的状态与行动变量的关系进行规定，所述行动变量是与所述车辆内的电子设备的操作有关的变量，和

通过所述第1执行装置和所述第2执行装置以协作的方式执行以下的处理：

取得对所述车辆的状态进行检测的传感器的检测值；

操作所述电子设备；

基于所取得的所述检测值，在所述车辆的特性满足基准的情况下，与所述车辆的特性不满足基准的情况相比，给予较大的奖励；

通过将基于所取得的所述检测值的所述车辆的状态、在所述电子设备的操作中使用了的所述行动变量的值以及与该操作对应的所述奖励作为向预先确定的更新映射的输入，从而对所述关系规定数据进行更新；

取得与所述车辆有关的信息；以及

基于与所述车辆有关的信息，将多个所述车辆分类为多个组群，通过所述第1执行装置，至少执行取得所述检测值的处理和操作所述电子设备的处理，

通过所述第2执行装置，至少执行更新所述关系规定数据的处理、取得与所述车辆有关的信息的处理以及将多个所述车辆分类为多个所述组群的处理，

操作所述电子设备的处理包括根据被更新了的所述关系规定数据和所述车辆的状态来操作所述电子设备的处理，

所述更新映射输出以使按照所述关系规定数据来操作所述电子设备的情况下的关于所述奖励的期待收益增加的方式进行了更新的所述关系规定数据，

对于更新所述关系规定数据的处理，为了按被分类后的所述组群来对所述关系规定数据进行更新，将属于同一组群的多个所述车辆的状态、在属于该同一组群的多个所述车辆的所述电子设备的操作中使用了的行动变量的值以及与该操作对应的所述奖励作为向所述更新映射的输入，从而由所述第2执行装置来执行。

12.一种非瞬时性的计算机能够读取的存储介质，存储有使存储装置、第1执行装置以及第2执行装置执行车辆用控制处理的程序，所述第1执行装置搭载于车辆，所述第2执行装置有别于车载装置，所述车辆用控制处理包括：

通过所述存储装置存储关系规定数据，所述关系规定数据对车辆的状态与行动变量的关系进行规定，所述行动变量是与所述车辆内的电子设备的操作有关的变量，以及

取得对所述车辆的状态进行检测的传感器的检测值；

操作所述电子设备；

取得与所述车辆有关的信息；以及