CN112682184B

CN112682184B - 车辆用控制装置、车辆用控制***以及车辆控制方法

Info

Publication number: CN112682184B
Application number: CN202011108168.6A
Authority: CN
Inventors: 桥本洋介; 片山章弘; 大城裕太; 杉江和纪; 冈尚哉
Original assignee: Toyota Motor Corp
Current assignee: Toyota Motor Corp
Priority date: 2019-10-18
Filing date: 2020-10-16
Publication date: 2023-06-16
Anticipated expiration: 2040-10-16
Also published as: US20210115871A1; JP2021066240A; CN112682184A; US11313309B2; JP6705544B1

Abstract

本公开涉及车辆用控制装置、车辆用控制***以及车辆控制方法。车辆用控制装置包括存储装置以及执行装置，存储装置存储关系规定数据，关系规定数据规定车辆的状态与行动变量的关系，行动变量是与所述车辆内的电子设备的操作有关的变量。所述执行装置构成为执行：取得传感器的检测值和驾驶偏好信息的取得处理；操作所述电子设备的操作处理；在车辆的特性满足基准的情况下比特性不满足基准的情况下给予较大的奖励的奖励计算处理；和更新所述关系规定数据的更新处理，所述执行装置构成为基于更新映射，输出以使按照所述关系规定数据来操作所述电子设备的情况下的关于所述奖励的期待收益增加的方式进行了更新的所述关系规定数据。

Description

车辆用控制装置、车辆用控制***以及车辆控制方法

技术领域

本发明涉及车辆用控制装置、车辆用控制***以及车辆控制方法。

背景技术

例如日本特开2016-6327中记载了一种控制装置，该控制装置基于将加速踏板的操作量通过过滤器处理得到的值，操作作为搭载于车辆的内燃机的操作部的节气门。

发明内容

可是，因为上述过滤器需要根据加速踏板的操作量将搭载于车辆的内燃机的节气门的操作量设定为适当的操作量，所以其适配需要熟练者花费许多工时。如此，在与车辆的状态相应的车辆内的电子设备的操作量等的适配中，熟练者花费了许多工时。

本公开的第1技术方案涉及的车辆用控制装置包括存储装置以及执行装置。所述存储装置存储有规定所述车辆的状态与行动变量的关系的关系规定数据，所述行动变量是与所述车辆内的电子设备的操作有关的变量。所述执行装置构成为执行取得处理，该取得处理取得构成为检测所述车辆的状态的传感器的检测值、和作为与用户的驾驶偏好有关的信息的驾驶偏好信息。所述执行装置构成为执行操作处理，该操作处理基于由所述关系规定数据和通过所述取得处理所取得的所述检测值而确定的所述行动变量的值，操作所述电子设备。所述执行装置构成为执行奖励(奖赏)计算处理，该奖励计算处理基于通过所述取得处理所取得的所述检测值，在所述车辆的特性满足基准的情况下，与所述车辆的特性不满足所述基准的情况相比，给予较大的奖励。所述奖励计算处理是即使在所述车辆的与举动有关的特性满足同一基准的情况下而在所述驾驶偏好信息不同的情况下也给予不同的奖励的处理。所述执行装置构成为执行更新处理，该更新处理将基于通过所述取得处理所取得的所述检测值的所述车辆的状态、所述电子设备的操作中所使用了的所述行动变量的值、和与该操作对应的所述奖励作为向预先确定的更新映射的输入，更新所述关系规定数据。所述执行装置构成为基于所述更新映射，输出以使按照所述关系规定数据来操作所述电子设备的情况下的关于所述奖励的期待收益(回报)增加的方式进行了更新的所述关系规定数据。

根据上述第1技术方案，通过计算伴随电子设备的操作的奖励，能够掌握通过该操作而获得怎样的奖励。而且，通过基于奖励，根据按照强化学习的更新映射，将关系规定数据更新，从而能够将车辆的状态与行动变量的关系设定为在车辆的行驶中适当的关系。因此，能够削减在将车辆的状态与行动变量的关系设定为在车辆的行驶中适当的关系时需要熟练者花费的工时。

在唯一地确定奖励的情况下，通过强化学习所学习到的车辆的状态与行动变量的关系有可能不按照用户的驾驶偏好。于是，根据上述第1技术方案，通过取得驾驶偏好信息，并通过奖励计算处理基于驾驶偏好信息来给予奖励，从而能够通过强化学习将关系规定数据更新为符合用户的驾驶偏好的关系规定数据。

在所述车辆用控制装置中，所述取得处理也可以包括如下处理：取得由用户对所述车辆的举动的评价作为所述驾驶偏好信息，所述奖励计算处理也可以包括如下处理：在通过所述取得处理取得表示低评价的所述驾驶偏好信息的情况下，即使所述车辆的与举动有关的特性相同，也给予与取得该评价前不同的奖励。

根据上述第1技术方案，取得由用户做出的评价作为驾驶偏好信息，在该评价结果低的情况下，改变奖励。而且，通过使用通过随后的更新处理所更新的关系规定数据执行操作处理，能够使由用户做出的评价好转。

在所述车辆用控制装置中，所述驾驶偏好信息也可以包含所述车辆的前后方向的加速度的历史记录信息。车辆的前后方向的加速度的历史记录成为根据由用户对加速器的操作方式而不同的信息，所以在该加速度的历史记录中，反映了用户的驾驶偏好。鉴于这点，根据上述第1技术方案，通过取得加速度的历史记录作为驾驶偏好信息，即使用户不输入驾驶偏好信息，也能够取得驾驶偏好信息。

在所述车辆用控制装置中，所述驾驶偏好信息也可以包含加速器操作量的历史记录信息。用户的加速器操作根据用户的驾驶偏好而不同，所以在加速器操作量的历史记录信息中包含有驾驶偏好信息。鉴于这点，根据上述第1技术方案，通过取得加速器操作量的历史记录作为驾驶偏好信息，即使用户不输入驾驶偏好信息，也能够取得驾驶偏好信息。

在所述车辆用控制装置中，所述取得处理也可以包括如下处理：取得所述用户的面部图像(人脸图像)的解析结果作为所述驾驶偏好信息。根据上述第1技术方案，通过取得用户的面部图像的解析结果作为驾驶偏好信息，即使用户不输入驾驶偏好信息，也能够取得驾驶偏好信息。

在所述车辆用控制装置中，所述车辆的状态也可以包括加速器操作量的变化，所述奖励计算处理也可以包括如下处理：在伴随所述加速器操作量的变化的所述车辆的前后方向的加速度满足基准的情况下，与所述加速度不满足所述基准的情况相比，给予较大的奖励。

根据加速器操作量的变化所产生的车辆的前后方向的加速度的大小与车辆的行驶性能在很大程度上相关，所以，如上述第1技术方案那样，通过给予与加速度是否满足基准相应的奖励，能够根据车辆的状态，通过强化学习来学习在使行驶性能成为所期望的性能方面适当的行动变量的值。

尤其，根据上述第1技术方案，通过根据驾驶偏好信息改变给予奖励的方式，能够通过强化学习来学习在设为对于驾驶偏好来说适当的行驶性能方面适当的行动变量的值。

所述车辆也可以具备内燃机作为该车辆的推力生成装置，所述电子设备也可以包括所述内燃机的节气门。在所述车辆用控制装置中，所述行动变量也可以包括与所述节气门的开度有关的变量。

例如在根据吸入空气量调整喷射量的内燃机等中，内燃机的转矩(torque)和/或输出根据节气门的开度而大幅变化。因此，通过使用与节气门的开度有关的变量作为相对于加速器操作量的行动变量，能够适当地调整车辆的推进力。

本公开的第2技术方案涉及的车辆用控制***包括存储装置和执行装置。所述存储装置存储有规定所述车辆的状态与行动变量的关系的关系规定数据，所述行动变量是与所述车辆内的电子设备的操作有关的变量。所述执行装置包括搭载于所述车辆的第1执行装置和有别于车载装置的第2执行装置。所述第1执行装置构成为至少执行取得处理以及操作处理，所述取得处理是取得检测所述车辆的状态的传感器的检测值、和作为与用户的驾驶偏好有关的信息的驾驶偏好信息的处理，所述操作处理是基于由所述关系规定数据和通过所述取得处理所取得的所述检测值而确定的所述行动变量的值来操作所述电子设备的处理。所述第2执行装置构成为至少执行更新处理，所述更新处理是将基于通过所述取得处理所取得的所述检测值的所述车辆的状态、所述电子设备的操作中所使用了的所述行动变量的值、和与所述操作对应的奖励作为向预先确定的更新映射的输入来更新所述关系规定数据的处理。

根据上述第2技术方案，通过由第2执行装置执行更新处理，与第1执行装置执行更新处理的情况相比，能够减轻第1执行装置的运算负荷。此外，第2执行装置是有别于车载装置的装置意味着第2执行装置不是车载装置。

在本公开的第3技术方案涉及的车辆控制方法中，所述车辆包括存储装置和执行装置，所述存储装置构成为存储关系规定数据，所述关系规定数据是规定所述车辆的状态与行动变量的关系的数据，所述行动变量是与所述车辆内的电子设备的操作有关的变量。所述车辆控制方法包括：由所述执行装置执行取得处理，该取得处理取得构成为检测所述车辆的状态的传感器的检测值、和作为与用户的驾驶偏好有关的信息的驾驶偏好信息；由所述执行装置执行操作处理，该操作处理基于由所述关系规定数据和通过所述取得处理所取得的所述检测值而确定的所述行动变量的值，操作所述电子设备；由所述执行装置执行奖励计算处理，该奖励计算处理基于通过所述取得处理所取得的所述检测值，在所述车辆的特性满足基准的情况下，与所述车辆的特性不满足所述基准的情况相比，给予较大的奖励，所述奖励计算处理是即使在所述车辆的与举动有关的特性满足同一基准的情况下而在所述驾驶偏好信息不同的情况下也给予不同的奖励的处理；由所述执行装置执行更新处理，该更新处理将基于通过所述取得处理所取得的所述检测值的所述车辆的状态、所述电子设备的操作中所使用了的所述行动变量的值、和与该操作对应的所述奖励作为向预先确定的更新映射的输入，更新所述关系规定数据；以及由所述执行装置基于所述更新映射，输出以使按照所述关系规定数据来操作所述电子设备的情况下的关于所述奖励的期待收益增加的方式进行了更新的所述关系规定数据。

附图说明

以下，参照附图对本发明的示例性实施方式的特征、优点以及技术和产业意义进行说明，在附图中相同的附图标记表示相同的要素，并且其中：

图1是表示第1实施方式涉及的控制装置以及驱动***的图。

图2是表示所述实施方式涉及的控制装置执行的处理的步骤的流程图。

图3是表示所述实施方式涉及的控制装置执行的处理的一部分的详细步骤的流程图。

图4是表示所述实施方式涉及的控制装置执行的处理的步骤的流程图。

图5是表示第2实施方式涉及的控制装置执行的处理的步骤的流程图。

图6是表示第3实施方式涉及的控制***的构成的图。

图7是表示控制***执行的处理的步骤的流程图。

具体实施方式

第1实施方式

以下，参照附图，对车辆用控制装置的第1实施方式进行说明。图1表示本实施方式涉及的车辆VC1的驱动***以及控制装置的构成。

如图1所示，在内燃机10的进气通路12，从上游侧起依次设置有节气门14和燃料喷射阀16，被吸入到进气通路12的空气和从燃料喷射阀16喷射出的燃料随着进气门18的开阀而向由汽缸20和活塞22划分的燃烧室24流入。在燃烧室24内，燃料与空气的混合气伴随着点火装置26的火花放电而用于燃烧，通过燃烧产生的能量经由活塞22被转换为曲轴28的旋转能。用于了燃烧的混合气随着排气门30的开阀而作为排气(废气)向排气通路32排出。在排气通路32设置有作为净化排气的后处理装置的催化剂34。

变速装置50的输入轴52能够经由具备锁止离合器42的变矩器40以机械方式连结于曲轴28。变速装置50是使作为输入轴52的转速与输出轴54的转速之比的变速比(传动比、齿轮速比)可变的装置。在输出轴54上以机械方式连结有驱动轮60。

控制装置70将内燃机10作为控制对象，为了控制作为其控制量的转矩和/或排气成分比率等而操作节气门14、燃料喷射阀16以及点火装置26等内燃机10的操作部。另外，控制装置70将变矩器40作为控制对象，为了控制锁止离合器42的接合状态而操作锁止离合器42。另外，控制装置70将变速装置50作为控制对象，为了控制作为其控制量的变速比而操作变速装置50。此外，在图1中记载了节气门14、燃料喷射阀16、点火装置26、锁止离合器42以及变速装置50各自的操作信号MS1～MS5。

控制装置70为了进行控制量的控制，参照由空气流量计80检测的吸入空气量Ga和/或由节气门传感器82检测的节气门14的开度(节气门开度TA)、曲轴角传感器84的输出信号Scr。另外，控制装置70参照由加速器传感器88检测的加速踏板86的踏入量(加速器操作量PA)和/或由加速度传感器90检测的车辆VC1的前后方向的加速度Gx、由摄像头(camera)92拍摄的用户的面部图像、通过评价开关(switch)94的操作所确定的评价变量VV的值。在此，评价开关94是用于供车辆VC1的用户选择与车辆VC1的行驶性能有关的三个选项中的一个的人机接口(界面)。在此，三个选项为关于响应性“过高”、“恰好”、“过低”的三项。

控制装置70具备CPU72、ROM74、可电改写的非易失性存储器(存储装置76)以及***电路78，它们能够经由局域网79进行通信。在此，***电路78包括生成规定内部动作的时钟信号的电路、电源电路、复位(reset)电路等。

在ROM74中存储有控制程序74a以及学习程序74b。另一方面，在存储装置76中存储有关系规定数据DR，关系规定数据DR是规定加速器操作量PA与节气门开度TA的指令值(节气门开度指令值TA*)以及点火装置26的延迟量aop的关系的数据。在此，延迟量aop是相对于预先确定的基准点火正时的延迟量，基准点火正时是MBT点火正时和爆震临界点中的延迟侧的正时。MBT点火正时是获得最大转矩的点火正时(最大转矩点火正时)。另外，爆震临界点是在使用爆震临界高的高辛烷值燃料时能够在设想的最佳的条件下将爆震控制在能容许的等级以内的点火正时的提前界限值。另外，在存储装置76中存储有转矩输出映射数据DT。由转矩输出映射数据DT规定的转矩输出映射是以曲轴28的转速NE、填充(充气)效率η以及点火正时aig为输入并以转矩Trq为输出的映射。

图2表示本实施方式涉及的控制装置70执行的处理的步骤。图2所示的处理通过由CPU72例如按预定周期反复执行存储于ROM74的控制程序74a以及学习程序74b来实现。此外，以下利用开头附加有“S”的数字来表示各处理的步骤编号。

在图2所示的一系列处理中，首先，CPU72取得包括加速器操作量PA的6个采样值“PA(1)、PA(2)、……PA(6)”的时间序列数据作为状态s(S10)。在此，构成时间序列数据的各采样值是在互不相同的定时(timing)采样得到的值。在本实施方式中，由按一定的采样周期采样的情况下的彼此在时间序列上相邻的6个采样值构成时间序列数据。

接着，CPU72按照关系规定数据DR确定的策略π，设定与通过S10的处理取得的状态s相应的包括节气门开度指令值TA*及延迟量aop的行动a(S12)。

在本实施方式中，关系规定数据DR是确定行动价值函数Q及策略π的数据。在本实施方式中，行动价值函数Q是表示与状态s及行动a的8维自变量相应的期待收益的值的表(table)形式的函数。另外，策略π确定以下规则：在被给出了状态s时，优先选择自变量成为被给出的状态s的行动价值函数Q中的期待收益的值成为最大的行动a(贪婪行动(greedyaction))，并且也以预定的概率选择除此以外的行动a。

详细而言，本实施方式涉及的行动价值函数Q的自变量可取的值的数量是根据人的见解等而削减了状态s及行动a的可取的值的全部组合中的一部分后的数量。即，例如像加速器操作量PA的时间序列数据中的相邻的两个采样值中的一个成为加速器操作量PA的最小值、且另一个成为最大值这样的情况，不会是由人对加速踏板86的操作产生的，从而没有定义行动价值函数Q。在本实施方式中，通过基于人的见解等的降维，将定义行动价值函数Q的状态s的可取的值限制在小于等于10的4次方个，更优选为限制在小于等于10的3次方个。

接着，CPU72基于所设定的节气门开度指令值TA*以及延迟量aop，向节气门14输出操作信号MS1来操作节气门开度TA，并且向点火装置26输出操作信号MS3来操作点火正时(S14)。在此，在本实施方式中，例示将节气门开度TA反馈控制为节气门开度指令值TA*的情况，所以，即使节气门开度指令值TA*为同一值，操作信号MS1也可能成为互不相同的信号。另外，例如在被进行周知的爆震控制(KCS)等的情况下，点火正时被设为使基准点火正时延迟了延迟量aop后的值通过KCS而被反馈校正得到的值。在此，基准点火正时由CPU72根据曲轴28的转速NE以及填充效率η可变地设定。此外，转速NE由CPU72基于曲轴角传感器84的输出信号Scr算出。另外，填充效率η由CPU72基于转速NE以及吸入空气量Ga算出。

接着，CPU72取得内燃机10的转矩Trq、对于内燃机10的转矩指令值Trq*、以及加速度Gx(S16)。在此，CPU72通过将转速NE、填充效率η以及点火正时输入到转矩输出映射，计算转矩Trq。另外，CPU72根据加速器操作量PA设定转矩指令值Trq*。

接着，CPU72判定过渡标志F是否为“1”(S18)。过渡标志F在为“1”的情况下表示处于过渡运行时，在为“0”的情况下表示不处于过渡运行时。CPU72在判定为过渡标志F是“0”的情况下(S18：否)，判定加速器操作量PA的每单位时间的变化量ΔPA的绝对值是否在预定量ΔPAth以上(S20)。在此，变化量ΔPA例如作为在S20的处理的执行定时的最新的加速器操作量PA与相对于该定时的单位时间前的加速器操作量PA之差即可。

CPU72在判定为变化量ΔPA的绝对值在预定量ΔPAth以上的情况下(S20：是)，对过渡标志F代入“1”(S22)。相对于此，CPU72在判定为过渡标志F是“1”的情况下(S18：是)，判定从执行S22的处理起是否经过了预定期间(S24)。在此，预定期间作为到加速器操作量PA的每单位时间的变化量ΔPA的绝对值变为比预定量ΔPAth小的规定量以下的状态持续预定时间为止的期间。CPU72在判定为经过了预定期间的情况下(S24：是)，对过渡标志F代入“0”(S26)。

CPU72在S22、S26的处理完成的情况下，作为一个情节(episode)结束，通过强化学习来更新行动价值函数Q(S28)。图3表示S28的处理的详情。

在图3所示的一系列处理中，CPU72取得包括最近刚结束的情节中的转矩指令值Trq*、转矩Trq以及加速度Gx的3个采样值的组的时间序列数据、和状态s及行动a的时间序列数据(S30)。在此，关于最近的情节，在继S22的处理之后进行S30的处理的情况下，是过渡标志F持续成为“0”的期间，在继S26的处理之后进行S30的处理的情况下，是过渡标志F持续成为“1”的期间。

在图3中，括号中的数字不同的变量表示是在不同的采样定时的变量的值。例如，转矩指令值Trq*(1)和转矩指令值Trq*(2)是采样定时互不相同的值。另外，将属于最近的情节的行动a的时间序列数据定义为行动集合Aj，将属于该情节的状态s的时间序列数据定义为状态集合Sj。

接着，CPU72判定属于最近的情节的任意转矩Trq与转矩指令值Trq*之差的绝对值在规定量ΔTrq以下这一意思的条件(i)、和加速度Gx在下限值GxL以上且在上限值GxH以下这一意思的条件(ii)的逻辑与(AND)是否为真(S32)。

在此，CPU72根据情节开始时的加速器操作量PA的每单位时间的变化量ΔPA，可变地设定规定量ΔTrq。即，CPU72在基于情节开始时的加速器操作量PA的每单位时间的变化量ΔPA判定为是关于过渡时的情节的情况下，与稳态(定常)时的情况相比，将规定量ΔTrq设定为较大的值。

另外，CPU72根据情节开始时的加速器操作量PA的每单位时间的变化量ΔPA，可变地设定下限值GxL。即，CPU72在是关于过渡时的情节且变化量ΔPA为正的情况下，与关于稳态时的情节的情况相比，将下限值GxL设定为较大的值。另外，CPU72在是关于过渡时的情节且变化量ΔPA为负的情况下，与关于稳态时的情节的情况相比，将下限值GxL设定为较小的值。

另外，CPU72根据情节开始时的加速器操作量PA的每单位时间的变化量ΔPA，可变地设定上限值GxH。即，CPU72在是关于过渡时的情节且变化量ΔPA为正的情况下，与关于稳态时的情节的情况相比，将上限值GxH设定为较大的值。另外，CPU72在是关于过渡时的情节且变化量ΔPA为负的情况下，与关于稳态时的情节的情况相比，将上限值GxH设定为较小的值。

CPU72在判定为逻辑与是真的情况下(S32：是)，对奖励r代入“10”(S34)，另一方面，在判定为逻辑与是假的情况下(S32：否)，对奖励r代入“-10”(S36)。CPU72在S34、S36的处理完成的情况下，将图1所示的存储于存储装置76的关系规定数据DR更新。在本实施方式中，使用ε软同策略型蒙特卡洛方法(ε-soft on-policy type Monte Carlo method)。

即，CPU72对由通过上述S30的处理读取到的各状态和对应的行动的组所确定的收益R(Sj，Aj)分别加上奖励r(S38)。在此，“R(Sj，Aj)”是对将状态集合Sj的元素之一作为状态、将行动集合Aj的元素之一作为行动的收益R进行了总括的记载。接着，将由通过上述S30的处理读取到的各状态和对应的行动的组所确定的收益R(Sj，Aj)的每一个进行平均化并代入到对应的行动价值函数Q(Sj，Aj)(S40)。在此，将平均化设为如下处理即可：将通过S38的处理计算出的收益R除以对进行了S38的处理的次数加上预定数得到的值。此外，收益R的初始值设为对应的行动价值函数Q的初始值即可。

接着，CPU72对于通过上述S30的处理读取到的状态，分别将对应的行动价值函数Q(Sj，A)中的、期待收益成为最大值时的作为节气门开度指令值TA*以及延迟量aop的组的行动代入到行动Aj*(S42)。在此，“A”表示可取的任意的行动。此外，行动Aj*是根据通过上述S30的处理读取到的状态的种类而成为不同的值的行动，但在此对记载进行简化，用同一标号进行记载。

此外，CPU72在S44的处理完成的情况下，暂时结束图3所示的一系列处理。回到图2，CPU72在S28的处理完成的情况下或在S20、S24的处理中作出否定判定的情况下，暂时结束图2所示的一系列处理。此外，S10～S26的处理通过CPU72执行控制程序74a来实现，S28的处理通过CPU72执行学习程序74b来实现。另外，在车辆VC1出厂时的关系规定数据DR成为通过一边在测试台(test bench)上对车辆的行驶进行模拟等一边执行与图2所示的处理同样的处理从而预先学习过的数据。

图4表示变更S32的处理中的基准的处理的步骤。图4所示的处理通过由CPU72例如按预定周期反复执行存储于ROM74的学习程序74b来实现。

在图4所示的一系列处理中，首先，CPU72判定是否有通过对评价开关94的操作所进行的评价输入(S50)。而且，CPU72在判定为有评价输入的情况下(S50：是)，判定评价输入是否为“响应性过低”这一意思的输入(S52)。而且，CPU72在判定为评价输入是“响应性过低”这一意思的输入的情况下(S52：是)，将过渡时的规定量ΔTrq缩小，并使变化量ΔPA为正时的上限值GxH和下限值GxL上升(增大)，使变化量ΔPA为负时的上限值GxH和下限值GxL下降(减小)(S54)。

相对于此，CPU72在S52的处理中作出否定判定的情况下，判定评价输入是否为“响应性过高”这一意思的输入(S56)。而且，CPU72在判定为评价输入是“响应性过高”这一意思的输入的情况下(S56：是)，将过渡时的规定量ΔTrq扩大，并使变化量ΔPA为正时的上限值GxH和下限值GxL下降，使变化量ΔPA为负时的上限值GxH和下限值GxL上升(S58)。

此外，CPU72在S54、S58的处理完成的情况下或在S50、S56的处理中作出否定判定的情况下，暂时结束图4所示的一系列处理。在此，对本实施方式的作用以及效果进行说明。

CPU72随着由用户对加速踏板86的操作，取得加速器操作量PA的时间序列数据，并按照策略π，设定包括节气门开度指令值TA*以及延迟量aop的行动a。在此，CPU72基本上基于在关系规定数据DR中所规定的行动价值函数Q，选择使期待收益成为最大的行动a。但是，CPU72通过以预定的比例ε选择使期待收益最大化的行动a以外的行动，进行使期待收益最大化的行动a的搜索。由此，能够随着由用户对车辆VC1的驾驶，通过强化学习来更新关系规定数据DR。因此，无需使熟练者花费的工时过大就能够将与加速器操作量PA相应的节气门开度指令值TA*以及延迟量aop设定为在车辆VC1的行驶中适当的值。

尤其，在本实施方式中，用户能够通过操作评价开关94而对车辆的行驶性能进行评价。而且，根据由用户进行的评价结果，变更在给予奖励r的方面的、和转矩Trq与转矩指令值Trq*之差的绝对值有关的基准和/或与加速度Gx有关的基准。由此，能够将对于转矩Trq与转矩指令值Trq*之差的绝对值的基准和/或与加速度Gx有关的基准设为对于用户的驾驶偏好来说适当的基准。因此，随着强化学习伴随着用户的驾驶而推进，能够将关系规定数据DR更新为对于用户的驾驶偏好来说适当的数据。

根据以上说明的本实施方式，还能获得以下所述的作用效果。

(1)使行动价值函数Q的自变量包含了加速器操作量PA的时间序列数据。由此，与关于加速器操作量PA仅将单一的采样值作为自变量的情况相比，能够针对加速器操作量PA的各种变化细致地调整行动a的值。

(2)使行动价值函数Q的自变量包含了节气门开度指令值TA*本身。由此，例如与将对节气门开度指令值TA*的行为进行建模得到的模型式的参数等作为与节气门开度有关的自变量的情况相比，容易提高基于强化学习的搜索的自由度。

第2实施方式

以下，参照附图，以与第1实施方式的不同之处为中心，对第2实施方式进行说明。

图5表示本实施方式涉及的变更S32的处理中的基准的处理的步骤。图5所示的处理通过由CPU72例如按预定周期反复执行存储于ROM74的学习程序74b来实现。此外，在图5中，为方便起见，对与图4所示的处理对应的处理附加同一步骤编号。

在图5所示的一系列处理中，首先，CPU72取得加速器操作量PA以及加速度Gx(S60)。接着，CPU72判定在加速器操作量PA的每单位时间的变化量ΔPA变为预定量ΔPAth以上后是否经过了预定期间(S62)。在此，预定期间作为到加速器操作量PA的每单位时间的变化量ΔPA变小后经过预定时间为止的期间。

CPU72在判定为经过了预定期间的情况下(S62：是)，取得面部图像数据(S64)。然后，CPU72通过解析面部图像数据，判定用户是否对运行性能表现出不愉快的感觉，并将其结果存储于存储装置76(S66)。CPU72在S66的处理完成的情况下或在S62的处理中作出否定判定的情况下，判定是否为行程(trip)的结束时(S68)。在此，行程指的是车辆的行驶许可信号为激活(ON)状态的一次期间。在本实施方式中，行驶许可信号相当于点火信号。

CPU72在判定为是行程的结束时的情况下(S68：是)，读取该行程中的通过S60的处理所取得的加速器操作量PA以及加速度Gx的时间序列数据(S70)。然后，CPU72判定以下的条件(iii)～条件(v)的逻辑与是否为真(S72)。

条件(iii)：加速器操作量PA的最大值在规定值PAH以上这一意思的条件。在此，规定值PAH被设定为比通过由普通的用户对加速踏板86的操作所产生的加速器操作量PA的设想最大值大的值。

条件(iv)：车辆VC1的加速度Gx的最大值在规定值GxHH以上这一意思的条件。在此，规定值GxHH被设定为比通过由普通的用户对加速踏板86的操作所产生的加速度Gx的设想最大值大的值。

条件(v)：由S66的处理得到的面部图像数据的解析结果是表示用户对运行性能感到不愉快的结果(NG)这一意思的条件。

CPU72在判定为条件(iii)～条件(v)的逻辑与是真的情况下(S72：是)，执行S54的处理。即，在条件(iii)和条件(iv)的逻辑与为真的情况下，存在用户正在用力踩下加速踏板86而想要使车辆VC1突然加速的可能性，如果条件(v)成立，那么存在由于对车辆VC1的响应性不满意而比普通的用户更用力地踩下了加速踏板86的可能性。于是，变更给予奖励的条件，以使得能够使车辆VC1的加速性能提高。

相对于此，CPU72在判定为条件(iii)～条件(v)的逻辑与是假的情况下(S72：否)，判定下述的条件(vi)、条件(vii)和条件(v)的逻辑与是否为真(S74)。

条件(vi)：加速器操作量PA的最大值在规定值PAL以下这一意思的条件。在此，规定值PAL被设定为比通过由普通的用户对加速踏板86的操作所产生的加速器操作量PA的设想最大值小的值。

条件(vii)：车辆VC1的加速度Gx的最大值在规定值GxLL以下这一意思的条件。在此，规定值GxLL被设定为比通过由普通的用户对加速踏板86的操作所产生的加速度Gx的设想最大值小的值。

CPU72在判定为条件(vi)、条件(vii)和条件(v)的逻辑与是真的情况下(S74：是)，执行S58的处理。即，在条件(vi)和条件(vii)的逻辑与为真的情况下，与普通的用户相比车辆VC1的用户倾向于轻踩加速踏板86，如果条件(v)成立，那么存在尽管如此但是施加于车辆VC1的加速度过大而用户感觉到不愉快的可能性。于是，变更给予奖励的条件，以使得能够使在车辆VC1加速时用户身体感觉的加速度更小。

此外，CPU72在S54、S58的处理完成的情况下或在S68、S74的处理中作出否定判定的情况下，暂时结束图5所示的一系列处理。如此，在本实施方式中，无需用户进行输入对行驶性能的评价的操作，就能够根据由用户驾驶车辆VC1期间的信息取得驾驶偏好信息，并据此变更给予奖励的条件。

第3实施方式

以下，参照附图，以与第1实施方式的不同之处为中心，对第3实施方式进行说明。

在本实施方式中，在车辆VC1之外执行关系规定数据DR的更新。图6表示在本实施方式中执行强化学习的控制***的构成。此外，在图6中，为方便起见，对与图1所示的部件对应的部件标记同一标号。

图6所示的车辆VC1内的控制装置70中的ROM74虽然存储有控制程序74a，但没有存储学习程序74b。另外，控制装置70具备通信机77。通信机77是用于经由车辆VC1外部的网络100与数据解析中心110进行通信的设备。

数据解析中心110解析从多个车辆VC1、VC2、……发送的数据。数据解析中心110具备CPU112、ROM114、可电改写的非易失性存储器(存储装置116)、***电路118以及通信机117，它们能够通过局域网119进行通信。在ROM114中存储有学习程序74b，在存储装置116中存储有关系规定数据DR。

图7表示本实施方式涉及的强化学习的处理步骤。图7的左侧流程所示的处理通过图6所示的CPU72执行存储于ROM74的控制程序74a来实现。另外，图7的右侧流程所示的处理通过CPU112执行存储于ROM114的学习程序74b来实现。此外，在图7中，为方便起见，对与图3及图4所示的处理对应的处理标记同一步骤编号。以下，按照强化学习的时间序列，说明图7所示的处理。

在图7的左侧流程所示的一系列处理中，CPU72执行S10～S26的处理。而且，CPU72在S22、S26的处理完成的情况下，通过操作通信机77，发送进行学习处理所需的数据(S80)。在此，成为发送对象的数据包括在即将执行S22、S26的处理之前结束的情节中的转矩指令值Trq*、转矩Trq及加速度Gx的时间序列数据、状态集合Sj以及行动集合Aj。另外，CPU72判定是否有通过对评价开关94的操作所进行的评价输入(S82)，在判定为有输入的情况下(S82：是)，操作通信机77，发送与评价结果有关的数据(S84)。

对此，如图7的右侧流程所示的那样，CPU112接收通过S80的处理所发送的数据(S100)，并判定是否有通过S84的处理所进行的评价结果数据的发送(S102)。而且，CPU112在判定为存在评价结果数据的发送的情况下(S102：是)，接收评价结果(S104)，并执行S52～S58的处理。

CPU112在完成S54、S58的处理的情况下或在S56、S102的处理中作出否定判定的情况下，基于通过S100的处理而接收到的数据，更新关系规定数据DR(S28)。然后，CPU112判定关系规定数据DR的更新次数是否在预定次数以上(S106)，在判定为更新次数在预定次数以上的情况下(S106：是)，操作通信机117，向发送了通过S100的处理接收到的数据的车辆VC1发送关系规定数据DR(S108)。此外，CPU112在完成S108的处理的情况下或在S106的处理中作出否定判定的情况下，暂时结束图7的右侧流程所示的一系列处理。

对此，如图7的左侧流程所示的那样，CPU72判定是否有更新数据(S86)，并在判定为有更新数据的情况下(S86：是)，接收被更新了的关系规定数据DR(S88)。然后，CPU72将存储于存储装置76的关系规定数据DR改写成接收到的关系规定数据DR(S90)。此外，CPU72在完成S90的处理的情况下或在S20、S24、S86的处理中作出否定判定的情况下，暂时结束图7的左侧流程所示的一系列处理。

如此，根据本实施方式，在车辆VC1的外部进行关系规定数据DR的更新处理，所以能够减轻控制装置70的运算负荷。

此外，执行装置为CPU72以及ROM74的一例，存储装置为存储装置76的一例。取得处理为S10、S16、S50、S60、S66的处理的一例，操作处理为S14的处理的一例。奖励计算处理为S32～S36的处理的一例，更新处理为S38～S44的处理的一例。加速度的基准是由下限值GxL以及上限值GxH规定的范围的一例。与节气门的开度有关的变量是节气门开度指令值TA*的一例。第1执行装置为CPU72以及ROM74的一例，第2执行装置为CPU112以及ROM114的一例。

其他实施方式

此外，本实施方式可以如下进行变更来实施。本实施方式和以下的变更例可以在技术上不矛盾的范围内相互组合来实施。

关于驾驶偏好信息

在上述实施方式中，根据评价开关94的操作，取得了由用户对车辆的举动的评价，但不限于此。例如也可以，在车辆VC1上具备麦克风、且在加速等时用户说了“慢”的情况下，取得表示对于加速感为低评价这一意思的信息。

在图5中，作为驾驶偏好信息，使用了加速器操作量PA的最大值、加速度Gx的最大值和面部图像数据的解析结果这三个信息，但不限于此。关于它们三个信息，也可以仅使用它们中的两个或者一个。另外，也可以使用加速度Gx的最小值。由此，能够将减速时的加速度Gx的绝对值的大小设为驾驶偏好信息。

关于行动变量

在上述实施方式中，作为作为行动变量的与节气门的开度有关的变量，例示了节气门开度指令值TA*，但不限于此。例如，也可以用浪费时间(停滞时间)以及二阶滞后滤波器来表现相对于加速器操作量PA的节气门开度指令值TA*的响应性，并将浪费时间和规定二阶滞后滤波器的两个变量的共计3个变量作为与节气门的开度有关的变量。但是，在该情况下，状态变量优选设为加速器操作量PA的每单位时间的变化量以取代加速器操作量PA的时间序列数据。

在上述实施方式中，作为作为行动变量的与点火正时有关的变量，例示了延迟量aop，但不限于此。例如，也可以是被作为KCS的校正对象的点火正时本身。

在上述实施方式中，作为行动变量，例示了与节气门的开度有关的变量以及与点火正时有关的变量，但不限于此。例如，也可以除了与节气门的开度有关的变量以及与点火正时有关的变量之外还使用燃料喷射量。另外，关于上述3个变量，也可以仅采用与节气门的开度有关的变量以及燃料喷射量、或仅采用与点火正时有关的变量以及燃料喷射量作为行动变量。再者，关于上述3个变量，也可以仅采用它们中的一个作为行动变量。

另外，在如“关于内燃机”一栏中记载的那样，是压缩着火式的内燃机的情况下，使用与喷射量有关的变量代替与节气门的开度有关的变量、使用与喷射正时有关的变量代替与点火正时有关的变量即可。此外，优选除了与喷射正时有关的变量之外，还加入与1个燃烧循环(cycle)中的喷射次数有关的变量和/或与1个燃烧循环内的用于一个汽缸的在时间序列上相邻的两个燃料喷射中的一方的结束定时与另一方的开始定时之间的时间间隔有关的变量。

另外，例如在变速装置50为有级变速装置的情况下，也可以将用于通过油压对离合器的接合状态进行调整的电磁阀的电流值等作为行动变量。例如，在如下述“关于车辆”一栏中记载的那样，采用混合动力车、电动汽车、燃料电池车作为车辆的情况下，也可以将旋转电机的转矩和/或输出作为行动变量。另外，例如在具备具有利用内燃机的曲轴的旋转动力进行旋转的压缩机的车载空调装置的情况下，也可以将压缩机的负载转矩包含于行动变量。另外，在具备电动式的车载空调装置的情况下，也可以将空调装置的功耗包含于行动变量。

关于状态

在上述实施方式中，将加速器操作量PA的时间序列数据设为了包括按等间隔采样得到的6个值的数据，但不限于此。只要是包括在互不相同的采样定时的2个以上的采样值的数据即可，此时，更优选为包括3个以上的采样值的数据、采样间隔为等间隔的数据。

作为与加速器操作量有关的状态变量，不限于加速器操作量PA的时间序列数据，例如如“关于行动变量”一栏中记载的那样，也可以是加速器操作量PA的每单位时间的变化量等。

例如在如“关于行动变量”一栏中记载的那样，将电磁阀的电流值作为行动变量的情况下，在状态中包含变速装置的输入轴52的转速、输出轴54的转速、由电磁阀调整的油压即可。另外，例如在如“关于行动变量”一栏中记载的那样，将旋转电机的转矩和/或输出作为行动变量的情况下，在状态中包含电池的充电率、温度即可。另外，例如在如“关于行动变量”一栏中记载的那样，将压缩机的负载转矩、空调装置的功耗包含于行动的情况下，在状态中包含车室内的温度即可。

关于表形式的数据的降维

作为表形式的数据的降维方法，不限于在上述实施方式中例示的方法。例如因为很少有加速器操作量PA成为最大值的情况，所以也可以，对于加速器操作量PA成为规定量以上的状态，不定义行动价值函数Q，对加速器操作量PA成为规定量以上的情况下的节气门开度指令值TA*等另行进行适配。另外，例如也可以从行动的可取的值去除节气门开度指令值TA*成为规定值以上的值等来进行降维。

不过，并非必须要进行降维。例如在第3实施方式中进行基于来自多个车辆的数据的强化学习并且CPU72的运算能力和存储装置76的存储容量足够的话，那么也可以在车辆出厂前仅对降维了的一部分学习行动价值函数，但在出厂后能够通过搜索来执行全部行动。由此，鉴于在出厂后能够确保比出厂前充足的学习用的数据，故能够增加作为搜索而可取的行动的数量，能够发现更适当的行动。

关于关系规定数据

在上述实施方式中，将行动价值函数Q设为了表形式的函数，但不限于此。例如也可以使用函数逼近器。

例如，也可以取代使用行动价值函数Q，而用以状态s及行动a为自变量并以取行动a的概率为因变量的函数逼近器来表现策略π，根据奖励r，将确定函数逼近器的参数更新。

关于操作处理

例如在如“关于关系规定数据”一栏中记载的那样将行动价值函数设为函数逼近器的情况下，通过将成为上述实施方式中的表形式的函数的自变量的关于行动的离散的值的全部组与状态s一起输入到行动价值函数Q，选择使行动价值函数Q最大化的行动a即可。

另外，例如在如“关于关系规定数据”一栏中记载的那样，将策略π设为以状态s及行动a为自变量并以取行动a的概率为因变量的函数逼近器的情况下，基于由策略π表示的概率选择行动a即可。

关于更新映射

在S38～S44的处理中，例示了利用ε软同策略型蒙特卡洛方法的处理，但不限于此。例如也可以是利用异策略型(off-policy type)蒙特卡洛方法的处理。不过，也不限于蒙特卡洛方法，例如也可以使用异策略型TD(Temporal-difference，时序分差)法，另外例如也可以使用如SARSA(state-action-reward-state'-action')法的同策略型TD法，另外例如作为同策略型的学习，也可以使用资格迹方法(eligibility trace method)。

另外，例如在如“关于关系规定数据”一栏中记载的那样，使用函数逼近器表现策略π并基于奖励r直接更新策略π的情况下，使用策略梯度法等构成更新映射即可。

另外，不限于仅将行动价值函数Q和策略π中的某一方作为基于奖励r的直接的更新对象。例如，也可以如Actor Critic(演员评判家)法那样对行动价值函数Q和策略π分别进行更新。另外，在Actor Critic法中，不限于此，例如也可以代替行动价值函数Q而将价值函数V作为更新对象。

此外，关于确定策略π的“ε”，不限于固定值，也可以按照根据学习的进行程度预先确定的规则进行变更。

关于奖励计算处理

在图3的处理中，根据条件(i)和条件(ii)的逻辑与是否为真而给予了奖励，但不限于此。例如，也可以执行根据是否满足条件(i)来给予奖励的处理、和根据是否满足条件(ii)来给予奖励的处理。另外，例如关于根据是否满足条件(i)来给予奖励的处理、和根据是否满足条件(ii)来给予奖励的处理这两个处理，也可以仅执行它们中的任一个处理。

另外，例如也可以取代在满足条件(i)的情况下一律给予相同的奖励，而设为在转矩Trq与转矩指令值Trq*之差的绝对值小的情况下比该绝对值大的情况下给予较大的奖励的处理。另外，例如也可以取代在不满足条件(i)的情况下一律给予相同的奖励，而设为在转矩Trq与转矩指令值Trq*之差的绝对值大的情况下比该绝对值小的情况下给予较小的奖励的处理。

另外，例如也可以取代在满足条件(ii)的情况下一律给予相同的奖励，而设为根据加速度Gx的大小来使奖励的大小可变的处理。另外，例如也可以取代在不满足条件(ii)的情况下一律给予相同的奖励，而设为根据加速度Gx的大小来使奖励的大小可变的处理。

另外，例如在如“关于行动变量”一栏中记载的那样，将变速装置50的电磁阀的电流值作为行动变量的情况下，例如在奖励计算处理中包括以下的(a)～(c)这三个处理中的至少一个处理即可。

(a)是以下处理：在变速装置的变速比的切换所需的时间为预定时间以内的情况下比该所需的时间超过预定时间的情况下给予较大的奖励。

(b)是以下处理：在变速装置的输入轴52的转速的变化速度的绝对值为输入侧预定值以下的情况下比该绝对值超过输入侧预定值的情况下给予较大的奖励。

(c)是以下处理：在变速装置的输出轴54的转速的变化速度的绝对值为输出侧预定值以下的情况下比该绝对值超过输出侧预定值的情况下给予较大的奖励。在这样的情况下，例如在通过评价开关94的操作而被输入表示响应性过低这一意思的评价的情况下，将上述预定时间设定得更短，另一方面，对于输入侧预定值和/或输出侧预定值，设定为更大的值即可。

另外，例如在如“关于行动变量”一栏中记载的那样，将旋转电机的转矩和/或输出作为行动变量的情况下，也可以包括以下处理：在电池的充电率在预定范围内的情况下比充电率不在预定范围内的情况下给予较大的奖励的处理；在电池的温度在预定范围内的情况下比温度不在预定范围内的情况下给予较大的奖励的处理。在该情况下，根据驾驶偏好信息进行变更也可以仅限于上述条件(ii)等，但为了使得在过渡运行时容易满足条件(ii)等，也可以使预定范围根据驾驶偏好信息而可变。

另外，例如在如“关于行动变量”一栏中记载的那样，将压缩机的负载转矩和/或空调装置的功耗包含于行动变量的情况下，也可以加上在车室内的温度在预定范围内的情况下比温度不在预定范围内的情况下给予较大的奖励的处理。在该情况下，根据驾驶偏好信息进行变更也可以仅限于上述条件(ii)等，但为了使得在过渡运行时容易满足条件(ii)等，也可以使预定范围根据驾驶偏好信息而可变。

关于取得处理

在上述实施方式中，通过取得基于评价开关94的输出信号的评价变量VV，取得了由用户对行驶性能的评价结果，但不限于此。例如也可以具备感测语音指示的装置以代替评价开关94，并取得其感测结果作为评价变量VV。

关于车辆用控制***

在图7所示的例子中，在车辆侧执行了决定基于策略π的行动的处理(S12的处理)，但不限于此。例如也可以设为从车辆VC1发送通过S10的处理所取得的数据，在数据解析中心110使用发送来的数据决定行动a，并将所决定的行动发送给车辆VC1。

作为车辆用控制***，不限于由控制装置70以及数据解析中心110构成的***。例如也可以使用用户的便携终端代替数据解析中心110。另外，也可以由控制装置70以及数据解析中心110和便携终端构成车辆用控制***。这例如能够通过由便携终端执行S12的处理来实现。

关于执行装置

作为执行装置，不限于具备CPU72(112)和ROM74(114)并执行软件处理的装置。例如，也可以具备对在上述实施方式中被进行软件处理的内容的至少一部分进行硬件处理的例如ASIC等专用的硬件电路。即，执行装置是以下的(a)～(c)中的某个构成即可。

(a)具备按照程序执行上述处理的全部的处理装置、和存储程序的ROM等程序存储装置。

(b)具备按照程序执行上述处理的一部分的处理装置以及程序存储装置、和执行其余处理的专用硬件电路。

(c)具备执行上述处理的全部的专用硬件电路。在此，具备处理装置以及程序存储装置的软件执行装置、和专用硬件电路也可以为多个。

关于存储装置

在上述实施方式中，将存储关系规定数据DR的存储装置与存储学习程序74b和控制程序74a的存储装置(ROM74、114)设为有别的存储装置，但不限于此。

关于内燃机

作为内燃机，不限于具备向进气通路12喷射燃料的进气口喷射阀作为燃料喷射阀的内燃机，也可以是具备直接向燃烧室24喷射燃料的缸内喷射阀的内燃机，另外，例如也可以是具备进气口喷射阀和缸内喷射阀双方的内燃机。

作为内燃机，不限于火花点火式内燃机，例如也可以是使用轻油等作为燃料的压缩着火式内燃机等。

关于车辆

作为车辆，不限于推力生成装置仅为内燃机的车辆，例如也可以是具备内燃机和旋转电机的所谓的混合动力车辆。另外，例如也可以是不具备内燃机而具备旋转电机作为推力生成装置的所谓的电动汽车和燃料电池车。

Claims

1.一种车辆用控制装置，其特征在于，

具备存储装置和执行装置，

所述存储装置构成为存储关系规定数据，所述关系规定数据是规定所述车辆的状态与行动变量的关系的数据，所述行动变量是与所述车辆内的电子设备的操作有关的变量，

所述执行装置构成为：

执行取得处理，该取得处理取得构成为检测所述车辆的状态的传感器的检测值、和作为与用户的驾驶偏好有关的信息的驾驶偏好信息；

执行操作处理，该操作处理基于由所述关系规定数据和通过所述取得处理所取得的所述检测值而确定的所述行动变量的值，操作所述电子设备；

执行奖励计算处理，该奖励计算处理基于通过所述取得处理所取得的所述检测值，在所述车辆的与举动有关的特性满足基准的情况下，与所述车辆的与举动有关的特性不满足所述基准的情况相比，给予较大的奖励，所述奖励计算处理是即使在所述车辆的与举动有关的特性满足同一基准的情况下而在所述驾驶偏好信息不同的情况下也给予不同的奖励的处理；

执行更新处理，该更新处理将基于通过所述取得处理所取得的所述检测值的所述车辆的状态、所述电子设备的操作中所使用了的所述行动变量的值、和与该操作对应的所述奖励作为向预先确定的更新映射的输入，更新所述关系规定数据；以及

基于所述更新映射，输出以使按照所述关系规定数据来操作所述电子设备的情况下的关于所述奖励的期待收益增加的方式进行了更新的所述关系规定数据，

所述取得处理包括如下处理：取得由用户对所述车辆的举动的评价作为所述驾驶偏好信息，

所述奖励计算处理包括如下处理：在通过所述取得处理取得表示低评价的所述驾驶偏好信息的情况下，即使所述车辆的与举动有关的特性相同，也给予与取得该评价前不同的奖励。

2.根据权利要求1所述的车辆用控制装置，

所述驾驶偏好信息包含所述车辆的前后方向的加速度的历史记录信息。

3.根据权利要求1或2所述的车辆用控制装置，

所述驾驶偏好信息包含加速器操作量的历史记录信息。

4.根据权利要求1或2所述的车辆用控制装置，

所述取得处理包括如下处理：取得所述用户的面部图像的解析结果作为所述驾驶偏好信息。

5.根据权利要求1或2所述的车辆用控制装置，

所述车辆的状态包括加速器操作量的变化，

所述奖励计算处理包括如下处理：在伴随所述加速器操作量的变化的所述车辆的前后方向的加速度满足基准的情况下，与所述加速度不满足所述基准的情况相比，给予较大的奖励。

6.根据权利要求5所述的车辆用控制装置，

所述车辆具备内燃机作为所述车辆的推力生成装置，

所述电子设备包括所述内燃机的节气门，

所述行动变量包括与所述节气门的开度有关的变量。

7.一种车辆用控制***，其特征在于，

具备存储装置和执行装置，

所述存储装置存储有关系规定数据，所述关系规定数据是规定所述车辆的状态与行动变量的关系的数据，所述行动变量是与所述车辆内的电子设备的操作有关的变量，

所述执行装置包括搭载于所述车辆的第1执行装置和有别于车载装置的第2执行装置，

所述第1执行装置构成为至少执行取得处理以及操作处理，所述取得处理是取得检测所述车辆的状态的传感器的检测值、和作为与用户的驾驶偏好有关的信息的驾驶偏好信息的处理，所述操作处理是基于由所述关系规定数据和通过所述取得处理所取得的所述检测值而确定的所述行动变量的值来操作所述电子设备的处理，

所述执行装置执行奖励计算处理，该奖励计算处理基于通过所述取得处理所取得的所述检测值，在所述车辆的与举动有关的特性满足基准的情况下，与所述车辆的与举动有关的特性不满足所述基准的情况相比，给予较大的奖励，所述奖励计算处理是即使在所述车辆的与举动有关的特性满足同一基准的情况下而在所述驾驶偏好信息不同的情况下也给予不同的奖励的处理，

所述第2执行装置构成为至少执行更新处理，所述更新处理是将基于通过所述取得处理所取得的所述检测值的所述车辆的状态、所述电子设备的操作中所使用了的所述行动变量的值、和与所述操作对应的所述奖励作为向预先确定的更新映射的输入来更新所述关系规定数据的处理，

8.一种车辆控制方法，所述车辆包括存储装置和执行装置，所述存储装置构成为存储关系规定数据，所述关系规定数据是规定所述车辆的状态与行动变量的关系的数据，所述行动变量是与所述车辆内的电子设备的操作有关的变量，所述车辆控制方法的特征在于，包括：

由所述执行装置执行取得处理，该取得处理取得构成为检测所述车辆的状态的传感器的检测值、和作为与用户的驾驶偏好有关的信息的驾驶偏好信息；

由所述执行装置执行操作处理，该操作处理基于由所述关系规定数据和通过所述取得处理所取得的所述检测值而确定的所述行动变量的值，操作所述电子设备；

由所述执行装置执行奖励计算处理，该奖励计算处理基于通过所述取得处理所取得的所述检测值，在所述车辆的与举动有关的特性满足基准的情况下，与所述车辆的与举动有关的特性不满足所述基准的情况相比，给予较大的奖励，所述奖励计算处理是即使在所述车辆的与举动有关的特性满足同一基准的情况下而在所述驾驶偏好信息不同的情况下也给予不同的奖励的处理；

由所述执行装置执行更新处理，该更新处理将基于通过所述取得处理所取得的所述检测值的所述车辆的状态、所述电子设备的操作中所使用了的所述行动变量的值、和与该操作对应的所述奖励作为向预先确定的更新映射的输入，更新所述关系规定数据；以及

由所述执行装置基于所述更新映射，输出以使按照所述关系规定数据来操作所述电子设备的情况下的关于所述奖励的期待收益增加的方式进行了更新的所述关系规定数据，