CN112682200B - 车辆用控制数据的生成方法、车辆用控制装置和车辆用控制*** - Google Patents

车辆用控制数据的生成方法、车辆用控制装置和车辆用控制*** Download PDF

Info

Publication number
CN112682200B
CN112682200B CN202011107493.0A CN202011107493A CN112682200B CN 112682200 B CN112682200 B CN 112682200B CN 202011107493 A CN202011107493 A CN 202011107493A CN 112682200 B CN112682200 B CN 112682200B
Authority
CN
China
Prior art keywords
vehicle
data
state
electronic device
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011107493.0A
Other languages
English (en)
Other versions
CN112682200A (zh
Inventor
桥本洋介
片山章弘
大城裕太
杉江和纪
冈尚哉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toyota Motor Corp
Original Assignee
Toyota Motor Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toyota Motor Corp filed Critical Toyota Motor Corp
Publication of CN112682200A publication Critical patent/CN112682200A/zh
Application granted granted Critical
Publication of CN112682200B publication Critical patent/CN112682200B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F02COMBUSTION ENGINES; HOT-GAS OR COMBUSTION-PRODUCT ENGINE PLANTS
    • F02DCONTROLLING COMBUSTION ENGINES
    • F02D41/00Electrical control of supply of combustible mixture or its constituents
    • F02D41/02Circuit arrangements for generating control signals
    • F02D41/04Introducing corrections for particular operating conditions
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F02COMBUSTION ENGINES; HOT-GAS OR COMBUSTION-PRODUCT ENGINE PLANTS
    • F02DCONTROLLING COMBUSTION ENGINES
    • F02D37/00Non-electrical conjoint control of two or more functions of engines, not otherwise provided for
    • F02D37/02Non-electrical conjoint control of two or more functions of engines, not otherwise provided for one of the functions being ignition
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F01MACHINES OR ENGINES IN GENERAL; ENGINE PLANTS IN GENERAL; STEAM ENGINES
    • F01NGAS-FLOW SILENCERS OR EXHAUST APPARATUS FOR MACHINES OR ENGINES IN GENERAL; GAS-FLOW SILENCERS OR EXHAUST APPARATUS FOR INTERNAL COMBUSTION ENGINES
    • F01N3/00Exhaust or silencing apparatus having means for purifying, rendering innocuous, or otherwise treating exhaust
    • F01N3/02Exhaust or silencing apparatus having means for purifying, rendering innocuous, or otherwise treating exhaust for cooling, or for removing solid constituents of, exhaust
    • F01N3/021Exhaust or silencing apparatus having means for purifying, rendering innocuous, or otherwise treating exhaust for cooling, or for removing solid constituents of, exhaust by means of filters
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F02COMBUSTION ENGINES; HOT-GAS OR COMBUSTION-PRODUCT ENGINE PLANTS
    • F02DCONTROLLING COMBUSTION ENGINES
    • F02D11/00Arrangements for, or adaptations to, non-automatic engine control initiation means, e.g. operator initiated
    • F02D11/06Arrangements for, or adaptations to, non-automatic engine control initiation means, e.g. operator initiated characterised by non-mechanical control linkages, e.g. fluid control linkages or by control linkages with power drive or assistance
    • F02D11/10Arrangements for, or adaptations to, non-automatic engine control initiation means, e.g. operator initiated characterised by non-mechanical control linkages, e.g. fluid control linkages or by control linkages with power drive or assistance of the electric type
    • F02D11/105Arrangements for, or adaptations to, non-automatic engine control initiation means, e.g. operator initiated characterised by non-mechanical control linkages, e.g. fluid control linkages or by control linkages with power drive or assistance of the electric type characterised by the function converting demand to actuation, e.g. a map indicating relations between an accelerator pedal position and throttle valve opening or target engine torque
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F02COMBUSTION ENGINES; HOT-GAS OR COMBUSTION-PRODUCT ENGINE PLANTS
    • F02DCONTROLLING COMBUSTION ENGINES
    • F02D41/00Electrical control of supply of combustible mixture or its constituents
    • F02D41/0002Controlling intake air
    • F02D41/0007Controlling intake air for control of turbo-charged or super-charged engines
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F02COMBUSTION ENGINES; HOT-GAS OR COMBUSTION-PRODUCT ENGINE PLANTS
    • F02DCONTROLLING COMBUSTION ENGINES
    • F02D41/00Electrical control of supply of combustible mixture or its constituents
    • F02D41/24Electrical control of supply of combustible mixture or its constituents characterised by the use of digital means
    • F02D41/2406Electrical control of supply of combustible mixture or its constituents characterised by the use of digital means using essentially read only memories
    • F02D41/2409Addressing techniques specially adapted therefor
    • F02D41/2422Selective use of one or more tables
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F02COMBUSTION ENGINES; HOT-GAS OR COMBUSTION-PRODUCT ENGINE PLANTS
    • F02DCONTROLLING COMBUSTION ENGINES
    • F02D41/00Electrical control of supply of combustible mixture or its constituents
    • F02D41/24Electrical control of supply of combustible mixture or its constituents characterised by the use of digital means
    • F02D41/2406Electrical control of supply of combustible mixture or its constituents characterised by the use of digital means using essentially read only memories
    • F02D41/2425Particular ways of programming the data
    • F02D41/2429Methods of calibrating or learning
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F02COMBUSTION ENGINES; HOT-GAS OR COMBUSTION-PRODUCT ENGINE PLANTS
    • F02DCONTROLLING COMBUSTION ENGINES
    • F02D41/00Electrical control of supply of combustible mixture or its constituents
    • F02D41/24Electrical control of supply of combustible mixture or its constituents characterised by the use of digital means
    • F02D41/2406Electrical control of supply of combustible mixture or its constituents characterised by the use of digital means using essentially read only memories
    • F02D41/2425Particular ways of programming the data
    • F02D41/2429Methods of calibrating or learning
    • F02D41/2477Methods of calibrating or learning characterised by the method used for learning
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F02COMBUSTION ENGINES; HOT-GAS OR COMBUSTION-PRODUCT ENGINE PLANTS
    • F02PIGNITION, OTHER THAN COMPRESSION IGNITION, FOR INTERNAL-COMBUSTION ENGINES; TESTING OF IGNITION TIMING IN COMPRESSION-IGNITION ENGINES
    • F02P5/00Advancing or retarding ignition; Control therefor
    • F02P5/04Advancing or retarding ignition; Control therefor automatically, as a function of the working conditions of the engine or vehicle or of the atmospheric conditions
    • F02P5/145Advancing or retarding ignition; Control therefor automatically, as a function of the working conditions of the engine or vehicle or of the atmospheric conditions using electrical means
    • F02P5/15Digital data processing
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01MTESTING STATIC OR DYNAMIC BALANCE OF MACHINES OR STRUCTURES; TESTING OF STRUCTURES OR APPARATUS, NOT OTHERWISE PROVIDED FOR
    • G01M15/00Testing of engines
    • G01M15/04Testing internal-combustion engines
    • G01M15/05Testing internal-combustion engines by combined monitoring of two or more different engine parameters
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01MTESTING STATIC OR DYNAMIC BALANCE OF MACHINES OR STRUCTURES; TESTING OF STRUCTURES OR APPARATUS, NOT OTHERWISE PROVIDED FOR
    • G01M15/00Testing of engines
    • G01M15/04Testing internal-combustion engines
    • G01M15/10Testing internal-combustion engines by monitoring exhaust gases or combustion flame
    • G01M15/102Testing internal-combustion engines by monitoring exhaust gases or combustion flame by monitoring exhaust gases
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F02COMBUSTION ENGINES; HOT-GAS OR COMBUSTION-PRODUCT ENGINE PLANTS
    • F02DCONTROLLING COMBUSTION ENGINES
    • F02D41/00Electrical control of supply of combustible mixture or its constituents
    • F02D41/0002Controlling intake air
    • F02D2041/002Controlling intake air by simultaneous control of throttle and variable valve actuation
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F02COMBUSTION ENGINES; HOT-GAS OR COMBUSTION-PRODUCT ENGINE PLANTS
    • F02DCONTROLLING COMBUSTION ENGINES
    • F02D2200/00Input parameters for engine control
    • F02D2200/02Input parameters for engine control the parameters being related to the engine
    • F02D2200/04Engine intake system parameters
    • F02D2200/0411Volumetric efficiency
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F02COMBUSTION ENGINES; HOT-GAS OR COMBUSTION-PRODUCT ENGINE PLANTS
    • F02DCONTROLLING COMBUSTION ENGINES
    • F02D41/00Electrical control of supply of combustible mixture or its constituents
    • F02D41/02Circuit arrangements for generating control signals
    • F02D41/04Introducing corrections for particular operating conditions
    • F02D41/045Detection of accelerating or decelerating state
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F02COMBUSTION ENGINES; HOT-GAS OR COMBUSTION-PRODUCT ENGINE PLANTS
    • F02DCONTROLLING COMBUSTION ENGINES
    • F02D41/00Electrical control of supply of combustible mixture or its constituents
    • F02D41/02Circuit arrangements for generating control signals
    • F02D41/14Introducing closed-loop corrections
    • F02D41/1401Introducing closed-loop corrections characterised by the control or regulation method
    • F02D41/1405Neural network control

Landscapes

  • Engineering & Computer Science (AREA)
  • Chemical & Material Sciences (AREA)
  • Combustion & Propulsion (AREA)
  • Mechanical Engineering (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Combined Controls Of Internal Combustion Engines (AREA)

Abstract

本发明提供一种车辆用控制数据的生成方法、车辆用控制装置和车辆用控制***。所述车辆用控制数据的生成方法采用处理器以及存储装置来执行,包括:存储对所述车辆的状态和表示与所述车辆内的电子设备的操作相关的行动的行动变量的关系进行规定的第1数据;取得检测所述车辆的状态的传感器的检测值;操作所述电子设备;基于取得的所述检测值算出报酬;在满足预定的条件的情况下,将基于取得的所述检测值的所述车辆的状态、用于所述电子设备的操作的行动变量的值、以及与所述操作对应的所述报酬作为向预先设定的更新映射的输入来更新所述第1数据;在所述车辆的状态不满足所述预定的条件的情况下,不通过所述报酬的算出以及所述第1数据的更新地将所述车辆的状态和所述行动变量的关系适当化来做成第2数据。

Description

车辆用控制数据的生成方法、车辆用控制装置和车辆用控制 ***
技术领域
本发明涉及车辆用控制数据的生成方法、车辆用控制装置和车辆用控制***。
背景技术
例如在下述日本特开2016-6327中记载了基于对加速踏板的操作量进行了滤波处理的值来操作搭载于车辆的内燃机的作为操作部的节气门的控制装置。
发明内容
上述滤波需要根据加速踏板的操作量而将搭载于车辆的内燃机的节气门的操作量设定为适当的操作量。所以,为了操作量的适当化而需要熟练者花费很多工时。这样,以往为了与车辆的状态相应的车辆内的电子设备的操作量等的适当化,熟练者花费很多工时。
以下,对本发明的各方式及其作用效果进行记载。
本发明的第1方式是车辆用控制数据的生成方法,所述车辆用控制数据的生成方法采用处理器和存储装置来执行。所述车辆用控制数据的生成方法包括:
在所述存储装置中存储第1数据,该第1数据对车辆的状态为满足预定的条件的情况下的、所述车辆的状态和表示与所述车辆内的电子设备的操作相关的行动的行动变量的关系进行规定;
由所述处理器来取得检测所述车辆的状态的传感器的检测值;
由所述处理器来操作所述电子设备;
由所述处理器,在满足所述预定的条件的情况下,基于取得的所述检测值,以在所述车辆的特性满足基准的情况下与所述车辆的特性不满足基准的情况相比给予大的报酬的方式算出所述报酬;
由所述处理器,在满足所述预定的条件的情况下,将基于取得的所述检测值的所述车辆的状态、用于所述电子设备的操作的行动变量的值、以及与所述操作相对应的所述报酬作为向预先设定的更新映射的输入来更新所述第1数据,所述更新映射输出以使关于按照所述第1数据来操作所述电子设备时的所述报酬的期待收益增加的方式被更新了的所述第1数据;
由所述处理器,在所述车辆的状态不满足预定的条件的情况下,不通过所述报酬的算出和所述第1数据的更新地将所述车辆的状态和所述行动变量的关系适当化来做成第2数据。
在上述方法中,在满足预定的条件的情况下,能够通过算出与电子设备的操作相对应的报酬来把握可由该操作获得什么样的报酬。并且,基于报酬并通过依照了强化学习的更新映射来更新第1数据,由此能够设定车辆的状态和行动变量的关系。因此,在设定车辆的状态和行动变量的关系时,能够削减对熟练者要求的工时。而且,在满足预定的条件的情况下通过强化学习来更新第1数据,在不满足预定的条件的情况下不通过强化学习地将第2数据适当化。因此,通过将熟练者的工时变大的条件作为预定的条件,能够在削减熟练者的工时的方面效果显著的条件下利用强化学习。
在上述第1方式中,所述预定的条件可以是为过渡运转时这样的条件。在过渡运转时,与稳定运转时相比较,具有在将车辆的状态和行动变量的关系适当化的方面熟练者的工时变大的倾向。因此,在上述方法中,通过将预定的条件设为过渡运转时这样的条件,而利用强化学习来自动地执行在熟练者的工时特别大的条件下的车辆的状态和行动变量的关系的适当化,由此能够有效地削减对熟练者要求的工时。
在上述第1方式中,所述车辆可以是搭载内燃机的车辆,所述电子设备可以构成为操作所述内燃机,所述第1数据可以对所述车辆的状态和作为所述行动变量的所述内燃机的操作量的关系进行规定。
内燃机一般来说具备很多电子设备,并且排气特性、燃料消耗率、驾驶性能等要求要素也多,因此具有为了车辆的状态和作为行动变量的电子设备的操作量的关系的适当化而需要很多熟练者的工时的倾向。因此,在上述方法中,通过对车辆的状态和作为行动变量的电子设备的操作量的关系的适当化使用强化学习,而能够有效地削减熟练者的工时。
在上述第1方式中,还可以包括:由所述处理器基于所述更新了的所述第1数据来生成控制用映射数据,该控制用映射数据通过将所述车辆的状态和使所述期待收益最大化的所述行动变量的值一对一地关联而将所述车辆的状态作为输入并输出使所述期待收益最大化的所述行动变量的值。
在上述方法中,基于通过强化学习而进行了学习的第1数据,来生成控制用映射数据。因此,通过将该控制用映射数据安装于控制装置中,就能够基于车辆的状态而简易地设定使期待收益最大化的行动变量的值。
在上述第1方式中,还可以包括在所述存储装置中存储所述第2数据,其中,所述操作可以包括:由所述处理器在所述预定的条件成立的情况下执行第1操作处理、以及在所述预定的条件不成立的情况下执行第2操作处理,在所述第1操作处理中,基于所述第1数据并按照与所述取得的所述车辆的状态相应的行动变量的值来操作所述电子设备,在所述第2操作中,基于所述第2数据并按照与通过所述取得处理取得的所述车辆的状态相应的行动变量的值来操作所述电子设备。
在上述方法中,在满足预定的条件的情况下,基于通过强化学习进行了学习的第1数据来设定行动变量的值,并基于此来操作电子设备,由此,能够以增大期待收益的方式来操作电子设备。而且,在满足预定的条件的情况下,通过报酬算出处理来更新关系规定数据,因此,和不进行与用户进行的车辆的驾驶场景相应的更新的情况相比较,能够增加关系规定数据的更新机会。
本发明的第2方式是一种车辆用控制装置,包括:存储装置,该存储装置构成为存储对车辆的状态和与所述车辆内的电子设备的操作相关的变量即行动变量的关系进行规定的第1数据和第2数据;以及以下那样构成的处理器,即,取得检测所述车辆的状态的传感器的检测值,操作所述电子设备,在所述车辆的状态满足预定的条件的情况下,基于所述取得的所述检测值,以在所述车辆的特性满足基准的情况下与所述车辆的特性不满足基准的情况相比给予大的报酬的方式算出报酬,并且在所述车辆的状态满足预定的条件的情况下,将基于所述取得的所述检测值的所述车辆的状态、用于所述电子设备的操作的行动变量的值、以及与所述操作相对应的所述报酬作为向预先设定的更新映射的输入来更新所述第1数据;其中,所述更新映射输出以使关于按照所述第1数据来操作所述电子设备时的所述报酬的期待收益增加的方式被更新了的所述第1数据;所述处理器构成为,在所述电子设备的操作中,在所述预定的条件成立的情况下执行第1操作处理,在所述第1操作处理中,基于所述第1数据并按照与所述取得的所述车辆的状态相应的行动变量的值来操作所述电子设备;并且,所述处理器构成为,在所述电子设备的操作中,在所述预定的条件不成立的情况下执行第2操作处理,在所述第2操作处理中,基于所述第2数据并按照与所述取得的所述车辆的状态相应的行动变量的值来操作所述电子设备。
在上述构成中,在满足预定的条件的情况下,通过算出与电子设备的操作相对应的报酬,而能够把握可由该操作获得什么样的报酬。并且,基于报酬并通过依照了强化学习的更新映射来更新第1数据,由此能够设定车辆的状态和行动变量的关系。因此,在将车辆的状态和行动变量的关系在车辆的行驶中设定为适当的关系时,能够削减对熟练者要求的工时。而且,在满足预定的条件的情况下通过强化学习来更新第1数据,因此,通过将熟练者的工时变大的条件作为预定的条件,能够在削减熟练者的工时的方面效果显著的条件下利用强化学习。
本发明的第3方式是一种车辆用控制***,包括:存储装置,该存储装置构成为存储对车辆的状态和与所述车辆内的电子设备的操作相关的变量即行动变量的关系进行规定的第1数据和第2数据;搭载于所述车辆的第1处理器;以及配置于所述车辆之外的第2处理器。
所述第1处理器可以构成为取得检测所述车辆的状态的传感器的检测值;所述第1处理器可以构成为操作所述电子设备;所述第1处理器或所述第2处理器可以构成为,在所述车辆的状态满足预定的条件的情况下,基于所述取得的所述检测值,以在所述车辆的特性满足基准的情况下与所述车辆的特性不满足基准的情况相比给予大的报酬的方式算出报酬;并且所述第2处理器可以构成为,在所述车辆的状态满足预定的条件的情况下,将基于所述取得的所述检测值的所述车辆的状态、用于了所述电子设备的操作的行动变量的值、以及与所述操作相对应的所述报酬作为向预先设定的更新映射的输入来更新所述第1数据。
所述更新映射可以输出以使关于按照所述第1数据来操作所述电子设备时的所述报酬的期待收益增加的方式被更新了的所述第1数据;所述第1处理器可以构成为在所述电子设备的操作中,在所述预定的条件成立的情况下执行第1操作处理,在所述第1操作处理中,基于所述第1数据按照与所述取得的所述车辆的状态相应的行动变量的值来操作所述电子设备;并且所述第1处理器可以构成为在所述电子设备的操作中,在所述预定的条件不成立的情况下执行第2操作处理,在所述第2操作处理中,基于所述第2数据按照与所述取得的所述车辆的状态相应的行动变量的值来操作所述电子设备。
在上述构成中,通过利用第2处理器来执行更新,与利用第1处理器来执行更新的情况相比较,能够减轻第1处理器的运算负荷。
附图说明
以下,将参照附图对本发明的示例性的实施例的特征、优点以及技术和产业的意义进行描述,其中,用相似的标号表示相似的要素。
图1是表示第1实施方式的驱动***和控制装置的构成的图。
图2是表示该实施方式的控制装置所执行的处理的顺序的流程图。
图3是表示该实施方式的生成影射数据的***的图。
图4是表示该实施方式的稳定影射数据的生成处理的顺序的流程图。
图5是表示该实施方式的学习处理的顺序的流程图。
图6是表示该实施方式的学习处理的一部分的详细内容的流程图。
图7是表示该实施方式的过渡影射数据的生成处理的顺序的流程图。
图8是表示第2实施方式的控制装置和驱动***的图。
图9是表示该实施方式的控制装置所执行的处理的顺序的流程图。
图10是表示第3实施方式的***的构成的图。
图11是表示该实施方式的控制装置所执行的处理的顺序的流程图。
图12是表示该实施方式的控制装置所执行的处理的一部分的详细顺序的流程图。
图13是表示该实施方式的***所执行的处理的顺序的流程图。
具体实施方式
以下,参照附图而对车辆用控制数据的生成方法、车辆用控制装置、以及车辆用控制***所涉及的实施方式进行说明。
第1实施方式
在图1中示出了本实施方式所涉及的车辆VC1的驱动***以及控制装置的构成。如图1所示,在内燃机10的进气通路12从上游侧依次设置有节气门14以及燃料喷射阀16,被吸入至进气通路12中的空气、从燃料喷射阀16喷射出的燃料伴随于进气门18的打开而流入至由气缸20以及活塞22区划出的燃烧室24中。在燃烧室24内,燃料和空气的混合气伴随于点火装置26的火花放电而被供于燃烧,通过燃烧产生的能量经由活塞22而被转换成曲轴28的旋转能量。被供于燃烧后的混合气伴随于排气门30的打开而作为排气向排气通路32排出。在排气通路32,设置有作为对排气进行净化的后处理装置的催化剂34。
在曲轴28,能够经由具备锁止离合器42的变矩器40而机械性地连结变速装置50的输入轴52。变速装置50为使输入轴52的旋转速度与输出轴54的旋转速度之比即变速比可变的装置。在输出轴54,机械性地连结有驱动轮60。
控制装置70以内燃机10为控制对象,为了对其控制量即转矩、排气成分比率等进行控制,而操作节气门14、燃料喷射阀16以及点火装置26等内燃机10的电子设备。另外,控制装置70以变矩器40为控制对象,为了对锁止离合器42的接合状态进行控制而操作锁止离合器42。另外,控制装置70以变速装置50为控制对象,为了对作为其控制量的变速比进行控制而操作变速装置50。另外,在图1中,记载了节气门14、燃料喷射阀16、点火装置26、锁止离合器42、以及变速装置50各自的操作信号MS1~MS5。
控制装置70为了控制量的控制,而参照由空气流量计80检测出的吸入空气量Ga、由节气门传感器82检测出的节气门14的开口度(节气门开口度TA)、曲轴角传感器84的输出信号Scr。另外,控制装置70参照被设置于催化剂34的上游侧的空燃比传感器86的检测值Afu、由加速传感器90检测出的加速踏板88的踏入量(加速操作量PA)、由加速度传感器92检测出的车辆VC1的前后方向的加速度Gx。
控制装置70具备CPU72、ROM74、能够电气地改写的非易失性存储器(存储装置76)、以及周边电路78,它们能够经由局域网79而进行通信。在此,周边电路78包括生成对内部的动作进行规定的时钟信号的电路、电源电路、复位电路等。
在ROM74中存储有控制程序74a。另一方面,在存储装置76中存储有稳定影射数据DMs和过渡影射数据DMt。稳定影射数据DMs由以加速操作量PA以及旋转速度NE为输入变量且以节气门开口度TA的指令值(节气门开口度指令值TA*)为输出变量的影射数据、和以旋转速度NE以及填充效率η为输入变量且以基准点火正时abse为输出变量的影射数据构成。过渡影射数据DMt由以加速操作量PA的时间序列数据为输入变量且以节气门开口度指令值TA*为输出变量的影射数据、和以加速操作量PA的时间序列数据为输入变量且以相对于基准点火正时abse的延迟量aop为输出变量的影射数据构成。另外,基准点火正时abse为MBT点火正时和爆燃极限点中的延迟侧的时期。MBT点火正时为获得最大转矩的点火正时(最大转矩点火正时)。此外爆燃极限点为,在使用爆燃极限高的高辛烷值燃料时,在设想的最佳条件下,能够将爆燃收束于可容许的程度以内的点火正时的提前角极限值。
另外,影射数据是指,输入变量的离散的值和与输入变量的值的各自对应的输出变量的值的组数据。在图2中示出了本实施方式所涉及的控制装置70所执行的处理的顺序。图2所示的处理通过由CPU72例如以预定周期反复执行被存储于ROM74中的控制程序74a来实现。另外,以下通过在开头标记有“S”的数字来表示各处理的步骤编号。
在图2所示的一系列的处理中,CPU72首先取得旋转速度NE以及填充效率η(S10)。在此,旋转速度NE基于输出信号Scr而由CPU72算出。另外,填充效率η基于旋转速度NE以及吸入空气量Ga而由CPU72算出。然后,CPU72使用由稳定影射数据DMs规定且以基准点火正时abse为输出变量的影射数据,以旋转速度NE以及填充效率η为输入变量而对基准点火正时abse进行影射运算(S12)。在此,影射运算例如可以设为如下处理,即,在输入变量的值与影射数据的输入变量的值的某一个相一致的情况下,将对应的影射数据的输出变量的值作为运算结果,相对于此,在不一致的情况下,将通过影射数据所包含的多个输出变量的值的插补而得到的值作为运算结果。
并且,CPU72对过渡标志F是否为“1”进行判定(S14)。在过渡标志F为“1”的情况下表示是过渡运转时,在过渡标志F为“0”的情况下表示不是过渡运转时。CPU72在判断为过渡标志F为“0”的情况下(S14:否),对加速操作量PA的每单位时间的变化量ΔPA的绝对值是否为预定量ΔPAth以上进行判定(S16)。在此,变化量ΔPA例如可以设为,S16的处理的执行时刻下的最新的加速操作量PA与该时刻的单位时间之前的加速操作量PA之差。
CPU72在判定为是预定量ΔPAth以上的情况下(S16:是),对过渡标志F代入“1”(S18)。相对于此,CPU72在判定为过渡标志F为“1”的情况下(S14:是),对是否自在S16的处理中作出肯定判定起经过了预定期间进行判定(S20)。在此,预定期间设为,至加速操作量PA的每单位时间的变化量ΔPA的绝对值成为小于预定量ΔPAth的规定量以下的状态持续预定时间为止的期间。CPU72在判定为经过了预定期间的情况下(S20:是),对过渡标志F代入“0”(S22)。
CPU72在S22的处理完成的情况下或在S16的处理中作出否定判定的情况下,取得加速操作量PA(S24)。并且,CPU72通过将由稳定影射数据DMs规定且以节气门开口度指令值TA*为输出变量的影射数据的输入变量设为加速操作量PA以及旋转速度NE,而对节气门开口度指令值TA*进行影射运算(S26)。在此,影射运算例如可以设为如下的处理,即,在输入变量的值与影射数据的输入变量的值的某一个相一致的情况下,将对应的影射数据的输出变量的值作为运算结果,相对于此,在不一致的情况下,将通过影射数据所包含的多个输出变量的值的插补而得到的值作为运算结果。
然后,CPU72为了基于节气门开口度指令值TA*对节气门14进行操作,而向节气门14输出操作信号MS1,并且,为了基于基准点火正时abse对点火装置26进行操作,而向点火装置26输出操作信号MS3(S28)。
另一方面,CPU72在S18的处理完成的情况下或在S20的处理中作出否定判定的情况下,取得由加速操作量PA的6个采样值“PA(1),PA(2),…PA(6)”构成的时间序列数据(S30)。在此,构成时间序列数据的各采样值在互不相同的时刻下被采样。在本实施方式中,通过以固定的采样周期被采样的情况下的、互相在时间序列上相邻的6个采样值来构成时间序列数据。
然后,CPU72基于过渡影射数据DMt而对节气门开口度指令值TA*以及延迟量aop进行影射运算(S32)。即,CPU72将由过渡影射数据DMt规定且以节气门开口度指令值TA*为输出变量的影射数据的输入变量设为上述时间序列数据,而对节气门开口度指令值TA*进行影射运算。另外,CPU72将由过渡影射数据DMt规定且以延迟量aop为输出变量的影射数据的输入变量设为上述时间序列数据,而对延迟量aop进行影射运算。
然后,CPU72向节气门14输出操作信号MS1而对节气门开口度TA进行操作,并且,向点火装置26输出操作信号MS3而对点火正时进行操作(S34)。在此,CPU72基于使基准点火正时abse延迟了延迟量aop的时期来设定点火正时。具体地说,CPU72在实施例如周知的爆燃控制(KCS)等的情况下,将点火正时设为对用延迟量aop校正了基准点火正时abse而得的值利用KCS进行了反馈校正而得到的值。另外,在本实施方式中,对于将节气门开口度TA向节气门开口度指令值TA*进行反馈控制的情况进行例示,因此,即使节气门开口度指令值TA*为同一值,操作信号MS1也可能成为互不相同的信号。
另外,CPU72在S28、S34的处理完成的情况下,一度结束图2所示的一系列处理。在图3中示出了生成上述稳定影射数据DMs以及过渡影射数据DMt的***。
如图3所示,在本实施方式中,在内燃机10的曲轴28经由变矩器40以及变速装置50而机械性地连结测力计(dynamometer)100。并且,利用传感器组102来对使内燃机10运转时的各种状态变量进行检测,并将检测结果向生成稳定影射数据DMs、过渡影射数据DMt的作为计算机的生成装置110输入。另外,传感器组102中包含图1所示的车辆VC1所搭载的传感器等。
生成装置110具备CPU112、ROM114、能够电气地改写的非易失性存储器(存储装置116)、以及周边电路118,且它们能够通过局域网119进行通信。在此,在存储装置116中存储有对加速操作量PA与节气门开口度指令值TA*以及延迟量aop之间的关系进行规定的数据即关系规定数据DR。另外,在ROM114中存储有通过强化学习来对关系规定数据DR进行学习的学习程序114a。
在图4中示出了稳定影射数据DMs的生成处理的顺序。图4所示的处理通过由CPU112执行被存储于ROM114中的学习程序114a来实现。
在图4所示的一系列处理中,CPU112在内燃机10稳定运转的状态下,设定一个与旋转速度NE以及填充效率η相应的基准点火正时abse,并且以使点火正时成为基准点火正时abse的方式而对点火装置26进行操作(S40)。在此,设定的值为由熟练者预先设定的多个候补之一。并且,CPU72取得内燃机10的转矩Trq和由传感器组102中包含的爆燃传感器检测出的爆燃强度(S42)。在此,转矩Trq基于测力计100所产生的负荷转矩和变速装置50的变速比而由CPU112算出。然后,CPU112基于转矩Trq以及爆燃强度,对通过S40的处理而设定的基准点火正时abse是否为最佳的时期进行判定(S44)。在此,最佳的时期是指,MBT和爆燃极限点火正时中作为延迟侧的时期而适当的时期。
CPU112在判定为并非最佳的时期的情况下(S44:否),返回到S40的处理,并将基准点火正时abse设定为其他的时期。相对于此,CPU112在判定为是最佳的时期的情况下(S44:是),将通过S40的处理而设定的点火正时确定为基准点火正时abse(S46)。并且,CPU112对于是否已针对通过旋转速度NE以及填充效率η规定且对稳定影射数据DMs进行定义的动作点的全部而完成了S46的处理进行判定(S48)。CPU112在判定为还存在没有完成S46的处理的动作点的情况下(S48:否),返回到S40的处理。
相对于此,CPU112在判定为针对全部的动作点都完成了S46的处理的情况下(S48:是),在内燃机10稳定运转的状态下对与加速操作量PA以及旋转速度NE相应的节气门开口度指令值TA*进行设定(S50)。在此设定的值设为由熟练者预先设定的多个候补之一。然后,CPU112取得转矩Trq(S52),并且基于转矩Trq而对通过S50的处理而取得的节气门开口度指令值TA*是否为最佳的开口度进行判定(S54)。在此,CPU112可以在与加速操作量PA相应的转矩指令值Trq*和转矩Trq间的偏差足够小的情况下判定为最佳的开口度。CPU112在判定为不是最佳的开口度的情况下(S54:否),返回到S50的处理,并且作为节气门开口度指令值TA*而设定其他的值。
相对于此,CPU112在判定为是最佳的开口度的情况下(S54:是),将在S50的处理中设定的节气门开口度指令值TA*确定为与此时的加速操作量PA以及旋转速度NE相应的值(S56)。并且,CPU112对于是否已针对定义稳定影射数据DMs的加速操作量PA以及旋转速度NE的全部的组而完成了S56的处理进行判定(S58)。然后,CPU112在判定为还存在没有实施S56的处理的组的情况下(S58:否),返回到S50的处理。
相对于此,CPU112在判定为针对全部的组都完成了S56的处理的情况下(S58:是),制作稳定影射数据DMs(S60)。另外,CPU112在S60的处理完成的情况下,一度结束图4的处理。
在图5中示出了用于生成过渡影射数据DMt的前处理的顺序。图5所示的处理通过由CPU112执行被存储于ROM114中的学习程序114a来实现。
在图5所示的一系列处理中,CPU112首先在使内燃机10运转的状态下,作为状态s而取得加速操作量PA的时间序列数据(S30)。此处的时间序列数据为与图2所示的S30的处理中的数据相同的数据。但是,在图3所示的***中不存在加速踏板88。因此,将加速操作量PA设为通过生成装置110对车辆VC1的状态进行模拟而模拟地生成的量,并将模拟地生成的加速操作量PA视为车辆的状态的检测值。另外,在此,CPU112通过使加速操作量PA变化而对内燃机10的过渡运转状态进行模拟。
然后,CPU112按照关系规定数据DR所设定的策略π,来设定由与通过S30的处理而取得的状态s相应的节气门开口度指令值TA*以及延迟量aop构成的行动a(S32a)。
在本实施方式中,关系规定数据DR为设定行动价值函数Q以及策略π的数据。在本实施方式中,行动价值函数Q为表示与状态s以及行动a的8维的独立变量相应的期待收益的值的表格形式的函数。另外,策略π设定如下的规则,即,在被赋予了状态s时,优先选择独立变量在成为被赋予的状态s的行动价值函数Q中最大的行动a(贪心(greedy)行动),并以预定的概率ε来选择这以外的行动a。
详细地说,本实施方式所涉及的行动价值函数Q的独立变量可能取的值的数量为,通过人的见识等而对状态s以及行动a可能取的值的全部组合的一部分削减后而得到的数量。即,例如加速操作量PA的时间序列数据中相邻的两个采样值的一个成为加速操作量PA的最小值、另一个成为最大值这样的情况是不会根据人对加速踏板88的操作而产生的,从而并未定义行动价值函数Q。在本实施方式中,通过基于人的见识等的维数削减,而将定义行动价值函数Q的状态s的可能取的值限制为10的4次幂个以下,更优选限制为10的3次幂个以下。
然后,CPU112基于设定的节气门开口度指令值TA*以及延迟量aop,输出操作信号MS1、MS3(S34)。然后,CPU112取得内燃机10的转矩Trq、针对内燃机10的转矩指令值Trq*、以及加速度Gx(S70)。在此,CPU112基于测力计100所生成的负荷转矩和变速装置50的变速比来算出转矩Trq。另外,CPU112根据加速操作量PA来设定转矩指令值Trq*。另外,CPU112基于测力计100的负荷转矩等,作为设想为在假设内燃机10等被搭载于车辆的情况下在车辆产生的值而算出加速度Gx。即,在本实施方式中,关于加速度Gx也是假设的值,但关于该加速度Gx也视为是车辆的状态的检测值。
然后,CPU112对过渡期间是否结束了进行判定(S72)。在此,CPU112在使加速操作量PA的每单位时间的变化量ΔPA的绝对值为预定量ΔPth以上之后,在该每单位时间的变化量ΔPA的绝对值成为小于预定量ΔPAth的规定量以下的状态持续预定时间的情况下,判定为过渡期间结束了。CPU72在判定为过渡期间尚未结束的情况下(S72:否),返回到S30的处理。
相对于此,CPU112在判定为过渡期间已结束的情况下(S72:是),一个事件已完成,从而通过强化学习来更新行动价值函数Q(S74)。
在图6中示出了S74的处理的详细情况。在图6所示的一系列处理中,CPU112取得由最新结束的事件中的转矩指令值Trq*、转矩Trq以及加速度Gx的三个采样值的组构成的时间序列数据、和状态s以及行动a的时间序列数据(S80)。在图6中,括号中的数字不同的参数表示是不同的采样时刻下的变量的值。例如,转矩指令值Trq*(1)和转矩指令值Trq*(2)是采样时刻互不相同的值。另外,将属于最新的事件的行动a的时间序列数据设为行动集合Aj,将属于该事件的状态s的时间序列数据定义为状态集合Sj。
然后,CPU112对于属于最新的事件的任意的转矩Trq与转矩指令值Trq*之差的绝对值在规定量ΔTrq以下这样的条件(①)、和加速度Gx为下限值GxL以上且为上限值GxH以下这样的条件(②)的逻辑乘(逻辑与)是否为真进行判定(S82)。
在此,CPU112根据事件(episode)开始时的加速操作量PA的每单位时间的变化量ΔPA而可变设定规定量ΔTrq。即,CPU112在事件开始时的加速操作量PA的变化量ΔPA的绝对值较大的情况下是与过渡时有关的事件,从而和与稳定时有关的事件相比较,将规定量ΔTrq设定为大的值。
另外,CPU112根据事件开始时的加速操作量PA的变化量ΔPA而可变设定下限值GxL。即,CPU112在是与过渡时有关的事件且变化量ΔPA为正的情况下,和与稳定时有关的事件的情况相比较,将下限值GxL设定为大的值。另外,CPU112在是与过渡时有关的事件且变化量ΔPA为负的情况下,和与稳定时有关的事件的情况相比较,将下限值GxL设定为小的值。
另外,CPU112根据事件开始时的加速操作量PA的每单位时间的变化量ΔPA而可变设定上限值GxH。即,CPU112在是与过渡时有关的事件且变化量ΔPA为正的情况下,和与稳定时有关的事件的情况相比较,将上限值GxH设定为大的值。另外,CPU112在是与过渡时有关的事件且变化量ΔPA为负的情况下,和与稳定时有关的事件的情况相比较,将上限值GxH设定为小的值。
CPU112在判定为逻辑乘为真的情况下(S82:是),对报酬r代入“10”(S84),另一方面,在判定为假的情况下(S82:否),对报酬r代入“-10”(S86)。CPU112在S84、S86的处理完成的情况下,对被存储于图3所示的存储装置116中的关系规定数据DR进行更新。在本实施方式中,使用ε软策略在线型蒙特卡罗法(ε-soft on-policy Monte Carlo method)。
即,CPU112在由通过上述S80的处理而读出的各状态与对应的行动的组所确定的收益R(Sj,Aj)上分别加上报酬r(S88)。在此,“R(Sj,Aj)”是对将状态集合Sj的要素之一作为状态并将行动集合Aj的要素之一作为行动的收益R进行总括的记载。然后,对于通过上述S80的处理而读出的各状态和对应的行动的组所确定的收益R(Sj,Aj),分别平均化并代入到对应的行动价值函数Q(Sj,Aj)中(S90)。在此,平均化可以设为如下的处理,即,用S88的处理被实施的次数来除通过S88的处理算出的收益R。另外,收益R的初始值可以设为零。
然后,CPU112针对通过上述S80的处理而读出的状态的各自,将作为对应的行动价值函数Q(Sj,A)中成为最大值时的节气门开口度指令值TA*以及延迟量aop的组的行动代入到行动Aj(S92)。在此,“A”表示可取的任意的行动。另外,行动Aj*根据通过上述S80的处理读出的状态的种类而成为各自不同的值,但在此为了简化表述而用相同的记号来记载。
然后,CPU72针对通过上述S80的处理而读出的状态的各自,更新对应的策略π(Aj|Sj)(S94)。即,在将行动的总数设为“|A|”时,将通过S92而选择出的行动Aj*的选择概率设为“1-ε+ε/|A|”。另外,将行动Aj*以外的“|A|-1”个行动的选择概率分别设为“ε/|A|”。S94的处理为基于通过S90的处理进行了更新的行动价值函数Q的处理,由此,对状态s和行动a的关系进行规定的关系规定数据DR以使收益R增加的方式而被更新。
另外,CPU112在S94的处理完成的情况下,一度结束图6所示的一系列处理。返回到图5,CPU112在S74的处理完成时,对行动价值函数Q是否已收敛进行判定(S76)。在此,在对于独立变量各自的值而行动价值函数Q的更新量成为预定值以下的连续次数达到预定次数的情况下可以判定为已收敛。CPU112在判定为未收敛的情况下(S76:否),返回到S30的处理。相对于此,CPU112在判定为已收敛的情况下(S76:是),结束图5所示的一系列处理。
在图7中示出了生成装置110所执行的处理中的、尤其是基于通过图5的处理进行了学习的行动价值函数Q而生成过渡影射数据DMt的处理的顺序。图7所示的处理通过由CPU112执行被存储于ROM114中的学习程序114a来实现。
在图7所示的一系列处理中,CPU112首先选择一个状态s(S100)。然后,CPU112选择与状态s相对应的行动价值函数Q(s,A)中使行动价值函数Q的值最大的行动a(S102)。即,在此,通过贪心策略来选择行动a。然后,CPU112使状态s和行动a的组存储于存储装置116中(S104)。
然后,CPU112对是否设为过渡影射数据DMt的输入变量的值的全部情形都通过S100的处理而被选择了进行判定(S106)。并且,CPU112在判定为存在未被选择的情形的情况下(S106:否),返回到S100的处理。相对于此,CPU112在判定为全部被选择了的情况下(S106:是),基于通过S104的处理而存储的数据,来生成过渡影射数据DMt(S108)。在此,将与过渡影射数据DMt的输入变量的值为状态s的情形相对应的输出变量的值设为对应的行动a。
另外,CPU112在S108的处理完成的情况下,一度结束图7所示的一系列的处理。在此,对本实施方式的作用以及效果进行说明。
在图3所示的***中,CPU112针对稳定影射数据DMs,不通过强化学习地进行适当化。相对于此,CPU112针对过渡影射数据DMt,通过强化学习而对行动价值函数Q进行学习,从而进行生成。即,CPU112取得加速操作量PA的时间序列数据,按照策略π来设定由节气门开口度指令值TA*以及延迟量aop构成的行动a。在此,CPU72以预定的概率ε来选择使期待收益最大化的行动a以外的行动,由此实施使期待收益最大化的行动a的探索。并且,CPU112在行动价值函数Q的值收敛的情况下,针对成为过渡影射数据DMt的输入变量的状态的各自,选择使行动价值函数Q最大化的行动,并将状态和行动的组存储于存储装置116。然后,CPU112基于被存储于存储装置116中的状态和行动的组,而生成过渡影射数据DMt。
在此,在由熟练者将过渡影射数据DMt适当化的情况下,要反复进行针对输出变量的值通过手动探索而设定候补并进行评价的作业,与稳定状态相比工时增多。相对于此,在本实施方式中,通过利用强化学习,能够削减熟练者的工时。
根据以上说明的本实施方式,能够进一步获得以下记载的效果。
(1)在控制装置70所具备的存储装置76中,并不是存储行动价值函数Q等,而是存储有过渡影射数据DMt。由此,CPU72基于使用了过渡影射数据DMt的影射运算来设定节气门开口度指令值TA*、延迟量aop,因此,与执行选择行动价值函数Q中成为最大值的函数的处理的情况相比较,能够减轻运算负荷。
(2)在行动价值函数Q的独立变量中包含有加速操作量PA的时间序列数据。由此,与关于加速操作量PA而仅将单一的采样值设为独立变量的情况相比较,能够针对加速操作量PA的各种变化而极为细致地调整行动a的值。
(3)在行动价值函数Q的独立变量中包含有节气门开口度指令值TA*自身。由此,与例如将对节气门开口度指令值TA*的举动进行了模型化的模型式的参数等设为与节气门开口度有关的独立变量的情况相比较,容易提高强化学习下的探索的自由度。
第2实施方式
以下,针对第2实施方式,以与第1实施方式的不同点为中心参照附图进行说明。
在图8中示出了本实施方式所涉及的车辆VC1的驱动***以及控制装置。另外,在图8中,对于与图1所示的部件相对应的部件,为了方便而标注相同的标号。
如图8所示,在本实施方式中,在ROM74中除了控制程序74a之外还存储有学习程序74b。另外,在存储装置76中,虽然对于稳定影射数据DMs进行了存储,但是对于过渡影射数据DMt并未进行存储,而是取代之存储有关系规定数据DR,另外,存储有转矩输出映射数据DT。在此,关系规定数据DR为通过图5的处理进行了学习的学习完毕的数据。另外,由转矩输出映射数据DT规定的转矩输出映射为以旋转速度NE、填充效率η、以及点火正时为输入并且以转矩Trq为输出的神经网络等与学习完毕模型相关的数据。另外,上述转矩输出映射数据DT例如可以设为,在执行图5的处理时,将通过S70的处理而取得的转矩Trq作为示教数据(教师数据)而进行了学习的数据。
在图9中示出了本实施方式所涉及的控制装置70所执行的处理的顺序。图9所示的处理通过由CPU72例如以预定周期反复执行被存储于ROM74中的控制程序74a以及学习程序74b来实现。另外,在图9中,对于与图2以及图5所示的处理相对应的处理,为了方便而标注相同的步骤编号。
在图9所示的一系列的处理中,CPU72在完成了S30的处理的情况下,依次执行S32a、S34、S70的处理,并一度结束图9所示的一系列的处理。另外,CPU72在完成了S22的处理的情况下,执行S74的处理。并且,CPU72在完成了S74的处理的情况下或在S16的处理中作出否定判定的情况下,执行S24~S28的处理,并一度结束图9所示的一系列的处理。图9的处理中的S74的处理以外的处理通过由CPU72执行控制程序74a来实现,S74的处理通过由CPU72执行学习程序74b来实现。
这样,根据本实施方式,通过在控制装置70中安装关系规定数据DR以及学习程序74b,而能够伴随于车辆VC1的实际的行驶来对关系规定数据DR进行更新,因此,与第1实施方式的情况相比较,能够提高关系规定数据DR的更新频率。
第3实施方式
以下,针对第3实施方式,以与第2实施方式的不同点为中心而参照附图进行说明。
在本实施方式中,在车辆VC1之外执行关系规定数据DR的更新。在图10中示出了在本实施方式中执行强化学习的控制***的构成。另外,在图10中,对于与图1所示的部件相对应的部件,为了方便而标注相同的标号。
图10所示的车辆VC1内的控制装置70中的ROM74虽然存储有控制程序74a,但是并未存储学习程序74b。另外,存储装置76存储有稳定影射数据DMs、关系规定数据DR、转矩输出映射数据DT。另外,本实施方式所涉及的稳定影射数据DMs除了包括上述实施方式中的以基准点火正时abse为输出变量的数据和以节气门开口度指令值TA*为输出变量的数据之外,还包括以填充效率η为输入变量且以基本喷射量Qbse为输出变量的数据。在此,在以填充效率η为输入变量且以基本喷射量Qbse为输出变量的数据中,基本喷射量Qbse被设定为使与填充效率η相对应的空气和燃料的混合气成为理论空燃比,并成为使填充效率η乘以预定的比例系数而得到的值。另外,本实施方式所涉及的关系规定数据DR将行动变量设为节气门开口度指令值TA*、延迟量aop以及基本喷射量Qbse。
另外,控制装置70具备通信机77。通信机77为用于经由车辆VC1的外部的网络120而与数据解析中心130进行通信的设备。数据解析中心130对从多个车辆VC1、VC2、…发送的数据进行解析。数据解析中心130具备CPU132、ROM134、以及可电气地改写的非易失性存储器(存储装置136)、周边电路138以及通信机137,它们能够通过局域网139而进行通信。在ROM134中存储有学习程序74b,在存储装置136中存储有关系规定数据DR。
在图11中示出了本实施方式所涉及的控制装置70所执行的处理的顺序。图11所示的处理通过由CPU72例如以预定周期反复执行被存储于ROM74中的控制程序74a来实现。另外,在图11中,对于与图9所示的处理相对应的处理,为了方便而标注相同的步骤编号。
在图11所示的一系列的处理中,CPU72在完成了S22的处理的情况下或在S16的处理中作出否定判定的情况下,转移到S24的处理。并且,CPU72在完成了S24的处理的情况下,基于稳定影射数据DMs而对节气门开口度指令值TA*和基本喷射量Qbse进行影射运算(S26a)。并且,CPU72除了与S28的处理同样地输出操作信号MS1、MS3之外,还向燃料喷射阀16输出操作信号MS2以便基于基本喷射量Qbse而对燃料喷射阀16进行操作(S28a)。在此,CPU72基于通过用于将检测值Afu向目标值反馈控制的操作量而对基本喷射量Qbse进行了校正而得的值,来生成操作信号MS2。
另一方面,CPU72在完成了S18的处理的情况下,作为状态s,除了取得加速操作量PA的时间序列数据之外,还取得旋转速度NE以及填充效率η的时间序列数据(S30a)。在本实施方式中,将加速操作量PA、旋转速度NE、以及填充效率η的各时间序列数据设为等间隔地被采样的6个值。然后,CPU72基于在S30a的处理中所取得的状态s来设定行动a(S32b)。
在图12中示出了S32b的处理的详细情况。在本实施方式中,将策略π设为,对确定行动的各操作量可取的概率进行设定的多变量高斯分布。在此,多变量高斯分布的平均值μ(1)表示节气门开口度指令值TA*的平均值,平均值μ(2)表示延迟量aop的平均值,平均值μ(3)表示基本喷射量Qbse的平均值。另外,在本实施方式中,将多变量高斯分布的协方差矩阵设为对角矩阵,与各平均值μ(i)相对应的方差σ(i)可成为各自不同的值。
如图12所示,CPU72对用于设定策略π的函数逼近器的输入变量x(1)~x(18)代入通过S30a的处理而取得的状态s(S110)。详细地说,CPU72设“i=1~6”,而对输入变量x(i)代入加速操作量PA(i),对输入变量x(6+i)代入旋转速度NE(i),对输入变量x(12+i)代入填充效率η(i)。
然后,CPU72分别针对“i=1~3”来算出平均值μ(i)以及方差σ(i)(S112)。在本实施方式中,关于平均值μ(i),通过中间层的层数为“p-1”个且各中间层的激活函数h1~hp-1为双曲正切函数、输出层的激活函数hp为ReLU的神经网络来构成。在此,ReLU为将输入和“0”中的并非小的一方输出的函数。另外,在设为m=1,2,…,p-1时,第m中间层的各节点的值通过将由系数w(m)规定的线性映射的输出向激活函数hm输入而被生成。在此,n1、n2、…、np-1分别为第1、第2、…、第p-1中间层的节点数。例如,第1中间层的各节点的值通过将对由系数w(1)ji(j=0~n1,i=0~18)规定的线性映射输入了上述输入变量x(1)~x(18)时的输出向激活函数h1输入而被生成。w(1)j0等为偏置参数(bias parameter),输入变量x(0)定义为“1”。
上述神经网络将对由系数w(p)iq(i=1~3,q=0~np-1)规定的线性映射输入了激活函数hp的输出时的输出作为平均值μ(i)。
另外,在本实施方式中,将方差σ(i)设为,将通过由系数wTik(i=1~3,k=1~18)规定的线性映射而对输入变量x(1)~x(18)进行了线性变换后的值的各自输入到函数f时的函数f的值。在本实施方式中,作为函数f而例示了ReLU。
然后,CPU72基于由S112的处理算出的平均值μ(i)以及方差σ(i)所定义的策略π来决定行动a(S114)。在此,选择平均值μ(i)的概率最高,并且,在方差σ(i)小的情况下,与方差σ(i)大的情况相比,选择平均值μ(i)的概率大。
另外,CPU72在完成了S114的处理的情况下,完成图11的S32b的处理。并且,CPU72除了与S34的处理同样地输出操作信号MS1、MS3之外,还向燃料喷射阀16输出操作信号MS2,以使对通过S32b的处理而设定的基本喷射量Qbse由用于将检测值Afu向目标值反馈控制的操作量进行了校正后的值的燃料从燃料喷射阀16喷射(S34a)。
另外,CPU72在完成了S28a、34a的处理的情况下,一度结束图11所示的一系列的处理。在图13中示出了本实施方式所涉及的强化学习的处理顺序。图13左侧所示的处理通过由CPU72执行被存储于图10所示的ROM74中的控制程序74a来实现。另外,图13右侧所示的处理通过在执行S34a的处理的情况下由CPU132以S34a的处理的执行周期而反复执行被存储于ROM134中的学习程序74b来实现。以下沿着强化学习的时间序列而对图13所示的处理进行说明。
如图13左侧所示,CPU72取得转矩指令值Trq*、转矩Trq、加速度Gx、以及检测值Afu(S120)。然后,CPU72通过操作通信机77而发送通过S120的处理所取得的数据(S122)。
相对于此,如图13右侧所示,CPU132接收通过S122的处理所发送的数据(S130)。然后,CPU132对上述条件(①)、上述条件(②)、和检测值Afu为浓侧上限值AfR以上且为稀侧上限值AfL以下这样的条件(③)的逻辑乘是否为真进行判定(S132)。
然后,CPU132在判定为逻辑乘为真的情况下(S132:是),对报酬r代入“1”(S134),另一方面,在判定为逻辑乘为假的情况下(S132:否),对报酬r代入“-1”(S136)。CPU132在S134、S136的处理完成的情况下,在收益R上加上报酬r(S138)。并且,CPU132对变量t是否达到了预定时间T-1进行判定(S140)。CPU132在判定为未达到预定时间T-1的情况下(S140:否),使变量t计数增加(加一)(S142)。
相对于此,CPU132在判定为达到了预定时间T-1的情况下(S140:是),对收益Ri代入了收益R之后,将收益R初始化,进而将变量t初始化(S144)。然后,CPU132对变量i是否达到了预定值N进行判定(S146)。并且,CPU132在判定为未达到预定值N的情况下(S146:否),使变量i计数增加(S148)。
相对于此,CPU132在判定为达到了预定值N的情况下(S146:是),通过策略梯度法而对规定策略π的变量w(1)~w(p)、系数wT进行更新(S150)。在图13中,对规定策略π的变量w(1)~w(p)、系数wT进行总括而记载为参数θ。
在此,将变量t成为0~T-1为止的、状态s、行动a以及报酬r的、T个组设为轨迹(trajectory)ht,将概率pθ(ht)设为按照由参数θ规定的策略π而成为轨迹ht的概率pθ(ht)。在此,基于“pθ(ht)·Rt”的轨迹ht的积分值为收益R(ht)的期待值(期待收益J),以使其最大化的方式来对参数θ进行更新。这能够通过将参数θ的各成分的更新量设为与根据该成分对上述期待收益J进行了偏微分而得的值成正比例的量来实现。
在此,概率pθ(ht)如果使用状态s0,s1,…sT,行动a0,a1k…aT,
则成为pθ(ht)=p(s0)·p(s1|s0,a0)·π(a0|s0)·p(s2|s1,a1)·π(a1|s1)…p(sT|sT-1,aT-1)·π(aT-1|sT-1)。
其中,初始概率p(s0)是成为状态s0的概率,跃迁概率p(st+1|st,at)为在状态st、行动at时从状态st向状态st+1跃迁的概率。
因此,期待收益J的偏微分成为以下的式(c1)。
【数1】
Figure BDA0002727456570000221
在此,关于概率pθ(ht),由于无法知晓,因此将上述的式(c1)中的积分置换为多个(在此为预定值N个)轨迹ht下的平均值。
由此,期待收益J的参数θ的各成分的偏微分成为,将策略π(at|ht(i))的对数的参数θ的对应成分的偏微分系数的“t=0~T-1”的和与收益Ri之积针对预定值N个收益Ri进行相加,并除以预定值N所得的值。
将参数θ的各成分的期待收益J的偏微分系数乘以了学习率α而得的值设为参数θ中的对应成分的更新量。另外,S140~S150的处理通过执行被存储于ROM134的学习程序74b中的、以状态s0,s1,…、行动a0,a1,…以及报酬r为输入且以更新后的参数θ为输出的更新映射的执行指令来实现。
CPU132在完成了S150的处理的情况下,将变量i以及收益R1~RN初始化(S152)。然后,CPU132操作通信机137来发送更新后的参数θ(S154)。
另外,CPU132在S142、S148、S154的处理完成的情况下,一度结束图13右侧所示的一系列的处理。相对于此,如图13左侧所示,CPU72对是否存在更新数据进行判定(S124)。然后,CPU72在判定为存在更新数据的情况下(S124:是),接收更新数据(S126)。然后,CPU72将构成在S32b的处理中利用的关系规定数据DR的系数w(1)~w(p)、wT改写为通过S126的处理所接收到的数据(S128)。另外,CPU72在完成了S128的处理的情况下或在S124的处理中作出否定判定的情况下,一度结束图13左侧所示的一系列的处理。
在车辆VC1出厂时被安装于控制装置70中的关系规定数据DR为,通过在图3所示的***中执行依照图12以及图13的处理的处理而生成的学习完毕模型。
这样,根据本实施方式,通过由数据解析中心130执行关系规定数据DR的更新处理,能够减轻CPU72的运算负荷。根据以上所说明的本实施方式,能够进一步获得以下的作用效果。
(4)通过对关系规定数据DR使用函数逼近器,即使状态、行动为连续变量也能够容易地对其进行处理。(5)在行动a中包含有基本喷射量Qbse。仅仅将在过渡时作为开环操作量的基本喷射量Qbse设为与填充效率η成正比例的值,可能会导致检测值Afu从浓侧上限值AfR与稀侧上限值AfL之间偏离。并且,关于如何设定基本喷射量Qbse为佳,在通过由熟练者反复尝试来进行的情况下,对熟练者要求的工时变多。相对于此,在本实施方式中,通过强化学习而对过渡时的开环控制的喷射量即基本喷射量Qbse进行学习,从而能够有效地削减对熟练者要求的工时。
对应关系
上述实施方式中的事项与上述的“发明内容”部分所记载的事项的对应关系如下所示。
在第1方式中,处理器与CPU112以及ROM114相对应,存储装置与存储装置116相对应。取得与图4的S30、S70的处理相对应。操作与S34的处理相对应。算出报酬与S82~S86的处理相对应。更新与S88~S94的处理相对应。第1数据与关系规定数据DR相对应,第2数据与稳定影射数据DMs相对应。作为行动变量的操作量与节气门开口度指令值TA*和延迟量aop相对应。控制用映射数据与过渡影射数据DMt相对应。在第2方式中,处理器与图8的CPU72以及ROM74相对应,存储装置与图8的存储装置76相对应。第1操作处理与图9的S34的处理相对应。第2操作处理与图9的S28的处理相对应。在第3方式中,第1处理器与CPU72以及ROM74相对应,第2处理器与CPU132以及ROM134相对应。取得与S30a、S120的处理相对应,更新与S150的处理相对应。
其他实施方式
另外,本实施方式能够如下变更并实施。本实施方式以及以下的变更例在技术上不矛盾的范围内能够彼此组合并实施。
关于行动变量
在上述实施方式中,作为与作为行动变量的节气门的开口度相关的变量而例示了节气门开口度指令值TA*,但并不限于此。例如,也可以通过死区时间(dead time)以及二阶延迟滤波来表现节气门开口度指令值TA*相对于加速操作量PA的响应性,并将死区时间和规定二阶延迟滤波的两个变量、合计三个变量作为与节气门的开口度相关的变量。其中,在该情况下,状态变量优选为,代替加速操作量PA的时间序列数据,而设为加速操作量PA的每单位时间的变化量。
在上述实施方式中,作为与作为行动变量的点火正时相关的变量而例示了延迟量aop,但并不限于此。例如,也可以为被设为KCS的校正对象的点火正时本身。
在上述实施方式中,作为行动变量,例示了与节气门的开口度相关的变量以及与点火正时相关的变量的组、与节气门的开口度相关的变量、与点火正时相关的变量以及与喷射量相关的变量的组,但并不限于此。例如,关于与节气门的开口度相关的变量、与点火正时相关的变量、以及与喷射量相关的变量这三个,也可以仅采用与节气门的开口度相关的变量以及燃料喷射量,此外也可以仅采用与点火正时相关的变量以及燃料喷射量。进而,关于上述的三个变量,作为行动变量也可以仅采用它们中的一个。
另外,如“关于内燃机”部分所记载的那样,在内燃机10具备增压器和进气门的阀特性可变装置的情况下,行动变量中也可以包含进气门的阀特性。在该情况下,通过在满足上述条件(①)、条件(②)的情况下满足预定的基准从而给予报酬,从而能够通过强化学习来对提高过渡时的响应性方面的阀特性的操作进行学习。
另外,如“关于内燃机”部分所记载的那样,在压燃(压缩着火)式的内燃机的情况下,可以代替与节气门的开口度相关的变量而使用与喷射量相关的变量,并代替与点火正时相关的变量而使用与喷射正时相关的变量。另外,优选为,除了与喷射正时相关的变量之外,还加上与1个燃烧循环中的喷射次数相关的变量、与1个燃烧循环中的用于1个气缸的在时间序列上相邻的两个燃料喷射中的一方的结束时刻和另一方的开始时刻之间的时间间隔相关的变量。
另外,例如在变速装置50为有级变速装置的情况下,也可以将用于对离合器的接合状态通过液压进行调整的电磁阀的电流值等作为行动变量。另外,例如,在如下述“关于车辆”部分所记载的那样作为车辆而采用混合动力车、电动汽车、燃料电池车的情况下,也可以将旋转电机的转矩、输出作为行动变量。
关于状态
在上述实施方式中,将加速操作量PA的时间序列数据设为由等间隔地被采样的6个值构成的数据,但并不限于此。只要为由互不相同的采样时刻下的2个以上的采样值构成的数据即可,此时,更优选为由3个以上的采样值构成的数据、采样间隔为等间隔的数据。
在上述实施方式中,将旋转速度NE的时间序列数据设为由等间隔地被采样的6个值构成的数据,但并不限于此。只要为由互不相同的采样时刻下的2个以上的采样值构成的数据即可,此时,更优选为由3个以上的采样值构成的数据、采样间隔为等间隔的数据。
在上述实施方式中,将填充效率η的时间序列数据设为由等间隔地被采样的6个值构成的数据,但并不限于此。只要为互不相同的采样时刻下的2个以上的采样值构成的数据即可,此时,更优选为由3个以上的采样值构成的数据、采样间隔为等间隔的数据。
另外,如例如“关于行动变量”部分记载的那样,在将电磁阀的电流值设为行动变量的情况下,在状态中可以包含变速装置的输入轴52的旋转速度、输出轴54的旋转速度、由电磁阀调整的液压。此外如例如“关于行动变量”部分所记载的那样,在将旋转电机的转矩、输出设为行动变量的情况下,在状态中可以包含蓄电池的充电率、温度。
关于第1数据
在上述实施方式中,将行动价值函数Q设为表格形式的函数,但并不限于此。例如,也可以使用函数逼近器。
在图10所示的例子中,将在车辆VC1出厂时安装的关系规定数据DR设为通过图3所示的***进行了强化学习的数据,但并不限于此。例如,关于以包含行动价值函数Q的方式构成关系规定数据DR并且已经通过现有方法将影射数据适当化了的内燃机10,也可以通过以将与各状态相对应的行动设为贪心行动的方式根据影射数据来求出行动价值函数Q,从而生成所安装的关系规定数据DR。
关于表格形式的数据的维数削减
作为表格形式的数据的维数削减方法,并不限于在上述实施方式中所例示的方法。由于例如加速操作量PA成为最大值的情况是少见的,因此也可以设为,关于加速操作量PA成为规定量以上的状态而不定义行动价值函数Q,加速操作量PA成为规定量以上的情况下的节气门开口度指令值TA*等另行进行适当化。此外例如,也可以从行动可取的值中排除节气门开口度指令值TA*成为规定值以上的值等,而进行维数削减。
另外,例如,也可以设为,直至在图5的S76的处理中作出肯定判定为止,在S32a的处理中,将行动价值函数Q的独立变量的值限制为少数。在该情况下,在S76的处理中作出肯定判定的情况下,可以将行动价值函数Q的值变大的行动a附近的值加到行动价值函数Q的独立变量可取的值中并反复进行S30、S32a、S34、S70~S72的处理。
但是,进行维数削减并不是必须的。例如,在第3实施方式中如果进行基于多个车辆的数据的强化学习且CPU72的运算能力和存储装置76的存储容量足够,则可以在车辆出厂前仅对进行了维数削减的一部分学习行动价值函数,而在出厂后通过探索来执行全部的行动。由此,鉴于在出厂后与出厂前相比较能够确保足够的学习用的数据,而能够增加作为探索可取的行动的数量,并找到更加适当的行动。
关于预定的条件
关于作为强化学习的执行条件或者作为通过强化学习而进行了学习的控制用数据的利用条件的预定的条件,不限于加速操作量PA的变化量ΔPA的绝对值成为预定值ΔPA以上起的预定期间。例如也可以为吸入空气量Ga的每单位时间的变化量的绝对值成为预定量以上起的预定期间。
但是,作为预定的条件不限于为过渡状态这样的条件。例如,也可以将为在预定的电子零部件中产生异常的故障保护处理时、或者、并非故障保护处理时,作为预定的条件。
关于更新映射
在S88~S94的处理中,例示了基于ε软策略在线型蒙特卡罗法的处理,但并不限于此。例如,也可以为基于策略在线型蒙特卡罗法的处理。但是也不限于蒙特卡罗法,例如,也可以使用策略离线(off-policy)型TD法,另外也可以如例如SARSA法那样使用策略在线(on-policy)型TD法,此外例如,作为策略在线型的学习也可以使用资格迹(eligibilitytrace)法。
另外,如“关于第1数据”部分所记载的那样,在使用行动价值函数Q的函数逼近器的情况下,更新映射例如可以包含如下的映射而构成,即,该映射基于规定行动价值函数Q的参数下的行动价值函数Q的偏微分而输出该参数的更新量。
在S150的处理中,将收益Ri设为时间T期间的算术平均,但并不限于此。例如,也可以设为使用了通过预定的折扣率γ而对越是过去的报酬r则越大地打折了的值的和。这相当于指数移动平均处理。
在S150的处理中,也可以代替收益Ri,而设为从收益Ri减去了不依赖于参数θ的适当的基线函数而得的值。具体地说,基线函数例如优选为,使期待收益J的参数下的偏微分的方差最小化的函数。
另外,不限于仅将行动价值函数Q和策略π中的任一方设为报酬r的直接的更新对象。例如,也可以如Actor-Critic法那样分别更新行动价值函数Q以及策略π。另外,在Actor-Critic法中,不限于此,例如也可以代替行动价值函数Q而将价值函数V作为更新对象。
另外,关于确定策略π的“ε”,不限于固定值,也可以根据学习的推进程度并根据预先设定的规则来变更。另外,关于学习率α,也不限于固定值,而可以根据学习的推进程度并根据预先设定的规则来变更。
关于报酬算出处理
在图6的处理中,根据条件(①)以及条件(②)的逻辑乘是否为真来给予报酬,但并不限于此。例如,也可以执行根据是否满足条件(①)来给予报酬的处理、和根据是否满足条件(②)来给予报酬的处理。另外,例如,关于根据是否满足条件(①)来给予报酬的处理、和根据是否满足条件(②)来给予报酬的处理这两个处理,也可以仅执行它们中的任一个处理。
在图13的处理中,根据条件(①)~条件(③)的逻辑乘是否为真来给予报酬,但并不限于此。例如,也可以执行根据是否满足条件(①)来给予报酬的处理、根据是否满足条件(②)来给予报酬的处理、以及根据是否满足条件(③)来给予报酬的处理。另外,例如,关于根据是否满足条件(①)来给予报酬的处理、根据是否满足条件(②)来给予报酬的处理、以及根据是否满足条件(③)来给予报酬的处理这三个处理,也可以仅执行它们中的任一个处理。
另外,也可以设为如下的处理,即,代替在满足例如条件(①)的情况下给予一律相同的报酬,而在转矩Trq和转矩指令值Trq*之差的绝对值小的情况下与大的情况相比给予大的报酬。此外例如,也可以设为如下的处理,即,代替在不满足条件(①)的情况下给予一律相同的报酬,而在转矩Trq和转矩指令值Trq*之差的绝对值大的情况下与小的情况相比给予小的报酬。
另外,也可以设为如下的处理,即,代替在满足例如条件(②)的情况下给予一律相同的报酬,而根据加速度Gx的大小来使报酬的大小可变。此外例如,也可以设为如下的处理,即,代替在不满足条件(②)的情况下给予一律相同的报酬,而根据加速度Gx的大小来使报酬的大小可变。
另外,也可以设为如下的处理,即,代替在满足例如条件(③)的情况下给予一律相同的报酬,而根据检测值Afu的大小来使报酬的大小可变。此外例如,也可以设为如下的处理,即,代替在不满足条件(③)的情况下给予一律相同的报酬,而根据检测值Afu的大小来使报酬的大小可变。
作为与驾驶性能相关的基准,并不限于上述情况,也可以根据例如噪声、振动强度是否满足基准来进行设定。但并不限于此,例如也可以为上述加速度是否满足基准、转矩Trq的跟随性是否满足基准、噪声是否满足基准、以及振动强度是否满足基准这四个中的任意一个以上。
作为报酬算出处理,并不限于根据是否满足与驾驶性能相关的基准、排气特性是否满足基准来给予报酬r。例如,也可以为在燃料消耗率满足基准的情况下与不满足的情况相比给予大的报酬的处理。另外可以包含如下三个处理中的任意两个或三个:在满足与驾驶性能相关的基准的情况下与不满足的情况相比给予大的报酬的处理;在燃料消耗率满足基准的情况下与不满足的情况相比给予大的报酬的处理;在排气特性满足基准的情况下与不满足的情况相比给予大的报酬的处理。
另外,如例如“关于行动”部分所记载的那样,在将变速装置50的电磁阀的电流值设为行动变量的情况下,例如在报酬算出处理中可以包含以下的(a)~(c)三个处理中的至少一个处理。
(a)在变速装置的变速比的切换所需要的时间为预定时间以内的情况下与超过预定时间的情况相比给予大的报酬的处理。(b)在变速装置的输入轴52的旋转速度的变化速度的绝对值为输入侧预定值以下的情况下与超过输入侧预定值的情况相比给予大的报酬的处理。
(c)在变速装置的输出轴54的旋转速度的变化速度的绝对值为输出侧预定值以下的情况下与超过输出侧预定值的情况相比给予大的报酬的处理。另外,如例如“关于行动变量”部分所记载的那样,在将旋转电机的转矩、输出设为行动变量的情况下,可以包含在蓄电池的充电率处于预定范围内的情况下与不在预定范围内的情况相比给予大的报酬的处理、在蓄电池的温度处于预定范围内的情况下与不在预定范围内的情况相比给予大的报酬的处理。
关于车辆用控制数据的生成方法
在图5的S32a的处理中,基于行动价值函数Q而决定了行动,但并不限于此,也可以对可取的全部的行动等概率地进行选择。
关于操作处理
如例如“关于第1数据”部分所记载的那样,在将行动价值函数Q设为函数逼近器的情况下,对于上述实施方式中的关于成为表格形式的函数的独立变量的行动的离散的值的组的全部,可以通过与状态s一起输入到行动价值函数Q,而选择使行动价值函数Q最大化的行动a。
关于控制用映射数据
作为通过将车辆的状态和使期待收益最大化的行动变量的值一对一地关联对应起来而以车辆的状态为输入且输出使期待收益最大化的行动变量的值的控制用映射数据,不限于影射数据。例如,也可以为函数逼近器。这例如在使用图13所例示的策略梯度法等的情况下能够通过将学***均值μ设为控制用映射数据来实现。
关于车辆用控制***
在图11所示的例子中,在车辆侧来执行对基于策略π的行动进行决定的处理(S32b的处理),但并不限于此。例如,也可以设为,从车辆VC1发送通过S30a的处理所取得的数据,在数据解析中心130中利用发送的数据来决定行动a,并将所决定的行动发送到车辆VC1。
作为车辆用控制***,不限于通过控制装置70以及数据解析中心130来构成。例如,也可以代替数据解析中心130,而使用用户的便携终端。另外,也可以通过控制装置70以及数据解析中心130和便携终端来构成车辆用控制***。这能够通过由便携终端执行例如S32b的处理来实现。
关于处理器
作为处理器,不限于具备CPU72(112、132)和ROM74(114、134)并执行软件处理的装置。例如,也可以具备对在上述实施方式中进行软件处理的处理的至少一部分进行硬件处理的专用的硬件电路(例如ASIC等)。即,处理器只要为以下的(a)~(c)的任意一个构成即可。(a)具备对上述处理的全部按照程序来执行的处理装置、和存储程序的ROM等程序保存装置。(b)具备对上述处理的一部分按照程序来执行的处理装置以及程序保存装置、以及执行剩余的处理的专用的硬件电路。(c)具备执行全部上述处理的专用的硬件电路。在此,具备处理装置以及程序保存装置的软件处理器、专用的硬件电路可以为多个。
关于存储装置
在上述实施方式中,将存储关系规定数据DR的存储装置、和存储学习程序74b、114a、控制程序74a的存储装置(ROM74、114、134)设为不同的存储装置,但并不限于此。
关于内燃机
作为内燃机,并不限于作为燃料喷射阀而具备向进气通路12喷射燃料的进气道喷射阀的情况,也可以具备向燃烧室24直接喷射燃料的缸内喷射阀,此外例如可以具备进气道喷射阀以及缸内喷射阀这双方。
在内燃机中也可以具备进气门的阀特性可变装置、增压器。作为内燃机,不限于火花点火式内燃机,例如也可以为作为燃料而使用轻油(柴油)等的压燃式内燃机等。
关于车辆
作为车辆,不限于推力生成装置仅为内燃机的车辆,也可以为具备例如内燃机和旋转电机的所谓的混合动力车辆。此外例如,也可以为,作为推力生成装置并不具备内燃机而是具备旋转电机的所谓电动汽车、燃料电池车。

Claims (6)

1.一种车辆用控制数据的生成方法,所述车辆用控制数据的生成方法采用处理器和存储装置来执行,所述车辆用控制数据的生成方法包括:
在所述存储装置中存储第1数据,该第1数据对车辆的状态为满足预定的条件的情况下的、所述车辆的状态和表示与所述车辆内的电子设备的操作相关的行动的行动变量的关系进行规定;
由所述处理器来取得检测所述车辆的状态的传感器的检测值;
由所述处理器来操作所述电子设备;
由所述处理器,在满足所述预定的条件的情况下,基于取得的所述检测值,以在所述车辆的特性满足基准的情况下与所述车辆的特性不满足基准的情况相比给予大的报酬的方式算出所述报酬;
由所述处理器,在满足所述预定的条件的情况下,将基于取得的所述检测值的所述车辆的状态、用于所述电子设备的操作的行动变量的值、以及与所述操作相对应的所述报酬作为向预先设定的更新映射的输入来更新所述第1数据,所述更新映射输出以使关于按照所述第1数据来操作所述电子设备时的所述报酬的期待收益增加的方式被更新了的所述第1数据;
由所述处理器,在所述车辆的状态不满足所述预定的条件的情况下,不通过所述报酬的算出和所述第1数据的更新地将所述车辆的状态和所述行动变量的关系适当化来做成第2数据;
所述车辆是搭载内燃机的车辆;
所述电子设备构成为操作所述内燃机;
所述第1数据对所述车辆的状态和作为所述行动变量的所述内燃机的操作量的关系进行规定。
2.如权利要求1所述的车辆用控制数据的生成方法,
所述预定的条件是为过渡运转时这样的条件。
3.如权利要求1或2所述的车辆用控制数据的生成方法,
还包括:
由所述处理器基于所述更新了的所述第1数据来生成控制用映射数据,该控制用映射数据通过将所述车辆的状态和使所述期待收益最大化的所述行动变量的值一对一地关联而将所述车辆的状态作为输入并输出使所述期待收益最大化的所述行动变量的值。
4.如权利要求1或2所述的车辆用控制数据的生成方法,
还包括在所述存储装置中存储所述第2数据;
所述操作包括:由所述处理器在满足所述预定的条件的情况下执行第1操作处理、以及在不满足所述预定的条件的情况下执行第2操作处理,在所述第1操作处理中,基于所述第1数据按照与所述取得的所述车辆的状态相应的所述行动变量的值来操作所述电子设备,在所述第2操作处理中,基于所述第2数据按照与通过所述取得处理取得的所述车辆的状态相应的所述行动变量的值来操作所述电子设备。
5.一种车辆用控制装置,包括:
存储装置,该存储装置构成为存储对车辆的状态和与所述车辆内的电子设备的操作相关的变量即行动变量的关系进行规定的第1数据和第2数据;以及
以下那样构成的处理器,
取得检测所述车辆的状态的传感器的检测值,
操作所述电子设备,
在所述车辆的状态满足预定的条件的情况下,基于所述取得的所述检测值,以在所述车辆的特性满足基准的情况下与所述车辆的特性不满足基准的情况相比给予大的报酬的方式算出报酬,并且
在所述车辆的状态满足预定的条件的情况下,将基于所述取得的所述检测值的所述车辆的状态、用于所述电子设备的操作的行动变量的值、以及与所述操作相对应的所述报酬作为向预先设定的更新映射的输入来更新所述第1数据;
所述更新映射输出以使关于按照所述第1数据来操作所述电子设备时的所述报酬的期待收益增加的方式被更新了的所述第1数据;
所述处理器构成为在所述电子设备的操作中,在满足所述预定的条件的情况下执行第1操作处理,在所述第1操作处理中,基于所述第1数据按照与所述取得的所述车辆的状态相应的行动变量的值来操作所述电子设备;并且
所述处理器构成为在所述电子设备的操作中,在不满足所述预定的条件的情况下执行第2操作处理,在所述第2操作处理中,基于所述第2数据按照与所述取得的所述车辆的状态相应的行动变量的值来操作所述电子设备;
所述车辆是搭载内燃机的车辆;
所述电子设备构成为操作所述内燃机;
所述第1数据对所述车辆的状态和作为所述行动变量的所述内燃机的操作量的关系进行规定。
6.一种车辆用控制***,包括:
存储装置,该存储装置构成为存储对车辆的状态和与所述车辆内的电子设备的操作相关的变量即行动变量的关系进行规定的第1数据和第2数据;
搭载于所述车辆的第1处理器;以及
配置于所述车辆之外的第2处理器;
所述第1处理器构成为取得检测所述车辆的状态的传感器的检测值;
所述第1处理器构成为操作所述电子设备;
所述第1处理器或所述第2处理器构成为,在所述车辆的状态满足预定的条件的情况下,基于所述取得的所述检测值,以在所述车辆的特性满足基准的情况下与所述车辆的特性不满足基准的情况相比给予大的报酬的方式算出报酬;并且
所述第2处理器构成为,在所述车辆的状态满足预定的条件的情况下,将基于所述取得的所述检测值的所述车辆的状态、用于了所述电子设备的操作的行动变量的值、以及与所述操作相对应的所述报酬作为向预先设定的更新映射的输入来更新所述第1数据;
所述更新映射输出以使关于按照所述第1数据来操作所述电子设备时的所述报酬的期待收益增加的方式被更新了的所述第1数据;
所述第1处理器构成为在所述电子设备的操作中,在满足所述预定的条件的情况下执行第1操作处理,在所述第1操作处理中,基于所述第1数据按照与所述取得的所述车辆的状态相应的行动变量的值来操作所述电子设备;并且
所述第1处理器构成为在所述电子设备的操作中,在不满足所述预定的条件的情况下执行第2操作处理,在所述第2操作处理中,基于所述第2数据按照与所述取得的所述车辆的状态相应的行动变量的值来操作所述电子设备;
所述车辆是搭载内燃机的车辆;
所述电子设备构成为操作所述内燃机;
所述第1数据对所述车辆的状态和作为所述行动变量的所述内燃机的操作量的关系进行规定。
CN202011107493.0A 2019-10-18 2020-10-16 车辆用控制数据的生成方法、车辆用控制装置和车辆用控制*** Active CN112682200B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2019191098A JP6705545B1 (ja) 2019-10-18 2019-10-18 車両用制御データの生成方法、車両用制御装置、車両用制御システム、および車両用学習装置
JP2019-191098 2019-10-18

Publications (2)

Publication Number Publication Date
CN112682200A CN112682200A (zh) 2021-04-20
CN112682200B true CN112682200B (zh) 2022-12-16

Family

ID=70858157

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011107493.0A Active CN112682200B (zh) 2019-10-18 2020-10-16 车辆用控制数据的生成方法、车辆用控制装置和车辆用控制***

Country Status (3)

Country Link
US (1) US11530662B2 (zh)
JP (1) JP6705545B1 (zh)
CN (1) CN112682200B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11603111B2 (en) * 2019-10-18 2023-03-14 Toyota Jidosha Kabushiki Kaisha Vehicle controller, vehicle control system, and learning device for vehicle
JP6744597B1 (ja) * 2019-10-18 2020-08-19 トヨタ自動車株式会社 車両用制御データの生成方法、車両用制御装置、車両用制御システム、および車両用学習装置
JP7205503B2 (ja) 2020-01-22 2023-01-17 トヨタ自動車株式会社 内燃機関の制御装置
JP7222366B2 (ja) * 2020-01-27 2023-02-15 トヨタ自動車株式会社 内燃機関の制御装置
JP7359011B2 (ja) 2020-02-05 2023-10-11 トヨタ自動車株式会社 内燃機関の制御装置
JP7331789B2 (ja) 2020-06-25 2023-08-23 トヨタ自動車株式会社 車両用制御装置、車両用制御システム、車両用学習装置、および車両用学習方法
JP7439680B2 (ja) * 2020-07-28 2024-02-28 トヨタ自動車株式会社 変速制御データの生成方法、変速制御装置、変速制御システム、および車両用学習装置
CN112116156B (zh) * 2020-09-18 2023-02-03 中南大学 基于深度强化学习的混动列车的能量管理方法及***

Family Cites Families (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4438497A (en) * 1981-07-20 1984-03-20 Ford Motor Company Adaptive strategy to control internal combustion engine
JP3056528B2 (ja) * 1990-12-10 2000-06-26 マツダ株式会社 エンジンの空燃比制御装置
JP2974440B2 (ja) 1991-03-22 1999-11-10 株式会社日立製作所 自動車総合制御装置
JP3071333B2 (ja) 1993-02-26 2000-07-31 トヨタ自動車株式会社 車両の駆動力制御装置
US5954617A (en) 1997-01-31 1999-09-21 Cummins Engine Company, Inc. System for controlling internal combustion engine performance in accordance with driver behavior
JPH10254505A (ja) 1997-03-14 1998-09-25 Toyota Motor Corp 自動制御装置
JP2000250604A (ja) * 1999-03-02 2000-09-14 Yamaha Motor Co Ltd 特性最適化方法における最適化の協調方法
US6549815B1 (en) 1999-03-02 2003-04-15 Yamaha Hatsudoki Kabushiki Kaisha Method and apparatus for optimizing overall characteristics of device, using heuristic method
US6837217B1 (en) 1999-07-28 2005-01-04 Hitachi, Ltd. Method and apparatus for motor-driven throttle valve, automobile, method of measuring temperature of motor for driving automotive throttle valve, and method of measuring motor temperature
JP2002322934A (ja) 2001-04-26 2002-11-08 Toyota Motor Corp 内燃機関の吸気制御装置
US6654677B2 (en) 2001-09-18 2003-11-25 Visteon Global Technologies, Inc. Method and system for providing vehicle control to a driver
JP4005483B2 (ja) 2002-11-20 2007-11-07 日産自動車株式会社 車線逸脱防止装置
ES2286958B1 (es) 2005-07-11 2008-09-01 Honda Motor Co., Ltd Sistema de control de vehiculo, sistema de control de transmision continuamente variable y metodo.
JP2007278082A (ja) * 2006-04-03 2007-10-25 Nissan Motor Co Ltd 車両の運動制御装置
JP2009019523A (ja) 2007-07-10 2009-01-29 Honda Motor Co Ltd 内燃機関の制御装置
JP4930389B2 (ja) 2008-01-18 2012-05-16 三菱自動車工業株式会社 空燃比制御装置及び空燃比制御方法
DE102008040633B4 (de) * 2008-07-23 2020-01-02 Robert Bosch Gmbh Verfahren zum Betreiben einer Brennkraftmaschine
US8352152B2 (en) 2009-02-10 2013-01-08 Honeywell International Inc. System, method, apparatus and computer program product for providing improved engine control
JP4975158B2 (ja) * 2010-11-08 2012-07-11 本田技研工業株式会社 プラントの制御装置
WO2014080507A1 (ja) * 2012-11-24 2014-05-30 トヨタ自動車 株式会社 車両状態判定装置、車両状態判定方法及び運転操作診断装置
JP6312618B2 (ja) 2015-03-13 2018-04-18 日立オートモティブシステムズ株式会社 内燃機関の制御装置及び異常燃焼検出方法
JP6026612B2 (ja) 2015-09-22 2016-11-16 本田技研工業株式会社 車両用内燃機関の制御装置
JP6253000B1 (ja) 2016-09-14 2017-12-27 マツダ株式会社 車両の制御装置
JP6253001B1 (ja) 2016-09-29 2017-12-27 マツダ株式会社 車両の制御装置
JP6328201B2 (ja) * 2016-10-05 2018-05-23 三菱電機株式会社 内燃機関の制御装置
US9989964B2 (en) 2016-11-03 2018-06-05 Mitsubishi Electric Research Laboratories, Inc. System and method for controlling vehicle using neural network
JP6695266B2 (ja) 2016-12-09 2020-05-20 日立オートモティブシステムズ株式会社 内燃機関の異常燃焼検出装置
JP6524144B2 (ja) * 2017-06-02 2019-06-05 本田技研工業株式会社 車両制御システム及び方法、並びに走行支援サーバ
JP6919997B2 (ja) 2018-02-06 2021-08-18 株式会社日立製作所 制御装置、制御方法、および制御プログラム
JP2019144748A (ja) 2018-02-19 2019-08-29 株式会社デンソー 情報処理システム、車載制御装置、及び情報処理装置
US20190360421A1 (en) 2018-05-24 2019-11-28 GM Global Technology Operations LLC Method to evaluate the instantaneous fuel to torque ice efficiency status
JP6547991B1 (ja) 2019-02-20 2019-07-24 トヨタ自動車株式会社 触媒温度推定装置、触媒温度推定システム、データ解析装置、および内燃機関の制御装置
JP6590097B1 (ja) * 2019-02-20 2019-10-16 トヨタ自動車株式会社 Pm量推定装置、pm量推定システム、データ解析装置、内燃機関の制御装置、および受信装置
JP6665961B1 (ja) 2019-08-01 2020-03-13 トヨタ自動車株式会社 内燃機関の状態検出システム、データ解析装置、及び車両
JP2021032114A (ja) * 2019-08-22 2021-03-01 トヨタ自動車株式会社 車両用学習制御システム、車両用制御装置、および車両用学習装置
JP6809587B1 (ja) 2019-10-18 2021-01-06 トヨタ自動車株式会社 車両用制御装置
JP6705546B1 (ja) * 2019-10-18 2020-06-03 トヨタ自動車株式会社 車両用制御装置、車両用制御システム、および車両用学習装置
JP6705544B1 (ja) 2019-10-18 2020-06-03 トヨタ自動車株式会社 車両用制御装置、車両用制御システム、および車両用学習装置
JP6744597B1 (ja) 2019-10-18 2020-08-19 トヨタ自動車株式会社 車両用制御データの生成方法、車両用制御装置、車両用制御システム、および車両用学習装置
JP6744598B1 (ja) 2019-10-18 2020-08-19 トヨタ自動車株式会社 車両用制御システム、車両用制御装置、および車両用学習装置
JP7302466B2 (ja) * 2019-12-23 2023-07-04 トヨタ自動車株式会社 車両用内燃機関の劣化判定装置
JP7211375B2 (ja) * 2020-01-09 2023-01-24 トヨタ自動車株式会社 車両用制御装置

Also Published As

Publication number Publication date
JP6705545B1 (ja) 2020-06-03
US20210115866A1 (en) 2021-04-22
CN112682200A (zh) 2021-04-20
JP2021067196A (ja) 2021-04-30
US11530662B2 (en) 2022-12-20

Similar Documents

Publication Publication Date Title
CN112682200B (zh) 车辆用控制数据的生成方法、车辆用控制装置和车辆用控制***
JP7287287B2 (ja) 車両用制御データの生成方法、車両用制御装置、車両用制御システム、および車両用学習装置
CN112682181B (zh) 车辆用控制装置、车辆用控制***以及车辆控制方法
CN112682197B (zh) 车辆用控制数据的生成方法、车辆用控制装置和控制***
CN113107685B (zh) 车辆用控制数据的生成方法及装置、车辆用控制装置及***、车辆用学习装置以及存储介质
JP4184058B2 (ja) 制御装置
JP7302466B2 (ja) 車両用内燃機関の劣化判定装置
JP7314831B2 (ja) 車両用制御データの生成方法、車両用制御装置、車両用制御システム、および車両用学習装置
JP7331704B2 (ja) 車両用制御データの生成方法、車両用制御装置、および車両用制御システム
CN112682196B (zh) 车辆用控制装置、车辆用控制***、以及车辆用学习装置
CN113006951A (zh) 车辆用控制数据的生成方法、车辆用控制装置、车辆用控制***以及车辆用学习装置
JP7327198B2 (ja) 車両用制御データの生成方法、車両用制御装置、車両用制御システム、および車両用学習装置
CN113266481A (zh) 车辆控制方法、车辆用控制装置以及服务器
CN113217204A (zh) 车辆控制方法、车辆用控制装置以及服务器
JP2021067256A (ja) 車両用制御データの生成方法、車両用制御装置、車両用制御システム、および車両用学習装置
JP7205456B2 (ja) 車両用制御装置、車両用制御システム、および車両用学習装置
JP7207289B2 (ja) 車両用制御装置、車両用制御システム、車両用学習装置、および車両用学習方法
JP2021067262A (ja) 車両用制御データの生成方法、車両用制御装置、車両用制御システム、および車両用学習装置
CN113187613A (zh) 控制车辆的方法、用于车辆的控制装置、以及服务器
JP2008169849A (ja) 内燃機関の制御装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant