CN115996225A

CN115996225A - 车辆生态***通信的智能消息框架

Info

Publication number: CN115996225A
Application number: CN202211278887.1A
Authority: CN
Inventors: K·古鲁默西
Original assignee: Volvo Car Corp
Current assignee: Volvo Car Corp
Priority date: 2021-10-19
Filing date: 2022-10-19
Publication date: 2023-04-21
Also published as: US20230121913A1; EP4171080A1

Abstract

一实施方式涉及车辆的***，其包括第一车辆生态***模块，第一车辆生态***模块包括第一通信***和第一车辆生态***单元，该第一车辆生态***单元包括局部环境矩阵，以及在***内部或外部的全局治理模块，其中，全局治理模块包括：学习智能体和包括协议单元的第二通信***，其中，学习智能体配置为当车辆中的能源被打开时连续学习和更新规则以用于第一车辆生态***模块的结果，其中，***配置为用于第一车辆生态***单元和第二车辆生态***单元之间的自主通信，其中，第二车辆生态***单元在***内部或外部。

Description

车辆生态***通信的智能消息框架

技术领域

本公开总体上涉及装置通信领域，更具体地涉及用于在车辆生态***中适用的下一代自主通信***的框架，用于智能、上下文感知和语义通信。

背景技术

当今适用的最先进的消息传递协议是高级消息队列协议(AMQP)、消息队列遥测传输(MQTT)、简单(或流式)面向文本的消息协议(STOMP)、MQTT-S，为开放式发布/订阅MQTT的扩展，其在基于IoT的技术和边缘网络中大量使用。在大多数情况下，协议限制装置更像具有标准接口或合同机制的哑终端来起作用。

诸如MQTT、MQTT-S、AMQP、STOMP的现有解决方案限制装置表达能力。使用这些技术，装置通信是非语义和非上下文感知的。目前，没有汽车或车辆特定的解决方案来解决这个问题。

需要框架和协议以使装置以智能、上下文感知和语义模式进行通信。

发明内容

一实施方式涉及车辆的***，其包括：第一车辆生态***模块，所述第一车辆生态***模块包括第一通信***和第一车辆生态***单元，所述第一车辆生态***单元包括局部(local)环境矩阵，其中，第一车辆生态***模块包括车辆的第一硬件部件；其中，***配置为用于在第一车辆生态***模块和***内部的全局(global)治理模块之间进行自主通信，该全局治理模块包括学习智能体和包括协议单元的第二通信***；其中，学习智能体配置为当车辆中的能源被打开时连续学习和更新规则以用于第一车辆生态***模块的结果；其中，该***配置为用于第一车辆生态***单元和第二车辆生态***单元之间的自主通信；其中，学习智能体包括用以评估场景的深度强化学习模块；其中，***配置为在自主模式中能够启用功能；其中，第一车辆生态***单元和第二车辆生态***单元之间的通信独立于固定协议；并且其中，第一车辆生态***单元的结果是基于学习智能体做出的决定而确定的。

根据一实施方式，第一车辆生态***模块包括：结构边界。

根据一实施方式，第一车辆生态***模块的结构边界包括：道路基础设施***、云***，车辆子***，其还包括传动***、转向***、悬架***、燃料喷射***、制动***、通信***。

根据一实施方式，第一车辆生态***模块包括：功能边界。

根据一实施方式，功能边界包括：安全***、性能***、能量效率、道路管理、交通导航、乘客舒适性。

根据一实施方式，第一车辆生态***模块包括：多个车辆生态***单元。

根据一实施方式，第一车辆生态***模块配置为与全局治理模块通信以同步局部环境矩阵。

根据一实施方式，第一通信***包括：发送器和接收器。

根据一实施方式，局部环境矩阵包括：状态、多个源、局部目标函数、局部约束函数、包括策略学习智能体的策略函数，以及基于上下文生成结果的价值函数，其中，所述多个源包括对其采取行动的任何车辆生态***单元。

根据一实施方式，包括策略学习智能体的策略函数和价值函数是可定制的并且可由原始设备制造商配置。

根据一实施方式，第一硬件部件包括：车辆网关***，该车辆网关***包括微控制器、收发器、能源管理集成电路、能够通过电话、通信线和无线中的一个传输模拟和数字信号中的一个的物联网装置。

根据一实施方式，自主通信包括：在不同场景下具有最小监督的一时间段内的通信。

根据一实施方式，全局治理模块包括：包括多个靶***的全局环境矩阵、全局策略函数以及全局价值函数、状态目录、通信目录、全局目标函数和全局约束函数。

根据一实施方式，学习智能体将状态和行动映射到结果，并学习如何达到目标。

根据一实施方式，全局治理模块的第二通信***包括：接收器和发射器。

根据一实施方式，全局治理模块的第二通信***连接到云。

根据一实施方式，云包括以下中的一个：远程信息处理和连接天线模块、道路基础设施***、其他车辆连接模块、充能基础设施***、应急控制室、城市交通***、车辆子***内的任何其他相关电子控制单元。

根据一实施方式，全局治理模块与第一车辆生态***模块和云交互并且从场景确定上下文。

根据一实施方式，全局治理模块协调第一车辆生态***单元和第二车辆生态***单元之间的通信。

根据一实施方式，全局治理模块定义了第一车辆生态***单元和第二车辆生态***单元之间的通信的规则和顺序。

根据一实施方式，全局治理模块配置为注册新的车辆生态***单元。

根据一实施方式，全局治理模块配置为注销新的车辆生态***单元。

根据一实施方式，全局治理模块配置为感知和检测威胁。

根据一实施方式，协议单元促进局部环境矩阵以同步到全局治理模块的全局环境矩阵中的最新信息。

根据一实施方式，协议单元包括有效负载内容，其中，有效负载内容的预定义消息模板的变量由行动变量和状态变量的价值填充。

根据一实施方式，预定义消息模板包括：消息结构，该消息结构包括头部(header)、源、源类型、行动者、行动者类型、行动、行动类型、包括行动模板的有效负载、行动者状态价值，包括行动者密钥的签名，其中，行动者是执行结果的第一车辆生态***单元，并且源是在其上结果被执行的第一车辆生态***单元。

根据一实施方式，协议单元包括：预定义元结构，其中，消息内容取决于请求内容有效负载。

根据一实施方式，请求内容有效负载是基于基于NLP-BERT、GPT2、GPT3技术的预训练模型生成的。

根据一实施方式，协议单元包括消息上层结构以容纳包括AMQP、MQTT、STOMP、Zigbee、UDS、ODX、DoIP和OBD的任何子协议结构。

根据一实施方式，基于全局治理模块的全局策略函数和全局价值函数，更新学习智能体的规则。

根据一实施方式，基于来自***结果的反馈，更新学习智能体的规则。

根据一实施方式，结果是第一车辆生态***模块的行动，其进一步包括抵靠操作环境中的源的可能的行动链，其中，源包括对其采取行动的第一车辆生态***单元。

根据一实施方式，结果是行动并且基于状态-价值函数和局部目标函数。

根据一实施方式，行动将车辆的当前状态改变为车辆的新状态。

根据一实施方式，车辆中的能源被打开，车辆的模式包括以下中的一个：驾驶模式、倒车模式、充能模式和驻车模式。

根据一实施方式，深度强化学习模块包括以下中的至少一个：动态编程、蒙特卡罗、时间差、Q学习、Sarsa、R学习和函数逼近法。

根据一实施方式，评估包括分析来自将处于当前状态的***转换到下一状态的各个行动的结果，其中，状态是连续函数，并且***通过选择正确的行动类型从频谱状态的低价值端朝向频谱状态的高价端移动。

根据一实施方式，场景包括当***与***外的元件交互时发生的可能事件。

根据一实施方式，功能包括在任何两个***之间发生并修改预定义状态的任何类型的***事务。

根据一实施方式，自主模式包括独立且不受监督的模式。

根据一实施方式，基于规则的***包括场景的事实集合和用于如何处理包括if和then语句的事实集合的规则集合，其中，场景是在***中预定义的。

根据一实施方式，通信包括在第一通信***和第二通信***之间、在第一车辆生态***单元和第二车辆生态***单元之间、在第一车辆生态***模块和全局治理模块之间传输数据、指令和信息中的一个。

根据一实施方式，协议单元包括规则、语法、语义和通信同步以及可能的错误恢复方法，形成上层结构以容纳包括AMQP、MQTT、STOMP、Zigbee、UDS、ODX、DoIP和OBD的任何子协议。

根据一实施方式，固定协议包括AMQP、MQTT、STOMP、Zigbee、UDS、ODX、DoIP、OBD以及任何预定义协议标准。

根据一实施方式，协议单元包括硬件、软件以及硬件和软件的组合中的一个。

根据一实施方式，学习智能体基于场景的结果随时间演变。

根据一实施方式，***处于操作环境中，其中，操作环境是动态的。

根据一实施方式，在第一车辆生态***单元和第二车辆生态***单元之间的通信配置为调用结果以对齐满足局部目标函数和全局目标函数的策略函数。

根据一实施方式，***配置为以上下文感知的、智能的和以语义的方式来确定结果。

根据一实施方式，***还包括第一车辆生态***模块和全局治理模块中间的区域治理模块。

根据一实施方式，协议单元配置为从场景的数据流中不断地学习。

根据一实施方式，针对协议更新学习智能体的规则是基于连续学习的。

根据一实施方式，决定是关于在学习智能体仔细评估场景之后从所有可能的结果中挑选结果的结论。

根据一实施方式，场景包括第一车辆生态***单元与云单元通信以在指定的时间量内识别区域限制内的可用车辆集合，并且进一步第一车辆生态***单元下载交通策略数据，获得批准后来自车辆生态***单元的驾驶员辅助数据。

根据一实施方式，场景包括第一车辆生态***单元与运输和道路基础设施***通信以获取用于给定目的地和路线集合的前期信息，其中，前期信息包括通行费、道路质量基础设施，包括有轨电车、公共汽车、火车的可能的公共交通干预措施数量，以及正在进行的建设工作的信息。

根据一实施方式，场景的前期信息包括定性和定量数据。

根据一实施方式，场景包括第一车辆生态***单元与局部天气***通信以获取用于给定目的地和路线的早期接近准确的天气。

根据一实施方式，场景包括第一车辆生态***单元与具有给定目的地和路线的道路照明***通信以获取定量和定性数据，这提供对做出决定的更好洞察。

根据一实施方式，场景包括第一车辆生态***单元与驻车***通信以为给定目的地路线和包括购物、食物和娱乐的信息的途中行程的集合找到可用的驻车位。

根据一实施方式，场景包括第一车辆生态***单元与充能基础设施通信以获取充能插槽的可用性、充能速度和范围。

根据一实施方式，在充能基础设施出现问题的情况下，第一车辆生态***单元就充能站的故障警告充能中央***，并且从充能基础设施发送诊断数据。

根据一实施方式，场景包括第一车辆生态***单元，该第一车辆生态***单元包括网关单元，该网关单元使用基于位置的***来发送紧急警告以在前往移动车辆服务***的途中。

根据一实施方式，移动车辆服务***配置为抵靠第一车辆生态***单元运行定期诊断故障排除，并在可能时执行服务和更换，并建立与紧急支持***的连接以将车辆拖到最近的服务站。

根据一实施方式，场景包括第一车辆生态***单元与城市信息中心通信帮助其导航以获取关于相关区域的最新相关更新，其中，最新相关更新包含定量和定性数据，该数据包括在特定地点的公共事件、交通拥堵、下雨造成的交通路线、新策略、新法律、任何攻击、在相关区域的其他部分中的任何事故。

根据一实施方式，第一车辆生态***单元配置为与基于位置的***协同操作以对定量和定性数据进行三角测量。

根据一实施方式，场景包括第一车辆生态***单元与公共交通***和交通控制***通信以获取包括在主要高速公路、公路和历史交通概况和模型中的实时交通拥堵的数据，其中，数据帮助第一车辆生态***单元在给定目的地的路线识别方面做出准确的决定。

根据一实施方式，场景包括第一车辆生态***单元遇到乘客的紧急情况，其中，第一车辆生态***单元就关于乘客的更多细节与救护车***通信。

根据一实施方式，场景包括第一车辆生态***单元遇到包括车辆紧急情况的紧急情况，其中，第一车辆生态***单元向车辆紧急情况服务发送和接收车辆诊断信息以路由移动服务站。

根据一实施方式，场景包括第一车辆生态***单元遇到紧急情况，其中，第一车辆生态***单元与第二车辆生态***单元通信以获得可能的帮助。

根据一实施方式，场景包括第一车辆生态***单元遇到紧急情况，另外定量和定性数据与汽车保险***共享以利用保险利益和调整保费。

根据一实施方式，场景包括第一车辆生态***单元与车队管理***通信，车队管理***将使用基于位置的***和车队管理***对第一车辆生态***单元的位置进行三角测量并在第二车辆生态***单元的帮助下确认该位置，该第二车辆生态***单元是车队的一部分，其中，第一车辆生态***单元的车辆的所有者启用车队模式以获得额外收入，并且其中，保持车队模式直到所有者基于策略函数决定退回。

另一实施方式涉及车辆的***，该车辆的***包括第一车辆生态***模块，所述第一车辆生态***模块包括第一通信***和第一车辆生态***单元，所述第一车辆生态***单元包括局部环境矩阵，其中，第一车辆生态***模块包括车辆的第一硬件部件；其中，***配置为用于在第一车辆生态***模块和***外部的全局治理模块之间的自主通信，该全局治理模块包括学习智能体和包括协议单元的第二通信***；其中，学习智能体配置为当车辆中的能源被打开时连续学习和更新规则以用于第一车辆生态***模块的结果；其中，***配置为用于第一车辆生态***单元和第二车辆生态***单元之间的自主通信；其中，学习智能体包括用以评估场景的深度强化学习模块；其中，***配置为在自主模式中能够启用功能；其中，第一车辆生态***单元和第二车辆生态***单元之间的通信独立于固定协议；并且其中，第一车辆生态***单元的结果是基于由学习智能体做出的决定而确定的。

根据一实施方式，第一车辆生态***模块包括结构边界，其中，第一车辆生态***模块的结构边界包括道路基础设施***、云***、车辆子***，其还包括传动***、转向***、悬架***、燃料喷射***、制动***、通信***。

根据一实施方式，全局治理模块配置为注册和注销新的车辆生态***单元。

根据一实施方式，结果是行动并且基于状态-价值函数和局部目标函数，其中，行动将车辆的当前状态改变为车辆的新状态。

根据一实施方式，第一车辆生态***单元和第二车辆生态***单元之间的通信配置为调用结果以对齐满足局部目标函数和全局目标函数的策略函数。

另一实施方式涉及一方法，该方法包括从包括第一车辆生态***单元和第一通信***的第一车辆生态***模块接收通信，第一通信***包括局部环境矩阵；由包含全局治理模块的深度强化学习模块的学习智能体评估场景；通过与全局治理模块通信，动态同步第一车辆生态***模块的局部环境矩阵；基于由学习智能体做出的决定，确定第一车辆生态***单元的结果，其中，学习智能体配置为当车辆中的能源被打开时连续学习和更新规则以用于车辆的结果；并且执行结果；其中，该方法配置为用于第一车辆生态***模块和全局治理模块之间的自主通信；其中，该方法配置为在自主模式中能够启用功能；其中，第一车辆生态***单元和第二车辆生态***单元之间的通信独立于固定协议；并且其中，第一车辆生态***单元的结果是基于由学习智能体做出的决定而确定的。

根据一实施方式，结果是行动，并且基于状态-价值函数和局部目标函数，其中，行动将车辆的当前状态改变为车辆的新状态。

另一实施方式涉及其上存储有指令的非暂时性计算机可读介质，该指令可由计算机***实现以执行方法，该方法包括：从包括第一车辆生态***单元和第一通信***的第一车辆生态***模块接收通信，第一通信***包括局部环境矩阵；由包括全局治理模块的深度强化学习模块的学习智能体评估场景；通过与全局治理模块的通信，动态同步第一车辆生态***模块的局部环境矩阵；基于由学习智能体做出的决定，确定第一车辆生态***单元的结果，其中，学习智能体配置为当车辆中的能源被打开时连续学习和更新规则以用于车辆的结果；并且执行结果；其中，该方法配置为用于第一车辆生态***模块和全局治理模块之间的自主通信；其中，该方法配置为在自主模式中能够启用功能；其中，第一车辆生态***单元和第二车辆生态***单元之间的通信独立于固定协议；并且其中，第一车辆生态***单元的结果是基于由学习智能体做出的决定而确定的。

附图说明

本公开涉及在本文中参照各附图示出和描述的各实施方式，其中，类似附图标记用于表示类似***或组装部件、方法或算法步骤。各种***的示出部件不一定按比例绘制。

图1A示出了根据本公开的一实施方式的车辆的***，其中，该***包括在***内部的全局治理模块。

图1B示出了根据本公开的一实施方式的车辆的***，其中，该***包括在***内部的全局治理模块和在***外部的车辆生态***模块。

图2A示出了根据本公开的一实施方式的车辆的***，其中，该***包括在***外部的全局治理模块。

图2B示出了根据本公开的一实施方式的车辆的***，其中，该***包括全局治理模块和在***外部的车辆生态***模块。

图3示出了根据本公开的一实施方式的与环境交互的学习智能体。

图4示出了根据本公开的一实施方式的在车辆生态***中交互的学习智能体和环境。

图5A示出了根据本公开的一实施方式的车辆生态***模块。

图5B示出了根据本公开的一实施方式的局部环境矩阵细节。

图5C示出了根据本公开的一实施方式的全局治理模块。

图5D示出了根据本公开的一实施方式的全局环境矩阵细节。

图6示出了根据本公开的一实施方式的状态价值矩阵。

图7示出了根据本公开的一实施方式的状态转移矩阵。

图8示出了根据本公开的一实施方式的***状态行动类型矩阵。

图9示出了根据一实施方式的协议消息结构，该协议消息结构包括由模板化内容基于行动类型定义的有效负载内容。

图10示出了根据本公开的一实施方式的应用于各场景中的状态价值矩阵。

图11示出了根据本公开的一实施方式的应用于各场景中的状态函数以及状态、行动类型。

图12示出了根据本公开的一实施方式的应用于各场景中的***-状态-行动转换矩阵。

图13示出了根据本公开的一实施方式的应用于各场景中的***-状态-行动转换矩阵。

图14示出了根据本公开的一实施方式的应用于各场景中的***-状态-行动转换矩阵。

图15示出了根据本公开的一实施方式的应用于各场景中的***-状态-行动转换矩阵。

具体实施方式

为了说明的简单和清晰，附图示出了总体的构造方式，并且可省略熟知的特征和技术的描述和细节以避免不必要地混淆本公开。附图中元件中的一些的尺寸可相对于其他元件被夸大以帮助提高对本公开的实施方式的理解。不同附图中相同的参照标记表示相同的元件。

尽管出于说明的目的，以下详细描述包含许多特点，但本领域普通技术人员将理解，可对以下细节做出许多变化和改变并且被认为包括在本文中。

相应地，在不损失任何一般性的情况下阐述以下实施方式，并且不对所阐述的任何权利要求施加限制。还应理解，本文使用的术语仅出于描述特定实施方式的目的，并不旨在进行限制。

除非本文另有定义，否则与本发明结合使用的科学和技术术语应具有本领域普通技术人员常常理解的含义。此外，除非上下文另有要求，否则单数术语应包括复数，并且复数术语应包括单数。一般，与本文描述的本发明结合使用的命名法是本领域中熟知的和常用的。

本发明的方法和技术一般根据本领域熟知的常规方法进行，并且如在整个本文中引用和讨论的各个一般和更具体的参考中所描述的，除非另有说明。与本文中的实施方式中的过程和技术以及本文中描述的其他相关领域和、结合使用的命名法是本领域中熟知和常用的那些。

如本文所定义的，在一些实施方式中，“实时(real-time)”可定义为对应于在发生触发事件时尽可能快地执行的操作。触发事件可包括接收执行任务或以其他方式处理信息所需的数据。由于传输和/或计算速度中固有的延迟，术语“实时(real-time)”涵盖“接近(near)”实时发生或从触发事件稍微延迟的操作。在多个实施方式中，“实时(real-time)”可意味着实际时间小于处理(例如，确定)和/或传输数据的时间延迟。特定的时间延迟可取决于数据的类型和/或数量、硬件的处理速度、通信硬件的传输能力、传输距离等而变化。然而，在许多实施方式中，时间延迟可以是小于大约一秒、两秒、五秒或十秒。

说明书中和权利要求中的术语“第一(first)”、“第二(second)”、“第三(third)”等，如果有的话，用于区分类似元素，而不一定用于描述特定的序列或时间顺序。应当理解，如此使用的术语在适当情况下是可互换的，使得本文描述的实施方式例如能够以不同于本文所示或以其他方式描述的那些序列操作。此外，术语“包含(include)”和“具有(have)”及其任何变体旨在涵盖非排他性的包含，使得包括元素列的过程、方法、***、对象、装置或设施不一定限于那些元素，但可包含未明确列出的其他元素或此类过程、方法、***、对象、装置或设施所固有的元素。

除非明确说明，否则本文中使用的任何元素、行动或指令均不应被解释为关键或必要的。此外，如本文所用，术语“集合(set)”旨在包括项目(例如，相关项目、不相关项目、相关项目和不相关项目的组合等)，并且可与“一个或多个(one or more)”互换使用。如果仅打算使用一个项目，则使用术语“一个(one)”或类似的语言。此外，如本文所用，术语“具有(has)”、“具有(have)”、“具有(having)”等旨在为开放式术语。此外，除非另有明确说明，否则短语“基于(based on)”旨在表示“至少部分基于(based,at least in part,on)”。

本发明可以其他特定形式实施，而不背离其精神或特征。所描述的实施方式在所有方面都被认为仅是说明性的而不是限制性的。因此，本发明的范围由所附权利要求而不是由之前的说明书指示。落入权利要求的含义和等效范围内的所有变化都应包含在其范围内。

如本文所用，术语部件旨在广义地解释为硬件、固件和/或硬件和软件的组合。

此说明书中描述的实现方式和所有功能操作可实现在数字电子电路或计算机软件、固件或硬件中，包括此说明书中公开的结构及其结构等效物，或在它们中的一个或多个的组合中。实现方式可实现为一个或多个计算机程序制品，即，一个或多个计算机程序指令模块，编码在计算机可读介质上，用于由数据处理设施执行或控制其操作。计算机可读介质可以是机器可读存储装置、机器可读存储基板、存储器装置、影响机器可读传播信号的物质组合物，或者它们中的一个或多个的组合。术语“计算***(computing system)”涵盖用于处理数据的所有设施、装置和机器，包含例如可编程处理器、计算机或多个处理器或计算机。除了硬件之外，该设施还可包括为所讨论的计算机程序创建执行环境的代码，例如，构成处理器固件、协议栈、数据库管理***、操作***或它们中的一个或多个的组合的代码。传播信号是人工生成的信号，例如机器生成的电、光或电磁信号，其被生成以对信息进行编码以传输到合适的接收器设施。

用于实现这些***和/或方法的实际专用控制硬件或软件代码不限制实现方式。因此，这里描述了***和/或方法的操作和行为而没有参考特定的软件代码—应当理解，软件和硬件可设计为基于这里的描述来实现***和/或方法。

计算机程序(也称为程序、软件、软件应用程序、脚本或代码)可以任何适当形式的编程语言编写，包含编译或解释语言，并且其可以任何适当形式部署，包含作为独立程序或作为模块、部件、子程序或其他适合在计算环境中使用的单元。计算机程序不一定对应于文件***中的文件。程序可存储在保持其他程序或数据的文件的部分中(例如，存储在标记语言文档中的一个或多个脚本)、专用于所讨论程序的单个文件或多个协调文件(例如，存储一个或多个模块、子程序或部分代码的文件)。可部署计算机程序以在一个计算机或位于一个站点或分布在多个站点并通过通信网络互连的多个计算机上执行。

此说明书中描述的过程和逻辑流程可由一个或多个可编程处理器执行，该处理器执行一个或多个计算机程序以通过操作输入数据并生成输出来执行函数。过程和逻辑流程也可由专用逻辑电路执行，并且设施也可实现为专用逻辑电路，例如但不限于现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上***(SOC)***、复杂可编程逻辑器件(CPLD)等。

适合于执行计算机程序的处理器包含例如通用和专用微处理器，以及任何适当种类的数字计算机的任何一个或多个处理器。一般，处理器将从只读存储器或随机存取存储器或两者接收指令和数据。计算机的元件可包含用于执行指令的处理器和用于存储指令和数据的一个或多个存储器装置。一般，计算机还将包含或可操作地耦合以从一个或多个用于存储数据的大容量存储装置，例如磁、磁光盘、光盘或固态盘，接收数据或向其传输数据或两者。然而，计算机不需要有这样的装置。此外，计算机可嵌入在另一装置中，例如移动电话、个人数字助理(PDA)、移动音频播放器、全局定位***(GPS)接收器等，仅列举一些。适用于存储计算机程序指令和数据的计算机可读介质包含所有形式的非易失性存储器、介质和存储装置，例如包括半导体存储装置，例如可擦可编程只读存储器(EPROM)、电子可擦可编程读-仅存储器(EEPROM)和闪存装置；磁盘，例如内部硬盘或可移动磁盘；磁光盘；以及光盘只读存储器(CD ROM)磁盘、数字多功能磁盘只读存储器(DVD-ROM)磁盘和固态磁盘。处理器和存储器可由专用逻辑电路补充或结合在专用逻辑电路中。

可在包含后端部件(例如数据服务器)或包含中间件部件(例如应用服务器)或包含前端部件(例如具有图形用户界面或Web浏览器的客户端计算机，用户可通过其与实现方式或一个或多个这样的后端、中间件或前端部件的任何适当组合进行交互。***的部件可通过任何适当的数字数据通信形式或媒介互连，例如通信网络。通信网络的示例包含局域网(LAN)和广域网(WAN)，例如因特网。

计算***可包含客户端和服务器。客户端和服务器经常彼此远离并且经常通过通信网络交互。客户端和服务器的关系是凭借在相应计算机上运行并且彼此具有客户端-服务器关系的计算机程序而产生的。

本发明的实施方式可包括或利用包含计算机硬件的专用或通用计算机。本发明范围内的实施方式还包含用于承载或存储计算机可执行指令和/或数据结构的物理和其他计算机可读介质。这样的计算机可读介质可以是可由通用或专用计算机***访问的任何介质。存储计算机可执行指令的计算机可读介质是物理存储介质。承载计算机可执行指令的计算机可读介质是传输介质。因此，作为示例而非限制，本发明的实施方式可包括至少两个截然不同的计算机可读介质：物理计算机可读存储介质和传输计算机可读介质。

“网络(network)”被定义为一个或多个数据链路，其能够在计算机***和/或模块和/或其他电子装置之间传输电子数据。当信息通过网络或其他通信连接(有线、无线或有线或无线的组合)传输或提供给计算机时，计算机会将连接正确地视为传输介质。传输介质可包含网络和/或数据链路，其可用于承载，或者计算机可执行指令或数据结构形式的期望程序代码装置，并且可由通用或专用计算机访问。能够在计算机***和/或模块和/或其他电子装置之间传输电子数据的上述组合也包含在计算机可读介质的范围内。

计算机可执行指令包括例如使通用计算机、专用计算机或专用处理装置执行特定函数或函数组的指令和数据。计算机可执行指令可以是例如二进制、中间格式指令，诸如汇编语言，或者甚至是源代码。尽管已经以特定于结构特征和/或方法行动的语言描述了主题，但是应当理解，权利要求中定义的主题不一定限于所描述的特征或所描述的行动。反而，所描述的特征和行动被公开为实施权利要求的示例性形式。

虽然此说明书包含许多细节，但这些不应被解释为对本公开或可要求保护的范围的限制，而是对特定实施方式的特定特征的描述。此说明书中在单独的实现方式的上下文中描述的某些特征也可在单个实现方式中组合实现。相反，在单个实现方式的上下文中描述的各特征也可在多个实现方式中单独或以任何合适的子组合来实现。此外，尽管特征可能被描述为在某些组合中起作用，并且甚至最初权利要求，但在某些情况下，权利要求的组合中的一个或多个特征可从组合中删除，并且权利要求的组合可针对子组合或子组合的变化。

类似地，虽然在附图中以特定顺序描绘了操作，但这不应理解为要求以所示特定顺序或按序列顺序执行此类操作，或者执行所有示出的操作以实现期望结果。在某些情况下，多任务和并行处理可以是有利的。此外，上述实现方式中各***部件的分离不应理解为在所有实现方式中都需要这种分离，并且应当理解，所描述的程序部件和***经常可一起集成在单个软件制品中或打包成多个软件制品。

即使特征的特定组合在权利要求中叙述和/或在说明书中公开，这些组合并不旨在限制可能实现方式的公开。其他实现方式在以下权利要求的范围内。例如，权利要求中记载的行动可以不同的顺序执行并且仍然达到期望结果。事实上，这些特征中的许多可以未在权利要求中具体记载和/或在说明书中公开的方式组合。尽管下面列出的每个从属权利要求可直接取决于仅一个权利要求，但可能的实现方式的公开包括每个从属权利要求与权利要求集合中的每个其他权利要求的组合。

此外，方法可由包含一个或多个处理器和诸如计算机存储器的计算机可读介质的计算机***来实践。特别地，计算机存储器可存储计算机可执行指令，当该指令由一个或多个处理器执行时引起执行各函数，诸如在实施方式中列举的行动。

前述公开提供了说明和描述，但不旨在穷举或将实现方式限制为公开的精确形式。修改和变化根据以上公开是可能的，或者可从实现方式的实践中获得。

定义和一般技术

除非另有说明，否则以下术语和短语应理解为具有以下含义。

如本文所用，术语“IoT”代表物联网，其描述物理对象“事物(things)”或嵌入传感器、软件和其他技术的对象的网络，目的是与其他互联网上的装置和***连接和交换数据。

如本文所用，“机器学习(Machine learning)”指代赋予计算机学习能力而无需明确编程的算法，包含从数据中学习并做出关于数据的预测的算法。机器学习算法包含但不限于决策树学习、人工神经网络(ANN)(本文也称为“神经网络(neural net)”)、深度学习神经网络、支持向量机、基于规则的机器学习、随机森林等。为了清楚起见，诸如线性回归或逻辑回归的算法可用作机器学习过程的部分。然而，可以理解的是，使用线性回归或其他算法作为机器学习过程的部分与使用电子表格程序执行统计分析(诸如回归)是不同的。机器学习过程可随新数据可用时不断学习和调整分类器，而不依赖于显式或基于规则的编程。

统计建模依赖于发现变量之间的关系(例如，数学方程)来预测结果。

如本文所用，术语“数据采集(Data acquisition)”是对测量真实世界物理条件的信号进行采样并将结果样本转换为可由计算机操作的数字数值的过程。数据采集***经常将模拟波形转换为数字值进行处理。数据采集***的部件包含将物理参数转换为电子信号的传感器、将传感器信号转换为可转换为数字值形式的信号调节电路，以及将调节后的传感器信号转换为数字值的模数转换器。独立的数据采集***经常称为数据记录器。

如本文所用，术语“数据集(Data set)”(或“数据集(Dataset)”)是数据的集合。在表格数据的情况下，数据集对应于一个或多个数据库表，其中，表的每列代表特定变量，每行对应于所讨论的数据集的给定记录。数据集列出了用于数据集的每个成员的每个变量的值，诸如对象的高度和重量。每个值称为基准。数据集也可由文档或文件的集合组成。

如本文所用，“传感器(Sensor)”是测量来自其环境的物理输入并将其转换为可由人或机器解释的数据的装置。大多数传感器是电子的(数据被转换成电子数据)，但有些更简单，诸如玻璃温度计，它呈现视觉数据。

如本文所用，术语“车辆生态***(vehicle ecosystem)”是指车辆周围的整个***组。单元指代特定***或特定***内的子***。

本文使用的术语“车辆生态***单元(vehicle ecosystem unit)(VEU)”指代车辆生态***中的***或单元。示例包含车辆(单元/***)、基础设施(单元/***)等。它也可将子***称为***内的单元，如燃料喷射***/单元或制动***/单元。车辆生态***单元包括状态信息、策略和价值数据库，并致力于最大化受约束函数限制的目标或目的。车辆生态***单元在由其执行行动时也称为“行动者(actor)”；在对其执行操作时作为“源(resource)”；并且当它被治理模块识别为行动者或源时，则作为“靶***(targetsystem)”。

如本文所用，术语“车辆(vehicle)”是指车、汽车或与环境交互并具有自主通信范围的任何运输车辆。

如本文所用，术语“环境(environment)”是指车辆正在导航的周边和空间。它指代车辆在其中导航的动态周边。

如本文所用，术语“车辆生态***模块(vehicle ecosystem module)”指代包括至少车辆生态***单元和通信模块的模块。

如本文所用，术语“通信***(communication system)”指代描述两点之间的信息交换的***。信息的发送和接收过程称为通信。通信的主要元素是信息的发送者、通信的渠道或媒介，以及信息的接收者。

如本文所用，术语“局部环境矩阵(local environment matrix)”指代与***的环境相关的任何信息，该***的环境以结构化的形式存储在车辆生态***模块或车辆生态***单元中。

如本文所用，术语“自主通信(autonomous communication)”包括在不同场景下具有最小监督的一时间段内的通信，并且不单独或完全基于预编码场景或预编码规则或预定义协议。一般，自主通信以独立且不受监督的方式发生。

如本文所用，术语“治理模块(governance module)”形成用于协调车辆生态***单元之间的通信的上层结构。

如本文所用，术语“学习智能体(learning agent)”包括学习算法，该学习算法包括深度强化学习方法。学习智能体会基于为场景中的结果做出的决定随时间的推移而演变。

如本文所用，术语“协议单元(protocol unit)”是治理模块的部分，其定义了各种类型的行动者或源之间的通信结构的规则和序列。它进一步包括状态、策略函数和价值函数。它与学习智能体协同工作，其中，学习智能体与策略和价值函数一致地学习和行动。

如本文所用，术语“结果(outcome)”包括车辆生态***模块的行动，该行动还包括可能的行动链，其中，源包括对其采取行动的任何车辆生态***单元。

如本文所用，术语“场景(scenario)”包括当***与***外的元素(即环境)交互时可发生的可能事件。

如本文所用，术语“函数(function)”表示在***之间发生并修改预定义状态的任何类型的***事务。

如本文所用，术语“自主模式(autonomous mode)”指代独立且不受监督的操作模式。

如本文所用，术语“车辆生态***(vehicle ecosystem)”指代车辆周围的整个***组，其包含车辆内发生信息交换的***。

如本文所用，术语“基于规则的***(rule-based system)”包括场景的事实集合和用于如何处理包括if和then语句的事实集合的规则集合，其中，场景是在***中预定义的。

如本文所用，术语“协议(protocol)”指代发起和维持通信所需的严格程序；正式的约定集合，其管理两个通信终端之间消息交换的格式和相对时间；约定集合管理***内进程、装置和其他部件交互；信号规则集合用于在连接到总线的板之间传递信息或命令；信令规则集合用于在智能体之间传递信息；语义和句法规则集合确定交互实体行为；规则和格式(语义和句法)集合确定模拟应用程序通信行为；约定或规则集合管理计算机***或网络内进程或应用程序交互；正式的约定集合管理计算机***中消息交换的格式和相对时间；语义和句法规则集合确定功能单元在实现有意义的通信中的行为；语义和句法规则集合用于交换信息。

如本文所用，术语“通信(communication)”指代数据传输、电子***、电信，借助于电磁波从一个点到另一点的信息传输。它也是从一个点(称为源)到另一点(接收器)的信息流。通信包括以下中的一个：传输数据、指令以及信息或数据、指令和信息的组合。通信发生在任何两个通信***或通信单元之间。

如本文所用，术语“行动者类型(actor types)”指代行动者或源的类型，诸如道路基础设施行动者、云行动者、车辆子***行动者或道路基础设施资源等。

如本文所用，术语“行动(action)”指代改变行动者单元的状态的任何事务。例如，应用刹车是一行动，获取关于交通的信息是一行动，查询可用源是一行动。行动者对源执行行动，其中，行动者和源是作为车辆生态***的部分的单元或***。

如本文所用，术语“行动类型(action type)”指代分类的各事务。例如，“警告”是需要在该类别中执行的任何行动的行动类型。

如本文所用，术语“源(resource)”指代正在对其进行行动的***或单元，或者在其上执行行动的***或单元。

如本文所用，术语“源类型(resource types)”指代基于其功能分类成组的车辆生态***单元。例如，所有提供位置信息服务的***都可归类为“位置服务(locationservices)”；所有提供天气信息服务的***都可归类为“天气服务(weather services)”等。

如本文所用，术语“价值函数(value function)”是指状态函数(或状态-行动对)，其估计智能体处于给定状态有多好(或在给定状态执行给定行动有多好)。这里的“有多好(how good)”的概念是根据可预期的未来奖励来定义的，或者更准确地说，是根据预期回报来定义的。当然，智能体可期望在未来收到的奖励取决于它将采取什么行动。因此，价值函数是针对特定策略定义的。

如本文所用，术语“策略函数(policy function)”是智能体在追求目标时使用的策略。该策略规定了智能体随着智能体的状态和环境的函数采取的行动。策略函数将状态映射到行动。因此，基本上，策略函数说明了在每个状态下要执行的行动。***目标在于找到最佳策略，该策略指定在每个状态下执行的正确行动，从而最大化奖励。

如本文所用，术语“目标函数(objective function)”是具有输入变量的方程或函数，并且其输出值可表示输入的成本。目标函数经常是最大化或最小化的，这意味着执行搜索候选解决方案，相应地使***朝向目标函数的最高或最低分移动。

如本文所用，术语“约束函数(constraint function)”是表示***变量之间的规定关系的函数，并且是解决方案必须满足的优化问题或***中变量的依赖性的条件。

如本文所用，术语“消息结构(message structure)”指代当查询和获取操作发生时通信消息的结构。它包括有效负载和头部，其中，有效负载是共享信息的数量值，而头部指代正在共享的信息。消息结构作为上层结构，以容纳任何子协议结构，诸如AMQP、MQTT、Zigbee等。

如本文所用，术语“车辆网关***(vehicle gateway system)”指代连接使用不同协议的两个***的装置。该***处理任何两个车辆生态***单元之间的任何出站或入站通信。

对于装置通信，除了类似MQTT、AMQP、STOMP、ZigBee等通用消息协议，目前还存在类似统一诊断服务(UDS)、开放诊断交换格式(ODX)、基于Internet协议的诊断(DoIP)、板载诊断(OBD)等问题特定协议。本文描述的发明解决了对现有技术的一些关注，以及如何以更加上下文感知和动态的方式实现下一代车辆到万物(V2X)语义通信。这将帮助车辆不仅在功能上实现自主，而且在与其他车辆、人类、网、中央云和基础设施的通信方面实现自主。这使得下一代车辆到万物(V2X)语义通信能够以更具上下文感知和动态的方式进行。V2X通信技术包含但不限于车到基础设施(V2I)、车到网络(V2N)、车到车(V2V)、车到网(V2G)、车到装置(V2D)以及车辆到行人(V2P)等。

本发明提出了在任何两个车辆生态***单元(VEU)之间以上下文感知和智能方式而不是现有的基于规则的***的通信的新颖方法。它在V2X中利用深度强化学习技术，并在车辆通信中利用深度强化学习技术。在这里，VEU有环境矩阵的局部化版本，其包括价值函数和策略函数，用于任何给定的状态，以及抵靠其操作的环境中的任何源集合的可能行动线。

***内部的全局治理模块：

在一实施方式中，它是一车辆的***，所述车辆的***包括第一车辆生态***模块，所述第一车辆生态***模块包括第一通信***和第一车辆生态***单元，所述第一车辆生态***单元包括局部环境矩阵，其中，第一车辆生态***模块包括车辆的第一硬件部件，该***配置为用于第一车辆生态***模块和***内部的全局治理模块之间的自主通信，全局治理模块包括学习智能体和包括协议单元的第二通信***，其中，学习智能体配置为当车辆中的能源被打开时连续学习和更新规则以用于第一车辆生态***模块的结果，其中，该***配置为用于第一车辆生态***单元和第二车辆生态***单元之间的自主通信，其中，第二车辆生态***单元在***内部或外部，其中，学习智能体包括用以评估场景的深度强化学习模块，其中，***配置为可选地在自主模式中能够启用功能而没有基于规则的***，其中，基于规则的***不包含学习智能体，其中，可选地没有固定协议用于在第一车辆生态***单元和第二车辆生态***单元之间的通信，使得第一车辆生态***单元和第二车辆生态***单元之间的通信独立于固定协议，并且第一车辆生态***单元和第二车辆生态***单元通信，即使第一车辆生态***单元和第二车辆生态***单元在通信之前没有同意协议，并且其中，第一车辆生态***单元的结果是基于由学习智能体做出的决定来确定的。

图1A示出了根据一实施方式的车辆的***100，其中，该***包括***内部的全局治理模块101和车辆生态***模块102。全局治理模块包括通信***，该通信***包括协议单元103和学习智能体(learning agent)104。车辆生态***模块102包括通信***105，和包括局部环境矩阵108、局部目标函数和局部约束函数110的第一车辆生态***单元106，包括局部环境矩阵109、局部目标函数和局部约束函数111的第二车辆生态***单元107。

在一实施方式中，第一车辆生态***模块包括一个或多个车辆生态***单元。

在一实施方式中，该***包括多个车辆生态***单元。在一实施方式中，第一通信***包括发射器和接收器。该***配置为用于车辆生态***模块102和全局治理模块101之间的自主通信。包括学习智能体104的全局治理模块配置为当车辆中的能源被打开时连续学习和更新规则以用于第一车辆生态***模块的结果。该***配置为以上下文感知、智能和语义方式确定结果。

根据一实施方式，自主通信包括在不同场景下具有最小监督的一时间段内的通信。

根据一实施方式，自主通信不基于预编码场景或预编码规则或预定义协议。

根据一实施方式，结果包括车辆生态***模块的行动，该行动还可包括抵靠操作环境中的源的可能的行动链，其中，源包括对其采取行动的任何车辆生态***单元。

根据一实施方式，场景包括当***与***外的元素交互时可发生的可能事件。

第二车辆生态***单元可在***内部，如图1A所示，或在***外部，如图1B所示。在一实施方式中，***配置为包括在***内部和外部的多个车辆生态***单元。

在一实施方式中，车辆生态***模块包括第一硬件部件，该第一硬件部件包括车辆网关***，该车辆网关***包括微控制器、收发器、能源管理集成电路、能够通过电话传输模拟或数字信号的物联网(IoT)装置、通信线，或无线。该***配置为用于第一车辆生态***单元和第二车辆生态***单元之间以及第一车辆生态***单元和全局治理模块之间的自主通信。

在一实施方式中，协议单元促进车辆生态***单元的局部环境矩阵以同步全局治理模块的全局环境矩阵中的最新信息。

根据一实施方式，车辆生态***模块配置为与全局治理模块通信以同步局部环境矩阵。协议单元配置为理解任何协议，其中，协议包括规则、语法、语义和通信同步以及可能的错误恢复方法，形成上层结构以容纳包括AMQP、MQTT、STOMP、Zigbee、UDS、ODX、DoIP、和OBD的任何子协议。

根据一实施方式，固定协议包括AMQP、MQTT、STOMP、Zigbee、UDS、ODX、DoIP、OBD和任何预定义协议标准。协议由硬件、软件或硬件和软件的组合来实现。

在一实施方式中，协议单元包括学习智能体并且配置为从场景的数据流中不断学习。

根据一实施方式，***处于操作环境中，该操作环境是车辆的周边和动态环境。

***外部的全局治理模块：

在一实施方式中，它是一车辆的***，包括：第一车辆生态***模块，所述第一车辆生态***模块包括第一通信***和第一车辆生态***单元，该第一车辆生态***单元包括局部环境矩阵，其中，第一车辆生态***模块包括车辆的第一硬件部件，其中，该***配置为用于第一车辆生态***模块和***外部的全局治理模块之间的自主通信，全局治理模块包括学习智能体和包括协议单元的第二通信***，其中，学习智能体配置为当车辆中的能源被打开时连续学习和更新规则以用于第一车辆生态***模块的结果，其中，***配置为用于第一车辆生态***单元和第二车辆生态***单元之间的自主通信，其中，第二车辆生态***单元车辆生态***单元位于***内部或外部，其中，学习智能体包括用于评估场景的深度强化学习模块，其中，***配置为可选地在自主模式中能够启用功能而没有基于规则的***，其中，基于规则的***不包含学习智能体，其中，可选地没有固定协议用于第一车辆生态***单元和第二车辆生态***单元之间的通信，使得第一车辆生态***单元和第二车辆生态***单元之间的通信独立于固定协议，并且第一车辆生态***单元和第二车辆生态***单元通信，即使第一车辆生态***单元和第二车辆生态***单元在通信之前没有同意协议，并且其中，第一车辆生态***单元的结果是基于由学习智能体做出的决定来确定的。

图2A示出了根据一实施方式的***车辆100，其中，该***包括***外部的全局治理模块101和***内部的车辆生态***模块102。全局治理模块包括通信***，该通信***包括协议单元103和学习智能体104。车辆生态***模块102包括通信***105以及包括局部环境矩阵108、局部目标函数和局部约束函数110的第一车辆生态***单元106，包括局部环境矩阵109、局部目标函数和局部约束函数111的第二车辆生态***单元107。***配置为包括多个车辆生态***单元。该***配置为用于车辆生态***模块102和全局治理模块101之间的自主通信。包括学习智能体104的全局治理模块配置为当车辆中的能源被打开并在其后持续时连续学习和更新规则以用于第一车辆生态***模块的结果。

根据一实施方式，当车辆中的能源被打开时，车辆的模式包括驾驶模式、倒车模式、充能模式和驻车模式。

***配置为用于第一车辆生态***单元和第二车辆生态***单元之间的自主通信，其中，第二车辆生态***单元在***内部，如图2A所示，或在***外部，如图2B所示。在一实施方式中，***配置为包括在***内部和外部两者中的多个车辆生态***单元。

治理模块的学习智能体104，无论治理模块是在***外部还是在***内部，都包括用以评估场景的深度强化学习模块，其中，***配置为可选地在自主模式中能够启用功能而没有基于规则的***。

根据一实施方式，自主模式是独立且不受监督的操作模式。

根据一实施方式，深度强化学习模块包括以下中的至少一个：动态规划(DP)、蒙特卡罗、时间差(TD)、Q-学习(离策略时间差算法)、Sarsa(state-action-reward-state-action-On-policyTD算法)、R-学习(学习相对值)和函数逼近法(最小二乘时间差、最小二乘策略迭代)。基于规则的***不包含学习智能体。根据一实施方式，对于第一车辆生态***单元和第二车辆生态***单元之间，或者第一车辆生态***单元和治理模块之间的任何场景，没有基于基于规则的***的固定的基于规则的结果。

根据一实施方式，在这样的智能体中没有固定的基于规则的结果，并且它们不基于场景的策划规则，并且其中，学习智能体基于场景的结果而演变。

第一车辆生态***单元106和第二车辆生态***单元107之间的通信独立于固定协议。即使第一车辆生态***单元106和第二车辆生态***单元107在通信之前没有同意协议，第一车辆生态***单元106和第二车辆生态***单元107也进行通信。第一车辆生态***单元的结果基于由学习智能体做出的决定来确定。决定是在学习智能体仔细评估场景后，从所有可能的结果中选择结果的结论。

车辆生态***、车辆生态***单元和边界

车辆生态***指代围绕车辆的整个***组。它包含但不限于道路基础设施***、气象***、云***、通信***、作为***的车辆、车辆的子***诸如动力总成***、转向***、悬架***、燃料喷射***、制动***等。车辆生态***单元指代特定***或特定***内的子***。根据一实施方式，车辆生态***内的每个***都被设计成通过可用源集合r1、r2..rn来传递功能集合f1、f2、...、fn。例如，燃料喷射***旨在通过最大化其效率来输送燃料。源是对其执行行动的车辆生态***单元。

***边界可以是功能边界或结构边界或功能和结构边界的组合。

根据一实施方式，车辆生态***模块或车辆生态***单元可由原始设备制造商配置为包括结构边界或功能边界或两者的组合。

定义功能边界，其中，***是基于其功能分组的单元。它定义了所设计***的功能边界条件。定义结构边界，其中，***基于其物理和结构边界进行分组。它定义了***设计的结构边界条件，包括源集合r1、r2、..、rn，这些源是***的部分或由***使用。

根据一实施方式，车辆生态***模块包括结构边界。

根据一实施方式，车辆生态***模块的结构边界包括道路基础设施***、云***，车辆子***，该车辆子***还包括传动***、转向***、悬架***、燃料喷射***、制动***、通信***。

根据一实施方式，车辆生态***模块包括功能边界。

根据一实施方式，功能边界包括安全***、性能***、能量效率、道路管理、交通导航、乘客舒适性。

***与环境

环境是世界上围绕***(智能体)的一切，但它不是智能体本身的部分。环境可描述为智能体存在的情况。环境是智能体操作的地方。环境为智能体提供了一些可感知和采取行动的东西。

在自动驾驶汽车的情况下，智能体或***或车辆生态***单元可以是汽车，并且环境对应于车辆正在其中导航的车辆周边以及车辆在环境中的当前位置。可使用诸如相机、激光雷达和其他传感器的多个传感器来观察环境状态。智能体，即车辆可执行导航行动，诸如转弯、提高速度、踩刹车或什么都不做。智能体，即车辆因遵循信号、不与周围物体碰撞、符合驾驶规定、保持乘客舒适性和保持正常行驶而获得奖励。算法学习识别行人、道路、交通，检测环境中的街道标志并相应地行动。学习智能体在复杂的场景中接受训练，并将学习在场景中的决策技能方面表现出色，该场景包括最小的人类死亡、最佳路径、将采取的最佳路径等。

如图3所示，包括深度强化学习模块301的学习智能体与环境302交互。环境302提供关于***300的状态303的信息。智能体观察这些状态并通过采取行动304与环境交互。行动可以是离散的类似停止或前进，或连续的类似降低汽车的速度。这些行动304引起环境转换到新状态。基于新状态是否与***的目的/目标相关，智能体收到奖励，如果它使智能体远离其目的/目标，奖励也可为零或负数。在一个实施方式中，目的是估计策略的价值，即学习期望从策略中获得多少总奖励。换句话说，目的是估计策略的状态-价值函数。强化学习的目的是让智能体采取最大化其奖励的行动。智能体的行动制定功能称为策略。

强化学习的目的是以最大化奖励的方式将状态映射到行动。强化学习***的不同类别的学习算法是：

(a)基于策略的算法

(b)基于价值的算法

(c)基于模型的算法

(d)组合方法

基于策略的算法直接学习将状态映射到行动的随机策略函数。按抽样策略行动。基于价值的算法学习状态或状态-行动价值，它们通过选取状态中的最佳行动来行动。基于模型的算法学习世界模型，然后计划使用该模型，因此需要常常更新和重新规划世界模型。

基于策略的算法：在基于策略的算法中，策略将状态映射到行动。学习策略的学习智能体可创建从当前状态到目标的行动轨迹。例如，考虑智能体，车辆生态***单元，它正在优化策略以在红色信号时停止车辆。首先，它可采取随机行动，类似降低速度、减少燃料喷射等，但它没有接收任何奖励，或者价值函数降低、极少改善或没有改善。最后，当它的行动是及时施加制动时，它会因为在红色信号处成功停止而获得奖励。它追溯其行动并重新调整奖励，即基于其使智能体与停止车辆的最终目标的接近程度的每个状态-行动对的价值函数。在下一场景中，学习智能体可更好地理解在给定每个状态时要采取哪些行动。随着时间的推移，它会逐渐调整策略，直到收敛到最优解决方案。

基于价值的算法：基于价值的函数学习评估状态和行动的价值。基于价值的函数帮助学习智能体评估当前状态和行动的未来可能回报。基于价值的函数有两种变体，Q-价值和V-价值。Q函数估计状态-行动对的预期回报，而V函数仅估计状态价值。

基于模型的算法：基于模型的算法尝试在给定当前状态和行动的情况下预测环境的状态。基于模型的强化学习允许智能体在采取任何行动之前模拟不同的轨迹。基于模型的方法为智能体提供了远见，并减少了通过经验收集数据的需要。

组合方法：此方法组合了不同类型的学习函数的元素。例如，Actor-Critic算法结合了基于策略和基于价值的函数的长处。这些算法使用来自价值函数(批评者)的反馈来引导策略学习者(行动者)朝着正确的方向前进，从而导致更有效的样本***，其中，样本效率由要学习的算法的所需标记数据量来测量。

在一实施方式中，全局治理模块的学习智能体可在其学习智能体中使用基于策略的、基于价值的、基于模型的或混合算法中的一个。

图4示出了车辆生态***中的智能体环境交互。根据一实施方式，学习智能体104与环境交互并协调各车辆生态***模块或车辆生态***单元之间的通信。***可能正在执行行动304，该行动包括来自各车辆生态***单元的行动链401，导致对***的聚合行动。

全局治理模块及其通信***的功能包括：

(a)各***之间基于其状态函数的行动消息的协调和调解。

(b)注册新***。

(c)注销***。

(d)威胁感知和检测。

根据一实施方式，作为第一车辆生态***单元的靶***Tx与作为第二车辆生态***单元的另一靶***Ty通信。然而，初始注册、扫描、协商是经由包括通信单元的治理模块发生的。在一时间段内，通过多次迭代，它基于事务历史构建了具有***、状态和行动类型、价值函数的全局环境矩阵。将治理模块视为***Ti，定义了可接受的状态和价值函数集合。

在一实施方式中，框架包括多个学习智能体，每个都专注于任务的不同方面。每个车辆生态***模块/单元都可以是智能体。每个智能体都有其自己的奖励函数，指定了其的学习目标。例如，在避免与障碍物发生碰撞时，一个智能体(比如转向***)可关注避障，另一智能体(比如速度控制***)可关注驾驶速度，而另一智能体(制动***)可关注制动。如果撞到障碍物，负责避障的智能体收到不同幅度的负奖励，而那些不负责的***不会收到任何其奖励的变化。在一实施方式中，多个智能体可并行行动。

车辆生态***模块、局部环境矩阵和全局治理模块、全局环境矩阵

图5A和图5B示出了根据一实施方式的车辆生态***模块和局部环境矩阵细节。如图5A所示，车辆生态***模块102包括通信***105和第一车辆生态***单元106，该第一车辆生态***单元包括局部环境矩阵108、局部目标函数和局部约束函数110。它还包括行动者、策略数据、行动。

根据一实施方式，如图5B所示，每个车辆生态***单元106包括局部环境矩阵，其包括资源列表、行动矩阵以及相应的策略和价值函数。

根据一实施方式，局部环境矩阵包括状态、多个源、局部目标函数、局部约束函数、包括具有策略学习智能体的策略函数的策略函数、以及要基于上下文生成结果的价值函数，其中，所述多个源包括对其采取行动的任何车辆生态***单元。使用治理结构和通信子***，每个VEU同步有关局部环境矩阵的最新信息。根据行动者的每个状态，基于状态-价值函数和目标函数，每个行动者与相关行动者进行通信并调用适当的行动以对齐满足局部目标函数和全局目标函数的策略函数。

车辆内或外的任何通信子***都被视为行动者或VEU。车辆具有连接到云的通信装置，例如远程信息处理和连接天线模块(TCAM)，应称为行动者/VEU。云端点也应是行动者/VEU以及更多示例，道路基础设施、其他车辆连接模块、充能基础设施***、应急控制室、城市交通***和所述或一(the or a)车辆子***内的任何其他相关电子控制单元(ECU)。

根据一实施方式，全局治理模块的第二通信***连接到云，其中，云包括以下中的一个：远程信息处理和连接天线模块(TCAM)、道路基础设施***、其他车辆连接模块、充能基础设施***、应急控制室、城市交通***、车辆子***内的，任何其他相关的，ECU。

根据一实施方式，全局治理模块的第二通信***包括接收器和发射器。

车辆生态***模块从全局治理模块更新局部环境矩阵。

根据一实施方式，车辆生态***模块配置为与全局治理模块通信以同步局部环境矩阵。

根据一实施方式，VEU将信息反馈给全局治理模块并获取最新信息的频率是随机意义自适应的或可配置为恒定价值的确定性意义，或基于场景和场景内的必要性的动态意义。

图5C和图5D示出了根据一实施方式的全局治理模块和全局环境矩阵细节。如图5C所示，全局治理模块101可在***内部或外部。全局治理模块包括通信***、协议单元103和学习智能体104。在一实施方式中，通信单元包括学习智能体。在另一实施方式中，协议单元包括学习智能体。全局治理模块包括第一车辆生态***单元106、第二车辆生态***单元107、第三车辆生态***单元108等，并且可单独地或组入各车辆生态***模块。***配置为用于车辆生态***模块和全局治理模块之间的自主通信。包括学习智能体104的全局治理模块包括深度强化学习模块，并且配置为当车辆中的能源被打开时连续学习和更新规则以用于第一车辆生态***模块的结果。全局治理模块促进任何两个车辆***模块或车辆生态***单元之间以及车辆生态***模块和全局治理模块之间的通信。

在一实施方式中，第一车辆生态***单元和第二车辆生态***单元之间的通信配置为调用结果以对齐满足局部目标函数和全局目标函数的策略函数。学习智能体配置为基于全局治理模块的策略和价值函数连续学习。

根据一实施方式，全局治理模块协调第一车辆生态***单元和第二车辆生态***单元之间的通信，并且定义第一车辆生态***单元和第二车辆生态***单元之间的通信的规则和序列。

根据一实施方式，全局治理模块配置为感知和检测威胁。

学习智能体104包括用以评估场景的深度强化学习模块，其中，***配置为可选地在自主模式中能够启用功能而没有基于规则的***。

根据一实施方式，评估场景包括分析结果，该结果包括当其被***采取时将***从当前状态转换到下一状态的行动。***状态不是离散实体，而是频谱或连续函数。一般，***通过选择正确的行动类型从频谱状态的低值端朝向频谱状态的高值端移动。函数代表发生在***之间并修改预定义状态的任何类型的***事务。

根据一实施方式，全局治理模块包括全局环境矩阵，该全局环境矩阵包括：多个靶***、全局策略函数和全局价值函数，状态目录、通信目录、全局目标函数和全局约束函数。

根据一实施方式，包括学习智能体的策略函数和价值函数是可定制的并且可由根据一实施方式的原始设备制造商配置。

根据一实施方式，包括深度强化学习模块的学习智能体通过将状态和行动映射到结果来学习如何达到全局目标函数。

根据一实施方式，行动将车辆的当前状态改变为车辆的新状态。学习智能体基于来自***结果的反馈更新规则。协议规则的更新基于连续学习。

如图5D所示，全局环境矩阵包括对应于每个靶***的行动类型、策略更新、价值函数、状态目录和通信目录。靶***是包含行动者和源的车辆生态***单元。行动者是执行行动的车辆生态***单元，而源是在其上执行行动的车辆生态***单元。

行动类型指代正在执行的行动的类型。这些变量可由***基于经验、历史数据定义，也可预编码到***中。

应用策略评估随后应用策略改进被称为策略更新。给定任意的初始策略，连续的策略更新会产生一系列改进策略，最终将达到最优策略。

单元的***的价值函数定义为f(x1,x2..xn)，其中，x1,x2..xn是***或单元的独立状态变量。

状态目录包括s1、s2、s3...sn，它们是***可接受的状态，并且s1、s2..sx是***状态的当前集合。对于每个靶***，每个状态都表示为独立状态变量x1、x2、..的函数，如s1(x1,x2...xn)和s2(x1,x2..xn)等等。s1,s2,s3...sn用于计算价值函数。

通信目录指代每个靶***支持的通信协议的列表。

状态-价值矩阵：***可具有多个价值函数并且每个价值函数由多个状态治理。在一实施方式中，***指代车辆内的车辆生态***单元或车辆网关单元。然而，原始设备制造商(OEM)可在车辆内定义和定制任意数量的独立***。

示例性状态价值矩阵在图6中示出。价值函数表示为V1、V2、V3，其中，

(a)V1表示为g1(f1(W1*X1),f2(W2*X2)...fn(Wn*Xn))的函数(b)V2表示为g2(f1(W1*X1),f2(W2*X2)...fn(Wn*Xn))的函数(c)Vn表示为gn(f1(W1*X1),f2(W2*X2)...fn(Wn*Xn))的函数

其中，W1、W2..Wn是对应于相应状态S1、S2……Sn的权重，X1、X2……Xn是在确定用于状态S1、S2、……Sn的价值函数时朝向状态的偏置价值。V1,V2…Vn是价值函数，而g1,g2…gn是诸如f1,f2…fn的组成函数的复合函数。它计算与价值函数相关的活动状态。

状态转换矩阵：状态转换矩阵可视化在具有可接受的行动类型集合的状态之间的转换。一***可同时处于多个状态。在任何给定时间，***都希望从其价值函数中增加价值，无论是短期的还是长期的，它努力使用各行动类型移到高价值状态。如果在靶***上执行特定行动类型，并且靶***响应回去，则源***状态从S1移到Sx。根据一实施方式，状态转移矩阵如图7所示。

***-状态-行动类型矩阵：使用状态-价值矩阵和状态转移矩阵计算价值函数。每个状态都由一变量集合控制，这些变量将状态强度定义为光谱。状态转换矩阵包含有关实现状态转换所需的行动类型的信息。在另一目录中，如图8所示的靶***-状态-行动类型矩阵结合如图7所示的状态-转移矩阵通过选择正确的状态转移与相应的行动类型和靶***来执行行动，帮助***最大化***的长期价值。根据一实施方式，在***中处理状态之间的依赖性、互斥性。

***策略函数：作为用于全局治理模块的靶单元的每个车辆生态***单元，表示为Ti，具有策略函数集合P1、P2...Pn，其影响状态-行动类型选择过程以便最大化价值。

行动生成机制：行动内容模板对于每个行动类型都是唯一的，并且内容是基于由行动类型定义的变量生成的。每个行动表示为

(a)A1＝A1(x1,x2...xn)

(b)A2＝A2(x1,x2...xn)...

(c)An＝An(x1,x2...xn)

用于生成和计算行动的环境矩阵和函数将被容纳在每个车辆生态***单元中，朝向***在各场景中的应用。

消息合成机制：行动变量中的一个是用于给定层的通信协议的选择，其必须由靶***Ti支持。用于每个协议/层的通用内容生成***，基于由行动变量集合控制的协议语法和消息内容。

由于应用层协议是MQTT、AMQP、STOMP等，因此开发了两个变体用于在协议上不一致的任何两个***之间的通信。

在一实施方式中，有效负载内容由基于行动类型的模板化内容定义，如图9所示。模板中的变量被替换为行动变量和状态变量的价值。在示例中，车辆网关单元、第一车辆生态***单元，向充能基础设施、第二车辆生态***单元请求充能细节和意图。在一实施方式中，充能基础设施***可能会供给充能容量、在站的等待时间、当前队列大小、充能速率为一些变量。这些变量将被填充到模板中，如图9所示。取决于靶***的协议、包括第一车辆生态***单元的车辆网关单元，和包括第二车辆生态***单元的充能基础设施，将使用模板化内容生成相应的应用层协议有效负载。

第二车辆生态***单元的结果，即充能基础设施可根据一实施方式提供消息为“请找到充能基础设施价值作为<A1>、<A2>、<An>(Please find charging infrastructurevalues as<A1>,<A2>,<An>)”，其中，A1、A2…An,将基于充能基础设施***的当前状态填充实际价值。

在另一实施方式中，有效负载内容生成可基于预定义元结构并且实际内容基于所请求的有效负载的内容。在一实施方式中，基于机器学习技术自然语言处理-来自转换器的双向编码器表示(NLP-BERT)、生成式预训练转换器2(GPT2)、生成式预训练转换器3(GPT3)技术的预训练模型生成基于请求的有效负载的内容的响应。广泛的基于场景的训练数据集将用于产生高度准确的训练模型。在一实施方式中，OEM或实施供应商可取决于场景和实施策略选择合适的变体。

根据一实施方式，协议单元包括预定义消息模板，该预定义消息模板包括消息结构，该消息结构包括头部、源、源类型、行动者、行动者类型、行动、行动类型、包括行动模板的有效负载、行动者状态价值、包括行动者密钥的签名，其中，行动者是执行结果的第一车辆生态***单元，而源是在其上执行结果的第一车辆生态***单元。

根据一实施方式，协议单元包括预定义元结构，其中，实际消息内容取决于请求内容有效负载。在一实施方式中，协议单元包括基于NLP-BERT、GPT2、GPT3技术的预训练模型生成基于请求内容有效负载的响应。

在一实施方式中，协议单元包括消息上层结构以容纳包括AMQP、MQTT、STOMP、Zigbee、UDS、ODX、DoIP和OBD的任何子协议结构。

在一实施方式中，价值函数由几个参数集合定义，包括但不限于***之间的事务效率、受治理的***的稳定性、解决***从不稳定到稳定状态的时间、注册和注销***的数量、治理的***数量等。

根据一实施方式，策略函数影响被治理的***的行为。在一实施方式中，这些包括但不限于***的能量效率、低内存和延迟事务。

基于策略和价值函数，全局治理模块的学习智能体在多次迭代中进行通信、学习和改进。在一实施方式中，可将具有任何价值和策略函数的预训练学习模型部署到包括通信***的现有治理模块。在一实施方式中，全局治理模块的学习智能体包括基于靶***及其事务之间的调解而构建的价值和策略函数。

根据一实施方式，学习智能体基于全局治理模块的策略函数和价值函数连续学习。

根据一实施方式，全局治理模块在云中，并且车辆网关***通过地理围栏机制与其连接，这意味着取决于汽车或车辆位置，相应的区域治理模块进行控制。

根据另一实施方式，区域治理模块可以是车辆生态***模块和全局治理模块的中间体。在一实施方式中，该***可包括区域治理模块，作为车辆生态***模块和全局治理模块的中间体。

车辆生态***模块内或车辆生态***模块外的车辆生态***单元相互通信。生态***单元之间的初始协商通过全局治理模块进行。随后，根据一实施方式，每个生态***单元可直接交互，同时事务的细节被反馈给全局治理模块。

一实施方式涉及一方法，所述方法包括以下步骤：从包括第一车辆生态***单元和第一通信***的第一车辆生态***模块接收通信，第一通信***包括局部环境矩阵，通过包括全局治理模块的深度强化学习模块的学习智能体评估场景，通过与全局治理模块通信，动态同步第一车辆生态***模块的局部环境矩阵，基于由学习智能体做出的决定确定第一车辆生态***单元的结果，其中，学习智能体配置为当车辆中的能源被打开并执行结果时连续学习并更新规则以用于车辆的结果，其中，该方法配置为用于在第一车辆生态***模块和全局治理模块之间的自主通信，其中，该方法配置可选地在自主模式中能够启用功能而没有基于规则的***，其中，基于规则的***不包含学习智能体，其中，可选地没有固定协议用于第一车辆生态***单元和第二车辆生态***单元之间的通信，使得第一车辆生态***单元和第二车辆生态***单元之间的通信独立于固定协议，并且第一车辆生态***单元和第二车辆生态***单元通信，即使第一车辆生态***单元和第二车辆生态***单元在通信之前没有同意协议，并且其中，第一车辆生态***单元的结果是基于由学习智能体做出的决定来确定的。

根据一实施方式，方法是在其上存储有可由计算机***执行的指令的非暂时性计算机可读介质上执行的。

在一实施方式中，已经讨论了一些场景以及车辆生态***单元、它们的设置和价值。原始设备制造商或解决方案实施者可定义和定制***边界、VEU边界、状态价值矩阵、行动类型和价值体系。一目标是在车辆生态***中创建稳态。就像生物体找到保持在稳定状态的机制一样，车辆生态***单元协调并保持稳定状态。

根据一实施方式，状态价值矩阵定义为如图10所示。示例性状态函数定义为医疗紧急情况、车辆紧急情况、路线准确性、交通准确性、服务辅助、燃料效率、乘客舒适性、燃料水平、驾驶员辅助、道路辅助、天气辅助、运输辅助、驻车辅助、车队模式等。根据一实施方式，使用提到的每个状态函数来定义三个不同的价值函数，即效率价值函数、安全价值函数和舒适价值函数。

状态函数被计算为如图11所示。例如，考虑行动类型SOS警报和车辆警报，使用来自警报消息的变量乘客健康、碰撞、车辆变形等的函数S1确定是医疗紧急情况还是车辆紧急情况。如图12，图13，图14和图15所示的***-状态-行动转换矩阵被包括在全局治理模块中，并且局部副本将在每个靶***中可用，即车辆生态***模块或车辆生态***单元。上述每个状态都是因变量的函数。因此，它是具有连续状态而不是离散状态的谱。

场景1：根据一实施方式，场景包括第一车辆生态***单元、车辆A与第二车辆生态***单元、云单元通信，以识别城市内的可用车辆集合或用于特定时间量的区域限制，以便第一车辆生态***单元、车辆A可从第三车辆生态***单元(车辆B经批准)下载交通策略数据、驾驶员辅助数据。

包括“traffic_accuracy”价值函数的车辆A网关***的价值减小。这会触发与“traffic_accuracy”状态函数相关联的行动类型，即“traffic_search”、“traffic_update”。通过全局治理模块搜索提供或接收上述行动类型和状态的靶***，其可作为结果返回车辆B和车辆C。全局治理模块协商并建立车辆A和车辆B之间的连接。车辆A通过其网关***通过已建立的连接向车辆B请求“traffic_info”和“traffic_update”。“Traffic_accuracy”状态被重新估计，并且“traffic_accuracy”价值函数恢复常态。车辆B通过其网关***向车辆A发送“traffic_info”和“traffic_update”。车辆A、车辆B和车辆C是车辆生态***单元，通过其网关***经由全局治理模块进行通信。如果没有这样的全局治理模块来导航，那么如果车辆A、车辆B和车辆C之间的通信协议不一致，那么它们之间的通信就不会发生。

场景2：第一车辆生态***单元、车辆A，与交通和道路基础设施***通信以获取用于给定目的地和路线集合的前期信息，其中，前期信息包括通行费、道路基础设施质量、包括电车、公共汽车、火车和建筑工程等公共交通干预的可能数量。场景的前期信息包括定性和定量数据。

车辆A通过其网关***，发现“passenger_comfort”价值函数、“safety”价值函数正在降级，并触发车辆A选择或寻找导致价值下降的状态，即“road_assistance”、“transport_assistance”以及“route_assistance”。车辆A将状态和相应的行动类型发送到全局治理模块，请求适当的靶***。从全局治理模块接收到靶***和细节后，车辆A开始与相应***进行协调，并发送具有相应状态函数的“action_type”请求。在收到来自相应***的更新后，“action_type”将状态恢复回到常态，并且“passenger_comfort”和“safety_value”函数会基于重新估计和结果开始改进。

全局治理模块从车辆A接收请求以识别靶***，并以靶***列表(如道路基础设施、交通控制***)来响应。

道路基础设施***接收来自车辆A的请求，并以道路信息更新来响应。

交通控制***接收来自车辆A的请求，并以交通信息更新来响应。

场景3：第一车辆生态***单元、车辆A与当地天气***通信以获取用于给定目的地和路线的早期接近准确的天气。第一车辆生态***单元与具有给定目的地和路线的道路照明***通信，以获取定量和定性数据，从而为决策制定提供更好的洞察力。第一车辆生态***单元与驻车***通信，为给定的目的地路线和包括购物、食物和娱乐的途中行程的集合找到可用的驻车位。

车辆A通过其网关***发现“passenger_comfort”和“safety”价值函数由于状态函数“weather_assistance”状态、“road_assistance”状态和“parking_assistant”而降低了价值。它向全局治理模块发送请求，以查找可对降级状态函数和行动类型采取行动的靶***。它向全局治理模块建议的靶***发送行动类型请求，并在收到来自这些***的响应后重新评估状态函数。

全局治理模块从车辆A接收请求以识别靶***，并以靶***列表(如天气***、道路基础设施、驻车***)作为响应。

天气***从车辆A接收行动类型请求，并以信息或行动确认来响应。

道路照明***从车辆A接收关于照明资产和质量的信息，并以维修活动的细节或确认作为响应。

驻车***从车辆A接收行动类型请求，并以驻车容量、时间、费用和行动确认作为响应。

场景4：第一车辆生态***单元与充能基础设施通信，以获取充能槽的可用性、充能速度和范围。如果充能基础设施出现问题，第一车辆生态***单元会向充能中央***发出有关充能站故障的警报，并从充能基础设施发送诊断数据。

车辆A通过其网关***发现燃料价值函数由于触发相应行动类型的燃料状态函数而降低。车辆A向用于支持相应状态和行动功能的靶***的全局治理模块发送请求。在收到来自全局治理模块的响应后，车辆A向充能基础设施***发送请求，以获取更多信息并安排充能槽的时段。基于来自充能基础设施的响应，它更新状态函数并适当地重新评估价值函数。如果响应是负的，则车辆A向充能中央网关发送进一步的请求，以报告充能基础设施的状态、行动类型和状态。在收到来自充能中心网关的响应后，***更新状态函数和价值函数。

充能基础设施在接收到来自车辆A的请求之后，以充能基础设施细节适当地响应。

全局治理模块，接收请求并向车辆A提供充能基础设施和中央网关***的列表。

充能中心网关，在接收到来自车辆A的请求时，以确认对基础设施采取的行动或计划的行动作出响应。

场景5：第一车辆生态***单元、包括网关单元的车辆A使用基于位置的***来发送紧急警报以在前往移动车辆服务***的途中。半自主或自主的移动车辆服务***配置为抵靠第一车辆生态***单元运行定期诊断故障排除，并配置为在可能时执行服务和更换，或配置为建立连接到紧急支持***以拖曳车辆到最近的服务站。

车辆A通过其网关***发现“安全”和“舒适”价值函数由于服务请求或车辆紧急状态函数降低中或已降低而降低中或已降低。它向全局治理模块发送带有状态和行动类型的请求，以找到靶***来执行行动类型。车辆A向相应移动车辆服务***发送信息请求或调度程序服务请求。收到响应后，***更新状态并重新评估价值函数。

移动车辆服务***以信息和可用时间表响应并确认时间表。

全局治理模块，以最近的可能移动服务***响应

场景6：与城市信息中心通信的第一车辆生态***单元帮助其导航，并获取关于城市或相关区域的最新相关更新，其中，最新相关更新包含包括在特定位置的公共事件的定量或定性数据、交通拥堵、下雨造成的交通路由、新策略或法律、任何攻击、或该地区其他部分的事故。第一车辆生态***单元配置为与基于位置的***协同操作以对定量或定性数据进行三角测量。

车辆A通过其网关***发现“safety”和“comfort”价值函数由于“service_request”或“vehicle emergency”状态函数降低中或已降低而降低中或已降低。它向全局治理模块发送带有状态和行动类型的请求，以找到靶***来执行行动类型。车辆A向相应移动车辆服务***发送请求，请求信息或调度程序服务请求。收到响应后，***更新状态并重新评估价值函数。

移动车辆服务***以信息和可用时间表响应并确认时间表。

全局治理模块以最近的可能移动服务***来响应。

场景7：第一车辆生态***单元、车辆A与公共交通***和交通控制***通信，以获取包括在主要高速公路、公路和历史交通概况和模型中的近实时交通拥堵的数据，其中，数据帮助车辆在给定目的地的路线识别方面做出准确的决定。

车辆A通过其网关***发现“comfort”和“traffic”价值函数由于在特定路线中的主要交通拥堵而降低中或已降低。车辆A将相应状态函数“traffic_accuracy”、“route_accuracy”和行动类型发送到全局治理模块。车辆A向作为交通控制***的靶***发送相应状态函数和行动类型请求。在接收到来自靶***的信息后，车辆A更新状态函数并重新评估一时间段内的交通和舒适价值函数。

交通控制***以用于给定区域的交通概况和历史交通模型来响应。

全局治理模块在接收到来自车辆A的请求时，以靶***如交通控制***来响应。

场景8：第一车辆生态***单元、车辆A遇到包括乘客紧急情况的紧急情况，其中，第一车辆生态***单元就关于乘客定量和定性数据的更多细节与救护车***通信。第一车辆生态***单元遇到包括车辆紧急情况的紧急情况，其中，第一车辆生态***单元向车辆紧急情况服务发送和接收车辆诊断信息以路由移动服务站。场景包括第一车辆生态***单元遇到紧急情况，其中，为了可能的辅助，第一车辆生态***单元与第二车辆生态***单元通信。场景包括第一车辆生态***单元遇到紧急情况，然后定量和定性数据与汽车保险***共享以利用保险利益和调整保费。

车辆A遇到紧急情况，并且乘客紧急情况***与救护车***就关于乘客定量和定性数据的更多细节进行通信。车辆紧急情况***向车辆紧急情况服务发送和接收车辆诊断信息，以路由移动服务站。为了在紧急情况下的可能辅助，车辆A与车辆B通信。此外，定量和定性数据与汽车保险***共享以利用保险利益和调整保费。

车辆A通过其网关***发现车辆事故引起车辆损坏，并且“vehicle safety”、“vehicle comfort”、“passenger safety”和“passenger comfort”价值函数由于“vehicleemergency”、“passenger emergency”状态函数减少而急剧降低。它以相应行动类型向全局治理模块发送请求。在接收到来自全局治理模块的响应后，它会向适当的靶***发送请求，诸如具有相应状态函数和行动函数的紧急情况***。在收到来自相应靶***的响应后，它更新状态函数并以连续的方式重新评估相应价值函数，直到安全价值函数高于阈值。

全局治理模块基于适当的状态函数和行动函数以相应靶***来响应回。

车辆B通过其网关***，在接收到信息后，转发到其他已知的车辆节点或以到达时间表来响应。

车辆紧急情况***在接收到请求后，以信息更新和到达时间表来响应。

医疗紧急情况***在接收到请求后，以确认响应并在需要时安排救护车或移动医疗急救车到现场。

场景9：当所有者启用车队模式以获得额外收入时，第一车辆生态***单元、车辆A与车队管理***通信。在基于位置的***的帮助下，车队管理***对第一车辆生态***单元的位置或定位进行三角测量，并在作为车队的部分的第二车辆生态***单元、车辆B的帮助下确认位置。车队模式保持直到所有者基于策略函数决定退回。

车辆A通过其网关***发现车辆A，在车队模式开启的情况下，“fleetefficiency”价值函数具有低价值并且相应“fleet_mode”状态函数具有低价值。它触发车辆A向全局治理模块发送状态函数和相应行动类型，以获取靶***。车辆A发送带有状态函数和行动类型的请求向相应靶***、车队管理***到一些位置近的车队。通过来自车队管理和车辆B***的信息，它基于结果更新相应状态函数并重新评估价值函数。

车队管理***，在接收到注册/注销请求时，***基于车队的状态来响应回。

车辆B通过其网关***，在接收到集群注册/注销请求时，适当地响应回。

全局治理模块以靶***信息来响应回，诸如车队管理***和其他车辆，在这种情况下是车辆B，以车队模式注册。

Claims

1.车辆的***，包括：

第一车辆生态***模块，所述第一车辆生态***模块包括第一通信***和第一车辆生态***单元，所述第一车辆生态***单元包括局部环境矩阵，其中，第一车辆生态***模块包括车辆的第一硬件部件；

其中，所述***配置为在第一车辆生态***模块和***内部的全局治理模块之间进行自主通信，全局治理模块包括：学习智能体和包括协议单元的第二通信***；

其中，学习智能体配置为当车辆中的能源被打开时连续学习和更新规则以用于第一车辆生态***模块的结果；

其中，所述***配置为用于第一车辆生态***单元和第二车辆生态***单元之间的自主通信；

其中，学习智能体包括：用以评估场景的深度强化学习模块；

其中，所述***配置为在自主模式中能够启用功能；

其中，第一车辆生态***单元和第二车辆生态***单元之间的通信独立于固定协议；以及

其中，第一车辆生态***单元的结果是基于由学习智能体做出的决定而确定的。

2.根据权利要求1所述的***，其中，第一车辆生态***模块包括：功能边界。

3.根据权利要求1所述的***，其中，第一车辆生态***模块包括：结构边界，其中，第一车辆生态***模块的结构边界包括：道路基础设施***、云***、车辆子***，所述车辆子***还包括传动***、转向***、悬挂***、燃料喷射***、制动***、通信***。

4.根据权利要求1所述的***，其中，第一车辆生态***模块配置为与全局治理模块通信以同步局部环境矩阵。

5.根据权利要求1所述的***，其中，局部环境矩阵包括：状态、多个源、局部目标函数、局部约束函数、策略函数和价值函数，用以基于上下文生成结果，其中，所述多个源包括对其采取行动的任何车辆生态***单元。

6.根据权利要求1所述的***，其中，全局治理模块包括：全局环境矩阵，所述全局环境矩阵包括：多个靶***、全局策略函数和全局价值函数，状态目录、通信目录、全局目标函数和全局约束函数。

7.根据权利要求1所述的***，其中，深度强化学习模块包括以下中的至少一个：动态规划、蒙特卡罗、时间差分、Q-学习、Sarsa、R-学习和函数逼近法。

8.根据权利要求1所述的***，其中，全局治理模块的第二通信***连接到云，其中，所述云包括以下中的一个：远程信息处理和连接天线模块、道路基础设施***、其他车辆连接模块、充能基础设施***、应急控制室、城市交通***、车辆子***内的任何其他相关电子控制单元。

9.根据权利要求1所述的***，其中，全局治理模块与第一车辆生态***模块和云交互并且从场景确定上下文。

10.根据权利要求1所述的***，其中，全局治理模块协调第一车辆生态***单元和第二车辆生态***单元之间的通信。

11.根据权利要求1所述的***，其中，全局治理模块配置为注册和注销新的车辆生态***单元。

12.根据权利要求1所述的***，其中，全局治理模块定义第一车辆生态***单元和第二车辆生态***单元之间的通信序列。

13.根据权利要求1所述的***，其中，协议单元包括：有效负载内容，其中，有效负载内容的预定义消息模板的变量由行动变量和状态变量的价值填充，其中，预定义消息模板包括：消息结构，所述消息结构包括头部、源、源类型、行动者、行动者类型、行动、行动类型、包括行动模板的有效负载、行动者状态价值、包括行动者密钥的签名，其中，行动者是执行结果的第一车辆生态***单元，并且源是在其上结果被执行的第一车辆生态***单元。

14.根据权利要求1所述的***，其中，协议单元包括：预定义元结构，其中，实际消息内容取决于请求内容有效负载。

15.根据权利要求1所述的***，其中，协议单元包括：消息上层结构以容纳包括AMQP、MQTT、STOMP、Zigbee、UDS、ODX、DoIP和OBD的任何子协议结构。

16.根据权利要求1所述的***，其中，基于全局治理模块的全局策略函数和全局价值函数，更新学习智能体的规则。

17.根据权利要求1所述的***，其中，结果是行动并且基于状态-价值函数和局部目标函数，其中，行动将车辆的当前状态改变为车辆的新状态。

18.根据权利要求1所述的***，其中，第一车辆生态***单元和第二车辆生态***单元之间的通信配置为调用结果以对齐满足局部目标函数和全局目标函数的策略函数。

19.车辆的***，包括：

其中，***配置为用于在第一车辆生态***模块和在***外部的全局治理模块之间的自主通信，全局治理模块包括：学习智能体和包括协议单元的第二通信***；

其中，***配置为用于第一车辆生态***单元和第二车辆生态***单元之间的自主通信；

其中，***配置为在自主模式中能够启用功能；

20.非暂时性计算机可读介质，所述非暂时性计算机可读介质上存储有能够由计算机***实现以执行方法的指令，该方法包括：

从包括第一车辆生态***单元和第一通信***的第一车辆生态***模块接收通信，第一通信***包括局部环境矩阵；

由包括全局治理模块的深度强化学习模块的学习智能体评估场景；

通过与全局治理模块的通信，动态同步第一车辆生态***模块的局部环境矩阵；

基于由学习智能体做出的决定，确定第一车辆生态***单元的结果，其中，学习智能体配置为当车辆中的能源被打开时连续学习和更新规则以用于车辆的结果；以及

执行结果；

其中，所述方法配置为用于第一车辆生态***模块和全局治理模块之间的自主通信；

其中，所述方法配置为在自主模式中能够启用功能；