CN112348201B - 一种基于联邦深度强化学习的自动驾驶群车的智能决策实现方法 - Google Patents
一种基于联邦深度强化学习的自动驾驶群车的智能决策实现方法 Download PDFInfo
- Publication number
- CN112348201B CN112348201B CN202011251880.1A CN202011251880A CN112348201B CN 112348201 B CN112348201 B CN 112348201B CN 202011251880 A CN202011251880 A CN 202011251880A CN 112348201 B CN112348201 B CN 112348201B
- Authority
- CN
- China
- Prior art keywords
- vehicle
- model
- automatic driving
- group
- vehicles
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 56
- 230000002787 reinforcement Effects 0.000 title claims abstract description 50
- 238000012549 training Methods 0.000 claims abstract description 75
- 238000013499 data model Methods 0.000 claims abstract description 29
- 230000006870 function Effects 0.000 claims abstract description 28
- 238000004891 communication Methods 0.000 claims abstract description 25
- 238000004364 calculation method Methods 0.000 claims abstract description 23
- 238000013528 artificial neural network Methods 0.000 claims abstract description 21
- 238000013135 deep learning Methods 0.000 claims abstract description 9
- 230000007613 environmental effect Effects 0.000 claims abstract description 5
- 230000006399 behavior Effects 0.000 claims description 24
- 238000005457 optimization Methods 0.000 claims description 12
- 230000003993 interaction Effects 0.000 claims description 9
- 238000003062 neural network model Methods 0.000 claims description 9
- 230000009471 action Effects 0.000 claims description 5
- 238000005516 engineering process Methods 0.000 claims description 5
- 230000008569 process Effects 0.000 claims description 5
- 230000019771 cognition Effects 0.000 abstract description 2
- 230000009286 beneficial effect Effects 0.000 abstract 2
- 238000013468 resource allocation Methods 0.000 abstract 1
- 230000005540 biological transmission Effects 0.000 description 6
- 238000013473 artificial intelligence Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/602—Providing cryptographic facilities or services
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2221/00—Indexing scheme relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F2221/21—Indexing scheme relating to G06F21/00 and subgroups addressing additional information or applications relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F2221/2107—File encryption
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Bioethics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Computer Security & Cryptography (AREA)
- Evolutionary Computation (AREA)
- Computer Hardware Design (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Traffic Control Systems (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Mathematical Physics (AREA)
Abstract
本发明公开了一种基于联邦深度强化学***衡问题,有助于实现计算负载和资源分配更加智能,也实现了自动驾驶汽车群体决策的强大环境认知能力。
Description
技术领域
本发明涉及人工智能技术领域,涉及一种基于联邦深度强化学习的自动驾驶群车的智能决策实现方法。
背景技术
人工智能技术促进了自动驾驶汽车的发展,例如深度学习在自动驾驶汽车环境感知的应用,可以实现对复杂道路前方环境的目标识别和跟踪,深度强化学习在较为简单的道路环境中可以实现稳定的决策。随着道路环境的日益复杂,尤其多辆自动驾驶汽车在复杂道路环境行驶情况,要求车辆能适应环境变化的稳定性智能决策,以确保自动驾驶汽车的行驶安全性。然而在复杂道路环境下,采用强化学习算法实现自动驾驶的智能决策,并不能保证其正确性和准确性;尽管还有其余方法采用车辆与云计算服务器通信方式实现决策功能,但大批量数据传输会引起通信网络时延,大批量的数据信息也会引起深度学习网络层数和宽度不断增加,也增加了数据访问外存的时间延迟,同时每辆车的大批量重要数据的传输也会引起数据隐私问题,防止被其它用户窃取,尤其涉及到一些重要的数据信息是需要隐私保护的,以确保自动驾驶汽车的行驶安全性,因此,采用传统的云计算服务器与自动驾驶汽车的通信方式实现车辆的决策功能是存在一定局限性的。联邦学习是人工智能领域的一个新研究方向,其主要特点是将各个智能体的模型综合起来产生更为优化的学习型模型,并能实现大批量数据不必在车辆之间和车与服务器之间进行传输,就可以实现深度学习的训练数据,而是通过仅仅将更新的模型上传至响应的服务器,就可以解决实现智能体的优化运用模型,并保持各个智能体数据的隐私和安全。联邦学习方法不仅可以充分利用各个智能体的大数据进行模型训练,而且可以通过不同智能体在不同工作环境产生的不同模型,进一步可以产生更为完备的优化模型,能确保智能体在较短时间内的智能决策功能。通过在深度强化学习中引入联邦学习,有助于实现自动驾驶群车在复杂道路环境的智能决策。
发明内容
本发明的主要目的在于提供一种基于联邦深度强化学习的自动驾驶群车的智能决策实现方法,旨在解决现有技术中自动驾驶决策的准确性和行驶安全性问题,难以建立保护自动驾驶汽车的重要数据隐私和数据安全问题,以及减少大数据信息在车辆之间和车辆与服务器之间的信息传输问题,以确保自动驾驶群车能在不同环境实现智能决策的功能。
为实现上述目的,本发明提供一种基于联邦深度强化学习的自动驾驶群车的智能决策实现方法,所述自动驾驶群车是由Ni辆车组成,定义数组i∈{1,2,3,…,n},所述的联邦深度学习方法包含以下内容:
1、所述自动驾驶群车中的每辆自动驾驶汽车都是安装多种激光雷达、摄像头、毫米波雷达、定位***和具有存内计算特点的处理器;采用云计算服务器用来进行综合训练数据进行优化模型,采用边缘计算服务器用来进行分布式训练数据,并且与车辆、云计算服务器进行并行优化模型功能,所述车辆安装具有训练深度学习的处理器;
2、采用通信装置,用来链接车与车之间、车与基础设施,如云计算服务器和边缘计算服务器的信息传输功能;
3、可选地,在同一路径较短路段的自动驾驶群车,每一车辆根据道路环境和周围行车情况,不断获取环境知识,通过改变行为策略,来选择合适的决策策略来适应环境;
4、可选地,在同一路段的自动驾驶汽车的行驶状态、道路环境数据、交通信息以及天气信息,尤其当车辆经过各种较为复杂的交叉路口或者在频繁多变天气下的湿滑道路环境时,自动驾驶群车的每辆车不断对环境进行观察,并且在车辆自身的神经网络内训练模型,与云计算服务器的模型协作优化模型,并将优化的模型不断解密和加密的过程,在车辆与服务器之间的模型发布,最终实现车辆的智能决策行为;
5、自动驾驶汽车根据智能决策对环境的观测和奖励,实时调整其路径规划方案,并可以根据决策行为,对路径规划进行稳定性和可靠性的重构设计;
6、可选地,在同一路径较长路段,例如:城市附带交通的十字交叉路口或者各种高架桥等复杂的道路环境,在适当的路段配置云计算服务器和边缘计算服务器,以进行群车的状态和行为预测;
7、可选地,每组自动驾驶群车不断感知周围环境,将获取的来自周围环境的各种数据信息采集完毕后,采用深度强化学习不断对环境进行观测,以获取自动驾驶汽车需要得到环境对应的观察和奖励,同时,采用联邦学习方法实现对每辆车的私有策略模型训练后的加密,并且发送给边缘计算服务器,并结合其边缘神经网络模型进行协作训练,并加密发送给云计算服务器,最终实现车辆终端、边缘计算服务器和云计算服务器三者之间的协作模型训练,从而将最终的训练模型发送给车辆终端,车辆可以迅速做出更为合适的行驶决策;当车辆以较低车速行驶时,只需要在车辆终端与边缘计算服务器之间协作模型训练;当车辆以较高车速行驶时,需要在车辆终端、边缘计算服务器和云计算服务器三者之间进行模型训练,并实时做出决策;
8、可选地,在同一路径较长路段,例如:高速公路或者各种高速高架桥等复杂的道路环境,在适当的路段配置云计算服务器和边缘计算服务器,以进行大规模群车的状态和行为预测;
9、可选地,每组自动驾驶群车的头车的车辆状态、道路环境和交通信息采集完毕后,采用深度强化学习实现对环境的观测,并且采用车车通信的方式实现状态信息交互,车辆可以根据车速和车间据进行实时重新调整组队,每组自动驾驶群车的每辆头车对道路环境进行感知,并且根据自身模型进行训练,然后采用联邦学习方法实现与边缘计算服务器、云计算服务器之间的模型解密和加密的协作训练和发送过程,最终实现头车的智能决策行为;其余群组内车辆的进行正常的自动驾驶汽车的决策行为,并且根据车联网通信的方式实现实时性的群体智能决策功能;
10、自动驾驶汽车根据智能决策对环境的观测和奖励,实时调整其路径规划方案,并可以根据决策行为,对路径规划进行稳定性和可靠性的重构设计。
本发明中,基于联邦深度强化学习方法的自动驾驶汽车群车的智能决策实现方法提供了一个可以用于多车行驶对复杂道路环境的智能决策行为,与现有技术相比,本发明具有如下优点:
1、通过联邦学习方法,通过在不同车辆终端和服务器之间交换模型,同一模型可分发于不同终端进行训练,提高了模型在整体道路环境的整体性和准确性,进而确保自动驾驶汽车在实时道路环境的智能决策行为;
2、通过联邦学***衡问题、降低通信条件的影响,不可预测的通信资源条件都会降低,并且在车辆终端上根据路况信息实时更新,保证了自动驾驶汽车的高效决策行驶;
3、同时联邦学习方法可以保证每辆车的数据信息不必在各终端中收发,而是单独在自身车辆中进行数据训练,提高了对隐私的保护能力。
附图说明
图1是基于同一较短路径的道路交通环境,采用联邦深度强化学习的自动驾驶群车的智能决策行为;
需要说明的是:
①车辆采用强化学习对环境进行观测,从而获得奖励;并进行各自的训练模型;
②将所有车辆训练好的模型信息发送给云计算综合训练模型,云计算综合训练模型对所有的模型信息进行训练;
③云计算综合训练模型将训练好的模型信息发送给所有车辆,并更新车辆的训练模型;
④车辆实时做出智能决策行为。
图2是基于同一较长路径的道路交通环境,采用联邦深度强化学习的自动驾驶群车的智能决策行为;
需要说明的是:
①车辆采用强化学习对环境进行观测,从而获得奖励;并进行各自的训练模型;
②将所有车辆训练好的模型信息发送给边缘计算服务器训练模型,边缘计算服务器训练模型对所有的模型信息进行训练;
③④⑤当车辆行驶环境较为简单时,边缘即使服务器将训练好的模型信息发送给车辆,并更新车辆的训练;当车辆行驶环境较为复杂时,需要周围边缘计算服务器的协作训练模型时,便将其发送到云计算服务器中,云计算服务器进行综合所有边缘计算服务器的模型训练,再将训练好的模型信息以此发送给各边缘计算服务器,边缘计算服务器再将信息发送给车辆;
⑥车辆实时做出智能决策行为。
图3是基于不同路径的道路交通环境,采用联邦深度强化学习的自动驾驶群车的智能决策行为;
①每辆自动驾驶汽车对环境进行观测,从而获得奖励;并进行各自的训练模型;并且每组群车的头车:车辆1、车辆4、车辆5、车辆7的训练数据后的模型,发送给边缘计算服务器进行边缘侧的综合训练数据;
③④⑤当车辆行驶环境较为简单时,边缘即使服务器将训练好的模型信息发送给车辆,并更新车辆的训练;当车辆行驶环境较为复杂时,需要周围边缘计算服务器的协作训练模型时,便将其发送到云计算服务器中,云计算服务器进行综合所有边缘计算服务器的模型训练,再将训练好的模型信息以此发送给各边缘计算服务器,边缘计算服务器再将信息发送给头车1、车辆4、车辆5、车辆7,然后再通过车联网通信的方式,将数据信息发送到其余车辆中;
⑥车辆实时做出智能决策行为。
具体实施方式
下面结合具体实施例对本发明进行详细说明。然而应当理解,实例的提供仅为了更好地理解本发明,它们不应该理解成对本发明的限制。
一种基于联邦深度强化学习的自动驾驶群车的智能决策实现方法,其技术方案包括以下步骤:
步骤1、所述自动驾驶群车中的每辆自动驾驶汽车都是安装多种激光雷达、摄像头、毫米波雷达、定位***和具有存内计算特点的处理器;采用云计算服务器用来进行综合训练数据进行优化模型,采用边缘计算服务器用来进行分布式训练数据,并且与车辆、云计算服务器进行并行优化模型功能,所述车辆安装具有训练深度学习的处理器;
步骤2、采用通信装置,用来链接车与车之间、车与基础设施,如云计算服务器和边缘计算服务器的信息传输功能;
步骤3、可选地,在同一路径较短路段的自动驾驶群车,每一车辆根据道路环境和周围行车情况,不断获取环境知识,通过改变行为策略,来选择合适的决策策略来适应环境;(即在同一路径较短路段的自动驾驶群车,采用深度强化学习方法将自动驾驶群车的每辆车不断对环境进行观察,并且采用联邦学习方法在车辆自身的神经网络内训练模型,与云计算服务器的模型协作优化模型,并将优化的模型不断解密和加密的过程,在车辆与服务器之间的模型发布,最终实现车辆的智能决策行为。)具体的:
步骤4、进一步,在同一路段的自动驾驶群车的车辆状态、道路环境数据、交通信息数据以及天气信息数据,不必发送给其余车辆和服务器;
步骤5、进一步,所有的自动驾驶汽车参与者根据当前环境的观察状态进行动作决策,尤其当车辆经过交叉路口和雾天、雨和雪天等环境下湿滑的道路环境时,每辆自动驾驶汽车需要得到环境对应的反馈结果,包括当前环境的观察和奖励;
步骤6、进一步,每辆自动驾驶汽车将观察内容在各自车载处理器进行深度强化学习的神经网络以获得其私有策略模型;
步骤7、进一步,采用联邦学习方法对每辆车的私有策略模型进行加密,并且发送给云计算服务器综合神经网络优化模型;
步骤8、进一步,云计算服务器综合神经网络优化模型对每辆车的私有策略模型进行解密,并使用当前的损失函数进行训练神经网络;
步骤9、进一步,云计算服务器将加密过的子模型发送给协作行驶的自动驾驶汽车,每一个自动驾驶汽车对其解密并各自更新网络模型,然后进行更新自动驾驶汽车的网络模型;
步骤10、进一步、每一辆自动驾驶汽车的网络模型更新完毕后,根据强化学习对周围实时性的环境道路的观测,进行智能决策,以实现自动驾驶汽车的实时安全性行驶;
步骤11、进一步,群车内的每辆自动驾驶汽车都可以预测周围车辆的行驶状态,并且可以根据周围车辆预测的行驶状态,采用深度强化学习方法实现自身车辆智能决策功能;
步骤12、自动驾驶汽车可以根据智能决策对环境的观测和奖励,实时调整其路径规划方案,并可以根据决策行为,对路径规划进行稳定性和可靠性的重构设计;
步骤13、可选地,在同一路径较长路段,例如:城市附带交通的十字交叉路口或者各种高架桥等复杂的道路环境,在适当的路段配置云计算服务器和边缘计算服务器,以进行群车的状态和行为预测;(即采用深度强化学习不断对环境进行观测,以获取自动驾驶汽车需要得到环境对应的观察和奖励,采用联邦学习方法实现对每辆车的私有策略模型训练后的加密,并且发送给边缘计算服务器,并结合其边缘神经网络模型进行协作训练,并加密发送给云计算服务器,最终实现车辆终端、边缘计算服务器和云计算服务器三者之间的协作模型训练,从而将最终的训练模型发送给车辆终端,车辆可以迅速做出更为合适的行驶决策)。具体的:
步骤14、进一步、每组自动驾驶群车每辆车的车辆状态、道路环境数据、交通信息数据以及天气信息数据采集完毕后,采用深度强化学习不断的对环境进行观测,每辆自动驾驶汽车需要得到环境对应的反馈结果,包括当前环境的观察和奖励;
步骤15、进一步,每组自动驾驶群车的每辆车根据收集的数据在各自的神经网络里进行训练数据,并且获得私有策略模型;
步骤16、进一步,边缘计算服务器获取每组自动驾驶群车的状态信息、道路环境信息、交通信息以及天气信息;
步骤17、进一步,采用联邦学习方法对每辆车的私有策略模型进行加密,并且发送给边缘计算服务器,边缘计算服务器综合边缘神经网络模型对每辆车的私有策略模型进行解密,并使用当前的损失函数进行训练神经网络;
步骤18、进一步,边缘计算服务器将训练好的数据模型进行加密,并发送给云计算服务器,云计算服务器对每个边缘计算服务器发送过来的数据模型。进行解密,并各自更新网络模型,然后进行更新边缘计算服务器的网络模型;
步骤19、进一步,边缘计算服务器将更新后的网络模型解密后,发送给每辆自动驾驶汽车,每辆自动驾驶汽车的网络模型更新完毕后,根据强化学习对周围实时性的环境道路的观测,进行全局道路的智能决策,以实现自动驾驶汽车的实时性道路安全行驶;如果每组自动驾驶群车中,有一辆或者几辆车辆脱离群组行驶,那么脱离群组行驶的车辆可以自身进行数据训练,并且与边缘计算服务器进行单独的分组模型训练,然后边缘计算服务器将数据模型发送给车辆;
步骤20、进一步,群车内的自动驾驶汽车都可以对周围车辆的行驶状态进行预测,并且可以根据车辆预测的行驶状态,采用深度强化学习方法实现自身车辆智能决策功能;
步骤21、进一步,群车内的自动驾驶汽车的网络数据模型、边缘计算服务器的网络数据模型以及云计算服务器的网络数据模型都是私密性的;
步骤22、进一步,群车内的自动驾驶汽车可以根据智能决策对周围环境的观测和奖励,实时调整各自的路径规划路线;
步骤22、可选地,在不同路径较长路段,例如:高速公路或者各种高速高架桥等复杂的道路环境,在适当的路段配置云计算服务器和边缘计算服务器,以进行大规模群车的状态和行为预测;(即采用深度强化学习实现对环境的观测,并且采用车车通信的方式实现状态信息交互,车辆可以根据车速和车间据进行实时重新调整组队,每组自动驾驶群车的每辆头车对道路环境进行感知,并且根据自身模型进行训练,然后采用联邦学习方法实现与边缘计算服务器、云计算服务器之间的模型解密和加密的协作训练和发送过程,最终实现头车的智能决策行为)。具体的:
步骤23、进一步,每组自动驾驶群车的车辆状态、道路环境数据、交通信息数据以及天气信息数据采集完毕后,采用深度强化学习不断的对环境进行观测,每辆自动驾驶汽车需要得到环境对应的反馈结果,包括当前环境的观察和奖励;
步骤24、进一步,每组自动驾驶群车内的车辆之间通过车车通信方式实现基本状态信息的交互,尤其是每组群车内的车速趋向于匀速情况下,将每组群车当作一辆自动驾驶汽车,就只需要对头车进行智能决策,其余群组内的车辆通过通信的方式实现车辆决策,进而确保群组的行驶;
步骤25、进一步,每组自动驾驶群车的每辆头车对道路环境进行感知,将车辆状态、道路环境数据、交通信息数据以及天气信息数据采集完毕后,采用深度强化学习不断的实现与环境的交互,将每辆自动驾驶汽车与环境交互得到的反馈结果,包括当前环境的观察和奖励;
步骤26、进一步,每组自动驾驶群车的头车根据收集的数据,采用神经网络进行训练数据,并且获得私有策略模型;
步骤27、进一步,采用联邦学习方法对每辆车的私有策略模型进行加密,并且发送给边缘计算服务器,边缘计算服务器综合边缘神经网络模型对每辆头车的私有策略模型进行解密,并使用当前的损失函数进行训练神经网络;
步骤28、进一步,边缘计算服务器获取每组自动驾驶群车的头车的私有网络模型,并采用当前的损失函数进行训练神经网络模型;
步骤29、进一步,边缘计算服务器将训练好的边缘数据模型进行加密,并发送给云计算服务器,云计算服务器对每个边缘计算服务器发送过来的加密的数据模型进行解密,并各自更新网络模型,然后进行更新边缘计算服务器的网络模型;
步骤30、进一步,边缘计算服务器将更新后的网络模型解密后,发送给自动驾驶群车的头车,每辆自动驾驶汽车的头车的网络模型更新完毕后,根据强化学习对周围实时性的环境道路的观测,进行全局道路的智能决策,以实现自动驾驶汽车的实时性道路安全行驶;
步骤31、进一步,群车内的自动驾驶汽车采用车联网通信的方式,将头车的决策信息,发送给后续群组内的自动驾驶汽车,后续的自动驾驶汽车根据车联网通信的数据信息、头车的决策信息以及自身车辆对周围环境的观测和奖励信息,进行自动驾驶汽车的智能决策;群车在行驶时候,可以根据行驶速度进行相应的群组调整,每组群车行驶时,都可以进行自身车辆的数据训练,然后与边缘计算服务器、云计算服务器进行协作训练模型;车辆行驶时,通过车车通信技术实时发布车速和车间距进行群车组队,脱离车队的单车或者多车,都可以单独通过自身车辆的数据训练模型,与边缘计算服务器、云计算服务器协作训练模型;
步骤32、进一步,通过车联网技术和联邦学习方法,群车内的自动驾驶汽车都可以对周围车辆的行驶状态进行预测,并且可以根据车辆预测的行驶状态,采用深度强化学习方法实现自身车辆智能决策功能;
步骤33、进一步,自动驾驶群车的头车的网络数据模型、边缘计算服务器的网络数据模型以及云计算服务器的网络数据模型都是私密性的;
步骤34、进一步、自动驾驶群车可以根据环境的变化,从道路的宏观全局和车辆自身微观局面进行环境的观测,实时调整决策行为。
本发明的自动驾驶群车主要研究在不同种道路交通环境的智能决策行为,采用深度强化学***衡问题,尤其对于高速行驶的自动驾驶汽车,可以解决数据隐私和安全性问题,从而避免将敏感的隐私原始数据上传到服务器,有助于实现计算负载和资源分配更加智能,形成了功能强大的智能,也实现了自动驾驶汽车群体决策的强大环境认知能力。
上述各实例仅用于本发明的技术方案,而非对其限制。本领域的普通技术人员应当理解:可以对前述各实施例所记载的技术方案进行修改或者对其中部分技术特征进行等同替换;这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (4)
1.一种基于联邦深度强化学习的自动驾驶群车的智能决策实现方法,其特征在于,内容包括:
(1)所述自动驾驶群车中的每辆自动驾驶汽车都是安装多种激光雷达、摄像头、毫米波雷达、定位***和具有存内计算特点的处理器;云计算服务器用来进行综合训练数据从而实现优化模型,边缘计算服务器用来进行分布式训练数据,并且与车辆、云计算服务器进行并行优化模型功能,所述车辆安装具有训练深度学习的处理器;采用通信装置,用来链接车与车、车与基础设施;
(2)在同一路径较短路段的自动驾驶群车,采用深度强化学习方法将自动驾驶群车的每辆车不断对环境进行观察,并且采用联邦学习方法在车辆自身的神经网络内训练模型,与云计算服务器的模型协作优化模型,并将优化的模型不断解密和加密的过程,在车辆与服务器之间的模型发布,最终实现车辆的智能决策行为;
(3)在同一路径较长路段,采用深度强化学习不断对环境进行观测,以获取自动驾驶汽车需要得到环境对应的观察和奖励,采用联邦学习方法实现对每辆车的私有策略模型训练后的加密,并且发送给边缘计算服务器,并结合其边缘神经网络模型进行协作训练,并加密发送给云计算服务器,最终实现车辆终端、边缘计算服务器和云计算服务器三者之间的协作模型训练,从而将最终的训练模型发送给车辆终端,车辆根据最终的训练模型做出行驶决策;
(4)在不同路径较长路段,采用深度强化学习实现对环境的观测,并且采用车车通信的方式实现状态信息交互,车辆根据车速和车间距进行实时重新调整组队,每组自动驾驶群车的每辆头车对道路环境进行感知,并且根据自身模型进行训练,然后采用联邦学习方法实现与边缘计算服务器、云计算服务器之间的模型解密和加密的协作训练和发送过程,最终实现头车的智能决策行为。
2.如权利要求1所述的一种基于联邦深度强化学习的自动驾驶群车的智能决策实现方法,其特征在于,所述内容(2)的具体过程为:
①所有的自动驾驶汽车参与者根据当前环境的观察状态进行动作决策,当车辆经过交叉路口和湿滑的道路环境时,每辆自动驾驶汽车需要得到环境对应的反馈结果,包括当前环境的观察和奖励;
②每辆自动驾驶汽车将观察内容在各自车载处理器进行深度强化学习的神经网络以获得其私有策略模型;采用联邦学习方法对每辆车的私有策略模型进行加密,并且发送给云计算服务器综合神经网络优化模型;
③云计算服务器综合神经网络优化模型对每辆车的私有策略模型进行解密,并使用当前的损失函数进行训练神经网络;云计算服务器将加密过的子模型发送给协作行驶的自动驾驶汽车,每一个自动驾驶汽车对其解密并各自更新网络模型,然后进行更新自动驾驶汽车的网络模型;每一辆自动驾驶汽车的网络模型更新完毕后,根据强化学习对周围实时性的环境道路的观测,进行智能决策,以实现自动驾驶汽车的实时安全性行驶;
④群车内的每辆自动驾驶汽车都预测周围车辆的行驶状态,并且根据周围车辆预测的行驶状态,采用深度强化学习方法实现自身车辆智能决策功能。
3.如权利要求1所述的一种基于联邦深度强化学习的自动驾驶群车的智能决策实现方法,其特征在于,所述内容(3)的具体过程为:
①每组自动驾驶群车每辆车的车辆状态、道路环境数据、交通信息数据以及天气信息数据采集完毕后,采用深度强化学习不断的对环境进行观测,每辆自动驾驶汽车需要得到环境对应的反馈结果,包括当前环境的观察和奖励;
②每组自动驾驶群车的每辆车根据收集的数据在各自的神经网络里进行训练数据,并且获得私有策略模型;边缘计算服务器获取每组自动驾驶群车的状态信息、道路环境信息、交通信息以及天气信息;
③采用联邦学习方法对每辆车的私有策略模型进行加密,并且发送给边缘计算服务器,边缘计算服务器综合边缘神经网络模型对每辆车的私有策略模型进行解密,并使用当前的损失函数进行训练神经网络;边缘计算服务器将训练好的数据模型进行加密,并发送给云计算服务器,云计算服务器对每个边缘计算服务器发送过来的数据模型进行解密,并各自更新网络模型,然后进行更新边缘计算服务器的网络模型;
④边缘计算服务器将更新后的网络模型解密后,发送给每辆自动驾驶汽车,每辆自动驾驶汽车的网络模型更新完毕后,根据强化学习对周围实时性的环境道路的观测,进行全局道路的智能决策,以实现自动驾驶汽车的实时性道路安全行驶;如果每组自动驾驶群车中,有一辆或者几辆车辆脱离群组行驶,那么脱离群组行驶的车辆自身进行数据训练,并且与边缘计算服务器进行单独的分组模型训练,然后边缘计算服务器将数据模型发送给车辆;群车内的自动驾驶汽车都对周围车辆的行驶状态进行预测,并且根据车辆预测的行驶状态,采用深度强化学习方法实现自身车辆智能决策功能;
⑤群车内的自动驾驶汽车的网络数据模型、边缘计算服务器的网络数据模型以及云计算服务器的网络数据模型都是私密性的。
4.如权利要求1所述的一种基于联邦深度强化学习的自动驾驶群车的智能决策实现方法,其特征在于,所述内容(4)的具体过程为:
①每组自动驾驶群车的车辆状态、道路环境数据、交通信息数据以及天气信息数据采集完毕后,采用深度强化学习不断的对环境进行观测,每辆自动驾驶汽车需要得到环境对应的反馈结果,包括当前环境的观察和奖励;每组自动驾驶群车内的车辆之间通过车通信方式实现基本状态信息的交互,每组群车内的车速趋向于匀速情况下,将每组群车当作一辆自动驾驶汽车,就只需要对头车进行智能决策,其余群组内的车辆通过通信的方式实现车辆决策,进而确保群组的行驶;
②每组自动驾驶群车的每辆头车对道路环境进行感知,将车辆状态、道路环境数据、交通信息数据以及天气信息数据采集完毕后,采用深度强化学习不断的实现与环境的交互,将每辆自动驾驶汽车与环境交互得到的反馈结果,包括当前环境的观察和奖励;每组自动驾驶群车的头车根据收集的数据,采用神经网络进行训练数据,并且获得私有策略模型;
③采用联邦学习方法对每辆车的私有策略模型进行加密,并且发送给边缘计算服务器,边缘计算服务器综合边缘神经网络模型对每辆头车的私有策略模型进行解密,并使用当前的损失函数进行训练神经网络;边缘计算服务器获取每组自动驾驶群车的头车的私有网络模型,并采用当前的损失函数进行训练神经网络模型;边缘计算服务器将训练好的边缘数据模型进行加密,并发送给云计算服务器,云计算服务器对每个边缘计算服务器发送过来的加密的数据模型进行解密,并各自更新网络模型,然后进行更新边缘计算服务器的网络模型;
④边缘计算服务器将更新后的网络模型解密后,发送给自动驾驶群车的头车,每辆自动驾驶汽车的头车的网络模型更新完毕后,根据强化学习对周围实时性的环境道路的观测,进行全局道路的智能决策,以实现自动驾驶汽车的实时性道路安全行驶;
⑤群车内的自动驾驶汽车采用车联网通信的方式,将头车的决策信息,发送给后续群组内的自动驾驶汽车,后续的自动驾驶汽车根据车联网通信的数据信息、头车的决策信息以及自身车辆对周围环境的观测和奖励信息,进行自动驾驶汽车的智能决策;群车在行驶时候,根据行驶速度进行相应的群组调整,每组群车行驶时,都进行自身车辆的数据训练,然后与边缘计算服务器、云计算服务器进行协作训练模型;车辆行驶时,通过车车通信技术实时发布车速和车间距进行群车组队,脱离车队的单车或者多车,都单独通过自身车辆的数据训练模型,与边缘计算服务器、云计算服务器协作训练模型;
⑥通过车联网技术和联邦学习方法,群车内的自动驾驶汽车都对周围车辆的行驶状态进行预测,并且根据车辆预测的行驶状态,采用深度强化学习方法实现自身车辆智能决策功能;自动驾驶群车的头车的网络数据模型、边缘计算服务器的网络数据模型以及云计算服务器的网络数据模型都是私密性的。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011251880.1A CN112348201B (zh) | 2020-11-11 | 2020-11-11 | 一种基于联邦深度强化学习的自动驾驶群车的智能决策实现方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011251880.1A CN112348201B (zh) | 2020-11-11 | 2020-11-11 | 一种基于联邦深度强化学习的自动驾驶群车的智能决策实现方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112348201A CN112348201A (zh) | 2021-02-09 |
CN112348201B true CN112348201B (zh) | 2024-03-12 |
Family
ID=74363188
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011251880.1A Active CN112348201B (zh) | 2020-11-11 | 2020-11-11 | 一种基于联邦深度强化学习的自动驾驶群车的智能决策实现方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112348201B (zh) |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112836822B (zh) * | 2021-02-26 | 2024-05-28 | 浙江工业大学 | 基于宽度学习的联邦学习策略优化方法和装置 |
CN112884163B (zh) * | 2021-03-18 | 2023-06-23 | 中国地质大学(北京) | 基于联邦机器学习算法与云端反馈的组合服务评估方法与*** |
CN113255998B (zh) * | 2021-05-25 | 2022-06-03 | 北京理工大学 | 基于多智能体强化学习的高速道路无人驾驶车辆编队方法 |
CN113264060B (zh) * | 2021-05-28 | 2023-03-21 | 东风汽车集团股份有限公司 | 一种基于云端训练模型的自动驾驶节能***及方法 |
CN113515812A (zh) * | 2021-07-09 | 2021-10-19 | 东软睿驰汽车技术(沈阳)有限公司 | 自动驾驶方法、装置、处理设备及存储介质 |
CN113240910B (zh) * | 2021-07-12 | 2021-10-26 | 中国人民解放军国防科技大学 | 基于协同车辆的道路检测方法、***、设备和存储介质 |
CN113609777B (zh) * | 2021-08-11 | 2023-05-26 | 广东工业大学 | 一种基于车载感知设备的车辆行为分析方法与装置 |
CN113673696B (zh) * | 2021-08-20 | 2024-03-22 | 山东鲁软数字科技有限公司 | 一种基于强化联邦学习的电力行业起重作业违章检测方法 |
CN113885491A (zh) * | 2021-08-29 | 2022-01-04 | 北京工业大学 | 基于联邦深度强化学习的无人驾驶决策与控制方法 |
CN114627648B (zh) * | 2022-03-16 | 2023-07-18 | 中山大学·深圳 | 一种基于联邦学习的城市交通流诱导方法及*** |
CN114581748B (zh) * | 2022-05-06 | 2022-09-23 | 南京大学 | 基于机器学习的多智能体感知融合***及其实现方法 |
CN114973694B (zh) * | 2022-05-19 | 2024-05-24 | 杭州中威电子股份有限公司 | 一种基于巡检机器人的隧道车流量监测***及其方法 |
CN115100866B (zh) * | 2022-07-18 | 2023-08-18 | 北京邮电大学 | 一种基于分层强化学习的车路协同自动驾驶决策方法 |
CN115776680A (zh) * | 2022-11-30 | 2023-03-10 | 西部科学城智能网联汽车创新中心(重庆)有限公司 | 一种适用于边缘计算设备的计算模型动态部署方法及装置 |
CN116403174A (zh) * | 2022-12-12 | 2023-07-07 | 深圳市大数据研究院 | 一种端到端自动驾驶方法、***、仿真***及存储介质 |
CN116994423B (zh) * | 2023-07-19 | 2024-04-16 | 暨南大学 | 车辆编队中轻量级、隐私保护的领队车辆选择***及方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111476139A (zh) * | 2020-04-01 | 2020-07-31 | 同济大学 | 基于联邦迁移学习的驾驶员行为云边协同学习*** |
CN111781933A (zh) * | 2020-07-27 | 2020-10-16 | 扬州大学 | 一种基于边缘计算和空间智能的高速自动驾驶车辆实现***及方法 |
CN111845773A (zh) * | 2020-07-06 | 2020-10-30 | 北京邮电大学 | 基于强化学习的自动驾驶车辆微观决策方法 |
CN111845754A (zh) * | 2020-07-27 | 2020-10-30 | 扬州大学 | 一种基于边缘计算和群智算法的自动驾驶车辆的决策预测方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20190103088A (ko) * | 2019-08-15 | 2019-09-04 | 엘지전자 주식회사 | 연합학습을 통한 단말의 명함을 인식하는 방법 및 이를 위한 장치 |
-
2020
- 2020-11-11 CN CN202011251880.1A patent/CN112348201B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111476139A (zh) * | 2020-04-01 | 2020-07-31 | 同济大学 | 基于联邦迁移学习的驾驶员行为云边协同学习*** |
CN111845773A (zh) * | 2020-07-06 | 2020-10-30 | 北京邮电大学 | 基于强化学习的自动驾驶车辆微观决策方法 |
CN111781933A (zh) * | 2020-07-27 | 2020-10-16 | 扬州大学 | 一种基于边缘计算和空间智能的高速自动驾驶车辆实现***及方法 |
CN111845754A (zh) * | 2020-07-27 | 2020-10-30 | 扬州大学 | 一种基于边缘计算和群智算法的自动驾驶车辆的决策预测方法 |
Non-Patent Citations (3)
Title |
---|
Federated Learning for Vehicular Internet of Things: Recent Advances and Open Issues;ZHAOYANG DU等;《IEEE》;20200409;论文第45-61页 * |
Federated Transfer Reinforcement Learning for Autonomous Driving;Xinle Liang等;《arxiv》;20191014;论文第1-7页 * |
联邦学习、Deepfake、无人驾驶……未来十年会发生什么?;雷峰网leiphone;《https://baijiahao.***.com/s?id=1655039542438343693&wfr=spider&for=pc》;20200107;论文第1-8页 * |
Also Published As
Publication number | Publication date |
---|---|
CN112348201A (zh) | 2021-02-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112348201B (zh) | 一种基于联邦深度强化学习的自动驾驶群车的智能决策实现方法 | |
Tong et al. | Artificial intelligence for vehicle-to-everything: A survey | |
Montanaro et al. | Towards connected autonomous driving: review of use-cases | |
Balkus et al. | A survey of collaborative machine learning using 5G vehicular communications | |
Jameel et al. | Internet of autonomous vehicles: architecture, features, and socio-technological challenges | |
Olovsson et al. | Future connected vehicles: Communications demands, privacy and cyber-security | |
Mohebifard et al. | Trajectory control in roundabouts with a mixed fleet of automated and human‐driven vehicles | |
US20220068122A1 (en) | Systems and methods to group and move vehicles cooperatively to mitigate anomalous driving behavior | |
Fan et al. | Ubiquitous control over heterogeneous vehicles: A digital twin empowered edge AI approach | |
Shen et al. | An Innovative Data Integrity Verification Scheme in the Internet of Things assisted information exchange in transportation systems | |
Tyagi et al. | Introduction to intelligent transportation system | |
Alshdadi | Cyber-physical system with IoT-based smart vehicles | |
DE102023112016A1 (de) | Verteiltes verarbeitungssystem für fahrzeuge | |
Herrnleben et al. | Towards adaptive car-to-cloud communication | |
Kulla et al. | A survey on platooning techniques in VANETs | |
Adart et al. | Vehicular ad-hoc network application for urban traffic management based on markov chains. | |
Pavithra et al. | Comprehensive analysis on vehicle-to-vehicle communication using intelligent transportation system | |
Echeto et al. | Automated vehicles in swarm configuration: Simulation and analysis | |
Cheung et al. | Autonomous vehicle communication in v2x network with lora protocol | |
Dokur et al. | An edge computing approach for autonomous vehicle platooning | |
Goel et al. | Emerging Research in Connected Vehicles [Guest Editorial] | |
CN111479237A (zh) | 一种基于区块链和深度学习的去中心化分布式vanet*** | |
CN115100866B (zh) | 一种基于分层强化学习的车路协同自动驾驶决策方法 | |
Kaur et al. | An Overview of Ad Hoc Networks Routing Protocols and Its Design Effectiveness | |
Billot et al. | Can C-ITS lead to the emergence of Traffic Management 2.0? |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |