CN114020016A - 一种基于机器学习的空地协同通信服务方法及*** - Google Patents

一种基于机器学习的空地协同通信服务方法及*** Download PDF

Info

Publication number
CN114020016A
CN114020016A CN202111271084.9A CN202111271084A CN114020016A CN 114020016 A CN114020016 A CN 114020016A CN 202111271084 A CN202111271084 A CN 202111271084A CN 114020016 A CN114020016 A CN 114020016A
Authority
CN
China
Prior art keywords
unmanned aerial
aerial vehicle
unmanned
vehicle
communication service
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111271084.9A
Other languages
English (en)
Other versions
CN114020016B (zh
Inventor
白成超
郭继峰
颜鹏
郑红星
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Institute of Technology
Original Assignee
Harbin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Institute of Technology filed Critical Harbin Institute of Technology
Priority to CN202111271084.9A priority Critical patent/CN114020016B/zh
Publication of CN114020016A publication Critical patent/CN114020016A/zh
Application granted granted Critical
Publication of CN114020016B publication Critical patent/CN114020016B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/10Simultaneous control of position or course in three dimensions
    • G05D1/101Simultaneous control of position or course in three dimensions specially adapted for aircraft

Landscapes

  • Engineering & Computer Science (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

一种基于机器学***的通信服务,具有较高鲁棒性与较强的环境适应能力,可应用于空地协同通信服务之中。

Description

一种基于机器学习的空地协同通信服务方法及***
技术领域
本发明涉及空地协同通信服务技术领域,具体涉及一种基于机器学习的空地协同通信服务方法及***。
背景技术
无人机为地面用户提供通信服务主要有两种途径,第一种途径是将无人机作为通信的中继点使用;在这种使用模式下,无人机负责转发用户与基站之间的通信消息,以此为用户提供通信服务。在这种通信服务模式中如何优化无人机的位置布局以及如何分配通信通道给不同的用户需要得到解决。通常的做法是将以上问题建模为一个多目标优化问题,使用凸优化的方法或者智能算法进行求解,得到无人机的位置分布以及通信信道的分配策略。第二种途径是利用无人机直接给用户提供通信服务;在这种模式下,无人机直接作为一个空中通信基站,给用户提供直接的通信服务。在这种通信服务模式中如何优化无人机的动态轨迹,为用户提供高质量的通信服务需要得到解决。通常的做法是将以上问题建模为一个优化问题求解,考虑的约束条件包括能量约束,最大数据吞吐量约束等,优化目标使得无人机为用户提供尽可能好的通信服务。一般方法为凸优化方法和一些机器学习方法。
虽然上述方法使无人机能够在一些简单的环境中为用户提供高质量的通信服务,但仍有一些问题没有被解决。首先,在实践中可用的无人机数量有限,提供的服务也有限,因此很难向分布在各种环境中的用户提供高质量的服务;其次,由于分布在环境中的障碍物会阻挡通信链路,被障碍物阻挡的用户很难获得无人机的服务,因此,仅靠无人机无法为广域和复杂环境中所有用户提供高质量的通信服务。
发明内容
鉴于以上问题,本发明提出一种基于机器学习的空地协同通信服务方法及***,用以解决现有技术中仅靠无人机提供通信服务导致服务质量不高且效率低的问题。
根据本发明一方面,提出一种基于机器学习的空地协同通信服务方法,该方法包括以下步骤:
步骤一、获取每个无人机以及无人车在通信服务中的环境信息;
步骤二、将所述环境信息输入预训练的深度神经网络模型中,解算获得无人机以及无人车的协同通信服务策略指令。
进一步地,步骤一中每个无人机对应的环境信息包括通信服务区域中用户状态信息、距离当前无人机最近的多个无人机位置信息、距离当前无人机最近的多个无人车位置信息;每个无人车对应的环境信息包括通信服务区域中用户状态信息、距离当前无人车最近的多个无人车位置信息、距离当前无人车最近的多个无人机位置信息;其中,所述位置信息包括距离参数和角度参数。
进一步地,步骤一中所述用户状态信息包括相对当前无人机或无人车具有最小排序因子的多个用户位置信息、全部用户的通信平均服务质量以及通信服务质量标准差;所述排序因子计算公式为:
Figure BDA0003328007250000021
式中,ρk表示用户k相对于无人机或无人车的排序因子;dik表示无人机或无人车相对于用户k的距离;αik表示无人机或无人车的速度方向和无人机或无人车与用户k之间连线的夹角;
Figure BDA00033280072500000215
表示用户k在t时刻具有的通信服务质量;dmax,Qmax为归一化系数;λ123为比例系数。
进一步地,步骤二中深度神经网络模型预训练的过程包括:
步骤二一、初始化无人机以及无人车的通信服务策略
Figure BDA0003328007250000022
以及目标策略
Figure BDA0003328007250000023
初始化无人机以及无人车值网络
Figure BDA0003328007250000024
并使得无人机的策略网络
Figure BDA0003328007250000025
与其目标网络
Figure BDA0003328007250000026
相同,即
Figure BDA0003328007250000027
同时使得无人车的策略网络
Figure BDA0003328007250000028
与其目标网络
Figure BDA0003328007250000029
相同,即
Figure BDA00033280072500000210
步骤二二、在每个交互周期内,无人机与无人车分别收集与环境的交互数据{ot(ui),at(ui),rt+1(ui),ot+1(ui)}与{ot(vj),at(vj),rt+1(vj),ot+1(vj)},其中,ot(ui)表示无人机i在t时刻观测的环境信息,
Figure BDA00033280072500000211
表示无人机i在t时刻执行的动作指令,rt+1(ui)表示无人机i在t+1时刻接收的奖励值,ot+1(ui)表示无人机i在t+1时刻观测的环境信息;ot(vj)表示无人车j在t时刻观测的环境信息,
Figure BDA00033280072500000212
表示无人车j在t时刻执行的动作指令,rt+1(vj)表示无人车j在t+1时刻接收的奖励值,ot+1(vj)表示无人车j在t+1时刻观测的环境信息;
步骤二三、利用收集的交互数据计算优势函数,无人机i以及无人车j的优势函数计算为:
Figure BDA00033280072500000213
Figure BDA00033280072500000214
式中,
Figure BDA0003328007250000031
以及
Figure BDA0003328007250000032
分别表示无人机i与无人车j的优势函数;γ为折扣因子,在(0,1)之间;
步骤二四、重复步骤二二至步骤二三直到达到设定的最大步长T;
步骤二五、利用上述步骤收集的交互数据以及计算的优势函数计算获得无人机策略以及无人车策略的损失值如下:
Figure BDA0003328007250000033
Figure BDA0003328007250000034
式中,LCLIPu)以及LCLIPv)分别表示无人机的策略损失值以及无人车的策略损失值;∈为一个常数,取值范围在(0,1)之间;ri tu)为无人机实际策略与目标策略的比值,ri tv)为无人车实际策略与目标策略的比值;
步骤二六、最小化LCLIPu)与LCLIPv)更新无人机以及无人车的通信服务策略网络;
步骤二七、利用上述步骤收集的交互数据计算无人机值函数以及无人车值函数的损失值如下:
Figure BDA0003328007250000035
式中,LVu)为无人机值函数的损失值,LVv)为无人车值函数的损失值;
步骤二八、最小化LVu)与LVv)更新无人机以及无人车值网络;
步骤二九、更新无人机目标策略网络与无人车目标策略网络:θ′u←θu,θ′v←θv
步骤二十、重复步骤二二至步骤二九直到网络训练收敛,获得训练好的深度神经网络模型。
进一步地,步骤二中解算获得无人机以及无人车的协同通信服务策略指令的具体过程包括:经过训练好的深度神经网络模型的输出值包括选择每个无人机控制指令的概率和选择每个无人车控制指令的概率,无人机控制指令为无人机航向偏角指令,无人车控制指令为无人车线速度控制指令与角速度控制指令的组合;选择具有最大概率值对应的无人机航向偏角指令作为无人机实际控制指令,选择具有最大概率值对应的无人车线速度控制指令与角速度控制指令的组合作为无人车实际控制指令。
根据本发明另一方面,提出一种基于机器学习的空地协同通信服务***,该***包括:
数据获取模块,用于获取每个无人机以及无人车在通信服务中的环境信息;
指令解算模块,用于将所述环境信息输入预训练的深度神经网络模型中,解算获得无人机以及无人车的协同通信服务策略指令。
进一步地,所述数据获取模块中每个无人机对应的环境信息包括通信服务区域中用户状态信息、距离当前无人机最近的多个无人机位置信息、距离当前无人机最近的多个无人车位置信息;每个无人车对应的环境信息包括通信服务区域中用户状态信息、距离当前无人车最近的多个无人车位置信息、距离当前无人车最近的多个无人机位置信息;其中,所述位置信息包括距离参数和角度参数。
进一步地,所述数据获取模块中所述用户状态信息包括相对当前无人机或无人车具有最小排序因子的多个用户位置信息、全部用户的通信平均服务质量以及通信服务质量标准差;所述排序因子计算公式为:
Figure BDA0003328007250000041
式中,ρk表示用户k相对于无人机或无人车的排序因子;dik表示无人机或无人车相对于用户k的距离;αik表示无人机或无人车的速度方向和无人机或无人车与用户k之间连线的夹角;
Figure BDA0003328007250000042
表示用户k在t时刻具有的通信服务质量;dmax,Qmax为归一化系数;λ123为比例系数。
进一步地,所述指令解算模块包括模型训练子模块,所述模型训练子模块用于预训练深度神经网络模型,预训练的过程包括:
步骤二一、初始化无人机以及无人车的通信服务策略
Figure BDA0003328007250000043
以及目标策略
Figure BDA0003328007250000044
初始化无人机以及无人车值网络
Figure BDA0003328007250000045
并使得无人机的策略网络
Figure BDA0003328007250000046
与其目标网络
Figure BDA0003328007250000047
相同,即
Figure BDA0003328007250000048
同时使得无人车的策略网络
Figure BDA0003328007250000049
与其目标网络
Figure BDA00033280072500000410
相同,即
Figure BDA00033280072500000411
步骤二二、在每个交互周期内,无人机与无人车分别收集与环境的交互数据{ot(ui),at(ui),rt+1(ui),ot+1(ui)}与{ot(vj),at(vj),rt+1(vj),ot+1(vj)},其中,ot(ui)表示无人机i在t时刻观测的环境信息,
Figure BDA00033280072500000412
表示无人机i在t时刻执行的动作指令,rt+1(ui)表示无人机i在t+1时刻接收的奖励值,ot+1(ui)表示无人机i在t+1时刻观测的环境信息;ot(vj)表示无人车j在t时刻观测的环境信息,
Figure BDA00033280072500000413
表示无人车j在t时刻执行的动作指令,rt+1(vj)表示无人车j在t+1时刻接收的奖励值,ot+1(vj)表示无人车j在t+1时刻观测的环境信息;
步骤二三、利用收集的交互数据计算优势函数,无人机i以及无人车j的优势函数计算为:
Figure BDA0003328007250000051
Figure BDA0003328007250000052
式中,
Figure BDA0003328007250000053
以及
Figure BDA0003328007250000054
分别表示无人机i与无人车j的优势函数;γ为折扣因子,在(0,1)之间;
步骤二四、重复步骤二二至步骤二三直到达到设定的最大步长T;
步骤二五、利用上述步骤收集的交互数据以及计算的优势函数计算获得无人机策略以及无人车策略的损失值如下:
Figure BDA0003328007250000055
Figure BDA0003328007250000056
式中,LCLIPu)以及LCLIPv)分别表示无人机的策略损失值以及无人车的策略损失值;∈为一个常数,取值范围在(0,1)之间;ri tu)为无人机实际策略与目标策略的比值,ri tv)为无人车实际策略与目标策略的比值;
步骤二六、最小化LCLIPu)与LCLIPv)更新无人机以及无人车的通信服务策略网络;
步骤二七、利用上述步骤收集的交互数据计算无人机值函数以及无人车值函数的损失值如下:
Figure BDA0003328007250000057
式中,LVu)为无人机值函数的损失值,LVv)为无人车值函数的损失值;
步骤二八、最小化LVu)与LVv)更新无人机以及无人车值网络;
步骤二九、更新无人机目标策略网络与无人车目标策略网络:θ′u←θu,θ′v←θv
步骤二十、重复步骤二二至步骤二九直到网络训练收敛,获得训练好的深度神经网络模型。
进一步地,所述指令解算模块还包括概率选择子模块,所述概率选择子模块用于在训练好的深度神经网络模型输出值中选择具有最大概率值对应的无人机航向偏角指令作为无人机实际控制指令,选择具有最大概率值对应的无人车线速度控制指令与角速度控制指令的组合作为无人车实际控制指令;其中,深度神经网络模型输出值包括选择每个无人机控制指令的概率和选择每个无人车控制指令的概率,无人机控制指令为无人机航向偏角指令,无人车控制指令为无人车线速度控制指令与角速度控制指令的组合。
本发明的有益技术效果是:
本发明提出无人机与无人车协同对地面用户进行通信服务,可解决地面通信基站受损之后地面用户与外界或者地面用户之间相互通信的问题,同时可解决移动通信设备可用量不足的问题。相比于传统的通信服务方法,本发明具有以下优势:1)通信服务***具有多个无人机与无人车,可对地面用户提供高质量且公平的通信服务;2)通过在通信服务***中加入无人车,可以弥补可用通信服务无人机数量不足的问题;3)通过使用深度强化学习方法训练无人机与无人车的协同通信服务策略,可以适应环境的变化,具有较高的鲁棒性与较强的环境适应能力,可在多种复杂环境中执行通信服务任务;4)可适应无人机个数与无人车个数的变化,同时可以适应地面用户个数的变化。
附图说明
本发明可以通过参考下文中结合附图所给出的描述而得到更好的理解,所述附图连同下面的详细说明一起包含在本说明书中并且形成本说明书的一部分,而且用来进一步举例说明本发明的优选实施例和解释本发明的原理和优点。
图1是本发明实施例中无人车与无人机通信服务场景示意图。
图2是本发明实施例中深度神经网络结构示意图。
图3是本发明实施例中无人机与无人车协同策略训练过程中获得的奖励值曲线示意图。
图4是本发明实施例中无人机与无人车协同通信服务轨迹曲线图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,在下文中将结合附图对本发明的示范性实施方式或实施例进行描述。显然,所描述的实施方式或实施例仅仅是本发明一部分的实施方式或实施例,而不是全部的。基于本发明中的实施方式或实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施方式或实施例,都应当属于本发明保护的范围。
为解决地面用户的通信服务问题,本发明提出一种基于机器学***的通信服务。
本发明实施例提供一种基于机器学习的空地协同通信服务方法,具体包括以下步骤:
步骤一:无人机以及无人车获取通信服务中环境信息;
无人车与无人机通信服务场景如图1所示。根据本发明实施例,无人机获取的环境信息
Figure BDA0003328007250000071
包含三部分内容,其中,
Figure BDA0003328007250000072
表示无人机ui获得的通信服务区域中用户的状态信息,包括在通信服务区域中相对无人机ui具有最小排序因子的5个用户位置信息,位置信息包括在无人机ui的航向坐标系下距离dij、角度αij,j=1,2,...,5,以及全部用户的通信平均服务质量
Figure BDA0003328007250000073
以及通信服务质量标准差
Figure BDA0003328007250000074
用户k相对于无人机ui的排序因子ρk计算如下式所示:
Figure BDA0003328007250000075
式中,dik表示无人机ui相对于用户k的距离;αik表示无人机ui的速度方向和无人机ui与用户k之间连线的夹角;
Figure BDA0003328007250000076
表示用户k在t时刻具有的通信服务质量;dmax,Qmax为归一化系数,λ123为比例系数。
Figure BDA0003328007250000077
表示距离无人机ui最近的3个无人机的位置信息,包括在无人机ui的航向坐标系下距离dij、角度αij,j=1,2,3,即
Figure BDA0003328007250000078
Figure BDA0003328007250000079
表示距离无人机ui最近的3个无人车的位置信息,包括在无人机ui的航向坐标系下距离和角度。
无人车感知的环境信息与无人机感知的环境信息相似,表示为:
Figure BDA00033280072500000710
同样包含三部分信息;其中,
Figure BDA00033280072500000711
表示无人车cj感知到的用户状态,包括在通信服务区域中相对无人车cj具有最小排序因子的5个用户位置信息、全部用户的通信平均服务质量
Figure BDA00033280072500000712
以及通信服务质量标准差
Figure BDA00033280072500000713
Figure BDA00033280072500000714
表示无人车cj感知到的无人机状态即无人机位置信息;
Figure BDA00033280072500000715
表示无人车cj感知到的其他无人车状态即其他无人车位置信息。
步骤二:将无人机以及无人车获取到的环境信息输入预训练的深度神经网络模型中,解算获得无人机以及无人车的通信服务策略指令;
根据本发明实施例,深度神经网络结构如图2所示,其包括3层全连接网络,其中第一层与第二层具有128个节点,激活函数为非线性整流单元(ReLU),第三层具有7个输出节点,激活函数为SoftMax函数,将输出值限制在(0,1)之间。
深度神经网络预训练的过程包括:收集无人机以及无人车与环境的交互数据即环境信息,然后利用这些数据估计优势函数
Figure BDA00033280072500000716
以及
Figure BDA00033280072500000717
接着计算策略损失函数LCLIPu)、LCLIPv)以及值函数的损失函数LVu)、LVv),最后通过最小化策略损失函数以及值函数的损失函数更新策略网络以及值函数网络,从而获得训练好的深度神经网络模型。具体训练过程如下:
(1)初始化无人机以及无人车的通信服务策略
Figure BDA0003328007250000081
以及目标策略
Figure BDA0003328007250000082
初始化无人机以及无人车值网络
Figure BDA0003328007250000083
并使得无人机的策略网络
Figure BDA0003328007250000084
与其目标网络
Figure BDA0003328007250000085
相同,即
Figure BDA0003328007250000086
同时,使得无人车的策略网络
Figure BDA0003328007250000087
与其目标网络
Figure BDA0003328007250000088
相同,即
Figure BDA0003328007250000089
(2)在每个时间步即交互周期内,无人机与无人车分别收集与环境的交互数据{ot(ui),at(ui),rt+1(ui),ot+1(ui)}与{ot(vj),at(vj),rt+1(vj),ot+1(vj)},其中,ot(ui)表示无人机i在t时刻观测的环境信息,
Figure BDA00033280072500000810
表示无人机i在t时刻执行的动作指令,rt+1(ui)表示无人机i在t+1时刻接收的奖励值,ot+1(ui)表示无人机i在t+1时刻观测的环境信息,ot(vj)表示无人车j在t时刻观测的环境信息,
Figure BDA00033280072500000811
表示无人车j在t时刻执行的动作指令,rt+1(vj)表示无人车j在t+1时刻接收的奖励值,ot+1(vj)表示无人车j在t+1时刻观测的环境信息;
(3)利用收集的交互数据计算优势函数,无人机i以及无人车j的优势函数计算为:
Figure BDA00033280072500000812
Figure BDA00033280072500000813
式中,
Figure BDA00033280072500000814
以及
Figure BDA00033280072500000815
分别表示无人机i与无人车j的优势函数,γ为折扣因子,在(0,1)之间;
(4)重复步骤(2)、(3)直到达到设定的最大步长T;
(5)利用步骤(2)、(3)、(4)收集的交互数据以及计算的优势函数计算无人机策略以及无人车策略的损失值如下:
Figure BDA00033280072500000816
Figure BDA00033280072500000817
式中,LCLIPu)以及LCLIPv)分别表示无人机的策略损失值以及无人车的策略损失值,∈为一个常数,取值范围在(0,1)之间;clip是一个函数,clip(ri tu),1-∈,1+∈)表示将ri tu)的值限定在[1-∈,1+∈]之间;ri tu)为无人机实际策略与目标策略的比值,ri tv)为无人车实际策略与目标策略的比值,分别计算如下:
Figure BDA0003328007250000091
(6)最小化LCLIPu)与LCLIPv)更新无人机以及无人车的通信服务策略网络;
(7)利用步骤(2)、(3)、(4)收集的交互数据计算无人机值函数以及无人车值函数的损失值如下:
Figure BDA0003328007250000092
式中,LVu)为无人机值函数的损失值,LVv)为无人车值函数的损失值;
(8)最小化LVu)与LVv)更新无人机以及无人车值网络;
(9)更新无人机目标策略网络与无人车目标策略网络,θ′u←θu;θ′v←θv
(10)重复步骤(2)到(9)直到网络训练收敛,获得训练好的深度神经网络模型。
预训练过程中,无人机ui获得的奖励值可以由下式表示:
rt(ui)=rt Q(ui)+rt S(ui)+rt R(ui)
式中,第一项rt Q(ui)与用户的通信服务质量相关,当用户具有较高的平均通信服务质量以及较低的通信服务质量方差时,rt Q(ui)较大;反之rt Q(ui)较小。第二项rt S(ui)与无人机ui和其他无人机的距离以及其他无人车的距离相关,当无人机之间以及无人机与无人车之间的距离较小时,rt S(ui)为负值;反之rt S(ui)为0。第三项rt R(ui)与无人机ui相对于通信服务环境的位置相关,当无人机ui在通信服务区域中时,rt R(ui)为0;反之rt R(ui)为负值。
无人车的奖励函数设计过程与无人机的奖励函数设计过程相同。采用深度强化学***的通信服务,具体实现过程的伪代码见下表1。
Figure BDA0003328007250000093
Figure BDA0003328007250000101
将实时获取的无人机及无人车环境信息经过训练好的深度神经网络模型,其输出值包括选择每个无人机控制指令的概率
Figure BDA0003328007250000102
和选择每个无人车控制指令的概率
Figure BDA0003328007250000103
其中,无人机控制指令为无人机的航向偏角指令,即
Figure BDA0003328007250000104
度;无人车控制指令为无人车的线速度控制指令
Figure BDA0003328007250000105
与角速度控制指令
Figure BDA0003328007250000106
的组合,即
Figure BDA0003328007250000107
其中
Figure BDA0003328007250000108
最后,从
Figure BDA0003328007250000109
中选择具有最大概率的航向偏角作为无人机的实际控制指令,从
Figure BDA00033280072500001010
中选择具有最大概率的线速度与角速度组合作为无人车的实际控制指令。
进一步通过实验验证本发明的有益效果。
采用数字仿真的方式验证本发明的正确性以及合理性。首先在Python环境中构建一个大小为500m×500m×150m的通信服务环境,包括具有10个用户以及由多个无人机与无人车组成的动态通信服务***。无人机定速定高飞行,飞行速度为10m/s,无人车的最大速度为10m/s,用户的最大移动速度为1m/s,且在通信服务区域内随机移动。仿真测试软件环境为Windows10+Python3.7,硬件环境为AMD Ryzen 53550H CPU+16.0GBRAM。
实验首先验证无人机以及无人车的通信服务控制策略训练是否收敛。实验共进10000轮训练,记录每100轮训练过程中无人机以及无人车获得的平均奖励值,绘制曲线如图3所示。由图3可知,随着训练的进行,无人机和无人车可以获得稳定的奖励值,奖励值在6.5到7之间,表明无人机以及无人车的通信服务策略趋近于收敛,无人机以及无人车可以给用户提供高质量公平的通信服务。
然后对无人机与无人车的协同策略进行实验验证,验证结果如图4所示。由图4可以看出,无人机和无人车可分别对不同的用户提供通信服务,且提供的通信服务比较均匀,即无人机和无人车可协同对地面用户提供公平的通信服务。
本发明提出无人机与无人车协同对地面用户进行通信服务,可以解决灾后或者地面通信基站受损之后,地面用户与外界或者地面用户之间相互通信的问题。同时,无人机与无人车协同可解决可用移动通信设备不足的问题,发挥无人机与无人车各自具有的通信服务的优势。相比于传统的通信服务策略,本发明提出的基于学***的通信服务。2)通过在通信服务***中加入无人车,可以弥补可用通信服务无人机数量不足的问题。3)通过使用深度强化学***的通信服务,为灾后用户通信服务的提供方式提供了新的技术途径。
本发明另一实施例提供一种基于机器学习的空地协同通信服务***,该***包括:
数据获取模块,用于获取每个无人机以及无人车在通信服务中的环境信息;其中,每个无人机对应的环境信息包括通信服务区域中用户状态信息、距离当前无人机最近的多个无人机位置信息、距离当前无人机最近的多个无人车位置信息;每个无人车对应的环境信息包括通信服务区域中用户状态信息、距离当前无人车最近的多个无人车位置信息、距离当前无人车最近的多个无人机位置信息;其中,位置信息包括距离参数和角度参数;用户状态信息包括相对当前无人机或无人车具有最小排序因子的多个用户位置信息、全部用户的通信平均服务质量以及通信服务质量标准差;排序因子计算公式为:
Figure BDA0003328007250000111
式中,ρk表示用户k相对于无人机或无人车的排序因子;dik表示无人机或无人车相对于用户k的距离;αik表示无人机或无人车的速度方向和无人机或无人车与用户k之间连线的夹角;
Figure BDA0003328007250000112
表示用户k在t时刻具有的通信服务质量;dmax,Qmax为归一化系数;λ123为比例系数;
指令解算模块,用于将环境信息输入预训练的深度神经网络模型中,解算获得无人机以及无人车的协同通信服务策略指令;包括模型训练子模块和概率选择子模块;
其中,模型训练子模块用于预训练深度神经网络模型,预训练的过程包括:
步骤二一、初始化无人机以及无人车的通信服务策略
Figure BDA0003328007250000121
以及目标策略
Figure BDA0003328007250000122
初始化无人机以及无人车值网络
Figure BDA0003328007250000123
并使得无人机的策略网络
Figure BDA0003328007250000124
与其目标网络
Figure BDA0003328007250000125
相同,即
Figure BDA0003328007250000126
同时使得无人车的策略网络
Figure BDA0003328007250000127
与其目标网络
Figure BDA0003328007250000128
相同,即
Figure BDA0003328007250000129
步骤二二、在每个交互周期内,无人机与无人车分别收集与环境的交互数据{ot(ui),at(ui),rt+1(ui),ot+1(ui)}与{ot(vj),at(vj),rt+1(vj),ot+1(vj)},其中,ot(ui)表示无人机i在t时刻观测的环境信息,
Figure BDA00033280072500001210
表示无人机i在t时刻执行的动作指令,rt+1(ui)表示无人机i在t+1时刻接收的奖励值,ot+1(ui)表示无人机i在t+1时刻观测的环境信息;ot(vj)表示无人车j在t时刻观测的环境信息,
Figure BDA00033280072500001211
表示无人车j在t时刻执行的动作指令,rt+1(vj)表示无人车j在t+1时刻接收的奖励值,ot+1(vj)表示无人车j在t+1时刻观测的环境信息;
步骤二三、利用收集的交互数据计算优势函数,无人机i以及无人车j的优势函数计算为:
Figure BDA00033280072500001212
Figure BDA00033280072500001213
式中,
Figure BDA00033280072500001214
以及
Figure BDA00033280072500001215
分别表示无人机i与无人车j的优势函数;γ为折扣因子,在(0,1)之间;
步骤二四、重复步骤二二至步骤二三直到达到设定的最大步长T;
步骤二五、利用上述步骤收集的交互数据以及计算的优势函数计算获得无人机策略以及无人车策略的损失值如下:
Figure BDA00033280072500001216
Figure BDA00033280072500001217
式中,LCLIPu)以及LCLIPv)分别表示无人机的策略损失值以及无人车的策略损失值;∈为一个常数,取值范围在(0,1)之间;ri tu)为无人机实际策略与目标策略的比值,ri tv)为无人车实际策略与目标策略的比值;
步骤二六、最小化LCLIPu)与LCLIPv)更新无人机以及无人车的通信服务策略网络;
步骤二七、利用上述步骤收集的交互数据计算无人机值函数以及无人车值函数的损失值如下:
Figure BDA0003328007250000131
式中,LVu)为无人机值函数的损失值,LVv)为无人车值函数的损失值;
步骤二八、最小化LVu)与LVv)更新无人机以及无人车值网络;
步骤二九、更新无人机目标策略网络与无人车目标策略网络:θ′u←θu,θ′v←θv
步骤二十、重复步骤二二至步骤二九直到网络训练收敛,获得训练好的深度神经网络模型;
概率选择子模块用于在训练好的深度神经网络模型输出值中选择具有最大概率值对应的无人机航向偏角指令作为无人机实际控制指令,选择具有最大概率值对应的无人车线速度控制指令与角速度控制指令的组合作为无人车实际控制指令;其中,深度神经网络模型输出值包括选择每个无人机控制指令的概率和选择每个无人车控制指令的概率,无人机控制指令为无人机航向偏角指令,无人车控制指令为无人车线速度控制指令与角速度控制指令的组合。
本发明实施例所述一种基于机器学习的空地协同通信服务***的功能可以由前述一种基于机器学习的空地协同通信服务方法说明,因此本实施例未详述部分,可参见以上方法实施例,在此不再赘述。
尽管根据有限数量的实施例描述了本发明,但是受益于上面的描述,本技术领域内的技术人员明白,在由此描述的本发明的范围内,可以设想其它实施例。对于本发明的范围,对本发明所做的公开是说明性的,而非限制性的,本发明的范围由所附权利要求书限定。

Claims (10)

1.一种基于机器学习的空地协同通信服务方法,其特征在于,包括以下步骤:
步骤一、获取每个无人机以及无人车在通信服务中的环境信息;
步骤二、将所述环境信息输入预训练的深度神经网络模型中,解算获得无人机以及无人车的协同通信服务策略指令。
2.根据权利要求1所述的一种基于机器学习的空地协同通信服务方法,其特征在于,步骤一中每个无人机对应的环境信息包括通信服务区域中用户状态信息、距离当前无人机最近的多个无人机位置信息、距离当前无人机最近的多个无人车位置信息;每个无人车对应的环境信息包括通信服务区域中用户状态信息、距离当前无人车最近的多个无人车位置信息、距离当前无人车最近的多个无人机位置信息;其中,所述位置信息包括距离参数和角度参数。
3.根据权利要求2所述的一种基于机器学***均服务质量以及通信服务质量标准差;所述排序因子计算公式为:
Figure FDA0003328007240000011
式中,ρk表示用户k相对于无人机或无人车的排序因子;dik表示无人机或无人车相对于用户k的距离;αik表示无人机或无人车的速度方向和无人机或无人车与用户k之间连线的夹角;
Figure FDA0003328007240000012
表示用户k在t时刻具有的通信服务质量;dmax,Qmax为归一化系数;λ123为比例系数。
4.根据权利要求3所述的一种基于机器学习的空地协同通信服务方法,其特征在于,步骤二中深度神经网络模型预训练的过程包括:
步骤二一、初始化无人机以及无人车的通信服务策略
Figure FDA0003328007240000013
以及目标策略
Figure FDA0003328007240000014
初始化无人机以及无人车值网络
Figure FDA0003328007240000015
并使得无人机的策略网络
Figure FDA0003328007240000016
与其目标网络
Figure FDA0003328007240000017
相同,即
Figure FDA0003328007240000018
同时使得无人车的策略网络
Figure FDA0003328007240000019
与其目标网络
Figure FDA00033280072400000110
相同,即
Figure FDA00033280072400000111
步骤二二、在每个交互周期内,无人机与无人车分别收集与环境的交互数据{ot(ui),at(ui),rt+1(ui),ot+1(ui)}与{ot(vj),at(vj),rt+1(vj),ot+1(vj)},其中,ot(ui)表示无人机i在t时刻观测的环境信息,
Figure FDA00033280072400000112
表示无人机i在t时刻执行的动作指令,rt+1(ui)表示无人机i在t+1时刻接收的奖励值,ot+1(ui)表示无人机i在t+1时刻观测的环境信息;ot(vj)表示无人车j在t时刻观测的环境信息,
Figure FDA00033280072400000113
表示无人车j在t时刻执行的动作指令,rt+1(vj)表示无人车j在t+1时刻接收的奖励值,ot+1(vj)表示无人车j在t+1时刻观测的环境信息;
步骤二三、利用收集的交互数据计算优势函数,无人机i以及无人车j的优势函数计算为:
Figure FDA0003328007240000021
Figure FDA0003328007240000022
式中,
Figure FDA0003328007240000023
以及
Figure FDA0003328007240000024
分别表示无人机i与无人车j的优势函数;γ为折扣因子,在(0,1)之间;
步骤二四、重复步骤二二至步骤二三直到达到设定的最大步长T;
步骤二五、利用上述步骤收集的交互数据以及计算的优势函数计算获得无人机策略以及无人车策略的损失值如下:
Figure FDA0003328007240000025
Figure FDA0003328007240000026
式中,LCLIPu)以及LCLIPv)分别表示无人机的策略损失值以及无人车的策略损失值;∈为一个常数,取值范围在(0,1)之间;
Figure FDA0003328007240000027
为无人机实际策略与目标策略的比值,
Figure FDA0003328007240000028
为无人车实际策略与目标策略的比值;
步骤二六、最小化LCLIPu)与LCLIPv)更新无人机以及无人车的通信服务策略网络;
步骤二七、利用上述步骤收集的交互数据计算无人机值函数以及无人车值函数的损失值如下:
Figure FDA0003328007240000029
式中,LVu)为无人机值函数的损失值,LVv)为无人车值函数的损失值;
步骤二八、最小化LVu)与LVv)更新无人机以及无人车值网络;
步骤二九、更新无人机目标策略网络与无人车目标策略网络:θ′u←θu,θ′v←θv
步骤二十、重复步骤二二至步骤二九直到网络训练收敛,获得训练好的深度神经网络模型。
5.根据权利要求4所述的一种基于机器学习的空地协同通信服务方法,其特征在于,步骤二中解算获得无人机以及无人车的协同通信服务策略指令的具体过程包括:经过训练好的深度神经网络模型的输出值包括选择每个无人机控制指令的概率和选择每个无人车控制指令的概率,无人机控制指令为无人机航向偏角指令,无人车控制指令为无人车线速度控制指令与角速度控制指令的组合;选择具有最大概率值对应的无人机航向偏角指令作为无人机实际控制指令,选择具有最大概率值对应的无人车线速度控制指令与角速度控制指令的组合作为无人车实际控制指令。
6.一种基于机器学习的空地协同通信服务***,其特征在于,包括:
数据获取模块,用于获取每个无人机以及无人车在通信服务中的环境信息;
指令解算模块,用于将所述环境信息输入预训练的深度神经网络模型中,解算获得无人机以及无人车的协同通信服务策略指令。
7.根据权利要求6所述的一种基于机器学习的空地协同通信服务***,其特征在于,所述数据获取模块中每个无人机对应的环境信息包括通信服务区域中用户状态信息、距离当前无人机最近的多个无人机位置信息、距离当前无人机最近的多个无人车位置信息;每个无人车对应的环境信息包括通信服务区域中用户状态信息、距离当前无人车最近的多个无人车位置信息、距离当前无人车最近的多个无人机位置信息;其中,所述位置信息包括距离参数和角度参数。
8.根据权利要求7所述的一种基于机器学***均服务质量以及通信服务质量标准差;所述排序因子计算公式为:
Figure FDA0003328007240000031
式中,ρk表示用户k相对于无人机或无人车的排序因子;dik表示无人机或无人车相对于用户k的距离;αik表示无人机或无人车的速度方向和无人机或无人车与用户k之间连线的夹角;
Figure FDA0003328007240000032
表示用户k在t时刻具有的通信服务质量;dmax,Qmax为归一化系数;λ123为比例系数。
9.根据权利要求8所述的一种基于机器学习的空地协同通信服务***,其特征在于,所述指令解算模块包括模型训练子模块,所述模型训练子模块用于预训练深度神经网络模型,预训练的过程包括:
步骤二一、初始化无人机以及无人车的通信服务策略
Figure FDA0003328007240000033
以及目标策略
Figure FDA0003328007240000034
初始化无人机以及无人车值网络
Figure FDA0003328007240000035
并使得无人机的策略网络
Figure FDA0003328007240000036
与其目标网络
Figure FDA0003328007240000037
相同,即
Figure FDA0003328007240000041
同时使得无人车的策略网络
Figure FDA0003328007240000042
与其目标网络
Figure FDA0003328007240000043
相同,即
Figure FDA0003328007240000044
步骤二二、在每个交互周期内,无人机与无人车分别收集与环境的交互数据{ot(ui),at(ui),rt+1(ui),ot+1(ui)}与{ot(vj),at(vj),rt+1(vj),ot+1(vj)},其中,ot(ui)表示无人机i在t时刻观测的环境信息,
Figure FDA0003328007240000045
表示无人机i在t时刻执行的动作指令,rt+1(ui)表示无人机i在t+1时刻接收的奖励值,ot+1(ui)表示无人机i在t+1时刻观测的环境信息;ot(vj)表示无人车j在t时刻观测的环境信息,
Figure FDA0003328007240000046
表示无人车j在t时刻执行的动作指令,rt+1(vj)表示无人车j在t+1时刻接收的奖励值,ot+1(vj)表示无人车j在t+1时刻观测的环境信息;
步骤二三、利用收集的交互数据计算优势函数,无人机i以及无人车j的优势函数计算为:
Figure FDA0003328007240000047
Figure FDA0003328007240000048
式中,
Figure FDA0003328007240000049
以及
Figure FDA00033280072400000410
分别表示无人机i与无人车j的优势函数;γ为折扣因子,在(0,1)之间;
步骤二四、重复步骤二二至步骤二三直到达到设定的最大步长T;
步骤二五、利用上述步骤收集的交互数据以及计算的优势函数计算获得无人机策略以及无人车策略的损失值如下:
Figure FDA00033280072400000411
Figure FDA00033280072400000412
式中,LCLIPu)以及LCLIPv)分别表示无人机的策略损失值以及无人车的策略损失值;∈为一个常数,取值范围在(0,1)之间;
Figure FDA00033280072400000413
为无人机实际策略与目标策略的比值,
Figure FDA00033280072400000414
为无人车实际策略与目标策略的比值;
步骤二六、最小化LCLIPu)与LCLIPv)更新无人机以及无人车的通信服务策略网络;
步骤二七、利用上述步骤收集的交互数据计算无人机值函数以及无人车值函数的损失值如下:
Figure FDA00033280072400000415
式中,LVu)为无人机值函数的损失值,LVv)为无人车值函数的损失值;
步骤二八、最小化LVu)与LVv)更新无人机以及无人车值网络;
步骤二九、更新无人机目标策略网络与无人车目标策略网络:θ′u←θu,θ′v←θv
步骤二十、重复步骤二二至步骤二九直到网络训练收敛,获得训练好的深度神经网络模型。
10.根据权利要求9所述的一种基于机器学习的空地协同通信服务***,其特征在于,所述指令解算模块还包括概率选择子模块,所述概率选择子模块用于在训练好的深度神经网络模型输出值中选择具有最大概率值对应的无人机航向偏角指令作为无人机实际控制指令,选择具有最大概率值对应的无人车线速度控制指令与角速度控制指令的组合作为无人车实际控制指令;其中,深度神经网络模型输出值包括选择每个无人机控制指令的概率和选择每个无人车控制指令的概率,无人机控制指令为无人机航向偏角指令,无人车控制指令为无人车线速度控制指令与角速度控制指令的组合。
CN202111271084.9A 2021-10-29 2021-10-29 一种基于机器学习的空地协同通信服务方法及*** Active CN114020016B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111271084.9A CN114020016B (zh) 2021-10-29 2021-10-29 一种基于机器学习的空地协同通信服务方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111271084.9A CN114020016B (zh) 2021-10-29 2021-10-29 一种基于机器学习的空地协同通信服务方法及***

Publications (2)

Publication Number Publication Date
CN114020016A true CN114020016A (zh) 2022-02-08
CN114020016B CN114020016B (zh) 2022-06-21

Family

ID=80058717

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111271084.9A Active CN114020016B (zh) 2021-10-29 2021-10-29 一种基于机器学习的空地协同通信服务方法及***

Country Status (1)

Country Link
CN (1) CN114020016B (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108229685A (zh) * 2016-12-14 2018-06-29 中国航空工业集团公司西安航空计算技术研究所 一种空地一体的无人智能决策方法
CN110650039A (zh) * 2019-09-17 2020-01-03 沈阳航空航天大学 一种基于多峰优化的无人机群辅助车辆网络协同通信模型
CN110874578A (zh) * 2019-11-15 2020-03-10 北京航空航天大学青岛研究院 一种基于强化学习的无人机视角车辆识别追踪方法
CN111300372A (zh) * 2020-04-02 2020-06-19 同济人工智能研究院(苏州)有限公司 空地协同式智能巡检机器人及巡检方法
CN111628818A (zh) * 2020-05-15 2020-09-04 哈尔滨工业大学 空地无人***分布式实时通信方法、装置及多无人***
CN112068549A (zh) * 2020-08-07 2020-12-11 哈尔滨工业大学 一种基于深度强化学习的无人***集群控制方法
CN112965514A (zh) * 2021-01-29 2021-06-15 北京农业智能装备技术研究中心 一种空地协同施药方法及***
CN113029169A (zh) * 2021-03-03 2021-06-25 宁夏大学 一种基于三维地图和自主导航的空地协作搜救***及方法
CN113050678A (zh) * 2021-03-02 2021-06-29 山东罗滨逊物流有限公司 基于人工智能的自主协同控制方法及***
CN113160554A (zh) * 2021-02-02 2021-07-23 上海大学 基于车联网的空地协同交通管理***及方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108229685A (zh) * 2016-12-14 2018-06-29 中国航空工业集团公司西安航空计算技术研究所 一种空地一体的无人智能决策方法
CN110650039A (zh) * 2019-09-17 2020-01-03 沈阳航空航天大学 一种基于多峰优化的无人机群辅助车辆网络协同通信模型
CN110874578A (zh) * 2019-11-15 2020-03-10 北京航空航天大学青岛研究院 一种基于强化学习的无人机视角车辆识别追踪方法
CN111300372A (zh) * 2020-04-02 2020-06-19 同济人工智能研究院(苏州)有限公司 空地协同式智能巡检机器人及巡检方法
CN111628818A (zh) * 2020-05-15 2020-09-04 哈尔滨工业大学 空地无人***分布式实时通信方法、装置及多无人***
CN112068549A (zh) * 2020-08-07 2020-12-11 哈尔滨工业大学 一种基于深度强化学习的无人***集群控制方法
CN112965514A (zh) * 2021-01-29 2021-06-15 北京农业智能装备技术研究中心 一种空地协同施药方法及***
CN113160554A (zh) * 2021-02-02 2021-07-23 上海大学 基于车联网的空地协同交通管理***及方法
CN113050678A (zh) * 2021-03-02 2021-06-29 山东罗滨逊物流有限公司 基于人工智能的自主协同控制方法及***
CN113029169A (zh) * 2021-03-03 2021-06-25 宁夏大学 一种基于三维地图和自主导航的空地协作搜救***及方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
周思全等: "面向空地协同作战的无人机-无人车异构时变编队跟踪控制", 《航空兵器》 *
徐文菁: "非确定环境下无人机与无人车动态协同设计", 《洛阳理工学院学报( 自然科学版)》 *

Also Published As

Publication number Publication date
CN114020016B (zh) 2022-06-21

Similar Documents

Publication Publication Date Title
CN109547938B (zh) 无线传感器网络中无人机的轨迹规划方法
CN110049566B (zh) 一种基于多无人机辅助通信网络的下行功率分配方法
CN105841702A (zh) 一种基于粒子群优化算法的多无人机航路规划方法
CN113055078B (zh) 有效信息年龄确定方法、以及无人机飞行轨迹优化方法
Dai et al. Mobile crowdsensing for data freshness: A deep reinforcement learning approach
CN109885088A (zh) 边缘计算网络中基于机器学习的无人机飞行轨迹优化方法
CN114339842B (zh) 基于深度强化学习无人机集群在时变场景下动态轨迹设计方法和装置
CN105516190A (zh) 连续位置服务中基于路网的位置隐私保护方法
CN111191840B (zh) 基于离散粒子群优化算法的多无人机动平台任务分配方法
CN113762594A (zh) 车机协同配送灾后救援物资的路径规划方法和装置
CN115499921A (zh) 面向复杂无人机网络的三维轨迹设计及资源调度优化方法
CN117289691A (zh) 用于导航场景下强化学习的路径规划智能体的训练方法
Du et al. Virtual relay selection in LTE-V: A deep reinforcement learning approach to heterogeneous data
CN114020016B (zh) 一种基于机器学习的空地协同通信服务方法及***
Cui et al. Model-free based automated trajectory optimization for UAVs toward data transmission
Chen et al. A fast coordination approach for large-scale drone swarm
CN115809751B (zh) 一种基于强化学习的两阶段多机器人环境覆盖方法及***
CN107578258A (zh) 一种智能景区旅游服务公平性游客评价控制***
CN114520991B (zh) 基于无人机集群的边缘网络自适应部署方法
CN114594793B (zh) 一种基站无人机的路径规划方法
CN107071790A (zh) 一种混合传感器节点部署方法
Bhandarkar et al. User coverage maximization for a uav-mounted base station using reinforcement learning and greedy methods
CN113741418B (zh) 异构车机编队协同路径的生成方法和装置
Beck Collaborative search and rescue by autonomous robots
CN114895710A (zh) 一种无人机集群自主行为的控制方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant