CN109794937B

CN109794937B - 一种基于强化学习的足球机器人协作方法

Info

Publication number: CN109794937B
Application number: CN201910083609.2A
Authority: CN
Inventors: 胡丽娟; 梁志伟; 李汉辉
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2019-01-29
Filing date: 2019-01-29
Publication date: 2021-10-01
Anticipated expiration: 2039-01-29
Also published as: CN109794937A

Abstract

本发明公开了一种基于强化学习的足球机器人协作方法，所述方法包括：S1、基于加入有通讯的Sarsa(λ)算法构建足球机器人的强化学习基本模型，并设定所述强化学习基本模型的奖惩机制r；S2、基于足球机器人之间的距离和角度定义指定数量的状态变量；S3、设置足球机器人的可操作动作集，足球机器人基于所述奖惩机制r和所述状态变量以及足球机器人相互间通讯选择下一步动作；本发明通过在建立的强化学习基本模型设立奖惩机制，实现足球机器人可根据当前环境和奖惩机制来选择下一动作，并且通过足球机器人相互之间的通讯来进行学习和更新，有效提升了足球机器人的协作效率。

Description

一种基于强化学习的足球机器人协作方法

技术领域

本发明属于足球机器人领域，具体涉及一种基于强化学习的足球机器人协作方法。

背景技术

足球机器人对抗赛作为一个典型的多足球机器人***，它为智能理论研究及多种技术的集成应用提供了良好的实验平台，对足球机器人在运动过程中能够根据周围环境的变化而自主的采取相应措施的能力要求也越来越强，这涉及到机器人定位、路径规划、协调控制、目标追踪及决策等一系列研究课题。

近年来，许多学者专家研究出了不少的成果，例如，申请号为201120008202.2的中国专利公开了一种智能机器人比赛装置，包括机械部分和电路控制部分，机械部分包括球桌、控制台和机器人，电路控制部分包括位于控制上的控制模块和位于机器人上的受控模块，可以形成对抗比赛场面；申请号为201010175496.8的中国专利公开了一种机器人教育平台，其包括一个箱体、该箱体内设置衣服机械组建、传感器单元、控制单元、执行单元、接口转换单元、任务软件光盘和电源模块，适应于课堂教学的各种实验；申请号为200410016867.2的中国专利公开了一种足球机器人嵌入式直接驱动装置，针对现有自主式机器人转动部分的不足，提供了一种足球机器人驱动装置，结构紧凑调试灵活，使机器人具有快速移动、定位精确、抗冲击、对抗性强的功能；申请号为201120313058.3的中国专利公开了一种室内足球机器人双目视觉导航***，采用全局红外视觉定位方式，结合传感器信息，实现了室内移动机器人高精度的定位与导航的室内足球机器人双目视觉导航，但它仅适用于障碍物固定且环境较稳定，单一机器人操作的情况。从现有技术看，主要有机器人平台机械结构的设计、机器人驱动装置的改造、固定环境或单一的机器人的运动控制，未见到可应用于足球机器人对抗型比赛的协调与合作控制案例，而且，现有的足球机器人比赛中，经常会出现足球机器人在足球场场地上找不到自己的位姿而自转运动的现象，经常会错失一些进球的机会，延缓了进球的速度。

发明内容

针对上述现有技术中在足球机器人比赛中足球机器人互相之间协作效率低的问题，本发明于提出一种基于强化学习的足球机器人协作方法，该方法通过结通过基于基于加入有通讯的Sarsa(λ)算法构建足球机器人的强化学习基本模型，通过强化学习模型及足球机器人相互间的通讯来实现相互间的高协作效率，具体技术方案如下：

一种基于强化学习的足球机器人协作方法，所述方法包括：

S1、基于加入有通讯的Sarsa(λ)算法构建足球机器人的强化学习基本模型，并设定所述强化学习基本模型的奖惩机制r；

S2、基于足球机器人之间的距离和角度定义指定数量的状态变量；

S3、设置足球机器人的可操作动作集，足球机器人基于所述奖惩机制r和所述状态变量以及足球机器人相互间通讯选择下一步动作。

进一步的，所述足球机器人包括进攻端机器人和防守端机器人，所述状态变量的数量基于所述进攻端机器人和防守端机器人的总和来设定。

进一步的，所述方法还包括：所述进攻端机器人或所述防守端机器人中指定足球机器人通过所述Sarsa(λ)算法与剩余足球机器人通讯，通过所述通讯广播自身的状态和动作消息。

进一步的，所述奖惩机制r为：

进一步的，所述可操作动作集包括传球、带球和射门三种。

本发明的基于强化学习的足球机器人协作方法，应用于包含有进攻端机器人和防守端机器人的足球机器人比赛中，对于进攻端的所有足球机器人或者防守端的所有足球机器人，先基于加入有通讯的Sarsa(λ)算法构建足球机器人的强化学习基本模型，并在强化学习基本模型中设立足球机器人的基本动作集和奖惩机制，同时根据足球机器人的数量设定指定数目的状态变量；然后，足球机器人可根据通过奖惩机制和自身所处环境以及与其他足球机器人之间的通讯信息来选择在足球比赛中的执行动作，从而实现足球机器人相互之间的协作；与现有技术相比，本发明可有效提升足球机器人的协作效率，提升足球机器人比赛的可观赏性。

附图说明

图1是本发明实施例中所述基于强化学习的足球机器人协作方法的流程框图示意；

图2是本发明实施例中所述强化学习基本模型的结构图示意；

图3是采用本发明方法的实施例中球员的状态变量示意图；

图4是采用本发明方法在HFO平台的仿真实验图示意；

图5(a)和图5(b)是本发明实施例中足球机器人具有通讯和没有通讯的协作效率实验结果对比图示意；

图6是本发明实施例中足球机器人有无通讯的学习性能对比图示意；

图7是本发明实施例中不同足球机器人之间相互通讯的学习性能对比图示意。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

实施例一

参阅图1，在本发明实施例中，提供了一种基于强化学习的足球机器人协作方法，具体包括方法：

S1、基于加入有通讯的Sarsa(λ)算法构建足球机器人的强化学习基本模型，并设定强化学习基本模型的奖惩机制r。

参阅图2，从中可知，强化学习基本模型的原理为：足球机器人在感知当前环境的状态下选择动作，此时环境状态迁移到新的状态，相应的，新的状态产生一个强化信号反馈给足球机器人，足球机器人根据当前环境信息与强化信号决定下一个行动；其中，本发明中足球机器人强化学习的关键包括：

策略：强化学习代理的一个关键组成部分，提供控制欣慰到环境感知状态的映射；值函数：也称为回报值。对利用现存策略得出的行为进行评判，并估测当前状态的表现，这种状态是对按照当下策略采取行为的一种反应；值函数通过持续不断的改正来修正策略；奖惩值：用来估测一次控制行为产生的环境感知状态的瞬时期望，即足球机器人在某状态下产生的动作会得到对应的奖惩值，当符合期望时给予正的奖惩值，当不符合期望值时给予负的奖惩值；环境模型：在考虑到未来的可能情况下，预测未来行动方案的一种规划工具。

在本发明实施例中，足球机器人在强化学习基本模型的学习过程中，足球机器人可不断尝试选择动作，由环境提供的强化信号对动作好坏的一种评价，而不是传递给***如何去产生正确动作的消息；同时，由于外部环境调整动作的信息很少，足球机器人的强化学习***必须依靠自身的经历进行学习，通过强化信号调整动作的评价值，最终足球机器人可以获得最优策略，即如何协作来达到进球的得分的目的。

本发明采用的Sarsa(λ)算法是对Sarsa算法的一种变形，其中，Sarsa算法的具体工作原理为：首先Sarsa算法名字来源于运用“状态(State)→动作(Action)→奖惩(Reward)→状态(State)→动作(Action)”经验来更新Q值，Q值为即将执行策略的值；Sarsa经验的形式为(s,a,s',a')，意思是：Agent在当前状态s下，执行动作a，接受奖惩值r，结束于状态s'，并由此决定执行动作a'，Sarsa的经验(s,a,s',a')提供了一个用以更新Q(s,a)的新值，即r+γQ(s',a')；由于Sarsa(λ)算法是对Sarsa算法的一种变形可知，Sarsa(λ)算法规定对于每一个状态s和动作a，每当接收到一个新的奖惩就更新Q(s,a)但仅仅更新那些资格大于某个阈值的不仅更高效，而且准确率的损失很小，Sarsa(λ)算法的具体原理为：

Sarsa(λ,S,A,γ,α)

输入：

S是状态的集合，A是动作的集合，γ是折扣率，α是步长，λ是衰减率

内部状态：

实值数组Q(s,a)与e(s,a)，前一状态s，前一行为a

begin：

随机初始化Q(s,a)

对于所有的s、a，初始化e(s,a)＝0

观察目前的状态s

利用一个基于Q的策略选择a

repeat forever：

执行动作a

观察奖惩r和状态s'

利用一个基于Q的策略选择动作a'

δ←r+γQ(s',a')-Q(s,a)

e(s,a)←e(s,a)+1

Fall all s",a"

Q(s",a")←Q(s",a")+αδe(s",a")

e(s",a")←γλe(s",a")

s←s′

a←a′

end-repeat

End

其中，e(s,a)也叫做资格迹，其中s和a分别是所有状态和所有动作的集合；在执行每一个动作之后，更新每个“状态-动作”对的Q值。

优选的，本发明的奖惩机制r为：

且在本发明中，目标为进攻球员进球得分，因此设置进球后的奖惩值r为1，则其他动作给出相应的小的奖惩值r；经过实验证明，传球成功也可给予小的奖惩值r(如0.01)，在这里取r＝0同样有效；且由于任务是偶然发生的，不使用折扣。

在本发明实施例中，由于本发明方法运用于足球机器人比赛当中，所以足球机器人包括进攻端机器人和防守端机器人，状态变量的数量基于所述进攻端机器人和防守端机器人的总和来设定；具体参阅图3，本实施例中进攻球员为白色，防守球员为黑色，球员索引编号大小根据离球的距离，设定持球进攻球员为O₁，O₁距离球的距离最近，其次为O₂，以此类推至O_m；同理，防守球员根据到球的距离远近分别设置为D₁，D₂，…，D_n；且守门员可以是防守球员中任意一个，用D_g表示，则对于含有四个进攻球员和五个防守球员的足球机器人比赛，本发明通过使用以下17个状态变量来描述足球机器人的位置关系为：dist(O₁，O₂)，dist(O₁，O₃)，dist(O₁，O₄)表示进攻持球者O₁与各个队友之间的距离；dist(O₁，D_g)表示持球者O₁与守门员之间的距离；dist(O₁，GL)，dist(O₂，GL)，dist(O₃，GL)，dist(O₄，GL)表示各个进攻球员与球门线GL的距离；min_dist(O₁，D)，min_dist(O₂，D)，min_dist(O₃，D)，min_dist(O₄，D)表示各个进攻球员与防守球员的最近距离；min_ang(O₂，O₁，D)，min_ang(O₃，O₁，D)，min_ang(O₄，O₁，D)表示最小角度∠O_iO₁D，D为所有防守球员；min_dist(O₁，D_dcone)表示在带球锥D_dcone内持球者O₁与防守球员最近的距离，D_dcone是一个以O₁为顶点，半角为60°，轴心穿过球门的椎体；max_goal_ang(O₁)表示最大角度max(∠GP_左O₁D_g，∠GP_右O₁D_g)，即以持球者O₁为顶点，O₁至守门员为一条射线，O₁至两侧球门柱GP_左，GP_右为射线组成的最大角度；其中dist(O₁，GL)，max_goal_ang(O₁)，dist(O₁，D_g)直接影响射门动作的选择，min_dist(O₁，GL)，min_dist(O₁，D_dcone)直接影响带球动作的选择，其他的状态变量影响传球动作的选择。

本实施例中只考虑进攻球员的进攻效率，因此各状态变量个数与进攻球员的数量呈线性关系，与防守球员的数量线性无关；当然，防守球员的状态变量个数防守球员的关系与进攻球员与进攻球员的状态变量的线性关系一样。

S3、设置足球机器人的可操作动作集，足球机器人基于奖惩机制r和所述状态变量以及足球机器人相互间通讯选择下一步动作。

本发明中所可操作动作集包括传球、带球和射门三种，其中传球动作PassK基于与队友的距离，并不是实际号码；PassK把球踢到第K个队友，K＝2,3,…,m。带球动作Dribble是为了鼓励进攻球员向球门靠近；射门动作Shoot是将球踢向球门，进球即可得分；当球没有被进攻球员持有时，距离球最近的进攻球员会直接冲向球(GetBall)来达到持球权权利；同时，其他进攻球员总是保持阵型向前进攻(GetOpen)，伪代码如下：

if拥有持球权then

执行动作集{Pass2,…,Passm,Dribble,Shoot}

else if距离球最近的进攻球员then

GetBall(靠近球)

else

GetOpen(移动至阵型点)。

在本发明实施例中，进攻端机器人或防守端机器人中指定足球机器人通过Sarsa(λ)算法与剩余足球机器人通讯，通过通讯广播自身的状态和动作消息；例如，当球员在状态s中选择动作并且接受奖惩r时，就向团队广播消息，具体实现可通过下列伪代码实现：

加入通讯的强化学习

初始化：

for all训练片段do

s←NULL

repeat

if拥有持球权then

s←getCurrentStateFromEnviroment(得到当前环境的状态)

根据Q函数选择并执行动作a

r←waitForRewardFromEnviroment(等待环境判断动作给出相应的奖惩值)

广播消息(s,a,r)

else if距离球最近的进攻球员then

GetBall(靠近球)

else

GetOpen(移动至阵型点)

if收到广播消息(s_m,a_m,r_m)then

if状态s为空then

s,a,r←s_m,a_m,r_m

else

s′,a′,r′←s_m,a_m,r_m

Q(s,a)←Q(s,a)+α(r+γQ(s′,a′)-Q(s,a))

s,a,r←s′,a′,r′

until片段结束。

上述片段，即足球机器人在强化学习基本模型中的学习任务；在这里规定以下三种情况为一个片段结束：进球得分、球越界和防守球员获得控球权(包括守门员)；每个足球机器人存储当前动作值函数，持球的进攻球员执行动作并接受奖惩后，将消息以(s,a,r)广播给团队，每个足球机器人在开始时用(s,a,r)初始化，后续消息则根据(s′,a′,r′)动态更新；同时，为了保证消息一致，本发明方法还设置有一特殊足球机器人，用作所有足球机器人通讯的介质，即所有足球机器人相互间的通讯信息都先发送至所述特殊足球机器人，然后经由所述特殊作足球机器人广播给其他足球机器人；本发明方法通过这种由特殊足球机器人作为中间通讯介质的方式中，由于特殊足球机器人与其他足球机器人的通讯是独立的，可以通讯信息的完整和可靠性。

实施例二

采用HFO实验平台对实施例一的方法进行验证，具体的，由m名进攻球员与n名防守球员组成。其中防守球员包括守门员在内，且n≥m。半场进攻任务在足球场的一半上进行，并且在半场线附近开始，球由进攻球员持有；参阅图4，图示为一种经典的4v5模式的HFO平台，其中白色实心圆为球，四名进攻队员，包括守门员在内的五名防守队员；在实验过程中，进攻球员为了在HFO实验平台中射门进球成功，需要对进攻球员传球、带球和射门三中操作通过强化学习基本模型进行学习，并模拟防守球员则试图阻止进攻球员的动作。

优选的，本发明先分别对有足球机器人之间有通讯与无通信的学***均值

并且经方差公式计算得其方差仅为0.0005；图(5b)则是无通讯的学***均值

且计算出方差只为0.0025，相互比较可知，两组学***均值来表示，误差在可允许范围内忽略不计。

结合图6，图示为在足球机器人有通讯与无通讯的强化学习算法的性能对比，x轴表示的是片段数量，即x_i表示智能体在第i个片段学习，其中i∈[1,20000]。y轴表示的是各片段学习任务结束时获得的分数y_i，分数y_i由公式

计算所得；其中，r_j是第j个片段结束时的奖惩值；从图中可知，在前5000个片段学习中，有通讯的足球机器人和无通讯的足球机器人的性能均呈线性增长，且加入通讯的学习增长更快；当经过5000个片段的学习后，加入通讯的学习效率显著增加；经过20000个片段后，两条学习曲线都基本趋于收敛，无通讯的学习成功率为20.09％，而加入通讯后的学习成功率约为31.08％，比无通讯的学习效率提高了10.99％；对比可知，通过加入通讯后可提升足球机器人的学习效率。

在本发明实施例中，为了消除隐藏的状态，将足球机器人的事业设置为360°；同时，为了更加清晰的比较加入通讯后强化学习的算法的性能，本发明在不同数量的进攻球员上加入通讯学习进行对比实验，具体可参阅图7，分别对含有四个球员、三个球员、两个球员和单独一个球员的足球机器人***进行学习更新，从中可知，四条曲线都是先在一定学习片段内基本以线性增长，后趋于收敛；且在各学习片段中，所有球员都加入通讯后的学习曲线值始终高于其他曲线；而在经过5000与10000个片段学习时，学习效率随着增加通讯学习的球员数量而加快；经过20000个片段后，球员都处于有通讯学习时；且对含有最多四个球员的足球机器人***，其学习分数远高于其他含有足球机器人数量少的足球机器人***；由以上数据对比表明，本发明方法中，当足球机器人***中足球机器人的数量越多，通过足球机器人相互之间的通讯学习，足球机器人的学习效率更高，即在实际比赛过程中，通过本发明的方法可有效提升整个足球机器人***的协作效率，从而提升整个进攻效率。

综上可知，本发明的应用于包含有进攻端机器人和防守端机器人的足球机器人比赛中的基于强化学习的足球机器人协作方法，对于进攻端的所有足球机器人或者防守端的所有足球机器人，先基于加入有通讯的Sarsa(λ)算法构建足球机器人的强化学习基本模型，并在强化学习基本模型中设立足球机器人的基本动作集和奖惩机制，同时根据足球机器人的数量设定指定数目的状态变量；然后，足球机器人可根据通过奖惩机制和自身所处环境以及与其他足球机器人之间的通讯信息来选择在足球比赛中的执行动作，从而实现足球机器人相互之间的协作；与现有技术相比，本发明可有效提升足球机器人的协作效率，提升足球机器人比赛的可观赏性。

以上仅为本发明的较佳实施例，但并不限制本发明的专利范围，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员而言，其依然可以对前述各具体实施方式所记载的技术方案进行修改，或者对其中部分技术特征进行等效替换。凡是利用本发明说明书及附图内容所做的等效结构，直接或间接运用在其他相关的技术领域，均同理在本发明专利保护范围之内。

Claims

1.一种基于强化学习的足球机器人协作方法，其特征在于，所述方法包括：

S1、基于加入有通讯的Sarsa(λ)算法构建足球机器人的强化学习基本模型，并设定所述强化学习基本模型的奖惩机制r；强化学习基本模型的原理为，足球机器人在感知当前环境的状态下选择动作，此时环境状态迁移到新的状态，相应的，新的状态产生一个强化信号反馈给足球机器人，足球机器人根据当前环境信息与强化信号决定下一个行动；

S2、基于足球机器人之间的距离和角度定义指定数量的状态变量；其中包括进攻持球者与各个队友之间的距离、持球者与守门员之间的距离、各个进攻球员与球门线的距离、各个进攻球员与防守球员的最近距离、最小角度、在带球锥内持球者与防守球员最近的距离、最大角度；

S3、设置足球机器人的可操作动作集，足球机器人基于所述奖惩机制r和所述状态变量以及足球机器人相互间通讯选择下一步动作；可操作动作集包括传球、带球和射门三种，其中传球动作PassK基于与队友的距离PassK把球踢到第K个队友；带球动作Dribble是为了鼓励进攻球员向球门靠近；射门动作Shoot是将球踢向球门，进球即得分；当球没有被进攻球员持有时，距离球最近的进攻球员会直接冲向球来达到持球权权利；同时，其他进攻球员总是保持阵型向前进攻。

2.如权利要求1所述的基于强化学习的足球机器人协作方法，其特征在于，所述足球机器人包括进攻端机器人和防守端机器人，所述状态变量的数量基于所述进攻端机器人和防守端机器人的总和来设定。

3.如权利要求2所述的基于强化学习的足球机器人协作方法，其特征在于，所述方法还包括：所述进攻端机器人或所述防守端机器人中指定足球机器人通过所述Sarsa(λ)算法与剩余足球机器人通讯，通过所述通讯广播自身的状态和动作消息。

4.如权利要求1所述的基于强化学习的足球机器人协作方法，其特征在于，所述奖惩机制r为：

。