CN105139072A

CN105139072A - 应用于非循迹智能小车避障***的强化学习算法

Info

Publication number: CN105139072A
Application number: CN201510570592.5A
Authority: CN
Inventors: 王佛伟; 沈波; 王栋; 张似晶; 谭海龙
Original assignee: Donghua University
Current assignee: Donghua University; National Dong Hwa University
Priority date: 2015-09-09
Filing date: 2015-09-09
Publication date: 2015-12-09

Abstract

本发明公开了一种强化学习算法，其包括新Q学习算法，新Q学习算法包括以下实现步骤：将采集好的数据输入到BP神经网络中，计算状态隐含层和输出层各个单元的输入和输出；在t状态就算出其最大输出值m，基于这个输出判断是否与障碍物发生碰撞，如果发生了碰撞则记录下BP神经网络的各单元阈值和各连接权值；否则计算T+1时刻采集数据并归一化，计算t+1状态隐含层和输出层各个单元的输入和输出，计算t状态期望输出值，调整输出和隐含层各个单元的阈值，判断误差是否小于给定阈值或学习次数大于给定值，如果不符合条件则重新学习，不然记录下各个单元的阈值和各个连接权值，结束学习。本发明实时性好、快速性好、可后期重学习。

Description

应用于非循迹智能小车避障***的强化学习算法

技术领域

本发明涉及一种应用于非循迹智能小车避障***的强化学习算法，属于机器人学研究领域。

背景技术

在未来的汽车创造中，我国作为一个世界大国，在高科技领域也必须占据一席之地，未来汽车的智能化是汽车产业发展的必然方向，在这种情况下智能车避障***避障显得尤为关键，这将对我国未来智能汽车的研究在世界高科技领域占据领先地位具有重要作用。

如何使避障***在自主行驶过程中实现对障碍物的自动规避，从而实现对人们所不能到达区域未知环境的探测(需与监测设备联合使用)成为了众多学者思考的问题。机器学习是一门专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能的学科，是目前新兴的研究方向。众多学者正在研究如何将其应用于智能小车避障***，这相当于使避障***拥有了自主学习能力，通过不断学习实现自动避障。

由此可见，在现代社会的发展下，避障***的需求是无处不在的，结合机器学习算法使避障***避障能力提升，将带来一定的经济利益。

强化学习把学习过程看作试探评价(奖或惩)过程，学习机选择-动作作用于环境之后，使环境的状态改变，并产生一再励信号(奖或惩)反馈至学习机，学习机依据再励信号与环境当前的状态，再选择下一动作作用于环境。选择的原则是使受到奖励的可能性增大；由此可见，再励信号是环境对学习机学习结果的一个评价。换句话说，在一次次的实验过程中，能够学习怎样通过和环境的反复作用来完成一种复杂的任务，强化学习基本的体系结构如图1所示。

然而在强化学习中普遍应用于实际应用的是Q学习，Q学习要解决的问题：一个能感知环境的智能物体，怎样通过学习选择能达到其目标的最优动作。这个很具有普遍性的问题应用于学习控制智能小车。当智能小车在其环境中做出每个动作时，施教者会提供奖励或惩罚信息，以表示结果状态的正确与否。例如，在训练智能小车进行棋类对弈时，施教者可在游戏胜利时给出正回报，而在游戏失败时给出负回报，其他时候为零回报。智能小车的任务就是从这个非直接的，有延迟的回报中学习，以便后续的动作产生最大的累积效应。

Q学习***结构不同于AHC(AdaptiveHeuristicCritic)算法的结构，采用Q学习的智能***只有一个决策单元，同时起到动作的评价及选择作用，其结构如图2所示。

传统的避障小车都会考虑使用多个传感器，可以覆盖较广的环境，使得小车能够获得充分和全面的环境信息。但如此会导致大量硬件资源的耗费，也会带来传感器之间的互相干扰，给信息处理带来麻烦。

随着控制技术、传感技术、计算机技术的发展，特别是网络技术和图像信息处理技术的迅猛发展，智能小车的研究已经取得了***的研究成果，其应用领域不断扩大，应用的复杂程度也越来越高。避障技术是一个重要研究方向，多年来国内外都有大量的科技工作者致力于这方面的研究开发工作，因而在避障方面取得了长足的发展，然而仍有很多问题没有解决：

1.如何减少传感器的个数而不改变所需要的采集环境数据，做到传感器的融合形成一个局部网络。

2.如何在无人工控制下做到准确快速避障，减少对外界的干扰造成的误差，达到高度鲁棒性，建立全局的最优路径，并在存在动态障碍物的情况下实时改变路径并达到最优。

发明内容

本发明要解决的技术问题是：提供了一种实时性好、快速性好、可后期重学习的应用于非循迹智能小车避障***的强化学习算法，解决了如何减少传感器的个数而不改变所需要的采集环境数据以及如何在无人工控制下做到准确快速避障的问题。

为了解决上述技术问题，本发明的技术方案是提供了一种应用于非循迹智能小车避障***的强化学习算法，强化学习算法包括新Q学习算法，其特征在于，新Q学习算法包括以下实现步骤：首先初始化阈值及连续权值，利用传感器时刻采集数据并归一化，然后建立BP神经网络，将采集好的数据输入到BP神经网络中，通过BP神经网络算法计算状态隐含层和输出层各个单元的输入和输出；在t状态就算出其最大输出值m，根据这个输出可以得到机器人的动作输出，基于这个输出判断是否与障碍物发生碰撞，如果发生了碰撞则记录下BP神经网络的各单元阈值和各连接权值，机器人回归原来的位置重新开始学习；如果没有发生碰撞则计算T+1时刻采集数据并归一化，计算t+1状态隐含层和输出层各个单元的输入和输出，计算势场力的强化函数，计算t状态期望输出值，计算输出层和隐藏层的一般化误差，调整输出和隐含层的权值，再调整输入和隐含层的权值，还有调整输出和隐含层各个单元的阈值，判断误差是否小于给定阈值或学习次数大于给定值，如果不符合条件则重新学习，不然记录下各个单元的阈值和各个连接权值，结束学习。

优选地，所述的BP神经网络算法包括以下实现步骤：首先初始化网络中的参数，给定输入向量和期望输出，基于前向传播的方式，分别计算隐藏层的和输出层的各项输出，求期望输出和实际输出的偏差计算e，误差e满足要求，如果没有满足，计算输出层上各神经元的误差值，并调整该层上神经元的连接权值，之后进入反向传播，逐层各隐藏层上神经元的误差值，并调整连接权值和偏置项。

优选地，所述的传感器包括红外传感器和超声波传感器。

本发明的推广前景是广阔的，本发明的相关学习算法也可以应用在汽车等不同载体上，再者，采用本发明也可以应用在极端环境下，最大程度地降低危险性和人力成本。所以，本发明有着很好的应用性，可以给各行各业都带来一定的经济效益。本发明采用了一种新的学习算法开发避障***，它的先进性在于可以不断接收环境数据的同时规划避障路径，可以避开静态以及动态障碍物，无需人工参与高效避开障碍物并达到目的地，避障结果在后期可以得到评价，如果低于阈值可以重新学习直到结果收敛。此算法相比于现在的算法优点在于其实时性，快速性，可后期重学习。

附图说明

图1为强化学习基本的体系结构图；

图2为Q学习的智能***结构图；

图3为研究平台模型架构图；

图4为新Q学习算法实现的流程图；

图5为BP神经网络的算法流程；

图6为避障控制程序流程图；

图7为避障算法实现流程图。

具体实施方式

为使本发明更明显易懂，兹以优选实施例，并配合附图作详细说明如下。

移动机器人的避障，是无人工干扰的全智能避障***，在未来将代替人类在极端环境下工作等方面做出杰出贡献。它与机器人学、通讯技术、计算机视觉、多传感器信息融合、智能控制以及多智能体(Multi-Agent)、机械学等，体现了信息科学和人工智能技术的最新成果，是在机器人学研究领域中一个重要的部分。

结合当前国内外对智能小车避障***的研究现状，本发明对整个避障***进行了分析和开发，使用了红外传感器和超声波探测器来探测周围环境，同时利用单片机技术对采集到的距离信息进行分析和处理，并且提出了一种新颖的控制算法用于智能小车的实时避障。取得以下成果：

1)研究了一种控制策略用于避障***的自主避障，控制策略核心算法为新Q学习算法，新Q学习算法是强化学习算法的一种，由于现实环境比较复杂，所以新Q学习算法用BP神经网络来实现。为了论证了该算法的可行性，开发了相应的模拟仿真程序，完成了程序的总体设计、***模块分析和主界面设计。

2)避障***可以在不确定环境下能够顺利躲避障碍物到达目标。

强化函数又叫奖励和惩罚函数，通常分成三大类：第一类是最短路径问题，就是除去最佳状态之外，其他所有状态条件下的强化函数都为-1，目的为了使智能小车尽可能快地到达希望状态；第二类是躲避问题(也就是本发明研究的重点)，除了失败状态下，其它所有的状态里强化函数都等于0，在失败的状态下，强化函数等于1；第三类是寻找目标问题，除去失败和成功的状态，在其它所有状态下，强化函数等于0。在失败状态下，强化函数等于-1，在成功状态下，强化函数等于1。选择动作的好坏是通过强化函数值来表现的。根据智能小车在不确定环境下寻找目标的要求。

强化信号的作用是对学习***性能的一种评价，主要用于改善***的性能。强化信号根据控制任务的不同，其形式有所不同。避障***避碰行为的学习，目的是学会使避障***躲避障碍物的避障行为，我们用人工势场法产生强化值，人工势场法是由Khatib提出的，其基本思想是构造目标位姿引力场和障碍物周围斥力场共同作用的人工势场，依搜索函数的下降方向来寻找无碰撞路径，即通过人工势场法产生强化函数值。

新Q学习算法的具体实现BP人工神经网络的输入是传感器所测距离的归一化值，输出的是避障***的动作，新Q学习算法实现的流程图如图4所示：

首先初始化阈值及连续权值，利用传感器(即红外传感器和超声波传感器，如图3所示)时刻采集数据并归一化，然后建立BP神经网络，将采集好的数据输入到BP神经网络中，通过BP神经网络算法计算状态隐含层和输出层各个单元的输入和输出。在t状态就算出其最大输出值m，根据这个输出可以得到机器人的动作输出，基于这个输出判断是否与障碍物发生碰撞，如果发生了碰撞则记录下BP神经网络的各单元阈值和各连接权值，机器人回归原来的位置重新开始学习。如果没有发生碰撞则计算T+1时刻采集数据并归一化，计算t+1状态隐含层和输出层各个单元的输入和输出，计算势场力的强化函数，计算t状态期望输出值，计算输出层和隐藏层的一般化误差，调整输出和隐含层的权值，再调整输入和隐含层的权值，还有调整输出和隐含层各个单元的阈值，判断误差是否小于给定阈值或学习次数大于给定值，如果不符合条件则重新学习，不然记录下各个单元的阈值和各个连接权值，结束学习。

上述计算均是通过BP神经网络的算法来实现的，BP神经网络的核心算法是梯度下降法(GradientDescentAlgorithm)，这是机器学习最普遍的算法，整个过程形似从山顶下降到山脚，主要的任务是找到最低点从而来处理优化问题。该BP神经网络的算法流程如下(如图5所示)：

BP神经网络算法首先初始化网络中的参数，给定输入向量和期望输出，基于前向传播的方式，分别计算隐藏层的和输出层的各项输出，求期望输出和实际输出的偏差计算e，误差e满足要求，如果没有满足，计算输出层上各神经元的误差值，并调整该层上神经元的连接权值，之后进入反向传播，逐层各隐藏层上神经元的误差值，并调整连接权值和偏置项。

可以将这个训练好的模型放在如图3所示的实验平台上，在训练初期由于需要不断的尝试学习避障，使得小车形成避障***，提出输出期望，在非常接近输出期望的范围之内后停止小车的学习。避障学习流程图如图6所示，首先初始化参数，给定输入向量和输出期望，定位在一个初始位置，使用传感器采集数据，判断障碍物的距离，然后根据前面的学习动作概率选择一个动作，如果碰到障碍物则回到初始位置重新学习，如果没有则继续前进，终止条件为接近输入的期望值时。

在训练结束后，可以进行测试，看训练的结果是否足够好，测试流程图如图7所示，首先单片机初始化，设定好中断、通讯模式和A/D转换，当A/D转换准备好时，重复判断是否获得数字信号，利用前面建立好的学习算法模型，进行障碍物的避障，这里省略了传感器采集数据，判断障碍物距离，选择动作等，每次碰到障碍物都获得一次数字信号，并根据模型进行避障，直到结束。

训练出来的这个模型在实验平台(即智能小车上，如图3所示)得到了极好的成果，避障速度快且精度高，在无人工控制下已经可以成果避开障碍物包括动态的障碍物。

本发明为应用于非循迹智能小车避障***的强化学习算法，应用于自动躲避障碍物的小车上，避障***一旦启动，则无需人工干预。本发明让避障***自主学习，通过不断地训练使避障***形成自己的“大脑”，可以逐渐判断出何种情况下需要躲避，并且采用技术处理让避障***能够更快地获取障碍物位置，提高行驶速度。本发明最大的优势即体现在避障***的智能化。本发明的推广前景是广阔的，首先，目前无人驾驶、自动化都是研究的一个热点话题，各大厂商争相抢占市场先机，而本发明的相关学习算法也可以应用在汽车等不同载体上，再者，采用本发明也可以应用在极端环境下，最大程度地降低危险性和人力成本。所以，本发明有着很好的应用性，可以给各行各业都带来一定的经济效益。

本发明先进性主要体现在两点：

(1)传统的避障算法都会考虑使用多个传感器，可以覆盖较广的环境，使得避障***能够获得充分和全面的环境信息。但如此会导致大量硬件资源的耗费，也会带来传感器之间的互相干扰，给信息处理带来麻烦。所以我们采用尽可能少的传感器，同时也可以获得全面的环境信息。我们采用舵机上设置传感器，关键点设置传感器以及多点扫描的方式，防止传感器的互相干扰。

(2)运用机器学习中强化学习的概念，设计回报函数来激励避障***，通俗地来说：如果避障***没有撞到碰撞物，则奖励它一次；如果避障***撞到碰撞物，则惩罚它一次。通过不断地训练避障***，不断地激励惩罚，使避障***能够实现自动避让碰撞物。目前的避障***躲避都仅仅是通过回避超声来实习，并没有考虑到使用学习算法来完全做到智能化、自动化。从这点看，本发明可以说是无人驾驶的一种简单实现，无人驾驶是现代技术发展的一个趋势，媒体曾广泛报导“自动驾驶+无人机＝新未来”的概念，无人驾驶太空车、无人驾驶汽车等等都是行业关注的热点话题，而本发明则是从本质出发，立足于最初点，通过强化学习算法来实现“无人指挥”避障***，从而可以使用它进行特殊区域的作业，避免过大的人力消耗。

智能小车避障***的路径规划问题，是指在有障碍物的工作环境中寻找一条恰当的从给定起点到终点的运动路径，使小车在运动过程中能安全、无碰撞地绕过所有障碍物。障碍环境中避障***的无碰撞路径规划是智能小车研究的重要课题之一，由于在障碍空间中避障***运动规划的高度复杂性使得这一问题至今未能很好的解决。避障是避障***在路径规划主要考虑的问题，避障***路径规划是否成功，一个主要的评价指标是看避障***的避障是否成功，因此避障***的避障功能对避障***的路径规划和导航来说至关重要。

在避障***中，对于不确定动态环境下的避障轨迹生成，是较为困难的。有关这方面的研究，目前己有一些方法。现阶段提供的神经网络模型的轨迹生成法，应用在静态环境下及假设空间中没有障碍物的情况。其他提供的神经网络模型，能为避障***产生导航的避障轨迹，然而模型在计算上相当复杂。

本发明用强化学习使避障***避障，强化学习是避障***通过学习来完成任务，而无需设计者完全预先规定避障***的所用动作，它是将动态规划和监督学习结合起来的一种新的学习方法，通过避障***与环境的试错交互，借助于来自成功和失败经验的奖励和惩罚信号不断改进避障***的自治能力，从而到达目标，并容许后评价。在强化算法中主要用新Q学习算法来实现，并能用BP人工神经网络来实现新Q学习算法，用Boltzmna来产生随机动作。

本发明可以应用于全方位自动避障小车，小车一旦启动，可以智能的避开障碍物，无需人工干预。首先可以迅速感知不确定环境下的前方障碍物，并且训练小车自主判断不确定障碍物的干扰，如何躲避，并选择最优的路径到达自己的目的地。

(1)迅速感知不确定环境下前方的障碍物

摒弃传统的单点扫描，通过多个单一的传感器的单点扫描的叠加来实现距离信号的采集，即传感器融合技术。运用分时多点扫描方法，只需要一个传感器即可；可以大大节省了超声波传感器的数量，减轻了小车的负荷，同时也大量地降低了成本。

(2)训练小车自主判断确定障碍物的干扰

障碍物的行为包括静态和动态两种，在能够规避静态障碍物的同时，同时要对动态的障碍物进行建模，让小车能够在安全距离下行动。对动态的障碍物进行建模，动态障碍物的行为是随机的，本发明用强化学习使智能小车避障，强化学习是小车通过学习来完成任务，而无需设计者完全预先规定小车的所用动作，它是将动态规划和监督学习结合起来的一种新的学习方法，通过小车与环境的试错交互，借助于来自成功和失败经验的奖励和惩罚信号不断改进小车的自治能力，从而到达目标，并容许后评价。

自主判断是通过学习得到的对训练样本障碍物的完美规避方式后，对新输入测试障碍物进行的判断规避方式，并在其后对避障结果进行评价修正。

(3)选择最优的路径到达自己的目的地

由于使用的算法Q学习是一个全局规划问题，于是在每一步都可以做到最优，直到到达目标点都是最优的情况，于是认为在起点开始到达目标点为一条最优路径。

Claims

1.一种应用于非循迹智能小车避障***的强化学习算法，强化学习算法包括新Q学习算法，其特征在于，新Q学习算法包括以下实现步骤：首先初始化阈值及连续权值，利用传感器时刻采集数据并归一化，然后建立BP神经网络，将采集好的数据输入到BP神经网络中，通过BP神经网络算法计算状态隐含层和输出层各个单元的输入和输出；在t状态就算出其最大输出值m，根据这个输出可以得到机器人的动作输出，基于这个输出判断是否与障碍物发生碰撞，如果发生了碰撞则记录下BP神经网络的各单元阈值和各连接权值，机器人回归原来的位置重新开始学习；如果没有发生碰撞则计算T+1时刻采集数据并归一化，计算t+1状态隐含层和输出层各个单元的输入和输出，计算势场力的强化函数，计算t状态期望输出值，计算输出层和隐藏层的一般化误差，调整输出和隐含层的权值，再调整输入和隐含层的权值，还有调整输出和隐含层各个单元的阈值，判断误差是否小于给定阈值或学习次数大于给定值，如果不符合条件则重新学习，不然记录下各个单元的阈值和各个连接权值，结束学习。

2.如权利要求1所述的一种应用于非循迹智能小车避障***的强化学习算法，其特征在于，所述的BP神经网络算法包括以下实现步骤：首先初始化网络中的参数，给定输入向量和期望输出，基于前向传播的方式，分别计算隐藏层的和输出层的各项输出，求期望输出和实际输出的偏差计算e，误差e满足要求，如果没有满足，计算输出层上各神经元的误差值，并调整该层上神经元的连接权值，之后进入反向传播，逐层各隐藏层上神经元的误差值，并调整连接权值和偏置项。

3.如权利要求1所述的一种应用于非循迹智能小车避障***的强化学习算法，其特征在于，所述的传感器包括红外传感器和超声波传感器。