CN105094124A

CN105094124A - 基于操作条件反射进行自主路径探索的方法及模型

Info

Publication number: CN105094124A
Application number: CN201410215954.4A
Authority: CN
Inventors: 蔡建羡; 洪利; 于瑞红; 马洪蕊
Original assignee: Institute of Disaster Prevention
Current assignee: Institute of Disaster Prevention
Priority date: 2014-05-21
Filing date: 2014-05-21
Publication date: 2015-11-25

Abstract

本发明提供一种基于操作条件反射进行自主路径探索的方法及模型，方法包括：设置初始参数值，包括离散化的环境状态空间和动作空间；在第t步时，通过声纳传感器采集机器人当前环境参数值，判断机器人当前各环境参数值所属的级别状态S_i(t)；从动作空间A选择概率最大一个动作a_k(t)执行；当实施选取的动作a_k(t)后，机器人状态发生转移，评价在状态s_i(t)下，实施操作a_k(t)的作用效果，根据评价信号V_ik(t)，决定是否需要更新“状态s_i(t)-操作a_k(t)”的原Q值。该方法主要特征在于模拟了生物的操作条件反射机制，具有仿生的自组织、自学习和自适应功能，有效的将仿生学、心理学和生物学应用于控制***，具有实现仿生自主学习控制的功能。

Description

基于操作条件反射进行自主路径探索的方法及模型

技术领域

本发明属于路径探索技术领域，具体涉及一种基于操作条件反射进行自主路径探索的方法及模型。

背景技术

Skinner操作条件反射(OperantConditioning)理论在人和动物的学习中，扮演着重要角色，基本原理为：如果在一定的主客观条件下，生物的某种行为所导致的后果符合生物的取向性，那么，在类似的主客观条件下，生物实施类似行为的概率将会上升。此外，Skinner十分强调强化的作用，他认为，人的学习是否成立关键在于强化。当一个操作发生之后，紧接着呈现一个强化刺激时，那么，这个操作的强度就增加。这里所增加的不是“刺激-反应”的联结，而是使反应发生的一般倾向性增强，即反应发生的概率增强了。他认为，在学习中，练习虽然是重要的，但关键的变量却是强化。

在未知环境状态下，由于机器人没有合适的教师信号，机器人的学习能力是完成自主路径探索任务的关键所在。如申请号为200910044273.5，名称为未知环境下移动机器人导航安全的方法的发明申请，引入模糊神经网络智能技术实现机器人在未知环境中的自主学习探索，以确保运动过程中的安全。虽然以模糊神经网络为基础的机器人研究已经将机器人的控制行为同神经生理学和认知科学联系在一起，但这种联系还很松散和被动，机器人主体的运动控制技能以陈述性控制规则为主，具有过多的设计成份，较少生物***技能仿生自主学习和自组织特征，还不能真正实现机器人的自主路径探索。

操作条件反射学***衡控制。

但是，上述专利申请设计的操作条件反射自动机的学***衡控制问题，难以应用于机器人路径探索这种复杂控制任务。

发明内容

针对现有技术存在的缺陷，本发明提供一种基于操作条件反射进行自主路径探索的方法及模型，可有效应用于机器人路径探索领域。

本发明采用的技术方案如下：

本发明提供一种基于操作条件反射进行自主路径探索的方法，包括以下步骤：

Step1，设置初始参数值，包括：机器人起点位置信息；迭代学习步数初值t＝0；迭代学习次数t_f；采样时间t_s；学习算法相关参数，包括权重系数β₁、β₂、β₃、β₄，退火初始温度T₀，退火参数，折扣因子η；

设置机器人离散化的环境状态空间S＝{s_i|i＝1，2，…，n}，其中，每一个s_i均用五个状态量表示，即：S_i＝{d^～ _{rob_obs_l}，d^～ _{rob_obs_f}，d^～ _{rob_obs_r}，d^～ _{rob_tar}，θ^～}；其中：

d^～ _{rob_obs_l}－－机器人左侧距障碍物的距离状态；

d^～ _{rob_obs_f}－－机器人前方距障碍物的距离状态；

d^～ _{rob_obs_r}－－机器人右侧距障碍物的距离状态；

d^～ _{rob_tar}－－机器人与目标点之间的距离状态；

θ^～－－机器人当前运动方向和目标点的夹角状态；

对于每一个状态量，均采用模糊法划分为有限个级别状态，每一个级别状态为一个距离区间；

设置动作空间A＝{a_k|k＝1，2，…，r}；其中，a_k表示移动机器人路径探索的第k个可选动作；机器人最初从动作空间中选取任意一个动作a_k的概率均相等，为1/r；设置安全距离d_max和最小危险距离d_min；

Step2，机器人配备有多个声纳传感器，在机器人行走过程中，在第t步时，通过声纳传感器采集机器人当前环境参数值，包括：距左侧障碍物距离d^t _{rob_obs_l}、距右侧障碍物距离d^t _{rob_obs_r}、距前方障碍物距离d^t _{rob_obs_f}、与目标点之间距离d^t _{rob_tar}、当前运动方向和目标点夹角θ^t；

判断机器人当前各环境参数值所属的级别状态，从而得到机器人在第t步时所处的环境状态S_i(t)＝{d^～ _{rob_obs_l}，d^～ _{rob_obs_f}，d^～ _{rob_obs_r}，d^～ _{rob_tar}，θ^～}，S_i(t)∈环境状态空间S；

依据公式(3)计算当前状态S_i(t)下的信息熵值H_i(t)：

H_{i} (t) = H_{i} (A (t) | s_{i} (t)) = - Σ_{k = 1}^{r} p_{ik} \log_{2} p_{ik} = - Σ_{k = 1}^{r} p (a_{k} | s_{i} (t)) \log_{2} p (a_{k} | s_{i} (t)) - - - (3)

其中，a_k∈A＝{a_k|k＝1，2，…，r}表示移动机器人路径探索的第k个可选动作，A表示机器人路径探索的可选动作集合，r为可选动作的个数；p_ik＝p(a_k|s_i(t))∈P_i表示处于环境状态S_i(t)的条件下实施动作a_k的概率值，也被称为“状态s_i-动作a_k”对的激发概率值，满足：0＜p_ik＜1，p_ik∈P_i＝{p_i1，p_i2，...，p_ir}，P_i表示第i个状态对应的概率矢量，P_i={p_i1，p_i2，...，p_ir}∈P，P代表总的概率矢量；

Step3，依据Boltzmann分布，从动作空间A选择概率最大一个动作a_k(t)执行；最优动作的学习目标为：

①如果机器人与左方、前方和右方障碍物的距离均大于安全距离，即：d_{rob_obs_l}＞d_max且d_{rob_obs_f}＞d_max且d_{rob_obs_r}＞d_max，则执行动作需使机器人倾向直接向目标点移动；

②如果机器人与左方、前方和右方障碍物的距离中，存在介于安全距离与最小危险距离之间的数值，即满足以下关系式：d_min＜d_{rob_obs_l}或d_{rob_obs_f}或d_{rob_obs_r}＜d_max，则执行对应动作需使机器人能实现避障；

Step4，当实施选取的动作a_k(t)后，机器人状态发生转移，计算新状态s_i(t+1)下的信息熵值H_i(t+1)；

判断当前的训练轮数是否超过预先设定的训练轮数N，如果超过，则剔除信息熵值始终保持最大的状态，并转向Step5；否则，直接转向Step5；

Step5，首先，获取新状态下机器人与障碍物之间的距离：

若d_{rob_obs_l}＞d_max且d_{rob_obs_f}＞d_max且d_{rob_obs_r}＞d_max，按照式(4)计算“状态s_i(t)-操作a_k(t)”的评价信号V_ik(t)；

若d_min＜d_{rob_obs_l}＜d_max，按照式(5-1)计算“状态s_i(t)-操作a_k(t)”的评价信号V_ik(t)；

若d_min＜d_{rob_obs_f}＜d_max，按照式(5-2)计算“状态s_i(t)-操作a_k(t)”的评价信号V_ik(t)；

若d_min＜d_{rob_obs_r}＜d_max，按照式(5-3)计算“状态s_i(t)-操作a_k(t)”的评价信号V_ik(t)；

若d_{rob_obs_l}＜d_minord_{rob_obs_f}＜d_minord_rob__{obs_r}＜d_min，学习失败，给予惩罚值，令V_ik(t)＝-1；

V(d_{rob_tar}，θ)＝-β₁sign(Δd_{rob_tar}(t))Δ²d_{rob_tar}(t)-β₂sign(Δθ(t))Δ²θ(t)(4)

其中，β₁、β₂为权重系数，0＜β₁，β₂＜1；Δθ(t)＝θ(t+1)-θ(t)；Δd_{rob_tar}(t)＝d_{rob_tar}(t+1)-d_{rob_tar}(t)；

V(d_{rob_obs_l}，d_{rob_tar})＝β₃sign(Δd_{rob_obs_l}(t))Δ²d_{rob_obs_l}(t)-β₄sign(Δd_{rob_tar}(t))Δ²d_{rob_tar}(t)(5-1)

其中，β₃，β₄为权重系数，0＜β₃，β₄＜1；Δd_{rob_obs_l}(t)＝d_{rob_obs_l}(t+1)-d_{rob_obs_l}(t)；

V(d_{rob_obs_f}，d_{rob_tar})＝β₃sign(Δd_{rob_obs_f}(t))Δ²d_{rob_obs_f}(t)-β₄sign(Δd_{rob_tar}(t))Δ²d_{rob_tar}(t)(5-2)

其中，β₃，β₄为权重系数，0＜β₃，β₄＜1；Δd_{rob_obs_f}(t)＝d_{rob_obs_f}(t+1)-d_{rob_obs_f}(t)；

V(d_{rob_obs_r}，d_{rob_tar})＝β₃sign(Δd_{rob_obs_r}(t))Δ²d_{rob_obs_r}(t)-β₄sign(Δd_{rob_tar}(t))Δ²d_{rob_tar}(t)(5-3)

其中，β₃，β₄为权重系数，0＜β₃，β₄＜1；Δd_{rob_obs_r}(t)＝d_{rob_obs_r}(t+1)-d_{rob_obs_r}(t)；

所计算的评价信号V_ik(t)实质用于评价在状态s_i(t)下，实施操作a_k(t)的作用效果，根据评价信号V_ik(t)，决定是否需要更新“状态s_i(t)-操作a_k(t)”的原Q值，如果不需要，则表明本步学习失败，放弃本次学习经验，保留“状态s_i(t)-操作a_k(t)”的原Q值；并执行Step6；否则，按照式(6)，计算“状态s_i(t)-操作a_k(t)”的新Q值，并将“状态s_i(t)-操作a_k(t)”的原Q值更新为新Q值，即保留了本步的学习经验；以及，按照式(8)，更新“状态s_i(t)-操作a_k(t)”的概率值p_ik(s_i(t)，a_k(t))，并执行Step6：

Q (s_{i} (t), a_{k} (t)) = (1 - γ (p_{ik})) Q (s_{i} (t - 1), a_{k} (t - 1)) + γ (p_{ik}) [V_{ik} (t) + η \underset{a_{k}}{\max Q} (s_{i} (t + 1), a_{k} (t))] - - - (6)

其中，η为折扣因子，表示学习***对动作的关注程度；γ(p_ik)为t时刻的学习率函数；学习率函数表示式为式(7)：

γ (p_{ik}) = \frac{1}{1 + \exp [\frac{p_{ik} (t) - p_{ik} (t + 1)}{p_{ik} (t)}]} - - - (7)

其中，T是温度系数，T₀为初始温度值，随着时间t的增加，T由T₀衰减，参数用于控制退火的速度；

Step6，判断机器人新状态下是否到达目标点或超过初始设置的迭代学习次数t_f，如果判断结果为是，则结束本轮学习；如果判断结果为否，则令t＝t+1，按照调整后的Q值和概率值机器人继续进行路径探索，重复进行Step2-Step6的步骤，直到到达目标点或超过初始设置的迭代学习次数t_f时，结束本轮学习。

本发明还提供一种基于操作条件反射进行自主路径探索的自主探索认知模型，包括：感知器、执行器、状态编辑器、参数设置模块、终止条件判断模块和探索学习策略模块；其中，所述探索学习策略模块包括：倾向单元、学习核和动作选择策略模块；

所述参数设置模块用于设置初始参数值，包括：机器人起点位置信息；迭代学习步数初值t＝0；迭代学习次数t_f；采样时间t_s；学习算法相关参数，包括权重系数β₁、β₂、β₃、β₄，退火初始温度T₀，退火参数，折扣因子η；

设置机器人离散化的环境状态空间S＝{s_i|i＝1，2，…，n}，其中，每一个s_i均用五个状态量表示，即：S_i＝{d^～ _{rob_obs_l}，d^～ _{rob_obs_f}，d^～ _{rod_obs_r}，d^～ _{rod_tar}，θ^～}；其中：

d^～ _{rob_obs_l}——机器人左侧距障碍物的距离状态；

d^～ _{rob_obs_f}——机器人前方距障碍物的距离状态；

d^～ _{rob_obs_r}——机器人右侧距障碍物的距离状态；

d^～ _{rob_tar}——机器人与目标点之间的距离状态；

θ^～——机器人当前运动方向和目标点的夹角状态；

设置动作空间S＝{a_k|k＝1，2，…，r}；其中，a_k表示移动机器人路径探索的第k个可选动作；机器人最初从动作空间中选取任意一个动作a_k的概率均相等，为1/r；设置安全距离d_max和最小危险距离d_min；

所述感知器为多个声纳传感器，在机器人行走过程中，在第t步时，通过声纳传感器采集机器人当前环境参数值，包括：距左侧障碍物距离d^t _{rob_obs_l}、距右侧障碍物距离d^t _{rob_obs_r}、距前方障碍物距离d^t _{rob_obs_f}、与目标点之间距离d^t _{rob_tar}、当前运动方向和目标点夹角θ^t；

所述状态编辑器用于机器人当前各环境参数值所属的级别状态，从而得到机器人在第t步时所处的环境状态S_i(t)＝{d～_{rob_obs_l}，d^～ _rob__{obs_f}，d^～ _{rob_obs_r}，d^～ _{rob_tar}，θ^～}，S_i(t)∈环境状态空间s；

所述倾向单元用于通过计算环境状态的熵值衡量机器人对环境状态的倾向程度，具体为：依据公式(3)计算当前状态S_i(t)下的信息熵值H_i(t)：

H_{i} (t) = H_{i} (A (t) | s_{i} (t)) = - Σ_{k = 1}^{r} p_{ik} \log_{2} p_{ik} = - Σ_{k = 1}^{r} p (a_{k} | s_{i} (t)) \log_{2} p (a_{k} | s_{i} (t)) - - - (3)

其中，a_k∈S＝{a_k|k＝1，2，…，r}表示移动机器人路径探索的第k个可选动作，A表示机器人路径探索的可选动作集合，r为可选动作的个数；p_ik＝p(a_k|s_i(t))∈P_i表示处于环境状态S_i(t)的条件下实施动作a_k的概率值，也被称为“状态s_i-动作a_k”对的激发概率值，满足：0<p_ik<1，p_ik∈P_i＝{p_i1，p_i2，…，p_ir}，P_i表示第i个状态对应的概率矢量，P_i＝{p_i1，p_i2，…，p_ir}∈P，P代表总的概率矢量；

所述动作选择器用于依据Boltzmann分布，从动作空间A选择概率最大一个动作a_k(t)执行；最优动作的学习目标为：

①如果机器人与左方、前方和右方障碍物的距离均大于安全距离，即：d_{rob_obs_l}>d_max且d_rob__{obs_f}>d_max且d_{rob_obs_r}>d_max，则执行动作需使机器人倾向直接向目标点移动；

②如果机器人与左方、前方和右方障碍物的距离中，存在介于安全距离与最小危险距离之间的数值，即满足以下关系式：d_min<d_{rob_obs_l}或d_{rob_obs_f}或d_{rob_obs_r}<d_max，则执行对应动作需使机器人能实现避障；

所述执行器用于执行所述选择器所选择的动作，使机器人状态发生转移；

所述学习核用于对所选动作的作用效果进行评价，产生评价信号，具体为：

若d_{rob_obs_l}>d_max且d_{rob_obs_f}>d_max且d_rob__{obs_r}>d_max，按照式(4)计算“状态s_i(t)-操作a_k(t)”的评价信号V_ik(t)；

若d_min<d_{rob_obs_l}<d_max，按照式(5-1)计算“状态s_i(t)-操作a_k(t)”的评价信号V_ik(t)；

若d_min<d_{rob_obs_f}<d_max，按照式(5-2)计算“状态s_i(t)-操作a_k(t)”的评价信号V_ik(t)；

若d_min<d_{rob_obs_r}<d_max，按照式(5-3)计算“状态s_i(t)-操作a_k(t)”的评价信号V_ik(t)；

若d_rob__obs__l<d_minord_{rob_abs_f}<d_minord_{rob_obs_r}<d_min，学习失败，给予惩罚值，令V_ik(t)＝-1；

其中，β₁、β₂为权重系数，0<β₁，β₂<1；Δθ(t)＝θ(t+1)-θ(t)；Δd_{rob_tar}(t)＝s_{rob_tar}(t+1)-d_{rob_tar}(t)；

其中，β₃，β₄为权重系数，0<β₃，β₄<1；Δd_{rob_obs_l}(t)＝d_{rob_obs_l}(t+1)-d_{rob_obs_l}(t)；

V(d_{rob_obs_f}，d_{rob_tar})＝β₃sign(Δd_{rob_obs_f}(t))Δ²d_{rob_obs_f}(t)-β₄sign(Δd_{rob_tar}(t))Δ²d_{rob_tar}(r)(5-2)

其中，β₃，β₄为权重系数，0<β₃，β₄<1；Δd_{rob_obs_f}(t)＝d_{rob_obs_f}(t+1)-d_{rob_obs_f}(t)；

其中，β₃，β₄为权重系数，0<β₃，β₄<1；Δd_{rob_obs_r}(t)＝d_{rob_obs_r}(t+1)-d_{rob_obs_r}(t)；

所计算的评价信号V_ik(t)实质用于评价在状态s_i(t)下，实施操作a_k(t)的作用效果，根据评价信号V_ik(t)，决定是否需要更新“状态s_i(t)-操作a_k(t)”的原Q值，如果不需要，则表明本步学习失败，放弃本次学习经验，保留“状态s_i(t)-操作a_k(t)”的原Q值；否则，按照式(6)，计算“状态s_i(t)-操作a_k(t)”的新Q值，并将“状态s_i(t)-操作a_k(t)”的原Q值更新为新Q值，即保留了本步的学习经验；以及，按照式(8)，更新“状态s_i(t)-操作a_k(t)”的概率值p_ik(s_i(t)，a_k(t))：

Q (s_{i} (t), a_{k} (t)) = (1 - γ (p_{ik})) Q (s_{i} (t - 1), a_{k} (t - 1)) + γ (p_{ik}) [V_{ik} (t) + η \max_{a_{k}} Q (s_{i} (t + 1), a_{k} (t))] - - - (6)

其中，η为折扣因子，表示学习***对动作的关注程度；γ(p_rk)为t时刻的学习率函数；学习率函数表示式为式(7)：

γ (p_{ik}) \frac{1}{1 + \exp [\frac{p_{ik} - p_{ik} (t + 1)}{p_{ik} (t)}]} - - - (7)

所述终止条件判断模块用于判断机器人新状态下是否到达目标点或超过初始设置的迭代学习次数t_f，如果判断结果为是，则结束本轮学习；如果判断结果为否，则令t＝t+1，按照调整后的Q值和概率值机器人继续进行路径探索，直到到达目标点或超过初始设置的迭代学习次数t_f时，结束本轮学习。

本发明提供的基于操作条件反射进行自主路径探索的方法及模型，具有仿生的自组织、自学习和自适应功能，有效的将仿生学、心理学和生物学应用于控制***，具有实现仿生自主学习控制的功能。本发明专利为仿生自主学习的研究提供了新的思路和新的方法，有助于推动智能控制和智能学习算法的相关研究。

附图说明

图1为本发明提供的基于操作条件反射进行自主路径探索的方法的流程示意图；

图2为本发明提供的机器人、障碍物及目标点间关系示意图；

图3为智能体和环境的交互示意图；

图4为基于操作条件反射进行自主路径探索的自主探索认知模型的结构示意图；

图5为训练轮次和学习次数的关系曲线图；

图6为训练轮次和成功终止步数的关系曲线图；

图7为在20轮训练学习过程中，某状态信息熵的变化曲线图；

图8为初始学习阶段机器人的路径探索轨迹图；

图9为学习末期机器人的路径探索轨迹图；

图10为起始点(5，20)，终止点(55，40)的路径探索轨迹图；

图11为起始点(30，5)，终止点(40，42)的路径探索轨迹图。

具体实施方式

以下结合附图对本发明进行详细说明：

如图1所示，本发明提供一种基于操作条件反射进行自主路径探索的方法及模块，该模型模拟操作条件反射机制，利用信息熵设计倾向单元，表征对状态的倾向程度，实现对冗余状态的自动删减；对Q学习算法进行了改进，作为学习核指引学的方向；采用Boltzmann机进行退火运算，实现对导航动作的随机选取，随着学习的进行，动作选择策略趋于最优。并结合Mobotsim机器人仿真软件，用移动机器人的自主路径探索问题来验证使用此模型实现移动机器人未知环境中路径探索的可行性。

具体为：机器人在未知环境下的自主导航时，在向目标点靠近的过程中，遇到障碍物后，借助声纳传感器提供的信息，利用设计的仿生自主学习算法实施避障策略。学习算法包括倾向单元的计算、动作的选择及Q值的更新调整。

为了研究路径探索算法方便，假设机器人能向任意方向连续等步长运动，步长恒定且为一个栅格边长。同时机器人能够在狭小的环境区域内自由转身而不会与障碍物相碰，因此在路径探索算法中不必考虑机器人的转动半径，机器人简化为一个质点。机器人、障碍物及目标点间关系如图2所示，在图2中，R代表机器人，T代表目标点，O代表障碍物，O1、O2和O3分别代表三个障碍物，L箭头代表机器人运动方向。

具体包括以下步骤：

Step1，设置初始参数值，包括：

(1)机器人起点位置信息；迭代学习步数初值t＝0；迭代学习次数t_f；采样时间t_s；学习算法相关参数，包括权重系数β₁、β₂、β₃、β₄，退火初始温度T₀，退火参数折扣因子η；

(2)环境状态空间

机器人在路径探索过程中不断学习，学习的结果是使得所处的环境状态发生了转移，学习产生新的交互，新的交互又激发进一步的学习，正是在两者的反复迭代中，机器人的动作对于给定的任务趋于优化，并逐步适应未知环境。为了促进环境交互，通常将环境状态进行分解，使整个环境形成状态空间，以便于学习的逐步进行。

本发明采用最简单的传感器信息融合方式，将传感器的探测范围依次分为3个区，即左方、前方和右方，这样机器人与障碍物之间的环境状态就可用3个方向的距离状态表示。考虑到对于机器人路径探索来说，相同的障碍物状态中可能包含不同的目标状态，因此，将机器人与目标点的距离状态及与目标点间的夹角状态也加入环境状态空间中。由此，机器人离散化的环境状态空间s为：S＝{s_i|i=1，2，…，n}，其中，每一个s_i均用五个状态量表示，即：

S_i＝{d^～ _{rob_obs_l}，d^～ _{rob_bos_f}，d^～ _{rob_obs_r}，d^～ _{rob_tar}，θ^～}；

其中：

d^～ _{rob_obs_l}——机器人左侧距障碍物的距离状态；

d^～ _{rob_obs_f}——机器人前方距障碍物的距离状态；

d^～ _{rob_obs_r}——机器人右侧距障碍物的距离状态；

d^～ _{rob_tar}——机器人与目标点之间的距离状态；

θ^～——机器人当前运动方向和目标点的夹角状态；

对于每一个状态量，均采用模糊法划分为有限个级别状态，每一个级别状态为一个距离区间。环境状态划分的结果直接影响到学习的效果，作为一种具体示例，如表1所示，可将每一个状态量均划分为5个级别状态，分别为：很小状态、较小状态、中等状态、较大状态和很大状态。例如：对于机器人左侧距障碍物的距离状态d^～ _{rob_obs_l}，很小状态指机器人左侧距障碍物的距离值在100～500范围内；较小状态指机器人左侧距障碍物的距离值在500～1500范围内；中等状态指机器人左侧距障碍物的距离值在1500～2500范围内；较大状态指机器人左侧距障碍物的距离值在2500～4000范围内；很大状态指机器人左侧距障碍物的距离值在4000～5000范围内。

表1环境状态空间离散划分表

当采用表1划分方式时，机器人离散化的环境状态空间共有5⁵＝3125个状态，即对于表达式S＝{s_i|i=1，2，…，n}，n＝3125。另外，设对于状态S₆＝{d^～ _{rob_obs_l}，d^～ _{rob_obs_f}，d^～ _{rob_obs_r}，d^～ _{rob_tar}，θ^～}={B1，B1，B3，B5，B4)，其代表的含义为：机器人距左侧障碍物距离∈(100，500)；机器人距前方障碍物距离∈(100，500)；机器人距右侧障碍物距离∈(1500，2500)；机器人与目标点之间距离∈(6000，∞)；机器人当前运动方向和目标点的夹角∈(100，140)。

(3)动作空间

模拟操作条件反射机制的学习过程本质上是机器人通过不断的受到奖励或者惩罚，从而建立起状态空间到动作空间的映射过程。在机器人向目标点移动的路径规划中，机器人的动作主要表现为等步长行进、旋转角度、障碍物边沿跟踪和停止移动等。因此，设置动作空间A＝{a_k|k＝1，2，…，r}；其中，a_k表示移动机器人路径探索的第k个可选动作；机器人最初从动作空间中选取任意一个动作a_k的概率均相等，为1/r；设置安全距离d_max和最小危险距离d_min；

动作空间定义需要遵循两条原则，第一，要有足够的动作形式完成机器人路径探索任务；第二，动作要精简，不宜太多，否则会造成学习负担过重。兼顾上述两点，作为一种示例，参见公式(2)，可选择七个离散动作组成机器人的动作空间A：

A＝{a₁，a₂，a₃，a₄，a₅，a₆，a₇}(2)

式中：

a₁——机器人向左转动30°，同时前进100mm；

a₂——机器人向左转动15°，同时前进100mm；

a₃——机器人向左转动10°，同时前进100mm；

a₄——机器人转动0°，同时前进100mm；

a₅——机器人向右转动10°，同时前进100mm；

a₆——机器人向右转动15°，同时前进100mm；

a₇——机器人向右转动30°，同时前进100mm。

由于机器人配置的声纳传感器的最大探测距离为5000mm，最小探测距离为100mm，因此，该种情况下，可定义d_min＝100mm为最小危险距离，d_max＝5000mm为安全距离，d∈(d_min，d_max)为避障区域；机器人当前方向和目标点的夹角θ∈[-180°，180°]。所以100mm<d_{rob_obs_l}，d_{rob_obs_f}，d_{rob_obs_r}<5000mm，即与机器人距离超过5000mm的障碍物和不足100mm的障碍物不作考虑。

实际应用中，机器人可以配备有16个声纳传感器，各声纳传感器之间的距离是20°或40°，因此，声纳传感器可以覆盖机器人周边0～360°范围。机器人亦可以在0～360°范围内自由旋转。

例如，如果在第t步时，机器人当前环境参数值中，距左侧障碍物距离d^t _{rob_obs_l}＝200，距右侧障碍物距离d^t _{rob_obs_r}＝450，距前方障碍物距离d^t _{rob_obs_f}＝1800，与目标点之间距离d^t _{rob_tar}＝7800，当前运动方向和目标点夹角θ^t＝120；而S₆＝{d^～ _{rob_obs_l}，d^～ _{rob_obs_f}，d^～ _{rob_obs_r}，d^～ _{rob_tar}，θ^～}={B1，B1，B3，B5，B4)，则得出机器人在第t步时所在的环境状态S_i(t)即为S₆。

仿生自主学习的复杂度随着环境状态空间中所包含的环境状态数量增加而呈指数上升，与学习最优效果相关的环境状态只占环境状态总数的不到四分之一，大部分环境状态是机器人不会经历或经历次数极少的。鉴于上述情况，引入信息熵，通过计算环境状态的熵值衡量机器人对环境状态的倾向程度。在信息论中，熵可用作某事件不确定度的量度。信息量越大，体系结构越规则，功能越完善，熵就越小。利用熵的概念，可以从理论上研究信息的计量、传递、变换、存储。

由于机器人在路径探索初期具有一定的盲目性，因此，选取初始动作的概率值相近，各状态的信息熵值最大。随着学习的进行，经历过的环境状态下的各动作的概率值将会变化，信息熵值对应降低。环境状态经历次数越多，说明机器人对该状态的倾向程度越高，其信息熵值下降的越低；反之，环境状态经历次数越少，说明机器人对该状态的倾向程度越低，其信息熵值变化越少。考虑到在实际应用中，不需要完全求得最优的解决方案，而多数情况下可行的方案比最优的方案更有实际意义，这也符合人类探索世界和处理问题的习惯。因此，在路径探索学习过程中，信息熵值始终保持最大的状态将会被剔除，而只要经历过的环境状态将会保留。

因此，假设机器人离散化的环境状态集合S＝{s_i|i＝1，2，…，n}，则依据公式(3)计算当前状态S_i(t)下的信息熵值H_i(t)：

H_{i} (t) = H_{i} (A (t) | s_{i} (t)) = - Σ_{k = 1}^{r} p_{ik} \log_{2} p_{ik} = - Σ_{k = 1}^{r} p (a_{k} | s_{i} (t)) \log_{2} p (a_{k} | s_{i} (t)) - - - (3)

其中，a_k∈A＝{a_k|k＝1，2，…，r}表示移动机器人路径探索的第k个可选动作，A表示机器人路径探索的可选动作集合，r为可选动作的个数；p_ik＝p(a_k|s_i(t))∈P_i表示处于环境状态S_i(t)的条件下实施动作a_k的概率值，也被称为“状态s_i-动作a_k“对的激发概率值，满足：0＜p_ik＜1，p_ik∈P_i＝{p_i1，p_i2，...，p_ir}，P_i表示第i个状态对应的概率矢量，P_i＝{p_i1，p_i2，...，p_ir}∈P，P代表总的概率矢量；

②如果机器人与左方、前方和右方障碍物的距离中，存在介于安全距离与最小危险距离之间的数值，即满足以下关系式：d_min＜d_{rob_obs_l}或d_{rob_obs_f}或d_{rob_obs_r}＜d_max，则执行对应动作需使机器人能实现避障。

由于一开始动作的评价信号是未知的，T选取的较大，所以在学习初，式(8)中的指数函数在t→0时，趋近于1，所有动作的选取概率基本相等，即：

p_{ik} (0) \approx \frac{1}{r} (i = 1,2 \cdot \cdot \cdot n), (k = 1,2 \cdot \cdot \cdot r)

选取各动作初始概率相同，意味着学习初，机器人不含有任何预定的决策，其采用任何决策的概率是相等的。

Step5：评价信号的产生

机器人在学习过程中，根据当前环境状态和所选择的动作，在执行每一步动作后均产生一个评价信号，目的是对所选动作的作用效果进行评价。评价信号在整个学习中决定着机器人要学会哪些东西，是体现机器人智能性的最主要的地方，奖励或惩罚评价信号的合理分配有助于提高学习效率。由于评价信号是对每一步动作的选择进行评价，因此，其设计思想应按照状态的分解方式设计；再考虑到移动机器人在未知环境探索中的导航有两个目标，即避障和趋近目标点，所以评价信号的设计要兼顾以下几个方面：

首先，获取新状态下机器人与障碍物之间的距离：

(1)若d_{rob_obs_l}＞d_max且d_{rob_obs_f}＞d_max且d_{rob_obs_r}＞d_max，机器人与左侧、右侧及前方障碍物之间的距离均大于安全距离时，机器人与障碍物间发生碰撞的可能性很小，所以机器人的主要任务是趋近目标点，评价信号的设计重点考虑机器人与目标点间的距离和机器人到目标点间连线的夹角θ之间的关系。

当机器人朝着目标点运动时，表现为：

\{\begin{matrix} Δθ (t) = θ (t + 1) - θ (t) \\ Δθ (t) < 0 \end{matrix}

当机器人和目标点的距离缩小时，表现为：

\{\begin{matrix} {Δd}_{rob_tar} (t) = d_{rob_tar} (t + 1) - d_{rob_tar} (t) \\ {Δd}_{rob_tar} (t) < 0 \end{matrix}

因此，评价信号的定义如式(4)所示：

其中，β₁，β₂为权重系数，一般取0＜β₁，β₂＜1。

(2)若d_min＜d_{rob_obs_l}ord_{rob_obs_f}ord_{rob_obs_r}＜d_max，机器人与左侧、右侧及前方障碍物之间的距离有一个在危险距离和安全距离之间时，有可能与一方障碍物发生碰撞。考虑到碰撞不会立即发生，兼顾机器人不偏离目标，路径探索策略设计为机器人在向目标点靠近的同时避障。因此，评价信号的设计重点考虑机器人与目标点间的距离和机器人与障碍物间的距离之间的关系。

假设机器人与前方障碍物之间的距离在危险距离和安全距离之间，则当机器人和障碍物之间的距离扩大时，表现为：

\{\begin{matrix} {Δd}_{rob_obs_f} (t) = d_{rob_obs_f} (t + 1) - d_{rob_obs_f} (t) \\ d_{rob_obs_f} (t) > 0 \end{matrix}

因此，评价信号的定义如式(5)所示，

其中，β₃，β₄为权重系数，一般取0＜β₃，β₄＜1。

注：机器人与左方和前方障碍物之间的距离在危险距离和安全距离之间时，评价函数设计思路同上。

(3)若d_{rob_obs_l}＜d_minord_{rob_obs_f}＜d_minord_{rob_obs_r}＜d_min，机器人与左侧、右侧及前方障碍物之间的距离有一个小于危险距离时，与障碍物间发生碰撞的可能性很大，应立即给予最大程度的惩罚，学习失败，给予惩罚值，令V_ik(t)＝-1。

Q (s_{i} (t), a_{k} (t)) = (1 - γ (p_{ik})) Q (s_{i} (t - 1), a_{k} (t - 1)) + γ (p_{ik}) [V_{ik} (t) + η \max_{a_{k}} Q (s_{i} (t + 1), a_{k} (t))] - - - (6)

其中，η为折扣因子，表示学习***对动作的关注程度；如果取值较小，则表示***比较关注最近动作的影响；如果取值较大，则对长时间内的动作都很关注。γ(p_ik)为t时刻的学习率函数，用于控制学习的速度，γ(p_ik)越大则收敛越快，但是，过大的γ(p_ik)有可能导致不收敛。；因此，学习率函数表示式为式(7)：

γ (p_{ik}) = \frac{1}{1 + \exp [\frac{p_{ik} (t) - p_{ik} (t + 1)}{p_{ik} (t)}]} - - - (7)

将“状态s_i-动作a_k”对的激发概率p_ik加入到学习速率函数γ(p_ik)中，使得每一个“状态s_i-动作a_k”对的Q值调整速度均不同。因此，设计的学习速率函数不仅起到影响学习速度的功能，而且，Q值的调整过程体现出更类似于动物操作条件反射的取向特性。由式(7)可以看出，“状态s_i-动作a_k”对的Q值主要由激发概率的变化量p_ik(t)-p_ik(t+1)决定，具体来说，如果激发概率的变化量p_ik(t)-p_ik(t+1)＜0，则在以后的学习中，“状态s_i-动作a_k”对的Q值调整速度倾向于增大，即：学习速度加快；反之，若p_ik(t)-p_ik(t+1)＞0，则“状态s_i-动作a_k”对的Q值调整速度倾向于减小，即：学习速度减慢。

动作选择策略是机器人实现路径探索的核心部分，在路径探索学习前期，主要任务是进行环境探索，因此要求动作选择的随机性大一些，在路径探索学习后期，主要是使学习收敛，因此，动作选择的随机性小一些。这里采用Boltzmann机进行退火运算。动作a_k被选择的概率按式(8)更新：

式(8)中，温度系数T决定着动作选择的随机程度，T值越大，各个动作的概率越接近，动作选择的随机程度越大；T值越小，各个动作的概率差别越大，Q值大的动作被选择的概率越大，动作选择的随机程度越小。在学习的初始阶段，可以设置较大的T值，进行充分的探索，随着学习次数的增加，***在学习过程中获得了越来越多的经验知识，T从T₀开始衰减，当学习次数t→∞时，T衰减至零，最大Q值对应动作的选择概率趋近于1，这表明***已经由开始盲目的随机学习变为接近于确定性的学习，操作条件反射形成。

学习算法收敛性分析：

由信息熵的性质可知，当所有操作行为a_k(t)可能出现的概率p_k(t)相等时，操作行为熵最大。所以，一般在学习的初始时刻，所有操作行为a_k(t)选取相同的选取概率值p_ik(t)。对式(3)重新进行整理得：

\begin{matrix} H_{i} (t) = H_{i} (A (t) | s_{i}) = - Σ_{k = 1}^{r} p (a_{k} | s_{i}) \log_{2} p (a_{k} | s_{i}) \\ = - [p (a_{k} | s_{i}) \log_{2} p (a_{k} | s_{i}) + Σ_{k^{'} = 1, k^{'} &NotEqual; k}^{r} p (a_{k^{'}} | s_{i}) \log_{2} p (a_{k^{'}} | s_{i})] \end{matrix} - - - (9)

随着学习的进行，概率函数p_ik(t)被更新，又因为

\lim_{t &RightArrow; \infty} p_{{ik}^{'}} (a_{k^{'}} (t) | s_{i} (t)) &RightArrow; 0,

代入上式，整理得：

\begin{matrix} \lim_{t &RightArrow; \infty} H_{i} (t) = \lim_{t &RightArrow; \infty} [- p (a_{k} | s_{i}) \log_{2} p (a_{k} | s_{i}) - Σ_{k^{'} = 1, k^{'} &NotEqual; k}^{r} p (a_{k^{'}} | s_{i}) \log_{2} p (a_{k^{'}} | s_{i})] \\ &RightArrow; H_{i \min} \approx 0 \end{matrix} - - - (10)

因此，自主路径探索模型的条件状态s_i，对应的信息熵H_i({A_i}|s_i)随学习进程收敛至极小值。

操作条件反射原理不仅对于理解人和动物的学习行为有重要意义，而且对于在机器人或机器***中“复制”人和动物的学习行为也具有重要意义，被视为生物***最基本的学习形式，基于操作条件反射机制的学习着眼于智能体和环境的交互，其学习过程如图3所示。

操作条件反射学习模型由三个模块组成，感知器负责环境状态的获取，学习器负责学习机制的学习，动作选择器负责从动作空间选择合适的动作并执行。这样构成一个回路，机器人不断的感知环境并执行选择的动作，从而改变环境。根据动作执行后环境状态的变化，对智能体执行的动作给出评价信号(奖励或者惩罚)，周而复始的完成学习过程。由操作条件反射学习的过程可以看到，高等动物学习和适应环境的过程和机器人和环境交互的过程非常相似。

模拟操作条件反射学习机制，本发明提供的基于操作条件反射进行自主路径探索的自主探索认知模型如图4所示。其中，状态编辑器模块解决环境状态离散划分的问题；探索学习策略模块解决状态空间到动作空间映射的问题；环境交互模块解决评价信号产生和状态转移的问题。在路径探索学习过程中，移动机器人保持和环境的互动，通过学习和训练，达到预期的目标。

具体的，包括：感知器、执行器、状态编辑器、参数设置模块、终止条件判断模块和探索学习策略模块；其中，所述探索学习策略模块包括：倾向单元、学习核和动作选择策略模块；

d^～ _{rob_obs_l}——机器人左侧距障碍物的距离状态；

d^～ _{rob_obs_f}——机器人前方距障碍物的距离状态；

d^～ _{rob_obs_r}——机器人右侧距障碍物的距离状态；

d^～ _{rob_tar}——机器人与目标点之间的距离状态；

θ^～——机器人当前运动方向和目标点的夹角状态；

所述状态编辑器用于机器人当前各环境参数值所属的级别状态，从而得到机器人在第t步时所处的环境状态S_i(t)＝{d^～ _{rob_obs_l}，d^～ _{rob_obs_f}，d^～ _{rob_obs_r}，d^～ _{rob_tar}，θ^～}，S_i(t)∈环境状态空间S；

H_{i} (t) = H_{i} (A (t) | s_{i} (t)) = - Σ_{k = 1}^{r} p_{ik} \log_{2} p_{ik} = - Σ_{k = 1}^{r} p (a_{k} | s_{i} (t)) \log_{2} p (a_{k} | s_{i} (t)) - - - (3)

其中，a_k∈A＝{a_k|k＝1，2，…，r}表示移动机器人路径探索的第k个可选动作，A表示机器人路径探索的可选动作集合，r为可选动作的个数；p_ik＝p(a_k|s_i(t))∈P_i表示处于环境状态S_i(t)的条件下实施动作a_k的概率值，也被称为”状态s_i-动作a_k“对的激发概率值，满足：0＜p_ik＜1，p_ik∈P_i＝{p_i1，p_i2，...，p_ir，P_i表示第i个状态对应的概率矢量，P_i＝{p_i1，p_i2，...，p_ir}∈P，P代表总的概率矢量；

若d_{rob_obs_l}＜d_minord_{rob_obs_f}＜d_minord_{rob_obs_r}＜d_min，学习失败，给予惩罚值，令V_ik(t)＝-1；

其中，β₁，β₂为权重系数，0＜β₁，β₂＜1；Δθ(t)＝θ(t+1)-θ(t)；Δd_{rob_tar}(t)＝d_{rob_tar}(t+1)-d_{rob_tar}(t)；

Q (s_{i} (t), a_{k} (t)) = (1 - γ (p_{ik})) Q (s_{i} (t - 1), a_{k} (t - 1)) + γ (p_{ik}) [V_{ik} (t) + η \max_{a_{k}} Q (s_{i} (t + 1), a_{k} (t))] - - - (6)

γ (p_{ik}) = \frac{1}{1 + \exp [\frac{p_{ik} (t) - p_{ik} (t + 1)}{p_{ik} (t)}]} - - - (7)

试验例

为了验证本发明提供的基于操作条件反射进行自主路径探索的方法及模型的可行性，对移动机器人的基于操作条件反射进行自主路径探索进行了仿真。所使用仿真平台为Mobotsim(MobileRobotSimulator)。通过对移动机器人在未知环境路径探索的仿真分析，表明机器人通过和环境的交互作用，最终完了在未知环境下的自主路径探索任务。

(1)实验场景

整个导航环境用栅格地图表示，本实验中设为70*50栅格环境，每个栅格大小为0.2*0.2m。环境中设置有静态障碍物，移动机器人通过自主学习避开障碍物，寻找最优或较优的路径到达目标点。机器人近似为直径0.5m的圆形机器人。设

时间步的每步时间间隔为0.1s，机器人中心点的速度是0.2m/s。

(2)参数设置

仿真初始条件如下：迭代学习步数t＝0；采样时间t_s＝0.1s；权重系数β₁＝0.65，β₂＝0.36，β₃＝0.72，β₄＝0.44；折扣因子η＝0.14；机器人的状态空间s有5⁵＝3125个状态：s＝{s_i|i＝1，2，…，3125}；动作空间有7个动作：A＝{a_k|k＝1，2，…，7}；各动作的初始选取概率均为

p_{ik} (0) \approx \frac{1}{7},

对应各状态的初始信息熵均近似为

H_{i} (0) = - Σ_{k = 1}^{7} p_{ik} \times \log_{2} p_{ik} |_{p_{ik} = \frac{1}{7}} \approx 2.81,

由熵的特性可知此时熵值最大。

(3)实验结果及其分析

在仿真实验中，机器人向目标点行进过程中，检测到障碍物的存在时，根据自主路径探索策略实施避障行为。机器人进行避障是自主地通过学习来得到一系列规则，因此在学习之初，机器人没有任何经验，只能通过在实际避障过程中不断积累经验，通过反复学习实现避障，寻找到最短或较短的环境探索路径。仿真实验共进行了20轮训练，当机器人顺利到达目标点或学习次数超过t_f＝100，中止本轮实验，机器人重新回到开始点，保存学得的经验，在其基础上开始另一轮训练。当训练轮数超过N＝10轮时，删除信息熵值始终保持最大值的状态。大约经过10轮的实验后，剔除了1952个冗余状态，大约经过15轮的实验，机器人能够以越来越少的训练次数导航成功，并且导航成功需要的步数也逐渐减少，最后趋于一个稳定的步数，仿真结果如图5和图6所示，图5为训练轮次和学习次数的关系曲线图；图6为训练轮次和成功终止步数的关系曲线图。仿真结果表明，在训练初期，由于机器人没有任何先验知识，失败的机率高。随着学习的进行，失败的概率逐渐降低，大学10轮后，由于冗余状态的剔除，学习速度加快，大约在训练15次后，不仅具有较快的学习收敛速度，而且基本上不再失败。因此，机器人通过自主学习，学会了选取能使自己不发生碰撞并能以较短路径到达目标点的动作。

如图7所示，为在20轮训练学习过程中，某状态信息熵的变化曲线图。由仿真结果可以看出，在实验初期，机器人没有任何的先验信息和知识，信息熵给定最大值。随着学习的进行，信息熵值开始下降，大约经过15轮训练后，信息熵值基本不再变化，并且达到最小值。这说明，在训练初期，由于机器人没有任何先验知识，失败的机率高。随着学习的进行，失败的概率逐渐降低，大约在训练15次后，基本上不再失败。因此，机器人通过自主学习，学会了选取能使自己不发生碰撞并能以较短路径到达目标点的动作。

为了清晰的表现出机器人路径探索的自学***滑的轨迹绕开静态障碍物，并且在避障的同时始终保持向着目标点移动的状态，实现了对实际可通行导航路径的有效选择。机器人由一开始盲目的随机学习变为接近于确定性的学习，操作条件反射形成。机器人的自主导航学习过程，反应了人或动物的操作条件反射过程，表明机器人通过自主学习，倾向于选取对自身有利的动作。

将学习的状态-动作映射关系保存，改变机器人的工作环境，设置不同的起始点、目标点坐标，改变障碍物的分布，重新进行实验，图10为起始点(5，20)，终止点(55，40)的路径探索轨迹图；图11为起始点(30，5)，终止点(40，42)的路径探索轨迹图。

仿真结果表明，采用离散划分状态空间和动作空间的方法，机器人对状态和动作之间地映射关系进行学习之后，可以完成在不同环境下，成功躲避障碍物，并最终达到目标。因此，本发明专利设计的基于仿生自主学习的自主路径探索策略是有效的。

上述仿真结果表明，基于仿生自主学习的路径探索过程是一个不断探索和巩固的过程，在充分学习的基础上，能够保证对环境做出合理的和有效的理解，能够完成从状态空间到动作空间的合理映射。因此，模仿人认识事物，处理问题的方式，采用仿生自主学习策略来完成未知环境下的机器人自主路径探索任务是有效和可行的。

综上所述，本发明提供的基于操作条件反射进行自主路径探索的方法及模型，具有以下优点：

(1)将自主路径探索认知模型作为移动机器人的数学抽象和形式化工具，用以描述机器人的自主学习机制，将为自主智能搜救机器人行为的设计提供一种有效的逻辑结构。

(2)本发明模拟操作条件反射机制，设计了一种仿生的自主探索认知模型，自主探索认知模型的主要特征在于模拟了生物的操作条件反射机制，具有仿生的自组织、自学习和自适应功能，有效的将仿生学、心理学和生物学应用于控制***，具有实现仿生自主学习控制的功能。本发明专利为仿生自主学习的研究提供了新的思路和新的方法，有助于推动智能控制和智能学习算法的相关研究。

(3)机器人自主路径探索是移动机器人研究领域中的一个核心技术和难点问题，涉及到机器人的感知、规划、执行等诸多方面。本发明设计的自主路径探索认知模型可以作为搜救机器人的数学抽象和形式化工具，用以描述机器人的学习机制和认知行为，从而为向智能化和自主化方向发展的机器人行为的设计提供一种有效的逻辑结构。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视本发明的保护范围。

Claims

1.一种基于操作条件反射进行自主路径探索的方法，其特征在于，包括以下步骤：

Step1，设置初始参数值，包括：机器人起点位置信息；迭代学习步数初值t＝0；迭代学习次数t_f；采样时间t_s；学习算法相关参数，包括权重系数β₁、β₂、β₃、β₄，退火初始温度T₀，退火参数折扣因子η；

d^～ _{rob_obs_l}——机器人左侧距障碍物的距离状态；

d^～ _{rob_obs_f}——机器人前方距障碍物的距离状态；

d^～ _{rob_obs_r}——机器人右侧距障碍物的距离状态；

d^～ _{rob_tar}——机器人与目标点之间的距离状态；

θ^～——机器人当前运动方向和目标点的夹角状态；

依据公式(3)计算当前状态S_i(t)下的信息熵值H_i(t)：

H_{i} (t) = H_{i} (A (t) | s_{i} (t)) = - Σ_{k = 1}^{r} p_{ik} \log_{2} p_{ik} = - Σ_{k = 1}^{r} p (a_{k} | s_{i} (t)) \log_{2} p (a_{k} | s_{i} (t)) - - - (3)

其中，a_k∈A＝{a_k|k＝1，2，…，r}表示移动机器人路径探索的第k个可选动作，A表示机器人路径探索的可选动作集合，r为可选动作的个数；p_ik＝p(a_k|s_i(t))∈P_i表示处于环境状态S_i(t)的条件下实施动作a_k的概率值，也被称为“状态s_i-动作a_k”对的激发概率值，满足：0＜p_ik＜1，p_ik∈P_i＝{p_i1，p_i2，...，p_ir}，P_i表示第i个状态对应的概率矢量，P_i＝{p_i1，p_i2，...，p_ir}∈P，P代表总的概率矢量；

Step5，首先，获取新状态下机器人与障碍物之间的距离：

若d_{rob_obs_l}＞d_maxd_{rob_obs_f}＞d_max且d_{rob_obs_r}＞d_max，按照式(4)计算“状态s_i(t)-操作a_k(t)”的评价信号V_ik(t)；

V(d_{rob_obs_l}，d_{rob_tar})＝β₃sign(Δd_{rob_obs_l}(t))Δ²d_{rob_obs_l}(t)-β₄sign(Δd_{rob_tar}(t))Δ²d_{rob_tar(}t)(5-1)

Q (s_{i} (t), a_{k} (t)) = (1 - γ (p_{ik})) Q (s_{i} (t - 1), a_{k} (t - 1)) + γ (p_{ik}) [V_{ik} (t) + η \max_{a_{k}} Q (s_{i} (t + 1), a_{k} (t))] - - - (6)

γ (p_{ik}) = \frac{1}{1 + \exp [\frac{p_{ik} (t) - p_{ik} (t + 1)}{p_{ik} (t)}]} - - - (7)

2.一种基于操作条件反射进行自主路径探索的自主探索认知模型，其特征在于，包括：感知器、执行器、状态编辑器、参数设置模块、终止条件判断模块和探索学习策略模块；其中，所述探索学习策略模块包括：倾向单元、学习核和动作选择策略模块；

所述参数设置模块用于设置初始参数值，包括：机器人起点位置信息；迭代学习步数初值t＝0；迭代学习次数t_f；采样时间t_s；学习算法相关参数，包括权重系数β₁、β₂、β₃、β₄，退火初始温度T₀，退火参数折扣因子η；

d^～ _{rob_obs_l}——机器人左侧距障碍物的距离状态；

d^～ _{rob_obs_f}——机器人前方距障碍物的距离状态；

d^～ _{rob_obs_r}——机器人右侧距障碍物的距离状态；

d^～ _{rob_tar}——机器人与目标点之间的距离状态；

θ^～——机器人当前运动方向和目标点的夹角状态；

H_{i} (t) = H_{i} (A (t) | s_{i} (t)) = - Σ_{k = 1}^{r} p_{ik} \log_{2} p_{ik} = - Σ_{k = 1}^{r} p (a_{k} | s_{i} (t)) \log_{2} p (a_{k} | s_{i} (t)) - - - (3)

其中，a_k∈A＝{a_k|k＝1，2，…，r}表示移动机器人路径探索的第k个可选动作，A表示机器人路径探索的可选动作集合，r为可选动作的个数；p_ik＝p(a_k|s_i(t))∈P_i表示处于环境状态S_i(t)的条件下实施动作a_k的概率值，也被称为“状态s_i-动作a_k”对

的激发概率值，满足：0＜p_ik＜1，p_ik∈P_i＝{p_i1，p_i2，...p_ir}，P_i表示第i个状态对应的概率矢量，P_i＝{p_i1，p_i2，...，p_ir}∈P，P代表总的概率矢量；

②如果机器人与左方、前方和右方障碍物的距离中，存在介于安全距离与最小危险距离之间的数值，即满足以下关系式：d_min＜d_{roi_obs_l}或d_{rob_obs_f}或d_{rob_obs_r}＜d_max，则执行对应动作需使机器人能实现避障；

V(d_{rob_tar}，θ)＝-β₁sign(Δd_{rob_}t_ar(t))Δ²d_{rob_tor}(t)-β₂sign(Δθ(t))Δ²θ(t)(4)

Q (s_{i} (t), a_{k} (t)) = (1 - γ (p_{ik})) Q (s_{i} (t - 1), a_{k} (t - 1)) + γ (p_{ik}) [V_{ik} (t) + η \max_{a_{k}} Q (s_{i} (t + 1), a_{k} (t))] - - - (6)

γ (p_{ik}) = \frac{1}{1 + \exp [\frac{p_{ik} (t) - p_{ik} (t + 1)}{p_{ik} (t)}]} - - - (7)