CN109343532A

CN109343532A - 一种动态随机环境的路径规划方法和装置

Info

Publication number: CN109343532A
Application number: CN201811329446.3A
Authority: CN
Inventors: 黄兵明; 廖军; 王泽林
Original assignee: China United Network Communications Group Co Ltd
Current assignee: China United Network Communications Group Co Ltd
Priority date: 2018-11-09
Filing date: 2018-11-09
Publication date: 2019-02-15

Abstract

本发明实施例提供一种动态随机环境的路径规划方法和装置，涉及计算机信息处理领域，能够在动态随机环境下找到最优路径。该方法包括：定义特征向量空间，将初始节点的状态值赋予初始中间量，根据该初始中间量，获取初始节点的运行动作、前进节点的状态值和运行动作，同时依据基于CMAC的递归最小二乘Q强化学习算法，对中间参数进行更新；然后将前进节点的状态值赋予初始中间量后重复上述流程，直至初始中间量和终止节点的状态值相同时，重复上述从初始节点的状态值赋予初始中间量开始的流程；依据递归最小二乘解公式计算权值行向量的确定值，以获取目标特征向量空间，根据目标特征向量空间和权利向量的确定值获取最终Q值表，以得到最优路径。

Description

一种动态随机环境的路径规划方法和装置

技术领域

本发明涉及计算机信息处理领域，尤其涉及一种路径随机环境的路径规划方法和装置。

背景技术

障碍物避障是路径寻优中必不可缺的一环，可以说在动态随机环境中的路径寻优就是在避开障碍物的前提下，找到从初始点到目标点的最短路径。现有寻路算法中的广度优先搜索算法、蚁群算法、遗传算法以及A*算法等路径寻优算法，需要知道环境模型的具体信息，也就是说对环境模型以及路径搜索空间的精度要求很高。但是大型角色类游戏场景中随机出现的其他玩家、怪物以及固有的山、水、森林等障碍物，使得环境模型和路径搜索空间是动态的，是随机的。因此一定程度上来说，对于路径寻优中的障碍物避障问题，传统的路径寻优算法是不适用的。

强化学习属于搜索算法，可以在状态和环境未知的情况下，遍历所有路径，根据给定的赏金函数求得每一条路径的目标函数的值，从中选取目标函数值最大的路径，结合神经网络可以实现动态随机环场景下的避障和路径寻优目的。但是由于全局逼近神经网络通常训练速度较慢，在大型的游戏场景中其所需的计算资源(内存等)和代价(时间等)是不符合用户体验要求的。因此通常采取局部逼近神经网络，而局部逼近最主要的潜在限制就是随着输入空间维度的增加所需要的特征单元是以指数形式增加的，并且局部逼近无法实现全局最优路径的规划。

发明内容

本发明的实施例提供一种动态随机环境的路径规划方法和装置，用于在节省计算资源的基础上，对动态随机环境中两个节点之间的最优路径搜索。

为达到上述目的，本发明的实施例采用如下技术方案：

第一方面，提供一种动态随机环境的路径规划方法，包括：

获取资格迹的初始值、构造列向量的初始值、构造矩阵的初始值、初始节点的状态值和终止节点的状态值；初始节点的状态值包括初始节点的空间坐标，终止节点的状态值包括终止节点的空间坐标；

根据小脑神经网络CMAC隐含层的权值行向量的初始值和CMAC的激活函数，构建动态随机环境的特征向量空间；

将初始节点的状态值赋予初始中间量；

根据初始中间量，获取初始节点的运行动作、前进节点的状态值和前进节点的运行动作；

根据初始中间量、资格迹的初始值、特征向量空间、构造列向量的初始值、构造矩阵的初始值、初始节点的运行动作、前进节点的状态值和前进节点的运行动作，依据基于CMAC的递归最小二乘Q强化学习算法，对资格迹的初始值、构造列向量的初始值和构造矩阵的初始值均进行更新；

将前进节点的状态值赋予初始中间量后，根据初始中间量，获取初始节点的运行动作、前进节点的状态值和前进节点的运行动作；初始节点的运行动作与前进节点的状态值一一对应；

当确定初始中间量和终止节点的状态值相同时，将初始节点的状态值赋予初始中间量后，根据初始中间量，获取初始节点的运行动作、前进节点的状态值和前进节点的运行动作；

当确定所有初始中间量中存在预设个数个初始中间量与终止节点的状态值相同时，根据当前时刻的构造矩阵的初始值和当前时刻的构造列向量的初始值，依据递归最小二乘解公式计算权值行向量的确定值；

根据权值行向量的确定值对特征向量空间进行更新，以获取目标特征向量空间；根据权值行向量的确定值、目标特征向量空间，依据预设Q值计算公式计算最终Q值表；根据最终Q值表确定动态随机环境中初始节点和终止节点之间的最优路径。

上述实施例提供技术方案，首先通过CMAC的权值行向量初始值和激活函数对整个动态随机环境的空间进行了定义，得到特征向量空间，将初始节点的状态值赋予一个中间值即初始中间量，根据该初始中间量，获取初始节点的运行动作、初始节点的下一节点前进节点的状态值和前进节点的运行动作，同时依据基于CMAC的递归最小二乘Q强化学习算法，对与权值行向量最终的确定值相关的资格迹、构造矩阵和构造列向量进行更新；然后将前进节点的状态值赋予初始中间量后重复上述从初始节点的状态值赋予初始中间量后的流程，直至初始中间量和终止节点的状态值相同时，重复从初始节点的状态值赋予初始中间量开始的流程直至出现预设个数个初始中间量与终止节点的状态值相同；然后依据递归最小二乘解公式计算所述权值行向量的确定值，以对特征向量空间进行更新获取目标特征向量空间，根据目标特征向量空间和权利向量的确定值便可以获取到经过多次强化学习得到的最终Q值表，根据该最终Q值表便可以得到初始节点到终止节点的最优路径。因为本发明实施例提供的技术方案，将递归最小二乘法和多步Q强化学习算法以及CMAC相结合，形成三重循环的算法，既具有递归最小二乘法计算量小和全局极优稳定收敛的优势，又具备CMAC逼近速度快的优势，还具备多步Q强化学习算法的最优搜索的优势，所以使得该算法在大象多人在线游戏的题图等动态随机环境中可以在节省计算资源的同时迅速的得到最终Q值表以及根据最终Q值表得到的最优路径。

第二方面，提供一种动态随机环境的路径规划装置，包括：获取模块、建立模块、判断模块、节点处理模块、更新模块、循环模块、权值计算模块、特征计算模块、Q值表计算模块和路径选择模块；

获取模块，用于获取资格迹的初始值、构造列向量的初始值、构造矩阵的初始值、初始节点的状态值和终止节点的状态值；初始节点的状态值包括初始节点的空间坐标，终止节点的状态值包括终止节点的空间坐标；

建立模块，用于根据小脑神经网络CMAC隐含层的权值行向量的初始值和CMAC的激活函数，构建动态随机环境的特征向量空间；

循环模块，用于将获取模块获取的初始节点的状态值赋予初始中间量；

节点处理模块用于根据循环模块产生的初始中间量，获取初始节点的运行动作、前进节点的状态值和前进节点的运行动作；

更新模块，用于根据循环模块产生的初始中间量、获取模块获取的资格迹的初始值、建立模块构建的特征向量空间、获取模块获取的构造列向量的初始值、获取模块获取的构造矩阵的初始值、节点处理模块获取的初始节点的运行动作、节点处理模块获取的前进节点的状态值和节点处理模块获取的前进节点的运行动作，依据基于CMAC的递归最小二乘Q强化学习算法，对资格迹的初始值、构造列向量的初始值和构造矩阵的初始值进行更新；

节点处理模块还用于在循环模块将节点处理模块获取的前进节点的状态值赋予初始中间量后，根据循环模块产生的初始中间量，获取初始节点的运行动作、前进节点的状态值和前进节点的运行动作；初始节点的运行动作与前进节点的状态值一一对应；

当判断模块确定循环模块生成的初始中间量和获取模块获取的终止节点的状态值相同时，节点处理模块还用于在循环模块将获取模块获取的初始节点的状态值赋予初始中间量后，根据循环模块产生的初始中间量，获取初始节点的运行动作、前进节点的状态值和前进节点的运行动作；

当判断模块确定循环模块产生的所有初始中间量中，存在预设个数个初始中间量与获取模块获取的终止节点的状态值相同时，权值计算模块用于根据更新模块更新的当前时刻的构造矩阵的初始值和构造列向量的初始值，依据递归最小二乘解公式计算权值行向量的确定值；

特征计算模块，用于根据权值计算模块计算的权值行向量的确定值对建立模块构建的特征向量空间进行更新，以获取目标特征向量空间；

Q值表计算模块，用于根据权值计算模块计算的权值行向量的确定值和特征计算模块获取的目标特征向量空间，依据预设Q值计算公式计算最终Q值表；

路径选择模块，用于根据Q值表计算模块计算的最终Q值表确定动态随机环境中初始节点和终止节点之间的最优路径。

第三方面，提供一种动态随机环境的路径规划装置，包括：存储器、处理器、总线和通信接口；存储器用于存储计算机执行指令，处理器与存储器通过总线连接；当动态随机环境的路径规划装置运行时，处理器执行存储器存储的计算机执行指令，以使动态随机环境的路径规划装置执行如第一方面提供的动态随机环境的路径规划方法。

第四方面，提供一种计算机存储介质，包括计算机执行指令，当计算机执行指令在计算机上运行时，使得计算机执行如第一方面提供的动态随机环境的路径规划方法。

本发明实施例提供的动态随机环境的路径规划方法和装置，该方法包括：获取资格迹的初始值、构造列向量的初始值、构造矩阵的初始值、初始节点的状态值和终止节点的状态值；初始节点的状态值包括初始节点的空间坐标，终止节点的状态值包括终止节点的空间坐标；根据小脑神经网络CMAC隐含层的权值行向量的初始值和CMAC的激活函数，构建动态随机环境的特征向量空间；将初始节点的状态值赋予初始中间量；根据初始中间量，获取初始节点的运行动作、前进节点的状态值和前进节点的运行动作；根据初始中间量、资格迹的初始值、特征向量空间、构造列向量的初始值、构造矩阵的初始值、初始节点的运行动作、前进节点的状态值和前进节点的运行动作，依据基于CMAC的递归最小二乘Q强化学习算法，对资格迹的初始值、构造列向量的初始值和构造矩阵的初始值均进行更新；将前进节点的状态值赋予初始中间量后，根据初始中间量，获取初始节点的运行动作、前进节点的状态值和前进节点的运行动作；初始节点的运行动作与前进节点的状态值一一对应；当确定初始中间量和终止节点的状态值相同时，将初始节点的状态值赋予初始中间量后，根据初始中间量，获取初始节点的运行动作、前进节点的状态值和前进节点的运行动作；当确定所有初始中间量中存在预设个数个初始中间量与终止节点的状态值相同时，根据当前时刻的构造矩阵的初始值和当前时刻的构造列向量的初始值，依据递归最小二乘解公式计算权值行向量的确定值；根据权值行向量的确定值对特征向量空间进行更新，以获取目标特征向量空间；根据权值行向量的确定值、目标特征向量空间，依据预设Q值计算公式计算最终Q值表；根据最终Q值表确定动态随机环境中初始节点和终止节点之间的最优路径。所以本发明实施例提供技术方案，可以首先通过CMAC的权值行向量初始值和激活函数对整个动态随机环境的空间进行了定义，得到特征向量空间，将初始节点的状态值赋予一个中间值即初始中间量，根据该初始中间量，获取初始节点的运行动作、初始节点的下一节点前进节点的状态值和前进节点的运行动作，同时依据基于CMAC的递归最小二乘Q强化学习算法，对与权值行向量最终的确定值相关的资格迹、构造矩阵和构造列向量进行更新；然后将前进节点的状态值赋予初始中间量后重复上述从初始节点的状态值赋予初始中间量后的流程，直至初始中间量和终止节点的状态值相同时，重复从初始节点的状态值赋予初始中间量开始的流程直至出现预设个数个初始中间量与终止节点的状态值相同；然后依据递归最小二乘解公式计算所述权值行向量的确定值，以对特征向量空间进行更新获取目标特征向量空间，根据目标特征向量空间和权利向量的确定值便可以获取到经过多次强化学习得到的最终Q值表，根据该最终Q值表便可以得到初始节点到终止节点的最优路径。因为本发明实施例提供的技术方案，将递归最小二乘法和多步Q强化学习算法以及CMAC相结合，形成三重循环的算法，既具有递归最小二乘法计算量小和全局极优稳定收敛的优势，又具备CMAC逼近速度快的优势，还具备多步Q强化学习算法的最优搜索的优势，所以使得该算法在大象多人在线游戏的题图等动态随机环境中可以在节省计算资源的同时迅速的得到最终Q值表以及根据最终Q值表得到的最优路径。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种动态随机环境的路径规划方法的流程示意图；

图2为图1中104步骤的具体流程示意图；

图3为图2中10412步骤的具体流程示意图；

图4为图2中10422步骤的具体流程示意图；

图5为图1中105步骤的具体流程示意图；

图6为本发明实施例提供的一种动态随机环境的路径规划方法的具体实例图；

图7为本发明实施例提供的两种路径寻优算法在40×40的游戏网格化环境中的仿真对比；

图8为本发明实施例提供的两种路径寻优算法在50×50的游戏网格化环境中的仿真对比；

图9为图8对应的平均学习曲线对比图；

图10为图8对应的计算时间对比图；

图11为本发明实施例提供一种动态随机环境的路径规划装置的结构示意图；

图12为本发明实施例提供另一种动态随机环境的路径规划装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，本发明实施例中，“示例性的”或者“例如”等词用于表示作例子、例证或说明。本发明实施例中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言，使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。

还需要说明的是，本发明实施例中，“的(英文：of)”，“相应的(英文：corresponding，relevant)”和“对应的(英文：corresponding)”有时可以混用，应当指出的是，在不强调其区别时，其所要表达的含义是一致的。

为了便于清楚描述本发明实施例的技术方案，在本发明的实施例中，采用了“第一”、“第二”等字样对功能和作用基本相同的相同项或相似项进行区分，本领域技术人员可以理解“第一”、“第二”等字样并不是在对数量和执行次序进行限定。

在计算机游戏中，尤其大象多人在线角色类游戏或多人竞技类游戏中，寻路过程始终时重要任务之一，游戏本身算法中的路径寻优算法将直接影响玩家的游戏体验。而随着技术的发展，游戏场景将越来越复杂，传统的路径寻优算法所需的资源(内存，时间)也指数性增长，而如果一直使用传统的路径寻优算法，将极大的侵占游戏其余功能任务所需的计算资源，严重影响用户的使用体验，所以需要一种能够在节省计算资源的基础上迅速的找到全局最优路径的算法对传统的路径寻优算法进行替换。

以下对本发明的发明构思进行介绍：

传统的路径寻优算法中，BFS(Breadth First Search，宽度优先搜索)算法是一种盲目搜索算法，会对地图中所有节点都进行搜索，直至找到结果为止，耗费计算资源较多且得到的路径不一定为最优；

启发式搜索算法A*算法，是一种静态路网中求解最短路径最有效的直接搜索方法，也是解决许多搜索问题的有效算法，算法中的距离估算值与实际值越接近，最终搜索速度越快，但是对于动态随机环境，其并不适用。

强化学习算法虽然可以在状态和环境未知的情况下遍历所有路径，根据给定的赏金函数求得每一条路径的目标函数的值，从中选取目标函数值最大的路径，结合神经网络可以实现动态随机环场景下的避障和路径寻优目的。但是由于全局逼近神经网络通常训练速度较慢，在大型的游戏场景中其所需的计算资源(内存等)和代价(时间等)是不符合用户体验要求的。因此通常采取局部逼近神经网络，而局部逼近最主要的潜在限制就是随着输入空间维度的增加所需要的特征单元是以指数形式增加的，并且局部逼近无法实现全局最优路径的规划。

CMAC(Cerebellar Model Articulation Controller，小脑模型神经网络)是一种局部泛化能力很强的神经网络，因此其相比于其他神经网络优点有：CMAC网络的权值修正算法简单，把信息存储在局部结构上，在保证函数逼近性能的前提下，学习速度快，非常适合在线学习；CMAC结构简单，易于硬件实现和软件实现。因此想到可将其与传统的强化学习算法结合应用到在线的游戏之中实现自动寻路的任务。但也由于此特性，它的缺点就是只能够实现局部优化，而在游戏场景下路径规划中的‘最优’路径为全局最优；而递归最小二乘法(Recur sive Least Square，RLS)是一种计算量小且能够保证全局极优的稳定收敛算法，所以技术人员想到将这三者结合得到基于CMAC的递归最小二乘Q强化学习算法来对动态随机环境进行路径规划。

基于上述思想，参照图1所示，本发明实施例提供一种动态随机环境的路径规划方法，包括：

101、获取资格迹的初始值、构造列向量的初始值、构造矩阵的初始值、初始节点的状态值和终止节点的状态值。

其中，初始节点的状态值包括初始节点的空间坐标，终止节点的状态值包括终止节点的空间坐标。

102、根据小脑神经网络CMAC隐含层的权值行向量的初始值和CMAC的激活函数，构建动态随机环境的特征向量空间。

具体的，特征空间向量用于代表动态随机环境，具体在算法中作为样本空间，示例性的，特征空间向量为：

其中，s为算法运行过程中得到的初始节点到终止节点之间路径中的任一节点的状态值即后续步骤中所说的初始中间量，a为s的运行动作，ω₁至ω_N为权值行向量中第一至第N个元素，f为CMAC的激活函数。

103、将初始节点的状态值赋予初始中间量。

具体的，这里提出初始中间量的定义仅是为了在表述中更为清楚，在实际中可以不存在该初始中间量，只要完成技术方案中的循环即可。

104、根据初始中间量，获取初始节点的运行动作、前进节点的状态值和前进节点的运行动作。

其中，初始节点的运行动作与前进节点的状态值一一对应。

当初始节点和终止节点为同一节点时，104步骤后执行111。

示例性的，参照图2所示，104步骤具体包括：

10411、确定初始中间量对应的节点可执行的执行动作为初始节点的第一动作。

具体的，这里可执行的执行动作指的是初始中间量对应的节点执行该可执行的执行动作后，到达的节点不存在障碍物，这一步骤目的尾避障；实际算法中，存在障碍物的节点的状态值设置为1，不存在障碍物的节点的状态值设置为0。

示例性的，执行动作包括以下任一项：上、下、左和右。

10412、根据初始中间量和初始Q值表，依据贪心算法从第一动作中选取初始节点的运行动作。

示例性的，参照图3所示，10412具体包括：

104121、根据初始中间量和第一动作，确定第一节点的状态值；第一动作和第一节点的状态值一一对应。

104122、根据第二动作和与第二动作对应的第一节点的状态值从初始Q值表中选取第一Q值；第二动作为任一第一动作。

104123、将第一Q值最大的第二动作确定为初始节点的运行动作。

10413、根据初始中间量和初始节点的运行动作，确定前进节点的状态值。

10414、根据前进节点的状态值和初始Q值表，依据贪心算法获取前进节点的运行动作。

在前进节点的运行动作获取过程中，不需要判断其前进动作对应的节点是否存在障碍物。

10421、确定根据初始中间量对应的节点可执行的执行动作为初始节点的第一动作。

示例性的，执行动作包括以下任一项：上、下、左和右。

10422、根据初始中间量和终止节点的状态值，依据择劣原则启发搜索算法，从第一动作中选取初始节点的运行动作。

具体的，启发式搜索算法，就是在样本空间中的搜索对每一个搜索的位置进行评估，得到最好的位置，再从这个位置进行搜索直到目标。这里，启发因子遵循择劣原则；择劣势原就是根据某些指标(例如该领域的先验知识)选择一条最坏轨迹来通过可学习的环境模型(游戏地图模型)，从而获得最差的反馈即赏金值。实际中，这样做反而使得算法比任何使用其他先验知识的方法更快地找到最优解决方案即最优路径。

示例性的，参照图4所示，10422步骤具体包括：

104221、根据初始中间量和第一动作，确定第一节点的状态值；第一动作和第一节点的状态值一一对应。

104222、根据第一节点的状态值与终止节点的状态值，依据启发因子公式计算第一节点的启发因子值。

示例性的，启发因子公式为：

W(s,a)＝||s′-Goal||²；

其中,W(s,a)为启发因子，s′为第一节点的状态值，Goal为终止节点的状态值，s为初始中间量，a为s′对应的第一动作。

104223、将启发因子值最大的第一节点的状态值对应的第一动作确定为初始节点的运行动作。

10423、根据初始中间量和初始节点的运行动作，确定前进节点的状态值。

10424、根据前进节点的状态值和终止节点的状态值，依据择劣原则启发搜索算法获取前进节点的运行动作。

105、根据初始中间量、资格迹的初始值、特征向量空间、构造列向量的初始值、构造矩阵的初始值、初始节点的运行动作、前进节点的状态值和前进节点的运行动作，依据基于CMAC的递归最小二乘Q强化学习算法，对资格迹的初始值、构造列向量的初始值和构造矩阵的初始值均进行更新。

具体的，在整个算法的循环中，存储在预设空间的资格迹的初始值、构造列向量的初始值和构造矩阵的初始值均会随着循环的进行一次次更新。

示例性的，参照图5所示，105步骤具体包括：

1051、根据初始中间量和特征向量空间，依据预设资格迹更新公式对资格迹的初始值进行更新，以获取更新的资格迹的初始值。

示例性的，预设资格迹更新公式为：

其中，e'为更新的资格迹的初始值，e为资格迹的初始值，λ为迹衰减因子，γ为折扣因子，s为初始中间量，a为根据s获取的初始节点的运行动作，为s和a对应的特征向量空间。

1052、根据构造列向量的初始值和更新的资格迹的初始值，依据预设构造列向量更新公式对构造列向量的初始值进行更新，以获取更新的构造列向量的初始值。

示例性的，预设构造列向量更新公式为：

b'＝e'r+b；

其中，b'为更新的构造列向量的初始值，r为赏金值，b为构造列向量的初始值。

1053、根据更新的资格迹的初始值、初始中间量、初始节点的运行动作、前进节点的状态值、前进节点的运行动作、特征向量空间和构造矩阵的初始值，依据预设构造矩阵更新公式对构造矩阵的初始值进行更新，以获取更新的构造矩阵的初始值。

示例性的，预设构造矩阵更新公式为：

其中，A～为更新的构造矩阵的初始值，A为构造矩阵的初始值，s'为根据s获取的前进节点的状态值，a'为根据s获取的前进节点的运行动作，为s'和a'对应的特征向量空间，I为单位矩阵，I的阶数和中特征向量的数量相等。

106、将前进节点的状态值赋予初始中间量。

106步骤后，执行104。

107、当确定初始中间量和终止节点的状态值相同时，将初始节点的状态值赋予初始中间量。

107步骤后执行104。

具体的，104步骤到107步骤的循环为本发明实施例提供的算法的最内层循环，每一次循环都是找到一条初始节点到终止节点的路径。

108、当确定所有初始中间量中存在预设个数个初始中间量与终止节点的状态值相同时，根据当前时刻的构造矩阵的初始值和当前时刻的构造列向量的初始值，依据递归最小二乘解公式计算权值行向量的确定值。

具体的，104步骤到107步骤的循环是为了找不同的初始节点到终止节点的路径，但是这个寻找过程在实际中是存在预设上限的，即当找到预设个数个路径后停止，这样也是为了避免在已经找到最优路径如果还持续运行算法会造成计算资源的浪费；预设个数个路径也就会存在预设个数个初始中间量与终止节点的状态值相同。

示例性的，递归最小二乘解公式为：

θ＝A～b'；

其中，θ为权值行向量的确定值，A～为当前时刻的构造矩阵的初始值，b'为当前时刻的构造列向量的初始值。

109、根据权值行向量的确定值对特征向量空间进行更新，以获取目标特征向量空间。

具体的，参照102步骤中的特征向量空间的表达式，109步骤会根据获得的最新的权值行向量对特征空间向量中的ω₁至ω_N进行替换，从而获得目标特征向量空间。

110、根据权值行向量的确定值、目标特征向量空间，依据预设Q值计算公式计算最终Q值表。

示例性的，预设Q值计算公式为：

其中,Q^π为最终Q值表，为目标特征向量空间，s为任一初始中间量，a为根据s获取的初始节点的运行动作。

111、根据权值行向量的初始值和特征向量空间，依据预设Q值计算公式计算最终Q值表。

112、根据最终Q值表确定动态随机环境中初始节点和终止节点之间的最优路径。

示例性的，参照图6所示，以简单的5×8网格实验场景为例，每一个方格都代表一个节点，S苦脸代表起始节点，G笑脸代表终止节点，而每一个状态点都有4个动作可以选择，上(↑),下(↓),左(←),右(→)，方格中存在的东西代表故障，本发明实施例最终可以得到图中所示的路径。

将游戏场景认为如图6所示的网格，类似于迷宫将障碍物设置为墙，将智能体Agent即箭头所处网格或位置看作此时所处状态点，而在每一个网格内的障碍物是根据游戏和当时情况随机出现的并设置为黑色矩形。在未到达终点之前，从一个状态转移到下一个状态的消耗成本设置为r＝-1，在强化学习中可以看作瞬时赏金，因此，寻找最优路径的问题转移为从始发状态到终点状态所花费成本最低的策略，而本发明实施例提供的技术方案最终可以得到经过反复试验得到的最终Q值表，表中存在着从初始节点开始到终止节点结束的每一条路径中每一个节点可以得到的赏金值，因此也就能得到如图6中所所示的最优路径。

为了更清楚表明本发明实施例提供的技术方案的优势，下面以两个具体实例进行说明：

实例一、40×40的游戏网格化环境中仿真对比：参照图7所示，以本发明实施例中引入择劣因子的基于CMAC的递归最小二乘Q强化学***均值，而每运行一次就随机产生一个40×40的初始点为S(1,4)和目标点为G(35,34)的迷宫，产生的迷宫中的每个网格产生障碍物的概率采用相同的标准正态分布，并有下式表达：

即tiletype＝1表示此处为障碍物，tiletype＝0表示此处空闲可被搜寻；

如图7中所示，两种算法分别取学习50次(即上述实施例中提供的预设个数的值)后得到的Q值表为基础得到路径寻优结果。图中矩阵就是网格化的游戏场景，黑色方块表示其他玩家、山水、动物等障碍物，淡色折线代表的时第50次学习产生的轨迹即两种算法搜寻到的最优路径。从图中可以看出，两种算法都没有搜索到真正的最优路径，但本本发明实施例提供的技术方案所提供的算法表现效果更好，表现为从初始点直接向目标点前进，几乎没有费步骤，更接近真正的最优路径。

实例二、50×50的游戏网格化环境中仿真对比：参照图8所示，为了增加实验环境复杂性和随机性，不仅在规模上由增加，在障碍物产生概率上也变大，其他所有参数与实例一一致，用以验证本专利算法在大型多人在线角色类游戏这种大规模动态随机环境下的优势，其中，初始点为S(1,4)和目标点为G(45,44)的迷宫，产生的迷宫中的每个网格产生障碍物的概率由下式表达：

参照图8所示，在50×50的游戏网格化环境中RBF-LSQ(λ)(左)以及本专利所提出的CMAC-wRLSQ(λ)(右)两种算法分别在取学习次数为50时的一次路径寻优结果。从图中可以看出，随着游戏环境的规模变大复杂度变高，传统的RBF-LSQ(λ)算法寻路效果有所下降，而本专利所提算法不仅仍有优异的效果，并且可以看出随着环境难度增高，其优势也越来越明显。

具体的，如图9所示的曲线图就是实例二中两种算法在50×50的环境中运行30次的平均学习曲线对比图，横坐标为学习次数，纵坐标为到达目标点所需要的步数，而在游戏中能够短时间内迅速找到最优路径是节约游戏运行成本的关键；从图中可以看出RBF-LSQ(λ)算法学习曲线收敛速度非常慢并且事实上该算法始终没有搜寻到最优策略，初始步数为2200，在100次学习中通过学习不断减少，在第学习次数为100时减少到大约500。本专利所提CMAC-wR LSQ(λ)算法相比于传统Q算法在学习速率上有了很大的提高，所需步数由初始的1200经过学习快速减少到大约200步，并在学习次数为20时逐渐收敛，在一定程度上可以说是有了质的飞跃。从图9和图10两张图中可以看出，无论是在学习速率方面还是所搜索到的最优路径方面，相比于传统路径寻优算法都有了很大的提高。

综上，本发明实施例提供的动态随机环境的路径规划方法，该方法包括：获取资格迹的初始值、构造列向量的初始值、构造矩阵的初始值、初始节点的状态值和终止节点的状态值；初始节点的状态值包括初始节点的空间坐标，终止节点的状态值包括终止节点的空间坐标；根据小脑神经网络CMAC隐含层的权值行向量的初始值和CMAC的激活函数，构建动态随机环境的特征向量空间；将初始节点的状态值赋予初始中间量；根据初始中间量，获取初始节点的运行动作、前进节点的状态值和前进节点的运行动作；根据初始中间量、资格迹的初始值、特征向量空间、构造列向量的初始值、构造矩阵的初始值、初始节点的运行动作、前进节点的状态值和前进节点的运行动作，依据基于CMAC的递归最小二乘Q强化学习算法，对资格迹的初始值、构造列向量的初始值和构造矩阵的初始值均进行更新；将前进节点的状态值赋予初始中间量后，根据初始中间量，获取初始节点的运行动作、前进节点的状态值和前进节点的运行动作；初始节点的运行动作与前进节点的状态值一一对应；当确定初始中间量和终止节点的状态值相同时，将初始节点的状态值赋予初始中间量后，根据初始中间量，获取初始节点的运行动作、前进节点的状态值和前进节点的运行动作；当确定所有初始中间量中存在预设个数个初始中间量与终止节点的状态值相同时，根据当前时刻的构造矩阵的初始值和当前时刻的构造列向量的初始值，依据递归最小二乘解公式计算权值行向量的确定值；根据权值行向量的确定值对特征向量空间进行更新，以获取目标特征向量空间；根据权值行向量的确定值、目标特征向量空间，依据预设Q值计算公式计算最终Q值表；根据最终Q值表确定动态随机环境中初始节点和终止节点之间的最优路径。所以本发明实施例提供技术方案，可以首先通过CMAC的权值行向量初始值和激活函数对整个动态随机环境的空间进行了定义，得到特征向量空间，将初始节点的状态值赋予一个中间值即初始中间量，根据该初始中间量，获取初始节点的运行动作、初始节点的下一节点前进节点的状态值和前进节点的运行动作，同时依据基于CMAC的递归最小二乘Q强化学习算法，对与权值行向量最终的确定值相关的资格迹、构造矩阵和构造列向量进行更新；然后将前进节点的状态值赋予初始中间量后重复上述从初始节点的状态值赋予初始中间量后的流程，直至初始中间量和终止节点的状态值相同时，重复从初始节点的状态值赋予初始中间量开始的流程直至出现预设个数个初始中间量与终止节点的状态值相同；然后依据递归最小二乘解公式计算所述权值行向量的确定值，以对特征向量空间进行更新获取目标特征向量空间，根据目标特征向量空间和权利向量的确定值便可以获取到经过多次强化学习得到的最终Q值表，根据该最终Q值表便可以得到初始节点到终止节点的最优路径。因为本发明实施例提供的技术方案，将递归最小二乘法和多步Q强化学习算法以及CMAC相结合，形成三重循环的算法，既具有递归最小二乘法计算量小和全局极优稳定收敛的优势，又具备CMAC逼近速度快的优势，还具备多步Q强化学习算法的最优搜索的优势，所以使得该算法在大象多人在线游戏的题图等动态随机环境中可以在节省计算资源的同时迅速的得到最终Q值表以及根据最终Q值表得到的最优路径。

参照图11所示，本发明实施例还提供一种动态随机环境的路径规划装置01，包括：获取模块21、建立模块22、判断模块23、节点处理模块24、更新模块25、循环模块26、权值计算模块27、特征计算模块28、Q值表计算模块29和路径选择模块30；

获取模块21，用于获取资格迹的初始值、构造列向量的初始值、构造矩阵的初始值、初始节点的状态值和终止节点的状态值；初始节点的状态值包括初始节点的空间坐标，终止节点的状态值包括终止节点的空间坐标；

建立模块22，用于根据小脑神经网络CMAC隐含层的权值行向量的初始值和CMAC的激活函数，构建动态随机环境的特征向量空间；

循环模块26，用于将获取模块21获取的初始节点的状态值赋予初始中间量；

节点处理模块24用于根据循环模块26产生的初始中间量，获取初始节点的运行动作、前进节点的状态值和前进节点的运行动作；

更新模块25，用于根据循环模块26产生的初始中间量、获取模块21获取的资格迹的初始值、建立模块22构建的特征向量空间、获取模块21获取的构造列向量的初始值、获取模块21获取的构造矩阵的初始值、节点处理模块24获取的初始节点的运行动作、节点处理模块24获取的前进节点的状态值和节点处理模块24获取的前进节点的运行动作，依据基于CMAC的递归最小二乘Q强化学习算法，对资格迹的初始值、构造列向量的初始值和构造矩阵的初始值进行更新；

节点处理模块24还用于在循环模块26将节点处理模块24获取的前进节点的状态值赋予初始中间量后，根据循环模块26产生的初始中间量，获取初始节点的运行动作、前进节点的状态值和前进节点的运行动作；初始节点的运行动作与前进节点的状态值一一对应；

当判断模块23确定循环模块26生成的初始中间量和获取模块21获取的终止节点的状态值相同时，节点处理模块24还用于在循环模块26将获取模块21获取的初始节点的状态值赋予初始中间量后，根据循环模块26产生的初始中间量，获取初始节点的运行动作、前进节点的状态值和前进节点的运行动作；

当判断模块23确定循环模块26产生的所有初始中间量中，存在预设个数个初始中间量与获取模块21获取的终止节点的状态值相同时，权值计算模块27用于根据更新模块25更新的构造矩阵的初始和构造列向量的初始值，依据递归最小二乘解公式计算权值行向量的确定值；

特征计算模块28，用于根据权值计算模块27计算的权值行向量的确定值对建立模块22构建的特征向量空间进行更新，以获取目标特征向量空间；

Q值表计算模块29，用于根据权值计算模块27计算的权值行向量的确定值和特征计算模块28获取的目标特征向量空间依据预设Q值计算公式计算最终Q值表；

路径选择模块30，用于根据Q值表计算模块29计算的最终Q值表确定动态随机环境中初始节点和终止节点之间的最优路径。

可选的，节点处理模块24具体用于：

确定循环模块26产生的初始中间量对应的节点可执行的执行动作为初始节点的第一动作；

根据初始中间量和初始Q值表，依据贪心算法从第一动作中选取初始节点的运行动作；

根据初始中间量和初始节点的运行动作，确定前进节点的状态值；

根据前进节点的状态值和初始Q值表，依据贪心算法获取前进节点的运行动作；

执行动作包括以下任一项：上、下、左和右。

可选的，节点处理模块24根据初始中间量和初始Q值表，依据贪心算法从第一动作中选取初始节点的运行动作的过程具体包括：

根据初始中间量和第一动作，确定第一节点的状态值；第一动作和第一节点的状态值一一对应；

根据第二动作和与第二动作对应的第一节点的状态值从初始Q值表中选取第一Q值；第二动作为任一第一动作；

将第一Q值最大的第二动作确定为初始节点的运行动作。

可选的，节点处理模块24具体用于：

根据初始中间量和终止节点的状态值，依据择劣原则启发搜索算法，从第一动作中选取初始节点的运行动作；

根据前进节点的状态值和终止节点的状态值，依据择劣原则启发搜索算法获取前进节点的运行动作；

执行动作包括以下任一项：上、下、左和右。

可选的，节点处理模块24根据初始中间量和终止节点的状态值，依据择劣原则启发搜索算法，从第一动作中选取初始节点的运行动作的过程具体包括：

根据第一节点的状态值与终止节点的状态值，依据启发因子公式计算第一节点的启发因子值；

将启发因子值最大的第一节点的状态值对应的第一动作确定为初始节点的运行动作。

可选的，更新模块25具体用于：

根据循环模块26产生的初始中间量和建立模块22构建的特征向量空间，依据预设资格迹更新公式对获取模块21获取的资格迹的初始值进行更新，以获取更新的资格迹的初始值；

根据获取模块21获取的构造列向量的初始值和资格迹的更新值，依据预设构造列向量更新公式对构造列向量的初始值进行更新，以获取更新的构造列向量的初始值；

根据资格迹的更新值、循环模块26产生的初始中间量、节点处理模块24获取的初始节点的运行动作、节点处理模块24获取的前进节点的状态值、节点处理模块24获取的前进节点的运行动作、建立模块22构建的特征向量空间和获取模块21获取的构造矩阵的初始值，依据预设构造矩阵更新公式对构造矩阵的初始值进行更新，以获取更新的构造矩阵的初始值。

本发明实施例提供的动态随机环境的路径规划装置，因为该装置包括：获取模块，用于获取资格迹的初始值、构造列向量的初始值、构造矩阵的初始值、初始节点的状态值和终止节点的状态值；初始节点的状态值包括初始节点的空间坐标，终止节点的状态值包括终止节点的空间坐标；建立模块，用于根据小脑神经网络CMAC隐含层的权值行向量的初始值和CMAC的激活函数，构建动态随机环境的特征向量空间；循环模块，用于将获取模块获取的初始节点的状态值赋予初始中间量；节点处理模块用于根据循环模块产生的初始中间量，获取初始节点的运行动作、前进节点的状态值和前进节点的运行动作；更新模块，用于根据循环模块产生的初始中间量、获取模块获取的资格迹的初始值、建立模块构建的特征向量空间、获取模块获取的构造列向量的初始值、获取模块获取的构造矩阵的初始值、节点处理模块获取的初始节点的运行动作、节点处理模块获取的前进节点的状态值和节点处理模块获取的前进节点的运行动作，依据基于CMAC的递归最小二乘Q强化学习算法，对资格迹的初始值、构造列向量的初始值和构造矩阵的初始值进行更新；节点处理模块还用于在循环模块还用于将节点处理模块获取的前进节点的状态值赋予初始中间量后，根据循环模块产生的初始中间量，获取初始节点的运行动作、前进节点的状态值和前进节点的运行动作；初始节点的运行动作与前进节点的状态值一一对应；当判断模块确定初始中间量和终止节点的状态值相同时，节点处理模块还用于在循环模块将获取模块获取的初始节点的状态值赋予初始中间量后，根据循环模块产生的初始中间量，获取初始节点的运行动作、前进节点的状态值和前进节点的运行动作；当判断模块确定循环模块产生的所有初始中间量中存在预设个数个初始中间量，与获取模块获取的终止节点的状态值相同时，权值计算模块用于根据构造矩阵的更新值和构造列向量的更新值，依据递归最小二乘解公式计算权值行向量的确定值；特征计算模块，用于根据权值行向量的确定值对特征向量空间进行更新，以获取目标特征向量空间；Q值表计算模块，用于根据权值计算模块计算的权值行向量的确定值、特征计算模块获取的目标特征向量空间、节点处理模块获取的前进节点的状态值和节点处理模块获取的初始节点的运行动作，依据预设Q值计算公式计算最终Q值表；路径选择模块，用于根据Q值表计算模块计算的最终Q值表确定动态随机环境中初始节点和终止节点之间的最优路径。

所以本发明实施例提供技术方案，可以首先通过CMAC的权值行向量初始值和激活函数对整个动态随机环境的空间进行了定义，得到特征向量空间，将初始节点的状态值赋予一个中间值即初始中间量，根据该初始中间量，获取初始节点的运行动作、初始节点的下一节点前进节点的状态值和前进节点的运行动作，同时依据基于CMAC的递归最小二乘Q强化学习算法，对与权值行向量最终的确定值相关的资格迹、构造矩阵和构造列向量进行更新；然后将前进节点的状态值赋予初始中间量后重复上述从初始节点的状态值赋予初始中间量后的流程，直至初始中间量和终止节点的状态值相同时，重复从初始节点的状态值赋予初始中间量开始的流程直至出现预设个数个初始中间量与终止节点的状态值相同；然后依据递归最小二乘解公式计算所述权值行向量的确定值，以对特征向量空间进行更新获取目标特征向量空间，根据目标特征向量空间和权利向量的确定值便可以获取到经过多次强化学习得到的最终Q值表，根据该最终Q值表便可以得到初始节点到终止节点的最优路径。因为本发明实施例提供的技术方案，将递归最小二乘法和多步Q强化学习算法以及CMAC相结合，形成三重循环的算法，既具有递归最小二乘法计算量小和全局极优稳定收敛的优势，又具备CMAC逼近速度快的优势，还具备多步Q强化学习算法的最优搜索的优势，所以使得该算法在大象多人在线游戏的题图等动态随机环境中可以在节省计算资源的同时迅速的得到最终Q值表以及根据最终Q值表得到的最优路径。

参照图12所示，本发明实施例还提供另一种动态随机环境的路径规划装置，包括存储器41、处理器42、总线43和通信接口44；存储器41用于存储计算机执行指令，处理器42与存储器41通过总线43连接；当动态随机环境的路径规划装置运行时，处理器42执行存储器41存储的计算机执行指令，以使动态随机环境的路径规划装置执行如上述实施例提供的动态随机环境的路径规划方法。

在具体的实现中，作为一种实施例，处理器42(42-1和42-2)可以包括一个或多个CPU，例如图12中所示的CPU0和CPU1。且作为一种实施例，动态随机环境的路径规划装置可以包括多个处理器42，例如图12中所示的处理器42-1和处理器42-2。这些处理器42中的每一个CPU可以是一个单核处理器(Single-CPU)，也可以是一个多核处理器(Multi-CPU)。这里的处理器42可以指一个或多个设备、电路、和/或用于处理数据(例如计算机程序指令)的处理核。

存储器41可以是只读存储器41(Read-Only Memory，ROM)或可存储静态信息和指令的其他类型的静态存储设备，随机存取存储器(Random Access Memory，RAM)或者可存储信息和指令的其他类型的动态存储设备，也可以是电可擦可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，EEPROM)、只读光盘(CompactDisc Read-Only Memory，CD-ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。存储器41可以是独立存在，通过通信总线43与处理器42相连接。存储器41也可以和处理器42集成在一起。

在具体的实现中，存储器41，用于存储本申请中的数据和执行本申请的软件程序对应的计算机执行指令。处理器42可以通过运行或执行存储在存储器41内的软件程序，以及调用存储在存储器41内的数据，动态随机环境的路径规划装置的各种功能。

通信接口44，使用任何收发器一类的装置，用于与其他设备或通信网络通信，如控制***、无线接入网(Radio Access Network，RAN)，无线局域网(Wireless Local AreaNetworks，WLAN)等。通信接口44可以包括接收单元实现接收功能，以及发送单元实现发送功能。

总线43，可以是工业标准体系结构(Industry Standard Architecture，ISA)总线、外部设备互连(Peripheral Component Interconnect，PCI)总线或扩展工业标准体系结构(Extended Industry Standard Architecture，EISA)总线等。该总线43可以分为地址总线、数据总线、控制总线等。为便于表示，图12中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

本发明实施例还提供一种计算机存储介质，计算机存储介质包括计算机执行指令，当计算机执行指令在计算机上运行时，使得计算机执行如上述实施例提供的动态随机环境的路径规划方法。

本发明实施例还提供一种计算机程序，该计算机程序可直接加载到存储器中，并含有软件代码，该计算机程序经由计算机载入并执行后能够实现上述实施例提供的动态随机环境的路径规划方法。

本领域技术人员应该可以意识到，在上述一个或多个示例中，本发明所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时，可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。计算机可读介质包括计算机存储介质和通信介质，其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是通用或专用计算机能够存取的任何可用介质。

通过以上的实施方式的描述，所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。例如多个单元或组件可以结合或者可以集成到另一个装置，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是一个物理单元或多个物理单元，即可以位于一个地方，或者也可以分布到多个不同地方。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个可读取存储介质中。基于这样的理解，本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该软件产品存储在一个存储介质中，包括若干指令用以使得一个设备(可以是单片机，芯片等)或处理器(processor)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种动态随机环境的路径规划方法，其特征在于，包括：

获取资格迹的初始值、构造列向量的初始值、构造矩阵的初始值、初始节点的状态值和终止节点的状态值；所述初始节点的状态值包括所述初始节点的空间坐标，所述终止节点的状态值包括所述终止节点的空间坐标；

根据小脑神经网络CMAC隐含层的权值行向量的初始值和所述CMAC的激活函数，构建所述动态随机环境的特征向量空间；

将所述初始节点的状态值赋予初始中间量；

根据所述初始中间量，获取所述初始节点的运行动作、前进节点的状态值和前进节点的运行动作；

根据所述初始中间量、所述资格迹的初始值、所述特征向量空间、所述构造列向量的初始值、所述构造矩阵的初始值、所述初始节点的运行动作、所述前进节点的状态值和所述前进节点的运行动作，依据基于CMAC的递归最小二乘Q强化学习算法，对所述资格迹的初始值、所述构造列向量的初始值和所述构造矩阵的初始值均进行更新；

将所述前进节点的状态值赋予所述初始中间量后，根据所述初始中间量，获取所述初始节点的运行动作、前进节点的状态值和前进节点的运行动作；所述初始节点的运行动作与所述前进节点的状态值一一对应；

当确定所述初始中间量和所述终止节点的状态值相同时，将所述初始节点的状态值赋予所述初始中间量后，根据所述初始中间量，获取所述初始节点的运行动作、前进节点的状态值和前进节点的运行动作；

当确定所有所述初始中间量中存在预设个数个初始中间量与所述终止节点的状态值相同时，根据当前时刻的所述构造矩阵的初始值和当前时刻的所述构造列向量的初始值，依据递归最小二乘解公式计算所述权值行向量的确定值；

根据所述权值行向量的确定值对所述特征向量空间进行更新，以获取目标特征向量空间；

根据所述权值行向量的确定值和所述目标特征向量空间，依据预设Q值计算公式计算最终Q值表；

根据所述最终Q值表确定所述动态随机环境中所述初始节点和所述终止节点之间的最优路径。

2.根据权利要求1所述的动态随机环境的路径规划方法，其特征在于，所述根据所述初始中间量，获取所述初始节点的运行动作、前进节点的状态值和前进节点的运行动作包括：

确定所述初始中间量对应的节点可执行的执行动作为所述初始节点的第一动作；

根据所述初始中间量和初始Q值表，依据贪心算法从所述第一动作中选取所述初始节点的运行动作；

根据所述初始中间量和所述初始节点的运行动作，确定前进节点的状态值；

根据所述前进节点的状态值和所述初始Q值表，依据贪心算法获取所述前进节点的运行动作；

所述执行动作包括以下任一项：上、下、左和右。

3.根据权利要求2所述的动态随机环境的路径规划方法，其特征在于，所述根据所述初始中间量和初始Q值表，依据贪心算法从所述第一动作中选取所述初始节点的运行动作包括：

根据所述初始中间量和所述第一动作，确定第一节点的状态值；所述第一动作和所述第一节点的状态值一一对应；

根据第二动作和与所述第二动作对应的第一节点的状态值从所述初始Q值表中选取第一Q值；所述第二动作为任一所述第一动作；

将第一Q值最大的第二动作确定为所述初始节点的运行动作。

4.根据权利要求1所述的动态随机环境的路径规划方法，其特征在于，所述根据所述初始中间量，获取所述初始节点的运行动作、前进节点的状态值和前进节点的运行动作包括：

确定根据所述初始中间量对应的节点可执行的执行动作为所述初始节点的第一动作；

根据所述初始中间量和所述终止节点的状态值，依据择劣原则启发搜索算法，从所述第一动作中选取所述初始节点的运行动作；

根据所述前进节点的状态值和所述终止节点的状态值，依据择劣原则启发搜索算法获取所述前进节点的运行动作；

所述执行动作包括以下任一项：上、下、左和右。

5.根据权利要求4所述的动态随机环境的路径规划方法，其特征在于，所述根据所述初始中间量和所述终止节点的状态值，依据择劣原则启发搜索算法，从所述第一动作中选取所述初始节点的运行动作包括：

根据所述第一节点的状态值与所述终止节点的状态值，依据启发因子公式计算所述第一节点的启发因子值；

将启发因子值最大的第一节点的状态值对应的第一动作确定为所述初始节点的运行动作。

6.根据权利要求1所述的动态随机环境的路径规划方法，其特征在于，所述根据所述初始中间量、所述资格迹的初始值、所述特征向量空间、所述构造列向量的初始值、所述构造矩阵的初始值、所述初始节点的运行动作、所述前进节点的状态值和所述前进节点的运行动作，依据基于CMAC的递归最小二乘Q强化学习算法，对所述资格迹的初始值、所述构造列向量的初始值和所述构造矩阵的初始值均进行更新包括：

根据所述初始中间量和所述特征向量空间，依据预设资格迹更新公式对所述资格迹的初始值进行更新，以获取更新的所述资格迹的初始值；

根据所述构造列向量的初始值和所述更新的所述资格迹的初始值，依据预设构造列向量更新公式对所述构造列向量的初始值进行更新，以获取更新的所述构造列向量的初始值；

根据所述更新的所述资格迹的初始值、所述初始中间量、所述初始节点的运行动作、所述前进节点的状态值、所述前进节点的运行动作、所述特征向量空间和所述构造矩阵的初始值，依据预设构造矩阵更新公式对所述构造矩阵的初始值进行更新，以获取更新的所述构造矩阵的初始值。

7.根据权利要求1所述的动态随机环境的路径规划方法，其特征在于，所述递归最小二乘解公式为：

θ＝A^～b'；

其中，θ为所述权值行向量的确定值，A^～为当前时刻的所述构造矩阵的初始值，b'为当前时刻的所述构造列向量的初始值；

所述预设Q值计算公式为：

其中,Q^π为所述最终Q值表，为目标特征向量空间，s为任一初始中间量，a为根据s获取的初始节点的运行动作。

8.根据权利要求5所述的动态随机环境的路径规划方法，其特征在于，所述启发因子公式为：

W(s,a)＝||s′-Goal||²；

其中,W(s,a)为启发因子，s′为所述第一节点的状态值，Goal为所述终止节点的状态值，s为所述初始中间量，a为s′对应的第一动作。

9.根据权利要求6所述的动态随机环境的路径规划方法，其特征在于，所述预设资格迹更新公式为：

其中，e'为所述更新的所述资格迹的初始值，e为所述资格迹的初始值，λ为迹衰减因子，γ为折扣因子，s为所述初始中间量，a为根据s获取的初始节点的运行动作，为s和a对应的特征向量空间；

所述预设构造列向量更新公式为：

b'＝e'r+b；

其中，b'为所述更新的所述构造列向量的初始值，r为赏金值，b为所述构造列向量的初始值；

所述预设构造矩阵更新公式为：

其中，A^～为所述更新的所述构造矩阵的初始值，A为所述构造矩阵的初始值，s'为根据s获取的前进节点的状态值，a'为根据s获取的前进节点的运行动作，为s'和a'对应的特征向量空间，I为单位矩阵，I的阶数和中特征向量的数量相等。

10.一种动态随机环境的路径规划装置，其特征在于，包括：获取模块、建立模块、判断模块、节点处理模块、更新模块、循环模块、权值计算模块、特征计算模块、Q值表计算模块和路径选择模块；

所述获取模块，用于获取资格迹的初始值、构造列向量的初始值、构造矩阵的初始值、初始节点的状态值和终止节点的状态值；所述初始节点的状态值包括所述初始节点的空间坐标，所述终止节点的状态值包括所述终止节点的空间坐标；

所述建立模块，用于根据小脑神经网络CMAC隐含层的权值行向量的初始值和所述CMAC的激活函数，构建所述动态随机环境的特征向量空间；

所述循环模块，用于将所述获取模块获取的所述初始节点的状态值赋予初始中间量；

所述节点处理模块用于根据所述循环模块产生的所述初始中间量，获取所述初始节点的运行动作、前进节点的状态值和前进节点的运行动作；

所述更新模块，用于根据所述循环模块产生的所述初始中间量、所述获取模块获取的所述资格迹的初始值、所述建立模块构建的所述特征向量空间、所述获取模块获取的所述构造列向量的初始值、所述获取模块获取的所述构造矩阵的初始值、所述节点处理模块获取的所述初始节点的运行动作、所述节点处理模块获取的所述前进节点的状态值和所述节点处理模块获取的所述前进节点的运行动作，依据基于CMAC的递归最小二乘Q强化学习算法，对所述资格迹的初始值、所述构造列向量的初始值和所述构造矩阵的初始值进行更新；

所述节点处理模块还用于在所述循环模块将所述节点处理模块获取的所述前进节点的状态值赋予所述初始中间量后，根据所述循环模块产生的所述初始中间量，获取所述初始节点的运行动作、前进节点的状态值和前进节点的运行动作；所述初始节点的运行动作与所述前进节点的状态值一一对应；

当所述判断模块确定所述循环模块生成的所述初始中间量和所述获取模块获取的所述终止节点的状态值相同时，所述节点处理模块还用于在所述循环模块将所述获取模块获取的所述初始节点的状态值赋予所述初始中间量后，根据所述循环模块产生的所述初始中间量，获取所述初始节点的运行动作、前进节点的状态值和前进节点的运行动作；

当所述判断模块确定所述循环模块产生的所有所述初始中间量中，存在预设个数个初始中间量与所述获取模块获取的所述终止节点的状态值相同时，所述权值计算模块用于根据所述更新模块更新的当前时刻的所述构造矩阵的初始值和所述构造列向量的初始值，依据递归最小二乘解公式计算所述权值行向量的确定值；

所述特征计算模块，用于根据所述权值计算模块计算的所述权值行向量的确定值对所述建立模块构建的所述特征向量空间进行更新，以获取目标特征向量空间；

所述Q值表计算模块，用于根据所述权值计算模块计算的所述权值行向量的确定值和所述特征计算模块获取的所述目标特征向量空间，依据预设Q值计算公式计算最终Q值表；

所述路径选择模块，用于根据所述Q值表计算模块计算的所述最终Q值表确定所述动态随机环境中所述初始节点和所述终止节点之间的最优路径。

11.根据权利要求10所述的动态随机环境的路径规划装置，其特征在于，所述节点处理模块具体用于：

确定所述循环模块产生的所述初始中间量对应的节点可执行的执行动作为所述初始节点的第一动作；

所述执行动作包括以下任一项：上、下、左和右。

12.根据权利要求11所述的动态随机环境的路径规划装置，其特征在于，所述节点处理模块根据所述初始中间量和初始Q值表，依据贪心算法从所述第一动作中选取所述初始节点的运行动作的过程具体包括：

将第一Q值最大的第二动作确定为所述初始节点的运行动作。

13.根据权利要求10所述的动态随机环境的路径规划装置，其特征在于，所述节点处理模块具体用于：

所述执行动作包括以下任一项：上、下、左和右。

14.根据权利要求13所述的动态随机环境的路径规划装置，其特征在于，所述节点处理模块根据所述初始中间量和所述终止节点的状态值，依据择劣原则启发搜索算法，从所述第一动作中选取所述初始节点的运行动作的过程具体包括：

15.根据权利要求10所述的动态随机环境的路径规划装置，其特征在于，所述更新模块具体用于：

根据所述循环模块产生的所述初始中间量和所述建立模块构建的所述特征向量空间，依据预设资格迹更新公式对所述获取模块获取的所述资格迹的初始值进行更新，以获取更新的所述资格迹的初始值；

根据所述获取模块获取的所述构造列向量的初始值和所述资格迹的更新值，依据预设构造列向量更新公式对所述构造列向量的初始值进行更新，以获取更新的所述构造列向量的初始值；

根据所述资格迹的更新值、所述循环模块产生的所述初始中间量、所述节点处理模块获取的所述初始节点的运行动作、所述节点处理模块获取的所述前进节点的状态值、所述节点处理模块获取的所述前进节点的运行动作、所述建立模块构建的所述特征向量空间和所述获取模块获取的所述构造矩阵的初始值，依据预设构造矩阵更新公式对所述构造矩阵的初始值进行更新，以获取更新的所述构造矩阵的初始值。

16.一种动态随机环境的路径规划装置，其特征在于，包括存储器、处理器、总线和通信接口；所述存储器用于存储计算机执行指令，所述处理器与所述存储器通过所述总线连接；当所述动态随机环境的路径规划装置运行时，所述处理器执行所述存储器存储的所述计算机执行指令，以使所述动态随机环境的路径规划装置执行如权利要求1-9任一项所述的动态随机环境的路径规划方法。

17.一种计算机存储介质，其特征在于，所述计算机存储介质包括计算机执行指令，当所述计算机执行指令在计算机上运行时，使得所述计算机执行如权利要求1-9任一项所述的动态随机环境的路径规划方法。