CN109063827B

CN109063827B - 有限空间内自动拿取特定行李的方法、***、存储介质和终端

Info

Publication number: CN109063827B
Application number: CN201811250266.6A
Authority: CN
Inventors: 匡平; 张婷; 李祖宁; 闫华睿; 罗丁力; 王豪爽
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2018-10-25
Filing date: 2018-10-25
Publication date: 2022-03-04
Anticipated expiration: 2038-10-25
Also published as: CN109063827A

Abstract

本发明公开了有限空间内自动拿取特定行李的方法、***、存储介质和终端，方法包括：将有限空间内的当前行李分布状态state输入至经过训练的改进的DDPG网络，得到特定行李拿取的步骤。本发明具有计算出机舱内部移动行李从而拿取目标行李的最佳解法的能力，该方法的关键在于能否在搜索过程中找到目标位置。通过实验证明，该方法能够满足设计的目的：在机舱内部移动障碍行李从而将目标行李拉到出口，而非将障碍行李全部拉出机舱。将该算法应用到机器人上，则可以控制机器人来完成这项工作，来代替现在的人力，会节省很大一部分的时间与花销。本发明提供的***、存储介质和装置也解决了相应的技术问题。

Description

有限空间内自动拿取特定行李的方法、***、存储介质和终端

技术领域

本发明涉及增强学习训练领域，尤其涉及有限空间内自动拿取特定行李的方法、***、存储介质和终端。

背景技术

目前，在机舱、客舱等储存不同大小的行李仓库中，经常需要拿取某个放在里面的特定的行李，通常的做法是将挡住这个行李的箱子全部拿出机舱，然后再将它们放回，这样做是及其耗费时间和精力的。因此，为了解决这个问题，通过在机舱内部合理移动其他行李，在不把其他行李拿出机舱的情况下，抽取目标行李。

本发明使用了一个增强学习训练的神经网络，使用这个方法解决了有限空间下、无次序摆放的行李拿取问题——通过在机舱内部合理移动箱子从而勾取目标箱子，而不是像传统方法一样将其它箱子全部拿出。并且整个在实现解决方案的过程中没有人类的干涉。

发明内容

本发明的目的在于克服现有技术的不足，提供有限空间内自动拿取特定行李的方法、***、存储介质和终端，解决机舱等有限空间内自动拿取特定行李的问题。

本发明的目的是通过以下技术方案来实现的：有限空间内自动拿取特定行李的方法，包括：将有限空间内的当前行李分布状态state输入至经过训练的改进的DDPG网络，得到特定行李拿取的步骤；

其中，改进的DDPG网络的训练包括以下步骤：

S1：将新的当前行李分布状态state输入至DDPG网络，DDPG网络输出选择采取所有可能的行为action的概率分布队列p[]，其中概率越高潜在奖励值reward越高；

S2：对得到的概率分布队列p[]添加一个随机扰动；

S3：根据修改后的概率分布队列p[]选择一个行为action执行，并输入给环境environment；

S4：获取环境environment对该行为action作出的反馈信息，所述的反馈信息包括环境的下一个新的当前行李分布状态state、该行为action获取的奖励值reward以及判断是否结束，如果判断为没结束，则返回步骤S1，否则进入步骤S5；其中，判断是否结束的标准为特定行李的位置是否达到预定位置；

S5：以一定的衰减速率向前平滑最终得到本次完整训练阶段episode里面的奖励值reward；其中所述的完整训练阶段episode开始于一次训练并以返回一个成功或失败的训练结果作为结束；

S6：计算本次完整训练阶段episode的平均奖励值；

S7：对每一个当前行李分布状态state，根据每个行为action的评估概率Y，降低低于平均奖励值的行为action的概率，提高高于平均奖励值的行为action的概率，得到经过修改后的目标概率值Y_true；

S8：将当前行李分布状态state作为输入，将计算得出的目标概率值Y_true作为目标函数，返回到步骤S1训练DDPG网络。

进一步地，步骤S1中DDPG网络对新的当前行李分布状态state进行处理，包括以下子步骤：

S101：初始化Q网络critic的online神经网络Q(s,a|θ^Q)的参数θ^Q，同时初始化策略网络actor的online神经网络μ(s|θ^μ)的参数θ^μ，式中s表示当前行李分布状态state，a表示行为action；

S102：将Q网络critic的online神经网络Q(s,a|θ^Q)的参数θ^Q拷贝给Q网络critic的target神经网络Q'(s,a|θ^Q')的参数θ^Q'，同时将策略网络actor的online神经网络μ(s|θ^μ)的参数θ^μ拷贝给策略网络actor的target神经网络μ'(s|θ^μ')的参数θ^μ'；

S103：初始化重播缓存器R；

S104：对共M-1个中的每一个完整训练阶段episode，依次执行S1041～S1043步骤：

S1041：初始化一个用于行为action探索的随机扰动

；

S1042：接收初始观察到的当前行李分布状态states₁；

S1043：对共T-1个中的每一个行为actiona_t，从第1至T-1个依次执行S10431～S10438步骤，其中每一次执行均为第t次执行，执行完毕后实现t+1操作：

S10431：策略网络actor根据当前策略即概率分布队列p[]和扰动噪音

选择行为action a_t：

S10432：执行S10431中的行为actiona_t，获得奖励值rewardr_t，并观察新的当前行李分布状态states_t；

S10433：策略网络actor将这个状态转换过程(s_t,a_t,r_t,s_t+1)存入重播缓存器R，作为训练策略网络actor的online神经网络和Q网络critic的online神经网络的数据集；

S10434：从重播缓存器R中的共N个状态转换过程，随机采样一个状态转换过程(s_i,a_i,r_i,s_i+1)，作为策略网络actor的online神经网络、Q网络critic的online神经网络的一个训练数据；

S10435：使用策略网络actor的target神经网络μ'(s|θ^μ')和Q网络critic的target神经网络Q'(s,a|θ^Q')，计算标签y_i的值：

y_i＝r_i+γQ'(s_i+1,μ'(s_i+1|θ^μ')|θ^Q')

式中，γ表示discounted rate，是一个比例系数，范围在[0,1]之间；

S10436：通过loss值L对Q网络critic的梯度gradient进行更新，其中：

S10437：使用采样策略梯度，更新策略网络actor的策略policy：

S10438：更新Q网络critic的target神经网络Q'(s,a|θ^Q')的参数θ^Q'，以及更新策略网络actor的target神经网络μ'(s|θ^μ')的参数θ^μ'：

θ^Q'←τθ^Q+(1-τ)θ^Q'

θ^μ'←τθ^μ+(1-τ)θ^μ'

式中，τ表示比例系数。

进一步地，步骤S10432中，获得奖励值rewardr_t的计算方式包括以下子步骤：

奖励值rewardr_t初始化为当前移动行李距离出口的曼哈顿距离减去上一个状态的曼哈顿距离。

进一步地，步骤S2中所述的对得到的概率分布队列p[]添加一个随机扰动，包括对概率分布队列p[]中每一个元素即概率值进行更新，具体包括以下子步骤：

S21：设置变量α的值，其中α为随机扰动比例系数，0<α<1；

S22：对概率分布队列p[]中的元素进行更新：

p[i]＝α*p[i]+(1-α)*np.fulllike(p[i],1/p[i].shape[0])

式中，其中np.fulllike是产生一个与p[i]格式相同的数据，值为原值的倒数；p[i].shape[0]表示矩阵第二维的长度。

进一步地，所述的α＝0.5。

进一步地，步骤S5中的以一定的衰减速率向前平滑最终得到的奖励值reward，包括以下子步骤：

S51：令动态奖励值＝最后奖励值；

S52：对每一个奖励值进行更新：如果奖励值为-1：设置动态奖励值为-0.5；否则，更新动态奖励值：动态奖励值＝最后奖励值*γ+原奖励值；γ为为比例系数。

进一步地，对于不同形状的有限空间需要分别进行不同DDPG网络的训练；并在进行特定行李拿取计算时，根据有限空间的形状选择对应形状的经过训练的DDPG网络进行计算。

本发明还提供有限空间内自动拿取特定行李的***，包括：

拿取行李确定模块：用于将有限空间内的当前行李分布状态state输入至经过训练的改进的DDPG网络，得到特定行李拿取的步骤；

DDPG网络的训练模块，用于训练所述改进的DDPG网络，包括：

数据输入与概率分布队列单元：用于将新的当前行李分布状态state输入至DDPG网络，DDPG网络输出选择采取所有可能的行为action的概率分布队列p[]，其中概率越高潜在奖励值reward越高；

随机扰动添加单元：用于对数据输入与概率分布队列单元得到的概率分布队列p[]添加一个随机扰动；

行为选择与执行单元：用于根据随机扰动添加单元修改后的概率分布队列p[]选择一个行为action执行，并输入给环境environment；

环境反馈单元：用于获取行为选择与执行单元输出的环境environment对该行为action作出的反馈信息，所述的反馈信息包括环境的下一个新的当前行李分布状态state、该行为action获取的奖励值reward以及判断是否结束，如果判断为没结束，则返回数据输入与概率分布队列单元，否则进入奖励值平滑单元；其中，判断是否结束的标准为特定行李的位置是否达到预定位置；

奖励值平滑单元：用于以一定的衰减速率向前平滑最终得到本次完整训练阶段episode里面的奖励值reward；其中所述的完整训练阶段episode开始于一次训练并以返回一个成功或失败的训练结果作为结束；

平均奖励值计算单元：用于计算本次完整训练阶段episode的平均奖励值；

目标概率值获取单元：用于对每一个当前行李分布状态state，根据每个行为action的评估概率Y，降低低于平均奖励值的行为action的概率，提高高于平均奖励值的行为action的概率，得到目标概率值Y_true；

数据训练单元：用于将当前行李分布状态state作为输入，将计算得出的目标概率值Y_true作为目标函数，训练DDPG网络。

本发明还提供一种存储介质，其上存储有计算机指令，所述计算机指令运行时执行所述的有限空间内自动拿取特定行李的方法的步骤。

本发明还提供一种终端，包括存储器和处理器，所述存储器上存储有可在所述处理器上运行的计算机指令，所述处理器运行所述计算机指令时执行所述的有限空间内自动拿取特定行李的方法的步骤。

本发明的有益效果是：

(1)本发明的方法具有计算出机舱内部移动行李从而拿取目标行李的最佳解法的能力，该方法的关键在于能否在搜索过程中找到目标位置。通过实验证明，该方法能够满足设计的目的：在机舱内部移动障碍行李从而将目标行李拉到出口，而非将障碍行李全部拉出机舱。将该算法应用到机器人上，则可以控制机器人来完成这项工作，来代替现在的人力，会节省很大一部分的时间与花销。本发明提供的***、存储介质和装置也解决了相应的技术问题。

(2)本发明是基于DDPG的，但在DDPG的基础上有所改动，具体表现为：在选择行为Action的概率数组基础上增加了随机扰动；在场景结束时采用了奖励值平滑的方法，将奖励值按照一定的衰减比例向前平滑。这些改动使得最终的网络能力更加稳定，效果更好。

附图说明

图1为本发明方法流程图；

图2为实施例5中其中一种方式的初始场景行李分布示意图；

图3为实施例5中其中一种场景的解决方案示意图；

图4为实施例5中其中一种场景的平均奖励值随episode的增长变化示意图；

图5为实施例5中另外三种不同难度的场景下的训练过程示意图。

具体实施方式

下面结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的描述中，需要说明的是，属于“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方向或位置关系为基于附图所述的方向或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，属于“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性。

在本发明的描述中，需要说明的是，除非另有明确的规定和限定，属于“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

此外，下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。

实施例1

实施例1提供了一种有限空间内自动拿取特定行李的方法，应用于机舱或者客舱等需要通过机器人将特定行李移出机舱，具体地，可以通过在机舱内部合理移动其他行李，在不把其他行李拿出机舱的情况下，抽取目标行李，且整个过程中没有人类干涉。若将该方法应用到机器人上，则可以控制机器人来完成这项工作，来代替现在的人力，则会节省很大一部分的时间与花销。

如图1所示，有限空间内自动拿取特定行李的方法，包括：将有限空间内的当前行李分布状态state输入至经过训练的改进的DDPG网络，得到特定行李拿取的步骤。

首先，对下述部分名词进行解释：

行为Action：表示通过学习算法和决策策略产生的行为，如：在模拟环境中中向左移动某一个方块。

环境Environment：一个潜在的环境，通过给定一个特定的行为Action，可以产生相应反馈，并返回当前环境的状态state。场景规则(包括初始化条件)可以被视为Environment。当前行李分布状态State：如机舱环境中当前箱子的分布可以视为当前环境的State。

Episode表示一个完整的训练阶段：一个Episode开始于一次训练，并返回一个成功或失败的训练结果作为结束。

Reward：表示人为指定的某一特定action的奖励值。

而在其中，改进的DDPG网络的训练包括以下步骤：

S1：将新的当前行李分布状态state输入至DDPG网络，DDPG网络输出选择采取所有可能的行为action的概率分布队列p[]，其中概率越高潜在奖励值reward越高。

其中，获取到的概率分布队列p[]，所述的概率分布队列p[]中的每个元素对应选择每个行为action的概率。P[]是根据python语言predict()函数产生的。

优选地，在本实施例中，步骤S1中DDPG网络对新的当前行李分布状态state进行处理，包括以下子步骤：

S103：初始化重播缓存器R；

S104：对共M-1个中的每一个完整训练阶段episode，依次执行S1041～S1043步骤。

其中，对于M值，最开始预设一个定值，随后根据最终的训练结果调整改值直到得出想要的结果。

S1041：初始化一个用于行为action探索的随机扰动

S1042：接收初始观察到的当前行李分布状态states₁；

S10430：在策略网络Actor里面，将当前行李分布状态state输入网络，根据p[i]＝α*p[i]+(1-α)*np.fulllike(p[i],1/p[i].shape[0])公式得到概率分布队列p[],这个p[]已经是随机扰动过的了，之后根据这个扰动后的p[]来选择action；

S10431：策略网络actor根据当前策略即概率分布队列p[](概率分布队列p[]对应的行李的移动方向)和扰动噪音

选择行为actiona_t：

其中，奖励值rewardr_t初始化为当前移动行李距离出口的曼哈顿距离减去上一个状态的曼哈顿距离。

y_i＝r_i+γQ'(s_i+1,μ'(s_i+1|θ^μ')|θ^Q')

S10437：使用采样策略梯度，更新策略网络actor的策略policy：

θ^Q'←τθ^Q+(1-τ)θ^Q'

θ^μ'←τθ^μ+(1-τ)θ^μ'

式中，τ表示比例系数，一般取值为0.001。

而更为优选地，在本实施例中，步骤S10432中，获得奖励值rewardr_t的计算方式包括以下子步骤：

奖励值为当前移动行李距离出口的曼哈顿距离减去上一个状态的曼哈顿距离。

S2：对得到的概率分布队列p[]添加一个随机扰动。

其中，优选地，在本实施例中，步骤S2中所述的对得到的概率分布队列p[]添加一个随机扰动，包括对概率分布队列p[]中每一个元素即概率值进行更新，具体包括以下子步骤：

S21：设置变量α的值，其中α为随机扰动比例系数，0<α<1；所述的α优选为0.5；

S22：对概率分布队列p[]中的元素进行更新：

p[i]＝α*p[i]+(1-α)*np.fulllike(p[i],1/p[i].shape[0])

由于训练过程中，每种状态都是不同的，神经网络需要针对每种状态给出当前的概率，作出针对性的移动。

S3：根据修改后的概率分布队列p[]选择一个行为action执行，并输入给环境environment。

S4：获取环境environment对该行为action作出的反馈信息，所述的反馈信息包括环境的下一个新的当前行李分布状态state、该行为action获取的奖励值reward以及判断是否结束，如果判断为没结束，则返回步骤S1，否则进入步骤S5。其中，判断是否结束的标准为特定行李的位置是否达到预定位置。

具体地，在实验过程中，我们假定了舱门的位置，用坐标表示，如{[1,0][1,1][2,0],[2,1]}，只需判断是否到达这个位置即可，到达即为结束。

S5：以一定的衰减速率向前平滑最终得到的奖励值reward。整个episode里面得到的所有奖励值。episode含义为从最初的环境到最终得到结果的这段训练的经历。

其中，更为优选地，在本实施例中，步骤S5中的以一定的衰减速率向前平滑最终得到的奖励值reward，包括以下子步骤：

S51：令动态奖励值＝最后奖励值；

S52：对每一个奖励值进行更新：如果奖励值为-1：设置动态奖励值为-0.5；否则，更新动态奖励值：动态奖励值＝最后奖励值*γ+原奖励值；γ为比例系数。

如果不平滑奖励值，很容易发生为了得到最高的奖励值而只将目标行李向出口挪动的情况，这样有可能导致无法绕过障碍物。

S6：计算本次完整训练阶段episode的平均奖励值；其中所述的完整训练阶段episode开始于一次训练并以返回一个成功或失败的训练结果作为结束。

S7：对每一个当前行李分布状态state，根据每个行为action的评估概率Y，降低低于平均奖励值的行为action的概率，提高高于平均奖励值的行为action的概率，得到目标概率值Y_true。

其中，每个行为action的评估概率Y的组合为该行为的概率分布队列p[]，目标概率值Y_true的定义为经过修改后的评估概率Y。

S8：将当前行李分布状态state作为输入，将计算得出的目标概率值Y_true作为目标函数，返回到步骤S1训练DDPG网络(指将S1-S4的参数输入到神经网络，通过前向传播、反向传播等更新网络的的权重，即为训练网络)。

具体地，一个神经网络实际上可以看作是在拟合一个输入和输出对(X,Y_true)。对于给定的输入X，网络产生一个输出Y，通过loss衡量Y与Y_true之间的差异，然后通过反向传播更新自己。Y_true是通过尝试来产生的，这就意味着Y_true不一定是确定的。步骤S7中的Y_true是动态变化的，它作为目标函数用来训练网络。

另外，在本实施例中，对于不同形状的有限空间需要分别进行不同DDPG网络的训练；并在进行特定行李拿取计算时，根据有限空间的形状选择对应形状的经过训练的DDPG网络进行计算。

实施例2

本实施例提供有限空间内自动拿取特定行李的***，该***的发明构思与实施例1相同，应用于机舱或者客舱等需要通过机器人将特定行李移出机舱，具体地，可以通过在机舱内部合理移动其他行李，在不把其他行李拿出机舱的情况下，抽取目标行李，且整个过程中没有人类干涉。

具体地，所述的***包括：

DDPG网络的训练模块，用于训练所述改进的DDPG网络，包括：

本发明实施例提供的有限空间内自动拿取特定行李的方法中相关部分的说明请参见本发明实施例1提供的有限空间内自动拿取特定行李的方法中对应部分的详细说明，在此不再赘述。另外，本发明实施例提供的上述技术方案中与现有技术中对应的技术方案实现原理一致的部分并未详细说明，以免过多赘述。

实施例3

基于实施例1的实现，本实施例还提供一种存储介质，其上存储有计算机指令，所述计算机指令运行时执行实施例1中所述的有限空间内自动拿取特定行李的方法的步骤。

基于这样的理解，本实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-OnlyMemory，ROM)、随机存取存储器(RandomAccessMemory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

实施例4

基于实施例1的实现，本实施例还提供一种终端，包括存储器和处理器，所述存储器上存储有可在所述处理器上运行的计算机指令，所述处理器运行所述计算机指令时执行实施例1所述的有限空间内自动拿取特定行李的方法的步骤。

在本发明提供的实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

实施例5

本实施例提供实施例1中的具体实验数据。由于机舱的实际环境无法在实验中搭建，本实施例根据行李箱的形状、大小不同，用不同大小、颜色的方块来模拟机舱的实验环境，并且通过实验证明了该算法可以在规定的空间内，通过有限次的移动其它箱子将目标箱子(黑色方块)勾取出来。

其中一种方式的初始场景行李分布如图2所示。左上角的黑色棋子表示目标箱子，其它颜色的棋子表示障碍物。场景目标是以尽可能少的步数将目标箱子移动到目标位置(图中虚线框标识的区域)。在经过约6000多步连续的学***均奖励值(mem reward)随episode的增长变化。

而图5中展示了另外三种不同难度的场景下的训练过程。

从实验结果可以看出，本申请的基于DDPG的强化学习网络框架具有计算得到该实际问题最佳解法的潜力。

在本发明所提供的所有实施例中，应该理解到，所揭露装置、***和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元/模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或模块可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

显然，上述实施例仅仅是为清楚地说明所作的举例，而并非对实施方式的限定，对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其他不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引申出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims

1.有限空间内自动拿取特定行李的方法，其特征在于：包括：将有限空间内的当前行李分布状态state输入至经过训练的改进的DDPG网络，得到特定行李拿取的步骤；

其中，改进的DDPG网络的训练包括以下步骤：

S2：对得到的概率分布队列p[]添加一个随机扰动；

S5：以一定的衰减速率向前平滑最终得到本次完整训练阶段episode里面的奖励值reward；其中所述的完整训练阶段episode开始于一次训练并以返回一个成功或失败的训练结果作为结束；步骤S5中的以一定的衰减速率向前平滑最终得到的奖励值reward，包括以下子步骤：

S51：令动态奖励值＝最后奖励值；

S52：对每一个奖励值进行更新：如果奖励值为-1：设置动态奖励值为-0.5；否则，更新动态奖励值：动态奖励值＝最后奖励值*γ+原奖励值；γ为比例系数；

S6：计算本次完整训练阶段episode的平均奖励值；

2.根据权利要求1所述的有限空间内自动拿取特定行李的方法，其特征在于：步骤S1中DDPG网络对新的当前行李分布状态state进行处理，包括以下子步骤：

S102：将Q网络critic的online神经网络Q(s,a|θ^Q)的参数θ^Q拷贝给Q网络critic的target 神经网络Q'(s,a|θ^Q')的参数θ^Q'，同时将策略网络actor的online神经网络μ(s|θ^μ)的参数θ^μ拷贝给策略网络actor的target神经网络μ'(s|θ^μ')的参数θ^μ'；

S103：初始化重播缓存器R；

S1041：初始化一个用于行为action探索的随机扰动