CN109063827B - 有限空间内自动拿取特定行李的方法、***、存储介质和终端 - Google Patents
有限空间内自动拿取特定行李的方法、***、存储介质和终端 Download PDFInfo
- Publication number
- CN109063827B CN109063827B CN201811250266.6A CN201811250266A CN109063827B CN 109063827 B CN109063827 B CN 109063827B CN 201811250266 A CN201811250266 A CN 201811250266A CN 109063827 B CN109063827 B CN 109063827B
- Authority
- CN
- China
- Prior art keywords
- network
- value
- action
- probability
- baggage
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了有限空间内自动拿取特定行李的方法、***、存储介质和终端,方法包括:将有限空间内的当前行李分布状态state输入至经过训练的改进的DDPG网络,得到特定行李拿取的步骤。本发明具有计算出机舱内部移动行李从而拿取目标行李的最佳解法的能力,该方法的关键在于能否在搜索过程中找到目标位置。通过实验证明,该方法能够满足设计的目的:在机舱内部移动障碍行李从而将目标行李拉到出口,而非将障碍行李全部拉出机舱。将该算法应用到机器人上,则可以控制机器人来完成这项工作,来代替现在的人力,会节省很大一部分的时间与花销。本发明提供的***、存储介质和装置也解决了相应的技术问题。
Description
技术领域
本发明涉及增强学习训练领域,尤其涉及有限空间内自动拿取特定行李的方法、***、存储介质和终端。
背景技术
目前,在机舱、客舱等储存不同大小的行李仓库中,经常需要拿取某个放在里面的特定的行李,通常的做法是将挡住这个行李的箱子全部拿出机舱,然后再将它们放回,这样做是及其耗费时间和精力的。因此,为了解决这个问题,通过在机舱内部合理移动其他行李,在不把其他行李拿出机舱的情况下,抽取目标行李。
本发明使用了一个增强学习训练的神经网络,使用这个方法解决了有限空间下、无次序摆放的行李拿取问题——通过在机舱内部合理移动箱子从而勾取目标箱子,而不是像传统方法一样将其它箱子全部拿出。并且整个在实现解决方案的过程中没有人类的干涉。
发明内容
本发明的目的在于克服现有技术的不足,提供有限空间内自动拿取特定行李的方法、***、存储介质和终端,解决机舱等有限空间内自动拿取特定行李的问题。
本发明的目的是通过以下技术方案来实现的:有限空间内自动拿取特定行李的方法,包括:将有限空间内的当前行李分布状态state输入至经过训练的改进的DDPG网络,得到特定行李拿取的步骤;
其中,改进的DDPG网络的训练包括以下步骤:
S1:将新的当前行李分布状态state输入至DDPG网络,DDPG网络输出选择采取所有可能的行为action的概率分布队列p[],其中概率越高潜在奖励值reward越高;
S2:对得到的概率分布队列p[]添加一个随机扰动;
S3:根据修改后的概率分布队列p[]选择一个行为action执行,并输入给环境environment;
S4:获取环境environment对该行为action作出的反馈信息,所述的反馈信息包括环境的下一个新的当前行李分布状态state、该行为action获取的奖励值reward以及判断是否结束,如果判断为没结束,则返回步骤S1,否则进入步骤S5;其中,判断是否结束的标准为特定行李的位置是否达到预定位置;
S5:以一定的衰减速率向前平滑最终得到本次完整训练阶段episode里面的奖励值reward;其中所述的完整训练阶段episode开始于一次训练并以返回一个成功或失败的训练结果作为结束;
S6:计算本次完整训练阶段episode的平均奖励值;
S7:对每一个当前行李分布状态state,根据每个行为action的评估概率Y,降低低于平均奖励值的行为action的概率,提高高于平均奖励值的行为action的概率,得到经过修改后的目标概率值Y_true;
S8:将当前行李分布状态state作为输入,将计算得出的目标概率值Y_true作为目标函数,返回到步骤S1训练DDPG网络。
进一步地,步骤S1中DDPG网络对新的当前行李分布状态state进行处理,包括以下子步骤:
S101:初始化Q网络critic的online神经网络Q(s,a|θQ)的参数θQ,同时初始化策略网络actor的online神经网络μ(s|θμ)的参数θμ,式中s表示当前行李分布状态state,a表示行为action;
S102:将Q网络critic的online神经网络Q(s,a|θQ)的参数θQ拷贝给Q网络critic的target神经网络Q'(s,a|θQ')的参数θQ',同时将策略网络actor的online神经网络μ(s|θμ)的参数θμ拷贝给策略网络actor的target神经网络μ'(s|θμ')的参数θμ';
S103:初始化重播缓存器R;
S104:对共M-1个中的每一个完整训练阶段episode,依次执行S1041~S1043步骤:
S1042:接收初始观察到的当前行李分布状态states1;
S1043:对共T-1个中的每一个行为actionat,从第1至T-1个依次执行S10431~S10438步骤,其中每一次执行均为第t次执行,执行完毕后实现t+1操作:
S10432:执行S10431中的行为actionat,获得奖励值rewardrt,并观察新的当前行李分布状态statest;
S10433:策略网络actor将这个状态转换过程(st,at,rt,st+1)存入重播缓存器R,作为训练策略网络actor的online神经网络和Q网络critic的online神经网络的数据集;
S10434:从重播缓存器R中的共N个状态转换过程,随机采样一个状态转换过程(si,ai,ri,si+1),作为策略网络actor的online神经网络、Q网络critic的online神经网络的一个训练数据;
S10435:使用策略网络actor的target神经网络μ'(s|θμ')和Q网络critic的target神经网络Q'(s,a|θQ'),计算标签yi的值:
yi=ri+γQ'(si+1,μ'(si+1|θμ')|θQ')
式中,γ表示discounted rate,是一个比例系数,范围在[0,1]之间;
S10436:通过loss值L对Q网络critic的梯度gradient进行更新,其中:
S10437:使用采样策略梯度,更新策略网络actor的策略policy:
S10438:更新Q网络critic的target神经网络Q'(s,a|θQ')的参数θQ',以及更新策略网络actor的target神经网络μ'(s|θμ')的参数θμ':
θQ'←τθQ+(1-τ)θQ'
θμ'←τθμ+(1-τ)θμ'
式中,τ表示比例系数。
进一步地,步骤S10432中,获得奖励值rewardrt的计算方式包括以下子步骤:
奖励值rewardrt初始化为当前移动行李距离出口的曼哈顿距离减去上一个状态的曼哈顿距离。
进一步地,步骤S2中所述的对得到的概率分布队列p[]添加一个随机扰动,包括对概率分布队列p[]中每一个元素即概率值进行更新,具体包括以下子步骤:
S21:设置变量α的值,其中α为随机扰动比例系数,0<α<1;
S22:对概率分布队列p[]中的元素进行更新:
p[i]=α*p[i]+(1-α)*np.fulllike(p[i],1/p[i].shape[0])
式中,其中np.fulllike是产生一个与p[i]格式相同的数据,值为原值的倒数;p[i].shape[0]表示矩阵第二维的长度。
进一步地,所述的α=0.5。
进一步地,步骤S5中的以一定的衰减速率向前平滑最终得到的奖励值reward,包括以下子步骤:
S51:令动态奖励值=最后奖励值;
S52:对每一个奖励值进行更新:如果奖励值为-1:设置动态奖励值为-0.5;否则,更新动态奖励值:动态奖励值=最后奖励值*γ+原奖励值;γ为为比例系数。
进一步地,对于不同形状的有限空间需要分别进行不同DDPG网络的训练;并在进行特定行李拿取计算时,根据有限空间的形状选择对应形状的经过训练的DDPG网络进行计算。
本发明还提供有限空间内自动拿取特定行李的***,包括:
拿取行李确定模块:用于将有限空间内的当前行李分布状态state输入至经过训练的改进的DDPG网络,得到特定行李拿取的步骤;
DDPG网络的训练模块,用于训练所述改进的DDPG网络,包括:
数据输入与概率分布队列单元:用于将新的当前行李分布状态state输入至DDPG网络,DDPG网络输出选择采取所有可能的行为action的概率分布队列p[],其中概率越高潜在奖励值reward越高;
随机扰动添加单元:用于对数据输入与概率分布队列单元得到的概率分布队列p[]添加一个随机扰动;
行为选择与执行单元:用于根据随机扰动添加单元修改后的概率分布队列p[]选择一个行为action执行,并输入给环境environment;
环境反馈单元:用于获取行为选择与执行单元输出的环境environment对该行为action作出的反馈信息,所述的反馈信息包括环境的下一个新的当前行李分布状态state、该行为action获取的奖励值reward以及判断是否结束,如果判断为没结束,则返回数据输入与概率分布队列单元,否则进入奖励值平滑单元;其中,判断是否结束的标准为特定行李的位置是否达到预定位置;
奖励值平滑单元:用于以一定的衰减速率向前平滑最终得到本次完整训练阶段episode里面的奖励值reward;其中所述的完整训练阶段episode开始于一次训练并以返回一个成功或失败的训练结果作为结束;
平均奖励值计算单元:用于计算本次完整训练阶段episode的平均奖励值;
目标概率值获取单元:用于对每一个当前行李分布状态state,根据每个行为action的评估概率Y,降低低于平均奖励值的行为action的概率,提高高于平均奖励值的行为action的概率,得到目标概率值Y_true;
数据训练单元:用于将当前行李分布状态state作为输入,将计算得出的目标概率值Y_true作为目标函数,训练DDPG网络。
本发明还提供一种存储介质,其上存储有计算机指令,所述计算机指令运行时执行所述的有限空间内自动拿取特定行李的方法的步骤。
本发明还提供一种终端,包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的计算机指令,所述处理器运行所述计算机指令时执行所述的有限空间内自动拿取特定行李的方法的步骤。
本发明的有益效果是:
(1)本发明的方法具有计算出机舱内部移动行李从而拿取目标行李的最佳解法的能力,该方法的关键在于能否在搜索过程中找到目标位置。通过实验证明,该方法能够满足设计的目的:在机舱内部移动障碍行李从而将目标行李拉到出口,而非将障碍行李全部拉出机舱。将该算法应用到机器人上,则可以控制机器人来完成这项工作,来代替现在的人力,会节省很大一部分的时间与花销。本发明提供的***、存储介质和装置也解决了相应的技术问题。
(2)本发明是基于DDPG的,但在DDPG的基础上有所改动,具体表现为:在选择行为Action的概率数组基础上增加了随机扰动;在场景结束时采用了奖励值平滑的方法,将奖励值按照一定的衰减比例向前平滑。这些改动使得最终的网络能力更加稳定,效果更好。
附图说明
图1为本发明方法流程图;
图2为实施例5中其中一种方式的初始场景行李分布示意图;
图3为实施例5中其中一种场景的解决方案示意图;
图4为实施例5中其中一种场景的平均奖励值随episode的增长变化示意图;
图5为实施例5中另外三种不同难度的场景下的训练过程示意图。
具体实施方式
下面结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,需要说明的是,属于“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方向或位置关系为基于附图所述的方向或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,属于“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性。
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,属于“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
此外,下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。
实施例1
实施例1提供了一种有限空间内自动拿取特定行李的方法,应用于机舱或者客舱等需要通过机器人将特定行李移出机舱,具体地,可以通过在机舱内部合理移动其他行李,在不把其他行李拿出机舱的情况下,抽取目标行李,且整个过程中没有人类干涉。若将该方法应用到机器人上,则可以控制机器人来完成这项工作,来代替现在的人力,则会节省很大一部分的时间与花销。
如图1所示,有限空间内自动拿取特定行李的方法,包括:将有限空间内的当前行李分布状态state输入至经过训练的改进的DDPG网络,得到特定行李拿取的步骤。
首先,对下述部分名词进行解释:
行为Action:表示通过学习算法和决策策略产生的行为,如:在模拟环境中中向左移动某一个方块。
环境Environment:一个潜在的环境,通过给定一个特定的行为Action,可以产生相应反馈,并返回当前环境的状态state。场景规则(包括初始化条件)可以被视为Environment。当前行李分布状态State:如机舱环境中当前箱子的分布可以视为当前环境的State。
Episode表示一个完整的训练阶段:一个Episode开始于一次训练,并返回一个成功或失败的训练结果作为结束。
Reward:表示人为指定的某一特定action的奖励值。
而在其中,改进的DDPG网络的训练包括以下步骤:
S1:将新的当前行李分布状态state输入至DDPG网络,DDPG网络输出选择采取所有可能的行为action的概率分布队列p[],其中概率越高潜在奖励值reward越高。
其中,获取到的概率分布队列p[],所述的概率分布队列p[]中的每个元素对应选择每个行为action的概率。P[]是根据python语言predict()函数产生的。
优选地,在本实施例中,步骤S1中DDPG网络对新的当前行李分布状态state进行处理,包括以下子步骤:
S101:初始化Q网络critic的online神经网络Q(s,a|θQ)的参数θQ,同时初始化策略网络actor的online神经网络μ(s|θμ)的参数θμ,式中s表示当前行李分布状态state,a表示行为action;
S102:将Q网络critic的online神经网络Q(s,a|θQ)的参数θQ拷贝给Q网络critic的target神经网络Q'(s,a|θQ')的参数θQ',同时将策略网络actor的online神经网络μ(s|θμ)的参数θμ拷贝给策略网络actor的target神经网络μ'(s|θμ')的参数θμ';
S103:初始化重播缓存器R;
S104:对共M-1个中的每一个完整训练阶段episode,依次执行S1041~S1043步骤。
其中,对于M值,最开始预设一个定值,随后根据最终的训练结果调整改值直到得出想要的结果。
S1042:接收初始观察到的当前行李分布状态states1;
S1043:对共T-1个中的每一个行为actionat,从第1至T-1个依次执行S10431~S10438步骤,其中每一次执行均为第t次执行,执行完毕后实现t+1操作:
S10430:在策略网络Actor里面,将当前行李分布状态state输入网络,根据p[i]=α*p[i]+(1-α)*np.fulllike(p[i],1/p[i].shape[0])公式得到概率分布队列p[],这个p[]已经是随机扰动过的了,之后根据这个扰动后的p[]来选择action;
S10432:执行S10431中的行为actionat,获得奖励值rewardrt,并观察新的当前行李分布状态statest;
其中,奖励值rewardrt初始化为当前移动行李距离出口的曼哈顿距离减去上一个状态的曼哈顿距离。
S10433:策略网络actor将这个状态转换过程(st,at,rt,st+1)存入重播缓存器R,作为训练策略网络actor的online神经网络和Q网络critic的online神经网络的数据集;
S10434:从重播缓存器R中的共N个状态转换过程,随机采样一个状态转换过程(si,ai,ri,si+1),作为策略网络actor的online神经网络、Q网络critic的online神经网络的一个训练数据;
S10435:使用策略网络actor的target神经网络μ'(s|θμ')和Q网络critic的target神经网络Q'(s,a|θQ'),计算标签yi的值:
yi=ri+γQ'(si+1,μ'(si+1|θμ')|θQ')
式中,γ表示discounted rate,是一个比例系数,范围在[0,1]之间;
S10436:通过loss值L对Q网络critic的梯度gradient进行更新,其中:
S10437:使用采样策略梯度,更新策略网络actor的策略policy:
S10438:更新Q网络critic的target神经网络Q'(s,a|θQ')的参数θQ',以及更新策略网络actor的target神经网络μ'(s|θμ')的参数θμ':
θQ'←τθQ+(1-τ)θQ'
θμ'←τθμ+(1-τ)θμ'
式中,τ表示比例系数,一般取值为0.001。
而更为优选地,在本实施例中,步骤S10432中,获得奖励值rewardrt的计算方式包括以下子步骤:
奖励值为当前移动行李距离出口的曼哈顿距离减去上一个状态的曼哈顿距离。
S2:对得到的概率分布队列p[]添加一个随机扰动。
其中,优选地,在本实施例中,步骤S2中所述的对得到的概率分布队列p[]添加一个随机扰动,包括对概率分布队列p[]中每一个元素即概率值进行更新,具体包括以下子步骤:
S21:设置变量α的值,其中α为随机扰动比例系数,0<α<1;所述的α优选为0.5;
S22:对概率分布队列p[]中的元素进行更新:
p[i]=α*p[i]+(1-α)*np.fulllike(p[i],1/p[i].shape[0])
式中,其中np.fulllike是产生一个与p[i]格式相同的数据,值为原值的倒数;p[i].shape[0]表示矩阵第二维的长度。
由于训练过程中,每种状态都是不同的,神经网络需要针对每种状态给出当前的概率,作出针对性的移动。
S3:根据修改后的概率分布队列p[]选择一个行为action执行,并输入给环境environment。
S4:获取环境environment对该行为action作出的反馈信息,所述的反馈信息包括环境的下一个新的当前行李分布状态state、该行为action获取的奖励值reward以及判断是否结束,如果判断为没结束,则返回步骤S1,否则进入步骤S5。其中,判断是否结束的标准为特定行李的位置是否达到预定位置。
具体地,在实验过程中,我们假定了舱门的位置,用坐标表示,如{[1,0][1,1][2,0],[2,1]},只需判断是否到达这个位置即可,到达即为结束。
S5:以一定的衰减速率向前平滑最终得到的奖励值reward。整个episode里面得到的所有奖励值。episode含义为从最初的环境到最终得到结果的这段训练的经历。
其中,更为优选地,在本实施例中,步骤S5中的以一定的衰减速率向前平滑最终得到的奖励值reward,包括以下子步骤:
S51:令动态奖励值=最后奖励值;
S52:对每一个奖励值进行更新:如果奖励值为-1:设置动态奖励值为-0.5;否则,更新动态奖励值:动态奖励值=最后奖励值*γ+原奖励值;γ为比例系数。
如果不平滑奖励值,很容易发生为了得到最高的奖励值而只将目标行李向出口挪动的情况,这样有可能导致无法绕过障碍物。
S6:计算本次完整训练阶段episode的平均奖励值;其中所述的完整训练阶段episode开始于一次训练并以返回一个成功或失败的训练结果作为结束。
S7:对每一个当前行李分布状态state,根据每个行为action的评估概率Y,降低低于平均奖励值的行为action的概率,提高高于平均奖励值的行为action的概率,得到目标概率值Y_true。
其中,每个行为action的评估概率Y的组合为该行为的概率分布队列p[],目标概率值Y_true的定义为经过修改后的评估概率Y。
S8:将当前行李分布状态state作为输入,将计算得出的目标概率值Y_true作为目标函数,返回到步骤S1训练DDPG网络(指将S1-S4的参数输入到神经网络,通过前向传播、反向传播等更新网络的的权重,即为训练网络)。
具体地,一个神经网络实际上可以看作是在拟合一个输入和输出对(X,Y_true)。对于给定的输入X,网络产生一个输出Y,通过loss衡量Y与Y_true之间的差异,然后通过反向传播更新自己。Y_true是通过尝试来产生的,这就意味着Y_true不一定是确定的。步骤S7中的Y_true是动态变化的,它作为目标函数用来训练网络。
另外,在本实施例中,对于不同形状的有限空间需要分别进行不同DDPG网络的训练;并在进行特定行李拿取计算时,根据有限空间的形状选择对应形状的经过训练的DDPG网络进行计算。
实施例2
本实施例提供有限空间内自动拿取特定行李的***,该***的发明构思与实施例1相同,应用于机舱或者客舱等需要通过机器人将特定行李移出机舱,具体地,可以通过在机舱内部合理移动其他行李,在不把其他行李拿出机舱的情况下,抽取目标行李,且整个过程中没有人类干涉。
具体地,所述的***包括:
拿取行李确定模块:用于将有限空间内的当前行李分布状态state输入至经过训练的改进的DDPG网络,得到特定行李拿取的步骤;
DDPG网络的训练模块,用于训练所述改进的DDPG网络,包括:
数据输入与概率分布队列单元:用于将新的当前行李分布状态state输入至DDPG网络,DDPG网络输出选择采取所有可能的行为action的概率分布队列p[],其中概率越高潜在奖励值reward越高;
随机扰动添加单元:用于对数据输入与概率分布队列单元得到的概率分布队列p[]添加一个随机扰动;
行为选择与执行单元:用于根据随机扰动添加单元修改后的概率分布队列p[]选择一个行为action执行,并输入给环境environment;
环境反馈单元:用于获取行为选择与执行单元输出的环境environment对该行为action作出的反馈信息,所述的反馈信息包括环境的下一个新的当前行李分布状态state、该行为action获取的奖励值reward以及判断是否结束,如果判断为没结束,则返回数据输入与概率分布队列单元,否则进入奖励值平滑单元;其中,判断是否结束的标准为特定行李的位置是否达到预定位置;
奖励值平滑单元:用于以一定的衰减速率向前平滑最终得到本次完整训练阶段episode里面的奖励值reward;其中所述的完整训练阶段episode开始于一次训练并以返回一个成功或失败的训练结果作为结束;
平均奖励值计算单元:用于计算本次完整训练阶段episode的平均奖励值;
目标概率值获取单元:用于对每一个当前行李分布状态state,根据每个行为action的评估概率Y,降低低于平均奖励值的行为action的概率,提高高于平均奖励值的行为action的概率,得到目标概率值Y_true;
数据训练单元:用于将当前行李分布状态state作为输入,将计算得出的目标概率值Y_true作为目标函数,训练DDPG网络。
本发明实施例提供的有限空间内自动拿取特定行李的方法中相关部分的说明请参见本发明实施例1提供的有限空间内自动拿取特定行李的方法中对应部分的详细说明,在此不再赘述。另外,本发明实施例提供的上述技术方案中与现有技术中对应的技术方案实现原理一致的部分并未详细说明,以免过多赘述。
实施例3
基于实施例1的实现,本实施例还提供一种存储介质,其上存储有计算机指令,所述计算机指令运行时执行实施例1中所述的有限空间内自动拿取特定行李的方法的步骤。
基于这样的理解,本实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(RandomAccessMemory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
实施例4
基于实施例1的实现,本实施例还提供一种终端,包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的计算机指令,所述处理器运行所述计算机指令时执行实施例1所述的有限空间内自动拿取特定行李的方法的步骤。
在本发明提供的实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
实施例5
本实施例提供实施例1中的具体实验数据。由于机舱的实际环境无法在实验中搭建,本实施例根据行李箱的形状、大小不同,用不同大小、颜色的方块来模拟机舱的实验环境,并且通过实验证明了该算法可以在规定的空间内,通过有限次的移动其它箱子将目标箱子(黑色方块)勾取出来。
其中一种方式的初始场景行李分布如图2所示。左上角的黑色棋子表示目标箱子,其它颜色的棋子表示障碍物。场景目标是以尽可能少的步数将目标箱子移动到目标位置(图中虚线框标识的区域)。在经过约6000多步连续的学***均奖励值(mem reward)随episode的增长变化。
而图5中展示了另外三种不同难度的场景下的训练过程。
从实验结果可以看出,本申请的基于DDPG的强化学习网络框架具有计算得到该实际问题最佳解法的潜力。
在本发明所提供的所有实施例中,应该理解到,所揭露装置、***和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元/模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或模块可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
显然,上述实施例仅仅是为清楚地说明所作的举例,而并非对实施方式的限定,对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其他不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引申出的显而易见的变化或变动仍处于本发明创造的保护范围之中。
Claims (9)
1.有限空间内自动拿取特定行李的方法,其特征在于:包括:将有限空间内的当前行李分布状态state输入至经过训练的改进的DDPG网络,得到特定行李拿取的步骤;
其中,改进的DDPG网络的训练包括以下步骤:
S1:将新的当前行李分布状态state输入至DDPG网络,DDPG网络输出选择采取所有可能的行为action的概率分布队列p[],其中概率越高潜在奖励值reward越高;
S2:对得到的概率分布队列p[]添加一个随机扰动;
S3:根据修改后的概率分布队列p[]选择一个行为action执行,并输入给环境environment;
S4:获取环境environment对该行为action作出的反馈信息,所述的反馈信息包括环境的下一个新的当前行李分布状态state、该行为action获取的奖励值reward以及判断是否结束,如果判断为没结束,则返回步骤S1,否则进入步骤S5;其中,判断是否结束的标准为特定行李的位置是否达到预定位置;
S5:以一定的衰减速率向前平滑最终得到本次完整训练阶段episode里面的奖励值reward;其中所述的完整训练阶段episode开始于一次训练并以返回一个成功或失败的训练结果作为结束;步骤S5中的以一定的衰减速率向前平滑最终得到的奖励值reward,包括以下子步骤:
S51:令动态奖励值=最后奖励值;
S52:对每一个奖励值进行更新:如果奖励值为-1:设置动态奖励值为-0.5;否则,更新动态奖励值:动态奖励值=最后奖励值*γ+原奖励值;γ为比例系数;
S6:计算本次完整训练阶段episode的平均奖励值;
S7:对每一个当前行李分布状态state,根据每个行为action的评估概率Y,降低低于平均奖励值的行为action的概率,提高高于平均奖励值的行为action的概率,得到经过修改后的目标概率值Y_true;
S8:将当前行李分布状态state作为输入,将计算得出的目标概率值Y_true作为目标函数,返回到步骤S1训练DDPG网络。
2.根据权利要求1所述的有限空间内自动拿取特定行李的方法,其特征在于:步骤S1中DDPG网络对新的当前行李分布状态state进行处理,包括以下子步骤:
S101:初始化Q网络critic的online神经网络Q(s,a|θQ)的参数θQ,同时初始化策略网络actor的online神经网络μ(s|θμ)的参数θμ,式中s表示当前行李分布状态state,a表示行为action;
S102:将Q网络critic的online神经网络Q(s,a|θQ)的参数θQ拷贝给Q网络critic的target 神经网络Q'(s,a|θQ')的参数θQ',同时将策略网络actor的online神经网络μ(s|θμ)的参数θμ拷贝给策略网络actor的target神经网络μ'(s|θμ')的参数θμ';
S103:初始化重播缓存器R;
S104:对共M-1个中的每一个完整训练阶段episode,依次执行S1041~S1043步骤:
S1042:接收初始观察到的当前行李分布状态state s1;
S1043:对共T-1个中的每一个行为action at,从第1至T-1个依次执行S10431~S10438步骤,其中每一次执行均为第t次执行,执行完毕后实现t+1操作:
S10432:执行S10431中的行为action at,获得奖励值reward rt,并观察新的当前行李分布状态state st;
S10433:策略网络actor将这个状态转换过程(st,at,rt,st+1)存入重播缓存器R,作为训练策略网络actor的online神经网络和Q网络critic的online神经网络的数据集;
S10434:从重播缓存器R中的共N个状态转换过程,随机采样一个状态转换过程(si,ai,ri,si+1),作为策略网络actor的online神经网络、Q网络critic的online神经网络的一个训练数据;
S10435:使用策略网络actor的target神经网络μ'(s|θμ')和Q网络critic的target神经网络Q'(s,a|θQ'),计算标签yi的值:
yi=ri+γQ'(si+1,μ'(si+1|θμ')|θQ')
式中,γ表示discounted rate,是一个比例系数,范围在[0,1]之间;
S10436:通过loss值L对Q网络critic的梯度gradient进行更新,其中:
S10437:使用采样策略梯度,更新策略网络actor的策略policy:
S10438:更新Q网络critic的target神经网络Q'(s,a|θQ')的参数θQ',以及更新策略网络actor的target神经网络μ'(s|θμ')的参数θμ':
θQ'←τθQ+(1-τ)θQ'
θμ'←τθμ+(1-τ)θμ'
式中,τ表示比例系数。
3.根据权利要求2所述的有限空间内自动拿取特定行李的方法,其特征在于:步骤S10432中,获得奖励值reward rt的计算方式包括以下子步骤:
奖励值reward rt初始化为当前移动行李距离出口的曼哈顿距离减去上一个状态的曼哈顿距离。
4.根据权利要求1所述的有限空间内自动拿取特定行李的方法,其特征在于:步骤S2中所述的对得到的概率分布队列p[]添加一个随机扰动,包括对概率分布队列p[]中每一个元素即概率值进行更新,具体包括以下子步骤:
S21:设置变量α的值,其中α为随机扰动比例系数,0<α<1;
S22:对概率分布队列p[]中的元素进行更新:
p[i]=α*p[i]+(1-α)*np.fulllike(p[i],1/p[i].shape[0])
式中,其中np.fulllike是产生一个与p[i]格式相同的数据,值为原值的倒数;p[i].shape[0]表示矩阵第二维的长度。
5.根据权利要求4所述的有限空间内自动拿取特定行李的方法,其特征在于:所述的α=0.5。
6.根据权利要求1所述的有限空间内自动拿取特定行李的方法,其特征在于:对于不同形状的有限空间需要分别进行不同DDPG网络的训练;并在进行特定行李拿取计算时,根据有限空间的形状选择对应形状的经过训练的DDPG网络进行计算。
7.有限空间内自动拿取特定行李的***,其特征在于:包括:
拿取行李确定模块:用于将有限空间内的当前行李分布状态state输入至经过训练的改进的DDPG网络,得到特定行李拿取的步骤;
DDPG网络的训练模块,用于训练所述改进的DDPG网络,包括:
数据输入与概率分布队列单元:用于将新的当前行李分布状态state输入至DDPG网络,DDPG网络输出选择采取所有可能的行为action的概率分布队列p[],其中概率越高潜在奖励值reward越高;
随机扰动添加单元:用于对数据输入与概率分布队列单元得到的概率分布队列p[]添加一个随机扰动;
行为选择与执行单元:用于根据随机扰动添加单元修改后的概率分布队列p[]选择一个行为action执行,并输入给环境environment;
环境反馈单元:用于获取行为选择与执行单元输出的环境environment对该行为action作出的反馈信息,所述的反馈信息包括环境的下一个新的当前行李分布状态state、该行为action获取的奖励值reward以及判断是否结束,如果判断为没结束,则返回数据输入与概率分布队列单元,否则进入奖励值平滑单元;其中,判断是否结束的标准为特定行李的位置是否达到预定位置;
奖励值平滑单元:用于以一定的衰减速率向前平滑最终得到本次完整训练阶段episode里面的奖励值reward;其中所述的完整训练阶段episode开始于一次训练并以返回一个成功或失败的训练结果作为结束;
平均奖励值计算单元:用于计算本次完整训练阶段episode的平均奖励值;
目标概率值获取单元:用于对每一个当前行李分布状态state,根据每个行为action的评估概率Y,降低低于平均奖励值的行为action的概率,提高高于平均奖励值的行为action的概率,得到目标概率值Y_true;
数据训练单元:用于将当前行李分布状态state作为输入,将计算得出的目标概率值Y_true作为目标函数,训练DDPG网络。
8.一种存储介质,其上存储有计算机指令,其特征在于:所述计算机指令运行时执行权利要求1至6中任一项所述的有限空间内自动拿取特定行李的方法的步骤。
9.一种终端,包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的计算机指令,其特征在于,所述处理器运行所述计算机指令时执行权利要求1至6中任一项所述的有限空间内自动拿取特定行李的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811250266.6A CN109063827B (zh) | 2018-10-25 | 2018-10-25 | 有限空间内自动拿取特定行李的方法、***、存储介质和终端 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811250266.6A CN109063827B (zh) | 2018-10-25 | 2018-10-25 | 有限空间内自动拿取特定行李的方法、***、存储介质和终端 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109063827A CN109063827A (zh) | 2018-12-21 |
CN109063827B true CN109063827B (zh) | 2022-03-04 |
Family
ID=64764468
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811250266.6A Active CN109063827B (zh) | 2018-10-25 | 2018-10-25 | 有限空间内自动拿取特定行李的方法、***、存储介质和终端 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109063827B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110336700B (zh) * | 2019-07-10 | 2021-09-14 | 重庆大学 | 一种基于时间及用户的转发序列的微博流行度预测方法 |
CN110399006A (zh) * | 2019-08-28 | 2019-11-01 | 江苏提米智能科技有限公司 | 基于大数据的双面光伏组件最大发电量角度控制方法 |
CN112987713A (zh) * | 2019-12-17 | 2021-06-18 | 杭州海康威视数字技术股份有限公司 | 自动驾驶设备的控制方法、装置及存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106094516A (zh) * | 2016-06-08 | 2016-11-09 | 南京大学 | 一种基于深度强化学习的机器人自适应抓取方法 |
KR20170011503A (ko) * | 2015-07-23 | 2017-02-02 | 성균관대학교산학협력단 | 파프리카 수확 시스템 |
CN106887006A (zh) * | 2015-12-15 | 2017-06-23 | 株式会社理光 | 堆叠物体的识别方法、设备和机器分拣*** |
CN106926247A (zh) * | 2017-01-16 | 2017-07-07 | 深圳前海勇艺达机器人有限公司 | 具有自动家中寻物的机器人 |
CN107866387A (zh) * | 2017-10-19 | 2018-04-03 | 国网天津市电力公司电力科学研究院 | 一种用于采集终端窄带电力载波模块的自动化检测方法 |
CN108038545A (zh) * | 2017-12-06 | 2018-05-15 | 湖北工业大学 | 基于Actor-Critic神经网络连续控制的快速学习算法 |
CN108171748A (zh) * | 2018-01-23 | 2018-06-15 | 哈工大机器人(合肥)国际创新研究院 | 一种面向机器人智能抓取应用的视觉识别与定位方法 |
-
2018
- 2018-10-25 CN CN201811250266.6A patent/CN109063827B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20170011503A (ko) * | 2015-07-23 | 2017-02-02 | 성균관대학교산학협력단 | 파프리카 수확 시스템 |
CN106887006A (zh) * | 2015-12-15 | 2017-06-23 | 株式会社理光 | 堆叠物体的识别方法、设备和机器分拣*** |
CN106094516A (zh) * | 2016-06-08 | 2016-11-09 | 南京大学 | 一种基于深度强化学习的机器人自适应抓取方法 |
CN106926247A (zh) * | 2017-01-16 | 2017-07-07 | 深圳前海勇艺达机器人有限公司 | 具有自动家中寻物的机器人 |
CN107866387A (zh) * | 2017-10-19 | 2018-04-03 | 国网天津市电力公司电力科学研究院 | 一种用于采集终端窄带电力载波模块的自动化检测方法 |
CN108038545A (zh) * | 2017-12-06 | 2018-05-15 | 湖北工业大学 | 基于Actor-Critic神经网络连续控制的快速学习算法 |
CN108171748A (zh) * | 2018-01-23 | 2018-06-15 | 哈工大机器人(合肥)国际创新研究院 | 一种面向机器人智能抓取应用的视觉识别与定位方法 |
Non-Patent Citations (4)
Title |
---|
Deep reinforcement learning based game decision algorithm for digital media education;LI ZUN等;《2019 16th International Computer Conference on Wavelet Active Media Technology and Information Processing》;20191215;第139-142页 * |
Leveraging demonstrations for deep reinforcement learning on robotics problems with sparse rewards;Vecerik M等;《arXiv:1707.08817v2 [cs.AI]》;20181008;第1-10页 * |
Simple random search provides a competitive approach to reinforcement learning;Horia Mania等;《arXiv:1803.07055v1 [cs.LG]》;20180319;第1-22页 * |
基于多源信息融合的协作机器人演示编程及优化方法;王斐等;《机器人》;20180731;第40卷(第4期);第551-559页 * |
Also Published As
Publication number | Publication date |
---|---|
CN109063827A (zh) | 2018-12-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Jaafra et al. | Reinforcement learning for neural architecture search: A review | |
CN109063827B (zh) | 有限空间内自动拿取特定行李的方法、***、存储介质和终端 | |
CN111079561B (zh) | 一种基于虚拟训练的机器人智能抓取方法 | |
CN107403426B (zh) | 一种目标物体检测方法及设备 | |
CN117893680A (zh) | 房间布局估计方法和技术 | |
CN112465151A (zh) | 一种基于深度强化学习的多智能体联邦协作方法 | |
KR102310490B1 (ko) | 재귀적 신경망에서 시계열 데이터의 데이터 누락 및 노이즈에 강건한 gru 기반의 셀 구조 설계 | |
JP2017525015A (ja) | 動的シーン分析方法、関連する分析モジュール、およびコンピュータプログラム | |
CN111401557B (zh) | 智能体决策制定方法、ai模型训练方法、服务器及介质 | |
CN111832592A (zh) | Rgbd显著性检测方法以及相关装置 | |
CN111797992A (zh) | 一种机器学习优化方法以及装置 | |
CN111931901A (zh) | 一种神经网络构建方法以及装置 | |
CN112906888B (zh) | 一种任务执行方法及装置、电子设备和存储介质 | |
CN113947022B (zh) | 一种基于模型的近端策略优化方法 | |
CN113894780A (zh) | 多机器人协作对抗方法、装置、电子设备和存储介质 | |
CN115081119A (zh) | 一种列车装载的优化方法、装置、设备及可读存储介质 | |
US20230342626A1 (en) | Model processing method and related apparatus | |
CN113407820A (zh) | 模型训练方法及相关***、存储介质 | |
CN116977661A (zh) | 一种数据处理方法、装置、设备、存储介质及程序产品 | |
CN116630347A (zh) | 视网膜眼底图像的血管分割方法和装置 | |
GB2589478A (en) | Segmenting irregular shapes in images using deep region growing | |
CN112100787A (zh) | 车辆动作预测方法、装置、电子设备及存储介质 | |
JP7438544B2 (ja) | ニューラルネットワーク処理装置、コンピュータプログラム、ニューラルネットワーク製造方法、ニューラルネットワークデータの製造方法、ニューラルネットワーク利用装置、及びニューラルネットワーク小規模化方法 | |
CN117522234B (zh) | 基于数字孪生的车队物流指挥决策建模方法、装置及设备 | |
CN116776751B (zh) | 一种智能决策算法模型设计开发辅助*** |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |