CN117787828A

CN117787828A - 一种集装箱码头堆场智能场控决策问题模型及其应用

Info

Publication number: CN117787828A
Application number: CN202311745100.2A
Authority: CN
Inventors: 赵宁; 杨振; 宣镚; 沈一帆; 王美玲; 王菲
Original assignee: Suzhou Juzhi Technology Co ltd
Current assignee: Suzhou Juzhi Technology Co ltd
Priority date: 2023-12-19
Filing date: 2023-12-19
Publication date: 2024-03-29

Abstract

本发明属于码头智能物流领域，具体公开了一种集装箱码头堆场智能场控决策问题模型及其应用，具体的，提出时间周期为核心的场控调度模式，该模式将根据实际情况基于马尔科夫链设计时间单位周期模型，保证场桥移动位置不交叉不重叠的情况下，按照一个单位周期开始时所接受的指令数，根据均分原则还有就近原则给作业范围内所有场桥分配指令，保证没有闲置场桥和堆场至少有一台场桥作业并以此建立了深度强化学习算法的智能调度算法模型，能够有效优化集装箱码头堆场指令分配，缩短集卡等待时间，降低场桥移机率，减少场桥移动距离，避免闲置场桥和空闲堆场情况。

Description

一种集装箱码头堆场智能场控决策问题模型及其应用

技术领域

本发明属于码头智能物流领域，具体公开了一种集装箱码头堆场智能场控决策问题模型及其应用。

背景技术

在集装箱码头自动化进程中，作为在集装箱港口组成中十分重要的堆场应该是首要改革对象。通过对场桥，集卡等设备的更新换代、增加作业设备的数量、更换自动化场桥、更换自动化小车这种硬件上的升级改造确实可以一定程度上提高港口堆场作业效率以及作业能力。但这种改造可能并不适用于中小型码头，执行此类的方案不仅需要进一步加大资金的通入还对场地和空间有一定的要求，同时因为中小型码头本身业务量和业务种类，最终实施性和提升都不高。

同时，堆场在码头作业中，承担着货物中转，空箱堆存，发箱收箱等工作，推动码头自动化转型的首要目标便是堆场作业的智能化转型。堆场与各环节联系密切，堆场作业效率提升将带动码头整体效率提升。很多中小型码头人工作业占比较大，经常出现指令顺序人为改变，集卡司机超车越车提箱，场桥利用率低，待作业堆场又无场桥可用的多种影响作业效率的问题。随着未来业务量增加，按照传统人工调度为主的场控调度方案，效率将十分低下，导致不能按时完成规定时间内的业务，给码头带来大量损失和不必要的成本开销。

发明内容

针对以上问题，本发明公开了一种集装箱码头堆场智能场控决策问题模型及其应用，能够缩短集卡等待时间，降低场桥移机率，减少场桥移动距离，避免闲置场桥和空闲堆场情况。

本发明的技术方案如下：

.一种集装箱码头堆场智能场控决策问题模型，所述模型如下所示

其中各参数定义如下：

模型维度

S：表示堆场所有作业指令的集合，i，j∈S；

K：表示堆场内所有场桥设备的集合，k∈K；

B：表示堆场内所有位置的集合，b∈B；

已知参数

t₁：表示任意一台场桥执行一个指令所需要的时间；

d：表示场桥设备工作时的安全距离；

V：表示堆场场桥的移机速度；

P_ib：表示第i个指令位于位置；

ω₁，ω₂：表示两个子目标的权重；

t_L：表示任意一个指令最晚完成时间；

辅助变量

T：子目标函数一，表示堆场内执行指令用时最长场桥的用时；L：子目标函数二，表示堆场内所有场桥的移机总距离；

决策变量

x_ki：0-1变量，用于决策某个指令是否由某台场桥所完成，当第i个指令由第k台场完成收时值为1，否则为0；

y_ij：0-1变量，表示第i个指令是否优先于第j个指令执行，优于则为1，落后则为0；

Z_kb：0-1变量，描述场桥k是否处于位置b，1表示该场桥处于位置b，0表示该场桥没有处于位置b；

约束条件：在已知场桥位置和场桥安全距离情况下，对于任意两座场桥k，k'，同时已知两者分别对应指令i和i',则其安全距离限制公式为：

b·x_ki+b′·x_k′i′≥d

每次移机所花费时间的计算公式如下所示：

(P_ib-P_jb′)·B_ij/V

P_ib和P_jb表示场桥前后两个相邻指令之间的位置乘上具体的位置B_ij集合；

场区作业最大等待时间限制函数：

指令作业顺序限制函数：

x_ki·y_ij+x_kj·y_ji≤1

所述模型中，权重ω₁最大为0.7，权重ω₂为0.3。

进一步的，上述一种集装箱码头堆场智能场控决策问题模型，

所述场桥k只对应i指令，保证场桥每次只能执行一个指令以及一个指令只能被一台场桥执行；

所述场桥k处于位置b，保证场桥每次执行指令只能处在一个指定位置。

进一步的，上述一种集装箱码头堆场智能场控决策问题模型，所述模型具有以下限制条件：

(1)在进行智能场控决策之前，堆场指令前置条件已完成，即具体的指令发送至堆场指令接收设备为初始状态，其放箱和提箱的位置都已是最优，且是已知且锁定的，不存在临时动态改动指令箱位置，同时场桥作业设备的位置已知，场桥移机速度固定，完成指令取一个固定值，不考虑翻箱等因素造成的时间差；

(2)场桥作业设备为单40英尺标准轮胎吊，即在单次作业中，仅能作业一个40英尺或一个45英尺集装箱或两个20英尺集装箱，同时所有场桥都可调用；

(3)不区分放箱或是取箱，都视为相同指令；

(4)不考虑水平运输设备插队，或是水平运输设备调度问题，仅考虑作业时间和单个场区内集卡数量；

(5)在场区作业流程中，各个环节均能正常完成作业，不考虑机械故障的特殊状况。

另一方面，本发明公开了一种堆场智能场控的深度强化学习DQN算法，其特征在于，使用上述的问题模型进行训练。

进一步的，上述一种堆场智能场控的深度强化学习DQN算法，包括以下步骤：

S1初始化场控状态；

S2定义状态空间和动作空间；

S3马尔科夫决策；

S4 value network Q拟合累计回报；

S5训练模型；

S6判断是否达到目标值，若是则执行S7，若否则返回S3；

S7执行决策；

S8返回并更新S1的场控状态。

进一步的，上述一种堆场智能场控的深度强化学习DQN算法，所述状态空间定义为如下模型：

φ＝[[Task_i]，[Task_pos]，[Grane_e]，[Finish_time]]^T

Task_i是由为第i堆场已分配但还未完成的指令任务编号组成的矩阵，每个元素初始化为所有指令任务编号，其中指令任务编号的定义形式为“已分配场桥的指令任务编号，待分配指令任务编号”；如果待分配指令任务位置与上一个指令位置相同，则当前位置有场桥；如果待分配指令任务位置与上一个指令位置不相同，则场桥起始位置为上一个指令的位置，i＝1,2…I；

Task_pos表示堆场作业任务指令的具***置；

Crane_e表示被指派进行堆场作业的场桥编号矩阵，每个元素初始化为0，如果某台场桥被指派，则该值会进行编号更新；

Finish_time是由场桥设备和集卡交接箱完成时间信息组成的矩阵，场桥设备和集卡交接箱完成时间计算如下；

当相邻待分派任务位置不同时：

①进行转场

场桥设备完成任务时间＝场桥设备已完成任务数量*场桥作业时间+(转场距离/场桥移动速度)；

②不进行转场

场桥设备完成任务时间＝场桥设备已完成任务数量*场桥作业时间

当相邻待分派任务位置相同时：

场桥设备完成任务时间＝场桥设备已完成任务数量*场桥作业时间。

进一步的，上述一种堆场智能场控的深度强化学习DQN算法，所述动作空间定义为如下模型：

其中K为动作的数量，τ>0为用户所输入的“温度参数”，Q(i)用来记录当前动作执行后平均的奖励值，τ值越小表明平均奖励值高的动作被选中的几率越高，当τ趋近于0时：算法倾向于仅“利用”；当τ趋于无穷大时：算法倾向于仅“探索”。

进一步的，上述一种堆场智能场控的深度强化学习DQN算法所述DQN算法流程如下：

初始化经验回放缓存

初始化参数和神经网络，w＝0,p₁＝1

对每个episode，循环；

初始化决策，决策初始状态S₀，根据初始状态的观测提取初始状态特征

依照初始策略选择初始动作A₀

对episode中的每个决策阶段t，循环；

观测此决策阶段下的***状态S_t，π_t；根据状态观测提取状态特征

通过***决策仿真，获得该决策阶段下的传递评价值R_t

在经验回访缓存H中存储(S_t，A_t，R_t，π_t，S_t+1)，

P(j)＝max_i＜tp_i

如果t＝0mod(K)则:(其中K为经验回放阈值)

对j＝1至K，循环；

对经验回放缓存中的缓存采样

计算经验回放训练数据重要性采样权重w_j＝(N·P(j))^-β/max_iw_i

计算神经网络的TD-误差；

δ_j＝R_j+γ_jQ_{targ ett}(S_j，arg max_aQ(S_j，a))-Q(S_j-1，A_j-1)

更新状态转移优先权重p_j←|δ_j|

累积权重

更新收敛系数θ＝θ+η·w

重置权重w＝0

θ_target←θ每定长步数覆盖目标神经网络的权重

根据价值估值选择当前决策状态下的动作A_j

循环至***决策终止状态

循环至episodes结束。

另一方面，本发明还公开了上述问题模型或算法在集装箱码头堆场智能场控决策中的应用

另一方面，本发明还公开了一种集装箱码头堆场智能场控决策***，含有存储器，所述存储器中存储有上述的问题模型或算法程序。

本发明具有如下有益效果：

本发明以集装箱码头场桥实际作业为研究基础，针对自动化场桥需要人工决策的情况，考虑了场桥装、卸、集、提四种任务类型以及内外集卡服务的优先级差异，着重解决场桥控制决策和堆场指令排序问题。通过提炼关键目标和约束，建立了多目标组合优化模型，目标为最小化移机距离和堆场作业时间。本发明首先建立了一个智能场控决策模型，并使用深度强化学习算法进行求解。首先分析了集装箱码头堆场智能场决策问题的关键决策流程和因素，并建立了智能场控决策模型。然后深入分析了智能场控决策问题的作业影响因素，并提取了决策过程的决策特征。基于这些特征，本发明基于深度强化学习算法，设计了DQN算法来学习和求解这个决策过程。通过算例仿真实验验证了该决策模型和DQN算法可以在短时间内有效地求解并获得智能场控决策的优化解。这有助于减少堆场作业过程中场桥无效移机和堆场作业总时间，实现对集装箱码头智能场控指令的连续动态、及时的优化决策。

附图说明

图1；场桥安全作业距离示意图；

图2：堆场集卡排队等待示意图；

图3：发箱作业频繁移机示意图；

图4：理想发箱作业场桥移机示意图；

图5：堆场智能场控模型总目标；

图6：深度强化学习DQN算法场控决策流程图；

图7：堆场任务状态更新图；

图8：深度神经网络典型结构；

图9：三种常用的激励函数性质图；

图10：智能场控决策深度网络示意图。

具体实施方式

下面对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

本发明实施例中使用的试剂或仪器未注明生产厂商者，均为可以通过市购获得的常规试剂产品。

实施例

集装箱码头堆场智能场控决策问题模型的建立，包括以下步骤：

1.1模型假设

结合集装箱码头实际作业情况，为了方便数学模型构建，同时充分反映集装箱码头实际作业情况，本发明对建立堆场智能指令分配和场桥调度问题模型的相关内容作出假设如下：

(1)在进行智能场控决策之前，堆场指令前置条件已完成，即具体的指令发送至堆场指令接收设备为初始状态，其放箱和提箱的位置都已是最优，且是已知且锁定的，不存在临时动态改动指令箱位置，同时场桥作业设备的位置已知，场桥移机速度固定，完成指令取一个固定值，不考虑翻箱等因素造成的时间差。

(2)场桥作业设备为单40英尺标准轮胎吊，即在单次作业中，仅能作业一个40英尺或一个45英尺集装箱或两个20英尺集装箱，同时所有场桥都可调用。

(3)不区分放箱或是取箱，都视为相同指令。

(4)不考虑水平运输设备插队，或是水平运输设备调度问题，仅考虑作业时间和单个场区内集卡数量。

1.2模型符号定义

1.2.1模型维度

S：表示堆场所有作业指令的集合，i，j∈S；

K：表示堆场内所有场桥设备的集合，k∈K；

B：表示堆场内所有位置的集合，b∈B；

3.2.2已知参数

t₁：表示任意一台场桥执行一个指令所需要的时间。

d：表示场桥设备工作时的安全距离。

V：表示堆场场桥的移机速度。

P_ib：表示第i个指令位于位置。

ω₁，ω₂：表示两个子目标的权重。

t_L：表示任意一个指令最晚完成时间。

1.2.3辅助变量

T：子目标函数一，表示堆场内执行指令用时最长场桥的用时。

L：子目标函数二，表示堆场内所有场桥的移机总距离。

1.2.4决策变量

x_ki：0-1变量，用于决策某个指令是否由某台场桥所完成。当第i个指令由第k台场完成收时值为1，否则为0。

y_ij：0-1变量，表示第i个指令是否优先于第j个指令执行，优于则为1，落后则为0。

Z_kb：0-1变量，描述场桥k是否处于位置b。1表示该场桥处于位置b，0表示该场桥没有处于位置b。

1.3约束条件

1.3.1场桥设备数量及移动限制

场桥设备约束条件主要包括设备数量限制和设备位置限制，如场桥数量、堆高机数量等。场桥也分为轨道吊和轮胎吊，不同类型场桥移动方向和转场方向有所限制，同时场桥与场桥间还需要保证安全作业距离以及电力驱动的场桥受电缆长度等所能位移最大距离也有限制如图1所示，所能到达的位置也受到堆场布局的限制，需要根据实际情况进行控制。指令任务坐标约束：每个指令任务都对应着一个集装箱，在堆场中的位置就是指令任务坐标。在做决策时需要考虑指令任务坐标对场桥控制的影响，避免因为指令任务分布不合理导致场桥移动距离过大。

在已知场桥位置和场桥安全距离情况下，对于任意两座场桥k，k'，同时已知两者分别对应指令i和i',则其安全距离限制公式为：

b·x_ki+b′·x_k′i′≥d (1-1)

如公式(1-1)所示，公式b·x_ki表示位置b的指令i由场桥k来完成，公式右侧则是场桥设备之间的安全作业距离。

1.3.2场桥作业能力限制

场桥的作业能力是指在单位时间内，场桥能够完成的指令数量。本发明重点是针对场桥的控制和指令的分配，所以对于场桥执行指令时翻箱和取箱以及放箱过程所花费的时间忽略。同时，又因为场桥装卸能力的大小取决于场桥的类型、设备状态、作业工艺等因素。因此，在做决策时需要考虑场桥装卸能力的限制。本发明中，将给定一个固定参数作为所有场桥完成一次指令所需花费的时间t₁。

场桥在进行移机时所花费的时间也要计算在内，本发明默认所有场桥移机速度相同且都是匀速，且每次移动距离按照小贝位来计算。因为要考虑安全因素，所以转场给的成本较高，以较高的时间成本来限制转场次数，设定。每次移机所花费时间的计算公式如下(1-2)所示：

(P_ib-P_jb，)·B_ij/V (1-2)

P_ib和P_jb表示场桥前后两个相邻指令之间的位置乘上具体的位置B_ij集合，最后除去场桥移机速度则可得到进行一次移机所花费的时间。对于转场情况，因实际情况中垂直转场成本和危险程度都比水平转场高，所以假设水平转场距离成本为999米，垂直转场的距离成本为一个无限大的正整数M。

1.3.3场桥指令对应原则

为了稳定整个模型以及减少其他突发因素，本发明中指令一旦确定分配给某台场桥进行作业后，就不可再次变更场桥进行作业，保证每一条指令和场桥一一对应，公式如下(1-3)所示：

如果为1说明场桥k只对应i指令，保证场桥每次只能执行一个指令以及一个指令只能被一台场桥执行。同样的，因为这一原则限制，场桥每次执行某个指令时，只能处于某个位置，保证指令从开始执行到执行结束的完整性，公式如(1-4)：

如果为1说明场桥k处于位置b，保证场桥每次执行指令只能处在一个指定位置。

1.3.4场区作业最大等待时间限制

堆场场区作业模式遵循小车配合大车，即集卡根据分配后的场区指令事先到达指定位置，等待场桥装箱或卸箱，但受堆场场地限制，每个场区内所能容纳等待装箱或提箱的集卡排队数量不能超过该场区最大长度，若超出则会造成场区道路拥塞，进而影响其他集卡的作业。这就对相同贝位多指令的情况提出了新的分配需求，相同贝位具有多指令的情况，其分配执行的指令数量有限制，如图2所示。

为了满足场区集卡排队容纳限制，可得约束方程如下所示：

公式(1-5)左侧表示位于第c箱区的所有集卡数量不能大于其所能容纳最大数量，同时也要保证该箱区场桥数量应当小于其最大容纳数量并都处于工作状态，见公式(1-6)，也就是这些场桥所分配的指令任务不能大于集卡数量。

1.3.5指令作业顺序限制

本发明假设所有指令的位置已知，但因为集装箱码头连接堆场的上下流业务原因，以及其他因素影响，指令也有执行的优先之分，因此本发明给每个场桥的分配的堆场作业指令都严格按照其优先程度进行了排序，例如两个指令i和j按照优先程度保证i一定要先于j进行作业，由以下公式所示：

x_ki·y_ij+x_kj·y_ji≤1 (1-6)

公式(1-7)保证指令i必须先于指令j完成。

1.4目标函数

1.4.1最小化场桥移机距离

不合理的装卸顺序可能导致场内大车的移动距离增加，从而增加作业时间和集卡等待时间，导致附近交通拥堵。此外，这还会降低岸边装船或卸船的效率，影响整个码头的作业效率，如图3所示。因此，需要尽量避免场桥大车在水平方向上的频繁移动，优化作业路径，提高场桥的生产作业效率，理想的发箱作业场桥移机示意图如图4所示。

以发箱作业为例，由于需要发箱的集装箱分布在不同的堆垛区，任务的作业顺序分布不集中，这会导致场桥需要在不同堆垛区之间频繁移动，从而增加了场桥移动的次数。如此不必要的场桥移动不仅耗费时间，还降低了码头的生产效率。

综上，场桥大车移机距离最小化的目标可如下方程表示：

1.4.2最小堆场作业时间

集卡等待时间从侧面反映了场桥作业效率。场桥作业效率越高，集卡等待时间越少。此外，针对集装箱码头业务特点，场桥对于不同作业类型的任务，其作业优先级不同。装船或卸船任务一般优先于集港和提箱任务，因此场桥对其进行运输作业的内外集卡的服务优先级不同，应先服务内集卡，再服务外集卡，由公式(1-5)保证指令按照先后顺序严格作业。同时为保证公司对外服务质量，满足外集卡的等待时间不能超过一定范围，由公式(1-4)可得约束t_L。

最小化集卡等待时间本质上就是最小化场桥在箱区作业时间，同时也要防止等待作业的集卡超出箱区的道路。首先是箱区指令数量越多的箱区要多分配多场桥来进行作业。可计算该堆场内所花费时间，得出目标函数：

1.4.3总目标函数

集装箱码头堆场场控决策不仅需要统筹考虑堆场的作业要求，还需要统筹平衡不同箱区场桥分配和场桥移动距离，是多目标组合优化问题。为此，对堆场场控决策模型中所有子目标进行归一化，最后通过赋予子目标权重获得总目标函数。

(1)子目标函数归一化

为场控作业过程中发生场桥移机总距离，H_r为堆场中一条作业路的长度，H_r*I则为集装箱码头场控作业中场桥移机距离最大值。因此，子目标函数Z₁的归一化处理如公式(1-8)所示。

为堆场作业中所有堆场作业总时间表达式，针对子目标函数T的归一化结果如公式(1-9)所示。

(2)总目标函数加权法

两个子目标的函数值范围在经过归一化处理后其值范围为[0,1]，接下来将采用线性加权法将这四个目标转化为单目标，如图5所示。

故本发明参照相关的论文与码头工作人员的决策经验以及码头业务效率的要求，时间因素是堆场作业最需要优化的方面，因此堆场总作业时间权重ω₁最大为0.7，在保证效率的基础上，也要考虑实际成本节约以及减少其他非作业情况带来的机械损耗和时间浪费，所以折中设定场桥移动距离权重ω₂为0.3，。

总目标函数如下：

Z＝ω₁T+ω₂L (3-11)

所以，综上所述，本发明所构建的集装箱码头堆场智能场控决策模型如下：

实施例2

一种堆场智能场控的深度强化学习DQN算法及***

2.1.1算法流程

堆场智能场控决策问题作为NP-Hard问题，拥有多个作业约束和决策目标，通过分析该决策问题，设计DQN算法流程如图6所示。

首先对堆场智能场控决策模型进行状态初始化，包括堆场指令信息、场桥信息、作业路信息、堆场信息等已知信息。其次，通过状态、动作空间定义、函数设计、神经网络设计和模型训练这四大步骤来构建堆场深度强化学习DQN算法。接着，通过进行多次迭代，直到value network Q收敛或达到预设的训练次数。

2.1.2状态空间的设计

在进行算法前，需要了解当前的环境状态。环境状态的定义需要考虑决策智能体能感知的变量，这取决于所研究问题的性质。决策智能体需要能够感知环境状态并进行决策，因此状态变量的设置非常重要。状态变量的好坏直接影响智能体对不同场桥作业序列的“偏好”能否被准确反映。堆场作业中场桥处理集装箱的作业序列是相对确定的，为了保证场桥作业的连贯性，通常需要提前将任务分配给场桥，并在场桥即将完成当前任务时为其指派下一个任务，否则场桥会进入等待状态或者闲置状态。本文提出了堆场任务和场桥多维状态表示方法，以实现达到实时有效场控的目的。这种方法最大程度地反映了场桥和堆场任务等环境变量的实时改变，并且能简化状态变量以便于求解。因此，状态空间设计考虑如下六个特征点作为状态空间的特征向量：堆场待作业任务指令集合信息、堆场待作业任务指令位置信息、场桥编号信息、场桥位置信息、场桥行驶时间信息、场桥和集卡交互完工时间信息。这样定义状态可以很好地反映当前环境状态，有助于实现场控，本文采用如下定义方式：

φ＝[[Task_i]，[Task_pos]，[Crane_e]，[Finish_time]]^T (2-1)

Task_i是由为第i堆场已分配但还未完成的指令任务编号组成的矩阵，每个元素初始化为所有指令任务编号，其中指令任务编号的定义形式为(已分配场桥的指令任务编号，待分配指令任务编号)。如图7所示，如果待分配指令任务位置与上一个指令位置相同，则当前位置有场桥；如果待分配指令任务位置与上一个指令位置不相同，则场桥起始位置为上一个指令的位置，i＝1,2…I。由于指令任务编号是二元组表示形式，为了使指令任务集合信息更适合作为神经网络的输入数据、方便任务索引、降低算法时间复杂度，通过生成设备任务组映射中间变量满足规范化要求。也就是如果指令任务还未被分配场桥进行作业，将其设为“1”；若指令任务已被分配，将其设为“0”，每个二元组右边元素表示该指令的箱区和贝位组合。

Task_pos表示堆场作业任务指令的具***置。

orane_e表示被指派进行堆场作业的场桥编号矩阵，每个元素初始化为0。如果某台场桥被指派，则该值会进行编号更新。

Finish_time是由场桥设备和集卡交接箱完成时间信息组成的矩阵。场桥设备和集卡交接箱完成时间计算如下。

当相邻待分派任务位置不同时：

①进行转场

场桥设备完成任务时间＝场桥设备已完成任务数量*场桥作业时间+(转场距离/场桥移动速度)

②不进行转场

当相邻待分派任务位置相同时：

将场桥设备和集卡交接箱完成时间信息作为神经网络的输入特征向量，同时根据上述设计决策，智能体状态特征矩阵的大小为4xN，其中矩阵高度固定为4，而矩阵宽度会随着集装箱任务数量的变化而动态调整。每当场桥完成一次装卸任务时，***状态就会发生一次转移。采用这种状态空间的设计方式可以有效、简洁地表达***在某个时刻决策智能体所处的状态，并方便智能体识别当前状态以做出下一步行动决策。

2.1.3动作空间设计

决策智能体在作业调度状态转移过程中存在多个动作策略，如场桥装卸箱动作、场桥移机动作和堆场指令任务分配动作。而堆场指令任务分配动作决定了集卡在堆场等待时间，时间总和便是堆场总体作业时间，是决定立即奖励r好坏的关键因素，因此本文使用堆场指令任务执行动作作为决策智能体不断探索的实时有效策略。场桥可以在所分配指令任务内做出选择，所以状态编码的一个元素——某台场桥待作业指令任务集合可以作为决策智能体的行动编号，具体的编码方式如下：[0,1,2,3······,e]，其中0代表等待，场桥选择等待动作，其余整数为待作业任务编号，待作业任务编号与状态空间中集装箱待选任务集合特征分量映射为0-1中间变量操作一致。当场桥选定某个任务指令后，在装卸完成后不可以开始其他任务的作业，必须保持行动不变，直到保持当前动作至该集装箱装卸完工，且时间为场桥下一状态工作的时刻。

决策智能体动作探索策略的设定：

在强化学习中，探索与利用是非常基础又非常重要的概念，探索则是智能体不利

用已学到的知识，采取随机的动作，来探索是否在之后的状态中有更好的策略；利用则侧重于对根据已掌握的信息而做到短期利益最大化。如何平衡探索和利用是强化学习的一个重要问题。因本文选择SoftMax算法作为决策智能体动作探索策略，该策略采用了一种基于Boltzmann分布的概率贪婪策略。Boltzmann分布是一种热力学分布律，它描述了在给定环境和固定温度下，高能量粒子存在的概率低而低能量粒子存在的概率高。在这种分布下，给定状态下粒子存在的概率与其能量成正比。所以SoftMax算法动作概率分配如下所示：

2.1.4奖惩函数的设计

场桥的工作负荷与分配的堆场任务指令序列情况有关，应该尽量减少堆场集卡的等待时间，给选择执行任务指令的场桥的移机距离越短和场桥作业时间越短，则奖励越高，场桥转场和场桥作业顺序也是需要考虑的因素。在第三章中，明确了本文的两个主要优化目标：①最小化单位时间周期内场桥移机距离(L)，②最小化完成所有指令的时间(T)。所以第三章结尾针对本文目标函数最小化问题，对两个目标设置加权系数进行归一化规范处理，将任意输入值映射至[0,1]值域范内。综上可得总目标为Z＝ω₁T+ω₂L，此处奖惩函数可设置为：

2.1.5value network Q神经网络结构设计

神经网络通常由输入层、隐藏层和输出层构成。包含多层隐藏层的神经网络被称为深度神经网络，使用Wake-Sleep机制和逐层训练可以实现多隐藏层深度神经网络的训练收敛。深度神经网络的典型分层结构中，相邻层的节点相互连接，但不存在跨多层节点的连接。每一层可以看作是一个逻辑回归模型，用于表达非线性特征。深度神经网络可以设置多个隐藏层，具有强大的非线性表征能力，可以拟合逼近复杂的非线性函数。深度神经网络的学习过程实际上是通过特征映射变换来逼近拟合学习样本从特征空间到目标空间的函数，如图8所示。

为了解决集装箱码头智能指令调度的序贯决策问题，本文采用深度强化学习中的深度神经网络来拟合值函数。该神经网络的主要结构包括：

(1)输入层、输出层

针对本文基于DQN算法的自动化集装箱码头堆场场控决策问题，Value Network Q网络是关键。它的输入层由一个

φ＝[[Task_i]，[Task_pos]，[Crane_e]，[Finish_time]]^T矩阵组成，该矩阵由当前决策智能体的强化学习状态值构建而成。而输出层则是所有动作a的概率，即确定目标箱信息的概率。使用SoftMax策略，选择具体动作。因此，输入层的神经元个数(节点数)为4个，输出层的神经元个数(节点数)为a。Value Network Q网络的立即奖励回报值r是通过输出层的时序差分误差(TD Error)来实现的。因此，输入层的神经元个数(节点数)为4，每个节点对应一个智能场控指令决策特征。输出层的神经元个数(节点数)为1。指令调度序贯决策深度网络的输出层包含1个节点，用于逼近价值函数并输出决策的回报Q值。

(2)隐藏层

合理设置隐藏层数量对于神经网络的复杂度、求解精度和训练时间具有重要影响。隐藏层神经元个数的设计需要在保证求解精度的前提下，选择适当的数量，避免出现过多的隐藏层神经元个数造成训练时间过长、结果局部最优以及过度拟合等问题。为提高智能场控指令决策的训练效率和求解效果，本文采用4层隐藏层的深度神经网络结构，通过Wake-Sleep机制分别训练每个隐藏层对应的一个智能场控指令决策特征。

隐藏层的节点数量和层数共同影响模型的表达能力。对于每个隐藏层，需要设定节点数量。隐藏层节点数量过多会增加训练的复杂度，可能导致模型过拟合，这与隐藏层数过多类似；如果隐藏层节点数量太少，就有概率造成模型表达能力不足，以至于无法表现状态与动作关系，甚至可能导致模型无法收敛和训练。所以，隐藏层节点数量应该尽量小，以满足精度的要求。

(3)激励函数

激励函数可以提高网络非线性建模能力和泛化能力，常用的激励函数主要有图9所示三种。

相较于Sigmoid和TanH激活函数，ReLU函数是一个分段函数，在取值范围内为非负数。当函数值为0时，激活函数的梯度为0，因此该神经元不参与训练，进而提高了网络的稀疏性。另外，函数在某些范围内的梯度为常数，因此不存在梯度弥散的问题。此外，梯度的计算也更加简单快速，从而进一步提高了训练效率。针对智能场控决策问题，选择ReLU函数作为激活函数，ReLU激活函数省略了繁琐的幂计算，具有快速收敛、缓解梯度消失等特点，因此本文采用ReLU作为神经网络的激活函数，基于此构建智能船控指令序贯决策深度网络，深度网络形式如下图10所示。

(4)经验回放

在深度强化学***稳分布问题，从而提高了算法的表征能力和稳定性。此外，通过随机采样和批量学习，我们还能避免过拟合和局部最优解问题的出现。

经验回放的详细过程为：对于每一个决策阶段保存智能体的决策经验(S_t，A_t，R_t，π_t，S_t+1)，同时把这个经验保存在经验回放缓存H中；在后续的学习循环中，将mini-batch应用于从历史经验缓存H以一定的随机采样规则采样的经验样本，而后使用mini-batch来更新其权重。

在经验回放的设计中，需要改进的主要方向是如何保存经验回放缓存以及进行经验回放过程中的经验随机采样。最基本的经验随机采样方法是均匀随机采样，即假设经验回放缓存中的所有经验都同等重要。然而在实际的决策过程中，并非所有的动作都是有效的，因此需要根据状态-动作对的重要性来选择更“有意义”的经验。这是经验回放随机采样的一个重要改进方向。

随机采样方法介于贪婪优先级采样和均匀随机采样之间，PER采样概率公式如下：

其中P(j)表示j转换优先级，参数a表示优先级的采样权重，当a＝0时该采样过程为完全均匀采样。

此外，由于优先回放会导致偏差，所以此处使用重要性采样来纠正优先回放偏差，如下公式：

其中，β为与a相关的超参数，当β＝1时，则表示该重要性采样可补偿非均匀情况的采样概率，因此能够完全纠正优先采样的偏差。经过一系列的优化后，整体的DQN算法流程框架如下：

初始化经验回放缓存

初始化参数和神经网络，w＝0,p₁＝1

对每个episode，循环:

依照初始策略选择初始动作A₀

对episode中的每个决策阶段t，循环:

通过***决策仿真，获得该决策阶段下的传递评价值R_t

在经验回访缓存H中存储(S_t，A_t，R_t，π_t，S_t+1)，

P(j)＝max_i＜tp_i

如果t＝0mod(K)则:(其中K为经验回放阈值)

对j＝1至K，循环:

对经验回放缓存中的缓存采样

计算经验回放训练数据重要性采样权重w_j＝(N·P(j))^-β/max_iw_i

计算神经网络的TD-误差:

δ_j＝R_j+γ_jQ_{targ ett}(S_j，arg max_aQ(S_j，a))-Q(S_j-1，A_j-1)

更新状态转移优先权重p_j←|δ_j|

累积权重

更新收敛系数θ＝θ+η·w

重置权重w＝0

θ_target←θ每定长步数覆盖目标神经网络的权重

根据价值估值选择当前决策状态下的动作A_j

循环至***决策终止状态

循环至episodes结束。

从以上实施例可以得出：本文先建立了一个智能场控决策模型，并使用深度强化学习算法进行求解。首先分析了集装箱码头堆场智能场决策问题的关键决策流程和因素，并建立了智能场控决策模型。然后深入分析了智能场控决策问题的作业影响因素，并提取了决策过程的决策特征。基于这些特征，本文基于深度强化学习算法，设计了DQN算法来学习和求解这个决策过程。通过算例仿真实验验证了该决策模型和DQN算法可以在短时间内有效地求解并获得智能场控决策的优化解。这有助于减少堆场作业过程中场桥无效移机和堆场作业总时间，实现对集装箱码头智能场控指令的连续动态、及时的优化决策。

尽管本发明的具体实施方式已经得到详细的描述,本领域技术人员将会理解。根据已经公开的所有教导，可以对那些细节进行各种修改和替换，这些改变均在本发明的保护范围之内。本发明的全部范围由所附权利要求及其任何等同物给出。

Claims

1.一种集装箱码头堆场智能场控决策问题模型，其特征在于，所述模型如下所示

其中各参数定义如下：

模型维度

S：表示堆场所有作业指令的集合，i,j∈S；

K：表示堆场内所有场桥设备的集合，k∈K；

B：表示堆场内所有位置的集合，b∈B；

已知参数

t₁：表示任意一台场桥执行一个指令所需要的时间；

d：表示场桥设备工作时的安全距离；

V：表示堆场场桥的移机速度；

P_ib：表示第i个指令位于位置；

ω₁,ω₂：表示两个子目标的权重；

t_L：表示任意一个指令最晚完成时间；

辅助变量

T：子目标函数一，表示堆场内执行指令用时最长场桥的用时；

L：子目标函数二，表示堆场内所有场桥的移机总距离；

决策变量

y_ij：0-1变量，表示第i个指令是否优先于第j个指令执行，优于则为1，落后则为0：

约束条件：在已知场桥位置和场桥安全距离情况下，对于任意两座场桥k，k′，同时已知两者分别对应指令i和i′，则其安全距离限制公式为：

b·x_ki+b′·x_k′i′≥d

每次移机所花费时间的计算公式如下所示：

(P_ib-P_jb′)·B_ij/V

场区作业最大等待时间限制函数：

指令作业顺序限制函数：

x_ki·y_ij+x_kj·y_ji≤1

所述模型中，权重ω₁最大为0.7，权重ω₂为0.3。

2.根据权利要求1所述的一种集装箱码头堆场智能场控决策问题模型，其特征在于

3.根据权利要求1所述的一种集装箱码头堆场智能场控决策问题模型，其特征在于，所述模型具有以下限制条件：

(3)不区分放箱或是取箱，都视为相同指令；

4.一种堆场智能场控的深度强化学习DQN算法，其特征在于，使用如权利要求1-3任一项所述的问题模型进行训练。

5.根据权利要求4所述的DQN算法，其特征在于，包括以下步骤：

S1初始化场控状态；

S2定义状态空间和动作空间；

S3马尔科夫决策；

S4 value network Q拟合累计回报；

S5训练模型；

S6判断是否达到目标值，若是则执行S7，若否则返回S3；

S7执行决策；

S8返回并更新S1的场控状态。

6.根据权利要求5所述的DQN算法，其特征在于，所述状态空间定义为如下模型：

φ＝[[Task_i],[Task_pos],[Crane_e],[Finish_time]+^T

Task_pos表示堆场作业任务指令的具***置；

当相邻待分派任务位置不同时：

①进行转场

②不进行转场

当相邻待分派任务位置相同时：

7.根据权利要求5所述的DQN算法，其特征在于，所述动作空间定义为如下模型：

8.根据权利要求5所述的DQN算法，其特征在于，所述DQN算法流程如下：

初始化经验回放缓存

初始化参数和神经网络，w＝0,p₁＝1

对每个episode，循环；

依照初始策略选择初始动作A₀

对episode中的每个决策阶段t，循环；

观测此决策阶段下的***状态S_t,π_t；根据状态观测提取状态特征

通过***决策仿真，获得该决策阶段下的传递评价值R_t

在经验回访缓存H中存储(S_t,A_t,R_t,π_t,S_t+1)，

P(j)＝max_i<tp_i

如果t＝0mod(K)则:(其中K为经验回放阈值)

对j＝1至K，循环；

对经验回放缓存中的缓存采样

计算经验回放训练数据重要性采样权重w_j＝(N·P(j))^-β/max_iw_i

计算神经网络的TD-误差；

更新状态转移优先权重p_j←|δ_j|

累积权重

更新收敛系数θ＝θ+η·w

重置权重w＝0

θ_target←θ每定长步数覆盖目标神经网络的权重

根据价值估值选择当前决策状态下的动作A_j

循环至***决策终止状态

循环至episodes结束。

9.如权利要求1-3所述的问题模型或权利要求5-8所述的算法在集装箱码头堆场智能场控决策中的应用。

10.一种集装箱码头堆场智能场控决策***，其特征在于，含有存储器，所述存储器中存储有如权利要求1-3所述的问题模型或如权利要求5-8所述的算法程序。