CN113077188A

CN113077188A - 一种基于平均奖赏强化学习的mto企业订单接受方法

Info

Publication number: CN113077188A
Application number: CN202110468897.0A
Authority: CN
Inventors: 吴克宇; 钱静; 陈超; 刘忠; 黄金才; 程光权; 胡星辰; 杜航
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2021-04-28
Filing date: 2021-04-28
Publication date: 2021-07-06
Anticipated expiration: 2041-04-28
Also published as: CN113077188B

Abstract

本发明公开一种基于平均奖赏强化学***均收益，不仅有较高的订单接受选择能力，而且对环境变化具有较好的适应能力，能够权衡订单利润与各项成本为MTO企业带来更高的收益，同时还能满足客户的个性化需求，与客户保持密切的联系。

Description

一种基于平均奖赏强化学习的MTO企业订单接受方法

技术领域

本发明涉及企业订单接受选择技术领域，尤其涉及一种基于平均奖赏强化学习的MTO企业订单接受方法。

背景技术

所谓MTO企业，是指企业根据客户订单而进行生产的企业，不同的客户对订单的类型有着不同的需求，MTO企业根据客户提出的订单需求，对订单进行组织和生活生产，在通常情况下，企业的产能是有限的，而且加上各种成本因素的限制，企业不可能接受所有客户的订单，这就需要MTO企业制定相应的订单接受方法，一个MTO企业的成功很大程度上取决于订单接受方法的选择性，一个好的订单接受方法对企业的长期利润发挥着巨大的作用；

从已有研究来看，有关订单接受问题的决策方法已经取得了一些成果，但随着电子商务的蓬勃发展，消费者的个性化需求越来越明显，传统的生产企业在进行产品生产时通常不直接联系终端顾客，在面临顾客的需求多样化时，难以满足其需求，且已有的一些订单接受方法在建模的过程中考虑的因素不全面，从而无法有效根据企业生产能力和订单状态确定订单接受策略，因此，本发明提出一种基于平均奖赏强化学习的MTO企业订单接受方法以解决现有技术中存在的问题。

发明内容

针对上述问题，本发明的目的在于提出一种基于平均奖赏强化学***均收益。

为了实现本发明的目的，本发明通过以下技术方案实现：一种基于平均奖赏强化学习的MTO企业订单接受方法，包括以下步骤：

步骤一：订单信息假设

假设MTO企业通过单一生产线生产，且市场上存在n种类型的顾客订单，订单信息包括顾客优先级μ、价格p、数量Q、单位产品生产成本c、提前期LT及最迟交货期DT；

步骤二：确定***状态集

根据步骤一，若***中有n种订单类型，则***状态可由向量S表示：S＝(μ，p，Q，LT，DT，T)，其中T表示决策阶段之前已接受的订单仍需要的生产时间；

步骤三：确定***动作集

根据步骤一，当有顾客订单到达时，需要做出接受和拒绝订单的决策，模型中的动作集合可由向量A＝(a₁，a₂)表示，其中a₁表示接受订单，a₂表示拒绝订单；

步骤四：确定立即回报函数

MTO企业在做出是否接受订单决策后，获得的立即回报函数为：

公式中I＝p*Q，表示获得该订单的利润，C＝c*Q，表示消耗的生产成本，Y表示企业的延期惩罚成本，N表示产生库存成本的费用，J表示订单的拒绝成本；

步骤五：构建订单接受模型

根据***状态集、***动作集和立即回报函数构建半马尔科夫决策过程订单接受模型，并基于平均奖赏强化学习的思想模拟现实的MTO企业订单接受问题，根据贝尔曼最优定理，半马尔科夫决策过程问题中相应的最优策略为：

其中

定示决策期m获得的平均回报，t_m表示决策期m由状态s转移到状态s′的时间；

步骤六：订单接受模型求解

采用强化学***均奖赏强化学***均奖赏强化学习SMART算法的更新公式为：

式中α表示学***均回报，t_m表示第m个决策时期的累计时间。

进一步改进在于：所述步骤一中，顾客订单达到服从参数为λ的泊松分布，订单的价格和需求数量均服从均匀分布。

进一步改进在于：所述步骤二中，基于有限产能的MTO企业，T有最大上限值，并且有n种订单类型，则***的状态集合S共有n*T个状态。

进一步改进在于：所述步骤四中，r(s，a)的三个等式从上之下分别表示当Q(s，a₁)＞Q(s，a₂)时，且在当前状态下订单能***到当前的生产计划中，立即回报等于接受该订单所获得的净利润，当Q(s，a₁)＞Q(s，a₂)时，但在当前状态下订单不能***到当前的生产计划中，立即回报等于损失的订单净利润，当Q(s，a₁)＜Q(s，a₂)时，立即回报等于拒绝成本。

进一步改进在于：所述步骤四中，企业的延期惩罚成本Y＝μ*u*{(T+Q/b)-LT}，其中u表示单位时间延期惩罚成本，b表示为企业的单位生产能力。

进一步改进在于：所述步骤四中，顾客在提前期之前生产出来的产品不提前取货，导致产品被暂存在MTO企业仓库中所产生的库存成本费用N＝Q*h*{LT-(T+Q/b)}，其中h表示单位时间单位产品储存成本。

进一步改进在于：所述步骤六中，采用随着仿真迭代次数的增加而减小的探索性概率e保证平均奖赏强化学习SMART算法的收敛性，且α和e按照DCM方案衰减：

式中χ表示任意大的实数。

本发明的有益效果为：本发明在传统MTO企业订单接受问题考虑的因素基础上，增加了订单库存成本及多种顾客优先级因素，构建了半马尔科夫决策过程订单接受模型，运用SMART算法进行求解，并在此基础上，对已接受的订单运用贪心算法进行排序生产，以最大化企业长期平均收益，不仅有较高的订单接受选择能力，而且对环境变化具有较好的适应能力，能够权衡订单利润与各项成本为MTO企业带来更高的收益，同时还能满足客户的个性化需求，与客户保持密切的联系。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明的订单接受方法流程图；

图2是本发明的强化学习订单决策交互图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”、“第四”等仅用于描述目的，而不能理解为指示或暗示相对重要性。

在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

参见图1、2，本实施例提供了一种基于平均奖赏强化学习的MTO企业订单接受方法，包括以下步骤：

步骤一：订单信息假设

假设MTO企业通过单一生产线生产，且市场上存在n种类型的顾客订单，订单信息包括顾客优先级μ、价格p、数量Q、单位产品生产成本c、提前期LT及最迟交货期DT，顾客订单达到服从参数为λ的泊松分布，订单的价格和需求数量均服从均匀分布；

步骤二：确定***状态集

根据步骤一，若***中有n种订单类型，则***状态可由向量S表示：S＝(μ，p，Q，LT，DT，T)，其中T表示决策阶段之前已接受的订单仍需要的生产时间，基于有限产能的MTO企业，T有最大上限值，并且有n种订单类型，则***的状态集合S共有n*T个状态；

步骤三：确定***动作集

步骤四：确定立即回报函数

公式中I＝p*Q，表示获得该订单的利润，C＝c*Q，表示消耗的生产成本，Y表示企业的延期惩罚成本，N表示产生库存成本的费用，J表示订单的拒绝成本，其中r(s，a)的三个等式从上之下分别表示当Q(s，a₁)＞Q(s，a₂)时，且在当前状态下订单能***到当前的生产计划中，立即回报等于接受该订单所获得的净利润，当Q(s，a₁)＞Q(s，a₂)时，但在当前状态下订单不能***到当前的生产计划中，立即回报等于损失的订单净利润，当Q(s，a₁)＜Q(s，a₂)时，立即回报等于拒绝成本，企业的延期惩罚成本Y＝μ*u*{(T+Q/b)-LT}，其中u表示单位时间延期惩罚成本，b表示为企业的单位生产能力，顾客在提前期之前生产出来的产品不提前取货，导致产品被暂存在MTO企业仓库中所产生的库存成本费用N＝Q*h*{LT-(T+Q/b)}，其中h表示单位时间单位产品储存成本；

步骤五：构建订单接受模型

其中

表示决策期m获得的平均回报，t_m表示决策期m由状态s转移到状态s′的时间；

步骤六：订单接受模型求解

式中α表示学***均回报，t_m表示第m个决策时期的累计时间，采用随着仿真迭代次数的增加而减小的探索性概率e保证平均奖赏强化学习SMART算法的收敛性，且α和e按照DCM方案衰减：

式中χ表示任意大的实数。

SMART算法流程如下：

1.初始化m、Q_m(s，a)、t_m、r_m、ρ_m为0，e＝0.2α＝0.1，order_list＝[]

2.While m＜Maxsteps do

3.根据DCM机制计算e_m和α_m

4.随机生成数e_random，若em＜e_random，选择状态-动作价值函数最大的动作a，若e_m＞e_random，则随机选择动作集合中的动作a

5.若a＝a₁，Q(s，a₁)＞Q(s，a₂)且在当前状态下能***到当前的生产计划中时，r＝R-C-μ*Y-N，将该订单添加到待生产列表order_list中；若a＝a₁，Q(s，a₁)＞Q(s，a₂)且在当前状态下不能***到当前的生产计划中时，r＝-(R-C-μ*Y-N)；若a＝a₂，Q(s，a₁)＜Q(s，a₂)，r＝-μ*J

6.执行动作a，得到下一阶段状态s′，r_m(s，a，s′)，t_m(s，a，s′)

7.更新状态-动作价值函数

8.若没有采取探索，则更新t_m←t_m+t_m(s，a，s′)，R_m+1←R_m+r_m(s，a，s′)，p_m+1←R_m+1/t_m+1，否则t_m+1←t_m，R_m+1←R_m，ρ_m+1←ρ_m

9.当有订单生产完成时，运用贪心算法在order_list选择下一时刻将要生产的订单，并将选择的订单从待生产队列order_list删去

10.更新状态s＝s′，更新决策阶段m＝m+1

该基于平均奖赏强化学***均收益，不仅有较高的订单接受选择能力，而且对环境变化具有较好的适应能力，能够权衡订单利润与各项成本为MT0企业带来更高的收益，同时还能满足客户的个性化需求，与客户保持密切的联系。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于平均奖赏强化学习的MTO企业订单接受方法，其特征在于：包括以下步骤：

步骤一：订单信息假设

步骤二：确定***状态集

根据步骤一，若***中有n种订单类型，则***状态可由向量S表示：S＝(μ,p,Q,LT,DT,T)，其中T表示决策阶段之前已接受的订单仍需要的生产时间；

步骤三：确定***动作集

根据步骤一，当有顾客订单到达时，需要做出接受和拒绝订单的决策，模型中的动作集合可由向量A＝(a₁,a₂)表示，其中a₁表示接受订单，a₂表示拒绝订单；

步骤四：确定立即回报函数

步骤五：构建订单接受模型

其中

表示决策期m获得的平均回报，t_m表示决策期m由状态s转移到状态s'的时间；

步骤六：订单接受模型求解

式中α表示学***均回报，t_m表示第m个决策时期的累计时间。

2.根据权利要求1所述的一种基于平均奖赏强化学习的MTO企业订单接受方法，其特征在于：所述步骤一中，顾客订单达到服从参数为λ的泊松分布，订单的价格和需求数量均服从均匀分布。

3.根据权利要求1所述的一种基于平均奖赏强化学习的MTO企业订单接受方法，其特征在于：所述步骤二中，基于有限产能的MTO企业，T有最大上限值，并且有n种订单类型，则***的状态集合S共有n*T个状态。

4.根据权利要求1所述的一种基于平均奖赏强化学习的MTO企业订单接受方法，其特征在于：所述步骤四中，r(s,a)的三个等式从上之下分别表示当Q(s,a₁)>Q(s,a₂)时，且在当前状态下订单能***到当前的生产计划中，立即回报等于接受该订单所获得的净利润，当Q(s,a₁)>Q(s,a₂)时，但在当前状态下订单不能***到当前的生产计划中，立即回报等于损失的订单净利润，当Q(s,a₁)<Q(s,a₂)时，立即回报等于拒绝成本。

5.根据权利要求1所述的一种基于平均奖赏强化学习的MTO企业订单接受方法，其特征在于：所述步骤四中，企业的延期惩罚成本Y＝μ*u*{(T+Q/b)-LT}，其中u表示单位时间延期惩罚成本，b表示为企业的单位生产能力。

6.根据权利要求1所述的一种基于平均奖赏强化学习的MTO企业订单接受方法，其特征在于：所述步骤四中，顾客在提前期之前生产出来的产品不提前取货，导致产品被暂存在MTO企业仓库中所产生的库存成本费用N＝Q*h*{LT-(T+Q/b)}，其中h表示单位时间单位产品储存成本。

7.根据权利要求1所述的一种基于平均奖赏强化学***均奖赏强化学习SMART算法的收敛性，且α和e按照DCM方案衰减：

式中χ表示任意大的实数。