CN114048978A

CN114048978A - 一种基于机器学习模型的供需调度策略融合应用

Info

Publication number: CN114048978A
Application number: CN202111266699.2A
Authority: CN
Inventors: 薛鹏; 于红建; 余进
Original assignee: Beijing Shansong Technology Co ltd
Current assignee: Beijing Shansong Technology Co ltd
Priority date: 2021-10-27
Filing date: 2021-10-27
Publication date: 2022-02-15

Abstract

本发明涉及一种基于机器学***台分单效率的最优。在接单率预测过程中按照标准流程对数据进行归一化、空值处理等基本预处理过程，然后通过训练好的模型实时预测出当前订单与运力之间的接单率，该模式的实现极大的优化了平台接单效率以及接单率，保证了平台在时空维度上的分单匹配最优化。

Description

一种基于机器学习模型的供需调度策略融合应用

所属技术领域

本发明涉及一种基于机器学习模型的供需调度策略融合应用，属于分单优化与智能调度研究技术领域。

背景技术

即时配送，是一种配送时长1小时以内，平均配送时长约30分钟的快速配送业务。如此快速的配送时效，将传统的线上电商交易与线下物流配送(传统划分比较明确的两条业务)整合为统一整体，形成了用户、骑手和平台互相交错的三元关系。即时物流分布式***架构逐层演变的进展中，遇到的技术障碍和挑战：订单、骑手规模大，供需匹配过程的超大规模计算问题。遇到节假日或者恶劣天气，订单聚集效应，流量高峰是平常的十几倍。物流履约是线上连接线下的中心调度，体现在派单制上，即依据一系列因素算出一个或者一批效率最优解直接派单。对于配送***来说，比较大的挑战还是对识别精度的要求以及成本之间的平衡。我们对精度要求很高，毕竟这些识别直接影响定价、调度、判责***，这种底层数据，精度不高带来的问题很大。

高效匹配其中一个的关键点是按需分配，识别用户的准确需求，并在众多资源当中匹配到最合适的。为了做到高效匹配，平台从每日订单中积累了大量来自司机和用户的信息，包括它们的行程路线、行为习惯、特殊需求等等，除此之外，还有对整个城市交通状况的了解，做到***需求，然后确保供应量与将要达到的需求量相匹配，这样可以以一个最佳的方式来激活闲置资源。

调度平台真正要解决的就是如何提高匹配效率。平台初期可能更靠补贴和地推去抢市场，到了后期，匹配效率的提升是最重要的，只有匹配合适的出行资源，才能让客户的需求得到最大限度的满足。同样的，在蚂蚁金服客户服务的智能调度当中，如何让用户的需求得到最准确的匹配，并且保证相应资源的可用性，解决了这些问题，才能最大限度的实现用户期望。

地理信息实时更新(5秒钟发起一次请求)，描述整体资源的情况，当用户发出订单需求后，第一时间根据资源情况，进行订单推送。基于对历史数据的统计并结合实时订单数据，给出当前全城范围内订单密集区域的分布，给骑手提供有价值的听单位置参考，提高听单概率并减少骑手空驶时间。基于供需预测结果，大规模有序调动全城所有可用运力，实现资源最优化分配。在骑手和用户的历史数据中学习接单概率模型，提高骑手和用户的匹配度，利用运力的规模效应实时地从全局上最优化总体交通运输效率和乘客出行体验。故障容忍度极低，不能宕机，不能丢单，可用性要求极高。数据实时性、准确性要求高，对延迟、异常非常敏感。

发明内容

本发明要解决的技术问题是：如何实现基于机器学习模型的供需调度策略融合应用。

为实现上述的发明目的，本发明提供了一套基于机器学习模型的供需调度策略融合应用的方法，包含如下步骤：

A：确定业务特征统计口径，收集相关数据结果；

B：确定特征选择方案，筛选效果优异特征；

C：建立特征工程流程，将数据转化为算法可理解和消化的数据；

D：对比离线数据各算法效果；

E：算法线上灰度效果评估，选择表现最优算法进行正式上线。

其中较优地，所述生成对应的机遇机器学习模型的供需调度策略融合应用方案的步骤具体包括：

1、将特征分为用户、运力、订单、城市、天气五大类特征，基于每类特征的性质及属性又可继续进行细分，最终确定相关特征数量超过100种，结合业务性质梳理现有特征并确定特征统计周期以及统计标准。

2、基于上一步骤中确定的特征以及对应统计口径准备相关数据，同时对样本数据进行随机抽样，筛选100000条数据。

3、利用多种方法(例如：皮尔森系数、卡方检验、决策树算法等)对特征进行可用性评估，进而筛选与目标结果相关性高的特征，剔除相似度高的冗余特征。

4、为降低数据缺失对模型准确性的影响，需采取众数填充、均值填充、中位数填充、KNN聚类填充、固定值填充、上下文填充、直接剔除等方法填充缺失值。根据业务场景及算法需求确定对应填充方法。

5、借鉴经验、箱型图异常值法以及

原则法进行异常值剔除。

6、借鉴label编码、one hot编码、embedding方法进行离散数据处理。

7、连续数据分桶处理。

8、数据正态化/归一化处理。

9、样本按照6∶2∶2比例随机划分为训练集、验证集、测试集三个层级。

10、结合业务数据对样本数据进行标注，标注数据以订单派单后是否被运力接起为准。

11、确定所选算法名单，其主要包含(岭回归、Lasso、LR、FM、svm、贝叶斯分类器、Adaboost、lightgbm等)。

12、确定衡量算法优劣的相关指标，基于指标对各算法进行排名，筛选排名前五的算法进行线上测试。

13、持续2周观察线上算法效果，观察指标定为线上整体接单率，根据2周平均接单率高低作为选择模型的标准。

附图说明

图1：本发明供需调度策略融合应用原理流程示意图。

图2：本发明供需调度策略融合应用实例分单示意图。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式做进一步详细描述，以下实施例用于说明本发明，但不用来限制本发明的范围。

如图1所示，A：确定业务特征统计口径，收集相关数据结果；B：确定特征选择方案，筛选效果优异特征；C：建立特征工程流程，将数据转化为算法可理解和消化的数据；D：对比离线数据各算法效果；E：算法线上灰度效果评估，选择表现最优算法进行正式上线。下面以LR模型为基础对供需调度策略融合应用展开详细的说明。

首先介绍如何确定业务特征及统计口径的步骤，根据业务经验以及头脑风暴罗列所有可能影响接单率的相关特征，同时将各个特征的统计周期以及统计公式确定，所有特征的标签来源为历史订单中订单是否被相关骑手接起，在hive中计算各特征数据及标签数据，随机抽样100000条数据作为输入数据。

其次介绍特征选择方案，以及筛选效果优异特征的标准。目前流行的特征选择方法有皮尔森系数、卡方检验、决策树算法，各个方法的使用场景、实现成本以及最终效果各有不同，再综合考虑下，最终确定皮尔森系数作为筛选特征的方法，为消除特征之间的多重共线性，需将相似度较高的特征删除，判断特征相似性高的Pearson系数阈值定为0.5，大于0.5的特征即可认为相关性较高，在相关性较高的特征组中，挑选与目标标签相关系数最高的特征作为训练数据特征。

第三，介绍特征工程的处理流程。在特征工程里最基础的是对异常值和空值进行处理，对于异常值的处理方式一般都较为强硬，对命中异常标准的数据直接删除，而衡量数据是否异常的方法有箱型图异常值法、

异常值法。对于符合正态分布的数据偏向于使用

异常值法，否则采用箱型图异常值法。对于空值的处理方式，需要判断异常值对训练结果的影响程度以及数据缺失的占比，对于影响程度高且数据缺失的比例较高的情况下，需要将该特征删除。如果不删除则需要采取相关方法对数据进行填充。对应的填充方法有众数填充、均值填充、中位数填充、KNN聚类填充、插值、固定值填充、上下文填充。

为保证输入数据可被模型理解以及模型计算精度和效率，需要将离散数据进行处理，可参考的方法有label编码，onehot编码，embedding。同时也需要将连续数据进行分桶处理，可参考的方法有等宽分桶，等频分桶，woe编码。

由于LR模型对不同量纲有较高的敏感性，为消除特征不同量纲对模型效率和准确率产生的影响需要将各特征数据进行归一化处理，归一化处理的方法有正态化处理、min-max归一化处理。

将数据按照6∶2∶2的比例划分为训练集、验证集和测试集。

将训练数据输入模型进行训练，评估指标包含精准率、AUC、查全率、准确率。

综上所述，本发明提供的基于机器学***台自身分单效率，保障用户以及骑手两侧的优质体验。

Claims

1.一种基于机器学习模型的供需调度策略融合应用，其特征在于，包括以下步骤：

A：确定业务特征统计口径，收集相关数据结果；

B：确定特征选择方案，筛选效果优异特征；

D：对比离线数据各算法效果；

2.根据权利要求1所述的基于机器学习模型的供需调度策略融合应用，其特征在于：所述步骤A具体包括步骤：

A1：根据以往业务经验将特征分为用户、运力、订单、城市、天气五大类特征，基于每类特征的性质及属性又可继续进行细分，最终确定相关特征数量超过100种，结合业务性质梳理现有特征并确定特征统计周期以及统计标准。

A2：基于A1中确定的特征以及对应统计口径准备相关数据，结合业务数据对样本数据进行标注，标注数据以订单派单后是否被运力接起为准。同时对样本数据进行随机抽样，筛选10000条数据。

3.根据权利要求1所述的基于机器学习模型的供需调度策略融合应用，其特征在于：所述步骤B具体包括步骤：为了避免维度灾难，在保证训练结果的前提下需要降低机器学习的计算复杂度，特征的筛选则尤为重要。在进行特征筛选的时候，可以利用多种方法(例如：皮尔森系数、卡方检验、决策树算法等)对特征进行可用性评估，进而筛选与目标结果相关性高的特征，剔除相似度高的冗余特征。

4.根据权利要求1所述的基于机器学习模型的供需调度策略融合应用，其特征在于：所述步骤C具体包括步骤：

C1：为降低数据缺失对模型准确性的影响，需采取众数填充、均值填充、中位数填充、KNN聚类填充、固定值填充、上下文填充、直接剔除等方法填充缺失值。根据业务场景及算法需求确定对应填充方法。

C2：借鉴经验、箱型图异常值法以及

原则法进行异常值剔除。

C3：借鉴label编码、one hot编码、embedding方法进行离散数据处理。

C4：连续数据分桶处理。

C5：数据正态化/归一化处理。

C6：样本按照6∶2∶2比例随机划分为训练集、验证集、测试集三个层级。

5.根据权利要求1所述的基于机器学习模型的供需调度策略融合应用，其特征在于：所述步骤D具体包括步骤：

D1：确定所选算法名单，其主要包含(岭回归、Lasso、LR、FM、svm、贝叶斯分类器、Adaboost、lightgbm等)

D2：确定衡量算法优劣的相关指标，基于指标对各算法进行排名，筛选排名前五的算法进行线上测试。

6.根据权利要求1所述的基于机器学***均接单率高低作为选择模型的标准。