CN115545276A

CN115545276A - 网约车异常订单的接单率预测方法及***

Info

Publication number: CN115545276A
Application number: CN202211071447.9A
Authority: CN
Inventors: 李玉柱; 史彬; 凌国沈; 田舟贤; 史何富; 强琦
Original assignee: Zhejiang Geely Holding Group Co Ltd; Hangzhou Youxing Technology Co Ltd
Current assignee: Zhejiang Geely Holding Group Co Ltd; Hangzhou Youxing Technology Co Ltd
Priority date: 2022-09-02
Filing date: 2022-09-02
Publication date: 2022-12-30

Abstract

本发明提供一种网约车异常订单的接单率预测方法及***。该方法包括：数据获取步骤，获取订单样本数据集，包括乘客端APP和司机端APP的数据库数据；确定入模特征步骤，基于订单样本数据集，标记标签，确定入模特征，包括入模特征的筛选；训练模型步骤，通过训练和评估，获得接单率预测模型；模型应用步骤，将需要预测的订单信息输入到接单率预测模型中，输出订单接单率的预测，根据预测结果，优化决策风险防范措施。该***包括样本获取模块、样本标记模块、特征开发模块、特征筛选模块、模型训练模块、模型评估模块和识别模块。本发明提高了异常订单接单概率预测的精确率，并且提升了风控误判的正常订单用户体验。

Description

网约车异常订单的接单率预测方法及***

技术领域

本发明涉及互联网中网约车领域，特别是涉及一种网约车异常订单的接单率预测方法及***。

背景技术

随着移动通信技术与出行服务的结合，移动终端上的网约车出行方式已成为人们出行时的重要选择之一。

当前网约车服务大多采用先乘车后支付的运营方式，在这样的服务方式中不可避免的产生了大量长期未支付的异常订单，从而造成平台高额的资金损失。网约车服务中对已识别的异常订单的处罚方式通常是采取预支付或者充值处罚，这样的处罚方式或多或少会影响识别错误的正常用户的打车体验，降低其再次叫车的意愿，从而降低平台的流水收益。因此，为乘客提供更为优质的出行服务与体验，同时降低平台未支付订单的资金损失，在出行服务中尤为重要。

现有技术的研究方向一般是尽可能提高识别异常订单的精确率，从而减少对正常订单的影响，如依据专家经验制定策略规则去判别订单是否异常、或者基于订单属性和用户行为训练机器学***台造成未支付资金损失，那该笔订单就不需要采取预支付或者充值处罚。因此，何如精准且有效的识别会被司机接单的异常订单并进行处罚是当前出行服务中的亟需解决的问题。

发明内容

鉴于以上所述现有技术的缺点，本发明的目的在于提供一种网约车异常订单的接单率预测方法及***，用于解决现有技术中异常订单接单概率预测的精确率不够，导致分控误判的正常订单用户体验差的问题。

为实现上述目的及其他相关目的，本发明提供一种网约车异常订单的接单率预测方法及***，本发明提出一种基于司机状态信息与用户订单信息的异常订单接单率预测方法。该方法可以有效识别会被司机接单的异常订单并提高异常订单接单概率预测的精确率，从而提升风控误判的正常订单用户体验。

于本发明的一实施例中，一种网约车异常订单的接单率预测方法，包括：

数据获取步骤，获取订单样本数据集，包括乘客端APP和司机端APP的数据库数据；

确定入模特征步骤，基于所述订单样本数据集，标记标签，确定所述入模特征，包括所述入模特征的筛选；

训练模型步骤，通过训练和评估，获得接单率预测模型；

模型应用步骤，将需要预测的订单信息输入到所述接单率预测模型中，输出所述订单接单率的预测，根据所述预测结果，优化决策风险防范措施。

于本发明的一实施例中，在所述数据获取步骤中，在所述数据获取步骤中，所述乘客端APP和司机端APP的数据库数据包括以下信息的一种或多种：目标订单属性信息、用户历史行为信息、周边司机信息、环境信息。

于本发明的一实施例中，所述确定入模特征步骤包括：

在所述样本数据集中根据接单结果的特定情形给接单标记标签；

根据目标订单相关信息确定所述入模特征，所述目标订单相关信息包括目标订单属性信息、用户历史行为信息、周边司机信息、环境信息等；

基于相关指标进行所述入模特征的筛选。

于本发明的一实施例中，所述在所述样本数据集中根据接单结果的特定情形给接单形标记标签的步骤中，如果出现第一特定情形，即目标用户在下单后，订单被司机接单且后续无撤单行为，则对该所述订单在对应的样本数据集中标记为0；如果出现第二特定情形，即所述目标用户在下单后未成单，即所述订单未被所述司机接单或所述订单被所述司机接单后发生撤单行为，则对该所述订单在所述对应的样本数据集中标记为1。

于本发明的一实施例中，所述相关指标包括可得性指标、可解释性指标、信息量指标、相关性指标和稳定性指标。

于本发明的一实施例中，

所述可得性指标，用于评估该特征在线上能否复现开发；

所述可解释性，用于评估标该特征对最终的结果能否解释；

所述相关性指标为计算特征的皮尔逊相关系数，用于评估所述特征间的相关性；

所述信息量指标为计算特征的信息量IV，用于评估所述特征的预测能力；

所述稳定性指标为计算特征的群体稳定性指标PSI，用于评估所述特征的稳定性。

于本发明的一实施例中，所述训练模型步骤包括：

根据筛选后得到的入模特征，采用机器学习算法，训练所述接单率预测模型；

评估所述接单率预测模型，判断所述接单率预测模型预测订单是否成单的正确率。

于本发明的一实施例中，所述筛选后得到的入模特征包括：订单特征、用户特征、司机数据、交通状况和天气特征。

于本发明的一实施例中，所述机器学习算法，可以是随机森林算法、XGBoost算法或决策树算法。

于本发明的一实施例中，在所述训练模型步骤中，将所述订单样本数据集根据预设比例划分为训练集和验证集；对所述训练集的数据根据筛选后的所述入模特征，采用所述机器学习算法，进行所述接单率预测模型的训练；所述验证集的数据用于对训练好的所述接单率预测模型进行输出结果的验证，以判断所述训练好的所述接单率预测模型是否符合预设要求。

于本发明的一实施例中，一种网约车异常订单的接单率预测***，所述***执行前述方法，包括：

订单样本数据集获取模块，获取订单样本数据集；

样本数据集标记标签模块，在所述订单样本数据集中按照特定情形对各订单标记接单标签；

特征设计与开发模块，根据所述订单样本数据集中的目标订单属性信息、用户历史行为信息、周边司机信息、环境信息等数据，进行入模特征的设计与开发；

特征筛选模块，根据入模特征和已标记标签的订单样本数据集，基于以下物业指标中的一种或多种：可得性指标、可解释性指标、信息量指标、相关性指标和稳定性指标，进行所述入模特征的筛选；

接单率预测模型训练模块，将所述订单样本数据集根据预设比例划分为训练集与验证集，然后根据筛选后的所述入模特征，采用机器学习算法，进行接单率预测模型的训练，并对所述接单率预测模型的参数进行优化，最终得到接单率预测模型；

接单率预测模型评估模块，使用所述订单样本数据集所划分的所述验证集对训练好的所述接单率预测模型的输出结果进行验证，判断所述接单率预测模型对各类风险用户的识别正确率是否达到预设阈值；

优化异常订单处罚决策模块，根据所述接单率预测模型的预测结果，优化决策风险防范措施。

如上所述，本发明的网约车异常订单的接单率预测方法及***，具有以下有益效果：全方位考虑司机状态信息、订单信息、用户信息及环境因素等数据刻画入模特征，提高了接单率预测模型的预测精确率。并且基于接单率预测模型，优化决策是否对订单进行预支付或者充值处罚，提升了风控误判的正常订单用户体验。

附图说明

图1显示为本发明的网约车异常订单的接单率预测方法的步骤示意图。

图2显示为本发明的网约车异常订单的接单率预测方法的一较佳实施例的步骤示意图。

图3显示为本发明的网约车异常订单的接单率预测***的数据流向示意图。

图4显示为本发明的网约车异常订单的接单率预测***应用的框架示意图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其它优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。还应当理解，本发明实施例中使用的术语是为了描述特定的具体实施方案，而不是为了限制本发明的保护范围。下列实施例中未注明具体条件的试验方法，通常按照常规条件，或者按照各制造商所建议的条件。

请参阅图1至图4。须知，本说明书所附图式所绘示的结构、比例、大小等，均仅用以配合说明书所揭示的内容，以供熟悉此技术的人士了解与阅读，并非用以限定本发明可实施的限定条件，故不具技术上的实质意义，任何结构的修饰、比例关系的改变或大小的调整，在不影响本发明所能产生的功效及所能达成的目的下，均应仍落在本发明所揭示的技术内容所能涵盖的范围内。同时，本说明书中所引用的如“上”、“下”、“左”、“右”、“中间”及“一”等的用语，亦仅为便于叙述的明了，而非用以限定本发明可实施的范围，其相对关系的改变或调整，在无实质变更技术内容下，当亦视为本发明可实施的范畴。

请参阅图1至图4，作为一个优选实施例，本发明提供一种网约车异常订单的接单率预测方法，具体如图1所示，主要包括以下步骤：

S1：数据获取步骤，获取订单样本数据集，包括乘客端APP和司机端APP的数据库数据；

S2：确定入模特征步骤，基于所述订单样本数据集，标记接单标签，确定所述入模特征，包括所述入模特征的筛选；

S3：训练模型步骤，通过训练和评估，获得接单率预测模型；

S4：模型应用步骤，将需要预测的订单信息输入到所述接单率预测模型中，输出所述订单接单率的预测，根据所述预测结果，优化决策风险防范措施。

在S1数据获取步骤中，用户在平台打车，使用了乘客端APP或者小程序，就会产生数据。同样，司机使用司机端App接单，也会产生司机的数据，基于这些数据就可以进行特征的设计与开发，得到特征数据。

在S2确定入模特征步骤中，根据目标订单周边司机信息、订单信息等设计与开发特征，可以是基于专家经验根据可用数据设计开发特征，例如圈定一个六边形的范围，统计这个范围内在过去10分钟内的叫单用户数，也可以统计在这个圈内的司机数量，设计“订单周边叫单时用户数”、“周边空闲司机数”等特征。

在S3训练模型步骤中，将样本数据集根据预设比例划分为训练集与验证集，其中训练集用于训练接单率预测模型，验证集用于对训练好的接单率预测模型进行输出结果的验证，判断所训练的接单率预测模型是否符合预设要求，然后，根据筛选后的特征，采用机器学习算法，如随机森林、XGBoost(eXtreme Gradient Boosting)、决策树等，进行接单率预测模型的训练，经过优化后，最终得到接单率预测模型。

在S4模型应用步骤中，将接单率模型应用到具体场景中，首先将需要预测的订单输入到接单率模型中，可以得到一个预测结果，根据该预测结果决定是否需要采取风险方法措施(是否对订单进行预支付或者充值处罚等措施)。

在本发明一个优选实施例中的方法(如图2所示)，包括以下步骤：

S21：获取订单样本数据集，包含目标订单属性信息、用户历史行为信息、周边司机信息、环境信息；

S22：将样本数据集根据特定情形标记标签；

S23：根据目标订单周边司机信息、订单信息等设计与开发特征；

S24：基于相关指标进行入模特征的筛选；

S25：根据筛选后的特征，采用机器学习算法，训练接单率预测模型；

S26：评估接单率预测模型，判断模型预测订单是否成单的正确率；

S27：根据接单率预测模型对订单成单的预测结果，优化决策是否处罚订单。

在第一步骤S21中，首先获取订单样本集，该订单样本集是在某一时间周期内的若干个订单样本。

具体地，主要包括目标订单属性信息、用户历史行为信息、目标订单周边司机信息及环境信息，相关信息包括但不限于：周边司机位置信息、司机服务状态信息、司机在线时长、下单时间、下单时用户所处位置、订单价格、订单起终点位置、交通状况、天气等。其中，用户指下单乘客。数据来源于用户在平台打车使用的乘客端APP或者小程序所产生的用户数据，以及司机用的司机端App接单所产生的司机数据。

在第二步骤S22中，按照接单结果的特定情形对样本数据集中的各订单标记标签。

具体地，在样本数据集中增加一列标签列，如果出现第一特定情形，即目标用户在下单后，订单被司机接单且后续无撤单行为，则对该订单在对应的样本数据集中标记为0；如果出现第二特定情形，即目标用户在下单后未成单，即订单未被司机接单或订单被司机接单后发生撤单行为，则对该订单在对应的样本数据集中标记为1。

在第三步骤S23中，根据目标订单属性信息、用户历史行为信息、周边司机信息、环境信息等数据，进行入模特征的设计与开发，即根据目标订单相关信息确定入模特征。

具体地，所开发的特征包括但不限于：订单周边叫单用户数、订单周边司机数、订单周边接单比、订单周边折后金额等订单特征；用户叫单数、用户成单数、用户成单比、用户撤单数、用户历史撤单等待时间等用户特征；周边空闲司机数、周边司机在线时长、周边司机接单量、周边司机派单接单比、周边司机距订单起点距离等司机数据；以及交通状况、天气特征等。

在第四步骤S24中，基于但不限于可得性指标、可解释性指标、信息量指标、相关性指标、稳定性指标等相关指标，进行入模特征的筛选。

具体地，可得性指标需综合考虑产品流程设计、用户授权协议、合规需求、模型应用环节等诸多方面，判定特征数据是否持续可得。在本发明中指该特征在线上能否复现开发，例如线上因为特征开发成本太高，则该特征大概率会被舍弃。

可解释性指标是指特征的业务逻辑要清晰，需符合业务可解释性。在本发明中该特征对最终的结果能否解释，例如一个特征的结果不符合常理(大多由业务方来定)，那这个特征可能就会被舍弃。

信息量指标为计算特征的信息量IV，用于评估特征的预测能力。通常情况下，IV越高，预测能力越强。当特征IV值大于设定阈值时(一般设为0.02)，说明特征具有预测能力,满足入模要求。

相关性指标是指计算特征的皮尔逊相关系数，用以评估特征间的相关性。两特征相关系数越接近0，说明线性相关性越弱，越接近1或-1，说明线性相关性越强。当两特征间的相关系数大于设定阈值时，(一般设为0.6)，剔除IV值较低的特征。

稳定性指标是计算特征的群体稳定性指标PSI(Population Stability Index)，用于评估特征的稳定性。当PSI值在设定阈值范围内时(一般设为0～0.1)，表明特征没有变化或很少变化，满足稳定性要求。

在第五步骤S25中，首先，将样本数据集根据预设比例划分为训练集与验证集，其中训练集用于训练接单率预测模型，验证集用于对训练好的接单率预测模型进行输出结果的验证，判断所训练的接单率预测模型是否符合预设要求。然后，根据筛选后的特征，采用机器学习算法，如随机森林算法、XGBoost算法、决策树算法等，进行接单率预测模型的训练，经过优化后，最终得到接单率预测模型。

其中，模型训练为通过有标签样本来调整(学习)并确定所有权重Weights和偏差Bias的理想值。训练的目标就是最小化损失函数，机器学习算法在训练过程中，做的就是：检查多个样本并尝试找出可最大限度地减少损失的模型，目标就是将损失(Loss)最小化。

训练参数是指机器学习算法用到的参数，以决策树为例：包括树的深度、叶子节点的数量、节点能够分割的最小样本数等等。参数的调整为了能够获得更好的模型效果(最小化损失函数)，提高模型对未成单订单预测的正确率。

要获得最佳参数，最简单的例子就是通过计算整个数据集中每个可能值的损失函数来找到收敛点，得到最佳参数：1.计算损失：通过损失函数，计算该次参数(bias、weight)下的损失(Loss)。2.计算参数更新：检测损失函数的值，并为参数如bias、weight生成新值，以降低损失为最小。最佳参数下的模型就是最佳模型，最佳模型的损失函数最小。

在第六步骤S26中，使用订单样本数据集所划分的验证集的数据对训练好的接单率预测模型的输出结果进行验证，判断接单率预测模型对各类风险用户的识别正确率是否达到预设阈值。其中，对未成单订单预测的正确率主要包括两个指标：标记为1的订单样本识别的精确率和标记为1的订单样本识别的召回率。精确率、召回率两个指标定义如下：精确率＝TP/(TP+FP)，召回率＝TP/(TP+FN)；其中，TP：标记为1的样本，预测为1；FP：标记为0的样本，预测为1；FN：标记为1的样本，预测为0。

在第七步骤S27中，根据接单率预测模型的预测结果，优化决策是否对订单进行预支付或充值处罚，从而提升风控误判的正常订单用户体验。

具体的，针对已上线对判别风险用户叫单会进行处罚的策略和模型，利用接单率预测模型判断订单后续是否成单，若成单则保持原处罚，否则将原处罚取消或替换为其它处罚，以优化模型处罚，降低无效处罚，提升用户叫单体验。

图3所示为本发明网约车异常订单的接单率预测***的数据流向示意图。本发明的***用于执行本发明的方法，包括但不限于以下7个模块，分别是：

订单样本数据集获取模块31，负责从手机端采集若干用户指定时间段内订单样本数据。即执行步骤S21获取订单样本集合，且该订单样本集合是在某一时间周期内的若干个订单样本。

样本数据集标记标签模块32，是将订单样本数据集根据特定情形对样本数据集中各个订单标记标签，即执行步骤S22。

特征设计与开发模块33，根据订单样本集中的目标订单属性信息、用户历史行为信息、周边司机信息、环境信息等数据，进行入模特征的设计与开发，即执行步骤S23。

特征筛选模块34，根据入模特征和已标记标签的样本数据集，可基于可得性指标、可解释性指标、信息量指标、相关性指标和稳定性指标等相关指标，进行入模特征的筛选，即执行步骤S24。其中相关指标可以为一种或多种，且可不限于上述指标。

接单率预测模型训练模块35，根据筛选后的特征，采用机器学习算法训练得到接单率预测模型，接单率预测模型的训练可以使用GBDT(Gradient Boosting DecisionTree)、神经网络等算法，即执行步骤S25。

接单率预测模型评估模块36，对训练好的接单率预测模型的输出结果进行验证，接单率预测模型的评估可以使用ROC曲线(Receiver Operating Characteristic Curve)、F1分数等指标，即执行步骤S26。

优化异常订单处罚决策模块37，根据接单率预测模型的预测结果，决策是否对订单进行处罚，即执行步骤S27。

图4所示的是应用本发明方法的一个示例性实施例，对于风控算法解决问题应用本发明的思路具体可以包括以下4点：

1、获取原始数据域，主要是获取乘客端APP及司机端APP返回的用户埋点数据、行为数据、设备数据、订单数据等等；

2、基于原始数据域，进行入模特征的设计与开发，包括入模特征的变换与筛选；

3、选择合适的算法，训练模型；

4、将模型应用于具体场景。

具体的，假设某公司的***里面有一个数据库，可以得到原始样本数据。每笔订单发生的事情都会在数据库里面记录下来。当需要进行网约车异常订单的接单率预测方法开发，要训练出这样一个模型时，可以把这个数据库导出来，作为包含千万条记录的原始样本数据来使用。这个样本数据库本身包含大量的订单数据，可以用来训练模型。训练模型的关键就是输入样本数据越多越好。机器(例如电脑)可以从大量样本数据里面进行分析，自己去找出规律，来设计(学习)出一套人类无法完成的订单率预测模型。

对订单率预测模型的评估方法是在千万个原始数据里面挑选若干条，输入到这个模型里面去。将模型输出结果与实际情况比对，例如订单率预测模型预测这笔订单是不能成交的，然后跟实际已经发生的结果去进行比对。这笔订单确实是成交了，或是没成交，如果结果一致，订单率预测模型的预测就是正确的。例如取1000笔订单根据以上方法来验证评估，就可以知道模型的正确率是多少。

确定好订单率预测模型之后，应用在实际的运营过程当中时，如果有一笔订单进来，用户名字、电话、以往的订单表现，背景资料等，都可以在数据库里面查到，再加上当天当时的订单发生的时间、地点、实际情况等，所有信息形成了一个实时订单当时的完整信息。

将实时的订单信息输入到订单率预测模型里面进行判断，即可预计接单的成功率是多少，要不要接单。如果订单率预测模型预测风险很高，就不接单(可以有几种处理情形：1.必须先预充钱款2.必须先交保证金3.没有空闲司机，不接单等)，订单率预测模型预测风险很低，就立即接单，即为实际的应用。

综上所述，本发明基于司机状态信息与用户订单信息进行特征的设计与开发，使用司机位置信息、司机服务状态信息、司机在线时长、司机接单量、司机派单接单比、司机距离订单起点的距离等司机数据，订单价格、订单起终点位置、订单周边叫单用户数、订单周边司机数、订单周边接单比等订单数据，以及交通状况、天气等环境因素，全方位刻画影响接单的入模特征，以提高接单率预测模型的精确率。

基于所开发的特征，采用机器学习算法，训练接单率预测模型，预测订单被司机接单且后续未撤单的概率，优化决策是否对订单进行预支付或者充值处罚，提升风控误判的正常订单用户体验。所以，本发明有效克服了现有技术中的种种缺点而具高度产业利用价值。

上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本发明的权利要求所涵盖。

Claims

1.一种网约车异常订单的接单率预测方法，包括：

训练模型步骤，通过训练和评估，获得接单率预测模型；

2.根据权利要求1所述的网约车异常订单的接单率预测方法，其特征在于，在所述数据获取步骤中，所述乘客端APP和司机端APP的数据库数据包括以下信息的一种或多种：目标订单属性信息、用户历史行为信息、周边司机信息、环境信息。

3.根据权利要求1所述的网约车异常订单的接单率预测方法，其特征在于，所述确定入模特征步骤包括：

基于相关指标进行所述入模特征的筛选。

4.根据权利要求3所述的网约车异常订单的接单率预测方法，其特征在于：所述在所述样本数据集中根据接单结果的特定情形给接单形标记标签的步骤中，如果出现第一特定情形，即目标用户在下单后，订单被司机接单且后续无撤单行为，则对该所述订单在对应的样本数据集中标记为0；如果出现第二特定情形，即所述目标用户在下单后未成单，即所述订单未被所述司机接单或所述订单被所述司机接单后发生撤单行为，则对该所述订单在所述对应的样本数据集中标记为1。

5.根据权利要求3所述的接单率预测方法，其特征在于：所述相关指标包括可得性指标、可解释性指标、信息量指标、相关性指标和稳定性指标。

6.根据权利要求5述的网约车异常订单的接单率预测***，其特征在于：

所述可得性指标，用于评估该特征在线上能否复现开发；

所述可解释性，用于评估标该特征对最终的结果能否解释；

7.根据权利要求1所述的网约车异常订单的接单率预测方法，其特征在于：所述训练模型步骤包括：

8.根据权利要求7所述的接单率预测方法，其特征在于：所述筛选后得到的入模特征包括：订单特征、用户特征、司机数据、交通状况和天气特征。

9.根据权利要求7所述的网约车异常订单的接单率预测方法，其特征在于：所述机器学习算法，可以是随机森林算法、XGBoost算法或决策树算法。

10.如权利要求7所述的网约车异常订单的接单率预测方法，其特征在于：在所述训练模型步骤中，将所述订单样本数据集根据预设比例划分为训练集和验证集；对所述训练集的数据根据筛选后的所述入模特征，采用所述机器学习算法，进行所述接单率预测模型的训练；所述验证集的数据用于对训练好的所述接单率预测模型进行输出结果的验证，以判断所述训练好的所述接单率预测模型是否符合预设要求。

11.一种网约车异常订单的接单率预测***，所述***执行权利要求1至10的方法，包括：

订单样本数据集获取模块，获取订单样本数据集；