CN108921581A

CN108921581A - 一种刷单操作识别方法、装置及计算机可读存储介质

Info

Publication number: CN108921581A
Application number: CN201810792415.5A
Authority: CN
Inventors: 宋亚统
Original assignee: Beijing Sankuai Online Technology Co Ltd
Current assignee: Beijing Sankuai Online Technology Co Ltd
Priority date: 2018-07-18
Filing date: 2018-07-18
Publication date: 2018-11-30
Anticipated expiration: 2038-07-18
Also published as: CN108921581B

Abstract

本申请提供一种刷单操作识别方法、装置及计算机可读存储介质，方法包括：获取满足预设条件的时间段内配送员的刷新操作信息，所述满足预设条件的时间段包括抢单过程中相邻两次抢单操作之间的时间段；根据所述刷新操作信息获取所述相邻两次抢单操作中后一次抢单操作的刷新操作特征；将所述刷新操作特征输入至预先训练的刷单操作识别模型中，得到所述后一次抢单操作是否为刷单操作的识别结果。本申请可以避免由于单个订单处理周期内掺杂其他订单的操作而影响刷单操作识别的问题，可以保证刷单操作识别的准确性，并可以为后续刷单行为的监管和控制提供依据，进而提升配送员和用户的体验。

Description

一种刷单操作识别方法、装置及计算机可读存储介质

技术领域

本申请涉及数据处理技术领域，尤其涉及一种刷单操作识别方法、装置及计算机可读存储介质。

背景技术

目前涉及线下配送的业务中，某些配送员为获取更高收益，会利用外挂软件刷单，以获取优质订单(例如，配送路程短、配送难度小或配送单价高的订单)。这种不公平竞争的行为会导致待处理的长尾订单(例如，配送路程长、配送难度大或配送单价低的订单)的数量增多，导致订单积压，配送业务效率降低，影响配送员和用户的体验。

发明内容

有鉴于此，本申请提供一种刷单操作识别方法、装置及计算机可读存储介质，可以准确地识别刷单操作，提升配送员和用户的体验。

具体地，本申请是通过如下技术方案实现的：

根据本申请的第一方面，提出了一种刷单操作识别方法，包括：

获取满足预设条件的时间段内配送员的刷新操作信息，所述满足预设条件的时间段包括抢单过程中相邻两次抢单操作之间的时间段；

根据所述刷新操作信息获取所述相邻两次抢单操作中后一次抢单操作的刷新操作特征；

将所述刷新操作特征输入至预先训练的刷单操作识别模型中，得到所述后一次抢单操作是否为刷单操作的识别结果，所述刷单操作识别模型为根据目标时间段内样本配送员的多条样本刷新操作信息进行训练的。

在一实施例中，所述获取满足预设条件的时间段内配送员的刷新操作信息，包括：

若检测到相邻两次抢单操作中后一次抢单操作，则获取满足预设条件的时间段内配送员的刷新操作信息。

在一实施例中，所述刷单操作识别模型根据以下步骤预先训练：

获取目标时间段内样本配送员的多条样本刷新操作信息，所述目标时间段包括抢单过程中相邻两次抢单操作之间的时间段；

根据每条所述样本刷新操作信息获取所述后一次样本抢单操作的样本刷新操作特征，得到所述多条样本刷新操作信息的多个样本刷新操作特征；

对所述多个样本刷新操作特征进行分类，得到对应于非刷单操作的正样本刷新操作特征和对应于刷单操作的负样本刷新操作特征；

利用所述正样本刷新操作特征和所述负样本刷新操作特征对待训练的刷单操作识别模型进行训练。

在一实施例中，所述对所述多个样本刷新操作特征进行分类，得到对应于非刷单操作的正样本刷新操作特征和对应于刷单操作的负样本刷新操作特征，包括：

采用预设的无监督算法，对所述多个样本刷新操作特征中第一数量的样本刷新操作特征进行分类，得到用于表征所述第一数量的样本刷新操作特征中的正样本刷新操作特征和负样本刷新操作特征的第一分类结果；

基于所述第一分类结果，采用预设的半监督算法，对所述多个样本刷新操作特征中第二数量的样本刷新操作特征进行分类，得到用于表征所述第二数量的样本刷新操作特征中的正样本刷新操作特征和负样本刷新操作特征的第二分类结果；

其中，所述第二数量的样本刷新操作特征为所述多个样本刷新操作特征中除所述第一数量的样本刷新操作特征之外的特征，且所述第一数量小于所述第二数量。

在一实施例中，所述方法还包括：

对所述第一分类结果中类别划分错误的正样本刷新操作特征或负样本刷新操作特征进行校正，得到校正后的第一分类结果；

基于所述校正后的第一分类结果执行所述对所述多个样本刷新操作特征中第二数量的样本刷新操作特征进行分类的操作。

在一实施例中，所述样本刷新操作特征包括以下至少一项：

所述目标时间段内的刷新操作次数、所述目标时间段的时长、所述目标时间段内最后一次刷新操作和所述后一次抢单操作之间的时间间隔、所述目标时间段内的刷新操作频率、所述目标时间段内的更新刷新比、所述目标时间段内终端设备屏幕的压力值、所述目标时间段内终端设备屏幕的滑动次数；

所述更新刷新比用于表征第一次数与第二次数的比值，所述第一次数为所述目标时间段内通过刷新操作得到新订单的次数，所述第二次数为所述目标时间段内的刷新操作次数。

在一实施例中，所述样本刷新操作特征的维度高于三维；

所述利用所述正样本刷新操作特征和所述负样本刷新操作特征对待训练的刷单操作识别模型进行训练之前，所述方法还包括：

分别对所述正样本刷新操作特征和所述负样本刷新操作特征进行PCA降维处理，得到所述正样本刷新操作特征对应的正样本三维特征和所述负样本刷新操作特征对应的负样本三维特征；

将所述正样本三维特征和所述负样本三维特征投影到预设的三维空间，得到所述正样本三维特征和所述负样本三维特征的分布状态信息，所述分布状态信息用于表征所述正样本三维特征和所述负样本三维特征在所述三维空间中的接近程度；

根据所述正样本三维特征和所述负样本三维特征在所述三维空间中的接近程度确定待训练的刷单操作识别模型。

在一实施例中，所述方法还包括：

若所述识别结果表征所述后一次抢单操作是刷单操作，则禁止响应所述后一次抢单操作；

若所述识别结果表征所述后一次抢单操作不是刷单操作，则允许响应所述后一次抢单操作。

根据本申请的第二方面，提出了一种刷单操作识别装置，包括：

操作信息获取模块，用于获取满足预设条件的时间段内配送员的刷新操作信息，所述满足预设条件的时间段包括抢单过程中相邻两次抢单操作之间的时间段；

操作特征获取模块，用于根据所述刷新操作信息获取所述相邻两次抢单操作中后一次抢单操作的刷新操作特征；

识别结果获取模块，用于将所述刷新操作特征输入至预先训练的刷单操作识别模型中，得到所述后一次抢单操作是否为刷单操作的识别结果，所述刷单操作识别模型为根据目标时间段内样本配送员的多条样本刷新操作信息进行训练的。

在一实施例中，所述操作信息获取模块还用于当检测到相邻两次抢单操作中后一次抢单操作时，获取满足预设条件的时间段内配送员的刷新操作信息。

在一实施例中，所述装置还包括识别模型训练模块，用于根据以下步骤预先训练刷单操作识别模型；

所述识别模型训练模块包括：

样本信息获取单元，用于获取目标时间段内样本配送员的多条样本刷新操作信息，所述目标时间段包括抢单过程中相邻两次抢单操作之间的时间段；

样本特征获取单元，用于根据每条所述样本刷新操作信息获取所述后一次样本抢单操作的样本刷新操作特征，得到所述多条样本刷新操作信息的多个样本刷新操作特征；

样本特征分类单元，用于对所述多个样本刷新操作特征进行分类，得到对应于非刷单操作的正样本刷新操作特征和对应于刷单操作的负样本刷新操作特征；

识别模型训练单元，用于利用所述正样本刷新操作特征和所述负样本刷新操作特征对待训练的刷单操作识别模型进行训练。

在一实施例中，所述样本特征分类单元还用于：

在一实施例中，所述样本刷新操作特征包括以下至少一项：

在一实施例中，所述样本刷新操作特征的维度高于三维；

所述装置还包括：识别模型确定模块；

所述识别模型确定模块还包括：

样本特征降维单元，用于分别对所述正样本刷新操作特征和所述负样本刷新操作特征进行PCA降维处理，得到所述正样本刷新操作特征对应的正样本三维特征和所述负样本刷新操作特征对应的负样本三维特征；

状态信息获取单元，用于将所述正样本三维特征和所述负样本三维特征投影到预设的三维空间，得到所述正样本三维特征和所述负样本三维特征的分布状态信息，所述分布状态信息用于表征所述正样本三维特征和所述负样本三维特征在所述三维空间中的接近程度；

识别模型确定单元，用于根据所述正样本三维特征和所述负样本三维特征在所述三维空间中的接近程度确定待训练的刷单操作识别模型。

所述装置还包括：抢单操作处理模块；

所述抢单操作处理模块，包括：

操作禁止响应单元，用于当所述识别结果表征所述后一次抢单操作是刷单操作时，禁止响应所述后一次抢单操作；

操作允许响应单元，用于当所述识别结果表征所述后一次抢单操作不是刷单操作时，允许响应所述后一次抢单操作。

根据本申请的第三方面，提出了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行上述任一所述的刷单操作识别方法。

本申请通过获取满足预设条件的时间段内配送员的刷新操作信息，并根据所述刷新操作信息获取所述相邻两次抢单操作中后一次抢单操作的刷新操作特征，进而将所述刷新操作特征输入至预先训练的刷单操作识别模型中，得到所述后一次抢单操作是否为刷单操作的识别结果，可以避免由于单个订单处理周期内掺杂其他订单的操作而影响刷单操作识别的问题，可以保证刷单操作识别的准确性，并可以为后续刷单行为的监管和控制提供依据，进而提升配送员和用户的体验。

附图说明

图1A是本申请一示例性实施例示出的一种刷单操作识别方法的流程图；

图1C是本申请一示例性实施例示出的满足预设条件的时间段的示意图；

图1B是本申请一示例性实施例示出的订单处理流程的示意图；

图2是本申请又一示例性实施例示出的一种刷单操作识别方法的流程图；

图3A是本申请一示例性实施例示出的如何对所述多个样本刷新操作特征进行分类的流程图；

图3B是本申请一示例性实施例示出的对多个样本刷新操作特征进行分类的效果示意图；

图4是本申请又一示例性实施例示出的如何对所述多个样本刷新操作特征进行分类的流程图；

图5是本申请又一示例性实施例示出的一种刷单操作识别方法的流程图；

图6是本申请又一示例性实施例示出的一种刷单操作识别方法的流程图；

图7是本申请一示例性实施例示出的一种刷单操作识别装置的结构框图；

图8是本申请又一示例性实施例示出的一种刷单操作识别装置的结构框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

在本申请使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本申请可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本申请范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

图1A是本申请一示例性实施例示出的一种刷单操作识别方法的流程图；该实施例可以用于服务端(例如，一台服务器和多台服务器组成的服务器集群等)。如图1A所示，该方法包括步骤S101-S103：

S101：获取满足预设条件的时间段内配送员的刷新操作信息。

在一实施例中，上述刷新操作信息可以为配送员为了获取待配送订单而在终端设备的客户端上执行的刷新操作的信息。

在一实施例中，所述满足预设条件的时间段包括上述同一配送员在抢单过程中执行的相邻两次抢单操作之间的时间段。

值得说明的是，通常情况下，配送员客户端中的订单处理流程大致有以下几个步骤：1、刷新，2、查看详情页，3、查看配送路径(二级详情页)，4、抢单，5、到店，6、送达。而在这几个步骤中，刷新、查看详情页和查看配送路径操作可以在一个订单周期中存在若干次，而抢单，到店和送达操作每个订单只能操作一次。因此，为了制定刷单操作识别方案，首要的任务就是确定方案的研究对象。

表面上看来，方案的研究对象应该是各个订单，但实际上如果把订单作为研究对象，由于一个订单周期内可能包含有针对其他订单的操作，并且配送员的一个操作也可能对应多个订单，则会导致一个订单维度的数据掺杂其他订单的干扰信息。图1B是本申请一示例性实施例示出的订单处理流程的示意图；如图1B所示，配送员先刷新得到订单A、B、C，然后执行抢订单A操作，接着又刷新得到了订单D、E，并执行抢订单D操作，之后到店取订单A……。可以看出，订单A的处理周期中掺进了订单D的操作，即订单A的数据中掺杂了订单D的干扰信息。

而如果一个订单维度的数据掺杂其他订单的干扰信息，则会影响该订单的识别效果，因此直接把完整的订单周期作为研究对象是不合理的。

考虑到上述问题，发明人经过试验发现，可以采用满足预设条件的时间段内的配送员的刷新操作信息作为研究对象，并且，可以采用以下两种方式确定该满足预设条件的时间段：

第一种方式，若相邻两次抢单操作之间存在刷新操作，可以将抢单过程中相邻两次抢单操作之间的时间段直接确定为满足预设条件的时间段。

举例来说，图1C为本申请一示例性实施例示出的满足预设条件的时间段的示意图。如图1C所示，若相邻两次抢单操作之间的时间段为前一订单A的抢单时刻T1至后一订单B的抢单时刻T2之间的时间段S1，则该满足预设条件的时间段可以确定为该时间段S1。

第二种方式，若相邻两次抢单操作之间不存在刷新操作，可以将包含相邻两次抢单操作之间的时间段的、长度更长的时间段确定为满足预设条件的时间段。

举例来说，如图1C所示，该满足预设条件的时间段可以确定为T1时刻之间的指定时刻T0至T2时刻的时间段S2。

值得说明的是，上述更长的时间段可以由开发人员根据经验进行设定，例如设置为5分钟、10分钟等，本实施例对此不进行限定。举例来说，若开发人员经过大量数据分析得知，90％左右的相邻两次抢单操作之间的时间段都是小于五分钟的，而大于五分钟的相邻两次抢单操作之间的时间段(例如当前的第一次刷单操作与前一天的最后一次操作之间的时间段)中，后一次抢单操作的五分钟之前的操作，对刷单操作的判别并没有太大意义，则可以将五分钟确定为一个满足预设条件的时间段。

在一实施例中，可以当检测到相邻两次抢单操作中后一次抢单操作时，获取满足预设条件的时间段内配送员的刷新操作信息，进而可以在基于该刷新操作信息确定所述后一次抢单操作为刷单操作时，对该抢单操作予以禁止。

S102：根据所述刷新操作信息获取所述相邻两次抢单操作中后一次抢单操作的刷新操作特征。

在一实施例中，当获取满足预设条件的时间段内配送员的刷新操作信息后，可以根据该刷新操作信息获取所述相邻两次抢单操作中后一次抢单操作的刷新操作特征。

值得说明的是，本实施例是通过研究每个订单抢单操作之前的刷新操作情况来对确定该抢单操作是否为刷单操作，因而对于相邻两次抢单操作而言，后一次抢单操作才是真正的识别客体。

在一实施例中，上述刷新操作特征可以为既能很好地突出对应的刷新操作信息的特点，又能表现出与其他刷新操作信息的区别与联系的特征，以增强特征辨识度。

在一可选的实施例中，可以根据所述刷新操作信息获取一种特征，或者同时获取多种特征(获取特征的数量与后续训练的识别模型在训练过程获取的样本特征的种类相对应)，以充分全面地表现出该刷新操作信息的特点。

S103：将所述刷新操作特征输入至预先训练的刷单操作识别模型中，得到所述后一次抢单操作是否为刷单操作的识别结果。

其中，所述刷单操作识别模型为根据目标时间段内样本配送员的多条样本刷新操作信息进行训练的。

在一实施例中，可以预先训练刷单操作识别模型，例如，可以通过获取样本配送员的多条样本刷新操作信息，并根据所述多条样本刷新操作信息进行特征提取，进而根据提取的特征和标定结果训练选定的刷单操作识别模型。在一实施例中，该刷单操作识别模型的训练方式可以参见显示图2实施例，在此先不进行详述。

在一实施例中，当根据所述刷新操作信息获取所述相邻两次抢单操作中后一次抢单操作的刷新操作特征后，可以将得到的刷新操作特征输入至上述预先训练的刷单操作识别模型中，以得到所述后一次抢单操作是否为刷单操作的识别结果。

在一实施例中，上述识别结果可以用于表征所述后一次抢单操作是刷单操作，或不是刷单操作。

由上述描述可知，本实施例针对抢单过程中两次抢单操作之间的时间段的刷新操作信息获取相应的刷新操作特征，进而基于预先训练的刷单操作识别模型可以准确地识别抢单操作是否为刷单操作，由于是以相邻两次抢单之间的时间段内的刷新操作为研究对象，因而可以避免由于单个订单处理周期内掺杂其他订单的操作而影响刷单操作识别的问题，可以保证刷单操作识别的准确性，并可以为后续刷单行为的监管和控制提供依据，进而提升配送员和用户的体验。

图2是本申请又一示例性实施例示出的一种刷单操作识别方法的流程图；该实施例可以用于服务端(例如，一台服务器和多台服务器组成的服务器集群等)。如图2所示，该方法包括步骤S201-S207：

S201：获取目标时间段内样本配送员的多条样本刷新操作信息。

在一实施例中，上述样本刷新操作信息可以为配送员为了获取待配送订单而在终端设备的客户端上执行的刷新操作的信息。

在一实施例中，所述目标时间段包括抢单过程中相邻两次抢单操作之间的时间段。

基于图1A所示实施例中确定满足预设条件的时间段的相似理由，本实施例中可以采用目标时间段内的配送员的样本刷新操作信息作为研究对象，并且，可以采用以下两种方式确定该目标时间段：

第一种方式，若相邻两次抢单操作之间存在刷新操作，可以将抢单过程中相邻两次抢单操作之间的时间段直接确定为目标时间段。

第二种方式，若相邻两次抢单操作之间不存在刷新操作，可以将包含相邻两次抢单操作之间的时间段的、长度更长的时间段确定为目标时间段。

在一实施例中，为了确保训练的刷单操作识别模型的准确性，可以获取多条样本刷新操作信息，该多条样本刷新操作信息可以来源于多个配送员。

S202：根据每条所述样本刷新操作信息获取所述后一次样本抢单操作的样本刷新操作特征，得到所述多条样本刷新操作信息的多个样本刷新操作特征。

在一实施例中，当获取目标时间段内样本配送员的多条样本刷新操作信息后，可以根据该多条样本刷新操作信息获取所述后一次样本抢单操作的样本刷新操作特征，以得到所述多条样本刷新操作信息的多个样本刷新操作特征。

在一实施例中，上述样本刷新操作信息可以为既能很好地突出对应的样本刷新操作信息的特点，又能表现出与其他样本刷新操作信息的区别与联系的特征，以增强特征辨识度。

在一可选的实施例中，可以根据所述样本刷新操作信息获取一种特征，或者同时获取多种特征，以充分全面地表现出该样本刷新操作信息的特点。

在一实施例中，上述样本刷新操作特征可以包括以下至少一项：

S203：对所述多个样本刷新操作特征进行分类，得到对应于非刷单操作的正样本刷新操作特征和对应于刷单操作的负样本刷新操作特征。

在一实施例中，当得到所述多条样本刷新操作信息的多个样本刷新操作特征后，可以对所述多个样本刷新操作特征进行分类，即通过预设的分类算法从所述多个样本刷新操作特征确定对应于非刷单操作的正样本刷新操作特征和对应于刷单操作的负样本刷新操作特征。

在一实施例中，可以由开发人员根据实际样本刷新操作特征的数量、分类难度等确定合适的机器学习算法，如无监督的学习算法(如k-means聚类算法等)、半监督的学习算法(如，K-近邻算法等)以及其他有监督的学习算法，本实施例对此不进行限定。

在一实施例中，上述对所述多个样本刷新操作特征进行分类的方式还可以参见下述图3A所示实施例，在此先不进行详述。

S204：利用所述正样本刷新操作特征和所述负样本刷新操作特征对待训练的刷单操作识别模型进行训练。

在一实施例中，当对所述多个样本刷新操作特征进行分类，得到对应于非刷单操作的正样本刷新操作特征和对应于刷单操作的负样本刷新操作特征后，可以利用所述正样本刷新操作特征和所述负样本刷新操作特征，对预先确定的待训练的刷单操作识别模型进行训练，得到刷单操作识别模型。

在一实施例中，上述刷单操作识别模型的确定方法可以参见下述图5所示实施例，在此先不进行详述。

S205：获取满足预设条件的时间段内配送员的刷新操作信息，所述满足预设条件的时间段包括抢单过程中相邻两次抢单操作之间的时间段。

S206：根据所述刷新操作信息获取所述相邻两次抢单操作中后一次抢单操作的刷新操作特征。

S207：将所述刷新操作特征输入至预先训练的刷单操作识别模型中，得到所述后一次抢单操作是否为刷单操作的识别结果。

其中，步骤S205-S207的相关解释说明可以参见上述实施例，在此不进行赘述。

由上述描述可知，本实施例通过获取目标时间段内样本配送员的多条样本刷新操作信息，并根据每条所述样本刷新操作信息获取所述后一次样本抢单操作的样本刷新操作特征，得到所述多条样本刷新操作信息的多个样本刷新操作特征，再对所述多个样本刷新操作特征进行分类，得到对应于非刷单操作的正样本刷新操作特征和对应于刷单操作的负样本刷新操作特征，进而利用所述正样本刷新操作特征和所述负样本刷新操作特征对待训练的刷单操作识别模型进行训练，可以得到刷单操作识别模型，进而可以实现后续基于该刷单操作识别模型准确地识别抢单操作是否为刷单操作，由于是以相邻两次抢单之间的时间段内的刷新操作为研究对象，因而可以避免由于单个订单处理周期内掺杂其他订单的操作而影响刷单操作识别的问题，可以保证刷单操作识别模型的准确性，为后续刷单行为的监管和控制提供依据，进而提升配送员和用户的体验。

图3A是本申请一示例性实施例示出的如何对所述多个样本刷新操作特征进行分类的流程图；图3B是本申请一示例性实施例示出的对多个样本刷新操作特征进行分类的效果示意图。

本实施例在上述实施例的基础上，以如何对所述多个样本刷新操作特征进行分类为例进行示例性说明。

值得说明的是，为了确保训练的刷单操作识别模型的准确性，可能需要获取大量的样本刷新操作信息，进而确定大龄的样本刷新操作特征。在此情况下，如果仅采用无监督算法可能无法保证样本刷新操作特征的分类的准确性，进而会影响后续训练的模型的准确性。而如果仅采用有监督算法对大量的样本刷新操作信息进行分类，则需要耗费大量的人工成本。

考虑到上述问题，发明人经过试验发现，可以采用无监督算法和半监督算法相结合的方式对大量的样本刷新操作信息进行分类，如先采用无监督算法对少量的样本特征进行分类，再基于该少量的样本特征的分类结果，采用半监督算法对其余大量的样本特征进行分类，既可以保证分类准确性，又可以节省人工成本。

具体的，如图3A所示，步骤S203中所述对所述多个样本刷新操作特征进行分类，得到对应于非刷单操作的正样本刷新操作特征和对应于刷单操作的负样本刷新操作特征，可以包括以下步骤S301-S302：

S301：采用预设的无监督算法，对所述多个样本刷新操作特征中第一数量的样本刷新操作特征进行分类，得到用于表征所述第一数量的样本刷新操作特征中的正样本刷新操作特征和负样本刷新操作特征的第一分类结果。

在一实施例中，如图3B所示，当得到多个样本刷新操作特征后，可以从该多个样本刷新操作特征中获取第一数量的样本刷新操作特征。其中，该第一数量可以为多个样本刷新操作特征的总量的较小部分(即小样本集)。

在一实施例中，上述无监督算法可以由开发人员根据实际分类精度要求进行选取，如选取为K-means聚类算法等，本实施例对此不进行限定。

在一实施例中，采用上述预设的无监督算法对该第一数量的样本刷新操作特征进行分类后，可以从该第一数量的样本刷新操作特征中划分出正样本刷新操作特征和负样本刷新操作特征(该正样本刷新操作特征和负样本刷新操作特征的总量为所述第一数量)。

S302：基于所述第一分类结果，采用预设的半监督算法，对所述多个样本刷新操作特征中第二数量的样本刷新操作特征进行分类，得到用于表征所述第二数量的样本刷新操作特征中的正样本刷新操作特征和负样本刷新操作特征的第二分类结果。

在一实施例中，所述第二数量的样本刷新操作特征为所述多个样本刷新操作特征中除所述第一数量的样本刷新操作特征之外的特征，且所述第一数量小于所述第二数量。

具体来说，当从上述多个样本刷新操作特征中获取第一数量的样本刷新操作特征后，可以得到剩余的第二数量的样本刷新操作特征。显然，该第二数量可以为多个样本刷新操作特征的总量的较大部分(即大样本集)。

在一实施例中，上述半监督算法可以由开发人员根据实际分类精度要求进行选取，如选取为Label Propagation算法等，本实施例对此不进行限定。

在一实施例中，采用上述预设的半监督算法对该第二数量的样本刷新操作特征进行分类后，可以从该第二数量的样本刷新操作特征中划分出正样本刷新操作特征和负样本刷新操作特征(该正样本刷新操作特征和负样本刷新操作特征的总量为所述第二数量)。

如此，即实现了对所述多个样本刷新操作特征进行分类，得到对应于非刷单操作的正样本刷新操作特征和对应于刷单操作的负样本刷新操作特征。

由上述描述可知，本实施例通过采用预设的无监督算法，对所述多个样本刷新操作特征中第一数量的样本刷新操作特征进行分类，得到用于表征所述第一数量的样本刷新操作特征中的正样本刷新操作特征和负样本刷新操作特征的第一分类结果，并基于所述第一分类结果，采用预设的半监督算法，对所述多个样本刷新操作特征中第二数量的样本刷新操作特征进行分类，得到用于表征所述第二数量的样本刷新操作特征中的正样本刷新操作特征和负样本刷新操作特征的第二分类结果，可以实现对多个样本刷新操作特征进行准确分类，由于采用无监督算法和半监督算法相结合的方式对大量的样本刷新操作信息进行分类，因而可以保证大量样本刷新操作特征的分类准确性，又可以节省人工成本。

图4是本申请又一示例性实施例示出的如何对所述多个样本刷新操作特征进行分类的流程图。本实施例在上述实施例的基础上，以如何对所述多个样本刷新操作特征进行分类为例进行示例性说明。如图4所示，步骤S203中所述对所述多个样本刷新操作特征进行分类，得到对应于非刷单操作的正样本刷新操作特征和对应于刷单操作的负样本刷新操作特征，可以包括以下步骤S401-S403：

S401：采用预设的无监督算法，对所述多个样本刷新操作特征中第一数量的样本刷新操作特征进行分类，得到用于表征所述第一数量的样本刷新操作特征中的正样本刷新操作特征和负样本刷新操作特征的第一分类结果。

S402：对所述第一分类结果中类别划分错误的正样本刷新操作特征或负样本刷新操作特征进行校正，得到校正后的第一分类结果。

在一实施例中，当得到第一分类结果后，可以对所述第一分类结果中类别划分错误的正样本刷新操作特征或负样本刷新操作特征进行校正。

在一实施例中，如图3B所示，可以采用人工选择方式对所述第一分类结果进行校正。举例来说，若上述第一分类结果中，样本刷新操作特征A被确定为正样本刷新操作特征，而经过实际验证或分析得知该样本刷新操作特征A实际应为负样本刷新操作特征，因而可以将其分类结果由“正样本刷新操作特征”校正为“负样本刷新操作特征”。

同理，若上述第一分类结果中，样本刷新操作特征B被确定为负样本刷新操作特征，而经过实际验证或分析得知该样本刷新操作特征B实际应为正样本刷新操作特征，因而可以将其分类结果由“负样本刷新操作特征”校正为“正样本刷新操作特征”。

因而，当采用上述方式对所述第一分类结果中类别划分错误的正样本刷新操作特征或负样本刷新操作特征进行校正后，可以得到校正后的第一分类结果，进而可以基于该校正后的第一分类结果执行下述步骤S402，进而得到第二数量的样本刷新操作特征中的正样本刷新操作特征和负样本刷新操作特征的第二分类结果。

S402：基于所述校正后的第一分类结果，采用预设的半监督算法，对所述多个样本刷新操作特征中第二数量的样本刷新操作特征进行分类，得到用于表征所述第二数量的样本刷新操作特征中的正样本刷新操作特征和负样本刷新操作特征的第二分类结果。

其中，步骤S401、S403的相关解释和说明可以参见上述实施例，在此不进行赘述。

由上述描述可知，本实施例通过采用预设的无监督算法，对所述多个样本刷新操作特征中第一数量的样本刷新操作特征进行分类，得到第一分类结果，并对该第一分类结果进行校正，得到校正后的第一分类结果，进而采用预设的半监督算法，对所述多个样本刷新操作特征中第二数量的样本刷新操作特征进行分类，得到第二分类结果，可以实现对多个样本刷新操作特征进行准确分类，由于采用无监督算法和半监督算法相结合的方式，并且对无监督算法的分类结果进行了校正，因而可以提高对大量的样本刷新操作信息进行分类的准确性，进一步保证大量样本刷新操作特征的分类准确性。

图5是本申请又一示例性实施例示出的一种刷单操作识别方法的流程图；该实施例可以用于服务端(例如，一台服务器和多台服务器组成的服务器集群等)。图5是本申请一示例性实施例示出的降维后的正、负样本刷新操作特征的投影效果示意图。

如图5所示，该方法包括步骤S501-S510：

S501：获取目标时间段内样本配送员的多条样本刷新操作信息，所述目标时间段包括抢单过程中相邻两次抢单操作之间的时间段。

S502：根据每条所述样本刷新操作信息获取所述后一次样本抢单操作的样本刷新操作特征，得到所述多条样本刷新操作信息的多个样本刷新操作特征。

S503：对所述多个样本刷新操作特征进行分类，得到对应于非刷单操作的正样本刷新操作特征和对应于刷单操作的负样本刷新操作特征。

S504：分别对所述正样本刷新操作特征和所述负样本刷新操作特征进行PCA降维处理，得到所述正样本刷新操作特征对应的正样本三维特征和所述负样本刷新操作特征对应的负样本三维特征。

其中，上述正样本刷新操作特征和负样本刷新操作特征的维度相同。

值得说明的是，当对多个样本刷新操作特征进行分类后，可以基于分类结果确定分类问题(即后续训练的刷单操作识别模型所要解决的问题)的复杂度，进而选取合适的模型进行训练。在一实施例中，可以采用主成份分析PCA算法研究分类问题的复杂度。PCA算法主要应用于两方面：第一个方面是比较常见的数据降维，即将高维特征空间投影到低维空间，从而降低计算复杂度，提高算法的整体效率；第二个方面是数据可视化，由于特征空间维度很高时，无法观察数据的空间分布，因而可以将特征映射到三维或者二维空间，以通过图像将特征展示出来，进而可以直观地确定分类问题的样本分布。

在一实施例中，若正样本刷新操作特征和负样本刷新操作特征的维度高于三维，则可以分别对所述正样本刷新操作特征和所述负样本刷新操作特征进行PCA降维处理，得到所述正样本刷新操作特征对应的正样本三维特征和所述负样本刷新操作特征对应的负样本三维特征。

其中，将正样本刷新操作特征和负样本刷新操作特征降维成三维的原因是三维是人眼可以观察到的最高纬度，可以更直观的展示样本特征的分布，相比于二维具有更好的展示效果。

S505：将所述正样本三维特征和所述负样本三维特征投影到预设的三维空间，得到所述正样本三维特征和所述负样本三维特征的分布状态信息，所述分布状态信息用于表征所述正样本三维特征和所述负样本三维特征在所述三维空间中的接近程度。

在一实施例中，当得到正样本三维特征和所述负样本三维特征后，可以将该正样本三维特征和负样本三维特征投影到预设的三维空间。

值得说明的是，该预设的三维空间是基于降维后的三个特征建立的，即以降维后的三个特征为坐标轴，建立该三维空间。

在一实施例中，当将该正样本三维特征和负样本三维特征投影到预设的三维空间，可以得到所述正样本三维特征和所述负样本三维特征的分布状态信息。在一实施例中，该分布状态信息可以为所述三维空间中，所述正样本三维特征和所述负样本三维特征的接近程度(如，正样本三维特征和所述负样本三维特征的距离)。

S506：根据所述正样本三维特征和所述负样本三维特征在所述三维空间中的接近程度确定待训练的刷单操作识别模型。

举例来说，若将上述正样本三维特征和负样本三维特征投影到预设的三维空间后，该三维空间中的正样本三维特征和负样本三维特征的位置十分接近，并不是分布于一条直线的两侧，即表示基于该正样本三维特征和负样本三维特征进行分类的问题，不是简单的线性分类模型能够解决的分类问题。此外，由于正负样本特征的数量比较多，因而可以采用一种相对复杂的分类模型，如GBDT(Gradient Boosting Decision Tree，又叫Multiple Additive Regression Tree，是一种迭代的决策树算法)、RF等等。

在一实施例中，考虑到GBDT模型更不容易出现过拟合问题，因而将GBDT模型确定为待训练的刷单操作识别模型进行训练。

S507：利用所述正样本刷新操作特征和所述负样本刷新操作特征对待训练的刷单操作识别模型进行训练。

S508：获取满足预设条件的时间段内配送员的刷新操作信息，所述满足预设条件的时间段包括抢单过程中相邻两次抢单操作之间的时间段。

S509：根据所述刷新操作信息获取所述相邻两次抢单操作中后一次抢单操作的刷新操作特征。

S510：将所述刷新操作特征输入至预先训练的刷单操作识别模型中，得到所述后一次抢单操作是否为刷单操作的识别结果。

其中，步骤S501-S503、S507-S510的相关解释和说明可以参见上述实施例，在此不进行赘述。

由上述描述可知，本实施例通过分别对所述正样本刷新操作特征和所述负样本刷新操作特征进行PCA降维处理，得到所述正样本刷新操作特征对应的正样本三维特征和所述负样本刷新操作特征对应的负样本三维特征，并将所述正样本三维特征和所述负样本三维特征投影到预设的三维空间，得到所述正样本三维特征和所述负样本三维特征的分布状态信息，进而根据所述正样本三维特征和所述负样本三维特征在所述三维空间中的接近程度确定待训练的刷单操作识别模型，可以实现合理的选择待训练的刷单操作识别模型，为后续基于训练的刷单操作识别模型准确地识别抢单操作是否为刷单操作提供基础，可以保证刷单操作识别模型的准确性。

图6是本申请又一示例性实施例示出的一种刷单操作识别方法的流程图；该实施例可以用于服务端(例如，一台服务器和多台服务器组成的服务器集群等)。如图6所示，该方法包括步骤S601-S606：

S601：获取满足预设条件的时间段内配送员的刷新操作信息，所述满足预设条件的时间段包括抢单过程中相邻两次抢单操作之间的时间段。

S602：根据所述刷新操作信息获取所述相邻两次抢单操作中后一次抢单操作的刷新操作特征。

S603：将所述刷新操作特征输入至预先训练的刷单操作识别模型中，得到所述后一次抢单操作是否为刷单操作的识别结果。

其中，步骤S601-S603的相关解释和说明可以参见上述实施例，在此不再进行赘述。

S604：判断所述识别结果是否表征所述后一次抢单操作是刷单操作；若是，则执行步骤S605；否则，执行步骤S606；

S605：则禁止响应所述后一次抢单操作；

S606：允许响应所述后一次抢单操作。

相关技术中，当配送员在终端设备上触发了所述后一次抢单操作后，服务端可以响应于该抢单操作，将对应的订单下发给该配送员的终端设备。而本实施例中，为了避免某些配送员利用外挂软件刷单来获取优质订单，因而在配送员触发所述抢单操作时，对该抢单操作进行识别，以根据识别结果确定该抢单操作是否为刷单操作。进而，当识别结果表征该抢单操作为刷单操作时，禁止响应该抢单操作，即不将该订单下发给抢单的配送员终端设备；而当识别结果表征该抢单操作不是刷单操作时，允许响应所述该抢单操作，即将该订单下发给抢单的配送员终端设备。

在一实施例中，上述禁止响应所述后一次抢单操作的方式可以由开发人员根据实际需要进行设置，例如可以设置为忽略该抢单操作(即检测到该操作也当作没检测到)，或者可以设置为弹出验证信息以打断该配送员的抢单行为等，本实施例对此不进行限定。

由上述描述可知，本实施例通过当所述识别结果表征所述后一次抢单操作是刷单操作，禁止响应所述后一次抢单操作，而当所述识别结果表征所述后一次抢单操作不是刷单操作时，允许响应所述后一次抢单操作，可以实现基于抢单操作的识别结果监管和控制配送员的刷单行为，进而可以避免订单积压，提升配送业务效率，进而提升配送员和用户的体验。

与前述方法实施例相对应，本申请还提供了相应的装置的实施例。

图7是本申请一示例性实施例示出的一种刷单操作识别装置的结构框图；如图7所示，该装置包括：操作信息获取模块110、操作特征获取模块120以及识别结果获取模块130，其中：

操作信息获取模块110，用于获取满足预设条件的时间段内配送员的刷新操作信息，所述满足预设条件的时间段包括抢单过程中相邻两次抢单操作之间的时间段；

操作特征获取模块120，用于根据所述刷新操作信息获取所述相邻两次抢单操作中后一次抢单操作的刷新操作特征；

识别结果获取模块130，用于将所述刷新操作特征输入至预先训练的刷单操作识别模型中，得到所述后一次抢单操作是否为刷单操作的识别结果

图8是本申请又一示例性实施例示出的一种刷单操作识别装置的结构框图；其中，操作信息获取模块230、操作特征获取模块240以及识别结果获取模块250与前述图7所示实施例中的操作信息获取模块110、操作特征获取模块120以及识别结果获取模块130的功能相同，在此不进行赘述。如图8所示，操作信息获取模块230还可以用于当检测到相邻两次抢单操作中后一次抢单操作时，获取满足预设条件的时间段内配送员的刷新操作信息。

在一实施例中，所述装置还可以包括识别模型训练模块210，用于根据以下步骤预先训练刷单操作识别模型；

所述识别模型训练模块210可以包括：

样本信息获取单元211，用于获取目标时间段内样本配送员的多条样本刷新操作信息，所述目标时间段包括抢单过程中相邻两次抢单操作之间的时间段；

样本特征获取单元212，用于根据每条所述样本刷新操作信息获取所述后一次样本抢单操作的样本刷新操作特征，得到所述多条样本刷新操作信息的多个样本刷新操作特征；

样本特征分类单元213，用于对所述多个样本刷新操作特征进行分类，得到对应于非刷单操作的正样本刷新操作特征和对应于刷单操作的负样本刷新操作特征；

识别模型训练单元214，用于利用所述正样本刷新操作特征和所述负样本刷新操作特征对待训练的刷单操作识别模型进行训练。

在一实施例中，样本特征分类单元213还可以用于：

在一实施例中，所述样本刷新操作特征包括以下至少一项：

在一实施例中，所述样本刷新操作特征的维度高于三维；

所述装置还包括：识别模型确定模块220；

识别模型确定模块220还可以包括：

样本特征降维单元221，用于分别对所述正样本刷新操作特征和所述负样本刷新操作特征进行PCA降维处理，得到所述正样本刷新操作特征对应的正样本三维特征和所述负样本刷新操作特征对应的负样本三维特征；

状态信息获取单元222，用于将所述正样本三维特征和所述负样本三维特征投影到预设的三维空间，得到所述正样本三维特征和所述负样本三维特征的分布状态信息，所述分布状态信息用于表征所述正样本三维特征和所述负样本三维特征在所述三维空间中的接近程度；

识别模型确定单元223，用于根据所述正样本三维特征和所述负样本三维特征在所述三维空间中的接近程度确定待训练的刷单操作识别模型。

在一实施例中，所述装置还可以包括：抢单操作处理模块260；

所述抢单操作处理模块260，可以包括：

操作禁止响应单元261，用于当所述识别结果表征所述后一次抢单操作是刷单操作时，禁止响应所述后一次抢单操作；

操作允许响应单元262，用于当所述识别结果表征所述后一次抢单操作不是刷单操作时，允许响应所述后一次抢单操作。

值得说明的是，上述所有可选技术方案，可以采用任意结合形成本公开的可选实施例，在此不再一一赘述。

另一方面，本申请还提供了一种计算机可读存储介质，存储介质存储有计算机程序，计算机程序用于执行上述图1A～图6所示实施例提供的刷单操作识别方法。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本申请方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请的真正范围和精神由下面的权利要求指出。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上所述仅为本申请的较佳实施例而已，并不用以限制本申请，凡在本申请的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本申请保护的范围之内。

Claims

1.一种刷单操作识别方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述获取满足预设条件的时间段内配送员的刷新操作信息，包括：

3.根据权利要求1所述的方法，其特征在于，所述刷单操作识别模型根据以下步骤预先训练：

4.根据权利要求3所述的方法，其特征在于，所述对所述多个样本刷新操作特征进行分类，得到对应于非刷单操作的正样本刷新操作特征和对应于刷单操作的负样本刷新操作特征，包括：

5.根据权利要求4所述的方法，其特征在于，所述方法还包括：

6.根据权利要求3所述的方法，其特征在于，所述样本刷新操作特征包括以下至少一项：

7.根据权利要求3所述的方法，其特征在于，所述样本刷新操作特征的维度高于三维；

8.根据权利要求1所述的方法，其特征在于，所述方法还包括：

9.一种刷单操作识别装置，其特征在于，包括：

10.根据权利要求9所述的装置，其特征在于，所述操作信息获取模块还用于当检测到相邻两次抢单操作中后一次抢单操作时，获取满足预设条件的时间段内配送员的刷新操作信息。

11.根据权利要求9所述的装置，其特征在于，所述装置还包括识别模型训练模块，用于根据以下步骤预先训练刷单操作识别模型；

所述识别模型训练模块包括：

12.根据权利要求11所述的装置，其特征在于，所述样本特征分类单元还用于：

13.根据权利要求12所述的装置，其特征在于，所述样本特征分类单元还用于：

14.根据权利要求11所述的装置，其特征在于，所述样本刷新操作特征包括以下至少一项：

15.根据权利要求11所述的装置，其特征在于，所述样本刷新操作特征的维度高于三维；

所述装置还包括：识别模型确定模块；

所述识别模型确定模块还包括：

16.根据权利要求9所述的装置，其特征在于，所述装置还包括：抢单操作处理模块；

所述抢单操作处理模块，包括：

17.一种计算机可读存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序用于执行上述权利要求1-8任一所述的刷单操作识别方法。