CN112231354A

CN112231354A - 程序批量刷单鉴别方法、装置、存储介质及服务器

Info

Publication number: CN112231354A
Application number: CN202011110888.6A
Authority: CN
Inventors: 梁达俊
Original assignee: Bee Assistant Co ltd
Current assignee: Bee Assistant Co ltd
Priority date: 2020-10-16
Filing date: 2020-10-16
Publication date: 2021-01-15

Abstract

本发明公开了一种基于手机信息熵分析的程序批量刷单鉴别方法、装置、存储介质及服务器；其中，所述方法包括：在虚拟商品交易平台上的数据库内按照预设商户选取一定连续的时间范围内的订单数据；对所述订单数据进行信息提取处理，获得订单数据中的手机号字段；对所述手机号字段进行特征分析，获得手机号字段中三个特征，其中所述手机号字段中三个特征包括网络识别号、归属地和用户号码；对手机号字段中三个特征进行信息熵计算，获得手机号字段中三个特征的信息熵；基于所述手机字段中的三个特征信息熵判断是否存在程序批量刷单。在本发明实施例中，只需要收集订单数据中的手机号，并通过计算信息熵，即可识别出在一段时间内是否存在批量刷单情况。

Description

程序批量刷单鉴别方法、装置、存储介质及服务器

技术领域

本发明涉及大数据技术领域，尤其涉及一种基于手机信息熵分析的程序批量刷单鉴别方法、装置、存储介质及服务器。

背景技术

随着互联网技术的发展以及移动终端的普及，网购行为越来越普及，在平台提供下单和收款服务，第三方上家负责销售和发货的虚拟商品交易平台上，第三方商户通过程序调用交易接口，大量伪造虚假数据刷单作弊的方法；现有的一些刷单识别方式中，通过分析用户关系，先预设一批黑名单用户，如交易平台内部员工、有不良交易记录的第三方商户等，通过用户之间的交易、评论、社交、通讯等数据查找与黑名单用户有密切往来的商户，以发现高风险商户；或者设定单个商户在一定时间内的交易频率和交易金额限制，超出限制时触发刷单告警。

然而，分析用户关系的方法要求大量收集用户数据，涉及隐私问题，而且要求交易***具备相应的功能，提高了***复杂性；合理设定交易频率和交易金额限制非常困难，因大小商户的交易额差异巨大，而且交易额的时间波动性本身就很大。

发明内容

本发明的目的在于克服现有技术的不足，本发明提供了一种基于手机信息熵分析的程序批量刷单鉴别方法、装置、存储介质及服务器，只需要收集订单数据中的手机号，并通过计算信息熵，即可识别出在一段时间内是否存在批量刷单情况。

为了解决上述技术问题，本发明实施例提供了一种基于手机信息熵分析的程序批量刷单鉴别方法，所述方法包括：

在虚拟商品交易平台上的数据库内按照预设商户选取一定连续的时间范围内的订单数据；

对所述订单数据进行信息提取处理，获得所述订单数据中的手机号字段；

对所述手机号字段进行特征分析，获得所述手机号字段中三个特征，其中所述手机号字段中三个特征包括网络识别号、归属地和用户号码；

对所述手机号字段中三个特征进行信息熵计算，获得手机号字段中三个特征的信息熵；

基于所述手机字段中的三个特征信息熵判断是否存在程序批量刷单。

可选的，所述订单数据的数量至少为100单。

可选的，所述对所述订单数据进行信息提取处理，获得所述订单数据中的手机号字段，包括：

基于NLP分析模型对所述订单数据进行信息提取分析处理，并提取所述订单数据中的手机号字段，获得所述订单数据中的手机号字段。

可选的，所述对所述手机号字段进行特征分析，获得所述手机号字段中三个特征，包括：

按照预设的拆分规则对所述手机号字段进行数字段拆分处理，获得拆分后的三个数字段数据；

利用拆分后的三个数字段数据分别在对应的数据库内进行特征匹配，获得所述手机号字段中三个特征；

其中，所述手机号字段中三个特征包括网络识别号、归属地和用户号码；所述预设的拆分规则为将所述手机号字段由左向右依次拆分为第一数字段、第二数字段和第三数字段；所述第一数字段包括3位数字；所述第二数字段和第三数字段分别包括4为数字。

可选的，所述信息熵计算的计算公式如下：

其中，n表示该特征包含的不同取值数量；p_i表示第i个取值在该特征中出现的概率；该公式中的对数函数的底数根据对应的特征进行设定，其中，当n表示网络识别号时，对数函数的底数为网络识别号的号段数量；当n表示归属地时，对数函数的底数为城市数量；当n为用户号码时，对数函数的底数为10000和订单数据中的最小值。

可选的，所述对所述手机号字段中三个特征进行信息熵计算，获得手机号字段中三个特征的信息熵，包括：

将所述手机号字段中的三个特征代入信息熵计算的计算公式中进行信息熵计算，获得手机号字段中三个特征的信息熵；

其中，网络识别号信息熵接近或大于1，则网络识别号分布过于随机分散；归属地信息熵接近或大于1，则归属地分布过于随机分散；网络识别号信息熵接近0，则网络识别号分布过于集中；归属地信息熵接近0，则归属地分布过于集中；用户号码信息熵接近0，则用户号码分布过于集中。

可选的，所述基于所述手机字段中的三个特征信息熵判断是否存在程序批量刷单，包括：

基于预先计算的多个自有商户和可信商户的订单数据的三个特征信息熵，获得可信三个特征信息熵；

将所述可信三个特性信息熵作为所述手机字段中的三个特性信息熵中的各特征信息熵接近0或者接近1的阈值标准进行是否在程序批量刷单的判断。

另外，本发明实施例还提供了一种基于手机信息熵分析的程序批量刷单鉴别装置所述装置包括：

选取模块：用于在虚拟商品交易平台上的数据库内按照预设商户选取一定连续的时间范围内的订单数据；

信息提取模块：用于对所述订单数据进行信息提取处理，获得所述订单数据中的手机号字段；

特征分析模块：用于对所述手机号字段进行特征分析，获得所述手机号字段中三个特征，其中所述手机号字段中三个特征包括网络识别号、归属地和用户号码；

信息熵计算模块：用于对所述手机号字段中三个特征进行信息熵计算，获得手机号字段中三个特征的信息熵；

判断模块：用于基于所述手机字段中的三个特征信息熵判断是否存在程序批量刷单。

另外，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述中任意一项所述的程序批量刷单鉴别方法。

另外，本发明实施例还提供了一种服务器，其包括：

一个或多个处理器；

存储器；

一个或多个应用程序，其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个应用程序配置用于：执行上述中任意一项所述的程序批量刷单鉴别方法。

在本发明实施例中，只需要收集订单数据中的手机号，并通过计算信息熵，即可识别出在一段时间内是否存在批量刷单情况，并且在计算信息熵时，即使在大量数据中混入少量噪音数据对信息熵计算结果影响甚微，可以应对刷单和真实交易在统一时间段进行，刷单交易量远超真实交易量的情况；提供多样的判断标准，使用一套计算结果，能同时应对随机生成数据和重复数据；并且不涉及更多的用户隐私数据；无需设置商户的交易频率和交易金额的限制；并且计算识别过程高效且相对简单。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见的，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1是本发明实施例中的基于手机信息熵分析的程序批量刷单鉴别方法的流程示意图；

图2是本发明实施例中的基于手机信息熵分析的程序批量刷单鉴别装置的结构组成示意图；

图3是本发明实施例中的服务器的结构组成示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

实施例

请参阅图1，图1是本发明实施例中的基于手机信息熵分析的程序批量刷单鉴别方法的流程示意图。

如图1所示，一种基于手机信息熵分析的程序批量刷单鉴别方法，所述方法包括：

S11：在虚拟商品交易平台上的数据库内按照预设商户选取一定连续的时间范围内的订单数据；

在本发明具体实施过程中，所述订单数据的数量至少为100单。

具体的，在虚拟商品交易平台上的数据库内按照预设商户选取一定连续的时间段范围内的订单数据；可以利用爬虫算法，在该爬虫算法中进行爬取商户的预设以及时间段的设置，然后将该爬虫算法设置到虚拟商品交易平台内，该爬虫算法根据预设的商户及时间段，在该虚拟交易平台上的数据库内爬取该商户在一定的连续时间段范围内的交易订单数据。通过爬虫算法，可以快速、准确的爬取到想要的数据，并且爬取到的数据精确度高，可以不进行除杂即可使用。

S12：对所述订单数据进行信息提取处理，获得所述订单数据中的手机号字段；

在本发明具体实施过程中，所述对所述订单数据进行信息提取处理，获得所述订单数据中的手机号字段，包括：基于NLP分析模型对所述订单数据进行信息提取分析处理，并提取所述订单数据中的手机号字段，获得所述订单数据中的手机号字段。

在本发明具体实施过程中，该NLP分析模型中基于N-Gram统计语言算法进行数字提取训练的，并且在对NLP分析模型进行训练时，所采用的数字为13位的手机号码，并且在手机号码中还惨杂这其他的文字或者数字信息，首先，在定点数据中提取出纯数字字段，然后对每一个数字字段按照第一数字段、第二数字段和第三数字段进行划分；其中第一数字段包括3位数字、第二数字段和第三数字段分别包括4为数字；然后将每个数字字段所划分的三个数字字段构成一组特征向量，将将这些特征向量输入NLP分析模型进行分析处理，输出每个分析标签，即第一数字段为网络识别号、第二数字字段为归属地、第三数字字段为用户号码；输出的分析标签中包含有网络识别号、归属地和用户号码时，则该串数字字段为手机号字段，从而获得手机号字段。

S13：对所述手机号字段进行特征分析，获得所述手机号字段中三个特征，其中所述手机号字段中三个特征包括网络识别号、归属地和用户号码；

在本发明具体实施过程中，所述对所述手机号字段进行特征分析，获得所述手机号字段中三个特征，包括：按照预设的拆分规则对所述手机号字段进行数字段拆分处理，获得拆分后的三个数字段数据；利用拆分后的三个数字段数据分别在对应的数据库内进行特征匹配，获得所述手机号字段中三个特征；其中，所述手机号字段中三个特征包括网络识别号、归属地和用户号码；所述预设的拆分规则为将所述手机号字段由左向右依次拆分为第一数字段、第二数字段和第三数字段；所述第一数字段包括3位数字；所述第二数字段和第三数字段分别包括4为数字。

具体的，在获得手机号字段时，需要对该手机号字段进行数字段拆分处理，从而获得拆分后的三个数字段数据；其中，按照预设的拆分规则对该手机号字段进行数字段拆分处理，即可获得拆分后的三个数字段数据，然后利用拆分后的三个数字段数据分别在对应的数据库中进行特征匹配，从而获得每一个数字段数据所对应的特征，即可获得手机号字段中的三个特征；该三个特征包括网络识别号、归属地和用户号码；预设的拆分规则为将手机号字段由左向右依次拆分为第一数字段、第二数字段和第三数字段；第一数字段包括3位数字；第二数字段和第三数字段分别包括4为数字。

通过上述处理，即可获得手机号所述的网络识别号和归属地及用户号码，分别后续进行信息熵的计算。

S14：对所述手机号字段中三个特征进行信息熵计算，获得手机号字段中三个特征的信息熵；

在本发明具体实施过程中，所述信息熵计算的计算公式如下：

进一步的，所述对所述手机号字段中三个特征进行信息熵计算，获得手机号字段中三个特征的信息熵，包括：

将所述手机号字段中的三个特征代入信息熵计算的计算公式中进行信息熵计算，获得手机号字段中三个特征的信息熵；其中，网络识别号信息熵接近或大于1，则网络识别号分布过于随机分散；归属地信息熵接近或大于1，则归属地分布过于随机分散；网络识别号信息熵接近0，则网络识别号分布过于集中；归属地信息熵接近0，则归属地分布过于集中；用户号码信息熵接近0，则用户号码分布过于集中。

具体的，该信息熵的计算公式如下：

然后将该手机号字段中的三个特征分别代入信息熵计算的计算公式中，进行相应的信息上计算，从而分别获得手机字段中的三个特征的信息熵；其中，网络识别号信息熵接近或大于1，则网络识别号分布过于随机分散；归属地信息熵接近或大于1，则归属地分布过于随机分散；网络识别号信息熵接近0，则网络识别号分布过于集中；归属地信息熵接近0，则归属地分布过于集中；用户号码信息熵接近0，则用户号码分布过于集中。

S15：基于所述手机字段中的三个特征信息熵判断是否存在程序批量刷单。

在本发明具体实施过程中，所述基于所述手机字段中的三个特征信息熵判断是否存在程序批量刷单，包括：基于预先计算的多个自有商户和可信商户的订单数据的三个特征信息熵，获得可信三个特征信息熵；将所述可信三个特性信息熵作为所述手机字段中的三个特性信息熵中的各特征信息熵接近0或者接近1的阈值标准进行是否在程序批量刷单的判断。

具体的，在获得手机字段中的三个特征信息熵之后，通过手机字段中的三个特征信息熵判断是否存在程序批量刷单；在这时候，就需要利用手机字段中的三个特征信息熵与将可信三个特征信息熵坐标标准判断是否在程序批量刷单。

其中，可信三个特征信息熵是通过预先计算的多个自有商户和可信商户的订单数据的三个特征信息熵而获得的，然后将可信三个特性信息熵作为手机字段中的三个特性信息熵中的各特征信息熵接近0或者接近1的阈值标准进行是否在程序批量刷单的判断。

在本申请中，信息熵是一个数学上衡量***有序性的指标；在越有序的情况下，信息熵就越低；反之，在越混乱，信息熵就越高，有序性即***产生的信息的确定性，以手机号的用户号码为例，如号码分布集中，随机抽取一个号码，都有极大概率确定在少数几个可能的号码之中，则有序性高，信息熵低；反之，如号码分布均匀且随机分散，则有序性低，信息熵高。

根据程序调用平台接口刷单和正常的交易数据中的手机号的不同特征，以信息熵为特征的集中和随机分散的判断标准，可以一套得到与商户规模和交易额的时间波动无关的，统一的刷单判断方法；在本申请中过计算信息熵分别统计手机号的号段、归属地、用户号码的随机分布特征，并以此作为判断是否刷单的依据。

实施例

请参阅图2，图2是本发明实施例中的基于手机信息熵分析的程序批量刷单鉴别装置的结构组成示意图。

一种基于手机信息熵分析的程序批量刷单鉴别装置所述装置包括：

选取模块21：用于在虚拟商品交易平台上的数据库内按照预设商户选取一定连续的时间范围内的订单数据；

信息提取模块22：用于对所述订单数据进行信息提取处理，获得所述订单数据中的手机号字段；

特征分析模块23：用于对所述手机号字段进行特征分析，获得所述手机号字段中三个特征，其中所述手机号字段中三个特征包括网络识别号、归属地和用户号码；

信息熵计算模块24：用于对所述手机号字段中三个特征进行信息熵计算，获得手机号字段中三个特征的信息熵；

具体的，该信息熵的计算公式如下：

判断模块25：用于基于所述手机字段中的三个特征信息熵判断是否存在程序批量刷单。

本发明实施例提供的一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，该程序被处理器执行时实现上述实施例中任意一个实施例的程序批量刷单鉴别方法。其中，所述计算机可读存储介质包括但不限于任何类型的盘(包括软盘、硬盘、光盘、CD-ROM、和磁光盘)、ROM(Read-Only Memory，只读存储器)、RAM(Random AcceSSMemory，随即存储器)、EPROM(EraSable Programmable Read-Only Memory，可擦写可编程只读存储器)、EEPROM(Electrically EraSable ProgrammableRead-Only Memory，电可擦可编程只读存储器)、闪存、磁性卡片或光线卡片。也就是，存储设备包括由设备(例如，计算机、手机)以能够读的形式存储或传输信息的任何介质，可以是只读存储器，磁盘或光盘等。

本发明实施例还提供了一种计算机应用程序，其运行在计算机上，该计算机应用程序用于执行上述中任意一个实施例的程序批量刷单鉴别方法。

此外，图3是本发明实施例中的服务器的结构组成示意图。

本发明实施例还提供了一种服务器，如图3所示。所述服务器包括处理器302、存储器303、输入单元304以及显示单元305等器件。本领域技术人员可以理解，图3示出的设备结构器件并不构成对所有设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件。存储器303可用于存储应用程序301以及各功能模块，处理器302运行存储在存储器303的应用程序301，从而执行设备的各种功能应用以及数据处理。存储器可以是内存储器或外存储器，或者包括内存储器和外存储器两者。内存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦写可编程ROM(EEPROM)、快闪存储器、或者随机存储器。外存储器可以包括硬盘、软盘、ZIP盘、U盘、磁带等。本发明所公开的存储器包括但不限于这些类型的存储器。本发明所公开的存储器只作为例子而非作为限定。

输入单元304用于接收信号的输入，以及接收用户输入的关键字。输入单元304可包括触控面板以及其它输入设备。触控面板可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板上或在触控面板附近的操作)，并根据预先设定的程序驱动相应的连接装置；其它输入设备可以包括但不限于物理键盘、功能键(比如播放控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。显示单元305可用于显示用户输入的信息或提供给用户的信息以及服务器的各种菜单。显示单元305可采用液晶显示器、有机发光二极管等形式。处理器302是服务器的控制中心，利用各种接口和线路连接整个设备的各个部分，通过运行或执行存储在存储器302内的软件程序和/或模块，以及调用存储在存储器内的数据，执行各种功能和处理数据。

作为一个实施例，所述服务器包括：一个或多个处理器302，存储器303，一个或多个应用程序301，其中所述一个或多个应用程序301被存储在存储器303中并被配置为由所述一个或多个处理器302执行，所述一个或多个应用程序301配置用于执行上述实施例中的任意一实施例中对的程序批量刷单鉴别方法。

另外，以上对本发明实施例所提供的一种基于手机信息熵分析的程序批量刷单鉴别方法、装置、存储介质及服务器进行了详细介绍，本文中应采用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于手机信息熵分析的程序批量刷单鉴别方法，其特征在于，所述方法包括：

2.根据权利要求1所述的程序批量刷单鉴别方法，其特征在于，所述订单数据的数量至少为100单。

3.根据权利要求1所述的程序批量刷单鉴别方法，其特征在于，所述对所述订单数据进行信息提取处理，获得所述订单数据中的手机号字段，包括：

4.根据权利要求1所述的程序批量刷单鉴别方法，其特征在于，所述对所述手机号字段进行特征分析，获得所述手机号字段中三个特征，包括：

5.根据权利要求1所述的程序批量刷单鉴别方法，其特征在于，所述信息熵计算的计算公式如下：

6.根据权利要求5所述的程序批量刷单鉴别方法，其特征在于，所述对所述手机号字段中三个特征进行信息熵计算，获得手机号字段中三个特征的信息熵，包括：

7.根据权利要求1所述的程序批量刷单鉴别方法，其特征在于，所述基于所述手机字段中的三个特征信息熵判断是否存在程序批量刷单，包括：

8.一种基于手机信息熵分析的程序批量刷单鉴别装置，其特征在于，所述装置包括：

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1至7中任意一项所述的程序批量刷单鉴别方法。

10.一种服务器，其特征在于，其包括：

一个或多个处理器；

存储器；

一个或多个应用程序，其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个应用程序配置用于：执行根据权利要求1至7中任意一项所述的程序批量刷单鉴别方法。