CN112307472A

CN112307472A - 基于智能决策的异常用户识别方法、装置及计算机设备

Info

Publication number: CN112307472A
Application number: CN202011211553.3A
Authority: CN
Inventors: 陶亦然
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2020-11-03
Filing date: 2020-11-03
Publication date: 2021-02-02
Anticipated expiration: 2040-11-03
Also published as: WO2022095352A1; CN112307472B

Abstract

本申请实施例属于人工智能领域，涉及一种基于智能决策的异常用户识别方法、装置、计算机设备及存储介质，方法包括：获取原始数据集；对原始数据集进行数据重组，得到有标签样本和无标签样本；将有标签样本输入第一用户识别模型，以对第一用户识别模型进行第一训练，得到第二用户识别模型；对无标签样本进行数据增强，得到与无标签样本对应的增强无标签样本集；通过有标签样本以及与无标签样本对应的增强无标签样本集，对第二用户识别模型进行第二训练，得到异常用户识别模型；将待识别用户样本输入异常用户识别模型，得到用户识别结果。此外，本申请还涉及区块链技术，原始数据集可存储于区块链中。本申请提高了异常用户识别的准确性。

Description

基于智能决策的异常用户识别方法、装置及计算机设备

技术领域

本申请涉及人工智能技术领域，尤其涉及一种基于智能决策的异常用户识别方法、装置、计算机设备及存储介质。

背景技术

随着互联网技术的发展，越来越多的用户通过互联网获取、享受各种信息服务，而提供信息服务的平台会记录得到大量的用户信息。提供信息服务的平台经常会遇到各种异常用户，例如羊毛党，羊毛党会利用虚假信息获取大量利益，给平台带来巨大损失，同时，还可能出现异常用户进行网络欺诈以及网络攻击，因此平台需要能够对这些异常用户进行识别。

然而，传统的异常用户识别技术，通常是通过规则模型或黑名单进行识别。规则模型是基于已发现的异常用户整理成经验性规则，是以人的主观判断为基准，覆盖性差，识别的准确性较低。黑名单识别是从外部获取黑名单数据，对黑名单中出现的异常用户进行跟踪和监测，黑名单识别无法应对随时出现的新异常用户，准确性依然较低。

发明内容

本申请实施例的目的在于提出一种基于智能决策的异常用户识别方法、装置、计算机设备及存储介质，以解决异常用户识别准确性较低的问题。

为了解决上述技术问题，本申请实施例提供一种基于智能决策的异常用户识别方法，采用了如下所述的技术方案：

获取原始数据集，其中，所述原始数据集包括黑名单数据、验真用户数据以及原始用户数据；

对所述原始数据集进行数据重组，得到有标签样本以及无标签样本；

将所述有标签样本输入第一用户识别模型，以通过所述有标签样本对所述第一用户识别模型进行第一训练，得到第二用户识别模型；

对所述无标签样本进行数据增强，得到与所述无标签样本对应的增强无标签样本集；

通过所述有标签样本以及与所述无标签样本对应的增强无标签样本集，对所述第二用户识别模型进行第二训练，得到异常用户识别模型；

将待识别用户样本输入所述异常用户识别模型，得到用户识别结果。

进一步的，所述对所述原始数据集进行数据重组，得到有标签样本以及无标签样本的步骤包括：

将所述黑名单数据和所述验真用户数据分别与所述原始用户数据进行数据比对，以确定有标签用户列表及初始无标签样本；

根据所述原始数据集对所述有标签用户列表进行数据填充，得到初始有标签样本；

对所述初始有标签样本和所述初始无标签样本进行特征筛选，得到有标签样本以及无标签样本。

进一步的，所述对所述初始有标签样本和所述初始无标签样本进行特征筛选，得到有标签样本以及无标签样本的步骤具体包括：

将所述初始有标签样本输入第一用户识别模型，以通过所述初始有标签样本对所述第一用户识别模型进行第三训练，得到第三用户识别模型；

将所述初始无标签样本输入所述第三用户识别模型，得到所述初始无标签样本的伪标签；

通过随机森林对所述初始有标签样本和带有伪标签的初始无标签样本进行特征筛选，得到有标签样本以及无标签样本，并将筛选到的特征确定为目标特征。

进一步的，所述通过随机森林对所述初始有标签样本和带有伪标签的初始无标签样本进行特征筛选，得到有标签样本以及无标签样本，并将筛选到的特征确定为目标特征的步骤包括：

将所述初始有标签样本和带有伪标签的初始无标签样本作为待筛选样本进行若干次有放回随机采样，得到若干特征筛选训练集；

基于所述若干特征筛选训练集，生成若干决策树以得到随机森林；

根据袋外数据计算所述随机森林中各决策树的第一袋外数据误差，其中，所述袋外数据来自所述各决策树所对应的特征筛选训练集；

随机改变所述袋外数据中的特征，并计算各决策树的第二袋外数据误差；

根据计算得到的第二袋外数据误差和第一袋外数据误差计算各特征的特征贡献度；

根据计算得到的特征贡献度对所述初始有标签样本和带有伪标签的初始无标签样本进行特征筛选，得到有标签样本以及无标签样本，并将筛选到的特征确定为目标特征。

进一步的，所述对所述无标签样本进行数据增强，得到与所述无标签样本对应的增强无标签样本集的步骤包括：

对于每个无标签样本，根据无标签样本间的欧氏距离确定无标签样本的临近样本集，其中，所述临近样本集包括预设数量的临近样本；

对于每个临近样本，在临近样本与所述无标签样本的特征空间连线上，选取扩充样本点；

根据选取的扩充样本点以及所述无标签样本，构建得到与所述无标签样本对应的增强无标签样本集。

进一步的，所述通过所述有标签样本以及与所述无标签样本对应的增强无标签样本集，对所述第二用户识别模型进行第二训练，得到异常用户识别模型的步骤包括：

将所述有标签样本以及与所述无标签样本对应的增强无标签样本集输入所述第二用户识别模型，得到所述有标签样本的用户预测结果，以及所述增强无标签样本集中各增强无标签样本的用户预测结果；

根据所述各增强无标签样本的用户预测结果，确定所述无标签样本的用户预测结果；

将前轮第二训练中所述无标签样本的用户预测结果，作为当前第二训练中所述无标签样本的伪标签，以计算所述有标签样本和所述无标签样本的正则化交叉熵损失；

根据所述正则化交叉熵损失对所述第二用户识别模型进行参数调整，直至模型收敛，得到异常用户识别模型。

进一步的，所述将待识别用户样本输入所述异常用户识别模型，得到用户识别结果的步骤包括：

获取待识别用户样本；

根据预设的目标特征对所述待识别用户样本进行特征筛选；

将特征筛选后的待识别用户样本输入所述异常用户识别模型，得到用户识别结果。

为了解决上述技术问题，本申请实施例还提供一种基于智能决策的异常用户识别装置，采用了如下所述的技术方案：

数据集获取模块，用于获取原始数据集，其中，所述原始数据集包括黑名单数据、验真用户数据以及原始用户数据；

数据重组模块，用于对所述原始数据集进行数据重组，得到有标签样本以及无标签样本；

第一训练模块，用于将所述有标签样本输入第一用户识别模型，以通过所述有标签样本对所述第一用户识别模型进行第一训练，得到第二用户识别模型；

数据增强模块，用于对所述无标签样本进行数据增强，得到与所述无标签样本对应的增强无标签样本集；

第二训练模块，用于通过所述有标签样本以及与所述无标签样本对应的增强无标签样本集，对所述第二用户识别模型进行第二训练，得到异常用户识别模型；

样本输入模块，用于将待识别用户样本输入所述异常用户识别模型，得到用户识别结果。

为了解决上述技术问题，本申请实施例还提供一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器执行所述计算机程序时实现上述所述的基于智能决策的异常用户识别方法的步骤。

为了解决上述技术问题，本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述所述的基于智能决策的异常用户识别方法的步骤。

与现有技术相比，本申请实施例主要有以下有益效果：获取原始数据集后，通过数据比对进行数据重组得到有标签样本以及无标签样本；将有标签样本输入第一用户识别模型以进行第一训练，得到具有一定异常用户识别能力的第二用户识别模型；对无标签样本进行数据增强得到增强无标签样本集，由原本对一个无标签样本的预测改为对多个相似的无标签样本进行预测，以便提升第二用户识别模型的泛化能力；通过有标签样本和增强无标签样本集对第二用户识别模型进行综合训练，模型进一步从无标签样本中提取信息进行学习，最终得到异常用户识别模型，异常用户识别模型能够根据待识别用户样本准确输出用户识别结果，提高了异常用户识别的准确性。

附图说明

为了更清楚地说明本申请中的方案，下面将对本申请实施例描述中所需要使用的附图作一个简单介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请可以应用于其中的示例性***架构图；

图2是根据本申请的基于智能决策的异常用户识别方法的一个实施例的流程图；

图3是图2中步骤S202的一种具体实施方式的流程图；

图4是图3中步骤S2023的一种具体实施方式的流程图；

图5是图2中步骤S205的一种具体实施方式的流程图；

图6是根据本申请的基于智能决策的异常用户识别装置的一个实施例的结构示意图；

图7是根据本申请的计算机设备的一个实施例的结构示意图。

具体实施方式

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同；本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本申请；本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形，意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

为了使本技术领域的人员更好地理解本申请方案，下面将结合附图，对本申请实施例中的技术方案进行清楚、完整地描述。

如图1所示，***架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用，例如网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。

终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(Moving PictureExpertsGroup Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(MovingPictureExperts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。

服务器105可以是提供各种服务的服务器，例如对终端设备101、102、103上显示的页面提供支持的后台服务器。

需要说明的是，本申请实施例所提供的基于智能决策的异常用户识别方法一般由服务器执行，相应地，基于智能决策的异常用户识别装置一般设置于服务器中。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

继续参考图2，示出了根据本申请的基于智能决策的异常用户识别方法的一个实施例的流程图。所述的基于智能决策的异常用户识别方法，包括以下步骤：

步骤S201，获取原始数据集，其中，原始数据集包括黑名单数据、验真用户数据以及原始用户数据。

本申请中的异常用户识别涉及人工智能中的智能决策。在本实施例中，基于智能决策的异常用户识别方法运行于其上的电子设备(例如图1所示的服务器)可以通过有线连接方式或者无线连接方式与终端进行通信。需要指出的是，上述无线连接方式可以包括但不限于3G/4G连接、WiFi连接、蓝牙连接、WiMAX连接、Zigbee连接、UWB(ultra wideband)连接、以及其他现在已知或将来开发的无线连接方式。

其中，黑名单数据可以是已确定的异常用户所对应的用户数据；验真用户数据可以是已通过安全认证、确定为非异常用户的用户数据；原始用户数据可以是平台在经营、生产活动中记录的全量用户数据。

具体地，服务器从数据库中读取原始数据集，原始数据集中包括黑名单数据、验真用户数据以及原始用户数据。

在一个实施例中，黑名单数据可以预先从外部获取，由第三方数据方提供。平台在经营、生产活动中会对一些用户进行严格的身份认证，完成身份认证的用户所对应的用户数据即为验真用户数据。举例说明，在羊毛党识别的场景中，黑名单数据记录了第三方确定的羊毛党，包括了无法通过人机验证等验真方式的虚拟手机号码。验真用户数据可以是平台通过人脸识别、绑定银行卡等验真方式确定为非异常用户的用户数据。

需要强调的是，为进一步保证上述原始数据集的私密和安全性，上述原始数据集还可以存储于一区块链的节点中。

本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

步骤S202，对原始数据集进行数据重组，得到有标签样本以及无标签样本。

具体地，比对黑名单数据和原始用户数据的用户标识(例如用户名或者手机号码)，将重复的用户标识所对应的用户加入黑样本；比对验真用户数据和原始用户数据的用户标识，将重复的用户标识所对应的用户加入白样本。

黑样本和白样本构成有标签样本，原始用户数据中未完成重复匹配的数据作为无标签样本，有标签样本和无标签样本还包括样本中用户的用户数据。

样本的标签可以标识用户是否为异常用户。例如，有标签样本中有用户A和用户B，用户A标签为1，表示用户A为异常用户；用户B标签为0，表示用户B为非异常用户；用户C没有标签，无法得知用户C是异常用户还是非异常用户。

步骤S203，将有标签样本输入第一用户识别模型，以通过有标签样本对第一用户识别模型进行第一训练，得到第二用户识别模型。

其中，第一用户识别模型可以是尚未完成第一训练的用户识别模型。

具体地，将有标签样本输入第一用户识别模型，有标签样本中的用户数据将作为模型输入，样本标签作为模型的期望输出，根据模型输入和期望输出对第一用户识别模型进行训练(即第一训练)，得到第二用户识别模型。

步骤S204，对无标签样本进行数据增强，得到与无标签样本对应的增强无标签样本集。

具体地，无标签样本也要加入模型训练。无标签样本没有标签，在训练中可能带来较大的误差，为提高模型的泛化能力，对无标签样本进行数据增强，即生成无标签样本的相似数据，扩充无标签样本的数据规模，得到增强无标签样本集。

在一个实施例中，基于邻域风险最小化原则，使用线性插值得到增强无标签样本：

(a_new,b_new,...m_new)＝λ(a_i,b_i,...m_i)+(1-λ)*(a_j,b_j,...,m_j,) (1)

其中，(a_new,b_new,...m_new)是插值生成的增强无标签样本，(a_i,b_i,...m_i)无标签样本，(a_j,b_j,...,m_j,)是随机选取的另一个无标签样本，λ取值取指范围介于0到1。

步骤S205，通过有标签样本以及与无标签样本对应的增强无标签样本集，对第二用户识别模型进行第二训练，得到异常用户识别模型。

将有标签样本以及与无标签样本对应的增强无标签样本集均输入第二用户识别模型。增强无标签样本集中每个增强无标签样本均有用户预测结果，将出现概率最高的一类用户预测结果作为无标签样本的用户预测结果，无标签样本在上一轮训练中的用户预测结果在本轮训练中作为伪标签。

根据有标签样本的用户预测结果和标签、无标签样本的用户预测结果和伪标签计算交叉熵损失，以减小交叉熵损失为目标调整模型参数直至模型收敛，得到异常用户识别模型。

步骤S206，将待识别用户样本输入异常用户识别模型，得到用户识别结果。

具体地，在模型应用时，服务器接收待识别用户样本，将待识别用户样本输入异常用户识别模型，得到用户识别结果，用户识别结果显示用户是否为异常用户。

本实施例中，获取原始数据集后，通过数据比对进行数据重组得到有标签样本以及无标签样本；将有标签样本输入第一用户识别模型以进行第一训练，得到具有一定异常用户识别能力的第二用户识别模型；对无标签样本进行数据增强得到增强无标签样本集，由原本对一个无标签样本的预测改为对多个相似的无标签样本进行预测，以便提升第二用户识别模型的泛化能力；通过有标签样本和增强无标签样本集对第二用户识别模型进行综合训练，模型进一步从无标签样本中提取信息进行学习，最终得到异常用户识别模型，异常用户识别模型能够根据待识别用户样本准确输出用户识别结果，提高了异常用户识别的准确性。

进一步的，如图3所示，上述步骤S202可以包括：

步骤S2021，将黑名单数据和验真用户数据分别与原始用户数据进行数据比对，以确定有标签用户列表及初始无标签样本。

具体地，比对用户标识，以确定黑名单数据和验证用户数据中与原始用户数据相重复的用户，得到有标签用户列表；原始用户数据中未实现重复匹配的用户所对应的用户数据作为初始无标签样本。

步骤S2022，根据原始数据集对有标签用户列表进行数据填充，得到初始有标签样本。

具体地，有标签用户列表包括黑用户以及白用户，黑用户由黑名单数据与原始用户数据比对得到，白用户由验真用户数据与原始用户数据比对得到。服务器读取黑用户在黑名单数据和原始用户数据中各维度的特征，将各维度的特征添加到有标签用户列表中；读取白用户在验真用户数据以及原始用户数据中每一维度的特征，将各维度的特征添加到有标签用户列表中，得到初始有标签样本。缺失的特征可以进行特征填充；数据冲突的特征以黑名单数据或验真用户数据为准。

步骤S2023，对初始有标签样本和初始无标签样本进行特征筛选，得到有标签样本以及无标签样本。

具体地，初始有标签样本和初始无标签样本特征维度较多，可以从初始有标签样本和初始无标签样本中筛选出相同维度的特征，得到有标签样本以及无标签样本。

例如，在卡券核销相关的羊毛党检测场景中，筛选到的特征可以包括核销记录中用户终端的终端标识在预设时间内出现次数、用户终端的网络地址在预设时间内的活跃次数、核销时间、服务类型、结算价格等。

本实施例中，在数据比对中通过确定重复用户和特征筛选，对原始数据集完成数据重组，得到用于模型训练的有标签样本和无标签样本。

进一步的，如图4所示，上述步骤S2023可以包括：

步骤S20231，将初始有标签样本输入第一用户识别模型，以通过初始有标签样本对第一用户识别模型进行第三训练，得到第三用户识别模型。

具体地，初始有标签样本和初始无标签样本包含全维度的特征，将初始有标签样本输入第一用户识别模型，从全特征对第一用户识别模型进行训练，得到第三用户识别模型。

步骤S20232，将初始无标签样本输入第三用户识别模型，得到初始无标签样本的伪标签。

具体地，将初始无标签样本输入第三用户识别模型进行识别处理，得到初始无标签样本的伪标签。本申请中的特征筛选需要标签，因此需要先给初始无标签样本添加伪标签。

步骤S20233，通过随机森林对初始有标签样本和带有伪标签的初始无标签样本进行特征筛选，得到有标签样本以及无标签样本，并将筛选到的特征确定为目标特征。

具体地，通过随机森林计算各特征的特征贡献度，特征贡献度衡量了特征的重要性，根据特征贡献度选取预设数量的特征，将初始有标签样本和初始无标签样本中未被删选到特征的数据删除，得到有标签样本和无标签样本。

本实施例中，先给初始无标签样本添加伪标签，以便筛选重要特征，得到有标签样本和无标签样本，保证了模型训练的顺利实现。

进一步的，上述步骤S20233可以包括：将初始有标签样本和带有伪标签的初始无标签样本作为待筛选样本进行若干次有放回随机采样，得到若干特征筛选训练集；基于若干特征筛选训练集，生成若干决策树以得到随机森林；根据袋外数据计算随机森林中各决策树的第一袋外数据误差，其中，袋外数据来自各决策树所对应的特征筛选训练集；随机改变袋外数据中的特征，并计算各决策树的第二袋外数据误差；根据计算得到的第二袋外数据误差和第一袋外数据误差计算各特征的特征贡献度；根据计算得到的特征贡献度对初始有标签样本和带有伪标签的初始无标签样本进行特征筛选，得到有标签样本以及无标签样本，并将筛选到的特征确定为目标特征。

具体地，初始有标签样本和带有伪标签的初始无标签样本都将作为有标签的待筛选样本进行若干次有放回随机采样，每次采样之后还可以再对样本的特征进行随机采样，得到若干特征筛选训练集。在一个实施例中，对待筛选样本的有放回随机采样可以是booststrapping采样，booststrapping采样是指对原样本进行多次有放回的抽样，每次抽样均得到一个新样本，重复操作多次后得到多个新样本，多个新样本可以代表原样本的样本分布。

针对每个特征筛选训练集，分别生成决策树，生成的K棵决策树构成随机森林。在生成每棵决策树时，根据信息增益/信息增益比/基尼指数进行完全***。

在根据特征筛选训练集建立决策树时，特征筛选训练集中有一部分样本并没有参与决策树的建立，这部分样本即为决策树的袋外数据，袋外数据通常用于评估决策树性能，计算预测错误率，即袋外数据误差。

将袋外数据输入决策树，根据分类结果和样本标签计算袋外数据误差，得到第一袋外数据误差error₁、error₂、...、error_K。随机改变袋外数据中特征的特征值再输入决策树，再计算袋外数据误差，得到第二袋外数据误差error₁'、error'₂、...error'_K；根据第二袋外数据误差和第一袋外数据误差计算各特征的特征贡献度：

根据特征贡献度对特征按降序排序，筛选预设数量的特征(或者剔除相应比例的特征，得到新的待筛选样本，用新的待筛选样本重复上述过程，直至得到最终预设数量的特征)，根据筛选到的特征对初始有标签样本和初始无标签样本进行数据重组，留下筛选到的特征所对应的用户数据，得到有标签样本以及无标签样本，并将筛选到的特征确定为目标特征。

本实施例中，建立随机森林并计算各特征的特征贡献度，根据特征贡献度进行特征筛选出重要特征，得到有标签样本以及无标签样本，使得模型可以对重要特征进行针对性训练，提高了训练效率。

进一步的，上述步骤S204可以包括：对于每个无标签样本，根据无标签样本间的欧氏距离确定无标签样本的临近样本集，其中，临近样本集包括预设数量的临近样本；对于每个临近样本，在临近样本与无标签样本的特征空间连线上，选取扩充样本点；根据选取的扩充样本点以及无标签样本，构建得到与无标签样本对应的增强无标签样本集。

具体地，无标签样本可视作特征空间中的点，特征空间的维度与无标签样本特征维度相同。对于每个无标签样本，确定无标签样本与其他无标签样本的欧氏距离，将欧氏距离从小到大进行排序，选取预设数量的无标签样本，得到临近样本集，临近样本集中的各无标签样本可视作原无标签样本的临近样本。

无标签样本与临近样本间存在特征空间连线，在特征空间连线上随机选取预设数量的点，得到扩充样本点：

(a_new,b_new,...m_new)＝(a,b,...m)+rand(0-1)*((a_n-a,),(b_n-b,)...(m_n-m,))(3)

其中，无标签样本特征维度为m，(a_new,b_new,...,m_new)是扩充样本点在特征空间中的坐标，(a,b,...,m)是无标签样本在特征空间中的坐标，a_n、b_n、...、m_n表示临近样本在特征空间中各维度的坐标，rand(0-1)为调节因子，调节扩充样本点到无标签样本的距离

每个临近样本选取完扩充样本点后，根据扩充样本点在特征空间中的坐标得到与无标签样本对应的扩充样本，无标签样本以及与之对应的扩充样本可以作为增强无标签样本，组合为增强无标签样本集。

本实施例中，在特征空间中根据欧氏距离确定无标签样本的临近样本，根据无标签样本和临近样本生成扩充样本点，即可生成与无标签样本相似的多个扩充样本，实现了数据增强。

进一步的，如图5所示，上述步骤S205可以包括：

步骤S2051，将有标签样本以及与无标签样本对应的增强无标签样本集输入第二用户识别模型，得到有标签样本的用户预测结果，以及增强无标签样本集中各增强无标签样本的用户预测结果。

具体地，服务器将有标签样本和增强无标签样本集输入第二用户识别模型，得到有标签样本的用户预测结果；增强无标签样本集中有多个增强无标签样本，每个增强无标签样本均有对应的用户预测结果。

步骤S2052，根据各增强无标签样本的用户预测结果，确定无标签样本的用户预测结果。

具体地，对增强无标签样本的用户预测结果的用户预测结果进行分类，将频数最高的一类用户预测结果，作为与增强无标签样本集所对应的无标签样本的用户预测结果。

步骤S2053，将前轮第二训练中无标签样本的用户预测结果，作为当前第二训练中无标签样本的伪标签，以计算有标签样本和无标签样本的正则化交叉熵损失。

其中，正则化交叉熵损失为第二用户识别模型的损失函数。

具体地，第二训练由多轮训练构成，每轮训练均输出无标签样本的用户预测结果。在进行当前轮次的第二训练时，将前轮第二训练中无标签样本的用户预测结果作为无标签样本的伪标签。联合有标签样本的标签和用户预测结果，以及无标签样本的伪标签和用户预测结果，计算正则化交叉熵损失：

其中，

为有标签样本的交叉熵损失，

为有标签样本的样本标签，

为有标签样本的用户预测结果，n为有标签样本的样本数量；正则化项

为无标签样本的交叉熵损失；

为无标签样本的伪标签，

为无标签样本的用户预测结果，n'为无标签样本的样本数量，C为样本的类别数量，α(t)为时变参数。

在一个实施例中，时变参数如下：

其中，T₁和T₂表示第二训练的训练轮次，α_f为时变参数的最大值。由时变参数可知第二用户识别模型从无标签样本中提取到的信息逐渐增强，对应于随着训练的深入，第二用户识别模型的识别准确性逐渐提升，保证了最终得到的异常用户识别模型的准确性。

易知在第二训练的第一轮训练中，会输出无标签样本的用户预测结果，但不会计算正则化交叉熵损失。

步骤S2054，根据正则化交叉熵损失对第二用户识别模型进行参数调整，直至模型收敛，得到异常用户识别模型。

服务器以最小化正则化交叉熵损失为目标调整模型参数，直至第二用户识别模型收敛，得到异常用户识别模型。

在一个实施例中，本申请的用户识别模型基于LGBM算法搭建。LGBM(LightBGM)是一个实现GBDT算法的优化框架，其主要思想是利用弱分类器(决策树)迭代训练以得到最优模型。LGBM通过多轮迭代,遍历每个特征，然后对每个特征遍历它所有可能的切分点，找到最优特征m的最优切分点j,每轮迭代产生一个基于决策树的弱分类器，每个分类器在上一轮分类器的残差基础上进行训练。弱分类器要满足低方差和高偏差。LGBM算法训练的过程是通过降低偏差来不断提高最终分类器的精度。

本实施例中，将增强无标签样本集输入第二用户识别模型得到无标签样本的用户识别结果，结合有标签样本的用户识别结果计算正则化交叉熵损失，并根据损失调整模型参数，使第二用户识别模型根据无标签样本进一步训练，保证了得到的异常用户识别模型的准确性。

进一步的，上述步骤S206可以包括：获取待识别用户样本；根据预设的目标特征对待识别用户样本进行特征筛选；将特征筛选后的待识别用户样本输入异常用户识别模型，得到用户识别结果。

具体地，待识别样本可以由用户在终端输入。在特征筛选时根据特征贡献度确定了目标特征，根据目标特征对待识别用户样本进行特征筛选，去除目标特征以外的特征。再将特征筛选后的待识别用户样本输入异常用户识别模型，得到用户识别结果。

本实施例中，获取到待识别用户样本后，先根据预设的目标特征对样本进行特征筛选，得到特征维度符合模型的样本，保证了用户识别结果的准确性。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该计算机程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)等非易失性存储介质，或随机存储记忆体(Random Access Memory，RAM)等。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

进一步参考图6，作为对上述图2所示方法的实现，本申请提供了一种基于智能决策的异常用户识别装置300的一个实施例，该装置实施例与图2所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图6所示，本实施例所述的基于智能决策的异常用户识别装置300包括：数据集获取模块301、数据重组模块302、第一训练模块303、数据增强模块304、第二训练模块305以及样本输入模块306，其中：

数据集获取模块301，用于获取原始数据集，其中，原始数据集包括黑名单数据、验真用户数据以及原始用户数据。

数据重组模块302，用于对原始数据集进行数据重组，得到有标签样本以及无标签样本。

第一训练模块303，用于将有标签样本输入第一用户识别模型，以通过有标签样本对第一用户识别模型进行第一训练，得到第二用户识别模型。

数据增强模块304，用于对无标签样本进行数据增强，得到与无标签样本对应的增强无标签样本集。

第二训练模块305，用于通过有标签样本以及与无标签样本对应的增强无标签样本集，对第二用户识别模型进行第二训练，得到异常用户识别模型。

样本输入模块306，用于将待识别用户样本输入异常用户识别模型，得到用户识别结果。

在本实施例中，获取原始数据集后，通过数据比对进行数据重组得到有标签样本以及无标签样本；将有标签样本输入第一用户识别模型以进行第一训练，得到具有一定异常用户识别能力的第二用户识别模型；对无标签样本进行数据增强得到增强无标签样本集，由原本对一个无标签样本的预测改为对多个相似的无标签样本进行预测，以便提升第二用户识别模型的泛化能力；通过有标签样本和增强无标签样本集对第二用户识别模型进行综合训练，模型进一步从无标签样本中提取信息进行学习，最终得到异常用户识别模型，异常用户识别模型能够根据待识别用户样本准确输出用户识别结果，提高了异常用户识别的准确性。

在本实施例的一些可选的实现方式中，数据重组模块302包括：数据比对子模块、数据填充子模块以及特征筛选子模块，其中：

数据比对子模块，用于将黑名单数据和验真用户数据分别与原始用户数据进行数据比对，以确定有标签用户列表及初始无标签样本。

数据填充子模块，用于根据原始数据集对有标签用户列表进行数据填充，得到初始有标签样本。

特征筛选子模块，用于对初始有标签样本和初始无标签样本进行特征筛选，得到有标签样本以及无标签样本。

在本实施例的一些可选的实现方式中，特征筛选子模块包括：训练单元、输入单元和筛选单元，其中：

训练单元，用于将初始有标签样本输入第一用户识别模型，以通过初始有标签样本对第一用户识别模型进行第三训练，得到第三用户识别模型。

输入单元，用于将初始无标签样本输入第三用户识别模型，得到初始无标签样本的伪标签。

筛选单元，用于通过随机森林对初始有标签样本和带有伪标签的初始无标签样本进行特征筛选，得到有标签样本以及无标签样本，并将筛选到的特征确定为目标特征。

在本实施例的一些可选的实现方式中，筛选单元包括：采样子单元、生成子单元、第一计算子单元、第二计算子单元、贡献计算子单元和特征筛选子单元，其中：

采样子单元，用于将初始有标签样本和带有伪标签的初始无标签样本作为待筛选样本进行若干次有放回随机采样，得到若干特征筛选训练集。

生成子单元，用于基于若干特征筛选训练集，生成若干决策树以得到随机森林。

第一计算子单元，用于根据袋外数据计算随机森林中各决策树的第一袋外数据误差，其中，袋外数据来自各决策树所对应的特征筛选训练集。

第二计算子单元，用于随机改变袋外数据中的特征，并计算各决策树的第二袋外数据误差。

贡献计算子单元，用于根据计算得到的第二袋外数据误差和第一袋外数据误差计算各特征的特征贡献度。

特征筛选子单元，用于根据计算得到的特征贡献度对初始有标签样本和带有伪标签的初始无标签样本进行特征筛选，得到有标签样本以及无标签样本，并将筛选到的特征确定为目标特征。

在本实施例的一些可选的实现方式中，数据增强模块303包括：样本确定子模块、样本点选取子模块以及样本集构建子模块，其中：

样本确定子模块，用于对于每个无标签样本，根据无标签样本间的欧氏距离确定无标签样本的临近样本集，其中，临近样本集包括预设数量的临近样本。

样本点选取子模块，用于对于每个临近样本，在临近样本与无标签样本的特征空间连线上，选取扩充样本点。

样本集构建子模块，用于根据选取的扩充样本点以及无标签样本，构建得到与无标签样本对应的增强无标签样本集。

在本实施例的一些可选的实现方式中，第二训练模块304包括：样本输入子模块、结果确定子模块、损失计算子模块以及参数调整子模块，其中：

样本输入子模块，用于将有标签样本以及与无标签样本对应的增强无标签样本集输入第二用户识别模型，得到有标签样本的用户预测结果，以及增强无标签样本集中各增强无标签样本的用户预测结果。

结果确定子模块，用于根据各增强无标签样本的用户预测结果，确定无标签样本的用户预测结果。

损失计算子模块，用于将前轮第二训练中无标签样本的用户预测结果，作为当前第二训练中无标签样本的伪标签，以计算有标签样本和无标签样本的正则化交叉熵损失。

参数调整子模块，用于根据正则化交叉熵损失对第二用户识别模型进行参数调整，直至模型收敛，得到异常用户识别模型。

在本实施例的一些可选的实现方式中，样本输入模块306包括：样本获取子模块、筛选子模块以及识别输入子模块，其中：

样本获取子模块，用于获取待识别用户样本。

筛选子模块，用于根据预设的目标特征对待识别用户样本进行特征筛选。

识别输入子模块，用于将特征筛选后的待识别用户样本输入异常用户识别模型，得到用户识别结果。

为解决上述技术问题，本申请实施例还提供计算机设备。具体请参阅图7，图7为本实施例计算机设备基本结构框图。

所述计算机设备4包括通过***总线相互通信连接存储器41、处理器42、网络接口43。需要指出的是，图中仅示出了具有组件41-43的计算机设备4，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。其中，本技术领域技术人员可以理解，这里的计算机设备是一种能够按照事先设定或存储的指令，自动进行数值计算和/或信息处理的设备，其硬件包括但不限于微处理器、专用集成电路(ApplicationSpecific Integrated Circuit，ASIC)、可编程门阵列(Field－Programmable GateArray，FPGA)、数字处理器(Digital Signal Processor，DSP)、嵌入式设备等。

所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。

所述存储器41至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，所述存储器41可以是所述计算机设备4的内部存储单元，例如该计算机设备4的硬盘或内存。在另一些实施例中，所述存储器41也可以是所述计算机设备4的外部存储设备，例如该计算机设备4上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(FlashCard)等。当然，所述存储器41还可以既包括所述计算机设备4的内部存储单元也包括其外部存储设备。本实施例中，所述存储器41通常用于存储安装于所述计算机设备4的操作***和各类应用软件，例如基于智能决策的异常用户识别方法的计算机可读指令等。此外，所述存储器41还可以用于暂时地存储已经输出或者将要输出的各类数据。

所述处理器42在一些实施例中可以是中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器42通常用于控制所述计算机设备4的总体操作。本实施例中，所述处理器42用于运行所述存储器41中存储的计算机可读指令或者处理数据，例如运行所述基于智能决策的异常用户识别方法的计算机可读指令。

所述网络接口43可包括无线网络接口或有线网络接口，该网络接口43通常用于在所述计算机设备4与其他电子设备之间建立通信连接。

本实施例中提供的计算机设备可以执行上述基于智能决策的异常用户识别方法的步骤。此处基于智能决策的异常用户识别方法的步骤可以是上述各个实施例的基于智能决策的异常用户识别方法中的步骤。

本申请还提供了另一种实施方式，即提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可读指令，所述计算机可读指令可被至少一个处理器执行，以使所述至少一个处理器执行如上述的基于智能决策的异常用户识别方法的步骤。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本申请各个实施例所述的方法。

显然，以上所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例，附图中给出了本申请的较佳实施例，但并不限制本申请的专利范围。本申请可以以许多不同的形式来实现，相反地，提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进行了详细的说明，对于本领域的技术人员来而言，其依然可以对前述各具体实施方式所记载的技术方案进行修改，或者对其中部分技术特征进行等效替换。凡是利用本申请说明书及附图内容所做的等效结构，直接或间接运用在其他相关的技术领域，均同理在本申请专利保护范围之内。

Claims

1.一种基于智能决策的异常用户识别方法，其特征在于，包括下述步骤：

2.根据权利要求1所述的基于智能决策的异常用户识别方法，其特征在于，所述对所述原始数据集进行数据重组，得到有标签样本以及无标签样本的步骤包括：

3.根据权利要求1所述的基于智能决策的异常用户识别方法，其特征在于，所述对所述初始有标签样本和所述初始无标签样本进行特征筛选，得到有标签样本以及无标签样本的步骤具体包括：

4.根据权利要求3所述的基于智能决策的异常用户识别方法，其特征在于，所述通过随机森林对所述初始有标签样本和带有伪标签的初始无标签样本进行特征筛选，得到有标签样本以及无标签样本，并将筛选到的特征确定为目标特征的步骤包括：

5.根据权利要求1所述的基于智能决策的异常用户识别方法，其特征在于，所述对所述无标签样本进行数据增强，得到与所述无标签样本对应的增强无标签样本集的步骤包括：

6.根据权利要求1所述的基于智能决策的异常用户识别方法，其特征在于，所述通过所述有标签样本以及与所述无标签样本对应的增强无标签样本集，对所述第二用户识别模型进行第二训练，得到异常用户识别模型的步骤包括：

7.根据权利要求3所述的基于智能决策的异常用户识别方法，其特征在于，所述将待识别用户样本输入所述异常用户识别模型，得到用户识别结果的步骤包括：

获取待识别用户样本；

根据预设的目标特征对所述待识别用户样本进行特征筛选；

8.一种基于智能决策的异常用户识别装置，其特征在于，包括：

9.一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述处理器执行所述计算机可读指令时实现如权利要求1至7中任一项所述的基于智能决策的异常用户识别方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机可读指令，所述计算机可读指令被处理器执行时实现如权利要求1至7中任一项所述的基于智能决策的异常用户识别方法的步骤。