CN115292381A

CN115292381A - 一种基于极限梯度提升算法的虚拟货币挖矿行为识别方法

Info

Publication number: CN115292381A
Application number: CN202210713401.6A
Authority: CN
Inventors: 曾静; 张旭东; 俞阳; 陈俊; 娄冰; 侯宝宇; 李财隆; 邓隽; 郑樟磊; 张晓春; 冯申申; 徐俊卿
Original assignee: State Grid Zhejiang Electric Power Co Ltd; Zhejiang Huayun Information Technology Co Ltd; Quzhou Power Supply Co of State Grid Zhejiang Electric Power Co Ltd
Current assignee: State Grid Zhejiang Electric Power Co Ltd; Zhejiang Huayun Information Technology Co Ltd; Quzhou Power Supply Co of State Grid Zhejiang Electric Power Co Ltd
Priority date: 2022-06-22
Filing date: 2022-06-22
Publication date: 2022-11-04

Abstract

本发明提供了一种基于极限梯度提升算法的虚拟货币挖矿行为识别方法，所述识别方法具体为选择识别区域，根据对应的历史稽查信息，根据历史稽查信息对完成现场稽查的用电用户的历史用电数据添加标签，构建已标注数据集，并根据其他用电用户的历史用电数据构建未标注数据集，对两个数据集进行特征提取，构建特征数据集作为输入，使用极限梯度提升算法通过半监督学习方法对挖矿用户甄别模型进行训练，确定所有待识别用户并采集对应的用电数据，提取用电特征数据，将提取的用电特征数据输入挖矿用户甄别模型，获取待识别用户中的挖矿用户，并对其添加挖矿用户标签。本发明能够准确且有效的识别挖矿用户，并适用于大量用电数据识别的场景。

Description

一种基于极限梯度提升算法的虚拟货币挖矿行为识别方法

技术领域

本发明涉及虚拟货币挖矿甄别领域，尤其是指一种基于极限梯度提升算法的虚拟货币挖矿行为识别方法。

背景技术

比特币“挖矿”具体指代通过反复尝试不同随机数对未打包交易进行哈希处理，以找到能够符合工作证明条件的随机数，并根据找到的随机数构成区块，每产生一个有效的区块就会被授予一定数量的币作为奖励的行为。

而当前国内外对虚拟货币“挖矿”行为的检测方法包括基于机器学习的网络流量异常检测方法、基于矿池IP流量的检测方法和基于用电异常和现场排查的挖矿活动检测方法，基于机器学习的网络流量异常检测方法存在着识别覆盖面不高，针对大规模网络流量处理难度大的问题。而基于矿池IP流量的检测方法虽然能够低成本轻量化识别连接目标矿池，但由于矿池IP存在着可能存在动态变化、收集矿池IP工作复杂以及相关阈值设置困难的问题，其检测准确性并不高。而现场排查的方式在存在着统计效率低，准确性不高的问题。

发明内容

本发明的目的是克服现有技术中的缺点，提供一种基于极限梯度提升算法的虚拟货币挖矿行为识别方法。

本发明的目的是通过下述技术方案予以实现：

一种基于极限梯度提升算法的虚拟货币挖矿行为识别方法，包括以下步骤：

步骤一，选择识别区域，调取识别区域的历史稽查信息，根据识别区域的历史稽查信息确定所有完成现场稽查的用电用户，调取所有完成现场稽查的用电用户的历史用电数据，并根据历史稽查信息对完成现场稽查的用电用户的历史用电数据进行添加标签处理，根据所有添加标签处理的历史用电数据构建已标注数据集，同时调取识别区域内未完成现场稽查的用电用户的历史用电数据，并根据未完成现场稽查的用电用户的历史用电数据构建未标注数据集；

步骤二，分别对已标注数据集和未标注数据集进行用电特征的提取，获取已标注用电特征数据和未标注用电特征数据，根据获取的已标注用电特征数据和未标注用电特征数据构建特征数据集作为输入，使用极限梯度提升算法通过半监督学习方法对挖矿用户甄别模型进行训练，构建挖矿用户甄别模型；

步骤三，根据识别区域的历史稽查信息确定所有待识别用户，并采集所有待识别用户的用电数据，并提取对应的用电特征数据，将提取的待识别用户的用电特征数据输入挖矿用户甄别模型，获取待识别用户中的挖矿用户，并在获取的挖矿用户的客户档案数据中添加挖矿用户标签。

进一步的，步骤二中根据获取的已标注用电特征数据和未标注用电特征数据构建特征数据集作为输入，使用极限梯度提升算法通过半监督学习方法对挖矿用户甄别模型进行训练的具体过程为：对特征数据集划分为训练集和测试集，其中训练集为已标注用电特征数据，测试集为未标注用电特征数据，通过训练集对挖矿用户甄别模型进行训练，在完成训练后，判断挖矿用户甄别模型训练结果是否达到预设迭代终止条件，若达到预设迭代终止条件，则结束训练，获取训练完成的挖矿用户甄别模型；若未达到预设迭代终止条件，则通过当前的挖矿用户甄别模型对测试集中的未标注用电特征数据进行预测，并根据预测结果计算测试集中每个用电特征数据对应的置信度，筛选出所有置信度高于预设阈值的用电特征数据，并根据其对应的预测结果进行添加标签处理，将添加标签后的用电特征数据加入训练集，进行训练集的更新，并通过更新后的训练集继续训练挖矿用户甄别模型，对挖矿用户甄别模型进行优化，直至达到预设迭代终止条件。

进一步的，对历史用电数据添加的标签以及对用电特征数据添加的标签均包括挖矿用户标签和非挖矿用户标签。

进一步的，在步骤三中获取挖矿用户后，还调取每个挖矿用户对应的客户档案数据，并从客户档案数据中提取出行业信息，将每个挖矿用户的行业信息与预设行业类型进行比较，筛选出属于预设行业类型的挖矿用户，并对筛选出的属于预设行业类型的挖矿用户，进行剔除挖矿用户标签处理。

进一步的，步骤二中对已标注数据集和未标注数据集提取的所述用电特征数据包括节假日日电量平均值、节假日日峰谷电量平均标准差、月电量平均值和月电量峰谷平均标准差。

进一步的，步骤三中在根据挖矿用户甄别模型获完成所有待识别用户的甄别后，还设置识别区域的甄别周期，通过挖矿用户甄别模型对识别区域内所有用户进行周期性挖矿用户甄别。

进一步的，每个甄别周期完成挖矿用户甄别后，还将该甄别周期对应的挖矿用户甄别模型的甄别结果记录至识别区域的稽查信息中，在下一个甄别周期开始通过挖矿用户甄别模型进行挖矿用户甄别前，通过稽查信息获取上个甄别周期内甄别出的挖矿用户，并调取上个甄别周期内甄别出的挖矿用户对应的用电数据和客户档案数据，根据调取的用电数据和客户档案数据对挖矿用户甄别模型进行优化。

本发明的有益效果是：

能够通过数据挖掘提取挖矿活动的用电行为特征，并采用极限梯度提升算法进行半监督学习，从而获取能够检测挖矿活动对应用户的挖矿用户甄别模型，通过挖矿用户甄别模型能够准确识别挖矿用户，并且能够实现大量用电数据的自动化检测和快速处理。且根据后续的检测结果持续对挖矿用户甄别模型进行优化，进一步提高挖矿用户甄别准确性。

附图说明

图1是本发明的一种流程示意图。

具体实施方式

下面结合附图和实施例对本发明进一步描述。

实施例：

一种基于极限梯度提升算法的虚拟货币挖矿行为识别方法，如图1所示，包括以下步骤：

步骤二中根据获取的已标注用电特征数据和未标注用电特征数据构建特征数据集作为输入，使用极限梯度提升算法通过半监督学习方法对挖矿用户甄别模型进行训练的具体过程为：对特征数据集划分为训练集和测试集，其中训练集为已标注用电特征数据，测试集为未标注用电特征数据，通过训练集对挖矿用户甄别模型进行训练，在完成训练后，判断挖矿用户甄别模型训练结果是否达到预设迭代终止条件，若达到预设迭代终止条件，则结束训练，获取训练完成的挖矿用户甄别模型；若未达到预设迭代终止条件，则通过当前的挖矿用户甄别模型对测试集中的未标注用电特征数据进行预测，并根据预测结果计算测试集中每个用电特征数据对应的置信度，筛选出所有置信度高于预设阈值的用电特征数据，并根据其对应的预测结果进行添加标签处理，将添加标签后的用电特征数据加入训练集，进行训练集的更新，并通过更新后的训练集继续训练挖矿用户甄别模型，对挖矿用户甄别模型进行优化，直至达到预设迭代终止条件。

对历史用电数据添加的标签以及对用电特征数据添加的标签均包括挖矿用户标签和非挖矿用户标签。

在步骤三中获取挖矿用户后，还调取每个挖矿用户对应的客户档案数据，并从客户档案数据中提取出行业信息，将每个挖矿用户的行业信息与预设行业类型进行比较，筛选出属于预设行业类型的挖矿用户，并对筛选出的属于预设行业类型的挖矿用户，进行剔除挖矿用户标签处理。

由于数据机房、农业灌溉、畜牧养殖等行业的用电行为与挖矿用户的用电行为相似，因此筛选出属于上述几类行业的存在挖矿用户标签的用电用户，并将挖矿用户标签剔除。

步骤一中所述用电特征数据包括节假日日电量平均值、节假日日峰谷电量平均标准差、月电量平均值和月电量峰谷平均标准差。

由于挖矿所采用的矿机在使用过程中会呈现整体用电高、用电分布均匀的用电特征，而挖矿用户的主要负荷即为矿机，其用电占据了挖矿用户的大多数负荷。且由于挖矿用户的挖矿行为存在持续性，即使是节假日也并不会出现日电量的变化，在挖矿过程中，每天的平均负荷都相对稳定，无论是尖峰时段还是谷时段用电相差较小。节假日日电量平均值和月电量平均值分别代表用户短期和长期内负荷用量，节假日日峰谷电量平均标准差和月电量峰谷平均标准差分别表征用户微观和宏观上的负荷波动幅度，这四个特征值能够有效表征挖矿用户的挖矿行为特征，即用电分布均匀以及用电高。

节假日日峰谷电量平均标准差和月电量峰谷平均标准差越小，说明用户的负荷波动幅度越小，用电更加均匀。

所述节假日日电量平均值的计算公式为：

其中：y₁为节假日日电量平均值，x_i为用电用户第i日的日电量，n为调取的用电用户的历史用电数据中，属于节假日的日期天数。

所述节假日日峰谷电量平均标准差的计算公式为：

其中：σ_i为用电用户第i日的峰谷用电量标准差；r1_i、r2_i、r3_i分别为用电用户在第i日的尖用电量、峰用电量和谷用电量；rf_i＝r1_i+r2_i，为用电用户在第i日的尖峰用电量；

为归一化后的谷用电量；

为归一化后的尖峰用电量；

为在第i天归一化后的尖峰用电量和谷用电量的平均值；y₂为节假日日峰谷电量平均标准差；n为调取的用电用户的历史用电数据中，属于节假日的日期天数。

所述月电量平均值的计算公式为：

其中：y₃为月电量平均值，xm_j为用电用户第j个月的总电量，m为调取的用电用户的历史用电数据对应的总月数。

所述月电量峰谷平均标准差的计算公式为：

其中：σm_j为用电用户第j月的峰谷用电标准差，

为归一化后的谷用电量，rmf_j＝rm1_j+rm2_j，rmf_j为第j个月的尖峰用电量，

为归一化后的尖峰用电量，

为第j个月归一化后的尖峰用电量与谷用电量的平均值，y₄为月电量峰谷平均标准差，m为调取的用电用户的历史用电数据对应的总月数。

步骤三中在根据挖矿用户甄别模型获完成所有待识别用户的甄别后，还设置识别区域的甄别周期，通过挖矿用户甄别模型对识别区域内所有用户进行周期性挖矿用户甄别。

每个甄别周期完成挖矿用户甄别后，还将该甄别周期对应的挖矿用户甄别模型的甄别结果记录至识别区域的稽查信息中，在下一个甄别周期开始通过挖矿用户甄别模型进行挖矿用户甄别前，通过稽查信息获取上个甄别周期内甄别出的挖矿用户，并调取上个甄别周期内甄别出的挖矿用户对应的用电数据和客户档案数据，根据调取的用电数据和客户档案数据对挖矿用户甄别模型进行优化。

由于电力数据的数据量极大，但是筛选出并添加有挖矿用户标签的数量很少，因此采用半监督学习方法进行模型训练，并具体了采用阶梯梯度提升 (xgboost)算法，阶梯梯度提升算法能够控制模型复杂度并防止过拟合，且其代价函数能够使用二阶泰勒展开近似，得到的结果更接近实际值。

阶梯梯度提升算法属于Boosting集成算法，能够基于若干分类或者回归树的弱学习器实现强学习器，通过增加新的决策树作为基学习器，并拟合上一次的预测残差，累加所有决策树的预测结果后得到最终模型结果。通过阶梯梯度提升算法对挖矿用户甄别模型进行半监督学习的基本过程为：对于从特征数据集中划分出的训练集

将挖矿用户甄别模型训练出K棵分类和回归树，得到集合F＝{f₁(x)，f₂(x)，...，f_k(x)}，把每一个输入的用电特征数据根据属性值的分割点分配到不同的叶子节点，而每个叶子节点对应着一个实时地分数f_k，当给定需要进行预测分类的用电特征数据x_i时，挖矿用户甄别模型对于用电特征数据x_i的预测结果就是每棵树的预测分数之和。

具体的，挖矿用户甄别模型可以定义为：

其中：

为用户特征数据x_i对应的预测结果，K为训练得到的分类和回归树的数量，f_k(x_i)为用户特征数据xi输入到第k颗分类和回归树后得到的叶子节点的预测分数，F为所有训练得到的分类和回归树的集合。

挖矿用户甄别模型的目标函数可以定义为：

其中：Obj(θ)为目标函数值，

为挖矿用户甄别模型的损失函数，y_i为用户特征数据x_i的真实分类结果，

为用户特征数据x_i的预测结果， l(x，y)函数是预设的误差函数，n为训练集中用户特征数据的数量；

为挖矿用户甄别模型的正则化项，K为分类和回归树的数量，Ω(f_k)表示叶子节点权重和树的深度，具体的，

γ和λ为加权因子， T为树的深度，w_j为叶子节点分数。

损失函数能够描述预测值和真实值的误差，具体的，本实施例中预设的误差函数可以为0-1误差、Hinge误差，Log误差、均方误差或绝对误差。为正则化项则能够表示K颗树的复杂程度，从而有效防止挖矿用户甄别模型过拟合情况的出现。在进行挖矿用户甄别模型的优化时，优化目标就主要包括了对于损失函数以及正则化项的优化。

在对损失函数进行优化时，主要通过增量学习的方式实现优化，对损失函数进行增量学习的过程为：

获取每一轮的预测函数，每轮预测函数的表达式为：

...

其中

为挖矿用户甄别模型的最终预测值，

为第t-1轮挖矿用户甄别模型的预测值，f_t(x_i)为当前一轮新加入的预测函数。

将

代入目标函数得到：

而由于f_t(x_i)为根据第t颗树，第t-1颗树的预测值

和

均是和f_t(x_i)无关的常量因此对目标函数进行泰勒展开近似，得到：

其中：

g_i为损失函数的一阶导数，

h_i为损失函数的二阶导数。

在获取泰勒展开的目标函数后，完成对于损失函数的优化，再通过将叶子节点权重和树的深度加入目标函数的正则化项，实现对于正则化项的优化。

将叶子节点权重和树的深度加入目标函数的正则化项后，得到目标函数为：

其中：I_j＝{i|q(x_i)＝j}，I_j表示每个叶子节点上的用电特征数据的集合。

在叶子节点权重和树的深度加入正则化项后，获取对应的一颗树的打分函数，用于评估树结构的质量，并根据评估结果选取最优树结构，完成对于正则化项的优化。但是由于难以枚举所有可能的树结构，因此采用贪婪算法来进行代替枚举过程，具体为：从单个叶子节点开始，迭代***给树增加节点，并在***节点的过程中，对节点***后的增益进行判断，仅在***后的增益大于新加入叶子节点所引入的复杂度时，进行***，在完成所有节点的***判断和对应操作后，获取最优的树结构，完成对于目标函数正则化项的优化。

以上所述的实施例只是本发明的一种较佳的方案，并非对本发明作任何形式上的限制，在不超出权利要求所记载的技术方案的前提下还有其它的变体及改型。

Claims

1.一种基于极限梯度提升算法的虚拟货币挖矿行为识别方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于极限梯度提升算法的虚拟货币挖矿行为识别方法，其特征在于，步骤二中根据获取的已标注用电特征数据和未标注用电特征数据构建特征数据集作为输入，使用极限梯度提升算法通过半监督学习方法对挖矿用户甄别模型进行训练的具体过程为：对特征数据集划分为训练集和测试集，其中训练集为已标注用电特征数据，测试集为未标注用电特征数据，通过训练集对挖矿用户甄别模型进行训练，在完成训练后，判断挖矿用户甄别模型训练结果是否达到预设迭代终止条件，若达到预设迭代终止条件，则结束训练，获取训练完成的挖矿用户甄别模型；若未达到预设迭代终止条件，则通过当前的挖矿用户甄别模型对测试集中的未标注用电特征数据进行预测，并根据预测结果计算测试集中每个用电特征数据对应的置信度，筛选出所有置信度高于预设阈值的用电特征数据，并根据其对应的预测结果进行添加标签处理，将添加标签后的用电特征数据加入训练集，进行训练集的更新，并通过更新后的训练集继续训练挖矿用户甄别模型，对挖矿用户甄别模型进行优化，直至达到预设迭代终止条件。

3.根据权利要求1或2所述的一种基于极限梯度提升算法的虚拟货币挖矿行为识别方法，其特征在于，对历史用电数据添加的标签以及对用电特征数据添加的标签均包括挖矿用户标签和非挖矿用户标签。

4.根据权利要求1所述的一种基于极限梯度提升算法的虚拟货币挖矿行为识别方法，其特征在于，在步骤三中获取挖矿用户后，还调取每个挖矿用户对应的客户档案数据，并从客户档案数据中提取出行业信息，将每个挖矿用户的行业信息与预设行业类型进行比较，筛选出属于预设行业类型的挖矿用户，并对筛选出的属于预设行业类型的挖矿用户，进行剔除挖矿用户标签处理。

5.根据权利要求1所述的一种基于极限梯度提升算法的虚拟货币挖矿行为识别方法，其特征在于，步骤二中对已标注数据集和未标注数据集提取的所述用电特征数据包括节假日日电量平均值、节假日日峰谷电量平均标准差、月电量平均值和月电量峰谷平均标准差。

6.根据权利要求1所述的一种基于极限梯度提升算法的虚拟货币挖矿行为识别方法，其特征在于，步骤三中在根据挖矿用户甄别模型获完成所有待识别用户的甄别后，还设置识别区域的甄别周期，通过挖矿用户甄别模型对识别区域内所有用户进行周期性挖矿用户甄别。

7.根据权利要求6所述的一种基于极限梯度提升算法的虚拟货币挖矿行为识别方法，其特征在于，每个甄别周期完成挖矿用户甄别后，还将该甄别周期对应的挖矿用户甄别模型的甄别结果记录至识别区域的稽查信息中，在下一个甄别周期开始通过挖矿用户甄别模型进行挖矿用户甄别前，通过稽查信息获取上个甄别周期内甄别出的挖矿用户，并调取上个甄别周期内甄别出的挖矿用户对应的用电数据和客户档案数据，根据调取的用电数据和客户档案数据对挖矿用户甄别模型进行优化。