CN115292381A - 一种基于极限梯度提升算法的虚拟货币挖矿行为识别方法 - Google Patents

一种基于极限梯度提升算法的虚拟货币挖矿行为识别方法 Download PDF

Info

Publication number
CN115292381A
CN115292381A CN202210713401.6A CN202210713401A CN115292381A CN 115292381 A CN115292381 A CN 115292381A CN 202210713401 A CN202210713401 A CN 202210713401A CN 115292381 A CN115292381 A CN 115292381A
Authority
CN
China
Prior art keywords
mining
data
users
power utilization
electricity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210713401.6A
Other languages
English (en)
Inventor
曾静
张旭东
俞阳
陈俊
娄冰
侯宝宇
李财隆
邓隽
郑樟磊
张晓春
冯申申
徐俊卿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Zhejiang Electric Power Co Ltd
Zhejiang Huayun Information Technology Co Ltd
Quzhou Power Supply Co of State Grid Zhejiang Electric Power Co Ltd
Original Assignee
State Grid Zhejiang Electric Power Co Ltd
Zhejiang Huayun Information Technology Co Ltd
Quzhou Power Supply Co of State Grid Zhejiang Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Zhejiang Electric Power Co Ltd, Zhejiang Huayun Information Technology Co Ltd, Quzhou Power Supply Co of State Grid Zhejiang Electric Power Co Ltd filed Critical State Grid Zhejiang Electric Power Co Ltd
Priority to CN202210713401.6A priority Critical patent/CN115292381A/zh
Publication of CN115292381A publication Critical patent/CN115292381A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q20/00Payment architectures, schemes or protocols
    • G06Q20/38Payment protocols; Details thereof
    • G06Q20/40Authorisation, e.g. identification of payer or payee, verification of customer or shop credentials; Review and approval of payers, e.g. check credit lines or negative lists
    • G06Q20/401Transaction verification
    • G06Q20/4016Transaction verification involving fraud or risk level assessment in transaction processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/04Trading; Exchange, e.g. stocks, commodities, derivatives or currency exchange
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Accounting & Taxation (AREA)
  • General Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Finance (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Marketing (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Technology Law (AREA)
  • Computer Security & Cryptography (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Fuzzy Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Public Health (AREA)
  • Water Supply & Treatment (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Primary Health Care (AREA)
  • Tourism & Hospitality (AREA)
  • Development Economics (AREA)

Abstract

本发明提供了一种基于极限梯度提升算法的虚拟货币挖矿行为识别方法,所述识别方法具体为选择识别区域,根据对应的历史稽查信息,根据历史稽查信息对完成现场稽查的用电用户的历史用电数据添加标签,构建已标注数据集,并根据其他用电用户的历史用电数据构建未标注数据集,对两个数据集进行特征提取,构建特征数据集作为输入,使用极限梯度提升算法通过半监督学习方法对挖矿用户甄别模型进行训练,确定所有待识别用户并采集对应的用电数据,提取用电特征数据,将提取的用电特征数据输入挖矿用户甄别模型,获取待识别用户中的挖矿用户,并对其添加挖矿用户标签。本发明能够准确且有效的识别挖矿用户,并适用于大量用电数据识别的场景。

Description

一种基于极限梯度提升算法的虚拟货币挖矿行为识别方法
技术领域
本发明涉及虚拟货币挖矿甄别领域,尤其是指一种基于极限梯度提升算法的虚拟货币挖矿行为识别方法。
背景技术
比特币“挖矿”具体指代通过反复尝试不同随机数对未打包交易进行哈希处理,以找到能够符合工作证明条件的随机数,并根据找到的随机数构成区块,每产生一个有效的区块就会被授予一定数量的币作为奖励的行为。
而当前国内外对虚拟货币“挖矿”行为的检测方法包括基于机器学习的网络流量异常检测方法、基于矿池IP流量的检测方法和基于用电异常和现场排查的挖矿活动检测方法,基于机器学习的网络流量异常检测方法存在着识别覆盖面不高,针对大规模网络流量处理难度大的问题。而基于矿池IP流量的检测方法虽然能够低成本轻量化识别连接目标矿池,但由于矿池IP存在着可能存在动态变化、收集矿池IP工作复杂以及相关阈值设置困难的问题,其检测准确性并不高。而现场排查的方式在存在着统计效率低,准确性不高的问题。
发明内容
本发明的目的是克服现有技术中的缺点,提供一种基于极限梯度提升算法的虚拟货币挖矿行为识别方法。
本发明的目的是通过下述技术方案予以实现:
一种基于极限梯度提升算法的虚拟货币挖矿行为识别方法,包括以下步骤:
步骤一,选择识别区域,调取识别区域的历史稽查信息,根据识别区域的历史稽查信息确定所有完成现场稽查的用电用户,调取所有完成现场稽查的用电用户的历史用电数据,并根据历史稽查信息对完成现场稽查的用电用户的历史用电数据进行添加标签处理,根据所有添加标签处理的历史用电数据构建已标注数据集,同时调取识别区域内未完成现场稽查的用电用户的历史用电数据,并根据未完成现场稽查的用电用户的历史用电数据构建未标注数据集;
步骤二,分别对已标注数据集和未标注数据集进行用电特征的提取,获取已标注用电特征数据和未标注用电特征数据,根据获取的已标注用电特征数据和未标注用电特征数据构建特征数据集作为输入,使用极限梯度提升算法通过半监督学习方法对挖矿用户甄别模型进行训练,构建挖矿用户甄别模型;
步骤三,根据识别区域的历史稽查信息确定所有待识别用户,并采集所有待识别用户的用电数据,并提取对应的用电特征数据,将提取的待识别用户的用电特征数据输入挖矿用户甄别模型,获取待识别用户中的挖矿用户,并在获取的挖矿用户的客户档案数据中添加挖矿用户标签。
进一步的,步骤二中根据获取的已标注用电特征数据和未标注用电特征数据构建特征数据集作为输入,使用极限梯度提升算法通过半监督学习方法对挖矿用户甄别模型进行训练的具体过程为:对特征数据集划分为训练集和测试集,其中训练集为已标注用电特征数据,测试集为未标注用电特征数据,通过训练集对挖矿用户甄别模型进行训练,在完成训练后,判断挖矿用户甄别模型训练结果是否达到预设迭代终止条件,若达到预设迭代终止条件,则结束训练,获取训练完成的挖矿用户甄别模型;若未达到预设迭代终止条件,则通过当前的挖矿用户甄别模型对测试集中的未标注用电特征数据进行预测,并根据预测结果计算测试集中每个用电特征数据对应的置信度,筛选出所有置信度高于预设阈值的用电特征数据,并根据其对应的预测结果进行添加标签处理,将添加标签后的用电特征数据加入训练集,进行训练集的更新,并通过更新后的训练集继续训练挖矿用户甄别模型,对挖矿用户甄别模型进行优化,直至达到预设迭代终止条件。
进一步的,对历史用电数据添加的标签以及对用电特征数据添加的标签均包括挖矿用户标签和非挖矿用户标签。
进一步的,在步骤三中获取挖矿用户后,还调取每个挖矿用户对应的客户档案数据,并从客户档案数据中提取出行业信息,将每个挖矿用户的行业信息与预设行业类型进行比较,筛选出属于预设行业类型的挖矿用户,并对筛选出的属于预设行业类型的挖矿用户,进行剔除挖矿用户标签处理。
进一步的,步骤二中对已标注数据集和未标注数据集提取的所述用电特征数据包括节假日日电量平均值、节假日日峰谷电量平均标准差、月电量平均值和月电量峰谷平均标准差。
进一步的,步骤三中在根据挖矿用户甄别模型获完成所有待识别用户的甄别后,还设置识别区域的甄别周期,通过挖矿用户甄别模型对识别区域内所有用户进行周期性挖矿用户甄别。
进一步的,每个甄别周期完成挖矿用户甄别后,还将该甄别周期对应的挖矿用户甄别模型的甄别结果记录至识别区域的稽查信息中,在下一个甄别周期开始通过挖矿用户甄别模型进行挖矿用户甄别前,通过稽查信息获取上个甄别周期内甄别出的挖矿用户,并调取上个甄别周期内甄别出的挖矿用户对应的用电数据和客户档案数据,根据调取的用电数据和客户档案数据对挖矿用户甄别模型进行优化。
本发明的有益效果是:
能够通过数据挖掘提取挖矿活动的用电行为特征,并采用极限梯度提升算法进行半监督学习,从而获取能够检测挖矿活动对应用户的挖矿用户甄别模型,通过挖矿用户甄别模型能够准确识别挖矿用户,并且能够实现大量用电数据的自动化检测和快速处理。且根据后续的检测结果持续对挖矿用户甄别模型进行优化,进一步提高挖矿用户甄别准确性。
附图说明
图1是本发明的一种流程示意图。
具体实施方式
下面结合附图和实施例对本发明进一步描述。
实施例:
一种基于极限梯度提升算法的虚拟货币挖矿行为识别方法,如图1所示,包括以下步骤:
步骤一,选择识别区域,调取识别区域的历史稽查信息,根据识别区域的历史稽查信息确定所有完成现场稽查的用电用户,调取所有完成现场稽查的用电用户的历史用电数据,并根据历史稽查信息对完成现场稽查的用电用户的历史用电数据进行添加标签处理,根据所有添加标签处理的历史用电数据构建已标注数据集,同时调取识别区域内未完成现场稽查的用电用户的历史用电数据,并根据未完成现场稽查的用电用户的历史用电数据构建未标注数据集;
步骤二,分别对已标注数据集和未标注数据集进行用电特征的提取,获取已标注用电特征数据和未标注用电特征数据,根据获取的已标注用电特征数据和未标注用电特征数据构建特征数据集作为输入,使用极限梯度提升算法通过半监督学习方法对挖矿用户甄别模型进行训练,构建挖矿用户甄别模型;
步骤三,根据识别区域的历史稽查信息确定所有待识别用户,并采集所有待识别用户的用电数据,并提取对应的用电特征数据,将提取的待识别用户的用电特征数据输入挖矿用户甄别模型,获取待识别用户中的挖矿用户,并在获取的挖矿用户的客户档案数据中添加挖矿用户标签。
步骤二中根据获取的已标注用电特征数据和未标注用电特征数据构建特征数据集作为输入,使用极限梯度提升算法通过半监督学习方法对挖矿用户甄别模型进行训练的具体过程为:对特征数据集划分为训练集和测试集,其中训练集为已标注用电特征数据,测试集为未标注用电特征数据,通过训练集对挖矿用户甄别模型进行训练,在完成训练后,判断挖矿用户甄别模型训练结果是否达到预设迭代终止条件,若达到预设迭代终止条件,则结束训练,获取训练完成的挖矿用户甄别模型;若未达到预设迭代终止条件,则通过当前的挖矿用户甄别模型对测试集中的未标注用电特征数据进行预测,并根据预测结果计算测试集中每个用电特征数据对应的置信度,筛选出所有置信度高于预设阈值的用电特征数据,并根据其对应的预测结果进行添加标签处理,将添加标签后的用电特征数据加入训练集,进行训练集的更新,并通过更新后的训练集继续训练挖矿用户甄别模型,对挖矿用户甄别模型进行优化,直至达到预设迭代终止条件。
对历史用电数据添加的标签以及对用电特征数据添加的标签均包括挖矿用户标签和非挖矿用户标签。
在步骤三中获取挖矿用户后,还调取每个挖矿用户对应的客户档案数据,并从客户档案数据中提取出行业信息,将每个挖矿用户的行业信息与预设行业类型进行比较,筛选出属于预设行业类型的挖矿用户,并对筛选出的属于预设行业类型的挖矿用户,进行剔除挖矿用户标签处理。
由于数据机房、农业灌溉、畜牧养殖等行业的用电行为与挖矿用户的用电行为相似,因此筛选出属于上述几类行业的存在挖矿用户标签的用电用户,并将挖矿用户标签剔除。
步骤一中所述用电特征数据包括节假日日电量平均值、节假日日峰谷电量平均标准差、月电量平均值和月电量峰谷平均标准差。
由于挖矿所采用的矿机在使用过程中会呈现整体用电高、用电分布均匀的用电特征,而挖矿用户的主要负荷即为矿机,其用电占据了挖矿用户的大多数负荷。且由于挖矿用户的挖矿行为存在持续性,即使是节假日也并不会出现日电量的变化,在挖矿过程中,每天的平均负荷都相对稳定,无论是尖峰时段还是谷时段用电相差较小。节假日日电量平均值和月电量平均值分别代表用户短期和长期内负荷用量,节假日日峰谷电量平均标准差和月电量峰谷平均标准差分别表征用户微观和宏观上的负荷波动幅度,这四个特征值能够有效表征挖矿用户的挖矿行为特征,即用电分布均匀以及用电高。
节假日日峰谷电量平均标准差和月电量峰谷平均标准差越小,说明用户的负荷波动幅度越小,用电更加均匀。
所述节假日日电量平均值的计算公式为:
Figure BDA0003707803770000071
其中:y1为节假日日电量平均值,xi为用电用户第i日的日电量,n为调取的用电用户的历史用电数据中,属于节假日的日期天数。
所述节假日日峰谷电量平均标准差的计算公式为:
Figure BDA0003707803770000072
Figure BDA0003707803770000073
其中:σi为用电用户第i日的峰谷用电量标准差;r1i、r2i、r3i分别为用电用户在第i日的尖用电量、峰用电量和谷用电量;rfi=r1i+r2i,为用电用户在第i日的尖峰用电量;
Figure BDA0003707803770000074
为归一化后的谷用电量;
Figure BDA0003707803770000075
为归一化后的尖峰用电量;
Figure BDA0003707803770000076
为在第i天归一化后的尖峰用电量和谷用电量的平均值;y2为节假日日峰谷电量平均标准差;n为调取的用电用户的历史用电数据中,属于节假日的日期天数。
所述月电量平均值的计算公式为:
Figure BDA0003707803770000081
其中:y3为月电量平均值,xmj为用电用户第j个月的总电量,m为调取的用电用户的历史用电数据对应的总月数。
所述月电量峰谷平均标准差的计算公式为:
Figure BDA0003707803770000082
Figure BDA0003707803770000083
其中:σmj为用电用户第j月的峰谷用电标准差,
Figure BDA0003707803770000084
为归一化后的谷用电量,rmfj=rm1j+rm2j,rmfj为第j个月的尖峰用电量,
Figure BDA0003707803770000085
为归一化后的尖峰用电量,
Figure BDA0003707803770000086
为第j个月归一化后的尖峰用电量与谷用电量的平均值,y4为月电量峰谷平均标准差,m为调取的用电用户的历史用电数据对应的总月数。
步骤三中在根据挖矿用户甄别模型获完成所有待识别用户的甄别后,还设置识别区域的甄别周期,通过挖矿用户甄别模型对识别区域内所有用户进行周期性挖矿用户甄别。
每个甄别周期完成挖矿用户甄别后,还将该甄别周期对应的挖矿用户甄别模型的甄别结果记录至识别区域的稽查信息中,在下一个甄别周期开始通过挖矿用户甄别模型进行挖矿用户甄别前,通过稽查信息获取上个甄别周期内甄别出的挖矿用户,并调取上个甄别周期内甄别出的挖矿用户对应的用电数据和客户档案数据,根据调取的用电数据和客户档案数据对挖矿用户甄别模型进行优化。
由于电力数据的数据量极大,但是筛选出并添加有挖矿用户标签的数量很少,因此采用半监督学习方法进行模型训练,并具体了采用阶梯梯度提升 (xgboost)算法,阶梯梯度提升算法能够控制模型复杂度并防止过拟合,且其代价函数能够使用二阶泰勒展开近似,得到的结果更接近实际值。
阶梯梯度提升算法属于Boosting集成算法,能够基于若干分类或者回归树的弱学习器实现强学习器,通过增加新的决策树作为基学习器,并拟合上一次的预测残差,累加所有决策树的预测结果后得到最终模型结果。通过阶梯梯度提升算法对挖矿用户甄别模型进行半监督学习的基本过程为:对于从特征数据集中划分出的训练集
Figure BDA0003707803770000091
将挖矿用户甄别模型训练出K棵分类和回归树,得到集合F={f1(x),f2(x),...,fk(x)},把每一个输入的用电特征数据根据属性值的分割点分配到不同的叶子节点,而每个叶子节点对应着一个实时地分数fk,当给定需要进行预测分类的用电特征数据xi时,挖矿用户甄别模型对于用电特征数据xi的预测结果就是每棵树的预测分数之和。
具体的,挖矿用户甄别模型可以定义为:
Figure BDA0003707803770000092
其中:
Figure BDA0003707803770000093
为用户特征数据xi对应的预测结果,K为训练得到的分类和回归树的数量,fk(xi)为用户特征数据xi输入到第k颗分类和回归树后得到的叶子节点的预测分数,F为所有训练得到的分类和回归树的集合。
挖矿用户甄别模型的目标函数可以定义为:
Figure BDA0003707803770000094
其中:Obj(θ)为目标函数值,
Figure BDA0003707803770000101
为挖矿用户甄别模型的损失函数,yi为用户特征数据xi的真实分类结果,
Figure BDA0003707803770000102
为用户特征数据xi的预测结果, l(x,y)函数是预设的误差函数,n为训练集中用户特征数据的数量;
Figure BDA0003707803770000103
为挖矿用户甄别模型的正则化项,K为分类和回归树的数量,Ω(fk)表示叶子节点权重和树的深度,具体的,
Figure BDA0003707803770000104
γ和λ为加权因子, T为树的深度,wj为叶子节点分数。
损失函数能够描述预测值和真实值的误差,具体的,本实施例中预设的误差函数可以为0-1误差、Hinge误差,Log误差、均方误差或绝对误差。为正则化项则能够表示K颗树的复杂程度,从而有效防止挖矿用户甄别模型过拟合情况的出现。在进行挖矿用户甄别模型的优化时,优化目标就主要包括了对于损失函数以及正则化项的优化。
在对损失函数进行优化时,主要通过增量学习的方式实现优化,对损失函数进行增量学习的过程为:
获取每一轮的预测函数,每轮预测函数的表达式为:
Figure BDA0003707803770000105
Figure BDA0003707803770000106
Figure BDA0003707803770000107
...
Figure BDA0003707803770000108
其中
Figure BDA0003707803770000109
为挖矿用户甄别模型的最终预测值,
Figure BDA00037078037700001010
为第t-1轮挖矿用户甄别模型的预测值,ft(xi)为当前一轮新加入的预测函数。
Figure BDA00037078037700001011
代入目标函数得到:
Figure BDA00037078037700001012
而由于ft(xi)为根据第t颗树,第t-1颗树的预测值
Figure BDA0003707803770000111
Figure BDA0003707803770000112
均是和ft(xi)无关的常量因此对目标函数进行泰勒展开近似,得到:
Figure BDA0003707803770000113
其中:
Figure BDA0003707803770000114
gi为损失函数的一阶导数,
Figure BDA0003707803770000115
Figure BDA0003707803770000116
hi为损失函数的二阶导数。
在获取泰勒展开的目标函数后,完成对于损失函数的优化,再通过将叶子节点权重和树的深度加入目标函数的正则化项,实现对于正则化项的优化。
将叶子节点权重和树的深度加入目标函数的正则化项后,得到目标函数为:
Figure BDA0003707803770000117
其中:Ij={i|q(xi)=j},Ij表示每个叶子节点上的用电特征数据的集合。
在叶子节点权重和树的深度加入正则化项后,获取对应的一颗树的打分函数,用于评估树结构的质量,并根据评估结果选取最优树结构,完成对于正则化项的优化。但是由于难以枚举所有可能的树结构,因此采用贪婪算法来进行代替枚举过程,具体为:从单个叶子节点开始,迭代***给树增加节点,并在***节点的过程中,对节点***后的增益进行判断,仅在***后的增益大于新加入叶子节点所引入的复杂度时,进行***,在完成所有节点的***判断和对应操作后,获取最优的树结构,完成对于目标函数正则化项的优化。
以上所述的实施例只是本发明的一种较佳的方案,并非对本发明作任何形式上的限制,在不超出权利要求所记载的技术方案的前提下还有其它的变体及改型。

Claims (7)

1.一种基于极限梯度提升算法的虚拟货币挖矿行为识别方法,其特征在于,包括以下步骤:
步骤一,选择识别区域,调取识别区域的历史稽查信息,根据识别区域的历史稽查信息确定所有完成现场稽查的用电用户,调取所有完成现场稽查的用电用户的历史用电数据,并根据历史稽查信息对完成现场稽查的用电用户的历史用电数据进行添加标签处理,根据所有添加标签处理的历史用电数据构建已标注数据集,同时调取识别区域内未完成现场稽查的用电用户的历史用电数据,并根据未完成现场稽查的用电用户的历史用电数据构建未标注数据集;
步骤二,分别对已标注数据集和未标注数据集进行用电特征的提取,获取已标注用电特征数据和未标注用电特征数据,根据获取的已标注用电特征数据和未标注用电特征数据构建特征数据集作为输入,使用极限梯度提升算法通过半监督学习方法对挖矿用户甄别模型进行训练,构建挖矿用户甄别模型;
步骤三,根据识别区域的历史稽查信息确定所有待识别用户,并采集所有待识别用户的用电数据,并提取对应的用电特征数据,将提取的待识别用户的用电特征数据输入挖矿用户甄别模型,获取待识别用户中的挖矿用户,并在获取的挖矿用户的客户档案数据中添加挖矿用户标签。
2.根据权利要求1所述的一种基于极限梯度提升算法的虚拟货币挖矿行为识别方法,其特征在于,步骤二中根据获取的已标注用电特征数据和未标注用电特征数据构建特征数据集作为输入,使用极限梯度提升算法通过半监督学习方法对挖矿用户甄别模型进行训练的具体过程为:对特征数据集划分为训练集和测试集,其中训练集为已标注用电特征数据,测试集为未标注用电特征数据,通过训练集对挖矿用户甄别模型进行训练,在完成训练后,判断挖矿用户甄别模型训练结果是否达到预设迭代终止条件,若达到预设迭代终止条件,则结束训练,获取训练完成的挖矿用户甄别模型;若未达到预设迭代终止条件,则通过当前的挖矿用户甄别模型对测试集中的未标注用电特征数据进行预测,并根据预测结果计算测试集中每个用电特征数据对应的置信度,筛选出所有置信度高于预设阈值的用电特征数据,并根据其对应的预测结果进行添加标签处理,将添加标签后的用电特征数据加入训练集,进行训练集的更新,并通过更新后的训练集继续训练挖矿用户甄别模型,对挖矿用户甄别模型进行优化,直至达到预设迭代终止条件。
3.根据权利要求1或2所述的一种基于极限梯度提升算法的虚拟货币挖矿行为识别方法,其特征在于,对历史用电数据添加的标签以及对用电特征数据添加的标签均包括挖矿用户标签和非挖矿用户标签。
4.根据权利要求1所述的一种基于极限梯度提升算法的虚拟货币挖矿行为识别方法,其特征在于,在步骤三中获取挖矿用户后,还调取每个挖矿用户对应的客户档案数据,并从客户档案数据中提取出行业信息,将每个挖矿用户的行业信息与预设行业类型进行比较,筛选出属于预设行业类型的挖矿用户,并对筛选出的属于预设行业类型的挖矿用户,进行剔除挖矿用户标签处理。
5.根据权利要求1所述的一种基于极限梯度提升算法的虚拟货币挖矿行为识别方法,其特征在于,步骤二中对已标注数据集和未标注数据集提取的所述用电特征数据包括节假日日电量平均值、节假日日峰谷电量平均标准差、月电量平均值和月电量峰谷平均标准差。
6.根据权利要求1所述的一种基于极限梯度提升算法的虚拟货币挖矿行为识别方法,其特征在于,步骤三中在根据挖矿用户甄别模型获完成所有待识别用户的甄别后,还设置识别区域的甄别周期,通过挖矿用户甄别模型对识别区域内所有用户进行周期性挖矿用户甄别。
7.根据权利要求6所述的一种基于极限梯度提升算法的虚拟货币挖矿行为识别方法,其特征在于,每个甄别周期完成挖矿用户甄别后,还将该甄别周期对应的挖矿用户甄别模型的甄别结果记录至识别区域的稽查信息中,在下一个甄别周期开始通过挖矿用户甄别模型进行挖矿用户甄别前,通过稽查信息获取上个甄别周期内甄别出的挖矿用户,并调取上个甄别周期内甄别出的挖矿用户对应的用电数据和客户档案数据,根据调取的用电数据和客户档案数据对挖矿用户甄别模型进行优化。
CN202210713401.6A 2022-06-22 2022-06-22 一种基于极限梯度提升算法的虚拟货币挖矿行为识别方法 Pending CN115292381A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210713401.6A CN115292381A (zh) 2022-06-22 2022-06-22 一种基于极限梯度提升算法的虚拟货币挖矿行为识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210713401.6A CN115292381A (zh) 2022-06-22 2022-06-22 一种基于极限梯度提升算法的虚拟货币挖矿行为识别方法

Publications (1)

Publication Number Publication Date
CN115292381A true CN115292381A (zh) 2022-11-04

Family

ID=83820767

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210713401.6A Pending CN115292381A (zh) 2022-06-22 2022-06-22 一种基于极限梯度提升算法的虚拟货币挖矿行为识别方法

Country Status (1)

Country Link
CN (1) CN115292381A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115545119A (zh) * 2022-11-24 2022-12-30 国网天津市电力公司城南供电分公司 一种用电数据的识别方法、***及应用

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115545119A (zh) * 2022-11-24 2022-12-30 国网天津市电力公司城南供电分公司 一种用电数据的识别方法、***及应用
CN115545119B (zh) * 2022-11-24 2023-05-02 国网天津市电力公司城南供电分公司 一种用电数据的识别方法、***及应用

Similar Documents

Publication Publication Date Title
CN111460728B (zh) 一种工业设备剩余寿命预测方法、装置、存储介质及设备
CN110232203B (zh) 知识蒸馏优化rnn短期停电预测方法、存储介质及设备
CN112685504B (zh) 一种面向生产过程的分布式迁移图学习方法
CN113205203A (zh) 基于cnn-lstm的建筑能耗预测方法和***
CN113449919B (zh) 一种基于特征和趋势感知的用电量预测方法及***
CN112990500A (zh) 基于改进加权灰色关联分析的台区线损分析方法及***
CN109063983B (zh) 一种基于社交媒体数据的自然灾害损失实时评估方法
CN109754122A (zh) 一种基于随机森林特征提取的bp神经网络的数值预测方法
CN110634060A (zh) 一种用户信用风险的评估方法、***、装置及存储介质
CN115292381A (zh) 一种基于极限梯度提升算法的虚拟货币挖矿行为识别方法
CN112308298A (zh) 一种面向半导体生产线的多场景性能指标预测方法及***
CN111931992A (zh) 一种电力负荷预测指标选取方法及装置
CN113762591B (zh) 一种基于gru和多核svm对抗学习的短期电量预测方法及***
CN113159441A (zh) 银行业务项目实施情况的预测方法及装置
CN113344243A (zh) 基于改进哈里斯鹰算法优化elm的风速预测方法及***
CN112163731A (zh) 一种基于加权随机森林的专变用户电费回收风险识别方法
CN115310999B (zh) 基于多层感知机和排序网络的企业用电行为分析方法及***
CN116720079A (zh) 基于多特征融合的风力发电机故障模式识别方法及***
CN116317937A (zh) 一种分布式光伏电站运行故障诊断方法
CN113837486B (zh) 一种基于rnn-rbm的配网馈线长期负荷预测方法
CN112348275A (zh) 一种基于在线增量学习的区域生态环境变化预测方法
CN114818849A (zh) 基于大数据信息的卷积神经网络和遗传算法的反窃电方法
CN109684894A (zh) 基于特征选择和lm-bp神经网络的条形码辨识方法
CN110569277A (zh) 一种配置数据信息自动识别与归类方法及***
CN117113148B (zh) 基于时序图神经网络的风险识别方法、装置及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination