CN115292381A - 一种基于极限梯度提升算法的虚拟货币挖矿行为识别方法 - Google Patents
一种基于极限梯度提升算法的虚拟货币挖矿行为识别方法 Download PDFInfo
- Publication number
- CN115292381A CN115292381A CN202210713401.6A CN202210713401A CN115292381A CN 115292381 A CN115292381 A CN 115292381A CN 202210713401 A CN202210713401 A CN 202210713401A CN 115292381 A CN115292381 A CN 115292381A
- Authority
- CN
- China
- Prior art keywords
- mining
- data
- users
- power utilization
- electricity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000005065 mining Methods 0.000 title claims abstract description 144
- 238000000034 method Methods 0.000 title claims abstract description 33
- 230000005611 electricity Effects 0.000 claims abstract description 86
- 238000012216 screening Methods 0.000 claims abstract description 59
- 238000012549 training Methods 0.000 claims abstract description 42
- 238000007689 inspection Methods 0.000 claims abstract description 36
- 230000006399 behavior Effects 0.000 claims abstract description 18
- 238000012360 testing method Methods 0.000 claims description 12
- 230000008569 process Effects 0.000 claims description 9
- 238000012545 processing Methods 0.000 claims description 9
- 238000009412 basement excavation Methods 0.000 claims description 8
- 238000000605 extraction Methods 0.000 abstract 1
- 230000006870 function Effects 0.000 description 25
- 238000001514 detection method Methods 0.000 description 9
- 238000005457 optimization Methods 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000003066 decision tree Methods 0.000 description 2
- 238000011835 investigation Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000009395 breeding Methods 0.000 description 1
- 230000001488 breeding effect Effects 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000005111 flow chemistry technique Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000003973 irrigation Methods 0.000 description 1
- 230000002262 irrigation Effects 0.000 description 1
- 244000144972 livestock Species 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/20—Ensemble learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q20/00—Payment architectures, schemes or protocols
- G06Q20/38—Payment protocols; Details thereof
- G06Q20/40—Authorisation, e.g. identification of payer or payee, verification of customer or shop credentials; Review and approval of payers, e.g. check credit lines or negative lists
- G06Q20/401—Transaction verification
- G06Q20/4016—Transaction verification involving fraud or risk level assessment in transaction processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/04—Trading; Exchange, e.g. stocks, commodities, derivatives or currency exchange
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Accounting & Taxation (AREA)
- General Business, Economics & Management (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- Finance (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Marketing (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Technology Law (AREA)
- Computer Security & Cryptography (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Fuzzy Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Public Health (AREA)
- Water Supply & Treatment (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Primary Health Care (AREA)
- Tourism & Hospitality (AREA)
- Development Economics (AREA)
Abstract
本发明提供了一种基于极限梯度提升算法的虚拟货币挖矿行为识别方法,所述识别方法具体为选择识别区域,根据对应的历史稽查信息,根据历史稽查信息对完成现场稽查的用电用户的历史用电数据添加标签,构建已标注数据集,并根据其他用电用户的历史用电数据构建未标注数据集,对两个数据集进行特征提取,构建特征数据集作为输入,使用极限梯度提升算法通过半监督学习方法对挖矿用户甄别模型进行训练,确定所有待识别用户并采集对应的用电数据,提取用电特征数据,将提取的用电特征数据输入挖矿用户甄别模型,获取待识别用户中的挖矿用户,并对其添加挖矿用户标签。本发明能够准确且有效的识别挖矿用户,并适用于大量用电数据识别的场景。
Description
技术领域
本发明涉及虚拟货币挖矿甄别领域,尤其是指一种基于极限梯度提升算法的虚拟货币挖矿行为识别方法。
背景技术
比特币“挖矿”具体指代通过反复尝试不同随机数对未打包交易进行哈希处理,以找到能够符合工作证明条件的随机数,并根据找到的随机数构成区块,每产生一个有效的区块就会被授予一定数量的币作为奖励的行为。
而当前国内外对虚拟货币“挖矿”行为的检测方法包括基于机器学习的网络流量异常检测方法、基于矿池IP流量的检测方法和基于用电异常和现场排查的挖矿活动检测方法,基于机器学习的网络流量异常检测方法存在着识别覆盖面不高,针对大规模网络流量处理难度大的问题。而基于矿池IP流量的检测方法虽然能够低成本轻量化识别连接目标矿池,但由于矿池IP存在着可能存在动态变化、收集矿池IP工作复杂以及相关阈值设置困难的问题,其检测准确性并不高。而现场排查的方式在存在着统计效率低,准确性不高的问题。
发明内容
本发明的目的是克服现有技术中的缺点,提供一种基于极限梯度提升算法的虚拟货币挖矿行为识别方法。
本发明的目的是通过下述技术方案予以实现:
一种基于极限梯度提升算法的虚拟货币挖矿行为识别方法,包括以下步骤:
步骤一,选择识别区域,调取识别区域的历史稽查信息,根据识别区域的历史稽查信息确定所有完成现场稽查的用电用户,调取所有完成现场稽查的用电用户的历史用电数据,并根据历史稽查信息对完成现场稽查的用电用户的历史用电数据进行添加标签处理,根据所有添加标签处理的历史用电数据构建已标注数据集,同时调取识别区域内未完成现场稽查的用电用户的历史用电数据,并根据未完成现场稽查的用电用户的历史用电数据构建未标注数据集;
步骤二,分别对已标注数据集和未标注数据集进行用电特征的提取,获取已标注用电特征数据和未标注用电特征数据,根据获取的已标注用电特征数据和未标注用电特征数据构建特征数据集作为输入,使用极限梯度提升算法通过半监督学习方法对挖矿用户甄别模型进行训练,构建挖矿用户甄别模型;
步骤三,根据识别区域的历史稽查信息确定所有待识别用户,并采集所有待识别用户的用电数据,并提取对应的用电特征数据,将提取的待识别用户的用电特征数据输入挖矿用户甄别模型,获取待识别用户中的挖矿用户,并在获取的挖矿用户的客户档案数据中添加挖矿用户标签。
进一步的,步骤二中根据获取的已标注用电特征数据和未标注用电特征数据构建特征数据集作为输入,使用极限梯度提升算法通过半监督学习方法对挖矿用户甄别模型进行训练的具体过程为:对特征数据集划分为训练集和测试集,其中训练集为已标注用电特征数据,测试集为未标注用电特征数据,通过训练集对挖矿用户甄别模型进行训练,在完成训练后,判断挖矿用户甄别模型训练结果是否达到预设迭代终止条件,若达到预设迭代终止条件,则结束训练,获取训练完成的挖矿用户甄别模型;若未达到预设迭代终止条件,则通过当前的挖矿用户甄别模型对测试集中的未标注用电特征数据进行预测,并根据预测结果计算测试集中每个用电特征数据对应的置信度,筛选出所有置信度高于预设阈值的用电特征数据,并根据其对应的预测结果进行添加标签处理,将添加标签后的用电特征数据加入训练集,进行训练集的更新,并通过更新后的训练集继续训练挖矿用户甄别模型,对挖矿用户甄别模型进行优化,直至达到预设迭代终止条件。
进一步的,对历史用电数据添加的标签以及对用电特征数据添加的标签均包括挖矿用户标签和非挖矿用户标签。
进一步的,在步骤三中获取挖矿用户后,还调取每个挖矿用户对应的客户档案数据,并从客户档案数据中提取出行业信息,将每个挖矿用户的行业信息与预设行业类型进行比较,筛选出属于预设行业类型的挖矿用户,并对筛选出的属于预设行业类型的挖矿用户,进行剔除挖矿用户标签处理。
进一步的,步骤二中对已标注数据集和未标注数据集提取的所述用电特征数据包括节假日日电量平均值、节假日日峰谷电量平均标准差、月电量平均值和月电量峰谷平均标准差。
进一步的,步骤三中在根据挖矿用户甄别模型获完成所有待识别用户的甄别后,还设置识别区域的甄别周期,通过挖矿用户甄别模型对识别区域内所有用户进行周期性挖矿用户甄别。
进一步的,每个甄别周期完成挖矿用户甄别后,还将该甄别周期对应的挖矿用户甄别模型的甄别结果记录至识别区域的稽查信息中,在下一个甄别周期开始通过挖矿用户甄别模型进行挖矿用户甄别前,通过稽查信息获取上个甄别周期内甄别出的挖矿用户,并调取上个甄别周期内甄别出的挖矿用户对应的用电数据和客户档案数据,根据调取的用电数据和客户档案数据对挖矿用户甄别模型进行优化。
本发明的有益效果是:
能够通过数据挖掘提取挖矿活动的用电行为特征,并采用极限梯度提升算法进行半监督学习,从而获取能够检测挖矿活动对应用户的挖矿用户甄别模型,通过挖矿用户甄别模型能够准确识别挖矿用户,并且能够实现大量用电数据的自动化检测和快速处理。且根据后续的检测结果持续对挖矿用户甄别模型进行优化,进一步提高挖矿用户甄别准确性。
附图说明
图1是本发明的一种流程示意图。
具体实施方式
下面结合附图和实施例对本发明进一步描述。
实施例:
一种基于极限梯度提升算法的虚拟货币挖矿行为识别方法,如图1所示,包括以下步骤:
步骤一,选择识别区域,调取识别区域的历史稽查信息,根据识别区域的历史稽查信息确定所有完成现场稽查的用电用户,调取所有完成现场稽查的用电用户的历史用电数据,并根据历史稽查信息对完成现场稽查的用电用户的历史用电数据进行添加标签处理,根据所有添加标签处理的历史用电数据构建已标注数据集,同时调取识别区域内未完成现场稽查的用电用户的历史用电数据,并根据未完成现场稽查的用电用户的历史用电数据构建未标注数据集;
步骤二,分别对已标注数据集和未标注数据集进行用电特征的提取,获取已标注用电特征数据和未标注用电特征数据,根据获取的已标注用电特征数据和未标注用电特征数据构建特征数据集作为输入,使用极限梯度提升算法通过半监督学习方法对挖矿用户甄别模型进行训练,构建挖矿用户甄别模型;
步骤三,根据识别区域的历史稽查信息确定所有待识别用户,并采集所有待识别用户的用电数据,并提取对应的用电特征数据,将提取的待识别用户的用电特征数据输入挖矿用户甄别模型,获取待识别用户中的挖矿用户,并在获取的挖矿用户的客户档案数据中添加挖矿用户标签。
步骤二中根据获取的已标注用电特征数据和未标注用电特征数据构建特征数据集作为输入,使用极限梯度提升算法通过半监督学习方法对挖矿用户甄别模型进行训练的具体过程为:对特征数据集划分为训练集和测试集,其中训练集为已标注用电特征数据,测试集为未标注用电特征数据,通过训练集对挖矿用户甄别模型进行训练,在完成训练后,判断挖矿用户甄别模型训练结果是否达到预设迭代终止条件,若达到预设迭代终止条件,则结束训练,获取训练完成的挖矿用户甄别模型;若未达到预设迭代终止条件,则通过当前的挖矿用户甄别模型对测试集中的未标注用电特征数据进行预测,并根据预测结果计算测试集中每个用电特征数据对应的置信度,筛选出所有置信度高于预设阈值的用电特征数据,并根据其对应的预测结果进行添加标签处理,将添加标签后的用电特征数据加入训练集,进行训练集的更新,并通过更新后的训练集继续训练挖矿用户甄别模型,对挖矿用户甄别模型进行优化,直至达到预设迭代终止条件。
对历史用电数据添加的标签以及对用电特征数据添加的标签均包括挖矿用户标签和非挖矿用户标签。
在步骤三中获取挖矿用户后,还调取每个挖矿用户对应的客户档案数据,并从客户档案数据中提取出行业信息,将每个挖矿用户的行业信息与预设行业类型进行比较,筛选出属于预设行业类型的挖矿用户,并对筛选出的属于预设行业类型的挖矿用户,进行剔除挖矿用户标签处理。
由于数据机房、农业灌溉、畜牧养殖等行业的用电行为与挖矿用户的用电行为相似,因此筛选出属于上述几类行业的存在挖矿用户标签的用电用户,并将挖矿用户标签剔除。
步骤一中所述用电特征数据包括节假日日电量平均值、节假日日峰谷电量平均标准差、月电量平均值和月电量峰谷平均标准差。
由于挖矿所采用的矿机在使用过程中会呈现整体用电高、用电分布均匀的用电特征,而挖矿用户的主要负荷即为矿机,其用电占据了挖矿用户的大多数负荷。且由于挖矿用户的挖矿行为存在持续性,即使是节假日也并不会出现日电量的变化,在挖矿过程中,每天的平均负荷都相对稳定,无论是尖峰时段还是谷时段用电相差较小。节假日日电量平均值和月电量平均值分别代表用户短期和长期内负荷用量,节假日日峰谷电量平均标准差和月电量峰谷平均标准差分别表征用户微观和宏观上的负荷波动幅度,这四个特征值能够有效表征挖矿用户的挖矿行为特征,即用电分布均匀以及用电高。
节假日日峰谷电量平均标准差和月电量峰谷平均标准差越小,说明用户的负荷波动幅度越小,用电更加均匀。
所述节假日日电量平均值的计算公式为:
其中:y1为节假日日电量平均值,xi为用电用户第i日的日电量,n为调取的用电用户的历史用电数据中,属于节假日的日期天数。
所述节假日日峰谷电量平均标准差的计算公式为:
其中:σi为用电用户第i日的峰谷用电量标准差;r1i、r2i、r3i分别为用电用户在第i日的尖用电量、峰用电量和谷用电量;rfi=r1i+r2i,为用电用户在第i日的尖峰用电量;为归一化后的谷用电量;为归一化后的尖峰用电量;为在第i天归一化后的尖峰用电量和谷用电量的平均值;y2为节假日日峰谷电量平均标准差;n为调取的用电用户的历史用电数据中,属于节假日的日期天数。
所述月电量平均值的计算公式为:
其中:y3为月电量平均值,xmj为用电用户第j个月的总电量,m为调取的用电用户的历史用电数据对应的总月数。
所述月电量峰谷平均标准差的计算公式为:
其中:σmj为用电用户第j月的峰谷用电标准差,为归一化后的谷用电量,rmfj=rm1j+rm2j,rmfj为第j个月的尖峰用电量,为归一化后的尖峰用电量,为第j个月归一化后的尖峰用电量与谷用电量的平均值,y4为月电量峰谷平均标准差,m为调取的用电用户的历史用电数据对应的总月数。
步骤三中在根据挖矿用户甄别模型获完成所有待识别用户的甄别后,还设置识别区域的甄别周期,通过挖矿用户甄别模型对识别区域内所有用户进行周期性挖矿用户甄别。
每个甄别周期完成挖矿用户甄别后,还将该甄别周期对应的挖矿用户甄别模型的甄别结果记录至识别区域的稽查信息中,在下一个甄别周期开始通过挖矿用户甄别模型进行挖矿用户甄别前,通过稽查信息获取上个甄别周期内甄别出的挖矿用户,并调取上个甄别周期内甄别出的挖矿用户对应的用电数据和客户档案数据,根据调取的用电数据和客户档案数据对挖矿用户甄别模型进行优化。
由于电力数据的数据量极大,但是筛选出并添加有挖矿用户标签的数量很少,因此采用半监督学习方法进行模型训练,并具体了采用阶梯梯度提升 (xgboost)算法,阶梯梯度提升算法能够控制模型复杂度并防止过拟合,且其代价函数能够使用二阶泰勒展开近似,得到的结果更接近实际值。
阶梯梯度提升算法属于Boosting集成算法,能够基于若干分类或者回归树的弱学习器实现强学习器,通过增加新的决策树作为基学习器,并拟合上一次的预测残差,累加所有决策树的预测结果后得到最终模型结果。通过阶梯梯度提升算法对挖矿用户甄别模型进行半监督学习的基本过程为:对于从特征数据集中划分出的训练集将挖矿用户甄别模型训练出K棵分类和回归树,得到集合F={f1(x),f2(x),...,fk(x)},把每一个输入的用电特征数据根据属性值的分割点分配到不同的叶子节点,而每个叶子节点对应着一个实时地分数fk,当给定需要进行预测分类的用电特征数据xi时,挖矿用户甄别模型对于用电特征数据xi的预测结果就是每棵树的预测分数之和。
具体的,挖矿用户甄别模型可以定义为:
挖矿用户甄别模型的目标函数可以定义为:
其中:Obj(θ)为目标函数值,为挖矿用户甄别模型的损失函数,yi为用户特征数据xi的真实分类结果,为用户特征数据xi的预测结果, l(x,y)函数是预设的误差函数,n为训练集中用户特征数据的数量;为挖矿用户甄别模型的正则化项,K为分类和回归树的数量,Ω(fk)表示叶子节点权重和树的深度,具体的,γ和λ为加权因子, T为树的深度,wj为叶子节点分数。
损失函数能够描述预测值和真实值的误差,具体的,本实施例中预设的误差函数可以为0-1误差、Hinge误差,Log误差、均方误差或绝对误差。为正则化项则能够表示K颗树的复杂程度,从而有效防止挖矿用户甄别模型过拟合情况的出现。在进行挖矿用户甄别模型的优化时,优化目标就主要包括了对于损失函数以及正则化项的优化。
在对损失函数进行优化时,主要通过增量学习的方式实现优化,对损失函数进行增量学习的过程为:
获取每一轮的预测函数,每轮预测函数的表达式为:
...
在获取泰勒展开的目标函数后,完成对于损失函数的优化,再通过将叶子节点权重和树的深度加入目标函数的正则化项,实现对于正则化项的优化。
将叶子节点权重和树的深度加入目标函数的正则化项后,得到目标函数为:
其中:Ij={i|q(xi)=j},Ij表示每个叶子节点上的用电特征数据的集合。
在叶子节点权重和树的深度加入正则化项后,获取对应的一颗树的打分函数,用于评估树结构的质量,并根据评估结果选取最优树结构,完成对于正则化项的优化。但是由于难以枚举所有可能的树结构,因此采用贪婪算法来进行代替枚举过程,具体为:从单个叶子节点开始,迭代***给树增加节点,并在***节点的过程中,对节点***后的增益进行判断,仅在***后的增益大于新加入叶子节点所引入的复杂度时,进行***,在完成所有节点的***判断和对应操作后,获取最优的树结构,完成对于目标函数正则化项的优化。
以上所述的实施例只是本发明的一种较佳的方案,并非对本发明作任何形式上的限制,在不超出权利要求所记载的技术方案的前提下还有其它的变体及改型。
Claims (7)
1.一种基于极限梯度提升算法的虚拟货币挖矿行为识别方法,其特征在于,包括以下步骤:
步骤一,选择识别区域,调取识别区域的历史稽查信息,根据识别区域的历史稽查信息确定所有完成现场稽查的用电用户,调取所有完成现场稽查的用电用户的历史用电数据,并根据历史稽查信息对完成现场稽查的用电用户的历史用电数据进行添加标签处理,根据所有添加标签处理的历史用电数据构建已标注数据集,同时调取识别区域内未完成现场稽查的用电用户的历史用电数据,并根据未完成现场稽查的用电用户的历史用电数据构建未标注数据集;
步骤二,分别对已标注数据集和未标注数据集进行用电特征的提取,获取已标注用电特征数据和未标注用电特征数据,根据获取的已标注用电特征数据和未标注用电特征数据构建特征数据集作为输入,使用极限梯度提升算法通过半监督学习方法对挖矿用户甄别模型进行训练,构建挖矿用户甄别模型;
步骤三,根据识别区域的历史稽查信息确定所有待识别用户,并采集所有待识别用户的用电数据,并提取对应的用电特征数据,将提取的待识别用户的用电特征数据输入挖矿用户甄别模型,获取待识别用户中的挖矿用户,并在获取的挖矿用户的客户档案数据中添加挖矿用户标签。
2.根据权利要求1所述的一种基于极限梯度提升算法的虚拟货币挖矿行为识别方法,其特征在于,步骤二中根据获取的已标注用电特征数据和未标注用电特征数据构建特征数据集作为输入,使用极限梯度提升算法通过半监督学习方法对挖矿用户甄别模型进行训练的具体过程为:对特征数据集划分为训练集和测试集,其中训练集为已标注用电特征数据,测试集为未标注用电特征数据,通过训练集对挖矿用户甄别模型进行训练,在完成训练后,判断挖矿用户甄别模型训练结果是否达到预设迭代终止条件,若达到预设迭代终止条件,则结束训练,获取训练完成的挖矿用户甄别模型;若未达到预设迭代终止条件,则通过当前的挖矿用户甄别模型对测试集中的未标注用电特征数据进行预测,并根据预测结果计算测试集中每个用电特征数据对应的置信度,筛选出所有置信度高于预设阈值的用电特征数据,并根据其对应的预测结果进行添加标签处理,将添加标签后的用电特征数据加入训练集,进行训练集的更新,并通过更新后的训练集继续训练挖矿用户甄别模型,对挖矿用户甄别模型进行优化,直至达到预设迭代终止条件。
3.根据权利要求1或2所述的一种基于极限梯度提升算法的虚拟货币挖矿行为识别方法,其特征在于,对历史用电数据添加的标签以及对用电特征数据添加的标签均包括挖矿用户标签和非挖矿用户标签。
4.根据权利要求1所述的一种基于极限梯度提升算法的虚拟货币挖矿行为识别方法,其特征在于,在步骤三中获取挖矿用户后,还调取每个挖矿用户对应的客户档案数据,并从客户档案数据中提取出行业信息,将每个挖矿用户的行业信息与预设行业类型进行比较,筛选出属于预设行业类型的挖矿用户,并对筛选出的属于预设行业类型的挖矿用户,进行剔除挖矿用户标签处理。
5.根据权利要求1所述的一种基于极限梯度提升算法的虚拟货币挖矿行为识别方法,其特征在于,步骤二中对已标注数据集和未标注数据集提取的所述用电特征数据包括节假日日电量平均值、节假日日峰谷电量平均标准差、月电量平均值和月电量峰谷平均标准差。
6.根据权利要求1所述的一种基于极限梯度提升算法的虚拟货币挖矿行为识别方法,其特征在于,步骤三中在根据挖矿用户甄别模型获完成所有待识别用户的甄别后,还设置识别区域的甄别周期,通过挖矿用户甄别模型对识别区域内所有用户进行周期性挖矿用户甄别。
7.根据权利要求6所述的一种基于极限梯度提升算法的虚拟货币挖矿行为识别方法,其特征在于,每个甄别周期完成挖矿用户甄别后,还将该甄别周期对应的挖矿用户甄别模型的甄别结果记录至识别区域的稽查信息中,在下一个甄别周期开始通过挖矿用户甄别模型进行挖矿用户甄别前,通过稽查信息获取上个甄别周期内甄别出的挖矿用户,并调取上个甄别周期内甄别出的挖矿用户对应的用电数据和客户档案数据,根据调取的用电数据和客户档案数据对挖矿用户甄别模型进行优化。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210713401.6A CN115292381A (zh) | 2022-06-22 | 2022-06-22 | 一种基于极限梯度提升算法的虚拟货币挖矿行为识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210713401.6A CN115292381A (zh) | 2022-06-22 | 2022-06-22 | 一种基于极限梯度提升算法的虚拟货币挖矿行为识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115292381A true CN115292381A (zh) | 2022-11-04 |
Family
ID=83820767
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210713401.6A Pending CN115292381A (zh) | 2022-06-22 | 2022-06-22 | 一种基于极限梯度提升算法的虚拟货币挖矿行为识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115292381A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115545119A (zh) * | 2022-11-24 | 2022-12-30 | 国网天津市电力公司城南供电分公司 | 一种用电数据的识别方法、***及应用 |
-
2022
- 2022-06-22 CN CN202210713401.6A patent/CN115292381A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115545119A (zh) * | 2022-11-24 | 2022-12-30 | 国网天津市电力公司城南供电分公司 | 一种用电数据的识别方法、***及应用 |
CN115545119B (zh) * | 2022-11-24 | 2023-05-02 | 国网天津市电力公司城南供电分公司 | 一种用电数据的识别方法、***及应用 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111460728B (zh) | 一种工业设备剩余寿命预测方法、装置、存储介质及设备 | |
CN110232203B (zh) | 知识蒸馏优化rnn短期停电预测方法、存储介质及设备 | |
CN112685504B (zh) | 一种面向生产过程的分布式迁移图学习方法 | |
CN113205203A (zh) | 基于cnn-lstm的建筑能耗预测方法和*** | |
CN113449919B (zh) | 一种基于特征和趋势感知的用电量预测方法及*** | |
CN112990500A (zh) | 基于改进加权灰色关联分析的台区线损分析方法及*** | |
CN109063983B (zh) | 一种基于社交媒体数据的自然灾害损失实时评估方法 | |
CN109754122A (zh) | 一种基于随机森林特征提取的bp神经网络的数值预测方法 | |
CN110634060A (zh) | 一种用户信用风险的评估方法、***、装置及存储介质 | |
CN115292381A (zh) | 一种基于极限梯度提升算法的虚拟货币挖矿行为识别方法 | |
CN112308298A (zh) | 一种面向半导体生产线的多场景性能指标预测方法及*** | |
CN111931992A (zh) | 一种电力负荷预测指标选取方法及装置 | |
CN113762591B (zh) | 一种基于gru和多核svm对抗学习的短期电量预测方法及*** | |
CN113159441A (zh) | 银行业务项目实施情况的预测方法及装置 | |
CN113344243A (zh) | 基于改进哈里斯鹰算法优化elm的风速预测方法及*** | |
CN112163731A (zh) | 一种基于加权随机森林的专变用户电费回收风险识别方法 | |
CN115310999B (zh) | 基于多层感知机和排序网络的企业用电行为分析方法及*** | |
CN116720079A (zh) | 基于多特征融合的风力发电机故障模式识别方法及*** | |
CN116317937A (zh) | 一种分布式光伏电站运行故障诊断方法 | |
CN113837486B (zh) | 一种基于rnn-rbm的配网馈线长期负荷预测方法 | |
CN112348275A (zh) | 一种基于在线增量学习的区域生态环境变化预测方法 | |
CN114818849A (zh) | 基于大数据信息的卷积神经网络和遗传算法的反窃电方法 | |
CN109684894A (zh) | 基于特征选择和lm-bp神经网络的条形码辨识方法 | |
CN110569277A (zh) | 一种配置数据信息自动识别与归类方法及*** | |
CN117113148B (zh) | 基于时序图神经网络的风险识别方法、装置及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |