CN116208356A

CN116208356A - 一种基于深度学习的虚拟货币挖矿流量检测方法

Info

Publication number: CN116208356A
Application number: CN202211325209.6A
Authority: CN
Inventors: 付添翼; 席少珂; 卜凯; 任奎; 张帆
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2022-10-27
Filing date: 2022-10-27
Publication date: 2023-06-02
Anticipated expiration: 2042-10-27
Also published as: CN116208356B

Abstract

本发明公开了一种基于深度学习的虚拟货币挖矿流量检测方法，包括：(1)预先抓取挖矿流量以及正常流量，抓取的每个数据流中包含若干个数据包，提取出每个数据包的相关信息并保存；(2)构建基于神经网络的检测模型，并利用每个数据包的包长、时间戳、目标地址信息将每个网络连接的数据流处理成若干个检测输入，随后利用检测输入对检测模型进行训练；其中，检测模型的结构包括两个卷积层、两个池化层以及三个全连接层；(3)搭建实时检测***，在实时检测***中利用训练好的检测模型对实时数据流进行检测，判断出是否为挖矿流量。本发明具有检测准确率高、检测实时性强、方便部署和移植、适用于加密网络环境等优点。

Description

一种基于深度学习的虚拟货币挖矿流量检测方法

技术领域

本发明涉及区块链和网络安全领域，尤其是涉及一种基于深度学习的虚拟货币挖矿流量检测方法。

背景技术

虚拟货币是指以比特币、以太坊、门罗币等为代表的利用区块链产生的数字货币，这些货币不受政府机构的控制。区块链是一种去中心化的***，该***的运行不依赖某一个或某些特定的网络节点，而是设计一种机制依靠网络中大部分节点进行“投票”决定结果，并将结果和信息广播到整个链上，从而实现去中心化。然而随着各种虚拟货币的市场行情不断上扬，伴随而来的是挖矿现象(通过开采虚拟货币而获得收益)的与日俱增。这也带来了一些安全性问题，网络中的不法分子为了节省资源纷纷使用挖矿攻击技术去利用他人的设备进行虚拟货币的开采，严重侵害了他人的利益。

挖矿攻击(Cryptojacking)的危害十分严重，这是因为挖矿利用了计算机的中央处理器(CPU)和图形处理器(GPU)，让它们在极高的负载下运行，这会对受害者的设备造成巨大的性能损失。除此之外，挖矿攻击者可能通过木马在受害者的主机上执行以下操作：卸载安全防护软件、添加启动项、添加管理员以及关闭防护墙，这些行为会严重危害受害者主机的安全。另外，挖矿活动会带来大量的用电支出，调查显示，虚拟货币挖矿成本中电费支出占总成本的90％以上。因此，对挖矿活动进行有效检测是有必要的。

目前的挖矿攻击主要分为两种类型，第一种是攻击者入侵流行的网络服务器并将恶意挖矿代码嵌入网站，当用户浏览网站时，他们将被动进行虚拟货币挖矿(简称为浏览器挖矿行为)；另一种攻击是指攻击者通过恶意软件控制用户的计算机，直接使用用户的主机进行挖矿(简称为主机挖矿行为)。

然而，在已有的文献中，尚未有较实用的挖矿检测方法被提出，现有的方法大多数存在着较为明显的缺陷：实时性较差或者部署难度较大。这些方法主要可以分为三类：第一类是针对挖矿脚本的检测，比如Geng Hong等人(How you get shot in the back:Asystematical study about cryptojacking in the real world，2018)以及Konoth等人(Minesweeper:An in-depth look into drive-by cryptocurrency mining and itsdefense，2018)提出的检测方法。第二类是针对挖矿软件的检测，比如Soviany等人(Android malware detection and crypto-mining recognition methodology withmachine learning，2018)以及Gangwal等人(Cryptomining cannot change its spots:Detecting covert cryptomining using magnetic side-channel，2019)提出的检测方法。第三类是针对挖矿流量分析的检测，比如Shize Zhang等人(MineHunter:A PracticalCryptomining Traffic Detection Algorithm Based on Time Series Tracking，2021)以及Caprolu等人(Cryptomining makes noise:a machine learning approach forcryptojacking detection，2019)提出的检测方法。

第一种针对挖矿脚本的检测，这类检测方法面向浏览器挖矿行为，根据挖矿脚本常常涉及到大量哈希计算这一特点对它们进行检测。目前最具时效性的方法包括利用虚拟货币挖矿脚本的某些固有特性，设计一组基于运行时行为的分析器，考虑到挖矿工作的核心功能是工作量证明***，通常大部分工作负载都是哈希值的计算，而普通网页在哈希函数上花费的时间较少，因此可以通过计算网页在常见的可访问哈希库接口上花费的累计时间进行分析，如果某个网页在哈希值计算上的花费时长超过总时长的10％，分析器会怀疑其执行了挖矿脚本,除此之外，在挖矿脚本的执行过程中，其栈深度和调用链存在某些规律性，而正常网页很少重复调用相同的堆栈，这也是的分析依据之一；通过分析来自常见网络挖矿工具(比如NFWebMiner、coinhive等)的JavaScript代码以及wasm模块里包含各种加密操作(异或、移位、旋转)的函数的相关特性，设计一套检测策略，在待测网页使用的wasm模块的字节码里，将每个函数与挖矿算法计算哈希值必须用到的五种加密原语(Keccak、AES、BLAKE-256、Groestl-256、Skein-256)的指纹进行匹配，若有足够多的加密原语被完全匹配，则认为该网页包含挖矿脚本。除此之外，他们会根据网页所用到的wasm模块里每个函数中循环里的加密操作数量，若该数值超出某个阈值，这时也会怀疑该网页包含了挖矿脚本。这类根据挖矿脚本的某些特性对挖矿行为进行识别的方式，往往都需要获取整个网页的明文内容，这时如果在网络传输过程中采取负载混淆的策略，就能明显影响这些工作的效率。

第二种针对挖矿软件的检测，这类方法面向主机挖矿行为，把主机上的挖矿软件当作恶意软件进行检测监控。常用做法包括将各类软件的相关设备及其操作***的一些功能或操作的信息作为原始特征，这些信息涉及权限、移动应用程序设置、设备属性、协议相关信息、操作***相关属性，随后根据相关设备以及操作***上发生的恶意软件事件的统计信息提取出某些衍生特征，利用原始特征和衍生特征进行特征融合和特征提取，最后使用支持向量机(SVM)对最终生成的特征进行训练分类，从而实现对恶意挖矿软件的识别；利用磁性侧通道对挖矿行为进行识别，其理论依据是在CPU执行挖矿操作时，其电流负载会过高，这可能导致其周围的磁场强度产生较剧烈的变化，通过使用一个10HZ的探头磁传感器测量并记录一个时间段(100次采样)内CPU在执行不同操作时周围的磁场强度序列，并利用K-最近邻居算法对该磁场强度序列进行训练学习，最终实现对挖矿行为的检测。这类方法存在的问题包括检测范围较小，无法识别未知软件以及需要检查者、磁传感器以及待测设备的物理接近，难以在大型企业上部署。

第三种针对挖矿流量分析的检测，这类方法同时面向浏览器挖矿和主机挖矿，利用挖矿过程中的网络传输特性对其进行检测，本发明属于该类检测方法。最近以来随着针对挖矿行为网络防御力度的增强，如运营商通过矿池IP封锁、域名污染等手段切断受害主机与矿池的网络传输，使得新型挖矿攻击的网络活动更具隐蔽性。例如，挖矿木马可使用代理工具(如：VPN)，对通信内容加密，同时混淆流量传输过程中的包长、包数目和包间隔等特征；通过代理主机与矿池连接，从而轻易绕开当下基于IP地址和数据包内容的网络检测手段。针对新型挖矿攻击最具时效性的检测方法包括利用区块链出块和挖矿流量包之间的相关性，设计了一套基于时序跟踪的识别策略：在网关入口处收集流量，根据ip源和目的地的二元组对流进行区分，对每个流记录每个数据包的时间戳；在每个局部特定时间段内，计算为每个流记录的时间戳序列与对应时间段内虚拟货币的出块时间序列之间的局部相关性，最后根据每个流的全局相关性评价该流是挖矿流量的可能性；使用包时间间隔和数据包大小以及它们的衍生特性作为训练随机森林的特征，同时使用k折交叉验证法进行评估。然而这些方法存在对未知(未训练)代理工具的加密流量识别效果差、需要人工设计和筛选流量特征、对训练集的平衡性要求高、检测确认时间窗口长(需要等待多个区块产生)等问题。

发明内容

本发明提供了一种基于深度学***衡的数据集、适用于加密网络环境等优点。

一种基于深度学习的虚拟货币挖矿流量检测方法，包括以下步骤：

(1)预先抓取挖矿流量以及正常流量，抓取的每个数据流中包含若干个数据包，提取出每个数据包的相关信息并保存，保存格式为<时间戳，包长，源地址ip，源地址端口号，目标地址ip，目标地址端口号>的元组序列；

(2)构建基于神经网络的检测模型，并利用每个数据包的包长、时间戳、目标地址信息将每个网络连接的数据流处理成若干个检测输入，随后利用检测输入对检测模型进行训练；

其中，检测模型的结构包括两个卷积层、两个池化层以及三个全连接层；

(3)搭建实时检测***，在实时检测***中，利用训练好的检测模型对实时数据流进行检测，判断出是否为挖矿流量。

步骤(1)中，挖矿流量来自于虚拟货币，通过工具Wireshark抓取每次挖矿过程中网络连接的数据流，每个网络连接持续1个小时；正常流量来自于日常的网络使用，数据规模是挖矿流量的8-15倍。

步骤(2)中，检测输入的格式如下：

[T_in,T_out,S_in,S_out]

其中，T表示当前包和同方向前一个数据包的时序差，S表示数据包的包长；in和out分别表示进入和发出的流量，根据每个数据包的源地址和目标地址判断。

在对检测模型进行训练过程中，对于一个数据流，每组检测输入在每个方向的每个特征上按顺序取N个数据包，使得每个检测输入遵从4×N的二维矩阵格式，数量不够的特征用0进行填充；下一组检测输入的每个特征从当前输入每个特征的最后一个数据相邻的下一个位置开始，直到任意一个特征被检测模型消费完为止。

步骤(2)中，检测模型的结构具体包括依次连接的第一卷积层、第一池化层、第二卷积层、第二池化层、第一全连接层、第二全连接层和第三全连接层；

其中，第一卷积层的卷积核数量为20，卷积核大小为2×20，步长为2×1；第二卷积层的卷积核数量为100，卷积核大小为2×20，步长为2×1；第一池化层和第二池化层的窗口大小为1×5，步长为1×1；第一全连接层的隐藏层数为1200，第二全连接层的隐藏层数为500，第三全连接层的隐藏层数为100。

检测模型的检测过程为：检测输入首先进入卷积层，卷积核与输入的每个区域进行卷积运算，从而在输入中提取出特征，这些特征值被输入到激活函数，从激活函数得到的输出进入池化层；池化层作用是减小特征矩阵的规模大小，从而减少参数的数量以减少训练过程的计算量；

经过所有的卷积层和池化层之后，得到每组检测输入的高级衍生特征；随后，这些高级衍生特征传递给全连接层，使用这些特征对输入进行分类，同时，结合dropout防止过拟合；

最后得到的网络输出用来表示相关网络连接与挖矿流量之间的相关系数，数值越大表示该数据流是挖矿流量的概率越高，当网络输出大于检测阈值时，认为该组输入检测结果属于挖矿流量。

对检测模型进行训练过程中，对于训练集里的每个输入样本，如果属于挖矿流量，使用数值为1的标签来标识，反之若是正常行为的流量，则使用的标签数值为0；

随后使用分类交叉熵函数估计损失值，在计算损失之前，需要使用sigmoid函数将每个输入在检测模型中得到的输出映射到(0，1)的区间；损失函数最小化的训练过程使用Adam优化器对网络节点值进行优化。

步骤(3)中，使用DPDK-17.05.2搭建一个实时检测***，其中，使用两个进程分别进行流量数据获取和流量检测；

在检测过程中，需要保存每个网络连接的相关信息，包括：目前通过该网络连接传送的数据包总数、每个数据包包长与时间戳；获取进程根据从网络端口收到的数据包的字段信息判断其对应的网络连接，同时更新对应连接的相关信息；当某个网络连接的包数目达到设定的规模，就把目前保存的属于该连接的相应数目的数据包的相关特征处理成一组检测输入放入一个缓存池中；检测进程则不断消费缓存池中的各组检测输入，使用检测模型对它们进行检测。

与现有技术相比，本发明具有以下有益效果：

1、本发明利用深度神经网络学习原始的加密挖矿流量通信交互特征，针对采用PoW共识机制的加密货币挖矿流量具有普遍的检测效果；相比于传统的有监督类机器学习算法可节约设计和筛选有效流量特征的人力和时间成本。

2、本发明针对未知的代理工具(流量混淆方法)具有更好的识别效果，适用于规模不平衡的数据集。

3、本发明采用的神经网络设计对主流的开源软硬件框架实现友好，能够支持100G网口的实时流量检测。

附图说明

图1为本发明中检测模型的网络结构图；

图2为本发明中实时检测***的框架图。

具体实施方式

下面结合附图和实施例对本发明做进一步详细描述，需要指出的是，以下所述实施例旨在便于对本发明的理解，而对其不起任何限定作用。

本发明中，按照10：1的规模收集了正常流量和挖矿流量(使用Wireshark工具)。在抓取的数据中，每个数据流(pcap文件)中包含若干个数据包，提取出每个数据包的相关信息，并将其保存下来，保存的格式为<时间戳，包长，源地址ip，源地址端口号，目标地址ip，目标地址端口号>的元组序列。

利用每个包的包长、时间戳、目标地址等信息将每个网络连接pcap文件表示成若干网络输入，其表示如下：

[T_in,T_out,S_in,S_out]

这里，T表示当前包和同方向前一个包的时序差，S表示包长，in和out分别表示进入和发出的流量(根据每个数据包的源地址和目标地址判断)。

由于CNN网络输入要求固定长度，对于一个流，每组输入在每个方向的每个特征上按顺序N取个数据包，使得每个输入遵从4×N的二维矩阵格式，数量不够的特征会用0进行填充，下一组输入的每个特征从当前输入每个特征的最后一个数据相邻的下一个位置开始，直到任意一个特征被消费完为止。

基于卷积神经网络构建检测模型，用来对网络输入进行识别并输出识别结果。检测模型网络结构包括两个卷积层、两个池化层以及三个全连接层，其中涉及到的操作包括：特征提取、全连接和防止过拟合，具体结构如图1所示。

在特征提取的过程中，输入首先进入卷积层，卷积核会与输入的每个区域进行卷积运算，从而在输入中提取出特征，更多的卷积核意味着能够提取出更多特征，这些值被输入到激活函数(激活函数我们选择了ReLU)。从激活函数得到的输出进入池化层，其作用是减小特征矩阵的规模大小，从而减少参数的数量以减少训练过程的计算量。这里我们使用的方法是Max Pooling，保留特征矩阵特定区域内的最大值。这里我们第一层卷积层里使用到n₁个卷积核，每个卷积核的尺寸为2×w₁，步长为2×s₁，旨在发现不同方向的同一特征之间的联系。第二个卷积层使用到n₂个卷积核，尺寸为2×w₂，步长为2×s₂。

经过所有的卷积层和池化层之后，已经可以得到每组输入的高级衍生特征。随后，这些特征传递给全连接层，其作用是为了使用这些特征对输入进行分类，除此之外，结合dropout防止过拟合的问题。

综上所述，对于任意一组输入f在网络中得到的输出可以表示成：

网络输出用来表示f所在的网络流与挖矿流量之间的相关系数，其数值越大则意味着f对应的网络流属于挖矿流量的概率越高。这里我们设置检测阈值η，当网络输入大于检测阈值时，我们认为该组输入属于挖矿流量。

在对网络的训练过程中，对于训练集里的每个输入样本，如果属于挖矿流量，使用数值为1的标签来标识，反之若是正常行为的流量，则使用的标签数值为0。为了估计损失值，使用分类交叉熵函数，在计算损失之前，我们需要使用sigmoid函数将每个输入在网络中得到的输出映射到(0，1)的区间。损失函数最小化的训练过程选择了Adam优化器对网络节点值进行优化，网络结构各层的参数如表1所示。

表1

将本发明运行在一个服务器上(CPU：2.8GHz Intel Core i5-8400，内存：128GB)，使用DPDK-17.05.2搭建了一个网络流量的实时检测***，我们使用两个进程分别进行流量数据获取和流量检测。首先需要保存每个网络连接的相关信息，其中包括：目前通过该连接传送的数据包总数、每个数据包包长与时间戳；获取进程根据从网络端口收到的数据包的字段信息判断其对应的网络连接，同时更新对应连接的相关信息，当某个连接的包数目达到一定的规模，就把目前保存的属于该连接的相应数目的数据包的相关特征处理成一组检测输入放入一个缓存池中；检测进程则不断消费缓存池中的检测输入，使用检测模型对它们进行检测。实时检测***的框架如图2所示。

由于目前还没有已经公开的挖矿流量数据集，本发明使用自己构造的一个混合数据集来进行实验，这其中包括挖矿流量以及正常行为流量。

本发明构造的挖矿流量主要来自于以太坊，通过工具Wireshark抓取每次挖矿过程中的流量包，每个连接持续1个小时。数据构造需要充分考虑各种代理工具以及其他因素对挖矿行为的流量特征可能存在的影响，除此之外，还需要尽可能选择算力高以及支持TLS通信的矿池。矿机型号包括RTX2060以及RTX3090*4，主要使用NBminer挖矿工具，数据集覆盖了ethermine、flexpool、f2pool等42个矿池，挖矿算法为ethash，所使用的挖矿协议主要包括Stratum和Ethproxy，矿池连接协议包括TCP以及SSL，涉及OpenVPN、V2Ray、SSR、Trojan等多种代理工具。目前，一共收集了约300个挖矿流，每条流平均包括约3万个数据包信息。正常行为的流量主要来自于Zoom、Youtube、Webpage等日常的网络使用，全部来源于自己的实验机，总的规模大约是挖矿流量集的10倍，最终数据集上得到10万组数据。

最终的实验结果表明，本发明的检测精确率达到99.9％，召回率达到99.4％，检测速度达到8.3Mpps。以上实验数据证明了，本发明不仅是可行的，而且同时具备了高效性和实时性，让实际问题得到解决。

以上所述的实施例对本发明的技术方案和有益效果进行了详细说明，应理解的是以上所述仅为本发明的具体实施例，并不用于限制本发明，凡在本发明的原则范围内所做的任何修改、补充和等同替换，均应包含在本发明的保护范围之内。

Claims

1.一种基于深度学习的虚拟货币挖矿流量检测方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于深度学习的虚拟货币挖矿流量检测方法，其特征在于，步骤(1)中，挖矿流量来自于虚拟货币，通过工具Wireshark抓取每次挖矿过程中网络连接的数据流，每个网络连接持续1个小时；正常流量来自于日常的网络使用，数据规模是挖矿流量的8-15倍。

3.根据权利要求1所述的基于深度学习的虚拟货币挖矿流量检测方法，其特征在于，步骤(2)中，检测输入的格式如下：

[T_in,T_out,S_in,S_out]

4.根据权利要求3所述的基于深度学习的虚拟货币挖矿流量检测方法，其特征在于，在对检测模型进行训练过程中，对于一个数据流，每组检测输入在每个方向的每个特征上按顺序取N个数据包，使得每个检测输入遵从4×N的二维矩阵格式，数量不够的特征用0进行填充；下一组检测输入的每个特征从当前输入每个特征的最后一个数据相邻的下一个位置开始，直到任意一个特征被检测模型消费完为止。

5.根据权利要求1所述的基于深度学习的虚拟货币挖矿流量检测方法，其特征在于，步骤(2)中，检测模型的结构具体包括依次连接的第一卷积层、第一池化层、第二卷积层、第二池化层、第一全连接层、第二全连接层和第三全连接层；

6.根据权利要求5所述的基于深度学习的虚拟货币挖矿流量检测方法，其特征在于，检测模型的检测过程为：检测输入首先进入卷积层，卷积核与输入的每个区域进行卷积运算，从而在输入中提取出特征，这些特征值被输入到激活函数，从激活函数得到的输出进入池化层；池化层作用是减小特征矩阵的规模大小，从而减少参数的数量以减少训练过程的计算量；

7.根据权利要求6所述的基于深度学习的虚拟货币挖矿流量检测方法，其特征在于，对检测模型进行训练过程中，对于训练集里的每个输入样本，如果属于挖矿流量，使用数值为1的标签来标识，反之若是正常行为的流量，则使用的标签数值为0；

8.根据权利要求1所述的基于深度学习的虚拟货币挖矿流量检测方法，其特征在于，步骤(3)中，使用DPDK-17.05.2搭建一个实时检测***，其中，使用两个进程分别进行流量数据获取和流量检测；