CN112381119A

CN112381119A - 基于去中心化应用加密流量特征的多场景分类方法及***

Info

Publication number: CN112381119A
Application number: CN202011159375.4A
Authority: CN
Inventors: 李镇; 李真真; 王宇; 熊刚; 扶佩佩; 杨青娅; 崔明鑫
Original assignee: Institute of Information Engineering of CAS
Current assignee: Institute of Information Engineering of CAS
Priority date: 2020-10-27
Filing date: 2020-10-27
Publication date: 2021-02-19
Anticipated expiration: 2040-10-27
Also published as: CN112381119B

Abstract

本发明公开了一种基于去中心化应用加密流量特征的多场景分类方法及***，包括：收集去中心化应用的加密流量，并对各加密流量标记应用、用户行为和通用用户行为的分类标签；根据分类目标和分类标签，将提取的加密流量的应用特征、用户行为特征和通用用户行为特征，分别输入应用分类模型、用户行为分类模型和通用用户行为分类模型，得到相应的分类。本发明通过对多个场景下机器学习分类器的调参，确保模型的准确性和鲁棒性，使得应用类型分类具有高准确率和高效率，用户行为分类易于识别可疑用户行为从而保护用户安全与隐私，且通过通用用户行为分类可获得吞吐量、延迟等有用信息，从而帮助改善去中心化应用使其运行更加有效率、提升用户体验。

Description

基于去中心化应用加密流量特征的多场景分类方法及***

技术领域

本发明属于网络安全领域，涉及计算机软件领域，具体为一种基于去中心化应用(DApps)加密流量特征的多场景分类(DApps分类，DApps用户行为分类，DApps通用用户行为分类)方法及***。

背景技术

由于去中心化、匿名性、不可篡改性、流通性等特性使区块链技术受到广泛的关注和研究，并随着其迅速发展，区块链也在逐渐增加其所承载的功能，从单一加密货币到图灵完备的可编程加密货币，此功能的完善是依靠以太坊中的智能合约，用户可以根据自己意愿编写去中心化应用。新型去中心化应用的出现，也带来安全、隐私和用户体验差等问题，应用的分类分析有助于企业了解多数用户地理分布、应用的性能从而帮助提升服务质量(QoS)；用户行为的分类分析可以帮助构建行为特征库甄别恶意、异常用户；通用用户行为的分类可以提供如用户喜好、吞吐量、延迟等有价值的信息，帮助网络管理者配置网络从而提高应用性能和体验质量(QoE)。

应用和用户行为分类均是基于被动采集流量的网络流量分析方法，应用和用户行为分类根据流量种类可以分为明文流量分类和加密流量分类，

对明文流量的应用和用户行为识别，主要是通过深度包(DPI)检测技术，匹配应用指纹库、行为特征库，或进行聚类分析，来区分当前的明文流量属于哪一种应用或用户行为。由于在明文流量时期，很多应用都采用固定的端口，因此还可以通过基于端口的明文流量分类技术。例如，通过对HTTP协议的解析与分析，可以获得针对不同应用或服务在HTTP协议中的不同头部字段，作为指纹库可轻松识别应用或服务。

对加密流量的应用和用户行为识别，通常抓取加密协议中明文握手信息或者流量的统计信息进行识别，在现在网络环境中，SSL/TLS加密协议占据相当大一部分。例如，通过分析HTTP2.0协议，可以在服务端到客户端的握手阶段出现的明文信息中，提取仅会出现在此协议中指定位置且固定不变的明文字符串，即Application layerprotocolnegotiation(ALPN)显示为h2，当采用HTTPs协议时此字段为http/1.1，并将其作为特征可在大规模网络流量中识别不同的加密协议。在协议的传输层中，存在扩展字段ServerNameIndication extension(SNI)代表用户所浏览的网站。

而对新型的去中心化应用，采用加密协议，基于DPI检测技术无法从加密网络流量中获取有效的可识别特征。由于部分应用部署在移动或云平台上，通过SNI扩展字段无法在网络流量中识别所有应用。基于流量统计特征的机器学习方法，主要提取网络流统计量，如包数、字节数、时间序列的统计特征(最大值、最小值、众数等)，但这些特征在去中心化应用的分类中识别精度很低，无法满足要求。而针对更细粒度的DApps用户行为分类和通用用户行为，上述方法更加不适用。而现有唯一的针对DApps分类方法，将特征融合生成高维特征数据，虽增加准确率，但训练模型的时间也大大增加。

传统应用的网络流量会因不同公司使用的SSL/TLS协议的版本、信息等细节的不同，导致其在流量特征上存在差异，从而较易识别传统应用。而80％的去中心化应用均部署在同一区块链平台-以太坊上，增加了不同去中心化应用的流量相似性，传统应用的流量识别方法已经不适用，而针对DApps分类的研究因特征维度太大，训练模型效率太低。DApps用户行为分类则识别更细粒度的流量，现有研究方法在此研究中准确率很低，无法满足需求。针对通用用户行为分类，当前还尚未对此加密流量场景提出有效的解决方法。

发明内容

为了克服现有技术的不足并弥补此领域技术的空缺部分，本发明提供一种基于去中心化应用加密流量特征的多场景分类方法及***，在不对去中心化应用加密流量解密或逆向的情况下，对去中心化的加密流量进行多种应用场景分类，具体分为：对用户操作不同的应用产生的加密流量进行粗粒度分类；对用户在去中心化应用中的不同行为产生的加密流量进行精细化分类；以及对忽略去中心化应用的区别，对不同的通用用户行为产生的加密流量进行较精细化分类，进而检测去中心化网络中的异常行为，保护用户隐私，以及为网络管理者和服务提供商提供有价值的信息，优化QoS和QoE。

为达到上述目的，本发明采用如下的技术方案：

一种基于去中心化应用加密流量特征的多场景分类方法，其步骤包括：

1)收集去中心化应用的加密流量，并对各加密流量标记应用、用户行为和通用用户行为的分类标签；

2)根据分类目标和分类标签，将提取的加密流量的应用特征、用户行为特征和/或通用用户行为特征，分别输入应用分类模型、用户行为分类模型和通用用户行为分类模型，得到相应的分类；

其中，通过以下步骤得到应用分类模型、用户行为分类模型和通用用户行为分类模型：

a)收集已知去中心化应用、已知用户行为分类和已知通用用户行为分类的样本加密流量，并对各样本加密流量标记应用、用户行为和通用用户行为的分类标签；

b)针对不同的分类标签，提取的样本加密流量的样本应用特征、样本用户行为特征和样本通用用户行为特征；

c)对样本应用特征、样本用户行为特征和样本通用用户行为特征，分别进行机器学习分类器训练，得到应用分类模型、用户行为分类模型和通用用户行为分类模型。

进一步地，提取加密流量的应用特征、用户行为特征和通用用户行为特征之前，对加密流量进行预处理；所述预处理包括：过滤没有Client Hello包或无SNI字段的加密流量、过滤各加密流量中的ACK包和重传数据包。

进一步地，所述应用特征包括：时间序列和包长分布；所述用户行为特征包括：去中心化应用特征、行为敏感特征和优化特征；所述通用用户行为特征包括：去中心化应用特征、通用行为敏感特征、统计特征和序列特征。

进一步地，所述去中心化应用特征包括：时间序列和包长分布；所述行为敏感特征包括：字节分布、包到达总时间、包到达平均时间；所述优化特征包括：优化后的包到达间隔序列；所述通用行为敏感特征包括：字节分布；所述统计特征包括：上下行包数、第一个包到达时间、包到达间隔序列、字节速率变化和包速率的统计特征；所述序列特征包括：上行时间序列和下行时间序列。

进一步地，将提加密流量的应用特征、用户行为特征和通用用户行为特征分别输入应用分类模型、用户行为分类模型和通用用户行为分类模型之前，对应用特征、用户行为特征和通用用户行为特征进行预处理；所述预处理包括：去除全零列和归一化。

进一步地，所述已知去中心化应用包括：市场类、社交类、财产类、交易类和媒体类；所述市场类包括：Superrare、Thomas CrownArt和Knownorigin；所述社交类包括：Editional、Cryptoboiler、Ethlance和Crowdholding；所述财产类包括：John OrionYoung和Staybit；所述交易类包括：Latium；所述媒体类包括：Viewly。

进一步地，所述已知用户行为分类包括：评论、关注、点赞、搜索、加入购物车、租用、发表问题、提交求职申请、提交招聘申请、看视频、上传视频、查看用户详细信息、查看物品详细信息、浏览商店和浏览活动。

进一步地，所述已知通用用户行为分类包括：打开去中心化应用、浏览市场、查看详细信息、关注、点赞、提交申请表、搜索、查看用户首页、查看去中心化应用中活动、加入购物车、看视频、评论、查看去中心化应用介绍、刷新购物车和其他行为。

进一步地，所述机器学习分类器包括：决策树模型、梯度提升决策树模型和随机森林模型。

进一步地，根据分类的准确率和召回率，选择决策树模型、梯度提升决策树模型或随机森林模型。

进一步地，得到分类的准确率和召回率的方法包括：十折交叉验证方法。

一种基于去中心化应用加密流量特征的多场景分类***，包括：

1)去中心化应用流量收集模块，用以收集加密的去中心化应用流量，并对各加密流量标记应用、用户行为和通用用户行为的分类标签；

2)多场景下加密流量特征提取模块，用以根据分类目标和分类标签，提取加密流量的应用特征、用户行为特征和通用用户行为特征；

3)多场景下加密流量分类模块，用以将提取的加密流量的应用特征、用户行为特征和通用用户行为特征，分别输入应用分类模型、用户行为分类模型和通用用户行为分类模型，得到相应的分类；

通过以下步骤得到应用分类模型、用户行为分类模型和通用用户行为分类模型：

b)针对不同的分类标签，提取样本加密流量的样本应用特征、样本用户行为特征和样本通用用户行为特征；

与现有技术相比，本发明具有如下优点：

1)本发明对去中心化应用进行了多场景下加密流量的分类，包括DApps分类、DApps用户行为分类和通用用户行为分类，不局限于单场景分类，根据不同场景下分类内容的不同特点，提出不同的加密流量特征，使用较少的特征能够充分的表示不同的应用或用户行为，提升分类效率。

2)针对DApps分类，现有技术采用高维特征，训练模型效率低，所需时间长，本发明根据去中心化应用与传统应用的区别(如***运行模式、数据存储方式和构造方法等)，选取合适且重要的加密流量特征，使DApps分类同时具有高准确率和高效率。

3)针对DApps用户行为分类，***可以对去中心化应用的用户行为进行精细化的分类，并且现有技术在此场景下分类效果很差，本发明根据此场景的特点(如行为序列、智能合约、请求钱包连接等)提出适用于此场景的加密流量特征，从而在加密网络流量分类中，帮助管理者识别可疑用户行为，保护正常用户安全与隐私。

4)本发明提出去中心化应用加密流量中一种新的分类场景：通用用户行为分类，还未有技术涉及此方面，本***忽略不同DApps之间的区别，而只关注15种通用用户行为之间的区别，通过对其分类，可以帮助去中心化网络管理者获得用户喜好、延迟等信息，从而改善网络配置使DApps运行更加有效率，提升用户体验。

5)针对去中心化网络环境，提出了去中心化应用的加密流量采集和分析方案。通过人工和自动化采集脚本采集DApps加密流量，对每条流的时间戳与用户操作对准，形成准确标注的数据集，为特征提取、模型训练、评估提供数据支撑。

6)通过对多个场景下机器学习分类器的调参，均达到较好分类效果，解决去中心化应用加密流量的多场景分类问题，并利用数据集进行评估验证，确保模型的准确性、鲁棒性。

附图说明

图1为基于去中心化应用加密流量特征的多场景分类基本框图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清晰，下面通过具体实施例和附图对本发明进行进一步详细阐述。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

图1为本发明的方法基本框图，多场景分类方法分为训练阶段和分类阶段两个阶段。在训练阶段，通过多标签数据，分析多个场景下即应用、用户行为及通用用户行为的加密流量特征，获得各个场景下最佳的机器学习模型。

在分类阶段，通过在训练阶段得到的最佳分类器，从需要分类的流量数据集中提取各个场景下所需要的加密流量特征，并进行相应的特征处理，再送入各个分类器中得到相应的分类结果。

本发明的方案包括以下步骤：

1、数据收集：

使用一台戴尔台式电脑，并在此电脑中安装三个Win 7的虚拟机进行去中心化应用加密流量的采集工作，选取市场类(Superrare、Thomas CrownArt、Knownorigin)、社交类(Editional、Cryptoboiler、Ethlance、Crowdholding)、财产类(John OrionYoung、Staybit)、交易类(Latium)、媒体类(Viewly)共11个具有代表性的去中心化应用，并经过使用和分析这些DApps，共提取包括评论、关注、点赞、搜索、加入购物车、租用、发表问题、提交求职申请、提交招聘申请、看视频、上传视频、查看用户详细信息、查看物品详细信息、浏览商店、浏览活动等88种用户行为，并将这些行为归为包括打开DApps、浏览市场、查看详细信息、关注、点赞、提交申请表、搜索、查看用户首页、查看DApps中活动、加入购物车、看视频、评论、查看DApps介绍、刷新购物车和其他行为等15种通用用户行为，而对于每种用户行为，通过使用VBS在虚拟机中模拟真实用户操作应用，从而使用流量采集工具采集纯净的去中心化应用的用户行为流量，并进行数据流标注。每种用户行为重复200次，最终得到17600个用户行为的原始加密流量数据集。在采集后，根据应用对加密流量数据集添加应用种类标签，再根据通用用户行为的分类为每条数据流添加通用用户行为种类标签，从而获得多标签去中心化应用加密流量数据集。

2、数据预处理：

虽然数据采集过程在无其他程序运行的虚拟机中进行，但会有***应用或流量器本身干扰，因此通过每个数据流中Client Hello包扩展部分的SNI字段过滤杂流，仅留下属于所分析应用用户行为的数据流，如没有Client Hello包或者无SNI字段，直接将此条数据流过滤；对剩下的数据流，由于网络或其他原因，可能会有重传数据包，因此过滤每个流中的ACK包和重传数据包。

3、特征提取：

针对三个场景，每个场景提取了不同的流量特征集，针对DApps分类场景，提取流量特征为DApps特征，包括时间序列和包长分布；针对DApps用户行为分类场景，提取流量特征包括三部分：DApps特征(时间序列、包长分布)，行为敏感特征(字节分布、包到达总时间、包到达平均时间)，以及优化特征(优化后的包到达间隔序列)；针对通用用户行为分类场景，所述的流量特征包括四部分：DApps特征(时间序列、包长分布)，通用行为敏感特征(字节分布)，统计特征(上下行包数、第一个包到达时间、以及包到达间隔序列、字节速率变化和包速率的统计特征，如均值、方差、斜度、峰度、最大值、最小值等)，序列特征(上行和下行时间序列)。

4、模型选取：

将上述所提取的流量特征去除全零列后，采用3种机器学习分类器(决策树，梯度提升决策树和随机森林)对其进行训练，根据对DApps分类、DApps用户行为分类、和通用用户行为分类的准确率和召回率，选取各个场景下的最优模型即随机森林模型作为各个场景下的分类模型。其中，本发明采用十折交叉验证的方法对所述三种场景下的分类模型效果进行了验证。

实例1结合决策树分类器对11种去中心化应用进行多场景分类

选择多个类别的去中心化应用，包括：市场类(Superrare、Thomas Crown Art、Knownorigin)，社交类(Editional、Cryptoboiler、Ethlance、Crowdholding)，财产类(JohnOrion Young、Staybit)，交易类(Latium)，媒体类(Viewly)共11个具有代表性的DApps。通过分析这些DApps，共提取88种DApps用户行为，包括：评论、关注、点赞、搜索、加入购物车、租用、发表问题、提交求职申请、提交招聘申请、看视频、上传视频、查看用户详细信息、查看物品详细信息、浏览商店、浏览活动等。并对这些用户行为进行归纳，成15类通用用户行为，包括：打开DApps、浏览市场、查看详细信息、关注、点赞、提交申请表、搜索、查看用户首页、查看DApps中活动、加入购物车、看视频、评论、查看DApps介绍、刷新购物车和其他行为。2019年9月1日开始，通过虚拟机中的VBS脚本模拟去中心化应用用户的用户行为，每个行为重复200次，使用流量采集工具采集生成的加密流量，生成多标签数据集(共计19w+个流，110w+个数据包)，经过数据预处理后提取各个场景下对应的流量特征，训练决策树分类器，采用十折交叉验证的方式对模型分类效果验证，对DApps分类的准确率为98.84％；对DApps用户行为分类的准确率为94.83％；对通用用户行为分类的准确率为95.81％。

实例2结合梯度提升决策树分类器对11种去中心化应用进行多场景分类

选择多个类别的去中心化应用，包括：市场类(Superrare、Thomas Crown Art、Knownorigin)，社交类(Editional、Cryptoboiler、Ethlance、Crowdholding)，财产类(JohnOrion Young、Staybit)，交易类(Latium)，媒体类(Viewly)共11个具有代表性的DApps。通过分析这些DApps，共提取88种DApps用户行为，包括：评论、关注、点赞、搜索、加入购物车、租用、发表问题、提交求职申请、提交招聘申请、看视频、上传视频、查看用户详细信息、查看物品详细信息、浏览商店、浏览活动等。并对这些用户行为进行归纳，成15类通用用户行为，包括：打开DApps、浏览市场、查看详细信息、关注、点赞、提交申请表、搜索、查看用户首页、查看DApps中活动、加入购物车、看视频、评论、查看DApps介绍、刷新购物车和其他行为。2019年9月1日开始，通过虚拟机中的VBS脚本模拟去中心化应用用户的用户行为，每个行为重复200次，使用流量采集工具采集生成的加密流量，生成多标签数据集(共计19w+个流，110w+个数据包)，经过数据预处理后提取各个场景下对应的流量特征，训练梯度提升决策树分类器，采用十折交叉验证的方式对模型分类效果验证，对DApps分类的准确率为90.32％；对DApps用户行为分类的准确率为84.72％；对通用用户行为分类的准确率为68.78％。

实例3结合随机森林分类器对11种去中心化应用进行多场景分类

选择多个类别的去中心化应用，包括：市场类(Superrare、Thomas Crown Art、Knownorigin)，社交类(Editional、Cryptoboiler、Ethlance、Crowdholding)，财产类(JohnOrion Young、Staybit)，交易类(Latium)，媒体类(Viewly)共11个具有代表性的DApps。通过分析这些DApps，共提取88种DApps用户行为，包括：评论、关注、点赞、搜索、加入购物车、租用、发表问题、提交求职申请、提交招聘申请、看视频、上传视频、查看用户详细信息、查看物品详细信息、浏览商店、浏览活动等。并对这些用户行为进行归纳，成15类通用用户行为，包括：打开DApps、浏览市场、查看详细信息、关注、点赞、提交申请表、搜索、查看用户首页、查看DApps中活动、加入购物车、看视频、评论、查看DApps介绍、刷新购物车和其他行为。2019年9月1日开始，通过虚拟机中的VBS脚本模拟去中心化应用用户的用户行为，每个行为重复200次，使用流量采集工具采集生成的加密流量，生成多标签数据集(共计19w+个流，110w+个数据包)，经过数据预处理后提取各个场景下对应的流量特征，训练随机森林分类器，采用十折交叉验证的方式对模型分类效果验证，对DApps分类的准确率为99.5％；对DApps用户行为分类的准确率为95.65％；对通用用户行为分类的准确率为98.58％。

以上所述实施例仅表达了本发明的实施方式，其描述较为具体，但并不能因此理解为对本发明专利范围的限制。应当指出，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应当以所附权利要求为准。

Claims

1.一种基于去中心化应用加密流量特征的多场景分类方法，其步骤包括：

2)根据分类目标和分类标签，将提取的加密流量的应用特征、用户行为特征和通用用户行为特征，分别输入应用分类模型、用户行为分类模型和通用用户行为分类模型，得到相应的分类；

2.如权利要求1所述的方法，其特征在于，提取加密流量的应用特征、用户行为特征和通用用户行为特征之前，对加密流量进行预处理；所述预处理包括：过滤没有Client Hello包或无SNI字段的加密流量、过滤各加密流量中的ACK包和重传数据包。

3.如权利要求1所述的方法，其特征在于，所述应用特征包括：时间序列和包长分布；所述用户行为特征包括：去中心化应用特征、行为敏感特征和优化特征；所述通用用户行为特征包括：去中心化应用特征、通用行为敏感特征、统计特征和序列特征。

4.如权利要求3所述的方法，其特征在于，所述去中心化应用特征包括：时间序列和包长分布；所述行为敏感特征包括：字节分布、包到达总时间、包到达平均时间；所述优化特征包括：优化后的包到达间隔序列；所述通用行为敏感特征包括：字节分布；所述统计特征包括：上下行包数、第一个包到达时间、包到达间隔序列、字节速率变化和包速率；所述序列特征包括：上行时间序列和下行时间序列。

5.如权利要求1所述的方法，其特征在于，将提取的加密流量的应用特征、用户行为特征和通用用户行为特征分别输入应用分类模型、用户行为分类模型和通用用户行为分类模型之前，对应用特征、用户行为特征和通用用户行为特征进行预处理；所述预处理包括：去除全零列和归一化。

6.如权利要求1所述的方法，其特征在于，所述已知去中心化应用包括：市场类、社交类、财产类、交易类和媒体类；所述市场类包括：Superrare、Thomas Crown Art和Knownorigin；所述社交类包括：Editional、Cryptoboiler、Ethlance和Crowdholding；所述财产类包括：John OrionYoung和Staybit；所述交易类包括：Latium；所述媒体类包括：Viewly；所述已知用户行为分类包括：评论、关注、点赞、搜索、加入购物车、租用、发表问题、提交求职申请、提交招聘申请、看视频、上传视频、查看用户详细信息、查看物品详细信息、浏览商店和浏览活动；所述已知通用用户行为分类包括：打开去中心化应用、浏览市场、查看详细信息、关注、点赞、提交申请表、搜索、查看用户首页、查看去中心化应用中活动、加入购物车、看视频、评论、查看去中心化应用介绍、刷新购物车和其他行为。

7.如权利要求1所述的方法，其特征在于，所述机器学习分类器包括：决策树模型、梯度提升决策树模型或随机森林模型。

8.如权利要求7所述的方法，其特征在于，根据分类的准确率和召回率，选择决策树模型、梯度提升决策树模型或随机森林模型。

9.如权利要求8所述的方法，其特征在于，得到分类的准确率和召回率的方法包括：十折交叉验证方法。

10.一种基于去中心化应用加密流量特征的多场景分类***，包括：