CN112381119A - 基于去中心化应用加密流量特征的多场景分类方法及*** - Google Patents

基于去中心化应用加密流量特征的多场景分类方法及*** Download PDF

Info

Publication number
CN112381119A
CN112381119A CN202011159375.4A CN202011159375A CN112381119A CN 112381119 A CN112381119 A CN 112381119A CN 202011159375 A CN202011159375 A CN 202011159375A CN 112381119 A CN112381119 A CN 112381119A
Authority
CN
China
Prior art keywords
user behavior
application
classification
sample
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011159375.4A
Other languages
English (en)
Other versions
CN112381119B (zh
Inventor
李镇
李真真
王宇
熊刚
扶佩佩
杨青娅
崔明鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Information Engineering of CAS
Original Assignee
Institute of Information Engineering of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Information Engineering of CAS filed Critical Institute of Information Engineering of CAS
Priority to CN202011159375.4A priority Critical patent/CN112381119B/zh
Publication of CN112381119A publication Critical patent/CN112381119A/zh
Application granted granted Critical
Publication of CN112381119B publication Critical patent/CN112381119B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/04Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks
    • H04L63/0428Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks wherein the data content is protected, e.g. by encrypting or encapsulating the payload
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computing Systems (AREA)
  • Computer Hardware Design (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于去中心化应用加密流量特征的多场景分类方法及***,包括:收集去中心化应用的加密流量,并对各加密流量标记应用、用户行为和通用用户行为的分类标签;根据分类目标和分类标签,将提取的加密流量的应用特征、用户行为特征和通用用户行为特征,分别输入应用分类模型、用户行为分类模型和通用用户行为分类模型,得到相应的分类。本发明通过对多个场景下机器学习分类器的调参,确保模型的准确性和鲁棒性,使得应用类型分类具有高准确率和高效率,用户行为分类易于识别可疑用户行为从而保护用户安全与隐私,且通过通用用户行为分类可获得吞吐量、延迟等有用信息,从而帮助改善去中心化应用使其运行更加有效率、提升用户体验。

Description

基于去中心化应用加密流量特征的多场景分类方法及***
技术领域
本发明属于网络安全领域,涉及计算机软件领域,具体为一种基于去中心化应用(DApps)加密流量特征的多场景分类(DApps分类,DApps用户行为分类,DApps通用用户行为分类)方法及***。
背景技术
由于去中心化、匿名性、不可篡改性、流通性等特性使区块链技术受到广泛的关注和研究,并随着其迅速发展,区块链也在逐渐增加其所承载的功能,从单一加密货币到图灵完备的可编程加密货币,此功能的完善是依靠以太坊中的智能合约,用户可以根据自己意愿编写去中心化应用。新型去中心化应用的出现,也带来安全、隐私和用户体验差等问题,应用的分类分析有助于企业了解多数用户地理分布、应用的性能从而帮助提升服务质量(QoS);用户行为的分类分析可以帮助构建行为特征库甄别恶意、异常用户;通用用户行为的分类可以提供如用户喜好、吞吐量、延迟等有价值的信息,帮助网络管理者配置网络从而提高应用性能和体验质量(QoE)。
应用和用户行为分类均是基于被动采集流量的网络流量分析方法,应用和用户行为分类根据流量种类可以分为明文流量分类和加密流量分类,
对明文流量的应用和用户行为识别,主要是通过深度包(DPI)检测技术,匹配应用指纹库、行为特征库,或进行聚类分析,来区分当前的明文流量属于哪一种应用或用户行为。由于在明文流量时期,很多应用都采用固定的端口,因此还可以通过基于端口的明文流量分类技术。例如,通过对HTTP协议的解析与分析,可以获得针对不同应用或服务在HTTP协议中的不同头部字段,作为指纹库可轻松识别应用或服务。
对加密流量的应用和用户行为识别,通常抓取加密协议中明文握手信息或者流量的统计信息进行识别,在现在网络环境中,SSL/TLS加密协议占据相当大一部分。例如,通过分析HTTP2.0协议,可以在服务端到客户端的握手阶段出现的明文信息中,提取仅会出现在此协议中指定位置且固定不变的明文字符串,即Application layerprotocolnegotiation(ALPN)显示为h2,当采用HTTPs协议时此字段为http/1.1,并将其作为特征可在大规模网络流量中识别不同的加密协议。在协议的传输层中,存在扩展字段ServerNameIndication extension(SNI)代表用户所浏览的网站。
而对新型的去中心化应用,采用加密协议,基于DPI检测技术无法从加密网络流量中获取有效的可识别特征。由于部分应用部署在移动或云平台上,通过SNI扩展字段无法在网络流量中识别所有应用。基于流量统计特征的机器学习方法,主要提取网络流统计量,如包数、字节数、时间序列的统计特征(最大值、最小值、众数等),但这些特征在去中心化应用的分类中识别精度很低,无法满足要求。而针对更细粒度的DApps用户行为分类和通用用户行为,上述方法更加不适用。而现有唯一的针对DApps分类方法,将特征融合生成高维特征数据,虽增加准确率,但训练模型的时间也大大增加。
传统应用的网络流量会因不同公司使用的SSL/TLS协议的版本、信息等细节的不同,导致其在流量特征上存在差异,从而较易识别传统应用。而80%的去中心化应用均部署在同一区块链平台-以太坊上,增加了不同去中心化应用的流量相似性,传统应用的流量识别方法已经不适用,而针对DApps分类的研究因特征维度太大,训练模型效率太低。DApps用户行为分类则识别更细粒度的流量,现有研究方法在此研究中准确率很低,无法满足需求。针对通用用户行为分类,当前还尚未对此加密流量场景提出有效的解决方法。
发明内容
为了克服现有技术的不足并弥补此领域技术的空缺部分,本发明提供一种基于去中心化应用加密流量特征的多场景分类方法及***,在不对去中心化应用加密流量解密或逆向的情况下,对去中心化的加密流量进行多种应用场景分类,具体分为:对用户操作不同的应用产生的加密流量进行粗粒度分类;对用户在去中心化应用中的不同行为产生的加密流量进行精细化分类;以及对忽略去中心化应用的区别,对不同的通用用户行为产生的加密流量进行较精细化分类,进而检测去中心化网络中的异常行为,保护用户隐私,以及为网络管理者和服务提供商提供有价值的信息,优化QoS和QoE。
为达到上述目的,本发明采用如下的技术方案:
一种基于去中心化应用加密流量特征的多场景分类方法,其步骤包括:
1)收集去中心化应用的加密流量,并对各加密流量标记应用、用户行为和通用用户行为的分类标签;
2)根据分类目标和分类标签,将提取的加密流量的应用特征、用户行为特征和/或通用用户行为特征,分别输入应用分类模型、用户行为分类模型和通用用户行为分类模型,得到相应的分类;
其中,通过以下步骤得到应用分类模型、用户行为分类模型和通用用户行为分类模型:
a)收集已知去中心化应用、已知用户行为分类和已知通用用户行为分类的样本加密流量,并对各样本加密流量标记应用、用户行为和通用用户行为的分类标签;
b)针对不同的分类标签,提取的样本加密流量的样本应用特征、样本用户行为特征和样本通用用户行为特征;
c)对样本应用特征、样本用户行为特征和样本通用用户行为特征,分别进行机器学习分类器训练,得到应用分类模型、用户行为分类模型和通用用户行为分类模型。
进一步地,提取加密流量的应用特征、用户行为特征和通用用户行为特征之前,对加密流量进行预处理;所述预处理包括:过滤没有Client Hello包或无SNI字段的加密流量、过滤各加密流量中的ACK包和重传数据包。
进一步地,所述应用特征包括:时间序列和包长分布;所述用户行为特征包括:去中心化应用特征、行为敏感特征和优化特征;所述通用用户行为特征包括:去中心化应用特征、通用行为敏感特征、统计特征和序列特征。
进一步地,所述去中心化应用特征包括:时间序列和包长分布;所述行为敏感特征包括:字节分布、包到达总时间、包到达平均时间;所述优化特征包括:优化后的包到达间隔序列;所述通用行为敏感特征包括:字节分布;所述统计特征包括:上下行包数、第一个包到达时间、包到达间隔序列、字节速率变化和包速率的统计特征;所述序列特征包括:上行时间序列和下行时间序列。
进一步地,将提加密流量的应用特征、用户行为特征和通用用户行为特征分别输入应用分类模型、用户行为分类模型和通用用户行为分类模型之前,对应用特征、用户行为特征和通用用户行为特征进行预处理;所述预处理包括:去除全零列和归一化。
进一步地,所述已知去中心化应用包括:市场类、社交类、财产类、交易类和媒体类;所述市场类包括:Superrare、Thomas CrownArt和Knownorigin;所述社交类包括:Editional、Cryptoboiler、Ethlance和Crowdholding;所述财产类包括:John OrionYoung和Staybit;所述交易类包括:Latium;所述媒体类包括:Viewly。
进一步地,所述已知用户行为分类包括:评论、关注、点赞、搜索、加入购物车、租用、发表问题、提交求职申请、提交招聘申请、看视频、上传视频、查看用户详细信息、查看物品详细信息、浏览商店和浏览活动。
进一步地,所述已知通用用户行为分类包括:打开去中心化应用、浏览市场、查看详细信息、关注、点赞、提交申请表、搜索、查看用户首页、查看去中心化应用中活动、加入购物车、看视频、评论、查看去中心化应用介绍、刷新购物车和其他行为。
进一步地,所述机器学习分类器包括:决策树模型、梯度提升决策树模型和随机森林模型。
进一步地,根据分类的准确率和召回率,选择决策树模型、梯度提升决策树模型或随机森林模型。
进一步地,得到分类的准确率和召回率的方法包括:十折交叉验证方法。
一种基于去中心化应用加密流量特征的多场景分类***,包括:
1)去中心化应用流量收集模块,用以收集加密的去中心化应用流量,并对各加密流量标记应用、用户行为和通用用户行为的分类标签;
2)多场景下加密流量特征提取模块,用以根据分类目标和分类标签,提取加密流量的应用特征、用户行为特征和通用用户行为特征;
3)多场景下加密流量分类模块,用以将提取的加密流量的应用特征、用户行为特征和通用用户行为特征,分别输入应用分类模型、用户行为分类模型和通用用户行为分类模型,得到相应的分类;
通过以下步骤得到应用分类模型、用户行为分类模型和通用用户行为分类模型:
a)收集已知去中心化应用、已知用户行为分类和已知通用用户行为分类的样本加密流量,并对各样本加密流量标记应用、用户行为和通用用户行为的分类标签;
b)针对不同的分类标签,提取样本加密流量的样本应用特征、样本用户行为特征和样本通用用户行为特征;
c)对样本应用特征、样本用户行为特征和样本通用用户行为特征,分别进行机器学习分类器训练,得到应用分类模型、用户行为分类模型和通用用户行为分类模型。
与现有技术相比,本发明具有如下优点:
1)本发明对去中心化应用进行了多场景下加密流量的分类,包括DApps分类、DApps用户行为分类和通用用户行为分类,不局限于单场景分类,根据不同场景下分类内容的不同特点,提出不同的加密流量特征,使用较少的特征能够充分的表示不同的应用或用户行为,提升分类效率。
2)针对DApps分类,现有技术采用高维特征,训练模型效率低,所需时间长,本发明根据去中心化应用与传统应用的区别(如***运行模式、数据存储方式和构造方法等),选取合适且重要的加密流量特征,使DApps分类同时具有高准确率和高效率。
3)针对DApps用户行为分类,***可以对去中心化应用的用户行为进行精细化的分类,并且现有技术在此场景下分类效果很差,本发明根据此场景的特点(如行为序列、智能合约、请求钱包连接等)提出适用于此场景的加密流量特征,从而在加密网络流量分类中,帮助管理者识别可疑用户行为,保护正常用户安全与隐私。
4)本发明提出去中心化应用加密流量中一种新的分类场景:通用用户行为分类,还未有技术涉及此方面,本***忽略不同DApps之间的区别,而只关注15种通用用户行为之间的区别,通过对其分类,可以帮助去中心化网络管理者获得用户喜好、延迟等信息,从而改善网络配置使DApps运行更加有效率,提升用户体验。
5)针对去中心化网络环境,提出了去中心化应用的加密流量采集和分析方案。通过人工和自动化采集脚本采集DApps加密流量,对每条流的时间戳与用户操作对准,形成准确标注的数据集,为特征提取、模型训练、评估提供数据支撑。
6)通过对多个场景下机器学习分类器的调参,均达到较好分类效果,解决去中心化应用加密流量的多场景分类问题,并利用数据集进行评估验证,确保模型的准确性、鲁棒性。
附图说明
图1为基于去中心化应用加密流量特征的多场景分类基本框图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清晰,下面通过具体实施例和附图对本发明进行进一步详细阐述。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
图1为本发明的方法基本框图,多场景分类方法分为训练阶段和分类阶段两个阶段。在训练阶段,通过多标签数据,分析多个场景下即应用、用户行为及通用用户行为的加密流量特征,获得各个场景下最佳的机器学习模型。
在分类阶段,通过在训练阶段得到的最佳分类器,从需要分类的流量数据集中提取各个场景下所需要的加密流量特征,并进行相应的特征处理,再送入各个分类器中得到相应的分类结果。
本发明的方案包括以下步骤:
1、数据收集:
使用一台戴尔台式电脑,并在此电脑中安装三个Win 7的虚拟机进行去中心化应用加密流量的采集工作,选取市场类(Superrare、Thomas CrownArt、Knownorigin)、社交类(Editional、Cryptoboiler、Ethlance、Crowdholding)、财产类(John OrionYoung、Staybit)、交易类(Latium)、媒体类(Viewly)共11个具有代表性的去中心化应用,并经过使用和分析这些DApps,共提取包括评论、关注、点赞、搜索、加入购物车、租用、发表问题、提交求职申请、提交招聘申请、看视频、上传视频、查看用户详细信息、查看物品详细信息、浏览商店、浏览活动等88种用户行为,并将这些行为归为包括打开DApps、浏览市场、查看详细信息、关注、点赞、提交申请表、搜索、查看用户首页、查看DApps中活动、加入购物车、看视频、评论、查看DApps介绍、刷新购物车和其他行为等15种通用用户行为,而对于每种用户行为,通过使用VBS在虚拟机中模拟真实用户操作应用,从而使用流量采集工具采集纯净的去中心化应用的用户行为流量,并进行数据流标注。每种用户行为重复200次,最终得到17600个用户行为的原始加密流量数据集。在采集后,根据应用对加密流量数据集添加应用种类标签,再根据通用用户行为的分类为每条数据流添加通用用户行为种类标签,从而获得多标签去中心化应用加密流量数据集。
2、数据预处理:
虽然数据采集过程在无其他程序运行的虚拟机中进行,但会有***应用或流量器本身干扰,因此通过每个数据流中Client Hello包扩展部分的SNI字段过滤杂流,仅留下属于所分析应用用户行为的数据流,如没有Client Hello包或者无SNI字段,直接将此条数据流过滤;对剩下的数据流,由于网络或其他原因,可能会有重传数据包,因此过滤每个流中的ACK包和重传数据包。
3、特征提取:
针对三个场景,每个场景提取了不同的流量特征集,针对DApps分类场景,提取流量特征为DApps特征,包括时间序列和包长分布;针对DApps用户行为分类场景,提取流量特征包括三部分:DApps特征(时间序列、包长分布),行为敏感特征(字节分布、包到达总时间、包到达平均时间),以及优化特征(优化后的包到达间隔序列);针对通用用户行为分类场景,所述的流量特征包括四部分:DApps特征(时间序列、包长分布),通用行为敏感特征(字节分布),统计特征(上下行包数、第一个包到达时间、以及包到达间隔序列、字节速率变化和包速率的统计特征,如均值、方差、斜度、峰度、最大值、最小值等),序列特征(上行和下行时间序列)。
4、模型选取:
将上述所提取的流量特征去除全零列后,采用3种机器学习分类器(决策树,梯度提升决策树和随机森林)对其进行训练,根据对DApps分类、DApps用户行为分类、和通用用户行为分类的准确率和召回率,选取各个场景下的最优模型即随机森林模型作为各个场景下的分类模型。其中,本发明采用十折交叉验证的方法对所述三种场景下的分类模型效果进行了验证。
实例1结合决策树分类器对11种去中心化应用进行多场景分类
选择多个类别的去中心化应用,包括:市场类(Superrare、Thomas Crown Art、Knownorigin),社交类(Editional、Cryptoboiler、Ethlance、Crowdholding),财产类(JohnOrion Young、Staybit),交易类(Latium),媒体类(Viewly)共11个具有代表性的DApps。通过分析这些DApps,共提取88种DApps用户行为,包括:评论、关注、点赞、搜索、加入购物车、租用、发表问题、提交求职申请、提交招聘申请、看视频、上传视频、查看用户详细信息、查看物品详细信息、浏览商店、浏览活动等。并对这些用户行为进行归纳,成15类通用用户行为,包括:打开DApps、浏览市场、查看详细信息、关注、点赞、提交申请表、搜索、查看用户首页、查看DApps中活动、加入购物车、看视频、评论、查看DApps介绍、刷新购物车和其他行为。2019年9月1日开始,通过虚拟机中的VBS脚本模拟去中心化应用用户的用户行为,每个行为重复200次,使用流量采集工具采集生成的加密流量,生成多标签数据集(共计19w+个流,110w+个数据包),经过数据预处理后提取各个场景下对应的流量特征,训练决策树分类器,采用十折交叉验证的方式对模型分类效果验证,对DApps分类的准确率为98.84%;对DApps用户行为分类的准确率为94.83%;对通用用户行为分类的准确率为95.81%。
实例2结合梯度提升决策树分类器对11种去中心化应用进行多场景分类
选择多个类别的去中心化应用,包括:市场类(Superrare、Thomas Crown Art、Knownorigin),社交类(Editional、Cryptoboiler、Ethlance、Crowdholding),财产类(JohnOrion Young、Staybit),交易类(Latium),媒体类(Viewly)共11个具有代表性的DApps。通过分析这些DApps,共提取88种DApps用户行为,包括:评论、关注、点赞、搜索、加入购物车、租用、发表问题、提交求职申请、提交招聘申请、看视频、上传视频、查看用户详细信息、查看物品详细信息、浏览商店、浏览活动等。并对这些用户行为进行归纳,成15类通用用户行为,包括:打开DApps、浏览市场、查看详细信息、关注、点赞、提交申请表、搜索、查看用户首页、查看DApps中活动、加入购物车、看视频、评论、查看DApps介绍、刷新购物车和其他行为。2019年9月1日开始,通过虚拟机中的VBS脚本模拟去中心化应用用户的用户行为,每个行为重复200次,使用流量采集工具采集生成的加密流量,生成多标签数据集(共计19w+个流,110w+个数据包),经过数据预处理后提取各个场景下对应的流量特征,训练梯度提升决策树分类器,采用十折交叉验证的方式对模型分类效果验证,对DApps分类的准确率为90.32%;对DApps用户行为分类的准确率为84.72%;对通用用户行为分类的准确率为68.78%。
实例3结合随机森林分类器对11种去中心化应用进行多场景分类
选择多个类别的去中心化应用,包括:市场类(Superrare、Thomas Crown Art、Knownorigin),社交类(Editional、Cryptoboiler、Ethlance、Crowdholding),财产类(JohnOrion Young、Staybit),交易类(Latium),媒体类(Viewly)共11个具有代表性的DApps。通过分析这些DApps,共提取88种DApps用户行为,包括:评论、关注、点赞、搜索、加入购物车、租用、发表问题、提交求职申请、提交招聘申请、看视频、上传视频、查看用户详细信息、查看物品详细信息、浏览商店、浏览活动等。并对这些用户行为进行归纳,成15类通用用户行为,包括:打开DApps、浏览市场、查看详细信息、关注、点赞、提交申请表、搜索、查看用户首页、查看DApps中活动、加入购物车、看视频、评论、查看DApps介绍、刷新购物车和其他行为。2019年9月1日开始,通过虚拟机中的VBS脚本模拟去中心化应用用户的用户行为,每个行为重复200次,使用流量采集工具采集生成的加密流量,生成多标签数据集(共计19w+个流,110w+个数据包),经过数据预处理后提取各个场景下对应的流量特征,训练随机森林分类器,采用十折交叉验证的方式对模型分类效果验证,对DApps分类的准确率为99.5%;对DApps用户行为分类的准确率为95.65%;对通用用户行为分类的准确率为98.58%。
以上所述实施例仅表达了本发明的实施方式,其描述较为具体,但并不能因此理解为对本发明专利范围的限制。应当指出,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应当以所附权利要求为准。

Claims (10)

1.一种基于去中心化应用加密流量特征的多场景分类方法,其步骤包括:
1)收集去中心化应用的加密流量,并对各加密流量标记应用、用户行为和通用用户行为的分类标签;
2)根据分类目标和分类标签,将提取的加密流量的应用特征、用户行为特征和通用用户行为特征,分别输入应用分类模型、用户行为分类模型和通用用户行为分类模型,得到相应的分类;
其中,通过以下步骤得到应用分类模型、用户行为分类模型和通用用户行为分类模型:
a)收集已知去中心化应用、已知用户行为分类和已知通用用户行为分类的样本加密流量,并对各样本加密流量标记应用、用户行为和通用用户行为的分类标签;
b)针对不同的分类标签,提取样本加密流量的样本应用特征、样本用户行为特征和样本通用用户行为特征;
c)对样本应用特征、样本用户行为特征和样本通用用户行为特征,分别进行机器学习分类器训练,得到应用分类模型、用户行为分类模型和通用用户行为分类模型。
2.如权利要求1所述的方法,其特征在于,提取加密流量的应用特征、用户行为特征和通用用户行为特征之前,对加密流量进行预处理;所述预处理包括:过滤没有Client Hello包或无SNI字段的加密流量、过滤各加密流量中的ACK包和重传数据包。
3.如权利要求1所述的方法,其特征在于,所述应用特征包括:时间序列和包长分布;所述用户行为特征包括:去中心化应用特征、行为敏感特征和优化特征;所述通用用户行为特征包括:去中心化应用特征、通用行为敏感特征、统计特征和序列特征。
4.如权利要求3所述的方法,其特征在于,所述去中心化应用特征包括:时间序列和包长分布;所述行为敏感特征包括:字节分布、包到达总时间、包到达平均时间;所述优化特征包括:优化后的包到达间隔序列;所述通用行为敏感特征包括:字节分布;所述统计特征包括:上下行包数、第一个包到达时间、包到达间隔序列、字节速率变化和包速率;所述序列特征包括:上行时间序列和下行时间序列。
5.如权利要求1所述的方法,其特征在于,将提取的加密流量的应用特征、用户行为特征和通用用户行为特征分别输入应用分类模型、用户行为分类模型和通用用户行为分类模型之前,对应用特征、用户行为特征和通用用户行为特征进行预处理;所述预处理包括:去除全零列和归一化。
6.如权利要求1所述的方法,其特征在于,所述已知去中心化应用包括:市场类、社交类、财产类、交易类和媒体类;所述市场类包括:Superrare、Thomas Crown Art和Knownorigin;所述社交类包括:Editional、Cryptoboiler、Ethlance和Crowdholding;所述财产类包括:John OrionYoung和Staybit;所述交易类包括:Latium;所述媒体类包括:Viewly;所述已知用户行为分类包括:评论、关注、点赞、搜索、加入购物车、租用、发表问题、提交求职申请、提交招聘申请、看视频、上传视频、查看用户详细信息、查看物品详细信息、浏览商店和浏览活动;所述已知通用用户行为分类包括:打开去中心化应用、浏览市场、查看详细信息、关注、点赞、提交申请表、搜索、查看用户首页、查看去中心化应用中活动、加入购物车、看视频、评论、查看去中心化应用介绍、刷新购物车和其他行为。
7.如权利要求1所述的方法,其特征在于,所述机器学习分类器包括:决策树模型、梯度提升决策树模型或随机森林模型。
8.如权利要求7所述的方法,其特征在于,根据分类的准确率和召回率,选择决策树模型、梯度提升决策树模型或随机森林模型。
9.如权利要求8所述的方法,其特征在于,得到分类的准确率和召回率的方法包括:十折交叉验证方法。
10.一种基于去中心化应用加密流量特征的多场景分类***,包括:
1)去中心化应用流量收集模块,用以收集加密的去中心化应用流量,并对各加密流量标记应用、用户行为和通用用户行为的分类标签;
2)多场景下加密流量特征提取模块,用以根据分类目标和分类标签,提取加密流量的应用特征、用户行为特征和通用用户行为特征;
3)多场景下加密流量分类模块,用以将提取的加密流量的应用特征、用户行为特征和通用用户行为特征,分别输入应用分类模型、用户行为分类模型和通用用户行为分类模型,得到相应的分类;
通过以下步骤得到应用分类模型、用户行为分类模型和通用用户行为分类模型:
a)收集已知去中心化应用、已知用户行为分类和已知通用用户行为分类的样本加密流量,并对各样本加密流量标记应用、用户行为和通用用户行为的分类标签;
b)针对不同的分类标签,提取样本加密流量的样本应用特征、样本用户行为特征和样本通用用户行为特征;
c)对样本应用特征、样本用户行为特征和样本通用用户行为特征,分别进行机器学习分类器训练,得到应用分类模型、用户行为分类模型和通用用户行为分类模型。
CN202011159375.4A 2020-10-27 2020-10-27 基于去中心化应用加密流量特征的多场景分类方法及*** Active CN112381119B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011159375.4A CN112381119B (zh) 2020-10-27 2020-10-27 基于去中心化应用加密流量特征的多场景分类方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011159375.4A CN112381119B (zh) 2020-10-27 2020-10-27 基于去中心化应用加密流量特征的多场景分类方法及***

Publications (2)

Publication Number Publication Date
CN112381119A true CN112381119A (zh) 2021-02-19
CN112381119B CN112381119B (zh) 2023-02-03

Family

ID=74577250

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011159375.4A Active CN112381119B (zh) 2020-10-27 2020-10-27 基于去中心化应用加密流量特征的多场景分类方法及***

Country Status (1)

Country Link
CN (1) CN112381119B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113469275A (zh) * 2021-07-21 2021-10-01 东南大学 一种以太坊行为流量精细化分类方法
CN114520774A (zh) * 2021-12-28 2022-05-20 武汉虹旭信息技术有限责任公司 基于智能合约的深度报文检测方法及装置
CN115396381A (zh) * 2022-07-27 2022-11-25 中国科学院信息工程研究所 一种基于响应时间特征的加密音视频流量识别方法及***

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100250918A1 (en) * 2009-03-27 2010-09-30 Neuralitc Systems Method and system for identifying an application type of encrypted traffic
EP3306890A1 (en) * 2016-10-06 2018-04-11 Cisco Technology, Inc. Analyzing encrypted traffic behavior using contextual traffic data
CN109861957A (zh) * 2018-11-06 2019-06-07 中国科学院信息工程研究所 一种移动应用私有加密协议的用户行为精细化分类方法及***
CN110866553A (zh) * 2019-11-07 2020-03-06 中国科学院信息工程研究所 一种基于加密摄像头流量统计特征的用户行为分类方法及***
CN111556453A (zh) * 2020-04-27 2020-08-18 南京邮电大学 一种基于信道状态信息和BiLSTM的多场景室内动作识别方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100250918A1 (en) * 2009-03-27 2010-09-30 Neuralitc Systems Method and system for identifying an application type of encrypted traffic
EP3306890A1 (en) * 2016-10-06 2018-04-11 Cisco Technology, Inc. Analyzing encrypted traffic behavior using contextual traffic data
CN109861957A (zh) * 2018-11-06 2019-06-07 中国科学院信息工程研究所 一种移动应用私有加密协议的用户行为精细化分类方法及***
CN110866553A (zh) * 2019-11-07 2020-03-06 中国科学院信息工程研究所 一种基于加密摄像头流量统计特征的用户行为分类方法及***
CN111556453A (zh) * 2020-04-27 2020-08-18 南京邮电大学 一种基于信道状态信息和BiLSTM的多场景室内动作识别方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
YU WANG等: "Identifying DApps and User Behaviors on Ethereum via Encrypted Traffic", 《INTERNATIONAL CONFERENCE ON SECURITY AND PRIVACY IN COMMUNICATION SYSTEM》 *
YU WANG等: "Multi-scene Classification of Blockchain Encrypted Traffic", 《INTERNATIONAL CONFERENCE ON BLOCKCHAIN AND TRUSTWORTHY SYSTEMS》 *
胡晓艳等: "基于活跃节点库的以太坊加密流量识别方法", 《网络空间安全》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113469275A (zh) * 2021-07-21 2021-10-01 东南大学 一种以太坊行为流量精细化分类方法
CN114520774A (zh) * 2021-12-28 2022-05-20 武汉虹旭信息技术有限责任公司 基于智能合约的深度报文检测方法及装置
CN114520774B (zh) * 2021-12-28 2024-02-23 武汉虹旭信息技术有限责任公司 基于智能合约的深度报文检测方法及装置
CN115396381A (zh) * 2022-07-27 2022-11-25 中国科学院信息工程研究所 一种基于响应时间特征的加密音视频流量识别方法及***
CN115396381B (zh) * 2022-07-27 2024-04-30 中国科学院信息工程研究所 一种基于响应时间特征的加密音视频流量识别方法及***

Also Published As

Publication number Publication date
CN112381119B (zh) 2023-02-03

Similar Documents

Publication Publication Date Title
CN111277578B (zh) 加密流量分析特征提取方法、***、存储介质、安全设备
CN112381119B (zh) 基于去中心化应用加密流量特征的多场景分类方法及***
CN110391958B (zh) 一种对网络加密流量自动进行特征提取和识别的方法
WO2020119662A1 (zh) 一种网络流量分类方法
WO2020038353A1 (zh) 异常行为检测方法及***
CN109861957A (zh) 一种移动应用私有加密协议的用户行为精细化分类方法及***
CN111988285A (zh) 一种基于行为画像的网络攻击溯源方法
CN105871832A (zh) 一种基于协议属性的网络应用加密流量识别方法及其装置
CN107370752B (zh) 一种高效的远控木马检测方法
Barut et al. NetML: A challenge for network traffic analytics
CN109525508A (zh) 基于流量相似性比对的加密流识别方法、装置及存储介质
US20180062950A1 (en) Network traffic monitoring and classification
Der et al. Knock it off: profiling the online storefronts of counterfeit merchandise
CN112217763A (zh) 一种基于机器学习的隐蔽tls通信流检测方法
Papadopoulou et al. Web video verification using contextual cues
CN109275045B (zh) 基于dfi的移动端加密视频广告流量识别方法
Wang et al. Time-variant graph classification
CN110020161B (zh) 数据处理方法、日志处理方法和终端
CN109660656A (zh) 一种智能终端应用程序识别方法
CN114785563A (zh) 一种软投票策略的加密恶意流量检测方法
Wang et al. Benchmark data for mobile app traffic research
CN110866553A (zh) 一种基于加密摄像头流量统计特征的用户行为分类方法及***
CN106982147B (zh) 一种Web通讯应用的通讯监控方法和装置
CN110602059B (zh) 一种精准复原tls协议加密传输数据明文长度指纹的方法
CN113141349B (zh) 一种多分类器自适应融合的https加密流量分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant