CN115277888A - 一种移动应用加密协议报文类型解析方法及*** - Google Patents

一种移动应用加密协议报文类型解析方法及*** Download PDF

Info

Publication number
CN115277888A
CN115277888A CN202211171000.9A CN202211171000A CN115277888A CN 115277888 A CN115277888 A CN 115277888A CN 202211171000 A CN202211171000 A CN 202211171000A CN 115277888 A CN115277888 A CN 115277888A
Authority
CN
China
Prior art keywords
message
data
feature
mobile application
representing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211171000.9A
Other languages
English (en)
Other versions
CN115277888B (zh
Inventor
吉庆兵
罗杰
潘炜
倪绿林
谈程
康璐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CETC 30 Research Institute
Original Assignee
CETC 30 Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CETC 30 Research Institute filed Critical CETC 30 Research Institute
Priority to CN202211171000.9A priority Critical patent/CN115277888B/zh
Publication of CN115277888A publication Critical patent/CN115277888A/zh
Application granted granted Critical
Publication of CN115277888B publication Critical patent/CN115277888B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L69/00Network arrangements, protocols or services independent of the application payload and not provided for in the other groups of this subclass
    • H04L69/22Parsing or analysis of headers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明涉及报文解析技术领域,公开了一种移动应用加密协议报文类型解析方法及***,该解析方法,抽取并学习移动应用加密协议报文的不同模态特征,利用不同模态特征相互融合实现对加密协议报文类型解析。本发明解决了现有技术存在的耗费资源高、通用性差、准确率低、泛化能力差等问题。

Description

一种移动应用加密协议报文类型解析方法及***
技术领域
本发明涉及报文解析技术领域,具体是一种移动应用加密协议报文类型解析方法及***。
背景技术
网络流量走向全面加密时代已经是大势所趋,加密技术可以保障网络通信中数据传输的安全,但不可否认的是,恶意软件、非法言论、网络攻击等恶意行为也被隐藏在网络移动应用加密流量中,为使用互联网的用户带来了严重的威胁。对移动应用私有加密协议报文类型进行正确解析和识别,是信息监控、安全检测、电子取证的重要前置条件,对维持健康绿色的网络环境、维护国家安全和社会稳定具有十分重要的意义。
传统的端口匹配和深度包检测的方法需要先分析报文内容,再通过规则匹配识别报文类型,但是这些对加密协议报文已面临失效。使用机器学习的方法需要对待识别的报文进行人工特征设计,会耗费大量的时间精力,而且面对众多存在差异的应用程序和加密协议,很难设计一个普遍反映流量特征的特征集,这限制了机器学习方法的通用性,导致在使用机器学习方法对加密网络流量解析识别时,很难取得较好的效果。
发明内容
为克服现有技术的不足,本发明提供了一种移动应用加密协议报文类型解析方法及***,解决现有技术存在的耗费资源高、通用性差、准确率低、泛化能力差等问题。
本发明解决上述问题所采用的技术方案是:
一种移动应用加密协议报文类型解析方法,抽取并学习移动应用加密协议报文的不同模态特征,利用不同模态特征相互融合实现对加密协议报文类型解析。
作为一种优选的技术方案,包括以下步骤:
S1,报文数据预处理:对采集的移动应用网络流量原始数据进行预处理,抽取原始数据中报文载荷的结构特征数据、时序特征数据、交互特征数据;
S2,特征学习,具体包括以下步骤:
S2A,报文结构特征学习:利用结构特征数据构建基于动态池化卷积神经网络的移动应用私有加密协议报文结构特征学习模型,学习得到报文载荷结构特征向量;
S2B,报文时序特征学习:利用时序特征数据构建基于长短时记忆网络的移动应用私有加密协议报文时序特征学习模型,学习得到报文载荷时序特征向量;
S2C,报文交互特征学习:利用交互特征数据构建基于图卷积神经网络的移动应用私有加密协议报文交互特征学习模型,学习得到报文会话交互特征向量;
S3,报文类型解析:对报文载荷结构特征向量、时序特征向量、交互特征向量进行融合拼接,使用最大熵分类器输出移动应用私有加密协议报文类型的解析结果。
作为一种优选的技术方案,步骤S1包括以下步骤:
S11,设置预处理截取的原始网络数据包长度大小,将连续的网络流量以会话流切分,分离会话流中每个数据包传输层以上的网络报文载荷数据;
S12,区分报文载荷数据的上、下行方向:按数据流向定义会话中数据包中报文载荷数据的上行方向和下行方向,将与第一个数据包具有相同起始地址、目的地址以及端口号的报文载荷数据作为上行报文载荷数据,其余作为下行报文载荷数据;
S13,分别计算上行方向和下行方向的载荷数据大小,以十六进制形式构造载荷数据序列;
S14,按照上行数据在前、下行数据在后的拼接方式,将上行报文载荷数据和下行报文载荷数据拼接得到报文载荷结构特征数据;
S15,按照数据包时间先后顺序的组织方式,排列得到报文载荷时序特征数据;
S16,构造基于序列到图的特征表达模型,将会话流中的数据包序列转化为无向图;对会话流中的每一个数据包,提取数据包的包方向、负载数据的标准信息熵和负载长度,将数据包的包方向、负载数据的标准信息熵和负载长度作为图节点特征嵌入,得到报文载荷交互特征数据。
作为一种优选的技术方案,步骤S16中,标准信息熵的计算公式为:
Figure 948557DEST_PATH_IMAGE001
其中,
Figure 388897DEST_PATH_IMAGE002
表示标准信息熵,
Figure 366081DEST_PATH_IMAGE003
表示任意分布
Figure 434531DEST_PATH_IMAGE004
下的离散随机变量
Figure 838967DEST_PATH_IMAGE005
Figure 750291DEST_PATH_IMAGE006
表示
Figure 265586DEST_PATH_IMAGE003
中包含的离散变量的个数,
Figure 719701DEST_PATH_IMAGE007
表示数据包中的字节的序号,
Figure 597835DEST_PATH_IMAGE008
表示数据包中的字 节,
Figure 137400DEST_PATH_IMAGE009
表示字节
Figure 456386DEST_PATH_IMAGE008
Figure 624062DEST_PATH_IMAGE003
中出现的概率。
作为一种优选的技术方案,步骤S2A包括以下步骤:
S2A1,将报文载荷结构特征数据输入带有稀疏性约束条件和噪声鲁棒性约束条件的自编码器进行抗噪降维处理,生成降维抗噪处理后的特征向量;
S2A2,构建基于动态池化卷积神经网络的移动应用私有加密协议报文结构特征学习模型;将降维抗噪处理后的特征向量输入构造的报文结构特征学习模型中进行学习,得到卷积核运算后的特征序列;
报文结构特征学习模型的构建过程如下:
构造基于动态池化卷积神经网络的移动应用私有加密协议报文结构特征学习模型,报文结构特征学习模型由三层一维卷积堆叠而成;填充方式采用same方式,每层卷积伴随着批量归一化;对于每一层卷积操作,则经过一维卷积后的隐藏层输出为:
Figure 370302DEST_PATH_IMAGE010
其中,
Figure 866005DEST_PATH_IMAGE007
表示一维卷积核的权重矩阵的行标号,
Figure 988682DEST_PATH_IMAGE011
表示一维卷积核的权重矩阵的列标号,
Figure 761597DEST_PATH_IMAGE012
表示一维卷积核的权重矩阵中第
Figure 678737DEST_PATH_IMAGE007
行第
Figure 927316DEST_PATH_IMAGE011
列的权重值,
Figure 916001DEST_PATH_IMAGE013
表示卷积核的形状,
Figure 730373DEST_PATH_IMAGE014
表示输入的数据的第
Figure 21677DEST_PATH_IMAGE007
行第
Figure 554289DEST_PATH_IMAGE015
列的值,
Figure 330353DEST_PATH_IMAGE016
表示数据的总行数,
Figure 202494DEST_PATH_IMAGE017
表示输入的总 列数,
Figure 727017DEST_PATH_IMAGE018
表示输入的形状,
Figure 809242DEST_PATH_IMAGE019
表示输出的第
Figure 15095DEST_PATH_IMAGE020
个位置的值;
卷积核运算后,对每个输入数据会得到多个特征序列,设最后一层卷积输出的特征向量为:
Figure 804060DEST_PATH_IMAGE021
其中,
Figure 312533DEST_PATH_IMAGE022
表示特征向量
Figure 554158DEST_PATH_IMAGE023
中的各个元素;
S2A3,对于最后一层卷积输出的特征向量,采用k-max pooling作为非线性下采样函数,利用非线性函数动态池化操作来对特征向量进行提取,得到报文载荷结构特征向量;
动态池化操作为:
Figure 298123DEST_PATH_IMAGE024
其中,
Figure 207174DEST_PATH_IMAGE025
表示报文结构特征,
Figure 135815DEST_PATH_IMAGE026
表示所有卷积层的个数,
Figure 67999DEST_PATH_IMAGE027
表示当前卷积层的层数编号,
Figure 412393DEST_PATH_IMAGE028
表示输入序列长度,
Figure 756043DEST_PATH_IMAGE029
表示固定的池化层参数。
作为一种优选的技术方案,步骤S2A1中,稀疏性约束条件的代价函数为:
Figure 465373DEST_PATH_IMAGE030
Figure 947170DEST_PATH_IMAGE031
Figure 157571DEST_PATH_IMAGE032
其中,
Figure 775634DEST_PATH_IMAGE033
表示稀疏性约束条件的代价函数,
Figure 921445DEST_PATH_IMAGE034
表示自编码器的输入,
Figure 624959DEST_PATH_IMAGE035
表示稀疏性约束,
Figure 124204DEST_PATH_IMAGE036
表示稀疏性约束的权重,
Figure 65616DEST_PATH_IMAGE037
表示总共的噪声的期望,
Figure 179065DEST_PATH_IMAGE038
表示自编码器中的隐含层数,
Figure 697771DEST_PATH_IMAGE039
,
Figure 125341DEST_PATH_IMAGE040
表示均值为0且方差为1的高斯噪声,
Figure 717997DEST_PATH_IMAGE041
表示 神经网络的第
Figure 579511DEST_PATH_IMAGE038
层输入,
Figure 257617DEST_PATH_IMAGE042
表示隐含层单元号,
Figure 223299DEST_PATH_IMAGE043
表示隐含层神经元个数,
Figure 670461DEST_PATH_IMAGE044
表示隐含层 响应;
噪声鲁棒性约束条件的代价函数为:
Figure 453609DEST_PATH_IMAGE045
其中,
Figure 822274DEST_PATH_IMAGE046
表示噪声鲁棒性约束条件的代价函数,
Figure 653964DEST_PATH_IMAGE047
表示目标输出,
Figure 768681DEST_PATH_IMAGE048
表示自编 码器学习网络输出,
Figure 863676DEST_PATH_IMAGE049
表示激活因子,
Figure 516374DEST_PATH_IMAGE050
Figure 948493DEST_PATH_IMAGE051
表示两个输入数据的编号,
Figure 370247DEST_PATH_IMAGE052
表示从输入数 据
Figure 370564DEST_PATH_IMAGE053
到输入数据
Figure 244979DEST_PATH_IMAGE054
的连接权值。
作为一种优选的技术方案,步骤S2B包括以下步骤:
S2B1,构建基于长短时记忆网络的移动应用私有加密协议报文载荷时序特征学习模型,报文载荷时序特征学习模型包含JI个记忆单元,JI为整数且32≤JI≤256,利用构建的报文载荷时序特征学习模型对报文载荷时序特征数据进行学习,学习公式为:
Figure 264144DEST_PATH_IMAGE055
其中,
Figure 478088DEST_PATH_IMAGE056
表示门控单元函数,
Figure 711623DEST_PATH_IMAGE057
Figure 135651DEST_PATH_IMAGE058
Figure 847255DEST_PATH_IMAGE059
分别表示遗忘门、输入门或输 出门,
Figure 446864DEST_PATH_IMAGE060
表示激活函数,
Figure 585721DEST_PATH_IMAGE061
对应于遗忘门、输入门或输出门的参数,
Figure 247778DEST_PATH_IMAGE062
表示时刻
Figure 966335DEST_PATH_IMAGE063
的输 入,
Figure 217188DEST_PATH_IMAGE064
表示时刻
Figure 854842DEST_PATH_IMAGE065
的输出,
Figure 394408DEST_PATH_IMAGE066
表示遗忘门、输入门或输出门的偏置值;
S2B2,得到输出为报文载荷时序特征向量,输出公式为:
Figure 713394DEST_PATH_IMAGE067
其中,
Figure 130338DEST_PATH_IMAGE068
表示报文载荷时序特征向量,
Figure 876577DEST_PATH_IMAGE069
表示激活函数,
Figure 372280DEST_PATH_IMAGE070
表示单元状态向量,
Figure 494957DEST_PATH_IMAGE071
表示tanh激活函数,
Figure 517140DEST_PATH_IMAGE072
表示输出门的参数,
Figure 637542DEST_PATH_IMAGE073
表示偏置。
作为一种优选的技术方案,步骤S2C包括以下步骤:
S2C1,构建基于图卷积神经网络的移动应用私有加密协议报文会话交互特征学习模型,会话交互特征学习模型包括两个依次连接的图卷积层,进行图卷积操作时设置两次图卷积的通道数,激活函数选择ReLU函数;
将报文载荷交互特征数据输入图卷积神经网络模型,经过序列到图方法转化后的 图为
Figure 948438DEST_PATH_IMAGE074
;其中,图的网络数据包个数为
Figure 422276DEST_PATH_IMAGE075
,每个节点包含的数据包特征数量为
Figure 236648DEST_PATH_IMAGE076
,特征矩阵为
Figure 793531DEST_PATH_IMAGE077
,邻接矩阵为
Figure 388461DEST_PATH_IMAGE078
S2C2,使用步骤S2C1构造的学习模型进行图卷积操作,对于每一层图卷积操作有:
Figure 587361DEST_PATH_IMAGE079
其中,
Figure 459502DEST_PATH_IMAGE080
Figure 984024DEST_PATH_IMAGE081
表示单位矩阵,
Figure 52868DEST_PATH_IMAGE082
表示
Figure 524300DEST_PATH_IMAGE083
对应的度矩阵,
Figure 313265DEST_PATH_IMAGE007
表示网络层数,
Figure 805426DEST_PATH_IMAGE084
表 示第
Figure 312631DEST_PATH_IMAGE085
层的权值,权值的维度为
Figure 322175DEST_PATH_IMAGE086
Figure 778695DEST_PATH_IMAGE087
表示经过第
Figure 645020DEST_PATH_IMAGE007
层卷积后图节点数据的维度,
Figure 311625DEST_PATH_IMAGE088
表示第
Figure 921598DEST_PATH_IMAGE007
层的偏置,
Figure 747471DEST_PATH_IMAGE089
表示第
Figure 722381DEST_PATH_IMAGE090
层的输入,第一层的输入为
Figure 204177DEST_PATH_IMAGE091
Figure 663846DEST_PATH_IMAGE092
表示非线性激活 函数ReLU函数;
S2C3,在经过两层图卷积操作之后,得到一个
Figure 281910DEST_PATH_IMAGE093
的特征矩阵,使用Flatten操 作将该矩阵拉伸为一维特征向量
Figure 427720DEST_PATH_IMAGE094
,得到:
Figure 193551DEST_PATH_IMAGE095
其中,
Figure 879747DEST_PATH_IMAGE096
表示报文会话交互特征向量,
Figure 555579DEST_PATH_IMAGE096
的维度为
Figure 934608DEST_PATH_IMAGE097
Figure 204046DEST_PATH_IMAGE098
表示报文会话交互特征向量中的各个元素;
S2C4,使用一层全连接层对进行压缩,降低维度,学习得到报文载荷会话特征向量:
Figure 631617DEST_PATH_IMAGE099
其中,
Figure 224272DEST_PATH_IMAGE100
表示报文载荷会话特征向量,
Figure 836519DEST_PATH_IMAGE101
表示全连接层的权值矩阵,
Figure 249046DEST_PATH_IMAGE102
表示偏 置,
Figure 745886DEST_PATH_IMAGE069
表示激活函数,
Figure 927469DEST_PATH_IMAGE069
在全连接层使用ReLU函数。
作为一种优选的技术方案,步骤S3包括以下步骤:
S31,对报文结构特征学习模型、报文时序特征学习模型、报文交互特征学习模型进行集成学习与组合训练,设置模型组合训练时的超参数;对得到的报文载荷结构特征向量、报文载荷时序特征向量和报文会话交互特征向量做特征融合拼接,相连接得到:
Figure 240112DEST_PATH_IMAGE103
其中,
Figure 343197DEST_PATH_IMAGE104
表示报文会话多模融合特征向量;
S32,经过第二个全连接层及其softmax激活函数计算:
Figure 174887DEST_PATH_IMAGE105
其中,
Figure 804452DEST_PATH_IMAGE106
表示第二个全连接层的权值矩阵,
Figure 633867DEST_PATH_IMAGE107
表示偏置,
Figure 20986DEST_PATH_IMAGE108
表示需要分类的类别 数的长度,
Figure 469416DEST_PATH_IMAGE108
是一维向量;
S33,最后计算输出移动应用私有加密协议报文类型解析结果
Figure 891170DEST_PATH_IMAGE109
Figure 891487DEST_PATH_IMAGE110
其中,
Figure 93799DEST_PATH_IMAGE111
表示所属类别对应的序号。
一种移动应用加密协议报文类型解析***,基于所述的一种移动应用加密协议报文类型解析方法,包括以下模块:
报文数据预处理模块:用以对采集的移动应用网络流量原始数据进行预处理,抽取原始数据中报文载荷的结构特征数据、时序特征数据、交互特征数据;
报文结构特征学习模块:用以利用结构特征数据构建基于动态池化卷积神经网络的移动应用私有加密协议报文结构特征学习模型,学习得到报文载荷结构特征向量;
报文时序特征学习模块:用以利用时序特征数据构建基于长短时记忆网络的移动应用私有加密协议报文时序特征学习模型,学习得到报文载荷时序特征向量;
报文交互特征学习模块:用以利用交互特征数据构建基于图卷积神经网络的移动应用私有加密协议报文交互特征学习模型,学习得到报文会话交互特征向量;
报文类型解析模块:用以对报文载荷结构特征向量、时序特征向量、交互特征向量进行融合拼接,使用最大熵分类器输出移动应用私有加密协议报文类型的解析结果;
其中,报文结构特征学习模块、报文时序特征学习模块、报文类型解析模块的输入端分别与报文数据预处理模块的输出端电相连,报文结构特征学习模块、报文时序特征学习模块、报文类型解析模块的输出端分别与报文类型解析模块的输入端电相连。
本发明相比于现有技术,具有以下有益效果:
(1)本发明能够精确地识别出多种网络移动应用私有加密协议报文类型,提高网络空间安全的监管效率和力度;
(2)本发明基于网络流量数据中传输层之上的载荷数据进行学习与分类,不依赖于网络流量数据包头部的IP地址、端口号信息,分类模型的泛化能力强;
(3)本发明在复杂的网络环境中进行数据集采样测试,检测结果更加符合真实网络环境下的需求。
附图说明
图1为本发明所述的一种移动应用加密协议报文类型解析方法的步骤示意图;
图2为本发明所述的一种移动应用加密协议报文类型解析***的结构示意图;
图3为本发明提供的多模特征融合学习的移动应用加密协议报文类型解析框架示意图;
图4为数据包序列到图的移动应用私有加密协议报文会话特征转化过程图;
图5为移动应用会话数据序列到图转换结果示例图之一;
图6为移动应用会话数据序列到图转换结果示例图之二;
图7为移动应用会话数据序列到图转换结果示例图之三;
图8为移动应用会话数据序列到图转换结果示例图之四;
图9为移动应用会话数据序列到图转换结果示例图之五;
图10为移动应用会话数据序列到图转换结果示例图之六;
图11为移动应用会话数据序列到图转换结果示例图之七;
图12为移动应用会话数据序列到图转换结果示例图之八;
图13为其他分类算法以及本发明对17种移动应用加密协议报文类型解析的准确率对比示意图;
图14为其他分类算法以及本发明对17种移动应用加密协议报文类型解析的查准率对比示意图;
图15为其他分类算法以及本发明对17种移动应用加密协议报文类型解析的查全率对比示意图;
图16为其他分类算法以及本发明对17种移动应用加密协议报文类型解析的F1值对比示意图。
具体实施方式
下面结合实施例及附图,对本发明作进一步的详细说明,但本发明的实施方式不限于此。
实施例1
如图1至图16所示,本发明提供多模特征融合学习的移动应用加密协议报文类型解析方法,即一种移动应用加密协议报文类型解析方法,包括如下步骤:
(1)对采集的移动应用网络流量原始数据进行预处理,抽取移动应用加密协议报文的载荷结构特征数据、载荷时序特征数据、会话交互特征数据。
(2)构建基于自编码器和动态池化卷积神经网络的移动应用私有加密协议报文结构特征学习模型,学习得到报文载荷结构特征向量;
(3)构建基于长短时记忆网络的移动应用私有加密协议报文时序特征学习模型,学习得到报文载荷时序特征向量;
(4)构建基于图卷积神经网络的移动应用私有加密协议报文交互特征学习模型,学习得到报文会话交互特征向量。
(5)对移动应用私有加密协议报文的载荷结构特征向量、载荷时序特征向量、会话交互特征向量进行融合拼接,使用最大熵分类器输出移动应用私有加密协议报文类型的解析结果。
本发明更具体的描述,如下:
进一步地,步骤(1)具体包括如下子步骤:
(1.1)对原始网络数据包进行报文载荷数据预处理,设置预处理截取的数据包长度大小,将连续的网络流量以会话流切分,分离会话流中每个数据包传输层以上的网络报文载荷数据;
(1.2)区分报文载荷数据的上、下行方向,按照上、下行方向时,将数据包按方向进行区分,定义会话中第一个数据包的方向为上行,将与第一个数据包具有相同起始地址和目的地址以及端口号的报文载荷数据作为上行报文载荷数据,其余作为下行报文载荷数据。
(1.3)分别计算上行方向和下行方向的载荷数据大小,以十六进制形式构造载荷数据序列。格式为:
上行报文载荷数据表示为:00+hex(上行载荷数据大小);
下行报文载荷数据表示为:FF+hex(下行载荷数据大小)。
(1.4)按照先上行数据、后下行数据的组织方式,将上行和下行报文载荷数据拼接得到报文载荷结构特征数据。
(1.5)按照数据包时间先后顺序的组织方式,排列得到报文载荷时序特征数据。
(1.6)构造基于序列到图的特征表达模型,将会话流中的数据包序列转化为无向图。对会话流中的每一个数据包,提取其包方向、负载数据的信息熵和负载长度,将其包方向、负载数据的信息熵和负载长度作为图节点特征嵌入,得到报文载荷交互特征数据。
基于序列到图的特征表达模型的构造是将会话中的数据包序列转化为图结构,利用图神经网络对转化后的数据进行特征表达。转化过程如图4所示。首先需要区分数据包的传输方向。为此,定义会话中第一个发送数据包的为C,另一个为S,C向S发送的数据包为正方向用0表示,S向C发送的数据包为负方向用1表示。这样会话双方数据包传输过程便可以用一个元素值均为0或1的数组A表示,数组中元素的顺序为会话过程中数据包的顺序。将这个表示数据包方向的一维数组A转化为一个无向图的邻接矩阵M。将这些数据包按时间顺序相连接,形成一序列,然后再将这些序列首尾互相连接,就可以构成一个图结构。
利用图这种数据结构,可以将数据包传输过程的一维序列表示为二维的网状形式。几种移动应用的加密协议报文会话交互特征的图结构如图5至图12所示。
在图节点中嵌入从每个数据包中提取的特征,对加密网络流量特征进行表达。计算传输层载荷的长度和标准信息熵,标准信息熵的计算公式为:
Figure 267291DEST_PATH_IMAGE112
然后将传输层载荷的长度和标准信息熵进行图节点特征嵌入和关联。将数据包方向、载荷长度、标准信息熵三个值组成一个数组。对于每个会话进行序列到图的特征表达后可以生成一个3*N的矩阵和一个标签。
进一步地,步骤(2)具体包括如下子步骤:
(2.1)将报文载荷结构特征数据输入带有稀疏性约束条件和噪声鲁棒性约束条件的自编码器进行抗噪降维处理,以提高在背景流量的网络环境下的移动应用加密协议报文类型解析的抗干扰能力。该步骤的实施不仅可以减少后续动态池化卷积神经网络每轮的训练时间,也可以对特征进行更加准确地提取,最终增加移动应用加密协议报文类型解析的准确率。
在自编码器的隐藏层中设置稀疏性约束条件,设自编码器的输入为,在输入时考虑背景流量的噪声,输入噪声的期望为,稀疏约束为,稀疏性约束的权重为,自编码器中的隐含层数为,隐含层单元号为,隐含层神经元个数为,隐含层响应为,自编码器的稀疏性约束代价函数为:
Figure 481235DEST_PATH_IMAGE113
Figure 714770DEST_PATH_IMAGE114
Figure 388066DEST_PATH_IMAGE115
在自编码器中设置噪声鲁棒性约束条件对连接权重矩阵进行约束,以强化较大的权值,而弱化代表网络背景流量噪声的小权值的扰动。自编码器的噪声鲁棒性约束条件的代价函数为:
Figure 568511DEST_PATH_IMAGE116
将报文载荷结构特征数据输入具有稀疏性约束条件和噪声鲁棒性约束条件的自编码器进行无监督学习,生成降维抗噪处理后的特征向量。
(2.2)将降维抗噪处理后的特征向量输入构造的动态池化卷积神经网络中进行学习。构造基于动态池化卷积神经网络的移动应用私有加密协议报文结构特征学习模型,模型由三层一维卷积堆叠而成。填充方式采用same方式,每层卷积伴随着批量归一化。
对于每一层卷积操作,设卷积操作的通道数c,则经过一维卷积后的隐藏层输出为:
Figure 964858DEST_PATH_IMAGE117
卷积核运算后,对每个输入数据会得到多个特征序列,设最后一层卷积输出的特征为:
Figure 431611DEST_PATH_IMAGE118
在卷积操作后,加入DropOut来防止过拟合。
(2.3)对于最后一层卷积输出的特征向量,采用k-max_pooling作为非线性下采样函数,利用非线性函数动态池化操作来对特征进行提取,动态池化操作为:
Figure 15039DEST_PATH_IMAGE119
在经过池化操作以后,得到报文载荷结构特征向量。
进一步地,步骤(3)具体包括如下子步骤:
(3.1)构造基于长短时记忆网络的移动应用私有加密协议报文载荷时序特征学习模型,模型包含64个记忆单元,对报文载荷时序特征数据进行学习。
移动应用私有加密协议报文载荷时序特征学习模型采用门控机制进行学习:
Figure 733596DEST_PATH_IMAGE120
通过激活函数可以将门控值压缩到[0,1]区间之间。
在学习模型中加入DropOut来防止过拟合,阈值为0.5。
(3.2)模型输出为:
Figure 63078DEST_PATH_IMAGE121
由单元状态向量经过激活函数后与输出门作用,得到输出为报文载荷时序特征向量。
进一步地,步骤(4)具体包括如下子步骤:
(4.1)构造基于图卷积神经网络的移动应用私有加密协议报文会话交互特征学习模型。模型结构中包括两次图卷积操作,设置两次图卷积的通道数,激活函数选择函数。
将报文载荷交互特征数据输入图卷积神经网络模型,经过序列到图方法转化后的 图为
Figure 638415DEST_PATH_IMAGE122
;其中,图的网络数据包个数为
Figure 646823DEST_PATH_IMAGE123
,每个节点包含的数据包特征数量为
Figure 965809DEST_PATH_IMAGE124
,特 征矩阵为
Figure 133485DEST_PATH_IMAGE125
,邻接矩阵为
Figure 879724DEST_PATH_IMAGE126
(4.2)使用构造的学习模型进行图卷积操作。在模型中,对于每一层图卷积操作有:
Figure 906586DEST_PATH_IMAGE127
(4.3)在经过两层图卷积操作之后,得到一个
Figure 78197DEST_PATH_IMAGE093
的特征矩阵,使用Flatten操 作将该矩阵拉伸为一维特征向量
Figure 303642DEST_PATH_IMAGE094
,得到:
Figure 158466DEST_PATH_IMAGE128
(4.4)使用一个全连接层对进行压缩,降低维度,学习得到报文载荷会话特征向量:
使用一层全连接层对进行压缩,降低维度,学习得到报文载荷会话特征向量:
Figure 203782DEST_PATH_IMAGE129
进一步地,步骤(5)具体包括如下子步骤:
(5.1)对三个模型进行集成学习与组合训练,设置模型组合训练时的超参数。
对得到的报文载荷结构特征向量、报文载荷时序特征向量和报文会话交互特征向量做特征融合拼接,相连接得到。
(5.2)经过第二个全连接层及其softmax激活函数计算:
(5.1)对报文结构特征学习模型、报文时序特征学习模型、报文交互特征学习模型进行集成学习与组合训练,设置模型组合训练时的超参数;对得到的报文载荷结构特征向量、报文载荷时序特征向量和报文会话交互特征向量做特征融合拼接,相连接得到:
Figure 192467DEST_PATH_IMAGE130
(5.2)经过第二个全连接层及其softmax激活函数计算:
Figure 210102DEST_PATH_IMAGE131
(5.3)最后计算输出移动应用私有加密协议报文类型解析结果
Figure 298143DEST_PATH_IMAGE132
Figure 643805DEST_PATH_IMAGE133
本发明设计的方法对不同模态的移动应用加密报文协议特征从多个维度进行抽取和学习,融合学习移动应用私有加密协议报文的载荷结构特征、载荷时序特征和会话交互特征,构建移动应用加密协议报文类型解析模型,具有较强的泛化能力,在不同环境的加密网络流量数据集上取得了很好的分类效果。
实施例2
如图1至图16所示,作为实施例1的进一步优化,在实施例1的基础上,本实施例还包括以下技术特征:
本实施例提出了一种移动应用加密协议报文类型解析方法,模型框架如图3所示,首先对采集的移动应用网络流量原始数据进行预处理,抽取报文载荷的结构特征数据、时序特征数据、交互特征数据。然后构建基于动态池化卷积神经网络的移动应用私有加密协议报文结构特征学习模型,学习得到报文载荷结构特征向量;构建基于长短时记忆网络的移动应用私有加密协议报文时序特征学习模型,学习得到报文载荷时序特征向量;构建基于图卷积神经网络的移动应用私有加密协议报文交互特征学习模型,学习得到报文会话交互特征向量。其次,对报文载荷结构特征向量、时序特征向量、会话交互特征向量进行融合拼接,使用最大熵分类器输出移动应用私有加密协议报文类型的解析结果。
具体地说,本实施例的多模特征融合学习的移动应用加密协议报文类型解析方法还包括以下技术特征:
(1)对采集的移动应用网络流量原始数据进行预处理,抽取报文载荷的结构特征数据、时序特征数据、交互特征数据。
本步骤的(1.1)中:在移动应用加密协议报文类型解析模型和分类器的设计过程中时,需要考虑分类器的有效输入问题,以提高分类识别的效率。不论是采用公开的网络流量数据集,还是研究人员自己采集的网络业务数据流量,原始流量格式均为pcap格式,并不能直接用于移动应用加密协议报文类型解析模型输入,需要对数据进行预处理。
选取影音娱乐、新闻资讯、生活购物、即时通讯和工具类等五大类不同用途的网络移动应用,包含17种不同的移动应用工具。将这些移动应用使用的私有加密协议报文类型作为标签数据,并在公网环境和校园网环境中运行以采集相应网络流量数据。得到的数据集如表1所示。
表1 采集得到的移动应用网络流量数据集
Figure 108284DEST_PATH_IMAGE134
在图节点中嵌入从每个数据包中提取的特征,对加密网络流量特征进行表达。计算传输层载荷的长度和标准信息熵,标准信息熵的计算公式为:
Figure 246005DEST_PATH_IMAGE135
通常
Figure 567265DEST_PATH_IMAGE008
为特定长度的比特串或字符串。
然后将传输层载荷的长度和标准信息熵进行图节点特征嵌入和关联。将数据包方向、载荷长度、标准信息熵三个值组成一个数组。对于每个会话进行序列到图的特征表达后可以生成一个3*N的矩阵和一个标签。
(2)构建基于动态池化卷积神经网络的移动应用私有加密协议报文结构特征学习模型,学习得到报文载荷结构特征向量
本步骤的具体过程如下:
(2.1)将报文载荷结构特征数据输入带有稀疏性约束条件和噪声鲁棒性约束条件的自编码器进行抗噪降维处理,以提高在背景流量的网络环境下的移动应用加密协议报文类型解析的抗干扰能力。该步骤的实施不仅可以减少后续动态池化卷积神经网络每轮的训练时间,也可以对特征进行更加准确地提取,最终增加移动应用加密协议报文类型解析的准确率。
在自编码器的隐藏层中设置稀疏性约束条件;
在自编码器中设置噪声鲁棒性约束条件对连接权重矩阵进行约束,以强化较大的权值,而弱化代表网络背景流量噪声的小权值的扰动。
将报文载荷结构特征数据输入具有稀疏性约束条件和噪声鲁棒性约束条件的自编码器进行无监督学习,生成降维抗噪处理后的特征向量。
(2.2)将降维抗噪处理后的特征向量输入构造的动态池化卷积神经网络中进行学习。构造基于动态池化卷积神经网络的移动应用私有加密协议报文结构特征学习模型,模型由三层一维卷积堆叠而成。填充方式采用same方式,每层卷积伴随着批量归一化。报文载荷结构特征学习模型的单元结构列表如表2所示。
表2 报文载荷结构特征学习模型的单元结构列表
Figure 587173DEST_PATH_IMAGE136
对于每一层卷积操作,则经过一维卷积后的隐藏层输出为:
Figure 793027DEST_PATH_IMAGE137
卷积核运算后,对每个输入数据会得到多个特征序列,设最后一层卷积输出的特征为:
Figure 581991DEST_PATH_IMAGE138
在卷积操作后,加入DropOut来防止过拟合,阈值为0.2。
(2.3)对于最后一层卷积输出的特征向量,采用k-max pooling作为非线性下采样函数,利用非线性函数动态池化操作来对特征进行提取,动态池化操作为:
Figure 588999DEST_PATH_IMAGE139
在经过池化操作以后,得到报文载荷结构特征向量。
(3)构建基于长短时记忆网络的移动应用私有加密协议报文时序特征学习模型,学习得到报文载荷时序特征向量。
本步骤的具体过程如下:
(3.1)构造基于长短时记忆网络的移动应用私有加密协议报文载荷时序特征学习模型,模型包含64个记忆单元,对输入的流量特征进行学习。报文载荷时序特征学习模型的单元结构列表如表3所示。
表3 报文载荷时序特征学习模型的单元结构列表
Figure 33887DEST_PATH_IMAGE140
移动应用私有加密协议报文载荷时序特征学习模型采用门控机制进行学习:
Figure 840169DEST_PATH_IMAGE141
通过激活函数可以将门控值压缩到[0,1]区间之间。
在学习模型中加入DropOut来防止过拟合,阈值为0.5。
(3.2)模型输出为:
Figure 545957DEST_PATH_IMAGE142
由单元状态向量经过激活函数后与输出门作用,得到输出为报文载荷时序特征向量。
(4)构建基于图卷积神经网络的移动应用私有加密协议报文交互特征学习模型,学习得到报文会话交互特征向量。
本步骤的具体过程如下:
(4.1)构造基于图卷积神经网络的移动应用私有加密协议报文会话交互特征学习模型,模型的单元结构设置如表4所示。
表4 报文会话交互特征学习模型的单元结构列表
Figure 615544DEST_PATH_IMAGE143
将报文载荷交互特征数据输入图卷积神经网络模型,经过序列到图方法转化后的 图为
Figure 344466DEST_PATH_IMAGE144
;其中,图的网络数据包个数为
Figure 767488DEST_PATH_IMAGE145
,每个节点包含的数据包特征数量为
Figure 265465DEST_PATH_IMAGE146
,特征 矩阵为
Figure 240374DEST_PATH_IMAGE147
,邻接矩阵为
Figure 784488DEST_PATH_IMAGE148
(4.2)使用构造的学习模型进行图卷积操作。在模型中,对于每一层图卷积操作有:
Figure 932573DEST_PATH_IMAGE149
(4.3)在经过两层图卷积操作之后,得到一个
Figure 488319DEST_PATH_IMAGE150
的特征矩阵,使用Flatten操作 将该矩阵拉伸为一维特征向量
Figure 696447DEST_PATH_IMAGE151
,得到:
Figure 980054DEST_PATH_IMAGE152
(4.4)使用一层全连接层对进行压缩,降低维度,学习得到报文载荷会话特征向量:
Figure 869512DEST_PATH_IMAGE153
(5)对移动应用私有加密协议报文的载荷结构特征向量、时序特征向量、会话交互特征向量进行融合拼接,使用最大熵分类器输出移动应用私有加密协议报文类型的解析结果。
本步骤的具体过程如下:
(5.1)对三个模型进行集成学习与组合训练,模型组合训练时的超参数设置如表5所示。
表5 三个模型组合训练时的参数设置
Figure 342082DEST_PATH_IMAGE154
对得到的特征向量做特征融合拼接,特征融合拼接的单元结构列表如表6所示。
表6 特征融合拼接的单元结构列表
Figure 783428DEST_PATH_IMAGE155
相连接得到
Figure 974238DEST_PATH_IMAGE156
(5.2) 经过第二个全连接层及其softmax激活函数计算:
Figure 667387DEST_PATH_IMAGE157
(5.3)最后计算输出移动应用私有加密协议报文类型解析结果,即
Figure 338671DEST_PATH_IMAGE158
为所属类别对 应的序号:
Figure 560705DEST_PATH_IMAGE159
其中,
Figure 566707DEST_PATH_IMAGE160
表示所属类别对应的序号。
本实施例的实验是在采集的17中网络移动应用的数据集上进行,实验结果如表7所示,展示了本实施例的方法对每种应用流量加密协议报文类型的解析结果。从表中数据可以看到:对于查准率指标有四类应用超过了99%,分别为京东、美团、爱奇艺和拼多多;对于查全率指标,有4类应用超过了98%,分别为Microsoft-Launcher、搜狗输入法、微信和美团;对于F1值指标,超过98%的有5类应用,分别是搜狗输入法、Microsoft-Launcher、京东、美团和微信。查准率、查全率、和F1值的加权平均值分别为97.29%,97.26%和97.27%,模型在该数据集上的整体准确率达到了97.26%。
表7 本发明方法在17中网络移动应用的数据集上的类型解析结果
Figure 63547DEST_PATH_IMAGE161
本实施例对比实验选用与2D-CNN、LSTM、GCN、CNN+LSTM模型进行对比,以验证多模特征融合学习的移动应用加密协议报文类型解析方法的有效性。最终的总体对比实验结果如图13至图16所示。
需要说明的是,对于本实施例,为了简便描述,故将其表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
本发明能够精确地识别出多种网络移动应用私有加密协议报文类型,提高网络空间安全的监管效率和力度;
本发明基于网络流量数据中传输层之上的载荷数据进行学习与分类,不依赖于网络流量数据包头部的IP地址、端口号信息,分类模型的泛化能力强;
本发明在复杂的网络环境中进行数据集采样测试,检测结果更加符合真实网络环境下的需求。
值得说明的是是,本发明中,“S2A,报文结构特征学习”、“S2B,报文时序特征学习”、“S2C,报文交互特征学习”三者的执行顺序可以采用多种形式,甚至可以同时进行,因此,本发明所阐述的实施例的步骤先后顺序,不应该被视为不对本发明三者的执行顺序的限制。
如上所述,可较好地实现本发明。
本说明书中所有实施例公开的所有特征,或隐含公开的所有方法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以以任何方式组合和/或扩展、替换。
以上所述,仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制,依据本发明的技术实质,在本发明的精神和原则之内,对以上实施例所作的任何简单的修改、等同替换与改进等,均仍属于本发明技术方案的保护范围之内。

Claims (10)

1.一种移动应用加密协议报文类型解析方法,其特征在于,抽取并学习移动应用加密协议报文的不同模态特征,利用不同模态特征相互融合实现对加密协议报文类型解析。
2.根据权利要求1所述的一种移动应用加密协议报文类型解析方法,其特征在于,包括以下步骤:
S1,报文数据预处理:对采集的移动应用网络流量原始数据进行预处理,抽取原始数据中报文载荷的结构特征数据、时序特征数据、交互特征数据;
S2,特征学习,具体包括以下步骤:
S2A,报文结构特征学习:利用结构特征数据构建基于动态池化卷积神经网络的移动应用私有加密协议报文结构特征学习模型,学习得到报文载荷结构特征向量;
S2B,报文时序特征学习:利用时序特征数据构建基于长短时记忆网络的移动应用私有加密协议报文时序特征学习模型,学习得到报文载荷时序特征向量;
S2C,报文交互特征学习:利用交互特征数据构建基于图卷积神经网络的移动应用私有加密协议报文交互特征学习模型,学习得到报文会话交互特征向量;
S3,报文类型解析:对报文载荷结构特征向量、时序特征向量、交互特征向量进行融合拼接,使用最大熵分类器输出移动应用私有加密协议报文类型的解析结果。
3.根据权利要求2所述的一种移动应用加密协议报文类型解析方法,其特征在于,步骤S1包括以下步骤:
S11,设置预处理截取的原始网络数据包长度大小,将连续的网络流量以会话流切分,分离会话流中每个数据包传输层以上的网络报文载荷数据;
S12,区分报文载荷数据的上、下行方向:按数据流向定义会话中数据包中报文载荷数据的上行方向和下行方向,将与第一个数据包具有相同起始地址、目的地址以及端口号的报文载荷数据作为上行报文载荷数据,其余作为下行报文载荷数据;
S13,分别计算上行方向和下行方向的载荷数据大小,以十六进制形式构造载荷数据序列;
S14,按照上行数据在前、下行数据在后的拼接方式,将上行报文载荷数据和下行报文载荷数据拼接得到报文载荷结构特征数据;
S15,按照数据包时间先后顺序的组织方式,排列得到报文载荷时序特征数据;
S16,构造基于序列到图的特征表达模型,将会话流中的数据包序列转化为无向图;对会话流中的每一个数据包,提取数据包的包方向、负载数据的标准信息熵和负载长度,将数据包的包方向、负载数据的标准信息熵和负载长度作为图节点特征嵌入,得到报文载荷交互特征数据。
4.根据权利要求3所述的一种移动应用加密协议报文类型解析方法,其特征在于,步骤S16中,标准信息熵的计算公式为:
Figure 891448DEST_PATH_IMAGE001
其中,
Figure 879607DEST_PATH_IMAGE002
表示标准信息熵,
Figure 284043DEST_PATH_IMAGE003
表示任意分布
Figure 805154DEST_PATH_IMAGE004
下的离散随机变量
Figure 586029DEST_PATH_IMAGE005
Figure 899198DEST_PATH_IMAGE006
表示
Figure 474536DEST_PATH_IMAGE003
中包含的离散变量的个数,
Figure 482943DEST_PATH_IMAGE007
表示数据包中的字 节的序号,
Figure 801929DEST_PATH_IMAGE008
表示数据包中的字节,
Figure 720338DEST_PATH_IMAGE009
表示字节
Figure 669839DEST_PATH_IMAGE008
Figure 493439DEST_PATH_IMAGE003
中出现的概率。
5.根据权利要求2至4任一项所述的一种移动应用加密协议报文类型解析方法,其特征在于,步骤S2A包括以下步骤:
S2A1,将报文载荷结构特征数据输入带有稀疏性约束条件和噪声鲁棒性约束条件的自编码器进行抗噪降维处理,生成降维抗噪处理后的特征向量;
S2A2,构建基于动态池化卷积神经网络的移动应用私有加密协议报文结构特征学习模型;将降维抗噪处理后的特征向量输入构造的报文结构特征学习模型中进行学习,得到卷积核运算后的特征序列;
报文结构特征学习模型的构建过程如下:
构造基于动态池化卷积神经网络的移动应用私有加密协议报文结构特征学习模型,报文结构特征学习模型由三层一维卷积堆叠而成;填充方式采用same方式,每层卷积伴随着批量归一化;对于每一层卷积操作,则经过一维卷积后的隐藏层输出为:
Figure 412853DEST_PATH_IMAGE010
其中,
Figure 638298DEST_PATH_IMAGE007
表示一维卷积核的权重矩阵的行标号,
Figure 493122DEST_PATH_IMAGE011
表示一维卷积核的权重矩阵的列标号,
Figure 115602DEST_PATH_IMAGE012
表示一维卷积核的权重矩阵中第
Figure 776390DEST_PATH_IMAGE007
行第
Figure 794025DEST_PATH_IMAGE011
列的权重值,
Figure 882067DEST_PATH_IMAGE013
表示卷积核的形状,
Figure 476996DEST_PATH_IMAGE014
表示输入的数据的第
Figure 144738DEST_PATH_IMAGE007
行第
Figure 79196DEST_PATH_IMAGE015
列的值,
Figure 151188DEST_PATH_IMAGE016
表示数据的总行数,
Figure 171097DEST_PATH_IMAGE017
表示输入的总列数,
Figure 376950DEST_PATH_IMAGE018
表示输入的形状,
Figure 493811DEST_PATH_IMAGE019
表示输出的第
Figure 923655DEST_PATH_IMAGE020
个位置的值;
卷积核运算后,对每个输入数据会得到多个特征序列,设最后一层卷积输出的特征向量为:
Figure 368543DEST_PATH_IMAGE021
其中,
Figure 174825DEST_PATH_IMAGE022
表示特征向量
Figure 132810DEST_PATH_IMAGE023
中的各个元素;
S2A3,对于最后一层卷积输出的特征向量,采用k-max pooling作为非线性下采样函数,利用非线性函数动态池化操作来对特征向量进行提取,得到报文载荷结构特征向量;
动态池化操作为:
Figure 202397DEST_PATH_IMAGE024
其中,
Figure 931319DEST_PATH_IMAGE025
表示报文结构特征,
Figure 603608DEST_PATH_IMAGE026
表示所有卷积层的个数,
Figure 101586DEST_PATH_IMAGE027
表示当前卷积层的层数编号,
Figure 76495DEST_PATH_IMAGE028
表 示输入序列长度,
Figure 371341DEST_PATH_IMAGE029
表示固定的池化层参数。
6.根据权利要求5所述的一种移动应用加密协议报文类型解析方法,其特征在于,步骤S2A1中,稀疏性约束条件的代价函数为:
Figure 519426DEST_PATH_IMAGE030
Figure 75172DEST_PATH_IMAGE031
Figure 283300DEST_PATH_IMAGE032
其中,
Figure 49130DEST_PATH_IMAGE033
表示稀疏性约束条件的代价函数,
Figure 204168DEST_PATH_IMAGE034
表示自编码器的输入,
Figure 676738DEST_PATH_IMAGE035
表示 稀疏性约束,
Figure 367351DEST_PATH_IMAGE036
表示稀疏性约束的权重,
Figure 558161DEST_PATH_IMAGE037
表示总共的噪声的期望,
Figure 251310DEST_PATH_IMAGE038
表示 自编码器中的隐含层数,
Figure 906283DEST_PATH_IMAGE039
,
Figure 190633DEST_PATH_IMAGE040
表示均值为0且方差为1的高斯噪声,
Figure 806423DEST_PATH_IMAGE041
表示神经 网络的第
Figure 100001DEST_PATH_IMAGE038
层输入,
Figure 625791DEST_PATH_IMAGE042
表示隐含层单元号,
Figure 284305DEST_PATH_IMAGE043
表示隐含层神经元个数,
Figure 184128DEST_PATH_IMAGE044
表示隐含层响应;
噪声鲁棒性约束条件的代价函数为:
Figure 78135DEST_PATH_IMAGE045
其中,
Figure 645383DEST_PATH_IMAGE046
表示噪声鲁棒性约束条件的代价函数,
Figure 474798DEST_PATH_IMAGE047
表示目标输出,
Figure 442011DEST_PATH_IMAGE048
表示自编码器 学习网络输出,
Figure 77391DEST_PATH_IMAGE049
表示激活因子,
Figure 436829DEST_PATH_IMAGE050
Figure 499462DEST_PATH_IMAGE051
表示两个输入数据的编号,
Figure 701774DEST_PATH_IMAGE052
表示从输入数据
Figure 812949DEST_PATH_IMAGE053
到输入数据
Figure 89210DEST_PATH_IMAGE054
的连接权值。
7.根据权利要求6所述的一种移动应用加密协议报文类型解析方法,其特征在于,步骤S2B包括以下步骤:
S2B1,构建基于长短时记忆网络的移动应用私有加密协议报文载荷时序特征学习模型,报文载荷时序特征学习模型包含JI个记忆单元,JI为整数且32≤JI≤256,利用构建的报文载荷时序特征学习模型对报文载荷时序特征数据进行学习,学习公式为:
Figure 604636DEST_PATH_IMAGE055
其中,
Figure 966347DEST_PATH_IMAGE056
表示门控单元函数,
Figure 271426DEST_PATH_IMAGE057
Figure 339877DEST_PATH_IMAGE058
Figure 744313DEST_PATH_IMAGE059
分别表示遗忘门、输入门或输出 门,
Figure 904905DEST_PATH_IMAGE060
表示激活函数,
Figure 889041DEST_PATH_IMAGE061
对应于遗忘门、输入门或输出门的参数,
Figure 874315DEST_PATH_IMAGE062
表示时刻
Figure 511970DEST_PATH_IMAGE063
的输 入,
Figure 848273DEST_PATH_IMAGE064
表示时刻
Figure 104942DEST_PATH_IMAGE065
的输出,
Figure 210301DEST_PATH_IMAGE066
表示遗忘门、输入门或输出门的偏置值;
S2B2,得到输出为报文载荷时序特征向量,输出公式为:
Figure 35169DEST_PATH_IMAGE067
其中,
Figure 796452DEST_PATH_IMAGE068
表示报文载荷时序特征向量,
Figure 653549DEST_PATH_IMAGE069
表示激活函数,
Figure 675732DEST_PATH_IMAGE070
表示单元状态向量,
Figure 858451DEST_PATH_IMAGE071
表示tanh激活函数,
Figure 841451DEST_PATH_IMAGE072
表示输出门的参数,
Figure 82333DEST_PATH_IMAGE073
表示偏置。
8.根据权利要求7所述的一种移动应用加密协议报文类型解析方法,其特征在于,步骤S2C包括以下步骤:
S2C1,构建基于图卷积神经网络的移动应用私有加密协议报文会话交互特征学习模型,会话交互特征学习模型包括两个依次连接的图卷积层,进行图卷积操作时设置两次图卷积的通道数,激活函数选择ReLU函数;
将报文载荷交互特征数据输入图卷积神经网络模型,经过序列到图方法转化后的图为
Figure 162284DEST_PATH_IMAGE074
;其中,图的网络数据包个数为
Figure 188009DEST_PATH_IMAGE075
,每个节点包含的数据包特征数量为
Figure 720622DEST_PATH_IMAGE076
,特 征矩阵为
Figure 512997DEST_PATH_IMAGE077
,邻接矩阵为
Figure 385138DEST_PATH_IMAGE078
S2C2,使用步骤S2C1构造的学习模型进行图卷积操作,对于每一层图卷积操作有:
Figure 644081DEST_PATH_IMAGE079
其中,
Figure 477039DEST_PATH_IMAGE080
Figure 479630DEST_PATH_IMAGE081
表示单位矩阵,
Figure 471857DEST_PATH_IMAGE082
表示
Figure 229597DEST_PATH_IMAGE083
对应的度矩阵,
Figure 736802DEST_PATH_IMAGE007
表示网络层数,
Figure 215188DEST_PATH_IMAGE084
表示第
Figure 124238DEST_PATH_IMAGE085
层的权值,权值的维度为
Figure 302148DEST_PATH_IMAGE086
Figure 234331DEST_PATH_IMAGE087
表示经过第
Figure 578725DEST_PATH_IMAGE007
层卷积后图节点数据的维度,
Figure 404599DEST_PATH_IMAGE088
表示 第
Figure 441825DEST_PATH_IMAGE007
层的偏置,
Figure 861305DEST_PATH_IMAGE089
表示第
Figure 822439DEST_PATH_IMAGE090
层的输入,第一层的输入为
Figure 440502DEST_PATH_IMAGE091
Figure 586312DEST_PATH_IMAGE092
表示非线性激活函数 ReLU函数;
S2C3,在经过两层图卷积操作之后,得到一个
Figure 289826DEST_PATH_IMAGE093
的特征矩阵,使用Flatten操作将 该矩阵拉伸为一维特征向量
Figure 38339DEST_PATH_IMAGE094
,得到:
Figure 979751DEST_PATH_IMAGE095
其中,
Figure 358779DEST_PATH_IMAGE096
表示报文会话交互特征向量,
Figure 852385DEST_PATH_IMAGE096
的维度为
Figure 342272DEST_PATH_IMAGE097
Figure 607031DEST_PATH_IMAGE098
表示报文会话交互特征向量中的各个元素;
S2C4,使用一层全连接层对进行压缩,降低维度,学习得到报文载荷会话特征向量:
Figure 484857DEST_PATH_IMAGE099
其中,
Figure 162963DEST_PATH_IMAGE100
表示报文载荷会话特征向量,
Figure 394224DEST_PATH_IMAGE101
表示全连接层的权值矩阵,
Figure 841386DEST_PATH_IMAGE102
表示偏置,
Figure 109688DEST_PATH_IMAGE069
表示激活函数,
Figure 478352DEST_PATH_IMAGE069
在全连接层使用ReLU函数。
9.根据权利要求8所述的一种移动应用加密协议报文类型解析方法,其特征在于,步骤S3包括以下步骤:
S31,对报文结构特征学习模型、报文时序特征学习模型、报文交互特征学习模型进行集成学习与组合训练,设置模型组合训练时的超参数;对得到的报文载荷结构特征向量、报文载荷时序特征向量和报文会话交互特征向量做特征融合拼接,相连接得到:
Figure 310042DEST_PATH_IMAGE103
其中,
Figure 939606DEST_PATH_IMAGE104
表示报文会话多模融合特征向量;
S32,经过第二个全连接层及其softmax激活函数计算:
Figure 565760DEST_PATH_IMAGE105
其中,
Figure 156141DEST_PATH_IMAGE106
表示第二个全连接层的权值矩阵,
Figure 368685DEST_PATH_IMAGE107
表示偏置,
Figure 524860DEST_PATH_IMAGE108
表示需要分类的类别数的长 度,
Figure 525177DEST_PATH_IMAGE108
是一维向量;
S33,最后计算输出移动应用私有加密协议报文类型解析结果
Figure 399592DEST_PATH_IMAGE109
Figure 900981DEST_PATH_IMAGE110
其中,
Figure 380504DEST_PATH_IMAGE111
表示所属类别对应的序号。
10.一种移动应用加密协议报文类型解析***,其特征在于,基于权利要求1至9任一项所述的一种移动应用加密协议报文类型解析方法,包括以下模块:
报文数据预处理模块:用以对采集的移动应用网络流量原始数据进行预处理,抽取原始数据中报文载荷的结构特征数据、时序特征数据、交互特征数据;
报文结构特征学习模块:用以利用结构特征数据构建基于动态池化卷积神经网络的移动应用私有加密协议报文结构特征学习模型,学习得到报文载荷结构特征向量;
报文时序特征学习模块:用以利用时序特征数据构建基于长短时记忆网络的移动应用私有加密协议报文时序特征学习模型,学习得到报文载荷时序特征向量;
报文交互特征学习模块:用以利用交互特征数据构建基于图卷积神经网络的移动应用私有加密协议报文交互特征学习模型,学习得到报文会话交互特征向量;
报文类型解析模块:用以对报文载荷结构特征向量、时序特征向量、交互特征向量进行融合拼接,使用最大熵分类器输出移动应用私有加密协议报文类型的解析结果;
其中,报文结构特征学习模块、报文时序特征学习模块、报文类型解析模块的输入端分别与报文数据预处理模块的输出端电相连,报文结构特征学习模块、报文时序特征学习模块、报文类型解析模块的输出端分别与报文类型解析模块的输入端电相连。
CN202211171000.9A 2022-09-26 2022-09-26 一种移动应用加密协议报文类型解析方法及*** Active CN115277888B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211171000.9A CN115277888B (zh) 2022-09-26 2022-09-26 一种移动应用加密协议报文类型解析方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211171000.9A CN115277888B (zh) 2022-09-26 2022-09-26 一种移动应用加密协议报文类型解析方法及***

Publications (2)

Publication Number Publication Date
CN115277888A true CN115277888A (zh) 2022-11-01
CN115277888B CN115277888B (zh) 2023-01-31

Family

ID=83757417

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211171000.9A Active CN115277888B (zh) 2022-09-26 2022-09-26 一种移动应用加密协议报文类型解析方法及***

Country Status (1)

Country Link
CN (1) CN115277888B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115801897A (zh) * 2022-12-20 2023-03-14 南京工程学院 一种边缘代理的报文动态处理方法
CN115883263A (zh) * 2023-03-02 2023-03-31 中国电子科技集团公司第三十研究所 基于多尺度载荷语义挖掘的加密应用协议类型识别方法

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105430021A (zh) * 2015-12-31 2016-03-23 中国人民解放军国防科学技术大学 基于载荷相邻概率模型的加密流量识别方法
US20190273509A1 (en) * 2018-03-01 2019-09-05 Crowdstrike, Inc. Classification of source data by neural network processing
CN111147394A (zh) * 2019-12-16 2020-05-12 南京理工大学 一种远程桌面协议流量行为的多级分类检测方法
CN112003870A (zh) * 2020-08-28 2020-11-27 国家计算机网络与信息安全管理中心 一种基于深度学习的网络加密流量识别方法及装置
CN112511555A (zh) * 2020-12-15 2021-03-16 中国电子科技集团公司第三十研究所 基于稀疏表示和卷积神经网络的私有加密协议报文分类法
WO2021103135A1 (zh) * 2019-11-25 2021-06-03 中国科学院深圳先进技术研究院 一种基于深度神经网络的流量分类方法、***及电子设备
CN113179223A (zh) * 2021-04-23 2021-07-27 中山大学 一种基于深度学习和序列化特征的网络应用识别方法及***
WO2022041394A1 (zh) * 2020-08-28 2022-03-03 南京邮电大学 一种网络加密流量识别方法及装置
CN114358177A (zh) * 2021-12-31 2022-04-15 北京工业大学 一种基于多维度特征紧凑决策边界的未知网络流量分类方法及***
WO2022094926A1 (zh) * 2020-11-06 2022-05-12 中国科学院深圳先进技术研究院 一种加密流量识别方法、***、终端以及存储介质
CN114519390A (zh) * 2022-02-17 2022-05-20 北京邮电大学 一种基于多模态深度学习的quic流量分类方法

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105430021A (zh) * 2015-12-31 2016-03-23 中国人民解放军国防科学技术大学 基于载荷相邻概率模型的加密流量识别方法
US20190273509A1 (en) * 2018-03-01 2019-09-05 Crowdstrike, Inc. Classification of source data by neural network processing
WO2021103135A1 (zh) * 2019-11-25 2021-06-03 中国科学院深圳先进技术研究院 一种基于深度神经网络的流量分类方法、***及电子设备
CN111147394A (zh) * 2019-12-16 2020-05-12 南京理工大学 一种远程桌面协议流量行为的多级分类检测方法
CN112003870A (zh) * 2020-08-28 2020-11-27 国家计算机网络与信息安全管理中心 一种基于深度学习的网络加密流量识别方法及装置
WO2022041394A1 (zh) * 2020-08-28 2022-03-03 南京邮电大学 一种网络加密流量识别方法及装置
WO2022094926A1 (zh) * 2020-11-06 2022-05-12 中国科学院深圳先进技术研究院 一种加密流量识别方法、***、终端以及存储介质
CN112511555A (zh) * 2020-12-15 2021-03-16 中国电子科技集团公司第三十研究所 基于稀疏表示和卷积神经网络的私有加密协议报文分类法
CN113179223A (zh) * 2021-04-23 2021-07-27 中山大学 一种基于深度学习和序列化特征的网络应用识别方法及***
CN114358177A (zh) * 2021-12-31 2022-04-15 北京工业大学 一种基于多维度特征紧凑决策边界的未知网络流量分类方法及***
CN114519390A (zh) * 2022-02-17 2022-05-20 北京邮电大学 一种基于多模态深度学习的quic流量分类方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
ZIYI ZHAO ET AL.: ""CL-ETC: A Contrastive Learning Method for Encrypted Traffic Classification"", 《2022 IFIP NETWORKING CONFERENCE (IFIP NETWORKING)》 *
程永新等: ""一种加密流量行为分析***的设计研究"", 《通信技术》 *
童博等: ""复杂网络环境下加密流量识别方法研究"", 《邮电设计技术》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115801897A (zh) * 2022-12-20 2023-03-14 南京工程学院 一种边缘代理的报文动态处理方法
CN115801897B (zh) * 2022-12-20 2024-05-24 南京工程学院 一种边缘代理的报文动态处理方法
CN115883263A (zh) * 2023-03-02 2023-03-31 中国电子科技集团公司第三十研究所 基于多尺度载荷语义挖掘的加密应用协议类型识别方法
CN115883263B (zh) * 2023-03-02 2023-05-09 中国电子科技集团公司第三十研究所 基于多尺度载荷语义挖掘的加密应用协议类型识别方法

Also Published As

Publication number Publication date
CN115277888B (zh) 2023-01-31

Similar Documents

Publication Publication Date Title
CN110896381B (zh) 一种基于深度神经网络的流量分类方法、***及电子设备
CN115277888B (zh) 一种移动应用加密协议报文类型解析方法及***
WO2019144521A1 (zh) 信息物理交通***中基于深度学习的恶意攻击检测方法
CN110287983B (zh) 基于最大相关熵深度神经网络单分类器异常检测方法
CN112508085B (zh) 基于感知神经网络的社交网络链路预测方法
Wang et al. App-net: A hybrid neural network for encrypted mobile traffic classification
CN109446804B (zh) 一种基于多尺度特征连接卷积神经网络的入侵检测方法
CN111353153A (zh) 一种基于gep-cnn的电网恶意数据注入检测方法
Lai et al. Industrial anomaly detection and attack classification method based on convolutional neural network
CN113177132A (zh) 基于联合语义矩阵的深度跨模态哈希的图像检索方法
CN103177265B (zh) 基于核函数与稀疏编码的高清图像分类方法
CN114615093A (zh) 基于流量重构与继承学习的匿名网络流量识别方法及装置
Xue et al. Clustering-Induced Adaptive Structure Enhancing Network for Incomplete Multi-View Data.
CN113806746A (zh) 基于改进cnn网络的恶意代码检测方法
CN111397902A (zh) 一种基于特征对齐卷积神经网络的滚动轴承故障诊断方法
CN113541834B (zh) 一种异常信号半监督分类方法、***、数据处理终端
CN115037805B (zh) 一种基于深度聚类的未知网络协议识别方法、***、装置及存储介质
CN111641598A (zh) 一种基于宽度学习的入侵检测方法
CN114064471A (zh) 一种基于生成对抗网络的Ethernet/IP协议模糊测试方法
CN111130942B (zh) 一种基于消息大小分析的应用流量识别方法
CN116150747A (zh) 基于cnn和sltm的入侵检测方法及装置
CN116484299A (zh) 基于梯度提升树与多层感知机融合的充电桩故障诊断方法
CN114915575A (zh) 一种基于人工智能的网络流量检测装置
CN117633627A (zh) 一种基于证据不确定性评估的深度学习未知网络流量分类方法及***
CN113822061A (zh) 一种基于特征图构建的小样本专利分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant