CN116776248A - 一种基于虚拟对数的分布外检测方法 - Google Patents

一种基于虚拟对数的分布外检测方法 Download PDF

Info

Publication number
CN116776248A
CN116776248A CN202310746661.8A CN202310746661A CN116776248A CN 116776248 A CN116776248 A CN 116776248A CN 202310746661 A CN202310746661 A CN 202310746661A CN 116776248 A CN116776248 A CN 116776248A
Authority
CN
China
Prior art keywords
sample
distribution
virtual
logarithm
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310746661.8A
Other languages
English (en)
Inventor
胡智超
余翔湛
冯帅
刘立坤
史建焘
葛蒙蒙
孔德文
羿天阳
龚家兴
李竑杰
刘奉哲
王钲皓
郭一澄
张森
程明明
高展鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Institute of Technology
Original Assignee
Harbin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Institute of Technology filed Critical Harbin Institute of Technology
Priority to CN202310746661.8A priority Critical patent/CN116776248A/zh
Publication of CN116776248A publication Critical patent/CN116776248A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Image Analysis (AREA)

Abstract

本发明提出一种基于虚拟对数的分布外检测方法,属于分布外检测技术领域。包括:S1.对流量进行特征提取,作为样本特征;S2.将样本特征输入到分类模型中,输出模型原始输出;S3.对样本特征进行特征分解;S4.令虚拟对数等于样本特征在主空间上的特征残差,加入到模型原始输出;S5.结合模型原始输出计算softmax函数值,将输入的多维向量的每一维映射到(0,1)区间的值,值的累积和为1;将虚拟对数所在维度对应的函数值,作为样本的分布外得分;S6.设置分布外阈值,判断输入样本是否为分布外样本。解决依赖单一输入源,检测精确度不高的问题。兼顾样本原始特征又利用深度学习模型学习到的知识,不需要重新训练模型。

Description

一种基于虚拟对数的分布外检测方法
技术领域
本申请涉及分布外检测方法,尤其涉及一种基于虚拟对数的分布外检测方法,属于分布外检测技术领域。
背景技术
分布外检测是通过比较观测数据与已知分布之间的差异来判断新样本是否属于已知分布,封闭环境下训练的神经网络分类模型应用于开放世界中会遇到训练期间没见过的分布外数据,模型对于分布外数据的错误分类会影响模型分类效果,已知的大多数方法依赖单一输入源进行分布外检测。基于Max-Softmax的方法使用模型分类的后验概率定义评分函数,已经被证明其存在后验分布过于自信的问题,同时该方法忽略了原始的特征因素,只关心模型输出结果,基于MaxLogit的方法使用模型输出的logit定义评分函数,与上述方法存在相同的问题;基于Mahalanobis的方法会计算输入样本与训练集样本特征之间的马氏距离,该方法定义输入样本到所有分布内的类质心之间最大距离定义评分函数,取得了一定的效果,但该方法忽略了具有类相关信息的模型分类权重。已知在一个特征向量空间维度远大于种类数目的网络中,从特征空间到logits的降维会造成信息损失,这部分损失的信息对于分布内的数据影响可能不大,但是却包含了对于分布外数据判断有用的部分;另一方面,logits中包含着的类相关信息对于判断分布外数据也起到一定的作用。
发明内容
在下文中给出了关于本发明的简要概述,以便提供关于本发明的某些方面的基本理解。应当理解,这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分,也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。
鉴于此,为解决现有技术中存在依赖单一输入源,检测精确度不高的技术问题,本发明提供一种基于虚拟对数的分布外检测方法。
方案一、一种基于虚拟对数的分布外检测方法,包括以下步骤:
S1.对流量进行特征提取,作为样本特征;
S2.将样本特征输入到分类模型中,输出模型原始输出;
S3.对样本特征进行特征分解;
S4.令虚拟对数等于样本特征在主空间上的特征残差,加入到模型原始输出;
S5.结合模型原始输出计算softmax(l0,logits)函数值,将输入的多维向量的每一维映射到(0,1)区间的值,值的累积和为1;将虚拟对数l0所在维度对应的函数值,作为样本的分布外得分;
S6.设置分布外阈值,根据分布外阈值判断输入样本是否为分布外样本。
优选的,对流量进行特征提取的方法是:通过相同的五元组将流量划分为不同流,对每个流提取81维特征,每组特征为待检测的样本特征。
优选的,对样本特征进行特征分解的方法是:选取DIM个最大特征值对应的特征向量张成投影特征子空间P,计算样本特征在主空间上的特征残差||xP⊥||;以||xP⊥||作为衡量OOD分数的标准,DIM<最大特征数;
XTX=QΛQ-1
其中,DIM表示主空间维度,xP⊥表示样本特征x在主空间P的补空间P⊥上的投影,XTX表示训练样本矩阵的转置矩阵XT与训练样本矩阵X的乘积矩阵,为一个方阵,QΛQ-1表示Q是由特征向量组成的矩阵,Λ是对角矩阵,对角线上的元素是特征值;Q-1是矩阵Q的逆矩阵。
优选的,计算样本特征在主空间上的特征残差||xP⊥||的方法是:xP⊥为样本特征x在主空间P的补空间P上的投影,||xP⊥||为xP⊥的范数。
优选的,S5具体包括以下步骤:
S51.根据缩放参数α计算l0=α*||xP⊥||;
S52.结合模型原始输出计算softmax(l0,logits)函数值的方法是:logits是C维向量,将虚拟对数l0作为一维加入到logits变为C+1维向量,计算C+1维向量的Softmax函数值:
其中,zi表示第i个节点的输出值,C为输出节点的个数;
优选的,分布外阈值为:常数,区间范围(0,1)。
方案二、一种电子设备,包括存储器和处理器,存储器存储有计算机程序,所述的处理器执行所述计算机程序时实现方案一所述的一种基于虚拟对数的分布外检测方法的步骤。
方案三、一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现方案一所述的一种基于虚拟对数的分布外检测方法。
本发明的有益效果如下:本发明首先计算模型输入样本在训练集主空间的特征残差,根据缩放参数α,将样本特征在主空间上的特征残差与训练集平均最大logits进行匹配转化为一个虚拟的logit l0,将该虚拟的logit与输入样本经模型输出的原始logits合并计算softmax概率,将该logit对应的概率值定义为样本的分布外评分,若评分超过某一预设阈值则定义该样本为分布外类。解决现有技术中存在依赖单一输入源,检测精确度不高的技术问题。本发明即能兼顾到输入样本原始特征又能充分利用深度学习模型学习到的知识,该算法属轻量级算法,不需要重新训练模型,计算成本低,检测环节耗时较短,满足实时检测的需求。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为一种基于虚拟对数的分布外检测方法流程示意图。
具体实施方式
为了使本申请实施例中的技术方案及优点更加清楚明白,以下结合附图对本申请的示例性实施例进行进一步详细的说明,显然,所描述的实施例仅是本申请的一部分实施例,而不是所有实施例的穷举。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
实施例1、参照图1说明本实施方式,一种基于虚拟对数的分布外检测方法,包括以下步骤:
一种基于虚拟对数的分布外检测方法,包括以下步骤:
S1.对流量进行特征提取,作为样本特征,方法是:通过相同的五元组将流量划分为不同流,对每个流提取81维特征,每组特征为待检测的样本特征。
具体的,使用开源工具Cicflowmeter提取;
具体的,特征包括数据包数量、数据包大小、数据包间隔时间等81维特征;
S2.将样本特征输入到分类模型中,输出模型原始输出;
S3.对样本特征进行特征分解;
对样本特征进行特征分解的方法是:选取DIM个最大特征值对应的特征向量张成投影特征子空间P,计算样本特征在主空间上的特征残差||xP⊥||;以||xP⊥||作为衡量OOD分数的标准,DIM<最大特征数;
XTX=QΛQ-1
其中,DIM表示主空间维度,xP⊥表示样本特征x在主空间P的补空间P⊥上的投影,XTX表示训练样本矩阵的转置矩阵XT与训练样本矩阵X的乘积矩阵,为一个方阵,QΛQ-1表示Q是由特征向量组成的矩阵,Λ是对角矩阵,对角线上的元素是特征值,Q-1是矩阵Q的逆矩阵。
计算样本特征在主空间上的特征残差||xP⊥||的方法是:xP⊥为样本特征x在主空间P的补空间P上的投影,||xP⊥||为xP⊥的范数。
S4.令虚拟对数等于样本特征在主空间上的特征残差,加入到模型原始输出;
S5.结合模型原始输出计算softmax(l0,logits)函数值,将输入的多维向量的每一维映射到(0,1)区间的值,值的累积和为1;将虚拟对数l0所在维度对应的函数值,作为样本的分布外得分;
S5具体包括以下步骤:
S51.如果虚拟对数l0与原始模型输出平均最大logit结果相差较多,则经过softmax函数后会近似噪声,从而达不到效果,因此将虚拟对数l0在训练集平均最大logit值的维度上进行一定的缩放。
根据缩放参数α计算l0=α*||xP⊥||;
S52.本发明定义一个额外的logit的概念,加入到模型原始输出的logit中共同计算softmax概率,将该类别作为OOD类别,实现从C分类到C+1分类。
结合模型原始输出计算softmax(l0,logits)函数值的方法是:logits是C维向量,将虚拟对数l0作为一维加入到logits变为C+1维向量,计算C+1维向量的Softmax函数值:
其中,zi表示第i个节点的输出值,C为输出节点的个数,即分类的类别个数;e是常数,为zi的指数函数值,/>为zc的指数函数值;
具体的,C分类模型训练后的模型权重为偏置/>则输入样本特征/>得到logits(x)=WT*x+Bias,预测概率p(x)=softmax(logits(x))为模型分类输出。
选择o:=(WT)+*Bias作为该模型在特征空间的坐标原点,则上述logits计算公式可以转化成公式(1-1);
对给定的输入样本特征x,logits的每一维看作特征x与对应第几类向量的权重之间的内积;考虑空间投影,针对特征空间的每一个向量wi,有则/> 将结果推广至Span{w1,…,wC}有x=xW⊥+xW,有l=WTxW,可以看出分类模型的输出结果强关联xW,而抛弃了xW⊥的所有信息,而这部分信息在判断样本是否为OOD样本上有很大的效果。
具体的,样本特征为模型输入的多维向量,多维向量为(l0,logits)结合后的多维向量,其中,logits为模型输出,l0为虚拟对数;
S6.设置分布外阈值,根据分布外阈值判断输入样本是否为分布外样本。
分布外阈值为:常数,区间范围(0,1)。
实施例2、本发明的计算机装置可以是包括有处理器以及存储器等装置,例如包含中央处理器的单片机等。并且,处理器用于执行存储器中存储的计算机程序时实现上述的一种基于虚拟对数的分布外检测方法的步骤。
所称处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
实施例3、计算机可读存储介质实施例
本发明的计算机可读存储介质可以是被计算机装置的处理器所读取的任何形式的存储介质,包括但不限于非易失性存储器、易失性存储器、铁电存储器等,计算机可读存储介质上存储有计算机程序,当计算机装置的处理器读取并执行存储器中所存储的计算机程序时,可以实现上述的一种基于虚拟对数的分布外检测方法的步骤。
所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
尽管根据有限数量的实施例描述了本发明,但是受益于上面的描述,本技术领域内的技术人员明白,在由此描述的本发明的范围内,可以设想其它实施例。此外,应当注意,本说明书中使用的语言主要是为了可读性和教导的目的而选择的,而不是为了解释或者限定本发明的主题而选择的。因此,在不偏离所附权利要求书的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。对于本发明的范围,对本发明所做的公开是说明性的,而非限制性的,本发明的范围由所附权利要求书限定。

Claims (8)

1.一种基于虚拟对数的分布外检测方法,其特征在于,包括以下步骤:
S1.对流量进行特征提取,作为样本特征;
S2.将样本特征输入到分类模型中,输出模型原始输出;
S3.对样本特征进行特征分解;
S4.令虚拟对数等于样本特征在主空间上的特征残差,加入到模型原始输出;
S5.结合模型原始输出计算softmax(l0,logits)函数值,将输入的多维向量的每一维映射到(0,1)区间的值,值的累积和为1;将虚拟对数l0所在维度对应的函数值,作为样本的分布外得分;
S6.设置分布外阈值,根据分布外阈值判断输入样本是否为分布外样本。
2.根据权利要求1所述的一种基于虚拟对数的分布外检测方法,其特征在于,对流量进行特征提取的方法是:通过相同的五元组将流量划分为不同流,对每个流提取81维特征,每组特征为待检测的样本特征。
3.根据权利要求2所述的一种基于虚拟对数的分布外检测方法,其特征在于,对样本特征进行特征分解的方法是:选取DIM个最大特征值对应的特征向量张成投影特征子空间P,计算样本特征在主空间上的特征残差以/>作为衡量OOD分数的标准,DIM<最大特征数;
XTX=QΛQ-1
其中,DIM表示主空间维度,表示样本特征x在主空间P的补空间P⊥上的投影,XTX表示训练样本矩阵的转置矩阵XT与训练样本矩阵X的乘积矩阵,为一个方阵,QΛQ-1表示Q是由特征向量组成的矩阵,Λ是对角矩阵,对角线上的元素是特征值;Q-1是矩阵Q的逆矩阵。
4.根据权利要求3所述的一种基于虚拟对数的分布外检测方法,其特征在于,计算样本特征在主空间上的特征残差的方法是:/>为样本特征x在主空间P的补空间P上的投影,/>为/>的范数。
5.根据权利要求4所述的一种基于虚拟对数的分布外检测方法,其特征在于,S5具体包括以下步骤:
S51.根据缩放参数α计算
S52.结合模型原始输出计算softmax(l0,logits)函数值的方法是:logits是C维向量,将虚拟对数l0作为一维加入到logits变为C+1维向量,计算C+1维向量的Softmax函数值:
其中,zi表示第i个节点的输出值,C为输出节点的个数。
6.根据权利要求5所述的一种基于虚拟对数的分布外检测方法,其特征在于,分布外阈值为:常数,区间范围(0,1)。
7.一种电子设备,其特征在于,包括存储器和处理器,存储器存储有计算机程序,所述的处理器执行所述计算机程序时实现权利要求1-6任一项所述的一种基于虚拟对数的分布外检测方法的步骤。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-6任一项所述的一种基于虚拟对数的分布外检测方法。
CN202310746661.8A 2023-06-21 2023-06-21 一种基于虚拟对数的分布外检测方法 Pending CN116776248A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310746661.8A CN116776248A (zh) 2023-06-21 2023-06-21 一种基于虚拟对数的分布外检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310746661.8A CN116776248A (zh) 2023-06-21 2023-06-21 一种基于虚拟对数的分布外检测方法

Publications (1)

Publication Number Publication Date
CN116776248A true CN116776248A (zh) 2023-09-19

Family

ID=88011078

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310746661.8A Pending CN116776248A (zh) 2023-06-21 2023-06-21 一种基于虚拟对数的分布外检测方法

Country Status (1)

Country Link
CN (1) CN116776248A (zh)

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112966261A (zh) * 2021-03-08 2021-06-15 中电积至(海南)信息技术有限公司 一种轻量级可拓展的网络流量特征提取工具和方法
CN114124420A (zh) * 2020-08-28 2022-03-01 哈尔滨理工大学 一种基于深度神经网络的网络流量异常检测方法
CN114631103A (zh) * 2019-11-08 2022-06-14 辉达公司 用于识别神经网络中的分布外输入数据的处理器和***
CN114844840A (zh) * 2022-04-26 2022-08-02 哈尔滨工业大学 一种基于计算似然比的分布外网络流量数据检测方法
CN115022049A (zh) * 2022-06-06 2022-09-06 哈尔滨工业大学 一种基于计算马氏距离的分布外网络流量数据检测方法、电子设备及存储介质
CN115374950A (zh) * 2022-07-13 2022-11-22 平安科技(深圳)有限公司 样本检测方法、样本检测装置、电子设备及存储介质
CN115398437A (zh) * 2020-03-30 2022-11-25 甲骨文国际公司 改进的域外(ood)检测技术
EP4105839A1 (en) * 2021-06-16 2022-12-21 Robert Bosch GmbH Device and method to adapt a pretrained machine learning system to target data that has different distribution than the training data without the necessity of human annotations on target data
CN115730656A (zh) * 2022-11-16 2023-03-03 南京大学 一种利用混合未标记数据的分布外样本检测方法
US20230107006A1 (en) * 2021-10-01 2023-04-06 Samsung Electronics Co., Ltd. Disentangled out-of-distribution (ood) calibration and data detection
CN116032557A (zh) * 2022-12-09 2023-04-28 清华大学 一种网络安全异常检测中深度学习模型的更新方法与装置

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114631103A (zh) * 2019-11-08 2022-06-14 辉达公司 用于识别神经网络中的分布外输入数据的处理器和***
CN115398437A (zh) * 2020-03-30 2022-11-25 甲骨文国际公司 改进的域外(ood)检测技术
CN114124420A (zh) * 2020-08-28 2022-03-01 哈尔滨理工大学 一种基于深度神经网络的网络流量异常检测方法
CN112966261A (zh) * 2021-03-08 2021-06-15 中电积至(海南)信息技术有限公司 一种轻量级可拓展的网络流量特征提取工具和方法
EP4105839A1 (en) * 2021-06-16 2022-12-21 Robert Bosch GmbH Device and method to adapt a pretrained machine learning system to target data that has different distribution than the training data without the necessity of human annotations on target data
US20230107006A1 (en) * 2021-10-01 2023-04-06 Samsung Electronics Co., Ltd. Disentangled out-of-distribution (ood) calibration and data detection
CN114844840A (zh) * 2022-04-26 2022-08-02 哈尔滨工业大学 一种基于计算似然比的分布外网络流量数据检测方法
CN115022049A (zh) * 2022-06-06 2022-09-06 哈尔滨工业大学 一种基于计算马氏距离的分布外网络流量数据检测方法、电子设备及存储介质
CN115374950A (zh) * 2022-07-13 2022-11-22 平安科技(深圳)有限公司 样本检测方法、样本检测装置、电子设备及存储介质
CN115730656A (zh) * 2022-11-16 2023-03-03 南京大学 一种利用混合未标记数据的分布外样本检测方法
CN116032557A (zh) * 2022-12-09 2023-04-28 清华大学 一种网络安全异常检测中深度学习模型的更新方法与装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
HAOQI WANG 等: "ViM: Out-Of-Distribution with Virtual-logit Matching", 《ARXIV》, pages 1 - 15 *
卓子寒 等: "基于计算似然比的分布外网络流量数据检测方法", 《无线电工程》, vol. 52, no. 8, pages 1322 - 1329 *
杨立圣 等: "基于样本分布特征的数据投毒防御", 《计算机应用研究》, vol. 40, no. 9, pages 2845 - 2850 *

Similar Documents

Publication Publication Date Title
CN113313575B (zh) 一种风险识别模型的确定方法及装置
JP5570629B2 (ja) 分類器の学習方法及び装置、並びに処理装置
JP4514687B2 (ja) パターン認識装置
WO2019227574A1 (zh) 语音模型训练方法、语音识别方法、装置、设备及介质
WO2023125654A1 (zh) 人脸识别模型的训练方法、装置、电子设备及存储介质
CN110909784B (zh) 一种图像识别模型的训练方法、装置及电子设备
Li et al. Identification of Wiener systems with clipped observations
Hemalatha et al. A computational model for texture analysis in images with fractional differential filter for texture detection
CN113434699B (zh) 用于文本匹配的bert模型的预训练方法、计算机装置和存储介质
CN104392207B (zh) 一种用于数字图像内容识别的特征编码方法
CN114331731A (zh) 基于pca与rf的区块链异常检测方法及相关装置
CN113902944A (zh) 模型的训练及场景识别方法、装置、设备及介质
CN112348203A (zh) 模型训练方法、装置、终端设备及存储介质
CN117315377B (zh) 基于机器视觉的图像处理方法、装置及电子设备
US20210192319A1 (en) Information processing apparatus, method, and medium
CN116776248A (zh) 一种基于虚拟对数的分布外检测方法
JP7171478B2 (ja) 情報処理方法、及び情報処理システム
Martinet et al. Variance minimization in the wasserstein space for invariant causal prediction
CN115022049B (zh) 一种基于计算马氏距离的分布外网络流量数据检测方法、电子设备及存储介质
CN114913588B (zh) 一种应用于复杂场景下的人脸图像修复及识别方法
KR102475730B1 (ko) Tta를 이용한 분포 외 데이터 검출 방법 및 이를 수행하는 장치
CN115641201A (zh) 数据异常检测方法、***、终端设备及存储介质
CN114896594A (zh) 基于图像特征多注意力学习的恶意代码检测装置及方法
CN114373097A (zh) 一种基于无监督的图像分类方法、终端设备及存储介质
JP2014153763A (ja) パターン認識装置、パターン認識方法、及びパターン認識プログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination