CN112966732B - 具有周期属性的多因素交互行为异常检测方法 - Google Patents

具有周期属性的多因素交互行为异常检测方法 Download PDF

Info

Publication number
CN112966732B
CN112966732B CN202110228567.4A CN202110228567A CN112966732B CN 112966732 B CN112966732 B CN 112966732B CN 202110228567 A CN202110228567 A CN 202110228567A CN 112966732 B CN112966732 B CN 112966732B
Authority
CN
China
Prior art keywords
user
behavior
time
attribute
interactive
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110228567.4A
Other languages
English (en)
Other versions
CN112966732A (zh
Inventor
章昭辉
王鹏伟
刘霄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Donghua University
Original Assignee
Donghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Donghua University filed Critical Donghua University
Priority to CN202110228567.4A priority Critical patent/CN112966732B/zh
Publication of CN112966732A publication Critical patent/CN112966732A/zh
Application granted granted Critical
Publication of CN112966732B publication Critical patent/CN112966732B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种具有周期属性的多因素交互行为异常检测方法,其个体行为在于对每个用户单独考虑,分析用户历史正常交互行为,根据用户历史正常交互行为模式对用户当前交互行为进行检测。不仅考虑了登陆时间属性、工作时间登录属性、登陆间隔、关键页面停留时间属性,还考虑了用户交互持续时间、关键路径触发属性,更加充分的描述了用户的***交互行为;而且所提出的交互行为周期划分算法对用户行为的周期特性进行分析,同时在异常行为检测模型中使用调整余弦相似度对交互行为进行衡量,在保证了行为向量的数值特性不被破坏的基础上增加了对行为方向特性的刻画。为交互行为的异常判断与检测提供了技术支持。

Description

具有周期属性的多因素交互行为异常检测方法
技术领域
本发明涉及一种信息技术领域,特别涉及一种具有周期属性的多因素交互行为异常检测方法。
背景技术
近年来,我国经济快速发展,计算机技术不断应用于金融交易领域中,随着“互联网+”时代的到来,在线支付也变得越来越流行,互联网金融已经成为金融行业发展的主流趋势。而且网络支付和无卡支付(例如,PayPal和AliPay)变得越来越流行,随之而来的是交易欺诈增长的十分迅速。
现有的大部分身份认证技术都是基于用户的账户名和密码。在短时间内对用户进行身份认证,之后无论用户的真实身份是什么,用户所做的一切行为都将被视为合法行为。为了弥补单一的用户名密码的身份认证模式带来的缺陷,近年来许多学者也倾向于数据特征挖掘和行为分析方法用于身份识别领域。如对用户Web日志采用关联规则挖掘、隐马尔可夫过程、半马尔可夫过程、贝叶斯网络、神经网络和随机森林等方法进行行为建模和预测。尽管目前很努力的解决用户身份识别问题,但是依然面临着诸多困难。
目前个体行为画像主要应用于智能营销、点击预测和软件***优化等领域,通过分析用户的历史交互行为数据提炼统计学特征,如交互频率,交互时延、浏览路径等信息,给用户操作行为打上标签,根据用户所属的标签实现广告推荐、营销和预测等。然而在交互行为异常检测领域,根据每个用户都有自己独特的交互行为习惯,如登录***的时间,交互的时间长短,点击的频率等都存在不同,通过分析用户的交互行为模式构建用户行为模型,再利用该模型对该用户的交互特征进行匹配度检测,进而识别用户的操作是否由其本人触发。
但是由于不同的外界场景刺激,用户很难一直以一个稳定周期产生交互行为,如双十一购物节、热门节假日的车票购票场景中,用户的交互行为往往与平常的交互场景有很大不同。由于此类场景的随机性和离散性加上用户自身的行为差异,用户的交互行为时序特征往往具备一定的周期性,因此,例如使用快速傅里叶变换等快速计算时域序列周期的方法都不能很好的适用于用户交互行为的分析,现有的交互行为异常检测研究往往也忽略了行为的周期性特征,导致模型对于此类场景下的交互行为的判断往往存在偏差。
发明内容
本发明是针对互联网中交互行为异常检测的问题,提出了一种具有周期属性的多因素交互行为异常检测方法,从用户个体出发,充分考虑不同用户之间的差异性,和交互行为的周期性特征,对用户的交互行为进行合法性判别。
本发明的技术方案为一种具有周期属性的多因素交互行为异常检测方法,具体包括如下步骤:
1)建立正常用户交互行为画像:从用户历史交易数据库中提取该用户的正常交易数据,建立登陆时间属性、工作时间登录属性、登陆间隔、关键页面停留时间属性、用户交互持续时间属性、关键路径触发属性,构建用户包括多维度属性的交互行为画像IBCu
2)在步骤1)基础上,根据用户行为记录生成用户的行为间隔序列,计算用户的周期稳定性阈值;其次根据行为周期划分方法,依次比较行为间隔序列中的相邻元素是否满足周期稳定性阈值,输出用户的交互行为周期序列,最后计算具有周期属性的正常交互行为画像UCPu
3)计算交互行为最大偏离基准:根据该用户所有交易数据,重复步骤1)、2)获取该用户具有周期属性的交互行为画像UCP'u作为用户历史交互行为,对于UCP'u中每一条交互行为记录,与具有周期属性的正常用户交互行为画像UCPu进行匹配,依次计算用户每一条历史交互行为与正常用户交互行为画像之间的相似度计算,根据最大相似度Maxsim和最小相似度Minsim的范围,从中依次取值,将用户历史交互行为进行划分为正常行为和异常行为,并且计算划分效果DB,将划分效果最佳的值作为用户的交互行为最大偏离基准,记为Benchmarku
4)建立多因素交互行为识别方法:根据步骤1)计算用户当前交互行为画像UCPnow,计算当前交互行为与步骤3)所得用户正常交互行为画像的偏离程度,如此偏离程度在Benchmarku的可接受范围之内,则判断为正常交互,如偏离程度不在Benchmarku的可接受范围之内,则判断为异常交互。
优选的,所述步骤1)具体实现方法如下:
1.1)提取用户历史正常交互行为记录:
将用户的历史交互行为数据集中,依据其正常交互和异常交互给样本标记正负字段,提取出用户正常交互数据作为正样本数据;
1.2)计算登录时间属性:
对正样本数据正提取用户的登录时间集合,依据每日的小时划分方法将一天划分为多个时间区间time1,time2,...,timen,计算用户在各个区间内登录发生的概率,利用如下公式计算出用户登录时间属性,
Figure BDA0002957877240000031
其中,timen为n个时间区间属性,|ltan|为第n个时间区间内的登录次数,
Figure BDA0002957877240000032
为用户u一天登录的总次数。进而求得该用户u的登录时间属性LTAu=(time1,time2,...,timen);
1.3)计算工作时间登录属性:
提取交易时间的集合,分别求出交易发生在工作时间和非工作时间的交易概率,得到用户u交易是否为工作时间登录属性WTAu=(isworktime,noworktime);
1.4)计算登录间隔属性:
Figure BDA0002957877240000033
其中
Figure BDA0002957877240000034
为登录间隔集合中的元素;
Figure BDA0002957877240000035
为用户u的第i次登录***的时间;
Figure BDA0002957877240000036
为用户u的第i-1次登陆***的时间;
利用上述公式,得到用户相邻两次登录的时间间隔变化幅度集合,提取用户的登陆时间间隔集合,利用分位数分析法求得集合的第一、第二、第三四分位数,并求得集合的上下限,第一、第二、第三四分位数是将集合总体的全部数据按大小顺序排列后,处于第25%、50%、75%位置的变量值,依此将集合划分为5个子集period1,period2,...,periodn,此5个构成用户登录间隔属性,利用如下公式计算出用户登录间隔属性:
Figure BDA0002957877240000041
其中,periodn为登录间隔属性中的项,|lian|为用户登录间隔时间在第n个子集内的次数,
Figure BDA0002957877240000042
为用户u登录次数;进而求得该用户u的登录间隔属性LIAu=(period1,period2,period3,period4,period5);
1.5)计算用户关键页面停留时间属性:
在用户u的正常交互行为日志中依次计算该用户在关键页面apage_no=key的停留时间总和得到集合
Figure BDA0002957877240000043
其中
Figure BDA0002957877240000044
利用分位数分析法按照1.4)中的相同计算方法,计算得到用户u的关键页面停留时间属性KSAu=(distance1,distance2,distance3,distance4,distance5);
1.6)计算用户交互持续时间属性:
在用户u的正常交互行为日志中,计算该用户u的一次交互操作中各页面浏览时间之和,得到集合
Figure BDA0002957877240000045
利用分位数分析法按照1.4)中的相同计算方法,计算得到用户u交互持续时间属性IDAu=(duration1,duration2,...,durationn);
1.7)计算用户关键路径触发属性:
在用户u的正常交互行为日志中,依次计算该用户的一次交互操作中***关键页面停留时间与非关键页面停留时间集合;利用分位数分析法按照1.4)中的相同计算方法,计算得到用户关键路径触发属性CTAu=(ratio1,ratio2);
1.8)构建用户交互行为画像:
得到用户u各个维度的属性,构建用户的交互行为画像IBCu,IBCu=(LTAu,WTAu,LIAu,KSAu,IDAu,CTAu)。
优选的,所述步骤2)具体实现步骤如下:
2.1)提取登录间隔序列:根据步骤1.4)中计算得到的登录间隔序列为lisu={t1,t2,...,tn},tn为第n个登录间隔时间,n+1为用户全部的交互行为记录数;登录间隔lisu的子序列表示为lis'u={t'1,t'2,...,t'n},子序列lis'u即在原有序列lisu中的任一部分组成的序列;
2.2)依次遍历登录间隔序列:
初始化一个空数组C,从lisu={t1,t2,...,tn}首尾开始,依次遍历所有的子序列,针对每一个子序列,依次计算子序列对应的周期稳定性阈值μ和用户u的子序列的稳定性状态TPFu,用户u的周期稳定性阈值μ和子序列稳定性状态TPFu计算如下:
μ=1/length(list),
Figure BDA0002957877240000051
其中list表示登录时间间隔序列的某个子序列,length(list)表示该子序列的长度;TPFu中ti表示lis'u中的每个元素,
Figure BDA0002957877240000052
为lis'u中所有元素的均值,μ代表划分阈值,μ越大则lis'u中元素越少,用户行为周期更为离散和稀疏;反之μ越小,则lis'u中的元素就越多,用户行为周期更为连续;
2.3)划分序列:
根据用户u的周期稳定性阈值和子序列稳定性状态TPFu按照如下公式对登录间隔序列进行划分,
Figure BDA0002957877240000053
将满足上述公式的子序列存入数组C,在遍历过程中满足:优先遍历较长的子序列,如果较长的子序列中计算得到的数值符合周期稳定性阈值μ,则该子序列中所有的子序列都将不再判断;同理,如果当前子序列是周期行为序列集合C中任一序列的子序列,也不再判断;
2.4)输出交互行为周期序列:
输出数组C,即为用户的周期行为序列集合:
2.5)构建具有周期属性的交互行为画像:
按照2.4)中输出的周期序列也按照上述1.2)-1.8)中交互行为的刻画方法得到不同周期内的交互行为画像pbcu
Figure BDA0002957877240000061
Figure BDA0002957877240000062
表示用户u的j个行为周期内所对应的交互行为画像集合;最后将合并后的具有周期属性的正常交互行为画像定义为
Figure BDA0002957877240000063
其中
Figure BDA0002957877240000064
Figure BDA0002957877240000065
为正常的用户周期交互行为画像集合中的最新的k个周期对应的交互行为画像。
本发明的有益效果在于:本发明具有周期属性的多因素交互行为异常检测方法,其个体行为在于对每个用户单独考虑,分析用户历史正常交互行为,根据用户历史正常交互行为模式对用户当前交互行为进行检测。不仅考虑了登陆时间属性、工作时间登录属性、登陆间隔、关键页面停留时间属性,还考虑了用户交互持续时间、关键路径触发属性,更加充分的描述了用户的***交互行为;而且所提出的交互行为周期划分算法对用户行为的周期特性进行分析,同时在异常行为检测模型中使用调整余弦相似度对交互行为进行衡量,在保证了行为向量的数值特性不被破坏的基础上增加了对行为方向特性的刻画。为交互行为的异常判断与检测提供了技术支持。
附图说明
图1是本发明具有周期属性的交互行为多因素异常检测方法整体框架图;
图2是本发明具有周期属性的多因素交互行为异常检测方法的实施流程图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
目前主要问题是用户的交互行为由于不同场景的影响会呈现一定的波动和突变,而现有研究中往往忽略了对此类行为突变的刻画,为了更好的刻画用户的交互行为特征,本发明提出了交互行为周期划分方法,通过计算用户的周期稳定性阈值,将满足阈值的交互行为划分不同的行为周期;在此基础上,提出用户交互行为最大偏离基准的刻画方法,在保证了行为基准向量的数值特性不被破坏的基础上增强了对行为基准向量方向特性的刻画;最后提出了具有周期属性的多因素交互行为异常检测模型。
本发明具有周期属性的多因素交互行为检测方法,如图1所示具有周期属性的交互行为多因素异常检测方法整体框架图,从以下三个步骤构建交互行为模型:一是在正常用户交互行为数据基础上,建立具有周期属性的用户交互行为画像;二是计算交互行为最大偏离基准;三是建立多因素交互行为识别方法。
一、建立正常用户交互行为画像:从用户历史交易数据库中提取该用户的正常交易数据,不仅考虑了登陆时间属性、工作时间登录属性、登陆间隔、关键页面停留时间属性,还考虑了用户交互持续时间属性、关键路径触发属性,并且在此基础上刻画用户的交互行为,构建用户交互行为画像。主要通过以下几个步骤实现,如图2所示。
S101:提取用户历史正常交互行为记录:
将用户的历史交互行为数据集中,依据其正负(正常交易、异常交易)样本标记字段,提取出用户的正样本数据;
S102:计算登录时间属性:
在S101步骤中得到的用户正常交互行为记录中,进一步提取用户的登录时间集合,依据每日的小时划分方法将一天划分为多个时间区间time1,time2,...,timen,计算用户在各个区间内登录发生的概率,利用如下公式计算出用户登录时间属性。
Figure BDA0002957877240000081
其中,timen为n个时间区间属性,|ltan|为第n个时间区间内的登录次数,
Figure BDA0002957877240000082
为用户u一天登录的总次数。进而求得该用户u的登录时间属性LTAu=(time1,time2,...,timen)。
S103:计算工作时间登录属性:
提取交易时间的集合,分别求出交易发生在工作时间和非工作时间(工作日下班时间、双休和节假日)的交易概率,得到用户u交易是否为工作时间登录属性WTAu=(isworktime,noworktime)。
S104:计算登录间隔属性:
Figure BDA0002957877240000083
其中
Figure BDA0002957877240000084
为登录间隔集合中的元素;
Figure BDA0002957877240000085
为用户u的第i次登录***的时间;
Figure BDA0002957877240000086
为用户u的第i-1次登陆***的时间。
利用上述公式,得到用户相邻两次登录的时间间隔变化幅度集合,提取用户的登陆时间间隔集合,利用分位数分析法求得集合的第一、第二、第三四分位数,并求得集合的上下限。第一、第二、第三四分位数是将集合总体的全部数据按大小顺序排列后,处于第25%、50%、75%位置的变量值。依此将集合划分为5个子集period1,period2,...,periodn,此5个构成用户登录间隔属性。利用如下公式计算出用户登录间隔属性。
Figure BDA0002957877240000087
其中,periodn为登录间隔属性中的项,|lian|为用户登录间隔时间在第n个子集内的次数,
Figure BDA0002957877240000088
为用户u登录次数。进而求得该用户u的登录间隔属性LIAu=(period1,period2,period3,period4,period5)。
S105:计算用户关键页面停留时间属性:
在用户u的正常交互行为日志中依次计算该用户在关键页面apage_no=key的停留时间总和得到集合
Figure BDA0002957877240000091
其中
Figure BDA0002957877240000092
利用分位数分析法按照S104中的相同计算方法,计算得到用户u的关键页面停留时间属性KSAu=(distance1,distance2,distance3,distance4,distance5)。
S106:计算用户交互持续时间属性:
在用户u的正常交互行为日志中,计算该用户u的一次交互操作中各页面浏览时间之和,得到集合
Figure BDA0002957877240000093
利用分位数分析法按照S104中的相同计算方法,计算得到用户u交互持续时间属性IDAu=(duration1,duration2,...,durationn)。
S107:计算用户关键路径触发属性:
在用户u的正常交互行为日志中,依次计算该用户的一次交互操作中***关键页面停留时间与非关键页面停留时间集合。利用分位数分析法按照S104中的相同计算方法,计算得到用户关键路径触发属性CTAu=(ratio1,ratio2)。
S108:构建用户交互行为画像:
根据上一步得到用户u各个维度的属性,构建用户的交互行为画像IBCu,IBCu=(LTAu,WTAu,LIAu,KSAu,IDAu,CTAu)。
二、构建具有周期属性的交互行为画像:在用户的交互行为基础上提取用户的周期属性特征,更加充分的描述了用户的***交互行为。首先根据用户行为记录生成用户的行为间隔序列,计算用户的周期稳定性阈值;其次根据行为周期划分方法,依次比较行为间隔序列中的相邻元素是否满足周期稳定性阈值,输出用户的交互行为周期序列,最后计算具有周期属性的交互行为画像UCPu,包括以下步骤:
S201:提取登录间隔序列:
根据步骤S104中计算得到的登录间隔序列为lisu={t1,t2,...,tn},tn为第n个登录间隔时间,n+1为用户全部的交互行为记录数;登录间隔lisu的子序列表示为lis'u={t'1,t'2,...,t'n},子序列lis'u即在原有序列lisu中的任一部分组成的序列。
S202:依次遍历登录间隔序列
初始化一个空数组C,从lisu={t1,t2,...,tn}首尾开始,依次遍历所有的子序列,针对每一个子序列,依次计算子序列对应的周期稳定性阈值μ和用户u的子序列的稳定状态TPFu。用户u的周期稳定性阈值μ和子序列稳定状态TPFu计算如下:
μ=1/length(list)
Figure BDA0002957877240000101
其中list表示登录时间间隔序列的某个子序列,length(list)表示该子序列的长度;TPFu中ti表示lis'u中的每个元素,
Figure BDA0002957877240000102
为lis'u中所有元素的均值,μ代表划分阈值,μ越大则lis'u中元素越少,用户行为周期更为离散和稀疏;反之μ越小,则lis'u中的元素就越多,用户行为周期更为连续。
S203:划分序列
根据用户u的周期稳定性阈值和子序列稳定状态TPFu按照如下公式对登录间隔序列进行划分。
Figure BDA0002957877240000103
将满足上述公式的子序列存入数组C。在遍历过程中满足:优先遍历较长的子序列,如果较长的子序列中计算得到的数值符合周期稳定性阈值μ,则该子序列中所有的子序列都将不再判断;同理,如果当前子序列是周期行为序列集合C中任一序列的子序列,也不再判断。
S204:输出交互行为周期序列
输出数组C,即为用户的周期行为序列集合。
S205:构建具有周期属性的交互行为画像:
按照S204中输出的周期序列也按照上述S102-S108中交互行为的刻画方法得到不同周期内的交互行为画像pbcu
Figure BDA0002957877240000111
Figure BDA0002957877240000112
表示用户u的j个行为周期内所对应的交互行为画像集合。最后将合并后的具有周期属性的正常交互行为画像定义为
Figure BDA0002957877240000113
其中
Figure BDA0002957877240000114
Figure BDA0002957877240000115
为正常的用户周期交互行为画像集合中的最新的k个周期对应的交互行为画像。由于所提取的数据仅为用户u的正常交互行为数据,因此所得到的UCPu仅为用户的正常交互行为画像。
三、计算交互行为最大偏离基准:考虑了不同用户之间的差异性,提出交互行为最大偏离基准的计算方法,根据用户的交互行为画像和该用户交互行为记录,为每一个用户确定该用户的交互行为最大偏离基准,包括以下步骤。
S301:提取历史交互记录:
提取用户的全部历史交互行为数据集中,包含全部正样本和负样本;
S302:生成用户交互行为画像:
使用S301中的数据,根据“建立具有周期属性的用户交互行为画像”中的步骤,得到具有周期属性的用户交互行为画像UCP'u
S303:计算用户正常交互行为与用户交互行为画像的相似度:
对于每一条交互行为记录UCP'u,会将其与具有周期属性的正常用户交互行为画像UCPu进行匹配,依次计算用户每一条历史交互行为与正常交互行为画像之间的相似度计算方法如下:
Figure BDA0002957877240000116
公式中Ai和Bi分别代表对应由n个分量组成的正常交互行为向量UCPu和n个分量组成的历史交互行为画像UCP'u
Figure BDA0002957877240000121
Figure BDA0002957877240000122
分别代表两个向量分量的均值;调整余弦相似度即向量的各个分量所有维度上的数值都减去该分量的均值。利用公式可以依次计算用户正常交互行为与历史交互行为画像之间的相似度集合
Figure BDA0002957877240000123
可以计算出集合中Su的最大相似度Maxsim和最小相似度Minsim
S304:根据用户历史交易计算划分效果:
根据最大相似度Maxsim和最小相似度Minsim的范围,从范围中依次取值,将用户历史交互行为进行划分为正常行为和异常行为,并且计算划分效果DB。
Figure BDA0002957877240000124
Figure BDA0002957877240000125
DB=λ*PP+(1-λ)*NN
上述公式中PP代表判断为正常行为中实际正常行为所占的比例;公式中NN代表模型结果为异常行为中实际异常行为所占的比例;DB代表划分效果,是PP和NN的不同权重求和,λ为权重。可以看出若λ值越大,则模型对正常行为的关注度越高,相反若λ值越小,则模型对于异常行为的关注度越高。
S305:计算最大偏离基准:
将取得最好划分效果的值作为用户的交互行为最大偏离基准,记为Benchmarku
四、建立多因素交互行为识别方法:上述步骤可以计算得到用户u的正常交互行为向量UCPu和用户u的交互行为最大偏离基准Benchmarku。用户的最大偏离基准即用户的历史交互行为中,对正常、异常行为的最佳划分参数,因此可以计算当前交互行为与用户历史交互行为画像的偏离程度,判断此偏离程度是否在Benchmarku的可接受范围之内。
S401:计算当前交互行为画像:
根据步骤一计算用户当前(待判断)交互行为画像UCPnow
S402:模型判断:
计算当前交互行为与用户正常交互行为画像的偏离程度,判断此偏离程度是否在Benchmarku的可接受范围之内。计算方法如下:
f(u)=similarity[UCPu,UCPnow]-Benchmarku
模型f(u)将交互行为空间划分为f(u)>0和f(u)≤0两个部分。其中f(u)≤0的空间被视为用户正常交易行为空间,f(u)>0的空间被视为用户异常行为空间。因此若f(u)≤0则用户u当前交互行为正常;反之若f(u)>0则用户u当前交互行为异常。

Claims (1)

1.一种具有周期属性的多因素交互行为异常检测方法,其特征在于,具体包括如下步骤:
1)建立正常用户交互行为画像:从用户历史交易数据库中提取该用户的正常交易数据,建立登录时间属性、工作时间登录属性、登录间隔、关键页面停留时间属性、用户交互持续时间属性、关键路径触发属性,构建用户包括多维度属性的交互行为画像IBCu
2)在步骤1)基础上,根据用户行为记录生成用户的行为间隔序列,计算用户的周期稳定性阈值;其次根据行为周期划分方法,依次比较行为间隔序列中的相邻元素是否满足周期稳定性阈值,输出用户的交互行为周期序列,最后计算具有周期属性的正常交互行为画像UCPu
3)计算交互行为最大偏离基准:提取检测用户的全部历史交互行为数据,根据步骤1)、2)获取该用户具有周期属性的交互行为画像UCPu'作为用户历史交互行为,对于UCPu'中每一条交互行为记录,与具有周期属性的正常用户交互行为画像UCPu进行匹配,依次计算用户每一条历史交互行为与正常用户交互行为画像之间的相似度计算,根据最大相似度Maxsim和最小相似度Minsim的范围,从中依次取值,将用户历史交互行为进行划分为正常行为和异常行为,并且计算划分效果DB,
将划分效果最佳的值作为用户的交互行为最大偏离基准,记为Benchmarku
4)建立多因素交互行为识别方法:根据步骤1)计算用户当前交互行为画像UCPnow,计算当前交互行为与用户正常交互行为画像UCPu的偏离程度,如此偏离程度在Benchmarku的可接受范围之内,则判断为正常交互,如偏离程度不在Benchmarku的可接受范围之内,则判断为异常交互;所述步骤1)具体实现方法如下:
1.1)提取用户历史正常交互行为记录:
将用户的历史交互行为数据集中,依据其正常交互和异常交互给样本标记正负字段,提取出用户正常交互数据作为正样本数据;
1.2)计算登录时间属性:
对正样本数据正提取用户的登录时间集合,依据每日的小时划分方法将一天划分为多个时间区间time1,time2,...,timen,计算用户在各个区间内登录发生的概率,利用如下公式计算出用户登录时间属性,
Figure FDA0003769015360000021
其中,timen为n个时间区间属性,|ltan|为第n个时间区间内的登录次数,
Figure FDA0003769015360000022
为用户u一天登录的总次数,进而求得该用户u的登录时间属性LTAu=(time1,time2,...,timen);
1.3)计算工作时间登录属性:
提取交易时间的集合,分别求出交易发生在工作时间和非工作时间的交易概率,得到用户u交易是否为工作时间登录属性WTAu=(isworktime,noworktime);
1.4)计算登录间隔属性:
Figure FDA0003769015360000023
其中
Figure FDA0003769015360000024
为登录间隔集合中的元素;
Figure FDA0003769015360000025
为用户u的第i次登录***的时间;
Figure FDA0003769015360000026
为用户u的第i-1次登录***的时间;
利用上述公式,得到用户相邻两次登录的时间间隔变化幅度集合,提取用户的登录时间间隔集合,利用分位数分析法求得集合的第一、第二、第三四分位数,并求得集合的上下限,第一、第二、第三四分位数是将集合总体的全部数据按大小顺序排列后,处于第25%、50%、75%位置的变量值,依此将集合划分为5个子集period1,period2,...,period5,此5个构成用户登录间隔属性,利用如下公式计算出用户登录间隔属性:
Figure FDA0003769015360000027
其中,periodn为登录间隔属性中的项,|lian|为用户登录间隔时间在第n个子集内的次数,
Figure FDA0003769015360000031
为用户u登录次数;进而求得该用户u的登录间隔属性
LIAu=(period1,period2,period3,period4,period5);
1.5)计算用户关键页面停留时间属性:
在用户u的正常交互行为日志中依次计算该用户在关键页面apage_no=key的停留时间总和得到集合
Figure FDA0003769015360000032
其中
Figure FDA0003769015360000033
利用分位数分析法按照1.4)中的相同计算方法,计算得到用户u的关键页面停留时间属性KSAu=(distance1,distance2,distance3,distance4,distance5);
1.6)计算用户交互持续时间属性:
在用户u的正常交互行为日志中,计算该用户u的一次交互操作中各页面浏览时间之和,得到集合
Figure FDA0003769015360000034
利用分位数分析法按照1.4)中的相同计算方法,计算得到用户u交互持续时间属性IDAu=(duration1,duration2,...,duration5);
1.7)计算用户关键路径触发属性:
在用户u的正常交互行为日志中,依次计算该用户的一次交互操作中***关键页面停留时间与非关键页面停留时间集合,计算得到用户关键路径触发属性CTAu=(ratio1,ratio2);
1.8)构建用户交互行为画像:
得到用户u各个维度的属性,构建用户的交互行为画像IBCu,IBCu=(LTAu,WTAu,LIAu,KSAu,IDAu,CTAu);所述步骤2)具体实现步骤如下:
2.1)提取登录间隔序列:根据步骤1.4)中计算得到的登录间隔序列为lisu={t1,t2,...,tn},tn为第n个登录间隔时间,n+1为用户全部的交互行为记录数;登录间隔lisu的子序列表示为lis'u={t1',t'2,...,t'n},子序列lis'u即在原有序列lisu中的任一部分组成的序列;
2.2)依次遍历登录间隔序列:
初始化一个空数组C,从lisu={t1,t2,...,tn}首位开始,依次遍历所有的子序列,针对每一个子序列,依次计算子序列对应的周期稳定性阈值μ和用户u的子序列的稳定性状态TPFu,用户u的周期稳定性阈值μ和子序列稳定性状态TPFu计算如下:
μ=1/length(list),
Figure FDA0003769015360000041
其中list表示登录时间间隔序列的某个子序列,length(list)表示该子序列的长度;TPFu中ti表示lis'u中的每个元素,
Figure FDA0003769015360000042
为lis'u中所有元素的均值,μ代表划分阈值,μ越大则lis'u中元素越少,用户行为周期更为离散和稀疏;反之μ越小,则lis'u中的元素就越多,用户行为周期更为连续;
2.3)划分序列:
根据用户u的周期稳定性阈值和子序列稳定性状态TPFu按照如下公式对登录间隔序列进行划分,
Figure FDA0003769015360000043
将满足上述公式的子序列存入数组C,在遍历过程中满足:优先遍历较长的子序列,如果较长的子序列中计算得到的数值符合周期稳定性阈值μ,则该子序列中所有的子序列都将不再判断;同理,如果当前子序列是周期行为序列集合C中任一序列的子序列,也不再判断;
2.4)输出交互行为周期序列:
输出数组C,即为用户的周期行为序列集合:
2.5)构建具有周期属性的交互行为画像:
按照2.4)中输出的周期序列也按照上述1.2)-1.8)中交互行为的刻画方法得到不同周期内的交互行为画像pbcu
Figure FDA0003769015360000051
Figure FDA0003769015360000052
表示用户u的j个行为周期内所对应的交互行为画像集合;最后将合并后的具有周期属性的正常交互行为画像定义为
Figure FDA0003769015360000053
其中
Figure FDA0003769015360000054
Figure FDA0003769015360000055
为正常的用户周期交互行为画像集合中的最新的k个周期对应的交互行为画像。
CN202110228567.4A 2021-03-02 2021-03-02 具有周期属性的多因素交互行为异常检测方法 Active CN112966732B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110228567.4A CN112966732B (zh) 2021-03-02 2021-03-02 具有周期属性的多因素交互行为异常检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110228567.4A CN112966732B (zh) 2021-03-02 2021-03-02 具有周期属性的多因素交互行为异常检测方法

Publications (2)

Publication Number Publication Date
CN112966732A CN112966732A (zh) 2021-06-15
CN112966732B true CN112966732B (zh) 2022-11-18

Family

ID=76276385

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110228567.4A Active CN112966732B (zh) 2021-03-02 2021-03-02 具有周期属性的多因素交互行为异常检测方法

Country Status (1)

Country Link
CN (1) CN112966732B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117708436B (zh) * 2024-02-05 2024-04-26 福州掌中云科技有限公司 基于大数据的网络文学短剧推荐管理***

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106789885A (zh) * 2016-11-17 2017-05-31 国家电网公司 一种大数据环境下用户异常行为检测分析方法
CN108881194A (zh) * 2018-06-07 2018-11-23 郑州信大先进技术研究院 企业内部用户异常行为检测方法和装置
CN110163618A (zh) * 2019-05-31 2019-08-23 深圳前海微众银行股份有限公司 异常交易的检测方法、装置、设备及计算机可读存储介质
CN110611684A (zh) * 2019-09-27 2019-12-24 国网电力科学研究院有限公司 一种周期性Web访问行为的检测方法、***及存储介质
CN110992041A (zh) * 2019-06-18 2020-04-10 东华大学 在线欺诈检测的个体行为超球体构建方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103532797B (zh) * 2013-11-06 2017-07-04 网之易信息技术(北京)有限公司 一种用户登录异常监测方法和装置
CN107481090A (zh) * 2017-07-06 2017-12-15 众安信息技术服务有限公司 一种用户异常行为检测方法、装置和***
CN110519208B (zh) * 2018-05-22 2021-11-30 华为技术有限公司 异常检测方法、装置及计算机可读介质
CN111400357A (zh) * 2020-02-21 2020-07-10 中国建设银行股份有限公司 一种识别异常登录的方法和装置
CN111611519B (zh) * 2020-05-28 2023-07-11 上海观安信息技术股份有限公司 一种个人异常行为检测方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106789885A (zh) * 2016-11-17 2017-05-31 国家电网公司 一种大数据环境下用户异常行为检测分析方法
CN108881194A (zh) * 2018-06-07 2018-11-23 郑州信大先进技术研究院 企业内部用户异常行为检测方法和装置
CN110163618A (zh) * 2019-05-31 2019-08-23 深圳前海微众银行股份有限公司 异常交易的检测方法、装置、设备及计算机可读存储介质
CN110992041A (zh) * 2019-06-18 2020-04-10 东华大学 在线欺诈检测的个体行为超球体构建方法
CN110611684A (zh) * 2019-09-27 2019-12-24 国网电力科学研究院有限公司 一种周期性Web访问行为的检测方法、***及存储介质

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Abnormal Behavior Detection Scheme of UAV Using Recurrent Neural Networks;KE XIAO et al;《SPECIAL SECTION ON ARTIFICIAL INTELLIGENCE IN CYBERSECURITY》;20190822;第110293-110305页 *
基于内网用户异常行为安全管理研究;匡石磊等;《邮电设计技术》;20190420(第04期);第22-26页 *
基于用户画像的异常行为检测模型;赵刚和姚兴仁;《技术研究》;20171231(第7期);第18-24页 *
多维时间序列异常检测算法综述;胡珉等;《计算机应用》;20200610;第40卷;第1553-1564页 *

Also Published As

Publication number Publication date
CN112966732A (zh) 2021-06-15

Similar Documents

Publication Publication Date Title
US8676726B2 (en) Automatic variable creation for adaptive analytical models
CN109447099B (zh) 一种基于pca降维的多分类器融合方法
US20180322363A1 (en) Multi-distance clustering
CN111143838A (zh) 数据库用户异常行为检测方法
Kumar et al. An information theoretic approach for feature selection
CN110929525A (zh) 一种网贷风险行为分析检测方法、装置、设备和存储介质
CN111310185B (zh) 一种基于改进stacking算法的Android恶意软件检测方法
CN103530312A (zh) 使用多方面足迹的用户标识的方法和***
CN113986674A (zh) 时序数据的异常检测方法、装置和电子设备
CN112966732B (zh) 具有周期属性的多因素交互行为异常检测方法
CN113438239B (zh) 一种基于深度k近邻的网络攻击检测方法及装置
CN110290101B (zh) 智能电网环境中基于深度信任网络的关联攻击行为识别方法
Liu et al. Automatic feature extraction and selection for machine learning based intrusion detection
Pandey et al. A metaheuristic autoencoder deep learning model for intrusion detector system
CN116541792A (zh) 一种基于图神经网络节点分类进行团伙识别的方法
Yang et al. An academic social network friend recommendation algorithm based on decision tree
Wang et al. Conscience online learning: an efficient approach for robust kernel-based clustering
Barman et al. Improving person re-identification systems: A novel score fusion framework for rank-n recognition
Song et al. Isolated forest in keystroke dynamics-based authentication: Only normal instances available for training
CN114519605A (zh) 广告点击欺诈检测方法、***、服务器和存储介质
CN112463964A (zh) 文本分类及模型训练方法、装置、设备及存储介质
Nandakumar et al. A Novel Approach to User Agent String Parsing for Vulnerability Analysis Using Multi-Headed Attention
CN114783007B (zh) 设备指纹识别方法、装置和电子设备
US11595438B2 (en) Webpage phishing detection using deep reinforcement learning
Zhu et al. CasCIFF: A Cross-Domain Information Fusion Framework Tailored for Cascade Prediction in Social Networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant