CN112306982A - 异常用户检测方法、装置、计算设备及存储介质 - Google Patents

异常用户检测方法、装置、计算设备及存储介质 Download PDF

Info

Publication number
CN112306982A
CN112306982A CN202011276015.2A CN202011276015A CN112306982A CN 112306982 A CN112306982 A CN 112306982A CN 202011276015 A CN202011276015 A CN 202011276015A CN 112306982 A CN112306982 A CN 112306982A
Authority
CN
China
Prior art keywords
user
log
user identifier
sequence
abnormal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011276015.2A
Other languages
English (en)
Other versions
CN112306982B (zh
Inventor
王滨
张峰
万里
王星
李志强
徐文渊
冀晓宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Hikvision Digital Technology Co Ltd
Original Assignee
Hangzhou Hikvision Digital Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Hikvision Digital Technology Co Ltd filed Critical Hangzhou Hikvision Digital Technology Co Ltd
Priority to CN202011276015.2A priority Critical patent/CN112306982B/zh
Publication of CN112306982A publication Critical patent/CN112306982A/zh
Application granted granted Critical
Publication of CN112306982B publication Critical patent/CN112306982B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/1805Append-only file systems, e.g. using logs or journals to store data
    • G06F16/1815Journaling file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3452Performance evaluation by statistical analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computer Hardware Design (AREA)
  • Quality & Reliability (AREA)
  • Databases & Information Systems (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本申请提出了异常用户检测方法、装置、计算设备及存储介质。其中,一种异常用户检测方法,包括:获取历史时间段的日志数据,所述日志数据中每条日志包括用户标识、用户对目标设备的操作行为和日志时间;基于所述日志数据,确定每个用户标识的第一日志序列和每个用户标识在每个时间区间内的第二日志序列;基于所述第一日志序列和所述第二日志序列,确定每个用户标识的第一特征数据和每个用户标识在每个时间区间内的第二特征数据;对第一特征数据进行聚类,得到第一聚类结果;对第二特征数据进行聚类,得到第二聚类结果;根据第一聚类结果,确定异常用户;根据第二聚类结果,确定异常用户。

Description

异常用户检测方法、装置、计算设备及存储介质
技术领域
本申请涉及信息安全技术领域,特别涉及异常用户检测方法、装置、计算设备及存储介质。
背景技术
在一些应用场景中,用户可以对目标设备(例如安防管理平台等)进行操作。安防管理平台例如可以是视频监控平台等。异常用户的操作行为存在信息安全隐患。因此,需要对异常用户进行检测。
目前的异常用户的检测方案,通常基于目标设备的日志,由人工对目标设备上的操作行为进行分析,确定异常操作行为,并查询满足异常操作行为的多个用户进行人工分析,进而确定异常用户。目前的异常用户的检测方案效率较低。
有鉴于此,如何提高异常用户的检测效率是需要解决的技术问题。
发明内容
本申请提出了异常用户检测方法、装置、计算设备及存储介质,能够提高异常用户发现的检测效率。
根据本申请一个方面,提供一种异常用户检测方法,包括:
获取历史时间段的日志数据,所述日志数据中每条日志包括用户标识、用户对目标设备的操作行为和日志时间;
基于所述日志数据,确定每个用户标识的第一日志序列和每个用户标识在每个时间区间内的第二日志序列,其中,所述时间区间为按照单位时长对所述历史时间段进行划分的结果,每个用户标识的第一日志序列为按照日志时间对该用户标识的日志进行排序的结果,每个用户标识在每个时间区间内的第二日志序列为按照日志时间对该用户标识在该时间区间的日志进行排序的结果;
基于所述第一日志序列和所述第二日志序列,确定每个用户标识的第一特征数据和每个用户标识在每个时间区间内的第二特征数据,所述第一特征数据用于表征该用户标识的第一日志序列中操作行为组成的序列的特征,所述第二特征数据用于表征每个用户标识在每个时间区间内的第二日志序列中操作行为组成的序列的特征;
对第一特征数据进行聚类,得到第一聚类结果,所述第一聚类结果用于表征不同用户之间的行为差异;
对第二特征数据进行聚类,得到第二聚类结果,所述第二聚类结果用于表征用户不同时间区间的行为差异;
根据第一聚类结果,确定相应的异常用户;
根据第二聚类结果,确定相应的异常用户。
在一些实施例中,所述基于所述日志数据,确定每个用户标识的第一日志序列和每个用户标识在每个时间区间内的第二日志序列,包括:
按照用户标识对所述日志数据进行划分,确定每个用户标识的日志;
按照时间顺序对每个用户标识的日志进行排序,得到每个用户标识的第一日志序列;
按照时间区间对每个用户标识的第一日志序列进行划分,确定每个用户标识在每个时间区间内的第二日志序列。
在一些实施例中,所述基于所述第一日志序列和所述第二日志序列,确定每个用户标识的第一特征数据和每个用户标识在每个时间区间内的第二特征数据,包括:
利用对目标设备的操作行为的向量,将每个用户标识的每个第二日志序列中操作行为的序列表示为矩阵;
根据每个用户标识的每个第二日志序列的矩阵,确定每个用户标识的第一日志序列的矩阵,第一日志序列的矩阵为第一日志序列中操作行为的序列的向量表示;
对每个用户标识的第一日志序列的矩阵进行特征提取,得到每个用户标识的第一特征数据;
对每个用户标识的每个第二日志序列的矩阵进行特征提取,得到每个用户标识在每个时间区间内的第二特征数据。
在一些实施例中,在所述基于所述第一日志序列和所述第二日志序列,确定每个用户标识的第一特征数据和每个用户标识在每个时间区间内的第二特征数据之前,所述方法进一步包括:
将对目标设备的各种操作行为进行独热编码,得到每种操作行为的编码;
利用词向量模型对每种操作行为的编码进行处理,得到每种操作行为的向量,其中,所述词向量模型根据所述日志数据中操作行为训练得到。
在一些实施例中,所述对每个用户标识的第一日志序列的矩阵进行特征提取,得到每个用户标识的第一特征数据,包括:基于第一长短时记忆网络自编码模型,对每个第一日志序列的矩阵进行特征提取,得到相应的第一特征数据,其中,所述第一长短时记忆网络自编码模型用于提取第一日志序列中操作行为组成的序列的特征;
所述对每个用户标识的每个第二日志序列的矩阵进行特征提取,得到每个用户标识在每个时间区间内的第二特征数据,包括:基于第二长短时记忆网络自编码模型,对每个第二日志序列的矩阵进行特征提取,得到相应的第二特征数据,其中,所述第二长短时记忆网络自编码模型用于提取用户标识在每个时间区间内的第二日志序列中操作行为组成的序列的特征。
在一些实施例中,所述第一长短时记忆网络自编码模型,包括:第一编码模型和第一解码模型;所述第一长短时记忆网络自编码模型的训练过程包括:
将每个第一日志序列的矩阵依次输入第一编码模型,得到相应的第一日志特征;
将所述第一日志特征输入第一解码模型,得到第一解码结果;
根据第一解码结果与第一日志序列之间的差异,训练第一编码模型和第一解码模型,以得到经过训练的第一长短时记忆网络自编码模型;
所述第二长短时记忆网络自编码模型,包括:第二编码模型和第二解码模型;所述第二长短时记忆网络自编码模型的训练过程包括:
将每个第二日志序列的矩阵依次输入第二编码模型,得到相应的第二日志特征;
将所述第二日志特征输入第二解码模型,得到第二解码结果;
根据第二解码结果与第二日志序列之间的差异,训练第二编码模型和第二解码模型,以得到经过训练的第二长短时记忆网络自编码模型。
在一些实施例中,所述根据第一聚类结果,确定相应的异常用户,包括:
根据用户标识与角色类型之间的关系,确定第一聚类结果中每个类的角色类型,类的角色类型在该类中所对应的用户标识数量占比最高;
对于第一聚类结果中任一个第一类,基于该第一类的角色类型,利用下述中至少一种方式确定异常用户:
在该第一类的部分第一特征数据对应的用户标识的角色类型不同于该第一类的角色类型,所述部分第一特征数据在该第一类的占比小于第一占比阈值,并且所述部分第一特征数据的数量小于第一数量阈值时,确定所述部分第一特征数据对应的用户为异常用户;
在第一聚类结果不存在与该第一类的角色类型相同的其他类,该第一类的第一特征数据的数量在该第一类的角色类型对应的已登记用户标识总数中占比小于第二占比阈值,并且该第一类的第一特征数据的数量小于第二数量阈值时,确定该第一类的第一特征数据对应的用户为异常用户;
在第一聚类结果存在与该第一类的角色类型相同的第二类,并且该第一类的第一特征数据的数量在第一类和第二类的第一特征数据的总数中占比小于第三占比阈值,并且该第一类的第一特征数据的数量小于第三数量阈值时,确定该第一类的第一特征数据对应的用户为异常用户。
在一些实施例中,所述根据第二聚类结果,确定相应的异常用户,包括:
获取设定的多个时间段类别标签,所述多个时间段类别标签对应于由一天的时间进行划分得到的多个时间段;
基于所述多个时间段类别标签,确定每个第二聚类结果中每个类的时间段类别标签,其中,类的时间段类别标签在该类中所对应的第二特征数据的数量占比最高;
根据第二聚类结果中每个类的时间段类别标签,利用下述中至少一种方式确定异常用户:
在第二聚类结果中,在一个时间段类别标签的类对应的操作行为异常频繁时,确定该时间段类别标签的类对应的用户为异常用户;
在第二聚类结果中存在时间段类别标签相同的两个类,两个类中操作行为较少的类的操作行为次数在两个类的操作行为总次数中占比小于第四占比阈值,并且两个类中第二特征数据的个数达到第四数量阈值时,确定所述操作行为较少的类对应的用户为异常用户。
在一些实施例中,上述方法进一步包括:
生成对异常用户的告警信息;
对异常用户进行账号锁定。
在一些实施例中,所述生成对异常用户的告警信息,包括:
对于根据第一聚类结果确定的异常用户,生成第一告警信息,所述第一告警信息包括:用户标识、角色类型、对用户在历史时间段的操行行为的统计结果;
对于根据第二聚类结果确定的异常用户,生成第二告警信息,所述第二告警信息包括:用户标识、角色类型、时间段类别标签,用户在时间段类别标签对应的时间段的操行行为的统计结果。
根据本申请一个方面,提供一种异常用户检测装置,包括:
数据处理单元,获取历史时间段的日志数据,所述日志数据中每条日志包括用户标识、用户对目标设备的操作行为和日志时间;基于所述日志数据,确定每个用户标识的第一日志序列和每个用户标识在每个时间区间内的第二日志序列,其中,所述时间区间为按照单位时长对所述历史时间段进行划分的结果,每个用户标识的第一日志序列为按照日志时间对该用户标识的日志进行排序的结果,每个用户标识在每个时间区间内的第二日志序列为按照日志时间对该用户标识在该时间区间的日志进行排序的结果;
特征提取单元,基于所述第一日志序列和所述第二日志序列,确定每个用户标识的第一特征数据和每个用户标识在每个时间区间内的第二特征数据,所述第一特征数据用于表征该用户标识的第一日志序列中操作行为组成的序列的特征,所述第二特征数据用于表征每个用户标识在每个时间区间内的第二日志序列中操作行为组成的序列的特征;
聚类单元,对第一特征数据进行聚类,得到第一聚类结果,所述第一聚类结果用于表征不同用户之间的行为差异;对第二特征数据进行聚类,得到第二聚类结果,所述第二聚类结果用于表征用户不同时间区间的行为差异;
异常分析单元,根据第一聚类结果,确定相应的异常用户;根据第二聚类结果,确定相应的异常用户。
根据本申请一个方面,提供一种计算设备,包括:
存储器;
处理器;
程序,存储在该存储器中并被配置为由所述处理器执行,所述程序包括用于执行根据本申请的异常用户检测方法的指令。
根据本申请一个方面,提供一种存储介质,存储有程序,所述程序包括指令,所述指令当由计算设备执行时,使得所述计算设备执行根据本申请的异常用户检测方法。
综上,根据本申请实施例的异常用户检测方案,能够避免先确定异常操作行为而后从异常操作行为对应的多个用户中选定异常用户的麻烦,能够自动地按照用户标识对日志进行划分,并从用户的日志序列中提取特征数据,并利用特征数据进行聚类,从而准确地确定异常用户,进而能够自动化检测异常用户和提高异常用户的发现效率。特别说明的是,本申请实施例的异常用户检测方案可以在提取特征数据时,充分考虑不同用户之间的行为差异和同一个用户在不同时间区间的用户操作行为的差异,从而能够从横向角度(不同用户之间的行为差异的角度)和纵向角度(同一个用户不同时间区间的用户操作行为的差异的角度)准确地确定异常用户,进而提高了对用户进行异常检测的准确度和提高安防设备的安全性。
附图说明
图1示出了根据本申请一些实施例的应用场景的示意图;
图2示出了根据本申请一些实施例的应用场景的示意图;
图3示出了根据本申请一些实施例的异常用户检测方法300的流程图;
图4示出了根据本申请一些实施例的确定日志序列的方法400的流程图;
图5示出了根据本申请一些实施例的提取特征数据的方法500的流程图;
图6示出了根据本申请一些实施例的确定每种操作行为的向量表示的方法600的流程图;
图7示出了根据本申请一些实施例的训练第一长短时记忆网络自编码模型的方法700的流程图;
图8示出了根据本申请一些实施例的训练第一长短时记忆网络自编码模型的示意图;
图9示出了根据本申请一些实施例的训练第二长短时记忆网络自编码模型的方法900的流程图;
图10示出了根据本申请一些实施例的根据第一聚类结果确定异常用户的方法1000的流程图;
图11示出了根据本申请一些实施例的根据第二聚类结果确定异常用户的方法1100的流程图;
图12示出了根据本申请一些实施例的异常用户检测方法1200的流程图;
图13示出了根据本申请一些实施例的生成对异常用户的告警信息的方法1300的流程图;
图14示出了根据本申请一些实施例的异常用户检测装置1400的示意图;
图15示出了根据本申请一些实施例的异常用户检测装置1500的示意图;
图16示出了根据本申请一些实施例的计算设备的示意图。
具体实施方式
为使本申请的目的、技术方案及优点更加清楚明白,以下参照附图并举实施例,对本申请进一步详细说明。
图1示出了根据本申请一些实施例的应用场景的示意图。
如图1所示,应用场景可以包括多个安防设备110、目标设备120和数据库130。这里,安防设备110例如可以是网络摄像机(IPC)、硬盘录像机(DNR)和网络录像机(NVR)等设备。目标设备120为对安防设备110的管理平台,可以记录与用户操作行为有关的日志数据。日志数据例如可以存储在数据库130中。用户操作行为例如为用户对目标设备120的登入、登出、根据图片查找视频和图像搜索等操作。在一些实施例中,目标设备120可以执行根据本申请的异常用户检测方法。
图2示出了根据本申请一些实施例的应用场景的示意图。
如图2所示,应用场景可以包括多个安防设备110、目标设备120、数据库130和计算设备140。安防设备110例如可以是网络摄像机(IPC)、硬盘录像机(DNR)和网络录像机(NVR)等设备。目标设备120为对安防设备110的管理平台,可以记录与用户操作行为有关的日志数据。日志数据例如可以存储在数据库130中。在一些实施例中,计算设备140可以执行根据本申请的异常用户检测方法。
图3示出了根据本申请一些实施例的异常用户检测方法300的流程图。方法300例如可以在图1的目标设备120或者图2的计算设备140中执行。
如图3所示,在步骤S301中,获取历史时间段的日志数据。日志数据中每条日志包括用户标识、用户对目标设备的操作行为和日志时间。历史时间段例如为过去的一周或者一个月等时间段。日志数据例如可以由目标设备生成并存储在数据库130中。用户对目标设备的操作行为例如可以包括用户对目标设备的登入、登出、根据图片查找视频好的图像搜索等操作。
在步骤S302中,基于日志数据,确定每个用户标识的第一日志序列和每个用户标识在每个时间区间内的第二日志序列。时间区间为按照单位时长对历史时间段进行划分的结果。单位时长例如为一小时、两个小时或者一天等时长。其中,每个用户标识的第一日志序列为按照日志时间对该用户标识的日志进行排序的结果。每个用户标识在每个时间区间内的第二日志序列为按照日志时间对该用户标识在该时间区间的日志进行排序的结果。
在步骤S303中,基于第一日志序列和第二日志序列,确定每个用户标识的第一特征数据和每个用户标识在每个时间区间内的第二特征数据。
其中,每个用户标识的第一特征数据用于表征该用户标识的第一日志序列中操作行为组成的序列的特征。换言之,一个用户标识的第一特征数据可以既表征用户在历史时间段内的操作行为,又表征用户在历史时间段内的操作行为的时序特征。
每个用户标识在每个时间区间内的第二特征数据用于表征每个用户标识在每个时间区间内的第二日志序列中操作行为组成的序列的特征。换言之,对于同一个用户而言,步骤S303可以将不同时间区间的第二日志序列,表示为不同的第二特征数据。一个用户标识的一个时间区间的第二特征数据可以既表征用户在该时间区间内的操作行为,又表征用户在该时间区间内的操作行为的时序特征。
在步骤S304中,对第一特征数据进行聚类,得到第一聚类结果。步骤S304例如可以利用K均值(K-means)等聚类方式进行聚类操作。这里,由于第一特征数据可以既表征用户在历史时间段内的操作行为,又表征用户在历史时间段内的操作行为的时序特征,步骤S304在对第一特征数据进行聚类时,可以充分考虑用户的操作行为的特征和操作行为的时序特征。在此基础上,步骤S304生成的第一聚类结果能够充分体现操作行为的特征和操作行为的时序特征。换言之,步骤S304生成的第一聚类结果可以充分体现不同用户之间的行为差异。
另外说明的是,用户可以划分为不同的角色类型。例如,按照操作行为的权限进行划分,角色类型可以分为管理员、高级用户、中级用户和普通用户。相同角色类型的用户在正常情况下的操作行为具有相似性,而不同角色类型的用户的操作行为具有差异性。步骤S304生成的第一聚类结果可以体现不同用户的操作行为之间的差异。
在步骤S305中,对第二特征数据进行聚类,得到第二聚类结果。步骤S305例如可以利用K-means等聚类方式进行聚类操作。一个用户标识的一个时间区间的第二特征数据可以既表征用户在该时间区间内的操作行为,又表征用户在该时间区间内的操作行为的时序特征。因此,步骤S305在对第二特征数据进行聚类时,可以充分考虑不同时间区间的用户的操作行为的特征和不同时间区间的操作行为的时序特征。在此基础上,步骤S304生成的第一聚类结果能够充分体现每个时间区间内的操作行为的特征和同一个用户不同时间区间的行为差异。
在步骤S306中,根据第一聚类结果,确定相应的异常用户。这里,由于第一聚类结果可以充分体现不同用户之间的行为差异性,步骤S306可以利用不同用户之间的行为差异,准确定位异常用户。例如,管理员和普通用户在正常情况下行为不同。而出现普通用户的行为与管理员相同时,该普通用户存在异常操作嫌疑,步骤S306可以确定该普通用户是否为异常用户。
在步骤S307中,根据第二聚类结果,确定相应的异常用户。由于第二聚类结果可以充分体现不同时间区间的用户操作行为的差异,因此,步骤S307可以利用不同时间区间的用户操作行为的差异,准确定位在特定时间段行为异常的异常用户。
综上,根据本申请实施例的异常用户检测方案,能够避免先确定异常操作行为而后从异常操作行为对应的多个用户中选定异常用户的麻烦,能够自动地按照用户标识对日志进行划分,并从用户的日志序列中提取特征数据,并利用特征数据进行聚类,从而准确确定异常用户,进而能够自动化检测异常用户和提高异常用户的发现效率。特别说明的是,本申请实施例的异常用户检测方案可以在提取特征数据时,充分考虑不同用户之间的行为差异和同一个用户在不同时间区间的用户操作行为的差异,从而能够从横向角度(不同用户之间的行为差异的角度)和纵向角度(同一个用户不同时间区间的用户操作行为的差异的角度)准确地确定异常用户,进而提高了对用户进行异常检测的准确度和提高安防设备的安全性。
在一些实施例中,步骤S302可以实施为方法400。
如图4所示,在步骤S401中,按照用户标识对日志数据进行划分,确定每个用户标识的日志,即,确定每个用户在历史时间段的日志集合。
在步骤S402中,按照时间顺序对每个用户标识的日志进行排序,得到每个用户标识的第一日志序列。
在步骤S403中,按照时间区间对每个用户标识的第一日志序列进行划分,确定每个用户标识在每个时间区间内的第二日志序列。例如,历史时间段为一个月,时间区间为一个月内以小时为单位的时间段。步骤S403可以确定每个用户每个小时内的日志序列。
综上,方法400能够获取到每个用户标识在历史时间段内的总体排序结果和用户标识在单个时间区间的排序结果,以便本申请实施例从总体排序结果提取特征数据,和从单个时间区间的排序结果中提取特征数据。
在一些实施例中,步骤S303可以实施为方法500。
在步骤S501中,利用对目标设备的操作行为的向量,将每个用户标识的每个第二日志序列中操作行为的序列表示为矩阵。
在步骤S502中,根据每个用户标识的每个第二日志序列的矩阵,确定每个用户标识的第一日志序列的矩阵。第一日志序列的矩阵为第一日志序列中操作行为的序列的向量表示。
在步骤S503中,对每个用户标识的第一日志序列的矩阵进行特征提取,得到每个用户标识的第一特征数据。
在步骤S504中,对每个用户标识的每个第二日志序列的矩阵进行特征提取,得到每个用户标识在每个时间区间内的第二特征数据。
综上,根据本申请实施例的方法500能够将日志序列中操作行为的序列表示为矩阵,并基于矩阵提取操作行为的序列的特征数据。
在一些实施例中,本申请的实施例可以通过方法600确定每种操作行为的向量表示。这里,方法600可以在执行方法300之前执行,也可以在执行步骤S303之前执行,本申请对此不做限制。
如图6所示,在步骤S601中将对目标设备的各种操作行为进行独热(one-hot)编码,得到每种操作行为的编码。独热编码也可以称为一位有效编码,是将数据中的最小原子替换为有0和1组成的长度为N的向量的编码方式。一种操作行为的编码中有一位为1,其余位为0。
例如,目标设备的操作行为的类型总数为N。N为正整数。目标设备的所有操作行为的编码可以表示为一个矩阵。矩阵示例如下:
Action_ALL_OneHot=
Figure 39817DEST_PATH_IMAGE001
Action_ALL_OneHot表示目标设备的所有操作行为的编码组成的矩阵,该矩阵规模为N*N,每一行是一个长度为N并且仅有一个数值为1的向量,每一行对应一种操作行为的编码。矩阵一共N行,对应N种操作行为。
在步骤S602中,利用词向量模型对每种操作行为的编码进行处理,得到每种操作行为的向量。这里,词向量(word2vec)模型根据日志数据中操作行为训练得到。具体而言,本申请实施例可以将日志数据中操作行为作为样本,利用连续词袋模型(Continuous Bag-of-words,缩写为CBOW)模型对词向量模型进行训练,得到经过训练的词向量模型。
综上,方法600通过利用词向量模型对操作行为的独热编码进行处理,能够有效克服独热编码丢失数据内部顺序信息、容易造成数据灾难的缺点。方法600通过利用词向量模型对操作行为的独热编码进行处理,能够将每种操作行为表示为定长向量length1,例如为length1=64。这样,方法600通过利用词向量模型获取操作行为的向量表示,可以降低操作行为的向量长度,从而提高后续数据处理(例如提取特征数据的运算)的计算效率,进而提高异常用户的发现效率。
在一些实施例中,步骤S503可以基于第一长短时记忆网络自编码(LSTM-AE)模型,对每个第一日志序列的矩阵进行特征提取,得到相应的第一特征数据。其中,第一长短时记忆网络自编码模型用于提取第一日志序列中操作行为组成的序列的特征。本申请实施例可以通过方法700训练第一长短时记忆网络自编码模型。方法700例如可以在步骤S303之前执行。图8为第一长短时记忆网络自编码模型的示意图。第一长短时记忆网络自编码模型包括:第一编码模型和第一解码模型。
如图7所示,在步骤S701中,将每个第一日志序列的矩阵依次输入第一编码模型, 得到相应的第一日志特征。这里,所有用户的第一日志序列的矩阵例如可以表示为矩阵
Figure 799963DEST_PATH_IMAGE002
Figure 66996DEST_PATH_IMAGE003
其中,
Figure 203579DEST_PATH_IMAGE004
中每一行对应一个样本,一个样本为一个用户的第一日志序列的矩阵, 包含多个操作行为。例如,
Figure 872458DEST_PATH_IMAGE005
=
Figure 803505DEST_PATH_IMAGE006
,规模是frequency*length1,frequency 为行数,表示操作行为的次数,length1表示一个操作行为对应的向量的长度。
步骤S701可以将图8中第一编码模型的最后一个神经元801的输出作为第一日志特征。
在步骤S702中,将第一日志特征输入第一解码模型,得到第一解码结果。第一解码 结果为基于第一日志特征对矩阵
Figure 557834DEST_PATH_IMAGE002
的数据还原。如图8所示,A1至An的数据还原结果依 次为A1 至An
在步骤S703中,根据第一解码结果与第一日志序列之间的差异,训练第一编码模型和第一解码模型,以得到经过训练的第一长短时记忆网络自编码模型。在一些实施例中,步骤S703可以定义一个损失函数和梯度下降优化函数(例如选择均方误差和随机梯度下降方法)。在此基础上,通过随机梯度下降方法不断降低第一解码结果与第一日志序列之间的均方误差,最终使得损失函数收敛,得到训练完成的第一长短时记忆网络自编码模型。
综上,方法700能够利用多个用户的操作行为序列对第一长短时记忆网络自编码模型进行训练,以便本申请的实施例利用第一长短时记忆网络自编码模型提取第一特征数据。
另外说明的是,步骤S503通过利用LSTM-AE对不同用户的第一日志序列的矩阵进行特征提取,能够将不定长度(即不同矩阵中操作行为的次数可能不同)的第一日志序列的矩阵,处理为定长的特征数据,从而方便于准确地对特征数据进行聚类处理。另外,步骤S503利用的LSTM-AE使用了掩码(masking)机制。该机制能够为长度不够的数据自动填充0数据,但在运算时又自动跳过填充的0数据,避免了因为填充0数据导致的数据信息偏移,最大程度的保证了数据的完整性和一致性。另外,步骤S503基于LSTM-AE模型,能够在编码过程中压缩数据维度,提取数据特征,再通过解码过程从数据特征上扩展还原数据,通过比较原数据和还原数据之间的差异训练模型参数,从而能够使得经过训练的模型能够从无标签的数据中提取到第一日志特征。步骤S503通过利用LSTM-AE对不同用户的第一日志序列的矩阵进行特征提取,使得本申请的实施例不需要样本的数据标签。因此本申请的实施例能够进行数据无监督的异常用户检测适用性更广,对于样本数据的容忍度极强。
在一些实施例中,步骤S504可以基于经过训练的第二长短时记忆网络自编码模型,对每个第二日志序列的矩阵进行特征提取,得到相应的第二特征数据。其中,第二长短时记忆网络自编码模型用于提取用户标识在每个时间区间内的第二日志序列中操作行为组成的序列的特征。本申请实施例可以通过方法900训练第二长短时记忆网络自编码模型。第二长短时记忆网络自编码模型包括:第二编码模型和第二解码模型。
如图9所示,在步骤S901中,将每个第二日志序列的矩阵依次输入第二编码模型,得到相应的第二日志特征。
在步骤S902中,将第二日志特征输入第二解码模型,得到第二解码结果。
在步骤S903中,根据第二解码结果与第二日志序列之间的差异,训练第二编码模型和第二解码模型,以得到经过训练的第二长短时记忆网络自编码模型。方法900更具体的实施方式与方法700类似,这里不再赘述。
另外说明的是,在一些实施例中对第一特征数据进行K-means聚类时,步骤S304可以将角色类型的数量加1的结果作为K-means算法的分类数。这样,步骤S304的第一聚类结果可以出现相同角色类型相同的两个类。例如,角色类型包括A、B和C。第一聚类结果包括4个类。4个类的角色类型分别为A、B、C和A。第一个类和第四个类的角色类型相同。角色类型相同的两个类的其中一个存在异常嫌疑。角色类型相同的两个类能够用于确定异常用户。
步骤S306可以根据第一聚类结果确定异常用户。在一些实施例中,步骤S306可以实施为方法1000。
如图10所示,在步骤S1001中,根据用户标识与角色类型之间的关系,确定第一聚类结果中每个类的角色类型。一个类的角色类型在该类中所对应的用户标识数量占比最高。例如,在一个类中包括角色类型A和B,如果角色类型A所对应的用户标识数量占比最高,则该类的角色类型为A。
在步骤S1002中,对于第一聚类结果中任一个第一类,基于该第一类的角色类型,确定异常用户。
步骤S1002可以利用下述中至少一种方式确定异常用户。
在一些实施例中,在该第一类的部分第一特征数据对应的用户标识的角色类型不同于该第一类的角色类型,所述部分第一特征数据在该第一类的占比小于第一占比阈值,并且所述部分第一特征数据的数量小于第一数量阈值时,步骤S1002确定部分第一特征数据对应的用户为异常用户。其中,第一占比阈值例如为0.1。第一数量阈值例如为3。
在一些实施例中,在第一聚类结果不存在与该第一类的角色类型相同的其他类,该第一类的第一特征数据的数量(第一类对应的用户标识的数量)在该第一类的角色类型对应的已登记用户标识总数中占比小于第二占比阈值,并且该第一类的第一特征数据的数量小于第二数量阈值时,步骤S1002确定该第一类的第一特征数据对应的用户为异常用户。其中,第二占比阈值例如为0.1。第二数量阈值例如为3。
在一些实施例中,在第一聚类结果存在与该第一类的角色类型相同的第二类,并且该第一类的第一特征数据的数量在第一类和第二类的第一特征数据的总数中占比小于第三占比阈值,并且该第一类的第一特征数据的数量小于第三数量阈值时,步骤S1002确定该第一类的第一特征数据对应的用户为异常用户。其中,第三占比阈值例如为0.1。第三数量阈值例如为3。简言之,在角色类型相同的两个类(即第一类和第二类)中,步骤S1002可以将第一特征数据的数量较少的类作为异常类,进而确定该类中第一特征数据对应的用户为异常用户。
在一些实施例中对第二特征数据进行K-means聚类时,步骤S305可以设定多个时间段类别标签。例如,多个时间段类别标签对应于由一天的时间进行划分得到的多个时间段,多个时间段类别标签包括LabelA 1:00-9:00, LabelB 9:00-17:00、LabelC 17:00-01:00。
又例如,多个时间段类别标签对应于由一周的时间进行划分得到的多个时间段,包括Label 1工作日和Label 2休息日。
K-means的类别总数可以设置为时间段类别标签的数量加1。这样,第二聚类结果中会出现时间段类别标签相同的两个类。这两个类的时间段类别标签相同,但表征的操作行为不同,能够用于确定异常用户。在一些实施例中,步骤S307可以实施为方法1100。
如图11所示,在步骤S1101中,获取设定的多个时间段类别标签。多个时间段类别标签对应于由一天的时间进行划分得到的多个时间段。例如,多个时间段类别标签包括LabelA 1:00-9:00, LabelB 9:00-17:00、LabelC 17:00-01:00。
在步骤S1102中,基于多个时间段类别标签,确定每个第二聚类结果中每个类的时间段类别标签。其中,一个类的时间段类别标签在该类中所对应的第二特征数据的数量占比最高。
在步骤S1103中,根据第二聚类结果中每个类的时间段类别标签,确定异常用户。
步骤S1103可以利用下述中至少一种方式确定异常用户。
在一些实施例中,在第二聚类结果中,在一个时间段类别标签的类对应的操作行为异常频繁时,步骤S1103可以确定一个时间段类别标签的类对应的用户为异常用户。例如,在LabelA对应的时间段用户操作行为次数>=(LabelB时间段用户操作次数均值 +LabelC时间段用户操作次数均值)/2 时,步骤S1103确定LabelA对应的时间段用户操作异常频繁。LabelA对应的时间段用户操作频繁可以认为是半夜进行大量操作,可能是存在“内鬼”用户或账号失窃。
在一些实施例中,在第二聚类结果中存在时间段类别标签相同的两个类,两个类中操作行为较少的类的操作行为次数在两个类的操作行为总次数中占比小于第四占比阈值,并且两个类中第二特征数据的个数达到第四数量阈值时,步骤S1103可以确定操作行为较少的类对应的用户为异常用户。其中,第四占比阈值例如为0.01, 第四数量阈值例如为100。简言之,在时间段类别标签相同的两个类中,步骤S1103可以将操作行为较少的类作为一个异常类,进而将该类对应的用户确定为异常用户。
综上,方法1100可以根据第二聚类结果中不同类表征的操作行为的特征,精准确定异常用户。
图12示出了根据本申请一些实施例的异常用户检测方法1200的流程图。方法1200例如可以在图1的目标设备120或者图2的计算设备140中执行。
如图12所示,在步骤S1201中,获取历史时间段的日志数据。日志数据中每条日志包括用户标识、用户对目标设备的操作行为和日志时间。
在步骤S1202中,基于日志数据,确定每个用户标识的第一日志序列和每个用户标识在每个时间区间内的第二日志序列。时间区间为按照单位时长对历史时间段进行划分的结果。单位时长例如为一小时、两个小时或者一天等时长。其中,每个用户标识的第一日志序列为按照日志时间对该用户标识的日志进行排序的结果。每个用户标识在每个时间区间内的第二日志序列为按照日志时间对该用户标识在该时间区间的日志进行排序的结果。
在步骤S1203中,基于每个用户标识的第一日志序列和每个用户标识在每个时间区间内的第二日志序列,确定每个用户标识的第一特征数据和每个用户标识在每个时间区间内的第二特征数据。
其中,每个用户标识的第一特征数据用于表征该用户标识的第一日志序列中操作行为组成的序列的特征。换言之,一个用户标识的第一特征数据可以既表征用户在历史时间段内的操作行为,又表征用户在历史时间段内的操作行为的时序特征。
每个用户标识在每个时间区间内的第二特征数据用于表征每个用户标识在每个时间区间内的第二日志序列中操作行为组成的序列的特征。换言之,对于同一个用户而言,步骤S1203可以将不同时间区间的第二日志序列,表示为不同的第二特征数据。一个用户标识的一个时间区间的第二特征数据可以既表征用户在该时间区间内的操作行为,又表征用户在该时间区间内的操作行为的时序特征。
在步骤S1204中,对第一特征数据进行聚类,得到第一聚类结果。步骤S1204例如可以利用K-means等聚类方式进行聚类操作。
这里,由于第一特征数据可以既表征用户在历史时间段内的操作行为,又表征用户在历史时间段内的操作行为的时序特征,步骤S1204在对第一特征数据进行聚类时,可以充分考虑用户的操作行为的特征和操作行为的时序特征。在此基础上,步骤S1204生成的第一聚类结果能够充分体现操作行为的特征和操作行为的时序特征。换言之,步骤S1204生成的第一聚类结果可以充分体现不同用户之间的行为差异。
另外说明的是,用户通常划分为不同的角色类型。例如,按照操作行为的权限进行划分,角色类型可以分为管理员、高级用户、中级用户和普通用户。相同角色类型的用户正常情况下的操作行为具有相似性,而不同角色类型的用户的操作行为具有差异性。步骤S1204生成的第一聚类结果可以体现不同用户的操作行为之间的差异。这里,第一聚类结果中同一个类的用户的操作行为具有较高相似性,而不同类的用户的操作行为之间具有较多差异。
在步骤S1205中,对第二特征数据进行聚类,得到第二聚类结果。步骤S1205例如可以利用K-means等聚类方式进行聚类操作。一个用户标识的一个时间区间的第二特征数据可以既表征用户在该时间区间内的操作行为,又表征用户在该时间区间内的操作行为的时序特征。因此,步骤S1205在对第二特征数据进行聚类时,可以充分考虑不同时间区间的用户的操作行为的特征和不同时间区间的操作行为的时序特征。在此基础上,步骤S1204生成的第一聚类结果能够充分体现每个时间区间内的操作行为的特征和同一个用户不同时间区间的行为差异。
在步骤S1206中,根据第一聚类结果,确定相应的异常用户。这里,由于第一聚类结果可以充分体现不同用户之间的行为差异性,步骤S1206可以利用不同用户之间的行为差异,准确定位异常用户。
在步骤S1207中,根据第二聚类结果,确定相应的异常用户。由于第二聚类结果可以充分体现不同时间区间的用户操作行为的差异,因此,步骤S1207可以利用不同时间区间的用户操作行为的差异,准确定位在特定时间段行为异常的异常用户。
在步骤S1208中,生成对异常用户的告警信息。
在步骤S1209中,对异常用户进行账号锁定。
综上,方法1200能够在确定异常用户之后,生成告警信息和进行账号锁定,以便提高目标设备的信息安全性。
在一些实施例中,步骤S1208可以实施为方法1300。
如图13所示,在步骤S1301中,对于根据第一聚类结果确定的异常用户,生成第一告警信息。第一告警信息包括:用户标识、角色类型、对用户在历史时间段的操行行为的统计结果。这里,统计结果例如可以包括操作行为的类别及每个类别对应的操作次数、用户在每个时间区间内的操作次数最大值及对应的时间。
在步骤S1302中,对于根据第二聚类结果确定的异常用户,生成第二告警信息。第二告警信息包括:用户标识、角色类型、时间段类别标签,用户在时间段类别标签对应的时间段的操行行为的统计结果。
在一些实施例中,步骤S1209锁定时间例如可以设定为3天。若该用户声明是误报,则由超级管理员进行解封。若误报次数较多,则本申请实施例可以根据用户输入调整方法1000和方法1100中的阈值,保证***的正常运行。
图14示出了根据本申请一些实施例的异常用户检测装置1400的示意图。装置1400例如可以部署在图1的目标设备120或者图2的计算设备140中。
异常用户检测装置1400包括:数据处理单元1401、特征提取单元1402、聚类单元1403和异常分析单元1404。
数据处理单元1401,获取历史时间段的日志数据。日志数据中每条日志包括用户标识、用户对目标设备的操作行为和日志时间。基于日志数据,数据处理单元1401确定每个用户标识的第一日志序列和每个用户标识在每个时间区间内的第二日志序列。时间区间为按照单位时长对历史时间段进行划分的结果。每个用户标识的第一日志序列为按照日志时间对该用户标识的日志进行排序的结果。每个用户标识在每个时间区间内的第二日志序列为按照日志时间对该用户标识在该时间区间的日志进行排序的结果。
特征提取单元1402,基于第一日志序列和第二日志序列,确定每个用户标识的第一特征数据和每个用户标识在每个时间区间内的第二特征数据。每个用户标识的第一特征数据用于表征该用户标识的第一日志序列中操作行为组成的序列的特征。每个用户标识在每个时间区间内的第二特征数据用于表征每个用户标识在每个时间区间内的第二日志序列中操作行为组成的序列的特征。
聚类单元1403,对第一特征数据进行聚类,得到第一聚类结果。第一聚类结果用于表征不同用户之间的行为差异。聚类单元1403,对第二特征数据进行聚类,得到第二聚类结果。第二聚类结果用于表征用户不同时间区间的行为差异。
异常分析单元1404,根据第一聚类结果,确定相应的异常用户。异常分析单元1404根据第二聚类结果,确定相应的异常用户。装置1400更具体实施方式与方法300类似,这里不再赘述。
综上,根据本申请实施例的异常用户检测装置1400,能够避免先确定异常操作行为而后从异常操作行为对应的多个用户中选定异常用户的麻烦,能够自动地按照用户标识对日志进行划分,并从用户的日志序列中提取特征数据,并利用特征数据进行聚类,从而准确确定异常用户,进而能够自动化检测异常用户和提高异常用户的发现效率。特别说明的是,本申请实施例的异常用户检测装置1400可以在提取特征数据时,充分考虑不同用户之间的行为差异和同一个用户在不同时间区间的用户操作行为的差异,从而能够从横向角度(不同用户之间的行为差异的角度)和纵向角度(同一个用户不同时间区间的用户操作行为的差异的角度)准确地确定异常用户,进而提高了对用户进行异常检测的准确度。
图15示出了根据本申请一些实施例的异常用户检测装置1500的示意图。装置1500例如可以部署在图1的目标设备120或者图2的计算设备140中。
异常用户检测装置1500包括:数据处理单元1501、特征提取单元1502、聚类单元1503、异常分析单元1504和告警处理单元1505。
数据处理单元1501,获取历史时间段的日志数据。日志数据中每条日志包括用户标识、用户对目标设备的操作行为和日志时间。基于日志数据,数据处理单元1501确定每个用户标识的第一日志序列和每个用户标识在每个时间区间内的第二日志序列。时间区间为按照单位时长对历史时间段进行划分的结果。每个用户标识的第一日志序列为按照日志时间对该用户标识的日志进行排序的结果。每个用户标识在每个时间区间内的第二日志序列为按照日志时间对该用户标识在该时间区间的日志进行排序的结果。
特征提取单元1502,基于第一日志序列和第二日志序列,确定每个用户标识的第一特征数据和每个用户标识在每个时间区间内的第二特征数据。每个用户标识的第一特征数据用于表征该用户标识的第一日志序列中操作行为组成的序列的特征。每个用户标识在每个时间区间内的第二特征数据用于表征每个用户标识在每个时间区间内的第二日志序列中操作行为组成的序列的特征。
聚类单元1503,对第一特征数据进行聚类,得到第一聚类结果。第一聚类结果用于表征不同用户之间的行为差异。聚类单元1503,对第二特征数据进行聚类,得到第二聚类结果。第二聚类结果用于表征用户不同时间区间的行为差异。
异常分析单元1504,根据第一聚类结果,确定相应的异常用户。异常分析单元1504根据第二聚类结果,确定相应的异常用户。
告警处理单元1505可以生成对异常用户的告警信息,并对异常用户进行账号锁定。
综上,装置1500能够在确定异常用户之后,生成告警信息和进行账号锁定,以便提高目标设备的信息安全性。
图16示出了根据本申请一些实施例的计算设备的示意图。如图16所示,该计算设备包括一个或者多个处理器(CPU)1602、通信模块1604、存储器1606、用户接口1610,以及用于互联这些组件的通信总线1608。
处理器1602可通过通信模块1604接收和发送数据以实现网络通信和/或本地通信。
用户接口1610包括一个或多个输出设备1612,其包括一个或多个扬声器和一个或多个屏幕。用户接口1610也包括一个或多个输入设备1614。用户接口1610例如可以是按钮,但不限于此。
存储器1606可以是高速随机存取存储器,诸如DRAM、SRAM、DDR RAM、或其他随机存取固态存储设备;或者非易失性存储器,诸如一个或多个磁盘存储设备、光盘存储设备、闪存设备,或其他非易失性固态存储设备。
存储器1606存储处理器1602可执行的指令集,包括:
操作***1616,包括用于处理各种基本***服务和用于执行硬件相关任务的程序;
应用1618,包括用于实现上述方案的各种程序。这种程序能够实现上述各实例中的处理流程,比如可以包括异常用户检测方法300。
另外,本申请的每一个实施例可以通过由数据处理设备如计算机执行的数据处理程序来实现。显然,数据处理程序构成了本发明。此外,通常存储在一个存储介质中的数据处理程序通过直接将程序读取出存储介质或者通过将程序安装或复制到数据处理设备的存储设备(如硬盘和\或内存)中执行。因此,这样的存储介质也构成了本发明。存储介质可以使用任何类型的记录方式,例如纸张存储介质(如纸带等)、磁存储介质(如软盘、硬盘、闪存等)、光存储介质(如CD-ROM等)、磁光存储介质(如MO等)等。
因此本申请还公开了一种非易失性存储介质,其中存储有程序。该程序包括指令,所述指令当由处理器执行时,使得计算设备执行根据本申请的异常用户检测方法。
另外,本申请所述的方法步骤除了可以用数据处理程序来实现,还可以由硬件来实现,例如,可以由逻辑门、开关、专用集成电路(ASIC)、可编程逻辑控制器和嵌微控制器等来实现。因此这种可以实现本申请所述确定对象之间关系信息的方法的硬件也可以构成本申请。
以上所述仅为本申请的较佳实施例而已,并不用以限制本申请,凡在申请的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本申请保护的范围之内。

Claims (11)

1.一种异常用户检测方法,其特征在于,包括:
获取历史时间段的日志数据,所述日志数据中每条日志包括用户标识、用户对目标设备的操作行为和日志时间;
基于所述日志数据,确定每个用户标识的第一日志序列和每个用户标识在每个时间区间内的第二日志序列,其中,所述时间区间为按照单位时长对所述历史时间段进行划分的结果,每个用户标识的第一日志序列为按照日志时间对该用户标识的日志进行排序的结果,每个用户标识在每个时间区间内的第二日志序列为按照日志时间对该用户标识在该时间区间的日志进行排序的结果;
基于所述第一日志序列和所述第二日志序列,确定每个用户标识的第一特征数据和每个用户标识在每个时间区间内的第二特征数据,所述第一特征数据用于表征该用户标识的第一日志序列中操作行为组成的序列的特征,所述第二特征数据用于表征每个用户标识在每个时间区间内的第二日志序列中操作行为组成的序列的特征;
对第一特征数据进行聚类,得到第一聚类结果,所述第一聚类结果用于表征不同用户之间的行为差异;
对第二特征数据进行聚类,得到第二聚类结果,所述第二聚类结果用于表征用户不同时间区间的行为差异;
根据第一聚类结果,确定相应的异常用户;
根据第二聚类结果,确定相应的异常用户。
2.如权利要求1所述的异常用户检测方法,其特征在于,所述基于所述日志数据,确定每个用户标识的第一日志序列和每个用户标识在每个时间区间内的第二日志序列,包括:
按照用户标识对所述日志数据进行划分,确定每个用户标识的日志;
按照时间顺序对每个用户标识的日志进行排序,得到每个用户标识的第一日志序列;
按照时间区间对每个用户标识的第一日志序列进行划分,确定每个用户标识在每个时间区间内的第二日志序列。
3.如权利要求1所述的异常用户检测方法,其特征在于,所述基于所述第一日志序列和所述第二日志序列,确定每个用户标识的第一特征数据和每个用户标识在每个时间区间内的第二特征数据,包括:
利用对目标设备的操作行为的向量,将每个用户标识的每个第二日志序列中操作行为的序列表示为矩阵;
根据每个用户标识的每个第二日志序列的矩阵,确定每个用户标识的第一日志序列的矩阵,第一日志序列的矩阵为第一日志序列中操作行为的序列的向量表示;
对每个用户标识的第一日志序列的矩阵进行特征提取,得到每个用户标识的第一特征数据;
对每个用户标识的每个第二日志序列的矩阵进行特征提取,得到每个用户标识在每个时间区间内的第二特征数据。
4.如权利要求3所述的异常用户检测方法,其特征在于,在所述基于所述第一日志序列和所述第二日志序列,确定每个用户标识的第一特征数据和每个用户标识在每个时间区间内的第二特征数据之前,所述异常用户检测方法进一步包括:
将对目标设备的各种操作行为进行独热编码,得到每种操作行为的编码;
利用词向量模型对每种操作行为的编码进行处理,得到每种操作行为的向量,其中,所述词向量模型根据所述日志数据中操作行为训练得到。
5.如权利要求3所述的异常用户检测方法,其特征在于,
所述对每个用户标识的第一日志序列的矩阵进行特征提取,得到每个用户标识的第一特征数据,包括:基于第一长短时记忆网络自编码模型,对每个第一日志序列的矩阵进行特征提取,得到相应的第一特征数据,其中,所述第一长短时记忆网络自编码模型用于提取第一日志序列中操作行为组成的序列的特征;
所述对每个用户标识的每个第二日志序列的矩阵进行特征提取,得到每个用户标识在每个时间区间内的第二特征数据,包括:基于第二长短时记忆网络自编码模型,对每个第二日志序列的矩阵进行特征提取,得到相应的第二特征数据,其中,所述第二长短时记忆网络自编码模型用于提取用户标识在每个时间区间内的第二日志序列中操作行为组成的序列的特征。
6.如权利要求5所述的异常用户检测方法,其特征在于,所述第一长短时记忆网络自编码模型,包括:第一编码模型和第一解码模型;所述第一长短时记忆网络自编码模型的训练过程包括:
将每个第一日志序列的矩阵依次输入第一编码模型,得到相应的第一日志特征;
将所述第一日志特征输入第一解码模型,得到第一解码结果;
根据第一解码结果与第一日志序列之间的差异,训练第一编码模型和第一解码模型,以得到经过训练的第一长短时记忆网络自编码模型;
所述第二长短时记忆网络自编码模型,包括:第二编码模型和第二解码模型;所述第二长短时记忆网络自编码模型的训练过程包括:
将每个第二日志序列的矩阵依次输入第二编码模型,得到相应的第二日志特征;
将所述第二日志特征输入第二解码模型,得到第二解码结果;
根据第二解码结果与第二日志序列之间的差异,训练第二编码模型和第二解码模型,以得到经过训练的第二长短时记忆网络自编码模型。
7.如权利要求1所述的异常用户检测方法,其特征在于,所述根据第一聚类结果,确定相应的异常用户,包括:
根据用户标识与角色类型之间的关系,确定第一聚类结果中每个类的角色类型,类的角色类型在该类中所对应的用户标识数量占比最高;
对于第一聚类结果中任一个第一类,基于该第一类的角色类型,利用下述中至少一种方式确定异常用户:
在该第一类的部分第一特征数据对应的用户标识的角色类型不同于该第一类的角色类型,所述部分第一特征数据在该第一类的占比小于第一占比阈值,并且所述部分第一特征数据的数量小于第一数量阈值时,确定所述部分第一特征数据对应的用户为异常用户;
在第一聚类结果不存在与该第一类的角色类型相同的其他类,该第一类的第一特征数据的数量在该第一类的角色类型对应的已登记用户标识总数中占比小于第二占比阈值,并且该第一类的第一特征数据的数量小于第二数量阈值时,确定该第一类的第一特征数据对应的用户为异常用户;
在第一聚类结果存在与该第一类的角色类型相同的第二类,并且该第一类的第一特征数据的数量在第一类和第二类的第一特征数据的总数中占比小于第三占比阈值,并且该第一类的第一特征数据的数量小于第三数量阈值时,确定该第一类的第一特征数据对应的用户为异常用户。
8.如权利要求1所述的异常用户检测方法,其特征在于,所述根据第二聚类结果,确定相应的异常用户,包括:
获取设定的多个时间段类别标签,所述多个时间段类别标签对应于由一天的时间进行划分得到的多个时间段;
基于所述多个时间段类别标签,确定每个第二聚类结果中每个类的时间段类别标签,其中,类的时间段类别标签在该类中所对应的第二特征数据的数量占比最高;
根据第二聚类结果中每个类的时间段类别标签,利用下述中至少一种方式确定异常用户:
在第二聚类结果中,在一个时间段类别标签的类对应的操作行为异常频繁时,确定该时间段类别标签的类对应的用户为异常用户;
在第二聚类结果中存在时间段类别标签相同的两个类,两个类中操作行为较少的类的操作行为次数在两个类的操作行为总次数中占比小于第四占比阈值,并且两个类中第二特征数据的个数达到第四数量阈值时,确定所述操作行为较少的类对应的用户为异常用户。
9.一种异常用户检测装置,其特征在于,包括:
数据处理单元,获取历史时间段的日志数据,所述日志数据中每条日志包括用户标识、用户对目标设备的操作行为和日志时间;基于所述日志数据,确定每个用户标识的第一日志序列和每个用户标识在每个时间区间内的第二日志序列,其中,所述时间区间为按照单位时长对所述历史时间段进行划分的结果,每个用户标识的第一日志序列为按照日志时间对该用户标识的日志进行排序的结果,每个用户标识在每个时间区间内的第二日志序列为按照日志时间对该用户标识在该时间区间的日志进行排序的结果;
特征提取单元,基于所述第一日志序列和所述第二日志序列,确定每个用户标识的第一特征数据和每个用户标识在每个时间区间内的第二特征数据,所述第一特征数据用于表征该用户标识的第一日志序列中操作行为组成的序列的特征,所述第二特征数据用于表征每个用户标识在每个时间区间内的第二日志序列中操作行为组成的序列的特征;
聚类单元,对第一特征数据进行聚类,得到第一聚类结果,所述第一聚类结果用于表征不同用户之间的行为差异;对第二特征数据进行聚类,得到第二聚类结果,所述第二聚类结果用于表征用户不同时间区间的行为差异;
异常分析单元,根据第一聚类结果,确定相应的异常用户;根据第二聚类结果,确定相应的异常用户。
10.一种计算设备,其特征在于,包括:
存储器;
处理器;
程序,存储在该存储器中并被配置为由所述处理器执行,所述程序包括用于执行权利要求1-8中任一项所述的异常用户检测方法的指令。
11.一种存储介质,存储有程序,所述程序包括指令,其特征在于,所述指令当由计算设备执行时,使得所述计算设备执行如权利要求1-8中任一项所述的异常用户检测方法。
CN202011276015.2A 2020-11-16 2020-11-16 异常用户检测方法、装置、计算设备及存储介质 Active CN112306982B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011276015.2A CN112306982B (zh) 2020-11-16 2020-11-16 异常用户检测方法、装置、计算设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011276015.2A CN112306982B (zh) 2020-11-16 2020-11-16 异常用户检测方法、装置、计算设备及存储介质

Publications (2)

Publication Number Publication Date
CN112306982A true CN112306982A (zh) 2021-02-02
CN112306982B CN112306982B (zh) 2021-07-16

Family

ID=74334466

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011276015.2A Active CN112306982B (zh) 2020-11-16 2020-11-16 异常用户检测方法、装置、计算设备及存储介质

Country Status (1)

Country Link
CN (1) CN112306982B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113282552A (zh) * 2021-06-04 2021-08-20 上海天旦网络科技发展有限公司 流量统计日志的相似性向量化方法及***
CN113326507A (zh) * 2021-05-31 2021-08-31 北京天融信网络安全技术有限公司 一种识别内网潜在威胁业务账号的方法及装置
CN113360656A (zh) * 2021-06-29 2021-09-07 未鲲(上海)科技服务有限公司 异常数据检测方法、装置、设备及存储介质
CN113419890A (zh) * 2021-06-30 2021-09-21 中国银行股份有限公司 异常类型检测方法、装置、服务器及介质
CN113535454A (zh) * 2021-07-15 2021-10-22 上海上讯信息技术股份有限公司 一种日志数据异常检测的方法及设备
CN114143786A (zh) * 2021-11-29 2022-03-04 爱浦路网络技术(北京)有限公司 基于5g的用户识别方法、***、装置及存储介质

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105653427A (zh) * 2016-03-04 2016-06-08 上海交通大学 基于行为异常检测的日志监控方法
CN107528832A (zh) * 2017-08-04 2017-12-29 北京中晟信达科技有限公司 一种面向***日志的基线构建与未知异常行为检测方法
CN109284372A (zh) * 2018-09-03 2019-01-29 平安证券股份有限公司 用户操作行为分析方法、电子装置及计算机可读存储介质
CN109284371A (zh) * 2018-09-03 2019-01-29 平安证券股份有限公司 反欺诈方法、电子装置及计算机可读存储介质
CN110287439A (zh) * 2019-06-27 2019-09-27 电子科技大学 一种基于lstm的网络行为异常检测方法
CN110321371A (zh) * 2019-07-01 2019-10-11 腾讯科技(深圳)有限公司 日志数据异常检测方法、装置、终端及介质
CN110347547A (zh) * 2019-05-27 2019-10-18 中国平安人寿保险股份有限公司 基于深度学习的日志异常检测方法、装置、终端及介质
CN110781930A (zh) * 2019-10-14 2020-02-11 西安交通大学 一种基于网络安全设备日志数据的用户画像分组及行为分析方法和***
CN111124925A (zh) * 2019-12-25 2020-05-08 斑马网络技术有限公司 基于大数据的场景提取方法、装置、设备和存储介质
CN111343173A (zh) * 2020-02-21 2020-06-26 腾讯云计算(北京)有限责任公司 数据访问的异常监测方法及装置
US20200228552A1 (en) * 2019-01-14 2020-07-16 Penta Security Systems Inc. Method and apparatus for detecting abnormal behavior of groupware user
CN111538642A (zh) * 2020-07-02 2020-08-14 杭州海康威视数字技术股份有限公司 一种异常行为的检测方法、装置、电子设备及存储介质
CN111694718A (zh) * 2020-05-27 2020-09-22 平安普惠企业管理有限公司 内网用户异常行为识别方法、装置、计算机设备及可读存储介质

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105653427A (zh) * 2016-03-04 2016-06-08 上海交通大学 基于行为异常检测的日志监控方法
CN107528832A (zh) * 2017-08-04 2017-12-29 北京中晟信达科技有限公司 一种面向***日志的基线构建与未知异常行为检测方法
CN109284372A (zh) * 2018-09-03 2019-01-29 平安证券股份有限公司 用户操作行为分析方法、电子装置及计算机可读存储介质
CN109284371A (zh) * 2018-09-03 2019-01-29 平安证券股份有限公司 反欺诈方法、电子装置及计算机可读存储介质
US20200228552A1 (en) * 2019-01-14 2020-07-16 Penta Security Systems Inc. Method and apparatus for detecting abnormal behavior of groupware user
CN110347547A (zh) * 2019-05-27 2019-10-18 中国平安人寿保险股份有限公司 基于深度学习的日志异常检测方法、装置、终端及介质
CN110287439A (zh) * 2019-06-27 2019-09-27 电子科技大学 一种基于lstm的网络行为异常检测方法
CN110321371A (zh) * 2019-07-01 2019-10-11 腾讯科技(深圳)有限公司 日志数据异常检测方法、装置、终端及介质
CN110781930A (zh) * 2019-10-14 2020-02-11 西安交通大学 一种基于网络安全设备日志数据的用户画像分组及行为分析方法和***
CN111124925A (zh) * 2019-12-25 2020-05-08 斑马网络技术有限公司 基于大数据的场景提取方法、装置、设备和存储介质
CN111343173A (zh) * 2020-02-21 2020-06-26 腾讯云计算(北京)有限责任公司 数据访问的异常监测方法及装置
CN111694718A (zh) * 2020-05-27 2020-09-22 平安普惠企业管理有限公司 内网用户异常行为识别方法、装置、计算机设备及可读存储介质
CN111538642A (zh) * 2020-07-02 2020-08-14 杭州海康威视数字技术股份有限公司 一种异常行为的检测方法、装置、电子设备及存储介质

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113326507A (zh) * 2021-05-31 2021-08-31 北京天融信网络安全技术有限公司 一种识别内网潜在威胁业务账号的方法及装置
CN113326507B (zh) * 2021-05-31 2023-09-26 北京天融信网络安全技术有限公司 一种识别内网潜在威胁业务账号的方法及装置
CN113282552A (zh) * 2021-06-04 2021-08-20 上海天旦网络科技发展有限公司 流量统计日志的相似性向量化方法及***
CN113360656A (zh) * 2021-06-29 2021-09-07 未鲲(上海)科技服务有限公司 异常数据检测方法、装置、设备及存储介质
WO2023272851A1 (zh) * 2021-06-29 2023-01-05 未鲲(上海)科技服务有限公司 异常数据检测方法、装置、设备及存储介质
CN113419890A (zh) * 2021-06-30 2021-09-21 中国银行股份有限公司 异常类型检测方法、装置、服务器及介质
CN113535454A (zh) * 2021-07-15 2021-10-22 上海上讯信息技术股份有限公司 一种日志数据异常检测的方法及设备
CN114143786A (zh) * 2021-11-29 2022-03-04 爱浦路网络技术(北京)有限公司 基于5g的用户识别方法、***、装置及存储介质

Also Published As

Publication number Publication date
CN112306982B (zh) 2021-07-16

Similar Documents

Publication Publication Date Title
CN112306982B (zh) 异常用户检测方法、装置、计算设备及存储介质
CN112765603B (zh) 一种结合***日志与起源图的异常溯源方法
CN112163008B (zh) 基于大数据分析的用户行为数据处理方法及云计算平台
CN112860943A (zh) 一种教学视频审核方法、装置、设备及介质
EP3391334A1 (en) Video analysis methods and apparatus
CN110046297B (zh) 运维违规操作的识别方法、装置和存储介质
CN111143178B (zh) 用户行为分析方法、装置及设备
KR102359090B1 (ko) 실시간 기업정보시스템 이상행위 탐지 서비스를 제공하는 방법과 시스템
WO2023179429A1 (zh) 一种视频数据的处理方法、装置、电子设备及存储介质
CN113515606A (zh) 基于智慧医疗安全的大数据处理方法及智慧医疗ai***
CN112380922A (zh) 复盘视频帧确定方法、装置、计算机设备和存储介质
CN116561748A (zh) 一种组件子序列相关性感知的日志异常检测装置
Paul et al. Text-based temporal localization of novel events
CN112348041B (zh) 日志分类、日志分类训练方法及装置、设备、存储介质
CN113919544B (zh) 犯罪预警方法、装置、计算机设备及存储介质
Alherbawi et al. JPEG image classification in digital forensic via DCT coefficient analysis
Lazreg et al. Semantic Decay Filter for Event Detection.
CN114090850A (zh) 日志分类方法、电子设备及计算机可读存储介质
CN114363664A (zh) 生成视频合集标题的方法及装置
CN113992419A (zh) 一种用户异常行为检测和处理***及其方法
Venkataraman et al. Towards identifying impacted users in cellular services
KR20210024748A (ko) Gan을 이용한 문서형 악성코드 탐지 장치 및 방법
Li et al. Application-oblivious L7 parsing using recurrent neural networks
CN117436073B (zh) 一种基于智能标签的安全日志告警方法、介质和设备
Harper et al. The application of neural networks to predicting the root cause of service failures

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant