CN116112194A

CN116112194A - 用户行为分析方法、装置、电子设备及计算机存储介质

Info

Publication number: CN116112194A
Application number: CN202211302471.9A
Authority: CN
Inventors: 王亮; 朱豪杰
Original assignee: Chengdu Westone Information Industry Inc
Current assignee: Chengdu Westone Information Industry Inc
Priority date: 2022-10-24
Filing date: 2022-10-24
Publication date: 2023-05-12

Abstract

本公开提供了一种用户行为分析方法、装置、电子设备及计算机存储介质，获取目标用户在目标内网中的待分析数据；将待分析数据转换为对应的特征向量；基于预先训练的异常检测模型对特征向量进行异常检测，得到待分析数据中的异常数据，和/或基于机器学习算法对特征向量进行检测，得到异常数据；基于异常数据生成目标用户的行为画像。本公开中，可以将目标用户在目标内网中的待分析数据转换为对应的特征向量且可以基于预先训练的异常检测模型对特征向量进行异常检测，得到待分析数据中的异常数据，和/或基于机器学习算法对特征向量进行检测，得到异常数据，实现了对待分析数据中的异常数据的准确检测，进而实现了准确对内网中的用户行为进行分析。

Description

用户行为分析方法、装置、电子设备及计算机存储介质

技术领域

本公开涉及网络安全技术领域，更具体地说，涉及用户行为分析方法、装置、电子设备及计算机存储介质。

背景技术

当前，为了便于多个用户间进行相互通信，可以将多个用户纳入设置的内网(Local Area Network)中，使得多个用户借助内网进行通信。然而，由于内网中的计算机之间可以进行访问和通信，且可以进行资源共享等，所以内网的安全受到用户的影响，比如用户恶意传播加密文件、篡改涉密文件等的话，会造成内网的安全性降低。

为了保证内网的安全，可以基于特征知识库和规则匹配识别检测来对用户的行为进行检测，以此来判定内网是否安全；但是基于特征知识库和规则匹配识别检测的方式是一种非黑即白式的检测技术，对领域技术和知识有很强的依赖性，需要领域专家或者专业技术的支撑，且专家知识只能针对历史已发生的恶意特性或者事先能预知的特性来建立规则库，而用户行为的随机性和灵活性很高，专家很难事先预知，所以基于特征知识库和规则匹配识别检测的方式无法检测内网中用户触发的各种各样潜在的“合法”行为，容易出现漏检情况，难以保证内网的安全。

综上所述，如何准确对内网中的用户行为进行分析是目前本领域技术人员亟待解决的问题。

发明内容

本公开的目的是提供一种用户行为分析方法，其能在一定程度上解决如何准确对内网中的用户行为进行分析的技术问题。本公开还提供了一种用户行为分析装置、电子设备及计算机可读存储介质。

根据本公开实施例的第一方面，提供一种用户行为分析方法，包括：

获取目标用户在目标内网中的待分析数据；

将所述待分析数据转换为对应的特征向量；

基于预先训练的异常检测模型对所述特征向量进行异常检测，得到所述待分析数据中的异常数据，和/或基于机器学习算法对所述特征向量进行检测，得到所述异常数据；

基于所述异常数据生成所述目标用户的行为画像。

优选的，所述将所述待分析数据转换为对应的特征向量，包括：

对所述待分析数据进行范式化处理，得到处理结果；

将所述处理结果转换为对应的所述特征向量；

其中，所述范式化处理包括信息补全、属性统一映射、数据校验归并、关联整合、过滤、聚合、异常行为识别。

优选的，所述将所述处理结果转换为对应的所述特征向量，包括：

基于特征处理算子独热编码、和/或N-Gram模型、和/或TF-IDF模型、和/或预设特征算子、和/或预设算法对所述处理结果进行特征处理、转换，得到对应的所述特征向量，所述预设特征算子包括计数、方差、均值。

优选的，所述基于特征处理算子独热编码、和/或N-Gram模型、和/或TF-IDF模型、和/或预设特征算子、和/或预设算法对所述处理结果进行特征处理、转换，得到对应的所述特征向量，包括：

基于所述特征处理算子独热编码对所述待分析数据中的枚举类型数据进行特征处理、转换，得到对应的所述特征向量；

和/或基于所述预设特征算子对所述待分析数据中的待聚合数据进行特征处理、转换，得到对应的所述特征向量；

和/或基于所述N-Gram模型和所述TF-IDF模型对所述待分析数据中的文本类字符串进行特征处理、转换，得到对应的所述特征向量；

和/或基于所述预设算法对所述处理结果进行特征处理、转换，得到对应的所述特征向量。

优选的，所述基于预先训练的异常检测模型对所述特征向量进行异常检测，包括：

基于预先训练的所述异常检测模型对所述特征向量进行异常检测，所述异常检测模型包括基于时序算法和/或分类算法和/或统计分析算法生成的检测模型。

优选的，所述异常检测模型包括：

基于所述时序算法及所述统计分析算法搭建的、对所述待分析数据中的单维度时序数据进行异常检测的第一检测模型；

基于所述分类算法搭建的、对所述待分析数据中的多维有标签数据进行异常检测的第二检测模型，其中，所述分类算法包括SVM、xgboost。

优选的，所述基于机器学习算法对所述特征向量进行检测，包括：

基于所述机器学习算法对所述待分数据中多维无标签数据对应的所述特征向量进行检测，所述机器学习算法包括聚类算法、图算法。

优选的，所述待分析数据的类型包括用户行为信息、涉密信息流转数据、网络流量数据、用户自身信息、内网信息。

优选的，所述基于所述异常数据生成所述目标用户的行为画像，包括：

基于所述异常数据确定所述目标用户的异常行为类别及异常行为事件；

基于所述异常行为类别及所述异常行为事件生成所述行为画像。

优选的，所述异常行为类别包括登录异常、越权违规、操作违规、登录违规、履职异常、数据外发违规中的一个或多个；所述异常行为事件包括：违规降级打印数据、违规使用外设、国外地址登录、违规持有涉密文件、主机登录违规、数据库登录违规、违规访问涉密文件、非常用设备登录、频繁删除账号、频繁变更文件、进程控制违规、违规修改注册信息、非工作时间登录中的一个或多个。

根据本公开实施例的第二方面，提供一种用户行为分析装置，包括：

第一获取模块，用于获取目标用户在目标内网中的待分析数据；

第一转换模块，用于将所述待分析数据转换为对应的特征向量；

第一检测模块，用于基于预先训练的异常检测模型对所述特征向量进行异常检测，得到所述待分析数据中的异常数据，和/或基于机器学习算法对所述特征向量进行检测，得到所述异常数据；

第一生成模块，用于基于所述异常数据生成所述目标用户的行为画像。

根据本公开实施例的第三方面，提供一种电子设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述存储器中的所述计算机程序，以实现如上任一所述方法的步骤。

根据本公开实施例的第四方面，提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上任一所述方法的步骤。

本公开提供的一种用户行为分析方法，获取目标用户在目标内网中的待分析数据；将待分析数据转换为对应的特征向量；基于预先训练的异常检测模型对特征向量进行异常检测，得到待分析数据中的异常数据，和/或基于机器学习算法对特征向量进行检测，得到异常数据；基于异常数据生成目标用户的行为画像。本公开提供的用户行为分析方法中，可以将目标用户在目标内网中的待分析数据转换为对应的特征向量，便于后续对待分析数据进行处理，且可以基于预先训练的异常检测模型对特征向量进行异常检测，得到待分析数据中的异常数据，和/或基于机器学习算法对特征向量进行检测，得到异常数据，实现了对待分析数据中的异常数据的准确检测，这样，之后基于异常数据生成目标用户的行为画像的话，可以生成能够准确反映目标用户的异常行为的行为画像，实现了准确对内网中的用户行为进行分析。本公开涉及的一种用户行为分析装置、电子设备及计算机可读存储介质也解决了相应技术问题。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性的，并不能限制本公开。

附图说明

为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为根据一示例性实施例示出的一种用户行为分析方法的第一流程图；

图2为根据一示例性实施例示出的一种用户行为分析方法的第二流程图；

图3为根据一示例性实施例示出的一种用户行为分析方法的第三流程图；

图4为可视化界面的示意图；

图5为多任务并行计算框架的示意图；

图6为根据一示例性实施例示出的一种用户行为分析方法的第四流程图；

图7为根据一示例性实施例示出的一种用户行为分析装置的结构示意图；

图8为根据一示例性实施例示出的一种电子设备900的框图。

具体实施方式

下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。基于本公开中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本公开保护的范围。

当前，为了便于多个用户间进行相互通信，可以将多个用户纳入设置的内网(Local Area Network)中，使得多个用户借助内网进行通信。然而，由于内网中的计算机之间可以进行访问和通信，且可以进行资源共享等，所以内网的安全受到用户的影响，且近年来数据泄露事件频繁发生，据权威机构调查报告显示，有70％以上的信息泄露事件都来自于企业内网中的“合法”用户，即内网环境中有合法权限，且实施无意或恶意行为对内网安全造成严重威胁的用户，“合法”用户的操作行为因合法而完全可绕过安全防护机制，突破网络边界、窃取敏感数据。

究其原因，是因为内网存在如下问题：内网不属于完全隔离网络，计算机之间可以进行访问和通信，如可以通过邮件、即时通讯等工具进行信息的交换、数据的流转等；部分计算机存在共用情况，可以对数据资源进行共享、传输等，如打印机、刻录机等；存在人为原因导致策略配置失误，如安全管理员将低权限的账号分配了高权限等；内网***本身存在技术或者管理上的脆弱性等。基于上述种种，如果内网用户安全意识、保密意识薄弱等，则容易触发一些不合规或看似“合法”的行为，比如将涉密信息共享给知悉范围权限以外的人员、通过邮件或即时通讯工具将高密级信息流转到低密级域、试图对密级文件进行脱标、尝试篡改涉密文件密级、通过低频而长期操作方式尝试对密级信息进行收集、疏忽大意的用户不及时安装***补丁等等。这些行为均会威胁内网的安全。

为了保证内网的安全，可以基于特征知识库和规则匹配识别检测来对用户的行为进行检测，以此来判定内网是否安全；但是基于特征知识库和规则匹配识别检测的方式是一种非黑即白式的检测技术，对领域技术和知识有很强的依赖性，需要领域专家或者专业技术的支撑，且专家知识只能针对历史已发生的恶意特性或者事先能预知的特性来建立规则库，而用户行为的随机性和灵活性很高，专家很难事先预知，所以基于特征知识库和规则匹配识别检测的方式无法检测内网中用户触发的各种各样潜在的“合法”行为，容易出现漏检情况，难以保证内网的安全。而本申请提供的用户行为分析方法可以准确对内网中的用户行为进行分析。

请参阅图1，图1为根据一示例性实施例示出的一种用户行为分析方法的第一流程图。

本公开涉及的一种用户行为分析方法，可以包括以下步骤：

步骤S101：获取目标用户在目标内网中的待分析数据。

可以理解的是，待分析数据的类型可以根据应用场景来确定，比如待分析数据可以包括用户行为信息、涉密信息流转数据、网络流量数据、用户自身信息、内网信息等；其中，用户行为信息指的是描述用户在内网中相应行为的信息，比如用户的文件发送行为信息、文件删除行为信息等；涉密信息流转数据指的是跟保密相关的信息的流转数据，比如加密文件在内网中的传输数据等；网络流量数据指的是内网中用户行为产生的流量数据等；用户信息、内网信息可以包括人员属性数据、涉密信息属性数据、组织机构信息等。进一步的，在获取目标用户在目标内网中的待分析数据之后，还可以依类对待分析数据进行存储，以便后续快速对相应的待分析数据进行处理，比如可以将用户自身信息、涉密信息流转数据、内网信息存入关系型数据库，将用户行为信息、网络流量数据、内网信息存入elasticsearch集群或队列中等。

可以理解的是，获取目标用户在目标内网中的待分析数据的获取过程也可以根据应用场景来确定，比如可以通过syslog(***日志)、jdbc(Java Database Connectivity，Java Database Connectivity)、rest(Representational State Transfer，表述性状态转移)接口等获取目标用户在目标内网中的待分析数据等。此外，获取的待分析数据的格式可以为日志等，本公开在此不做具体限定。

需要说明的是，应用场景中，可以从beat.hostname、beat.name、beat.versin、事件类别、事件生成时间、事件级别、事件名称、事件责任人部门、事件责任人部门ID、事件责任人ID、事件责任人姓名、事件责任人密级、事件标签、事件类型、主机IP、日志类型、操作结果、事件上报设备资产的Key、事件上报设备IP、Syslog日志上报模块、timestamp、用户名称等角度来对目标用户的相应待分析数据进行记录等，以便用户可以详细、准确的获知待分析数据的相应信息等，比如beat.hostname可以为K-PC，beat.name可以为auditlog，beat.versin可以为7.3.2，事件类别可以为审计日志，事件生成时间可以为2021/3/10T16:00:00.000+0800，事件级别可以为信息，事件名称可以为文件下载审计，事件责任人部门可以为安全应用产品线，事件责任人部门ID可以为01001001003，事件责任人ID可以为e6e6ad937b5a464cb9dfc591d36b1001b，事件责任人姓名可以为黄XX4565，事件责任人密级可以为重要涉密，事件标签可以为行为相关、文件流转，事件类型可以为文件操作审计，主机IP可以为192.168.100.231，日志类型可以为下载文件输出，操作结果可以为操作成功，事件上报设备资产的Key可以为采集代理/Windows/V1.0，事件上报设备IP可以为10.131.110.10，Syslog日志上报模块可以为AUD，timestamp可以为2021/11/26/13:14:11，用户名称可以为黄XX4565等，本公开在此不做具体限定。

步骤S102：将待分析数据转换为对应的特征向量。

可以理解的是，在获取目标用户在目标内网中的待分析数据之后，便可以将待分析数据转换为对应的特征向量，以便后续借助机器学习算法来对特征向量进行处理，进而对待分析数据进行处理。

步骤S103：基于预先训练的异常检测模型对特征向量进行异常检测，得到待分析数据中的异常数据，和/或基于机器学习算法对特征向量进行检测，得到异常数据。

步骤S104：基于异常数据生成目标用户的行为画像。

可以理解的是，在将待分析数据转换为对应的特征向量之后，便可以基于预先训练的异常检测模型对特征向量进行异常检测，得到待分析数据中的异常数据，和/或基于机器学习算法对特征向量进行检测，得到异常数据；进而可以基于异常数据生成目标用户的行为画像。

需要说明的是，本公开中，基于预先训练的异常检测模型对特征向量进行异常检测，得到待分析数据中的异常数据，和/或基于机器学习算法对特征向量进行检测，得到异常数据的频率可以根据应用场景来确定，比如可以在每天的固定时间来基于预先训练的异常检测模型对特征向量进行异常检测，得到待分析数据中的异常数据，和/或基于机器学习算法对特征向量进行检测，得到异常数据；也可以每隔一段时间，比如3天，便基于预先训练的异常检测模型对特征向量进行异常检测，得到待分析数据中的异常数据，和/或基于机器学习算法对特征向量进行检测，得到异常数据等，本公开在此不做具体限定。

本公开提供的一种用户行为分析方法，获取目标用户在目标内网中的待分析数据；将待分析数据转换为对应的特征向量；基于预先训练的异常检测模型对特征向量进行异常检测，得到待分析数据中的异常数据，和/或基于机器学习算法对特征向量进行检测，得到异常数据；基于异常数据生成目标用户的行为画像。本公开提供的用户行为分析方法中，可以将目标用户在目标内网中的待分析数据转换为对应的特征向量，便于后续对待分析数据进行处理，且可以基于预先训练的异常检测模型对特征向量进行异常检测，得到待分析数据中的异常数据，和/或基于机器学习算法对特征向量进行检测，得到异常数据，实现了对待分析数据中的异常数据的准确检测，这样，之后基于异常数据生成目标用户的行为画像的话，可以生成能够准确反映目标用户的异常行为的行为画像，实现了准确对内网中的用户行为进行分析。

请参阅图2，图2为根据一示例性实施例示出的一种用户行为分析方法的第二流程图。

本公开涉及的一种用户行为分析方法，可以包括以下步骤：

步骤S201：获取目标用户在目标内网中的待分析数据。

步骤S202：对待分析数据进行范式化处理，得到处理结果；其中，范式化处理包括信息补全、属性统一映射、数据校验归并、关联整合、过滤、聚合、异常行为识别。

步骤S203：将处理结果转换为对应的特征向量。

可以理解的是，为了准确、快速的对待分析数据进行处理，在将待分析数据转换为对应的特征向量的过程中，可以先对待分析数据进行范式化处理，得到处理结果；再将处理结果转换为对应的特征向量。且范式化处理的类型可以根据应用场景来确定，比如范式化处理可以包括信息补全、属性统一映射、数据校验归并、关联整合、过滤、聚合、异常行为识别等，需要说明的是，信息补全可以包括对组织机构信息补全等，关联整合可以包括对待分析数据中相对孤立的数据进行关联整合等，过滤、聚合可以用于对待分析数据进行去伪存真等，且异常行为识别可以包括敏感操作、异常使用、违规访问、权限异常提升等的识别等，本公开在此不做具体限定。

可以理解的是，将处理结果转换为对应的特征向量的过程可以根据应用场景来确定，比如可以基于特征处理算子独热编码(One-Hot Encoding)、和/或N-Gram模型、和/或TF-IDF(正向词频-逆向文档词频)模型、和/或预设特征算子、和/或预设算法对处理结果进行特征处理、转换，得到对应的特征向量，预设特征算子可以包括计数、方差、均值等中的一个或多个。需要说明的是，为了准确将处理结果转换为对应的特征向量，可以基于处理结果的类型可以选择适应的转换方法，也即在基于特征处理算子独热编码、和/或N-Gram模型、和/或TF-IDF模型、和/或预设特征算子、和/或预设算法对处理结果进行特征处理、转换，得到对应的特征向量的过程中，可以基于特征处理算子独热编码对待分析数据中的枚举类型数据进行特征处理、转换，得到对应的特征向量；和/或基于预设特征算子对待分析数据中的待聚合数据进行特征处理、转换，得到对应的特征向量；和/或基于N-Gram模型和TF-IDF模型对待分析数据中的文本类字符串进行特征处理、转换，比如基于N-Gram模型中的词性标注器模型对文本类字符串进行分词，再构建固定长度词袋模型，最后计算词频/权重等特征处理，得到对应的特征向量等；和/或基于预设算法对处理结果进行特征处理、转换，得到对应的特征向量，预设算法的类型可以根据具体应用场景来确定，本申请在此不做具体限定。

步骤S204：基于预先训练的异常检测模型对特征向量进行异常检测，得到待分析数据中的异常数据，和/或基于机器学习算法对特征向量进行检测，得到异常数据。

步骤S105：基于异常数据生成目标用户的行为画像。

请参阅图3，图3为根据一示例性实施例示出的一种用户行为分析方法的第三流程图。

本公开涉及的一种用户行为分析方法，可以包括以下步骤：

步骤S301：获取目标用户在目标内网中的待分析数据。

步骤S302：将待分析数据转换为对应的特征向量。

步骤S303：基于预先训练的异常检测模型对特征向量进行异常检测，得到待分析数据中的异常数据，和/或基于机器学习算法对特征向量进行检测，得到异常数据；其中，异常检测模型包括基于时序算法和/或分类算法和/或统计分析算法生成的检测模型。

可以理解的是，本公开中基于预先训练的异常检测模型对特征向量进行异常检测时所应用的异常检测模型的类型可以根据应用场景来确定，比如异常检测模型可以包括基于时序算法和/或分类算法和/或统计分析算法生成的检测模型等，且在一些实施场景下中，可以根据所处理的特征向量的类型来确定对应的异常检测模型，例如异常检测模型可以包括基于时序算法及统计分析算法搭建的、对待分析数据中的单维度时序数据进行异常检测的第一检测模型，且第一检测模型可以为历史基线模型等；例如异常检测模型可以包括基于分类算法搭建的、对待分析数据中的多维有标签数据进行异常检测的第二检测模型，其中，分类算法包括SVM(Support Vector Machine，支持向量机)、xgboost等；本公开在此不做具体限定。此外，在应用场景中，还可以将异常检测模型、异常数据等存入数据库或文件等中，比如存入MySQL数据库、elasticsearch数据库等，以借助数据库或文件等对异常检测模型、异常数据等进行管理，且实际应用中，可以从异常数据检测时间、异常检测类型、异常检测类型描述、异常数据、异常检测模型名称、异常检测模型生成算法名称、异常检测模型生成算法类型等角度来记录对异常数据的检测过程等，以便后续基于该记录数据对异常数据的检测过程进行追溯，比如异常数据检测时间可以为2022/5/4，异常检测类型可以为设备上报数据量预测异常检测，异常检测类型描述可以为利用设备上报数据量单维度时序数据预测模型对设备上报日志数据量进行异常检测，异常数据可以为日志上报量，异常检测模型名称可以为设备上报数据量检测模型，异常检测模型生成算法名称可以为Fbrophet，异常检测模型生成算法类型可以为时序算法等，本公开在此不做具体限定。

可以理解的是，在应用场景中，第一检测模型类型可以根据实际需要来确定，比如第一检测模型可以包括基于统计分析算法搭建的对单维数值向量特征进行检测的模型，且统计分析算法的处理过程可以包括特征向量均值计算、特征向量标准差计算、离均差参数配置、检测等；第一检测模型可以包括基于时序算法搭建的对单维时序数值数据进行检测的模型，且时序算法的处理过程可以包括搭建数据趋势预测模型、预测模型学习、置信区设置等。

可以理解的是，应用分类算法对第二检测模型的训练过程可以根据应用场景来确定，比如可以先对特征向量中的多维数据进行标签化，再根据标签化结果将多维数据划分为训练数据和验证数据，应用分类算法对训练数据进行分类，对第二检测模型进行参数配置，再应用训练数据及相应的分类结果对第二检测模型进行训练，训练完成后，应用验证数据对第二检测模型进行验证，若验证第二检测模型为最优模型，则输出第二检测模型，若验证第二检测模型并非最优模型，则可以返回执行对第二检测模型进行参数配置及之后的步骤，直至输出最优的第二检测模型为止。

可以理解的是，基于机器学习算法对特征向量进行检测的过程可以根据应用场景来确定，比如可以基于机器学习算法对待分数据中多维无标签数据对应的特征向量进行检测，在此过程中，可以应用机器学习算法对多维无标签数据对应的特征向量的规律进行挖掘学习，寻找多维无标签数据对应的特征向量中的离群数据点，并将离群数据点作为异常数据等，且其所应用的机器学习算法的类型可以根据应用场景来确定，比如机器学习算法可以包括聚类算法、图算法等，在实施场景中，聚类算法的处理过程可以包括特征聚类计算、异常识别参数配置学习等，图算法的处理过程可以包括判断是否进行hmm(隐马尔可夫模型)学习，若是，则进行hmm学习，之后进行阻尼系数学习，若否，则直接进行阻尼系数学习，之后再基于阻尼系数学习结果确定Topk参数等。

可以理解的是，对异常检测模型的训练过程可以根据应用场景来灵活确定，比如可以定时对异常检测模型进行训练，且可以对异常检测模型进行验证来筛选出最终的异常检测模型等；此外，应用异常检测模型对特征向量进行处理的过程中，可以应用异常检测模型对特征向量进行匹配，若特征向量数据与异常检测模型不匹配，则可以认为该特征向量为异常数据等。

步骤S304：基于异常数据生成目标用户的行为画像。

可以理解的是，在应用场景中，为了便于用户等管控本公开提供的用户行为分析方法，可以为用户设置相应的可视化管理界面，以使得用户等借助可视化管理界面对用户行为分析过程进行管控，需要说明的可视化管理界面的形式可以根据实际需要确定，比如可视化界面可以如图4所示，可以包括任务可视化管理和用户行为可视化管理，其中任务可视化管理可以提供对异常检测模型训练任务和异常检测任务的创建、编辑、删除、克隆、执行及运行结果查看，且执行可以为针对异常检测模型训练任务进行手动或定时执行，删除可以为对任务进行删除，运行结果查看可以为对任务分析结果的查看；异常检测模型训练任务可以包括任务创建/编辑/克隆等，具体的，可以包括对异常检测模型训练任务的数据筛选配置、特征处理模板的配置、分析算法的配置，如算法参数、模型参数、阈值参数等、任务信息、执行周期等的配置等；异常检测任务可以包括任务创建/编辑/克隆，比如对异常检测任务的检测模型配置、数据筛选配置、特征处理模板配置、任务信息等的配置。而用户行为可视化管理可以提供监管用户列表管理、监管用户行为事件列表管理、用户行为画像视图、用户行为时间线详细信息管理等；本公开在此不做具体限定。

可以理解的是，在应用场景中，为了提高本公开提供的用户行为分析方法的运行效率，可以采用多任务并行的方式来实施本公开的方案，且多任务并行的方式可以根据实际需要来确定，比如多任务并行计算框架可以如图5所示，也即多任务并行计算框架可以包括WEB端模块、计算框架主控模块、计算节点模块和监控模块；其中，WEB端模块可以用于负责用户行为分析任务的创建、提交、接收并展示任务执行完的任务状态、任务运行结果反馈；计算框架主控模块可以负责接收WEB端模块的用户行为分析任务申请及执行任务并向Kafka集群分发；Kafka集群模块可以用于负责对计算任务进行分配，即将任务消息分配到相同消费者组中的不同消费者，实现多任务的并发执行；计算节点模块可以用于负责接收计算框架主控模块的计算分配指令、启动具体计算任务的执行，反馈任务运行状态及结果到监控模块等；监控数据收集模块可以用于负责收集，包括但不限于对每个计算节点任务运行状态信息的收集，并将收集到的节点信息推送到WEB端进行展示；数据库集群可以用于负责向各计算节点提供对计算数据的查询、接收并存储各计算节点返回的计算结果、向WEB端提供需要展示的数据查询等。需要说明的是，本实施例所公开的多任务并行计算框架中的认为指的是用户行为分析过程中的相应任务，比如任务可以为异常检测模型训练任务、异常数据分析任务、特征向量转换任务等，换言之，可以借助任务来对本公开中用户行为分析的过程进行拆分执行等，本公开在此不做具体限定。

请参阅图6，图6为根据一示例性实施例示出的一种用户行为分析方法的第四流程图。

本公开涉及的一种用户行为分析方法，可以包括以下步骤：

步骤S401：获取目标用户在目标内网中的待分析数据。

步骤S402：将待分析数据转换为对应的特征向量。

步骤S403：基于预先训练的异常检测模型对特征向量进行异常检测，得到待分析数据中的异常数据，和/或基于机器学习算法对特征向量进行检测，得到异常数据。

步骤S404：基于异常数据确定目标用户的异常行为类别及异常行为事件。

步骤S405：基于异常行为类别及异常行为事件生成行为画像。

可以理解的是，基于异常数据生成目标用户的行为画像的过程可以根据应用场景来确定，比如可以先基于异常数据确定目标用户的异常行为类别及异常行为事件；再基于异常行为类别及异常行为事件生成行为画像。

可以理解的是，异常行为类型及异常行为事件的类型可以根据应用场景来确定，比如异常行为类别可以包括登录异常、越权违规、操作违规、登录违规、履职异常、数据外发违规中的一个或多个等；异常行为事件可以包括：违规降级打印数据、违规使用外设、国外地址登录、违规持有涉密文件、主机登录违规、数据库登录违规、违规访问涉密文件、非常用设备登录、频繁删除账号、频繁变更文件、进程控制违规、违规修改注册信息、非工作时间登录中的一个或多个等。

可以理解的是，进一步的，还可以对目标用户的异常行为事件进行危险等级划分，比如划分为超危、高危、中危、低危等，且可以对目标用户进行风险评分，比如在1-100内对目标用户进行风险评分等，以借助等级划分结果、风险评分结果等来对目标用户威胁目标内网的风险进行量化，以借助量化结果来方便的评估目标用户对目标内网的威胁。

可以理解的是，在一些应用场景中，为了便于运维人员、安全分析人员等获知目标用户的异常行为等信息，还可以借助用户监管列表、用户行为事件监管列表来记载各个用户及对应的异常行为事件，以便运维人员、安全分析人员等借助用户监管列表、用户行为事件监管列表来获知用户的异常行为事件信息；此外，在生成行为画像的过程中，可以由运维人员、安全分析人员等在用户监管列表、用户行为事件监管列表中选择所需查看的用户异常行为事件来生成相应的行为画像，需要说明的是，运维人员、安全分析人员等可以直接在用户监管列表、用户行为事件监管列表中进行选取来确定所需查看的用户异常行为事件，也可以借助设置的搜索框来在用户监管列表、用户行为事件监管列表中选择所需查看的用户异常行为事件等；再者，再借助用户监管列表、用户行为事件监管列表来记载用户的异常行为事件时，还可以按照时间线来记载用户的异常行为事件，以便于运维人员、安全分析人员等按照时间线来对用户异常行为事件进行分析、处理等；本公开在此不做具体限定。

请参阅图7，图7为根据一示例性实施例示出的一种用户行为分析装置的结构示意图。

本公开涉及的一种用户行为分析装置700，可以包括：

第一获取模块710，用于获取目标用户在目标内网中的待分析数据；

第一转换模块720，用于将待分析数据转换为对应的特征向量；

第一检测模块730，用于基于预先训练的异常检测模型对特征向量进行异常检测，得到待分析数据中的异常数据，和/或基于机器学习算法对特征向量进行检测，得到异常数据；

第一生成模块740，用于基于异常数据生成目标用户的行为画像。

本公开涉及的一种用户行为分析装置，第一转换模块可以包括：

第一处理单元，用于对待分析数据进行范式化处理，得到处理结果；

第一转换单元，用于将处理结果转换为对应的特征向量；

其中，范式化处理包括信息补全、属性统一映射、数据校验归并、关联整合、过滤、聚合、异常行为识别。

本公开涉及的一种用户行为分析装置，第一转换单元可以用于：基于特征处理算子独热编码、和/或N-Gram模型、和/或TF-IDF模型、和/或预设特征算子、和/或预设算法对处理结果进行特征处理、转换，得到对应的特征向量，预设特征算子包括计数、方差、均值。

本公开涉及的一种用户行为分析装置，第一转换单元可以用于：基于特征处理算子独热编码对待分析数据中的枚举类型数据进行特征处理、转换，得到对应的特征向量；和/或基于预设特征算子对待分析数据中的待聚合数据进行特征处理、转换，得到对应的特征向量；和/或基于N-Gram模型和TF-IDF模型对待分析数据中的文本类字符串进行特征处理、转换，得到对应的特征向量；和/或基于预设算法对处理结果进行特征处理、转换，得到对应的特征向量。

本公开涉及的一种用户行为分析装置，第一检测模块可以包括：

第一检测单元，用于基于预先训练的异常检测模型对特征向量进行异常检测，异常检测模型包括基于时序算法和/或分类算法和/或统计分析算法生成的检测模型。

本公开涉及的一种用户行为分析装置，异常检测模型包括：

基于时序算法及统计分析算法搭建的、对待分析数据中的单维度时序数据进行异常检测的第一检测模型；

基于分类算法搭建的、对待分析数据中的多维有标签数据进行异常检测的第二检测模型，其中，分类算法包括SVM、xgboost。

第二检测单元，用于基于机器学习算法对待分数据中多维无标签数据对应的特征向量进行检测，机器学习算法包括聚类算法、图算法。

本公开涉及的一种用户行为分析装置，待分析数据的类型可以包括用户行为信息、涉密信息流转数据、网络流量数据、用户自身信息、内网信息。

本公开涉及的一种用户行为分析装置，第一生成模块可以包括：

第一确定单元，用于基于异常数据确定目标用户的异常行为类别及异常行为事件；

第一生成单元，用于基于异常行为类别及异常行为事件生成行为画像。

本公开涉及的一种用户行为分析装置，异常行为类别可以包括登录异常、越权违规、操作违规、登录违规、履职异常、数据外发违规中的一个或多个；异常行为事件可以包括：违规降级打印数据、违规使用外设、国外地址登录、违规持有涉密文件、主机登录违规、数据库登录违规、违规访问涉密文件、非常用设备登录、频繁删除账号、频繁变更文件、进程控制违规、违规修改注册信息、非工作时间登录中的一个或多个。

图8为根据一示例性实施例示出的一种电子设备900的框图。如图8所示，该电子设备900可以包括：处理器901，存储器902。该电子设备900还可以包括多媒体组件903，输入/输出(I/O)接口904，以及通信组件905中的一者或多者。

其中，处理器901用于控制该电子设备900的整体操作，以完成上述的用户行为分析方法中的全部或部分步骤。存储器902用于存储各种类型的数据以支持在该电子设备900的操作，这些数据例如可以包括用于在该电子设备900上操作的任何应用程序或方法的指令，以及应用程序相关的数据，例如联系人数据、收发的消息、图片、音频、视频等等。该存储器902可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，例如静态随机存取存储器(Static Random Access Memory，简称SRAM)，电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，简称EEPROM)，可擦除可编程只读存储器(Erasable Programmable Read-Only Memory，简称EPROM)，可编程只读存储器(Programmable Read-Only Memory，简称PROM)，只读存储器(Read-Only Memory，简称ROM)，磁存储器，快闪存储器，磁盘或光盘。多媒体组件903可以包括屏幕和音频组件。其中屏幕例如可以是触摸屏，音频组件用于输出和/或输入音频信号。例如，音频组件可以包括一个麦克风，麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器902或通过通信组件905发送。音频组件还包括至少一个扬声器，用于输出音频信号。I/O接口904为处理器901和其他接口模块之间提供接口，上述其他接口模块可以是键盘，鼠标，按钮等。这些按钮可以是虚拟按钮或者实体按钮。通信组件905用于该电子设备900与其他设备之间进行有线或无线通信。无线通信，例如Wi-Fi，蓝牙，近场通信(Near FieldCommunication，简称NFC)，2G、3G或4G，或它们中的一种或几种的组合，因此相应的该通信组件905可以包括：Wi-Fi模块，蓝牙模块，NFC模块。

在一示例性实施例中，电子设备900可以被一个或多个应用专用集成电路(Application Specific Integrated Circuit，简称ASIC)、数字信号处理器(DigitalSignal Processor，简称DSP)、数字信号处理设备(Digital Signal Processing Device，简称DSPD)、可编程逻辑器件(Programmable Logic Device，简称PLD)、现场可编程门阵列(Field Programmable Gate Array，简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述的用户行为分析方法。

在另一示例性实施例中，还提供了一种包括程序指令的计算机可读存储介质，该程序指令被处理器执行时实现上述的用户行为分析方法的步骤。例如，该计算机可读存储介质可以为上述包括程序指令的存储器902，上述程序指令可由电子设备900的处理器901执行以完成上述的用户行为分析方法。

本公开实施例提供的用户行为分析装置、电子设备及计算机可读存储介质中相关部分的说明请参见本公开实施例提供的用户行为分析方法中对应部分的详细说明，在此不再赘述。另外，本公开实施例提供的上述技术方案中与现有技术中对应技术方案实现原理一致的部分并未详细说明，以免过多赘述。

还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明，使本领域技术人员能够实现或使用本公开。对这些实施例的多种修改对本领域技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下，在其它实施例中实现。因此，本公开将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种用户行为分析方法，其特征在于，包括：

获取目标用户在目标内网中的待分析数据；

将所述待分析数据转换为对应的特征向量；

基于所述异常数据生成所述目标用户的行为画像。

2.根据权利要求1所述的方法，其特征在于，所述将所述待分析数据转换为对应的特征向量，包括：

对所述待分析数据进行范式化处理，得到处理结果；

将所述处理结果转换为对应的所述特征向量；

3.根据权利要求2所述的方法，其特征在于，所述将所述处理结果转换为对应的所述特征向量，包括：

4.根据权利要求3所述的方法，其特征在于，所述基于特征处理算子独热编码、和/或N-Gram模型、和/或TF-IDF模型、和/或预设特征算子、和/或预设算法对所述处理结果进行特征处理、转换，得到对应的所述特征向量，包括：

5.根据权利要求1所述的方法，其特征在于，所述基于预先训练的异常检测模型对所述特征向量进行异常检测，包括：

6.根据权利要求5所述的方法，其特征在于，所述异常检测模型包括：

7.根据权利要求1所述的方法，其特征在于，所述基于机器学习算法对所述特征向量进行检测，包括：

8.根据权利要求1至7任一项所述的方法，其特征在于，所述待分析数据的类型包括用户行为信息、涉密信息流转数据、网络流量数据、用户自身信息、内网信息。

9.根据权利要求8所述的方法，其特征在于，所述基于所述异常数据生成所述目标用户的行为画像，包括：

10.根据权利要求9所述的方法，其特征在于，所述异常行为类别包括登录异常、越权违规、操作违规、登录违规、履职异常、数据外发违规中的一个或多个；所述异常行为事件包括：违规降级打印数据、违规使用外设、国外地址登录、违规持有涉密文件、主机登录违规、数据库登录违规、违规访问涉密文件、非常用设备登录、频繁删除账号、频繁变更文件、进程控制违规、违规修改注册信息、非工作时间登录中的一个或多个。

11.一种用户行为分析装置，其特征在于，包括：

12.一种电子设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述存储器中的所述计算机程序，以实现权利要求1至10中任一项所述方法的步骤。

13.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至10任一项所述方法的步骤。