CN112395262A - 一种基于大数据平台审计日志的用户行为分析方法及*** - Google Patents
一种基于大数据平台审计日志的用户行为分析方法及*** Download PDFInfo
- Publication number
- CN112395262A CN112395262A CN202011282118.XA CN202011282118A CN112395262A CN 112395262 A CN112395262 A CN 112395262A CN 202011282118 A CN202011282118 A CN 202011282118A CN 112395262 A CN112395262 A CN 112395262A
- Authority
- CN
- China
- Prior art keywords
- data
- behavior
- analysis
- user
- audit log
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012550 audit Methods 0.000 title claims abstract description 76
- 238000004458 analytical method Methods 0.000 title claims abstract description 75
- 230000006399 behavior Effects 0.000 claims abstract description 168
- 238000012545 processing Methods 0.000 claims abstract description 43
- 238000000034 method Methods 0.000 claims abstract description 29
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 26
- 238000007781 pre-processing Methods 0.000 claims abstract description 12
- 238000007418 data mining Methods 0.000 claims abstract description 9
- 238000005065 mining Methods 0.000 claims abstract description 8
- 238000012098 association analyses Methods 0.000 claims abstract description 5
- 238000012549 training Methods 0.000 claims description 29
- 238000010276 construction Methods 0.000 claims description 9
- 230000009467 reduction Effects 0.000 claims description 7
- 238000010219 correlation analysis Methods 0.000 claims description 6
- 238000013500 data storage Methods 0.000 claims description 6
- 230000000694 effects Effects 0.000 claims description 6
- 238000005457 optimization Methods 0.000 claims description 6
- 230000006870 function Effects 0.000 claims description 4
- 238000012216 screening Methods 0.000 claims description 4
- 238000002372 labelling Methods 0.000 claims description 2
- 238000001914 filtration Methods 0.000 abstract description 3
- 238000004364 calculation method Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000007621 cluster analysis Methods 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000013433 optimization analysis Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/18—File system types
- G06F16/1805—Append-only file systems, e.g. using logs or journals to store data
- G06F16/1815—Journaling file systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Fuzzy Systems (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于大数据平台审计日志的用户行为分析方法及***,该方法包括以下步骤:S1、依据用户的历史行为数据预先构建行为处理模型;S2、从大数据平台获取用户行为数据包,得到安全审计日志;S3、对审计日志进行预处理,得到标签事务数据集;S4、利用行为处理模型对标签事务数据集进行分析,得到标准结构化行为;S5、对标准结构化行为进行聚类分析,得到行为分类结果;S6、采用关联分析算法对行为分类结果进行挖掘分析,得到用户行为分析结果。有益效果:通过从大数据平台审计日志中基于用户行为进行数据挖掘,比传统的基于关键字过滤更加准确,减少了安全事件的误报和漏报,能够提供更为全面的用户行为分析结果。
Description
技术领域
本发明涉及信息安全技术领域,具体来说,涉及一种基于大数据平台审计日志的用户行为分析方法及***。
背景技术
随着互联网的发展,在电子商务、电子政务、电子服务、休闲娱乐等各个领域都产生了大量的用户网站,用户在网络上浏览这些网站及页面的时候就会产生海量的行为日志,这些海量的日志信息包含了大量的隐藏价值,通过对用户行为信息的研究,可以从中发现用户在访问网站时所表现出来的规律、个性化的习惯等信息,从而为提升用户体验、精准营销、信息推送等提供科学、准确的依据,同时可以根据规律和用户行为偏好,对网站的页面布局、功能完善、***架构做出更加优化的调整。
针对用户行为的研究与应用,最有效的手段是记录用户的所有行为带来的全部用户行为信息,并对全部的用户行为信息日志进行统计、分析。但是,目前现有的用户操作日志数据,只能简单的获取用户做了什么操作,而不能深度分析用户的操作意图,无法提前快速地了解用户在市场上的需求。
针对相关技术中的问题,目前尚未提出有效的解决方案。
发明内容
针对相关技术中的问题,本发明提出一种基于大数据平台审计日志的用户行为分析方法及***,以克服现有相关技术所存在的上述技术问题。
为此,本发明采用的具体技术方案如下:
根据本发明的一个方面,提供了一种基于大数据平台审计日志的用户行为分析方法,该方法包括以下步骤:
S1、依据用户的历史行为数据预先构建行为处理模型,并进行训练;
S2、通过预设方法从大数据平台获取用户行为数据包,得到安全审计日志;
S3、采用预设规则对所述审计日志进行预处理,得到标签事务数据集;
S4、利用所述行为处理模型对标签事务数据集进行分析,得到标准结构化行为;
S5、对所述标准结构化行为进行聚类分析,得到行为分类结果;
S6、采用关联分析算法对所述行为分类结果进行挖掘分析,得到用户行为分析结果。
进一步的,所述S1中依据用户的历史行为数据预先构建行为处理模型,并进行训练具体包括以下步骤:
S11、利用数据获取模块获取用户的历史行为数据;
S12、依据所述历史行为数据通过模型构建模块构建行为处理模型;
S13、对所述行为处理模型进行网络训练,并采用最小化损失函数来更新行为处理模型的参数。
进一步的,所述S13中对所述行为处理模型进行训练还包括以下步骤:
对于训练不足的情况,通过增加网络中的节点,或者增加网络的训练周期来达到训练效果;
对于过度拟合的情况,通过减少或控制训练周期,在数据出现拐点前,停止对网络的训练来达到训练效果。
进一步的,所述S2中通过预设方法获取用户行为数据包,得到安全审计日志具体包括以下步骤:
S21、通过镜像端口和软件探针从大数据平台中获取所有用于用户行为分析的数据包;
S22、对数据报文进行解析,还原真实的访问行为,生成安全审计日志。
进一步的,所述S22中审计日志采用常规审计规则和高级审计规则的方式进行审计;
其中,常规审计规则包括:加固点名称、数据库实例、数据库类型-数据库用户、操作***用户、主机、数据库IP、客户端IP、数据库局域网地址、客户端局域网地址、客户端程序、客户端用户名、客户端端口、请求发生时间、执行时长、结构化查询语言内容关键字以及结构化查询语言结果关键字;
高级审计规则包括:多关键字,基于自主的高速多关键字匹配算法,当多个关键字同时出现时,触发该规则;正则表达式,可以使用正则表达式定义复杂审计规则,如身份证号码、邮件地址;语句级规则,结构化查询语言语句代表的句型的规则;生产完整审计记录。
进一步的,所述S3中采用预设规则对所述审计日志进行预处理,得到标签事务数据集包括以下步骤:
S31、提取、分解所述审计日志中的数据,合并、去除审计日志中不需要的字段,填充缺失内容,并对数据进行归约化表示,得到事务数据集;
S32、通过分析算法对所述事务数据集中的用户行为数据进行分析处理,并根据分析结果打上特定的标签,得到标签事务数据集;
S33、根据所述标签事务数据集的访问次数进行分级存储。
进一步的,所述S32中通过分析算法对所述事务数据集中的用户行为数据进行分析处理,并根据分析结果打上特定的标签包括以下步骤:
通过分析算法对所述事务数据集中的用户行为数据进行分析处理,并判断是否分析成功;若分析成功,则根据分析结果给事务数据集打上特定的标签;若分析不成功,则给事务数据集打上通用标签。
进一步的,所述S33中根据所述标签事务数据集的访问次数进行分级存储具体包括以下步骤:
S331、根据所述标签事务数据集的访问次数生成对应的动态数据热度表;
S332、根据所述动态数据热度表对标签事务数据集进行分级存储,热度高的标签事务数据集存储在高速存储区域,热度低的标签事务数据集存放在低速存储区域。
进一步的,所述S5中对所述标准结构化行为进行聚类分析,得到行为分类结果包括以下步骤:
S51、根据所述标准结构化行为构建行为特征数据库;
S52、依据预设的指标因素,计算所述行为特征数据库中各行为特征的权重,并筛选出优选特征集;
S53、基于所述优选特征集,采用聚类算法进行聚类分析,得到行为分类结果。
根据本发明的另一个方面,提供了一种基于大数据平台审计日志的用户行为分析***,该***包括数据获取模块、模型构建模块、数据处理模块、数据预处理模块、数据聚类模块、数据挖掘分析模块及数据存储模块;
其中,所述数据获取模块用于从大数据平台获取用户行为的数据包,还用于获取数据库中用户的历史行为数据;
所述模型构建模块用于依据历史行为数据构建行为处理模型;
所述数据处理模块用于对***中的所有日志数据进行分析及处理;
所述数据预处理模块用于提取、分解审计日志中的数据,还用于合并、去除审计日志中不需要的字段,填充缺失内容,并对数据进行归约化表示;
所述数据聚类模块用于对标准结构化行为进行特征优选和聚类分析,得出优选特征集和行为分类结果;
所述数据挖掘分析模块用于基于优选特征集和行为分类结果,采用关联分析算法进行挖掘分析,得出行为分析结果;
所述数据存储模块用于对标签事务数据集进行分级存储,还用于对用户的历史行为数据进行存储。
本发明的有益效果为:
1)、本发明通过从大数据平台审计日志中基于用户行为进行数据挖掘,比传统的基于关键字过滤更加准确,减少了安全事件的误报和漏报;此外,通过对用户行为进行归一处理,能够有效解决源数据质量要求较高的问题,降低特征选取的难度,且结合优选特征集和用户行为分类结果进行关联分析,能够提供更为全面的用户行为分析结果。
2)、本发明通过从大数据平台审计日志中对用户的操作日志数据进行分析和挖掘,能够对用户的日志数据进行更深度的智能分析,进一步了解用户的日常行为和动态,进而实现更快速地了解用户在市场上的需求。
3)、本发明通过对标签事务数据集进行热度计算,并使用该热度高低来进行分级管理,从而使得本发明对标签事务数据集的分级更加的人性化,可以更好的便于用户对标签事务数据集的查看。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明实施例的一种基于大数据平台审计日志的用户行为分析方法的流程图;
图2是根据本发明实施例的一种基于大数据平台审计日志的用户行为分析***的结构框图。
具体实施方式
为进一步说明各实施例,本发明提供有附图,这些附图为本发明揭露内容的一部分,其主要用以说明实施例,并可配合说明书的相关描述来解释实施例的运作原理,配合参考这些内容,本领域普通技术人员应能理解其他可能的实施方式以及本发明的优点,图中的组件并未按比例绘制,而类似的组件符号通常用来表示类似的组件。
根据本发明的实施例,提供了一种基于大数据平台审计日志的用户行为分析方法及***。
现结合附图和具体实施方式对本发明进一步说明,如图1所示,根据本发明的一个实施例,提供了一种基于大数据平台审计日志的用户行为分析方法,该方法包括以下步骤:
S1、依据用户的历史行为数据预先构建行为处理模型,并进行训练;
其中,所述S1具体包括以下步骤:
S11、利用数据获取模块获取用户的历史行为数据;
S12、依据所述历史行为数据通过模型构建模块构建行为处理模型(RNN模型);
S13、对所述行为处理模型进行网络训练,并采用最小化损失函数来更新行为处理模型的参数。
具体的,所述S13中对所述行为处理模型进行训练还包括以下步骤:
对于训练不足的情况,通过增加网络中的节点,或者增加网络的训练周期来达到训练效果;
对于过度拟合的情况,通过减少或控制训练周期,在数据出现拐点前,停止对网络的训练来达到训练效果。
S2、通过预设方法从大数据平台获取用户行为数据包,得到安全审计日志;
其中,所述S2具体包括以下步骤:
S21、通过镜像端口和软件探针从大数据平台中获取所有用于用户行为分析的数据包;
S22、对数据报文进行解析,还原真实的访问行为,生成安全审计日志。
具体的,所述S22中审计日志采用常规审计规则和高级审计规则的方式进行审计;
其中,常规审计规则包括:加固点名称、数据库实例、数据库类型-数据库用户、操作***用户、主机、数据库IP、客户端IP、数据库局域网地址、客户端局域网地址、客户端程序、客户端用户名、客户端端口、请求发生时间、执行时长、结构化查询语言内容关键字以及结构化查询语言结果关键字;
高级审计规则包括:多关键字,基于自主的高速多关键字匹配算法,当多个关键字同时出现时,触发该规则;正则表达式,可以使用正则表达式定义复杂审计规则,如身份证号码、邮件地址;语句级规则,结构化查询语言语句代表的句型的规则;生产完整审计记录。
S3、采用预设规则对所述审计日志进行预处理,得到标签事务数据集;
其中,所述S3包括以下步骤:
S31、提取、分解所述审计日志中的数据,合并、去除审计日志中不需要的字段,填充缺失内容,并对数据进行归约化表示,得到事务数据集;
S32、通过分析算法对所述事务数据集中的用户行为数据进行分析处理,并根据分析结果打上特定的标签,得到标签事务数据集;
具体的,所述S32包括以下步骤:
通过分析算法对所述事务数据集中的用户行为数据进行分析处理,并判断是否分析成功;若分析成功,则根据分析结果给事务数据集打上特定的标签;若分析不成功,则给事务数据集打上通用标签。
S33、根据所述标签事务数据集的访问次数进行分级存储。
具体的,所述S33具体包括以下步骤:
S331、根据所述标签事务数据集的访问次数生成对应的动态数据热度表;
S332、根据所述动态数据热度表对标签事务数据集进行分级存储,热度高的标签事务数据集存储在高速存储区域,热度低的标签事务数据集存放在低速存储区域。
S4、利用所述行为处理模型对标签事务数据集进行分析,得到标准结构化行为;
S5、对所述标准结构化行为进行聚类分析,得到行为分类结果;
本实施例中,为减少用户行为数据特征间的分类信息冗余,实现高维特征的降维,可以是对标准结构化行为进行特征优选和聚类分析,选取出有效的特征,得出优选特征集。具体的,可以是根据预设的指标信息,对候选的用户行为特征进行评价计算,筛选出优选特征集,进而根据优选特征集和用户行为分类结果进行聚类分析,提高聚类准确率并减少计算复杂性的有效性,完成用户行为分析的优化。
其中,所述S5包括以下步骤:
S51、根据所述标准结构化行为构建行为特征数据库;
S52、依据预设的指标因素,计算所述行为特征数据库中各行为特征的权重,并筛选出优选特征集;
S53、基于所述优选特征集,采用聚类算法进行聚类分析,得到行为分类结果。
S6、采用关联分析算法对所述行为分类结果进行挖掘分析,得到用户行为分析结果。
本实施例中,采用的关联分析算法为优化后的Apriori算法,具体的,优化处理包括在Apriori算法基础上通过扫描待处理的分析事务,生成候选集、并根据预设的最小支持度生成频繁项集,而后,再通过连接进行项集筛选确定目标特征数据,最后对目标特征数据进行分析,缩小待分析事务集合的范围并降低算法的时间复杂度。在算法中还包括利用时间序列的相关性分析,将时间序列事务通过指定时间间隔进行划分,同时,对获取的频繁项集进行去重并对支持度和置信度进行过程调优。
为了方便理解本发明的上述技术方案,以下就本发明的RNN模型进行说明。
循环神经网络(Recurrent Neural Networks,RNN),也称递归神经网络,是近年来深度学习领域热点技术之一。在机器翻译、语音识别及图像识别领域都取得了巨大成功,在传统神经网络中,通常假设所有的输入层和输出层间是相互独立的,但对于许多任务来说,并不是一个好办法,以企业的财务数据为例,未来财务数据态势是依赖于历史时刻的态势值。
RNN出现的目的是来处理序列数据的。具体的表现形式为网络会对前面的信息进行记忆并应用于当前输出的计算中,即隐藏层之间的节点不再无连接而是有连接的,也就是说隐藏层的输入不仅包括输入层的输出还包括上一时刻隐藏层的输出。理论上,RNN能够对任何长度的序列数据进行处理。在RNN中,每输入一步,每一层各自都共享参数U,V,W。其反映着RNN中的每一步都在做相同的事,只是输入不同,因此大大地降低了网络中需要学习的参数,而且RNN的关键之处在于隐藏层,隐藏层能够捕捉序列的信息。
根据本发明的另一个实施例,如图2所示,提供了一种基于大数据平台审计日志的用户行为分析***,该***包括数据获取模块、模型构建模块、数据处理模块、数据预处理模块、数据聚类模块、数据挖掘分析模块及数据存储模块;
其中,所述数据获取模块用于从大数据平台获取用户行为的数据包,还用于获取数据库中用户的历史行为数据;
所述模型构建模块用于依据历史行为数据构建行为处理模型;
所述数据处理模块用于对***中的所有日志数据进行分析及处理;
所述数据预处理模块用于提取、分解审计日志中的数据,还用于合并、去除审计日志中不需要的字段,填充缺失内容,并对数据进行归约化表示;
所述数据聚类模块用于对标准结构化行为进行特征优选和聚类分析,得出优选特征集和行为分类结果;
所述数据挖掘分析模块用于基于优选特征集和行为分类结果,采用关联分析算法进行挖掘分析,得出行为分析结果;
所述数据存储模块用于对标签事务数据集进行分级存储,还用于对用户的历史行为数据进行存储。
综上所述,借助于本发明的上述技术方案,本发明通过从大数据平台审计日志中基于用户行为进行数据挖掘,比传统的基于关键字过滤更加准确,减少了安全事件的误报和漏报;此外,通过对用户行为进行归一处理,能够有效解决源数据质量要求较高的问题,降低特征选取的难度,且结合优选特征集和用户行为分类结果进行关联分析,能够提供更为全面的用户行为分析结果。
同时,本发明通过从大数据平台审计日志中对用户的操作日志数据进行分析和挖掘,能够对用户的日志数据进行更深度的智能分析,进一步了解用户的日常行为和动态,进而实现更快速地了解用户在市场上的需求。
同时,本发明通过对标签事务数据集进行热度计算,并使用该热度高低来进行分级管理,从而使得本发明对标签事务数据集的分级更加的人性化,可以更好的便于用户对标签事务数据集的查看。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于大数据平台审计日志的用户行为分析方法及***,其特征在于,该方法包括以下步骤:
S1、依据用户的历史行为数据预先构建行为处理模型,并进行训练;
S2、通过预设方法从大数据平台获取用户行为数据包,得到安全审计日志;
S3、采用预设规则对所述审计日志进行预处理,得到标签事务数据集;
S4、利用所述行为处理模型对标签事务数据集进行分析,得到标准结构化行为;
S5、对所述标准结构化行为进行聚类分析,得到行为分类结果;
S6、采用关联分析算法对所述行为分类结果进行挖掘分析,得到用户行为分析结果。
2.根据权利要求1所述的一种基于大数据平台审计日志的用户行为分析方法,其特征在于,所述S1中依据用户的历史行为数据预先构建行为处理模型,并进行训练具体包括以下步骤:
S11、利用数据获取模块获取用户的历史行为数据;
S12、依据所述历史行为数据通过模型构建模块构建行为处理模型;
S13、对所述行为处理模型进行网络训练,并采用最小化损失函数来更新行为处理模型的参数。
3.根据权利要求2所述的一种基于大数据平台审计日志的用户行为分析方法,其特征在于,所述S13中对所述行为处理模型进行训练还包括以下步骤:
对于训练不足的情况,通过增加网络中的节点,或者增加网络的训练周期来达到训练效果;
对于过度拟合的情况,通过减少或控制训练周期,在数据出现拐点前,停止对网络的训练来达到训练效果。
4.根据权利要求1所述的一种基于大数据平台审计日志的用户行为分析方法,其特征在于,所述S2中通过预设方法获取用户行为数据包,得到安全审计日志具体包括以下步骤:
S21、通过镜像端口和软件探针从大数据平台中获取所有用于用户行为分析的数据包;
S22、对数据报文进行解析,还原真实的访问行为,生成安全审计日志。
5.根据权利要求4所述的一种基于大数据平台审计日志的用户行为分析方法,其特征在于,所述S22中审计日志采用常规审计规则和高级审计规则的方式进行审计;
其中,常规审计规则包括:加固点名称、数据库实例、数据库类型-数据库用户、操作***用户、主机、数据库IP、客户端IP、数据库局域网地址、客户端局域网地址、客户端程序、客户端用户名、客户端端口、请求发生时间、执行时长、结构化查询语言内容关键字以及结构化查询语言结果关键字;
高级审计规则包括:多关键字,基于自主的高速多关键字匹配算法,当多个关键字同时出现时,触发该规则;正则表达式,可以使用正则表达式定义复杂审计规则,如身份证号码、邮件地址;语句级规则,结构化查询语言语句代表的句型的规则;生产完整审计记录。
6.根据权利要求1所述的一种基于大数据平台审计日志的用户行为分析方法,其特征在于,所述S3中采用预设规则对所述审计日志进行预处理,得到标签事务数据集包括以下步骤:
S31、提取、分解所述审计日志中的数据,合并、去除审计日志中不需要的字段,填充缺失内容,并对数据进行归约化表示,得到事务数据集;
S32、通过分析算法对所述事务数据集中的用户行为数据进行分析处理,并根据分析结果打上特定的标签,得到标签事务数据集;
S33、根据所述标签事务数据集的访问次数进行分级存储。
7.根据权利要求6所述的一种基于大数据平台审计日志的用户行为分析方法,其特征在于,所述S32中通过分析算法对所述事务数据集中的用户行为数据进行分析处理,并根据分析结果打上特定的标签包括以下步骤:
通过分析算法对所述事务数据集中的用户行为数据进行分析处理,并判断是否分析成功;若分析成功,则根据分析结果给事务数据集打上特定的标签;若分析不成功,则给事务数据集打上通用标签。
8.根据权利要求6所述的一种基于大数据平台审计日志的用户行为分析方法,其特征在于,所述S33中根据所述标签事务数据集的访问次数进行分级存储具体包括以下步骤:
S331、根据所述标签事务数据集的访问次数生成对应的动态数据热度表;
S332、根据所述动态数据热度表对标签事务数据集进行分级存储,热度高的标签事务数据集存储在高速存储区域,热度低的标签事务数据集存放在低速存储区域。
9.根据权利要求1所述的一种基于大数据平台审计日志的用户行为分析方法,其特征在于,所述S5中对所述标准结构化行为进行聚类分析,得到行为分类结果包括以下步骤:
S51、根据所述标准结构化行为构建行为特征数据库;
S52、依据预设的指标因素,计算所述行为特征数据库中各行为特征的权重,并筛选出优选特征集;
S53、基于所述优选特征集,采用聚类算法进行聚类分析,得到行为分类结果。
10.一种基于大数据平台审计日志的用户行为分析***,用以实现权利要求1-9中任一所述的基于大数据平台审计日志的用户行为分析方法的步骤,其特征在于,该***包括数据获取模块、模型构建模块、数据处理模块、数据预处理模块、数据聚类模块、数据挖掘分析模块及数据存储模块;
其中,所述数据获取模块用于从大数据平台获取用户行为的数据包,还用于获取数据库中用户的历史行为数据;
所述模型构建模块用于依据历史行为数据构建行为处理模型;
所述数据处理模块用于对***中的所有日志数据进行分析及处理;
所述数据预处理模块用于提取、分解审计日志中的数据,还用于合并、去除审计日志中不需要的字段,填充缺失内容,并对数据进行归约化表示;
所述数据聚类模块用于对标准结构化行为进行特征优选和聚类分析,得出优选特征集和行为分类结果;
所述数据挖掘分析模块用于基于优选特征集和行为分类结果,采用关联分析算法进行挖掘分析,得出行为分析结果;
所述数据存储模块用于对标签事务数据集进行分级存储,还用于对用户的历史行为数据进行存储。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011282118.XA CN112395262A (zh) | 2020-11-17 | 2020-11-17 | 一种基于大数据平台审计日志的用户行为分析方法及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011282118.XA CN112395262A (zh) | 2020-11-17 | 2020-11-17 | 一种基于大数据平台审计日志的用户行为分析方法及*** |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112395262A true CN112395262A (zh) | 2021-02-23 |
Family
ID=74599629
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011282118.XA Pending CN112395262A (zh) | 2020-11-17 | 2020-11-17 | 一种基于大数据平台审计日志的用户行为分析方法及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112395262A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113704328A (zh) * | 2021-08-31 | 2021-11-26 | 陈靓 | 基于人工智能的用户行为大数据挖掘方法及*** |
CN117149733A (zh) * | 2023-10-26 | 2023-12-01 | 快页信息技术有限公司 | 一种基于大数据的多平台日志审计分析***及方法 |
CN117278343A (zh) * | 2023-11-24 | 2023-12-22 | 戎行技术有限公司 | 一种基于大数据平台数据的数据多级输出处理方法 |
CN117828682A (zh) * | 2024-03-05 | 2024-04-05 | 南京审计大学 | 一种基于审计数据的可信性度量方法、***及介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106599295A (zh) * | 2016-12-27 | 2017-04-26 | 四川中电启明星信息技术有限公司 | 一种用户行为多轨可视化分析取证方法及*** |
CN108965208A (zh) * | 2017-05-19 | 2018-12-07 | 南京骏腾信息技术有限公司 | 基于相关性分析的日志审计方法 |
CN109446816A (zh) * | 2018-10-18 | 2019-03-08 | 中电科大数据研究院有限公司 | 一种基于大数据平台审计日志的用户行为分析方法 |
CN110674636A (zh) * | 2019-09-02 | 2020-01-10 | 中国南方电网有限责任公司 | 一种用电行为分析方法 |
CN111427844A (zh) * | 2020-04-15 | 2020-07-17 | 成都信息工程大学 | 一种面向文件分级存储的数据迁移***及方法 |
CN111565144A (zh) * | 2020-04-26 | 2020-08-21 | 广州数源畅联科技有限公司 | 一种对即时通讯工具的数据分层存储管理方法 |
-
2020
- 2020-11-17 CN CN202011282118.XA patent/CN112395262A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106599295A (zh) * | 2016-12-27 | 2017-04-26 | 四川中电启明星信息技术有限公司 | 一种用户行为多轨可视化分析取证方法及*** |
CN108965208A (zh) * | 2017-05-19 | 2018-12-07 | 南京骏腾信息技术有限公司 | 基于相关性分析的日志审计方法 |
CN109446816A (zh) * | 2018-10-18 | 2019-03-08 | 中电科大数据研究院有限公司 | 一种基于大数据平台审计日志的用户行为分析方法 |
CN110674636A (zh) * | 2019-09-02 | 2020-01-10 | 中国南方电网有限责任公司 | 一种用电行为分析方法 |
CN111427844A (zh) * | 2020-04-15 | 2020-07-17 | 成都信息工程大学 | 一种面向文件分级存储的数据迁移***及方法 |
CN111565144A (zh) * | 2020-04-26 | 2020-08-21 | 广州数源畅联科技有限公司 | 一种对即时通讯工具的数据分层存储管理方法 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113704328A (zh) * | 2021-08-31 | 2021-11-26 | 陈靓 | 基于人工智能的用户行为大数据挖掘方法及*** |
CN117149733A (zh) * | 2023-10-26 | 2023-12-01 | 快页信息技术有限公司 | 一种基于大数据的多平台日志审计分析***及方法 |
CN117149733B (zh) * | 2023-10-26 | 2024-01-09 | 快页信息技术有限公司 | 一种基于大数据的多平台日志审计分析***及方法 |
CN117278343A (zh) * | 2023-11-24 | 2023-12-22 | 戎行技术有限公司 | 一种基于大数据平台数据的数据多级输出处理方法 |
CN117278343B (zh) * | 2023-11-24 | 2024-02-02 | 戎行技术有限公司 | 一种基于大数据平台数据的数据多级输出处理方法 |
CN117828682A (zh) * | 2024-03-05 | 2024-04-05 | 南京审计大学 | 一种基于审计数据的可信性度量方法、***及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11475143B2 (en) | Sensitive data classification | |
CN112395262A (zh) | 一种基于大数据平台审计日志的用户行为分析方法及*** | |
US11190562B2 (en) | Generic event stream processing for machine learning | |
US20190349399A1 (en) | Character string classification method and system, and character string classification device | |
CN111767725B (zh) | 一种基于情感极性分析模型的数据处理方法及装置 | |
CN102073725A (zh) | 结构化数据的搜索方法和实现该搜索方法的搜索引擎*** | |
CN104899229A (zh) | 基于群体智能的行为聚类*** | |
CN110188291B (zh) | 基于代理日志的文档处理 | |
US11354345B2 (en) | Clustering topics for data visualization | |
CN112836025A (zh) | 一种意图识别方法及装置 | |
CN114238573A (zh) | 基于文本对抗样例的信息推送方法及装置 | |
CN113011889A (zh) | 账号异常识别方法、***、装置、设备及介质 | |
CN111951079B (zh) | 一种基于知识图谱的信用评级方法、装置及电子设备 | |
CN111241410A (zh) | 一种行业新闻推荐方法及终端 | |
US11295078B2 (en) | Portfolio-based text analytics tool | |
CN114065765A (zh) | 结合ai和rpa的武器装备文本处理方法、装置及电子设备 | |
US20210342429A1 (en) | Automatic anonymous visitor identity resolution using machine learning | |
CN113688346A (zh) | 一种违法网站识别方法、装置、设备及存储介质 | |
Sudhakar et al. | Web User Profile Generation and Discovery Analysis using LSTM Architecture | |
CN110930189A (zh) | 基于用户行为的个性化营销方法 | |
Sun et al. | Towards Visualized User Profile Analysis from Massive Web Log | |
Mary et al. | A new improved weighted association rule mining with dynamic programming approach for predicting a user’s next access | |
CN116341990B (zh) | 一种基础设施工程的知识管理评价方法及*** | |
CN111930545B (zh) | Sql脚本处理方法、装置和服务器 | |
US20230367782A1 (en) | Graphical user interface enabling interactive visualizations using a meta-database constructed from autonomously scanned disparate and heterogeneous sources |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Address after: 210000 Qinhuai District, Nanjing City, Jiangsu Province, No. 1 Applicant after: Jiangsu puxu Technology Co.,Ltd. Address before: 210000 Qinhuai District, Nanjing City, Jiangsu Province, No. 1 Applicant before: JIANGSU PUXU SOFTWARE INFORMATION TECHNOLOGY Co.,Ltd. |
|
CB03 | Change of inventor or designer information | ||
CB03 | Change of inventor or designer information |
Inventor after: Ge Jianfei Inventor after: Zhang Xuesong Inventor before: Ge Jianfei Inventor before: Zhang Xuesong |