CN117540325B - 基于数据变化量捕获的业务数据库异常检测方法及*** - Google Patents

基于数据变化量捕获的业务数据库异常检测方法及*** Download PDF

Info

Publication number
CN117540325B
CN117540325B CN202410019501.8A CN202410019501A CN117540325B CN 117540325 B CN117540325 B CN 117540325B CN 202410019501 A CN202410019501 A CN 202410019501A CN 117540325 B CN117540325 B CN 117540325B
Authority
CN
China
Prior art keywords
user
data operation
operation type
sampling time
service
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202410019501.8A
Other languages
English (en)
Other versions
CN117540325A (zh
Inventor
石杰
廖家林
陶嘉驹
张雪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangyin Consumer Finance Co ltd
Original Assignee
Hangyin Consumer Finance Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangyin Consumer Finance Co ltd filed Critical Hangyin Consumer Finance Co ltd
Priority to CN202410019501.8A priority Critical patent/CN117540325B/zh
Publication of CN117540325A publication Critical patent/CN117540325A/zh
Application granted granted Critical
Publication of CN117540325B publication Critical patent/CN117540325B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2433Single-class perspective, e.g. one-against-all classification; Novelty detection; Outlier detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/302Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a software system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3438Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment monitoring of user actions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/80Database-specific techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/865Monitoring of software

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Quality & Reliability (AREA)
  • Computing Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及数据异常检测技术领域,具体涉及基于数据变化量捕获的业务数据库异常检测方法及***,本发明根据用户的每个数据操作类型的业务使用变化值的变化情况以及不同用户之间业务使用变化值的整体相似情况,得到参考显著程度;结合当前采样时刻下的参考显著程度的相对差异以及时序差异,得到调整必要性;进一步地对根据调整必要性筛选出调整数据操作类型的业务使用变化值通过对应的调整必要性进行加权,输入到LOF算法后得到更加准确的加权局部离群因子,使得根据加权局部离群因子筛选出实际异常用户更加准确,也即对业务数据库异常检测效果更好。

Description

基于数据变化量捕获的业务数据库异常检测方法及***
技术领域
本发明涉及数据异常检测技术领域,具体涉及基于数据变化量捕获的业务数据库异常检测方法及***。
背景技术
为了保证业务数据库中数据的完整性和质量,通常需要对违规异常操作的用户进行记录或是监视,因此通常需要实时记录每个数据操作类型例如归档、删除、备份以及索引管理等操作类型的业务使用次数。考虑到根据每个采样时刻的业务使用变化值,针对数据库的指标固定阈值进行异常检测的方法鲁棒性较差,可能导致在复杂的运行情况中出现对业务数据库中异常用户操作的误判或漏判,导致业务数据库的运行安全性降低。
现有技术通常采用局部异常因子(Local Outlier Factor,LOF)算法,根据每个用户对业务数据库的业务使用频率进行离群数据点检测,从而筛选出业务使用异常的异常用户。但是LOF算法对应的离群数据点检测对数据的质量要求较高,当网络环境复杂时数据源对局部时序上环境影响的情况不能够明显表现,并且根据单个用户操作行为进行异常筛选较为片面,从而导致局部离群因子的计算准确度下降,造成筛选出的异常用户不够准确,使得对业务数据库异常检测效果较差。
发明内容
为了解决现有技术通常采用局部异常因子算法根据每个用户对业务数据库的业务使用频率进行离群数据点检测,所筛选出的异常用户不够准确,使得对业务数据库异常检测效果较差的技术问题,本发明的目的在于提供一种基于数据变化量捕获的业务数据库异常检测方法及***,所采用的技术方案具体如下:
本发明提出了一种基于数据变化量捕获的业务数据库异常检测方法,所述方法包括:
在业务数据库中,获取每个用户在每个采样时刻下的每个数据操作类型的业务使用变化值;
根据每个用户的每个数据操作类型的业务使用变化值的时序变化情况,以及每个采样时刻下不同用户之间各个数据操作类型的业务使用变化值的整体相似情况,得到每个用户在每个采样时刻下的每个数据操作类型的参考显著程度;
在当前采样时刻下,根据每个用户对应的各个数据操作类型的参考显著程度的相对差异,以及时间顺序上每个数据操作类型的参考显著程度的变化情况,得到每个用户在当前采样时刻下每个数据操作类型的调整必要性;根据所述调整必要性筛选出每个用户在当前采样时刻下的调整数据操作类型;
根据所述显著特征值对每个用户在当前采样时刻下所述调整数据操作类型的业务使用变化值进行加权,并结合LOF算法得到每个用户的加权局部离群因子;根据所述加权局部离群因子筛选出实际异常用户。
进一步地,所述参考显著程度的获取方法包括:
对于任意一个用户:
依次将每个采样时刻作为目标采样时刻;将目标采样时刻以及之前的每个采样时刻作为参考采样时刻;
将每个数据操作类型在所有采样时刻的业务使用变化值的方差,作为每个数据操作类型在目标采样时刻的业务使用波动指数;将每个数据操作类型在所有采样时刻的业务使用变化值的均值,作为每个数据操作类型在目标采样时刻的标准使用变化值;在每个数据操作类型中,计算每个参考采样时刻的业务使用变化值与标准使用变化值的差值,将所述差值与所述业务使用波动指数的比值的正相关映射值,作为每个数据操作类型在每个参考采样时刻的局部波动显著度;
根据每个数据操作类型在所有参考采样时刻的局部波动显著度的整体分布情况,得到用户在目标采样时刻下的每个数据操作类型的增长异常程度;
在每个采样时刻下,将每个用户与其余每个用户之间的所有数据操作类型的业务使用变化值的分布相似情况,得到每个用户在每个采样时刻下的业务变化显著性;
根据所述增长异常程度和所述业务变化显著性,得到每个用户在每个采样时刻下的每个数据操作类型的参考显著程度,所述增长异常程度和所述业务变化显著性均与所述参考显著程度呈正相关。
进一步地,所述业务变化显著性的获取方法包括:
在每个采样时刻下,将每个用户对应的所有数据操作类型的业务使用变化值组成列向量,得到每个采样时刻下每个用户对应的用户状态描述向量,其中,不同采样时刻下不同用户状态描述向量中的数据操作类型排列顺序相同;
依次将每个用户作为目标用户,将目标用户之外的其他用户作为对比用户;在每个采样时刻下,将目标用户的用户状态描述向量与每个对比用户的用户状态描述向量之间的余弦相似性,作为每个对比用户对应的参考相似性;将所有对比用户的参考相似性的均值的负相关映射值,作为目标用户在每个采样时刻下的业务变化显著性。
进一步地,所述根据所述增长异常程度和所述业务变化显著性,得到每个用户在每个采样时刻下的每个数据操作类型的参考显著程度包括:
将所述增长异常程度和所述业务变化显著性的乘积,作为每个用户在每个采样时刻下的每个数据操作类型的参考显著程度。
进一步地,所述调整必要性的获取公式包括:
,其中,/>为第/>个用户在当前采样时刻/>下第/>个数据操作类型的调整必要性;/>为第/>个用户在当前采样时刻/>下第个数据操作类型的参考显著程度,/>为第/>个用户在当前采样时刻的前一个时刻下第/>个数据操作类型的参考显著程度,/>为第/>个用户在当前采样时刻/>下的所有数据操作类型中的参考显著程度最大值;/>为预设调节参数,所述预设调节参数大于0;/>为以自然常数为底的指数函数,/>为绝对值符号。
进一步地,所述根据所述调整必要性筛选出每个用户在当前采样时刻下的调整数据操作类型的方法包括:
在每个用户在当前采样时刻下的所有数据操作类型中,将最大的预设数量个调整必要性对应的数据操作类型,作为每个用户在当前采样时刻下的调整数据操作类型,所述预设数量为正整数。
进一步地,所述加权局部离群因子的获取方法包括:
在当前时刻下每个用户对应的用户状态描述向量中,将每个调整数据操作类型的调整必要性的正相关映射值作为权重对对应的业务使用变化值进行加权,得到当前时刻下每个用户对应的加权状态描述向量;将所述加权状态描述向量输入到LOF算法中,得到当前时刻下每个用户的加权局部离群因子。
进一步地,所述根据所述加权局部离群因子筛选出实际异常用户的方法包括:
将对应的加权局部离群因子大于预设异常阈值的用户,作为实际异常用户。
进一步地,所述增长异常程度的获取方法包括:
将每个数据操作类型在所有参考采样时刻的局部波动显著度的均值,作为用户在目标采样时刻下的每个数据操作类型的增长异常程度。
本发明还提出了基于数据变化量捕获的业务数据库异常检测***,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,处理器执行所述计算机程序时实现任意一项基于数据变化量捕获的业务数据库异常检测方法的步骤。
本发明具有如下有益效果:
业务使用变化值能够反映每个采样时刻与前一个采样时刻之间的时间段内业务使用次数的变化,也即能够实时反映每个用户的业务使用情况,因此对于每个用户而言,能够通过对应的业务使用变化值的变化趋势或是整体特征,初步进行异常数据操作类型的筛选,从而筛选出异常用户,并且考虑到在对单个用户进行分析得到的分析结果较为片面,可能出现一些***本身引起的误差,例如某个时刻下业务数据库操作***出现异常或整体受到影响时,只对单个用户的业务使用变化值进行分析,会造成异常用户的误判,所以需要结合各个用户之间的业务使用变化值的分布进行分析;因此本发明根据每个用户的每个数据操作类型的业务使用变化值的时序变化情况,以及每个采样时刻下不同用户之间各个数据操作类型的业务使用变化值的整体相似情况,得到参考显著程度,也即每个用户数据操作在每个采样时刻下可能出现与正常使用情况相显著的程度。考虑到当前采样时刻下,每个用户不同的数据操作类型的变化情况各不相同,并且结合相邻时刻下的参考显著程度能够反映当前时刻的异常使用情况,因此进一步地在参考显著程度的基础上,根据每个用户对应的各个数据操作类型的参考显著程度的相对差异,以及时间顺序上每个数据操作类型的参考显著程度的变化情况,得到调整必要性,即综合表征每个数据操作类型的异常程度,进一步根据筛选出调整数据操作类型进行加权,结合LOF算法,得到更加准确的加权局部离群因子,使得根据加权局部离群因子筛选出实际异常用户更加准确,也即对业务数据库异常检测效果更好。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1为本发明一个实施例所提供的基于数据变化量捕获的业务数据库异常检测方法流程图;
图2为本发明一个实施例所提供的一种基于数据变化量捕获的业务数据库异常检测方法的参考显著程度参数获取方法流程图;
图3为本发明一个实施例所提供的一种基于数据变化量捕获的业务数据库异常检测方法的业务变化显著性参数获取方法流程图。
具体实施方式
为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的基于数据变化量捕获的业务数据库异常检测方法及***,其具体实施方式、结构、特征及其功效,详细说明如下。在下述说明中,不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外,一或多个实施例中的特定特征、结构或特点可由任何合适形式组合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。
下面结合附图具体的说明本发明所提供的基于数据变化量捕获的业务数据库异常检测方法及***的具体方案。
请参阅图1,其示出了本发明一个实施例提供的基于数据变化量捕获的业务数据库异常检测方法流程图,该方法包括:
步骤S1:在业务数据库中,获取每个用户在每个采样时刻下的每个数据操作类型的业务使用变化值。
本发明实施例旨在提供一种基于数据变化量捕获的业务数据库异常检测方法,用于对业务数据库中各个用户在各个时刻下每个数据操作类型的业务使用变化值进行分析,得到每个用户的加权局部离群因子,根据加权局部离群因子筛选出实际异常用户。因此首先在业务数据库中,获取每个用户在每个采样时刻下的每个数据操作类型的业务使用变化值。
在本发明实施例中,业务数据库的数据操作类型选择归档、删除、备份以及索引管理四种进行分析,实施者也可根据具体实施环境选用其他数据操作类型进行分析,且不同的数据操作类型的分析方法相同,在此不做进一步赘述。此外,本发明实施例首先获取每个用户在每个采样时刻下的每个数据操作类型的业务使用累计值;进一步将每个采样时刻对应的业务使用累计值与其前一个采样时刻对应的业务使用累计值之间的差异,作为每个采样时刻的业务使用变化值。并且本发明实施例设置采样频率为每分钟一次,实施者可根据具体实施环境自行调整,在此不做进一步赘述。此外需要说明的是,为了保证实施例的完整,将第一个采样时刻的业务使用变化值设置为0。
步骤S2:根据每个用户的每个数据操作类型的业务使用变化值的时序变化情况,以及每个采样时刻下不同用户之间各个数据操作类型的业务使用变化值的整体相似情况,得到每个用户在每个采样时刻下的每个数据操作类型的参考显著程度。
用户的违规异常操作行为通常反映在业务使用频率上,而业务使用变化值能够反映每个采样时刻下用户在每个数据操作类型上的业务使用次数变化,因此对于每个用户而言,能够通过对应的业务使用变化值的变化趋势或是整体特征,初步进行异常数据操作类型的筛选。并且考虑到在对单个用户进行分析得到的分析结果较为片面,可能出现一些***本身引起的误差,例如某个时刻下业务数据库操作***出现异常或整体受到影响时,只对单个用户的业务使用变化值进行分析,会造成异常用户的误判,所以需要结合各个用户之间的业务使用变化值的分布进行异常数据操作类型的初步筛选。本发明实施例根据每个用户的每个数据操作类型的业务使用变化值的时序变化情况,以及每个采样时刻下不同用户之间各个数据操作类型的业务使用变化值的整体相似情况,得到每个用户在每个采样时刻下的每个数据操作类型的参考显著程度。请参阅图2,其示出了本发明一个实施例提供的一种基于数据变化量捕获的业务数据库异常检测方法的参考显著程度参数获取方法流程图;通过三个步骤获取参考显著程度对应的参数,其中包括:步骤D01:根据每个数据操作类型在所有参考采样时刻的局部波动显著度的整体分布情况,得到用户在目标采样时刻下的每个数据操作类型的增长异常程度;步骤D02:在每个采样时刻下,将每个用户与其余每个用户之间的所有数据操作类型的业务使用变化值的分布相似情况,得到每个用户在每个采样时刻下的业务变化显著性;步骤D03:根据增长异常程度和业务变化显著性,得到每个用户在每个采样时刻下的每个数据操作类型的参考显著程度,增长异常程度和业务变化显著性均与参考显著程度呈正相关。
优选地,参考显著程度的获取方法包括:
对于任意一个用户:
依次将每个采样时刻作为目标采样时刻;将目标采样时刻以及之前的每个采样时刻作为参考采样时刻。通过设定目标采样时刻和参考采样时刻,使得后续的分析过程更加清晰,通过对目标采样时刻的参考显著程度的分析过程,得到所有采样时刻的参考显著程度。
将每个数据操作类型在所有采样时刻的业务使用变化值的方差,作为每个数据操作类型在目标采样时刻的业务使用波动指数;将每个数据操作类型在所有采样时刻的业务使用变化值的均值,作为每个数据操作类型在目标采样时刻的标准使用变化值;在每个数据操作类型中,计算每个参考采样时刻的业务使用变化值与标准使用变化值的差值,将差值与业务使用波动指数的比值的正相关映射值,作为每个数据操作类型在每个参考采样时刻的局部波动显著度。
业务使用变化值与标准使用变化值之间的差值,能够表征每个采样时刻的业务使用变化值相对于均值的偏离情况,并且保留正负号的情况下具有方向特征。表征方差的业务使用波动指数,能够表征整体业务使用变化值的整体数值波动情况,并且方差越小,对应的业务使用变化值在时序上的分布越集中,因此结合方差得到的局部波动显著度,能够更加准确的表征每个参考采样时刻的业务使用变化值的显著程度。并且在本发明实施例中,正相关映射方法采用立方函数,实施者也可采样其他正相关映射方法,但需要保证映射后的数值相比于原本数值对应的数据间隔更大,例如通过5次方等等。立方能够增大微小数值差异,用于放大部分较为显著的数据的影响程度,使得后续的异常检测更加准确,并且保留了符号,也即原本的显著方向特征。进一步地根据每个数据操作类型在所有参考采样时刻的局部波动显著度的整体分布情况,得到用户在目标采样时刻下的每个数据操作类型的增长异常程度;优选地,增长异常程度的获取方法包括:
将每个数据操作类型在所有参考采样时刻的局部波动显著度的均值,作为用户在目标采样时刻下的每个数据操作类型的增长异常程度。通过结合所有参考采样时刻的局部波动显著呈的均值,对应的增长异常程度越大,说明局部波动显著程度整体越大,由于局部波动显著程度通过立方的方法放大了差异,并且保留的符号,因此增长异常程度越大能够表明,用户在业务数据库中对对应的数据操作类型出现了极端业务使用变化值或部分增长较为明显的业务使用变化值,也即该数据操作类型对应的业务使用变化值在时序上越明显,也即用户在相应的数据操作类型中出现较大的数据波动,对应的参考显著程度也就越大。
进一步地在每个采样时刻下,将每个用户与其余每个用户之间的所有数据操作类型的业务使用变化值的分布相似情况,得到每个用户在每个采样时刻下的业务变化显著性。如果用户与其他用户在对应的采样时刻下,均出现了相似的业务使用变化值也即出现了相似的业务使用次数变化,说明引起该变化的原因不是用户本身出现了操作异常或者违规,更多的为外界环境影响,对应的权重应当降低,对应的业务使用变化值的分布情况越相似,则业务变化显著性越小,也即出现违规异常操作的可能性越小,参考显著程度也就越小。请参阅图3,其示出了本发明一个实施例提供的一种基于数据变化量捕获的业务数据库异常检测方法的业务变化显著性参数获取方法流程图;通过三个步骤获取业务变化显著性对应的参数,其中包括:步骤C001:在每个采样时刻下,将每个用户对应的所有数据操作类型的业务使用变化值组成列向量,得到每个采样时刻下每个用户对应的用户状态描述向量;C002:依次将每个用户作为目标用户,将目标用户之外的其他用户作为对比用户;在每个采样时刻下,将目标用户的用户状态描述向量与每个对比用户的用户状态描述向量之间的余弦相似性,作为每个对比用户对应的参考相似性;C003:将所有对比用户的参考相似性的均值的负相关映射值,作为目标用户在每个采样时刻下的业务变化显著性。
优选地,业务变化显著性的获取方法包括:
在每个采样时刻下,将每个用户对应的所有数据操作类型的业务使用变化值组成列向量,得到每个采样时刻下每个用户对应的用户状态描述向量,其中,不同采样时刻下不同用户状态描述向量中的数据操作类型排列顺序相同;依次将每个用户作为目标用户,将目标用户之外的其他用户作为对比用户;在每个采样时刻下,将目标用户的用户状态描述向量与每个对比用户的用户状态描述向量之间的余弦相似性,作为每个对比用户对应的参考相似性。构建相同排列顺序的用户状态描述向量能够统一不同数据操作类型的特征,并且结合向量的形式进行计算得到的相似度,也即通过向量之间余弦相似性得到的参考相似性能够结合方向特征,对相似程度的表征准确度更高。需要说明的是,实施者也可通过组成行向量作为用户状态描述向量,实施者可根据具体实施环境自行调整,并且计算两个向量之间余弦相似性的方法为本领域技术人员所熟知的现有技术,在此不做进一步限定和赘述。
由于对应的业务使用变化值的分布情况越相似,则当前增长异常程度的可信度就越小,对应的参考显著程度也就越小,因此将所有对比用户的参考相似性的均值的负相关映射值,作为目标用户在每个采样时刻下的业务变化显著性。在本发明实施例中,通过以自然常数为底的指数函数进行负相关映射,实施者也可根据具体实施环境采用其他负相关映射方法,在此不做进一步赘述。
进一步地根据增长异常程度和业务变化显著性,得到每个用户在每个采样时刻下的每个数据操作类型的参考显著程度,增长异常程度和业务变化显著性均与参考显著程度呈正相关。优选地,根据增长异常程度和业务变化显著性,得到每个用户在每个采样时刻下的每个数据操作类型的参考显著程度包括:
由于增长异常程度越大,业务变化显著性越大时,出现违规异常操作的可能性越大,即对应的参考显著程度越大。因此将增长异常程度和业务变化显著性的乘积,作为每个用户在每个采样时刻下的每个数据操作类型的参考显著程度。需要说明的是,实施者也可通过乘积外的其他方法获取参考显著程度,例如通过和值的归一化值作为参考显著程度。
在本发明实施例中,依次将每个用户在每个采样时刻下的每个数据操作类型,作为第个用户在采样时刻/>下第/>个数据操作类型,则第/>个用户在采样时刻/>下第/>个数据操作类型的参考显著程度的获取方法在公式上表现为:
,其中,/>为第/>个用户在采样时刻/>下第/>个数据操作类型的参考显著程度,/>为第/>个用户对应的对比用户总数量,也即所有用户总数量减1;/>为第/>个用户在采样时刻/>下的用户状态描述向量;/>为第/>个用户对应的第/>个对比用户在采样时刻/>下的用户状态描述向量;表示计算两个向量之间余弦相似性的函数;/>为采样时刻/>对应的参考采样时刻数量,也即包括采样时刻/>在内以及之前的所有采样时刻的数量;/>为第/>个用户在采样时刻/>对应的第/>个参考采样时刻下第/>个数据操作类型的业务使用变化值,/>为第/>个用户的在第/>个数据操作类型在采样时刻/>的标准使用变化值;/>为第/>个用户的在第/>个数据操作类型在采样时刻/>的业务使用波动指数;/>为以自然常数为底的指数函数。
步骤S3:在当前采样时刻下,根据每个用户对应的各个数据操作类型的参考显著程度的相对差异,以及时间顺序上每个数据操作类型的参考显著程度的变化情况,得到每个用户在当前采样时刻下每个数据操作类型的调整必要性;根据调整必要性筛选出每个用户在当前采样时刻下的调整数据操作类型。
考虑到当前采样时刻下,每个用户不同的数据操作类型的变化情况各不相同,并且结合相邻时刻下的参考显著程度能够反映当前时刻的异常使用情况。因此本发明实施例在当前采样时刻下,根据每个用户对应的各个数据操作类型的参考显著程度的相对差异,以及时间顺序上每个数据操作类型的参考显著程度的变化情况,得到每个用户在当前采样时刻下每个数据操作类型的调整必要性。
优选地,依次将每个用户的每个数据操作类型作为第个用户的第/>个数据操作类型,则第/>个用户在当前采样时刻/>下第/>个数据操作类型的调整必要性的获取公式包括:
,其中,/>为第/>个用户在当前采样时刻/>下第/>个数据操作类型的调整必要性;/>为第/>个用户在当前采样时刻/>下第个数据操作类型的参考显著程度,/>为第/>个用户在当前采样时刻的前一个时刻下第/>个数据操作类型的参考显著程度,/>为第/>个用户在当前采样时刻/>下的所有数据操作类型中的参考显著程度最大值;/>为预设调节参数,预设调节参数大于0;为以自然常数为底的指数函数,/>为绝对值符号。在本发明实施例中,预设调节参数设置为0.1,用于防止分母为0,实施者可根据具体实施环境自行调整预设调节参数的大小。
在调整必要性的获取公式中,对于部分,其实质为对第/>个用户在当前采样时刻/>下第/>个数据操作类型的参考显著程度/>进行归一化,以第/>个用户在当前采样时刻/>下的所有数据操作类型中的参考显著程度最大值/>作为分母,能够通过同一采样时刻下的不同数据操作类型之间进行比较,使得归一化后的数值具有一定的适应性,并且将数值范围限定在0到1,对应的/>越小,说明第/>个用户在当前采样时刻/>下第个数据操作类型对应的业务使用次数波动越稳定,则不需要进行加权调整的情况下就能体现出本时刻下对应数据操作类型的数据特征,也即对应的调整必要性越小。
此外对应的函数表征的意义在于,/>与/>之间的差异越大,说明第/>个用户在当前采样时刻/>下第/>个数据操作类型的参考显著程度在时序上的变化越显著,则当前时刻下第/>个用户在第/>个数据操作类型中采集到的数值已经能够体现出对应的数据波动特征,对应的调整必要性就应当越小。因此/>越小时,对应的数据操作类型的需要进行调整的必要性越大,因此进一步地进行负相关映射。进一步地通过乘积的方式将/>和/>结合,使得所计算出的调整必要性对后续异常程度的表征更加准确。
考虑到合理的业务使用变化值的波动也会得到对应的调整必要性,如果结合每个用户在当前采样时刻下所有数据操作类型的调整必要性进行分析,则会使得原本正常的数据整体特征产生显著,可能造成对后续离群因子计算产生过大的显著影响,因此仅筛选出调整必要性较大的数据操作类型进行分析。本发明实施例根据调整必要性筛选出每个用户在当前采样时刻下的调整数据操作类型。优选地,根据调整必要性筛选出每个用户在当前采样时刻下的调整数据操作类型的方法包括:
在每个用户在当前采样时刻下的所有数据操作类型中,将最大的预设数量个调整必要性对应的数据操作类型,作为每个用户在当前采样时刻下的调整数据操作类型,预设数量为正整数。在本发明实施例中,预设数量设置为2,实施者可根据具体实施环境自行调整预设数量的大小,在此不做进一步赘述。
步骤S4:根据显著特征值对每个用户在当前采样时刻下调整数据操作类型的业务使用变化值进行加权,并结合LOF算法得到每个用户的加权局部离群因子;根据加权局部离群因子筛选出实际异常用户。
对于当前时刻下的每个用户而言,其对应的用户状态向量即当前时刻下每个用户的业务数据操作情况,对应的调整数据操作类型即当前需要进行数据调整的数据操作类型,为了使得后续得到的局部离群因子更加准确,本发明实施例根据显著特征值对每个用户在当前采样时刻下调整数据操作类型的业务使用变化值进行加权,并结合LOF算法得到每个用户的加权局部离群因子。
优选地,加权局部离群因子的获取方法包括:
在当前时刻下每个用户对应的用户状态描述向量中,将每个调整数据操作类型的调整必要性的正相关映射值作为权重对对应的业务使用变化值进行加权,得到当前时刻下每个用户对应的加权状态描述向量;将加权状态描述向量输入到LOF算法中,得到当前时刻下每个用户的加权局部离群因子。在本发明实施例中,为了体现调整必要性作为权重对局部离群因子的调整功能,本发明实施例通过正相关映射方法将调整必要性映射到-1到1的取值范围内。需要说明的是,结合LOF算法根据状态向量得到局部离群因子的方法为本领域技术人员所熟知的现有技术,在此不做进一步限定和赘述。
由于调整必要性的取值范围为0到1,若以调整必要性的正相关映射值得到的权重为参考权重,则第个用户在当前采样时刻/>下第/>个调整数据操作类型的参考权重的获取方法包括:
,其中,/>为第/>个用户在当前采样时刻/>下第个调整数据操作类型的参考权重,/>为第/>个用户在当前采样时刻/>下第/>个调整数据操作类型的调整必要性,/>为双曲正切函数,/>为预设范围调整系数,预设范围调整系数大于0,本发明实施例将预设范围调整系数设置为2,实施者可根据具体实施环境自行调整。
考虑到局部离群因子越大,说明对应用户在当前时刻的业务使用操作对应越异常,因此本发明实施例最后根据加权局部离群因子筛选出实际异常用户。
优选地,根据加权局部离群因子筛选出实际异常用户的方法包括:
将对应的加权局部离群因子大于预设异常阈值的用户,作为实际异常用户。在本发明实施例中,预设异常阈值设置为1.25,实施者可根据具体实施环境自行调整。
综上所述,本发明根据用户的每个数据操作类型的业务使用变化值的变化情况以及不同用户之间业务使用变化值的整体相似情况,得到参考显著程度;结合当前采样时刻下的参考显著程度的相对差异以及时序差异,得到调整必要性;进一步地对根据调整必要性筛选出调整数据操作类型的业务使用变化值通过对应的调整必要性进行加权,输入到LOF算法后得到更加准确的加权局部离群因子,使得根据加权局部离群因子筛选出实际异常用户更加准确,也即对业务数据库异常检测效果更好。
本发明还提出了基于数据变化量捕获的业务数据库异常检测***,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,处理器执行所述计算机程序时实现任意一项基于数据变化量捕获的业务数据库异常检测方法的步骤。
需要说明的是:上述本发明实施例先后顺序仅仅为了描述,不代表实施例的优劣。在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。

Claims (8)

1.基于数据变化量捕获的业务数据库异常检测方法,其特征在于,所述方法包括:
在业务数据库中,获取每个用户在每个采样时刻下的每个数据操作类型的业务使用变化值;
根据每个用户的每个数据操作类型的业务使用变化值的时序变化情况,以及每个采样时刻下不同用户之间各个数据操作类型的业务使用变化值的整体相似情况,得到每个用户在每个采样时刻下的每个数据操作类型的参考显著程度;
在当前采样时刻下,根据每个用户对应的各个数据操作类型的参考显著程度的相对差异,以及时间顺序上每个数据操作类型的参考显著程度的变化情况,得到每个用户在当前采样时刻下每个数据操作类型的调整必要性;根据所述调整必要性筛选出每个用户在当前采样时刻下的调整数据操作类型;
根据所述显著特征值对每个用户在当前采样时刻下所述调整数据操作类型的业务使用变化值进行加权,并结合LOF算法得到每个用户的加权局部离群因子;根据所述加权局部离群因子筛选出实际异常用户;
所述参考显著程度的获取方法包括:
对于任意一个用户:
依次将每个采样时刻作为目标采样时刻;将目标采样时刻以及之前的每个采样时刻作为参考采样时刻;
将每个数据操作类型在所有采样时刻的业务使用变化值的方差,作为每个数据操作类型在目标采样时刻的业务使用波动指数;将每个数据操作类型在所有采样时刻的业务使用变化值的均值,作为每个数据操作类型在目标采样时刻的标准使用变化值;在每个数据操作类型中,计算每个参考采样时刻的业务使用变化值与标准使用变化值的差值,将所述差值与所述业务使用波动指数的比值的正相关映射值,作为每个数据操作类型在每个参考采样时刻的局部波动显著度;
根据每个数据操作类型在所有参考采样时刻的局部波动显著度的整体分布情况,得到用户在目标采样时刻下的每个数据操作类型的增长异常程度;
在每个采样时刻下,将每个用户与其余每个用户之间的所有数据操作类型的业务使用变化值的分布相似情况,得到每个用户在每个采样时刻下的业务变化显著性;
根据所述增长异常程度和所述业务变化显著性,得到每个用户在每个采样时刻下的每个数据操作类型的参考显著程度,所述增长异常程度和所述业务变化显著性均与所述参考显著程度呈正相关;
所述调整必要性的获取公式包括:
其中,Xh,i,d为第h个用户在当前采样时刻d下第i个数据操作类型的调整必要性;Ph,i,d为第h个用户在当前采样时刻d下第i个数据操作类型的参考显著程度,Ph,i,(d-1)为第h个用户在当前采样时刻的前一个时刻d-1下第i个数据操作类型的参考显著程度,Px,max,d为第h个用户在当前采样时刻d下的所有数据操作类型中的参考显著程度最大值;a为预设调节参数,所述预设调节参数大于0;exp()为以自然常数为底的指数函数,||为绝对值符号。
2.根据权利要求1所述的基于数据变化量捕获的业务数据库异常检测方法,其特征在于,所述业务变化显著性的获取方法包括:
在每个采样时刻下,将每个用户对应的所有数据操作类型的业务使用变化值组成列向量,得到每个采样时刻下每个用户对应的用户状态描述向量,其中,不同采样时刻下不同用户状态描述向量中的数据操作类型排列顺序相同;
依次将每个用户作为目标用户,将目标用户之外的其他用户作为对比用户;在每个采样时刻下,将目标用户的用户状态描述向量与每个对比用户的用户状态描述向量之间的余弦相似性,作为每个对比用户对应的参考相似性;将所有对比用户的参考相似性的均值的负相关映射值,作为目标用户在每个采样时刻下的业务变化显著性。
3.根据权利要求1所述的基于数据变化量捕获的业务数据库异常检测方法,其特征在于,所述根据所述增长异常程度和所述业务变化显著性,得到每个用户在每个采样时刻下的每个数据操作类型的参考显著程度包括:
将所述增长异常程度和所述业务变化显著性的乘积,作为每个用户在每个采样时刻下的每个数据操作类型的参考显著程度。
4.根据权利要求1所述的基于数据变化量捕获的业务数据库异常检测方法,其特征在于,所述根据所述调整必要性筛选出每个用户在当前采样时刻下的调整数据操作类型的方法包括:
在每个用户在当前采样时刻下的所有数据操作类型中,将最大的预设数量个调整必要性对应的数据操作类型,作为每个用户在当前采样时刻下的调整数据操作类型,所述预设数量为正整数。
5.根据权利要求2所述的基于数据变化量捕获的业务数据库异常检测方法,其特征在于,所述加权局部离群因子的获取方法包括:
在当前时刻下每个用户对应的用户状态描述向量中,将每个调整数据操作类型的调整必要性的正相关映射值作为权重对对应的业务使用变化值进行加权,得到当前时刻下每个用户对应的加权状态描述向量;将所述加权状态描述向量输入到LOF算法中,得到当前时刻下每个用户的加权局部离群因子。
6.根据权利要求1所述的基于数据变化量捕获的业务数据库异常检测方法,其特征在于,所述根据所述加权局部离群因子筛选出实际异常用户的方法包括:
将对应的加权局部离群因子大于预设异常阈值的用户,作为实际异常用户。
7.根据权利要求1所述的基于数据变化量捕获的业务数据库异常检测方法,其特征在于,所述增长异常程度的获取方法包括:
将每个数据操作类型在所有参考采样时刻的局部波动显著度的均值,作为用户在目标采样时刻下的每个数据操作类型的增长异常程度。
8.基于数据变化量捕获的业务数据库异常检测***,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1~7任意一项所述方法的步骤。
CN202410019501.8A 2024-01-05 2024-01-05 基于数据变化量捕获的业务数据库异常检测方法及*** Active CN117540325B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410019501.8A CN117540325B (zh) 2024-01-05 2024-01-05 基于数据变化量捕获的业务数据库异常检测方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410019501.8A CN117540325B (zh) 2024-01-05 2024-01-05 基于数据变化量捕获的业务数据库异常检测方法及***

Publications (2)

Publication Number Publication Date
CN117540325A CN117540325A (zh) 2024-02-09
CN117540325B true CN117540325B (zh) 2024-04-26

Family

ID=89794142

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410019501.8A Active CN117540325B (zh) 2024-01-05 2024-01-05 基于数据变化量捕获的业务数据库异常检测方法及***

Country Status (1)

Country Link
CN (1) CN117540325B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117786445B (zh) * 2024-02-26 2024-05-10 山东盈动智能科技有限公司 一种自动化摇纱机运行数据智能处理方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102945320A (zh) * 2012-10-29 2013-02-27 河海大学 一种时间序列数据异常检测方法与装置
CN109643366A (zh) * 2016-07-21 2019-04-16 戈斯蒂冈有限责任公司 用于监控车辆驾驶员的状况的方法和***
CN116659589A (zh) * 2023-07-25 2023-08-29 澳润(山东)药业有限公司 基于数据分析的阿胶糕保存环境监测方法
CN116908524A (zh) * 2023-09-13 2023-10-20 中国建筑科学研究院有限公司 基于人工智能的建筑电气***异常感知监测***
CN117195008A (zh) * 2023-11-08 2023-12-08 山东神光航天科技有限公司 一种用于空气质量监测的异常数据处理方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130041625A1 (en) * 2011-08-11 2013-02-14 International Business Machines Corporation Advanced Statistical Detection of Emerging Trends

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102945320A (zh) * 2012-10-29 2013-02-27 河海大学 一种时间序列数据异常检测方法与装置
CN109643366A (zh) * 2016-07-21 2019-04-16 戈斯蒂冈有限责任公司 用于监控车辆驾驶员的状况的方法和***
CN116659589A (zh) * 2023-07-25 2023-08-29 澳润(山东)药业有限公司 基于数据分析的阿胶糕保存环境监测方法
CN116908524A (zh) * 2023-09-13 2023-10-20 中国建筑科学研究院有限公司 基于人工智能的建筑电气***异常感知监测***
CN117195008A (zh) * 2023-11-08 2023-12-08 山东神光航天科技有限公司 一种用于空气质量监测的异常数据处理方法

Also Published As

Publication number Publication date
CN117540325A (zh) 2024-02-09

Similar Documents

Publication Publication Date Title
CN116186634B (zh) 一种建筑工程施工数据智能管理***
CN109034244B (zh) 基于电量曲线特征模型的线损异常诊断方法及装置
CN117540325B (zh) 基于数据变化量捕获的业务数据库异常检测方法及***
CN112084229A (zh) 一种识别城镇燃气用户异常用气行为的方法及装置
CN117196353B (zh) 基于大数据的环境污染评估与监测方法及***
US9235463B2 (en) Device and method for fault management of smart device
CN111967717A (zh) 一种基于信息熵值的数据质量评价方法
CN117493921B (zh) 基于大数据的人工智能节能管理方法及***
CN115982602A (zh) 一种光伏变压器电故障检测方法
CN116865269A (zh) 一种风电机组高谐波补偿方法及***
CN117112514A (zh) 基于对氯甲基苯乙烯生产数据的记录存储方法
CN117439827B (zh) 一种网络流量大数据分析方法
CN114266457A (zh) 一种配电线路异损诱因检测的方法
CN111784379B (zh) 追缴电费的估算方法、装置和异常案例的筛选方法、装置
CN113837591A (zh) 一种面向多工况运行条件的装备健康评估方法
CN107274025B (zh) 一种实现用电模式智能识别与管理的***和方法
CN113702612B (zh) 基于人工智能的河岸污染检测及考察地点选址方法及***
CN114548173A (zh) 一种精准的周期性检测方法、***及存储介质
CN114154843A (zh) 一种利用位移监测鉴别边坡失稳致滑因子的方法及***
CN115700553A (zh) 一种异常检测方法及相关装置
CN117172431B (zh) 一种食品加工器械设备管理方法及***
CN117828371B (zh) 一种综合运维平台的业务信息智能分析方法
CN113592307B (zh) 企业收益风控检测方法、装置、计算机设备和存储介质
CN118296539A (zh) 一种面粉加工设备的异常状态分析方法、***及介质
CN118378199A (zh) 一种大数据分析平台中的实时异常检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant