CN114218569A - 数据分析方法、装置、设备、介质和产品 - Google Patents

数据分析方法、装置、设备、介质和产品 Download PDF

Info

Publication number
CN114218569A
CN114218569A CN202111552118.1A CN202111552118A CN114218569A CN 114218569 A CN114218569 A CN 114218569A CN 202111552118 A CN202111552118 A CN 202111552118A CN 114218569 A CN114218569 A CN 114218569A
Authority
CN
China
Prior art keywords
data
risk
data analysis
model
time window
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111552118.1A
Other languages
English (en)
Inventor
袁晟
廖敏飞
吴孟晴
梁伟韬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Construction Bank Corp
Original Assignee
China Construction Bank Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Construction Bank Corp filed Critical China Construction Bank Corp
Priority to CN202111552118.1A priority Critical patent/CN114218569A/zh
Publication of CN114218569A publication Critical patent/CN114218569A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/554Detecting local intrusion or implementing counter-measures involving event detection and direct action
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/57Certifying or maintaining trusted computer platforms, e.g. secure boots or power-downs, version controls, system software checks, secure updates or assessing vulnerabilities
    • G06F21/577Assessing vulnerabilities and evaluating computer system security

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Security & Cryptography (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computer Hardware Design (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种数据分析方法、装置、设备、介质和产品,涉及大数据数据分析技术领域。该方法包括:确定在当前时间窗口中接收到的每个触发操作对应的应用场景;将每个触发操作对应的待评估数据输入至预先创建的与第二应用场景对应的数据分析模型,得到对应的中间态结果;将每个中间态结果输入至预先创建的风险评分模型中,得到对应的风险视图。本发明实施例,通过将每个触发操作对应的待评估数据输入至预先创建的与第二应用场景对应的数据分析模型,得到对应的中间态结果,并将每个中间态结果输入至预先创建的风险评分模型中,得到对应的风险视图,解决了用户行为风险评估中使用单一数据分析模型、使用场景单一以及准确率低下的问题,提升了异常行为的识别准确率。

Description

数据分析方法、装置、设备、介质和产品
技术领域
本发明实施例涉及大数据领域,尤其涉及一种数据分析方法、装置、设备、介质和产品。
背景技术
用户行为风险检测是互联网***风险控制的重要一环。随着互联网***用户数量的增长,***每日为数百万在线用户提供服务,收集的数据规模和复杂性不断增加,使得对用户行为风险评估变得越来越困难,隐藏在大量正常网络流量的恶意行为越难越被发现,如非本人登录操作、高危命令执行、虚假账号、僵尸账号等。现有技术中,通常使用关键字搜索或规则匹配手动检查***应用日志,再通过人工溯源的方式对其他数据源进行关联分析,这种方法需要人工匹配关键字查询,人工工作量大,且基于人工对操作日志进行筛选排查,有成本高、效率低、准确率低等缺点,而且在用户异常行为分析中,往往单一的检测方法不适用于复杂的场景,在数据更新后也会出现准确率下降现象、缺乏模型迭代,从而造成识别效果下降的现象。机器学习技术被认为是海量恶意行为自动化分析的重要方法,但是现有机器学习模型在部分场景下,存在误报率过高的情况。
发明内容
有鉴于此,本发明提供一种数据分析方法、装置、设备、介质和产品,提高了异常行为的识别准确率。
第一方面,本发明实施例提供了数据分析方法,该方法包括:
确定在当前时间窗口中接收到的每个触发操作对应的应用场景;
将每个所述触发操作对应的待评估数据输入至预先创建的与所述第二应用场景对应的数据分析模型,得到对应的中间态结果;
将每个所述中间态结果输入至预先创建的风险评分模型中,得到对应的风险视图。
第二方面,本发明实施例还提供了数据分析装置,该装置包括:
第一确定模块,用于确定在当前时间窗口中接收到的每个触发操作对应的应用场景;
输出模块,用于将每个所述触发操作对应的待评估数据输入至预先创建的与所述第二应用场景对应的数据分析模型,得到对应的中间态结果;
第二确定模块,用于将每个所述中间态结果输入至预先创建的风险评分模型中,得到对应的风险视图。
第三方面,本发明实施例还提供了一种数据分析设备,该设备包括:存储器,以及一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上述任一实施例所述的数据分析方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述任一实施例所述的数据分析方法。
第五方面,本发明实施例还提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现如上述任一实施例所述的数据分析方法。
本发明实施例,通过确定在当前时间窗口中接收到的每个触发操作对应的应用场景,将每个触发操作对应的待评估数据输入至预先创建的与第二应用场景对应的数据分析模型,得到对应的中间态结果,然后将每个中间态结果输入至预先创建的风险评分模型中,得到对应的风险视图。本发明实施例,通过将每个触发操作对应的待评估数据输入至预先创建的与第二应用场景对应的数据分析模型,得到对应的中间态结果,并将每个中间态结果输入至预先创建的风险评分模型中,得到对应的风险视图,解决了用户行为风险评估中使用单一异常行为检测模型、使用场景单一以及准确率低下的问题,提升了异常行为的识别准确率。与现有技术相比,所采用的数据分析方法,在增加模型迭代的基础上,降低了成本,且提高了异常行为的识别效率以及准确率。
附图说明
图1是本发明实施例提供的一种数据分析方法的流程图;
图2是本发明实施例提供的又一种数据分析方法的流程图;
图3是本发明实施例提供的另一种数据分析方法的流程图;
图4是本发明实施例提供的再一种数据分析方法的流程示意图;
图5是本发明实施例提供的一种数据分析方法的主流程图示意图;
图6是本发明实施例提供的一种模型迭代更新流程示意图;
图7是本发明实施例提供的一种样本库构建和监督学习模型训练流程示意图;
图8是本发明实施例提供的一种数据分析装置的结构框图;
图9是本发明实施例提供的一种数据分析设备的硬件结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
现有技术中,在网络安全中的攻击检测,金融交易欺诈检测中,孤立森林(Isolation Forest,iForest)也是一种常用的无监督学***面来切割数据空间,切一次可以生成两个子空间,之后再继续用一个随机超平面来切割每个子空间,循环下去,直到每子空间里面只有一个数据点为止。那些容易被孤立的数据,则可以认为是异常数据。在用户异常行为分析中,往往单一的检测方法不适用于复杂的场景;而且数据更新后会出现准确率下降现象,缺乏模型迭代,造成识别效果下降的现象。
有鉴于此,本发明实施例中提供了一种数据分析方法,解决了用户行为风险评估中使用单一异常行为检测模型、使用场景单一以及准确率低下的问题,提升了异常行为的识别准确率。
本申请技术方案中对数据的获取、存储、使用、处理等均符合国家法律法规的相关规定。在一实施例中,图1是本发明实施例提供的一种数据分析方法的流程图,本实施例可适用于自动对用户行为进行安全分析的情况。本实施例可以由数据分析设备执行。其中,数据分析设备可以为计算机。如图1所示,本实施例可以包括如下步骤:
S110、确定在当前时间窗口中接收到的每个触发操作对应的应用场景。
其中,应用场景包括:按照粗颗粒度进行划分得到的第一应用场景,以及按照细颗粒度进行划分得到的第二应用场景,其中,第二应用场景包含在第一应用场景之内,并且第二应用场景是对第一应用场景进行划分得到的场景。
需要说明的是,在对用户的触发操作进行分析之前,按照预先配置的时间长度进行时间划分,得到多个时间窗口。其中,当前时间窗口指的是当前所需要进行数据分析的一个时间段。触发操作可以理解为用户在当前时间窗口内所进行的一个或多个操作。示例性的,触发操作可以是登陆页面的操作动作;也可以是进行菜单选择的操作动作,还可以为进行交易时的页面动作;本实施例在此不做限制。
在本实施例中,在当前时间窗口内接收到用户的触发操作之后,确定在当前时间窗口中接收到的每个触发操作对应的应用场景。其中,应用场景可以按照粗颗粒度进行划分,也可以按照细颗粒度进行划分,或者,同时按照粗颗粒度和细颗粒度进行划分。可以理解为,在按照粗颗粒度进行划分时,所得到的应用场景的应用范围较大;而在按照细颗粒度进行划分时,所得到的应用场景的应用范围较小。在实际操作过程中,在范围比较大的应用场景中,可以将范围比较大的应用场景进行分割为多个范围比较小的应用场景。示例性的,范围比较大的应用场景可以为银行交易流程;范围比较小的应用场景可以为登陆页面、进行转账、汇款等应用场景。又如,范围较大的场景可以为登陆页面;范围比较小的场景可以为登陆的方式的不同,例如可以是,采用短信验证码的方式进行登陆时的场景,也可以是输入密码的方式进行登陆时的场景;还可以是采用滑块的方式进行登陆时的场景;本实施例在此不做限制。
S120、将每个触发操作对应的待评估数据输入至预先创建的与第二应用场景对应的数据分析模型,得到对应的中间态结果。
在本实施例中,待评估数据可以理解为对原始数据和上一个时间窗口的风险评分结果进行预处理等一系列操作后所得到的数据。其中,原始数据可以为应用日志数据;也可以为用户的行为相关的数据;还可以为网络环境的相关信息数据;本实施在此不做限制。上一个时间窗口的风险评分结果可以理解为上一个进行数据分析的时间段内所得到的的风险评分结果,示例性的,上一个时间窗口的风险评分结果可以为相对较高的分数;也可以为相对较低的分数;本实施例在此不做限制。
在本实施例中,数据分析模型可以理解为预先创建的对每个触发操作对应的待评估数据进行数据分析所需的模型。需要说明的是,每个第二应用场景均有相对应的数据分析模型,示例性的,每个第二应用场景可以与数据分析模型呈现一一对应的关系;每个第二应用场景也可以与数据分析模型呈现一对多的关系,即一个场景对应多个数据分析模型。数据分析模型可以为非监督学习模型;也可以为规则分析模型;还可以为监督学习模型;本实施例在此不做限制。
在本实施例中,中间态结果可以理解为对数据分析模型输出的结果进行分析并先进行简单的预判操作。示例性的,中间态结果可以预判为处于正常状态;也可以预判为处于异常状态。
在本实施例中,确定在当前时间窗口内,接收到的每个触发操作对应的应用场景之后,可以将每个触发操作对应的待评估数据,输入至预先创建的与第二应用场景对应的数据分析模型中,以得到对应的中间态结果。
S130、将每个中间态结果输入至预先创建的风险评分模型中,得到对应的风险视图。
其中,风险视图可以理解为用户的风险行为视图,可以根据风险评分模型进行划分风险等级。在实际操作过程中,用户风险等级可以影响下一时间窗口的风险评分结构。示例性的,用户在当前时间段内的风险等级可以分为,一级、二级以及三级,其中,等级为一级时表明为最高级,往后依次降低。用户在当前时间段内的风险等级越高,其存在异常行为的风险程度就越高,相应的,相对于对下一时间窗口的影响就会越大。
具体的,风险评分模型可以根据每个中间态结果输出的内容,动态的设置不同数据分析模型中间态结果的风险得分,并计算出该时间段内不同数据分析模型的风险得分,并进行一定的综合研判。
在本实施例中,在根据每个数据分析模型,得到对应的中间态结果之后,将每个中间态结果输入至预先创建的风险评分模型中,可以得到每个中间态结果对应的风险视图。需要说明的是,中间态结果是由数据分析模型所得到的,多个数据分析模型对应多个中间态结果,多个中间态结果对应一个风险评分模型,之后可以得到数据分析模型中各个模型的得分,进行一定的综合研判,可得到相对应的风险视图。
本发明实施例,通过确定在当前时间窗口中接收到的每个触发操作对应的应用场景,将每个触发操作对应的待评估数据输入至预先创建的与第二应用场景对应的数据分析模型,得到对应的中间态结果,然后将每个中间态结果输入至预先创建的风险评分模型中,得到对应的风险视图。本发明实施例,通过将每个触发操作对应的待评估数据输入至预先创建的与第二应用场景对应的数据分析模型,得到对应的中间态结果,并将每个中间态结果输入至预先创建的风险评分模型中,得到对应的风险视图,解决了用户行为风险评估中使用单一异常行为检测模型、使用场景单一以及准确率低下的问题,提升了异常行为的识别准确率。与现有技术相比,所采用的数据分析方法,减少数据分析检测所需投入的人力物力,降低了成本,且提高了异常行为的识别效率以及准确率。
在一实施例中,图2是本发明实施例提供的又一种数据分析方法的流程图,本实施例在上述各实施例地基础上,进一步进行了细化。如图2所示,本实施例中的数据分析方法具体可以包含如下步骤:
S210、确定在当前时间窗口中接收到的每个触发操作对应的应用场景。
S220、获取当前时间窗口内的原始数据和上一个时间窗口的风险评分结果。
其中,原始数据原始数据可以包括下述之一:应用日志数据、用户行为数据、设备指纹、网络环境信息。其中,应用日志数据可以理解为日志型的数据类别,通常以.Log结尾,它记录了用户的行为轨迹。应用日志数据可以是用户一天内产生的数据;也可以是用户在一段时间内产生的数据;本实施例在此不做限制。
在本实施例中,用户行为数据可以理解为用户在当前时间窗口内进行的一些行为操作。示例性的,用户行为数据可以为用户点击赌博网站的行为数据;也可以为用户点击欺诈网站的行为数据;本实施例在此不做限制。
在本实施例中,设备指纹可以是用户应用智能手机时的指纹;也可以是用户应用电脑进行查询的指纹;还可以是用户应用ipad进行查询的指纹等等;本实施例在此不做限制。网络环境信息可以是访问的网络环境的相关信息,例如可以是处于安全网络状态的网络环境,还可以处于危险网络环境,危险网络环境例如可以是浏览赌博网站,欺诈网站等等。
可以理解的是,原始数据有多种存在形式,示例性的,原始数据可以为文本数据;也可以为图像数据,还可以为音频数据或者几种数据混合存在;本实施例在此不做限制。
在本实施例中,可以获取当前时间窗口内的原始数据和上一个时间窗口的风险评分结果。其中,上一个时间窗口的风险评分结果可以理解为根据应用场景、数据分析模型以及风险分析模型所得到的,在上一个时间窗口内的风险得分结果。在实施例中,将上一个时间窗口的风险评分结果作为输入数据之一,使得数据分析的结果更为准确,提升了准确率与效率。
S230、对原始数据和风险评分结果进行数据预处理,得到目标数据格式的中间数据。
其中,数据预处理可以理解为对属性值的规范化。中间数据可以理解为经过数据预处理之后,得到的具有相关目标数据格式的中间数据。其中,目标数据格式与当前应用场景的配置参数有关,对此并不进行限定。在实施例中,对原始数据和风险评分结果进行数据预处理,以得到目标数据格式的中间数据,便于对中间数据进行数据分析,以及提高了对数据分析的效率。
在本实施例中,获取当前时间窗口内的原始数据和上一个时间窗口的风险评分结果之后,对原始数据和风险评分结果进行数据预处理,以得到目标数据格式的中间数据。其中,对原始数据进行数据预处理的方式可以为,对数据进行原始数据进行解析、清洗、标准化作业等预处理操作,以便统一成符合特征提取的数据格式,以得到目标数据格式的中间数据。
S240、对中间数据进行特征构建操作,得到对应的待评估数据。
其中,特征构建操作可以理解为对原始数据和风险评分结果进行相关数据解析以及特征提取。
在本实施例中,对于每个应用场景,都有相对应的应用场景的原始数据以及风险评分结果,需要对每一应用场景的相关数据进行相关数据的解析与特征提取,以得到相对应的待评估数据。
S250、根据应用场景和触发操作所对应原始数据的数据特征确定对应的数据分析模型。
在本实施例中,根据应用场景和触发操作所对应原始数据的数据特征确定对应的数据分析模型。
需要说明的是,不同的应用场景选择不同的数据分析模型,不同的应用场景可以自由选择数据分析模型。数据分析模型的选择可以根据具体的应用场景和对应原始数据的数据特征进行随机的选择,一个应用场景可能需要采用多个数据分析模型进行模型训练;一个应用场景也可能只需要一个模型进行模型训练。
在本实施例中,数据分析模型是根据应用场景和触发操作所对应原始数据的数据特征,从非监督学习模型、规则分析模型以及监督学习模型三个模型中进行选择的,不同的应用场景所对应的数据分析模型是不同的。示例性的,共有n个应用场景,需要从模型分析模型中选出n个模型,其在非监督学习模型、规则分析模型和监督学习模型三个模型选择的个数是随机的,可能是非监督学习模型、也可能是规则分析模型,还可能是监督学习模型,根据具体的场景进行判断选择数据分析模型。
在本实施例中,S250与S220、S230以及S240的执行顺序不分先后。在确定在当前时间窗口中接收到的每个触发操作对应的应用场景之后,可以先执行S220、S230以及S240,再执行S250;也可以先执行S250,再执行S220、S230以及S240;还可以S220、S230以及S240与S250同时执行,本实施在此不做限制。
S260、将每个触发操作对应的待评估数据输入至预先创建的与第二应用场景对应的数据分析模型,得到对应的中间态结果。
S270、将每个中间态结果输入至预先创建的风险评分模型中,得到对应的风险视图。
S280、根据风险评分模型输出的风险评分结果对所对应的原始数据进行标签处理,得到对应的第一类型标签数据。
其中,第一类型标签数据可以理解为在对原始数据进行标签处理后,得到的是正常数据,还是异常数据。示例性的,若进行标签处理之后为正常数据,则对应的第一类型标签数据为正常数据;相反的,若进行标签处理之后为异常数据,则对应的第一类型标签数据为异常数据。
在本实施例中,可以根据风险评分模型输出的风险评分结果对所对应的原始数据进行标签处理,以得到对应的第一类型标签数据,之后将第一类型标签数据存储至预先创建的用户行为样本库中。
S290、将第一类型标签数据存储至预先创建的用户行为样本库中。
在一实施例中,预先创建的用户行为样本库的创建方式,包括:
通过非监督学习模型和规则分析模型自动对原始数据进行标签处理,得到对应的第二类型标签数据;
根据第二类型标签数据创建对应的用户行为样本库。
需要说明的是,第二类型标签数据的获取,是通过非监督学习模型和规则分析模型自动对原始数据进行标签处理所得到的。第一类型标签数据的获取,是根据风险评分模型输出的风险评分结果对所对应的原始数据进行标签处理所得到的。可以理解为,第二类型标签数据的获取是在第一类型标签数据之前获取到的。
其中,第二类型标签数据可以理解为通过非监督学习模型和规则分析模型自动对原始数据进行标签处理之后所得到的标签数据。非监督学习模型可以理解为练训练样本没有进行标签的分类,直接进行训练样本。非监督学习模型对所有的原始数据直接进行样本的训练。
在本实施例中,规则分析模型可以理解为经过常规经验而得到的结果。示例性的,用户用手机在进行银行交易流程登陆时,地域突然发生改变、登陆时间突然发生改变以及登陆方式突然发生改变等等,规则分析模型可以自动对原始数据进行标签的处理,将上述进行银行交易流程登陆时的操作自动打标签为异常数据。
在本实施例中,通过非监督学习模型和规则分析模型自动对原始数据进行标签处理,得到对应的第二类型标签数据,以根据第二类型标签数据创建对应的用户行为样本库。
在一实施例中,数据分析方法,还包括:
获取用户行为样本库中的第一类型标签数据和/或第二类型标签数据;
利用第一类型标签数据和/或第二类型标签数据对监督学习模型进行训练。
其中,监督学习模型可以理解为练训本进行了一定标签的分类,分类出正常数据和异常数据,之后在进行样本训练。监督学习模型是有针对性的进行样本训练。
在本实施中,获取用户行为样本库中的第一类型标签数据和/或第二类型标签数据之后,利用第一类型标签数据和/或第二类型标签数据对监督学习模型进行训练。
本发明实施例的技术方案,在上述实施例的基础上,通过获取当前时间窗口内的原始数据和上一个时间窗口的风险评分结果,对原始数据和风险评分结果进行数据预处理,得到目标数据格式的中间数据,使得风险评估模型将上一个时间窗口的风险评分结果也作为输入参数之一,进一步提高了异常行为的识别效率以及准确率;根据风险评分模型输出的风险评分结果对所对应的原始数据进行标签处理,得到对应的第一类型标签数据,并将第一类型标签数据存储至预先创建的用户行为样本库中,可以对相关数据进行自动打标签,从而构建出恶意行为库、正常行为库、可疑行为库等样本数据库,将训练监督学习模型变为可能。
在一实施例中,图3是本发明实施例提供的另一种数据分析方法的流程图,本实施例在上述各实施例地基础上,对确定在当前时间窗口中接收到的每个触发操作对应的应用场景、将每个触发操作对应的待评估数据输入至预先创建的与第二应用场景对应的数据分析模型,得到对应的中间态结果以及将每个中间态结果输入至预先创建的风险评分模型中,得到对应的风险视图,进行了进一步的细化。如图3所示,本实施例中的数据分析方法具体可以包含如下步骤:
S310、确定在当前时间窗口中接收到的每个触发操作对应的第一应用场景。
在本实施例中,可以确定在当前时间窗口中接收到的每个触发操作对应的第一应用场景。其中,第一应用场景可以为交易、转账、汇款等等。
S320、确定每个触发操作在第一应用场景中的第二应用场景;其中,第二应用场景包含在第一应用场景之内。
其中,第二应用场景可以理解为第一应用场景中的小场景。示例性的,当第一应用场景为交易时,则第二应用场景可以为登录、菜单点击、转账等;当第一应用场景为登陆时,则第二应用场景可以为采用短信验证码的方式进行登陆时的场景,也可以输入密码的方式进行登陆时的场景;还可以采用滑块的方式进行登陆时的场景;本实施例在此不做限制。
在本实施例中,在确定在当前时间窗口中接收到的每个触发操作对应的第一应用场景之后,可以确定每个触发操作在第一应用场景中的第二应用场景。
S330、将每个触发操作对应的待评估数据输入至预先创建的与第二应用场景对应的数据分析模型。
在本实施例中,在确定第二场景之后,可以将每个触发操作对应的待评估数据输入至预先创建的与第二应用场景对应的数据分析模型,以便对待评估数据进行相关处理。
S340、通过数据分析模型对待评估数据进行聚类和筛选,得到对应的中间态结果。
其中,聚类可以理解为无监督学习的一个大类,是按照某个特定标准,例如可以是距离准则,把一个数据集分割成不同的类或簇,使得同一个簇内的数据对象的相似性尽可能大,同时不在同一个簇中的数据对象的差异性也尽可能地大。即聚类后同一类的数据尽可能聚集到一起,不同数据尽量分离。聚类可分为基于划分、层次、密度、网络、模型等聚类方法,有K-MEANS、DBSCAN、GMM等常用模型。
在本实施例中,将每个触发操作对应的待评估数据输入至第二应用场景对应的数据分析模型之后,可以通过数据分析模型对待评估数据进行聚类和筛选,以得到对应的中间态结果。
S350、将每个第二应用场景所对应数据分析模型输出的中间态结果输入至预先创建的风险评分模型中,得到每个数据分析模型对应的风险评分。
在本实施例中,将每个第二应用场景所对应数据分析模型输出的中间态结果输入至预先创建的风险评分模型中,得到每个数据分析模型对应的风险评分。示例性的,第二应用场景中包含有场景1的数据、场景2的数据、场景3的数据,其相对应的数据分析模型分别为模型1、模型2、模型3,由此可以得到数据分析模型输出的中间态结果,之后将结果输入至预先创建的风险评分模型中,可以相应的得到模型1的风险评分、模型2的风险评分、模型3的风险评分。
S360、根据每个数据分析模型对应的风险评分、预先确定的异常评分和上一时间窗口的风险评分结果确定当前时间窗口的风险评分结果。
在本实施例中,根据每个数据分析模型对应的风险评分、预先确定的异常评分和上一时间窗口的风险评分结果确定当前时间窗口的风险评分结果。
在本实施例中,根据每个数据分析模型对应的风险评分、预先确定的异常评分和上一时间窗口的风险评分结果,以确定当前时间窗口的风险评分结果的方式可以为,对数据分析模型对应的风险评分、预先确定的异常评分和上一时间窗口的风险评分结果进行加权平均的方式,以得到当前时间窗口的风险评分结果。
在一实施例中,根据每个数据分析模型对应的风险评分、预先确定的异常评分和上一时间窗口的风险评分结果确定当前时间窗口的风险评分结果,包括:
对数据分析模型对应的风险评分、预先确定的异常评分和上一时间窗口的风险评分结果进行加权平均,得到当前时间窗口的风险评分结果。
在本实施例中,通过对数据分析模型对应的风险评分、预先确定的异常评分和上一时间窗口的风险评分结果进行加权平均的方式,可以得到当前时间窗口的风险评分结果。可以理解的是,上一时间窗口的风险评分结果,会影响到当前时间窗口的风险评分结果,若上一时间窗口的风险评分结果比较低,则对当前时间窗口的风险评分结果的影响就相对比较低;相反的,若上一时间窗口的风险评分结果比较高,则对当前时间窗口的风险评分结果的影响就相对比较高。
在本实施例中,当前时间窗口的风险评分越高,说明其存在的风险越高;相反的,当前时间窗口的风险评分越低,说明其存在的风险越低。示例性的,可以用公式Scoren=(1-α)*Scoren-1+Scorecatagory+Scoreanormaly来表示,其中,Scoren表示当前时间窗口的风险评分结果,(1-α)*Scoren-1表示上一时间窗口的风险评分结果,Scorecatagory表示根据每个数据分析模型对应的风险评分,Scoreanormaly表示预先确定的异常评分,α为衰退因子,每一个参数都可以进行动态设置。
在一实施例中,数据分析模型至少包括下述类型之一:非监督学习模型、规则分析模型和监督学习模型。
S370、根据当前时间窗口的风险评分结果得到对应的风险视图。
在本实施例中,在根据每个数据分析模型对应的风险评分、预先确定的异常评分以及上一时间窗口的风险评分结果,得到当前时间窗口的风险评分结果之后,可以根据当前时间窗口的风险评分结果以得到其相对应的风险视图。
本发明实施例,通过确定在当前时间窗口中接收到的每个触发操作对应的第一应用场景;确定每个触发操作在所述第一应用场景中的第二应用场景;将每个触发操作对应的待评估数据输入至预先创建的与第二应用场景对应的数据分析模型;通过数据分析模型对所述待评估数据进行聚类和筛选,得到对应的中间态结果。将每个第二应用场景所对应数据分析模型输出的中间态结果输入至预先创建的风险评分模型中,得到每个数据分析模型对应的风险评分;根据每个数据分析模型对应的风险评分、预先确定的异常评分和上一时间窗口的风险评分结果确定当前时间窗口的风险评分结果;根据当前时间窗口的风险评分结果得到对应的风险视图。本发明实施例,通过确定在当前时间窗口中接收到的每个触发操作对应的第一应用场景;确定每个触发操作在第一应用场景中的第二应用场景;将每个触发操作对应的待评估数据输入至预先创建的与第二应用场景对应的数据分析模型,解决了用户行为风险评估中使用单一场景以及单一数据分析模型所造成的准确率以及效率低下的问题;根据每个数据分析模型对应的风险评分、预先确定的异常评分和上一时间窗口的风险评分结果确定当前时间窗口的风险评分结果,进一步提高了异常行为的识别效率以及准确率。
在一实施例中,图4是本发明实施例提供的再一种数据分析方法的流程示意图。本实施例是在上述实施例的基础上,作为一个优选实施例,对数据分析方法的过程进行说明,该方法的步骤为:
S410、应用场景划分。
参考集成学习的思想,将分析应用场景进行拆分,为不同应用场景选择数据分析模型和分析规则,例如将交易流程划分为登录、菜单点击、转账等;
S420、原始数据采集。
设置时间窗口采集***应用日志数据、用户行为数据、设备指纹、网络环境信息等原始数据。
S430、数据预处理。
对原始数据进行数据解析、清洗、标准化作业等预处理操作,统一成符合特征提取模块的数据格式。
S440、特征构建。
转换预处理的数据为特征矩阵,并对矩阵进行归一化、降维等操作,供数据分析模型使用。
S450、数据分析模型训练。
使用特征矩阵训练机器学习和规则分析模型,包括常用的聚类模型、树模型(孤立森林iForest)等,对数据进行聚类和筛选。
其中,S430、S440、以及S450可以统称为数据分析模型。
S460、风险评分模型评分。
中间态结果汇总推送至风险评分模型,风险评分模型可以根据场景,动态的设置不同分析结果的风险得分,计算出用户在该时间窗口下的风险得分。
S470、综合研判。
参考集成学***均,以及考虑到用户行为具有时间关联性,得到当前时间窗口的风险评分结果。可知风险得分还将受到用户上一个时间窗口的风险评分的影响。
基于集成学习的思想,将多个模型结果进行组合,得到一个全面的分析结果,最后计算得分。
计算方式可以为:Scoren=(1-α)*Scoren-1+Scorecatagory+Scoreanormaly来表示,其中,Scoren表示当前时间窗口的风险评分结果,(1-α)*Scoren-1表示上一时间窗口的风险评分结果,Scorecatagory表示根据每个数据分析模型对应的风险评分,Scoreanormaly表示预先确定的异常评分,α为衰退因子,每一个参数都可以进行动态设置。
S480、风险视图。
用户的风险行为视图可以根据风险得分进行划分风险等级。
其中,S460、S470、以及S480可以统称为风险评分模型。
在数据分析模型与风险评估模型之间进行迭代更新操作。
S490、行为样本库。
得到对应的风险视图之后,根据输出的风险评分结果对所对应的原始数据进行数据标签处理,并存入用户行为样本库中,可以对监督学习模型进行模型训练。
图5是本发明实施例提供的一种数据分析方法的主流程图示意图。主流程是在特定时间窗口下,对用户的风险等级进行分析的流程。流程包含构建数据分析模型和风险评分模型。如图5所示,数据分析方法的主流程图的步骤如下:
a1、进行应用场景划分,将一个应用场景划分为若干个小应用场景。
a2、原始数据的采集。
采集***应用日志数据、用户行为数据、设备指纹、网络环境信息等原始数据
a3、经过对不同应用场景下,原始数据经过数据解析及特征提取,在数据分析模型中进行模型选择和模型训练。数据分析模型中,包括:监督学习模型、非监督学习模型以及规则分析模型。
a4、经过数据分析模型得到中间态结果,在风险评估模型中进行模型评分、综合研判以得到风险视图。
图6是本发明实施例提供的一种模型迭代更新流程示意图。迭代更新流程是将用户上一时间窗口的结果作为下一时间窗口输入之一,对模型和规则进行优化,基于风险评分模型计算出来的结果,将分析评分值与使用者人工溯源的情况进行比较。如图6所示,模型迭代更新流程如下:
S610、将Tn分析结果输入至对应的数据分析模型。
其中,Tn分析结果表示当前时间窗口的风险评分结果。其中,当前时间窗口的风险评分结果,可以由选择执行的数据分析流程步骤S420-S480而得到。
S620、将Tn分析结果输入至对应的数据分析模型。
其中,Tn分析结果表示当前时间窗口的风险评分结果。其中,当前时间窗口的风险评分结果。
其中,Tn+1分析结果表示上一个时间窗口的风险评分结果。需要说明的是,上一个时间窗口的风险评分结果可以根据应用场景、数据分析模型以及风险分析模型所得到的在上一个时间窗口内的风险得分结果。
在实施例中,可以S610中得到的将当前时间窗口的风险评分结果与S620中获得的上一个时间窗口的风险评分结果作为输入数据,可以使得数据分析的结果更为准确,从而提升了准确率与效率。
S630、将通过数据分析模型对Tn分析结果和Tn+1分析结果进行分析得到的优化结果输入至风险评估模型。
其中,数据分析模型为预先创建的对每个触发操作对应的待评估数据进行数据分析所需的模型,每个应用场景均有相对应的数据分析模型。
S640、通过风险评估模型对优化结果进行分析,得到当前时间窗口的风险评分结果,并返回至S610以进行迭代更新。
其中,风险评分模型可以根据每个中间态结果输出的内容,动态的设置不同数据分析模型中间态结果的风险得分,并计算出该时间段内不同数据分析模型的风险得分,并进行一定的综合研判。
需要说明的是,S610和S620输入至数据分析模型的先后顺序不作限定,可以为先将S610输入至数据分析模型,再将S620输入至数据分析模型;也可以为先将S620输入至数据分析模型,再将S610输入至数据分析模型;还可以为将S610与S620同时输入至数据分析模型;本实施例在此不做限制。在本实施例中,以先将S610输入至数据分析模型,在将S620输入至数据分析模型为例进行说明。
图7是本发明实施例提供的一种样本库构建和监督学习模型训练流程示意图。监督学习需要有大量带有标签的数据,前期可通过非监督学习和规则分析对数据进行自动化打标签,从而积累用户行为样本库。用户行为样本库可用于监督学习的的模型训练。根据风险评分结果,关联相关原始数据,给数据自动打标签,构建标准用户行为样本库。用户行为样本库的数据训练监督学习模型,如Xgboost、LSTM等。如图7所示,样本库构建和监督学习模型训练流程如图7所示。
示例性的,为便于更好的理解数据分析方法,以客户登录手机银行完成一笔转账交易场景为例的流程进行说明:
a1、应用场景划分
以粗颗粒度来细分应用场景的话可划分为登录、页面点击和转账交易场景。
a2、原始数据采集
采集SDK会采集用户的设备信息,行为信息,以及一些页面信息和交易相关信息。
a3、数据分析模型
登录场景可以选用孤立森林模型来训练;页面点击可以选用聚类模型来训练;交易场景可以用规则、图谱来输出结果;
a4、风险评分模型
模型的输出会在风险评分模型中分别设置,如聚类的簇群1异常得分为30,簇群2异常得分为60。根据这些模型输出结果动态设置综合研判参数,最后得到一个最终风险视图。
a5、模型迭代优化
根据风险视图和上一时间窗口的风险评分结果,对模型重新训练
a6、构建样本库,训练监督学习模型
根据风险视图自动化对采集的数据标签处理,从而构建一份转账交易场景的数据样本库。样本库用于监督学习模型训练,如LSTM模型。对如是否点击赌博、欺诈网站分析,用户访问序列分析场景时,有良好效果。从而可分析的子场景更多了。
在一实施例中,图8是本发明实施例提供的一种数据分析装置的结构框图,该装置适用于对数据进行分析时的情况,该装置可以由硬件/软件实现。可配置于服务器中来实现本发明实施例中的一种数据分析方法。如图8所示,该装置包括:第一确定模块810、输出模块820和第二确定模块830。
其中,第一确定模块,用于确定在当前时间窗口中接收到的每个触发操作对应的应用场景;其中,所述应用场景包括:按照粗颗粒度进行划分得到的第一应用场景,以及按照细颗粒度进行划分得到的第二应用场景,其中,所述第二应用场景包含在所述第一应用场景之内,并且所述第二应用场景是对所述第一应用场景进行划分得到的场景。
输出模块,用于将每个所述触发操作对应的待评估数据输入至预先创建的与所述第二应用场景对应的数据分析模型,得到对应的中间态结果。
第二确定模块,用于将每个所述中间态结果输入至预先创建的风险评分模型中,得到对应的风险视图。
本发明实施例,通过第一确定模块确定在当前时间窗口中接收到的每个触发操作对应的应用场景,输出模块将每个触发操作对应的待评估数据输入至预先创建的与第二应用场景对应的数据分析模型,得到对应的中间态结果,然后第二确定模块将每个中间态结果输入至预先创建的风险评分模型中,得到对应的风险视图。本发明实施例,通过将每个触发操作对应的待评估数据输入至预先创建的与第二应用场景对应的数据分析模型,得到对应的中间态结果,并将每个中间态结果输入至预先创建的风险评分模型中,得到对应的风险视图,解决了用户行为风险评估中使用单一异常行为检测模型、使用场景单一以及准确率低下的问题,提升了异常行为的识别准确率。与现有技术相比,所采用的数据分析方法,减少数据分析检测所需投入的人力物力,降低了成本,且提高了异常行为的识别效率以及准确率。
在一实施例中,所述数据分析装置,还包括:
评分结果获得模块,用于在所述确定在当前时间窗口中接收到的每个触发操作对应的应用场景之后,所述将每个所述触发操作对应的待评估数据输入至预先创建的与所述第二应用场景对应的数据分析模型之前,获取所述当前时间窗口内的原始数据和上一个时间窗口的风险评分结果;
中间数据获得模块,用于对所述原始数据和所述风险评分结果进行数据预处理,得到目标数据格式的中间数据;
评估数据获得模块,用于对所述中间数据进行特征构建操作,得到对应的待评估数据。
在一实施例中,所述数据分析装置,还包括:
分析模型确定模块,用于在所述将每个所述触发操作对应的待评估数据输入至预先创建的与所述第二应用场景对应的数据分析模型之前,根据所述应用场景和所述触发操作所对应原始数据的数据特征确定对应的数据分析模型。
在一实施例中,所述原始数据包括下述之一:应用日志数据、用户行为数据、设备指纹、网络环境信息。
在一实施例中,第一确定模块810,包括:
第一场景确定单元,用于确定在当前时间窗口中接收到的每个触发操作对应的第一应用场景;
第二场景确定单元,用于确定每个触发操作在所述第一应用场景中的第二应用场景;其中,所述第二应用场景包含在所述第一应用场景之内。
在一实施例中,输出模块820,包括:
待评估数据输入单元,用于将每个所述触发操作对应的待评估数据输入至预先创建的与所述第二应用场景对应的数据分析模型;
中间态结果获得单元,用于通过所述数据分析模型对所述待评估数据进行聚类和筛选,得到对应的中间态结果。
在一实施例中,第二确定模块830,包括:
风险评分获得单元,用于将每个所述第二应用场景所对应数据分析模型输出的中间态结果输入至预先创建的风险评分模型中,得到每个所述数据分析模型对应的风险评分;
评分结果获得单元,用于根据每个所述数据分析模型对应的风险评分、预先确定的异常评分和上一时间窗口的风险评分结果确定当前时间窗口的风险评分结果;
风险视图获得单元,用于根据所述当前时间窗口的风险评分结果得到对应的风险视图。
在一实施例中,评分结果获得单元,还用于对所述数据分析模型对应的风险评分、预先确定的异常评分和上一时间窗口的风险评分结果进行加权平均,得到当前时间窗口的风险评分结果。
在一实施例中,所述数据分析装置,还包括:
第一标签数据获得模块,用于在所述将每个所述中间态结果输入至预先创建的风险评分模型中,得到对应的风险视图之后,根据所述风险评分模型输出的风险评分结果对所对应的原始数据进行标签处理,得到对应的第一类型标签数据;
样本库存储模块,用于将所述第一类型标签数据存储至预先创建的用户行为样本库中。
在一实施例中,所述预先创建的用户行为样本库的创建方式,包括:
通过非监督学习模型和规则分析模型自动对原始数据进行标签处理,得到对应的第二类型标签数据;
根据所述第二类型标签数据创建对应的用户行为样本库。
在一实施例中,所述数据分析装置,还包括:
标签数据获取模块,用于获取所述用户行为样本库中的第一类型标签数据和/或第二类型标签数据;
模型训练模块,用于利用所述第一类型标签数据和/或第二类型标签数据对监督学习模型进行训练。
在一实施例中,所述数据分析模型至少包括下述类型之一:非监督学习模型、规则分析模型和监督学习模型。
上述数据分析装置可执行本发明任意实施例所提供的数据分析方法,具备执行数据分析方法相应的功能模块和有益效果。
在一实施例中,图9是本发明实施例提供的一种数据分析设备的硬件结构示意图。本发明实施例中的设备以计算机为例进行说明。如图9所示,本发明实施例提供的数据分析设备,包括:处理器910、存储器920、输入装置930和输出装置940。该数据分析设备中的处理器910可以是一个或多个,图9中以一个处理器910为例,数据分析设备中的处理器910、存储器920、输入装置930和输出装置940可以通过总线或其他方式连接,图9中以通过总线连接为例。
该数据分析设备中的存储器920作为一种计算机可读存储介质,可用于存储一个或多个程序,程序可以是软件程序、计算机可执行程序以及模块,如本发明实施例或所提供数据分析方法对应的程序指令/模块(例如,图8所示的数据分析装置中的模块,包括:第一确定模块810、输出模块820和第二确定模块830)。处理器910通过运行存储在存储器920中的软件程序、指令以及模块,从而执行云端服务器的各种功能应用以及数据处理,即实现上述方法实施例中数据分析方法。
存储器920可包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需的应用程序;存储数据区可存储根据设备的使用所创建的数据等。此外,存储器920可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器920可进一步包括相对于处理器910远程设置的存储器,这些远程存储器可以通过网络连接至设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置930可用于接收用户输入的数字或字符信息,以产生与终端设备的用户设置以及功能控制有关的键信号输入。输出装置940可包括显示屏等显示设备。
并且,当上述数据分析设备所包括一个或者多个程序被一个或者多个处理器910执行时,程序进行如下操作:确定在当前时间窗口中接收到的每个触发操作对应的应用场景;将每个触发操作对应的待评估数据输入至预先创建的与第二应用场景对应的数据分析模型,得到对应的中间态结果;将每个中间态结果输入至预先创建的风险评分模型中,得到对应的风险视图。
本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本发明实施例提供的数据分析方法,该方法包括:确定在当前时间窗口中接收到的每个触发操作对应的应用场景;将每个触发操作对应的待评估数据输入至预先创建的与第二应用场景对应的数据分析模型,得到对应的中间态结果;将每个中间态结果输入至预先创建的风险评分模型中,得到对应的风险视图。
本发明实施例的计算机存储介质,可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是,但不限于电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(Random Access Memory,RAM)、只读存储器(Read-Only Memory,ROM)、可擦式可编程只读存储器(ErasableProgrammable ROM,EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(Compact DiscRead-Only Memory,CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行***、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,程序设计语言包括面向对象的程序设计语言,诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN)连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
在一实施例中,本发明实施例还提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现如上述任一实施例所述的数据分析方法。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (21)

1.一种数据分析方法,其特征在于,包括:
确定在当前时间窗口中接收到的每个触发操作对应的应用场景;其中,所述应用场景包括:按照粗颗粒度进行划分得到的第一应用场景,以及按照细颗粒度进行划分得到的第二应用场景,其中,所述第二应用场景包含在所述第一应用场景之内,并且所述第二应用场景是对所述第一应用场景进行划分得到的场景;
将每个所述触发操作对应的待评估数据输入至预先创建的与所述第二应用场景对应的数据分析模型,得到对应的中间态结果;
将每个所述中间态结果输入至预先创建的风险评分模型中,得到对应的风险视图。
2.根据权利要求1所述的方法,其特征在于,在所述确定在当前时间窗口中接收到的每个触发操作对应的应用场景之后,所述将每个所述触发操作对应的待评估数据输入至预先创建的与所述第二应用场景对应的数据分析模型之前,还包括:
获取所述当前时间窗口内的原始数据和上一个时间窗口的风险评分结果;
对所述原始数据和所述风险评分结果进行数据预处理,得到目标数据格式的中间数据;
对所述中间数据进行特征构建操作,得到对应的待评估数据。
3.根据权利要求1所述的方法,其特征在于,在所述将每个所述触发操作对应的待评估数据输入至预先创建的与所述第二应用场景对应的数据分析模型之前,还包括:
根据所述应用场景和所述触发操作所对应原始数据的数据特征确定对应的数据分析模型。
4.根据权利要求2或3所述的方法,其特征在于,所述原始数据包括下述之一:应用日志数据、用户行为数据、设备指纹、网络环境信息。
5.根据权利要求1所述的方法,其特征在于,所述确定在当前时间窗口中接收到的每个触发操作对应的应用场景,包括:
确定在当前时间窗口中接收到的每个触发操作对应的第一应用场景;
确定每个触发操作在所述第一应用场景中的第二应用场景;其中,所述第二应用场景包含在所述第一应用场景之内。
6.根据权利要求1所述的方法,其特征在于,所述将每个所述触发操作对应的待评估数据输入至预先创建的与所述第二应用场景对应的数据分析模型,得到对应的中间态结果,包括:
将每个所述触发操作对应的待评估数据输入至预先创建的与所述第二应用场景对应的数据分析模型;
通过所述数据分析模型对所述待评估数据进行聚类和筛选,得到对应的中间态结果。
7.根据权利要求5或6所述的方法,其特征在于,所述将每个所述中间态结果输入至预先创建的风险评分模型中,得到对应的风险视图,包括:
将每个所述第二应用场景所对应数据分析模型输出的中间态结果输入至预先创建的风险评分模型中,得到每个所述数据分析模型对应的风险评分;
根据每个所述数据分析模型对应的风险评分、预先确定的异常评分和上一时间窗口的风险评分结果确定当前时间窗口的风险评分结果;
根据所述当前时间窗口的风险评分结果得到对应的风险视图。
8.根据权利要求7所述的方法,其特征在于,所述根据每个所述数据分析模型对应的风险评分、预先确定的异常评分和上一时间窗口的风险评分结果确定当前时间窗口的风险评分结果,包括:
对所述数据分析模型对应的风险评分、预先确定的异常评分和上一时间窗口的风险评分结果进行加权平均,得到当前时间窗口的风险评分结果。
9.根据权利要求1所述的方法,其特征在于,在所述将每个所述中间态结果输入至预先创建的风险评分模型中,得到对应的风险视图之后,还包括:
根据所述风险评分模型输出的风险评分结果对所对应的原始数据进行标签处理,得到对应的第一类型标签数据;
将所述第一类型标签数据存储至预先创建的用户行为样本库中。
10.根据权利要求9所述的方法,其特征在于,所述预先创建的用户行为样本库的创建方式,包括:
通过非监督学习模型和规则分析模型自动对原始数据进行标签处理,得到对应的第二类型标签数据;
根据所述第二类型标签数据创建对应的用户行为样本库。
11.根据权利要求9或10所述的方法,其特征在于,所述方法,还包括:
获取所述用户行为样本库中的第一类型标签数据和/或第二类型标签数据;
利用所述第一类型标签数据和/或第二类型标签数据对监督学习模型进行训练。
12.根据权利要求8所述的方法,其特征在于,所述数据分析模型至少包括下述类型之一:非监督学习模型、规则分析模型和监督学习模型。
13.一种数据分析装置,其特征在于,包括:
第一确定模块,用于确定在当前时间窗口中接收到的每个触发操作对应的应用场景;其中,所述应用场景包括:按照粗颗粒度进行划分得到的第一应用场景,以及按照细颗粒度进行划分得到的第二应用场景,其中,所述第二应用场景包含在所述第一应用场景之内,并且所述第二应用场景是对所述第一应用场景进行划分得到的场景;
输出模块,用于将每个所述触发操作对应的待评估数据输入至预先创建的与所述第二应用场景对应的数据分析模型,得到对应的中间态结果;
第二确定模块,用于将每个所述中间态结果输入至预先创建的风险评分模型中,得到对应的风险视图。
14.根据权利要求13所述的装置,其特征在于,还包括:
评分结果获得模块,用于在所述确定在当前时间窗口中接收到的每个触发操作对应的应用场景之后,所述将每个所述触发操作对应的待评估数据输入至预先创建的与所述第二应用场景对应的数据分析模型之前,获取所述当前时间窗口内的原始数据和上一个时间窗口的风险评分结果;
中间数据获得模块,用于对所述原始数据和所述风险评分结果进行数据预处理,得到目标数据格式的中间数据;
评估数据获得模块,用于对所述中间数据进行特征构建操作,得到对应的待评估数据。
15.根据权利要求13所述的装置,其特征在于,所述第一确定模块,包括:
第一场景确定单元,用于确定在当前时间窗口中接收到的每个触发操作对应的第一应用场景;
第二场景确定单元,用于确定每个触发操作在所述第一应用场景中的第二应用场景;其中,所述第二应用场景包含在所述第一应用场景之内。
16.根据权利要求13所述的装置,其特征在于,所述输出模块,包括:
待评估数据输入单元,用于将每个所述触发操作对应的待评估数据输入至预先创建的与所述第二应用场景对应的数据分析模型;
中间态结果获得单元,用于通过所述数据分析模型对所述待评估数据进行聚类和筛选,得到对应的中间态结果。
17.根据权利要求13所述的装置,其特征在于,所述第二确定模块,包括:
风险评分获得单元,用于将每个所述第二应用场景所对应数据分析模型输出的中间态结果输入至预先创建的风险评分模型中,得到每个所述数据分析模型对应的风险评分;
评分结果获得单元,用于根据每个所述数据分析模型对应的风险评分、预先确定的异常评分和上一时间窗口的风险评分结果确定当前时间窗口的风险评分结果;
风险视图获得单元,用于根据所述当前时间窗口的风险评分结果得到对应的风险视图。
18.根据权利要求13所述的装置,其特征在于,还包括:
第一标签数据获得模块,用于在所述将每个所述中间态结果输入至预先创建的风险评分模型中,得到对应的风险视图之后,根据所述风险评分模型输出的风险评分结果对所对应的原始数据进行标签处理,得到对应的第一类型标签数据;
样本库存储模块,用于将所述第一类型标签数据存储至预先创建的用户行为样本库中。
19.一种数据分析设备,其特征在于,所述设备包括:存储器,以及一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-12中任一所述的数据分析方法。
20.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-12中任一所述的数据分析方法。
21.一种计算机程序产品,其特征在于,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1-12中任一项所述的数据分析方法。
CN202111552118.1A 2021-12-17 2021-12-17 数据分析方法、装置、设备、介质和产品 Pending CN114218569A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111552118.1A CN114218569A (zh) 2021-12-17 2021-12-17 数据分析方法、装置、设备、介质和产品

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111552118.1A CN114218569A (zh) 2021-12-17 2021-12-17 数据分析方法、装置、设备、介质和产品

Publications (1)

Publication Number Publication Date
CN114218569A true CN114218569A (zh) 2022-03-22

Family

ID=80703754

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111552118.1A Pending CN114218569A (zh) 2021-12-17 2021-12-17 数据分析方法、装置、设备、介质和产品

Country Status (1)

Country Link
CN (1) CN114218569A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117596078A (zh) * 2024-01-18 2024-02-23 成都思维世纪科技有限责任公司 一种基于规则引擎实现的模型驱动用户风险行为判别方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117596078A (zh) * 2024-01-18 2024-02-23 成都思维世纪科技有限责任公司 一种基于规则引擎实现的模型驱动用户风险行为判别方法
CN117596078B (zh) * 2024-01-18 2024-04-02 成都思维世纪科技有限责任公司 一种基于规则引擎实现的模型驱动用户风险行为判别方法

Similar Documents

Publication Publication Date Title
CN108881194B (zh) 企业内部用户异常行为检测方法和装置
WO2022117063A1 (zh) 孤立森林的训练方法,网络爬虫的识别方法及装置
CN110020422B (zh) 特征词的确定方法、装置和服务器
US10033694B2 (en) Method and device for recognizing an IP address of a specified category, a defense method and system
CN107862022B (zh) 文化资源推荐***
CN112235327A (zh) 异常日志检测方法、装置、设备和计算机可读存储介质
CN112311803B (zh) 一种规则库更新方法、装置、电子设备及可读存储介质
CN112070120A (zh) 威胁情报的处理方法、装置、电子装置和存储介质
CN113194064B (zh) 基于图卷积神经网络的webshell检测方法及装置
CN113609261A (zh) 基于网络信息安全的知识图谱的漏洞信息挖掘方法和装置
CN116996325B (zh) 一种基于云计算的网络安全检测方法及***
CN106294406B (zh) 一种用于处理应用访问数据的方法与设备
CN113704328A (zh) 基于人工智能的用户行为大数据挖掘方法及***
CN116756688A (zh) 一种基于多模态融合算法的舆情风险发现方法
CN113282920B (zh) 日志异常检测方法、装置、计算机设备和存储介质
CN117675387B (zh) 基于用户行为分析的网络安全风险预测方法及***
CN114218569A (zh) 数据分析方法、装置、设备、介质和产品
CN112667875A (zh) 一种数据获取、数据分析方法、装置、设备及存储介质
CN117473571A (zh) 一种数据信息安全处理方法及***
CN115952492A (zh) 一种电力工控***入侵检测方法、装置及存储介质
CN115392351A (zh) 风险用户识别方法、装置、电子设备及存储介质
CN115296892A (zh) 数据信息服务***
CN111475380B (zh) 一种日志分析方法和装置
CN114860903A (zh) 一种面向网络安全领域的事件抽取、分类和融合方法
CN114358024A (zh) 日志分析方法、装置、设备、介质和程序产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination