CN114493250A - 一种异常行为检测方法、计算设备及可读存储介质 - Google Patents

一种异常行为检测方法、计算设备及可读存储介质 Download PDF

Info

Publication number
CN114493250A
CN114493250A CN202210083460.XA CN202210083460A CN114493250A CN 114493250 A CN114493250 A CN 114493250A CN 202210083460 A CN202210083460 A CN 202210083460A CN 114493250 A CN114493250 A CN 114493250A
Authority
CN
China
Prior art keywords
behavior data
data sample
sample
behavior
samples
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210083460.XA
Other languages
English (en)
Inventor
邓永国
范光亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Cheerbright Technologies Co Ltd
Original Assignee
Beijing Cheerbright Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Cheerbright Technologies Co Ltd filed Critical Beijing Cheerbright Technologies Co Ltd
Priority to CN202210083460.XA priority Critical patent/CN114493250A/zh
Publication of CN114493250A publication Critical patent/CN114493250A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0635Risk analysis of enterprise or organisation activities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Strategic Management (AREA)
  • Human Resources & Organizations (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Physics & Mathematics (AREA)
  • Game Theory and Decision Science (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Educational Administration (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种异常行为检测方法、计算设备及可读存储介质,该方法包括步骤:获取行为数据样本集,行为数据样本集包括多个行为数据样本;将行为数据样本集中的行为数据样本输入到训练好的自编码器中进行处理,得到输出数据;基于输入的行为数据样本和输出数据,确定每个行为数据样本对应的样本误差;基于所有行为数据样本对应的样本误差,确定第一阈值;基于每个行为数据样本的样本误差和第一阈值,得到每个行为数据样本对应的第一风险评分;至少基于第一风险评分确定行为数据样本是否异常。

Description

一种异常行为检测方法、计算设备及可读存储介质
技术领域
本发明涉及计算机技术领域,尤其涉及一种异常行为检测方法、计算设备及可读存储介质。
背景技术
在机器学***台上,用户意向购车留资,即用户对关注的车系车型留下手机号等资料,一直以来都是各汽车经销商和汽车媒体平台所关注的重点信息,若要为此类数据进行标注,则需要人工地对用户留下的手机号进行电话回访,方能获知行为是否为用户自愿行为或确认行为信息的真实性,而在电话回访中也很难将所有的行为进行回访确认,电话回访不仅可能使用户感到个人信息被侵犯,还会产生了大量的人力物力输出。因此,在实际应用中,对无标签的数据进行训练具有广阔的应用场景。
在检测异常用户行为的领域,现有的基于机器学习的检测方法,通过对业务场景数据进行特征加工、训练模型、根据模型结果进行风险评估,其缺点是业务人员无法了解模型给出结果的具体原因,结果的可靠性不足。
因此,亟需一种能够采用未标注数据来检测异常行为的方法,提高检测的准确率。
发明内容
为此,本发明提供了一种异常行为检测方法、计算设备及可读存储介质,以力图解决或者至少缓解上面存在的至少一个问题。
根据本发明的一个方面,提供了一种异常行为检测方法,在计算设备中执行,方法包括步骤:获取行为数据样本集,行为数据样本集包括多个行为数据样本;将行为数据样本集中的行为数据样本输入到训练好的自编码器中进行处理,得到输出数据;基于输入的行为数据样本和输出数据,确定每个行为数据样本对应的样本误差;基于所有行为数据样本对应的样本误差,确定第一阈值;基于每个行为数据样本的样本误差和第一阈值,得到每个行为数据样本对应的第一风险评分;至少基于第一风险评分确定行为数据样本是否异常。
可选地,在根据本发明的异常行为检测方法中,还包括步骤:基于预定异常行为检测策略对行为数据样本集进行评估,得到每个行为数据样本对应的第二风险评分;将第一风险评分和第二风险评分进行融合处理,得到每个行为数据样本对应的第三风险评分。
可选地,在根据本发明的异常行为检测方法中,至少基于第一风险评分确定行为数据样本是否异常的步骤,包括:基于第三风险评分确定行为数据样本是否异常。
可选地,在根据本发明的异常行为检测方法中,基于第三风险评分确定行为数据样本是否异常的步骤,包括:基于所有行为数据样本对应的第三风险评分,确定风险评估等级的阈值;基于风险评估等级的阈值,确定行为数据样本对应的风险评估等级。
可选地,在根据本发明的异常行为检测方法中,在将行为数据样本集中的行为数据样本输入到训练好的自编码器中进行处理的步骤之前,还包括:对行为数据样本集进行预处理。
可选地,在根据本发明的异常行为检测方法中,行为数据样本包括至少一个行为数据,其中,对行为数据样本集进行预处理的步骤,包括:若行为数据样本集中一个行为数据样本所包括的行为数据具有缺失值,且缺失值的数量超过行为数据总数的第一预定值,则将该行为数据样本进行舍弃;若行为数据样本集中一个行为数据样本所包括的行为数据具有缺失值,但缺失值的数量未超过行为数据总数的第一预定值,则对该行为数据样本的缺失值进行填充。
可选地,在根据本发明的异常行为检测方法中,对该行为数据样本的缺失值进行填充的步骤,包括:若该行为数据样本所包括的缺失值对应的行为数据在行为数据样本集中属于连续型变量,则取行为数据样本集中该行为数据对应有值的行为数据样本,对该行为数据对应的值进行均值计算,将均值计算的结果作为该缺失值;若该行为数据样本所包括的缺失值对应的行为数据在行为数据样本集中属于离散型变量,则取行为数据样本集中该行为数据对应有值的行为数据样本,将该行为数据对应的值的众数作为该缺失值。
可选地,在根据本发明的异常行为检测方法中,基于所有行为数据样本对应的样本误差,确定第一阈值的步骤,包括:按照所有行为数据样本对应的样本误差由大到小的顺序,取第二预定值个样本误差作为第一阈值。
可选地,在根据本发明的异常行为检测方法中,每个行为数据样本对应的第一风险评分通过下述公式计算:mnodel_score(xi)=sigmoid(log(RMSEi)-log(threshold))其中,model_score(xi)为行为数据样本xi对应的第一风险评分,RMSEi为行为数据样本xi对应的均方根误差,threshold为第一阈值。
可选地,在根据本发明的异常行为检测方法中,行为数据样本包括预定周期内的行为数据。
可选地,在根据本发明的异常行为检测方法中,行为数据包括:手机号码、留资车系近日搜索次数、留资车系近日浏览次数、留资车系平均每次浏览时长、手机号近日留资次数中的至少一项。
可选地,在根据本发明的异常行为检测方法中,预定异常行为检测策略包括:第一预定时间内同一行为数据出现的次数、用户行为前的第二预定时间内是否浏览留资车系的相关页中的至少一项。
根据本发明的另一个方面,提供一种计算设备,包括:一个或多个处理器;和存储器;一个或多个程序,其中一个或多个程序存储在存储器中并被配置为由一个或多个处理器执行,一个或多个程序包括用于执行上述异常行为检测方法的指令。
根据本发明的还有一个方面,还提供一种存储一个或多个程序的计算机可读存储介质,一个或多个程序包括指令,指令当计算设备执行时,使得计算设备执行上述异常行为检测方法。
根据本发明的异常行为检测方法,基于自编码模型对数据样本集中的行为数据样本进行评估,基于样本误差及其所确定的阈值为行为数据包含的风险进行评分,有效检测异常行为,帮助净化平台数据,基于风险评分能够更为清楚直观地得知行为数据样本的风险高低,为精细化和差异化的精准营销提供有效的数据支持。
另外,在大量的应用场景下,数据样本都是没有标签的,采用无监督的异常检测模型是合理且有效的,可以节省大量的人工标注的工作。
而由于实际应用场景的复杂性,仅仅运用无监督模型往往效果不佳,因此,引入异常行为检测策略对行为数据样本进行评估,创造性地提出了融合了自编码器与异常行为检测策略的风险评分方案,增加了异常行为检测的可靠性,极大地减少了无监督模型可能带来的误伤。
附图说明
为了实现上述以及相关目的,本文结合下面的描述和附图来描述某些说明性方面,这些方面指示了可以实践本文所公开的原理的各种方式,并且所有方面及其等效方面旨在落入所要求保护的主题的范围内。通过结合附图阅读下面的详细描述,本公开的上述以及其它目的、特征和优势将变得更加明显。遍及本公开,相同的附图标记通常指代相同的部件或元素。
图1示出了根据本发明一个实施例的计算设备100的示意图;
图2示出了根据本发明一个实施例的异常行为检测方法200的流程图;以及
图3示出了根据本发明另一个实施例的异常行为检测方法300的流程图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
在各个行业中,用户意向留资,即用户对有意向的产品留下例如手机号等资料以待咨询,都是非常重要的信息。以汽车行业为例,用户意向购车留资,即用户对有意向的某车系车型留下手机号等资料,一直以来都是汽车媒体平台及经销商重点关注的内容。真实的留资行为,极大地反映了用户的购车意向,对平台及经销商来说,都是非常有价值的营销线索。然而,来自恶意用户或竞争对手的虚假留资,大量占用平台资源,而人工筛查和过滤掉虚假留资也产生不必要的成本支出。虽然,平台可以通过增加短信验证码的方式来阻止虚假留资的出现,但与之相伴的是,用户的留资意愿也会极大地降低。因此,在不增加短信验证码的前提下,如何有效过滤虚假留资成为当下汽车媒体平台研究的重点课题。
本发明结合自编码器算法提出了一种异常行为检测方法,通过构建自编码器,对用户留资信息,以及用户留资前对不同车系的浏览行为、浏览时长、浏览车系类型、搜索行为等多维度数据进行无监督的模型训练。通过模型对用户产生的行为数据进行评分,或者结合异常行为检测策略对用户产生的行为数据进行评分,提高检测异常用户留资行为的准确率。
本发明提供了一种异常行为检测方法,该方法在计算设备中执行。图1示出了根据本发明一个实施例的计算设备100的示意图。需要说明的是,图1所示的计算设备100仅为一个示例,在实践中,用于实施本发明的异常行为检测方法的计算设备可以是任意型号的设备,其硬件配置情况可以与图1所示的计算设备100相同,也可以与图1所示的计算设备100不同。实践中用于实施本发明的异常行为检测方法的计算设备可以对图1所示的计算设备100的硬件组件进行增加或删减,本发明对计算设备的具体硬件配置情况不做限制。
计算设备100的结构框图如图1所示,在基本配置102中,计算设备100典型地包括***存储器106和一个或者多个处理器104。存储器总线108可以用于在处理器104和***存储器106之间的通信。
取决于期望的配置,处理器104可以是任何类型的处理,包括但不限于:微处理器(μP)、微控制器(μC)、数字信息处理器(DSP)或者它们的任何组合。处理器104可以包括诸如一级高速缓存110和二级高速缓存112之类的一个或者多个级别的高速缓存、处理器核心114和寄存器116。示例的处理器核心114可以包括运算逻辑单元(ALU)、浮点数单元(FPU)、数字信号处理核心(DSP核心)或者它们的任何组合。示例的存储器控制器118可以与处理器104一起使用,或者在一些实现中,存储器控制器118可以是处理器104的一个内部部分。
取决于期望的配置,***存储器106可以是任意类型的存储器,包括但不限于:易失性存储器(诸如RAM)、非易失性存储器(诸如ROM、闪存等)或者它们的任何组合。***存储器106可以包括操作***120、一个或者多个应用122以及程序数据124。在一些实施方式中,应用122可以布置为在操作***上利用程序数据124进行操作。程序数据124包括指令,在根据本发明的计算设备100中,程序数据124包含用于执行程序调试本发明的异常行为检测方法200或300的指令。
计算设备100还包括储存设备132,储存设备132包括可移除储存器136和不可移除储存器138,可移除储存器136和不可移除储存器138均与储存接口总线134连接。本发明中,程序执行过程中发生的各事件的相关数据和指示各事件发生的时间信息,可存储于储存设备132中,操作***120适于管理储存设备132。其中,储存设备132可为磁盘。
计算设备100还可以包括有助于从各种接口设备(例如,输出设备142、外设接口144和通信设备146)到基本配置102经由总线/接口控制器130的通信的接口总线140。示例的输出设备142包括图形处理单元148和音频处理单元150。它们可以被配置为有助于经由一个或者多个A/V端口152与诸如显示器或者扬声器之类的各种外部设备进行通信。示例外设接口144可以包括串行接口控制器154和并行接口控制器156,它们可以被配置为有助于经由一个或者多个I/O端口158和诸如输入设备(例如,键盘、鼠标、笔、语音输入设备、触摸输入设备)或者其他外设(例如打印机、扫描仪等)之类的外部设备进行通信。示例的通信设备146可以包括网络控制器160,其可以被布置为便于经由一个或者多个通信端口164与一个或者多个其他计算设备162通过网络通信链路的通信。
网络通信链路可以是通信介质的一个示例。通信介质通常可以体现为在诸如载波或者其他传输机制之类的调制数据信号中的计算机可读指令、数据结构、程序模块,并且可以包括任何信息递送介质。“调制数据信号”可以这样的信号,它的数据集中的一个或者多个或者它的改变可以在信号中编码信息的方式进行。作为非限制性的示例,通信介质可以包括诸如有线网络或者专线网络之类的有线介质,以及诸如声音、射频(RF)、微波、红外(IR)或者其它无线介质在内的各种无线介质。这里使用的术语计算机可读介质可以包括存储介质和通信介质二者。
计算设备100可以实现为服务器,例如文件服务器、数据库服务器、应用程序服务器和WEB服务器等,也可以实现为小尺寸便携(或者移动)电子设备的一部分,这些电子设备可以是诸如蜂窝电话、个人数字助理(PDA)、个人媒体播放器设备、无线网络浏览设备、个人头戴设备、应用专用设备、或者可以包括上面任何功能的混合设备。计算设备100还可以实现为包括桌面计算机和笔记本计算机配置的个人计算机。在一些实施例中,计算设备100的操作***120被配置为执行根据本发明的一种异常行为检测方法。
图2示出了根据本发明一个实施例的异常行为检测方法200的流程图。方法200适于在如上所述的计算设备100中执行。如图2所示,方法200始于步骤S210。
在步骤S210中,获取行为数据样本集,该行为数据样本集包括多个行为数据样本。
根据本发明的实施例,行为数据样本可以包括预定周期内的行为数据,例如,一天内采集到的行为数据。行为数据包括:留资手机号码、留资车系近日搜索次数、留资车系近日浏览次数、留资车系平均每次浏览时长、手机号近日留资次数中的至少一项。行为数据还可以包括:浏览车系的次数、浏览车系的时长、浏览车系口碑信息的次数、浏览车系口碑信息的时长、浏览车系所属的类型、搜索车系次数、搜索车型次数、搜索车系的频率、搜索车系的频率、相同手机号留资次数、相同手机号留资的频率、论坛发帖回帖行为,例如用户在论坛发帖或回帖提到的车型车系、用户在论坛发帖或回帖提到某车型车系的次数、用户发帖回帖所在的版块属于何种车型车系等等。留资表示用户留下资料这一行为,留资车系则表示该车系为用户的意向车系,用户对该车系留下了资料。
采集的行为数据样本的示例如下表所示:
Figure BDA0003474074160000081
表格一
表格一所示的行为数据样本示例包括的行为数据有用户留资手机号、留资车系近3日的搜索次数、留资车系口碑近3日的浏览次数、留资车系近3日的浏览次数、平均每次浏览时长、留资手机号近3日的留资次数、以及留资手机号1小时内的留资次数。在该示例中,前两行行为数据样本,即用户留资手机号130****5678和130****1234对应的行为数据均具有对应的值,数据完整,无缺失值,而第三行行为数据样本,即用户留资手机号130****0000对应的行为数据中仅留资手机号1小时内留资次数对应有值,其他的行为数据的值缺失。在数据预处理阶段,将对具有缺失值的行为数据进行处理。
需要说明的是,本发明的异常行为检测方法适用于本发明的行为数据样本集,也可以适用于其他的行为数据样本集,例如,汽车行业以外的其他行业的用户行为数据样本集,但不限于此。
在步骤S220中,将行为数据样本集中的行为数据样本输入到训练好的自编码器中进行处理,得到输出数据。
可选地,在将行为数据样本集中的行为数据样本输入到训练好的自编码器之前,对行为数据样本集进行预处理。
具体地,根据行为数据样本的稀疏程度对行为数据样本进行处理,包括对行为数据样本中的缺失值进行处理。有些数据样本具有缺失值,例如,表格一中第三行的行为数据样本,即用户留资手机号130****0000对应的行为数据中仅留资手机号1小时内留资次数对应有值,其他的行为数据的值均有缺失,即其他的行为数据均具有缺失值。
关于对行为数据样本集中行为数据样本的缺失值进行处理的步骤,首先,判断行为数据样本是否具有缺失值,若行为数据样本中的行为数据不具有缺失值,则不进行处理。若行为数据样本所包括的行为数据具有缺失值,且缺失值的数量超过行为数据总数的第一预定值,则将该行为数据样本进行舍弃。由于当缺失值的数量超过行为数据总数的第一预定值时,缺失值的数量过多,由此可以推断出这一行为数据样本的数据质量较低,因此对该行为数据样本进行舍弃,以提高行为数据样本的质量,从而提高异常行为检测的准确性。若行为数据样本所包括的行为数据具有缺失值,但缺失值的数量未超过行为数据总数的第一预定值,则对该行为数据样本的缺失值进行填充。
关于对行为数据样本的缺失值进行填充的步骤,首先,确定缺失值对应的行为数据在行为数据样本集中属于什么类型的变量。若该行为数据样本所包括的缺失值对应的行为数据在行为数据样本集中属于连续型变量,则取行为数据样本集中该行为数据对应有值的行为数据样本,对该行为数据对应的值进行均值计算,将均值计算的结果作为该缺失值。例如,在一个包含众多行为数据样本的行为数据样本集中,行为数据样本1所包括的一个行为数据的值为6,行为数据样本2所包括的同一个行为数据的值为10,行为数据样本3所包括的同一个行为数据的值缺失,此处省略其余的行为数据样本,若行为数据样本3满足上述缺失值的数量未超过行为数据总数的第一预定值的条件,并且,该行为数据在这个行为数据样本集中属于连续型变量,则取数据样本1对应的该行为数据的值6、数据样本2对应的该行为数据的值10、以及其余的行为数据样本中同一行为数据对应的值,进行均值计算,将均值计算的结果为数据样本3中的该行为数据的缺失值进行填充。
若该行为数据样本所包括的缺失值对应的行为数据在行为数据样本集中属于离散型变量,则取行为数据样本集中该行为数据对应有值的行为数据样本,将该行为数据对应的值的众数作为该缺失值。例如,在一个包含众多行为数据样本的行为数据样本集中,行为数据样本1所包括的一个行为数据的值为8,行为数据样本2所包括的同一个行为数据的值为10,行为数据样本3所包括的同一个行为数据的值缺失,这里省略其余的行为数据样本,若行为数据样本3满足上述缺失值的数量未超过行为数据总数的第一预定值的条件,并且,该行为数据在这个行为数据样本集中属于离散型变量,则取数据样本1对应的该行为数据的值8、数据样本2对应的该行为数据的值10、以及其余的行为数据样本中同一行为数据对应的值,获取其中的众数对数据样本3中的该行为数据的缺失值进行填充。
将缺失值过多的行为数据样本进行舍弃,并对缺失值较少的行为数据样本进行填充可以排除质量较低的样本,并提高了缺失值较少的样本质量,克服了由于缺失值造成的异常行为检测失误的问题,提升异常行为检测的准确度。
关于第一预定值的选取,例如可以设置为50%,当然,第一预定值还可以根据实际业务场景来进行设置。例如,所采集的特定行为数据样本集的样本数量较少,则将第一预定值设置为较大的百分数,如80%,以便尽可能多保留行为数据样本。所采集的特定行为数据样本集的样本数量较少,将第一预定值设置为较小的百分数,如20%,以便尽可能剔除信息不全的数据样本。本发明对第一预定值的具体数值的选取不做限定。
对行为数据样本集进行预处理还可以包括:对行为数据样本中的异常值进行处理、特征衍生、数据分段、数据编码等等。
根据本发明的一个实施例,对行为数据样本中行为数据异常的值进行处理。针对数据样本所包括的每个行为数据对应的值是否为异常值,可以由本领域技术人员根据具体的业务来定义,例如,定义留资手机号1小时内留资次数对应的值大于60,将该行为数据对应的值确定为异常值。
根据本发明的一个实施例,对于原有的特征不足以很好地建立自编码模型的情况,需要进行特征衍生,即构建新的特征,其中,特征指的是行为数据样本中的行为数据。特征衍生可以采用计数的方式,例如,统计留资车系近一周的搜索次数,还可以基于现有特征进行深入分析,例如,留资手机号归属地、留资手机号是否为虚拟运营商,还可以将用户填写的资料增添到特征当中,例如,用户的年龄、性别、学历、职业等信息。
根据本发明的一个实施例,根据具体业务需求对特征进行分段,例如,对某车系近三日浏览次数按照0-5次、5-10次、10-15次…进行分段。
在步骤S230中,基于输入的行为数据样本和输出数据,确定每个行为数据样本对应的样本误差。其中,样本误差可以是均方根误差。
每个行为数据样本对应的样本误差可以通过下述公式构建:
Figure BDA0003474074160000111
其中,RMSEi为样本xi的均方根误差,xt为样本xi的第t个特征(编码器器的第t个输入),pt为第t个特征解码后的输出值,N为特征的总数。
可选地,样本误差也可以是平均误差。
随后,在步骤S240,基于所有行为数据样本对应的样本误差,确定第一阈值。
具体地,按照所有行为数据样本对应的样本误差由大到小的顺序正序排序,取第二预定值个样本误差作为第一阈值。可选地,选取95%的分位值,即第二预定值选取95%*N,其中,这里N为所有行为数据样本的数量。若输入的某个行为数据样本和输出数据之间的样本误差大于第一阈值,则认定该行为数据样本为异常行为。
然而随着时间推移,正负样本的分布也将产生变化,这会导致样本误差的分布发生变化,进而导致模型得出的第一风险评分的不稳定。为减少误伤,本发明创造性地采用动态加入阈值的方式,每隔预定周期按该周期内全量样本的样本误差的特定分位数重新确定第一阈值,动态调整每个预定周期的异常占比量,使自编码模型的结果相对于变化的业务数据达到一个平稳的状态,例如,每日按当天全量均方根误差的95%的分位数重新确定第一阈值,达到每日按所确定的异常占比量动态调整第一阈值的目的。
根据本发明的另一个实施例,所采用的自编码器可以通过训练获得。其中,自编码器可以为变分自编码器。变分自编码器包含编码器、解码器和损失函数三个部分,通过损失函数的计算可以得知输入到变分自编码器的行为数据样本与变分自编码器输出的输出数据之间的差异,可以通过梯度下降对损失进行重构,使输入和输出数据之间的差异减小。
在大量的应用场景下,例如,在汽车媒体平台中,用户留资的意愿通常是为了咨询汽车的价格等购车信息,在类似这样的场景下,大部分的留资信息都是真实,只有少量的恶意用户会留下虚假手机号的信息,这样一来,正样本(即异常留资的行为数据样本)的数量远少于负样本(即正常留资的行为数据样本),而由于正负样本数量差异较大,训练出的模型拟合负样本的效果将胜过拟合正样本的效果,对样本比例大的负样本造成过拟合,这样模型整体效果欠佳,大大降低模型的泛化能力。
对此,通过所确定的第一阈值可以将正负样本进行区分,将样本误差大于第一阈值的行为数据样本确定为正样本,并将样本误差小于第一阈值的行为数据样本确定为负样本。然后,可以通过过采样的方式增加少数样本的数量来实现样本均衡,也可以采用欠采样的方式减少多数样本的数量来实现样本均衡。也可以通过对正负样本采取不同的惩罚权重,例如对少数样本采用高权重,对多数样本采用低权重。采用如上所述的动态调整第一阈值的方式可以减少误伤,即减少错误地将负样本划分为正样本的情况,提高模型的准确率。
在步骤S250中,基于每个行为数据样本的样本误差和前述步骤所确定的第一阈值,得到每个行为数据样本对应的第一风险评分。
每个行为数据样本对应的第一风险评分可以通过下述公式计算:
mnodel_score(xi)=sigmoid(log(RMSEi)-log(threshold))
其中,mnodel_score(xi)为行为数据样本xi对应的第一风险评分,RMSEi为行为数据样本xi对应的均方根误差,threshold为第一阈值。
通过自编码器得到的异常值需要经过对数变换和sigmoid函数变换,将自编码器模型得出的第一风险评分映射到[0,1]的区间内,以便将第一风险评分与通过其他方法获取到的风险评分在同一数值维度内进行融合。
在步骤S260中,至少基于第一风险评分确定行为数据样本是否异常。
根据本发明的一个实施例,行为数据样本是否异常可以仅基于第一风险评分来确定。首先,基于所有行为数据样本对应的第一风险评分,确定风险评估等级的阈值,其次,基于所确定的风险评估等级的阈值,确定行为数据样本对应的风险评估等级。根据本发明的一个实施例,风险评估等级可以由多个等级组成,再根据各个风险评估等级的阈值,判断行为数据样本属于何种风险评估等级。
可选地,风险评估等级的阈值可以根据业务需要进行设定,也可以参照3σ准则来确定。例如,若第一风险评分符合正太分布的规则,风险评估等级的阈值可以设定为,μ-σ,μ,μ+σ,四个等级,其中,μ表示所有第一风险评分的平均值,σ表示所有第一风险评分的标准差,第一风险评分在0和μ-σ之间的行为数据样本为风险最低,第一风险评分在μ-σ和μ之间的行为数据样本为风险较低,第一风险评分在μ和μ+σ之间的行为数据样本为风险较高,第一风险评分在μ+σ和1之间的行为数据样本为风险最高。
在步骤S260之后,还可以包括如图3所示的步骤,图3示出了根据本发明另一个实施例的异常行为检测方法300。方法300始于步骤S310。
在步骤S310中,基于预定异常行为检测策略对所述行为数据样本集进行评估,得到每个行为数据样本对应的第二风险评分。
在车媒体平台的留资场景中,预定异常行为检测策略包括:第一预定时间内同一行为数据出现的次数、用户行为前的第二预定时间内是否浏览行为车系的相关页中的至少一项。例如,同一用户设备10分钟内对同一车系留资的次数,若次数越多,则该用户设备的留资为异常行为的可能性越高;又如:同一手机号的用户在当次对某车系留资的前1小时内未对该车系的相关业浏览,则该用户的留资为异常行为的可能性较高。因此,通过预定的异常行为检测策略也可以有效筛查出部分异常行为。其中,第一预定时间和第二预定时间的具体数值可以由本领域技术人员根据具体的应用场景进行设定,本发明对比不做限定。
具体地,第二风险评分可以通过下述公式生成:
Figure BDA0003474074160000141
其中,rules_score(xi)是样本xi的第二风险评分,rj(xi)是样本xi的第j个异常行为检测策略的特征值。
通过预定异常行为检测策略对行为数据样本集进行评估,得到的异常值需要经过对数变换和sigmoid函数变换将第二风险评分映射到[0,1]的区间内,以便将第二风险评分与通过其他方法获得的风险评分在同一数值维度内进行融合。
随后在步骤S320中,将第一风险评分和第二风险评分进行融合处理,得到每个行为数据样本对应的第三风险评分。
根据本发明的一个实施例,通过下述公式构建第三风险评分:
final_score(xi)=a*model_score(xi)+b*rules_score(xi)
a+b=1
其中,final_score(xi)为样本xi的第三风险评分,model_score(xi)为样本xi的第一风险评分,rules_score(xi)为样本xi的第二风险评分,a为第一风险评分分配权重,b为第二风险评分分配权重。
本发明通过融合自编码器得到的风险评分与预定异常行为检测策略得到的风险评分融合得到的最终评分对行为数据样本是否为异常行为以及所处的异常行为等级进行判断,既融合了自编码模型和异常行为检测策略的优势,其结果也具有一定的可解释性,还增加了结果的可靠和准确度。
根据本发明的一个实施例,步骤S260的步骤,包括:基于第三风险评分确定行为数据样本是否异常。行为数据样本是否异常可以结合第一风险评分来和第二风险评分确定。首先,基于所有行为数据样本对应的第三风险评分,确定各风险评估等级的阈值。其次,基于各风险评估等级的阈值,确定行为数据样本对应的风险评估等级。
可选地,风险评估等级的阈值可以根据业务需要进行设定,也可以参照3σ准则来确定。例如,若第三风险评分符合正太分布的规则,风险评估等级的阈值可以设定为,μ-σ,μ,μ+σ,四个等级,其中,μ表示所有第三风险评分的平均值,σ表示所有第三风险评分的标准差,第三风险评分在0和μ-σ之间的行为数据样本为风险最低,第三风险评分在μ-σ和μ之间的行为数据样本为风险较低,第三风险评分在μ和μ+σ之间的行为数据样本为风险较高,第三风险评分在μ+σ和1之间的行为数据样本为风险最高。
根据本发明的异常行为检测方法,基于自编码模型对数据样本集中的行为数据样本进行评估,基于样本误差及其所确定的阈值为行为数据包含的风险进行评分,有效检测异常行为,帮助净化平台数据,基于风险评分能够更为清楚直观地得知行为数据样本的风险高低,为精细化和差异化的精准营销提供有效的数据支持。
另外,在大量的应用场景下,数据样本都是没有标签的,采用无监督的异常检测模型是合理且有效的,可以节省大量的人工标注的工作。
而由于实际应用场景的复杂性,仅仅运用无监督模型往往效果不佳,因此,引入异常行为检测策略对行为数据样本进行评估,创造性地提出了融合了自编码器与异常行为检测策略的风险评分方案,增加了异常行为检测的可靠性,极大地减少了无监督模型可能带来的误伤。
这里描述的各种技术可结合硬件或软件,或者它们的组合一起实现。从而,本发明的方法和设备,或者本发明的方法和设备的某些方面或部分可采取嵌入有形媒介,例如可移动硬盘、U盘、软盘、CD-ROM或者其它任意机器可读的存储介质中的程序代码(即指令)的形式,其中当程序被载入诸如计算机之类的机器,并被所述机器执行时,所述机器变成实践本发明的设备。
在程序代码在可编程计算机上执行的情况下,计算设备一般包括处理器、处理器可读的存储介质(包括易失性和非易失性存储器和/或存储元件),至少一个输入装置,和至少一个输出装置。其中,存储器被配置用于存储程序代码;处理器被配置用于根据该存储器中存储的所述程序代码中的指令,执行本发明的异常行为检测方法。
以示例而非限制的方式,可读介质包括可读存储介质和通信介质。可读存储介质存储诸如计算机可读指令、数据结构、程序模块或其它数据等信息。通信介质一般以诸如载波或其它传输机制等已调制数据信号来体现计算机可读指令、数据结构、程序模块或其它数据,并且包括任何信息传递介质。以上的任一种的组合也包括在可读介质的范围之内。
在此处所提供的说明书中,算法和显示不与任何特定计算机、虚拟***或者其它设备固有相关。各种通用***也可以与本发明的示例一起使用。根据上面的描述,构造这类***所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下被实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员应当理解在本文所公开的示例中的设备的模块或单元或组件可以布置在如该实施例中所描述的设备中,或者可替换地可以定位在与该示例中的设备不同的一个或多个设备中。前述示例中的模块可以组合为一个模块或者此外可以分成多个子模块。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
此外,所述实施例中的一些在此被描述成可以由计算机***的处理器或者由执行所述功能的其它装置实施的方法或方法元素的组合。因此,具有用于实施所述方法或方法元素的必要指令的处理器形成用于实施该方法或方法元素的装置。此外,装置实施例的在此所述的元素是如下装置的例子:该装置用于实施由为了实施该发明的目的的元素所执行的功能。
如在此所使用的那样,除非另行规定,使用序数词“第一”、“第二”、“第三”等等来描述普通对象仅仅表示涉及类似对象的不同实例,并且并不意图暗示这样被描述的对象必须具有时间上、空间上、排序方面或者以任意其它方式的给定顺序。
尽管根据有限数量的实施例描述了本发明,但是受益于上面的描述,本技术领域内的技术人员明白,在由此描述的本发明的范围内,可以设想其它实施例。此外,应当注意,本说明书中使用的语言主要是为了可读性和教导的目的而选择的,而不是为了解释或者限定本发明的主题而选择的。因此,在不偏离所附权利要求书的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。对于本发明的范围,对本发明所做的公开是说明性的,而非限制性的,本发明的范围由所附权利要求书限定。

Claims (10)

1.一种异常行为检测方法,在计算设备中执行,所述方法包括步骤:
获取行为数据样本集,所述行为数据样本集包括多个行为数据样本;
将行为数据样本集中的行为数据样本输入到训练好的自编码器中进行处理,得到输出数据;
基于输入的行为数据样本和输出数据,确定每个行为数据样本对应的样本误差;
基于所有行为数据样本对应的样本误差,确定第一阈值;
基于每个行为数据样本的样本误差和所述第一阈值,得到每个行为数据样本对应的第一风险评分;
至少基于第一风险评分确定行为数据样本是否异常。
2.根据权利要求1所述的方法,还包括步骤:
基于预定异常行为检测策略对所述行为数据样本集进行评估,得到每个行为数据样本对应的第二风险评分;
将所述第一风险评分和第二风险评分进行融合处理,得到每个行为数据样本对应的第三风险评分。
3.根据权利要求2所述的方法,其中,所述至少基于第一风险评分确定行为数据样本是否异常的步骤,包括:
基于所述第三风险评分确定行为数据样本是否异常。
4.根据权利要求3所述的方法,其中,所述基于所述第三风险评分确定行为数据样本是否异常的步骤,包括:
基于所述所有行为数据样本对应的第三风险评分,确定风险评估等级的阈值;
基于所述风险评估等级的阈值,确定行为数据样本对应的风险评估等级。
5.根据权利要求1至4中任一项所述的方法,其中,在所述将行为数据样本集中的行为数据样本输入到训练好的自编码器中进行处理的步骤之前,还包括:
对行为数据样本集进行预处理。
6.根据权利要求5所述的方法,所述行为数据样本包括至少一个行为数据,其中,所述对行为数据样本集进行预处理的步骤,包括:
若所述行为数据样本集中一个行为数据样本所包括的行为数据具有缺失值,且缺失值的数量超过行为数据总数的第一预定值,则将该行为数据样本进行舍弃;
若所述行为数据样本集中一个行为数据样本所包括的行为数据具有缺失值,但缺失值的数量未超过行为数据总数的第一预定值,则对该行为数据样本的缺失值进行填充。
7.根据权利要求6所述的方法,其中,所述对该行为数据样本的缺失值进行填充的步骤,包括:
若该行为数据样本所包括的缺失值对应的行为数据在行为数据样本集中属于连续型变量,则取行为数据样本集中该行为数据对应有值的行为数据样本,对该行为数据对应的值进行均值计算,将均值计算的结果作为该缺失值;
若该行为数据样本所包括的缺失值对应的行为数据在行为数据样本集中属于离散型变量,则取行为数据样本集中该行为数据对应有值的行为数据样本,将该行为数据对应的值的众数作为该缺失值。
8.根据权利要求1至7中任一项所述的方法,其中,所述基于所有行为数据样本对应的样本误差,确定第一阈值的步骤,包括:
按照所有行为数据样本对应的样本误差由大到小的顺序,取第二预定值个样本误差作为第一阈值。
9.一种计算设备,包括:
一个或多个处理器;和
存储器;
一个或多个程序,其中所述一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序包括用于执行根据权利要求1至8所述方法中的任一方法的指令。
10.一种存储一个或多个程序的计算机可读存储介质,所述一个或多个程序包括指令,所述指令当计算设备执行时,使得所述计算设备执行根据权利要求1至8所述的方法中的任一方法。
CN202210083460.XA 2022-01-17 2022-01-17 一种异常行为检测方法、计算设备及可读存储介质 Pending CN114493250A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210083460.XA CN114493250A (zh) 2022-01-17 2022-01-17 一种异常行为检测方法、计算设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210083460.XA CN114493250A (zh) 2022-01-17 2022-01-17 一种异常行为检测方法、计算设备及可读存储介质

Publications (1)

Publication Number Publication Date
CN114493250A true CN114493250A (zh) 2022-05-13

Family

ID=81474215

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210083460.XA Pending CN114493250A (zh) 2022-01-17 2022-01-17 一种异常行为检测方法、计算设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN114493250A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115001953A (zh) * 2022-05-30 2022-09-02 中国第一汽车股份有限公司 一种电动汽车数据质量评估方法、装置、终端及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108416669A (zh) * 2018-03-13 2018-08-17 腾讯科技(深圳)有限公司 用户行为数据处理方法、装置、电子设备及计算机可读介质
CN111709491A (zh) * 2020-06-30 2020-09-25 平安科技(深圳)有限公司 基于自编码器的异常检测方法、装置、设备及存储介质
CN112131212A (zh) * 2020-09-29 2020-12-25 合肥城市云数据中心股份有限公司 基于集成学习技术面向混合云场景的时序数据异常预测方法
CN112348660A (zh) * 2020-10-21 2021-02-09 上海淇玥信息技术有限公司 生成风险警示信息的方法、装置及电子设备
CN113177844A (zh) * 2021-05-28 2021-07-27 成都新希望金融信息有限公司 一种信贷风险预测方法、装置、设备及存储介质
CN113762967A (zh) * 2021-03-31 2021-12-07 北京沃东天骏信息技术有限公司 风险信息确定方法、模型训练方法、设备、程序产品

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108416669A (zh) * 2018-03-13 2018-08-17 腾讯科技(深圳)有限公司 用户行为数据处理方法、装置、电子设备及计算机可读介质
CN111709491A (zh) * 2020-06-30 2020-09-25 平安科技(深圳)有限公司 基于自编码器的异常检测方法、装置、设备及存储介质
WO2021139236A1 (zh) * 2020-06-30 2021-07-15 平安科技(深圳)有限公司 基于自编码器的异常检测方法、装置、设备及存储介质
CN112131212A (zh) * 2020-09-29 2020-12-25 合肥城市云数据中心股份有限公司 基于集成学习技术面向混合云场景的时序数据异常预测方法
CN112348660A (zh) * 2020-10-21 2021-02-09 上海淇玥信息技术有限公司 生成风险警示信息的方法、装置及电子设备
CN113762967A (zh) * 2021-03-31 2021-12-07 北京沃东天骏信息技术有限公司 风险信息确定方法、模型训练方法、设备、程序产品
CN113177844A (zh) * 2021-05-28 2021-07-27 成都新希望金融信息有限公司 一种信贷风险预测方法、装置、设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115001953A (zh) * 2022-05-30 2022-09-02 中国第一汽车股份有限公司 一种电动汽车数据质量评估方法、装置、终端及存储介质
CN115001953B (zh) * 2022-05-30 2023-11-14 中国第一汽车股份有限公司 一种电动汽车数据质量评估方法、装置、终端及存储介质

Similar Documents

Publication Publication Date Title
CN107025596B (zh) 一种风险评估方法和***
CN108121795B (zh) 用户行为预测方法及装置
CN110297912A (zh) 欺诈识别方法、装置、设备及计算机可读存储介质
CN108550065B (zh) 评论数据处理方法、装置及设备
CN112102073A (zh) 信贷风险控制方法及***、电子设备及可读存储介质
CN112328909B (zh) 信息推荐方法、装置、计算机设备及介质
CN110287328A (zh) 一种文本分类方法、装置、设备及计算机可读存储介质
CN103984703A (zh) 邮件分类方法和装置
CN112633962A (zh) 业务推荐方法、装置、计算机设备和存储介质
CN111078880A (zh) 子应用的风险识别方法以及装置
CN111159481B (zh) 图数据的边预测方法、装置及终端设备
CN114493250A (zh) 一种异常行为检测方法、计算设备及可读存储介质
CN114119191A (zh) 风控方法、逾期预测方法、模型训练方法及相关设备
CN112131354A (zh) 答案筛选方法、装置、终端设备和计算机可读存储介质
CN115423600B (zh) 数据筛选方法、装置、介质及电子设备
CN113935788B (zh) 模型评估方法、装置、设备及计算机可读存储介质
CN111507850A (zh) 核保方法及相关装置、设备
CN110795537B (zh) 一种确定目标商品的改进策略的方法、装置、设备和介质
CN115238194A (zh) 书籍推荐方法、计算设备及计算机存储介质
CN115982634A (zh) 应用程序分类方法、装置、电子设备及计算机程序产品
CN116304065B (zh) 舆情文本分类方法、装置、电子设备及存储介质
CN115660722B (zh) 银寿客户转化的预测方法、装置和电子设备
CN116629926A (zh) 一种复购预测模型训练方法、复购预测方法及装置
CN114610986A (zh) 用户资源的推送方法及装置
CN113158647A (zh) 客服工单的处理方法、装置和服务器

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination