CN114841526A - 一种高风险用户的检测方法、计算设备及可读存储介质 - Google Patents

一种高风险用户的检测方法、计算设备及可读存储介质 Download PDF

Info

Publication number
CN114841526A
CN114841526A CN202210383838.8A CN202210383838A CN114841526A CN 114841526 A CN114841526 A CN 114841526A CN 202210383838 A CN202210383838 A CN 202210383838A CN 114841526 A CN114841526 A CN 114841526A
Authority
CN
China
Prior art keywords
user
data sample
risk
risk score
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210383838.8A
Other languages
English (en)
Inventor
邓永国
范光亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Cheerbright Technologies Co Ltd
Original Assignee
Beijing Cheerbright Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Cheerbright Technologies Co Ltd filed Critical Beijing Cheerbright Technologies Co Ltd
Priority to CN202210383838.8A priority Critical patent/CN114841526A/zh
Publication of CN114841526A publication Critical patent/CN114841526A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0635Risk analysis of enterprise or organisation activities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06393Score-carding, benchmarking or key performance indicator [KPI] analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Theoretical Computer Science (AREA)
  • Strategic Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Economics (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Educational Administration (AREA)
  • Development Economics (AREA)
  • Marketing (AREA)
  • Quality & Reliability (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • General Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Artificial Intelligence (AREA)
  • Tourism & Hospitality (AREA)
  • Operations Research (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种高风险用户的检测方法、计算设备及可读存储介质,该方法包括:获取第一用户的第一数据样本,第一数据样本包括第一用户的注册行为特征和登录行为特征;将第一数据样本输入到训练好的检测模型中,输出预测第一用户属于高风险用户的概率值作为第一风险评分;获取目标营销活动的专家规则以及第一用户在目标营销活动中的行为特征;基于所获取的专家规则对第一用户在目标营销活动中的行为特征进行评估,得出第二风险评分;基于第一风险评分和第二风险评分,确定第一用户是否为高风险用户。本发明的技术方案,结合了检测模型和专家规则的优点,提供了稳定可靠的高用户风险用户的检测方法。

Description

一种高风险用户的检测方法、计算设备及可读存储介质
技术领域
本发明涉及计算机技术领域,尤其涉及一种高风险用户的检测方法、计算设备及可读存储介质。
背景技术
在互联网营销策划中,经常提到“以正合,以奇胜”,正乃战略,奇乃策略。根据不同的营销策略,商家经常会举行一些以奇致胜的活动,数量繁多,形式各异,比如朋友圈集赞送礼,转发微博抽奖,拉新用户送福利,参加活动领取优惠券等等。这些活动的举办方大都有一些明确的目标,比如宣传,拉新,促销等等。然而,在活动具体的实施过程中,会有一些恶意用户通过各种手段进行“作弊”,其中有一些人自称为“羊毛客”,目的就是薅羊毛,即企图在不遵守活动规则的前提下也实现获利。这种作弊行为会给活动举办方造成很大损害,不但造成经济损失,也损害了其他正常参加活动用户的利益,还可能导致举办方信誉受损,最终致使活动效果大打折扣,活动目标无法实现。
因此,识别薅羊毛的黑灰产用户是风控人员必不可少的课题,现有的风险识别技术/风险评分可以分为两类:一是基于专家规则的风险评分方法,二是基于人工智能风险评分方法。基于专家规则的风险评分方法可以基于单条规则也可以多条规则结合使用,其缺点也比较明显,包括:泛化能力较弱,黑产特征行为稍有变动很可能就识别不了。基于人工智能风险评分方法采用机器学习、深度学习等人工智能技术,对营销场景数据进行特征加工、训练模型,根据模型结果进行风险评估。其缺点是准确率和上线周期相对于专家规则的方案要低要长一些。
为此,亟需一种检测高风险用户的方法,提高检测的准确率和泛化能力。
发明内容
为此,本发明提供了一种高风险用户的检测方法、计算设备及可读存储介质,以力图解决或者至少缓解上面存在的至少一个问题。
根据本发明的一个方面,提供了一种高风险用户的检测方法,在计算设备中执行,方法包括步骤:获取第一用户的第一数据样本,第一数据样本包括第一用户的注册行为特征和登录行为特征;将第一数据样本输入到训练好的检测模型中,输出预测第一用户属于高风险用户的概率值作为第一风险评分;获取目标营销活动的专家规则以及第一用户在目标营销活动中的行为特征;基于所获取的专家规则对第一用户在目标营销活动中的行为特征进行评估,得出第二风险评分;基于第一风险评分和第二风险评分,确定第一用户是否为高风险用户。
可选地,在根据本发明的高风险用户的检测方法中,基于第一风险评分和第二风险评分,确定第一用户是否为高风险用户的步骤,包括:将第一风险评分和第二风险评分进行融合处理,得到第三风险评分;如果第三风险评分高于第一预定值,则确定第一用户属于高风险用户;否则,确定第一用户不属于高风险用户。
可选地,在根据本发明的高风险用户的检测方法中,第二风险评分通过以下公式计算:
Figure BDA0003592894270000021
其中,rules_score(xi)为用户xi的第二风险评分;rj(xi)为用户xi的第j个专家规则风险得分,m为规则的总数。
可选地,在根据本发明的高风险用户的检测方法中,训练好的检测模型通过以下方式生成:获取第二数据样本集,第二数据样本集包括多个用户的第二数据样本,第二数据样本包括多个用户的注册行为特征、登录行为特征以及用户是否属于高风险用户;通过第二数据样本集对检测模型进行训练,直到达到预定条件,得到训练好的检测模型。
可选地,在根据本发明的高风险用户的检测方法中,预定条件为检测模型的预测值与真实值之间的损失函数的值最小或检测模型的准确率不再提高。
可选地,在根据本发明的高风险用户的检测方法中,在通过第二数据样本集对检测模型进行训练的步骤之前,还包括:对第二数据样本集进行预处理。
可选地,在根据本发明的高风险用户的检测方法中,对第二数据样本集进行预处理的步骤,包括:如果第二数据样本集中的一个用户的第二数据样本具有缺失项,且缺失项的数量超过第二数据样本所包括的数据总数的第四预定值,则将该用户的第二数据样本进行舍弃;如果第二数据样本集中的一个用户的第二数据样本具有缺失项,但缺失项的数量未超过第二数据样本所包括的数据总数的第四预定值,则对该用户的第二数据样本的缺失项进行填充。
可选地,在根据本发明的高风险用户的检测方法中,对该用户的第二数据样本的缺失项进行填充的步骤,包括:如果该用户的第二数据样本中的缺失项在第二数据样本集中属于连续型变量,则从第二数据样本集中获取该缺失项对应的全部的值,对该全部的值进行均值计算,采用均值计算的结果对该用户的第二数据样本的缺失项进行填充;如果该用户的第二数据样本中的缺失项在第二数据样本集中属于离散型变量,则从第二数据样本集中获取该缺失项对应的全部的值,采用该全部的值中的众数对该用户的第二数据样本的缺失项进行填充。
可选地,在根据本发明的高风险用户的检测方法中,注册行为特征和登录行为特征包括注册IP归属地、注册时长、注册昵称、登录IP归属地、登录时长、登录设备中的至少一项。
根据本发明的另一个方面,提供一种计算设备,包括:一个或多个处理器;和存储器;一个或多个程序,其中一个或多个程序存储在存储器中并被配置为由一个或多个处理器执行,一个或多个程序包括用于执行上述高风险用户的检测方法的指令。
根据本发明的还有一个方面,还提供一种存储一个或多个程序的计算机可读存储介质,一个或多个程序包括指令,指令当计算设备执行时,使得计算设备执行上述高风险用户的检测方法。
根据本发明的技术方案,训练好的检测模型具有泛化能力强的特点,通过专家规则确定风险评分的方法具有准确性高,针对性强的特点。本发明基于第一风险评分和第二风险评分,确定第一用户是否为高风险用户,结合了检测模型和专家规则的优点,提供了稳定可靠的高用户风险用户的检测方法。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
为了实现上述以及相关目的,本文结合下面的描述和附图来描述某些说明性方面,这些方面指示了可以实践本文所公开的原理的各种方式,并且所有方面及其等效方面旨在落入所要求保护的主题的范围内。通过结合附图阅读下面的详细描述,本公开的上述以及其它目的、特征和优势将变得更加明显。遍及本公开,相同的附图标记通常指代相同的部件或元素。
图1示出了根据本发明一个实施例的计算设备100的示意图;
图2示出了根据本发明一个实施例的高风险用户的检测方法200的流程图;以及
图3示出了根据本发明一个实施例的训练检测模型的示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
本发明的激活软件的方法在计算设备中执行。计算设备可以是任意具有存储和计算能力的设备,其例如可以实现为服务器、工作站等,也可以实现为桌面计算机、笔记本计算机等个人配置的计算机,或者实现为手机、平板电脑、智能可穿戴设备、物联网设备等终端设备,但不限于此。
图1示出了根据本发明一个实施例的计算设备100的结构框图。需要说明的是,图1所示的计算设备100仅为一个示例,在实践中,用于实施本发明的激活软件的方法的计算设备可以是任意型号的设备,其硬件配置情况可以与图1所示的计算设备100相同,也可以与图1所示的计算设备100不同。实践中用于实施本发明的激活软件的方法的计算设备可以对图1所示的计算设备100的硬件组件进行增加或删减,本发明对计算设备的具体硬件配置情况不做限制。
如图1所示,在基本的配置102中,计算设备100典型地包括***存储器106和一个或者多个处理器104。存储器总线108可以用于在处理器104和***存储器106之间的通信。
取决于期望的配置,处理器104可以是任何类型的处理,包括但不限于:微处理器(μP)、微控制器(μC)、数字信息处理器(DSP)或者它们的任何组合。处理器104可以包括诸如一级高速缓存110和二级高速缓存112之类的一个或者多个级别的高速缓存、处理器核心114和寄存器116。示例的处理器核心114可以包括运算逻辑单元(ALU)、浮点数单元(FPU)、数字信号处理核心(DSP核心)或者它们的任何组合。示例的存储器控制器118可以与处理器104一起使用,或者在一些实现中,存储器控制器118可以是处理器104的一个内部部分。
取决于期望的配置,***存储器106可以是任意类型的存储器,包括但不限于:易失性存储器(诸如RAM)、非易失性存储器(诸如ROM、闪存等)或者它们的任何组合。计算设备中的物理内存通常指的是易失性存储器RAM,磁盘中的数据需要加载至物理内存中才能够被处理器104读取。***存储器106可以包括操作***120、一个或者多个应用122以及程序数据124。在一些实施方式中,应用122可以布置为在操作***上由一个或多个处理器104利用程序数据124执行指令。操作***120例如可以是Linux、Windows等,其包括用于处理基本***服务以及执行依赖于硬件的任务的程序指令。应用122包括用于实现各种用户期望的功能的程序指令,应用122例如可以是浏览器、即时通讯软件、软件开发工具(例如集成开发环境IDE、编译器等)等,但不限于此。当应用122被安装到计算设备100中时,可以向操作***120添加驱动模块。
在计算设备100启动运行时,处理器104会从存储器106中读取操作***120的程序指令并执行。应用122运行在操作***120之上,利用操作***120以及底层硬件提供的接口来实现各种用户期望的功能。当用户启动应用122时,应用122会加载至存储器106中,处理器104从存储器106中读取并执行应用122的程序指令。
计算设备100还包括储存设备132,储存设备132包括可移除储存器136和不可移除储存器138,可移除储存器136和不可移除储存器138均与储存接口总线134连接。
计算设备100还可以包括有助于从各种接口设备(例如,输出设备142、外设接口144和通信设备146)到基本配置102经由总线/接口控制器130的通信的接口总线140。示例的输出设备142包括图形处理单元148和音频处理单元150。它们可以被配置为有助于经由一个或者多个A/V端口152与诸如显示器或者扬声器之类的各种外部设备进行通信。示例外设接口144可以包括串行接口控制器154和并行接口控制器156,它们可以被配置为有助于经由一个或者多个I/O端口158和诸如输入设备(例如,键盘、鼠标、笔、语音输入设备、触摸输入设备)或者其他外设(例如打印机、扫描仪等)之类的外部设备进行通信。示例的通信设备146可以包括网络控制器160,其可以被布置为便于经由一个或者多个通信端口164与一个或者多个其他计算设备162通过网络通信链路的通信。
网络通信链路可以是通信介质的一个示例。通信介质通常可以体现为在诸如载波或者其他传输机制之类的调制数据信号中的计算机可读指令、数据结构、程序模块,并且可以包括任何信息递送介质。“调制数据信号”可以这样的信号,它的数据集中的一个或者多个或者它的改变可以在信号中编码信息的方式进行。作为非限制性的示例,通信介质可以包括诸如有线网络或者专线网络之类的有线介质,以及诸如声音、射频(RF)、微波、红外(IR)或者其它无线介质在内的各种无线介质。这里使用的术语计算机可读介质可以包括存储介质和通信介质二者。在根据本发明的计算设备100中,程序数据124包括用于执行本发明的高风险用户的检测方法的指令。
由于各种互联网营销类的活动的存在时间或长或短,营销活动的玩法多种多样,因此数据分析人员所收集到的数据也多种多样且参差不齐。随着时间的推移,各平台的营销活动的数量和种类越来越多,平台维护几百上千个活动成为常态,因此如何高效识别高风险用户是风控人员的重要课题。
现有的基于规则的风险评分方法通常基于专家经验的规则,可以分为单一规则和组合规则,单一规则即使用一条判定规则完成判断,组合规则需要多个条件或规则组合判断。然而,对于只使用规则的风险评分技术,由于规则是由专家通过业务经验确定的,存在滞后性,并且随着业务变化需要不断地迭代规则,维护成本高。同时,面对复杂业务和高维海量特征,即便是再高明的专家也很难确保规则能够覆盖全部风险问题。
现有的基于人工智能的风险评分方法,采用机器学习、深度学习等人工智能技术,对业务场景数据进行特征加工、训练模型,根据模型结果进行风险评估。一般的业务模型,都是对特定场景进行特征工程然后训练模型,拉新营销类活动具有存在时间或长或短,活动玩法多种多样的特点,数据分析人员收集到的数据也就多种多样,参差不齐,不仅很难提取所有活动的共性特征,而且活动存在时间或长或短,营销活动多种多样,针对每个活动都训练一个模型识别风险用户的效率低下。
为此,本发明创造性的使用用户注册和登录数据做模型的特征工程来训练模型,解决各种营销活动的多样性问题,通过一个模型就能够覆盖到所有的营销活动。除了使用注册和登录数据做特征工程训练用于营销活动反作弊的通用模型外,本发明还针对用户在目标营销活动中的行为特征融合专家规则,实现了针对不同的营销活动的个性化风控。
图2示出了根据本发明一个实施例的高风险用户的检测方法200的流程图。方法200适于在计算设备(例如前述的计算设备100)中执行。如图2所示,方法200始于步骤S210。
在步骤S210中,获取第一用户的第一数据样本,其中,第一数据样本包括第一用户的注册行为特征和登录行为特征,注册行为特征和登录行为特征包括注册IP归属地、注册时长、登录IP归属地、登录时长、登录设备中的至少一项,也可以包括:注册昵称、注册IP地址、注册手机号归属地、登录IP地址中的任一项或多项等等。
互联网平台(例如汽车媒体平台)通常详细记录了关于用户注册和登录的日志数据,通过日志可以获取到用户在注册阶段的行为特征,如注册IP、注册时长、注册昵称等,还可以获取到用户在登录阶段的行为特征如登录IP、登录时长、登录设备(例如PC、手机、H5)等。
随后,在步骤S220中,将第一数据样本输入到训练好的检测模型中,输出预测第一用户属于高风险用户的概率值作为第一风险评分。
接下来对如何训练检测模型进行说明。
首先,获取第二数据样本集,其中,第二数据样本集包括多个用户的第二数据样本,第二数据样本包括一个用户的注册行为特征、登录行为特征以及用户是否属于高风险用户,其中,用户是否属于高风险用户为标签,如果用户属于高风险用户,则标签可以标注为1,如果用户不属于高风险用户,则标签可以标注为0。其中,注册行为特征和登录行为特征包括注册IP归属地、注册时长、登录IP归属地、登录时长、登录设备中的至少一项,也可以包括:注册昵称、注册IP地址、注册手机号归属地、登录IP地址中的任一项或多项等等。其中,注册时长表示用户完成注册的流程所花费的时间,登录时长表示用户完成登录所花费的时间。表一给出了一个示例性的第二数据样本集:
表一:
Figure BDA0003592894270000081
Figure BDA0003592894270000091
本发明通过收集大量用户的注册和登录相关数据作为检测模型的输入对检测模型进行训练,不使用与特定营销活动有关的数据,检测模型输出的预测结果只与注册和登录特征相关,这样训练好的检测模型可以通用于各种营销活动,不限于特定得的营销活动,对于不同的营销活动,均可以采用这个训练好的检测模型对用户可能存在得的风险进行评分,无需针对不同的营销活动训练不同得的模型,提升了模型到的泛化程度,还提升了检测风险的效率。
接着,在获取到第二数据样本集之后,对第二数据样本集中包括的多个用户的第二数据样本进行数据的预处理。
关于数据的预处理,可以根据数据的稀疏程度将筛选好的注册行为特征和登录行为特征进行数据处理,包括对异常值以及缺失值的处理。具体地,如果第二数据样本集中的一个用户的第二数据样本具有缺失项,且缺失项的数量超过第二数据样本所包括的数据总数的第四预定值,则将该用户的第二数据样本进行舍弃。
如果第二数据样本集中的一个用户的第二数据样本具有缺失项,但缺失项的数量未超过第二数据样本所包括的数据总数的第四预定值,则对该用户的第二数据样本的缺失项进行填充。这里,第四预定值可以由根据本领域技术人员根据收集到的第二数据样本集的数据完善程度进行设置和调整,例如可以将第四预定值设置为50%,也就是当第二数据样本中有超过50%的数据缺失,则将该第二数据样本进行舍弃,当第二数据样本中缺失的数据不足该第二数据样本所包含的数据总数的50%,则对缺失数据进行填充。收集到的第二数据样本集的数据完善程度越高,则可以将第四预定值设置得越低。当然,本领域技术人员也可以根据其他指标对第四预定值进行设置,本发明对此不做限制。
可选地,如果一个用户的第二数据样本的缺失项需要进行填充,可以采用如下方式对缺失数据进行填充。首先,确定缺失项属于连续型变量还是离散型变量。如果该用户的第二数据样本中的缺失项在第二数据样本集中属于连续型变量,则从第二数据样本集中获取该缺失项对应的全部的值,对该全部的值进行均值计算,采用均值计算的结果对该用户的第二数据样本的缺失项进行填充。例如,在前述表一中,用户3的第二数据样本中有一个缺失项(登录时长),如果这一缺失项在第二数据样本集中属于连续型变量,则取其他用户的登录时长这一项的数据(用户1对应3秒,用户2对应2秒)的平均值(2.5秒)对缺失项进行填充,将用户3的登录时长填充为2.5秒。
如果该用户的第二数据样本中的缺失项在第二数据样本集中属于离散型变量,则从第二数据样本集中获取该缺失项对应的全部的值,采用该全部的值中的众数对该用户的第二数据样本的缺失项进行填充。例如,在前述表一中,用户3的第二数据样本中有一个缺失项(登录时长),假设这一缺失项在第二数据样本集中属于离散型变量,则取其他用户的登录时长这一项的数据(用户1对应3秒,用户2对应2秒,假设还有用户4对应2秒)的众数(2秒)对缺失项进行填充,将用户3的登录时长填充为2秒。
对第二数据样本集进行数据处理的方式还可以包括:特征衍生、数据分段和数据编码等等。其中,特征衍生和数据分段为机器学习特有数据处理手段,特征衍生可以充分考虑因子间的相互作用,通过已有特征衍生出较之原有弱因子更强的用户行为因子。
接着,在对第二数据样本集中包括的多个用户的第二数据样本进行数据的预处理完成之后。通过处理完成的第二数据样本集对检测模型进行训练。
将处理好的第二数据样本集,按照约定的比例分为训练集和验证集,例如将第二数据样本集中80%的第二数据样本作为训练集,其余的20%作为验证集,这个比例可以适当进行调整,本发明对此不做限制。对训练集可以使用树模型LightGBM算法进行建模,LightGBM算法是比较经典的树模型算法,由于其在结构化数据建模上的表现并不亚于深度学习模型,训练速度比XGboost算法快很多,因此本发明优选地使用LightGBM算法训练二分类模型,模型输出的结果为第一用户属于高风险用户的概率值,概率值在0到1之间。
图3示出了根据本发明一个实施例的训练检测模型的示意图。如图3所示,X1,X2,X3…Xn为用于训练检测模型的第二数据样本集,其中包括不同用户的各个特征值,一个用户对应一个第二数据样本,X1,X2,X3…Xn表示不同的用户对应的第二数据样本。对检测模型的训练直到达到预定条件,得到训练好的检测模型,其中,预定条件为检测模型的预测值与真实值之间的损失函数的值最小或检测模型的准确率不再提高。然后,将新的数据样本(这里由Xn+1表示,例如:第一用户的第一数据样本)输入到训练好的检测模型中。训练好的检测模型输出预测第一用户属于高风险用户的概率值作为第一风险评分。对于检测模型,除了可以采用机器学习模型之外,也可以采用深度学习建模,例如:deepFM算法,但不限于此。选取树模型的优势在于其在算法效果好的前提下,树模型的可解释性较强。
由于一般的业务模型都是针对当前的业务环节提取数据做特征工程。而互联网营销活动具有多种多样,持续时间不一的特点,因此,本发明的高风险用户的检测方法创造性地在用户注册和登录(参与营销活动之前)的环节提取特征来训练检测模型。这样,不仅能够解决不同营销活动的共性特征问题,由于注册和登录是在用户参与活动前,还能够缓解在营销活动环节的用户并发问题。
随后,在步骤S230中,获取目标营销活动的专家规则以及第一用户在目标营销活动中的行为特征。
根据本发明的实施例,训练好的检测模型与专家规则分开评分。关于通过专家规则的评分方法,针对不同的营销活动采用用户参加特定的目标营销活动时所收集到的各维度数据作为专家规则的输入,通过专家规则得到的评分与当前营销活动相关。针对不同的营销活动采用针对特定目标营销活动的专家规则,并采集第一用户在该目标营销活动中的行为特征。
随后,在步骤S240中,基于所获取的专家规则对第一用户在目标营销活动中的行为特征进行评估,得出第二风险评分。
根据本发明的实施例,基于专家经验形成一系列的风控策略和配套的规则后,根据每一项专家规则对获取到的第一用户在目标营销活动中的行为特征进行风险评分,如果存在多项专家规则,则将获得到的基于各专家规则的初始风险评分进行累加。然后,将累加后得到的评分进行对数变换和Sigmoid变换,映射到[0,1]区间。具体地,可以通过以下公式计算第二风险评分:
Figure BDA0003592894270000121
其中,rules_score(xi)表示用户xi的第二风险评分;rj(xi)表示用户xi的第j个专家规则的风险得分,m为规则的总数。
根据本发明的实施例,针对不同的营销活动采用针对特定目标营销活动的专家规则,并采集第一用户在该目标营销活动中的行为特征。专家规则例如可以为以下示例:规则1,参加营销活动的用户其同IP地址下关联的用户的数量是否大于50人;规则2,参加营销活动的用户与其同设备的用户数量是否大于3;规则3,参加营销活动的用户在1秒钟内转发微博的数量是否大于3;规则4,参加营销活动的用户在1秒内拉新用户的数量是否大于3。可选地,根据不同的营销活动,为不同的专家规则设定一个固定的风险分值,例如规则1设定为3分,规则2设定为5分,规则3设定为4分,例如,如果参加营销活动的用户其同IP地址下关联的用户的数量大于50人,则规则1的风险得分为3分,如果参加营销活动的用户其同IP地址下关联的用户的数量不足50人,则规则1不得分。具体可以根据规则的重要程度进行设置,重要程度越高,风险分值可以设定得更大。
可选地,用户在营销活动中的行为特征包括用户参加营销活动时使用的IP地址、用户参加营销活动时所使用的设备的设备唯一标识、用户参加营销活动时在预定时间内转发内容(内容可以包括微博、公众号文章、或营销信息等等)的次数、用户参加营销活动时在预定时间内拉新用户的数量、用户参加营销活动时在预定时间内朋友圈集赞数量,但不限于此。这里,预定时间可以是1秒,1分钟,1小时,但不限于此,具体可以由本领域技术人员进行设置。例如,针对转发微博抽奖的营销活动,第一用户在目标营销活动中的行为特征可以选取为用户参加营销活动时使用的IP地址、用户参加营销活动时所使用的设备的设备唯一标识、用户参加营销活动时在1秒内转发微博的次数。针对该营销活动,获取该营销活动对应的专家规则(例如为前述规则1至3)。然后,基于第一用户在每项规则得到的风险分值,通过前述公式计算得到第二风险评分。
随后,在步骤S250中,基于第一风险评分和第二风险评分,确定第一用户是否为高风险用户。
具体地,将第一风险评分和第二风险评分进行融合处理,得到第三风险评分。这里的融合处理可以为将第一风险评分和第二风险评分进行加权求和,以得到第三风险评分作为最终的风险评分。在根据前述步骤S210至S240得到了第一用户的第一风险评分和第二风险评分后,可以通过下述公式生成第三风险评分:
final_score(xi)=a*model_score(xi)+b*rules_score(xi)
a+b=1
其中,final_score(xi)表示用户xi的第三风险评分,model_score(xi)表示用户xi的第一风险评分,rules_score(xi)表示用户xi的第二风险评分,a为训练好的检测模型的权重,b为专家规则的权重。a和b可以根据不同的营销活动进行灵活调整,以实现根据不同营销活动的个性化评分的目的。
关于权重的设置可以考虑目标营销活动的重要性、检测模型或专家规则的可解释性以及准确率。对于信息采集较全的营销活动,其专家规则也会比较多和完善,需要较高的可解释性,在这种情况下b的权重适宜设置得比a的权重更大一些,例如在通常情况下a和b均取值为0.5,在这种情况下b的权重可以设置为0.6,a的权重可以设置为0.4。第一用户在目标营销活动中的行为特征采集得越全面,则专家规则的权重越高。关于信息采集全面与否的界定,可以根据获取的第一用户在目标营销活动中的行为特征是否具有缺失值确定,如果缺失值超过全部行为特征的预定值,则认定信息采集不全面,该预定值可以由本领域技术人员进行设置,例如20%,但不限于此。
可选地,在确定第一用户的第三风险评分后,设置检测模型和专家规则融合评分的阈值,并输出风险评级。具体地,采用3σ准则,输出第三风险评分的风险评级结果。在正态分布中σ代表标准差,μ代表均值。x=μ即为图像的对称轴,3σ原则表示数值分布在(μ-σ,μ+σ)中的概率为0.6826;数值分布在(μ-2σ,μ+2σ)中的概率为0.9544;数值分布在(μ-3σ,μ+3σ)中的概率为0.9974,因此,可以认为第三风险评分的取值几乎全部集中在(μ-3σ,μ+3σ)]区间内,超出这个范围的可能性仅占不到0.3%。可选地,收集多个第一用户的第三风险评分,根据3σ准则确定第一用户的第三风险评分的风险评级,若第三风险评分符合正态分布的规则,风险评估等级的阈值可以设定为,μ-σ,μ,μ+σ,四个等级,其中,μ表示所有第三风险评分的平均值,σ表示所有第三风险评分的标准差,第三风险评分在0和μ-σ之间的用户风险最低,第三风险评分在μ-σ和μ之间的用户风险较低,第三风险评分在μ和μ+σ之间的用户风险较高,第三风险评分在μ+σ和1之间的用户风险最高。
可选地,在确定第一用户的第三风险评分后,根据第三风险评分与第一预定值的关系,确定第一用户是否属于高风险用户。具体地,如果第三风险评分高于第一预定值,则可以确定第一用户属于高风险用户;否则,可以确定第一用户不属于高风险用户。
关于第一预定值的选取,为了使第三风险评分既能够在辨别高风险用户时保证较高的的准确率,还能辨别出一定数量的高风险用户,保证覆盖率不过低。这里,第一预定值不应设置得过大或过小。由于通过训练好的检测模型得到的第一风险评分和通过专家规则得到的第二风险评分都处于[0,1]区间之内,第一用户最终的第三风险评分在融合后也落在此区间。通常认为0.5为中间值,即大于0.5的第三风险评分表示参加目标营销活动的第一用户是高风险用户,小于0.5的第三风险评分表示参加目标营销获得的第一用户是正常用户。可选地,当目标营销活动的重要性越高和/或奖品越大时,可将第一预定值设置得越低,例如将第一预定值设置为0.4,则第三风险评分为0.4以上的第一用户即被认定为高风险用户,营销活动的主办方在确定出高风险用户后,可以设置不允许高风险用户中奖。如果目标营销活动的重要性较低,则可以将第一预定值设置得更高,例如第三风险评分在0.8以上才被认定为高风险用户。
根据本发明的技术方案,在各平台的各类营销活动中采用本发明提供的高风险用户的检测方法,可以有效识别出可能涉及黑灰产的高风险用户,阻止高风险用户的薅羊毛的行为,可以极大地保证平台营销活动的效果。由于在各类互联网平台的营销活动中,黑灰产用户通常会采取大批量地注册/登录大量用户的手段,来达到薅最多羊毛的目的,这类用户在注册和登录时的特征和普通用户通常并不一样,黑灰产用户有比较明显的聚集性特征,例如单个IP注册/登录多个用户,因此在通过注册和登录阶段的行为特征来识别是否高风险用户是合理且高效的。对于不同的营销活动,黑灰产用户薅羊毛的行为都可能不尽相同,因此,通过专家规则的方法在营销活动中针对不同的行为或聚集性特征能够精准地识别出与专家规则相对应的高风险用户。
在各互联网平台中,营销活动是多种多样的,持续时间周期有长有短,针对不同的营销活动,其活动规则、活动逻辑、以及通过活动收集到的用户数据也各不相同,但是参加营销活动的用户都会经过平台的注册/登录环节,留下注册和登录行为特征的数据,因此,使用这两个环节的特征建模能够准确识别出有聚集性特征的黑灰产用户。而不同的专家规则又能够精准确定不同的营销活动的黑灰产用户,达到针对不同营销活动个性化风控的目的。训练好的检测模型具有泛化能力强的特点,通过专家规则确定风险评分的方法具有准确性高,针对性强的特点,本发明结合两者的优点,提供了稳定可靠的高用户风险用户的检测方法。通过模型+规则的高风险用户的检测方法,结合了两者的优缺点,形成优势互补,针对不同的营销活动可以灵活设置不同的阈值,为参加营销活动的用户的风险评分增加了稳定性和灵活性。
这里描述的各种技术可结合硬件或软件,或者它们的组合一起实现。从而,本发明的方法和设备,或者本发明的方法和设备的某些方面或部分可采取嵌入有形媒介,例如可移动硬盘、U盘、软盘、CD-ROM或者其它任意机器可读的存储介质中的程序代码(即指令)的形式,其中当程序被载入诸如计算机之类的机器,并被所述机器执行时,所述机器变成实践本发明的设备。
在程序代码在可编程计算机上执行的情况下,计算设备一般包括处理器、处理器可读的存储介质(包括易失性和非易失性存储器和/或存储元件),至少一个输入装置,和至少一个输出装置。其中,存储器被配置用于存储程序代码;处理器被配置用于根据该存储器中存储的所述程序代码中的指令,执行本发明的高风险用户的检测方法。
以示例而非限制的方式,可读介质包括可读存储介质和通信介质。可读存储介质存储诸如计算机可读指令、数据结构、程序模块或其它数据等信息。通信介质一般以诸如载波或其它传输机制等已调制数据信号来体现计算机可读指令、数据结构、程序模块或其它数据,并且包括任何信息传递介质。以上的任一种的组合也包括在可读介质的范围之内。
在此处所提供的说明书中,算法和显示不与任何特定计算机、虚拟***或者其它设备固有相关。各种通用***也可以与本发明的示例一起使用。根据上面的描述,构造这类***所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下被实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员应当理解在本文所公开的示例中的设备的模块或单元或组件可以布置在如该实施例中所描述的设备中,或者可替换地可以定位在与该示例中的设备不同的一个或多个设备中。前述示例中的模块可以组合为一个模块或者此外可以分成多个子模块。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
此外,所述实施例中的一些在此被描述成可以由计算机***的处理器或者由执行所述功能的其它装置实施的方法或方法元素的组合。因此,具有用于实施所述方法或方法元素的必要指令的处理器形成用于实施该方法或方法元素的装置。此外,装置实施例的在此所述的元素是如下装置的例子:该装置用于实施由为了实施该发明的目的的元素所执行的功能。
如在此所使用的那样,除非另行规定,使用序数词“第一”、“第二”、“第三”等等来描述普通对象仅仅表示涉及类似对象的不同实例,并且并不意图暗示这样被描述的对象必须具有时间上、空间上、排序方面或者以任意其它方式的给定顺序。
尽管根据有限数量的实施例描述了本发明,但是受益于上面的描述,本技术领域内的技术人员明白,在由此描述的本发明的范围内,可以设想其它实施例。此外,应当注意,本说明书中使用的语言主要是为了可读性和教导的目的而选择的,而不是为了解释或者限定本发明的主题而选择的。因此,在不偏离所附权利要求书的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。对于本发明的范围,对本发明所做的公开是说明性的,而非限制性的,本发明的范围由所附权利要求书限定。

Claims (10)

1.一种高风险用户的检测方法,在计算设备中执行,所述方法包括步骤:
获取第一用户的第一数据样本,所述第一数据样本包括所述第一用户的注册行为特征和登录行为特征;
将所述第一数据样本输入到训练好的检测模型中,输出预测所述第一用户属于高风险用户的概率值作为第一风险评分;
获取目标营销活动的专家规则以及第一用户在所述目标营销活动中的行为特征;
基于所获取的专家规则对所述第一用户在所述目标营销活动中的行为特征进行评估,得出第二风险评分;
基于所述第一风险评分和所述第二风险评分,确定所述第一用户是否为高风险用户。
2.根据权利要求1所述的方法,其中,所述基于所述第一风险评分和所述第二风险评分,确定所述第一用户是否为高风险用户的步骤,包括:
将所述第一风险评分和所述第二风险评分进行融合处理,得到第三风险评分;
如果所述第三风险评分高于所述第一预定值,则确定所述第一用户属于高风险用户;
否则,确定所述第一用户不属于高风险用户。
3.根据权利要求1或2所述的方法,其中,所述第二风险评分通过以下公式计算:
Figure FDA0003592894260000011
其中,rules_score(xi)为用户xi的第二风险评分;rj(xi)为用户xi的第j个专家规则风险得分,m为规则的总数。
4.根据权利要求1所述的方法,其中,所述训练好的检测模型通过以下方式生成:
获取第二数据样本集,所述第二数据样本集包括多个用户的第二数据样本,所述第二数据样本包括多个用户的注册行为特征、登录行为特征以及用户是否属于高风险用户;
通过所述第二数据样本集对检测模型进行训练,直到达到预定条件,得到训练好的检测模型。
5.根据权利要求5所述的方法,其中,所述预定条件为检测模型的预测值与真实值之间的损失函数的值最小或检测模型的准确率不再提高。
6.根据权利要求4或5所述的方法,其中,在所述通过所述第二数据样本集对检测模型进行训练的步骤之前,还包括:
对第二数据样本集进行预处理。
7.根据权利要求6所述的方法,所述对第二数据样本集进行预处理的步骤,包括:
如果所述第二数据样本集中的一个用户的第二数据样本具有缺失项,且缺失项的数量超过第二数据样本所包括的数据总数的第四预定值,则将该用户的第二数据样本进行舍弃;
如果所述第二数据样本集中的一个用户的第二数据样本具有缺失项,但缺失项的数量未超过第二数据样本所包括的数据总数的第四预定值,则对该用户的第二数据样本的缺失项进行填充。
8.根据权利要求7所述的方法,其中,所述对该用户的第二数据样本的缺失项进行填充的步骤,包括:
如果该用户的第二数据样本中的缺失项在第二数据样本集中属于连续型变量,则从第二数据样本集中获取该缺失项对应的全部的值,对该全部的值进行均值计算,采用均值计算的结果对该用户的第二数据样本的缺失项进行填充;
如果该用户的第二数据样本中的缺失项在第二数据样本集中属于离散型变量,则从第二数据样本集中获取该缺失项对应的全部的值,采用该全部的值中的众数对该用户的第二数据样本的缺失项进行填充。
9.一种计算设备,包括:
一个或多个处理器;和
存储器;
一个或多个程序,其中所述一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序包括用于执行根据权利要求1至8所述方法中的任一方法的指令。
10.一种存储一个或多个程序的计算机可读存储介质,所述一个或多个程序包括指令,所述指令当计算设备执行时,使得所述计算设备执行根据权利要求1至8所述的方法中的任一方法。
CN202210383838.8A 2022-04-12 2022-04-12 一种高风险用户的检测方法、计算设备及可读存储介质 Pending CN114841526A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210383838.8A CN114841526A (zh) 2022-04-12 2022-04-12 一种高风险用户的检测方法、计算设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210383838.8A CN114841526A (zh) 2022-04-12 2022-04-12 一种高风险用户的检测方法、计算设备及可读存储介质

Publications (1)

Publication Number Publication Date
CN114841526A true CN114841526A (zh) 2022-08-02

Family

ID=82564507

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210383838.8A Pending CN114841526A (zh) 2022-04-12 2022-04-12 一种高风险用户的检测方法、计算设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN114841526A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116805266A (zh) * 2023-08-25 2023-09-26 山东华创远智信息科技有限公司 基于大数据的企业金融信用风险智能评估方法
CN117061252A (zh) * 2023-10-12 2023-11-14 杭州智顺科技有限公司 数据安全的检测方法、装置、设备及存储介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116805266A (zh) * 2023-08-25 2023-09-26 山东华创远智信息科技有限公司 基于大数据的企业金融信用风险智能评估方法
CN117061252A (zh) * 2023-10-12 2023-11-14 杭州智顺科技有限公司 数据安全的检测方法、装置、设备及存储介质
CN117061252B (zh) * 2023-10-12 2024-03-12 杭州智顺科技有限公司 数据安全的检测方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN110009174B (zh) 风险识别模型训练方法、装置及服务器
CN108427708B (zh) 数据处理方法、装置、存储介质和电子装置
CN106919579B (zh) 一种信息处理方法及装置、设备
CN111435507A (zh) 广告反作弊方法、装置、电子设备及可读存储介质
CN112700252B (zh) 一种信息安全性检测方法、装置、电子设备和存储介质
CN114841526A (zh) 一种高风险用户的检测方法、计算设备及可读存储介质
CN107798027B (zh) 一种信息热度预测方法、信息推荐方法及装置
CN111371767B (zh) 恶意账号识别方法、恶意账号识别装置、介质及电子设备
CN107872436A (zh) 一种账号识别方法、装置及***
CN107862053A (zh) 基于用户关系的用户画像构造方法、装置及计算设备
Zhou et al. Analyzing and detecting money-laundering accounts in online social networks
CN106408325A (zh) 基于用户支付信息的用户消费行为预测分析方法及***
CN108596276A (zh) 基于特征加权的朴素贝叶斯微博用户分类方法
CN112819024B (zh) 模型处理方法、用户数据处理方法及装置、计算机设备
CN115049397A (zh) 识别社交网络中的风险账户的方法及装置
KR102223640B1 (ko) 클라우드 기반 개인화 콘텐츠 구독 서비스 제공 시스템 및 방법
CN111951008A (zh) 一种风险预测方法、装置、电子设备和可读存储介质
CN115965463A (zh) 模型训练方法、装置、计算机设备及存储介质
Zhu et al. Click fraud detection of online advertising–LSH based tensor recovery mechanism
CN107644268B (zh) 一种基于多特征的开源软件项目孵化状态预测方法
CN107908673A (zh) 社交平台用户的现实关系匹配方法、装置及可读存储介质
CN110061906B (zh) 一种消息发布/接收方法
CN113763057A (zh) 用户身份画像的数据处理方法和装置
CN108460049A (zh) 一种确定信息类别的方法和***
CN116029760A (zh) 消息推送方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination