一种风控事件自动处理方法及装置
技术领域
本申请涉及计算机软件技术领域,尤其涉及一种风控事件自动处理方法及装置。
背景技术
在风控平台上,每天都会接到很多用户来电报案,每一次报案的内容可以视为一次风控事件。风控平台的审理人员接手风控事件后会对其进行审理,具体地,审理人员通常根据用户在平台上的操作内容、环境、设备,对风控事件进行判定,比如,可以判定风控事件所属的类别(比如,案件类别、非案件类别等,不同的风控事件所存在的风险不同,一般可以将风险高到一定程度的风险事件称为案件,则其他的风险事件可以称为非案件)等,必要时还会与用户进行沟通确认,最终会生成一份该风控事件的结案信息,以对该风控事件结案。
但是,目前审理人员是以人工分析的方式进行风控事件判定,结案效率低下,不仅如此,风控事件判定结果的可靠性也难以核验。
发明内容
本申请实施例提供一种风控事件自动处理方法及装置,用以解决现有技术中的如下技术问题:安全风控平台的审理人员是以人工分析的方式进行风控事件判定,结案效率低下,不仅如此,风控事件判定结果的可靠性也难以核验。
为解决上述技术问题,本申请实施例是这样实现的:
本申请实施例提供的一种风控事件自动处理方法,包括:
获取当前风控事件的各风险特征信息;
根据所述各风险特征信息,判定所述当前风控事件所属的类别;
获取所述判定的结果对应的证据信息;
根据所述判定的结果和所述证据信息,生成所述当前风控事件的结案信息。
本申请实施例提供的一种风控事件自动处理装置,包括:
第一获取模块,获取当前风控事件的各风险特征信息;
判定模块,根据所述各风险特征信息,判定所述当前风控事件所属的类别;
第二获取模块,获取所述判定的结果对应的证据信息;
生成模块,根据所述判定的结果和所述证据信息,生成所述当前风控事件的结案信息。
本申请实施例采用的上述至少一个技术方案能够达到以下有益效果:可以实现对风控事件的自动处理,进而有利于提高结案速度,不仅如此,由于可以自动获取风控事件判定的结果对应的证据信息,因此,有利于便利地核验风控事件判定结果的可靠性,可以部分或全部地解决现有技术中的问题。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种风控事件自动处理方法的流程示意图;
图2为本申请实施例提供的对应于图1的一种扩展流程示意图;
图3为本申请实施例提供的一种决策树的示意图;
图4为本申请实施例提供的在图3的决策树中的一种判决路径示意图;
图5为本申请实施例提供的按照上述风险控制事件自动处理方法所生成的结案信息与现有技术中的结案信息的对比示意图;
图6为本申请实施例提供的对应于图1的一种风控事件自动处理装置的结构示意图。
具体实施方式
本申请实施例提供一种风控事件自动处理方法及装置。
为了使本技术领域的人员更好地理解本申请中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
图1为本申请实施例提供的一种风控事件自动处理方法的流程示意图。从程序角度而言,该流程的执行主体可以是应用(APP)或个人计算机(PC)端程序等。从设备角度而言,该流程的执行主体可以包括但不限于以下设备:个人计算机、大中型计算机、计算机集群、手机、平板电脑、智能可穿戴设备、车机等。
图1中的流程可以包括以下步骤:
S101:获取当前风控事件的各风险特征信息。
在本申请实施例中,风控事件可以通过用户报案得到,也可以通过主动对某项业务进行监控得到。
以网购业务为例,当用户觉得自己的某笔网购交易存在问题时,可以针对该笔网购交易,向相应的风控平台报案,则该笔网购交易成为一个风控事件;当然,风控平台也可以主动监控用户的每笔网购交易,则每笔网购交易都成为一个风控事件。
在本申请实施例中,风险特征信息可以用于度量风险事件所存在的风险,因此,可以将风险特征信息作为对风险事件进行判定的依据。
风险特征信息对应的风险特征可以基于业务预先设计。仍以网购业务为例,风险特征比如可以是:用户之间的历史交易次数、用户交易时的所在地理位置、用户交易时所使用的设备等。在实际应用中,风险特征信息可以是其所对应的风险特征的具体取值,或者可用于确定所述具体取值的信息等。
在实际应用中,可以按照特定要求设计所使用的风险特征,以提高本申请的方案的效果。列举3个可能的对风险特征的特定要求如下:
“可判定”要求:即风险特征适合用于案件判定,其与案件风险类型相关。比如“用户之间的历史交易次数”,当该值很大时,意味着用户与交易对方较为熟悉,风险低,不太可能是案件;反之则风险较高,更有可能是案件。
“可理解”要求:即风险特征的含义易于理解。比如“用户之间的历史交易次数”有着非常明确的含义。
“可取证”要求:即风险特征可以对应到明确的证据信息,且该证据信息易于获取。比如“用户之间的历史交易次数”,可以明确且容易地获取到对应的每笔历史交易的信息,作为对应的证据信息。
S102:根据所述各风险特征信息,判定所述当前风控事件所属的类别。
在本申请实施例中,不同的风控事件所存在的风险不同,一般可以将风险高到一定程度的风险事件称为案件,则其他的风险事件可以称为非案件。基于这种前提,风控事件所属的类别可以是:案件类别或者非案件类别。
进一步地,案件类别或者非案件类别还可以进一步地细分,比如,案件类别可以细分为“设备丢失-案件”、“账号被盗-案件”类别;非案件类别可以细分为“熟人代用户操作-非案件”类别、“用户自己操作-非案件”类别等。
需要说明的是,按照是否是案件来划分风险事件仅是一种划分方式示例。也有其他的划分方式,比如,可以设定多个不同的风险等级类别,每个风控事件会被划分至各风险等级类别中的至少一个风险等级类别中,等等。
S103:获取所述判定的结果对应的证据信息。
在本申请实施例中,证据信息可以根据判定的过程获得,也可以根据各风险特征信息获得。证据信息比如可以是:判定的过程的明细信息,风险特征信息的明细信息等。假定某风险特征信息为:用户之间的历史交易次数为5次;则该风险特征信息的明细信息可以为:这5次交易的交易记录详情等。
若有需要,可以根据证据信息核验对应的风控事件判定结果的可靠性。
S104:根据所述判定的结果和所述证据信息,生成所述当前风控事件的结案信息。
在本申请实施例中,除了生成结案信息以外,还可以根据判定的结果,针对当前风控事件执行应对措施。比如,若判定当前风控事件属于案件类别,则可以针对当前风控事件,执行诸如封禁交易账号、拒绝交易继续进行等应对措施,以保护交易安全。
通过图1的方法,可以实现风控事件的自动处理,进而有利于提高结案速度,不仅如此,由于可以自动获取风控事件判定的结果对应的证据信息,因此,有利于便利地核验风控事件判定结果的可靠性。
基于图1的方法,本申请实施例还提供了该方法的一些具体实施方案,以及扩展方案,下面进行说明。
在本申请实施例中,对步骤S102,所述根据所述各风险特征信息,判定所述当前风控事件所属的类别,具体可以包括:获得根据样本风控事件的风险特征信息训练得到的分类器;通过根据所述分类器以及所述各风险特征信息对所述当前风控事件进行分类,判定所述当前风控事件所属的类别。
分类器的实现方式有多种,比如,可以基于决策树实现分类器,可以基于神经网络实现分类器等。上述的分类器通常是基于多个样本风控事件预先训练得到的。
当然,要判定当前风控事件所属的类别,也未必要依靠上述的分类器。比如,可以预先设定风险特征信息黑名单,然后,将当前风控事件的各风险特征信息与该黑名单进行匹配,若匹配成功,则直接判定当前风控事件属于案件类别,等等。
在本申请实施例中,如前所述,可以根据各风险特征信息获得判定的结果对应的证据信息。在这种情况下,不同的风险特征信息往往对应于不同的证据信息,当风险特征较少时,可以不加选择地获取当前风险事件所有的风险特征信息所对应的证据信息,而当风险特征较多时,这样未必合适,因为会耗费较多的处理资源和时间,从而提升了成本。
考虑到这样的问题,可以有选择地只获取部分相对重要的风险特征信息所对应的证据信息。比如,在本申请实施例中,可以采用贡献表征值来度量风险特征信息的重要性,那么,对于步骤S103,所述获取所述判定的结果对应的证据信息,具体可以包括:确定所述各风险特征信息的贡献表征值;根据所述贡献表征值及其对应的风险特征信息,获取所述判定的结果对应的证据信息。
进一步地,沿用上例,可以通过基于贡献表征值排序,或者与将贡献表征值与设定阈值比较等方式,确定所述部分相对比较重要的风险特征信息。
以基于贡献表征值排序的方式为例,所述获取所述判定的结果对应的证据信息,具体可以包括:根据确定的所述各风险特征信息的贡献表征值,对所述各风险特征信息进行排序;根据所述排序的结果,获取贡献表征值前N大的风险特征信息对应的证据信息,作为所述判定的结果对应的证据信息,其中,N为不小于1的整数。
按照上面的思路,可以将图1中的流程进行扩展,得到更详细的一种流程,如图2所示。
图2为本申请实施例提供的对应于图1的一种扩展流程示意图。
图2中的流程可以包括以下步骤:
获取当前风控事件的各风险特征信息;
根据所述各风险特征信息,判定所述当前风控事件所属的类别;
确定所述各风险特征信息的贡献表征值;
根据所述贡献表征值,对所述各风险特征信息进行排序;
根据所述排序的结果,获取贡献表征值前N大的风险特征信息对应的证据信息,作为所述判定的结果对应的证据信息;
根据所述判定的结果和所述证据信息,生成所述当前风控事件的结案信息。
图2中的流程相比于图1中的流程,重点在于风险特征信息的贡献表征值的确定,下面对此进行详细说明。
在本申请实施例中,可以基于一方面或多方面的因素,确定风险特征信息的贡献表征值。下面列出几种因素作为示例:
第一,证据重要性。如前所述,在判定风控事件所述的类别后,还要获取证据信息,也即,还需要举证。证据重要性可以反映风险特征信息所对应的证据信息的重要性。
第二,类别判定贡献。类别判定贡献可以反映风险特征信息在判定风控事件所属类别的过程中的贡献。
第三,特征维度贡献。特征维度贡献可以反映风险特征信息对应的风险特征对判定风控事件所属类别的结果的贡献,该贡献可以不依赖于判定的过程。
第四,特征异常性。特征维度贡献可以反映风险特征信息的异常性。比如,可以是风险特征信息偏离判定的过程中所使用的标准值的程度等,其中,所述标准值用于与风险特征信息进行比较,以确定如何选择判定的过程中的分支。
上面的因素也可以用相应的表征值进行表示,从而便于运算。则以上述4种因素为例,所述确定所述各风险特征信息的贡献表征值,具体可以包括:确定所述各风险特征信息的以下至少一种特定表征值:证据重要性表征值、类别判定贡献表征值、特征维度贡献表征值、特征异常性表征值;根据确定出的各特定表征值,确定所述各风险特征信息的贡献表征值。
另外,对于风险特征信息已确定的风控事件而言,该风控事件的风险特征信息的贡献表征值即为:该风险特征信息对应的风险特征的贡献表征值。原因在于:此时该风控事件的风险特征并不是变量,而就是该风险特征信息本身。
为了便于理解,基于一种实际应用场景,对确定上述各表征值可采用的一种方案进行说明。
在该场景下,上述分类器是通过决策树进行分类的,也即,在步骤S102中,基于该决策树来判定当前风控事件所属的类别。其中,所述决策树的至少部分节点包含所述各风险特征信息对应的风险特征。
图3为本申请实施例提供的一种上述决策树的示意图。在图3中,决策树中包含有5个节点,每个节点包含一个风险特征及对应于该风险特征的标准值,决策树的叶节点分为类别1、类别2两种节点,输入决策树的信息一般会被判定属于类别1或者属于类别2,对于步骤S102,可以将获取的当前风控事件的各风险特征信息输入决策树,以判定当前风控事件所属的类别。
以节点1为例,节点1中的“F1>1”表示:节点1包含的风险特征记作F1,对应的标准值为1;当输入的F1的风险特征信息不大于1时,选择节点1的左分支,也即,下一个节点是节点2;当输入的F1的风险特征信息大于1时,选择节点1的右分支,也即,下一个节点是节点3。
为了便于描述,将证据重要性表征值记作FCk(f),将类别判定贡献表征值记作FCc(f),将特征维度贡献表征值记作FCF(f),将特征异常性表征值记作FOC(f),其中,f表示风险特征,对于某个风险事件而言,f也可以表示该风险特征对应的风险特征信息。分别对这几种表征值的至少一种确定方式进行说明。
一、对于证据重要性表征值FCk(f)。一般可以基于先验的领域知识确定,可以让领域专家给出每个风险特征f对于后续举证的重要性。比如,可以定义FCk(f)∈[0,1],若风险特征f对于后续举证的重要性越大,可以相应地将FCk(f)确定为取值区间[0,1]中越大的值。
二、对于类别判定贡献表征值FCc(f)。可以按照如下方式,确定所述当前风控事件的风险特征信息的类别判定贡献表征值:在所述决策树上,确定所述判定的结果对应的判决路径;根据在所述判决路径中包含的特定节点前后,属于指定类别的样本风控事件的浓度变化信息,确定所述当前风控事件的风险特征信息的类别判定贡献表征值,所述特定节点包含该风险特征信息对应的风险特征。
结合图3,假定类别1为案件类别,类别2为非案件类别,则上述的指定类别一般可以是案件类别,属于指定类别的样本风控事件的浓度变化信息即为:案件浓度变化信息。
案件浓度比如可以是案件比例等数据,以案件比例为例,假定节点2处于判决路径上,在节点2过滤前,样本风控事件的案件比例为十分之一,而在经过节点2过滤后,样本风控事件的案件比例提升到二分之一,而从十分之一到二分之一的提升即可作为上述的浓度变化信息。
在经过判决路径上包含的某个节点后,案件浓度提升的程度可以反映该节点中包含的风险特征的对于分类判决的贡献程度。对于任任意风险特征,根据判决路径上所包含的全部节点中,该风险特征分别在包含该风险特征的至少部分节点处的对于分类的贡献,可以确定该风险特征对于分类的贡献。具体如何确定可以有多种方式,比如,可以累加或加权相加该风险特征分别在包含该风险特征的至少部分节点处的对于分类的贡献等。
为了便于理解,用公式进行说明。
对于决策树上的节点n,假定节点n包含有风险特征f,且节点n包含在判决路径中,类别有两种,分别用y=0和y=1表示,则风险特征f在节点n处对于分类的贡献为:
其中,F是节点n的上游节点包含的风险特征集合,C(x)为当前风控事件x的分类结果,Pn(y=C(x)|F)为经过上游节点过滤后进入节点n的各样本风控事件中指定类别的风控事件(比如,案件)的比例,Pn(y=C(x)|F,f)为经过节点n过滤后的各样本风控事件中指定类别的风控事件(比如,案件)的比例。
进一步地,可以累加判决路径上的各节点对应的贡献得到:
对于风险特征f,类别判定贡献表征值FCc(f)具体可以为:
其中,R(x)是x在决策树上的经历的判决路径,对于在判决路径上的节点n,其包含的f的标准值为Fn。
图4为本申请实施例提供的在图3的决策树中的一种判决路径示意图。
在图4中,对于x,经历的判决路径为:x的各风险特征信息输入到节点1,由节点1到节点2,由节点2到节点4,由节点4到类别2对应的叶节点。则根据公式2,风险特征F1的类别判定贡献表征值为:FC1(F1)+FC4(F1),即为x的各风险特征信息中对应于风险特征F1的风险特征信息的类别判定贡献表征值;风险特征F2的类别判定贡献表征值为:FC2(F2),即为x的各风险特征信息中对应于风险特征F2的风险特征信息的类别判定贡献表征值;而风险特征F3、F4对于x的类别判定无贡献。
进一步地,在实际应用中,对于步骤S102,判定当前风控事件所属的类别时所基于的决策树可能有多棵,比如,随机森林等。对于这种情况,可以分别针对每棵决策树分别确定类别判定贡献,再相加或者取平均值,作为类别判定贡献表征值。
以取平均值为例,可以对公式2进行扩展,得到:
其中,T为用于类别判决的随机森林,t为T中的决策树,
为按照公式2计算的对应于决策树t的类别判定贡献表征值。
更进一步地,在实际应用中,对于决策树,接近叶节点时,样本风控事件的数量会逐渐减少,由此可能导致概率估计不准确,进而影响确定出的类别判定贡献表征值的可靠性。对于该问题,本申请的方案也提供的应对措施,比如,可以通过设置虚拟样本风控事件,使得样本数量可以维持在一个相对好的水平。
具体地,所述根据在所述判决路径中包含的特定节点前后,属于指定类别的样本风控事件的浓度变化信息,确定所述当前风控事件的风险特征信息的类别判定贡献表征值,可以包括:设置虚拟样本风控事件;根据在所述判决路径中包含的特定节点前后,属于指定类别的样本风控事件和虚拟样本风控事件的浓度变化信息,确定所述当前风控事件的风险特征信息的类别判定贡献表征值。
虚拟样本风控事件的具体设置方式可以有多种,比如,可以按照先验的概率分布设置,也可以随机设置等。以前一种方式为例,所述设置虚拟样本,具体可以包括:根据为所述属于指定类别的样本风控事件所假设的先验的概率分布,设置虚拟样本。
例如,假定指定类别的样本风控事件为案件,假设案件概率p服从先验Beta分布:
其中,p的均值为
方差为
假定观测了m个样本风控事件,其中,案件有z个,则案件概率p的后验分布为Beta分布,参数为:
α'=α+z,β'=β+m-z;
由此可以,通过假定的先验Beta分布,相当于设置了α+β个虚拟样本事件,其中,案件有α个。为了提高可靠性,在实际应用中,设置虚拟样本事件中的案件比例可以与实际的样本事件的案件比例p0相同,假定共设置虚拟样本事件m0个,则:
α=m0·p0,β=m0·(1-p0)。(公式5)
三、对于特征维度贡献表征值FCF(f)。沿用图3的例子进行说明,如上所述,上面的FCc(f)一般是通过决策树中判决路径中的包含风险特征f的节点过滤样本风险事件后,案件浓度的提升来度量风险特征f的贡献的,这本质上是依赖决策树中的路径的度量方式。进一步地,也可以不依赖于决策树中的路径,对风险特征f的贡献进行度量,比如,用FCF(f)度量。
具体地,可以按照如下方式,确定所述当前风控事件的风险特征信息的特征维度贡献表征值:确定该风险特征信息对应的风险特征所对应的多个集合;确定该风险特征信息在所述多个集合中所属的集合;根据所述所属的集合对应的属于指定类别的样本风控事件的浓度,确定该风险特征信息的特征维度贡献表征值;其中,所述风险特征对应的任意风险特征信息属于所述多个集合中的至少一个集合。
在实际应用中,风险特征可能是数值型变量,也可能是非数值型变量;相应地,风险特征信息可能为数值,也可能是非数值。
当风险特征为数值型变量时,所述多个集合具体可以是由风险特征的取值范围划分出的多个数值区间,每个集合为其中一个数值区间。
比如,当风险特征f为数值型变量时,针对风险特征f划分出的数值区间记作TF(f),可以将当前风险事件x在所属数值区间中案件浓度提升的程度,作为风险特征f的特征维度贡献表征值,也即:
FCF(f)=P(y=C(x)|f(x)∈TF(f))-P(y=C(x));(公式6)
其中,f(x)为x的对应于风险特征f的风险特征信息,在这里为数值,P(y=C(x)|f∈TF(f))为x在所属数值区间中的案件比例,P(y=C(x))为全区间中的案件比例。
数值区间划分可以基于量化算法实现,量化算法可以有多种,比如,均匀区间划分,单变量决策树等。
当风险特征为非数值型变量时,所述多个集合具体可以是由风险特征对应的各非数值型变量值划分出的多个非数值型变量值集合,每个集合为其中一个非数值型变量值集合。其中,非数值型变量可以是Categorical(类别)变量、字符串变量等。
又比如,当风险特征f为Categorical(类别)变量时,可以看f(x)取值上的条件概率,根据该条件概率计算特征维度贡献表征值,其中,该条件概率可以根据上述的案件浓度计算。也即:
FCF(f)=P(y=C(x)|f=C(x))。
四、对于特征异常性表征值FOC(f)。根据上面的说明可知,在确定类别判定贡献表征值FCc(f)时,只要落在决策树的同一个节点下的同一分支,则在该节点处的FOC(f)都是相同的。然而,应当考虑:比如,对于若某节点为f>10时,则f=10.1和f=10000的贡献显然是不一样的。FOC(f)正是针对这种情况的贡献度量因素,可以用FOC(f)来调整FCc(f)。
在本申请实施例中,可以按照如下方式,确定所述当前风控事件的风险特征信息的特征异常性表征值:根据在所述判决路径的中包含的特定节点处,对属于指定类别的样本风控事件的判定情况,确定所述当前风控事件的风险特征信息的特征异常性表征值,所述特定节点包含该风险特征信息对应的风险特征。
进一步地,上一段中的方式有多种具体实现方案。比如,可以基于后验概率确定特征异常性表征值:
FOC(f)=max[P(y=C(x)|f≥f(x)∩f∈N(f)),P(y=C(x)|f<f(x)∩f∈N(f))];(公式7)
其中,N(f)是判决路径上风险特征f所决定的空间,以图3中的判决路径为例,N(F1)=(F1>1)∩(F1>4)=F1>4。另外,公式7的一个好处在于,让FOC(f)∈[0,1],从而使得FOC(f)与FCc(f)在同一量级。
在实际应用中,特征异常性表征值不仅可以用于调整FCc(f),也可以用于调整FCF(f),为了区分,将用于调整FCF(f)的特征异常性表征值记作FOF(f)。
可以按照类似的方式计算FOF(f):
FOF(f)=max[P(y=C(x)|f≥f(x)∩f∈TF(f)),P(y=C(x)|f<f(x)∩f∈TF(f))];(公式8)。
上面分别对列举几种可用于确定风险特征信息的贡献表征值的因素进行了详细说明。基于确定各因素的表征值,可以采用多种方式确定风险特征信息的贡献表征值。列举两类方式:基于启发式的设计、基于标注样本的机器学习。分别对这两类方式进行说明。
基于启发式设计。可以通过设计合适的公式,把上述各因素的表征值综合计算得到风险特征信息的贡献表征值。比如:
FC(f)=FCk(f)·[λ·FOF(f)·FCF(f)+(1-λ)·FOC(f)·FCC(f)];(公式9);
其中,λ为可调的权重系数。
基于标注样本的机器学习。这种方式主要包括两大步骤:
1、标注样本获取;可以采样一些案件和非案件,由专家对这些样本的风险特征的相关性或样本之间的相关性进行评级。这样就获得了一个标注数据集,其包含样本xi的风险特征fi,j,以及相关性标签yi,j。
学习方法:当拥有标注数据集{(xi,fi,j,yi,j),1≤i≤N,1≤j≤K},对于样本xi及其风险特征fi,j,可以根据上述各因素的表征值,构成一个描述向量:[FCk(fi,j),FOF(fi,j),FCF(fi,j),FOC(fi,j),FCc(fi,j)]。这是一个典型的排序学习(learning-to-rank)的问题,可以通过适当的排序模型,比如rank-SVM来拟合标注yi,j,从而获得对应的风险特征信息的贡献表征值。
进一步地,对于步骤S103,获取所述判定的结果对应的证据信息,具体可以包括:根据确定的所述各风险特征信息的贡献表征值,对所述各风险特征信息进行排序;根据所述排序的结果,获取贡献表征值前N大的风险特征信息对应的证据信息,作为所述判定的结果对应的证据信息。或者,也可以不排序,而是预先设定贡献表征值的阈值,获取贡献表征值不小于该阈值的风险特征信息对应的证据信息,作为所述判定的结果对应的证据信息。
在实际应用中,在获取到证据信息后,可以基于一定的格式模板处理证据信息,以作为最终生成的结案信息的一部分。本申请对所述格式模板并不做限定,可以是文本格式模板,也可以是表格数据格式模板或图数据格式模板等。
在本申请实施例中,在基于决策树判定当前风控事件所属的类别的情况下,还有相应的方案可以计算判定的结果的置信度。
若判定的结果的置信度较低,则基于判定的结果的各后续步骤的可靠性也难以保证。因此,可能需要调整相关的参数后,再重新判定当前风控事件所属的类别,直至判定的结果的置信度达到较高的程度;或者,转为采用人工方式判定当前风控事件所属的类别。其中,置信度具体需要达到多高程度可以用设定阈值预先定义。
根据上一段中的分析,对于步骤S104,所述生成所述当前风控事件的结案信息前,还可以执行:计算所述判定的结果的置信度;确定所述判定的结果的置信度不小于设定阈值。
计算置信度的方案有多种。比如,针对当前风控事件在判决路径上落到的叶节点,确定落到该叶节点的各样本风控事件被正确分类的后验概率,作为置信度;又比如,对于随机森林,计算当前风控事件在该随机森林中各决策树中的判定的结果中,数量最多结果所占比例,作为置信度;等等。
在本申请实施例中,对于步骤S104,结案信息可以包含判定的结果和证据信息,还可以包含置信度等其他的相关信息。一般地,可以按照预设的结案信息模板,对判定的结果、证据信息等信息进行拼装,从而生成结案信息,结案信息模板可以根据具体的应用场景定义,本申请不做限定。
更直观地,本申请实施例还提供了按照上述风险控制事件自动处理方法所生成的结案信息与现有技术中的结案信息的对比示意图,如图5所示。
图5中包含两个子图:“现有技术人工处理”和“本申请的方案自动处理”。
在图5中的上侧,可以看到,在现有技术中,由于是人工处理,所以结案信息比较简单,主要是对当前风控事件“某用户在2015-06-18 10:48:09购买裙子”进行了简单说明,以及给出了判定结果“非案件”,结案信息中包含的信息较少。
在图5中的下侧,可以看到,基于本申请的方案,生成了一份比较详细的结案信息,结案信息中包括:任务备注、模型分值、结案证词这三部分。
“任务备注”描述了当前风控事件的详细信息,比如,用户手机号码、用户性别、用户邮箱、与用户直接沟通获取的一些场景信息(如家人朋友都未使用等)、涉及的理财产品和银行***、银行卡的开户所在地、银行卡的状态等。
“模型分值”描述了在实施本申请的方案时所使用的一些模型的分值,该分值一定程度上可以度量模型的功能或性能。所述模型比如可以是用于分类器模型、用于确定贡献度表征值的模型、用于获取证据信息的模型等。
“结案证词”描述了对当前风控事件判定的结果及其置信度,判定所涉及的部分风险特征信息及其贡献表征值和对应的证据信息等。
具体地,当前风控事件被判定为属于非案件类别,置信度为0.973。判定所使用的风险特征信息包括“设备可信程度”、“城市可信程度”等。以“设备可信程度”为例,其贡献表征值可以为证据权重0.653,对应的证据信息为“历史交易13天,累计交易10笔2461.6元(最后一笔交易:沙特代购正品手表xxxx)”,该证据信息表明在用户的当前设备上历史交易数量较多,由此可以推测当前设备是该用户的常用设备,因此,有较大概率是可信设备。
基于图5中对现有技术和本申请的方案的对比,可以看出:本申请的方案可以节省人力,加快对风控事件的处理速度;有利于更全面地考虑多种风险特征信息,以对风控事件进行判定;而且,可以便利地给出用于支持判定的结果的各证据信息,有利于风控事件判定的结果的可靠性。
上面为本申请实施例提供的一种风控事件自动处理方法,基于同样的发明思路,本申请实施例还提供了对应的装置,如图6所示。
图6为本申请实施例提供的对应于图1的一种风控事件自动处理装置的结构示意图,该装置可以位于图1中流程的执行主体,包括:
第一获取模块601,获取当前风控事件的各风险特征信息;
判定模块602,根据所述各风险特征信息,判定所述当前风控事件所属的类别;
第二获取模块603,获取所述判定的结果对应的证据信息;
生成模块604,根据所述判定的结果和所述证据信息,生成所述当前风控事件的结案信息。
可选地,所述判定模块602根据所述各风险特征信息,判定所述当前风控事件所属的类别,具体包括:
所述判定模块602获得根据样本风控事件的风险特征信息训练得到的分类器,通过根据所述分类器以及所述各风险特征信息对所述当前风控事件进行分类,判定所述当前风控事件所属的类别。
可选地,所述第二获取模块603获取所述判定的结果对应的证据信息,具体包括:
所述第二获取模块603确定所述各风险特征信息的贡献表征值,根据所述贡献表征值及其对应的风险特征信息,获取所述判定的结果对应的证据信息。
可选地,所述第二获取模块603确定所述各风险特征信息的贡献表征值,具体包括:
所述第二获取模块603确定所述各风险特征信息的以下至少一种特定表征值:
证据重要性表征值、类别判定贡献表征值、特征维度贡献表征值、特征异常性表征值;
根据确定出的各特定表征值,确定所述各风险特征信息的贡献表征值。
可选地,所述分类器是通过决策树进行分类的,所述决策树的至少部分节点包含所述各风险特征信息对应的风险特征。
可选地,所述第二获取模块603按照如下方式,确定所述当前风控事件的风险特征信息的类别判定贡献表征值:
所述第二获取模块603在所述决策树上,确定所述判定的结果对应的判决路径,根据在所述判决路径中包含的特定节点前后,属于指定类别的样本风控事件的浓度变化信息,确定所述当前风控事件的风险特征信息的类别判定贡献表征值,所述特定节点包含该风险特征信息对应的风险特征。
可选地,所述第二获取模块603根据在所述判决路径中包含的特定节点前后,属于指定类别的样本风控事件的浓度变化信息,确定所述当前风控事件的风险特征信息的类别判定贡献表征值,具体包括:
所述第二获取模块603设置虚拟样本风控事件,根据在所述判决路径中包含的特定节点前后,属于指定类别的样本风控事件和虚拟样本风控事件的浓度变化信息,确定所述当前风控事件的风险特征信息的类别判定贡献表征值。
可选地,所述第二获取模块603设置虚拟样本,具体包括:
所述第二获取模块603根据为所述属于指定类别的样本风控事件所假设的先验的概率分布,设置虚拟样本。
可选地,所述第二获取模块603按照如下方式,确定所述当前风控事件的风险特征信息的特征维度贡献表征值:
所述第二获取模块603确定该风险特征信息对应的风险特征所对应的多个集合,确定该风险特征信息在所述多个集合中所属的集合,根据所述所属的集合对应的属于指定类别的样本风控事件的浓度,确定该风险特征信息的特征维度贡献表征值,其中,所述风险特征对应的任意风险特征信息属于所述多个集合中的至少一个集合。
可选地,所述第二获取模块603按照如下方式,确定所述当前风控事件的风险特征信息的特征异常性表征值:
所述第二获取模块603根据在所述判决路径的中包含的特定节点处,对属于指定类别的样本风控事件的判定情况,确定所述当前风控事件的风险特征信息的特征异常性表征值,所述特定节点包含该风险特征信息对应的风险特征。
可选地,所述第二获取模块603获取所述判定的结果对应的证据信息,具体包括:
所述第二获取模块603根据确定的所述各风险特征信息的贡献表征值,对所述各风险特征信息进行排序,根据所述排序的结果,获取贡献表征值前N大的风险特征信息对应的证据信息,作为所述判定的结果对应的证据信息。
可选地,所述生成模块604生成所述当前风控事件的结案信息前,计算所述判定的结果的置信度,确定所述判定的结果的置信度不小于设定阈值。
可选地,所述当前风控事件所属的类别为案件类别或者非案件类别。
本申请实施例提供的装置与方法是一一对应的,因此,装置也具有与其对应的方法类似的有益技术效果,由于上面已经对方法的有益技术效果进行了详细说明,因此,这里不再赘述对应装置的有益技术效果。
在20世纪90年代,对于一个技术的改进可以很明显地区分是硬件上的改进(例如,对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而,随着技术的发展,当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此,不能说一个方法流程的改进就不能用硬件实体模块来实现。例如,可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray,FPGA))就是这样一种集成电路,其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字***“集成”在一片PLD上,而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且,如今,取代手工地制作集成电路芯片,这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现,它与程序开发撰写时所用的软件编译器相类似,而要编译之前的原始代码也得用特定的编程语言来撰写,此称之为硬件描述语言(Hardware Description Language,HDL),而HDL也并非仅有一种,而是有许多种,如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等,目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚,只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中,就可以很容易得到实现该逻辑方法流程的硬件电路。
控制器可以按任何适当的方式实现,例如,控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式,控制器的例子包括但不限于以下微控制器:ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320,存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
上述实施例阐明的***、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
本领域内的技术人员应明白,本发明的实施例可提供为方法、***、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于***实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。