风险识别模型训练方法、装置及服务器
技术领域
本说明书实施例涉及互联网技术领域,尤其涉及一种风险识别模型训练方法、装置及服务器。
背景技术
随着互联网的快速发展,越来越多的业务可以通过网络实现,如在线支付、在线购物、线上转账等互联网业务。互联网在给人们生活提供便利的同时,也带来了风险。有一类风险主要是用户通过自己的账户以套取非法利益为目的进行的交易,这些交易本身因非实际购买为目的因此常具有虚假性,把此类风险称为虚假交易风险。对虚假交易的识别是资金安全保障的重要组成部分和基石,但此类风险通常难以获取坏人的历史交易标签,因此对虚假交易的识别属于无监督机器学习问题。如何通过无监督机器学习算法训练得到识别精度较高的虚假交易的风险识别模型是风险决策的关键。
发明内容
本说明书实施例提供及一种风险识别模型训练方法、装置及服务器。
第一方面,本说明书实施例提供一种风险识别模型训练方法,包括:
确定目标无监督机器学习算法的所属类型;
从输入信息中抽取特征信息,按与所述所属类型对应的特征提取方式从所述特征信息中提取目标特征信息;
基于所述目标特征信息,采用所述目标无监督机器学习算法对风险识别模型进行训练,得到与所述目标无监督机器学习算法对应的目标风险识别模型。
第二方面,本说明书实施例提供一种风险识别方法,包括:根据第一方面所述的方法训练得到与多个目标无监督机器学习算法对应的多个目标风险识别模型,从所述多个目标风险识别模型中确定识别精度满足预设条件的第一风险识别模型,基于所述第一风险识别模型对新进样本进行风险识别,获得风险识别结果。
第三方面,本说明书实施例提供一种风险识别模型训练装置,包括:
确定单元,用于确定目标无监督机器学习算法的所属类型;
特征提取单元,用于从输入信息中抽取特征信息,按与所述所属类型对应的特征提取方式从所述特征信息中提取目标特征信息;
训练单元,用于基于所述目标特征信息,采用所述目标无监督机器学习算法对风险识别模型进行训练,得到与所述目标无监督机器学习算法对应的目标风险识别模型。
第四方面,本说明书实施例提供一种服务器,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述任一项所述风险识别模型训练方法的步骤。
第五方面,本说明书实施例提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述任一项所述风险识别模型训练方法的步骤。
本说明书实施例有益效果如下:
本说明书实施例中,由于不同类型的无监督机器学习算法对特征的要求不同,所以,可以首先确定目标无监督机器学习算法的所属类型,再从输入信息中抽取各类的特征信息,再按与所属类型对应的特征提取方式从特征信息中提取目标特征信息。由于提取出适配于该目标无监督机器学习算法的目标特征信息,所以,将目标特征作为训练样本,采用目标无监督机器学习算法对目标风险识别模型进行训练,得到的目标风险识别模型的识别精度会更高,确保了风险识别的准确性。并且,在风险识别领域,实现针对特定类型的无监督机器学习算法的自动模型特征处理以及风险识别建模。可将通过自动的方式广泛建设风险识别模型,提升对单个模型和方案局限的改进。
附图说明
图1为本说明书实施例风险识别模型训练的应用场景示意图;
图2为本说明书实施例第一方面风险识别模型训练方法流程图;
图3为本说明书实施例第二方面风险识别模型训练装置结构示意图;
图4为本说明书实施例第三方面风险识别模型训练对应的服务器结构示意图。
具体实施方式
为了更好的理解上述技术方案,下面通过附图以及具体实施例对本说明书实施例的技术方案做详细的说明,应当理解本说明书实施例以及实施例中的具体特征是对本说明书实施例技术方案的详细的说明,而不是对本说明书技术方案的限定,在不冲突的情况下,本说明书实施例以及实施例中的技术特征可以相互组合。
请参见图1,为本说明书实施例的风险识别模型训练应用场景示意图。终端100位于用户侧,与网络侧的服务器200通信。用户可通过终端100中的APP或网站产生的交易信息以及与该交易对应的各类信息。服务器200收集各个终端产生的交易信息以及各类信息,并据此实施本实施例中风险识别模型训练方法。本实施例可应用于风险识别场景,如:反套现拦截场景、虚假交易识别场景等。
第一方面,本说明书实施例提供一种风险识别模型训练方法,请参考图2,包括步骤S201-S204。
S201:确定目标无监督机器学习算法的所属类型;
S202:从输入信息中抽取特征信息,按与所属类型对应的特征提取方式从特征信息中提取目标特征信息;
S203:基于目标特征信息,采用目标无监督机器学习算法对风险识别模型进行训练,得到与目标无监督机器学习算法对应的目标风险识别模型。
其中,输入信息包括用户画像信息、历史交易信息、设备介质信息、地理位置信息、通讯录信息和外部信息中任意一种或多种组合。
具体的,本实施例中方法,主要应用于虚假交易、反套现交易的风险识别等场景。比如:在无线支付领域,有一类风险主要是用户通过自己的账户以套取非法利益为目的进行的交易,这些交易本身因非实际购买为目的因此常具有虚假性,此类风险称为虚假交易风险。比如,用户为套取支付平台的人传人奖励资源,而进行了一笔交易,当资源到手后,再勾结商家把交易部分金额款项转给用户本人。这样的虚假交易行为极大地伤害了支付平台的利益。对虚假交易的识别是资金安全保障的重要组成部分和基石,但此类风险通常难以获取坏人的历史交易标签。因此,对虚假交易的识别属于无监督机器学习问题。
无监督机器学习一直以来是机器学习以及风控领域的难点。本实施例主要以针对虚假交易的识别的场景为例,对本实施例中的方法进行详细阐述说明。不同于传统的无监督机器学习,本实施例将虚假交易的识别抽象成为异常检测问题,并且从数据层面、特征处理层面以及模型选择层面进行模块设计和自动建模方法构建,针对不同类型的具体问题和数据进行自动的解决方案匹配和模型产出应用。
进一步,常用的无监督机器学习算法有很多,本实施例中的方法,针对常用的无监督机器学习算法进行了归类,并针对不同的类型选择特征处理的方法。首先,本实施例中的方法,可以通过不同类型的无监督机器学习算法训练得到多个风险识别模型。假设对应有无监督机器学习算法A,属于类型1、无监督机器学习算法B,属于类型2、无监督机器学习算法C,属于类型3。服务器可以采用上述每个无监督机器学习算法分别进行训练,得到与之对应的风险识别模型。
具体的,在进行风险识别模型训练时,首先通过步骤S201确定目标无监督机器学习算法的所属类型。比如:采用无监督机器学习算法C进行模型训练时,确定出无监督机器学习算法C的所属类型为类型3。
进一步,在本实施例中,服务器维护了各个用户产生的交易信息,并可通过用户授权方式获得产生交易的各个终端的设备信息,服务器可获得多维度的输入信息,主要包含了各种数据表和历史信息。在本实施例中,主要输入信息类型列举如下:
全量的用户画像信息,包括用户的基本属性,如用户年龄、性别、职业、爱好等,以及综合评价类指标,如:用户的账户安全等级、垃圾注册风险评分、作弊风险评分等。这些画像信息数据从用户的基本信息到账户风险进行刻画,综合评分类画像主要来自一些风控***、或者营销体系内对账户的评价和刻画。
历史交易信息,主要指用户历史上的交易行为,主要也可以分为两类,一类是用户历史一段时间内的交易明细,包括交易的时间、金额、收款方、交易设备和IP等。另一类是汇总数据,比如用户历史上一段时间内的交易次数、交易累计金额等。
设备介质信息,主要对于设备的属性及综合评分的刻画,比如:某一个设备的启用时间,设备在历史上登录账户数等。另外也包括一些风控对设备的评价综合打分情况,比如:一个设备上是否发生过盗用,以及一个设备历史上做虚假交易的情况等。
地理位置信息,主要包含了各种位置数据,包含了交易的地址,交易对应的门店或者商户的地址,同时也有针对各种风险的各地聚集性的风险数据。
通讯录信息,包含用户的手机号码和手机通讯录两部分。手机号码数据是对每一个手机号的画像,包含了这个手机号码作为账号使用时的各种自然人信息及账户风险信息。另一部分是通过该手机号对应的通讯录刻画该账号与其他账号直接的关系,如亲密程度,或通过其他手机号在通讯录中对该账号的描述反推账号背后自然人的性质及特征。
外部信息,主要指一个体系或***内无法直接获得的数据,比如:对金融支付平台来说,账户对应自然人在银行的流水、借贷信用等信息,在其他移动支付端的支付信息等,这些对于金融平台来说都是非常重要的增益。
上述输入信息中涉及用户隐私的输入信息,如通讯录信息、设备介质信息、地理位置信息、外部信息等,可通过用户授权方式获得。在具体实施过程中,输入信息可根据实际场景的需要进行设定,在此,本申请不做限制。
进一步,本实施例中,可通过步骤S202,根据输入信息自动生成各个类型的特征。特征信息自动生成目的是生成大量的特征作为备选入模变量,主要对特征类型的丰富程度进行扩展和衍生。在本实施例中,特征信息的类型大致分为了频次特征、位置特征、图特征以及序列特征几大类,主要通过数据层中不同的数据类型进行自动生成。
频次类特征信息:例如从上述的输入信息中可统计出用户过去一段时间内的登录次数,交易天数。该类特征信息主要基于不同数据主体进行不同时间窗口以及累计函数的组合遍历。比如:频次类特征主要由三个部分组成。
1)主体:主要是输入数据的维度,包括用户维度、设备维度、环境维度、位置维度、通讯标识维度等。
2)累计窗口:通常情况下选取几个代表着短期、中期和长期的不同时间长度,如1小时、1天、7天、30天。
3)累计函数:主要指做何种操作,比如次数、天数、最大值、最小值、求和等。因此,可以通过以上组合自动生成大量特征变量。
位置类特征信息:针对历史交易信息和地理位置信息,可提取主要包括了交易的地理坐标、商户的坐标、交易所在城市地区等特征。
图特征:具体的,可以根据上述输入信息中的历史交易信息,以买卖家为节点(顶点),买卖家之间的交易为边可以构建交易图,图中的信息可以用来构建变量特征,大致可分为两类:
1)直接对图中节点或边的信息进行特征刻画,比如:当前买家(用户)交易的商户数,卖家交易的买家个数。
2)根据一些社区发现算法对图中聚集性进行发掘,然后对具有聚集性的子图构建类似如上的图特征。典型的特征举例,如:买家在子图中的交易占该买家所有交易笔数的比例,此特征可以用来反映一些团伙特征。
行为序列特征信息:主要用来刻画用户的行为特征,主要分成两类:
1)对不同的行为类型进行频次类统计,比如对每一种点击行为进行次数统计。
2)对序列进行基于深度学习的嵌入embedding,将每一个行为序列通过一个向量来进行表达,比如通过长短期记忆网络(long short term memory,LSTM)将一个行为序列变成一个n维向量,该向量对应为n维特征。
上述生成的各类特征信息均可以作为各个无监督机器学习算法的候选特征。本实施例中,由于不同类型的无监督机器学习算法需要抽取的特征信息不同。特征的选择、变换和无监督机器学习算法的类型有关。因此,需要通过步骤S202,针对不同类型的无监督机器学习算法,从前述不同类型的特征信息中提取出适配于该算法的特征信息。
进一步,在异常交易识别场景中,无监督异常检测模型主要用来识别样本中与其他绝大多数不同的个体。比如:在虚假交易识别中,可以认为绝大多数的交易都是真实的合法的,仅有一小部分人在尝试做虚假的交易行为。本实施例中,对于异常检测,采用的无监督机器学习算法常用的类型包括基于树的类型和基于距离的类型,下面针对这两种类型的无监督机器学习算法的特征信息提取方式进行详细说明。
第一种,基于树的无监督机器学习类型。目标特征信息提取方式可以是:确定每个特征信息的关键绩效指标值;基于每个特征信息的关键绩效指标值,按预设策略从特征信息中提取目标特征信息。
具体的,在本实施例中,以异常交易识别场景为例,需要采用基于树类型的无监督机器学习算法对目标特征信息进行训练,得到异常交易识别模型(即:目标风险识别模型)。这类算法包括:Isolation Forest(孤立森林)算法,基于树类型无监督机器学习算法对特征信息的分布有较高的要求,一方面是希望特征具有比较强的可解释性,另一方面对“少量即是异常”有较高要求。比如:绝大多数的正常用户单日的交易笔数都在10笔以内,那么单日交易数超过10笔的人会很少,但这少部分人就属于异常的范畴。因此以“用户单日交易笔数”为特征,满足少部分分布(大于10笔)的即为异常。
所以,在本实施例中,针对每个特征信息,可以确定每个特征信息的关键绩效指标值(KPI),该关键绩效指标值包括峰度值和/或分散度值。按每个特征信息的KPI,可以按预设策略从前述的多类型的特征信息中提取与基于树的无监督机器学习类型对应的目标特征信息。
然后,可以将关键绩效指标值与预设绩效指标值的关系满足预设关系的特征信息作为目标特征信息;或基于每个特征信息的键绩效指标值,按预设方式对特征信息进行排序,将排在前预设数值的特征信息作为目标特征信息。
具体的,特征信息的峰度值可以反应该特征信息的集中性,峰度值越大,表明该特征信息越集中。对于基于树型的无监督机器学***均值。
然后,根据每个特征信息的峰度值,进行特征选择,选择出与基于树类型的无监督机器学习算法对应的目标特征。从大量的已有特征中选择最合适的一部分入模。自动进行特征选择的核心在于根据模型对异常的定义,根据峰度值选择合适的目标特征信息。因此,会遍历所有的特征信息,根据特征信息的峰度值由大致小的顺序,对特征信息进行排序,选择前M个特征信息作为目标特征信息入模。在具体实施过程中,M的数值可根据经验值进行设定,也可经多次试验后确定出的匹配值,在此,本申请不做限制。
当然,还可以设定一个预设峰度值,当特征信息的峰度值大于预设峰度值,将其作为目标特征。在具体实施过程中,预设峰度值可根据实际需要进行设定,在此,本申请不做限制。
具体的,特征信息的分散度值可以反应该特征信息的集中性,分散度值越小,表明该特征信息越集中。对于基于树型的无监督机器学习算法,需要选取具有集中性的特征入模进行训练。所以,可以将KPI设定为分散度值,可以获得每个特征信息的分散度度。
然后,根据每个特征信息的分散度值,进行特征选择,选择出与基于树类型的无监督机器学习算法对应的目标特征。从大量的已有特征中选择最合适的一部分入模。自动进行特征选择的核心在于根据模型对异常的定义,根据分散度值选择合适的目标特征信息。因此,会遍历所有的特征信息,根据特征信息的峰度值由小致大的顺序,对特征信息进行排序,选择前K个特征信息作为目标特征信息入模。在具体实施过程中,K的数值可根据经验值进行设定,也可经多次试验后确定出的匹配值,在此,本申请不做限制。
当然,还可以设定一个预设分散度值,当特征信息的峰度值小于预设峰度值,将其作为目标特征。在具体实施过程中,预设分散度值可根据实际需要进行设定,在此,本申请不做限制。
第二种,基于距离的无监督机器学习类型。目标特征信息提取方式可以是:对特征信息进行降维变换,获得目标特征信息。
具体的,在本实施例中,对于基于距离的无监督机器学习类型,比如:邻近算法KNN、基于链接的离群点检测算法COF。这类无监督机器学习算法对于高维数据效果不好。比如像计算用户之间的相似度把相似的归结为一类。在距离计算中,非常重要的一部分就是特征的维度,一般情况下,对于高维(特征数多)的情况距离计算难以准确、效果不佳。所以,在针对这类的无监督机器学习算法,需要对特征信息进行降维变换,得到降维后的目标特征信息。在具体实施过程中,降维的方法很多,简单的比如主成分分析方法PCA,专门针对异常检测识别的变换方法,如离群点检测的降维方法DROD(Dimensionality Reduction forOuterlier Detection)等。在具体实施过程中,采用的降维方法可根据实际需要进行选择,在此,本申请不做限制。
当然,在具体实施过程中,可设置多类的无监督机器学习算法,每类的无监督机器学习算法均对应有适配于该类算法的特征提取方式,提取出最适配于该类型的无监督机器学习算法的目标特征信息。
进而,针对目标无监督机器学习算法,按与之对应的特征提取方式提取出目标特征信息后,采用步骤S203,基于目标无监督机器学习算法对目标特征信息进行训练,获得与所属类型对应的目标风险识别模型。
通过这样的方式,可获得多个目标无监督机器学习算法对应的目标风险识别模型。最后,从多个目标风险识别模型中确定识别精度满足预设条件的第一风险识别模型,基于第一风险识别模型对新进样本进行风险识别,获得风险识别结果。
具体的,在本实施例中,可以针对不同类型的无监督机器学习算法,提取出与之适配的目标特征信息,然后将目标特征信息作为目标无监督机器学习算法的训练样本,进行模型训练后,得到最终的目标风险识别模型。
举例而言,假设对应有无监督机器学习算法A,属于类型1、无监督机器学习算法B,属于类型2、无监督机器学习算法C,属于类型3。针对无监督机器学习算法A,提取与类型1对应的目标特征信息1,采用无监督机器学习算法A对目标特征信息1进行训练后得到目标风险识别模型1。同理,针对无监督机器学习算法B,提取与类型2对应的目标特征信息2,采用无监督机器学习算法B对目标特征信息1进行训练后得到目标风险识别模型2。同理,针对无监督机器学习算法C,提取与类型3对应的目标特征信息3,采用无监督机器学习算法C对目标特征信息3进行训练后得到目标风险识别模型3。
针对目标风险识别模型1、目标风险识别模型2、目标风险识别模型3,可以采用已知属性的样本对其进行精度验证,获得每个目标风险识别模型的识别精度,从中挑选出识别精度最高的目标风险识别模型,假设为目标风险识别模型3,采用目标风险识别模型3对新进样本进行风险识别。
进一步,在本实施例中,可按预设时间间隔(如1个月、2个月等)对目标风险识别模型的精度进行验证,如果目标风险识别模型的精度下降较多,模型退化较多,可重新训练得到目标风险识别模型,以确保风险识别的准确性。
这样,通过本实施例中的方法,可以通过确定目标无监督机器学习算法的所属类型,按与该目标无监督机器学习算法的所属类型对应的特征提取方式从特征信息中提取目标特征信息。由于提取出适配于该目标无监督机器学习算法的特征信息,所以,最后基于目标无监督机器学习算法对目标特征信息进行训练,获得的与所属类型对应的目标风险识别模型的识别精度会更高。并且,由于本实施例中训练了多种类型对应的目标风险识别模型,最后挑选出识别精度最高的目标风险识别模型对新进样本进行识别,可以进一步确保风险识别的准确性,也保障了根据风险识别结果做出相关的风险决策的稳定性。
第二方面,基于同一发明构思,本说明书第二实施例提供一种风险识别模型训练装置,请参考图3,包括:
确定单元301,用于确定目标无监督机器学习算法的所属类型;
特征提取单元302,用于从输入信息中抽取特征信息,按与所属类型对应的特征提取方式从特征信息中提取目标特征信息;
训练单元303,用于基于目标特征信息,采用目标无监督机器学习算法对风险识别模型进行训练,得到与目标无监督机器学习算法对应的目标风险识别模型。
在一种可选实现方式中,特征提取单元302具体用于:
如果所属类型为基于树的无监督机器学习类型,确定每个特征信息的关键绩效指标值;
基于每个特征信息的关键绩效指标值,按预设策略从特征信息中提取目标特征信息。
在一种可选实现方式中,特征提取单元302具体用于:
将关键绩效指标值与预设绩效指标值的关系满足预设关系的特征信息作为目标特征信息;或
基于每个特征信息的键绩效指标值,按预设方式对特征信息进行排序,将排在前预设数值的特征信息作为目标特征信息。
在一种可选实现方式中,特征提取单元302具体用于:
如果所属类型为基于距离的无监督机器学习类型,对特征信息进行降维变换,获得目标特征信息。
在一种可选实现方式中,输入信息包括用户画像信息、历史交易信息、设备介质信息、地理位置信息、通讯录信息和外部信息中任意一种或多种组合。
第三方面,基于同一发明构思,本说明书第三实施例提供一种风险识别装置,包括:
风险识别单元,用于根据前述第二实施例中的风险识别模型训练装置训练得到与多个目标无监督机器学习算法对应的多个目标风险识别模型,从多个目标风险识别模型中确定识别精度满足预设条件的第一风险识别模型,基于第一风险识别模型对新进样本进行风险识别,获得风险识别结果。
第四方面,基于与前述实施例中风险识别模型训练方法同样的发明构思,本发明还提供一种服务器,如图4所示,包括存储器404、处理器402及存储在存储器404上并可在处理器402上运行的计算机程序,处理器402执行程序时实现前文风险识别模型训练方法和风险识别方法中的任一方法的步骤。
其中,在图4中,总线架构(用总线400来代表),总线400可以包括任意数量的互联的总线和桥,总线400将包括由处理器402代表的一个或多个处理器和存储器404代表的存储器的各种电路链接在一起。总线400还可以将诸如***设备、稳压器和功率管理电路等之类的各种其他电路链接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口406在总线400和接收器401和发送器403之间提供接口。接收器401和发送器403可以是同一个元件,即收发机,提供用于在传输介质上与各种其他装置通信的单元。处理器402负责管理总线400和通常的处理,而存储器404可以被用于存储处理器402在执行操作时所使用的数据。
第四方面,基于与前述实施例中风险识别模型训练方法和风险识别方法的发明构思,本发明还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现前文风险识别模型训练的方法的任一方法的步骤。
本说明书是参照根据本说明书实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的设备。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令设备的制造品,该指令设备实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本说明书的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本说明书范围的所有变更和修改。
显然,本领域的技术人员可以对本说明书进行各种改动和变型而不脱离本说明书的精神和范围。这样,倘若本说明书的这些修改和变型属于本说明书权利要求及其等同技术的范围之内,则本说明书也意图包含这些改动和变型在内。