CN116823264A - 风险识别方法、装置、电子设备、介质及程序产品 - Google Patents
风险识别方法、装置、电子设备、介质及程序产品 Download PDFInfo
- Publication number
- CN116823264A CN116823264A CN202210260763.4A CN202210260763A CN116823264A CN 116823264 A CN116823264 A CN 116823264A CN 202210260763 A CN202210260763 A CN 202210260763A CN 116823264 A CN116823264 A CN 116823264A
- Authority
- CN
- China
- Prior art keywords
- term
- sequence
- short
- long
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 65
- 230000007774 longterm Effects 0.000 claims abstract description 194
- 230000003068 static effect Effects 0.000 claims abstract description 79
- 230000006399 behavior Effects 0.000 claims description 278
- 239000013598 vector Substances 0.000 claims description 24
- 230000015654 memory Effects 0.000 claims description 19
- 238000007781 pre-processing Methods 0.000 claims description 19
- 230000000295 complement effect Effects 0.000 claims description 16
- 238000012217 deletion Methods 0.000 claims description 16
- 230000037430 deletion Effects 0.000 claims description 16
- 238000012549 training Methods 0.000 claims description 12
- 238000013527 convolutional neural network Methods 0.000 claims description 10
- 238000013507 mapping Methods 0.000 claims description 10
- 230000007246 mechanism Effects 0.000 claims description 10
- 238000012502 risk assessment Methods 0.000 claims description 8
- 230000009466 transformation Effects 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 6
- 238000006243 chemical reaction Methods 0.000 claims description 5
- 241000565357 Fraxinus nigra Species 0.000 description 16
- 238000012545 processing Methods 0.000 description 15
- 238000010586 diagram Methods 0.000 description 12
- 238000010801 machine learning Methods 0.000 description 12
- 238000004519 manufacturing process Methods 0.000 description 10
- 238000013528 artificial neural network Methods 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000013508 migration Methods 0.000 description 4
- 230000005012 migration Effects 0.000 description 4
- 230000000306 recurrent effect Effects 0.000 description 4
- 230000000903 blocking effect Effects 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000003542 behavioural effect Effects 0.000 description 2
- 230000008033 biological extinction Effects 0.000 description 2
- 238000004880 explosion Methods 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 238000002864 sequence alignment Methods 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 230000001131 transforming effect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q20/00—Payment architectures, schemes or protocols
- G06Q20/38—Payment protocols; Details thereof
- G06Q20/40—Authorisation, e.g. identification of payer or payee, verification of customer or shop credentials; Review and approval of payers, e.g. check credit lines or negative lists
- G06Q20/401—Transaction verification
- G06Q20/4016—Transaction verification involving fraud or risk level assessment in transaction processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
- G06Q30/0633—Lists, e.g. purchase orders, compilation or processing
- G06Q30/0635—Processing of requisition or of purchase orders
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Accounting & Taxation (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Finance (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Computer Security & Cryptography (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本公开实施例公开了一种风险识别方法、装置、电子设备、介质及程序产品,该方法包括:获取用户的短期下单行为序列、长期账户行为序列和静态数据,其中,所述短期下单行为序列包括预设的第一历史时间段内与用户下单行为相关的特征;所述长期账户行为序列包括预设的第二历史时间段内与用户账户相关的行为特征;所述静态数据包括与所述用户的当前订单有关的订单特征和所述用户的历史订单统计特征,所述历史时间段的时长大于所述第一历史时间段的时长;将所述用户的短期下单行为序列、长期账户行为序列和静态数据输入预设的风险识别模型,执行所述风险识别模型,得到所述风险识别模型输出的风险识别结果。
Description
技术领域
本公开涉及信息处理技术领域,具体涉及一种风险识别方法、装置、电子设备、介质及程序产品。
背景技术
随着互联网服务的发展,基于网络为用户提供的服务越来越多,比如,用户通过网络购物付款、打车付款等等。在为用户提供服务时,会有一些恶意用户会针对平台漏洞进行一些作弊行为如骗取平台垫付、恶意不支付等,这些作弊行可以分布在服务的各个涉及资金的环节,一旦被黑灰产团伙抓住漏洞进行作弊将会造成大量资损,损害平台利益。所以在为用户提供服务时,需要进行风险识别来防范黑灰产的攻击。目前的风险识别方法都是基于大量的人工策略或者基于用户统计类特征的机器学习模型来进行风险识别。基于人工策略的方式,需要大量的人工经验和案例分析,总结出规律设置风险识别策略,适合快速弥补风险漏洞,但其依赖人力成本较高,缺少泛化性。而基于用户统计类特征的机器学习模型,一方面由于新用户没有历史完成的服务订单,机器学习模型对新用户的适用性有限,另一方面当黑灰产尝试某种行为绕过机器学习模型时,该机器学习模型将不再能自适应的去重新识别他,会造成很大的风险。
发明内容
为了解决相关技术中的问题,本公开实施例提供一种风险识别方法、装置、电子设备、介质及程序产品。
第一方面,本公开实施例中提供了一种风险识别方法。
具体地,所述风险识别方法,包括:
获取用户的短期下单行为序列、长期账户行为序列和静态数据,其中,所述短期下单行为序列包括预设的第一历史时间段内与用户下单行为相关的特征;所述长期账户行为序列包括预设的第二历史时间段内与用户账户相关的行为特征;所述静态数据包括与所述用户的当前订单有关的订单特征和所述用户的历史订单统计特征,所述历史时间段的时长大于所述第一历史时间段的时长;
将所述用户的短期下单行为序列、长期账户行为序列和静态数据输入预设的风险识别模型,执行所述风险识别模型,得到所述风险识别模型输出的风险识别结果。
结合第一方面,本公开在第一方面的第一种实现方式中,所述风险识别结果包括风险分值,所述方法还包括:
所述将所述用户的短期下单行为序列、长期账户行为序列和静态数据输入预设的风险识别模型,执行所述风险识别模型,得到所述风险识别模型输出的风险识别结果,包括:
将所述用户的短期下单行为序列输入第一子模型,执行所述第一子模型,得到短期序列特征;
将所述长期账户行为序列输入第二子模型,执行所述第二子模型,得到长期序列特征;
将所述静态数据输入至第一多层感知机MLP,执行所述第一MLP,得到静态特征;
将所述短期序列特征、长期序列特征和静态特征输入至第二MLP,执行所述第二MLP,得到所述风险识别结果。
结合第一方面的第一种实现方式,本公开在第一方面的第二种实现方式中,所述风险识别结果包括风险特征向量,所述方法还包括:
所述第一子模型和所述第二子模型包括以下任意一种模型:设置有注意力机制的长短期记忆LSTM模型、深度自注意力变换网络transformer模型、文本分类卷积神经网络textCNN模型。
结合第一方面的上述各种实现方式,本公开在第一方面的第三种实现方式中,所述获取用户的短期下单行为序列、长期账户行为序列,包括:
获取用户的初始短期下单行为序列数据和初始长期账户行为序列数据;
将所述用户的初始短期下单行为序列数据和初始长期账户行为序列数据进行预处理,得到用户的短期下单行为序列、长期账户行为序列。
结合第一方面的上述各种实现方式,本公开在第一方面的第四种实现方式中,所述将所述用户的初始短期下单行为序列数据和初始长期账户行为序列数据进行预处理,得到用户的短期下单行为序列、长期账户行为序列,包括:
将所述用户的初始短期下单行为序列数据和初始长期账户行为序列数据进行数字化转换,得到数字化的短期下单行为序列和长期账户行为序列;
将数字化的短期下单行为序列进行序列补全或序列删除操作,得到第一预设长度的短期下单行为序列;
将数字化的用户的长期账户行为序列进行序列补全或序列删除操作,得到第二预设长度的长期账户行为序列。
结合第一方面的上述各种实现方式,本公开在第一方面的第五种实现方式中,所述将所述用户的初始短期下单行为序列数据和初始长期账户行为序列数据进行预处理,得到用户的短期下单行为序列、长期账户行为序列,还包括:
对所述将所述用户的初始短期下单行为序列数据和初始长期账户行为序列数据进行嵌入embedding映射,得到用户的短期下单行为序列、长期账户行为序列。
结合第一方面的上述各种实现方式,本公开在第一方面的第六种实现方式中,所述方法还包括:
获取样本数据,所述样本数据包括各历史样本订单对应的短期下单行为序列、长期账户行为序列和静态数据,以及各历史样本订单对应的真实风险结果;
使用所述样本数据训练得到所述风险识别模型。
结合第一方面的上述各种实现方式,本公开在第一方面的第七种实现方式中,所述方法还包括:
获取待迁移应用中的应用样本数据,所述应用样本数据包括待迁移应用中各历史样本订单对应的短期下单行为序列、长期账户行为序列和静态数据,以及各历史样本订单对应的真实风险结果;
使用所述应用样本数据对所述风险识别模型进行微调fine-tuning,得到供所述待迁移应用使用的风险识别模型。
结合第一方面的上述各种实现方式,本公开在第一方面的第八种实现方式中,所述风险识别结果包括风险特征向量,所述方法还包括:
基于所述风险特征向量进行风险分析。
第二方面,本公开实施例中提供了一种风险识别装置。
具体地,所述风险识别装置,包括:
第一获取模块,被配置为获取用户的短期下单行为序列、长期账户行为序列和静态数据,其中,所述短期下单行为序列包括预设的第一历史时间段内与用户下单行为相关的特征;所述长期账户行为序列包括预设的第二历史时间段内与用户账户相关的行为特征;所述静态数据包括与所述用户的当前订单有关的订单特征和所述用户的历史订单统计特征,所述历史时间段的时长大于所述第一历史时间段的时长;
识别模块,被配置为将所述用户的短期下单行为序列、长期账户行为序列和静态数据输入预设的风险识别模型,执行所述风险识别模型,得到所述风险识别模型输出的风险识别结果。
结合第二方面,本公开在第二方面的第一种实现方式中,所述识别模块被配置为:
将所述用户的短期下单行为序列输入第一子模型,执行所述第一子模型,得到短期序列特征;
将所述长期账户行为序列输入第二子模型,执行所述第二子模型,得到长期序列特征;
将所述静态数据输入至第一多层感知机MLP,执行所述第一MLP,得到静态特征;
将所述短期序列特征、长期序列特征和静态特征输入至第二MLP,执行所述第二MLP,得到所述风险识别结果。
结合第二方面的第一种实现方式,本公开在第二方面的第二种实现方式中,所述第一子模型和所述第二子模型包括以下任意一种模型:设置有注意力机制的长短期记忆LSTM模型、深度自注意力变换网络transformer模型、文本分类卷积神经网络textCNN模型。
结合第二方面的上述各种实现方式,本公开在第二方面的第三种实现方式中,所述第一获取模块被配置为:
获取用户的初始短期下单行为序列数据和初始长期账户行为序列数据;
将所述用户的初始短期下单行为序列数据和初始长期账户行为序列数据进行预处理,得到用户的短期下单行为序列、长期账户行为序列。
结合第二方面的上述各种实现方式,本公开在第二方面的第四种实现方式中,所述第一获取模块中所述将所述用户的初始短期下单行为序列数据和初始长期账户行为序列数据进行预处理,得到用户的短期下单行为序列、长期账户行为序列的部分被配置为:
将所述用户的初始短期下单行为序列数据和初始长期账户行为序列数据进行数字化转换,得到数字化的短期下单行为序列和长期账户行为序列;
将数字化的短期下单行为序列进行序列补全或序列删除操作,得到第一预设长度的短期下单行为序列;
将数字化的用户的长期账户行为序列进行序列补全或序列删除操作,得到第二预设长度的长期账户行为序列。
结合第二方面的上述各种实现方式,本公开在第二方面的第五种实现方式中,所述第一获取模块中所述将所述用户的初始短期下单行为序列数据和初始长期账户行为序列数据进行预处理,得到用户的短期下单行为序列、长期账户行为序列的部分被配置为:
对所述将所述用户的初始短期下单行为序列数据和初始长期账户行为序列数据进行嵌入embedding映射,得到用户的短期下单行为序列、长期账户行为序列。
结合第二方面的上述各种实现方式,本公开在第二方面的第六种实现方式中,所述装置还包括:
第二获取模块,被配置为获取样本数据,所述样本数据包括各历史样本订单对应的短期下单行为序列、长期账户行为序列和静态数据,以及各历史样本订单对应的真实风险结果;
训练模块,被配置为使用所述样本数据训练得到所述风险识别模型。
结合第二方面的上述各种实现方式,本公开在第二方面的第七种实现方式中,所述装置还包括:
第三获取模块,被配置为获取待迁移应用中的应用样本数据,所述应用样本数据包括待迁移应用中各历史样本订单对应的短期下单行为序列、长期账户行为序列和静态数据,以及各历史样本订单对应的真实风险结果;
微调模块,被配置为使用所述应用样本数据对所述风险识别模型进行微调fine-tuning,得到供所述待迁移应用使用的风险识别模型。
结合第二方面的上述各种实现方式,本公开在第二方面的第八种实现方式中,所述风险识别结果包括风险特征向量,所述装置还包括:
分析模块,被配置为基于所述风险特征向量进行风险分析。
第三方面,本公开实施例提供了一种电子设备,包括存储器和处理器,其中,所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行以实现如第一方面任一项所述的方法。
第四方面,本公开实施例中提供了一种计算机可读存储介质,其上存储有计算机指令,该计算机指令被处理器执行时实现如第一方面任一项所述的方法。
第五方面,本公开实施例中提供了一种计算机程序产品,包括计算机指令,该计算机指令被处理器执行时实现如第一方面任一项所述的方法步骤。
根据本公开实施例提供的技术方案,基于用户的短期下单行为序列、长期账户行为序列和静态数据来进行风险识别,这样在新用户下单时,即使没有历史完成的服务订单,但是也会有很多下单前的多种尝试行为、账户登录或注册等与用户下单行为相关的短期下单行为序列、与用户账户相关的长期账户行为序列,因此可以基于这些行为序列进行风险识别,对新用户做到较好覆盖;针对黑灰产来讲,黑灰产为了绕过现有的风控体系会进行频繁的尝试,这些尝试行为正是风险识别模型的输入特征,可以让该风险识别模型更能针对性的去识别;而且相对于单维度的行为序列,输入该风险识别模型的短期下单行为序列、长期账户行为序列和静态数据综合了多种序列以及序列的多种属性,可以更加全面的表征用户的意图,让该风险识别模型更准确地识别潜在的风险。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
结合附图,通过以下非限制性实施方式的详细描述,本公开的其它特征、目的和优点将变得更加明显。在附图中:
图1A示出根据本公开实施例的风险识别方法的流程示意图;
图1B示出根据本公开实施例的风险识别方法的识别流程图;
图2示出根据本公开实施例的风险识别装置的结构框图;
图3示出根据本公开实施例的电子设备的结构框图;
图4示出适于用来实现根据本公开实施例的方法的计算机***的结构示意图。
具体实施方式
下文中,将参考附图详细描述本公开的示例性实施例,以使本领域技术人员可容易地实现它们。此外,为了清楚起见,在附图中省略了与描述示例性实施例无关的部分。
在本公开中,应理解,诸如“包括”或“具有”等的术语旨在指示本说明书中所公开的特征、数字、步骤、行为、部件、部分或其组合的存在,并且不欲排除一个或多个其他特征、数字、步骤、行为、部件、部分或其组合存在或被添加的可能性。
另外还需要说明的是,在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本公开。
在本公开中,对用户信息或用户数据的获取均为经用户授权、确认,或由用户主动选择的操作。
图1A示出根据本公开实施例的风险识别方法的流程图。如图1A所示,所述风险识别方法包括以下步骤S101-S102:
在步骤S101中,获取用户的短期下单行为序列、长期账户行为序列和静态数据,其中,所述短期下单行为序列包括预设的第一历史时间段内与用户下单行为相关的特征;所述长期账户行为序列包括预设的第二历史时间段内与用户账户相关的行为特征;所述静态数据包括与所述用户的当前订单有关的订单特征和所述用户的历史订单统计特征,所述历史时间段的时长大于所述第一历史时间段的时长;
在步骤S102中,将所述用户的短期下单行为序列、长期账户行为序列和静态数据输入预设的风险识别模型,执行所述风险识别模型,得到所述风险识别模型输出的风险识别结果。
上文提及,随着互联网服务的发展,基于网络为用户提供的服务越来越多,比如,用户通过网络购物付款、打车付款等等。在为用户提供服务时,会有一些恶意用户会针对平台漏洞进行一些作弊行为如骗取平台垫付、恶意不支付等,这些作弊行可以分布在服务的各个涉及资金的环节,一旦被黑灰产团伙抓住漏洞进行作弊将会造成大量资损,损害平台利益。所以在为用户提供服务时,需要进行风险识别来防范黑灰产的攻击。目前的风险识别方法都是基于大量的人工策略或者基于用户统计类特征的机器学习模型来进行风险识别。基于人工策略的方式,需要大量的人工经验和案例分析,总结出规律设置风险识别策略,适合快速弥补风险漏洞,但其依赖人力成本较高,缺少泛化性。而基于用户统计类特征的机器学习模型,一方面由于新用户没有历史完成的服务订单,机器学习模型对新用户的适用性有限,另一方面当黑灰产尝试某种行为绕过机器学习模型时,该机器学习模型将不再能自适应的去重新识别他,会造成很大的风险。
考虑到上述问题,本实施例提供了一种风险识别方法,使用风险识别模型,基于用户的短期下单行为序列、长期账户行为序列和静态数据来进行风险识别,这样在新用户下单时,即使没有历史完成的服务订单,但是也会有很多下单前的多种尝试行为、账户登录或注册等与用户下单行为相关的短期下单行为序列、与用户账户相关的长期账户行为序列,因此可以基于这些行为序列进行风险识别,对新用户做到较好覆盖;针对黑灰产来讲,黑灰产为了绕过现有的风控体系会进行频繁的尝试,这些尝试行为正是风险识别模型的输入特征,可以让该风险识别模型更能针对性的去识别;而且相对于单维度的行为序列,输入该风险识别模型的短期下单行为序列、长期账户行为序列和静态数据综合了多种序列以及序列的多种属性,可以更加全面的表征用户的意图,让该风险识别模型更准确地识别潜在的风险。
在本公开一实施方式中,所述风险识别方法可适用于可执行风险识别的计算机、计算设备、电子设备、服务器、服务集群等。
在本公开一实施方式中,该短期下单行为序列指的是短期内与用户的下单行为有关的特征,该短期指的是预设的第一历史时间段,可以是当前时刻之前的一小段时间如历史7天。该下单行为序列可以包括7天内各下单行为所属订单的订单状态、所属订单的下单时刻与当前订单的下单时刻之间的时间间隔、所属订单位置与当前订单位置之间的时间间隔,等等。这里的订单可以是打车订单,也可以是购物订单等,该订单状态可以是下单未支付、完单、订单正在进行等等各种状态信息,若是打车订单,则订单位置指的是乘车位置,若是购物订单,则订单位置指的是收货位置。
在本公开一实施方式中,该长期账户行为序列指的是长期内与用户的账户有关的行为特征,该长期指的是预设的第二历史时间段,可以是当前时刻之前的一长段时间如历史一月或一年等。该长期账户行为序列可以包括一年内账户的切换行为如账号切换行为、切换设备的行为、切换绑定的手机号的行为等等。
在本公开一实施方式中,该静态数据包括与所述用户的当前订单有关的订单特征如订单为打车订单时,可以是订单的预估价格、预估时长、订单距离、地理位置等等特征,订单为购物订单时,可以是订单的价格、收货位置等等特征。该静态数据还包括所述用户的历史订单统计特征,如用户的历史完单量、历史订单完成时长、历史订单距离等等统计特征。
在本公开一实施方式中,该风险识别模型可以基于用户的短期下单行为序列、长期账户行为序列和静态数据进行风险识别,该风险识别模型可以用样本数据训练得到。
本实施方式中,可以先获取用户的短期下单行为序列、长期账户行为序列和静态数据,然后,将用户的短期下单行为序列、长期账户行为序列和静态数据输入预设的风险识别模型,执行所述风险识别模型,得到所述风险识别模型输出的风险识别结果。这样在新用户下单时,即使没有历史完成的服务订单,但是也会有很多下单前的多种尝试行为、账户登录或注册等与用户下单行为相关的短期下单行为序列、与用户账户相关的长期账户行为序列,因此可以基于这些行为序列进行风险识别,对新用户做到较好覆盖;针对黑灰产来讲,黑灰产为了绕过现有的风控体系会进行频繁的尝试,这些尝试行为正是风险识别模型的输入特征,可以让该风险识别模型更能针对性的去识别;而且相对于单维度的行为序列,输入该风险识别模型的短期下单行为序列、长期账户行为序列和静态数据综合了多种序列以及序列的多种属性,可以更加全面的表征用户的意图,让该风险识别模型更准确地识别潜在的风险。
在本公开一实施方式中,所述风险识别结果包括风险分值,上述风险识别方法还包括以下步骤:
在所述风险分值大于预设阈值时,执行风险处理。
在该实施方式中,该风险分值可以是风险概率值,风险分值越大风险就越大,当风险分值大于预设阈值时,说明当前订单的风险较大,此时就会进行风险处理,该风险处理包括风险拦阻、风险提示等等处理。
在本公开一实施方式中,所述风险识别结果包括风险特征向量,上述风险识别方法还包括以下步骤:
基于所述风险特征向量进行风险分析。
在该实施方式中,可以将该风险特征向量与其他特征向量综合在一起进行风险分析,如将该风险特征向量与其他特征向量融合后输入至综合风险识别模型,执行该综合风险识别模型,得到该综合风险识别模型输出的综合风险结果。
在本公开一实施方式中,上述风险识别方法中的步骤S102可以包括以下步骤:
将所述用户的短期下单行为序列输入第一子模型,执行所述第一子模型,得到短期序列特征;
将所述长期账户行为序列输入第二子模型,执行所述第二子模型,得到长期序列特征;
将所述静态数据输入至第一多层感知机MLP,执行所述第一MLP,得到静态特征;
将所述短期序列特征、长期序列特征和静态特征输入至第二MLP,执行所述第二MLP,得到所述风险识别结果。
在该实施方式中,该风险识别模型包括第一子模型、第二子模型、第一MLP(Multilayer Perceptron,多层感知机)和第二MLP,该第一子模型和第二子模型用于提取行为序列中的重要特征,抽取各序列之间的关系特征;该第一MLP用于提取该静态数据中的特征,该第二MLP可以基于提取到的短期序列特征、长期序列特征和静态特征进行风险识别。
在该实施方式中,该MLP也叫人工神经网络(ANN,Artificial Neural Network),包括输入层、输出层,以及输入层与输出层之间的多个隐层,最简单的MLP可以只含一个隐层。
在本公开一实施方式中,该第一子模型和第二子模型可以是设置有注意力机制的LSTM(Long short-term memory,长短期记忆)模型、transformer(深度自注意力变换网络)模型或textCNN(text Convolutional Neural Networks,文本分类卷积神经网络)。
在该实施方式中,该LSTM模型是一种时间递归神经网络,主要是为了解决长序列训练过程中的梯度消失和梯度***问题。该LSTM模型主要包括忘记阶段、选择记忆阶段和输出阶段,忘记阶段主要是对上一个节点传进来的输入进行选择性忘记,简单来说就是会“忘记不重要的,记住重要的”;选择记忆阶段将这个阶段的输入有选择性地进行“记忆”,哪些重要则着重记录下来,哪些不重要,则少记一些;输出阶段将决定哪些将会被当成当前状态的输出。设置有注意力机制的LSTM模型可以让该LSTM模型的每一步都关注一个更大的特征集合并从中挑选出重要的特征,可以提取得到更加全面的表征用户的时序历史行为的特征,进而据此发现潜在的风险。
在该实施方式中,transformer模型是完全依赖自注意力(self-attention)来计算输入和输出的表示,而不使用序列对齐的递归神经网络或卷积神经网络的转换模型,这里说的“转换”(transduction)是指将输入序列转换成输出序列,Transformer是使用注意力机制处理输入和输出之间的依赖关系,并且要完全递归。
在该实施方式中,textCNN模型包括一层卷积和一层池化,用于从该序列数据中提取到有效的特征。
在本公开一实施方式中,上述风险识别方法中步骤S101中的所述获取用户的短期下单行为序列、长期账户行为序列,还可以包括以下步骤:
获取用户的初始短期下单行为序列数据和初始长期账户行为序列数据;
将所述用户的初始短期下单行为序列数据和初始长期账户行为序列数据进行预处理,得到用户的短期下单行为序列、长期账户行为序列。
在该实施方式中,用户的初始短期下单行为序列数据和初始长期账户行为序列数据可能由于各种原因会出现缺值现象,为了更方便风险识别模型进行风险识别,可以对该用户的初始短期下单行为序列数据和初始长期账户行为序列数据进行预处理,该预处理指的是数据格式装换、数据补值等处理,可以将所述用户的初始短期下单行为序列数据和初始长期账户行为序列数据进行预处理,得到符合该风险识别模型要求的短期下单行为序列、长期账户行为序列。
在本公开一实施方式中,上述风险识别方法中的将所述用户的初始短期下单行为序列数据和初始长期账户行为序列数据进行预处理,得到用户的短期下单行为序列、长期账户行为序列的部分,可以包括以下步骤:
将所述用户的初始短期下单行为序列数据和初始长期账户行为序列数据进行数字化转换,得到数字化的短期下单行为序列和长期账户行为序列;
将数字化的短期下单行为序列进行序列补全或序列删除操作,得到第一预设长度的短期下单行为序列;
将数字化的用户的长期账户行为序列进行序列补全或序列删除操作,得到第二预设长度的长期账户行为序列。
在该实施方式中,可以将所述用户的初始短期下单行为序列数据和初始长期账户行为序列数据中的各项数据用唯一的数字ID来标识,得到数字化的短期下单行为序列和长期账户行为序列。
在该实施方式中,由于每个用户不同,获取的每个用户的短期下单行为序列数据和长期账户行为序列数据的序列数量就会不同,示例的,对于用户的短期下单行为序列来说,历史7天内,有的用户在过去7天内有7个下单操作,此时就有7个行为序列数据,有的用户在过去7天内有5个下单操作,此时就有5个行为序列数据。为了保证后续风险识别的准确性,需要获取形同长度的用户的短期下单行为序列和长期账户行为序列。可以设置短期下单行为序列的长度为第一预设长度,长期账户行为序列的长度为第二预设长度,若获取的数字化的短期下单行为序列的长度小于第一预设长度,则对该数字化的短期下单行为序列进行序列补全,得到第一预设长度的短期下单行为序列,若获取的数字化的短期下单行为序列的长度大于第一预设长度,则删除多出的短期下单行为序列,得到第一预设长度的短期下单行为序列,若获取的数字化的长期账户行为序列的长度小于第二预设长度,则对该数字化的长期账户行为序列进行序列补全,得到第二预设长度的长期账户行为序列,若获取的数字化的长期账户行为序列的长度大于第二预设长度,则删除多出的长期账户行为序列,得到第二预设长度的长期账户行为序列。
在该实施方式中,在补全时,可以用各序列的均值或默认值来补全,在删除时,可以随机选择一个或多个序列删除,也可以删除距离当前时刻最长的序列。
在本公开一实施方式中,上述风险识别方法中,将所述用户的初始短期下单行为序列数据和初始长期账户行为序列数据进行预处理,得到用户的短期下单行为序列、长期账户行为序列的部分,还可以包括以下步骤:
对所述第一预设长度的短期下单行为序列和第二预设长度的长期账户行为序列进行嵌入embedding映射,得到映射后的短期下单行为序列和长期账户行为序列。
在该实施方式中,embedding(嵌入)映射可以将高维空间数据映射到低维向量空间数据,同时尽可能在向量空间保持原样本在语义空间的关系。对所述第一预设长度的短期下单行为序列和第二预设长度的长期账户行为序列进行embedding映射,得到映射后的低纬度的短期下单行为序列和长期账户行为序列会更有效。
在本公开一实施方式中,上述风险识别方法还可以包括以下步骤:
获取样本数据,所述样本数据包括各历史样本订单对应的短期下单行为序列、长期账户行为序列和静态数据,以及各历史样本订单对应的真实风险结果;
使用所述样本数据训练得到所述风险识别模型。
在该实施方式中,该样本数据可以包括正样本即真实风险结果是有风险的样本数据,还可以包括负样本即真实风险结果是无风险的样本数据。各历史样本订单对应的短期下单行为序列指的是历史样本订单生成时刻之前第一历史时间段内与用户下单行为相关的短期下单行为序列,各历史样本订单对应的长期账户行为序列指的是历史样本订单生成时刻之前第二历史时间段内与用户账户切换行为相关的长期账户行为序列,该各历史样本订单对应的静态数据指的是历史样本订单的订单数据和历史样本订单对应的用户的用户统计数据。
在该实施方式中,可以使用各用户的样本数据训练初始的风险识别模型,不断调整该风险识别模型中的参数,直至得到的风险识别模型的正确率满足预设条件,如正确率大于预设阈值。
在本公开一实施方式中,上述风险识别方法还可以包括以下步骤:
获取待迁移应用中的应用样本数据,所述应用样本数据包括待迁移应用中各历史样本订单对应的短期下单行为序列、长期账户行为序列和静态数据,以及各历史样本订单对应的真实风险结果;
使用所述应用样本数据对所述风险识别模型进行微调fine-tuning,得到供所述待迁移应用使用的风险识别模型。
在该实施方式中,基于迁移学习的思想,可以将主版预训练好的风险识别模型应用到小程序等待迁移应用中。由于主版渠道的样本数据和待迁移应用中的样本数据总体相似性较高,而使用主版渠道的样本数据训练得到的风险识别模型已经具备了提取浅层特征和深层抽象特征的能力,将主版预训练好的风险识别模型使用待迁移应用的应用样本数据进行fine-tuning(微调),可以得到更适合在该待迁移应用中使用的风险识别模型。
在该实施方式中,使用待迁移应用中的应用样本数据对该风险识别模型进行训练,对该风险识别模型中的参数进行微调,使微调后的风险识别模型能更准确地识别该待迁移应用中的风险。
示例的,本公开提供了一种风险识别方法,该方法可以包括以下步骤:
步骤S1、训练得到该风险识别模型。
具体的,可以获取样本数据,所述样本数据包括各历史样本订单对应的短期下单行为序列、长期账户行为序列和静态数据,以及各历史样本订单对应的真实风险结果,使用所述样本数据训练得到所述风险识别模型。
步骤S2、在用户下单时,如图1B所示,可以获取用户的初始短期下单行为序列数据、初始长期账户行为序列数据和静态数据,并对用户的初始短期下单行为序列数据、初始长期账户行为序列数据进行预处理。
具体的,可以将所述用户的初始短期下单行为序列数据和初始长期账户行为序列数据进行数字化转换,得到数字化的短期下单行为序列和长期账户行为序列;将数字化的短期下单行为序列进行序列补全或序列删除操作,得到第一预设长度的短期下单行为序列;将数字化的用户的长期账户行为序列进行序列补全或序列删除操作,得到第二预设长度的长期账户行为序列,对所述第一预设长度的短期下单行为序列和第二预设长度的长期账户行为序列进行嵌入embedding映射,得到映射后的短期下单行为序列和长期账户行为序列。
步骤S3、将预处理后得到的初始短期序列数据和初始长期序列数据,以及静态数据输入至该风险识别模型进行风险识别,该风险识别模型包括第一子模型、第二子模型、第一MLP和第二MLP。
具体的,如图1B所示,可以将预处理后的得到短期下单行为序列输入第一子模型,执行所述第一子模型,得到短期序列特征;将预处理后的得到长期账户行为序列输入第二子模型,执行所述第二子模型,得到长期序列特征;将该短期序列特征和长期序列特征合并在一起;将所述静态数据输入至第一多层感知机MLP,执行所述第一MLP,得到静态特征;将合并在一起的短期序列特征和长期序列特征,与静态特征合并后输入至第二MLP,执行所述第二MLP,得到所述风险识别结果。所述第一子模型和所述第二子模型包括以下任意一种模型:设置有注意力机制的长短期记忆LSTM模型、深度自注意力变换网络transformer模型、文本分类卷积神经网络textCNN模型。
步骤S4、基于该风险识别结果进行风险处理。
具体的,所述风险识别结果包括风险分值,在所述风险分值大于预设阈值时,进行风险处理如风险阻拦等。所述风险识别结果包括风险特征向量,此时可以基于所述风险特征向量进行进一步的风险分析。
步骤S5、将训练得到的风险识别模型迁移到其他应用中使用。
具体的,可以获取待迁移应用中的应用样本数据,所述应用样本数据包括待迁移应用中各历史样本订单对应的短期下单行为序列、长期账户行为序列和静态数据,以及各历史样本订单对应的真实风险结果;使用所述应用样本数据对所述风险识别模型进行微调fine-tuning,得到供所述待迁移应用使用的风险识别模型。
图2示出根据本公开实施例的风险识别装置的结构框图。其中,该装置可以通过软件、硬件或者两者的结合实现成为电子设备的部分或者全部。
如图2所示,所述风险识别装置200包括第一获取模块201和识别模块202。
第一获取模块201,被配置为获取用户的短期下单行为序列、长期账户行为序列和静态数据,其中,所述短期下单行为序列包括预设的第一历史时间段内与用户下单行为相关的特征;所述长期账户行为序列包括预设的第二历史时间段内与用户账户相关的行为特征;所述静态数据包括与所述用户的当前订单有关的订单特征和所述用户的历史订单统计特征,所述历史时间段的时长大于所述第一历史时间段的时长;
识别模块202,被配置为将所述用户的短期下单行为序列、长期账户行为序列和静态数据输入预设的风险识别模型,执行所述风险识别模型,得到所述风险识别模型输出的风险识别结果。
上文提及,随着互联网服务的发展,基于网络为用户提供的服务越来越多,比如,用户通过网络购物付款、打车付款等等。在为用户提供服务时,会有一些恶意用户会针对平台漏洞进行一些作弊行为如骗取平台垫付、恶意不支付等,这些作弊行可以分布在服务的各个涉及资金的环节,一旦被黑灰产团伙抓住漏洞进行作弊将会造成大量资损,损害平台利益。所以在为用户提供服务时,需要进行风险识别来防范黑灰产的攻击。目前的风险识别方法都是基于大量的人工策略或者基于用户统计类特征的机器学习模型来进行风险识别。基于人工策略的方式,需要大量的人工经验和案例分析,总结出规律设置风险识别策略,适合快速弥补风险漏洞,但其依赖人力成本较高,缺少泛化性。而基于用户统计类特征的机器学习模型,一方面由于新用户没有历史完成的服务订单,机器学习模型对新用户的适用性有限,另一方面当黑灰产尝试某种行为绕过机器学习模型时,该机器学习模型将不再能自适应的去重新识别他,会造成很大的风险。
考虑到上述问题,本实施例提供了一种风险识别方法,使用风险识别模型,基于用户的短期下单行为序列、长期账户行为序列和静态数据来进行风险识别,这样在新用户下单时,即使没有历史完成的服务订单,但是也会有很多下单前的多种尝试行为、账户登录或注册等与用户下单行为相关的短期下单行为序列、与用户账户相关的长期账户行为序列,因此可以基于这些行为序列进行风险识别,对新用户做到较好覆盖;针对黑灰产来讲,黑灰产为了绕过现有的风控体系会进行频繁的尝试,这些尝试行为正是风险识别模型的输入特征,可以让该风险识别模型更能针对性的去识别;而且相对于单维度的行为序列,输入该风险识别模型的短期下单行为序列、长期账户行为序列和静态数据综合了多种序列以及序列的多种属性,可以更加全面的表征用户的意图,让该风险识别模型更准确地识别潜在的风险。
在本公开一实施方式中,所述风险识别装置可适用于可执行风险识别的计算机、计算设备、电子设备、服务器、服务集群等。
在本公开一实施方式中,该短期下单行为序列指的是短期内与用户的下单行为有关的特征,该短期指的是预设的第一历史时间段,可以是当前时刻之前的一小段时间如历史7天。该下单行为序列可以包括7天内各下单行为所属订单的订单状态、所属订单的下单时刻与当前订单的下单时刻之间的时间间隔、所属订单位置与当前订单位置之间的时间间隔,等等。这里的订单可以是打车订单,也可以是购物订单等,该订单状态可以是下单未支付、完单、订单正在进行等等各种状态信息,若是打车订单,则订单位置指的是乘车位置,若是购物订单,则订单位置指的是收货位置。
在本公开一实施方式中,该长期账户行为序列指的是长期内与用户的账户有关的行为特征,该长期指的是预设的第二历史时间段,可以是当前时刻之前的一长段时间如历史一月或一年等。该长期账户行为序列可以包括一年内账户的切换行为如账号切换行为、切换设备的行为、切换绑定的手机号的行为等等。
在本公开一实施方式中,该静态数据包括与所述用户的当前订单有关的订单特征如订单为打车订单时,可以是订单的预估价格、预估时长、订单距离、地理位置等等特征,订单为购物订单时,可以是订单的价格、收货位置等等特征。该静态数据还包括所述用户的历史订单统计特征,如用户的历史完单量、历史订单完成时长、历史订单距离等等统计特征。
在本公开一实施方式中,该风险识别模型可以基于用户的短期下单行为序列、长期账户行为序列和静态数据进行风险识别,该风险识别模型可以用样本数据训练得到。
在本公开一实施方式中,所述风险识别模型输出的风险识别结果包括风险分值,在所述风险分值大于预设阈值时,执行风险处理。该风险分值可以是风险概率值,风险分值越大风险就越大,当风险分值大于预设阈值时,说明当前订单的风险较大,此时就会进行风险处理,该风险处理包括风险拦阻、风险提示等等处理。
本实施方式中,可以先获取用户的短期下单行为序列、长期账户行为序列和静态数据,然后,将用户的短期下单行为序列、长期账户行为序列和静态数据输入预设的风险识别模型,执行所述风险识别模型,得到所述风险识别模型输出的风险识别结果。这样在新用户下单时,即使没有历史完成的服务订单,但是也会有很多下单前的多种尝试行为、账户登录或注册等与用户下单行为相关的短期下单行为序列、与用户账户相关的长期账户行为序列,因此可以基于这些行为序列进行风险识别,对新用户做到较好覆盖;针对黑灰产来讲,黑灰产为了绕过现有的风控体系会进行频繁的尝试,这些尝试行为正是风险识别模型的输入特征,可以让该风险识别模型更能针对性的去识别;而且相对于单维度的行为序列,输入该风险识别模型的短期下单行为序列、长期账户行为序列和静态数据综合了多种序列以及序列的多种属性,可以更加全面的表征用户的意图,让该风险识别模型更准确地识别潜在的风险。
在本公开一实施方式中,所述识别模块202被配置为:
将所述用户的短期下单行为序列输入第一子模型,执行所述第一子模型,得到短期序列特征;
将所述长期账户行为序列输入第二子模型,执行所述第二子模型,得到长期序列特征;
将所述静态数据输入至第一多层感知机MLP,执行所述第一MLP,得到静态特征;
将所述短期序列特征、长期序列特征和静态特征输入至第二MLP,执行所述第二MLP,得到所述风险识别结果。
在该实施方式中,该风险识别模型包括第一子模型、第二子模型、第一MLP(Multilayer Perceptron,多层感知机)和第二MLP,该第一子模型和第二子模型用于提取行为序列中的重要特征,抽取各序列之间的关系特征;该第一MLP用于提取该静态数据中的特征,该第二MLP可以基于提取到的短期序列特征、长期序列特征和静态特征进行风险识别。
在该实施方式中,该MLP也叫人工神经网络(ANN,Artificial Neural Network),包括输入层、输出层,以及输入层与输出层之间的多个隐层,最简单的MLP可以只含一个隐层。
在本公开一实施方式中,该第一子模型和第二子模型可以是设置有注意力机制的LSTM(Long short-term memory,长短期记忆)模型、transformer(深度自注意力变换网络)模型或textCNN(text Convolutional Neural Networks,文本分类卷积神经网络)。
在该实施方式中,该LSTM模型是一种时间递归神经网络,主要是为了解决长序列训练过程中的梯度消失和梯度***问题。该LSTM模型主要包括忘记阶段、选择记忆阶段和输出阶段,忘记阶段主要是对上一个节点传进来的输入进行选择性忘记,简单来说就是会“忘记不重要的,记住重要的”;选择记忆阶段将这个阶段的输入有选择性地进行“记忆”,哪些重要则着重记录下来,哪些不重要,则少记一些;输出阶段将决定哪些将会被当成当前状态的输出。设置有注意力机制的LSTM模型可以让该LSTM模型的每一步都关注一个更大的特征集合并从中挑选出重要的特征,可以提取得到更加全面的表征用户的时序历史行为的特征,进而据此发现潜在的风险。
在该实施方式中,transformer模型是完全依赖自注意力(self-attention)来计算输入和输出的表示,而不使用序列对齐的递归神经网络或卷积神经网络的转换模型,这里说的“转换”(transduction)是指将输入序列转换成输出序列,Transformer是使用注意力机制处理输入和输出之间的依赖关系,并且要完全递归。
在该实施方式中,textCNN模型包括一层卷积和一层池化,用于从该序列数据中提取到有效的特征。
在本公开一实施方式中,所述第一获取模块201被配置为:
获取用户的初始短期下单行为序列数据和初始长期账户行为序列数据;
将所述用户的初始短期下单行为序列数据和初始长期账户行为序列数据进行预处理,得到用户的短期下单行为序列、长期账户行为序列。
在该实施方式中,用户的初始短期下单行为序列数据和初始长期账户行为序列数据可能由于各种原因会出现缺值现象,为了更方便风险识别模型进行风险识别,可以对该用户的初始短期下单行为序列数据和初始长期账户行为序列数据进行预处理,该预处理指的是数据格式装换、数据补值等处理,可以将所述用户的初始短期下单行为序列数据和初始长期账户行为序列数据进行预处理,得到符合该风险识别模型要求的短期下单行为序列、长期账户行为序列。
在本公开一实施方式中,所述第一获取模块201中所述将所述用户的初始短期下单行为序列数据和初始长期账户行为序列数据进行预处理,得到用户的短期下单行为序列、长期账户行为序列的部分被配置为:
将所述用户的初始短期下单行为序列数据和初始长期账户行为序列数据进行数字化转换,得到数字化的短期下单行为序列和长期账户行为序列;
将数字化的短期下单行为序列进行序列补全或序列删除操作,得到第一预设长度的短期下单行为序列;
将数字化的用户的长期账户行为序列进行序列补全或序列删除操作,得到第二预设长度的长期账户行为序列。
在该实施方式中,可以将所述用户的初始短期下单行为序列数据和初始长期账户行为序列数据中的各项数据用唯一的数字ID来标识,得到数字化的短期下单行为序列和长期账户行为序列。
在该实施方式中,由于每个用户不同,获取的每个用户的短期下单行为序列数据和长期账户行为序列数据的序列数量就会不同,示例的,对于用户的短期下单行为序列来说,历史7天内,有的用户在过去7天内有7个下单操作,此时就有7个行为序列数据,有的用户在过去7天内有5个下单操作,此时就有5个行为序列数据。为了保证后续风险识别的准确性,需要获取形同长度的用户的短期下单行为序列和长期账户行为序列。可以设置短期下单行为序列的长度为第一预设长度,长期账户行为序列的长度为第二预设长度,若获取的数字化的短期下单行为序列的长度小于第一预设长度,则对该数字化的短期下单行为序列进行序列补全,得到第一预设长度的短期下单行为序列,若获取的数字化的短期下单行为序列的长度大于第一预设长度,则删除多出的短期下单行为序列,得到第一预设长度的短期下单行为序列,若获取的数字化的长期账户行为序列的长度小于第二预设长度,则对该数字化的长期账户行为序列进行序列补全,得到第二预设长度的长期账户行为序列,若获取的数字化的长期账户行为序列的长度大于第二预设长度,则删除多出的长期账户行为序列,得到第二预设长度的长期账户行为序列。
在该实施方式中,在补全时,可以用各序列的均值或默认值来补全,在删除时,可以随机选择一个或多个序列删除,也可以删除距离当前时刻最长的序列。
在本公开一实施方式中,所述第一获取模块201中所述将所述用户的初始短期下单行为序列数据和初始长期账户行为序列数据进行预处理,得到用户的短期下单行为序列、长期账户行为序列的部分被配置为:
对所述第一预设长度的短期下单行为序列和第二预设长度的长期账户行为序列进行嵌入embedding映射,得到映射后的短期下单行为序列和长期账户行为序列。
在该实施方式中,embedding(嵌入)映射可以将高维空间数据映射到低维向量空间数据,同时尽可能在向量空间保持原样本在语义空间的关系。对所述第一预设长度的短期下单行为序列和第二预设长度的长期账户行为序列进行embedding映射,得到映射后的低纬度的短期下单行为序列和长期账户行为序列会更有效。
在本公开一实施方式中,所述装置还包括:
第二获取模块,被配置为获取样本数据,所述样本数据包括各历史样本订单对应的短期下单行为序列、长期账户行为序列和静态数据,以及各历史样本订单对应的真实风险结果;
训练模块,被配置为使用所述样本数据训练得到所述风险识别模型。
在该实施方式中,该样本数据可以包括正样本即真实风险结果是有风险的样本数据,还可以包括负样本即真实风险结果是无风险的样本数据。各历史样本订单对应的短期下单行为序列指的是历史样本订单生成时刻之前第一历史时间段内与用户下单行为相关的短期下单行为序列,各历史样本订单对应的长期账户行为序列指的是历史样本订单生成时刻之前第二历史时间段内与用户账户切换行为相关的长期账户行为序列,该各历史样本订单对应的静态数据指的是历史样本订单的订单数据和历史样本订单对应的用户的用户统计数据。
在该实施方式中,可以使用各用户的样本数据训练初始的风险识别模型,不断调整该风险识别模型中的参数,直至得到的风险识别模型的正确率满足预设条件,如正确率大于预设阈值。
在本公开一实施方式中,所述装置还包括:
第三获取模块,被配置为获取待迁移应用中的应用样本数据,所述应用样本数据包括待迁移应用中各历史样本订单对应的短期下单行为序列、长期账户行为序列和静态数据,以及各历史样本订单对应的真实风险结果;
微调模块,被配置为使用所述应用样本数据对所述风险识别模型进行微调fine-tuning,得到供所述待迁移应用使用的风险识别模型。
在本公开一实施方式中,所述风险识别结果包括风险特征向量,所述装置还包括:
分析模块,被配置为基于所述风险特征向量进行风险分析。
在该实施方式中,可以将该风险特征向量与其他特征向量综合在一起进行风险分析,如将该风险特征向量与其他特征向量融合后输入至综合风险识别模型,执行该综合风险识别模型,得到该综合风险识别模型输出的综合风险结果。
在该实施方式中,基于迁移学习的思想,可以将主版预训练好的风险识别模型应用到小程序等待迁移应用中。由于主版渠道的样本数据和待迁移应用中的样本数据总体相似性较高,而使用主版渠道的样本数据训练得到的风险识别模型已经具备了提取浅层特征和深层抽象特征的能力,将主版预训练好的风险识别模型使用待迁移应用的应用样本数据进行fine-tuning(微调),可以得到更适合在该待迁移应用中使用的风险识别模型。
在该实施方式中,使用待迁移应用中的应用样本数据对该风险识别模型进行训练,对该风险识别模型中的参数进行微调,使微调后的风险识别模型能更准确地识别该待迁移应用中的风险。
本公开还公开了一种电子设备,图3示出根据本公开的实施例的电子设备的结构框图。
如图3所示,所述电子设备300包括存储器301和处理器302,其中,存储器301用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器302执行以实现根据本公开的实施例的方法。
图4示出适于用来实现根据本公开实施例的方法的计算机***的结构示意图。
如图4所示,计算机***400包括处理单元401,其可以根据存储在只读存储器(ROM)402中的程序或者从存储部分408加载到随机访问存储器(RAM)403中的程序而执行上述实施例中的各种处理。在RAM 403中,还存储有***400操作所需的各种程序和数据。处理单元401、ROM 402以及RAM 403通过总线404彼此相连。输入/输出(I/O)接口405也连接至总线404。
以下部件连接至I/O接口405:包括键盘、鼠标等的输入部分406;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分407;包括硬盘等的存储部分408;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分409。通信部分409经由诸如因特网的网络执行通信处理。驱动器410也根据需要连接至I/O接口405。可拆卸介质411,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器410上,以便于从其上读出的计算机程序根据需要被安装入存储部分408。其中,所述处理单元401可实现为CPU、GPU、TPU、FPGA、NPU等处理单元。
特别地,根据本公开的实施例,上文描述的方法可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括计算机指令,该计算机指令被处理器执行时实现上文所述的方法步骤。在这样的实施例中,该计算机程序产品可以通过通信部分409从网络上被下载和安装,和/或从可拆卸介质411被安装。
附图中的流程图和框图,图示了按照本公开各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开实施例中所涉及到的单元或模块可以通过软件的方式实现,也可以通过可编程硬件的方式来实现。所描述的单元或模块也可以设置在处理器中,这些单元或模块的名称在某种情况下并不构成对该单元或模块本身的限定。
作为另一方面,本公开还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中电子设备或计算机***中所包含的计算机可读存储介质;也可以是单独存在,未装配入设备中的计算机可读存储介质。计算机可读存储介质存储有一个或者一个以上程序,所述程序被一个或者一个以上的处理器用来执行描述于本公开的方法。
以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离所述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
Claims (13)
1.一种风险识别方法,包括:
获取用户的短期下单行为序列、长期账户行为序列和静态数据,其中,所述短期下单行为序列包括预设的第一历史时间段内与用户下单行为相关的特征;所述长期账户行为序列包括预设的第二历史时间段内与用户账户相关的行为特征;所述静态数据包括与所述用户的当前订单有关的订单特征和所述用户的历史订单统计特征,所述历史时间段的时长大于所述第一历史时间段的时长;
将所述用户的短期下单行为序列、长期账户行为序列和静态数据输入预设的风险识别模型,执行所述风险识别模型,得到所述风险识别模型输出的风险识别结果。
2.根据权利要求1所述的方法,其中,所述将所述用户的短期下单行为序列、长期账户行为序列和静态数据输入预设的风险识别模型,执行所述风险识别模型,得到所述风险识别模型输出的风险识别结果,包括:
将所述用户的短期下单行为序列输入第一子模型,执行所述第一子模型,得到短期序列特征;
将所述长期账户行为序列输入第二子模型,执行所述第二子模型,得到长期序列特征;
将所述静态数据输入至第一多层感知机MLP,执行所述第一MLP,得到静态特征;
将所述短期序列特征、长期序列特征和静态特征输入至第二MLP,执行所述第二MLP,得到所述风险识别结果。
3.根据权利要求2所述的方法,其中,所述第一子模型和所述第二子模型包括以下任意一种模型:设置有注意力机制的长短期记忆LSTM模型、深度自注意力变换网络transformer模型、文本分类卷积神经网络textCNN模型。
4.根据权利要求1所述的方法,其中,所述获取用户的短期下单行为序列、长期账户行为序列,包括:
获取用户的初始短期下单行为序列数据和初始长期账户行为序列数据;
将所述用户的初始短期下单行为序列数据和初始长期账户行为序列数据进行预处理,得到用户的短期下单行为序列、长期账户行为序列。
5.根据权利要求4所述的方法,其中,所述将所述用户的初始短期下单行为序列数据和初始长期账户行为序列数据进行预处理,得到用户的短期下单行为序列、长期账户行为序列,包括:
将所述用户的初始短期下单行为序列数据和初始长期账户行为序列数据进行数字化转换,得到数字化的短期下单行为序列和长期账户行为序列;
将数字化的短期下单行为序列进行序列补全或序列删除操作,得到第一预设长度的短期下单行为序列;
将数字化的用户的长期账户行为序列进行序列补全或序列删除操作,得到第二预设长度的长期账户行为序列。
6.根据权利要求5所述的方法,其中,所述将所述用户的初始短期下单行为序列数据和初始长期账户行为序列数据进行预处理,得到用户的短期下单行为序列、长期账户行为序列,还包括:
对所述第一预设长度的短期下单行为序列和第二预设长度的长期账户行为序列进行嵌入embedding映射,得到映射后的短期下单行为序列和长期账户行为序列。
7.根据权利要求1所述的方法,其中,所述方法还包括:
获取样本数据,所述样本数据包括各历史样本订单对应的短期下单行为序列、长期账户行为序列和静态数据,以及各历史样本订单对应的真实风险结果;
使用所述样本数据训练得到所述风险识别模型。
8.根据权利要求1所述的方法,其中,所述方法还包括:
获取待迁移应用中的应用样本数据,所述应用样本数据包括待迁移应用中各历史样本订单对应的短期下单行为序列、长期账户行为序列和静态数据,以及各历史样本订单对应的真实风险结果;
使用所述应用样本数据对所述风险识别模型进行微调fine-tuning,得到供所述待迁移应用使用的风险识别模型。
9.根据权利要求1所述的方法,其中,所述风险识别结果包括风险特征向量,所述方法还包括:
基于所述风险特征向量进行风险分析。
10.一种风险识别装置,包括:
第一获取模块,被配置为获取用户的短期下单行为序列、长期账户行为序列和静态数据,其中,所述短期下单行为序列包括预设的第一历史时间段内与用户下单行为相关的特征;所述长期账户行为序列包括预设的第二历史时间段内与用户账户相关的行为特征;所述静态数据包括与所述用户的当前订单有关的订单特征和所述用户的历史订单统计特征,所述历史时间段的时长大于所述第一历史时间段的时长;
识别模块,被配置为将所述用户的短期下单行为序列、长期账户行为序列和静态数据输入预设的风险识别模型,执行所述风险识别模型,得到所述风险识别模型输出的风险识别结果。
11.一种电子设备,包括存储器和处理器;其中,所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行以实现权利要求1至9任一项所述的方法步骤。
12.一种可读存储介质,其上存储有计算机指令,该计算机指令被处理器执行时实现权利要求1至9任一项所述的方法步骤。
13.一种计算机程序产品,包括计算机指令,该计算机指令被处理器执行时实现权利要求1至9任一项所述的方法步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210260763.4A CN116823264A (zh) | 2022-03-16 | 2022-03-16 | 风险识别方法、装置、电子设备、介质及程序产品 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210260763.4A CN116823264A (zh) | 2022-03-16 | 2022-03-16 | 风险识别方法、装置、电子设备、介质及程序产品 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116823264A true CN116823264A (zh) | 2023-09-29 |
Family
ID=88120788
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210260763.4A Pending CN116823264A (zh) | 2022-03-16 | 2022-03-16 | 风险识别方法、装置、电子设备、介质及程序产品 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116823264A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20240070690A1 (en) * | 2022-08-23 | 2024-02-29 | Xi'an University Of Architecture And Technology | Method and system for forecasting agricultural product price based on signal decomposition and deep learning |
-
2022
- 2022-03-16 CN CN202210260763.4A patent/CN116823264A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20240070690A1 (en) * | 2022-08-23 | 2024-02-29 | Xi'an University Of Architecture And Technology | Method and system for forecasting agricultural product price based on signal decomposition and deep learning |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110399550B (zh) | 一种信息推荐方法及装置 | |
WO2021174966A1 (zh) | 训练风险识别模型的方法及装置 | |
CN111310814A (zh) | 利用不平衡正负样本对业务预测模型训练的方法及装置 | |
CN112633962B (zh) | 业务推荐方法、装置、计算机设备和存储介质 | |
CN114511576B (zh) | 尺度自适应特征增强深度神经网络的图像分割方法与*** | |
CN111341041B (zh) | 一种支付方式确定方法、装置、***及设备 | |
CN112288572A (zh) | 业务数据处理方法及计算机设备 | |
CN110929806A (zh) | 基于人工智能的图片处理方法、装置及电子设备 | |
CN109903100A (zh) | 一种用户流失预测方法、装置及可读存储介质 | |
CN110276677A (zh) | 基于大数据平台的还款预测方法、装置、设备及存储介质 | |
CN113919497A (zh) | 针对连续学习能力***的基于特征操纵的攻击和防御方法 | |
CN111062774B (zh) | 活动投放方法、装置、电子设备和计算机可读介质 | |
CN115984930A (zh) | 微表情识别方法、装置、微表情识别模型的训练方法 | |
CN109978575A (zh) | 一种挖掘用户流量经营场景的方法及装置 | |
CN116823264A (zh) | 风险识别方法、装置、电子设备、介质及程序产品 | |
CN116205726B (zh) | 一种贷款风险预测方法、装置、电子设备及存储介质 | |
CN109145207B (zh) | 一种基于分类指标预测的信息个性化推荐方法及装置 | |
CN110009159A (zh) | 基于网络大数据的金融借贷需求预测方法及*** | |
CN113807541B (zh) | 决策***的公平性修复方法、***、设备及存储介质 | |
CN112633285B (zh) | 领域适应方法、装置、电子设备及存储介质 | |
CN116226501A (zh) | 信息推送方法、装置、计算机设备及存储介质 | |
CN113505369A (zh) | 一种时空感知的用户风险识别模型训练的方法及装置 | |
CN112507912A (zh) | 一种识别违规图片的方法及装置 | |
CN112116441A (zh) | 金融风险分类模型的训练方法、分类方法、装置及设备 | |
CN112149836B (zh) | 一种机器学习程序更新方法、装置及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |