CN118052594A - 一种欺诈行为识别方法和装置 - Google Patents
一种欺诈行为识别方法和装置 Download PDFInfo
- Publication number
- CN118052594A CN118052594A CN202311669227.0A CN202311669227A CN118052594A CN 118052594 A CN118052594 A CN 118052594A CN 202311669227 A CN202311669227 A CN 202311669227A CN 118052594 A CN118052594 A CN 118052594A
- Authority
- CN
- China
- Prior art keywords
- sample data
- specific
- scene
- user
- specific scene
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 99
- 230000008569 process Effects 0.000 claims abstract description 50
- 238000012545 processing Methods 0.000 claims abstract description 22
- 230000002159 abnormal effect Effects 0.000 claims abstract description 20
- 230000004044 response Effects 0.000 claims abstract description 13
- 230000000694 effects Effects 0.000 claims description 25
- 238000012549 training Methods 0.000 claims description 20
- 238000004590 computer program Methods 0.000 claims description 16
- 238000003860 storage Methods 0.000 claims description 13
- 238000004364 calculation method Methods 0.000 claims description 10
- 238000004458 analytical method Methods 0.000 claims description 9
- 230000003542 behavioural effect Effects 0.000 claims description 7
- 238000005520 cutting process Methods 0.000 claims description 7
- 238000013459 approach Methods 0.000 claims description 6
- 238000001514 detection method Methods 0.000 claims description 5
- 230000006399 behavior Effects 0.000 abstract description 74
- 238000010586 diagram Methods 0.000 description 10
- 238000004891 communication Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 6
- 230000003287 optical effect Effects 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000004140 cleaning Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000011985 exploratory data analysis Methods 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 230000005856 abnormality Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000002955 isolation Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000013450 outlier detection Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000005406 washing Methods 0.000 description 1
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种欺诈行为识别方法和装置,涉及数据安全技术领域。该方法的一具体实施方式包括:采集用户在特定流程下的真实行为数据,按照预先对特定流程配置的流程节点和场景标签的对应关系,对真实行为数据进行拆解,得到用户在每个特定场景下的真实行为数据;调用预先对每个特定场景配置的欺诈行为识别模型,处理用户在每个特定场景下的真实行为数据,得到用户在每个特定场景下的异常得分;获取预先对每个特定场景配置的权重,对异常得分进行加权求和,得到用户在特定流程下的目标异常得分,响应于目标异常得分大于或等于预设分值,确定用户存在欺诈行为。该实施方式人工参与较少,因而能够精准识别存在欺诈行为的用户,减少误判率。
Description
技术领域
本发明涉及数据安全技术领域,尤其涉及一种欺诈行为识别方法和装置。
背景技术
随着互联网技术的高速发展,数字化营销作为企业营销主阵地,对于提高用户对企业的粘性扮演着越来越重要的角色。随着数字化营销产品的增加,吸引了大批的用户,同时大批的黑产混入到用户之中。因此,识别黑产的斯诈行为成为企业营销风控的重要环节。
当前主要通常基于人工经验设计特定的反斯诈规则,以筛选识别出有斯诈行为的用户。但人工经验识别主观性强,在数据量大的情况下存在处理效率低下、投入成本较高的缺点。虽也提供有其他自动化欺诈数据挖掘的尝试,但这些并没有形成完整、固定和规范的流程,因而在数据量大的情况下,误判率较高。另外,目前识别欺诈行为的方法,都是以整个流程作为分析对象,无法细化到流程节点或场景。
发明内容
有鉴于此,本发明实施例提供一种欺诈行为识别方法和装置,至少能够解决现有技术中识别欺诈行为存在的误判率高、效率低下、投入成本高的现象。
为实现上述目的,根据本发明实施例的一个方面,提供了一种欺诈行为识别方法,包括:
采集用户在特定流程下的真实行为数据,按照预先对所述特定流程配置的流程节点和场景标签的对应关系,对所述真实行为数据进行拆解,得到所述用户在每个特定场景下的真实行为数据;
调用预先对每个特定场景配置的欺诈行为识别模型,处理所述用户在每个特定场景下的真实行为数据,得到所述用户在每个特定场景下的异常得分;
获取预先对每个特定场景配置的权重,对所述异常得分进行加权求和,得到所述用户在所述特定流程下的目标异常得分,响应于所述目标异常得分大于或等于预设分值,确定所述用户存在欺诈行为。
可选地,所述方法还包括:
获取多个用户在所述特定流程下打标欺诈行为的样本数据,按照预先为所述特定流程配置的流程节点和场景标签的对应关系,对每个样本数据进行拆解,得到每个特定场景的欺诈行为样本数据集;
使用预设训练方法,处理每个特定场景的欺诈行为样本数据集,以训练得到每个特定场景的欺诈行为识别模型,进而得到与所述特定流程对应的欺诈行为识别模型集。
可选地,所述使用预设训练方法,处理每个特定场景的欺诈行为样本数据集,以训练得到每个特定场景的欺诈行为识别模型,包括:
对于单个特定场景,从单个特定场景的样本数据集中随机多个样本数据,并从多个样本数据中随机选择一个样本数据,将所述一个样本数据作为根节点;
使用随机超平面方式,从所述一个样本数据生成一个超平面,将所述多个样本数据划分为两个子空间;其中,将小于所述一个样本数据的其他样本数据放在根节点的左孩子节点中,大于或等于所述一个样本数据的其他样本数据放在根节点的右孩子节点中;
重复上述随机超平面切割方式,直至每个子空间仅包含一个样本数据为止,生成与所述单个特定场景对应的多棵孤立树,以构建欺诈行为识别模型。
可选地,行为数据包括如下一种或多种:操作时间、操作内容、操作内容编码、用户标识、设备信息和设备标识。
可选地,所述方法还包括:
响应于在所述特定流程下检测到登录账号,将登录账号作为用户标识;以及,对所述用户标识打标存在欺诈行为;
响应于在所述特定流程下未检测到登录账号,通过获取所述特定流程所处浏览器的信息,计算得到浏览器指纹,将所述浏览器指纹存储到设备标识中;以及,对所述浏览器指纹打标存在欺诈行为。
为实现上述目的,根据本发明实施例的另一方面,提供了一种欺诈行为识别装置,包括:
拆解模块,用于采集用户在特定流程下的真实行为数据,按照预先对所述特定流程配置的流程节点和场景标签的对应关系,对所述真实行为数据进行拆解,得到所述用户在每个特定场景下的真实行为数据;
计算模块,用于调用预先对每个特定场景配置的欺诈行为识别模型,处理所述用户在每个特定场景下的真实行为数据,得到所述用户在每个特定场景下的异常得分;
分析模块,用于获取预先对每个特定场景配置的权重,对所述异常得分进行加权求和,得到所述用户在所述特定流程下的目标异常得分,响应于所述目标异常得分大于或等于预设分值,确定所述用户存在欺诈行为。
可选地,所述装置还包括训练模块,用于:
获取多个用户在所述特定流程下打标欺诈行为的样本数据,按照预先为所述特定流程配置的流程节点和场景标签的对应关系,对每个样本数据进行拆解,得到每个特定场景的欺诈行为样本数据集;
使用预设训练装置,处理每个特定场景的欺诈行为样本数据集,以训练得到每个特定场景的欺诈行为识别模型,进而得到与所述特定流程对应的欺诈行为识别模型集。
可选地,所训练模块,用于:
对于单个特定场景,从单个特定场景的样本数据集中随机多个样本数据,并从多个样本数据中随机选择一个样本数据,将所述一个样本数据作为根节点;
使用随机超平面方式,从所述一个样本数据生成一个超平面,将所述多个样本数据划分为两个子空间;其中,将小于所述一个样本数据的其他样本数据放在根节点的左孩子节点中,大于或等于所述一个样本数据的其他样本数据放在根节点的右孩子节点中;
重复上述随机超平面切割方式,直至每个子空间仅包含一个样本数据为止,生成与所述单个特定场景对应的多棵孤立树,以构建欺诈行为识别模型。
可选地,行为数据包括如下一种或多种:操作时间、操作内容、操作内容编码、用户标识、设备信息和设备标识。
可选地,所述装置还包括打标模块,用于:
响应于在所述特定流程下检测到登录账号,将登录账号作为用户标识;以及,对所述用户标识打标存在欺诈行为;
响应于在所述特定流程下未检测到登录账号,通过获取所述特定流程所处浏览器的信息,计算得到浏览器指纹,将所述浏览器指纹存储到设备标识中;以及,对所述浏览器指纹打标存在欺诈行为。
为实现上述目的,根据本发明实施例的再一方面,提供了一种欺诈行为识别电子设备。
本发明实施例的电子设备包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现上述任一所述的欺诈行为识别方法。
为实现上述目的,根据本发明实施例的再一方面,提供了一种计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现上述任一所述的欺诈行为识别方法。
为实现上述目的,根据本发明实施例的又一个方面,提供了一种计算程序产品。本发明实施例的一种计算程序产品,包括计算机程序,所述程序被处理器执行时实现本发明实施例提供的欺诈行为识别方法。
根据本发明所述提供的方案,上述发明中的一个实施例具有如下优点或有益效果:利用数据安全技术,将采集到的用户在特定流程中的真实行为数据,与存在欺诈行为的人群特征库进行比对,以此识别存在欺诈行为的用户,且整个识别过程中将流程拆解为多个场景,通过多个场景的欺诈行为识别模型计算多个异常得分,以此提升计算结果的准确性,实现精准识别。
上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。
附图说明
附图用于更好地理解本发明,不构成对本发明的不当限定。其中:
图1是根据本发明实施例的一种欺诈行为识别方法的主要流程示意图;
图2是根据本发明实施例的一种可选的欺诈行为识别方法的流程示意图;
图3是基于孤立森林方法得到的超平面示意图;
图4是根据本发明实施例的另一种可选的欺诈行为识别方法的流程示意图;
图5是根据本发明实施例的一种欺诈行为识别装置的主要模块示意图;
图6是本发明实施例可以应用于其中的示例性***架构图;
图7是适于用来实现本发明实施例的移动设备或服务器的计算机***的结构示意图。
具体实施方式
以下结合附图对本发明的示范性实施例做出说明,其中包括本发明实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本发明的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
需要指出的是,在不冲突的情况下,本发明中的实施例以及实施例中的特征可以互相组合。本发明的技术方案中,所涉及的用户个人信息的采集、分析、使用、传输、存储等方面,均符合相关法律法规的规定,被用于合法且合理的用途,不在这些合法使用等方面之外共享、泄露或出售,并且接受监管部门的监督管理。应当对用户个人信息采取必要措施,以防止对此类个人信息数据的非法访问,确保有权访问个人信息数据的人员遵守相关法律法规的规定,确保用户个人信息安全。
一旦不再需要这些用户个人信息数据,应当通过限制甚至禁止数据收集和/或删除数据的方式将风险降至最低。当适用时,包括在某些相关应用程序中,通过对数据去标识来保护用户隐私,例如在适用时通过移除特定标识符(例如,出生日期等)、控制所存储数据的量或特异性(例如,在城市级别而不是在具体地址级别收集位置数据)、控制数据如何被存储、和/或其他方法去标识。
参见图1,示出的是本发明实施例提供的一种欺诈行为识别方法的主要流程图,包括如下步骤:
S101:采集用户在特定流程下的真实行为数据,按照预先对所述特定流程配置的流程节点和场景标签的对应关系,对所述真实行为数据进行拆解,得到所述用户在每个特定场景下的真实行为数据;
S102:调用预先对每个特定场景配置的欺诈行为识别模型,处理所述用户在每个特定场景下的真实行为数据,得到所述用户在每个特定场景下的异常得分;
S103:获取预先对每个特定场景配置的权重,对所述异常得分进行加权求和,得到所述用户在所述特定流程下的目标异常得分,响应于所述目标异常得分大于或等于预设分值,确定所述用户存在欺诈行为。
上述实施方式中,对于步骤S101,对于需要识别欺诈行为的特定营销场景,设置埋点规则,并根据埋点规则,获得用户在真实营销活动下的行为数据,将行为数据存储在数据库中。埋点规则用以描述用户需要记录的页面操作行为,通过记录这些用户操作行为信息,分析用户的形为习惯。
例如:规则1:记录用户进入页面;记录进入某个页面的用户ID、采集场景标签ID(DP0001)、操作时间、用户操作内容(进入某个页面)、操作内容ID(IP0001)、设备和设备ID。规则2:记录用户查看规则:记录进入某个页面的用户ID、采集场景标签ID(DP0001)、操作时间、用户操作内容(查看规则)、操作内容ID(IP0002)、设备和设备ID。
一个流程中包括多个流程节点,比如A-B-C-D-E共5个流程节点,预先对每个活动流程中的流程节点设定场景标签,比如上述A和B节点对应场景1,C和D节点对应场景2,E节点对应场景3,因而该活动流程实质对应三个场景标签123。
根据流程节点和场景标签之间的对应关系,对每个真实行为数据进行拆解,得到场景1下有关节点A的真实行为数据、有关节点B的真实行为数据,以及场景2下有关节点C的真实行为数据、有关节点D的真实行为数据,以及场景3下有关节点E的真实行为数据。
对于步骤S102,对每个特定场景下的真实行为数据集进行分析处理,划分不同的场景。预先针对每个场景训练欺诈行为识别模型,将模型按照场景储存在特征库中。对于上述3个特定场景,则得到3个欺诈行为识别模型。
因而需将有关节点A的真实行为数据、有关节点B的真实行为数据,输入场景1的欺诈行为识别模型中,得到一个异常得分S1;将有关节点C的真实行为数据、有关节点D的真实行为数据,输入场景2的欺诈行为识别模型中,得到一个异常得分S2;将有关节点E的真实行为数据,输入场景3的欺诈行为识别模型中,得到一个异常得分S3。
进一步的,在计算异常得分之前,可以优选对对用户真实行为数据进行过滤、清洗,获得标准格式化的数据,并打标特定场景专属的场景标签,如DP0001,便于后续计算使用,提升计算结果准确性。
对于步骤S103,获取预先为每个场景标签配置的权重Wk,对各场景异常得分Sk进行加权求和,得到该用户欺诈行为的得分,计算公式为:其中,UBA(全称User Behavior Analytics),指用户行为分析。需要说明的是,此处是对场景配置的权重,而非流程节点,如场景1,即使包括两个流程节点,但设置一个权重。例如,场景123的权重分别为50%、30%和20%。
所得目标异常得分,即为用户操作该流程的最终得分。获取预先为该流程配置的异常分值阈值,比如1,若大于或等于1,则表示该用户存在欺诈行为。进一步的,可以人工复核该用户是否存在欺诈行为,对于存在欺诈行为的用户,可以打标高风险用户、异常用户、存在欺诈行为等。
上述实施例所提供的方法,将用户参与数字营销活动流程的一系列行为数据按照多个场景进行拆解,计算各个场景下的异常得分,进而计算出用户在整个流程的异常得分,以此识别有欺诈行为的用户,整个过程中人工参与较少,能够减少误判率,实现精准识别。
参见图2,示出了根据本发明实施例的一种可选的欺诈行为识别方法流程示意图,包括如下步骤:
S201:获取多个用户在所述特定流程下打标欺诈行为的样本数据,按照预先为所述特定流程配置的流程节点和场景标签的对应关系,对每个样本数据进行拆解,得到每个特定场景的欺诈行为样本数据集;
S202:使用预设训练方法,处理每个特定场景的欺诈行为样本数据集,以训练得到每个特定场景的欺诈行为识别模型,进而得到与所述特定流程对应的欺诈行为识别模型集;
S203:采集用户在特定流程下的真实行为数据,按照预先对所述特定流程配置的流程节点和场景标签的对应关系,对所述真实行为数据进行拆解,得到所述用户在每个特定场景下的真实行为数据;
S204:调用预先对每个特定场景配置的欺诈行为识别模型,处理所述用户在每个特定场景下的真实行为数据,得到所述用户在每个特定场景下的异常得分;
S205:获取预先对每个特定场景配置的权重,对所述异常得分进行加权求和,得到所述用户在所述特定流程下的目标异常得分,响应于所述目标异常得分大于或等于预设分值,确定所述用户存在欺诈行为。
上述实施方式中,对于步骤S203和S205可参见图1所示描述,在此不再赘述。本实施方式用于描述欺诈行为识别模型的训练。
对于步骤S201,首先采集多个用户参与数字营销活动的一系列行为数据。通常一个活动对应一个流程,一个流程中包括多个流程节点,比如A-B-C-D-E共5个流程节点。用户参与该活动,即可在不同的流程节点下留下一系列的行为数据。将这些行为数据作为样本数据进行采集。
预先对每个活动流程中的流程节点设定场景标签,比如上述A和B节点对应场景1,C和D节点对应场景2,E节点对应场景3,因而该活动流程实质对应三个场景标签123。
根据流程节点和场景标签之间的对应关系,对每个样本数据进行拆解,得到场景1下有关节点A的样本数据、有关节点B的样本数据,以及场景2下有关节点C的样本数据、有关节点D的样本数据,以及场景3下有关节点E的样本数据。
对于步骤S202,通过上述对应关系,将用户参与整个数字营销活动流程的样本数据划分为不同的场景,筛选同一场景下欺诈行为的样本数据,作为训练样本数据。上述这些样本数据,是已被标注欺诈行为的数据,或者其用户标注高风险、异常或欺诈行为的用户。
根据划分的场景训练模型,在此之前,对训练样本数据转化为标准的数据,去除噪音数据,使训练模型更加准确。对样本数据进行过滤、清洗操作,以将样本数据转换为标准格式的数据,便于后续的数据分析处理。对样本数据进行过滤、清洗操作,包括但不限于如下方式:数据EDA(Exploratory Data Analysis,探索性数据分析)、缺失值填充、异常数据检测、特征工程、特征衍生、特征筛选等。
本方案使用孤立森林方法训练欺诈行为识别模型。孤立森林(Isolation Forest)方法,实质为异常数据检测方法,“孤立”指的是“把异常点从所有样本数据中孤立出来”。方法:使用随机超平面对一个数据空间进行切割,生成两个子空间。一直循环下去,直到每个子空间只包含一个数据点为止。异常样本更容易落入决策树上,距离根节点更近。参见图3所示。
具体地:从单个特定场景的样本数据集中随机多个样本数据m,并从多个样本数据中随机选择一个样本数据p,以所述一个样本数据p作为根节点;使用随机超平面方式,从所述一个样本数据p生成一个超平面,将所述多个样本数据m划分为两个子空间;其中,将小于所述一个样本数据的其他样本数据放在根节点的左孩子节点中,大于或等于所述一个样本数据的其他样本数据放在根节点的右孩子节点中。重复上述随机超平面切割方式,直至每个子空间仅包含一个样本数据为止,生成与所述单个特定场景对应的t棵孤立树,以构建欺诈行为识别模型。
对于步骤S204,对于每个场景,通过上述步骤获取t棵孤立树。对于每个真实行为数据,令真实行为数据n中的任一数据x遍历每一棵iTree,得出x在每棵iTree的高度平均值,计算每个真实行为数据的异常得分s(x,n),通过如下公式计算:
其中,h(x)为数据x在树中所处叶子节点到根节点的路径长度PathLength,E(h(x))为数据x在t棵树的PathLength的均值,c(n)为n个样本构建一个二叉搜索树中的平均路径长度,E(h(x))/c(n)是对数据x的路径长度h(x)进行标准化处理。H(n-1)是调和数,可使用ln(n-1)+欧拉常数,取值为0.5772156649。
s(x,n)值域为(0,1),当PathLength越小,s(x,n)越接近1,表示异常点的可能性越高,此数据为异常值的概率越大。当s(x,n)越接近0,表示正常点的概率越高。
上述实施例提供的方法,通过使用孤立森林训练得到每个特定场景下的欺诈行为识别模型,后续在用户使用流程时,即可使用该流程涉及的所有场景下的欺诈行为识别模型,识别用户在每个场景下的异常得分,相对现有技术,分析粒度更为细化,以此提升识别异常的准确性。
参见图4,示出了根据本发明实施例的另一种可选的欺诈行为识别方法流程示意图,包括如下步骤:
S401:采集用户在特定流程下的真实行为数据;其中,行为数据包括如下一种或多种:操作时间、操作内容、操作内容编码、用户标识、设备信息和设备标识;
S402:按照预先对所述特定流程配置的流程节点和场景标签的对应关系,对所述真实行为数据进行拆解,得到所述用户在每个特定场景下的真实行为数据;
S402:调用预先对每个特定场景配置的欺诈行为识别模型,处理所述用户在每个特定场景下的真实行为数据,得到所述用户在每个特定场景下的异常得分;
S403:获取预先对每个特定场景配置的权重,对所述异常得分进行加权求和,得到所述用户在所述特定流程下的目标异常得分,响应于所述目标异常得分大于或等于预设分值,确定所述用户存在欺诈行为。
上述实施方式中,对于步骤S401~S403,一个用户参与一个活动,会在不同的流程节点下留下一系列的行为数据,在页面上将这些用户行为数据记录下来,通过分析用户在页面上的操作行为,识别出欺诈行为。
用户在数字营销活动界面中的行为数据,可以记录在数据库中。行为数据包括:用户ID、场景标签ID、操作时间、操作内容、操作内容ID、设备和设备ID。其中:
1)场景标签ID,指的是用户参与数字营销活动的一系列场景,例如:报名参与活动(AP0001)->在营销活动进行抽奖(AP0002)->领取奖励(AP0003)等一***场景,场景标签ID是对这些场景进行人为编号,以便计算机语言容易区分。在处理数据时,筛选出AP0001比筛选报名参与活动更简单高效,因而优选采集场景标签ID这一因子。
2)操作内容指的是用户进入场景后操作的内容,例如:点击抽奖(DP0001),查看营销活动规则(DP0002),这里的操作ID同场景标签ID。
3)设备指的是用户操作的设备信息,包括但不限于手机型号、平板信息、pc信息,可以通过Matomo一些开源库获取。设备ID可以是设备的MAC(Media Access Control或者Medium Access Control,媒体访问控制)地址,非登录态是浏览器指纹,能够确认用户唯一性的标识。
操作内容和操作ID,记录用户在H5页面或者在App上的一些操作内容。将几个操作内容归类为一个场景。例如一个报名场景包括:1、输入用户信息(IP0001);2、查看个人隐私政策(IP0002);3、同意采集用户信息(IP0003)。将用户个人在营销活动的行为操作习惯记录下来,分析操作形为,识别这些行为是否属于欺诈形为。如果一个用户没有经过以上信息采集过程就报名成功,则认为是通过计算机手段直接调用交易报名成功,属于欺诈形为,因为缺少了用户的一些必要操作数据。例如,一台设备给多个用户登录参与营销活动,也属于欺诈形为,这是典型的薅羊毛。
一般情况下用户参与营销活动(即特定流程)会有登录状态和非登录状态,在登录的状态记录用户ID。为在非登录状态准确识别出用户的身份,本方案引入了浏览器指纹的技术,浏览器指纹如同人的指纹一样,能够精确的识别用户身份。非登录的状态下通过获取浏览器信息,并计算出浏览器指纹,记录在设备ID中。
其中,浏览器指纹(Browser fingerprint)是指通过收集和分析浏览器的特征信息来识别和跟踪用户的一种技术。浏览器指纹可以包括用户的操作***、浏览器类型和版本、屏幕分辨率、安装的字体、插件和扩展等信息。通过这些特征的组合,可以创建一个唯一的标识符,用于识别和追踪用户的在线活动。
因而在登录状态下通过用户ID识别用户,在非登录状态下通过设备ID下的浏览器指纹识别用户。在识别出用户存在欺诈行为的情况下,可以对用户ID、浏览器指纹进行打标,比如打标存在欺诈行为、异常、高风险等。后续使用该设备中该浏览器操作特定流程时,可直接根据打标结果进行拦截。
上述实施例所提供的方法,在识别出用户存在欺诈行为时,可以对能够反映用户身份的用户ID、浏览器指纹进行打标,便于后续根据打标信息自动拦截这些异常用户操作特定流程的操作行为,提升安全性。
本发明实施例所提供的方法,通过采集不同用户在营销活动流程中已打标欺诈行为的数据,将流程分成多个场景,基于孤立森林算法训练得到每个场景下的欺诈行为识别模型。在收到用户真实行为数据时,基于这些场景以及模型,计算各个场景下的异常得分,将各个场景的异常得分乘以权重,计算出用户在整个营销活动流程的异常得分,与预设分值比较,以此来识别存在欺诈行为的用户。整个方案通过将流程拆解为多个场景,实现多场景结合,每个模型仅考虑部分流程节点,粒度更为细化,使得分析异常更为准确,整个过程人工参与较少,减少主观性。两者结合提高整体异常得分的计算准确性,减少误判率。
参见图5,示出了本发明实施例提供的一种欺诈行为识别装置500的主要模块示意图,包括:
拆解模块501,用于采集用户在特定流程下的真实行为数据,按照预先对所述特定流程配置的流程节点和场景标签的对应关系,对所述真实行为数据进行拆解,得到所述用户在每个特定场景下的真实行为数据;
计算模块502,用于调用预先对每个特定场景配置的欺诈行为识别模型,处理所述用户在每个特定场景下的真实行为数据,得到所述用户在每个特定场景下的异常得分;
分析模块503,用于获取预先对每个特定场景配置的权重,对所述异常得分进行加权求和,得到所述用户在所述特定流程下的目标异常得分,响应于所述目标异常得分大于或等于预设分值,确定所述用户存在欺诈行为。
本发明实施装置还包括训练模块,用于:
获取多个用户在所述特定流程下打标欺诈行为的样本数据,按照预先为所述特定流程配置的流程节点和场景标签的对应关系,对每个样本数据进行拆解,得到每个特定场景的欺诈行为样本数据集;
使用预设训练装置,处理每个特定场景的欺诈行为样本数据集,以训练得到每个特定场景的欺诈行为识别模型,进而得到与所述特定流程对应的欺诈行为识别模型集。
本发明实施装置中,所训练模块,用于:
对于单个特定场景,从单个特定场景的样本数据集中随机多个样本数据,并从多个样本数据中随机选择一个样本数据,将所述一个样本数据作为根节点;
使用随机超平面方式,从所述一个样本数据生成一个超平面,将所述多个样本数据划分为两个子空间;其中,将小于所述一个样本数据的其他样本数据放在根节点的左孩子节点中,大于或等于所述一个样本数据的其他样本数据放在根节点的右孩子节点中;
重复上述随机超平面切割方式,直至每个子空间仅包含一个样本数据为止,生成与所述单个特定场景对应的多棵孤立树,以构建欺诈行为识别模型。
本发明实施装置中,行为数据包括如下一种或多种:操作时间、操作内容、操作内容编码、用户标识、设备信息和设备标识。
本发明实施装置还包括打标模块,用于:
响应于在所述特定流程下检测到登录账号,将登录账号作为用户标识;以及,对所述用户标识打标存在欺诈行为;
响应于在所述特定流程下未检测到登录账号,通过获取所述特定流程所处浏览器的信息,计算得到浏览器指纹,将所述浏览器指纹存储到设备标识中;以及,对所述浏览器指纹打标存在欺诈行为。
另外,在本发明实施例中所述装置的具体实施内容,在上面所述方法中已经详细说明了,故在此重复内容不再说明。
图6示出了可以应用本发明实施例的示例性***架构600,包括终端设备601、602、603,网络604和服务器605(仅仅是示例)。
终端设备601、602、603可以是具有显示屏并且支持网页浏览的各种电子设备,安装有各种通讯客户端应用,用户可以使用终端设备601、602、603通过网络604与服务器605交互,以接收或发送消息等。
网络604用以在终端设备601、602、603和服务器605之间提供通信链路的介质。网络604可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
服务器605可以是提供各种服务的服务器,需要说明的是,本发明实施例所提供的方法一般由服务器605执行,相应地,装置一般设置于服务器605中。
应该理解,图6中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
下面参考图7,其示出了适于用来实现本发明实施例的终端设备的计算机***700的结构示意图。图7示出的终端设备仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图7所示,计算机***700包括中央处理单元(CPU)701,其可以根据存储在只读存储器(ROM)702中的程序或者从存储部分708加载到随机访问存储器(RAM)703中的程序而执行各种适当的动作和处理。在RAM 703中,还存储有***700操作所需的各种程序和数据。CPU 701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。
以下部件连接至I/O接口705:包括键盘、鼠标等的输入部分706;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分707;包括硬盘等的存储部分708;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分709。通信部分709经由诸如因特网的网络执行通信处理。驱动器710也根据需要连接至I/O接口705。可拆卸介质711,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器710上,以便于从其上读出的计算机程序根据需要被安装入存储部分708。
特别地,根据本发明公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分709从网络上被下载和安装,和/或从可拆卸介质711被安装。在该计算机程序被中央处理单元(CPU)701执行时,执行本发明的***中限定的上述功能。
需要说明的是,本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行***、装置或者器件使用或者与其结合使用。而在本发明中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本发明各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本发明实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中,例如,可以描述为:一种处理器包括拆解模块、计算模块、分析模块。其中,这些模块的名称在某种情况下并不构成对该模块本身的限定,例如,分析模块还可以被描述为“判断模块”。
作为另一方面,本发明还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的设备中所包含的;也可以是单独存在,而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该设备执行上述任一所述的欺诈行为识别方法。
本发明的计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现本发明实施例中的欺诈行为识别方法。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,取决于设计要求和其他因素,可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。
Claims (12)
1.一种欺诈行为识别方法,其特征在于,包括:
采集用户在特定流程下的真实行为数据,按照预先对所述特定流程配置的流程节点和场景标签的对应关系,对所述真实行为数据进行拆解,得到所述用户在每个特定场景下的真实行为数据;
调用预先对每个特定场景配置的欺诈行为识别模型,处理所述用户在每个特定场景下的真实行为数据,得到所述用户在每个特定场景下的异常得分;
获取预先对每个特定场景配置的权重,对所述异常得分进行加权求和,得到所述用户在所述特定流程下的目标异常得分,响应于所述目标异常得分大于或等于预设分值,确定所述用户存在欺诈行为。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取多个用户在所述特定流程下打标欺诈行为的样本数据,按照预先为所述特定流程配置的流程节点和场景标签的对应关系,对每个样本数据进行拆解,得到每个特定场景的欺诈行为样本数据集;
使用预设训练方法,处理每个特定场景的欺诈行为样本数据集,以训练得到每个特定场景的欺诈行为识别模型,进而得到与所述特定流程对应的欺诈行为识别模型集。
3.根据权利要求2所述的方法,其特征在于,所述使用预设训练方法,处理每个特定场景的欺诈行为样本数据集,以训练得到每个特定场景的欺诈行为识别模型,包括:
对于单个特定场景,从单个特定场景的样本数据集中随机多个样本数据,并从多个样本数据中随机选择一个样本数据,将所述一个样本数据作为根节点;
使用随机超平面方式,从所述一个样本数据生成一个超平面,将所述多个样本数据划分为两个子空间;其中,将小于所述一个样本数据的其他样本数据放在根节点的左孩子节点中,大于或等于所述一个样本数据的其他样本数据放在根节点的右孩子节点中;
重复上述随机超平面切割方式,直至每个子空间仅包含一个样本数据为止,生成与所述单个特定场景对应的多棵孤立树,以构建欺诈行为识别模型。
4.根据权利要求1-3中任一项所述的方法,其特征在于,行为数据包括如下一种或多种:操作时间、操作内容、操作内容编码、用户标识、设备信息和设备标识。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
响应于在所述特定流程下检测到登录账号,将登录账号作为用户标识;以及,对所述用户标识打标存在欺诈行为;
响应于在所述特定流程下未检测到登录账号,通过获取所述特定流程所处浏览器的信息,计算得到浏览器指纹,将所述浏览器指纹存储到设备标识中;以及,对所述浏览器指纹打标存在欺诈行为。
6.一种欺诈行为识别装置,其特征在于,包括:
拆解模块,用于采集用户在特定流程下的真实行为数据,按照预先对所述特定流程配置的流程节点和场景标签的对应关系,对所述真实行为数据进行拆解,得到所述用户在每个特定场景下的真实行为数据;
计算模块,用于调用预先对每个特定场景配置的欺诈行为识别模型,处理所述用户在每个特定场景下的真实行为数据,得到所述用户在每个特定场景下的异常得分;
分析模块,用于获取预先对每个特定场景配置的权重,对所述异常得分进行加权求和,得到所述用户在所述特定流程下的目标异常得分,响应于所述目标异常得分大于或等于预设分值,确定所述用户存在欺诈行为。
7.根据权利要求6所述的装置,其特征在于,所述装置还包括训练模块,用于:
获取多个用户在所述特定流程下打标欺诈行为的样本数据,按照预先为所述特定流程配置的流程节点和场景标签的对应关系,对每个样本数据进行拆解,得到每个特定场景的欺诈行为样本数据集;
使用预设训练装置,处理每个特定场景的欺诈行为样本数据集,以训练得到每个特定场景的欺诈行为识别模型,进而得到与所述特定流程对应的欺诈行为识别模型集。
8.根据权利要求7所述的装置,其特征在于,所训练模块,用于:
对于单个特定场景,从单个特定场景的样本数据集中随机多个样本数据,并从多个样本数据中随机选择一个样本数据,将所述一个样本数据作为根节点;
使用随机超平面方式,从所述一个样本数据生成一个超平面,将所述多个样本数据划分为两个子空间;其中,将小于所述一个样本数据的其他样本数据放在根节点的左孩子节点中,大于或等于所述一个样本数据的其他样本数据放在根节点的右孩子节点中;
重复上述随机超平面切割方式,直至每个子空间仅包含一个样本数据为止,生成与所述单个特定场景对应的多棵孤立树,以构建欺诈行为识别模型。
9.根据权利要求6-8中任一项所述的装置,其特征在于,行为数据包括如下一种或多种:操作时间、操作内容、操作内容编码、用户标识、设备信息和设备标识。
10.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-5中任一所述的方法。
11.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-5中任一所述的方法。
12.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-5中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311669227.0A CN118052594A (zh) | 2023-12-07 | 2023-12-07 | 一种欺诈行为识别方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311669227.0A CN118052594A (zh) | 2023-12-07 | 2023-12-07 | 一种欺诈行为识别方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN118052594A true CN118052594A (zh) | 2024-05-17 |
Family
ID=91045588
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311669227.0A Pending CN118052594A (zh) | 2023-12-07 | 2023-12-07 | 一种欺诈行为识别方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN118052594A (zh) |
-
2023
- 2023-12-07 CN CN202311669227.0A patent/CN118052594A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110399550B (zh) | 一种信息推荐方法及装置 | |
CN109347801B (zh) | 一种基于多源词嵌入和知识图谱的漏洞利用风险评估方法 | |
US20180046475A1 (en) | Detecting scripted or otherwise anomalous interactions with social media platform | |
CN110442712B (zh) | 风险的确定方法、装置、服务器和文本审理*** | |
TWI807172B (zh) | 基於智慧互動的主動風控方法和系統 | |
CN111371767A (zh) | 恶意账号识别方法、恶意账号识别装置、介质及电子设备 | |
CN111754241A (zh) | 一种用户行为感知方法、装置、设备及介质 | |
CN114338064B (zh) | 识别网络流量类型的方法、装置、***、设备和存储介质 | |
CN111612085B (zh) | 一种对等组中异常点的检测方法及装置 | |
US20230034866A1 (en) | Machined Learned Inference of Protocols from Banner Data | |
CN112370793A (zh) | 用户账号的风险控制方法及装置 | |
CN114422211A (zh) | 基于图注意力网络的http恶意流量检测方法及装置 | |
US10560473B2 (en) | Method of network monitoring and device | |
CN112307464A (zh) | 诈骗识别方法、装置及电子设备 | |
CN111783073A (zh) | 黑产识别方法、装置及可读存储介质 | |
CN108804501B (zh) | 一种检测有效信息的方法及装置 | |
CN114422271A (zh) | 数据处理方法、装置、设备及可读存储介质 | |
CN112437034A (zh) | 虚假终端检测方法和装置、存储介质及电子装置 | |
CN111245815B (zh) | 数据处理方法、装置、存储介质及电子设备 | |
CN116738369A (zh) | 一种流量数据的分类方法、装置、设备及存储介质 | |
CN113746790A (zh) | 一种异常流量管理方法、电子设备及存储介质 | |
CN113052509B (zh) | 模型评估方法、模型评估装置、电子设备和存储介质 | |
CN118052594A (zh) | 一种欺诈行为识别方法和装置 | |
US11489877B2 (en) | Cybersecurity maturity determination | |
CN114422168A (zh) | 一种恶意机器流量识别方法及*** |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |