CN113553369A - 可视化用户分类方法、服务方法、***、装置及存储介质 - Google Patents

可视化用户分类方法、服务方法、***、装置及存储介质 Download PDF

Info

Publication number
CN113553369A
CN113553369A CN202010339657.6A CN202010339657A CN113553369A CN 113553369 A CN113553369 A CN 113553369A CN 202010339657 A CN202010339657 A CN 202010339657A CN 113553369 A CN113553369 A CN 113553369A
Authority
CN
China
Prior art keywords
user
behavior
distribution
visual
user behavior
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010339657.6A
Other languages
English (en)
Other versions
CN113553369B (zh
Inventor
孙娇
李茵
陈天佳
李智慧
刘昕
黄铃
时磊
徐葳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN202010339657.6A priority Critical patent/CN113553369B/zh
Publication of CN113553369A publication Critical patent/CN113553369A/zh
Application granted granted Critical
Publication of CN113553369B publication Critical patent/CN113553369B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/26Visual data mining; Browsing structured data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请的可视化用户分类方法、服务方法、***、装置及存储介质,获取根据输入信息、及用户群体的用户群体数据得到的可视化数据;其中,输入信息用于设定处理用户群体数据的欺诈检测算法、算法参数、及至少一种用户行为特征集;其中,可视化数据用于显示包括:反映用户群体基于在至少一种用户行为特征集中一或多个用户行为特征上的行为相似度所形成的分布视图;用户间的行为相似度的高低负相关于它们在分布视图中的映射间距的大小,以进行可视化输出。本申请的方案可以实现根据不同用户行为的行为相似度而直观且准确地展现出用户在不同行为上的同步,有助于快速准确地进行欺诈行为的分析或评估欺诈检测的质量。

Description

可视化用户分类方法、服务方法、***、装置及存储介质
技术领域
本申请涉及图形显示技术领域,特别是涉及可视化用户分类方法、服务方法、***、装置及存储介质。
背景技术
如今,许多在线服务充斥着欺诈行为,例如论坛和视频网站上的虚假帐户以及社交网络上的机器人。欺诈行为会进行恶意活动,从而损害在线服务的商业价值。
相应的,就需要在线欺诈检测技术来检测出在线服务中的欺诈问题。历年来,研究人员提出了许多基于欺诈行为的欺诈检测算法,尤其是无监督学习方法,而欺诈行为的检测依据是来自于用户在线行为的日志记录。但是,设计和评估这些算法具有挑战性:1)日志记录包含许多描述用户行为的维度,很难选择与欺诈行为最相关的维度;2)用户数据和算法的选择在很大程度上取决于领域和场景;3)用于训练或评估的欺诈标签很少或没有,只有在很长一段时间后用户受到欺诈损害时,才能确认欺诈行为。
排除误报对于成功进行欺诈检测过程都是至关重要的。排除误报往往需要分析人员的参与,因此可视化是任何成功的欺诈检测***必不可少的组成部分。
然而,由于存在各种角度对于欺诈行为欺诈分析的需求,例如是否存在欺诈群体,欺诈群体的分布如何,欺诈群体中的个体间的关系特点等等,欺诈检测过程的可视化结果需要能反映出其中至少部分的特点。
此外,在其它的一些需求中,欺诈检测过程的可视化内容也需要能反映出欺诈检测的效果、是否存在误报的线索等,这也提出了更高的要求。
因此,如何提供一种用于欺诈检测结果的可视化方案,从而提升欺诈检测的准确度,已成为业界亟待解决的技术问题。
发明内容
鉴于以上所述现有技术的缺点,本申请的目的在于提供可视化用户分类方法、服务方法、***、装置及存储介质,克服现有技术的各种缺失。
为实现上述目的及其他相关目的,本申请的第一方面提供一种可视化用户分类方法,包括:获取输入信息;获取根据输入信息、及用户群体的用户群体数据得到的可视化数据;其中,所述输入信息用于设定用于处理所述用户群体数据以确定疑似欺诈用户的欺诈检测算法、算法参数、及至少一种用户行为特征集;其中,所述可视化数据用于显示包括:反映所述用户群体基于在至少一种用户行为特征集中一或多个用户行为特征上的行为相似度所形成的分布视图;其中,用户间的行为相似度的高低负相关于它们在分布视图中的映射间距的大小;根据所述可视化数据进行可视化输出。
在本申请第一方面的某些实施例中,所述分布视图包括以下中的任意一种或多种:1)反映所述用户群体基于在用户行为特征集上的行为相似度所映射而成的第一用户分布视图2) 反映所述用户群体中的疑似欺诈用户基于在所述用户行为特征集中的至少部分用户行为特征上的相似度所映射而成的第二用户分布视图;3)反映各个所述疑似欺诈用户在所述用户行为特征集中的至少一个用户行为特征上的行为相似度而进行分组所映射而成的第三用户分布视图,其中各个疑似欺诈用户组间区别显示;4)反映一所述疑似欺诈用户组中的各成员基于在所述用户行为特征集的原始取值上的行为相似度所映射而成的第四用户分布视图。
在本申请第一方面的某些实施例中,所述行为相似度是基于用户行为特征集中的多个用户行为特征的行为相似度的加权结果来度量的。
在本申请第一方面的某些实施例中,每两个用户在每一个用户行为特征上的行为相似度相关于:基于该用户群体数据统计得到的该用户行为特征为各种取值的第一概率分布、同该两个用户在该用户行为特征上出现一个取值碰撞时的第二概率分布之间的相对熵;或者;相关于在多个所述取值碰撞时对应的多个相对熵的相对熵和;其中,所述相对熵或相对熵和越大表示该两个用户间的行为相似度越低。
在本申请第一方面的某些实施例中,所述映射间距为碰撞距离的映射结果;所述碰撞距离的大小负相关于所述行为相似度的高低。
在本申请第一方面的某些实施例中,所述碰撞距离为负相关于行为相似度进行尺度放大得到的。
在本申请第一方面的某些实施例中,所述第二分布视图中疑似欺诈用户具有相同的显示特征。
在本申请第一方面的某些实施例中,所述第三分布视图中通过不同的显示特征区别表示不同的疑似欺诈用户组。
在本申请第一方面的某些实施例中,所述显示特征包括:尺寸、颜色、纹路、灰度、亮度、及编号中的一种或多种组合。
在本申请第一方面的某些实施例中,每个疑似欺诈用户组所对应的显示特征是根据其成员中占主导数量的部分的显示特征所确定的。
在本申请第一方面的某些实施例中,所述第二分布视图和第三分布视图分别呈现于能相互切换显示的图形页面;和/或,对应不同第三用户行为特征集所形成的各第三分布视图分别呈现于能相互切换显示的各个图形页面。
在本申请第一方面的某些实施例中,所述可视化数据是根据所述用户群体数据经降维处理而成的低维数据所得到的。
在本申请第一方面的某些实施例中,所述第一分布视图、第二分布视图、及第三分布视图中至少一种的用户分布依循于估计分布;所述估计分布是依据所述行为相似度得到的原用户分布进行核密度估计得到的。
在本申请第一方面的某些实施例中,每个用户行为特征对应具有重要度,所述用户行为特征集和/或被选子集是依据重要度所获取的。
在本申请第一方面的某些实施例中,每个用户行为特征的重要度由:该用户行为特征在各所述疑似欺诈用户组中的平均信息熵、和/或所述用户群体在该用户行为特征的取值分布相对于各个疑似欺诈用户组在该用户行为特征的取值分布的各个相对熵的平均相对熵来表示;其中,所述平均信息熵越低或平均相对熵越高则重要度越高。
在本申请第一方面的某些实施例中,所述可视化输出用于作为对所述欺诈检测算法、算法参数及至少一种用户行为特征集中一种或多种进行调整的参考依据。
在本申请第一方面的某些实施例中,所述可视化输出用于作为对欺诈检测算法、算法参数及至少一种用户行为特征集中一种或多种进行调整的参考依据,包括以下中的任意一种或多种组合:1)以所述第二分布视图同第一分布视图间的差异作为参考依据,用于指示根据重要度调整用户行为特征集中的用户行为特征;2)以第三分布视图中由不同显示特征所表示的不同疑似欺诈用户组而引起的整体混杂情形为参考依据,用于指示是否减少用户行为特征集中重要度较低的用户行为特征、或减少重要度较低的用户行为特征所对应在该算法参数中的权重值;3)以第三分布视图中由不同显示特征所表示的不同疑似欺诈用户组的数量为参考依据,用于指示是否在用户行为特征集增加重要度较高的用户行为特征;4)以第三分布视图的至少一个局部区域中由不同显示特征所表示的不同疑似欺诈用户组间的混杂情形为参考依据,用于指示是否调整用于筛选所显示的疑似欺诈用户组的成员阈值条件、或用于根据疑似欺诈用户间关系强度划分疑似欺诈用户组边缘的边缘阈值条件;5)以第四分布视图所展示的用户分布密集情况作为对该疑似欺诈用户组的质量评价依据,用于指示是否调整所述用户特征集中的用户行为特征。
在本申请第一方面的某些实施例中,所述的可视化用户分类方法,包括:在所述第四分布视图中区别显示不属于该疑似欺诈用户组且分布集中的各疑似欺诈用户,以供分析。
在本申请第一方面的某些实施例中,所述用户行为特征集包含多种分类的用户行为特征。
在本申请第一方面的某些实施例中,所述用户群体中的疑似欺诈用户是通过所述欺诈检测算法以根据所述至少部分用户行为特征进行欺诈检测得到的。
在本申请第一方面的某些实施例中,所述用户群体数据关于电商网站,所述用户行为特征的分类包括:与时间相关、与IP地址相关、及与电话号码相关中的一种或多种。
在本申请第一方面的某些实施例中,所述用户群体数据关于社交网站,所述用户行为特征的分类包括:与时间相关、与IP地址相关、与源用户相关、与目标用户相关、及与事件相关中的一种或多种。
为实现上述目的及其他相关目的,本申请的第二方面提供一种可视化用户分类***,其特征在于,包括:输入模块,用于获取输入信息;处理模块,用于获取根据输入信息、及用户群体的用户群体数据得到的可视化数据;其中,所述输入信息用于设定用于处理所述用户群体数据以确定疑似欺诈用户的欺诈检测算法、算法参数、及至少一种用户行为特征集;其中,所述可视化数据用于显示包括:反映所述用户群体基于在至少一种用户行为特征集中一或多个用户行为特征上的行为相似度所形成的分布视图;其中,用户间的行为相似度的高低负相关于它们在分布视图中的映射间距的大小;输出模块,用于根据所述可视化数据进行可视化输出。
在本申请第二方面的某些实施例中,所述分布视图包括以下中的任意一种或多种:1)反映所述用户群体基于在用户行为特征集上的行为相似度所映射而成的第一用户分布视图2) 反映所述用户群体中的疑似欺诈用户基于在所述用户行为特征集中的至少部分用户行为特征上的相似度所映射而成的第二用户分布视图;3)反映各个所述疑似欺诈用户在所述用户行为特征集中的至少一个用户行为特征上的行为相似度而进行分组所映射而成的第三用户分布视图,其中各个疑似欺诈用户组间区别显示;4)反映一所述疑似欺诈用户组中的各成员基于在所述用户行为特征集的原始取值上的行为相似度所映射而成的第四用户分布视图。
在本申请第二方面的某些实施例中,所述行为相似度是基于用户行为特征集中的多个用户行为特征的行为相似度的加权结果来度量的。
在本申请第二方面的某些实施例中,每两个用户在每一个用户行为特征上的行为相似度相关于:基于该用户群体数据统计得到的该用户行为特征为各种取值的第一概率分布、同该两个用户在该用户行为特征上出现一个取值碰撞时的第二概率分布之间的相对熵;或者;相关于在多个所述取值碰撞时对应的多个相对熵的相对熵和;其中,所述相对熵或相对熵和越大表示该两个用户间的行为相似度越低。
在本申请第二方面的某些实施例中,所述映射间距为碰撞距离的映射结果;所述碰撞距离的大小负相关于所述行为相似度的高低。
在本申请第二方面的某些实施例中,所述碰撞距离为负相关于行为相似度进行尺度放大得到的。
在本申请第二方面的某些实施例中,所述第二分布视图中疑似欺诈用户具有相同的显示特征。
在本申请第二方面的某些实施例中,所述第三分布视图中通过不同的显示特征区别表示不同的疑似欺诈用户组。
在本申请第二方面的某些实施例中,所述显示特征包括:尺寸、颜色、纹路、灰度、亮度、及编号中的一种或多种组合。
在本申请第二方面的某些实施例中,每个疑似欺诈用户组所对应的显示特征是根据其成员中占主导数量的部分的显示特征所确定的。
在本申请第二方面的某些实施例中,所述第二分布视图和第三分布视图分别呈现于能相互切换显示的图形页面;和/或,对应不同第三用户行为特征集所形成的各第三分布视图分别呈现于能相互切换显示的各个图形页面。
在本申请第二方面的某些实施例中,所述可视化数据是根据所述用户群体数据经降维处理而成的低维数据所得到的。
在本申请第二方面的某些实施例中,所述第一分布视图、第二分布视图、及第三分布视图中至少一种的用户分布依循于估计分布;所述估计分布是依据所述行为相似度得到的原用户分布进行核密度估计得到的。
在本申请第二方面的某些实施例中,每个用户行为特征对应具有重要度,所述用户行为特征集和/或被选子集是依据重要度所获取的。
在本申请第二方面的某些实施例中,每个用户行为特征的重要度由:该用户行为特征在各所述疑似欺诈用户组中的平均信息熵、和/或所述用户群体在该用户行为特征的取值分布相对于各个疑似欺诈用户组在该用户行为特征的取值分布的各个相对熵的平均相对熵来表示;其中,所述平均信息熵越低或平均相对熵越高则重要度越高。
在本申请第二方面的某些实施例中,所述可视化输出用于作为对所述欺诈检测算法、算法参数及至少一种用户行为特征集中一种或多种进行调整的参考依据。
在本申请第二方面的某些实施例中,所述可视化输出用于作为对欺诈检测算法、算法参数及至少一种用户行为特征集中一种或多种进行调整的参考依据,包括以下中的任意一种或多种组合:1)以所述第二分布视图同第一分布视图间的差异作为参考依据,用于指示根据重要度调整用户行为特征集中的用户行为特征;2)以第三分布视图中由不同显示特征所表示的不同疑似欺诈用户组而引起的整体混杂情形为参考依据,用于指示是否减少用户行为特征集中重要度较低的用户行为特征、或减少重要度较低的用户行为特征所对应在该算法参数中的权重值;3)以第三分布视图中由不同显示特征所表示的不同疑似欺诈用户组的数量为参考依据,用于指示是否在用户行为特征集增加重要度较高的用户行为特征;4)以第三分布视图的至少一个局部区域中由不同显示特征所表示的不同疑似欺诈用户组间的混杂情形为参考依据,用于指示是否调整用于筛选所显示的疑似欺诈用户组的成员阈值条件、或用于根据疑似欺诈用户间关系强度划分疑似欺诈用户组边缘的边缘阈值条件;5)以第四分布视图所展示的用户分布密集情况作为对该疑似欺诈用户组的质量评价依据,用于指示是否调整所述用户特征集中的用户行为特征。
在本申请第二方面的某些实施例中,所述的可视化用户分类方法,包括:在所述第四分布视图中区别显示不属于该疑似欺诈用户组且分布集中的各疑似欺诈用户,以供分析。
在本申请第二方面的某些实施例中,所述用户行为特征集包含多种分类的用户行为特征。
在本申请第二方面的某些实施例中,所述用户群体数据关于电商网站,所述用户行为特征的分类包括:与时间相关、与IP地址相关、及与电话号码相关中的一种或多种。
在本申请第二方面的某些实施例中,所述用户群体数据关于社交网站,所述用户行为特征的分类包括:与时间相关、与IP地址相关、与源用户相关、与目标用户相关、及与事件相关中的一种或多种。
为实现上述目的及其他相关目的,本申请的第三方面提供一种可视化数据服务方法,包括:获取根据输入信息所确定的欺诈检测算法、算法参数、及至少一种用户行为特征集;根据欺诈检测算法、算法参数、及至少一种用户行为特征集处理用户群体的用户群体数据,以生成用户分类结果或可视化数据;其中,所述可视化数据用于显示包括:反映所述用户群体基于在至少一种用户行为特征集中一或多个用户行为特征上的行为相似度所形成的分布视图;其中,用户间的行为相似度的高低负相关于它们在分布视图中的映射间距的大小;输出所述用户分类结果或视化数据;其中,所输出的所述用户分类结果用于供外部生成所述可视化数据。
为实现上述目的及其他相关目的,本申请的第四方面提供一种可视化数据服务***,包括:设置模块,用于获取根据输入信息所确定的欺诈检测算法、算法参数、及至少一种用户行为特征集;数据处理模块,用于根据欺诈检测算法、算法参数、及至少一种用户行为特征集处理用户群体的用户群体数据,以生成用户分类结果或可视化数据;其中,所述可视化数据用于显示包括:反映所述用户群体基于在至少一种用户行为特征集中一或多个用户行为特征上的行为相似度所形成的分布视图;其中,用户间的行为相似度的高低负相关于它们在分布视图中的映射间距的大小;输出模块,用于输出所述用户分类结果或视化数据;其中,所输出的所述用户分类结果用于供外部生成所述可视化数据。
为实现上述目的及其他相关目的,本申请的第五方面提供一种计算机装置,包括:存储装置,存储有至少一计算机程序;处理装置,用于运行所述计算机程序以执行并实现所述的可视化用户分类方法。
为实现上述目的及其他相关目的,本申请的第六方面提供一种服务装置,包括:通信装置,用于与外部通信;存储装置,存储有至少一计算机程序;处理装置,用于运行所述计算机程序以执行并实现所述的可视化数据服务方法。
为实现上述目的及其他相关目的,本申请的第七方面提供一种计算机可读存储介质,存储有至少一计算机程序,所述至少一计算机程序在被调用时执行并实现所述的可视化用户分类方法、或所述的可视化数据服务方法。
如上所述,本申请的可视化用户分类方法、服务方法、***、装置及存储介质,通过获取输入信息;获取根据输入信息、及用户群体的用户群体数据得到的可视化数据;其中,所述输入信息用于设定用于处理所述用户群体数据以确定疑似欺诈用户的欺诈检测算法、算法参数、及至少一种用户行为特征集;其中,所述可视化数据用于显示包括:反映所述用户群体基于在至少一种用户行为特征集中一或多个用户行为特征上的行为相似度所形成的分布视图;其中,用户间的行为相似度的高低负相关于它们在分布视图中的映射间距的大小;根据所述可视化数据进行可视化输出。本申请的方案中,可以根据不同用户行为的行为相似度而直观且准确地展现出用户在不同行为上的同步,有助于快速准确地进行欺诈行为的分析或评估欺诈检测的质量。
附图说明
图1显示为本申请实施例中可视化用户分类方法的流程示意图。
图2显示为本申请实施例中第一分布视图的显示示意图。
图3显示为本申请实施例中第二分布视图的显示示意图。
图4显示为本申请实施例中第三分布视图的显示示意图。
图5显示为本申请实施例中第四分布视图的显示示意图。
图6显示为本申请实施例中人机交互界面的显示示意图。
图7A显示为本申请实施例中的分组质量不佳的第三分布视图和第四分布视图的对照示意图。
图7B显示为本申请实施例中的分组质量佳的第三分布视图和第四分布视图的对照示意图。
图8显示为本申请实施例中通信***的结构示意图。
图9显示为本申请实施例中可视化数据服务方法的流程示意图。
图10显示为本申请实施例中计算机装置的结构示意图。
图11显示为本申请实施例中服务装置的结构示意图。
图12显示为本申请实施例中可视化用户分类***的模块示意图。
图13显示为本申请实施例中可视化数据服务***的模块示意图。
具体实施方式
以下由特定的具体实施例说明本申请的实施方式,熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本申请的其他优点及功效。
在下述描述中,参考附图,附图描述了本申请的若干实施例。应当理解,还可使用其他实施例,并且可以在不背离本公开的精神和范围的情况下进行模块或单元组成、电气以及操作上的改变。下面的详细描述不应该被认为是限制性的,并且本申请的实施例的范围仅由公布的专利的权利要求所限定。这里使用的术语仅是为了描述特定实施例,而并非旨在限制本申请。
虽然在一些实例中术语第一、第二等在本文中用来描述各种元件、信息或参数,但是这些元件或参数不应当被这些术语限制。这些术语仅用来将一个元件或参数与另一个元件或参数进行区分。例如,第一元件可以被称作第二元件,并且类似地,第二元件可以被称作第一元件,而不脱离各种所描述的实施例的范围。第一元件和第二元件均是在描述一个元件,但是除非上下文以其他方式明确指出,否则它们不是同一个元件。取决于语境,比如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”。
再者,如同在本文中所使用的,单数形式“一”、“一个”和“该”旨在也包括复数形式,除非上下文中有相反的指示。应当进一步理解,术语“包含”、“包括”表明存在所述的特征、步骤、操作、元件、组件、项目、种类、和/或组,但不排除一个或多个其他特征、步骤、操作、元件、组件、项目、种类、和/或组的存在、出现或添加。此处使用的术语“或”和“和/或”被解释为包括性的,或意味着任一个或任何组合。因此,“A、B或C”或者“A、 B和/或C”意味着“以下任一个:A;B;C;A和B;A和C;B和C;A、B和C”。仅当元件、功能、步骤或操作的组合在某些方式下内在地互相排斥时,才会出现该定义的例外。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的模块及方法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
在线欺诈行为与金融相关,例如电信诈骗、钓鱼网站。在线欺诈行为往往依赖于在目标网站收集的账户来实施,这些账户往往在欺诈行为完成后即被丢弃,故也可以称为一次性账户(disposable accounts)。欺诈者利用大量带有电话卡(SIM卡)的低成本的移动设备,如手机等,通过例如注册账户的方式侵入网站来实施欺诈行为。与合法账户相比,这些一次性账户在某些方面会存在异常相似的行为,例如重复使用的电话号码,相似的电话访问持续时间,高度重复的IP段及活动频率等等。
由此,可以通过分析这些账户之间用户行为的行为相似度来有效发现其中存在的欺诈者,甚至欺诈团伙。然而,对这些用户行为分类并非易事。
现有技术中存在一些无监督的分类算法,或许可以利用这些算法来应用到本场景中,对用户行为进行分类。
但是,欺诈检测场景与大多数日常场景不同,在大多数日常场景中可以轻易尝试各种机器学习模型来解决问题,而与之相比,欺诈检测会更加复杂。并且,现有算法通常不为分析人员提供端到端的可视化交互接口,这使得算法的部署更加困难,分析人员也无法调整分析使用的算法、参数、行为等。
现有技术中存在一些用于实现可视化交互的算法,如Google Vizier使用平行坐标来分析搜索到的模型,ATMSeer使用可视化来辅助自动化机器学习过程,Google FACETS对机器学习数据集的源代码可视化,以帮助理解和分析源代码;AutoAIViz可视化AI模型生成过程以提高可解释性。但是,它们并不能直接套用到欺诈检测,因为欺诈检测涉及高维度的用户行为数据,难以直接进行可视化,即使可视化也未必能有利于欺诈检测分析。
本申请是提供用于欺诈检测的可视化方案设计,在设计时需达成的检测任务有:
1、欺诈检测概述:欺诈用户们在高维特征空间中的分布情况是?欺诈用户们的分布和所有用户分布的相似之处是?---这将有助于分析人员了解欺诈检测算法的质量。
2、质量评估:欺诈检测结果是否正确?对欺诈用户的分组是否准确?---这将有助于分析人员更好地了解欺诈检测算法的质量。
3、用户行为特征重要性分析:用户行为中的哪些特征对欺诈检测结果贡献最大?---有助于分析人员选择更有力的用户行为特征来进行欺诈识别。
4、疑似欺诈用户组的详细信息:每个疑似欺诈用户组中有多少个用户?他们的用户行为特征的取值分布是如何的?一些特定欺诈的用户行为特征取值是什么?---这将有助于分析人员深入检查各个疑似欺诈用户个体的信息。
5、疑似欺诈用户组共同的用户行为特征:一个疑似欺诈用户组中的用户会共用的欺诈模式?如何表征这种模式?---这将有助于分析人员进一步构成疑似欺诈用户组的集体行为的假设。分析人员可以将该假设作为领域知识进行验证和学习,以更好地了解欺诈检测算法的优缺点。
6、可视化交互:在给定用户行为特征的情况下的欺诈检测结果展示如何?如果调整参数会如何?----这将有助于分析人员调整输入而得到期望结果的可视化。
7、错误排除:所使用的欺诈检测算法是否在特定用户判断上出错?---这将有助于分析人员关注到特定用户,以在欺诈检测结果输出之前将其标记出来。
基于上述问题,本申请实施例中提供可视化用户分类方法、服务方法、***、装置及存储介质,以下将结合附图逐一展示各个相关实施例。
如图1所示,展示本申请实施例中的可视化用户分类方法的流程示意图。所述方法包括:
步骤S101:获取输入信息。
在一些实施例中,所述输入信息可以是用户通过输入设备,例如键盘、鼠标、麦克风、触摸屏等输入给电子设备的,以将人的操作转化为电子设备能识别的电信号形式的输入信息。
在一示例中,可以通过在一显示器显示一人机交互图形界面(GUI),人机交互图形界面包含可以接收输入信息的图形控件,而用户通过键盘、鼠标、麦克风或该显示器可能具有的触摸屏等输入设备对应在该人机交互图形界面进行操作,来实现信息输入,所述操作包括但不限于信息的直接键入、信息选择等。
其中,所述显示器是功能是通过电子设备中的图形模块及显示其控制器实现的,所述图形模块包括用于在触摸屏上呈现和显示图形的各种已知软件组件。注意术语“图形”包括可以显示给用户的任何对象,包括但不局限于文本、网页、图标(例如包括软按键在内的用户界面对象)、数字图像、视频、动画等等。显示屏例如为触摸屏,在设备与用户之间同时提供输出接口和输入接口。触摸屏控制器接收/发送来自/去往触摸屏的电信号。该触摸屏则向用户显示可视输出。这个可视输出可以包括文本、图形、视频及其任意组合。
在一示例中,电子设备通过拾音器(例如麦克风)来接收用户语音形式的输入信息,由语音识别计算机程序转换成机器能识别的电信号形式完成信息输入,而电子设备也可以通过语音转换计算机程序将输出信息转换成语音形式,通过放音器播放给用户。
在上述实施例中,所述电子设备例如为装载有APP应用计算机程序或具备网页/网站访问性能的电子设备,所述电子设备包括存储器、存储器控制器、一个或多个处理单元(CPU)、外设接口、RF电路、音频电路、扬声器、麦克风、输入/输出(I/O)子***、显示屏、其他输出或控制设备,以及外部端口等组件,这些组件通过一条或多条通信总线或信号线进行通信。所述电子设备包括但不限于如台式电脑、笔记本电脑、平板电脑、智能手机、智能电视等个人计算机。所述电子设备还可以是由带有多个虚拟机的主机和对应每个虚拟机的人机交互装置(如触控显示屏、键盘和鼠标)所构成的电子设备。
所述输入信息用于设定用于处理所述用户群体数据以确定疑似欺诈用户的欺诈检测算法、算法参数、及至少一种用户行为特征集,所述用户群体数据即包含了每个用户在不同维度的数据,例如IP地址,电话号码等等;从而,从用户群体数据中能提取到用户行为特征集中每个用户行为特征的取值,如IP地址是123.xxx.xxx.1,电话号码是021-6346xxxx等。需说明的是,本申请实施例中所提到的欺诈检测的原理,是基于欺诈嫌疑群体在一些用户行为上的同步、相似的特点,从而通过欺诈检测算法来基于不同维度的用户行为特征进行用户分类,以将疑似欺诈用户给区分出来。
在一些实施例中,所述欺诈检测算法例如Crossspot或D-Spot等;当然,一些其它的分类算法也可以用在本申请中,而非以此举例为限。在一些实施例中,所述算法参数包括:例如每个用户行为特征的权重等。
在一些实施例中,每个所述用户行为特征集可以包括一或多个用户行为特征。与欺诈行为的特点较为相关的用户行为特征能更准确定位到疑似欺诈用户,而欺诈行为特点是与在线欺诈的应用场景相关的,例如电商网站,社交网站等。
在一些实施例中,所述用户群体数据可以是关于电商网站的,例如基于国内电商网站:淘宝网、天猫商城、京东商城、苏宁易购、唯品会等;进口跨境电商网站:天猫国际、京东全球购、网易考拉、唯品会全球特卖等;出口跨境电商网站:速卖通、阿里旗下的出口电商平台、跨境通(环球易购)、傲基电商等;国外电商网站:amazon、eBay、groupon、paytm、newegg等网站、其它电商网站、或基于这些网站所构建的钓鱼网站等。
较为相关于电商网站的欺诈行为的所述用户行为特征的分类包括:与时间相关、与IP地址相关、及与电话号码相关中的一种或多种。
举例来说,所述与时间相关的用户行为特征包括:各种账户相关操作的时间戳,例如账户注册时间、登录时间、登出时间、及操作时间中的一种或多种等;所述与IP地址相关的用户行为特征包括:IP地址、IP所在地等;所述与电话号码相关的用户行为特征包括:电话号码、电话所在地区(可以根据区号得到)。
在一些实施例中,所述用户群体数据可以是关于社交网站的,例如国内社交网站有例如:多功能大众化社交:百度贴吧;基于各类生活爱好:豆瓣;基于旅途分享、小组交流和客栈信息的社交网站:走呗网;基于职业人士的社交网站:天际网,环球人脉网,优士网;基于企业用户交流、分享的社交网站:用友企业社区;基于资源下载、论文检索、概念调研、活动事件:天玑学术网;基于大众化的社交:QQ空间;基于生活化、实用化的社交网站:众众网;基于白领用户和学生用户的交流的娱乐:开心网,人人网;基于网络同居的情感交流:赛客网;基于未婚男女的婚介:世纪佳缘,百合网,珍爱网;基于地方化的交流:南京族;基于年轻用户的交友:51;基于原创性文章:新浪博客网易博客;基于信息的快速分享:微博;基于标签社交分享:易寻;基于社会化问答网站:即问即答网、知乎;国外社交网站有例如:Facebook、Twitter、LinkedIn、Pinterest、Google+、Tumblr、Instagram、VK、Flickr、聚友网(MySpace)、Tagged、Ask.fm、Meetup、MeetMe、ClassMates、Snapchat等网站、其它社交网站、或基于这些网站所构建的钓鱼网站站等。
较为相关于社交网站的欺诈行为的所述用户行为特征的分类包括:与时间相关、与IP地址相关、与源用户相关、与目标用户相关、及与事件相关中的一种或多种。
举例来说,所述与时间相关的用户行为特征包括:各种账户相关操作的时间戳,例如账户注册时间、登录时间、登出时间、及操作时间中的一种或多种等;所述与IP地址相关的用户行为特征包括:IP地址、IP所在地等;所述与电话号码相关的用户行为特征包括:电话号码、电话所在地区(可以根据区号得到);与源用户相关的用户行为特征包括:传输信息的源IP、源用户所在地区、源用户住址等;与目标用户相关的用户行为特征包括:传输信息的目标IP、目标用户地区、目标用户住址等;与事件相关的用户行为特征包括:用户间的社交事件,如访问、添加好友、交谈、评论等。
所述用户行为特征集,可以是上述的部分或全部用户行为特征的集合,例如包含多个分类的用户行为特征、单个分类的用户行为特征、从多个分类或单个分类中提取的用户行为特征组合、或单个用户行为特征等中的一种或多种组合。在一些实施例中,可以赋予每个用户行为特征重要度,以表示与欺诈行为的相关度,以供参考而在要突出显示欺诈用户时可尽量选择最高或较高的用户行为特征,该重要度的具体构成将在后文详细介绍。
步骤S102:获取根据输入信息、及用户群体的用户群体数据得到的可视化数据。
步骤S103:根据所述可视化数据进行可视化输出。
所述可视化数据用于显示包括:反映所述用户群体基于在至少一种用户行为特征集中一或多个用户行为特征上的行为相似度所形成的分布视图;其中,用户间的行为相似度的高低负相关于它们在分布视图中的映射间距的大小。
在一些实施例中,各个用户可以表示为在视图中的一个图块,占据一或多个像素点(也可以占据一或多个网格,该网格是根据视图尺寸进行横竖交错的网状划分形成的格子),而用户间的行为相似度对应表现为视图中图块之间的映射间距,用户间行为相似度越高则映射间距越小,而行为相似度越低则映射间距越大;如此,会令视图中用户行为相似的用户的图块进行“聚集”,而令视图中用户行为不相似的图块进行“远离”,而欺诈用户,尤其是欺诈公司在用户行为的行为相似度上非常高(例如IP地址、电话号码、所在区域等很相似),而普通的合法用户的用户行为往往是离散的。
在一些实施例中,所述分布视图包括以下中的任意一种或多种:
1)反映所述用户群体基于在用户行为特征集上的行为相似度所映射而成的第一用户分布视图;
2)反映所述用户群体中的疑似欺诈用户基于在所述用户行为特征集中的至少部分用户行为特征上的相似度所映射而成的第二用户分布视图;
3)反映各个所述疑似欺诈用户在所述用户行为特征集中的至少一个用户行为特征上的行为相似度而进行分组所映射而成的第三用户分布视图,其中各个疑似欺诈用户组间区别显示;
4)反映一所述疑似欺诈用户组中的各成员基于在所述用户行为特征集的原始取值上的行为相似度所映射而成的第四用户分布视图。
在一些实施例中,例如图2所示,展示本申请实施例中第一分布视图200的界面示意图。在本实施例中,第一分布视图200是按用户群体中所有用户间在用户行为特征集上的用户行为相似度对整个用户群体进行分类,形成各个用户簇,分别对应于第一分布视图200上呈现的基团201,实际上,每个基团201即为分别代表每个用户的图块因用户间行为相似而靠近,从而聚集显示为基团201的形式。在可能的实现方式中,所述第一用户行为特征集中的用户行为特征可以例如单个或多个分类中的一或多个用户行为特征等,第一用户分布视图用于供观察所有用户(包括合法用户及欺诈用户)整体的行为相似情况。
其中,第一分布视图显示因行为相似而聚集的用户簇,其中包含合法用户及疑似欺诈用户;这些用户簇的显示特征能表现其用户特点,如灰度的深浅可以表示每个用户簇的用户数量的多寡等。
在一些实施例中,与第一分布视图200的形成相似的,例如图3所示,第二分布视图300 是根据疑似欺诈用户在所述用户行为特征集中的至少部分特征上的相似度所映射得到的。
其中,各个所述疑似欺诈用户是通过所述欺诈检测算法从用户群体中确定的,所述欺诈检测算法例如为Crossspot或D-Spot等;第二分布视图300中展示因对应于这些疑似欺诈用户的相似度的图块间距而聚集的各个疑似欺诈用户簇,并且,在对其中每个疑似欺诈用户的图块可采用区别于第一分布视图中图块的同一显示特征,例如第一分布视图中的图块用灰色,而第二分布视图中的图块用红色等;其中,基团301的颜色深浅表示聚集的用户数量多寡。
由此,可以理解的是,第二分布视图能反映出疑似欺诈用户的分布。需说明的是,实施例中所称的疑似欺诈用户只是由于行为相似度的原因而聚集的一些用户团体,并非必然说明疑似欺诈用户簇直接是于欺诈用户团伙,也并非必然说明疑似欺诈用户就是欺诈用户,而是说明这些疑似欺诈用户在一些行为上相似而存在嫌疑。
例如图3所示,展示本申请实施例中第二分布视图300的图形示意图。在该图3中,每个疑似欺诈用户簇表现为聚集而成的图案,每个疑似欺诈用户可以呈现为一个或多个像素构成的图块,那么每个疑似欺诈用户簇就可以呈现为一个基团301。在一些实施例中,每个疑似欺诈用户对应的图块的显示特征能表现出其疑似欺诈用户的身份,可选的,在第二分布视图 300中各疑似欺诈用户可以通过相同的显示特征表示,所述显示特征包括:尺寸、颜色、纹路、灰度、亮度、及编号中的一种或多种组合。
举例来说,在图3所展示的第二分布视图300中,每个疑似欺诈用户可以进行相同的着色,可选的,可以采用比较鲜明的颜色,例如红色;可选的,每个疑似欺诈用户簇所对应的基团301由于是聚集在一起的,所以可以呈现更深的颜色;相应的,若疑似欺诈用户簇人数越多,则对应的基团301在人肉眼观察的视觉上颜色越深,若人数越少,则颜色越浅。
在其它实施例中,每个疑似欺诈用户的像素数量可以更多或更少,从而尺寸更大或更小;或者,每个疑似欺诈用户簇对应的基团301可以表示为采用同一特定纹路的图形(如横向条纹、星条纹等的基团);或者,每个疑似欺诈用户簇对应的基团301可以表示为采用同一特定灰度、亮度;或者,每个疑似欺诈用户簇可以进行编号,可选的,该编号可以显示在每个疑似欺诈用户簇对应的基团301上。
在所述第三分布视图中,展示对第二分布视图中的各疑似欺诈用户在用户行为特征集中的至少一个用户行为特征上进行分组而产生的各个疑似欺诈用户组,不同疑似欺诈用户组采用不同的显示特征区别显示,所述显示特征包括:尺寸、颜色、纹路、灰度、亮度、及编号中的一种或多种组合。
例如图4所示,展示本申请实施例中第三分布视图400的图形示意图。在该图4中,每个疑似欺诈用户可以呈现为一个或多个像素(或网格)构成的图块,那么每个疑似欺诈用户组就可以呈现为一个或者多个基团401。每个疑似欺诈用户组对应的一个或者多个基团401 的显示特征能表现出其区别于其它疑似欺诈用户组,可选的,在第三分布视图400中每个疑似欺诈用户组中的疑似欺诈用户可以通过相同的显示特征表示,所述显示特征包括:尺寸、颜色、纹路、灰度、亮度、及编号中的一种或多种组合。
举例来说,在图4所展示的第三分布视图400中,属于不同疑似欺诈用户组的疑似欺诈用户可以采用不同的着色,例如,疑似欺诈用户组1中的疑似欺诈用户对应的像素着色为绿色,则疑似欺诈用户组1对应的三个基团A、B、C显示为绿色,而疑似欺诈用户组2中的疑似欺诈用户对应的像素着色为橙色,则疑似欺诈用户组2对应的两个D、E显示为橙色;可选的,每个疑似欺诈用户组所对应的每个基团401由于是聚集在一起的,所以可以呈现更深的颜色;相应的,若疑似欺诈用户组人数越多,则对应的基团401在人肉眼观察的视觉上颜色越深,若人数越少,则颜色越浅;因此,每个疑似欺诈用户组中的基团401的颜色深浅是与该处聚集的用户人数对应的。
可选的,每个疑似欺诈用户组所对应的各个基团401显示特征由其所对应的各疑似欺诈用户中主导部分所对应的显示特征。举例来说,所述显示特征可以是着色,比如在计算得到疑似欺诈用户组数量为7个之后,分配红、橙、黄、绿、蓝、靛、紫(例如按RGB颜色值来选择)7种颜色,而某个疑似欺诈用户组对应的几个基团401(例如A、B、C),该组中有大部分用户属于疑似欺诈用户组1而为红色,部分用户属于疑似欺诈用户组2而为橙色,部分用户属于疑似欺诈用户组5而为蓝色,红色对应的疑似欺诈用户数量最多则为主导部分,那么基团A、B、C的着色与欺诈用户组1一致而为红色。该基团A的颜色深浅可以表示主导部分的人数多寡。
在其它实施例中,通过显示特征的不同来区别表示不同的疑似欺诈用户组的每个疑似欺诈用户的像素数量可以更多或更少,从而尺寸更大或更小;或者,疑似欺诈用户组对应的各个基团401可以表示为一采用特定纹路的图形(如横向条纹、星条纹等的圆形图案);或者,疑似欺诈用户组对应的各个基团401可以采用特定灰度、亮度;或者,每个疑似欺诈用户组可以进行编号,可选的,该编号可以显示在每个疑似用户组对应的各个基团401上。
可见,通过第二分布视图和/或第三分布视图能良好地展示出疑似欺诈用户在一或多个用户行为特征上的分布,可视化有助于分析人员直观了解分布情况,以能观察疑似欺诈用户在一或多个用户行为特征上的同步性,至少达成前述任务1、4的需求。
在一些实施例中,例如图5所示,展示本申请实施例中第四分布视图500的界面示意图。在本实施例中,第四分布视图500可以是由第三分布视图中的某个疑似欺诈用户组中的各疑似欺诈用户在所述用户行为特征集上的原始特征取值的相似性所表示的行为相似度进行映射得到,原始特征取值指的是不进行降维的原始取值(例如地理位置、电话号码、IP地址等各个维度的原始数据),从而令对应该组中每个成员的图块501分布能更接近于实际的相似情况,而更利于观察分析。需说明的是,在一些实施例中,第四分布视图所使用的用户行为特征的取值也可以不是原始取值,而是经过预定处理方法得到的转换结果亦可。
第四分布视图500与第三分布视图比照观察可以发现同一疑似欺诈用户组中的各个疑似欺诈用户在多种用户行为上的整体相似度,可以用于判断欺诈检测的质量。
在一些实施例中,对应第四分布视图500,可以进一步在其附近显示其中各个疑似欺诈用户在各个用户行为特征上的取值相关的具体信息,例如这些疑似欺诈用户在各个用户行为特征上的取值及取值分布等,利于分析人员进一步分析疑似欺诈用户在用户行为特征上的取值特点。
在一些实施例中,所述第二分布视图、第三分布视图、第一分布视图、第四分布视图中的部分或全部可以通过人机交互图形界面展示。可选的,其中的部分或全部视图之间可以在该界面中并行或切换显示。
例如图6所示,展示本申请实施例中一种人机交互图形界面的示意图。
在本实施例中,在界面左侧A区域所展示的区域中,提供根据用户输入信息来进行相应的设置的选项,例如设置对应的欺诈检测算法(例如图示中的D-Spot算法),算法参数(例如图示中的权重设置框,可供输入权重值)。可选的,在该区域中还可以显示欺诈检测算法的结果,例如用户数量、欺诈组数量、疑似欺诈用户数量、合法用户数量、以及可据以计算该欺诈检测算法的准确率(precision)及召回率(recall),利于分析人员调整欺诈检测算法等。可选的,在该区域A中,还可以显示例如用户在B区域选中的欺诈用户组的数量、ID及其该组包含的疑似欺诈用户的数量。
在界面中上侧B区域当前所展示的是第三分布视图,而可选的是,所述第二分布视图和第三分布视图分别呈现于能相互切换显示的图形页面,即通过B区域上方的栏位可以切换显示第二分布视图和第三分布视图;可选的,第一分布视图也可以与其它视图切换显示,例如图示中的“Fraud”信息栏选项在接受到用户操作时可触发在B区域展示第二分布视图,“Grouped”信息栏选项在接受到用户操作时可触发在B区域展示第三分布视图,“All”信息栏选项在接受到用户操作时可触发在B区域展示第一分布视图,用户通过操作信息栏选项,就能实现对第二分布视图、第三分布视图、第一分布视图的切换。
可以理解的是,虽然图示中未展示,但是可选的,对应不同第三用户行为特征集所形成的各第三分布视图也可以呈现于能相互切换显示的各个图形页面。举例来说,可在图6中B 区域增加不同的信息栏选项,例如“IP地址”,“电话号码”等,分别用于触发在B区域展示的对应用户行为特征“电话号码”的第三分布视图、以及显示对应用户行为特征为“IP地址”的第三分布视图。
在本实施例中,B区域下方的C区域,还可以显示第四分布视图,第四分布视图右侧的 D区域,还可以显示第四分布视图中所展示的各个疑似欺诈用户的具体信息,如用户的特征取值、取值分布等,例如在第四分布视图所展示的各个疑似欺诈用户的IP地址为某一相同值的占比,或者位于同一省份的占比等。
在本实施例中,可选的,还可以在E区域中显示“用户行为特征列表”,列出各个用户行为特征,并可提供特征选择选项,例如在图示中的选择框,可供用户通过“√”来选择用于用户行为特征以生成对应的第二、第三用户分布视图。进一步可选的,各个用户行为特征可具有权重(Weight,在该图中可以是用户能设置的)、及重要度,其中,所述重要度包括平均信息熵(Entropy)和平均相对熵(KL)两项,其计算方式会在后续实施例中详细介绍。
可选的,还可以对应每个用户行为特征显示其对应的缩略图(thumbnail),其中,黑线显示此用户行为特征在整个用户群体数据中的取值分布,灰色线条显示此用户行为特征在所检测到的所有疑似欺诈用户的部分用户群体数据中的取值分布。通过比较这两种取值分布,分析人员可以初步了解此用户行为特征作用于各分布视图中,以呈现分离疑似欺诈用户时的重要性。
可选的,在其他实施例中还可以在该人机交互界面中提供用于选择用户群体数据的选项等,此处并未图示。
需说明的是,图6中的布局只是一种举例,在其他实施例中可以根据需求对区域进行增、删或合并,并非以图6为限。
在步骤S103中,所述可视化输出指的是在显示器(如LCD、LED、OLED等)进行图形输出,展示例如图2~6中的电子图案。
在一些实施例中,所述行为相似度是基于用户行为特征集中的多个用户行为特征的行为相似度的加权结果来度量的。例如,对应第一分布视图,涉及的是用户行为特征集中的所有用户行为特征,在比较用户1和用户2在用户行为特征集上的行为相似度时,将分别在其中各用户行为特征上的行为相似度求加权和(每个用户行为特征的权重可来自所设置的算法参数),在一些示例中,该些权重可以由用户自行设置或默认设置;用户行为特征集中的各个用户行为特征的权重间可以是全部相同、部分相同、或全部不同的;又例如,对应第二分布视图,假设其涉及三个用户行为特征,电话号码、IP地址、及设备,则将分别在三个用户行为特征上的行为相似度求加权和,若三个用户行为特征的权重相等,则该加权和即为三个行为相似度之和除以3所得到的均值。
现有的计算两者间行为相似度的方法,如欧式距离,余弦距离等,可以应用在本申请的行为相似度计算,但是应用在欺诈检测场景中可能存在局限性,因为用户行为特征是类别型数据,使用独热编码(one-hot coding)计算行为相似度没有意义,且独热编码也会导致计算更加复杂,这对于欺诈检测场景中的庞大用户群来讲是不切实际的。
由此,本申请实施例中提供关于行为相似度的改进的度量标准,即“碰撞距离”(ColDis),所述碰撞距离的大小与行为相似度成负相关,而各个分布视图中的用户间的映射间距即为该碰撞距离的映射结果,即例如三个用户A和B、B和C、A和C之间的碰撞距离的比例是1: 2:3,则转换到分布视图中它们的映射间距比例同样是1:2:3,至于是x像素:2x像素: 3x像素还是3x像素:6x像素:9x像素,可以是根据要呈现的分布视图的实际尺寸来确定。
在一些实施例中,所述“碰撞距离”是通过各用户或用户间在用户行为特征的取值上的相似度有关,即代表行为相似度,而该行为相似度又可以通过用户在用户行为特征上取值的相似程度所蕴含的信息量即“熵”来度量。
在一些实施例中,每两个用户在每一个用户行为特征上的行为相似度相关于:基于该用户群体数据统计得到的该用户行为特征为各种取值的第一概率分布、同该两个用户在该用户行为特征上出现一个取值碰撞时的第二概率分布之间的相对熵。
举例来说,用户ui和用户uj之间在第k个用户行为特征上的行为相似度可以表示为下式 (1):
Figure BDA0002468100080000181
其中,pk表示在第k个用户行为特征上的取值分布,而pk(v)则表示在第k个用户行为特征的取值为v时的概率分布;在
Figure BDA0002468100080000182
中的每个v表示用户ui和用户uj在第k个用户行为特征上发生“取值碰撞”,即例如取值相同,比如使用相同的IP地址,或相同的所在住址等。其中,-log(pk(v))可以是根据两个概率分布之间的相对熵,即KL散度(Kullback-Leiblerdivergence),相对熵小,则差异越小而行为相似度越高,设pk表示所述第一概率分布,F表示所述第二概率分布,该KL散度表示为KL(F||pk);其中,所述pk可以由用户群体数据中各个用户在第k个用户行为特征的取值进行统计得到,具体的,可以通过第一概率分布函数 pk(x)来表示,pk(x)表示在第k个用户行为特征的取值为x时的概率分布;F可以由第二概率分布函数F(x)表示,即用户ui和用户uj在第k个用户行为特征上出现取值碰撞x的概率分布函数。
在本实施例中,当用户ui和用户uj在第k个用户行为特征上发生取值碰撞,即第k个用户行为特征的取值为
Figure BDA0002468100080000183
中的v时,即x=v,F(x)=1;或者,x≠v时,F(x)=0,也就是本实施例中可以将F(x)简化为二值函数;因此,对于第k个用户行为特征而言,若其取值为v时,第二概率分布函数F(x)=1,那么可以推导出第k个用户行为特征在取值为v时所对应的第二概率分布F相对于第一概率分布pk的KL散度就可以表示成:
KL(F||pk)=F(x=v)log(F(x=v)/pk(v))=1·log(1/pk(v))=-log(pk(v)),即得到式 KL(F||pk)=-log(pk(v))。
需说明的是,式(1)中还考虑到了两个用户可能在同一个用户行为特征上发生多次取值碰撞的情况,例如昨天A用户和B用户的IP地址均为C,而今天A用户和B用户的IP地址均为D,那么在此情况下,相关于在多个所述取值碰撞时对应的多个相对熵的相对熵和,即分别求得用户A、B在IP地址这个用户行为特征上发生取值碰撞C时的相对熵1、及发生取值碰撞D时的相对熵2求和。
利用公式(1)进行行为相似度度量,使得行为相似度较大的用户将有更好的机会被分在同一疑似欺诈用户组。
在一些实施例中,设用户行为特征集有K个用户行为特征,则在用户行为特征集整体上的行为相似度可以是对K个用户行为特征上的行为相似度的加权和,例如求均值,可表示为式(2):
Figure BDA0002468100080000191
承前所述,在图2~图5的第一分布视图~第四分布视图中,每个用户通过一或多个像素表示,而用户之间的碰撞距离是与行为相似度成负相关的,即两个用户间行为相似度越高,则对应的两组像素之间的距离越小,以形成该些分布视图,例如第二分布视图、第三分布视图中聚集的对应疑似欺诈用户簇、疑似欺诈用户组的基团的分布。
在分布视图中,表示两个用户的两个图块之间的映射间距为碰撞距离的映射结果,所述碰撞距离的大小负相关于所述行为相似度的高低。
在一些实施例中,所述碰撞距离为负相关于行为相似度进行尺度放大得到的。在一些示例中,所述放大指的是对于相互间存在行为相似度的用户们,则按尺度放大他们间的相似度而形成第一碰撞距离,而对于对该相互间不存在行为相似度的用户们,可以通过远大于第一碰撞距离的第二碰撞距离来表示他们之间没有相似度,也就是让不相似的用户间在分布视图中相距尽量远,从而令合法用户和疑似欺诈用户间、不同欺诈组中的意思欺诈用户间的映射间距尽量远,使得在各分布视图上清晰而突出地展示各个疑似欺诈用户簇、及疑似欺诈用户组,以避免在用户量巨大的情形下不相似的用户在分布视图中看起来也会像很接近的情形。
举例来说,结合式(2),可以将对应于行为相似度的碰撞距离表示为下式(3):
Figure BDA0002468100080000192
其中,在用户ui和用户uj之间在K个用户行为特征上具有行为相似度的情形下,通过运算符-1转换为分布视图上的距离。Dmax表示所有用户对之间的最大非零距离。Smax是控制映射中用户分类程度的参数。通过这个参数,更偏向于两个用户之间具有可疑的出现取值碰撞的用户行为特征。根据ColDis的预测,欺诈用户和普通用户能很好地分离。对于取值为数值的用户行为特征,也可以采用等式(4)中的相似性定义,其中数值之间的贴近程度用作表达取值碰撞的程度,式(4)表示为:
Figure BDA0002468100080000201
同理,第一分布视图、第二分布视图、第三分布视图和第四分布视图皆可基于碰撞距离的计算原理来进行计算并映射得到。
碰撞距离(ColDis)度量方式有益于容忍原始特征取值中的噪声,并关注区分普通用户和疑似欺诈用户的重要信息。在给定用户行为特征集的情况下,根据ColDis所映射的分布视图将始终是相同的,这就允许我们预先计算映射的分布视图。不同的欺诈检测算法可能会改变普通用户和疑似欺诈用户的分类结果,但不会改变对应他们映射的分布视图的视觉布局。这使得从基于ColDis的可视化中评估不同的欺诈检测算法变得更加容易。通过例如图6所示的可视化界面,可以比较分别这些算法的欺诈检测效果,。
在一些实施例中,由于用户群体的数量可能是巨大的,用户行为特征的原始取值的维度也可能较高,直接采用原始的用户群体数据进行所述可视化数据的生成,即使在碰撞距离的帮助下,也有可能导致分布视图中对用户分类的显示效果不佳,故可以根据所述用户群体数据经降维处理而成的低维数据(低维数据包括对应每个用户的低维特征向量)来进行碰撞距离的计算,进而形成分布视图。
举例来说,可以采用例如t-SNE降维算法将高维的用户群体数据(可以通过用户配置文件中的数据的形式呈现)映射到2D空间中,t-SNE(t-distributed stochasticneighbor embedding) 是基于SNE的改进算法,是一种非线性降维算法,非常适用于高维数据降维到2维或者3 维,进行可视化。此处的t-SNE仅为举例,而非以此为限,在其它实施例中还可以选用其它的降维算法,例如主成分分析(PCA)等。
在一些实施例中,当用户数据量变大时,可能会引起要生成的分布视图(例如基于碰撞距离构建的原始的分布视图)中严重的基团重叠,使人的视觉无法准确观察到其中用户的原用户分布。因此,可以利用核密度估计(KDE)方法来对原用户分布进行分布估计,并利用估计分布来替代实际分布,从而使得在分布视图上用户行为相似的用户们能更为集中,从而令相邻基团之间的间距更大,以此降低分布视图中的重叠情况。例如,所述第一分布视图、第二分布视图、及第三分布视图中至少一种中的用户分布是依循于所计算的估计分布;所述估计分布是依据所述行为相似度得到的原用户分布进行核密度估计得到的。
核密度估计得到估计分布可以表示为下式(5):
Figure BDA0002468100080000202
其中,N是所有用户数,xi是第i个用户ui在分布视图中基于原用户分布所确定的在分布视图中的原映射位置,h是KDE的带宽,在本实施例中,可以采用高斯核,即由高斯近似h=1.06σN-0.2进行初始化,而σ是所有用户位置的标准差。
在一些实施例中,所述第一分布视图可以是根据USER-KDE估计分布再构建的分布视图,通过将用户群体的原用户分布替换为USER-KDE估计分布,从而形成最终呈现的第一分布视图以降低原分布视图中的重叠情况。
以第二分布视图为例,其为基于在用于构建第一分布视图的各用户行为特征中选择与欺诈行为更为相关的部分所形成的主要展现疑似欺诈用户的原用户分布,与计算USER-KDE估计分布原理类似,可以计算Fraud-KDE估计分布来替代疑似欺诈用户的原用户分布,从而形成第二分布视图。为突出展示第二分布视图中的疑似欺诈用户簇,可以采用醒目的颜色例如红色来着色。
同理,第三分布视图也可以基于上述核密度估计的方法来优化显示。
为能提供对与欺诈行为更为相近的用户行为特征的选择依据,在一些实施例中,每个用户行为特征可对应具有重要度,而构建第二分布视图的各用户行为特征可以用户行为特征集中重要度最高的一或多个。举例来说,相比于构建第一分布视图,在构成所述第二分布视图时所选择的用户行为特征可以是在构建第一分布视图时使用的用户行为特征集中重要度最高的几个,例如2个,3个,4个等。
可选的,所述重要度可以通过两方面的评估指标来表现,包括:该用户行为特征在各所述疑似欺诈用户组中的平均信息熵、和/或所述用户群体在该用户行为特征的取值分布相对于各个疑似欺诈用户组在该用户行为特征的取值分布的各个相对熵的平均相对熵来表示。
其中,关于所述该用户行为特征在各所述疑似欺诈用户组中的平均信息熵,举例来说,一共n个用户,在某个用户行为特征上的取值分别为x1,x2,......,xN,那么根据信息熵的计算公式:
Figure BDA0002468100080000211
则通过统计取值x1,x2,......,xN得到每种取值的概率,对应计算概率p(x),从而计算得到信息熵H(X),进而再除以n以得到平均信息熵。
其中,关于所述用户群体在该用户行为特征的取值分布相对于各个疑似欺诈用户组在该用户行为特征的取值分布的各个相对熵的平均相对熵,举例来说,一共n个用户,在某个用户行为特征k上的取值分别为x1,x2,......,xN,计算对应的取值分布p(x),而各个疑似欺诈用户组在某个用户行为特征k上的取值分布也可以对应计算,例如有M个疑似欺诈用户组,则对应的取值分布分别为q1(x),....qM(x),则根据式(1)分别计算p(x)分别相对q1(x),....qM(x)的KL散度(按前文中KL散度的计算方式),即各个相对熵,进而求它们的平均值。
所述平均信息熵越低或平均相对熵越高则重要度越高。简单来讲,信息熵越低表示用户在用户行为特征上取值相似而行为相似度高;相对熵越高,则表示用户间差异越大,例如合法用户和疑似欺诈用户间的相对熵;重要度高的用户行为特征能更准确地定位到欺诈用户。在例如图6的实施例中,供选择用户行为特征的区域(如区域E),可以列出每个用户行为特征的重要度,以利于分析人员进行选择,其中,“Entropy”和“KL”分别表示计算得到的所述平均信息熵和平均相对熵。
在一些实施例中,前述图2~图5所展示的各个可视化的分布视图,用于向分析人员提供直观的信息,尤其是在图6中所展示的界面中,所提供的区域A可供分析人员设置/调整欺诈检测算法、算法参数等,以及在区域E供选择用户行为特征集中的一或多个用户行为特征,而调整的参考依据可以是各个分布视图的可视化输出所对应的信息。
举例来说,所述参考依据,包括以下中的任意一种或多种组合:
在一些实施例中,可以以所述第二分布视图同第一分布视图间的差异作为参考依据,用于指示根据重要度调整用户行为特征集中的用户行为特征。
举例来说,若出现第二分布视图和第一分布视图相同或接近的情形,说明所选择的用户行为特征与欺诈行为的相关度不够高,不能有效将疑似欺诈用户簇同合法用户簇分离,这样的情况就能提供分析人员建议,可以调整第二用户行为特征集中的用户行为特征,例如从第一用户行为特征集中选择重要度最高的某几个用户行为特征(如2个,3个,4个或更多)等。
在一些实施例中,可以以第三分布视图中由不同显示特征所表示的不同疑似欺诈用户组而引起的整体混杂情形为参考依据,用于指示是否减少用户行为特征集中重要度较低的用户行为特征、或减少重要度较低的用户行为特征所对应在该算法参数中的权重值。
举例来说,整体来看,有很多基团呈现如下情形:每个基团含有多个疑似欺诈用户组的成员而呈现多样的颜色,例如红色、黄色、绿色、橙色等等,无法据以研究其中任何一个疑似欺诈用户组的分布。在这样的情形下,就表示当前所选择的第三用户行为特征集中的用户行为特征形成的分组太多,并不能良好体现集中的欺诈行为,可以予以删除或减少重要度较低的用户行为特征所对应在该算法参数中的权重值,如此则可以避免出现整体混杂情形。
在一些实施例中,可以以第三分布视图中由不同显示特征所表示的不同疑似欺诈用户组的数量为参考依据,用于指示是否在用户行为特征集增加重要度较高的用户行为特征。
举例来说,假设要求第三分布视图中出现的疑似欺诈用户组数量的最低阈值为10,那么如果在所显示的第三分布视图中出现的疑似欺诈用户组数量(例如通过颜色来表示)低于10,例如只有8种颜色,则可以增加重要度较高的用户行为特征。其中,所述重要度较高的用户行为特征可以是剩余未选择的用户行为特征中重要度最高的一或多个。
在一些实施例中,可以第三分布视图的至少一个局部区域中由不同显示特征所表示的不同疑似欺诈用户组间的混杂情形为参考依据,用于指示是否调整用于筛选所显示的疑似欺诈用户组的成员阈值条件、或用于根据疑似欺诈用户间关系强度划分疑似欺诈用户组边缘的边缘阈值条件。
举例来说,在第三分布视图中,在少数的局部区域中存在对应不同疑似欺诈用户组的颜色混杂的情况,例如一个疑似欺诈用户组1对应有7个基团,每个基团着色为绿色,而在7 个基团的分布区域中还混杂有第8个基团,属于疑似欺诈用户组2,颜色为红色,或者,还混杂有第9个基团,属于疑似欺诈用户组3,颜色为紫色等;整个第三分布视图中的预定百分比的区域,如1%,2%,3%,4%,5%..等等大小的局部区域,也可以是预定数量,如1处,2处,3处,4处,5处..等等数量的局部区域;出现这样的情形说明疑似欺诈用户组1的分布空间可能过小而将一部分用户归到其它组去了,那么通过改变成员阈值条件可以例如扩大该组数量,从而将该红色基团的用户纳入疑似欺诈用户组1;或者,根据边缘阈值条件,来筛选可以加入每个疑似欺诈用户组的用户,即确定疑似欺诈用户组的边缘;其中,所述关系强度可以是根据疑似欺诈用户间多个用户行为特征上出现碰撞的综合情况来确定,例如用户A和用户B在用户行为特征1、2、3、4、5~10中在2,3,4上出现碰撞,则可根据用户行为特征2、3、4的权重综合计算用户A和B之间的关系强度,通过设置关于关系强度阈值的边缘阈值条件,若A、B之间的关系强度低于某个关系强度阈值则指示A和B不分在同一组,若高于某个关系强度阈值则指示A和B属于同一组。
在一些实施例中,以第四分布视图所展示的用户分布密集情况作为对该疑似欺诈用户组的质量评价依据,用于指示是否调整所述用户特征集中的用户行为特征。
举例来说,在第三分布视图中的属于同一个疑似欺诈用户组的各疑似欺诈用户,如果是团伙,那么他们在用户行为特征集上的整体的行为相似度上也应该是存在的,而如果他们在第四分布视图中,并没有呈现出至少部分聚集的情形,例如图7A所示,第三分布视图中的疑似欺诈用户组701A在第四分布视图中的分布非常散,则说明该疑似欺诈用户组的分组质量不佳,需要调整更相关的用户行为特征,例如重要度更高的;而如图7B所示,可以看到,疑似欺诈用户组702A中的各用户在整体的用户行为特征集上聚集成了多团虚线标出的“云状”的像素团702B,证明它们在整体行为上的相似,则说明此分组质量较好。
在本申请第一方面的某些实施例中,所述的可视化用户分类方法,包括:在所述第四分布视图中区别显示不属于该疑似欺诈用户组且分布集中的各疑似欺诈用户,以供分析。
举例来说,根据之前实施例中所提及,可以将基团的显示特征设置为对应的疑似欺诈用户组中主导部分的显示特征,例如主导部分对应绿色,则整个基团可以在视觉上设置成绿色,按此方式,实际上第三分布视图中的疑似欺诈用户组中可能含有一些可能并不属于该组的用户成员,那么在将疑似欺诈用户组在第四分布视图中展开时,这些用户成员可以被观察到,如果他们也另行聚集起来,则说明有可能也是欺诈团伙,则对于这些疑似欺诈用户也需要进行欺诈行为的分析。
在上述实施例中,通过前述第二分布视图和/或第三分布视图能达到任务1的概述要求,而通过等第一分布视图、第二分布视图、第三分布视图、第四分布视图之间的两两或更多个的比照,可以达到任务2的质量评估要求,通过第四分布视图(还可以辅以相应的详细信息) 可以达到任务4的详细信息要求;而通过例如图6的界面,通过其中区域E由分析人员调整所选择的用户行为特征而获得相应输出结果的图形显示的变化,可供分析人员更灵活直观地进行欺诈检测分析,达到任务3和任务6的要求;而且,分析人员还可以比照各个分布视图达到任务5的要求,并检查误报,达到任务7的要求,最后能提取学习到的欺诈检测规则。
可见,本申请的可视化的用户分类方法能有效辅助欺诈检测的分析,弥补现有技术的各种不足。
在一些实施例中,所述用户分类方法可以整体都在本地的电子设备完成。其中,所述电子设备例如为装载有APP应用计算机程序或具备网页/网站访问性能的电子设备,所述电子设备包括存储器、存储器控制器、一个或多个处理单元(CPU)、外设接口、RF电路、音频电路、扬声器、麦克风、输入/输出(I/O)子***、显示屏、其他输出或控制设备,以及外部端口等组件,这些组件通过一条或多条通信总线或信号线进行通信。所述电子设备包括但不限于如台式电脑、笔记本电脑、平板电脑、智能手机、智能电视等个人计算机。所述电子设备还可以是由带有多个虚拟机的主机和对应每个虚拟机的人机交互装置(如触控显示屏、键盘和鼠标)所构成的电子设备。
在一些实施例中,所述用户分类方法中的步骤S102中的部分或全部工作可以在与本地通信的其它电子设备上实现,或本地和其它电子设备协作实现。
所述其它电子设备可以是上述举例的电子设备分类,也可以是服务***,同本地的电子设备间通过网络通信;其中,所述网络可以是因特网、移动网络、局域网(LAN)、广域网 (WLAN)、存储局域网(SAN)、或者一个或多个内部网等,或其适当组合;所述服务器***,可以根据功能、负载等多种因素布置在一个或多个实体服务器上。其中,当分布在多个实体服务器时,所述服务器***可以由基于云架构的服务器组成。例如,基于云架构的服务器包括公共云(Public Cloud)服务器***与私有云(Private Cloud)服务器***,其中,所述公共或私有云服务器***包括Software-as-a-Service(软件即服务,SaaS)、Platform-as-a-Service (平台即服务,PaaS)及Infrastructure-as-a-Service(基础设施即服务,IaaS)等。所述私有云服务器***例如美团云计算服务平台、阿里云计算服务平台、亚马逊(Amazon)云计算服务平台、百度云计算平台、腾讯云计算平台等。所述服务器***还可以由分布的或集中的服务器集群构成。例如,所述服务器集群由至少一台实体服务器构成。每个实体服务器中配置多个虚拟服务器,每个虚拟服务器运行所述餐饮商户信息管理服务器***中的至少一功能模块,各虚拟服务器之间通过网络通信。
举例来说,在例如图8所示的通信***中,展示本地电子设备801和服务***802之间的连接,在本地电子设备801可以提供人机交互图形界面(例如图6所示),用户可在该人机交互图形界面输入信息(例如通过键入、选择等操作来输入信息),以设置欺诈检测算法、用户行为特征、算法参数(如各用户行为特征的权重)等,进而输出给服务***802,服务***802据以运行算法来执行用户分类,服务***802可以将分类结果反馈给本地电子设备801,本地电子设备801利用前述实施例中的碰撞距离、降维算法、核密度估计等,来结合所述用户分类结果生成所述可视化数据,并在所述人机交互图形界面展示对应的各个分布视图;当然,在一些实施例中,所述可视化数据也可以由服务***802直接生成后反馈给本地电子设备801,则本地电子设备801只需要负责发出用户设置的信息,进而对接收的可视化数据进行显示即可,降低了对本地电子设备801的要求。
在图9中,提供了实施例中服务***执行的一种可视化数据服务方法的流程示意图,所述可视化数据服务方法包括:
步骤S901:获取根据输入信息所确定的欺诈检测算法、算法参数、及至少一种用户行为特征集。
在一些实施例中,所述输入信息用户在电子设备输入,并通过网络传送给服务***的。所述输入信息用于设定用于处理所述用户群体数据以确定疑似欺诈用户的欺诈检测算法、算法参数、及至少一种用户行为特征集。需说明的是,本申请实施例中所提到的欺诈检测的原理,是基于欺诈嫌疑群体在一些用户行为上的同步、相似性的特点,从而通过欺诈检测算法来基于不同维度的用户行为特征进行用户分类,以将疑似欺诈用户给区分出来。
在一些实施例中,所述欺诈检测算法例如为Crossspot或D-Spot等;当然,一些其它的分类算法也可以用在本申请中,而非以此举例为限。在一些实施例中,所述算法参数包括:每个用户行为特征的权重等。
在一些实施例中,每个所述用户行为特征集可以包括一或多个用户行为特征。与欺诈行为的特点较为相关的用户行为特征能更准确定位到疑似欺诈用户,而欺诈行为特点是与在线欺诈的应用场景相关的,例如电商网站,社交网站等。
在一些实施例中,所述用户群体数据可以是关于电商网站的,例如基于国内电商网站:淘宝网、天猫商城、京东商城、苏宁易购、唯品会等;进口跨境电商网站:天猫国际、京东全球购、网易考拉、唯品会全球特卖等;出口跨境电商网站:速卖通、阿里旗下的出口电商平台、跨境通(环球易购)、傲基电商等;国外电商网站:amazon、eBay、groupon、paytm、newegg等网站、其它电商网站、或基于这些网站所构建的钓鱼网站等。
较为相关于电商网站的欺诈行为的所述用户行为特征的分类包括:与时间相关、与IP地址相关、及与电话号码相关中的一种或多种。
举例来说,所述与时间相关的用户行为特征包括:各种账户相关操作的时间戳,例如账户注册时间、登录时间、登出时间、及操作时间中的一种或多种等;所述与IP地址相关的用户行为特征包括:IP地址、IP所在地等;所述与电话号码相关的用户行为特征包括:电话号码、电话所在地区(可以根据区号得到)。
在一些实施例中,所述用户群体数据可以是关于社交网站的,例如国内社交网站有例如:多功能大众化社交:百度贴吧;基于各类生活爱好:豆瓣;基于旅途分享、小组交流和客栈信息的社交网站:走呗网;基于职业人士的社交网站:天际网,环球人脉网,优士网;基于企业用户交流、分享的社交网站:用友企业社区;基于资源下载、论文检索、概念调研、活动事件:天玑学术网;基于大众化的社交:QQ空间;基于生活化、实用化的社交网站:众众网;基于白领用户和学生用户的交流的娱乐:开心网,人人网;基于网络同居的情感交流:赛客网;基于未婚男女的婚介:世纪佳缘,百合网,珍爱网;基于地方化的交流:南京族;基于年轻用户的交友:51;基于原创性文章:新浪博客网易博客;基于信息的快速分享:微博;基于标签社交分享:易寻;基于社会化问答网站:即问即答网、知乎;国外社交网站有例如:Facebook、Twitter、LinkedIn、Pinterest、Google+、Tumblr、Instagram、VK、Flickr、聚友网(MySpace)、Tagged、Ask.fm、Meetup、MeetMe、ClassMates、Snapchat等网站、其它社交网站、或基于这些网站所构建的钓鱼网站站等。
较为相关于社交网站的欺诈行为的所述用户行为特征的分类包括:与时间相关、与IP地址相关、与源用户相关、与目标用户相关、及与事件相关中的一种或多种。
举例来说,所述与时间相关的用户行为特征包括:各种账户相关操作的时间戳,例如账户注册时间、登录时间、登出时间、及操作时间中的一种或多种等;所述与IP地址相关的用户行为特征包括:IP地址、IP所在地等;所述与电话号码相关的用户行为特征包括:电话号码、电话所在地区(可以根据区号得到);与源用户相关的用户行为特征包括:传输信息的源IP、源用户所在地区、源用户住址等;与目标用户相关的用户行为特征包括:传输信息的目标IP、目标用户地区、目标用户住址等;与事件相关的用户行为特征包括:用户间的社交事件,如访问、添加好友、交谈、评论等。
所述用户行为特征集,可以是上述的部分或全部用户行为特征的集合,例如包含多个分类的用户行为特征、单个分类的用户行为特征、从多个分类或单个分类中提取的用户行为特征组合、或单个用户行为特征等中的一种或多种组合。在一些实施例中,可以赋予每个用户行为特征重要度,以表示与欺诈行为的相关度,以供参考而在要突出显示欺诈用户时可尽量选择最高或较高的用户行为特征,该重要度的具体构成将在后文详细介绍。
步骤S902:根据欺诈检测算法、算法参数、及至少一种用户行为特征集处理用户群体的用户群体数据,以生成用户分类结果或可视化数据。
其中,所述欺诈检测算法例如为Crossspot或D-Spot等;所述可视化数据用于显示包括:反映所述用户群体基于在至少一种用户行为特征集中一或多个用户行为特征上的行为相似度所形成的分布视图;其中,用户间的行为相似度的高低负相关于它们在分布视图中的映射间距的大小。
在一些实施例中,各个用户可以表示为在视图中的一个图块,占据一或多个像素点(也可以占据一或多个网格,该网格是根据视图尺寸进行横竖交错的网状划分形成的格子),而用户间的行为相似度对应表现为视图中图块之间的映射间距,用户间行为相似度越高则映射间距越小,而行为相似度越低则映射间距越大;如此,会令视图中用户行为相似的用户的图块进行“聚集”,而令视图中用户行为不相似的图块相互“远离”,而欺诈用户,尤其是欺诈公司在用户行为的行为相似度上非常高(例如IP地址、电话号码、所在区域等很相似),而普通的合法用户的用户行为往往是离散的。
在一些实施例中,所述分布视图包括以下中的任意一种或多种:
1)反映所述用户群体基于在用户行为特征集上的行为相似度所映射而成的第一用户分布视图
2)反映所述用户群体中的疑似欺诈用户基于在所述用户行为特征集中一或多个用户行为特征的相似度所映射而成的第二用户分布视图,第二用户分布视图中呈现各个疑似欺诈用户簇;
3)反映各个所述疑似欺诈用户在所述用户行为特征集中的至少一个用户行为特征上的行为相似度而进行分组所映射而成的第三用户分布视图,其中各个疑似欺诈用户组间区别显示;
4)反映一所述疑似欺诈用户组中的各成员基于在所述用户行为特征集的原始取值上的行为相似度所映射而成的第四用户分布视图。
举例来说,所述第一分布视图可以参考前述图2实施例,第二分布视图可以参考前述图3实施例,所述第三分布视图可以参考前述图4实施例,第四分布视图可以参考前述图5实施例;还可以提供人机交互图形界面例如图6实施例所示,用于将分布视图组合展示,并能提供区域供设置改变分布视图结果的信息,如欺诈检测算法、算法参数、用户行为特征等,此处不作重复赘述。
步骤S903:输出所述用户分类结果或视化数据;其中,所输出的所述用户分类结果用于供外部生成所述可视化数据。
在一些实施例中,所述输出可以是将所述用户分类结果或视化数据发送到外部,例如图 8实施例中,服务***可以通过网络发送到本地电子设备等。
如图10所示,展示本申请实施例中提供的计算机装置的结构示意图。
所述计算机装置1000可以用于实现前述实施例中分析人员一侧的电子设备,可以执行例如图1实施例中的可视化用户分类方法,进行例如图2~图6中任意一或多种图形显示。
所述计算机装置1000包括:
存储装置1001,存储有至少一计算机程序。在一些实施例中,所述存储装置1001包括至少一个存储器,所述至少一个存储器用于存储至少一个计算机程序;在实施例中,所述存储器可包括高速随机存取存储器,并且还可包括非易失性存储器,例如一个或多个磁盘存储设备、闪存设备或其他非易失性固态存储设备。在某些实施例中,存储器还可以包括远离一个或多个处理器的存储器,例如经由RF电路或外部端口以及通信网络访问的网络附加存储器,其中所述通信网络可以是因特网、一个或多个内部网、局域网、广域网、存储局域网等,或其适当组合。存储器控制器可控制设备的诸如CPU和外设接口之类的其他组件对存储器的访问。
处理装置1002,用于运行所述计算机程序以执行并实现图1中的可视化用户分类方法,进行例如图2~图6中任意一或多种图形显示。在一些实施例中,所述处理装置1002包括至少一个处理器,所述至少一个处理器与所述至少一个存储器连接,用于运行所述至少一个计算机程序时以执行并实现如上述可视化用户分类方法所描述的至少一种实施例,比如图1中所描述的实施例。在实施例中,所述处理器可操作地与存储器和/或非易失性存储设备耦接。更具体地,处理器可执行在存储器和/或非易失性存储设备中存储的指令以在计算设备中执行操作,诸如生成图像数据和/或将图像数据传输到电子显示器。如此,至少一个所述处理器可包括一个或多个通用微处理器、一个或多个专用处理器、一个或多个现场可编程逻辑阵列、或它们的任何组合。
在一些实施例中,所述计算机装置1000还可以用于实现图8中的本地电子设备,其可包括通信装置1003,用于与外部通信,例如其包括一或多个有线或无线通信电路,所述有线通信电路包括例如有线以太网卡、USB等,所述无线通信电路包括例如无线网卡(WiFi)、2G/3G/4G/5G移动通信模块、蓝牙、红外等。需说明的是,当所述计算机装置1000在本地实施所述可视化用户分类方法而无需与外部通信,则所述通信装置1003可以省略,故在图10 中通过虚线表示。
如图11所示,展示本申请实施例中提供的服务装置的结构示意图。
所述服务装置1100可用于实现例如图8中的服务***,所述服务装置1100的硬件架构与图10的计算机装置相似,差异在于所述服务装置1100需要具有通信能力以对外部提供服务,以及基于实现不同的功能而使运行的计算机程序有差异。
所述服务装置1100包括:
通信装置1103,用于与外部通信,例如与图8中的本地电子设备通信。在一些实施例中,所述通信装置1103包括一或多个有线或无线通信电路,所述有线通信电路包括例如有线以太网卡、USB等,所述无线通信电路包括例如无线网卡(WiFi)、2G/3G/4G/5G移动通信模块、蓝牙、红外等。
存储装置1101,存储有至少一计算机程序。在一些实施例中,所述存储装置1101包括至少一个存储器,所述至少一个存储器用于存储至少一个计算机程序;在实施例中,所述存储器可包括高速随机存取存储器,并且还可包括非易失性存储器,例如一个或多个磁盘存储设备、闪存设备或其他非易失性固态存储设备。在某些实施例中,存储器还可以包括远离一个或多个处理器的存储器,例如经由RF电路或外部端口以及通信网络访问的网络附加存储器,其中所述通信网络可以是因特网、一个或多个内部网、局域网、广域网、存储局域网等,或其适当组合。存储器控制器可控制设备的诸如CPU和外设接口之类的其他组件对存储器的访问。
处理装置1102,用于运行所述计算机程序以执行并实现所述的可视化数据服务方法。在一些实施例中,所述处理装置1102包括至少一个处理器,所述至少一个处理器与所述至少一个存储器连接,用于运行所述至少一个计算机程序时以执行并实现如上述可视化用户分类方法所描述的至少一种实施例,比如图1中所描述的实施例。在实施例中,所述处理器可操作地与存储器和/或非易失性存储设备耦接。更具体地,处理器可执行在存储器和/或非易失性存储设备中存储的指令以在计算设备中执行操作,诸如生成图像数据和/或将图像数据传输到电子显示器。如此,至少一个所述处理器可包括一个或多个通用微处理器、一个或多个专用处理器、一个或多个现场可编程逻辑阵列、或它们的任何组合。
如图12所示,展示本申请实施例中可视化用户分类***的模块示意图。
如图所示,所述可视化用户分类***包括:输入模块1201,用于获取输入信息;处理模块1202,用于获取根据输入信息、及用户群体的用户群体数据得到的可视化数据;其中,所述输入信息用于设定用于处理所述用户群体数据以确定疑似欺诈用户的欺诈检测算法、算法参数、及至少一种用户行为特征集;其中,所述可视化数据用于显示包括:反映所述用户群体基于在至少一种用户行为特征集中一或多个用户行为特征上的行为相似度所形成的分布视图;其中,用户间的行为相似度的高低负相关于它们在分布视图中的映射间距的大小;输出模块1203,用于根据所述可视化数据进行可视化输出。
在某些实施例中,所述分布视图包括以下中的任意一种或多种:1)反映所述用户群体基于在用户行为特征集上的行为相似度所映射而成的第一用户分布视图2)反映所述用户群体中的疑似欺诈用户基于在所述用户行为特征集中的至少部分用户行为特征上的相似度所映射而成的第二用户分布视图;3)反映各个所述疑似欺诈用户在所述用户行为特征集中的至少一个用户行为特征上的行为相似度而进行分组所映射而成的第三用户分布视图,其中各个疑似欺诈用户组间区别显示;4)反映一所述疑似欺诈用户组中的各成员基于在所述用户行为特征集的原始取值上的行为相似度所映射而成的第四用户分布视图。
在某些实施例中,所述行为相似度是基于用户行为特征集中的多个用户行为特征的行为相似度的加权结果来度量的。
在某些实施例中,每两个用户在每一个用户行为特征上的行为相似度相关于:基于该用户群体数据统计得到的该用户行为特征为各种取值的第一概率分布、同该两个用户在该用户行为特征上出现一个取值碰撞时的第二概率分布之间的相对熵;或者;相关于在多个所述取值碰撞时对应的多个相对熵的相对熵和;其中,所述相对熵或相对熵和越大表示该两个用户间的行为相似度越低。
在某些实施例中,所述映射间距为碰撞距离的映射结果;所述碰撞距离的大小负相关于所述行为相似度的高低。
在某些实施例中,所述碰撞距离为负相关于行为相似度进行尺度放大得到的。
在某些实施例中,所述第二分布视图中疑似欺诈用户具有相同的显示特征。
在某些实施例中,所述第三分布视图中通过不同的显示特征区别表示不同的疑似欺诈用户组。
在某些实施例中,所述显示特征包括:尺寸、颜色、纹路、灰度、亮度、及编号中的一种或多种组合。
在某些实施例中,每个疑似欺诈用户组所对应的显示特征是根据其成员中占主导数量的部分的显示特征所确定的。
在某些实施例中,所述第二分布视图和第三分布视图分别呈现于能相互切换显示的图形页面;和/或,对应不同第三用户行为特征集所形成的各第三分布视图分别呈现于能相互切换显示的各个图形页面。
在某些实施例中,所述可视化数据是根据所述用户群体数据经降维处理而成的低维数据所得到的。
在某些实施例中,所述第一分布视图、第二分布视图、及第三分布视图中至少一种的用户分布依循于估计分布;所述估计分布是依据所述行为相似度得到的原用户分布进行核密度估计得到的。
在某些实施例中,每个用户行为特征对应具有重要度,所述用户行为特征集和/或被选子集是依据重要度所获取的。
在某些实施例中,每个用户行为特征的重要度由:该用户行为特征在各所述疑似欺诈用户组中的平均信息熵、和/或所述用户群体在该用户行为特征的取值分布相对于各个疑似欺诈用户组在该用户行为特征的取值分布的各个相对熵的平均相对熵来表示;其中,所述平均信息熵越低或平均相对熵越高则重要度越高。
在某些实施例中,所述可视化输出用于作为对所述欺诈检测算法、算法参数及至少一种用户行为特征集中一种或多种进行调整的参考依据。
在某些实施例中,所述可视化输出用于作为对欺诈检测算法、算法参数及至少一种用户行为特征集中一种或多种进行调整的参考依据,包括以下中的任意一种或多种组合:1)以所述第二分布视图同第一分布视图间的差异作为参考依据,用于指示根据重要度调整用户行为特征集中的用户行为特征;2)以第三分布视图中由不同显示特征所表示的不同疑似欺诈用户组而引起的整体混杂情形为参考依据,用于指示是否减少用户行为特征集中重要度较低的用户行为特征、或减少重要度较低的用户行为特征所对应在该算法参数中的权重值;3)以第三分布视图中由不同显示特征所表示的不同疑似欺诈用户组的数量为参考依据,用于指示是否在用户行为特征集增加重要度较高的用户行为特征;4)以第三分布视图的至少一个局部区域中由不同显示特征所表示的不同疑似欺诈用户组间的混杂情形为参考依据,用于指示是否调整用于筛选所显示的疑似欺诈用户组的成员阈值条件、或用于根据疑似欺诈用户间关系强度划分疑似欺诈用户组边缘的边缘阈值条件;5)以第四分布视图所展示的用户分布密集情况作为对该疑似欺诈用户组的质量评价依据,用于指示是否调整所述用户特征集中的用户行为特征。
在某些实施例中,所述的可视化用户分类方法,包括:在所述第四分布视图中区别显示不属于该疑似欺诈用户组且分布集中的各疑似欺诈用户,以供分析。
在某些实施例中,所述用户行为特征集包含多种分类的用户行为特征。
在某些实施例中,所述用户群体数据关于电商网站,所述用户行为特征的分类包括:与时间相关、与IP地址相关、及与电话号码相关中的一种或多种。
在某些实施例中,所述用户群体数据关于社交网站,所述用户行为特征的分类包括:与时间相关、与IP地址相关、与源用户相关、与目标用户相关、及与事件相关中的一种或多种。
需说明的是,本实施例中的可视化数据服务***,其原理与前述可视化用户分类方法的实施例(例如图1)中的原理相似,故该方法实施例中的各技术细节可适用于本案中,因此不作重复赘述。另外需说明的是,所述可视化数据服务***中的各个功能模块可以是计算机软件/电子硬件/软硬件结合实现,例如通过图10中的计算机装置运行计算机软件程序而实现。
如图13所示,展示本申请实施例中的可视化数据服务***,包括:设置模块1301,用于获取根据输入信息所确定的欺诈检测算法、算法参数、及至少一种用户行为特征集;数据处理模块1302,用于根据欺诈检测算法、算法参数、及至少一种用户行为特征集处理用户群体的用户群体数据,以生成用户分类结果或可视化数据;其中,所述可视化数据用于显示包括:反映所述用户群体基于在至少一种用户行为特征集中一或多个用户行为特征上的行为相似度所形成的分布视图;其中,用户间的行为相似度的高低负相关于它们在分布视图中的映射间距的大小;输出模块1303,用于输出所述用户分类结果或视化数据;其中,所输出的所述用户分类结果用于供外部生成所述可视化数据。
需说明的是,本实施例中的可视化数据服务***,其原理与前述实施例中的可视化用户服务方法(例如图9)的原理相似,故该方法实施例中的各技术细节可适用于本案中,因此不作重复赘述。另外需说明的是,所述可视化数据服务***中的各个功能模块可以是计算机软件/电子硬件/软硬件结合实现,例如通过图11中的服务装置运行计算机软件程序而实现。
本申请实施例中还提供一种计算机可读存储介质,存储有至少一计算机程序,所述至少一计算机程序在被调用时执行并实现所述的可视化用户分类方法的至少一种实施例(例如图 1所示)、或所述的可视化数据服务方法(例如图9所示)。
这些计算机程序如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。
于本申请提供的实施例中,所述计算机可读写存储介质可以包括只读存储器、随机存取存储器、EEPROM、CD-ROM或其它光盘存储装置、磁盘存储装置或其它磁存储设备、闪存、 U盘、移动硬盘、或者能够用于存储具有指令或数据结构形式的期望的计算机程序代码并能够由计算机进行存取的任何其它介质。另外,任何连接都可以适当地称为计算机可读介质。例如,如果指令是使用同轴电缆、光纤光缆、双绞线、数字订户线(DSL)或者诸如红外线、无线电和微波之类的无线技术,从网站、服务器或其它远程源发送的,则所述同轴电缆、光纤光缆、双绞线、DSL或者诸如红外线、无线电和微波之类的无线技术包括在所述介质的定义中。然而,应当理解的是,计算机可读写存储介质和数据存储介质不包括连接、载波、信号或者其它暂时性介质,而是旨在针对于非暂时性、有形的存储介质。如申请中所使用的磁盘和光盘包括压缩光盘(CD)、激光光盘、光盘、数字多功能光盘(DVD)、软盘和蓝光光盘,其中,磁盘通常磁性地复制数据,而光盘则用激光来光学地复制数据。
在一个或多个示例性方面,本申请所述方法涉及的计算机程序所描述的功能可以用硬件、软件、固件或其任意组合的方式来实现。当用软件实现时,可以将这些功能作为一个或多个指令或代码存储或传送到计算机可读介质上。本申请所公开的方法或算法的步骤可以用处理器可执行软件模块来体现,其中处理器可执行软件模块可以位于有形、非临时性计算机可读写存储介质上。有形、非临时性计算机可读写存储介质可以是计算机能够存取的任何可用介质。
本申请上述的附图中的流程图和框图,图示了按照本申请各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。基于此,流程图或框图中的每个方框可以代表一个模块、计算机程序段、或代码的一部分,该模块、计算机程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这根据所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以通过执行规定的功能或操作的专用的基于硬件的***来实现,或者可以通过专用硬件与计算机指令的组合来实现。
综上所述,本申请的可视化用户分类方法、服务方法、***、装置及存储介质,通过获取输入信息;获取根据输入信息、及用户群体的用户群体数据得到的可视化数据;其中,所述输入信息用于设定用于处理所述用户群体数据以确定疑似欺诈用户的欺诈检测算法、算法参数、及至少一种用户行为特征集;其中,所述可视化数据用于显示包括:反映所述用户群体基于在至少一种用户行为特征集中一或多个用户行为特征上的行为相似度所形成的分布视图;其中,用户间的行为相似度的高低负相关于它们在分布视图中的映射间距的大小;根据所述可视化数据进行可视化输出。本申请的方案中,可以根据不同用户行为的行为相似度而直观且准确地展现出用户在不同行为上的同步,有助于快速准确地进行欺诈行为的分析或评估欺诈检测的质量。
上述实施例仅例示性说明本申请的原理及其功效,而非用于限制本申请。任何熟悉此技术的人士皆可在不违背本申请的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本申请所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本申请的权利要求所涵盖。

Claims (27)

1.一种可视化用户分类方法,其特征在于,包括:
获取输入信息;
获取根据输入信息、及用户群体的用户群体数据得到的可视化数据;其中,所述输入信息用于设定用于处理所述用户群体数据以确定疑似欺诈用户的欺诈检测算法、算法参数、及至少一种用户行为特征集;其中,所述可视化数据用于显示包括:反映所述用户群体基于在至少一种用户行为特征集中一或多个用户行为特征上的行为相似度所形成的分布视图;其中,用户间的行为相似度的高低负相关于它们在分布视图中的映射间距的大小;
根据所述可视化数据进行可视化输出。
2.根据权利要求1所述的可视化用户分类方法,其特征在于,所述分布视图包括以下中的任意一种或多种:1)反映所述用户群体基于在用户行为特征集上的行为相似度所映射而成的第一用户分布视图2)反映所述用户群体中的疑似欺诈用户基于在所述用户行为特征集中的至少部分用户行为特征上的相似度所映射而成的第二用户分布视图;3)反映各个所述疑似欺诈用户在所述用户行为特征集中的至少一个用户行为特征上的行为相似度而进行分组所映射而成的第三用户分布视图,其中各个疑似欺诈用户组间区别显示;4)反映一所述疑似欺诈用户组中的各成员基于在所述用户行为特征集的原始取值上的行为相似度所映射而成的第四用户分布视图。
3.根据权利要求1所述的可视化用户分类方法,其特征在于,所述行为相似度是基于用户行为特征集中的多个用户行为特征的行为相似度的加权结果来度量的。
4.根据权利要求1所述的可视化用户分类方法,其特征在于,每两个用户在每一个用户行为特征上的行为相似度相关于:基于该用户群体数据统计得到的该用户行为特征为各种取值的第一概率分布、同该两个用户在该用户行为特征上出现一个取值碰撞时的第二概率分布之间的相对熵;或者;相关于在多个所述取值碰撞时对应的多个相对熵的相对熵和;其中,所述相对熵或相对熵和越大表示该两个用户间的行为相似度越低。
5.根据权利要求1或4所述的可视化用户分类方法,其特征在于,所述映射间距为碰撞距离的映射结果;所述碰撞距离的大小负相关于所述行为相似度的高低。
6.根据权利要求5所述的可视化用户分类方法,其特征在于,所述碰撞距离为负相关于行为相似度进行尺度放大得到的。
7.根据权利要求2所述的可视化用户分类方法,其特征在于,所述第二分布视图中疑似欺诈用户具有相同的显示特征。
8.根据权利要求2所述的可视化用户分类方法,其特征在于,所述第三分布视图中通过不同的显示特征区别表示不同的疑似欺诈用户组。
9.根据权利要求7或8所述的可视化用户分类方法,其特征在于,所述显示特征包括:尺寸、颜色、纹路、灰度、亮度、及编号中的一种或多种组合。
10.根据权利要求8所述的可视化用户分类方法,其特征在于,每个疑似欺诈用户组所对应的显示特征是根据其成员中占主导数量的部分的显示特征所确定的。
11.根据权利要求2所述的可视化用户分类方法,其特征在于,所述第二分布视图和第三分布视图分别呈现于能相互切换显示的图形页面;和/或,对应不同第三用户行为特征集所形成的各第三分布视图分别呈现于能相互切换显示的各个图形页面。
12.根据权利要求1所述的可视化用户分类方法,其特征在于,所述可视化数据是根据所述用户群体数据经降维处理而成的低维数据所得到的。
13.根据权利要求2所述的可视化用户分类方法,其特征在于,所述第一分布视图、第二分布视图、及第三分布视图中至少一种的用户分布依循于估计分布;所述估计分布是依据所述行为相似度得到的原用户分布进行核密度估计得到的。
14.根据权利要求2所述的可视化用户分类方法,其特征在于,每个用户行为特征对应具有重要度。
15.根据权利要求14所述的可视化用户分类方法,其特征在于,每个用户行为特征的重要度由:该用户行为特征在各所述疑似欺诈用户组中的平均信息熵、和/或所述用户群体在该用户行为特征的取值分布相对于各个疑似欺诈用户组在该用户行为特征的取值分布的各个相对熵的平均相对熵来表示;其中,所述平均信息熵越低或平均相对熵越高则重要度越高。
16.根据权利要求1所述的可视化用户分类方法,其特征在于,所述可视化输出用于作为对所述欺诈检测算法、算法参数及至少一种用户行为特征集中一种或多种进行调整的参考依据。
17.根据权利要求2所述的可视化用户分类方法,其特征在于,所述可视化输出用于作为对欺诈检测算法、算法参数及至少一种用户行为特征集中一种或多种进行调整的参考依据,包括以下中的任意一种或多种组合:
1)以第二分布视图同第一分布视图间的差异作为参考依据,用于指示根据重要度调整用户行为特征集中的用户行为特征;
2)以第三分布视图中由不同显示特征所表示的不同疑似欺诈用户组而引起的整体混杂情形为参考依据,用于指示是否减少用户行为特征集中重要度较低的用户行为特征、或减少重要度较低的用户行为特征所对应在该算法参数中的权重值;
3)以第三分布视图中由不同显示特征所表示的不同疑似欺诈用户组的数量为参考依据,用于指示是否在用户行为特征集增加重要度较高的用户行为特征;
4)以第三分布视图的至少一个局部区域中由不同显示特征所表示的不同疑似欺诈用户组间的混杂情形为参考依据,用于指示是否调整用于筛选所显示的疑似欺诈用户组的成员阈值条件、或用于根据疑似欺诈用户间关系强度划分疑似欺诈用户组边缘的边缘阈值条件;
5)以第四分布视图所展示的用户分布密集情况作为对该疑似欺诈用户组的质量评价依据,用于指示是否调整所述用户特征集中的用户行为特征。
18.根据权利要求2所述的可视化用户分类方法,其特征在于,包括:
在所述第四分布视图中区别显示不属于该疑似欺诈用户组且分布集中的各疑似欺诈用户,以供分析。
19.根据权利要求1所述的可视化用户分类方法,其特征在于,所述用户行为特征集包含多种分类的用户行为特征。
20.根据权利要求19所述的可视化用户分类方法,其特征在于,所述用户群体数据关于电商网站,所述用户行为特征的分类包括:与时间相关、与IP地址相关、及与电话号码相关中的一种或多种。
21.根据权利要求19所述的可视化用户分类方法,其特征在于,所述用户群体数据关于社交网站,所述用户行为特征的分类包括:与时间相关、与IP地址相关、与源用户相关、与目标用户相关、及与事件相关中的一种或多种。
22.一种可视化用户分类***,其特征在于,包括:
输入模块,用于获取输入信息;
处理模块,用于获取根据输入信息、及用户群体的用户群体数据得到的可视化数据;其中,所述输入信息用于设定用于处理所述用户群体数据以确定疑似欺诈用户的欺诈检测算法、算法参数、及至少一种用户行为特征集;其中,所述可视化数据用于显示包括:反映所述用户群体基于在至少一种用户行为特征集中一或多个用户行为特征上的行为相似度所形成的分布视图;其中,用户间的行为相似度的高低负相关于它们在分布视图中的映射间距的大小;
输出模块,用于根据所述可视化数据进行可视化输出。
23.一种可视化数据服务方法,其特征在于,包括:
获取根据输入信息所确定的欺诈检测算法、算法参数、及至少一种用户行为特征集;
根据欺诈检测算法、算法参数、及至少一种用户行为特征集处理用户群体的用户群体数据,以生成用户分类结果或可视化数据;其中,所述可视化数据用于显示包括:反映所述用户群体基于在至少一种用户行为特征集中一或多个用户行为特征上的行为相似度所形成的分布视图;其中,用户间的行为相似度的高低负相关于它们在分布视图中的映射间距的大小;
输出所述用户分类结果或视化数据;其中,所输出的所述用户分类结果用于供外部生成所述可视化数据。
24.一种可视化数据服务***,其特征在于,包括:
设置模块,用于获取根据输入信息所确定的欺诈检测算法、算法参数、及至少一种用户行为特征集;
数据处理模块,用于根据欺诈检测算法、算法参数、及至少一种用户行为特征集处理用户群体的用户群体数据,以生成用户分类结果或可视化数据;其中,所述可视化数据用于显示包括:反映所述用户群体基于在至少一种用户行为特征集中一或多个用户行为特征上的行为相似度所形成的分布视图;其中,用户间的行为相似度的高低负相关于它们在分布视图中的映射间距的大小;
输出模块,用于输出所述用户分类结果或视化数据;其中,所输出的所述用户分类结果用于供外部生成所述可视化数据。
25.一种计算机装置,其特征在于,包括:
存储装置,存储有至少一计算机程序;
处理装置,用于运行所述计算机程序以执行并实现如权利要求1至21中任一项所述的可视化用户分类方法。
26.一种服务装置,其特征在于,包括:
通信装置,用于与外部通信;
存储装置,存储有至少一计算机程序;
处理装置,用于运行所述计算机程序以执行并实现如权利要求23所述的可视化数据服务方法。
27.一种计算机可读存储介质,其特征在于,存储有至少一计算机程序,所述至少一计算机程序在被调用时执行并实现如权利要求1至21中任一项所述的可视化用户分类方法、或如权利要求23所述的可视化数据服务方法。
CN202010339657.6A 2020-04-26 2020-04-26 可视化用户分类方法、服务方法、***、装置及存储介质 Active CN113553369B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010339657.6A CN113553369B (zh) 2020-04-26 2020-04-26 可视化用户分类方法、服务方法、***、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010339657.6A CN113553369B (zh) 2020-04-26 2020-04-26 可视化用户分类方法、服务方法、***、装置及存储介质

Publications (2)

Publication Number Publication Date
CN113553369A true CN113553369A (zh) 2021-10-26
CN113553369B CN113553369B (zh) 2024-06-25

Family

ID=78101542

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010339657.6A Active CN113553369B (zh) 2020-04-26 2020-04-26 可视化用户分类方法、服务方法、***、装置及存储介质

Country Status (1)

Country Link
CN (1) CN113553369B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140081652A1 (en) * 2012-09-14 2014-03-20 Risk Management Solutions Llc Automated Healthcare Risk Management System Utilizing Real-time Predictive Models, Risk Adjusted Provider Cost Index, Edit Analytics, Strategy Management, Managed Learning Environment, Contact Management, Forensic GUI, Case Management And Reporting System For Preventing And Detecting Healthcare Fraud, Abuse, Waste And Errors
CN107292424A (zh) * 2017-06-01 2017-10-24 四川新网银行股份有限公司 一种基于复杂社交网络的反欺诈和信用风险预测方法
US20180300572A1 (en) * 2017-04-17 2018-10-18 Splunk Inc. Fraud detection based on user behavior biometrics
CN109670933A (zh) * 2018-09-26 2019-04-23 深圳壹账通智能科技有限公司 识别用户角色的方法、用户设备、存储介质及装置
CN109922032A (zh) * 2017-12-13 2019-06-21 百度在线网络技术(北京)有限公司 用于确定登录账户的风险的方法和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140081652A1 (en) * 2012-09-14 2014-03-20 Risk Management Solutions Llc Automated Healthcare Risk Management System Utilizing Real-time Predictive Models, Risk Adjusted Provider Cost Index, Edit Analytics, Strategy Management, Managed Learning Environment, Contact Management, Forensic GUI, Case Management And Reporting System For Preventing And Detecting Healthcare Fraud, Abuse, Waste And Errors
US20180300572A1 (en) * 2017-04-17 2018-10-18 Splunk Inc. Fraud detection based on user behavior biometrics
CN107292424A (zh) * 2017-06-01 2017-10-24 四川新网银行股份有限公司 一种基于复杂社交网络的反欺诈和信用风险预测方法
CN109922032A (zh) * 2017-12-13 2019-06-21 百度在线网络技术(北京)有限公司 用于确定登录账户的风险的方法和装置
CN109670933A (zh) * 2018-09-26 2019-04-23 深圳壹账通智能科技有限公司 识别用户角色的方法、用户设备、存储介质及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
严承希;王军;: "高校学生网络行为时序特征的可视化分析", 情报学报, no. 09, 24 September 2018 (2018-09-24) *

Also Published As

Publication number Publication date
CN113553369B (zh) 2024-06-25

Similar Documents

Publication Publication Date Title
US20220019853A1 (en) Systems, methods, and storage media for training a machine learning model
US11055516B2 (en) Behavior prediction method, behavior prediction system, and non-transitory recording medium
Zhao et al. A machine learning based trust evaluation framework for online social networks
CN107305611B (zh) 恶意账号对应的模型建立方法和装置、恶意账号识别的方法和装置
WO2018170311A1 (en) Mixed-initiative machine learning systems and methods for determining segmentations
CA3111752A1 (en) Systems and methods for secure prediction using an encrypted query executed based on encrypted data
CN108268624B (zh) 用户数据可视化方法及***
US11144939B2 (en) Cross-device consumer identification and device type determination
CN115861400B (zh) 目标对象检测方法、训练方法、装置以及电子设备
CN109947814A (zh) 用于检测数据集合中的异常数据组的方法和设备
CN108280644B (zh) 群组成员关系数据可视化方法及***
CN105426392B (zh) 一种协同过滤推荐方法及***
CN115545103A (zh) 异常数据识别、标签识别方法和异常数据识别装置
US11947616B2 (en) Systems and methods for implementing session cookies for content selection
Yan et al. Deepfakebench: A comprehensive benchmark of deepfake detection
CN109409305A (zh) 一种人脸图像清晰度评价方法及装置
US11354297B2 (en) Detecting positivity violations in multidimensional data
CN109478219A (zh) 用于显示网络分析的用户界面
CN112418256A (zh) 分类、模型训练、信息搜索方法、***及设备
Lv et al. Blind dehazed image quality assessment: a deep CNN-based approach
Hartwig et al. Learning human viewpoint preferences from sparsely annotated models
CN109003181A (zh) 可疑用户确定方法、装置、设备和计算机可读存储介质
CN113553369B (zh) 可视化用户分类方法、服务方法、***、装置及存储介质
Costa‐Pazo et al. Face presentation attack detection. A comprehensive evaluation of the generalisation problem
Yang et al. CPSS-FAT: A consistent positive sample selection for object detection with full adaptive threshold

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant