CN108170830B - 群组事件数据可视化方法及*** - Google Patents

群组事件数据可视化方法及*** Download PDF

Info

Publication number
CN108170830B
CN108170830B CN201810022368.6A CN201810022368A CN108170830B CN 108170830 B CN108170830 B CN 108170830B CN 201810022368 A CN201810022368 A CN 201810022368A CN 108170830 B CN108170830 B CN 108170830B
Authority
CN
China
Prior art keywords
group
data
time
shape
event
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810022368.6A
Other languages
English (en)
Other versions
CN108170830A (zh
Inventor
徐葳
孙娇
姚期智
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huakong Tsingjiao Information Technology Beijing Co Ltd
Original Assignee
Huakong Tsingjiao Information Technology Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huakong Tsingjiao Information Technology Beijing Co Ltd filed Critical Huakong Tsingjiao Information Technology Beijing Co Ltd
Priority to CN201810022368.6A priority Critical patent/CN108170830B/zh
Publication of CN108170830A publication Critical patent/CN108170830A/zh
Application granted granted Critical
Publication of CN108170830B publication Critical patent/CN108170830B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/954Navigation, e.g. using categorised browsing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1425Traffic logging, e.g. anomaly detection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/104Peer-to-peer [P2P] networks
    • H04L67/1044Group management mechanisms 

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Security & Cryptography (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Signal Processing (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Computer Hardware Design (AREA)
  • Mathematical Physics (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本申请提供一种群组事件数据可视化方法及***,应用于一欺诈事件检测***中,所述方法包括以下步骤:获取一个群组的数据集,数据集中的数据特征至少包括事件类型及与事件类型相关联的时间信息;创建第一时间轴及第二时间轴;基于对数据特征的编码,显示以第一形状作为节点的第一时间轴,以表征群组在第一时间轴的每一时间粒度内发生的事件类型及数量;显示第二形状,以表征第二时间轴的时间区间内发生的每种事件类型的总数量;显示第二时间轴,将第二形状中表征的事件类型与该事件类型在第二时间轴的各时间粒度进行关联,并通过第三形状表征的各事件类型在第二时间轴上的分布;以及显示第四形状,以表征群组在第二时间轴的每一时间粒度内发生的事件类型及数量。

Description

群组事件数据可视化方法及***
技术领域
本申请涉及计算机处理技术领域,特别是涉及一种群组事件数据可视化方法及***。
背景技术
在线欺诈已经是众人熟知的当今互联网黑暗面了,它每年都会在世界范围内造成不可估量的损失。2015年,互联网犯罪投诉中心接到了全世界范围内的百万级别的关于欺诈问题的投诉,而网上欺诈每年也会在世界范围内造成几十亿的经济损失,欺诈用户通常而言会从帮忙推销某个具体商品,或者散布垃圾信息中得到报酬。在互联网金融中,欺诈用户利用假身份来申请贷款、用他们盗取的***购买商品、甚至进行洗钱等非法活动。因此,在互联网商业场景中,找到合适的反欺诈算法变得越发关键,这一需求也与日俱增。
尽管如今有很多方法来识别互联网上的欺诈,但是受所构建的欺诈事件检测***的限制,所筛选出的对应欺诈嫌疑人的数据的可信性需要后续大量的人力验证,例如,平台监管人员需逐个排查验证。这使得欺诈事件检测***中比如算法参数的修订、数据特征优先级的设计、算法模型选取等,不仅需要算法专家的软件设计,更需要领域专家的参与。因此,提高欺诈识别算法的透明度能有效改进欺诈事件检测准确率,以如何实现数据的可视化为本领域亟待解决的问题。
发明内容
鉴于以上所述现有技术的缺点,本申请的目的在于提供一种群组事件数据可视化方法及***,用于解决现有技术中欺诈识别算法可视化的问题。
为实现上述目的及其他相关目的,本申请的第一方面提供一种群组数据可视化方法,应用于一欺诈事件检测***中,包括以下步骤:获取一个群组的数据集,所述数据集中的数据特征至少包括事件类型及与所述事件类型相关联的时间信息;创建第一时间轴及第二时间轴;基于对所述数据特征的编码,显示以第一形状作为节点的第一时间轴,以表征所述群组在所述第一时间轴的每一时间粒度内发生的事件类型及数量;显示第二形状,以表征所述第二时间轴的时间区间内发生的每种事件类型的总数量;显示第二时间轴,将所述第二形状中表征的事件类型与该事件类型在所述第二时间轴的各时间粒度进行关联,并通过第三形状表征的各事件类型在所述第二时间轴上的分布;以及显示第四形状,以表征所述群组在所述第二时间轴的每一时间粒度内发生的事件类型及数量。
本申请第二方面提供一种计算机设备,包括:一个或多个处理器;以及在所述一个或多个处理器上执行的呈现引擎,所述呈现引擎用于执行如本申请第一方面所述的群组数据可视化方法。
本申请第三方面提供一种群组数据可视化***,包括:获取模块,通过网络获取一个群组的数据集,所述数据集中的数据特征至少包括事件类型及与所述事件类型相关联的时间信息;处理模块,创建第一时间轴及第二时间轴,以及对所述数据特征的编码;以及显示模块,通过显示设备在一个界面中显示第一、第二时间轴以及显示第一、第二、第三、及第四形状,其中,所述第一形状作为所述第一时间轴的节点以表征所述群组在所述第一时间轴的每一时间粒度内发生的事件类型及数量;所述第二形状表征所述第二时间轴的时间区间内发生的每种事件类型的总数量;所述第三形状表征所述第二形状中表征的事件类型在所述第二时间轴上的分布;所述第四形状表征所述群组在所述第二时间轴的每一时间粒度内发生的事件类型及数量。
本申请第四方面提供一种客户端,通过网络连接一服务端,所述客户端基于发送请求以登录所述服务端执行本申请第一方面所述的群组数据可视化方法的步骤
本申请第五方面提供一种服务器,通过网络连接一客户端,所述服务器基于所述客户端执行请求的操作,向所述客户端发送本申请第一方面所述的群组数据可视化方法的过程并通过所述客户端显示执行结果。
本申请第六方面提供一种浏览器,通过网络连接一服务端,所述浏览器基于发送请求以登录所述服务端执行本申请第一方面所述的群组数据可视化方法的步骤。
本申请第七方面提供一种计算机可读存储介质,存储有数据可视化计算机程序,其特征在于,所述数据可视化计算机程序被执行时实现本申请第一方面所述的群组数据可视化方法的步骤。
如上所述,本申请的群组数据可视化方法及***通过将欺诈事件检测过程中所确定群组的数据集基于时间轴、类型分布、分类列表等方式予以呈现,实现了将欺诈事件检测期间所分群组的数据特征以多种关系界面进行展示,有利于领域专家和算法专家对欺诈事件检测***的检测算法进行评估和修订。
附图说明
图1显示为本申请在一实施例中的群组数据可视化方法流程图。
图2显示为本申请在一实施例中获取群组数据集步骤的流程图。
图3显示为本申请在一实施例中显示的包含多个群组的界面。
图4显示为本申请在一实施例中群组数据可视化的显示界面示意图。
图5显示为本申请在另一实施例中群组数据可视化的显示界面示意图。
图6a-6d分别显示本申请为利用本申请的可视化方法而显示几种状态的界面示意图。
图7显示本申请在一实施例中显示的一个群组的数据集的列表界面示意图。
图8显示为本申请在一实施例中群组数据集的特征分布的界面的流程图。
图9显示为本申请在一实施例中显示的一个群组中的注册时间的特征分布的直方图及对比图的界面。
图10显示为本申请在一个实施例中显示多个群组在集群中分布步骤流程图。
图11显示了本申请在一个实施例中显示多个群组在集群中分布界面示意图。
图12显示为本申请在一个实施例中所提供计算机设备的模块结构示意图。
图13显示为本申请在一个实施例中所提供的群组数据可视化***的模块结构示意图。
具体实施方式
以下由特定的具体实施例说明本申请的实施方式,熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本申请的其他优点及功效。
在下述描述中,参考附图,附图描述了本申请的若干实施例。应当理解,还可使用其他实施例,并且可以在不背离本申请的精神和范围的情况下进行机械组成、结构、电气以及操作上的改变。下面的详细描述不应该被认为是限制性的,并且本申请的实施例的范围仅由公布的专利的权利要求书所限定。这里使用的术语仅是为了描述特定实施例,而并非旨在限制本申请。
再者,如同在本文中所使用的,单数形式“一”、“一个”和“该”旨在也包括复数形式,除非上下文中有相反的指示。应当进一步理解,术语“包含”、“包括”表明存在所述的特征、步骤、操作、元件、组件、项目、种类、和/或组,但不排除一个或多个其他特征、步骤、操作、元件、组件、项目、种类、和/或组的存在、出现或添加。此处使用的术语“或”和“和/或”被解释为包括性的,或意味着任一个或任何组合。因此,“A、B或C”或者“A、B和/或C”意味着“以下任一个:A;B;C;A和B;A和C;B和C;A、B和C”。仅当元件、功能、步骤或操作的组合在某些方式下内在地互相排斥时,才会出现该定义的例外。
在欺诈事件检测技术中,领域专家为欺诈事件识别的核心技术提供数据分类的经验和分类结果准确性的需求,但算法架构本身及算法中的参数并不是他们所熟知的。领域专家由于无从得到检测期间对数据分类的方式,当利用欺诈事件检测***得到欺诈事件检测结果时,领域专家除了对检测结果进行验证之外,无从判断所得到的检测结果的准确性。为了提高欺诈事件检测***的准确性,本申请提供一种应用于欺诈事件检测***的群组数据可视化方法,将欺诈事件检测***中经分类得到的群组及其数据集以可视化的方式展示给算法专家和领域专家,使得不同的用户(如领域专家或算法专家)通过多种交互式手段来探索各种欺诈行为,并能够按根据自己的需要进行不同深度的探索。
所述群组数据可视化方法主要由计算机设备来执行。所述计算机设备可以是以下合适的计算机设备,诸如手持计算机设备、平板计算机设备、笔记本计算机、桌上型计算机,服务器等。计算机设备包括显示器、输入装置、输入/输出(I/O)端口、一个或多个处理器、存储器、非易失性存储设备、网络接口、以及电源等。所述的各种部件可包括硬件元件(例如芯片和电路)、软件元件(例如存储指令的有形非暂态计算机可读介质)、或者硬件元件和软件元件的组合。此外,需注意,各种部件可被组合成更少的部件或者被分离成附加部件。例如,存储器和非易失性存储设备可被包括在单个部件中。所述计算机设备可单独执行所述可视化方法,或与其他计算机设备配合执行。在一些实施方式中,计算机设备执行可视化方法并将相应的可视化界面予以展示。例如,计算机设备包含处理器、显示器,其中,在所述处理器上执行的呈现引擎(或显示引擎),所述呈现引擎用于执行所述的群组数据可视化方法并通过显示器予以显示,在此,所述呈现引擎包括但不限于能够解析基于程序语言开发的用于界面显示的软件及硬件,如XML、HTML等脚本语言、C语言等。在又一些实施方式中,一台计算机设备执行可视化方法并将相应的可视化界面提供给另一台计算机设备予以展示。例如,客户端基于用户的请求操作向服务端发起请求并登录所述服务端,服务端执行可视化方法以形成相应的界面数据,并将所述界面数据反馈给客户端,由客户端的浏览器或定制的应用程序按照相应界面数据显示相应图示。
所述可视化方法主要由欺诈事件检测***来执行。所述欺诈事件检测***可包含一个或多个计算机设备中的软件和硬件。为了向用户提供一个欺诈群组在不同时间段上的行为,从而回答领域专家所提出的“一个组作为一个欺诈群组做了什么呢”,以及算法专家所提出的“同一个组的用户是否都有相同的行为习惯”。本申请从时间轴线上提供一种可视化方法。请参阅图1,显示为本申请在一实施例中的群组数据可视化方法流程图。如图所示,所述群组数据可视化方法包括以下步骤:
在步骤S11中,获取一个群组的数据集。所述数据集中的数据特征至少包括事件类型及与所述事件类型相关联的时间信息。在某些实施例中,确定一个群组的方式如下描述,请参阅图2,显示为本申请的所提供一种实施方式的获取一个群组数据集的流程图,如图所示,所述步骤S11进一步包括:
步骤S111,获取由多个网络用户组成集群的操作日志;在不同的实施例中,所述集群是能够获取到的所有网络用户组成的一个集群,所述集群中的网络用户来自同一网站或者不同的网站,也或者来自不同的网络渠道,比如可以是因特网、一个或多个内部网、局域网(LAN)、广域网(WLAN)、存储局域网(SAN)等或其适当组合,也可以是移动电话的移动通信网络等。
步骤S112,从所述多个网络用户的操作日志中确定至少一个数据特征,并分析所述操作日志中至少一组数据特征的相似度以确定所述群组;在具体的实施例中,针对网络欺诈行为必然会在网络中留下用户使用数据的特点,欺诈事件检测***中收集来自至少一个网站的多个网络用户的操作日志,通过分析所述操作日志中至少一个数据特征的相似度,对产生相应操作日志的用户进行分组,得到群组及群组在操作日志中的数据集。
在某些实施例中,位于一个群组的数据集中包括但不限用户信息、IP地址、事件类型、事件发起源、事件响应方,及事件发生时间中的至少二者数据特征。其中,所述用户信息如手机号码、邮箱、ID号、身份证号、性别、用户所使用的用户设备编号、注册时间等。其中,同一用户信息可对应至少一个事件类型,每个事件类型对应事件发起源、事件响应方和事件发生时间。所述事件特征包括但不限于:网络用户之间进行的关注、点赞、评论、馈赠(或者称之为送礼)等社交行为,或者网络用户进行登录、登出、更新状态、注册、修改信息等操作行为中的至少一者。例如,同一用户信息可对应多个点赞事件类型,每个点赞事件类型对应各自事件发起源、事件响应方和事件发生时间。
步骤S113,获取所述群组的数据集。在一些实施例中,所述数据集可获取自一存放有各群组及其数据集的数据库,所述数据库例如配置于一远端的存储服务器上,或者配置于本地的计算机设备中的存储装置中,则所获取的一个群组的数据集可基于用户的输入操作从数据库中提取而获取。例如,所述欺诈事件检测***利用无监督检测算法得到多个群组,用户通过选择界面选择其中一个群组,则获取相应群组的数据集。
具体地,所述欺诈事件检测***先对操作日志中所有数据在同一类数据特征的相似度进行计算,其中,所述相似度可利用信息熵予以衡量,例如,所述欺诈事件检测***分别利用用户信息计算IP使用量或最大IP使用量维度的信息熵,利用事件类型计算操作类型维度的信息熵,利用注册时间维度的信息熵或者操作时间计算不良操作维度的信息熵;藉由上述的计算,再利用无监督检测方式对所得到的各信息熵进行检测并划分得到多个群组。其中,所述无监督检测方式举例包括采用基于稠密子图的算法、或者基于向量空间的算法等。本申请所提供的可视化方法所呈现的各群组用于反映欺诈事件所使用的共享资源、用户关系等,来让使用所述欺诈事件检测***的用户更清晰地确定所述无监督检测算法中的分类策略是否合理。其中,所述共享资源包括但不限于共用的IP、邮箱等,用户关系包括但不限于:用户关注、交互关系等。
在一种实施例中,所述可视化方法还包括显示至少一个群组界面的步骤,所述群组界面中的群组大小以显示的几何图形大小进行表征。请参阅图3,显示为本申请在一实施例中显示的包含多个群组的界面,如图所示,界面中显示有11个群组,用来表征该些群组的几何图形为圆形,所述的11个群组皆位于一个最大虚线圆内,在所述虚线圆内,比如所述虚线圆用来表征一个有N个网络用户组成的集群,例如标号为0的群组例如为正常群组,在一个较小虚线圆内有标号为1-10的大小不同的10个群组,圆形的尺寸与群组的成员数量成正比,即,大的群组表示成员数量较多,小的群组表示成员数量较少,例如标号为1-10的群组为异常群组。在不同的实施例中,所述群组的所述几何图形可以是任意形状。几何图形的颜色可随机设置,或与群组的数量或群组的成员数量相关。例如,预设有N种颜色,所述欺诈事件检测***随机地将不同颜色对应到表征各群组的几何图形上。又如,所述欺诈事件检测***根据预设的颜色顺序,按照成员数量由小到大的顺序依次对应表征各群组的几何图形上。当用户操作所述显示界面而选中一个几何图形时,所述欺诈事件检测***获取一个群组的数据集。
在一个优选实施例中,所述显示至少一个群组界面中还可以包括显示群组信息的信息栏,当用户选择所述群组界面中的一个群组时,在界面的一侧以视窗或者文本框的方式显示所述群组的基本信息,所述基本信息例如为:群组编码、成员数量、用于确定所述群组最优选的数据特征,群组属性(比如正常群组或异常群组)等信息。
在步骤S12中,创建第一时间轴及第二时间轴。所述第一时间轴和第二时间轴是根据数据集中的时间信息而创建的,比如所述数据集中多个时间信息中时间跨度最大为10天,则第一时间轴或第二时间轴的最大时间区间为10天。在一个实施例中,按照相同的时间区间及时间粒度对创建第一时间轴及第二时间轴;在另一个实施例中,照不同的时间区间及时间粒度对创建第一时间轴及第二时间轴,容后详述。
在步骤S13中,基于对所述数据特征的编码,显示以第一形状作为节点的第一时间轴,以表征所述群组在所述第一时间轴的每一时间粒度内发生的事件类型及数量。其中,所述欺诈事件检测***按照第一时间轴的时间粒度对数据集中的事件类型的数量进行统计,将所统计的事件类型编码成预设的第一形状的图形,并按照时序将所编码的各第一形状作为第一时间轴的节点呈现在第一时间轴上。通过第一时间轴上各节点的显示,领域专家能够清晰获得依据时间所统计的事件类型在分布上或数量上的变化过程。其中,所述第一形状包括但不限于:饼状形状、或柱状形状。在一些实施示例中,欺诈事件检测***可以将一时间粒度内的各事件类型的数量百分比的占比情况编码成第一形状的图形并显示在第一时间轴上,其中,同样事件类型的占比区域的颜色相同。请参阅图4,显示为本申请在一实施例中群组数据可视化的显示界面示意图,如图所示,在显示的界面中,所述第一时间轴T1位于显示界面的下方区域,显示为自8月1日至8月10日10天的时间区间,以天为时间粒度,将每天所统计的事件类型的数量百分比分布编码成饼状图形并作为节点显示在第一时间轴T1上,所述饼状图形中的颜色用于代表事件类型,比如图中标为“黄”色的表示为关注事件,图中标为“红”色的表示为馈赠事件,图中标为“蓝”色的表示为点赞事件,比如图示中第一时间轴T1上以饼状图形作为节点显示的8月7日这天,产生的事件类型中关注事件占比较多,馈赠事件占比较少,点赞事件占比最少。
在步骤S13中,基于对所述数据特征的编码,显示第二形状,以表征所述第二时间轴的时间区间内发生的每种事件类型的总数量。其中,所述欺诈事件检测***按照第二时间轴的时间区间对数据集中的事件类型的数量进行加和,将所累加的各事件类型编码成预设的第二形状的图形,并显示在第二时间轴的一时间区间内各事件类型的总数量。其中,所述第二形状包括但不限于:直方图、柱状图、折线图等。根据所创建第二时间轴的时间区间,所显示的各种事件类型的总数量反映了在同一时间区间内各事件类型在数量上的对比情况。当所述第二时间轴的时间区间表示一天或一周时,用户可根据所显示的对应“红”、“黄”和“蓝”三种事件类型的总数量的柱状形状的长短来确定三种事件类型在总数量上的对比情况。此外,所显示的柱状图形还可以依据粗细、透明度等来确定该三种事件类型在总数量上的对比情况。再请参阅图3,如图所示,临近所述第一时间轴T1的一侧(图示中的右侧)显示有一个呈横向直方图,所述直方图中自上而下显示有“红”、“黄”和“蓝”三个柱状条,柱状条的长度代表所述第二时间轴的时间区间内产生事件类型的总数量,可以从该第二形状中看出,在第二时间轴的时间区间内产生事件类型中标为“黄”色的柱状条表示的关注事件最多,标为“红”色的柱状条表示的馈赠事件次之,标为“蓝”色的柱状条表示的点赞事件最少。
通过显示第二时间轴的时间区间内所发生的各事件类型的总数量,领域专家能够从另一视角清晰获得依据时间所统计的事件类型在数量上的变化过程。为了更清晰的显示第一时间轴和第二时间轴之间的关联关系,在步骤S13中,基于对所述数据特征的编码,显示第二时间轴,将所述第二形状中表征的事件类型与该事件类型在所述第二时间轴的各时间粒度进行关联,并通过第三形状表征的各事件类型在所述第二时间轴上的分布。其中,将第二时间轴呈现成以相应的时间粒度为节点的轴线,利用第三形状将分布在各相邻节点的事件类型与第二形状进行关联,使得用户清晰地获得第二形状与第二时间轴的各时间粒度之间的关联关系。其中,第三形状可以是线条状,所述线条的颜色可依据第二形状中对应事件类型的颜色而定,以便于让用户清晰分辨统一的事件类型。
复请参阅图3,如图所示,通过第三形状将第二形状和第二时间轴进行关联,其中,第三形状以弧线为例并基于数据集中各事件类型的时间信息散布到第二时间轴的各时间粒度的节点上。比如图中用点状线(第一种虚线)表示“红”色的柱状条表示的馈赠事件和第二时间轴上相应时间节点(时间粒度)的关联,用连续线表示“黄”色的柱状条表示的关注事件和第二时间轴上相应时间节点(时间粒度)的关联,用点和线段(第二种虚线)组成的线表示“蓝”色的柱状条表示的点赞事件和第二时间轴上相应时间节点(时间粒度)的关联。在不同的实施方式中,所述第三形状利用线条粗细或透明度来描述在相应时间粒度间隔内所产生的事件类型的数量,由此便于呈现事件发生的高频时段或规律。
为了更直观地显示第二时间轴上各时间粒度间隔内所发生的事件类型及数量,在步骤S13中,显示第四形状,以表征所述群组在所述第二时间轴的每一时间粒度内发生的事件类型及数量。其中,所述欺诈事件检测***按照第二时间轴的时间区间对数据集中的事件类型的数量进行加和或分布统计,将所累加的事件类型或分布情况编码成预设的第四形状的图形,并按照时序将所编码的各第四形状作为第二时间轴的节点呈现在第二时间轴上。其中,根据所创建的第二时间轴的时间粒度在第三形状的指引下,显示对应的第四形状。通过第二时间轴上各节点的显示,用户能够从另一视角清晰获得依据时间所统计的事件类型在数量上的变化过程。其中,所述第四形状包括但不限于:饼状形状、或柱状形状,且选择不同于第一形状的形状。在一些实施示例中,欺诈事件检测***可以将第二时间轴的时间粒度内的各事件类型的数量累加和分别编码成第四形状的图形并显示在第二时间轴上,其中,同样事件类型的累加和采用与第三形状及第二形状相同的颜色。
以时间轴作为呈现群组数据的方式之一,是因为无论是领域专家还是算法专家,理解用户在一个段时间内的集中性行为是非常关键的。为此,通过执行步骤S13将第一时间轴和第二时间轴的结合来描述这种集中性的行为。
请参阅图3,如图所示,第一时间轴T1中的每个饼状图都呈现了每个时间粒度的(如每天)不同事件类型(如关注了一个用户或给某个用户在网上送了一个礼物)所占的比例。将各事件类型编码为不同颜色,将第一时间轴T1的单位时间粒度内各事件类型的数量编码为饼图中各区域的面积占比以形成一个饼图,将第二时间轴T2的时间区间内各事件类型的数量编码为柱状图形的长度以形成对应各事件类型的柱状图(即第二形状),将第二时间轴T2的单位时间粒度内各事件类型数量编码为柱状图的长度以形成单独的柱状图(即第四形状);当用户选择第一时间轴T1上的一个饼图时,自对应各事件类型的第二形状射出以事件类型为颜色的弧线(即第三形状),并对应到第二时间轴T2上对应时间粒度的各第四形状上,由此将一个群组数据集中各事件类型的时间轴关系清晰地呈现给用户。
在一种实施方式中,按照相同的时间区间及时间粒度对创建第一时间轴及第二时间轴。例如,所述欺诈事件检测***预先加载时间粒度均相同的第一时间轴和第二时间轴,以供所述欺诈事件检测***按照数据集中的时间信息和时间粒度将各事件类型对应到各时间轴上,以得到各自时间轴的至少一个时间区间。又如,所述欺诈事件检测***根据数据集中的时间信息的排序,确定预先设定的第一时间轴和第二时间轴的时间区间,并按照数据集中的时间信息和时间粒度将各事件类型对应到各时间轴上。请参阅图3显示的包含第一时间轴T1和第二时间轴T2的界面。其中,T1和T2时间轴均以天为时间粒度,均以10天为时间区间,所述欺诈事件检测***可通过执行前述之各步骤按照数据集中的时间信息在所述第一时间轴T1和第二时间轴T2上显示数据集中的数据特征。例如以图3所示的,第二时间轴T2以天为时间粒度,欺诈事件检测***可将每天所统计的每种事件类型的总和布编码成柱状图形并作为节点显示在第二时间轴T2上。
在另一实施示例中,按照不同的时间区间及时间粒度对创建第一时间轴及第二时间轴。其中,所述第二时间轴的时间区间为所述第一时间轴的时间粒度。例如,预先设定第一时间轴和第二时间轴的时间粒度不同,以及预设两个时间轴之间时间粒度之间的对应关系,所述欺诈事件检测***按照数据集中的时间信息将各事件类型对应到各时间轴上。请参阅图5,其显示为包含第一时间轴T1和第二时间轴T2的界面。其中,T1时间轴以10天为时间区间,以天为时间粒度,T2时间轴以天为时间区间,以小时为时间粒度;所述欺诈事件检测***可通过执行后续步骤按照数据集中的时间信息在所述第一时间轴T1和第二时间轴T2上显示数据集中的数据特征。例如以图5所示的界面C2,第二时间轴T2以小时为时间粒度,欺诈事件检测***可将每小时所统计的事件类型的总和编码成柱状图形并作为节点显示在第二时间轴T2上。
将第一时间轴T1的时间粒度内各事件类型的数量编码为饼图中各区域的面积占比以形成一个饼图;当用户选择第一时间轴T1上的一个饼图时,将第二时间轴T2的时间区间内各事件类型(相当于所选择的饼图所对应的各事件类型)的数量编码为柱状图形的长度以形成对应各事件类型的柱状图(即第二形状),将第二时间轴T2的单位时间粒度内各事件类型数量编码为柱状图的长度以形成单独的柱状图(即第四形状),以及自对应各事件类型的第二形状射出以事件类型为颜色的弧线(即第三形状),并对应到第二时间轴T2上对应时间粒度的各第四形状上,由此将一个群组数据集中各事件类型的时间轴关系清晰地呈现给用户。
如图4所示界面C1,第一时间轴T1中的每个饼状图都展示了每个时间粒度的(如每天)不同事件类型(如关注了一个用户或给某个用户在网上送了一个礼物)所占的比例。将各事件类型编码为不同颜色,比如图示中所述饼状图形中的颜色用于代表事件类型,比如图中标为“黄”色的表示为关注事件,图中标为“红”色的表示为馈赠事件,图中标为“蓝”色的表示为点赞事件,比如图示中第一时间轴T1上以饼状图形作为节点显示的8月7日这天,产生的事件类型中关注事件占比较多,馈赠事件占比较少,点赞事件占比最少。当用户选择第一时间轴T1上的节点8月7日这天时,则在第二时间轴T2上则显示8月7日这天24个小时内,每个小时发生的事件类型以及各事件类型对应的数量。
需要特别说明的是,上述各实施例中的第一时间轴和第二时间轴的时间区间及时间粒度并不仅受限于所举例的情况,在不同的实施例中,用户可依据实际的情况设置第一时间轴和第二时间轴的时间区间及时间粒度,比如为周、月、季度甚至年等时间单位。
用户可利用该呈现过程和所展示的统计情况对欺诈事件检测***所分类的群组进行检测并利用该可视化的界面让领域专家发现或纠正检测算法中的不足。此外,为了更清晰地显示两时间轴的关联关系,所述可视化方法还包括所述第一形状在被选择时,通过所述第三形状动态、高亮、或动态且高亮地显示所述第一形状表征的时间粒度内发生的事件类型在所述第二时间轴的分布。例如,在图4所示的界面C1中,当用户选中第一时间轴T1上的一个饼图时,与在第二时间轴T2上对应所选中饼图的柱状图相连的各第三形状闪烁数秒或者更长时间的闪烁,也或者高亮显示,当用户选中第一时间轴T1上另一个饼图时,此前闪烁及高亮的第三形状恢复初始形状和颜色,且与在第二时间轴T2上对应所选中饼图的柱状图相连的各第三形状闪烁数秒且高亮显示。
在某些实施例中,当用户选中第一时间轴上的一第一形状时,所述可视化方法还可以执行所述第一形状在被选择时显示放大的步骤,以便用户更清晰地查看第一形状所表征的事件类型数量的对比情况。在一种具体示例中,所述第一形状在被选择时在所述第一时间轴的一侧放大显示。例如,所选中的第一形状在第一时间轴上侧放大显示,呈如图6a所示的界面C3。在另一具体示例中,所述第一形状在被选择时在所述第一时间轴中放大显示。例如,所选中的第一形状在第一时间轴的同一圆心位置被放大显示,呈如图6b所示的界面C4。
在另一种具体示例中,当用户选中第一时间轴T1上的一个饼图时,所述第一形状在被选择时在所述第一时间轴TI的一侧放大显示的同时,与在第二时间轴T2上对应所选中饼图的柱状图相连的各第三形状闪烁数秒或者更长时间的闪烁显示,诚如图6c所示的界面C5,当用户选中第一时间轴T1上表征8月7日的饼图时,所述表征8月7日的饼图在被选择时在所述第一时间轴TI的一侧放大显示,而且,与在第二时间轴T2上对应表征8月7日的柱状图相连的各线条闪烁数秒或者更长时间的闪烁显示。再例如图6d所示的界面C6,当用户选中第一时间轴T1上表征8月7日的饼图时,所述表征8月10日的饼图在被选择时在所述第一时间轴TI的一侧放大显示,而且,与在第二时间轴T2上对应表征8月10日的柱状图相连的各线条高亮显示。
在一些实施例中,用户不仅关心群组数据集中各事件类型依时间轴所呈现的变化情况,更关心所分配的群组是否合理,这需要用户能够查看每个群组中的详细数据特征及用于分类群组而构建的各数据特征的优选次序。所述可视化方法可包含显示一个群组的数据集的界面的步骤。所显示的数据集以列表方式予以显示,由此为用户显示同一群组中数据特征的详细信息。为提高所述群组数据集分类准确性,所述界面中所显示的列表可依据欺诈事件检测***分类时所依据的分类优先级将一个群组中的数据特征列表逐列展示。例如,请参阅图7,显示本申请在一实施例中显示的一个群组的数据集的列表界面示意图。在所述列表界面示意图中,所显示的一个群组的数据集是按照数据特征的相似性为优先级由高到低的顺序排序而得的。当第一优先级中的数据特征相似性相同时,按照第二优先级的数据特征进行排序,在图7所示的实施例中,所述优先级由高向低的顺序为:IP地址、事件发起源(source)、事件响应方(target)、事件类型(event_type)及事件发生时间(timestamp)。在本实施例中,将表格的抬头(表头)用不同列的重要性进行编码,如果一个特征的取值越集中,那么这个特征就越重要。在本申请提供的一实施例中,所述欺诈事件检测***是通过计算每个特征的信息熵来代表这一特性。如果信息熵越低,那么意味着一致性就越高。然后所述欺诈事件检测***将特征按照信息熵递增的顺序进行排序,最终将低信息熵的列表头顺序靠前来提示户的注意,当然,不同的实施情况下,还可以依据将显示的表格中的列表头进行颜色渲染,比如最终将低信息熵的列表头的颜色渲染为最深来提示户的注意该列所表征的数据特征最为重要,以此类推进行颜色渲染该列所表征的其他数据特征,进而得到图中所示的数据集列表界面。该列表界面可承接在显示多个群组界面的步骤或步骤S13之后,再或者基于用户选择该列表界面的选择操作而显示。
在某些实施例中,为更进一步表征所获取的群组的数据集是否能够反映欺诈事件的特性,还需要从其他维度进行展示。例如,通过比对正常用户的网络操作数据和群组数据集来进一步确认所检测的欺诈事件的准确性。为此,所述可视化方法还包括:显示所述群组的数据集的特征分布的界面的步骤。其中,所述特征分布界面可展示以各数据类型在整体网络中的分布,所述的整体网络是相对的,比如由多个网络用户组成一个集群,则可以通过界面显示该集群中某一个群组中的某一个数据特征的分布,请参阅图2,比如图2中最大虚线圆表示一个由多个网络用户组成集群,该集群中有11个群组,分别是编号为0-10的群组,从中选择一个群组进行信息展示。
在一些实施例中,特征分布界面可展示的数据类型例如为:平均操作时间间隔维度的信息熵(average operation interval entropy),IP地址使用量维度的信息熵(IPused amount entropy),性别维度的信息熵(sex entropy),电子邮件维度的信息熵(emailentropy),注册时间维度的信息熵(reg time entropy),操作次数维度的信息熵(operation times entropy),设备数量维度的信息熵(device amount entropy),操作类型维度的信息熵(operation type entropy),所使用IP被他人使用的最大量的信息熵(maxIP used be used amount entropy)等等。在图7所示的实施例中,以注册时间维度的信息熵为数据特征为例进行展示,即图7显示为一个群组中注册时间(注册时段)维度的信息熵在网络集群中的特征分布。为了有效比对所获取的群组数据集与正常用户的网络操作数据的特征分布差异,请参阅图8,其显示为显示所述群组的数据集的特征分布的界面的流程图,如图所示,包括以下步骤:
在步骤S211中,选择一个所述群组,并从所述群组的数据集中确定至少一个数据特征。在一个实施例中,比如选择图3中标号为2的群组,并从所述标号为2的群组中的数据集中确定一个为用户信息的数据特征,比如所述用户信息为注册时间。
在步骤S212中,统计所述确定的至少一个数据特征在所述群组及集群中的特征分布。在本实施例中,统计所述为注册时间的数据特征在所述群组中的特征分布,以及统计所述为注册时间的数据特征在所述整个集群中的特征分布。
在步骤S213中,显示所述特征分布的直方图及对应所述直方图在整个集群直方图中的分布对比图。在本实施例中,基于对所述数据特征的编码,显示所述为注册时间的数据特征在所述群组中特征分布的直方图,以及显示所述为注册时间的数据特征在所述整个集群中特征分布的直方图。请参阅图9,显示为本申请在一实施例中一个群组中的注册时间的特征分布的直方图及对比图的界面,如图所示,在所述界面D中,图(a)显示为所选标号为2的群组中注册时间的特征分布缩略图,对应所述缩略图的放大,则为界面D中最下侧的放大图(d),由所述放大图可以看出,在该群组中,自8月1日至8月31日的一个月中,该群组成员进行注册操作的时间集中在8月5日、8月6日,8月11日,8月12日,以及8月16日这5天,而在所述界面D中图(c)表征为所述集群中注册用户在8月份内进行注册操作的时间分布的直方图,从该图(c)可以看出,所述集群中注册用户在8月份内的注册分布具有一定的规律,在界面D中图(b)表征为将图(d)和图(c)进行重合叠加来展示为注册时间的数据特征在所述整个集群中和选择的群组中的差别。为了能够使得用户能够知道不同特征之间的区别和联系,本申请提供的实施例中将这个柱状图以三层形式进行呈现,用户通过点击其中一个缩略图后,页面将滚动到经过归一化的分布对比图。当然,在具体的应用中,所述数据特征的缩略图还可能有多个,每个代表不同的数据特征。
在一些实施例中,还可以通过对直方图进行颜色渲染以区分或强调某个数据特征在所述群组及整个集群中特征分布,或者动态显示(比如闪烁的方式)以区分或强调某个数据特征在所述群组及整个集群中特征分布。
在一些实施例中,为了进一步分析一个网络集群中的多个群组之间的差异,所述群组数据可视化方法还包括显示多个群组的数据集的特征分布的界面的步骤,请参阅图10及图11,图10显示为本申请在一个实施例中显示多个群组在集群中分布的步骤流程图,图11显示为本申请在一个实施例中显示多个群组在集群中分布界面E,如图所示,所述步骤包括:
在步骤S311中,由多个网络用户组成的集群中确定多个群组,分别用不同形状、图标、标签和/或颜色表征所述多个群组的不同;在一个实施例中,比如选择图3中标号0、1和2的3个群组,其中,标号为0的群组用“绿”色表示,标号为1的群组用“红”色表示,标号为2的群组用“蓝”色表示。
在步骤S312中,从所述多个群组的数据集中确定至少一个数据特征;在本实施例中,从所述这3个群组的数据集中确定一个数据特征,比如IP地址。
在步骤S313中,基于所述至少一个数据特征分析各该群组中每两个网络用户之间的相对信息熵作为度量所述每两个网络用户之间的相似程度;在本实施例中,基于所述IP地址分析标号0、1和2的3个群组中每两个网络用户之间的相对信息熵(IP使用量维度的信息熵,IP used amount entropy)作为度量所述每两个网络用户之间的相似程度。比如,采用数据降维的方法t-SNE(t-分布邻域嵌入算法)并用两个用户之间的相对熵来作为度量这些网络用户距离的指标。
在步骤S314中,输出显示界面,在所述界面中,用形状、图标、和/或标签表征网络用户,用不同颜色表征所述多个群组的不同,用显示的距离表征每一群组中两个网络用户之间的相似程度。在本实施例中,呈如图11所示的界面E,用圆点表征网络用户,“绿”色表示标号为0的群组,用“红”色表示标号为1的群组,用蓝“蓝”色表示标号为2的群组,其中,用“蓝”色表示标号为2的群组中的用户距离比较短,该群组成簇状分布,用“红”色表示标号为1的群组中的用户距离也比较短,该群组成簇状分布,用“绿”色表示随机抽样的正常用户的分布,正常用户之间的距离较远,分布更为分散。藉此可以认为,一个群组如果是稠密的一簇,其被认为是一个欺诈组的可能性越大。比如图11所示的实施例中,该用“绿”色表示的群组呈较为分散的分布,则表示为该“绿”色群组为正常群组,其中的“绿”点表示的用户也为正常用户。相反的,用“红”色表示的群组(即标号为1的群组)以及用“蓝”色表示的群组(即标号为2的群组)呈成簇状分布,则表示为该“红”色及“蓝”色群组为异常群组,其中,用“红”点及“蓝”点表示的用户为异常用户。在一实施例中,使用所述可视化***的用户可交互式地通过鼠标悬浮来查看每个群组中用户的具体信息及特征取值。
在其他的实施例中,在输出的界面中,也可以用例如为形状、图标、和/或标签表征网络用户,比如形状为三角形、矩形等几何图形,比如图标为笑脸或哭脸、骷髅头像、强盗头像等图标,比如标签用文字或者具有明确区分的符号等。
本申请的群组数据可视化方法通过将欺诈事件检测过程中所确定群组的数据集基于时间轴、类型分布、分类列表等方式予以呈现,实现了将欺诈事件检测期间所分群组的数据特征以多种关系界面进行展示,有利于领域专家和算法专家对欺诈事件检测***的检测算法进行评估和修订。
本申请还提供一种计算机设备,所述计算机设备可以是以下合适的计算机设备,诸如手持计算机设备、平板计算机设备、笔记本计算机、桌上型计算机,服务器等。计算机设备包括显示器、输入装置、输入/输出(I/O)端口、一个或多个处理器、存储器、非易失性存储设备、网络接口、以及电源等。所述的各种部件可包括硬件元件(例如芯片和电路)、软件元件(例如存储指令的有形非暂态计算机可读介质)、或者硬件元件和软件元件的组合。此外,需注意,各种部件可被组合成更少的部件或者被分离成附加部件。例如,存储器和非易失性存储设备可被包括在单个部件中。所述计算机设备可单独执行所述可视化方法,或与其他计算机设备配合执行。
请参阅图12,显示为本申请计算机设备在一实施例中的架构示意图,如图所示,在本实施方式中,所述计算机设备1包括一个或多个处理器以及在所述处理器上执行的呈现引擎,用以执行上述可视化方法并将相应的可视化界面予以展示。例如,计算机设备包含处理器、显示器以及在所述处理器上执行的呈现引擎,其中,在所述处理器上执行的呈现引擎(或显示引擎),所述呈现引擎用于执行上述实施例中描述的群组数据可视化方法并通过显示器予以显示,执行所述群组数据可视化方法的实施过程的描述参阅针对图1至图11的描述。在具体的实施状态下,所述呈现引擎例如为被存储在本地计算机设备的存储器上或者远程存储服务器上,所述呈现引擎包括但不限于能够解析基于程序语言开发的用于界面显示的软件及硬件,如XML、HTML等脚本语言、C语言等。在又一些实施方式中,一台计算机设备执行可视化方法并将相应的可视化界面提供给另一台计算机设备予以展示。例如,客户端基于用户的请求操作向服务端发起请求并登录所述服务端,服务端执行可视化方法以形成相应的界面数据,并将所述界面数据反馈给客户端,由客户端的浏览器或定制的应用程序按照相应界面数据显示相应图示。
本申请还提供一种客户端,所述客户端通过网络连接一服务端,在本实施例中,所述客户端例如为web客户端,所述客户端例如为web服务端,所述web客户端基于发送web业务请求以登录所述web服务端执行上述实施例中描述的群组数据可视化方法并通过显示器予以显示,执行所述群组数据可视化方法的实施过程的描述参阅针对图1至图11的描述。
本申请还提供一种服务器,通过网络连接一客户端,在本实施例中,所述客户端例如为web客户端,所述客户端例如为web服务端,所述web服务器基于web客户端执行请求的操作,向所述客户端发送执行上述实施例中描述的群组数据可视化方法并通过显示器予以显示,执行所述群组数据可视化方法的实施过程的描述参阅针对图1至图11的描述。
本申请还提供一种浏览器,通过网络连接一服务端,所述浏览器基于发送请求以登录所述服务端执行上述实施例中描述的群组数据可视化方法并通过显示器予以显示,执行所述群组数据可视化方法的实施过程的描述参阅针对图1至图11的描述。在本实施例中,所述浏览器例如为网页浏览器,包括但不限于QQ浏览器、Internet Explorer浏览器、Firefox浏览器、Safari浏览器,Opera浏览器、Google Chrome浏览器、百度浏览器、搜狗浏览器、猎豹浏览器、360浏览器、UC浏览器、傲游浏览器、世界之窗浏览器等。
本申请还提供一种群组数据可视化***,所述群组数据可视化***可包含一个或多个计算机设备中的软件和硬件。为了向用户提供一个欺诈群组在不同时间段上的行为,从而回答领域专家所提出的“一个组作为一个欺诈群组做了什么呢”,以及算法专家所提出的“同一个组的用户是否都有相同的行为习惯”。本申请从时间轴线上提供一种可视的群组数据可视化***。请参阅图13,其显示为本申请所提供的群组数据可视化***的模块结构示意图。如图所示,所述群组数据可视化***3包括获取模块31、处理模块32和显示模块33。
其中,所述获取模块31用于获取一个群组的数据集。所述数据集中的数据特征至少包括事件类型及与所述事件类型相关联的时间信息。
在某些实施例中,所述获取模块31获取由多个网络用户组成集群的操作日志;在不同的实施例中,所述集群是能够获取到的所有网络用户组成的一个集群,所述集群中的网络用户来自同一网站或者不同的网站,也或者来自不同的网络渠道,比如可以是因特网、一个或多个内部网、局域网(LAN)、广域网(WLAN)、存储局域网(SAN)等或其适当组合,也可以是移动电话的移动通信网络等。
所述获取模块31将所获取的操作日志交由处理模块32,并由处理模块32从所述多个网络用户的操作日志中确定至少一个数据特征,并分析所述操作日志中至少一组数据特征的相似度以确定所述群组。在具体的实施例中,针对网络欺诈行为必然会在网络中留下用户使用数据的特点,群组数据可视化***中收集来自至少一个网站的多个网络用户的操作日志,处理模块32通过分析所述操作日志中至少一个数据特征的相似度,对产生相应操作日志的用户进行分组,得到群组及群组在操作日志中的数据集。
在某些实施例中,位于一个群组的数据集中包括但不限用户信息、IP地址、事件类型、事件发起源、事件响应方,及事件发生时间中的至少二者数据特征。其中,所述用户信息如手机号码、邮箱、ID号、身份证号、性别、用户所使用的用户设备编号、注册时间等表征。其中,同一用户信息可对应至少一个事件类型,每个事件类型对应事件发起源、事件响应方和事件发生时间。所述事件特征包括但不限于:网络用户之间进行的关注、点赞、评论、馈赠(或者称之为送礼)等社交行为,或者网络用户进行登录、登出、更新状态、注册、修改信息等操作行为中的至少一者。例如,同一用户信息可对应多个点赞事件类型,每个点赞事件类型对应各自事件发起源、事件响应方和事件发生时间。
所述处理模块32可将所得到的各群组的数据集存放在数据库中。在一些实施例中,所述数据集可获取自一存放有各群组及其数据集的数据库,所述数据库例如配置于一远端的存储服务器上,或者配置于本地的计算机设备中的存储装置中,所获取模块31可基于用户的输入操作从数据库中提取而获取。例如,所述处理模块32利用无监督检测算法得到多个群组,用户通过选择界面选择其中一个群组,则获取相应群组的数据集。
具体地,所述处理模块32先对操作日志中所有数据在同一类数据特征的相似度进行计算,其中,所述相似度可利用信息熵予以衡量,例如,所述处理模块32分别利用用户信息计算IP使用量或最大IP使用量维度的信息熵,利用事件类型计算操作类型维度的信息熵,利用注册时间维度的信息熵或者操作时间计算不良操作维度的信息熵等;藉由上述的计算,处理模块32再利用无监督检测方式对所得到的各信息熵进行检测并划分得到多个群组。其中,所述无监督检测方式举例包括采用基于稠密子图的算法、或者基于向量空间的算法等。本申请所提供的可视化方法所呈现的各群组用于反映欺诈事件所使用的共享资源、用户关系等,来让使用所述群组数据可视化***3的用户更清晰地确定所述无监督检测算法中的分类策略是否合理。其中,所述共享资源包括但不限于共用的IP、邮箱等,用户关系包括但不限于:用户关注、交互关系等。
在一实施例中,所述群组数据可视化***3中的显示模块33显示至少一个群组界面,所述群组界面中的群组大小以显示的几何图形大小进行表征。请参阅图3,其显示为包含多个群组的界面,如图所示,界面中显示有11个群组,用来表征该些群组的几何图形为圆形,所述的11个群组皆位于一个最大虚线圆内,在所述虚线圆内,比如所述虚线圆用来表征一个有N个网络用户组成的集群,例如标号为0的群组例如为正常群组,在一个较小虚线圆内有标号为1-10的大小不同的10个群组,圆形的尺寸与群组的成员数量成正比,即,大的群组表示成员数量较多,小的群组表示成员数量较少,例如标号为1-10的群组为异常群组。在不同的实施例中,所述群组的所述几何图形可以是任意形状。几何图形的颜色可随机设置,或与群组的数量或群组的成员数量相关。例如,预设有N种颜色,所述处理模块32随机地将不同颜色编码到表征各群组的几何图形上,并通过显示模块33显示在显示设备上。又如,所述处理模块32根据预设的颜色顺序,按照成员数量由小到大的顺序依次编码成用于表征各群组的几何图形,并通过显示模块33显示在显示设备上。当用户操作所述显示界面而选中一个几何图形时,所述获取模块31获取一个群组的数据集。
在一个优选实施例中,所述显示模块33显示至少一个群组界面中还可以包括显示群组信息的信息栏,当用户选择所述群组界面中的一个群组时,在界面的一侧以视窗或者文本框的方式显示所述群组的基本信息,所述基本信息例如为:群组编码、成员数量、用于确定所述群组最优选的数据特征,群组属性(比如正常群组或异常群组)等信息。所述显示模块例如为包括显示器。
为了将群组数据可视化***3对所获取的群组的数据集的分析结果以时间轴的方式描述,所述处理模块32用于创建第一时间轴及第二时间轴,以及对所述数据特征的编码。所述显示模块33通过显示设备在一个界面中显示第一、第二时间轴以及显示第一、第二、第三、及第四形状,其中,所述第一形状作为所述第一时间轴的节点以表征所述群组在所述第一时间轴的每一时间粒度内发生的事件类型及数量;所述第二形状表征所述第二时间轴的时间区间内发生的每种事件类型的总数量;所述第三形状表征所述第二形状中表征的事件类型在所述第二时间轴上的分布;所述第四形状表征所述群组在所述第二时间轴的每一时间粒度内发生的事件类型及数量。其中,所述显示设备可以是计算机设备所外接或集成的显示屏、显示屏的驱动程序、以及为处理显示数据而专门配置的呈现引擎;所述呈现引擎包括但不限于:图像处理芯片及运行在该图像处理芯片中的显示程序等。
其中,所述第一时间轴和第二时间轴是根据数据集中的时间信息而创建的,比如所述数据集中多个时间信息中时间跨度最大为10天,则第一时间轴或第二时间轴的最大时间区间为10天。在一个实施例中,按照相同的时间区间及时间粒度对创建第一时间轴及第二时间轴;在另一个实施例中,照不同的时间区间及时间粒度对创建第一时间轴及第二时间轴,容后详述。
其中,所述处理模块32对待呈现的数据特征、事件类型、事件类型的数量等所有数据进行图案化编码,以便于所呈现出的界面美观、清晰。在此,处理模块32按照第一时间轴的时间粒度对数据集中的事件类型的数量进行统计,将所统计的事件类型编码成预设的第一形状的图形,并由显示模块33按照时序将所编码的各第一形状作为第一时间轴的节点呈现在第一时间轴上。通过第一时间轴上各节点的显示,领域专家能够清晰获得依据时间所统计的事件类型在分布上或数量上的变化过程。其中,所述第一形状包括但不限于:饼状形状、或柱状形状。在一些实施示例中,处理模块32可以将一时间粒度内的各事件类型的数量百分比的占比情况编码成第一形状的图形并由显示模块33显示在第一时间轴上,其中,同样事件类型的占比区域的颜色相同。请参阅图4,图4显示为本申请群组数据可视化***在一个实施例中显示的示意图,如图所示,在显示的界面中,所述第一时间轴T1位于显示界面的下方区域,显示为自8月1日至8月10日10天的时间区间,以天为时间粒度,将每天所统计的事件类型的数量百分比分布编码成饼状图形并作为节点显示在第一时间轴T1上,所述饼状图形中的颜色用于代表事件类型,比如图中标为“黄”色的表示为关注事件,图中标为“红”色的表示为馈赠事件,图中标为“蓝”色的表示为点赞事件,比如图示中第一时间轴T1上以饼状图形作为节点显示的8月7日这天,产生的事件类型中关注事件占比较多,馈赠事件占比较少,点赞事件占比最少。
另外,所述处理模块32按照第二时间轴的时间区间对数据集中的事件类型的数量进行加和,将所累加的各事件类型编码成预设的第二形状的图形,并通过显示模块33显示在第二时间轴的一时间区间内各事件类型的总数量。其中,所述第二形状包括但不限于:直方图、柱状图、折线图等。根据所创建第二时间轴的时间区间,所显示的各种事件类型的总数量反映了在同一时间区间内各事件类型在数量上的对比情况。当所述第二时间轴的时间区间表示一天或一周时,用户可根据所显示的对应“红”、“黄”和“蓝”三种事件类型的总数量的柱状形状的长短来确定三种事件类型在总数量上的对比情况。此外,所显示的柱状图形还可以依据粗细、透明度等来确定该三种事件类型在总数量上的对比情况。再请参阅图3,如图所示,临近所述第一时间轴T1的一侧(图示中的右侧)显示有一个呈横向直方图,所述直方图中自上而下显示有“红”、“黄”和“蓝”三个柱状条,柱状条的长度代表所述第二时间轴的时间区间内产生事件类型的总数量,可以从该第二形状中看出,在第二时间轴的时间区间内产生事件类型中标为“黄”色的柱状条表示的关注事件最多,标为“红”色的柱状条表示的馈赠事件次之,标为“蓝”色的柱状条表示的点赞事件最少。
通过显示第二时间轴的时间区间内所发生的各事件类型的总数量,领域专家能够从另一视角清晰获得依据时间所统计的事件类型在数量上的变化过程。为了更清晰的显示第一时间轴和第二时间轴之间的关联关系,所述处理模块32基于对所述数据特征的编码,并由显示模块33显示第二时间轴,处理模块32再将所述第二形状中表征的事件类型与该事件类型在所述第二时间轴的各时间粒度进行关联,并通过显示模块33将第三形状表征的各事件类型在所述第二时间轴上的分布予以显示。其中,将第二时间轴呈现成以相应的时间粒度为节点的轴线,利用第三形状将分布在各相邻节点的事件类型与第二形状进行关联,使得用户清晰地获得第二形状与第二时间轴的各时间粒度之间的关联关系。其中,第三形状可以是线条状其颜色可依据第二形状中对应事件类型的颜色而定,以便于让用户清晰分辨统一的事件类型。
复请参阅图3,如图所示,通过第三形状将第二形状和第二时间轴进行关联,其中,第三形状以弧线为例并基于数据集中各事件类型的时间信息散布到第二时间轴的各时间粒度的节点上。比如图中用点状线(第一种虚线)表示“红”色的柱状条表示的馈赠事件和第二时间轴上相应时间节点(时间粒度)的关联,用连续线表示“黄”色的柱状条表示的关注事件和第二时间轴上相应时间节点(时间粒度)的关联,用点和线段(第二种虚线)组成的线表示“蓝”色的柱状条表示的点赞事件和第二时间轴上相应时间节点(时间粒度)的关联。在不同的实施方式中,所述第三形状利用线条粗细或透明度来描述在相应时间粒度间隔内所产生的事件类型的数量,由此便于呈现事件发生的高频时段或规律。
为了更直观地显示第二时间轴上各时间粒度间隔内所发生的事件类型及数量,所述显示模块33还在处理模块32的控制下显示第四形状,以表征所述群组在所述第二时间轴的每一时间粒度内发生的事件类型及数量。其中,所述处理模块32按照第二时间轴的时间区间对数据集中的事件类型的数量进行加和或分布统计,将所累加的事件类型或分布情况编码成预设的第四形状的图形,并由显示模块33按照时序将所编码的各第四形状作为第二时间轴的节点呈现在第二时间轴上。其中,所述处理模块32根据所创建的第二时间轴的时间粒度在第三形状的指引下,控制显示模块33显示对应的第四形状。通过第二时间轴上各节点的显示,用户能够从另一视角清晰获得依据时间所统计的事件类型在数量上的变化过程。其中,所述第四形状包括但不限于:饼状形状、或柱状形状,且选择不同于第一形状的形状。在一些实施示例中,处理模块32可以将第二时间轴的时间粒度内的各事件类型的数量累加和分别编码成第四形状的图形并由显示模块33显示在第二时间轴上,其中,同样事件类型的累加和采用与第三形状及第二形状相同的颜色。
以时间轴作为呈现群组数据的方式之一,是因为无论是领域专家还是算法专家,理解用户在一个段时间内的集中性的行为是非常关键的。为此,需要将第一时间轴和第二时间轴的结合来描述这种集中性的行为。
请参阅图3,如图所示,第一时间轴T1中的每个饼状图都呈现了每个时间粒度的(如每天)不同事件类型(如关注了一个用户或给某个用户在网上送了一个礼物)所占的比例。处理模块32将各事件类型编码为不同颜色,将第一时间轴T1的单位时间粒度内各事件类型的数量编码为饼图中各区域的面积占比以形成一个饼图,将第二时间轴T2的时间区间内各事件类型的数量编码为柱状图形的长度以形成对应各事件类型的柱状图(即第二形状),将第二时间轴T2的单位时间粒度内各事件类型数量编码为柱状图的长度以形成单独的柱状图(即第四形状);当用户选择第一时间轴T1上的一个饼图时,自对应各事件类型的第二形状射出以事件类型为颜色的弧线(即第三形状),并对应到第二时间轴T2上对应时间粒度的各第四形状上,由此将一个群组数据集中各事件类型的时间轴关系清晰地呈现给用户。
在一种实施方式中,按照相同的时间区间及时间粒度对创建第一时间轴及第二时间轴。例如,所述处理模块32预先加载时间粒度均相同的第一时间轴和第二时间轴,以供所述显示模块33按照数据集中的时间信息和时间粒度将各事件类型对应到各时间轴上,以得到各自时间轴的至少一个时间区间。又如,所述处理模块32根据数据集中的时间信息的排序,确定预先设定的第一时间轴和第二时间轴的时间区间,并由显示模块33按照数据集中的时间信息和时间粒度将各事件类型对应到各时间轴上。请参阅图3显示的包含第一时间轴T1和第二时间轴T2的界面。其中,T1和T2时间轴均以天为时间粒度,均以10天为时间区间,所述处理模块32按照数据集中的时间信息在所述第一时间轴T1和第二时间轴T2上显示数据集中的数据特征。例如以图3所示的,第二时间轴T2以天为时间粒度,处理模块32可将每天所统计的每种事件类型的总和布编码成柱状图形并作为节点由显示模块33显示在第二时间轴T2上。
在另一实施示例中,按照不同的时间区间及时间粒度对创建第一时间轴及第二时间轴。其中,所述第二时间轴的时间区间为所述第一时间轴的时间粒度。例如,处理模块32预先设定第一时间轴和第二时间轴的时间粒度不同,以及预设两个时间轴之间时间粒度之间的对应关系,所述显示模块33按照数据集中的时间信息将各事件类型对应到各时间轴上。请参阅图5,其显示为包含第一时间轴T1和第二时间轴T2的界面。其中,T1时间轴以10天为时间区间,以天为时间粒度,T2时间轴以天为时间区间,以小时为时间粒度;所述显示模块33按照数据集中的时间信息在所述第一时间轴T1和第二时间轴T2上显示数据集中的数据特征。例如以图5所示的界面C2,第二时间轴T2以小时为时间粒度,处理模块32可将每小时所统计的事件类型的总和编码成柱状图形并作为节点由显示模块33显示在第二时间轴T2上。
处理模块32将第一时间轴T1的时间粒度内各事件类型的数量编码为饼图中各区域的面积占比以形成一个饼图;当用户选择第一时间轴T1上的一个饼图时,将第二时间轴T2的时间区间内各事件类型(相当于所选择的饼图所对应的各事件类型)的数量编码为柱状图形的长度以形成对应各事件类型的柱状图(即第二形状),将第二时间轴T2的单位时间粒度内各事件类型数量编码为柱状图的长度以形成单独的柱状图(即第四形状),以及自对应各事件类型的第二形状射出以事件类型为颜色的弧线(即第三形状),并对应到第二时间轴T2上对应时间粒度的各第四形状上,由此将一个群组数据集中各事件类型的时间轴关系清晰地呈现给用户。
如图4所示界面C1,第一时间轴T1中的每个饼状图都展示了每个时间粒度的(如每天)不同事件类型(如关注了一个用户或给某个用户在网上送了一个礼物)所占的比例。将各事件类型编码为不同颜色,比如图示中所述饼状图形中的颜色用于代表事件类型,比如图中标为“黄”色的表示为关注事件,图中标为“红”色的表示为馈赠事件,图中标为“蓝”色的表示为点赞事件,比如图示中第一时间轴T1上以饼状图形作为节点显示的8月7日这天,产生的事件类型中关注事件占比较多,馈赠事件占比较少,点赞事件占比最少。当用户选择第一时间轴T1上的节点8月7日这天时,则在第二时间轴T2上则显示8月7日这天24个小时内,每个小时发生的事件类型以及各事件类型对应的数量。
需要特别说明的是,上述的第一时间轴和第二时间轴的时间区间及时间粒度并不受限于所举例的情况,在不同的实施例中,用户可依据实际的情况设置第一时间轴和第二时间轴的时间区间及时间粒度,比如为周、月、季度甚至年等时间单位。
用户可利用该呈现过程和所展示的统计情况对群组数据可视化***所分类的群组进行检测并利用该可视化的界面让领域专家发现或纠正检测算法中的不足。此外,为了更清晰地显示两时间轴的关联关系,所述群组数据可视化***还包括第一检测模块(未予图示)。检测到用户基于所述第一检测模块选择所述第一形状时,通过所述第三形状动态、高亮、或动态且高亮地显示所述第一形状表征的时间粒度内发生的事件类型在所述第二时间轴的分布。例如,在图4所示的界面C1中,当用户选中第一时间轴T1上的一个饼图时,与在第二时间轴T2上对应所选中饼图的柱状图相连的各第三形状闪烁数秒或者更长时间的闪烁,也或者高亮显示,当用户选中第一时间轴T1上另一个饼图时,此前闪烁及高亮的第三形状恢复初始形状和颜色,且与在第二时间轴T2上对应所选中饼图的柱状图相连的各第三形状闪烁数秒且高亮显示。
在某些实施例中,所述群组数据可视化***还包括第二检测模块。当检测到用户基于所述第二检测模块选择所述第一形状时,所述显示模块33在所述第一形状被选择时显示放大,以便用户更清晰地查看第一形状所表征的事件类型数量的对比情况。在一种具体示例中,所述第一形状在被选择时在所述第一时间轴的一侧放大显示。例如,所选中的第一形状在第一时间轴上侧放大显示,呈如图6a所示的界面C3。在另一具体示例中,所述第一形状在被选择时在所述第一时间轴中放大显示。例如,所选中的第一形状在第一时间轴的同一圆心位置被放大显示,呈如图6b所示的界面C4。
在一些实施例中,用户不仅关心群组数据集中各事件类型依时间轴所呈现的变化情况,更关心所分配的群组是否合理,这需要用户能够查看每个群组中的详细数据特征及用于分类群组而构建的各数据特征的优选次序。所述显示模块33还用于显示一个群组的数据集的界面。所显示的数据集以列表方式予以显示,由此为用户显示同一群组中数据特征的详细信息。为提高所述群组数据集分类准确性,所述界面中所显示的列表可依据群组数据可视化***分类时所依据的分类优先级将一个群组中的数据特征列表逐列展示。例如,请参阅图6,其显示为一个群组的数据集的列表界面示意图。在所述列表界面示意图中,所显示的一个群组的数据集是按照数据特征的相似性为优先级由高到低的顺序排序而得的。当第一优先级中的数据特征相似性相同时,按照第二优先级的数据特征进行排序,在图7所示的实施例中,所述优先级由高向低的顺序为:IP地址、事件发起源(source)、事件响应方(target)、事件类型(event_type)及事件发生时间(timestamp)。在本实施例中,处理模块32将表格的抬头用不同列的重要性进行编码,如果一个特征的取值越集中,那么这个特征就越重要。在本申请提供的一实施例中,所述群组数据可视化***是通过计算每个特征的信息熵来代表这一特性。如果信息熵越低,那么意味着一致性就越高。然后所述处理模块32将特征按照信息熵递增的顺序进行排序,最终由显示模块33将低信息熵的列表头顺序靠前来提示户的注意,当然,不同的实施情况下,还可以依据将显示的表格中的列表头进行颜色渲染,比如最终将低信息熵的列表头的颜色渲染为最深来提示户的注意该列所表征的数据特征最为重要,以此类推进行颜色渲染该列所表征的其他数据特征,进而得到图中所示的数据集列表界面。该列表界面可承接在显示多个群组界面或时间轴显示界面之后,再或者基于用户选择该列表界面的选择操作而显示。
在某些实施例中,为更进一步表征所获取的群组的数据集是否能够反映欺诈事件的特性,还需要从其他维度进行展示。例如,通过比对正常用户的网络操作数据和群组数据集来进一步确认所检测的欺诈事件的准确性。为此,所述显示模块33还用于显示所述群组的数据集的特征分布的界面,所述特征分布的直方图及对应所述直方图在整个集群直方图中的分布对比图。其中,所述特征分布界面可展示以各数据类型在整体网络中的分布,所述的整体网络是相对的,比如由多个网络用户组成一个集群,则可以通过界面显示该集群中某一个群组中的某一个数据特征的分布,请参阅图2,比如图2中最大虚线圆表示一个由多个网络用户组成集群,该集群中有11个群组,分别是编号为0-10的群组,从中选择一个群组进行信息展示。
在一些实施例中,特征分布界面可展示的数据类型例如为:平均操作时间间隔维度的信息熵(average operation interval entropy),IP地址使用量维度的信息熵(IPused amount entropy),性别维度的信息熵(sex entropy),电子邮件维度的信息熵(emailentropy),注册时间维度的信息熵(reg time entropy),操作次数维度的信息熵(operation times entropy),设备数量维度的信息熵(device amount entropy),操作类型维度的信息熵(operation type entropy),所使用IP被他人使用的最大量的信息熵(maxIP used be used amount entropy)等等。在图7所示的实施例中,以注册时间维度的信息熵为数据特征为例进行展示,即图7显示为一个群组中注册时间维度的信息熵(注册时段)在网络集群中的特征分布。为了有效比对所获取的群组数据集与正常用户的网络操作数据的特征分布差异,如图8所示,处理模块32执行以下步骤以得到用于显示特征分布直方图及对应所述直方图在整个集群直方图中的分布对比图的数据,进而由显示模块33予以显示。
在步骤S211中,选择一个所述群组,并从所述群组的数据集中确定至少一个数据特征。在一个实施例中,比如选择图3中标号为2的群组,并从所述标号为2的群组中的数据集中确定一个为用户信息的数据特征,比如所述用户信息为注册时间。
在步骤S212中,统计所述确定的至少一个数据特征在所述群组及集群中的特征分布。在本实施例中,统计所述为注册时间的数据特征在所述群组中的特征分布,以及统计所述为注册时间的数据特征在所述整个集群中的特征分布。
在步骤S213中,显示所述特征分布的直方图及对应所述直方图在整个集群直方图中的分布对比图。在本实施例中,基于对所述数据特征的编码,显示所述为注册时间的数据特征在所述群组中特征分布的直方图,以及显示所述为注册时间的数据特征在所述整个集群中特征分布的直方图。请参阅图9,显示为本申请在一实施例中一个群组中的注册时间的特征分布的直方图及对比图的界面,如图所示,在所述界面D中,图(a)显示为所选标号为2的群组中注册时间的特征分布缩略图,对应所述缩略图的放大,则为界面D中最下侧的放大图(d),由所述放大图可以看出,在该群组中,自8月1日至8月31日的一个月中,该群组成员进行注册操作的时间集中在8月5日、8月6日,8月11日,8月12日,以及8月16日这5天,而在所述界面D中图(c)表征为所述集群中注册用户在8月份内进行注册操作的时间分布的直方图,从该图(c)可以看出,所述集群中注册用户在8月份内的注册分布具有一定的规律,在界面D中图(b)表征为将图(d)和图(c)进行重合叠加来展示为注册时间的数据特征在所述整个集群中和选择的群组中的差别。为了能够使得用户能够知道不同特征之间的区别和联系,本申请提供的实施例中将这个柱状图以三层形式进行呈现,用户通过点击其中一个缩略图后,页面将滚动到经过归一化的分布对比图。当然,在具体的应用中,所述数据特征的缩略图还可能有多个,每个代表不同的数据特征。
在一些实施例中,显示模块33还可以通过对直方图进行颜色渲染以区分或强调某个数据特征在所述群组及整个集群中特征分布,或者动态显示(比如闪烁的方式)以区分或强调某个数据特征在所述群组及整个集群中特征分布。
在一些实施例中,为了进一步分析一个网络集群中的多个群组之间的差异,所述显示模块33还显示多个群组的数据集的特征分布的界面,请参阅图10及图11,图10显示为本申请在一个实施例中显示多个群组在集群中分布的步骤,图11显示为本申请在一个实施例中显示多个群组在集群中分布界面E,如图所示,所述处理模块32按照图10所示的步骤执行,显示模块33显示图11所示的界面。
在步骤S311中,由多个网络用户组成的集群中确定多个群组,分别用不同形状、图标、标签和/或颜色表征所述多个群组的不同;在一个实施例中,比如选择图3中标号0、1和2的3个群组,其中,标号为0的群组用“绿”色表示,标号为1的群组用“红”色表示,标号为2的群组用“蓝”色表示。
在步骤S312中,从所述多个群组的数据集中确定至少一个数据特征;在本实施例中,从所述这3个群组的数据集中确定一个数据特征,比如IP地址。
在步骤S313中,基于所述至少一个数据特征分析各该群组中每两个网络用户之间的相对信息熵作为度量所述每两个网络用户之间的相似程度;在本实施例中,基于所述IP地址分析标号0、1和2的3个群组中每两个网络用户之间的相对信息熵(IP使用量维度的信息熵,IP used amount entropy)作为度量所述每两个网络用户之间的相似程度。比如,采用数据降维的方法t-SNE(t-分布邻域嵌入算法)并用两个用户之间的相对熵来作为度量这些网络用户距离的指标。
在步骤S314中,输出显示界面,在所述界面中,用形状、图标、和/或标签表征网络用户,用不同颜色表征所述多个群组的不同,用显示的距离表征每一群组中两个网络用户之间的相似程度。在本实施例中,呈如图11所示的界面E,用圆点表征网络用户,“绿”色表示标号为0的群组,用“红”色表示标号为1的群组,用“蓝”色表示标号为2的群组,其中,用“蓝”色表示标号为2的群组中的用户距离比较短,该群组成簇状分布,用“红”色表示标号为1的群组中的用户距离也比较短,该群组成簇状分布,用“绿”色表示表示随机抽样的正常用户的分布,正常用户之间的距离较远,分布更为分散。藉此可以认为,一个群组如果是稠密的一簇,其被认为是一个欺诈组的可能性越大。比如图11所示的实施例中,该用“绿”色表示的群组呈较为分散的分布,则表示为该“绿”色群组为正常群组,其中的“绿”点表示的用户也为正常用户。相反的,用“红”色表示的群组(即标号为1的群组)以及用“蓝”色表示的群组(即标号为2的群组)呈成簇状分布,则表示为该该“红”色及“蓝”色群组为异常群组,其中,用“红”点及“蓝”点表示的用户为异常用户。在一实施例中,使用所述可视化***的用户可交互式地通过鼠标悬浮来查看每个群组中用户的具体信息及特征取值。
在其他的实施例中,在输出的界面中,也可以用例如为形状、图标、和/或标签表征网络用户,比如形状为三角形、矩形等几何图形,比如图标为笑脸或哭脸来表征,比如标签用文字或者具有明确区分的符号等。
需要说明的是,所述群组数据可视化***中的所有模块可被配置在单一计算机设备上。或所述群组数据可视化***中的各模块被分别配置在用户侧的客户端以及网络侧的服务器上,且客户端与服务器网络连接。例如,群组数据可视化***的获取模块和处理模块安装在服务器中,显示模块安装在客户端内,所述客户端基于发送请求以登录所述服务端,所述服务器基于所述客户端执行请求的操作向所述客户端运行所述群组数据可视化***,并通过客户端显示相应界面。所述客户端包括但不限于:配置在用户终端的浏览器或专用客户端软件的界面、以及用于执行显示界面程序的硬件等。
还需要说明的是,通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本申请的部分或全部可借助软件并结合必需的通用硬件平台来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可包括其上存储有机器可执行指令的一个或多个机器可读介质,这些指令在由诸如计算机、计算机网络或其他电子设备等一个或多个机器执行时可使得该一个或多个机器根据本申请的实施例来执行操作。机器可读介质可包括,但不限于,软盘、光盘、CD-ROM(紧致盘-只读存储器)、磁光盘、ROM(只读存储器)、RAM(随机存取存储器)、EPROM(可擦除可编程只读存储器)、EEPROM(电可擦除可编程只读存储器)、磁卡或光卡、闪存、或适于存储机器可执行指令的其他类型的介质/机器可读介质。
本申请可用于众多通用或专用的计算***环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器***、基于微处理器的***、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何***或设备的分布式计算环境等。
本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
需要说明的是,本领域技术人员可以理解,上述部分组件可以是可编程逻辑器件,包括:可编程阵列逻辑(Programmable Array Logic,PAL)、通用阵列逻辑(Generic ArrayLogic,GAL)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、复杂可编程逻辑器件(Complex Programmable Logic Device,CPLD)中的一种或多种,本申请对此不做具体限制。
综上所述,本申请通过将欺诈事件检测过程中所分群组的数据集基于时间轴、类型分布、分类列表等方式予以呈现,实现了将欺诈事件检测期间所分群组的数据特征以多种关系界面进行展示,有利于领域专家和算法专家对欺诈事件检测***的检测算法进行评估和修订。
上述实施例仅例示性说明本申请的原理及其功效,而非用于限制本申请。任何熟悉此技术的人士皆可在不违背本申请的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本申请所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本申请的权利要求所涵盖。

Claims (27)

1.一种群组数据可视化方法,应用于一欺诈事件检测***中,其特征在于,包括以下步骤:
获取一个群组的数据集,所述数据集中的数据特征至少包括事件类型及与所述事件类型相关联的时间信息;
依据所述数据集中的时间信息创建第一时间轴及第二时间轴;
基于对所述数据特征的编码,显示以第一形状作为节点的第一时间轴,以表征所述群组在所述第一时间轴的每一时间粒度内发生的事件类型及数量;
显示第二形状,以表征所述第二时间轴的时间区间内发生的每种事件类型的总数量;
显示第二时间轴,将所述第二形状中表征的事件类型与该事件类型在所述第二时间轴的各时间粒度进行关联,并通过第三形状表征的各事件类型在所述第二时间轴上的分布;以及
显示第四形状,以表征所述群组在所述第二时间轴的每一时间粒度内发生的事件类型及数量。
2.根据权利要求1所述的群组数据可视化方法,其特征在于,所述获取一个群组的数据集的步骤包括:
获取由多个网络用户组成集群的操作日志;
从所述多个网络用户的操作日志中确定至少一个数据特征,并分析所述操作日志中至少一组数据特征的相似度以确定所述群组;以及
获取所述群组的数据集。
3.根据权利要求1或2所述的群组数据可视化方法,其特征在于,还包括显示至少一个群组界面的步骤,所述群组界面中的群组大小以显示的几何图形大小进行表征。
4.根据权利要求1或2所述的群组数据可视化方法,其特征在于,还包括显示一个群组的数据集的界面的步骤,所述群组的数据集的数据特征包括用户信息、IP地址、事件类型、事件发起源、事件响应方,及事件发生时间中的至少二者数据特征,在所述群组数据集的界面中,所述群组数据集经分组后排序显示。
5.根据权利要求2所述的群组数据可视化方法,其特征在于,还包括显示所述群组的数据集的特征分布的界面的步骤:
选择一个所述群组,并从所述群组的数据集中确定至少一个数据特征,
统计所述确定的至少一个数据特征在所述群组及集群中的特征分布;以及
显示所述特征分布的直方图及对应所述直方图在整个集群直方图中的分布对比图。
6.根据权利要求1所述的群组数据可视化方法,其特征在于,还包括显示多个群组的数据集的特征分布的界面的步骤:
由多个网络用户组成的集群中确定多个群组,分别用不同形状、图标、标签和/或颜色表征所述多个群组的不同;
从所述多个群组的数据集中确定至少一个数据特征;
基于所述至少一个数据特征分析各该群组中每两个网络用户之间的相对信息熵作为度量所述每两个网络用户之间的相似程度;以及
输出显示界面,在所述界面中,用形状、图标、和/或标签表征网络用户,用不同颜色表征所述多个群组的不同,用显示的距离表征每一群组中两个网络用户之间的相似程度。
7.根据权利要求1所述的群组数据可视化方法,其特征在于,还包括所述第一形状在被选择时显示放大的步骤包括:
所述第一形状在被选择时在所述第一时间轴的一侧放大显示;或者
所述第一形状在被选择时在所述第一时间轴中放大显示。
8.根据权利要求1所述的群组数据可视化方法,其特征在于,所述事件类型包括网络用户的关注、点赞、评论、馈赠、登录、登出、更新状态、注册、修改信息中的至少一者。
9.根据权利要求1所述的群组数据可视化方法,其特征在于,所述创建第一时间轴及第二时间轴的步骤为按照相同的时间区间及时间粒度对创建第一时间轴及第二时间轴。
10.根据权利要求1所述的群组数据可视化方法,其特征在于,所述创建第一时间轴及第二时间轴的步骤为按照不同的时间区间及时间粒度对创建第一时间轴及第二时间轴,所述第二时间轴的时间区间为所述第一时间轴的时间粒度。
11.根据权利要求9或10所述的群组数据可视化方法,其特征在于,还包括所述第一形状在被选择时,通过所述第三形状动态和/或高亮地显示所述第一形状表征的时间粒度内发生的事件类型在所述第二时间轴的分布。
12.一种计算机设备,其特征在于,包括:
一个或多个处理器;以及
在所述一个或多个处理器上执行的呈现引擎,所述呈现引擎用于执行如权利要求1-11任一项所述的群组数据可视化方法。
13.一种群组数据可视化***,其特征在于,包括:
获取模块,通过网络获取一个群组的数据集,所述数据集中的数据特征至少包括事件类型及与所述事件类型相关联的时间信息;
处理模块,依据所述数据集中的时间信息创建第一时间轴及第二时间轴,以及对所述数据特征的编码;以及
显示模块,通过显示设备在一个界面中显示第一、第二时间轴以及显示第一、第二、第三、及第四形状,其中,所述第一形状作为所述第一时间轴的节点以表征所述群组在所述第一时间轴的每一时间粒度内发生的事件类型及数量;所述第二形状表征所述第二时间轴的时间区间内发生的每种事件类型的总数量;所述第三形状表征所述第二形状中表征的事件类型在所述第二时间轴上的分布;所述第四形状表征所述群组在所述第二时间轴的每一时间粒度内发生的事件类型及数量。
14.根据权利要求13所述的群组数据可视化***,其特征在于,所述群组是通过所述获取模块获取的多个网络用户的操作日志,并经所述处理模块分析所述操作日志中至少一组数据特征的相似度确定的。
15.根据权利要求13所述的群组数据可视化***,其特征在于,所述显示模块还用于显示至少一个群组界面,所述群组界面中的群组大小以显示的几何图形大小进行表征。
16.根据权利要求13所述的群组数据可视化***,其特征在于,所述显示模块还用于显示一个群组的数据集的界面,所述群组的数据集的数据特征包括用户信息、IP地址、事件类型、事件发起源、事件响应方,及事件发生时间中的至少二者数据特征,在所述群组数据集的界面中,所述群组数据集经分组后排序显示。
17.根据权利要求13所述的群组数据可视化***,其特征在于,所述显示模块还用于显示所述群组的数据集的特征分布的界面,所述特征分布的直方图及对应所述直方图在整个集群直方图中的分布对比图。
18.根据权利要求13所述的群组数据可视化***,其特征在于,所述显示模块还用于显示用形状、图标、和/或标签表征网络用户,用不同颜色表征多个群组的不同,用显示的距离表征每一群组中两个网络用户之间的相似程度的界面。
19.根据权利要求13所述的群组数据可视化***,其特征在于,还包括检测模块,检测到用户基于所述检测模块选择所述第一形状时,所述显示模块中显示的所述第一形状在所述第一时间轴的一侧放大显示;或者所述显示模块中显示的所述第一形状在所述第一时间轴中放大显示。
20.根据权利要求13所述的群组数据可视化***,其特征在于,所述处理模块创建的第一时间轴及第二时间轴具有相同的时间区间及时间粒度。
21.根据权利要求13所述的群组数据可视化***,其特征在于,所述处理模块创建的第一时间轴及第二时间轴为按照不同的时间区间及时间粒度对创建第一时间轴及第二时间轴,所述第二时间轴的时间区间为所述第一时间轴的时间粒度。
22.根据权利要求20或21所述的群组数据可视化***,其特征在于,还包括检测模块,检测到用户基于所述检测模块选择所述第一形状时,通过所述第三形状动态和/或高亮地显示所述第一形状表征的时间粒度内发生的事件类型在所述第二时间轴的分布。
23.根据权利要求13所述的群组数据可视化***,其特征在于,所述事件类型包括网络用户的关注、点赞、评论、馈赠、登录、登出、更新状态、注册、修改信息中的至少一者。
24.一种客户端,通过网络连接一服务端,其特征在于,所述客户端基于发送请求以登录所述服务端执行所述权利要求1-11任一项所述的群组数据可视化方法的步骤。
25.一种服务器,通过网络连接一客户端,其特征在于,所述服务器基于所述客户端执行请求的操作,向所述客户端发送所述权利要求1-11任一项所述的群组数据可视化方法的过程并通过所述客户端显示执行结果。
26.一种浏览器,通过网络连接一服务端,其特征在于,所述浏览器基于发送请求以登录所述服务端执行所述权利要求1-11任一项所述的群组数据可视化方法的步骤。
27.一种计算机可读存储介质,存储有数据可视化计算机程序,其特征在于,所述数据可视化计算机程序被执行时实现权利要求1-11任一项所述群组数据可视化方法的步骤。
CN201810022368.6A 2018-01-10 2018-01-10 群组事件数据可视化方法及*** Active CN108170830B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810022368.6A CN108170830B (zh) 2018-01-10 2018-01-10 群组事件数据可视化方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810022368.6A CN108170830B (zh) 2018-01-10 2018-01-10 群组事件数据可视化方法及***

Publications (2)

Publication Number Publication Date
CN108170830A CN108170830A (zh) 2018-06-15
CN108170830B true CN108170830B (zh) 2020-07-31

Family

ID=62517777

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810022368.6A Active CN108170830B (zh) 2018-01-10 2018-01-10 群组事件数据可视化方法及***

Country Status (1)

Country Link
CN (1) CN108170830B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109033194B (zh) 2018-06-28 2019-11-08 北京百度网讯科技有限公司 事件显示方法和装置
CN109191350A (zh) * 2018-07-06 2019-01-11 贵州黔商科技有限公司 一种基于大数据族谱的人口普查管理方法
CN108876479B (zh) * 2018-07-18 2020-06-16 口口相传(北京)网络技术有限公司 对象实体的渠道归因方法及装置
CN114077711A (zh) * 2020-08-12 2022-02-22 杨嶷 一种基于地图和实体信息单位的信息连接方法与装置
CN113538058B (zh) * 2021-07-23 2023-04-07 四川大学 一种面向网络购物平台的多层次用户画像可视化方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6567814B1 (en) * 1998-08-26 2003-05-20 Thinkanalytics Ltd Method and apparatus for knowledge discovery in databases
CN101867489A (zh) * 2010-06-11 2010-10-20 北京邮电大学 实现实时显示的社会网络可视化方法及***
CN102629271A (zh) * 2012-03-13 2012-08-08 北京工商大学 一种基于堆叠树图的复杂数据可视化方法及设备
CN104536956A (zh) * 2014-07-23 2015-04-22 中国科学院计算技术研究所 一种基于微博平台的事件可视化方法及***

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050043961A1 (en) * 2002-09-30 2005-02-24 Michael Torres System and method for identification, detection and investigation of maleficent acts
US20080215576A1 (en) * 2008-03-05 2008-09-04 Quantum Intelligence, Inc. Fusion and visualization for multiple anomaly detection systems

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6567814B1 (en) * 1998-08-26 2003-05-20 Thinkanalytics Ltd Method and apparatus for knowledge discovery in databases
CN101867489A (zh) * 2010-06-11 2010-10-20 北京邮电大学 实现实时显示的社会网络可视化方法及***
CN102629271A (zh) * 2012-03-13 2012-08-08 北京工商大学 一种基于堆叠树图的复杂数据可视化方法及设备
CN104536956A (zh) * 2014-07-23 2015-04-22 中国科学院计算技术研究所 一种基于微博平台的事件可视化方法及***

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"可视化数据挖掘在信贷欺诈检测中的应用";童新安 等;《宜春学院学报》;20100425;第32卷(第4期);论文第69-71页 *

Also Published As

Publication number Publication date
CN108170830A (zh) 2018-06-15

Similar Documents

Publication Publication Date Title
CN108170830B (zh) 群组事件数据可视化方法及***
CN108268624B (zh) 用户数据可视化方法及***
US11928733B2 (en) Systems and user interfaces for holistic, data-driven investigation of bad actor behavior based on clustering and scoring of related data
CN107741955B (zh) 业务数据监控方法、装置、终端设备及存储介质
CN110268409B (zh) 用于电力欺诈检测的新型非参数统计行为识别生态***
US20200192894A1 (en) System and method for using data incident based modeling and prediction
CN111614690B (zh) 一种异常行为检测方法及装置
CN110442712B (zh) 风险的确定方法、装置、服务器和文本审理***
Duval Explainable artificial intelligence (XAI)
CN108280644B (zh) 群组成员关系数据可视化方法及***
CN110060087B (zh) 异常数据的检测方法、装置和服务器
CN103793484A (zh) 分类信息网站中的基于机器学习的欺诈行为识别***
CN109949154B (zh) 客户信息分类方法、装置、计算机设备和存储介质
CN112884092A (zh) Ai模型生成方法、电子设备及存储介质
US20150205693A1 (en) Visualization of behavior clustering of computer applications
CN110738527A (zh) 一种特征重要性排序方法、装置、设备和存储介质
US20230004979A1 (en) Abnormal behavior detection method and apparatus, electronic device, and computer-readable storage medium
Blumenschein et al. Evaluating reordering strategies for cluster identification in parallel coordinates
CN116737495A (zh) 运行状态确定方法、装置、计算机设备和存储介质
CN115146729A (zh) 异常店铺识别方法、装置、计算机设备和存储介质
CN115033891A (zh) 漏洞评估方法及装置、存储介质、电子设备
US20230186214A1 (en) Systems and methods for generating predictive risk outcomes
KR102346885B1 (ko) 기업정보시스템에 대한 이상행위 탐지 결과를 개화 줄기 형상으로 시각화하는 방법 및 시스템
EP3493082A1 (en) A method of exploring databases of time-stamped data in order to discover dependencies between the data and predict future trends
CN111026981B (zh) 热点话题的可视化展示方法、装置和设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20181018

Address after: 100084 10 floor 1009-1, 3 building, 1 Zhongguancun East Road, Haidian District, Beijing.

Applicant after: Hua Ching Qing Chiao information technology (Beijing) Co., Ltd.

Address before: 100084 Tsinghua Yuan, Beijing, Haidian District

Applicant before: Tsinghua University

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant