CN112541022A - 异常对象检测方法、装置、存储介质及电子设备 - Google Patents

异常对象检测方法、装置、存储介质及电子设备 Download PDF

Info

Publication number
CN112541022A
CN112541022A CN202011505945.0A CN202011505945A CN112541022A CN 112541022 A CN112541022 A CN 112541022A CN 202011505945 A CN202011505945 A CN 202011505945A CN 112541022 A CN112541022 A CN 112541022A
Authority
CN
China
Prior art keywords
graph
abnormal
account
identification
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011505945.0A
Other languages
English (en)
Inventor
魏凯峰
朱浩齐
李雨珂
杨卫强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Netease Zhiqi Technology Co Ltd
Original Assignee
Netease Hangzhou Network Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Netease Hangzhou Network Co Ltd filed Critical Netease Hangzhou Network Co Ltd
Priority to CN202011505945.0A priority Critical patent/CN112541022A/zh
Publication of CN112541022A publication Critical patent/CN112541022A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/289Object oriented databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0635Risk analysis of enterprise or organisation activities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1425Traffic logging, e.g. anomaly detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Human Resources & Organizations (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • Computing Systems (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Computational Linguistics (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Computer Security & Cryptography (AREA)
  • Development Economics (AREA)
  • Quality & Reliability (AREA)
  • Operations Research (AREA)
  • Game Theory and Decision Science (AREA)
  • Educational Administration (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Computer Hardware Design (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开的实施方式提供了一种异常对象检测方法、装置、介质及电子设备,涉及数据挖掘技术领域。该方法包括:获取预设时间段内的对象数据集,基于对象数据集中的账号标识、设备标识以及网际互联协议地址为相应对象构建关联关系图,关联关系图包括账号标识节点、设备标识节点和网际互联协议地址节点,根据关联关系图的聚合特性确定至少一个目标关系图,每个目标关系图由共享账号标识节点或共享设备标识节点的关联关系图构成;基于目标关系图确定对象数据集中的嫌疑对象,根据嫌疑对象在目标时间段内的时间聚集特性确定异常对象。本公开基于关联图对相关对象数据集中对应的资源复用特征和时间聚集特征进行分析,以确定出对象数据集中的异常对象。

Description

异常对象检测方法、装置、存储介质及电子设备
技术领域
本公开的实施方式涉及数据挖掘技术领域,更具体地,本公开的实施方式涉及异常对象检测方法、异常对象检测装置、计算机可读存储介质及电子设备。
背景技术
本部分旨在为权利要求书中陈述的本公开的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
网络黑产,指以互联网为媒介,以网络技术为主要手段,为计算机信息***安全和网络空间管理秩序带来潜在威胁(重大安全隐患)的非法行为。
反作弊业务中存在多种多样的黑产团伙,这些黑产团伙通过各种方式获取大量虚假账号或设备,然后伪装成正常用户进行注册、登录及其他操作,最终实现刷量、薅羊毛、发布有害信息等目的。黑产团伙一般都具备一定规模,他们通过操控脚本或其他工具,在短时间内实现高频攻击,这些黑产团伙隐蔽性强,根据现有技术(如专家规则、设备指纹)难以发现或完整拦截。
发明内容
但是,在相关的现有技术中,(1)基于用户行为数据和图神经网络构建目标主体和对象主体之间的向量距离,通过设定阈值确定可信关系对。由于黑产团伙一般规模较大,因此该方案在对规模较大的黑产团伙计算可信关系对时会存在计算复杂度较高的问题。(2)基于账号关系网络构建特征,并通过图模型计算隐特征空间中节点的嵌入向量实现异常账号防控。采用本方案时,由于基于图模型的异常账号识别在可解释性方面稍微差一些,而风控领域本身对直观和可解释性的要求较高;同时为了提升图网络的效果,对标注数据量的依赖也较大。(3)基于社交关系网络构建风险画像特征,通过整合构成全域的金融风险知识图谱,从而提升风控能力。由于在构建关系网络和用户画像时所需字段较多,因此该方案在数据收集方面存在一定难度,整体构建周期较长,需要一定的积累时间才能有不错的效果。
由此,在现有技术中,缺乏一种简洁高效地从用户数据库中发现或完整地挖掘出黑产团伙的方法。
为此,非常需要一种改进的异常对象检测方法,以根据对象数据集中包含的账号标识、设备标识以及网际互联协议地址构建相应的关联图,并通过分析关联图中的关联关系图的聚合特性和时间聚集特征挖掘出潜在的异常对象。
在本上下文中,本公开的实施方式期望提供一种异常对象检测方法、异常对象检测装置、计算机可读存储介质及电子设备。
在本公开实施方式的第一方面中,提供了一种异常对象检测方法,包括:获取预设时间段内的对象数据集,所述对象数据集中的每条数据至少包含与相应对象相匹配的账号标识、设备标识以及网际互联协议地址;基于所述账号标识、所述设备标识以及所述网际互联协议地址为相应对象构建关联关系图,所述关联关系图包括账号标识节点、设备标识节点以及网际互联协议地址节点,所述账号标识节点、所述设备标识节点以及所述网际互联协议地址节点分别对应所述相应对象的账号标识、设备标识以及网际互联协议地址;根据所述关联关系图的聚合特性确定至少一个目标关系图,每个所述目标关系图由共享账号标识节点或共享设备标识节点的关联关系图构成;基于所述目标关系图确定所述对象数据集中所对应的嫌疑对象,根据所述嫌疑对象在目标时间段内的时间聚集特性确定异常对象。
在本公开的一个实施例中,获取待测数据集,所述待测数据集中的每条数据至少包含与待测对象相匹配的账号标识和/或设备标识;比对所述待测对象与所述异常对象的账号标识和/或设备标识,以确定所述待测对象的可信任性。
在本公开的一个实施例中,所述目标关系图是由若干个具有相同账号标识节点的关联关系图构成;或者,所述目标关系图是由若干个具有相同设备标识节点的关联关系图构成;其中,相应若干个关联关系图的数目为大于等于第一阈值的自然数。
在本公开的一个实施例中,所述根据所述嫌疑对象在目标时间段内的时间聚集特性确定异常对象,包括:确定所述嫌疑对象在所述目标时间段内的活跃时间点的分布信息,所述分布信息反映相应嫌疑对象在目标时间段内的时间聚集特性;根据所述分布信息在所述嫌疑对象中确定异常对象。
在本公开的一个实施例中,上述方法还包括:基于所述目标关系图对分类模型进行训练,所述分类模型包含特征提取模块,该分类模型用于根据所述特征提取模块所获得的关系图聚合特征以及时间聚集特征确定所述异常对象;其中,所述关系图聚合特征表征所述关联关系图的聚合特性,所述时间聚集特征表征所述嫌疑对象在目标时间段内的时间聚集特性。
在本公开的一个实施例中,所述分类模型为决策树模型。
在本公开的一个实施例中,上述方法还包括:获取待测数据集,所述待测数据集中的每条数据至少包含与待测对象相匹配的账号标识、设备标识以及网际互联协议地址;基于与所述待测对象相匹配的账号标识、设备标识以及网际互联协议地址构建待测关系图;将所述待测关系图输入至所述分类模型进行检测,基于所述分类模型的输出结果确定所述待测对象的可信任性。
在本公开的一个实施例中,所述根据所述嫌疑对象在目标时间段内的时间聚集特性确定异常对象,还包括:获取对应于所述异常对象的异常账号标识和/或异常设备标识;基于所述异常账号标识和/或异常设备标识建立黑名单。
在本公开的一个实施例中,所述关系图聚合特征包括:每个目标关系图中所包含的具有相同账号标识节点或相同设备标识节点的关联关系图的数目。
在本公开的一个实施例中,所述时间聚集特征包括:每个嫌疑对象在所述目标时间段内的活跃时间点的数目。
在本公开实施方式的第二方面中,提供了一种异常对象检测装置,包括:数据集获取模块,用于获取预设时间段内的对象数据集,所述对象数据集中的每条数据至少包含与相应对象相匹配的账号标识、设备标识以及网际互联协议地址;关联图构建模块,用于基于所述账号标识、所述设备标识以及所述网际互联协议地址为相应对象构建关联关系图,所述关联关系图包括账号标识节点、设备标识节点以及网际互联协议地址节点,所述账号标识节点、所述设备标识节点以及所述网际互联协议地址节点分别对应所述相应对象的账号标识、设备标识以及网际互联协议地址;关联图确定模块,用于根据所述关联关系图的聚合特性确定至少一个目标关系图,每个所述目标关系图由共享账号标识节点或共享设备标识节点的关联关系图构成;对象确定模块,用于基于所述目标关系图确定所述对象数据集中所对应的嫌疑对象,根据所述嫌疑对象在目标时间段内的时间聚集特性确定异常对象。
在本公开的一个实施例中,所述异常对象检测装置还包括第一对象检测模块,所述第一对象检测模块被配置为:获取待测数据集,所述待测数据集中的每条数据至少包含与待测对象相匹配的账号标识和/或设备标识;比对所述待测对象与所述异常对象的账号标识和/或设备标识,以确定所述待测对象的可信任性。
在本公开的一个实施例中,所述对象确定模块包括对象确定单元,所述对象确定单元被配置为:确定所述嫌疑对象在所述目标时间段内的活跃时间点的分布信息,所述分布信息反映相应嫌疑对象在目标时间段内的时间聚集特性;根据所述分布信息在所述嫌疑对象中确定异常对象。
在本公开的一个实施例中,所述异常对象检测装置还包括模型训练模块,所述模型训练模块被配置为:基于所述目标关系图对分类模型进行训练,所述分类模型包含特征提取模块,该分类模型用于根据所述特征提取模块所获得的关系图聚合特征以及时间聚集特征确定所述异常对象;其中,所述关系图聚合特征表征所述关联关系图的聚合特性,所述时间聚集特征表征所述嫌疑对象在目标时间段内的时间聚集特性。
在本公开的一个实施例中,所述异常对象检测装置还包括第二对象检测模块,所述第二对象检测模块被配置为:获取待测数据集,所述待测数据集中的每条数据至少包含与待测对象相匹配的账号标识、设备标识以及网际互联协议地址;基于与所述待测对象相匹配的账号标识、设备标识以及网际互联协议地址构建待测关系图;将所述待测关系图输入至所述分类模型进行检测,基于所述分类模型的输出结果确定所述待测对象的可信任性。
在本公开的一个实施例中,所述对象确定模块包括黑名单建立单元,所述黑名单建立单元被配置为:获取对应于所述异常对象的异常账号标识和/或异常设备标识;基于所述异常账号标识和/或异常设备标识建立黑名单。
在本公开实施方式的第三方面中,提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述所述的异常对象检测方法。
在本公开实施方式的第四方面中,提供了一种电子设备,包括:处理器;以及存储器,所述存储器上存储有计算机可读指令,所述计算机可读指令被所述处理器执行时实现如上述所述的异常对象检测方法。
根据本公开实施方式的技术方案,一方面,将关联图分析引入到异常对象检测中,通过关联图分析可以挖掘出采用现有技术难以发现的异常对象,使得挖掘出的异常对象更加完整。另一方面,根据用户数据构建关联关系图,基于关联关系图分析异常对象最本质的两个特性,即关联关系图的聚合特性和时间聚集特性,可以有效区分异常对象和正常对象。
附图说明
通过参考附图阅读下文的详细描述,本公开示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本公开的若干实施方式,其中:
图1示意性地示出了根据本公开的一些实施例的示例性应用场景的***架构的示意框图;
图2示意性地示出了根据本公开的一些实施例的异常对象检测方法的流程示意图;
图3示意性地示出了根据本公开的一些实施例的确定异常对象的详细流程示意图;
图4示意性地示出了根据本公开的一些实施例的根据用户数据集构建出的关联关系图的示意图;
图5示意性地示出了根据本公开的一些实施例的异常对象对应的关联关系图的示意图;
图6示意性地示出了根据本公开的一些实施例的正常对象对应的关联关系图的示意图;
图7示意性地示出了根据本公开的一些实施例的异常对象的账号活跃时间分布图的示意图;
图8示意性地示出了根据本公开的一些实施例的正常对象的账号活跃时间分布图的示意图;
图9示意性地示出了根据本公开的一些实施例的异常对象检测装置的示意框图;
图10示意性地示出了根据本公开的示例实施例的存储介质的示意图;以及
图11示意性地示出了根据发明的示例实施例的电子设备的方框图。
在附图中,相同或对应的标号表示相同或对应的部分。
具体实施方式
下面将参考若干示例性实施方式来描述本公开的原理和精神。应当理解,给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本公开,而并非以任何方式限制本公开的范围。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
本领域技术人员知道,本公开的实施方式可以实现为一种***、装置、设备、方法或计算机程序产品。因此,本公开可以具体实现为以下形式,即:完全的硬件、完全的软件(包括固件、驻留软件、微代码等),或者硬件和软件结合的形式。
根据本公开的实施方式,提出了一种异常对象检测方法、异常对象检测装置、介质和电子设备。
在本文中,需要理解的是,所涉及的术语,比如,图可以由顶点集和顶点间的关系集合(边的集合)组成的一种数据结构。在一个数据集中,假如抽取每条数据的账号(account)标识、网际互连协议(Internet Protocol,IP)地址和设备标识(IdentityDocument,ID)这3个字段以表示这条数据,那么当以这3个字段为节点构建图时,这条数据就是一个看起来像三角形的图。在一个数据集中,如果数据之间有重合的节点,那么这些数据连接在一起构成的图称为关联关系图,简称关联图,即数据和数据之间的关联性可以通过关联图展现。
此外,附图中的任何元素数量均用于示例而非限制,以及任何命名都仅用于区分,而不具有任何限制含义。
下面参考本公开的若干代表性实施方式,详细阐释本公开的原理和精神。
发明概述
反作弊业务中存在多种多样的黑产团伙,这些黑产团伙通过各种方式获取大量虚假账号或设备,然后伪装成正常用户进行注册、登录及其他操作,最终实现刷量、薅羊毛、发布有害信息等目的。黑产团伙一般都具备一定规模,他们通过操控脚本或其他工具,在短时间内实现高频攻击,这些黑产团伙隐蔽性强,根据现有技术(如专家规则、设备指纹)难以发现或完整拦截。
在一种技术方案中,提出了一种可信关系的识别方法,该方法基于用户行为数据和图神经网络构建目标主体和对象主体之间的向量距离,通过设定阈值确定可信关系对。采用该方案构造的可信关系虽然可以很好地描述目标主体和对象主体之间的关系,但由于黑产团伙一般规模较大,因此在对规模较大的黑产团伙计算可信关系对时会存在计算复杂度较高的问题。
在一种技术方案中,提供了一种基于图结构模型的异常账号防控方法,该方法基于账号关系网络构建特征,并通过图模型计算隐特征空间中节点的嵌入向量实现异常账号防控。该方案整体比较简洁高效,但是基于图模型的异常账号识别在可解释性方面稍微差一些,而风控领域本身对直观和可解释性的要求较高;同时为了提升图网络的效果,对标注数据量的依赖也较大。
在一种技术方案中,提供了一种基于人工智能技术的全域金融风险知识图谱构建方法。该方法基于社交关系网络构建风险画像特征,通过整合构成全域的金融风险知识图谱,从而提升风控能力。本方法提出的知识图谱构建方案融合了关系网络和用户画像,可解释性较强,不过由于在构建关系网络和用户画像时所需字段较多,因此数据收集方面存在一定难度,整体构建周期较长,需要一定的积累时间才能有不错的效果。
基于上述内容,本公开的基本思想在于,获取预设时间段内的对象数据集,对象数据集中的每条数据至少包含与相应对象相匹配的账号标识、设备标识以及网际互联协议地址;基于账号标识、设备标识以及网际互联协议地址为相应对象构建关联关系图,关联关系图包括账号标识节点、设备标识节点以及网际互联协议地址节点,账号标识节点、设备标识节点以及网际互联协议地址节点分别对应相应对象的账号标识、设备标识以及网际互联协议地址;根据关联关系图的聚合特性确定至少一个目标关系图,每个目标关系图由共享账号标识节点或共享设备标识节点的关联关系图构成;基于目标关系图确定对象数据集中所对应的嫌疑对象,根据嫌疑对象在目标时间段内的时间聚集特性确定异常对象。本公开将关联图分析引入到异常对象检测中,根据用户数据构建关联关系图,通过关联图分析异常对象最本质的两个特性,即关联关系图的聚合特性和时间聚集特性,可以有效区分异常对象和正常对象,使得挖掘出的异常对象更加完整。
在介绍了本公开的基本原理之后,下面具体介绍本公开的各种非限制性实施方式。
应用场景总览
首先参考图1,图1示出了可以应用本公开实施例的一种异常对象检测方法及装置的示例性应用场景的***架构的示意框图。
如图1所示,***架构100可以包括终端设备101、102、103中的一个或多个,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。终端设备101、102、103可以是具有显示屏的各种电子设备,包括但不限于台式计算机、便携式计算机、智能手机和平板电脑等等。应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。比如服务器105可以是多个服务器组成的服务器集群等。
本公开实施例所提供的异常对象检测方法一般由服务器105执行,相应地,异常对象检测装置一般设置于服务器105中。但本领域技术人员容易理解的是,本公开实施例所提供的异常对象检测方法也可以由终端设备101、102、103执行,相应的,异常对象检测装置也可以设置于终端设备101、102、103中,本示例性实施例中对此不做特殊限定。举例而言,在一种示例性实施例中,可以是工作人员通过终端设备101、102、103将预构建的知识图谱和用户输入的用户问题上传至服务器105,服务器通过本公开实施例所提供的异常对象检测方法根据获取到的对象数据集构建关联关系图,对关联关系图的聚合特征和时间聚集特性进行分析,以从对象数据集中确定异常对象,并保存确定出的异常对象的相关信息。当网络向终端设备101、102、103等发送数据时,服务器105可以判断发送数据中是否是与异常对象相关的数据,如果是,则拦截该发送数据,仅向终端设备101、102、103发送正常对象的相关数据。
应该理解的是,图1所示的应用场景仅是本公开的实施例可以在其中得以实现的一个示例。本公开实施例的适用范围不受到该应用场景任何方面的限制。
示例性方法
下面结合图1的应用场景,参考图2来描述根据本公开示例性实施方式的异常对象检测方法。需要注意的是,上述应用场景仅是为了便于理解本公开的精神和原理而示出,本公开的实施方式在此方面不受任何限制。相反,本公开的实施方式可以应用于适用的任何场景。
本公开首先提供了一种异常对象检测方法,该方法执行主体可以是终端设备,也可以是服务器,本公开对此不做特殊限定,本示例实施例中以服务器执行该方法为例进行说明。
参照图2所示,在步骤S210中,获取预设时间段内的对象数据集,对象数据集中的每条数据至少包含与相应对象相匹配的账号标识、设备标识以及网际互联协议地址。
在一些示例实施例中,对象数据集可以是由多个用户对象的对象数据组成的数据集合,对象数据集中的每条数据可以表示一个用户对象的相关数据。预设时间段可以是某一历史时间段,在对对象数据进行分析时,可以根据具体分析需求确定出一预设时间段。账号标识可以是标识用户对象在使用某一资源时所分配的账号。设备标识,即设备ID,可以是用户对象所采用的设备的标识。网际互联协议地址,即IP地址,可以是互联网上的每一个网络和每一台主机对应的逻辑地址。
参考图3,图3示意性地示出了根据本公开的一些实施例的确定异常对象的详细流程示意图。在步骤S310中,在进行异常对象检测之前,可以先获取一定量的对象数据,例如可以获取某24小时内的某一地区中网络用户对应的对象数据集。对象数据集中的每条数据通常可以包含几十到几百不等的字段。
由于黑产团伙在物理设备和网络资源(账号和IP地址)存在成本约束,黑产团伙在攻击中往往会复用设备、账号和IP地址等资源,因此,资源复用是黑产团伙的重要特征。获取到的预设时间段内的对象数据集中,每条数据至少包含与相应对象相匹配的账号ID、设备ID以及IP地址。因此,可以抽取对象数据集中每条数据的账号ID、设备ID以及IP地址这些指定字段,以根据这些指定字段对相关对象数据进行分析。具体的,从对象数据集中抽取账号ID、IP地址和设备ID用以表示一条数据,将这3个字段作为构建关联关系图时的3种节点,则每条数据所构成的图就是一个三角形,三角形的3个顶点对应这3个字段,3个顶点对应的3条边说明这3个节点属于同一条数据。
在步骤S220中,基于账号标识、设备标识以及网际互联协议地址为相应对象构建关联关系图,关联关系图包括账号标识节点、设备标识节点以及网际互联协议地址节点,账号标识节点、设备标识节点以及网际互联协议地址节点分别对应相应对象的账号标识、设备标识以及网际互联协议地址。
在一些示例实施例中,关联关系图可以是根据对象数据集中每个对象的账号ID、设备ID以及IP地址等三个字段的信息作为节点构建得到的图。关联关系图中包括每个对象对应的图包括账号标识节点、设备标识节点以及网际互联协议地址节点;其中,账号标识节点、设备标识节点以及网际互联协议地址节点分别对应某一对象的账号ID、设备ID以及IP地址。
参考图3,在步骤S320中,根据从对象数据集中抽取的每个对象的账号ID、设备ID以及IP地址等字段为对象数据集中的相关对象构建关联关系图;其中,每个关联关系图中均包含账号标识节点、设备标识节点以及网际互联协议地址节点。
在抽取出指定字段后,可以基于账号ID、设备ID和IP地址构建每条数据对应的关联关系图,一条数据可以对应一个关联关系图。黑产团伙为了隐秘地从事黑产活动,通常会自行保有大量的账号、设备以及IP节点资源来实施作弊行为,以避免因过多使用公共资源而暴露。因而,本实施例中从众多字段中抽取出账号ID、设备ID以及IP地址来构建关联关系图,有助于利用黑产团伙资源复用这一特点在后续流程中更加准确地确定出异常对象。具体的,由于每一条数据都可以用一个三角形的图表示,假如有2个三角形之间存在部分节点复用,那么这2个单独的图将通过复用的节点关联在一起,可以构成目标关系图;当复用节点的数据越来越多时,构成的目标关系图的规模就越来越大。参考图4,图4示意性地示出了根据本公开的一些实施例的根据用户数据集构建出的目标关系图的示意图。图4中包括目标关系图410和目标关系图420,图4中的两个目标关系图主要都是通过账号复用将多条数据关联在一起,例如,由于目标关系图410中可能存在重叠的图,目标关系图410中账号至少被7条数据所复用,所以该账号的资源复用次数至少为7;又因为这两个目标关系图之间没有节点复用,因此这两个图相互之间是独立的。通常基于获取到的对象数据集中的数据可以得到一定数量的目标关系图,而且每个目标关系图的规模可能都大小不一。
在步骤S230中,根据关联关系图的聚合特性确定至少一个目标关系图,每个目标关系图由共享账号标识节点或共享设备标识节点的关联关系图构成。
在一些示例实施例中,关联关系图的聚合特性可以是对象数据集中的多个对象之间对资源的复用状态。资源可以是指账号ID、IP地址和设备ID这3种资源,如果多条数据之间存在至少一种节点重合,则是资源复用;例如,有2条数据的账号ID一样,但是IP地址和设备ID都不一样,则这两条数据之间存在资源复用。目标关系图可以是多个对象之间存在资源复用的关联关系图。共享账号标识节点可以是多个对象之间存在账号复用时所共用的账号标识节点,即多个不同的IP地址和设备ID所共用的那一个账号标识所在的节点。共享设备标识节点可以是多个对象之间存在设备复用时所共用的设备ID节点,即多个不同的对象账户和IP地址所共用的共享设备标识所在的节点。关联关系可以是多个对象数据各自对应的关联关系图通过复用的节点关联在一起时所形成的关系。
参考图3,在步骤S330中,在根据对象数据集中的对象数据构建出关联关系图后,可以根据关联关系图分析对象数据集中多个对象之间的关联关系图的聚合特性,判断多个对象之间是否存在资源复用的情况,把多个对象之间存在资源复用的关联关系图确定为目标关系图,则目标关系图中包括共享账号标识节点或共享设备标识节点所对应的关联关系图。
在一些示例实施例中,目标关系图是由若干个具有相同账号标识节点的关联关系图构成;或者,目标关系图是由若干个具有相同设备标识节点的关联关系图构成;其中,相应若干个关联关系图的数目为大于等于第一阈值的自然数。
其中,第一阈值可以是预先设定的数值,用于与目标关系图的规模进行比较,例如,第一阈值可以是200、300等。目标关系图的规模可以是目标关系图包含的数据量大小,即一个目标关系图中所包含的关联关系图的数量。
由于关联关系图的规模只有在达到一定数值时,关联关系图对应的用户才有是异常对象(黑产团伙)的可能。因此,在得到一系列关联关系图后,可以先将关联关系图按照规模(数据量)从大到小排序,仅对规模超过第一阈值的关联关系图确定为目标关系图,并对目标关系图进行特征构建。由于黑产团伙通常需要操控大量资源(如账号和设备ID)进行刷量、引流等相关操作,因此,可以通过账号标识和设备ID是否被复用以及复用的次数确定某一关联关系图是否为目标关系图。
参考图5,图5示意性地示出了根据本公开的一些实施例的异常对象对应的关联关系图的示意图。图5中的关联关系图500是由超过第一阈值个相同设备标识节点的关联关系图构成的,因此,可以将图5中的关联关系图确定为目标关系图500。参考图6,图6示意性地示出了根据本公开的一些实施例的正常对象对应的关联关系图的示意图。图6中的关联关系图600仅包含7个具有相同IP地址节点的关联关系图,因此,关联关系图600可以不作为目标关系图。
在步骤S240中,基于目标关系图确定对象数据集中所对应的嫌疑对象,根据嫌疑对象在目标时间段内的时间聚集特性确定异常对象。
在一些示例实施例中,嫌疑对象可以是存在是黑产团伙的可能性的用户对象。异常对象可以是通过分析关联关系图确定出的黑产团伙。目标时间段可以是在分析用户行为时所确定的时间段。时间聚集特性可以是资源(例如账号ID、设备ID)的活跃时间分布比较集中的特点。
在根据关联关系图确定出目标关系图后,可以基于目标关系图确定出对象数据集中存在的嫌疑对象,并进一步分析这些嫌疑对象在目标时间段内的时间聚集特性,如果嫌疑对象在目标时间段内存在时间聚集,则可以将嫌疑对象确定为异常对象。
由于黑产团伙通常需要在指定时间内操控大量资源进行刷量、引流等任务的相关操作,不同资源在活跃时间上存在同步性和聚集性,因此,可以对嫌疑对象在目标时间段内的时间聚集特性进行分析,判断该嫌疑对象是否为异常对象。
在一些示例实施例中,根据嫌疑对象在目标时间段内的时间聚集特性确定异常对象,包括:确定嫌疑对象在目标时间段内的活跃时间点的分布信息,分布信息反映相应嫌疑对象在目标时间段内的时间聚集特性;根据分布信息在嫌疑对象中确定异常对象。
其中,分布信息可以是嫌疑对象在目标时间段内使用设备进行登录或其他相关操作所形成的活跃时间点的分布情况。
由于在正常场景下,也存在IP地址出现时间聚集的可能性,所以在分析目标关系图的时间聚集特性时可以不考虑IP地址的时间聚集,仅考虑账号ID和/或设备ID的时间聚集特性。通过分析账号ID和/或设备ID在目标时间段内的活跃时间点的分布信息,根据确定出的分布信息从嫌疑对象中确定出异常对象。
在一些示例实施例中,根据嫌疑对象在目标时间段内的时间聚集特性确定异常对象,还包括:获取对应于异常对象的异常账号标识和/或异常设备标识;基于异常账号标识和/或异常设备标识建立黑名单。
其中,异常账号标识可以是异常对象对应的账号标识。异常设备标识可以是异常对象对应的设备ID。黑名单可以是用于建立异常对象的对象数据库。
具体的,由于黑产团伙通常通过复用账号标识和设备ID进行相关操作,在确定出异常对象后,可以从目标关系图中确定出涉及异常对象的资源字段,即账号标识和设备ID,并获取异常对象对应的异常账号标识、异常设备标识等,将获取到的账号标识和设备ID添加至黑名单中。由于黑名单中记录有异常对象的账号标识和设备ID,当网络上每传来一条新的数据时,均可以通过查询黑名单来判断该数据是否是黑产团伙相关的数据,如果该数据是黑产团伙相关的数据,则实现线上的实时拦截。
在一些示例实施例中,可以采用分类模型确定异常对象,采用分类模型确定异常对象的过程具体可以包括下述步骤:基于目标关系图对分类模型进行训练,分类模型包含特征提取模块,该分类模型用于根据特征提取模块所获得的关系图聚合特征以及时间聚集特征确定异常对象;其中,关系图聚合特征表征关联关系图的聚合特性,时间聚集特征表征嫌疑对象在目标时间段内的时间聚集特性。
其中,特征提取模块可以是用于提取输入的目标关系图中的关系图聚合特征和时间聚集特征。分类模型可以根据提取出的关系图聚合特征和时间聚集特征,确定一个关联关系图中的对象是正常对象还是异常对象。关系图的聚合特征可以是表示关联关系图的聚合特性的特征,体现了用户对象对资源的复用情况。时间聚集特征可以是表示嫌疑对象对应的对象数据所构成的目标关系图的时间聚集的特征。根据目标关系图的规模确定出嫌疑对象对应的目标关系图后,可以将嫌疑对象对应的目标关系图作为训练数据输入至分类模型中,对模型进行训练。参考图3,在步骤S330中,将嫌疑对象对应的目标关系图作为训练数据时,可以提取出关系图聚合特征和时间聚集特征。
在一些示例实施例中,关系图聚合特征包括:每个目标关系图中所包含的具有相同账号标识节点或相同设备标识节点的关联关系图的数目。相同账号标识节点可以是多条数据对应的关联关系图所共用的账号标识节点。相同设备标识节点可以是多条数据对应的关联关系图所共用的设备标识节点。
具体的,关系图聚合特征可以包括:设备ID的平均复用次数,账号标识的平均复用次数、设备ID的最大复用次数,账号标识的最大复用次数、目标关系图规模等;其中,平均复用次数可以是所有复用节点的被复用次数的平均值。最大复用次数可以是某一复用节点的最大复用次数。关联图规模与复用次数呈负相关关系。由于在正常场景下,有可能存在IP地址复用的可能性,例如,在某一公共场所开设公共无线上网(Wi-Fi),则大量用户将在某一时间段同时使用该公共Wi-Fi,将出现IP地址复用的场景,因此,提取的关联图聚合特征可以不考虑IP地址的复用。
黑产团伙和正常用户的资源复用特征差别较大,参考图5,图5示意性地示出了根据本公开的一些实施例的异常对象对应的目标关系图的示意图。图5中的关联关系图500中设备ID的平均复用次数和最大复用次数都达到了几十,且该关联关系图的规模较大;即关联关系图500是由超过第一阈值个相同设备标识节点的关联关系图构成的,因此,可以将图5中的关联关系图确定为目标关系图500。参考图6,图6示意性地示出了根据本公开的一些实施例的正常对象对应的关联关系图的示意图。图6中的关联关系图600中仅包含7个具有相同IP地址节点的关联关系图,设备ID的平均复用次数和最大复用次数都小于等于2,且关联关系图的规模也较小,因此,关联关系图600可以不作为目标关系图。
在一些示例实施例中,时间聚集特征包括:每个嫌疑对象在目标时间段内的活跃时间点的数目。活跃时间点可以是对象用户使用设备、账户等相关资源进行相关操作时所对应的时间点。
除了提取目标关系图的聚合特征,还提取每个目标关系图的时间聚集特征,与资源复用特征类似,因为在正常场景下也存在IP地址时间聚集的可能性,所以在构建时间聚集相关的特征时可以不考虑IP地址时间聚集,仅考虑账号和设备ID。其次,以小时为单位划分不同时间段,最终构建出的时间聚集特征可以包括账号的活跃时间段平均数量、设备ID的活跃时间段平均数量、总的活跃时间段数量。下面以账号标识为例,对关联关系图中异常对象的时间聚集特征和正常对象的时间聚集特征进行说明。
参考图7,图7示意性地示出了根据本公开的一些实施例的异常对象的账号活跃时间分布图的示意图。图中每个点的颜色越深则表明对应账号在对应时间段的活跃次数越多。时间分布图700的横坐标是时间段(单位为小时),纵坐标是账号ID索引,图700中显示的时间分布表明该团伙的每个账号ID仅集中出现在某个时间段,如图中的14时~16时这一时间段,非常符合黑产团伙通过操纵脚本或工具进行攻击的特性。参考图8,图8示意性地示出了根据本公开的一些实施例的正常对象的账号活跃时间分布图的示意图。时间分布图800中每个账号的活跃时间均比较随机,没有明显的时间聚集,即在0时到23时,不同的账号ID的活跃时间均比较随机,因此,图800显示的时间分布为正常对象对应的时间分布。
在确定训练数据时,可以将具有上述关系图聚合特征和时间聚集特征的目标关系图的标签确定为“异常对象”,并将不具有上述关系图聚合特征和时间聚集特征的目标关系图的标签确定为“正常对象”,得到用于进行模型训练的训练数据。将目标关系图作为训练数据输入至分类模型进行训练,分类模型中的特征提取模块可以提取出目标关系图中关系图聚合特征和时间聚集特征,并得到最终的分类模型。通过分类模型对目标关系图进行分析,可以确定目标关系图中是否包含异常对象。
在一些示例实施例中,分类模型为决策树模型。决策树模型是一种简单易用的非参数分类器。在训练阶段,对标注的目标关系图构建关系图聚合特征和时间聚集特征,在构建好每个目标关系图的关系图聚合特征和时间聚集特征时,可以将这两组特征进行合并,合并成关系图的总特征。在验证阶段,可以基于构建的总特征和训练后的决策树分类模型对每个关联图进行二分类。举例而言,当设备ID的平均复用次数和账号标识的平均复用次数小于等于2,设备ID的最大复用次数和账号标识的最大复用次数小于等于10时,可以认为目标关系图中的用户对象为正常用户。当设备ID的平均复用次数和账号标识的平均复用次数大于2,设备ID的最大复用次数和账号标识的最大复用次数大于10时,可以认为目标关系图中的用户对象存在是异常对象的可能性。
本领域技术人员容易理解的是,本公开中的分类模型还可以采用其他模型,如线形模型,支持向量机(Support Vector Machine,SVM)等,本公开对所采用的分类模型的具体类型不作任何特殊限定。
在一些示例实施例中,获取待测数据集,待测数据集中的每条数据至少包含与待测对象相匹配的账号标识和/或设备标识;比对待测对象与异常对象的账号标识和/或设备标识,以确定待测对象的可信任性。
其中,待测数据集可以是待测对象的相关数据组成的数据集,待测对象可以是待检测是否为异常对象的对象。可信任性可以是判断待测对象是否为正常对象的可信任程度,当判定待测对象是正常对象,则认为待测对象是可信任的;当判定待测对象是异常对象,则认为待测对象是不可信任的。
具体的,获取待测数据集,待测数据集中的待测数据可以是通过网络传输的数据,还可以是通过其他方式获取的数据;其中,待测数据中包括与待测对象相匹配的账号标识和/或设备标识。与待测对象相匹配的账号标识可以是待测对象对应的账号标识,即待测对象的账号ID。与待测对象相匹配的设备标识可以是待测对象各对应的设备标识,即待测对象的设备ID。异常对象的账号标识和异常对象的设备标识均存储在黑名单中。在获取到待测数据集后,确定与待测对象相匹配的账号标识或设备标识,将与待测对象相匹配的账号标识或设备标识分别与异常对象的账号标识或设备标识进行对比。
另外,待测数据集中可能同时包括与待测对象相匹配的账号标识和设备标识,此时,可以将与待测对象相匹配的账号标识和设备标识分别与异常对象对应的账号标识和设备标识进行对比。如果与待测对象相匹配的账号标识或设备标识两者其一与异常对象的账号标识或设备标识相同,则可以认为待测对象是不可信任的。
在一些示例实施例中,确定待测数据集的可信任性可以通过下述步骤进行:获取待测数据集,待测数据集中的每条数据至少包含与待测对象相匹配的账号标识、设备标识以及网际互联协议地址;基于与待测对象相匹配的账号标识、设备标识以及网际互联协议地址构建待测关系图;将待测关系图输入至分类模型进行检测,基于分类模型的输出结果确定待测对象的可信任性。
其中,待测数据集中包含多条数据,每条数据可以包含与待测对象匹配的账号ID、设备ID以及IP地址。待测关系图可以是根据待测数据集中待测对象的账号ID、设备ID以及IP地址构建得到的关联关系图。
具体的,在获取到待测数据集后,可以根据待测数据集中的每条数据的账号ID、设备ID和IP地址构建对应于待测数据集中每条数据的待测关联关系图,因为每一条待测数据都可以用一个三角形的图来表示,假如有2个三角形之间存在部分节点复用,那么这2个单独的图将通过复用的节点关联在一起,采用上述方式可以构成待测数据集对应的待测目标关系图。在步骤S340中,在构建出待测目标关系图之后,可以将待测目标关系图输入至分类模型中进行对象检测,分类模型将通过特征提取模块提取待测目标关系图中的关系图聚合特征和时间聚集特征。在步骤S350中,根据关系图聚合特征和时间聚集特征确定待测对象的可信任性,判断待测对象是正常对象或异常对象的输出结果。如果输出结果为待测对象为异常对象,则将异常对象的相关账号ID、设备ID以及IP地址添加至黑名单库中,以记录异常对象。
综上所述,本公开的异常对象检测方法,获取预设时间段内的对象数据集,对象数据集中的每条数据至少包含与相应对象相匹配的账号ID、设备ID以及IP地址;基于账号ID、设备ID以及IP地址为相应对象构建关联关系图,关联关系图包括账号标识节点、设备ID节点以及IP地址节点,账号标识节点、设备ID节点以及IP地址节点分别对应相应对象的账号ID、设备ID以及IP地址;根据关联关系图的聚合特性确定至少一个目标关系图,每个目标关系图由共享账号标识节点或共享设备标识节点的关联关系图构成;基于目标关系图确定对象数据集中所对应的嫌疑对象,根据嫌疑对象在目标时间段内的时间聚集特性确定异常对象。一方面,本公开将关联图分析引入到异常对象检测中,以一个全新的视角和较低的成本挖掘出异常对象。另一方面,通过分析黑产团伙的特点并结合数据统计,根据黑产团伙最本质的两个特性,即关联关系图的聚合特性和时间聚集特性,可以有效区分异常对象和正常对象,使得挖掘出的异常对象更加完整。又一方面,由于构建关联图时需要基于一段时间的数据进行构图,在时间上存在滞后性,结合黑产团伙通常可能进行多次攻击的特点,本公开可以采用离线挖掘并将异常对象加入黑名单库,并结合在线检索的方式以实现对异常对象相关数据的线上实时拦截。
示例性装置
在介绍了本公开示例性实施方式的方法之后,接下来,参考图9对本公开示例性实施例的异常对象检测装置进行说明。
在图9中,异常对象检测装置900可以包括数据集获取模块910、关联图构建模块920、关系图确定模块930以及对象确定模块940。其中:
数据集获取模块910,用于获取预设时间段内的对象数据集,对象数据集中的每条数据至少包含与相应对象相匹配的账号标识、设备标识以及网际互联协议地址;
关联图构建模块920,用于基于账号标识、设备标识以及网际互联协议地址为相应对象构建关联关系图,关联关系图包括账号标识节点、设备标识节点以及网际互联协议地址节点,账号标识节点、设备标识节点以及网际互联协议地址节点分别对应相应对象的账号标识、设备标识以及网际互联协议地址;
关系图确定模块930,用于根据关联关系图的聚合特性确定至少一个目标关系图,每个目标关系图由共享账号标识节点或共享设备标识节点的关联关系图构成;
对象确定模块940,用于基于目标关系图确定对象数据集中所对应的嫌疑对象,根据嫌疑对象在目标时间段内的时间聚集特性确定异常对象。
在本公开的一些实施例中,异常对象检测装置900还包括第一对象检测模块,第一对象检测模块被配置为:获取待测数据集,待测数据集中的每条数据至少包含与待测对象相匹配的账号标识和/或设备标识;比对待测对象与异常对象的账号标识和/或设备标识,以确定待测对象的可信任性。
在本公开的一些实施例中,对象确定模块包括对象确定单元,对象确定单元被配置为:确定嫌疑对象在目标时间段内的活跃时间点的分布信息,分布信息反映相应嫌疑对象在目标时间段内的时间聚集特性;根据分布信息在嫌疑对象中确定异常对象。
在本公开的一些实施例中,异常对象检测装置900还包括模型训练模块,模型训练模块被配置为:基于目标关系图对分类模型进行训练,分类模型包含特征提取模块,该分类模型用于根据特征提取模块所获得的关系图聚合特征以及时间聚集特征确定异常对象;其中,关系图聚合特征表征关联关系图的聚合特性,时间聚集特征表征嫌疑对象在目标时间段内的时间聚集特性。
在本公开的一些实施例中,异常对象检测装置900还包括第二对象检测模块,第二对象检测模块被配置为:获取待测数据集,待测数据集中的每条数据至少包含与待测对象相匹配的账号标识、设备标识以及网际互联协议地址;基于与待测对象相匹配的账号标识、设备标识以及网际互联协议地址构建待测关系图;将待测关系图输入至分类模型进行检测,基于分类模型的输出结果确定待测对象的可信任性。
在本公开的一些实施例中,对象确定模块包括黑名单建立单元,黑名单建立单元被配置为:获取对应于异常对象的异常账号标识和/或异常设备标识;基于异常账号标识和/或异常设备标识建立黑名单。
在本公开实施例的第三方面中,提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述第一方面所述的异常对象检测方法。
示例性介质
在介绍了本公开示例性实施方式的装置之后,接下来,参考图10对本公开示例性实施例的存储介质进行说明。
在一些实施例中,本公开的各个方面还可以实现为一种介质,其上存储有程序代码,当所述程序代码被设备的处理器执行时用于实现本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施例的异常对象检测方法中的步骤。
例如,所述设备的处理器执行所述程序代码时可以实现如图2中所述的步骤S210,获取预设时间段内的对象数据集,对象数据集中的每条数据至少包含与相应对象相匹配的账号标识、设备标识以及网际互联协议地址;步骤S220,基于账号标识、设备标识以及网际互联协议地址为相应对象构建关联关系图,关联关系图包括账号标识节点、设备标识节点以及网际互联协议地址节点,账号标识节点、设备标识节点以及网际互联协议地址节点分别对应相应对象的账号标识、设备标识以及网际互联协议地址;步骤S230,根据关联关系图的聚合特性确定至少一个目标关系图,每个目标关系图由共享账号标识节点或共享设备标识节点的关联关系图构成;步骤S240,基于目标关系图确定对象数据集中所对应的嫌疑对象,根据嫌疑对象在目标时间段内的时间聚集特性确定异常对象。
参考图10所示,描述了根据本公开的实施例的用于实现上述异常对象检测方法或者实现上述异常对象检测方法的程序产品1000,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在终端设备,例如个人电脑上运行。然而,本公开的程序产品不限于此。
所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质。
可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备。
示例性计算设备
在介绍了本公开示例性实施方式的异常对象检测方法、异常对象检测装置以及存储介质之后,接下来,参考图11对本公开示例性实施方式的电子设备进行说明。
所属技术领域的技术人员能够理解,本公开的各个方面可以实现为***、方法或程序产品。因此,本公开的各个方面可以具体实现为以下形式,即:完全的硬件实施例、完全的软件实施例(包括固件、微代码等),或硬件和软件方面结合的实施例,这里可以统称为“电路”、“模块”或“***”。
在一些可能的实施例中,根据本公开的电子设备可以至少包括至少一个处理单元、以及至少一个存储单元。其中,所述存储单元存储有程序代码,当所述程序代码被所述处理单元执行时,使得所述处理单元执行本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施例的异常对象检测方法中的步骤。例如,所述处理单元可以执行如图2中所示的步骤S210,获取预设时间段内的对象数据集,对象数据集中的每条数据至少包含与相应对象相匹配的账号标识、设备标识以及网际互联协议地址;步骤S220,基于账号标识、设备标识以及网际互联协议地址为相应对象构建关联关系图,关联关系图包括账号标识节点、设备标识节点以及网际互联协议地址节点,账号标识节点、设备标识节点以及网际互联协议地址节点分别对应相应对象的账号标识、设备标识以及网际互联协议地址;步骤S230,根据关联关系图的聚合特性确定至少一个目标关系图,每个目标关系图由共享账号标识节点或共享设备标识节点的关联关系图构成;步骤S240,基于目标关系图确定对象数据集中所对应的嫌疑对象,根据嫌疑对象在目标时间段内的时间聚集特性确定异常对象。
下面参照图11来描述根据本公开的示例实施例的电子设备1100。图11所示的电子设备1100仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图11所示,电子设备1100以通用计算设备的形式表现。电子设备1100的组件可以包括但不限于:上述至少一个处理单元1101、上述至少一个存储单元1102、连接不同***组件(包括存储单元1102和处理单元1101)的总线1103、显示单元1107。
总线1103表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器、***总线、图形加速端口、处理器或者使用多种总线结构中的任意总线结构的局域总线。
存储单元1102可以包括易失性存储器形式的可读介质,例如随机存取存储器(RAM)1121和/或高速缓存存储器1122,还可以进一步包括只读存储器(ROM)1123。
存储单元1102还可以包括具有一组(至少一个)程序模块1124的程序/实用工具1125,这样的程序模块1124包括但不限于:操作***、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
电子设备1100也可以与一个或多个外部设备1104(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与电子设备1100交互的设备通信,和/或与使得电子设备1100能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口1105进行。并且,电子设备1100还可以通过网络适配器1106与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器1106通过总线1103与电子设备1100的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备1100使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID***、磁带驱动器以及数据备份存储***等。
应当注意,尽管在上文详细描述中提及了异常对象检测装置的若干单元/模块或子单元/模块,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之,上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。
此外,尽管在附图中以特定顺序描述了本公开方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
虽然已经参考若干具体实施方式描述了本公开的精神和原理,但是应该理解,本公开并不限于所公开的具体实施方式,对各方面的划分也不意味着这些方面中的特征不能组合以进行受益,这种划分仅是为了表述的方便。本公开旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。

Claims (10)

1.一种异常对象检测方法,其特征在于,包括:
获取预设时间段内的对象数据集,所述对象数据集中的每条数据至少包含与相应对象相匹配的账号标识、设备标识以及网际互联协议地址;
基于所述账号标识、所述设备标识以及所述网际互联协议地址为相应对象构建关联关系图,所述关联关系图包括账号标识节点、设备标识节点以及网际互联协议地址节点,所述账号标识节点、所述设备标识节点以及所述网际互联协议地址节点分别对应所述相应对象的账号标识、设备标识以及网际互联协议地址;
根据所述关联关系图的聚合特性确定至少一个目标关系图,每个所述目标关系图由共享账号标识节点或共享设备标识节点的关联关系图构成;
基于所述目标关系图确定所述对象数据集中所对应的嫌疑对象,根据所述嫌疑对象在目标时间段内的时间聚集特性确定异常对象。
2.根据权利要求1所述的方法,其特征在于,还包括:
获取待测数据集,所述待测数据集中的每条数据至少包含与待测对象相匹配的账号标识和/或设备标识;
比对所述待测对象与所述异常对象的账号标识和/或设备标识,以确定所述待测对象的可信任性。
3.根据权利要求1所述的方法,其特征在于,所述目标关系图是由若干个具有相同账号标识节点的关联关系图构成;或者,
所述目标关系图是由若干个具有相同设备标识节点的关联关系图构成;其中,相应若干个关联关系图的数目为大于等于第一阈值的自然数。
4.根据权利要求1所述的方法,其特征在于,所述根据所述嫌疑对象在目标时间段内的时间聚集特性确定异常对象,包括:
确定所述嫌疑对象在所述目标时间段内的活跃时间点的分布信息,所述分布信息反映相应嫌疑对象在目标时间段内的时间聚集特性;
根据所述分布信息在所述嫌疑对象中确定异常对象。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
基于所述目标关系图对分类模型进行训练,所述分类模型包含特征提取模块,该分类模型用于根据所述特征提取模块所获得的关系图聚合特征以及时间聚集特征确定所述异常对象;其中,所述关系图聚合特征表征所述关联关系图的聚合特性,所述时间聚集特征表征所述嫌疑对象在目标时间段内的时间聚集特性。
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
获取待测数据集,所述待测数据集中的每条数据至少包含与待测对象相匹配的账号标识、设备标识以及网际互联协议地址;
基于与所述待测对象相匹配的账号标识、设备标识以及网际互联协议地址构建待测关系图;
将所述待测关系图输入至所述分类模型进行检测,基于所述分类模型的输出结果确定所述待测对象的可信任性。
7.根据权利要求1所述的方法,其特征在于,所述根据所述嫌疑对象在目标时间段内的时间聚集特性确定异常对象,还包括:
获取对应于所述异常对象的异常账号标识和/或异常设备标识;
基于所述异常账号标识和/或异常设备标识建立黑名单。
8.一种异常对象检测装置,其特征在于,包括:
数据集获取模块,用于获取预设时间段内的对象数据集,所述对象数据集中的每条数据至少包含与相应对象相匹配的账号标识、设备标识以及网际互联协议地址;
关联图构建模块,用于基于所述账号标识、所述设备标识以及所述网际互联协议地址为相应对象构建关联关系图,所述关联关系图包括账号标识节点、设备标识节点以及网际互联协议地址节点,所述账号标识节点、所述设备标识节点以及所述网际互联协议地址节点分别对应所述相应对象的账号标识、设备标识以及网际互联协议地址;
关联图确定模块,用于根据所述关联关系图的聚合特性确定至少一个目标关系图,每个所述目标关系图由共享账号标识节点或共享设备标识节点的关联关系图构成;
对象确定模块,用于基于所述目标关系图确定所述对象数据集中所对应的嫌疑对象,根据所述嫌疑对象在目标时间段内的时间聚集特性确定异常对象。
9.一种电子设备,其特征在于,包括:
处理器;以及
存储器,所述存储器上存储有计算机可读指令,所述计算机可读指令被所述处理器执行时实现如权利要求1至7中任意一项所述的异常对象检测方法。
10.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任意一项所述的异常对象检测方法。
CN202011505945.0A 2020-12-18 2020-12-18 异常对象检测方法、装置、存储介质及电子设备 Pending CN112541022A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011505945.0A CN112541022A (zh) 2020-12-18 2020-12-18 异常对象检测方法、装置、存储介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011505945.0A CN112541022A (zh) 2020-12-18 2020-12-18 异常对象检测方法、装置、存储介质及电子设备

Publications (1)

Publication Number Publication Date
CN112541022A true CN112541022A (zh) 2021-03-23

Family

ID=75019125

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011505945.0A Pending CN112541022A (zh) 2020-12-18 2020-12-18 异常对象检测方法、装置、存储介质及电子设备

Country Status (1)

Country Link
CN (1) CN112541022A (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113206855A (zh) * 2021-05-10 2021-08-03 中国工商银行股份有限公司 数据访问异常的检测方法、装置、电子设备及存储介质
CN113271315A (zh) * 2021-06-08 2021-08-17 工银科技有限公司 虚拟专用网络异常使用检测方法、装置和电子设备
CN113312560A (zh) * 2021-06-16 2021-08-27 百度在线网络技术(北京)有限公司 群组检测方法、装置及电子设备
CN113440856A (zh) * 2021-07-15 2021-09-28 网易(杭州)网络有限公司 游戏中异常账号的识别方法、装置、电子设备及存储介质
CN113553370A (zh) * 2021-07-27 2021-10-26 百度在线网络技术(北京)有限公司 异常检测方法、装置、电子设备及可读存储介质
CN113591088A (zh) * 2021-07-30 2021-11-02 百度在线网络技术(北京)有限公司 一种标识识别方法、装置及电子设备
CN113722576A (zh) * 2021-05-07 2021-11-30 北京达佳互联信息技术有限公司 网络安全信息的处理方法、查询方法及相关装置
CN114006737A (zh) * 2021-10-25 2022-02-01 北京三快在线科技有限公司 一种账号安全的检测方法及检测装置
CN114422267A (zh) * 2022-03-03 2022-04-29 北京天融信网络安全技术有限公司 流量检测方法、装置、设备及介质
CN115766514A (zh) * 2022-11-02 2023-03-07 中国第一汽车股份有限公司 车联网的全链路质量监控方法、装置、存储介质和车辆
CN115883147A (zh) * 2022-11-22 2023-03-31 浙江御安信息技术有限公司 一种基于图神经网络的攻击者画像方法
CN116628554A (zh) * 2023-05-31 2023-08-22 烟台大学 一种工业互联网数据异常的检测方法、***和设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109213801A (zh) * 2018-08-09 2019-01-15 阿里巴巴集团控股有限公司 基于关联关系的数据挖掘方法和装置
CN109450920A (zh) * 2018-11-29 2019-03-08 北京奇艺世纪科技有限公司 一种异常账号检测方法及装置
WO2019114344A1 (zh) * 2017-12-15 2019-06-20 阿里巴巴集团控股有限公司 一种基于图结构模型的异常账号防控方法、装置以及设备
CN111726359A (zh) * 2020-06-18 2020-09-29 五八有限公司 一种账户信息的检测方法和装置
CN111931047A (zh) * 2020-07-31 2020-11-13 中国平安人寿保险股份有限公司 基于人工智能的黑产账号检测方法及相关装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019114344A1 (zh) * 2017-12-15 2019-06-20 阿里巴巴集团控股有限公司 一种基于图结构模型的异常账号防控方法、装置以及设备
CN109213801A (zh) * 2018-08-09 2019-01-15 阿里巴巴集团控股有限公司 基于关联关系的数据挖掘方法和装置
CN109450920A (zh) * 2018-11-29 2019-03-08 北京奇艺世纪科技有限公司 一种异常账号检测方法及装置
CN111726359A (zh) * 2020-06-18 2020-09-29 五八有限公司 一种账户信息的检测方法和装置
CN111931047A (zh) * 2020-07-31 2020-11-13 中国平安人寿保险股份有限公司 基于人工智能的黑产账号检测方法及相关装置

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113722576A (zh) * 2021-05-07 2021-11-30 北京达佳互联信息技术有限公司 网络安全信息的处理方法、查询方法及相关装置
CN113206855A (zh) * 2021-05-10 2021-08-03 中国工商银行股份有限公司 数据访问异常的检测方法、装置、电子设备及存储介质
CN113271315A (zh) * 2021-06-08 2021-08-17 工银科技有限公司 虚拟专用网络异常使用检测方法、装置和电子设备
CN113312560A (zh) * 2021-06-16 2021-08-27 百度在线网络技术(北京)有限公司 群组检测方法、装置及电子设备
CN113312560B (zh) * 2021-06-16 2023-07-25 百度在线网络技术(北京)有限公司 群组检测方法、装置及电子设备
CN113440856A (zh) * 2021-07-15 2021-09-28 网易(杭州)网络有限公司 游戏中异常账号的识别方法、装置、电子设备及存储介质
CN113440856B (zh) * 2021-07-15 2024-02-02 网易(杭州)网络有限公司 游戏中异常账号的识别方法、装置、电子设备及存储介质
CN113553370B (zh) * 2021-07-27 2023-07-21 百度在线网络技术(北京)有限公司 异常检测方法、装置、电子设备及可读存储介质
CN113553370A (zh) * 2021-07-27 2021-10-26 百度在线网络技术(北京)有限公司 异常检测方法、装置、电子设备及可读存储介质
CN113591088A (zh) * 2021-07-30 2021-11-02 百度在线网络技术(北京)有限公司 一种标识识别方法、装置及电子设备
CN113591088B (zh) * 2021-07-30 2023-08-29 百度在线网络技术(北京)有限公司 一种标识识别方法、装置及电子设备
CN114006737B (zh) * 2021-10-25 2023-09-01 北京三快在线科技有限公司 一种账号安全的检测方法及检测装置
CN114006737A (zh) * 2021-10-25 2022-02-01 北京三快在线科技有限公司 一种账号安全的检测方法及检测装置
CN114422267A (zh) * 2022-03-03 2022-04-29 北京天融信网络安全技术有限公司 流量检测方法、装置、设备及介质
CN114422267B (zh) * 2022-03-03 2024-02-06 北京天融信网络安全技术有限公司 流量检测方法、装置、设备及介质
CN115766514A (zh) * 2022-11-02 2023-03-07 中国第一汽车股份有限公司 车联网的全链路质量监控方法、装置、存储介质和车辆
CN115883147A (zh) * 2022-11-22 2023-03-31 浙江御安信息技术有限公司 一种基于图神经网络的攻击者画像方法
CN115883147B (zh) * 2022-11-22 2023-10-13 浙江御安信息技术有限公司 一种基于图神经网络的攻击者画像方法
CN116628554A (zh) * 2023-05-31 2023-08-22 烟台大学 一种工业互联网数据异常的检测方法、***和设备
CN116628554B (zh) * 2023-05-31 2023-11-03 烟台大学 一种工业互联网数据异常的检测方法、***和设备

Similar Documents

Publication Publication Date Title
CN112541022A (zh) 异常对象检测方法、装置、存储介质及电子设备
CN109347801B (zh) 一种基于多源词嵌入和知识图谱的漏洞利用风险评估方法
KR101883400B1 (ko) 에이전트리스 방식의 보안취약점 점검 방법 및 시스템
US20130291108A1 (en) Apparatus and method for detecting traffic flooding attack and conducting in-depth analysis using data mining
Ahmed et al. Detecting Computer Intrusions Using Behavioral Biometrics.
Chalvatzis et al. Evaluation of security vulnerability scanners for small and medium enterprises business networks resilience towards risk assessment
CN102045357A (zh) 一种基于仿射聚类分析的入侵检测方法
CN114090406A (zh) 电力物联网设备行为安全检测方法、***、设备及存储介质
CN116248362A (zh) 一种基于双层隐马尔可夫链的用户异常网络访问行为识别方法
Cho et al. Two sophisticated techniques to improve HMM-based intrusion detection systems
CN114491513A (zh) 基于知识图谱的区块链智能合约重入攻击检测***与方法
Arıkan et al. A data mining based system for automating creation of cyber threat intelligence
CN114925365A (zh) 一种文件处理方法、装置、电子设备及存储介质
Saini et al. Modelling intrusion detection system using hidden Markov model: A review
Katano et al. Prediction of infected devices using the quantification theory type 3 based on mitre att&ck technique
Mihailescu et al. Unveiling Threats: Leveraging User Behavior Analysis for Enhanced Cybersecurity
Nha et al. Methodology Interaction by Machine Learning Model to Detect Vulnerability in Smart Contract of Blockchain
Fessi et al. Data collection for information security system
KR102471618B1 (ko) 넷플로우 기반 대규모 서비스망 불법 접속 추적 방법 및 그를 위한 장치 및 시스템
CN113221110B (zh) 一种基于元学习的远程访问木马智能分析方法
Abbass et al. Evaluation of security risks using Apriori algorithm
CN115563657B (zh) 一种数据信息安全处理方法、***及云平台
Gupta et al. Device behavioral profiling for autonomous protection using deep neural networks
CN114338187B (zh) 基于决策树的终端安全检测方法及装置
KR102541888B1 (ko) 이미지 기반 악성코드 탐지 방법 및 장치와 이를 이용하는 인공지능 기반 엔드포인트 위협탐지 및 대응 시스템

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20210927

Address after: 310000 Room 408, building 3, No. 399, Wangshang Road, Changhe street, Binjiang District, Hangzhou City, Zhejiang Province

Applicant after: Hangzhou Netease Zhiqi Technology Co.,Ltd.

Address before: 310052 Building No. 599, Changhe Street Network Business Road, Binjiang District, Hangzhou City, Zhejiang Province, 4, 7 stories

Applicant before: NETEASE (HANGZHOU) NETWORK Co.,Ltd.