CN111049809A - 风险用户识别方法、装置、计算机设备及存储介质 - Google Patents
风险用户识别方法、装置、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN111049809A CN111049809A CN201911183921.5A CN201911183921A CN111049809A CN 111049809 A CN111049809 A CN 111049809A CN 201911183921 A CN201911183921 A CN 201911183921A CN 111049809 A CN111049809 A CN 111049809A
- Authority
- CN
- China
- Prior art keywords
- group
- risk
- vertex
- users
- preset
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
- G06F16/9024—Graphs; Linked lists
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/90335—Query processing
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Computer Hardware Design (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例公开了一种风险用户识别方法、装置、计算机设备及存储介质。所述方法属于网络安全技术领域,该方法包括:根据用户数据样本构建图;获取图的各顶点的节点向量;获取图的各顶点的节点向量之间的距离;根据图的各顶点的节点向量之间的距离以及预设的距离阈值确定关联顶点组作为群体;根据群体的用户存储表以及预存的风险用户存储表确定群体中预设的风险用户的占比;根据群体中预设的风险用户的占比判断群体是否为风险群体;若是,获取风险群体中预设的风险用户之外的用户作为目标用户,并将目标用户标记为可疑风险用户。由于可疑风险用户与风险用户属于同一群体,极有可能为风险用户,因此本方案识别可疑风险用户的准确性较高。
Description
技术领域
本发明涉及网络安全技术领域,尤其涉及一种风险用户识别方法、装置、计算机设备及存储介质。
背景技术
现有技术中,反作弊技术方案主要是基于人为设定规则构建的模型来识别危险用户,具体地,根据一些交易特征建立强规则来对危险用户进行识别计算。
然而,由于人工规则的局限性较大,且非法用户可根据设定的人工规则调整自身的作弊行为,躲避反作弊模型的捕获,从而使得采用现有的反作弊模型进行可疑风险用户的识别时,准确性较低。
发明内容
本发明实施例提供了一种风险用户识别方法、装置、计算机设备及存储介质,旨在解决现有技术中针对可疑风险用户的识别方法存在准确性较低的问题。
第一方面,本发明实施例提供了一种风险用户识别方法,其包括:
根据用户数据样本构建图,所述用户数据样本包括多个用户数据,所述图的顶点为所述用户数据样本的其中一用户数据;
获取所述图的各顶点的节点向量;
获取所述图的各顶点的节点向量之间的距离;
根据所述图的各顶点的节点向量之间的距离以及预设的距离阈值确定关联顶点组作为群体,其中,若两用户对应的顶点的节点向量之间的距离小于所述距离阈值,则确认该两个用户属于同一关联顶点组;
根据所述群体的用户存储表以及预存的风险用户存储表确定所述群体中预设的风险用户的占比,其中,所述用户存储表用于存储所述群体的用户的名单,所述风险用户存储表用于存储预设的风险用户的名单;
根据所述群体中预设的风险用户的占比判断所述群体是否为风险群体;
若所述群体为风险群体,获取所述风险群体中预设的风险用户之外的用户作为目标用户;
将所述目标用户标记为可疑风险用户。
第二方面,本发明实施例还提供了一种风险用户识别装置,其包括:
构建单元,用于根据用户数据样本构建图,所述用户数据样本包括多个用户数据,所述图的顶点为所述用户数据样本的其中一用户数据;
第一获取单元,用于获取所述图的各顶点的节点向量;
第二获取单元,用于获取所述图的各顶点的节点向量之间的距离;
第一确定单元,用于根据所述图的各顶点的节点向量之间的距离以及预设的距离阈值确定关联顶点组作为群体,其中,若两用户对应的顶点的节点向量之间的距离小于所述距离阈值,则确认该两个用户属于同一关联顶点组;
第二确定单元,用于根据所述群体的用户存储表以及预存的风险用户存储表确定所述群体中预设的风险用户的占比,其中,所述用户存储表用于存储所述群体的用户的名单,所述风险用户存储表用于存储预设的风险用户的名单;
第一判断单元,用于根据所述群体中预设的风险用户的占比判断所述群体是否为风险群体;
第三获取单元,用于若所述群体为风险群体,获取所述风险群体中预设的风险用户之外的用户作为目标用户;
标记单元,用于将所述目标用户标记为可疑风险用户。
第三方面,本发明实施例还提供了一种计算机设备,其包括存储器及处理器,所述存储器上存储有计算机程序,所述处理器执行所述计算机程序时实现上述方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序当被处理器执行时可实现上述方法。
本发明实施例提供了一种风险用户识别方法、装置、计算机设备及存储介质。其中,所述方法包括:根据用户数据样本构建图,所述用户数据样本包括多个用户数据,所述图的顶点为所述用户数据样本的其中一用户数据;获取所述图的各顶点的节点向量;获取所述图的各顶点的节点向量之间的距离;根据所述图的各顶点的节点向量之间的距离以及预设的距离阈值确定关联顶点组作为群体,其中,若两用户对应的顶点的节点向量之间的距离小于所述距离阈值,则确认该两个用户属于同一关联顶点组;根据所述群体的用户存储表以及预存的风险用户存储表确定所述群体中预设的风险用户的占比,其中,所述用户存储表用于存储所述群体的用户的名单,所述风险用户存储表用于存储预设的风险用户的名单;根据所述群体中预设的风险用户的占比判断所述群体是否为风险群体。本发明的技术方案,根据用户数据样本构建图;获取所述图的各顶点的节点向量;根据所述图的各顶点的节点向量之间的距离以及预设的距离阈值确定关联顶点组作为群体;根据所述群体中预设的风险用户的占比确定风险群体,进而确定可疑风险用户。本方案中,跳出了局部片面的人工规则,而是通过确定的风险用户确定风险群体,再通过风险群体确定可疑风险用户。由于可疑风险用户与风险用户属于同一群体,具有相似的行为特征,极有可能为风险用户,因此本方案识别可疑风险用户的准确性较高。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种风险用户识别方法的流程示意图;
图2为本发明实施例提供的一种风险用户识别方法的子流程示意图;
图3为本发明实施例提供的一种风险用户识别方法的子流程示意图;
图4为本发明实施例提供的一种风险用户识别方法的子流程示意图;
图5为本发明实施例提供的一种风险用户识别装置的示意性框图;
图6为本发明实施例提供的一种风险用户识别装置的第一获取单元的示意性框图;
图7为本发明实施例提供的一种风险用户识别装置的第一获取单元的示意性框图;
图8为本发明实施例提供的一种风险用户识别装置的第二获取单元的示意性框图;
图9为本发明实施例提供的一种风险用户识别装置的第一判断单元的示意性框图;
图10为本发明实施例提供的一种计算机设备的示意性框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
如在本说明书和所附权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地,短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。
请参阅图1,图1是本发明实施例提供的风险用户识别方法的流程示意图。本发明实施例提出的风险用户识别方法可应用于终端中。如图所示,该方法包括以下步骤S1-S8。
S1,根据用户数据样本构建图,所述用户数据样本包括多个用户数据,所述图的顶点为所述用户数据样本的其中一用户数据。
具体实施中,图是一种比线性表和树更复杂的数据结构,在图中,顶点之间的关系是任意的,任意两个顶点之间都可能相关。图是一种多对多的数据结构。它包含顶点集合和边集合两部分,边反映了顶点之间的关系。若图的两个顶点之间存在关联,则该两个顶点之间存在边;若图的两个顶点之间不存在关联,则该两个顶点之间不存在边。
具体地,图(Graph)是由顶点的有穷非空集合和顶点之间边的集合组成,通常表示为:G(V,E),其中,G表示一个图,V是图G中顶点的集合,E是图G中边的集合。
在本方案中,根据用户数据样本构建图,所述用户数据样本包括多个用户数据,用户数据包括用户的手机号码、用户的家庭地址、用户的公司地址、用户紧急联系人的手机号码以及用户的设备相关信息,如设备ID、WiFi/MAC地址、GPS坐标等。具体实施中,以用户数据作为图的顶点。进一步地,以各顶点的数据间关联性判断两顶点之间是否存在边。具体地,判断两个顶点之间是否存在相同的数据;若两个顶点间存在相同的数据则认为该两个顶点之间存在边,否则,认为该两个顶点之间不存在边。例如,在一实施例中顶点A与顶点B中设备ID(也可以是其它的数据)这一数据相同,则顶点A与顶点B存在边。
S2,获取所述图的各顶点的节点向量。
具体实施中,通过网络表示学习技术(Network Representation Learning)将所述图中的各顶点标识为向量的形式(即计算图的各顶点的节点向量)。使得得到的向量形式可以在向量空间中具有表示以及推理的能力,同时可轻松方便的作为机器学习模型的输入,进而可将得到的向量表示运用到社交网络中常见的应用中,如可视化任务、顶点分类任务、链接预测以及社区发现等任务,还可以作为社交边信息应用到推荐***等其他常见任务中。
参见图2,在一实施例中,以上步骤S2具体包括如下步骤S21-S22。
S21,从所述图的一顶点出发,根据该顶点与其它顶点之间的边进行随机游走,得到预设长度的顶点序列。
具体实施中,采用Deepwalk算法来获取图的顶点的节点向量。具体地,从图中的一顶点出发,根据顶点之间的边进行随机游走,得到预设的固定长度的顶点序列。
S22,将所述顶点序列输入到预设的词向量训练模型中进行学习以得到节点向量。
具体实施中,将得到顶点序列类比为自然语言中的句子(顶点序列=句子,序列中的顶点=句子中的单词),并将其输入到词向量训练模型(例如,skip-gram模型)中进行学习以得到该顶点的节点向量。
参见图3,在一实施例中,以上步骤S2具体包括如下步骤S210-S220。
S210,从所述图的一顶点出发,根据该顶点与其它顶点之间的边进行游走,得到预设长度的顶点序列,其中,在游走过程中,返回到原来顶点的概率为预设的返回概率参数,不返回到原来顶点的概率为预设的离开概率参数。
具体实施中,采用Node2vec算法来获取图的顶点的节点向量。具体地,预先定义返回概率参数(Return parameter)p(即回到原来顶点的概率);以及定义离开概率参数(Inoutparameter)q,(即不回到原来顶点的概率)。根据以上返回概率参数p和离开概率参数q,从图中的一顶点出发,根据顶点之间的边进行游走(在游走时返回上一顶点的概率为p,不返回上一顶点的概率为q),得到预设的固定长度的顶点序列。
S220,将所述顶点序列输入到预设的词向量训练模型中进行学习以得到节点向量。
具体实施中,将得到顶点序列类比为自然语言中的句子(顶点序列=句子,序列中的顶点=句子中的单词),并将其输入到词向量训练模型(例如,skip-gram模型)中进行学习以得到该顶点的节点向量。
或者在其它实施例中,还可采用其它网络表示学习算法来获取图的各顶点的节点向量,本方案不作具体限定。
S3,获取所述图的各顶点的节点向量之间的距离。
具体实施中,在获取了图的各顶点的节点向量之后,进一步获取各节点向量之间的距离。节点向量之间的距离可用来表征节点向量之间的相似性,节点向量之间的距离越小,则表明节点向量之间的相似性越高,节点向量之间的距离越大,则表明节点向量之间的相似性越低。
在一实施例中,两节点向量a(x11,x12,…,x1n)与节点向量b(x21,x22,…,x2n)间的距离d可通过以下公式计算,其中x11,x12,…,x1n为节点向量a的分量;x21,x22,…,x2n为节点向量b的分量。
S4,根据所述图的各顶点的节点向量之间的距离以及预设的距离阈值确定关联顶点组作为群体,其中,若两用户对应的顶点的节点向量之间的距离小于所述距离阈值,则确认该两个用户属于同一关联顶点组。
具体实施中,首先设定一距离阈值,然后分别计算判断两用户对应的顶点的节点向量之间的距离是否小于所述距离阈值,若是,则判定该两用户属于同一关联顶点组。每一关联顶点组中的用户作为一个群体。
需要说明的是该距离阈值可由本领域技术人员根据经验进行设定,本方案对比不做具体限定。
S5,根据所述群体的用户存储表以及预存的风险用户存储表确定所述群体中预设的风险用户的占比。
其中,所述用户存储表用于存储所述群体的用户的名单,所述风险用户存储表用于存储预设的风险用户的名单。
具体实施中,预先储存风险用户存储表(风险用户储存表用于储存风险用户的名单)。在确定了群体后,采用用户存储表储存群体用户的名单。之后,将群体的用户存储表与风险用户存储表进行比对,以确定群体的用户存储表中危险用户的数量,进而确定群体总危险用户的占比。
S6,根据所述群体中预设的风险用户的占比判断所述群体是否为风险群体。
具体实施中,根据所述群体中预设的风险用户的占比判断所述群体是否为风险群体。
参见图4,在一实施例中,以上步骤S6具体包括如下步骤S61-S63。
S61,判断所述群体中预设的风险用户的占比是否大于预设的占比阈值。
具体实施中,判断所述群体中预设的风险用户的占比是否大于预设的占比阈值,若是,则表明该群体中风险用户的占比较高,因此判定该群体为风险群体;否则,表明该群体中风险用户的占比较低,因此判定该群体为非风险群体。
需要说明的是,占比阈值可由本领域技术人员根据经验进行设定,例如,在一实施例中,占比阈值设定为10%。
S62,若所述群体中预设的风险用户的占比大于预设的占比阈值,判定所述群体为风险群体。
具体实施中,如果所述群体中预设的风险用户的占比大于预设的占比阈值,判定所述群体为风险群体。在风险群体中,未标记为风险用户的用户即为可疑风险用户,这些可疑风险用户也极可能为作弊的风险用户。
S63,若所述群体中预设的风险用户的占比不大于预设的占比阈值,判定所述群体为非风险群体。
具体实施中,如果所述群体中预设的风险用户的占比不大于预设的占比阈值,判定所述群体为非风险群体。
S7,若所述群体为风险群体,获取所述风险群体中预设的风险用户之外的用户作为目标用户。
具体实施中,如果所述群体为风险群体,获取所述风险群体中预设的风险用户之外的用户作为目标用户。例如,在一实施例中,风险群体包括用户A1,A2以及A3。其中A1为预设的风险用户,则A2以及A3为目标用户。
S8,将所述目标用户标记为可疑风险用户。
具体实施中,将所述目标用户标记为可疑风险用户,这些可疑风险用户也极可能为作弊的风险用户。
本发明的技术方案,根据用户数据样本构建图;获取所述图的各顶点的节点向量;根据所述图的各顶点的节点向量之间的距离以及预设的距离阈值确定关联顶点组作为群体;根据所述群体中预设的风险用户的占比确定风险群体,进而确定可疑风险用户。本方案中,跳出了局部片面的人工规则,而是通过确定的风险用户确定风险群体,再通过风险群体确定可疑风险用户。由于可疑风险用户与风险用户属于同一群体,具有相似的行为特征,极有可能为风险用户,因此本方案识别可疑风险用户的准确性较高。
图5是本发明实施例提供的一种风险用户识别装置60的示意性框图。如图5所示,对应于以上风险用户识别方法,本发明还提供一种风险用户识别装置60。该风险用户识别装置60包括用于执行上述风险用户识别方法的单元,该装置可以被配置于台式电脑、平板电脑、手提电脑、等终端中。具体地,请参阅图5,该风险用户识别装置60包括构建单元61、第一获取单元62、第二获取单元63、第一确定单元64、第二确定单元65、第一判断单元66、第三获取单元67以及标记单元68。
构建单元61,用于根据用户数据样本构建图,所述用户数据样本包括多个用户数据,所述图的顶点为所述用户数据样本的其中一用户数据。
第一获取单元62,用于获取所述图的各顶点的节点向量。
第二获取单元63,用于获取所述图的各顶点的节点向量之间的距离。
第一确定单元64,用于根据所述图的各顶点的节点向量之间的距离以及预设的距离阈值确定关联顶点组作为群体,其中,若两用户对应的顶点的节点向量之间的距离小于所述距离阈值,则确认该两个用户属于同一关联顶点组。
第二确定单元65,用于根据所述群体的用户存储表以及预存的风险用户存储表确定所述群体中预设的风险用户的占比,其中,所述用户存储表用于存储所述群体的用户的名单,所述风险用户存储表用于存储预设的风险用户的名单。
第一判断单元66,用于根据所述群体中预设的风险用户的占比判断所述群体是否为风险群体。
第三获取单元67,用于若所述群体为风险群体,获取所述风险群体中预设的风险用户之外的用户作为目标用户。
标记单元68,用于将所述目标用户标记为可疑风险用户。
在一实施例中,如图6所示,所述第一获取单元62包括第一游走单元621以及第一输入单元622。
第一游走单元621,从所述图的一顶点出发,根据该顶点与其它顶点之间的边进行随机游走,得到预设长度的顶点序列。
第一输入单元622,用于将所述顶点序列输入到预设的词向量训练模型中进行学习以得到节点向量。
在一实施例中,如图7所示,所述第一获取单元62包括第二游走单元623以及第二输入单元624。
第二游走单元623,用于从所述图的一顶点出发,根据该顶点与其它顶点之间的边进行游走,得到预设长度的顶点序列,其中,在游走过程中,返回到原来顶点的概率为预设的返回概率参数,不返回到原来顶点的概率为预设的离开概率参数。
第二输入单元624,用于将所述顶点序列输入到预设的词向量训练模型中进行学习以得到节点向量。
在一实施例中,如图8所示,所述第二获取单元63包括计算单元631。
在一实施例中,如图9所示,所述第一判断单元66包括第二判断单元661、第一判定单元662以及第二判定单元663。
第二判断单元661,用于判断所述群体中预设的风险用户的占比是否大于预设的占比阈值。
第一判定单元662,用于若所述群体中预设的风险用户的占比大于预设的占比阈值,判定所述群体为风险群体。
第二判定单元663,用于若所述群体中预设的风险用户的占比不大于预设的占比阈值,判定所述群体为非风险群体。
需要说明的是,所属领域的技术人员可以清楚地了解到,上述风险用户识别装置60和各单元的具体实现过程,可以参考前述方法实施例中的相应描述,为了描述的方便和简洁,在此不再赘述。
上述风险用户识别装置60可以实现为一种计算机程序的形式,该计算机程序可以在如图10所示的计算机设备上运行。
请参阅图10,图10是本申请实施例提供的一种计算机设备的示意性框图。该计算机设备500可以是终端其中,终端可以是智能手机、平板电脑、笔记本电脑、台式电脑、个人数字助理和穿戴式设备等具有通信功能的电子设备。
参阅图10,该计算机设备500包括通过***总线501连接的处理器502、存储器和网络接口505,其中,存储器可以包括非易失性存储介质503和内存储器504。
该非易失性存储介质503可存储操作***5031和计算机程序5032。该计算机程序5032被执行时,可使得处理器502执行一种风险用户识别方法。
该处理器502用于提供计算和控制能力,以支撑整个计算机设备500的运行。
该内存储器504为非易失性存储介质503中的计算机程序5032的运行提供环境,该计算机程序5032被处理器502执行时,可使得处理器502执行一种风险用户识别方法。
该网络接口505用于与其它设备进行网络通信。本领域技术人员可以理解,图10中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备500的限定,具体的计算机设备500可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
其中,所述处理器502用于运行存储在存储器中的计算机程序5032,以实现如下步骤:
根据用户数据样本构建图,所述用户数据样本包括多个用户数据,所述图的顶点为所述用户数据样本的其中一用户数据;
获取所述图的各顶点的节点向量;
获取所述图的各顶点的节点向量之间的距离;
根据所述图的各顶点的节点向量之间的距离以及预设的距离阈值确定关联顶点组作为群体,其中,若两用户对应的顶点的节点向量之间的距离小于所述距离阈值,则确认该两个用户属于同一关联顶点组;
根据所述群体的用户存储表以及预存的风险用户存储表确定所述群体中预设的风险用户的占比,其中,所述用户存储表用于存储所述群体的用户的名单,所述风险用户存储表用于存储预设的风险用户的名单;
根据所述群体中预设的风险用户的占比判断所述群体是否为风险群体;
若所述群体为风险群体,获取所述风险群体中预设的风险用户之外的用户作为目标用户;
将所述目标用户标记为可疑风险用户。
在一实施例中,处理器502在实现所述获取所述图的各顶点的节点向量步骤时,具体实现如下步骤:
从所述图的一顶点出发,根据该顶点与其它顶点之间的边进行随机游走,得到预设长度的顶点序列;
将所述顶点序列输入到预设的词向量训练模型中进行学习以得到节点向量。
在一实施例中,处理器502在实现所述获取所述图的各顶点的节点向量步骤时,具体实现如下步骤:
从所述图的一顶点出发,根据该顶点与其它顶点之间的边进行游走,得到预设长度的顶点序列,其中,在游走过程中,返回到原来顶点的概率为预设的返回概率参数,不返回到原来顶点的概率为预设的离开概率参数;
将所述顶点序列输入到预设的词向量训练模型中进行学习以得到节点向量。
在一实施例中,处理器502在实现所述获取所述图的各顶点的节点向量之间的距离步骤时,具体实现如下步骤:
在一实施例中,处理器502在实现所述根据所述群体中预设的风险用户的占比判断所述群体是否为风险群体步骤时,具体实现如下步骤:
判断所述群体中预设的风险用户的占比是否大于预设的占比阈值;
若所述群体中预设的风险用户的占比大于预设的占比阈值,判定所述群体为风险群体;
若所述群体中预设的风险用户的占比不大于预设的占比阈值,判定所述群体为非风险群体。
应当理解,在本申请实施例中,处理器502可以是中央处理单元(CentralProcessing Unit,CPU),该处理器502还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
本领域普通技术人员可以理解的是实现上述实施例的方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成。该计算机程序可存储于一存储介质中,该存储介质为计算机可读存储介质。该计算机程序被该计算机***中的至少一个处理器执行,以实现上述方法的实施例的流程步骤。
因此,本发明还提供一种存储介质。该存储介质可以为计算机可读存储介质。该存储介质存储有计算机程序。该计算机程序被处理器执行时使处理器执行如下步骤:
根据用户数据样本构建图,所述用户数据样本包括多个用户数据,所述图的顶点为所述用户数据样本的其中一用户数据;
获取所述图的各顶点的节点向量;
获取所述图的各顶点的节点向量之间的距离;
根据所述图的各顶点的节点向量之间的距离以及预设的距离阈值确定关联顶点组作为群体,其中,若两用户对应的顶点的节点向量之间的距离小于所述距离阈值,则确认该两个用户属于同一关联顶点组;
根据所述群体的用户存储表以及预存的风险用户存储表确定所述群体中预设的风险用户的占比,其中,所述用户存储表用于存储所述群体的用户的名单,所述风险用户存储表用于存储预设的风险用户的名单;
根据所述群体中预设的风险用户的占比判断所述群体是否为风险群体;
若所述群体为风险群体,获取所述风险群体中预设的风险用户之外的用户作为目标用户;
将所述目标用户标记为可疑风险用户。
在一实施例中,所述处理器在执行所述计算机程序而实现所述获取所述图的各顶点的节点向量步骤时,具体实现如下步骤:
从所述图的一顶点出发,根据该顶点与其它顶点之间的边进行随机游走,得到预设长度的顶点序列;
将所述顶点序列输入到预设的词向量训练模型中进行学习以得到节点向量。
在一实施例中,所述处理器在执行所述计算机程序而实现所述获取所述图的各顶点的节点向量步骤时,具体实现如下步骤:
从所述图的一顶点出发,根据该顶点与其它顶点之间的边进行游走,得到预设长度的顶点序列,其中,在游走过程中,返回到原来顶点的概率为预设的返回概率参数,不返回到原来顶点的概率为预设的离开概率参数;
将所述顶点序列输入到预设的词向量训练模型中进行学习以得到节点向量。
在一实施例中,所述处理器在执行所述计算机程序而实现所述获取所述图的各顶点的节点向量之间的距离步骤时,具体实现如下步骤:
在一实施例中,所述处理器在执行所述计算机程序而实现所述根据所述群体中预设的风险用户的占比判断所述群体是否为风险群体步骤时,具体实现如下步骤:
判断所述群体中预设的风险用户的占比是否大于预设的占比阈值;
若所述群体中预设的风险用户的占比大于预设的占比阈值,判定所述群体为风险群体;
若所述群体中预设的风险用户的占比不大于预设的占比阈值,判定所述群体为非风险群体。
所述存储介质可以是U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的计算机可读存储介质。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的。例如,各个单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。
本发明实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。本发明实施例装置中的单元可以根据实际需要进行合并、划分和删减。另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。
该集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,终端,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详细描述的部分,可以参见其他实施例的相关描述。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,尚且本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种风险用户识别方法,其特征在于,包括:
根据用户数据样本构建图,所述用户数据样本包括多个用户数据,所述图的顶点为所述用户数据样本的其中一用户数据;
获取所述图的各顶点的节点向量;
获取所述图的各顶点的节点向量之间的距离;
根据所述图的各顶点的节点向量之间的距离以及预设的距离阈值确定关联顶点组作为群体,其中,若两用户对应的顶点的节点向量之间的距离小于所述距离阈值,则确认该两个用户属于同一关联顶点组;
根据所述群体的用户存储表以及预存的风险用户存储表确定所述群体中预设的风险用户的占比,其中,所述用户存储表用于存储所述群体的用户的名单,所述风险用户存储表用于存储预设的风险用户的名单;
根据所述群体中预设的风险用户的占比判断所述群体是否为风险群体;
若所述群体为风险群体,获取所述风险群体中预设的风险用户之外的用户作为目标用户;
将所述目标用户标记为可疑风险用户。
2.根据权利要求1所述的方法,其特征在于,所述获取所述图的各顶点的节点向量,包括:
从所述图的一顶点出发,根据该顶点与其它顶点之间的边进行随机游走,得到预设长度的顶点序列;
将所述顶点序列输入到预设的词向量训练模型中进行学习以得到节点向量。
3.根据权利要求1所述的方法,其特征在于,所述获取所述图的各顶点的节点向量,包括:
从所述图的一顶点出发,根据该顶点与其它顶点之间的边进行游走,得到预设长度的顶点序列,其中,在游走过程中,返回到原来顶点的概率为预设的返回概率参数,不返回到原来顶点的概率为预设的离开概率参数;
将所述顶点序列输入到预设的词向量训练模型中进行学习以得到节点向量。
5.根据权利要求1所述的方法,其特征在于,所述根据所述群体中预设的风险用户的占比判断所述群体是否为风险群体,包括:
判断所述群体中预设的风险用户的占比是否大于预设的占比阈值;
若所述群体中预设的风险用户的占比大于预设的占比阈值,判定所述群体为风险群体。
6.根据权利要求5所述的方法,其特征在于,所述根据所述群体中预设的风险用户的占比判断所述群体是否为风险群体,还包括:
若所述群体中预设的风险用户的占比不大于预设的占比阈值,判定所述群体为非风险群体。
7.一种风险用户识别装置,其特征在于,包括:
构建单元,用于根据用户数据样本构建图,所述用户数据样本包括多个用户数据,所述图的顶点为所述用户数据样本的其中一用户数据;
第一获取单元,用于获取所述图的各顶点的节点向量;
第二获取单元,用于获取所述图的各顶点的节点向量之间的距离;
第一确定单元,用于根据所述图的各顶点的节点向量之间的距离以及预设的距离阈值确定关联顶点组作为群体,其中,若两用户对应的顶点的节点向量之间的距离小于所述距离阈值,则确认该两个用户属于同一关联顶点组;
第二确定单元,用于根据所述群体的用户存储表以及预存的风险用户存储表确定所述群体中预设的风险用户的占比,其中,所述用户存储表用于存储所述群体的用户的名单,所述风险用户存储表用于存储预设的风险用户的名单;
第一判断单元,用于根据所述群体中预设的风险用户的占比判断所述群体是否为风险群体;
第三获取单元,用于若所述群体为风险群体,获取所述风险群体中预设的风险用户之外的用户作为目标用户;
标记单元,用于将所述目标用户标记为可疑风险用户。
8.根据权利要求7所述的风险用户识别装置,其特征在于,所述第一获取单元包括:
第一游走单元,从所述图的一顶点出发,根据该顶点与其它顶点之间的边进行随机游走,得到预设长度的顶点序列。
第一输入单元,用于将所述顶点序列输入到预设的词向量训练模型中进行学习以得到节点向量。
9.一种计算机设备,其特征在于,所述计算机设备包括存储器及处理器,所述存储器上存储有计算机程序,所述处理器执行所述计算机程序时实现如权利要求1-6中任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序当被处理器执行时可实现如权利要求1-6中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911183921.5A CN111049809A (zh) | 2019-11-27 | 2019-11-27 | 风险用户识别方法、装置、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911183921.5A CN111049809A (zh) | 2019-11-27 | 2019-11-27 | 风险用户识别方法、装置、计算机设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111049809A true CN111049809A (zh) | 2020-04-21 |
Family
ID=70233781
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911183921.5A Pending CN111049809A (zh) | 2019-11-27 | 2019-11-27 | 风险用户识别方法、装置、计算机设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111049809A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111612039A (zh) * | 2020-04-24 | 2020-09-01 | 平安直通咨询有限公司上海分公司 | 异常用户识别的方法及装置、存储介质、电子设备 |
CN113159793A (zh) * | 2020-12-09 | 2021-07-23 | 同盾控股有限公司 | 数据处理方法、装置、电子设备及计算机存储介质 |
CN114119037A (zh) * | 2022-01-24 | 2022-03-01 | 深圳尚米网络技术有限公司 | 一种基于大数据的营销反作弊*** |
CN116094827A (zh) * | 2023-01-18 | 2023-05-09 | 支付宝(杭州)信息技术有限公司 | 基于拓扑增强的安全风险鉴别方法与*** |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107563429A (zh) * | 2017-07-27 | 2018-01-09 | 国家计算机网络与信息安全管理中心 | 一种网络用户群体的分类方法及装置 |
CN109670937A (zh) * | 2018-09-26 | 2019-04-23 | 平安科技(深圳)有限公司 | 风险用户识别方法、用户设备、存储介质及装置 |
US20190207960A1 (en) * | 2017-12-29 | 2019-07-04 | DataVisor, Inc. | Detecting network attacks |
CN109978538A (zh) * | 2017-12-28 | 2019-07-05 | 阿里巴巴集团控股有限公司 | 确定欺诈用户、训练模型、识别欺诈风险的方法及装置 |
CN110009430A (zh) * | 2019-04-11 | 2019-07-12 | 腾讯科技(深圳)有限公司 | 作弊用户检测方法、电子设备及计算机可读存储介质 |
CN110019989A (zh) * | 2019-04-08 | 2019-07-16 | 腾讯科技(深圳)有限公司 | 一种数据处理方法及装置 |
CN110046805A (zh) * | 2019-03-29 | 2019-07-23 | 阿里巴巴集团控股有限公司 | 风险用户发现方法及装置 |
CN110135853A (zh) * | 2019-04-25 | 2019-08-16 | 阿里巴巴集团控股有限公司 | 团伙用户识别方法、装置和设备 |
CN110222554A (zh) * | 2019-04-16 | 2019-09-10 | 深圳壹账通智能科技有限公司 | 欺诈识别方法、装置、电子设备及存储介质 |
CN110245787A (zh) * | 2019-05-24 | 2019-09-17 | 阿里巴巴集团控股有限公司 | 一种目标群体预测方法、装置及设备 |
CN110362639A (zh) * | 2019-06-27 | 2019-10-22 | 上海淇馥信息技术有限公司 | 一种基于群体关联计算分析的风险预警方法、装置、电子设备 |
-
2019
- 2019-11-27 CN CN201911183921.5A patent/CN111049809A/zh active Pending
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107563429A (zh) * | 2017-07-27 | 2018-01-09 | 国家计算机网络与信息安全管理中心 | 一种网络用户群体的分类方法及装置 |
CN109978538A (zh) * | 2017-12-28 | 2019-07-05 | 阿里巴巴集团控股有限公司 | 确定欺诈用户、训练模型、识别欺诈风险的方法及装置 |
US20190207960A1 (en) * | 2017-12-29 | 2019-07-04 | DataVisor, Inc. | Detecting network attacks |
CN109670937A (zh) * | 2018-09-26 | 2019-04-23 | 平安科技(深圳)有限公司 | 风险用户识别方法、用户设备、存储介质及装置 |
CN110046805A (zh) * | 2019-03-29 | 2019-07-23 | 阿里巴巴集团控股有限公司 | 风险用户发现方法及装置 |
CN110019989A (zh) * | 2019-04-08 | 2019-07-16 | 腾讯科技(深圳)有限公司 | 一种数据处理方法及装置 |
CN110009430A (zh) * | 2019-04-11 | 2019-07-12 | 腾讯科技(深圳)有限公司 | 作弊用户检测方法、电子设备及计算机可读存储介质 |
CN110222554A (zh) * | 2019-04-16 | 2019-09-10 | 深圳壹账通智能科技有限公司 | 欺诈识别方法、装置、电子设备及存储介质 |
CN110135853A (zh) * | 2019-04-25 | 2019-08-16 | 阿里巴巴集团控股有限公司 | 团伙用户识别方法、装置和设备 |
CN110245787A (zh) * | 2019-05-24 | 2019-09-17 | 阿里巴巴集团控股有限公司 | 一种目标群体预测方法、装置及设备 |
CN110362639A (zh) * | 2019-06-27 | 2019-10-22 | 上海淇馥信息技术有限公司 | 一种基于群体关联计算分析的风险预警方法、装置、电子设备 |
Non-Patent Citations (2)
Title |
---|
彭欣宇: "基于DeepWalk的社团检测方法", 《电脑知识与技术》 * |
祝周等: "基于多维混合图和核心节点的社团发现算法", 《网络空间安全》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111612039A (zh) * | 2020-04-24 | 2020-09-01 | 平安直通咨询有限公司上海分公司 | 异常用户识别的方法及装置、存储介质、电子设备 |
CN111612039B (zh) * | 2020-04-24 | 2023-09-29 | 平安直通咨询有限公司上海分公司 | 异常用户识别的方法及装置、存储介质、电子设备 |
CN113159793A (zh) * | 2020-12-09 | 2021-07-23 | 同盾控股有限公司 | 数据处理方法、装置、电子设备及计算机存储介质 |
CN114119037A (zh) * | 2022-01-24 | 2022-03-01 | 深圳尚米网络技术有限公司 | 一种基于大数据的营销反作弊*** |
CN116094827A (zh) * | 2023-01-18 | 2023-05-09 | 支付宝(杭州)信息技术有限公司 | 基于拓扑增强的安全风险鉴别方法与*** |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111049809A (zh) | 风险用户识别方法、装置、计算机设备及存储介质 | |
CN109241415B (zh) | 项目推荐方法、装置、计算机设备及存储介质 | |
EP3550568B1 (en) | Graph convolution based gene prioritization on heterogeneous networks | |
CN109859054B (zh) | 网络社团挖掘方法、装置、计算机设备及存储介质 | |
TWI761642B (zh) | 確定業務對應的決策策略的方法、裝置和電子設備 | |
WO2016151618A1 (ja) | 予測モデル更新システム、予測モデル更新方法および予測モデル更新プログラム | |
CN107895038B (zh) | 一种链路预测关系推荐方法及装置 | |
CN110009486B (zh) | 一种欺诈检测的方法、***、设备及计算机可读存储介质 | |
CN111460234B (zh) | 图查询方法、装置、电子设备及计算机可读存储介质 | |
CN111353850B (zh) | 一种风险识别策略的更新、风险商户的识别方法和装置 | |
CN109495513B (zh) | 无监督的加密恶意流量检测方法、装置、设备及介质 | |
CN110083507B (zh) | 关键性能指标分类方法及装置 | |
CN113379301A (zh) | 通过决策树模型对用户进行分类的方法、装置和设备 | |
CN111090807A (zh) | 一种基于知识图谱的用户识别方法及装置 | |
CN111611390B (zh) | 一种数据处理方法及装置 | |
CN111159481B (zh) | 图数据的边预测方法、装置及终端设备 | |
CN111027412A (zh) | 一种人体关键点识别方法、装置及电子设备 | |
CN110969261B (zh) | 基于加密算法的模型构建方法及相关设备 | |
CN110210564B (zh) | 相似户型检测方法及装置 | |
CN114398521A (zh) | 设备类型确定方法和获取异常设备的数据处理*** | |
JP2019016335A (ja) | コンピュータシステムにおけるデータ損失を防止するためのシステム及び方法 | |
CN110781410A (zh) | 一种社群检测方法及装置 | |
CN114998707B (zh) | 评估目标检测模型鲁棒性的攻击方法和装置 | |
CN113946566B (zh) | Web***指纹库的构建方法、装置和电子设备 | |
JP2010250833A5 (zh) |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20200421 |
|
WD01 | Invention patent application deemed withdrawn after publication |