CN111309822A - 用户身份识别方法及装置 - Google Patents

用户身份识别方法及装置 Download PDF

Info

Publication number
CN111309822A
CN111309822A CN202010087184.5A CN202010087184A CN111309822A CN 111309822 A CN111309822 A CN 111309822A CN 202010087184 A CN202010087184 A CN 202010087184A CN 111309822 A CN111309822 A CN 111309822A
Authority
CN
China
Prior art keywords
community
user
graph
node
risk
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010087184.5A
Other languages
English (en)
Other versions
CN111309822B (zh
Inventor
姜瑾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jianlian Technology Guangdong Co ltd
Original Assignee
Shenzhen Zhongying Weirong Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Zhongying Weirong Technology Co ltd filed Critical Shenzhen Zhongying Weirong Technology Co ltd
Priority to CN202010087184.5A priority Critical patent/CN111309822B/zh
Publication of CN111309822A publication Critical patent/CN111309822A/zh
Application granted granted Critical
Publication of CN111309822B publication Critical patent/CN111309822B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0635Risk analysis of enterprise or organisation activities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Theoretical Computer Science (AREA)
  • Strategic Management (AREA)
  • Databases & Information Systems (AREA)
  • Economics (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Marketing (AREA)
  • Educational Administration (AREA)
  • Health & Medical Sciences (AREA)
  • Development Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Game Theory and Decision Science (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本公开实施例公开了一种用户身份识别方法及装置。其中,该方法包括:对整体知识图谱进行初次识别,得到至少一个高风险用户社团的第一数据集,分别建立所述用户社团的子图谱;获取所述子图谱中各节点的第二数据集,更新所述子图谱;根据更新后的所述子图谱构建所述用户社团内部的传播矩阵,基于所述传播矩阵进行二次识别,更新所述子图谱中各个节点的用户风险置信度。

Description

用户身份识别方法及装置
技术领域
本公开涉及数据挖掘技术领域,具体涉及一种用户身份识别方法、装置、电子设备及存储介质。
背景技术
随着大数据和人工智能技术的发展,尤其是认知智能技术在近年来的突破,基于关系型数据库的知识图谱技术已经可以在很多应用领域中为用户提供更为专业更加精准的智能分析服务。典型地,利用知识图谱可以为多种基于关系来识别信息的人工智能模型提供支持,比如个性化推荐、关联信息搜索、地图数据处理、社交网络服务、专业知识库、用户身份验证或互联网金融等应用中均可利用知识图谱来进行优化。
其中,在基于知识图谱的人工智能模型中,利用知识图谱构建的关系图,应用标签传播算法(Label Propagation Algorithm,LPA)能够将种子数据(白名单、黑名单)进行标签传播,进而得到整个网络的概率/置信度情况。对于用户身份/可靠性识别这一应用来说,用户组织/社团的识别有特殊的现实意义,除常规的用户社交、组织关系识别外,作为反欺诈识别中的一项具体任务,欺诈团伙识别是一项必要但难度较大的工作。在一种常见的方法中,首先使用标签传播算法将有表现值的节点通过关系矩阵传播到其他节点之中;随后可以使用社团发现算法(Community Detection Algorithm),例如使用经典的Girvan-Newman算法,来识别潜在的社团并对每个社团进行可靠性识别,从而确认某一社团是否为欺诈团伙,帮助***或其他用户提升互联网应用的安全性。
然而,现有技术仅按节点(通常为人员)的关联程度来传播标签,但欺诈人员/团伙也可能存在正常的社交关系,比如不明真相的亲朋或经常联系的服务人员等,对于这种情况,采用现有的方式往往会把欺诈标签传播给正常的用户,使得***产生了误判,这对正常用户和服务提供方来说都是不能接受的。为解决此问题,现有技术进一步出现了一些修正方案,比如按照节点的关联关系(图谱中的边)的数量或权重修正,直接将与其他节点权重较低或边较少的节点判断为弱节点,并从识别的欺诈团伙中直接剔除的方式等。但这种直接修正的方案只是根据经验进行的阈值分割,完全没有考虑节点社交关系中的真实逻辑,因而并不能真正解决误判问题,反而会在另一方面带来不必要的误差。
发明内容
针对现有技术中的上述技术问题,本公开实施例提出了一种用户身份识别方法、装置、电子设备及计算机可读存储介质,以解决现有技术中社团识别边界模糊、误判率高的问题。
本公开实施例的第一方面提供了一种用户身份识别方法,包括:
对整体知识图谱进行初次识别,得到至少一个高风险用户社团的第一数据集,分别建立所述用户社团的子图谱;
获取所述子图谱中各节点的第二数据集,更新所述子图谱;
根据更新后的所述子图谱构建所述用户社团内部的传播矩阵,基于所述传播矩阵进行二次识别,更新所述子图谱中各个节点的用户风险置信度。
在一些实施例中,所述初次识别包括:
使用标签传播算法将节点具有的表现值通过传播矩阵传播给关联节点;
在标签传播算法收敛后,使用社区发现算法识别出至少一个用户社团;
对每个用户社团的风险置信度进行识别,确定社团及用户的风险程度。
在一些实施例中,所述二次识别包括:
使用标签传播算法将节点具有的表现值通过传播矩阵传播给关联节点;
在标签传播算法收敛后,使用社区发现算法识别真实成员、或者筛选剔除更新前后风险置信度值变化变化较小的节点、又或者对更新后的风险置信度值进行归一化;
对每个用户节点的风险置信度进行识别,确定社团及用户的风险程度。
在一些实施例中,所述获取所述子图谱中各节点的第二数据集包括以下至少一种:
由图谱中的数据综合计算得到所述第二数据集,或是通过第三方数据源获得所述第二数据集,或是通过人工注入的方式获得所述第二数据集。
在一些实施例中,所述综合计算包括:
采用潜在关联度计算、声纹数据相似性计算、位置关联度计算、生物特征相似度计算和信息发送频率计算中的至少一种进行计算,发现节点之间新的边或更新已有边的权重值。
本公开实施例的第二方面提供了一种用户身份识别装置,包括:
社团识别模块,用于对整体知识图谱进行初次识别,得到至少一个高风险用户社团的第一数据集,分别建立所述用户社团的子图谱;
图谱更新模块,用于获取所述子图谱中各节点的第二数据集,更新所述子图谱;
二次识别模块,用于根据更新后的所述子图谱构建所述用户社团内部的传播矩阵,基于所述传播矩阵进行二次识别,更新所述子图谱中各个节点的用户风险置信度。
在一些实施例中,所述社团识别模块包括:
第一标签传播模块,用于使用标签传播算法将节点具有的表现值通过传播矩阵传播给关联节点;
第一社区发现模块,用于在标签传播算法收敛后,使用社区发现算法识别出至少一个用户社团;
第一风险识别模块,用于对每个用户社团的风险置信度进行识别,确定社团及用户的风险程度。
在一些实施例中,所述二次识别模块包括:
第二标签传播模块,用于使用标签传播算法将节点具有的表现值通过传播矩阵传播给关联节点;
综合处理模块,用于在标签传播算法收敛后,使用社区发现算法识别真实成员、或者筛选剔除更新前后风险置信度值变化变化较小的节点、又或者对更新后的风险置信度值进行归一化;
第二风险识别模块,用于对每个用户节点的风险置信度进行识别,确定社团及用户的风险程度。
在一些实施例中,所述图谱更新模块包括以下至少一个模块:
综合计算模块,用于由图谱中的数据综合计算得到所述第二数据集;
第三方获取模块,用于通过第三方数据源获得所述第二数据集;
注入模块,用于通过人工注入的方式获得所述第二数据集。
在一些实施例中,所述综合计算模块包括:
边更新模块,用于采用潜在关联度计算、声纹数据相似性计算、位置关联度计算、生物特征相似度计算和信息发送频率计算中的至少一种进行计算,发现节点之间新的边或更新已有边的权重值。
本公开实施例的第三方面提供了一种电子设备,包括:
存储器以及一个或多个处理器;
其中,所述存储器与所述一个或多个处理器通信连接,所述存储器中存储有可被所述一个或多个处理器执行的指令,所述指令被所述一个或多个处理器执行时,所述电子设备用于实现如前述各实施例所述的方法。
本公开实施例的第四方面提供了一种计算机可读存储介质,其上存储有计算机可执行指令,当所述计算机可执行指令被计算装置执行时,可用来实现如前述各实施例所述的方法。
本公开实施例的第五方面提供了一种计算机程序产品,所述计算机程序产品包括存储在计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,可用来实现如前述各实施例所述的方法。
本公开实施例通过进一步挖掘已识别社团中成员的隐藏数据关系,二次识别判断社团的边界,从而使得用户身份识别的精度得到提升,在保证***可靠性、数据安全性和处理效率的情况下有效解决了***误判的问题。
附图说明
通过参考附图会更加清楚的理解本公开的特征和优点,附图是示意性的而不应理解为对本公开进行任何限制,在附图中:
图1是根据本公开的一些实施例所示的一种典型知识图谱的图结构示意图;
图2是根据本公开的一些实施例所示的一种基于知识图谱和人工智能的风险控制***结构示意图;
图3是根据本公开的一些实施例所示的一种用户身份识别方法流程示意图;
图4是根据本公开的一些实施例所示的一种图谱节点的表现值展现形式示意图;
图5A-C是根据本公开的一些实施例所示的一种对欺诈团伙成员的识别变化情况示意图;
图6是根据本公开的一些实施例所示的一种用户身份识别装置的模块结构示意图;
图7是根据本公开的一些实施例所示的一种电子设备的结构示意图。
具体实施方式
在下面的详细描述中,通过示例阐述了本公开的许多具体细节,以便提供对相关披露的透彻理解。然而,对于本领域的普通技术人员来讲,本公开显而易见的可以在没有这些细节的情况下实施。应当理解的是,本公开中使用“***”、“装置”、“单元”和/或“模块”术语,是用于区分在顺序排列中不同级别的不同部件、元件、部分或组件的一种方法。然而,如果其他表达式可以实现相同的目的,这些术语可以被其他表达式替换。
应当理解的是,当设备、单元或模块被称为“在……上”、“连接到”或“耦合到”另一设备、单元或模块时,其可以直接在另一设备、单元或模块上,连接或耦合到或与其他设备、单元或模块通信,或者可以存在中间设备、单元或模块,除非上下文明确提示例外情形。例如,本公开所使用的术语“和/或”包括一个或多个相关所列条目的任何一个和所有组合。
本公开所用术语仅为了描述特定实施例,而非限制本公开范围。如本公开说明书和权利要求书中所示,除非上下文明确提示例外情形,“一”、“一个”、“一种”和/或“该”等词并非特指单数,也可包括复数。一般说来,术语“包括”与“包含”仅提示包括已明确标识的特征、整体、步骤、操作、元素和/或组件,而该类表述并不构成一个排它性的罗列,其他特征、整体、步骤、操作、元素和/或组件也可以包含在内。
参看下面的说明以及附图,本公开的这些或其他特征和特点、操作方法、结构的相关元素的功能、部分的结合以及制造的经济性可以被更好地理解,其中说明和附图形成了说明书的一部分。然而,可以清楚地理解,附图仅用作说明和描述的目的,并不意在限定本公开的保护范围。可以理解的是,附图并非按比例绘制。
本公开中使用了多种结构图用来说明根据本公开的实施例的各种变形。应当理解的是,前面或下面的结构并不是用来限定本公开。本公开的保护范围以权利要求为准。
知识图谱可以帮助识别和理解真实世界中事物之间的关联关系,从而进一步帮助发现某些事物的隐藏特性,现有技术中,进一步结合人工智能技术可以让机器实现对真实事物的自动认知,自动完成复杂业务的处理。其中,现有技术的一个典型应用场景是在知识图谱中应用标签传播算法对人群进行分类/聚类,但由于社交关系的复杂性,当标签传播算法在整个图谱内进行运行时,无法对人群的边界情况进行精准的区分和识别,往往会使***产生误判。现有技术中也曾尝试通过阈值来直接剔除部分节点,但该方式并未考虑人群社交关系的真实逻辑,纯粹依靠经验来设置阈值,因而并不能真正解决误判问题,反而会在另一方面带来不必要的误差(比如经常会将应属于某一人群的节点剔除)。
有鉴于此,本公开实施例提供了一种用户身份识别方法,通过对知识图谱中人群/社团的边界进行二次识别,从而可准确判断边缘节点的真实身份,避免***误判给正常用户和服务提供方造成不良影响。
典型地,图数据库(知识图谱数据库)中存储有关系数据,一般是按现实世界中的实体与关系来存储;不同的实体对应不同的节点,不同的实体间通过关系来完成连接,节点与关系还进一步包括不同的属性,用于定义实体的类型和关系的类型。如图1所示,在一个示例性的图数据库实例中,知识图谱展示了基于个人信息构建的用户关系网络,其中不同的实体构成了图1中不同形状的节点,实体之间的关系构成了节点之间的连线。比如“张明”和“***”为两个个人实体,每个实体通过例如“工作于”或“拥有电话”等关系与其他的“手机号”或“公司”等实体相连。进一步如图2所示,本公开实施例给出了一种基于知识图谱和人工智能的风险控制***示意图,例如某公司的智能风险控制***。其中,用户通过互联网前端***,例如SDK(Software Development Kit)、H5页面、互联网金融APP程序提交一个金融进项申请;然后通过有线或无线通信网络,将该金融进项接入到任务匹配服务器;在任务分配服务器中一个金融进项会被自动匹配到不同的金融服务供应商;一般地,匹配服务器为第三方金融机构所拥有;进一步,对于进入金融服务***中的进项数据,首先会经过数据预处理,然后存入图谱数据库中;所述图谱数据库,可以是Neo4J的图数据库,用于存储大量关于金融业务的知识图谱数据。进一步地,该金融进项会生成一个风险控制分析任务,该任务通过图查询的方式从图谱数据库中得到基于关系的数据,得到与该进项相关的关系数据。将这些关系数据输入至变量计算模块,得到关系数据对应的评估变量。进一步地,将评估变量输入至一个反欺诈评估模型,完成反欺诈识别;其中反欺诈评估模型可以基于机器学习的评估模型,例如该模型可以是基于决策树的GDBT模型或基于神经网络的深度模型。进一步地,将反欺诈识别的结果和变量数据输入至反欺和风控***模块,该模块基于对应的决策流以及可选的人工的干预,完成对该进项的评估。
作为反欺诈识别中的一项具体任务,欺诈团伙识别是对一个图谱中可能存在的人群/社团进行识别,并判断该人群/社团是否为欺诈团伙的过程。现有技术中主要使用标签传播算法和社团发现算法来识别潜在的社团,并对每个社团进行欺诈概率运算,得到该社团是否为欺诈团伙的结论。现有技术中已可通过关联程度较强的成员关系识别欺诈团伙,但对于关联较弱的边缘节点往往会产生误判,这给正常用户和服务提供方带来了很多不良影响。为避免误判,在本公开的一个实施例中,对知识图谱中人群/社团的边界进行了二次识别,如图3所示,相关用户身份识别方法包括步骤:
S301,对整体知识图谱进行初次识别,得到至少一个高风险用户社团的第一数据集,分别建立所述用户社团的子图谱;
S302,获取所述子图谱中各节点的第二数据集,更新所述子图谱;
S303,根据更新后的所述子图谱构建所述用户社团内部的传播矩阵,基于所述传播矩阵进行二次识别,更新所述子图谱中各个节点的用户风险置信度。
在本公开的实施例中,所述初次识别包括:使用标签传播算法将节点具有的表现值通过传播矩阵传播给关联节点;在标签传播算法收敛后,使用社区发现算法识别出至少一个用户社团;对每个用户社团的风险置信度进行识别,确定社团及用户的风险置信度。其中,标签传播算法、社区发现算法和风险识别算法在现有技术中已有充分的研究,本公开的实施例采用现有的基础算法或相关改进算法均可,比如标签传播算法可采用LPA、COPRA、SLPA等,在此不对算法的具体实现一一展开描述,也不对本公开的具体实现方式做出限制。
在本公开的一个实施例中,第一数据集为通过所述整体知识图谱直接得到的数据集,包括但不限于节点和边的原始信息(比如节点名称、内容、属性及表现值等,边的权重及属性等)以及初次识别后处理后的信息(比如传播后节点的表现值、社团标签及风险置信度等)。其中,表现值一般为一组表示节点具有黑白标签的概率的值,比如黑标签表示欺诈、白标签表示正常时,表现值一般形式为(欺诈概率,正常概率)这样的一个二元组。图4展示了一个顶部节点包括表现值的情况,其二元组表示欺诈的概率和非欺诈的概率值;在本公开的实施例中,通过标签传播算法,该顶部节点的表现值将按边的关联程度传播至其底部的三个顶点。进一步地,图5A展示了在一个关系型的知识图谱中通过社团识别发现的一个欺诈团伙,其中,为了直观地显示区别,将欺诈团伙中的节点以黑节点方式展示,以表示其欺诈概率较高(或者说高风险的置信度较高)。通过图5A可以看出,一个社团可以认为是具有较高连通度的一个子图;为了简化后续处理,在本公开的优选实施例中,根据提取的社团的第一数据集构建对应的子图谱。
在现实世界中,由于社交关系存在着广泛的连接,与一个欺诈团伙或欺诈分子相关联的人可能为一个正常用户,而标签传播算法将通过关系矩阵将任何存在关联的节点之间进行欺诈概率传播,很可能会将与团伙具有一定关联度的正常用户误判为黑点。但由于欺诈团伙节点的欺诈概率是标签传播算法收敛后的结果,这意味着图谱内部的关系和表现值数据已被充分利用,在目前数据的基础上很难进一步提升识别精度。在本公开的一个实施例中,在获得欺诈团伙后,将进一步为该欺诈团伙的内部节点获取更多的关系数据,从而对该欺诈团伙的节点进行二次识别,使得团伙的边界更为精准。其中,子图谱的建立可以使得团伙的数据调整仅在有限的范围内进行,既避免了调整后数据影响整体知识图谱的数据一致性,又同时缩小了数据处理范围和运算规模,实现了***可靠性、数据安全性和处理效率的兼顾。
具体地,通过获取的各节点的第二数据集更新子图谱,尤其是更新内部节点的关系数据。第二数据集为不同于第一数据集的数据集合,可以由图谱中的数据综合计算得到,也可以通过第三方数据源获得,还也可以通过人工注入的方式获得等,或是以上多种方式的任意组合。例如,对于计算方式,可以根据图谱内部多个节点的数据综合计算数据中潜在的关联度,由此生成新的边或更新边的权重值;或是通过对图谱内部声纹数据的相似性计算、位置的关联度计算、生物特征相似度的计算、信息发送频率的计算等,得到两个节点之间的权重值。在通过第三方数据源的方式中,将每个节点的查询数据发送给第三方数据源,获得第三方数据源反馈的查询结果信息,从而对有关联的任意两个节点的数据进行计算,得到新的边或更新边的权重值。例如,可以通过访问社交网络网站,得到两节点所代表的用户之间在社交网络中的互动数据,从而计算得到一个权重值;通过其他可靠数据源得到的数据,比如通话数据、金融数据、征信数据或个人档案数据等,只有能有效获取,也同样可适用于本公开的实施例中。在人工注入的方式中,可以将人工调查的结果通过一个预定义的接口输入至图谱,例如输入方式为输入两个节点的身份ID以及两者之间的关系,***将通过对输入的身份ID以及两者的关系新增图谱的边或更新边的权重值。
在第二数据集的计算结果的帮助下,欺诈团伙内部的关系/边的连接或权重值发生了改变,这意味着***得到了更多的数据来验证团伙的具体成员,从而使得社团边界识别的精度可以进一步提升。具体地,在本公开的一个实施例中,根据更新后的数据构建团伙内部的传播矩阵,这个新的传播矩阵引入了更新后新增的边或更新后的边的权重值,因而不同于初次社团识别时使用的传播矩阵。在得到新的传播矩阵之后,再次进行社团识别;二次社团识别的处理过程优选同前文所述的初次识别,此处不再重复描述。其中,对于标签传播算法,使用更新后的数据重新运行,直到标签传播算法收敛。以矩阵相乘的标签传播算法为例,每一轮的执行过程中,传播矩阵为社团节点和其周边关联节点的表现值,关系矩阵为更新后节点之间边的权重值构成的矩阵,两矩阵相乘从而将上一轮结果的表现值在社团中进一步传播。可选地,对于图谱中原本不存在的数据,比如某些节点本没有表现值、或是两节点之间本不存在连接的边等,可以在矩阵中将对应数值设为零或其他指定的数值;每一轮的计算会将表现值在社团内部节点中扩散一级,当最近两轮的计算结果差异不大时(可采用差值或方差等来量化评估),可认为标签传播算法收敛,输出此时的全部表现值。
在标签传播算法再次收敛之后,真实欺诈团伙内部的成员关系得到了强化,则真实欺诈团伙成员的欺诈概率也将大幅度提升;而正常申请人则由于在第二数据集中缺少与真实欺诈成员之间强的联系,其欺诈概率变化会较小。因此,在再次进行社团识别处理的过程中,可以通过多种方式来识别社团的真实成员。比如,可以再次运行社区发现算法和风险识别算法,以得到更新后的欺诈团伙和/或确定高风险成员;也可以根据前后欺诈概率值(高风险的置信度值)变化情况来剔除变化较小的节点,从而保留欺诈概率值较大或增幅较大的节点作为欺诈团伙的核心成员;再或者,还可以对欺诈概率值进行归一化,使得更新前后的欺诈概率值在平均水平上保持一致,此时正常用户的欺诈概率将下降,进而可能被剔除出欺诈团伙成员范围。图5A-C给出了本公开一个优选实施例中对欺诈团伙成员的识别变化情况示意,其中图5A为初次识别后的欺诈团伙的图谱;图5B为基于第二数据集更新后的图谱,图中虚线表示根据第二数据集计算得到的新的边(单条虚线)或更新权重值的边(虚线和实线);图5C则为二次识别后欺诈团伙的图谱,二次识别结果中强化了团伙核心成员的欺诈概率值,而边缘的部分节点则由于未在第二数据集中得到明显的强化,因而在二次识别时被识别为非欺诈团伙成员,从团伙中剔除。
根据本公开实施例所提出的用户身份识别方法,通过进一步挖掘已识别社团中成员的隐藏数据关系,二次识别判断社团的边界,从而使得用户身份识别的精度得到提升,在保证***可靠性、数据安全性和处理效率的情况下有效解决了***误判的问题。
图6是根据本公开的一些实施例所示的一种用户身份识别装置示意图。如图6所示,用户身份识别装置600包括社团识别模块601、图谱更新模块602和二次识别模块603;其中,
社团识别模块601,用于对整体知识图谱进行初次识别,得到至少一个高风险用户社团的第一数据集,分别建立所述用户社团的子图谱;
图谱更新模块602,用于获取所述子图谱中各节点的第二数据集,更新所述子图谱;
二次识别模块603,用于根据更新后的所述子图谱构建所述用户社团内部的传播矩阵,基于所述传播矩阵进行二次识别,更新所述子图谱中各个节点的用户风险置信度。
在一些实施例中,所述社团识别模块包括:
第一标签传播模块,用于使用标签传播算法将节点具有的表现值通过传播矩阵传播给关联节点;
第一社区发现模块,用于在标签传播算法收敛后,使用社区发现算法识别出至少一个用户社团;
第一风险识别模块,用于对每个用户社团的风险置信度进行识别,确定社团及用户的风险程度。
在一些实施例中,所述二次识别模块包括:
第二标签传播模块,用于使用标签传播算法将节点具有的表现值通过传播矩阵传播给关联节点;
综合处理模块,用于在标签传播算法收敛后,使用社区发现算法识别真实成员、或者筛选剔除更新前后风险置信度值变化变化较小的节点、又或者对更新后的风险置信度值进行归一化;
第二风险识别模块,用于对每个用户节点的风险置信度进行识别,确定社团及用户的风险程度。
在一些实施例中,所述图谱更新模块包括以下至少一个模块:
综合计算模块,用于由图谱中的数据综合计算得到所述第二数据集;
第三方获取模块,用于通过第三方数据源获得所述第二数据集;
注入模块,用于通过人工注入的方式获得所述第二数据集。
在一些实施例中,所述综合计算模块包括:
边更新模块,用于采用潜在关联度计算、声纹数据相似性计算、位置关联度计算、生物特征相似度计算和信息发送频率计算中的至少一种进行计算,发现节点之间新的边或更新已有边的权重值。
参考附图7,为本申请一个实施例提供的电子设备示意图。如图7所示,该电子设备700包括:
存储器730以及一个或多个处理器710;
其中,所述存储器730与所述一个或多个处理器710通信连接,所述存储器730中存储有可被所述一个或多个处理器执行的指令732,所述指令732被所述一个或多个处理器710执行,以使所述一个或多个处理器710执行本申请前述实施例中的方法。
具体地,处理器710和存储器730可以通过总线或者其他方式连接,图7中以通过总线740连接为例。处理器710可以为中央处理器(Central Processing Unit,CPU)。处理器710还可以为其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片,或者上述各类芯片的组合。
存储器730作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块,如本申请实施例中的级联渐进网络等。处理器710通过运行存储在存储器730中的非暂态软件程序、指令以及功能模块732,从而执行处理器的各种功能应用以及数据处理。
存储器730可以包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需要的应用程序;存储数据区可存储处理器710所创建的数据等。此外,存储器730可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中,存储器730可选包括相对于处理器710远程设置的存储器,这些远程存储器可以通过网络(比如通过通信接口720)连接至处理器710。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
本申请的一个实施例还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机可执行指令,所述计算机可执行指令被执行后执行本申请前述实施例中的方法。
前述的计算机可读取存储介质包括以存储如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方式或技术来实现的物理易失性和非易失性、可移动和不可移动介质。计算机可读取存储介质具体包括,但不限于,U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、可擦除可编程只读存储器(EPROM)、电可擦可编程只读存储器(EEPROM)、闪存或其他固态存储器技术、CD-ROM、数字多功能盘(DVD)、HD-DVD、蓝光(Blue-Ray)或其他光存储设备、磁带、磁盘存储或其他磁性存储设备、或能用于存储所需信息且可以由计算机访问的任何其他介质。
尽管此处所述的主题是在结合操作***和应用程序在计算机***上的执行而执行的一般上下文中提供的,但本领域技术人员可以认识到,还可结合其他类型的程序模块来执行其他实现。一般而言,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、组件、数据结构和其他类型的结构。本领域技术人员可以理解,此处所述的本主题可以使用其他计算机***配置来实践,包括手持式设备、多处理器***、基于微处理器或可编程消费电子产品、小型计算机、大型计算机等,也可使用在其中任务由通过通信网络连接的远程处理设备执行的分布式计算环境中。在分布式计算环境中,程序模块可位于本地和远程存储器存储设备的两者中。
本领域普通技术人员可以意识到,结合本文中所本申请的实施例描述的各示例的单元及方法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对原有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。
综上所述,本公开提出了一种用户身份识别方法、装置、电子设备及其计算机可读存储介质。本公开实施例通过进一步挖掘已识别社团中成员的隐藏数据关系,二次识别判断社团的边界,从而使得用户身份识别的精度得到提升,在保证***可靠性、数据安全性和处理效率的情况下有效解决了***误判的问题。
应当理解的是,本公开的上述具体实施方式仅仅用于示例性说明或解释本公开的原理,而不构成对本公开的限制。因此,在不偏离本公开的精神和范围的情况下所做的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。此外,本公开所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。

Claims (10)

1.一种用户身份识别方法,其特征在于,包括:
对整体知识图谱进行初次识别,得到至少一个高风险用户社团的第一数据集,分别建立所述用户社团的子图谱;
获取所述子图谱中各节点的第二数据集,更新所述子图谱;
根据更新后的所述子图谱构建所述用户社团内部的传播矩阵,基于所述传播矩阵进行二次识别,更新所述子图谱中各个节点的用户风险置信度。
2.根据权利要求1所述的方法,其特征在于,所述初次识别包括:
使用标签传播算法将节点具有的表现值通过传播矩阵传播给关联节点;
在标签传播算法收敛后,使用社区发现算法识别出至少一个用户社团;
对每个用户社团的风险置信度进行识别,确定社团及用户的风险程度。
3.根据权利要求1所述的方法,其特征在于,所述二次识别包括:
使用标签传播算法将节点具有的表现值通过传播矩阵传播给关联节点;
在标签传播算法收敛后,使用社区发现算法识别真实成员、或者筛选剔除更新前后风险置信度值变化变化较小的节点、又或者对更新后的风险置信度值进行归一化;
对每个用户节点的风险置信度进行识别,确定社团及用户的风险程度。
4.根据权利要求1所述的方法,其特征在于,所述获取所述子图谱中各节点的第二数据集包括以下至少一种:
由图谱中的数据综合计算得到所述第二数据集,或是通过第三方数据源获得所述第二数据集,或是通过人工注入的方式获得所述第二数据集。
5.根据权利要求4所述的方法,其特征在于,所述综合计算包括:
采用潜在关联度计算、声纹数据相似性计算、位置关联度计算、生物特征相似度计算和信息发送频率计算中的至少一种进行计算,发现节点之间新的边或更新已有边的权重值。
6.一种用户身份识别装置,其特征在于,包括:
社团识别模块,用于对整体知识图谱进行初次识别,得到至少一个高风险用户社团的第一数据集,分别建立所述用户社团的子图谱;
图谱更新模块,用于获取所述子图谱中各节点的第二数据集,更新所述子图谱;
二次识别模块,用于根据更新后的所述子图谱构建所述用户社团内部的传播矩阵,基于所述传播矩阵进行二次识别,更新所述子图谱中各个节点的用户风险置信度。
7.根据权利要求6所述的装置,其特征在于,所述社团识别模块包括:
第一标签传播模块,用于使用标签传播算法将节点具有的表现值通过传播矩阵传播给关联节点;
第一社区发现模块,用于在标签传播算法收敛后,使用社区发现算法识别出至少一个用户社团;
第一风险识别模块,用于对每个用户社团的风险置信度进行识别,确定社团及用户的风险程度。
8.根据权利要求6所述的装置,其特征在于,所述二次识别模块包括:
第二标签传播模块,用于使用标签传播算法将节点具有的表现值通过传播矩阵传播给关联节点;
综合处理模块,用于在标签传播算法收敛后,使用社区发现算法识别真实成员、或者筛选剔除更新前后风险置信度值变化变化较小的节点、又或者对更新后的风险置信度值进行归一化;
第二风险识别模块,用于对每个用户节点的风险置信度进行识别,确定社团及用户的风险程度。
9.根据权利要求6所述的装置,其特征在于,所述图谱更新模块包括以下至少一个模块:
综合计算模块,用于由图谱中的数据综合计算得到所述第二数据集;
第三方获取模块,用于通过第三方数据源获得所述第二数据集;
注入模块,用于通过人工注入的方式获得所述第二数据集。
10.根据权利要求9所述的装置,其特征在于,所述综合计算模块包括:
边更新模块,用于采用潜在关联度计算、声纹数据相似性计算、位置关联度计算、生物特征相似度计算和信息发送频率计算中的至少一种进行计算,发现节点之间新的边或更新已有边的权重值。
CN202010087184.5A 2020-02-11 2020-02-11 用户身份识别方法及装置 Active CN111309822B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010087184.5A CN111309822B (zh) 2020-02-11 2020-02-11 用户身份识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010087184.5A CN111309822B (zh) 2020-02-11 2020-02-11 用户身份识别方法及装置

Publications (2)

Publication Number Publication Date
CN111309822A true CN111309822A (zh) 2020-06-19
CN111309822B CN111309822B (zh) 2023-05-09

Family

ID=71150973

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010087184.5A Active CN111309822B (zh) 2020-02-11 2020-02-11 用户身份识别方法及装置

Country Status (1)

Country Link
CN (1) CN111309822B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112069416A (zh) * 2020-08-21 2020-12-11 河南科技大学 基于社区发现的跨社交网络用户身份识别方法
CN112102093A (zh) * 2020-08-05 2020-12-18 中证征信(深圳)有限公司 主体身份及关联关系识别方法、装置、设备和介质
CN112348659A (zh) * 2020-10-21 2021-02-09 上海淇玥信息技术有限公司 用户风险识别策略的分配方法、装置及电子设备
CN112507312A (zh) * 2020-12-08 2021-03-16 电子科技大学 在深度学习***中基于数字指纹的验证与追踪方法
CN113033966A (zh) * 2021-03-03 2021-06-25 携程旅游信息技术(上海)有限公司 风险目标识别方法、装置、电子设备和存储介质
CN113409139A (zh) * 2021-07-27 2021-09-17 深圳前海微众银行股份有限公司 信贷风险识别方法、装置、设备及程序
CN113434587A (zh) * 2021-06-30 2021-09-24 青岛海尔科技有限公司 一种数据存储、数据查询方法及***
US20220230238A1 (en) * 2021-01-19 2022-07-21 PayU Credit B.V. System and method for assessing risk
CN114997869A (zh) * 2021-02-26 2022-09-02 北京字节跳动网络技术有限公司 风险节点识别方法、装置、电子设备及计算机可读存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109784636A (zh) * 2018-12-13 2019-05-21 中国平安财产保险股份有限公司 欺诈用户识别方法、装置、计算机设备及存储介质
CN109949046A (zh) * 2018-11-02 2019-06-28 阿里巴巴集团控股有限公司 风险团伙的识别方法和装置
WO2019137050A1 (zh) * 2018-01-12 2019-07-18 阳光财产保险股份有限公司 互联网信贷场景下的实时欺诈检测方法、装置及服务器
CN110110093A (zh) * 2019-04-08 2019-08-09 深圳众赢维融科技有限公司 一种基于知识图谱的识别方法、装置、电子设备及存储介质
CN110223168A (zh) * 2019-06-24 2019-09-10 浪潮卓数大数据产业发展有限公司 一种基于企业关系图谱的标签传播反欺诈检测方法及***

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019137050A1 (zh) * 2018-01-12 2019-07-18 阳光财产保险股份有限公司 互联网信贷场景下的实时欺诈检测方法、装置及服务器
CN109949046A (zh) * 2018-11-02 2019-06-28 阿里巴巴集团控股有限公司 风险团伙的识别方法和装置
CN109784636A (zh) * 2018-12-13 2019-05-21 中国平安财产保险股份有限公司 欺诈用户识别方法、装置、计算机设备及存储介质
CN110110093A (zh) * 2019-04-08 2019-08-09 深圳众赢维融科技有限公司 一种基于知识图谱的识别方法、装置、电子设备及存储介质
CN110223168A (zh) * 2019-06-24 2019-09-10 浪潮卓数大数据产业发展有限公司 一种基于企业关系图谱的标签传播反欺诈检测方法及***

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
宾晟;孙更新;: "基于多关系社交网络的协同过滤推荐算法" *

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112102093A (zh) * 2020-08-05 2020-12-18 中证征信(深圳)有限公司 主体身份及关联关系识别方法、装置、设备和介质
CN112069416B (zh) * 2020-08-21 2022-09-02 河南科技大学 基于社区发现的跨社交网络用户身份识别方法
CN112069416A (zh) * 2020-08-21 2020-12-11 河南科技大学 基于社区发现的跨社交网络用户身份识别方法
CN112348659A (zh) * 2020-10-21 2021-02-09 上海淇玥信息技术有限公司 用户风险识别策略的分配方法、装置及电子设备
CN112348659B (zh) * 2020-10-21 2024-03-19 上海淇玥信息技术有限公司 用户识别策略的分配方法、装置及电子设备
CN112507312A (zh) * 2020-12-08 2021-03-16 电子科技大学 在深度学习***中基于数字指纹的验证与追踪方法
CN112507312B (zh) * 2020-12-08 2022-10-14 电子科技大学 在深度学习***中基于数字指纹的验证与追踪方法
US20220230238A1 (en) * 2021-01-19 2022-07-21 PayU Credit B.V. System and method for assessing risk
CN114997869A (zh) * 2021-02-26 2022-09-02 北京字节跳动网络技术有限公司 风险节点识别方法、装置、电子设备及计算机可读存储介质
CN113033966A (zh) * 2021-03-03 2021-06-25 携程旅游信息技术(上海)有限公司 风险目标识别方法、装置、电子设备和存储介质
CN113434587A (zh) * 2021-06-30 2021-09-24 青岛海尔科技有限公司 一种数据存储、数据查询方法及***
CN113434587B (zh) * 2021-06-30 2023-08-18 青岛海尔科技有限公司 一种数据存储、数据查询方法及***
CN113409139A (zh) * 2021-07-27 2021-09-17 深圳前海微众银行股份有限公司 信贷风险识别方法、装置、设备及程序
CN113409139B (zh) * 2021-07-27 2024-05-28 深圳前海微众银行股份有限公司 信贷风险识别方法、装置、设备及程序

Also Published As

Publication number Publication date
CN111309822B (zh) 2023-05-09

Similar Documents

Publication Publication Date Title
CN111309822B (zh) 用户身份识别方法及装置
US20190259033A1 (en) System and method for using a data genome to identify suspicious financial transactions
US20190311367A1 (en) System and method for using a data genome to identify suspicious financial transactions
CN109241125B (zh) 用于挖掘和分析数据以标识洗钱者的反洗钱方法和设备
WO2019019630A1 (zh) 反欺诈识别方法、存储介质、承载平安脑的服务器及装置
CN111222976B (zh) 一种基于双方网络图数据的风险预测方法、装置和电子设备
CA3036664A1 (en) Method for data structure relationship detection
CN110163242B (zh) 风险识别方法、装置及服务器
CN110609870B (zh) 分布式数据处理方法、装置、电子设备及存储介质
CN110287292B (zh) 一种裁判量刑偏离度预测方法及装置
CN112561685B (zh) 客户的分类方法和装置
CN111259167B (zh) 用户请求风险识别方法及装置
CN110162958B (zh) 用于计算设备的综合信用分的方法、装置和记录介质
CN110162939B (zh) 人机识别方法、设备和介质
JP2018170008A (ja) エンティティの属性をマッピングする方法及びシステム
CN112990989B (zh) 价值预测模型输入数据生成方法、装置、设备和介质
CN115114484A (zh) 异常事件检测方法、装置、计算机设备和存储介质
CN111241297B (zh) 一种基于标签传播算法的图谱数据处理方法及装置
WO2019143360A1 (en) Data security using graph communities
CN116739764A (zh) 一种基于机器学习的交易风险检测方法、装置、设备及介质
CN113869904B (zh) 可疑数据识别方法、装置、电子设备、介质和计算机程序
CN107424026A (zh) 商家信誉评价方法和装置
US20220374401A1 (en) Determining domain and matching algorithms for data systems
CN115619539A (zh) 贷前风险评价方法以及装置
CN114912623A (zh) 用于模型解释的方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20220608

Address after: 510000 floor 7, building S6, poly Yuzhu port, No. 848, Huangpu Avenue East, Huangpu District, Guangzhou, Guangdong

Applicant after: Jianlian Technology (Guangdong) Co.,Ltd.

Address before: 510623 Room 201, building a, No. 1, Qianwan 1st Road, Qianhai Shenzhen Hong Kong cooperation zone, Shenzhen, Guangdong

Applicant before: SHENZHEN ZHONGYING WEIRONG TECHNOLOGY Co.,Ltd.

GR01 Patent grant
GR01 Patent grant