CN115859187A - 对象识别方法、装置、电子设备及存储介质 - Google Patents
对象识别方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN115859187A CN115859187A CN202111109153.6A CN202111109153A CN115859187A CN 115859187 A CN115859187 A CN 115859187A CN 202111109153 A CN202111109153 A CN 202111109153A CN 115859187 A CN115859187 A CN 115859187A
- Authority
- CN
- China
- Prior art keywords
- label
- sample
- identified
- objects
- related data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/2431—Multiple classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q20/00—Payment architectures, schemes or protocols
- G06Q20/38—Payment protocols; Details thereof
- G06Q20/40—Authorisation, e.g. identification of payer or payee, verification of customer or shop credentials; Review and approval of payers, e.g. check credit lines or negative lists
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Business, Economics & Management (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Accounting & Taxation (AREA)
- General Business, Economics & Management (AREA)
- Strategic Management (AREA)
- Computer Security & Cryptography (AREA)
- Finance (AREA)
- Medical Informatics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请实施例提供了一种对象识别方法、装置、电子设备及存储介质,涉及金融支付、支付安全、大数据、云技术、区块链、车载终端及人工智能等领域。该方法包括:获取待识别对象的对象相关数据;基于每个待识别对象的对象相关数据,通过对象识别模型预测得到各对象的第一标签,获取包括多个带有标注标签的第一样本对象的对象相关数据和第二标签的参考数据集,根据待识别对象和第一样本对象的对象相关数据,确定待识别对象和第一样本对象中各对象之间的第一关联关系;根据待识别对象的第一标签、第一样本对象的标注标签和第二标签以及第一关联关系,得到待识别对象的识别结果。基于该方法,可及时、准确、有效的识别出未知对象的对象类型。
Description
技术领域
本申请涉及移动支付、支付安全、大数据、车载终端和人工智能等技术领域,具体而言,本申请涉及一种对象识别方法、装置、电子设备及存储介质。
背景技术
随着科学技术的飞速发展,在线支付、转账等已经成为人们生活中非常常见的场景。在科学技术为人们生活带来便利的同时,网络欺诈的形式和手段也是层出不穷。如果有效的预防、避免各种商业欺诈行为,识别存在欺诈行为的用户,一直是相关技术人员研究的非常重要的问题之一。
目前,对于风险用户的识别,通常是借助于其他用户报损、用户自身的交易行为(比如与用户交易相关联的商户等)等,虽然该方式能够识别出一些风险用户,但是该方式的时效性较差、且识别覆盖率具有很大的局限性。
发明内容
针对现有技术中存在的问题中的至少一个,本申请实施例提供了一种对象识别方法、装置、电子设备及存储介质,该方法能够更好的满足对象识别的时效性和覆盖率等方面的需求。
为了实现上述目的,本申请实施例提供的方案如下:
一方面,本申请实施例提供了一种对象识别方法,该方法包括:
获取至少一个待识别对象的对象相关数据;
对于每个待识别对象,基于该对象的对象相关数据通过对象识别模型预测得到该对象的第一标签,一个对象的第一标签表征了多种对象类型中该对象所属的对象类型;
获取参考数据集,参考数据集中包括带有标注标签的多个第一样本对象的对象相关数据和第二标签,一个第一样本对象的标注标签表征了多种对象类型中该对象所属的真实对象类型,一个对象的第二标签表征了该对象属于多种对象类型中每种对象类型的概率;
根据每个待识别对象和每个第一样本对象的对象相关数据,确定至少一个待识别对象和多个第一样本对象中各对象之间的第一关联关系;
根据每个待识别对象的第一标签、每个第一样本对象的标注标签和第二标签、以及第一关联关系,确定每个待识别对象的第二标签;
对于每个待识别对象,根据该待识别对象的第二标签,确定出待识别对象的识别结果。
另一方面,本申请实施例提供了一种对象识别装置,该装置包括:
第一预测模块,用于获取至少一个待识别对象的对象相关数据;对于每个待识别对象,基于该对象的对象相关数据通过对象识别模型预测得到该对象的第一标签,一个对象的第一标签表征了多种对象类型中该对象所属的对象类型;
参考数据集获取模块,用于获取参考数据集,参考数据集中包括带有标注标签的多个第一样本对象的对象相关数据和第二标签,一个第一样本对象的标注标签表征了多种对象类型中该对象所属的真实对象类型,一个对象的第二标签表征了该对象属于多种对象类型中每种对象类型的概率;
第二预测模块,用于根据每个待识别对象和每个第一样本对象的对象相关数据,确定至少一个待识别对象和多个第一样本对象中各对象之间的第一关联关系,根据每个待识别对象的第一标签、每个第一样本对象的标注标签和第二标签、以及第一关联关系,确定每个待识别对象的第二标签;
识别结果确定模块,用于根据每个待识别对象的第二标签,确定每个待识别对象的识别结果。
可选的,第二预测模块具体可以用于:
将每个待识别对象的第一标签作为待识别对象的标注标签和初始的第二标签,根据每个待识别对象和第一样本对象的标注标签和第二标签,基于第一关联关系,在待识别对象和第一样本对象之间进行至少一次标签传播,得到每个待识别对象和第一样本对象更新后的标签;对于每个待识别对象,根据第一关联关系,将与该对象具有第一关联关系的各对象的更新后的标签进行融合,得到该对象的第二标签。
可选的,第二预测模块在进行每次标签传播时可以执行以下操作:
对于待识别对象和第一样本对象中的每个对象,根据第一关联关系,基于与该对象具有关联关系的各对象的第二标签,对该对象的第二标签进行更新;对于每个对象,通过融合该对象更新后的第二标签和该对象的标注标签,得到该对象更新后的标签,将该对象更新后的标签作为下一次标签传播时该对象的第二标签。
可选的,对象相关数据包括至少一种指定类型的对象相关数据,第一关联关系包括与每种指定类型的对象相关数据对应的一种类型的关联关系;相应的,第二预测模块可以用于:
获取每种类型的关联关系对应的权重;根据每个待识别对象的第一标签、每个第一样本对象的标注标签和第二标签、每种类型的关联关系、以及每种类型的关联关系对应的权重,确定每个待识别对象的第二标签。可选的,第二预测模块可以用于:对于至少一个待识别对象和多个第一样本对象中的每个对象,根据该对象的对象相关数据,确定该对象的影响力;根据每个待识别对象的第一标签、每个第一样本对象的标注标签和第二标签、每个待识别对象和第一样本对象的影响力、以及第一关联关系,确定每个待识别对象的第二标签。
可选的,对象相关数据包括至少一种指定类型的对象相关数据,第一关联关系包括与每种指定类型的对象相关数据分别对应的一种类型的关联关系,至少一个待识别对象和多个第一样本对象中的每个对象的影响力,包括每个对象对应于每种类型的关联关系的影响力。
可选的,第二预测模块可以用于:根据每个待识别对象的第一标签和每个第一样本对象的标注标签,确定在至少一个待识别对象和多个第一样本对象中每种对象类型的对象数量占比;将每种对象类型的对象数量占比作为权重,对至少一个待识别对象中相应对象类型的第一标签进行加权,对多个第一样本对象中相应对象类型的标注标签进行加权;根据每个待识别对象的加权后的第一标签、每个第一样本对象的加权后的标注标签和第二标签、以及第一关联关系,确定每个待识别对象的第二标签。
可选的,对象识别模型由模型训练模块通过执行以下操作得到:
获取第一训练数据集,第一训练数据集包括带有标注标签的多个第二样本对象的对象相关数据、以及多个未标记的第三样本对象的对象相关数据,多个第二样本对象包括真实对象类型是多种对象类型中每种类型的多个对象;
基于多个第二样本对象的对象相关数据,对初始分类模型进行训练,直至满足第一训练结束条件,得到第一分类模型;对于每个第三样本对象,基于该对象的对象相关数据,通过第一分类模型预测得到该对象的对象类型,根据该对象类型确定该对象的标注标签;基于多个第二样本对象的对象相关数据、以及带有标注标签的多个第三样本对象的对象相关数据,对第一分类模型继续训练,直至满足第二训练结束条件,得到对象识别模型。
可选的,参考数据集是由参考数据集获取模块通过以下方式获取到的:
获取第二训练数据集,第二训练数据集包括带有标注标签的多个第一样本对象的对象相关数据;根据每个第一样本对象的对象相关数据,确定第二训练数据集各对象之间的第二关联关系;将每个第一样本对象的标注标签作为该对象初始的第三标签,重复执行以下操作,直至多个第一样本对象更新后的第三标签满足预设条件,将满足预设条件时的每个第一样本对象的第三标签确定为该对象的第二标签:基于第二关联关系以及各第一样本对象的标注标签和第三标签,通过在多个第一样本对象之间进行标签传播,得到每个第一样本对象更新后的第四标签;对于每个第一样本对象,根据第二关联关系,通过融合与该对象具有关联关系的各第一样本对象的第四标签,得到该对象新的第三标签。
可选的,参考数据集获取模块在还可以用于:
每进行一次标签传播后,获取新增数据,新增数据包括带有标注标签的至少一个样本对象的对象相关数据;将新增数据中的每个样本对象作为新增的第一样本对象,基于新增数据更新第二训练数据集;根据更新后的第二训练数据集中每个第一样本对象的对象相关数据,确定更新后的第二训练数据集中各对象之间的第二关联关系,得到更新后的第二关联关系;
参考数据集获取模块在得到每个第一样本对象更新后的第四标签时,可以用于:
将每个新增的第一样本对象的标注标签作为该对象的第三标签,基于更新后的第二关联关系、以及更新后的各第一样本对象的标注标签和第三标签,通过在更新后的多个第一样本对象之间进行标签传播,得到更新后的每个第一样本对象的第四标签。
可选的,新增数据中各样本对象的标注标签是通过以下方式获取到的:
获取至少一个未标注的对象的对象相关数据,至少一个样本对象包括至少一个未标注的对象;对于至少一个未标注的对象中每个对象,基于该对象的对象相关数据,通过对象识别模型预测得到该对象的第一标签,将该对象的第一标签作为该对象的标注标签。
可选的,对于每次标签传播,参考数据集获取模块还用于:
根据多个第一样本对象的对象相关数据,确定多个第一样本对象中的相似对象对;其中,满足预设条件包括损失函数的值设定条件;
损失函数包括第一损失函数和第二损失函数,对于每次标签传播,第一损失函数的值表征了各第一样本对象的标注标签和新的第三标签之间的差异,第二损失函数的值表征了各相似对象对的新的第三标签之间的差异。
再一方面,本申请实施例提供了一种电子设备,该电子设备包括存储器、处理器及存储在存储器上的计算机程序,处理器执行计算机程序以实现本申请实施例提供的方法的步骤。
再一方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现本申请实施例提供的方法的步骤。
又一方面,本申请实施例提供了一种计算机程序产品,包括计算机程序,计算机程序被处理器执行时实现本申请实施例提供的方法。
再一方面,本申请实施例提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述本申请任一可选实施例中提供的方法。
本申请实施例提供的技术方案带来的有益效果是:
本申请实施例提供的方案,在对待识别对象进行识别时,同时考虑了待识别对象自身的对象相关数据和该对象与其他对象之间的关联关系,由于一个对象的对象相关数据反映了该对象的特征,而不同对象类型的对象的特征通常是不同的,因此,可以基于待识别对象的对象相关数据来初步评估该对象的对象类型。而一个对象与其他对象之间的关联关系会对该对象产生影响,因此,本申请实施例的方法,进一步考虑对象之间的关联关系、以及各对象自身的标签(即待识别对象的第一标签、第一样本对象的标注标签和第二标签),可以在基于待识别对象的对象相关数据预测出的该对象的第一标签的基础上,融入对象之间的相互影响,从而得到更加准确的识别结果。此外,由于本申请的该方法,无需依赖对象的投诉、报损,可以实现对象的提前预防识别,更好的满足了时效性的要求,尤其是风险识别领域对于时效性的要求。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对本申请实施例描述中所需要使用的附图作简单地介绍。
图1为本申请实施例提供的一种对象识别方法的流程示意图;
图2a至图2d为本申请示例中提供的几种对象类型的对象的示意图;
图3为本申请实施例提供的一种对象识别***的结构示意图;
图4为本申请实施例提供的一种对象识别方法的流程示意图;
图5为本申请实施例提供的一种对象识别模型的训练方法的原理示意图;
图6为本申请示例中提供的标签传播的原理示意图;
图7a至图7c为本申请示例提供的几种不同的导致标签传播的示例的示意图;
图8为本申请实施例提供的一种对象识别装置的结构示意图;
图9为本申请实施例适用的一种电子设备的结构示意图。
具体实施方式
下面结合本申请中的附图描述本申请的实施例。应理解,下面结合附图所阐述的实施方式,是用于解释本申请实施例的技术方案的示例性描述,对本申请实施例的技术方案不构成限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本申请实施例所使用的术语“包括”以及“包含”是指相应特征可以实现为所呈现的特征、信息、数据、步骤、操作、元件和/或组件,但不排除实现为本技术领域所支持其他特征、信息、数据、步骤、操作、元件、组件和/或它们的组合等。应该理解,当我们称一个元件被“连接”或“耦接”到另一元件时,该一个元件可以直接连接或耦接到另一元件,也可以指该一个元件和另一元件通过中间元件建立连接关系。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的术语“和/或”指示该术语所限定的项目中的至少一个,包括一个或更多个相关联的列出项的全部或任一单元和全部组合,例如“A和/或B”指示实现为“A”,或者实现为“A”,或者实现为“A和B”。
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。为了更好的理解相关技术,首先对本申请涉及的一些技术用语进行介绍:
本申请是针对现有目标类型的对象(如风险对象,即存在欺诈行为的对象/用户,指利用非法/违背社会道德的手段获利的用户)识别方式中存在的问题、为了更好的满足风险识别需求提出的一种对象(即存在欺诈风险(指黑产通过诱导、虚假信息等手段非法获取用户资产的交易风险)的对象)识别方法。目前,对于风险用户的识别,往往是借助于其他用户报损、用户自身的交易行为等,用户风险标签(对存在欺诈行为的用户进行的标记)之间彼此割裂,在识别欺诈风险时,仅借助单一的用户风险标签与其他用户或商户进行关联风险识别。在以往的实践中,用户只是作为单项风险传导的媒介,用户标签维护成本高、耗时耗力。现有的风险对象识别方式中至少存在以下问题:
1)时效性较差:在黑产(黑色产业/非法产业/恶意产业,指利用非法/违背社会道德的手段获利的行业)的整个生命周期中,黑产往往会在同一时期批量开展欺诈行为。依赖于其他用户报损的识别方式,当一个风险用户被标记时,同时期的商户很可能已完成了整个欺诈流程,出现大批量的报损,不能够提前预防,大大影响了对黑产资金的控制。
2)覆盖率不足:由于目前大多欺诈行为都是基于互联网技术的,账号的注册成本几乎为0,为了更快更有效率地开展欺诈交易和资金转移,黑产往往拥有大量号源。而依赖于客户投诉、关联黑商户(存在欺诈行为的商户)来识别风险用户的方案具有较大的局限性,无法全面的覆盖到黑产账号。
3)关联性不强。现有的用户风险标签建设往往根据不同的业务场景彼此独立,尽管在用户风险识别的过程中,线索的来源各有不同,但通过大量的实践可以发现,不同的风险用户可能作用于同一场欺诈案例的不同环节,而不同的风险用户之间也存在社交信息、交易行为等微妙的联系,但现有的识别方式无法实现不同业务场景中的关联性识别。
为了解决现有技术中存在的多个问题中的至少一项,以更好的满足风险识别需求,本申请提供了一种新的对象识别方法,基于该方法可以打造风险用户关系网络,不仅有助于构建出用户风险体系,更能明晰黑产的生命周期,为预先识别欺诈风险提供了新路径。
可选的,本申请实施例提供的对象识别方法,可以应用于大数据(Big data)的处理,如可以基于云技术(Cloud technology)实现。本申请实施例中所涉及的数据计算可以采用云计算(Cloud computing)的方式。比如,对象识别模型的训练、基于标签传播确定对象的标签等步骤的计算可以采用云计算。
大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。随着云时代的来临,大数据也吸引了越来越多的关注,大数据需要特殊的技术,以有效地处理大量的容忍经过时间内的数据。适用于大数据的技术,包括大规模并行处理数据库、数据挖掘、分布式文件***、分布式数据库、云计算平台、互联网和可扩展的存储***。其中,云技术是基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称,可以组成资源池,按需所用,灵活便利。云计算技术将变成重要支撑。
可选的,本申请实施例提供的方案,还可以基于人工智能(ArtificialIntelligence,AI)技术实现,比如,可以通过训练好的风险识别模型预测对象的第一风险标签,还可以采用机器学习的方式基于损失函数获取参考数据集。人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
可选的,本申请实施例中所涉及的数据(如对象的对象相关数据)的存储可以采用云存储或基于区块链的存储,可有效保护数据的安全。其中,区块链是指是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层。
下面通过对几个示例性实施方式的描述,对本申请实施例的技术方案以及本申请的技术方案产生的技术效果进行说明。需要指出的是,下述实施方式之间可以相互参考、借鉴或结合,对于不同实施方式中相同的术语、相似的特征以及相似的实施步骤等,不再重复描述。
图1示出了本申请实施例提供的一种对象识别方法的流程示意图,该方法可以由任一电子设备执行,如该方法也可以由服务器执行,该服务器可以是云服务器,也可以是物理服务器或服务器集群,该方法可以实现为一个应用程序或者作为已有应用程序的一个插件或功能模块,比如,可以作为交易类(如移动支付)应用程序的一个新增功能模块,应用程序的服务器可以通过执行本申请实施例的方法,实现对待识别对象的标签的识别,识别出待识别对象是否为目标类型的对象,如是否为非风险对象、以及在该对象是风险对象时其所属的风险类型(对象类型,也就是对象是存在哪种欺诈行为的对象)。该方法也可以由终端设备执行,终端设备可以通过执行该方法,识别出待识别对象的标签,得到识别结果。其中,终端设备包括用户终端,用户终端包括但不限于手机、电脑、智能语音交互设备、智能家电、车载终端等。可选的,在实际应用中,为了更好的保证对象信息的安全性,该方法可以由服务器执行。
如图1中所示,本申请实施例提供的该对象识别方法可以包括以下步骤S110-步骤S140。
步骤S110:获取至少一个待识别对象的对象相关数据。
其中,本申请实施例中的对象可以包括但不限于用户、商户等,一个对象可以通过其对象标识表征,对象标识的形式本申请实施例不做限定,只要是能够唯一表征一个对象的信息即可,如可以包括但不小于对象的联系方式、对象的账号标识等,其中,对象的账号标识可以是对象的社交账号,如对象在应用程序中的账号(例如,用户在应用程序的注册账号名称、昵称等)。为了描述方便,在后文的一些实施例描述中,可以采用一个对象的账号来表示该对象。
本申请实施例中,一个对象的对象相关数据包括该对象的交互数据,其中,对象相关数据可以是对象的交互行为数据(也可以称为社交行为数据),是指与对象的社交有关的数据,具体可以包括该对象与其他对象的交互行为有关的数据。在实际应用中,具体采用哪些社交行为数据可以根据需求配置。其中,对象相关数据可以是在对象授权的情况下获取到的该对象的社交行为数据。
可选的,一个对象的社交行为数据可以包括该对象的社交/交互信息和交易信息。其中,社交信息反映的对象的社交程度,比如,可以包括对象的社交活跃度,如该对象的好友数量、关注该对象的其他对象的数量、或者是该对象发布一条信息时对该信息进行转发、电站的对象数量等等,好友的判定标准本申请实施不做限定,如互相关注的两个对象可以互为好友。一个对象的交易信息指的是该对象与其他对象发生的交易的相关信息,交易信息可以包括但不限于支付行为信息、转账信息(包括该对象向其他对象进行支付/转账,也包括其他对象向该对象进行支付/转账)等。一个对象的交易信息具体可以包括但不限于交易时间、交易的发起方和接受方(如A向B转账,A则为发起方,B为接受方)、交易金额、交易类型(是转账,还是发送红包或其他形式等)。
步骤S120:对于每个待识别对象,基于该对象的对象相关数据,通过对象识别模型预测得到该对象的第一标签,其中,一个对象的第一标签表征了多种对象类型中该对象所属的对象类型。
其中,对象类型也可以称为风险类型,是指一个对象在是存在欺诈行为的,其欺诈行为的类型。第一标签也可以称为第一风险标签,表征了基于对象的对象相关数据预测出的该对象的风险类型。
对象识别模型(也可以称为风险识别模型)是基于训练数据集预先训练好的神经网络模型。该模型的输入为对象的对象相关数据,或者是对对象相关数据进行预处理后的数据,该模型的输出为对象相关数据对应的对象类型,比如,可以将对象相关数据按照预设要求预处理成固定格式的数据,如转换成指定数据格式的向量之后输入至模型,通过模型预测得到对象的对象类型。
本申请实施例中,对象识别模型可以是一个分类模型,该分类模型可以是多分类模型,多种对象类型中的每一种对象类型对应分类模型的一个类别,通过该模型可以预测出社交行为数据对应类别,该类别表征的对象类型即为该社交行为数据所属的对象的对象类型。在实际应用中,对于模型输出的数据形式本申请实施例不做限定,如可以是一个类别的标识,也可以是一个一维的向量,该向量中元素(也就是数)的个数等于上述多个对象类型中总的类型数量,每个元素对应一个类型,各元素的元素值可以是0或1,比如,只有其中一个元素的元素值为1,其他均为0,该取值为1的元素对应的类型则为预测出的对象的类型,也就是上述第一标签。
另外,在实际实施时,上述多种对象类型可以包括多种目标类型和一种非目标类型,每种目标类型对应一种欺诈行为类型即风险类型,非目标类型对应不存在欺诈行为即非风险用户,也就是说,没有风险也可以作为一个风险类型,如果模型预测出的风险类型是没有风险,则该对象的初始识别结果认为该对象不是风险对象。例如,对象的类型存在A类型和B类型两种(即两种目标类型),那对象识别模型可以是一个三分类模型,通过该模型可以预测出一个对象是A类型、还是B类型或者无风险类型(即非目标类型)的对象。
对于对象识别模型的具体训练方式本申请实施例不做限定。模型的上述训练结束条件也可以根据应用需求配置。
本申请的可选实施例中,对象识别模型可以是通过以下方式训练得到的:
获取第一训练数据集,第一训练数据集包括带有标注标签的多个第二样本对象的对象相关数据、以及多个未标记的第三样本对象的对象相关数据,多个第二样本对象包括真实对象类型是多种对象类型中每种类型的多个对象;
基于多个第二样本对象的对象相关数据,对初始分类模型进行训练,直至满足第一训练结束条件,得到第一分类模型;
对于每个第三样本对象,基于该对象的对象相关数据,通过第一分类模型预测得到该对象的对象类型,根据该对象类型确定该对象的标注标签;
基于多个第二样本对象的对象相关数据、以及带有标注标签的多个第三样本对象的对象相关数据,对第一分类模型继续训练,直至满足第二训练结束条件,得到对象识别模型。
由于在不同的场景下,对象表现出的交互行为特征(社交行为特征)是不同的。为了保证不同类型的对象在模型学习过程中不会相互干扰而导致判断失误,本申请的该可选方案中,在基于训练数据集训练对象识别模型时,会采用多种不同对象类型的训练数据分别进行模型训练,即对于每种对象类型,训练数据集中都包含该类型的多个样本对象的对象相关数据,通过训练使模型能够从不同对象类型的样本对象的对象相关数据中学习到不同对象类型的对象的社交行为特征。
进一步的,由于带有标注标签的样本数据的获取通常都需要人工参与,样本数据的数量通常比较受限,考虑于此,本申请的该可选方案,借助了半监督学习方式进行模型训练,即训练数据集中同时包含了带有标注标签的样本数据和不带有标注标签的样本数据,在对模型进行训练时,为了保证模型训练的准确性,在训练的第一个阶段采用带有标注标签的样本数据对模型进行迭代训练,使得训练出的模型能够满足一定的性能要求,即满足第一训练结束条件,该条件可以根据实际需求配置,比如模型的预测准确度大于设定值,此时则可以通过模型预测未标注的样本数据对应的对象类型,可以将第三样本对象的对象相关数据输入至满足上述第一训练结束条件的第一分类模型中,得到每个第三样本对象的第一标签,并将该标签作为第三样本对象的标注标签(也就是伪标签),之后则可以基于带有标注标签的样本数据和带有伪标签的样本数据对模型继续进行训练,当模型达到预期效果时,可以结束训练,得到满足应用需求的对象识别模型,通过该模型可以初步预测得到待识别对象的第一标签。
步骤S130:获取参考数据集,参考数据集中包括多个带有标注标签的第一样本对象的对象相关数据和第二标签。
其中,一个第一样本对象的标注标签表征了多种对象类型中该对象所属的真实对象类型,一个对象的第二标签表征了该对象属于多种对象类型中每种对象类型的概率。
为了便于理解,作为一个示例,假设多种对象类型包括5种类型,一个对象的标注标签可以表示为[1,0,0,0,0],第二标签可以表示为[p1,p2,p3,p4,p5],其中,p1至p5分别表示该对象是5种对象类型中每种类型的概率,5个概率之和等于1,而标注标签则表示了该对象的真实对象类型是5种对象类型中取值为1的元素对应的对象类型。
参考数据集可以理解为真实的样本数据集,其中包含了多个已知风险类型的对象的相关数据,包括对象相关数据、标注标签和第二标签。
本申请实施例中,对于上述每一个第一样本对象而言,其标注标签和第二标签都可以理解为该对象的真实标签,第二标签可以理解成在该样本对象的真实对象类型是标注标签对应的对象类型的情况下,该对象属于多种对象类型中每一种类型的概率分布情况。
在实际应用中,欺诈行为的实施往往会涉及到多个不同的环节,可能会涉及到多个不同的风险用户(即存在风险的用户/对象),在欺诈行为的整个生命周期中,不同的风险用户也可能会作用于同一场欺诈行为的不同环节,而不同的风险用户之间也存在社交信息、交易行为等微妙的联系。因此,一种类型的风险用户很可能会与同类型的或者不同类型的风险用户存在关联,不同风险类型的用户之间也会存在传播,会相互影响,因此,本申请实施例中,采用了标注标签和第二标签从两个不同的层面分别反映了一个用户自身的对象类型,以及在考虑了该用户与其用户之间的关联时该用户属于每种对象类型的可能性,也就是说,第二标签是在考虑了用户之间的相互影响的情况下的一个风险标签。其中,对于参考数据集的具体获取方式本申请实施例不做限定。
步骤S140:根据每个待识别对象和每个第一样本对象的对象相关数据,确定至少一个待识别对象和多个第一样本对象中各对象之间的第一关联关系。
步骤S150:根据每个待识别对象的第一标签、每个第一样本对象的标注标签和第二标签、以及第一关联关系,确定每个待识别对象的第二标签。
步骤S160:对于每个待识别对象,根据待识别对象的第二标签,确定待识别对象的识别结果。
其中,上述至少一个待识别对象和多个第一样本对象中各对象之间的第一关联关系,包括待识别对象之间的关联关系,以及待识别对象与第一样本对象之间的关联关系。该关联关系也可以称为社交关联关系或交互关联关系。
由于一个对象的对象相关数据中包含该对象与其他对象的交互数据,因此,可以根据两个对象的对象相关数据确定出对象之间的社交关联关系。对于关联关系的划分粒度,本申请实施例不做限定,可选的,对象之间的关联关系可以包括对象之间有关联关系或者没有关联关系,还可以进一步细分不同类型的关联关系,比如,对象相关数据可以包括多种不同类型的对象相关数据,可以根据每种类型的对象相关数据,确定对象之间是否有该种类型的关联关系。
可选的,一个对象的对象相关数据可以包括该对象的转账信息、红包(发红包或接红包)信息、该对象对应的实体信息等多种不同类型的数据,其中,实体信息是指该对象进行社交行为时所应用到的实体信息,比如,该对象的联系方式、交易账号(如银行***、虚拟资源账号等)。可以根据各对象的转账信息,确定对象之间具有是否对应的该类型数据的关联关系,可以根据各对象的红包信息,确定对象之间是否具有对应于该类型的关联关系。也就是说,一种类型的行为数据可以对应一种类型的关联关系。当然,在实际应用中,也可以不对关联关系进行类型划分,可以基于对象的各种类型的对象相关数据,确定对象之间是否有关联关系,比如,两个对象的任一种类型的对象相关数据表明两个对象之间具有关联关系,则可以确定对象之间具有关联关系。
在实际应用中,由于对象之间的社交关联关系是会对对象的属性信息造成影响的,在风险识别领域,如果一个对象A是风险对象,如具有欺诈行为的对象,另一个普通的对象B(不存在风险的对象)如果与对象A具有关联(比如两者之间发生过支付行为),那么对象B也可能会变成具有潜在风险的对象,即风险会由于对象之间的交互信息发生传播,考虑于此,本申请实施例提供的该方案,在确定待识别对象的识别结果时,进一步考虑对象之间的关联关系,从而可以提高对象识别的准确性和全面性。
本申请实施例提供的对象识别方法,在对未知是否存在风险的待识别对象进行识别时,同时考虑了待识别对象自身的社交行为数据和该对象与其他对象之间的社交关联关系,由于社交行为数据反映了该对象与其他对象之间的社交特征,而具有风险的对象的社交特征和不具有风险的对象的社交特征通常是不同的,属于不同风险类型的对象的社交特征通常也是不同的,因此,可以基于待识别对象的社交行为数据来初步评估该对象的风险类型。进一步的,由于一个对象与其他对象之间的社交关系会对该对象产生影响,尤其是具有风险的对象会对与其有关联关系的对象产生影响,因此,进一步考虑对象之间的社交关联关系、以及各对象自身的风险标签(即待识别对象的第一风险标签、第一样本对象的标注标签和第二风险标签),可以在基于待识别对象的社交行为数据预测出的该对象的第一风险标签的基础上,融入对象之间的相互影响,确定出待识别对象的更加准确的第二风险标签,从而基于该标签得到对象的风险评估结果。
另外,由于本申请实施例提供的该方法,可以基于参考数据集和待识别对象的对象相关数据,实现对待识别对象的自动化识别,而无需依赖于其他对象的报损,因此,可以在有需求时即可对对象的进行评估,因此,能够更好的满足实际应用中对于时效性的要求,可以***出具有风险的对象,即可以预先识别,以可以基于识别结果相应预防,比如,识别出一个对象是风险对象,其他对象在与该对象进行交易时,可以进行风险提醒,防止导入欺诈陷阱,还可以对风险对象进行相应的管制,或者还可以通过人工手段对识别出的风险对象进行进一步的跟踪核实,以预先防范打击。再者,在进行风险评估时,本申请实施例的该方法,可以借助对象之间的关联关系,更加全面的实现对对象的风险评估,可有效扩展风险对象评估的覆盖范围。
其中,在得到待识别对象的第二标签之后,则可以基于该标签确定该出该对象的识别结果。其中,该识别结果可以包括该对象是否为风险对象即是否是属于目标类型的对象,在该对象是风险对象时,其对象类型是哪个或哪些类型,或者,也可以直接将第二标签作为待识别对象的识别结果,通过该标签可以得到该对象属于各个对象类型的概率。可选的,可以将第二标签中概率大于或等于设定阈值的概率对应的对象类型确定为待识别对象的对象类型,或者是将最大概率对应的对象类型确定待识别对象的对象类型,如果最大概率的对象类型为不存在风险,则可以认为该对象目前是不存在风险的对象即非目标类型的类型,当然,也可以对不存在风险的对象继续进行后期跟踪判断。
本申请的可选实施例中,上述根据每个待识别对象的第一标签、每个第一样本对象的标注标签和第二标签、以及第一关联关系,确定每个待识别对象的第二标签,可以包括:
将每个待识别对象的第一标签作为待识别对象的标注标签和初始的第二标签,根据每个待识别对象和第一样本对象的标注标签和第二标签,基于第一关联关系,在待识别对象和第一样本对象之间进行至少一次标签传播,得到每个待识别对象和第一样本对象更新后的标签;
对于每个待识别对象,根据第一关联关系,将与该对象具有第一关联关系的各对象的更新后的标签进行融合,得到该对象的第二标签。
该可选方案中,可以采用标签传播的方式来得到待识别对象的第二标签。由于具有关联关系的对象之间会相互造成影响,如果一个对象是风险对象,那么该对象的风险类型即标签也是有可能传播给与其具有关联关系的其他对象的,也就是说与其具有关联关系的对象是风险对象的可能性会相对较高。因此,可以在各对象都具有各自的标签(待识别对象的第一标签,样本对象的标注标签和第二标签)的前提下,基于对象之间的关联关系,进行至少一次标签传播,之后,对于待识别对象,可以通过融合与其具有关联关系的各对象(包括样本对象和待识别对象)的标签,得到该对象的第二标签。
标签传播算法是是一种基于图的半监督学习方法,是基于知识图谱的信息传递性,将标签信息随行为路径进行传播。其基本思路是用已标记节点的标签信息去预测未标记节点的标签信息,节点的标签按照节点间的相似度传递给其他节点。本申请实施例的该可选方案,对现有标签传播算法进行了优化,对于待识别对象,会首先基于其对象相关数据预测其第一标签,在此基础上,基于对象间的关联关系,进行对象间的风险标签的传播,即一个对象的风险标签可以传播给与其具有关联关系的其他对象。其中,对于标签传播的实施次数可以根据应用需求配置。
其中,每次标签传播包括以下操作:
对于所述待识别对象和所述第一样本对象中的每个对象,根据所述第一关联关系,基于与该对象具有关联关系的各对象的第二标签,对该对象的第二标签进行更新;
对于所述每个对象,通过融合该对象更新后的第二标签和该对象的标注标签,得到该对象更新后的标签,将该对象更新后的标签作为下一次标签传播时该对象的第二标签。
假设标签传播次数为1次,对于上述至少一个待识别对象和多个第一样本对象中的每个对象,可以根据与其具有关联关系的各对象的第二标签实现自身的第二标签的更新,如可以将与其具有关联关系的各对象的第二标签进行融合(如相加后再做标准化处理),得到更新后的标签,再将该更新后的标签与其所属的对象类型的标签(第一风险标签/标注标签)进行融合得到该对象的融合后的标签,也就是此次标签传播更新后的标签。之后,对于每个待识别对象,通过将与其具有关联关系的各对象的融合后的风险标签进行融合,得到该对象的第二标签。
如果标签传播的次数大于1次,则可以基于上一次得到的各个对象(包括待识别对象和第一样本对象)的第二标签,再次执行上述操作,将最后一次传播得到的待识别对象的第二标签作为最终的第二标签。
本申请的可选实施例中,对象相关数据包括至少一种指定类型的对象相关数据,第一关联关系包括与每种指定类型的对象相关数据对应的一种类型的关联关系;
相应的,上述根据每个待识别对象的第一标签、每个第一样本对象的标注标签和第二标签、以及第一关联关系,确定每个待识别对象的第二标签,包括:
获取每种类型的关联关系对应的权重;
根据每个待识别对象的第一标签、每个第一样本对象的标注标签和第二标签、每种类型的关联关系、以及每种类型的关联关系对应的权重,确定每个待识别对象的第二标签。
在该可选方案中,可以按照对象相关数据的类型,分别确定每种类型的对象相关数据对应的关联关系,从而更加细粒度的衡量一个对象在各种社交行为中与其他对象的是否具有关联,以更加准确全面的表征出一个对象的社交关联关系。其中,上述指定类型具体包括哪个或哪些类型,可以根据需求配置,本申请实施例不做限定,比如,对象相关数据可以包括多种类型的数据,指定类型可以是这多种类型中的一种或多种。对于对象相关数据的类型的具体划分方式本申请实施例也不做限定,可以根据实际需求和应用场景设置各数据类型的划分规则。
而在实际应用中,由于不同类型的关联关系的影响程度是不同的,因此,为了更加准确的评估对象之间的关联关系,每种类型的关联关系具有各自对应的权重,从而使得具有不同影响能力的关联关系风险对象评估中起到不同的影响作用,进一步提升了对象识别的准确性。
本申请的可选实施例中,该方法还可以包括:
对于至少一个待识别对象和多个第一样本对象中的每个对象,根据该对象的对象相关数据,确定该对象的影响力;
相应的,上述根据每个待识别对象的第一标签、每个第一样本对象的标注标签和第二标签、以及第一关联关系,确定每个待识别对象的第二标签,包括:
根据每个待识别对象的第一标签、每个第一样本对象的标注标签和第二标签、每个待识别对象和第一样本对象的影响力、以及第一关联关系,确定每个待识别对象的第二标签。
其中,一个对象的影响力是指该对象对其他对象的影响能力的大小,从一个层面上表征了该对象的社交能力。在实际应用中,由于不同的对象的影响力通常是有差异的,比如,对象相关数据包括转账信息,一个向30个以上的账户转账的用户与一个向2个账户转账的用户显然具有显著的影响力差异。而不同的影响力的对象的标签会影响到其他对象的可能性也就不同,因此,为了更加准确的评估出待识别对象的第二标签,本申请的该可选方案还进一步考虑了每个对象的影响力。
可选的,在基于标签传播确定待识别对象的第二标签时,可以在每次标签传播过程中,采用每个对象的影响力对其标签进行加权。例如,如果是进行一次标签传播,对于待识别对象和第一样本对象中的每个对象,可以用该对象的影响力对其第二标签(对于待识别对象是其初始的第二标签,也就是第一风签)进行加权,然后基于加权后的标签进行一次标签传播。如果是进行多次标签传播,则可以在每次进行标签传播前,对上一次得到传播得到的对象的第二标签进行加权。
可选的,一个对象的对象相关数据包括至少一种指定类型的对象相关数据,上述第一关联关系包括与每种指定类型的对象相关数据分别对应的一种类型的关联关系,上述至少一个待识别对象和多个第一样本对象中的每个对象的影响力,包括每个对象对应于每种类型的关联关系的影响力。
也就是说,在对对象相关数据进行分类处理时,可以按照对象相关数据的类型,分别确定每种类型的对象相关数据对应的影响力,从而更加细粒度的衡量一个对象在各种社交行为中的影响力,以更加准确全面的表征出一个对象的影响力。
可选的,对于每个对象,可以通过融合该对象对应于各个类型的影响力,得到该对象的最终的影响力,比如,可以将各类型对应的影响力相乘。
本申请的可选实施例中,该方法还可以包括:
根据每个待识别对象的第一风险和每个第一样本对象的标注标签,确定在至少一个待识别对象和多个第一样本对象中每种对象类型的对象数量占比;
相应的,上述根据每个待识别对象的第一标签、每个第一样本对象的标注标签和第二标签、以及第一关联关系,确定每个待识别对象的第二标签,包括:
将每种对象类型的对象数量占比作为权重,对至少一个待识别对象中相应对象类型的第一标签进行加权,对多个第一样本对象中相应对象类型的标注标签进行加权;
根据每个待识别对象的加权后的第一标签、每个第一样本对象的加权后的标注标签和第二标签、以及第一关联关系,确定每个待识别对象的第二标签。
对于上述待识别对象和第二样本对象,每个对象都有各自对应的对象类型,即待识别对象的第一标签、第二样本对象的标注标签。由于不同对象类型下的对象的量级通常是有所差异的,对于某个对象类型而言,如果属于该对象类型的对象数量的量级越大,那么该对象类型的标签传播给待识别对象的可能性也就会越大。因此,本申请的该可选实施例,在确定待识别对象的第二标签时,进一步考虑了每种对象类型的对象数量占比,并根据该占比对对应对象类型的对象标签(待识别对象的第一标签、第二样本对象的标注标签)进行加权,从而使得对象标签的影响能力与对应对象类型的对象数量成正相关,更加符合实际情况,以更加准确的预估待识别对象的第二标签。
可选的,在基于标签传播的处理方式中,可以在每次执行标签传播时,都可以按照每种对象类型的对象数量对对应对象类型的待识别对象和第一样本对象的对象标签进行加权。
本申请的可选实施例中,参考数据集可以是通过以下方式获取到的:
获取第二训练数据集,第二训练数据集包括带有标注标签的多个第一样本对象的对象相关数据;
根据每个第一样本对象的对象相关数据,确定第二训练数据集各对象之间的第二关联关系;
将每个第一样本对象的标注标签作为该对象初始的第三标签,重复执行以下操作,直至多个第一样本对象更新后的第三标签满足预设条件,将满足预设条件时的每个第一样本对象的第三标签确定为该对象的第二标签:
基于第二关联关系以及各第一样本对象的第三标签,通过在多个第一样本对象之间进行标签传播,得到每个第一样本对象更新后的第四标签;对于每个第一样本对象,根据第二关联关系,通过融合与该对象具有关联关系的各第一样本对象的第四标签,得到该对象新的第三标签。
由前文的描述可知,不同对象之间的标签是会传播的,如果对象之间发生过社交行为,尤其是一些与欺诈行为有关的特定类型的社交行为,比如转账、支付等行为,那么对象的风险标签是很有可能会传播给与其有交互的对象的。为了更好的学习到不同对象的标签之间的传播影响情况,以用于预测待识别对象的第二标签,本申请的该可选方案,基于带有标注标签的大量样本对象,考虑到对象之间的相互影响(即对象之间的关联关系、以及样本对象的标注标签),采用在对象之间进行标签传播的方式,实现对对象的标签的更新,直至在满足预设条件时,基于标签传播的结果,得到每个对象最终更新后的标签,将该标签作为样本对象的第二标签,由于该标签是在已知对象的标注标签的前提下,融合了不同对象之间的标签传播影响的情况下的更新标签,因此,可以基于这些样本对象的标注标签和第二标签,在已经预测得到待识别对象的第一标签(可以理解为待识别对象的初步的标注标签)的情况下,基于待识别对象和这些样本对象之间的关联关系,进行对象之间的标签传播,进一步确定出待识别对象的第二标签。其中,对于每次标签传播的具体操作,可以参考前文中的对应描述,在此不再说明。
本申请的可选实施例中,在每进行一次标签传播后,该方法还包括:
获取新增数据,新增数据包括带有标注标签的至少一个样本对象的对象相关数据;
将新增数据中的每个样本对象作为新增的第一样本对象,基于新增数据更新第二训练数据集;
根据更新后的第二训练数据集中每个第一样本对象的对象相关数据,确定更新后的第二训练数据集中各对象之间的第二关联关系,得到更新后的第二关联关系;
相应的,上述基于第二关联关系以及各第一样本对象的第三标签,通过在多个第一样本对象之间进行标签传播,得到每个第一样本对象更新后的第四标签,包括:
将每个新增的第一样本对象的标注标签作为该对象的第三标签,基于更新后的第二关联关系以及更新后的各第一样本对象的第三标签,通过在更新后的多个第一样本对象之间进行标签传播,得到更新后的每个第一样本对象的第四标签。
为了提升学习的泛化能力,在学习样本对象之间的标签传播影响时,可以在每进行一次标签传播之后,通过加入新的样本数据即新增数据来更新训练数据集,增加了样本数据的数量,融入了更多对象之间的关联关系,从而使学习得到的样本对象的风险标签的结果更具有通用性。
本申请的可选实施例中,上述新增数据中各样本对象的标注标签是通过以下方式获取到的:
获取至少一个未标注的对象的对象相关数据,至少一个样本对象包括至少一个未标注的对象;
对于至少一个未标注的对象中每个对象,基于该对象的对象相关数据,通过对象识别模型预测得到该对象的第一标签,将该对象的第一标签作为该对象的标注标签。
在实际应用中,对于新增数据,可以是由人工标注的样本对象的对象相关数据,可以是对象举报的风险对象的社交行为数据。考虑到人工成本及新增数据的数据量,本申请的该可选方案中,新增数据的标注标签可以是通过训练好的对象识别模型预测得到的第一标签,将该标签作为标注标签。
本申请的可选实施例中,该方法还可以包括:
根据多个第一样本对象的对象相关数据,确定多个第一样本对象中的相似对象对;
其中,满足预设条件包括损失函数的值满足设定条件;
损失函数包括第一损失函数和第二损失函数,对于每次标签传播,第一损失函数的值表征了各第一样本对象的标注标签和新的第三标签之间的差异,第二损失函数的值表征了各相似对象对的新的第三风险之间的差异。
该可选方案中,通过第一损失函数可以约束样本对象每次更新后的标签与其标注标签的差异尽量接近,通过第二损失函数可以约束相似样本对象之间的更新后的标签之间尽量相似,采用该方案,可以使得标签传播学习具有很好的准确性和泛化能力,更好的满足应用需求。可选的,在确定相似对象对时,可以根据对象的对象相关数据中特定类型的对象相关数据来确定两个对象是否相似,如两个对象的特定类型的对象相关数据之间的相似度大于设置值,则可以认为这两个对象为相似对象对。其中,特征类型具体是哪种或者哪几种本申请实施例不做限定,可以根据实际需求配置,比如可以是对象的转账数据。
本申请实施例提供的对象识别方法,提出了通过用户(即对象)标签建设与传播,构建出用户风险体系(用户识别体系),进而可以应用于提前识别欺诈风险,即可以识别出具有风险的用户以及用户的风险类型。
本申请提供的方法可以应用在移动支付领域,在该领域,现有技术中对商业欺诈和社交欺诈的风险识别往往被割裂开来,但通过大量的打击案例中发现,黑产的账号(即具有风险的用户/商户,可以称为风险用户)在商业欺诈与社交欺诈的链路中都扮演着不可忽视的角色。其中主要承担的任务包含但不限于社交引流,养号、引导交易、资金转移(也就是多种目标类型、对象的风险类型)等。基于本申请实施例提供的方法,可以分别从不同的场景下识别风险用户,然后利用标签传播算法进行风险用户的扩散,构建出用户风险体系,并将用户风险体系应用于欺诈风险的识别,为挖掘可疑黑产提供新路径。
为了更好的理解和说明本申请提供的方案,下面结合移动支付场景对本申请的一种具体可选实施方式进行说明。
为了便于理解,首先对非法产业涉及的多个环节进行介绍,在非法欺诈的整个过程中,往往需要依赖黑产账号(也可以称为非法账号/风险账号,也就是风险用户/商户的账号,代表风险用户)实现引流、养号、引导交易和资金转移等多个环节(每个环节对应一种目标类型),具体表现形式在不同环节有着如下不同的特点:
1)引流:如图2a所示,引流是非法产业寻找欺诈目标的主要手段。风险账号通常借助大型互联网平台发布多种多样的极具吸引力的信息即诱导消息,并将这些消息扩散给一般用户。一旦吸引到用户询问详细信息,则开始采用设计好的骗局和话术实施诈骗。此类账号往往专用于“钓鱼”,一旦诈骗成功即注销账号,因此其社交信息(即账号对应的对象相关数据)与正常的社交账号具有显著差异。
2)养号:如图2b所示,养号行为往往发生在风险商户注册初期,为了营造出商户经营状况良好的假象,或为后期资金转移预留资金,又或是避开风控的监管,非法产业往往会预先在商户上进行多笔支付。这些交易往往由单一账号完成,少笔大额或小额多笔,交易凭证均不可查,有些场景中这些交易也可能是由多个账号完成,即多人养号。
3)引导交易:如图2c所示,引导交易的行为往往发生在某些特定的场景中,黑产在引导用户支付的同时会一同进行向风险商户支付,隐藏在正常用户之中,但交易频率和金额均高于一般用户,即风险账号会通过参与到交易(引导交易)中的方式,引导一般用户也进行交易(被骗交易)。
4)资金转移:包括洗钱(是一种将非法所得合法化的行为)如图2d所示,由于非法产业往往同时运营多个商户,因而提现的资金将同时流入到其他风险商户或其他风险账号手中;而当风险商户被处罚,非法产业为了保证资金不被冻结,可能将养号环节预留的资金通过退款的形式进行回收,如图2d中所示,一个风险商户通过退款的形式将资金退回到对应的账号(图中所示的风险账号)中,这些账号可以通过转账给其他账号/商户进行资金转移(图中的省略号和箭头标识账号/商户还可以进一步转移资金),实现非法所得的转移。
下面结合上述所列举的包括多个环节的欺诈场景,对本申请实施例提供的方法进行说明。
图3示出了本申请实施例所适用的一种对象识别***的结构示意图,图4示出了该场景下的对象识别方法的实施流程示意图。如图3所示,该***可以包括服务器10和多个终端设备(图中仅示出了终端设备21和终端设备22),终端设备可以通过网络与服务器10通信,服务器10侧的样本对象库11中存储有大量带有标注标签的第一样本对象的对象相关数据,也就是样本用户的对象相关数据,也就是说样本对象库11中存储有参考数据集。终端设备21和终端设备22可以是待识别对象A和待识别对象B的终端设备。可选的,服务器10可以是具有移动支付功能和用户间交互功能的应用程序的应用服务器,终端设备的用户即对象可以通过该应用程序进行交互,比如相互发送信息、加好友等等,还可以通过应用程序进行交易、进行移动支付。服务器10在用户授权的情况下,可以获取到用户的用户相关信息,通过执行本申请实施例提供的方法,实现对用户的风险识别。
如图4中所示,该方法的可选实施流程可以包括如下步骤S1至步骤S5。
步骤S1:基于训练数据集训练得到对象识别模型。
如图2a至图2d所示,黑产在整个生命周期中都有风险账号(代表了黑产用户即风险用户)贯穿其中。而在不同场景下,风险账号表现出不同的特征。为了保证不同类型的黑产用户在模型学习过程中不会相互干扰,导致判别失误,本申请实施例中,可以根据风险账号的不同类型(也就是不同的对象类型),分别进行模型训练。其中,模型的训练可以是由服务器10完成,也可以是由其他电子设备完成,服务器10通过调用训练好的对象识别模型进行对象的风险类型预测。该实施例中以通过训练设备30执行模型的训练步骤为例进行说明。
在本方案中借助半监督学习进行模型训练,具体实现操作流程如下:
1.模型分组:也就是对象的类型划分,即将风险账号划分为多种风险类型的风险账号,首先根据非法产业的生命周期,对不同类型的风险用户(也就是风险账号)进行分组。例如,负责资金转移的风险账号需要在资金的流入与流出实现闭环,因此,与养号的风险账号特征有所相似,但在不同的时间窗口具有行为差异,即养号的风险账号通常出现在前期。因此可以借助时间窗口,将两类风险用户进行区分,进行模型训练。类似的,引流类型的风险账号、引导支付的风险账号也分别进行模型训练,当然,在模型训练时训练数据集中还包括非风险账号,也就是非目标类型的用户。
该步骤可以由人工完成或者根据设定的划分规则由电子设备完成。通过该步骤,可以按照不同类型的账号的特征不同,将账号按照风险类型进行分组,并进行标记,以基于标记好的这些账号的对象相关数据对进行分类模型进行训练,得到对象识别模型。
2.样本获取:即第二训练数据集(图3中所示的训练数据集12)的构建
该步骤使用已经标记风险类型(即带有标注标签)的风险账号和正常账号(即没有风险的账号,也就是没有风险的样本对象),作为模型学习的目标。将这些账号(即第二样本对象)的对象相关数据(也就是该账号与其他账号的交互信息,如社交信息、支付行为信息等)作为模型识别的特征变量。
例如,支付行为信息指的是与支付/交易有关的交互信息,可以包括该账户向其他账户付款,也可以包括其他账号向该账号付款等。社交信息则是除支付行为信息之外的交互信息,比如,该账号的好友信息/好友度、活跃度等。
在实际场景中,风险账号基本通过聊天、发布虚拟信息等方式来诱导用户进行交易,风险账号的对象相关数据与正常的社交账号的对象相关数据会有显著差异,而不同类型的风险账号的对象相关数据之间也会表现出不同的特征,因此,可以通过已经标记的风险账号和正常账号的对象相关数据作为训练模型的样本数据,对模型进行训练。
其中,样本数据还可以包括多个未知风险类型的账号(对应前文中第三样本对象)的社交行为数据。
3.模型训练:即使用上述样本数据进行模型训练,在训练满足一定条件时,将该模型(即前文中的第一分类模型)用于对未知风险类型的账号进行标记,由此可以得到被标记的未知风险类型的账号,即伪标签。
训练时,模型的输入为账号的对象相关数据或者是经过预处理后的对象相关数据,模型的输出为预测得到的账号的风险类型,也就是第一标签。
4.模型检验:将伪标签与已标记的样本一同训练,当模型达到预期效果时,停止训练,得到对象识别模型。
图5中示出了本申请实施例提供的一种可选的模型训练方法的原理示意图,如图5中所示,标记样本即为带有标注标签的样本数据,即带有标注标签的风险账号的对象相关数据和正常账号(其标注标签表示没有风险)的对象相关数据,未标记样本表示上述未知风险类型的风险账号的对象相关数据,机器学习模型即为要训练的对象识别模型,由图中可以看出,标记样本包括多种风险类型(图中所示的类别1、类别2、…)的样本数据。
在对模型训练时,首先采用标记样本进行重复训练,直至满足第一训练结束条件(比如,预设的一个或多个训练指标满足一定条件),得到第一分类模型,之后,通过该模型对未标记样本进行标签预测,具体的,可以将未标记样本的对象相关数据输入至模型中,得到预测的第一标签,将该标签作为未标记样本的伪标签,得到伪标签样本。之后,基于已标记的样本数据和这些带有伪标签的样本数据对模型继续进行迭代训练,直至模型的效果达到预期,比如模型的损失函数收敛,得到训练好的对象识别模型。
步骤S2:基于标签传播构建参考数据集。
同样的,该步骤可以由服务器10执行,也可以由其他电子设备执行,将构建的参考数据集提供给服务器10使用。该实施例中以参考数据集的构建同样由训练设备30完成为例。
通过半监督学习(即风险识别模型)进行用户识别的方式有助于解决发现用户风险的时效性问题。但在用户风险标签识别的过程中,为了保障模型训练的准确性,不同类型的风险用户是彼此分离进行标注的,这会限制对风险用户体系的扩展。此外,黑产在使用非法账号进行运营的过程中,行为特征也会不断变异。因此,仅借助模型进行用户风险识别的方法,不利于用户风险体系的长期运营。基于此,该步骤中可以基于知识图谱的信息传递性,使得用户风险标签进行扩散。
在前文中描述了风险账号在整个黑产作恶的生命周期中扮演不同角色,而基于用户社交、支付行为等特征的不同,可以借助半监督学习对不同类型的用户进行标记。对于已标记的用户,即带有标注标签的用户,可以基于用户间的关联关系,如实体关联、资金流动(如转账、发红包等)将用户的风险标签传播出去。
如图6所示的示意图中,图中每个节点代表一个用户,该图中示出了第一目标类型的用户(如养号类的风险用户)、第二目标类型的用户(如引流类的风险用户)和第三目标类型的用户(如引导交易类的风险用户)这三种已知风险类型的用户,以及一些未知风险类型的用户(未知用户),用户之间有可能会存在关联(可以根据用户的社交行为数据确定关联关系),而具有关联关系的用户之间的风险标签是可以传递的,如图中所示,已知风险类型的用户的风险标签会将其风险标签传递给与其具有关联的未知用户,已知风险类型的具有关联关系的用户之间也会产生标签传递。
图7a至图7c示意性的示出了几种风险标签传播的示例,其中,图7a为单向风险标签传播的示例,A目标类型的用户(如养号类风险用户)与未知用户之间如果发生过资金转移(如转账交易),该风险用户的风险标签(A目标类型标签,如养号标签)会传递该未知用户。图7b为多类型风险标签环形传播的示例,A目标类型的用户与B目标类型的用户(如资金转移类的风险用户)如果进行过资金转移,二者的风险标签会相互进行传递。与此同时,二者也有可能与未知用户之间发生标签传递。这种情况下很可能出现标签传导的闭环,即无穷无尽的传播,此时基于损失函数跳出循环。图7c为多源风险标签传播的示例,一个未知用户的风险标签可能通过不仅一条路径获取,不同风险类型的风险用户(图中所示的A目标类型的用户和B目标类型的用户)可能都与同一个未知用户发生关联,这些风险用户的标签信息也都将传递给未知用户。
可见,具有关联关系的用户之间的标签都是可以通过标签传播相互影响的。因此,为了更加全面、准确的评估一个用户的风险结果,需要考虑这些因素。
标签传播可以通过多轮迭代的方式,按照用户间的关联关系进行标签传播。其中,关联关系可划分为多种类型的关联关系,比如,可以将对象的关联关系划分红包关联关系、转账关联关系和实体关联关系三种类型,红包关联关系和转账关联关系都是按照资金的流动进行的划分,如果两个用户(即账号)之间进行过红包的发送或接收行为,则认为两者之间具有红包关联关系,如果两个用户(即账号)之间进行过转账(包括支付转账或其他转账方式),则认为两者之间具有转账关联关系。实体关联则是如果两个用户都与同一实体(如都使用过同一个联系方式)具有关联,则认为两个之间具有实体关联。
可以理解的是,上述关联关系的说明只是示例,在实际应用中,不同的应用场景中可以根据需求配置不同的划分方式。
标签传播算法的实现流程如下:
初始化:y=f(0),ln(f)=Loss(0)(初始化时的损失函数)
当Loss减少:
标签传播:由第n-1轮的传播结果f(n-1)和用户关联关系R,得到第n轮的传播结果f(n)
结果汇总:基于第n轮的传播结果f(n)汇总成p(n)
损失计算:基于结果集p(n)计算Loss(n)
输出:当Loss最小时的结果p
其中,f(0)表示初始化阶段各第一样本对象的标注标签,f(n)表示经过n轮标签传播得到的各第一样本对象更新后的标签,用户关联关系R即为前文中的第二关联关系,结果汇总则是指对于每个样本对象,通过融合与该对象具有关联关系的各对象的更新后的标签得到该对象对应的融合后的风险标签p(n)的步骤,在下一轮标签传播时,则是基于每个样本对象对应的融合后的标签和样本对象间的关联关系进行,直至损失函数满足设定条件,如达到最小,也就是损失函数的值不再减小时,完成迭代,将损失函数的值最小时所对应的各样本对象的融合后的标签作为各样本对象的第二标签。
下面结合具体实施流程详细介绍标签算法的具体实现方式,上述提及到的各个参数的含义也会在下面进行解释:
1.标签传播算法中用于判断多轮迭代是否结束的损失函数可以表示如下:
损失函数中各个参数的具体含义如下:
1)集合I表示所有已标注标签用户的集合,也就是第一样本对象的数量,S表示集合I中所有相似用户的集合,也就是相似对象对的集合。
yi是第i个用户/账号的标注标签;是通过标签传播算法预测得到的第i个用户的预测标签(即上述融合后的标签)。假设对象类型即风险类型共4个类型,yi和/>都可以是一个一维向量,向量共有4个元素值,yi中用户的标签对应的元素值的值为1,其他3个值都是0,/>则是4个概率值,分别代表用户当前次标签传播后用户属于各个风险类型的概率。/>
2)σi表示第i个风险标签的重要性程度,即第i个已标注标签用户的重要程度。用户的重要程度可以根据其用户相关数据确定,具体计算方式不做限定。例如在资金转移过程中,当风险用户转移资金的额度更大时,可以认为该风险信息的有效性更强,该用户的重要程度则较大。
wa,b表示两个用户a,b(任一相似对象对)之间的相似性,可选的,可以采用资金关联账号重合度来表示:也就是资金往来账号的交集数(这两个用户之间的资金往来次数)/资金往来账号的并集数(这两个用户与所有用户之间进行过资金往来的总次数),即优先关注资金往来账号重合度高的用户关系对。也就是当两个用户往来的账号重合度越高时,则两个用户的风险类型大概率相同。
3)表示第n轮标签传播,账号i的预测用户向量(即预测标签)与该账号标注标签的余弦距离;/>则表示第n轮标签传播,账号a,b的预测用户向量之间的余弦距离。其中,/>表示用户i的预测用户向量,/>分别表示用户a和用户b在第n轮的预测用户向量(也就是下一次传播时用户的第二标签)。
2.标签传播的表达式可以表示为:
该表达式中各个参数的含义如下:
1)集合R表示用户间关联关系的集合,例如R={红包、转账、实体},关联关系的类型有这三种类型,r表示其中一种关联类型;
2)αr表示关联类型r的影响因子(也就是每种类型的关联关系的权重)。由于不同关联类型的影响程度是不同的,拥有实体关联的用户量少,红包与转账则在资金限制额度上有较大的差异,影响因子则用于调节不同关联类型的组合权重。每种关联类型的影响因子的取值可以根据需求或者经验设置。比如,实体关联类型的因子取值较大,转账关联的因子可以大于红包关联的因子。
3)Pr表示关联类型r的影响力矩阵(也就是对象对应于每种类型的关联关系的影响力),一个向30个以上账户转账的用户与一个向2个账户转账的用户显然具有显著的影响力差异。通过影响力矩阵刻画用户的影响力权重,例如,将用户关联的账号数标准化,从而得到该用户的影响力权重。
假设集合I中共有N个用户,Pr则可以表示为一个具有N个元素值的向量,比如该向量的行数N,列数为1,每一行的元素值代表一个用户对应于该中类型的关联关系的影响力大小,也就是在对应类型的社交行为中该用户的影响力。
4)Qr表示标签传播的路径。
假设用户关系网络即集合I中有N个节点,则矩阵Qr有N×N维。若账号i向10个账户进行了转账,则Qr中对应账号i行的10个转账账户列的值均为0.1,其他列均为0,值为0的元素对应的账号表示该账号与账号i没有关联关系,值为非0的元素对应的账号表示该账号与账号i有关联关系,且元素的取值表征了关联性的大小,也就是计算时所使用的代表关联关系的数值。
如果关联类型r是实体关联,假设账号i和5个账号有实体关联,对应的取值作为0.2,其他均为0。
5)f(n)表示第n轮标签传播结果,第n+1轮的结果通过第n轮结果的传播以及标记用户标签的加入,也就是新增数据的加入。
比如,在一次标签传播时,集合I中的用户数量为N,在得到该次传播的传播结果之后,如果新增的样本对象的数量为M,则下一轮标签传播时集合I中的用户数量则为N+M。
6)Wy表示风险类型的权重(也就是各个风险类型的样本对象在集合I中的数量占比),由于不同风险类型下的账号量级有所差异,因此需要借助权重进行标准化处理。y表示已标注用户矩阵,也就是集合I中每个样本对象的标注标签。
也就是说,可以根据每种风险类型的带标签的用户数量,为不同风险类型计算一个归一化的权重,比如,共4种风险类型,每种风险类型的带标注标签的用户数量分为a1、a2,a3、a4,则第i种风险类型的权重可以表示为:
ai/(a1+a2+a3+a4)。
Y也就是集合I中所有用户的标注标签矩阵,假设第一轮标签传播时共有N个带标注标签的用户,共有4种风险类型,则该矩阵可以是一个N行4列的矩阵,每一行为一个用户的标注标签,每一行的元素值有1个取值是1,其他3个为0,取值为1元素值对应的风险类型即是该样本对象的真实对象类型。假设第2轮标签传播时带标注标签的用户为N+m,则Y可以是一个N+m行4列的矩阵。
基于上述标签传播公式,可以通过多轮迭代,对集合I中各用户的标签不断进行更新。
假设经过n轮的标签传播,得到传播结果f(n)。对于集合I中一个账号x,通过n轮与其所有关联账户A的标签传播后,其对应的结果向量(预测标签)可以表示如下:
其中,σ表示标准化函数,如可以选用softmax函数,a表示与用户x具有关联关系的一个用户。由该表达式可以看出,可以通过将与用户x具有关联关系的所有用户的更新后的标签融合并进行归一化处理,得到用户x的第二风险标签。一个用户的所有关联账户即关联用户,为矩阵Qr中该用户对应的行中非零值对应的用户。
具体的,在迭代过程中,每一次迭代得到对应的结果f(n),假设共有N个标签用户,共4种风险类型,向量f(n)可以是一个N行4列(或者4行N列)的矩阵,第i行的4个值(可以简称为用户向量)分别表示第i个用户属于4种风险类型的概率。得到f(n)后,对于第i个用户,根据与其有关联的各个用户的用户向量进行求和然后标准化处理,得到第i个用户的预测向量,也就是计算此次迭代对应的损失函数要用的假设用户i有3个关联用户,则将这3个用户的用户向量叠加后在进行标准化处理。
通过不断的迭代更新,在Loss不再减少时得到的各个用户的用户向量作为这些已标注标签的用户的最终风险标签(即第二标签)。也就是后续应用于预测待识别对象的识别结果时参考数据集中样本对象的第二标签,假设最后一轮迭代共有标签用户5千个,最后会得到5千个用户的用户向量p(n),那这5千个用户的标注标签、第二标签、以及对象相关数据则可以作为参考数据集。
步骤S3:服务器10获取待识别用户的对象相关数据即用户相关数据。
步骤S4:服务器10调用对象识别模型预测待识别用户的第一标签。
具体的,将每个待识别用户的对象相关数据输入至对象用户识别模型,通过模型预测得到每个待识别用户的初始风险标签即第一标签,也就是通过模型初步判断出的该用户属于哪一种风险类型的用户。
步骤S5:服务器10基于参考数据集确定待识别用户的第二标签。
服务器10基于参考数据集和待识别用户的对象相关数据,预测每个待识别用户的最终风险标签即第二标签,根据最终风险标签确定待识别用户的识别结果。该步骤可以包括:
a.确定每个待识别用户与其他用户(包括其他待识别用户和样本对象)之间的多个类型的关联关系,包括但不限于上述实体关联关系、红包关联关系、转账关联关系等。
b.根据下述标签传播公式和步骤S32得到的每个待识别用户的第一风险标签,通过至少一次标签传播,得到每个待识别用户的第二标签:
作为一个示例,假设待识别用户的用户数量为M,样本用户的数量为N,在识别阶段,用户关系网络中的节点数量(即用户数量)则为M+N。
此时,对于标签传播公式中的上述各参数,αr表示关联类型r的影响因子,每种类型的关联关系对应的影响因子可以根据实际需求或实验值预先设置,可以与前文迭代阶段的αr相同。
对于影响力矩阵Pr,对于M+N个用户中的每个用户,可以根据该用户与其他用户之间的每种类型的关联关系,可以确定出该用户对应于每种类型的关联关系的影响因子(也就是影响力或影响力权重)。同样的,可以根据每个用户与其他用户之间的关联关系,确定出该用户在标签传播中的传播路径Qr。
例如,以关系类型r为例,对于M+N个用户而言,可以得到影响力矩阵Pr,该矩阵中有M+N个值,表示这M+N个用户各自的影响力权重。Qr为(N+M)×(N+M)维的矩阵。
Wy是风险类型的权重,其取值与迭代阶段相同。应用阶段的Y则为N+M个用户的初始风险标签,对于待识别用户,初始风险标签是通过对象识别模型预测得到的第一标签,对于样本用户,则是该样本用户的标注标签。
根据上述标签传播公式,计算此时的f(n+1),f(n+1)是一个(N+M)×k的矩阵,k表示风险类型的类型数,如4种,如果是只进行一次标签传播,根据f(n+1),通过可以计算得到每个待识别用户的最终结果向量。也就是每个待识别用户的第二标签,该向量包括k个概率值,可以将其中最大概率值或者超过阈值的概率值对应的风险类型确定为待识别用户的风险类型。如果是进行多次标签传播,在进行第二次标签传播时,将第一次标签传播得到的各个用户(包括待识别用户和样本用户)的结果向量作为此次传播的f(n)的初始值,基于标签传播公式再次进行标签更新,重复该操作,直至传播次数到达设定次数(即预先设定的传播的最大次数),将最后一次得到的待识别用户的结果向量作为待识别用户的第二标签。
可以理解的是,在实际实施时,为了避免无限循环,在每进行一次标签传播计算该次传播对应的结果向量时,各个用户的结果向量应该是逐个计算的,逐个计算的顺序不做限定,但是对于一个用户,已经计算得到其对应的结果向量之后,不会再因为与其有关联关系的各个用户的结果向量再次变化而再次计算。
另外,在实际应用中,还可以不断收集各种类型的新的风险用户的社交行为数据,即可以不断的更新、扩充训练数据集12,定期或者在更新的数据量达到一定数目时,对风险识别模型再次进行更新训练,以进一步提升模型性能。同样的,对于样本对象库11中的数据也可以进行更新,以扩展样本用户的数据量。
本申请实施例提供的方法,首次基于非法产业的生命周期进行拆解,对不同类型的风险账号各自进行模型识别标注,再基于不同类型风险用户之间的关联,创新性地采用了基于用户关联关系的标签传播算法,实现用户风险标签的传播,完善了风险用户体系,基于该方法,不仅刻画出不同风险类型的用户画像,同时保证了风险用户标签的长期运维,可以更好地应用在风险用户的策略打击中,为提前识别风险用户提供了新思路。与现有技术中的方式相比,本申请实施例提供的方案至少具有以下好处:
1)可以提升风险用户发现的时效性。
对于非法产业进行欺诈行为的各个可能的阶段,任何一个阶段通过对风险用户的相似性分析即关联性分析,都可以实现对用户的风险识别,不必仅仅依赖于客诉等滞后的信息。由此可以借助不同风险类型下的用户在不同场景下进行欺诈交易的预先识别和策略打击,更好地适用于不同的欺诈场景和打击手段,可以提升策略识别欺诈行为的时效性和识别欺诈行为的准确性。
2)增加了用户风险标签的覆盖率。
基于用户之间关联图谱的标签传播算法,借助用户之间的信息关联进行风险标签传播,扩展风险用户的覆盖范围。通过用户风险标签的建设和传播,构建出的用户风险体系可以刻画出发生交易(如移动支付)的所有用户的风险属性,对于预先识别欺诈风险方面也有诸多应用。例如:
1.对于具有引流风险的风险用户,可以通过追踪用户的社交情况,提示其他用户与之交易可能出现的风险情况。比如,当该用户与新加好友发生大额交易时,可进行实时策略打击,阻止用户掉入欺诈陷阱。
2.对于具有养号风险的用户,可以通过用户的前期在商户上的支付行为,预先识别出有欺诈风险的商户。可对用户频繁交易的商户进行预先识别,在商户养号阶段识别出后期可能进行欺诈交易的商户,进行商户处罚。
3.对于具有资金转移、洗钱风险的用户,则可以监测用户资金流向,及时阻止非法的资金流动。比如该类用户进行大批量出资金行为时,可进行实时管控,避免将资金转移。
4、建立用户风险体系的过程中,可能会发现不具有任何属性的用户,其中不乏小号和僵尸号。这些可能是非法产业用于后期作恶的工具,可以为识别欺诈风险提供新的源数据。
例如,在利用标签传播算法预测得到一个账号的各个风险属性的概率/权重均为0,也就是该账号的结果向量中各个属性维度的值均为0,则可以认为该账号是小号/僵尸号,这样的账号的社交信息、支付行为信息等可以作为风险识别模型的新增样本,通过训练可以使模型不仅能够对各个类型的风险账号进行预测,还能够识别出小号/僵尸号等类型的账号。
基于与本申请实施例提供的方法相同的原理,本申请实施例还提供了一种对象识别装置,如图8所示,该对象识别装置100可以包括第一预测模块110、参考数据集获取模块120、第二预测模块130和识别结果确定模块140。
第一预测模块110,用于获取至少一个待识别对象的对象相关数据;对于每个待识别对象,基于该对象的对象相关数据通过对象识别模型预测得到该对象的第一标签,一个对象的第一标签表征了多种对象类型中该对象所属的对象类型;
参考数据集获取模块120,用于获取参考数据集,参考数据集中包括带有标注标签的多个第一样本对象的对象相关数据和第二标签,一个第一样本对象的标注标签表征了多种对象类型中该对象所属的真实对象类型,一个对象的第二标签表征了该对象属于多种对象类型中每种对象类型的概率;
第二预测模块430,用于根据每个待识别对象和每个第一样本对象的对象相关数据,确定至少一个待识别对象和多个第一样本对象中各对象之间的第一关联关系,根据每个待识别对象的第一标签、每个第一样本对象的标注标签和第二标签、以及第一关联关系,确定每个待识别对象的第二标签;
识别结果确定模块140,用于根据每个待识别对象的第二标签,确定每个待识别对象的识别结果。
可选的,第二预测模块具体可以用于:
将每个待识别对象的第一标签作为待识别对象的标注标签和初始的第二标签,根据每个待识别对象和第一样本对象的标注标签和第二标签,基于第一关联关系,在待识别对象和第一样本对象之间进行至少一次标签传播,得到每个待识别对象和第一样本对象更新后的标签;对于每个待识别对象,根据第一关联关系,将与该对象具有第一关联关系的各对象的更新后的标签进行融合,得到该对象的第二标签。
可选的,第二预测模块在进行每次标签传播时可以执行以下操作:
对于待识别对象和第一样本对象中的每个对象,根据第一关联关系,基于与该对象具有关联关系的各对象的第二标签,对该对象的第二标签进行更新;对于每个对象,通过融合该对象更新后的第二标签和该对象的标注标签,得到该对象更新后的标签,将该对象更新后的标签作为下一次标签传播时该对象的第二标签。
可选的,对象相关数据包括至少一种指定类型的对象相关数据,第一关联关系包括与每种指定类型的对象相关数据对应的一种类型的关联关系;相应的,第二预测模块可以用于:
获取每种类型的关联关系对应的权重;根据每个待识别对象的第一标签、每个第一样本对象的标注标签和第二标签、每种类型的关联关系、以及每种类型的关联关系对应的权重,确定每个待识别对象的第二标签。可选的,第二预测模块可以用于:对于至少一个待识别对象和多个第一样本对象中的每个对象,根据该对象的对象相关数据,确定该对象的影响力;根据每个待识别对象的第一标签、每个第一样本对象的标注标签和第二标签、每个待识别对象和第一样本对象的影响力、以及第一关联关系,确定每个待识别对象的第二标签。
可选的,对象相关数据包括至少一种指定类型的对象相关数据,第一关联关系包括与每种指定类型的对象相关数据分别对应的一种类型的关联关系,至少一个待识别对象和多个第一样本对象中的每个对象的影响力,包括每个对象对应于每种类型的关联关系的影响力。
可选的,第二预测模块可以用于:根据每个待识别对象的第一标签和每个第一样本对象的标注标签,确定在至少一个待识别对象和多个第一样本对象中每种对象类型的对象数量占比;将每种对象类型的对象数量占比作为权重,对至少一个待识别对象中相应对象类型的第一标签进行加权,对多个第一样本对象中相应对象类型的标注标签进行加权;根据每个待识别对象的加权后的第一标签、每个第一样本对象的加权后的标注标签和第二标签、以及第一关联关系,确定每个待识别对象的第二标签。
可选的,对象识别模型由模型训练模块通过执行以下操作得到:
获取第一训练数据集,第一训练数据集包括带有标注标签的多个第二样本对象的对象相关数据、以及多个未标记的第三样本对象的对象相关数据,多个第二样本对象包括真实对象类型是多种对象类型中每种类型的多个对象;
基于多个第二样本对象的对象相关数据,对初始分类模型进行训练,直至满足第一训练结束条件,得到第一分类模型;对于每个第三样本对象,基于该对象的对象相关数据,通过第一分类模型预测得到该对象的对象类型,根据该对象类型确定该对象的标注标签;基于多个第二样本对象的对象相关数据、以及带有标注标签的多个第三样本对象的对象相关数据,对第一分类模型继续训练,直至满足第二训练结束条件,得到对象识别模型。
可选的,参考数据集是由参考数据集获取模块通过以下方式获取到的:
获取第二训练数据集,第二训练数据集包括带有标注标签的多个第一样本对象的对象相关数据;根据每个第一样本对象的对象相关数据,确定第二训练数据集各对象之间的第二关联关系;将每个第一样本对象的标注标签作为该对象初始的第三标签,重复执行以下操作,直至多个第一样本对象更新后的第三标签满足预设条件,将满足预设条件时的每个第一样本对象的第三标签确定为该对象的第二标签:基于第二关联关系以及各第一样本对象的标注标签和第三标签,通过在多个第一样本对象之间进行标签传播,得到每个第一样本对象更新后的第四标签;对于每个第一样本对象,根据第二关联关系,通过融合与该对象具有关联关系的各第一样本对象的第四标签,得到该对象新的第三标签。
可选的,参考数据集获取模块在还可以用于:
每进行一次标签传播后,获取新增数据,新增数据包括带有标注标签的至少一个样本对象的对象相关数据;将新增数据中的每个样本对象作为新增的第一样本对象,基于新增数据更新第二训练数据集;根据更新后的第二训练数据集中每个第一样本对象的对象相关数据,确定更新后的第二训练数据集中各对象之间的第二关联关系,得到更新后的第二关联关系;
参考数据集获取模块在得到每个第一样本对象更新后的第四标签时,可以用于:
将每个新增的第一样本对象的标注标签作为该对象的第三标签,基于更新后的第二关联关系、以及更新后的各第一样本对象的标注标签和第三标签,通过在更新后的多个第一样本对象之间进行标签传播,得到更新后的每个第一样本对象的第四标签。
可选的,新增数据中各样本对象的标注标签是通过以下方式获取到的:
获取至少一个未标注的对象的对象相关数据,至少一个样本对象包括至少一个未标注的对象;对于至少一个未标注的对象中每个对象,基于该对象的对象相关数据,通过对象识别模型预测得到该对象的第一标签,将该对象的第一标签作为该对象的标注标签。
可选的,对于每次标签传播,参考数据集获取模块还用于:
根据多个第一样本对象的对象相关数据,确定多个第一样本对象中的相似对象对;其中,满足预设条件包括损失函数的值设定条件;
损失函数包括第一损失函数和第二损失函数,对于每次标签传播,第一损失函数的值表征了各第一样本对象的标注标签和新的第三标签之间的差异,第二损失函数的值表征了各相似对象对的新的第三标签之间的差异。
本申请实施例的装置可执行本申请实施例所提供的方法,其实现原理相类似,本申请各实施例的装置中的各模块所执行的动作是与本申请各实施例的方法中的步骤相对应的,对于装置的各模块的详细功能描述具体可以参见前文中所示的对应方法中的描述,此处不再赘述。
基于与本申请实施例提供的方法、装置相同的原理,本申请实施例还提供了一种电子设备,该电子设备可以包括存储器和处理器,其中,存储器中存储有计算机程序,处理器在运行该计算机程序时用于执行本申请任一可选实施例提供的方法,或者用于执行本申请任一可选实施例提供的装置所执行的动作。
作为一个可选实施例,图9中示出了本申请实施例的一种电子设备的结构示意图,如图9所示,该电子设备4000包括处理器4001和存储器4003。其中,处理器4001和存储器4003相连,如通过总线4002相连。可选地,电子设备4000还可以包括收发器4004,收发器4004可以用于该电子设备与其他电子设备之间的数据交互,如数据的发送和/或数据的接收等。需要说明的是,实际应用中收发器4004不限于一个,该电子设备4000的结构并不构成对本申请实施例的限定。
处理器4001可以是CPU(Central Processing Unit,中央处理器),通用处理器,DSP(Digital Signal Processor,数据信号处理器),ASIC(Application SpecificIntegrated Circuit,专用集成电路),FPGA(Field Programmable Gate Array,现场可编程门阵列)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器4001也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等。
总线4002可包括一通路,在上述组件之间传送信息。总线4002可以是PCI(Peripheral Component Interconnect,外设部件互连标准)总线或EISA(ExtendedIndustry Standard Architecture,扩展工业标准结构)总线等。总线4002可以分为地址总线、数据总线、控制总线等。为便于表示,图9中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
存储器4003可以是ROM(Read Only Memory,只读存储器)或可存储静态信息和指令的其他类型的静态存储设备,RAM(Random Access Memory,随机存取存储器)或者可存储信息和指令的其他类型的动态存储设备,也可以是EEPROM(Electrically ErasableProgrammable Read Only Memory,电可擦可编程只读存储器)、CD-ROM(Compact DiscRead Only Memory,只读光盘)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质、其他磁存储设备、或者能够用于携带或存储计算机程序并能够由计算机读取的任何其他介质,在此不做限定。
存储器4003用于存储执行本申请实施例的计算机程序,并由处理器4001来控制执行。处理器4001用于执行存储器4003中存储的计算机程序,以实现前述方法实施例所示的步骤。
本申请实施例提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时可实现前述方法实施例的步骤及相应内容。
本申请实施例还提供了一种计算机程序产品,包括计算机程序,计算机程序被处理器执行时可实现前述方法实施例的步骤及相应内容。
本申请实施例还提供了一种本计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述本申请任一可选实施例中提供的方法。
应该理解的是,虽然本申请实施例的流程图中通过箭头指示各个操作步骤,但是这些步骤的实施顺序并不受限于箭头所指示的顺序。除非本文中有明确的说明,否则在本申请实施例的一些实施场景中,各流程图中的实施步骤可以按照需求以其他的顺序执行。此外,各流程图中的部分或全部步骤基于实际的实施场景,可以包括多个子步骤或者多个阶段。这些子步骤或者阶段中的部分或全部可以在同一时刻被执行,这些子步骤或者阶段中的每个子步骤或者阶段也可以分别在不同的时刻被执行。在执行时刻不同的场景下,这些子步骤或者阶段的执行顺序可以根据需求灵活配置,本申请实施例对此不限制。
以上所述仅是本申请部分实施场景的可选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请的方案技术构思的前提下,采用基于本申请技术思想的其他类似实施手段,同样属于本申请实施例的保护范畴。
Claims (16)
1.一种对象识别方法,其特征在于,包括:
获取至少一个待识别对象的对象相关数据;
对于每个所述待识别对象,基于该对象的对象相关数据通过对象识别模型预测得到该对象的第一标签,一个对象的第一标签表征了多种对象类型中该对象所属的对象类型;
获取参考数据集,所述参考数据集中包括带有标注标签的多个第一样本对象的对象相关数据和第二标签,一个第一样本对象的标注标签表征了所述多种对象类型中该对象所属的真实对象类型,一个对象的第二标签表征了该对象属于所述多种对象类型中每种对象类型的概率;
根据每个所述待识别对象和每个所述第一样本对象的对象相关数据,确定所述至少一个待识别对象和所述多个第一样本对象中各对象之间的第一关联关系;
根据每个所述待识别对象的第一标签、每个所述第一样本对象的标注标签和第二标签、以及所述第一关联关系,确定每个所述待识别对象的第二标签;
对于每个所述待识别对象,根据该待识别对象的第二标签,确定出待识别对象的识别结果。
2.根据权利要求1所述的方法,其特征在于,所述根据每个所述待识别对象的第一标签、每个所述第一样本对象的标注标签和第二标签、以及所述第一关联关系,确定每个所述待识别对象的第二标签,包括:
将每个所述待识别对象的第一标签作为所述待识别对象的标注标签和初始的第二标签,根据每个所述待识别对象和所述第一样本对象的标注标签和第二标签,基于所述第一关联关系,在所述待识别对象和所述第一样本对象之间进行至少一次标签传播,得到每个所述待识别对象和所述第一样本对象更新后的标签;
对于每个所述待识别对象,根据所述第一关联关系,将与该对象具有第一关联关系的各对象的更新后的标签进行融合,得到该对象的第二标签。
3.根据权利要求2所述的方法,其特征在于,每次标签传播包括以下操作:
对于所述待识别对象和所述第一样本对象中的每个对象,根据所述第一关联关系,基于与该对象具有关联关系的各对象的第二标签,对该对象的第二标签进行更新;
对于所述每个对象,通过融合该对象更新后的第二标签和该对象的标注标签,得到该对象更新后的标签,将该对象更新后的标签作为下一次标签传播时该对象的第二标签。
4.根据权利要求1至3中任一项所述的方法,其特征在于,所述对象相关数据包括至少一种指定类型的对象相关数据,所述第一关联关系包括与每种指定类型的对象相关数据对应的一种类型的关联关系;
所述根据每个所述待识别对象的第一标签、每个所述第一样本对象的标注标签和第二标签、以及所述第一关联关系,确定每个所述待识别对象的第二标签,包括:
获取每种类型的关联关系对应的权重;
根据每个所述待识别对象的第一标签、每个所述第一样本对象的标注标签和第二标签、每种类型的关联关系、以及每种类型的关联关系对应的权重,确定每个所述待识别对象的第二标签。
5.根据权利要求1至3中任一项所述的方法,其特征在于,还包括:
对于所述至少一个待识别对象和所述多个第一样本对象中的每个对象,根据该对象的对象相关数据,确定该对象的影响力;
所述根据每个所述待识别对象的第一标签、每个所述第一样本对象的标注标签和第二标签、以及所述第一关联关系,确定每个所述待识别对象的第二标签,包括:
根据每个所述待识别对象的第一标签、每个所述第一样本对象的标注标签和第二标签、每个所述待识别对象和所述第一样本对象的影响力、以及所述第一关联关系,确定每个所述待识别对象的第二标签。
6.根据权利要求5所述的方法,其特征在于,所述对象相关数据包括至少一种指定类型的对象相关数据,所述第一关联关系包括与每种所述指定类型的对象相关数据分别对应的一种类型的关联关系,所述至少一个待识别对象和所述多个第一样本对象中的每个对象的影响力,包括每个对象对应于每种类型的关联关系的影响力。
7.根据权利要求1至3中任一项所述的方法,其特征在于,还包括:
根据每个所述待识别对象的第一标签和每个所述第一样本对象的标注标签,确定在所述至少一个待识别对象和所述多个第一样本对象中每种对象类型的对象数量占比;
所述根据每个所述待识别对象的第一标签、每个所述第一样本对象的标注标签和第二标签、以及所述第一关联关系,确定每个所述待识别对象的第二标签,包括:
将每种对象类型的对象数量占比作为权重,对所述至少一个待识别对象中相应对象类型的第一标签进行加权,对所述多个第一样本对象中相应对象类型的标注标签进行加权;
根据每个所述待识别对象的加权后的第一标签、每个所述第一样本对象的加权后的标注标签和第二标签、以及所述第一关联关系,确定每个所述待识别对象的第二标签。
8.根据权利要求1所述的方法,其特征在于,所述对象识别模型是通过以下方式训练得到的:
获取所述第一训练数据集,所述第一训练数据集包括带有标注标签的多个第二样本对象的对象相关数据、以及多个未标记的第三样本对象的对象相关数据,所述多个第二样本对象包括真实对象类型是所述多种对象类型中每种类型的多个对象;
基于所述多个第二样本对象的对象相关数据,对初始分类模型进行训练,直至满足第一训练结束条件,得到第一分类模型;
对于每个所述第三样本对象,基于该对象的对象相关数据,通过所述第一分类模型预测得到该对象的对象类型,根据该对象类型确定该对象的标注标签;
基于所述多个第二样本对象的对象相关数据、以及带有标注标签的多个第三样本对象的对象相关数据,对所述第一分类模型继续训练,直至满足第二训练结束条件,得到所述对象识别模型。
9.根据权利要求1所述的方法,其特征在于,所述参考数据集是通过以下方式获取到的:
获取第二训练数据集,所述第二训练数据集包括带有标注标签的多个第一样本对象的对象相关数据;
根据每个所述第一样本对象的对象相关数据,确定所述第二训练数据集各对象之间的第二关联关系;
将每个所述第一样本对象的标注标签作为该对象初始的第三标签,重复执行以下操作,直至所述多个第一样本对象更新后的第三标签满足预设条件,将满足所述预设条件时的每个所述第一样本对象的第三标签确定为该对象的第二标签:
基于所述第二关联关系以及各所述第一样本对象的标注标签和第三标签,通过在所述多个第一样本对象之间进行标签传播,得到每个第一样本对象更新后的第四标签;对于每个所述第一样本对象,根据所述第二关联关系,通过融合与该对象具有关联关系的各第一样本对象的第四标签,得到该对象新的第三标签。
10.根据权利要求9所述的方法,其特征在于,在每进行一次标签传播后,所述方法还包括:
获取新增数据,所述新增数据包括带有标注标签的至少一个样本对象的对象相关数据;
将所述新增数据中的每个样本对象作为新增的第一样本对象,基于所述新增数据更新所述第二训练数据集;
根据更新后的第二训练数据集中每个所述第一样本对象的对象相关数据,确定更新后的第二训练数据集中各对象之间的第二关联关系,得到更新后的第二关联关系;
所述基于所述第二关联关系以及各所述第一样本对象的标注标签和第三标签,通过在所述多个第一样本对象之间进行标签传播,得到每个第一样本对象更新后的第四标签,包括:
将每个新增的第一样本对象的标注标签作为该对象的第三标签,基于更新后的第二关联关系、以及更新后的各第一样本对象的标注标签和第三标签,通过在更新后的多个第一样本对象之间进行标签传播,得到更新后的每个第一样本对象的第四标签。
11.根据权利要求10所述的方法,其特征在于,所述新增数据中各样本对象的标注标签是通过以下方式获取到的:
获取至少一个未标注的对象的对象相关数据,所述至少一个样本对象包括所述至少一个未标注的对象;
对于所述至少一个未标注的对象中每个对象,基于该对象的对象相关数据,通过所述对象识别模型预测得到该对象的第一标签,将该对象的第一标签作为该对象的标注标签。
12.根据权利要求9所述的方法,其特征在于,所述方法还包括:
根据所述多个第一样本对象的对象相关数据,确定所述多个第一样本对象中的相似对象对;
其中,所述满足预设条件包括损失函数的值设定条件;
所述损失函数包括第一损失函数和第二损失函数,对于每次标签传播,所述第一损失函数的值表征了各所述第一样本对象的标注标签和新的第三标签之间的差异,所述第二损失函数的值表征了各所述相似对象对的新的第三标签之间的差异。
13.一种对象识别装置,其特征在于,包括:
第一预测模块,用于获取至少一个待识别对象的对象相关数据;对于每个所述待识别对象,基于该对象的对象相关数据通过对象识别模型预测得到该对象的第一标签,一个对象的第一标签表征了多种对象类型中该对象所属的对象类型;
参考数据集获取模块,用于获取参考数据集,所述参考数据集中包括带有标注标签的多个第一样本对象的对象相关数据和第二标签,一个第一样本对象的标注标签表征了所述多种对象类型中该对象所属的真实对象类型,一个对象的第二标签表征了该对象属于所述多种对象类型中每种对象类型的概率;
第二预测模块,用于根据每个所述待识别对象和每个所述第一样本对象的对象相关数据,确定所述至少一个待识别对象和所述多个第一样本对象中各对象之间的第一关联关系,根据每个所述待识别对象的第一标签、每个所述第一样本对象的标注标签和第二标签、以及所述第一关联关系,确定每个所述待识别对象的第二标签;
识别结果确定模块,用于根据每个所述待识别对象的第二标签,确定每个所述待识别对象的识别结果。
14.一种电子设备,包括存储器、处理器及存储在存储器上的计算机程序,其特征在于,所述处理器执行所述计算机程序以实现权利要求1-12中任一项所述方法的步骤。
15.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-12中任一项所述的方法的步骤。
16.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-12中任一项所述方法的步骤。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111109153.6A CN115859187A (zh) | 2021-09-22 | 2021-09-22 | 对象识别方法、装置、电子设备及存储介质 |
PCT/CN2022/114765 WO2023045691A1 (zh) | 2021-09-22 | 2022-08-25 | 对象识别方法、装置、电子设备及存储介质 |
US18/195,868 US20230281479A1 (en) | 2021-09-22 | 2023-05-10 | Object recognition method and apparatus, electronic device and storage medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111109153.6A CN115859187A (zh) | 2021-09-22 | 2021-09-22 | 对象识别方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115859187A true CN115859187A (zh) | 2023-03-28 |
Family
ID=85652151
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111109153.6A Pending CN115859187A (zh) | 2021-09-22 | 2021-09-22 | 对象识别方法、装置、电子设备及存储介质 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20230281479A1 (zh) |
CN (1) | CN115859187A (zh) |
WO (1) | WO2023045691A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116542673A (zh) * | 2023-07-05 | 2023-08-04 | 成都乐超人科技有限公司 | 应用于机器学习的欺诈行为识别方法及*** |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116467500B (zh) * | 2023-06-15 | 2023-11-03 | 阿里巴巴(中国)有限公司 | 数据关系识别、自动问答、查询语句生成方法 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111444334B (zh) * | 2019-01-16 | 2023-04-25 | 阿里巴巴集团控股有限公司 | 数据处理方法、文本识别方法、装置及计算机设备 |
US11126890B2 (en) * | 2019-04-18 | 2021-09-21 | Adobe Inc. | Robust training of large-scale object detectors with a noisy dataset |
CN112115957A (zh) * | 2019-06-21 | 2020-12-22 | 华为技术有限公司 | 数据流识别方法及装置、计算机存储介质 |
CN110688482B (zh) * | 2019-09-12 | 2022-07-12 | 新华三大数据技术有限公司 | 多标签识别方法、训练方法及装置 |
CN112818826A (zh) * | 2021-01-28 | 2021-05-18 | 北京市商汤科技开发有限公司 | 目标识别方法及装置、电子设备及存储介质 |
CN112989055B (zh) * | 2021-04-29 | 2021-08-13 | 腾讯科技(深圳)有限公司 | 文本识别方法、装置、计算机设备和存储介质 |
-
2021
- 2021-09-22 CN CN202111109153.6A patent/CN115859187A/zh active Pending
-
2022
- 2022-08-25 WO PCT/CN2022/114765 patent/WO2023045691A1/zh active Application Filing
-
2023
- 2023-05-10 US US18/195,868 patent/US20230281479A1/en active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116542673A (zh) * | 2023-07-05 | 2023-08-04 | 成都乐超人科技有限公司 | 应用于机器学习的欺诈行为识别方法及*** |
CN116542673B (zh) * | 2023-07-05 | 2023-09-08 | 成都乐超人科技有限公司 | 应用于机器学习的欺诈行为识别方法及*** |
Also Published As
Publication number | Publication date |
---|---|
WO2023045691A1 (zh) | 2023-03-30 |
US20230281479A1 (en) | 2023-09-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110009174B (zh) | 风险识别模型训练方法、装置及服务器 | |
CN109102393B (zh) | 训练和使用关系网络嵌入模型的方法及装置 | |
WO2021174966A1 (zh) | 训练风险识别模型的方法及装置 | |
WO2022121145A1 (zh) | 一种基于图分类的以太坊网络钓鱼诈骗检测方法及装置 | |
CN112700252B (zh) | 一种信息安全性检测方法、装置、电子设备和存储介质 | |
CN110188198A (zh) | 一种基于知识图谱的反欺诈方法及装置 | |
WO2023045691A1 (zh) | 对象识别方法、装置、电子设备及存储介质 | |
CN112785157B (zh) | 风险识别***的更新方法及装置、风险识别方法及装置 | |
CN111367965B (zh) | 目标对象确定方法、装置、电子设备及存储介质 | |
CN111652732A (zh) | 一种基于交易图匹配的比特币异常交易实体识别方法 | |
CN113657896A (zh) | 一种基于图神经网络的区块链交易拓扑图分析方法和装置 | |
CN114187112A (zh) | 账户风险模型的训练方法和风险用户群体的确定方法 | |
CN116823428A (zh) | 一种反欺诈检测方法、装置、设备及存储介质 | |
CN111951008A (zh) | 一种风险预测方法、装置、电子设备和可读存储介质 | |
CN111260372B (zh) | 资源转移用户群确定方法、装置、计算机设备和存储介质 | |
CN113935738A (zh) | 交易数据处理方法、装置、存储介质及设备 | |
CN112200644A (zh) | 欺诈用户识别方法、装置、计算机设备以及存储介质 | |
CN117216736A (zh) | 异常账号的识别方法、数据调度平台及图计算平台 | |
Zhai et al. | Parameter estimation method of mixture distribution for construction machinery | |
CN110570301B (zh) | 风险识别方法、装置、设备及介质 | |
CN116451050A (zh) | 异常行为识别模型训练、异常行为识别方法和装置 | |
CN115271939A (zh) | 资金链团伙识别方法及装置、计算设备、介质 | |
CN111598568B (zh) | 一种基于多交易客体多维信誉管理的异常交易识别方法 | |
CN109919767B (zh) | 交易风险管理方法、装置及设备 | |
CN115545189B (zh) | 训练图生成网络、训练图神经网络的方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40084175 Country of ref document: HK |