CN115511606A - 对象识别方法、装置、设备及存储介质 - Google Patents

对象识别方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN115511606A
CN115511606A CN202211261970.8A CN202211261970A CN115511606A CN 115511606 A CN115511606 A CN 115511606A CN 202211261970 A CN202211261970 A CN 202211261970A CN 115511606 A CN115511606 A CN 115511606A
Authority
CN
China
Prior art keywords
vector
type
node
feature
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211261970.8A
Other languages
English (en)
Inventor
谭丁武
李检全
李建峰
李毅
万磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
WeBank Co Ltd
Original Assignee
WeBank Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by WeBank Co Ltd filed Critical WeBank Co Ltd
Priority to CN202211261970.8A priority Critical patent/CN115511606A/zh
Publication of CN115511606A publication Critical patent/CN115511606A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Mathematical Analysis (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Algebra (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Animal Behavior & Ethology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Operations Research (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

本申请提供一种对象识别方法、装置、设备及存储介质,获取待识别对象的画像特征数据和关联关系以生成待识别对象的图谱结构,进而利用边类型的参数共享邻域信息融合机制对图谱结构学习得到的行为类型预测模型,确定出待识别对象的特征行为概率分布,再根据特征行为概率分布确定待识别对象是否为特征行为对象。采用边类型的参数共享邻域信息融合机制得到的行为类型预测模型适用于节点数较大的图谱,减少了模型构建所需的神经网络数量,减少模型计算量和规模,并避免梯度消失问题和梯度***问题,提高学习效率和预测效率。考量了邻域节点之间的分布差异,使得行为类型预测模型得到充分学习,准确、高效地识别具有特征行为风险的待识别对象。

Description

对象识别方法、装置、设备及存储介质
技术领域
本申请涉及金融科技(Fintech)技术领域,尤其涉及一种对象识别方法、装置、设备及存储介质。
背景技术
随着计算机技术以及互联网技术的快速发展,金融科技(Fintech)作为金融与科技深度融合的产物,目前正成为金融行业创新发展的热点。对于金融机构而言,识别例如企业对象是否具有特征行为风险比如欺诈等特征行为对于自身的安全等各方面至关重要。
对于企业对象是否具有特征行为风险的识别,通常基于知识图谱的深度学***方指数增长,从而导致模型计算量增加、训练效率变低,不适用于节点数较大的图谱。另外,过量的神经网络在进行T次迭代训练时由于节点数量较多,极易现梯度消失问题或梯度***问题,进而导致模型训练失败,降低训练及预测效率。
此外,在对现有的基于知识图谱构建的深度学习模型的使用过程中,发现不同类型边划分的子图无论是边还是节点数量都具有极大的方差,这种方差是由于边在节点上的分布不均衡造成。而现有的对节点进行排序进而以共享转移矩阵完成模型训练与迭代计算,会使得较多神经网络得不到训练,进而导致训练出的模型预测能力较差,预测结果不准确。
发明内容
本申请提供一种对象识别方法、装置、设备及存储介质,用于解决现有技术中基于图谱构建深度学习模型进行对象识别时模型训练效率低下、预测效率低下以及预测能力较差的技术问题。
第一方面,本申请提供一种对象识别方法,包括:
获取待识别对象的画像特征数据和关联关系,根据所述画像特征数据和所述关联关系生成所述待识别对象的图谱结构,所述待识别对象包括企业对象或者个体对象;
根据所述图谱结构和行为类型预测模型,得到所述待识别对象的特征行为概率分布,所述行为类型预测模型是采用边类型的参数共享邻域信息融合机制对所述图谱结构进行学习得到的;
根据所述特征行为概率分布确定所述待识别对象是否为特征行为对象,所述特征行为对象存在特征行为风险。
在一种可能的设计中,采用所述边类型的参数共享邻域信息融合机制对所述图谱结构学习以得到所述行为类型预测模型,包括:
根据所述图谱结构确定目标节点的目标特征数据,所述目标特征数据包括所述目标节点的各邻域节点通过不同类型的边传递的特征数据,所述目标节点为所述图谱结构中表征所述待识别对象的节点;
根据各不同类型的边传递的特征数据确定所述目标节点在目标迭代次数时的新增特征数据;
根据所述新增特征数据和所述目标节点在所述目标迭代次数前一次时的自身隐藏层向量得到节点向量,所述自身隐藏层向量用于表征所述目标节点在所述目标迭代次数的前一次自融合到的特征数据,所述节点向量用于表征所述行为类型预测模型。
在一种可能的设计中,所述根据所述图谱结构确定目标节点的目标特征数据,包括:
根据所述图谱结构确定所述目标节点的每种类型的边在所述目标迭代次数时的权重系数,所述权重系数用于表征所述目标节点与所述各邻域节点之间的相关性;
根据所述每种类型的边对应的权重系数以及权重参数网络模型确定所述不同类型的边传递的特征数据;
其中,权重参数网络模型包括第一特征映射函数和特征矩阵,所述第一特征映射函数与所述目标迭代次数相关且用于特征空间转换,所述特征矩阵与所述目标节点的边类型和所述目标迭代次数相关。
在一种可能的设计中,所述根据所述图谱结构确定所述目标节点的每种类型的边在所述目标迭代次数时的权重系数,包括:
根据所述图谱结构以及特征映射函数集群通过差异化融合处理得到所述目标节点的每种类型的边对应的权重系数;
其中,所述目标节点的同种类型的边对应的权重系数之和为1,所述特征映射函数集群包括所述每种类型的边对应的第二特征映射函数的集合;
在一种可能的设计中,所述根据所述图谱结构以及特征映射函数集合通过差异化融合处理得到所述目标节点的每种类型的边对应的权重系数,包括:
针对所述目标节点的每种类型的边,根据所述目标节点和所述各邻域节点各自在所述目标迭代次数的前一次对应的节点向量,以及所述目标节点的当前类型的边对应的第二特征映射函数的集合,进行矩阵乘法运算,得到矩阵乘法运算结果;
对所述矩阵乘法运算结果进行等比例缩放处理,得到缩放处理结果;
利用归一化指数函数对所述缩放处理结果进行归一化,得到所述目标节点的每种类型的边对应的权重系数。
在一种可能的设计中,所述根据所述每种类型的边对应的权重系数以及权重参数网络模型确定所述不同类型的边传递的特征数据,包括:
获取所述每种类型的边对应的权重系数、所述每种类型的边对应的邻域节点在所述目标迭代次数前一次的节点向量以及所述每种类型的边对应的权重参数网络模型之间的乘积,将得到的乘积确定为对应类型的边传递的特征数据。
在一种可能的设计中,所述根据各不同类型的边传递的特征数据确定所述目标节点在目标迭代次数时的新增特征数据,包括:
获取所述目标节点的各不同类型的边对应的特征向量之和,得到向量之和,每种类型的边对应的特征向量用于表征所述每种类型的边传递的特征数据;
对所述向量之和采用激活函数进行分段线性处理,得到线性结果向量;
获取线性映射矩阵与所述线性结果向量的乘积,利用得到的乘积向量表征所述目标节点在所述目标迭代次数时的新增特征数据。
在一种可能的设计中,所述根据所述新增特征数据和所述目标节点在所述目标迭代次数前一次时的自身隐藏层向量得到节点向量,包括:
将所述乘积向量和所述目标节点在所述目标迭代次数前一次时的自身隐藏层向量,输入至预设循环神经网络,将输出确定为所述节点向量。
在一种可能的设计中,根据所述图谱结构和行为类型预测模型,得到所述待识别对象的概率分布,包括:
将所述节点向量通过第三特征映射函数映射为类别概率分布向量;
将所述类别概率分布向量输入至二分类器,得到类别输出向量,所述类别输出向量用于表征所述待识别对象的特征行为概率分布。
在一种可能的设计中,所述根据所述特征行为概率分布确定所述待识别对象是否为特征行为对象,包括:
根据所述类别输出向量和预设类别矢量判断所述待识别对象是否为所述特征行为对象,所述预设类别矢量包括是所述特征行为对象的类别矢量和非所述特征行为对象的类别矢量。
在一种可能的设计中,获取所述待识别对象的关联关系,包括:
根据所述待识别对象的画像特征数据获取与所述待识别对象具有交易往来的关联对象;
根据所述交易往来对应的交易数据确定各关联对象与所述待识别对象之间的关系类别;
根据所述关系类别得到所述待识别对象的关联关系。
在一种可能的设计中,所述根据所述画像特征数据和所述关联关系生成所述待识别对象的图谱结构,包括:
将所述待识别对象设置为所述图谱结构的节点,根据所述待识别对象的关联关系设置所述图谱结构的边,以生成所述待识别对象的图谱结构。
在一种可能的设计中,在所述获取待识别对象的画像特征数据之后,还包括:
特征值化所述待识别对象的画像特征数据,将特征值化后的画像特征数据确定为所述图谱结构中所述目标节点的初始向量。
第二方面,本申请提供一种对象识别装置,包括:
第一处理模块,用于获取待识别对象的画像特征数据和关联关系,根据所述画像特征数据和所述关联关系生成所述待识别对象的图谱结构,所述待识别对象包括企业对象或者个体对象;
第二处理模块,用于根据所述图谱结构和行为类型预测模型,得到所述待识别对象的特征行为概率分布,所述行为类型预测模型是采用边类型的参数共享邻域信息融合机制对所述图谱结构进行学习得到的;
第三处理模块,用于根据所述特征行为概率分布确定所述待识别对象是否为特征行为对象,所述特征行为对象存在特征行为风险。
第三方面,本申请提供一种电子设备,包括:处理器,以及与所述处理器通信连接的存储器;
所述存储器存储计算机执行指令;
所述处理器执行所述存储器存储的计算机执行指令,以实现第一方面中所提供的任意一种可能的对象识别方法。
第四方面,本申请提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现第一方面中所提供的任意一种可能的对象识别方法。
第五方面,本申请提供一种计算机程序产品,包括计算机执行指令,所述计算机执行指令被处理器执行时用于实现第一方面中所提供的任意一种可能的对象识别方法。
本申请提供一种对象识别方法、装置、设备及存储介质,首先获取待识别对象的画像特征数据和关联关系,进而根据画像特征数据和关联关系生成待识别对象的图谱结构,然后根据图谱结构和行为类型预测模型,得到待识别对象的特征行为概率分布,其中,行为类型预测模型是采用边类型的参数共享邻域信息融合机制和图谱结构训练得到的。再根据特征行为概率分布确定待识别对象是否为特征行为对象。采用边类型的参数共享邻域信息融合机制构建行为类型预测模型,模型参数不会随着节点数的增加而指数增加,因而可适用于节点数较大的图谱,并减少了模型学习需要的神经网络数量从而可以有效减少模型计算量和规模,避免出现梯度消失问题和梯度***问题,提高学习效率和预测效率。此外,边类型的参数共享邻域信息融合机制通过差异化融合增加了邻域节点之间的分布差异,可以使得构建的行为类型预测模型得到充分学习,准确、高效地识别出具有特征行为风险的待识别对象。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种应用场景示意图;
图2为本申请实施例提供的一种对象识别方法的流程示意图;
图3为本申请实施例提供的另一种对象识别方法的流程示意图;
图4为本申请实施例提供的一种图谱结构的部分示意图;
图5为本申请实施例提供的再一种对象识别方法的流程示意图;
图6为本申请实施例提供的又一种对象识别方法的流程示意图;
图7为本申请实施例提供的又一种对象识别方法的流程示意图;
图8为本申请实施例提供的一种对象识别装置的结构示意图;
图9为本申请实施例提供的另一种对象识别装置的结构示意图;
图10为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的方法和装置的例子。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
对于企业对象或者个体对象等是否具有特征行为风险的识别,通常基于知识图谱的深度学***方指数增长,从而导致模型计算量增加、训练效率变低,不适用于节点数较大的图谱。另外,过量的神经网络在进行T次迭代训练时由于节点数量较多,极易现梯度消失问题或梯度***问题,进而导致模型训练失败,降低训练及预测效率。此外,在对现有的基于知识图谱构建的深度学习模型的使用过程中,发现不同类型边划分的子图无论是边还是节点数量都具有极大的方差,这种方差是由于边在节点上的分布不均衡造成。而现有的对节点进行排序进而以共享转移矩阵完成模型训练与迭代计算,会使得较多神经网络得不到训练,进而导致训练出的模型预测能力较差,预测结果不准确。
针对现有技术中存在的上述问题,本申请提供一种对象识别方法、装置、设备及存储介质。本申请提供的对象识别方法的发明构思在于:提出边类型的参数共享邻域信息融合机制构建行为类型预测模型,在计算邻域信息的传播时,区分不同类型的边,按照边的类型计算目标节点的各邻域节点上的信息传播也即所传递的特征数据,从而可以采用在边类型上参数共享的神经网络替代原有的边类型不同项参数的转移矩阵方式,使得模型参数不会随着节点数增加而指数增加,使得行为类型预测模型的构建方法适用于节点数较大的图谱,并且可以减少模型训练需要的神经网络数量从而可以有效减少模型计算量和训练规模,避免出现梯度消失问题和梯度***问题,提高训练效率和预测效率。此外,边类型的参数共享邻域信息融合机制通过不同类型的边的权重系数可以反馈出图谱的边在节点上分布不均衡的实际情况,从而可以充分考虑到邻域节点之间的分布差异性,使得训练得到的行为类型预测模型可以得到充分训练,从而可以有效提高对象识别能力的准确性。
以下,对本申请实施例的示例性应用场景进行介绍。
图1为本申请实施例提供的一种应用场景示意图,如图1所示,网络用于为第一电子设备100和第二电子设备200之间提供通信链路的介质,网络可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。第一电子设备100和第二电子设备200之间可以通过网络进行交互,以接收或发送消息。其中,第一电子设备100可以为能够获知待识别对象的画像特征数据和关联关系等数据的各种终端,该第一电子设备100可以被配置于待识别对象自身处,也可以被配置于第三方机构等等,对此本实施例不作限定。第二电子设备200可以部署在金融机构等处,并被配置为可以执行本申请实施例提供的对象识别方法,第二电子设备200从第一电子设备100中获取待识别对象的画像特征数据和关联关系,进而执行本申请实施例提供的对象识别方法,以对待识别对象是否为特征行为对象进行识别。
可选地,待识别对象可以包括各企业对象、组织团体或者个体对象等,特征行为对象则是指具有特征行为风险的企业对象、组织团体或者个体对象等,特征行为风险可以例如欺诈、诈骗风险等。
需要说明的是,本申请实施例对于上述描述的第一电子设备100的类型不作限定,例如第一电子设备100可以是计算机、智能手机、智能眼镜、智能手环、智能手表、平板电脑等等,图1中的第一电子设备100以计算机为例示出。而第二电子设备200可以为服务器、计算机、服务器集群等,图1中以服务器为例示出。
需要说明的是,上述应用场景仅仅是示意性的,本申请实施例提供的对象识别方法包括但不仅限于上述应用场景。
图2为本申请实施例提供的一种对象识别方法的流程示意图。如图2所示,本申请实施例提供的对象识别方法,包括:
S101:获取待识别对象的画像特征数据和关联关系,根据画像特征数据和关联关系生成待识别对象的图谱结构。
获取用于表征待识别对象独立属性的数据,例如待识别对象的画像特征数据,以及获取用于表征待识别对象与其他对象之间的隐藏联系的数据,例如待识别对象的关联关系。进而根据待识别对象的画像特征数据和关联关系构建待识别对象的图谱结构。
以待识别对象为企业对象为例,待识别对象的画像特征数据可以例如的行业类别、企业法人信息、企业注册地址、企业法人类别、企业技术编号等企业基本信息、企业注册年限长短、企业工商信息变更次数、企业法人信息变更次数等企业工商类别信息、企业贷款/存款余额、存款月积数等企业存款信息、半(全)年内转出次数、半(全)年内转出金额、半(全)年内转入次数、半年(全)内转出金额等转账信息以及企业黑名单、企业征信等征信信息等。待识别对象的画像特征的具体内容由待识别对象的类型决定,本申请实施例对此不作限定。
在一种可能的设计中,本步骤S101中获取待识别对象的关联关系可能的实现方式包括:
基于待识别对象的画像特征数据获取与待识别对象具有交易往来的关联对象,进而根据交易往来对应的交易数据确定出各关联对象与待识别对象之间的关系类别,再根据关系类别确定待识别对象的关联关系,一种关系类别对应一种关联关系。
例如,待识别对象以企业对象为例,所确定出的关系类别可以包括但不限于如下几种:
第一种,发生于企业间转账的上下游转账关系;第二种,发生在企业之间的共享重要干系人,例如,法人关系、担保人关系、干系人关系、干系人近亲关系等;第三种,双方贸易往来频率、金额、单笔金额、交易次数、交易时间范围、交易地点等贸易关系;第四种,企业之间互相控股的股权关系;第五种,例如注册地址、电话号码、紧急联系人、注册地址、银行账户、公司邮箱等共享的画像特征数据;第六种,具有相似客户群体关系的客户关系。
在一种可能的设计中,步骤S101中根据画像特征数据和关联关系生成待识别对象的图谱结构,包括:
将待识别对象设置为图谱结构的节点,根据待识别对象的关联关系设置图谱结构的边,也就是一种关系类型所表征的一种关联关系表示一条边,从而构建出待识别对象的图谱结构。其中,在获取到待识别对象的画像特征数据之后,还特征值化待识别对象的画像特征数据,进而将特征值化后的画像特征数据确定为图谱结构中目标节点的初始向量,可以表示为
Figure BDA0003891867440000091
也即目标节点还未开始进行目标迭代次数迭代时的特征表达式。v表示目标节点,也即图谱结构中表示待识别对象的节点。
需要说明的是,初始向量为1×M维,为了训练时的分类效果更好可以采用更加高维的特征空间,例如,目标节点的维度可以设置为300维。其中,每一维上的数值为特征值后的一个画像特征数据,若画像特征数据的数量小于初始向量的维度,该维度上的数值可以采用0占位。
S102:根据图谱结构和行为类型预测模型,得到待识别对象的特征行为概率分布。
其中,行为类型预测模型是采用边类型的参数共享邻域信息融合机制对图谱结构进行学习得到的。
在构建出待识别对象的图谱结构后,利用该图谱结构和边类型的参数共享邻域信息融合机制进行学习,得到行为类型预测模型,换言之,采用边类型的参数共享邻域信息融合机制和图谱结果通过训练以构建行为类型预测模型。因而,行为类型预测模型为待识别对象的特征表达。进而通过行为类型预测模型和二分类器获得待识别对象的特征行为概率分布,实现对待识别对象是否为特征行为对象进行预测。
其中,采用边类型的参数共享邻域信息融合机制对图谱结构学习得到行为类型预测模型的过程中,可以考量不同类型的边传递的特征数据,使得目标节点的各邻域信息可以进行差异化传播。另外,基于不同类型的边获得各邻域节点传递的特征数据,不同类型的边可以区分待识别对象不同的关联关系,而不同的关联关系在构建模型中就是不同的特征提取网络,相当于采用在边类型上参数共享的神经网络替代了现有技术中边类型不共享参数的转移矩阵的方式,从而使得模型构建过程中的模型参数不会随着节点数增加而指数增加,边类型上网络参数共享还可以减少模型构建过程需要的神经网络个数,从而减少了模型构建过程中的计算量和参数的训练规模,使得模型收敛速度更快,也可以避免梯度消失问题和梯度***问题,提高模型训练效率和预测效率。
在一种可能的设计中,本步骤S102中采用边类型的参数共享邻域信息融合机制对图谱结构学习以得到行为类型预测模型可能的实现方式如图3所示。图3为本申请实施例提供的另一种对象识别方法的流程示意图。如图3所示,本申请实施例包括:
S201:根据图谱结构确定目标节点的目标特征数据。
其中,目标特征数据包括目标节点的各邻域节点通过不同类型的边传递的特征数据,目标节点为图谱结构中表征待识别对象的节点。
基于图谱结构,获取图谱结构中目标节点的各邻域节点通过不同类型的边传递的特征数据,也即根据图谱结构确定目标节点的目标特征数据。
例如,图谱结构中目标节点v的邻域结构如图4所示,目标节点v有三个邻域节点分别为p、w和s,各节点之间具有关联关系:R1(v,p)、R1(v,s)和R5(v,w)、R5(v,s)。其中,R1(v,p)表示目标节点v所表征的待识别对象,和与待识别对象具有交易往来的关联对象p(以邻域节点表征)之间具有关系类别为R1的关联关系,以此类推R1(v,s)和R5(v,w)R5(v,s)
因而,本步骤基于图谱结果计算目标节点的各邻域节点{p,s,w}通过不同边类型例如{R1,R5}上传播的特征数据
Figure BDA0003891867440000111
Figure BDA0003891867440000112
也即目标节点的目标特征数据
Figure BDA0003891867440000113
Figure BDA0003891867440000114
其中,在构建模型的过程中会固定迭代多次,每次迭代叫做一个时刻t上的信息传播也即特征数据传递。经过多次迭代计算后,目标节点的特征表达式视为该目标节点学习到图谱结构后的节点向量。
S202:根据各不同类型的边传递的特征数据确定目标节点在目标迭代次数时的新增特征数据。
在得到目标节点的目标特征数据,也即得到目标节点的各不同类型的边传递的特征数据之后,基于各不同类型的边传递的特征数据确定出目标节点在目标迭代次数时的新增特征数据,也即在t时刻图谱结构通过传播所新增的信息,例如以
Figure BDA0003891867440000115
表示,也就是在时刻t时,目标节点v在由不同种类型的边(例如R1(v,p)、R1(v,s)和R5(v,w)、R5(v,s))的同构图组成的构图上新增的邻域信息汇总。换言之,本步骤是通过
Figure BDA0003891867440000116
Figure BDA0003891867440000117
计算
Figure BDA0003891867440000118
S203:根据新增特征数据和目标节点在目标迭代次数前一次时的自身隐藏层向量得到节点向量。
其中,自身隐藏层向量用于表征目标节点在目标迭代次数的前一次自融合到的特征数据,节点向量用于表征行为类型预测模型。
对于目标节点而言,在t时刻,目标节点隐藏层
Figure BDA0003891867440000119
的向量也即节点向量所要表达的特征数据来自于两部分,一部分为新增特征数据也即
Figure BDA00038918674400001110
另一部分来自于前一时刻(也即t-1)目标节点自身的隐藏层向量编码即
Figure BDA00038918674400001111
故而,本步骤是通过新增特征数据
Figure BDA00038918674400001112
和自身隐藏向量
Figure BDA00038918674400001113
计算t时刻下目标节点的隐藏层向量
Figure BDA00038918674400001114
也即节点向量。计算得到的节点向量表征行为类型预测模型。
本申请实施例提供的对象识别方法,首先获得各邻域节点通过不同类型的边传递的特征数据,进而据此获得目标节点的新增特征数据,再结合目标节点在目标迭代次数前一次时的自身隐藏向量得到用于表达行为类型预测模型的节点向量,完成对图谱结构的学习,获得预测待识别对象是否为特征行为对象的行为类型预测模型。
在得到行为类型预测模型的基础上,本步骤S102中根据图谱结构和行为类型预测模型,得到待识别对象的概率分布可能的实现方式包括:
首先将节点向量通过第三特征映射函数映射为类别概率分布向量,然后将类别概率分布向量输入至二分类器,得到类别输出向量,该类别输出向量则用于表征待识别对象的特征行为概率分布。
为了预测待识别对象是否为特征行为对象,可以使用分类器对待识别对象的特征表达进行分类。例如,采用如下所示公式(1)得到特征行为概率分布:
Figure BDA0003891867440000121
其中,
Figure BDA0003891867440000122
表示类别输出向量,sigmoid函数表示一个二分类器,
Figure BDA0003891867440000123
表示类别概率分布向量。
具体地,由于Sigmoid函数在概率q和概率(1-q)上的伯努利分布非常有效,其输出范围为(0,1),所以二分类器的实现采用Sigmoid函数。而为了使得节点向量
Figure BDA0003891867440000124
能够输入至二分类器,则需要将节点向量的维度进行特征映射,例如采用S′表征的第三特征映射函数将1×M的
Figure BDA0003891867440000125
向量映射成1×2的类别概率分布向量。
例如,通过第三特征映射函数进行映射的过程如下公式(2)所示:
Figure BDA0003891867440000126
其中,
Figure BDA0003891867440000127
其为M维的特征表达f;第三特征映射函数S′为M×2维的向量;
Figure BDA0003891867440000128
表示类别概率分布向量。
Sigmoid函数的计算如下公式(3)所示:
Figure BDA0003891867440000129
根据以上公式(1)至(3)即可得到如下所示公式(4):
Figure BDA00038918674400001210
类别输出向量表征的特征行为概率分布所表达的含义如下公式(5)所示:
Figure BDA0003891867440000131
需要说明的是,使用二分类器得到类别输出向量时采用的二分类器为训练后的二分类器,也即在将类别概率分布向量输入至二分类器之前,需采用训练样本对二分类器进行训练,使得训练后的二分类器能够对待识别对象进行为特征行为对象或非特征行为对象的识别。
可选地,采用如下公式(6)所示的损失函数训练二分类器:
Figure BDA0003891867440000132
其中,L表示损失函数,Dl表示样本对象,其包括特征行为样本对象和非特征行为样本对象,y′表示节点u表示的对象为特征行为对象的标签,
Figure BDA0003891867440000133
表示二分类器预测节点u表示的对象为特征行为对象的标签。
由公式(6)可见,将所有具有特征行为对象的节点的极大似然估计进行累加得到二分类器的损失值,利用该损失值进行二分类器的训练,并在训练时进行参数调整以拟合数据特征。其中损失函数是交叉熵函数。
S103:根据特征行为概率分布确定待识别对象是否为特征行为对象。
在得到待识别对象的行为概率分布之后,基于待识别对象的行为概率分布确定待识别对象是否为特征行为对象,其中,特征行为对象存在特征行为风险,从而识别出待识别对象是否存在特征行为风险。
例如,将表征特征行为概率分布的类别输出向量与预设类别矢量进行比较,判断出待识别对象是否为特征行为对象。预设类别矢量包括为特征行为对象的类别矢量以及非特征行为对象的类别矢量。
比如,为特征行为对象的类别矢量为[1,0],非特征行为对象的类别矢量为[0,1]。若类别输出向量为前者,则表示待识别对象被识别为特征行为对象,也即待识别对象存在特征行为风险。若类别输出向量为后者,则表示待识别对象被识别为非特征行为对象,也即待识别对象不存在特征行为风险。
可以理解的是,预设类别矢量是在对二分类器进行训练时通过语义标注得到的,其目的在于解释二分类器的输出语义。比如标注方式为:
若为特征行为对象,则类别为1,对应的类别矢量为[1,0];若非特征行为对象,则类别矢量为[0,1]。本申请实施例对于标注方式不作限定,可根据具体识别任务设置。
至此,可以通过本申请实施例提供的对象识别方法,对待识别对象是否为特征行为对象进行高效、准确地识别。表1中示出了分别采用现有技术和本申请实施例提供的对象识别方法构建行为类型预测模型的准确率以及对待识别对象的识别准确率。
表1
Figure BDA0003891867440000141
由表1可以看出,本申请实施例提供的对象识别方法的模型构建准确率和识别准确率均高于现有技术,对于识别准确率而言,两者差异明显,说明本申请实施例提供的对象识别方法中所构建的行为类型预测模型具有更强的泛化能力,具体是指行为类型预测模型得到了更加充分训练学习,而且行为类型预测模型在边类型上参数共享,充分的训练学习能够有效地调整模型参数,有助于提高预测能力。而有差异化的邻域融合方式,能够将不同邻域信息之间的区分度拉开,起到扩大邻域信息之间差异性的作用,从而提高了行为类型预测模型的泛化能力。
表2中示出了采用现有技术和本申请实施例提供的对象识别方法,在构建行为类型预测模型进行迭代计算时所消耗的计算资源和内存资源。
表2
Figure BDA0003891867440000142
从表2可以看出,现有技术的方案中因为大量冗余参数的存在,消耗了大量CPU资源,并且参数个数过多,导致需要大量内存资源用于存储变量和中间值。
本申请实施例提供的对象识别方法,首先获取待识别对象的画像特征数据和关联关系,进而根据画像特征数据和关联关系生成待识别对象的图谱结构,然后根据图谱结构和行为类型预测模型,得到待识别对象的特征行为概率分布,其中,行为类型预测模型是采用边类型的参数共享邻域信息融合机制和图谱结构训练得到的。再根据特征行为概率分布确定待识别对象是否为特征行为对象。采用边类型的参数共享邻域信息融合机制构建行为类型预测模型,模型参数不会随着节点数的增加而指数增加,因而可适用于节点数较大的图谱,并减少了模型训练需要的神经网络数量从而可以有效减少模型计算量和训练规模,避免出现梯度消失问题和梯度***问题,提高训练效率和预测效率。此外,边类型的参数共享邻域信息融合机制通过差异化融合增加了邻域节点之间的分布差异,可以使得构建的行为类型预测模型得到充分训练,准确、高效地识别出具有特征行为风险的待识别对象。
在一种可能的设计中,步骤S201可能的实现方式如图5所示。图5为本申请实施例提供的再一种对象识别方法的流程示意图。如图5所示,本申请实施例包括:
S301:根据图谱结构确定目标节点的每种类型的边在目标迭代次数时的权重系数。
其中,权重系数用于表征目标节点与各邻域节点之间的相关性。
基于图谱结构,确定目标节点的每种类型的边在目标迭代次数时的权重系数。以图4为例,即为基于图4所示的图结构,确定目标节点v的每种类型的边(R1(v,p)、R1(v,s)、R5(v,w)、R5(v,s))在目标迭代次数(t)时的权重系数
Figure BDA0003891867440000151
Figure BDA0003891867440000152
表示边类型为R1,邻域节点p与v在时刻t下的相关性,其他以此类推。
其中,用于表示相关性的权重系数与目标迭代次数也即固定迭代次数以及边类型相关,不同的边类型和目标迭代次数对应不同的权重系数。
在一种可能的设计中,本步骤S301可能的实现方式包括:
根据图谱结构以及特征映射函数集群通过差异化融合处理得到目标节点的每种类型的边对应的权重系数。也就是基于图谱结构通过特征映射函数集群进行差异融化处理,得到目标节点的每种类型的边对应的权重系数。
其中,特征映射函数集群包括每种类型的边对应的第二特征映射函数的集合,其作用在于进行特征维度转换,每个特征映射层都是一个神经网络,有着可训练的参数集合,其参数集合与目标迭代次数和边类型都相关,不同边具有不同的第二特征映射函数。
需要说明的是,进行特征维度转换具体是指将低维转换成高维。高维空间能够更好的将低维特征进行正交,正交化的特征之间相互独立,能够更好的体现特征的主成成分,从而使得数据特征之间的区分程度更大,这也就是差异化融合处理的实质所在。
另外,对于同一种类型的边而言,其所对应的权重系数之和为1,例如
Figure BDA0003891867440000161
Figure BDA0003891867440000162
之和为1,
Figure BDA0003891867440000163
Figure BDA0003891867440000164
之和为1。
在一种可能的设计中,根据图谱结构以及特征映射函数集群通过差异化融合处理得到目标节点的每种类型的边对应的权重系数,可能的实现方式包括有矩阵乘法运算、等比例缩放处理以及归一化,其实现步骤如图6所示。图6为本申请实施例提供的又一种对象识别方法的流程示意图。如图6所示,本申请实施例包括:
S401:针对目标节点的每种类型的边,根据目标节点和各邻域节点各自在目标迭代次数的前一次对应的节点向量,以及目标节点的当前类型的边对应的第二特征映射函数的集合,进行矩阵乘法运算,得到矩阵乘法运算结果;
S402:对矩阵乘法运算结果进行等比例缩放处理,得到缩放处理结果;
S403:利用归一化指数函数对缩放处理结果进行归一化,得到目标节点的每种类型的边对应的权重系数。
如上所描述,本申请实施例通过差异化融合处理得到目标节点的每种类型的边对应的权重系数,该差异化融合处理的实现方式包括有矩阵乘法运算、等比例缩放处理以及归一化。
差异化融合处理的实现方式如下公式(7)所示:
Figure BDA0003891867440000165
在公式(7)中,首先对目标节点(如v)和邻域节点(以o表示)通过矩阵乘法运算进行信息融合,hv和ho分别表示目标节点和目标节点的邻域节点的向量表达,均为隐藏层的向量,
Figure BDA0003891867440000166
表示转置。进而通过
Figure BDA0003891867440000167
进行等比例缩放处理,以防止前一步矩阵乘法的向量内积值过于大,导致归一化时softmax出现梯度消失或梯度***现象,也即通过比例缩放,将向量内积进行缩放。softmax归一化是输入向量指softmax函数后,保证得到的同一类型边的权重系数的值都会在(0,1)区间内,即S(v,o)∈(0,1)。
其中,在进行矩阵乘法运算时,需引入第二特征映射函数作为线性(特征)映射层进行特征维度转换。在引入第二特征映射函数的基础上,以图4所示的图谱为例,基于公式(7)得到R1(v,p)、R1(v,s)、R5(v,w)、R5(v,s)的权重系数
Figure BDA0003891867440000171
的过程分别如下公式(8)至(11)所示:
Figure BDA0003891867440000172
Figure BDA0003891867440000173
Figure BDA0003891867440000174
Figure BDA0003891867440000175
其中,Q、K、L表示第二特征映射函数,例如
Figure BDA0003891867440000176
以及
Figure BDA0003891867440000177
分别是边类型为R1的第二特征映射函数,统称为边类型为R1的第二特征映射函数的集合;
Figure BDA0003891867440000178
以及
Figure BDA0003891867440000179
分别是边类型为R5的第二特征映射函数,统称为边类型为R5的第二特征映射函数的集合。
Figure BDA00038918674400001710
Figure BDA00038918674400001711
是针对边类型R1而言目标节点的邻域节点(p和s)在目标迭代次数的前一次(t-1)对应的节点向量,
Figure BDA00038918674400001712
Figure BDA00038918674400001713
是针对边类型R5而言目标节点的邻域节点(w和s)在目标迭代次数的前一次(t-1)对应的节点向量。
Figure BDA00038918674400001714
是目标节点v在目标迭代次数的前一次(t-1)对应的节点向量。
以公式(8)为例,如下详细描述公式(8)的计算过程:
Figure BDA00038918674400001715
其中
Figure BDA0003891867440000181
得到的
Figure BDA0003891867440000182
为一个1×N的向量。
Figure BDA0003891867440000183
其中,
Figure BDA0003891867440000184
得到的
Figure BDA0003891867440000185
是一个N×1的向量。
假设
Figure BDA0003891867440000186
以及
Figure BDA0003891867440000187
Figure BDA0003891867440000188
Figure BDA0003891867440000189
由于权重系数
Figure BDA00038918674400001810
是一个实数,
Figure BDA00038918674400001811
是等比例缩放处理,实质为一个超参数,可以预先设置,例如设置为8,假设计算得到
Figure BDA00038918674400001812
如下公式(12)所示的0.88:
Figure BDA00038918674400001813
从而可以得到
Figure BDA00038918674400001814
同理,即可计算得到
Figure BDA00038918674400001815
Figure BDA00038918674400001816
需要说明的是,上述的各权重系数的值仅为一种假设,在实际工况中,向量计算呈为几百维度的向量计算。
值得说明的是,例如
Figure BDA00038918674400001817
则表示矩阵乘法运算结果,
Figure BDA00038918674400001818
表示缩放处理结果。
另外,第二特征映射函数中的L表示节点之间的依赖关系,用于表征高维空间中节点间相关性计算。例如二维空间中通常采用余弦距离表示相关性。但在多维空间为了满足坐标系正交的空间,需要使用L进行拟合,其与目标迭代次数以及相关,是一个N×N的权重向量。特征映射函数集群中的各第二特征映射函数的维度可以根据初始节点向量的维度以及特征维度转换目的进行设置,其内各元素的数值则由图谱结构中的实际数据决定。
至此,通过图6所示实施例即可得到目标节点的每种类型的边对应的权重系数。
本申请实施例提供的对象识别方法,通过差异化融合处理,例如矩阵乘法运算、等比例缩放处理以及归一化,得到目标节点的每种类型的边对应的权重系数。其中,在矩阵乘法运算时引入第二特征映射函数的集合进行特征维度转换,以将低维度转化为高纬度,使得正交化的特征相互独立,从而可以在后续计算中选择主成特征即可,无需计算全量特征,提高了计算准确性和效率,也就是采用在边类型上参数共享的神经网络替代了原有的边类型不共享参数的转移矩阵方式,使得模型参数不会随着节点数增加而指数增加,减少了需要使用的神经网络数量,从而减少了构建行为类型预测模型的计算量和参数规模。另外,通过等比例缩放处理,避免了梯度***和梯度消失的问题。
S302:根据每种类型的边对应的权重系数以及权重参数网络模型确定不同类型的边传递的特征数据。
在得到目标节点的每种类型的边对应的权重系数之后,进一步结合权重参数网络模型得到不同类型的边传递的特征数据。
例如,在得到
Figure BDA0003891867440000191
后,结合权重参数网络模型得到不同类型的边R1(v,p)、R1(v,s)和R5(v,w)、R5(v,s)所传递的特征数据
Figure BDA0003891867440000192
Figure BDA0003891867440000193
其中,权重参数网络模型包括第一特征映射函数和特征矩阵,该第一特征映射函数仅与目标迭代次数相关,也即第一特征映射函数是与目标迭代次数相关的神经网络函数,其与边类型无关,用于特征空间转换。而特征矩阵与目标节点的边类型和目标迭代次数均相关,用于转换同构图汇总时的信息维度,以将同构图的特征维度与汇总后的特征维度对齐。
假设第一映射函数为Vt,设置其维度为M×B,特征矩阵为
Figure BDA0003891867440000194
设置其维度为B×C。
在一种可能的设计中,步骤S302可能的实现方式包括:
获取每种类型的边对应的权重系数、每种类型的边对应的邻域节点在目标迭代次数前一次的节点向量以及每种类型的边对应的权重参数网络模型之间的乘积,进而将得到的乘积确定为对应类型的边传递的特征数据。其中,乘积以特征向量进行表示。
以图4为例,可以通过如下所示公式(13)至(16)分别计算得到R1(v,p)、R1(v,s)和R5(v,w)、R5(v,s)所传递的特征数据
Figure BDA0003891867440000201
Figure BDA0003891867440000202
Figure BDA0003891867440000203
Figure BDA0003891867440000204
Figure BDA0003891867440000205
Figure BDA0003891867440000206
例如将上述
Figure BDA0003891867440000207
代入公式(13)计算
Figure BDA0003891867440000208
的过程如下所示:
Figure BDA0003891867440000209
从而得到的
Figure BDA00038918674400002010
是一个1×C的特征向量,以表示边类型R1(v,p)传递的特征数据。
同理,可以得到
Figure BDA00038918674400002011
以分别表示边类型R1(v,s)和R5(v,w)、R5(v,s)传递的特征数据。
至此,根据每种类型的边对应的权重系数以及权重参数网络模型确定出不同类型的边传递的特征数据,特征数据以特征向量进行表示。
通过以上实施例描述,根据图谱结构首先计算出每种类型的边在目标迭代次数时的权重系数,进而结合权重参数网络模型得到不同类型的边所传递的特征数据,实现根据图谱结构确定目标节点的各邻域节点通过不同类型的边传递的特征数据,以为目标节点上的邻域信息的汇总也即目标节点在目标迭代次数时的新增特征数据的确定提供数据基础。
在一种可能的设计中,步骤S202可能的实现方式如图7所示。图7为本申请实施例提供的又一种对象识别方法的流程示意图。如图7所示,本申请实施例包括:
S501:获取目标节点的各不同类型的边对应的特征向量之和,得到向量之和;
S502:对向量之和采用激活函数进行分段线性处理,得到线性结果向量;
S503:获取线性映射矩阵与线性结果向量的乘积,利用得到的乘积向量表征目标节点在目标迭代次数时的新增特征数据。
其中,每种类型的边对应的特征向量用于表征每种类型的边传递的特征数据。
如前实施例所描述,每种类型的边传递的特征数据通过每种类型的边对应的特征向量进行表征,例如边类型R1(v,p)传递的特征数据以
Figure BDA0003891867440000211
该1×C的特征向量表示。首先获取目标节点的各不同类型的边对应的特征向量之和,得到向量之和,例如,获取
Figure BDA0003891867440000212
之和,得到的之和结果即为向量之和。然后对向量之和采用激活函数进行分段线性处理,激活函数可以例如Relu函数,再获取线性映射矩阵与分段线性处理后得到的线性结果向量之间的乘积,利用表示该乘积的乘积向量表征目标节点在目标迭代次数时的新增特征数据。
以图4所示图谱的各不同类型的边传递的特征数据为例,例如获取向量之和、进行分段线性处理以及获取乘积的过程可以通过如下公式(17)得以实现,从而得到图4所示目标节点v在目标迭代次数(t)时的新增特征数据
Figure BDA0003891867440000215
Figure BDA0003891867440000214
其中,Mt表示线性映射矩阵,其是融合层的神经网络,主要用于对齐向量维度,例如可以为C×M的向量。可以理解的是,线性映射矩阵的维度由各不同类型的边对应的特征向量的维度决定,而线性映射矩阵中各元素的具体取值由图谱结构的实际数据决定。
激活函数例如Relu函数是为了增加神经网络的非线性,通过引入非线性因素,增加模型抗数据噪音能力。
在运行公式(17)时,采用激活函数进行分段线性处理得到的线性结果向量如下公式(18)所示:
Figure BDA0003891867440000221
其中,对于线性结果向量中的
Figure BDA0003891867440000222
而言,以
Figure BDA0003891867440000223
为例,其运算满足如下公式(19),以达到对负样本进行保留,也即引入非线性样本。
Figure BDA0003891867440000224
Figure BDA0003891867440000225
是为可调整的超参数,例如可以设置0.01。通过公式(19)可以看出,对
Figure BDA0003891867440000226
中的任一个而言,当其小于等于0时,对应的线性结果向量并非直接取0以删除负样本,而是通过引入超参数
Figure BDA0003891867440000227
以及指数将线性结果向量保持在一定范围,从而有利于后续得到的行为类型预测模型面对各种噪声时的识别准确性。
将公式(18)以及线性映射矩阵代入公式(17)得到如下所示公式(20):
Figure BDA0003891867440000228
从而利用得到的乘积向量表征目标节点在目标迭代次数时的新增特征数据
Figure BDA0003891867440000229
至此,通过获取向量之和、进行分段线性处理以及获取乘积的过程实现根据各不同类型的边传递的特征数据确定目标节点在目标迭代次数时的新增特征数据。
本申请实施例提供的对象识别方法,在得到目标节点的各不同类型的边传递的特征数据后,通过获取特征向量之和、分段线性处理以及获取乘积得到目标节点在目标迭代次数时的新增特征数据,也即在目标迭代次数对应时刻图谱结构通过传播新增的信息。其中分段线性处理采用了激活函数,可以达到保留负样本参与后续计算的目的,从而可以增加行为类型预测模型的抗数据噪音能力,提高识别准确率。
在一种可能的设计中,步骤S203可能的实现方式包括:
将乘积向量和目标节点在目标迭代次数前一次时的自身隐藏层向量,输入至预设循环神经网络,将输出确定为节点向量。例如通过
Figure BDA0003891867440000231
Figure BDA0003891867440000232
计算目标迭代次数对应的t时刻下的节点隐藏层向量
Figure BDA0003891867440000233
也即目标节点的节点向量。
如前述实施例所描述,对目标节点而言,在t时刻,目标节点隐藏层
Figure BDA0003891867440000234
的向量也即节点向量所要表达的特征数据来自于两部分,一部分为新增特征数据也即
Figure BDA0003891867440000235
另一部分来自于前一时刻(也即t-1)目标节点自身的隐藏层向量编码即
Figure BDA0003891867440000236
其中,前者是t时刻学习到的邻域信息,后者是时序特征必要的输入。
根据上述两部分可以通过预设循环神经网络得到节点向量,预设循环神经网络可以例如门控循环神经网络(Gate Recurrent Unit,GRU),它是一种用于捕捉时序数据依赖关系的神经网络,能够保存长序列中的信息,以及过滤预测不相关的信息。本申请实施例对于GRU的实现原理不作阐述。
采用乘积向量表示的新增特征数据以及预设循环神经网络例如GRU获得节点向量的实现方式可以通过如下所示公式(21)得以实现:
Figure BDA0003891867440000237
其中,预设循环神经网络,例如GRU,接收到
Figure BDA0003891867440000238
Figure BDA0003891867440000239
用于更新
Figure BDA00038918674400002310
GRU的输出
Figure BDA00038918674400002311
是1×M的特征向量,与目标节点的初始向量
Figure BDA00038918674400002312
维度相同。
经过目标迭代次数后,例如5次迭代后,则取
Figure BDA00038918674400002313
作为目标节点最后的向量表达,也即目标节点的节点向量,进而使用
Figure BDA00038918674400002314
例如
Figure BDA00038918674400002315
进行特征行为对象的识别,
Figure BDA00038918674400002316
表示的节点向量用于表征行为类型预测模型。
本申请实施例提供的对象识别方法,在得到乘积向量表征的新增特征数据和目标节点在目标迭代次数前一次时的自身隐藏层向量的基础上,通过预设循环神经网络得到目标节点的节点向量,也即行为类型预测模型。其中预设循环神经网络因其能够保存长序列中的信息以及能够过滤与预测不相关的信息,从而可以摒弃一些时间久远的特征而筛选出与当前时间更加贴切的特征,进而可以提高因其得到的行为类型预测模型的计算准确性,使得通过该行为类型预测模型对待识别对象可以进行准确、高效的特征行为风险识别。
图8为本申请实施例提供的一种对象识别装置的结构示意图。如图8所示,本申请实施例提供的对象识别装置600,包括:
第一处理模块601,用于获取待识别对象的画像特征数据和关联关系,根据画像特征数据和关联关系生成待识别对象的图谱结构,待识别对象包括企业对象或者个体对象;
第二处理模块602,用于根据图谱结构和行为类型预测模型,得到待识别对象的特征行为概率分布,行为类型预测模型是采用边类型的参数共享邻域信息融合机制和图谱结构进行模型训练得到的;
第三处理模块603,用于根据特征行为概率分布确定待识别对象是否为特征行为对象,特征行为对象存在特征行为风险。
在图8基础上,图9为本申请实施例提供的另一种对象识别装置的结构示意图。如图9所示,本申请实施例提供的对象识别装置600,还包括:模型学习模块604。该模型学习模块604,用于:
根据图谱结构确定目标节点的目标特征数据,目标特征数据包括目标节点的各邻域节点通过不同类型的边传递的特征数据,目标节点为图谱结构中表征待识别对象的节点;
根据各不同类型的边传递的特征数据确定目标节点在目标迭代次数时的新增特征数据;
根据新增特征数据和目标节点在目标迭代次数前一次时的自身隐藏层向量得到节点向量,自身隐藏层向量用于表征目标节点在目标迭代次数的前一次自融合到的特征数据,节点向量用于表征行为类型预测模型。
在一种可能的设计中,模型学习模块604,还用于:
根据图谱结构确定目标节点的每种类型的边在目标迭代次数时的权重系数,权重系数用于表征目标节点与各邻域节点之间的相关性;
根据每种类型的边对应的权重系数以及权重参数网络模型确定不同类型的边传递的特征数据;
其中,权重参数网络模型包括第一特征映射函数和特征矩阵,第一特征映射函数与目标迭代次数相关且用于特征空间转换,特征矩阵与目标节点的边类型和目标迭代次数相关。
在一种可能的设计中,模型学习模块604,还用于:
根据图谱结构以及特征映射函数集群通过差异化融合处理得到目标节点的每种类型的边对应的权重系数;
其中,目标节点的同种类型的边对应的权重系数之和为1,特征映射函数集群包括每种类型的边对应的第二特征映射函数的集合。
在一种可能的设计中,模型学习模块604,还用于:
针对目标节点的每种类型的边,根据目标节点和各邻域节点各自在目标迭代次数的前一次对应的节点向量,以及目标节点的当前类型的边对应的第二特征映射函数的集合,进行矩阵乘法运算,得到矩阵乘法运算结果;
对矩阵乘法运算结果进行等比例缩放处理,得到缩放处理结果;
利用归一化指数函数对缩放处理结果进行归一化,得到目标节点的每种类型的边对应的权重系数。
在一种可能的设计中,模型学习模块604,还用于:
获取每种类型的边对应的权重系数、每种类型的边对应的邻域节点在目标迭代次数前一次的节点向量以及每种类型的边对应的权重参数网络模型之间的乘积,将得到的乘积确定为对应类型的边传递的特征数据。
在一种可能的设计中,模型学习模块604,还用于:
获取目标节点的各不同类型的边对应的特征向量之和,得到向量之和,每种类型的边对应的特征向量用于表征每种类型的边传递的特征数据;
对向量之和采用激活函数进行分段线性处理,得到线性结果向量;
获取线性映射矩阵与线性结果向量的乘积,利用得到的乘积向量表征目标节点在目标迭代次数时的新增特征数据。
在一种可能的设计中,模型学习模块604,还用于:
将乘积向量和目标节点在目标迭代次数前一次时的自身隐藏层向量,输入至预设循环神经网络,将输出确定为节点向量。
在一种可能的设计中,第二处理模块602,还用于:
将节点向量通过第三特征映射函数映射为类别概率分布向量;
将类别概率分布向量输入至二分类器,得到类别输出向量,类别输出向量用于表征待识别对象的特征行为概率分布。
在一种可能的设计中,第三处理模块603,还用于:
根据类别输出向量和预设类别矢量判断待识别对象是否为特征行为对象,预设类别矢量包括是特征行为对象的类别矢量和非特征行为对象的类别矢量。
在一种可能的设计中,第一处理模块601,还用于:
根据待识别对象的画像特征数据获取与待识别对象具有交易往来的关联对象;
根据交易往来对应的交易数据确定各关联对象与待识别对象之间的关系类别;
根据关系类别得到待识别对象的关联关系。
在一种可能的设计中,第一处理模块601,还用于:
将待识别对象设置为图谱结构的节点,根据待识别对象的关联关系设置图谱结构的边,以生成待识别对象的图谱结构。
在一种可能的设计中,第一处理模块601,还用于:
特征值化待识别对象的画像特征数据,将特征值化后的画像特征数据确定为图谱结构中目标节点的初始向量。
本申请实施例提供的对象识别装置,可以执行上述方法实施例中对象识别方法的各步骤,其实现原理和技术效果类似,在此不再赘述。
图10为本申请实施例提供的一种电子设备的结构示意图。如图10所示,该电子设备700可以包括:处理器701,以及与处理器701通信连接的存储器702。
存储器702,用于存放程序。具体地,程序可以包括程序代码,程序代码包括计算机执行指令。
存储器702可能包含高速RAM存储器,也可能还包括非易失性存储器(NoN-volatile memory),例如至少一个磁盘存储器。
处理器701用于执行存储器702存储的计算机执行指令,以实现对象识别方法。
其中,处理器701可能是一个中央处理器(Central Processing Unit,简称为CPU),或者是特定集成电路(Application Specific Integrated Circuit,简称为ASIC),或者是被配置成实施本申请实施例的一个或多个集成电路。
可选地,存储器702既可以是独立的,也可以跟处理器701集成在一起。当存储器702是独立于处理器701之外的器件时,电子设备700,还可以包括:
总线703,用于连接处理器701以及存储器702。总线可以是工业标准体系结构(industry standard architecture,简称为ISA)总线、外部设备互连(peripheralcomponent,PCI)总线或扩展工业标准体系结构(extended industry standardarchitecture,EISA)总线等。总线可以分为地址总线、数据总线、控制总线等,但并不表示仅有一根总线或一种类型的总线。
可选的,在具体实现上,如果存储器702和处理器701集成在一块芯片上实现,则存储器702和处理器701可以通过内部接口完成通信。
本申请还提供了一种计算机可读存储介质,该计算机可读存储介质可以包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,RandomAccessMemory)、磁盘或者光盘等各种可以存储程序代码的介质,具体的,该计算机可读存储介质中存储有计算机执行指令,计算机执行指令用于上述实施例中方法的各步骤。
本申请还提供了一种计算机程序产品,包括计算机执行指令,该计算机指令被处理器执行时实现上述实施例中方法的各步骤。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本申请的真正范围和精神由权利要求书指出。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求书来限制。

Claims (17)

1.一种对象识别方法,其特征在于,包括:
获取待识别对象的画像特征数据和关联关系,根据所述画像特征数据和所述关联关系生成所述待识别对象的图谱结构,所述待识别对象包括企业对象或者个体对象;
根据所述图谱结构和行为类型预测模型,得到所述待识别对象的特征行为概率分布,所述行为类型预测模型是采用边类型的参数共享邻域信息融合机制对所述图谱结构进行学习得到的;
根据所述特征行为概率分布确定所述待识别对象是否为特征行为对象,所述特征行为对象存在特征行为风险。
2.根据权利要求1所述的对象识别方法,其特征在于,采用所述边类型的参数共享邻域信息融合机制对所述图谱结构学习以得到所述行为类型预测模型,包括:
根据所述图谱结构确定目标节点的目标特征数据,所述目标特征数据包括所述目标节点的各邻域节点通过不同类型的边传递的特征数据,所述目标节点为所述图谱结构中表征所述待识别对象的节点;
根据各不同类型的边传递的特征数据确定所述目标节点在目标迭代次数时的新增特征数据;
根据所述新增特征数据和所述目标节点在所述目标迭代次数前一次时的自身隐藏层向量得到节点向量,所述自身隐藏层向量用于表征所述目标节点在所述目标迭代次数的前一次自融合到的特征数据,所述节点向量用于表征所述行为类型预测模型。
3.根据权利要求2所述的对象识别方法,其特征在于,所述根据所述图谱结构确定目标节点的目标特征数据,包括:
根据所述图谱结构确定所述目标节点的每种类型的边在所述目标迭代次数时的权重系数,所述权重系数用于表征所述目标节点与所述各邻域节点之间的相关性;
根据所述每种类型的边对应的权重系数以及权重参数网络模型确定所述不同类型的边传递的特征数据;
其中,权重参数网络模型包括第一特征映射函数和特征矩阵,所述第一特征映射函数与所述目标迭代次数相关且用于特征空间转换,所述特征矩阵与所述目标节点的边类型和所述目标迭代次数相关。
4.根据权利要求3所述的对象识别方法,其特征在于,所述根据所述图谱结构确定所述目标节点的每种类型的边在所述目标迭代次数时的权重系数,包括:
根据所述图谱结构以及特征映射函数集群通过差异化融合处理得到所述目标节点的每种类型的边对应的权重系数;
其中,所述目标节点的同种类型的边对应的权重系数之和为1,所述特征映射函数集群包括所述每种类型的边对应的第二特征映射函数的集合。
5.根据权利要求4所述的对象识别方法,其特征在于,所述根据所述图谱结构以及特征映射函数集合通过差异化融合处理得到所述目标节点的每种类型的边对应的权重系数,包括:
针对所述目标节点的每种类型的边,根据所述目标节点和所述各邻域节点各自在所述目标迭代次数的前一次对应的节点向量,以及所述目标节点的当前类型的边对应的第二特征映射函数的集合,进行矩阵乘法运算,得到矩阵乘法运算结果;
对所述矩阵乘法运算结果进行等比例缩放处理,得到缩放处理结果;
利用归一化指数函数对所述缩放处理结果进行归一化,得到所述目标节点的每种类型的边对应的权重系数。
6.根据权利要求3所述的对象识别方法,其特征在于,所述根据所述每种类型的边对应的权重系数以及权重参数网络模型确定所述不同类型的边传递的特征数据,包括:
获取所述每种类型的边对应的权重系数、所述每种类型的边对应的邻域节点在所述目标迭代次数前一次的节点向量以及所述每种类型的边对应的权重参数网络模型之间的乘积,将得到的乘积确定为对应类型的边传递的特征数据。
7.根据权利要求2-6任一项所述的对象识别方法,其特征在于,所述根据各不同类型的边传递的特征数据确定所述目标节点在目标迭代次数时的新增特征数据,包括:
获取所述目标节点的各不同类型的边对应的特征向量之和,得到向量之和,每种类型的边对应的特征向量用于表征所述每种类型的边传递的特征数据;
对所述向量之和采用激活函数进行分段线性处理,得到线性结果向量;
获取线性映射矩阵与所述线性结果向量的乘积,利用得到的乘积向量表征所述目标节点在所述目标迭代次数时的新增特征数据。
8.根据权利要求7所述的对象识别方法,其特征在于,所述根据所述新增特征数据和所述目标节点在所述目标迭代次数前一次时的自身隐藏层向量得到节点向量,包括:
将所述乘积向量和所述目标节点在所述目标迭代次数前一次时的自身隐藏层向量,输入至预设循环神经网络,将输出确定为所述节点向量。
9.根据权利要求2-6任一项所述的对象识别方法,其特征在于,所述根据所述图谱结构和行为类型预测模型,得到所述待识别对象的概率分布,包括:
将所述节点向量通过第三特征映射函数映射为类别概率分布向量;
将所述类别概率分布向量输入至二分类器,得到类别输出向量,所述类别输出向量用于表征所述待识别对象的特征行为概率分布。
10.根据权利要求9所述的对象识别方法,其特征在于,所述根据所述特征行为概率分布确定所述待识别对象是否为特征行为对象,包括:
根据所述类别输出向量和预设类别矢量判断所述待识别对象是否为所述特征行为对象,所述预设类别矢量包括是所述特征行为对象的类别矢量和非所述特征行为对象的类别矢量。
11.根据权利要求2-6任一项所述的对象识别方法,其特征在于,获取所述待识别对象的关联关系,包括:
根据所述待识别对象的画像特征数据获取与所述待识别对象具有交易往来的关联对象;
根据所述交易往来对应的交易数据确定各关联对象与所述待识别对象之间的关系类别;
根据所述关系类别得到所述待识别对象的关联关系。
12.根据权利要求11所述的对象识别方法,其特征在于,所述根据所述画像特征数据和所述关联关系生成所述待识别对象的图谱结构,包括:
将所述待识别对象设置为所述图谱结构的节点,根据所述待识别对象的关联关系设置所述图谱结构的边,以生成所述待识别对象的图谱结构。
13.根据权利要求2-6任一项所述的对象识别方法,其特征在于,在所述获取待识别对象的画像特征数据之后,还包括:
特征值化所述待识别对象的画像特征数据,将特征值化后的画像特征数据确定为所述图谱结构中所述目标节点的初始向量。
14.一种对象识别装置,其特征在于,包括:
第一处理模块,用于获取待识别对象的画像特征数据和关联关系,根据所述画像特征数据和所述关联关系生成所述待识别对象的图谱结构,所述待识别对象包括企业对象或者个体对象;
第二处理模块,用于根据所述图谱结构和行为类型预测模型,得到所述待识别对象的特征行为概率分布,所述行为类型预测模型是采用边类型的参数共享邻域信息融合机制对所述图谱结构进行学习得到的;
第三处理模块,用于根据所述特征行为概率分布确定所述待识别对象是否为特征行为对象,所述特征行为对象存在特征行为风险。
15.一种电子设备,其特征在于,包括:处理器,以及与所述处理器通信连接的存储器;
所述存储器存储计算机执行指令;
所述处理器执行所述存储器存储的计算机执行指令,以实现如权利要求1至13任一项所述的对象识别方法。
16.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如权利要求1至13任一项所述的对象识别方法。
17.一种计算机程序产品,包括计算机执行指令,其特征在于,所述计算机执行指令被处理器执行时用于实现如权利要求1至13任一项所述的对象识别方法。
CN202211261970.8A 2022-10-14 2022-10-14 对象识别方法、装置、设备及存储介质 Pending CN115511606A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211261970.8A CN115511606A (zh) 2022-10-14 2022-10-14 对象识别方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211261970.8A CN115511606A (zh) 2022-10-14 2022-10-14 对象识别方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN115511606A true CN115511606A (zh) 2022-12-23

Family

ID=84510826

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211261970.8A Pending CN115511606A (zh) 2022-10-14 2022-10-14 对象识别方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN115511606A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117056594A (zh) * 2023-07-31 2023-11-14 中移互联网有限公司 基于交互关系的用户识别方法、装置及电子设备

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117056594A (zh) * 2023-07-31 2023-11-14 中移互联网有限公司 基于交互关系的用户识别方法、装置及电子设备

Similar Documents

Publication Publication Date Title
CN110188198B (zh) 一种基于知识图谱的反欺诈方法及装置
CN111860573A (zh) 模型训练方法、图像类别检测方法、装置和电子设备
CN109766557B (zh) 一种情感分析方法、装置、存储介质及终端设备
CN112347367B (zh) 信息服务提供方法、装置、电子设备和存储介质
US20210303970A1 (en) Processing data using multiple neural networks
US11227217B1 (en) Entity transaction attribute determination method and apparatus
CN110852881B (zh) 风险账户识别方法、装置、电子设备及介质
CN111428217B (zh) 欺诈团伙识别方法、装置、电子设备及计算机可读存储介质
US20230049817A1 (en) Performance-adaptive sampling strategy towards fast and accurate graph neural networks
CN111371767A (zh) 恶意账号识别方法、恶意账号识别装置、介质及电子设备
CN114255121A (zh) 信贷风险预测模型的训练方法和信贷风险预测方法
CN115511606A (zh) 对象识别方法、装置、设备及存储介质
Basak et al. Causal ordering and inference on acyclic networks
CN113378090B (zh) 一种互联网网站相似度分析方法、装置以及可读存储介质
CN113408582B (zh) 特征评估模型的训练方法及装置
CN115730125A (zh) 对象识别方法、装置、计算机设备和存储介质
US20240161117A1 (en) Trigger-Based Electronic Fund Transfers
CN111507461A (zh) 可解释性信息确定方法及装置
CN113222609B (zh) 风险识别方法和装置
US20230088840A1 (en) Dynamic assessment of cryptocurrency transactions and technology adaptation metrics
CN111291838B (zh) 实体对象分类结果的解释方法和装置
CN112597390A (zh) 基于数字金融的区块链大数据处理方法及大数据服务器
CN112967134B (zh) 网络训练方法、风险用户识别方法、装置、设备及介质
CN113822309B (zh) 用户的分类方法、装置和非易失性计算机可读存储介质
US20230196184A1 (en) Cross-label-correction for learning with noisy labels

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination