CN113011646B - 一种数据处理方法、设备以及可读存储介质 - Google Patents

一种数据处理方法、设备以及可读存储介质 Download PDF

Info

Publication number
CN113011646B
CN113011646B CN202110275967.0A CN202110275967A CN113011646B CN 113011646 B CN113011646 B CN 113011646B CN 202110275967 A CN202110275967 A CN 202110275967A CN 113011646 B CN113011646 B CN 113011646B
Authority
CN
China
Prior art keywords
target
sample data
node
value
label
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110275967.0A
Other languages
English (en)
Other versions
CN113011646A (zh
Inventor
孙艺芙
蓝利君
李超
王翔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202110275967.0A priority Critical patent/CN113011646B/zh
Publication of CN113011646A publication Critical patent/CN113011646A/zh
Application granted granted Critical
Publication of CN113011646B publication Critical patent/CN113011646B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q20/00Payment architectures, schemes or protocols
    • G06Q20/38Payment protocols; Details thereof
    • G06Q20/40Authorisation, e.g. identification of payer or payee, verification of customer or shop credentials; Review and approval of payers, e.g. check credit lines or negative lists
    • G06Q20/401Transaction verification
    • G06Q20/4016Transaction verification involving fraud or risk level assessment in transaction processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/03Credit; Loans; Processing thereof
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Accounting & Taxation (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Finance (AREA)
  • General Business, Economics & Management (AREA)
  • Economics (AREA)
  • Evolutionary Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Human Resources & Organizations (AREA)
  • Development Economics (AREA)
  • Marketing (AREA)
  • Software Systems (AREA)
  • Operations Research (AREA)
  • Game Theory and Decision Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Technology Law (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Medical Informatics (AREA)
  • Computer Security & Cryptography (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种数据处理方法、设备及可读存储介质,方法包括:获取属于目标场景类型的对象样本数据与属于关联场景类型的关联标签样本数据;根据对象标签样本数据与关联标签样本数据,对初始类别预测模型进行训练,得到类别预测模型,通过类别预测模型确定无标签样本数据的预测异常类别,作为虚拟异常类别标签;将对象样本数据与关联标签样本数据均确定为目标样本数据,根据每两个目标样本数据之间的相似度、对象标签样本数据对应的真实异常类别标签以及关联标签样本数据对应的真实异常类别标签,对虚拟异常类别标签进行优化调整。采用本申请,可以在目标域的有标记样本数据过少的情况下,提高用于识别目标域的模型的识别准确率。

Description

一种数据处理方法、设备以及可读存储介质
技术领域
本申请涉及计算机技术领域,尤其涉及一种数据处理方法、设备以及可读存储介质。
背景技术
目前,人工智能(Artificial Intelligence,AI)技术被广泛应用,而机器学习(Machine Learning,ML)是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。
基于目标域(当前场景)的有标记样本数据的迁移学习是机器学习的一个分支领域,其目标是通过源域(与当前场景存在关联关系的关联场景)的有标记样本数据向目标域的有标记样本数据迁移,从而通过源域的有标记样本数据所蕴含的先验知识辅助目标域的有标记样本数据的学习,提升目标域的风险类别预测模型的学习效果。
可以看出,目标域的有标记样本数据以及源域的有标记样本数据对目标域的风险类别预测模型十分重要。但是,目标域在一般情况下具有少量的有标记样本数据和大量的无标记样本数据,而迁移学习方法通常要求大量的源域有标记样本数据,那么在源域有标记样本数据充足而目标域有标记样本数据过少的情况下,容易导致目标域的风险类别预测模型向源域偏移,带来负迁移的问题,使得最终训练学习得到的风险类别预测模型无法准确识别出目标域的数据的风险类别,风险类别预测模型的识别准确率不高。
发明内容
本申请实施例提供一种数据处理方法、设备以及可读存储介质,可以在目标域的有标记样本数据过少的情况下,提高用于识别目标域的模型的识别准确率。
本申请实施例一方面提供了一种数据处理方法,包括:
获取属于目标场景类型的对象样本数据以及属于关联场景类型的关联标签样本数据;对象样本数据中包括对象标签样本数据与无标签样本数据;关联场景类型与目标场景类型之间具有场景关联关系;
根据对象标签样本数据与关联标签样本数据,对初始类别预测模型进行训练,得到类别预测模型,通过类别预测模型确定无标签样本数据对应的预测异常类别,将无标签样本数据对应的预测异常类别作为无标签样本数据的虚拟异常类别标签;
将对象样本数据与关联标签样本数据均确定为目标样本数据,根据每两个目标样本数据之间的相似度、对象标签样本数据对应的真实异常类别标签以及关联标签样本数据对应的真实异常类别标签,对虚拟异常类别标签进行优化调整,得到目标异常类别标签;目标异常类别标签用于与对象标签样本数据对应的真实异常类别标签共同对类别预测模型进行优化训练。
本申请实施例一方面提供了一种数据处理装置,包括:
样本获取模块,用于获取属于目标场景类型的对象样本数据以及属于关联场景类型的关联标签样本数据;对象样本数据中包括对象标签样本数据与无标签样本数据;关联场景类型与目标场景类型之间具有场景关联关系;
模型训练模块,用于根据对象标签样本数据与关联标签样本数据,对初始类别预测模型进行训练,得到类别预测模型;
标签预测模块,用于通过类别预测模型确定无标签样本数据对应的预测异常类别,将无标签样本数据对应的预测异常类别作为无标签样本数据的虚拟异常类别标签;
目标数据确定模块,用于将对象样本数据与关联标签样本数据均确定为目标样本数据;
标签调整模块,用于根据每两个目标样本数据之间的相似度、对象标签样本数据对应的真实异常类别标签以及关联标签样本数据对应的真实异常类别标签,对虚拟异常类别标签进行优化调整,得到目标异常类别标签;目标异常类别标签用于与对象标签样本数据对应的真实异常类别标签共同对类别预测模型进行优化训练。
在一个实施例中,模型训练模块包括:
模型预测单元,用于将对象标签样本数据与关联标签样本数据输入至初始类别预测模型,通过初始类别预测模型输出对象标签样本数据对应的第一预测异常类别与第一预测场景类型,以及关联标签样本数据对应的第二预测异常类别与第二预测场景类型;
真实标签获取单元,用于获取对象标签样本数据对应的第一真实异常类别标签与目标场景类型,以及关联标签样本数据对应的第二真实异常类别标签与关联场景类型;
损失值确定单元,用于根据第一预测异常类别、对象标签样本数据对应的真实异常类别标签、第一预测场景类型、目标场景类型,确定第一损失函数值;
损失值确定单元,还用于根据第二预测异常类别、关联标签样本数据对应的真实异常类别标签、第二预测场景类型、关联场景类型,确定第二损失函数值;
模型训练单元,用于根据第一损失函数值与第二损失函数值,对初始类别预测模型进行训练,得到类别预测模型。
在一个实施例中,模型训练单元包括:
损失值生成子单元,用于根据第一损失函数值与第二损失函数值,生成目标损失函数值;
模型确定子单元,用于若目标损失函数值满足模型收敛条件,则将初始类别预测模型作为类别预测模型;
模型调整子单元,用于若目标损失函数值未满足模型收敛条件,则获取梯度优化函数,根据梯度优化函数与目标损失函数值对初始类别预测模型的模型参数进行调整,得到包含调整后的模型参数的类别预测模型。
在一个实施例中,标签调整模块包括:
节点确定单元,用于将每个目标样本数据均确定为图网络的节点;
节点确定单元,还用于将对象标签样本数据对应的真实异常类别标签,作为属于对象标签样本数据的节点的节点值;
节点确定单元,还用于将无标签样本数据对应的虚拟异常类别标签,作为属于无标签样本数据的节点的节点值;
节点确定单元,还用于将关联标签样本数据对应的真实异常类别标签,作为属于关联标签样本数据的节点的节点值;
相似度确定单元,用于确定每两个目标样本数据之间的相似度;
图网络构建单元,用于根据相似度、每个目标样本数据对应的节点以及每个节点的节点值,构建图网络;
标签优化单元,用于根据图网络对虚拟异常类别标签进行优化调整,得到目标异常类别标签。
在一个实施例中,目标样本数据包括目标样本数据Si与目标样本数据Sj;i、j均为正整数;
相似度确定单元包括:
第一特征提取子单元,用于将目标样本数据Si与目标样本数据Sj输入至类别预测模型,通过类别预测模型的特征提取层提取目标样本数据Si对应的隐藏特征向量ka,以及目标样本数据Sj对应的隐藏特征向量kb;a、b均为正整数;
距离确定子单元,用于确定隐藏特征向量ka与隐藏特征向量kb之间的向量距离;
第一相似度确定子单元,用于将向量距离作为目标样本数据Si与目标样本数据Sj之间的相似度。
在一个实施例中,目标样本数据包括目标样本数据Si与目标样本数据Sj;i、j均为正整数;
相似度确定单元包括:
第二特征提取子单元,用于将目标样本数据Si与目标样本数据Sj输入至类别预测模型,通过类别预测模型的特征提取层提取目标样本数据Si对应的隐藏特征向量ka,以及目标样本数据Sj对应的隐藏特征向量kb;a、b均为正整数;
余弦确定子单元,用于确定隐藏特征向量ka与隐藏特征向量kb之间的角度值,根据角度值确定隐藏特征向量ka与隐藏特征向量kb之间的余弦值;
第二相似度确定子单元,用于将余弦值作为目标样本数据Si与目标样本数据Sj之间的相似度。
在一个实施例中,图网络构建单元包括:
集合确定子单元,用于将每两个节点之间的相似度确定为相似度集合;
目标值确定子单元,用于将相似度集合中的每个相似度与相似度阈值进行比较,在相似度集合中获取大于或等于相似度阈值的目标相似度;
图网络生成子单元,用于为具有目标相似度的两个节点之间创建关联边,生成包含每个目标样本数据对应的节点、每个节点的节点值以及关联边的图网络。
在一个实施例中,标签优化单元包括:
节点选择子单元,用于在图网络中获取无标签样本数据对应的节点,作为目标节点;
关联节点子单元,用于在图网络中获取与目标节点之间存在关联边的节点,作为目标关联节点;
节点优化子单元,用于根据目标关联节点的节点值、目标关联节点与目标节点之间的相似度对目标节点的节点值进行优化调整,得到目标节点值;
标签确定子单元,用于根据目标节点值确定目标异常类别标签。
在一个实施例中,目标关联节点包括第一目标关联节点以及第二目标关联节点;
节点优化子单元,还具体用于获取第一目标关联节点与目标节点之间的第一相似度,以及第二目标关联节点与目标节点之间的第二相似度;
节点优化子单元,还具体用于获取第一目标关联节点的第一节点值,以及第二目标关联节点的第二节点值;
节点优化子单元,还具体用于将第一相似度与第一节点值进行相乘处理,得到第一运算值;
节点优化子单元,还具体用于将第二相似度与第二节点值进行相乘处理,得到第二运算值;
节点优化子单元,还具体用于根据第一运算值、第二运算值对目标节点的节点值进行优化调整,得到目标节点值。
在一个实施例中,节点优化子单元,还具体用于将第一运算值与第二运算值进行相加处理,得到目标运算值;
节点优化子单元,还具体用于获取目标运算值对应的标签值,将目标运算值对应的标签值与目标节点的节点值进行匹配;
节点优化子单元,还具体用于若目标运算值对应的标签值与目标节点的节点值不相同,则将目标节点的节点值替换为目标运算值对应的标签值,根据第一目标关联节点的第一调整节点值、第一相似度、第二目标关联节点的第二调整节点值以及第二相似度对目标节点的节点值进行优化调整,得到目标节点值;第一调整节点值是根据第一目标关联节点对应的关联节点的节点值,对第一节点值进行优化调整得到;第二调整节点值是根据第二目标关联节点对应的关联节点的节点值,对第二节点值进行优化调整得到;
节点优化子单元,还具体用于若目标运算值对应的标签值与目标节点的节点值相同,则确定目标节点的节点值处于收敛状态,将目标节点的节点值作为目标节点值。
在一个实施例中,标签确定子单元,还具体用于当目标节点的节点值处于收敛状态时,将与目标节点的节点值相同的标签值所对应的目标运算值,确定为收敛运算值;
标签确定子单元,还具体用于确定目标节点值与收敛运算值之间的差值绝对值;
标签确定子单元,还具体用于将差值绝对值与第一标签阈值以及第二标签阈值进行匹配,在差值绝对值中获取大于第一标签阈值或小于第二标签阈值的目标差值绝对值;第二标签阈值小于第一标签阈值;
标签确定子单元,还具体用于将目标差值绝对值对应的目标节点值确定为目标异常类别标签。
在一个实施例中,该装置还包括:
数据输入模块,用于将对象标签样本数据与无标签样本数据输入至类别预测模型,通过类别预测模型输出对象标签样本数据对应的第三预测异常类别,以及无标签样本数据对应的第四预测异常类别;
标签获取模块,用于获取对象标签样本数据对应的真实异常类别标签,以及无标签样本数据对应的目标异常类别标签;
模型优化模块,用于根据第三预测异常类别、对象标签样本数据对应的真实异常类别标签、第四预测异常类别以及目标异常类别标签,确定第三损失值;
模型优化模块,还用于根据第三损失值对类别预测模型进行优化训练,得到目标类别预测模型。
在一个实施例中,该装置还包括:
目标数据获取模块,用于获取属于目标场景类型的待识别数据;
向量提取模块,用于将待识别数据输入至目标类别预测模型,通过目标类别预测模型的特征提取层提取待识别数据的隐藏特征向量;
模型应用模块,用于将待识别数据的隐藏特征向量输入至目标类别预测模型的特征分类层,通过特征分类层输出待识别数据对应的初始预测异常类别与初始预测异常类别对应的预测概率;
模型应用模块,还用于在预测概率中获取最大预测概率,将最大预测概率对应的初始预测异常类别确定为待识别数据对应的预测异常类别。
本申请实施例一方面提供了一种计算机设备,包括:处理器和存储器;
存储器存储有计算机程序,计算机程序被处理器执行时,使得处理器执行本申请实施例中的方法。
本申请实施例一方面提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序包括程序指令,程序指令当被处理器执行时,执行本申请实施例中的方法。
本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行本申请实施例中一方面提供的方法。
在本申请实施例中,通过属于目标场景类型的对象标签样本数据以及属于关联场景类型的关联标签样本数据对初始类别预测模型进行初步训练,得到类别预测模型,通过该类别预测模型可输出属于目标场景类型的无标签样本数据的预测异常类别;随后,可基于这些样本数据中每两个样本数据之间的相似度、以及该有标签样本数据(包括对象标签样本数据与关联标签样本数据)的真实异常类别标签,对该预测异常类别进行优化调整,从而可得到优化调整后的准确的目标异常类别标签;在得到无标签样本数据的目标异常类别标签后,可基于该无标签样本数据的目标异常类别标签与该对象标签样本数据的真实异常类别标签,共同对该类别预测模型进行优化训练。可以看出,在本申请中,基于样本数据之间的相似度以及有标签样本数据(即有标记样本数据,可包括对象标签样本数据与关联标签样本数据)的真实异常类别标签,可以预测调整无标签样本数据(即无标记样本数据)的目标异常类别标签,使得无标签样本数据可以具备异常类别标签,那么在后续对类别预测模型进行优化训练时,可利用属于目标场景类型(即目标域)的对象标签样本数据与无标签样本数据共同对模型进行训练,有效结合了对象标签样本数据与无标签样本数据,使得优化训练得到的类别预测模型更为准确。综上,本申请可以在模型训练中有效结合目标场景类型的无标记样本数据与有标记样本数据,使得在目标域的有标记样本数据过少的情况下,有效利用到无标记样本数据,可以提高用于识别目标域的模型的识别准确率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种网络架构示意图;
图2a-图2b是本申请实施例提供的一种模型训练的架构示意图;
图3是本申请实施例提供的一种类别识别的场景示意图;
图4是本申请实施例提供的一种数据处理方法的流程示意图;
图5是本申请实施例提供的一种调整无标签样本数据的标签的示意图;
图6是本申请实施例提供的一种根据对象标签样本数据与关联标签样本数据,训练初始类别预测模型的流程示意图;
图7是本申请实施例提供的一种***架构示意图;
图8是本申请实施例提供的一种数据处理装置的结构示意图;
图9是本申请实施例提供的一种计算机设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请涉及到人工智能领域,为便于理解,以下将对人工智能及其相关技术概念进行阐述。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
本申请实施例提供的方案属于人工智能领域下属的机器学习((MachineLearning,ML)。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
请参见图1,图1是本申请实施例提供的一种网络架构示意图。如图1所示,该网络架构可以包括业务服务器1000和用户终端集群,用户终端集群可以包括一个或者多个用户终端,这里将不对用户终端的数量进行限制。如图1所示,多个用户终端可以包括用户终端100a、用户终端100b、用户终端100c、…、用户终端100n;如图1所示,用户终端100a、用户终端100b、用户终端100c、…、用户终端100n可以分别与业务服务器1000进行网络连接,以便于每个用户终端可以通过该网络连接与业务服务器1000之间进行数据交互。
可以理解的是,如图1所示的每个用户终端均可以安装有目标应用,当该目标应用运行于各用户终端中时,可以分别与图1所示的业务服务器1000之间进行数据交互,使得业务服务器1000可以接收来自于每个用户终端的业务数据。其中,该目标应用可以包括具有显示文字、图像、音频以及视频等数据信息处理功能的应用。如,应用可以为风险识别应用,可以用于用户输入数据,并获取到该数据对应的风险类别。其中,该应用可以为独立的应用,也可以为集成在某客户端(例如,社交客户端、教育客户端以及多媒体客户端等)中的嵌入式应用,在此不做限定。
如图1所示,本申请实施例中的业务服务器1000可以为该目标应用对应的服务器。该业务服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式***,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。
为便于理解,本申请实施例可以在图1所示的多个用户终端中选择一个用户终端作为目标用户终端,该用户终端可以包括:智能手机、平板电脑、笔记本电脑、桌上型电脑、智能电视、智能音箱、台式计算机、智能手表等携带多媒体数据处理功能(例如,视频数据播放功能、音乐数据播放功能)的智能终端,但并不局限于此。例如,本申请实施例可以将图1所示的用户终端100a作为目标用户终端,该目标用户终端中可以集成有具备该数据信息处理功能的目标应用。此时,该目标用户终端可以通过该目标应用对应的业务数据平台与业务服务器1000之间实现数据交互。
例如,当目标用户在使用目标用户终端中的目标应用(例如,风险识别应用)时,目标用户可在该目标应用中上传业务数据,业务服务器1000可以通过该目标用户终端中的目标应用,获取到该目标用户上传的业务数据。其中,可以理解的是,该业务服务器1000中可以部署有目标类别预测模型,则业务服务器1000在获取到该目标用户上传的业务数据后,可以通过该目标类别预测模型对该业务数据进行风险类别识别,识别该业务数据的风险类别是“有风险类别”或是“无风险类别”。而业务服务器1000可将该风险类别识别结果返回至该目标用户终端,目标用户可于该目标用户终端的显示界面中查看到该业务数据所属的风险类别。
其中,应当理解,为了提高目标类别预测模型对业务数据的识别准确率,可以对该目标类别预测模型进行训练,使得训练后的目标类别预测模型可以具备较高的识别准确率,为便于理解,请一并参见图2a-图2b,图2a-图2b是本申请实施例提供的一种模型训练的架构示意图。
如图2a所示,可以获取属于目标场景类型的有标签样本数据、无标签样本数据以及属于关联场景类型的有标签样本数据,随后,可将该属于目标场景类型的有标签样本数据以及属于关联场景类型的有标签样本数据输入至初始类别预测模型中,通过该两种有标签样本数据可对该初始类别预测模型进行初步训练优化,得到类别预测模型;随后,可将该属于目标场景类型的无标签样本数据输入至该类别预测模型中,通过该类别预测模型可以输出该无标签样本数据对应的风险类别(如图2a所示的预测异常类别),该预测异常类别可作为无标签样本数据对应的虚拟异常类别标签,进一步地,如图2b所示,可基于属于关联场景类型的有标签样本数据的真实异常类别标签、属于目标场景类型的有标签样本数据的真实异常类别标签、属于该目标场景类型的无标签样本数据的虚拟异常类别标签,构建图网络(例如,如图2b所示的图网络)。根据该图网络中有标签样本数据(可包括属于关联场景类型的有标签样本数据、属于目标场景类型的有标签样本数据)对应的真实异常类别标签,可对该无标签样本数据的预测异常类别进行优化调整,得到目标异常类别标签,该目标异常类别标签可作为该无标签样本数据的真实异常类别标签;由此,该目标场景类型的有标签样本数据与无标签样本数据均具备真实异常类别标签,则进一步地,可将该属于目标场景类型的有标签样本数据与无标签样本数据输入至类别预测模型中,根据该属于目标场景类型的且具备真实异常类别标签的有标签样本数据与无标签样本数据,可对该类别预测模型进行训练优化,得到最终的目标类别预测模型。其中,构建图网络的具体实现方式以及根据该图网络对无标签样本数据的预测异常类别进行优化调整,得到目标异常类别标签的具体实现方式,可参见后续图4所对应实施例中的描述。
应当理解,该训练完成的目标类别预测模型可部署于上述业务服务器1000中供在线服务调用,也就是说,该目标类别预测模型可用于对属于该目标场景类型的待识别数据进行风险类别识别。例如,当业务服务器1000获取到上述目标用户上传的业务数据后,业务服务器1000可通过该目标类别预测模型识别该业务数据的风险类别。其中,该目标类别预测模型是通过该目标场景类型的有标签样本数据与无标签样本数据所训练得到,则该业务数据所属的场景类型应当为该目标场景类型。其中,场景类型可包括交易场景(如消费场景、购物场景、支付场景、贷款场景、产品供应场景等)、权限分配场景等等,当某一场景类型作为目标场景类型时,与该场景类型具有关联关系(例如,场景类型相似度高、业务关联性强)的场景类型,可作为该目标场景类型的关联场景类型;上述业务数据可以指该目标场景类型中用于进行风险评估的数据。例如,场景类型为贷款场景,企业对虚拟资产提供方(例如,银行)发起贷款请求,而虚拟资产提供方可获取企业的相关数据(如货物相关数据、资产相关数据、销售相关数据、成本相关数据),虚拟资产提供方可作为上述目标用户,该虚拟资产提供方可通过上述目标应用上传该企业的相关数据,该企业的相关数据即可作为业务数据,业务服务器1000可通过该目标类别预测模型对该企业的相关数据进行风险评估,识别该企业的相关数据所对应的风险类别。
可选的,可以理解的是,上述目标类别预测模型可以部署于用户终端中,在用户终端获取到业务数据后,可由用户终端中的该目标类别预测模型识别该业务数据的风险类别。
可选的,可以理解的是,为保证该业务数据的风险类别的真实性,可将该业务数据及其对应的风险类别上链至区块链中,由于区块链具备不可伪造与防篡改性,则通过区块链可保证该业务数据的风险类别具备真实性。其中,区块链是一种分布式数据存储、点对点传输、共识机制以及加密算法等计算机技术的新型应用模式,主要用于对数据按时间顺序进行整理,并加密成账本,使其不可被篡改和伪造,同时可进行数据的验证、存储和更新。区块链本质上是一个去中心化的数据库,该数据库中的每个节点均存储一条相同的区块链,区块链网络将节点区分为核心节点、数据节点以及轻节点,其中核心节点负责区块链全网的共识,也就是说核心节点为区块链网络中的共识节点。对于区块链网络中交易数据(例如,业务数据及其业务数据的风险类别)被写入账本的过程可以为,用户终端发送交易数据至数据节点或轻节点,随后该交易数据以接力棒的方式在区块链网络中的数据节点或轻节点之间传递,直到共识节点收到该交易数据,共识节点再将该交易数据打包进区块,与其他共识节点之间进行共识,在共识通过后,将携带该交易数据的区块写入账本。
可以理解的是,本申请实施例提供的方法可以由计算机设备执行,计算机设备包括但不限于用户终端或业务服务器。其中,用户终端以及业务服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
为便于理解,请参见图3,图3是本申请实施例提供的一种类别识别的场景示意图。其中,如图3所示的用户终端A可以为在上述图1所对应实施例的用户终端集群中所选取的任意一个用户终端,比如,该用户终端可以为上述用户终端100a;如图3所示的用户终端B可以为在上述图1所对应实施例的用户终端集群中所选取的任意一个用户终端,比如,该用户终端可以为上述用户终端100b;如图3所示的业务服务器可以为在上述图1所对应实施例中的业务服务器1000。
如图3所示,用户a可通过用户终端A发起贷款请求,在用户终端A的虚拟资产业务***(安装于用户终端A中的应用)中,用户a可输入期望获取到的贷款额度(如图3所示的借款额100000元),在用户a输入完成贷款额度并点击确定控件后,用户终端A可响应用户a的这一触发操作,并展示信息输入界面;如图3所示,该信息输入界面中包括“请输入借款人的相关用户信息”的提示信息以及该提示信息对应的信息输入框,用户a可在该信息输入框中输入相关用户信息(如,用户a的账户地址、用户a所在的企业相关信息、历史贷款记录、信用记录、被举报记录等),用户a在信息输入完成时可点击确定控件;用户终端A可响应用户a的这一触发操作,生成贷款请求并获取用户a所输入的用户信息,用户终端A可将该贷款请求以及用户a的用户信息发送至用户终端B(该用户终端B可为虚拟资产提供方所对应的终端);用户b(虚拟资产提供方)可通过风险识别应用(安装于用户终端B中)将该用户a的用户信息发送至业务服务器,业务服务器可将该用户a的部分用户信息(包括用户a所在的企业相关信息、历史贷款记录、信用记录、被举报记录等)输入至目标类别预测模型;其中,该目标类别预测模型可由属于贷款场景类型的样本数据(包括无标签样本数据、有标签样本数据)以及属于关联场景类型(与贷款场景类型具有关联关系的场景类型,如存款场景类型、资产投资场景类型等)的有标签样本数据共同训练得到,通过该目标类别预测模型可输出该用户a的部分用户信息所对应的风险类别。如图3所示,目标类别预测模型所输出的风险类别为“无风险”类别,该业务服务器可将该目标类别预测模型所识别得到的结果(无风险类别)返回至用户终端B。用户b可通过该用户终端B查看到该识别结果为无风险类别,在用户b根据该识别结果同意向用户a提供贷款额度对应的虚拟资产数据(100000元)后,用户b可根据该用户a所提供的账户地址,将该100000元转移至该用户a的账户地址中。在用户b成功转移虚拟资产数据后,用户终端A可在显示界面中显示贷款通过提示信息(如图3所示的“您的申请已通过,尾号为xxxx的账户已收到虚拟资产100000”的信息),在该显示界面中还可显示有“查看余额”控件,若用户a点击该“查看余额”控件,则可查看到该账户地址中的余额(该余额中包括虚拟资产数据100000元)。
应当理解,通过属于目标场景类型的有标签样本数据、无标签样本数据以及属于关联场景类型的有标签样本数据对目标类别预测模型进行优化训练,可以使得优化训练后的目标类别预测模型快速且准确地识别属于该目标场景类型的待识别数据的风险类别,从而可进一步快速地根据该风险类别进行后续业务处理。
进一步地,请参见图4,图4是本申请实施例提供的一种数据处理方法的流程示意图。其中,该方法可以由用户终端(例如,上述图1所示的用户终端集群中的任一用户终端,如用户终端100b)执行,也可以由业务服务器(例如,上述图1所示的业务服务器1000)执行,还可以由用户终端和业务服务器共同执行。为便于理解,本实施例以该方法由上述业务服务器执行为例进行说明,以阐述在业务服务器中进行模型训练的具体过程。其中,该方法至少可以包括以下步骤S101-步骤S103:
步骤S101,获取属于目标场景类型的对象样本数据以及属于关联场景类型的关联标签样本数据;对象样本数据中包括对象标签样本数据与无标签样本数据;关联场景类型与目标场景类型之间具有场景关联关系。
本申请中,场景类型可以是指存在风险识别(风险评估)流程的场景的类型。例如,在买卖场景中,进行买卖的双方均需要对对方进行风险评估(例如,信用评估),以保证买卖能够顺利完成,则该买卖场景中存在风险识别的流程,则本申请中的场景类型可包括买卖场景类型。应当理解,除上述买卖场景外,消费场景、购物场景、贷款场景、产品供应场景、租赁场景、权限分配场景、资产投资场景等场景中均存在风险识别的流程,本申请的场景类型也可包括这些场景类型。可以理解的是,场景类型中的任一场景类型均可作为目标场景类型,当某一场景类型作为目标场景类型时,与该目标场景类型具有场景关联关系的场景类型可作为该目标场景类型的关联场景类型;其中,与目标场景类型之间存在业务关联关系的场景类型,或是与目标场景类型之间具有高业务相似度的场景类型均可确定为是与目标场景类型具有场景关联关系的场景类型。
应当理解,对象标签样本数据可以是指目标场景类型下的存在风险类别标签(例如,“风险高”类别标签、“风险低”类别标签、“有风险”类别标签、“无风险”类别标签等)的数据,无标签样本数据可以是指目标场景类型下的不存在风险类别标签的数据,关联标签样本数据可以是指关联场景类型下的存在风险类别标签的数据。其中,对于对象标签样本数据与关联标签样本数据中的正样本数据,其风险类别标签可用统一的数值(例如,数值0)进行表示;对于对象标签样本数据与关联标签样本数据中的负样本数据,其风险类别标签可用另一个统一的数值(例如,数值1)进行表示。应当理解的是,当用统一的数值表示正样本数据或负样本数据的风险类别标签时,该统一的数值可称之为正样本数据或负样本数据的风险类别标签;例如,当使用统一的数值0表示负样本数据时,该负样本数据的风险类别标签为0。其中,该负样本数据可以指对象标签样本数据与关联标签样本数据中,风险类别为“有风险”类别或“风险高”的样本数据,而正样本数据可以指对象标签样本数据与关联标签样本数据中,风险类别为“无风险”类别或“风险低”类别的样本数据。例如,对象标签样本数据中的某一对象标签样本数据的风险类别为“有风险”类别,则该对象标签样本数据的风险类别标签可用数值1表示,该对象标签样本数据的风险类别标签为1;如对象标签样本数据中的某一对象标签样本数据的风险类别为“无风险”类别,则该对象标签样本数据的风险类别标签可用数值0表示,该对象标签样本数据的风险类别标签为0。
需要说明的是,在一般情况下,目标场景类型下的对象标签样本数据(即存在风险类别标签的数据)的数量远小于无标签样本数据(即不存在风险类别标签的数据)的数量。
步骤S102,根据对象标签样本数据与关联标签样本数据,对初始类别预测模型进行训练,得到类别预测模型,通过类别预测模型确定无标签样本数据对应的预测异常类别,将无标签样本数据对应的预测异常类别作为无标签样本数据的虚拟异常类别标签。
其中,预测异常类别即为无标签样本数据对应的预测风险类别,该风险类别可包括“有风险”类别与“无风险”类别,该“有风险”类别可用数值1表征,该“无风险”类别可用数值0表征,例如,该无标签样本数据对应的预测风险类别为“无风险”类别,则该类别预测模型可输出数值0用于表征该无标签样本数据的预测异常类别为“无风险”类别,而该数值0可作为该无标签样本数据的虚拟异常类别标签。
本申请中,可通过对象标签样本数据与关联标签样本数据对初始类别预测模型进行初步训练,得到类别预测模型。该初始类别预测模型中可包括特征提取层与特征分类层,将该对象标签样本数据与该关联标签样本数据输入至该初始类别预测模型中,通过该初始类别预测模型中的特征提取层可提取该对象标签样本数据与关联标签样本数据分别对应的隐藏特征向量,而将该隐藏特征向量输入至该特征分类层,通过该特征分类层可输出隐藏特征向量对应的预测异常类别(即,输出对象标签样本数据与关联标签样本数据分别对应的预测风险类别);根据该对象标签样本数据与关联标签样本数据分别对应的预测异常类别、对象标签样本数据与关联标签样本数据分别对应的真实异常类别标签,可计算得到初始类别预测模型的损失函数值,通过该损失函数值可对该初始类别预测模型进行优化调整,例如,可根据该损失函数值更新该初始类别预测模型的模型参数,可将损失函数值收敛时的模型参数作为训练得到的类别预测模型的模型参数。
进一步地,将该无标签样本数据输入至该类别预测模型,通过该类别预测模型可输出该无标签样本数据对应的预测异常类别。其中,预测异常类别可以指预测风险类别,由于类别预测模型由初始类别预测模型通过训练得到,则该类别预测模型中也包括特征提取层与特征分类层,同理,将该无标签样本数据输入至类别预测模型后,通过该类别预测模型中的特征提取层可提取该无标签样本数据对应的隐藏特征向量,将该无标签样本数据对应的隐藏特征向量输入至特征分类层,通过该特征分类层可输出该无标签样本数据对应的预测异常类别。
步骤S103,将对象样本数据与关联标签样本数据均确定为目标样本数据,根据每两个目标样本数据之间的相似度、对象标签样本数据对应的真实异常类别标签以及关联标签样本数据对应的真实异常类别标签,对虚拟异常类别标签进行优化调整,得到目标异常类别标签;目标异常类别标签用于与对象标签样本数据对应的真实异常类别标签共同对类别预测模型进行优化训练。
本申请中,异常类别可以指风险类别,对象标签样本数据与关联标签样本数据的真实异常类别标签可以指风险类别标签。该风险类别标签可包括“风险高”类别标签、“风险低”类别标签、“有风险”类别标签、“无风险”类别标签等。以风险类别标签包括“有风险”类别标签、“无风险”类别标签为例,若用统一的数值1表征“有风险”类别标签,用统一的数值0表征“无风险”类别标签,则该风险类别标签可包括0(即“无风险”类别标签)与1(即“有风险”类别标签),则该真实异常类别标签可包括0与1。
应当理解,为提高类别预测模型的泛化能力(generalization ability,指模型对于未见过的数据的识别能力,即识别准确率),可利用目标场景类型下的无标签样本数据与对象标签样本数据共同对类别预测模型进行优化训练,得到目标类别预测模型。对于对类别预测模型进行优化训练,得到目标类别预测模型的具体方法可为:可利用图网络标签扩散算法,基于对象样本标签数据与关联标签样本数据对上述无标签样本数据的虚拟异常类别标签进行优化调整,得到更为准确的目标异常类别标签,随后,再基于目标场景类型下的对象标签样本数据(具有真实异常类别标签)与无标签样本数据(具有目标异常类别标签)共同对类别预测模型进行优化训练,得到目标类别预测模型。其中,对于得到无标签样本数据的目标异常类别标签的具体方法可为:可将对象样本数据(包括对象标签样本数据与无标签样本数据)与关联标签样本数据均确定为目标样本数据,可确定每两个目标样本数据之间的相似度,并根据该相似度构建目标样本数据对应的图网络,再利用图网络标签扩散算法调整预测无标签样本数据的虚拟异常类别标签得到目标异常类别标签。进一步地,可将该无标签样本数据以及该无标签样本数据对应的目标异常类别标签应用于类别预测模型的优化训练中。应当理解,利用上述基于相似度与有标签样本数据(包括对象标签样本数据与关联标签样本数据),来得到无标签样本数据的目标异常类别标签的方式,可以准确的确定出无标签样本数据的目标异常类别标签,而该目标异常类别标签可作为无标签样本数据的真实异常类别标签,在无标签样本数据具有真实异常类别标签后,即可将无标签样本数据应用到后续对类别预测模型的优化训练中,由此可以结合目标场景类型下的对象标签样本数据与无标签样本数据共同对类别预测模型进行优化训练,而非仅利用到目标场景类型下的对象标签样本数据来进行模型训练,在目标场景类型下的对象标签样本数据较少而无标签样本数据较多的情况下,结合数量较少的对象标签样本数据与数量较多的无标签样本数据共同对模型进行训练的方式,可以使得优化训练得到的目标类别预测模型可以更为准确的识别待识别数据(属于目标场景类型下的数据)的风险类别。其中,应当理解,上述图网络标签扩散算法是一种基于图的半监督学习方法,该算法可利用样本数据(例如,目标样本数据)之间的关系建立完全图,在完全图中,节点包括有标签样本数据(如对象标签样本数据与关联标签样本数据)与无标签样本数据,节点的标签可按相似度传递至其他节点,由此可利用有标签样本数据的信息去预测调整无标签样本数据的标签信息。
为便于理解,以下将对利用图网络标签扩散算法调整无标签样本数据对应的虚拟异常类别标签,得到目标异常类别标签的方法进行具体阐述:可将每个目标样本数据均确定为图网络的节点;随后,可将对象标签样本数据对应的真实异常类别标签,作为属于对象标签样本数据的节点的节点值;将无标签样本数据对应的虚拟异常类别标签,作为属于无标签样本数据的节点的节点值;将关联标签样本数据对应的真实异常类别标签,作为属于关联标签样本数据的节点的节点值;随后,可确定每两个目标样本数据之间的相似度,根据相似度、每个目标样本数据对应的节点以及每个节点的节点值,可构建图网络;根据图网络可对虚拟异常类别标签进行优化调整,得到目标异常类别标签。
其中,以下将以目标样本数据包括目标样本数据Si与目标样本数据Sj(i、j均为正整数)为例,对确定每两个目标样本数据之间的相似度的具体方法进行阐述,对于确定每两个目标样本数据之间的相似度的具体方法可为:可将目标样本数据Si与目标样本数据Sj输入至类别预测模型,通过类别预测模型的特征提取层可提取目标样本数据Si对应的隐藏特征向量ka,以及目标样本数据Sj对应的隐藏特征向量kb;其中,a、b均为正整数;随后,可确定隐藏特征向量ka与隐藏特征向量kb之间的向量距离;可将该向量距离作为目标样本数据Si与目标样本数据Sj之间的相似度。
可选的,对于确定每两个目标样本数据之间的相似度的具体方法还可为:可将目标样本数据Si与目标样本数据Sj输入至类别预测模型,通过类别预测模型的特征提取层可提取目标样本数据Si对应的隐藏特征向量ka,以及目标样本数据Sj对应的隐藏特征向量kb;其中,a、b均为正整数;随后,可确定隐藏特征向量ka与隐藏特征向量kb之间的角度值,根据角度值可确定隐藏特征向量ka与隐藏特征向量kb之间的余弦值;可将余弦值作为目标样本数据Si与目标样本数据Sj之间的相似度。
可以理解的是,在提取得到两个目标样本数据分别对应的隐藏特征向量后,可确定两个隐藏特征向量之间的向量距离或余弦值,该向量距离或余弦值可作为这两个隐藏特征向量之间的相似度。
进一步地,可根据相似度、每个目标样本数据对应的节点以及每个节点的节点值,构建图网络,其具体方法可为:可将每两个节点之间的相似度确定为相似度集合;随后,可将相似度集合中的每个相似度与相似度阈值进行比较,在相似度集合中获取大于或等于相似度阈值的目标相似度;为具有目标相似度的两个节点之间创建关联边,生成包含每个目标样本数据对应的节点、每个节点的节点值以及该关联边的图网络。应当理解,若任意两个目标样本数据之间的相似度大于或等于相似度阈值,则可在这两个目标样本数据对应的节点之间创建关联边(即,将这两个节点进行边连接),由此可得到包括多个具有不同节点值的节点以及一条或多条关联边的图网络。
应当理解的是,每个对象标签样本数据与关联标签样本数据均对应有真实异常类别标签,可使用数值0与数值1表征该真实异常类别标签,对于对象标签样本数据与关联标签样本数据中的正样本数据(如,风险类别为“无风险”类别的样本数据),其真实异常类别标签可为数值0,而对于对象标签样本数据与关联标签样本数据中的负样本数据(如,风险类别为“有风险”类别的样本数据),其真实异常类别标签可为数值1;而对于无标签样本数据,通过类别预测模型,可输出该无标签样本数据对应的预测异常类别(即虚拟异常类别标签),当该预测异常类别为“无风险”类别时,该预测异常类别可为数值0,当该预测异常类别为“有风险”类别时,该预测异常类别可为数值1。可将每个目标样本数据(包括对象标签样本数据、关联标签样本数据与无标签样本数据)均作为一个节点,而用于表征每个目标样本数据分别对应的标签的数值,可作为其对应节点的节点值,例如,可将无标签样本数据a作为节点a,其预测异常类别为0(即“无风险”类别),则该节点a的节点值可为0;随后,可确定任意两个目标样本数据之间的相似度,若任意两个目标样本数据之间的相似度大于或等于相似度阈值,则可在该两个目标样本数据对应的两个节点之间创建一条关联边,并将该相似度确定为这条关联边的边权重,由此可得到包含节点、节点值(0或1)、关联边以及边权重的图网络。其中,上述相似度阈值可为人为规定值,例如,相似度阈值为0.5、0.51、0.6、…在此不再进行一一举例。
进一步地,可根据该图网络对无标签样本数据对应的虚拟异常类别标签进行优化调整,得到目标异常类别标签,其具体方法可为:可在图网络中获取无标签样本数据对应的节点,并作为目标节点;可在图网络中获取与目标节点之间存在关联边的节点,作为目标关联节点;根据该目标关联节点的节点值、目标关联节点与目标节点之间的相似度可对目标节点的节点值进行优化调整,得到目标节点值,而根据目标节点值可确定目标异常类别标签。
以下将以目标关联节点包括第一目标关联节点与第二目标关联节点为例,对根据目标关联节点的节点值、目标关联节点与目标节点之间的相似度对目标节点的节点值进行优化调整,得到目标节点值的具体方法进行阐述:可获取第一目标关联节点与目标节点之间的第一相似度,以及第二目标关联节点与目标节点之间的第二相似度;随后,可获取第一目标关联节点的第一节点值,以及第二目标关联节点的第二节点值;可将第一相似度与第一节点值进行相乘处理,得到第一运算值;可将第二相似度与第二节点值进行相乘处理,得到第二运算值;可根据第一运算值、第二运算值对目标节点的节点值进行优化调整,得到目标节点值。其中,对于根据第一运算值、第二运算值对目标节点的节点值进行优化调整,得到目标节点值的具体方法可为:可将第一运算值与第二运算值进行相加处理,得到目标运算值;随后,可获取目标运算值对应的标签值,可将目标运算值对应的标签值与目标节点的节点值进行匹配;若目标运算值对应的标签值与目标节点的节点值不相同,则可将目标节点的节点值替换为目标运算值对应的标签值,并根据第一目标关联节点的第一调整节点值、第一相似度、第二目标关联节点的第二调整节点值以及第二相似度继续对目标节点的节点值进行优化调整,得到目标节点值;其中,第一调整节点值是根据第一目标关联节点对应的关联节点的节点值,对第一节点值进行优化调整得到;第二调整节点值是根据第二目标关联节点对应的关联节点的节点值,对第二节点值进行优化调整得到;而若目标运算值对应的标签值与目标节点的节点值相同,则可确定目标节点的节点值处于收敛状态,可将目标节点的节点值作为目标节点值。其中,应当理解,目标运算值对应的标签值可包括目标样本数据对应的标签,例如,当用数值A(如数值1)作为负样本数据(如,风险类别为“有风险”类别的样本数据)的标签,且用数值B(如数值0)作为正样本数据(如,风险类别为“无风险”类别的样本数据)的标签时,该目标运算值对应的标签值可为该数值A或数值B(如目标运算值对应的标签值可为0或1)。以数值1表征负样本数据的标签,数值0表征正样本数据的标签为例,应当理解,在构建得到图网络后,每个节点的节点值即为该节点的标签(如,0或1),可遍历图网络中的每个节点,对于每个节点,可获取其邻居节点(即,与之存在关联边的节点,如对于目标节点,其邻居节点即为目标关联节点)到该节点的边权重(即相似度),可将该节点的所有邻居节点的节点值加权(即将每个邻居节点的节点值与该邻居节点到该节点的边权重进行相乘,再将所有邻居节点的相乘后的结果进行相加),若加权后的结果(即目标运算值)大于或等于预设阈值(如,0.7),则可将该目标运算值对应的标签值确定为1;若加权后的结果(即目标运算值)小于预设阈值(可为人为规定值,如,0.7),则可将该目标运算值对应的标签值确定为0。进一步地,可将该目标运算值对应的标签值与该节点的标签(节点值)进行匹配,若与该节点的标签不一致,则可更新该节点的标签(即将该节点的标签更新为加权后的结果所对应的标签值,如,对于上述目标节点,若目标运算值对应的标签值与目标节点的节点值不相同,则可将该目标节点的节点值替换为该目标运算值对应的标签值;而若加权后的结果对应的标签值与该节点的标签一致,则可不更新该节点的标签。
进一步地,可继续采用上述方法,遍历图网络中的每个节点,对其邻居节点的节点值进行加权,基于加权后的结果对每个节点的节点值进行更新(或不更新);在将图网络循环n(n为正整数)次直到图网络中没有节点更新标签后,可确定图网络达到稳定(图网络处于收敛状态),则可将图网络中每个节点的节点值作为最终的结果。也就是说,在图网络稳定后,图网络中无标签样本数据对应的节点(即目标节点)也获取得到最终的节点值(即,目标节点值)。
进一步地,在得到每个目标节点对应的目标节点值后,可将每个目标节点的目标节点值均确定为目标异常类别标签,并将所有无标签样本数据以及其对应的目标异常类别标签应用于对类别预测模型的优化训练中,其具体优化训练方法可为:可将对象标签样本数据与无标签样本数据输入至类别预测模型,通过类别预测模型可输出对象标签样本数据对应的第三预测异常类别,以及无标签样本数据对应的第四预测异常类别;随后,可获取对象标签样本数据对应的真实异常类别标签,以及无标签样本数据对应的目标异常类别标签;根据第三预测异常类别、对象标签样本数据对应的真实异常类别标签、第四预测异常类别以及目标异常类别标签,可确定第三损失值;根据第三损失值可对类别预测模型进行优化训练,得到目标类别预测模型,例如,可基于该第三损失值更新类别预测模型的模型参数,当该第三损失值收敛时,可将第三损失值收敛时对应的模型参数作为训练后的目标类别预测模型的模型参数,该模型参数可用于识别输入数据的风险类别。
可选的,可以理解的是,对于根据目标节点值确定目标异常类别标签的具体方法还可为:当目标节点的节点值处于收敛状态时,可将与目标节点的节点值相同的标签值所对应的目标运算值,确定为收敛运算值;随后,可确定目标节点值与收敛运算值之间的差值绝对值;将差值绝对值与第一标签阈值以及第二标签阈值进行匹配,在差值绝对值中获取大于第一标签阈值或小于第二标签阈值的目标差值绝对值;第二标签阈值小于第一标签阈值;将目标差值绝对值对应的目标节点值确定为目标异常类别标签。其中,第一标签阈值与第二标签阈值均可为人为规定数值,例如,第一标签阈值可为0.9、0.97、…,第二标签阈值可为0.1、0.15、…在此不再进行一一举例说明。
应当理解,在得到每个目标节点对应的目标节点值后,可在目标节点中,选择部分目标节点的目标节点值(如,选择预测置信度较高的节点所对应的目标节点值),作为目标异常类别标签,并将该部分目标节点的目标异常类别标签应用于类别预测模型的训练中。其中,上述预测置信度较高的节点可以指:收敛运算值与目标节点值之间的差值绝对值大于第一标签阈值(如0.9)或小于第二标签阈值(如0.1)的目标节点;而该收敛运算值可以指目标节点的节点值处于收敛状态时,与目标节点的节点值相同的标签值所对应的目标运算值。例如,无标签样本数据q对应的节点为节点q,节点q的邻居节点的目标运算值为0.96,该目标运算值对应的标签值为1,因为该目标运算值对应的标签值与该节点q的当前节点值1相同,则可确定该节点q处于收敛状态,该目标运算值0.96即可确定为收敛运算值,该节点q的当前节点值1可确定为节点q的目标节点值。因为该收敛运算值0.96与节点q的目标节点值1之间的差值绝对值为0.04(|0.96-1|=0.04),该差值绝对值小于第二标签阈值0.1,则可确定该节点q为预测置信度较高的节点,该节点q的目标节点值1可确定为目标异常类别标签,该节点q对应的无标签样本数据q以及该目标异常类别标签1可应用于后续的类别预测模型中。
进一步地,可将该训练得到的目标类别预测模型部署于服务器中供在线调用。对于应用目标类别预测模型的具体方法可为:可获取属于目标场景类型的待识别数据;随后,可将待识别数据输入至目标类别预测模型,通过目标类别预测模型的特征提取层可提取待识别数据的隐藏特征向量;可将待识别数据的隐藏特征向量输入至目标类别预测模型的特征分类层,通过特征分类层可输出待识别数据对应的初始预测异常类别与初始预测异常类别对应的预测概率;可在预测概率中获取最大预测概率,并将该最大预测概率对应的初始预测异常类别确定为该待识别数据对应的预测异常类别。
在本申请实施例中,通过属于目标场景类型的对象标签样本数据以及属于关联场景类型的关联标签样本数据对初始类别预测模型进行初步训练,得到类别预测模型,通过该类别预测模型可输出属于目标场景类型的无标签样本数据的预测异常类别,该预测异常类别可作为无标签样本数据的虚拟异常类别标签;随后,可将每个样本数据作为节点(每个节点对应的标签为其节点值),并基于这些样本数据中每两个样本数据之间的相似度构建图网络,图网络中有标签样本数据的真实异常类别标签可按照相似度传递至无标签样本数据,从而可优化调整无标签样本数据的虚拟异常类别标签,得到准确的目标异常类别标签;在得到无标签样本数据的目标异常类别标签后,可基于该无标签样本数据的目标异常类别标签与该对象标签样本数据的真实异常类别标签,共同对该类别预测模型进行优化训练。可以看出,在本申请中,可基于目标场景类型下的对象标签样本数据的真实异常类别标签与关联场景类型下的关联标签样本数据的真实异常类别标签,预测出无标签样本数据的准确的目标异常类别标签,并根据属于目标场景类型(即目标域)的对象标签样本数据(即有标记样本数据)与无标签样本数据(即无标记样本数据)共同对模型进行训练,有效结合了对象标签样本数据与无标签样本数据,可以使得优化训练得到的类别预测模型更为准确。综上,本申请可以在模型训练中有效结合目标场景类型的无标记样本数据与有标记样本数据,使得在目标域的有标记样本数据过少的情况下,有效利用到无标记样本数据,可以提高用于识别目标域的模型的识别准确率。
为便于理解利用图网络标签扩散算法调整无标签样本数据的虚拟异常类别标签,得到目标异常类别标签的具体实现方法,请参见图5,图5是本申请实施例提供的一种调整无标签样本数据的标签的示意图。以目标样本数据包括目标样本数据1、目标样本数据2以及目标样本数据3为例,其中,目标样本数据2为目标场景类型下的无标签样本数据。目标样本数据1对应的节点为节点1、目标样本数据2对应的节点为节点2、目标样本数据3对应的节点为节点3;相似度阈值为0.5,将任意两个目标样本数据之间的相似度与相似度阈值进行比较后,确定目标样本数据1与目标样本数据2之间的相似度(0.7)、目标样本数据2与目标样本数据3之间的相似度(0.6)、目标样本数据1与目标样本数据3之间的相似度(0.8)均大于该相似度阈值0.5,则可在节点1与节点2之间、节点2与节点3之间、节点1与节点3之间创建关联边(两个节点之间的关联边的边权重为该两个节点之间的相似度),由此得到的图网络如图网络50a所示。其中,在图网络50a中,每个节点的节点值为其样本数据对应的标签,例如,节点1为目标样本数据1对应的节点,该目标样本数据1的真实异常类别标签为0(数值0可用于表征“无风险”类别),则该节点1的节点值为0;而节点2为目标样本数据2对应的节点,该目标样本数据2的虚拟异常类别标签为1(数值1可用于表征“有风险”类别),则该节点2的节点值为1。
进一步地,可基于每个节点的邻居节点(存在关联边的关联节点)到该节点的边权重(也就是相似度),对所有的邻居节点的节点值加权(即,所有邻居节点的节点值与该邻居节点到当前节点的边权重的乘积之和),得到加权后的结果,随后,可将加权后的结果与预设阈值进行匹配,若该加权后的结果大于或等于该预设阈值,则可将该加权后的结果对应的标签值确定为数值1;而若该加权后的结果小于该预设阈值,在可将该加权后的结果对应的标签值确定为数值0。随后,可将加权后的结果对应的标签值与该节点的节点值进行匹配,若加权后的结果对应的标签值与该节点的节点值不一致,则可对该节点的节点值进行更新;若加权后的结果与该节点的节点值一致,则不更新该节点的节点值;如此可对整个图图网络循环n次直到没有节点更新,最终得到图网络50n。
例如,如图网络50a所示,节点1的邻居节点为节点2与节点3,则可将该节点2的节点值(1)与该节点2与节点1之间的相似度(0.7)相乘、将节点3的节点值(0)与该节点3与节点1之间的下相似度(0.8)相乘,将两个相乘结果进行相加(即,0.7+0)可得到加权后的结果为0.7,此时可判断加权后的结果0.7是否大于或等于预设阈值(0.8),因为该加权后的结果0.7小于预设阈值0.8,则可将该加权后的结果对应的标签值确定为0;随后,可确定该标签值0是否与该节点1的节点值(0)是否相同,若相同则可不对该节点1的节点值进行更新,若不同则可将该节点1的节点值更新为加权后的结果对应的标签值(0),因为标签值0与节点值0相同,则可确定该节点1的节点值已处于收敛状态,可不再将该节点1的节点值进行更新;同理,节点2的邻居节点为节点1与节点3,则可针对节点2的邻居节点的节点值进行加权(即,0×0.7+0×0.6),得到的加权结果为0,可判断加权后的结果0是否大于或等于预设阈值0.8,因为该加权后的结果0小于该预设阈值0.8,则可将该加权后的结果对应的标签值确定为0,随后,可确定该标签值0是否与节点2的节点值(1)是否相同,因为标签值0与节点值1不相同,则可将该节点2的节点值更新为0;同理,节点3的邻居节点为节点1与节点2,则可针对节点3的邻居节点的节点值进行加权(即,1×0.6+0×0.8),得到的加权结果为0.6,可判断加权后的结果0.6是否大于或等于预设阈值0.8,因为该加权后的结果0.6小于该预设阈值0.8,则可将该加权后的结果对应的标签值确定为0,随后,可确定该标签值0是否与节点3的节点值(0)是否相同,因为标签值0与节点值0相同,则可确定该节点3的节点值已处于收敛状态,可不对该节点3的节点值进行更新。由此,可得到如图5所示的图网络50b。
进一步地,在图网络50b中,可继续对每个节点的所有的邻居节点的节点值加权,例如,针对节点2而言,可将其邻居节点的节点值进行加权(即,0×0.7+0×6),因为该加权后的结果0小于预设阈值0.8,则可将该加权后的结果0对应的标签值确定为0,随后,可确定该标签值0与该节点2的节点值(0)是否相同,因为该标签值0与该节点值0相同,则可确定该节点2的节点值已处于收敛状态,可不再将该节点2的节点值进行更新;由此可得到如图5所示的图网络50c。应当理解的是,在图网络50c中,每个节点的邻居节点进行加权后的结果均为该节点的节点值相同,则可确定图网络50c已处于收敛状态,可将图网络50c确定为最终的图网络。其中,图网络50c中的节点1的目标节点值为0、节点2的目标节点值为0、节点3的目标节点值为0。
进一步地,应当理解,因为目标样本数据2为目标场景类型下的无标签样本数据,则可将该节点2的目标节点值0作为目标样本数据2对应的目标异常类别标签。可将该目标样本数据2的目标异常类别标签0应用到后续的对类别预测模型的优化训练中。例如,可将目标场景类型下的有标签样本数据(即对象标签样本数据,如目标样本数据1)与无标签样本数据(目标样本数据2)输入至类别预测模型中,通过该类别预测模型可输出该目标样本数据1与目标样本数据2分别对应的预测概率,例如,目标样本数据1对应的预测概率为0.8(对应于“有风险”类别)与0.2(对应于“无风险”类别),因为该预测概率0.8大于该预测概率0.2,则可确定该目标样本数据1对应的预测异常类别为“有风险”类别;目标样本数据2对应的预测概率为0.3(对应于“有风险”类别)与0.7(对应于“无风险”类别),因为预测概率0.3小于预测概率0.7,则可确定该目标样本数据2对应的预测异常类别为“无风险”类别。随后,可根据该目标样本数据1的预测异常类别(即“有风险”类别),以及真实异常类别标签(即0,“无风险”类别),可确定损失值1;根据目标样本数据2对应的预测异常类别(即“无风险”类别)以及真实异常类别标签(即目标异常类别标签0,“无风险类别”),可确定损失值2;根据该损失值1与损失值2可生成模型的最终损失值,根据该最终损失值可对类别预测模型的模型参数进行调整,直至最终损失值收敛时,可得到训练后的目标类别预测模型。需要说明的是,在上述图网络中,目标样本数据1为目标场景下的对象标签样本数据,在图网络达到稳定后,可确定每个节点的目标节点值,如,可确定目标样本数据1的节点(即节点1)的节点值为0,虽然图网络50c中的节点值0与目标样本数据1的原始标签(真实异常类别标签0)一致,但在训练类别预测模型时,目标样本数据1的标签值采用目标样本数据1的原始标签,而不是采用该目标样本数据1在图网络50c中的目标节点值进行类别预测模型的训练。当然,可选的,也可基于该目标样本数据1在图网络中的目标节点值(如图网络中节点1的节点值0)进行类别预测模型的训练。
可选的,可以理解的是,为进一步提高上述确定每两个目标样本数据之间的相似度的准确性,可采用领域自适应(domain adaptation)方法将上述来自不同场景类型的样本数据映射到统一的公共特征空间上进行相似性的度量,由此可避免因为所属场景类型不同、特征嵌入向量分布不同,而在原始特征空间上计算相似度时出现域聚类(场景聚类)而造成计算的相似度不准确的问题。为将来自不同场景类型的样本数据映射到统一的公共特征空间中,可在上述模型(如上述初始类别预测模型)中的特征提取层后增加域分类层,可以理解的是,该初始类别预测模型中可包括特征提取层、域分类层以及特征分类层。为便于理解,以下将对该初始类别预测模型中的特征提取层、域分类层以及特征分类层分别进行阐述:
特征提取层:该特征提取层可为全连接网络层(如,),该全连接网络层可提取所输入数据(例如,上述样本数据)的特征嵌入向量。
域分类层:该域分类层可由多层全连接网络构成得到,该域分类层可为一个域识别分类网络(如,),由特征提取层提取得到的特征嵌入向量可输入至该域分类层中,通过该域分类层可输出该特征嵌入向量的域判别结果(也就是预测的场景类型)。应当理解,该域分类层可约束拟合域的真实域关系/>即,若预测场景类型与预测场景类型/>来自于同一域(同一场景类型),则/>而若预测场景类型/>与预测场景类型/>来自于不同域(不同场景类型),则/>
应当理解,域分类层通过约束拟合域的真实域关系,可有监督地将来自不同域(场景类型)的样本数据映射到同一个隐藏空间上的嵌入向量,也就是说,可将来自不同域的样本数据(例如,上述对象标签样本数据与上述关联标签样本数据)映射到公共空间上,得到公共空间上的隐藏特征向量。可以理解的是,初始类别预测模型中的特征提取层与域分类层具有对抗关系,在前向传播中,特征提取层提取的特征嵌入向量可传入域分类层,而域分类层可通过判断传入的特征嵌入向量来自目标场景类型或关联场景类型,并根据判断结果计算域分类损失值;域分类层的目标是尽可能区分出输入的特征嵌入向量时来自目标场景类型还是关联场景类型;而在反向传播中,域分类层与特征提取层之间的梯度反转层(gradient reversal layer)可使得特征提取层的训练目标与域分类层相反,即,特征提取层期望输出的特征嵌入向量可以让域分类层无法正确判断出特征嵌入向量时来自于哪一个场景类型。应当理解,这种对抗关系可最终使得域分类层无法将接收到的特征嵌入向量进行准确地区分,而特征提取层可以成功地将属于目标场景类型的对象标签样本数据与属于关联场景类型的关联标签样本数据混合于某一公共特征空间中。
特征分类层:该特征分类层可由多层全连接网络构成得到,该特征分类层可为一个特征识别分类网络(如,),由特征提取层提取得到的特征嵌入向量可输入至该特征分类层中,通过该特征分类层可输出该特征嵌入向量的风险类别预测结果(也就是预测异常类别)。可以理解的是,该初始类别预测模型可为域迁移神经网络(DomainAdaptive Neural Network,DANN)模型。
可以理解的是,在初始类别预测模型中包含上述域分类层时,在通过对象标签样本数据与关联标签样本数据对初始类别预测模型进行初步训练,得到类别预测模型的过程中,可基于对象标签样本数据的真实场景类型标签(即目标场景类型)、关联标签样本数据的真实场景类型标签(即关联场景类型)、对象标签样本数据与关联标签样本数据分别对应的真实异常类别标签共同计算交叉熵损失函数值,并利用反向梯度更新机制基于该交叉熵损失值对该初始类别预测模型的模型参数进行优化更新。其具体方法可参见图6所对应实施例中的步骤S201-步骤S205的描述。
请参见图6,图6是本申请实施例提供的一种根据对象标签样本数据与关联标签样本数据,训练初始类别预测模型的流程示意图。如图6所示,该流程可以包括以下步骤S201-步骤S205:
步骤S201,将对象标签样本数据与关联标签样本数据输入至初始类别预测模型,通过初始类别预测模型输出对象标签样本数据对应的第一预测异常类别与第一预测场景类型,以及关联标签样本数据对应的第二预测异常类别与第二预测场景类型。
本申请中,将对象标签样本数据与关联标签样本数据输入至初始类别预测模型,可通过该初始类别预测模型中的特征提取层可提取对象标签样本数据与关联标签样本数据分别对应的隐藏特征向量;将对象标签样本数据对应的隐藏特征向量输入至特征分类层中,通过特征分类层可输出该对象标签样本数据对应的第一预测异常类别,将该关联标签样本数据的隐藏特征向量输入至特征分类层中,通过特征分类层可输出该关联标签样本数据对应的第二预测异常类别;将该对象标签样本数据对应的隐藏特征向量输入至初始类别预测模型的域分类层中,通过域分类层可输出对象标签样本数据对应的第一预测场景类型;将该关联标签样本数据的隐藏特征向量输入至域分类层中,通过域分类层可输出该关联标签样本数据对应的第二预测场景类型。
步骤S202,获取对象标签样本数据对应的第一真实异常类别标签与目标场景类型,以及关联标签样本数据对应的第二真实异常类别标签与关联场景类型。
本申请中,该目标场景类型即为对象标签样本数据的真实场景类型标签,该关联场景类型即为该关联标签样本数据的真实场景类型标签。
步骤S203,根据第一预测异常类别、对象标签样本数据对应的真实异常类别标签、第一预测场景类型、目标场景类型,确定第一损失函数值。
本申请中,根据第一预测异常类别、对象标签样本数据对应的真实异常类别标签、第一预测场景类型、目标场景类型以及交叉熵损失函数,可生成对象标签样本数据的交叉熵损失函数值即第一损失函数值。
步骤S204,根据第二预测异常类别、关联标签样本数据对应的真实异常类别标签、第二预测场景类型、关联场景类型,确定第二损失函数值。
本申请中,根据第二预测异常类别、关联标签样本数据对应的真实异常类别标签、第二预测场景类型、关联场景类型以及交叉熵损失函数,可生成关联标签样本数据的交叉熵损失函数值即第二损失函数值。
步骤S205,根据第一损失函数值与第二损失函数值,对初始类别预测模型进行训练,得到类别预测模型。
本申请中,根据第一损失函数值与第二损失函数值对初始类别预测模型进行训练,得到类别预测模型的具体方法可为:可根据第一损失函数值与第二损失函数值,生成目标损失函数值;若目标损失函数值满足模型收敛条件,则可将该初始类别预测模型作为类别预测模型;若目标损失函数值未满足模型收敛条件,则可获取梯度优化函数,根据梯度优化函数与目标损失函数值对初始类别预测模型的模型参数进行调整,得到包含调整后的模型参数的类别预测模型。
在本申请实施例中,可基于特征提取层与域分类层的对抗思想,有监督地对初始类别模型进行训练,使得训练得到的类别预测模型可以将来自目标场景类型与关联场景类型的样本数据混合在某一公共特征空间中,也就是说,可以使得类别预测模型提取到的对象标签样本数据的隐藏特征向量、无标签样本数据的隐藏特征向量以及关联标签样本数据的隐藏特征向量为统一公共特征空间上的特征向量,则在基于隐藏特征向量计算任意两个样本数据之间的相似度时可以避免域聚类的问题,从而可以使得计算得到的相似度更为准确,进而可以基于准确的相似度对无标签样本数据的虚拟异常类别标签进行优化调整,得到更为准确的目标异常类别标签,则在后续基于目标异常类别标签进行模型训练时,可以训练得到更为准确的目标类别预测模型。
进一步地,请参见图7,图7是本申请实施例提供的一种***架构示意图。本申请所提供的***可为风险识别***,如图7所示,该***中可包括风险识别***样本准备模块、风险识别***训练模块以及风险识别***识别模块。为便于理解***中每个模块的功能,以下将对风险识别***样本准备模块、风险识别***训练模块以及风险识别***识别模块分别进行阐述:
风险识别***样本准备模块:风险识别***样本准备模块可用于获取用于训练模块的样本数据,该样本数据可包括来自目标域与多个(或一个)源域的全部样本数据,其中,该全部样本数据中可包括目标域的有标签样本数据与无标签样本数据、来自源域的有标签样本数据。应当理解,一个域可以指一个场景类型,目标域可以指上述目标场景类型,源域可以指上述关联场景类型。
风险识别***样本准备模块可对目标域的有标签样本数据进行划分,得到有标签训练集与有标签测试集,其中,该有标签训练集可用于进行后续的模型训练,而该有标签测试集可用于对训练后的模型进行测试。其中,在对目标域的有标签样本数据进行划分时,可利用累计分布函数(如,K-S test函数),该累计分布函数可用于检验两个经验分布是否不同或一个经验分布与另一个理想分布是否不同,KS值常用于模型区分正负样本分隔程度的评价指标。应当理解,采用该累计分布函数,可以使得最终得到的有标签训练集中正负样本分布均匀(如,标签为“有风险”类别的样本数据与标签为“无风险”类别的样本数据的数量相差很小)。
风险识别***训练模块:在风险识别***训练模块中,可通过来自源域的有标签样本数据与目标域的有标签训练集对初始类别预测模型进行训练处理,具体可以包括以下步骤1-5:
步骤1,将来自源域的有标签样本数据与目标域的有标签训练集,输入至初始类别预测模型的特征提取层中,通过特征提取层,可对来自源域的有标签样本数据与目标域的有标签训练集进行统一的编码处理,得到源域的有标签样本数据与有标签训练集在公共空间的隐藏特征向量。
步骤2,将特征提取层提取到的隐藏特征向量输入至域分类层,通过域分类层预测源域的有标签样本数据与有标签训练集分别来自哪一个域(即输出各自对应的预测场景类型),并进行域对抗。
步骤3,将特征提取层提取得到的隐藏特征向量输入至特征分类层,通过特征分类层预测源域的有标签样本数据与有标签训练集分别对应的风险概率,并根据该风险概率预测分别对应的风险类别。
步骤4,基于样本数据(包括源域的有标签样本数据,与目标域的有标签训练集)的真实域分类(即真实场景类型标签)和真实风险类别标签(即真实异常类别标签),计算初始类别预测模型的损失函数值(例如,交叉熵损失函数值)。
步骤5,基于上述交叉熵损失函数值更新初始类别预测模型的模型参数,直至该交叉熵损失函数值收敛时,将该交叉熵损失函数值收敛时的模型作为类别预测模型。
其中,有关于上述步骤1-步骤5的具体实现方式,可以参见上述图6所对应实施例中步骤S201-步骤S205的描述,这里将不再进行赘述。
进一步地,在使用来自源域的有标签样本数据与目标域的有标签训练集进行模型训练,得到类别预测模型后,可利用图网络标签扩散算法,得到无标签样本数据的目标异常类别标签。其具体实现方式,可以参见上述图4所对应实施例中步骤S103中得到目标异常类别标签的描述,这里将不再进行赘述。
进一步地,可基于目标域的有标签训练集与得到目标异常类别标签的无标签样本数据,对上述类别预测模型进行训练,得到训练后的模型(即,目标类别预测模型)。
风险识别***识别模块:在风险识别***识别模块中,可基于上述训练后的模型对待识别数据进行风险类别的识别,例如,可将该待识别数据输入至训练后的模型,通过该训练后的模型,可输出该待识别数据对应的预测结果(即,风险类别的识别结果)。
在本申请实施例中,提供一种基于图网络标签扩散的半监督学习与域对抗的迁移学习的风险识别***,可以充分结合目标域少量有标签样本数据、大量无标签样本数据、源域大量有标签样本数据,建立泛化能力强、准确率高的风险识别模型(如上述目标类别预测模型),该风险识别模型可以更为精确的识别来自目标域的待识别数据的风险类别。
进一步地,请参见图8,图8是本申请实施例提供的一种数据处理装置的结构示意图。该数据处理装置可以是运行于计算机设备中的一个计算机程序(包括程序代码),例如该数据处理装置为一个应用软件;该数据处理装置可以用于执行图4所示的方法。如图8所示,该数据处理装置1可以包括:样本获取模块11、模型训练模块12、标签预测模块13、目标数据确定模块14以及标签调整模块15。
样本获取模块11,用于获取属于目标场景类型的对象样本数据以及属于关联场景类型的关联标签样本数据;对象样本数据中包括对象标签样本数据与无标签样本数据;关联场景类型与目标场景类型之间具有场景关联关系;
模型训练模块12,用于根据对象标签样本数据与关联标签样本数据,对初始类别预测模型进行训练,得到类别预测模型;
标签预测模块13,用于通过类别预测模型确定无标签样本数据对应的预测异常类别,将无标签样本数据对应的预测异常类别作为无标签样本数据的虚拟异常类别标签;
目标数据确定模块14,用于将对象样本数据与关联标签样本数据均确定为目标样本数据;
标签调整模块15,用于根据每两个目标样本数据之间的相似度、对象标签样本数据对应的真实异常类别标签以及关联标签样本数据对应的真实异常类别标签,对虚拟异常类别标签进行优化调整,得到目标异常类别标签;目标异常类别标签用于与对象标签样本数据对应的真实异常类别标签共同对类别预测模型进行优化训练。
其中,样本获取模块11、模型训练模块12、标签预测模块13、目标数据确定模块14以及标签调整模块15的具体实现方式,可以参见上述图4所对应实施例中步骤S101-步骤S103的描述,这里将不再进行赘述。
在一个实施例中,模型训练模块12可以包括:模型预测单元121、真实标签获取单元122、损失值确定单元123以及模型训练单元124。
模型预测单元121,用于将对象标签样本数据与关联标签样本数据输入至初始类别预测模型,通过初始类别预测模型输出对象标签样本数据对应的第一预测异常类别与第一预测场景类型,以及关联标签样本数据对应的第二预测异常类别与第二预测场景类型;
真实标签获取单元122,用于获取对象标签样本数据对应的第一真实异常类别标签与目标场景类型,以及关联标签样本数据对应的第二真实异常类别标签与关联场景类型;
损失值确定单元123,用于根据第一预测异常类别、对象标签样本数据对应的真实异常类别标签、第一预测场景类型、目标场景类型,确定第一损失函数值;
损失值确定单元123,还用于根据第二预测异常类别、关联标签样本数据对应的真实异常类别标签、第二预测场景类型、关联场景类型,确定第二损失函数值;
模型训练单元124,用于根据第一损失函数值与第二损失函数值,对初始类别预测模型进行训练,得到类别预测模型。
其中,模型预测单元121、真实标签获取单元122、损失值确定单元123以及模型训练单元124的具体实现方式,可以参见上述图6所对应实施例中步骤S201-步骤S205的描述,这里将不再进行赘述。
在一个实施例中,模型训练单元124可以包括:损失值生成子单元1241、模型确定子单元1242以及模型调整子单元1243。
损失值生成子单元1241,用于根据第一损失函数值与第二损失函数值,生成目标损失函数值;
模型确定子单元1242,用于若目标损失函数值满足模型收敛条件,则将初始类别预测模型作为类别预测模型;
模型调整子单元1243,用于若目标损失函数值未满足模型收敛条件,则获取梯度优化函数,根据梯度优化函数与目标损失函数值对初始类别预测模型的模型参数进行调整,得到包含调整后的模型参数的类别预测模型。
其中,损失值生成子单元1241、模型确定子单元1242以及模型调整子单元1243的具体实现方式,可以参见上述图6所对应实施例中步骤S205中的描述,这里将不再进行赘述。
在一个实施例中,标签调整模块15可以包括:节点确定单元151、相似度确定单元152、图网络构建单元153以及标签优化单元154。
节点确定单元151,用于将每个目标样本数据均确定为图网络的节点;
节点确定单元151,还用于将对象标签样本数据对应的真实异常类别标签,作为属于对象标签样本数据的节点的节点值;
节点确定单元151,还用于将无标签样本数据对应的虚拟异常类别标签,作为属于无标签样本数据的节点的节点值;
节点确定单元151,还用于将关联标签样本数据对应的真实异常类别标签,作为属于关联标签样本数据的节点的节点值;
相似度确定单元152,用于确定每两个目标样本数据之间的相似度;
图网络构建单元153,用于根据相似度、每个目标样本数据对应的节点以及每个节点的节点值,构建图网络;
标签优化单元154,用于根据图网络对虚拟异常类别标签进行优化调整,得到目标异常类别标签。
其中,节点确定单元151、相似度确定单元152、图网络构建单元153以及标签优化单元154的具体实现方式,可以参见上述图4所对应实施例中步骤S103中的描述,这里将不再进行赘述。
在一个实施例中,目标样本数据包括目标样本数据Si与目标样本数据Sj;i、j均为正整数;
相似度确定单元152可以包括:第一特征提取子单元1521、距离确定子单元1522以及第一相似度确定子单元1523。
第一特征提取子单元1521,用于将目标样本数据Si与目标样本数据Sj输入至类别预测模型,通过类别预测模型的特征提取层提取目标样本数据Si对应的隐藏特征向量ka,以及目标样本数据Sj对应的隐藏特征向量kb;a、b均为正整数;
距离确定子单元1522,用于确定隐藏特征向量ka与隐藏特征向量kb之间的向量距离;
第一相似度确定子单元1523,用于将向量距离作为目标样本数据Si与目标样本数据Sj之间的相似度。
其中,第一特征提取子单元1521、距离确定子单元1522以及第一相似度确定子单元1523的具体实现方式,可以参见上述图4所对应实施例中步骤S103中的描述,这里将不再进行赘述。
在一个实施例中,目标样本数据包括目标样本数据Si与目标样本数据Sj;i、j均为正整数;
相似度确定单元152可以包括:第二特征提取子单元1524、余弦确定子单元1525以及第二相似度确定子单元1526。
第二特征提取子单元1524,用于将目标样本数据Si与目标样本数据Sj输入至类别预测模型,通过类别预测模型的特征提取层提取目标样本数据Si对应的隐藏特征向量ka,以及目标样本数据Sj对应的隐藏特征向量kb;a、b均为正整数;
余弦确定子单元1525,用于确定隐藏特征向量ka与隐藏特征向量kb之间的角度值,根据角度值确定隐藏特征向量ka与隐藏特征向量kb之间的余弦值;
第二相似度确定子单元1526,用于将余弦值作为目标样本数据Si与目标样本数据Sj之间的相似度。
其中,第二特征提取子单元1524、余弦确定子单元1525以及第二相似度确定子单元1526的具体实现方式,可以参见上述图4所对应实施例中步骤S103中的描述,这里将不再进行赘述。
在一个实施例中,图网络构建单元153可以包括:集合确定子单元1531、目标值确定子单元1532以及图网络生成子单元1533。
集合确定子单元1531,用于将每两个节点之间的相似度确定为相似度集合;
目标值确定子单元1532,用于将相似度集合中的每个相似度与相似度阈值进行比较,在相似度集合中获取大于或等于相似度阈值的目标相似度;
图网络生成子单元1533,用于为具有目标相似度的两个节点之间创建关联边,生成包含每个目标样本数据对应的节点、每个节点的节点值以及关联边的图网络。
其中,集合确定子单元1531、目标值确定子单元1532以及图网络生成子单元1533的具体实现方式,可以参见上述图4所对应实施例中步骤S103中的描述,这里将不再进行赘述。
在一个实施例中,标签优化单元154可以包括:节点选择子单元1541、关联节点子单元1542、节点优化子单元1543以及标签确定子单元1544。
节点选择子单元1541,用于在图网络中获取无标签样本数据对应的节点,作为目标节点;
关联节点子单元1542,用于在图网络中获取与目标节点之间存在关联边的节点,作为目标关联节点;
节点优化子单元1543,用于根据目标关联节点的节点值、目标关联节点与目标节点之间的相似度对目标节点的节点值进行优化调整,得到目标节点值;
标签确定子单元1544,用于根据目标节点值确定目标异常类别标签。
其中,节点选择子单元1541、关联节点子单元1542、节点优化子单元1543以及标签确定子单元1544的具体实现方式,可以参见上述图4所对应实施例中步骤S103中的描述,这里将不再进行赘述。
在一个实施例中,目标关联节点包括第一目标关联节点以及第二目标关联节点;
节点优化子单元1543,还具体用于获取第一目标关联节点与目标节点之间的第一相似度,以及第二目标关联节点与目标节点之间的第二相似度;
节点优化子单元1543,还具体用于获取第一目标关联节点的第一节点值,以及第二目标关联节点的第二节点值;
节点优化子单元1543,还具体用于将第一相似度与第一节点值进行相乘处理,得到第一运算值;
节点优化子单元1543,还具体用于将第二相似度与第二节点值进行相乘处理,得到第二运算值;
节点优化子单元1543,还具体用于根据第一运算值、第二运算值对目标节点的节点值进行优化调整,得到目标节点值。
在一个实施例中,节点优化子单元1543,还具体用于将第一运算值与第二运算值进行相加处理,得到目标运算值;
节点优化子单元1543,还具体用于获取目标运算值对应的标签值,将目标运算值对应的标签值与目标节点的节点值进行匹配;
节点优化子单元1543,还具体用于若目标运算值对应的标签值与目标节点的节点值不相同,则将目标节点的节点值替换为目标运算值对应的标签值,根据第一目标关联节点的第一调整节点值、第一相似度、第二目标关联节点的第二调整节点值以及第二相似度对目标节点的节点值进行优化调整,得到目标节点值;第一调整节点值是根据第一目标关联节点对应的关联节点的节点值,对第一节点值进行优化调整得到;第二调整节点值是根据第二目标关联节点对应的关联节点的节点值,对第二节点值进行优化调整得到;
节点优化子单元1543,还具体用于若目标运算值对应的标签值与目标节点的节点值相同,则确定目标节点的节点值处于收敛状态,将目标节点的节点值作为目标节点值。
在一个实施例中,标签确定子单元1544,还具体用于当目标节点的节点值处于收敛状态时,将与目标节点的节点值相同的标签值所对应的目标运算值,确定为收敛运算值;
标签确定子单元1544,还具体用于确定目标节点值与收敛运算值之间的差值绝对值;
标签确定子单元1544,还具体用于将差值绝对值与第一标签阈值以及第二标签阈值进行匹配,在差值绝对值中获取大于第一标签阈值或小于第二标签阈值的目标差值绝对值;第二标签阈值小于第一标签阈值;
标签确定子单元1544,还具体用于将目标差值绝对值对应的目标节点值确定为目标异常类别标签。
在一个实施例中,该装置1还可以包括:数据输入模块16、标签获取模块17以及模型优化模块18。
数据输入模块16,用于将对象标签样本数据与无标签样本数据输入至类别预测模型,通过类别预测模型输出对象标签样本数据对应的第三预测异常类别,以及无标签样本数据对应的第四预测异常类别;
标签获取模块17,用于获取对象标签样本数据对应的真实异常类别标签,以及无标签样本数据对应的目标异常类别标签;
模型优化模块18,用于根据第三预测异常类别、对象标签样本数据对应的真实异常类别标签、第四预测异常类别以及目标异常类别标签,确定第三损失值;
模型优化模块18,还用于根据第三损失值对类别预测模型进行优化训练,得到目标类别预测模型。
其中,数据输入模块16、标签获取模块17以及模型优化模块18的具体实现方式,可以参见上述图4所对应实施例中步骤S103中的描述,这里将不再进行赘述。
在一个实施例中,该装置1还可以包括:目标数据获取模块19、向量提取模块20以及模型应用模块21。
目标数据获取模块19,用于获取属于目标场景类型的待识别数据;
向量提取模块20,用于将待识别数据输入至目标类别预测模型,通过目标类别预测模型的特征提取层提取待识别数据的隐藏特征向量;
模型应用模块21,用于将待识别数据的隐藏特征向量输入至目标类别预测模型的特征分类层,通过特征分类层输出待识别数据对应的初始预测异常类别与初始预测异常类别对应的预测概率;
模型应用模块21,还用于在预测概率中获取最大预测概率,将最大预测概率对应的初始预测异常类别确定为待识别数据对应的预测异常类别。
其中,目标数据获取模块19、向量提取模块20以及模型应用模块21的具体实现方式,可以参见上述图4所对应实施例中步骤S103中的描述,这里将不再进行赘述。
在本申请实施例中,通过属于目标场景类型的对象标签样本数据以及属于关联场景类型的关联标签样本数据对初始类别预测模型进行初步训练,得到类别预测模型,通过该类别预测模型可输出属于目标场景类型的无标签样本数据的预测异常类别,该预测异常类别可作为无标签样本数据的虚拟异常类别标签;随后,可将每个样本数据作为节点(每个节点对应的标签为其节点值),并基于这些样本数据中每两个样本数据之间的相似度构建图网络,图网络中有标签样本数据的真实异常类别标签可按照相似度传递至无标签样本数据,从而可优化调整无标签样本数据的虚拟异常类别标签,得到准确的目标异常类别标签;在得到无标签样本数据的目标异常类别标签后,可基于该无标签样本数据的目标异常类别标签与该对象标签样本数据的真实异常类别标签,共同对该类别预测模型进行优化训练。可以看出,在本申请中,可基于目标场景类型下的对象标签样本数据的真实异常类别标签与关联场景类型下的关联标签样本数据的真实异常类别标签,预测出无标签样本数据的准确的目标异常类别标签,并根据属于目标场景类型(即目标域)的对象标签样本数据(即有标记样本数据)与无标签样本数据(即无标记样本数据)共同对模型进行训练,有效结合了对象标签样本数据与无标签样本数据,可以使得优化训练得到的类别预测模型更为准确。综上,本申请可以在模型训练中有效结合目标场景类型的无标记样本数据与有标记样本数据,使得在目标域的有标记样本数据过少的情况下,有效利用到无标记样本数据,可以提高用于识别目标域的模型的识别准确率。
进一步地,请参见图9,图9是本申请实施例提供的一种计算机设备的结构示意图。如图9所示,上述图8所对应实施例中的装置1可以应用于上述计算机设备1000,上述计算机设备1000可以包括:处理器1001,网络接口1004和存储器1005,此外,上述计算机设备1000还包括:用户接口1003,和至少一个通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。其中,用户接口1003可以包括显示屏(Display)、键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图9所示,作为一种计算机可读存储介质的存储器1005中可以包括操作***、网络通信模块、用户接口模块以及设备控制应用程序。
在图9所示的计算机设备1000中,网络接口1004可提供网络通讯功能;而用户接口1003主要用于为用户提供输入的接口;而处理器1001可以用于调用存储器1005中存储的设备控制应用程序,以实现:
获取属于目标场景类型的对象样本数据以及属于关联场景类型的关联标签样本数据;所述对象样本数据中包括对象标签样本数据与无标签样本数据;所述关联场景类型与所述目标场景类型之间具有场景关联关系;
根据所述对象标签样本数据与所述关联标签样本数据,对初始类别预测模型进行训练,得到类别预测模型,通过所述类别预测模型确定所述无标签样本数据对应的预测异常类别,将所述无标签样本数据对应的预测异常类别作为所述无标签样本数据的虚拟异常类别标签;
将所述对象样本数据与所述关联标签样本数据均确定为目标样本数据,根据每两个目标样本数据之间的相似度、所述对象标签样本数据对应的真实异常类别标签以及所述关联标签样本数据对应的真实异常类别标签,对所述虚拟异常类别标签进行优化调整,得到目标异常类别标签;所述目标异常类别标签用于与所述对象标签样本数据对应的真实异常类别标签共同对所述类别预测模型进行优化训练。
应当理解,本申请实施例中所描述的计算机设备1000可执行前文图4-图6所对应实施例中对该数据处理方法的描述,也可执行前文图8所对应实施例中对该数据处理装置1的描述,在此不再赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。
此外,这里需要指出的是:本申请实施例还提供了一种计算机可读存储介质,且上述计算机可读存储介质中存储有前文提及的数据处理的计算机设备1000所执行的计算机程序,且上述计算机程序包括程序指令,当上述处理器执行上述程序指令时,能够执行前文图4-图6所对应实施例中对上述数据处理方法的描述,因此,这里将不再进行赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。对于本申请所涉及的计算机可读存储介质实施例中未披露的技术细节,请参照本申请方法实施例的描述。
上述计算机可读存储介质可以是前述任一实施例提供的数据处理装置或者上述计算机设备的内部存储单元,例如计算机设备的硬盘或内存。该计算机可读存储介质也可以是该计算机设备的外部存储设备,例如该计算机设备上配备的插接式硬盘,智能存储卡(smart media card,SMC),安全数字(secure digital,SD)卡,闪存卡(flash card)等。进一步地,该计算机可读存储介质还可以既包括该计算机设备的内部存储单元也包括外部存储设备。该计算机可读存储介质用于存储该计算机程序以及该计算机设备所需的其他程序和数据。该计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。
本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行本申请实施例中一方面提供的方法。
本申请实施例的说明书和权利要求书及附图中的术语“第一”、“第二”等是用于区别不同对象,而非用于描述特定顺序。此外,术语“包括”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、装置、产品或设备没有限定于已列出的步骤或模块,而是可选地还包括没有列出的步骤或模块,或可选地还包括对于这些过程、方法、装置、产品或设备固有的其他步骤单元。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
本申请实施例提供的方法及相关装置是参照本申请实施例提供的方法流程图和/或结构示意图来描述的,具体可由计算机程序指令实现方法流程图和/或结构示意图的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。这些计算机程序指令可提供到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或结构示意图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或结构示意图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或结构示意一个方框或多个方框中指定的功能的步骤。
以上所揭露的仅为本申请较佳实施例而已,当然不能以此来限定本申请之权利范围,因此依本申请权利要求所作的等同变化,仍属本申请所涵盖的范围。

Claims (15)

1.一种数据处理方法,其特征在于,所述方法由计算机设备所执行,所述方法包括:
获取属于目标场景类型的对象样本数据以及属于关联场景类型的关联标签样本数据;所述对象样本数据中包括对象标签样本数据与无标签样本数据;所述关联场景类型与所述目标场景类型之间具有场景关联关系;所述目标场景类型是指存在风险识别流程的场景的类型,所述目标场景类型是指交易场景类型以及权限分配场景类型中的任一场景类型;所述对象标签样本数据是指所述目标场景类型下存在风险类别标签的数据,所述无标签样本数据是指所述目标场景类型下不存在风险类别标签的数据,所述关联标签样本数据是指所述关联场景类型下存在风险类别标签的数据;
根据所述对象标签样本数据与所述关联标签样本数据,对初始类别预测模型进行训练,得到类别预测模型,通过所述类别预测模型确定所述无标签样本数据对应的预测异常类别,将所述无标签样本数据对应的预测异常类别作为所述无标签样本数据的虚拟异常类别标签;所述无标签样本数据对应的预测异常类别是指所述无标签样本数据对应的预测风险类别;所述类别预测模型是通过损失函数值对所述初始类别预测模型进行优化调整所得到的,所述损失函数值是通过所述对象标签样本数据,与所述关联标签样本数据分别对应的预测风险类别与真实异常类别标签所计算得到的;所述真实异常类别标签是指风险类别标签;
将所述对象样本数据与所述关联标签样本数据均确定为目标样本数据,根据每两个目标样本数据之间的相似度、所述对象标签样本数据对应的真实异常类别标签以及所述关联标签样本数据对应的真实异常类别标签,对所述虚拟异常类别标签进行优化调整,得到目标异常类别标签;所述目标异常类别标签是采用图网络对所述虚拟异常类别标签进行优化调整所得到的,所述图网络是根据所述每两个目标样本数据之间的相似度、所述对象标签样本数据对应的真实异常类别标签以及所述关联标签样本数据对应的真实异常类别标签所构建得到的;所述目标异常类别标签用于与所述对象标签样本数据对应的真实异常类别标签共同对所述类别预测模型进行优化训练;优化训练后的目标类别预测模型用于识别待识别数据的风险类别,所述待识别数据是指属于所述目标场景类型下的数据。
2.根据权利要求1所述的方法,其特征在于,所述根据所述对象标签样本数据与所述关联标签样本数据,对初始类别预测模型进行训练,得到类别预测模型,包括:
将所述对象标签样本数据与所述关联标签样本数据输入至所述初始类别预测模型,通过所述初始类别预测模型输出所述对象标签样本数据对应的第一预测异常类别与第一预测场景类型,以及所述关联标签样本数据对应的第二预测异常类别与第二预测场景类型;
获取所述对象标签样本数据对应的第一真实异常类别标签与所述目标场景类型,以及所述关联标签样本数据对应的第二真实异常类别标签与所述关联场景类型;
根据所述第一预测异常类别、所述对象标签样本数据对应的真实异常类别标签、所述第一预测场景类型、所述目标场景类型,确定第一损失函数值;
根据所述第二预测异常类别、所述关联标签样本数据对应的真实异常类别标签、所述第二预测场景类型、所述关联场景类型,确定第二损失函数值;
根据所述第一损失函数值与所述第二损失函数值,对所述初始类别预测模型进行训练,得到所述类别预测模型。
3.根据权利要求2所述的方法,其特征在于,所述根据所述第一损失函数值与所述第二损失函数值,对所述初始类别预测模型进行训练,得到所述类别预测模型,包括:
根据所述第一损失函数值与所述第二损失函数值,生成目标损失函数值;
若所述目标损失函数值满足模型收敛条件,则将所述初始类别预测模型作为所述类别预测模型;
若所述目标损失函数值未满足模型收敛条件,则获取梯度优化函数,根据所述梯度优化函数与所述目标损失函数值对所述初始类别预测模型的模型参数进行调整,得到包含调整后的模型参数的类别预测模型。
4.根据权利要求1所述的方法,其特征在于,所述根据每两个目标样本数据之间的相似度、所述对象标签样本数据对应的真实异常类别标签以及所述关联标签样本数据对应的真实异常类别标签,对所述虚拟异常类别标签进行优化调整,得到目标异常类别标签,包括:
将每个目标样本数据均确定为图网络的节点;
将所述对象标签样本数据对应的真实异常类别标签,作为属于所述对象标签样本数据的节点的节点值;
将所述无标签样本数据对应的虚拟异常类别标签,作为属于所述无标签样本数据的节点的节点值;
将所述关联标签样本数据对应的真实异常类别标签,作为属于关联标签样本数据的节点的节点值;
确定每两个目标样本数据之间的相似度,根据所述相似度、所述每个目标样本数据对应的节点以及每个节点的节点值,构建所述图网络;
根据所述图网络对所述虚拟异常类别标签进行优化调整,得到所述目标异常类别标签。
5.根据权利要求4所述的方法,其特征在于,所述目标样本数据包括目标样本数据Si与目标样本数据Sj;i、j均为正整数;
所述确定每两个目标样本数据之间的相似度,包括:
将所述目标样本数据Si与目标样本数据Sj输入至所述类别预测模型,通过所述类别预测模型的特征提取层提取所述目标样本数据Si对应的隐藏特征向量ka,以及所述目标样本数据Sj对应的隐藏特征向量kb;a、b均为正整数;
确定所述隐藏特征向量ka与所述隐藏特征向量kb之间的向量距离;
将所述向量距离作为所述目标样本数据Si与所述目标样本数据Sj之间的相似度。
6.根据权利要求4所述的方法,其特征在于,所述目标样本数据包括目标样本数据Si与目标样本数据Sj;i、j均为正整数;
所述确定每两个目标样本数据之间的相似度,包括:
将所述目标样本数据Si与目标样本数据Sj输入至所述类别预测模型,通过所述类别预测模型的特征提取层提取所述目标样本数据Si对应的隐藏特征向量ka,以及所述目标样本数据Sj对应的隐藏特征向量kb;a、b均为正整数;
确定所述隐藏特征向量ka与所述隐藏特征向量kb之间的角度值,根据所述角度值确定所述隐藏特征向量ka与所述隐藏特征向量kb之间的余弦值;
将所述余弦值作为所述目标样本数据Si与所述目标样本数据Sj之间的相似度。
7.根据权利要求4所述的方法,其特征在于,所述根据所述相似度、所述每个目标样本数据对应的节点以及每个节点的节点值,构建所述图网络,包括:
将每两个节点之间的相似度确定为相似度集合;
将所述相似度集合中的每个相似度与相似度阈值进行比较,在所述相似度集合中获取大于或等于所述相似度阈值的目标相似度;
为具有所述目标相似度的两个节点之间创建关联边,生成包含所述每个目标样本数据对应的节点、所述每个节点的节点值以及所述关联边的图网络。
8.根据权利要求7所述的方法,其特征在于,所述根据所述图网络对所述虚拟异常类别标签进行优化调整,得到所述目标异常类别标签,包括:
在所述图网络中获取所述无标签样本数据对应的节点,作为目标节点;
在所述图网络中获取与所述目标节点之间存在所述关联边的节点,作为目标关联节点;
根据所述目标关联节点的节点值、所述目标关联节点与所述目标节点之间的相似度对所述目标节点的节点值进行优化调整,得到目标节点值,根据所述目标节点值确定所述目标异常类别标签。
9.根据权利要求8所述的方法,其特征在于,所述目标关联节点包括第一目标关联节点以及第二目标关联节点;
所述根据所述目标关联节点的节点值、所述目标关联节点与所述目标节点之间的相似度对所述目标节点的节点值进行优化调整,得到目标节点值,包括:
获取所述第一目标关联节点与所述目标节点之间的第一相似度,以及所述第二目标关联节点与所述目标节点之间的第二相似度;
获取所述第一目标关联节点的第一节点值,以及所述第二目标关联节点的第二节点值;
将所述第一相似度与所述第一节点值进行相乘处理,得到第一运算值;
将所述第二相似度与所述第二节点值进行相乘处理,得到第二运算值;
根据所述第一运算值、所述第二运算值对所述目标节点的节点值进行优化调整,得到所述目标节点值。
10.根据权利要求9所述的方法,其特征在于,所述根据所述第一运算值、所述第二运算值对所述目标节点的节点值进行优化调整,得到所述目标节点值,包括:
将所述第一运算值与所述第二运算值进行相加处理,得到目标运算值;
获取所述目标运算值对应的标签值,将所述目标运算值对应的标签值与所述目标节点的节点值进行匹配;
若所述目标运算值对应的标签值与所述目标节点的节点值不相同,则将所述目标节点的节点值替换为所述目标运算值对应的标签值,根据所述第一目标关联节点的第一调整节点值、所述第一相似度、所述第二目标关联节点的第二调整节点值以及所述第二相似度对所述目标节点的节点值进行优化调整,得到所述目标节点值;所述第一调整节点值是根据所述第一目标关联节点对应的关联节点的节点值,对所述第一节点值进行优化调整得到;所述第二调整节点值是根据所述第二目标关联节点对应的关联节点的节点值,对所述第二节点值进行优化调整得到;
若所述目标运算值对应的标签值与所述目标节点的节点值相同,则确定所述目标节点的节点值处于收敛状态,将所述目标节点的节点值作为所述目标节点值。
11.根据权利要求10所述的方法,其特征在于,所述根据所述目标节点值确定所述目标异常类别标签,包括:
当所述目标节点的节点值处于收敛状态时,将与所述目标节点的节点值相同的标签值所对应的目标运算值,确定为收敛运算值;
确定所述目标节点值与所述收敛运算值之间的差值绝对值;
将所述差值绝对值与第一标签阈值以及第二标签阈值进行匹配,在所述差值绝对值中获取大于所述第一标签阈值或小于所述第二标签阈值的目标差值绝对值;所述第二标签阈值小于所述第一标签阈值;
将所述目标差值绝对值对应的目标节点值确定为所述目标异常类别标签。
12.根据权利要求1所述的方法,其特征在于,所述方法还包括:
将所述对象标签样本数据与所述无标签样本数据输入至所述类别预测模型,通过所述类别预测模型输出所述对象标签样本数据对应的第三预测异常类别,以及所述无标签样本数据对应的第四预测异常类别;
获取所述对象标签样本数据对应的真实异常类别标签,以及所述无标签样本数据对应的所述目标异常类别标签;
根据所述第三预测异常类别、所述对象标签样本数据对应的真实异常类别标签、所述第四预测异常类别以及所述目标异常类别标签,确定第三损失值;
根据所述第三损失值对所述类别预测模型进行优化训练,得到目标类别预测模型。
13.根据权利要求12所述的方法,其特征在于,所述方法还包括:
获取属于所述目标场景类型的待识别数据;
将所述待识别数据输入至所述目标类别预测模型,通过所述目标类别预测模型的特征提取层提取所述待识别数据的隐藏特征向量;
将所述待识别数据的隐藏特征向量输入至所述目标类别预测模型的特征分类层,通过所述特征分类层输出所述待识别数据对应的初始预测异常类别与所述初始预测异常类别对应的预测概率;
在所述预测概率中获取最大预测概率,将所述最大预测概率对应的初始预测异常类别确定为所述待识别数据对应的预测异常类别。
14.一种计算机设备,其特征在于,包括:处理器、存储器以及网络接口;
所述处理器与所述存储器、所述网络接口相连,其中,所述网络接口用于提供网络通信功能,所述存储器用于存储程序代码,所述处理器用于调用所述程序代码,以执行权利要求1-13任一项所述的方法。
15.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,所述计算机程序适于由处理器加载并执行权利要求1-13任一项所述的方法。
CN202110275967.0A 2021-03-15 2021-03-15 一种数据处理方法、设备以及可读存储介质 Active CN113011646B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110275967.0A CN113011646B (zh) 2021-03-15 2021-03-15 一种数据处理方法、设备以及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110275967.0A CN113011646B (zh) 2021-03-15 2021-03-15 一种数据处理方法、设备以及可读存储介质

Publications (2)

Publication Number Publication Date
CN113011646A CN113011646A (zh) 2021-06-22
CN113011646B true CN113011646B (zh) 2024-05-31

Family

ID=76407175

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110275967.0A Active CN113011646B (zh) 2021-03-15 2021-03-15 一种数据处理方法、设备以及可读存储介质

Country Status (1)

Country Link
CN (1) CN113011646B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113569991B (zh) * 2021-08-26 2024-05-28 深圳市捷顺科技实业股份有限公司 人证比对模型训练方法、计算机设备及计算机存储介质
CN113782187B (zh) * 2021-09-10 2023-06-27 深圳平安智慧医健科技有限公司 指标数据处理方法、相关设备及介质
CN113656927B (zh) * 2021-10-20 2022-02-11 腾讯科技(深圳)有限公司 数据处理方法、相关设备及计算机存储介质
CN113987324A (zh) * 2021-10-21 2022-01-28 北京达佳互联信息技术有限公司 一种数据处理方法、装置、设备及存储介质
CN114185881B (zh) * 2021-12-14 2024-06-04 中国平安财产保险股份有限公司 异常数据自动修复方法、装置、设备及存储介质
CN115096375B (zh) * 2022-08-22 2022-11-04 启东亦大通自动化设备有限公司 基于托辊搬运小车检测的托辊运行状态监测方法和装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012165517A1 (ja) * 2011-05-30 2012-12-06 日本電気株式会社 確率モデル推定装置、方法、および記録媒体
CN111582342A (zh) * 2020-04-29 2020-08-25 腾讯科技(深圳)有限公司 一种图像识别方法、装置、设备以及可读存储介质
CN111860677A (zh) * 2020-07-29 2020-10-30 湖南科技大学 一种基于部分域对抗的滚动轴承迁移学习故障诊断方法
CN112418442A (zh) * 2020-12-02 2021-02-26 深圳前海微众银行股份有限公司 联邦迁移学习的数据处理方法、装置、设备及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012165517A1 (ja) * 2011-05-30 2012-12-06 日本電気株式会社 確率モデル推定装置、方法、および記録媒体
CN111582342A (zh) * 2020-04-29 2020-08-25 腾讯科技(深圳)有限公司 一种图像识别方法、装置、设备以及可读存储介质
CN111860677A (zh) * 2020-07-29 2020-10-30 湖南科技大学 一种基于部分域对抗的滚动轴承迁移学习故障诊断方法
CN112418442A (zh) * 2020-12-02 2021-02-26 深圳前海微众银行股份有限公司 联邦迁移学习的数据处理方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN113011646A (zh) 2021-06-22

Similar Documents

Publication Publication Date Title
CN113011646B (zh) 一种数据处理方法、设备以及可读存储介质
CN111724083B (zh) 金融风险识别模型的训练方法、装置、计算机设备及介质
CN111401558A (zh) 数据处理模型训练方法、数据处理方法、装置、电子设备
CN111681091B (zh) 基于时间域信息的金融风险预测方法、装置及存储介质
CN112365007A (zh) 模型参数确定方法、装置、设备及存储介质
CN112702410B (zh) 一种基于区块链网络的评估***、方法及相关设备
CN115905605A (zh) 一种数据处理方法、设备以及计算机可读存储介质
CN113850669A (zh) 用户分群方法、装置、计算机设备及计算机可读存储介质
CN117592096A (zh) 基于联邦学习隐私保护的异常金融账户检测方法及装置
CN117422553A (zh) 区块链网络的交易处理方法、装置、设备、介质和产品
CN112989182A (zh) 信息处理方法、装置、信息处理设备及存储介质
CN113935738A (zh) 交易数据处理方法、装置、存储介质及设备
Sui et al. Multi-level membership inference attacks in federated Learning based on active GAN
CN116629612A (zh) 一种风险预测的方法、装置、存储介质及电子设备
CN111260219A (zh) 资产类别识别方法、装置、设备及计算机可读存储介质
CN116522131A (zh) 对象表示方法、装置、电子设备及计算机可读存储介质
CN112116441B (zh) 金融风险分类模型的训练方法、分类方法、装置及设备
CN116150429A (zh) 异常对象识别方法、装置、计算设备以及存储介质
CN115620019A (zh) 商品侵权检测方法及其装置、设备、介质、产品
CN114493850A (zh) 基于人工智能的在线公证方法、***及存储介质
Wu et al. Applying a Probabilistic Network Method to Solve Business‐Related Few‐Shot Classification Problems
CN117009883B (zh) 对象分类模型构建方法、对象分类方法、装置和设备
CN118260683B (zh) 一种基于大数据的反欺诈模型训练方法及***
CN116109823B (zh) 数据处理方法、装置、电子设备、存储介质和程序产品
CN116628236B (zh) 多媒体信息的投放方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40046033

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant