CN117540206A - 一种标签预测方法、装置、设备及存储介质 - Google Patents

一种标签预测方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN117540206A
CN117540206A CN202311470334.0A CN202311470334A CN117540206A CN 117540206 A CN117540206 A CN 117540206A CN 202311470334 A CN202311470334 A CN 202311470334A CN 117540206 A CN117540206 A CN 117540206A
Authority
CN
China
Prior art keywords
nodes
node
transaction
unknown
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311470334.0A
Other languages
English (en)
Inventor
顾河建
汤韬
赵金涛
高鹏飞
杨燕明
郑建宾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Unionpay Co Ltd
Original Assignee
China Unionpay Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Unionpay Co Ltd filed Critical China Unionpay Co Ltd
Priority to CN202311470334.0A priority Critical patent/CN117540206A/zh
Publication of CN117540206A publication Critical patent/CN117540206A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/01Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请实施例提供了一种标签预测方法、装置、设备及存储介质,涉及计算机技术领域,包括:获取当前时间窗口的待预测交易网络,待预测交易网络包含至少一个黑样本节点和多个未知节点,黑样本节点指标注有黑样本标签的交易节点,未知节点指没有标注样本标签的交易节点;从多个未知节点中划分出与黑样本节点关联的候选节点,并对划分出的各个候选节点分别标注黑样本标签;通过标签传播模型,基于其他未知节点分别与周围各个相邻节点的连接权重,迭代确定其他未知节点各自属于黑样本节点的目标概率值;基于获得的每个目标概率值,对相应未知节点标注相应的样本标签,实现了对样本数据的深层次挖掘,有效提高了标签预测的准确性。

Description

一种标签预测方法、装置、设备及存储介质
技术领域
本申请实施例涉及计算机技术领域,尤其涉及一种标签预测方法、装置、设备及存储介质。
背景技术
当前,电信网络安全已成为社会痛点问题,如何通过数据挖掘方法,发现电信网络安全中存在的风险交易银行卡,及潜在的受害者用户,同时挖掘潜在的团伙化风险社群已成为热点议题。在风险侦测等场景中,普遍存在黑名单样本难以利用,新场景样本标签稀缺的情况下难以侦测的问题。
针对样本标签稀缺的问题,相关技术下,基于未标记政策语料库对WoBERT进行连续的预训练,获得政策领域专用的语言模型。利用政策领域专用的语言模型,从未标记政策语料库中学习与标签名称语义相关的种子词,并为每个类别种子词构建种子词汇表,利用种子词汇表中的类别种子词信息,为未标记的政策生成伪标签,并将带有伪标签的政策添加到伪训练集中,利用伪训练集对政策领域专用的语言模型进行训练,再利用训练好的政策领域专用的语言模型为政策进行编码操作,完成多标签政策分类。
上述基于机器学***衡(比如,平均每日发现新黑卡样本标签约为10-50张,而对应交易涉及用户样本规模在10-100万张卡),且数据动态性较强(比如,黑卡样本仅在较少交易日下有交易表现,样本特征不具有长期持续性)。因此,上述基于机器学***衡的情况难以对样本进行深层次挖掘,从而导致标签预测的准确性较低。
发明内容
本申请实施例提供了一种标签预测方法、装置、设备及存储介质,实现了对样本数据的深层次挖掘,有效提高了标签预测的准确性。
第一方面,本申请实施例提供了一种标签预测方法,包括:
获取当前时间窗口的待预测交易网络,所述待预测交易网络包含至少一个黑样本节点和多个未知节点,所述黑样本节点指标注有黑样本标签的交易节点,所述未知节点指没有标注样本标签的交易节点;
从所述多个未知节点中划分出与所述黑样本节点关联的候选节点,并对划分出的各个候选节点分别标注黑样本标签;
通过标签传播模型,基于其他未知节点分别与周围各个相邻节点的连接权重,迭代确定其他未知节点各自属于黑样本节点的目标概率值;
基于获得的每个目标概率值,对相应未知节点标注相应的样本标签。
本申请实施例中,通过从待预测交易网络中划分出与已知黑样本节点关联的候选节点,并对划分出的各个候选节点分别标注黑样本标签,再通过标签传播模型基于其他未知节点分别与周围各个相邻节点的连接权重,迭代确定其他未知节点各自属于黑样本节点的目标概率值,最后基于获得的每个目标概率值,对相应未知节点标注相应的样本标签,即通过图关联关系拓展标签,实现了在数据动态性较强、样本及标签不平衡的情况下,对样本数据进行深层次挖掘,有效提高了标签预测的准确性,扩大了标签规模,缓解样本及标签不平衡问题。
一种可选实施方式中,所述通过标签传播模型,基于其他未知节点分别与周围各个相邻节点的连接权重,迭代确定其他未知节点各自属于黑样本节点的目标概率值,包括:
针对每个未知节点,基于所述未知节点与周围各个相邻节点的连接权重以及所述未知节点上一轮迭代获得的候选概率值,确定所述未知节点本轮迭代获得的候选概率值,所述候选概率值表征所述未知节点属于黑样本节点的概率值;
将本轮迭代获得的多个的候选概率值求和,获得本轮迭代的迭代状态值;
在所述本轮迭代的迭代状态值与上一轮迭代的迭代状态值的差值小于容差阈值时,结束迭代,并将本轮迭代获得的各个未知节点的候选概率值,作为所述各个未知节点的目标概率值。
一种可选实施方式中,从所述多个未知节点中划分出与所述黑样本节点关联的候选节点,并对划分出的各个候选节点分别标注黑样本标签之后,还包括:
获取前一个时间窗口的历史交易网络,以及所述历史交易网络中各个交易节点的样本标签;
确定所述历史交易网络与所述待预测交易网络之间的共有交易节点以及相应的样本标签;
对剩余的各个未知节点中与共有交易节点匹配的未知节点,标注所述共有交易节点对应的样本标签。
上述方式下,通过获取前一个时间窗口的历史交易网络,以及历史交易网络中各个交易节点的样本标签,并确定历史交易网络与待预测交易网络之间的共有交易节点以及相应的样本标签,再对剩余的各个未知节点中与共有交易节点匹配的未知节点,标注共有交易节点对应的样本标签,能够有效扩展标签规模,缓解样本及标签不平衡的问题,进而有效提高标签预测的准确性。其次,引入历史交易风险实现风险继承传播,能有效挖掘动态数据中的历史知识信息,挖掘深层次风险关系。
一种可选实施方式中,所述获取前一个时间窗口的历史交易网络,以及所述历史交易网络中各个交易节点的样本标签,包括:
获取前一个时间窗口的历史交易网络,所述待预测交易网络包含至少一个黑样本节点和多个未知节点;
从所述多个未知节点中划分出与所述黑样本节点关联的候选节点,并对划分出的各个候选节点分别标注黑样本标签;
通过标签传播模型,基于其他未知节点分别与周围各个相邻节点的连接权重,迭代确定其他未知节点各自属于黑样本节点的目标概率值;
基于获得的每个目标概率值,对相应未知节点标注相应的样本标签。
上述方式下,通过获取前一个时间窗口的历史交易网络,从待预测交易网络中多个未知节点中划分出与黑样本节点关联的候选节点,并对候选节点分别标注黑样本标签,再通过标签传播模型,基于其他未知节点分别与周围各个相邻节点的连接权重,迭代确定其他未知节点各自属于黑样本节点的目标概率值,最后基于获得的每个目标概率值,对相应未知节点标注相应的样本标签,能够有效扩展标签规模,缓解样本及标签不平衡的问题,进而有效提高标签预测的准确性。
一种可选实施方式中,所述基于获得的每个目标概率值,对相应未知节点标注相应的样本标签之后,还包括:
对所述待预测交易网络进行连通图划分,获得多个连通子图;
将所述多个连通子图中包含黑样本节点的连通子图,作为风险社群。
上述方式下,通过将待预测交易网络进行连通图划分,获得多个连通子图,再将多个连通子图中包含黑样本节点的连通子图,作为风险社群,能够直观展示黑样本风险社群情况,具有较强的可解释性。其次,针对性提升大规模图分析处理能力,有效表征风险社群局部风险特征,实现更精准的风险社群挖掘。
一种可选实施方式中,所述基于获得的每个目标概率值,对相应未知节点标注相应的样本标签之后,还包括:
采用所述待预测交易网络中的多个交易节点以及相应的样本标签,训练分类模型。
一种可选实施方式中,所述待预测交易网络中的每个交易节点对应一个交易***,所述任意两个交易节点之间的连接关系,至少用于表征所述任意两个交易节点之间是否发生交易。
第二方面,本申请实施例提供了一种标签预测装置,包括:
获取单元,用于获取当前时间窗口的待预测交易网络,所述待预测交易网络包含至少一个黑样本节点和多个未知节点,所述黑样本节点指标注有黑样本标签的交易节点,所述未知节点指没有标注样本标签的交易节点;
节点划分单元,用于从所述多个未知节点中划分出与所述黑样本节点关联的候选节点,并对划分出的各个候选节点分别标注黑样本标签;
预测单元,用于通过标签传播模型,基于其他未知节点分别与周围各个相邻节点的连接权重,迭代确定其他未知节点各自属于黑样本节点的目标概率值;
标注单元,用于基于获得的每个目标概率值,对相应未知节点标注相应的样本标签。
一种可选实施方式中,所述预测单元具体用于:
针对每个未知节点,基于所述未知节点与周围各个相邻节点的连接权重以及所述未知节点上一轮迭代获得的候选概率值,确定所述未知节点本轮迭代获得的候选概率值,所述候选概率值表征所述未知节点属于黑样本节点的概率值;
将本轮迭代获得的多个的候选概率值求和,获得本轮迭代的迭代状态值;
在所述本轮迭代的迭代状态值与上一轮迭代的迭代状态值的差值小于容差阈值时,结束迭代,并将本轮迭代获得的各个未知节点的候选概率值,作为所述各个未知节点的目标概率值。
一种可选实施方式中,还包括共有节点标注单元;
所述共有节点标注单元具体用于:
从所述多个未知节点中划分出与所述黑样本节点关联的候选节点,并对划分出的各个候选节点分别标注黑样本标签之后,获取前一个时间窗口的历史交易网络,以及所述历史交易网络中各个交易节点的样本标签;
确定所述历史交易网络与所述待预测交易网络之间的共有交易节点以及相应的样本标签;
对剩余的各个未知节点中与共有交易节点匹配的未知节点,标注所述共有交易节点对应的样本标签。
一种可选实施方式中,所述共有节点标注单元具体用于:
获取前一个时间窗口的历史交易网络,所述待预测交易网络包含至少一个黑样本节点和多个未知节点;
从所述多个未知节点中划分出与所述黑样本节点关联的候选节点,并对划分出的各个候选节点分别标注黑样本标签;
通过标签传播模型,基于其他未知节点分别与周围各个相邻节点的连接权重,迭代确定其他未知节点各自属于黑样本节点的目标概率值;
基于获得的每个目标概率值,对相应未知节点标注相应的样本标签。
一种可选实施方式中,还包括风险社群预测单元;
所述风险社群预测单元具体用于:
基于获得的每个目标概率值,对相应未知节点标注相应的样本标签之后,
对所述待预测交易网络进行连通图划分,获得多个连通子图;
将所述多个连通子图中包含黑样本节点的连通子图,作为风险社群。
一种可选实施方式中,还包括模型训练单元;
所述模型训练单元具体用于:
采用所述待预测交易网络中的多个交易节点以及相应的样本标签,训练分类模型。
第三方面,本申请实施例提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述标签预测方法的步骤。
第四方面,本申请实施例提供了一种计算机可读存储介质,其存储有可由计算机设备执行的计算机程序,当所述程序在计算机设备上运行时,使得所述计算机设备执行上述标签预测方法的步骤。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种***架构的结构示意图;
图2为本申请实施例提供的一种标签预测方法的流程示意图;
图3A为本申请实施例提供的一种标签预测方法的结构示意图;
图3B为本申请实施例提供的一种标签预测方法的结构示意图;
图4为本申请实施例提供的一种标签预测方法的流程示意图;
图5为本申请实施例提供的一种标签预测装置的结构示意图;
图6为本申请实施例提供的一种计算机设备的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及有益效果更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
为了更清楚地解释本申请实施例,提供以下名词解释:
半监督学习:(Semi-Supervised Learning,简称SSL),是监督学习与无监督学习相结合的一种学习方法,半监督学习使用大量的未标记数据,以及同时使用标记数据,来进行模型识别。
参见图1,其为本申请实施例适用的一种***架构图,该***架构至少包括终端设备101和标签预测***102,终端设备101的数量可以是一个或多个,标签预测***102的数量也可以是一个或多个,本申请对终端设备101和标签预测***102的数量不做具体限定。
终端设备101中预先安装应用,其中,应用是客户端应用、网页版应用、小程序应用等。终端设备101可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能家电、智能语音交互设备、智能车载设备等,但并不局限于此。
标签预测***102是应用的后台服务器,标签预测***102可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式***,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,简称CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端设备101与标签预测***102可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
本申请实施例中的信息标签预测方法可以是终端设备101执行,也可以是标签预测***102执行,还可以由终端设备101与标签预测***102交互执行。
基于图1所示的***架构图,本申请实施例提供了一种信息标签预测方法的流程示意图,如图2所示,该方法的流程由计算机设备执行,该计算机设备可以是图1所示的终端设备101和/或标签预测***102,包括以下步骤:
步骤201,获取当前时间窗口的待预测交易网络,待预测交易网络包含至少一个黑样本节点和多个未知节点,黑样本节点指标注有黑样本标签的交易节点,未知节点指没有标注样本标签的交易节点。
一种可选实施方式中,待预测交易网络中的每个交易节点对应一个交易***,任意两个交易节点之间的连接关系,至少用于表征任意两个交易节点之间是否发生交易。
具体地,黑样本节点指:标注的样本标签为黑样本标签的交易节点,表示交易节点对应的交易***为风险***。在实际应用中,黑样本标签的标签值可以采用1表示。
需要说明的是,交易节点不仅限于对应于交易***,还可以对应用户标识、商户标识等;同样地,两个交易节点之间的连接关系还可以用于表征两个交易节点的交易频次、金额等。
步骤202,从多个未知节点中划分出与黑样本节点关联的候选节点,并对划分出的各个候选节点分别标注黑样本标签。
具体地,在待预测交易网络中,交易节点之间存在逻辑关联,若交易***与交易***之间发生实际交易,则具体表现为对应的交易节点间存在连接。对与黑样本节点存在连接关系的未知节点分别标注黑样本标签,即标注为1;也就是将与黑样本节点存在连接关系的未知节点合并至黑样本节点所在的类别,将其他未知节点作为一个类别。
步骤203,通过标签传播模型,基于其他未知节点分别与周围各个相邻节点的连接权重,迭代确定其他未知节点各自属于黑样本节点的目标概率值。
一种可选实施方式中,针对每个未知节点,基于未知节点与周围各个相邻节点的连接权重以及未知节点上一轮迭代获得的候选概率值,确定未知节点本轮迭代获得的候选概率值,候选概率值表征未知节点属于黑样本节点的概率值;
将本轮迭代获得的多个的候选概率值求和,获得本轮迭代的迭代状态值;
在本轮迭代的迭代状态值与上一轮迭代的迭代状态值的差值小于容差阈值时,结束迭代,并将本轮迭代获得的各个未知节点的候选概率值,作为各个未知节点的目标概率值。
具体地,标签传播模型主要根据图上已知部分节点的标签,将标签传递给未知标签的节点,不断重复此过程直到图上节点的标签被收敛为止。对于每个交易节点i∈V,都有一个标签值yi∈[0,1],yi代表交易节点属于为黑样本节点的概率,V表示待预测交易网络中的交易节点集合。
在初始情况下,对于待预测交易网络中原先被标注为1的黑样本节点,以及与黑样本节点关联的候选节点的标签值yi都设置为1。对于其他未知节点,其初始yi=0.5。在标签传播模型执行过程中,对于每个未知节点j∈V,算法通过公式(1)计算该未知节点的候选概率值:
其中,Nj表示与未知节点j∈V相连的节点集合,wij表示节点i和未知节点j之间的连接权重。即,未知节点与周围各个相邻节点的连接权重分别与未知节点上一轮迭代获得的候选概率值相乘后累加,再对累积结果求平均,得到未知节点本轮迭代获得的候选概率值。
不断地重复上述公式实现标签的迭代,直到整个图上标签的分布趋于一个稳定状态为止,即其中,/>代表第i次迭代计算后所有未知节点的候选概率值的和,Δt为容差阈值。通过上述传播方式,即可基于待预测交易网络中初始标注的黑样本节点,获得待预测交易网络中其他未知节点的样本标签。
步骤204,基于获得的每个目标概率值,对相应未知节点标注相应的样本标签。
具体地,若针对未知节点i,得到的目标概率值大于预设阈值,则对未知节点i标注黑样本标签,否则对未知节点i标注白样本标签,其中,白样本标签表示交易节点对应的交易***正常。
本申请实施例中,通过从待预测交易网络中划分出与已知黑样本节点关联的候选节点,并对划分出的各个候选节点分别标注黑样本标签,再通过标签传播模型基于其他未知节点分别与周围各个相邻节点的连接权重,迭代确定其他未知节点各自属于黑样本节点的目标概率值,最后基于获得的每个目标概率值,对相应未知节点标注相应的样本标签,即通过图关联关系拓展标签,实现了在数据动态性较强、样本及标签不平衡的情况下,对样本数据进行深层次挖掘,有效提高了标签预测的准确性,扩大了标签规模,缓解样本及标签不平衡问题。
一种可选实施方式中,从多个未知节点中划分出与黑样本节点关联的候选节点,并对划分出的各个候选节点分别标注黑样本标签之后,获取前一个时间窗口的历史交易网络,以及历史交易网络中各个交易节点的样本标签。确定历史交易网络与待预测交易网络之间的共有交易节点以及相应的样本标签;对剩余的各个未知节点中与共有交易节点匹配的未知节点,标注共有交易节点对应的样本标签。最后通过标签传播模型,基于其他未知节点分别与周围各个相邻节点的连接权重,迭代确定其他未知节点各自属于黑样本节点的目标概率值。
具体地,对与黑样本节点存在连接关系的未知节点分别标注黑样本标签之后,若剩余的各个未知节点中包含历史交易网络与待预测交易网络之间的共有交易节点,则将继承共有交易节点的样本标签。
上述方式下,通过获取前一个时间窗口的历史交易网络,以及历史交易网络中各个交易节点的样本标签,并确定历史交易网络与待预测交易网络之间的共有交易节点以及相应的样本标签,再对剩余的各个未知节点中与共有交易节点匹配的未知节点,标注共有交易节点对应的样本标签,能够有效扩展标签规模,缓解样本及标签不平衡的问题,进而有效提高标签预测的准确性。其次,引入历史交易风险实现风险继承传播,能有效挖掘动态数据中的历史知识信息,挖掘深层次风险关系。
一种可选实施方式中,历史交易网络中各个交易节点的样本标签是采用以下方式获得的:
获取前一个时间窗口的历史交易网络,待预测交易网络包含至少一个黑样本节点和多个未知节点;从多个未知节点中划分出与黑样本节点关联的候选节点,并对划分出的各个候选节点分别标注黑样本标签;通过标签传播模型,基于其他未知节点分别与周围各个相邻节点的连接权重,迭代确定其他未知节点各自属于黑样本节点的目标概率值;基于获得的每个目标概率值,对相应未知节点标注相应的样本标签。
具体地,获取前一个时间窗口的历史交易网络,待预测交易网络包含:已知的黑样本节点和未知节点,对与已知黑样本节点连接的未知节点分别标注黑样本标签。进一步地,通过标签传播模型,预测其他未知节点各自属于黑样本节点的目标概率值,进而确定相应的样本标签。
举例来说,参见图3A,包括前一个时间窗口的历史交易网络G0和待预测交易网络G1,历史交易网络G0中存在三类交易节点,分别为黑样本、灰样本和未知样本。黑样本包括:交易节点7和交易节点8;灰样本包括:交易节点1、交易节点2;未知样本包括:交易节点3、交易节点4、交易节点5、交易节点6。
其中,黑样本中的各个交易节点为黑样本节点,并标注有黑样本标签,灰样本代表与黑样本发生实际交易具有关联的样本,灰样本和白样本都没有标注样本标签。
由于交易节点1与交易节点8(黑样本节点)连接,因此,将交易节点1也标注黑样本标签,同样地,将交易节点2也标注黑样本标签。至此,将黑样本与灰样本合并,作为一类交易节点;将未知样本作为一类交易节点,经过此操作,可以将多分类问题转化为二分类问题,对已知标签样本规模进行了拓展,一定程度上缓解了样本不平衡的问题。
进一步地,将交易节点1、交易节点2、交易节点7和交易节点8各自的初始标签值yi设为1;将交易节点3、交易节点4、交易节点5、交易节点6各自的初始标签值yi设为0.5。
以上述初始标签值为输入,通过标签传播模型,确定历史交易网络G0中交易节点3、交易节点4、交易节点5、交易节点6各自的目标标签值。当交易节点3的目标标签值大于预设阈值时,对交易节点3标注黑样本标签,否则对交易节点3标注白样本标签。同理,可以标注交易节点4、交易节点5、交易节点6的样本标签。此时,历史交易网络G0中的所有交易节点的样本标签都为已知。
待预测交易网络G1中存在三类交易节点,分别为黑样本、灰样本和未知样本。黑样本包括:交易节点7、交易节点8、交易节点12;灰样本包括:交易节点9、交易节点11、交易节点13;未知样本包括:交易节点6、交易节点10。
因为交易节点9和交易节点7连接,所以将交易节点9标注为黑样本标签,同样的,交易节点11、交易节点13和交易节点12连接,将交易节点11和交易节点13都标注为黑样本标签。
历史交易网络G0与待预测交易网络G1之间的共有交易节点为交易节点6、交易节点7、交易节点8,在历史交易网络G0中,交易节点6、交易节点7、交易节点8的样本标签已知,则待预测交易网络G1中的交易节点6、交易节点7、交易节点8直接继承历史交易网络G0中相应交易节点的样本标签。
进一步地,将交易节点7、交易节点8、交易节点9、交易节点11、交易节点12、交易节点13各自的初始标签值yi设为1;将交易节点6的初始标签值yi设为在历史交易网络G0时预测得到的目标标签值;将交易节点10的初始标签值yi设为0.5。
以上述初始标签值为输入,通过标签传播模型,确定待预测交易网络G1中交易节点10的目标标签值,当交易节点10的目标标签值大于预设阈值时,对交易节点10标注黑样本标签,否则对交易节点10标注白样本标签。
需要说明的是,历史交易网络中各个交易节点的样本标签也可以是预先设置的,对此,本申请不做具体限定。
上述方式下,通过获取前一个时间窗口的历史交易网络,以及历史交易网络中各个交易节点的样本标签,并确定历史交易网络与待预测交易网络之间的共有交易节点以及相应的样本标签,再对剩余的各个未知节点中与共有交易节点匹配的未知节点,标注共有交易节点对应的样本标签,能够有效扩展标签规模,缓解样本及标签不平衡的问题,进而有效提高标签预测的准确性。其次,引入历史交易风险实现风险继承传播,能有效挖掘动态数据中的历史知识信息,挖掘深层次风险关系。
一种可选实施方式中,基于获得的每个目标概率值,对相应未知节点标注相应的样本标签之后,对待预测交易网络进行连通图划分,获得多个连通子图;将多个连通子图中包含黑样本节点的连通子图,作为风险社群。
具体地,采用上述任一实施例的方式,待预测交易网络中的所有交易节点的样本标签都为已知后,通过图社区划分模型将待预测交易网络划分为多个连通子图,黑样本节点必定会被划分至至少一个连通子图内,进一步地,在多个连通子图中抽取包含黑样本节点的连通子图,作为风险社群。
图社区划分模型可以是图社区划分模型可以是Louvian算法模型、fastgreedy算法模型、GN算法模型等。
举例来说,参见图3B,采用上述任意一种实施方式获得待预测交易网络G1中各个交易节点的样本标签之后,对待预测交易网络G1进行连通图划分,获得连通子图1、连通子图2、连通子图3和连通子图4。
连通子图1中包括交易节点8、交易节点7和交易节点9,其中,交易节点8和交易节点7为黑样本节点,因此,连通子图1为风险社群。
连通子图2中包括交易节点11、交易节点12和交易节点13,其中,交易节点12为黑样本节点,所以,连通子图2为风险社群。
连通子图3中包括交易节点6和交易节点11,其中,交易节点6和交易节点11都不是黑样本节点,所以,连通子图3不是风险社群。
连通子图4中包括交易节点9和交易节点10,其中,交易节点9和交易节点10都不是黑样本节点,所以,连通子图4不是风险社群。
上述方式下,通过将待预测交易网络进行连通图划分,获得多个连通子图,再将多个连通子图中包含黑样本节点的连通子图,作为风险社群,能够直观展示黑样本风险社群情况,具有较强的可解释性。其次,针对性提升大规模图分析处理能力,有效表征风险社群局部风险特征,实现更精准的风险社群挖掘。
一种可选实施方式中,基于获得的每个目标概率值,对相应未知节点标注相应的样本标签之后,采用待预测交易网络中的多个交易节点以及相应的样本标签,训练分类模型。
具体地,分类模型可以是逻辑回归模型(Logistic Regression)、支持向量机模型(Support Vector Machine)、决策树模型(Decision Tree)、梯度提升树模型(GradientBoosting Tree)等。
为了更好的解释本申请实施例,参见图4,提供一种标签预测方法,具体包括:
根据样本节点间的关联关系以及黑样本标签数据,构建样本交易网络图,其中,样本交易网络图中包含至少一个标注有黑样本标签的黑样本节点和多个没有标注样本标签的未知节点。
将样本交易网络中与黑样本节点具有关联关系的未知节点标注黑样本标签,进而将多分类问题转化为二分类问题。
针对剩余的未知节点,获取前一个时间窗口下的历史交易网络中各个样本节点的样本标签,确定历史交易网络与样本交易网络图中的共有交易节点以及相应的样本标签。对剩余的各个未知节点中与共有交易节点匹配的未知节点,继承共有交易节点对应的样本标签。针对剩余的各个未知节点中的其他未知节点,通过标签传播模型,基于未知节点与周围各个相邻节点的连接权重,迭代确定未知节点各自属于黑样本节点的目标概率值,根据目标概率值,对未知节点标注相应的样本标签。
最后,采用样本交易网络图以及样本交易网络图中所有交易节点的样本标签,训练二分类模型。
以电信网络交易的实际场景为例,本申请进行了实验并取得了良好的有益效果,具体如下:
样本为交易银行卡集,样本标签为通过客户投诉渠道获得的少量交易黑卡及对应的黑卡交易时间,样本关联信息为具体的银行卡转账明细交易。
具体的,相关样本及标签的数据分布情况为:
1、平均每日发现新黑卡样本标签仅有几十张,而对应交易涉及用户样本规模在百万张卡。数据样本标签分布极不平衡,且存在很多黑卡样本没有标注。
2、样本标签黑卡动态性强,仅在较少交易日下有交易表现,样本特征不具有长期持续性。
结合当前场景数据特点,为了更好利用继承风险,本申请实施例选取较短的一天为一个交易窗口周期,通过算法继承前一交易日风险,并结合共同交易卡继承,预测第二交易日风险卡及其对应的风险社群情况。
通过本算法框架,选取某两个连续交易日样本数据,挖掘共有交易样本卡约60000余张,预测风险用户3000余人,其中核心风险实施卡约300余人,成功预测新交易日下黑卡召回率达到64%。对于新交易日下出现的黑卡用户预测召回率达到40%左右,较之传统模型20%左右召回率有显著提升,同时缩小风险社群规模至原交易网络的0.5%左右。尽管模型准确率较低,约10%,但由于当前场景为半监督学习问题,部分未标注交易黑卡为未被识别黑样本,可通过当前模型社群划分及可视化提供较强解释性参考。
进一步地,对新交易日银行卡进行连通图划分,对应将预测黑卡划分至各连通社群,结果显示:约较少数量风险卡落入了规模较小的连通子图,即其在新交易日下的交易关联仅限于较少数交易卡,通过可视化及规则可较快速对节点进行结果输出。
进一步地,通过交易出入度的分析及社群统计信息输出,预测命中新交易日下黑卡的小规模交易社群结果,较为直观地展示了黑卡风险社群情况。
根据结果显示,约千余风险卡落入了同一涉及万余交易卡的大规模风险社群,该大规模图结果难以输出应用。结合图表示学习方法,可基于该千余风险卡,在连通社群中挖掘更小规模的风险社群,提供更可解释的风险结果。
综上所述,通过本申请实施例,可以在样本标签极少的情况下,有效挖掘电信网络交易中潜在风险卡及其社群风险关联关系,在提升风险黑卡预测效果指标的基础上,为实际业务提供较强可解释性。
基于相同的发明构思,参见图5,本申请实施例提供了一种标签预测装置,包括:
获取单元501,用于获取当前时间窗口的待预测交易网络,待预测交易网络包含至少一个黑样本节点和多个未知节点,黑样本节点指标注有黑样本标签的交易节点,未知节点指没有标注样本标签的交易节点。
节点划分单元502,用于从多个未知节点中划分出与黑样本节点关联的候选节点,并对划分出的各个候选节点分别标注黑样本标签。
预测单元503,用于通过标签传播模型,基于其他未知节点分别与周围各个相邻节点的连接权重,迭代确定其他未知节点各自属于黑样本节点的目标概率值。
标注单元504,用于基于获得的每个目标概率值,对相应未知节点标注相应的样本标签。
一种可选实施方式中,预测单元503具体用于:
针对每个未知节点,基于未知节点与周围各个相邻节点的连接权重以及未知节点上一轮迭代获得的候选概率值,确定未知节点本轮迭代获得的候选概率值,候选概率值表征未知节点属于黑样本节点的概率值;
将本轮迭代获得的多个的候选概率值求和,获得本轮迭代的迭代状态值;
在本轮迭代的迭代状态值与上一轮迭代的迭代状态值的差值小于容差阈值时,结束迭代,并将本轮迭代获得的各个未知节点的候选概率值,作为各个未知节点的目标概率值。
一种可选实施方式中,还包括共有节点标注单元505;
共有节点标注单元505具体用于:
从多个未知节点中划分出与黑样本节点关联的候选节点,并对划分出的各个候选节点分别标注黑样本标签之后,
获取前一个时间窗口的历史交易网络,以及历史交易网络中各个交易节点的样本标签;
确定历史交易网络与待预测交易网络之间的共有交易节点以及相应的样本标签;
对剩余的各个未知节点中与共有交易节点匹配的未知节点,标注共有交易节点对应的样本标签。
一种可选实施方式中,共有节点标注单元505还用于:
获取前一个时间窗口的历史交易网络,待预测交易网络包含至少一个黑样本节点和多个未知节点;
从多个未知节点中划分出与黑样本节点关联的候选节点,并对划分出的各个候选节点分别标注黑样本标签;
通过标签传播模型,基于其他未知节点分别与周围各个相邻节点的连接权重,迭代确定其他未知节点各自属于黑样本节点的目标概率值;
基于获得的每个目标概率值,对相应未知节点标注相应的样本标签。
一种可选实施方式中,还包括风险社群预测单元506;
风险社群预测单元506具体用于:
基于获得的每个目标概率值,对相应未知节点标注相应的样本标签之后,
对待预测交易网络进行连通图划分,获得多个连通子图;
将多个连通子图中包含黑样本节点的连通子图,作为风险社群。
一种可选实施方式中,还包括模型训练单元507;
模型训练单元507具体用于:
采用待预测交易网络中的多个交易节点以及相应的样本标签,训练分类模型。
本申请实施例中,通过从待预测交易网络中划分出与已知黑样本节点关联的候选节点,并对划分出的各个候选节点分别标注黑样本标签,再通过标签传播模型基于其他未知节点分别与周围各个相邻节点的连接权重,迭代确定其他未知节点各自属于黑样本节点的目标概率值,最后基于获得的每个目标概率值,对相应未知节点标注相应的样本标签,即通过图关联关系拓展标签,实现了在数据动态性较强、样本及标签不平衡的情况下,对样本数据进行深层次挖掘,有效提高了标签预测的准确性,扩大了标签规模,缓解样本及标签不平衡问题。
基于相同的技术构思,本申请实施例提供了一种计算机设备,该计算机设备可以是图1所示的终端设备和/或标签预测***,如图6所示,包括至少一个处理器601,以及与至少一个处理器连接的存储器602,本申请实施例中不限定处理器601与存储器602之间的具体连接介质,图6中处理器601和存储器602之间通过总线连接为例。总线可以分为地址总线、数据总线、控制总线等。
在本申请实施例中,存储器602存储有可被至少一个处理器601执行的指令,至少一个处理器601通过执行存储器602存储的指令,可以执行上述标签预测方法的步骤。
其中,处理器601是计算机设备的控制中心,可以利用各种接口和线路连接计算机设备的各个部分,通过运行或执行存储在存储器602内的指令以及调用存储在存储器602内的数据,从而实现标签预测。可选的,处理器601可包括一个或多个处理单元,处理器601可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作***、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器601中。在一些实施例中,处理器601和存储器602可以在同一芯片上实现,在一些实施例中,它们也可以在独立的芯片上分别实现。
处理器601可以是通用处理器,例如中央处理器(CPU)、数字信号处理器、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件,可以实现或者执行本申请实施例中公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
存储器602作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块。存储器602可以包括至少一种类型的存储介质,例如可以包括闪存、硬盘、多媒体卡、卡型存储器、随机访问存储器(Random AccessMemory,RAM)、静态随机访问存储器(Static Random Access Memory,SRAM)、可编程只读存储器(Programmable Read Only Memory,PROM)、只读存储器(Read Only Memory,ROM)、带电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,EEPROM)、磁性存储器、磁盘、光盘等等。存储器602是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机设备存取的任何其他介质,但不限于此。本申请实施例中的存储器602还可以是电路或者其它任意能够实现存储功能的装置,用于存储程序指令和/或数据。
基于同一发明构思,本申请实施例提供了一种计算机可读存储介质,其存储有可由计算机设备执行的计算机程序,当程序在计算机设备上运行时,使得计算机设备执行上述标签预测方法的步骤。
本领域内的技术人员应明白,本发明的实施例可提供为方法、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机设备或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机设备或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机设备或其他可编程数据处理设备上,使得在计算机设备或其他可编程设备上执行一系列操作步骤以产生计算机设备实现的处理,从而在计算机设备或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (10)

1.一种标签预测方法,其特征在于,包括:
获取当前时间窗口的待预测交易网络,所述待预测交易网络包含至少一个黑样本节点和多个未知节点,所述黑样本节点指标注有黑样本标签的交易节点,所述未知节点指没有标注样本标签的交易节点;
从所述多个未知节点中划分出与所述黑样本节点关联的候选节点,并对划分出的各个候选节点分别标注黑样本标签;
通过标签传播模型,基于其他未知节点分别与周围各个相邻节点的连接权重,迭代确定其他未知节点各自属于黑样本节点的目标概率值;
基于获得的每个目标概率值,对相应未知节点标注相应的样本标签。
2.如权利要求1所述的方法,其特征在于,所述通过标签传播模型,基于其他未知节点分别与周围各个相邻节点的连接权重,迭代确定其他未知节点各自属于黑样本节点的目标概率值,包括:
针对每个未知节点,基于所述未知节点与周围各个相邻节点的连接权重以及所述未知节点上一轮迭代获得的候选概率值,确定所述未知节点本轮迭代获得的候选概率值,所述候选概率值表征所述未知节点属于黑样本节点的概率值;
将本轮迭代获得的多个的候选概率值求和,获得本轮迭代的迭代状态值;
在所述本轮迭代的迭代状态值与上一轮迭代的迭代状态值的差值小于容差阈值时,结束迭代,并将本轮迭代获得的各个未知节点的候选概率值,作为所述各个未知节点的目标概率值。
3.如权利要求1所述的方法,其特征在于,所述从所述多个未知节点中划分出与所述黑样本节点关联的候选节点,并对划分出的各个候选节点分别标注黑样本标签之后,还包括:
获取前一个时间窗口的历史交易网络,以及所述历史交易网络中各个交易节点的样本标签;
确定所述历史交易网络与所述待预测交易网络之间的共有交易节点以及相应的样本标签;
对剩余的各个未知节点中与共有交易节点匹配的未知节点,标注所述共有交易节点对应的样本标签。
4.如权利要求3所述的方法,其特征在于,所述获取前一个时间窗口的历史交易网络,以及所述历史交易网络中各个交易节点的样本标签,包括:
获取前一个时间窗口的历史交易网络,所述待预测交易网络包含至少一个黑样本节点和多个未知节点;
从所述多个未知节点中划分出与所述黑样本节点关联的候选节点,并对划分出的各个候选节点分别标注黑样本标签;
通过标签传播模型,基于其他未知节点分别与周围各个相邻节点的连接权重,迭代确定其他未知节点各自属于黑样本节点的目标概率值;
基于获得的每个目标概率值,对相应未知节点标注相应的样本标签。
5.如权利要求1所述的方法,其特征在于,所述基于获得的每个目标概率值,对相应未知节点标注相应的样本标签之后,还包括:
对所述待预测交易网络进行连通图划分,获得多个连通子图;
将所述多个连通子图中包含黑样本节点的连通子图,作为风险社群。
6.如权利要求1所述的方法,其特征在于,所述基于获得的每个目标概率值,对相应未知节点标注相应的样本标签之后,还包括:
采用所述待预测交易网络中的多个交易节点以及相应的样本标签,训练分类模型。
7.如权利要求1至6任一所述的方法,所述待预测交易网络中的每个交易节点对应一个交易***,所述任意两个交易节点之间的连接关系,至少用于表征所述任意两个交易节点之间是否发生交易。
8.一种标签预测装置,其特征在于,包括:
获取单元,用于获取当前时间窗口的待预测交易网络,所述待预测交易网络包含至少一个黑样本节点和多个未知节点,所述黑样本节点指标注有黑样本标签的交易节点,所述未知节点指没有标注样本标签的交易节点;
节点划分单元,用于从所述多个未知节点中划分出与所述黑样本节点关联的候选节点,并对划分出的各个候选节点分别标注黑样本标签;
预测单元,用于通过标签传播模型,基于其他未知节点分别与周围各个相邻节点的连接权重,迭代确定其他未知节点各自属于黑样本节点的目标概率值;
标注单元,用于基于获得的每个目标概率值,对相应未知节点标注相应的样本标签。
9.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1~7任一所述方法的步骤。
10.一种计算机可读存储介质,其特征在于,其存储有可由计算机设备执行的计算机程序,当所述程序在计算机设备上运行时,使得所述计算机设备执行权利要求1~7任一所述方法的步骤。
CN202311470334.0A 2023-11-06 2023-11-06 一种标签预测方法、装置、设备及存储介质 Pending CN117540206A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311470334.0A CN117540206A (zh) 2023-11-06 2023-11-06 一种标签预测方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311470334.0A CN117540206A (zh) 2023-11-06 2023-11-06 一种标签预测方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN117540206A true CN117540206A (zh) 2024-02-09

Family

ID=89787249

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311470334.0A Pending CN117540206A (zh) 2023-11-06 2023-11-06 一种标签预测方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN117540206A (zh)

Similar Documents

Publication Publication Date Title
CN110363449B (zh) 一种风险识别方法、装置及***
CN108717408B (zh) 一种敏感词实时监控方法、电子设备、存储介质及***
CN111859986B (zh) 基于多任务孪生网络的语义匹配方法、装置、设备和介质
CN112231416B (zh) 知识图谱本体更新方法、装置、计算机设备及存储介质
CN113051911B (zh) 提取敏感词的方法、装置、设备、介质及程序产品
CN112785005A (zh) 多目标任务的辅助决策方法、装置、计算机设备及介质
CN112487284A (zh) 银行客户画像生成方法、设备、存储介质及装置
CN112884569A (zh) 一种信用评估模型的训练方法、装置及设备
CN111611390A (zh) 一种数据处理方法及装置
CN117726884B (zh) 对象类别识别模型的训练方法、对象类别识别方法及装置
CN113656699B (zh) 用户特征向量确定方法、相关设备及介质
CN108830302B (zh) 一种图像分类方法、训练方法、分类预测方法及相关装置
CN116703682B (zh) 一种基于深度学***台
CN113850669A (zh) 用户分群方法、装置、计算机设备及计算机可读存储介质
CN111259975B (zh) 分类器的生成方法及装置、文本的分类方法及装置
CN112989182A (zh) 信息处理方法、装置、信息处理设备及存储介质
CN114841471B (zh) 知识点预测方法、装置、电子设备和存储介质
CN114513578A (zh) 外呼方法、装置、计算机设备及存储介质
CN115018608A (zh) 风险预测方法、装置、计算机设备
CN117540206A (zh) 一种标签预测方法、装置、设备及存储介质
CN114912623A (zh) 用于模型解释的方法及装置
CN113627514A (zh) 知识图谱的数据处理方法、装置、电子设备和存储介质
CN114328894A (zh) 文档处理方法、装置、电子设备及介质
CN115329183A (zh) 数据处理方法、装置、存储介质及设备
CN112348661A (zh) 基于用户行为轨迹的服务策略分配方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination