CN116108387A - 一种类不平衡数据过采样方法及相关设备 - Google Patents

一种类不平衡数据过采样方法及相关设备 Download PDF

Info

Publication number
CN116108387A
CN116108387A CN202310397766.7A CN202310397766A CN116108387A CN 116108387 A CN116108387 A CN 116108387A CN 202310397766 A CN202310397766 A CN 202310397766A CN 116108387 A CN116108387 A CN 116108387A
Authority
CN
China
Prior art keywords
sample
samples
nearest neighbor
natural
core sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310397766.7A
Other languages
English (en)
Other versions
CN116108387B (zh
Inventor
刘利枚
黄志伟
刘星宝
石彪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan University of Technology
Original Assignee
Hunan University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan University of Technology filed Critical Hunan University of Technology
Priority to CN202310397766.7A priority Critical patent/CN116108387B/zh
Publication of CN116108387A publication Critical patent/CN116108387A/zh
Application granted granted Critical
Publication of CN116108387B publication Critical patent/CN116108387B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)

Abstract

本发明提供了一种类不平衡数据过采样方法及相关设备,包括:获取包括由多个少数类样本组成的少数类样本集和由多个多数类样本组成的多数类样本集的***异常交易数据集作为不平衡数据集;随机选取多个少数类样本作为核心样本点,确定自然最近邻集合、自然最近邻域;根据不平衡数据集中样本的空间分布情况,计算多数类样本在每个自然最近邻集合中所占的比例;根据比例确定每个核心样本点在不平衡数据集中的空间分布情况、生成的新样本的数量权重、位置权重;根据数量权重、位置权重获取新样本的样本特征,并基于样本特征得到新样本集,将新样本集与不平衡数据集进行汇总,得到用于预测金融欺诈行为的平衡数据集;提高了预测金融欺诈行为的精度。

Description

一种类不平衡数据过采样方法及相关设备
技术领域
本发明涉及金融类不平衡数据处理技术领域,特别涉及一种类不平衡数据过采样方法及相关设备。
背景技术
随着人工智能技术的不断发展,数据的收集、存储、处理技术也在不断进步。融合了多学科的机器学***衡的,数据的类别对应的样本数相差不大。然而,在实际情况中,数据类别分布不平衡普遍存在与各个应用领域当中。例如在***欺诈检测中,欺诈交易可能只占全部交易比例的1%,这时算法只需评判所有交易为正常交易,即可获得99%的分类准确率,这种情况忽略了欺诈交易的可能,对企业和个人财产造成严重损失。所以,针对数据的类不平衡特性进行平衡化处理具有极高的研究价值和应用前景。
现有的针对数据的类不平衡处理主要包括针对少数类样本进行过采样或者针对多数类样本进行欠采样,或者二者方法的结合。其中,过采样是指通过一定的方法和技术通过增加少数类样本,从而达到数据类不平衡的方法。
标准欧式距离是在欧式距离的基础上,将样本在各个维度上的取值都标准化到期望为0,方差为1。
自然最近邻以及自然最近邻域是指存在近邻数值以及样本点集合,对于,使得中的个样本互为最近路径上的点,则个样本点互为自然邻,相邻点连线构成的区域成为自然最近邻域,为自然最近邻值。
目前,现有过采样方法大多以SMOTE算法为基础,通过随机选择少数类样本及其近邻样本做线性插值,生成一定数量的少数类样本点的方法;该算法的核心为近邻算法,该类方法存在最近邻值确定较为繁琐,设置固定值会导致生成样本的质量会下降等问题;同时,SOMTE方法本身对少数类样本的离群点不敏感,在选择样本点进行线性插值时,容易取到离群点,生成大量噪声样本。
发明内容
本发明提供了一种类不平衡数据过采样方法及相关设备,其目的是为了消除离群点对平衡数据集中样本特征的干扰,提高预测金融欺诈行为的精度。
为了达到上述目的,本发明提供了一种类不平衡数据过采样方法,包括:
步骤1,获取待处理的***异常交易数据集,将***异常交易数据集作为不平衡数据集,不平衡数据集包括由多个少数类样本组成的少数类样本集和由多个多数类样本组成的多数类样本集;
步骤2,随机选取少数类样本集中的部分少数类样本作为核心样本点,确定每个核心样本点的自然最近邻集合以及与每个自然最近邻集合对应的自然最近邻域;每个自然最近邻集合中包括核心样本点的多个近邻元素;
步骤3,根据不平衡数据集中每个样本的空间分布情况,计算多数类样本在每个自然最近邻集合中所占的比例;
步骤4,根据多数类样本在每个自然最近邻集合中所占的比例,确定每个核心样本点在不平衡数据集中的空间分布情况;
步骤5,根据每个核心样本点在不平衡数据集中的空间分布情况,确定在自然最近邻域中生成的新样本的数量权重;
步骤6,根据每个核心样本点在不平衡数据集中的空间分布情况,确定在每个自然最近邻域生成的新样本点的位置权重;
步骤7,根据数量权重和位置权重,获取在每个自然最近邻域中生成的新样本的样本特征,并基于样本特征得到新样本集,将新样本集与不平衡数据集进行汇总,得到用于预测金融欺诈行为的平衡数据集。
进一步来说,在步骤2之前,包括:
计算两个少数类样本之间的标准欧式距离,公式如下:
其中,表示第个少数类样本与第个少数类样本的之间距离,分别表示第个少数类样本、第个少数类样本在第个样本特征维度上的取值,表示少数类样本点集合在第个样本特征维度上的标准差,为样本样本特征数量。
进一步来说,步骤2包括:
随机选取少数类样本集中的部分少数类样本作为核心样本点;
针对每个所述核心样本点,选取所述核心样本点的个近邻元素;
选取所述核心样本点的个近邻元素构成近邻集合
针对所述少数类样本集中除所述核心样本点以外的少数类样本,若所述少数类样本的最近邻集合中包含所述核心样本点,则认为该少数类样本为所述核心样本点的逆近邻元素,所述逆近邻元素组成逆近邻集合
针对所述少数类样本集中除所述核心样本点以外的少数类样本,若所述少数类样本的最近邻集合中不包含所述核心样本点,则认为该少数类样本为离群点,并舍弃该少数类样本;
求取所述近邻集合与所述逆近邻集合的交集;
若所述交集为空集,则重新定义的值,重复选取所述核心样本点的近邻集合和逆近邻集合;
若所述交集为非空集,则自然最近邻集合为,并重新定义的值,重复求取自然最近邻集合
直至所述核心样本点的逆近邻集合不发生改变,得到每个核心样本点的自然最近邻集合以及每个自然最近邻集合对应的自然最近邻域。
进一步来说,计算核心样本点在每个自然最近邻集合中多数类样本所占的比例,表达式为:
其中,表示核心样本点在第个自然最近邻集合中多数类样本所占的比例,为第个自然最近邻集合中多数类样本的数量,表示核心样本点的近邻元素的数量。
进一步来说,步骤4包括:
根据多数类样本在每个自然最近邻集合中所占的比例;
其中,为核心样本点的样本生成控制权重,为控制参数,
根据所述样本生成控制权重,确定每个核心样本点在不平衡数据集中的空间分布情况。
进一步来说,在自然最近邻域中生成的新样本的数量权重为:
其中,为核心样本点的样本生成控制权重,表示个自然最近邻域中核心样本点的样本生成控制权重之和。
进一步来说,在自然最近邻域生成的新样本点的位置权重为:
其中,为核心样本点的样本生成控制权重,表示个自然最近邻域中核心样本点的样本生成控制权重之和。
进一步来说,步骤7包括:
确定不平衡数据集中所需生成新样本的数量,表达式为:
其中,为平衡参数,用于控制新样本的数量,
计算每个自然最近邻域中所需生成新样本的数量,表达式为:
分别针对每个自然最近邻域,根据区域样本生成公式生成个新样本的样本特征,区域样本生成公式为:
其中,表示以核心样本点生成的新样本点的第个样本特征,表示核心样本点与自然最近邻域中其他样本点的样本特征差值,为随机数,取值范围为[0,1];
根据每个所述自然最近邻域中生成的新样本的样本特征,得到新样本为,新样本个样本特征构成;
个新样本进行组合,得到新样本集为
将所述新样本集与所述不平衡数据集进行汇总,得到平衡数据集。
本发明还提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时实现类不平衡数据过采样方法。
本发明还提供了一种终端设备,包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序,处理器执行计算机程序时实现类不平衡数据过采样方法。
本发明的上述方案有如下的有益效果:
本发明通过获取包括由多个少数类样本组成的少数类样本集和由多个多数类样本组成的多数类样本集的***异常交易数据集作为不平衡数据集;随机选取少数类样本集中的部分少数类样本作为核心样本点,确定每个核心样本点的自然最近邻集合以及与每个自然最近邻集合对应的自然最近邻域;分别针对每个自然最近邻集合,根据不平衡数据集中每个样本的空间分布情况,计算核心样本点在每个自然最近邻集合中多数类样本所占的比例;根据多数类样本在每个自然最近邻集合中所占的比例,确定每个核心样本点在不平衡数据集中的空间分布情况、在自然最近邻域中生成的新样本的数量权重以及在自然最近邻域生成的新样本点的位置权重;根据数量权重和位置权重,获取在每个自然最近邻域中生成的新样本的样本特征,并基于样本特征得到新样本集,将新样本集与不平衡数据集进行汇总,得到用于预测金融欺诈行为的平衡数据集;与现有技术相比,通过引入自然最近邻方法解决传统过采样方法中需要频繁确定近邻值的问题,能够实现自适应的选择样本近邻点,消除离群点对平衡数据集中样本特征的干扰,并在所形成的自然邻域中,根据邻域中少数类样本点周围数据分布状态,自适应的分配所需生成的样本数量,提高了生成样本的质量的同时扩大了生成样本的范围,提高了预测金融欺诈行为的精度。
本发明的其它有益效果将在随后的具体实施方式部分予以详细说明。
附图说明
图1为本发明实施例的流程示意图;
图2为本发明实施例中步骤2的具体流程图;
图3为本发明实施例中步骤3-6的具体流程图;
图4为本发明实施例中步骤7的具体流程图;
图5为本发明实施例识别离群点的示意图;
图6为本发明实施例中核心样本点的自然最近邻与自然邻域选取示意图;
图7为本发明实施例中当时核心样本点为离群点的示意图;
图8为本发明实施例中当时核心样本点的最近邻元素的示意图;
图9为本发明实施例中当时核心样本点的最近邻元素的示意图;
图10为本发明实施例中当时核心样本点的最近邻元素的示意图;
图11为本发明实施例中核心样本点的自然最近邻域的示意图;
图12为本发明实施例生成新样本的示意图。
具体实施方式
为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是锁定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
此外,下面所描述的本发明不同实施方式中所涉及的技术样本特征只要彼此之间未构成冲突就可以相互结合。
本发明针对现有的问题,提供了一种类不平衡数据过采样方法及相关设备。
如图1所示,本发明的实施例提供了一种类不平衡数据过采样方法,包括:
步骤1,获取待处理的***异常交易数据集,将***异常交易数据集作为不平衡数据集,不平衡数据集包括由多个少数类样本组成的少数类样本集和由多个多数类样本组成的多数类样本集;
步骤2,随机选取少数类样本集中的部分少数类样本作为核心样本点,确定每个核心样本点的自然最近邻集合以及与每个自然最近邻集合对应的自然最近邻域;每个自然最近邻集合中包括核心样本点的多个近邻元素;
步骤3,根据不平衡数据集中每个样本的空间分布情况,计算多数类样本在每个自然最近邻集合中所占的比例;
步骤4,根据多数类样本在每个自然最近邻集合中所占的比例,确定每个核心样本点在不平衡数据集中的空间分布情况;
步骤5,根据每个核心样本点在不平衡数据集中的空间分布情况,确定在自然最近邻域中生成的新样本的数量权重;
步骤6,根据每个核心样本点在不平衡数据集中的空间分布情况,确定在每个自然最近邻域生成的新样本点的位置权重;
步骤7,根据数量权重和位置权重,获取在每个自然最近邻域中生成的新样本的样本特征,并基于样本特征得到新样本集,将新样本集与不平衡数据集进行汇总,得到用于预测金融欺诈行为的平衡数据集。
具体来说,步骤1包括:获取待处理的***异常交易数据集作为不平衡数据集,不平衡数据集包括由多个少数类样本组成的少数类样本集和由多个多数类样本组成的多数类样本集,且
具体来说,在步骤2之前,包括:
计算两个少数类样本之间的标准欧几里得距离,距离集合记作,其中少数类样点关于其他少数类样本的距离集合为,标准欧几里得距离公式如下:
其中,表示第个少数类样本与第个少数类样本的之间距离,分别表示第个少数类样本、第个少数类样本在第个特征维度上的取值,表示少数类样本点集合在第个特征维度上的标准差,为样本样本特征数量。
具体来说,如图2所示,步骤2包括:
随机选取少数类样本集中的部分少数类样本作为核心样本点;
针对每个核心样本点,选取核心样本点的个近邻元素;
选取核心样本点的个近邻元素构成近邻集合
针对少数类样本集中除核心样本点以外的少数类样本,若少数类样本的最近邻集合中包含核心样本点,则认为该少数类样本为核心样本点的逆近邻元素,逆近邻元素组成逆近邻集合
针对少数类样本集中除核心样本点以外的少数类样本,若少数类样本的最近邻集合中不包含核心样本点,则认为该少数类样本为离群点,并舍弃该少数类样本;
求取近邻集合与逆近邻集合的交集;
若交集为空集,则重新定义的值,重复选取核心样本点的近邻集合和逆近邻集合;
若交集为非空集,则自然最近邻集合为,并重新定义的值,重复求取自然最近邻集合
直至核心样本点的逆近邻集合不发生改变,得到每个核心样本点的自然最近邻集合以及每个自然最近邻集合对应的自然最近邻域。
在本发明实施例中,初始化近邻元素的数量
在核心样本点与近邻元素之间的距离集合中,按从小到大的顺序依次选择个近邻元素,距离值最小的近邻元素为选择的第一个近邻元素,形成不包含核心样本点的最近邻集合,例如核心样本点近邻集合
对于当前值下,若除核心样本点以外的少数类样本的最近邻集合中包含核心样本点,则该少数类样本为核心样本点的逆近邻元素,元素集合记为,若核心样本点无逆近邻,则定义近邻元素的数量,重复前述的两个步骤,若该点仍无逆近邻,则判定该点为离群点,并舍弃该少数类样本,重新选择核心样本点;
求取核心样本点近邻集合与逆近邻集合的交集作为自然最近邻,即
判断逆近邻集合是否增加;若逆近邻集合中近邻元素增加或为,则定义,重复步骤前述3个步骤;若否,核心样本点对应自然最近邻为,对应自然邻域为自然最近邻集合元素所构成的空间内区域;
重复搜索不平衡数据集,获得各个核心样本点的自然最近邻集合以及与自然最近邻集合对应的自然最近邻域。
具体来说,如图3所示,步骤3包括:
选取不同的近邻元素,计算核心样本点在整个不平衡数据集的样本空间中的个近邻元素,多数类样本在核心样本点的自然最近邻集合中所占的比例的计算公式如下:
其中,表示核心样本点在第个自然最近邻集合中多数类样本所占的比例,为第个自然最近邻集合中多数类样本的数量,表示核心样本点的近邻元素的数量。
具体来说,步骤4包括:
根据多数类样本在每个自然最近邻集合中所占的比例;
对于自然最近邻集合中多数类样本点较多的核心样本点增加其数据生成权重,即
其中,为核心样本点的样本生成控制权重,为控制参数,
根据样本生成控制权重,确定每个核心样本点在不平衡数据集中的空间分布情况。
具体来说,在自然最近邻域中生成的少数类样本的数量权重为:
其中,为核心样本点的样本生成控制权重,表示个自然最近邻域中核心样本点的样本生成控制权重之和。
具体来说,在自然最近邻域生成的少数类样本点的位置权重为:
其中,为核心样本点的样本生成控制权重,表示个自然最近邻域中核心样本点的样本生成控制权重之和。
具体来说,如图4所示,步骤7包括:
确定不平衡数据集中所需生成新样本的数量,表达式为:
其中,为平衡参数,用于控制新样本的数量,
计算每个自然最近邻域中所需生成新样本的数量,表达式为:
分别针对每个自然最近邻域,根据区域样本生成公式生成个新样本的样本特征,所述区域样本生成公式为:
其中,表示以核心样本点生成的新样本点的第个样本特征,表示核心样本点与自然最近邻域中其他样本点的样本特征差值,为随机数,取值范围为[0,1];
根据每个所述自然最近邻域中生成的新样本的样本特征,得到新样本为,新样本个样本特征构成;
个新样本进行组合,得到新样本集为
将所述新样本集与所述不平衡数据集进行汇总,得到平衡数据集。
具体来说,关于离群点的识别与舍弃,如图5和图6所示,当核心样本点为离群点时,,点的最近邻元素为样本,样本的最近邻元素为样本,因此核心样本点不具有逆近邻元素;
重新定义进行循环;
时,由图7所示,核心样本点的最近邻元素为样本与样本,而样本点的最近邻元素为样本与样本,样本的最近邻元素为样本与样本,故关于核心样本点的自然最近邻集合仍为空集,故识别核心样本点为离群点。
如图8所示,当核心样本点为,核心样本点的最近邻元素为样本,样本的最近邻元素为样本,故样本为核心样本点的逆近邻元素,且在核心样本点的最近邻集合中,所以样本为核心样本点的自然最近邻元素,定义进行下一步;
时,由图9所示,核心样本点的最近邻元素为样本、样本,样本的最近邻元素为核心样本点、样本,样本的最近邻元素为核心样本点、样本,故样本、样本为核心样本点的自然最近邻元素,定义进行下一步;
时,由图10所示,核心样本点的最近邻元素为样本、样本、样本,样本的最近邻元素为核心样本点、样本、样本,样本的最近邻元素为核心样本点、样本、样本,样本的最近邻元素为样本、样本、样本,故核心样本点的自然逆近邻集合不发生改变,核心样本点的自然最近邻元素为,自然最近邻域如图11所示;
确定剩余核心样本点的自然最近邻集合与自然最近领域,并求得各自自然最近领域样本点样本生成数量权重与样本生成权重,根据数量权重和位置权重和区域样本生成公式生成个新样本的样本特征,生成新的少数类样本,如图12所示。
在本发明实施例中,获取不平衡数据集进行举例,该不平衡数据集为类别比为12:1的***异常交易数据集;
步骤2,随机选取核心样本点=[1.2023,-0.6947,-5.5263,6.6624,-8.5255,0.7427,-7.6787],具体为交易特征=[区域经济信息,社会地位信息,交易时间,交易金额的周期,地理位置,地理位置的时间差异,交易金额]的量化表示,由于金融数据的隐私性,本发明实施例将其进行脱敏性处理;
首先计算核心样本点与其他样本点的距离,选取的最近邻元素为样本=[1.2498,-0.7183,-5.3903,6.4542,-8.4853,0.6353,-7.0199],样本的最近邻元素为核心样本点,故样本为核心样本点的自然逆近邻元素,定义进行循环;
,核心样本点的最近邻元素为样本、样本,样本=[1.7035,-1.3053,-6.7167,6.3536,-8.6016,0.4499,-7.5062],样本的最近邻元素为样本、样本,故样本为核心样本点的自然逆近邻元素,定义进行循环;
,核心样本点的最近邻元素为样本、样本、样本,样本=[1.7017,-1.4394,-6.9999,6.3162,-8.6708,0.316,-7.4177],样本的最近邻元素为样本、样本、样本,故样本为核心样本点的自然逆近邻元素,定义进行循环;
,核心样本点的最近邻元素为样本、样本、样本、样本,样本=[1.5156,-1.2072,-6.2346,5.4507,-7.3337,1.3612,-6.6081],样本的最近邻元素为样本、样本、样本、样本,故样本不为核心样本点的逆近邻元素,所以核心样本点的自然最近邻集合为{},自然最近邻域为从核心样本点出发各点之间连线构成的区域,
步骤3:首先计算在各个核心样本点的自然最近邻集合中多数类样本所占的比例,其中核心样本点的自然最近邻集合中多数类样本所占的比例为,所以样本生成控制权重
步骤4,在获得其他核心样本点的权重基础上,由公式得,在自然最近邻域中生成的少数类样本的数量权重
步骤5,计算核心样本点的自然最近邻元素的自然最近邻集合中的多数类样本所占的比例,其中,故,由公式
步骤,6,首先确定样本生成数量,根据公式默认为1,得
由公式可得,核心样本点需要生成得样本数量为
由公式可得某一新样本为[1.0732,-0.504,-5.1509,6.7533,-8.4891,0.8524,-7.7515];
新样本集为的具体数据如下:
{1.0732,-0.504,-5.1509,6.7533,-8.4891,0.8524,-7.7515
1.1313,-0.5899,-5.3199,6.7124,-8.5055,0.803,-7.7187
1.1397,-0.6022,-5.3443,6.7065,-8.5078,0.7959,-7.714
……
1.1074,-0.5546,-5.2505,6.7292,-8.4988,0.8233,-7.7322}。
本发明实施例通过获取包括由多个少数类样本组成的少数类样本集和由多个多数类样本组成的多数类样本集的***异常数据集作为不平衡数据集;随机选取少数类样本集中的部分少数类样本作为核心样本点,确定每个核心样本点的自然最近邻集合以及与每个自然最近邻集合对应的自然最近邻域;分别针对每个自然最近邻集合,根据不平衡数据集中每个样本的空间分布情况,计算核心样本点在每个自然最近邻集合中多数类样本所占的比例;根据多数类样本在每个自然最近邻集合中所占的比例,确定每个核心样本点在不平衡数据集中的空间分布情况、在自然最近邻域中生成的新样本的数量权重以及在自然最近邻域生成的新样本点的位置权重;根据数量权重和位置权重,获取在每个自然最近邻域中生成的新样本的样本特征,并基于样本特征得到集新样本,将新样本集与不平衡数据集进行汇总,得到用于预测金融欺诈行为的平衡数据集;与现有技术相比,通过引入自然最近邻方法解决传统过采样方法中需要频繁确定近邻值的问题,能够实现自适应的选择样本近邻点,消除离群点对平衡数据集中样本特征的干扰,并在所形成的自然邻域中,根据邻域中少数类样本点周围数据分布状态,自适应的分配所需生成的样本数量,提高了生成样本的质量的同时扩大了生成样本的范围,提高了预测金融欺诈行为的精度。
本发明实施例还提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时实现类不平衡数据过采样方法。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质至少可以包括:能够将计算机程序代码携带到构建装置/终端设备的任何实体或装置、记录介质、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,RandomAccess Memory)、电载波信号、电信信号以及软件分发介质。例如U盘、移动硬盘、磁碟或者光盘等。在某些司法管辖区,根据立法和专利实践,计算机可读介质不可以是电载波信号和电信信号。
本发明实施例还提供了一种终端设备,包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序,处理器执行计算机程序时实现类不平衡数据过采样方法。
需要说明的是,终端设备可以是手机、平板电脑、笔记本电脑、超级移动个人计算机(UMPC,Ultra-mobile Personal Computer)、上网本、个人数字助理(PDA,PersonalDigital Assistant)等终端设备上,例如,终端设备可以是WLAN中的站点(ST,STAION),可以是蜂窝电话、无绳电话、会话启动协议(SIP,Session Initiation Protocol)电话、无线本地环路(WLL,Wireless Local Loop)站、个人数字处理(PDA,Personal DigitalAssistant)设备、具有无线通信功能的手持设备、计算设备或连接到无线调制解调器的其它处理设备、电脑、膝上型计算机、手持式通信设备、手持式计算设备、卫星无线设备等。本发明实施例实施例对终端设备的具体类型不作任何限制。
所称处理器可以是中央处理单元(CPU,Central Processing Unit),该处理器还可以是其他通用处理器、数字信号处理器(DSP,Digital Signal Processor)、专用集成电路(ASIC,Application Specific Integrated Circuit)、现成可编程门阵列(FPGA,Field-Programmable Gate Array)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器在一些实施例中可以是所述终端设备的内部存储单元,例如终端设备的硬盘或内存。所述存储器在另一些实施例中也可以是所述终端设备的外部存储设备,例如所述终端设备上配备的插接式硬盘,智能存储卡(SMC,Smart Media Card),安全数字(SD,Secure Digital)卡,闪存卡(Flash Card)等。进一步地,所述存储器还可以既包括所述终端设备的内部存储单元也包括外部存储设备。所述存储器用于存储操作***、应用程序、引导装载程序(BootLoader)、数据以及其他程序等,例如所述计算机程序的程序代码等。所述存储器还可以用于暂时地存储已经输出或者将要输出的数据。
需要说明的是,上述装置/单元之间的信息交互、执行过程等内容,由于与本发明实施例方法实施例基于同一构思,其具体功能及带来的技术效果,具体可参见方法实施例部分,此处不再赘述。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明所述原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种类不平衡数据过采样方法,其特征在于,包括:
步骤1,获取待处理的***异常交易数据集,将所述***异常交易数据集作为不平衡数据集,所述不平衡数据集包括由多个少数类样本组成的少数类样本集和由多个多数类样本组成的多数类样本集;
步骤2,随机选取所述少数类样本集中的部分少数类样本作为核心样本点,确定每个所述核心样本点的自然最近邻集合以及与每个所述自然最近邻集合对应的自然最近邻域;每个所述自然最近邻集合中包括所述核心样本点的多个近邻元素;
步骤3,根据所述不平衡数据集中每个样本的空间分布情况,计算所述多数类样本在每个所述自然最近邻集合中所占的比例;
步骤4,根据所述多数类样本在每个所述自然最近邻集合中所占的比例,确定每个所述核心样本点在所述不平衡数据集中的空间分布情况;
步骤5,根据每个所述核心样本点在所述不平衡数据集中的空间分布情况,确定在所述自然最近邻域中生成的新样本的数量权重;
步骤6,根据每个所述核心样本点在所述不平衡数据集中的空间分布情况,确定在每个所述自然最近邻域生成的新样本点的位置权重;
步骤7,根据所述数量权重和所述位置权重,获取在每个所述自然最近邻域中生成的新样本的样本特征,并基于所述样本特征得到新样本集,将所述新样本集与所述不平衡数据集进行汇总,得到用于预测金融欺诈行为的平衡数据集。
2.根据权利要求1所述的类不平衡数据过采样方法,其特征在于,在所述步骤2之前,包括:
计算两个所述少数类样本之间的标准欧式距离,公式如下:
其中,表示第个少数类样本与第个少数类样本的之间距离,分别表示第个少数类样本、第个少数类样本在第个样本特征维度上的取值,表示少数类样本点集合在第个样本特征维度上的标准差,为样本样本特征数量。
3.根据权利要求2所述的类不平衡数据过采样方法,其特征在于,所述步骤2包括:
随机选取所述少数类样本集中的多个少数类样本作为核心样本点;
针对每个所述核心样本点,选取所述核心样本点的个近邻元素;
选取所述核心样本点的个近邻元素构成近邻集合
针对所述少数类样本集中除所述核心样本点以外的少数类样本,若所述少数类样本的最近邻集合中包含所述核心样本点,则认为该少数类样本为所述核心样本点的逆近邻元素,所述逆近邻元素组成逆近邻集合
针对所述少数类样本集中除所述核心样本点以外的少数类样本,若所述少数类样本的最近邻集合中不包含所述核心样本点,则认为该少数类样本为离群点,并舍弃该少数类样本;
求取所述近邻集合与所述逆近邻集合的交集;
若所述交集为空集,则重新定义的值,重复选取所述核心样本点的近邻集合和逆近邻集合;
若所述交集为非空集,则自然最近邻集合为,并重新定义的值,重复求取自然最近邻集合
直至所述核心样本点的逆近邻集合不发生改变,得到每个所述核心样本点的自然最近邻集合以及每个所述自然最近邻集合对应的自然最近邻域。
4.根据权利要求3所述的类不平衡数据过采样方法,其特征在于,计算所述多数类样本在每个所述自然最近邻集合中所占的比例,表达式为:
其中,表示多数类样本在第个自然最近邻集合中所占的比例,为第个自然最近邻集合中多数类样本的数量,表示核心样本点的近邻元素的数量。
5.根据权利要求4所述的类不平衡数据过采样方法,其特征在于,所述步骤4包括:
根据所述多数类样本在每个所述自然最近邻集合中所占的比例;
其中,为核心样本点的样本生成控制权重,为控制参数,
根据所述样本生成控制权重,确定每个所述核心样本点在所述不平衡数据集中的空间分布情况。
6.根据权利要求5所述的类不平衡数据过采样方法,其特征在于,在所述自然最近邻域中生成的新样本的数量权重为:
其中,为核心样本点的样本生成控制权重,表示个自然最近邻域中核心样本点的样本生成控制权重之和。
7.根据权利要求6所述的类不平衡数据过采样方法,其特征在于,在所述自然最近邻域生成的新样本的位置权重为:
其中,为核心样本点的样本生成控制权重,表示个自然最近邻域中核心样本点的样本生成控制权重之和。
8.根据权利要求7所述的类不平衡数据过采样方法,其特征在于,所述步骤7包括:
确定所述不平衡数据集中所需生成新样本的数量,表达式为:
其中,为平衡参数,用于控制新样本的数量,
计算每个所述自然最近邻域中所需生成新样本的数量,表达式为:
分别针对每个所述自然最近邻域,根据区域样本生成公式生成个新样本的样本特征,所述区域样本生成公式为:
其中,表示以核心样本点生成的新样本点的第个样本特征,表示核心样本点与自然最近邻域中其他样本点的样本特征差值,为随机数,取值范围为[0,1];
根据每个所述自然最近邻域中生成的新样本的样本特征,得到新样本为,新样本个样本特征构成;
个新样本进行组合,得到新样本集为
将所述新样本集与所述不平衡数据集进行汇总,得到平衡数据集。
9.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的类不平衡数据过采样方法。
10.一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的类不平衡数据过采样方法。
CN202310397766.7A 2023-04-14 2023-04-14 一种类不平衡数据过采样方法及相关设备 Active CN116108387B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310397766.7A CN116108387B (zh) 2023-04-14 2023-04-14 一种类不平衡数据过采样方法及相关设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310397766.7A CN116108387B (zh) 2023-04-14 2023-04-14 一种类不平衡数据过采样方法及相关设备

Publications (2)

Publication Number Publication Date
CN116108387A true CN116108387A (zh) 2023-05-12
CN116108387B CN116108387B (zh) 2023-07-04

Family

ID=86264176

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310397766.7A Active CN116108387B (zh) 2023-04-14 2023-04-14 一种类不平衡数据过采样方法及相关设备

Country Status (1)

Country Link
CN (1) CN116108387B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105868775A (zh) * 2016-03-23 2016-08-17 深圳市颐通科技有限公司 基于pso算法的不平衡样本分类方法
CN110275910A (zh) * 2019-06-20 2019-09-24 东北大学 一种不平衡数据集的过采样方法
CN112633426A (zh) * 2021-03-11 2021-04-09 腾讯科技(深圳)有限公司 处理数据类别不均衡的方法、装置、电子设备及存储介质
KR20220007470A (ko) * 2020-07-10 2022-01-18 박수환 위치정보 분석 및 머신러닝 기법을 활용한 모바일 이상거래 탐지 장치 및 그 동작 방법
CN114862404A (zh) * 2022-05-05 2022-08-05 湖北工业大学 基于聚类样本与极限梯度的***欺诈检测方法及设备
US20220383322A1 (en) * 2021-05-30 2022-12-01 Actimize Ltd. Clustering-based data selection for optimization of risk predictive machine learning models

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105868775A (zh) * 2016-03-23 2016-08-17 深圳市颐通科技有限公司 基于pso算法的不平衡样本分类方法
CN110275910A (zh) * 2019-06-20 2019-09-24 东北大学 一种不平衡数据集的过采样方法
KR20220007470A (ko) * 2020-07-10 2022-01-18 박수환 위치정보 분석 및 머신러닝 기법을 활용한 모바일 이상거래 탐지 장치 및 그 동작 방법
CN112633426A (zh) * 2021-03-11 2021-04-09 腾讯科技(深圳)有限公司 处理数据类别不均衡的方法、装置、电子设备及存储介质
US20220383322A1 (en) * 2021-05-30 2022-12-01 Actimize Ltd. Clustering-based data selection for optimization of risk predictive machine learning models
CN114862404A (zh) * 2022-05-05 2022-08-05 湖北工业大学 基于聚类样本与极限梯度的***欺诈检测方法及设备

Also Published As

Publication number Publication date
CN116108387B (zh) 2023-07-04

Similar Documents

Publication Publication Date Title
US9953160B2 (en) Applying multi-level clustering at scale to unlabeled data for anomaly detection and security
Kuehnhausen et al. Trusting smartphone apps? To install or not to install, that is the question
CN105389488B (zh) 身份认证方法及装置
CN106355391A (zh) 一种业务处理方法及装置
US11823197B2 (en) Authenticating based on user behavioral transaction patterns
CN109598414A (zh) 风险评估模型训练、风险评估方法、装置及电子设备
CN110717758B (zh) 异常交易识别方法和装置
CN106850780A (zh) ***级的应用程序信息推荐方法、装置和移动终端
CN111275416A (zh) 数字货币异常交易检测方法、装置、电子设备及介质
CN111582872A (zh) 异常账号检测模型训练、异常账号检测方法、装置及设备
CN116108387B (zh) 一种类不平衡数据过采样方法及相关设备
CN109242515A (zh) 跨平台的异常账号识别方法和装置
CN111275071B (zh) 预测模型训练、预测方法、装置及电子设备
CN110796178B (zh) 决策模型训练方法及样本特征选择方法、装置和电子设备
CN114511760B (zh) 一种样本均衡方法、装置、设备及存储介质
CN115481300A (zh) 一种基于自然邻域密度的数据不平衡分类过采样方法、装置、设备及介质
CN112446777A (zh) 一种信用评估方法、装置、设备及存储介质
CN108235228B (zh) 一种安全校验方法和装置
CN115601044A (zh) 欺诈检测模型训练、欺诈检测方法、装置及电子设备
CN112488825B (zh) 基于区块链的对象交易方法及装置
CN113177609A (zh) 数据类别不均衡的处理方法及设备、***、存储介质
CN113988670A (zh) 综合性企业信用风险预警方法及***
CN111860655A (zh) 用户的处理方法、装置和设备
JP2017106798A (ja) 測位プログラム、測位方法及び測位装置
CN110163761A (zh) 基于图像处理的可疑项目成员识别方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant