CN113282686A - 一种不平衡样本的关联规则确定方法及装置 - Google Patents

一种不平衡样本的关联规则确定方法及装置 Download PDF

Info

Publication number
CN113282686A
CN113282686A CN202110622409.7A CN202110622409A CN113282686A CN 113282686 A CN113282686 A CN 113282686A CN 202110622409 A CN202110622409 A CN 202110622409A CN 113282686 A CN113282686 A CN 113282686A
Authority
CN
China
Prior art keywords
frequent item
determining
positive
target
association rule
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110622409.7A
Other languages
English (en)
Other versions
CN113282686B (zh
Inventor
魏乐
卢格润
李琨
郑方兰
朱良姝
白冰
田江
向小佳
丁永建
李璠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Everbright Technology Co ltd
Original Assignee
Everbright Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Everbright Technology Co ltd filed Critical Everbright Technology Co ltd
Priority to CN202110622409.7A priority Critical patent/CN113282686B/zh
Publication of CN113282686A publication Critical patent/CN113282686A/zh
Application granted granted Critical
Publication of CN113282686B publication Critical patent/CN113282686B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种不平衡样本的关联规则确定方法及装置,其中,该方法包括:将原始数据转换为事务数据;将该事务数据中的正负不平衡样本数据进行分类标记,得到正负不平衡标记样本;基于正负不平衡标记样本中的分类关联规则。该方法及装置可以解决相关技术中对于正负不平衡样本分类场景下,传统关联规则分类算法对***资源消耗较大,且关联规则筛取未考虑全样本信息,影响模型推广的问题。本发明在实现过程中,更关注在不平衡样本条件下小样本作为目标变量的分类规则,从而避免挖掘整个数据集,节省了***资源消耗。

Description

一种不平衡样本的关联规则确定方法及装置
技术领域
本发明涉及数据处理领域,具体而言,涉及一种不平衡样本的关联规则确定方法及装置。
背景技术
金融欺诈,尤其在银行卡、***等领域一直是金融行业实施风控的重要方向。虽然随着深度学习的发展,一系列AI反欺诈模型应用而生,但是从可理解、易推广和稳定性角度,基于规则的方法体系依然保有其强大的生存力。通过已有案例,基于数据挖掘分析找到可能的关联规则,再结合专家分析确定规则,是当前金融欺诈检测的一种有效方法。所以传统金融机构仍然依赖于构建基于规则的风控反欺诈模型,这其中规则特征库的生成就成为关键。但是不同于传统的人工归纳或线下调查,在大数据背景下,采用自动规则抽取+模型+专家分析的组合策略可以在保证原有解释性的基础上,提高挖掘效率。
关联分析作为一种数据挖掘的方法,因为其易于理解,归纳性好的特点,被广泛应用于生物、交通、电信和金融领域。将关联规则应用于分类问题,已经有基于Apriori的集成算法,基于多个分类关联规则的分类算法和采用贪婪算法直接从训练数据集中挖掘关联规则从而减少计算开销等等多种方法。总体上来说,基于关联规则的分类算法具有准确性高,鲁棒性好的特点。
但是在涉及到不平衡样本的二分类问题具体应用场景下,例如医疗诊断、轨道信号、金融欺诈。目标样本占总样本的比例较低,若直接套用传统关联规则分类算法,尤其当数据集中实例个数较多时,项集之间的组合产生大量候选项集,在候选项集中计算频繁项集,对于***资源消耗较大;此外,在剪枝过程中,对于支持度和置信度的把握较为困难,阈值过低会保留过多冗余规则,造成过拟合,阈值过高则可能剪除大量目标样本上的关联规则,影响模型的推广。
针对相关技术中对于不平衡样本的分类场景,传统关联规则分类算法对***资源消耗较大,且关联规则筛取未考虑全样本信息,影响模型推广的问题,尚未提出解决方案。
发明内容
本发明实施例提供了一种不平衡样本的关联规则确定方法及装置,以至少解决相关技术中对于不平衡样本的分类场景,传统关联规则分类算法对***资源消耗较大,且关联规则筛取未考虑全样本信息,影响模型推广的问题。
根据本发明的一个实施例,提供了一种不平衡样本的关联规则确定方法,包括:
将原始数据转换为事务数据;
将所述事务数据中的正负不平衡样本数据进行分类标记,得到正负不平衡标记样本;
基于所述正负不平衡标记样本,确定所述正负不平衡样本数据中目标变量的分类关联规则。
可选地,将所述事务数据中的正负不平衡样本数据进行分类标记,得到正负不平衡标记样本包括:
将所述事务数据划分为正常客户集与具有欺诈行为的异常客户集;
对所述事务数据中异常客户集和正常客户集进行标记,得到所述正负不平衡标记样本。
可选地,基于所述正负不平衡标记样本,确定所述正负不平衡样本数据中目标变量的分类关联规则包括:
通过FP-Growth确定所述异常客户集上的多个频繁项集;
从所述多个频繁项集中获取支持数大于支持数阈值的多个候选频繁项集;
确定所述多个候选频繁项集在所述正常客户集和所述异常客户集上的综合表现值;
根据所述综合表现值确定所述目标变量的分类关联规则。
可选地,确定所述多个候选频繁项集在所述正常客户集和所述异常客户集上的综合表现值包括:
在所述多个频繁项集中分别统计每个频繁项集在所述正常客户集和所述异常客户集出现的次数TPk和次数FPk;
根据所述次数TPk和所述次数FPk确定所述每个频繁项集的召回率与精确度;
根据所述每个频繁项集的召回率与精确度确定所述每个频繁项集的综合表现值。
可选地,根据所述综合表现值确定所述目标变量的分类关联规则包括:
从所述多个目标频繁项集中选取综合表现值最大的目标频繁项集;
在确定所述目标频繁项集大于预先设置的最小阈值之后,确定所述目标频繁项集作为所述目标变量的分类关联规则。
可选地,从所述多个目标频繁项集中选取综合表现值最大的目标频繁项集包括:
根据所述综合表现值对所述多个目标频繁项集进行排序;
从排序后的所述多个目标频繁项集中选取所述综合表现值最大的目标频繁项集。
可选地,在确定所述目标频繁项集为所述目标变量的分类关联规则之后,所述方法还包括:
将所述目标频繁项集从所述频繁项集中移除,并调整所述支持数阈值;
重复执行以下步骤,直到无法从所述多个频繁项集中确定所述分类关联规则:
从所述多个频繁项集中获取支持数大于所述支持数阈值的多个候选频繁项集;
确定所述多个候选频繁项集在所述正常客户集和所述异常客户集上的综合表现值;
根据所述综合表现值确定所述目标变量的分类关联规则。
根据本发明的另一个实施例,还提供了一种不平衡样本的关联规则确定装置,包括:
转换模块,用于将原始数据转换为事务数据;
标记模块,用于将所述事务数据中的正负不平衡样本数据进行分类标记,得到正负不平衡标记样本;
确定模块,用于基于所述正负不平衡标记样本,确定所述正负不平衡样本数据中目标变量的分类关联规则。
可选地,所述标记模块包括:
划分子模块,用于将所述事务数据划分为正常客户集与具有欺诈行为的异常客户集;
标记子模块,用于对所述事务数据中异常客户集和正常客户集进行标记,得到所述正负不平衡标记样本。
可选地,所述确定模块包括:
第一确定子模块,用于通过FP-Growth确定所述异常客户集上的多个频繁项集;
获取子模块,用于从所述多个频繁项集中获取支持数大于支持数阈值的多个候选频繁项集;
第二确定子模块,用于确定所述多个候选频繁项集在所述正常客户集和所述异常客户集上的综合表现值;
第三确定子模块,用于根据所述综合表现值确定所述目标变量的分类关联规则。
可选地,所述第二确定子模块,还用于
在所述多个频繁项集中分别统计每个频繁项集在所述正常客户集和所述异常客户集出现的次数TPk和次数FPk;
根据所述次数TPk和所述次数FPk确定所述每个频繁项集的召回率与精确度;
根据所述每个频繁项集的召回率与精确度确定所述每个频繁项集的综合表现值。
可选地,所述第三确定子模块包括:
获取单元,用于从所述多个目标频繁项集中选取综合表现值最大的目标频繁项集;
确定单元,用于在确定所述目标频繁项集大于预先设置的最小阈值之后,确定所述目标频繁项集为所述目标变量的分类关联规则。
可选地,所述获取单元,还用于
根据所述综合表现值对所述多个目标频繁项集进行排序;
从排序后的所述多个目标频繁项集中选取所述综合表现值最大的目标频繁项集。
可选地,所述装置还包括:
移除模块,用于将所述目标频繁项集从所述频繁项集中移除,并调整所述支持数阈值;
执行模块,用于重复执行以下步骤,直到无法从所述多个频繁项集中确定所述分类关联规则:
从所述多个频繁项集中获取支持数大于所述支持数阈值的多个候选频繁项集;
确定所述多个候选频繁项集在所述正常客户集和所述异常客户集上的综合表现值;
根据所述综合表现值确定所述目标变量的分类关联规则。
根据本发明的又一个实施例,还提供了一种计算机可读的存储介质,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
根据本发明的又一个实施例,还提供了一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。
通过本发明,将原始数据转换为事务数据;将所述事务数据中的正负不平衡样本数据进行分类标记,得到正负不平衡标记样本;基于所述正负不平衡标记样本,确定所述正负不平衡样本数据中目标变量的分类关联规则,可以解决相关技术中对于不平衡样本的分类场景,传统关联规则分类算法对***资源消耗较大,且关联规则筛取未考虑全样本信息,影响模型推广的问题,更关注在不平衡样本条件下小样本作为目标变量的分类规则,从而避免挖掘整个数据集,节省了***资源消耗。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是本发明实施例的不平衡样本的关联规则确定方法的移动终端的硬件结构框图;
图2是根据本发明实施例的不平衡样本的关联规则确定方法的流程图;
图3是根据本发明实施例的基于关联分析与关联分类的不平衡类别规则发现的流程图;
图4是根据本发明实施例的不平衡类别标记的流程图;
图5是根据本发明实施例的FP树的构造的流程图;
图6是根据本发明实施例的基于FP树挖掘频繁项集的流程图;
图7是根据本实施例的FP树构建的示意图;
图8是根据本发明实施例的利用FP-Growth挖掘不平衡类别的关联规则的流程图;
图9是根据本发明实施例的不平衡样本的关联规则确定装置的框图。
具体实施方式
下文中将参考附图并结合实施例来详细说明本发明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
实施例1
本申请实施例一所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。以运行在移动终端上为例,图1是本发明实施例的不平衡样本的关联规则确定方法的移动终端的硬件结构框图,如图1所示,移动终端可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器104,可选地,上述移动终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述移动终端的结构造成限定。例如,移动终端还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
存储器104可用于存储计算机程序,例如,应用软件的软件程序以及模块,如本发明实施例中的不平衡样本的关联规则确定方法对应的计算机程序,处理器102通过运行存储在存储器104内的计算机程序,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至移动终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括移动终端的通信供应商提供的无线网络。在一个实例中,传输装置106包括一个网络适配器(Network Interface Controller,简称为NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置106可以为射频(Radio Frequency,简称为RF)模块,其用于通过无线方式与互联网进行通讯。
在本实施例中提供了一种运行于上述移动终端或网络架构的不平衡样本的关联规则确定方法,图2是根据本发明实施例的不平衡样本的关联规则确定方法的流程图,如图2所示,该流程包括如下步骤:
步骤S202,将原始数据转换为事务数据;
步骤S204,将所述事务数据中的正负不平衡样本数据进行分类标记,得到正负不平衡标记样本;
本实施例中,上述步骤S204具体可以包括:将所述事务数据划分为正常客户集与具有欺诈行为的异常客户集,其中,所述不平衡类别数据包括所述异常客户集;对所述事务数据中的所述异常客户集进行标记,得到所述不平衡样本。
步骤S206,基于所述正负不平衡标记样本,确定所述正负不平衡样本数据中目标变量的分类关联规则。
通过上述步骤S202至S206,将原始数据转换为事务数据;将所述事务数据中的正负不平衡样本数据进行分类标记,得到正负不平衡标记样本;基于所述正负不平衡标记样本,确定所述正负不平衡样本数据中目标变量的分类关联规则,可以解决相关技术中对于不平衡样本的分类场景,传统关联规则分类算法对***资源消耗较大,且关联规则筛取未考虑全样本信息,影响模型推广的问题,更关注在不平衡样本条件下小样本作为目标变量的分类规则,从而避免挖掘整个数据集,节省了***资源消耗。
本实施例中,上述步骤S206具体可以包括:
S2061,通过FP-Growth确定所述异常客户集上的多个频繁项集;
S2062,从所述多个频繁项集中获取支持数大于支持数阈值的多个候选频繁项集;
S2063,确定所述多个候选频繁项集在所述正常客户集和所述异常客户集上的综合表现值,其中,综合表现值具体可以是F-score;
进一步地,上述步骤S2063具体可以包括:在所述多个频繁项集中分别统计每个频繁项集在所述正常客户集和所述异常客户集出现的次数TPk和次数FPk;根据所述次数TPk和所述次数FPk确定所述每个频繁项集的召回率与精确度;根据所述每个频繁项集的召回率与精确度确定所述每个频繁项集的综合表现值。
S2064,根据所述综合表现值确定所述目标变量的分类关联规则,具体的,该目标变量可以是异常客户。
进一步地,上述步骤S2064具体可以包括:从所述多个目标频繁项集中选取综合表现值最大的目标频繁项集,在确定所述目标频繁项集大于预先设置的最小阈值之后,确定所述目标频繁项集作为所述关联规则,具体的,根据所述综合表现值对所述多个目标频繁项集进行排序,具体可以从小到大进行排序也可以从大到小进行排序;从排序后的所述多个目标频繁项集中选取所述综合表现值最大的目标频繁项集,即将综合表现值最大的频繁项集确定为关联规则。
在一可选的实施例中,在确定所述目标频繁项集为所述关联规则之后,将所述目标频繁项集从所述频繁项集中移除,并调整所述支持数阈值;重复执行上述步骤S2062至S2064,直到无法从所述多个频繁项集中确定所述关联规则,即直到多个频繁项集中所有关联规则均已挖掘出来。
本发明实施例针对金融欺诈检测中不平衡样本的分类规则挖掘,基于关联规则的目标分类快速规则发现技术,由基于FP-Growth的规则挖掘和F-score的关联规则分类器构成。主要涉及原始数据到事务数据的转化过程,不平衡类别标记,不平衡类别规则的快速发现,最终生成关联规则,并存储到关联规则知识库中。过程中,只抽取目标样本满足F-Score的规则,避免挖掘整个数据集,减少了频繁项集的计算开销。其次,根据F-Score作为可信度衡量,生成关联规则,结合了分类全样本信息,可以更精准筛选出目标小样本上分类效果好的规则,一定程度上也缓解冗余关联规则引起的过拟合问题并保有一定的推广效果。使用F-score评估不平衡类别规则,增强了规则可信度和实用价值,对于金融欺诈检测规则库等不平衡类别的知识库构建具有指导性。图3是根据本发明实施例的基于关联分析与关联分类的不平衡类别规则发现的流程图,如图3所示,包括:
步骤S301,将原始数据转换为事务数据;
在原始数据-事务数据的转化阶段,将客户画像数据、客户行为数据、客户履约情况和对应金融产品、期限和分级等离散型变量分开处理转化为事务数据。原始数据到事务数据转化包括:
数据预处理,完成原始数据的缺失值识别与补全,数据类型识别,并存储包括最大值、最小值、中位数等在内的连续型数据的关键指标。
数据转化,根据数据预处理的结果指导数据转化。具体的,根据数据类型的识别结果分别输入相应数据转化选项。离散型数据通过离散型数据转化器生成事务数据,连续型数据通过连续型数据转化器生成事务数据,对于需要自定义的数据,可调用相关数据指标,通过自定义数据转化器生成事务数据。在数据自动化转化过程中,连续型数据调用中位数来确定阈值,自定义数据可调用最大值、最小值、中位数等确定分段数目和阈值。
最终原始数据的各属性值转化为发生(未发生)的二元化形式记录的事务数据。
步骤S302,不平衡类别数据标记;
在不平衡类别数据标记阶段,通过与银行开户账号进行匹配,标记具有欺诈行为的客户,将数据分为具有欺诈行为的客户集和正常履约客户集。在检测规则库的建立和更新过程中,更关注规则在正样例营销成功数据集上的表现,希望规则能够更准确的筛出潜在欺诈行为客户。
为了提取不平衡类别的关联规则,需要将不平衡类别的事务数据进行标记。标记方式是有监督的分类,如果与类别标签匹配成功则进入正样例数据集,反之进入负样例数据集。图4是根据本发明实施例的不平衡类别标记的流程图,如图4所示,包括:
步骤S401,将事务数据划分为具有欺诈行为的客户集和正常履约客户集;
步骤S402,判断事务数据是否为正样例(即是否为具有欺诈行为的数据),在判断结果为否的情况下,执行步骤S403,在判断结果为是的情况下,执行步骤S404;
步骤S403,标记进入负样本样例数据集D0;
步骤S404,标记进入正样本样例数据集D0;
步骤S405,输出数据集D0、D1。
步骤S303,发现不平衡类别关联规则;
在关联规则发现阶段,通过FP-Growth挖掘在具有欺诈行为的客户集上的频繁项集,以F-score为评估指标评估以上频繁项集在具有欺诈行为的客户集和正常履约客户集上的综合表现,取F-score满足最小阈值的频繁项集,由大到小排序,取分值最大的作为关联规则。根据频繁项集抽取关联规则存入关联规则知识库。
不平衡类别的关联规则发现基于关联规则挖掘算法FP-Growth,FP-Growth只需对数据集进行两次全扫描,即可发现频繁项集。频繁项集是指支持度大于等于最小支持度的集合。其中支持度是指某个集合在所有事务中出现的频率。
通过FP-Growth挖掘关联规则需先构造FP树,FP树的根节点为空集,其他节点由单个元素以及这个元素在数据集中的出现次数组成,出现次数越多的元素越接近根节点。节点之间相连,连起来的元素形成频繁集。图5是根据本发明实施例的FP树的构造的流程图,如图5所示,包括:
步骤S501,遍历每个集合,对此集合中的元素,按其在总数据集中出现的次数排序,并去除掉未达到最小支持度的元素;
步骤S502,对每个集合,按次序从根节点向下遍历集合中的元素;
步骤S503,判断树中是否存在相应节点,在判断结果为是的情况下,执行步骤S504,否则执行步骤S505;
步骤S504,递增节点的计数值;
步骤S505,创建一个分支;
步骤S506,判断集合中的元素是否遍历完,在判断结果为否的情况下,返回步骤S502,在判断结果为是的情况下结束。
对树中每一个新加入的节点,在头指针表中查找,如果头指针表中没有此元素,就在头指针表中创建一个此元素节点;把新加入元素接入到头指针表中此元素所对应链表的最后,并把头指针表中此元素的计数递增,头指针表记录所有频繁一项集出现的次数,所有头指针表里的频繁一项集都是一个节点链表的头,依次指向FP树中该频繁一项集出现的位置;
步骤S504,循环直至所有集合遍历完毕。
图6是根据本发明实施例的基于FP树挖掘频繁项集的流程图,如图6所示,包括:
步骤S601,取头指针表的第一个频繁元素,遍历其所在的各条树路径;
步骤S602,在每个树路径中,都向根节点回溯,得到条件模式基,其中,条件模式基是以所查找元素为结尾的路径的集合;
步骤S603,根据得到的条件模式基创建新的FP树;
步骤S604,递归挖掘FP树;
步骤S605,每次循环时,第一个频繁元素,与递归传进来的前缀合成频繁项集,每层递归的每个头指针列表中的每个频繁元素都会生成一个频繁项集。
图7是根据本实施例的FP树构建的示意图,如图7所示,事务数据库中记录了所有事务集合,依据该库对T0—T8每个集合,从树的根节点依次往下添加,如果节点已存在,则递增节点的计数值,否则创建一个分支。在遍历各集合的同时,对树中每一个新加入的节点,在“倒序频繁头表”即“头指针表”中查找,如果头指针表中没有此元素,就在头指针表中创建一个此元素节点。以此循环直至所有集合遍历完毕,FP树构建完成。
构造FP树之后就可以从中挖掘频繁项集。有了这样带头指针的FP树之后,对于每一个元素项,获取其对应的条件模式基。条件模式基是以所查找元素项为结尾的路径集合。每一条路径其实都是一条前缀路径。以I5为例,得到条件模式基{(I2 I1),(I2 I1 I3)},模式后缀为I5。然后递归调用FP-growth,找到最后和模式后缀I5取并集得到支持度大于2的所有频繁项集:{I2 I5},{I1 I5},{I2 I1 I5}。
图8是根据本发明实施例的利用FP-Growth挖掘不平衡类别的关联规则的流程图,如图8所示,包括:
步骤S801,用FP-Growth得到已标记的正样例事务数据集D1上支持数大于阈值minSupport的频繁项集的集合S,其中,支持数为频繁项集出现的次数;
步骤S802,分别统计每一个频繁项集Ik在数据集D1和数据集D0分别出现的次数TPk和FPk;
步骤S803,由TPk和FPk可以计算出每个频繁项集的召回率Recall、精确度Precision和F-score,其中,
Figure BDA0003100041580000141
Figure BDA0003100041580000142
Figure BDA0003100041580000143
步骤S804,根据F-score大小对频繁项集进行排序并选取F-score最大的频繁项集作为一条规则,同时该规则的F-score需大于设定的阈值minF-score;
步骤S805,将该规则命中的事务数据从D1和D0中移除并调整支持数阈值以发现下一条规则。
步骤S806,重复步骤S801-S805直至通过FP-Growth不能再挖掘出满足条件的规则。
步骤S304,将不平衡类型数据的关联规则按照发现的先后顺序存储到关联规则知识库中。
实施例2
根据本发明的另一个实施例,还提供了一种不平衡样本的关联规则确定装置,图9是根据本发明实施例的不平衡样本的关联规则确定装置的框图,如图9所示,包括:
转换模块92,用于将原始数据转换为事务数据;
标记模块94,用于将所述事务数据中的正负不平衡样本数据进行分类标记,得到正负不平衡标记样本;
确定模块96,用于基于所述正负不平衡标记样本,确定所述正负不平衡样本数据中目标变量的分类关联规则。
可选地,所述标记模块94包括:
划分子模块,用于将所述事务数据划分为正常客户集与具有欺诈行为的异常客户集;
标记子模块,用于对所述事务数据中异常客户集和正常客户集进行标记,得到所述正负不平衡标记样本。
可选地,所述确定模块96包括:
第一确定子模块,用于通过FP-Growth确定所述异常客户集上的多个频繁项集;
获取子模块,用于从所述多个频繁项集中获取支持数大于支持数阈值的多个候选频繁项集;
第二确定子模块,用于确定所述多个候选频繁项集在所述正常客户集和所述异常客户集上的综合表现值;
第三确定子模块,用于根据所述综合表现值确定所述目标变量的分类关联规则。
可选地,所述第二确定子模块,还用于
在所述多个频繁项集中分别统计每个频繁项集在所述正常客户集和所述异常客户集出现的次数TPk和次数FPk;
根据所述次数TPk和所述次数FPk确定所述每个频繁项集的召回率与精确度;
根据所述每个频繁项集的召回率与精确度确定所述每个频繁项集的综合表现值。
可选地,所述第三确定子模块包括:
获取单元,用于从所述多个目标频繁项集中选取综合表现值最大的目标频繁项集;
确定单元,用于在确定所述目标频繁项集大于预先设置的最小阈值之后,确定所述目标频繁项集为所述目标变量的分类关联规则。
可选地,所述获取单元,还用于
根据所述综合表现值对所述多个目标频繁项集进行排序;
从排序后的所述多个目标频繁项集中选取所述综合表现值最大的目标频繁项集。
可选地,所述装置还包括:
移除模块,用于将所述目标频繁项集从所述频繁项集中移除,并调整所述支持数阈值;
执行模块,用于重复执行以下步骤,直到无法从所述多个频繁项集中确定所述分类关联规则:
从所述多个频繁项集中获取支持数大于所述支持数阈值的多个候选频繁项集;
确定所述多个候选频繁项集在所述正常客户集和所述异常客户集上的综合表现值;
根据所述综合表现值确定所述目标变量的分类关联规则。
需要说明的是,上述各个模块是可以通过软件或硬件来实现的,对于后者,可以通过以下方式实现,但不限于此:上述模块均位于同一处理器中;或者,上述各个模块以任意组合的形式分别位于不同的处理器中。
实施例3
本发明的实施例还提供了一种计算机可读的存储介质,该存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的计算机程序:
S1,将原始数据转换为事务数据;
S2,将所述事务数据中的正负不平衡样本数据进行分类标记,得到正负不平衡标记样本;
S3,基于所述正负不平衡标记样本,确定所述正负不平衡样本数据中目标变量的分类关联规则。
可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、只读存储器(Read-Only Memory,简称为ROM)、随机存取存储器(Random Access Memory,简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。
实施例4
本发明的实施例还提供了一种电子装置,包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
可选地,上述电子装置还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:
S1,将原始数据转换为事务数据;
S2,将所述事务数据中的正负不平衡样本数据进行分类标记,得到正负不平衡标记样本;
S3,基于所述正负不平衡标记样本,确定所述正负不平衡样本数据中目标变量的分类关联规则。
可选地,本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,本实施例在此不再赘述。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种不平衡样本的关联规则确定方法,其特征在于,包括:
将原始数据转换为事务数据;
将所述事务数据中的正负不平衡样本数据进行分类标记,得到正负不平衡标记样本;
基于所述正负不平衡标记样本,确定所述正负不平衡样本数据中目标变量的分类关联规则。
2.根据权利要求1所述的方法,其特征在于,将所述事务数据中的正负不平衡样本数据进行分类标记,得到正负不平衡标记样本包括:
将所述事务数据划分为正常客户集与具有欺诈行为的异常客户集;
对所述事务数据中异常客户集和正常客户集进行标记,得到所述正负不平衡标记样本。
3.根据权利要求2所述的方法,其特征在于,基于所述正负不平衡标记样本,确定所述正负不平衡样本数据中目标变量的分类关联规则包括:
通过FP-Growth确定所述异常客户集上的多个频繁项集;
从所述多个频繁项集中获取支持数大于支持数阈值的多个候选频繁项集;
确定所述多个候选频繁项集在所述正常客户集和所述异常客户集上的综合表现值;
根据所述综合表现值确定所述目标变量的分类关联规则。
4.根据权利要求3所述的方法,其特征在于,确定所述多个候选频繁项集在所述正常客户集和所述异常客户集上的综合表现值包括:
在所述多个频繁项集中分别统计每个频繁项集在所述正常客户集和所述异常客户集出现的次数TPk和次数FPk;
根据所述次数TPk和所述次数FPk确定所述每个频繁项集的召回率与精确度;
根据所述每个频繁项集的召回率与精确度确定所述每个频繁项集的综合表现值。
5.根据权利要求3所述的方法,其特征在于,根据所述综合表现值确定所述目标变量的分类关联规则包括:
从所述多个目标频繁项集中选取综合表现值最大的目标频繁项集;
在确定所述目标频繁项集大于预先设置的最小阈值之后,确定所述目标频繁项集为所述目标变量的分类关联规则。
6.根据权利要求5所述的方法,其特征在于,从所述多个目标频繁项集中选取综合表现值最大的目标频繁项集包括:
根据所述综合表现值对所述多个目标频繁项集进行排序;
从排序后的所述多个目标频繁项集中选取所述综合表现值最大的目标频繁项集。
7.根据权利要求6所述的方法,其特征在于,在确定所述目标频繁项集为所述目标变量的分类关联规则之后,所述方法还包括:
将所述目标频繁项集从所述频繁项集中移除,并调整所述支持数阈值;
重复执行以下步骤,直到无法从所述多个频繁项集中确定所述分类关联规则:
从所述多个频繁项集中获取支持数大于所述支持数阈值的多个候选频繁项集;
确定所述多个候选频繁项集在所述正常客户集和所述异常客户集上的综合表现值;
根据所述综合表现值确定所述目标变量的分类关联规则。
8.一种不平衡样本的关联规则确定装置,其特征在于,包括:
转换模块,用于将原始数据转换为事务数据;
标记模块,用于将所述事务数据中的正负不平衡样本数据进行分类标记,得到正负不平衡标记样本;
确定模块,用于基于所述正负不平衡标记样本,确定所述正负不平衡样本数据中目标变量的分类关联规则。
9.一种计算机可读的存储介质,其特征在于,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行所述权利要求1至7任一项中所述的方法。
10.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行所述权利要求1至7中任一项所述的方法。
CN202110622409.7A 2021-06-03 2021-06-03 一种不平衡样本的关联规则确定方法及装置 Active CN113282686B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110622409.7A CN113282686B (zh) 2021-06-03 2021-06-03 一种不平衡样本的关联规则确定方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110622409.7A CN113282686B (zh) 2021-06-03 2021-06-03 一种不平衡样本的关联规则确定方法及装置

Publications (2)

Publication Number Publication Date
CN113282686A true CN113282686A (zh) 2021-08-20
CN113282686B CN113282686B (zh) 2023-11-07

Family

ID=77283445

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110622409.7A Active CN113282686B (zh) 2021-06-03 2021-06-03 一种不平衡样本的关联规则确定方法及装置

Country Status (1)

Country Link
CN (1) CN113282686B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114221858A (zh) * 2021-12-15 2022-03-22 中山大学 Sdn网络故障定位方法、装置、设备及可读存储介质

Citations (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007147166A2 (en) * 2006-06-16 2007-12-21 Quantum Leap Research, Inc. Consilence of data-mining
CN103731738A (zh) * 2014-01-23 2014-04-16 哈尔滨理工大学 基于用户群组行为分析的视频推荐方法及装置
CN103995882A (zh) * 2014-05-28 2014-08-20 南京大学 基于MapReduce的概率频繁项集挖掘方法
CN104239437A (zh) * 2014-08-28 2014-12-24 国家电网公司 一种面向电网调度的智能告警分析方法
CN104537025A (zh) * 2014-12-19 2015-04-22 北京邮电大学 频繁序列挖掘方法
CN105306475A (zh) * 2015-11-05 2016-02-03 天津理工大学 一种基于关联规则分类的网络入侵检测方法
CN105740245A (zh) * 2014-12-08 2016-07-06 北京邮电大学 频繁项集挖掘方法
CN106529580A (zh) * 2016-10-24 2017-03-22 浙江工业大学 结合edsvm的软件缺陷数据关联分类方法
CN107590516A (zh) * 2017-09-16 2018-01-16 电子科技大学 基于光纤传感数据挖掘的输气管道泄漏检测识别方法
CN108376347A (zh) * 2018-02-27 2018-08-07 广西财经学院 一种基于加权Apriori算法的商品分类方法
CN108806767A (zh) * 2018-06-15 2018-11-13 中南大学 基于电子病历的疾病症状关联分析方法
CN108830321A (zh) * 2018-06-15 2018-11-16 中南大学 不平衡数据集的分类方法
CN110990461A (zh) * 2019-12-12 2020-04-10 国家电网有限公司大数据中心 大数据分析模型算法选型方法、装置、电子设备及介质
CN111309777A (zh) * 2020-01-14 2020-06-19 哈尔滨工业大学 一种基于互斥表达的改进关联规则报表数据挖掘方法
CN111782512A (zh) * 2020-06-23 2020-10-16 北京高质***科技有限公司 基于不平衡噪声集的多特征软件缺陷综合预测方法
CN112380274A (zh) * 2020-11-16 2021-02-19 北京航空航天大学 一种面向控制过程的异常检测***
CN112723075A (zh) * 2021-01-04 2021-04-30 浙江新再灵科技股份有限公司 一种数据不平衡的电梯振动影响因素分析方法
CN112884179A (zh) * 2021-03-30 2021-06-01 北京交通大学 基于机器故障和文本主题分析的城轨折返故障诊断方法

Patent Citations (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007147166A2 (en) * 2006-06-16 2007-12-21 Quantum Leap Research, Inc. Consilence of data-mining
CN103731738A (zh) * 2014-01-23 2014-04-16 哈尔滨理工大学 基于用户群组行为分析的视频推荐方法及装置
CN103995882A (zh) * 2014-05-28 2014-08-20 南京大学 基于MapReduce的概率频繁项集挖掘方法
CN104239437A (zh) * 2014-08-28 2014-12-24 国家电网公司 一种面向电网调度的智能告警分析方法
CN105740245A (zh) * 2014-12-08 2016-07-06 北京邮电大学 频繁项集挖掘方法
CN104537025A (zh) * 2014-12-19 2015-04-22 北京邮电大学 频繁序列挖掘方法
CN105306475A (zh) * 2015-11-05 2016-02-03 天津理工大学 一种基于关联规则分类的网络入侵检测方法
CN106529580A (zh) * 2016-10-24 2017-03-22 浙江工业大学 结合edsvm的软件缺陷数据关联分类方法
CN107590516A (zh) * 2017-09-16 2018-01-16 电子科技大学 基于光纤传感数据挖掘的输气管道泄漏检测识别方法
CN108376347A (zh) * 2018-02-27 2018-08-07 广西财经学院 一种基于加权Apriori算法的商品分类方法
CN108806767A (zh) * 2018-06-15 2018-11-13 中南大学 基于电子病历的疾病症状关联分析方法
CN108830321A (zh) * 2018-06-15 2018-11-16 中南大学 不平衡数据集的分类方法
CN110990461A (zh) * 2019-12-12 2020-04-10 国家电网有限公司大数据中心 大数据分析模型算法选型方法、装置、电子设备及介质
CN111309777A (zh) * 2020-01-14 2020-06-19 哈尔滨工业大学 一种基于互斥表达的改进关联规则报表数据挖掘方法
CN111782512A (zh) * 2020-06-23 2020-10-16 北京高质***科技有限公司 基于不平衡噪声集的多特征软件缺陷综合预测方法
CN112380274A (zh) * 2020-11-16 2021-02-19 北京航空航天大学 一种面向控制过程的异常检测***
CN112723075A (zh) * 2021-01-04 2021-04-30 浙江新再灵科技股份有限公司 一种数据不平衡的电梯振动影响因素分析方法
CN112884179A (zh) * 2021-03-30 2021-06-01 北京交通大学 基于机器故障和文本主题分析的城轨折返故障诊断方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114221858A (zh) * 2021-12-15 2022-03-22 中山大学 Sdn网络故障定位方法、装置、设备及可读存储介质

Also Published As

Publication number Publication date
CN113282686B (zh) 2023-11-07

Similar Documents

Publication Publication Date Title
CN110020422B (zh) 特征词的确定方法、装置和服务器
WO2021164382A1 (zh) 针对用户分类模型进行特征处理的方法及装置
CN109872162B (zh) 一种处理用户投诉信息的风控分类识别方法及***
CN107844559A (zh) 一种文件分类方法、装置及电子设备
CN110737821B (zh) 相似事件查询的方法、装置、存储介质和终端设备
CN112667750A (zh) 一种报文类别的确定、识别方法及装置
CN107368526A (zh) 一种数据处理方法及装置
CN116881430B (zh) 一种产业链识别方法、装置、电子设备及可读存储介质
CN113486664A (zh) 文本数据可视化分析方法、装置、设备及存储介质
CN113537960A (zh) 一种异常资源转移链路的确定方法、装置和设备
CN112364014A (zh) 数据查询方法、装置、服务器及存储介质
US10467276B2 (en) Systems and methods for merging electronic data collections
CN108830302B (zh) 一种图像分类方法、训练方法、分类预测方法及相关装置
CN111460315A (zh) 社群画像构建方法、装置、设备及存储介质
CN113282686B (zh) 一种不平衡样本的关联规则确定方法及装置
CN117633666A (zh) 网络资产识别方法、装置、电子设备和存储介质
CN116032741A (zh) 一种设备识别方法、装置、电子设备和计算机存储介质
KR101064256B1 (ko) 최대 개념강도 인지기법을 이용한 최적의 데이터베이스 선택장치 및 그 방법
CN111259975B (zh) 分类器的生成方法及装置、文本的分类方法及装置
CN111325255B (zh) 特定人群圈定方法、装置、电子设备及存储介质
CN116821087A (zh) 输电线路故障数据库构建方法、装置、终端及存储介质
CN109993381B (zh) 基于知识图谱的需求管理应用方法、装置、设备及介质
CN116204647A (zh) 一种目标比对学习模型的建立、文本聚类方法及装置
CN112711678A (zh) 数据解析方法、装置、设备及存储介质
CN114511022A (zh) 特征筛选、行为识别模型训练、异常行为识别方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant