CN112488228A - 面向风控***数据补全的双向聚类方法 - Google Patents

面向风控***数据补全的双向聚类方法 Download PDF

Info

Publication number
CN112488228A
CN112488228A CN202011439471.4A CN202011439471A CN112488228A CN 112488228 A CN112488228 A CN 112488228A CN 202011439471 A CN202011439471 A CN 202011439471A CN 112488228 A CN112488228 A CN 112488228A
Authority
CN
China
Prior art keywords
clustering
matrix
formula
clusters
cluster
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011439471.4A
Other languages
English (en)
Inventor
郑小禄
诸葛天心
刘羽中
胡亮
仵伟强
尹昌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jingke Internet Technology Shandong Co ltd
Original Assignee
Jingke Internet Technology Shandong Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jingke Internet Technology Shandong Co ltd filed Critical Jingke Internet Technology Shandong Co ltd
Priority to CN202011439471.4A priority Critical patent/CN112488228A/zh
Publication of CN112488228A publication Critical patent/CN112488228A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及聚类分析技术领域,尤其涉及面向风控***数据补全的双向聚类方法,示例聚类主要是以簇内高相似性和簇间低相似性为目标,把样本点分配到不同的簇中,属性聚类将示例聚类得到的质心进行属性维度的聚类,充分考虑了示例维度与属性维度的信息,联合聚类有效捕获行列间的潜在规律,并以此构造局部矩阵,局部矩阵内的用户与项目存在着较强的相关性,通过潜在因子模型来填充局部矩阵,本发明通过双向聚类,具有对噪声鲁棒性较好的特点,通过捕获多个维度的特征,从而提高处理结果的精确度。

Description

面向风控***数据补全的双向聚类方法
技术领域
本发明涉及聚类分析技术领域,尤其涉及面向风控***数据补全的双向聚类方法。
背景技术
随着信息技术和互联网的发展,越来越多的机器学习算法应用于传统的金融领域。传统的金融领域中,如何通过大数据结合机器学习来进行金融风控备受关注。传统的风控模型大多都是建立在有标签的监督学习任务上。但随着数据量的不断增大,存储错误、采集设备不可靠、网络状态不稳定或用户恶意欺诈等原因,采集到的数据大多是不完整的。而这些不完整的数据可能是冗余、噪声或缺失等。数据缺失在风控***中是一个普遍现象,且丢失的数据量随用户规模、业务规模的增长呈指数级增长。缺失数据影响风控决策的准确性和可靠性,例如各种成熟的基于结构化完整数据的风控模型无用武之地;由于数据缺失导致不能产生决策等。数据缺失给风控***带来很多不利影响,不仅影响用户体验,同时提高决策风险。
基于矩阵分解的潜在因子模型已广泛用于面向风控***的数据补全中。然而传统的潜在因子模型只能从单一维度进行补全,存在着准确度的损失。从多个维度充分利用信息,已成为数据补全的重要研究方向。
发明内容
本发明的目的在于克服现有技术中的不足,提供一种面向风控***数据补全的双向聚类方法,以解决对缺失数据补全的速度不足和效率不足的问题。
本发明是通过以下技术方案实现的:一种面向风控***数据补全的双向聚类方法,包括示例聚类、属性聚类、局部矩阵构造、局部矩阵填充、矩阵填充五个步骤,其中:
所述示例聚类为将样本点分配到不同的簇一内,各簇一的质心不同,各簇一的质心通过更新公式一得到,所述示例聚类中相似性通过距离计算公式一计算,距离计算公式一为
Figure BDA0002821820830000021
其中,D表示数据对象的属性个数,所述示例聚类中聚类分配的子集c的公式为
Figure BDA0002821820830000022
所述属性聚类为将示例聚类得到数据进行属性维度的聚类,分配到不同的簇二内,各簇二的质心不同,各簇二的质心通过更新公式二得到,所述属性聚类中相似性通过距离公式一计算,所述属性聚类中聚类分配的子集d的公式为
Figure BDA0002821820830000023
所述局部矩阵构造为将示例聚类和属性聚类进行联合聚类,得到局部矩阵;
所述局部矩阵填充为根据用户与项目存在的相关性,用潜在因子模型来填充局部矩阵,得到完整矩阵,所述潜在因子模型为A=UVT,其中A为局部模型,U和V分别为用户和特征项的潜在因子矩阵;
所述矩阵填充为将经过填充的局部矩阵填充至矩阵中,得到完整的矩阵。
进一步地,所述更新公式一和更新公式二均为
Figure BDA0002821820830000024
其中,Centerk定义为第k个簇的质心,Centerk表示第k个类簇,|Ck|表示第k个类簇中数据对象的个数。
进一步地,计算出Centerk后,选取样本点中距离该质心距离最近的点,更新为质心。
本发明的有益效果在于:示例聚类主要是以簇内高相似性和簇间低相似性为目标,把样本点分配到不同的簇中,属性聚类将示例聚类得到的质心进行属性维度的聚类,充分考虑了示例维度与属性维度的信息,联合聚类有效捕获行列间的潜在规律,并以此构造局部矩阵,局部矩阵内的用户与项目存在着较强的相关性,通过潜在因子模型来填充局部矩阵,本发明通过双向聚类,具有对噪声鲁棒性较好的特点,通过捕获多个维度的特征,从而提高处理结果的精确度,相比于现有的offset、KNN等均值填充的方法,本发明通过潜在因子填充的方式进行数据补全,有效提高了拟合效果。相比于现有的矩阵分解、多聚类等基于潜在因子填充的方法,本发明通过示例聚类与属性聚类,从两个维度捕获局部信息,对于局部信息有着更充分的挖掘与利用,从而得到更优的补全效果。
附图说明
图1为本发明主要步骤的简要流程图;
图2为本发明的算法全过程的流程图;
图3为本发明的数据示意图;
图4为本发明的可视化对比图。
具体实施方式
下面将结合发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
以下各实施例中,样本见附表1,
附表1
Figure BDA0002821820830000031
Figure BDA0002821820830000041
附表1为公开数据集“LendingClub”的部分数据,该公开数据集提供客户的个人信息和履约情况,常被用于测试算法基于客户个人信息对于客户履约与否的准确率判断。附表1中的每一行是一个客户的信息,每一列是该客户的所有属性,最后一列是该客户的履约情况,通常被用于算法预测客户履约与否的标签。
示例聚类中,获得第u个子集cu的公式为
Figure BDA0002821820830000042
其中R为整个表的数据,Ru,:为整个表中属于第u个子集的所有行组成的局部示例矩阵,vc为第u个子集的质心向量,是这个局部矩阵的代表特征向量。
附表2为一个示例子集矩阵例子。
附表2
Figure BDA0002821820830000043
属性聚类是将示例聚类得到的数据进行属性维度的聚类,分配到不同的簇二内,各簇二的质心不同,各簇二的质心通过更新公式二得到,属性聚类中相似性通过距离公式一计算,属性聚类中,获得第m个子集dm公式为
Figure BDA0002821820830000051
其中
Figure BDA0002821820830000052
为属性聚类得到的局部矩阵数据,如附表3所示,
Figure BDA0002821820830000053
为整个表中属于第m个子集的所有列组成的局部属性矩阵,V:,d为第m个子集的质心向量,是这个局部矩阵的代表特征向量。附表3为一个属性子集矩阵例子。值得注意的是,“违约与否”通常被视为一个标签,而不是属性,因此在属性聚类时,通常将这一维度数据删除后进行聚类操作,即
Figure BDA0002821820830000054
中不包含“违约与否”这一列。
附表3
Figure BDA0002821820830000055
实施例1
如图1-3所示,一种面向风控***数据补全的双向聚类方法,包括示例聚类、属性聚类、局部矩阵构造、局部矩阵填充、矩阵填充五个步骤,其中:
示例聚类为将样本点分配到不同的簇一内,各簇一的质心不同,各簇一的质心通过更新公式一得到,示例聚类中相似性通过距离计算公式一计算,距离计算公式一为
Figure BDA0002821820830000056
其中,D表示数据对象的属性个数,,示例聚类中聚类分配的子集c的公式为
Figure BDA0002821820830000057
属性聚类是将示例聚类得到的数据进行属性维度的聚类,分配到不同的簇二内,各簇二的质心不同,各簇二的质心通过更新公式二得到,属性聚类中相似性通过距离公式一计算,属性聚类中,获得第m个子集dm公式为
Figure BDA0002821820830000061
其中dm为属性聚类得到的局部矩阵数据,
Figure BDA0002821820830000062
为整个表中属于第m个子集的所有列组成的局部属性矩阵,V:,d为第m个子集的质心向量,是这个局部矩阵的代表特征向量。
局部矩阵构造为将示例聚类和属性聚类进行联合聚类,得到局部矩阵;
局部矩阵填充为根据用户与项目存在的相关性,用潜在因子模型来填充局部矩阵,得到完整矩阵,潜在因子模型为A=UVT,其中A为局部模型,U和V分别为用户和特征项的潜在因子矩阵,其中,更新公式一和更新公式二均为
Figure BDA0002821820830000063
其中,Centerk定义为第k个簇的质心,Centerk表示第k个类簇,|Ck|表示第k个类簇中数据对象的个数,算出Centerk后,选取样本点中距离该质心距离最近的点,更新为质心。
矩阵填充为将经过填充的局部矩阵填充至矩阵中,得到完整的矩阵,缺失数据得到填充。
以附表1的样本处理为例,
面向风控***数据补全的双向聚类方法,操作步骤如下,
步骤1,输入缺失的风控数据,见附表1;
步骤2,构造模型,设定参数kn、km、I、J,kn为行向量聚类质心数量,取值与用户数量有关,对于附表1中的样本数据,kn=3,km为列向量聚类质心数量,取值与属性数量有关,对于附表1中的样本数据,km=2,I、J均为最大迭代次数,取值与矩阵行列维数有关,对于附表1中的样本数据,I=J=5,迭代次数i=0,j=0。
步骤3,从风控数据如附表1中随机选取kn个用户向量作为代表用户向量得到质心一,得到质量向量kn个如附表4所示,其中每行均为一个质心向量;
附表4
Figure BDA0002821820830000071
步骤4,根据距离公式一计算各个用户向量到kn个质心向量的距离,距离公式一为
Figure BDA0002821820830000072
D表示数据对象的属性个数,将用户向量的类划分至离其最近的质心向量,得到kn个簇一,其中三个簇分别如附表2、附表5、附表6所示;
附表5
16 5000 704 0.11 9 6 0.47 8 36 0.12 履约
3 4000 689 0.22 0.58 16 36 0.16 履约
20 10225 689 0.33 30 0.7 52 0.16 履约
18 6000 679 11 10 0.3 38 36 0.08 履约
19 24000 679 0.25 20 29 36 0.12 履约
7 3000 674 0.15 32 10 0.34 25 36 0.16 履约
2 6000 669 0.08 37 1 8 36 0.12 履约
6 3000 669 0.29 4 36 0.16 履约
13 5000 669 0.19 10 10 0.51 41 36 0.09 履约
附表6
14 35000 669 0.17 23 0.87 53 60 0.19 履约
24 14400 669 0.27 37 10 0.74 29 60 0.19 违约
1 19150 0.13 11 1 0.39 41 36 0.19 履约
5 12000 0.06 33 10 0.8 5 60 0.14 履约
11 5700 0.15 16 6 0.34 36 0.07 履约
17 9600 0.15 10 6 0.86 36 0.11 履约
23 14000 0.13 32 9 22 36 0.16 违约
步骤5,通过质心公式对簇一求平均值,质心更新公式为
Figure BDA0002821820830000073
Centerk定义为第k个簇一的质心,Ck表示第k个类簇,|Ck|表示第k个簇一中数据对象的个数,得到质心二;
步骤6,迭代次数i=i+1,判断迭代次数i是否等于I,若不相等执行步骤4,若相等执行步骤7;
步骤7,将得到的质心二矩阵转置,如附表7所示,得到质心二矩阵,从质心二矩阵中随机选取km个质心向量如附表8所示,每一行均为一个质心向量。
附表7
用户ID 7 21 24
借贷数额 3000 6500 14400
信用评分值 674 714 669
债务收入比 0.15 0.21 0.27
省份 32 37 37
工作时长 10 10 10
周转额度利用率 0.34 0.75 0.74
开通账户数量 25 12 29
贷款支付次数 36 36 60
利率 0.16 0.12 0.19
违约与否 履约 履约 违约
附表8
信用评分值 674 714 669
开通账户数量 25 12 29
步骤8,通过距离公式一计算每列到质心三的距离,,将每列的类划分至离其最近的质心三,形成km个簇二,其中两个簇二分别如附表9,附表10所示;
附表9
借贷数额 3000 6500 14400
信用评分值 674 714 669
省份 32 37 37
开通账户数量 25 12 29
贷款支付次数 36 36 60
附表10
债务收入比 0.15 0.21 0.27
工作时长 10 10 10
周转额度利用率 0.34 0.75 0.74
利率 0.16 0.12 0.19
步骤9,对簇二内求平均值,得到质心四;
步骤10,迭代次数j=J+1,判断迭代次数j是否等于J,若不相等执行步骤8,若相等执行步骤11;
步骤11,通过行向量聚类结果(簇一)和列向量聚类结果(簇二)构建局部矩阵,附表4的行向量簇和附表9的列向量簇构建的局部矩阵如附表11所示,附表4的行向量簇和附表10的列向量簇构建的局部矩阵如附表12所示;
附表11
Figure BDA0002821820830000091
附表12
Figure BDA0002821820830000092
步骤12,通过潜在因子模型填充局部矩阵,潜在因子模型为A=UVT,其中A为局部模型,U和V分别为用户和属性的潜在因子矩阵,行数分别为用户数和属性数,列数为潜在因子维数,在本实例中,潜在因子维数为3,以附表11为例,通过公式A=UVT对于用户8的潜在向量U8和属性“省份”上的潜在向量V3,分别得到U8为[32.94,48.43,10.14]、特征“省份”V3为[0.22,0.04,3.24],因此可以通过公式UVT=A’得到用户8在属性“省份”上的缺失值为U8V3T=42,可由此得到无缺失值的局部矩阵A’,对步骤11得到的所有局部矩阵进行填充;
步骤13,以步骤12得到的无缺失值局部矩阵的结果填充数据矩阵;
步骤14,输出数据矩阵,见附表13。
附表13
Figure BDA0002821820830000101
由附表13可以知道,通过本发明提供的面向风控***数据补全的双向聚类方法,能够稳定的补充缺失数据,对于目前阶段海量的缺失数据补充有及其重要的作用。
公开数据集实验效果对比:
该公开数据集由“LendingClub”在2013年至2015年之间发布的656,724条贷款记录组成。共有115个属性描述贷款申请。描述贷款当前状态的“贷款状态”属性具有以下值:“已发出”,“当前”,“已全额支付”,“默认”,“已收取”,“延迟(16-30天)”,“后期(31-120天)”和“处于宽限期”。这些状态用于将它们简化为二进制分类问题,即,具有“已收费”,“默认”,“延迟(31-120天)”和“延迟(16-30天)”的贷款申请被视为“不良”或“违约”贷款,而“当前”,“已全额支付”和“处于宽限期”被归类为“不良”贷款,其余则被忽略。值为0表示信誉良好,值为1表示信誉不良或违约。贷款额从$1000到$35,000不等,每笔贷款都有一个与之相关的“等级”(从A-G到A)。该等级按从小到大的顺序指定利率范围,范围从5.32%到29%。结果表明,利率较高的贷款有较高的违约风险。G级贷款中有31%是不良贷款,而A级贷款中只有3%是不良贷款。在该数据集中,算法性能的比较,通过AUC的高低来评价,AUC高的算法,准确率就更高。
为了进行比较,本申请人考虑了以下方法作为对比参考:
Offset:Offset使用项目的用户所有数据的平均值作为预测值,广泛用于对预测精度进行基准测试。
ItemKNN:ItemKNN将用户的属性聚类为多个子集,并使用每个子集的平均值作为预测值。
MF:矩阵分解(Matrix Factorization)是一种潜在因子模型。已广泛应用于风控***中。
ADFT:替代距离函数变换(Alternative Distance Function Transformation)使用必须链接并且不能在实例之间链接约束来学习距离函数,并使用距离函数来计算变换矩阵,从而使用一组特征来生成替代聚类。
MSC:稳定多聚类(Multiple Stable Clusterings)使用单纯形约束生成分配给特征的不同稀疏权重,然后使用谱聚类产生多个稳定聚类。
MetaClustering:元聚类是无监督多聚类类别中的一种众所周知的方法。它首先根据Zipf分布为特征赋予不同的权重,然后通过将k均值应用于加权特征来获得多个聚类。
本方案的方法用DCM表示。
实验结果:实验结果如表一所示,表一说明了本方案的方法和其他基线方法在AUC方面的性能。结果表明,所提出的DCM获得更好的性能。
表3
Offset ItemKNN MF ADFT MSC MetaClustering DCM
AUC 66.80% 77.79% 79.69% 84.55% 87.97% 88.22% 92.09%
可视化实验效果对比:为了更进一步说明本方案方法的性能,本方案采用可视化做进一步展示,如附图4所示,将ItemKNN和DCM聚类后得到的簇内填充后得到的图像进行对比,可以看到在相同簇数时,ItemKNN对于特征的表达不如DCM,这是由于DCM利用了两个维度的信息进行聚类。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (3)

1.一种面向风控***数据补全的双向聚类方法,其特征在于,包括示例聚类、属性聚类、局部矩阵构造、局部矩阵填充、矩阵填充五个步骤,其中:
所述示例聚类为将样本点分配到不同的簇一内,各簇一的质心不同,各簇一的质心通过更新公式一得到,所述示例聚类中相似性通过距离计算公式一计算,距离计算公式一为
Figure FDA0002821820820000011
其中,D表示数据对象的属性个数,所述示例聚类中聚类分配的子集c的公式为
Figure FDA0002821820820000012
所述属性聚类为将示例聚类得到数据进行属性维度的聚类,分配到不同的簇二内,各簇二的质心不同,各簇二的质心通过更新公式二得到,所述属性聚类中相似性通过距离公式一计算,所述属性聚类中聚类分配的子集d的公式为
Figure FDA0002821820820000013
所述局部矩阵构造为将示例聚类和属性聚类进行联合聚类,得到局部矩阵;
所述局部矩阵填充为根据用户与项目存在的相关性,用潜在因子模型来填充局部矩阵,得到完整矩阵,所述潜在因子模型为A=UVT,其中A为局部模型,U和V分别为用户和特征项的潜在因子矩阵;
所述矩阵填充为将经过填充的局部矩阵填充至矩阵中,得到完整的矩阵。
2.根据权利要求1所述的面向风控***数据补全的双向聚类方法,其特征在于,所述更新公式一和更新公式二均为
Figure FDA0002821820820000014
其中,Centerk定义为第k个簇的质心,Centerk表示第k个类簇,|Ck|表示第k个类簇中数据对象的个数。
3.根据权利要求2所述的面向风控***数据补全的双向聚类方法,其特征在于,计算出Centerk后,选取样本点中距离该质心距离最近的点,更新为新的质心。
CN202011439471.4A 2020-12-07 2020-12-07 面向风控***数据补全的双向聚类方法 Pending CN112488228A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011439471.4A CN112488228A (zh) 2020-12-07 2020-12-07 面向风控***数据补全的双向聚类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011439471.4A CN112488228A (zh) 2020-12-07 2020-12-07 面向风控***数据补全的双向聚类方法

Publications (1)

Publication Number Publication Date
CN112488228A true CN112488228A (zh) 2021-03-12

Family

ID=74939966

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011439471.4A Pending CN112488228A (zh) 2020-12-07 2020-12-07 面向风控***数据补全的双向聚类方法

Country Status (1)

Country Link
CN (1) CN112488228A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117788538A (zh) * 2024-02-27 2024-03-29 南京信息工程大学 点云区间配对体积方差一致性的配准方法、装置和***

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103488662A (zh) * 2013-04-01 2014-01-01 哈尔滨工业大学深圳研究生院 基于图形处理单元的自组织映射神经网络聚类方法及***
CN105513370A (zh) * 2015-12-29 2016-04-20 浙江大学 基于稀疏车牌识别数据挖掘的交通小区划分方法
CN105955975A (zh) * 2016-04-15 2016-09-21 北京大学 一种面向学术文献的知识推荐方法
CN106484876A (zh) * 2016-10-13 2017-03-08 中山大学 一种基于典型度和信任网络的协同过滤推荐方法
US20170235823A1 (en) * 2013-09-12 2017-08-17 Guangdong Electronics Industry Institute Ltd. Clustering method for multilingual documents
CN107124265A (zh) * 2017-04-28 2017-09-01 淮安纷云软件有限公司 一种基于Hash散列表的身份认证方法
CN107833153A (zh) * 2017-12-06 2018-03-23 广州供电局有限公司 一种基于k‑means聚类的电网负荷缺失数据补全方法
CN111812195A (zh) * 2020-07-31 2020-10-23 江南大学 一种对涡流检测得到的管道缺陷进行周向角度分类的方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103488662A (zh) * 2013-04-01 2014-01-01 哈尔滨工业大学深圳研究生院 基于图形处理单元的自组织映射神经网络聚类方法及***
US20170235823A1 (en) * 2013-09-12 2017-08-17 Guangdong Electronics Industry Institute Ltd. Clustering method for multilingual documents
CN105513370A (zh) * 2015-12-29 2016-04-20 浙江大学 基于稀疏车牌识别数据挖掘的交通小区划分方法
CN105955975A (zh) * 2016-04-15 2016-09-21 北京大学 一种面向学术文献的知识推荐方法
CN106484876A (zh) * 2016-10-13 2017-03-08 中山大学 一种基于典型度和信任网络的协同过滤推荐方法
CN107124265A (zh) * 2017-04-28 2017-09-01 淮安纷云软件有限公司 一种基于Hash散列表的身份认证方法
CN107833153A (zh) * 2017-12-06 2018-03-23 广州供电局有限公司 一种基于k‑means聚类的电网负荷缺失数据补全方法
CN111812195A (zh) * 2020-07-31 2020-10-23 江南大学 一种对涡流检测得到的管道缺陷进行周向角度分类的方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
喻金平: "基于混合蛙跳联合聚类的协同过滤算法", 《微电子学与计算机》 *
毕猛: "一种用于网络用户行为聚类的标签自动生成方法", 《计算机工程》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117788538A (zh) * 2024-02-27 2024-03-29 南京信息工程大学 点云区间配对体积方差一致性的配准方法、装置和***
CN117788538B (zh) * 2024-02-27 2024-05-10 南京信息工程大学 点云区间配对体积方差一致性的配准方法、装置和***

Similar Documents

Publication Publication Date Title
CN113468227B (zh) 基于图神经网络的信息推荐方法、***、设备和存储介质
CN113435509B (zh) 基于元学习的小样本场景分类识别方法及***
CN111325248A (zh) 降低贷前业务风险的方法及***
CN111461225B (zh) 客户聚类***及其方法
CN111539444A (zh) 一种修正式模式识别及统计建模的高斯混合模型方法
CN112819523B (zh) 结合内/外积特征交互和贝叶斯神经网络的营销预测方法
CN113657678A (zh) 一种基于信息新鲜度的电网电力数据预测方法
CN111861756A (zh) 一种基于金融交易网络的团伙检测方法及其实现装置
CN112418476A (zh) 一种超短期电力负荷预测方法
CN111611293B (zh) 一种基于特征加权与MapReduce的离群数据挖掘方法
CN113822419A (zh) 一种基于结构信息的自监督图表示学习运行方法
CN115410199A (zh) 图像内容检索方法、装置、设备及存储介质
CN115080868A (zh) 产品推送方法、装置、计算机设备、存储介质和程序产品
CN112488228A (zh) 面向风控***数据补全的双向聚类方法
Zhu et al. Loan default prediction based on convolutional neural network and LightGBM
CN107423319B (zh) 一种垃圾网页检测方法
CN109271555A (zh) 信息聚类方法、***、服务器及计算机可读存储介质
CN111967973A (zh) 银行客户数据处理方法及装置
CN116541792A (zh) 一种基于图神经网络节点分类进行团伙识别的方法
CN115564578B (zh) 欺诈识别模型生成方法
CN114298245A (zh) 异常检测方法、装置、存储介质和计算机设备
CN111275447B (zh) 基于自动化特征工程的在线网络支付欺诈检测***
CN113763710A (zh) 一种基于非线性自适应***的短期交通流预测方法
CN111784381A (zh) 基于隐私保护和som网络的电力客户细分方法及***
CN111984842A (zh) 银行客户数据处理方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210312

RJ01 Rejection of invention patent application after publication