CN110866549A - 一种对评估对象的聚类方法及装置 - Google Patents
一种对评估对象的聚类方法及装置 Download PDFInfo
- Publication number
- CN110866549A CN110866549A CN201911055761.6A CN201911055761A CN110866549A CN 110866549 A CN110866549 A CN 110866549A CN 201911055761 A CN201911055761 A CN 201911055761A CN 110866549 A CN110866549 A CN 110866549A
- Authority
- CN
- China
- Prior art keywords
- cluster
- sample
- sample points
- point
- neighborhood
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Development Economics (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Accounting & Taxation (AREA)
- Evolutionary Biology (AREA)
- Economics (AREA)
- Finance (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Technology Law (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及金融科技(Fintech)领域,并公开了一种对评估对象的聚类方法及装置,根据各评估对象的属性信息构建对应的各样本点;确定任一样本点所属聚类簇的方法:确定样本点邻域内的样本点数;若邻域内的样本点数满足聚类点要求:邻域内的样本点数不小于预设阈值,或邻域内的样本点数大于样本点所属聚类簇中的样本点数;邻域为以样本点为基准的设定区域范围;根据各聚类簇中的样本点的数量,确定各聚类簇为正常样本点所在的簇或异常样本点所在的簇。该方案通过构建各评估对象对应的各样本点,确定各样本点所属的聚类簇,依据所形成各聚类簇中的样本点的数量,有助于确定各评估对象的归属,即各评估对象为正常数据或者为异常数据。
Description
技术领域
本发明实施例涉及金融科技(Fintech)领域,尤其涉及一种对评估对象的聚类方法及装置。
背景技术
随着计算机技术的发展,越来越多的技术(例如:区块链、云计算或大数据)应用在金融领域,传统金融业正在逐步向金融科技转变,大数据技术也不例外。但由于金融、支付行业的安全性、实时性要求,也对大数据技术提出了更高的要求。
比如,金融领域可以将大数据技术用于审查客户的贸易背景。针对运输、物流行业的客户所提出的贷款请求,银行需要对其进行贸易背景审查,通过了贸易背景审查的客户即能获得银行的放款。一般而言,贸易背景审查可以涉及对运输路线数据的分析,银行可以要求客户提供关于某一固定运输路线的全部行车记录信息。然而,客户反馈给银行的关于这一固定路线的全部行车记录信息中的绝大部分数据是真实的,但仍存在少量数据是虚假的行车记录,即异常的行车记录。银行需要对客户提供的关于某一固定路线的全部行车记录进行分析。
现有技术在解决上述问题时,采用了特征均值的方法。通过计算全部行车记录的特征均值,然后将每次的行车记录与特征均值进行比对:若每次的行车记录与特征均值相差不大,则认为此次的行车记录是真实的行车记录;若每次的行车记录与特征均值相差很大,则认为此次的行车记录是异常的行车记录。然而,对于真实的行车记录与特征均值相差很大以及异常的行车的记录与特征均值相差不大的情况,这种特征均值的方法则无法准确地归类出真实的行车记录和异常的行车记录。
发明内容
本发明提供一种对评估对象的聚类方法及装置,用以解决现有技术无法准确识别出正常数据与异常数据。
第一方面,本发明实施例提供一种对评估对象的聚类方法,该方法包括:根据各评估对象的属性信息,构建所述各评估对象对应的各样本点;确定各样本点所属的聚类簇;其中,针对任一样本点通过如下方式确定所属的聚类簇:确定所述样本点的邻域内的样本点数;若所述邻域内的样本点数满足聚类点要求,则将所述样本点所属的聚类簇确定为所述邻域内的样本点所属的聚类簇;所述邻域为以所述样本点为基准的设定区域范围;所述聚类点要求为所述邻域内的样本点数不小于预设阈值,或所述邻域内的样本点数大于所述样本点所属的聚类簇中的样本点数;根据各聚类簇中的样本点的数量,确定各聚类簇为正常样本点所在的簇或异常样本点所在的簇。
基于该方案,通过构建各评估对象对应的各样本点,进行通过聚类点要求确定各样本点所属的聚类簇;同时,聚类点要求包括对邻域内的样本点数和预设阈值的关系,以及,所述邻域内的样本点数与所述样本点所属的聚类簇中的样本点数的关系进行判断,从多个判断依据来确定样本点所属的聚类簇中,有助于确定各评估对象的归属;最后通过各聚类簇中的样本点的数量确定各评估对象为正常数据或者为异常数据。
在一种可能的实现方法中,若所述样本点当前无所属的聚类簇,则将所述邻域内的样本点作为一个聚类簇;或若所述邻域内的样本点数小于所述预设阈值,且所述邻域内的样本点数不大于所述样本点所属的聚类簇中的样本点数,则在所述样本点所属的聚类簇中选取下一个样本点进行是否为满足聚类点要求的判断,直至所述样本点所属的聚类簇中任一样本点均已完成是否为聚类点的判断。
上述实现方式,对于当前无所属的聚类簇的样本点进行了进一步的归类,同时,对聚类簇中的样本点实现了循环判断,使得整个聚类过程更加快捷。
在一种可能的实现方法中,所述各评估对象为N次出行记录信息;根据各评估对象的属性信息,构建所述各评估对象对应的各样本点,包括:针对每次出行记录信息,根据所述出行记录信息中的起点位置和终点位置,构建所述出行记录信息对应的样本点;确定所述样本点的邻域内的样本数,包括:确定任意两个样本点之间的距离;确定与所述样本点之间的距离在所述邻域内的样本点为所述邻域内的样本点。
上述实现方式,以出行记录为评估对象,进一步细化了如何形成样本点及如何确定邻域内的样本点,从而实现了对出行记录的评估。
在一种可能的实现方法中,根据各聚类簇中的样本点的数量,确定各聚类簇为正常样本点所在的簇或异常样本点所在的簇,包括:将样本点数量最多的聚类簇确定为正常样本点所在的簇;将除所述样本点数量最多的聚类簇之外的聚类簇确定为异常样本点所在的簇。
上述实现方式,在评估对象绝大多数为正常样本的情况下,给出了正常样本和异常样本的划分依据,同时,各异常样本也会具有各自所属的聚类簇,便于对异常样本分类分析。
第二方面,本发明实施例提供一种对评估对象的聚类装置,该装置包括:构建单元,用于根据各评估对象的属性信息,构建所述各评估对象对应的各样本点;第一确定单元,用于确定各样本点所属的聚类簇;其中,针对任一样本点通过如下方式确定所属的聚类簇:确定所述样本点的邻域内的样本点数;若所述邻域内的样本点数满足聚类点要求,则将所述样本点所属的聚类簇确定为所述邻域内的样本点所属的聚类簇;所述邻域为以所述样本点为基准的设定区域范围;所述聚类点要求为所述邻域内的样本点数不小于预设阈值,或所述邻域内的样本点数大于所述样本点所属的聚类簇中的样本点数;第二确定单元,用于根据各聚类簇中的样本点的数量,确定各聚类簇为正常样本点所在的簇或异常样本点所在的簇。
基于该方案,通过构建各评估对象对应的各样本点,进行通过聚类点要求确定各样本点所属的聚类簇;同时,聚类点要求包括对邻域内的样本点数和预设阈值的关系,以及,所述邻域内的样本点数与所述样本点所属的聚类簇中的样本点数的关系进行判断,从多个判断依据来确定样本点所属的聚类簇中,有助于确定各评估对象的归属;最后通过各聚类簇中的样本点的数量确定各评估对象为正常数据或者为异常数据。
在一种可能的实现方法中,所述第一确定单元用于:若所述样本点当前无所属的聚类簇,则将所述邻域内的样本点作为一个聚类簇;或若所述邻域内的样本点数小于所述预设阈值,且所述邻域内的样本点数不大于所述样本点所属的聚类簇中的样本点数,则在所述样本点所属的聚类簇中选取下一个样本点进行是否为满足聚类点要求的判断,直至所述样本点所属的聚类簇中任一样本点均已完成是否为聚类点的判断。
上述实现方式,对于当前无所属的聚类簇的样本点进行了进一步的归类,同时,对聚类簇中的样本点实现了循环判断,使得整个聚类过程更加快捷。
在一种可能的实现方法中,所述各评估对象为N次出行记录信息;所述构建单元具体用于:针对每次出行记录信息,根据所述出行记录信息中的起点位置和终点位置,构建所述出行记录信息对应的样本点;所述第一确定单元具体用于:确定任意两个样本点之间的距离;确定与所述样本点之间的距离在所述邻域内的样本点为所述邻域内的样本点。
上述实现方式,以出行记录为评估对象,进一步细化了如何形成样本点及如何确定邻域内的样本点,从而实现了对出行记录的评估。
在一种可能的实现方法中,所述第二确定单元具体用于:将样本点数量最多的聚类簇确定为正常样本点所在的簇;将除所述样本点数量最多的聚类簇之外的聚类簇确定为异常样本点所在的簇。
上述实现方式,在评估对象绝大多数为正常样本的情况下,给出了正常样本和异常样本的划分依据,同时,各异常样本也会具有各自所属的聚类簇,便于对异常样本分类分析。
第三方面,本发明实施例提供了一种计算设备,包括:
存储器,用于存储程序指令;
处理器,用于调用所述存储器中存储的程序指令,按照获得的程序执行如第一方面任一所述的方法。
第四方面,本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行如第一方面任一所述的方法。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种对评估对象的聚类方法;
图2为本发明实施例提供的一种聚类示意图;
图3为本发明实施例提供的一种对评估对象的聚类装置。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
如图1所示,为本发明实施例提供的一种对评估对象的聚类方法,该方法包括以下步骤:
步骤101,根据各评估对象的属性信息,构建所述各评估对象对应的各样本点。
步骤102,确定各样本点所属的聚类簇;其中,针对任一样本点通过如下方式确定所属的聚类簇:确定所述样本点的邻域内的样本点数;若所述邻域内的样本点数满足聚类点要求,则将所述样本点所属的聚类簇确定为所述邻域内的样本点所属的聚类簇;所述邻域为以所述样本点为基准的设定区域范围;所述聚类点要求为所述邻域内的样本点数不小于预设阈值,或所述邻域内的样本点数大于所述样本点所属的聚类簇中的样本点数。
步骤103,根据各聚类簇中的样本点的数量,确定各聚类簇为正常样本点所在的簇或异常样本点所在的簇。
基于该方案,通过构建各评估对象对应的各样本点,进行通过聚类点要求确定各样本点所属的聚类簇;同时,聚类点要求包括对邻域内的样本点数和预设阈值的关系,以及,所述邻域内的样本点数与所述样本点所属的聚类簇中的样本点数的关系进行判断,从多个判断依据来确定样本点所属的聚类簇中,有助于确定各评估对象的归属;最后通过各聚类簇中的样本点的数量确定各评估对象为正常数据或者为异常数据。
在上述步骤101中,评估对象可以是多条运输路线的多次出行记录信息。比如可以有3条运输路线,分别为A地与B地之间的运输路线、C地与D地之间的运输路线和E地与F地之间的运输路线,其中,A地与B地之间的运输路线的发生次数可以是50次,C地与D地之间的运输路线的发生次数可以是8次,E地与F地之间的运输路线的发生次数可以是2次。以上发生了50次的A地与B地之间的运输路线、发生了8次的C地与D地之间的运输路线以及发生了2次的E地与F地之间的运输路线,这一共60次的运输路线中的每一次的运输路线即为各评估对象。
评估对象的属性信息可以包括很多内容。由于评估对象的不同,具体的属性信息也有所不同,比如针对每一次的运输路线,其属性信息可以是运输路线发生的时刻与运输路线到达的时刻这两个时刻之间形成的时间段,也可以是运输路线发生的具体的地理位置与运输路线到达的具体的地理位置这两个地理位置之间形成的空间信息。
在得到各评估对象的属性信息后,构建各评估对象对应的各样本点。比如针对上述一共60次的运输路线,可以把每一次的运输路线发生的时刻与运输路线到达的时刻这两个时刻之间形成的时间段作为一个样本点,因此可以形成60次的运输路线对应的各个样本点;也可以是把每一次的运输路线发生的具体的地理位置与运输路线到达的具体的地理位置这两个地理位置之间形成的空间信息作为一个样本点,因此可以形成60次的运输路线对应的各个样本点。
需要说明的是,由于各评估对象的不同,就同一个属性,每个评估对象表现出的属性信息都不尽相同。因此,根据各评估对象的属性信息,构建各评估对象对应的各样本点时,是对于各评估对象的同一个属性信息,而不是各评估对象的不同的属性信息。比如,所构建的各评估对象对应的各样本点中,可以是把每一次的运输路线发生的时刻与运输路线到达的时刻这两个时刻之间形成的时间段作为一个样本点,也可以是把每一次的运输路线发生的具体的地理位置与运输路线到达的具体的地理位置这两个地理位置之间形成的空间信息作为一个样本点;而不能是把一些运输路线发生的时刻与运输路线到达的时刻这两个时刻之间形成的时间段作为一些样本点,同时把另外一些运输路线发生的具体的地理位置与运输路线到达的具体的地理位置这两个地理位置之间形成的空间信息作为另外一些样本点。
在上述步骤102中,以前述60次的运输路线为例,设这60次的运输路线所形成的各个样本点是基于每一次的运输路线发生的具体的地理位置与运输路线到达的具体的地理位置这两个地理位置之间形成的空间信息。
确定各样本点所属的聚类簇,即需要确定前述60次的运输路线中的每一次的运输路线是具体对应于A地与B地之间的运输路线、C地与D地之间的运输路线以及E地与F地之间的运输路线这3条运输路线中的哪一条运输路线。
针对任一样本点通过如下方式确定所属的聚类簇:确定所述样本点的邻域内的样本点数;若所述邻域内的样本点数满足聚类点要求,则将所述样本点所属的聚类簇确定为所述邻域内的样本点所属的聚类簇;所述邻域为以所述样本点为基准的设定区域范围;所述聚类点要求为所述邻域内的样本点数不小于预设阈值,或所述邻域内的样本点数大于所述样本点所属的聚类簇中的样本点数。
其中,所述邻域为以所述样本点为基准的设定区域范围。比如可以是以所述样本点为圆心,以预设的距离为半径,所以以所述样本点为基准的设定区域范围是一个圆,也即所述样本点的邻域是一个圆。当然,也可以通过其他的方式来定义邻域,比如可以是以所述样本点为基准,预设的任意形状作为设定区域范围,所以以所述样本点为基准的设定区域范围是一个预设的任意形状,也即所述样本点的邻域是一个预设的任意形状,对此,本发明不做限定。
对于所述邻域内的样本点数不小于预设阈值,预设阈值可以是研发人员根据经验进行设定的值。
具体地,当需要确定前述60次的运输路线中的每一次的运输路线所形成的各个样本点所属的聚类簇时,可以通过以下的方式进行:将前述60次的运输路线中的任意一次的运输路线作为考察样本点,确定该考察样本点的邻域内的样本点数;如果该考察样本点的邻域内的样本点数满足聚类点的要求,则可以将该考察样本点所属的聚类簇确定为该考察样本点的邻域内的样本点所属的聚类簇。
上述聚类点的要求为考察样本点邻域内的样本点数不小于预设阈值,或考察样本点邻域内的样本点数大于该考察样本点多数的聚类簇中的样本点数。
经过以上过程的聚类,可以得到相应的聚类簇。以前述60次的运输路线为例,可以得到3个相应的聚类簇,分别为A地与B地之间的运输路线、C地与D地之间的运输路线和E地与F地之间的运输路线这3条运输路线的分别对应的聚类簇。
在上述步骤103中,以前述所得到的3个聚类簇为例,也即以A地与B地之间的运输路线、C地与D地之间的运输路线和E地与F地之间的运输路线这3条运输路线的分别对应的聚类簇为例,确定这3个聚类簇中的样本点的数量,如对于A地与B地之间的运输路线所对应的聚类簇中的样本点的数量为50,C地与D地之间的运输路线所对应的聚类簇中的样本点的数量为8,E地与F地之间的运输路线所对应的聚类簇中的样本点的数量为2。
在确定上述3个聚类簇中的每一个聚类簇是属于正常样本点所在的簇还是异常样本点所在的聚类簇时,可以设置一个阈值,比如设置的阈值是40,若聚类簇中的样本点的数量不小于40,则认为该聚类簇为正常样本点所在的簇;若聚类簇中的样本点的数量小于40,则认为该聚类簇为异常样本点所在的簇。如前述的例子,由于A地与B地之间的运输路线所对应的聚类簇中的样本点的数量为50,大于阈值40,则认为A地与B地之间的运输路线所对应的聚类簇为正常样本点所在的簇;由于C地与D地之间的运输路线所对应的聚类簇中的样本点的数量为8,小于阈值40,则认为C地与D地之间的运输路线所对应的聚类簇为异常样本点所在的簇;基于同样的理由,也可以认为E地与F地之间的运输路线所对应的聚类簇为异常样本点所在的簇。
在确定上述3个聚类簇中的每一个聚类簇是属于正常样本点所在的簇还是异常样本点所在的聚类簇时,还可以是将这3个聚类簇中的样本点的数量依照从大到小的顺序排列,将排序位数满足预设排序的若干聚类簇认为是正常样本点所在的簇,将排序位数不满足预设排序的若干聚类簇认为是异常样本点所在的簇。比如将排序第二位的聚类簇以及排序第二位之前的聚类簇(即排序第一位的聚类簇)均认为是正常样本点所在的簇,排序第三位的聚类簇及排序第三位之后的聚类簇均认为是异常样本点所在的聚类簇。如前述的例子,由于A地与B地之间的运输路线所对应的聚类簇中的样本点的数量为50,C地与D地之间的运输路线所对应的聚类簇中的样本点的数量为8,E地与F地之间的运输路线所对应的聚类簇中的样本点的数量为2,因此将这3个聚类簇中样本点的数量依照从大到小的顺序,可以得到排序第一的A地与B地之间的运输路线所对应的聚类簇,排序第二的C地与D地之间的运输路线所对应的聚类簇,排序第三的E地与F地之间的运输路线所对应的聚类簇,则可以认为A地与B地之间的运输路线所对应的聚类簇以及C地与D地之间的运输路线所对应的聚类簇这2个聚类簇均为正常样本点所在的簇,E地与F地之间的运输路线所对应的聚类簇为异常样本点所在的簇。
作为一种可能的实现方式,若所述样本点当前无所属的聚类簇,则将所述邻域内的样本点作为一个聚类簇;或若所述邻域内的样本点数小于所述预设阈值,且所述邻域内的样本点数不大于所述样本点所属的聚类簇中的样本点数,则在所述样本点所属的聚类簇中选取下一个样本点进行是否为满足聚类点要求的判断,直至所述样本点所属的聚类簇中任一样本点均已完成是否为聚类点的判断。
如图2所示,为本发明实施例提供的一种聚类示意图。图2中每一个带数字的圆圈都表示一个样本点,带数字“1”的圆圈表示1号样本点,带数字“2”的圆圈表示2号样本点,其余的带数字的圆圈的含义在此不赘述。设预设阈值为4。
以14号样本点为例,通过以下的方式确定它所属的聚类簇:由于聚类的起点是14号样本点,即说明14号样本点当前并没有所属的聚类簇,因此可以将14号样本点邻域内的样本点作为一个聚类簇。14号样本点邻域内的样本点除了它自身以外,还包括了15号样本点,因此可以将14号样本点和15号样本点这2个样本点作为一个聚类簇。
在对14号样本点考察结束后,得到了14号样本点所属的聚类簇,需要继续选择14号样本点邻域内的任一样本点进行聚类点的考察。由于14号样本点所属的聚类簇中除了它自身以外,就只有15号样本点,所以选择15号样本点进行聚类点的考察。可以发现15号样本点邻域内的样本点除了它自身以外,还包括了14号样本点,即15号样本点的邻域内的样本点数是2。在判断15号样本点是否满足聚类点的要求时,可以发现15号样本点并不满足聚类点的要求,表现如下:15号样本点的邻域内的样本点数是2,2小于预设阈值4;且2等于15号样本点所属的聚类簇中的样本点数2(这里15号样本点所属的聚类簇指的是14号样本点和15号样本点所属的聚类簇)。
因此,选取14号样本点作为起始的样本点,最终得到的聚类簇是包含了14号样本点和15号样本点的聚类簇。
在对14号样本点和15号样本点考察结束后,需要确定除去14号样本点和15号样本点以外的其他样本点所属的聚类簇。
比如,接下来以12号样本点为例,通过以下的方式确定它所属的聚类簇:由于聚类的起点是12号样本点,即说明12号样本点当前并没有所属的聚类簇,因此可以将12号样本点邻域内的样本点作为一个聚类簇。12号样本点邻域内的样本点除了它自身以外,还包括了13号样本点和11号样本点,因此可以将12号样本点、13号样本点和11号样本点这3个样本点作为一个聚类簇。
在对12号样本点考察结束后,得到了12号样本点所属的聚类簇,需要继续选择12号样本点邻域内的任一样本点进行聚类点的考察。由于12号样本点所属的聚类簇中除了它自身以外,还有13号样本点和11号样本点,所以此时可以从13号样本点和11号样本点中这2个样本点中任意选择一个样本点进行聚类点的考察。如可以先选择12号样本点邻域内的13号样本点进行聚类点的考察,后选择12号样本点邻域内的11号样本点进行聚类点的考察;也可以先选择12号样本点邻域内的11号样本点进行聚类点的考察,后选择12号样本点邻域内的13号样本点进行聚类点的考察。
需要说明的是,本发明对邻域内的任一样本点进行聚类点的考察的先后顺序不做限定,但需要对邻域内的任一样本点都要进行聚类点的考察,即需要对邻域内的所有样本点都要进行聚类点的考察。如本发明实施例先选择12号样本点邻域内的13号样本点进行聚类点的考察,后选择12号样本点邻域内的11号样本点进行聚类点的考察。
当选择12号样本点邻域内的13号样本点进行聚类点的考察时,可以发现13号样本点邻域内的样本点除了它自身以外,还包括了12号样本点,即13号样本点的邻域内的样本点数是2。在判断13号样本点是否满足聚类点的要求时,可以发现13号样本点并不满足聚类点的要求,表现如下:13号样本点的邻域内的样本点数是2,2小于预设阈值4;且2小于13号样本点所属的聚类簇中的样本点数3(这里13号样本点所属的聚类簇指的是12号样本点、13号样本点和11号样本点所在的聚类簇)。
在确定13号样本点不是聚类点后,需要继续选择12号样本点邻域内的11号样本点进行聚类点的考察。可以发现11号样本点邻域内的样本点除了它自身以外,还包括了12号样本点和9号样本点,即11号样本点的邻域内的样本点数是3。在判断11号样本点是否满足聚类点的要求时,可以发现11号样本点也不满足聚类点的要求,表现如下:11号样本点的邻域内的样本点数是3,3小于预设阈值4;且3等于11号样本点所属的聚类簇中的样本点数3(这里11号样本点所属的聚类簇指的是12号样本点、13号样本点和11号样本点所在的聚类簇)。
因此,选取12样本点作为起始的样本点,最终得到的聚类簇是包含了12样本点、13号样本点和11号样本点的聚类簇。
进一步地,在对12样本点、13号样本点和11号样本点考察结束后,需要确定除去12样本点、13号样本点和11号样本点以外的其他样本点所属的聚类簇。
比如,接下来以1号样本点为例,通过以下的方式确定它所属的聚类簇:由于聚类的起点是1号样本点,即说明1号样本点当前并没有所属的聚类簇,因此可以将1号样本点邻域内的样本点作为一个聚类簇。1号样本点邻域内的样本点除了它自身以外,还包括了2号样本点、3号样本点和4号样本点,因此可以将1号样本点、2号样本点、3号样本点和4号样本点这4个样本点作为一个聚类簇。此时,还可以发现1号样本点满足聚类点的要求,表现如下:1号样本点的邻域内的样本点数是4,4等于预设阈值4;且4大于1号样本点所属的聚类簇中的样本点数0(由于1号样本点当前并没有所属的聚类簇,因此可以认为1号样本点当前所属的聚类簇中的样本点数是0)。因此1号样本点是一个聚类点。
在对1号样本点考察结束后,得到了1号样本点所属的聚类簇,需要继续选择1号样本点邻域内的任一样本点进行聚类点的考察。
当选择1号样本点邻域内的2号样本点进行聚类点的考察时,可以发现2号样本点邻域内的样本点除了它自身以外,还包括了1号样本点、3号样本点和5号样本点,即2号样本点的邻域内的样本点数是4。在判断2号样本点是否满足聚类点的要求时,可以发现2号样本点满足聚类点的要求,表现如下:2号样本点的邻域内的样本点数是4,4等于预设阈值4。尽管2号样本点的邻域内的样本点数4等于2号样本点所属的聚类簇中的样本点数4(这里2号样本点所属的聚类簇指的是1号样本点、2号样本点、3号样本点和4号样本点所在的聚类簇),但聚类点的判断规则只需满足其中之一即可,比如2号样本点之所以可以成为聚类点是由于其满足了2号样本点的邻域内的样本点数4等于预设阈值4。
因此,在确定2号样本点是聚类点后,可以将2号样本点的邻域内的样本点加入2号样本点当前所属的聚类簇。具体地,2号样本点的邻域内的样本点包括了1号样本点、3号样本点、5号样本点和它自身,2号样本点当前所属的聚类簇中的样本点包括了1号样本点、2号样本点、3号样本点和4号样本点,因此,在确定2号样本点是聚类点后,当前的聚类簇可以更新为包含了1号样本点、2号样本点、3号样本点、4号样本点和5号样本点的聚类簇。
在对1号样本点邻域内的2号样本点进行聚类点的考察后,继续选择1号样本点邻域内的除去2号样本点以外的任一样本点进行聚类点的考察,比如可以选3号样本点进行聚类点的考察。
当选择1号样本点邻域内的3号样本点进行聚类点的考察时,可以发现3号样本点邻域内的样本点除了它自身以外,还包括了1号样本点、2号样本点、5号样本点、6号样本点、7号样本点和4号样本点,即3号样本点的邻域内的样本点数是7。在判断3号样本点是否满足聚类点的要求是,可以发现3号样本点满足聚类点的要求,表现如下:3号样本点的邻域内的样本点数是7,7大于预设阈值4;且7大于3号样本点所属的聚类簇中的样本点数5(这里3号样本点所属的聚类簇指的是1号样本点、2号样本点、3号样本点、4号样本点和5号样本点所在的聚类簇)。
因此,在确定3号样本点是聚类点后,可以将3号样本点的邻域内的样本点加入3号样本点当前所属的聚类簇。具体地,3号样本点的邻域内的样本点包括了1号样本点、2号样本点、5号样本点、6号样本点、7号样本点和4号样本点和它自身,3号样本点当前所属的聚类簇中的样本点包括了1号样本点、2号样本点、3号样本点、4号样本点和5号样本点,因此,在确定3号样本点是聚类点后,当前的聚类簇可以更新为包含了1号样本点、2号样本点、3号样本点、4号样本点、5号样本点、6号样本点和7号样本点的聚类簇。
对于余下的其他样本点是否为聚类点的判断过程在此不赘述。
通过以上的方式,选取1号样本点作为起始的样本点,最终得到的聚类簇是包含了1号样本点、2号样本点、3号样本点、4号样本点、5号样本点、6号样本点、7号样本点、8号样本点和9号样本点的聚类簇。
作为一种可能的实现方式,所述各评估对象为N次出行记录信息;根据各评估对象的属性信息,构建所述各评估对象对应的各样本点,包括:针对每次出行记录信息,根据所述出行记录信息中的起点位置和终点位置,构建所述出行记录信息对应的样本点;确定所述样本点的邻域内的样本数,包括:确定任意两个样本点之间的距离;确定与所述样本点之间的距离在所述邻域内的样本点为所述邻域内的样本点。
银行对运输、物流业的客户进行贸易背景审查时,审查的内容可以是客户的纳税信息、***信息,也可以是运输路线信息。如运输、物流业的客户在向银行提出贷款请求时,银行可以要求客户提供关于运输路线的信息。如客户声称其公司主要开展的运输路线是北京市的P地到上海市的Q地,因此银行可以要求客户提供预设时间内(比如可以是最近六个月以内)、北京市的P地到上海市的Q地之间的全部出行记录信息。但事实上,客户提交给银行的全部出行记录信息中有大部分是真实的北京市的P地到上海市的Q地的出行记录信息,而少数部分并不是真实的北京市的P地到上海市的Q地的出行记录信息。因此银行需要对客户提交的全部出行记录信息进行数据分析,确定出正常的出行记录信息和异常的出行记录信息。
针对客户提交的每次出行记录信息,银行可以从每次的出行记录信息中获取该次出行记录信息中的起点位置和终点位置。比如每次的出行记录信息中带有该次出行起点位置的经纬度(x1,y1)和终点位置的经纬度(x2,y2),通过将每次出行记录信息的起点位置和终点位置(x1,y1,x2,y2)作为一个样本点,则可以得到全部出行记录信息对应的样本点。其中起点位置的经纬度和终点位置的经纬度可以从车载GPS(Global Positioning System,全球定位***)数据中获取。
在对全部出行记录信息对应的样本点进行聚类时,确定所述样本点的邻域内的样本数可以通过以下方式进行:
确定任意两个样本点之间的距离。任意两个样本点之间的距离可以采用欧式距离公式进行确定。
确定与所述样本点之间的距离在所述邻域内的样本点为所述邻域内的样本点。以其中某次的出行记录信息对应的样本点为基准点,若存在另外的3个样本点,这3个样本点到基准点的距离在所述邻域内,则可以将这3个样本点以及基准点作为基准点邻域内的样本数,如此时所述样本点的邻域内的样本数是4。
作为一种可能的实现方式,根据各聚类簇中的样本点的数量,确定各聚类簇为正常样本点所在的簇或异常样本点所在的簇,包括:将样本点数量最多的聚类簇确定为正常样本点所在的簇;将除所述样本点数量最多的聚类簇之外的聚类簇确定为异常样本点所在的簇。
如客户提交给银行的预设时间内、北京市的P地到上海市的Q地的运输路线的全部出行记录信息为112条。通过前述聚类的方法,最后得到的聚类簇的数量为3,分别是包括了100个样本点的1号聚类簇、5个样本点的2号聚类簇和7个样本点的3号聚类簇。
针对上述的聚类结果,可以通过以下方式判断各个聚类簇是正常样本点所在的簇或者是异常样本点所在的簇:由于1号聚类簇中样本点数量最多,因此可以将1号聚类簇确定为正常样本点所在的簇,即1号聚类簇中的100个样本点表示的是出行记录为北京市的P地到上海市的Q地的100次重复发生;相比于1号聚类簇,2号聚类簇和3号聚类簇中样本点数量并不是最多的,因此可以将2号聚类簇和3号聚类簇均确定为异常样本点所在的簇,比如2号聚类簇中的5个样本点可以表示的是出行记录为苏州市的M地到南京市的N地的5次重复发生,3号聚类簇中的7个样本点可以表示的是出行记录为广州市O地到天津市K地的7次重复发生。苏州市的M地到南京市的N地与广州市O地到天津市K地的出行记录信息相较于北京市的P地到上海市的Q地,可以认为前两者是异常的出行记录信息。
基于同样的构思,本发明实施例还提供一种对评估对象的聚类装置,如图3所示,所述装置包括:
构建单元301,用于根据各评估对象的属性信息,构建所述各评估对象对应的各样本点;
第一确定单元302,用于确定各样本点所属的聚类簇;其中,针对任一样本点通过如下方式确定所属的聚类簇:确定所述样本点的邻域内的样本点数;若所述邻域内的样本点数满足聚类点要求,则将所述样本点所属的聚类簇确定为所述邻域内的样本点所属的聚类簇;所述邻域为以所述样本点为基准的设定区域范围;所述聚类点要求为所述邻域内的样本点数不小于预设阈值,或所述邻域内的样本点数大于所述样本点所属的聚类簇中的样本点数;
第二确定单元303,用于根据各聚类簇中的样本点的数量,确定各聚类簇为正常样本点所在的簇或异常样本点所在的簇。
进一步地,对于所述装置,所述第一确定单元302具体用于:若所述样本点当前无所属的聚类簇,则将所述邻域内的样本点作为一个聚类簇;或若所述邻域内的样本点数小于所述预设阈值,且所述邻域内的样本点数不大于所述样本点所属的聚类簇中的样本点数,则在所述样本点所属的聚类簇中选取下一个样本点进行是否为满足聚类点要求的判断,直至所述样本点所属的聚类簇中任一样本点均已完成是否为聚类点的判断。
进一步地,对于所述装置,所述各评估对象为N次出行记录信息;所述构建单元301具体用于:针对每次出行记录信息,根据所述出行记录信息中的起点位置和终点位置,构建所述出行记录信息对应的样本点;所述第一确定单元302具体用于:确定任意两个样本点之间的距离;确定与所述样本点之间的距离在所述邻域内的样本点为所述邻域内的样本点。
进一步的,对于所述装置,所述第二确定单元303具体用于:将样本点数量最多的聚类簇确定为正常样本点所在的簇;将除所述样本点数量最多的聚类簇之外的聚类簇确定为异常样本点所在的簇。
本发明实施例提供了一种计算设备,该计算设备具体可以为桌面计算机、便携式计算机、智能手机、平板电脑、个人数字助理(Personal Digital Assistant,PDA)等。该计算设备可以包括中央处理器(Center Processing Unit,CPU)、存储器、输入/输出设备等,输入设备可以包括键盘、鼠标、触摸屏等,输出设备可以包括显示设备,如液晶显示器(Liquid Crystal Display,LCD)、阴极射线管(Cathode Ray Tube,CRT)等。
存储器,可以包括只读存储器(ROM)和随机存取存储器(RAM),并向处理器提供存储器中存储的程序指令和数据。在本发明实施例中,存储器可以用于对评估对象的聚类方法的程序指令;
处理器,用于调用所述存储器中存储的程序指令,按照获得的程序执行对评估对象的聚类方法。
本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行对评估对象的聚类方法。
本领域内的技术人员应明白,本发明的实施例可提供为方法、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (10)
1.一种对评估对象的聚类方法,其特征在于,包括:
根据各评估对象的属性信息,构建所述各评估对象对应的各样本点;
确定各样本点所属的聚类簇;其中,针对任一样本点通过如下方式确定所属的聚类簇:确定所述样本点的邻域内的样本点数;若所述邻域内的样本点数满足聚类点要求,则将所述样本点所属的聚类簇确定为所述邻域内的样本点所属的聚类簇;所述邻域为以所述样本点为基准的设定区域范围;所述聚类点要求为所述邻域内的样本点数不小于预设阈值,或所述邻域内的样本点数大于所述样本点所属的聚类簇中的样本点数;
根据各聚类簇中的样本点的数量,确定各聚类簇为正常样本点所在的簇或异常样本点所在的簇。
2.如权利要求1所述的方法,其特征在于,还包括:
若所述样本点当前无所属的聚类簇,则将所述邻域内的样本点作为一个聚类簇;或
若所述邻域内的样本点数小于所述预设阈值,且所述邻域内的样本点数不大于所述样本点所属的聚类簇中的样本点数,则在所述样本点所属的聚类簇中选取下一个样本点进行是否为满足聚类点要求的判断,直至所述样本点所属的聚类簇中任一样本点均已完成是否为聚类点的判断。
3.如权利要求1所述的方法,其特征在于,所述各评估对象为N次出行记录信息;
根据各评估对象的属性信息,构建所述各评估对象对应的各样本点,包括:
针对每次出行记录信息,根据所述出行记录信息中的起点位置和终点位置,构建所述出行记录信息对应的样本点;
确定所述样本点的邻域内的样本数,包括:
确定任意两个样本点之间的距离;
确定与所述样本点之间的距离在所述邻域内的样本点为所述邻域内的样本点。
4.如权利要求3所述的方法,其特征在于,包括:
根据各聚类簇中的样本点的数量,确定各聚类簇为正常样本点所在的簇或异常样本点所在的簇,包括:
将样本点数量最多的聚类簇确定为正常样本点所在的簇;将除所述样本点数量最多的聚类簇之外的聚类簇确定为异常样本点所在的簇。
5.一种对评估对象的聚类装置,其特征在于,包括:
构建单元,用于根据各评估对象的属性信息,构建所述各评估对象对应的各样本点;
第一确定单元,用于确定各样本点所属的聚类簇;其中,针对任一样本点通过如下方式确定所属的聚类簇:确定所述样本点的邻域内的样本点数;若所述邻域内的样本点数满足聚类点要求,则将所述样本点所属的聚类簇确定为所述邻域内的样本点所属的聚类簇;所述邻域为以所述样本点为基准的设定区域范围;所述聚类点要求为所述邻域内的样本点数不小于预设阈值,或所述邻域内的样本点数大于所述样本点所属的聚类簇中的样本点数;
第二确定单元,用于根据各聚类簇中的样本点的数量,确定各聚类簇为正常样本点所在的簇或异常样本点所在的簇。
6.如权利要求所述的装置,其特征在于,所述第一确定单元还用于:
若所述样本点当前无所属的聚类簇,则将所述邻域内的样本点作为一个聚类簇;或
若所述邻域内的样本点数小于所述预设阈值,且所述邻域内的样本点数不大于所述样本点所属的聚类簇中的样本点数,则在所述样本点所属的聚类簇中选取下一个样本点进行是否为满足聚类点要求的判断,直至所述样本点所属的聚类簇中任一样本点均已完成是否为聚类点的判断。
7.如权利要求5所述的装置,其特征在于,所述各评估对象为N次出行记录信息;
所述构建单元具体用于:针对每次出行记录信息,根据所述出行记录信息中的起点位置和终点位置,构建所述出行记录信息对应的样本点;
所述第一确定单元具体用于:确定任意两个样本点之间的距离;确定与所述样本点之间的距离在所述邻域内的样本点为所述邻域内的样本点。
8.如权利要求7所述的装置,其特征在于,所述第二确定单元具体用于:将样本点数量最多的聚类簇确定为正常样本点所在的簇;将除所述样本点数量最多的聚类簇之外的聚类簇确定为异常样本点所在的簇。
9.一种计算设备,其特征在于,包括:
存储器,用于存储程序指令;
处理器,用于调用所述存储器中存储的程序指令,按照获得的程序执行如权利要求1至4任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行如权利要求1至4任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911055761.6A CN110866549A (zh) | 2019-10-31 | 2019-10-31 | 一种对评估对象的聚类方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911055761.6A CN110866549A (zh) | 2019-10-31 | 2019-10-31 | 一种对评估对象的聚类方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110866549A true CN110866549A (zh) | 2020-03-06 |
Family
ID=69654823
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911055761.6A Pending CN110866549A (zh) | 2019-10-31 | 2019-10-31 | 一种对评估对象的聚类方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110866549A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112331361A (zh) * | 2020-11-06 | 2021-02-05 | 中国联合网络通信集团有限公司 | 一种密切接触者的确定方法及装置 |
-
2019
- 2019-10-31 CN CN201911055761.6A patent/CN110866549A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112331361A (zh) * | 2020-11-06 | 2021-02-05 | 中国联合网络通信集团有限公司 | 一种密切接触者的确定方法及装置 |
CN112331361B (zh) * | 2020-11-06 | 2023-06-16 | 中国联合网络通信集团有限公司 | 一种密切接触者的确定方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhao et al. | A trajectory clustering approach based on decision graph and data field for detecting hotspots | |
CN106844781B (zh) | 数据处理的方法及装置 | |
CN111324824B (zh) | 一种目的地推荐方法、其装置、电子设备及可读存储介质 | |
US10902445B2 (en) | Location evaluation | |
JP2017151876A (ja) | 画像クラスタリングシステム、画像クラスタリング方法、画像クラスタリングプログラム、および、コミュニティ構造検出システム | |
CN111414548B (zh) | 对象推荐方法、装置、电子设备和介质 | |
CN111523678A (zh) | 业务的处理方法、装置、设备及存储介质 | |
CN111581197A (zh) | 对数据集中的数据表进行抽样和校验的方法及装置 | |
CN112836128A (zh) | 信息推荐方法、装置、设备和存储介质 | |
CN111831894A (zh) | 一种信息匹配方法及装置 | |
CN111860904B (zh) | 上车点排序的方法及装置 | |
WO2021036184A1 (zh) | 目标交易码铺设区域推荐方法及*** | |
WO2023034118A1 (en) | Systems for management of location-aware market data | |
Kalair et al. | Dynamic and interpretable hazard-based models of traffic incident durations | |
CN110866549A (zh) | 一种对评估对象的聚类方法及装置 | |
CN113763077B (zh) | 用于检测虚假交易订单的方法和装置 | |
CN113191681A (zh) | 网点选址方法、装置、电子设备及可读存储介质 | |
CN117035980A (zh) | 资源借调评估方法、装置、计算机设备和存储介质 | |
CN113723860B (zh) | 一种土地资源资产离任审计评价方法、装置及存储介质 | |
US20230237076A1 (en) | Automatically drawing infographics for statistical data based on a data model | |
CN111831931B (zh) | 一种上车点排序、信息排序的方法及装置 | |
US20230086930A1 (en) | Intellectual-property analysis platform | |
US20230090090A1 (en) | Intellectual-property analysis platform | |
US20230087206A1 (en) | Intellectual-property analysis platform | |
CN109686077A (zh) | 车辆行驶状况监控方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |