CN114254172A - 用于对被管理对象进行分类的方法和装置 - Google Patents

用于对被管理对象进行分类的方法和装置 Download PDF

Info

Publication number
CN114254172A
CN114254172A CN202111566969.1A CN202111566969A CN114254172A CN 114254172 A CN114254172 A CN 114254172A CN 202111566969 A CN202111566969 A CN 202111566969A CN 114254172 A CN114254172 A CN 114254172A
Authority
CN
China
Prior art keywords
cluster center
initial cluster
metric
index
received
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111566969.1A
Other languages
English (en)
Inventor
张胤桐
李璐
于乐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Fangjianghu Technology Co Ltd
Original Assignee
Beijing Fangjianghu Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Fangjianghu Technology Co Ltd filed Critical Beijing Fangjianghu Technology Co Ltd
Priority to CN202111566969.1A priority Critical patent/CN114254172A/zh
Publication of CN114254172A publication Critical patent/CN114254172A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Accounting & Taxation (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Strategic Management (AREA)
  • Finance (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Development Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Game Theory and Decision Science (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供一种用于对被管理对象进行分类的方法和装置,属于数据科学和数据查询领域。该方法包括:接收参与分类的每一被管理对象的度量指标;以及基于预设聚类算法模型,根据所接收的度量指标,对参与分类的所述被管理对象进行分类,其中,所述预设聚类算法模型的初始簇心根据预设分散簇心方法而被确定。籍此,实现了根据被管理对象的情况对被管理对象进行分类。

Description

用于对被管理对象进行分类的方法和装置
技术领域
本发明涉及数据科学和数据查询领域,具体地涉及一种用于对被管理对象进行分类的方法和装置。
背景技术
现有技术中,对于城市间门店的运营,是单点式的,人力成本极高;没有一套基于城市门店客观现状的城市分层运营模型,多是基于人为经验归类,根据门店客观情况,找出哪些城市门店情况具有相似性,尚属空白。此外,常规聚类模型容易陷于局部最优的问题,非全局最优。
发明内容
本发明实施例的目的是提供一种用于对被管理对象进行分类的方法和装置,其可解决或至少部分解决上述问题。
为了实现上述目的,本发明实施例的一个方面提供一种用于对被管理对象进行分类的方法,该方法包括:接收参与分类的每一被管理对象的度量指标;以及基于预设聚类算法模型,根据所接收的度量指标,对参与分类的所述被管理对象进行分类,其中,所述预设聚类算法模型的初始簇心根据预设分散簇心方法而被确定。
可选地,所述初始簇心的数量为N,所述预设分散簇心方法包括:当N 为2时,在所接收的度量指标中,随机选取一所述度量指标作为第一初始簇心;以及确定第二初始簇心,其中,所述第二初始簇心为所接收的度量指标除去所述第一初始簇心后剩余的度量指标中距离所述第一初始簇心最远的度量指标;和/或当N≥3时,在所接收的度量指标中,随机选取一所述度量指标作为第一初始簇心;确定第二初始簇心,其中,所述第二初始簇心为所接收的度量指标除去所述第一初始簇心后剩余的度量指标中距离所述第一初始簇心最远的度量指标;以及根据以下内容依次确定剩余的初始簇心:计算所接收的度量指标中除前(n-1)个初始簇心之外的至少一个所述度量指标的最短簇心距离,选取计算得到的最短簇心距离中的最大值对应的所述度量指标作为第n个初始簇心,其中,所述至少一个度量指标中的任一度量指标的所述最短簇心距离为该度量指标与所述前(n-1)个初始簇心的距离中的最小值,3≤n≤N。
可选地,在基于预设聚类算法模型根据所接收的度量指标对参与分类的所述被管理对象进行分类之前,该方法还包括:对所述度量指标中包括的每一度量参数进行标准化处理。
可选地,在基于预设聚类算法模型根据所接收的度量指标对参与分类的所述被管理对象进行分类之前,该方法还包括:在所述度量指标包括三个以及三个以上度量参数的情况下,基于主成分分析模型,对所述度量指标进行降维。
相应地,本发明实施例的另一方面提供一种用于对被管理对象进行分类的装置,该装置包括:接收模块,用于接收参与分类的每一被管理对象的度量指标;以及分类模块,用于基于预设聚类算法模型,根据所接收的度量指标,对参与分类的所述被管理对象进行分类,其中,所述预设聚类算法模型的初始簇心根据预设分散簇心方法而被确定。
可选地,所述初始簇心的数量为N,所述预设分散簇心方法包括:当N 为2时,在所接收的度量指标中,随机选取一所述度量指标作为第一初始簇心;以及确定第二初始簇心,其中,所述第二初始簇心为所接收的度量指标除去所述第一初始簇心后剩余的度量指标中距离所述第一初始簇心最远的度量指标;和/或当N≥3时,在所接收的度量指标中,随机选取一所述度量指标作为第一初始簇心;确定第二初始簇心,其中,所述第二初始簇心为所接收的度量指标除去所述第一初始簇心后剩余的度量指标中距离所述第一初始簇心最远的度量指标;以及根据以下内容依次确定剩余的初始簇心:计算所接收的度量指标中除前(n-1)个初始簇心之外的至少一个所述度量指标的最短簇心距离,选取计算得到的最短簇心距离中的最大值对应的所述度量指标作为第n个初始簇心,其中,所述至少一个度量指标中的任一度量指标的所述最短簇心距离为该度量指标与所述前(n-1)个初始簇心的距离中的最小值,3≤n≤N。
可选地,该装置还包括:标准化处理模块,用于在基于预设聚类算法模型根据所接收的度量指标对参与分类的所述被管理对象进行分类之前,对所述度量指标中包括的每一度量参数进行标准化处理。
可选地,该装置还包括:降维模块,用于在基于预设聚类算法模型根据所接收的度量指标对参与分类的所述被管理对象进行分类之前,在所述度量指标包括三个以及三个以上度量参数的情况下,基于主成分分析模型,对所述度量指标进行降维。
此外,本发明实施例的另一方面还提供一种机器可读存储介质,该机器可读存储介质上存储有指令,该指令用于使得机器执行上述的方法。
另外,本发明实施例的另一方面还提供一种处理器,用于运行程序,其中,所述程序被运行时用于执行上述的方法。
此外,本发明实施例的另一方面还提供一种计算机程序产品,包括计算机程序/指令,该计算机程序/指令被处理器执行时实现上述的方法。
通过上述技术方案,基于被管理对象的度量指标对被管理对象进行分类,被管理对象的度量指标反应了被管理对象的情况,实现了根据被管理对象的情况对被管理对象进行分类;此外,在基于预设聚类算法模型进行分类时初始簇心基于预设分散簇心方法来确定,使得初始簇心不再是随机选取,并且初始簇心在整个用于分类的数据中是分散的,避免了局部最优的问题,实现了全局最优。
本发明实施例的其它特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
附图是用来提供对本发明实施例的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本发明实施例,但并不构成对本发明实施例的限制。在附图中:
图1是本发明一实施例提供的用于对被管理对象进行分类的方法的流程图;
图2是本发明另一实施例提供的城市分组示意图;
图3是本发明另一实施例提供的K与簇内距离平方和的对应关系图;以及
图4是本发明另一实施例提供的用于对被管理对象进行分类的结构框图。
附图标记说明
1 接收模块 2 分类模块
具体实施方式
以下结合附图对本发明实施例的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本发明实施例,并不用于限制本发明实施例。
本发明实施例的一个方面提供一种用于对被管理对象进行分类的方法。
图1是本发明一实施例提供的用于对被管理对象进行分类的方法的流程图。如图1所示,该方法包括以下内容。
在步骤S10中,接收参与分类的每一被管理对象的度量指标。其中,度量指标可以根据具体情况而定,只要能反应出被管理对象的情况即可。例如,度量指标可以包括不同的度量参数,例如,反应被管理对象规模的参数,例如,被管理对象规模的均值和标准差。具体地,被管理对象是门店,门店规模可以是用门店内人数来表达。再例如,门店是用于管理楼盘的门店,度量指标还可以包括反应其周围楼盘包括的户数的参数,具体地,3公里户数的均值和标准差,其中,3公里户数指的3公里以内的楼盘包括的总的户数。需要说明的是,针对任一被管理对象,接收到的度量指标实际上接收到的是度量指标中包括的度量参数的具体值。例如,度量指标包括的度量参数分别是被管理对象规模的均值和被管理对象规模的标准差,则接收到的度量指标指的是接收到被管理对象规模的均值和标准差的具体值;在计算距离是也是引用度量参数的具体值来计算距离。
在步骤S11中,基于预设聚类算法模型,根据所接收的度量指标,对参与分类的被管理对象进行分类,其中,预设聚类算法模型的初始簇心根据预设分散簇心方法而被确定。具体地,将所接收的度量指标以被管理对象为单位,输入到预设聚类算法模型中,使预设聚类算法模型基于接收的度量指标对被管理对象进行分类。例如,预设聚类算法模型可以是k-means模型。
通过上述技术方案,基于被管理对象的度量指标对被管理对象进行分类,被管理对象的度量指标反应了被管理对象的情况,实现了根据被管理对象的情况对被管理对象进行分类;此外,在基于预设聚类算法模型进行分类时初始簇心基于预设分散簇心方法来确定,使得初始簇心不再是随机选取,并且初始簇心在整个用于分类的数据中是分散的,避免了局部最优的问题,实现了全局最优。此外,通过对被管理对象进行分类后,可以对属于同一类别的被管理对象进行统一管理运营,提高管理效率,降低人力成本,节省资源,实现分层运营。另外,当进行分类的被管理对象是不同城市的被管理对象时,例如,一被管理对象反应的是一城市被管理对象的整体水平,不同的被管理对象反应的是不同城市被管理对象的整体水平,对被管理对象进行分类实际上也是在对城市进行分类。例如,被管理对象是门店,对门店进行分类实际上也是在对城市进行分类,如图2所示。将预设聚类算法模型结合被管理对象客观情况进行应用,找到被管理对象情况相似度较高的城市,对城市进行合理分类,由此,可以实现将被管理对象客观情况较为相似的城市归为一类,对每一类被管理对象情况相似度高的城市统一运营,而非每个城市单点运营,为平台城市管理提效,提高线下管理效率,节省人力和资源,实现分层运营的目的。
可选地,在本发明实施例中,预设分散簇心方法可以包括以下内容。所述初始簇心的数量为N,所述预设分散簇心方法包括:当N为2时,在所接收的度量指标中,随机选取一度量指标作为第一初始簇心;以及确定第二初始簇心,其中,第二初始簇心为所接收的度量指标除去第一初始簇心后剩余的度量指标中距离第一初始簇心最远的度量指标;和/或当N≥3时,在所接收的度量指标中,随机选取一度量指标作为第一初始簇心;确定第二初始簇心,其中,第二初始簇心为所接收的度量指标除去第一初始簇心后剩余的度量指标中距离第一初始簇心最远的度量指标;以及根据以下内容依次确定剩余的初始簇心:计算所接收的度量指标中除前(n-1)个初始簇心之外的至少一个度量指标的最短簇心距离,选取计算得到的最短簇心距离中的最大值对应的度量指标作为第n个初始簇心,其中,至少一个度量指标中的任一度量指标的最短簇心距离为该度量指标与前(n-1)个初始簇心的距离中的最小值,3≤n≤N。
在所接收的度量指标中,随机选取一门店的度量指标作为第一初始簇心。确定第二初始簇心,其中,第二初始簇心为所接收的度量指标除去第一初始簇心后剩余的度量指标中距离第一初始簇心最远的度量指标。其中,在计算距离可以是计算欧式距离。例如,根据度量指标中包括的度量参数建立坐标系,例如,度量指标中包括被管理对象规模的均值和标准差,以被管理对象规模的均值和标准差建立二维坐标系,两度量指标的距离即为以两度量指标分别包括的被管理对象规模的均值和标准差为基础计算欧式距离。此外,当初始簇心的数量大于或等于3时,依次确定除了第一初始簇心和第二初始簇心外剩余的初始簇心,即依次确定第三初始簇心、第四初始簇心、第五初始簇心……。其中,当确定第n个初始簇心时,计算所接收的度量指标中除前 (n-1)个初始簇心之外的至少一个度量指标的最短簇心距离,选取计算得到的最短簇心距离中的最大值对应的度量指标作为第n个初始簇心,其中,至少一个度量指标中的任一度量指标的最短簇心距离为该度量指标与前 (n-1)个初始簇心的距离中的最小值,3≤n≤N。具体地,确定第三初始簇心,其中,第三初始簇心为第二剩余度量指标集中对应于最短簇心距离中的最大值的度量指标,第二剩余度量指标集中的任一度量指标的最短簇心距离为该度量指标与第一簇心和第二簇心的距离的最小值,第二剩余度量指标集包括接收的度量指标除去第一簇心和第二簇心后剩余的度量指标。具体地,确定第三初始簇心可以参照以下内容。在第二剩余度量指标集中,针对任一度量指标,分别计算与第一簇心和第二簇心之间的距离,取得到的两个距离中的最小值作为该度量指标的最短簇心距离。在第二剩余度量指标集中的每一度量指标中对应的最短簇心距离中确定最大值,该确定出的最大值对应的度量指标即为第三初始簇心。可选地,距离可以是计算欧式距离,具体的计算方法可以参照上述相关介绍。根据确定第三初始簇心的过程,确定出第四初始簇心,其中,与确定第三初始簇心不同的是,在针对所接收的度量指标除去第一初始簇心、第二初始簇心和第三初始簇心剩余的度量指标中的任一度量指标确定最短簇心距离时,需要计算该度量指标分别与第一初始簇心、第二初始簇心和第三初始簇心的距离并取所得到的距离中的最小值作为最短簇心距离。根据确定第三初始簇心的过程,再继续确定出第五初始簇心、第六初始簇心.......,直到确定出预设值个初始簇心。通过优化初始簇心的选择方式,使得初始簇心在整个用于分类的数据中是分散的,使得初始簇心之间两两足够分散,解决局部最优的问题,实现全局最优,达到优化预设聚类算法模型的效果,使得预设聚类算法模型的分类更加合理,优化分类效果。
可选地,在本发明实施例中,在基于预设聚类算法模型根据所接收的度量指标对参与分类的所述被管理对象进行分类之前,该方法还包括:对度量指标中包括的每一度量参数进行标准化处理。其中,针对每一度量参数,标准化处理包括将任一被管理对象的该度量参数的取值进行减去该度量参数的均值然后除以该度量参数的标准差。例如,度量指标中包括被管理对象规模的均值和标准差,对被管理对象规模的均值进行标准化处理,参与分类的被管理对象总共有6个。计算出6个被管理对象的被管理对象规模的均值的均值以及被管理对象规模的均值的标准差。针对6个被管理对象中的一被管理对象的被管理对象规模的均值,用被管理对象规模的均值减去计算得到的被管理对象规模的均值的均值然后除以被管理对象规模的均值的标准差,得到该被管理对象的被管理对象规模的均值进行标准化处理后的值。
可选地,在本发明实施例中,在基于预设聚类算法模型根据所接收的度量指标对参与分类的被管理对象进行分类之前,该方法还包括:在度量指标包括三个以及三个以上度量参数的情况下,基于主成分分析模型,对度量指标进行降维。其中,对度量指标进行降维是减少度量指标包括的度量参数的数量。例如,主成分分析模型可以是PCA。通过主成分降维,将相关性较高的指标,提取主成分信息,降低共线性。
可选地,在本发明实施例中,预设聚类算法模型可以是k-means模型,下面以使用k-means模型进行分类为例,对本发明实施例中提供的技术方案进行示例性介绍。其中,被管理对象是门店,初始簇心的数量超过2。此外,在该实施例中,一门店的客观情况反应的是一城市的门店的整体情况,不同门店的度量指标反应的是不同城市的门店的情况,因此,对门店进行分类,实际上也是对城市进行分类。在该实施例中,应用聚类模型,优化初始簇心的选择,并基于此,结合门店客观情况的相似程度,对城市进行聚类分组,为运营城市管理提供参考。具体地,基于k-means模型聚类调优技术的应用,通过黑盒调参,优化聚类算法模型,并在城市门店相似度聚类中,得以实际应用,输出城市分组。
首先,获取原始数据,选取门店情况的度量指标,如门店规模(人数)、 3公里户数,具体地,度量指标包括的度量参数为门店规模的平均值和标准差以及3公里户数的均值和标准差,如表1所示。获取到原始数据后进行标准化处理及降维处理。其中,标准化处理是分别对门店客观情况,进行标准化处理,具体地,分别对度量指标中包括的每一度量参数进行标准化处理。其中,标准化处理的方法可以参见上述相关内容。此外,降维处理是主成分降维,将相关性较高的指标,提取主成分信息,降低共线性,具体地,降低度量指标中包括的度量参数的个数,例如,使用主成分分析模型PCA进行降维处理。具体地,在该实施例中,将度量指标包括的度量参数的个数减少为两个。
表1
pt city_name 门店规模_均值 门店规模_标准差 3公里户数_均值 3公里户数_标准差
20210421000000 成都市 0.38 14.36 5.33 321,620.12 155,710.33
利用经过标准化处理和降维处理后的数据,确定出k-means模型中最优分组k的值。具体地,利用手肘法,通过k-means簇内距离平方和,选取最优分组k,即手肘点出现的位置对应最优分组k。其中,簇内距离平方和为所有分组的单个簇内距离平方和的总和,单个簇内距离平方和是一分组中的每一度量指标与其对应的簇心的距离平方的加和。具体地,不断的设置k的分组具体值,针对每一设置的分组具体值,利用k-means模型进行分组,然后求簇内距离平方和,根据求出的簇内距离平方和确定出选择哪个设置的分组具体值为最优分组k。例如,当分组具体值m+1对应的簇内距离平方和与分组具体值m对应的簇内距离平方和相比,没有明显变化时,分组具体值m 即为最优分组k。如图3所示,城市包括30个,也就是参与分类的门店包括 30个,9组对应的簇内距离平方和相比于8组对应的簇内距离平方和没有变化,则最优分组k为8,根据门店情况的城市分组,分为8组,也就是k-means 模型中的最优分组k的值为8。
将经过标准化处理和降维处理的数据输入到k-means模型中,对门店进行分类,也就是输出基于门店客观情况相似度的城市分组,对城市进行分组。其中,所使用的k-means模型为应用调参优化后的k-means模型,也就是对 k-means模型进行参数黑盒调优,优化初始簇心的选择。具体地,对k-means 模型进行参数黑盒调优,优化初始簇心选择,可以参见如下内容。1)随机选取一个门店的度量指标作为第一个初始簇心。2)在除去第一簇心外的剩余度量指标集中,确定出距离第一个初始簇心最远的度量指标,作为第二个初始簇心。2)针对除去第一个初簇心和第二个初始簇心外的剩余度量指标集中的任一度量指标i,计算到每个现有初始簇心的距离,记为x(i1)和x(i2),选取x(i1)和x(i2)中的最小值,记为d(i);在计算得到的所有d(i)中确定出最大值,该最大值对应的度量指标,作为下一个初始簇心。4)参考3)步骤,选取k个初始簇心。此外,需要说明的是,不管k-means模型中的最优分组 k的值是多少均可以根据本申请中提供的优化初始簇心选择的内容选择出k 个初始簇心。
在本发明实施例提供的技术方案中,对算法模型进行调优,基于算法模型的黑盒调参,使初始簇心之间两两足够分散,通过调参实现优化;将调优后的模型,结合门店客观情况进行应用,对不同城市基于门店客观情况的相似度进行分组,将模型结合城市门店客观情况进行应用,对城市进行聚类,找到相似度较高的城市,为城市合理分类,为平台城市管理提效,即为一组相似的城市统一运营,而非每个城市单点运营,从而提高线下管理效率,实现节省人力、资源、分层运营的目的。
相应地,本发明实施例的另一方面还提供一种用于对被管理对象进行分类的装置。
图4是本发明另一实施例提供的用于对被管理对象进行分类的装置的结构框图。如图4所示,该装置包括接收模块1和分类模块2。其中,接收模块1用于接收参与分类的每一被管理对象的度量指标;分类模块2用于基于预设聚类算法模型,根据所接收的度量指标,对参与分类的被管理对象进行分类,其中,预设聚类算法模型的初始簇心根据预设分散簇心方法而被确定。
可选地,在本发明实施例中,初始簇心的数量为N,预设分散簇心方法包括:当N为2时,在所接收的度量指标中,随机选取一度量指标作为第一初始簇心;以及确定第二初始簇心,其中,第二初始簇心为所接收的度量指标除去第一初始簇心后剩余的度量指标中距离第一初始簇心最远的度量指标;和/或当N≥3时,在所接收的度量指标中,随机选取一度量指标作为第一初始簇心;确定第二初始簇心,其中,第二初始簇心为所接收的度量指标除去第一初始簇心后剩余的度量指标中距离第一初始簇心最远的度量指标;以及根据以下内容依次确定剩余的初始簇心:计算所接收的度量指标中除前 (n-1)个初始簇心之外的至少一个所述度量指标的最短簇心距离,选取计算得到的最短簇心距离中的最大值对应的度量指标作为第n个初始簇心,其中,至少一个度量指标中的任一度量指标的最短簇心距离为该度量指标与前 (n-1)个初始簇心的距离中的最小值,3≤n≤N。
可选地,在本发明实施例中,该装置还包括:标准化处理模块,用于在基于预设聚类算法模型根据所接收的度量指标对参与分类的被管理对象进行分类之前,对度量指标中包括的每一度量参数进行标准化处理。
可选地,在本发明实施例中,该装置还包括:降维模块,用于在基于预设聚类算法模型根据所接收的度量指标对参与分类的被管理对象进行分类之前,在度量指标包括三个以及三个以上度量参数的情况下,基于主成分分析模型,对度量指标进行降维。
本发明实施例提供的用于对被管理对象进行分类的装置的具体工作原理及益处与本发明实施例提供的用于对被管理对象进行分类的方法的具体工作原理及益处相似,这里将不再赘述。
所述用于对被管理对象进行分类的装置包括处理器和存储器,上述接收模块和分类模块等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来实现根据被管理对象的情况对被管理对象进行分类。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器 (RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
此外,本发明实施例的另一方面还提供一种机器可读存储介质,该机器可读存储介质上存储有指令,该指令用于使得机器执行上述实施例中所述的方法。
另外,本发明实施例的另一方面提供一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行上述实施例中所述的方法。
此外,本发明实施例的另一方面还提供一种设备,设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序,处理器执行程序时实现上述实施例中所述的方法。本文中的设备可以是服务器、PC、PAD、手机等。
另外,本发明实施例的另一方面还提供一种计算机程序产品,包括计算机程序/指令,该计算机程序/指令被处理器执行时实现上述实施例中所述的方法。
本领域内的技术人员应明白,本申请的实施例可提供为方法、***、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/ 或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/ 输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器 (RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存 (PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器 (CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (11)

1.一种用于对被管理对象进行分类的方法,其特征在于,该方法包括:
接收参与分类的每一被管理对象的度量指标;以及
基于预设聚类算法模型,根据所接收的度量指标,对参与分类的所述被管理对象进行分类,其中,所述预设聚类算法模型的初始簇心根据预设分散簇心方法而被确定。
2.根据权利要求1所述的方法,其特征在于,所述初始簇心的数量为N,所述预设分散簇心方法包括:
当N为2时,
在所接收的度量指标中,随机选取一所述度量指标作为第一初始簇心;以及
确定第二初始簇心,其中,所述第二初始簇心为所接收的度量指标除去所述第一初始簇心后剩余的度量指标中距离所述第一初始簇心最远的度量指标;和/或
当N≥3时,
在所接收的度量指标中,随机选取一所述度量指标作为第一初始簇心;
确定第二初始簇心,其中,所述第二初始簇心为所接收的度量指标除去所述第一初始簇心后剩余的度量指标中距离所述第一初始簇心最远的度量指标;以及
根据以下内容依次确定剩余的初始簇心:计算所接收的度量指标中除前(n-1)个初始簇心之外的至少一个所述度量指标的最短簇心距离,选取计算得到的最短簇心距离中的最大值对应的所述度量指标作为第n个初始簇心,其中,所述至少一个度量指标中的任一度量指标的所述最短簇心距离为该度量指标与所述前(n-1)个初始簇心的距离中的最小值,3≤n≤N。
3.根据权利要求1或2所述的方法,其特征在于,在基于预设聚类算法模型根据所接收的度量指标对参与分类的所述被管理对象进行分类之前,该方法还包括:
对所述度量指标中包括的每一度量参数进行标准化处理。
4.根据权利要求1或2所述的方法,其特征在于,在基于预设聚类算法模型根据所接收的度量指标对参与分类的所述被管理对象进行分类之前,该方法还包括:
在所述度量指标包括三个以及三个以上度量参数的情况下,基于主成分分析模型,对所述度量指标进行降维。
5.一种用于对被管理对象进行分类的装置,其特征在于,该装置包括:
接收模块,用于接收参与分类的每一被管理对象的度量指标;以及
分类模块,用于基于预设聚类算法模型,根据所接收的度量指标,对参与分类的所述被管理对象进行分类,其中,所述预设聚类算法模型的初始簇心根据预设分散簇心方法而被确定。
6.根据权利要求5所述的装置,其特征在于,所述初始簇心的数量为N,所述预设分散簇心方法包括:
当N为2时,
在所接收的度量指标中,随机选取一所述度量指标作为第一初始簇心;以及
确定第二初始簇心,其中,所述第二初始簇心为所接收的度量指标除去所述第一初始簇心后剩余的度量指标中距离所述第一初始簇心最远的度量指标;和/或
当N≥3时,
在所接收的度量指标中,随机选取一所述度量指标作为第一初始簇心;
确定第二初始簇心,其中,所述第二初始簇心为所接收的度量指标除去所述第一初始簇心后剩余的度量指标中距离所述第一初始簇心最远的度量指标;以及
根据以下内容依次确定剩余的初始簇心:计算所接收的度量指标中除前(n-1)个初始簇心之外的至少一个所述度量指标的最短簇心距离,选取计算得到的最短簇心距离中的最大值对应的所述度量指标作为第n个初始簇心,其中,所述至少一个度量指标中的任一度量指标的所述最短簇心距离为该度量指标与所述前(n-1)个初始簇心的距离中的最小值,3≤n≤N。
7.根据权利要求5或6所述的装置,其特征在于,该装置还包括:
标准化处理模块,用于在基于预设聚类算法模型根据所接收的度量指标对参与分类的所述被管理对象进行分类之前,对所述度量指标中包括的每一度量参数进行标准化处理。
8.根据权利要求5或6所述的装置,其特征在于,该装置还包括:
降维模块,用于在基于预设聚类算法模型根据所接收的度量指标对参与分类的所述被管理对象进行分类之前,在所述度量指标包括三个以及三个以上度量参数的情况下,基于主成分分析模型,对所述度量指标进行降维。
9.一种机器可读存储介质,其特征在于,该机器可读存储介质上存储有指令,该指令用于使得机器执行权利要求1-4中任一项所述的方法。
10.一种处理器,其特征在于,用于运行程序,其中,所述程序被运行时用于执行权利要求1-4中任一项所述的方法。
11.一种计算机程序产品,包括计算机程序/指令,其特征在于,该计算机程序/指令被处理器执行时实现权利要求1-4中任一项所述的方法。
CN202111566969.1A 2021-12-20 2021-12-20 用于对被管理对象进行分类的方法和装置 Pending CN114254172A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111566969.1A CN114254172A (zh) 2021-12-20 2021-12-20 用于对被管理对象进行分类的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111566969.1A CN114254172A (zh) 2021-12-20 2021-12-20 用于对被管理对象进行分类的方法和装置

Publications (1)

Publication Number Publication Date
CN114254172A true CN114254172A (zh) 2022-03-29

Family

ID=80793395

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111566969.1A Pending CN114254172A (zh) 2021-12-20 2021-12-20 用于对被管理对象进行分类的方法和装置

Country Status (1)

Country Link
CN (1) CN114254172A (zh)

Similar Documents

Publication Publication Date Title
CN111563101B (zh) 执行计划优化方法、装置、设备及存储介质
CN109241159B (zh) 一种数据立方体的分区查询方法、***及终端设备
US10268749B1 (en) Clustering sparse high dimensional data using sketches
CN110347888B (zh) 订单数据的处理方法、装置及存储介质
CN105096174A (zh) 一种交易匹配方法以及***
JP2018515844A (ja) データ処理方法及びシステム
US20210263903A1 (en) Multi-level conflict-free entity clusters
CN111125199B (zh) 一种数据库访问方法、装置及电子设备
CN114077912A (zh) 数据预测方法以及数据预测装置
CN111967521A (zh) 跨境活跃用户识别方法及装置
CN114153646A (zh) 一种运维故障处置方法、装置及存储介质、处理器
CN116719822B (zh) 一种海量结构化数据的存储方法及***
CN115878824B (zh) 图像检索***、方法和装置
CN107844490B (zh) 一种数据库的分库方法及装置
CN107430633B (zh) 用于数据存储的***及方法和计算机可读介质
CN112818067A (zh) 结合大数据和多维特征的数据溯源方法及大数据云服务器
CN112100177A (zh) 数据存储方法、装置、计算机设备及存储介质
CN111752734A (zh) 异常数据的分类方法、分析方法、装置及存储介质
CN114254172A (zh) 用于对被管理对象进行分类的方法和装置
CN116089414A (zh) 基于海量数据场景的时序数据库写入性能优化方法及装置
US20220222752A1 (en) Methods for analyzing insurance data and devices thereof
CN110764907A (zh) 一种云计算资源图谱构建方法
CN111209284B (zh) 基于元数据的分表方法及装置
CN104090895A (zh) 获取基数的方法、装置、服务器及***
US11741058B2 (en) Systems and methods for architecture embeddings for efficient dynamic synthetic data generation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination