CN114004314A - 样本分类方法、装置、电子设备及存储介质 - Google Patents
样本分类方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN114004314A CN114004314A CN202111525874.5A CN202111525874A CN114004314A CN 114004314 A CN114004314 A CN 114004314A CN 202111525874 A CN202111525874 A CN 202111525874A CN 114004314 A CN114004314 A CN 114004314A
- Authority
- CN
- China
- Prior art keywords
- sample
- feature
- classified
- classification
- cluster
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 59
- 239000013598 vector Substances 0.000 claims abstract description 146
- 238000007621 cluster analysis Methods 0.000 claims abstract description 23
- 230000007246 mechanism Effects 0.000 claims description 23
- 238000004458 analytical method Methods 0.000 claims description 15
- 238000004590 computer program Methods 0.000 claims description 12
- 238000012545 processing Methods 0.000 claims description 11
- 238000000513 principal component analysis Methods 0.000 claims description 9
- 238000013528 artificial neural network Methods 0.000 claims description 7
- 238000010801 machine learning Methods 0.000 abstract description 3
- 238000007418 data mining Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000003064 k means clustering Methods 0.000 description 3
- 238000002372 labelling Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/817—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level by voting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2132—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on discrimination criteria, e.g. discriminant analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2135—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/285—Selection of pattern recognition techniques, e.g. of classifiers in a multi-classifier system
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/762—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开提供了一种样本分类方法、装置、电子设备及存储介质,涉及数据挖掘技术领域,尤其涉及机器学习领域。具体实现方案为:获取待分类样本,其中,待分类样本的样本特征维度大于预设阈值;采用多种特征编码方式对待分类样本的样本特征进行特征编码,得到多个特征向量;对多个特征向量进行聚类分析,确定待分类样本的目标分类。
Description
技术领域
本公开涉及数据挖掘技术领域,进一步涉及机器学习领域,尤其涉及一种样本分类方法、装置、电子设备及存储介质。
背景技术
聚类分析是指将物理或抽象对象的集合分组由类似的对象组成多个类的分析过程。
相关方案中,采用K均值(K-means)聚类算法描述数据样本,衡量样本间的相似性,以及将样本分类到不同的簇中。但是,在对高维度特征的样本进行聚类时,K-means聚类算法会把毫无关联的样本聚到一起,导致聚类效果较差。
发明内容
本公开提供了一种样本分类方法、装置、电子设备及存储介质,以至少解决相关方案中对于高维度特征的样本进行聚类时准确性低下的技术问题。
根据本公开的一方面,提供了一种样本分类方法,包括:获取待分类样本,其中,待分类样本的样本特征维度大于预设阈值;采用多种特征编码方式对待分类样本的样本特征进行特征编码,得到多个特征向量;对多个特征向量进行聚类分析,确定待分类样本的目标分类。
根据本公开的又一方面,提供了一种样本分类装置,包括:获取模块,用于获取待分类样本,其中,待分类样本的样本特征维度大于预设阈值;编码模块,用于采用多种特征编码方式对待分类样本的样本特征进行特征编码,得到多个特征向量;聚类模块,用于对多个特征向量进行聚类分析,确定待分类样本的目标分类。
根据本公开的又一方面,提供了一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行本公开提出的样本分类方法。
根据本公开的又一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,计算机指令用于使计算机执行本公开提出的样本分类方法。
根据本公开的又一方面,提供了一种计算机程序产品,包括计算机程序,计算机程序在被处理器执行本公开提出的样本分类方法。
在本公开中,通过获取待分类样本,待分类样本的样本特征维度大于预设阈值,继而采用多种特征编码方式对待分类样本的样本特征进行特征编码,得到多个特征向量,最后对多个特征向量进行聚类分析,确定待分类样本的目标分类,达到了快速、准确地确定待分类样本的目标分类的目的,实现了提高高维度特征的样本聚类的准确性的效果,从而解决了相关方案中对于高维度特征的样本进行聚类时准确性低下的技术问题。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1是根据本公开实施例的一种用于实现样本分类方法的计算机终端(或移动设备)的硬件结构框图;
图2是根据本公开实施例的一种样本分类方法流程图;
图3是根据本公开实施例的一种样本分类方法示意图;
图4是根据本公开实施例的一种样本分类装置的结构框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
K-means聚类算法的实现过程为:首先,逐个扫描样本,每个样本依据其与已扫描过的样本的距离,被归为以前的类,或生成一个新类;其次,对已获得的类依据类间距离进行合并,按照一定的预设标准,停止合并。但是,在对高维度特征的样本进行聚类时,K-means聚类算法会把毫无关联的样本聚到一起,导致聚类效果较差。
根据本公开实施例,提供了一种样本分类方法,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机***中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本公开实施例所提供的方法实施例可以在移动终端、计算机终端或者类似的电子设备中执行。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。图1示出了一种用于实现样本分类方法的计算机终端(或移动设备)的硬件结构框图。
如图1所示,计算机终端100包括计算单元101,其可以根据存储在只读存储器(ROM)102中的计算机程序或者从存储单元108加载到随机访问存储器(RAM)103中的计算机程序,来执行各种适当的动作和处理。在RAM 103中,还可存储计算机终端100操作所需的各种程序和数据。计算单元101、ROM 102以及RAM 103通过总线104彼此相连。输入/输出(I/O)接口105也连接至总线104。
计算机终端100中的多个部件连接至I/O接口105,包括:输入单元106,例如键盘、鼠标等;输出单元107,例如各种类型的显示器、扬声器等;存储单元108,例如磁盘、光盘等;以及通信单元109,例如网卡、调制解调器、无线通信收发机等。通信单元109允许计算机终端100通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元101可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元101的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元101执行本文所描述的样本分类方法。例如,在一些实施例中,样本分类方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元108。在一些实施例中,计算机程序的部分或者全部可以经由ROM 102和/或通信单元109而被载入和/或安装到计算机终端100上。当计算机程序加载到RAM 103并由计算单元101执行时,可以执行本文描述的样本分类方法的一个或多个步骤。备选地,在其他实施例中,计算单元101可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行样本分类方法。
本文中描述的***和技术的各种实施方式可以在数字电子电路***、集成电路***、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上***的***(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程***上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储***、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储***、该至少一个输入装置、和该至少一个输出装置。
此处需要说明的是,在一些可选实施例中,上述图1所示的电子设备可以包括硬件元件(包括电路)、软件元件(包括存储在计算机可读介质上的计算机代码)、或硬件元件和软件元件两者的结合。应当指出的是,图1仅为特定具体实例的一个实例,并且旨在示出可存在于上述电子设备中的部件的类型。
在上述运行环境下,本公开提供了如图2所示的样本分类方法,该方法可以由图1所示的计算机终端或者类似的电子设备执行。图2是根据本公开实施例提供的一种样本分类方法流程图。如图2所示,该方法可以包括如下步骤:
步骤S21,获取待分类样本,其中,待分类样本的样本特征维度大于预设阈值;
例如,预设阈值为10000维,获得的待分类样本的样本特征维度均大于10000维,每个待分类样本都具有高维度的样本特征。
步骤S22,采用多种特征编码方式对待分类样本的样本特征进行特征编码,得到多个特征向量;
上述多种特征编码方式中每种特征编码方式分别用于待分类样本的样本特征维度降维至不同维度的特征向量。多种特征编码方式可以包括主成分分析(PrincipalComponent Analysis,PCA)或线性判别分析(Linear Discriminant Analysis,LDA)的特征编码方式、回归预测(xgboost/lightgbm)特征编码方式、深度神经网络(Deep NeuralNetwork,DNN)特征编码方式。
采用多种特征编码方式对待分类样本的样本特征进行特征编码,能够对待分类样本的样本特征进行降维,不同的特征编码方式对待分类样本进行编码后得到的特征向量的维度有所差异。
具体的,采用多种特征编码方式对待分类样本的样本特征进行特征编码,得到多个特征向量的实现过程可以参照对于本公开实施例的进一步介绍,不予赘述。
步骤S23,对多个特征向量进行聚类分析,确定待分类样本的目标分类。
可选地,利用高斯混合模型(Gaussian Mixed Model,GMM)对多个特征向量进行聚类分析,确定待分类样本的目标分类结果。
具体的,对多个特征向量进行聚类分析,确定待分类样本的目标分类的实现过程可以参照对于本公开实施例的进一步介绍,不予赘述。
根据本公开上述步骤S21至步骤S23,通过获取待分类样本,待分类样本的样本特征维度大于预设阈值,继而采用多种特征编码方式对待分类样本的样本特征进行特征编码,得到多个特征向量,最后对多个特征向量进行聚类分析,确定待分类样本的目标分类,达到了快速、准确地确定待分类样本的目标分类的目的,实现了提高高维度特征样本聚类的准确性的效果,从而解决了相关方案中对于高维度的特征样本进行聚类时准确性低下的技术问题。
下面对上述实施例的样本分类方法进行进一步介绍。
作为一种可选的实施方式,在步骤S22,采用多种特征编码方式对待分类样本的样本特征进行特征编码,得到多个特征向量包括:
步骤S221,采用主成分分析或线性判别分析的特征编码方式对待分类样本的样本特征进行特征编码,得到第一特征向量;
具体的,采用主成分分析或线性判别分析的特征编码方式对待分类样本的样本特征进行特征编码,得到第一特征向量。
步骤S222,采用回归预测特征编码方式对待分类样本的样本特征进行特征编码,得到第二特征向量;
具体的,预先训练回归预测模型,获得多棵树,将每棵树的叶子节点权重拼接成第二特征向量。
步骤S223,采用深度神经网络特征编码方式对待分类样本的样本特征进行特征编码,得到第三特征向量。
具体的,通过多层全连接神经网络最后一层输出的层向量获得第三特征向量。
可选地,第一特征向量的特征维度小于第三特征向量的特征维度,且第三特征向量的特征维度小于第二特征向量的特征维度。
例如,采用主成分分析或线性判别分析的特征编码方式对待分类样本的样本特征进行特征编码,得到第一特征向量,可以将10000维的样本特征压缩至100维内,即第一特征向量的维度在100维以内。预先训练回归预测模型,获得多棵树,每棵树的叶子节点权重拼接成第二特征向量,第二特征向量的维度在500-1000维之间。通过多层全连接神经网络,得到最后一层输出的层向量,即第三特征向量,第三特征向量的维度在100-200维之间。
基于上述步骤S221至步骤S223,采用多种特征编码方式对待分类样本的样本特征进行特征编码,将待分类样本的特征维度进行压缩,获得维度不同维度的特征向量,即第一特征向量、第二特征向量和第三特征向量,以实现从多个角度产生多个类别,增加分类结果的泛化性。
作为一种可选的实施方式,本公开实施例的样本分类方法还包括:
步骤S24,设置多个样本簇,其中,多个样本簇用于在对多个特征向量进行聚类分析之后,确定多个特征向量中每个特征向量归属的样本簇。
例如,设置样本簇的数量为100,依次编号为簇1,簇2,簇3……,簇99,簇100。对第一特征向量、第二特征向量、第三特征向量进行聚类分析之后,3个特征向量分别得到100个样本簇,进而确定第一特征向量、第二特征向量、第三特征向量各自归属的样本簇。
通过预先设置多个样本簇,能够在对多个特征向量进行聚类分析之后,快速确定每个特征向量归属的样本簇,进而提高聚类分析的效率。
作为一种可选的实施方式,在步骤S23,对多个特征向量进行聚类分析,确定目标分类包括:
步骤S231,对多个特征向量进行聚类分析,分别确定多个特征向量中每个特征向量归属的样本簇,得到聚类结果;
具体的,利用GMM对第一特征向量、第二特征向量及第三特征向量进行聚类分析,分别确定第一特征向量、第二特征向量及第三特征向量各自归属的样本簇,得到聚类结果。
步骤S232,利用投票机制从聚类结果中确定目标分类。
具体的,利用投票机制从聚类结果中确定目标分类地实现过程可以参照下文实施例的进一步介绍,不予赘述。
基于上述步骤S231至步骤S232,通过对多个特征向量进行聚类分析,分别确定多个特征向量中每个特征向量归属的样本簇,得到聚类结果,进而利用投票机制从聚类结果中确定目标分类,可以高效准确地确定待分类样本对应的目标分类。
作为一种可选的实施方式,聚类结果包括:多个候选簇,多个候选簇为多个样本簇中的部分或全部簇,在步骤S232,利用投票机制从聚类结果中确定目标分类包括:
步骤S2321,利用投票机制从多个候选簇中选取目标簇,其中,目标簇中包含的特征向量数目大于其余每个候选簇中包含的特征向量数目;
具体的,利用投票机制从多个候选簇中选择特征向量数目最大的候选簇作为目标簇。
步骤S2322,通过目标簇确定目标分类。
基于上述步骤S2321至步骤S2322,利用投票机制从多个候选簇中选取目标簇,进而通过目标簇确定目标分类,可以准确获得待分类样本对应的目标分类。
作为一种可选的实施方式,聚类结果包括:多个候选簇,多个候选簇为多个样本簇中的部分或全部簇,在步骤S232,利用投票机制从聚类结果中确定目标分类包括:
步骤S2323,利用投票机制确定多个候选簇的每个候选簇中包含的特征向量数目相同;
步骤S2324,通过多个候选簇中的默认簇确定目标分类。
基于上述步骤S2323至步骤S2324,利用投票机制确定多个候选簇的每个候选簇中包含的特征向量数目相同,进而通过多个候选簇中的默认簇确定目标分类,可以准确获得待分类样本对应的目标分类。
下面结合图3对本公开实施例的样本分类方法进行介绍。
图3是根据本公开实施例的一种样本分类方法示意图,如图3所示,首先获取待分类样本,待分类样本的样本特征维度大于预设阈值,进而采用多种特征编码方式对待分类样本的样本特征进行特征编码,得到多个特征向量。具体的,采用PCA/LDA特征编码方式对待分类样本的样本特征进行特征编码,得到第一特征向量;采用xgboost/lightgbm特征编码方式对待分类样本的样本特征进行特征编码,将每棵树的叶子节点权重拼接成第二特征向量;采用DNN特征编码方式对待分类样本的样本特征进行特征编码,利用最后一层全连接层输出的层向量得到第三特征向量。随后利用GMM对第一特征向量、第二特征向量及第三特征向量进行聚类分析,分别确定每个特征向量归属的样本簇,得到聚类结果。最后,利用投票机制从聚类结果中确定待分类样本的目标分类。
例如,利用GMM对第一特征向量、第二特征向量及第三特征向量进行聚类分析,这3个特征向量分别得到100个候选簇,即每个特征向量对应一类候选簇,每类候选簇依次编号为簇1,簇2,簇3……,簇99,簇100,默认簇为簇0。采用投票机制,若样本a在3类簇中均划分为簇1,则样本a的目标簇为簇1,样本a的目标分类为簇1;若样本a在2类簇中均划分为簇1,1类簇中划分为簇2,则样本a的目标簇为簇1,样本a的目标分类为簇1;若样本a在3类簇中分别划分为簇1、簇2、簇3,则样本a的目标分类为簇0。
本公开实施例的样本分类方法能够高效准确地确定待分类样本的目标分类,进而将待分类样本归属到相应的簇中,实现自动聚类。
本公开实施例的样本分类方法可以应用于金融风控场景下,在该场景中,需要对用户生成标签,例如,根据用户的兴趣爱好列表生成标签,其中,兴趣特征维度有上万维,采用人工标注的成本很高。将用户的兴趣样本利用本公开实施例提供的样本分类方法分成100个簇,随后进行人工抽样审核,能够加速对于用户的标注,有效降低人工标注的成本。
本公开的技术方案中,所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理,均符合相关法律法规的规定,且不违背公序良俗。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本公开的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本公开各个实施例所述的方法。
在本公开中还提供了一种样本分类装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
图4是根据本公开其中一实施例的一种样本分类装置的结构框图,如图4所示,一种样本分类装置400包括:
获取模块401,用于获取待分类样本,其中,待分类样本的样本特征维度大于预设阈值;
编码模块402,用于采用多种特征编码方式对待分类样本的样本特征进行特征编码,得到多个特征向量;
聚类模块403,用于对多个特征向量进行聚类分析,确定待分类样本的目标分类。
可选地,多种特征编码方式中每种特征编码方式分别用于待分类样本的样本特征维度降维至不同维度的特征向量。
可选地,编码模块402还用于:采用主成分分析或线性判别分析的特征编码方式对待分类样本的样本特征进行特征编码,得到第一特征向量;采用回归预测特征编码方式对待分类样本的样本特征进行特征编码,得到第二特征向量;采用深度神经网络特征编码方式对待分类样本的样本特征进行特征编码,得到第三特征向量。
可选地,第一特征向量的特征维度小于第三特征向量的特征维度,且第三特征向量的特征维度小于第二特征向量的特征维度。
可选地,样本分类装置400还包括:设置模块404,用于设置多个样本簇,其中,多个样本簇用于在对多个特征向量进行聚类分析之后,确定多个特征向量中每个特征向量归属的样本簇。
可选地,聚类模块403还用于:对多个特征向量进行聚类分析,分别确定多个特征向量中每个特征向量归属的样本簇,得到聚类结果;利用投票机制从聚类结果中确定目标分类。
可选地,聚类结果包括:多个候选簇,多个候选簇为多个样本簇中的部分或全部簇,聚类模块403还用于:利用投票机制从多个候选簇中选取目标簇,其中,目标簇中包含的特征向量数目大于其余每个候选簇中包含的特征向量数目;通过目标簇确定目标分类。
可选地,聚类结果包括:多个候选簇,多个候选簇为多个样本簇中的部分或全部簇,聚类模块403还用于:利用投票机制确定多个候选簇的每个候选簇中包含的特征向量数目相同;通过多个候选簇中的默认簇确定目标分类。
需要说明的是,上述各个模块是可以通过软件或硬件来实现的,对于后者,可以通过以下方式实现,但不限于此:上述模块均位于同一处理器中;或者,上述各个模块以任意组合的形式分别位于不同的处理器中。
根据本公开的实施例,本公开还提供了一种电子设备,包括存储器和至少一个处理器,该存储器中存储有计算机指令,该处理器被设置为运行计算机指令以执行上述方法实施例中的步骤。
可选地,上述电子设备还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。
可选地,在本公开中,上述处理器可以被设置为通过计算机程序执行以下步骤:
S1,获取待分类样本,其中,待分类样本的样本特征维度大于预设阈值;
S2,采用多种特征编码方式对待分类样本的样本特征进行特征编码,得到多个特征向量;
S3,对多个特征向量进行聚类分析,确定待分类样本的目标分类。
可选地,本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,本实施例在此不再赘述。
根据本公开的实施例,本公开还提供了一种存储有计算机指令的非瞬时计算机可读存储介质,该非瞬时计算机可读存储介质中存储有计算机指令,其中,该计算机指令被设置为运行时执行上述方法实施例中的步骤。
可选地,在本实施例中,上述非瞬时计算机可读存储介质可以被设置为存储用于执行以下步骤的计算机程序:
S1,获取待分类样本,其中,待分类样本的样本特征维度大于预设阈值;
S2,采用多种特征编码方式对待分类样本的样本特征进行特征编码,得到多个特征向量;
S3,对多个特征向量进行聚类分析,确定待分类样本的目标分类。
可选地,在本实施例中,上述非瞬时计算机可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体***、装置或设备,或者上述内容的任何合适组合。可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
根据本公开的实施例,本公开还提供了一种计算机程序产品。用于实施本公开的音频处理方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本公开所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本公开各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM)、随机存取存储器(RAM)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本公开的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本公开原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本公开的保护范围。
Claims (19)
1.一种样本分类方法,包括:
获取待分类样本,其中,所述待分类样本的样本特征维度大于预设阈值;
采用多种特征编码方式对所述待分类样本的样本特征进行特征编码,得到多个特征向量;
对所述多个特征向量进行聚类分析,确定所述待分类样本的目标分类。
2.根据权利要求1所述的样本分类方法,其中,所述多种特征编码方式中每种特征编码方式分别用于所述待分类样本的样本特征维度降维至不同维度的特征向量。
3.根据权利要求1所述的样本分类方法,其中,采用所述多种特征编码方式对所述待分类样本的样本特征进行特征编码,得到所述多个特征向量包括:
采用主成分分析或线性判别分析的特征编码方式对所述待分类样本的样本特征进行特征编码,得到第一特征向量;
采用回归预测特征编码方式对所述待分类样本的样本特征进行特征编码,得到第二特征向量;
采用深度神经网络特征编码方式对所述待分类样本的样本特征进行特征编码,得到第三特征向量。
4.根据权利要求3所述的样本分类方法,其中,所述第一特征向量的特征维度小于所述第三特征向量的特征维度,且所述第三特征向量的特征维度小于所述第二特征向量的特征维度。
5.根据权利要求1所述的样本分类方法,其中,所述样本分类方法还包括:
设置多个样本簇,其中,所述多个样本簇用于在对所述多个特征向量进行聚类分析之后,确定所述多个特征向量中每个特征向量归属的样本簇。
6.根据权利要求5所述的样本分类方法,其中,对所述多个特征向量进行聚类分析,确定所述目标分类包括:
对所述多个特征向量进行聚类分析,分别确定所述多个特征向量中每个特征向量归属的样本簇,得到聚类结果;
利用投票机制从所述聚类结果中确定所述目标分类。
7.根据权利要求6所述的样本分类方法,其中,所述聚类结果包括:多个候选簇,所述多个候选簇为所述多个样本簇中的部分或全部簇,利用所述投票机制从所述聚类结果中确定所述目标分类包括:
利用所述投票机制从所述多个候选簇中选取目标簇,其中,所述目标簇中包含的特征向量数目大于其余每个候选簇中包含的特征向量数目;
通过所述目标簇确定所述目标分类。
8.根据权利要求6所述的样本分类方法,其中,所述聚类结果包括:多个候选簇,所述多个候选簇为所述多个样本簇中的部分或全部簇,利用所述投票机制从所述聚类结果中确定所述目标分类包括:
利用所述投票机制确定所述多个候选簇的每个候选簇中包含的特征向量数目相同;
通过所述多个候选簇中的默认簇确定所述目标分类。
9.一种样本分类装置,包括:
获取模块,用于获取待分类样本,其中,所述待分类样本的样本特征维度大于预设阈值;
编码模块,用于采用多种特征编码方式对所述待分类样本的样本特征进行特征编码,得到多个特征向量;
聚类模块,用于对所述多个特征向量进行聚类分析,确定所述待分类样本的目标分类。
10.根据权利要求9所述的样本分类装置,其中,所述多种特征编码方式中每种特征编码方式分别用于所述待分类样本的样本特征维度降维至不同维度的特征向量。
11.根据权利要求9所述的样本分类装置,其中,所述编码模块还用于:
采用主成分分析或线性判别分析的特征编码方式对所述待分类样本的样本特征进行特征编码,得到第一特征向量;
采用回归预测特征编码方式对所述待分类样本的样本特征进行特征编码,得到第二特征向量;
采用深度神经网络特征编码方式对所述待分类样本的样本特征进行特征编码,得到第三特征向量。
12.根据权利要求11所述的样本分类装置,其中,所述第一特征向量的特征维度小于所述第三特征向量的特征维度,且所述第三特征向量的特征维度小于所述第二特征向量的特征维度。
13.根据权利要求9所述的样本分类装置,其中,所述样本分类装置还包括:
设置模块,用于设置多个样本簇,其中,所述多个样本簇用于在对所述多个特征向量进行聚类分析之后,确定所述多个特征向量中每个特征向量归属的样本簇。
14.根据权利要求13所述的样本分类装置,其中,所述聚类模块还用于:
对所述多个特征向量进行聚类分析,分别确定所述多个特征向量中每个特征向量归属的样本簇,得到聚类结果;
利用投票机制从所述聚类结果中确定所述目标分类。
15.根据权利要求14所述的样本分类装置,其中,所述聚类结果包括:多个候选簇,所述多个候选簇为所述多个样本簇中的部分或全部簇,所述聚类模块还用于:
利用所述投票机制从所述多个候选簇中选取目标簇,其中,所述目标簇中包含的特征向量数目大于其余每个候选簇中包含的特征向量数目;
通过所述目标簇确定所述目标分类。
16.根据权利要求14所述的样本分类装置,其中,所述聚类结果包括:多个候选簇,所述多个候选簇为所述多个样本簇中的部分或全部簇,所述聚类模块还用于:
利用所述投票机制确定所述多个候选簇的每个候选簇中包含的特征向量数目相同;
通过所述多个候选簇中的默认簇确定所述目标分类。
17.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-8中任一项所述的方法。
18.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-8中任一项所述的方法。
19.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1-8中任一项所述的方法。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111525874.5A CN114004314A (zh) | 2021-12-14 | 2021-12-14 | 样本分类方法、装置、电子设备及存储介质 |
US17/967,790 US20230186613A1 (en) | 2021-12-14 | 2022-10-17 | Sample Classification Method and Apparatus, Electronic Device and Storage Medium |
EP22203369.8A EP4198777A1 (en) | 2021-12-14 | 2022-10-24 | Sample classification method and apparatus, electronic device and storage medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111525874.5A CN114004314A (zh) | 2021-12-14 | 2021-12-14 | 样本分类方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114004314A true CN114004314A (zh) | 2022-02-01 |
Family
ID=79931671
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111525874.5A Pending CN114004314A (zh) | 2021-12-14 | 2021-12-14 | 样本分类方法、装置、电子设备及存储介质 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20230186613A1 (zh) |
EP (1) | EP4198777A1 (zh) |
CN (1) | CN114004314A (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117312862B (zh) * | 2023-11-29 | 2024-02-27 | 之江实验室 | 基于glm的金融事件抽取样本的生成方法及*** |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111199244A (zh) * | 2019-12-19 | 2020-05-26 | 北京航天测控技术有限公司 | 一种数据的分类方法、装置、存储介质及电子装置 |
WO2020215560A1 (zh) * | 2019-04-26 | 2020-10-29 | 平安科技(深圳)有限公司 | 自编码神经网络处理方法、装置、计算机设备及存储介质 |
CN112860993A (zh) * | 2021-02-04 | 2021-05-28 | 北京百度网讯科技有限公司 | 兴趣点的分类方法、装置、设备、存储介质及程序产品 |
-
2021
- 2021-12-14 CN CN202111525874.5A patent/CN114004314A/zh active Pending
-
2022
- 2022-10-17 US US17/967,790 patent/US20230186613A1/en not_active Abandoned
- 2022-10-24 EP EP22203369.8A patent/EP4198777A1/en not_active Withdrawn
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020215560A1 (zh) * | 2019-04-26 | 2020-10-29 | 平安科技(深圳)有限公司 | 自编码神经网络处理方法、装置、计算机设备及存储介质 |
CN111199244A (zh) * | 2019-12-19 | 2020-05-26 | 北京航天测控技术有限公司 | 一种数据的分类方法、装置、存储介质及电子装置 |
CN112860993A (zh) * | 2021-02-04 | 2021-05-28 | 北京百度网讯科技有限公司 | 兴趣点的分类方法、装置、设备、存储介质及程序产品 |
Non-Patent Citations (1)
Title |
---|
XU SHULIANG ET AL: "Multi-feature weighting neighborhood density clustering", NEURAL COMPUTING AND APPLICATIONS, pages 9545 * |
Also Published As
Publication number | Publication date |
---|---|
EP4198777A1 (en) | 2023-06-21 |
US20230186613A1 (en) | 2023-06-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113326764B (zh) | 训练图像识别模型和图像识别的方法和装置 | |
CN112164391A (zh) | 语句处理方法、装置、电子设备及存储介质 | |
CN111858843B (zh) | 一种文本分类方法及装置 | |
CN110245232B (zh) | 文本分类方法、装置、介质和计算设备 | |
CN112347760A (zh) | 意图识别模型的训练方法及装置、意图识别方法及装置 | |
CN111950279A (zh) | 实体关系的处理方法、装置、设备及计算机可读存储介质 | |
CN112149754B (zh) | 一种信息的分类方法、装置、设备及存储介质 | |
CN110796171A (zh) | 机器学习模型的未分类样本处理方法、装置及电子设备 | |
CN112800919A (zh) | 一种检测目标类型视频方法、装置、设备以及存储介质 | |
CN113434683A (zh) | 文本分类方法、装置、介质及电子设备 | |
CN113239702A (zh) | 意图识别方法、装置、电子设备 | |
CN115329176A (zh) | 搜索请求的处理方法、装置、计算机设备及存储介质 | |
CN116597406A (zh) | 基于多模态的用户意图车型识别方法及装置、存储介质 | |
CN117217277A (zh) | 语言模型的预训练方法、装置、设备、存储介质及产品 | |
CN114547301A (zh) | 文档处理、识别模型训练方法、装置、设备及存储介质 | |
CN113128284A (zh) | 一种多模态情感识别方法和装置 | |
CN114004314A (zh) | 样本分类方法、装置、电子设备及存储介质 | |
CN114037059A (zh) | 预训练模型、模型的生成方法、数据处理方法及装置 | |
CN113705192A (zh) | 文本处理方法、装置与存储介质 | |
US20230376692A1 (en) | Technical document issues scanner | |
CN114444514B (zh) | 语义匹配模型训练、语义匹配方法及相关装置 | |
CN116562952A (zh) | 虚假交易订单检测方法及装置 | |
CN116304184A (zh) | 视频分类模型、训练方法、分类方法、设备及存储介质 | |
CN113762298B (zh) | 相似人群扩展方法和装置 | |
CN113255824A (zh) | 训练分类模型和数据分类的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |