CN117009883A - 对象分类模型构建方法、对象分类方法、装置和设备 - Google Patents
对象分类模型构建方法、对象分类方法、装置和设备 Download PDFInfo
- Publication number
- CN117009883A CN117009883A CN202311269339.7A CN202311269339A CN117009883A CN 117009883 A CN117009883 A CN 117009883A CN 202311269339 A CN202311269339 A CN 202311269339A CN 117009883 A CN117009883 A CN 117009883A
- Authority
- CN
- China
- Prior art keywords
- objects
- sub
- classification
- label
- class
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000013145 classification model Methods 0.000 title claims abstract description 214
- 238000000034 method Methods 0.000 title claims abstract description 105
- 238000010276 construction Methods 0.000 title claims abstract description 50
- 238000012549 training Methods 0.000 claims abstract description 74
- 238000004590 computer program Methods 0.000 claims abstract description 28
- 238000000605 extraction Methods 0.000 claims description 41
- 238000004422 calculation algorithm Methods 0.000 claims description 27
- 230000002159 abnormal effect Effects 0.000 claims description 23
- 230000000153 supplemental effect Effects 0.000 claims description 23
- 238000004458 analytical method Methods 0.000 claims description 13
- 238000007619 statistical method Methods 0.000 claims description 10
- 238000013507 mapping Methods 0.000 claims description 6
- 230000000295 complement effect Effects 0.000 claims description 5
- 238000005516 engineering process Methods 0.000 abstract description 19
- 238000013473 artificial intelligence Methods 0.000 abstract description 14
- 230000000875 corresponding effect Effects 0.000 description 50
- 230000008569 process Effects 0.000 description 31
- 238000010801 machine learning Methods 0.000 description 17
- 230000006870 function Effects 0.000 description 16
- 238000012545 processing Methods 0.000 description 14
- 238000004891 communication Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 11
- 238000001514 detection method Methods 0.000 description 10
- 238000013135 deep learning Methods 0.000 description 9
- 230000003993 interaction Effects 0.000 description 8
- 230000005856 abnormality Effects 0.000 description 6
- 238000013528 artificial neural network Methods 0.000 description 6
- 239000000284 extract Substances 0.000 description 5
- 238000007781 pre-processing Methods 0.000 description 5
- 230000009286 beneficial effect Effects 0.000 description 4
- 238000003066 decision tree Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000007499 fusion processing Methods 0.000 description 4
- 238000012706 support-vector machine Methods 0.000 description 4
- 230000009466 transformation Effects 0.000 description 4
- 238000013459 approach Methods 0.000 description 3
- 230000006399 behavior Effects 0.000 description 3
- 238000013500 data storage Methods 0.000 description 3
- 238000003062 neural network model Methods 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000009849 deactivation Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000000844 transformation Methods 0.000 description 2
- 206010000117 Abnormal behaviour Diseases 0.000 description 1
- 238000012935 Averaging Methods 0.000 description 1
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 238000012896 Statistical algorithm Methods 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 230000002547 anomalous effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000004883 computer application Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 229910021389 graphene Inorganic materials 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及一种对象分类模型构建方法、对象分类方法、装置、计算机设备、计算机可读存储介质和计算机程序产品,可应用于云技术、人工智能、智慧交通、辅助驾驶等各种场景。该对象分类模型构建方法包括:获取包含多个无标签对象和多个有标签对象的训练集,针对对象数量较少的第一类别对象,基于第一类别对象和至少一部分无标签对象进行半监督学习,获得二分类模型,该二分类模型用于确定训练集的无标签对象中,预测标签与第一类别对象相同的第一类别补充对象;使用包括至少一部分样本对象的数据子集进行模型训练,得到数据子集对应的对象分类子模型,构建包含多个对象分类子模型的对象分类模型。采用上述方法能够提升对象分类模型的性能。
Description
技术领域
本申请涉及计算机应用技术领域,特别是涉及一种对象分类模型构建方法、对象分类方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
背景技术
随着计算机技术的发展,机器学***台管理等领域。以商品交易平台管理为例,平台服务方可以基于机器学习训练得到对应的对象分类模型,利用该分类模型对提供商品的商户进行分类,识别异常商户,以便进行针对性的处理。
传统技术中,使用携带类别标签的已分类对象训练得到对象分类模型,模型性能受制于携带同一类别标签的已分类对象的数量。因此,采用传统技术构建的对象分类模型,对于训练过程中训练样本数量较少的对象类别的识别率较低,存在模型性能不佳的缺点。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高灵活性的对象分类模型构建方法、对象分类方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
第一方面,本申请提供了一种对象分类模型构建方法。所述方法包括:
获取包含多个无标签对象和多个有标签对象的训练集;所述有标签对象包括对象数量满足小批量条件的第一类别对象;所述小批量条件是指对象数量小于或等于第一数量阈值;
基于所述第一类别对象和至少一部分所述无标签对象进行半监督学习,获得二分类模型;所述二分类模型用于确定所述无标签对象中,预测标签与所述第一类别对象相同的第一类别补充对象;
使用包括至少一部分样本对象的数据子集进行模型训练,得到所述数据子集对应的对象分类子模型;所述样本对象包括所述有标签对象和所述第一类别补充对象;
构建包含多个对象分类子模型的对象分类模型;所述对象分类模型的分类结果通过对各所述对象分类子模型各自的子分类结果统计得到。
第二方面,本申请还提供了一种对象分类模型构建装置。所述装置包括:
训练集获取模块,用于获取包含多个无标签对象和多个有标签对象的训练集;所述有标签对象包括对象数量满足小批量条件的第一类别对象;所述小批量条件是指对象数量小于或等于第一数量阈值;
半监督学习模块,用于基于所述第一类别对象和至少一部分所述无标签对象进行半监督学习,获得二分类模型;所述二分类模型用于确定所述无标签对象中,预测标签与所述第一类别对象相同的第一类别补充对象;
子模型训练模块,用于使用包括至少一部分样本对象的数据子集进行模型训练,得到所述数据子集对应的对象分类子模型;所述样本对象包括所述有标签对象和所述第一类别补充对象;
对象分类模型构建模块,用于构建包含多个对象分类子模型的对象分类模型;所述对象分类模型的分类结果通过对各所述对象分类子模型各自的子分类结果统计得到。
在其中一个实施例中,所述半监督学习模块包括:初始分类模型确定单元,用于将所述第一类别对象确定为学习对象,对学习对象进行监督学习,得到初始分类模型;分类单元,用于使用所述初始分类模型对至少一部分所述无标签对象进行对象分类,获得携带预测标签的伪标签对象;迭代单元,用于基于所述伪标签对象确定新的学习对象,并返回所述对学习对象进行监督学习的步骤,直至满足学习停止条件;二分类模型确定单元,用于在满足所述学习停止条件的情况下,将当前的初始分类模型确定为所述第一类别对象所携带标签对应的二分类模型。
在其中一个实施例中,所述迭代单元具体用于:针对每一所述伪标签对象,获取所述伪标签对象的预测标签的标签置信度;将标签置信度满足置信条件的伪标签对象,确定为新的学习对象。
在其中一个实施例中,所述有标签对象还包括对象数量满足大批量条件的第二类别对象;所述大批量条件,是指对象数量大于或等于第二数量阈值;所述第二数量阈值大于所述第一数量阈值;
所述半监督学习模块还包括判断单元,用于:使用所述初始分类模型对所述无标签对象进行分类,确定的预测标签与所述第一类别对象相同、且标签置信度满足置信条件的第一类别补充对象;在所述第一类别对象和所述第一类别补充对象的数量和、与所述第二类别对象的对象数量满足数量均衡条件的情况下,确定当前满足学习停止条件。
在其中一个实施例中,所述对象分类模型构建装置还包括数据子集构建模块,用于:将所述有标签对象和所述第一类别补充对象作为样本对象,确定包括所述样本对象的数据集;从所述数据集中抽取至少一部分所述有标签对象和至少一部分所述第一类别补充对象,构成数据子集。
在其中一个实施例中,所述有标签对象包括携带第一标签的第一类别对象、以及携带第二标签的第二类别对象;所述无标签对象中属于所述第一标签所表征对象类别的对象数量、小于所述无标签对象中属于所述第二标签所表征对象类别的对象数量,且二者的数量差异满足数量失衡条件;
所述对象分类模型构建装置还包括:对象特征提取模块,用于对各所述无标签对象进行特征提取,获得各所述无标签对象各自的对象特征;局部密度分析模块,用于基于各所述无标签对象分别在所述对象特征所属特征空间中的映射位置,对各所述无标签对象进行局部密度分析,得到各所述无标签对象分别对应的局部离群因子;第一类别补充对象确定模块,用于将所述局部离群因子满足离群条件的无标签对象,确定为携带第一标签的第一类别补充对象。
在其中一个实施例中,所述对象特征提取模块具体用于:获取各所述无标签对象各自的对象信息;所述对象信息中包括至少两种信息类别的子信息;对应于所述无标签对象的每一所述子信息,使用与所述子信息的所属信息类别匹配的特征提取算法,对所述子信息进行特征提取,获得所述无标签对象的子特征;基于每一所述子信息分别对应的子特征,确定所述无标签对象的对象特征。
在其中一个实施例中,所述对象分类模型构建装置还包括反馈调节模块,用于:获取针对所述对象分类模型的分类结果反馈的异议信息;在所述异议信息满足异议条件的情况下,对所述异议信息进行异常原因匹配,确定与所述异议信息所表征语义匹配的异常原因;基于所述异常原因对所述对象分类模型进行调整,获得更新后的对象分类模型。
第三方面,本申请还提供了一种对象分类方法。所述方法包括:
获取待分类对象的对象信息;
对所述对象信息进行特征提取,获得所述待分类对象的对象特征;
使用对象分类模型中所包含的各对象分类子模型,分别对所述待分类对象的对象特征进行分类处理,获得所述待分类对象的多个子分类结果;所述对象分类模型基于上述对象分类模型构建方法构建;
对各所述子分类结果进行统计分析,得到所述待分类对象的对象类别。
第四方面,本申请还提供了一种对象分类装置。所述装置包括:
对象信息获取模块,用于获取待分类对象的对象信息;
对象特征提取模块,用于对所述对象信息进行特征提取,获得所述待分类对象的对象特征;
子分类结果确定模块,用于使用对象分类模型中所包含的各对象分类子模型,分别对所述待分类对象的对象特征进行分类处理,获得所述待分类对象的多个子分类结果;所述对象分类模型基于上述对象分类模型构建方法构建;
对象类别确定模块,用于对各所述子分类结果进行统计分析,得到所述待分类对象的对象类别。
在其中一个实施例中,所述子分类结果包括所述待分类对象的初选标签;所述对象类别确定模块具体用于:对各所述子分类结果进行统计,确定每一所述初选标签在各所述子分类结果中的出现次数;将出现次数最多的初选标签所表征的对象类别,确定为所述待分类对象的对象类别。
在其中一个实施例中,所述子分类结果包括所述待分类对象的初选标签、以及所述初选标签的置信度;所述对象类别确定模块具体用于:对各所述子分类结果中每一所述初选标签分别进行置信度统计,确定每一所述初选标签的置信度统计值;将置信度统计值最大的初选标签所表征的对象类别,确定为所述待分类对象的对象类别。
在其中一个实施例中,所述子分类结果包括所述待分类对象分别属于每一候选标签的概率;所述对象类别确定模块具体用于:对各所述子分类结果中每一所述候选标签分别进行概率统计,得到各所述候选标签各自的概率统计值;将概率统计值最大的候选标签所表征的对象类别,确定为所述待分类对象的对象类别。
第五方面,本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。
第六方面,本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述方法的步骤。
第七方面,本申请还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述方法的步骤。
上述对象分类模型构建方法、对象分类方法、装置、计算机设备、计算机可读存储介质和计算机程序产品,在对象分类建模过程中,获取包含多个无标签对象和多个有标签对象的训练集,针对对象数量较少的第一类别对象,基于第一类别对象和至少一部分无标签对象进行半监督学习,获得二分类模型,该二分类模型用于确定训练集的无标签对象中,预测标签与第一类别对象相同的第一类别补充对象。使用包括至少一部分样本对象的数据子集进行模型训练,得到数据子集对应的对象分类子模型,构建包含多个对象分类子模型的对象分类模型;由于样本对象包括有标签对象和第一类别补充对象,能够提高第一类别对象的数量,以降低小批量样本对模型准确率的影响,并且,对象分类模型的分类结果通过对各对象分类子模型各自的子分类结果统计得到,相当于采用集成学习的方式,通过多个对象分类子模型实现对象分类,使得最终构建的对象分类模型具备更好的泛化性能。因此,采用上述方法有利于提升对象分类模型的性能。
附图说明
图1为一个实施例中对象分类模型构建方法和对象分类方法的应用环境图;
图2为一个实施例中对象分类模型构建方法的流程示意图;
图3为一个实施例中对象分类模型的构建过程的示意图;
图4为一个实施例中进行半监督学习的过程示意图;
图5为一个实施例中对象P相对于对象O的可达距离示意图;
图6为另一个实施例中对象分类模型构建方法的流程示意图;
图7为另一个实施例中对象分类模型的构建过程的示意图;
图8为一个实施例中对象分类方法的流程示意图;
图9为一个实施例中对象分类模型构建装置的结构框图;
图10为一个实施例中对象分类装置的结构框图;
图11为一个实施例中计算机设备的内部结构图;
图12为另一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的对象分类处理方法可以是基于人工智能的,例如,本申请中的对象分类模型可以是神经网络模型。其中,人工智能(Artificial Intelligence, AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。对比于数据挖掘从大数据之间找相互特性而言,机器学习更加注重算法的设计,让计算机能够自动地从数据中“学习”规律,并利用规律对未知数据进行预测。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习通常包括监督学习、半监督学习、集成学习等技术。其中,监督学习是利用有标签数据进行学习的机器学习方法;半监督学习,是指在训练数据中一部分数据有标签、一部分数据没有标签的情况下,利用这两部分数据进行学习的机器学习方法;集成学习是通过构建并结合多个学习器来完成学习任务的机器学习方法。
本申请实施例提供的方案涉及人工智能的机器学习技术,具体通过如下实施例进行说明:
在一个实施例中,本申请提供的对象分类模型构建方法和对象分类方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。该通信网络可以是有线网络或无线网络。因此,终端102和服务器104可以通过有线或无线通信方式进行直接或间接的连接。比如,终端102可以通过无线接入点与服务器104间接地连接,或者终端102通过因特网与服务器104直接地连接,本申请在此不做限制。
其中,终端102包括但不限于手机、电脑、智能语音交互设备、智能家电、车载终端、飞行器等。本申请实施例可应用于对象分类建模以及对象分类的场景,包括但不限于云技术、人工智能、智慧交通、辅助驾驶等。终端102上可以安装有与信息交互相关的客户端,该客户端可以是软件(例如浏览器、信息交互软件等),也可以是网页、小程序等。服务器104则是与软件或是网页、小程序等相对应的后台服务器,或者是专门用于进行对象分类模型构建或对象分类的服务器,例如提供内容交互服务的内容交互平台的平台服务器,或者,提供商品交易服务的商品交易平台的平台服务器。在一些实施例中,对象分类模型构建和对象分类还可以通过同一服务器实现,本申请不做具体限定。进一步地,服务器104可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式***,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。数据存储***可以存储服务器104需要处理的数据。数据存储***可以单独设置,可以集成在服务器104上,也可以放在云上或其他服务器上。
需要说明的是,本申请实施例中的对象分类模型构建方法和对象分类方法,可以由终端102或服务器104单独执行,也可以由终端102和服务器104共同执行。以服务器104单独执行的情况为例,服务器104在建立对象分类模型的过程中:获取包含多个无标签对象和多个有标签对象的训练集;针对对象数量较少的第一类别对象,基于第一类别对象和至少一部分无标签对象进行半监督学习,获得二分类模型,该二分类模型用于确定训练集的无标签对象中,预测标签与第一类别对象相同的第一类别补充对象;使用包括至少一部分样本对象的数据子集进行模型训练,得到数据子集对应的对象分类子模型,构建包含多个对象分类子模型的对象分类模型。其中,样本对象包括有标签对象和第一类别补充对象,对象分类模型的分类结果通过对各对象分类子模型各自的子分类结果统计得到。服务器104在进行对象分类的过程中:获取待分类对象的对象信息;对对象信息进行特征提取,获得待分类对象的对象特征;使用对象分类模型中所包含的各对象分类子模型,分别对待分类对象的对象特征进行分类处理,获得待分类对象的多个子分类结果;对各子分类结果进行统计分析,得到待分类对象的对象类别。其中,对象分类模型基于上述的对象分类模型构建方法构建。确定了待分类对象的对象类别后,可以对不同类别的待分类对象匹配不同的处理策略,以提高服务质量。
在一个实施例中,如图2所示,提供了一种对象分类模型构建方法,该方法可以由计算机设备执行,该计算机设备可以是图1所示的终端或服务器,在本实施例中,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:
步骤S202,获取包含多个无标签对象和多个有标签对象的训练集。
其中,训练集是用于进行模型训练得到对象分类模型的数据集合。该训练集可以包括多个无标签对象和多个有标签对象。对象是指业务处理过程中可以进行类别划分的事物,该对象可以是有生命的事物或者无生命的事物中的任意一类。有生命的事物包括但不限于是自然人、动物或植物中的至少一种,无生命的事物包括但不限于是图像、音频、文本和视频等中的至少一种。有标签对象是指携带有类别标签、已经确定了对象类别的对象,无标签对象是指未携带类别标签、未确定对象类别的对象。也即,对象类别可以通过类别标签表征。例如,图像的类别标签可以包括人脸图像和非人脸图像;音频的类别标签可以包括人声、敲击声、水流声等等;文本的类别标签可以包括陈述句、疑问句、祈使句、感叹句等等;视频的类别标签可以包括美食视频、美妆视频、旅游视频等。可以理解,有标签对象和无标签对象的对象类型一致。例如,有标签对象为已分类图像,无标签对象为未分类图像;有标签对象为已分类音频,无标签对象为未分类音频,等等。
在一些可能的实现中,对象可以是在业务场景中注册的业务对象,例如内容服务场景下内容服务平台的注册账号,游戏业务场景下游戏服务平台的注册账号,或者,商品交易服务场景下商品交易平台的注册账号。以商品交易服务场景为例,对象类别可以包括正常商户和异常商户。其中,正常商户所有者通过在商品交易平台中发布待交易商品的商品信息,从而实现与购买方之间的资源交换,异常商户则是通过直接搬运其他商户的发布信息,或者对其他商户的发布信息进行复制、拼接或洗稿等简单编辑后,得到对应的商品信息并进行发布,从而使得实际交易商品与商品信息并不对应。可以理解,异常商户对于购买方而言存在欺诈行为。有标签对象为携带了类别标签的注册账号,例如正常账号或异常账号,无标签对象为未携带类别标签、未确定对象类别的注册账号。
进一步地,训练集中具体可以包括多个无标签对象和多个有标签对象各自的对象信息。该对象信息例如可以包括标识信息、交互信息等等。以对象为商户的情况为例,该对象信息可以包括商户的交易模式、交易频率、交易金额和客户反馈等信息。有标签对象可以包括多个类别标签各自对应的类别对象,例如,携带标签A的A类别对象、携带标签B的B类别对象和携带标签C的C类别对象等。有标签对象包括对象数量满足小批量条件的第一类别对象。其中,小批量条件是指对象数量小于或等于第一数量阈值。
在一个具体的实施例中,第一数量阈值可以根据监督学习的任务需求确定。对于监督学习任务而言,学习效果与有标签对象的对象数量正相关。也即,在其他条件不变的情况下,携带标签A的A类别对象越多,通过有监督学习确定的对象分类模型对A类别对象的识别能力越强。基于此,服务器可以根据监督学习的任务需求,确定与该任务需求匹配的第一数量阈值。例如,内容服务场景下对非原创账号的识别能力,相对于商品交易服务场景下对异常账号的识别能力而言,要求较低,因此,内容服务场景相对于商品交易服务场景,可以设置相对较小的第一数量阈值。
在一个具体的实施例中,第一数量阈值可以根据各类别对象各自的对象数量确定。在机器学习过程中,还需要考虑类别样本失衡的影响。类别样本失衡(class-imbalance)指的是分类任务中不同类别的训练样本数目差别很大的情况,样本失衡会对模型性能产生不利影响。以二分类模型为例,在正样本数量远大于负样本的情况下,即便正样本的识别率较高,但由于负样本的识别率低,未识别出的负样本有可能会被归类为正样本,从而导致正样本的误识别,影响模型的整体性能。进一步地,在存在类别样本失衡的情况下,至少有两种类别对象的数量差异满足数量失衡条件。基于此,服务器可以根据各类别对象各自的对象数量和数量失衡条件,确定与表征数量失衡条件的数量差异匹配的第一数量阈值。该数量差异,可以是差值也可以是比值。例如,数量失衡条件为多数类与少数类的数量比大于3:1的情况下,若各类别对象中的最大对象数量为300,则第一数量阈值为100。
具体地,服务器可以获取包含多个无标签对象和多个有标签对象的训练集,且服务器获取已分类数据集和待分类数据集的具体方式,可以是主动获取,也可以是被动接收。进一步地,无标签对象和有标签对象的获取途径可以相同,也可以不相同。示例性的,服务器可以从终端获取无标签对象和有标签对象;服务器也可以从终端获取有标签对象,并基于有标签对象的对象类型,从数据存储***中获取同一对象类型的多个无标签对象。
步骤S204,基于第一类别对象和至少一部分无标签对象进行半监督学习,获得二分类模型。
其中,半监督学习是指在训练数据中一部分数据有标签、一部分数据没有标签的情况下,利用这两部分数据进行学习的机器学习方法。该半监督学习的具体学习方式并不唯一,例如可以包括纯(pure)半监督学习与直推学习(transductive learning)等,还可以应用以GNN(Convolutional Neural Network,卷积神经网络)、GCN(GeneralizedConnection Network,通用连接网络)以及知识图谱等图算法为基础的标签传播算法,利用已知标签预测未知标签,实现半监督学习。
具体地,服务器可以对第一类别对象和至少一部分无标签对象进行特征提取,获得各对象各自的对象特征,特征提取的具体过程,可以包括数据清洗、数据转换和特征选择等多个步骤。在一些具体的实施例中,数据量足够大的情况下,服务器还可以使用深度学习方法进行特征提取,以从数据中学习复杂的特征,实现深层次特征的提取。然后,服务器可以采用半监督学习算法,基于各对象特征进行半监督学习,获得二分类模型。该二分类模型用于确定无标签对象中,预测标签与第一类别对象相同的第一类别补充对象。也就是说,通过半监督学习得到的二分类模型,可以将训练集中的一部分无标签对象转化为有标签的、作为第一类别对象的补充的第一类别补充对象,以增大第一类别对象的对象数量,从而解决或在一定程度上缓解样本数量不足问题。
需要说明的是,训练集中所包含的第一类别对象的类别数量可以是一个,也可以是多个。在满足小批量条件的第一类别对象的类别数量为多个的情况下,服务器可以针对每一个第一类别对象分别进行半监督学习,得到各第一类别对象各自对应的二分类模型。示例性的,在有标签对象包括携带标签A的A类别对象、携带标签B的B类别对象和携带标签C的C类别对象,且B类别对象和C类别对象各自的对象数量均满足小批量条件的情况下,服务器可以针对B类别对象和至少一部分无标签对象进行半监督学习获得针对标签B的二分类模型,使用该二分类模型将训练集中的一部分无标签对象转化为携带标签B的B类别补充对象;服务器还可以针对C类别对象和至少一部分无标签对象进行半监督学习获得针对标签C的二分类模型,使用该二分类模型将训练集中的一部分无标签对象转化为携带标签C的C类别补充对象。
步骤S206,使用包括至少一部分样本对象的数据子集进行模型训练,得到数据子集对应的对象分类子模型。
其中,样本对象包括有标签对象和第一类别补充对象。对象分类子模型的具体结构并不唯一,例如可以是决策树模型、支持向量机模型或神经网络模型等。具体地,服务器可以从有标签对象和第一类别补充对象中抽取一部分对象构成数据子集,再使用数据子集中各对象各自的对象特征和类别标签进行模型训练,得到该数据子集对应的对象分类子模型。
在一个具体的实施例中,对象分类模型构建方法还包括:将有标签对象和第一类别补充对象作为样本对象,确定包括样本对象的数据集;从数据集中抽取至少一部分有标签对象和至少一部分第一类别补充对象,构成数据子集。
具体地,有标签对象可以包括多个类别标签各自的类别对象,其中包括携带第一标签的第一类别对象。将有标签对象和第一类别补充对象作为样本对象,确定包括样本对象的数据集,再从数据集中抽取至少一部分有标签对象和至少一部分第一类别补充对象,构成数据子集,使得数据子集中融合有标签对象和第一类别补充对象两部分数据,从而使得数据子集中携带第一标签的对象数量增多,且各类样本更加均衡,有利于提升基于数据子集训练得到的对象分类子模型的性能。
在一个可能的实现中,数据子集中各对象类别各自的对象数量满足数量均衡条件。其中,数量均衡条件是指各对象类别各自的对象数量的数量差异小于差异阈值,或者,小于或等于差异阈值。该差异阈值可以是比值,也可以是差值。
在一个可能的实现中,数据子集中各对象类别各自的对象数量满足模型准确率需求。该模型准确率需求例如可以是准确率大于或等于设定准确率。具体地,服务器可以根据已构建模型的测试数据统计结果或专家经验,建立模型准确率和训练样本数量之间的对应关系,并确定与模型准确率需求匹配的对象数量下限,从而从有标签对象和第一类别补充对象中抽取一部分对象,构成各对象类别各自的对象数量均高于对象数量下限的数据子集。
在一个可能的实现中,数据子集中各对象类别各自的对象数量满足数量均衡条件和模型准确率需求。其中,关于数量均衡条件和模型准确率需求的具体限定参见上文,此处不再赘述,具体地,服务器可以根据模型准确率和训练样本数量之间的对应关系,确定与模型准确率需求匹配的对象数量下限,基于数量均衡条件确定对象数量差异上限,进而从有标签对象和第一类别补充对象中抽取一部分对象,构成各对象类别各自的对象数量均高于对象数量下限、且各对象类别各自的对象数量之间的数量差异均小于差异上限的数据子集。
步骤S208,构建包含多个对象分类子模型的对象分类模型。
其中,多个对象分类子模型对应不同的数据子集。两个数据子集不同,是指两个数据子集中各自包含的样本对象不完全相同。也即,至少有一个样本对象存在于一个数据子集,而不存在于另一个数据子集。进一步的,各数据子集中可以存在重复的样本对象,也可以不存在重复的样本对象。
具体地,服务器在使用多个数据子集分别进行模型训练,得到各数据子集各自对应的对象分类子模型之后,可以构建包含这多个对象分类子模型的对象分类模型。示例性的,如图3所示,服务器可以确定包含有标签对象和第一类别补充对象的数据集,并对该数据集进行自助采样(Bootstrap sampling),得到子数据集1、子数据集2、子数据集3和子数据集4等多个子数据集。然后,使用每一子数据集分别进行模型训练,得到子数据集1对应的对象分类子模型1、子数据集2对应的对象分类子模型2、子数据集3对应的对象分类子模型3和子数据集4对应的对象分类子模型4等多个对象分类子模型。最后构建包括各对象分类子模型的对象分类模型。
进一步地,该对象分类模型的分类结果通过对各对象分类子模型各自的子分类结果统计得到。也即,服务器可以在各对象分类子模型的输出端连接承载统计算法的统计层,得到对象分类模型。对子分类结果进行统计的具体方式并不唯一。
在一个具体的实施例中,子分类结果包括待分类对象的初选标签。在该实施例的情形下,对各对象分类子模型各自的子分类结果进行统计,得到对象分类模型的分类结果,包括:对各子分类结果进行统计,确定每一初选标签在各子分类结果中的出现次数;将出现次数最多的初选标签所表征的对象类别,确定为待分类对象的对象类别。以对象分类子模型包括对象分类子模型1-4的情况为例,若对象分类子模型1确定的初选标签为标签A、对象分类子模型2确定的初选标签为标签B、对象分类子模型3确定的初选标签为标签A、对象分类子模型4确定的初选标签为标签C,由于标签A的出现次数最多,服务器可以将标签A所表征的对象类别,确定为待分类对象的对象类别。
在一个实施例中,子分类结果包括待分类对象的初选标签、以及初选标签的置信度。在该实施例的情形下,对各对象分类子模型各自的子分类结果进行统计,得到对象分类模型的分类结果,包括:对各子分类结果中每一初选标签分别进行置信度统计,确定每一初选标签的置信度统计值;将置信度统计值最大的初选标签所表征的对象类别,确定为待分类对象的对象类别。该置信度统计值例如可以是平均值、中位数或和等等。同样以对象分类子模型包括对象分类子模型1-4、且置信度统计值为平均值的情况为例,若对象分类子模型1确定的初选标签为标签A且置信度为80%、对象分类子模型2确定的初选标签为标签B且置信度为95%、对象分类子模型3确定的初选标签为标签A且置信度为90%、对象分类子模型4确定的初选标签为标签C且置信度为90%。则标签A的置信度平均值为85%、标签B的置信度平均值为95%、标签C的置信度平均值为90%,由于标签B的置信度平均值最大,服务器可以将标签B所表征的对象类别,确定为待分类对象的对象类别。
在一个实施例中,子分类结果包括待分类对象分别属于每一候选标签的概率。在该实施例的情形下,对各对象分类子模型各自的子分类结果进行统计,得到对象分类模型的分类结果,包括:对各子分类结果中每一候选标签分别进行概率统计,得到各候选标签各自的概率统计值;将概率统计值最大的候选标签所表征的对象类别,确定为待分类对象的对象类别。同样的,该概率统计值例如可以是平均值、中位数或和等等。同样以对象分类子模型包括对象分类子模型1-4、且概率统计值为平均值的情况为例,若对象分类子模型1确定的候选标签A的概率为40%、候选标签B的概率为60%;对象分类子模型1确定的候选标签A的概率为60%、候选标签B的概率为40%;对象分类子模型1确定的候选标签A的概率为20%、候选标签B的概率为80%;对象分类子模型1确定的候选标签A的概率为70%、候选标签B的概率为30%。则标签A的概率平均值为47.5%、标签B的置信度平均值为52.5%,由于标签B的概率平均值最大,服务器可以将标签B所表征的对象类别,确定为待分类对象的对象类别。
上述对象分类模型构建方法,获取包含多个无标签对象和多个有标签对象的训练集,针对对象数量较少的第一类别对象,基于第一类别对象和至少一部分无标签对象进行半监督学习,获得二分类模型,该二分类模型用于确定训练集的无标签对象中,预测标签与第一类别对象相同的第一类别补充对象。使用包括至少一部分样本对象的数据子集进行模型训练,得到数据子集对应的对象分类子模型,构建包含多个对象分类子模型的对象分类模型;由于样本对象包括有标签对象和第一类别补充对象,能够提高第一类别对象的数量,以降低小批量样本对模型准确率的影响,并且,对象分类模型的分类结果通过对各对象分类子模型各自的子分类结果统计得到,相当于采用集成学习的方式,通过多个对象分类子模型实现对象分类,使得最终构建的对象分类模型具备更好的泛化性能。因此,采用上述方法有利于提升对象分类模型的性能。
在一个实施例中,步骤S204包括:将第一类别对象确定为学习对象,对学习对象进行监督学习,得到初始分类模型;使用初始分类模型对至少一部分无标签对象进行对象分类,获得携带预测标签的伪标签对象;基于伪标签对象确定新的学习对象,并返回对学习对象进行监督学习的步骤,直至满足学习停止条件;在满足学习停止条件的情况下,将当前的初始分类模型确定为第一类别对象所携带标签对应的二分类模型。
其中,初始分类模型的具体结构并不唯一,例如可以是决策树模型、支持向量机模型或神经网络模型等。该初始分类模型为二分类的机器学习模型。学习停止条件可以是指迭代学习次数达到了设定次数,也可以是指第一类别对象和第二类别补充对象的数量和不再满足小批量条件。可以理解,最终确定的二分类模型,即为最后一次迭代学习得到的初始分类模型。
具体地,服务器可以将第一类别对象确定为学习对象,对学习对象的对象特征和类别标签进行监督学习,得到初始分类模型。该初始分类模型对于第一类别对象的所属对象类别而言,具备一定的识别能力。然后,服务器使用该初始分类模型对至少一部分无标签对象进行对象分类,获得携带预测标签的伪标签对象。该预测标签可以是表征第一类别对象所属对象类别的类别标签,即伪标签对象为正样本;该预测标签也可以表征伪标签对象与第一类别对象所属对象类别不同,即伪标签对象为负样本。然后,服务器再基于伪标签对象确定新的学习对象,并返回对学习对象进行监督学习的步骤,进行下一轮的迭代学习,直至满足学习停止条件。在满足学习停止条件的情况下,服务器将当前的初始分类模型确定为第一类别对象所携带标签对应的二分类模型,并将该二分类模型确定的、预测标签与第一类别对象相同的伪标签对象,作为第一类别补充对象。
本实施例中,将自学习过程中最后一次迭代学习得到的分类模型,确定为第一类别对象所携带标签对应的二分类模型,并应用该二分类模型获得第一类别补充对象,能够在克服第一类别对象数量不足的影响的同时,提高第一类别补充对象的准确性。
进一步地,基于伪标签对象确定新的学习对象的具体方式并不唯一。例如,服务器可以将伪标签对象确定新的学习对象。在一具体的实施例中,基于伪标签对象确定新的学习对象,包括:针对每一伪标签对象,获取伪标签对象的预测标签的标签置信度;将标签置信度满足置信条件的伪标签对象,确定为新的学习对象。
其中,标签置信度能够表征预测标签的可信程度,也即,标签置信度越高,预测标签的可信程度越高。标签置信度满足置信条件,可以是指标签置信度大于置信度阈值,或者,标签置信度大于或等于置信度阈值。具体地,服务器可以针对每一伪标签对象,获取伪标签对象的预测标签的标签置信度,然后对各标签置信度进行数值比较,将标签置信度满足置信条件的伪标签对象,确定为新的学习对象。
在一个具体的实现中,如图4所示,确定二分类模型的过程包括以下步骤:
步骤S401,将第一类别对象确定为学习对象;
步骤S402,对学习对象进行监督学习,得到初始分类模型;
步骤S403,使用初始分类模型对至少一部分无标签对象进行对象分类,获得携带预测标签的伪标签对象;
步骤S404,判断当前是否满足学习停止条件;若否,执行步骤S405;若是,执行步骤S407;
步骤S405,针对每一伪标签对象,获取该伪标签对象的预测标签的标签置信度;
步骤S406,将标签置信度满足置信条件的伪标签对象,确定为新的学习对象;返回步骤S402;
步骤S407,将当前的初始分类模型确定为第一类别对象所携带标签对应的二分类模型。
上述实施例中,将标签置信度满足置信条件的伪标签对象,确定为新的学习对象,能够确保使用分类准确度相对较高的伪标签对象进行监督学习,有利于提高下一轮迭代确定的初始分类模型的准确性。
在一个实施例中,有标签对象还包括对象数量满足大批量条件的第二类别对象。在该实施例的情形下,对象分类模型构建方法还包括:使用初始分类模型对无标签对象进行分类,确定的预测标签与第一类别对象相同、且标签置信度满足置信条件的第一类别补充对象;在第一类别对象和第一类别补充对象的数量和、与第二类别对象的对象数量满足数量均衡条件的情况下,确定当前满足学习停止条件。
其中,大批量条件,是指对象数量大于或等于第二数量阈值;第二数量阈值大于第一数量阈值。可以理解,第二类别对象与第一类别对象存在样本失衡问题,也即,第二类别对象与第一类别对象各自的数量不满足数量均衡条件。数量均衡条件,是指各对象类别各自的对象数量的数量差异小于差异阈值,或者,小于或等于差异阈值。该差异阈值可以是比值,也可以是差值。具体地,服务器使用初始分类模型对无标签对象进行分类,确定的预测标签与第一类别对象相同、且标签置信度满足置信条件的第一类别补充对象。然后,服务器通过计算得到第一类别对象和第一类别补充对象的数量和,并在该数量和与第二类别对象的对象数量满足数量均衡条件的情况下,确定当前满足学习停止条件。
本实施例中,在第一类别对象和第一类别补充对象的数量和、与第二类别对象的对象数量满足数量均衡条件的情况下,确定当前满足学习停止条件,能够确保样本均衡,有利于提高对象分类模型的整体性能。
在一个实施例中,有标签对象包括携带第一标签的第一类别对象、以及携带第二标签的第二类别对象;无标签对象中属于第一标签所表征对象类别的对象数量、小于无标签对象中属于第二标签所表征对象类别的对象数量,且二者的数量差异满足数量失衡条件。在该实施例的情形下,对象分类模型构建方法还包括:对各无标签对象进行特征提取,获得各无标签对象各自的对象特征;基于各无标签对象分别在对象特征所属特征空间中的映射位置,对各无标签对象进行局部密度分析,得到各无标签对象分别对应的局部离群因子;将局部离群因子满足离群条件的无标签对象,确定为携带第一标签的第一类别补充对象。
其中,数量失衡条件与数量均衡条件对应,可以是指各对象类别各自的对象数量的数量差异大于差异阈值,或者,大于或等于差异阈值。离群条件可以是指局部离群因子大于离群因子阈值,或者,大于或等于离群因子阈值。
具体地,在训练集中包括满足数量失衡条件的多数类和少数类的情况下,可以基于数据的分布或者数据的密度,识别出那些与大多数数据不同的数据点,即少数类。基于此,服务器可以对各无标签对象进行特征提取,获得各无标签对象各自的对象特征,然后,基于各无标签对象分别在对象特征所属特征空间中的映射位置,对各无标签对象进行局部密度分析,得到各无标签对象分别对应的局部离群因子。最后,服务器再将局部离群因子满足离群条件的无标签对象,确定为携带第一标签的第一类别补充对象。进行局部密度分析的具体方式并不唯一,例如可以基于聚类算法进行局部密度分析,也可以采用LOF(LocalOutlier Factor,局部离群因子)算法进行局部密度分析。
在一个具体的实施例中,服务器采用LOF算法对各无标签对象进行局部密度分析,得到各无标签对象分别对应的局部离群因子。LOF算法的基本思想是比较一个数据点的局部密度和它的邻居的局部密度。如果一个数据点的局部密度远低于它的邻居的局部密度,那么就可以认为这个数据点为少数类在特征空间中的映射点。具体地,对于每个数据点,服务器首先计算它和其他所有数据点的距离,然后选择第k小的距离作为它的k-距离。这个距离可以表示为:
其中,Nk(p)是数据点p的k个最近的邻居,dist(p,o) 是数据点p和o的距离。
然后,服务器计算每个数据点的局部可达密度,这个密度是基于数据点的k-距离和它的邻居的k-距离计算的。这个密度可以表示为:
其中,reachdistk(p,o) 是数据点p到o的可达距离,如图5所示,reachdistk(p,o)定义为max[dist(k,o),dist(p,o)]。也即,对于与o点的距离小于dist(k,o)的数据点p1,其与o点的可达距离为dist(k,o);对于与o点的距离大于dist(k,o)的数据点p2,其与o点的可达距离为dist(p2,o)。
接着,服务器再计算每个数据点的局部离群因子,这个因子是基于数据点的局部可达密度和它的邻居的局部可达密度计算的。这个因子可以表示为:
如果一个数据点的LOF值远大于1,那么就可以认为这个数据点为少数类在特征空间中的映射点。
上述实施例中,在数据失衡的情况下,通过无监督的局部密度分析识别出作为少数类的第一类别补充对象,能够进一步降低第一类别对象数据量不足的影响。
在一个实施例中,对各无标签对象进行特征提取,获得各无标签对象各自的对象特征,包括:获取各无标签对象各自的对象信息;对应于无标签对象的每一子信息,使用与子信息的所属信息类别匹配的特征提取算法,对子信息进行特征提取,获得无标签对象的子特征;基于每一子信息分别对应的子特征,确定无标签对象的对象特征。
其中,对象信息中包括至少两种信息类别的子信息。该信息类别,例如可以包括数值类、类别类、文本类和时间序列类等等。以对位为商户的情况为例,对象信息中可以包括交易频率和交易金额等数值类信息、交易模式等类别类信息、交易地点和客户反馈等文本类信息、以及交易时间等时间序列类信息。
具体地,服务器获取各无标签对象各自的对象信息,然后,对应于无标签对象的每一子信息,使用与子信息的所属信息类别匹配的特征提取算法,对子信息进行特征提取,获得无标签对象的子特征。最后,服务器对同一无标签对象的各子信息分别对应的子特征进行融合处理,确定无标签对象的对象特征。融合处理的具体方式,例如可以是拼接、特征计算等等。
示例性的,对于数值数据,可以直接使用原始的数值作为特征,或者进行一些转换,如对数转换、归一化等;也可以计算统计特征,如平均值、中位数、标准差等。对于类别数据可以通过编码进行特征提取,编码的具体算法例如可以是独热编码、标签编码等;也可以计算统计特征,如类别的频率、类别的数量等。对于文本数据,可以结合文本处理和文本标识方法进行特征提取,文本处理的具体方式例如可以包括分词、去停用词、词干提取等,文本表示方法例如可以包括词袋模型、TF-IDF(Term Frequency–Inverse DocumentFrequency)、词嵌入等。对于时间序列数据,可以提取时间特征或统计特征,时间特征例如可以包括季节性、趋势性等,统计特征例如可以包括滑动平均值、滑动标准差等。
上述实施例中,使用与子信息的所属信息类别匹配的特征提取算法,对子信息进行特征提取,获得无标签对象的子特征,能够确保子特征的有效性,进而确保基于各子特征确定的对象特征的有效性。
在一个实施例中,对象分类模型构建方法还包括:获取针对对象分类模型的分类结果反馈的异议信息;在异议信息满足异议条件的情况下,对异议信息进行异常原因匹配,确定与异议信息所表征语义匹配的异常原因;基于异常原因对对象分类模型进行调整,获得更新后的对象分类模型。
其中,异议信息可以包括异议分类结果、以及针对异议分类结果的举证。异议条件可以通过时间或语义等表征。例如,异议信息满足异议条件,可以是指异议信息为有效信息,且异议信息所表征的语义与分类结果不匹配。异常原因例如可以是模型漏报、误报、特征异常或数据存在噪声等等。
具体地,在对象分类模型上线应用之后,服务器可以从终端获取针对对象分类模型的分类结果反馈的异议信息。以针对商户的对象分类模型为例,服务器可以接收商户或业务团队反馈的异议信息。例如,如果对象分类模型预测一个商户为欺诈商户,若这个商户对预测结果存在异议,可以向服务器反馈他们并没有涉及欺诈行为并进行举证。然后,服务器将异议信息与异议条件进行匹配,判读异议信息是否满足异议条件。在异议信息满足异议条件的情况下,服务器再对异议信息进行异常原因匹配,确定与异议信息所表征语义匹配的异常原因,并基于异常原因对对象分类模型进行调整,获得更新后的对象分类模型。对模型进行调整的具体内容,例如可以包括调整特征、调整模型参数、调整模型结构等。调整模型之后,还对调整后的模型进行训练,得到更新后的对象分类模型。
上述实施例中,通过反馈循环,自动调整模型参数,能够提高模型的准确性和鲁棒性。
在一个实施例中,如图6所示,提供了一种对象分类模型构建方法,该方法可以由计算机设备执行,该计算机设备可以是图1所示的终端或服务器,以该计算机设备是服务器为例,在本实施例中,该方法包括以下步骤:
步骤S601,获取包含多个无标签对象和多个有标签对象的训练集。
其中,有标签对象包括携带第一标签的第一类别对象、以及携带第二标签的第二类别对象;无标签对象中属于第一标签所表征对象类别的对象数量、小于无标签对象中属于第二标签所表征对象类别的对象数量,且二者的数量差异满足数量失衡条件。第一类别对象的对象数量满足小批量条件,第二类别对象的对象数量满足大批量条件;小批量条件是指对象数量小于或等于第一数量阈值;大批量条件,是指对象数量大于或等于第二数量阈值;第二数量阈值大于第一数量阈值。
步骤S602,获取各有标签对象和各无标签对象各自的对象信息。
其中,对象信息中包括至少两种信息类别的子信息。
步骤S603,对应于每一子信息,使用与该子信息的所属信息类别匹配的特征提取算法,对该子信息进行特征提取,获得该子信息对应的子特征。
步骤S604,基于每一子信息分别对应的子特征,确定各有标签对象和各无标签对象各自的对象特征。
步骤S605,基于各无标签对象分别在对象特征所属特征空间中的映射位置,对各无标签对象进行局部密度分析,得到各无标签对象分别对应的局部离群因子。
步骤S606,将局部离群因子满足离群条件的无标签对象,确定为携带第一标签的第一类别补充对象。
步骤S607,将第一类别对象确定为学习对象。
步骤S608,基于学习对象的对象特征和对象类别,对该学习对象进行监督学习,得到初始分类模型。
步骤S609,使用初始分类模型对无标签对象进行分类,确定的预测标签与第一类别对象相同、且标签置信度满足置信条件的第一类别补充对象。
步骤S610,在第一类别对象和第一类别补充对象的数量和、与第二类别对象的对象数量满足数量均衡条件的情况下,确定当前满足学习停止条件,将当前的初始分类模型确定为第一类别对象所携带标签对应的二分类模型。
步骤S611,在第一类别对象和第一类别补充对象的数量和、与第二类别对象的对象数量不满足数量均衡条件的情况下,确定当前不满足学习停止条件。
步骤S612,使用初始分类模型对至少一部分无标签对象进行对象分类,获得携带预测标签的伪标签对象。
步骤S613,针对每一伪标签对象,获取该伪标签对象的预测标签的标签置信度,将标签置信度满足置信条件的伪标签对象,确定为新的学习对象。返回步骤S608。
步骤S614,将有标签对象和第一类别补充对象作为样本对象,确定包括样本对象的数据集。
步骤S615,从数据集中抽取至少一部分有标签对象和至少一部分第一类别补充对象,构成数据子集。
步骤S616,使用包括至少一部分样本对象的数据子集进行模型训练,得到数据子集对应的对象分类子模型。
其中,样本对象包括有标签对象和第一类别补充对象。
步骤S617,构建包含多个对象分类子模型的对象分类模型。
其中,对象分类模型的分类结果通过对各对象分类子模型各自的子分类结果统计得到。
步骤S618,获取针对对象分类模型的分类结果反馈的异议信息。
步骤S619,在异议信息满足异议条件的情况下,对异议信息进行异常原因匹配,确定与异议信息所表征语义匹配的异常原因。
步骤S620,基于异常原因对对象分类模型进行调整,获得更新后的对象分类模型。
上述对象分类模型构建方法,获取包含多个无标签对象和多个有标签对象的训练集,针对对象数量较少的第一类别对象,基于第一类别对象和至少一部分无标签对象进行半监督学习,获得二分类模型,该二分类模型用于确定训练集的无标签对象中,预测标签与第一类别对象相同的第一类别补充对象。使用包括至少一部分样本对象的数据子集进行模型训练,得到数据子集对应的对象分类子模型,构建包含多个对象分类子模型的对象分类模型;由于样本对象包括有标签对象和第一类别补充对象,能够提高第一类别对象的数量,以降低小批量样本对模型准确率的影响,并且,对象分类模型的分类结果通过对各对象分类子模型各自的子分类结果统计得到,相当于采用集成学习的方式,通过多个对象分类子模型实现对象分类,使得最终构建的对象分类模型具备更好的泛化性能。因此,采用上述方法有利于提升对象分类模型的性能。
在其中一个实施例中,本申请还提供一种异常商户识别的应用场景。在该场景下,服务器可以获取包含多个无标签对象和多个有标签对象的训练集。如图7所示,该有标签对象可以包括携带异常标签的异常对象701、以及携带正常标签的正常对象703;该无标签对象可以包括未携带标签的潜在异常对象702、以及未携带标签的潜在正常对象704。实际场景下,异常对象701的数量远小于正常对象703,潜在异常对象702的数量远小于潜在正常对象704。也就是说,训练集中的各类样本满足样本失衡条件。
然后,服务器对各对象分别进行特征工程处理,获得各对象各自的对象特征。特征工程是机器学习中最重要的一步,决定了模型的性能上限。具体地,需要从原始的商户数据中提取出有用的特征,这些特征可能包括商户的交易模式特征、交易频率特征、交易金额特征、客户反馈特征等。这些特征可以帮助更好地理解商户的行为模式,并识别出异常商户。
在一个具体的实施例中,特征工程的过程可以表示为特征提取函数f,它接受原始的商户数据D作为输入,输出提取的特征X。这个函数可能包括数据清洗、数据转换、特征选择等多个步骤。可以用X=f(D)来表示这个过程。服务器可以需要根据数据的类型和任务来选择合适的特征提取方法。示例性的,对于数值数据,可以直接使用原始的数值作为特征,或者进行一些转换,如对数转换、归一化等;也可以计算统计特征,如平均值、中位数、标准差等。对于类别数据可以通过编码进行特征提取,编码的具体算法例如可以是独热编码、标签编码等;也可以计算统计特征,如类别的频率、类别的数量等。对于文本数据,可以结合文本处理和文本标识方法进行特征提取,文本处理的具体方式例如可以包括分词、去停用词、词干提取等,文本表示方法例如可以包括词袋模型、TF-IDF(Term Frequency–InverseDocument Frequency)、词嵌入等。对于时间序列数据,可以提取时间特征或统计特征,时间特征例如可以包括季节性、趋势性等,统计特征例如可以包括滑动平均值、滑动标准差等。
获得训练集中各对象各自的对象特征之后,服务器可以基于各对象特征进行无监督学习和半监督学习,得到异常补充对象705,以弥补异常对象数量不足的影响。
在一个具体的实施例中,将通过无监督学习识别无标签对象中潜在异常对象的过程称为异常检测。异常检测的过程可以表示为异常检测函数g,它接受提取的特征X作为输入,输出检测出的异常商户A。这个函数可能包括数据预处理、模型训练、异常检测等多个步骤。可以用公式A=g(X)来表示这个过程。具体地,可以使用基于密度的异常检测方法进行异常检测,该异常检测方法例如可以是LOF算法。LOF算法的基本思想,是比较一个数据点的局部密度和它的邻居的局部密度。如果一个数据点的局部密度远低于它的邻居的局部密度,那么就可以认为这个数据点是一个异常点。
进一步地,还可以基于特征工程的结果,同步进行半监督学习。对于已经有的少量异常商户样本,可以使用一些半监督学习算法来利用未标记的数据。这些算法可以在只有少量标签的情况下进行训练,因此可以帮助发现更多的潜在欺诈商户。
在一个具体的实施例中,半监督学习的过程可以表示为半监督学习函数h,它接受提取的特征X和已有的异常商户样本Y作为输入,输出通过半监督学习得到的潜在异常商户S。这个函数可能包括数据预处理、模型训练、预测等多个步骤。可以用公式S=h(X,Y)来表示这个过程。具体地,可以使用自学习(Self-training)作为半监督学习的方法。自学习是一种简单而有效的半监督学习方法,它可以利用少量的标签数据和大量的无标签数据来训练模型。
自学习的具体步骤包括:
(1)训练初始模型:使用已有的少量标签数据来训练一个初始的模型。这个模型可以是任何一种监督学习模型,例如决策树、支持向量机、神经网络等。
(2)预测无标签数据:使用这个初始的模型来预测无标签数据。可以得到每个无标签数据点的预测标签,以及这个预测标签的置信度。
(3)选择高置信度的预测:选择置信度最高的一部分预测,将这些预测的标签作为真实的标签。这一步是自学习的关键,它使能够利用无标签数据来改进模型。
(4)重新训练模型:使用原来的标签数据和新的标签数据来重新训练模型。然后,可以使用这个新的模型来预测更多的无标签数据,然后重复上述的步骤,直至满足学习停止条件。
如图7所示,在半监督学习的每次迭代学习过程中,均可以识别出一定数量的潜在异常商户,从而,下一次迭代学习得到的潜在异常商户的数量逐步增多。实际应用中,还可以根据业务需求和数据特性来选择其它合适的半监督学习算法。例如,可能需要使用一些基于图的算法来处理高维度的数据,或者使用一些基于聚类的算法来处理低维度的数据。
通过无监督学习和半监督学习分别识别出一部分潜在异常商户后,服务器将无监督学习和半监督学习的识别结果、以及训练集中的有标签对象融合,获得用于集成学习的数据集。例如,可以使用Stacking或者Voting等集成方法,将异常检测和半监督学习的结果进行融合。
在一个具体的实施例中,集成学***均的方式来结合预测结果。
在一个具体的实施例中,还可以使用一些深度学习的方法来进行特征学习和异常检测,作为集成学习的补充。这些方法可以自动提取深层次的特征,提高欺诈检测的准确。深度学习的过程可以表示为深度学习函数j,它接受提取的特征X作为输入,输出深度学习的结果L。这个函数可能包括数据预处理、模型训练、预测等多个步骤。可以用以下的公式来表示这个过程:L=j(X)。本实施例中,可以使用深度神经网络作为深度学习的方法。深度神经网络是一种强大的机器学习模型,它可以自动地从数据中学习复杂的特征。
以下是深度神经网络的具体步骤:
(1)设计网络结构:设计神经网络的结构。这包括选择网络的层数、每层的节点数、每层的激活函数等。网络通常需要有一个输入层,一个或多个隐藏层,和一个输出层。
(2)初始化参数:初始化网络的参数。这些参数包括每层的权重和偏置。通常使用一些随机的方法来初始化这些参数,例如高斯初始化、均匀初始化等。
(3)前向传播:使用数据和参数来进行前向传播。在前向传播中,将数据从输入层传递到隐藏层,然后再传递到输出层,得到预测结果。
(4)计算损失:计算预测结果和真实结果之间的损失。这个损失可以表示预测的准确性。通常使用一些损失函数来计算这个损失,例如交叉熵损失、均方误差损失等。
(5)反向传播:使用反向传播来更新参数。在反向传播中,计算损失对参数的梯度,然后使用这个梯度来更新参数。
(6)迭代训练:重复上述的步骤,进行多次的迭代训练。在每次的迭代中,都会更新参数,然后使用更新后的参数来进行下一次的前向传播。
在一个具体的实施例中,服务器还可以建立反馈循环,用于在对象分类模型上线应用之后,将预测结果反馈给商户,并根据他们的反馈来调整模型,以不断地改进模型,并适应新的异常行为。反馈循环的过程可以表示为反馈循环函数k,它接受集成学习的结果E、深度学习的结果L和商户的反馈R作为输入,输出反馈循环的结果F。这个函数可能包括数据预处理、模型训练、预测等多个步骤。可以用以下的公式来表示这个过程:F=k(E,L,R)。反馈学习的具体过程如下:
(1)收集反馈:收集模型的预测结果的反馈。这个反馈可以来自于商户,也可以来自于业务团队。例如,如果模型预测一个商户是欺诈的,但是这个商户反馈说他们并没有进行欺诈行为并进行举证,那么就可以将这个反馈收集起来。
(2)分析反馈:需要理解这些反馈背后的原因,例如,模型是否有误报或者漏报,特征是否有问题,数据是否有噪声等。
(3)调整模型:需要根据这些反馈来调整模型。这可能包括调整特征、调整模型参数、调整模型结构等。
(4)重新训练模型:需要使用调整后的模型来重新训练模型。可以使用这个新的模型来预测更多的数据,然后重复上述的步骤。
上述对象模型构建方法,通过集成学***衡样本,提高少数类的识别率。通过深度学习,自动进行特征学习,减少了手动特征工程的工作量。通过反馈循环,自动调整模型参数,提高模型的准确性和鲁棒性。因此,采用上述的对象模型构建方法,能够提高对象分类模型的整体性能。
在一个实施例中,如图8所示,提供了一种对象分类方法,该方法可以由计算机设备执行,该计算机设备可以是图1所示的终端或服务器,在本实施例中,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:
步骤S802,获取待分类对象的对象信息。
其中,对象信息例如可以包括标识信息、交互信息等等。对象信息中可以包括多种信息类别的子信息。该信息类别,例如可以包括数值类、类别类、文本类和时间序列类等等。以对位为商户的情况为例,对象信息中可以包括交易频率和交易金额等数值类信息、交易模式等类别类信息、交易地点和客户反馈等文本类信息、以及交易时间等时间序列类信息。
步骤S804,对对象信息进行特征提取,获得待分类对象的对象特征。
具体地,服务器可以对应于每一子信息,使用与子信息的所属信息类别匹配的特征提取算法,对子信息进行特征提取,获得待分类对象的子特征。最后,服务器对各子信息分别对应的子特征进行融合处理,确定待分类对象的对象特征。融合处理的具体方式,例如可以是拼接、特征计算等等。
步骤S806,使用对象分类模型中所包含的各对象分类子模型,分别对待分类对象的对象特征进行分类处理,获得待分类对象的多个子分类结果。
其中,对象分类模型基于上述的对象分类模型构建方法构建。子分类结果可以包括类别、概率和置信度等等。具体地,服务器将待分类对象的对象特征分别输入各对象分类子模型,获得多个子分类结果。
步骤S808,对各子分类结果进行统计分析,得到待分类对象的对象类别。
上述对象分类方法,由于在对象分类建模过程中,获取包含多个无标签对象和多个有标签对象的训练集,针对对象数量较少的第一类别对象,基于第一类别对象和至少一部分无标签对象进行半监督学习,获得二分类模型,该二分类模型用于确定训练集的无标签对象中,预测标签与第一类别对象相同的第一类别补充对象。使用包括至少一部分样本对象的数据子集进行模型训练,得到数据子集对应的对象分类子模型,构建包含多个对象分类子模型的对象分类模型;由于样本对象包括有标签对象和第一类别补充对象,能够提高第一类别对象的数量,以降低小批量样本对模型准确率的影响,并且,对象分类模型的分类结果通过对各对象分类子模型各自的子分类结果统计得到,相当于采用集成学习的方式,通过多个对象分类子模型实现对象分类,使得最终构建的对象分类模型具备更好的泛化性能。因此,采用上述方法有利于提升对象分类模型的性能,进而提升对象分类结果的准确性。
在一个实施例中,子分类结果包括待分类对象的初选标签。在该实施例的情形下,步骤S808,包括:对各子分类结果进行统计,确定每一初选标签在各子分类结果中的出现次数;将出现次数最多的初选标签所表征的对象类别,确定为待分类对象的对象类别。以对象分类子模型包括对象分类子模型1-4的情况为例,若对象分类子模型1确定的初选标签为标签A、对象分类子模型2确定的初选标签为标签B、对象分类子模型3确定的初选标签为标签A、对象分类子模型4确定的初选标签为标签C,由于标签A的出现次数最多,服务器可以将标签A所表征的对象类别,确定为待分类对象的对象类别。
本实施例中,将出现次数最多的初选标签所表征的对象类别,确定为待分类对象的对象类别,算法简单,有利于提升对象分类效率。
在一个实施例中,子分类结果包括待分类对象的初选标签、以及初选标签的置信度。在该实施例的情形下,步骤S808,包括:对各子分类结果中每一初选标签分别进行置信度统计,确定每一初选标签的置信度统计值;将置信度统计值最大的初选标签所表征的对象类别,确定为待分类对象的对象类别。
其中,置信度统计值例如可以是平均值、中位数或和等等。同样以对象分类子模型包括对象分类子模型1-4、且置信度统计值为平均值的情况为例,若对象分类子模型1确定的初选标签为标签A且置信度为80%、对象分类子模型2确定的初选标签为标签B且置信度为95%、对象分类子模型3确定的初选标签为标签A且置信度为90%、对象分类子模型4确定的初选标签为标签C且置信度为90%。则标签A的置信度平均值为85%、标签B的置信度平均值为95%、标签C的置信度平均值为90%,由于标签B的置信度平均值最大,服务器可以将标签B所表征的对象类别,确定为待分类对象的对象类别。
本实施例中,将置信度统计值最大的初选标签所表征的对象类别,确定为待分类对象的对象类别,能够进一步提高对象分类结果的准确率。
在一个实施例中,子分类结果包括待分类对象分别属于每一候选标签的概率。在该实施例的情形下,步骤S808,包括:对各子分类结果中每一候选标签分别进行概率统计,得到各候选标签各自的概率统计值;将概率统计值最大的候选标签所表征的对象类别,确定为待分类对象的对象类别。
其中,概率统计值例如可以是平均值、中位数或和等等。同样以对象分类子模型包括对象分类子模型1-4、且概率统计值为平均值的情况为例,若对象分类子模型1确定的候选标签A的概率为40%、候选标签B的概率为60%;对象分类子模型1确定的候选标签A的概率为60%、候选标签B的概率为40%;对象分类子模型1确定的候选标签A的概率为20%、候选标签B的概率为80%;对象分类子模型1确定的候选标签A的概率为70%、候选标签B的概率为30%。则标签A的概率平均值为47.5%、标签B的置信度平均值为52.5%,由于标签B的概率平均值最大,服务器可以将标签B所表征的对象类别,确定为待分类对象的对象类别。
本实施例中,将概率统计值最大的候选标签所表征的对象类别,确定为待分类对象的对象类别。
应该理解的是,虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的对象分类模型构建方法的对象分类模型构建装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个对象分类模型构建装置实施例中的具体限定可以参见上文中对于对象分类模型构建方法的限定,在此不再赘述。
在一个实施例中,如图9所示,提供了一种对象分类模型构建装置,包括:训练集获取模块901、半监督学习模块902、子模型训练模块903和对象分类模型构建模块904,其中:
训练集获取模块901,用于获取包含多个无标签对象和多个有标签对象的训练集;有标签对象包括对象数量满足小批量条件的第一类别对象;小批量条件是指对象数量小于或等于第一数量阈值;
半监督学习模块902,用于基于第一类别对象和至少一部分无标签对象进行半监督学习,获得二分类模型;二分类模型用于确定无标签对象中,预测标签与第一类别对象相同的第一类别补充对象;
子模型训练模块903,用于使用包括至少一部分样本对象的数据子集进行模型训练,得到该数据子集对应的对象分类子模型;样本对象包括有标签对象和第一类别补充对象;
对象分类模型构建模块904,用于构建包含多个对象分类子模型的对象分类模型;对象分类模型的分类结果通过对各对象分类子模型各自的子分类结果统计得到。
在其中一个实施例中,半监督学习模块902包括:初始分类模型确定单元,用于将第一类别对象确定为学习对象,对学习对象进行监督学习,得到初始分类模型;分类单元,用于使用初始分类模型对至少一部分无标签对象进行对象分类,获得携带预测标签的伪标签对象;迭代单元,用于基于伪标签对象确定新的学习对象,并返回对学习对象进行监督学习的步骤,直至满足学习停止条件;二分类模型确定单元,用于在满足学习停止条件的情况下,将当前的初始分类模型确定为第一类别对象所携带标签对应的二分类模型。
在其中一个实施例中,迭代单元具体用于:针对每一伪标签对象,获取该伪标签对象的预测标签的标签置信度;将标签置信度满足置信条件的伪标签对象,确定为新的学习对象。
在其中一个实施例中,有标签对象还包括对象数量满足大批量条件的第二类别对象;大批量条件,是指对象数量大于或等于第二数量阈值;第二数量阈值大于第一数量阈值。在该实施例的情形下,半监督学习模块902还包括判断单元,用于:使用初始分类模型对无标签对象进行分类,确定的预测标签与第一类别对象相同、且标签置信度满足置信条件的第一类别补充对象;在第一类别对象和第一类别补充对象的数量和、与第二类别对象的对象数量满足数量均衡条件的情况下,确定当前满足学习停止条件。
在其中一个实施例中,对象分类模型构建装置还包括数据子集构建模块,用于:将有标签对象和该第一类别补充对象作为样本对象,确定包括该样本对象的数据集;从数据集中抽取至少一部分有标签对象和至少一部分第一类别补充对象,构成数据子集。
在其中一个实施例中,有标签对象包括携带第一标签的第一类别对象、以及携带第二标签的第二类别对象;无标签对象中属于第一标签所表征对象类别的对象数量、小于无标签对象中属于第二标签所表征对象类别的对象数量,且二者的数量差异满足数量失衡条件。在该实施例的情形下,对象分类模型构建装置还包括:对象特征提取模块,用于对各无标签对象进行特征提取,获得各无标签对象各自的对象特征;局部密度分析模块,用于基于各无标签对象分别在对象特征所属特征空间中的映射位置,对各无标签对象进行局部密度分析,得到各无标签对象分别对应的局部离群因子;第一类别补充对象确定模块,用于将局部离群因子满足离群条件的无标签对象,确定为携带第一标签的第一类别补充对象。
在其中一个实施例中,对象特征提取模块具体用于:获取各无标签对象各自的对象信息;对象信息中包括至少两种信息类别的子信息;对应于无标签对象的每一子信息,使用与该子信息的所属信息类别匹配的特征提取算法,对该子信息进行特征提取,获得无标签对象的子特征;基于每一子信息分别对应的子特征,确定无标签对象的对象特征。
在其中一个实施例中,对象分类模型构建装置还包括反馈调节模块,用于:获取针对对象分类模型的分类结果反馈的异议信息;在异议信息满足异议条件的情况下,对该异议信息进行异常原因匹配,确定与该异议信息所表征语义匹配的异常原因;基于异常原因对对象分类模型进行调整,获得更新后的对象分类模型。
上述对象分类模型构建装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,如图10所示,提供了一种对象分类装置,包括:对象信息获取模块1001、对象特征提取模块1002、子分类结果确定模块1003和对象类别确定模块1004,其中:
对象信息获取模块1001,用于获取待分类对象的对象信息;
对象特征提取模块1002,用于对对象信息进行特征提取,获得待分类对象的对象特征;
子分类结果确定模块1003,用于使用对象分类模型中所包含的各对象分类子模型,分别对待分类对象的对象特征进行分类处理,获得该待分类对象的多个子分类结果;对象分类模型基于上述对象分类模型构建方法构建;
对象类别确定模块1004,用于对各子分类结果进行统计分析,得到待分类对象的对象类别。
在其中一个实施例中,子分类结果包括待分类对象的初选标签。在该实施例的情形下,对象类别确定模块1004具体用于:对各子分类结果进行统计,确定每一初选标签在各子分类结果中的出现次数;将出现次数最多的初选标签所表征的对象类别,确定为待分类对象的对象类别。
在其中一个实施例中,子分类结果包括待分类对象的初选标签、以及初选标签的置信度。在该实施例的情形下,对象类别确定模块1004具体用于:对各子分类结果中每一初选标签分别进行置信度统计,确定每一初选标签的置信度统计值;将置信度统计值最大的初选标签所表征的对象类别,确定为待分类对象的对象类别。
在其中一个实施例中,子分类结果包括待分类对象分别属于每一候选标签的概率。在该实施例的情形下,对象类别确定模块1004具体用于:对各子分类结果中每一候选标签分别进行概率统计,得到各候选标签各自的概率统计值;将概率统计值最大的候选标签所表征的对象类别,确定为待分类对象的对象类别。
上述对象分类装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图11所示。该计算机设备包括处理器、存储器、输入/输出接口(Input/Output,简称I/O)和通信接口。其中,处理器、存储器和输入/输出接口通过***总线连接,通信接口通过输入/输出接口连接到***总线。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作***、计算机程序和数据库。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的数据库用于存储对象分类模型构建方法或对象分类方法所涉及的数据。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种对象分类模型构建方法或对象分类方法。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图12所示。该计算机设备包括处理器、存储器、输入/输出接口、通信接口、显示单元和输入装置。其中,处理器、存储器和输入/输出接口通过***总线连接,通信接口、显示单元和输入装置通过输入/输出接口连接到***总线。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***和计算机程序。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、移动蜂窝网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种对象分类模型构建方法或对象分类方法。该计算机设备的显示单元用于形成视觉可见的画面,可以是显示屏、投影装置或虚拟现实成像装置,显示屏可以是液晶显示屏或电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图11和图12中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
本申请中,在实例应用时进行相关数据收集处理的过程中,应该严格根据相关地区法律法规的要求,获取个人信息主体的知情同意或单独同意,并在法律法规及个人信息主体的授权范围内,开展后续数据使用及处理行为。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。
Claims (17)
1.一种对象分类模型构建方法,其特征在于,所述方法包括:
获取包含多个无标签对象和多个有标签对象的训练集;所述有标签对象包括对象数量满足小批量条件的第一类别对象;所述小批量条件是指对象数量小于或等于第一数量阈值;
基于所述第一类别对象和至少一部分所述无标签对象进行半监督学习,获得二分类模型;所述二分类模型用于确定所述无标签对象中,预测标签与所述第一类别对象相同的第一类别补充对象;
使用包括至少一部分样本对象的数据子集进行模型训练,得到所述数据子集对应的对象分类子模型;所述样本对象包括所述有标签对象和所述第一类别补充对象;
构建包含多个对象分类子模型的对象分类模型;所述对象分类模型的分类结果通过对各所述对象分类子模型各自的子分类结果统计得到。
2.根据权利要求1所述的方法,其特征在于,所述基于所述第一类别对象和至少一部分所述无标签对象进行半监督学习,获得二分类模型,包括:
将所述第一类别对象确定为学习对象,对学习对象进行监督学习,得到初始分类模型;
使用所述初始分类模型对至少一部分所述无标签对象进行对象分类,获得携带预测标签的伪标签对象;
基于所述伪标签对象确定新的学习对象,并返回所述对学习对象进行监督学习的步骤,直至满足学习停止条件;
在满足所述学习停止条件的情况下,将当前的初始分类模型确定为所述第一类别对象所携带标签对应的二分类模型。
3.根据权利要求2所述的方法,其特征在于,所述基于所述伪标签对象确定新的学习对象,包括:
针对每一所述伪标签对象,获取所述伪标签对象的预测标签的标签置信度;
将标签置信度满足置信条件的伪标签对象,确定为新的学习对象。
4.根据权利要求2所述的方法,其特征在于,所述有标签对象还包括对象数量满足大批量条件的第二类别对象;所述大批量条件,是指对象数量大于或等于第二数量阈值;所述第二数量阈值大于所述第一数量阈值;
所述方法还包括:
使用所述初始分类模型对所述无标签对象进行分类,确定的预测标签与所述第一类别对象相同、且标签置信度满足置信条件的第一类别补充对象;
在所述第一类别对象和所述第一类别补充对象的数量和、与所述第二类别对象的对象数量满足数量均衡条件的情况下,确定当前满足学习停止条件。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
将所述有标签对象和所述第一类别补充对象作为样本对象,确定包括所述样本对象的数据集;
从所述数据集中抽取至少一部分所述有标签对象和至少一部分所述第一类别补充对象,构成数据子集。
6.根据权利要求1所述的方法,其特征在于,所述有标签对象包括携带第一标签的第一类别对象、以及携带第二标签的第二类别对象;所述无标签对象中属于所述第一标签所表征对象类别的对象数量、小于所述无标签对象中属于所述第二标签所表征对象类别的对象数量,且二者的数量差异满足数量失衡条件;
所述方法还包括:
对各所述无标签对象进行特征提取,获得各所述无标签对象各自的对象特征;
基于各所述无标签对象分别在所述对象特征所属特征空间中的映射位置,对各所述无标签对象进行局部密度分析,得到各所述无标签对象分别对应的局部离群因子;
将所述局部离群因子满足离群条件的无标签对象,确定为携带第一标签的第一类别补充对象。
7.根据权利要求6所述的方法,其特征在于,所述对各所述无标签对象进行特征提取,获得各所述无标签对象各自的对象特征,包括:
获取各所述无标签对象各自的对象信息;所述对象信息中包括至少两种信息类别的子信息;
对应于所述无标签对象的每一所述子信息,使用与所述子信息的所属信息类别匹配的特征提取算法,对所述子信息进行特征提取,获得所述无标签对象的子特征;
基于每一所述子信息分别对应的子特征,确定所述无标签对象的对象特征。
8.根据权利要求1至7中任意一项所述的方法,其特征在于,所述方法还包括:
获取针对所述对象分类模型的分类结果反馈的异议信息;
在所述异议信息满足异议条件的情况下,对所述异议信息进行异常原因匹配,确定与所述异议信息所表征语义匹配的异常原因;
基于所述异常原因对所述对象分类模型进行调整,获得更新后的对象分类模型。
9.一种对象分类方法,其特征在于,所述方法包括:
获取待分类对象的对象信息;
对所述对象信息进行特征提取,获得所述待分类对象的对象特征;
使用对象分类模型中所包含的各对象分类子模型,分别对所述待分类对象的对象特征进行分类处理,获得所述待分类对象的多个子分类结果;所述对象分类模型基于如权利要求1至8中任意一项所述的方法构建;
对各所述子分类结果进行统计分析,得到所述待分类对象的对象类别。
10.根据权利要求9所述的方法,其特征在于,所述子分类结果包括所述待分类对象的初选标签;
所述对各所述子分类结果进行统计分析,得到所述待分类对象的对象类别,包括:
对各所述子分类结果进行统计,确定每一所述初选标签在各所述子分类结果中的出现次数;
将出现次数最多的初选标签所表征的对象类别,确定为所述待分类对象的对象类别。
11.根据权利要求9所述的方法,其特征在于,所述子分类结果包括所述待分类对象的初选标签、以及所述初选标签的置信度;
所述对各所述子分类结果进行统计分析,得到所述待分类对象的对象类别,包括:
对各所述子分类结果中每一所述初选标签分别进行置信度统计,确定每一所述初选标签的置信度统计值;
将置信度统计值最大的初选标签所表征的对象类别,确定为所述待分类对象的对象类别。
12.根据权利要求9所述的方法,其特征在于,所述子分类结果包括所述待分类对象分别属于每一候选标签的概率;
所述对各所述子分类结果进行统计分析,得到所述待分类对象的对象类别,包括:
对各所述子分类结果中每一所述候选标签分别进行概率统计,得到各所述候选标签各自的概率统计值;
将概率统计值最大的候选标签所表征的对象类别,确定为所述待分类对象的对象类别。
13.一种对象分类模型构建装置,其特征在于,所述装置包括:
训练集获取模块,用于获取包含多个无标签对象和多个有标签对象的训练集;所述有标签对象包括对象数量满足小批量条件的第一类别对象;所述小批量条件是指对象数量小于或等于第一数量阈值;
半监督学习模块,用于基于所述第一类别对象和至少一部分所述无标签对象进行半监督学习,获得二分类模型;所述二分类模型用于确定所述无标签对象中,预测标签与所述第一类别对象相同的第一类别补充对象;
子模型训练模块,用于使用包括至少一部分样本对象的数据子集进行模型训练,得到所述数据子集对应的对象分类子模型;所述样本对象包括所述有标签对象和所述第一类别补充对象;
对象分类模型构建模块,用于构建包含多个对象分类子模型的对象分类模型;所述对象分类模型的分类结果通过对各所述对象分类子模型各自的子分类结果统计得到。
14.一种对象分类装置,其特征在于,所述装置包括:
对象信息获取模块,用于获取待分类对象的对象信息;
对象特征提取模块,用于对所述对象信息进行特征提取,获得所述待分类对象的对象特征;
子分类结果确定模块,用于使用对象分类模型中所包含的各对象分类子模型,分别对所述待分类对象的对象特征进行分类处理,获得所述待分类对象的多个子分类结果;所述对象分类模型基于如权利要求1至8中任意一项所述的方法构建;
对象类别确定模块,用于对各所述子分类结果进行统计分析,得到所述待分类对象的对象类别。
15.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至12中任意一项所述的方法的步骤。
16.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至12中任意一项所述的方法的步骤。
17.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至12中任意一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311269339.7A CN117009883B (zh) | 2023-09-28 | 2023-09-28 | 对象分类模型构建方法、对象分类方法、装置和设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311269339.7A CN117009883B (zh) | 2023-09-28 | 2023-09-28 | 对象分类模型构建方法、对象分类方法、装置和设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117009883A true CN117009883A (zh) | 2023-11-07 |
CN117009883B CN117009883B (zh) | 2024-04-02 |
Family
ID=88567520
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311269339.7A Active CN117009883B (zh) | 2023-09-28 | 2023-09-28 | 对象分类模型构建方法、对象分类方法、装置和设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117009883B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112183577A (zh) * | 2020-08-31 | 2021-01-05 | 华为技术有限公司 | 一种半监督学习模型的训练方法、图像处理方法及设备 |
US20210056417A1 (en) * | 2019-08-22 | 2021-02-25 | Google Llc | Active learning via a sample consistency assessment |
CN113723492A (zh) * | 2021-08-25 | 2021-11-30 | 哈尔滨理工大学 | 一种改进主动深度学习的高光谱图像半监督分类方法及装置 |
US20210374477A1 (en) * | 2020-06-02 | 2021-12-02 | Samsung Sds Co., Ltd. | Method for training image classification model and apparatus for executing the same |
CN113822374A (zh) * | 2021-10-29 | 2021-12-21 | 平安科技(深圳)有限公司 | 基于半监督学习的模型训练方法、***、终端及存储介质 |
CN113869464A (zh) * | 2021-12-02 | 2021-12-31 | 深圳佑驾创新科技有限公司 | 图像分类模型的训练方法及图像分类方法 |
-
2023
- 2023-09-28 CN CN202311269339.7A patent/CN117009883B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210056417A1 (en) * | 2019-08-22 | 2021-02-25 | Google Llc | Active learning via a sample consistency assessment |
US20210374477A1 (en) * | 2020-06-02 | 2021-12-02 | Samsung Sds Co., Ltd. | Method for training image classification model and apparatus for executing the same |
CN112183577A (zh) * | 2020-08-31 | 2021-01-05 | 华为技术有限公司 | 一种半监督学习模型的训练方法、图像处理方法及设备 |
CN113723492A (zh) * | 2021-08-25 | 2021-11-30 | 哈尔滨理工大学 | 一种改进主动深度学习的高光谱图像半监督分类方法及装置 |
CN113822374A (zh) * | 2021-10-29 | 2021-12-21 | 平安科技(深圳)有限公司 | 基于半监督学习的模型训练方法、***、终端及存储介质 |
CN113869464A (zh) * | 2021-12-02 | 2021-12-31 | 深圳佑驾创新科技有限公司 | 图像分类模型的训练方法及图像分类方法 |
Also Published As
Publication number | Publication date |
---|---|
CN117009883B (zh) | 2024-04-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Chen et al. | Selecting critical features for data classification based on machine learning methods | |
CN108717408B (zh) | 一种敏感词实时监控方法、电子设备、存储介质及*** | |
CN113011646B (zh) | 一种数据处理方法、设备以及可读存储介质 | |
CN111582538A (zh) | 一种基于图神经网络的社群价值预测方法及*** | |
US11538029B2 (en) | Integrated machine learning and blockchain systems and methods for implementing an online platform for accelerating online transacting | |
Li et al. | Automatic fast double KNN classification algorithm based on ACC and hierarchical clustering for big data | |
Liu et al. | Application of Decision Tree‐Based Classification Algorithm on Content Marketing | |
CN116662817B (zh) | 物联网设备的资产识别方法及*** | |
CN112819024B (zh) | 模型处理方法、用户数据处理方法及装置、计算机设备 | |
Demertzis et al. | Geo-AI to aid disaster response by memory-augmented deep reservoir computing | |
Gao et al. | Adversarial mobility learning for human trajectory classification | |
Zhang | Financial data anomaly detection method based on decision tree and random forest algorithm | |
Liu et al. | Learning multiple gaussian prototypes for open-set recognition | |
Waqas et al. | Robust bag classification approach for multi-instance learning via subspace fuzzy clustering | |
CN114049204A (zh) | 可疑交易数据录入方法、装置、计算机设备和计算机可读存储介质 | |
Qasem et al. | Extreme learning machine for credit risk analysis | |
CN111639688B (zh) | 一种基于线性核svm的物联网智能模型的局部解释方法 | |
Xu et al. | Sample selection-based hierarchical extreme learning machine | |
Li et al. | An improved genetic-XGBoost classifier for customer consumption behavior prediction | |
CN117009883B (zh) | 对象分类模型构建方法、对象分类方法、装置和设备 | |
CN115994331A (zh) | 基于决策树的报文分拣方法及装置 | |
Arya et al. | Node classification using deep learning in social networks | |
CN116029760A (zh) | 消息推送方法、装置、计算机设备和存储介质 | |
Raman et al. | Multigraph attention network for analyzing company relations | |
Shi et al. | Fuzzy support tensor product adaptive image classification for the internet of things |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |