CN112819079A - 模型的采样算法匹配方法、装置和电子设备 - Google Patents

模型的采样算法匹配方法、装置和电子设备 Download PDF

Info

Publication number
CN112819079A
CN112819079A CN202110159651.5A CN202110159651A CN112819079A CN 112819079 A CN112819079 A CN 112819079A CN 202110159651 A CN202110159651 A CN 202110159651A CN 112819079 A CN112819079 A CN 112819079A
Authority
CN
China
Prior art keywords
sampling
sampling algorithm
model
target
sample set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110159651.5A
Other languages
English (en)
Inventor
刘硕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Vivo Mobile Communication Co Ltd
Original Assignee
Vivo Mobile Communication Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Vivo Mobile Communication Co Ltd filed Critical Vivo Mobile Communication Co Ltd
Priority to CN202110159651.5A priority Critical patent/CN112819079A/zh
Publication of CN112819079A publication Critical patent/CN112819079A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本申请公开了一种模型的采样算法匹配方法、装置和电子设备,属于模型采样技术领域。所述方法包括:获取采样算法集,采样算法集包括多个采样算法;分别通过所述采样算法集中每一采样算法进行样本采样,得到每一采样算法对应的目标训练样本集;分别通过每一目标训练样本集训练目标模型的模型参数,得到多个训练后的模型;根据每一所述训练后的模型的评价指标值,在所述采样算法集中确定与所述目标模型相匹配的采样算法,能够提高模型检测性能。

Description

模型的采样算法匹配方法、装置和电子设备
技术领域
本申请属于模型采样技术领域,具体涉及一种模型的采样算法匹配方法、装置和电子设备。
背景技术
数据采样是模型建设中的常见数据处理过程,利用采样后的数据对模型进行训练,但在采样过程中会遇到数据不平衡的场景,数据不平衡会影响模型效果,模型的泛化能力较弱,导致模型的预测不准确的现象。为了应对模型不平衡的问题,现有技术中采取传统的随机过采样(ROS)或者利用插值方法合成少数类样本(smote)来实现达到数据平衡。
但是现有技术中至少存在如下问题:ROS采样和smote采样只是简单使得正负样本在数量上达到相等,并未考虑到数据的真实分布情况。例如,ROS采样是通过随机过采样合成样本点,只是重复的在原始少数类样本周围增加少数类样本数量,对模型检测效果的提升不大,甚至可能比不进行采样下的模型效果差;smote采样是在多数类样本中生成少数类样本,增加了原始数据噪声,影响特征的区分度以及模型的性能。
因此,有必要针对不同的模型选择与之最匹配的采样算法。
申请内容
本申请实施例的目的是提供一种模型的采样算法匹配方法、装置和电子设备,能够解决由于采样技术不适配导致模型检测性能不高的问题。
为了解决上述技术问题,本申请是这样实现的:
第一方面,本申请实施例提供了一种模型的采样算法匹配方法,该方法包括:
获取采样算法集,所述采样算法集包括多个采样算法;
分别通过所述采样算法集中每一采样算法进行样本采样,得到所述每一采样算法对应的目标训练样本集;
分别通过每一目标训练样本集训练目标模型,得到多个训练后的模型;
根据每一所述训练后的模型的评价指标值,在所述采样算法集中确定与所述目标模型相匹配的采样算法。
第二方面,本申请实施例提供了一种模型的采样算法匹配装置,其特征在于,包括:
算法获取模块,用于获取采样算法集,所述采样算法集包括多个采样算法;
采样模块,用于分别通过所述采样算法集中每一采样算法进行样本采样,得到所述每一采样算法对应的目标训练样本集;
训练模块,用于分别通过每一目标训练样本集训练目标模型,得到多个训练后的模型;
匹配模块,用于根据每一所述训练后的模型的评价指标值,在所述采样算法集中确定与所述目标模型相匹配的采样算法。
第三方面,本申请实施例提供了一种电子设备,该电子设备包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如第一方面所述的方法的步骤。
第四方面,本申请实施例提供了一种可读存储介质,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如第一方面所述的方法的步骤。
第五方面,本申请实施例提供了一种芯片,所述芯片包括处理器和通信接口,所述通信接口和所述处理器耦合,所述处理器用于运行程序或指令,实现如第一方面所述的方法。
在本申请实施例中,将总训练样本集分成与待匹配的采样算法数量相同的目标训练样本集,利用每一个采样算法对目标训练样本集进行采样,同时将直接采样和拟合采样数据相结合,使采样数据更加贴合原始数据的特征分布,提高样本数据的均衡性,并利用目标测试样本集对每一个训练后的模型进行测试,得到评价指标值,根据该评价指标值从而检测经对应采样算法得到的样本数据训练后的模型性能,进而为模型匹配优选的采样算法,使模型具有较好的性能。
附图说明
图1是本实施例提供的一种模型的采样算法匹配方法的流程图;
图2是本实施例提供的一种模型的采样算法匹配装置的结构图;
图3是本实施例提供的一种电子设备的硬件结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,说明书以及权利要求中“和/或”表示所连接对象的至少其中之一,字符“/”,一般表示前后关联对象是一种“或”的关系。
下面结合附图,通过具体的实施例及其应用场景对本申请实施例提供的一种模型的采样算法匹配方法进行详细地说明。
参考图1,本实施例提供的一种模型的采样算法匹配方法包括如下步骤:
步骤S110:获取采样算法集。
本实施例中,采样算法集内包含有多个采样算法,例如,采样算法集包括采样算法1(传统smote采样)、采样算法2(聚类采样)、采样算法3(密度过采样)、采样算法4(边界1过采样)、采样算法5(边界2过采样)等采样算法。通过获取采样算法集中的采样算法,从而利用该采样算法从原始数据集中进行数据采样。
上述原始数据可以是模型创建过程中所需的所有样本数据的集合,在模型创建过程中将该原始数据分成总训练样本集train_data和总测试样本集test_data,将总训练样本集作为模型的训练数据,来得到具有识别能力的模型,将总测试样本集作为训练后模型的测试数据,来检测模型的识别性能。
步骤S120:分别通过采样算法集中每一采样算法进行样本采样,得到与每一采样算法对应的目标训练样本集。
为了让模型可以更好的去学习数据的特征,在训练模型的过程中,经常要进行数据采样,根据给定的概率分布从而模拟一个随机事件,通过这种对随机现象的模拟,从而让模型的学习效果更佳。由于在现实生活中,大多数数据都是庞大的,总体分布可能就包含了无数多的样本点,模型是无法对这些海量的数据进行直接建模的,因此,我们一般会采取样本采样的方式从总体样本中抽取出一个子集来近似总体分布,用少量的样本点去近似一个总体分布,并刻画总体分布中的不确定性。这个子集被称为训练集,然后模型训练的目的就是最小化训练集上的损失函数,训练完成后,需要另一个数据集充当测试集来评估模型的性能。
本实施例中,利用采样算法集中的每一种采样算法进行样本采样,得到与每一采样算法对应的目标训练样本集,从而利用每一采样算法对应的目标训练样本对模型进行训练,根据训练后的模型性能来评判与目标训练样本样本对应的采样算法是否是模型的优选采样算法。
上述得到对应的目标训练样本集的方法包括:获取目标模型的总训练样本集;通过有放回抽样法对总训练样本集中的样本进行分配,得到与每一采样算法一一对应的子训练样本集;分别通过每一采样算法从对应的子训练样本集中进行样本采样,得到对应的目标训练样本集。
在一个可行的实施例中,获取采样算法集中的采样算法的数量,通过有放回抽样法抽取总训练样本集中的数据,得到与采样算法数量相同的若干等份数据,再利用每一采样算法对每一份经过抽取后的数据进行样本采样,得到与每一采样算法对应的目标训练样本集。例如,采样算法集中包含有5种采样算法,则从总训练样本集的数据中抽取5份,得到5个子训练样本集,每一个子训练样本集记为train_dataj(0<j<=5),j为待选择的采样算法数目。例如,采样算法1对应的子训练样本集为train_data1,采样算法2对应的子训练样本集为train_data2。利用采样算法1从子训练样本集train_data1中进行样本采样,得到与采样算法1对应的目标训练样本集。本实施例中有放回抽样也就是每抽取一个采样数据后再放回总训练样本集供下一次抽样,能够在一定程度上防止子训练样本集中的数据不均衡。
本实施例中,从样本分布的角度出发,采用拟合样本数据来还原原始样本的分布特征,解决待训练样本数据中样本分布不均的问题,具体地,分别通过每一采样算法从对应的子训练样本集中进行样本采样,得到与每一采样算法一一对应的第一样本集;分别对每一第一样本集进行数据拟合,得到与每一采样算法一一对应的第二样本集;对于每一采样算法,合并所对应的第一样本集和第二样本集,得到对应的目标训练样本集。
也就是说,先采用每一个采样算法在与之对应的子训练样本集中进行数据采样,得到第一样本集,再对第一样本集进行数据拟合,得到第二样本集,将第一样本集合第二样本集组合成目标训练样本集,通过该目标训练样本集来对待生成的模型进行训练。
例如,利用采样算法1对子训练样本集train_data1进行直接采样,得到与采样算法1对应的第一样本集,再对第一样本集进行数据拟合,得到拟合后的数据xf1=xe1+β(xg1-xe1)xe1、xg1为第一样本集中的原始数据点,β为拟合系数,利用拟合后的数据xf1得到第二样本集,组合第一样本集和第二样本集得到经采样算法1采样后的目标训练样本集smote_train_data1
同理,利用采样算法2对子训练样本集train_data2进行直接采样,得到与采样算法2对应的第一样本集,再对该第一样本集进行数据拟合,得到拟合后的数据xff2=kmeans(xee2)+β(kmeans(xgg2)-kmeans(xee2)),xgg2、xee2为经过kmean聚合后的数据,β为拟合系数,利用拟合后的数据xff2得到第二样本集,组合第一样本集和第二样本集得到经采样算法2采样后的目标训练样本集smote_train_data2
利用采样算法3对子训练样本集train_data3进行直接采样,得到与采样算法3对应的第一样本集,再对该第一样本集进行数据拟合,得到拟合后的数据xff3=xee3+β(xgg3-xee3),xgg3、xee3为采样算法3对应的第一样本集中的数据密度值,β为拟合系数,可以利用高斯密度公式来计算拟合系数β,利用拟合后的数据xff3得到第二样本集,组合第一样本集和第二样本集得到经采样算法3采样后的目标训练样本集smote_train_data3
利用采样算法4对子训练样本集train_data4进行直接采样,得到与采样算法4对应的第一样本集,再对该第一样本集进行数据拟合,得到拟合后的数据xff4=xee4+β(xgg4-xee4),xgg4,xee4为边界处的少数样本点,β为拟合系数,利用拟合后的数据xff4得到对应的第二样本集,组合第一样本集和第二样本集得到经采样算法4采样后的目标训练样本集smote_train_data4
利用采样算法5对子训练样本集train_data5进行直接采样,得到与采样算法5对应的第一样本集,再对该第一样本集进行数据拟合,得到拟合后的数据xff5=xee5+β(xgg5-xee5),xgg5,xee5为边界处任意样本点,β为拟合系数,利用拟合后的数据xff5得到对应的第二样本集,组合第一样本集和第二样本集得到经采样算法5采样后的目标训练样本集smote_train_data5。本实施例仅以上述5中采样算法为例,其他算法的计算方法与本实施例相似,在此不再赘述。
本实施例中,在选择采样算法时可以通过采样的结果(即目标训练样本集)来了解真实情况下正样本的分布特征,有益于后期优化模型训练和校验环节的参数。
步骤S130:分别通过每一目标训练样本集训练目标模型的模型参数,得到多个训练后的模型;
本实施例中,通过目标训练样本集smote_train_dataj分别对目标模型的模型参数进行训练,得到与smote_train_dataj对应的训练后的模型,例如,待训练的模型model经过采样算法j得到的目标训练样本集smote_train_dataj训练后,得到对应的模型modelj。例如,经目标训练样本集smote_train_data1训练后的目标模型为模型model1
得到训练后的模型modelj后,需要对模型modelj的性能进行检测,具体的参见下述步骤。
步骤S140:根据每一训练后的模型的评价指标值,在采样算法集中确定与目标模型相匹配的采样算法。
本实施例中,在得到训练后模型的评价指标值之前,需要对模型的测试样本进行处理,具体地:获取总测试样本集;将总测试样本集拆分为与每一采样算法一一对应的多个子测试样本集;通过无放回抽样法分别对每一子测试样本集进行再分配,得到与每一子测试样本集对应的多个目标测试样本集,由于每一子测试样本集与每一采样算法一一对应,也就是说得到与每一采样算法对应的多个目标测试样本集。
在一个可行的实施例中,获取采样算法集中的采样算法的数量,将总测试样本集test_data分成与采样算法的数量相同的等份,得到数据相同的若干子测试样本集,再通过无放回抽样法对每一子测试样本集的测试数据进行再分配,得到若干目标测试样本集,其中每一子测试样本集对应的目标测试样本集的数量相同。本实施例中,由于测试样本数据是用于检测训练后的模型性能的,为了遍历每一个测试样本数据,从而能够更全面的检测训练后的模型,又由于无放回抽样法能够保证每一个测试数据都能够被输入模型modelj,因此采用无放回抽样法将每一子测试样本集分成若干目标测试样本集,其中,目标测试样本集的数量可根据模型的精度要求认为设置,优选地为10份或20份。
例如,采样算法的数量为5,将总测试样本集的数据拆分5等份,得到5个子测试样本集,记作test_dataj(0<<=5),j为采样算法的数量,将每一份test_dataj利用无放回抽样均分成10份,记作test_dataij,其中,0<i<=10,i为数据份数,则test_dataij为目标测试样本集。例如与采样算法1对应的目标测试样本集test_data11、test_data21……test_datai1
需要说明的是,为了得到训练后的模型的评价指标值,在对总测试样本集和子测试样本集进行拆分时,需要保证每一个拆分后的测试样本集中均包含有正样本,也就是说,每一个目标测试样本集中均包含有正样本。具体的拆分方式可以通过分类器拆分也可以人为拆分。
本实施例中,对于每一训练后的模型,通过对应模型获得每一目标测试样本集中测试样本的模型识别标签;根据目标测试样本集中测试样本的模型识别标签和测试样本的实际标签,得到每一训练后的模型的评价指标值。
本实施例中,上述模型识别标签可以是将目标测试样本集中的测试样本输入模型modelj后的输出数据,该模型识别标签可以是与测试样本的实际标签相同的数据也可以是与测试样本的实际标签类似的数据,也可以是与测试样本的实际标签不一致的数据,通过将模型识别标签和测试样本的实际标签进行对比,可以检测模型modelj的性能。通过将模型识别标签和测试样本的实际标签的一致性进行量化从而得到每一训练后的模型的评价指标值。
本实施例中,将所有上述训练后的模型的评价指标值进行比较;从采样算法集中选取使得上述评价指标值最大的训练后的模型对应的采样算法,作为与目标模型相匹配的采样算法。也就是说,经目标测试样本集测试后,得到的评价指标值最大的模型modelj对应的采样算法j是与目标模型相匹配的采样算法。
例如,采用模型的精准率和召回率来计算每一训练后的模型的评价指标值,精确率(precision)计算的是所有正确被检索的样本占所有实际被检索到的样本的比例,召回率(recall)计算的是所有正确被检索的样本占所有应该检索到的样本的比例。将目标测试样本集test_dataij分别代入到模型modelj中,分别得到采样算法j下test_datai的精准率precisionij和召回率recallij,计算modelj的召回率与精准率的加权平均值op_precionj作为模型的评价指标值。
采样算法j的召回率与精准率的加权平均值op_precionj的计算公式为:
Figure BDA0002934773620000091
其中,0<i<=10,i为数据份数,α为召回率的权重,0≤α≤1,recallij为采样算法j采样后训练的模型在test_datai的召回率,precisonij为采样算法j采样后训练的模型在test_datai的精准率。
本实施例中的模型的评价指标值选用精准率和召回率来计算,获取模型的召回率和精准率的加权平均最大值,模型的召回率和精准率的加权平均最大,说明经过对应采样算法采样后的数据噪声降低,数据特征分布较为明显,能够提高模型拟合效果和泛化能力。因此,选取op_precionj中的最大值对应的采样算法j为与目标模型相匹配的采样算法。
本实施例将总训练样本集分成与待匹配的采样算法数量相同的目标训练样本集,利用每一个采样算法对目标训练样本集进行采样,同时将直接采样和拟合采样数据相结合,使采样数据更加贴合原始数据的特征分布,提高样本数据的均衡性,并利用目标测试样本集对每一个训练后的模型进行测试,得到评价指标值,根据该评价指标值从而检测经对应采样算法得到的样本数据训练后的模型性能,进而为模型匹配优选的采样算法,使模型具有较好的性能。
需要说明的是,本申请实施例提供的一种模型的采样算法匹配方法,执行主体可以为一种模型的采样算法匹配装置,或者,或者该模型的采样算法匹配装置中的用于执行加载一种模型的采样算法匹配方法的控制模块。本申请实施例中以模型的采样算法匹配装置执行加载一种模型的采样算法匹配方法为例,说明本申请实施例提供的一种模型的采样算法匹配方法。
参考图2,本实施例中的一种模型的采样算法匹配装置,包括:
算法获取模块201,用于获取采样算法集,该采样算法集包括多个采样算法;
采样模块202,用于分别通过采样算法集中每一采样算法进行样本采样,得到每一采样算法对应的目标训练集样本集;
训练模块203,用于分别通过每一样本集训练目标模型,得到多个训练后的模型;
匹配模块204,用于根据每一训练后的模型的评价指标值,在采样算法集中确定与目标模型相匹配的采样算法。
本实施例中,采样模块202还用于:获取目标模型的总训练样本集;通过有放回抽样法对总训练样本集中的样本进行分配,得到与每一采样算法一一对应的子训练样本集;分别通过每一采样算法从对应的子训练样本集中进行样本采样,得到对应的目标训练样本集。
本实施例中,采样模块202还用于:分别通过每一采样算法从对应的子训练样本集中进行样本采样,得到与每一采样算法一一对应的第一样本集;分别对每一第一样本集进行数据拟合,得到与每一采样算法一一对应的第二样本集;对于每一采样算法,合并所对应的第一样本集和第二样本集,得到对应的目标训练样本集。
本实施例中,匹配模块204还用于:获取总测试样本集;将总测试样本集拆分为与每一采样算法一一对应的多个子测试样本集;通过无放回抽样法分别对每一子测试样本集进行再分配,得到与每一子测试样本集对应的多个目标测试样本集;对于每一训练后的模型,通过对应模型获得每一所述目标测试样本集中测试样本的模型识别标签;根据目标测试样本集中测试样本的模型识别标签和测试样本的实际标签,得到每一训练后的模型的评价指标值。
本实施例中,匹配模块204还用于:根据每一所述目标测试样本集中测试样本的模型识别标签和所述测试样本的实际标签,获得训练后模型的精准率和召回率;根据所述精准率和召回率,得到每一训练后的模型的评价指标值。
以及,匹配模块204还用于:将所有所述训练后的模型的评价指标值进行比较;从所述采样算法集中,选取使得评价指标值最大的训练后的模型对应的采样算法,作为与目标模型相匹配的采样算法。
上述装置的各个模块所执行的具体功能在上述方法步骤S110-S140中均有描述,在此不再赘述。
本申请实施例中的模型的采样算法匹配装置可以是装置,也可以是终端中的部件、集成电路、或芯片。该装置可以是移动电子设备,也可以为非移动电子设备。示例性的,移动电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、可穿戴设备、超级移动个人计算机(ultra-mobile personal computer,UMPC)、上网本或者个人数字助理(personal digital assistant,PDA)等,非移动电子设备可以为服务器、网络附属存储器(Network Attached Storage,NAS)、个人计算机(personal computer,PC)、电视机(television,TV)、柜员机或者自助机等,本申请实施例不作具体限定。
本申请实施例中的一种模型的采样算法匹配装置可以为具有操作***的装置。该操作***可以为安卓(Android)操作***,可以为ios操作***,还可以为其他可能的操作***,本申请实施例不作具体限定。
本申请实施例提供的一种模型的采样算法匹配装置能够实现图1的方法实施例中一种模型的采样算法匹配装置实现的各个过程,为避免重复,这里不再赘述。
本实施例将总训练样本集分成与待匹配的采样算法数量相同的目标训练样本集,利用每一个采样算法对目标训练样本集进行采样,同时将直接采样和拟合采样数据相结合,使采样数据更加贴合原始数据的特征分布,提高样本数据的均衡性,并利用目标测试样本集对每一个训练后的模型进行测试,得到评价指标值,根据该评价指标值从而检测经对应采样算法得到的样本数据训练后的模型性能,进而为模型匹配优选的采样算法,使模型具有较好的性能。
可选的,本申请实施例还提供一种电子设备,包括处理器1010,存储器1009,存储在存储器1009上并可在所述处理器1010上运行的程序或指令,该程序或指令被处理器1010执行时实现上述一种模型的采样算法匹配方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
需要注意的是,本申请实施例中的电子设备包括上述所述的移动电子设备和非移动电子设备。
3为实现本申请实施例的一种电子设备的硬件结构示意图。
该电子设备1000包括但不限于:射频单元1001、网络模块1002、音频输出单元1003、输入单元1004、传感器1005、显示单元1006、用户输入单元1007、接口单元1008、存储器1009、以及处理器1010等部件。
本领域技术人员可以理解,电子设备1000还可以包括给各个部件供电的电源(比如电池),电源可以通过电源管理***与处理器1010逻辑相连,从而通过电源管理***实现管理充电、放电、以及功耗管理等功能。图3中示出的电子设备结构并不构成对电子设备的限定,电子设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置,在此不再赘述。
该电子设备1000包括但不限于:存储器1009、以及处理器1010等部件。
本领域技术人员可以理解,电子设备1000还可以包括给各个部件供电的电源(比如电池),电源可以通过电源管理***与处理器1010逻辑相连,从而通过电源管理***实现管理充电、放电、以及功耗管理等功能。图3中示出的电子设备结构并不构成对电子设备的限定,电子设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置,在此不再赘述。
其中,处理器1010,用于获取采样算法集;分别通过所述采样算法集中每一采样算法进行样本采样,得到对应的目标训练样本集;分别通过每一目标训练样本集训练目标模型的模型参数,得到多个训练后的模型;根据每一所述训练后的模型的评价指标值,在所述采样算法集中确定与所述目标模型相匹配的采样算法。
应理解的是,本申请实施例中,输入单元1004可以包括图形处理器(GraphicsProcessing Unit,GPU)10041和麦克风10042,图形处理器10041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。显示单元1006可包括显示面板10061,可以采用液晶显示器、有机发光二极管等形式来配置显示面板10061。用户输入单元1007包括触控面板10071以及其他输入设备10072。触控面板10071,也称为触摸屏。触控面板10071可包括触摸检测装置和触摸控制器两个部分。其他输入设备10072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆,在此不再赘述。存储器1009可用于存储软件程序以及各种数据,包括但不限于应用程序和操作***。处理器1010可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作***、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器1010中。
本申请实施例还提供一种可读存储介质,所述可读存储介质上存储有程序或指令,该程序或指令被处理器执行时实现上述信号发射方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
本实施例将总训练样本集分成与待匹配的采样算法数量相同的目标训练样本集,利用每一个采样算法对目标训练样本集进行采样,同时将直接采样和拟合采样数据相结合,使采样数据更加贴合原始数据的特征分布,提高样本数据的均衡性,并利用目标测试样本集对每一个训练后的模型进行测试,得到评价指标值,根据该评价指标值从而检测经对应采样算法得到的样本数据训练后的模型性能,进而为模型匹配优选的采样算法,使模型具有较好的性能。
本申请实施例还提供一种可读存储介质,所述可读存储介质上存储有程序或指令,该程序或指令被处理器执行时实现上述一种模型的采样算法匹配方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
其中,所述处理器为上述实施例中所述的电子设备中的处理器。所述可读存储介质,包括计算机可读存储介质,如计算机只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等。
本申请实施例另提供了一种芯片,所述芯片包括处理器和通信接口,所述通信接口和所述处理器耦合,所述处理器用于运行程序或指令,实现上述一种模型的采样算法匹配方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
应理解,本申请实施例提到的芯片还可以称为***级芯片、***芯片、芯片***或片上***芯片等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外,需要指出的是,本申请实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能,还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能,例如,可以按不同于所描述的次序来执行所描述的方法,并且还可以添加、省去、或组合各种步骤。另外,参照某些示例所描述的特征可在其他示例中被组合。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本申请各个实施例所述的方法。
上面结合附图对本申请的实施例进行了描述,但是本申请并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本申请的启示下,在不脱离本申请宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本申请的保护之内。

Claims (10)

1.一种模型的采样算法匹配方法,其特征在于,所述方法包括:
获取采样算法集,所述采样算法集包括多个采样算法;
分别通过所述采样算法集中每一采样算法进行样本采样,得到所述每一采样算法对应的目标训练样本集;
分别通过每一目标训练样本集训练目标模型,得到多个训练后的模型;
根据每一所述训练后的模型的评价指标值,在所述采样算法集中确定与所述目标模型相匹配的采样算法。
2.根据权利要求1所述的方法,其特征在于,所述分别通过所述采样算法集中每一采样算法进行样本采样,得到对应的目标训练样本集,包括:
获取总训练样本集;
通过有放回抽样法对所述总训练样本集中的样本进行分配,得到与所述每一采样算法一一对应的子训练样本集;
分别通过每一采样算法从对应的子训练样本集中进行样本采样,得到对应的目标训练样本集。
3.根据权利要求2所述的方法,其特征在于,所述分别通过每一采样算法从对应的子训练样本集中进行样本采样,得到对应的目标训练样本集,包括:
分别通过每一采样算法从对应的子训练样本集中进行样本采样,得到与每一采样算法一一对应的第一样本集;
分别对每一第一样本集进行数据拟合,得到与每一采样算法一一对应的第二样本集;
对于每一采样算法,合并所对应的第一样本集和第二样本集,得到对应的目标训练样本集。
4.根据权利要求1所述的方法,其特征在于,所述方法在所述根据每一训练后的模型的评价指标值,在所述采样算法集中确定与所述目标模型相匹配的采样算法之前,还包括:
获取总测试样本集;
将所述总测试样本集拆分为与所述每一采样算法一一对应的多个子测试样本集;
通过无放回抽样法分别对每一所述子测试样本集进行再分配,得到与所述每一子测试样本集对应的多个目标测试样本集;
对于每一训练后的模型,通过对应模型获得每一所述目标测试样本集中测试样本的模型识别标签;
根据所述目标测试样本集中测试样本的模型识别标签和所述测试样本的实际标签,得到每一训练后的模型的评价指标值。
5.根据权利要求4所述的方法,其特征在于,所述根据所述目标测试样本集中测试样本的模型识别标签和所述测试样本的实际标签,得到每一训练后的模型的评价指标值,包括:
根据每一所述目标测试样本集中测试样本的模型识别标签和所述测试样本的实际标签,获得训练后模型的精准率和召回率;
根据所述精准率和召回率,得到每一训练后的模型的评价指标值。
6.根据权利要求1所述的方法,其特征在于,所述根据每一所述训练后的模型的评价指标值,在所述采样算法集中确定与所述目标模型相匹配的采样算法,包括:
将所有所述训练后的模型的评价指标值进行比较;
从所述采样算法集中,选取使得所述评价指标值最大的训练后的模型对应的采样算法,作为与所述目标模型相匹配的采样算法。
7.一种模型的采样算法匹配装置,其特征在于,包括:
算法获取模块,用于获取采样算法集,所述采样算法集包括多个采样算法;
采样模块,用于分别通过所述采样算法集中每一采样算法进行样本采样,得到所述每一采样算法对应的目标训练样本集;
训练模块,用于分别通过每一目标训练样本集训练目标模型,得到多个训练后的模型;
匹配模块,用于根据每一所述训练后的模型的评价指标值,在所述采样算法集中确定与所述目标模型相匹配的采样算法。
8.根据权利要求7所述的装置,其特征在于,所述采样模块还用于:
获取总训练样本集;
通过有放回抽样法对所述总训练样本集中的样本进行分配,得到与所述每一采样算法一一对应的子训练样本集;
分别通过每一采样算法从对应的子训练样本集中进行样本采样,得到对应的目标训练样本集。
9.一种电子设备,其特征在于,包括处理器,存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如权利要求1-6所述的一种模型的采样算法匹配方法的步骤。
10.一种可读存储介质,其特征在于,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如权利要求1-6所述的一种模型的采样算法匹配方法的步骤。
CN202110159651.5A 2021-02-04 2021-02-04 模型的采样算法匹配方法、装置和电子设备 Pending CN112819079A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110159651.5A CN112819079A (zh) 2021-02-04 2021-02-04 模型的采样算法匹配方法、装置和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110159651.5A CN112819079A (zh) 2021-02-04 2021-02-04 模型的采样算法匹配方法、装置和电子设备

Publications (1)

Publication Number Publication Date
CN112819079A true CN112819079A (zh) 2021-05-18

Family

ID=75861657

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110159651.5A Pending CN112819079A (zh) 2021-02-04 2021-02-04 模型的采样算法匹配方法、装置和电子设备

Country Status (1)

Country Link
CN (1) CN112819079A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113537510A (zh) * 2021-07-13 2021-10-22 中国工商银行股份有限公司 基于不均衡数据集的机器学习模型数据处理方法及装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113537510A (zh) * 2021-07-13 2021-10-22 中国工商银行股份有限公司 基于不均衡数据集的机器学习模型数据处理方法及装置

Similar Documents

Publication Publication Date Title
CN110766080B (zh) 一种标注样本确定方法、装置、设备及存储介质
CN108197652B (zh) 用于生成信息的方法和装置
CN112559800B (zh) 用于处理视频的方法、装置、电子设备、介质和产品
CN113067653B (zh) 一种频谱感知方法、装置、电子设备及介质
EP3671441A1 (en) Application management method and apparatus, storage medium, and electronic device
CN113962965B (zh) 图像质量评价方法、装置、设备以及存储介质
CN116108393B (zh) 电力敏感数据分类分级方法、装置、存储介质及电子设备
CN111310918B (zh) 一种数据处理方法、装置、计算机设备及存储介质
CN112818888A (zh) 视频审核模型训练方法、视频审核方法及相关装置
CN111062440A (zh) 一种样本选择方法、装置、设备及存储介质
CN113140012B (zh) 图像处理方法、装置、介质及电子设备
CN111538852A (zh) 多媒体资源处理方法、装置、存储介质及设备
CN112819079A (zh) 模型的采样算法匹配方法、装置和电子设备
CN112241761A (zh) 模型训练方法、装置和电子设备
WO2024031332A1 (zh) 基于机器学习的股票趋势分析方法、装置
CN111222558A (zh) 图像处理方法及存储介质
KR20230165085A (ko) 멀티 모달 특징 벡터 사이의 정렬 정도를 정량적으로 평가하는 방법 및 시스템
CN112966272B (zh) 一种基于对抗式网络的物联网Android恶意软件检测方法
CN112182382B (zh) 数据处理方法、电子设备及介质
CN114519520A (zh) 模型评估方法、装置及存储介质
CN116467153A (zh) 数据处理方法、装置、计算机设备及存储介质
CN111835541B (zh) 一种流量识别模型老化检测方法、装置、设备及***
CN113762382B (zh) 模型的训练及场景识别方法、装置、设备及介质
WO2024051364A1 (zh) 活体检测模型训练方法、装置、存储介质以及终端
CN110728615B (zh) 基于序贯假设检验的隐写分析方法、终端设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination