CN110298379A - 评估模型选择方法、装置、计算机设备及存储介质 - Google Patents

评估模型选择方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN110298379A
CN110298379A CN201910432714.2A CN201910432714A CN110298379A CN 110298379 A CN110298379 A CN 110298379A CN 201910432714 A CN201910432714 A CN 201910432714A CN 110298379 A CN110298379 A CN 110298379A
Authority
CN
China
Prior art keywords
test
model
assessed
assessment models
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910432714.2A
Other languages
English (en)
Inventor
韩磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Life Insurance Company of China Ltd
Original Assignee
Ping An Life Insurance Company of China Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Life Insurance Company of China Ltd filed Critical Ping An Life Insurance Company of China Ltd
Priority to CN201910432714.2A priority Critical patent/CN110298379A/zh
Publication of CN110298379A publication Critical patent/CN110298379A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种评估模型选择方法、装置、计算机设备及存储介质,其方法包括:将训练样本分批次输入评估模型进行训练;根据预设规则从分批次训练后的评估模型中选择需要进行第一测试的评估模型,并标记为待评估模型;将第一预设数量的第一测试样本分别输入各个所述待评估模型中,进行所述第一测试,并获得第一测试结果,计算各个待评估模型的第一准确率;在所述评估模型完成训练后,选取指定个数的优选评估模型,进行第二测试,计算各个优选评估模型的第二准确率;根据第二准确率选取最优评估模型。本发明可以较快地从多个训练评估模型中选取最优评估模型。

Description

评估模型选择方法、装置、计算机设备及存储介质
技术领域
本发明涉及机器学习领域,尤其涉及一种评估模型选择方法、装置、计算机设备及存储介质。
背景技术
机器学习模型在越来越多的场景中得到应用,如人脸识别、数据分类、自动评分等。以数据分类为例,不同的分类模型对相同的数据进行处理,其分类结果的准确率存在差异。因而选择适当的机器学习模型,可以有效地提高数据分类的准确率。然而,对于一些海量数据,在评估模型的过程中会产生大量的模型,在确定最优评估模型时,需要对这些评估模型进行测试。然而,按照现有的测试方式,如果使用大批量的测试样本进行测试,其评估效果虽然很好,但需要耗费大量时间,效率不高;而采用小批量测试样本进行测试,其处理效率较高,但其评估效果较差,无法客观反映出评估模型真实预测质量。
发明内容
基于此,有必要针对上述技术问题,提供一种评估模型选择方法、装置、计算机设备及存储介质,以快速地从多个评估模型中选取最优的评估模型。
一种评估模型选择方法,包括:
将训练样本分批次输入评估模型进行训练;
根据预设规则从分批次训练后的评估模型中选择需要进行第一测试的评估模型,并标记为待评估模型;
将第一预设数量的第一测试样本分别输入各个所述待评估模型中,进行第一测试,并获得各个所述待评估模型输出的第一测试结果,根据各个所述待评估模型的第一测试结果分别计算其第一准确率;
在所述评估模型完成训练后,根据所述第一准确率从所有所述待评估模型中选取指定个数的优选评估模型,所述优选评估模型的第一准确率不低于未被选取的待评估模型;
将第二预设数量的第二测试样本分别输入各个所述优选评估模型进行第二测试,获得各个所述优选评估模型的第二测试结果,并根据各个所述优选评估模型的第二测试结果分别计算其第二准确率,所述第二预设数量至少比所述第一预设数量大一个数量级;
根据所述第二准确率从所述指定个数的所述优选评估模型中选取最优评估模型。
一种评估模型选择装置,包括:
一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述评估模型选择方法。
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述评估模型选择方法。
上述评估模型选择方法、装置、计算机设备及存储介质,其方法通过将训练样本分批次输入评估模型进行训练;根据预设规则从分批次训练后的评估模型中选择需要进行第一测试的评估模型,并标记为待评估模型;将第一预设数量的第一测试样本分别输入各个所述待评估模型中,进行所述第一测试,并获得各个所述待评估模型输出的第一测试结果,根据各个所述待评估模型的第一测试结果分别计算其第一准确率;在所述评估模型完成训练后,根据所述第一准确率从所有所述待评估模型中选取指定个数的优选评估模型,所述优选评估模型的第一准确率不低于未被选取的模型;将第二预设数量的第二测试样本分别输入各个所述优选评估模型进行第二测试,获得各个所述优选评估模型的第二测试结果,并根据各个所述优选评估模型的第二测试结果分别计算其第二准确率,所述第二预设数量至少比所述第一预设数量大一个数量级;根据所述第二准确率从所述指定个数的所述优选评估模型中选取最优评估模型。本发明先采用小批量的第一测试样本对评估模型进行评估,再用大批量的第二测试样对评估模型进行评估,可以较快地从多个训练评估模型中选取最优评估模型。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例中评估模型选择方法的一应用环境示意图;
图2是本发明一实施例中评估模型选择方法的一流程示意图;
图3是本发明一实施例中评估模型选择方法的一流程示意图;
图4是本发明一实施例中评估模型选择方法的一流程示意图;
图5是本发明一实施例中评估模型选择方法的一流程示意图;
图6是本发明一实施例中评估模型选择方法的一流程示意图;
图7是本发明一实施例中评估模型选择装置的一结构示意图;
图8是本发明一实施例中评估模型选择装置的一结构示意图;
图9是本发明一实施例中评估模型选择装置的一结构示意图;
图10是本发明一实施例中计算机设备的一示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本实施例提供的评估模型选择方法,可应用在如图1的应用环境中,其中,客户端通过网络与服务端进行通信。其中,客户端包括但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务端可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一实施例中,如图2所示,提供一种评估模型选择方法,以该方法应用在图1中的服务端为例进行说明,包括如下步骤:
S10、将训练样本分批次输入评估模型进行训练。
在此处,评估模型由大量的训练样本训练获得。可以按批次对训练样本进行训练,如可以规定每100个训练样本为一个批次。评估模型可以使用机器学习算法,如RNN算法(循环神经网络),CNN算法(卷积神经网络)和Attention model(注意力模型)等。
每一批次的训练样本输入评估模型进行训练后,都可以获得一个新的评估模型,如第100批次的评估模型,其为经100批次的训练样本训练后获得的评估模型;第101批次的评估模型,其为经101批次的训练样本训练后获得的评估模型。以此类推。在训练的过程中会产生大量的评估模型。
在一实例中,训练样本可以来源于客服人员与客户的对话内容,如采用文本格式记录的对话数据。在评价服务质量时,需要对客服人员的应答内容进行审核,防止或减少违规情况,并对产生违规的客服人员采取一定的惩罚措施。由于每天会产生大量的客服人员与客户的对话内容,待处理的训练样本往往可达百万级或者更多。每个训练样本包含了至少一个的类别标签,该类别标签可以用于标注该训练样本的违规情况。违规情况可以包括:未违规;第一违规原因、第二违规原因等。
在一实例中,一训练样本可为以文本形式记录的对话记录,如“张XX,你是不是蠢”,该训练样本的类别标签为A。类别标签A属于违规信息,用于标记违反规定,辱骂客户的数据。又如“你好,我们这保险和贷款可以一起办理”,该训练样本的类别标签为B。类别标签B属于违规信息,用于标记误导客户的数据。
S20、根据预设规则从分批次训练后的评估模型中选择需要进行第一测试的评估模型,并标记为待评估模型。
本实施例中,预设规则可以根据实际需要确定,如可以规定所有批次为待测试批次,也可以规定每隔一定数量的批次作为待测试批次。换句话讲,待测试批次可以包括:第1批次、第2批次、……第y批次(y为训练样本的总批次);也可以仅包括:第100批次、第105批次、第110批次……第y批次。
为了便于描述,可以将待测试批次训练获得的评估模型标记为待评估模型。如第100批次的待评估模型,指的是使用前100批次的训练样本训练获得的评估模型,而第2000批次的待评估模型,指的是使用前2000批次的训练样本训练获得的评估模型。值得注意的是,在此处,评估模型使用训练样本不断地进行训练,每一批次训练后,获得该批次的评估模型,可以保存该批次的评估模型的参数,并继续训练(若该批次为最后一批,则停止训练)。
S30、将第一预设数量的第一测试样本分别输入各个所述待评估模型中,进行所述第一测试,并获得各个所述待评估模型输出的第一测试结果,根据各个所述待评估模型的第一测试结果分别计算其第一准确率。
可以对待评估模型进行第一测试。第一测试中,被测试的评估模型为待评估模型,所使用的测试样本为第一预设数量的第一测试样本。若存在非待评估模型(指的不是待测试批次所产生的评估模型),则不对非待评估模型进行第一测试。这样可以减少进行第一测试的次数。
测试待评估模型的测试样本采用了第一预设数量的第一测试样本。第一测试样本是独立于训练样本的测试样本,可以不从训练样本中选取,每个第一测试样本与至少一个的类别标签对应。第一预设数量可以根据实际需要进行确定,如,第一预设数量可以是1000-10000。
每对待评估模型进行一次第一测试,都可得到一个第一测试结果。每个第一测试结果对应一个第一准确率。第n批次(该批次为待测试批数)训练获得的待评估模型的第一准确率可以用于评估该批次待评估模型的预测准确性。
S40、在所述评估模型完成训练后,根据所述第一准确率从所有所述待评估模型中选取指定个数的优选评估模型,所述优选评估模型的第一准确率不低于未被选取的模型。
在此处,指定个数可以根据实际情况进行确定。如,指定个数可以设置为5~15个。经步骤S20的处理,可以得到多个待评估模型的第一准确率。可以从这些计算出第一准确率的待评估模型中选取第一准确率较高的待评估模型。
例如,经第一预设数量的测试样本测试过的待评估模型包括:待评估模型1、待评估模型2、待评估模型3、……待评估模型100,按第一准确率从高到低进行排序后的评估模型为:待评估模型92(此处的序号指的是待评估模型的序号,而非该待评估模型的训练批次)、待评估模型86、待评估模型99、待评估模型65、待评估模型58、待评估模型94、待评估模型91、待评估模型88、待评估模型22、待评估模型18、待评估模型76、待评估模型34……。若指定个数设置为10,则被选取的优选评估模型为:优选评估模型1(即原来的待评估模型92)、优选评估模型2(即原来的待评估模型86)、优选评估模型3(即原来的待评估模型99)、优选评估模型4(即原来的待评估模型65)、优选评估模型5(即原来的待评估模型58)、优选评估模型6(即原来的待评估模型94)、优选评估模型7(即原来的待评估模型91)、优选评估模型8(即原来的待评估模型88)、优选评估模型9(即原来的待评估模型22)、优选评估模型10(即原来的待评估模型18)。
S50、将第二预设数量的第二测试样本分别输入各个所述优选评估模型进行第二测试,获得各个所述优选评估模型的第二测试结果,并根据各个所述优选评估模型的第二测试结果分别计算其第二准确率,所述第二预设数量至少比所述第一预设数量大一个数量级。
本实施例中,可以继续对被选取的优选评估模型作进一步的评估。在此处使用的比第一预设数量大一个数量级的第二预设数量的第二测试样本。数量级是指数量的尺度或大小的级别,每个级别之间保持固定的比例。在这里,数量级每个级别之间的比例可以设置为10或其他数值。换句话讲,第二预设数量至少比第一预设数量大10倍。例如,第一预设数量为10000,第二预设数量为300000,第二预设数量比第一预设数量大30倍。在一些情况下,可以根据优选评估模型的处理速度确定数量级的级别。第二测试样本可以选取与第一测试样本不同的样本,每个第二测试样本与至少一个的类别标签对应。例如,可以从样本来源获取的所有样本中,选取一部分的样本作为第一测试样本;从未被选取为第一测试样本的样本中选取另一部分的样本作为第二测试样本;再从未被选取为第一测试样本或第二测试样本的样本中选取第三部分的样本(可以是余下的所有样本)作为训练样本。一般情况下,训练样本、第一测试样本、第二测试样本按数量从多到少的排序为:训练样本>第二测试样本>第一测试样本。
对每个优选评估模型进行一次第二测试,可得到相应的一个第二测试结果。每个第二测试结果对应一个第二准确率。第m个(此处m为不大于指定个数的正整数)优选评估模型的第二准确率可以用于评估该优选评估模型的预测准确性。
S60、根据所述第二准确率从所述指定个数的所述优选评估模型中选取最优评估模型。
本实施例中,可以依据第二准确率从优选评估模型中选取最优评估模型。由于第二准确率是经较大批量的测试样本测试得出的,其评估的准确性更高。通常情况下,可从所有的优选评估模型中选取第二准确率最高的优选评估模型作为最优评估模型。若存在两个或两个以上第二准确率最高,可以将所有第二准确率最高的优选评估模型确定为最优评估模型,也可以从中选取一个作为最优评估模型。换句话讲,最优评估模型可以是一个或多个。在一些情况下,最优评估模型的第二准确率不低于未被选取的优选评估模型。
在另一种情况下,也可以设置一个阈值,只要第二准确率大于该阈值的优选评估模型,即可以被确定为最优评估模型。
步骤S10-S60中,将训练样本分批次输入评估模型进行训练,每个批次的训练样本训练后,都可获得相应批次的评估模型。根据预设规则从分批次训练后的评估模型中选择需要进行第一测试的评估模型,并标记为待评估模型,以获得需要评估的评估模型。将第一预设数量的第一测试样本分别输入各个所述待评估模型中,进行第一测试,并获得各个所述待评估模型输出的第一测试结果,根据各个所述待评估模型的第一测试结果分别计算其第一准确率,以获得所有待评估模型的第一次测试结果。在所述评估模型完成训练后,根据所述第一准确率从所有所述待评估模型中选取指定个数的优选评估模型,所述优选评估模型的第一准确率不低于未被选取的待评估模型,以对所有待评估模型进行第一次筛选,获得第一次筛选后的优选评估模型。将第二预设数量的第二测试样本分别输入各个所述优选评估模型进行第二测试,获得各个所述优选评估模型的第二测试结果,并根据各个所述优选评估模型的第二测试结果分别计算其第二准确率,所述第二预设数量至少比所述第一预设数量大一个数量级,以获得第二测试的评估结果(即各个优选评估模型的第二准确率)。根据所述第二准确率从所述指定个数的所述优选评估模型中选取最优评估模型,以获得最优评估模型(即对样本的预测正确率最佳)。
可选的,如图3所示,步骤S60之后,还包括:
S70、获取待评估样本;
S80、将所述待评估样本输入所述最优评估模型中,获取所述最优评估模型输出的评估结果。
本实施例中,可以使用最优评估模型对待评估样本进行评估。在此处,待评估样本指的是未添加类别标签的样本。最优评估模型可以对待评估样本进行处理,并计算出该待评估样本的评估结果,该评估结果包括该待评估样本的类别标签。这样,可以实现对未分类的样本自动添加类别标签,同时保证分类的准确性。
步骤S70-S80中,获取待评估样本,以获得需要获得评估结果的待评估样本。将所述待评估样本输入所述最优评估模型中,获取所述最优评估模型输出的评估结果,以得到待评估样本的评估结果,由于采用了正确率更高的最优评估模型,评估结果的准确性更高。
可选的,如图4所示,步骤S10之前包括:
S101、获取训练样本的总数量、迭代次数以及每批次的设置数量。
在此处,训练样本的总数量指的是所有需要训练的训练样本的数量。在一实例中,训练样本的总数量为100万。迭代次数为每个训练样本重复输入评估模型的次数。在一实例中,迭代次数可设置为150次。每批次的设置数量指的是每一批次输入评估模型的训练样本的个数,如每一批次的设置数量可以为100。
S102、根据所述训练样本的总数量、迭代次数以及每批次的设置数量计算训练的总批次,所述总批次根据所述训练样本的总数量与迭代次数的乘积除以每批次的设置数量计算出。
本实施例中,总批次指的是完成整个评估模型训练过程所需要的批次的数量。在一些情况下,一个批次的训练过程可以记为一步,若一个评估模型需要训练的总批次为10000,也可以表示为该评估模型需要训练10000步。
训练样本的总数量用字母s表示,迭代次数用字母t表示,每批次的设置数量用字母w表示,总批次用y表示,则总批次可用以下式子计算:
步骤S101-S102中,获取训练样本的总数量、迭代次数以及每批次的设置数量,以获得计算总批次的参数。根据所述训练样本的总数量、迭代次数以及每批次的设置数量计算训练的总批次,所述总批次根据所述训练样本的总数量与迭代次数的乘积除以每批次的设置数量计算出,以确定评估模型训练的总批次。
可选的,如图5所示,步骤S30包括:
S301、将所述第一预设数量的第一测试样本分别输入各个所述待评估模型进行第一测试,获得各个所述待评估模型输出的第一测试结果,所述第一测试样本与至少一个的类别标签对应,所述第一测试结果包括所述第一测试样本的评估模型输出类别标签;
S302、获取预设匹配规则,并根据所述预设匹配规则判断所述第一测试样本的评估模型输出类别标签是否与该第一测试样本的类别标签匹配;
S303、统计各个所述待评估模型输出的所述第一测试样本的评估模型输出类别标签与该第一测试样本的类别标签匹配的第一匹配个数;
S304、根据各个所述待评估模型的第一匹配个数和所述第一预设数量计算各个所述待评估模型对应的第一准确率。
本实施例中,每进行一次第一测试,都可获得一个第一测试结果。第一预设数量的第一测试样本可以表示为:
{第一测试样本a1,类别标签e1
第一测试样本a2,类别标签e2
第一测试样本a3,类别标签e3
……
第一测试样本aj,类别标签ej}。
其中,j为第一预设数量。
经待评估模型处理后,可获得的第一测试结果如下:
{第一测试样本a1,评估模型输出类别标签f1
第一测试样本a2,评估模型输出类别标签f2
第一测试样本a3,评估模型输出类别标签f3
……
第一测试样本aj,评估模型输出类别标签fj}。
在此处,预设匹配规则可以根据实际情况进行确定。如可以规定同一个第一测试样本的类别标签与待评估模型输出类别标签完全相同,才认为这两个类别标签是匹配的;也可以规定同一个第一测试样本的类别标签与待评估模型输出类别标签存在相同的标签,则判定这两个类别标签是匹配的。
统计各个待评估模型的第一测试样本的评估模型输出类别标签与该第一测试样本的类别标签匹配的第一匹配个数,然后根据各个待评估模型的第一匹配个数和第一预设数量计算对应的第一准确率。在一待评估模型中,第一准确率用字母λ1表示,第一预设数量用j表示,第一匹配个数用k表示,则第一准确率可由如下式子计算:
步骤S301-S304,将所述第一预设数量的第一测试样本分别输入各个所述待评估模型进行第一测试,获得各个所述待评估模型输出的第一测试结果,所述第一测试样本与至少一个的类别标签对应,所述第一测试结果包括所述第一测试样本的评估模型输出类别标签,以获得第一测试样本的第一测试结果。获取预设匹配规则,并根据所述预设匹配规则判断所述第一测试样本的评估模型输出类别标签是否与该第一测试样本的类别标签匹配,可以根据实际需要,调整预设匹配规则,以判断第一测试样本的第一测试结果与原有的类别标签是否匹配。统计各个所述待评估模型输出的所述第一测试样本的评估模型输出类别标签与该第一测试样本的类别标签匹配的第一匹配个数;根据各个所述待评估模型的第一匹配个数和所述第一预设数量计算各个所述待评估模型对应的第一准确率,以计算出各个待评估模型进行第一测试后获得的第一测试结果的准确率(即第一准确率)。
可选的,如图6所示,步骤S20包括:
S21、获取第一测试数量;
S22、根据所述总批次和所述第一测试数量确定第一测试批次以及第一测试批次后的间隔测试批次数;
S23、根据所述第一测试批次以及第一测试批次后的间隔测试批次数确定待测试批次;
S24、将待测试批次训练后的评估模型标记为待评估模型。
本实施例中,可以预先确定好第一测试数量。第一测试数量可以指进行第一测试的数量。如,第一测试数量可以设置为100。
待测试批次指的是使用第一测试样本进行第一测试的评估模型的所在批次。例如,第一次进行第一测试的评估模型为第3070批次训练样本训练获得的评估模型,则待测试批次包括第3070批次。若总批次为10000,第一测试数量为100,第一次第一测试的批次为第3070批次,第一次第一测试后每隔70个批次进行一次第一测试。则待测试批次包括:第3070批次、第3140批次、第3210批次、……、第10000批次(共100个)。在一些情况下,间隔测试批次数可以是一个自行设定的集合,如间隔测试批次数可以表示为{100,200,500,800,1200,1700,……}。则待测试批次包括:第3070批次、第3170批次、第3270批次、第3570批次、第3870批次、第4270批次、第4770批次、……。
在确定待测试批次之后,可以选取经待测试批次的训练样本训练后的评估模型作为待评估模型。这样,待评估模型的个数即为第一测试数量。需要注意的是,经待测试批次的训练样本训练后的评估模型,并不是指仅使用序号为待测试批次的训练样本训练获得的评估模型,而是指在模型不断迭代训练过程中,输入待测试批次的训练样本后训练获得的评估模型。换句话讲,经待测试批次的训练样本训练后的评估模型,其使用的训练样本包括了待测试批次的训练样本以及之前批次的所有训练样本。
步骤S21-S24中,获取第一测试数量,以确定进行第一测试的次数。根据所述总批次和所述第一测试数量确定第一测试批次以及第一测试批次后的间隔测试批次数,以从所有批次中选取进行第一测试的批次。根据所述第一测试批次以及第一测试批次后的间隔测试批次数确定待测试批次,将被选取进行第一测试的批次确定为待测试批次。将待测试批次训练后的评估模型标记为待评估模型,以获取需要测试的待评估模型。
可选的,如图7所示,步骤S50包括:
S501、将所述第二预设数量的第二测试样本分别输入各个所述优选评估模型进行第二测试,获得各个所述优选评估模型输出的第二测试结果,所述第二测试样本与至少一个的类别标签对应,所述第二测试结果包括所述第二测试样本的评估模型输出类别标签;
S502、根据所述预设匹配规则判断所述第二测试样本的评估模型输出类别标签是否与该第二测试样本的类别标签匹配;
S503、统计各个所述优选评估模型输出的所述第二测试样本的评估模型输出类别标签与该第二测试样本的类别标签匹配的第二匹配个数;
S504、根据各个所述优选评估模型输出的所述第二匹配个数和所述第二预设数量计算各个所述优选评估模型的第二准确率。
本实施例中,对每个优选评估模型进行一次第二测试,可得到相应的一个第二测试结果。第二测试样本可以表示为:
{第二测试样本c1,类别标签f1
第二测试样本c2,类别标签f2
第二测试样本c3,类别标签f3
……
第二测试样本cr,类别标签fr}。
其中,r为第二预设数量。
经优选评估模型处理后,可获得的第二测试结果如下:
{第二测试样本c1,评估模型输出类别标签f1
第二测试样本c2,评估模型输出类别标签f2
第二测试样本c3,评估模型输出类别标签f3
……
第二测试样本cr,评估模型输出类别标签fr}。
在此处,处理第二测试样本的预设匹配规则与处理第一测试样本的预设匹配规则相同。
统计第二测试样本的评估模型输出类别标签与该第二测试样本的类别标签匹配的第二匹配个数,然后根据第二匹配个数和第二预设数量计算第二准确率。第二准确率用字母λ2表示,第二预设数量用r表示,第二匹配个数用p表示,则第二准确率可由如下式子计算:
步骤S501-S504中,将所述第二预设数量的第二测试样本分别输入各个所述优选评估模型进行第二测试,获得各个所述优选评估模型输出的第二测试结果,所述第二测试样本与至少一个的类别标签对应,所述第二测试结果包括所述第二测试样本的评估模型输出类别标签,以获得第二测试样本的第二测试结果。根据所述预设匹配规则判断所述第二测试样本的评估模型输出类别标签是否与该第二测试样本的类别标签匹配,以判断第二测试样本的第二测试结果与原有的类别标签是否匹配。统计各个所述优选评估模型输出的所述第二测试样本的评估模型输出类别标签与该第二测试样本的类别标签匹配的第二匹配个数;根据各个所述优选评估模型输出的所述第二匹配个数和所述第二预设数量计算各个所述优选评估模型的第二准确率,以计算出各个优选评估模型进行第二测试后获得的第二测试结果的准确率(即第二准确率)。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
在一实施例中,提供一种评估模型选择装置,该评估模型选择装置与上述实施例中评估模型选择方法一一对应。如图8所示,该评估模型选择装置包括训练模块10、选取待评估模型模块20、第一测试模块30、第一选取模块40、第二测试模块50和第二选取模块60。各功能模块详细说明如下:
训练模块10,用于将训练样本分批次输入评估模型进行训练;
选取待评估模型模块20,用于根据预设规则从分批次训练后的评估模型中选择需要进行第一测试的评估模型,并标记为待评估模型;
第一测试模块30,用于将第一预设数量的第一测试样本分别输入各个所述待评估模型中,进行第一测试,并获得各个所述待评估模型输出的第一测试结果,根据各个所述待评估模型的第一测试结果分别计算其第一准确率;
第一选取模块40,用于在所述评估模型完成训练后,根据所述第一准确率从所有所述待评估模型中选取指定个数的优选评估模型,所述优选评估模型的第一准确率不低于未被选取的待评估模型;
第二测试模块50,用于将第二预设数量的第二测试样本分别输入各个所述优选评估模型进行第二测试,获得各个所述优选评估模型的第二测试结果,并根据各个所述优选评估模型的第二测试结果分别计算其第二准确率,所述第二预设数量至少比所述第一预设数量大一个数量级;
第二选取模块60,用于根据所述第二准确率从所述指定个数的所述优选评估模型中选取最优评估模型。
可选的,如图9所示,评估模型选择装置还包括:
获取样本模块70,用于获取待评估样本;
评估模块80,用于将所述待评估样本输入所述最优评估模型中,获取所述最优评估模型输出的评估结果。
可选的,评估模型选择装置还包括总批次计算模块,所述总批次计算模块包括:
获取单元,用于获取训练样本的总数量、迭代次数以及每批次的设置数量;
计算单元,用于根据所述训练样本的总数量、迭代次数以及每批次的设置数量计算训练的总批次,所述总批次根据所述训练样本的总数量与迭代次数的乘积除以每批次的设置数量计算出。
可选的,第一测试模块30包括:
第一测试单元,用于将所述第一预设数量的第一测试样本分别输入各个所述待评估模型进行第一测试,获得各个所述待评估模型输出的第一测试结果,所述第一测试样本与至少一个的类别标签对应,所述第一测试结果包括所述第一测试样本的评估模型输出类别标签;
第一匹配单元,用于获取预设匹配规则,并根据所述预设匹配规则判断所述第一测试样本的评估模型输出类别标签是否与该第一测试样本的类别标签匹配;
第一统计单元,用于统计各个所述待评估模型输出的所述第一测试样本的评估模型输出类别标签与该第一测试样本的类别标签匹配的第一匹配个数;
第一准确率单元,用于根据各个所述待评估模型的第一匹配个数和所述第一预设数量计算各个所述待评估模型对应的第一准确率。
可选的,选取待评估模型模块20包括:
获取数量单元,用于获取第一测试数量;
选择批次单元,用于根据所述总批次和所述第一测试数量确定第一测试批次以及第一测试批次后的间隔测试批次数;
确定批次单元,用于根据所述第一测试批次以及第一测试批次后的间隔测试批次数确定待测试批次;
标记单元,用于将待测试批次训练后的评估模型标记为待评估模型。
可选的,第二测试模块50包括:
第二测试单元,用于将所述第二预设数量的第二测试样本分别输入各个所述优选评估模型进行第二测试,获得各个所述优选评估模型输出的第二测试结果,所述第二测试样本与至少一个的类别标签对应,所述第二测试结果包括所述第二测试样本的评估模型输出类别标签;
第二匹配单元,用于根据所述预设匹配规则判断所述第二测试样本的评估模型输出类别标签是否与该第二测试样本的类别标签匹配;
第二统计单元,用于统计各个所述优选评估模型输出的所述第二测试样本的评估模型输出类别标签与该第二测试样本的类别标签匹配的第二匹配个数;
第二准确率单元,用于根据各个所述优选评估模型输出的所述第二匹配个数和所述第二预设数量计算各个所述优选评估模型的第二准确率。
关于评估模型选择装置的具体限定可以参见上文中对于评估模型选择方法的限定,在此不再赘述。上述评估模型选择装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图10所示。该计算机设备包括通过***总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***、计算机程序和数据库。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的数据库用于存储评估模型选择方法所涉及的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种评估模型选择方法。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:
将训练样本分批次输入评估模型进行训练;
根据预设规则从分批次训练后的评估模型中选择需要进行第一测试的评估模型,并标记为待评估模型;
将第一预设数量的第一测试样本分别输入各个所述待评估模型中,进行第一测试,并获得各个所述待评估模型输出的第一测试结果,根据各个所述待评估模型的第一测试结果分别计算其第一准确率;
在所述评估模型完成训练后,根据所述第一准确率从所有所述待评估模型中选取指定个数的优选评估模型,所述优选评估模型的第一准确率不低于未被选取的待评估模型;
将第二预设数量的第二测试样本分别输入各个所述优选评估模型进行第二测试,获得各个所述优选评估模型的第二测试结果,并根据各个所述优选评估模型的第二测试结果分别计算其第二准确率,所述第二预设数量至少比所述第一预设数量大一个数量级;
根据所述第二准确率从所述指定个数的所述优选评估模型中选取最优评估模型。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
将训练样本分批次输入评估模型进行训练;
根据预设规则从分批次训练后的评估模型中选择需要进行第一测试的评估模型,并标记为待评估模型;
将第一预设数量的第一测试样本分别输入各个所述待评估模型中,进行第一测试,并获得各个所述待评估模型输出的第一测试结果,根据各个所述待评估模型的第一测试结果分别计算其第一准确率;
在所述评估模型完成训练后,根据所述第一准确率从所有所述待评估模型中选取指定个数的优选评估模型,所述优选评估模型的第一准确率不低于未被选取的待评估模型;
将第二预设数量的第二测试样本分别输入各个所述优选评估模型进行第二测试,获得各个所述优选评估模型的第二测试结果,并根据各个所述优选评估模型的第二测试结果分别计算其第二准确率,所述第二预设数量至少比所述第一预设数量大一个数量级;
根据所述第二准确率从所述指定个数的所述优选评估模型中选取最优评估模型。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。

Claims (10)

1.一种评估模型选择方法,其特征在于,包括:
将训练样本分批次输入评估模型进行训练;
根据预设规则从分批次训练后的评估模型中选择需要进行第一测试的评估模型,并标记为待评估模型;
将第一预设数量的第一测试样本分别输入各个所述待评估模型中,进行第一测试,并获得各个所述待评估模型输出的第一测试结果,根据各个所述待评估模型的第一测试结果分别计算其第一准确率;
在所述评估模型完成训练后,根据所述第一准确率从所有所述待评估模型中选取指定个数的优选评估模型,所述优选评估模型的第一准确率不低于未被选取的待评估模型;
将第二预设数量的第二测试样本分别输入各个所述优选评估模型进行第二测试,获得各个所述优选评估模型的第二测试结果,并根据各个所述优选评估模型的第二测试结果分别计算其第二准确率,所述第二预设数量至少比所述第一预设数量大一个数量级;
根据所述第二准确率从所述指定个数的所述优选评估模型中选取最优评估模型。
2.如权利要求1所述的评估模型选择方法,其特征在于,所述根据所述第二准确率从所述指定个数的优选评估模型中选取最优评估模型之后,还包括:
获取待评估样本;
将所述待评估样本输入所述最优评估模型中,获取所述最优评估模型输出的评估结果。
3.如权利要求1所述的评估模型选择方法,其特征在于,所述将训练样本分批次输入评估模型进行训练之前包括:
获取训练样本的总数量、迭代次数以及每批次的设置数量;
根据所述训练样本的总数量、迭代次数以及每批次的设置数量计算训练的总批次,所述总批次根据所述训练样本的总数量与迭代次数的乘积除以每批次的设置数量计算出。
4.如权利要求1所述的评估模型选择方法,其特征在于,所述将第一预设数量的第一测试样本分别输入各个所述待评估模型中,进行所述第一测试,并获得各个所述待评估模型输出的第一测试结果,根据各个所述待评估模型的第一测试结果分别计算其第一准确率,包括:
将所述第一预设数量的第一测试样本分别输入各个所述待评估模型进行第一测试,获得各个所述待评估模型输出的第一测试结果,所述第一测试样本与至少一个的类别标签对应,所述第一测试结果包括所述第一测试样本的评估模型输出类别标签;
获取预设匹配规则,并根据所述预设匹配规则判断所述第一测试样本的评估模型输出类别标签是否与该第一测试样本的类别标签匹配;
统计各个所述待评估模型输出的所述第一测试样本的评估模型输出类别标签与该第一测试样本的类别标签匹配的第一匹配个数;
根据各个所述待评估模型的第一匹配个数和所述第一预设数量计算各个所述待评估模型对应的第一准确率。
5.如权利要求3所述的评估模型选择方法,其特征在于,所述根据预设规则从分批次训练后的评估模型中选择需要进行第一测试的评估模型,并标记为待评估模型,包括:
获取第一测试数量;
根据所述总批次和所述第一测试数量确定第一测试批次以及第一测试批次后的间隔测试批次数;
根据所述第一测试批次以及第一测试批次后的间隔测试批次数确定待测试批次;
将待测试批次训练后的评估模型标记为待评估模型。
6.如权利要求1所述的评估模型选择方法,其特征在于,所述将第二预设数量的第二测试样本分别输入各个所述优选评估模型进行第二测试,获得各个所述优选评估模型的第二测试结果,并根据各个所述优选评估模型的第二测试结果分别计算其第二准确率,所述第二预设数量至少比所述第一预设数量大一个数量级,包括:
将所述第二预设数量的第二测试样本分别输入各个所述优选评估模型进行第二测试,获得各个所述优选评估模型输出的第二测试结果,所述第二测试样本与至少一个的类别标签对应,所述第二测试结果包括所述第二测试样本的评估模型输出类别标签;
根据所述预设匹配规则判断所述第二测试样本的评估模型输出类别标签是否与该第二测试样本的类别标签匹配;
统计各个所述优选评估模型输出的所述第二测试样本的评估模型输出类别标签与该第二测试样本的类别标签匹配的第二匹配个数;
根据各个所述优选评估模型输出的所述第二匹配个数和所述第二预设数量计算各个所述优选评估模型的第二准确率。
7.一种评估模型选择装置,其特征在于,包括:
训练模块,用于将训练样本分批次输入评估模型进行训练;
选取待评估模型模块,用于根据预设规则从分批次训练后的评估模型中选择需要进行第一测试的评估模型,并标记为待评估模型;
第一测试模块,用于将第一预设数量的第一测试样本分别输入各个所述待评估模型中,进行第一测试,并获得各个所述待评估模型输出的第一测试结果,根据各个所述待评估模型的第一测试结果分别计算其第一准确率;
第一选取模块,用于在所述评估模型完成训练后,根据所述第一准确率从所有所述待评估模型中选取指定个数的优选评估模型,所述优选评估模型的第一准确率不低于未被选取的待评估模型;
第二测试模块,用于将第二预设数量的第二测试样本分别输入各个所述优选评估模型进行第二测试,获得各个所述优选评估模型的第二测试结果,并根据各个所述优选评估模型的第二测试结果分别计算其第二准确率,所述第二预设数量至少比所述第一预设数量大一个数量级;
第二选取模块,用于根据所述第二准确率从所述指定个数的所述优选评估模型中选取最优评估模型。
8.如权利要求7所述的评估模型选择装置,其特征在于,还包括:
获取样本模块,用于获取待评估样本;
评估模块,用于将所述待评估样本输入所述最优评估模型中,获取所述最优评估模型输出的评估结果。
9.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述评估模型选择方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述评估模型选择方法。
CN201910432714.2A 2019-05-23 2019-05-23 评估模型选择方法、装置、计算机设备及存储介质 Pending CN110298379A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910432714.2A CN110298379A (zh) 2019-05-23 2019-05-23 评估模型选择方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910432714.2A CN110298379A (zh) 2019-05-23 2019-05-23 评估模型选择方法、装置、计算机设备及存储介质

Publications (1)

Publication Number Publication Date
CN110298379A true CN110298379A (zh) 2019-10-01

Family

ID=68027144

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910432714.2A Pending CN110298379A (zh) 2019-05-23 2019-05-23 评估模型选择方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN110298379A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110516762A (zh) * 2019-10-10 2019-11-29 深圳大学 一种肌肉状态量化评定方法、装置、存储介质及智能终端
CN111144950A (zh) * 2019-12-30 2020-05-12 北京顺丰同城科技有限公司 模型筛选方法、装置、电子设备及存储介质
CN111445029A (zh) * 2020-03-30 2020-07-24 北京嘉楠捷思信息技术有限公司 模型评估方法、装置及计算机可读存储介质
CN111563067A (zh) * 2020-05-06 2020-08-21 中国银行股份有限公司 一种特征处理方法及装置
CN112749894A (zh) * 2021-01-12 2021-05-04 云南电网有限责任公司电力科学研究院 一种缺陷检测模型评价方法以及装置
CN113284141A (zh) * 2021-07-09 2021-08-20 武汉精创电子技术有限公司 用于缺陷检测的模型确定方法、装置和设备
CN113536921A (zh) * 2021-06-11 2021-10-22 五邑大学 一种电弧焊接质量评估方法、装置及存储介质
WO2022027714A1 (zh) * 2020-08-06 2022-02-10 深圳市第二人民医院(深圳市转化医学研究院) 诊断模型的诊断能力的评估方法、***、设备和存储介质
CN118010554A (zh) * 2024-04-10 2024-05-10 东莞信易电热机械有限公司 一种高温油式模温机油温评估方法及***

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110516762A (zh) * 2019-10-10 2019-11-29 深圳大学 一种肌肉状态量化评定方法、装置、存储介质及智能终端
CN110516762B (zh) * 2019-10-10 2022-11-15 深圳大学 一种肌肉状态量化评定方法、装置、存储介质及智能终端
CN111144950A (zh) * 2019-12-30 2020-05-12 北京顺丰同城科技有限公司 模型筛选方法、装置、电子设备及存储介质
CN111445029A (zh) * 2020-03-30 2020-07-24 北京嘉楠捷思信息技术有限公司 模型评估方法、装置及计算机可读存储介质
CN111563067A (zh) * 2020-05-06 2020-08-21 中国银行股份有限公司 一种特征处理方法及装置
CN111563067B (zh) * 2020-05-06 2023-04-14 中国银行股份有限公司 一种特征处理方法及装置
WO2022027714A1 (zh) * 2020-08-06 2022-02-10 深圳市第二人民医院(深圳市转化医学研究院) 诊断模型的诊断能力的评估方法、***、设备和存储介质
CN112749894A (zh) * 2021-01-12 2021-05-04 云南电网有限责任公司电力科学研究院 一种缺陷检测模型评价方法以及装置
CN113536921A (zh) * 2021-06-11 2021-10-22 五邑大学 一种电弧焊接质量评估方法、装置及存储介质
CN113536921B (zh) * 2021-06-11 2023-10-20 五邑大学 一种电弧焊接质量评估方法、装置及存储介质
CN113284141A (zh) * 2021-07-09 2021-08-20 武汉精创电子技术有限公司 用于缺陷检测的模型确定方法、装置和设备
CN118010554A (zh) * 2024-04-10 2024-05-10 东莞信易电热机械有限公司 一种高温油式模温机油温评估方法及***

Similar Documents

Publication Publication Date Title
CN110298379A (zh) 评估模型选择方法、装置、计算机设备及存储介质
WO2021109578A1 (zh) 业务运维中告警的预测方法、装置与电子设备
Minku et al. How to make best use of cross-company data for web effort estimation?
CN110472060A (zh) 题目推送方法、装置、计算机设备和存储介质
CN107945003A (zh) 信用评估方法及装置
CN109976998A (zh) 一种软件缺陷预测方法、装置和电子设备
WO2020024456A1 (zh) 一种量化交易预测方法、装置及设备
CN110969600A (zh) 一种产品缺陷检测方法、装置、电子设备及存储介质
US20190272764A1 (en) Multidimensional assessment scoring using machine learning
CN112199559B (zh) 数据特征的筛选方法、装置及计算机设备
CN109711707B (zh) 一种船舶动力装置综合状态评估方法
CN110263326A (zh) 一种用户行为预测方法、预测装置、存储介质及终端设备
CN107809766A (zh) 一种用于网络优化的机器学习样本的生成方法及装置
CN111310918B (zh) 一种数据处理方法、装置、计算机设备及存储介质
CN113537510A (zh) 基于不均衡数据集的机器学习模型数据处理方法及装置
CN101447995B (zh) 一种识别p2p数据流的方法、装置和***
CN112184089A (zh) 试题难度预测模型的训练方法、装置、设备及存储介质
CN111091460A (zh) 一种数据处理方法及装置
Krishnan et al. Social influence bias in recommender systems: a methodology for learning, analyzing, and mitigating bias in ratings
CN116029617B (zh) 质量验收表单的生成方法、装置、设备及可读存储介质
CN108986786B (zh) 语音交互设备评级方法、***、计算机设备和存储介质
Sinitsyn et al. Mathematical models of learning analytics for massive open online courses
CN109634854A (zh) 一种检测软件工程算法组态异常的方法
CN112634268B (zh) 一种视频质量评价方法、装置及电子设备
CN113239272B (zh) 一种网络管控***的意图预测方法和意图预测装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20191001