CN115859065A

CN115859065A - 模型评测方法、装置、设备及存储介质

Info

Publication number: CN115859065A
Application number: CN202210612859.2A
Authority: CN
Inventors: 贾敬伍; 蒋宁; 周长安
Original assignee: Beijing Zhongguancun Kejin Technology Co Ltd
Current assignee: Beijing Zhongguancun Kejin Technology Co Ltd
Priority date: 2022-05-31
Filing date: 2022-05-31
Publication date: 2023-03-28

Abstract

本发明公开了一种模型评测方法、装置、设备及存储介质。该方法包括：获取测试语句及对应的原始意图，并将所述测试语句输入待测模型，得到所述待测模型输出的第一预测意图，以根据所述第一预测意图获得第一评测结果；在所述第一评测结果不满足预设条件的情况下，根据所述原始意图和所述第一预测意图、在所述测试语句中确定负例语句；获取所述待测模型的训练语句，并根据所述训练语句和所述负例语句确定目标语句；根据所述目标语句更新所述测试语句；将所述更新后的测试语句输入所述待测模型，得到所述待测模型输出的第二预测意图，以根据所述第二预测意图获得第二评测结果。本发明可实现评测结果的自动修正，提高模型评测的准确性。

Description

模型评测方法、装置、设备及存储介质

技术领域

本发明涉及人工智能技术领域，尤其涉及一种模型评测方法、装置、设备及存储介质。

背景技术

意图识别也可以称为意图检测(intent detection)，其是通过分类的办法将句子划分到相应的种类中，属于多元分类问题。在意图识别任务中，通常会利用机器学习的方式构建出分类模型，然后再由测试人员模拟真实场景的用户语句(即测试数据)进行模型测试，并依据测试结果决定模型能否上线。由于测试人员在测试过程中带有一定的主观性，其编写的测试语句，可能导致评测结果相较于实际效果偏差过大，评测结果准确性较差。

发明内容

本发明的主要目的在于提供一种模型评测方法、装置、设备及存储介质，旨在解决现有的模型评测方法准确性较差的问题。

为实现上述目的，本发明提供一种模型评测方法，所述模型评测方法包括：

获取测试语句及对应的原始意图，并将所述测试语句输入待测模型，得到所述待测模型输出的第一预测意图，以根据所述第一预测意图获得第一评测结果；

在所述第一评测结果不满足预设条件的情况下，根据所述原始意图和所述第一预测意图、在所述测试语句中确定负例语句；

获取所述待测模型的训练语句，并根据所述训练语句和所述负例语句确定目标语句；

根据所述目标语句更新所述测试语句；

将所述更新后的测试语句输入所述待测模型，得到所述待测模型输出的第二预测意图，以根据所述第二预测意图获得第二评测结果。

可选地，所述根据所述原始意图和所述第一预测意图、在所述测试语句中确定负例语句的步骤，包括：

比对所述原始意图和所述第一预测意图，确定与所述原始意图不一致的负例预测意图；

根据所述负例预测意图、在所述测试语句中确定对应的负例语句。

可选地，所述目标语句包括目标剔除语句；

所述根据所述训练语句和所述负例语句确定目标语句的步骤包括：

获取所述负例语句和所述训练语句的文本相似度，并根据所述文本相似度确定最大相似度；

在所述最大相似度小于第一预设阈值的情况下，将所述负例语句确定为目标剔除语句。

可选地，所述训练语句包括第一语句和第二语句，所述第一语句和所述第二语句具有对应的语句意图，所述目标语句包括目标剔除语句；

获取所述负例语句与所述第一语句的第一文本相似度、以及所述负例语句与所述第一语句的第二文本相似度，并获取所述第一文本相似度与所述第二文本相似度的相似度差值；

在所述相似度差值小于第二预设阈值、且所述第一语句和所述第二语句的语句意图不一致情况下，将所述负例语句确定为目标剔除语句。

可选地，所述根据所述目标语句更新所述测试语句步骤，包括：

将所述目标剔除语句从所述测试语句中剔除。

可选地，所述训练语句包括第三语句，所述第三语句具有对应的语句意图，所述目标语句包括误判语句；

所述获取所述待测模型的训练语句，并根据所述训练语句和所述负例语句确定目标语句的步骤，还包括：

获取所述负例语句和所述第三语句的文本相似度；

在所述文本相似度小于第三预设阈值、且所述负例语句的原始意图和所述第三语句的语句意图不一致的情况下，确定所述负例语句为误判语句；

所述根据所述目标语句更新所述测试语句的步骤，包括：

将所述误判语句调整为正例语句，并保留所述正例语句。

此外，为实现上述目的，本发明还提供一种模型评测装置，所述模型评测装置包括：

第一评测模块，获取测试语句及对应的原始意图，并将所述测试语句输入待测模型，得到所述待测模型输出的第一预测意图，以根据所述第一预测意图获得第一评测结果；

第一确定模块，在所述第一评测结果不满足预设条件的情况下，根据所述原始意图和所述第一预测意图、在所述测试语句中确定负例语句；

第二确定模块，获取所述待测模型的训练语句，并根据所述训练语句和所述负例语句确定目标语句；

语句更新模块，根据所述目标语句更新所述测试语句；

第二评测模块，将所述更新后的测试语句输入所述待测模型，得到所述待测模型输出的第二预测意图，以根据所述第二预测意图获得第二评测结果。

此外，为实现上述目的，本发明还提供一种模型评测设备，所述模型评测设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如上所述的模型评测方法的步骤。

此外，为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上所述的模型评测方法的步骤。

本发明提供一种模型评测方法、装置、设备及存储介质，通过获取测试语句及对应的原始意图，并将所述测试语句输入待测模型，得到所述待测模型输出的第一预测意图，以根据所述第一预测意图获得第一评测结果；在所述第一评测结果不满足预设条件的情况下，根据所述原始意图和所述第一预测意图、在所述测试语句中确定负例语句；获取所述待测模型的训练语句，并根据所述训练语句和所述负例语句确定目标语句；根据所述目标语句更新所述测试语句；将所述更新后的测试语句输入所述待测模型，得到所述待测模型输出的第二预测意图，以根据所述第二预测意图获得第二评测结果。通过以上方式，本实施例在模型初次评测后，利用自动化的流程，对测试数据进行调整更新，然后利用更新后的测试数据进行二次评测，从而获得二次评测结果，实现了评测结果的自动修正，有利于提高模型评测的准确性，同时节约了评测所需的人力成本，提高了评测效率。

附图说明

图1为本发明实施例方案涉及的硬件运行环境的设备结构示意图；

图2为本发明模型评测方法第一实施例的流程示意图；

图3为本发明模型评测装置第一实施例的功能模块示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

参照图1，图1为本发明实施例方案涉及的硬件运行环境的设备结构示意图。

本发明实施例模型评测设备可以是服务器，也可以是PC(Personal Computer，个人计算机)、平板电脑、便携计算机、可移动终端等终端设备。

如图1所示，该模型评测设备可以包括：处理器1001，例如CPU，通信总线1002，用户接口1003，网络接口1004，存储器1005。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如Wi-Fi接口)。存储器1005可以是高速RAM存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解，图1中示出的模型评测设备结构并不构成对模型评测设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种计算机存储介质的存储器1005中可以包括操作***、网络通信模块、用户接口模块以及计算机程序。

在图1所示的终端中，网络接口1004主要用于连接后台服务器和/或数据哭，与后台服务器和/数据库进行数据通信；用户接口1003主要用于连接客户端，与客户端进行数据通信；而处理器1001可以用于调用存储器1005中存储的计算机程序，并执行本发明模型评测方法的各实施例。

基于上述硬件结构，提出本发明模型评测方法的各实施例。

本发明提供一种模型评测方法。

参照图2，图2为本发明模型评测方法第一实施例的流程示意图。

在本实施例中，该模型评测方法包括：

步骤S10，获取测试语句及对应的原始意图，并将所述测试语句输入待测模型，得到所述待测模型输出的第一预测意图，以根据所述预测意图获得第一评测结果；

意图识别也可以称为意图检测(intent detection)，其是通过分类的办法将句子划分到相应的种类中，属于多元分类问题。在意图识别任务中，通常会利用机器学习的方式构建出分类模型，然后再由测试人员模拟真实场景的用户语句(即测试数据)进行模型测试，并依据测试结果决定模型能否上线。由于测试人员在测试过程中带有一定的主观性，其编写的测试语句，可能导致评测结果相较于实际效果偏差过大，评测结果准确性较差。对于该问题，现有的处理方式是通过人工的方式，由专门的测试人员对测试数据进行人工修正，但这种方法成本高、效率低，且也容易受到人为主观性的影响，因此其准确性也较差。对此，本实施例提出一种模型评测方法，在模型初次评测后，利用自动化的流程，对测试数据进行调整更新，然后利用更新后的测试数据进行二次评测，从而获得二次评测结果，实现了评测结果的自动修正，有利于提高模型评测的准确性，同时节约了评测所需的人力成本，提高了评测效率。

本实施例的模型评测方法是由模型评测设备实现的，该设备可以是服务器，也可以是PC(Personal Computer，个人计算机)、平板电脑、便携计算机、可移动终端等终端设备。待测模型为意图识别模型，该模型是通过机器学习的方式构建得到分类模型。

本实施例中，首先获取测试语句及测试语句对应的原始意图。这些测试语句是由测试人员根据原始意图进行编写，也即每个测试语句会有对应的原始意图。例如原始意图为“导航”，编写的一个测试语句为“去XX大厦”。当然，测试语句也可以是通过相关模型自动生成，本实施例中不进行限制。

在获取测试语句以后，可将测试语句输入到待测模型，由待测模型对测试语句进行分析，并获得待测模型输出的预测结果。预测结果包括第一预测意图，该第一预测意图可认为是待测模型对测试语句的分类。需要说明的是，第一预测意图是与测试语句一一对应的，即每个测试语句均会有对应的第一预测意图。预测结果还可以包括预测时间，也即待测模型需要花费多长时间对测试语句进行分类。

在获得第一预测意图后，可将每个测试语句的第一预测意图与原始意图进行比对，从而确定待测模型的对该测试语句的分类是否正确。例如，根据原始意图T0编写了测试语句C0，待测模型对该测试语句输出的第一预测意图为T1，如果原始意图T0与第一预测意图T1一致，则可认为待测模型对测试语句C0的分类正确；如果原始意图T0与第一预测意图T1不一致，则可认为待测模型对测试语句C0的分类不正确。然后，可根据第一预测意图获得待测模型的第一评测结果；该第一评测结果可以包括测试语句的分类准确率，也就统计分类准确的测试语句的数量，然后用该数量与测试语句的总数的比值作为分类准确率。当然，该第一评测结果还可以包括其它的评价指标，例如平均预测时间(预测时间总时长/测试语句的总数)等。

步骤S20，在所述第一评测结果不满足预设条件的情况下，根据所述原始意图和所述第一预测意图、在所述测试语句中确定负例语句；

本实施例中，在获得第一评测结果后，可判断第一评测结果是否满足预设条件，该预设条件可以根据评测指标进行设置。具体的，当第一评测结果包括对测试语句的分类准确率的情况下，该预设条件为分类准确率大于准确率阈值；如果分类准确率小于或等于准确率阈值，则认为第一评测结果不满足预设条件，此时需要对测试情况进行进一步分析，以排查是否有可能是因为测试数据的问题而导致评测结果不准确。而如果分类准确率大于准确率阈值，则认为第一评测结果满足预设条件，此时可结束测试流程。

本实施例中，在第一评测结果不满足预设条件的情况下，将根据原始意图和第一预测意图、在测试语句中确定出负例语句(badcase)。

具体的，可以比对所述原始意图和所述第一预测意图，确定与所述原始意图不一致的负例预测意图；根据所述负例预测意图、在所述测试语句中确定对应的负例语句。

本实施例中，负例语句可根据将测试语句的原始意图和第一预测意图进行比对，如果原始意图的第一预测意图不一致，则可认为该第一预测意图为负例预测意图，该负例预测意图对应的测试语句为负例语句(也即分类不正确的测试语句)。例如，根据原始意图T0编写了测试语句C0，待测模型对该测试语句输出的第一预测意图为T1，如果原始意图T0与第一预测意图T1不一致，则可认为该第一预测意图为T1为负例预测意图，而对应的测试语句C0为负例语句。

步骤S30，获取所述待测模型的训练语句，并根据所述训练语句和所述负例语句确定目标语句；

本实施例中，还将获取待测模型的训练语句，其中该训练语句是在前期用于对待测模型进行训练的语句。可将训练语句与负例语句进行比对，并根据比对结果在负例语句中确定目标语句，其中该目标语句可认为是对模型评测产生负面影响的语句。

在一些实施中，所述目标语句包括目标剔除语句，步骤S30包括：

步骤a31，获取所述负例语句和所述训练语句的文本相似度，并根据所述文本相似度确定最大相似度；

目标语句可以包括目标剔除语句。根据负例语句和训练语句，可以计算负例语句和每一个训练语句的文本相似度，并根据文本相似度确定出最大相似度；该文本相似度可以是通过余弦相似度等方式进行表征。例如，训练语句包括第一语句C1和第二语句C2，对于负例语句C0，可计算出负例语句C0与第一语句C1的文本相似度X01、以及负例语句C0与第二语句C2的文本相似度X02；其中这些文本相似度中X02的值最大，则可将X02确定为最大相似度。

步骤a32，在所述最大相似度小于第一预设阈值的情况下，将所述负例语句确定为目标剔除语句。

在确定最大相似度后，将该最大相似度与第一预设阈值进行比较；如果该最大相似度小于第一预设阈值，则可认为负例语句C0与每个训练语句均不相似，也即该负例语句C0是非业务型语句(与业务无关)，该非业务型语句会对模型评测产生不利影响，此时可将该负例语句确定为目标剔除语句。对于该目标剔除语句，后续可从负例语句中进行剔除。

通过以上方式，可从负例语句中筛选出非业务型语句，并作为目标剔除语句，从而方便后续对负例语句(或测试语句)进行调整与更新。

在一些实施中，所述训练语句包括第一语句和第二语句，所述第一语句和所述第二语句具有对应的语句意图，所述目标语句包括目标剔除语句，步骤S30包括：

步骤a33，获取所述负例语句与所述第一语句的第一文本相似度、以及所述负例语句与所述第一语句的第二文本相似度，并获取所述第一文本相似度与所述第二文本相似度的相似度差值；

目标语句可以包括目标剔除语句。根据负例语句和训练语句，可以计算负例语句和每一个训练语句的文本相似度(可通过余弦相似度等方式表征)，然后通过两两比较的方式确定出两个文本相似度之间的相似度差值。具体的，训练语句包括第一语句C1和第二语句C2，所述第一语句和所述第二语句具有对应的语句意图；对于负例语句C0，可计算出负例语句C0与第一语句C1的文本相似度X01、以及负例语句C0与第二语句C2的文本相似度X02，然后计算得到文本相似度X01与文本相似度X02之间的相似度差值X0102。

步骤a34，在所述相似度差值小于第二预设阈值、且所述第一语句和所述第二语句的语句意图不一致情况下，将所述负例语句确定为目标剔除语句。

对于计算得到的相似度差值X0102，如果该相似度差值X0102小于第二预设阈值，且第一语句C1和第二语句C2分别对应不同语句意图(意图种类不一致)，那么可认为该负例语句C0与多个语句意图种类的匹配度相近，也即该负例语句C0是多意图型语句，该多意图型语句会对模型评测产生不利影响，此时可将该负例语句确定为目标剔除语句。对于该目标剔除语句，后续可从负例语句中进行剔除。

通过以上方式，可从负例语句中筛选出多意图型语句，并作为目标剔除语句，从而方便后续对负例语句(或测试语句)进行调整与更新。

在一些实施中，所述训练语句包括第三语句，所述第三语句具有对应的语句意图，所述目标语句包括误判语句，步骤S30包括：

步骤a35，获取所述负例语句和所述第三语句的文本相似度；

对于负例语句，有可能出现误判的情况，例如按照A意图编写的测试语句，该测试语句的原始意图为A，但实际中由于编写或者其它原因、该测试语句实际是对应了B意图，此时认为该测试语句为误判语句。针对，可以对负例语句中确定出误判语句，并进行误判调整。具体的，训练语句包括第三语句C3，所述第三语句具有对应的语句意图；对于负例语句C0，可通过文本相似度等方式计算出负例语句C0与第三语句C3的文本相似度X03。

步骤a36，在所述文本相似度小于第三预设阈值、且所述负例语句的原始意图和所述第三语句的语句意图不一致的情况下，确定所述负例语句为误判语句。

对于计算得到的文本相似度X03，如果小于第三预设阈值，且负例语句的原始意图和第三语句C3的语句意图不一致(分别对应不同意图种类)，那么可认为该负例语句C0属于误判的情况，此时可将该负例语句确定为误判语句。对于该误判语句，后续可从负例语句调整为正例语句，并保留在测试语句中，当然还可以对该误判语句的原始意图进行调整。

通过以上方式，可从负例语句中筛选出误判语句，从而方便后续对负例语句(或测试语句)进行调整与更新。

步骤S40，根据所述目标语句更新所述测试语句；

本实施例中，在确定出目标语句后，可根据目标语句对测试语句进行更新，从而得到更新后的测试语句。具体的，对于目标语句中的目标剔除语句，由于会对模型评测产生不利影响，因此可将目标剔除语句从测试语句中删除；而对于目标语句中的误判语句，则可以将其从负例语句调整为正例语句，并保留在测试语句中，当然还可以对该误判语句的原始意图进行调整。

步骤S50，将所述更新后的测试语句输入所述待测模型，得到所述待测模型输出的第二预测意图，以根据所述第二预测意图获得第二评测结果。

本实施例中，在得到更新后的的测试语句后，可将更新后的测试语句输入到待测模型，由待测模型进行分析，并获得待测模型输出的预测结果，该预测结果包括第二预测意图，然后可根据第二预测意图获得待测模型的第二评测结果，包括测试语句的分类准确率等指标。

本实施例中，通过获取测试语句及对应的原始意图，并将所述测试语句输入待测模型，得到所述待测模型输出的第一预测意图，以根据所述第一预测意图获得第一评测结果；在所述第一评测结果不满足预设条件的情况下，根据所述原始意图和所述第一预测意图、在所述测试语句中确定负例语句；获取所述待测模型的训练语句，并根据所述训练语句和所述负例语句确定目标语句；根据所述目标语句更新所述测试语句；将所述更新后的测试语句输入所述待测模型，得到所述待测模型输出的第二预测意图，以根据所述第二预测意图获得第二评测结果。通过以上方式，本实施例在模型初次评测后，利用自动化的流程，对测试数据进行调整更新，然后利用更新后的测试数据进行二次评测，从而获得二次评测结果，实现了评测结果的自动修正，有利于提高模型评测的准确性，同时节约了评测所需的人力成本，提高了评测效率。

本发明还提供一种模型评测装置。

参照图3，图3为本发明模型评测装置第一实施例的功能模块示意图。

如图3所示，所述模型评测装置包括：

第一评测模块10，获取测试语句及对应的原始意图，并将所述测试语句输入待测模型，得到所述待测模型输出的第一预测意图，以根据所述第一预测意图获得第一评测结果；

第一确定模块20，在所述第一评测结果不满足预设条件的情况下，根据所述原始意图和所述第一预测意图、在所述测试语句中确定负例语句；

第二确定模块30，获取所述待测模型的训练语句，并根据所述训练语句和所述负例语句确定目标语句；

语句更新模块40，根据所述目标语句更新所述测试语句；

第二评测模块50，将所述更新后的测试语句输入所述待测模型，得到所述待测模型输出的第二预测意图，以根据所述第二预测意图获得第二评测结果。

进一步地，所述第一确定模块20具体用于：

比对所述原始意图和所述第一预测意图，确定与所述原始意图不一致的负例预测意图；根据所述负例预测意图、在所述测试语句中确定对应的负例语句。

进一步地，所述目标语句包括目标剔除语句，所述第二确定模块30包括：

第一获取单元，用于获取所述负例语句和所述训练语句的文本相似度，并根据所述文本相似度确定最大相似度；

第一确定单元，用于在所述最大相似度小于第一预设阈值的情况下，将所述负例语句确定为目标剔除语句。

进一步地，所述训练语句包括第一语句和第二语句，所述第一语句和所述第二语句具有对应的语句意图，所述第二确定模块30包括：

第二获取单元，用于获取所述负例语句与所述第一语句的第一文本相似度、以及所述负例语句与所述第一语句的第二文本相似度，并获取所述第一文本相似度与所述第二文本相似度的相似度差值；

第二确定单元，用于在所述相似度差值小于第二预设阈值、且所述第一语句和所述第二语句的语句意图不一致情况下，将所述负例语句确定为目标剔除语句。

进一步地，所述语句更新模块40，具体用于将所述目标剔除语句从所述测试语句中剔除。

进一步地，所述训练语句包括第三语句，所述第三语句具有对应的语句意图，所述目标语句包括误判语句，所述第二确定模块30，还包括：

第三获取单元，用于获取所述负例语句和所述第三语句的文本相似度；

第三确定单元，用于在所述文本相似度小于第三预设阈值、且所述负例语句的原始意图和所述第三语句的语句意图不一致的情况下，确定所述负例语句为误判语句；

所述语句更新模块40，具体用于将所述误判语句调整为正例语句，并保留所述正例语句。

其中，上述模型评测装置中各个模块的功能实现与上述模型评测方法实施例中各步骤相对应，其功能和实现过程在此处不再一一赘述。

本发明还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如以上任一项实施例所述的模型评测方法的步骤。

本发明计算机可读存储介质的具体实施例与上述模型评测方法各实施例基本相同，在此不作赘述。

本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如以上任一项所述的模型评测方法的步骤。

本发明计算机程序产品的具体实施例与上述模型评测方法各实施例基本相同，在此不作赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者***不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者***所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者***中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种模型评测方法，其特征在于，所述模型评测方法包括：

根据所述目标语句更新所述测试语句；

2.如权利要求1所述的模型评测方法，特征在于，所述根据所述原始意图和所述第一预测意图、在所述测试语句中确定负例语句的步骤，包括：

3.如权利要求1所述的模型评测方法，特征在于，所述目标语句包括目标剔除语句；

4.如权利要求1所述的模型评测方法，特征在于，所述训练语句包括第一语句和第二语句，所述第一语句和所述第二语句具有对应的语句意图，所述目标语句包括目标剔除语句；

5.如权利要求3或4所述的模型评测方法，特征在于，所述根据所述目标语句更新所述测试语句步骤，包括：

将所述目标剔除语句从所述测试语句中剔除。

6.如权利要求1所述的模型评测方法，其特征在于，所述训练语句包括第三语句，所述第三语句具有对应的语句意图，所述目标语句包括误判语句；

获取所述负例语句和所述第三语句的文本相似度；

所述根据所述目标语句更新所述测试语句的步骤，包括：

将所述误判语句调整为正例语句，并保留所述正例语句。

7.一种模型评测装置，其特征在于，所述模型评测装置包括：

语句更新模块，根据所述目标语句更新所述测试语句；

8.一种模型评测设备，其特征在于，所述模型评测设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1至6中任一项所述的模型评测方法的步骤。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述的模型评测方法的步骤。