CN114492764A

CN114492764A - 人工智能模型测试方法、装置、电子设备和存储介质

Info

Publication number: CN114492764A
Application number: CN202210156428.XA
Authority: CN
Inventors: 樊星宇
Original assignee: Shenzhen Sensetime Technology Co Ltd
Current assignee: Shenzhen Sensetime Technology Co Ltd
Priority date: 2022-02-21
Filing date: 2022-02-21
Publication date: 2022-05-13

Abstract

本申请实施例提供了一种人工智能模型测试方法、装置、电子设备和存储介质，该方法包括：根据待测试模型的应用场景，确定待测试模型的至少一个测试指标和至少一个测试数据集；待测试模型包括相同应用场景的多个模型；采用至少一个测试数据集对每个模型进行测试，获取每个模型对应的至少一个测试指标的测试结果；基于用户选择的可视化模式，对待可视化模型对应的测试结果进行可视化；可视化模式包括多个模型对应一个测试数据集的模式或者一个模型对应多个测试数据集的模式；待可视化模型属于用户在所述多个模型中选择的模型。

Description

人工智能模型测试方法、装置、电子设备和存储介质

技术领域

本申请实施例涉及软件测试技术领域，尤其涉及一种人工智能模型测试方法、装置、电子设备和计算机存储介质。

背景技术

人工智能(Artificial Intelligence，AI)是一种借助大数据、网络计算和深度学***台对人工智能模型进行测试，得到人工智能模型对应的测试指标的测试结果，根据测试结果评估人工智能模型的性能差异。

在相关技术中，在模型测试时，模型测试平台未对人工智能模型和测试数据集进行分类，由用户选取应用场景对应的人工智能模型和测试数据集。同时，模型测试平台在对测试结果可视化时，评估人工智能模型的性能差异的分析维度有限，导致人工智能模型的测试效率较低。因此，如何提高人工智能模型的测试效率成为亟待解决的重要问题。

发明内容

本申请实施例提供了一种人工智能模型测试方法、装置、电子设备和计算机存储介质，可以提高人工智能模型的测试效率。

本申请实施例提供的一种人工智能模型测试方法，包括：

根据待测试模型的应用场景，确定所述待测试模型的至少一个测试指标和至少一个测试数据集；所述待测试模型包括相同应用场景的多个模型；

采用所述至少一个测试数据集对每个所述模型进行测试，获取每个所述模型对应的至少一个测试指标的测试结果；

基于用户选择的可视化模式，对待可视化模型对应的测试结果进行可视化；所述用户选择的可视化模式包括多个模型对应一个测试数据集的模式或者一个模型对应多个测试数据集的模式；所述待可视化模型属于所述用户在所述多个模型中选择的模型。

在上述方案中，可视化模式包括多个模型对应一个测试数据集的模式或者一个模型对应多个测试数据集的模式，因此，可以从不同维度对人工智能模型的测试结果进行对比分析，从而，提高人工智能模型的测试效率。

在一种实现方式中，所述基于所述用户选择的可视化模式，对所述待可视化模型对应的测试结果进行可视化，包括：

在所述用户选择的可视化模式为一个模型对应多个测试数据集的模式的情况下，确定所述待可视化模型对应的多个测试数据集的标识信息；

根据每个所述测试数据集的标识信息，获取所述待可视化模型的同一测试指标在每个所述测试数据集下的测试结果；

对所述待可视化模型的同一测试指标在每个所述测试数据集下的测试结果进行可视化。

在上述方案中，对待可视化模型的同一测试指标在每个测试数据集下的测试结果进行可视化，因此，可以呈现待可视化人工智能模型对于不同测试数据集的泛化能力。

在一种实现方式中，所述至少一个测试数据集包括第一数据集，所述第一数据集属于所述至少一个测试数据集中任一个测试数据集；

所述对所述待可视化模型的同一测试指标在每个测试数据集下的测试结果进行可视化，包括：

响应于用户在第一可视化页面选中所述待可视化模型的第一可视化指标，在所述第一可视化页面展示所述第一可视化指标对应的第一页面信息；

其中，所述第一可视化指标属于所述至少一个测试指标中的任一项；所述第一页面信息包括以下信息中的任一项：

所述第一可视化指标在第一数据集的每个标签下的测试结果、所述第一可视化指标在第一数据集的每个标签下识别到的正样本的样本数。

在上述方案中，响应于用户在第一可视化页面选中待可视化模型的第一可视化指标，在第一可视化页面展示第一可视化指标对应的第一页面信息。第一页面信息包括以下信息中的任一项：第一可视化指标在第一数据集的每个标签下的测试结果、第一可视化指标在第一数据集的每个标签下识别到的正样本的样本数。因此，可以基于人机交互由用户在人机交互界面上选择待可视化模型的第一可视化指标，在第一页面信息中从不同的维度呈现待可视化模型在测试数据集上的性能表现。

在一种实现方式中，所述至少一个测试数据集包括第二数据集，所述第二数据集属于所述至少一个测试数据集中任一个测试数据集；

所述基于所述用户选择的可视化模式，对所述待可视化模型对应的测试结果进行可视化，包括：

在所述用户选择的可视化模式为多个模型对应一个测试数据集的模式的情况下，确定待可视化的多个模型中每个模型的标识信息；

根据所述待可视化的多个模型中每个模型的标识信息，获取所述每个模型的同一测试指标在所述第二数据集下的测试结果；对所述每个模型的同一测试指标在第二数据集下的测试结果进行可视化。

在上述方案中，在用户选择的可视化模式为多个模型对应一个测试数据集的模式的情况下，对每个模型对应的至少一个测试指标在第二数据集下的测试结果进行可视化，因此，可以对多个模型在同一测试数据集下的测试结果进行对比展示，呈现多个人工智能模型在某个具体测试指标下的性能差异。

在一种实现方式中，所述对所述每个模型的同一测试指标在第二数据集下的测试结果进行可视化，包括：

响应于用户在第二可视化页面选中所述多个模型的第二可视化指标，在所述第二可视化页面展示所述第二可视化指标对应的第二页面信息；

其中，所述第二可视化指标属于所述至少一个测试指标中的任一项；所述第二页面信息包括：所述第二可视化指标对应的每个模型在所述第二数据集下的测试结果。

响应于用户在第三可视化页面选中预设应用场景的待可视化模型，确定所述预设应用场景的多个模型的版本时间和测试结果的对应关系；

根据所述对应关系，按照所述版本时间在第四可视化页面展示所述预设应用场景的多个模型的同一测试指标在第二数据集下的测试结果；

其中，所述第三可视化页面用于展示所述预设应用场景的待可视化模型中至少一个模型在第二数据集下的测试结果的列表信息。

在一种实现方式中，所述根据所述对应关系，按照所述版本时间在第四可视化页面展示所述预设应用场景的多个模型的同一测试指标在第二数据集下的测试结果，包括：

响应于用户在所述第四可视化页面选中第一测试结果对应的数据点，在所述第四可视化页面采用浮动窗口展示所述数据点对应的所述第一测试结果；

其中，所述第一测试结果属于所述多个模型的同一测试指标在第二数据集下的测试结果中的任一个。

在一种实现方式中，所述根据待测试模型的应用场景，确定所述待测试模型的至少一个测试指标和至少一个测试数据集，包括：

获取预设对应关系，所述预设对应关系用于指示应用场景和测试指标的对应关系以及应用场景和测试数据集对应关系；

根据所述待测试模型的应用场景和所述预设对应关系，确定所述待测试模型的至少一个测试指标和至少一个测试数据集。

在上述方案中，预设对应关系用于指示应用场景和测试指标的对应关系以及应用场景和测试数据集对应关系；根据待测试模型的应用场景和预设对应关系，确定待测试模型的至少一个测试指标和至少一个测试数据集。因此，可以缩短配置模型测试任务所需时间，提高人工智能模型的测试效率。

本申请实施例提供的一种人工智能模型测试装置，包括：

确定模块，用于根据待测试模型的应用场景，确定所述待测试模型的至少一个测试指标和至少一个测试数据集；所述待测试模型包括相同应用场景的多个模型；

测试模块，用于采用所述至少一个测试数据集对每个所述模型进行测试，获取每个所述模型对应的至少一个测试指标的测试结果；

展示模块，用于基于用户选择的可视化模式，对待可视化模型对应的测试结果进行可视化；所述用户选择的可视化模式包括多个模型对应一个测试数据集的模式或者一个模型对应多个测试数据集的模式；所述待可视化模型属于所述用户在所述多个模型中选择的模型。

本申请实施例提供一种电子设备，所述电子设备包括存储器、处理器及存储在存储器上可在处理器上运行的计算机程序，所述处理器执行所述程序时实现前述一个或多个技术方案提供的人工智能模型测试方法。

本申请实施例提供一种计算机存储介质，所述计算机存储介质存储有计算机程序；所述计算机程序被执行后能够实现前述一个或多个技术方案提供的人工智能模型测试方法。

基于本申请提供的人工智能模型测试方法，根据待测试模型的应用场景，确定待测试模型的至少一个测试指标和至少一个测试数据集；待测试模型包括相同应用场景的多个模型；因此，可以缩短配置模型测试任务所需时间。采用至少一个测试数据集对每个模型进行测试，获取每个模型对应的至少一个测试指标的测试结果；基于用户选择的待可视化模式，对待可视化模型对应的测试结果进行可视化。由于可视化模式可以横向对比多个模型在同一个测试集上的表现，或者呈现同一个模型在不同测试集上的表现。因此，可以从不同维度对人工智能模型的测试结果进行对比分析，从而，提高人工智能模型的测试效率。

应理解，以上的一般描述和后文的细节描述仅是示例性和解释性的，而非限制本申请。

附图说明

图1为本申请实施例提供的一种人工智能模型测试方法的流程示意图一；

图2为本申请实施例提供的对待测试模型的应用场景进行分类的示意图；

图3为本申请实施例提供的可视化模式为一个模型对应多个测试数据集的模式的示意图；

图4为本申请实施例提供的对待可视化模型对应的测试结果进行可视化的示意图一；

图5为本申请实施例提供的可视化模式为多个模型对应一个测试数据集的模式的示意图；

图6为为本申请实施例提供的一种人工智能模型测试方法的流程示意图二；

图7为本申请实施例提供的确定待测试模型的至少一个测试指标和至少一个测试数据集的流程示意图；

图8为本申请实施例提供的对待可视化模型对应的测试结果进行可视化的示意图二；

图9为本申请实施例提供的一种人工智能模型测试装置的示意图；

图10为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所提供的实施例仅仅用以解释本申请，不用于限定本申请。另外，以下所提供的实施例是用于实施本申请的部分实施例，而非提供实施本申请的全部实施例，在不冲突的情况下，本申请实施例记载的技术方案可以任意组合的方式实施。

在相关技术中，模型测试和测试指标展示，在业界的应用只是对单个模型测试后进行指标展示。采用一个标注好的测试数据集对一个训练好的模型进行测试，简称“1-1”模式。通过对比标注结果和推理结果的差异，得到模型的测试结果，同时，产生一份包含各种测试指标的测试报告。通过对特定场景下的特定指标进行分析，确认模型的性能是否可以达标。

因此，每次只能对当前模型和所选数据集进行测试，在对多个模型进行测试时，需要频繁创建测试任务。同时，只能每次查看单个模型在单个测试数据集上的性能表现，导致人工智能模型的测试效率较低。

为了解决上述技术问题，本申请实施例提供了一种人工智能模型测试方法。以下，对本申请提供的人工智能模型测试方法进行详细介绍。

图1示出了本申请实施例提供的人工智能模型测试方法的示意性流程图。参见图1，本申请实施例提供的人工智能模型测试方法，可以包括以下步骤：

步骤101：根据待测试模型的应用场景，确定待测试模型的至少一个测试指标和至少一个测试数据集；待测试模型包括相同应用场景的多个模型。

在示例中，待测试模型可以是用户选择的多个人工智能模型，多个人工智能模型可以是同一应用场景的人工智能模型的多个不同版本。测试数据集可以是模型测试中心标注完成的用于模型测试的数据集。

在示例中，人工智能模型的类型包括以下任一项或者其任意组合：卷积神经网络、深度神经网络、循环神经网络。例如，人工智能模型可以为卷积神经网络和深度神经网络组合形成的模型。

在示例中，待测试模型的应用场景可以包括以下任一项：机器视觉、语音识别、自然语言处理，其中，机器视觉场景可以包括目标检测场景、图像分类场景。

在示例中，参见表1，在对人工智能模型测试时，待测试模型的测试指标可以包括以下指标中的任一项：准确率、精确率、召回率、分类概率值、F1值。

表1人工智能模型相关的测试指标

测试指标

准确率

精确率

召回率

F1值

分类概率值

假正类率

这里，分类概率值可以是AUC(Area Under Curve)值，AUC值被定义为ROC曲线下与坐标轴围成的面积。AUC的取值范围为[0.5，1]。AUC的取值越接近1.0，AUC的真实性越高；AUC的取值等于0.5时AUC的真实性最低。

在表1中，F1值是统计学中用来衡量二分类模型精确度的指标。F1值同时兼顾分类模型的精确率和召回率，可以看作是模型精确率和召回率的一种调和平均。F1值的取值范围为[0，1]。

步骤102：采用至少一个测试数据集对每个模型进行测试，获取每个模型对应的至少一个测试指标的测试结果。

在示例中，确定模型测试任务的任务配置信息，任务配置信息用于指示待测试模型的至少一个测试指标和至少一个测试数据集，根据任务配置信息创建模型测试任务。

在示例中，任务配置信息包括以下任一项任务类别的配置信息：单个模型在单个测试数据集下的测试任务(“1-1”模式)、多个模型在同一测试数据集下的测试任务(“N-1”模式)、单个模型在多个测试数据集下的测试任务(“1-N”模式)。

表2模型测试任务的任务类别

应理解，用户可以选择任务类别中的任一项创建模型测试任务，采用至少一个测试数据集对待测试模型中的每个模型进行测试，获取每个模型对应的至少一个测试指标的测试结果。

在实际应用中，在模型测试中心，可以由用户选择指定已标注的数据集，作为人工智能模型的测试数据集，对选择的多个模型同时进行测试。选择的多个模型，可以是针对同一应用场景的模型的多个版本，这样，在横向对比时才有意义。

应理解，当发起一次多模型横向对比后，模型测试中心会根据待测试模型的应用场景，自动选择待测试模型对应的测试指标和测试数据集，采用测试数据集对待测试模型中的多个模型同时进行测试。

在相关技术中，每次只能评测当前模型和所选数据集。在评测多个模型时，需要每次创建新的测试任务。

在本申请实施例中，对于相同应用场景的多个模型，可以采用模型测试中心的评测引擎，对多个模型中的每个模型在多个数据集下同时进行模型测试。这样，不需要频繁创建测试任务，减少模型测试的时间。

步骤103：基于用户选择的可视化模式，对待可视化模型对应的测试结果进行可视化；可视化模式包括多个模型对应一个测试数据集的模式或者一个模型对应多个测试数据集的模式。

在示例中，待可视化模型可以是用户在上述待测试的多个模型中选择的模型。

在示例中，参见表3，可视化模式包括以下任一项：单模型指标展示模式、多模型横向展示模式、多测试数据集横向展示模式。其中，单模型指标展示模式，属于一个模型对应一个测试数据集的模式；多模型指标展示模式，属于多个模型对应一个测试数据集的模式，模型泛化指标展示模式，属于一个模型对应多个测试数据集的模式。

表3预先配置的可视化模式

在示例中，参见表3，本申请不仅可以实现“1-1”模式下测试结果的可视化，同时可以实现“1-N”模式下测试结果的可视化、“N-1”模式下测试结果的可视化。“N-1”模式横向的查看多个模型在同一数据集上的性能表现，“1-N”模式查看同一模型在不同数据集上的性能表现。因此，可以提供多维度对比查看模型的测试指标的能力。

在示例中，在用户选择的可视化模式为多个模型对应一个测试数据集的模式的情况下，对多个人工智能模型中每个人工智能模型在同一测试数据集下的测试结果进行可视化。

例如，对于对多个人工智能模型，将每个人工智能模型的测试指标对应的测试结果，采用图表形式在同一个页面信息中进行可视化，这样，有助于测试人员快速了解每个模型达到的精度。

在示例中，在用户选择的可视化模式为一个模型对应多个测试数据集的模式的情况下，对同一人工智能模型在多个测试数据集中不同测试数据集下的测试结果进行可视化。

在本申请实施例中，提供多模型横向对比模式和多数据集横向对比模式，可以实现多个模型在同一数据集上对比结果的展示、多个数据集在同一模型上对比结果的展示，帮助测试人员分析评估人工智能模型的性能，快速筛选出性能最优的模型，同时，发现人工智能模型需要改进优化的指标类型。

在实际应用中，在模型测试中心，可以构建以下模块：模型测试框架、指标展示框架、指标对比框架，其中，模型测试框架可以对待测试模型的进行模型测试。指标展示框架，可以在模型测试后在可视化界面展示人工智能模型的测试指标对应的测试结果。指标对比框架，可以在可视化时从多个维度的对人工智能模型的精度进行对比。

在实际应用中，在模型测试框架中，可以设置多个测试模块，多个测试模块包括以下任一个模块：单模型和单数据集测试模块、单模型和多数据集测试模块、单数据集和多模型测试模块、多模型和多数据集测试模块。

在实际应用中，在指标展示框架中，可以设置多个展示模块，多个展示模块可以包括以下任一个展示模块：

展示模块一，用于对单模型在单数据集下的测试结果进行可视化，实现单模型指标展示界面可视化；展示模块二，用于对单模型在多个数据集下的测试结果进行可视化；展示模块三，用于对多个模型在单数据集下的测试结果进行可视化。

其中，展示模块一，主要展示单一模型的各项性能指标，包括：第一可视化指标在第一数据集的每个标签下的测试结果、第一可视化指标在第一数据集的每个标签下识别到的正样本的样本数。应理解，通过各项性能指标的查看和对比，可以分析评估人工智能模型的优劣。

对于不同应用场景的模型，展示模块二、展示模块三，可以根据模型的应用场景，自动选择模型对应的测试指标，将的测试指标的测试结果以图表的形式进行可视化展示，通过对比来确定模型的性能。

基于本申请提供的人工智能模型测试方法，根据待测试模型的应用场景，确定待测试模型的至少一个测试指标和至少一个测试数据集；因此，可以缩短配置模型测试任务所需时间。采用至少一个测试数据集对每个模型进行测试，获取每个模型对应的至少一个测试指标的测试结果；基于用户选择的可视化模式，对待可视化模型对应的测试结果进行可视化。由于可视化模式可以横向对比多个模型在同一个测试集上的表现，或者呈现同一个模型在不同测试集上的表现。因此，可以从不同维度对人工智能模型的测试结果进行对比分析，从而，提高人工智能模型的测试效率。

在实际应用中，利用多模型横向对比模式和多数据集横向对比模式，用户可以多个不同维度查看和分析模型的性能表现，更加准确地设计出一个工业级别的高精度模型。

在实际应用中，利用单模型指标展示界面可视化，可以展示出第一可视化指标在第一数据集的每个标签下的测试结果，通过对“第一可视化指标在第一数据集的每个标签下的测试结果”达到的精度，呈现模型对于不同标签的泛化能力。

在实际应用中，上述步骤101至步骤103可以采用处理器实现，上述处理器可以为专用集成电路(Application Specific Integrated Circuit，ASIC)、数字信号处理器(Digital Signal Processor，DSP)、数字信号处理装置(Digital Signal ProcessingDevice，DSPD)、可编程逻辑装置(Programmable Logic Device，PLD)、现场可编程逻辑门阵列(Field Programmable Gate Array，FPGA)、中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器中的至少一种。

在一种实现方式中，在确定用户选择的待测试模型和待测试模型的测试结果的可视化模式后，模型测试中心可以根据待测试模型的应用场景确定待测试模型对应的至少一个测试数据集和至少一个测试指标，采用至少一个测试数据集对每个人工智能模型进行测试，将待可视化模型的至少一个测试指标对应的测试结果以图表形式进行可视化。

即，除了由用户手动触发多模型横向对比之外，在模型测试中心，可以由用户选择指定已标注的数据集作为待测试模型的测试数据集，选择人工智能模型在模型测试时的应用场景，在模型测试完成后自动触发多模型横向对比。

在一种实现方式中，参见图2，模型测试中心可以根据人工智能模型的应用场景，自动筛选出某一应用场景类别下的所有测试数据集，供用户进一步从中选择在模型测试时具体使用的测试数据集。例如，人工智能模型的应用场景为图像分类场景，模型测评中心可以展示所有属于图像分类场景下的测试数据集。

在示例中，参见图2，在模型测试中心设置不同应用场景的导航栏，模型测试中心可以监听用户在导航栏选择的人工智能模型的应用场景，在数据查询时根据人工智能模型的应用场景进行筛选，可以缩小人工智能模型对应的测试数据集的数据查询范围。

在一种实现方式中，在上述步骤103中，基于用户选择的可视化模式，对待可视化模型对应的测试结果进行可视化，参见图3，可以包括以下步骤：

步骤301：在用户选择的可视化模式为一个模型对应多个测试数据集的模式的情况下，确定待可视化模型对应的多个测试数据集的标识信息。

在示例中，参见表4，人工智能模型Mi对应的多个测试数据集包括：测试数据集D1、测试数据集D2、测试数据集D3、…测试数据集Di…测试数据集D_N。采用人工智能模型对应的多个测试数据集，对人工智能模型进行测试，得到人工智能模型在多个测试数据集中每个测试数据集下的测试结果。

表4待可视化模型Mi的同一测试指标在每个测试数据集下的测试结果

步骤302：根据每个测试数据集的标识信息，获取待可视化模型的同一测试指标在每个测试数据集下的测试结果。

应理解，采用模型测试中心的评测引擎，对多个模型中的每个模型在多个数据集下同时进行模型测试，可以得到每个模型对应的至少一个测试指标在各个测试数据集下的测试结果，将每个模型对应的至少一个测试指标在各个测试数据集下的测试结果存储至模型测试中心的数据库。

在示例中，当确定待可视化模型和用户选择的可视化模式后，可以根据待可视化模型的标识信息和每个测试数据集的标识信息，在模型测试中心的数据库中，读取待可视化模型的同一测试指标在每个测试数据集下的测试结果。

在示例中，待可视化模型在每个测试数据集下的测试结果，可以反映待可视化人工智能模型对于不同测试数据集的泛化能力。相应地，用户可以从多个人工智能模型中筛选出不同测试数据集下泛化能力较好的人工智能模型。

在实际应用过程中，现实世界中存在大量的不确定性，人工智能模型的泛化能力，可以反映人工智能模型对于不确定性的容错性能。

步骤303：基于用户选择的可视化模式，对待可视化模型的同一测试指标在每个测试数据集下的测试结果进行可视化。

在示例中，参见图4，在用户选择的可视化模式为一个模型对应多个测试数据集的模式的情况下，可以对待可视化模Mi在多个测试数据集中每个测试数据集下的测试结果进行可视化。

在示例中，参见图4，在用户选择的可视化模式为一个模型对应多个测试数据集的模式的情况下，待测试模型的应用场景为图像分类，待测试模型的名称为车辆识别模型，测试数据集的类别为车辆识别数据集。

在示例中，参见图4，在用户选择的可视化模式为一个模型对应多个测试数据集的模式的情况下，待测试模型的测试指标包括：准确率、精确率、召回率、F1值。其中，准确率为69.1％、精确率为70.9％、召回率为71.3％、F1值为70.1％。

在示例中，参见图4，每个测试数据集中的标签包括标签1、标签2、标签3、标签4、标签5、标签6、…、标签i、…、标签N。其中，标签i为第i个标签。

在一种实现方式中，在上述步骤303中，对待可视化模型的同一测试指标在每个测试数据集下的测试结果进行可视化，可以包括以下步骤：

响应于用户在第一可视化页面选中待可视化模型的第一可视化指标，在第一可视化页面展示第一可视化指标对应的第一页面信息。

在示例中，第一可视化指标属于至少一个测试指标中的任一项；第一页面信息包括以下信息中的任一项：

第一可视化指标在第一数据集的每个标签下的测试结果、第一可视化指标在第一数据集的每个标签下识别到的正样本的样本数。

在示例中，第一可视化页面可以是标签详情页面，参见图4，标签详情页面提供下拉菜单，用户可以在标签详情页面的下拉菜单中选择准确率作为第一可视化指标，相应地，在标签详情页面呈现准确率在每个标签的分布特征，对每个标签的准确率采用柱状图的形式进行可视化展示。

在实际应用中，标签详情页面提供下拉菜单，用户可以在标签详情页面的下拉菜单中选择平均准确率作为第一可视化指标。

在示例中，参见图4，在对待可视化模Mi在多个测试数据集中每个测试数据集下的测试结果进行可视化时。可视化页面可以包括以下子区域：基本信息页面、测试指标页面、标签详情页面、测试数据集的标签分布页面。

在示例中，参见图4，在基本信息页面可以包括以下任一项信息：待测试模型的应用场景、待测试模型的名称、测试数据集的类别。在测试指标页面可以包括每一个测试指标的数值对应的环形进度条。

在示例中，参见图4，在测试数据集的标签分布页面，可以呈现“准确率”指标在测试数据集D1的每个标签下识别到的正样本的样本数。对每个标签下识别到的正样本的样本数，采用柱状图的形式进行可视化展示。

应理解，标签详情页面的下拉菜单中包括以下任一个选项：准确率、精确率、召回率、F1值。

在示例中，参见图4，测试数据集的标签分布页面提供下拉菜单，用户可以在下拉菜单中选择待测试模型在测试数据集D1的每一个标签的测试结果。

相应地，参见图4，测试数据集的标签分布页面可以呈现测试数据集D1的准确率在每个标签的分布特征，例如，对测试数据集D1的每个标签的准确率采用柱状图的形式进行可视化展示。

应理解，测试数据集的标签分布页面的下拉菜单中包括以下任一个测试数据集作为选项：测试数据集D1、测试数据集D2、测试数据集D3、……、测试数据集Di、……、测试数据集DN。

在示例中，参见图4，在标签详情页面的底部显示拖动条控件、在测试数据集的标签分布页面的底部显示拖动条控件。这里，拖动条控件可以在人机交互过程中对标签详情页面的显示内容进行滚动显示，或者，对测试数据集的标签分布页面的显示内容进行滚动显示。

在示例中，在对待可视化模Mi在第一数据集下的测试结果进行可视化时，可以对第一可视化指标在第一数据集的每个标签下的测试结果和/或第一可视化指标在第一数据集的每个标签下识别到的正样本的样本数进行可视化。

在实际应用中，对于农业领域，多个测试数据集可以是农作物在多个不同时间段的生长形态数据，用户可以设计一个检测农作物是否成长规范的人工智能模型，采用农作物在不同时间段的生长形态数据对人工智能模型进行测试。

即，对于农业领域，用户可以训练出一个检测农作物是否成长规范的模型，收集农作物在不同时间段的数据进行评测，通过同一模型在不同数据上的性能比对，分析和提升模型的泛化能力。

应理解，对于同一种农作物，在不同时间段的生长形态不一样，相应地，不同时间段的生长形态数据不同，不同时间段的生长形态数据可以用于测试人工智能模型的泛化能力。

因此，对人工智能模型在每个测试数据集下的测试结果进行可视化时，可以通过同一人工智能模型在不同测试数据集上的性能比对，分析和提升人工智能模型对于农作物在不同时段的生长形态数据的泛化能力。

在一种实现方式中，在上述人工智能模型测试方法中，至少一个测试数据集包括第一数据集，第一数据集属于至少一个测试数据集中任一个测试数据集；对待可视化模型的同一测试指标在每个测试数据集下的测试结果进行可视化，可以包括以下步骤：

响应于用户在第一可视化页面选中待可视化模型的第一可视化指标，在第一可视化页面展示第一可视化指标对应的第一页面信息；其中，第一可视化指标属于至少一个测试指标中的任一项。

在示例中，第一页面信息包括以下信息中的任一项：第一可视化指标在第一数据集的每个标签下的测试结果、第一可视化指标在第一数据集的每个标签下识别到的正样本的样本数。

在示例中，每一个标签可以对应测试数据集中的一种类型特征的标注信息。在测试数据集对应的应用场景为图像分类场景时，测试数据集的不同标签可以对应不同类别的图像特征。

在示例中，参见表5，第一数据集存在K个标签，包括：标签1、标签2、标签3、…标签i…、标签K。对人工智能模型在第一数据集的至少一个标签上的指标进行可视化时，可以展示人工智能模型在第一数据集的各个标签对应的测试结果，或者展示人工智能模型在第一数据集的单个标签对应的测试结果。

表5测试数据集中每个标签对应的测试结果

在示例中，在对不同应用场景的模型的测试结果进行展示时，可以由用户，在第一可视化页面中选择待可视化模型的第一可视化指标，即，用户可以根据模型的应用场景在第一可视化页面选择用户想要查看的测试指标。

例如，模型是用来检测高铁线路的高压线架子的产品缺陷，应用场景为目标检测，对于模型的测试结果进行可视化时，用户可以在第一可视化页面中选择“召回率”作为第一可视化指标进行查看和分析。

例如，模型是用来检测猫狗的类别时，用户可以在第一可视化页面中选择选择“假正类率”作为第一可视化指标进行查看和分析。在可视化界面展示模型在第一数据集的各个标签对应的测试结果，或者，展示模型在第一数据集的单个猫标签对应的测试结果。

在实际应用中，对于工业领域，测试数据集中每一个标签可以对应一种类别的产品缺陷，用户可以根据收集到的产品缺陷的类别，设计一个识别产品缺陷的人工智能模型，采用测试数据集对人工智能模型进行测试。

即，在工业领域，用户可以根据收集到的产品缺陷，设计出一个识别产品缺陷的模型，通过单模型指标展示模式，分析模型在识别每类缺陷时达到的精度和性能，确保模型识别每类缺陷的精度达到工业精度级别。

因此，在通过单模型指标展示模式对人工智能模型的测试结果进行可视化时，可以呈现人工智能模型在识别每一类产品缺陷时的准确率，从而，有助于用户根据人工智能模型识别每一类产品缺陷时的准确率，对人工智能模型的模型参数有针对性地进行优化，确保人工智能模型在识别每一类产品缺陷时的精度达到工业精度级别。

在上述方案中，单模型指标展示界面可视化模式，可以展示对模型性能分析的各项指标，通过对同一模型在不同测试数据集下的测试结果的分布状况、和/或模型在同一测试数据集不同标签的测试指标的测试结果进行分析对比，可以帮助用户提高对模型进行性能分析的分析能力。

在一种实现方式中，至少一个测试数据集包括第二数据集，第二数据集属于至少一个测试数据集中任一个测试数据集；

在上述步骤103中，基于用户选择的可视化模式，对待可视化模型对应的测试结果进行可视化，参见图5，可以包括以下步骤：

步骤501：在用户选择的可视化模式为多个模型对应一个测试数据集的模式的情况下，确定待可视化的多个模型中每个模型的标识信息。

在示例中，参见表6，模型M1、模型M2、模型M3可以是同一应用场景的人工智能模型的不同版本，针对同一应用场景的人工智能模型的多个版本进行横向对比，可以呈现同一应用场景的人工智能模型的多个版本的性能优劣，提高对人工智能模型进行性能分析时的可视化效果。

表6多个模型在第二数据集下的测试结果

应理解，在用户选择的可视化模式为多个模型对应一个测试数据集的模式的情况下，可以通过待可视化模型的标识信息，在模型测试中心获取每个模型在第二数据集下的测试结果。

步骤502：根据待可视化的多个模型中每个模型的标识信息，获取每个模型的同一测试指标在第二数据集下的测试结果。

在示例中，当确定待可视化模型和用户选择的可视化模式后，可以根据每个模型的标识信息和第二数据集的标识信息，在模型测试中心的数据库中，读取每个模型的同一测试指标在第二数据集下的测试结果。

在示例中，参见表6，待可视化人工智能模型对应的测试指标包括：准确率、召回率、AUC值。根据每个模型的标识信息，获取每个模型在第二数据集下的每个测试指标的测试结果。

步骤503：基于用户选择的可视化模式，对每个模型的同一测试指标在第二数据集下的测试结果进行可视化。

在示例中，在用户选择的可视化模式为多个模型对应一个测试数据集的模式的情况下，可以对多个模型在同一测试数据集下的测试结果进行对比展示。

例如，采用图表的形式对多个人工智能模型的测试结果进行横向对比，可以呈现多个人工智能模型中某个测试指标对应的性能最优的人工智能模型。

在示例中，参见图6，在模型测试中心构建模型测试模块、指标展示模块，其中，模型测试模块可以供用户创建模型测试任务，执行模型测试任务以对待测试人工智能模型进行模型测试。

在示例中，参见图6，在模型测试中心，指标展示模块配置为在可视化界面展示待测试模型对应的至少一个测试指标的测试结果，从多个维度对模型的性能进行可视化。这里，多个维度包括以下任一个维度：单模型指标、多模型指标、多模型泛化指标。

在相关技术中，人工智能模型测试技术在业界应用时，主要针对单个人工智能模型进行模型测试和指标展示。例如，采用标注完成的测试数据集，对训练完成的人工智能模型与进行模型测试，对比标注结果和推理结果的差异，产出包含各种测试指标的报告。

在本申请实施例中，在用户选择的可视化模式为多个模型对应一个测试数据集的模式的情况下，模型测试中心可以横向对比多个人工智能模型在同一个测试数据集下的测试指标，根据多个人工智能模型在同一个测试数据集下的测试指标的测试结果，呈现多个人工智能模型中性能最佳的人工智能模型。

在一种实现方式中，在上述人工智能模型测试方法中，还可以包括以下步骤：

根据待测试模型中至少一个模型的测试结果，生成待测试模型的模型测试报告；其中，每个模型的测试结果包括每个模型对应的至少一个测试指标的测试结果。

在一种实现方式中，在上述步骤101中，根据待测试模型的应用场景，确定待测试模型的至少一个测试指标和至少一个测试数据集，参见图7，可以包括以下步骤：

步骤701：获取预设对应关系，预设对应关系用于指示应用场景和测试指标的对应关系以及应用场景和测试数据集对应关系。

在示例中，在人工智能模型的应用场景为目标检测场景时，可以对产品进行缺陷检测，在此情况下，可以选择召回率作为测试指标，建立应用场景和测试指标的对应关系。

在示例中，在人工智能模型的应用场景为图像分类场景时，可以对动物进行类别检测，在此情况下，可以选择假正类率作为测试指标，建立应用场景和测试指标的对应关系。

应理解，在确定人工智能模型的测试指标时，按照人工智能模型的应用场景对人工智能模型对应的测试指标进行区分、对人工智能模型对应的测试数据集进行区分，提高人工智能模型的测试指标、测试数据集的针对性。

步骤702：根据待测试模型的应用场景和预设对应关系，确定待测试模型的至少一个测试指标和至少一个测试数据集。

在实际应用中，根据待测试模型的应用场景和预设对应关系，确定人工智能模型的至少一个测试指标，对人工智能模型的测试指标的测试结果进行分析，确认人工智能模型的性能是否符合设计要求。

在示例中，在设置完成“人工智能模型在模型测试时的应用场景、测试数据集”后，针对同一应用场景，每次生产出新的人工智能模型后，在模型测试中心会采用用户预先指定的测试数据集或者应用场景对应的测试数据集，对新的人工智能模型进行一次模型测试，将测试结果以可视化的形式显示在显示界面上。

应理解，选取一个正确的模型和正确的数据集是需要一定的工作量的。模型测试平台中存在M个检测模型、N个分类模型、L个不同类别的测试数据集，在选取应用场景对应的人工智能模型和测试数据集时，找到需要测试的人工智能模型和人工智能模型对应的测试数据集，需要一定的时间。

例如，服务器拥有100个检测模型、100个分类模型，以及200个不中类别的数据集，去找到一个需要测试的模型和其对应的数据集是需要花费一定的时间和精力的。

在相关技术中，在模型测试时，在对待测试模型进行模型测试时没有根据模型的应用场景的类别进行区分，由用户选取应用场景对应的人工智能模型和测试数据集。然而，选取一个正确的模型和正确的测试数据集是需要一定的工作量的。因此，人工智能模型的测试效率较低。

在本申请实施例中，将待测试模型按照应用场景的类别进行区分，对各种应用场景下的人工智能模型进行模型测试时，可以减少模型测试过程中选取人工智能模型和测试数据集的时间，提高模型测试的效率。因此，可以作为模型测试过程中必不可少的一个步骤。

在一种实现方式中，在模型测试中心，基于界面交互确定用户选择的可视化模式，可以由用户手动触发多模型横向对比。同时，可以由用户预先选择人工智能模型对应的应用场景、测试数据集，在此情况下，可以自动触发多模型横向对比。

在示例中，参见图8，同一版本日期的数据点包括至少两个数据点，至少两个数据点可以采用不同的图形进行标记，例如，实心圆点、空心圆点。其中，“实心圆点”对应的数据点属于同一版本日期的数据点中数值最大的数据点。

在示例中，待测试模型的应用场景为图像分类场景，实现图像分类的人工智能模型包括垃圾分类模型、车辆识别模型。其中，垃圾分类模型的版本包括V0.0.1、V0.0.2；车辆识别模型的版本包括V0.1.0、V0.2.0。其中，垃圾分类模型在模型测试时采用的测试数据集为垃圾分类测试数据集；车辆识别模型在模型测试时采用的测试数据集为车辆识别测试数据集。

在示例中，参见图8，在对多个人工智能模型在同一个测试数据集下的测试指标进行可视化时。可视化页面可以包括以下子区域：基本信息页面、第三可视化页面、第四可视化页面。

在示例中，参见图8，在基本信息页面包括以下任一项信息：待测试模型的应用场景、测试数据集的类别。

在一种实现方式中，在上述步骤503中，对每个模型的同一测试指标在第二数据集下的测试结果进行可视化，可以包括以下步骤：

响应于用户在第二可视化页面选中多个模型的第二可视化指标，在第二可视化页面展示第二可视化指标对应的第二页面信息。

在示例中，第二可视化指标属于至少一个测试指标中的任一项；第二页面信息包括：第二可视化指标对应的每个模型在第二数据集下的测试结果。

在示例中，参见图8，第二可视化页面提供下拉菜单栏，用户可以在第二可视化页面的下拉菜单中选择准确率作为第二可视化指标，相应地，在第二可视化页面呈现“准确率”指标对应的每个模型在第二数据集下的测试结果。

在示例中，参见图8，不同版本模型包括相同应用场景的多个模型，多个模型的版本日期分别为03-23、03-24、03-25、03-26、03-27、03-28、03-29、03-30、03-31。

在一种实现方式中，对每个模型的同一测试指标在第二数据集下的测试结果进行可视化，可以包括以下步骤：

响应于用户在第三可视化页面选中预设应用场景的待可视化模型，确定预设应用场景的多个模型的版本时间和测试结果的对应关系；

根据对应关系，按照版本时间在第四可视化页面展示预设应用场景的多个模型的同一测试指标在第二数据集下的测试结果。

在示例中，参见图8，第三可视化页面用于展示预设应用场景的待可视化模型中至少一个模型在第二数据集下的测试结果的列表信息。第三可视化页面包括以下信息中的任一项：

模型名称、模型版本号、类别、创建时间、测试指标、操作。其中，测试指标包括准确率、精准率、召回率。

在示例中，根据多个模型的版本时间和测试结果的对应关系，按照版本时间在第四可视化页面展示预设应用场景的多个模型的同一测试指标在第二数据集下的测试结果。因此，可以呈现预设应用场景的不同版本模型的同一测试指标的迭代过程。

在一种实现方式中，根据对应关系，按照版本时间在第四可视化页面展示预设应用场景的多个模型的同一测试指标在第二数据集下的测试结果，可以包括以下步骤：

响应于用户在第四可视化页面选中第一测试结果对应的数据点，在第四可视化页面采用浮动窗口展示数据点对应的第一测试结果；

其中，第一测试结果属于多个模型的同一测试指标在第二数据集下的测试结果中的任一个。

在示例中，参见图8，第四可视化页面，可以对相同应用场景的多个模型的准确率采用散点图或者折线图的形式进行可视化。

在示例中，参见图8，检测到用户在第四可视化页面选中第一测试结果对应的数据点时，采用浮动窗口的形式展示数据点对应的第一测试结果的详细信息。

在示例中，参见图8，数据点对应的第一测试结果的详细信息可以包括以下信息中的任一项：待可视化模型的名称：垃圾分类模型，创建时间2020-03-27，准确率92.2％。

在示例中，参见表7，图像分类场景对应的测试指标包括：准确率、精准率、召回率。在多模型横向对比时，可以呈现人工智能模型的不同版本在同一测试指标上的测试结果的性能差异。

表7图像分类场景对应的测试指标的测试结果

模型名称	版本号	类别	准确率	精准率	召回率
						垃圾分类模型	V0.0.1	图像分类	98.2％	88.1％	88.1％
垃圾分类模型	V0.0.2	图像分类	98.1％	85.7％	95.7％
						车辆识别模型	V0.1.0	图像分类	96.2％	87.1％	93.1％
车辆识别模型	V0.2.0	图像分类	97.3％	83.2％	92.3％

基于前述实施例相同的技术构思，参见图9，本申请实施例提供的人工智能模型测试装置，可以包括：

确定模块901，用于根据待测试模型的应用场景，确定待测试模型的至少一个测试指标和至少一个测试数据集；待测试模型包括相同应用场景的多个模型；

测试模块902，用于采用至少一个测试数据集对每个模型进行测试，获取每个模型对应的至少一个测试指标的测试结果；

展示模块903，用于基于用户选择的可视化模式，对待可视化模型对应的测试结果进行可视化；可视化模式包括多个模型对应一个测试数据集的模式或者一个模型对应多个测试数据集的模式；待可视化模型属于用户在多个模型中选择的模型。

在一种实现方式中，展示模块903，用于基于用户选择的可视化模式，对待可视化模型对应的测试结果进行可视化，包括：

在用户选择的可视化模式为一个模型对应多个测试数据集的模式的情况下，确定待可视化模型对应的多个测试数据集的标识信息；

根据每个测试数据集的标识信息，获取待可视化模型的同一测试指标在每个测试数据集下的测试结果；

对待可视化模型的同一测试指标在每个测试数据集下的测试结果进行可视化。

在一种实现方式中，至少一个测试数据集包括第一数据集，第一数据集属于至少一个测试数据集中任一个测试数据集；

展示模块903，用于基于用户选择的可视化模式，对待可视化模型对应的测试结果进行可视化，包括：

在用户选择的可视化模式为多个模型对应一个测试数据集的模式的情况下，确定待可视化的多个模型中每个模型的标识信息；

根据待可视化的多个模型中每个模型的标识信息，获取每个模型的同一测试指标在第二数据集下的测试结果；对每个模型的同一测试指标在第二数据集下的测试结果进行可视化。

在一种实现方式中，所述展示模块903，用于对所述每个模型的同一测试指标在第二数据集下的测试结果进行可视化，包括：

在一种实现方式中，所述展示模块903，用于根据所述对应关系，按照所述版本时间在第四可视化页面展示所述预设应用场景的多个模型的同一测试指标在第二数据集下的测试结果，包括：

在一种实现方式中，展示模块903，还用于：

根据待测试模型中至少一个模型的测试结果，生成待测试模型的模型测试报告；

其中，每个模型的测试结果包括每个模型对应的至少一个测试指标的测试结果。

在一种实现方式中，确定模块901，用于根据待测试模型的应用场景，确定待测试模型的至少一个测试指标和至少一个测试数据集，包括：

获取预设对应关系，预设对应关系用于指示应用场景和测试指标的对应关系以及应用场景和测试数据集对应关系；

根据待测试模型的应用场景和预设对应关系，确定待测试模型的至少一个测试指标和至少一个测试数据集。

在实际应用中，确定模块901、测试模块902和展示模块903均可以采用电子设备的处理器实现，上述处理器可以是ASIC、DSP、DSPD、PLD、FPGA、CPU、控制器、微控制器、微处理器中的至少一种，本申请实施例对此不作限制。

在一些实施例中，本申请实施例提供的装置具有的功能或包含的模块可以用于执行上文方法实施例描述的方法，其具体实现可以参照上文方法实施例的描述，为了简洁，这里不再赘述。

基于前述实施例相同的技术构思，参见图10，本申请实施例提供的电子设备1000，可以包括：存储器1010和处理器1020；其中，

存储器1010，用于存储计算机程序和数据；

处理器1020，用于执行存储器中存储的计算机程序，以实现前述实施例中的任意一种人工智能模型测试方法。

在实际应用中，上述存储器1010可以是易失性存储器(volatile memory)，示例性地RAM；或者非易失性存储器(non-volatile memory)，示例性地ROM，快闪存储器(flashmemory)，硬盘(Hard Disk Drive，HDD)或固态硬盘(Solid-State Drive，SSD)；或者上述种类的存储器的组合。上述存储器1010可以向处理器1020提供指令和数据。

上文对各个实施例的描述倾向于强调各个实施例间的不同处，其相同或相似处可以互相参考，为了简洁，本文不再赘述

本申请所提供的各方法实施例中所揭露的方法，在不冲突的情况下可以任意组合，得到新的方法实施例。

本申请所提供的各产品实施例中所揭露的特征，在不冲突的情况下可以任意组合，得到新的产品实施例。

本申请所提供的各方法或设备实施例中所揭露的特征，在不冲突的情况下可以任意组合，得到新的方法实施例或设备实施例。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，示例性地，单元的区分，仅仅为一种逻辑功能区分，实际实现时可以有另外的区分方式，如：多个单元或组件可以结合，或可以集成到另一个***，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元，即可以位于一个地方，也可以分布到多个网格单元上；可以根据实际的可以选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本申请各实施例中的各功能单元可以全部集成在一个处理模块中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可获取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤。

以上，仅为本申请的具体实施方式，但本申请的保护范围不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种人工智能模型测试方法，其特征在于，包括：

基于用户选择的可视化模式，对待可视化模型对应的测试结果进行可视化；所述可视化模式包括多个模型对应一个测试数据集的模式或者一个模型对应多个测试数据集的模式；所述待可视化模型属于所述用户在所述多个模型中选择的模型。

2.根据权利要求1所述的方法，其特征在于，所述基于所述用户选择的可视化模式，对所述待可视化模型对应的测试结果进行可视化，包括：

3.根据权利要求2所述的方法，其特征在于，所述至少一个测试数据集包括第一数据集，所述第一数据集属于所述至少一个测试数据集中任一个测试数据集；

所述对所述待可视化模型的同一测试指标在每个所述测试数据集下的测试结果进行可视化，包括：

4.根据权利要求1所述的方法，其特征在于，所述至少一个测试数据集包括第二数据集，所述第二数据集属于所述至少一个测试数据集中任一个测试数据集；

5.根据权利要求4所述的方法，其特征在于，所述对所述每个模型的同一测试指标在第二数据集下的测试结果进行可视化，包括：

6.根据权利要求4所述的方法，其特征在于，所述对所述每个模型的同一测试指标在第二数据集下的测试结果进行可视化，包括：

7.根据权利要求6所述的方法，其特征在于，所述根据所述对应关系，按照所述版本时间在第四可视化页面展示所述预设应用场景的多个模型的同一测试指标在第二数据集下的测试结果，包括：

8.根据权利要求1-7中任一项所述的方法，其特征在于，所述根据待测试模型的应用场景，确定所述待测试模型的至少一个测试指标和至少一个测试数据集，包括：

9.一种人工智能模型测试装置，其特征在于，包括：

10.一种电子设备，其特征在于，包括：

存储器，所述存储器用于存储计算机程序；

处理器，所述处理器用于执行所述计算机程序时实现权利要求1至8中任一项所述的人工智能模型测试方法。

11.一种计算机存储介质，所述存储介质存储有计算机程序；其特征在于，所述计算机程序被执行后能够实现权利要求1至8中任一项所述的人工智能模型测试方法。