CN115699209A

CN115699209A - 用于人工智能(ai)模型选择的方法

Info

Publication number: CN115699209A
Application number: CN202180040642.2A
Authority: CN
Inventors: J·M·M·霍尔; D·佩鲁吉尼; M·佩鲁吉尼; T·V·阮; M·A·达卡
Original assignee: Presagen Pty Ltd
Current assignee: Presagen Pty Ltd
Priority date: 2020-04-03
Filing date: 2021-03-30
Publication date: 2023-02-03
Also published as: WO2021195689A1; WO2021195689A8; JP2023526161A; US20230148321A1; EP4128272A1; EP4128272A4

Abstract

用于训练具有更高的平移能力或泛化能力(鲁棒性)的人工智能(AI)模型的计算方法和***，包括在多个轮次(epoch)上使用公共验证数据集训练多个人工智能(AI)模型。在每个模型的训练期间，在一个或多个轮次上计算至少一个置信度指标，并且对于每个模型，保存多个轮次上的最佳置信度指标值以及在所述最佳置信度指标处的相关轮次数。然后，通过基于保存的最佳置信度指标选择多个训练后的AI模型中的至少一个AI模型，并计算应用于盲测试集的所选择的至少一个训练后的AI模型的置信度，生成AI模型。如果最佳置信度指标超过接受阈值，则保存并部署所得到的AI模型。

Description

用于人工智能(AI)模型选择的方法

优先权文件

本申请要求2020年4月3日提交的发明名称为“用于人工智能(AI)模型选择的方法(Method For Artificial Intelligence(AI)Model Selection)”的澳大利亚临时专利申请第2020901042号的优先权，其全部内容通过引用合并于此。

技术领域

本发明涉及人工智能。具体地，本发明涉及用于训练AI模型的方法和分类数据的方法。

背景技术

人工智能(AI)领域的进步推动了新产品的开发，这些新产品正在重构商业，并改变包括医疗保健(healthcare)在内的许多重要行业的未来。这些变化源于机器学习和深度学习(DL)技术的快速发展。

机器学习和深度学习是人工智能(AI)的两个子集。机器学习是一种技术或算法，它使机器能够自我学习任务(例如创建预测模型)，而无需人工干预或被明确编程。监督机器学习(或监督学习)是一种分类技术，它学习已标记的(训练)数据中的模式(pattern)，其中每个数据点的标签或注释与一组类相关，以便创建可用于对新的没见过的数据进行分类的(预测)AI模型。在本说明书的上下文中，AI将用于指代机器学习和深度学习方法这二者。

以IVF(体外受精)中胚胎存活率的鉴定为例，如果胚胎导致怀孕(有活力类)，则可以将胚胎图像标记为“有活力”；如果胚胎没有导致怀孕(无活力类)，则标记为“无活力”。监督学习可用于在已标记的胚胎图像的大数据集上进行训练，以学习与有活力和无活力胚胎相关的模式。这些模式被包含在AI模型中。然后，该AI模型可用于对新的没见过的图像进行分类，以(通过对胚胎图像的推断)确定胚胎是否可能有活力(而在IVF治疗中应被移植给患者)或没有活力(而不应移植给患者)。

虽然深度学习在学习目标方面类似于机器学习，但它超越了统计机器学习模型，以更好地模拟人类神经***的功能。深度学习模型通常由人工“神经网络”组成，人工“神经网络”包含输入和输出之间的许多中间层，其中每个层都被视为一个子模型，每个层都提供不同的数据解释。虽然机器学习通常只接受结构化数据作为其输入，但深度学习并不一定需要结构化数据作为输入。例如，为了识别狗和猫的图像，传统的机器学习模型需要由用户从这些图像中预先定义的特征。这样的机器学习模型将从某些数字特征作为输入进行学习，然后可以用于从其他未知的图像中识别特征或物体。原始图像通过深度学习网络被逐层发送，每个层将学习对输入图像的特定(数字)特征进行定义。

为了训练AI模型(包括机器学习模型和/或深度学习模型)，通常执行以下步骤：

a)在问题域和期望的AI解决方案或应用的背景中探索数据。这可能涉及识别正在解决的问题类型，例如分类问题或分割问题，然后精确定义要解决的问题，例如，具体是哪个数据子集要用于训练模型，以及模型将结果输出到哪个类别中；

b)预处理数据，包括数据质量技术/数据清洗，以消除任何标签噪声或不良数据(本专利的重点)，并准备数据，以便为用于AI训练和验证做好准备；

c)如果模型需要，提取特征(例如，使用计算机视觉方法)；

d)选择模型配置，包括模型类型、模型结构和机器学习超参数；

e)将数据拆分成训练数据集、验证数据集和/或测试数据集；

f)通过使用机器学习和/或深度学习算法在训练数据集上训练模型；通常，在训练过程中，许多模型都是通过调整和微调机器学习配置以优化模型的性能来生成的；每次训练迭代被称为一个轮次(epoch)，在每个轮次结束时估计准确度并更新模型；

g)基于模型在验证数据集上的性能，选择最佳的“最终”模型或集成(ensemble)模型；然后将该模型应用于“没见过的”测试数据集，以验证最终AI模型的性能。

机器学习或深度学习算法在训练数据中找到模式，并将其映射到目标。然后，通过这个过程得到的训练后的模型能够捕获这些模式。

随着AI辅助技术越来越流行，对高质量的(例如，准确的)AI预测模型的要求也越来越明确。关于机器学***移(translate)到来自真实行业数据集的数据。

标准的人工的和精心整理的数据集的性能与真实行业性能之间存在差异的原因之一是，模型往往很“脆弱”或者无法从模型在其上训练的集合泛化(或平移)到超出受限狭窄的适用范围的数据集。数据集的特征(如对不良数据、标签不良或误导性数据和对抗性示例的处理)，尽管在文献中有所研究，但通常不会出现在关键的计算机视觉竞赛(如Kaggle)和/或特异于其行业的对应部分中，因此许多技术通常不会作为对鲁棒且可扩展的AI模型(商业可扩展AI产品需要这样的模型)以及哪些指标最合适进行训练、验证和测试的协议的一部分来实施。

在特定行业，如医疗保健/医学图像数据集，尤其如此，这些数据集在许多方面不同于其他被充分研究的计算机视觉数据集。首先，医学图像可以包含与图像特征相关联的非常精细的重要信息，而且这些信息的分布可能不同于标准图像数据集。这意味着，虽然迁移学习是一种有用的技术，已证明对医学应用有很大的益处，但只有它的话还不够，必须在医学数据集上完成新的医学训练集(其特异于手头的问题)的再训练，才能显示预测能力。

其次，与其他类型的图像数据相比，高质量和标记良好的医疗数据通常更为稀缺，这意味着使用粗糙、单一的指标(如准确度)可能会受到以下任一因素的影响：a)由于可用于报告指标的验证和测试集较小，统计不确定性较大，和/或b)模型性能强烈依赖于模型输出分布的细节，即，用于将图像分类的分数。这种高质量、标记良好的医疗数据的缺乏意味着必须更加认真地了解模型输出的分布、模型的预测分数以及分布是否良好。还需要认真了解其他关键指标，这些指标被证明是向新的盲(没见过)数据集或双盲数据集(来自医疗机构、地区的盲数据集，或其来源或分布与训练和验证集不同的数据集)平移的能力的更好指标。

以牺牲所有其他指标为代价，着重将准确度作为定义AI模型在该领域性能的单一指标，可能会产生不利后果，因为此类AI模型或AI产品通常无法很好地泛化到新数据集，因此在实际使用时会导致决策结果不佳。

因此，需要提供用于生成在新数据集上表现良好(即，泛化能力高)的AI模型的方法，或者至少为现有方法提供一种有用的替代方法。

发明内容

一种用于生成人工智能(AI)模型的计算方法，该方法包括：

在多个轮次上使用公共验证数据集训练多个人工智能(AI)模型，其中，在每个模型的训练期间，在一个或多个轮次上计算至少一个置信度指标，并且对于每个模型，保存多个轮次上的最佳置信度指标值以及所述最佳置信度指标的相关轮次数；

生成AI模型，包括：

基于所保存的最佳置信度指标选择多个训练后的AI模型中的至少一个AI模型；

计算应用于盲测试集的所选择的至少一个训练后的AI模型的置信度指标；以及

如果所述最佳置信度指标超过接受阈值，则部署所述AI模型。

在另一种形式中，在每个轮次计算所述至少一个置信度指标。

在一种形式中，生成AI模型包括：使用基于所保存的最佳置信度指标的所述多个训练后的AI模型中的至少两个AI模型来生成集成AI模型，且所述集成模型使用基于置信度的投票策略。

在另一种形式中，生成集成AI模型包括：

基于所保存的最佳置信度指标选择所述多个训练后的AI模型中的至少两个AI模型；

生成多个独特的候选集成模型，其中，每个候选集成模型根据基于置信度的投票策略将所选择的所述多个训练后的AI模型中的至少两个AI模型的结果组合在一起；

计算应用于公共集成验证数据集的每个候选集成模型的置信度指标；

从所述多个独特的候选集成模型中选择一个候选集成模型，并计算应用于盲测试集的所选择的候选集成模型的置信度指标。

在一种形式中，公共集成验证数据集可以是公共验证数据集，也可以是未用于训练多个人工智能(AI)模型的中间测试集。

在一种形式中，基于置信度的投票策略可以从由最大置信度、平均置信度、多数平均置信度，多数最大置信度，中间置信度或加权平均置信度组成的组中选择。

在一种形式中，生成AI模型包括：使用蒸馏方法生成学生AI模型，以使用所述多个训练过的AI模型中的至少两个AI模型、使用至少一个置信度指标来训练所述学生AI模型。

在一种形式中，基于所保存的最佳置信度指标，选择所述多个训练后的AI模型中的至少一个AI模型包括：选择所述多个训练后的AI模型中的至少两个AI模型，使用基于置信度的指标比较所述多个训练后的AI模型中的每一个AI模型，并基于所述比较选择最佳的训练后的AI模型。

在一种形式中，至少一个置信度指标包括：对数损失、组合的类对数损失、组合的数据源对数损失、组合的类和数据源对数损失中的一个或多个。

在一种形式中，计算多个评估指标，并从以下的组中选择这些评估指标：准确度、平均类准确度、灵敏度、特异性、混淆矩阵、灵敏度对特异性的比率、精确度、阴性预测值、平衡准确率、对数损失、组合的类对数损失、组合的数据源对数损失、组合的类和数据源对数损失、正切分数、有界正切分数、每个类的正切分数与对数损失的比率、Sigmoid分数、轮次数、均方误差(MSE)、均方根误差、平均误差均值、平均精确度均值(mAP)、置信度分数、曲线下面积(AUC)阈值、接收器操作特征(ROC)曲线阈值、准确度-召回率曲线。在另一种形式中，所述多个评估指标包括一个主要指标和至少一个次要指标，其中所述主要指标是置信度指标，所述至少一个次要指标被用作平局打破指标。

在一种形式中，所述多个AI模型包括多个独特的模型配置，其中每个模型配置包括模型类型、模型架构、以及一种或多种预处理方法。在另一种形式中，所述一种或多种预处理方法包括分割，所述多个AI模型包括应用于未分割的图像的至少一个AI模型以及应用于分割后的图像的至少一个AI模型。在另一种形式中，所述一种或多种预处理方法包括一种或多种计算机视觉预处理方法。

该方法的实施例可用于医疗保健应用，因此在一种形式中，所述验证数据集是包含多个医疗保健图像的医疗保健数据集。

根据第二方面，提供了一种计算***，该计算***包括一个或多个处理器、一个或多个存储器和通信接口，其中所述一个或多个存储器保存以下指令：这些指令用于将所述一个或多个处理器配置成根据第一方面的方法以计算方式生成人工智能(AI)模型。计算***可以是基于云的***。根据第三方面，提供了一种计算***，包括一个或多个处理器、一个或多个存储器和通信接口，其中，所述一个或多个存储器被配置为保存使用第一方面的方法训练的AI模型，且所述一个或多个处理器被配置为经由所述通信接口接收输入数据，使用所述被保存的AI模型处理所述输入数据以生成模型结果，且所述通信接口被配置为将所述模型结果发送到用户接口或数据存储设备。

附图说明

参考附图讨论本发明的实施例，其中：

图1A是根据一实施例的生成人工智能(AI)模型的示意流程图；

图1B是根据一实施例的生成集成人工智能(AI)模型的示意流程图；

图2A是根据一实施例的被配置用于生成和使用AI模型的基于云的计算***的架构示意图；

图2B是根据一实施例的训练服务器上的模型训练过程的示意流程图；

图3示出相对于

的准确度、对数损失、正切分数和Sigmoid分数等指标的分数和分数梯度，其提供了各指标的边际灵敏度的量度；

图4A是对于单个机器学习模型在验证集上与分数分布相关的直方图，其中，使用召回率作为阳性怀孕(有活力)胚胎的主要指标，用带粗的向前对角线的条表示正确的模型预测结果(即真阳性)，用带细的向后对角线的条表示不正确的模型预测结果(即假阴性)；

图4B是对于单个机器学习模型在验证集上的与分数分布相关的直方图，其中，使用召回率作为阴性怀孕(无活力)胚胎的主要指标，用带粗的向前对角线的条表示正确的模型预测结果(即真阴性)，用带细的向后对角线的条表示不正确的模型预测结果(即假阳性)；

图4C是对于单个机器学习模型在组合的盲/双盲测试集上的与分数分布相关的直方图，其中，使用召回率作为阳性怀孕(有活力)胚胎的主要指标，用带粗的向前对角线的条表示正确的模型预测结果(即真阳性)，用带细的向后对角线的条表示不正确的模型预测结果(即假阴性)；

图4D是对于单个机器学习模型在组合的盲/双盲测试集上的与分数分布相关的直方图，其中，使用召回率作为阴性怀孕(无活力)胚胎的主要指标，用带粗的向前对角线的条表示正确的模型预测结果(即真阴性)，用带细的向后对角线的条表示不正确的模型预测结果(即假阳性)；

图5A是与集成模型的阳性怀孕(有活力)胚胎分数分布相关的直方图，该集成模型是基于平衡准确度在共享验证集上选择的，用绿色表示正确的模型预测结果(即真阳性)，用带细的向后对角线的条表示不正确的模型预测结果(即假阴性)；

图5B是与集成模型的阴性怀孕(无活力)胚胎分数分布相关的直方图，该集成模型是基于平衡准确度在共享验证集上选择的，用带粗的向前对角线的条表示正确的模型预测结果(即真阴性)，用带细的向后对角线的条表示不正确的模型预测结果(即假阳性)；

图5C是与集成模型的阳性怀孕(有活力)胚胎分数分布相关的直方图，该集成模型是基于平衡准确度在共享盲测试集上选择的，用带粗的向前对角线的条表示正确的模型预测结果(即真阳性)，用带细的向后对角线的条表示不正确的模型预测结果(即假阴性)；

图5D是与集成模型的阴性怀孕(无活力)胚胎分数分布相关的直方图，该集成模型是基于平衡准确度在共享盲测试集上选择的，用带粗的向前对角线的条表示正确的模型预测结果(即真阴性)，用带细的向后对角线的条表示不正确的模型预测结果(即假阳性)；

图6A是与集成模型的阳性怀孕(有活力)胚胎分数分布相关的直方图，该集成模型是基于对数损失在共享验证集上选择的，用带粗的向前对角线的条表示正确的模型预测结果(即真阳性)，用带细的向后对角线的条表示不正确的模型预测结果(即假阴性)；

图6B是与集成模型的阴性怀孕(无活力)胚胎分数分布相关的直方图，该集成模型是基于对数损失在共享验证集上选择的，用带粗的向前对角线的条表示正确的模型预测结果(即真阴性)，用带细的向后对角线的条表示不正确的模型预测结果(即假阳性)；

图6C是与集成模型的阳性怀孕(有活力)胚胎分数分布相关的直方图，该集成模型是基于对数损失在共享盲测试集上选择的，用带粗的向前对角线的条表示正确的模型预测结果(即真阳性)，用带细的向后对角线的条表示不正确的模型预测结果(即假阴性)；

图6D是与集成模型的阴性怀孕(无活力)胚胎分数分布相关的直方图，该集成模型是基于对数损失在共享盲测试集上选择的，用带粗的向前对角线的条表示正确的模型预测结果(即真阴性)，用带细的向后对角线的条表示不正确的模型预测结果(即假阳性)；

图7A是对于单个机器学***线的条表示正确的模型预测结果(即真阳性)，用黑色填充条表示不正确的模型预测结果(即假阴性)；

图7B是对于单个机器学***线的条表示正确的模型预测结果(即真阴性)，用黑色填充条表示不正确的模型预测结果(即假阴性)；

图7C是对于单个机器学***线的条表示正确的模型预测结果(即真阳性)，用黑色填充条表示不正确的模型预测结果(即假阴性)；

图7D是对于单个机器学***线的条表示正确的模型预测结果(即真阴性)，用黑色填充条表示不正确的模型预测结果(即假阴性)。

在下面的描述中，相同的附图标记在整个附图中表示相同或相应的部分。

具体实施方式

现在参考图1A，讨论使用以下指标训练AI模型的方法的实施例：这些指标考虑置信度，而不是仅仅考虑准确度。

大多数现有技术的AI训练方法在判断AI模型的性能时着重于总准确度或总准确度的变体。其可以包括：模型对各个类(分类的类别)的准确度，即“类准确度”，以及准确度的变体，如通过每个类别或类中的图像总数将准确度加权，即“平衡准确度”。然而，这些着重于准确度的指标的问题在于，AI模型的平移能力或泛化能力并不是由这些量直接衡量的。

本文讨论的实施例可用于生成性能良好的AI模型，这些AI模型以AI模型能够将某些图像/数据正确分类的置信度水平(或置信度水平/分数的分布)为指导。虽然可以计算准确度并将其用于最终报告，但在报告之前，这些方法在从许多潜在模型中选择最佳AI模型时，将正确测量该置信度水平的一个或多个置信度指标作为中间步骤。如下文所述，在建立AI模型的平移能力时，使用考虑置信度的性能指标(或简称为指标)更直接有用。

图1A是根据一实施例的生成人工智能(AI)模型100的示意流程图。

在步骤101，在多个轮次上使用公共验证数据集训练多个人工智能(AI)模型。在每个模型的训练期间，在一个或多个轮次上计算至少一个置信度指标，并且对于每个模型，保存多个轮次上的最佳置信度指标值以及所述最佳置信度指标的相关轮次数。优选地，在每个轮次或每隔几个轮次计算置信度指标。

至少一个置信度指标可以包括主要评估指标和一个或多个次要评估指标。次要评估指标可以用作平局打破指标。在一些实施例中，这些指标中的至少一个是置信度指标，且至少一个是准确度指标。这些指标可以包括：准确度、平均类准确度、灵敏度、特异性、混淆矩阵、灵敏度对特异性的比率、精确度、阴性预测值、平衡准确率、对数损失、组合的类对数损失、组合的数据源对数损失、组合的类和数据源对数损失、正切分数、有界正切分数、每个类的正切分数与对数损失的比率、Sigmoid分数、轮次数、均方误差(MSE)、均方根误差、平均误差均值、平均精确度均值(mAP)、置信度分数、曲线下面积(AUC)阈值、接收器操作特征(ROC)曲线阈值、准确度-召回率曲线。后面会进一步讨论这些指标。

多个AI模型可以包括多个独特的模型配置。每个模型配置都包括：模型类型(例如，二元分类、多元分类、回归、对象检测等)、以及模型架构或方法(机器学习，包括随机森林、支持向量机、聚类；深度学习/卷积神经网络，包括ResNet、DenseNet或InceptionNet，包括特定实现方式，例如不同数量的层和层间连接，例如ResNet-18、ResNet-50、ResNet-101)。我们还扩展了独特的模型配置的概念，以包括使用不同的模型输入、超参数或预处理方法，如分割(如果相关)。在一个实施例中，AI模型可以包括应用于未分割的图像的至少一个AI模型以及应用于分割后的图像的至少一个AI模型。

一种或多种预处理方法可以包括计算机视觉预处理方法，以生成图像的特征描述符。计算机视觉模型依赖于识别图像的关键特征并用描述符来表达它们。这些描述符可以对诸如像素变化、灰度、纹理粗糙度、固定角点或图像梯度方向等的质量进行编码，它们在OpenCV或类似库中实现。通过选择要在每个图像中搜索的特征，可以通过发现特征的哪种排列方式是理想类别(例如胚胎存活率)的良好指标来建立模型。这一过程最好通过机器学习过程(例如随机森林或支持向量机)来实现，它们能够根据图像的描述将图像从计算机视觉分析中分离出来。

深度学习和神经网络对特征进行“学习”，而不是像机器学习模型那样依赖手工设计的特征描述符。这使得它们能够学习根据所需任务定制的“特征表示”。这些方法适用于图像分析，因为它们能够提取小细节和整体形态，以实现整体分类。可以使用各种深度学习模型，每种模型具有不同的架构(即不同的层数和层间连接)，例如残差网络(例如ResNet-18、ResNet-50和ResNet-101)，密集连接的网络(例如DenseNet-121和DenseNet-161)和其他变体(例如Inception V4和Inception-ResNetV2)。训练包括尝试模型参数和超参数的不同组合，包括输入图像分辨率、优化器选择、学习率值和调度、动量值、随机失活(dropout)和权重初始化(预训练)。可以定义损失函数来评估模型的执行情况，且在训练期间，通过改变学习率来优化深度学习模型，以驱动网络权重参数的更新机制，从而将目标/损失函数最小化。

然后使用多个训练后的AI模型生成最终AI模型(步骤102)。在一个实施例中，其包括：基于所保存的最佳置信度指标选择多个训练后的AI模型中的至少一个AI模型(步骤103)，并计算应用于盲测试集的所选择的至少一个训练后的AI模型的置信度指标(步骤104)。生成最终AI模型(步骤102)可以使用集成方法(其使用基于所保存的最佳置信度指标的所述多个训练后的AI模型中的至少两个AI模型和基于置信度的投票策略)、蒸馏方法(其使用至少两个训练后的AI模型来训练基于至少一个置信度指标的学生模型)、或其他一些选择方法(如，通过选择多个训练后的AI模型中的至少两个AI模型，使用基于置信度的指标对多个训练后的AI模型中的至少两个AI模型中的每一个进行比较，然后基于比较结果选择最佳的训练后的AI模型)。

图1B是用于生成最终AI模型(步骤102)的集成模型110的流程图。基于置信度指标，选择训练后的AI模型中的两个或多个(包括所有)AI模型纳入集成模型(步骤113)。每个模型只在其最大性能下考虑一次，同一模型的多个轮次不被包括。为了选择要纳入的AI模型，可根据主要置信度指标对细节进行排名。在一个实施例中，超过阈值的所有模型被选择以纳入集成模型中。在一些实施例中，除了主要置信度指标之外，还可以使用其他选择标准。例如，次要指标(基于置信度的或基于准确度的)和/或轮次数。作为附加或作为替代，还可以选择模型，以确保集成中的AI模型包含一系列不同的模型架构以及计算机视觉预处理或分割技术。也就是说，当有两个模型具有相似的模型配置(如，架构)和相似的主要指标时，只能选择其中一个作为该模型配置的代表。

使用所选择的AI模型生成多个独特的候选集成模型(步骤114)。每个候选集成模型根据基于置信度的投票策略将所选择的训练后的AI模型的结果组合起来，以生成单个结果。

投票策略定义了将模型分数组合起来的方法。在选择集成时，每个投票策略都被视为集成模型的一部分，因此集成模型包括：

·AI模型的集合(或子集)，以及

·投票策略。

投票策略可以包括基于置信度的策略，如最大置信度、平均置信度、多数平均置信度(majority-mean confidence)、多数最大置信度(majority-max confidence)、中值置信度、加权平均置信度，以及其他将来自多个模型的预测结果分解(resolve)成单个分数的策略。

计算应用于公共集成验证数据集的每个候选集成模型的置信度指标(和任何次要评估指标)(步骤115)。公共集成验证数据集可以是公共验证数据集或中间测试集(不用于训练多个人工智能(AI)模型，与最终盲测试集不同)。基于公共集成验证数据集的置信度指标选择最佳候选集成模型(步骤116)。任何次要指标都可以用作相似的置信度指标之间的平局打破者，或帮助选择最佳模型，例如，如果多个指标超过了相关阈值，其中多个指标中的至少一个指标是置信度指标。类似地，如果对于第一个模型，主要置信度指标是好的，但次要指标是差的，而对于第二个模型，我们有一主要置信度指标也是好的，但是小于第一个模型的值，但是次要指标也很好，或者至少比第一个模型中的次要指标好得多，那么我们可以选择第二个模型。

然后将最佳候选集成模型应用于盲测试集(未变化，即，具有相同的配置和超参数)，我们计算了置信度指标并报告。例如，报告可以包括与最终模型相关的分数分布，以及各个数据点、类和数据源的细分(即，对于医疗应用，每个患者、每个类如IVF的有活力胚胎或无活力胚胎、以及每个医疗机构的细分)。这是一个重要的考虑因素，因为泛化能力高的模型预计在盲测试集上具有高的准确度指标，即使它并不是使用准确度指标进行选择的。基于置信度指标选择模型，不仅可以提高该指标的性能，还可以提高其他指标(AI领域外的人们更常见和更容易理解的指标，如准确度)的性能。

然后，如果最佳置信度指标(例如主要评估指标)(在盲测试集上)超过接受阈值(例如50％、70％、90％、95％等)，我们就部署AI集成模型105用于新数据集。如果模型未达到阈值，则可以用新的训练数据或不同的模型配置的分布，重复该过程。

模型可以由其网络权重定义，部署可以包括导出这些网络权重并将其加载到计算***(例如云计算平台)中，以在新数据上执行最终训练的AI模型100。在一些实施例中，这可能涉及使用机器学***台、服务器或用户计算设备)上构建模型。

可以参考图2A进一步理解AI模型100的计算生成，图2A是基于云的计算***1的架构示意图，基于云的计算***1被配置为根据一个实施例生成和使用AI模型100。参考图1，AI模型生成方法由模型监视器21处理。

模型监视器21需要用户40向包含数据存储库的数据管理平台提供数据(包括数据项和/或图像)和元数据14。执行数据准备步骤，以例如将数据项或图像移动到特定文件夹、重命名并对任何图像执行预处理(如，对象检测、分割、阿尔法通道移除、填充、裁剪/定位、归一化、缩放等)。还可以计算特征描述符，并提前生成增强图像。然而，在训练期间(即，即时(on the fly))，也可以进行包括增强的额外的预处理。还可以对图像进行质量评估，以允许拒绝明显较差的图像，并允许捕获替换图像。对患者记录或其他医疗机构数据进行处理(准备)以提取分类结果，如二元分类中的有活力或无活力、多元分类中的输出类、或非分类案例中的其他结果量度，该分类结果与每个图像或数据相连接或关联，以能够在AI模型训练和/或评估中使用。使用最新版本的训练算法将准备好的数据加载到云提供商(例如AWS)模板服务器28上(16)。保存模板服务器，并在一系列训练服务器集群37上制作多个副本，训练服务器集群37可以基于CPU、GPU、ASIC、FPGA或TPU(张量处理单元)，它们形成训练服务器35。

然后，针对用户40提交的每个作业，从多个基于云的训练服务器35对模型监视器Web服务器31应用训练服务器37。每个训练服务器35使用诸如Pytorch、Tensorflow或等效的库来运行用于训练AI模型的预先准备的代码(来自模板服务器28)，并且可以使用诸如OpenCV的计算机视觉库。PyTorch和OpenCV是开源库，具有用于构建CV机器学习模型的低级命令。AI模型可以是深度学习模型或机器学习模型，包括基于CV的机器学习模型。

训练服务器37管理训练过程。其可包括例如使用随机分配过程将图像划分为训练集、验证集和盲验证集。而且，在训练-验证周期中，训练服务器37还可以在周期开始时将图像集随机化，以使得在每个周期分析不同的图像子集，或者以不同的顺序分析不同的图像子集。如果之前未执行预处理或预处理不完整(例如，在数据管理期间)，则可执行额外的预处理，包括对象检测、分割和生成遮罩数据集、计算/估计CV特征描述符，以及生成数据增强。预处理还可根据需要包括填充、归一化等。也就是说，预处理步骤102可以在训练之前、训练期间或某种组合(即分布式预处理)期间执行。可以从浏览器界面管理正在运行的训练服务器35的数量。随着训练的进行，有关训练状态的日志记录信息被记录到分布式日志记录服务，如云监控(CloudWatch)60上(62)。指标被计算，信息也从日志中解析出来，并保存到关系数据库36中。模型还被定期保存到数据存储器(例如，AWS简单存储服务(S3)或类似的云存储服务)50中(51)，以使得在以后检索和加载(例如，在发生错误或其他停止时重新启动)。如果训练服务器的作业完成或遇到错误，则可以向用户40发送关于训练服务器的状态的电子邮件更新(44)。

在每个训练集群37中都会发生很多个过程。一旦集群经由Web服务器31启动，脚本将自动运行，读取准备好的图像和患者记录，并开始所请求的特定Pytorch/OpenCV训练代码(71)。模型训练28的输入参数由用户40经由浏览器界面42或经由配置脚本提供。然后针对所请求的模型参数启动训练过程72，训练过程72可以是一项漫长而高强度的任务。因此，为了在训练过程中不丢失进度，日志会被定期保存到日志记录(例如AWS Cloudwatch)服务60(62)，模型的当前版本(训练时的)会被保存到数据(例如S3)存储服务51(51)，以供以后检索和使用。图3B示出了训练服务器上的模型训练过程的示意流程图的一个实施例。通过访问数据存储服务上的一系列经过训练的AI模型，可以例如使用集成、蒸馏或类似方法将多个模型组合在一起，以合并一系列深度学***台80。如上所述，模型可以由其网络权重定义，部署可以包括导出这些网络权重并将其加载到交付平台80，以在新数据上执行最终训练的AI模型100。交付平台可以是基于云的计算***、基于服务器的计算***或其他计算***，用于训练AI模型的相同计算***可以用于部署AI模型。在一些实施例中，用于训练AI模型的相同计算***可用于部署AI模型，因此部署包括将训练后的AI模型保存在Web服务器31的内存中，或导出模型权重以加载到传送服务器上。

交付平台80是一个计算***，包括一个或多个处理器82、一个或多个存储器84和通信接口86。存储器84配置为存储训练后的AI模型，该模型可以通过通信接口86从模型监视器web服务器31接收，也可以从存储在电子存储设备上的模型导出加载。处理器82配置为通过通信接口接收输入数据(例如，来自用户40的用于分类的图像)，并使用存储的AI模型处理输入数据以生成模型结果(例如分类)，通信接口84配置为将模型结果发送到用户接口88或导出到数据存储设备或电子报告。处理器配置为接收输入数据，并使用存储的训练AI模型处理输入数据，以生成模型结果。通信模块86配置为接收输入数据并发送或存储模型结果。通信模块可以与用户界面88进行通信，例如web应用程序，以接收输入数据并显示模型结果，例如分类、对象边界框、分割边界等。用户界面88可以在用户计算设备上执行，并且配置为允许用户40将数据或图像直接拖放到用户界面(或其他本地应用程序)88上，它触发***执行数据或图像的任何预处理(如果需要)，并将数据或图像传递给经过训练/验证的AI模型108，以获得分类或模型结果(例如，对象边界框、分割边界等)，该结果可以立即在报告中返回给用户和/或显示在用户界面88中。用户界面(或本地应用程序)88还允许用户在数据库等数据存储设备中存储图像和患者信息等数据，创建关于数据的各种报告，为其组织、集团或特定用户创建关于工具使用情况的审计报告，以及收费和用户帐户(例如，创建用户、删除用户、重置密码、更改访问级别等)。交付平台80可以基于云，还可以允许产品管理员访问***以创建新的客户帐户和用户、重置密码，以及访问客户/用户帐户(包括数据和屏幕)，以利于技术支持。

一系列指标可用于主要和次要评估指标。基于准确度的指标包括准确度、平均类准确度、灵敏度、特异性、混淆矩阵、灵敏度对特异性的比率、精确度、阴性预测值和平衡准确度(通常用于分类模型类型)，以及均方误差(MSE)、均方根误差、平均误差均值、平均准确度均值(mAP)(通常用于回归和对象检测模型类型)。

基于置信度的指标包括对数损失、组合的类对数损失、组合的数据源对数损失、组合的类和数据源对数损失、正切分数、有界正切分数、每个类的正切分数与对数损失的比率、Sigmoid分数。其他指标包括轮次数、曲线下面积(AUC)阈值、接收机工作特性(ROC)曲线阈值、以及表示稳定性和可迁移性的精确率-召回率曲线曲线。

下文将进一步讨论这些指标。然而，需要理解的是，这些指标仅具有代表性，可以使用变体和其他基于准确度或置信度的指标。

准确度

该指标定义为被正确识别的数据的总数(与类无关)除以引用该准确度的集合中的数据总数。其通常为验证集、盲测试集或双盲测试集。它是文献中最常引用的指标，适用于非常大且精心策划的数据集，但对于真实行业数据集的平移能力来说，它是一个比较差的量度，尤其是如果数据来源于不同于原始训练集和验证集的分布。当模型应用于非常不平衡的类分布时(即，在某些情况下，多数类和少数类对比强烈，通过仅预测多数类即可实现高的准确度)，准确度作为指标也不合适。

平均类准确度

该指标简单地定义为每个类的准确度百分比之和除以类的总数目。由于每个类的准确度都以百分比表示，在不均匀数据集上表现良好的模型(例如，大多数数据仅为一个类(例如，胚胎数据集中的大多数胚胎图像是有活力的)，而模型偏向于这个类)在这一指标上得分不高。它可以快速评估模型是否在每个类中都获得了许多正确的示例。在实践中，它的性能通常与下面的平衡准确度非常相似，特别是在验证集或测试集中每个类中的示例总数相似的情况下。对于非常不平衡的样本数据集，报告平均类准确度仍然可能具有误导性，因为它严重地倾向于在较小的类上表现良好的模型(即，在模型在较小的类上表现异常良好或较差的情况下，较小类的与其较小量的数据有关的统计波动较大)。

灵敏度或召回率(真阳性率-TPR)

灵敏度、TPR和召回率是同义词，其形式如下：

TPR＝TP/(TP+FN) 式1

其中TP是被测的集合中真阳性样本(预测为阳性，结果为阳性)的总数，FN是被测的集合中假阴性(预计为阴性，结果为阳性)的总数。

这个量代表了模型的检测分类(模型是在该分类上训练的，例如胚胎存活率、PGT-A非整倍体或癌症检测)的“阳性”示例的能力。由什么构成阳性示例或类，取决于分类问题(模型是在该分类问题上训练的)，在关注灵敏度或召回率指标时不同的产业问题会表现出不同程度的有用性。在某些情况下，但只有在模型并非很不平衡或类准确度变化很大的情况下，以及在灵敏度不太容易受标签噪声影响的情况下(例如，在胚胎存活率的情况下，在无活力胚胎类中标签噪声更占优势)，它可以作为一个平移能力高的模型的更可靠的标志。例如，如果一个模型在高比率(>90％)将有活力胚胎分类，在低比率(<20％)将无活力胚胎分类，那么它是平移能力的不好的标志。因此，将此指标与其他指标结合在一起是有用的。在上面的胚胎二元分类的示例中，这将确保模型不会：a)降低无活力胚胎的准确度；b)在特定轮次幸运地降落在一组非常容易分类的有活力胚胎上，这对整体的模型性能会造成误导。

特异性(真阴性率-TNR)

特异性或TNR的形式为：

TNR＝TN/(TN+FP) 式2

其中，TN是被测的集合中的真阴性示例(预测为阴性，结果为阴性)的总数，FP是被测的集合中的假阳性(预计为阳性，结果为负数)的总数。

这个量代表了模型的检测分类(模型是在该分类上训练的)的“阴性”示例的能力。在二元分类模型的情况下，灵敏度和特异性是仅有的两个可用的特异于类的准确度。所有类的类准确度对于检查整个集合以及单个分离的数据源的细分非常重要。在上述胚胎存活率问题的情况下，重要的是要看无活力的准确度，不仅是对整个测试集，而且对整个测试集中的分离的医疗机构的细分也是如此。在胚胎非侵入性PGT-A模型的情况下，特异性与胚胎的整倍体类有关，而在癌症检测的情况下，特异性与非癌症样本有关。

混淆矩阵

混淆矩阵不过是上文定义的四个量的表格表示：真阳性(TP)、真阴性(TN)、假阳性(FP)和假阴性(FN)的总数。请注意，计算混淆矩阵和四个量中的每一个都需要建立一个阈值。它是一个这样的值：如果高于它则模型的输出(即，预测分数)将被视为阳性，如果低于它则模型的输出将被视为是阴性。对于二元分类问题，例如胚胎存活率分类，通常需要对模型进行训练，以便将阈值设置为100％中的50％(即，归一化，且两个类别之间的权重相等)，但不必须是这样。在集成模型的情况下，总的组合后的集成模型具有的阈值可能不同于组成它的各个模型。为了建立最佳性能阈值，应在验证集上执行此程序，以避免过度拟合测试集。评估阈值的方法包括扫描所有可能的阈值，这些阈值可以采用以下的形式：曲线下面积(AUC)或接收器工作特性(ROC)曲线、或精确率-召回率(PR)曲线。该指标描述如下。

灵敏度对特异性的比率

虽然来自某些地区的数据可能更难稳定，但尝试在不同类和不同地区同时获得更均匀的准确度意味着难以实现的相互矛盾的效果(competing effect)。在某些情况下，类准确度之间的比率可能优先为不相等，特别是如果噪声或其他不良数据在要分类的类中分布不均匀。在胚胎存活率分类的情况下，当平移性很好时，灵敏度与特异性的比率已被证明大于1。因此，组合指标(灵敏度与特异性的比率)可以定义为灵敏度/特异性，是一个有用的指标，但其最佳值取决于要解决的问题。

精确度(阳性预测值-PPV)

PPV采用以下形式：

PPV＝TP/(TP+FP) 式3

这个量代表被正确分类的阳性预测总数的百分比。它通常与召回率结合使用，作为描述模型性能的一种方式，不易受到向非常不平衡数据集偏置的影响(参见下面的图形信息)。它可以直接从混淆矩阵中算出。

阴性预测值-NPV

NPV采用以下形式：

PPV＝TN/(TN+FN) 式4

这个量代表被正确分类的阴性预测总数的百分比，与PPV相对应。它可以直接从混淆矩阵中算出。

F1分数

F1分数定义为：

2*准确度*召回率/(准确度+召回率) 式5

该指标提供了准确度和召回率之间的组合指标，不易受到非常不平衡数据集的影响。

平衡准确度

平衡准确度定义为：

(灵敏度+特异性)/2 式6

该指标是一个总体准确度指标，作为上文定义的准确度的替代，对特异性和灵敏度给予同等权重。

(负)对数损失

预测结果为0和1之间的值的分类模型的对数损失定义为：

其中

提供了预测结果的“正确性”水平的量度，其中

意味着预测结果与目标标签完全匹配，

意味着预测结果与目标标签完全相反。

对数损失是对模型本身性能的最直接量度，因为它与用于在训练期间优化模型本身的交叉熵损失函数有关。它测量分类模型的性能，其中预测结果是0和1之间的值。因此，对数损失，基于预测分数偏离正确分类的程度，固有地考虑了预测分数的不确定性。对数损失是置信度指标的一个类。

置信度指标考虑了：(1)对于每个数据点，预测该类时的置信度，即正确分类的分数(应该较高)和不正确分类的分数(应该较低)之间的分布中的距离；(2)在所有类中，预测每个类时的置信度，其确保了类与类之间的置信度分数的均衡的高分布。

在实践中，对根据置信度指标表现良好的模型进行分析，发现其与基于准确度(或平衡准确度或平均类准确度)指标选择的模型有一定的相关性。置信度指标倾向于支持更高轮次的结果，但与其他指标相比，通常会导致每个轮次行为类似。这是有意义的，因为它选择的模型工作在AI分数分布高度分离(即，正确预测和不正确预测之间有明显区别)的情形。这本身并不意味着该模型能够很好地处理具有意外特征(分辨率、颜色平衡)的图像，也不意味着该模型能够在构成完整数据集的数据源的细分中稳定运行。然而，它表示在特定的轮次，该模型可以很好地泛化。

选择稳定模型的一个重要方面是，模型损失(或其他指标)在多个轮次保持一致，并保持稳定(或直到过度训练点)。为了揭示这一点，可以考虑(每个轮次的)图形信息。

各个类(和组合的)的对数损失：组合的类对数损失

我们提议也可以单独地计算各不同的类的对数损失，这样可以提供每个类别的分布信息。这在类不平衡或类包含彼此不同数量的噪声的情况下很有用。在这些情况下，一个类的对数损失可能比另一个类的对数损失提供更好的泛化表征。一般来说，与噪声较小的类相关的对数损失会提供泛化的最佳量度。

然后可以将各个类的对数损失相加，得到组合的类对数损失，它不同于总对数损失(因为它对每个类赋予了相同的权重，而不管每个类中的样本总数是多少)。

各个数据源(和组合的)的对数损失：组合的数据源对数损失

我们提议也可以单独地计算各不同的数据源的对数损失，这样可以提供每个数据源的分布信息，并确保所选择的模型在不同的(而且可能是多种多样的)数据源中很好地泛化，而且不偏向于单个数据源或数据源的子集。其可以是AI泛化的很好的量度。

在数据源之间的数据大小不平衡或各源包含彼此不同的数量的噪声的情况下，这也很有用。在这些情况下，一个数据源上的对数损失可能比另一类上的对数损失提供更好的泛化表征。一般来说，与噪声较小的数据源相关联的对数损失会提供泛化的最佳量度。

然后，可以将各个数据源的对数损失相加，得出一个组合的数据源对数损失，它不同于总对数损失(因为它对每个数据源赋予了相同的权重，而不管每个数据源中的样本总数是多少)。

各个类和数据源(和组合的)的对数损失：组合的类和数据源对数损失

考虑到既跨类又跨(不同和多种多样的)数据源的泛化能力，我们提议将组合的类对数损失和组合的数据源对数损失结合起来，以确保最大程度的泛化能力。

然后可以将各个类和数据源的对数损失相加，得到组合的类和数据源对数损失，它不同于总对数损失(因为它对每个数据源赋予了相同的权重，而不管每个类和数据源中的样本总数是多少)。

正切分数

预测结果为0和1之间的值的分类模型的正切分数定义为：

有界正切分数

正切分数函数的一个实用的调整是重新缩放

以使指标有界，避免在

或

时出现±∞的脱离(run-off)分数，定义如下：

其中0<r<1，但通常选择为较小的数字(例如r＝0.05)。

正切分数用于抵消对数损失的不希望的趋势，其通过奖励确信正确的模型预测，不成比例地“惩罚”确信不正确的模型预测。当引数(argument)接近渐近线

(其中tan(x)→±∞)时，可以使用上限和下限来剪裁正切分数。

每个类的正切分数与对数损失的比率

当二元数据集在一个类中包含不正确的标签时，每个类的正切分数与对数损失的比率这一指标可以平衡对数损失(不公平地惩罚在劣质数据上训练的模型)和正切分数(它可能导致干净类中的错误确信预测率高)的不希望的影响。

我们提议，计算不干净类(标签错误率显著的类)上的正切分数与干净类(标签错误率可忽略的类)上的对数损失之间的比率，提供一个可以抵消这二者中的某一个单独指标的有害影响的指标。这种情形仅适用于一个类具有明显更高的标签错误率的情况。

使用每个类的正切分数与对数损失的比率作为主要指标，图3A和3C表示有活力胚胎(用垂直虚线表示)的比率的直方图，从0.0到1.0，二元阈值为0.5。被正确分类的胚胎显示为带粗水平线的条(真阳性)32，被不正确分类的胚胎则显示为黑色的列(假阴性)31。图3B和3D示出无活力胚胎的等效直方图，其中被正确分类的胚胎显示为带水平线的条(真阴性)34，被不正确分类的胚胎显示为带粗的向后对角线的条(假阳性)33。

Sigmoid分数

预测结果为0和1之间的值的分类模型的Sigmoid分数定义为：

其中k是衰减常数。

Sigmoid分数是其他准确度指标的“软”替代品，它提供了模型性能的分级测量，而不是锐截至(sharp cut-off)。

分数梯度(也称为边际灵敏度)

图3示出准确度、对数损失、正切分数和Sigmoid分数等指标相对于

的分数和分数梯度，说明了各种指标的边际灵敏度。根据具体问题和潜在的数据分布(或可疑的分布)，可以选择适当的基于置信度的指标(即，最适合数据的指标)。

还可以使用一系列其他模型选择标准。

轮次数

模型在训练期间的性能的一个非常粗略的指标是它通过训练集的次数(或轮次)。虽然该信息无法提供其他指标所能提供的对类之间的平衡的更丰富的分析和洞察，也无法从模型中获得的预测分数的分布，但它提供了关于模型的高级信息，即关于模型是否收敛的意思，即，模型是否已达到稳定状态，在该稳定状态下通过继续训练模型不可能出现任何改善。这与训练集和验证集上损失的图形表示有关，下文将对此进行更全面的描述。此外，训练到更高轮次的模型也更有可能在训练过程中获得所有可用的数据增强，并且更有可能对预测更有信心(即，预测分数的分布将包含更多的高置信度示例)。训练到极高轮次的模型也可能由于过度训练而失去泛化能力。因此，该指标仅用作非常粗略的指标。

非分类模型的指标

虽然从混淆矩阵和其他相关的准确度指标中获得的指标通常用于(二元)分类问题，但也存在其他类型的模型，它们可以使用不同的指标。其中一些其他指标包括：均方误差(MSE)、均方根误差、平均误差均值、平均精确度均值(mAP)、和置信度分数，这些指标用于回归和对象检测模型。

图形信息

关于已经发生的训练过程的图形信息，例如描述损失(其作为轮次的函数)的曲线图(对于训练集和验证集这二者)，对于确定以下事项具有指导意义：a)模型是否在一系列轮次中***地改善了损失，从而学习到信息；b)模型是否收敛到稳定状态，c)模型是否已被过度训练(即，验证损失变差，而训练损失继续改善)。

每个轮次的分数分布(以直方图或其他绘图形式显示，以将分布可视化)，可以提供模型性能的表征。例如，如果尝试解决二元分类问题的模型的预测分数的分布是双峰的，并且模式之间很好地分离，这是平移能力的标志。然而，如果分布是高斯型的，那么正确分类高于不正确分类的概率可能很小，因为大多数分数都聚集在决策阈值附近，可能不比随机概率好，因此对于没见过的数据集不可能很好地泛化。

曲线下面积(AUC)或接收器工作特性(ROC)曲线是确定模型决策阈值(即，在二元分类问题的情况下，高于该阈值的预测分数被视为有活力的预测，低于该阈值的预测分数则被视为无活力的预测)的常用可视化工具。它是通过根据FPR绘制TPR而创建的。ROC曲线还可用于直观评估给定模型的最佳阈值与随机概率相比是否具有显著的预测能力。然而，在数据集非常不平衡的情况下，也可以认为它们不可靠。

对于非常不平衡的数据集，经常推荐精确度-召回率曲线。这是由于在计算召回率或准确度时避免了真阴性的总数。例如，当阴性结果数据的数量与阳性结果数据的数量的比率发生变化时，精确度-召回率曲线应保持大致不变。

为了进一步说明该方法，我们现在考虑将其应用于胚胎存活率二元分类模型的开发，以选择IVF手术中植入的胚胎。数据集包括第5天胚泡胚胎的2D静态光学显微镜图像。在此提供使用不同指标的三个案例研究。基于主要的准确度和/或其他指标获得了一系列性能优异的模型，并与基于置信度指标的性能优异的模型进行了比较。然后将模型应用于为这些实验性比较准备的盲测试集，以评估当模型迁移到新数据集时，其鲁棒性/泛化能力是否存在差异。对于一个指标是否应该单独使用，还是与其他指标一起使用，或者根本不使用，也进行了实证性的探索/测试。

首先，我们基于其在多个轮次上的泛化能力和一致性，比较了各种指标。然后，将重点放在根据该问题的首选指标标准(即，对数损失)选择模型。

与该问题相关的其他次要量度包括：

·平衡准确度；

·灵敏度对特异性的比率；

·各个类的对数损失(例如，无活力类和有活力类)；

·轮次数；以及

·任何未使用的置信度分数的主要指标

在灵敏度对特异性的比率的情况下，应选择一系列模型，以使得该指标在要进行集成的多个模型中有所不同，以便提供一个鲁棒的集成，该集成包括对胚胎的不同亚群具有不同偏向的多个模型。

在轮次数的情况下，其目的是避免在训练过程中由于偶然性，根据主要指标各模型表现良好，而没有足够的时间充分利用需要许多轮次的训练方法(例如增强)。因此，指定了一个最小的轮次数(即，最小轮次阈值)，以避免这些案例对集成作出贡献。

这些实施例的数据集包括来自7个分离的医疗区域(共包括11个地点)的3987个图像。基于植入后第一次超声波扫描(通常为6-8周)时胎儿心跳的检测，评估了存活率。

为简单起见，医疗机构数据集的名称表示为医疗机构数据1、医疗机构数据2等。表1总结了7个医疗机构数据集的类的大小(无活力图像或有活力图像的总数)和总大小，可以看出类分布在数据集之间有很大差异。总共有3987个图像用于模型训练和评估的目的。

表1

数据集描述。

指标、泛化能力和一致性的比较。

可以通过检查特定选择指标在验证集和测试集上的一致性，模型在平衡准确度方面的泛化能力(即，对于给定的选择指标(可能不是平衡准确度)，模型准确度是否能很好地泛化)，以及直方图显示的分数分布，对根据在验证集上测量的特定指标进行的模型选择进行评估。

在下面的表2中，给出了几个训练后的AI模型的平衡准确度值结果，每个模型都是从具有独特模型配置(包括不同的训练参数和使用不同的主要选择指标)的大量模型中选择的。已经发现，使用平均类准确度和平衡准确度作为主要指标的AI模型通常会得到类似的训练后的AI模型和轮次。虽然验证集上的平衡准确度对于这个问题来说很高(67.6％)，但测试集的平衡准确度显著下降(58％)，这表明在转换为验证集时，模型不能很好地泛化到测试(盲)数据集(包括双盲数据集，即，来自分离的数据源的数据，这些数据都未用于训练)，而且，无法确定这些指标是用于模型选择的最佳指标。

在以对数损失作为选择指标(基于置信度的指标)的情况下，验证集上的平衡准确度低于准确度指标，但是，测试集上测量的平衡准确度有所提高。下面的对对数损失(一种置信度指标)的进一步调查将表明，该指标对于泛化并由此对于模型选择来说是最可靠的。召回率提出了一个相反的问题，即，验证集上的平衡准确度模型性能不佳，而测试集上的平衡准确度性能明显更好。这一特殊特征对于胚胎存活率问题具有特异性，其中召回率(或对有活力胚胎进行分类)表示标签噪声较小的数据集，而无活力胚胎数据集包含明显较大的标签噪声。虽然这里的重点是选择指标的有效性，但召回率(实际上忽略了无活力的准确度)不能单独用作选择指标，因为对于以100％的准确度对阳性示例进行分类但以低的准确度对阴性示例进行分类的模型来说它是无能为力的。然而，召回率代表了一个重要的选择指标，对于这个问题来说，将其作为主要选择指标考虑是很重要的。另一方面，精确度作为选择指标与其他准确度量度的行为类似。

表2

针对各种选择指标，对验证集上的和组合的盲双盲测试集上的平衡准确度指标进行比较。还示出与所选择的模型关联的轮次数。

使用召回率作为主要选择指标，检查从分类模型中提取的分数分布，对于验证集见图4A和4B，对于测试集见图4C和4D。图4A和4C表示有活力胚胎(用垂直虚线表示)的分数的直方图，从0.0到1.0，二元阈值为0.5。被正确分类的胚胎被着色为带粗的向前对角线的条(真阳性)42，而被不正确分类的胚胎则被着色为带细的向后对角线的条(假阴性)41。图4B和4D示出无活力胚胎的等效直方图，其中，被正确分类的胚胎被着色为带粗的向前对角线的条(真阴性)44，而被不正确分类的胚胎则被着色为带细的向后对角线的条(假阳性)43。

请注意，测试集包含医疗机构的分布，包括盲测试示例和双盲测试示例(其中双盲数据来源于训练集或验证集中没有出现的医疗机构，因此数据分布会有所不同)。虽然模型的表现倾向于验证集中的有活力胚胎，这是将召回率作为选择指标的固有特性，但图4A和4B的比较表明，测试集中的分数分布并不明确。在阈值0.5附近有一个单一的类高斯(单峰)分布，模型在平衡准确度方面的高性能更可能基于偶然性，不太可能很好地泛化到新的双盲集。

可以在图4B和4D之间进行类似的比较，其中验证集上的分布没有很好地分离，在测试集上仍然分离得很差，因此不可能提供好的泛化。

集成模型的指标，该集成模型具有根据平衡准确度选择的成员AI模型

在本部分中，将在共享验证集上的平衡准确度作为主要指标，选择训练后的AI模型，以将其纳入集成。选择了表现最佳的模型(基于平衡准确度)，并使用多数平均置信度的投票策略将多个候选集成组合起来。还考虑了与这些指标相关的模型性能按类的细分。

考虑了252个图像的共享验证集，其中选择了集成模型的成员。然后将该模型应用于527个图像的盲测试集进行比较。

共享验证集上的与集成模型分配给有活力胚胎的分数相关的直方图如图5A所示，其中被正确分类的胚胎被着色为带粗的向前对角线的条(真阳性)52，而被不正确分类的胚胎则被着色为带细的向后对角线的条(假阴性)51。无活力胚胎的等效直方图如图5B所示，其中，被正确分类的胚胎被着色为带粗的向前对角线的条(真阴性)54，而被不正确分类的胚胎则被着色为带细的向后对角线的条(假阳性)53。与上述的单个模型的情况相比，模型分布更好地分离，原因在于与单个模型相比，集成模型在准确度指标和泛化方面通常表现出更好的性能。这是因为多个模型对单个图像进行投票，从而允许更大范围的模型差异被投票否决，或者被成员模型的更大范围内的注意力偏好所处理。模型之间度偏置的细节与模型之间的投票策略有关，投票策略与成员模型本身一起定义了集成模型。

请注意，图5C和5D中与验证集上的结果相关的直方图显示，被正确识别的胚胎52、54和被不正确识别的胚胎51、53之间有良好的分离(双峰分布)，并且两者都显示出高的准确度值(用TPR和TNR测量)，这在下文关于类别细分的部分中进行讨论。在盲测试集上被正确识别的胚胎和被不正确识别的胚胎之间的分离仍然存在，这是泛化的标志。然而，如图5D所示，准确度值下降，其中观察到大量假阳性，这降低了特异性值。这是有噪声数据集的固有问题，其中无活力胚胎数据集中的高噪声有助于削弱泛化。

请注意，数据集质量(例如，标签质量或正确性)在展示泛化能力方面的重要性，以及在选择集成模型的成员时如何选择指标，以及如何从一组集成模型中选择模型，对于模型的最终泛化能力或平移能力起到很大作用。下一部分将详细介绍对模型在验证集和测试集上的性能进行测量的指标。

类别细分

对于组合的验证集中的所有医疗机构，表3示出与这两个类(有活力示例和无活力示例)的结果细分相关的指标。虽然两类胚胎的准确度测量结果都很高，并为相关的对数损失值建立了基准，但表4显示，当应用于盲测试集时，正如所预期的，由于标签噪声，“0类”胚胎或无活力胚胎的准确度下降。然而，“1级”胚胎或有活力胚胎的准确度仍然很高。然而，请注意，由于无活力的准确度或特异性的降低，对数损失恶化，但与图5D相关的分布仍然很好地分离，而且由于对数损失考虑了分数分布信息，所以对于AI泛化能力对数损失是更可靠的指标。

还对特异于类的对数损失进行了比较和组合，发现基于这些指标的模型选择与对数损失一致。

表3

在共享验证集上显示集成模型的类别细分，包括平均、平衡和组合的类别指标，该集成模型具有基于平衡准确度选择的候选AI模型。

表4

在共享验证集上显示集成模型的集成模型指标的类别细分，包括平均、平衡和组合的类别指标，该集成模型具有基于平衡准确度选择的候选AI模型。

基于对数损失作为主要指标选择的集成模型的指标。

现在分析了集成模型的一些关键指标，其中该集成模型的成员模型是根据大量训练后的AI模型中表现最好的对数损失来选择的。这种特殊的集成模型有一个多数最大置信度的投票策略。然后，还考虑了与这些指标相关的模型性能的细分。

使用与上一部分相同的252个图像的共享验证集和527个图像的盲测试集。

共享验证集上的与模型分配给有活力胚胎的分数相关的直方图如图6A所示，其中被正确分类的胚胎被着色为带粗的向前对角线的条(真阳性)62，而被不正确分类的胚胎则被着色为带细的向后对角线的条(假阴性)61。无活力胚胎的等效直方图如图6B所示，其中，被正确分类的胚胎被着色为带粗的向前对角线的条(真阴性)64，而被不正确分类的胚胎则被着色为带细的向后对角线的条(假阳性)63。模型分布极为分离，TPR和TNR值很高。这是因为基于对数损失这一指标选择的成员模型考虑了分布信息，并倾向于优先选择表现出高度分离的模型，而且该模型的最佳投票策略是最大置信度，最大置信度也倾向于使分布的双峰特征增强。

在盲测试集上被正确识别的胚胎和被不正确识别的胚胎之间的分离仍然存在，图6C中与噪声较小的有活力胚胎相关的分布与图6B中的验证集一致。同样，在这种情况下，类0准确度或TNR/特异性的值会下降，如图6D所示。与验证测试集和盲测试集都相关的指标将在下一部分“类别细分”中讨论。

类别细分

对于组合的验证集中的所有医疗机构，表5示出与这两个类(有活力示例和无活力示例)的结果细分相关的指标。虽然准确度指标和对数损失均优于上一部分关于类别细分的值(表2和表3)，但表6显示，当应用于盲测试集时，由于标签噪声，“0类”胚胎或无活力胚胎的准确度有更大的下降，且就“1类”胚胎或有活力胚胎的准确度而言，优于上一部分(关于集成模型的指标，该集成模型具有根据平衡准确度选择的成员AI模型)的模型。然而，请注意，对数损失由于无活力准确度的降低而恶化，但仍保持在较好的值。

像前面的案例一样，也对特异于类的对数损失进行了比较和组合，发现基于这些指标的模型选择与对数损失一致。

表5

在共享验证集上显示使用对数损失作为主要指标的集成模型的类别细分，包括平均、平衡和组合的类别指标。

表6

在共享盲测试集上显示使用对数损失作为主要指标的集成模型的类别细分，包括平均、平衡和组合的类别指标。

作为进一步的例子，图7A至7D示出使用每类的正切分数与对数损失的比率作为主要指标获得的直方图。图7A和7C表示有活力胚胎(用垂直虚线表示)的比率的直方图，从0.0到1.0，二元阈值为0.5。被正确分类的胚胎显示为带粗的水平线的条(真阳性)72，被不正确分类的胚胎则显示为黑色列(假阴性)71。图7B和7D示出无活力胚胎的等效直方图，其中被正确分类的胚胎显示为带水平线的条(真阴性)74，被不正确分类的胚胎则显示为带粗的向后对角线的条(假阳性)73。这再次表明模型分离得到了很好的分离，进一步说明了基于置信度的指标的好处。从这些直方图中还可以看出，通过在有活力胚胎的类(其被认为噪声更少，即，被不正确标记的示例更少)中使用对数损失指标，可以将假阴性最小化，从而确保模型不允许出现许多假阴性示例。与假阳性(将无活力胚胎误错误分类为有活力胚胎)相比，在胚胎有活力的情况下，假阴性(将有活力胚胎错误分类为无活力胚胎)被认为是风险更高的错误分类。在假阳性的情况下，如果在相同的置信度水平下被相同数量的正确分类示例抵消，则正切分数指标可以容忍一定数量的噪声/错误分类示例。因此，被认为有更多噪声的类(被不正确标记的示例更多，例如那些看起来无活力但实际上有活力的，由于胚胎图像以外的患者医疗条件而被错误分类的示例)减少了由于噪声而导致有活力胚胎被错误分类的影响。因此，模型训练在验证和测试期间获得了很好的结果，因为其训练阶段对噪声更为鲁棒。

如前面所讨论的，大多数AI训练方法在判断模型的性能时侧重于总准确度或总准确度的变体。它们可以包括模型对各个类(分类的类别)的准确度(即，“类准确度”)，以及准确度变体(如，通过每个类别(category)或类(class)中的图像总数对准确度加权，即，“平衡准确度”)。然而，这些侧重于准确度的指标的问题在于，AI模型的平移能力或泛化能力并不是由这些量直接衡量的。

相比之下，本文讨论的实施例可用于创建性能良好的AI模型，它们以AI模型能够正确分类某些图像/数据的准确度(用于最终报告)和置信度水平(或置信度水平/分数的分布)为指导。特别是，这些方法引入了一个或多个指标，其用于在报告之前，作为从许多潜在模型中选择最佳AI模型的中间步骤，正确地测量这种置信度水平。

特别是，该方法建议在同一验证集上为一系列模型计算多个指标，并使用这些结果来选择集成模型中性能优异和/或不同的模型配置。选择后，将模型应用于盲或双盲测试集，并评估模型在盲集上相对于多个指标的性能。我们认为，一个很好地泛化的模型应该在盲测试集上具有高的准确度指标，即使它没有使用准确度指标进行选择。基于另一指标选择模型，不仅可以提高该指标的性能，还可以提高AI领域的业外人士更常见和更容易理解的其他指标，如准确度。

值得注意的是，对于性能良好的模型，验证集或测试集上的准确度的最终报告实际上可能低于对验证集或测试集所源于的数据分布进行了过训练的对应模型。然而，在考虑到准确分类的置信度的情况下，为了商业用途或为了使用集成模型方法组合在一起而选择模型，与基于二元准确度指标选择模型相比，减少了不确定性并创建了更鲁棒的模型，其中图像置信度/分数位于50％的任意阈值的任一侧(或者更一般地，在一个类的正确分数刚好高于其他类的置信分数的情况下)。例如，在以55％的AI分数/置信度(假设阈值为50％作为正确分类)将1000个(盲测试)图像的正确分类时实现100％的准确度，可能比以99.9％的AI分数/置信度将1000个图像正确归类时实现100％准确度的价值要小。

如上所简述，选择要形成最终模型的AI模型成员，每个模型在每个训练轮次的性能都是在它们共享的验证集上使用一个主要指标进行评估的，然后我们基于所保存的最佳主要指标选择两个或多个(或所有)训练后的AI模型，以纳入集成模型。例如，在上述实施例中，AI模型是基于第5天胚胎存活率二元分类的模型，主要指标是对数损失。尽管除了主要指标和有关已发生的训练过程的信息、描述每个轮次的损失的绘图以及每个轮次分数的分布之外，还考虑了其他指标，但主要指标被用作对用于选择的模型性能进行排序的第一指标，或用作用于纳入集成模型的候选。

已经描述了基于置信度生成AI模型的各种实施例。这些方法在多个轮次上在共用的验证数据集上训练多个AI模型。保存了作为(所有轮次上的)最佳轮次的置信度指标，以便对不同的AI模型进行比较。然后，可以例如使用集成、蒸馏或其他选择方法，使用这些AI模型选择最终AI模型。对于集成模型，可以使用基于置信度的投票策略。实验结果表明，置信度指标，如对数损失或其相关的指标(例如，组合的类对数损失、组合的数据源对数损失、组合的类和数据源对数损失、正切分数、有界正切分数、每类的正切分数与对数损失的比率、以及Sigmoid分数)，考虑到正确分类数据的准确度和正确分类数据时AI的置信度(即正确分类的AI分数较高，显示出对正确分类的信心)，将产生更准确和泛化能力更高的模型，可应用于包括医疗保健在内的各种环境。

引入置信度指标的模型更鲁棒、更可靠，因为对正确分类的更高置信度意味着，AI模型在更大的数据集中为每个类和数据源更强烈地识别了特征或相关性，使其不太容易受到新的没见过的数据中的变化或异常值的影响。

使用置信度指标选择的模型，虽然它们在验证数据集中的准确度可能会降低，但已经证明，当应用于盲(没见过的)测试集时，其总体最终准确度更高。

此处给出的结果表明，与在同一数据集上训练的其他模型相比，使用该方法选择的模型因此表现出卓越的泛化能力，不太容易过拟合，并因此作为该选择程序的结果而代表卓越的模型。

该方法的实施例可用于医疗保健应用(例如，医疗保健数据)，尤其是包含从显微镜、照相机、X光、MRI等多种设备捕获的图像的医疗保健数据集。可以部署使用本文讨论的实施例训练的模型，以帮助做出各种医疗保健决策，例如生育和IVF决策以及疾病诊断。然而，可以理解的是，这些方法也可以在医疗保健环境之外使用。

本领域技术人员会理解，可以使用各种技术中的任何一种来表示信息和信号。例如，在整个以上描述中可能提及的数据、指令、命令、信息、信号、位、符号和芯片，可以用电压、电流、电磁波、磁场或粒子、光场或粒子或其任何组合来表示。

本领域技术人员将进一步理解，结合本文所公开的实施例描述的各种说明性的逻辑块、模块、电路和算法步骤可以实现为电子硬件、计算机软件或指令、中间件、平台或两者的组合。为了清楚地说明硬件和软件的这种可互换性，上面已经大体上根据其功能描述了各种说明性组件、块、模块、电路和步骤。将这种功能性实现为硬件还是软件取决于特定的应用程序和施加在整个***上的设计约束。本领域技术人员可以针对每个特定应用以各种方式来实现所描述的功能，但是这些被决定的实现方式不应被解释为导致脱离本发明的范围。

结合本文所公开的实施例描述的方法或算法的步骤可直接体现在硬件、由处理器执行的软件模块或两者的组合中，包括基于云的***。对于硬件实现，可以在一个或多个专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑设备(PLD)、现场可编程门阵列(FPGA)、处理器、控制器、微控制器、微处理器、设计为执行本文所述功能的其他电子单元、或其组合内实现处理。可以使用各种中间件和计算平台。

在一些实施例中，处理器模块包括一个或多个中央处理单元(CPU)或图形处理单元(GPU)，用来执行方法的一些步骤。类似地，计算设备可以包括一个或多个CPU和/或GPU。CPU可以包括输入/输出接口、算术和逻辑单元(ALU)以及通过输入/输出接口与输入和输出设备通信的控制单元和程序计数器元件。输入/输出接口可包括网络接口和/或通信模块，用于使用预定义通信协议(例如蓝牙、Zigbee、IEEE 802.15、IEEE 802.11、TCP/IP、UDP等)与另一设备中的等效通信模块通信。计算设备可以包括单个CPU(核心)或多个CPU(多个核心)或多个处理器。计算设备通常是使用GPU集群的基于云的计算设备，但可以是并行处理器、向量处理器或分布式计算设备。存储器可操作地连接到处理器，并且可以包括RAM和ROM组件，并且可以设置在设备或处理器模块内部或外部。存储器可用于存储操作***和附加软件模块或指令。处理器可用来加载并执行存储在存储器中的软件模块或指令。

软件模块，也称为计算机程序、计算机代码或指令，可包含多个源代码或目标代码段或指令，并可位于在任何计算机可读介质中，如RAM存储器、闪存、ROM存储器、EPROM存储器、寄存器、硬盘、可移动磁盘、CD-ROM、DVD-ROM、蓝光光盘或任何其他形式的计算机可读介质。在一些方面中，计算机可读介质可包括非暂时性计算机可读介质(例如，有形介质)。此外，对于其他方面，计算机可读介质可包括暂时性计算机可读介质(例如，信号)。上述的组合也应包括在计算机可读介质的范围内。在另一方面中，计算机可读介质可集成到处理器。处理器和计算机可读介质可以驻留在ASIC或相关设备中。软件代码可以存储在存储器单元中，并且处理器可以用来执行它们。存储器单元可以在处理器内部或处理器外部实现，在这种情况下，可以通过本领域已知的各种手段将其通信地连接到处理器。

此外，应当理解，可以由计算设备下载和/或以其他方式获得用于执行本文所述的方法和技术的模块和/或其他合适的装置。例如，这样的设备可以连接到服务器以使得于用于执行本文描述的方法的装置的传输。可替代地，可以经由存储装置(例如，RAM、ROM、物理存储介质如光盘(CD)或软盘等)来提供本文描述的各种方法，使得在将存储装置连接或提供给计算设备时计算设备可以获得各种方法。而且，用于将本文描述的方法和技术提供给设备的任何其他合适的技术都可以使用。

本文公开的方法包括用于实现所描述的方法的一个或多个步骤或动作。方法步骤和/或动作可以在不脱离权利要求的范围的情况下彼此互换。换句话说，除非指定了步骤或动作的特定顺序，否则可以修改特定步骤和/或动作的顺序和/或使用，而不脱离权利要求的范围。

在整个说明书和所附权利要求中，除非上下文另有要求，术语“包括”、“包含”及其变化形式将被理解为暗示包括所明示的整数或一组整数，但并不排除任何其他整数或一组整数。

本说明书中对任何现有技术的引用不是，也不应被视为承认此类现有技术构成公共常识的一部分的任何形式的意思表示。

本领域技术人员会理解，本发明的用途不限于所描述的一个或多个特定应用。关于本文描述或描绘的特定元件和/或特征，本发明也不局限于其优选实施例。应当理解的是，本发明不限于所公开的一个或多个实施例，而是能够在不背离由所附权利要求阐述和限定的范围的情况下进行各种重新排列、修改和替换。

Claims

1.一种用于生成人工智能AI模型的计算方法，该方法包括：

在多个轮次上使用公共验证数据集训练多个人工智能AI模型，其中，在每个模型的训练期间，在一个或多个轮次上计算至少一个置信度指标，并且对于每个模型，保存所述多个轮次上的最佳置信度指标值以及所述最佳置信度指标的相关轮次数；

生成AI模型，包括：

2.如权利要求1所述的方法，其中，在每个轮次计算所述至少一个置信度指标。

3.如权利要求1或2所述的方法，其中，所述生成AI模型包括：使用基于所保存的最佳置信度指标的所述多个训练后的AI模型中的至少两个AI模型来生成集成AI模型，且所述集成模型使用基于置信度的投票策略。

4.如权利要求3所述的方法，其中，所述生成集成AI模型包括：

5.如权利要求4所述的方法，其中，所述公共集成验证数据集是所述公共验证数据集。

6.如权利要求4或5所述的方法，其中，所述公共集成验证数据集是不用于训练所述多个人工智能AI模型的中间测试集。

7.如权利要求4至6中任一项所述的方法，其中，所述基于置信度的投票策略从由最大置信度、平均置信度、多数平均置信度，多数最大置信度，中间置信度或加权平均置信度组成的组中选择。

8.如权利要求1或2所述的方法，其中，所述生成AI模型包括：使用蒸馏方法生成学生AI模型，以使用所述多个训练过的AI模型中的至少两个AI模型、使用至少一个置信度指标来训练所述学生AI模型。

9.如权利要求1或2所述的方法，其中，所述基于所保存的最佳置信度指标选择所述多个训练后的AI模型中的至少一个AI模型包括：

选择所述多个训练后的AI模型中的至少两个AI模型，使用基于置信度的指标比较所述多个训练后的AI模型中的每一个AI模型，并基于所述比较选择最佳的训练后的AI模型。

10.如权利要求1至9中任一项所述的方法，其中，所述至少一个置信度指标包括：对数损失、组合的类对数损失、组合的数据源对数损失、组合的类和数据源对数损失中的一个或多个。

11.如权利要求1至10中任一项所述的方法，其中，计算多个评估指标，并从以下的组中选择所述多个评估指标：准确度、平均类准确度、灵敏度、特异性、混淆矩阵、灵敏度对特异性的比率、精确度、阴性预测值、平衡准确率、对数损失、组合的类对数损失、组合的数据源对数损失、组合的类和数据源对数损失、正切分数、有界正切分数、每个类的正切分数与对数损失的比率、Sigmoid分数、轮次数、均方误差MSE、均方根误差、平均误差均值、平均精确度均值mAP、置信度分数、曲线下面积AUC阈值、接收器操作特征ROC曲线阈值、准确度-召回率曲线。

12.如权利要求11所述的方法，其中，所述多个评估指标包括主要指标和至少一个次要指标，其中所述主要指标是置信度指标，所述至少一个次要指标被用作平局打破指标。

13.如权利要求1至12中任一项所述的方法，其中，所述多个AI模型包括多个独特的模型配置，其中每个模型配置包括模型类型、模型架构、以及一种或多种预处理方法。

14.如权利要求13所述的方法，其中，所述一种或多种预处理方法包括分割，所述多个AI模型包括应用于未分割的图像的至少一个AI模型以及应用于分割后的图像的至少一个AI模型。

15.如权利要求13所述的方法，其中，所述一种或多种预处理方法包括一种或多种计算机视觉预处理方法。

16.如权利要求1至15中任一项所述的方法，其中，所述验证数据集是包含多个医疗保健图像的医疗保健数据集。

17.一种计算***，包括一个或多个处理器、一个或多个存储器和通信接口，其中所述一个或多个存储器保存以下指令：所述指令用于将所述一个或多个处理器配置成根据权利要求1至16中任一项的方法以计算方式生成人工智能AI模型。

18.一种计算***，包括一个或多个处理器、一个或多个存储器和通信接口，其中，所述一个或多个存储器被配置为保存使用如权利要求1至16中任一项所述的方法训练的AI模型，且所述一个或多个处理器被配置为经由所述通信接口接收输入数据，使用所保存的AI模型处理所述输入数据以生成模型结果，且所述通信接口被配置为将所述模型结果发送到用户接口或数据存储设备。