CN111492382B

CN111492382B - 训练第一神经网络模型和第二神经网络模型

Info

Publication number: CN111492382B
Application number: CN201880082613.0A
Authority: CN
Inventors: B·G·格布雷; E·布雷施; D·马夫里厄杜斯; T·范登赫费尔; U·格罗塞卡特赫费尔
Original assignee: Koninklijke Philips NV
Current assignee: Koninklijke Philips NV
Priority date: 2017-11-20
Filing date: 2018-11-13
Publication date: 2024-05-07
Anticipated expiration: 2038-11-13
Also published as: CN111492382A; JP2021503661A; US11657265B2; US20190156205A1; WO2019096754A1; JP7325414B2

Abstract

本文描述了用于训练第一神经网络模型和第二神经网络模型的***和方法。所述***包括：存储器(106)，其包括表示指令集的指令数据；以及处理器(102)，其被配置为与所述存储器(106)通信并运行所述指令集。所述指令集在由所述处理器(102)运行时令所述处理器(102)：基于所述第一模型中的对应的权重来设置所述第二模型中的权重；在第一数据集上训练所述第二模型，其中，所述训练包括更新所述第二模型中的所述权重；并且基于所述第二模型中的更新的权重来调整所述第一模型中的所述对应的权重。

Description

训练第一神经网络模型和第二神经网络模型

技术领域

本文描述的各种实施例涉及机器学习领域。更具体地，各种实施例涉及用于训练第一神经网络模型和第二神经网络模型的***和方法。

背景技术

总体背景是机器学习。机器学习模型能够用于以自动化方式对大量数据进行分类。在对诸如医学图像之类的图像进行分类时，机器学习会特别有用，否则，这些图像只能由高技能人士进行分类。机器学习能够加快医学图像分类的两个示例是支架标记领域的示例。特别地，开发能够检测图像中的支架和/或产生支架图像中的端点(例如，球囊标记)的坐标的机器学习模型是很有帮助的。

一种类型的机器学习模型是人工神经网络(或神经网络)。为了教导神经网络执行任务，已知必须战胜三个挑战。首先，需要大量带注释的训练数据才能准确地训练神经网络；通常，可用的训练数据越多，所得到的模型越准确。此外，即使带注释的训练数据可用，注释也可能并不直接适合用于训练特定模型。这可能需要为每个模型产生全新的训练数据集。其次，必须获得足够的计算时间以允许网络处理训练数据(例如，在训练数据上训练)，直到神经网络的权重收敛到最优值为止。第三，必须在参数和架构空间中执行搜索以找到对于给定任务而言最优的神经网络架构。

因此，获得合适的训练数据集，构建合适的神经网络架构以及将模型训练到所需的准确度既耗时又昂贵。

因此，需要解决上述问题的方法和***。

发明内容

参考下文描述的实施例，这些方面和其他方面将变得显而易见并且得到阐明。

根据第一方面，存在一种被配置用于训练第一神经网络模型和第二神经网络模型的***。所述***包括：存储器，其包括表示指令集的指令数据；以及处理器，其被配置为与所述存储器通信并运行所述指令集。所述指令集在由所述处理器运行时令所述处理器：基于所述第一模型中的对应的权重来设置所述第二模型中的权重；在第一数据集上训练所述第二模型，其中，所述训练包括更新所述第二模型中的所述权重；并且基于所述第二模型中的更新的权重来调整所述第一模型中的所述对应的权重。

以这种方式，每当第一模型和第二模型中的一项接受额外训练时，第一模型和第二模型的权重就能够来回地共享和/或更新。因此，对第二模型的训练有益于并改善了第一模型的权重，而不必(必需)使第一模型直接处理第一数据集并直接在第一数据集上进行训练，反之亦然。如果模型正在对相同或相似类型的数据进行分类(例如，如果每个模型正在对特定类型的医学图像数据的不同部分进行分类)(其中，可能期望每个模型的较低层的权重随时间(朝向针对每个权重的最优值)收敛)，则这能够是特别有益的。该方法需要较少的计算能力和较少的训练时间，因为训练只需要在第一模型和第二模型中的一项上进行，而不是在两个模型上都进行。

本文的***和方法非常适合例如针对特定任务收集的医学数据本身不足(例如，针对特定训练问题的训练数据不足)的情况或者人工数据扩充(例如，模拟数据)不可能或受限制(例如因数据的自然变化而没有被数据扩充完全捕获)的情况。本文的***和方法也非常适合例如以下情况：虽然一些类型的数据存在数据短缺，但是针对其他相关任务所收集和注释的额外医学数据仍然可用。例如，相同类型的图像包括不同的注释。即使有足够的数据来完成某项任务，在使用如本文所述的权重的“来回”传递进行训练时仍会获得益处，因为模型可以使用较少的总体计算能力来快得多地达到训练收敛。

在一些实施例中，所述权重包括以下中的一项的权重：所述第二模型的输入层；以及所述第二模型的隐藏层。

在一些实施例中，令所述处理器调整所述第一模型中的所述对应的权重包括：令所述处理器将来自所述第二模型的所述权重的值复制到所述第一模型中的所述对应的权重。

在一些实施例中，令所述处理器调整所述第一模型中的所述对应的权重包括：令所述处理器基于所述第一模型中的所述对应的权重与所述第二模型中的所述权重之差将增量应用于所述第一模型中的所述对应的权重的值。

在一些实施例中，令所述处理器调整所述第一模型中的所述对应的权重还包括：令所述处理器将所述第一模型的输出层中的权重设置为任意值。

在一些实施例中，令所述处理器调整所述第一模型中的所述对应的权重还包括：令所述处理器将所述第一模型的输出层中的至少一个权重的值维持在相同的值处。

在一些实施例中，令所述处理器设置所述第二模型中的权重包括：令所述处理器将来自以下中的一项的权重的值复制到所述第二模型中的对应的权重：所述第一模型的输入层；以及所述第一模型的隐藏层。

在一些实施例中，令所述处理器设置所述第二模型中的权重还包括：令所述处理器将所述第二模型的输出层中的至少一个权重设置为任意值。

在一些实施例中，所述第一模型包括以下中的一项：对象检测模型；以及对象定位模型。在一些实施例中，所述第二模型包括以下中的另一项：对象检测模型；以及对象定位模型。

在一些实施例中，所述第一模型包括以下中的一项：被配置为产生单个输出的模型；以及被配置为产生多个输出的模型。在一些实施例中，所述第二模型包括以下中的另一项：被配置为产生单个输出的模型；以及被配置为产生多个输出的模型。

在一些实施例中，所述指令集在由所述处理器运行时还令所述处理器响应于对所述第一模型和所述第二模型中的一项的进一步的训练而调整所述第一模型和所述第二模型中的另一项的权重。

在一些实施例中，所述指令集在由所述处理器运行时令所述处理器重复调整权重的步骤，直到满足以下准则中的一项或多项为止：i)所述第一模型和/或所述第二模型达到阈值准确度水平；ii)调整的幅值低于阈值幅值；iii)所述第一模型中的所述权重和所述第二模型中的与之对应的权重在预定义阈值内朝向彼此收敛；以及iv)与所述第一模型相关联的损失和/或与所述第二模型相关联的损失在后续调整之间的变化小于阈值量。

在一些实施例中，在第二数据集上训练所述第一模型，所述第一数据集包括的数据比所述第二数据集的数据少，其中，仅所述第二数据集的大小不足以利用任意起始权重将所述第二模型训练到预定义准确度。

根据第二方面，存在一种训练第一神经网络模型和第二神经网络模型的计算机实施的方法，所述方法包括：基于所述第一模型中的对应的权重来设置所述第二模型中的权重；在数据集上训练所述第二模型，其中，所述训练包括更新所述第二模型中的所述权重；并且基于所述第二模型中的更新的权重来调整所述第一模型中的所述对应的权重。

根据第三方面，存在一种包括非瞬态计算机可读介质的计算机程序产品，所述非瞬态计算机可读介质具有被体现在其中的计算机可读代码，所述计算机可读代码被配置为使得在由合适的计算机或处理器运行时令所述计算机或处理器执行本文描述的实施例中的任一实施例的方法。

附图说明

为了更好地理解实施例并且更清楚地示出如何将它们付诸实践，现在仅以举例的方式来参考附图，在附图中：

图1图示了根据实施例的用于训练第一神经网络模型和第二神经网络模型的示例***；

图2图示了其中第一模型和第二模型用于产生包括支架的医学图像的分类的实施例；

图3图示了根据实施例的训练第一神经网络模型和第二神经网络模型的计算机实施的方法；并且

图4图示了训练第一神经网络模型和第二神经网络模型的另外的实施例。

具体实施方式

如上所述，提供了用于训练第一神经网络模型和第二神经网络模型的改进的方法和***，该方法和***克服了一些现有问题。

图1示出了根据实施例的能够用于训练神经网络模型的***100的框图。参考图1，***100包括处理器102，处理器102控制***100的操作并且能够实施本文描述的方法。

***100还包括存储器106，存储器106包括表示指令集的指令数据。存储器106可以被配置为以程序代码的形式存储指令数据，该程序代码能够由处理器102运行以执行本文描述的方法。在一些实施方式中，指令数据能够包括多个软件和/或硬件模块，每个软件和/或硬件模块被配置为执行或用于执行本文描述的方法的单个或多个步骤。在一些实施例中，存储器106可以是还包括***100的一个或多个其他部件(例如，处理器102和/或***100的一个或多个其他部件)的设备的部分。在替代实施例中，存储器106可以是与***100的其他部件分开的设备的部分。

在一些实施例中，存储器106可以包括多个子存储器，每个子存储器能够存储一条指令数据。在其中存储器106包括多个子存储器的一些实施例中，表示指令集的指令数据可以被存储在单个子存储器中。在其中存储器106包括多个子存储器的其他实施例中，表示指令集的指令数据可以被存储在多个子存储器中。例如，至少一个子存储器可以存储表示指令集的至少一个指令的指令数据，而至少一个其他子存储器可以存储表示指令集的至少一个其他指令的指令数据。因此，根据一些实施例，表示不同指令的指令数据可以被存储在***100中的一个或多个不同位置处。在一些实施例中，存储器106可以用于存储由***100的处理器102采集或得到的或者从***100的任何其他部件采集或得到的信息、数据(例如，图像)、信号和测量结果。

***100的处理器102能够被配置为与存储器106通信以运行指令集。指令集在由处理器102运行时可以令处理器102运行本文描述的方法。处理器102能够包括被配置或编程为以本文描述的方式控制***100的一个或多个处理器、处理单元、多核处理器和/或模块。在一些实施方式中，例如，处理器102可以包括被配置用于分布式处理的多个(例如，互操作的)处理器、处理单元、多核处理器和/或模块。本领域技术人员将意识到，这样的处理器、处理单元、多核处理器和/或模块可以位于不同的位置中，并且可以执行本文描述的方法的不同步骤和/或单个步骤的不同部分。

再次返回图1，在一些实施例中，***100可以包括至少一个用户接口104。在一些实施例中，用户接口104可以是还包括***100的一个或多个其他部件(例如，处理器102、存储器106和/或***100的一个或多个其他部件)的设备的部分。在替代实施例中，用户接口104可以是与***100的其他部件分开的设备的部分。

用户接口104可以用于向***100的用户(例如，研究人员(例如，医学研究人员)、医学专业人员或神经网络模型的任何其他用户)提供从根据本文的实施例的方法得到的信息。指令集在由处理器102运行时可以令处理器102控制一个或多个用户接口104以提供从根据本文的实施例的方法得到的信息。替代地或额外地，用户接口104可以被配置为接收用户输入。换句话说，用户接口104可以允许***100的用户手动录入指令、数据或信息。指令集在由处理器102运行时可以令处理器102从一个或多个用户接口104采集用户输入。

用户接口104可以是使得能够向***100的用户呈现(或输出或显示)信息、数据或信号的任何用户接口。替代地或额外地，用户接口104可以是使得***100的用户能够提供用户输入，与***100交互和/或控制***100的任何用户接口。例如，用户接口104可以包括一个或多个开关、一个或多个按钮、按键、键盘、鼠标、鼠标滚轮、触摸屏或(例如在平板电脑或智能手机上的)应用程序、显示屏、图形用户接口(GUI)或其他视觉呈现部件、一个或多个扬声器、一个或多个麦克风或任何其他音频部件、一个或多个灯、用于提供触觉反馈(例如，振动功能)的部件，或任何其他用户接口，或用户接口的组合。

在一些实施例中，如图1所示，***100还可以包括通信接口(或电路)108，通信接口(或电路)108用于使得***100能够与作为***100的部分的接口、存储器和/或设备通信。通信接口108可以以无线方式或者经由有线连接与任何接口、存储器和设备通信。

将意识到，图1仅示出了说明本公开内容的这方面所需的部件，并且在实际实施方式中，***100可以包括所示出的那些部件之外的额外部件。例如，***100可以包括用于为***100供电的电池或其他电源或者用于将***100连接到市电电源的单元。

更详细地，如上所述，该***被配置用于训练第一神经网络模型和第二神经网络模型。存储器106包括表示指令集的指令数据。简而言之，指令集在由***100的处理器102运行时令处理器102：基于第一模型中的对应的权重来设置第二模型中的权重；在第一数据集上训练第二模型，其中，训练包括更新第二模型中的权重；并且基于第二模型中的更新的权重来调整第一模型中的对应的权重。

如上所述，本文的***基于以下认识：当训练两个神经网络模型以对相似类型的数据(例如，相同类型的图像)进行分类时，即使模型的输出不同(例如，一个模型可以被训练为检测图像中的特定对象的存在，而另一个模型被训练为测量图像中特定类型的对象的长度)，模型的一些层的权重通常也非常相似，并且在足够大的训练数据的数据库上训练模型的情况下甚至可以收敛到相同的值。因此，如果第二模型接受了训练，则能够将来自该训练的更新的权重用于改善第一模型的权重，而无需将任何其他训练直接应用于第一模型。以这种方式，能够减少对相似模型的重复训练，由此使训练过程更有效，因此使得训练收敛(例如使得模型的权重朝向针对每个权重的最优值移动)比其他可能的情况要快得多。另外，每个模型所需的训练数据更少(例如，不必使用于训练第二模型的远程数据库可直接用于第一模型)并且节省了计算能力，因为在两个模型中只有一个模型必须处理每一批新的训练数据，而不是每个模型都必须独立地处理每一批新的训练数据。

人工神经网络(或者被简称为神经网络)对于本领域技术人员来说是熟悉的，但是简而言之，神经网络是一种能够用于对数据进行分类(例如，对图像数据的内容进行分类或识别)的模型。神经网络的结构受人脑启发。神经网络包括各个层，每层包括多个神经元。每个神经元包括数学运算。在对一部分数据进行分类的过程中，在该部分数据上执行每个神经元的数学运算以产生数值输出，并且将神经网络中的每一层的输出顺序地馈入下一层。通常，与每个神经元相关联的数学运算包括在训练过程期间调谐的一个或多个权重(例如在训练过程期间更新权重的值以调谐模型来产生更加准确的分类)。

例如，在用于对图像的内容进行分类的神经网络模型中，神经网络中的每个神经元可以包括数学运算，该数学运算包括对图像中的像素(或者在三维中为体素)值的加权线性和，然后是非线性变换。神经网络中使用的非线性变换的示例包括S型函数、双曲正切函数和线性修正函数。神经网络的每一层中的神经元通常包括单一类型的变换的不同加权组合(例如，相同类型的变换，S型函数等，但是具有不同的权重)。如本领域技术人员所熟悉的，在一些层中，每个神经元可以在线性和中应用相同的权重；这适用于例如卷积层的情况。与每个神经元相关联的权重可能会使某些特征在分类过程中比其他特征更占主导作用(或者相反地不太占主导作用)，因此，在训练过程中调整神经元的权重会训练神经网络以在对图像进行分类时提高特定特征的显著性。通常，神经网络可以具有与神经元相关联的权重和/或神经元之间的权重(其例如修改在神经元之间传递的数据值)。

如上所述，在一些神经网络(例如，卷积神经网络)中，较低层(例如，神经网络中输入层或隐藏层)(即，朝向神经网络中的一系列层的开头的层)被该部分数据中的小特征或图案所激活(即，较低层的输出取决于该部分数据中的小特征或图案)，而较高层(即，朝向神经网络中的一系列层的末端的层)被正被分类的该部分数据中越来越多的较大特征所激活。作为示例，在数据包括图像的情况下，神经网络中的较低层被小特征(例如，图像中的边缘图案)所激活，中层被图像中的诸如较大的形状和形式之类特征所激活，而最靠近输出的层(例如，上层)被图像中的整个对象所激活。

通常，神经网络模型的最后一层(被称为输出层)的权重最强烈地取决于神经网络正在解决的特定分类问题。例如，外层的权重可能严重取决于分类问题是定位问题还是检测问题。较低层(例如，输入层和/或隐藏层)的权重往往取决于正被分类的数据的内容(例如，特征)，因此本文已经认识到，利用足够的训练，在处理相同类型的数据的神经网络的输入层和隐藏层中的权重可以随时间朝向相同的值收敛，即使对模型的外层进行调谐以解决不同的分类问题也是如此。

通常，本文描述的***和方法涉及训练第一神经网络模型和第二神经网络模型(在本文中分别被称为第一模型和第二模型)。第一模型和第二模型可以包括作为第一模型和第二模型的训练过程的部分而被更新(例如调整)的权重(例如，参数)。通常，第一神经网络模型和第二神经网络模型可以包括前馈模型(例如，卷积神经网络、自编码器神经网络模型、概率神经网络模型以及时延神经网络模型)、径向基函数网络模型、递归神经网络模型(例如，完全递归模型、Hopfield模型或Boltzmann机器模型)或任何其他类型的包括权重的神经网络模型。

第一模型和第二模型可以用于对数据进行分类。数据可以是任何类型的数据，例如，包括图像的数据(例如，图像数据)、包括诸如文档或记录之类的文本的数据、音频数据或能够由第一神经网络模型和第二神经网络模型进行分类的任何其他类型的数据。在一些实施例中，数据包括医学数据，例如，医学图像(例如，X射线图像、超声图像等)或医学记录。

在一些实施例中，第一模型和第二模型可以被训练为产生针对数据的一个或多个类别(例如，标签)。在一些实施例中，训练第一模型和第二模型以对相同类型的数据进行分类(例如处理和产生标签)。例如，第一模型和第二模型都能够用于对成像数据(例如，医学成像数据)进行分类。在一些实施例中，第一模型和第二模型可以用于对相同类型的成像数据进行分类，例如，第一模型和第二模型都可以用于对诸如脉管***、心脏或任何其他解剖结构等特定解剖结构的医学成像数据进行分类。

在一些实施例中，第一模型和第二模型可以产生相同类型的类别(例如，第一模型和第二模型都可以以相同的方式注释数据或者用于解决相同的问题)。在一些实施例中，第一模型可以用于产生不同的类别(例如，第一模型可以用于产生与第二模型不同的类型的注释或者用于解决不同的问题)。

例如，在一些实施例中，第一模型可以用于检测图像中的对象的存在。在一些实施例中，第二模型可以用于识别图像中的对象的位置。在图2中示出了包括支架的示例图像，图2示出了支架200，支架200的任一端由两个球囊标记202和204所标记。在一些实施例中，第一模型可以被训练为处理例如如图2所示的图像并产生指示在医学图像中是否存在支架的输出(例如，支架检测模型)。在该实施例中，第一模型的输出层可以具有适合用于二元输出的两个神经元，例如，第一模型可以输出在图像中存在支架或在图像中不存在支架。在一些实施例中，第二模型也可以被训练为处理诸如如图2所示的数据之类的数据，但是第二模型可以被训练为产生不同的输出。例如，第二模型的输出层可以包括四个神经元，第一对神经元对应于包围支架的边界框的中心的x-y坐标，而第二对神经元对应于边界框的宽度和高度。以这种方式，能够针对每幅医学图像输出支架的位置。将意识到，这些仅仅是示例，并且第一模型和第二模型的输出层可以包括产生不同输出的其他数量的神经元。例如，代替产生边界框的坐标和尺寸，第二模型可以被训练为输出图像中的支架的一端或两端(例如，球囊标记202、204)的x，y坐标。

因此，更一般地讲，在一些实施例中，第一模型包括以下中的一项：对象检测模型和对象定位模型，并且第二模型包括以下中的另一项：对象检测模型和对象定位模型。以这种方式，第一模型和第二模型可以执行类别足够相关或相似以在第一模型与第二模型之间共享信息(例如，通过训练导出的权重)的分类操作。

替代地或额外地，在一些实施例中，第一模型可以包括以下中的一项：被配置为产生单个输出的模型和被配置为产生多个输出的模型(例如，被配置为产生单个输出参数或类别的模型或者被配置为产生多个输出参数或类别的模型)。第二模型然后可以包括以下中的另一项：被配置为产生单个输出的模型和被配置为产生多个输出的模型。因此，第一模型和第二模型可以执行类别足够相关或相似以在第一模型与第二模型之间共享信息(例如，通过训练导出的权重)的分类操作。将本文的***和方法应用于这些类型的模型意味着在两项任务之间共享网络权重和偏置，从而在需要在相同的***上执行两项任务时存储器占用较少。

在一些实施例中，第二模型可以包括新创建的(例如未经训练的)模型。例如，第二模型的权重可以最初被任意设置或者随机设置。

在一些实施例中，第二模型可能已经接受了较早的训练。在一些实施例中，第二模型可以被认为是部分训练的模型。在这个意义上，“部分训练”是指以下事实：第二模型可能已经接受了一些训练而因此能够执行分类，但是第二模型在能够将数据分类到预定义的准确度(例如，用户针对特定应用所要求的适当准确度)内之前还需要进一步的训练。如果对第二模型进行了部分训练，则第二模型的权重将不会是任意的，而是会(在较早的训练过程期间)被更新。然而，对于第二模型要解决的分类问题，第二模型的权重可能不是最优的，因此第二模型可以从进一步的训练中受益。

在一些实施例中，第一模型可以包括部分训练的模型。如上所述，第一模型可能已经接受了一些训练而因此能够执行分类。因此，第一模型的权重不是任意的，因为根据第一模型先前接受的训练而设置了第一模型的权重。将意识到，除了本文描述的过程的步骤之外(例如，在基于第一模型中的对应的权重来设置第二模型中的权重之前)，在一些实施例中，指令集当由处理器102运行时可以令处理器102在第二训练数据集上训练第一模型。

在一些实施例中，如果第一模型和第二模型都被部分训练，则第一模型可能已经接受了比第二模型所接受的训练更多的训练(例如已经在更大的数据集上被训练)。在一些实施例中，在第二数据集上训练第一模型，第一数据集(可用于训练第二模型)比第二数据集(用于训练第一模型)包括的数据更少。仅第二数据集的大小可能不足以利用任意起始权重将第二模型训练到预定义的准确度。

如上所述，***100包括存储器106，存储器106包括表示指令集的指令数据。指令集在由处理器102运行时令处理器102基于第一模型中的对应的权重来设置第二模型中的权重。

在一些实施例中，令处理器102设置第二模型中的权重包括：令处理器102将来自以下中的一项的权重的值复制到第二模型中的对应的权重：第一模型的输入层，以及第一模型的隐藏层。例如，在一些实施例中，可以将来自第一模型的输入层的权重(例如，权重的值)复制到第二模型中的等效层。额外地或替代地，可以将来自第一模型的隐藏层的权重复制到第二模型中的等效隐藏层。技术人员将意识到，可以将来自第一模型的一个以上的层(隐藏层和/或输入层)的一个以上的权重复制到第二模型中的等效权重。以这种方式，根据第一模型的值来更新第二模型的权重，以便提高第二模型的权重，而不必对第二模型执行任何额外的训练。

在一些实施例中，将第一模型的输入层和隐藏层的所有权重复制到第二模型的输入层和隐藏层的等效权重。如果第二模型是新创建的(例如未经训练的)模型，这将特别有用，在这样的情况下，将第二模型的权重设置为与经(部分)训练的第一模型相同的值与在先前没有任何知识的情况下从头开始训练第二模型的权重相比缩短了训练第二模型所需的时间。换句话说，在一些实施例中，将第一模型的除了一个或多个输出层中的权重之外的所有权重复制到第二模型(例如，未将来自第一模型的输出层的权重复制到第二模型中的等效位置)，因为，如上所述，第一模型的输出层中的权重是特定于第一模型要解决的特定分类问题的，因此，例如，如果第二模型正在解决不同的分类问题，则第一模型的输出层中的权重就不能转移到第二模型。这方面的技术含义是神经网络适应涉及用适合用于另一分类问题的新层和目标函数来替换一个神经网络的最后一层(例如，输出层)和目标函数。以这种方式，针对一项任务训练的网络能够适于解决另一相关任务，否则可能很难解决另一相关任务，因为相关任务的数据太少而无法供神经网络学习，或者也可能因为在合理的时间内找不到最佳的网络架构。

在一些实施例中，令处理器102设置第二模型中的权重还包括：令处理器102将第二模型的输出层中的至少一个权重设置为任意值。例如，到第二模型的最后一层(例如，输出层)的连接可以被随机初始化，因此可以说是从头开始训练的，而其他权重和偏置可以基于第一模型中的等效权重来初始化并随后被精细调谐。

在将来自第一模型的一个或多个权重从第一模型复制到第二模型之后，指令集在由处理器102运行时令处理器102在第一数据集上训练第二模型，其中，训练包括更新第二模型中的权重(例如，从第一模型复制的权重)。例如，可以在训练第二模型时更新从第一模型复制的一个或多个权重。

技术人员将熟悉用于训练第二模型的方法，但是简而言之，第一数据集可以包括针对训练集上的每段数据的数据(例如，要由第二模型分类的数据的典型值)和注释(例如，由人类产生的正确分类)的示例。然后可以通过如下处理训练数据集中的每段数据来训练第二模型。第二模型针对这段数据产生分类并将其与其相关联的注释进行比较。根据比较结果(例如通过计算一个或多个损失函数)来更新模型中的权重，然后针对训练数据集中的下一段数据重复该过程。以这种方式，模型的权重逐渐得到改善。技术人员将熟悉能够用于训练神经网络模型中的权重的不同方法，并且本文可以采用任何这样的方法。

一旦使用第一数据集训练了第二模型，则指令集在由处理器102运行时令处理器102基于第二模型中的更新的权重来调整第一模型中的对应的权重。在这个意义上，“更新的权重”可以包括第二模型中的权重，如上所述，该权重是从第一模型复制的并且随后在训练第二模型的过程中被更新。

在一些实施例中，令处理器102调整第一模型中的对应的权重包括：令处理器102将来自第二模型的权重的值(例如，更新的权重)复制到第一模型中的对应的权重。以这种方式，第一模型受益于第二模型所接受的额外训练，而不必直接处理第一数据集(例如在第一数据集上进行训练)。

在一些实施例中，令处理器102调整第一模型中的对应的权重包括：令处理器102基于第一模型中的对应的权重与第二模型中的权重之差将增量应用于第一模型中的对应的权重的值。例如，可以通过第一模型中的对应的权重与第二模型中的权重之差的百分比来调整第一模型中的对应的权重。例如，可以通过第一模型中的对应的权重与第二模型中的权重之差的百分之五十来更新权重。然而，技术人员将意识到，这仅是示例性的，并且可以等效地使用任何其他百分比增量。以这种方式，第二模型所接受的额外训练可以用于改进第一模型，而第一模型不必直接处理第一数据集(例如在第一数据集上训练)。此外，由于第二模型的权重的值不会被直接复制到第一模型而覆盖在第一模型的值上，因此不会丢失第一模型的经验训练。相反，第二模型的训练用于将第一模型的权重逐步移向最优解，同时保留第一模型在第一模型的先前训练中获得的经验。以这种方式在第一模型与第二模型之间调整权重的值进一步确保了在涉及使损失函数最小化的训练过程期间模型的权重不会卡在损失函数的局部最小值中。相反，通过让两个模型工作并就相同或相似的问题进行训练，训练过程能够更轻松地收敛到(一个或多个)相关联的损失函数的全局最小值，从而使分类过程更加准确。

在一些实施例中，令处理器102调整第一模型中的对应的权重还包括：令处理器102基于第二模型中的等效的更新的权重来调整模型的输入层或隐藏层中的权重。在一些实施例中，令处理器102调整第一模型中的对应的权重还包括：令处理器102将来自以下中的一项的权重的值复制到第二模型中的对应的权重：第一模型的输入层，以及第一模型的隐藏层。例如，可以将来自第二模型的一个或多个隐藏层的权重的一个或多个值复制到第一模型中的等效权重。额外地或替代地，可以将来自第二模型的一个或多个输入层的一个或多个权重从第二模型复制到第一模型中的等效权重。如上所述，第二模型的输入层和隐藏层的权重的更新与第一模型最相关(与输出层相反)，因为这些更新对于第一模型和第二模型而言均是共同的更新。

如上所述，神经网络模型的输出层取决于模型正在解决的特定分类问题，因此，基于经训练的第二模型的更新的权重来调整第一模型的输出层可能是不恰当的(除非第一模型和第二模型正在解决相同或相似的分类问题)。因此，在一些实施例中，令处理器102调整第一模型中的对应的权重还包括：令处理器102将第一模型的输出层中的至少一个权重的值维持在相同的值处(例如，使第一模型的(一个或多个)输出层中的一个或多个权重保持不变)。在一些实施例中，令处理器102调整第一模型中的对应的权重还包括：令处理器102将第一模型的输出层中的权重设置为任意值(例如重新设置第一模型的输出层中的一个或多个权重)。在该实施例中，可以单独地训练第一模型的输出层的权重。

在一些实施例中，指令集在由处理器102运行时还令处理器102响应于对第一模型和第二模型中的一项的进一步的训练而调整第一模型和第二模型中的另一项的权重。例如，如果在上面概述的过程之后，对第一模型执行进一步的训练，则可以基于第一模型的进一步的训练的权重来(以上述实施例中的任一种描述的方式)调整第二模型的权重。以这种方式，第一模型或第二模型的任何后续训练都能够用于更新另一模型的权重。

在一些实施例中，指令集在由处理器102运行时令处理器102重复调整权重的步骤(例如根据如上所述的模型的训练来迭代地调整另一模型中的权重)。在一些实施例中，可以重复调整步骤，直到获得期望的准确度为止。例如，直到第一模型和/或第二模型达到阈值准确度水平为止。可以以任何合适的方式定义阈值准确度。例如，可以根据当在验证数据集上测试第一模型和/或第二模型时由第一模型和/或第二模型产生的正确注释的百分比来定义阈值准确度。在一些实施例中，可以重复调整的步骤，直到与第一模型相关联的损失函数和/或与第二模型相关联的损失函数在后续调整之间变化小于阈值量为止。该阈值量可以以任何合适的方式定义，并且例如可以包括损失函数的值的阈值百分比变化。技术人员将熟悉损失函数以及如何将其用于训练神经网络模型。如果对权重的调整引起模型的损失的微小变化，则这可以指示模型的准确度正在接近最优水平(例如，对于特定分类问题而言是最优的)。这通常被称为模型的收敛(例如，模型的权重收敛到针对分类问题的最优值)。损失通常是一个数值并且因此能够比模型中的权重的值更容易解读(例如，可能有很多(可能有数百万个)权重)。此外，损失更紧密地反映出模型正在解决的特定问题。

在一些实施例中，可以重复调整的步骤，直到已经达到了阈值迭代次数或者第一模型和/或第二模型已经处理了阈值量的测试数据为止。在一些实施例中，可以重复调整的步骤，直到调整的幅值降到阈值幅值以下为止(例如直到调整变小而指示进一步的训练不会对模型的准确度产生显著影响为止)。可以使用任何合适的阈值幅值，例如，幅值的阈值百分比变化。在一些实施例中，可以重复调整的步骤，直到第一模型中的所述权重和第二模型中的与之对应的权重在预定义阈值内朝向彼此收敛(例如指示两个模型的权重已经朝向最优值收敛)为止。在这个意义上，第一模型和第二模型的权重移向(例如到达)共同值。技术人员将意识到，可以重复调整的步骤，直到满足上述准则中的一项或其任何组合为止。以这种方式，重复调整的步骤，直到实现指示模型正在以高于特定的准确度水平进行执行(例如分类)的损失的准确度/收敛度/变化为止。

如上所述，通过有效地“共享”每个模型彼此获得的训练经验，这有效地训练了第一神经网络模型和第二神经网络模型的权重。这些模型通过相互复制权重来相互学习并且使用它们自己的训练数据副本进行精细调谐。以这种方式，能够以迭代的方式使用来自一个模型的训练来改善另一模型的权重，直到模型的权重收敛到针对每个权重的最优值为止。如前所述，以这种方式在第一模型与第二模型之间调整权重的值确保了在涉及使损失函数最小化的训练过程期间模型的权重不会卡在损失函数的局部最小值中。相反，通过让两个模型工作并就相同或相似的问题进行训练，训练过程能够更轻松地收敛到(一个或多个)相关联的损失函数的全局最小值。

图3图示了根据实施例的用于训练神经网络模型的计算机实施的方法300。所图示的方法300通常能够由***100的处理器102执行或者在***100的处理器102的控制下执行。根据一些实施例，该方法能够是部分或完全自动化的。

该方法包括：基于第一模型中的对应的权重来设置第二模型中的权重(在框302中)；在数据集上训练第二模型，其中，训练包括更新第二模型中的权重(在框304中)；并且基于第二模型中的更新的权重来调整第一模型中的对应的权重(在框306中)。

以这种方式，如上文关于***100所描述的那样，当第一模型或第二模型接收额外训练时，新训练的模型的更新的权重能够用于更新模型中的其他模型的权重。以这种方式，能够在模型之间共享训练经验，以使得模型的权重能够收敛到用于分类的最优值上。这减少了针对每种模型的训练时间(与在所有可用数据上独立训练每种模型相比)，并且因能够共享训练而无需每种模型都必须处理所有可用训练示例而在计算上更加有效。此外，通过以这种方式来回交换或更新权重，权重更有可能收敛到相关联的损失函数的全局最小值，而不是局部最小值(这对于单独训练的个体模型来说会是个问题)。

转到图4，图4图示了根据实施例的训练第一神经网络模型402和第二神经网络模型404的示例方法。在该实施例中，训练第一模型402以预测支架在图像中的位置，并且训练第二模型404以将图像分类为包含支架或不包含支架。

在第一框406中，该方法包括利用随机(例如任意)权重来初始化(例如实例化)第一模型。然后，在框408中，在第二数据集上训练第一模型402，该第二数据集包括以(例如由人类注释者)利用围绕每幅图像中的支架绘制的边界框的中心的x，y坐标注释(或标示)的医学图像形式的训练数据。以这种方式定位边界框是回归问题，并且因此第二数据集可以被描述为回归训练数据。上面关于***100描述了以这种方式训练第一模型，并且其中的细节将被理解为应用于框408。

在框410中，初始化第二模型，并且基于第一模型中的对应的权重来设置第二模型中的权重(例如，可以将来自第一模型的权重复制到第二模型)。上面已经关于***100描述了设置第二模型中的权重，并且其中的细节将被理解为等同地应用于框410。

然后在框412中在第一数据集上训练第二模型404。训练包括更新第二模型中的一个或多个权重(这一个或多个权重是基于第一模型中的对应的权重的值来设置的)。由于第二模型404正在解决分类问题(例如是否存在支架)，因此第一数据集包括分类训练数据。上面关于***100描述了在第一数据集上训练第二模型，并且其中的细节将被理解为应用于框404。

在训练了第二模型之后，该方法包括基于第二模型中的(一个或多个)更新的权重来调整第一模型中的对应的权重(图4中未示出的框)。以这种方式，第一模型和第二模型的权重各自基于彼此的训练而得到更新。应当注意，在该示例中，第一数据集和第二数据集的注释是不同的，因此第一数据集无法直接用于训练第二模型，并且第二数据集无法直接用于训练第一模型。然而，由于第一模型和第二模型正在处理相同类型的数据并解决相关问题，因此在训练期间得到的见解(例如，更新的权重)仍然能够用于提高其他模型的权重。这使得每个模型都能够得到有效的训练或者从训练数据中获得模型以其他方式无法使用的用于训练目的见解。以这种方式，即使两个模型中的一个模型的训练数据的量不足以单独训练该模型，也能够获得改善的预测。

在训练了第一模型402和第二模型404之后，这两个模型能够用于预测支架的位置并对在框414和416中是否分别存在支架进行分类。来自这样的预测的反馈(例如，来自用户的关于预测的准确度的反馈)可以用于分别在框418和420中更新(例如进一步训练)第一模型402和第二模型404。

还提供了一种包括计算机可读介质的计算机程序产品，该计算机可读介质具有被体现在其中的计算机可读代码，该计算机可读代码被配置为使得在由合适的计算机或处理器运行时令该计算机或处理器执行本文描述的一种或多种方法。因此，将意识到，本公开内容还应用于适于将实施例付诸实践的计算机程序，特别是载体上或载体中的计算机程序。该程序可以是源代码、目标代码、代码中间源以及例如以部分编译的形式的目标代码的形式，或者可以是适合用于实施根据本文描述的实施例的方法的任何其他形式。

还应当理解，这样的程序可以具有许多不同的架构设计。例如，实施该方法或***的功能的程序代码可以被细分成一个或多个子例程。将功能分布在这些子例程之中的许多不同方式对本领域技术人员来说将是显而易见的。子例程可以被一起存储在一个可执行文件中以形成自含程序。这样的可执行文件可以包括计算机可执行指令，例如，处理器指令和/或解释器指令(例如，Java解释器指令)。替代地，子例程中的一个或多个或全部可以被存储在至少一个外部库文件中，并且例如在运行时间时被静态地或动态地与主程序链接。主程序包含对子例程中的至少一个的至少一次调用。子例程也可以包括彼此的功能调用。

涉及计算机程序产品的实施例包括对应于在本文中阐述的方法中的至少一种的每个处理阶段的计算机可执行指令。这些指令可以被细分成子例程和/或被存储在可以被静态地或动态地链接的一个或多个文件中。涉及计算机程序产品的另一实施例包括对应于在本文中阐述的***和/或产品中的至少一个的每个单元的计算机可执行指令。这些指令可以被细分成子例程和/或被存储在可以被静态地或动态地链接的一个或多个文件中。

计算机程序的载体可以为能够承载程序的任何实体或设备。例如，载体可以包括数据存储设备，例如，ROM(例如，CD ROM或半导体ROM)，或者磁性记录介质(例如，硬盘)。此外，载体可以为可传输载体(例如，电信号或光信号，它们可以经由电缆或光缆或通过无线电或其他手段来传送)。当程序被体现在这样的信号中时，载体可以包括这样的线缆或其他设备或单元。替代地，载体可以是其中嵌入有程序的集成电路，该集成电路适于执行相关的方法，或者适于在对相关的方法的执行中使用。

通过研究附图、公开内容和权利要求，本领域技术人员能够理解和实施所公开的实施例的变型。在权利要求中，“包括”一词不排除其他元件或步骤，并且词语“一”或“一个”不排除多个。单个处理器或其他单元可以实现在权利要求中记载的若干项的功能。虽然某些措施被记载在互不相同的从属权利要求中，但是这并不指示不能有利地使用这些措施的组合。计算机程序可以被存储/分布在合适的介质上，例如与其他硬件一起或者作为其他硬件的部分而供应的光学存储介质或固态介质，但是也可以被以其他形式分布，例如经由互联网或其他有线或无线的电信***分布。权利要求中的任何附图标记都不应被解释为对范围的限制。

Claims

1.一种被配置用于训练第一神经网络模型和第二神经网络模型的***(100)，所述***(100)包括：

存储器(106)，其包括表示指令集的指令数据；

处理器(102)，其被配置为与所述存储器(106)通信并运行所述指令集，其中，所述指令集在由所述处理器(102)运行时令所述处理器(102)：

基于所述第一神经网络模型中的对应的权重来设置所述第二神经网络模型中的权重；

在第一数据集上训练所述第二神经网络模型，所述第一数据集包括图像数据、文本数据和音频数据，其中，所述训练包括更新所述第二神经网络模型中的所述权重；并且

基于所述第二神经网络模型中的更新的权重来调整所述第一神经网络模型中的所述对应的权重，

其中，令所述处理器(102)调整所述第一神经网络模型中的所述对应的权重包括令所述处理器(102)：

基于所述第一神经网络模型中的所述对应的权重与所述第二神经网络模型中的所述权重之差的预定百分比将增量应用于所述第一神经网络模型中的所述对应的权重的值，其中，所述预定百分比小于100％。

2.根据权利要求1所述的***，其中，所述权重包括以下中的一项的权重：

所述第二神经网络模型的输入层；以及

所述第二神经网络模型的隐藏层。

3.根据前述权利要求中的任一项所述的***，其中，令所述处理器(102)调整所述第一神经网络模型中的所述对应的权重还包括：令所述处理器(102)：

将所述第一神经网络模型的输出层中的权重设置为任意值。

4.根据权利要求1或2所述的***，其中，令所述处理器(102)调整所述第一神经网络模型中的所述对应的权重还包括：令所述处理器(102)：

将所述第一神经网络模型的输出层中的至少一个权重的值维持在相同的值处。

5.根据权利要求1或2所述的***，其中，令所述处理器(102)设置所述第二神经网络模型中的权重包括：令所述处理器(102)：

将来自以下中的一项的权重的值复制到所述第二神经网络模型中的对应的权重：

所述第一神经网络模型的输入层；以及

所述第一神经网络模型的隐藏层。

6.根据权利要求1或2所述的***，其中，令所述处理器(102)设置所述第二神经网络模型中的权重还包括：令所述处理器(102)：

将所述第二神经网络模型的输出层中的至少一个权重设置为任意值。

7.根据权利要求1或2所述的***，其中，所述第一神经网络模型包括以下中的一项：

对象检测模型；以及

对象定位模型；

并且其中，所述第二神经网络模型包括以下中的另一项：

对象检测模型；以及

对象定位模型。

8.根据权利要求1或2所述的***，其中，所述第一神经网络模型包括以下中的一项：

被配置为产生单个输出的模型；以及

被配置为产生多个输出的模型；

并且其中，所述第二神经网络模型包括以下中的另一项：

被配置为产生单个输出的模型；以及

被配置为产生多个输出的模型。

9.根据权利要求1或2所述的***，其中，所述指令集在由所述处理器(102)运行时还令所述处理器(102)：

响应于对以下中的一项的进一步的训练：

所述第一神经网络模型；以及

所述第二神经网络模型；

而调整以下中的另一项的权重：

所述第一神经网络模型；以及

所述第二神经网络模型。

10.根据权利要求9所述的***，其中，所述指令集在由所述处理器(102)运行时令所述处理器(102)重复调整权重的步骤，直到满足以下准则中的一项或多项为止：

所述第一神经网络模型和/或所述第二神经网络模型达到阈值准确度水平；

调整的幅值低于阈值幅值；

所述第一神经网络模型中的所述权重和所述第二神经网络模型中的与之对应的权重在预定义阈值内朝向彼此收敛；以及

与所述第一神经网络模型相关联的损失和/或与所述第二神经网络模型相关联的损失在后续调整之间的变化小于阈值量。

11.根据权利要求1、2或10所述的***，其中，在第二数据集上训练所述第一神经网络模型，所述第一数据集包括的数据比所述第二数据集的数据少，其中，仅所述第二数据集的大小不足以利用任意起始权重将所述第二神经网络模型训练到预定义准确度。

12.一种训练第一神经网络模型和第二神经网络模型的计算机实施的方法，所述方法包括：

基于所述第一神经网络模型中的对应的权重来设置(302)所述第二神经网络模型中的权重；

在数据集上训练(304)所述第二神经网络模型，所述数据集包括图像数据、文本数据和音频数据，其中，所述训练包括更新所述第二神经网络模型中的所述权重；并且

基于所述第二神经网络模型中的更新的权重来调整(306)所述第一神经网络模型中的所述对应的权重，

其中，所述的调整所述第一神经网络模型中的所述对应的权重包括：

13.一种包括计算机可读介质的计算机程序产品，所述计算机可读介质具有被体现在其中的计算机可读代码，所述计算机可读代码被配置为使得在由合适的计算机或处理器运行时令所述计算机或处理器执行根据权利要求12所述的计算机实施的方法。