CN113935395A

CN113935395A - 对象识别神经网络的训练

Info

Publication number: CN113935395A
Application number: CN202110678459.7A
Authority: CN
Inventors: 亚当·希尔·科尔贝里
Original assignee: Axis AB
Current assignee: Axis AB
Priority date: 2020-06-25
Filing date: 2021-06-18
Publication date: 2022-01-14
Also published as: JP2022008187A; JP7492490B2; EP3929801A1; US11756303B2; US20210406604A1

Abstract

本发明提供了对象识别神经网络的训练。公开了迁移学习对象识别神经网络的方法。该方法包括：获取图像帧集；由实现对象识别神经网络的第一对象识别算法确定在图像帧集中的多个对象识别；通过由不同于第一对象识别算法的第二对象识别算法评估多个对象识别来确定经验证的对象识别，其中，在评估中具有阳性结果的对象识别形成经验证的对象识别；形成包括与经验证的对象识别相关联的图像帧的带注释的图像的训练集；基于带注释的图像的训练集来执行对象识别神经网络的迁移学习。

Description

对象识别神经网络的训练

技术领域

本发明涉及用于对象识别的神经网络的训练的领域。具体地，本发明涉及在图像捕获设备中使用的对象识别神经网络的迁移学习。

背景技术

神经网络现在通常用于各种图形分析任务。一项任务是对象识别，包括对象检测、对象定位、对象姿态估计和对象分割。用于对象识别的神经网络通常确定识别某个对象的概率。对象识别候选项然后被过滤以提取具有高概率的对象识别，因为这些最可能被正确地识别。用于过滤的值通常被称为阈值。较低的阈值将导致较多的检测，包括较多的假阳性，并且较高的阈值将导致较少的检测，伴随着未检测到实际对象的可能的负面影响。神经网络输出基于阈值过滤的对象识别。

用于对象识别的神经网络的训练包括向神经网络提供描绘不同外观的对象和场景的带注释的图像。为了很好地适应不同的对象识别应用，现有的神经网络通常利用被选择为覆盖环境和对象的宽频谱的图像来进行预先训练。这样的训练的缺点是，当神经网络被设置成对特定场景的图像进行操作时，神经网络不适于该场景。特别是对于其中对象识别起重要作用的监控应用，期望对神经网络进行场景特定的训练。

针对特定场景从零开始训练神经网络将是麻烦的解决方案。此外，它需要大量的工作来从覆盖由于天气或季节而导致的场景的所有变化(例如，光线变化、植被变化(在户外场景中)或其他外观变化)的场景中收集图像。因此，需要找到用于实现对象识别神经网络的场景特定训练的较不复杂的解决方案。

发明内容

本发明的目的是实现为对象识别神经网络提供场景特定训练的方法。该方法应该优选地是省时的，需要低的处理能力，并且易于实现。

发明人认识到，通过在智能地生成带注释的图像作为训练数据的情况下使用迁移学习，可以以高效且自动的方式实现用于对象识别的预先训练的神经网络对特定安装的适应。带注释的图像的智能生成包括利用用于为特定场景过滤图像的不同识别算法的多部分对象识别。这些图像然后被加注释。

根据第一方面，本发明是迁移学习对象识别神经网络的方法。该方法包括以下的动作：

·获取图像帧集，

·由实现对象识别神经网络的第一对象识别算法确定在图像帧集中的多个对象识别，其中，每个对象识别包括在关联的图像帧中的识别出的对象的位置数据，

·通过由不同于第一对象识别算法的第二对象识别算法评估多个对象识别来确定经验证的对象识别，其中，在评估中具有阳性结果的对象识别形成经验证的对象识别，

·形成包括与经验证的对象识别相关联的图像帧的带注释的图像的训练集，

·基于带注释的图像的训练集来执行对象识别神经网络的迁移学习。

因此，该方法包括使用利用神经网络执行的第一对象识别算法的第一对象识别，接着是由第二不同的对象识别算法进行的第二对象识别。图像通过算法从图像集中顺序地被过滤，被加注释，并且用于执行神经网络的迁移学习。从一开始，神经网络通常具有能够处理各种环境和对象外观的一般训练。通过利用在所提议的方法中过滤的图像的训练集的迁移学习，神经网络在检测它监视的场景中的对象方面变得更好。该方法旨在利用表示场景的图像集来执行，该场景由利用对象识别神经网络的图像捕获设备监视或将被监视。优选地，当图像捕获设备被安装在它的预期位置时，执行该方法。

神经网络输出表示在图像集的图像中被识别出的对象的对象识别。对象识别包括在关联的图像帧中的识别出的对象的位置数据。因此，对象识别包括对象的位置数据以及与对象已经被识别出的图像帧的关联。位置数据可以作为元数据被提供到图像帧，从而形成位置数据与图像帧之间的关联。位置数据是指由任何类型的神经网络为图像帧中的对象提供的任何形式的位置指示数据。位置数据可以采用图像坐标的形式被提供。

当基于经验证的对象识别和与其相关联的图像帧形成带注释的图像的训练集时，注释过程被应用使得过滤的图像变成带注释的。注释过程通常是已知的并且可以以各种方式来执行。例如，过滤的图像可以通过手动审阅和注释或通过注释自动化(两者都是本领域内的常规技术)被注释。

因此，迁移学习也是用于训练神经网络的众所周知的过程。迁移学习是指已经训练的网络以改变结果为目的被进一步训练，在这种情况下使在神经网络中的对象识别机制适于特定场景的内容。神经网络的架构保持相同。作为示例，迁移学习可以包括改变在神经网络中的一些或所有权重。迁移学习可以可替代地被称为进一步训练或增量训练。

被包括在本文中的对象识别的非限制性示例是对象定位、对象检测、对象分割和姿态估计。可以使用的神经网络架构的非限制性示例是：R-CNN、YOLO(你只看一次)、SSD(单发检测器)、Deeplab、U-Net、Mask R-CNN、PoseNet、OpenPose、DeepCut以及RMPE(区域多人姿态估计)。

在第一实施例中，第二对象识别基于识别出的对象的移动特性来执行。对象移动特性是指诸如人对象的行走、跑步、挥手或车辆对象的行驶的对象移动的质量。质量可能与对象移动的移动模式、速度或方向有关。

为此，确定经验证的对象识别的步骤可以包括确定在图像帧之间的相关的对象识别的移动是否满足预定移动条件。移动条件可以基于识别出的对象的移动模式、移动方向或速度。如何关联图像帧之间的对象识别同样是已知的并且可以通过使用例如对象嵌入来完成。

相关的对象识别的所确定的移动模式可以与限定移动模式的一个或多个模板进行比较，其中与一个或多个模板的相似度高于某个阈值对应于满足预定移动条件。

相关的对象识别的确定的移动方向可以与一个或一定范围的模板方向进行比较，其中到一个或一定范围的模板方向的足够小的距离对应于满足预定移动条件。

相关的对象识别的确定的速度值可以与一个或一定范围的模板速度值进行比较，其中到一个或一定范围的模板速度值的足够小的距离对应于满足预定移动条件。

上面公开的与不同类型的移动条件有关的变体可以组合，使得预定移动条件基于两种或更多种类型的移动特性。

在这个实施例的变体中，每个对象识别包括在第二对象识别算法中利用的用于设置预定移动条件的对象类别。具体地，预定移动条件基于对象类别被选择，并且对于不同的对象类别可以是不同的。利用过滤图像的这种方法，来自第一对象识别算法的高程度假阳性可以通过第二对象识别算法以有效的方式被过滤。

在第二实施例中，第二对象识别基于识别出的对象的位置来执行。对象位置由神经网络所提供的对象识别的位置数据给出。在确定由第二算法执行的经验证的对象识别时，可以确定对象识别是否位于预定图像区域内。对于不同的对象类别存在不同的图像区域。因此，可以基于由第一算法提供的对象类别来选择图像区域作为对象识别的一部分。

在该方法的一个实施例中，神经网络被配置成使得对象的过度检测被实现。过度检测是指神经网络检测不一定对应于在场景中的真实对象的对象。通过该配置，第一算法作为图像集的第一过滤器工作，第一过滤器过滤真阳性识别和一定量的假阳性识别。第二算法旨在通过对不同的参数进行过滤来找到真阳性识别。如以上所例示的，可以基于从第一算法输出的对象识别的信息(例如，对象位置或对象类别)来选择不同的参数。

第一对象识别算法可以在诸如监视相机的图像捕获设备中实现。这是有益的方法，因为很多图像可能需要由第一对象识别算法处理以实现用于迁移学习的所期望数量的对象识别。如果第一对象识别算法在远程服务器上执行，大量图像将需要没有理由地传输到远程服务器，因为它们中的大多数可能将不导致对象识别。对于在使用中的对象检测模型，相关对象很少出现的场景尤其如此。在到达所期望数量的对象识别之前这样的场景需要长时间的图像获取。因此，通过在图像捕获识别中执行第一对象识别算法可以节省网络容量和时间两者。

此外，第二对象识别算法可以在远程服务器中实现。因此，对象识别可以在图像捕获识别中被确定并且被传输到远程服务器以由第二对象识别算法进行分析。该配置平衡了保持网络利用低的益处与不使图像捕获设备的处理容量超载的益处。另一优点是第二算法可以被配置成包括在图像捕获设备的有限资源下不可能执行的处理要求高的操作。

为了覆盖一天周期内的光照条件的变化，可以在确定的时间段中获取图像帧集，该确定的时间段可以是至少24小时(即一天周期)。可替代地或此外，可以应用的另一条件是，应该获取图像帧，直到从图像帧集中确定了预定数量的对象识别为止。

根据一个实施例，该方法包括在迁移学习之后将对象识别神经网络迁移到监视同一场景或相同场景类型的另一场景的另一图像捕获设备的附加行动。

根据第二方面，本发明是在监视场景的图像捕获设备中训练对象识别神经网络的方法。该方法包括：

·运行包括执行第一方面的方法或其实施例的安装阶段，

·在操作阶段中，通过分析所获取的图像帧来监视场景的总体视觉外观，以及

·当检测到总体视觉外观改变时，再次运行安装阶段。

因此，提供了用于图像捕获设备的运行方案，该运行方案包括两个阶段：安装阶段和操作阶段。如对于以上第一方面所公开的，在安装阶段中，图像集被获取以确定对象识别。此外，根据第二方面，提供了在操作阶段中的监视机制，该监视机制适于监视场景的总体视觉外观。当检测到场景的总体视觉外观改变时，图像捕获设备再次进入安装阶段以执行另一轮迁移学习。通过在场景的视觉外观改变时触发迁移学习，可以训练对象检测神经网络以处理被监视的特定场景的不同变体。这使得对象识别神经网络变得甚至更适于特定场景，并且它可以甚至更好地表现。

根据第三方面，本发明是包括图像捕获设备和远程服务器的***，图像捕获设备包括实现对象识别神经网络的第一对象识别器，远程服务器包括第二对象识别器。图像捕获装置被布置成：

·获取图像帧集，

·由第一对象识别器确定在图像帧集中的多个对象识别，其中，每个对象识别包括在关联的图像帧中的识别出的对象的坐标，以及

·将多个对象识别和关联的图像帧传输到远程服务器，

远程服务器被布置成：

·通过在第二对象识别器中由不同于第一对象识别算法的第二对象识别算法评估多个对象识别来确定经验证的对象识别，其中，具有阳性结果的对象识别形成经验证的对象识别，以及

·形成包括与经验证的对象识别相关联的图像帧的带注释的图像的训练集。

在一个实施例中，远程服务器进一步被布置成基于带注释的图像的训练集来发起对象识别神经网络的迁移学习。

关于第三方面的变形和优点，参考以上第一方面的讨论。这些也适用于这个第三方面。

本发明的进一步适用范围将从下面给出的详细描述中变得明显。然而，应当理解，指示了本发明的优选实施例的详细描述和具体实施例仅以图示的方式给出，因为从该详细描述中，本领域技术人员将清楚在本发明范围内的各种变化和修改。

因此，应当理解，本发明不限于所描述的设备的特定组成部分或所描述的方法的步骤，因为这样的设备和方法可以变化。还应理解，本文中使用的术语仅用于描述特定实施例的目的，并不旨在进行限制。必须注意，如在说明书和所附权利要求中使用的，冠词“一”、“一个”、“该”和“所述”旨在表示存在一个或多个元件，除非上下文另有明确指示。因此，例如对“一对象”或“该对象”的引用可以包括多个对象等。此外，“包含”一词并不排除其他元件或步骤。

附图说明

现在将通过示例并参考附图更详细地描述本发明，其中：

图1是根据实施例的迁移学习的方法的总体概述。

图2图示出具有实现根据实施例的方法的图像捕获装置的***。

图3图示出用于根据实施例的图像捕获装置的具有不同运行模式的方法。

图4图示出根据实施例的方法。

具体实施方式

现在将公开用于对象识别神经网络的迁移学习过程的实施例。图1提供该过程的概述。该过程由图1中所图示的部件执行。图像帧由图像获取100捕获。具体地，图像帧集101被获取。然后，图像帧集101在两个步骤中通过不同的对象识别算法被过滤。过滤是指基于过滤标准在图像集101中进行选择。对象识别算法应用不同的过滤标准。因此，如由图1中的图像帧集101的阶梯式锥形形状所指示的，图像帧集101通过每个过滤步骤被减少。

两个步骤中的第一个由实现对象识别神经网络的第一对象识别算法102执行。实现是指向神经网络提供图像帧集101以执行对象识别。第一对象识别算法102可以包括通过神经网络对对象识别的预处理或后处理。

被包括在本文中的对象识别类型的非限制性示例是对象定位、对象检测、对象分割和姿态估计。对象定位包括确定对象位置；对象检测包括确定对象位置和对象类别；对象分割包括确定对象区域；以及姿态估计包括确定对象形状，例如如何定位人的手臂和腿。如何通过神经网络执行任何这些类型的对象识别在本领域内是公知的。因此，在本文中将不再讨论对象识别过程的细节。

根据在第一对象识别算法102中使用的网络架构，采用对象识别103的形式的输出以不同的形式出现。对象识别103可以包括例如边界框表示、关键点向量或通过语义分割找到的分段的坐标。

输出对象识别103的共同点是它们包括以某种形式表示关联的图像帧的一个或多个识别出的对象的位置的位置数据。输出对象识别103还可以包括每个识别出的对象的所确定的对象类别。

对象识别103与图像帧集101的第一子集一起被输入到由第二对象识别算法104执行的两个步骤中的第二个步骤。使用可以基于移动特性或对象位置的第二选择标准来评估对象识别103和关联的图像帧。利用阳性结果评估(即满足第二选择标准)的对象识别变成经验证的对象识别105。因此，图像帧集101的第一子集再次被减少到比图像帧集110的第一子集更小的第二子集。

更多地探讨第二对象识别算法104的细节，存在针对该算法的不同实施例。实施例之间的差异主要在于评估中的对象识别基于什么选择标准。实施例的共同点是对象识别的类型被执行以验证对象识别103。

在第一实施例中，第二对象识别算法104的对象识别是基于被评估的对象识别中的被识别出的对象的移动特性来执行。对象移动特性是指诸如人对象的行走、跑步、挥手或车辆对象的行驶的对象移动的质量。质量可能与对象移动的移动模式、速度或方向有关。为了基于对象移动特性来确定经验证的对象识别105的目的，第二对象识别算法104可以包括确定在图像帧之间的相关对象识别的移动是否满足预定移动条件。因此，第二对象识别算法104可以考虑用于确定对象识别的对象移动特性的多个图像帧。多个图像帧可以是连续图像序列，并且包括由第二对象识别算法104分析的对象识别的图像帧。连续图像序列可以包括在对象识别的图像帧之前或之后的图像帧，或者包括在对象识别的图像帧之前和之后的图像帧。为了确定移动特性，可能需要关联不同图像帧的对象识别。这可以通过例如对象嵌入来完成，对象嵌入是在本领域内的常规技术。换句话说，对象嵌入可用于确定在不同图像中的哪些对象识别彼此相关联。

预定移动条件可以基于移动模式、移动方向或速度。

作为第一示例，相关的对象识别的所确定的移动模式可以与限定移动模式的一个或多个模板进行比较，其中与一个或多个模板的相似度高于某个阈值对应于满足预定移动条件。

作为第二示例，相关的对象识别的确定的移动方向可以与一个或一定范围的模板方向进行比较，其中到一个或一定范围的模板方向的足够小的距离对应于满足预定移动条件。

作为第三示例，相关的对象识别的确定的速度值可以与一个或一定范围的模板速度值进行比较，其中到一个或一定范围的模板速度值的足够小的距离对应于满足预定移动条件。

在该实施例的变体中，在对象识别103中的每个对象识别包括在第二对象识别算法104中利用的用于设置预定移动条件的对象类别(由对象识别神经网络确定)。具体地，预定移动条件基于对象类别被选择，并且对于不同的对象类别可以是不同的。例如，如果对象类别是“人”，则预定移动条件可以是对应于行走或跑步移动的移动模式。可替代地，预定移动条件可以是对应于行走或跑步速度的速度。进一步，对于对象类别“车辆”，预定移动条件可以是对应于行驶的汽车的移动模式或是对应于移动的车辆的速度。本领域技术人员可以将该概念适用于其他对象类别和移动条件类型。利用过滤图像的这种方法，来自第一对象识别算法的高程度假阳性可以通过第二对象识别算法104以有效的方式被过滤。这是因为只有根据被预期用于它的对象类别的移动条件移动的对象才会被考虑为真阳性。在该实施例中，神经网络可以在第一对象识别算法102中被设置有低阈值以捕获所有真阳性以及多个假阳性，而第二对象识别算法104基于由第一对象识别算法102确定的对象类别来执行有效的第二过滤。

在第二实施例中，第二对象识别算法104的第二对象识别基于识别出的对象的位置来执行。对象位置由对象识别神经网络所提供的对象识别的位置数据给出。经验证的对象识别105可以通过确定对象识别位于预定图像区域内来确定。例如，预定图像区域可以被设置为与场景的预期移动对象或预期找到对训练感兴趣的特定类型的对象的区域相对应的图像区域。场景区域可以包括人行道、道路、自行车车道、入口/出口门等。图像区域可以预先手动地被设置或通过例如检测包括道路、门等的区域以自动化方式被设置。可替代地，图像区域可以通过分析同一场景的先前图像帧以确定对象移动存在的位置并且将图像区域设置到那些区域来确定。可以确定特定的感兴趣对象类别的对象移动。图像区域可以基于所确定的对象移动的位置来设置。对于不同的对象类别存在不同的图像区域。因此，在一个实施例中，对象识别103的每个对象识别可以包括识别出的对象的对象类别，并且在第二对象识别算法104中利用的预定图像区域对于被评估的对象识别的对象类别可以是特定的。图像区域的形状、尺寸和位置可以手动地或以自动化方式来确定。

返回到图1的概述，经验证的对象识别105与它们的关联的图像帧一起被输入到训练集编译器106。训练集编译器106根据输入形成带注释的图像107的训练集。注释可以手动地或自动地执行，两者都是公认的注释图像的方式。带注释的图像107被输入到训练器108，其目的是如由109指示的迁移训练第一对象识别算法。因此，迁移学习是用于塑造或调节神经网络的训练的公知技术。因此，在本文中将不详细阐述迁移学习的细节。

通过使用多个不同的对象识别算法来过滤图像，该过程对在相应算法中的识别灵敏度的配置变得鲁棒和不太敏感。进一步，迁移训练的过程也变得更灵活，因为对象识别可以在不同的设备之间进行划分。第一对象识别算法102可以在一个设备中(例如，在边缘设备(相机)中)执行，并且第二对象识别算法104可以在远程设备(例如，远程服务器)中执行。因此，该过程可以利用两个设备的处理资源。这对于迁移学习方法是特别有益的，其中为训练集收集优选地覆盖场景中可能存在的所有类型的对象的图像很重要。为了这个目的并且根据实施例，对象检测神经网络被配置成使得对象的过度检测被实现。过度检测是指除了存在在场景中的对象之外，神经网络还检测与场景中的真实对象不相对应的对象。因此，神经网络将场景中的非对象识别为移动对象。因此，从神经网络输出的对象识别包括真阳性识别和假阳性识别两者。神经网络的过度检测可以通过将它配置有低阈值来实现，这是不同类型的对象检测神经网络的公知配置。通过第二对象识别算法104，确定经验证的对象识别，这是对真阳性识别的进一步限制。可以配置和微调第二对象识别算法104以优化其过滤。在第二对象识别算法104位于远程服务器上的情况下，不需要连接到用于配置第一对象识别算法102的边缘设备(相机)。在一些实现中，建立这样的连接可能是不期望的或甚至是不可能的。

注意，图1不旨在图示出在部件之间的任何物理划分。换句话说，不同的部件可以在单个或不同的物理设备中实现。现在将参考图2公开实现的实施例。

数字相机20借助于图像传感器22(例如，常规CMOS传感器)来监视场景21。场景22通常是包括限定它的外观的环境和对象的户外场景。在该示例中，场景21包括移动的人21a(如由阴影的轨迹所指示的)和树21b。相机20的图像处理器23通过不同的处理算法23(包括识别器23a)来处理捕获的图像。其他非限制性示例包括白平衡器23b、曝光控制器23c和噪声过滤器23d。

识别器23a执行与图1的算法102相对应的第一对象识别算法。也就是说，识别器23a实现对象检测神经网络以确定在场景21的所捕获的图像中的对象识别。这些对象识别可以通过包括它们作为到图像帧的元数据来与它们的图像帧相关联。可以通过由相机20的编码器24执行的后续编码过程来保持关联。

相机20适于在具有来自相机20的(如由图2中的带圆圈数字1和2所指示的)不同输出的两个不同的运行模式中操作。在第一运行模式1中，相机20(具体地编码器20)输出具有如25a所指示的对象识别的编码图像帧。输出由位于远离相机20的服务器26接收。服务器26包括被布置成通过评估接收到的对象识别和它们的关联的图像帧来确定经验证的对象识别的处理器26a。服务器26可以包括其他处理部件。

此后，经验证的对象识别和它们的关联的图像帧形成为带注释的图像的训练集。该步骤可以在服务器26内例如由其另一部件或由单独的训练设备27来执行。带注释的图像用于在识别器23a中实现的对象识别神经网络的迁移学习。为了这个目的，服务器26或训练器27可以适于通过有线或无线连接而连接到相机20的识别器23a。

在第二运行模式2中，相机20将如由25b所指示的编码图像帧输出到是例如记录器或流光器(streamer)的远程设备28。第二运行模式2表示相机20在使用中按预期操作的模式。也就是说，相机20捕获图像/视频并且将图像/视频传输到接收器以用于记录和/或实时观看。对象检测神经网络可以通过确定可用于相机20内的内部图像处理和/或用于在单独的设备中的诸如事件分析的外部分析的对象识别来激活。因此，对象识别可以在第二运行模式2中与相机20的图像流一起被传输。对象检测神经网络优选地在不同的运行模式中被配置有不同的阈值。具体地，当相机20被设置在第一运行模式1中时，对象检测神经网络优选地被设置有低阈值，以实现如所讨论的过度检测。进一步，当相机20被设置在第二运行模式2中时，对象检测神经网络优选地被设置有较高的阈值。在该操作模式下，对象检测神经网络在一定程度上针对特定场景进行调节，并且应该以高概率检测相关目标。

在图3中进一步图示出两个运行模式的概念，图3图示出在不同运行模式之间转换的方法。在安装阶段301中，相机20在图2的第一运行模式1中工作。也就是说，对象识别在相机内被确定并且被发送到服务器26以用于评估，其中经验证的对象识别被确定。为了覆盖一天周期内的光照条件的变化，可以在确定的时间段中获取图像帧集，该确定的时间段可以是至少24小时(即一天周期)。可以应用的另一条件是，应该获取图像帧，直到从图像帧集中确定了预定数量的对象识别为止。图像帧可以由对象识别神经网络连续地评估，并且在达到预定数量的对象识别时，可以结束图像获取并且可以启动第二对象识别算法对对象识别的分析。对象识别的预定数量优选地是1000或更多。所需要的对象识别的数量可以取决于对象检测神经网络的类型和尺寸。

当在安装阶段301中完成对象识别神经网络的迁移学习时，相机20进入操作阶段302。

除了在操作阶段302中相机20的图像获取的正常功能之外，还提供了监视机制。监视机制的目的是监视场景21的总体视觉外观。总体视觉外观的监视可以经由图像分析或经由通过诸如光传感器的传感器(未图示)的测量来执行。监视机制可以通过使用图像处理器23的部件来执行。当检测到场景的总体视觉外观改变时，相机20如由304所指示的再次进入安装阶段301，以执行另一轮迁移学习。通过在场景的视觉外观改变时触发迁移学习，可以训练第一对象识别算法102的对象检测神经网络以处理被监视的特定场景21的不同变化。

总体视觉外观改变的原因包括天气和季节。例如，户外场景中的植物在夏季期间和冬季期间可能是非常不同的，尤其是在季节变化大的地区。场景中在运动中的对象的数量和类型也可能也可能因季节而不同。例如，码头一般在夏季期间充满船和人移动，但是在一年的其余部分期间可能是相当平静的。因此，利用来自这两个时期的图像来训练对象识别神经网络以能够全年良好地执行是一个优点。相同的推理适用于天气变动，其中在场景中的移动及其外观在不同的天气条件(例如雪、雨或太阳)中可能不同。在户内场景中，家具的重组可能改变场景到需要进一步训练的程度。

如所讨论的，对象识别神经网络的迁移学习的目的是调整神经网络的配置，使得它在它处理的图像上执行良好。监视相似的或甚至相同的场景的具有对象识别神经网络的其他相机也可以从迁移学习受益。即使场景可能不完全相同，但场景类型相同，迁移学习可以是对标准图像训练神经网络的改进。为了这个目的并且根据一个实施例，相机20的对象识别神经网络可以在迁移学习之后被迁移到另一相机。迁移对象识别神经网络是指布置神经网络的拷贝以在其他图像捕获设备中实现。可替换地或此外，网络可以被迁移到存储设备(例如，在云服务器上)以变成被设置成监视相同的场景或场景类型的未来相机的资源。相同的场景类型在本文中是指场景在环境(户外/户内)、内容(检测的对象类别)或地理位置方面具有相似性。

在图4中提供根据本文中讨论的实施例的用于迁移学习的方法步骤的概述。首先，获取S401图像集。从该图像集确定S402对象识别，因此过滤包括如由对象识别神经网络检测的对象识别的图像帧。在之前的步骤S402中，根据步骤S402的对象识别确定经验证的对象识别。因此，执行第二图像过滤。在步骤S404中，与经验证的对象识别相关联的图像帧被加注释。此后，在步骤S405中形成带注释的图像的训练集。然后，利用带注释的图像来执行对象识别神经网络的迁移学习。如上面讨论的，方法步骤S401-S406可以在相机的安装阶段中执行。如上所例示的，方法步骤S401-S406可以基于诸如被监视的场景的总体场景外观改变的条件被触发以再次执行。因此，包括迭代步骤S407，其中可以触发迭代步骤S407。可替代地，迭代步骤S407可以被配置成在定期基础上(例如每第三个月或每年一次)执行。作为又一替代，迭代步骤S407可以由操作员手动地触发。当然也可以在单个实施例中组合触发机制。

应理解，在图1和图2中的所图示出和所公开的部件可以被实现为硬件、软件或其组合。

在部件的硬件实现中，部件可以对应于专门和特别设计成提供零件的功能的电路。电路可以采用诸如一个或多个专用集成电路或一个或多个现场可编程门阵列的一个或多个集成电路的形式。

在部件的软件实现中，电路却可以采用诸如微处理器的处理器的形式，处理器与存储在诸如非易失性存储器的(非暂时性)计算机可读介质上的计算机代码指令相关联，使图像处理器23执行本文中公开的任何方法(的部分)。非易失性存储器的示例包括只读存储器、闪存、铁电RAM、磁性计算机存储设备和光盘等。例如，在软件情况中，识别器23a可以对应于存储在计算机可读介质上的计算机代码指令的一部分，当由处理器执行时，该计算机代码指令使图像处理器23执行部件的功能。

本领域技术人员认识到，本发明决不限于以上所描述的优选实施例。相反，在所附权利要求的范围内，许多修改和变化是可能的。例如，所公开的迁移训练的概念可以应用于基于不同类型成像技术的相机(例如，热成像相机)。还应注意，第二识别算法可以在所记录的对象识别(例如，是所记录的视频流的一部分)上执行或在从相机实时流出(livestreamed)的对象识别上执行。在第一变体中，所记录的对象识别与关联的图像帧一起可以存储在诸如服务器的存储设备上。参考图2，存储设备可以位于相机20与服务器26之间。

Claims

1.一种形成用于对象识别神经网络的迁移学习的图像的训练集的方法，所述方法包括：

获取要由图像捕获设备监视的场景的图像帧集，

由实现对象识别神经网络的第一对象识别算法确定在所述图像帧集中的多个对象识别，其中，每个对象识别包括在关联的图像帧中的识别出的对象的位置数据，

通过由不同于所述第一对象识别算法的第二对象识别算法评估所述多个对象识别来确定经验证的对象识别，其中，在所述评估中具有阳性结果的对象识别形成经验证的对象识别，

形成包括与所述经验证的对象识别相关联的图像帧的带注释的图像的训练集，

基于所述带注释的图像的训练集来执行所述对象识别神经网络的迁移学习，以及

将所述对象识别神经网络用于由监视所述场景的图像捕获设备执行的对象识别。

2.如权利要求1所述的方法，其中，所述对象识别是以下对象识别类型中的一种：对象定位、对象检测、对象分割以及姿态估计。

3.如权利要求1所述的方法，其中，所述第二对象识别算法基于对象移动特性来确定对象。

4.如权利要求3所述的方法，其中，确定经验证的对象识别的步骤包括：确定在图像帧之间的相关的对象识别的移动是否满足预定移动条件。

5.如权利要求4所述的方法，其中，每个对象识别包括所述识别出的对象的对象类别，并且其中，所述预定移动条件对于被评估的所述对象识别的所述对象类别是特定的。

6.如权利要求1所述的方法，其中，所述第二对象识别算法基于对象位置来确定对象。

7.如权利要求6所述的方法，其中，确定经验证的对象识别的步骤包括：确定所述对象识别是否位于预定图像区域内。

8.如权利要求7所述的方法，其中，每个对象识别包括所述识别出的对象的对象类别，并且其中，所述预定图像区域对于被评估的所述对象识别的所述对象类别是特定的。

9.如权利要求1所述的方法，其中，所述对象识别神经网络的一个或多个阈值被配置成使得对象的过度检测被实现，其中，所述多个对象识别包括真阳性识别和假阳性识别两者。

10.如权利要求1所述的方法，其中，所述第一对象识别算法在图像捕获设备中实现。

11.如权利要求10所述的方法，其中，所述第二对象识别算法在远程服务器中实现。

12.一种在监视场景的图像捕获设备中训练对象识别神经网络的方法，所述方法包括：

运行包括执行如权利要求1所述的方法的安装阶段，

在操作阶段中，通过分析所获取的图像帧来监视所述场景的总体视觉外观，以及

当检测到所述总体视觉外观改变时，再次运行所述安装阶段。

13.如权利要求12所述的方法，其中，所述总体视觉外观是由于天气或季节而引起的光照条件或视觉外观。

14.一种包括图像捕获设备和远程服务器的***，所述图像捕获设备包括实现对象识别神经网络的第一对象识别器，所述远程服务器包括第二对象识别器，其中，所述图像捕获设备被布置成：

获取要监视的场景的图像帧集，

由所述第一对象识别器确定在所述图像帧集中的多个对象识别，其中，每个对象识别包括在关联的图像帧中的识别出的对象的坐标，以及

将所述多个对象识别和关联的图像帧传输到所述远程服务器，

并且其中，所述远程服务器被布置成：

通过在所述第二对象识别器中由不同于所述第一对象识别算法的第二对象识别算法评估所述多个对象识别来确定经验证的对象识别，其中，具有阳性结果的对象识别形成经验证的对象识别，以及

形成包括与所述经验证的对象识别相关联的图像帧的带注释的图像的训练集。

15.如权利要求14所述的***，其中，所述远程服务器进一步被布置成基于所述带注释的图像的训练集来发起所述对象识别神经网络的迁移学习。