CN109214261B

CN109214261B - 用于训练神经网络以分类对象或事件的方法和***

Info

Publication number: CN109214261B
Application number: CN201810685772.1A
Authority: CN
Inventors: J·图尔伯格; V·A·安德森
Original assignee: Axis AB
Current assignee: Axis AB
Priority date: 2017-06-30
Filing date: 2018-06-28
Publication date: 2020-12-01
Anticipated expiration: 2038-06-28
Also published as: EP4181085A1; CN109214261A; EP3422255A1; EP3422255B1; US20190005353A1; US10635936B2

Abstract

本发明涉及用于训练分类器的方法和***。该方法包括：接收包括表示被监测环境中的对象或事件的数据的第一组传感器数据；接收第二组传感器数据，该第二组传感器数据表示与由第一组传感器数据表示的时间段对应的时间段；向导师分类器输入表示第一组数据并包括表示对象或事件的数据的数据；在导师分类器中生成对象或事件的分类；在学徒分类器训练过程中接收第二组传感器数据；在学徒分类器训练过程中接收在导师分类器中生成的分类；并且使用第二组传感器数据作为输入并且使用从导师分类器接收的分类作为第二组传感器数据的分类的基础事实，在学徒分类器训练过程中来训练学徒分类器。

Description

用于训练神经网络以分类对象或事件的方法和***

技术领域

本发明涉及用于训练神经网络以分类对象或事件的方法和***。

背景技术

对象和/或事件的分类可以借助于神经网络，时也称为人工智能AI，实现。现在的趋势是这些技术越来越多地用于从捕获的静止图像或视频中分类对象或事件。这些分类神经网络经常用于如字符识别、监测、监控、图像分析、自然语言处理等的应用中。存在可用于分类对象的许多神经网络算法/技术，例如，卷积(convolutional)神经网络、递归(recurrent) 神经网络等。

在图1中示出了用于训练用于分类的通用神经网络12的通用训练设置10。神经网络12被馈送标记数据14。标记数据14例如是要被分类的对象的图像，其中图像被标记有正确的分类，即标记数据14包括图像数据 16的基础事实18和图像数据16本身。图像数据16被输入到分类器，并且基础事实18被发送到损失函数计算器20。分类器12处理表示要被分类的对象的数据并且生成分类标识22。分类器中的处理包括当数据被馈送通过分类器12时将权重应用于值。分类标识22可以是特征向量、分类向量或对类别进行标识的单个值。在损失函数中，使用例如损失函数将分类标识22与基础事实18进行比较。然后将来自损失函数24的结果传递到配置为调节在分类器12中使用的权重的权重调节函数26。然后，当分类器12被完全训练时，可以如图2所示使用它，其中通过将要分类的数据30加载到分类器12中来执行分类。要分类的数据30与训练期间使用的标记数据处于相同的形式，但没有标记。分类器12然后输出标识为输入的数据确定的类别的数据32。

为了获得适当训练的分类器，需要大量标记的数据实例，例如，标记的图像。通常需要数十万个标记数据的实例，在很多情况下甚至是数百万个。该训练数据生成非常麻烦。对于一些分类，你可以购买大型标记数据集。最常见的数据集包括被分类的图像。这些现有数据集的一个问题是，它们可能没有标记你想要训练你的分类器识别的类别。现有数据集的另一个问题是它们可能不会使用你希望对其进行分类的输入数据的形式。

分类器可以是任何类型的神经网络、人工智能或机器学习方案。在本说明书中，人工智能包括神经网络，因此当我们描述神经网络时，它也适用于包括这种神经网络的任何人工智能。要用作分类器的神经网络可以以技术人员已知的许多不同方式来实现。神经网络有时被称为人工神经网络。

发明内容

本发明的一个目的是以较低劳动强度对分类器进行训练。

该目的借助于根据权利要求1的用于训练分类器的方法来实现。本发明的另外实施例在从属权利要求中给出。

更精确地，根据本发明的一个方面，用于训练分类器的方法包括：

接收包括表示被监测环境中的对象或事件的数据的第一组传感器数据，

接收表示与由第一组传感器数据表示的时间段对应的时间段的第二组传感器数据，

向导师(tutor)分类器输入表示第一组数据并包括表示对象或事件的数据的数据，

在导师分类器中生成对象或事件的分类，

在学徒(apprentice)分类器训练过程中接收第二组传感器数据，

在学徒分类器训练过程中接收在导师分类器中生成的分类，

使用第二组传感器数据作为输入并且使用从导师分类器接收的分类作为第二组传感器数据的分类的基础事实，在学徒分类器训练过程中训练学徒分类器。

上述方法的一个优点是它使得能够使用对第一组传感器数据进行操作的已经训练的分类器来训练用于新的一组传感器数据的分类器，其中第二组传感器数据的数据表示与第一组传感器数据相同的对象或事件，并且在对应的时间段期间。

在其它实施例中，发送给导师分类器的第一组传感器数据是包括对象或事件的第一组传感器数据的子集，其中第一组传感器数据的子集表示与被监测环境中的对象或事件的空间位置相关的传感器数据，并且其中发送到学徒神经网络的第二组传感器数据表示第二传感器数据的子集，其中第二传感器数据的子集表示与被监测环境中对应于第一组传感器数据的子集的空间位置相关的数据。使用来自对象的第一组传感器数据的空间位置进行分类的优点可以是在其中至少在第二数据集中存在多个对象的情况下促进对应对象的标识。此外，空间位置的使用可以促进和/或加速从第二组传感器数据中找到来自第一组传感器数据的对象。

在一些实施例中，第一组传感器数据和第二组传感器数据由相同的传感器生成。这对于能够提供各种类型的传感器数据的传感器是有利的。例如，图像传感器可以提供静止图像数据和视频数据，即，在传感器是图像传感器的情况下，第一组传感器数据可以是静止图像并且第二组传感器数据可以是视频帧序列。

在其它实施例中，第一组传感器数据由第一传感器生成，而第二组传感器数据由第二传感器生成。这在期望促进训练另一类型的传感器数据的分类，而不是可用分类器能够分类的数据的情况下是有利的。通过使用这种实施例，不需要经历手动创建训练数据的过程，因此促进训练过程。在其它实施例中，第一传感器和第二传感器被布置为从不同类型的传感器输入生成数据。训练分类器分类不同类型的数据，而不是在已经训练的分类器上训练的数据，这也有助于训练过程，因为不需要手动地为由第二组数据表示的数据的类型创建被标记的训练组数据。

根据一些实施例，第一传感器是图像传感器，并且其中第二传感器是来自雷达传感器、音频传感器、声场传感器、LIDAR传感器、用于激光吸收光谱的传感器、声纳传感器、辐射传感器、X射线传感器、超声波的组中的任何传感器类型。根据其它实施例，图像传感器是记录可见光的传感器。在其它实施例中，第一传感器是记录可见光的传感器，并且第二传感器是记录红外光的传感器。

在一些实施例中，导师分类器基于神经网络，并且根据一些实施例，学徒分类器基于神经网络。

根据本发明的另一方面，一种被布置为训练分类器的***，该***包括：导师分类器，其被布置为接收包括表示被监测环境中的对象或事件的数据的第一组传感器数据并且生成对象或事件的分类；学徒分类器，其被布置为被训练，其中训练包括接收表示与由第一组传感器数据表示的时间段对应的时间段的第二组传感器数据；损失值计算器，其被布置为从导师分类器接收输出分类，从学徒分类器接收输出分类，并且计算标识两个接收到的分类之间的差异的损失值；以及权重调节器，其被布置为响应于由损失值计算器计算的损失值来调节学徒分类器中的权重。上述***的一个优点是它使得能够使用在第一组传感器数据上操作的已经训练的分类器来训练用于一组新的传感器数据的分类器，其中第二组传感器数据的数据表示与第一组传感器数据相同的对象或事件，并且是在对应的时间段期间。

在一些实施例中，该***进一步包括生成第一组传感器数据和第二组传感器数据两者的传感器。这对于能够提供各种类型的传感器数据的传感器来说是有利的。例如，图像传感器可以提供静止图像数据和视频数据，即，在其中传感器是图像传感器的情况下，第一组传感器数据可以是静止图像并且第二组传感器数据可以是视频帧序列。

在其它实施例中，***进一步包括生成第一组传感器数据的第一传感器和生成第二组传感器数据的第二传感器。这在期望促进训练另一类型的传感器数据的分类，而不是可用分类器能够分类的数据的情况下是有利的。通过使用这种实施例，不需要经历手动创建训练数据的过程，因此促进训练过程。

在一些实施例中，传感器是图像传感器。

根据下面给出的详细描述，本发明的进一步适用范围将变得显而易见。然而，应该理解的是，尽管指出了本发明的优选实施例，但是详细描述和具体示例仅仅是以示例的方式给出的，因为在本发明的范围内的各种改变和修改从该详细描述对于本领域技术人员而言将变得显而易见。因此，应该理解的是，本发明不限于特定的所描述的设备的组成部分或所描述的方法的步骤，因为这种设备和方法可以变化。还应该理解的是，在此使用的术语仅用于描述特定实施例的目的，而不旨在限制。必须注意的是，如在说明书和所附权利要求中所使用的，冠词“一”、“一个”、“该”和“所述”旨在表示存在一个或多个元件，除非上下文另有明确规定。因此，例如，对“传感器”或“该传感器”的引用可以包括若干传感器等。此外，词语“包括”不排除其它元件或步骤。

附图说明

参考附图，根据下面对当前优选实施例的详细描述，本发明的其它特征和优点将变得显而易见，在附图中：

图1是根据现有技术用于训练分类器的训练***的示意性框图，

图2是现有技术分类器在训练后使用时的示意性框图，

图3是根据本发明实施例的用于训练分类器的训练***的示意性框图，

图4a是由图像传感器捕获的场景的传感器数据的示意图，

图4b是图4a的对应场景的传感器数据的示意图，但是由雷达传感器捕获，

图5是根据本发明的实施例的作为训练过程的一部分的分类过程的流程图，

图6是根据本发明的实施例的作为训练过程的一部分的学徒神经网络的学习过程的流程图，以及

图7是根据替代实施例的训练***的学徒部分的示意性框图。

此外，在附图中，类似附图标记在若干附图中表示相似或相应的部分。

具体实施方式

本发明涉及被配置为借助于处理来自传感器的数据来分类对象和/或事件的分类器。特别地，本发明涉及具有被配置为从传感器提供的第一组数据对对象和/或事件进行分类的第一分类器，以帮助配置第二分类器根据由相同或不同的传感器所提供的第二组数据对对象和/或事件进行分类。第一分类器可以被看作是教授第二分类器，并且因此第一分类器将被称为导师分类器，并且第二分类器将被称为学徒分类器。

在一些实施例中，导师分类器被配置为分类来自图像传感器，例如，用于从可见光或红外光捕获图像的传感器，的数据。具有被配置为基于来自可见光图像传感器的数据对对象和/或事件进行分类的导师分类器的一个优点是，存在已经为该类型的数据准备的大量标记数据集，并且因此这将有助于训练这种分类器。甚至可能存在可使用的预配置分类器。

学徒分类器可以被配置为被训练来对来自任何类型的传感器的数据进行分类，其中可能关联由导师分类器进行的分类。学徒分类器可以被训练为分类来自相同的传感器或相同类型的传感器数据，如同导师分类器被训练以进行分类的，但是以不同的形式。根据一些实施例，学徒分类器将被训练以分类来自第二传感器的数据。第二传感器可以是例如可见光图像传感器、红外光图像传感器、雷达传感器、麦克风、麦克风矩阵、声场传感器、超声波、激光雷达传感器、激光吸收光谱的传感器、声纳传感器、辐射传感器、X射线传感器等。

现在参考图3，描绘了被布置用于使一个分类器配置或训练另一个分类器以进行分类的***的示例。该***包括被配置和/或训练的导师分类模块102和要配置和/或训练的学徒分类模块104。导师分类模块102被布置成从第一传感器106接收传感器数据，并且学徒分类模块104被布置为从第二传感器108接收数据。在该示例中，第一传感器106是传递场景的二维图像的图像传感器。

导师分类模块包括对象检测器110、裁剪模块112和导师分类器114。对象检测器110可以是技术人员已知的布置为检测二维图像中的对象的任何类型的对象检测器。对象检测器110被布置为检测第一传感器106接收的数据中的被捕获的场景的图像中出现的对象。裁剪模块112被布置为提取来自第一传感器106的数据的子集并且将所提取的数据子集发送给导师分类器114。要提取的子集由在对象检测器110中检测到的对象的位置和大小确定。裁剪区域可以是矩形并且比对象略大。除了通过提取所述数据子集来裁剪数据并且将该数据子集发送给导师分类器之外，裁剪模块112 还将检测到的对象的位置的信息传送给学徒分类模块104。此外，除了传送检测对象的位置给学徒类别模块，裁剪模块可以被布置为传送以下特征中的任何一个：裁剪区域的面积，裁剪区域的宽度，裁剪区域的高度，对裁剪区域的指向。

导师分类器114处理裁剪的图像数据并生成指示检测到的对象的类别的指示器(indicator)。指示器可以是特征向量、分类向量、单个值，或者它可以是指示类别和对象被正确分类的可能性，即指示类别的置信度值的数据集。然后将类别指示器或类别指示器的过滤版本传送给学徒分类模块104。过滤版本可以是类别指示器，其中将具有最优置信度值的有限数量或单个一个类别指示器传送给学徒分类模块。此外，在一些实施例中，如果置信度值低于预定阈值，则可以停止传送类别指示器。

学徒分类模块104包括裁剪转换器116、裁剪模块118、学徒分类器 120、损失函数计算器122和权重调节器124。裁剪转换器116被布置为将导师分类模块102中的剪裁模块112中执行的裁剪相关的信息转换成来自第二传感器108的数据中表示的对应位置。

该转换在图4a-b中示出，其中图4a描绘了由图像传感器，例如，可见光图像传感器或红外图像传感器，捕获的图像150，并且图4b描绘了与图4a中的图像的捕获对应的时间段的来自雷达传感器的传感器数据的表示152。图4a中的图像示出捕获场景中的两个人154、156。诸如导师分类模块102中的一个对象检测器110的对象检测器可能会检测到两个人154、 156，然而，***应该一次只对一个对象进行分类。让我们假设分类模块处于处理右侧的人156的阶段，并且阴影区域158指示这是检测到的对象，并且裁剪模块112已经确定了由阴影区域158指示的待裁剪区域。如前所述，然后将与裁剪模块112中确定的裁剪相关的信息传送给学徒分类模块 104的裁剪转换器116。在该情况下，裁剪转换器116将位置转换成雷达传感器的数据中的对应指向，由图4b中的阴影扇区160指示。角度α可以根据图4a中的裁剪区域158的宽度来确定，或者可以在对于确定的指向中的雷达数据的独立的对象检测上来确定。

现在返回到图3以及学徒分类模块104的特征的描述。裁剪模块118 被布置成从来自第二传感器108的数据提取子集。对要提取的数据的子集的选择至少部分地使用来自裁剪转换器的数据确定。学徒分类器120被布置为接收来自裁剪模块118的裁剪数据并且生成指示来自第二传感器108 的数据中的对应对象的估计类别的值或值的向量。损失函数计算器122被布置为与由导师分类器114提供的基础事实相比较，评估来自学徒分类器 120的结果。在机器学习中，对于分类器的示例，基础事实是作为特定图像的正确类别提供(即通过手动标记对象)的对象的类别。该评估产生输出，其用于调节学徒分类器120中的处理，例如通过调节各种处理步骤中的权重。权重调节器124被布置为使用来自损失函数122的评估结果并且为学徒分类器120生成适当的权重调节，以便更接近正确的分类。

现在参考示出用于训练分类器的示例过程的图5和图6。图5示出与来自第一传感器106的数据的处理和用于训练来自第二传感器108的数据的分类的数据生成相关的训练过程的一部分。图6示出与来自第二传感器 108的数据处理以及使用来自处理来自第一传感器106的数据的输入来调节学徒分类器中的权重相关的训练过程的一部分。训练循环开始于来自两个传感器106、108的两个数据集的输入。因此，该过程接收来自第一传感器106(图5中的步骤202)，以及来自第二传感器108(图6中的步骤252) 的数据。第一传感器106是如上所述的图像传感器。由两个传感器106、 108记录的数据由每个传感器106、108在对应的时间点记录，即分别在两个传感器处以短的时间距离或重叠的时间段捕获数据，以便使得两个传感器可能捕获与相同对象或事件相关的数据。

现在让我们看看图5中来自第一传感器106的数据的处理。在图像传感器数据已经被接收之后，当它已经被第一传感器106捕获时(步骤202)，该过程通过检测来自第一传感器106的数据中的对象(步骤206)而继续。然后分析所检测的对象以进行裁剪，并且选择表示检测到的对象的数据的子集，即裁剪(步骤208)。此外，确定并传送与被检测对象相关的以下特征之一或任何组合相关的数据(步骤210)，以用于在学徒分类模块104 中对来自第二传感器108的数据执行裁剪操作。特征是：检测到的对象的位置，对象占据的区域的指示，裁剪区域的宽度，裁剪区域的高度。

然后，来自第一传感器的裁剪的数据被输入到导师分类器114(步骤 212)，并且由导师分类器114生成分类标识(步骤214)。然后将与检测到的对象相关的分类标识发送到学徒分类模块104中的损失函数122(步骤216)。该过程然后返回到步骤202以接收新的图像数据。训练循环的重复可以尽可能快地执行。在一些实施例中，训练可以限于具有足够好的置信度值的分类。在一些实施例中，对实时数据执行训练，并且在一些实施例中，对记录的数据执行训练，该记录的数据在建议数据表示相同的事件或对象的时间点被记录或捕获。通过查看来自图6中第二传感器的数据的处理继续描述训练过程，如上所述，接收来自第二传感器的传感器数据 (步骤252)。然后，从导师分类模块102接收与结合图5的描述一起描述的与裁剪和对象检测相关的特征(在步骤254)。该特征被转换为与由传感器传送的数据的类型相关的值，以便能够实现来自两个传感器106、 108的数据集中的位置之间的相关性(步骤256)。然后使用来自导师分类模块102的至少一些转换值来确定裁剪参数(步骤258)。然后使用这些裁剪参数裁剪来自第二传感器108的数据(步骤260)，并且裁剪的数据被输入到学徒分类器120中(步骤262)。学徒分类器120然后在处理的裁剪数据中生成对象的分类标识(步骤264)。然后在损失函数计算器122 处接收由学徒分类器120生成的分类标识，其中根据从学徒分类器120接收到的分类标识和从导师分类器114接收的分类标识来计算损失函数(步骤266)。然后，计算的损失函数用于生成学徒分类器的权重调节(步骤 268)。然后将权重调节引入学徒分类器，以便提高分类准确度(步骤270)。该过程然后返回到步骤252以接收新的图像数据。

如上面关于一些实施例所描述的，由第一传感器106捕获的图像数据和由第二传感器108捕获的数据都应当包括在同一时刻表示同一对象的数据，例如，应该在基本上相同的时间点或覆盖重叠的时间段来捕获数据。

在本发明的一些实施例中，学徒分类模块可以被布置为处理传感器数据集的序列，即在不同时间点顺序捕获的多个传感器数据集。该类型连续数据的示例是运动视频、音频、雷达、静止图像序列等。

在图7中描绘了布置成处理这些情况，即处理传感器数据集的序列，的学徒分类模块的示例。学徒分类模块704包括与图3中描述的类似的裁剪转换器116以及裁剪模块706。裁剪模块可以被布置成通过使用来自导师分类模块的转换的裁剪数据来初始地在传感器数据中找到对象或事件，并且然后跟踪最初找到的对象或事件以便裁剪相关数据。当数据涉及运动视频时，裁剪数据可能是表示围绕关注对象的更紧密矩形的数据的子集。对于一些传感器数据，数据裁剪是没有意义的，并且在这些情况下将被跳过，例如，来自单个麦克风的传感器数据或不具有将数据点在空间上与另一数据点相关联的空间信息的其它传感器数据。学徒分类模块进一步包括缓存器708、特征提取器710、学徒分类器120、损失函数122和权重调节器。缓存器708被布置成缓存来自传感器的裁剪数据的序列，或者没有执行裁剪时的数据序列。特征提取器710对缓存器中的数据进行操作以从该序列中找出并提取特征，例如，角运动、距离变化、对象速度、对象形状变化、运动特性等。来自特征提取器的这些特征然后将被用作学徒分类器的输入，学徒分类器将关于这些特征进行训练，以便识别它们作为属于在导师分类模块102中识别的类别。学徒分类器120、损失函数122和权重调节器是与结合图3所描述的非常相同的设备和/或模块。

在所有先前的示例实施例中，传感器数据已经被描述为源自不同的传感器。然而，由导师分类模块102接收的传感器数据和由学徒分类模块104； 704接收的传感器数据可以源自相同的传感器而传送不同的传感器数据。例如，导师分类模块102可以接收表示静止图片的图像数据，并且学徒分类模块104；704可以从同一传感器接收运动视频数据，即视频帧序列。基于静止图像中对象的分类来训练视频数据中的对象的分类的优点可以与使用来自不同传感器的数据的对应训练相同。另外的优点可以是使用运动视频数据对对象进行分类的训练是可以将对象的运动模式添加到最终分类***，并且增加进行正确分类的可能性。运动模式可以例如是人类或动物的步态。在另一个示例中，由导师分类模块104；704接收的传感器数据可以源自传送基于可见光的图像数据和基于红外光的图像数据两者的相同传感器。这种传感器可以是RGB-IR传感器。

Claims

1.一种用于训练分类器的方法，所述方法包括：

在对应的时间点分别在第一传感器和第二传感器处捕获传感器数据，

由所述第一传感器生成第一组传感器数据，所述第一组传感器数据包括表示被监测环境中的对象或事件的数据，

由所述第二传感器生成第二组传感器数据，所述第二组传感器数据表示与由所述第一组传感器数据表示的时间段对应的时间段，

向导师分类器输入表示所述第一组数据并包括表示所述对象或所述事件的数据的数据，

在所述导师分类器中生成所述对象或事件的分类，

在学徒分类器训练过程中接收所述第二组传感器数据，

在所述学徒分类器训练过程中接收在所述导师分类器中生成的所述分类，以及

使用所述第二组传感器数据作为输入并且使用从所述导师分类器接收的所述分类作为所述第二组传感器数据的所述分类的基础事实，在所述学徒分类器训练过程中训练所述学徒分类器。

2.根据权利要求1所述的方法，其中发送给所述导师分类器的所述第一组传感器数据是包括所述对象或所述事件的所述第一组传感器数据的子集，其中所述第一组传感器数据的所述子集表示与在被监测环境中的所述对象或所述事件的空间位置相关的传感器数据，并且其中发送给所述学徒分类器的所述第二组传感器数据表示所述第二传感器数据的子集，其中所述第二传感器数据的所述子集表示与所述被监测环境中对应于所述第一组传感器数据的所述子集的所述空间位置相关的数据。

3.根据权利要求2所述的方法，其中所述传感器是图像传感器，其中所述第一组传感器数据是静止图像，并且其中所述第二组传感器数据是视频帧序列。

4.根据权利要求1所述的方法，其中所述第一传感器和所述第二传感器被布置为从不同类型的传感器输入生成数据。

5.根据权利要求4所述的方法，其中所述第一传感器是图像传感器，并且其中所述第二传感器是来自包括雷达传感器、音频传感器、声场传感器、LIDAR传感器、激光吸收光谱传感器、声纳传感器、辐射传感器、X射线传感器、超声波的组中的任何传感器类型。

6.根据权利要求5所述的方法，其中所述图像传感器是记录可见光的传感器。

7.根据权利要求4所述的方法，其中所述第一传感器是记录可见光的传感器，并且所述第二传感器是记录红外光的传感器。

8.根据权利要求1-7中任一项所述的方法，其中所述导师分类器基于神经网络。

9.根据权利要求1-7中任一项所述的方法，其中所述学徒分类器基于神经网络。

10.一种被布置为训练分类器的***，所述***包括：

第一传感器和第二传感器，其被配置为在对应的时间点捕获传感器数据，

导师分类器，其被布置为接收由所述第一传感器生成的并且包括表示被监测环境中的对象或事件的数据的第一组传感器数据，并且生成所述对象或事件的分类，

学徒分类器，其被布置为被训练，其中所述训练包括接收由所述第二传感器生成的并表示与由所述第一组传感器数据表示的时间段对应的时间段的第二组传感器数据，

损失值计算器，其被布置为从所述导师分类器接收输出分类，从所述学徒分类器接收输出分类，并计算标识两个接收到的分类之间的差异的损失值，以及

权重调节器，其被布置为响应于由所述损失值计算器计算的所述损失值来调节所述学徒分类器中的权重。

11.根据权利要求10所述的***，其中传感器是图像传感器。