CN109727271A

CN109727271A - 用于跟踪对象的方法和设备

Info

Publication number: CN109727271A
Application number: CN201810755172.8A
Authority: CN
Inventors: 许珍九; 南东暻
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2017-10-27
Filing date: 2018-07-11
Publication date: 2019-05-07
Anticipated expiration: 2038-07-11
Also published as: US20210233253A1; US10755420B2; US11676421B2; KR102495359B1; JP2019083004A; KR20190050876A; EP3477540A1; US10977801B2; US20190130579A1; CN109727271B; JP7163129B2; US20200357124A1

Abstract

提供一种用于跟踪对象的方法和设备。所述对象跟踪方法包括：检测基于第一波段的光的第一类型输入图像中的目标对象；基于目标对象的检测信息，跟踪第一类型输入图像中的目标对象；通过将第一类型输入图像与数据库中的图像进行比较，来测量第一类型输入图像的可靠度；将第一类型输入图像的可靠度与阈值进行比较；跟踪基于第二波段的光的第二类型输入图像中的目标对象。

Description

用于跟踪对象的方法和设备

本申请要求于2017年10月27日提交到韩国知识产权局的第10-2017-0141332号韩国专利申请的优先权，所述韩国专利申请的公开通过引用全部合并于此。

技术领域

与示例性实施例一致的方法和设备涉及跟踪对象。

背景技术

通常，为了跟踪对象，可从通过相机获取的图像检测对象，可提取对象的代表性特征点，可基于提取的特征点针对每一帧提取对象的坐标。为了更舒服地观看三维(3D)图像，可能需要双眼的3D坐标。为了获取3D坐标，与眼睛相关的二维(2D)信息、与脸部相关的旋转信息和瞳孔间距可被使用。可针对每一帧提取3D坐标，从而可跟踪眼睛的位置，并且可基于眼睛的位置生成3D图像。

发明内容

根据示例性实施例的方面，提供一种对象跟踪方法，包括：检测基于第一波段的光的第一类型输入图像中的目标对象；当在第一类型输入图像中检测到目标对象时，基于目标对象的检测信息跟踪第一类型输入图像中的目标对象；通过将第一类型输入图像与第一数据库(DB)中的图像进行比较，来测量第一类型输入图像的可靠度；当第一类型输入图像的可靠度低于第一阈值时，基于所述检测信息跟踪第二类型输入图像中的目标对象，其中，第二类型输入图像基于与第一波段不同的第二波段的光。

第一波段可包括可见光，第二波段可包括红外(IR)光。第二类型输入图像可通过为了第二类型输入图像的获取去除了IR截止滤光片的相机来获取。所述对象跟踪方法还可包括：当第一类型输入图像的可靠度低于第一阈值时，控制被配置为输出IR光的IR光源。第一波段可包括可见光。存储在第一DB中的图像可具有比预定阈值高的可靠度，并可以是基于第一波段的光获取的第一参考图像。

所述对象跟踪方法还可包括：通过将第二类型输入图像与存储在第二DB中的图像进行比较，来测量第二类型输入图像的可靠度；当第二类型输入图像的可靠度低于第二阈值时，从第一类型输入图像或第二类型输入图像检测目标对象。存储在第二DB中的图像可具有比预定阈值高的可靠度，并且可以是基于第二波段的光获取的第二参考图像。

所述对象跟踪方法还可包括：当在第一类型输入图像中未检测到目标对象时检测第二类型输入图像中的目标对象。所述目标跟踪方法还可包括：当在第二类型输入图像中检测到目标对象时，基于所述检测信息来跟踪第二类型输入图像中的目标对象；通过将第二类型输入图像与存储在第二DB中的图像进行比较来测量第二输入图像的可靠度；当第二类型输入图像的可靠度低于第二阈值时，基于所述检测信息来跟踪第一类型输入图像中的目标对象。

可使用基于错误数据预先训练的第一检测器来执行检测第一类型输入图像中的目标对象的步骤。错误数据可包括以下数据中的至少一个：训练数据之中的当目标对象的检测未完成时获得的数据和当另一对象被不正确地检测为目标对象时获得的数据。

检测信息可包括与第一类型输入图像的第一帧中的目标对象的位置对应的检测区域。跟踪第一类型输入图像中的目标对象的步骤可包括基于检测区域跟踪第一类型输入图像的第二帧中的目标对象。

根据另一示例性实施例的方面，提供一种对象跟踪方法，包括：确定是否能够在基于第一波段的光的第一类型输入图像中检测到目标对象；如果确定能够在第一类型输入图像中检测到目标对象，则：基于目标对象的检测信息，跟踪第一类型输入图像中的目标对象；通过将第一类型输入图像与存储在第一数据库(DB)中的至少一个图像进行比较，来测量第一类型输入图像的可靠度；当第一类型输入图像的可靠度低于第一阈值时，基于所述检测信息跟踪第二类型输入图像中的目标对象，其中，第二类型输入图像基于与第一波段不同的第二波段的光；如果确定不能在第一类型输入图像中检测到目标对象，则：检测第二类型输入图像中的目标对象。

根据另一示例性实施例的方面，提供一种存储指令的非暂时性计算机可读存储介质，其中，当所述指令被处理器执行时，使得处理器执行对象跟踪方法，所述对象跟踪方法包括：检测基于第一波段的光的第一类型输入图像中的目标对象；基于目标对象的检测信息，跟踪第一类型输入图像中的目标对象；通过将第一类型输入图像与存储在第一数据库(DB)中的至少一个图像进行比较，来测量第一类型输入图像的可靠度；当第一类型输入图像的可靠度低于第一阈值时，基于所述检测信息跟踪第二类型输入图像中的目标对象，其中，第二类型输入图像基于与第一波段不同的第二波段的光。

根据另一示例性实施例的方面，提供一种对象跟踪设备，包括：处理器；以及包括由处理器可读的指令的存储器，其中，所述指令被处理器执行，从而处理器被配置为：检测基于第一波段的光的第一类型输入图像中的目标对象；当在第一类型输入图像中检测到目标对象时，基于目标对象的检测信息来跟踪第一类型输入图像中的目标对象；通过将第一类型输入图像与存储在第一DB中的图像进行比较，来测量第一类型输入图像的可靠度；当第一类型输入图像的可靠度低于第一阈值时，基于检测信息来跟踪第二类型输入图像中的目标对象，其中，第二类型输入图像基于与第一波段不同的第二波段的光。

根据另一示例性实施例的方面，提供一种对象跟踪设备，包括：存储器，存储指令；处理器，当处理器执行指令时，处理器被配置为：确定是否能够在基于第一波段的光的第一类型输入图像中检测到目标对象；如果确定能够在第一类型输入图像中检测到目标对象，则：基于目标对象的检测信息，跟踪第一类型输入图像中的目标对象；通过将第一类型输入图像与存储在第一数据库(DB)中的至少一个图像进行比较，来测量第一类型输入图像的可靠度；当第一类型输入图像的可靠度低于第一阈值时，基于所述检测信息跟踪第二类型输入图像中的目标对象，其中，第二类型输入图像基于与第一波段不同的第二波段的光；如果确定不能在第一类型输入图像中检测到目标对象，则：检测第二类型输入图像中的目标对象。

附图说明

通过参照附图描述特定示例性实施例，以上和/或其他示例性方面将是清楚的。

图1是示出根据示例性实施例的对象跟踪设备的框图；

图2是示出根据示例性实施例的对象跟踪方法的流程图；

图3是示出根据示例性实施例的可靠度测量器的操作的示图；

图4是示出根据示例性实施例的测量输入图像的可靠度的处理的示图；

图5是示出根据示例性实施例的使用跟踪区域跟踪对象的处理的示图；

图6是示出根据示例性实施例的基于质量信息的***的框图；

图7是示出根据示例性实施例的训练设备的框图；

图8是示出根据示例性实施例的训练检测器的处理的示图；

图9是示出根据示例性实施例的训练***以跟踪基于第一波段的光的输入图像中的目标对象的处理的示图；

图10是示出根据示例性实施例的训练***以跟踪基于第二波段的光的输入图像中的目标对象的处理的示图；

图11是示出根据示例性实施例的使用立体相机的对象跟踪方法的流程图；

图12是示出根据示例性实施例的图像处理设备的框图。

具体实施方式

下面描述示例性实施例，并且示例性实施例的范围不限于在本说明书中提供的描述。本领域的普通技术人员可对示例性实施例进行各种改变和修改。

虽然术语“第一”和/或“第二”可用于解释各种组件，但是所述组件不受限于这些术语。这些术语仅意图将一个组件与另一组件区分开。例如，根据本公开的构思，在呈现的范围内，“第一”组件可被称为“第二”组件，或者类似地，“第二”组件可被称为“第一”组件。

除非上下文另外明确地指示，否则如在此使用的，单数形式也意图包括复数形式。还应理解，当在本说明书中使用术语“包含”和/或“包括”时，指定存在阐述的特征、整体、步骤、操作、元件、组件或它们的组合，但不排除存在或添加一个或多个其他特征、整体、步骤、操作、元件、组件和/或它们的组。

除非在此另外定义，否则在此使用的所有术语(包括技术术语或科学术语)具有与本领域的普通技术人员通常理解的含义相同的含义。除非在此另外定义，否则在通用词典中定义的术语应被解释为具有与相关领域的上下文含义相匹配的含义，并且不被解释为理想的或过于正式的含义。

在下文中，将参照附图在下面详细地描述示例性实施例，并且贯穿本说明书，相同的参考标号表示相同的元件。

图1是示出根据示例性实施例的对象跟踪设备100的框图。参照图1，对象跟踪设备100包括图像处理设备110、相机120和红外(IR)光源130。对象跟踪设备100可从通过相机120获取的输入图像检测目标对象150，并可跟踪检测的目标对象150。例如，目标对象150可以是用户的眼睛，对象跟踪设备100可以以高准确度跟踪输入图像中的作为目标对象150的眼睛。例如，目标对象150可以可选地包括诸如车辆、自行车或者除了眼睛之外的身体部位(诸如，脸部或手)的对象。在下面的描述中，将描述目标对象150对应于用户的眼睛的示例，然而，目标对象150可以是除了眼睛之外的对象。

对于裸眼三维(3D)显示器，可能需要获取用户的眼睛位置。裸眼3D设备可使用相机跟踪用户的眼睛并可输出与眼睛的位置对应的3D图像。3D平视显示器(HUD)可在挡风玻璃上显示导航信息、用于在恶劣天气和危险情况或危害时辅助驾驶的信息。由于关于道路的3D信息的准确表示在3DHUD中很重要，所以可能需要持续精确地检测眼睛位置。例如，即使在低照度环境中或者存在障碍物(诸如，眼镜)的环境中，也可能需要持续精确地检测眼睛位置。当由于串扰而将不正确的3D信息提供给用户时，可能发生危及生命的情况(诸如，交通事故)。因此，对象跟踪设备100必须能够跟踪在各种环境(例如，低照度环境或者存在障碍物(诸如，眼镜)的环境)中捕捉的输入图像中的目标对象150。

相机120可捕捉输入图像并将输入图像提供给图像处理设备110。图像处理设备110可跟踪输入图像中的目标对象150并可确定目标对象150的坐标。例如，相机120可以是单个相机或立体相机。当相机120是单个相机时，图像处理设备110可从输入图像提取目标对象150的2D坐标，可将2D坐标与用户的瞳孔间距(IPD)组合，并可确定目标对象150的3D坐标。当相机120是立体相机时，图像处理设备110可从在至少两个位置处获取的输入图像提取目标对象150的2D坐标，并可使用三角测量方案来确定目标对象150的3D坐标。

相机120可生成基于第一波段的光的第一类型的第一类型输入图像，并且可生成基于第二波段的光的第二类型的第二类型输入图像。相机120可用作使用可见光线的视觉相机并且可用作使用IR线的IR相机。例如，相机120可以是可使用可见光线和IR线二者的混合相机。例如，可从相机120去除IR截止滤光片，并且相机120可在提供可见光线的环境中使用可见光线来捕捉目标对象150，并可在提供IR线的环境中使用IR线来捕捉目标对象150。例如，相机120可以是混合类型立体相机。

视觉相机在低照度下跟踪目标对象150的能力可能受到限制。例如，为了在低照度环境中使用视觉相机来跟踪目标对象150，可降低视觉相机的帧率或者可打开光圈。在这个示例中，由于低帧率，会发生相机延迟或图像模糊。IR相机也可用于低照度环境中。然而，当使用IR相机时，可由于IR线的持续使用而发生安全的问题，可由于眼镜而在眼睛周围出现白点，或者在存在强的外部光的环境中，检测目标对象150的准确度可降低。

因此，相机120可根据情况适当地作为视觉相机或IR相机进行操作。例如，当图像处理设备110无法从基于可见光线的输入图像检测目标对象150时，相机120可基于IR线来捕捉目标对象150。因此，当相机120作为IR相机进行操作时，IR光源130可被激活以用于IR捕捉，激活的IR光源130可提供IR波段的光。由于IR截止滤光片从相机120去除，所以相机120可基于IR线捕捉目标对象150。此外，当图像处理设备110确定基于可见光线的输入图像的可靠度已经降低时，相机120可基于IR线捕捉目标对象150。

在高照度下可见光线图像的使用不一定高效地跟踪。此外，在低照度下IR线图像的使用不一定高效地跟踪。例如，即使在低照度下，可见光线图像的使用也可以高效地跟踪。因此，仅通过基于照度值来确定将被相机120使用的波段可能难以保证跟踪的准确性。

例如，可使用被训练为输出输入图像的可靠度的可靠度测量器来测量输入图像的可靠度，并可基于输入图像的可靠度来切换模态。在这个示例中，模态可表示与预定波段相关联的操作或装置。输入图像的高可靠度可包括使用输入图像的训练处理的高可靠度。例如，当使用可靠度测量器测量到低的可靠度时，模态可被切换以增强训练处理的可靠度。与简单地根据照度值相比，当使用可靠度测量器时，跟踪准确度可被增加。

对象跟踪设备100可用于针对车辆的3D HUD跟踪驾驶员的眼睛位置，或者用于针对显示器装置(诸如，电视(TV)或移动装置)的3D显示器跟踪观看者的眼睛位置。此外，对象跟踪设备100可用于监视驾驶员的视点和驾驶员的视线跟踪状态。

对象跟踪设备100可在检测模式下检测目标对象150，并基于检测的目标对象150的区域信息在跟踪模式下跟踪目标对象150。例如，当从第一帧检测到目标对象150时，对象跟踪设备100可生成检测信息并可基于检测信息跟踪第二帧中的目标对象150。在这个示例中，第二帧可以是与第一帧紧邻的帧，检测信息可包括与检测的目标对象150对应的检测区域。当对象跟踪设备100进入跟踪模式时，可仅使用输入图像的有限数量的区域而不是输入图像的所有的区域来检测目标对象150。因此，用于检测目标对象150的资源可被节约。

对象跟踪设备100可在检测模式下使用已经基于错误数据训练的检测器。错误数据可表示与相对高级别的对象检测难度对应的训练数据。可通过基于错误数据训练检测器来提高检测器的检测性能。例如，错误数据可包括以下数据中的至少一个：训练数据之中的在目标对象150的检测未完成时获得的数据和在另一对象被不正确地检测为目标对象150时获得的数据。表述“目标对象150的检测未完成”可包含目标对象150的检测中的任何失败。

对象跟踪设备100可在跟踪模式下使用基于质量训练的***。质量测量器可基于输入图像的质量来对输入图像进行分类。例如，质量测量器可将输入图像的质量分类为高质量、中等质量和低质量中的一个。输入图像的质量可包括跟踪难度的级别。***可包括被训练为跟踪高质量输入图像中的目标对象150的第一***、被训练为跟踪中等质量输入图像中的目标对象150的第二***和被训练为跟踪低质量输入图像中的目标对象150的第三***。当质量测量器测量输入图像的质量时，与测量的质量对应的***可跟踪目标对象150。当使用基于质量训练的***时，跟踪准确度可被提高。

图2是示出根据示例性实施例的对象跟踪方法的流程图。在下面的描述中，由可见光线相机使用的波段(即，包括可见波段的波段)可被称为“第一波段”，由IR相机使用的波段(即，包括IR波段的波段)可被称为“第二波段”。此外，与第一波段相关联的操作或装置可被称为“第一模态”，与第二波段相关联的操作或装置可被称为“第二模态”。

下面的描述可应用于被配置为提供输入图像的相机是单个相机的示例和该相机是立体相机的示例二者。例如，当单个相机被使用时，下面的描述可适用于该单个相机。当立体相机被使用时，下面的描述可适用于该立体相机的多个相机。

参照图2，在操作210中，对象跟踪设备基于当前模态从输入图像检测目标对象。当前模态可以是第一模态或第二模态。例如，当当前模态是第一模态时，对象跟踪设备可获取基于第一波段的光的第一类型输入图像，并可从第一类型输入图像检测目标对象。在操作240或操作290中，可基于预定条件来切换当前模态。虽然在下面的描述中假定当前模态为第一模态，但是下面的描述同样适用于当前模态是第二模态的示例。

在操作220中，对象跟踪设备确定是否从第一类型输入图像检测到目标对象。当从第一类型输入图像检测到目标对象时，对象跟踪设备的操作模式可从检测模式改变为跟踪模式，并且操作250可被执行。当从第一类型输入图像未检测到目标对象时，操作230和操作240可被执行。在下文中，将进一步描述在操作210中从第一类型输入图像未检测到目标对象的示例和从第一类型输入图像检测到目标对象的示例。

从第一类型输入图像未检测到目标对象的示例

当从第一类型输入图像未检测到目标对象时，对象跟踪设备在操作230中控制相机和光源中的至少一个，并在操作240中切换模态。例如，当从第一类型输入图像未检测到目标对象时，对象跟踪设备可激活IR光源，并可将当前模态从第一模态切换为第二模态。此外，在操作230中，可调节相机的光圈、快门速度和ISO中的一个或多个。

在第一模态中，可执行根据基于第一波段的光的第一类型输入图像的操作。在第二模态中，可执行根据基于第二波段的光的第二类型输入图像的操作。例如，当在操作240中当前模态从第一模态切换到第二模态时，对象跟踪设备可获取第二类型输入图像并可在操作210中从第二类型输入图像检测目标对象。对象跟踪设备可在操作220中确定是否从第二类型输入图像检测到目标对象。当从第二类型输入图像检测到目标对象时，操作模式可从检测模式改变为跟踪模式，并且操作250可被执行。当从第二类型输入图像未检测到目标对象时，对象跟踪设备可重复操作230和操作240。

当从第二类型输入图像检测到目标对象时，对象跟踪设备可在操作250中基于目标对象的检测信息来跟踪第二类型输入图像中的目标对象。检测信息可在操作210中响应于从第二类型输入图像检测到目标对象而被生成。对象跟踪设备可通过将存储在第二数据库(DB)中的图像与第二类型输入图像进行比较来测量第二类型输入图像的可靠度。然后，在操作260中，将图像的可靠度与第二阈值进行比较。如下面进一步详细讨论的，当第二类型输入图像的可靠度低于第二阈值时，可执行操作270、操作280和操作290。与第一类型输入图像的可靠度进行比较的阈值可被称为“第一阈值”，与第二类型输入图像的可靠度进行比较的阈值可被称为“第二阈值”。

当在操作290中基于指示第二类型输入图像的可靠度低于第二阈值的结果而将当前模态从第二模态切换到第一模态时，对象跟踪设备可在操作250中跟踪第一类型输入图像中的目标对象。存储在第二DB中的图像可具有比预定阈值高的可靠度，并可包括基于第二波段的光获取的至少一个第二参考图像。因此，第二类型输入图像的可靠度可被确定为随着第二类型输入图像与所述至少一个第二参考图像的相似度增加而增加。

对象跟踪设备可基于检测信息来跟踪目标对象。如上所述，检测信息可在操作210中响应于从第二类型输入图像检测到目标对象而被生成。例如，不管在哪个模态中生成检测信息，检测信息都可被使用。例如，当检测信息在第二模态中生成时，生成的检测信息还可被用于第一模态中。当输入图像具有相同大小时，因为不管当前模态如何检测信息都可被使用，所以检测信息中的检测区域可以是预定区域。

从第一类型输入图像检测到目标对象的示例

当从第一类型输入图像检测到目标对象时，对象跟踪设备可生成包括检测区域的检测信息。在操作250中，对象跟踪设备可获取第一类型输入图像的下一帧并可跟踪获取的下一帧中的目标对象。对象跟踪设备可基于检测信息来跟踪目标对象。

对象跟踪设备可通过将存储在第一DB中的图像与第一类型输入图像进行比较，来测量第一类型输入图像的可靠度。然后，在操作260中，可将第一类型输入图像的可靠度与第一阈值进行比较。存储在第一DB中的图像可具有比预定阈值高的可靠度，并可包括基于第一波段的光获取的至少一个第一参考图像。因此，第一类型输入图像的可靠度可被确定为随着第一类型输入图像与所述至少一个第一参考图像的相似度增加而增加。

当第一类型输入图像的可靠度高于或等于第一阈值时，可再次执行操作250。例如，当第一类型输入图像的可靠度高于或等于第一阈值时，可基于第一模态保持跟踪模式。对象跟踪设备可获取第一类型输入图像的下一帧并可跟踪获取的下一帧中的目标对象。当继续测量到第一类型输入图像的高可靠度时，对象跟踪设备可继续获取第一类型输入图像的连续的帧并可继续跟踪第一类型输入图像中的目标对象。

如下面进一步详细讨论，当第一类型输入图像的可靠度低于第一阈值时，在操作270中，确定是否已经检查了所有的模态，并且操作280和操作290可被执行。所有的模态可包括第一模态和第二模态。例如，尽管基于第一模态具有低可靠度，但是可在第二模态中执行跟踪模式，而不是立即释放跟踪模式。当在第一模态和第二模态二者中测量到低可靠度时，可释放跟踪模式并且可再次执行检测模式。换句话说，当在操作270中确定所有的模态被检查时，可在操作210中再次执行检测模式。当比所有模态少的模态已经被检查时，操作280和操作290可被执行。

在操作280中，对象跟踪设备可控制光源和相机中的至少一个，在操作290中，对象跟踪设备可切换模态。例如，当第一类型输入图像的可靠度低于第一阈值时，对象跟踪设备可在操作280中激活IR光源，并可在操作290中将当前模态从第一模态切换到第二模态。上面对操作230和操作240的描述也可适用于操作280和操作290。

当在操作290中当前模态从第一模态切换到第二模态时，对象跟踪设备可从第二类型输入图像获取下一帧，并可在操作250中跟踪获取的下一帧中的目标对象。对象跟踪设备可基于检测信息来跟踪目标对象。如上所述，检测信息可在操作210中响应于在第一类型输入图像中检测到目标对象而被生成。

对象跟踪设备可通过将存储在第二DB中的图像与第二类型输入图像进行比较来测量第二类型输入图像的可靠度。然后，可在操作260中将第二类型输入图像的可靠度与第二阈值进行比较。当第二类型输入图像的可靠度低于第二阈值时，可执行操作270。当已经检查了第一模态和第二模态二者时，可释放跟踪模式并可在操作210中重复检测模式。当执行检测模式时，可保持或切换当前模态。在上面的示例中，对象跟踪设备可继续在第二模态操作，或者可通过将当前模态从第二模态切换到第一模态而在第一模态操作。因此，在操作210中，对象跟踪设备可基于当前模态从第一类型输入图像或第二类型输入图像来检测目标对象。

图3是示出根据示例性实施例的可靠度测量器310的操作的示图。参照图3，可靠度测量器310可将输入图像和存储在DB 320中的图像进行比较，从而可确定并输出输入图像的可靠度。对象跟踪设备可使用可靠度测量器310来测量输入图像的可靠度，或者可直接执行将在下面描述的可靠度测量器310的操作。

DB 320可包括第一DB 321和第二DB 323。当输入图像对应于第一模态时，可靠度测量器310可将输入图像与存储在第一DB 321中的图像进行比较。当输入图像对应于第二模态时，可靠度测量器310可将输入图像与存储在第二DB 323中的图像进行比较。存储在第一DB 321中的一个或多个图像可具有比预定阈值高的可靠度，并且可包括基于第一波段的光获取的至少一个第一参考图像。存储在第二DB 323中的一个或多个图像可具有比预定阈值高的可靠度，并且可包括基于第二波段的光获取的至少一个第二参考图像。例如，DB 320可包括由基于质量训练的***以高可靠度分类的参考图像。

图4是示出根据示例性实施例的测量输入图像的可靠度的处理的示图。可基于输入图像420的模态从第一DB或第二DB获取参考图像410。例如，当输入图像420具有第二类型时，可从第二DB获取参考图像410。例如，存储在第一DB和第二DB中的参考图像410的数量可基于对象跟踪设备的要求的跟踪准确度或期望的性能来确定。

对象跟踪设备可从参考图像410提取全局特征411和局部特征413，并可从输入图像420提取全局特征421和局部特征423。例如，假设全局特征411和全局特征421的数量由“l”表示，局部特征413和局部特征423的数量由“m”表示，以及“l+m＝n”。在这个示例中，n表示从参考图像410提取的全局特征和局部特征二者的总数量以及从输入图像420提取的全局特征和局部特征二者的总数量。此外，l、m和n可以是自然数。

对象跟踪设备可计算与全局特征411和全局特征421中的每一个以及局部特征413和局部特征423中的每一个相关联的平均值(mean)和标准值(std)。例如，对象跟踪设备可计算与全局特征411相关联的平均值G_gf1_mean至G_gfl_mean以及标准值G_gf1_std至G_gfl_std，并且可计算与全局特征421相关联的平均值I_gf1_mean至I_gfl_mean以及标准值I_gf1_std至I_gfl_std。此外，对象跟踪设备可计算与局部特征413相关联的平均值G_lf1_mean至G_lfm_mean以及标准值G_lf1_std至G_lfm_std，并且可计算与局部特征423相关联的平均值I_lf1_mean至I_lfm_mean以及标准值I_lf1_std至I_lfm_std。

对象跟踪设备可基于计算的平均值和计算的标准值来计算特征之间的距离。例如，可使用下面示出的等式1来计算距离。

[等式1]

在等式1中，d_i表示参考图像的第i特征与输入图像的第i特征之间的距离，I_gfi_mean表示输入图像的第i全局特征的平均值，I_gfi_std表示输入图像的第i全局特征的标准值，G_gfi_mean表示参考图像的第i全局特征的平均值，G_gfi_std表示参考图像的第i全局特征的标准值。此外，I_lfi_mean表示输入图像的第i局部特征的平均值，I_lfi_std表示输入图像的第i局部特征的标准值，G_lfi_mean表示参考图像的第i局部特征的平均值，G_lfi_std表示参考图像的第i局部特征的标准值。

对象跟踪设备可基于特征之间的距离来计算特征的分数。例如，可使用下面示出的等式2来计算特征的分数。

[等式2]

在等式2中，F_score_i表示第i特征的分数，d_i表示参考图像的第i特征与输入图像的第i特征之间的距离，d_i_max表示距离d_i的最大值，d_i_min表示距离d_i的最小值。

对象跟踪设备可使用特征的分数的加权平均来计算输入图像的可靠度。例如，可使用下面示出的等式3来计算输入图像的可靠度。

[等式3]

在等式3中，S表示输入图像的可靠度，F_score_k表示第k特征分数，w_k表示第k权重，n表示提取的特征的数量，k表示运算索引。对象跟踪设备可使用图4的处理来测量输入图像的可靠度。

图5是示出根据示例性实施例的使用跟踪区域跟踪对象的处理的示图。为了跟踪目标对象，对象跟踪设备可确定被估计为与帧F1中的目标对象对应的检测区域。检测区域的位置和大小可被指定。例如，检测区域的大小可被预先设置，检测区域的位置可通过对象跟踪设备来确定。

对象跟踪设备可通过从帧F1中的检测区域提取目标对象的特征点来对齐目标对象。例如，对象跟踪设备可从图像的与来自帧F1的检测区域对应的部分提取表示目标对象的形状的特征点，以识别目标对象的几何结构。当目标对象被对齐时，对象跟踪设备可基于提取的特征点来确定用于跟踪目标对象的跟踪区域510。例如，对象跟踪设备可将下面的区域确定为跟踪区域：在该区域的中心部分上包括特征点。对象跟踪设备可基于跟踪区域510来跟踪帧F2中的目标对象。当帧F1的可靠度高于或等于阈值时，可在帧F2中省略对象检测。

帧F2中的目标对象可位于与帧F1中的目标对象的位置相比更向上和更向右的位置。对象跟踪设备可从帧F2中的跟踪区域510提取目标对象的特征点。对象跟踪设备可基于从跟踪区域510提取的特征点来确定帧F2中的新的跟踪区域520。例如，对象跟踪设备可将下面的区域确定为跟踪区域520：在该区域的中心部分中包括从跟踪区域510提取的特征点。与帧F2类似，在帧F3中，可从跟踪区域520提取目标对象的特征点，并且可确定新的跟踪区域530。如上所述，当输入图像的可靠度高于或等于阈值时，对象跟踪设备可在跟踪模式下继续跟踪目标对象。

对象跟踪设备可使在跟踪目标对象期间的检测器的使用最小化。如描述的，由于检测器的检测操作消耗计算资源，所以可使用对象跟踪设备来使检测器的使用最小化。由于检测器扫描输入图像的所有区域来检测目标对象，所以大量计算资源可被消耗以用于检测器的检测操作。

对象跟踪设备可在跟踪目标对象的同时输出包括在输入图像中的目标对象的位置信息。例如，目标对象的位置信息可包括用户的眼睛位置。例如，对象跟踪设备可跟踪包括在输入图像中的多个帧中的目标对象，并可输出每一帧的用户的眼睛位置。眼睛位置可由2D坐标或3D坐标来表明。

图6是示出根据示例性实施例的使用质量信息的***620的框图。参照图6，***620包括三个子***：第一***611、第二***613和第三***615。为了便于描述，在下面的描述中并且如图6所示，***620包括三个子***，然而，***620可包括两个子***或至少四个子***。可使用具有不同质量的图像来训练子***。例如，可使用高质量图像来训练第一***611，可使用中等质量图像来训练第二***613，可使用低质量图像来训练第三***615。

对象跟踪设备可测量输入图像的质量，并可将输入图像和输入图像的质量信息发送到***620。对象跟踪设备可使用质量测量器610来测量输入图像的质量。***620可从多个子***选择与输入图像的质量信息对应的子***，并将输入图像提供给选择的子***。例如，当输入图像具有高质量时，***620可将输入图像提供给使用高质量图像训练的第一***611。当输入图像被提供给子***时，子***可跟踪输入图像中目标对象。

图7是示出根据示例性实施例的训练设备700的框图。参照图7，训练设备700包括处理器710和存储器720。存储器720可包括神经网络725，并可存储由处理器710可读的指令。神经网络725可对应于检测器、***、可靠度测量器和质量测量器。当指令被处理器710执行时，处理器710可训练神经网络725。神经网络725的训练可包括训练神经网络725的参数、更新神经网络725、和/或更新神经网络725的参数。存储器720可存储训练处理和被完全训练的神经网络725所需的数据。

图8是示出根据示例性实施例的检测器的训练处理的示图。参照图8，第一样本检测器810可从第一训练数据检测目标对象，第一错误数据831可基于第一样本检测器810的输出被形成。第一训练数据可包括基于第一波段的图像(在下文中，称为“基于第一波段图像”)，第一样本检测器810可被预先训练以从基于第一波段图像检测目标对象。第二样本检测器820可从第二训练数据检测目标对象，第二错误数据833可基于第二样本检测器820的输出被形成。第二训练数据可包括基于第二波段的图像(在下文中，称为“基于第二波段图像”)，并且第二样本检测器820可被预先训练以从基于第二波段图像检测目标对象。

错误DB 830可存储第一错误数据831和第二错误数据833。错误数据可表示与相对高级别的对象检测难度对应的训练数据，检测器的检测性能可通过基于错误数据训练检测器而被提高。例如，错误数据可包括以下数据中的至少一个：训练数据之中的在目标对象的检测未完成时获得的数据和在另一对象被不正确地检测为目标对象时获得的数据。第一错误数据831可包括多个基于第一波段图像之中的具有相对高级别的对象检测难度的图像，第二错误数据833可包括多个基于第二波段图像之中的具有相对高级别的对象检测难度的图像。

可基于第一错误数据831来训练第一检测器840，可基于第二错误数据833来训练第二检测器850。因此，第一检测器840可被训练为具有从多个基于第一波段图像之中的具有相对高级别的对象检测难度的图像检测目标对象的能力，第二检测器850可被训练为具有从多个基于第二波段图像之中的具有相对高级别的对象检测难度的图像检测目标对象的能力。对象跟踪设备可使用第一检测器840从第一类型输入图像检测目标对象，并可使用第二检测器850从第二类型输入图像检测目标对象。因此，对象跟踪设备可使用针对多个不同模态中的每个模态训练的检测器，从输入图像检测目标对象。

图9是示出根据示例性实施例的训练***跟踪基于第一波段的光的输入图像中的目标对象的处理的示图。参照图9，训练数据910可被分类为高质量数据921、中等质量数据923或低质量数据925。训练数据910可包括使用第一波段的光捕捉的多个图像。训练数据910可由质量测量器进行分类。例如，清楚地表示出眼睛的图像可被分类为高质量数据921，不太清楚地表示出眼睛的图像可被分类为中等质量数据923。此外，在低照度下捕捉的图像或者不清楚地表示出眼睛的中心的图像可被分类为低质量数据925。

可基于高质量数据921来训练第一***931，可基于中等质量数据923来训练第二训练器933，可基于低质量数据925来训练第三***935。第一***931至第三***935中的每一个可被称为子***，并且已经完全训练的第一***931至第三***935可分别对应于图6的第一***611至第三***615。

为了便于描述，包括已经基于特定质量的数据训练的多个子***的***可被称为“多模型”。这样的多模型可表现出比单模型的跟踪性能高的跟踪性能。当基于多模型形成图3的第一DB 321时，可高性能地测量输入图像的可靠度。例如，多模型可测试预定的训练数据集并针对每个测试错误对训练数据集进行分类。当训练数据集被划分为具有少量错误的第一组、具有中等数量错误的第二组或具有大量错误的第三组时，第一DB 321可存储包括在第一组中的具有少量错误的数据。

图10是示出根据示例性实施例的训练***跟踪基于第二波段的光的输入图像中的目标对象的处理的示图。参照图10，训练数据1010可被分类为高质量数据1021、中等质量数据1023或低质量数据1025。训练数据1010可包括使用第二波段的光捕捉的多个图像。训练数据1010可由质量测量器进行分类。例如，清楚地表示出眼睛的图像可被分类为高质量数据1021，包括来自眼镜的弱反射的图像或者不太清楚地表示出眼睛的图像可被分类为中等质量数据1023。此外，包括来自眼镜的强反射的图像或者不清楚地表示出眼睛的中心的图像可被分类为低质量数据1025。

可基于高质量数据1021来训练第四***1031，可基于中等质量数据1023来训练第五***1033，可基于低质量数据1025来训练第六***1035。可基于包括第四***1031至第六***1035的多模型来形成图3的第二DB 323。例如，多模型可测试预定的训练数据集，并将训练数据集划分为具有少量错误的第四组、具有中等数量错误的第五组和具有大量错误的第六组，第二DB 323可存储包括在第四组中的数据。

图11是示出根据示例性实施例的使用立体相机的目标跟踪方法的流程图。立体相机可使用第一相机生成第一类型的第一输入图像，并可使用第二相机生成第一类型的第二输入图像。例如，第一相机和第二相机可在第一模态下使用第一波段的光生成第一类型的第一输入图像和第一类型的第二输入图像。操作1110、操作1111、操作1112、操作1113和操作1114可基于第一输入图像来执行，操作1120、操作1121、操作1122、操作1123和操作1124可基于第二输入图像来执行。操作1110至操作1114与操作1120至操作1124可彼此同步进行。下面将描述当前模态是第一模态的示例。

在操作1110中，对象跟踪设备获取第一输入图像并从第一输入图像检测目标对象。在操作1120中，对象跟踪设备获取第二输入图像并从第二输入图像检测目标对象。在操作1111和操作1121中，对象跟踪设备确定是否检测到目标对象。当检测到目标对象时，可执行操作1112和操作1122。当未检测到目标对象时，可执行操作1130和操作1131。当从第一输入图像或第二输入图像未检测到目标对象时，可执行操作1130和操作1131。在操作1130和操作1131中，对象跟踪设备控制光源和相机中的至少一个，并切换模态。

在操作1112中，对象跟踪设备获取第一输入图像的下一帧，并跟踪第一输入图像的下一帧中的目标对象。在操作1122中，对象跟踪设备获取第二输入图像的下一帧，并跟踪第二输入图像的下一帧中的目标对象。目标跟踪设备可基于检测信息来跟踪目标对象。

在操作1113和操作1123中，对象跟踪设备测量第一输入图像和第二输入图像中的每一个的可靠度，并将测量的可靠度与阈值进行比较。当可靠度高于或等于阈值时，可执行操作1114和操作1124。当可靠度低于阈值时，可执行操作1140和操作1141。当第一输入图像的可靠度或第二输入图像的可靠度低于阈值时，可执行操作1140和操作1141。当测量到低于阈值的可靠度时以及当检查了所有的模态时，可执行操作1110和操作1120。上面对图2的描述也可适用于图11的对象跟踪方法。

图12是示出根据示例性实施例的图像处理设备1200的框图。参照图12，图像处理设备1200包括处理器1210和存储器1220。存储器1220可包括用于对象跟踪的数据和由处理器1210可读并可执行的指令。存储器1220可包括用于启动处理器或实现被完全训练的检测器、***、可靠度测量器和质量测量的软件。当存储器1220中的指令被处理器1210执行时，处理器1210可执行用于对象跟踪的操作。例如，处理器1210可从基于第一波段的光的第一类型输入图像检测目标对象。当从第一类型输入图像检测到目标对象时，处理器1210可基于目标对象的检测信息来跟踪第一类型输入图像中的目标对象。处理器1210可通过将第一类型输入图像与第一DB进行比较来测量第一类型输入图像的可靠度。当第一类型输入图像的可靠度低于第一阈值时，处理器1210可基于检测信息来跟踪第二类型输入图像中的目标对象。第二类型输入图像可基于第二波段的光。上面对图1至图11的描述也适用于图像处理设备1200。

在此描述的示例性实施例可使用硬件组件、软件组件或它们的组合来实现。处理装置可使用一个或多个通用计算机或专用计算机(诸如，处理器、控制器和算术逻辑单元、数字信号处理器、微处理器、现场可编程阵列、可编程逻辑单元、微处理器或者能够以限定的方式响应和执行指令的任何其他装置)来实现。处理器装置可运行操作***(OS)和在OS上运行的一个或多个软件应用。处理装置还可响应于软件的执行而访问、存储、操纵、处理和创建数据。为了简明的目的，处理装置的描述用作单数；然而，本领域的技术人员将理解，处理装置可包括多个处理元件和多种类型的处理元件。例如，处理装置可包括多个处理器或者一个处理器和一个控制器。此外，不同的处理配置是可以的，诸如并行处理器。

软件可包括用于单独地或共同地指示或配置处理装置按照期望的那样操作的计算机程序、代码段、指令或它们的一些组合。可以以能够向处理装置提供指令或数据或者由处理装置解释的指令或数据的任何类型的机器、组件、物理设备或虚拟设备、计算机存储介质或装置来永久地或暂时地实现软件和数据。软件还可被分布在联网计算机***上，使得软件以分布方式被存储和执行。可通过一个或多个非暂时性计算机可读记录介质来存储软件和数据。

根据上述示例性实施例的方法可被记录在包括程序指令的非暂时性计算机可读介质中，以实现可由计算机执行的各种操作。介质还可单独地或与程序指令结合地包括数据文件、数据结构等。记录在介质上的程序指令可以是针对示例性实施例的目的而专门设计和构建的那些程序指令，或者它们可以是对于计算机软件领域的技术人员公知和可用的程序指令。非暂时性计算机可读介质的示例包括：磁介质(诸如，硬盘、软盘和磁带)；光介质(诸如，CD-ROM盘和DVD)；磁光介质(诸如，光盘)；以及被专门配置为存储和执行程序指令的硬件装置(诸如，只读存储器(ROM)、随机存取存储器(RAM)、闪存等)。程序指令的示例包括机器代码(诸如，由编译器产生的代码)和包含可由计算机使用解释器执行的高级代码的文件二者。上述硬件装置可被配置为作为一个或多个软件模块以执行上述示例实施例的操作，反之亦然。

尽管本公开包括示例性实施例，但是本领域的普通技术人员将清楚，在不脱离权利要求和它们的等同物的精神和范围的情况下，可对这些示例性实施例进行形式和细节的各种改变。在此描述的示例性实施例仅被认为是描述性意义，而不是为了限制的目的。每个示例中的特征或方面的描述被认为适用于其他示例中的相似特征或方面。如果描述的技术以不同的顺序执行，和/或如果描述的***中的组件、架构、装置和电路以不同的方式组合和/或被其他组件或它们的等同物替换或补充，则可实现适合的结果。因此，本公开的范围不是由具体实施方式限定，而是由权利要求及其等同物限定，在权利要求及其等同物的范围内的所有的变化被解释为包括在本公开中。

Claims

1.一种对象跟踪方法，包括：

检测基于第一波段的光的第一类型输入图像中的目标对象；

基于目标对象的检测信息，跟踪第一类型输入图像中的目标对象；

通过将第一类型输入图像与存储在第一数据库DB中的至少一个图像进行比较，来测量第一类型输入图像的可靠度；

当第一类型输入图像的可靠度低于第一阈值时，基于所述检测信息跟踪第二类型输入图像中的目标对象，其中，第二类型输入图像基于与第一波段不同的第二波段的光。

2.根据权利要求1所述的对象跟踪方法，其中，第一波段包括可见光波段，第二波段包括红外IR光波段。

3.根据权利要求1所述的对象跟踪方法，还包括：

在检测第一类型输入图像中的目标对象之前，使用相机和红外IR截止滤光片来获取第一类型输入图像；

当第一类型输入图像的可靠度低于第一阈值时，控制IR光源输出红外IR光并使用去除IR截止滤光片的相机获取第二类型输入图像。

4.根据权利要求3所述的对象跟踪方法，其中，第一波段包括可见光波段。

5.根据权利要求1所述的对象跟踪方法，其中，存储在第一DB中的至少一个图像包括基于第一波段的光的第一参考图像。

6.根据权利要求1所述的对象跟踪方法，还包括：

通过将第二类型输入图像与存储在第二DB中的至少一个图像进行比较，来测量第二类型输入图像的可靠度。

7.根据权利要求6所述的对象跟踪方法，其中，存储在第二DB中的至少一个图像包括基于第二波段的光的第二参考图像。

8.根据权利要求1所述的对象跟踪方法，其中，

检测第一类型输入图像中的目标对象的步骤包括：使用基于错误数据训练的第一检测器，来检测第一类型输入图像中的目标对象，

错误数据包括以下数据中的至少一个：当目标对象的检测未完成时获得的数据和当另一对象被不正确地检测为目标对象时获得的数据。

9.根据权利要求1所述的对象跟踪方法，其中，

所述检测信息包括与第一类型输入图像的第一帧中的目标对象的位置对应的检测区域，

跟踪第一类型输入图像中的目标对象的步骤包括：基于所述检测区域，跟踪第一类型输入图像的第二帧中的目标对象。

10.一种对象跟踪方法，包括：

确定是否能够在基于第一波段的光的第一类型输入图像中检测到目标对象；

如果确定能够在第一类型输入图像中检测到目标对象，则：

当第一类型输入图像的可靠度低于第一阈值时，基于所述检测信息跟踪第二类型输入图像中的目标对象，其中，第二类型输入图像基于与第一波段不同的第二波段的光；

如果确定不能在第一类型输入图像中检测到目标对象，则：

检测第二类型输入图像中的目标对象。

11.根据权利要求10所述的对象跟踪方法，还包括：

当确定不能在第一类型输入图像中检测到目标对象时：

基于在第二类型输入图像中检测到的目标对象的检测信息，跟踪第二类型输入图像中的目标对象；

12.一种存储指令的非暂时性计算机可读存储介质，其中，当所述指令被处理器执行时，使得处理器执行对象跟踪方法，所述对象跟踪方法包括：

检测基于第一波段的光的第一类型输入图像中的目标对象；

13.一种对象跟踪设备，包括：

存储器，存储指令；

处理器，当处理器执行指令时，处理器被配置为：

检测基于第一波段的光的第一类型输入图像中的目标对象；

当第一类型输入图像的可靠度低于第一阈值时，基于所述检测信息来跟踪第二类型输入图像中的目标对象，其中，第二类型输入图像基于与第一波段不同的第二波段的光。

14.根据权利要求13所述的对象跟踪设备，其中，第一波段包括可见光波段，第二波段包括红外IR光波段。

15.根据权利要求13所述的对象跟踪设备，还包括：

相机，被配置为：使用第一波段的光来生成第一类型输入图像并使用第二波段的光来生成第二类型输入图像；

红外IR光源，被配置为输出IR光。

16.根据权利要求15所述的对象跟踪设备，其中，处理器被配置为：当第一波段包括可见光波段时并且当第一类型输入图像的可靠度低于第一阈值时，激活IR光源。

17.根据权利要求13所述的对象跟踪设备，其中，存储在第一DB中的至少一个图像包括基于第一波段的光的第一参考图像。

18.根据权利要求13所述的对象跟踪设备，其中，处理器还被配置为：通过将第二类型输入图像与存储在第二DB中的至少一个图像进行比较，来测量第二类型输入图像的可靠度。

19.一种对象跟踪设备，包括：

存储器，存储指令；

处理器，当处理器执行指令时，处理器被配置为：

如果确定能够在第一类型输入图像中检测到目标对象，则：

如果确定不能在第一类型输入图像中检测到目标对象，则：

检测第二类型输入图像中的目标对象。

20.根据权利要求19所述的对象跟踪设备，其中，处理器还被配置为：

当确定不能在第一类型输入图像中检测到目标对象时：