CN112329505A

CN112329505A - 用于检测对象的方法和装置

Info

Publication number: CN112329505A
Application number: CN202010675623.4A
Authority: CN
Inventors: 朴升忍; 马林; 李炜明; 刘洋; 汪昊; 李炯旭
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2019-07-16
Filing date: 2020-07-14
Publication date: 2021-02-05
Also published as: US11386637B2; KR20210009458A; US20210019544A1; EP3767524A1

Abstract

公开了一种对象检测方法和对象检测装置。根据实施例，对象检测方法包括：设置与输入图像中的不同尺寸的局部区域相对应的第一窗口区域和大于第一窗口区域的第二窗口区域；对第二窗口区域进行下采样以生成重新调整尺寸后的第二窗口区域；从第一窗口区域检测第一对象候选并从重新调整尺寸后的第二窗口区域检测第二对象候选；并且基于第一对象候选和第二对象候选中的一个或两个，检测输入图像中包括的对象。

Description

用于检测对象的方法和装置

相关申请的交叉引用

本申请要求于2019年7月16日向韩国知识产权局提交的韩国专利申请No.10-2019-0085620的权益，其全部公开内容通过引用的方式并入此文以用于所有目的。

技术领域

以下描述涉及一种用于检测对象的方法和装置。

背景技术

可以展示出用户所需的信息和/或图像的增强现实(AR)应用图像可以帮助用户准确地确定情况并且改善行动能力。存在可以用于识别出用户所需的信息和/或图像的各种对象识别和/或检测方法。

例如，存在一种用于从单一特征图中检测对象的方法。通过此方法，检测结果的准确性可以根据图像中对象的尺寸而发生较大变化。再例如，存在一种通过应用不同的卷积层来基于目标对象的尺寸变化生成多尺度特征图从而检测对象的方法。然而，在这样的示例中，不管将要检测的目标对象的尺寸如何，都可能需要生成每种尺度的特征图，因而可能会增加计算负担。

发明内容

提供本发明内容部分是为了以简化形式介绍一些构思，这些构思将在下面的具体实施方式部分中进一步加以描述。本发明内容部分既非旨在指出所要求保护的主题的关键特征或必要特征，也并非旨在用于帮助确定所要求保护的主题的范围。

在一个总体方面，一种对象检测方法包括：设置与输入图像中的不同尺寸的局部区域相对应的第一窗口区域和大于第一窗口区域的第二窗口区域；对第二窗口区域进行下采样，以生成重新调整尺寸后的第二窗口区域；从第一窗口区域检测第一对象候选并且从重新调整尺寸后的第二窗口区域检测第二对象候选；以及基于第一对象候选和第二对象候选中的一个或两个来检测输入图像中包括的对象。

第一窗口区域和第二窗口区域的设置可以包括：基于输入图像中用户的关注点来设置第一窗口区域和第二窗口区域。

该对象检测方法可以包括基于用户的注视信息、用户的语音信息和用户作出的手势中的一项或多项来确定关注点。

第一窗口区域和第二窗口区域的设置可以包括：基于关注点来设置具有第一尺寸的第一窗口区域，以及基于关注点来设置具有大于第一尺寸的第二尺寸的第二窗口区域。

第二窗口区域的下采样可以包括：通过对与第二窗口区域相对应的图像进行下采样来将第二窗口区域的第二尺寸调整为等于第一窗口区域的第一尺寸。

可以基于要从输入图像中检测的对象的类型、视场(FoV)以及与输入图像相对应的相机距离信息中的一项或多项来确定第一窗口区域的第一尺寸和第二窗口区域的第二尺寸。

第一窗口区域可以用于识别尺寸小于预设尺寸的对象，并且从第一窗口区域提取的第一图像可以具有与输入图像相同的分辨率。

第二窗口区域可以用于识别尺寸大于预设尺寸的对象，并且从重新调整尺寸后的第二窗口区域提取的第二图像可以具有比输入图像的分辨率低的分辨率。

对象的检测可以包括：使用非极大值抑制(Non-Maximum Suppression,NMS)从第一对象候选和第二对象候选中的一个或两个中检测输入图像中包括的对象。

第一对象候选和第二对象候选的检测可以包括：基于从重新调整尺寸后的第二窗口区域是否检测到第二对象候选来发起对第一对象候选的检测。

对象的检测可以包括：基于第二对象候选的位置来调整第一窗口区域的位置；从第一窗口区域的调整后的位置检测第一对象候选；以及从第二对象候选和从调整后的位置检测到的第一对象候选检测输入图像中包括的对象。

第一窗口区域的位置的调整可以包括：基于第二对象候选的位置来估计对象在输入图像中所处的位置；以及使用估计的位置来调整第一窗口区域的位置。

第一对象候选和第二对象候选的检测可以包括：通过将从重新调整尺寸后的第二窗口区域提取的第二图像应用于神经网络来检测第二对象候选；以及通过将从第一窗口区域提取的第一图像应用于神经网络来检测第一对象候选。

第一对象候选和第二对象候选的检测可以包括：通过将从重新调整尺寸后的第二窗口区域提取的第二图像应用于第二神经网络来确定是否从第二图像检测到第二对象候选；以及基于是否从第二图像检测到第二对象候选来确定是否将从第一窗口区域提取的第一图像应用于第一神经网络来检测第一对象候选。

该对象检测方法可以包括：在从第二图像检测到第二对象候选的情况下，不将第一图像应用于第一神经网络。

该对象检测方法可以包括：在从第二图像没有检测到第二对象候选的情况下，通过将第一图像应用于第一神经网络来检测第一对象候选。

第一对象候选的检测可以包括：估计对象在第二图像中所处的位置；使用估计的位置来调整第一窗口区域的位置；从第一窗口区域的调整后的位置提取第一图像；以及通过将从调整后的位置提取的第一图像应用于第一神经网络来检测第一对象候选。

对象检测方法还可以包括：获得输入图像和与输入图像相对应的关注点。

在另一总体方面，一种对象检测装置包括：通信接口，被配置为获得输入图像；以及处理器，被配置为：设置与输入图像中的不同尺寸的局部区域相对应的第一窗口区域和大于第一窗口区域的第二窗口区域；对第二窗口区域进行下采样，以生成重新调整尺寸后的第二窗口区域；从第一窗口区域检测第一对象候选并且从重新调整尺寸后的第二窗口区域检测第二对象候选；以及基于第一对象候选和第二对象候选中的一个或两个来检测输入图像中包括的对象。

处理器可以基于输入图像中用户的关注点来设置第一窗口区域和第二窗口区域。

可以基于用户的注视信息、用户的语音信息和用户作出的手势中的一项或多项来确定关注点。

处理器可以基于关注点来设置具有第一尺寸的第一窗口区域，并且基于关注点来设置具有大于第一尺寸的第二尺寸的第二窗口区域。

处理器可以通过对与第二窗口区域相对应的图像进行下采样来将第二窗口区域的第二尺寸调整为等于第一窗口区域的第一尺寸。

可以基于要从输入图像中检测的对象的类型、FoV以及与输入图像相对应的相机距离信息中的一项或多项来确定第一窗口区域的第一尺寸和第二窗口区域的第二尺寸。

处理器可以使用NMS从第一对象候选和第二对象候选中的一个或两个中检测输入图像中包括的对象。

处理器可以基于从重新调整尺寸后的第二窗口区域是否检测到第二对象候选来检测第一对象候选。

处理器可以基于第二对象候选的位置来调整第一窗口区域的位置；从第一窗口区域的调整后的位置检测第一对象候选；以及从第二对象候选和从调整后的位置检测到的第一对象候选检测输入图像中包括的对象。

处理器可以基于第二对象候选的位置来估计对象在输入图像中所处的位置，以及使用估计的位置来调整第一窗口区域的位置。

处理器可以通过将从重新调整尺寸后的第二窗口区域提取的第二图像应用于第二神经网络来确定是否从第二图像检测到第二对象候选，以及基于是否从第二图像检测到第二对象候选来确定是否将从第一窗口区域提取的第一图像应用于第一神经网络来检测第一对象候选。

处理器可以在从第二图像检测到第二对象候选的情况下，不将第一图像应用于第一神经网络。

处理器可以在从第二图像没有检测到第二对象候选的情况下，通过将第一图像应用于第一神经网络来检测第一对象候选。

处理器可以：估计对象在第二图像中所处的位置；使用估计的位置来调整第一窗口区域的位置；从第一窗口区域的调整后的位置提取第一图像；以及通过将从调整后的位置提取的第一图像应用于第一神经网络来检测第一对象候选。

通信接口可以获得与输入图像相对应的关注点。

在另一总体方面，一种对象检测装置包括：通信接口，被配置为获得输入图像；以及处理器，被配置为：设置与输入图像的部分区域相对应的具有第一尺寸的第一窗口区域和具有第二尺寸的第二窗口区域，其中第二尺寸大于第一尺寸；从第二窗口区域生成重新调整尺寸后的第二窗口区域；通过将从重新调整尺寸后的第二窗口区域提取的第二图像应用于第二神经网络，来确定是否从第二图像检测到第二对象候选；基于是否从第二图像检测到第二对象候选来确定是否将从第一窗口区域提取的第一图像应用于第一神经网络，以检测第一对象候选；以及基于第一对象候选和第二对象候选中的一个或两个来检测输入图像中包括的对象。

根据以下具体实施方式部分、附图和权利要求，其他特征和方面将变得显而易见。

附图说明

图1是示出了对象检测的示例的图。

图2是示出了对象检测方法的示例的流程图。

图3是示出了设置第一窗口区域和第二窗口区域的示例的图。

图4是示出了对象检测装置的网络架构的示例的图。

图5和图6是示出了检测第一对象候选和第二对象候选的示例的流程图。

图7是示出了检测对象的示例的流程图。

图8是示出了对象检测装置的网络架构的另一示例的图。

图9是示出了从输入图像检测对象的示例的图。

图10是示出了对象检测装置的示例的图。

贯穿附图和具体实施方式部分，除非另有描述或提及，否则相同的附图标记将被理解为表示相同的元件、特征和结构。附图可能不是按比例绘制的，并且为了清楚、图示和方便起见，可能夸大了附图中的元件的相对尺寸、比例和描绘。

具体实施方式

提供以下详细描述以帮助读者获得对本文描述的方法、装置和/或***的全面理解。然而，在理解了本申请的公开之后，本文中描述的方法、装置和/或***的各种改变、修改和等同物将是显而易见的。例如，本文中描述的操作顺序仅仅是示例，并且不限于在本文中阐述的那些操作顺序，而是在理解本申请的公开之后将明白这些操作顺序可以改变，除了必须以一定顺序进行的操作之外。此外，为了更加清楚和简洁，可以省略对理解本申请的公开内容之后可知的特征的描述。

本文描述的特征可以以不同形式来实施，并且不应被解释为限于本文描述的示例。相反，提供本文中描述的示例仅仅是为了说明实现本文中描述的方法、装置和/或***的许多可行方式中的一部分，在理解本申请的公开之后这些方式将显而易见。

贯穿说明书，当某一组件被描述为“连接到”或“耦接到”另一组件时，该组件可以直接“连接到”或“耦接到”该另一组件，或者可以存在介于它们之间的一个或多个其他组件。相反，当某一元件被描述为“直接连接到”或“直接耦接到”另一元件时，不存在介于它们之间的其他元件。同样，也可以以相同的方式理解类似表述例如“在...之间”和“直接在......之间”以及“与......相邻”和“与......紧邻”。本文中所使用的术语“和/或”包括关联列出的项目中的任何一个以及任何两个或更多个的任何组合。

虽然本文中可以使用诸如“第一”、“第二”、“第三”之类的术语来描述各构件、组件、区域、层或部分，但是这些构件、组件、区域、层或部分不应受这些术语限制。相反，这些术语仅用于将一个构件、组件、区域、层或部分与另一构件、组件、区域、层或部分加以区分。因此，在不脱离示例的教导的情况下，本文中描述的示例中提及的第一构件、组件、区域、层或部分也可以被称为第二构件、组件、区域、层或部分。

本文中使用的术语仅用于描述各种示例，而并非用于限制本公开。除非上下文另外明确指示，否则冠词“一”、“一个”和“该”也意在包括复数形式。术语“包括”、“包含”和“具有”表示存在所阐述的特征、数目、操作、构件、元件和/或其组合，但并不排除存在或添加一个或多个其他特征、数目、操作、构件、元件和/或其组合。

除非另外定义，否则这里使用的所有术语(包括技术和科学术语)具有与本公开所属领域的普通技术人员基于对本申请的公开的理解而通常所理解的含义相同的含义。诸如在常用词典中定义的术语应被解释为其含义与在相关技术的上下文和/或本申请的公开中的含义一致，而不应被解释为理想化或过于刻板的含义，除非本文明确如此定义。在本文中，针对示例或实施例使用术语“可以”(例如，关于示例或实施例可以包括或实现什么)意味着存在至少一个示例或实施例，其中包括或实现这样的特征，而并非所有示例局限于此。

而且，在示例性实施例的描述中，当认为这样的描述将导致示例性实施例出现含糊不清的解释时，将省略对在理解了本申请的公开内容之后可知的结构或功能的详细描述。

在下文中，将参考附图来详细描述示例，并且附图中相同的附图标记始终表示相同的元件。

图1是示出了对象检测的示例的图。在确定用户所需的信息和/或图像时需要考虑的因素可能不包括用户的可见区域中的所有信息集合，而是仅可见区域中的特定区域成为所有信息集合中用户感兴趣的目标和/或信息。为了定义感兴趣的目标和/或信息，可能需要选择可见区域中用户关注的区域或目标。例如，可以使用与用户的注视相关联的注视信息，因为注视信息是各种感官输入中与用户的注意力紧密相关的最快认知行为之一。使用注视信息能够在一定的给定环境中从众多信息集合中选择出感兴趣的目标和/或信息。

在示例中，通过使用输入图像110中用户的关注点来定义待识别的目标区域，能够针对目标对象的尺度(或者如本文使用的尺寸)的变化更快速地且更稳健地识别和/或检测对象。

本示例假设被给出了如下信息的环境：用户观看的区域的相机图像信息(例如，输入图像110)，以及与用户在对应的相机图像中所关注的关注区域或关注点相关联的信息120。

在用来获得与用户的关注点相关联的信息120的跟踪方法和装置的传感器类型等方面不存在任何限制，并且只要可从相机图像获得与用户的关注点相关联的信息120，就可以应用根据示例的对象检测方法。可以基于用户的注视信息、用户的语音信息和用户作出的手势中的一项或多项来确定关注点。

在示例中，可以使用与关注点相关联的信息120来只提取整个输入图像110中的局部区域的图像，并且可以减小将要在操作130中操纵输入图像110时被处理的图像的尺寸，由此提高对象识别的计算效率。然而，当仅使用局部区域的图像来执行对象识别时，根据待识别的目标对象的尺寸，对象信息可能没有充分地包括在该局部区域中，因而可能会出现识别错误。根据示例，可以使用2路径对象识别结构140来防止这种识别错误，其中该2路径对象识别结构140可以使用与关注点相关联的信息120来基于视场(FoV)将输入图像110二元化为包括凹区域(foveated region)和周边区域在内的局部区域。

例如，当给出输入图像110以及对应于输入图像110的与关注点相关联的信息120时，根据示例的对象检测装置可以提取与输入图像110中的局部区域相对应的两个局部图像，即，与FoV的中心区域相对应的凹图像(在下文中称为F图像)以及与FoV的周边区域相对应的周边图像(在下文中称为P图像)。对象检测装置可以通过将两个局部图像作为对象识别的输入应用于神经网络，来使用2路径对象识别结构140执行对象检测。在示例中，通过将输入图像二元化成或分离成不同尺寸的局部区域，可以对对象尺寸的变化作出响应并提高对象检测的准确性。

2路径对象识别结构140可以具有用于对象检测的通用网络架构，例如，深度神经网络(DNN)、卷积神经网络(CNN)和递归神经网络(RNN)等。2路径对象识别结构140中的两条路径的相应对象识别神经网络可以具有相同的架构，或者可以具有各自的架构。当路径的相应对象识别神经网络具有相同的架构时，它们可以共用神经网络的参数或权重。

图2是示出了对象检测方法的示例的流程图。下文中将要描述的对象检测方法可以由对象检测装置执行。参考图2，在操作210中，对象检测装置设置与输入图像中的不同尺寸的局部区域相对应的第一窗口区域和第二窗口区域。第二窗口区域可以大于第一窗口区域。第一窗口区域可以用于识别尺寸小于预设尺寸的对象，并且例如对应于凹区域。第二窗口区域可以用于识别尺寸大于预设尺寸的对象，并且例如对应于周边区域。第二窗口区域可以被设置为具有针对未被第一窗口区域覆盖的对象的更大范围的区域，并且因此被设置为检测相对较大的对象。

前述的预设尺寸可以指用于对尺寸被第一窗口区域所覆盖的对象和尺寸未被第一窗口区域覆盖的对象加以区分的尺寸，并且可以是例如是50×50个像素的尺寸。

在示例中，对象检测装置可以基于输入图像中用户关注的关注点来设置第一窗口区域和第二窗口区域。可以基于用户的注视信息、用户的语音信息和用户作出的手势中的一项或多项来确定关注点。例如，当用户注视输入图像中车辆所在的A点时，用户注视所停留的A点可以是输入图像中用户的关注点。又例如，当用户例如通过语音(例如，通过说出“输入图像的右下角的B点”)来设置某个区域中的位置时，由用户的语音设置的B点可以是用户的关注点。再例如，当用户作出指向输入图像中的C点的手势时，由该手势设置的C点可以是用户的关注点。

在操作210中，对象检测装置基于关注点来设置具有第一尺寸的第一窗口区域，并且基于关注点来设置具有大于第一尺寸的第二尺寸的第二窗口区域。在此，可以通过通信接口(例如，将参考图10描述的通信接口1030)连同输入图像一起获得对应于输入图像的与关注点相关联的信息。

在操作220中，对象检测装置通过对第二窗口区域进行下采样来重新调整第二窗口区域的尺寸。对象检测装置可以对与第二窗口区域相对应的图像进行下采样，以将第二窗口区域的第二尺寸调整为等于第一窗口区域的第一尺寸。在下文中，将参考图3详细地描述对象检测装置如何设置第一窗口区域和第二窗口区域以及如何调整第二窗口区域的尺寸。

在操作230中，对象检测装置从第一窗口区域检测第一对象候选，并且从重新调整尺寸后的第二窗口区域检测第二对象候选。对象检测装置可以通过将从第一窗口区域提取的第一图像应用于第一神经网络来检测第一对象候选，并且可以通过将从重新调整尺寸后的第二窗口区域提取的第二图像应用于第二神经网络来检测第二对象候选。第一神经网络和第二神经网络可以是相同的神经网络或不同的神经网络。第一神经网络和第二神经网络可以是可彼此区分的神经网络，或者可以是单个共用的神经网络。根据示例，对象检测装置可以同时检测第一对象候选和第二对象候选，或者在检测到第一对象候选之后再检测第二对象候选。备选地，对象检测装置可以在检测到第二对象候选之后检测第一对象候选。在这种情况下，对象检测装置可以基于是否从重新调整尺寸后的第二窗口区域检测到第二对象候选来检测第一对象候选。在下文中，将参考图5描述前述示例。

在操作240中，对象检测装置基于第一对象候选和第二对象候选中的一个或两个来检测输入图像中包括的对象。例如，对象检测装置可以使用非极大值抑制(NMS)从第一对象候选和第二对象候选中的一个或两个来检测输入图像中包括的对象。NMS可以是一种后处理方法，其用于在检测到不同尺寸的多个边界框或窗口时去除冗余的、不太准确的结果，仅保留最终结果。NMS可以用于使用深度学习通过基于对象存在于边界框或窗口区域中的概率或每种类别的概率来去除重叠的区域从而检测对象，并且最终检测到对象。

图3是示出了设置第一窗口区域和第二窗口区域的示例的图。图3包括输入图像301、输入图像301中用户的关注点303、第一窗口区域305、第二窗口区域307、F图像310和P图像320。在本示例中，F图像310也可以被称为第一图像，P图像320也可以被称为第二图像。

在示例中，当给出输入图像301以及对应于输入图像301的与关注点303相关联的信息时，对象检测装置基于用户的关注点303来设置不同尺寸的两个窗口区域，即第一窗口区域305和第二窗口区域307。例如，对象检测装置基于与输入图像301相对应的用户的关注点303来设置不同尺寸的第一窗口区域305和第二窗口区域307。

第一窗口区域305可以用于识别尺寸小于预设尺寸的对象，并且对应于凹区域。可以基于待识别和/或待检测的对象的类型的一般尺寸来改变预设尺寸。例如，可以从第一窗口区域305提取F图像310，并且F图像310的尺寸可以是50×50个像素。从第一窗口区域305提取的F图像310可以具有与输入图像301相同的分辨率。将要用于识别相对较小对象的F图像301可以保持与输入图像301相同的分辨率，由此提高对象检测的准确性，而没有由于对整个输入图像301进行下采样而可能造成的数据丢失。

第二窗口区域307可以用于识别尺寸大于预设尺寸的对象，并且对应于周边区域。可以从第二窗口区域307提取P图像320。从第二窗口区域307提取的P图像320可以具有比输入图像301的分辨率低的分辨率，并且P图像320的尺寸可以例如是350×350个像素。

在示例中，对象检测装置可以将第二窗口区域307设置为具有比第一窗口区域305的尺寸大的尺寸，并且在将与第二窗口区域307相对应的图像输入到神经网络之前对该图像进行下采样，以使其具有与F图像310相同的尺寸，从而使得P图像320和F图像310能共用用于对象检测的基础网络。在本示例中，P图像320可以是通过将包括相对较大对象的图像重新调整为较小尺寸而获得的重新调整尺寸后的图像，因此，可以有助于减少神经网络的计算负荷。

然而，根据示例，P图像320的尺寸和F图像310的尺寸可以不必相同，并且可以根据需要以各种方式来调节尺寸。

在示例中，例如，可以基于根据应用的技术领域要从输入图像中检测的对象的类型、FoV以及与输入图像相对应的相机距离信息来确定窗口区域的尺寸。

例如，在将要由增强现实平视显示器(AR HUD)或通过增强现实(AR)眼镜对道路上的车辆进行识别并且车辆对象在平均20米(m)的距离内被包括在尺寸为50×50个像素的窗口区域内的情况下，可以将第一窗口区域的尺寸设置为50×50个像素。在本示例中，当可读FoV为20°且双目FoV为120°并且两者之间的比率为1：6时，可以提取尺寸为350×350个像素的P图像320，然后再将其尺寸重新调整为50×50个像素的尺寸。在此之后，F图像310和P图像320可以作为输入应用到如图4所示的基础网络，并且用来推断对象识别和/或对象检测。

图4是示出了对象检测装置的网络架构的示例的图。参考图4，对象检测装置400包括P图像420、第一神经网络430、F图像450、第二神经网络460和第三检测器480。

第一神经网络430包括基础网络431、第一特征提取层433和第一检测器435。第二神经网络460包括基础网络461、第二特征提取层463和第二检测器465。

第一特征提取层433可以是例如单次多盒检测器(SSD)的卷积层或特征层。第二特征提取层463也可以是例如SSD的卷积层或特征层。对象检测装置400可以接收输入图像和对应于输入图像410的与关注点相关联的信息。对象检测装置400还可以接收与第一窗口区域的尺寸(例如，50×50个像素)相关联的信息。对象检测装置400可以通过以上参考图3描述的方法从输入图像提取P图像420和F图像450。

P图像420和F图像450可以分别作为输入应用到神经网络430和460，以提取特征，并且可以输出特征图结果。如图4所示，对象检测装置400将P图像420应用于第一神经网络430，并且通过第一检测器435检测第一对象候选。第一检测器435可以接收第一特征提取层433的输出，并预测特征图的每个单元的边界框坐标相关信息以及类别概率。

对象检测装置400将F图像450应用于第二神经网络460，并且通过第二检测器465检测第二对象候选。第二检测器465可以接收第二特征提取层463的输出，并预测特征图的每个单元的边界框坐标相关信息以及类别概率。

在本示例中，可以将用于对象识别和/或对象检测的任何算法或结构或架构用作第一神经网络430的基础网络431和第二神经网络460的基础网络461的架构。

第三检测器480可以通过NMS从第一对象候选和第二对象候选中去除重叠的区域来检测出对象。

尽管在图4的示例中对象检测装置400包括分别用于F图像450和P图像420的可彼此区分的神经网络(例如，第二神经网络460和第一神经网络430)，但是，示例并不限于所示示例。备选地，对象检测装置400可以通过单个共用神经网络来检测对象。在这样的示例中，对象检测装置400可以通过将从第一窗口区域提取的第一图像应用到神经网络来检测第一对象候选，并且通过将从重新调整尺寸后的第二窗口区域提取的第二图像应用到该神经网络来检测第二对象候选，然后再通过从第一对象候选和第二对象候选中去除重叠的区域来最终检测出对象。

图5是示出了检测第一对象候选和第二对象候选的示例的流程图。参考图5，在操作510中，对象检测装置将从重新调整尺寸后的第二窗口区域提取的第二图像应用于第二神经网络。在操作520中，对象检测装置确定是否从第二图像检测到第二对象候选。在操作530中，当在操作520中检测到第二对象候选时，对象检测装置结束操作，而不将第一图像应用于第一神经网络。

在操作540中，当在操作520中未检测到第二对象候选时，对象检测装置通过将第一图像应用于第一神经网络来检测第一对象候选。

图6是示出了检测第一对象候选和第二对象候选(例如，图2中的操作230)的另一示例的流程图。参考图6，在操作610中，对象检测装置通过将从重新调整尺寸后的第二窗口区域提取的第二图像应用于第二神经网络来检测第二对象候选。

在操作620中，当检测到第二对象候选时，对象检测装置估计对象在第二图像所处的位置。

在操作630中，对象检测装置使用估计的位置来调整第一窗口区域的位置。

在操作640中，对象检测装置从第一窗口区域的调整后的位置提取第一图像。

在操作650中，对象检测装置通过将从调整后的位置提取的第一图像应用于第一神经网络来检测第一对象候选。

图7是示出了检测对象(例如，图2中的操作240)的示例的流程图。参考图7，在操作710中，对象检测装置基于第二对象候选的位置来调整第一窗口区域的位置。例如，对象检测装置可以基于第二对象候选的位置来估计对象在输入图像中所处的位置，并且使用估计的位置来调整第一窗口区域的位置。

在操作720中，对象检测装置从第一窗口区域的调整后的位置检测第一对象候选。

在操作730中，对象检测装置从第二对象候选和从调整后的位置检测到的第一对象候选检测输入图像中包括的对象。在图7的示例中，对象检测装置可以使用NMS来从第二对象候选和从调整后的位置检测到的第一对象候选检测输入图像中包括的对象。

图8是示出了对象检测装置的网络架构的另一示例的图。在图8的示例中，与图4所示的网络架构相比，对象检测装置800具有添加了自适应控制器850和注视细化器860的网络架构，以提高计算效率和准确性。

参考图8，第一神经网络820包括：包括基础网络和第一特征提取层的部分823；以及第一检测器825。第二神经网络870也包括：包括基础网络和第二特征提取层的部分873；以及第二检测器875。对象检测装置800可以接收输入图像及与输入图像相对应的关注点有关的信息810。

第一神经网络820和第二神经网络870分别与图4的第一神经网络430和第二神经网络460相同，因此，在此将省略其详细描述，并且可以参考图4。在下文中，仅描述与以上参考图4描述的网络架构的区别。

例如，如图所示，当从P图像815中检测到尺寸大于预设尺寸(例如，50×50个像素的尺寸)的对象时，由于F图像865的尺寸小于P图像815的尺寸，因此，F图像865被对象填充。在本示例中，可能不需要执行检测小型对象所需的过程或操作，因此可以省略从F图像865检测对象的计算或操作，并且从P图像815检测到的对象候选可以通过第三检测器840输出作为最终检测结果。

自适应控制器850可以基于是否从P图像815中检测到对象候选来确定是否从F图像865检测对象。当即使P图像815被应用于第一神经网络820也没有从P图像815检测到对象候选时，自适应控制器850可以将F图像865应用于第二神经网络870来检测对象候选，并通过第四检测器890输出从F图像865检测到的对象候选作为最终检测结果。但是，当从P图像815检测到对象候选时，自适应控制器850可以不将F图像865应用于第二神经网络870。

在下文中，为了便于描述，将提供注视细化器860如何基于估计的注视位置来调整窗口区域的位置的示例。但是，示例并不限于以下描述的示例。例如，除了注视之外，还可以采用基于与例如语音和手势有关的各种信息集合所确定的关注点来检测对象。

在示例中，在用户注视的跟踪结果中是否包括错误可以取决于注视传感器的准确性。例如，在小型对象的情况下，注视点可能没有位于该对象上。在这种情况下，可以使用注视细化器860来提高对注视点进行跟踪的准确性。

当使用P图像815检测到对象候选时，注视细化器860可以估计小型对象所处的位置。注视细化器860可以使用估计的位置来调整输入图像中第一窗口区域的位置，并从第一窗口区域的调整后的位置提取F图像865。为了估计小型对象在P图像815中的位置，可以采用各种各样的方法。

根据示例，对象检测装置800可以使用小型对象检测DB(其具有针对用户的注视标注的真值)来学习或训练回归CNN，从而在P图像815中检测小型对象。

尽管在图8中一起示出了自适应控制器850和注视细化器860，但是，它们可能不一定一起操作，并且可以选择性地使用两者中的一个。

图9是示出了从输入图像检测对象的示例的图。参考图9，在操作915中，对象检测装置对输入图像910中尺寸为350×350个像素的第二窗口区域进行下采样，从而将第二窗口区域的尺寸重新调整为50×50个像素的尺寸。第二窗口区域可以用于识别尺寸大于预设尺寸的对象。然后，对象检测装置从尺寸为50×50个像素的重新调整尺寸后的第二窗口区域提取P图像920。在操作940中，对象检测装置从P图像920检测具有相对较大尺寸的对象候选。当在操作940中检测到对象候选时，对象检测装置输出检测到的对象候选作为最终检测到的对象。

在操作950中，当在操作940中未检测到对象候选时，对象检测装置对P图像920执行注视细化。对象检测装置基于第二窗口区域的位置来调整用于识别尺寸相对较小的对象的第一窗口区域的位置。对象检测装置从第一窗口区域(通过裁切而具有50×50个像素的尺寸)的调整后的位置获得F图像930。对象检测装置可以应用超分辨率925来提高裁切后的F图像930的分辨率。

在操作960中，对象检测装置从F图像930检测小型对象，并且在操作970中最终检测出对象。

图10是示出了对象检测装置的示例的图。参考图10，对象检测装置1000包括处理器1010和通信接口1030。对象检测装置1000还包括存储器1050。处理器1010、通信接口1030和存储器1050可以通过通信总线1005彼此通信。

处理器1010可以设置与输入图像中的不同尺寸的局部区域相对应的第一窗口区域和第二窗口区域。第二窗口区域可以大于第一窗口区域。处理器1010可以通过对第二窗口区域进行下采样来重新调整第二窗口区域的尺寸。处理器1010可以从第一窗口区域检测第一对象候选，并且从重新调整尺寸后的第二窗口区域检测第二对象候选。处理器1010可以基于第一对象候选和第二对象候选中的一个或两个来检测输入图像中包括的对象。

通信接口1030可以获得输入图像。通信接口1030可以获得与输入图像相对应的关注点。

存储器1050可以存储通过通信接口1030获得的输入图像。存储器1050可以存储第一窗口区域的第一尺寸和第二窗口区域的第二尺寸。存储器1050可以存储由处理器1010检测到的第一对象候选和第二对象候选。

处理器1010可以执行以上参考图1至图9描述的方法和操作中的至少一种以及与该至少一种方法和操作相对应的算法。处理器1010可以是由硬件体现的数据处理装置，其具有用于执行期望操作的具备物理结构的电路。例如，期望操作可以包括程序中包括的代码或指令。由硬件体现的数据处理装置可以包括例如微处理器、中央处理器(CPU)、处理器内核、多核处理器、多重处理器、专用集成电路(ASIC)和现场可编程门阵列(FPGA)。

处理器1010可以执行程序并控制对象检测装置1000。可以将由处理器1010执行的程序的代码存储在存储器1050中。

存储器1050可以存储在处理器1010执行上述操作和方法时生成的各种信息集合。存储器1050还可以存储各种数据集和程序。存储器1050可以包括易失性存储器或非易失性存储器。存储器1050可以包括用于存储各种数据集的大容量存储介质，例如硬盘。

本文参考图4、图8和图10描述的对象检测装置以及其他装置、单元、模块、设备和组件由硬件组件实现或者表示硬件组件。在适当的情况下可用于执行本申请中所描述的操作的硬件组件的示例包括控制器、传感器、发生器、驱动器、存储器、比较器、算术逻辑单元、加法器、减法器、乘法器、除法器、积分器、以及被配置为执行本申请所述的操作的任何其他电子组件。在其他示例中，用于执行本申请中所描述的操作的一个或多个硬件组件由计算硬件(例如，由一个或多个处理器或计算机)实现。处理器或计算机可以由一个或多个处理元件(例如，逻辑门阵列、控制器和算术逻辑单元、数字信号处理器、微计算机、可编程逻辑控制器、现场可编程门阵列、可编程逻辑阵列、微处理器、或被配置为以定义的方式响应并执行指令以实现期望的结果的任何其他设备或设备组合)来实现。在一个示例中，处理器或计算机包括或连接到存储由处理器或计算机执行的指令或软件的一个或多个存储器。由处理器或计算机实现的硬件组件可以执行指令或软件，例如，操作***(OS)和在OS上运行的一个或多个软件应用，以执行本申请中描述的操作。硬件组件还可以响应于指令或软件的执行来访问、操纵、处理、创建和存储数据。为了简洁起见，在对本申请中所述的示例进行描述时可以使用单数术语“处理器”或“计算机”，但是在其他示例中可以使用多个处理器或计算机，或者处理器或计算机可以包括多个处理元件、或多种类型的处理元件、或两者兼有。例如，单个硬件组件或者两个或更多个硬件组件可以由单个处理器、或两个或更多个处理器、或者处理器和控制器来实现。一个或多个硬件组件可以由一个或多个处理器、或处理器和控制器来实现，并且一个或多个其他硬件组件可以由一个或多个其他处理器或者另一处理器和另一控制器来实现。一个或多个处理器或者处理器和控制器可以实现单个硬件组件、或者两个或更多个硬件组件。硬件组件可以具有不同的处理配置中的任一种或多种，所述处理配置的示例包括单处理器、独立处理器、并行处理器、单指令单数据(SISD)多处理、单指令多数据(SIMD)多处理、多指令单数据(MISD)多处理以及多指令多数据(MIMD)多处理。

执行本申请中所述的操作的图1-3、5-7和图9所示的方法由计算硬件来执行，例如，由如以上描述而实现的、执行指令或软件以执行本申请所述的通过所述方法实现的操作的一个或多个处理器或计算机来执行。例如，单个操作或者两个或更多个操作可以由单个处理器、或者两个或更多个处理器、或者处理器和控制器执行。一个或多个操作可以由一个或多个处理器或者处理器和控制器执行，并且一个或多个其他操作可以由一个或多个其它处理器或者另一处理器和另一控制器执行。一个或多个处理器或者处理器和控制器可以执行单个操作或者两个或更多个操作。

用于控制计算硬件(例如，一个或多个处理器或计算机)以实现硬件组件并执行如上所述的方法的指令或软件可以被编写为计算机程序、代码段、指令或其任何组合，用于单独或共同指示或配置一个或多个处理器或计算机以作为机器或专用计算机操作从而执行由上述硬件组件和方法执行的操作。在一个示例中，指令或软件包括由一个或多个处理器或计算机直接执行的机器代码，例如由编译器产生的机器代码。在另一个示例中，指令或软件包括由一个或多个处理器或计算机使用解释器执行的更高级代码。可以基于附图中所示出的框图和流程图以及本文使用的对应描述(其公开了用于执行由上述硬件组件和方法所执行的操作的算法)，使用任何编程语言来编写指令或软件。

用于控制计算硬件(例如，一个或多个处理器或计算机)以实现硬件组件并执行如上所述的方法的指令或软件以及任何相关联的数据、数据文件和数据结构可以被记录、存储或固定在一个或多个非暂时性计算机可读存储介质中或上。非暂时性计算机可读存储介质的示例包括：只读存储器(ROM)、随机存取可编程只读存储器(PROM)、电可擦除可编程只读存储器(EEPROM)、随机存取存储器(RAM)、动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、闪存、非易失性存储器、CD-ROM、CD-R、CD+R、CD-RW、CD+RW、DVD-ROM、DVD-R、DVD+R、DVD-RW、DVD+RW、DVD-RAM、BD-ROM、BD-R、BD-R LTH、BD-RE、蓝光或光盘存储器、硬盘驱动器(HDD)、固态驱动器(SSD)、闪存、卡型存储器(比如，多媒体卡或微型卡(例如，安全数字(SD)或极限数字(XD)))、磁带、软盘、磁光数据存储设备、光学数据存储设备、硬盘、固态盘以及任何其他设备，所述任何其他设备被配置为以非暂时性方式存储指令或软件以及任何相关数据、数据文件和数据结构，并且向一个或多个处理器或计算机提供指令或软件以及任何相关联的数据、数据文件和数据结构，使得该一个或多个处理器或计算机可以执行所述指令。在一个示例中，指令或软件以及任何相关联的数据、数据文件和数据结构分布在联网的计算机***上，使得一个或多个处理器或计算机以分布方式存储、访问和执行所述指令和软件以及任何相关联的数据、数据文件和数据结构。

尽管本公开包括特定示例，但是在理解了本申请的公开内容之后将清楚，在不脱离权利要求及其等同物的精神和范围的情况下，可以对这些示例进行形式和细节上的各种改变。本文描述的示例应仅被认为是描述性的，而不是为了限制的目的。每个示例中的特征或方面的描述应认为适用于其他示例中的类似特征或方面。如果所描述的技术以不同的顺序执行和/或如果所描述的***、架构、设备或电路中的组件以不同的方式组合和/或被其他组件或其等同物替换或补充，则可以实现合适的结果。因此，本公开的范围不是由详细描述来限定，而是由权利要求及其等同物来限定，并且在权利要求及其等同物的范围内的所有变化都被解释为包括在本公开中。

Claims

1.一种对象检测方法，包括：

设置与输入图像中的不同尺寸的局部区域相对应的第一窗口区域和第二窗口区域，其中所述第二窗口区域大于所述第一窗口区域；

对所述第二窗口区域进行下采样以生成重新调整尺寸后的第二窗口区域；

从所述第一窗口区域检测第一对象候选并且从重新调整尺寸后的第二窗口区域检测第二对象候选；以及

基于所述第一对象候选和所述第二对象候选中的一个或两个，检测所述输入图像中包括的对象。

2.根据权利要求1所述的对象检测方法，其中所述第一窗口区域和所述第二窗口区域的设置包括：

基于所述输入图像中用户的关注点来设置所述第一窗口区域和所述第二窗口区域。

3.根据权利要求2所述的对象检测方法，还包括：基于所述用户的注视信息、所述用户的语音信息和所述用户作出的手势中的一项或多项来确定所述关注点。

4.根据权利要求3所述的对象检测方法，其中所述第一窗口区域和所述第二窗口区域的设置包括：

基于所述关注点设置具有第一尺寸的所述第一窗口区域；以及

基于所述关注点设置具有大于所述第一尺寸的第二尺寸的所述第二窗口区域。

5.根据权利要求1所述的对象检测方法，其中对所述第二窗口区域进行下采样包括：

通过对与所述第二窗口区域相对应的图像进行下采样来将所述第二窗口区域的第二尺寸调整为等于所述第一窗口区域的第一尺寸。

6.根据权利要求5所述的对象检测方法，其中基于要从所述输入图像检测的对象的类型、视场FoV以及与所述输入图像相对应的相机距离信息中的一项或多项来确定所述第一窗口区域的所述第一尺寸和所述第二窗口区域的所述第二尺寸。

7.根据权利要求1所述的对象检测方法，其中所述第一窗口区域被配置用于识别尺寸小于预设尺寸的对象，以及

从所述第一窗口区域提取的第一图像具有与所述输入图像相同的分辨率。

8.根据权利要求1所述的对象检测方法，其中所述第二窗口区域被配置用于识别尺寸大于预设尺寸的对象，以及

从所述重新调整尺寸后的第二窗口区域提取的第二图像具有比所述输入图像的分辨率低的分辨率。

9.根据权利要求1所述的对象检测方法，其中所述对象的检测包括：

使用非极大值抑制NMS从所述第一对象候选和所述第二对象候选中的一个或两个检测所述输入图像中包括的对象。

10.根据权利要求1所述的对象检测方法，其中对所述第一对象候选和所述第二对象候选的检测包括：

基于从所述重新调整尺寸后的第二窗口区域是否检测到所述第二对象候选来检测所述第一对象候选。

11.根据权利要求1所述的对象检测方法，其中所述对象的检测包括：

基于所述第二对象候选的位置来调整所述第一窗口区域的位置；

从所述第一窗口区域的调整后的位置检测所述第一对象候选；以及

从所述第二对象候选和从所述调整后的位置检测到的所述第一对象候选检测所述输入图像中包括的对象。

12.根据权利要求11所述的对象检测方法，其中对所述第一窗口区域的位置的调整包括：

基于所述第二对象候选的位置来估计对象在所述输入图像中所处的位置；以及

使用估计的位置来调整所述第一窗口区域的位置。

13.根据权利要求1所述的对象检测方法，其中对所述第一对象候选和所述第二对象候选的检测包括：

通过将从所述重新调整尺寸后的第二窗口区域提取的第二图像应用于神经网络来检测所述第二对象候选；以及

通过将从所述第一窗口区域提取的第一图像应用于所述神经网络来检测所述第一对象候选。

14.根据权利要求1所述的对象检测方法，其中对所述第一对象候选和所述第二对象候选的检测包括：

通过将从所述重新调整尺寸后的第二窗口区域提取的第二图像应用于第二神经网络来确定是否从所述第二图像检测到所述第二对象候选；以及

基于是否从所述第二图像检测到所述第二对象候选，确定是否将从所述第一窗口区域提取的第一图像应用于第一神经网络来检测所述第一对象候选。

15.根据权利要求14所述的对象检测方法，还包括：

在从所述第二图像检测到所述第二对象候选的情况下，不将所述第一图像应用于所述第一神经网络。

16.根据权利要求14所述的对象检测方法，还包括：

在从所述第二图像没有检测到所述第二对象候选的情况下，通过将所述第一图像应用于所述第一神经网络，来检测所述第一对象候选。

17.根据权利要求16所述的对象检测方法，其中对所述第一对象候选的检测包括：

估计所述对象在所述第二图像中所处的位置；

使用估计的位置来调整所述第一窗口区域的位置；

从所述第一窗口区域的调整后的位置提取所述第一图像；以及

通过将从所述调整后的位置提取的所述第一图像应用于所述第一神经网络来检测所述第一对象候选。

18.根据权利要求1所述的对象检测方法，还包括：

获得所述输入图像和与所述输入图像相对应的关注点。

19.一种存储指令的非暂时性计算机可读存储介质，所述指令在由一个或多个处理器执行时，使得所述一个或多个处理器执行根据权利要求1-18中的任一项所述的对象检测方法。

20.一种对象检测装置，包括：

通信接口，被配置为获得输入图像；以及

处理器，被配置为：

设置与所述输入图像中的不同尺寸的局部区域相对应的第一窗口区域和大于所述第一窗口区域的第二窗口区域；

基于所述第一对象候选和所述第二对象候选中的一个或两个来检测所述输入图像中包括的对象。

21.根据权利要求20所述的对象检测装置，其中所述处理器被配置为：

22.根据权利要求21所述的对象检测装置，其中基于所述用户的注视信息、所述用户的语音信息和所述用户作出的手势中的一项或多项来确定所述关注点。

23.根据权利要求22所述的对象检测装置，其中所述处理器被配置为：

基于所述关注点来设置具有第一尺寸的所述第一窗口区域；以及

基于所述关注点来设置具有大于所述第一尺寸的第二尺寸的所述第二窗口区域。

24.根据权利要求20所述的对象检测装置，其中所述处理器被配置为：

25.根据权利要求24所述的对象检测装置，其中基于要从所述输入图像中检测的对象的类型、视场FoV以及与所述输入图像相对应的相机距离信息中的一项或多项来确定所述第一窗口区域的所述第一尺寸和所述第二窗口区域的所述第二尺寸。

26.根据权利要求20所述的对象检测装置，其中所述第一窗口区域被配置用于识别尺寸小于预设尺寸的对象，以及

27.根据权利要求20所述的对象检测装置，其中所述第二窗口区域被配置用于识别尺寸大于预设尺寸的对象，以及

28.根据权利要求20所述的对象检测装置，其中所述处理器被配置为：

29.根据权利要求20所述的对象检测装置，其中所述处理器被配置为：

30.根据权利要求20所述的对象检测装置，其中所述处理器被配置为：

31.根据权利要求30所述的对象检测装置，其中所述处理器被配置为：

基于所述第二对象候选的位置来估计所述对象在所述输入图像中所处的位置；以及

使用估计的位置来调整所述第一窗口区域的位置。

32.根据权利要求20所述的对象检测装置，其中所述处理器被配置为：

33.根据权利要求32所述的对象检测装置，其中所述处理器被配置为：

34.根据权利要求32所述的对象检测装置，其中所述处理器被配置为：

35.根据权利要求34所述的对象检测装置，其中所述处理器被配置为：

估计所述对象在所述第二图像中所处的位置；

使用估计的位置来调整所述第一窗口区域的位置；

36.根据权利要求20所述的对象检测装置，其中所述通信接口被配置为获得与所述输入图像相对应的关注点。

37.一种对象检测装置，包括：

通信接口，被配置为获得输入图像；以及

处理器，被配置为：

设置与所述输入图像的部分区域相对应的具有第一尺寸的第一窗口区域和具有第二尺寸的第二窗口区域，其中所述第二尺寸大于所述第一尺寸；

从所述第二窗口区域生成重新调整尺寸后的第二窗口区域；

通过将从所述重新调整尺寸后的第二窗口区域提取的第二图像应用于第二神经网络，来确定是否从所述第二图像检测到第二对象候选；

基于是否从所述第二图像检测到所述第二对象候选，确定是否将从所述第一窗口区域提取的第一图像应用于第一神经网络以检测第一对象候选；以及

38.根据权利要求37所述的对象检测装置，其中所述处理器被配置为：

39.根据权利要求37所述的对象检测装置，其中所述处理器被配置为：