CN111539341A

CN111539341A - 目标定位方法、装置、电子设备和介质

Info

Publication number: CN111539341A
Application number: CN202010340457.2A
Authority: CN
Inventors: 张轩烨; 吴毓双; 韩晓光; 崔曙光
Original assignee: Shenzhen Research Institute of Big Data SRIBD; Chinese University of Hong Kong CUHK
Current assignee: Shenzhen Research Institute of Big Data SRIBD; Chinese University of Hong Kong CUHK
Priority date: 2020-04-26
Filing date: 2020-04-26
Publication date: 2020-08-14
Anticipated expiration: 2040-04-26
Also published as: CN111539341B

Abstract

本公开实施例提供了一种目标定位方法、装置、电子设备和介质。该目标定位方法包括，获得待定位目标的描述信息和待定位图像，基于所述待定位图像，生成与所述待定位图像对应的含有语意信息的第一热力图，通过注意力机制处理所述描述信息以及所述第一热力图，生成包含所述描述信息的语意特征的第二热力图，基于所述第二热力图，确定粗糙匹配候选目标定位框，以及对所述粗糙匹配候选目标定位框进行筛选，得到精细匹配目标定位框。从而可以改善在拥挤场景中的目标定位能力。

Description

目标定位方法、装置、电子设备和介质

技术领域

本公开涉及图像处理领域，具体涉及一种目标定位方法、装置、电子设备和介质。

背景技术

由于视频监控和安防领域广泛的应用前景，越来越多的人开始研究在图片中定位目标人物的技术，其中，在图片中根据描述信息定位目标人物是提升视频监控和安防***效能面临的一个很重要的问题，这个问题在拥挤场景的图片中更具有挑战性，因为拥挤场景中存在着大量的人物个体。

在现有技术中，行人定位问题多采用一种自上而下的流程，即先检测全部的行人，然后将其逐一与语言描述进行匹配，最后定位出目标行人在图片中的位置。然而，本发明人发现，由于拥挤的场景中存在着大量的行人个体，现有的行人检测方法对于高密度人群或者相互遮挡的行人的检测能力较弱，因此上述自上而下的流程并不能很好的解决这个问题。

发明内容

为了解决相关技术中的问题，本公开实施例提供一种目标定位方法、装置、电子设备和介质。

第一方面，本公开实施例中提供了一种目标定位方法，包括获得待定位目标的描述信息和待定位图像，基于所述待定位图像，生成与所述待定位图像对应的含有语意信息的第一热力图，通过注意力机制处理所述描述信息以及所述第一热力图，生成包含所述描述信息的语意特征的第二热力图，基于所述第二热力图，确定粗糙匹配候选目标定位框，以及对所述粗糙匹配候选目标定位框进行筛选，得到精细匹配目标定位框。

可选地，所述第一热力图包括基于所述目标对象的多个区域划分的多个热力图，以及/或者，所述第二热力图包括基于所述目标对象的多个区域划分的多个热力图。

可选地，所述基于所述待定位图像，生成与所述待定位图像对应的含有语意信息的第一热力图包括基于所述待定位图像，生成含有所述多个区域中的第一区域的语意信息的第一区域热力图，通过所述第一区域热力图引导生成含有所述多个区域中的第二区域的语意信息的第二区域热力图，其中，所述第一热力图至少包括所述第一区域热力图和第二区域热力图。

可选地，所述待定位目标的描述信息包括自然语言描述信息，所述通过注意力机制处理所述描述信息以及所述第一热力图，生成包含所述描述信息的语意特征的第二热力图包括，对所述自然语言描述信息进行特征抽取，得到所述自然语言描述信息的第一特征向量，通过注意力机制，基于所述第一特征向量处理所述第一热力图，生成包含所述描述信息的语意特征的第二热力图。

可选地，所述方法还包括基于所述待定位图像，生成与所述待定位图像对应的基于颜色的第三热力图，所述通过注意力机制，基于所述第一特征向量处理所述第一热力图，生成包含所述描述信息的语意特征的第二热力图包括，基于所述第一特征向量处理所述第三热力图，得到第四热力图，将所述第一热力图和所述第四热力图按照通道级联，得到第二热力图。

可选地，所述基于所述第二热力图，确定粗糙匹配候选目标定位框包括将所述待定位图像与所述第二热力图按通道级联，得到中间图像，使用目标定位算法处理所述中间图像，得到粗糙配候选目标定位框。

可选地，所述对所述粗糙匹配候选目标定位框进行筛选，得到精细匹配目标定位框包括基于至少一个所述粗糙匹配候选目标定位框确定至少一个定位区域，处理所述待定位图像和所述第二热力图中所述定位区域的信息，得到与所述至少一个定位区域对应的第二特征向量，确定所述第二特征向量与所述第一特征向量之间的相似度，以及基于所述相似度筛选所述粗糙匹配候选目标定位框，得到精细匹配目标定位框。

第二方面，本公开实施例提供了一种目标定位装置，包括获得模块、第一生成模块、第二生成模块、第一确定模块以及第二确定模块。获得模块被配置为获得待定位目标的描述信息和待定位图像。第一生成模块被配置为基于所述待定位图像，生成与所述待定位图像对应的含有语意信息的第一热力图。第二生成模块被配置为通过注意力机制处理所述描述信息以及所述第一热力图，生成包含所述描述信息的语意特征的第二热力图。第一确定模块被配置为基于所述第二热力图，确定粗糙匹配候选目标定位框。第二确定模块被配置为对所述粗糙匹配候选目标定位框进行筛选，得到精细匹配目标定位框。

可选地，所述第一生成模块包括第一生成子模块和第二生成子模块。第一生成子模块被配置为基于所述待定位图像，生成含有所述多个区域中的第一区域的语意信息的第一区域热力图。第二生成子模块被配置为通过所述第一区域热力图引导生成含有所述多个区域中的第二区域的语意信息的第二区域热力图。其中，所述第一热力图至少包括所述第一区域热力图和第二区域热力图。

可选地，所述待定位目标的描述信息包括自然语言描述信息，所述第二生成模块包括语言处理子模块和第三生成子模块。语言处理子模块被配置为对所述自然语言描述信息进行特征抽取，得到所述自然语言描述信息的第一特征向量。第三生成子模块被配置为通过注意力机制，基于所述第一特征向量处理所述第一热力图，生成包含所述描述信息的语意特征的第二热力图。

可选地，所述装置还包括第三生成模块，被配置为基于所述待定位图像，生成与所述待定位图像对应的基于颜色的第三热力图。所述第三生成子模块包括生成单元和级联单元。生成单元被配置为基于所述第一特征向量处理所述第三热力图，得到第四热力图。级联单元被配置为将所述第一热力图和所述第四热力图按照通道级联，得到第二热力图。

可选地，所述第一确定模块包括级联子模块和定位子模块。级联子模块被配置为将所述待定位图像与所述第二热力图按通道级联，得到中间图像。定位子模块被配置为使用目标定位算法处理所述中间图像，得到粗糙配候选目标定位框。

可选地，所述第二确定模块包括区域确定子模块、向量确定子模块、相似度确定子模块以及筛选子模块。区域确定子模块被配置为基于至少一个所述粗糙匹配候选目标定位框确定至少一个定位区域。向量确定子模块被配置为处理所述待定位图像和所述第二热力图中所述定位区域的信息，得到与所述至少一个定位区域对应的第二特征向量。相似度确定子模块被配置为确定所述第二特征向量与所述第一特征向量之间的相似度。筛选子模块被配置为基于所述相似度筛选所述粗糙匹配候选目标定位框，得到精细匹配目标定位框。

第三方面，本公开实施例提供了一种电子设备，包括存储器和处理器，其中，所述存储器用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器执行以实现如上所述的方法。

第四方面，本公开实施例提供了一种计算机可读存储介质，存储有计算机可执行指令，所述指令在被执行时用于实现如上所述的方法。

第五方面，本公开实施例提供了一种计算机程序，所述计算机程序包括计算机可执行指令，所述指令在被执行时用于实现如上所述的方法。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

结合附图，通过以下非限制性实施方式的详细描述，本公开的其它特征、目的和优点将变得更加明显。在附图中：

图1示出了根据本公开实施例的待定位图像的示意图；

图2示出根据本公开实施例的目标定位方法的流程图；

图3示出根据本公开另一实施例的目标定位方法的流程图；

图4示出根据本公开实施例的目标定位方法的过程示意图；

图5示出根据本公开实施例的生成第二热力图的过程示意图；

图6示出根据本公开实施例的多个示意性的热力图；

图7示出根据本公开实施例的筛选精细匹配目标定位框的流程图；

图8示出根据本公开实施例的目标定位装置的结构框图；

图9示出根据本公开实施例的电子设备的结构框图；以及

图10示出适于实现根据本公开实施例的目标定位方法的计算机***的结构示意图。

具体实施方式

下文中，将参考附图详细描述本公开的示例性实施例，以使本领域技术人员可容易地实现它们。但是应该理解，这些描述只是示例性的，而并非要限制本公开的范围。在下面的详细描述中，为便于解释，阐述了许多具体的细节以提供对本公开实施例的全面理解。然而，明显地，一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本公开的概念。

在本公开中，应理解，诸如“包括”、“包含”或“具有”等的术语旨在指示本说明书中所公开的特征、数字、步骤、行为、部件、部分或其组合的存在，并且不欲排除一个或多个其他特征、数字、步骤、行为、部件、部分或其组合存在或被添加的可能性。

在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义，除非另外定义。应注意，这里使用的术语应解释为具有与本说明书的上下文相一致的含义，而不应以理想化或过于刻板的方式来解释。

在使用类似于“A、B和C等中至少一个”这样的表述的情况下，一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如，“具有A、B和C中至少一个的***”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的***等)。在使用类似于“A、B或C等中至少一个”这样的表述的情况下，一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如，“具有A、B或C中至少一个的***”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的***等)。本领域技术人员还应理解，实质上任意表示两个或更多可选项目的转折连词和/或短语，无论是在说明书、权利要求书还是附图中，都应被理解为给出了包括这些项目之一、这些项目任一方、或两个项目的可能性。例如，短语“A或B”应当被理解为包括“A”或“B”、或“A和B”的可能性。

另外还需要说明的是，在不冲突的情况下，本公开中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本公开。

本公开实施例的目标定位方法是一种根据描述信息定位拥挤场景图像中目标对象的方法，其通过粗糙匹配和精细匹配两个阶段快速定位符合描述信息的目标对象。该方法的输入是一张拥挤场景图像和一段关于目标对象的描述信息，输出是符合所述描述信息的目标对象的位置信息。

根据本公开实施例，该待定位图像可以是一个拥挤场景图像，即该待定位图像中的对象数量大于预设对象数量阈值，其中，所述预设对象数量阈值可根据实际应用的需要确定，本公开实施例对其取值不作具体限定。

图1示出了根据本公开实施例的待定位图像的示意图。

如图1所示，该待定位图像可以是包含多个行人的图像，其中，在本公开实施例中，对象即为行人。根据本公开实施例，该待定位图像例如可以是普通RGB图像，本公开实施例对于图像的格式和尺寸没有要求。

根据本公开实施例，该描述信息指的是与待定位的目标对象有关的描述信息，可以根据描述信息在待定位图像中的定位目标对象。例如，描述信息可以是基于预先定义所确定的一组参数，该组参数例如可以构成一个向量。或者，描述信息也可以是自然语言的描述信息。举例来说，该描述信息例如可以是“黑发并且穿有棕色上衣和灰色裤子的行人”，于是本公开实施例的方法的任务就是从待定位图像中“黑发并且穿有棕色上衣和灰色裤子的行人”在图像中的位置。

图2示出根据本公开实施例的目标定位方法的流程图。

如图2所示，该方法包括操作S210-S250。

在操作S210，获得待定位目标的描述信息和待定位图像。

在操作S220，基于所述待定位图像，生成与所述待定位图像对应的含有语意信息的第一热力图。

根据本公开实施例，热力图(包括第一热力图或下文所描述的其他热力图)用于对输入的图片中特定语意信息在每个像素的置信度进行表达，这种置信度服从相应语意为中心的高斯分布。该特定的语意例如可以是指待定位图像中的行人的头部，身体上部和身体下部以及相应的颜色这些有特定含义的语意。每一特定的语意都会生成一张对应该语意的第一热力图。因为第一热力图与原图像有相同的长和宽，所以第一热力图中的每个像素与原图像中的每个像素是对应的，第一热力图的每个像素位置的取值例如可以为0到1，每个像素位置的取值反应了这个热力图所对应的语意信息在这个像素位置的置信度。

根据本公开实施例，该语意信息为一个或多个预先定义的语意信息，与上述描述信息相互独立。例如，该语意信息可以是行人，用于指示目标对象的信息。通过该语意信息生成第一热力图可以识别出待定位图像中的目标对象。

在本公开的一些实施例中，该语意信息可以为分别用于指示目标对象的多个区域的多个语意信息，从而生成对应于目标对象的多个区域的多个第一热力图。例如，语意信息可以包括人体头部，身体上部和身体下部，从而可以分别生成对应于人体头部，身体上部和身体下部的至少三张第一热力图。

根据本公开实施例，第一热力图可以由图像特征图生成得到，图像特征图可以由神经网络结构抽取待定位图像的特征得到。不同部位的第一热力图由相似的结构生成，区别在于有不同的输入。例如，该结构可以由三个卷积层构成，每两个卷积层之间另有一个批正则化层，第一个卷积层的通道数为256，第二个为128，第三个为1，卷积核的大小皆为3*3，步长皆为1*1，激活函数皆为Relu。头部的第一热力图可以由图像特征图直接放入上述结构得到，身体上部的第一热力图可以由图像特征图与头部的第一热力图按通道级联后放入上述结构得到，身体下部的第一热力图可以由图像特征图与头部和身体上部的第一热力图按通道级联后放入上述结构得到。

根据本公开实施例，由于多个第一热力图的尺寸一致，可以按照通道将多个第一热力图级联为一个多通道的第一热力图。其中，级联(concatenate)为将不同部分的神经网络的结果按照某种方式组合到一起的操作，此处为按照通道组合。该多通道的第一热力图的每个通道可以对应于目标对象的一个区域的热力图，例如一个通道可以对应于头部，另外两个通道可以分别对应于身体上部和身体下部。这一操作仅改变了数据的存储结构，并不改变数据内容。可以根据实际的处理环境决定是否采用该操作以使得处理过程更加便利。上下文中描述的第一热力图可以是一个或多个单通道的第一热力图，也可以是按通道级联后的多通道的第一热力图，应当结合各种可能的方式进行理解，不可过于死板。

在操作S230，通过注意力机制处理所述描述信息以及所述第一热力图，生成包含所述描述信息的语意特征的第二热力图。

根据本公开实施例，第一热力图是指包含待处理图像中的全部对应语意信息的热力图，第二热力图是指包含了符合相应的描述信息的语意信息的热力图。

根据本公开实施例，可以将描述信息映射到该第一热力图中，进而得到包含描述信息的语意特征的第二热力图。本文中所涉及的注意力机制是一种经过标准设计的神经网络的层来实现的处理操作。在本公开实施例中，通过这种注意力机制的处理操作，可以过滤掉与描述信息无关的语意信息，保留了与描述信息相关的语意信息，进而得到第二热力图。例如，在第一热力图中，已经识别出了待定位图像中的所有头部、身体上部和身体下部，进而可以根据描述信息中的“黑发”、“棕色上衣”和“灰色裤子”过滤掉不相关的头部、身体上部和身体下部。

根据本公开实施例，该第二热力图可以包括基于所述目标对象的多个区域划分的多个热力图。与第一热力图类似，第二热力图也可以是一个或多个单通道的第二热力图，或者是按通道级联后的多通道的第二热力图。

在操作S240，基于所述第二热力图，确定粗糙匹配候选目标定位框。

根据本公开实施例，由于第二热力图中已经筛选出与描述信息相关的区域，通过定位算法可以确定该些区域的坐标，生成粗糙匹配候选目标定位框。

在操作S250，对所述粗糙匹配候选目标定位框进行筛选，得到精细匹配目标定位框。

根据本公开实施例，可以对所述粗糙匹配候选目标定位框进行进一步筛选，从而得到最终的精细匹配目标定位框。例如，可以根据粗糙匹配候选目标定位框在原始的待处理图像中找到相应区域，逐个验证各个区域是否符合描述信息的要求，将确实满足描述信息的区域确定为精细匹配目标定位框。

本公开实施例的方法通过描述信息基于注意力机制来生成第二热力图，强化了图片中与目标对象描述相关的空间位置的信息的表达进而帮助目标对象定位的过程，并采用了一种粗糙-精细两阶段匹配的方法定位拥挤场景图片中的目标对象，其可以有效地处理高密度并且存在相互遮挡的场景中的对象定位问题，并且相比于现有技术具有较高的定位效率。

根据本公开实施例，在操作S220生成第一热力图的过程中，若基于所述目标对象的多个区域进行划分，生成多个第一热力图的情况下，可以根据一个区域的第一热力图引导另一个区域的第一热力图的生成。根据本公开实施例，可以基于所述待定位图像，生成含有所述多个区域中的第一区域的语意信息的第一区域热力图，通过所述第一区域热力图引导生成含有所述多个区域中的第二区域的语意信息的第二区域热力图，其中，所述第一热力图至少包括所述第一区域热力图和第二区域热力图。

例如，头部的第一热力图可以由待定位图像中抽取的特征图输入到某一神经网络结构中得到；对于身体上部的第一热力图，可以先将待定位图像中抽取的特征图与头部的第一热力图按通道级联，将级联后的图像输入到神经网络结构中得到身体上部的第一热力图；对于身体下部的第一热力图，可以将待定位图像中抽取的特征图与头部第一热力图和身体上部的第一热力图按通道级联在一起，将级联后的图像输入到神经网络结构中得到身体下部的第一热力图。本公开实施例的这种由在先生成的热力图引导后续热力图的生成的方式可以称为递进注意力机制。

根据本公开实施例，所述待定位目标的描述信息包括自然语言描述信息。操作S230可以实现为基于所述待定位图像，生成与所述待定位图像对应的含有语意信息的第一热力图对所述自然语言描述信息进行特征抽取，得到所述自然语言描述信息的第一特征向量，以及通过注意力机制，基于所述第一特征向量处理所述第一热力图，生成包含所述描述信息的语意特征的第二热力图。

例如，可以通过BERT算法对该自然语言描述信息进行嵌词(word embedding)，之后利用双向复发神经网络(RNN)的门控循环单元(GRU)对其进行特征抽取，并使用专用的神经网络结构执行基于注意力机制的处理，进而得到与该自然语言描述信息对应的第一特征向量，作为该自然语言描述信息的语言描述特征。此处的神经网络结构例如可以由两个全连接层实现，第一个全连接层使用Relu激活函数，输出维度为768，第二个全连接层使用Softmax作为激活函数，输出维度是256，得到维度为256的第一特征向量。

图3示出根据本公开另一实施例的目标定位方法的流程图。

如图3所示，该方法包括操作S210、S220、S310～S330、S240以及S250。该方法与图2所示意的方法的区别在于可以进一步包括操作S310，并且，图2的操作S230在这里被实现为操作S320和S330。

在操作S310，基于所述待定位图像，生成与所述待定位图像对应的基于颜色的第三热力图。

根据本公开实施例，还可以生成基于颜色的第三热力图，这里可以按照预先设定的多种不同颜色生成多个第三热力图。例如，对于红色热力图，可以在像素包含红色成分较多时对应的热力图的取值较高，在包含红色成分较少时对应的热力图的取值较低，或者，可以采用二值化的方法，将包含红色成分对应的热力图的取值为1，将不包含红色成分对应的热力图的取值为0。其他颜色的热力图同理。例如可以选择11种颜色生成11个第三热力图，该些第三热力图也可以按照通道级联到一起，形成一个多通道的第三热力图。

在操作S320，基于所述第一特征向量处理所述第三热力图，得到第四热力图。

例如，该操作可以通过一个具有标准的三层神经网络层的模块实现。可以将描述信息得到的第一特征向量放入两个全连接层，得到一个特征向量，再将得到的特征向量按通道与第三热力图相乘，得到包含描述信息的加权颜色热力图，即为第四热力图。两个全连接层的激活函数例如可以都为Relu，第一个全连接层输出维度例如可以为256，第二个全连接层输出维度与第三热力图的通道数相同，例如可以为11。

在操作S330，将所述第一热力图和所述第四热力图按照通道级联，得到第二热力图。

例如，该操作可以通过一个标准的五层神经网络层的模块实现。可以将对应于对象不同区域的多个第一热力图与第四热力图按照通道级联，使用Transform注意力方法来实现基于空间位置的注意力机制，其中非局部操作的方法为点乘。

该方法引入基于颜色的第三热力图，进一步提升定位结果的准确性。

根据本公开实施例，操作S240例如可以包括将所述待定位图像与所述第二热力图按通道级联，得到中间图像，使用目标定位算法处理所述中间图像，得到粗糙配候选目标定位框。

本公开实施例的方法可以将第二热力图提供的语意信息作用到粗糙匹配候选框生成的过程当中，通过第二热力图的引导生成粗糙匹配候选框的归一化坐标，进而排除掉一些无关信息的干扰，有利于拥挤场景中的精细匹配目标定位框的生成。

根据本公开实施例，该目标定位算法例如可以是YOLO算法，通过将将不同尺寸的第二热力图与相应大小的图像特征图进行按照通道的级联操作，然后利用这个级联操作的结果进行归一化坐标的生成，进而得到粗糙匹配候选目标的定位框。得到的每一个粗糙匹配候选目标的定位框都包含了一个有较大概率符合描述信息的对象实例，例如一个行人实例。其中，图像特征图(feature map)是指某一部分的神经网络的层的结果，在本公开实施例中，可以通过残差50(ResNet50)网络结构处理待定位图像，得到该些图像特征图。

下面结合图4～图6对本公开的实施方式进一步说明。

图4示出根据本公开实施例的目标定位方法的过程示意图，图5示出根据本公开实施例的生成第二热力图的过程示意图，图6示出根据本公开实施例的多个示意性的热力图。

如图4所示，待定位图像被处理以生成第一热力图和第三热力图，对描述信息进行语言特征抽取得到语言特征，进一步被处理为语言特征向量。基于一定的注意力机制，由第一热力图、第三热力图以及语言特征向量可以处理得到第二热力图。之后，执行一定的目标模型检测算法确定粗糙匹配候选目标定位框。基于该定位框，连同待定位图像、第二热力图以及语言特征向量，验证各个粗糙匹配候选目标定位框是否满足描述信息，进而确定精细匹配目标定位框，并作为结果输出。

由此可见，该过程大体可分为两个阶段，粗糙匹配阶段和精细匹配阶段。其中，在粗糙匹配阶段中生成第二热力图是本方案重要的一环，下面结合图5对生成第二热力图的过程进一步说明。

如图5所示，待定位图像可以经残差50的网络结构提取特征图。残差50网络由一个输入层、四个残差模块(此处称为模块1～模块4)以及一个全连接输出层组成。根据本公开实施例，待定位图像经模块1和模块2之后可以得到基于颜色的第三热力图。另一方面，待定位图像经过模块1～模块4之后经解码器解码，并基于递进注意力机制处理可以得到头部热力图A、身体上部热力图B以及身体下部热力图C，该些热力图即为第一热力图。

根据本公开实施例，对于描述信息经双向复发神经网络(RNN)的门控循环单元(GRU)对其进行特征抽取，并使用专用的神经网络结构执行基于注意力机制的处理，进而得到与该自然语言描述信息对应的语言特征向量，此处称为第一特征向量，作为该自然语言描述信息的语言描述特征。

根据本公开实施例，可以将描述信息得到的第一特征向量放入两个全连接层，得到一个特征向量，再将得到的特征向量按通道与第三热力图相乘，得到包含描述信息的加权颜色热力图，即为第四热力图；将对应于对象不同区域的多个第一热力图(头部热力图A、身体上部热力图B以及身体下部热力图C)与第四热力图按照通道级联，使用Transform注意力方法来实现基于空间位置的注意力机，得到多个第二热力图，即头部热力图A’、身体上部热力图B’以及身体下部热力图C’。该些第二热力图也可以组成一个多通道的第二热力图。

如图6所示，待定位图像可以是包含多个行人的图像，其中，行人为目标对象。基于待定位图像可以生成基于目标对象不同区域的第一热力图和基于颜色的第三热力图。在本公开实施例中，不同区域可以为头部，身体上部和身体下部。在头部、身体上部和身体下部的第一热力图中，每个头部、身体上部和身体下部几乎都可以被识别出来。基于第一热力图、第三热力图和第一特征向量生成第二热力图后，仅满足描述信息的区域被留下，其他区域被抛弃，被标注的区域明显减少。该第二热力图可以用于生成粗糙匹配候选目标定位框。

本公开实施例的方法在粗糙匹配阶段提出了一种自下而上的目标检测方法。使用不同通道的热力图表达特定语意信息，从而实现了将特定语意信息映射到图片相应的空间位置。

图7示出根据本公开实施例的筛选精细匹配目标定位框的流程图。

如图7所示，该方法包括操作S710～S740。

在操作S710，基于至少一个所述粗糙匹配候选目标定位框确定至少一个定位区域。

根据本公开实施例，可以使用粗糙匹配中得到的候选框裁剪待定位图像和第二热力图进而得到目标对象实例的图片和热力图。每个粗糙匹配候选目标定位框中的区域对应一个目标对象实例，例如一个行人。

根据本公开实施例，待定位图像和第二热力图裁剪后的区域可以按通道级联在一起，以便后续处理。

在操作S720，处理所述待定位图像和所述第二热力图中所述定位区域的信息，得到与所述至少一个定位区域对应的第二特征向量。

根据本公开实施例，可以对待定位图像和第二热力图中该定位区域按通道进行级联，然后将级联后的图像利用神经网络结构抽取特征图。该神经网络结构例如可以是残差50的残差块结构。可以对抽取得到的特征图进行卷积操作，其参数例如可以按照以下进行设置，输出通道数为256，卷积核尺寸为3*3，步长为1*1，激活函数为Relu。对卷积结果全局池化可以得到图像特征向量作为第二特征向量。在本公开实施例中，该第二特征向量的维度为256。

在操作S730，确定所述第二特征向量与所述第一特征向量之间的相似度。

根据本公开实施例，可以通过点乘的方式计算两个向量之间的余弦相似度，该相似度用来决定该粗糙匹配候选目标定位框中的对象实例是否符合该描述信息。

在操作S740，基于所述相似度筛选所述粗糙匹配候选目标定位框，得到精细匹配目标定位框。

根据本公开实施例，例如可以将相似度高于预设相似度阈值的粗糙匹配候选目标定位框作为所述精细匹配目标定位框，进而得到目标定位结果。

本公开实施例的目标定位方法可以依靠描述信息过滤掉拥挤场景图片中的部分无关信息来提高粗糙匹配的候选框的生成质量，并进一步利用描述信息筛选出精确匹配的候选框，解决了传统方法因为拥挤场景中对象数量较多导致的漏检问题和由于遮挡和干扰导致的精确匹配精度较低的问题。通过粗糙筛选过程减少了粗糙匹配的候选框的生成数量进而减少算法进行精细匹配的次数进而提高了整体定位的速度。本公开实施例的方法在一些数据集上的数值结果表现超过了state-of-arts的算法，证明了本公开实施例的方法在高密度或者相互遮挡的人群中具有较好的定位目标对象的能力。

图8示出根据本公开的实施例的目标定位装置800的结构框图。

如图8所示，该目标定位装置800包括获得模块810、第一生成模块820、第二生成模块830、第一确定模块840以及第二确定模块850。

获得模块810被配置为获得待定位目标的描述信息和待定位图像。

第一生成模块820被配置为基于所述待定位图像，生成与所述待定位图像对应的含有语意信息的第一热力图。

第二生成模块830被配置为通过注意力机制处理所述描述信息以及所述第一热力图，生成包含所述描述信息的语意特征的第二热力图。

第一确定模块840被配置为基于所述第二热力图，确定粗糙匹配候选目标定位框。

第二确定模块850被配置为对所述粗糙匹配候选目标定位框进行筛选，得到精细匹配目标定位框。

根据本公开实施例，该第一热力图可以包括基于所述目标对象的多个区域划分的多个热力图，以及/或者，该第二热力图可以包括基于所述目标对象的多个区域划分的多个热力图。

根据本公开实施例，该第一生成模块820可以包括第一生成子模块和第二生成子模块。第一生成子模块被配置为基于所述待定位图像，生成含有所述多个区域中的第一区域的语意信息的第一区域热力图。第二生成子模块被配置为通过所述第一区域热力图引导生成含有所述多个区域中的第二区域的语意信息的第二区域热力图。其中，所述第一热力图至少包括所述第一区域热力图和第二区域热力图。

根据本公开实施例，待定位目标的描述信息可以包括自然语言描述信息，该第二生成模块830可以包括语言处理子模块和第三生成子模块。语言处理子模块被配置为对所述自然语言描述信息进行特征抽取，得到所述自然语言描述信息的第一特征向量。第三生成子模块被配置为通过注意力机制，基于所述第一特征向量处理所述第一热力图，生成包含所述描述信息的语意特征的第二热力图。

根据本公开实施例，该装置800还可以包括第三生成模块，被配置为基于所述待定位图像，生成与所述待定位图像对应的基于颜色的第三热力图。所述第三生成子模块可以包括生成单元和级联单元。生成单元被配置为基于所述第一特征向量处理所述第三热力图，得到第四热力图。级联单元被配置为将所述第一热力图和所述第四热力图按照通道级联，得到第二热力图。

根据本公开实施例，该第一确定模块840可以包括级联子模块和定位子模块。级联子模块被配置为将所述待定位图像与所述第二热力图按通道级联，得到中间图像。定位子模块被配置为使用目标定位算法处理所述中间图像，得到粗糙配候选目标定位框。

根据本公开实施例，该第二确定模块850可以包括区域确定子模块、向量确定子模块、相似度确定子模块以及筛选子模块。区域确定子模块被配置为基于至少一个所述粗糙匹配候选目标定位框确定至少一个定位区域。向量确定子模块被配置为处理所述待定位图像和所述第二热力图中所述定位区域的信息，得到与所述至少一个定位区域对应的第二特征向量。相似度确定子模块被配置为确定所述第二特征向量与所述第一特征向量之间的相似度。筛选子模块被配置为基于所述相似度筛选所述粗糙匹配候选目标定位框，得到精细匹配目标定位框。

根据本公开的实施例的模块、子模块、单元、子单元中的任意多个、或其中任意多个的至少部分功能可以在一个模块中实现。根据本公开实施例的模块、子模块、单元、子单元中的任意一个或多个可以被拆分成多个模块来实现。根据本公开实施例的模块、子模块、单元、子单元中的任意一个或多个可以至少被部分地实现为硬件电路，例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上***、基板上的***、封装上的***、专用集成电路(ASIC)，或可以通过对电路进行集成或封装的任何其他的合理方式的硬件或固件来实现，或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者，根据本公开实施例的模块、子模块、单元、子单元中的一个或多个可以至少被部分地实现为计算机程序模块，当该计算机程序模块被运行时，可以执行相应的功能。

例如，获得模块810、第一生成模块820、第二生成模块830、第一确定模块840、第二确定模块850、第一生成子模块、第二生成子模块、语言处理子模块、第三生成子模块、第三生成模块、生成单元、级联单元、级联子模块、定位子模块、区域确定子模块、向量确定子模块、相似度确定子模块以及筛选子模块中的任意多个可以合并在一个模块中实现，或者其中的任意一个模块可以被拆分成多个模块。或者，这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合，并在一个模块中实现。根据本公开的实施例，获得模块810、第一生成模块820、第二生成模块830、第一确定模块840、第二确定模块850、第一生成子模块、第二生成子模块、语言处理子模块、第三生成子模块、第三生成模块、生成单元、级联单元、级联子模块、定位子模块、区域确定子模块、向量确定子模块、相似度确定子模块以及筛选子模块中的至少一个可以至少被部分地实现为硬件电路，例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上***、基板上的***、封装上的***、专用集成电路(ASIC)，或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现，或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者，获得模块810、第一生成模块820、第二生成模块830、第一确定模块840、第二确定模块850、第一生成子模块、第二生成子模块、语言处理子模块、第三生成子模块、第三生成模块、生成单元、级联单元、级联子模块、定位子模块、区域确定子模块、向量确定子模块、相似度确定子模块以及筛选子模块中的至少一个可以至少被部分地实现为计算机程序模块，当该计算机程序模块被运行时，可以执行相应的功能。

本公开还公开了一种电子设备，图9示出根据本公开的实施例的电子设备的结构框图。

如图9所示，所述电子设备900包括存储器901和处理器902。其中，所述存储器901用于存储一条或多条计算机指令，其被所述处理器902执行以实现如图2、图3或图7所描述的方法。

图10示出适于用来实现根据本公开实施例的目标定位方法的计算机***的结构示意图。图10示出的计算机***仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。图10示出的计算机***可以实现为服务器集群，包括至少一个处理器(例如处理器1001)以及至少一个存储器(例如存储部分1008)。

如图10所示，计算机***1000包括处理器1001，例如可以是中央处理单元(CPU)，其可以根据存储在只读存储器(ROM)1002中的程序或者从存储部分1008加载到随机访问存储器(RAM)1003中的程序而执行上述实施例中的各种处理。处理器1001例如可以包括通用微处理器(例如CPU)、指令集处理器和/或相关芯片组和/或专用微处理器(例如，专用集成电路(ASIC))，等等。处理器1001还可以包括用于缓存用途的板载存储器。处理器1001可以包括用于执行根据本公开实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。

在RAM1003中，还存储有***1000操作所需的各种程序和数据。处理器1001、ROM1002以及RAM1003通过总线1004彼此相连。处理器1001通过执行ROM 1002和/或RAM1003中的程序来执行根据本公开实施例的方法流程的各种操作。需要注意，所述程序也可以存储在除ROM 1002和RAM 1003以外的一个或多个存储器中。处理器1001也可以通过执行存储在所述一个或多个存储器中的程序来执行根据本公开实施例的方法流程的各种操作。

根据本公开的实施例，***1000还可以包括输入/输出(I/O)接口1005，输入/输出(I/O)接口1005也连接至总线1004。***1000还可以包括连接至I/O接口1005的以下部件中的一项或多项：包括键盘、鼠标等的输入部分1006；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分1007；包括硬盘等的存储部分1008；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分1009。通信部分1009经由诸如因特网的网络执行通信处理。驱动器1010也根据需要连接至I/O接口1005。可拆卸介质1011，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器1010上，以便于从其上读出的计算机程序根据需要被安装入存储部分1008。

特别地，根据本公开的实施例，上文描述的方法可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括有形地包含在机器可读介质上的计算机程序，所述计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分1009从网络上被下载和安装，和/或从可拆卸介质1011被安装。在该计算机程序被处理器1001执行时，执行本公开实施例的***中限定的上述功能。根据本公开的实施例，上文描述的***、设备、装置、模块、单元等可以通过计算机程序模块来实现。

附图中的流程图和框图，图示了按照本公开各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的***来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施例中所涉及到的单元或模块可以通过软件的方式实现，也可以通过可编程硬件的方式来实现。所描述的单元或模块也可以设置在处理器中，这些单元或模块的名称在某种情况下并不构成对该单元或模块本身的限定。

作为另一方面，本公开还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中电子设备或计算机***中所包含的计算机可读存储介质；也可以是单独存在，未装配入设备中的计算机可读存储介质。计算机可读存储介质存储有一个或者一个以上程序，所述程序被一个或者一个以上的处理器用来执行描述于本公开的方法。

根据本公开的实施例，计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行***、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、有线、光缆、射频信号等等，或者上述的任意合适的组合。

例如，根据本公开的实施例，计算机可读介质可以包括上文描述的ROM 1002和/或RAM 1003和/或ROM 1002和RAM 1003以外的一个或多个存储器。

本领域技术人员可以理解，本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合或/或结合，即使这样的组合或结合没有明确记载于本公开中。特别地，在不脱离本公开精神和教导的情况下，本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合。所有这些组合和/或结合均落入本公开的范围。

以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本公开中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离所述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种目标定位方法，包括：

获得待定位目标的描述信息和待定位图像；

基于所述待定位图像，生成与所述待定位图像对应的含有语意信息的第一热力图；

通过注意力机制处理所述描述信息以及所述第一热力图，生成包含所述描述信息的语意特征的第二热力图；

基于所述第二热力图，确定粗糙匹配候选目标定位框；以及

对所述粗糙匹配候选目标定位框进行筛选，得到精细匹配目标定位框。

2.根据权利要求1所述的方法，其中：

所述第一热力图包括基于所述目标对象的多个区域划分的多个热力图；以及/或者

所述第二热力图包括基于所述目标对象的多个区域划分的多个热力图。

3.根据权利要求2所述的方法，其中，所述基于所述待定位图像，生成与所述待定位图像对应的含有语意信息的第一热力图包括：

基于所述待定位图像，生成含有所述多个区域中的第一区域的语意信息的第一区域热力图；

通过所述第一区域热力图引导生成含有所述多个区域中的第二区域的语意信息的第二区域热力图，

其中，所述第一热力图至少包括所述第一区域热力图和第二区域热力图。

4.根据权利要求1～3中任意一项所述的方法，其中，所述待定位目标的描述信息包括自然语言描述信息，所述通过注意力机制处理所述描述信息以及所述第一热力图，生成包含所述描述信息的语意特征的第二热力图包括：

对所述自然语言描述信息进行特征抽取，得到所述自然语言描述信息的第一特征向量；

通过注意力机制，基于所述第一特征向量处理所述第一热力图，生成包含所述描述信息的语意特征的第二热力图。

5.根据权利要求4所述的方法，还包括：

基于所述待定位图像，生成与所述待定位图像对应的基于颜色的第三热力图，

所述通过注意力机制，基于所述第一特征向量处理所述第一热力图，生成包含所述描述信息的语意特征的第二热力图包括：

基于所述第一特征向量处理所述第三热力图，得到第四热力图；

将所述第一热力图和所述第四热力图按照通道级联，得到第二热力图。

6.根据权利要求1～3中任意一项所述的方法，其中，所述基于所述第二热力图，确定粗糙匹配候选目标定位框包括：

将所述待定位图像与所述第二热力图按通道级联，得到中间图像；

使用目标定位算法处理所述中间图像，得到粗糙配候选目标定位框。

7.根据权利要求1～3中任意一项所述的方法，其中，所述对所述粗糙匹配候选目标定位框进行筛选，得到精细匹配目标定位框包括：

基于至少一个所述粗糙匹配候选目标定位框确定至少一个定位区域；

处理所述待定位图像和所述第二热力图中所述定位区域的信息，得到与所述至少一个定位区域对应的第二特征向量；

确定所述第二特征向量与所述第一特征向量之间的相似度；以及

基于所述相似度筛选所述粗糙匹配候选目标定位框，得到精细匹配目标定位框。

8.一种目标定位装置，包括：

获得模块，被配置为获得待定位目标的描述信息和待定位图像；

第一生成模块，被配置为基于所述待定位图像，生成与所述待定位图像对应的含有语意信息的第一热力图；

第二生成模块，被配置为通过注意力机制处理所述描述信息以及所述第一热力图，生成包含所述描述信息的语意特征的第二热力图；

第一确定模块，被配置为基于所述第二热力图，确定粗糙匹配候选目标定位框；以及

第二确定模块，被配置为对所述粗糙匹配候选目标定位框进行筛选，得到精细匹配目标定位框。

9.一种电子设备，其特征在于，包括存储器和处理器；其中，所述存储器用于存储一条或多条计算机指令，所述一条或多条计算机指令被所述处理器执行以实现如权利要求1～7中任意一项所述的方法。

10.一种计算机可读存储介质，用于存储一条或多条计算机指令，所述一条或多条计算机指令被所述处理器执行以实现如权利要求1～7中任意一项所述的方法。