CN110443852A

CN110443852A - 一种图像定位的方法及相关装置

Info

Publication number: CN110443852A
Application number: CN201910733944.2A
Authority: CN
Inventors: 皮智雄; 宋奕兵; 刘威
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-08-07
Filing date: 2019-08-07
Publication date: 2019-11-12
Anticipated expiration: 2039-08-07
Also published as: CN110443852B

Abstract

本申请实施例提供了人工智能领域中的一种图像定位的方法及相关装置，其提供的物体定位模型具备精确有效的注意力，在对视频中的目标进行视觉跟踪的过程中，若发生平面外旋转、非刚体形变以及运动模糊时，能够避免跟踪漂移的情况发生。其中，该方法通过物体定位模型进行图像定位的过程中，该物体定位模型的注意力集中于视频图像帧、目标图像的空间参数和通道参数，全面考虑了图像的三维特征，可以对图像进行有效的特征提取，进而实现目标图像在视屏图像帧的定位。

Description

一种图像定位的方法及相关装置

技术领域

本申请涉及计算机视觉技术领域，尤其涉及一种图像定位的方法及相关装置。

背景技术

计算机视觉技术(computer vision,CV)是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。视觉目标跟踪是计算机视觉技术中的一个重要研究方向，视觉目标跟踪任务就是在给定某视频初始图像帧的目标大小与位置的情况下，预测后续图像帧中该目标的大小与位置。

现有的视觉目标跟踪方法可以为基于孪生网络的跟踪算法，其中该孪生网络基于残差网络所构建，为了优化网络的注意力机制，一般可以向残差网络添加空间注意力模块或通道注意力模块，以使得残差网络能够集中关注视频图像的部分特征参数，如空间参数或通道参数，然后进行相应的卷积操作，进而确定目标图像在视频图像中的具***置。

然而，上述方法中孪生网络仅集中关注图像的部分特征参数，残差网络所具备的注意力精确度较低且有效度不足，在对视频中的目标进行视觉跟踪的过程中，若发生平面外旋转、非刚体形变以及运动模糊时，会导致跟踪漂移的情况发生。

发明内容

本申请实施例提供了一种图像定位的方法及相关装置，在对视频中的目标进行视觉跟踪的过程中，若发生平面外旋转、非刚体形变以及运动模糊时，能够避免跟踪漂移的情况发生。

本申请实施例第一方面提供一种图像定位的方法，其特征在于，包括：

获取待定位视频以及目标图像，其中，所述待定位视频至少包括第一图像帧以及第二图像帧；

通过物体定位模型获取第一待匹配图像对所对应的第一定位结果，其中，所述第一待匹配图像对包括所述第一图像帧以及所述目标图像，所述第一图像帧对应于第一图像特征，所述第一图像特征为基于所述第一图像帧的空间参数以及通道参数得到的，所述目标图像对应于第一目标特征，所述第一目标特征为基于所述目标图像的空间参数以及通道参数得到的，所述第一定位结果为基于所述第一图像特征及所述第一目标特征得到的；

通过所述物体定位模型获取第二待匹配图像对所对应的第二定位结果，其中，所述第二待匹配图像对包括所述第二图像帧以及所述目标图像，所述第二图像帧对应于第二图像特征，所述第二图像特征为基于所述第二图像帧的空间参数以及通道参数得到的，所述第二定位结果为基于所述第二图像特征及所述第一目标特征得到的；

根据所述第一定位结果以及所述第二定位结果，生成所述待定位视频所对应的定位信息。

本申请实施例第二方面提供一种图像定位的装置，包括：

第一获取模块，用于获取待定位视频以及目标图像，其中，所述待定位视频至少包括第一图像帧以及第二图像帧；

第二获取模块，用于通过物体定位模型获取第一待匹配图像对所对应的第一定位结果，其中，所述第一待匹配图像对包括所述第一图像帧以及所述目标图像，所述第一图像帧对应于第一图像特征，所述第一图像特征为基于所述第一图像帧的空间参数以及通道参数得到的，所述目标图像对应于第一目标特征，所述第一目标特征为基于所述目标图像的空间参数以及通道参数得到的，所述第一定位结果为基于所述第一图像特征及所述第一目标特征得到的；

第三获取模块，用于通过所述物体定位模型获取第二待匹配图像对所对应的第二定位结果，其中，所述第二待匹配图像对包括所述第二图像帧以及所述目标图像，所述第二图像帧对应于第二图像特征，所述第二图像特征为基于所述第二图像帧的空间参数以及通道参数得到的，所述第二定位结果为基于所述第二图像特征及所述第一目标特征得到的；

生成模块，用于根据所述第一定位结果以及所述第二定位结果，生成所述待定位视频所对应的定位信息。

基于第二方面，本申请实施例中第二方面的第一种实现方式中，所述第二获取模块包括：

第一卷积单元，用于通过第一卷积层对所述目标图像的空间参数和通道参数进行卷积处理，得到第二目标特征；

第一整合单元，用于通过第一注意力层对所述第二目标特征的空间参数和通道参数进行参数整合，得到第一目标特征；

第二卷积单元，用于通过第二卷积层对所述第一图像帧的空间参数和通道参数进行卷积处理，得到第三图像特征；

第二整合单元，用于通过第二注意力层对所述第三图像特征的空间参数和通道参数进行参数整合，得到第一图像特征；

第一匹配单元，用于通过滤波层对所述第一目标特征和所述第一图像特征进行匹配，得到第一定位结果。

基于第二方面，本申请实施例中第二方面的第二种实现方式中，所述第三获取模块包括：

第三卷积单元，用于通过第一卷积层对所述目标图像的空间参数和通道参数进行卷积处理，得到第二目标特征；

第三整合单元，用于通过第一注意力层对所述第二目标特征的空间参数和通道参数进行参数整合，得到第一目标特征；

第四卷积单元，用于通过第二卷积层对所述第二图像帧的空间参数和通道参数进行卷积处理，得到第四图像特征；

第四整合单元，用于通过第二注意力层对所述第四图像特征的空间参数和通道参数进行参数整合，得到第二图像特征；

第二匹配单元，用通过滤波层对所述第一目标特征和所述第二图像特征进行匹配，得到第二定位结果。

基于第二方面的第一种实现方式或第二种实现方式，本申请实施例中第二方面的第三种实现方式中，所述第一整合单元或所述第三整合单元包括：

第一池化子单元，用于基于所述第二目标特征的通道参数，对所述第二目标特征的空间参数进行最大池化，得到第一一维向量；

第一卷积子单元，用于对所述第一一维向量进行卷积处理，得到第二一维向量；

第二卷积子单元，用于对所述第二目标特征进行卷积处理，使得所述第二目标特征的通道数量降为1，得到第一二维向量；

第一重组子单元，用于对所述第一二维向量的元素进行重组，得到第三一维向量；

第一构建子单元，用于以所述第二一维向量为列向量，所述第三一维向量为行向量，构建第一关系矩阵；

第二重组子单元，用于对所述第一关系矩阵的元素进行重组，得到与所述第二目标特征尺寸相同的第一目标特征。

基于第二方面的第一种实现方式，本申请实施例中第二方面的第四种实现方式中，所述第二整合单元包括：

第二池化子单元，用于基于所述第三图像特征的通道参数，对所述第三图像特征的空间参数进行最大池化，得到第四一维向量；

第三卷积子单元，用于对所述第四一维向量进行卷积处理，得到第五一维向量；

第四卷积子单元，用于对所述第三图像特征进行卷积处理，使得所述第三图像特征的通道数量降为1，得到第二二维向量；

第三重组子单元，用于对所述第二二维向量的元素进行重组，得到第六一维向量；

第二构建子单元，用于以所述第五一维向量为列向量，所述第六一维向量为行向量，构建第二关系矩阵；

第四重组子单元，用于对所述第二关系矩阵的元素进行重组，得到与所述第三图像特征尺寸相同的第一图像特征。

基于第二方面的第二种实现方式，本申请实施例中第二方面的第五种实现方式中，所述第四整合单元包括：

第三池化子单元，用于基于所述第四图像特征的通道参数，对所述第四图像特征的空间参数进行最大池化，得到第七一维向量；

第五卷积子单元，用于对所述第七一维向量进行卷积处理，得到第八一维向量；

第六卷积子单元，用于对所述第四图像特征进行卷积处理，使得所述第四图像特征的通道数量降为1，得到第三二维向量；

第五重组子单元，用于对所述第三二维向量的元素进行重组，得到第九一维向量；

第三构建子单元，用于以所述第七一维向量为列向量，所述第九一维向量为行向量，构建第三关系矩阵；

第六重组子单元，用于对所述第三关系矩阵的元素进行重组，得到与所述第四图像特征尺寸相同的第二图像特征。

本申请实施例第三方面一种定位结果展示的方法，包括：

获取待定位视频以及目标图像，其中，所述待定位视频至少包括第一图像帧以及第二图像帧，所述目标图像包括目标物体；

根据所述第一定位结果以及所述第二定位结果，生成所述待定位视频所对应的定位信息，其中，所述定位信息包括多个定位图像，每个定位图像中均包括所述目标物体；

展示所述定位信息。

本申请实施例第四方面提供一种定位结果展示的装置，包括：

第一获取模块，用于获取待定位视频以及目标图像，其中，所述待定位视频至少包括第一图像帧以及第二图像帧，所述目标图像包括目标物体；

生成模块，用于根据所述第一定位结果以及所述第二定位结果，生成所述待定位视频所对应的定位信息，其中，所述定位信息包括多个定位图像，每个定位图像中均包括所述目标物体；

展示模块，用于展示所述定位信息。

本申请实施例第五方面提供一种网络设备，包括：存储器、收发器、处理器以及总线***；

其中，所述存储器用于存储程序；

所述处理器用于执行所述存储器中的程序，包括如下步骤：

根据所述第一定位结果以及所述第二定位结果，生成所述待定位视频所对应的定位信息；

所述总线***用于连接所述存储器以及所述处理器，以使所述存储器以及所述处理器进行通信。

本申请实施例第六方面提供一种终端设备，包括：存储器、收发器、处理器以及总线***；

其中，所述存储器用于存储程序；

所述处理器用于执行所述存储器中的程序，包括如下步骤：

展示所述定位信息；

本申请的第七方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述各方面所述的方法。

从以上技术方案可以看出，本申请实施例具有以下优点：

本申请实施例提供了一种图像定位的方法，包括：先获取待定位视频以及目标图像，其中，待定位视频至少包括第一图像帧以及第二图像帧，然后通过物体定位模型获取第一待匹配图像对所对应的第一定位结果，其中，第一待匹配图像对包括第一图像帧以及目标图像，第一图像帧对应于第一图像特征，第一图像特征为基于第一图像帧的空间参数以及通道参数得到的，目标图像对应于第一目标特征，第一目标特征为基于目标图像的空间参数以及通道参数得到的，第一定位结果为基于第一图像特征及第一目标特征得到的，再通过物体定位模型获取第二待匹配图像对所对应的第二定位结果，其中，第二待匹配图像对包括第二图像帧以及目标图像，第二图像帧对应于第二图像特征，第二图像特征为基于第二图像帧的空间参数以及通道参数得到的，第二定位结果为基于第二图像特征及第一目标特征得到的，最后根据第一定位结果以及第二定位结果，生成待定位视频所对应的定位信息。在上述方法通过物体定位模型进行图像定位的过程中，该物体定位模型的注意力集中于视频图像帧、目标图像的空间参数和通道参数，全面考虑了图像的三维特征，可以对图像进行有效的特征提取，进而实现目标图像在视屏图像帧的定位，由于该物体定位模型具备精确有效的注意力，在对视频中的目标进行视觉跟踪的过程中，若发生平面外旋转、非刚体形变以及运动模糊时，能够避免跟踪漂移的情况发生。

附图说明

图1为本申请实施例中图像定位的方法的一个流程示意图；

图2为本申请实施例中物体定位模型的一个结构示意图；

图3为本申请实施例中注意力层的参数整合过程的示意图；

图4为本申请实施例中图像定位的装置的一个结构示意图；

图5为本申请实施例中网络设备的一个结构示意图；

图6为本申请实施例中终端设备的一个结构示意图。

具体实施方式

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“对应于”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

应理解，随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

本申请采用计算机视觉(Computer Vision,CV)技术进行视觉目标的跟踪，其中，计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能***。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

具体地，以一个场景为例对本申请提供的图像定位方法进行介绍，当用户在终端设备上观看视频时，可以对视频中的某个目标物体进行定位，在定位过程中，通常需要运用视觉目标跟踪方法，该方法可以为基于孪生网络的跟踪算法，其中该孪生网络基于残差网络所构建。

需要说明的是，上述视觉目标跟踪方法可以在客户端上执行，也可以在服务器上执行。当在服务器上执行时，服务器需要先从客户端获取用户所观看的视频，再通过视觉目标跟踪方法对视频中的目标物体进行定位，以将定位结果以显示于视频中，例如用高亮方框框选出目标物体，以体现目标物体在视频中的运动轨迹，再将视频与定位结果返回至客户端进行展示，供用户使用。

本申请实施例提供的方案涉及人工智能的视频监控、人机交互、行为分析等技术，具体通过如下实施例进行说明:

下面以服务器的角度，对本申请实施例中图像定位的方法进行具体说明。图1为本申请实施例中图像定位的方法的一个流程示意图，请参阅图1，本申请实施例中图像定位的方法的一个实施例，包括：

101、获取待定位视频以及目标图像，其中，待定位视频至少包括第一图像帧以及第二图像帧；

在本实施例中，服务器首先获取到用户的待定位视频，以及用户需在待定位视频中进行定位的目标图像。其中，待定位视频通常包括多帧图像，例如第一图像帧、第二图像帧、第三图像帧等等，目标图像可为用户预先设置的图像，也可以为用户从待定位视频的第一图像帧中选择的某个图像等等，本实施例中不做限制。具体的，目标图像可以包含一个目标物体或多个目标物体，也可以为包含了目标物体的某个区域图像等等，此处不做限制。

服务器获取待定位视频后，可先解析视频得到多个图像帧，以每个图像帧为搜索区域，从每个图像帧中确定目标图像的位置，进而完成目标图像在待定位视频中的定位。

102、通过物体定位模型获取第一待匹配图像对所对应的第一定位结果，其中，第一待匹配图像对包括第一图像帧以及目标图像，第一图像帧对应于第一图像特征，第一图像特征为基于第一图像帧的空间参数以及通道参数得到的，目标图像对应于第一目标特征，第一目标特征为基于目标图像的空间参数以及通道参数得到的，第一定位结果为基于第一图像特征及第一目标特征得到的；

当服务器获取待定位视频和目标图像后，可以调用物体定位模型进行定位。本实施例中，将第一图像帧和目标图像作为第一待匹配图像对输入物体定位模型，可以获取对应的第一定位结果，其中，物体定位模型可对第一图像帧和目标图像进行多层次的特征提取，进而得到第一图像帧的第一图像特征，目标图像的第一目标特征，接着根据第一图像特征和第一目标特征生成第一定位结果，从而完成目标图像在第一图像帧中的定位。

具体的，由于第一图像特征为基于第一图像帧的空间参数以及通道参数得到的，第一目标特征为基于目标图像的空间参数以及通道参数得到的，即物体定位模型在进行特征提取时，物体定位模型的集中关注于图像的各个特征参数，使其具备精确且有效的注意力，优化了整个物体定位模型的注意力机制。

103、通过物体定位模型获取第二待匹配图像对所对应的第二定位结果，其中，第二待匹配图像对包括第二图像帧以及目标图像，第二图像帧对应于第二图像特征，第二图像特征为基于第二图像帧的空间参数以及通道参数得到的，第二定位结果为基于第二图像特征及第一目标特征得到的；

由于视频所展示的内容是连续的，为了完成图像帧的连续定位，在完成对第一图像帧目标图像的定位后，即可进行对第二图像帧关于目标图像的定位。需要说明的是，通过物体定位模型获取第二待匹配图像对所对应的第二定位结果的过程与步骤102中物体定位模型获取第一待匹配图像对所对应的第一定位结果的过程类似，此处不再赘述。

此外，由于视频通常包含多个图像帧，若该视频还包括第三图像帧、第四图像帧等等图像帧，每个图像帧关于目标图像的定位处理均和步骤101、步骤102类似，此处不再赘述。

104、根据第一定位结果以及第二定位结果，生成待定位视频所对应的定位信息。

服务器得到第一定位结果和第二定位结果后，则可以在待定位视频中生成相应的定位信息，例如，在视频的每一个图像帧中，通过方框框选住目标图像，在连续的图像帧中，随着目标图像的移动，方框也随之移动。更进一步的，服务器可以将附加有定位信息的待定位视频发送至客户端进行显示，以供用户使用。

本实施例通过物体定位模型进行图像定位的过程中，该物体定位模型的注意力集中于视频图像帧、目标图像的空间参数和通道参数，全面考虑了图像的三维特征，可以对图像进行有效的特征提取，进而实现目标图像在视屏图像帧的定位，由于该物体定位模型具备精确有效的注意力，在对视频中的目标进行视觉跟踪的过程中，若发生平面外旋转、非刚体形变以及运动模糊时，能够避免跟踪漂移的情况发生。

可选的，基于图1所对应的实施例，本申请实施例中图像定位的方法的一个可选实施例中，通过物体定位模型获取第一待匹配图像对所对应的第一定位结果包括：

通过第一卷积层对目标图像的空间参数和通道参数进行卷积处理，得到第二目标特征；

通过第一注意力层对第二目标特征的空间参数和通道参数进行参数整合，得到第一目标特征；

通过第二卷积层对第一图像帧的空间参数和通道参数进行卷积处理，得到第三图像特征；

通过第二注意力层对第三图像特征的空间参数和通道参数进行参数整合，得到第一图像特征；

通过滤波层对第一目标特征和第一图像特征进行匹配，得到第一定位结果。

本实施例中，物体定位模型可以为孪生神经网络，包括上下两个分支，每一个分支以残差网络为基础进行构建，其中，残差网络可以为CIResNet22，该网络通过堆叠残差模块构成，可以提取不同层次的特征，且在相邻两个残差模块之间，还具有一个注意力模块。为了便于理解，以下结合图2对本申请实施例中的物体定位模型进行介绍。图2为本申请实施例中物体定位模型的一个结构示意图，其中该物体定位模型包括多个卷积层(上述残差模块)和多个注意力层(上述注意力模块)。

如图2所示，物体定位模型包括上下两支，每一分支均以CIResNet22为基础网络进行构建，且该模型的两分支网络之间共享网络参数(即上下两支的网络参数相同)，例如权值等等。其中，每一分支网络可以通过多个卷积层和多个注意力层相互交替排列进行构建，因此，卷积层和注意力层的数量相同，且上下两分支网络的最后一个注意力层连接至同一个滤波层中，进而构成完整物体定位模型。在该物体定位模型中，上分支网络可以对目标图像进行特征提取，依次通过第一个卷积层进行卷积，第一个注意力层进行参数整合，再通过第二个卷积层进行卷积等等，直至最后一个注意力层完成参数整合，即可得到目标图像的目标图像特征，同理，下分支网络可对视频图像进行同样的处理，得到视频图像特征，再通过滤波层将目标图像特征和视频图像特征进行匹配操作(实际上也为卷积操作)，可得到目标图像在视频图像中的定位结果。

值得注意的是，卷积层对图像的卷积处理仅仅是将图像特征的元素值进行映射操作，使得特征中元素的值发生变化，而特征中元素的数量保持不变。例如，输入卷积层的图像可表示为H×W×C(即空间参数和通道参数)的三维向量，当图像输入卷积层后，可得到一个H×W×C的新三维向量，即卷积层的输入输出尺寸大小保持一致。同样的，当将尺寸为H×W×C的三维向量输入注意力层后，注意力层对其进行参数整合，也可得到一个H×W×C的新三维向量，即注意力层的输入输出尺寸大小也可以保持一致。

为了便于说明，以下以物体定位模型中上分支网络中的其中一对卷积层和注意力层，以及下分支网络中的其中一对卷积层和注意力层作为示例性说明，即前述第一卷积层和第一注意力层，以及第二卷积层和第二注意力层。

需要说明的是，上分支网络中的任意一对卷积层和注意力层均可为前述第一卷积层和第一注意力层。当其为上分支网络中的第一对卷积层和注意力层时，输入第一个卷积层的图像为原始的目标图像。当其为上分支网络中的非第一对卷积层和注意力层时，输入卷积层的图像分别为上一个注意力层所得到结果。例如，在第二对卷积层和注意力层中，输入第二个卷积层的图像为第一个注意力层所得到的图像特征，由于第一注意力层所得到的图像特征的尺寸大小与原始的目标图像一致，因此，输入第二个卷积层的图像也可视为经过处理后的目标图像，并用于输入第三个卷积层中进行后续操作。同理第三对卷积层和注意力层、第四对卷积层和注意力层等等的输入输出也类似上述第二对卷积层和注意力层的输入输出，此处不再赘述。综上所述，上分支网络中的每一对卷积层和注意力均可视为前述第一卷积层和第一注意力层，其中，输入每个第一卷积层的图像为目标图像(为原始的图像或处理后的目标图像)，每个第一注意力层输出的结果为第一目标特征。

基于上述说明，下分支网络中的任意一对卷积层和注意力层均可为前述第二卷积层和第二注意力层，具体说明可参照上述对上分支网络的相关说明部分，此处不再赘述。同样的，下分支网络中的每一对卷积层和注意力均可视为前述第二卷积层和第二注意力层，其中，输入每个第二卷积层的图像为第一图像帧(为原始的第一图像帧或处理后的第一图像帧)，每个第一注意力层输出的结果为第一图像特征。

服务器在得到上分支网络的最后一个注意力层所输出的第一目标特征和下分支网络的最后一个注意力层所输出的第一图像特征后，则通过滤波层对第一目标特征和第一图像特征进行匹配，得到第一定位结果。具体的，滤波层在对第一目标特征和第一图像特征进行匹配的过程(求相关操作)可以为：将第一目标特征视为一个滑动窗口，以该滑动窗口在第一图像特征内部逐步进行移动，滤波层可以根据第一图像特征中的特征点与该窗口中的特征点之间的相似度，生成相关响应热图，相似度越高的点颜色越深，热图中颜色最深的点即为目标图像的中心位置点，因此，根据热图中颜色最深的点即可确定目标图像在第一图像帧中的位置。

应理解，前述物体定位模型基于CIResNet22进行构建仅为示意性说明，CIResNet22还可替代为AlexNet，VGG16，CIResNeXt22等网络模型，因此，CIResNet22并不对本实施例中用于构建物体定位模型的基础网络构成限制。

可选的，基于图1所对应的实施例，本申请实施例中图像定位的方法的一个可选实施例中，通过物体定位模型获取第二待匹配图像对所对应的第二定位结果包括：

通过第二卷积层对第二图像帧的空间参数和通道参数进行卷积处理，得到第四图像特征；

通过第二注意力层对第四图像特征的空间参数和通道参数进行参数整合，得到第二图像特征；

通过滤波层对第一目标特征和第二图像特征进行匹配，得到第二定位结果。

本实施例中，服务器通过物体定位模型获取第二待匹配图像对所对应的第二定位结果的过程与上述通过物体定位模型获取第一待匹配图像对所对应的第一定位结果的过程类似，此处不再赘述。

可选的，基于图1所对应的各个实施例，本申请实施例中图像定位的方法的一个可选实施例中，通过第一注意力层对第二目标特征的空间参数和通道参数进行参数整合，得到第一目标特征包括：

基于第二目标特征的通道参数，对第二目标特征的空间参数进行最大池化，得到第一一维向量；

对第一一维向量进行卷积处理，得到第二一维向量；

对第二目标特征进行卷积处理，使得第二目标特征的通道数量降为1，得到第一二维向量；

对第一二维向量的元素进行重组，得到第三一维向量；

以第二一维向量为列向量，第三一维向量为行向量，构建第一关系矩阵；

对第一关系矩阵的元素进行重组，得到与第二目标特征尺寸相同的第一目标特征。

本实施例中，注意力层可以对卷积层所输出的图像特征进行参数整合，可分为两路进行操作，为了便于理解，以下结合图3对本申请实施例中注意力层的参数整合过程进行介绍。图3为本申请实施例中注意力层的参数整合过程的示意图，请参阅图3，注意力层接收到卷积层输出的图像特征时，该图像特征包含空间参数(例如高H和宽W)和通道参数(例如通道数C)，该图像特征可以表示为图3左侧的正方体(假设H、W、C均为3)。

首先将该图像特征在空间上进行全局平均池化，由于该图像特征包括3×3×3的特征点，对于通道参数而言，每一个通道即对应3×3的特征点，并在每个通道所对应的特征点中取最大值，可得到三个最大值，构成一个一维向量，然后对该一维向量进行卷积操作(通常为至少两次卷积操作)，得到表征通道的一维向量(元素数量为C，即3)。

然后将该图像特征进行降维操作，例如对该图像特征进行卷积操作，使通道数降为1，得到一个3×3的二维向量。再将该二维向量的元素进行重组，例如将每一行的元素头尾相连，或每一列的元素头尾相连等等，得到表征空间的一维向量(元素数量为H×W，即9)。

再以表征通道的一维向量为列向量，以表征空间的一维向量为行向量，进行相乘得到关系矩阵，最后将该关系矩阵的元素进行重组，得到与输入的图像特征尺寸大小相同的新图像特征。

可选的，基于图1所对应的各个实施例，本申请实施例中图像定位的方法的一个可选实施例中，通过第二注意力层对第三图像特征的空间参数和通道参数进行参数整合，得到第一图像特征包括：

基于第三图像特征的通道参数，对第三图像特征的空间参数进行最大池化，得到第四一维向量；

对第四一维向量进行卷积处理，得到第五一维向量；

对第三图像特征进行卷积处理，使得第三图像特征的通道数量降为1，得到第二二维向量；

对第二二维向量的元素进行重组，得到第六一维向量；

以第五一维向量为列向量，第六一维向量为行向量，构建第二关系矩阵；

对第二关系矩阵的元素进行重组，得到与第三图像特征尺寸相同的第一图像特征。

本实施例中，服务器可以通过第二注意力层对第三图像特征的空间参数和通道参数进行参数整合，得到第一图像特征，该过程与上述实施例中，服务器通过第一注意力层对第二目标特征的空间参数和通道参数进行参数整合，得到第一目标特征类似，此处不再赘述。

可选的，基于图1所对应的各个实施例，本申请实施例中图像定位的方法的一个可选实施例中，通过第二注意力层对第四图像特征的空间参数和通道参数进行参数整合，得到第二图像特征包括：

基于第四图像特征的通道参数，对第四图像特征的空间参数进行最大池化，得到第七一维向量；

对第七一维向量进行卷积处理，得到第八一维向量；

对第四图像特征进行卷积处理，使得第四图像特征的通道数量降为1，得到第三二维向量；

对第三二维向量的元素进行重组，得到第九一维向量；

以第七一维向量为列向量，第九一维向量为行向量，构建第三关系矩阵；

对第三关系矩阵的元素进行重组，得到与第四图像特征尺寸相同的第二图像特征。

本实施例中，服务器可以通过第二注意力层对第四图像特征的空间参数和通道参数进行参数整合，得到第二图像特征，该过程与上述实施例中，服务器通过第一注意力层对第二目标特征的空间参数和通道参数进行参数整合，得到第一目标特征类似，此处不再赘述。

可选的，本申请实施例中服务器在调用物体定位模型之前，可以对模型进行训练。具体的，本实施例可以采用训练分类模型的方法，先获取一个已经完成训练的残差模型，如CIResNet22，以该网络为基础，加入注意力层，构建孪生网络的其中一个分支网络。然后对该分支网络进行参数微调，采取端到端训练，采用交叉熵损失表征训练结果与实际结果的差距，该差距采用高斯响应进行表示。训练前，可以在某些数据集上采集用于训练的图像，例如，包含某种动物的图像，然后将图像输入该分支网络中，得到该图像的图像特征后，通过损失函数计算输入输出之间的差距(如动物在图像特征的位置与动物在输入图像中的位置之间的偏移程度)，若不满足预置条件，则继续训练，直至损失函数得到的差距满足预置条件为止，得到训练后的分支网络。

最后将上述训练后的分支网络进行复制，得到另一个相同的分支网络，则得到完成的物体定位模型。

以上是对本申请实施例中图像定位的方法进行的详细说明，以下将从客户端的角度，对本申请实施例中定位结果展示的方法进行介绍，本申请实施例中图像定位的方法的一个实施例包括：

S1：客户端获取待定位视频以及目标图像，其中，所述待定位视频至少包括第一图像帧以及第二图像帧，所述目标图像包括目标物体；

S2：客户端通过物体定位模型获取第一待匹配图像对所对应的第一定位结果，其中，第一待匹配图像对包括第一图像帧以及目标图像，第一图像帧对应于第一图像特征，第一图像特征为基于第一图像帧的空间参数以及通道参数得到的，目标图像对应于第一目标特征，第一目标特征为基于目标图像的空间参数以及通道参数得到的，第一定位结果为基于第一图像特征及第一目标特征得到的；

S3：客户端通过物体定位模型获取第二待匹配图像对所对应的第二定位结果，其中，第二待匹配图像对包括第二图像帧以及目标图像，第二图像帧对应于第二图像特征，第二图像特征为基于第二图像帧的空间参数以及通道参数得到的，第二定位结果为基于第二图像特征及第一目标特征得到的；

S4:客户端根据第一定位结果以及第二定位结果，生成待定位视频所对应的定位信息，其中，定位信息包括多个定位图像，每个定位图像中均包括目标物体；

步骤S1至S4的相关说明可参照图1所对应的实施例中步骤101至104的相关说明，其区别仅在于执行主体由服务器更换为客户端。

S5:客户端展示定位信息。

当客户端得到具有定位信息的待定位视频后，则将待定位视频进行展示，以供用户使用。

基于上述实施例，本申请实施例中图像定位的方法的一个可选实施例中，通过物体定位模型获取第一待匹配图像对所对应的第一定位结果包括：

基于上述实施例，本申请实施例中图像定位的方法的一个可选实施例中，通过物体定位模型获取第二待匹配图像对所对应的第二定位结果包括：

基于上述各个实施例，本申请实施例中图像定位的方法的一个可选实施例中，通过第一注意力层对第二目标特征的空间参数和通道参数进行参数整合，得到第一目标特征包括：

对第一一维向量进行卷积处理，得到第二一维向量；

对第一二维向量的元素进行重组，得到第三一维向量；

基于上述各个实施例，本申请实施例中图像定位的方法的一个可选实施例中，通过第二注意力层对第三图像特征的空间参数和通道参数进行参数整合，得到第一图像特征包括：

对第四一维向量进行卷积处理，得到第五一维向量；

对第二二维向量的元素进行重组，得到第六一维向量；

基于上述各个实施例，本申请实施例中图像定位的方法的一个可选实施例中，通过第二注意力层对第四图像特征的空间参数和通道参数进行参数整合，得到第二图像特征包括：

对第七一维向量进行卷积处理，得到第八一维向量；

对第三二维向量的元素进行重组，得到第九一维向量；

以上是对本申请实施例中定位结果展示的方法进行的详细介绍，以下将对本申请实施例中图像定位的装置的结构和连接关系进行介绍，图4为本申请实施例中图像定位的装置的一个结构示意图，请参阅图4，本申请实施例中图像定位的装置的一个实施例，包括：

第一获取模块401，用于获取待定位视频以及目标图像，其中，待定位视频至少包括第一图像帧以及第二图像帧；

第二获取模块402，用于通过物体定位模型获取第一待匹配图像对所对应的第一定位结果，其中，第一待匹配图像对包括第一图像帧以及目标图像，第一图像帧对应于第一图像特征，第一图像特征为基于第一图像帧的空间参数以及通道参数得到的，目标图像对应于第一目标特征，第一目标特征为基于目标图像的空间参数以及通道参数得到的，第一定位结果为基于第一图像特征及第一目标特征得到的；

第三获取模块403，用于通过物体定位模型获取第二待匹配图像对所对应的第二定位结果，其中，第二待匹配图像对包括第二图像帧以及目标图像，第二图像帧对应于第二图像特征，第二图像特征为基于第二图像帧的空间参数以及通道参数得到的，第二定位结果为基于第二图像特征及第一目标特征得到的；

生成模块404，用于根据第一定位结果以及第二定位结果，生成待定位视频所对应的定位信息。

可选的，基于图4所对应的实施例，本申请实施例中图像定位的装置的一个可选实施例中，第二获取模块402包括：

第一卷积单元，用于通过第一卷积层对目标图像的空间参数和通道参数进行卷积处理，得到第二目标特征；

第一整合单元，用于通过第一注意力层对第二目标特征的空间参数和通道参数进行参数整合，得到第一目标特征；

第二卷积单元，用于通过第二卷积层对第一图像帧的空间参数和通道参数进行卷积处理，得到第三图像特征；

第二整合单元，用于通过第二注意力层对第三图像特征的空间参数和通道参数进行参数整合，得到第一图像特征；

第一匹配单元，用于通过滤波层对第一目标特征和第一图像特征进行匹配，得到第一定位结果。

可选的，基于图4所对应的实施例，本申请实施例中图像定位的装置的一个可选实施例中，第三获取模块403包括：

第三卷积单元，用于通过第一卷积层对目标图像的空间参数和通道参数进行卷积处理，得到第二目标特征；

第三整合单元，用于通过第一注意力层对第二目标特征的空间参数和通道参数进行参数整合，得到第一目标特征；

第四卷积单元，用于通过第二卷积层对第二图像帧的空间参数和通道参数进行卷积处理，得到第四图像特征；

第四整合单元，用于通过第二注意力层对第四图像特征的空间参数和通道参数进行参数整合，得到第二图像特征；

第二匹配单元，用通过滤波层对第一目标特征和第二图像特征进行匹配，得到第二定位结果。

可选的，基于图4所对应的各个实施例，本申请实施例中图像定位的装置的一个可选实施例中，第一整合单元或第三整合单元包括：

第一池化子单元，用于基于第二目标特征的通道参数，对第二目标特征的空间参数进行最大池化，得到第一一维向量；

第一卷积子单元，用于对第一一维向量进行卷积处理，得到第二一维向量；

第二卷积子单元，用于对第二目标特征进行卷积处理，使得第二目标特征的通道数量降为1，得到第一二维向量；

第一重组子单元，用于对第一二维向量的元素进行重组，得到第三一维向量；

第一构建子单元，用于以第二一维向量为列向量，第三一维向量为行向量，构建第一关系矩阵；

第二重组子单元，用于对第一关系矩阵的元素进行重组，得到与第二目标特征尺寸相同的第一目标特征。

可选的，基于图4所对应的各个实施例，本申请实施例中图像定位的装置的一个可选实施例中，第二整合单元包括：

第二池化子单元，用于基于第三图像特征的通道参数，对第三图像特征的空间参数进行最大池化，得到第四一维向量；

第三卷积子单元，用于对第四一维向量进行卷积处理，得到第五一维向量；

第四卷积子单元，用于对第三图像特征进行卷积处理，使得第三图像特征的通道数量降为1，得到第二二维向量；

第三重组子单元，用于对第二二维向量的元素进行重组，得到第六一维向量；

第二构建子单元，用于以第五一维向量为列向量，第六一维向量为行向量，构建第二关系矩阵；

第四重组子单元，用于对第二关系矩阵的元素进行重组，得到与第三图像特征尺寸相同的第一图像特征。

可选的，基于图4所对应的各个实施例，本申请实施例中图像定位的装置的一个可选实施例中，第四整合单元包括：

第三池化子单元，用于基于第四图像特征的通道参数，对第四图像特征的空间参数进行最大池化，得到第七一维向量；

第五卷积子单元，用于对第七一维向量进行卷积处理，得到第八一维向量；

第六卷积子单元，用于对第四图像特征进行卷积处理，使得第四图像特征的通道数量降为1，得到第三二维向量；

第五重组子单元，用于对第三二维向量的元素进行重组，得到第九一维向量；

第三构建子单元，用于以第七一维向量为列向量，第九一维向量为行向量，构建第三关系矩阵；

第六重组子单元，用于对第三关系矩阵的元素进行重组，得到与第四图像特征尺寸相同的第二图像特征。

需要说明的是，上述装置各模块之间的信息交互、执行过程等内容，由于与本申请方法实施例基于同一构思，其带来的技术效果与本申请方法实施例相同，具体内容可参见本申请前述所示的方法实施例中的叙述，此处不再赘述。

图5为本申请实施例中网络设备的一个结构示意图，该网络设备500可因配置或性能不同而产生比较大的差异，可以包括一个或一个以***处理器(central processingunits，CPU)522(例如，一个或一个以上处理器)和存储器532，一个或一个以上存储应用程序542或数据544的存储介质530(例如一个或一个以上海量存储设备)。其中，存储器532和存储介质530可以是短暂存储或持久存储。存储在存储介质530的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对网络设备中的一系列指令操作。更进一步地，中央处理器522可以设置为与存储介质530通信，在网络设备500上执行存储介质530中的一系列指令操作。

网络设备500还可以包括一个或一个以上电源526，一个或一个以上有线或无线网络接口550，一个或一个以上输入输出接口558，和/或，一个或一个以上操作***541，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

上述实施例中由服务器所执行的步骤可以基于该图5所示的网络设备结构。

本申请实施例还提供了一种终端设备，如图6所示，为了便于说明，仅示出了与本申请实施例相关的部分，具体技术细节未揭示的，请参照本申请实施例方法部分。该终端可以为包括手机、平板电脑、个人数字助理(personal digital assistant，PDA)、销售终端(point of sales，POS)、车载电脑等任意终端设备，以终端为手机为例：

图6为本申请实施例中终端设备的一个结构示意图。参考图6，手机包括：射频(radio frequency，RF)电路610、存储器620、输入单元630、显示单元640、传感器650、音频电路660、无线保真(wireless fidelity，WiFi)模块670、处理器680、以及电源690等部件。本领域技术人员可以理解，图6中示出的手机结构并不构成对手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图6对手机的各个构成部件进行具体的介绍：

RF电路610可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，给处理器680处理；另外，将设计上行的数据发送给基站。通常，RF电路610包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(low noiseamplifier，LNA)、双工器等。此外，RF电路610还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯***(globalsystem of mobile communication，GSM)、通用分组无线服务(general packet radioservice，GPRS)、码分多址(code division multiple access，CDMA)、宽带码分多址(wideband code division multiple access,WCDMA)、长期演进(long term evolution，LTE)、电子邮件、短消息服务(short messaging service，SMS)等。

存储器620可用于存储软件程序以及模块，处理器680通过运行存储在存储器620的软件程序以及模块，从而执行手机的各种功能应用以及数据处理。存储器620可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器620可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

输入单元630可用于接收输入的数字或字符信息，以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地，输入单元630可包括触控面板631以及其他输入设备632。触控面板631，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板631上或在触控面板631附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触控面板631可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器680，并能接收处理器680发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板631。除了触控面板631，输入单元630还可以包括其他输入设备632。具体地，其他输入设备632可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元640可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元640可包括显示面板641，可选的，可以采用液晶显示器(liquid crystaldisplay，LCD)、有机发光二极管(organic light-emitting diode，OLED)等形式来配置显示面板641。进一步的，触控面板631可覆盖显示面板641，当触控面板631检测到在其上或附近的触摸操作后，传送给处理器680以确定触摸事件的类型，随后处理器680根据触摸事件的类型在显示面板641上提供相应的视觉输出。虽然在图6中，触控面板631与显示面板641是作为两个独立的部件来实现手机的输入和输入功能，但是在某些实施例中，可以将触控面板631与显示面板641集成而实现手机的输入和输出功能。

手机还可包括至少一种传感器650，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板641的亮度，接近传感器可在手机移动到耳边时，关闭显示面板641和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路660、扬声器661，传声器662可提供用户与手机之间的音频接口。音频电路660可将接收到的音频数据转换后的电信号，传输到扬声器661，由扬声器661转换为声音信号输出；另一方面，传声器662将收集的声音信号转换为电信号，由音频电路660接收后转换为音频数据，再将音频数据输出处理器680处理后，经RF电路610以发送给比如另一手机，或者将音频数据输出至存储器620以便进一步处理。

WiFi属于短距离无线传输技术，手机通过WiFi模块670可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图6示出了WiFi模块670，但是可以理解的是，其并不属于手机的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器680是手机的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器620内的软件程序和/或模块，以及调用存储在存储器620内的数据，执行手机的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器680可包括一个或多个处理单元；可选的，处理器680可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作***、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器680中。

手机还包括给各个部件供电的电源690(比如电池)，可选的，电源可以通过电源管理***与处理器680逻辑相连，从而通过电源管理***实现管理充电、放电、以及功耗管理等功能。

尽管未示出，手机还可以包括摄像头、蓝牙模块等，在此不再赘述。

在本申请实施例中，该终端所包括的处理器680还具有以下功能：

获取待定位视频以及目标图像，其中，待定位视频至少包括第一图像帧以及第二图像帧，目标图像包括目标物体；

通过物体定位模型获取第一待匹配图像对所对应的第一定位结果，其中，第一待匹配图像对包括第一图像帧以及目标图像，第一图像帧对应于第一图像特征，第一图像特征为基于第一图像帧的空间参数以及通道参数得到的，目标图像对应于第一目标特征，第一目标特征为基于目标图像的空间参数以及通道参数得到的，第一定位结果为基于第一图像特征及第一目标特征得到的；

通过物体定位模型获取第二待匹配图像对所对应的第二定位结果，其中，第二待匹配图像对包括第二图像帧以及目标图像，第二图像帧对应于第二图像特征，第二图像特征为基于第二图像帧的空间参数以及通道参数得到的，第二定位结果为基于第二图像特征及第一目标特征得到的；

根据第一定位结果以及第二定位结果，生成待定位视频所对应的定位信息，其中，定位信息包括多个定位图像，每个定位图像中均包括目标物体；

展示定位信息。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的***，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的***，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种图像定位的方法，其特征在于，包括：

2.根据权利要求1所述的图像定位的方法，其特征在于，所述通过物体定位模型获取第一待匹配图像对所对应的第一定位结果包括：

通过第一卷积层对所述目标图像的空间参数和通道参数进行卷积处理，得到第二目标特征；

通过第一注意力层对所述第二目标特征的空间参数和通道参数进行参数整合，得到第一目标特征；

通过第二卷积层对所述第一图像帧的空间参数和通道参数进行卷积处理，得到第三图像特征；

通过第二注意力层对所述第三图像特征的空间参数和通道参数进行参数整合，得到第一图像特征；

通过滤波层对所述第一目标特征和所述第一图像特征进行匹配，得到第一定位结果。

3.根据权利要求1所述的图像定位的方法，其特征在于，所述通过所述物体定位模型获取第二待匹配图像对所对应的第二定位结果包括：

通过第二卷积层对所述第二图像帧的空间参数和通道参数进行卷积处理，得到第四图像特征；

通过第二注意力层对所述第四图像特征的空间参数和通道参数进行参数整合，得到第二图像特征；

通过滤波层对所述第一目标特征和所述第二图像特征进行匹配，得到第二定位结果。

4.根据权利要求2或3所述的图像定位的方法，其特征在于，所述通过第一注意力层对所述第二目标特征的空间参数和通道参数进行参数整合，得到第一目标特征包括：

基于所述第二目标特征的通道参数，对所述第二目标特征的空间参数进行最大池化，得到第一一维向量；

对所述第一一维向量进行卷积处理，得到第二一维向量；

对所述第二目标特征进行卷积处理，使得所述第二目标特征的通道数量降为1，得到第一二维向量；

对所述第一二维向量的元素进行重组，得到第三一维向量；

以所述第二一维向量为列向量，所述第三一维向量为行向量，构建第一关系矩阵；

对所述第一关系矩阵的元素进行重组，得到与所述第二目标特征尺寸相同的第一目标特征。

5.根据权利要求2所述的图像定位的方法，其特征在于，所述通过第二注意力层对所述第三图像特征的空间参数和通道参数进行参数整合，得到第一图像特征包括：

基于所述第三图像特征的通道参数，对所述第三图像特征的空间参数进行最大池化，得到第四一维向量；

对所述第四一维向量进行卷积处理，得到第五一维向量；

对所述第三图像特征进行卷积处理，使得所述第三图像特征的通道数量降为1，得到第二二维向量；

对所述第二二维向量的元素进行重组，得到第六一维向量；

以所述第五一维向量为列向量，所述第六一维向量为行向量，构建第二关系矩阵；

对所述第二关系矩阵的元素进行重组，得到与所述第三图像特征尺寸相同的第一图像特征。

6.根据权利要求3所述的图像定位的方法，其特征在于，所述通过第二注意力层对所述第四图像特征的空间参数和通道参数进行参数整合，得到第二图像特征包括：

基于所述第四图像特征的通道参数，对所述第四图像特征的空间参数进行最大池化，得到第七一维向量；

对所述第七一维向量进行卷积处理，得到第八一维向量；

对所述第四图像特征进行卷积处理，使得所述第四图像特征的通道数量降为1，得到第三二维向量；

对所述第三二维向量的元素进行重组，得到第九一维向量；

以所述第七一维向量为列向量，所述第九一维向量为行向量，构建第三关系矩阵；

对所述第三关系矩阵的元素进行重组，得到与所述第四图像特征尺寸相同的第二图像特征。

7.一种定位结果展示的方法，其特征在于，包括：

展示所述定位信息。

8.一种图像定位的装置，其特征在于，包括：

9.一种网络设备，其特征在于，包括：存储器、收发器、处理器以及总线***；

其中，所述存储器用于存储程序；

所述处理器用于执行所述存储器中的程序，包括如下步骤：

10.一种终端设备，其特征在于，包括：存储器、收发器、处理器以及总线***；

其中，所述存储器用于存储程序；

所述处理器用于执行所述存储器中的程序，包括如下步骤：

展示所述定位信息；