CN112991451A

CN112991451A - 图像识别方法、相关装置及计算机程序产品

Info

Publication number: CN112991451A
Application number: CN202110322600.XA
Authority: CN
Inventors: 邹智康; 叶晓青; 孙昊
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-03-25
Filing date: 2021-03-25
Publication date: 2021-06-18
Anticipated expiration: 2041-03-25
Also published as: CN112991451B

Abstract

本公开提供了图像识别方法、装置、电子设备、计算机可读存储介质及计算机程序产品，涉及计算机视觉、自动驾驶和深度学习技术领域等人工智能技术领域。该方法的一具体实施方式包括：获取二维图像中目标对象的初始关键点，并生成由各非初始关键点指向每个初始关键点的特征向量构成的特征向量集，利用随机采样一致性算法分别对每个初始关键点的特征向量集中的特征向量进行过滤，并根据经过滤后的特征向量集中的特征向量确定目标关键点，最后根据目标关键点生成目标三维外接框，并利用目标外接三维框识别目标对象的参数信息。该实施方式提供了一种基于非关键点对关键点进行优化的技术方案，以在多种场景下提供高质量的目标对象的三维外接框。

Description

图像识别方法、相关装置及计算机程序产品

技术领域

本公开涉及图像处理技术领域，具体涉及计算机视觉、自动驾驶和深度学习技术领域等人工智能技术领域，尤其涉及图像识别方法、装置、电子设备、计算机可读存储介质及计算机程序产品。

背景技术

三维场景的高质量重建是多年来计算机视觉和计算机图像学研究的主要前沿之一，为了更好的实现物体的三维场景重建，需要对其中涉及对象的三维位置信息、对象的长宽高以及对象的朝向角共等多自由度信息进行获取。

现有技术中，多自由度信息通常基于单目三维检测技术获取而来，单目三维检测主要依赖于三维包围框的先验信息，提前遍历数据集生成三维候选框，然后基于神经网络对输入图片进行处理，以得到三维偏移量，并结合上述三维候选框，得到物体的真实三维包围框，从而完成三维检测的工作。

发明内容

本公开实施例提出了一种图像识别方法、装置、电子设备、计算机可读存储介质及计算机程序产品。

第一方面，本公开实施例提出了一种图像识别方法，包括：获取二维图像中目标对象的多个初始关键点，并生成由各非初始关键点分别指向每个该初始关键点的特征向量构成的特征向量集，该非初始关键点为该二维图像中区别于该初始关键点的点；利用随机采样一致性算法分别对每个该初始关键点的特征向量集中的特征向量进行过滤，并根据经过滤后的特征向量集中的特征向量确定目标关键点；根据该目标关键点生成目标三维外接框，并利用该目标外接三维框识别该目标对象的参数信息。

第二方面，本公开实施例提出了一种图像识别装置，包括：特征向量集生成单元，被配置成获取二维图像中目标对象的多个初始关键点，并生成由各非初始关键点分别指向每个该初始关键点的特征向量构成的特征向量集，该非初始关键点为该二维图像中区别于该初始关键点的点；关键点确定单元，被配置成利用随机采样一致性算法分别对每个该初始关键点的特征向量集中的特征向量进行过滤，并根据经过滤后的特征向量集中的特征向量确定目标关键点；参数信息识别单元，被配置成根据该目标关键点生成目标三维外接框，并利用该目标外接三维框识别该目标对象的参数信息。

第三方面，本公开实施例提供了一种电子设备，该电子设备包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，该指令被至少一个处理器执行，以使至少一个处理器执行时能够实现如第一方面中任一实现方式描述的图像识别方法。

第四方面，本公开实施例提供了一种存储有计算机指令的非瞬时计算机可读存储介质，该计算机指令用于使计算机执行时能够实现如第一方面中任一实现方式描述的图像识别方法。

第五方面，本公开实施例提供了一种包括计算机程序的计算机程序产品，该计算机程序在被处理器执行时能够实现如第一方面中任一实现方式描述的图像识别方法。

本公开实施例提供的图像识别方法、装置、电子设备、计算机可读存储介质及计算机程序产品，在获取二维图像中目标对象的多个初始关键点，并生成由各非初始关键点指向每个初始关键点的特征向量构成的特征向量集后，利用随机采样一致性算法分别对每个初始关键点的特征向量集中的特征向量进行过滤，并根据经过滤后的特征向量集中的特征向量确定目标关键点，最后根据目标关键点生成目标三维外接框，并利用目标外接三维框识别目标对象的参数信息。

本公开基于关键点估计技术，进一步利用二维图像中非初始关键点指向初始关键点的向量对初始关键点进行优化、得到相对于初始关键点更为准确的目标关键点，解决因诸如物体遮挡等原因导致的关键点不可见、关键点估计不准确的问题，提高确定到的目标对象的三维外接框的质量，提成三维检测的精度。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本公开的其它特征、目的和优点将会变得更明显：

图1是本公开可以应用于其中的示例性***架构；

图2为本公开实施例提供的一种图像识别方法的流程图；

图3为本公开实施例提供的另一种图像识别方法的流程图；

图4-1、4-2和4-3为本公开实施例提供的在一应用场景下的图像识别方法的效果示意图；

图5为本公开实施例提供的一种图像识别装置的结构框图；

图6为本公开实施例提供的一种适用于执行图像识别方法的电子设备的结构示意图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。需要说明的是，在不冲突的情况下，本公开中的实施例及实施例中的特征可以相互组合。

此外，本公开公开的技术方案中，如目标对象为人体时，此时所涉及的用户个人信息的获取(例如包括人脸、人体信息的二维图像)、存储和应用等，均符合相关法律法规的规定，且不违背公序良俗。

图1示出了可以应用本公开的图像识别方法、装置、电子设备及计算机可读存储介质的实施例的示例性***架构100。

如图1所示，***架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103和服务器105上可以安装有各种用于实现两者之间进行信息通讯的应用，例如图像识别类应用、三维重建类应用、即时通讯类应用等。

终端设备101、102、103和服务器105可以是硬件，也可以是软件。当终端设备101、102、103为硬件时，可以是具有显示屏的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等；当终端设备101、102、103为软件时，可以安装在上述所列举的电子设备中，其可以实现成多个软件或软件模块，也可以实现成单个软件或软件模块，在此不做具体限定。当服务器105为硬件时，可以实现成多个服务器组成的分布式服务器集群，也可以实现成单个服务器；服务器为软件时，可以实现成多个软件或软件模块，也可以实现成单个软件或软件模块，在此不做具体限定。

服务器105通过内置的各种应用可以提供各种服务，以可以提供基于二维图像提取目标对象的三维参数信息的图像识别类应用为例，服务器105在运行该图像识别类应用时可实现如下效果：首先，通过网络104从终端设备101、102、103中获取二维图像中目标对象的多个初始关键点，并生成由各非初始关键点分别指向每个该初始关键点的特征向量构成的特征向量集，该非初始关键点为该二维图像中区别于该初始关键点的点，然后服务器105利用随机采样一致性算法分别对每个该初始关键点的特征向量集中的特征向量进行过滤，并根据经过滤后的特征向量集中的特征向量确定目标关键点，最后，服务器105根据该目标关键点生成目标三维外接框，并利用该目标外接三维框识别该目标对象的参数信息。

需要指出的是，二维图像、初始关键点除可以从终端设备101、102、103通过网络104获取到之外，也可以通过各种方式预先存储在服务器105本地。因此，当服务器105检测到本地已经存储有这些数据时(例如开始处理之前留存的二维图像、初始关键点)，可选择直接从本地获取这些数据，在此种情况下，示例性***架构100也可以不包括终端设备101、102、103和网络104。

由于图像识别方法需要占用较多的运算资源和较强的运算能力，因此本公开后续各实施例所提供的图像识别方法一般由拥有较强运算能力、较多运算资源的服务器105来执行，相应地，图像识别装置一般也设置于服务器105中。但同时也需要指出的是，在终端设备101、102、103也具有满足要求的运算能力和运算资源时，终端设备101、102、103也可以通过其上安装的图像识别类应用完成上述本交由服务器105做的各项运算，进而输出与服务器105同样的结果。尤其是在同时存在多种具有不同运算能力的终端设备的情况下，但图像识别类应用判断所在的终端设备拥有较强的运算能力和剩余较多的运算资源时，可以让终端设备来执行上述运算，从而适当减轻服务器105的运算压力，相应的，图像识别装置也可以设置于终端设备101、102、103中。在此种情况下，示例性***架构100也可以不包括服务器105和网络104。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

请参考图2，图2为本公开实施例提供的一种图像识别方法的流程图，其中流程200包括以下步骤：

步骤201，获取二维图像中目标对象的多个初始关键点，并生成由各非初始关键点分别指向每个初始关键点的特征向量构成的特征向量集。

在本实施例中，由图像识别方法的执行主体(例如图1所示的服务器105)获取二维图像中目标对象的多个初始关键点，其中，初始关键点的确定过程可以首先对二维图像中确定与目标对象相关的像素，在得到目标对象相关的像素后，将用于生成目标对象的初始三维外接框的点作为初始关键点，该初始关键点示例性的可以为目标对象的三维外接框的顶点、目标对象在三维空间中外轮廓对应的三维坐标点和目标对象的中心点等，得到初始关键点后，生成该二维图像中非初始关键点指向初始关键点的特征向量，该非初始关键点为二维图像中区别于初始关键点的点，最后生成由各非初始关键点分别指向每个该初始关键点的特征向量构成的特征向量集。

其中，可以基于诸如基于尺度不变特征变换(Scale-invariant featurestransform，简称Sift)、加速稳健特征(Speeded Up Robust Features，简称Surf)和高斯函数的差分(Difference of Gaussian，简称Dog)等算法构建的关键点特征提取网络确定初始关键点，也可以基于现有的识别算法从二维图像中确定初始关键点，在实践中还可以基于带有人工标注初始关键点的二维图像预先对关键点特征提取网络、识别算法等进行训练，以达到识别初始关键点的目的。

示例性的，初始关键点的位于二维图像中的坐标为p，该二维图像中非初始关键点的坐标为X_i，i的取值范围与二维图像中包含的像素点数量有关(示例性的，二维图像中包含的像素点数量为255个，则i的取值范围为【1，255】)，则特征向量V可定义为

在本公开的一些实施例中，在生成非初始关键点指向初始关键点的特征向量时，可以预先根据所需要的识别精度，在二维图像中基于初始关键点确定合适的非初始关键点选取范围，仅基于该非初始关键点选取范围中包括的非初始关键点生成对应于该初始关键点的特征向量，以提升得到特征向量的运算效率。

应当理解的是，根据生成目标对象的初始三维外接框的方式不同，初始关键点的形式可能有所不同，示例性的，以目标对象的初始三维外接框长方体框时，若目标对象可以从二维图像中完整读取，可以直接将初始关键点确定为该长方体框的8个顶点，若目标对象在二维图像中被障碍物所遮挡，无法从二维图像中完整的读取目标对象时，因需根据目标对象可被读取的部分确定该长方体框的部分顶点，因此还需要目标对象的中心点坐标，以便于根据已知的部分顶点和目标对象的中心点坐标对被遮挡部分对应的长方体框的部分顶点进行求解，在此场景下，初始关键点还可以包括目标对象的中心点。

需要指出的是，二维图像、初始关键点可以由上述执行主体直接从本地的存储设备获取，也可以从非本地的存储设备(例如图1所示的终端设备101、102、103)中获取。本地的存储设备可以是设置在上述执行主体内的一个数据存储模块，例如服务器硬盘，在此种情况下，二维图像、初始关键点可以在本地快速读取到；非本地的存储设备还可以为其它任何被设置用于存储数据的电子设备，例如一些用户终端等，在此情况下，上述执行主体可以通过向该电子设备发送获取命令来获取所需的二维图像、初始关键点。

进一步的，为了提升初始关键点的识别效率，还可以根据预先设定的尺寸参数，以二维图像中包括的目标对象作为中心对二维图像进行裁剪，以减小二维图像的大小，以达到减少非初始关键点、提升后续生成特征向量的效率的目的。

步骤202，利用随机采样一致性算法分别对每个该初始关键点的特征向量集中的特征向量进行过滤，并根据经过滤后的特征向量集中的特征向量确定目标关键点。

在本实施例中，采用随机采样一致性算法对针对相同初始关键点的多个特征向量进行过滤，以剔除针对该初始关键点得到的多个特征向量中的异常特征向量，将过滤后的特征向量中针对同一初始关键点的特征向量进行收集，根据收集后的结果将这些特征向量指向的同一初始关键点确定为目标关键点。

其中，随机采样一致性算法(Random Sample Consensus，简称ransac)，ransac算法的基本假设是样本中包含正确数据(inliers，可以被模型描述的数据)，也包含异常数据(outliers，偏离正常范围很远、无法适应数学模型的数据)，即数据集中含有噪声，并且这些异常数据可能是由于错误的测量、错误的假设、错误的计算等产生的，同时ransac算法也假设，给定一组正确的数据，存在可以计算出符合这些数据的模型参数的方法，通过ransac算法可以对数据中包含的异常数据进行剔除。

在实践中，还可以将指向预设面积内的特征向量确定为针对相同初始关键点的特征向量。

步骤203，根据目标关键点生成目标三维外接框，并利用目标外接三维框识别目标对象的参数信息。

在本实施例中，根据上述步骤202中确定到的目标关键点生成目标三维外接识别框，并利用该目标三维外接识别框对目标对象的参数进行提取，该参数通常可以为目标对象的中心点坐标、目标对象轮廓点的三维坐标和二维图像中目标对象的拍摄旋转角度等，在三维场景重建等应用场景下，通常在确定到目标三维外接识别框后，根据该目标三维识别框的空间坐标来解析该目标对象轮廓点的三维坐标，以完成三维场景中目标对象的重建工作。

本公开实施例提供的图像识别方法，基于关键点估计技术，进一步利用二维图像中非初始关键点指向初始关键点的向量对初始关键点进行优化、得到相对于初始关键点更为准确的目标关键点，解决因诸如物体遮挡等原因导致的关键点不可见、关键点估计不准确的问题，提高确定到的目标对象的三维外接框的质量，提成三维检测的精度。

请参考图3，图3为本公开实施例提供的另一种图像识别方法的流程图，其中流程300包括以下步骤：

步骤301，确定二维图像中可完全包围目标对象的最小矩形框，并将该最小矩形框放大预设倍数得到识别包围框。

在本实施例中，确定二维图像中可完全包围目标对象的最小矩形框，获取该最小矩形框的长、宽长度后，将该最小矩形框的长、宽长度放大预设倍数后，仍以该最小矩形框的中心位置为中心，确定识别包围框。

进一步的，也可以取该最小矩形框的长、宽中的较大值后，对该较大值进行预设倍数的放大，根据放大后的结果确定识别包围框，以该方式确定识别包围框不仅固定了生成识别包围框的时间，还可以避免因包围框确定过小造成数据遗漏。

步骤302，以目标对象为中心，基于该识别包围框的尺寸从该二维图像中提取包含目标对象的目标图像。

在本实施例中，基于上述步骤301中确定的识别包围框，以目标对象的中心为识别包围框的中心，从二维图像中确定图像尺寸与识别包围框尺寸相同的目标图像。

步骤303，利用特征提取网络对目标图像进行处理，确定二维图像中目标对象的多个初始关键点。

在本实施例中，利用诸如基于尺度不变特征变换(Scale-invariant featurestransform，简称Sift)、加速稳健特征(Speeded Up Robust Features，简称Surf)和高斯函数的差分(Difference of Gaussian，简称Dog)等算法构建的特征提取网络，对上述步骤302中确定的目标图像进行处理，以生成二维图像中目标对象的初始关键点。

其中，可以预先根据经人工标注有初始关键点的二维图像作为训练样本对该特征提取网络进行训练，以实现可以利用训练后的特征提取网络对目标图像进行处理，生成二维图像中目标对象的初始关键点的目的。

步骤304，获取二维图像中目标对象的多个初始关键点，并生成由各非初始关键点分别指向每个初始关键点的特征向量构成的特征向量集。

步骤305，利用随机采样一致性算法分别对每个该初始关键点的特征向量集中的特征向量进行过滤，并根据经过滤后的特征向量集中的特征向量确定目标关键点。

步骤306，根据目标关键点生成目标三维外接框，并利用目标外接三维框识别目标对象的参数信息。

以上步骤304-306与如图2所示的步骤201-203一致，相同部分内容请参见上一实施例的相应部分，此处不再进行赘述。

在上述图2所示实施例的基础上，本实施例进一步的对二维图像中包含目标对象的部分进行提取，以便于根据被提取出部分的内容来确定初始关键点，相对于上述图2所示实施例，可以减少确定初始关键点时的运算工作量，以提升图像识别方法的响应速度。

在本实施例的一些可选的实现方式中，在该利用特征提取网络对该目标图像进行处理之前，还包括：根据目标对象的种类信息确定目标对象的初始三维外接框的立体形状；根据生成立体形状所需关键点的数量为该特征提取网络配置参数。

具体的，进一步的在保证确实出的初始关键点的质量的前提下，为了提升确实初始关键点的效率，可以根据目标对象的种类不同，确定与该目标对象更加贴合的初始三维外接框，根据更加贴合的初始三维外接框的顶点数量重新确定需要的初始关键点和/或目标关键点的数量，相应的配置特征提取网络的参数，以便于后续使用经过配置后的特征提取网络可以提取出于上述需要的初始关键点和/或目标关键点的数量相对应的初始关键点和/或目标关键点，不仅可以适应性更强、更加准确的确定目标对象的目标三维外接框，还可以更加合理的利用特征提取网络的运算资源。

示例性的，目标对象的空间形态近似于圆锥时，相应的可以确定该目标对象的三维外接框的立体形状为三棱锥，此时作为初始关键点和/或目标关键点的顶点数量仅需要5个，而非长方体三维外接框所需的8个顶点数量，以减少初始关键点和/或目标关键点的方式节约特征提取网络的运算资源。

在本实施例的一些可选的实现方式中，还包括：比较基于各目标关键点生成的目标三维外接框和基于各初始关键点生成的初始三维外接框之间的差异，生成外接三维框差异信息；根据外接三维框差异信息对该特征提取网络进行参数优化。

具体的，在获取二维图像中目标对象的初始关键点后，可以根据该初始关键点构建对应的目标对象的目标三维外接框，在确定目标关键点后，获取基于目标关键点构建的目标对象的目标三维外接框和上述基于初始关键点构建的初始目标对象的初始三维外接框之间的差异信息，根据该特征差异信息对用于确定初始关键点的特征提取网络进行参数优化，提升该特征提取网络提取出的初始关键点的质量。

在上述任一实施例的基础上，为了实现三维场景重建，三维检测需要获取目标对象中心位于相机坐标系下的坐标，物体的实际长、宽和高，以及目标对象的朝向角，因此该参数信息至少包括以下中的一种：该目标对象的坐标信息、该目标对象的真实尺寸信息和该目标对象朝向角信息，以便于为后续三维场景重建工作直接提取利用价值较高的参数信息，提高三维场景重建工作的效率。

为加深理解，本公开还结合一个具体应用场景，给出了一种具体的实现方案，如图4-1所示的以包含部分被路障所遮挡的汽车为目标对象的二维图像为例，具体过程如下：

第一步，获取二维图像中目标对象的初始关键点，初始关键点包括该汽车的中心点和该汽车的长方体三维外接框的8个顶点，并生成二维图像中除该汽车的中心点和该汽车的长方体三维外接框的8个顶点外的非初始关键点指向初始关键点的特征向量，如图4-2，其中示出了一个被路障所遮挡的初始关键点A以及指向初始关键点A的部分特征向量(由图4-2中的箭头符号表示)。

第二步，利用随机采样一致性算法过滤指向相同初始关键点的特征向量，并根据过滤后的特征向量确定目标关键点，如图4-3所示，目标关键点包括该汽车的中心点I和该汽车的长方体三维外接框的8个顶点A、B、C、D、E、F、G和H。

第三步，利用根据目标关键点生成的三维外接框识别目标对象的参数信息。

进一步参考图5，作为对上述各图所示方法的实现，本公开提供了一种图像识别装置的一个实施例，该装置实施例与图2所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图5所示，本实施例的图像识别装置500可以包括：特征向量集生成单元501、关键点确定单元502、参数信息识别单元503。其中，特征向量生成单元501，被配置成获取二维图像中目标对象的多个初始关键点，并生成由各非初始关键点分别指向每个该初始关键点的特征向量构成的特征向量集，该非初始关键点为该二维图像中区别于该初始关键点的点；关键点确定单元502，被配置成利用随机采样一致性算法分别对每个该初始关键点的特征向量集中的特征向量进行过滤，并根据经过滤后的特征向量集中的特征向量确定目标关键点；参数信息识别单元503，被配置成根据该目标关键点生成目标三维外接框，并利用该目标外接三维框识别该目标对象的参数信息。

在本实施例中，图像识别装置500中：特征向量集生成单元501、关键点确定单元502、参数信息识别单元503的具体处理及其所带来的技术效果可分别参考图2对应实施例中的步骤201-203的相关说明，在此不再赘述。

在本实施例的一些可选的实现方式中，该图像识别装置500还包括：识别包围框确定单元，被配置成确定该二维图像中可完全包围目标对象的最小矩形框，并将该最小矩形框放大预设倍数得到识别包围框；目标图像提取单元，被配置成以该目标对象为中心，基于该识别包围框的尺寸从该二维图像中提取包含该目标对象的目标图像；初始关键点生成单元，被配置成利用特征提取网络对该目标图像进行处理，确定该二维图像中目标对象的多个初始关键点。

在本实施例的一些可选的实现方式中，该图像识别装置500还包括：三维框确定单元，被配置成根据该目标对象的种类信息确定该目标对象的初始三维外接框的立体形状；参数配置单元，被配置成根据生成该立体形状所需关键点的数量为该特征提取网络配置参数。

在本实施例的一些可选的实现方式中，该图像识别装置500还包括：差异信息获取单元，被配置成比较基于各该目标关键点生成的目标三维外接框和基于各该初始关键点生成的初始三维外接框之间的差异，生成外接三维框差异信息；神经网络优化单元，被配置成根据该外接三维框差异信息对该特征提取网络进行参数优化。

在本实施例的一些可选的实现方式中，该图像识别装置500中的参数信息至少包括以下中的一种：该目标对象的坐标信息、该目标对象的真实尺寸信息和该目标对象朝向角信息。

本实施例作为对应于上述方法实施例的装置实施例存在，本实施例提供的图像识别装置基于关键点估计技术，进一步利用二维图像中非初始关键点指向初始关键点的向量对初始关键点进行优化、得到相对于初始关键点更为准确的目标关键点，解决因诸如物体遮挡等原因导致的关键点不可见、关键点估计不准确的问题，提高确定到的目标对象的三维外接框的质量，提成三维检测的精度。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图6示出了可以用来实施本公开的实施例的示例电子设备600的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图6所示，设备600包括计算单元601，其可以根据存储在只读存储器(ROM)602中的计算机程序或者从存储单元608加载到随机访问存储器(RAM)603中的计算机程序，来执行各种适当的动作和处理。在RAM 603中，还可存储设备600操作所需的各种程序和数据。计算单元601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。

设备600中的多个部件连接至I/O接口605，包括：输入单元606，例如键盘、鼠标等；输出单元607，例如各种类型的显示器、扬声器等；存储单元608，例如磁盘、光盘等；以及通信单元609，例如网卡、调制解调器、无线通信收发机等。通信单元609允许设备600通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元601可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元601的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元601执行上文所描述的各个方法和处理，例如图像识别方法。例如，在一些实施例中，图像识别方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元608。在一些实施例中，计算机程序的部分或者全部可以经由ROM 602和/或通信单元609而被载入和/或安装到设备600上。当计算机程序加载到RAM 603并由计算单元601执行时，可以执行上文描述的图像识别方法的一个或多个步骤。备选地，在其他实施例中，计算单元601可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行图像识别方法。

本文中以上描述的***和技术的各种实施方式可以在数字电子电路***、集成电路***、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上***的***(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程***上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储***、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储***、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行***、装置或设备使用或与指令执行***、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体***、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的***和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的***和技术实施在包括后台部件的计算***(例如，作为数据服务器)、或者包括中间件部件的计算***(例如，应用服务器)、或者包括前端部件的计算***(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的***和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算***中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将***的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机***可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决传统物理主机与虚拟专用服务器(VPS，Virtual Private Server)服务中存在的管理难度大，业务扩展性弱的缺陷。服务器也可以分为分布式***的服务器，或者是结合了区块链的服务器。

根据本公开实施例的技术方案，基于关键点估计技术，进一步利用二维图像中非初始关键点指向初始关键点的向量对初始关键点进行优化、得到相对于初始关键点更为准确的目标关键点，解决因诸如物体遮挡等原因导致的关键点不可见、关键点估计不准确的问题，提高确定到的目标对象的三维外接框的质量，提成三维检测的精度。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种图像识别方法，包括：

获取二维图像中目标对象的多个初始关键点，并生成由各非初始关键点分别指向每个所述初始关键点的特征向量构成的特征向量集，所述非初始关键点为所述二维图像中区别于所述初始关键点的点；

利用随机采样一致性算法分别对每个所述初始关键点的特征向量集中的特征向量进行过滤，并根据经过滤后的特征向量集中的特征向量确定目标关键点；

根据所述目标关键点生成目标三维外接框，并利用所述目标外接三维框识别所述目标对象的参数信息。

2.根据权利要求1所述的方法，在所述获取二维图像中目标对象的多个初始关键点之前，包括：

确定所述二维图像中可完全包围目标对象的最小矩形框，并将所述最小矩形框放大预设倍数得到识别包围框；

以所述目标对象为中心，基于所述识别包围框的尺寸从所述二维图像中提取包含所述目标对象的目标图像；

利用特征提取网络对所述目标图像进行处理，确定所述二维图像中目标对象的多个初始关键点。

3.根据权利要求2所述的方法，在所述利用特征提取网络对所述目标图像进行处理之前，还包括：

根据所述目标对象的种类信息确定所述目标对象的初始三维外接框的立体形状；

根据生成所述立体形状所需关键点的数量为所述特征提取网络配置参数。

4.根据权利要求2所述的方法，还包括：

比较基于各所述目标关键点生成的目标三维外接框和基于各所述初始关键点生成的初始三维外接框之间的差异，生成外接三维框差异信息；

根据所述外接三维框差异信息对所述特征提取网络进行参数优化。

5.根据权利要求1-4任一项所述的方法，其中，所述参数信息至少包括以下中的一种：

所述目标对象的坐标信息、所述目标对象的真实尺寸信息和所述目标对象朝向角信息。

6.一种图片识别装置，包括：

特征向量集生成单元，被配置成获取二维图像中目标对象的多个初始关键点，并生成由各非初始关键点分别指向每个所述初始关键点的特征向量构成的特征向量集，所述非初始关键点为所述二维图像中区别于所述初始关键点的点；

关键点确定单元，被配置成利用随机采样一致性算法分别对每个所述初始关键点的特征向量集中的特征向量进行过滤，并根据经过滤后的特征向量集中的特征向量确定目标关键点；

参数信息识别单元，被配置成根据所述目标关键点生成目标三维外接框，并利用所述目标外接三维框识别所述目标对象的参数信息。

7.根据权利要求6所述的装置，还包括：

识别包围框确定单元，被配置成确定所述二维图像中可完全包围目标对象的最小矩形框，并将所述最小矩形框放大预设倍数得到识别包围框；

目标图像提取单元，被配置成以所述目标对象为中心，基于所述识别包围框的尺寸从所述二维图像中提取包含所述目标对象的目标图像；

初始关键点生成单元，被配置成利用特征提取网络对所述目标图像进行处理，确定所述二维图像中目标对象的多个初始关键点。

8.根据权利要求7所述的装置，还包括：

三维框确定单元，被配置成根据所述目标对象的种类信息确定所述目标对象的初始三维外接框的立体形状；

参数配置单元，被配置成根据生成所述立体形状所需关键点的数量为所述特征提取网络配置参数。

9.根据权利要求7所述的装置，还包括：

差异信息获取单元，被配置成比较基于各所述目标关键点生成的目标三维外接框和基于各所述初始关键点生成的初始三维外接框之间的差异，生成外接三维框差异信息；

神经网络优化单元，被配置成根据所述外接三维框差异信息对所述特征提取网络进行参数优化。

10.根据权利要求6-9任一项所述的装置，其中，所述参数信息至少包括以下中的一种：

11.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-5中任一项所述的图像识别方法。

12.一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行权利要求1-5中任一项所述的图像识别方法。

13.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-5中任一项所述的图像识别方法。