CN117809056A

CN117809056A - 一种多模态识别方法、装置及计算机设备

Info

Publication number: CN117809056A
Application number: CN202211180554.5A
Authority: CN
Inventors: 王洪亮
Original assignee: Huawei Cloud Computing Technologies Co Ltd
Current assignee: Huawei Cloud Computing Technologies Co Ltd
Priority date: 2022-09-26
Filing date: 2022-09-26
Publication date: 2024-04-02

Abstract

本申请公开了一种多模态识别方法、装置及计算机设备，应用于机器人技术领域。该方法包括，移动设备通过传感器对目标物体采集第一类型数据，并发送给云端服务器；云端服务器将第一类型数据与训练库中的多模态数据进行匹配，多模态数据至少包括与第一类型数据为不同类型的第二类型数据；若匹配成功，云端服务器根据匹配成功的多模态数据进行物体识别，并将识别结果发送给移动设备。在该方法中，移动设备可以仅配置单个用于物体识别的传感器，虽然单个传感器采集的数据抗干扰性较差，但移动设备可以将采集的数据发送给云端服务器，由云端服务器根据多模态数据进行物体识别，从而在不增加成本的情况下提高移动设备对物体识别的准确性。

Description

一种多模态识别方法、装置及计算机设备

技术领域

本申请涉及机器人技术领域，尤其涉及一种多模态识别方法、装置及计算机设备。

背景技术

目前，机器人广泛应用于工业园区、服务场所等，可以用于提供物流、检测、引导等服务。例如，应用于工业园区的机器人可以提供送货服务，可以提供工况检查服务，还可以在高危环境中代替人员进行作业；应用于酒店、博物馆、医院的机器人，可以为访客、病人提供指路服务、送餐服务、讲解服务等。

机器人提供服务时，大多需要通过各种传感器采集周围的环境信息、对周围存在的物体进行探测、识别。常见的传感器包括摄像头、激光雷达、红外感应器等，可以便于机器人通过这些传感器对周围的物体进行探测、识别，从而确定机器人的运动路线、待识别物体、待抓取物体等。若机器人中仅配置了二维(2D)传感器，则机器人仅能够通过传感器获取到2D图像，进而根据获取的2D图像进行单一模态的物体识别。若机器人搭载了多种传感器，则能够获取到多种模态的数据，从而进行多模态识别的物体识别。例如，机器人可以搭载有摄像头和激光雷达，那么机器人可以通过摄像头采集2D图像，也能够通过激光雷达获取三维(3D)点云数据，并根据2D图像和3D点云数据进行多模态的物体识别。又例如，机器人也可以配置有双目摄像头，通过双目摄像头既能够获取到2D图像又能够通过3D重建技术获取到3D数据，从而进行多模态的物体识别。

当机器人中仅配置少量传感器(如单个传感器)用于物体识别时，由于采集到的数据较少，物体识别精度有限，且容易受外部环境影响。例如，在仅配置摄像头的情况下，不同光照条件、是否存在反光物体(如玻璃)都将对物体识别精度产生较大影响。当机器人中配置有多个传感器、能够进行多模态物体识别时，抗干扰性更强，物体识别的精度更高，但机器人的成本也较高。

发明内容

本申请实施例提供一种多模态识别方法、装置及计算机设备，使得仅配置有少量(甚至单个)传感器的移动设备也能够实现较为精准的物体识别。

第一方面，本申请实施例提供一种多模态识别方法，包括：云端服务器接收移动设备发送的第一类型数据，所述第一类型数据为所述移动终端中的传感器对目标物体进行识别得到的数据；所述云端服务器将所述第一类型数据与训练库中的多模态数据进行匹配，所述多模态数据是预先根据样本数据进行训练得到的，所述样本数据为预先采用至少一种传感器对所述目标物体分别进行识别得到的数据，所述至少一种传感器至少包括获得第二类型数据的传感器，所述第二类型数据与所述第一类型数据的类型不同；若匹配成功，所述云端服务器根据匹配成功的多模态数据，确定对所述目标物体的识别结果，并将所述识别结果发送给所述移动设备；或者，所述云端服务器将匹配成功的多模态数据发送给所述移动设备，以使所述移动设备根据所述多模态数据对所述目标物体进行物体识别。

在本申请实施例提供的多模态识别方法中，移动设备可以仅配置少量(甚至是单个)用于进行物体识别的传感器，虽然少量传感器采集的数据抗干扰性较差，可能无法进行物体识别，但移动设备可以将采集的数据发送给云端服务器，云端服务器可以将接收到的数据与训练库中的多模态数据进行匹配，而服务器端的多模态数据是预先根据样本数据进行训练得到的，且样本数据为预先采用至少一种传感器对所述目标物体分别进行识别得到的数据，然后服务器根据匹配成功的多模态数据确定对目标物体的识别结果，并将识别结果发送给移动设备；或者将匹配成功的多模态数据发送给移动设备，以使移动设备能够根据接收到的多模态数据进行物体识别。因此，上述方法在不增加移动设备成本的情况下，也可以让移动设备基于多种传感器识别得到的样本数据对目标物体执行识别操作，可以提高移动设备的识别能力，从而更加便于移动设备对行进路线的设计、对环境状况的分析预测、对目标物体的抓取等，进而使得移动设备能够广泛应用于工业园区、服务场所为人类提供更好的服务。

在一种可能的实现方式中，所述训练库中包括的不同多模态数据可与移动设备所在的不同位置对应；相应的，所述方法还包括：所述云端服务器获取所述移动设备的位置信息；所述云端服务器根据所述移动设备的位置信息确定所述移动设备所在的区域；相应的，所述云端服务器将所述第一类型数据与训练库中的多模态数据进行匹配，包括：所述云端服务器将所述第一类型数据，与训练库中所述区域对应的多模态数据进行匹配。云端服务器根据移动设备所在的区域，将接收到的第一类型数据与该区域对应的多模态数据进行匹配，而不必与训练库中的全部多模态数据进行匹配，能够提高匹配速度，减少匹配时间，从而有助于提升移动设备的响应速度。

在一种可能的实现方式中，所述第一类型数据可以为图像数据；所述多模态数据还包括第三类型数据，所述第三类型数据为图像数据，所述第三类型数据与所述第二类型数据具有对应关系；相应的，所述云端服务器将所述第一类型数据与训练库中的多模态数据进行匹配，包括：所述云端服务器将所述第一类型数据与所述第三类型数据进行匹配。

相应的，所述云端服务器根据匹配成功的多模态数据，确定对所述目标物体的识别结果，包括：所述云端服务器根据匹配成功的第三类型数据，和匹配成功的第三类型数据对应的第二类型数据，确定对所述目标物体的识别结果；或者，所述云端服务器将训练库中匹配成功的多模态数据发送给所述移动设备，包括：所述云端服务器将所述训练库中匹配成功的第三类型数据对应的第二类型数据发送给所述移动设备。

当多模态数据中包括与第一类型数据为相同类型的第三类型数据时，云端服务器可以将接收到的第一类型数据与第三类型数据进行匹配，从而有助于提高匹配速度，减少匹配时间。进而，云端服务器根据匹配成功的第三类型数据和与其对应的第二类型数据，对目标物体进行识别，有助于保障识别的准确度；或者，云端服务器将与匹配成功的第三类型数据对应的第二类型数据发送给移动设备，使得移动设备能够根据自身采集的第一类型数据和第二类型数据进行物体识别，也有助于提高物体识别的准确度。

在一种可能的实现方式中，所述样本数据包括所述第三类型数据和所述第二类型数据；所述方法还包括：所述云端服务器生成所述第三类型数据与所述第二类型数据的对应关系。云端服务器获取到的样本数据包括第二类型数据和第三类型数据，云端服务器对样本数据进行训练时，还可以建立第二类型数据和第三类型数据之间的对应关系，从而便于后续根据第二类型数据和第三类型数据进行物体识别。

在一种可能的实现方式中，所述样本数据包括所述第二类型数据，所述第二类型数据可以为三维空间数据；相应的，所述方法还包括：所述云端服务器对获取到的第二类型数据进行转换，得到所述第三类型数据。为了进一步降低成本，云端服务器获取的样本数据也可以不包括图像数据，在这种情况下，云端服务器可以对获取到的三维空间数据进行转换，得到图像数据，从而便于在接收到移动设备发送的图像后，接收到的图像与转换得到的图像进行匹配，进而实现目标物体识别。

第二方面，本申请实施例提供一种多模态识别方法，所述方法应用于配置有传感器的移动设备中，所述方法包括：所述移动设备通过所述传感器对目标物体进行识别得到第一类型数据；所述移动设备将所述第一类型数据发送至云端服务器；所述移动设备接收对所述目标物体的识别结果，所述识别结果是所述云端服务器根据与所述第一类型数据匹配的多模态数据确定的；或者，接收所述云端服务器发送的与所述第一类型数据匹配的多模态数据，所述移动设备根据所述多模态数据确定对所述目标物体的识别结果；所述多模态数据是预先根据样本数据进行训练得到的，所述样本数据为预先采用至少一种传感器对所述目标物体分别进行识别得到的数据，所述至少一种传感器至少包括获得第二类型数据的传感器，所述第二类型数据与所述第一类型数据的类型不同。

在一种可能的实现方式中，所述不同多模态数据与移动设备所在的不同位置对应；相应的，所述方法还包括：所述移动设备确定所述移动设备当前的位置信息；所述移动设备将所述移动设备的位置信息发送给所述云端服务器，以使所述云端服务器根据所述位置信息确定与所述第一类型数据匹配的多模态数据。

在一种可能的实现方式中，所述移动设备将所述第一类型数据发送至云端服务器之前，所述移动设备还可以先得出根据所述第一类型数据无法确定所述目标物体的识别结果的结论。在该实现方式中，移动设备若能够自行识别目标物体，则不必与云端服务器进行交互，有助于提高移动设备对目标物体识别的速度；若不能自行识别目标物体，则通过云端服务器进行辅助识别，从而提高物体识别的准确度。

在一种可能的实现方式中，所述移动设备根据所述第一类型数据无法确定所述目标物体的识别结果，包括：所述移动设备根据所述第一类型数据和本地地图无法确定所述目标物体的识别结果，所述本地地图包括不同物体的位置信息与物体信息的对应关系。移动设备中可以维护有本地地图，使得移动设备能够根据移动设备当前的位置以及本地地图，对目标物体进行快速识别。

在一种可能的实现方式中，所述方法还包括：所述移动设备确定所述移动设备当前的位置信息；所述移动设备根据所述识别结果和所述位置信息更新本地地图。移动设备中可以维护有本地地图，并根据识别结果对本地地图进行更新，从而使得本地地图包含的内容更加全面、准确，从而有助于提高后续识别的速度、准确度。

第三方面，本申请实施例提供一种多模态识别装置，所述装置包括执行上述第一方面以及第一方面的任意一种可能实现方式的方法的模块/单元；这些模块/单元可以通过硬件实现，也可以通过硬件执行相应的软件实现。

示例性的，该多模态识别装置可以包括：收发模块，用于接收移动设备发送的第一类型数据，所述第一类型数据为所述移动终端中的传感器对目标物体进行识别得到的数据；处理模块，用于将所述第一类型数据与训练库中的多模态数据进行匹配，所述多模态数据是预先根据样本数据进行训练得到的，所述样本数据为预先采用至少一种传感器对所述目标物体分别进行识别得到的数据，所述至少一种传感器至少包括获得第二类型数据的传感器，所述第二类型数据与所述第一类型数据的类型不同；处理模块还用于：若匹配成功，根据匹配成功的多模态数据，确定对所述目标物体的识别结果；所述收发模块还用于：并将所述识别结果发送给所述移动设备；或者，若匹配成功，所述收发模块用于：将匹配成功的多模态数据发送给所述移动设备，以使所述移动设备根据所述多模态数据对所述目标物体进行物体识别。

第四方面，本申请实施例提供一种多模态识别装置，所述装置包括执行上述第二方面以及第二方面的任意一种可能实现方式的方法的模块/单元；这些模块/单元可以通过硬件实现，也可以通过硬件执行相应的软件实现。

示例性的，该多模态识别装置可以包括：处理模块，用于通过所述传感器对目标物体进行识别得到第一类型数据；收发模块，用于将所述第一类型数据发送至云端服务器；所述收发模块还用于：接收对所述目标物体的识别结果，所述识别结果是所述云端服务器根据与所述第一类型数据匹配的多模态数据确定的；或者，所述收发模块还用于：接收所述云端服务器发送的与所述第一类型数据匹配的多模态数据；所述处理模块还用于：根据所述多模态数据确定对所述目标物体的识别结果；所述多模态数据是预先根据样本数据进行训练得到的，所述样本数据为预先采用至少一种传感器对所述目标物体分别进行识别得到的数据，所述至少一种传感器至少包括获得第二类型数据的传感器，所述第二类型数据与所述第一类型数据的类型不同。

第五方面，本申请实施例提供一种计算机设备，所述计算机设备包括处理器和通信接口，所述处理器可以与存储器耦合；所述通信接口，用于与其他设备进行通信；所述处理器，用于运行所述存储器内的指令或程序，通过所述通信接口执行如上述第一方面及第一方面任一实现方式所述的方法，或者执行如上述第二方面及第二方面任一实现方式所述的方法。

第六方面，本申请实施例提供一种计算机设备，所述计算机设备包括处理器；所述处理器用于调用存储器中存储的计算机程序，以执行如上述第一方面及第一方面任一实现方式所述的方法，或者执行如上述第二方面及第二方面任一实现方式所述的方法。可选的，所述处理器和所述存储器可以均位于所述计算机设备中。可选的，所述存储器也可以位于所述计算机设备外部。只要所述处理器和所述存储器存在耦合或者能够进行信息传输即可。

第七方面，本申请实施例提供一种计算设备集群，包括至少一个计算设备，每个计算设备包括处理器和存储器；所述至少一个计算设备的处理器用于执行所述至少一个计算设备的存储器中存储的指令，以使得所述计算设备集群执行如第一方面及第一方面任一项所述的方法，或者执行如上述第二方面及第二方面任一实现方式所述的方法。

第八方面，本申请实施例提供一种包含指令的计算机程序产品，当所述指令被计算设备或计算机设备集群运行时，使得计算设备或计算机设备集群执行如第一方面及第一方面任一项所述的方法，或者执行如第二方面及第二方面任一项所述的方法。

上述第二方面至第八方面中任一方面中的任一可能实现方式可以实现的技术效果，请参照上述第一方面中相应实现方案可以达到的技术效果说明，重复之处不予论述。

附图说明

图1为本申请实施例提供的多模态识别方法的应用场景示意图；

图2为本申请实施例提供的一种多模态识别方法的流程示意图；

图3为本申请实施例提供的另一种多模态识别方法的流程示意图；

图4为本申请实施例提供的又一种多模态识别方法的流程示意图；

图5为本申请实施例提供的区域划分示意图；

图6为本申请实施例提供的多模态识别装置结构示意图；

图7为本申请实施例提供的计算机设备结构示意图。

具体实施方式

仅配置单一传感器的机器人在进行物体识别时，容易受外部环境影响，物体识别精度有限。例如，机器人仅配置图像传感器，光线过强、光线过暗，或者存在玻璃等反光性较好的物体时，都会对成像质量产生较大影响，那么机器人难以根据采集到的图像进行准确的物体识别。为机器人配置多种类型传感器，通过多种类型传感器获取到多种模态的数据进行物体识别，能够显著提高抗干扰性，增加物体识别的精度，但机器人的成本也显著增加，不利于大规模生产、应用。

有鉴于此，本申请实施例提供一种多模态识别方法，使得仅配置有图像传感器或其他传感器等一种或较少传感器的机器人也能够基于多模态数据进行物体识别，从而在不增加机器人成本的情况下提高物体识别精度，从而使得机器人能够更加顺利的提供服务。当然除了机器人之外，其他通信设备或计算设备也可以应用本申请提出的方案，本申请对此不做限定，下述以移动设备为例进行介绍。

本申请实施例提供的多模态识别方法可以应用于如图1所示的场景中。在图1所示的场景中，云端服务器预先配置有一个或多个地图上的多模态数据，例如图像数据、三维点云数据、红外传感数据、语义数据等，从而可以为多个移动设备提供多模态数据服务。而多个移动设备可以是属于同一地图中的移动设备，也可以是属于不同地图中的移动设备。例如，移动设备1和移动设备2位于工业园区A，移动设备3和移动设备4位于工业园区B；若云端服务器中配置有工业园区A的多模态数据，那么云端服务器可以为移动设备1和移动设备2提供多模态数据服务；若云端服务器中既配置有工业园区A的多模态数据，又配置有工业园区B的多模态数据，那么云端服务器可以为移动设备1、移动设备2、移动设备3和移动设备4提供多模态数据服务。

为了降低移动设备成本，图1中所示的移动设备可以仅配置有单一传感器，如图像传感器；或者，为了进一步满足移动设备的性能需求，也可以设置有多种传感器，但是，移动设备配置的多种传感器所能够采集的数据，也可能没有覆盖云端服务器配置的多模态数据中全部类型的数据。例如，云端服务器配置的多模态数据包括图像数据、三维点云数据、红外传感数据，移动设备配置的多种传感器可以采集图像数据和红外传感数据，但无法采集到三维点云数据，那么通过本申请技术方案后，云端服务器就可以为移动设备提供三维点云数据，从而让移动设备获取到更全面的多模态数据。

参见图2，为本申请实施例提供的多模态识别方法的流程示意图，该方法可以应用于图1所示的***中，如图2所示，该方法可以包括以下步骤：

步骤201、移动设备通过传感器对目标物体进行识别得到第一类型数据。移动设备可以为配置有能够进行数据采集的一种或几种传感器、且能够进行位置移动的设备，例如可以为机器人，自动驾驶的汽车等。

上述目标物体可以为出现在传感器探测范围内的任意物体，如其他移动设备、人、墙体、待拾取物体、各种类型障碍物等等。

本申请实施例涉及的传感器为能够采集用于物体识别的数据的传感器，如图像传感器、激光雷达、红外传感器等。相应的，第一类型数据为能够用于对目标物体进行识别的数据，如图像数据、三维点云数据、红外传感数据等中的一种类型数据。可选的，上述第一类型数据，可以是通过传感器直接采集到的数据，或者，也可以是对传感器采集到的数据进行处理后的数据。

为了控制移动设备的成本，移动设备上可能仅配置有少量能够采集用于进行物体识别的数据的传感器，甚至可能只配置单个能够采集用于进行物体识别的数据的传感器。由于图像传感器的成本相对较低，因此，在一些实施例中，上述传感器可以包括图像传感器，那么上述第一类型数据则可以包括图像数据。图像传感器可以用于采集二维图像数据，如各种类型的摄像头。又或者，移动设备配置的图像传感器不仅可以采集二维图像，还可以基于二维图像数据生成三维数据，如双目摄像头等，那么上述第一类型数据也可以包括三维数据。

步骤202、移动设备将第一类型数据发送至云端服务器。

在一种可能的实现方式中，移动设备在采集到第一类型数据后，可以先根据采集的第一类型数据进行物体识别，若能够识别出图目标物体，则无需将采集第一类型数据发送至云端服务器；若移动设备无法根据采集的第一类型数据识别出目标物体，那么移动设备可以将第一类型数据发送至云端服务器，以实现通过云端服务器进行辅助识别。例如，当环境光线过强或过暗导致成像质量不佳，移动设备无法根据采集的图像数据进行物体识别，此时，移动设备可以将图像数据发送至云端服务器；当环境光线正常，移动设备采集到的图像数据较为清晰，能够准确识别出目标物体，那么移动设备可以不必通过云端服务器进行辅助识别。

在该实现方式中，移动设备若能够自行识别目标物体，则不必与云端服务器进行交互，有助于提高移动设备对目标物体识别的速度，若不能自行识别目标物体，则再通过与云端服务器进行交互，通过云端服务器进行辅助识别，从而提高物体识别的准确度。

在另一种可能的实现方式中，移动设备在采集到第一类型数据后，可以不必先根据采集的第一类型数据进行物体识别，而是直接将第一类型数据发送给云端服务器，以实现通过云端服务器进行辅助识别。在该实现方式中，不论采集的第一类型数据质量如何，均先发送至云端服务器，以实现通过云端服务器进行辅助识别，从而提高物体识别的准确度，避免在采集的第一类型数据质量不佳(如图像的成像效果较差)时移动设备仅根据单一的数据可能会识别错误的情况发生。

步骤203、云端服务器将第一类型数据与训练库中的多模态数据进行匹配，其中，多模态数据可以是预先根据样本数据进行训练得到的。样本数据为预先采用至少一种传感器采集的数据，其中，至少一种传感器至少包括能够获得第二类型数据的传感器，第二类型数据与第一类型数据的类型不同。

具体的，预先通过一种或多种传感器在地图中的各个位置进行数据采集，云端服务器获取采集到的数据，并对其进行训练，从而得到该地图的多模态数据。例如，若目标地图为工业园区地图，那么在训练多模态数据时，可以通过摄像头和激光雷达对工业园区中的各个位置进行数据采集，从而获取到工业园区的图像数据和三维点云数据，云端服务器对图像数据和三维点云数据进行训练，从而得到工业园区的多模态数据，以便于与移动设备在该工业园区内任一位置采集的图像数据进行匹配。

多模态数据至少包括与第一类型数据为不同类型的第二类型数据，多模态数据还可以包括更多种与第一类型数据为不同类型的数据。此外，多模态数据还可以包括与第一类型数据为相同类型的第三类型数据。例如，第一类型数据为通过图像传感器采集的图像数据；多模态数据可以包括通过图像传感器采集的图像数据(第三类型数据)、通过激光雷达采集的三维点云数据、通过红外传感器采集的红外传感数据、通过位姿传感器采集的位姿数据等；其中，三维点云数据、红外传感数据、位姿数据中的任一种数据均可以作为上述第二类型数据。

当多模态数据包含有多种类型的数据时，不同类型的数据之间存在对应关系，该对应关系可以由云端服务器在训练时建立。例如，云端服务器在获取到各种类型的数据后，可以根据每种数据分别进行物体识别，若识别出图像A中包含有物体1，三维点云数据B为对物体1扫描后得到的数据，那么云端服务器可以建立图像A与三维点云数据B之间的对应关系。

云端服务器在将接收到的第一类型数据与训练库中的多模态数据进行匹配时，若多模态数据中包括与第一类型数据为相同类型的第三类型数据时，云端服务器可以将第一类型数据与第三类型数据进行匹配，在确定出匹配的第三类型数据后，可以根据第三类型数据与第二类型数据的对应关系，或者多模态数据中的其他类型数据之间的对应关系，确定出与第一类型数据相匹配的多模态数据。

以第一类型数据为图像数据，多模态数据包括图像数据和三维点云数据为例，对匹配过程进行举例说明。云端服务器接收移动设备发送的图像A，云端服务器将图像A与多模态数据中的图像进行匹配，确定与多模态数据中的图像A’包含的目标物体相似度达到预设值，则认为移动设备发送的图像A与多模态数据中的图像A’匹配成功；然后云端服务器根据图像与三维点云数据之间的对应关系，确定图像A’与三维点云数据A’对应，则确定移动设备发送的图像A与多模态数据中的图像A’、三维点云数据A’相匹配。

应当理解，上述匹配过程仅为举例，还可以采用其他的匹配规则进行匹配，例如，当云端设备发送的图像A与多模态数据中的图像A’在图片整体构图、包含的物体相似度达到预设值，则认为图像A与图像A’匹配成功。

可选的，多模态数据中的图像数据，可以是云端服务器从外部设备获取的，也可以云端服务器生成的。例如，用于多模态数据采集的移动设备配置有图像传感器和激光雷达，可以采集图像和三维点云数据，并将采集的图像和三维点云数据发送给云端服务器，云端服务器对获取到的图像和三维点云数据建立对应关系。又例如，用于多模态数据采集的移动设备配置有激光雷达，可以采集三维点云数据，并将采集的三维点云数据发送给云端服务器，云端服务器将获取到的三维点云数据转换为二维图像数据，并得到二维图像数据与三维点云数据之间的对应关系，使得云端服务器训练库中存储的多模态数据既包括图像又包括三维点云数据。

或者，云端服务器配置的多模态数据包括三维点云数据，不包括图像数据，那么云端服务器可以在接收到移动设备发送的图像数据后，再将多模态数据中的三维点云数据转换为二维图像数据，从而与接收到的图像进行匹配。

在步骤203之后，云端服务器可以执行步骤204a和步骤205a；或者，云端服务器和移动设备也可以执行步骤204b和步骤205b。也就是说步骤204a和步骤205a构成第一种目标物体识别方式，步骤204b和步骤205b构成第二种目标物体识别方式。下述将分别进行详细阐述。

第一种目标物体识别方式：

步骤204a、若匹配成功，云端服务器根据匹配成功的多模态数据，确定对目标物体的识别结果。在匹配成功之后，云端服务器可以根据匹配成功的多模态数据，对目标物体进行识别。例如，多模态数据包括图像和三维点云数据，图像1与三维点云数据1存在对应关系，图像2与三维点云数据2存在对应关系，…；云端服务器接收到移动设备发送的图像1’后，将图像1’与训练库中的图像1、图像2、…进行匹配，若匹配结果为图像1’与图像1匹配，那么云端服务器可以根据图像1、三维点云数据1进行目标物体识别，最终得到识别结果。

步骤205a、云端服务器将识别结果发送给移动设备。其中，识别结果可以为语义信息。例如，若识别结果为桌子，那么云端服务器可以将桌子的语义信息发送给移动设备。或者，识别结果也可以是其他类型的数据，例如物体类型的标识，物体的长、宽、高等。

在步骤204a、步骤205a的方案中，云端服务器进行物体识别的过程，并将识别结果发送给机器人，能够减少移动设备需要执行的步骤，减少移动设备的运算量，进一步降低对移动设备的硬件配置需求，更有助于控制移动设备的成本，使得移动设备能够得到大规模应用。

第二种目标物体识别方式：

步骤204b、若匹配成功，云端服务器将训练库中匹配成功的多模态数据发送给移动设备。如前所述，云端服务器训练库中配置的多模态数据可以包括多种类型的数据，且多种类型数据之间存在对应关系。在这种情况下，若匹配成功，则云端服务器可以将与第一类型数据匹配成功的多模态数据都发送给移动设备。

例如，云端服务器的训练库中，图像1与三维点云数据1、红外传感数据1存在对应关系，图像2与三维点云数据2、红外传感数据2存在对应关系，…；云端服务器接收到移动设备发送的图像1’后，将图像1’与训练库中的图像1、图像2、…进行匹配，若匹配结果为图像1’与图像1匹配，那么云端服务器可以将图像1、三维点云数据1、红外传感数据1都发送给机器人，或者，也可以向机器人发送与图像1对应的三维点云数据1和红外传感数据1，而不发送图像1。

又例如，云端服务器训练库中的多模态数据包括三维点云数据和红外传感数据，不包括图像数据，且三维点云数据1与红外传感数据1存在对应关系，三维点云数据2与红外传感数据2存在对应关系，…；云端服务器将三维点云数据1转换为二维图像数据1，将三维点云数据2转换为二维图像数据2，…；云端服务器接收到移动设备发送的图像1’后，将图像1’与二维图像数据1、二维图像数据2…进行匹配，若匹配结果为图像1’与二维图像数据1匹配，那么云端服务器可以将三维点云数据1以及红外传感数据1发送给机器人。

若云端服务器训练库中的多模态数据仅包括一种类型的数据，那么云端服务器在匹配成功后，将匹配成功的数据发送给移动设备即可。

步骤205b、移动设备根据接收到的多模态数据确定对目标物体的识别结果。

移动设备在接收到云端服务器发送的多模态数据后，可以根据采集的第一类型数据以及接收到的多模态数据信息物体识别。例如，移动设备可以根据自身采集的图像和云端服务器发送的三维点云数据以及其他类型数据，识别出图像中包含的物体为机床；进一步的，还可以确定机床的长、宽、高等信息。

为了进一步提高移动设备的识别速度，移动设备也可以根据识别结果(包括移动设备接收云端服务器发送的识别结果和移动设备自行得到的识别结果)，以及移动设备的位置信息生成或更新本地地图，从而便于后续的识别过程。例如，在图3所示的实施例中，移动设备采集到图像以及自身的位置信息，然后将采集的图像发送至云端服务器，由云端服务器将接收到的图像与多模态数据进行匹配并进行物体识别，然后将识别结果发送给移动设备；移动设备可以根据自身采集的位置信息和识别结果生成本地地图或更新已有的本地地图，使得移动设备后续再次移动到该位置时，能够根据生成的地图对采集图像中包含的物体进行快速识别。

在一个具体实施例中，移动设备在根据接收到识别结果之后，可以根据识别结果生成相应的语义信息。例如，若识别结果标识采集的图像中包含桌子，那么移动设备可以生成语义信息“桌子”，并将该语义信息与图像、以及图像中桌子位置进行关联，即可得到包含语义信息的本地地图。那么移动设备可以在每次生成语义信息之后，将新生成的语义信息更新至包含语义信息的本地地图中。

而生成的本地地图还可以帮助移动设备进行物体识别。例如，在图4所示的具体实施例中，机器人通过图像传感器采集图像，通过位姿传感器采集机器人的位姿(位置和姿态)。然后机器人根据本地地图对采集图像中的物体进行识别，具体的，可以根据采集的位姿确定本地地图中相应位置是否存在已关联的物体，若存在，则将采集的图像与该位置关联的图像进行匹配，匹配成功则认为采集的图像中的物体为该位置关联的物体，得到该物体的语义信息，确定识别结果。若匹配失败，即机器人根据本地地图无法识别出采集的图像中的物体，那么机器人可以将采集的图像发送至云端服务器。云端服务器已经预先经过训练获得了多模态数据，该多模态数据包括图像和与图像具有对应关系的三维点云数据。云端服务器将接收到的图像与多模态数据中的图像进行匹配，若匹配成功，则根据匹配成功的多模态数据进行识别，并将识别结果发送给机器人。机器人根据接收到识别结果生成语义信息，将语义信息、位置信息更新至语义地图中，便于后续识别。

在一种可能的实现方式中，云端服务器训练库中的多模态数据还对应有区域信息，表示该多模态数据是在地图中的哪个区域采集的。那么云端服务器还可以获取移动设备的位置信息，并根据移动设备的位置信息确定移动设备位于地图中的哪个区域。云端服务器在将接收到的第一类型数据与训练库中的多模态数据进行匹配时，即执行上述步骤203时，可以根据移动设备所在的区域，将接收到的第一类型数据与该区域对应的多模态数据进行匹配，从而提高匹配速度，减少匹配时间，从而有助于提升移动设备的响应速度。

例如，在训练过程中，云端服务器在获取到图像和三维点云数据后，还可以生成二维栅格地图，并对二维栅格地图进行区域划分，如图5所示，将二维栅格地图划分为区域1、区域2、…、区域13，并标记图像和三维点云数据对应的区域，从而便于后续根据区域进行匹配的过程。

在本申请实施例提供的多模态识别方法中，移动设备可以仅配置少量(甚至单个)用于进行物体识别的传感器，虽然少量传感器采集的数据较少，抗干扰性较差，可能无法进行物体识别，但移动设备可以将采集的数据发送给云端服务器，云端服务器可以将接收到的数据与训练库中的多模态数据进行匹配，然后根据匹配成功的多模态数据确定对目标物体的识别结果，并将识别结果发送给移动设备；或者将匹配成功的多模态数据发送给移动设备，以使移动设备能够根据接收到的多模态数据进行物体识别，提高移动设备对物体识别的准确性。因此，上述方法在不增加移动设备成本的情况下，提高了移动设备的识别能力，从而更加便于移动设备对行进路线的设计、对环境状况的分析预测、对目标物体的抓取等，进而使得移动设备能够广泛应用于工业园区、服务场所为人类提供更好的服务。

基于相同的技术构思，本申请实施例还提供一种多模态识别装置，用于实现上述方法实施例。图6为根据本申请实施例提供的一种多模态识别装置的结构示意图，如图所示，该装置可以包括：处理模块601和收发模块602。

其中，处理模块601用于实现多模态识别装置对数据的处理。收发模块602用于接收、发送通信装置与其他装置/设备的交互内容。应理解，本申请实施例中的处理模块601可以由处理器或处理器相关电路组件(或者，称为处理电路)实现，收发模块602可以由接收/发送器或接收/发送器相关电路组件实现。

该多模态识别装置可以是上述方法实施例中的云端服务器。当该装置为云端服务器时，收发模块602，用于接收移动设备发送的第一类型数据，所述第一类型数据为所述移动终端中的传感器对目标物体进行识别得到的数据；处理模块601，用于将所述第一类型数据与训练库中的多模态数据进行匹配，所述多模态数据是预先根据样本数据进行训练得到的，所述样本数据为预先采用至少一种传感器对所述目标物体分别进行识别得到的数据，所述至少一种传感器至少包括获得第二类型数据的传感器，所述第二类型数据与所述第一类型数据的类型不同。处理模块601还用于：若匹配成功，根据匹配成功的多模态数据，确定对所述目标物体的识别结果；所述收发模块602还用于：并将所述识别结果发送给所述移动设备；或者，若匹配成功，所述收发模块602用于：将匹配成功的多模态数据发送给所述移动设备，以使所述移动设备根据所述多模态数据对所述目标物体进行物体识别。

在一种可能的实现方式中，所述训练库中包括的不同多模态数据与移动设备所在的不同位置对应；所述处理模块601还用于：获取所述移动设备的位置信息；根据所述移动设备的位置信息确定所述移动设备所在的区域；所述处理模块601在将所述第一类型数据与训练库中的多模态数据进行匹配时，具体用于：将所述第一类型数据，与训练库中所述区域对应的多模态数据进行匹配。

在一种可能的实现方式中，所述第一类型数据为图像数据；所述多模态数据还包括第三类型数据，所述第三类型数据为图像数据，所述第三类型数据与所述第二类型数据具有对应关系；所述处理模块601在将所述第一类型数据与训练库中的多模态数据进行匹配时，具体用于：将所述第一类型数据与所述第三类型数据进行匹配；所述处理模块601在根据匹配成功的多模态数据，确定对所述目标物体的识别结果时，具体用于：根据匹配成功的第三类型数据，和匹配成功的第三类型数据对应的第二类型数据，确定对所述目标物体的识别结果；或者，所述收发模块602在将训练库中匹配成功的多模态数据发送给所述移动设备时，具体用于：将所述训练库中匹配成功的第三类型数据对应的第二类型数据发送给所述移动设备。

在一种可能的实现方式中，所述样本数据包括所述第三类型数据和所述第二类型数据；所述处理模块601还用于：生成所述第三类型数据与所述第二类型数据的对应关系。

在一种可能的实现方式中，所述样本数据包括所述第二类型数据，所述第二类型数据为三维空间数据；所述处理模块601还用于：对获取到的第二类型数据进行转换，得到所述第三类型数据。

该多模态识别装置还可以是上述方法实施例中的移动设备。当该装置为移动设备时，处理模块601，用于通过所述传感器对目标物体进行识别得到第一类型数据；收发模块602，用于将所述第一类型数据发送至云端服务器。所述收发模块602还用于：接收对所述目标物体的识别结果，所述识别结果是所述云端服务器根据与所述第一类型数据匹配的多模态数据确定的；或者，所述收发模块602还用于：接收所述云端服务器发送的与所述第一类型数据匹配的多模态数据，所述处理模块601还用于：根据所述多模态数据确定对所述目标物体的识别结果。所述多模态数据是预先根据样本数据进行训练得到的，所述样本数据为预先采用至少一种传感器对所述目标物体分别进行识别得到的数据，所述至少一种传感器至少包括获得第二类型数据的传感器，所述第二类型数据与所述第一类型数据的类型不同。

在一种可能的实现方式中，所述不同多模态数据与移动设备所在的不同位置对应；所述处理模块601还用于：确定所述移动设备当前的位置信息；所述收发模块602还用于：将所述移动设备的位置信息发送给所述云端服务器，以使所述云端服务器根据所述位置信息确定与所述第一类型数据匹配的多模态数据。

在一种可能的实现方式中，在所述收发模块602在将所述第一类型数据发送至云端服务器之前，所述处理模块601还用于：在所述处理模块601根据所述第一类型数据无法确定所述目标物体的识别结果。

在一种可能的实现方式中，所述处理模块601在根据所述第一类型数据无法确定所述目标物体的识别结果时，具体用于：根据所述第一类型数据和本地地图无法确定所述目标物体的识别结果，所述本地地图包括不同物体的位置信息与物体信息的对应关系。

在一种可能的实现方式中，所述处理模块601还用于：确定所述移动设备当前的位置信息；根据所述识别结果和所述位置信息更新本地地图，所述本地地图包括不同物体的位置信息与物体信息的对应关系。

基于相同的技术构思，本申请实施例还提供一种计算机设备，用于实现上述方法实施例。图7为根据本申请实施例提供的计算机设备的结构示意图，如图所示，该计算机设备包括：处理器701、存储器702和通信接口703，进一步的，还可以包括通信总线704。

处理器701可以是通用处理器，微处理器，特定集成电路(application specificintegrated circuit，ASIC)，现场可编程门阵列(field programmable gate array，FPGA)或者其他可编程逻辑器件，分立门或者晶体管逻辑器件，或一个或多个用于控制本申请方案程序执行的集成电路等。通用处理器可以是微处理器或者任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

存储器702，用于存储程序指令和/或数据，以使处理器701调用存储器702中存储的指令和/或数据，实现处理器701的上述功能。存储器702可以是只读存储器(read-onlymemory，ROM)或可存储静态信息和指令的其他类型的静态存储设备，随机存取存储器(random access memory，RAM)或者可存储信息和指令的其他类型的动态存储设备，也可以是电可擦可编程只读存储器(electrically erasable programmable read-only memory，EEPROM)或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。存储器702可以是独立存在，例如片外存储器，通过通信总线704与处理器701相连接。存储器702也可以和处理器701集成在一起。存储702可以包括内存储器和外存储器(如硬盘等)。

通信接口703，用于与其他设备通信，如PCI总线接口、网卡，无线接入网(radioaccess network，RAN)，无线局域网(wireless local area networks，WLAN)等。

通信总线704可包括一通路，用于在上述组件之间传送信息。

示例性的，该计算机设备可以为上述方法实施例中的云端服务器，也可以是上述方法实施例中的移动设备。

当该计算机设备为云端服务器时，处理器701可以调用存储器702中的指令，通过通信接口703执行以下步骤：接收移动设备发送的第一类型数据，所述第一类型数据为所述移动终端中的传感器对目标物体进行识别得到的数据；将所述第一类型数据与训练库中的多模态数据进行匹配，所述多模态数据是预先根据样本数据进行训练得到的，所述样本数据为预先采用至少一种传感器对所述目标物体分别进行识别得到的数据，所述至少一种传感器至少包括获得第二类型数据的传感器，所述第二类型数据与所述第一类型数据的类型不同；若匹配成功，根据匹配成功的多模态数据，确定对所述目标物体的识别结果，并将所述识别结果发送给所述移动设备；或者，将匹配成功的多模态数据发送给所述移动设备，以使所述移动设备根据所述多模态数据对所述目标物体进行物体识别。

此外，上述各个部件还可以用于支持上述方法实施例中的云端服务器所执行的其它过程。有益效果可参考前面的描述，此处不再赘述。

当该计算机设备为移动设备时，处理器701可以调用存储器702中的指令，通过通信接口703执行以下步骤：通过传感器对目标物体进行识别得到第一类型数据；将所述第一类型数据发送至云端服务器；接收对所述目标物体的识别结果，所述识别结果是所述云端服务器根据与所述第一类型数据匹配的多模态数据确定的；或者，接收所述云端服务器发送的与所述第一类型数据匹配的多模态数据，根据所述多模态数据确定对所述目标物体的识别结果；所述多模态数据是预先根据样本数据进行训练得到的，所述样本数据为预先采用至少一种传感器对所述目标物体分别进行识别得到的数据，所述至少一种传感器至少包括获得第二类型数据的传感器，所述第二类型数据与所述第一类型数据的类型不同。

此外，上述各个部件还可以用于支持上述方法实施例中的移动设备所执行的其它过程。有益效果可参考前面的描述，此处不再赘述。

基于相同的技术构思，本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机可读指令，当所述计算机可读指令在计算机上运行时，使得上述方法实施例被执行。

基于相同的技术构思，本申请实施例提供还一种包含指令的计算机程序产品，当其在计算机上运行时，使得上述方法实施例被执行。

需要理解的是，在本申请的描述中，“第一”、“第二”等词汇，仅用于区分描述的目的，而不能理解为指示或暗示相对重要性，也不能理解为指示或暗示顺序。在本说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此，在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例，而是意味着“一个或多个但不是所有的实施例”，除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”，除非是以其他方式另外特别强调。

本领域内的技术人员应明白，本申请的实施例可提供为方法、***、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

显然，本领域的技术人员可以对本申请实施例进行各种改动和变型而不脱离本申请实施例的精神和范围。这样，倘若本申请实施例的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种多模态识别方法，其特征在于，所述方法包括：

云端服务器接收移动设备发送的第一类型数据，所述第一类型数据为所述移动终端中的传感器对目标物体进行识别得到的数据；

所述云端服务器将所述第一类型数据与训练库中的多模态数据进行匹配，所述多模态数据是预先根据样本数据进行训练得到的，所述样本数据为预先采用至少一种传感器对所述目标物体分别进行识别得到的数据，所述至少一种传感器至少包括获得第二类型数据的传感器，所述第二类型数据与所述第一类型数据的类型不同；

若匹配成功，所述云端服务器根据匹配成功的多模态数据，确定对所述目标物体的识别结果，并将所述识别结果发送给所述移动设备；或者，所述云端服务器将匹配成功的多模态数据发送给所述移动设备，以使所述移动设备根据所述多模态数据对所述目标物体进行物体识别。

2.根据权利要求1所述的方法，其特征在于，所述训练库中包括的不同多模态数据与移动设备所在的不同位置对应；

所述方法还包括：

所述云端服务器获取所述移动设备的位置信息；

所述云端服务器根据所述移动设备的位置信息确定所述移动设备所在的区域；

所述云端服务器将所述第一类型数据与训练库中的多模态数据进行匹配，包括：

所述云端服务器将所述第一类型数据，与训练库中所述区域对应的多模态数据进行匹配。

3.根据权利要求1或2所述的方法，其特征在于，所述第一类型数据为图像数据；

所述多模态数据还包括第三类型数据，所述第三类型数据为图像数据，所述第三类型数据与所述第二类型数据具有对应关系；

所述云端服务器将所述第一类型数据与所述第三类型数据进行匹配；

所述云端服务器根据匹配成功的多模态数据，确定对所述目标物体的识别结果，包括：

所述云端服务器根据匹配成功的第三类型数据，和匹配成功的第三类型数据对应的第二类型数据，确定对所述目标物体的识别结果；

或者，所述云端服务器将训练库中匹配成功的多模态数据发送给所述移动设备，包括：

所述云端服务器将所述训练库中匹配成功的第三类型数据对应的第二类型数据发送给所述移动设备。

4.根据权利要求3所述的方法，其特征在于，所述样本数据包括所述第三类型数据和所述第二类型数据；

所述方法还包括：

所述云端服务器生成所述第三类型数据与所述第二类型数据的对应关系。

5.根据权利要求3所述的方法，其特征在于，所述样本数据包括所述第二类型数据，所述第二类型数据为三维空间数据；

所述方法还包括：

所述云端服务器对获取到的第二类型数据进行转换，得到所述第三类型数据。

6.一种多模态识别方法，其特征在于，所述方法应用于配置有传感器的移动设备中，所述方法包括：

所述移动设备通过所述传感器对目标物体进行识别得到第一类型数据；

所述移动设备将所述第一类型数据发送至云端服务器；

所述移动设备接收对所述目标物体的识别结果，所述识别结果是所述云端服务器根据与所述第一类型数据匹配的多模态数据确定的；或者，接收所述云端服务器发送的与所述第一类型数据匹配的多模态数据，所述移动设备根据所述多模态数据确定对所述目标物体的识别结果；

所述多模态数据是预先根据样本数据进行训练得到的，所述样本数据为预先采用至少一种传感器对所述目标物体分别进行识别得到的数据，所述至少一种传感器至少包括获得第二类型数据的传感器，所述第二类型数据与所述第一类型数据的类型不同。

7.根据权利要求6所述的方法，其特征在于，所述不同多模态数据与移动设备所在的不同位置对应；所述方法还包括：

所述移动设备确定所述移动设备当前的位置信息；

所述移动设备将所述移动设备的位置信息发送给所述云端服务器，以使所述云端服务器根据所述位置信息确定与所述第一类型数据匹配的多模态数据。

8.根据权利要求6或7所述的方法，其特征在于，所述移动设备将所述第一类型数据发送至云端服务器之前，还包括：

所述移动设备根据所述第一类型数据无法确定所述目标物体的识别结果。

9.根据权利要求8所述的方法，其特征在于，所述移动设备根据所述第一类型数据无法确定所述目标物体的识别结果，包括：

所述移动设备根据所述第一类型数据和本地地图无法确定所述目标物体的识别结果，所述本地地图包括不同物体的位置信息与物体信息的对应关系。

10.根据权利要求6-9任一项所述的方法，其特征在于，所述方法还包括：

所述移动设备确定所述移动设备当前的位置信息；

所述移动设备根据所述识别结果和所述位置信息更新本地地图，所述本地地图包括不同物体的位置信息与物体信息的对应关系。

11.一种多模态识别装置，其特征在于，所述装置包括：

收发模块，用于接收移动设备发送的第一类型数据，所述第一类型数据为所述移动终端中的传感器对目标物体进行识别得到的数据；

处理模块，用于将所述第一类型数据与训练库中的多模态数据进行匹配，所述多模态数据是预先根据样本数据进行训练得到的，所述样本数据为预先采用至少一种传感器对所述目标物体分别进行识别得到的数据，所述至少一种传感器至少包括获得第二类型数据的传感器，所述第二类型数据与所述第一类型数据的类型不同；

处理模块还用于：若匹配成功，根据匹配成功的多模态数据，确定对所述目标物体的识别结果；所述收发模块还用于：并将所述识别结果发送给所述移动设备；或者，

若匹配成功，所述收发模块用于：将匹配成功的多模态数据发送给所述移动设备，以使所述移动设备根据所述多模态数据对所述目标物体进行物体识别。

12.根据权利要求11所述的装置，其特征在于，所述训练库中包括的不同多模态数据与移动设备所在的不同位置对应；

所述处理模块还用于：获取所述移动设备的位置信息；根据所述移动设备的位置信息确定所述移动设备所在的区域；

所述处理模块在将所述第一类型数据与训练库中的多模态数据进行匹配时，具体用于：将所述第一类型数据，与训练库中所述区域对应的多模态数据进行匹配。

13.根据权利要求11或12所述的装置，其特征在于，所述第一类型数据为图像数据；

所述处理模块在将所述第一类型数据与训练库中的多模态数据进行匹配时，具体用于：将所述第一类型数据与所述第三类型数据进行匹配；

所述处理模块在根据匹配成功的多模态数据，确定对所述目标物体的识别结果时，具体用于：根据匹配成功的第三类型数据，和匹配成功的第三类型数据对应的第二类型数据，确定对所述目标物体的识别结果；

或者，所述收发模块在将训练库中匹配成功的多模态数据发送给所述移动设备时，具体用于：将所述训练库中匹配成功的第三类型数据对应的第二类型数据发送给所述移动设备。

14.根据权利要求13所述的装置，其特征在于，所述样本数据包括所述第三类型数据和所述第二类型数据；

所述处理模块还用于：生成所述第三类型数据与所述第二类型数据的对应关系。

15.根据权利要求13所述的装置，其特征在于，所述样本数据包括所述第二类型数据，所述第二类型数据为三维空间数据；

所述处理模块还用于：对获取到的第二类型数据进行转换，得到所述第三类型数据。

16.一种多模态识别装置，其特征在于，所述装置配置有传感器，所述装置还包括：

处理模块，用于通过所述传感器对目标物体进行识别得到第一类型数据；

收发模块，用于将所述第一类型数据发送至云端服务器；

所述收发模块还用于：接收对所述目标物体的识别结果，所述识别结果是所述云端服务器根据与所述第一类型数据匹配的多模态数据确定的；或者，

所述收发模块还用于：接收所述云端服务器发送的与所述第一类型数据匹配的多模态数据；所述处理模块还用于：根据所述多模态数据确定对所述目标物体的识别结果；

17.根据权利要求16所述的装置，其特征在于，所述不同多模态数据与移动设备所在的不同位置对应；所述处理模块还用于：确定所述移动设备当前的位置信息；

所述收发模块还用于：将所述移动设备的位置信息发送给所述云端服务器，以使所述云端服务器根据所述位置信息确定与所述第一类型数据匹配的多模态数据。

18.根据权利要求16或17所述的装置，其特征在于，在所述收发模块在将所述第一类型数据发送至云端服务器之前，所述处理模块还用于：

在所述处理模块根据所述第一类型数据无法确定所述目标物体的识别结果。

19.根据权利要求18所述的装置，其特征在于，所述处理模块在根据所述第一类型数据无法确定所述目标物体的识别结果时，具体用于：

根据所述第一类型数据和本地地图无法确定所述目标物体的识别结果，所述本地地图包括不同物体的位置信息与物体信息的对应关系。

20.根据权利要求16-19任一项所述的装置，其特征在于，所述处理模块还用于：

确定所述移动设备当前的位置信息；

根据所述识别结果和所述位置信息更新本地地图，所述本地地图包括不同物体的位置信息与物体信息的对应关系。

21.一种计算机设备，其特征在于，包括处理器和通信接口，所述处理器与存储器耦合；

所述通信接口，用于与其他设备进行通信；

所述处理器，用于运行所述存储器内的指令或程序，通过所述通信接口执行如权利要求1-10任一项所述的方法。

22.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有指令，当所述指令在计算机上运行时，使得所述计算机执行如权利要求1-10任一项所述的方法。