WO2024087962A1

WO2024087962A1 - 车厢姿态识别***、方法、电子设备及存储介质

Info

Publication number: WO2024087962A1
Application number: PCT/CN2023/120389
Authority: WO
Inventors: 蔡登胜; 李佳恒; 陶佳伟; 周文彬
Original assignee: 广西柳工机械股份有限公司
Priority date: 2022-10-24
Filing date: 2023-09-21
Publication date: 2024-05-02
Also published as: CN115497077A

Abstract

本发明公开了一种车厢姿态识别***、方法、电子设备及存储介质。该***包括处理器、双目相机、第一车辆、第二车辆和标识件；第一车辆包括车厢；第二车辆用于向第一车辆的车厢卸物料；标识件设于车厢侧面；标识件上设有多个参考点；双目相机设于第二车辆上，双目相机用于采集包含标识件的图像并将图像发送给处理器；处理器用于利用图像识别网络模型对图像进行识别处理，得到目标图像；目标图像为包含多个参考点的识别结果的图像；并利用双目相机立体几何视觉算法对目标图像中的每个参考点进行目标空间三维坐标确定；基于各个参考点的目标空间三维坐标确定车厢的姿态信息。该车厢姿态识别***具有结构简单和适用于大规模室外无人作业场景的特点。

Description

车厢姿态识别***、方法、电子设备及存储介质

技术领域

本发明涉及计算机技术领域，特别涉及车厢姿态识别***、方法、电子设备及存储介质。

背景技术

土方机械、矿山机械、路面机械等工程机械设备在进行无人化自主作业升级中需要机群协同作业，如挖掘机向卡车进行卸料，在这种应用场景下就需要挖掘机具备卡车车厢实时位置和姿态检测能力。

通常，可以利用载波相位差分技术(Real-time kinematic，RTK)的差分定位原理可以检测出卡车位于地图坐标系的位置，同时通过卡车自身的尺寸信息推算得到车厢的地图坐标系位置。同时挖掘机也可以利用RTK定位得到自己在地图坐标系的位置，两者相比较就可以得到卡车车厢跟挖掘机的相对位置，进而完成卸料。

此种方案可以完成挖掘机室外无人自主作业，但随之带来的问题是高昂的成本，因为要想得到卡车和挖掘机在地图中的位置信息，就必需在卡车和挖掘机上各安装一套RTK移动站，同时还要安装一台公共基站，带来的成本可能是数万元至数十万元，无法实现大规模应用。因此，此种方案不适用于工程机械室外无人自主作业的大规模应用中。

发明内容

本发明要解决的是现有挖掘机无人自主作业所基于的***结构复杂，智能化低，成本高，应用范围窄的技术问题。

为解决上述技术问题，于一方面，本申请公开了一种车厢姿态识别***，其包括处理器、双目相机、第一车辆、第二车辆和标识件；

该第一车辆包括车厢；

该第二车辆用于向该第一车辆的车厢卸物料；

该标识件设于该车厢的侧面；该标识件上设有多个参考点；

该双目相机设于该第二车辆上，该双目相机用于采集包含该标识件的图像，并将该图像发送给该处理器；

该处理器与该双目相机通信连接；该处理器用于利用图像识别网络模型对该图像进行识别处理，得到目标图像；所述目标图像为包含所述多个参考点的识别结果的图像；并利用双目相机立体几何视觉算法对该目标图像中的多个参考点中的每个参考点进行目标三维坐标确定；基于各个参考点的目标三维坐标确定该车厢的姿态信息。

可选的，该第二车辆包括连接的卸料装置和主体结构；

该卸料装置与该主体结构的第一侧面连接；

该双目相机设于该第一侧面上。

可选的，该第一侧面包括第一安装点和第二安装点；

该第一安装点和该第二安装点位于该第一侧面的顶部；

该第一安装点与该第二安装点之间存在第一预设距离；

该双目相机包括第一双目相机和第二双目相机；

该第一双目相机设于该第一安装点；

该第二双目相机设于该第二安装点。

可选的，该标识件包括至少两个子标识件；

该至少两个子标识件中分别位于该车厢的第二侧面的第一位置点和第二位置点；

该第二侧面为朝向该第一侧面的面；

该第一位置点与该第二位置点之间存在第二预设距离；该第二预设距离大于该第二侧面沿第一预设方向的长度的一半；该第一预设方向与该第二预设方向垂直；该第二预设方向为该第一车辆的高度方向的延长线方向。

可选的，该处理器包括图像识别模块和位置确定模块；

该图像识别模块用于利用图像识别网络模型对该图像进行识别处理，得到目标图像；目标图像为包含所述多个参考点的识别结果的图像，并将该目标图像发送给位置确定模块；

该位置确定模块用于利用双目相机立体几何视觉算法对该目标图像中的多个参考点中的每个参考点进行目标三维坐标确定；基于各个参考点的目标三维坐标确定该车厢的姿态信息。

于另一方面，本申请还公开了一种车厢姿态识别方法，其包括：

利用双目相机采集包含标识件的图像；

将该图像输入到图像识别网络模型，得到目标图像；该目标图像上包含有对该多个参考点中每个参考点的识别结果；

针对每个该参考点，基于该目标图像和该参考点的识别结果确定该参考点在像素坐标系下的坐标；

获取该双目相机的相机参数；

利用双目相机立体几何视觉算法，基于该双目相机的相机参数和该参考点在像素坐标系下的坐标确定该参考点的目标三维坐标；

基于各个参考点的目标三维坐标确定该车厢的目标三维坐标；

基于该车厢的目标三维坐标确定该车厢的姿态信息。

可选的，该相机参数包括双目相机的左右目相机之间的距离、安装参数以及内参。

可选的，该基于该双目相机的相机参数和该参考点在像素坐标系下的坐标确定该参考点的目标三维坐标；基于各个参考点的目标三维坐标确定该车厢的目标三维坐标；基于该车厢的目标三维坐标确定该车厢的姿态信息包括：

基于该双目相机的左右目相机之间的距离、该双目相机的内参和该参考点在像素坐标系下的坐标确定该参考点在相机坐标系下的坐标；

基于该双目相机的安装参数确定第一坐标转换矩阵；

按照该第一坐标转换矩阵，将该参考点在相机坐标系下的三维坐标转换为目标车辆坐标系下的三维坐标；该目标车辆坐标系为该第二车辆所在的坐标系；

基于各个参考点在该目标车辆坐标系下的三维坐标确定该车厢在目标车辆坐标系下的三维坐标；

基于该车厢在目标车辆坐标系下的三维坐标确定该车厢的姿态信息。

于另一方面，本申请还提供了一种电子设备，该电子设备包括处理器和存储器，该存储器中存储有至少一条指令、至少一段程序、代码集或指令集，该至少一条指令、该至少一段程序、该代码集或指令集由该处理器加载并执行以实现上述的车厢姿态识别方法。

于另一方面，本申请还提供了一种计算机存储介质，该计算机存储介质中存储有至少一条指令或至少一段程序，该至少一条指令或至少一段程序由处理器加载并执行以实现上述的车厢姿态识别方法。

采用上述技术方案，本申请提供的车厢姿态识别方法具有如下有益效果：

该车厢姿态识别***包括处理器、双目相机、第一车辆、第二车辆和标识件；该第一车辆包括车厢；该第二车辆用于向该第一车辆的车厢卸物料；该标识件设于该车厢的侧面；该标识件上设有多个参考点；该双目相机设于该第二车辆上，该双目相机用于采集包含该标识件的图像，并将该图像发送给该处理器；该处理器与该双目相机通信连接；该处理器用于利用图像识别网络模型对该图像进行识别处理，得到目标图像；目标图像为包含所述多个参考点的识别结果的图像；并利用双目相机立体几何视觉算法对该目标图像中的多个参考点中的每个参考点进行目标三维坐标确定；基于各个参考点的目标三维坐标确定该车厢的姿态信息。本申请提供的该车厢姿态识别***结构简单且适用于大规模室外无人作业场景。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请一种可选的车厢姿态识别***的结构示意图；

图2为本申请一种可选的第二车辆的结构示意图；

图3为本申请一种可选的第一车辆的结构示意图；

图4为本申请一种可选的标识件的结构示意图；

图5为本申请一种可选的车厢姿态识别方法的流程示意图；

图6为本申请另一种可选的车厢姿态识别方法的流程示意图；

图7为本申请一种可选的多种坐标之间的关系示意图；

图8为本申请一种可选的双目立体视觉相机模型示意图；

图9为本申请另一种可选的多种坐标之间的关系示意图。

以下对附图作补充说明：
1-第一车辆；101-车厢；2-第二车辆；201-卸料装置；202-主体结构；2021-第一
侧面；3-标识件；301-子标识件；4-双目相机；401-第一双目相机；402-第二双目相机；5-处理器。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

此处所称的“一个实施例”或“实施例”是指可包含于本申请至少一个实现方式中的特定特征、结构或特性。在本申请的描述中，需要理解的是，术语“上”、“下”、“顶”、“底”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本申请和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本申请的限制。此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含的包括一个或者更多个该特征。而且，术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。

此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或服务器不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

通常，对于车厢的位置检测方法，包括以下几种。

第一种是在固定位置利用视觉进行车厢位置检测。例如，利用视觉在多个位置检测出往返运动车厢的几个关键点来确定车厢的位置，进而执行作业操作。此方法适用于单个场景重复工作的车厢位置检测，属于重复性检测，智能化程度低，不适用于挖掘机室外无人自主作业卡车车厢动态位置、姿态检测中。

第二种是利用激光点对点进行相对位置矫正。在无人驾驶搬运车(Automated Guided Vehicle，AGV)行业中利用安装在AGV小车上的激光发射器和货架上的激光接收器进行AGV小车和货架的相对位置矫正，引导AGV小车进行卸货。此种AGV小车对货架位置的感知只能用于固定路线的末端精确矫正，并不能用于挖掘机室外无人自主作业卡车车厢动态位置、姿态检测中。

第三种是无人驾驶中卡车检测。在当前无人驾驶中也对前方卡车进行检测，得到前方卡车与本车的空间相对位置，但无人驾驶中并不关心卡车车厢的精确位置及姿态，只将卡车作为一个整体检测，视卡车为一种障碍物，因此无人驾驶中的卡车检测不能直接用于工程机械室外无人自主作业卡车车厢位置、姿态的精确检测中。

第四种如上述背景技术种阐述的，RTK卡车位置、姿态检测。RTK利用差分定位原理可以检测出卡车位于地图坐标系的位置，同时通过卡车自身的尺寸信息推算得到车厢的地图坐标系位置。同时挖掘机也可以利用RTK定位得到自己在地图坐标系的位置，两者相比较就可以得到卡车车厢跟挖掘机的相对位置，进而完成卸料。此种方案可以完成挖掘机室外无人自主作业，但随之带来的问题是高昂的成本，因为要想得到卡车和挖掘机在地图中的位置信息，就必需在卡车和挖掘机上各安装一套RTK移动站，同时还要安装一台公共基站，带来的成本可能是数万元至数十万元，无法实现大规模应用。因此，此种方案不适用于工程机械室外无人自主作业的大规模应用中。

上述种检测车厢的方式存在以下缺点：

1)智能化程度低。多位置视觉车厢检测以及点对点激光相对位置矫正检测都不具备智能化检测的能力，智能化程度低，因此也不能用于挖掘机室外无人自主作业卡车车厢动态位置、姿态感知中。

2)结构复杂，成本高。RTK定位技术虽然可用于工程机械室外无人自主作业中，但其成本高昂，不可能进行大规模应用，只适合做一些前期的探索研究。

3)不适用于工程机械室外作业。当前已有的量产方案都不能用于工程机械室外无人自主作业，其中无人驾驶中的卡车检测虽然也是卡车检测，但其是将卡车作为整体，当成障碍物进行检测，不关心车厢的精确位置和姿态。其他方案，多位置视觉车厢检测、点对点激光相对位置矫正检测因为智能化程度低，不能用于工程机械室外无人自主作业卡车车厢位置和姿态动态感知中；RTK定位技术因为其成本高昂，不能用于工程机械室外无人自主作业的大规模应用中。

为此，参阅图1，图1为本申请一种可选的车厢姿态识别***的结构示意图。本申请公开了一种车厢姿态识别***，该***包括处理器5、双目相机4、第一车辆1、第二车辆2和标识件3；该第一车辆1包括车厢101；该第二车辆2用于向该第一车辆1的车厢101卸物料；该标识件3设于该车厢101的侧面；该标识件3上设有多个参考点；该双目相机4设于该第二车辆2上，该双目相机4用于采集包含该标识件3的图像，并将该图像发送给该处理器5；该处理器5与该双目相机4通信连接；该处理器5用于利用图像识别网络模型对该图像进行识别处理，得到目标图像；目标图像为包含所述多个参考点的识别结果的图像；并利用双目相机4立体几何视觉算法对该目标图像中的多个参考点中的每个参考点进行目标三维坐标确定；基于各个参考点的目标三维坐标确定该车厢101的姿态信息。

可选的，第一车辆1可以是具有车厢101的车辆，如卡车；第二车辆2可以是具有机械臂的车辆，例如挖掘机。

可选的，该处理器5可以是位于第二车辆2上，还可以独立于该车辆，位于终端或者服务器上。

可选的，服务器可以包括是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式***，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云音频识别模型训练、中间件服务、域名服务、安全服务、CDN(Content Delivery Network，内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。服务器上运行的操作***可以包括但不限于安卓***、IOS***、linux、windows、Unix等。

可选的，终端可以包括但不限于智能手机、台式计算机、平板电脑、笔记本电脑、智能音箱、数字助理、增强现实(augmented reality，AR)/虚拟现实(virtual reality，VR)设备、智能可穿戴设备等类型的客户端。也可以为运行于上述客户端的软体，例如应用程序、小程序等。可选的，客户端上运行的操作***可以包括但不限于安卓***、IOS***、linux、windows、Unix等。

于一种可选的示例中，参阅图2，图2为本申请一种可选的第二车辆的结构示意图。该第二车辆2包括连接的卸料装置201和主体结构202；该卸料装置201与该主体结构202的第一侧面2021连接；该双目相机4设于该第一侧面2021上。

为了进一步保证该双目相机能够采集到所有标识件的图像信息。于一种可选的示例中，该第一侧面2021包括第一安装点和第二安装点；该第一安装点和该第二安装点位于该第一侧面2021的顶部；该第一安装点与该第二安装点之间存在第一预设距离；该双目相机4包括第一双目相机401和第二双目相机402；该第一双目相机401设于该第一安装点；该第二双目相机402设于该第二安装点。

为了提高双目相机4视角的广度，保证采集到的图像的效果，可选的，该第一预设距离大于该第一侧面2021的宽度的一半；可选的，为了进一步提高图像采集效果；可选的，该第一安装点位于第一侧面2021的最左侧，第二安装点位于第一侧面2021的最右侧。

于一种可选的示例中，参阅图3，图3为本申请一种可选的第一车辆的结构示意图。为了提高后续确定的车厢姿态的精准度；该标识件3包括至少两个子标识件301；该至少两个子标识件301分别位于该车厢101的第二侧面的第一位置点和第二位置点；该第二侧面为朝向该第一侧面2021的面；该第一位置点与该第二位置点之间存在第二预设距离；该第二预设距离大于该第二侧面沿第一预设方向的长度的一半；该第一预设方向(如图3中的x轴方向)与该第二预设方向(如图3中的y轴方向)垂直；该第二预设方向为该第一车辆1的高度方向的延长线方向。从而处理器5可以确定出多个子标识件301的空间三维坐标，从而定位出车厢101的姿态信息，例如车厢101与第二车辆2之间的距离以及相对于第二车辆2的偏转角度等信息。

在本实施例中，上述第二侧面可以不仅指一个侧面，在实际场景中，第一车辆1并非会停在第二车辆2的正前方，可能是与第二车辆2存在一定夹角，则该第二侧面可以是第一侧面2021对应的两个侧面；相应的，上述多个子标识件301可以位于其中的两个侧面中的一个侧面上，也可以在两个侧面上均设置相应数量。本实施例将以子标识件301均位于同一侧面的情况为例进行阐述。

可选的，参阅图4，图4为本申请一种可选的标识件的结构示意图。该标识件3上设有5个参考点，实际根据需要还可以是5个以上，例如6，7，8，9，10等n个，当参考点的数量越多，会使得最终确定出的标识件3的坐标数据越准确，但参考点的数量太多，也会以进一步增加计算时间，导致数据处理耗时过长，参考点的数量具体可以根据需要设定。

于一种可选的示例中，该处理器5包括图像识别模块和位置确定模块；该图像识别模块用于利用图像识别网络模型对该图像进行识别处理，得到包含该多个参考点的识别结果的目标图像，并将该目标图像发送给位置确定模块；该位置确定模块用于利用双目相机4立体几何视觉算法对该目标图像中的多个参考点中的每个参考点进行目标三维坐标确定；基于各个参考点的目标三维坐标确定该车厢101的姿态信息。具体可以详见下文对车厢姿态识别方法部分的描述。

本申请提供的该车厢101的姿态识别***具有以下优点：

1)智能化程度高。基于人工智能领域深度卷积神经网路技术，双目相机4利用图像和双目相机4立体几何视觉可以对各种天气条件下、各种工作环境中的卡车进行精确的卡车车厢101位置和姿态检测。

2)单端检测。双目相机4进行的是单端检测，像人的眼睛一样对外界事物进行识别并测量。无需像RTK那样要求卡车和挖掘机都安装移动站，卡车的RTK定位结果需要通过通信终端发往无人挖机，无人挖机收到卡车定位数据后与自身定位数据做比较才能得到两者的相对位置关系。

3)成本低。目前达到车规级的双目相机4，具备防水防尘能力，在大规模应用中可以将成本降低至数千元，成本低。

4)满足工程机械室外无人自主作业大规模应用。基于人工智能领域中的深度卷积神经网络技术，利用图像和双目立体几何视觉，双目相机4可以对各种天气条件下、各种工作环境中的卡车进行车厢101的精确位置和姿态检测。同时成本低，能够实现工程机械室外无人自主作业的大规模应用。

以下介绍本申请一种车厢姿态识别方法的具体实施例，参阅图5，图5为本申请一种可选的车厢姿态识别方法的流程示意图。本说明书提供了如实施例或流程图的方法操作步骤，但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式，不代表唯一的执行顺序。在实际中的***或服务器产品执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器5或者多线程处理的环境)。具体的如图5所示，该方法可以包括：

S501：利用双目相机4采集包含标识件3的图像。

在本实施例中，该双目相机4的设置的方式参阅图2，具体详见上述***部分的描述。

可选的，双目相机4包括左目相机和右目相机；步骤S501可以具体阐述为：利用左目相机采集包含标识件3的第一图像；所述第一图像为可见光图像；利用右目相机采集包括标识件3的第二图像；所述第二图像为可见光图像，在下述步骤S503中，输入的图像包括第一图像和第二图像，后面基于两幅图像标识件识别结果进行目标三维坐标计算。

S503：将该图像输入到图像识别网络模型，得到目标图像；该目标图像上包含有对该多个参考点中每个参考点的识别结果。

可选的，该图像识别网络模型包括特征提取网络、特征融合网络和预测识别网络；步骤S503可以包括：利用特征提取网络对图像进行特征提取操作，得到特征图集；利用特征融合网络对该特征图集进行特征融合处理，得到目标特征图；利用预测识别网络对该目标特征图进行预测处理，得到目标图像。

可选的，该特征提取网络包括输入层和子特征提取网络；其中输入层用于一般对图像数据进行归一化再送入神经网络进行推理，归一化的方法有多种，其中一种形式是将图像像素值由0-255归一化至0-1。图像像素值归一化公式如下：
X1＝x/255

其中，x表示图像的像素点对应的像素值；X1表示对该像素点的像素值进行归一化处理后的值。

例如，当x＝200,则可以得到归一化处理后的X1＝0.78。

然后将归一化后的输入层图像数据经过卷积操作和激活操作不断提取图像特征。

可选的，在特征提取过程中，卷积核可以设置为1*1，也可以设置为3*3，在此不做限制。

卷积操作后通过激活函数得到当前卷积层的输出。激活函数有多种，常用的有ReLU和Sigmoid。

可选的，本方案采用的深度卷积神经网络Yolo5KeyPoints具有泛化能力，能够对各种天气下、各种工作环境中的包含特定图案标识件3及其5个参考点进行有效识别。Yolo5KeyPoints采用CSP-Darknet53作为主干特征提取网络，SPPF、CSP-PAN作为特征融合网络，接着使用种类预测子网络(class subnet)预测每个网格的类别、检测框回归子网络(box subnet)回归检测框、参考点回归子网络(key point subnet)回归参考点，得到最终的网络预测结果。参考点检测损失函数Yolo5KeyPoints使用Wing Loss函数，Wing Loss具有损失大的时候参数梯度小，不对离群点敏感，而损失小的时候参数梯度大，使模型收敛的更好，参考点检测准确性大幅提升。

由以上描述可知，主干特征提取网络之后一般会接特征融合网络，特征融合网络将主干特征提取网络提取的不同尺度特征图进行特征融合，然后进一步进行卷积提取特征。

特征融合网络可以包括加强特征提取网络，该加强特征提取网络可以采用特征金子塔堆叠加卷积操作进行，一个典型的加强特征提取网络是FPN。FPN网络将低层高分辨率特征图和高层高语义特征图进行融合，然后在融合后的每一层特征图上单独做预测得到预测结果。

特征融合及加强特征提取网络之后一般接1x1的卷积得到网络预测结果，即检测框回归结果、参考点回归结果和种类置信度值。

经测试表明，将上述对车厢101位置以及姿态识别算法部署于CPU中，运算速度约130ms/次，在挖掘机无人自主作业这种低速场景下可以满足实时性要求，如果部署在AI加速硬件中(如GPU、AI芯片)实时性会进一步提升，达到30ms/次以内。

深度卷积神经网络Yolo5KeyPoints需要事先通过采集数据、数据标注、模型训练才能具备对含有特定图案标识件3及其5个参考点识别能力。

一种可选的对上述对象识别的图像识别网络模型训练的过程如下：

1)获取训练样本数据集，所述训练样本数据集包括多个样本图像中每个样本图像，以及对应的标签图像；每个所述样本图像包含标识件3和位于该标识件3上的多个参考点；所述标签图像为对应所述样本图像中的标识件3的进行标注框标识和所述标识件3上每个参考点的标识的图像。

在本实施例中，样本图像可以是使用双目相机去拍摄各种天气条件下、各种工作环境中的标识件3的图像，图像采集完成后人工挑选出符合要求的图片进行标注。挑选图片时挑选各种天气下、各种工作环境中有意义的图片且图片完整地包含标识件3图案，重复出现的图片只保留其中一张。

标签图像的生成过程如下：通过labelme工具进行数据标注，得到每张图像标识件 3的标注框和5个参考点位置的标签(label)文件。

具体操作过程如下：点击标注软件labelme中创建目标矩形框按钮，创建新的目标框将标识件3框起来，输入标注框名字“SignBoard”即得到了标识件3标签；之后点击创建点目标按钮，点击标识件3图案的五个参考点，并输入参考点名称：点1(point1)、点2(point2)、点3(point3)、点4(point4)、点5(point5)得到参考点的标签，标完整张图片的所有标识件3及其5个参考点就得到了这张图像的标签图像。

2)构建预设深度学习模型，将所述预设深度学习模型确定为当前深度学习模型。

3)基于所述当前深度学习模型，对样本数据集中的样本图像进行标注预测操作，确定所述样本图像的标注预测结果。

4)基于所述样本图像标注和所述标注预测结果，确定损失值。

5)当所述损失值大于预设阈值时，基于所述损失值进行反向传播，对所述当前深度学习模型进行模型权重更新以得到更新模型权重后的深度学习模型，将所述更新模型权重后的深度学习模型重新确定为所述当前深度学习模型，至此完成一次迭代训练；重复步骤：基于所述当前深度学习模型，对所述样本图像进行标注预测操作，确定所述样本图像标注和所述标注预测结果之间的损失值，损失值大于阈值即进行反向传播更新模型权重。

6)当所述损失值小于或等于所述预设阈值时或达到预设最大迭代次数时，将所述当前深度学习模型确定为所述对象的图像识别网络模型。

于一种可选的实施例中，模型训练过程还可以如下：加载预训练权重，然后输入标注好的数据进行模型训练。图像数据通过预处理模块进行归一化操作，归一化后的图像数据送入网络模型进行前向传播得到预测结果，预测结果与标签文件目标真值通过损坏函数求出模型输出与目标真值之间的偏差，即损失值。损失值可以包含三部分，即目标分类损失、检测框回归损失、参考点回归损失，损失通过反向传播对网络每一层权重进行权值更新，至此完成一次训练，通过不断迭代训练使得模型收敛，当达到收敛目标时或最大迭代次数就完成了整个模型的训练。

而后，将上述训练好的Yolo5KeyPoints模型部署至CPU处理器或者GPU、AI芯片即可进行模型推理预测，得到双目相机4实时拍摄图像的标识件3及其5个参考点识别结果。

模型训练阶段通过现场数据训练得到了具备检测能力的模型，模型可以通过opencv库或者libtorh库部署至CPU处理器，而GPU、AI芯片也可以通过厂家提供的库及部署要求部署至GPU、AI芯片上，一般要过经过模型格式的转化。

标识件3及其5个参考点检测过程包含三个阶段，当输入一张实时图像时首先经过预处理阶段，完成图像的归一化操作；归一化后的图像再送入Yolo5KeyPoints模型进行前向推理得到图像上每个网格点的预测结果；最后每个网格点的预测结果通过后处理，如非极大值抑制，得到最终的预测结果。

无人挖机自主作业中，双目相机4实时采集图像数据并完成标识件3及其5个参考点识别后，而后利用下述步骤S505-S513，即通过双目相机4立体几何视觉对5对参考点图像坐标进行计算得到标识件3的5个参考点的空间三维坐标。此种方式检测鲁棒性高、精度高。

S505：针对每个该参考点，基于该目标图像和该参考点的识别结果确定该参考点在像素坐标系下的坐标。

在本实施例中，参考点在像素坐标系下的坐标可以为(u,v)。

S507：获取该双目相机4的相机参数。

于一种可选的示例中，该相机参数包括双目相机4的左右目相机之间的距离、安装参数以及内参。

可选的，双目相机4包括左目相机和右目相机，左目和右目之间的距离为T；双目相机的安装参数包括左目相机或者右目相机分别距离车辆坐标系原点的平移距离，以及相对于车辆坐标系原点的旋转角度；该双目相机的内参包括左目相机的内参和右目相机的内参。

S509：利用双目相机4立体几何视觉算法，基于该双目相机4的相机参数和该参考点在像素坐标系下的坐标确定该参考点的目标三维坐标。

S511：基于各个参考点的目标三维坐标确定该车厢101的目标三维坐标；

S513：基于该车厢101的目标三维坐标确定该车厢101的姿态信息。

于一种可选的示例中，参阅图6，图6为本申请另一种可选的车厢姿态识别方法的流程示意图。步骤S509-S513可以具体阐述为：

S601：基于该双目相机4的左右目相机之间的距离、该双目相机4的内参和该参考点在像素坐标系下的坐标确定该参考点在相机坐标系下的坐标。

可选的，该双目相机的内参包括左目相机的内参和右目相机的内参。

可选的，以下提供一种可选的确定参考点在相机坐标系下的坐标的实施例。参阅图7，图7为本申请一种可选的多种坐标系之间的关系示意图。世界坐标系：Xw、Yw、Zw；相机坐标系：Xc、Yc、Zc；图像坐标系：x、y；像素坐标系：u、v(反映了相机CCD芯片中像素的排列情况)。

从图中可以看出，假设(u₀，v₀)代表O在u-v坐标系下的坐标，假设一个像素的长度和宽度分别为dx和dy，则像素坐标系与图像坐标系的关系如下：

将公式(1)和公式(2)联立，并写成矩阵可以表示如下：

由上述公式(3)可以求解出图像上任意一像素点在图像坐标系下的坐标，即(x,y)。

参阅图8，图8为本申请一种可选的相机模型示意图。O_l、O_r是双目相机4左右目的投影中心，两者之间的连线D称作双目基线，即两个相机中心点之间的距离。P是空间中的一点，P_l是点P在左目上的成像点；P_r是点P在右目上的成像点,则视差d＝x_l-x_r；

根据相似三角形定理，△PO_lO_r相似△PP_lP_r。则深度Z可由下方公式求得。

其中，f为相机的焦距。

由上述公式(4)得到深度信息Z，即Zc后，可以进一步确定P在目标双目相机坐标系下坐标(双目相机坐标系即以左目相机中心为原点的坐标系，也即坐标关系图7的相机坐标系)的Xc、Yc。

参阅图9，图9为本申请另一种可选的多种坐标之间的关系示意图。由双目相机左目相机坐标系，空间点P在左目图像的成像点P_l，利用相似三角形定理可以求取空间点P的横向坐标X,垂直方向坐标Y。P(X,Y,Z)在双目相机左目相机坐标系下的坐标为P(Xc、Yc、Zc)；P(x,y)是空间点P(Xc、Yc、Zc)在双目相机左目图像坐标系下的成像点图像坐标。

由于△ABO_c～△oCO_c,△PBO_c～△pCO_c，则可以推导出：

由上述公式的推导可求出Xc、Yc为：

至此，空间点P(Xc、Yc、Zc)所有坐标已求出。按照上述方式，可以依次求解出标识件3上5个参考点在相机坐标系下的三维坐标，坐标为左目相机坐标系下坐标。

S603：基于该双目相机的安装参数确定第一坐标转换矩阵。

S605：按照该第一坐标转换矩阵，将该参考点在相机坐标系下的三维坐标转换为目标车辆坐标系下的三维坐标；该目标车辆坐标系为该第二车辆2所在的坐标系。

本实施例中，假如车辆坐标系的原点为第二车辆2的回转中心点，通过确定该双目相机距离该原点的平移距离以及旋转角度，从而可以确定相应旋转矩阵R和平移向量T；该第二车辆为挖掘机时，该第二车辆包括机械臂和基座，该机械臂的旋转端与该基座可旋转连接，该第二车辆的回转中心点位于该旋转端所在的旋转轴线上。

将参考点在相机坐标系下的三维坐标转换为第二车辆2坐标系下的三维坐标，坐标转换矩阵表示如下：

则根据公式(7)，该相机坐标系与第二车辆2坐标系的关系如下：

可选的，根据车辆坐标系定义的不同，上述坐标转换矩阵，即公式(7)也是不同的。

S607：基于各个参考点在该目标车辆坐标系下的三维坐标确定该车厢101在目标车辆坐标系下的三维坐标。

可选的，以标识件3包括两个子标识件301，每个子标识件301上包含有5个参考点为例，针对每个子标识件301，可以对5个参考点的坐标进行筛选处理，剔除其中数值偏差较大的参考点位置坐标的数据，并对其余符合要求的参考点的坐标数据进行求平均处理，得到该子标识件301的三维坐标数据。于另一种可选的实施例中，还可以对位于子标识件301上的不同位置的参考点的坐标设置权重，通过各个参考点的坐标乘以对应的权重得到该子标识件301的三维坐标数据。

S609：基于该车厢101在目标车辆坐标系下的三维坐标确定该车厢101的姿态信息。

由上述两个子标识件301在第二车辆2坐标系下的三维坐标，从而可以确定出该车厢101的姿态信息。

该姿态信息如车厢101与第二车辆2之间的相对距离、偏转角等信息。

于一种可行的实施例中，图像识别模块包括特征提取子模块、特征融合子模块和预测识别模块；该特征提取子模块，用于利用特征提取网络对图像进行特征提取操作，得到特征图集；特征融合子模块，用于利用特征融合网络对该特征图集进行特征融合处理，得到目标特征图；预测识别模块，用于利用预测识别网络对该目标特征图进行预测处理，得到目标图像

于一种可行的实施例中，位置确定模块包括：

像素坐标确定模块，用于针对每个该参考点，基于该目标图像和该参考点的识别结果确定该参考点在像素坐标系下的坐标；

相机参数获取模块，用于获取该双目相机4的相机参数；

目标三维坐标确定模块，用于利用双目相机4立体几何视觉算法，基于该双目相机4的相机参数和该参考点在像素坐标系下的坐标确定该参考点的目标三维坐标；基于各个参考点的目标三维坐标确定该车厢101的目标三维坐标；

姿态信息确定模块，用于基于该车厢101的目标三维坐标确定该车厢101的姿态信息。

于一种可行的实施例中，目标三维坐标确定模块包括第一坐标确定模块，第一坐标转换矩阵和第二坐标确定模块；

第一坐标确定模块，用于基于该双目相机4的左右目相机之间的距离、该双目相机4的内参和该参考点在像素坐标系下的坐标确定该参考点在相机坐标系下的三维坐标；

第一坐标转换矩阵，用于基于该双目相机的安装参数确定第一坐标转换矩阵；

第二坐标确定模块，用于按照该第一坐标转换矩阵，将该参考点在相机坐标系下的三维坐标转换为目标车辆坐标系下的三维坐标；该目标车辆坐标系为该第二车辆2所在的坐标系；基于各个参考点在该目标车辆坐标系下的三维坐标确定该车厢101在目标车辆坐标系下的三维坐标；

姿态信息确定模块，用于基于该车厢101在目标车辆坐标系下的三维坐标确定该车厢101的姿态信息。

上述模块的具体实施过程同上述方法项的描述，在此不再赘述，需要说明的是，上述模块可以作为处理器中的实体子模块，也可以是由程序构成的虚拟模块。

如上所述，基于本申请提供的该车厢姿态识别***，其可选的工作过程如下：将训练好的深度卷积神经网络模型Yolo5KeyPoints部署至CPU，此时神经网模型Yolo5KeyPoints完成一次检测计算得到标识件3及其五个参考点耗时约130ms；如果计算单元含有图像计算单元GPU或AI加速芯片，可将神经网络模型Yolo5KeyPoints部署至图像计算单元GPU或AI加速芯片，提升实时性，此时神经网模型Yolo5KeyPoints完成一次检测计算得到标识件3及其五个参考点耗时约30ms。双目立体几何视觉计算5对参考点生成5个参考点空间三维坐标算法部署至CPU。

***上电，双目相机4卡车车厢101位置、姿态感知***启动、无人挖机控制***启动，无人挖掘机进入无人自主作业状态。

作业人员将第一车辆1(如卡车)泊入停车位，准备装料。

卡车泊车完成后，双目相机4将拍摄的左目和右目彩色图像1280x720 RGB图分别送往深度卷积神经网络Yolo5KeyPoints模型。神经网络Yolo5KeyPoints模型进行推理之前会将左目和右目彩色图像1280x720 RGB图进行预处理，预处理包括图像归一化和图像缩放。Yolo5KeyPoints模型预处理中图像归一化采用图像每个像素RGB值除以127.5减去1，将所有像素值归一化到-1～1；图像缩放操作是将原始1280x720 RGB图缩放至1280x736 RGB图，满足模型输入图像尺寸要求。经过预处理后，图像数据送入Yolo5KeyPoints模型进行推理得到模型输出，模型输出为每个网格点上每个锚框的物体分类结果、检测框回归结果和五个参考点回归结果。之后，Yolo5KeyPoints模型输出通过非极大值抑制等后处理得到最终的标识件3目标检测框及其5个参考点像素坐标。

通过神经网络推理得到双目相机4左目和右目图像的标识件3的5个参考点像素坐标后，利用双目相机4立体几何视觉计算5个参考点像素坐标得到5个参考点的三维空间坐标。该车厢姿态识别***结构简单和适用于大规模室外无人作业场景。

本申请的实施例还提供了一种电子设备，该电子设备包括处理器和存储器，存储器中存储有至少一条指令、至少一段程序、代码集或指令集，该至少一条指令、该至少一段程序、该代码集或该指令集由处理器加载并执行以实现如上述的车厢姿态识别方法。

本申请的实施例还提供了一种计算机存储介质，所述计算机存储介质可设置于服务器之中以保存用于实现方法实施例中一种车厢姿态识别方法相关的至少一条指令、至少一段程序、代码集或指令集，该至少一条指令、该至少一段程序、该代码集或指令集由该处理器加载并执行以实现上述车厢姿态识别方法。

可选的，在本实施例中，上述存储介质可以位于计算机网络的多个网络服务器中的至少一个网络服务器。可选的，在本实施例中，上述存储介质可以包括但不限于：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

需要说明的是：上述本申请实施例先后顺序仅仅为了描述，不代表实施例的优劣。且上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于设备实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的较佳实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

一种车厢姿态识别***，其特征在于，包括处理器(5)、双目相机(4)、第一车辆(1)、第二车辆(2)和标识件(3)；

所述第一车辆(1)包括车厢(101)；

所述第二车辆(2)用于向所述第一车辆(1)的车厢(101)卸物料；

所述标识件(3)设于所述车厢(101)的侧面；所述标识件(3)上设有多个参考点；

所述双目相机(4)设于所述第二车辆(2)上，所述双目相机(4)用于采集包含所述标识件(3)的图像，并将所述图像发送给所述处理器(5)；

所述处理器(5)与所述双目相机(4)通信连接；所述处理器(5)用于利用图像识别网络模型对所述图像进行识别处理，得到目标图像；所述目标图像为包含所述多个参考点的识别结果的图像；并利用双目相机(4)立体几何视觉算法对所述目标图像中的多个参考点中的每个参考点进行目标空间三维坐标确定；基于各个参考点的目标空间三维坐标确定所述车厢(101)的姿态信息。
根据权利要求1所述的车厢姿态识别***，其特征在于，所述第二车辆(2)包括连接的卸料装置(201)和主体结构(202)；

所述卸料装置(201)与所述主体结构(202)的第一侧面(2021)连接；

所述双目相机(4)设于所述第一侧面(2021)上。
根据权利要求2所述的车厢姿态识别***，其特征在于，所述第一侧面(2021)包括第一安装点和第二安装点；

所述第一安装点和所述第二安装点位于所述第一侧面(2021)的顶部；

所述第一安装点与所述第二安装点之间存在第一预设距离；

所述双目相机(4)包括第一双目相机(401)和第二双目相机(402)；

所述第一双目相机(401)设于所述第一安装点；

所述第二双目相机(402)设于所述第二安装点。
根据权利要求2所述的车厢姿态识别***，其特征在于，所述标识件(3)包括至少两个子标识件(301)；

所述至少两个子标识件(301)分别位于所述车厢(101)的第二侧面的第一位置点和第二位置点；

所述第二侧面为朝向所述第一侧面(2021)的面；

所述第一位置点与所述第二位置点之间存在第二预设距离；所述第二预设距离大于所述第二侧面沿第一预设方向的长度的一半；所述第一预设方向与所述第二预设方向垂直；所述第二预设方向为所述第一车辆(1)的高度方向的延长线方向。
根据权利要求1所述的车厢姿态识别***，其特征在于，所述处理器(5)包括图像识别模块和位置确定模块；

所述图像识别模块用于利用图像识别网络模型对所述图像进行识别处理，得到目标图像；所述目标图像为包含所述多个参考点的识别结果的图像，并将所述目标图像发送给位置确定模块；

所述位置确定模块用于利用双目相机(4)立体几何视觉算法对所述目标图像中的多个参考点中的每个参考点进行目标空间三维坐标确定；基于各个参考点的目标空间三维坐标确定所述车厢(101)的姿态信息。
一种利用如权利要求1-5任一项所述的车厢姿态识别***实现的车厢姿态识别方法，其特征在于，所述方法包括：

利用双目相机(4)采集包含标识件(3)的图像；

将所述图像输入到图像识别网络模型，得到目标图像；所述目标图像上包含有对所述多个参考点中每个参考点的识别结果；

针对每个所述参考点，基于所述目标图像和所述参考点的识别结果确定所述参考点在像素坐标系下的坐标；

获取所述双目相机(4)的相机参数；

利用双目相机立体几何视觉算法，基于所述双目相机(4)的相机参数和所述参考点在像素坐标系下的坐标确定所述参考点的目标空间三维坐标；

基于各个参考点的目标空间三维坐标确定所述车厢(101)的目标空间三维坐标；

基于所述车厢(101)的目标空间三维坐标确定所述车厢(101)的姿态信息。
根据权利要求6所述的车厢姿态识别方法，其特征在于，所述相机参数包括双目相机(4)的左右目相机之间的距离、安装参数以及内参。
根据权利要求7所述的车厢姿态识别方法，其特征在于，所述基于所述双目相机(4)的相机参数和所述参考点在像素坐标系下的坐标确定所述参考点的目标空间三维坐标；基于各个参考点的目标三维坐标确定所述车厢(101)的目标空间三维坐标；基于所述车厢(101)的目标三维坐标确定所述车厢(101)的姿态信息，包括：

基于所述双目相机(4)的左右目相机之间的距离、所述双目相机的内参和所述参考点在像素坐标系下的坐标确定所述参考点在相机坐标系下的三维坐标；

基于所述双目相机的安装参数确定第一坐标转换矩阵；

按照所述第一坐标转换矩阵，将所述参考点在相机坐标系下的三维坐标转换为目标车辆坐标系下的三维坐标；所述目标车辆坐标系为所述第二车辆所在的坐标系；

基于各个参考点在所述目标车辆坐标系下的三维坐标确定所述车厢在目标车辆坐标系下的三维坐标；

基于所述车厢在目标车辆坐标系下的三维坐标确定所述车厢(101)的姿态信息。
一种电子设备，所述电子设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求6-8任一项所述的车厢姿态识别方法。
一种计算机存储介质，其特征在于，所述计算机存储介质中存储有至少一条指令或至少一段程序，所述至少一条指令或至少一段程序由处理器加载并执行以实现如权利要求6-8任一项所述的车厢姿态识别方法。