CN116330305B

CN116330305B - 多模态人机交互装配方法、***、设备及其介质

Info

Publication number: CN116330305B
Application number: CN202310620636.5A
Authority: CN
Inventors: 穆宏
Original assignee: Changzhou Xutaike System Technology Co ltd
Current assignee: Changzhou Xutaike System Technology Co ltd
Priority date: 2023-05-30
Filing date: 2023-05-30
Publication date: 2023-10-31
Anticipated expiration: 2043-05-30
Also published as: CN116330305A

Abstract

本发明涉及零件装配技术领域，尤其涉及一种多模态人机交互装配方法、***、设备及其介质，方法包括：向工作台投影出预设指导信息；依据预设指导信息，从多个放置不同装配零件的物料盒中拿取预设指导信息指示的至少一个零件，图像采集设备对拿取过程进行拍摄，获取在物料盒上拿取零件的图像；根据拿取零件的图像判定拿取的零件是否正确，若是，则将拿取的零件放至工作台，否则，提示拿取错误；依据预设指导信息，将所有零件拿取至工作台，显示设备播放产品的组装视频，引导作业人员完成对产品的装配。本发明提供一种多模态人机交互装配方法，产品装配智能化程度和精准度高，实现成本小，能够复杂的工业环境中广泛应用。

Description

多模态人机交互装配方法、***、设备及其介质

技术领域

本发明涉及零件装配技术领域，尤其涉及一种多模态人机交互装配方法、***、设备及其介质。

背景技术

在装配产品中，不同零件安装在产品的不同位置上，复杂产品的装配过程往往需要大量指导信息，现代生产型企业在自动化生产过程中，许多复杂产品的装配离不开人员的手工操作，在这种装配过程中存在零件漏装、混装、顺序错误等情况，当下企业在进行数字化转型，手工装配过程也是数字化生产的一部分。传统的电子产品组装工作台通常如图1所示，包括装着不同待装配零件的物料盒、工装、工具及设备。其中零件包含要组装到PCB印刷电路板或外壳上的多种电子零件或机械零件。组装时工人通常根据张贴在工人面前的装配手册和操作指导书的信息进行组装工作，现有的装配过程中，存在如下缺点：

（1）装配顺序依靠装配人员的手动操作，容易出现装配顺序错误或容易拿错装配零件，同时装配过程需要反复确认装配步骤和装配零件，装配错误无法监控，工作效率低；

（2）发生装配错误后，只有拆卸部分已经装配好的零件才能更正错误，往往导致作业进度延迟，严重影响装配效率；

（3）装配手册和操作指导书的信息与现场人员无法实时互动；

（4）长时间的重复性劳动也会导致装配工人疲劳，难以保持高度注意力和记忆力而造成装配错误，降低工作效率。

为了解决装配顺序错误或容易拿错装配零件问题，现有技术将防错技术引入到设备中，而不是只仅仅让工人来决定操作的正确与否，如采用扫描条形码来控制装配过程，或手用辅机进行控制，或采用VR、AR技术，视觉跟踪技术，双图像采集设备立体成相技术、手势及姿态识别技术等来控制人机互交技术的运用。但是现有防错技术引入到设备中实现成本高，在工业装配上不适用，且在复杂产品，尤其是产品多品种，小能量时，装配平台的防错，人工装配过程中检测精度面临着考验。

发明内容

本发明要解决的技术问题是：为了解决现有产品装配智能化程度和精准度低，实现成本大，无法在一些复杂的工业环境中广泛应用的技术问题，本发明提供一种多模态人机交互装配方法，产品装配智能化程度和精准度高，实现成本小，能够复杂的工业环境中广泛应用。

本发明解决其技术问题所采用的技术方案是：一种多模态人机交互装配方法，包括以下步骤：

S1，向工作台投影出预设指导信息；

S2，依据所述预设指导信息，从多个放置不同装配零件的物料盒中拿取所述预设指导信息指示的至少一个零件，图像采集设备对拿取过程进行拍摄，获取在物料盒上拿取零件的图像；

S3，根据所述拿取零件的图像判定拿取的零件是否正确，若是，则将拿取的零件放至工作台，否则，提示拿取错误；

S4，根据步骤S1~步骤S3，依据预设指导信息，将所有零件拿取至工作台，显示设备播放产品的组装视频，引导作业人员完成对产品的装配。

进一步，具体地，在所述步骤S2中，图像采集设备包括：红外相机、深度相机以及RGB相机；

所述步骤S2具体包括以下步骤：

S21，作业人员从多个放置不同装配零件的物料盒中拿取所述预设指导信息指示的至少一个零件时，所述红外相机获取红外图像，所述深度相机获取深度图像，所述RGB相机获取彩色图像；

S22，依据所述红外图像和所述深度图像检测所述作业人员手的位置；

S23，基于手的位置，得到手型骨架；

S24，依据所述手型骨架和所述彩色图像实时对手势进行追踪，确认是否拿取零件，若拿取，得到所述拿取零件的图像。

进一步，具体地，所述步骤S3具体包括以下步骤：

S31，建立三维坐标系，以所述工作台所在平面为三维坐标系的O-XY平面，垂直于O-XY平面方向为三维坐标系的Z轴方向；

S32，获取每个物料盒在三维坐标系的坐标信息；

S33，对所述拿取零件的图像进行检测识别，得到手的坐标信息；

S34，根据每个物料盒在三维坐标系的坐标信息和手的坐标信息，判定拿取的零件是否正确。

进一步，具体地，所述预设指导信息包括图形引导信息和文字信息，所述文字信息包括零件名称以及零件物料盒编号。

一种多模态人机交互装配***，包括设备台架，所述设备台架安装有工作站及均与所述工作站连接的投影组件、图像采集设备、显示器和扬声器；

所述投影组件被配置为在所述工作站的控制下向所述工作台投影出预设指导信息；

所述图像采集设备被配置为在所述工作站的控制下对拿取过程进行拍摄；

所述显示器被配置在为所述工作站的控制下播放产品的组装视频；

所述扬声器被配置为在所述工作站的控制下输出预定声音信息；

所述工作站被配置为控制所述显示器、图像采集设备、投影组件及扬声器的运行，以及对所述图像采集设备拍摄的图像进行相应处理；

所述多模态人机交互装配***通过工作站、投影组件、图像采集设备、显示器和扬声器，执行如上所述多模态人机交互装配方法的步骤。

进一步，具体地，所述设备台架还包括：多层物料盒装配架，每层所述物料盒装配架呈阶梯形式固设在所述设备台架上。

进一步，具体地，所述显示器具有触摸屏，被配置在所述工作站的控制下播放产品的组装视频显示出预定操作界面，并响应于作业人员输入产生作业人员输入信息。

进一步，具体地，所述投影组件包括：投影仪和反射镜，所述投影仪投影出预设指导信息，所述预设指导信息经所述反射镜反射至工作台显示。

一种计算机设备，包括：处理器；存储器，用于存储可执行指令；其中，所述处理器用于从所述存储器中读取所述可执行指令，并执行所述可执行指令以实现如上任一项所述的多模态人机交互装配方法。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，当所述计算机程序被处理器执行时，使得处理器实现如上所述的多模态人机交互装配方法。

本发明的有益效果是，本发明的一种多模态人机交互装配方法，通过增加视觉处理技术以及投影指导技术，利用先进的视觉识别和语音交互提高智能人机交互水平，运用视觉处理技术进行手势实时跟踪与识别，实现对产品装配过程的自动监测，能够自动标记装配零件型号，运用人机交互进行装配零件的正确提示，及时纠正错误的零件装配，将装配流程准确地显示在装配场景中，显著提升装配效率，这样的操作指导，操作防错即便是非常复杂的物件装配，也可以使只接受简单训练的作业人员完整、正确、高级的进行工作，生产效率、交货时间和制造敏捷性的显著改善。

附图说明

下面结合附图和实施例对本发明进一步说明。

图1是传统的电子产品组装工作台的结构示意图。

图2是本发明实施例一多模态人机交互装配方法的流程示意图。

图3是本发明实施例一步骤S2的流程示意图。

图4是本发明实施例一步骤S3的流程示意图。

图5是本发明实施例一手型骨节点示意图。

图6是本发明实施例一作业人员手在物料盒上拿取图像，（a）作业人员手在物料盒上的图像；（b）作业人员手从位置A至位置B的图像。

图7是本发明实施例二多模态人机交互装配***的硬件结构示意图。

图8是本发明实施例二多模态人机交互装配***的设备结构示意图。

图9是本发明实施例二多层物料盒装配架和物料盒的另一种装配示意图。

图10 是本发明实施例三计算机设备结构示意图。

图中10、计算机设备；1002、处理器；1004、存储器；1006、传输装置；20、设备台架；200、工作站；201、投影组件；202、图像采集设备；203、显示器；204、扬声器；205、物料盒装配架；206、工作台；207、投影区域；208、物料盒；2021、红外相机；2022、深度相机；2023、RGB相机；2011、投影仪；2012、反射镜。

具体实施方式

现在结合附图对本发明作进一步详细的说明。这些附图均为简化的示意图，仅以示意方式说明本发明的基本结构，因此其仅显示与本发明有关的构成。

在本发明的描述中，需要理解的是，术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”、“顺时针”、“逆时针”、“轴向”、“径向”、“周向”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中，除非另有说明，“多个”的含义是两个或两个以上。

在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

实施例1：如图2所示，本申请实施例提供了一种多模态人机交互装配方法，包括以下步骤：

S1，向工作台206投影出预设指导信息；其中，预设指导信息包括图形引导信息和文字信息，图形引导信息为零件的图像信息，文字信息包括零件名称以及零件物料盒编号。S2，依据预设指导信息，从多个放置不同装配零件的物料盒208中拿取预设指导信息指示的至少一个零件，图像采集设备202对拿取过程进行拍摄，获取在物料盒208上拿取零件的图像。

S3，根据拿取零件的图像判定拿取的零件是否正确，若是，则将拿取的零件放至工作台206，否则，提示拿取错误。

S4，根据步骤S1~步骤S3，依据预设指导信息，将所有零件拿取至工作台206，显示器203播放产品的组装视频，引导作业人员完成对产品的装配。

在本实施例中，图像采集设备202包括：红外相机2021、深度相机2022以及RGB相机2023，通过红外相机2021、深度相机2022以及RGB相机2023对图像进行采集和处理，联合红外图像、深度图像和彩色图像的检测技术作为多模态数据，应用于动态手势识别中，避免在实际图像采集处理过程中，由于手指间距离较小以及手指运动幅度较小，手部做运动时，容易发生自遮挡；手部凭借着复杂的手部结构可以做出成千万种手势，但是因为手指和关节的运动幅度较小，不同类手势间的差异可能很小，手势识别的复杂度高；以及背景干扰与手颜色近似，或其环境噪声也限制了手势识别精确度的问题。

如图3所示，步骤S2具体包括以下步骤：

S21，作业人员从多个放置不同装配零件的物料盒208中拿取预设指导信息指示的至少一个零件时，红外相机2021获取红外图像，深度相机2022获取深度图像，RGB相机2023获取彩色图像。

S22，依据红外图像和深度图像检测作业人员手的位置；进一步的，根据红外图像检测到作业人员的手，根据深度图像检测到作业人员手的高度，进而检测出作业人员拿取零件手的位置，避免检测的手为作业人员没有拿取零件手的位置。

需要说明的是，直接使用依据颜色图识别手型时，其结果易受光照和颜色影响，为去除颜色图误识别信息，还对获取的红外图像和深度图像进行过滤处理，滤除对错误识别结果。

S23，基于手的位置，得到手型骨架；根据所述手的位置，从所述深度图像中分割出手部区域图像，基于骨节点估计算法，从手部区域图像中估计出手的骨节点位置，得到完整的手型骨架。骨节点估计算法为基于深度学习的骨节点估计算法，用于精确地估计出手骨节点的3D位置。在本实施例中，依据骨节点估计算法获取21个骨节点，如图5所示，21个骨节点包括指尖、各节指骨连接处等。获取完整的手型骨架，大大降低了由于人为拿取错误的频率，从而排除了误识别和误检，为后续手势追踪提供稳定保证。

S24，依据手型骨架和彩色图像实时对手势进行追踪，确认是否拿取零件，若拿取，得到拿取零件的图像。彩色图像包括背景变化、手部运动细节和非手部的其他部件的运动过程，当手在物料盒208上动作时，多张彩色图像各帧之间会产生相对运动，用于得到手的运动轨迹，根据手型骨架识别拿取动作，确认是否拿取零件，结合手型骨架和彩色图像在信息描述上形成互补，鲁棒性好。

通过联合红外图像、深度图像和彩色图像的检测技术作为多模态数据，并进行融合，能够有效弥补单一模态数据的局限性，深度图像中描述手部的像素值会随着手部与摄像头之间的距离变化而变化，结合手型骨架根据像素值的差异能够快速判别出手势动作。

在本实施例中，如图4所示，步骤S3具体包括以下步骤：

S31，建立三维坐标系，以工作台206所在平面为三维坐标系的O-XY平面，垂直于O-XY平面方向为三维坐标系的Z轴方向。

S32，获取每个物料盒208在三维坐标系的坐标信息。

S33，对拿取零件的图像进行检测识别，得到手的坐标信息。

S34，根据每个物料盒208在三维坐标系的坐标信息和手的坐标信息，判定拿取的零件是否正确。

如图6所示，a是作业人员手在物料盒208上采集的图像，b是作业人员手的位置A至位置B的图像，以拿取左上角的物料盒208为例对根据拿取零件的图像判定拿取的零件是否正确进一步说明，已知左上角物料盒208的坐标信息为c1（x1,y1,z1），c2（x1,y2,z1），c3（x2,y1,z1），c4（x2,y2,z1），对拿取零件的图像处理得到手的坐标信息B(X，Y，Z)，判断坐标信息B(X，Y，Z)是否在左上角物料盒208的坐标信息内，若在，则拿取正确。由于每个物料盒208内零件是优先设置在***内，通过计算机视觉技术进行手势实时跟踪与识别，实现对零件拿取过程的自动监测，能够自动标记装配零件型号。

需要说明的是，在本实施例中，通过红外相机、深度相机以及RGB相机对图像进行采集和处理，红外相机、深度相机以及RGB相机三个相机功能上彼此相互支持，联合红外图像、深度图像和彩色图像的检测技术作为多模态数据，基于红外图像和深度图像结合处理实现对完整的手部骨架的检测，对作业人员拿取零件动作的手进行识别追踪时，识别速度快、精度高，能够提高处理速率，且后续基于检测的手型骨架和RGB图像对拿取零件检测时，进一步提高了检测精度，实现对产品装配过程的自动监测，能够自动标记装配零件型号，能够快速将检测结果反馈给作业人员，提高了作业人员的工作效率，生产效率、交货时间和制造敏捷性的显著改善。

本发明的一种多模态人机交互装配方法，通过增加视觉处理技术以及投影指导技术，利用先进的视觉识别和语音交互提高智能人机交互水平，运用视觉处理技术进行手势实时跟踪与识别，实现对产品装配过程的自动监测，自动标记装配零件型号，运用人机交互进行装配零件的正确提示，及时纠正错误装配，将装配流程准确地显示在装配场景中，显著提升装配效率，这样的操作指导，操作防错即便是非常复杂的物件装配也可以使只接受简单训练的作业人员完整、正确、高级的进行工作，生产效率、交货时间和制造敏捷性的显著改善。

实施例2：如图7-8所示，本申请实施例提供了一种多模态人机交互装配***，包括设备台架20，设备台架20安装有工作站200及均与工作站200连接的投影组件201、图像采集设备202、显示器203和扬声器204；投影组件201被配置为在工作站200的控制下向工作台206投影出预设指导信息；图像采集设备202被配置为在工作站200的控制下对拿取过程进行拍摄；显示器203被配置在为工作站200的控制下播放产品的组装视频；扬声器204被配置为在工作站200的控制下输出预定声音信息；工作站200被配置为控制显示器203、图像采集设备202、投影组件201及扬声器204的运行，以及对图像采集设备202拍摄的图像进行相应处理；多模态人机交互装配***通过工作站200、投影组件201、图像采集设备202、显示器203和扬声器204，执行如上多模态人机交互装配方法的步骤。在帮助作业人员零件装配的过程中，极大的保证了拿取零件的完整性和准确性，且由于不需要手动扫描条码，转配效率快，通过工作站高速的运算，可以及时纠正错误的零件装配，将装配流程准确地显示在装配场景中，显著提升装配效率；另外，结构简单，实现成本小，能够复杂的工业环境中广泛应用。

工作站200可设置在设备台架20的上，较佳的为主机。工作站200作为控制中心，承担数据处理、存储等任务，并控制***中显示器203、图像采集设备202、投影组件201以及扬声器204的运行。

投影组件201包括：投影仪2011和反射镜2012，投影仪2011投影出预设指导信息，预设指导信息经反射镜2012反射至工作台206显示。投影仪2011可以是小型投影设备，安装在设备台架20的上方。进一步的，反射镜2012固设在投影仪2011的投影面的前方，且在设备台架20的竖直中心线上，反射镜与工作台206形成45°的夹角，使得预设指导信息能够被投射在工作台206的投影区域207，方便作业人员看到投影出的预设指导信息，快速指导作业人员，不需要作业人员在装配过程中复确认装配零件，根据预设知道信息能够避免出现装配顺序错误或容易拿错装配零件的情况，提高了装配效率，且能够减少视觉处理分析的工作量，提高了***的工作效率。

图像采集设备202安装在设备台架20的上方，图像采集设备202的镜头倾斜一定的角度朝向物料盒208，图像采集设备202可在工作站200的控制下对拿取过程进行拍摄，并把所拍摄的图像传给工作站200。图像采集设备202包括：红外相机2021、深度相机2022以及RGB相机2023，红外相机2021、深度相机2022以及RGB相机2023均与工作站200连接，获取工作站200的控制信号，以及将各相机采集的图像传输至工作站200处理。

显示器203装安装在工作台206的附近，用于负责作业人员的可视化界面交互，能自由选择多种安装流程教学，便于作业人员观看装配视频，显示器203具有触摸屏，被配置在工作站200的控制下播放产品的组装视频显示出预定操作界面，并响应于作业人员输入产生作业人员输入信息。可以通过操作界面对每个物料盒208的零件类型，物料盒208的编号、以及物料盒208在三维坐标系的坐标信息进行设置。可以使用OpenCV框架对相关信息进行设置。

扬声器204较佳的可以是两个，装设在作业人员站位的左右前方，在工作站200的控制下输出声音信息。

在本实施例中，如图8-9所示，设备台架20还包括：多层物料盒装配架205，多层物料盒装配架205至少是2层，也可以是3层，根据需求增加物料盒208装配架的层数。每层物料盒装配架205呈阶梯形式固设在设备台架20上。通过将物料盒装配架205设置成阶梯形式，并倾斜一定的角度，与物料盒装配架205相配合的物料盒208可以设置成小型结构。设置的斜面使物料盒208具有一定的倾斜，各零件更容易被工作人员找到并快速装配，提高零件装配的效率。另外设置的斜面使物料盒208具有一定的倾斜，相邻两层物料盒208之间形成错位，使得图像采集设备202对拿取过程进行拍摄时能够拍摄到每一个物料盒208，便于后续运用视觉处理技术进行手势实时跟踪与识别，提高对拿取的零件检测的准确率，且错位设置，能够提高对拿取的零件图像分析速率。

实施例3：本申请实施例提供了一种计算机设备，该计算机设备包括处理器和存储器，该存储器中存储有至少一条指令或至少一段程序，该至少一条指令或该至少一段程序由该处理器加载并执行以实现如上述方法实施例所提供的一种多模态人机交互装配方法。

图10示出了一种用于实现本申请实施例所提供的一种多模态人机交互装配方法的设备的硬件结构示意图，设备可以参与构成或包含本申请实施例所提供的装置或***。如图10所示，计算机设备10可以包括一个或多个处理器1002(处理器可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器1004、以及用于通信功能的传输装置1006。除此以外，还可以包括：显示设备、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为I/O接口的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解，图10所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，计算机设备10还可包括比图10中所示更多或者更少的组件，或者具有与图10所示不同的配置。

应当注意到的是上述一个或多个处理器和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外，数据处理电路可为单个独立的处理模块，或全部或部分的结合到计算机设备10(或移动设备)中的其他元件中的任意一个内。如本申请实施例中所涉及到的，该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。

存储器1004可用于存储应用软件的软件程序以及模块，如本申请实施例中的一种多模态人机交互装配方法对应的程序指令/数据存储装置，处理器通过运行存储在存储器1004内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的一种方法。存储器1004可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器1004可进一步包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至计算机设备10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置1006用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机设备10的通信供应商提供的无线网络。在一个实例中，传输装置1006包括一个网络适配器(NetworkInterfaceController，NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置1006可以为射频(RadioFrequency，RF)模块，其用于通过无线方式与互联网进行通讯。

显示设备可以例如触摸屏式的液晶显示器(LCD)，该液晶显示器可使得用户能够与计算机设备10(或移动设备)的用户界面进行交互。

实施例4:本申请实施例还提供了一种计算机可读存储介质，计算机可读存储介质可设置于服务器之中以保存用于实现方法实施例中一种多模态人机交互装配方法相关的至少一条指令或至少一段程序，该至少一条指令或该至少一段程序由该处理器加载并执行以实现上述方法实施例提供的一种多模态人机交互装配方法。

可选地，在本实施例中，上述存储介质可以位于计算机网络的多个网络服务器中的至少一个网络服务器。可选地，在本实施例中，上述存储介质可以包括但不限于：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

实施例5：本发明实施例还提供了一种计算机程序产品或计算机程序，计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各种可选实施方式中提供的一种多模态人机交互装配方法。

需要说明的是：上述本申请实施例先后顺序仅仅为了描述，不代表实施例的优劣。且上述对本申请特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本申请中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置、设备和存储介质实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上述依据本发明的理想实施例为启示，通过上述的说明内容，相关工作人员完全可以在不偏离本项发明技术思想的范围内，进行多样的变更以及修改。本项发明的技术性范围并不局限于说明书上的内容，必须要根据权利要求范围来确定其技术性范围。

Claims

1.一种多模态人机交互装配***，包括设备台架（20），其特征在于，所述设备台架（20）安装有工作站（200）及均与所述工作站（200）连接的投影组件（201）、图像采集设备（202）、显示器（203）和扬声器（204）；

所述投影组件（201）被配置为在所述工作站（200）的控制下向工作台（206）投影出预设指导信息；

所述图像采集设备（202）被配置为在所述工作站（200）的控制下对拿取过程进行拍摄；

所述显示器（203）被配置为在所述工作站（200）的控制下播放产品的组装视频；

所述扬声器（204）被配置为在所述工作站（200）的控制下输出预定声音信息；

所述工作站（200）被配置为控制所述显示器（203）、图像采集设备（202）、投影组件（201）及扬声器（204）的运行，以及对所述图像采集设备（202）拍摄的图像进行相应处理；

其中，所述设备台架（20）还包括：多层物料盒装配架（205），每层所述物料盒装配架（205）呈阶梯形式倾斜设置，使置于每层物料盒装配架（205）上的物料盒（208）之间形成错位，使图像采集设备（202）对拿取过程进行拍摄时能够拍摄到每一个物料盒（208）；

所述多模态人机交互装配***通过工作站（200）、投影组件（201）、图像采集设备（202）、显示器（203）和扬声器（204），执行以下步骤：

S1，向工作台（206）投影出预设指导信息；

S2，依据所述预设指导信息，从多个放置不同装配零件的物料盒（208）中拿取所述预设指导信息指示的至少一个零件，图像采集设备（202）对拿取过程进行拍摄，获取在所述物料盒（208）上拿取零件的图像；

S3，根据所述拿取零件的图像判定拿取的零件是否正确，若是，则将拿取的零件放至所述工作台（206），否则，提示拿取错误；

S4，根据步骤S1~步骤S3，依据预设指导信息，将所有零件拿取至所述工作台（206），显示器（203）播放产品的组装视频，引导作业人员完成对产品的装配；

其中，在所述步骤S2中，所述图像采集设备（202）包括：红外相机（2021）、深度相机（2022）以及RGB相机（2023）；

所述步骤S2具体包括以下步骤：

S21，作业人员从多个放置不同装配零件的物料盒（208）中拿取所述预设指导信息指示的至少一个零件时，所述红外相机（2021）获取红外图像，所述深度相机（2022）获取深度图像，所述RGB相机（2023）获取彩色图像；

S23，基于手的位置，得到手型骨架；

2.如权利要求1所述的多模态人机交互装配***，其特征在于，所述步骤S3具体包括以下步骤：

S31，建立三维坐标系，以所述工作台（206）所在平面为三维坐标系的O-XY平面，垂直于O-XY平面方向为三维坐标系的Z轴方向；

S32，获取每个物料盒（208）在三维坐标系的坐标信息；

S34，根据每个物料盒（208）在三维坐标系的坐标信息和手的坐标信息，判定拿取的零件是否正确。

3.如权利要求1所述的多模态人机交互装配***，其特征在于，所述预设指导信息包括图形引导信息和文字信息，所述文字信息包括零件名称以及零件物料盒编号。

4.如权利要求1所述的多模态人机交互装配***，其特征在于，所述显示器（203）具有触摸屏，被配置在所述工作站（200）的控制下播放产品的组装视频显示出预定操作界面，并响应于作业人员输入产生作业人员输入信息。

5.如权利要求1所述的多模态人机交互装配***，其特征在于，所述投影组件（201）包括：投影仪（2011）和反射镜（2012），所述投影仪（2011）投影出预设指导信息，所述预设指导信息经所述反射镜（2012）反射至工作台（206）显示。