CN113961063A

CN113961063A - 一种基于深度学习的多信息融合人机交互方法及***

Info

Publication number: CN113961063A
Application number: CN202111023056.5A
Authority: CN
Inventors: 王建春; 邓玉婕; 何志军
Original assignee: Quanzhou Zeruihang Technology Co ltd
Current assignee: Quanzhou Zeruihang Technology Co ltd
Priority date: 2021-09-01
Filing date: 2021-09-01
Publication date: 2022-01-21

Abstract

本发明公开了一种基于深度学习的多信息融合人机交互方法及***，属于人机交互技术领域；人机交互方法中的信息捕捉分为两类：隐态信息和显态信息；同时捕捉眼球信号与脑电波信号作为隐态信息进行识别获取；采用语音识别的方法进行显态信息的识别获取进行辅助识别；显态信息用于判断用户的需求，隐态信息用于判断用户对需求的强烈程度；本发明捕捉眼球信号与脑电波信号作为隐态信息进行识别获取；采用语音识别的方法进行显态信息的识别获取进行辅助识别；显态信息用于判断用户的需求，隐态信息用于判断用户对需求的强烈程度。本发明可接入不同的***，对于多种***有着很好的适应性，可以完成绝大部分的人机交互。

Description

一种基于深度学习的多信息融合人机交互方法及***

技术领域

本发明属于人机交互技术领域，特别涉及一种基于深度学习的多信息融合人机交互方法及***。

背景技术

人机交互、人机互动(英文：Human–Computer Interaction或Human –MachineInteraction，简称HCI或HMI)，是一门研究***与用户之间的交互关系的学问。***可以是各种各样的机器，也可以是计算机化的***和软件。人机交互界面通常是指用户可见的部分。用户通过人机交互界面与***交流，并进行操作。小如收音机的播放按键，大至飞机上的仪表板，或发电厂的控制室。人机交互研究***与用户之间的交互关系，其中***可以是机器，也可以是程序化的***和软件。近年来，人机交互利用深度学习等人工智能技术，研究具有多模态输入输出的新一代智能交互***，能够接收并处理外设指令、文字、语音、手势、表情、注视等多种输入/输出文本、图形、语音、手势、表情等多种信息，实现更加智能、更加自然的交互。尽管深度学习在语音识别、图像识别与分割、机器翻译等领域取得了显著的成果，远远超过以前的相关技术，但基于深度学习的人机智能交互***尚有许多艰巨的难题亟需解决，比如语音中句法的模糊性、单词的边界界定、词义的歧义性，图像具有多物体、多目标、前景和背景具有依赖关系，深度学习算法训练方式(单节点多GPU、多节点多GPU等)，以及训练过程中的大量能耗等。在未来的人机交互***中，深度学习依然是领域的前沿内容，同时也是其中的重点和难点。所以亟待开发一种基于深度学习的多信息融合人机交互方法及***。

发明内容

(一)要解决的技术问题

1)隐态信息捕捉识别；

2)辅助眼球识别的显态信息捕捉识别办法；

3)隐态信息与显态信息构成人机交互的方法

(二)技术方案

一种基于深度学习的多信息融合人机交互方法，人机交互过程中的信息捕捉分为两类：隐态信息和显态信息；同时捕捉眼球信号与脑电波信号作为隐态信息进行识别获取；采用语音识别的方法进行显态信息的识别获取进行辅助识别；显态信息用于判断用户的需求，隐态信息用于判断用户对需求的强烈程度。

作为上述方案的进一步说明，所述人机交互方法还包括通过眼球追踪识别进行辅助，判断用户眼球聚焦的位置、瞳孔收缩与放大、眨眼次数，并根据聚焦的位置，对眼球信号及脑电波信号进行增强处理。

作为上述方案的进一步说明，包括以下步骤

步骤100：先识别获取显态信息，显态信息获取后的0.5s同时获取识别隐态信息；

步骤200：通过眼球追踪识别进行辅助，判断用户眼球聚焦的位置、瞳孔收缩与放大、眨眼次数；并对当前用户的眼球状态进行判断；

步骤300：根据眼球追踪识，判断用户眼球聚焦方位；

步骤400：对步骤100获取的显态信息与步骤300获取的球聚焦方位对眼球信号与脑电波信号的预处理；

步骤500：结合步骤400预处理后的眼球信号与脑电波信号和步骤 200获取的眼球状态判断需求及对需求的强烈程度；

步骤600：识别当前用户的关注状态；

步骤700：结合步骤300眼球聚焦方位以及步骤400预处理后的眼球信号与脑电波信号判断当前用户需求是否发生变化；若发生变化则累加当前的显态信息，并返回步骤100获取新的数据；若无发生变化则进入步骤 800；

步骤800：输出需求识别的结果；

步骤900：清空识别的显态信息和隐态信息；若用户再次产生新的需求，返回步骤100获取新的数据。

作为上述方案的进一步说明，所述步骤700包括以下步骤：

步骤710：获取显态信息，进入步骤720；获取眼球信号、脑电波信号，进入步骤730；

步骤720：采用语音识别算法对语音进行识别，获取初步的语音识别结果，并进入步骤740；

步骤730：采用人眼中心定位算法对获取的眼球信号进行捕捉，采用脑电波捕捉技术对脑电波进行捕捉，并进入步骤740；

步骤740：通过语音识别的长度，获取一段时间内的眼球信号、脑电波信号，并进入步骤750；

步骤750：输出最终的识别结果。

作为上述方案的进一步说明，所述步骤740中采用深度学习算法对隐态信息和显态信息进行自动校正。

作为上述方案的进一步说明，所述步骤400的预处理包括根据聚焦的位置，对眼球信号及脑电波信号进行增强处理。

本发明还提出一种基于深度学习的多信息融合人机交互***，所述***包括眼球追踪采集单元、脑电波采集单元、音频单元、存储单元、处理单元；所述眼球追踪采集单元用于采集眼球信号；所述脑电波采集单元用于采集脑电波信号；所述音频单元用于采集语音信号；所述存储单元用于存储眼球追踪采集单元、脑电波采集单元、音频单元所采集的数据，同时用于存储权利要求1-6任一项所述的方法指令；所述处理单元用于执行存储器中存储的方法指令。

具体实施方式

其中，所述人机交互方法还包括通过眼球追踪识别进行辅助，判断用户眼球聚焦的位置、瞳孔收缩与放大、眨眼次数，并根据聚焦的位置，对眼球信号及脑电波信号进行增强处理。

其中，包括以下步骤

步骤300：根据眼球追踪识，判断用户眼球聚焦方位；

步骤600：识别当前用户的关注状态；

步骤800：输出需求识别的结果；

其中，所述步骤700包括以下步骤：

步骤750：输出最终的识别结果。

其中，所述步骤740中采用深度学习算法对隐态信息和显态信息进行自动校正。

其中，所述步骤400的预处理包括根据聚焦的位置，对眼球信号及脑电波信号进行增强处理。

一种基于深度学习的多信息融合人机交互***，所述***包括眼球追踪采集单元、脑电波采集单元、音频单元、存储单元、处理单元；所述眼球追踪采集单元用于采集眼球信号；所述脑电波采集单元用于采集脑电波信号；所述音频单元用于采集语音信号；所述存储单元用于存储眼球追踪采集单元、脑电波采集单元、音频单元所采集的数据，同时用于存储权利要求1-6任一项所述的方法指令；所述处理单元用于执行存储器中存储的方法指令。

工作原理：

本发明提供了一种基于深度学习的多信息融合人机交互方法及***；本发明方法将人体的交互信息分为隐态信息以及显态信息；所谓隐态信息即隐形不易被察觉的人体状态信息，本发明以眼球与脑电波作为最主要隐态信息，其原因在于眼球的聚焦点、眨眼次数、眼球的移动以及脑电波属于人体的下意识的动作，难以通过人体的意识进行实际的控制，因此若采取眼球的状态以及脑电波状态捕捉并信息融合后进行人机交互的方法能够更为明了的了解用户最为真实的想法；所谓显态信息即显而易见的人体状态信息，本发明方法采用语音作为显态信息，采用常见的较为成熟的语音识别技术，采用语音的目的在于在目前的研究技术中，人体的语音识别较为成熟，而且相较于手势、表情等，语音识别更为直观明了；本发明捕捉眼球信号与脑电波信号作为隐态信息进行识别获取；采用语音识别的方法进行显态信息的识别获取进行辅助识别；显态信息用于判断用户的需求，隐态信息用于判断用户对需求的强烈程度。此处本发明的目的之一利用语音识别来识别用户在某一场景下(如工厂、车间、实验室等)当前状态下的最为直接的表达需求，以此作为接入点，同时捕捉人体的脑电波及眼球状态，眼球状态识别(包括判断用户眼球聚焦的位置、瞳孔收缩与放大、眨眼次数)之后可以快速对客户的真实目的进行定位，脑电波可以识别出客户对于眼球聚焦点的某一物体的兴奋程度；通过语音+用户的真实目的+ 兴奋程度三者进行信息融合实现人体多模态信息的获取，根据多模态信息来对场景的识别并与某一***接入，通过***设定的信息映射人体多模态信息，来实现人机交互的方式；例如在某茶叶车间内，采用本发明方法即可通过多模态信息来控制茶叶机械的工作；又比如在无人驾驶中，采用本发明方法，通过语音识别进行地理定位、转向等信息，利用脑电波及眼球追踪来识别路面信息、车速调整以及档位调节等；本发明可接入不同的***，对于多种***有着很好的适应性，其原因在于以传统的人体操作方式来看，眼球、语言、欲望强度是人体面对事物使用最为广泛的三种状态，比如面对一台机械时，语言表达自己想怎么控制，眼球收集自己需要从哪里控制，欲望强度表达自己对控制的强度，因此利用语音识别、脑电波、眼球这三者的捕捉识别可以完成绝大部分的人机交互。

本发明的控制方式是通过人工启动和关闭开关来控制，动力元件的接线图与电源的提供属于本领域的公知常识，并且本发明主要用来保护机械装置，所以本发明不再详细解释控制方式和接线布置。

本发明的控制方式是通过控制器来自动控制，控制器的控制电路通过本领域的技术人员简单编程即可实现，电源的提供也属于本领域的公知常识，并且本发明主要用来保护机械装置，所以本发明不再详细解释控制方式和电路连接。

以上显示和描述了本发明的基本原理和主要特征和本发明的优点,对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。

此外，应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

Claims

1.一种基于深度学习的多信息融合人机交互方法，其特征在于，人机交互方法中的信息捕捉分为两类：隐态信息和显态信息；同时捕捉眼球信号与脑电波信号作为隐态信息进行识别获取；采用语音识别的方法进行显态信息的识别获取进行辅助识别；显态信息用于判断用户的需求，隐态信息用于判断用户对需求的强烈程度。

2.根据权利要求1所述的一种基于深度学习的多信息融合人机交互方法，其特征在于：所述人机交互方法还包括通过眼球追踪识别进行辅助，判断用户眼球聚焦的位置、瞳孔收缩与放大、眨眼次数，并根据聚焦的位置，对眼球信号及脑电波信号进行增强处理。

3.根据权利要求1所述的一种基于深度学习的多信息融合人机交互方法，其特征在于：包括以下步骤

步骤300：根据眼球追踪识，判断用户眼球聚焦方位；

步骤500：结合步骤400预处理后的眼球信号与脑电波信号和步骤200获取的眼球状态判断需求及对需求的强烈程度；

步骤600：识别当前用户的关注状态；

步骤700：结合步骤300眼球聚焦方位以及步骤400预处理后的眼球信号与脑电波信号判断当前用户需求是否发生变化；若发生变化则累加当前的显态信息，并返回步骤100获取新的数据；若无发生变化则进入步骤800；

步骤800：输出需求识别的结果；

4.根据权利要求3所述的一种基于深度学习的多信息融合人机交互方法，其特征在于：所述步骤700包括以下步骤：

步骤750：输出最终的识别结果。

5.根据权利要求4所述的一种基于深度学习的多信息融合人机交互方法，其特征在于：所述步骤740中采用深度学习算法对隐态信息和显态信息进行自动校正。

6.根据权利要求3所述的一种基于深度学习的多信息融合人机交互方法，其特征在于：所述步骤400的预处理包括根据聚焦的位置，对眼球信号及脑电波信号进行增强处理。

7.一种基于权利要求1-6任一项所述的基于深度学习的多信息融合人机交互方法的***，其特征在于，所述***包括眼球追踪采集单元、脑电波采集单元、音频单元、存储单元、处理单元；所述眼球追踪采集单元用于采集眼球信号；所述脑电波采集单元用于采集脑电波信号；所述音频单元用于采集语音信号；所述存储单元用于存储眼球追踪采集单元、脑电波采集单元、音频单元所采集的数据，同时用于存储权利要求1-6任一项所述的方法指令；所述处理单元用于执行存储器中存储的方法指令。