CN111967334B

CN111967334B - 一种人体意图识别方法、***以及存储介质

Info

Publication number: CN111967334B
Application number: CN202010699862.3A
Authority: CN
Inventors: 闫野; 吴竞寒; 印二威; 谢良; 邓宝松; 范晓丽; 罗治国; 闫慧炯; 杨超
Original assignee: Tianjin (binhai) Intelligence Military-Civil Integration Innovation Center; National Defense Technology Innovation Institute PLA Academy of Military Science
Current assignee: Tianjin (binhai) Intelligence Military-Civil Integration Innovation Center; National Defense Technology Innovation Institute PLA Academy of Military Science
Priority date: 2020-07-20
Filing date: 2020-07-20
Publication date: 2023-04-07
Anticipated expiration: 2040-07-20
Also published as: CN111967334A

Abstract

本发明公开了一种人体意图识别方法，所述方法包括：实时采集当前人体的特征信号；基于所述特征信号生成所述当前人体对应的多源数据特征以及眼睛选定的注视点坐标；识别所述多源数据特征以及眼睛选定的注视点坐标，生成所述多源数据特征对应的语音文本以及所述注视点坐标对应的场景图像描述文本；针对所述语音文本以及场景图像描述文本进行实体抽取，生成所述语音文本以及场景图像描述文本对应的实体片段；采用共指消解算法处理所述实体片段，生成目标对象；基于所述语音文本、场景图像描述文本以及目标对象，生成人体意图识别结果。因此，采用本申请实施例，通过针对特定场景的口眼协同交互信息处理后得到识别结果，从而提升了机器识别人体意图的准确率。

Description

一种人体意图识别方法、***以及存储介质

技术领域

本发明涉及人工智能技术领域，特别涉及一种人体意图识别方法、***以及存储介质。

背景技术

近年来，随着新型穿戴式传感技术手段和人工智能技术的快速发展，涌现出大批学者和研究机构基于眼、口等生理交互媒介开展的语音和眼动等人机自然交互研究。事实上，人与人之间的交互是一个口眼协同并用的过程，多元媒介信息的互补特性使人与人之间的语义表达更加高效畅通。

在现有技术中，人与操作设备(如头戴显示设备、计算机、手机等生活用设备)之间的交互主要是通过手工操作的交互方式。例如，人与头戴显示设备进行交互时，可以利用物理按键进行提高音量、播放或暂停等操作；人与计算机进行交互时，需要手工操作键盘或特定标识进行播放或打开等操作。由于这种交互方式智能性低，浪费时间，从而降低了人机交互的效率。

因此，如何建立人机之间的共识，提高机器对人体意图的识别效率，是学术界亟待突破的难题。

发明内容

本申请实施例提供了一种人体意图识别方法、***以及存储介质。为了对披露的实施例的一些方面有一个基本的理解，下面给出了简单的概括。该概括部分不是泛泛评述，也不是要确定关键/重要组成元素或描绘这些实施例的保护范围。其唯一目的是用简单的形式呈现一些概念，以此作为后面的详细说明的序言。

第一方面，本申请实施例提供了一种人体意图识别方法，所述方法包括：

实时采集当前人体的特征信号；

基于所述特征信号生成所述当前人体对应的多源数据特征以及眼睛选定的注视点坐标；

识别所述多源数据特征以及眼睛选定的注视点坐标，生成所述多源数据特征对应的语音文本以及所述注视点坐标对应的场景图像描述文本；

针对所述语音文本以及场景图像描述文本进行实体抽取，生成所述语音文本以及场景图像描述文本对应的实体片段；

采用共指消解算法处理所述实体片段，生成目标对象；

基于所述语音文本、场景图像描述文本以及目标对象，生成人体意图识别结果。

可选的，所述生成人体意图识别结果之后，还包括：

将所述人体意图识别结果进行显示并发送至外接设备，控制所述外接设备执行功能。

可选的，所述特征信号包括音频信号、唇部图像信号、面部肌电信号和眼睛图像信号；

所述基于所述特征信号生成所述当前人体对应的多源数据特征以及眼睛选定的注视点坐标，包括：

分别将所述音频信号、唇部图像信号、面部肌电信号进行数据预处理，生成所述当前人体对应的多源数据特征；

对所述眼睛图像信号进行注视点坐标提取，生成所述当前人体对应的眼睛选定的注视点坐标。

可选的，所述分别将所述音频信号、唇部图像信号、面部肌电信号进行数据预处理，生成所述当前人体对应的多源数据特征，包括：

对所述音频信号进行分帧和加窗处理，生成音频信号数据特征；

提取所述面部肌电信号的梅尔倒谱系数，生成面部肌电信号数据特征；

将所述嘴唇图像信号进行灰度图转化，并使用滤波器进行滤波，生成嘴唇图像信号数据特征；

将所述音频信号数据特征、面部肌电信号数据特征以及嘴唇图像信号数据特征确定为所述当前人体对应的多源数据特征。

可选的，所述对所述眼睛图像信号进行注视点坐标提取，生成所述当前人体对应的眼睛选定的注视点坐标，包括：

将所述眼睛图像信号输入预先训练的注视点映射模型中，生成所述当前人体对应的眼睛选定的注视点坐标。

可选的，所述识别所述多源数据特征以及眼睛选定的注视点坐标，生成所述多源数据特征对应的语音文本以及所述注视点坐标对应的场景图像描述文本，包括：

将所述多源数据特征进行稠密编码，生成编码后的多源数据特征；

将所述编码后的多源数据特征输入至预先训练的Bert网络模型中，生成所述多源数据特征对应的语音信息；

利用集束搜索算法的n-gram语言模型将所述多源数据特征对应的语音信息进行文本合成，生成所述多源数据特征对应的语音文本；

对所述眼睛选定的注视点坐标进行编码，生成所述注视点坐标对应的场景图像描述文本。

可选的，所述对所述眼睛选定的注视点坐标进行编码，生成所述注视点坐标对应的场景图像描述文本，包括：

根据所述眼睛选定的注视点坐标生成眼睛选定的场景图像；

利用ResNet101的Fast R-CNN算法对所述场景图像依次进行图像分割、目标检测以及坐标信息识别，生成编码信息；

基于所述编码信息进行编码建模，生成所述注视点坐标对应的场景图像描述文本。

可选的，所述基于所述语音文本、场景图像描述文本以及目标对象，生成人体意图识别结果，包括：

针对所述语音文本、场景图像描述文本以及目标对象进行文本语义分析，生成文本的编码；

将所述文本的编码和预先定义的元组进行关联，生成可执行的实例化元组；

根据所述实例化元组生成语义分析结果和表征结果；

将所述语义分析结果和表征结果确定为人体意图识别结果。

第二方面，本申请实施例提供了一种人体意图识别***，所述***包括：

信号采集模块，用于实时采集当前人体的特征信号；

数据生成模块，用于基于所述特征信号生成所述当前人体对应的多源数据特征以及眼睛选定的注视点坐标；

文本生成模块，用于识别所述多源数据特征以及眼睛选定的注视点坐标，生成所述多源数据特征对应的语音文本以及所述注视点坐标对应的场景图像描述文本；

实体抽取模块，用于针对所述语音文本以及场景图像描述文本进行实体抽取，生成所述语音文本以及场景图像描述文本对应的实体片段；

目标对象生成模块，用于采用共指消解算法处理所述实体片段，生成目标对象；

识别结果生成模块，用于基于所述语音文本、场景图像描述文本以及目标对象，生成人体意图识别结果。

第三方面，本申请实施例提供一种计算机存储介质，所述计算机存储介质存储有多条指令，所述指令适于由处理器加载并执行上述的方法步骤。

本申请实施例提供的技术方案可以包括以下有益效果：

在本申请实施例中，人体意图识别***首先实时采集当前人体的特征信号，再基于特征信号生成当前人体对应的多源数据特征以及眼睛选定的注视点坐标，然后识别多源数据特征以及眼睛选定的注视点坐标，生成多源数据特征对应的语音文本以及注视点坐标对应的场景图像描述文本，再针对语音文本以及场景图像描述文本进行实体抽取，生成语音文本以及场景图像描述文本对应的实体片段，再采用共指消解算法处理实体片段，生成目标对象，最后基于语音文本、场景图像描述文本以及目标对象，生成人体意图识别结果。由于本申请通过实时采集人体的语音特征信号以及面部特征信号进行融合交互，从而有效克服多模态交互信息的冗余和歧义，丰富信息中的语义，建立起人机之间的共识，从而提高了机器识别人体意图的效率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本发明。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

图1是本申请实施例提供的一种人体意图识别方法的流程示意图；

图2是本申请实施例提供的一种人体意图识别的过程示意图；

图3是本申请实施例提供的一种人体意图识别的框架流程图；

图4是本申请实施例提供的一种人体意图识别***的***示意图；

图5是本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

以下描述和附图充分地示出本发明的具体实施方案，以使本领域的技术人员能够实践它们。

应当明确，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是如所附权利要求书中所详述的、本发明的一些方面相一致的***和方法的例子。

在本发明的描述中，需要理解的是，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。此外，在本发明的描述中，除非另有说明，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

到目前为止，人与操作设备(如头戴显示设备、计算机、手机等生活用设备)之间的交互主要是通过手工操作的交互方式。例如，人与头戴显示设备进行交互时，可以利用物理按键进行提高音量、播放或暂停等操作；人与计算机进行交互时，需要手工操作键盘或特定标识进行播放或打开等操作。由于这种交互方式智能性低，浪费时间，从而降低了人机交互的效率。因此，如何建立人机之间的共识，提高机器对人体意图的识别效率，是学术界亟待突破的难题。为此，本申请提供了一种人体意图识别方法、***以及存储介质，以解决上述相关技术问题中存在的问题。本申请提供的技术方案中，由于本申请通过实时采集人体的语音特征信号以及面部特征信号进行融合交互，从而有效克服多模态交互信息的冗余和歧义，丰富信息中的语义，建立起人机之间的共识，从而提高了机器识别人体意图的效率，下面采用示例性的实施例进行详细说明。

下面将结合附图1-附图3，对本申请实施例提供的人体意图识别方法进行详细介绍。该方法可依赖于计算机程序实现，可运行于基于冯诺依曼体系的人体意图识别***上。该计算机程序可集成在应用中，也可作为独立的工具类应用运行。

请参见图1，为本申请实施例提供了一种人体意图识别方法的流程示意图。如图1所示，本申请实施例的所述方法可以包括以下步骤：

S101，实时采集当前人体的特征信号；

其中，当前人体为当前时刻进行人机交互的用户，特征信号是当前用户产生的音频信号、唇部图像信号、面部肌电信号和眼睛图像信号。

在一种可能的实现方式中，当用户进行人机交互时，用户根据自己的意图进行语言表达，此时人体意图识别装置同步获取语音输入的音频信号，用户的嘴唇图像信号，用户的面部肌电信号以及眼睛图像信号数据。

S102，基于所述特征信号生成所述当前人体对应的多源数据特征以及眼睛选定的注视点坐标；

在本申请实施例中，人体意图识别装置首先同步获取的音频信号、唇部图像信号以及面部肌电信号进行数据预处理，生成当前人体对应的语音信号特征(多源数据特征)，然后对所述眼睛图像信号进行注视点坐标提取，生成当前人体对应的眼睛选定的注视点坐标。

在一种可能的实现方式中，首先对音频信号进行分帧和加窗处理，生成音频信号数据特征，再提取面部肌电信号的梅尔倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC)，生成面部肌电信号数据特征，再将嘴唇图像信号进行灰度图转化，并使用滤波器进行滤波，生成嘴唇图像信号数据特征，再将音频信号数据特征、面部肌电信号数据特征以及嘴唇图像信号数据特征确定为当前人体对应的语音信号特征(多源数据特征)，最后将眼睛图像信号输入预先训练的注视点映射模型中，生成当前人体对应的眼睛选定的注视点坐标。

进一步地，根据眼睛图像信号预测得到注视点坐标时，利用基于深度卷积神经网络(Deep Convolutional Neural Network,DCNN)的眼动注视点映射模型进行预测。深度卷积神经网络由多个卷积层、池化层和全连接层堆叠组成，输入眼睛图像数据，输出注视点坐标信息。卷积层内部包含多个卷积核，组成卷积核的每个元素都对应一个权重系数和一个偏差量(bias vector)，类似于一个前馈神经网络的神经元，卷积层内每个神经元都与前一层中位置接近的区域的多个神经元相连，区域的大小取决于卷积核的大小，卷积核在工作时，会有规律地扫过输入特征，在感受野内对输入特征做矩阵元素乘法求和并叠加偏差量，注视点坐标信息计算公式为：

其中，b为偏差量，Z^l和Z^l+1表示第l+1层的卷积输入和输出，也被称为特征图(feature map)，L_l+1为Z_l+1的尺寸，这里假设特征图长宽相同。Z(i,j)对应特征图的像素，K为特征图的通道数，f、s₀和p是卷积层参数，对应卷积核大小、卷积步长(stride)和填充(padding)层数。池化层的表示形式为：

其中，步长s₀、像素(i,j)的含义与卷积层相同，p是预指定参数。当p＝1时，被称为均值池化(average pooling)；当p→∞时，被称为极大池化(max pooling)。

S103，识别所述多源数据特征以及眼睛选定的注视点坐标，生成所述多源数据特征对应的语音文本以及所述注视点坐标对应的场景图像描述文本；

在本申请实施例中，首先利用预先训练的语音识别模型以及语音信号特征，确定出语音信息，再将语音信息合成语音文本，然后根据眼睛图像信号得到注视点坐标，并对注视点坐标信息进行编码，最后得到对眼动选定的场景图像多角度描述文本。

在一种可能的实现方式中，人体意图识别装置首先将多源数据特征进行稠密编码，生成编码后的多源数据特征，再将编码后的多源数据特征输入至预先训练的Bert网络模型中，生成多源数据特征对应的语音信息，然后利用集束搜索算法的n-gram语言模型将多源数据特征对应的语音信息进行文本合成，生成多源数据特征对应的语音文本，最后对眼睛选定的注视点坐标进行编码，生成注视点坐标对应的场景图像描述文本。

在场景图像描述文本生成中，首先根据眼睛选定的注视点坐标生成眼睛选定的场景图像，再利用ResNet101的Fast R-CNN算法对场景图像依次进行图像分割、目标检测以及坐标信息识别，生成编码信息，最后基于编码信息进行编码建模，生成注视点坐标对应的场景图像描述文本。

具体的，在语音文本和场景图像描述文本合成时，首先对空间和时间域的多源数据特征进行基于前后关联的稠密编码，将多源数据特征进行编码后，再输入至BERT(Bidirectional Encoder Representations from Transformer)网络模型中，使用基于跨模态和多层次的注意力机制，不同模态在解码过程中交互与协同输出，得到不同模态的协同语音信息，然后使用基于集束搜索算法的n-gram语言模型得到多源协同的语音信息合成文本。

例如有一个由n个词组成的句子S＝(w₁,w₂,w₃,…,w_n),每一个单词w_n都依赖于从第一个单词到它之前一个单词的影响，则句子S出现的概率为：

p(S)＝p(w₁w₂w₃…w_n)＝p(w₁)p(w₂|w₁)…p(w_n|w_n-1…w₂w₁)。

最后根据眼睛图像信号预测得到注视点坐标，并对注视点坐标信息进行编码生成对眼动选定的场景图像多角度描述文本。

进一步地，在对注视点坐标信息进行编码生成对眼动选定的场景图像多角度描述文本时，首先根据眼睛选定的注视点坐标生成眼睛选定的场景图像，再利用ResNet101的Fast R-CNN算法对场景图像依次进行图像分割、目标检测以及坐标信息识别，生成编码信息，最后基于编码信息进行编码建模，生成注视点坐标对应的场景图像描述文本。

S104，针对所述语音文本以及场景图像描述文本进行实体抽取，生成所述语音文本以及场景图像描述文本对应的实体片段；

在一种可能的实现方式中，将语音文本以及场景图像描述文本输入预先训练的BERT(Bidirectional Encoder Representations from Transformer)网络模型中进行实体抽取，得到实体片段。

例如图2所示，人体意图识别装置通过数据采集模块采集用户的语音音频数据、唇部图像数据、面部肌电数据以及眼睛图像数据，然后将采集到的信号数据发送到数据处理模块进行多源语音数据转文本以及眼动选择对象图像数据转文本，生成语音文本和场景图像文本，再将语音文本和场景图像文本输入实体表征模块中进行共指消解以及语义分析与表征，最终生成人体意图识别结果，最后将人体意图识别结果发送至交互模块进行交互。

S105，采用共指消解算法处理所述实体片段，生成目标对象；

在本申请实施例中，目标对象是基于Mention-Pair的实体共指消解算法处理生成的，Mention-Pair模型将共指消解问题重构为一个分类任务：训练分类器来决定一对实体是否是共指的。换言之，解析实体mj可被视为寻找实体mi从而最大化随机变量L的概率，即：argmax_mi P(L|mj,mi)，argmax_mi P是最大化随机变量概率P，L是随机变量，mj是解析实体，mi为寻找实体。

S106，基于所述语音文本、场景图像描述文本以及目标对象，生成人体意图识别结果。

在一种可能的实现方式中，人体意图识别装置针对语音文本、场景图像描述文本以及目标对象进行文本语义分析，生成文本的编码，再将文本的编码和预先定义的元组进行关联，生成可执行的实例化元组，然后根据实例化元组生成语义分析结果和表征结果，最后将语义分析结果和表征结果确定为人体意图识别结果。

进一步地，人体意图识别装置针对语音文本、场景图像描述文本以及目标对象进行文本语义分析，生成文本的编码具体为：首先使用基于图神经网络学习的依存句法分析，得到句法信息，然后使用Embedding方式进行集成，得到词类信息集成，再使用BERT进行编码表示文本最后根据所述词类信息集成，得到文本的编码表示。

进一步地，人体意图识别装置将文本的编码和预先定义的元组进行关联，生成可执行的实例化元组时，具体为：首先使用通用的预定义元组，将文本的编码表示与预定义元组对应，再使用双仿射(Biaffine)关系分类算法，将所有部分填充的元组进行关联，然后根据所述具体目标对象和关联的填充元组得到最终反映整句深层语义的可执行的实例化元组序列。通过双放射(Biaffine)关系分类算法，计算两个元组之间的依存弧分数：

其中

为元组i作为核心元组，

为元组j作为依存元组，W和V是用于计算两个元组之间依存弧分数的权重向量。通过双放射(Biaffine)关系分类算法，计算某条元组依存弧上各种依存关系类型的分数：

其中W₁和W₂是计算两个元组依存弧上的依存关系类型分数的权重向量，b是偏置。

进一步地，在语义分析与表征中还包括标注一定规模的语料指导模型的进行训练。

例如图3所示，在语音文本生成时，首先对用户语音信号、肌电信号以及唇部图像信号进行特征提取，再对提取的特征进行稠密编码，再将稠密编码的特征信号输入BERT模型中生成语音信息，再利用集束搜索算法的n-gram语言模型对语音信息处理后生成语音文本。

在场景图像描述文本生成时，首先对用户的眼睛图像信号数据提取，再将眼睛图像信号数据输入预先训练的深度卷积神经网络(Deep Convolutional Neural Network,DCNN)的眼动注视点映射模型中，生成所述当前人体对应的眼睛选定的注视点坐标，再根据眼睛选定的注视点坐标生成眼睛选定的场景图像，利用ResNet101的Fast R-CNN算法对场景图像依次进行图像分割、目标检测以及坐标信息识别，生成编码信息，最后基于所述编码信息进行编码建模，生成注视点坐标对应的场景图像描述文本。

当语音文本和场景图像描述文本生成后，使用基于图神经网络学习的依存句法分析，得到句法信息，然后使用Embedding方式进行集成，得到词类信息集成，再使用BERT进行编码表示文本最后根据所述词类信息集成，得到文本的编码表示，再根据所述具体目标对象和关联的填充元组得到最终反映整句深层语义的可执行的实例化元组序列。通过双放射(Biaffine)关系分类算法，计算两个元组之间的依存弧分数，最后进行语义分析与表征。

下述为本发明***实施例，可以用于执行本发明方法实施例。对于本发明***实施例中未披露的细节，请参照本发明方法实施例。

请参见图4，其示出了本发明一个示例性实施例提供的人体意图识别***的结构示意图。该人体意图识别***可以通过软件、硬件或者两者的结合实现成为电子设备的全部或一部分。该***1包括信号采集模块10、数据生成模块20、文本生成模块30、实体抽取模块40、目标对象生成模块50、和识别结果生成模块60。

信号采集模块10，用于实时采集当前人体的特征信号；

数据生成模块20，用于基于所述特征信号生成所述当前人体对应的多源数据特征以及眼睛选定的注视点坐标；

文本生成模块30，用于识别所述多源数据特征以及眼睛选定的注视点坐标，生成所述多源数据特征对应的语音文本以及所述注视点坐标对应的场景图像描述文本；

实体抽取模块40，用于针对所述语音文本以及场景图像描述文本进行实体抽取，生成所述语音文本以及场景图像描述文本对应的实体片段；

目标对象生成模块50，用于采用共指消解算法处理所述实体片段，生成目标对象；

识别结果生成模块60，用于基于所述语音文本、场景图像描述文本以及目标对象，生成人体意图识别结果。

需要说明的是，上述实施例提供的人体意图识别***在执行人体意图识别方法时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的人体意图识别***与人体意图识别方法实施例属于同一构思，其体现实现过程详见方法实施例，这里不再赘述。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

本发明还提供一种计算机可读介质，其上存储有程序指令，该程序指令被处理器执行时实现上述各个方法实施例提供的人体意图识别方法。

本发明还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述各个方法实施例所述的人体意图识别方法。

请参见图5，为本申请实施例提供了一种电子设备的结构示意图。如图5所示，所述电子设备1000可以包括：至少一个处理器1001，至少一个网络接口1004，用户接口1003，存储器1005，至少一个通信总线1002。

其中，通信总线1002用于实现这些组件之间的连接通信。

其中，用户接口1003可以包括显示屏(Display)、摄像头(Camera)，可选用户接口1003还可以包括标准的有线接口、无线接口。

其中，网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。

其中，处理器1001可以包括一个或者多个处理核心。处理器1001利用各种借口和线路连接整个电子设备1000内的各个部分，通过运行或执行存储在存储器1005内的指令、程序、代码集或指令集，以及调用存储在存储器1005内的数据，执行电子设备1000的各种功能和处理数据。可选的，处理器1001可以采用数字信号处理(Digital Signal Processing，DSP)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)、可编程逻辑阵列(Programmable Logic Array，PLA)中的至少一种硬件形式来实现。处理器1001可集成中央处理器(Central Processing Unit，CPU)、图像处理器(Graphics Processing Unit，GPU)和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作***、用户界面和应用程序等；GPU用于负责显示屏所需要显示的内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器1001中，单独通过一块芯片进行实现。

其中，存储器1005可以包括随机存储器(Random Access Memory，RAM)，也可以包括只读存储器(Read-Only Memory)。可选的，该存储器1005包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。存储器1005可用于存储指令、程序、代码、代码集或指令集。存储器1005可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作***的指令、用于至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现上述各个方法实施例的指令等；存储数据区可存储上面各个方法实施例中涉及到的数据等。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储***。如图5所示，作为一种计算机存储介质的存储器1005中可以包括操作***、网络通信模块、用户接口模块以及人体意图识别应用程序。

在图5所示的电子设备1000中，用户接口1003主要用于为用户提供输入的接口，获取用户输入的数据；而处理器1001可以用于调用存储器1005中存储的人体意图识别应用程序，并具体执行以下操作：

实时采集当前人体的特征信号；

采用共指消解算法处理所述实体片段，生成目标对象；

在一个实施例中，所述处理器1001在执行所述生成人体意图识别结果之后时，还执行以下操作：

在一个实施例中，所述处理器1001在执行所述基于所述特征信号生成所述当前人体对应的多源数据特征以及眼睛选定的注视点坐标时，具体执行以下操作：

在一个实施例中，所述处理器1001在执行所述分别将所述音频信号、唇部图像信号、面部肌电信号进行数据预处理，生成所述当前人体对应的多源数据特征时，具体执行以下操作：

在一个实施例中，所述处理器1001在执行所述对所述眼睛图像信号进行注视点坐标提取，生成所述当前人体对应的眼睛选定的注视点坐标时，具体执行以下操作：

在一个实施例中，所述处理器1001在执行所述识别所述多源数据特征以及眼睛选定的注视点坐标，生成所述多源数据特征对应的语音文本以及所述注视点坐标对应的场景图像描述文本时，具体执行以下操作：

在一个实施例中，所述处理器1001在执行所述对所述眼睛选定的注视点坐标进行编码，生成所述注视点坐标对应的场景图像描述文本时，具体执行以下操作：

根据所述眼睛选定的注视点坐标生成眼睛选定的场景图像；

在一个实施例中，所述处理器1001在执行所述基于所述语音文本、场景图像描述文本以及目标对象，生成人体意图识别结果时，具体执行以下操作：

根据所述实例化元组生成语义分析结果和表征结果；

将所述语义分析结果和表征结果确定为人体意图识别结果。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体或随机存储记忆体等。

以上所揭露的仅为本申请较佳实施例而已，当然不能以此来限定本申请之权利范围，因此依本申请权利要求所作的等同变化，仍属本申请所涵盖的范围。

Claims

1.一种人体意图识别方法，其特征在于，所述方法包括：

实时采集当前人体的特征信号；

识别所述多源数据特征以及眼睛选定的注视点坐标，生成所述多源数据特征对应的语音文本以及所述注视点坐标对应的场景图像描述文本；其中，

所述识别所述多源数据特征以及眼睛选定的注视点坐标，生成所述多源数据特征对应的语音文本以及所述注视点坐标对应的场景图像描述文本，包括：

对所述眼睛选定的注视点坐标进行编码，生成所述注视点坐标对应的场景图像描述文本；其中，

所述对所述眼睛选定的注视点坐标进行编码，生成所述注视点坐标对应的场景图像描述文本，包括：

根据所述眼睛选定的注视点坐标生成眼睛选定的场景图像；

基于所述编码信息进行编码建模，生成所述注视点坐标对应的场景图像描述文本；

采用共指消解算法处理所述实体片段，生成目标对象；

基于所述语音文本、场景图像描述文本以及目标对象，生成人体意图识别结果；其中，

所述基于所述语音文本、场景图像描述文本以及目标对象，生成人体意图识别结果，包括：

根据所述实例化元组生成语义分析结果和表征结果；

将所述语义分析结果和表征结果确定为人体意图识别结果。

2.根据权利要求1所述的方法，其特征在于，所述生成人体意图识别结果之后，还包括：

3.根据权利要求1或2所述的方法，其特征在于，所述特征信号包括音频信号、唇部图像信号、面部肌电信号和眼睛图像信号；

4.根据权利要求3所述的方法，其特征在于，所述分别将所述音频信号、唇部图像信号、面部肌电信号进行数据预处理，生成所述当前人体对应的多源数据特征，包括：

将所述唇部图像信号进行灰度图转化，并使用滤波器进行滤波，生成唇部图像信号数据特征；

将所述音频信号数据特征、面部肌电信号数据特征以及唇部图像信号数据特征确定为所述当前人体对应的多源数据特征。

5.根据权利要求3所述的方法，其特征在于，所述对所述眼睛图像信号进行注视点坐标提取，生成所述当前人体对应的眼睛选定的注视点坐标，包括：

6.一种人体意图识别***，其特征在于，所述***包括：

信号采集模块，用于实时采集当前人体的特征信号；

文本生成模块，用于识别所述多源数据特征以及眼睛选定的注视点坐标，生成所述多源数据特征对应的语音文本以及所述注视点坐标对应的场景图像描述文本；其中，

所述文本生成模块具体用于：

根据所述眼睛选定的注视点坐标生成眼睛选定的场景图像；

识别结果生成模块，用于基于所述语音文本、场景图像描述文本以及目标对象，生成人体意图识别结果；其中，

所述识别结果生成模块具体用于：

根据所述实例化元组生成语义分析结果和表征结果；

将所述语义分析结果和表征结果确定为人体意图识别结果。

7.一种计算机存储介质，其特征在于，所述计算机存储介质存储有多条指令，所述指令适于由处理器加载并执行如权利要求1～5任意一项的方法步骤。