CN108986801B

CN108986801B - 一种人机交互方法、装置及人机交互终端

Info

Publication number: CN108986801B
Application number: CN201710408396.7A
Authority: CN
Inventors: 杜广龙
Original assignee: South China University of Technology SCUT; Tencent Technology Shenzhen Co Ltd
Current assignee: South China University of Technology SCUT; Tencent Technology Shenzhen Co Ltd
Priority date: 2017-06-02
Filing date: 2017-06-02
Publication date: 2020-06-05
Anticipated expiration: 2037-06-02
Also published as: WO2018219198A1; CN108986801A

Abstract

本发明实施例提供一种人机交互方法、装置及人机交互终端，该方法包括：获取用户传达的控制信息，所述控制信息包括语音信息；提取所述语音信息的文本特征；确定所述文本特征相应的文本特征向量；根据预训练的语音分类模型，确定所述文本特征向量匹配的语音样本；所述语音分类模型表示有文本特征向量与对应的语音样本的归属概率；将所确定的语音样对应的语音控制指令，作为所述语音信息的语音控制指令；根据所述语音控制指令，生成目标控制指令。本发明实施例能够提升人机交互的自然性和智能性，降低人机交互的用户门槛，以为人机交互的普及提供有力的支持。

Description

一种人机交互方法、装置及人机交互终端

技术领域

本发明涉及人机交互技术领域，具体涉及一种人机交互方法、装置及人机交互终端。

背景技术

人机交互是指用户与机器之间相互沟通，使得机器理解用户意图的一种技术；具体的，通过人机交互，用户可通过向机器传达控制信息，使得机器完成用户所意图的工作。人机交互在多个领域具有广泛的应用，涉及手机控制、汽车自动驾驶等方面，尤其是随着机器人(如服务器人)技术的发展，人机交互技术如何更好的在机器人控制方面进行应用，成为了机器人技术提升的一个关键点。

本发明的发明人发现，目前的人机交互技术急需解决的问题是如何提升人机交互的自然性和智能性，从而使得人机交互的用户门槛降低，人机交互技术能够被广泛普及。

发明内容

有鉴于此，本发明实施例提供一种人机交互方法、装置及人机交互终端，以提升人机交互的自然性和智能性，降低人机交互的用户门槛，以为人机交互的普及提供有力的支持。

为实现上述目的，本发明实施例提供如下技术方案：

一种人机交互方法，包括：

获取用户传达的控制信息，所述控制信息包括语音信息；

提取所述语音信息的文本特征；

确定所述文本特征相应的文本特征向量；

根据预训练的语音分类模型，确定所述文本特征向量匹配的语音样本；所述语音分类模型表示有文本特征向量与对应的语音样本的归属概率；

将所确定的语音样对应的语音控制指令，作为所述语音信息的语音控制指令；

根据所述语音控制指令，生成目标控制指令。

本发明实施例还提供一种人机交互装置，包括：

控制信息获取模块，用于获取用户传达的控制信息，所述控制信息包括语音信息；

文本特征提取模块，用于提取所述语音信息的文本特征；

文本特征向量确定模块，用于确定所述文本特征相应的文本特征向量；

语音样本确定模块，用于根据预训练的语音分类模型，确定所述文本特征向量匹配的语音样本；所述语音分类模型表示有文本特征向量与对应的语音样本的归属概率；

语音指令确定模块，用于将所确定的语音样对应的语音控制指令，作为所述语音信息的语音控制指令；

目标指令生成模块，用于根据所述语音控制指令，生成目标控制指令。

本发明实施例还提供一种人机交互终端，包括：至少一个存储器和至少一个处理器；

所述存储器存储有程序，所述处理器调用所述程序；所述程序用于：

获取用户传达的控制信息，所述控制信息包括语音信息；

提取所述语音信息的文本特征；

确定所述文本特征相应的文本特征向量；

根据所述语音控制指令，生成目标控制指令。

基于上述技术方案，本发明实施例提供的人机交互方法，可对用户传达的控制信息中的语音信息进行文本特征提取，并确定相应的文本特征向量；从而根据预训练的语音分类模型，可确定所述文本特征向量匹配的语音样本；进而以所确定的语音样对应的语音控制指令，作为所述语音信息的语音控制指令，通过所述语音控制指令生成目标控制指令，实现人机交互过程中针对机器的目标控制指令的生成。

由于预训练的语音分类模型可以精准的定义出各文本特征向量归属于可能意图的语音样本的概率，使得语音样本与文本特征向量的对应关系更为精准；因此借助本发明实施例，用户可以通过类似于人与人的交流方式进行人机交互，用户通过自然的语音信息向人机交互终端传达语音信息后，人机交互终端可利用语音分类模型，精准的识别出用户传达的语音信息匹配的语音样本，从而通过所匹配的语音样本，识别出用户传达的语音信息意图的语音控制指令。利用本发明实施例，用户传达语音信息的方式可以更为自然，人机交互终端可以通过语音分类模型精准的匹配出用户语音信息的语音样本，实现用户语音信息意图的语音控制指令的精准确定，从而提升了人机交互的自然性和智能性，降低了用户进行人机交互的交流门槛，为人机交互的普及提供了有力的支持。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例提供的人机交互***的结构框图；

图2为本发明实施例提供的人机交互***的另一结构框图；

图3为人机交互终端的结构框图；

图4为本发明实施例提供的语音分类模型的构建方法流程图；

图5为本发明实施例提供的人机交互方法的流程图；

图6为人机交互的示例示意图；

图7为本发明实施例提供的人机交互方法的另一流程图；

图8为改进粒子滤波处理手势姿态特征的方法流程图；

图9为本发明实施例提供的目标对象识别方法流程图；

图10为本发明实施例提供的人机交互装置的结构框图；

图11为本发明实施例提供的人机交互装置的另一结构框图；

图12为本发明实施例提供的人机交互装置的再一结构框图；

图13为本发明实施例提供的人机交互装置的又一结构框图；

图14为本发明实施例提供的人机交互装置的又另一结构框图；

图15为本发明实施例提供的人机交互装置的又再一结构框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供的人机交互方法可应用在机器人控制、手机控制、自动驾驶等方面；为便于说明，下文将主要从服务机器人控制方面，对本发明实施例提供的人机交互方法进行介绍；当然，本发明实施例提供的人机交互方法在手机控制、自动驾驶等方面的使用原理，与在服务机器人控制方面的使用原理是一致的，可相互参照。

需要介绍的是，服务机器人是机器人的一种，服务机器人可以分为专业领域服务机器人和个人、家庭服务机器人，服务机器人的应用范围很广，主要从事维护保养、修理、运输、清洗、保安、救援、监护等工作。

可选的，图1为本发明实施例提供的人机交互***的一种可选结构框图，参照图1，该人机交互***可以包括：人机交互终端10和服务机器人11；人机交互终端10与服务机器人11可通过互联网实现信息交互；

基于图1所示人机交互***，用户可通过向人机交互终端传达控制信息，人机交互终端理解用户传达的控制信息相应的控制指令后，可通过互联网传输控制指令给服务机器人，由服务机器人执行该控制指令，完成用户意图的工作；

可选的，用户向人机交互终端传达控制信息的方式可以是语音；也可以是语音结合手势等；

进一步，服务机器人可将机器人的状态信息，和/或，基于视觉感知的环境信息，通过互联网传输给人机交互终端，由人机交互终端向用户展示机器人的状态信息，和/或，服务机器人周边的环境信息(可以通过人机交互终端的显示屏展示)，以便用户更好的传达控制信息。

图1所示人机交互***可通过互联网在人机交互终端与服务机器人间传递信息，实现用户对服务机器人的遥控；当然，图1所示仅是人机交互***的一种可选结构，可选的，本发明实施例并不排除服务机器人内置人机交互终端的情况，如图2所示，从而人机交互终端可通过本地通信(本地有线或者局域网无线等形式)控制服务机器人进行工作；图2所示人机交互***除将通信方式由通过互联网通信，转变为本地通信外，其他方面可与图1所示人机交互***类似。

可选的，人机交互终端可以认为是服务机器人与用户的交互平台，以及实现对服务机器人控制的控制终端；人机交互终端可与服务机器人分离设置，通过互联网实现信息交互，也可以是内置于服务机器人内，人机交互终端可在理解用户的控制信息对应的控制指令后，向服务机器人传输相应的控制指令，从而对服务机器人的控制构件(如马达、电机等)进行控制，完成用户意图的工作。

在本发明实施例中，人机交互终端可以装载相应的程序，实现本发明实施例提供的人机交互方法；该程序可以由人机交互终端的存储器存储，由人机交互终端的处理器调用执行；可选的，图3示出了人机交互终端的一种可选结构，参照图3，该人机交互终端可以包括：至少一个处理器1，至少一个通信接口2，至少一个存储器3和至少一个通信总线4；

在本发明实施例中，处理器1、通信接口2、存储器3、通信总线4的数量为至少一个，且处理器1、通信接口2、存储器3通过通信总线4完成相互间的通信；显然，图3所示的处理器1、通信接口2、存储器3和通信总线4的通信连接示意仅是可选的；

处理器1可能是一个中央处理器CPU，或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路。

存储器3可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatilememory)，例如至少一个磁盘存储器。

其中，存储器3存储有程序，处理器1调用存储器3所存储的程序，实现本发明实施例提供的人机交互方法。

语音作为用户常用的传达控制信息的方式，下面以用户向人机交互终端传达的控制信息包括语音的情况，对本发明实施例提供的人机交互方法进行介绍。下面描述的人机交互方法适用于服务机器人控制、手机控制、自动驾驶等方面。

为提升人机交互的自然性和智能性，如何使得服务机器人更准确、快速的理解用户语音的意图是非常必要的，因此本发明实施例考虑构建准确、高效的语音分类模型，从而更为准确、快速的识别用户传达的语音对应的语音样本，由语音样本对应的语音控制指令，确定用户传达的语音所意图的语音控制指令。

图4为本发明实施例提供的语音分类模型的构建方法流程图，该语音分类模型的构建方法可以由后台服务器实施，训练好的语音分类模型可导入人机交互终端中，由人机交互终端实现用户语音对应的语音样本的识别；当然，语音分类模型的构建，也可以是由人机交互终端实现；

参照图4，该方法可以包括：

步骤S100、获取训练语料库，所述训练语料库记录有各语音控制指令的语音样本，一语音控制指令对应至少一条语音样本。

训练语料库记录有本发明实施例预先收集的各语音控制指令的语音样本，且训练语料库中一语音控制指令对应至少一条语音样本；通过各语音控制指令的语音样本，可以利用机器学习算法训练出语音分类模型。

可选的，语音样本可以是用户的自然语言，语音控制指令可以是自然语音所转化的能够被服务机器人理解的控制指令。

步骤S110、提取各语音样本的文本特征，得到多个文本特征。

本发明实施例可对各语音样本进行文本特征提取，一个语音样本所提取的文本特征可能是至少一个，从而通过对各语音样本均进行文本特征提取，可得到多个文本特征；

可选的，不同的语音样本所提取的文本特征可能存在重复的情况，可对重复文本特征进行去重，从而使得得到的多个文本特征中不存在重复的文本特征；

可选的，语音样本的文本特征可以认为是，对语音样本进行文字转换后，从所转换的文字中提取的关键词等形式的文本特征。

步骤S120、对各文本特征分别进行特征向量加权，得到各文本特征的文本特征向量。

可选的，本发明实施例可利用TF-IDF(term frequency–inverse documentfrequency，词频-逆文档频率，一种用于信息检索的技术)分别对各文本特征进行特征向量加权，从而对于每一文本特征，得到文本特征对应的文本特征向量，获取到多个文本特征向量。

需要说明的是，TF-IDF是一种统计方法，用以评估字词对于语料库中的文件的重要程度；字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的次数成反比下降；

可选的，对于一文本特征，本发明实施例可确定该文本特征的字词在对应的语音样本(文本特征对应的语音样本可以认为是，提取到该文本特征的语音样本)中的出现次数，以及在训练语料库中的出现次数，从而根据该文本特征的字词在对应的语音样本和训练语料库中的出现次数，确定该文本特征在对应的语音样本中的重要程度，根据该重要程度确定该文本特征对应的文本特征向量；其中，该重要程度与文本特征的字词在语音样本的出现次数成正比关系，与文本特征的字词在语料库中的出现次数成反比关系；

可选的，在进行文本特征向量的获取时，如果有n个词，则相应可获得n维的文本特征向量。

步骤S130、根据机器学习算法，对各文本特征向量与对应的语音样本的归属概率进行建模，得到语音分类模型。

可选的，一文本特征向量对应的语音样本，可以理解为是该文本特征向量所意图表达的语音样本，数量为至少一条；文本特征向量与所对应的一语音样本的归属概率，可以认为是文本特征向量归属于该所对应的语音样本的概率；

可选的，由于不同的语音样本提取的文本特征可能相同，因此一文本特征可能对应至少一条语音样本，相应的，一文本特征的文本特征向量所对应的语音样本也可能是至少一条；而一文本特征的文本特征向量可以表示，该文本特征在对应的语音样本中的重要程度，因此本发明实施例可根据文本特征向量所表示的重要程度，确定出文本特征向量与所对应的各语音样本的归属概率；

进而可利用机器学习算法，对各文本特征向量，及，各文本特征向量与所对应的各语音样本的归属概率进行建模，得到语音分类模型；可选的，语音分类模型可以表示文本特征向量与对应的语音样本的归属概率。

通过文本特征向量，以及文本特征向量与所对应的语音样本的归属概率，本发明实施例可以精准的定义出各文本特征向量归属于可能意图的语音样本的概率，使得语音样本与文本特征向量的对应关系更为精准；以此训练得出语音分类模型，将可通过自然语言的文本特征向量，精准的确定出所归属的语音样本，实现用户传达的自然语言对应的语音样本的精准识别；从而后续将所确定的语音样本的语音控制指令，作为该自然语言的语音控制指令，可精准的确定出用户传达的自然语言匹配的语音控制指令，提升服务机器人对用户自然语言意图的语音控制指令的识别准确性，为人机交互的智能性和自然性提升提供可能。

可选的，本发明实施例可利用最大熵算法，对各文本特征向量与对应的语音控制指令的归属概率进行建模，得到概率分布均匀的最大熵分类模型(语音分类模型的一种形式)，通过该最大熵分类模型表示文本特征向量与对应的语音样本的归属概率；

可选的，在具体建模时，本发明实施例可利用下述公式实现；

其中，f_i(x,y)为第i个文本特征向量的特征函数，n为特征函数个数，n的数值与文本特征向量的数值一致，若第i个文本特征向量与对应的语音样本出现在同一采集到的自然语言中，则认为f_i(x,y)为1，否则，认为f_i(x,y)为0，λ_i为f_i(x,y)对应的权值，λ为拉格朗日乘子，Z(x)为设定的归一化因子，p^*为最大熵分类模型的表示参数。

可选的，使用最大熵算法建模时，由于建模过程是通过已知信息实现的，对于已知信息做到了尽可能的符合，而对未知不做任何假设，所以可以综合观察到各种相关或不相关的概率，应用在文本特征向量分类下，其性能优于其他的诸如贝叶斯等机器学习算法；本发明实施例可优选使用最大熵算法，建立最大熵分类模型形式的语音分类模型，但这仅是优选方案，本发明实施例并不排除其他的诸如贝叶斯等的机器学习算法。

在训练得到语音分类模型后，可利用语音分类模型对用户传达给人机交互终端的包含语音的控制信息进行处理，从而识别出用户传达的语音相匹配的语音样本，以该语音样本对应的语音控制指令，作为用户传达的语音相应的语音控制指令。

图5为本发明实施例提供的人机交互方法的流程图，该方法可应用于人机交互终端，参照图5，该方法可以包括：

步骤S200、获取用户传达的控制信息，所述控制信息包括语音信息。

可选的，人机交互终端可通过设置检测器获取用户传达的控制信息，控制信息可以包括用户传达的语音信息，也可能包括用户传达的手势信息；此实施例讨论控制信息包括语音信息的情况，对于包括手势信息的情况将在后文进行描述；

可选的，检测器的形式可以如麦克风等语音检测器，立体摄像头或红外成像仪等非接触式的图像检测器等；检测器的形式可以根据控制信息的类型设置，并不作固定限制。

步骤S210、提取所述语音信息的文本特征。

可选的，本发明实施例可对所述语音信息进行文字转换，从转换得到的文字中提取相应的文本特征，从而获取到所述语音信息的文本特征。

步骤S220、确定所述文本特征相应的文本特征向量。

可选的，本发明实施例可通过TF-IDF确定所述文本特征相应的文本特征向量；可选的，在确定所述文本特征相应的文本特征向量时，本发明实施例可结合所述语音信息与训练语料库，进行所述文本特征相应的文本特征向量的确定。

步骤S230、根据预训练的语音分类模型，确定所述文本特征向量匹配的语音样本。

可选的，由于预训练的语音分类模型可以表示文本特征向量与对应的语音样本的归属概率，通过语音分类模型，本发明实施例可确定出所述文本特征向量可能归属的语音样本，及与可能归属的各语音样本的归属概率，从而可选取归属概率最高的语音样本，作为所述文本特征向量匹配的语音样本。

步骤S240、将所确定的语音样对应的语音控制指令，作为所述语音信息的语音控制指令。

步骤S250、根据所述语音控制指令，生成目标控制指令。

目标控制指令可以是人机交互终端生成的针对服务机器人的最终控制指令，在单独使用语音控制的基础上，本发明实施例可直接将语音控制指令作为目标控制指令使用；而在用户结合使用手势的情况下，用户手势对应的手势控制指令还将作为目标控制指令的一个参量，从而通过结合用户语音表达的语音控制指令，和用户手势表达的手势控制指令，生成目标控制指令。

当然，在需要对服务机器人所处环境场景中的目标对象(目标对象可以认为是服务机器人基于用户控制所操作的对象)进行控制时(仅是一种可选的控制情况)，还可结合环境场景进行目标对象的识别，从而使得服务机器人针对识别的目标对象进行目标控制指令相应的控制操作。

本发明实施例提供的人机交互方法，可对用户传达的控制信息中的语音信息进行文本特征提取，并确定相应的文本特征向量；从而根据预训练的语音分类模型，可确定所述文本特征向量匹配的语音样本；进而以所确定的语音样对应的语音控制指令，作为所述语音信息的语音控制指令，通过所述语音控制指令生成目标控制指令，实现人机交互过程中针对机器的目标控制指令的生成。

本发明实施例利用语音信息进行人机交互的示例可如图6所示，用户向人机交互终端说出进行服务机器人控制的语音；人机交互终端获取用户传达的语音后，将语音转换为文字，提取文字的文本特征并确定文本特征相应的文本特征向量，通过最大熵分类模型确定出该文本特征向量匹配的语音样本，从而确定出该语音样本对应的语音控制指令；人机交互终端将该语音控制指令通过互联网传输给服务机器人，服务机器人执行该语音控制指令，实现用户对服务机器人的遥控操作。当然，图6中的人机交互终端也可能内置于服务机器人中。

本发明实施例也可结合用户手势实现人机交互，在结合用户手势实现人机交互的过程中，人机交互终端需理解用户手势对应的手势控制指令，为更为准确的确定用户手势对应的手势控制指令，有必要对用户手势的识别进行优化，以通过提升用户手势识别的准确度，来辅助提升手势控制指令的确定准确度。

在提升用户手势识别的准确度方面，本发明实施例可通过提升手势位置的识别准确度，和手势姿态的识别准确度实现，进而将确定的手势位置与手势姿态融合，实现用户手势的识别准确度提升。

相应的，图5所示方法中，用户传达的控制信息还可以包括手势信息；可选的，图7示出了本发明实施例提供的人机交互方法的另一流程图，该方法可以由人机交互终端实行，参照图7，该方法可以包括：

步骤S300、获取用户传达的控制信息，所述控制信息包括语音信息和手势信息；所述手势信息包括：手势位置特征和手势姿态特征。

可选的，手势信息可以是连续多帧的用户手势图像(如用户手势图像序列)所表示的原始的手势特征信息，可以从连续多帧的用户手势图像中提取原始的手势特征信息，该原始的手势特征信息可由手势位置特征和手势姿态特征表示；可选的，手势位置特征为手势位置相关的特征，例如人手在XYZ三轴的坐标，速度、加速度等，手势姿态特征如人手关于XYZ三轴的坐标系各轴的旋转角等；

可选的，用户手势图像可以通过立体摄像头或红外成像仪等非接触式的图像检测器采集实现；例如立体视觉摄像头或红外成像传感器可以实时检测和识别人手，相关的传感器硬件有双目视觉摄像头、Kinect体感传感器和Leap Motion传感器；以Leap Motion传感器为例，人手放置在检测区域，传感器可以高频率采集三维手势图像，返回人手对于LeapMotion基坐标的直角坐标(手势位置特征的一种形式)和手掌关于三坐标系的旋转角(手势姿态特征的一种形式)，从而得到由手势位置特征和手势姿态特征表示的手势信息；

可选的，本发明实施例的手势图像可以是三维形式的，从而通过对人手的三维手势进行捕捉，可以识别用户的交互意图并转换成交互指令；与传统的二维手势交互不同，三维手势数据具有语义表达丰富，映射直观等优点。

步骤S310、提取所述语音信息的文本特征。

步骤S320、确定所述文本特征相应的文本特征向量。

步骤S330、根据预训练的语音分类模型，确定所述文本特征向量匹配的语音样本。

步骤S340、将所确定的语音样对应的语音控制指令，作为所述语音信息的语音控制指令。

可选的，步骤S310至步骤S340的处理可以参照图5所示步骤S210至步骤S240；在图7所示方法中，还存在并行的针对用户手势图像的处理，如下所示步骤。

步骤S350、根据自适应区间卡尔曼滤波处理所述手势位置特征，得到目标手势位置特征；及根据改进粒子滤波处理所述手势姿态特征，得到目标手势姿态特征。

可选的，自适应区间卡尔曼滤波(Adaptive Kalman Filter)能够在利用测量数据进行滤波的同时，不断地由滤波本身去判断***的动态是否有变化，对模型参数和噪声统计特性进行估计和修正，以改进滤波设计、缩小滤波的实际误差；通过自适应区间卡尔曼滤波处理从用户手势图像中提取的原始手势位置特征，可过滤掉检测器的噪声和人手肌肉抖动对于用户手势的影响，提升处理后的手势位置特征(即目标手势位置特征)的准确度；

通过改进粒子滤波(Improved Particle filter)处理从用户手势图像中提取的原始的手势姿态特征的四元数分量，可以使得处理后的手势姿态特征(即目标手势姿态特征)的四元数分量更为逼近真实的四元数分量，从而提升处理后的手势姿态特征的准确度。

步骤S360、融合所述目标手势位置特征和所述目标手势姿态特征，确定用户的手势特征。

本发明实施例可将采用自适应区间卡尔曼滤波处理后的目标手势位置特征，与采用改进粒子滤波处理后的目标手势特征相融合，实现用户的手势特征的确定；本发明实施例通过自适应区间卡尔曼滤波和改进粒子滤波，可以对手势位置和姿态的时空相关性进行约束，从而尽可能地消除三维手势数据的非稳定性和歧义性。

步骤S370、确定所述手势特征对应的手势控制指令。

可选的，本发明实施例可设置手势控制指令库，通过手势控制指令库记录各手势控制指令对应的手势特征(可以是三维形式的)，从而本发明实施例在确定出用户手势图像的手势特征后，可以通过手势控制指令库记录的各手势控制指令对应的手势特征，确定出用户手势图像的手势特征所对应的手势控制指令。

步骤S380、根据所述语音控制指令和所述手势控制指令，生成目标控制指令。

可选的，步骤S350至步骤S370，和步骤S310至步骤S340可以是并行的，是分别针对用户手势图像形式的控制信息，和用户语音形式的控制信息的处理，步骤S350至步骤S370，和步骤S310至步骤S340之间可以没有明显的前后顺序。

可选的，针对服务机器人的目标控制指令，一般可以通过四个变量组成的控制向量形式进行描述(C_dir,C_opt,C_vol,C_unit)，其中C_dir为操作方位关键词，C_opt和C_vol为一堆操作描述，分别为操作关键词和操作值，C_unit为操作单位，该四个变量可以称为是语音控制变量；一般情况下通过语音控制指令则可明确该四个变量；相应的，在根据语音控制指令，生成目标控制指令时，本发明实施例可确定语音控制指令对应的语音控制变量，该语音控制变量包括：语音控制指令所指示的操作方位关键词，操作关键词，操作关键词对应的操作值，和操作单位；从而以该语音控制变量构成的控制向量描述目标控制指令，实现目标控制指令的生成。

在结合语音和手势控制的情况下，本发明实施例可增加新的变量C_hand，即目标控制指令可修改为通过如下五个变量组成的控制向量形式进行描述：

(C_dir,C_opt,C_hand,C_val,C_unit)；

而在不需要手势控制的情况下，可认为C_hand＝NULL。

相应的，在根据语音控制指令和手势控制指令，生成目标控制指令时，本发明实施例可确定语音控制指令对应的语音控制变量，该语音控制变量包括：语音控制指令所指示的操作方位关键词，操作关键词，操作关键词对应的操作值，和操作单位；及同时确定手势控制指令对应的手势控制变量；从而结合所述语音控制变量和所述手势控制变量，形成描述目标控制指令的控制向量(C_dir,C_opt,C_hand,C_val,C_unit)，实现目标控制指令的生成。

可选的，本发明实施例可认为在图像检测器的检测范围内捕获到用户手势图像，则认为需要结合控制手势控制；否则，认为不需要结合手势控制，可通过语音信息(也可能结合服务机器人的环境场景)确定(C_dir,C_opt,C_vol,C_unit)组成的控制向量。

可选的，下面针对根据自适应区间卡尔曼滤波处理手势位置特征的手段进行介绍。需要说明的是，在通过非接触式的图像检测器获取手势图像的过程中，手势图像表达的用户手势可能带检测器噪声，而使得所确定的用户手势往往具有不稳定性、歧义性和模糊性；此外，用户进行手势操作时，由于人为因素难免会出现肌肉抖动等非意图动作，从而使得所确定的用户手势具有非精确性；因此本发明实施例可通过自适应区间卡尔曼滤波处理用户手势图像中原始的手势位置特征，从而过滤掉检测器的噪声和人手肌肉抖动对于用户手势的影响。

可选的，自适应区间卡尔曼滤波的模型可以表示如下：

其中，

是k时刻的n×1状态向量，为了使卡尔曼滤波更好地估计人手位置数据，状态向量中引入了人手速度和人手加速度的变量；

是n×n的状态转换矩阵，可以根据位移、速度和加速度之间的关系进行设计；

是n×l控制输出矩阵，由重力加速度决定；

是输入向量，

和

代表噪音向量，

通常服从高斯分布；

是k时刻的m×1的测量向量(

的元素和

一致，在k时刻测量得到，如人手在XYZ方向的位置、速度、加速度等值)，

是m×n的观察矩阵；

需要说明是的，

其中，Φ是状态转换矩阵，在本发明实施例中

包含位置、速度、加速度，即Φ的元素是满足运动学公式时，位置、速度、加速度等变量的系数；Γ是常数矩阵，将***输入向量

的元素个数输出为与状态向量一致；H是常数矩阵，表示了测量向量与状态向量的关系；此处引入带Δ的三个符号表示未知但有界的常定扰动矩阵。

相应的，手势位置特征在时刻k的状态x′_k可以表示如下：

x′_k＝[p_x,k,V_x,k,A_x,k,p_y,k,V_y,k,A_y,k,p_z,k,V_z,k,A_z,k]

其中，p_x,k，p_y,k，p_z,k为k时刻人手在空间中XYZ三轴的坐标，V_x,k，V_y,k，V_z,k为k时刻人手在XYZ方向的速度，A_x,k，A_y,k，A_z,k为k时刻人手在XYZ方向的加速度。因为自适应区间卡尔曼滤波是一个估计器，利用前一时刻的手势坐标、手势速度和加速度可更准确估计当前时刻的位置；

而在这个过程中，噪音向量可以表示为：w'_k＝[0,0,w'_x,0,0,w'_y,0,0,w_z]^T，其中(w'_x,w'_y,w_z)是手掌加速度的过程噪音(可以是不符合手势的整体加速度变化规律的噪音)，这个噪音向量可以在自适应区间卡尔曼滤波的模型中进行滤除；从而将手势位置特征在时刻k-1的状态x′_k-1(作为模型公式中的

)，噪音向量(作为

)采用上述表述的自适应区间卡尔曼滤波的模型进行处理，可以得到过滤噪音，且消除肌肉抖动的时刻k的目标手势位置特征。

可以看出，本发明实施例可根据手势位置特征对应的加速度，确定手势加速度变化规律，从而通过自适应区间卡尔曼滤波的模型，过滤偏离手势加速度变化规律的噪声，并利用自适应区间卡尔曼滤波的模型，根据过滤噪声后的手势位置特征中前一时刻的手势坐标、手势速度和加速度，估计当前时刻的手势坐标、手势速度和加速度，确定出当前时刻的目标手势位置特征；

进而使得通过自适应区间卡尔曼滤波融合后的目标手势位置特征的准确性得到提升，可以用来对服务机器人进行粗调控制操作(由于用户不可能在不借助外物时准确让手在毫米级别精度移动，所以对服务机器人进行的是粗调控制)。

可选的，针对根据改进粒子滤波处理手势姿态特征的手段，图8示出了本发明实施例提供的改进粒子滤波处理手势姿态特征的方法流程图，该方法可由人机交互终端执行，参照图8，该方法可以包括：

步骤S400、获取手势姿态特征所表示的人手在三维坐标系各轴的旋转角。

步骤S410、根据所述人手在三维坐标系各轴的旋转角，确定四元数分量。

可选的，四元数算法能用来进行刚体方向的估计，可以进行四元数分量的计算；四元数分量是一组超复数，可以描述刚体在空间的姿态，在发明实施例中四元数分量可以指人手的姿态；相应的，本发明实施例可通过从手势图像中提取的原始的手势姿态特征，确定出人手在三维坐标系各轴的旋转角(该旋转角可以是原始的手势姿态特征所包含的信息中的一种)，进而以四元数算法确定相应的四元数分量。

步骤S420、根据改进粒子滤波，确定人手粒子的后验概率。

可选的，为了减少使用四元数算法所带来的误差，使用改进粒子滤波来增强数据融合(融合的是每个用来表达人手的粒子的姿态数据，改进粒子滤波算法可以选取较好的重要性密度函数或优化重采样过程，目的是获得准确的人手姿态数据)；改进粒子滤波可以采用马尔可夫链蒙特卡罗方法对重采样后的粒子进行处理，从而提高粒子的多样化，避免标准粒子滤波的局部收敛现象，提高数据估计的准确度。

步骤S430、根据所述后验概率迭代处理所述四元数分量，得到目标四元数分量，以获取到目标手势姿态特征。

可选的，目标四元数分量可以逼近人手手势真实的四元数分量。

可选的，在进行人手粒子的后验概率确定时，在t_k时刻，人手粒子的后验概率的近似值可以定义为：

其中，x_i,k是t_k时刻的第i个状态粒子，N是样本数目，ω_i,k是t_k时刻的第i个粒子的标准权重，δ是狄拉克函数；x_k可以是人手状态，在本发明实施例中为四元数的4个元素，可以用来表示人手的姿态。

从而可通过人手粒子的后验概率，迭代计算人手粒子(即原始的人手姿态特征的四元数分量)，使粒子状态越来越逼近真实值，获得真实的三维手势姿态(即目标手势姿态特征)；

具体迭代方式可以如下公式：

其中K_k是卡尔曼增益，z_k是观测值，h是观测算子，v_i,k是粒子在t_k时刻第i个状态的观测误差；

则采用四元数表示刚体姿态(计算四元数分量目的是获得刚体姿态)，在t_k+1时刻每个粒子的四元数分量可以表示如下，从而得到目标手势姿态特征；

其中ω表示角速度，t是样本时间。

本发明实施例通过改进粒子滤波，可对从用户手势图像中提取的原始的手势姿态特征进行处理，可使得手势姿态特征的估计准确性得到很大的提高，也能用来对服务机器人进行粗调控制操作。

这里需要说明的是，粒子的权重计算需要通过结合卡尔曼滤波的位置估计结果，由于三维手势数据的位置和姿态在失控上存在一定的关联；即手势的速度和加速度具有方向性，而方向则需要姿态所确定的本体坐标系进行计算得到，手势的位置在三维方向上的叠加量需要姿态进行估计，故通过结合自适应区间卡尔曼滤波，可以通过位置和姿态的时空约束性提高数据估计的精度。由于准确的位置数据可以更好地计算粒子权重，从而得到准确的姿态数据，而准确的姿态数据可以通过速度和加速度更好地估计位置数据，故通过自适应区间卡尔曼滤波和改进粒子滤波对人手位置和姿态数据进行处理并融合，可以更好地估计用户的三维手势特征，提高所确定的用户手势特征的准确性和鲁棒性。

可选的，进一步，在融合目标手势位置特征和目标手势姿态特征，确定用户的手势特征后，本发明实施例还可以阻尼方法对用户非意图表示的手势特征进行过滤，并通过引入虚拟弹簧系数进一步提高手势识别的准确性；在具体可通过如下公式实现：

其中F是机器人控制指令输入，其中k是虚拟弹簧系数，D是人手移动的距离，τ是弹性极限阈值，当D大于τ，机器人不响应该三维手势输入；即本发明实施例在确定用户的手势特征后，如果用户的手势特征对应的人手移动的距离，大于设定的弹性极限阈值，则需过滤该手势特征；即考虑到交互过程中人手位置可能发生剧烈移动(不同于肌肉抖动，此处是指人手在大范围位置频繁的移动)，此时的三维手势数据为非意图输入数据，所以将这些数据过滤掉，保持***的稳定性；

相应的，在确定所述手势特征对应的手势控制指令时，本发明实施例可确定未过滤的手势特征对应的手势控制指令。

本发明实施例的可选应用示例可以如下：

用户向人机交互终端说出进行服务机器人控制的语音“往这个方向移动”，并作出指向手势；人机交互终端获取用户传达的语音后，将语音转换为文字，提取文字的文本特征并确定文本特征相应的文本特征向量，通过最大熵分类模型确定出该文本特征向量匹配的语音样本，从而确定出该语音样本对应的执行移动相关的语音控制令；

同时，人机交互终端获取用户手势图像的手势位置特征和手势姿态特征，根据自适应区间卡尔曼滤波处理该手势位置特征，及根据改进粒子滤波处理该手势姿态特征，并将处理后的手势位置特征和手势姿态特征进行融合，确定出用户的手势特征，基于该手势特征，人机交互终端可确定与移动方向相关的手势控制指令；

从而人机交互终端可根据确定的语音控制令和手势控制指令，控制服务机器人在用户指示的方向进行移动；即人机交互终端可通过用户的自然语言得到的操作指令是“移动”，移动方向为用户手指的方向。

在此人机交互过程中，用户可以结合语音和手势，使得用户与服务机器人之间的交流可类似于用户之间的交流，人机交互非常便捷直接，提升了人机交互的自然性和智能性，降低了用户进行人机交互的交流门槛，为人机交互的普及提供了有力的支持。

可选的，在一些人机交互场景中，服务机器人往往需要根据用户控制对环境场景中的目标对象进行操作，如用户指示服务机器人“捡起地上的杯子”，则服务机器人需要识别出环境场景中的“杯子”这一目标对象，而无需用户告诉机器人哪个是“杯子”，“杯子”在哪里等信息，从而服务机器人可自主的识别环境场景中的杯子，并执行“捡起”的操作；可见对环境的认知使得服务机器人有了一定的自主性，用户在控制的过程中就显得十分简单，因此对环境场景中的目标对象进行准确识别，有助于提升人机交互的自然性和智能性。

可选的，图9示出了本发明实施例提供的目标对象识别方法流程，该方法可应用于人机交互终端，参照图9，该方法可以包括：

步骤S500、获取环境场景图像。

可选的，本发明实施例可通过服务机器人上预置的摄像头等图像采集装置，采集环境场景图像；环境场景图像可以认为是服务机器人所处于的环境场景的图像；

可选的，如果人机交互终端与服务机器人通过互联网交互，则人机交互终端可通过互联网获取服务机器人所采集的环境场景图像；如果服务机器人内置有人机交互终端，则人机交互终端可获取服务机器人的图像采集装置，所采集的环境场景图像。

步骤S510、确定所述环境场景图像的HOG特征。

可选的，本发明实施例可使用HOG(Histogram of Oriented Gradient,方向梯度直方图)特征对环境场景图像中的图像特征进行描述；显然，HOG特征仅是图像特征的一种可选体现形式，本发明实施例也可采用其他形式的图像特征。

HOG主要是用来计算局部图像梯度方向信息的统计值。相对于其他特征描述符，HOG的优势在于其算法操作是在图像的局部细胞单元层进行，使得其具有良好的几何和光学不变性。

使用HOG特征对环境场景图像中的图像特征进行描述，则可首先将环境场景图像分成一定数量的子图像，再将各个子图像按照一定的规则分割成细胞单元；然后，对于每一个子图像，可采集细胞单元中各像素点的梯度方向直方图(即HOG特征),计算各梯度方向直方图在该子图像中的密度，从而根据该密度对该子图像中的各个细胞单元做归一化处理；最后将各子图像的归一化结果进行组合，确定出环境场景图像的HOG特征。

步骤S520、提取用户传达的语音信息中的目标关键词。

可选的，目标关键词可以是环境场景中待识别的目标对象的关键词，携带在用户的语音信息中；可选的，目标关键词一般是名词形式(环境场景中需***作的目标对象的名词等)，跟在语音信息中的动作词语之后，或者与语音信息中动作词语相关联。

步骤S530、根据预训练的目标分类模型，从环境场景图像的HOG特征中匹配出与目标关键词相对应的HOG特征。

步骤S540、将环境场景图像中所匹配的HOG特征对应的对象，确定为所识别的目标对象。

可选的，目标对象可以认为是服务机器人基于用户控制所操作的对象，可以是所述目标控制指令执行时针对的对象。

在这个过程中，目标分类模型可以表示各对象对应的HOG特征，目标分类模型的训练学习，对于目标识别的准确性和效率至关重要；在此，本发明实施例可采用深度学习方法训练目标分类模型；深度学习是从未经标记的数据中展开学习，这更接近人脑的学习方式，可以通过训练之后自行掌握概念；面对海量数据，深度学习算法可以做到传统人工智能算法无法做到的事情，而且输出结果会随着数据处理量的增大而更加准确。这将大幅度提高计算机处理信息的效率；而根据建立的网络结构不同，深度学习的训练方法也存在很大的差异；为了使机器人能够在较短时间内完成在线学习，训练得出目标分类模型，本发明实施例拟采取一个两阶段的方法来进行学习；

可选的，对于任一对象，本发明实施例可通过一个缩减的包含该对象的图像特征的特征集(称为第一特征集)确定候选集，再使用一个更大、更可靠的包含该对象的图像特征的特征集(称为第二特征集)排列候选集中的特征(排列方式可以是根据HOG特征的特征值由大到小实现等，具体排列规则可不做严格限制)，即第二特征集所包含的对象的图像特征，多于，第一特征集所包含的对象的图像特征，从而选取候选集中排列的设定序位的特征作为该对象的训练特征，以得到该对象的训练特征；对于任一对象均进行此处理，则可得到各对象的训练特征，进而根据各对象的训练特征训练得到目标分类模型。

可选的，在人机交互中，机器人可以借助于用户的经验知识对未知的物体进行识别，或者从识别错误中得到矫正，这就需要建立一个带标签数据的训练模型，可以更新机器人的学习网络参数。在用户的协作下，一方面机器人可以通过用户的描述更好地了解未知物体的特征(Features)；另一方面，机器人可以通过用户的共享经验正确地认识物体(Ground-truth)；

在学习过程中，为求出使***的识别精度最佳的参数；这里，将用户辅助过程中输入的用于矫正机器人参数的数据作为，机器人的学习网络参数特征值(Features)，及标签数据(Ground-truth)，从而根据该特征值和标签数据更新机器人的学习网络参数。

本发明实施例提供的人机交互方法，用户可以通过语音，或者，语音结合手势的形式向人机交互终端传达控制信息，用户进行人机交互的方式可类似于用户之间的交流，人机交互非常便捷直接；同时，人机交互终端可结合服务机器人的环境场景进行目标对象的识别，而不需要用户在传达的控制信息中对于***作的目标对象作进一步说明，使得用户的人机交互过程显得十分简单；可见，本发明实施例提供的人机交互方法提升了人机交互的自然性和智能性，降低了用户进行人机交互的交流门槛，为人机交互的普及提供了有力的支持。

下面对本发明实施例提供的人机交互装置进行介绍，下文描述的人机交互装置可以认为是人机交互终端，为实现本发明实施例提供的人机交互方法所需设置的程序模块。下文描述的人机交互装置内容可与上文描述的人机交互方法内容相互对应参照。

图10为本发明实施例提供的人机交互装置的结构框图，该装置可应用于人机交互终端，参照图10，该方法可以包括：

控制信息获取模块100，用于获取用户传达的控制信息，所述控制信息包括语音信息；

文本特征提取模块200，用于提取所述语音信息的文本特征；

文本特征向量确定模块300，用于确定所述文本特征相应的文本特征向量；

语音样本确定模块400，用于根据预训练的语音分类模型，确定所述文本特征向量匹配的语音样本；所述语音分类模型表示有文本特征向量与对应的语音样本的归属概率；

语音指令确定模块500，用于将所确定的语音样对应的语音控制指令，作为所述语音信息的语音控制指令；

目标指令生成模块600，用于根据所述语音控制指令，生成目标控制指令。

可选的，语音样本确定模块400，用于根据预训练的语音分类模型，确定所述文本特征向量匹配的语音样本，具体包括：

根据所述语音分类模型确定所述文本特征向量可能归属的语音样本，及与可能归属的各语音样本的归属概率；

选取归属概率最高的语音样本，作为所述文本特征向量匹配的语音样本。

可选的，图11示出了本发明实施例提供的人机交互装置的另一结构框图，结合图10和图11所示，该装置还可以包括：

语音分类模型训练模块700，用于获取训练语料库，所述训练语料库记录有各语音控制指令的语音样本，一语音控制指令对应至少一条语音样本；提取各语音样本的文本特征，得到多个文本特征；对各文本特征分别进行特征向量加权，得到各文本特征的文本特征向量；根据机器学习算法，对各文本特征向量与对应的语音样本的归属概率进行建模，得到语音分类模型。

可选的，语音分类模型训练模块700，用于对各文本特征分别进行特征向量加权，得到各文本特征的文本特征向量，具体包括：

对于一文本特征，确定该文本特征的字词在对应的语音样本中的出现次数，以及在训练语料库中的出现次数；

根据该文本特征的字词在对应的语音样本和训练语料库中的出现次数，确定该文本特征在对应的语音样本中的重要程度；其中，该重要程度与文本特征的字词在语音样本的出现次数成正比关系，与文本特征的字词在语料库中的出现次数成反比关系；

根据该重要程度确定该文本特征对应的文本特征向量。

可选的，语音分类模型训练模块700，用于根据机器学习算法，对各文本特征向量与对应的语音样本的归属概率进行建模，得到语音分类模型，具体包括：

利用最大熵算法，对各文本特征向量与对应的语音控制指令的归属概率进行建模，得到概率分布均匀的最大熵分类模型。

可选的，本发明实施例还可结合用户手势进行人机交互，相应的，所述控制信息还可以包括手势信息；所述手势信息可以包括：从用户手势图像提取的手势位置特征和手势姿态特征；

可选的，图12示出了本发明实施例提供的人机交互装置的再一结构框图，结合图10和图12所示，该装置还可以包括：

自适应区间卡尔曼滤波处理模块800，用于根据自适应区间卡尔曼滤波处理所述手势位置特征，得到目标手势位置特征；

改进粒子滤波处理模块900，用于根据改进粒子滤波处理所述手势姿态特征，得到目标手势姿态特征；

手势特征确定模块1000，用于融合所述目标手势位置特征和所述目标手势姿态特征，确定用户的手势特征；

手势控制指令确定模块1100，用于确定所述手势特征对应的手势控制指令；

相应的，目标指令生成模块600，用于根据所述语音控制指令，生成目标控制指令，具体包括：

根据所述语音控制指令和所述手势控制指令，生成目标控制指令。

可选的，自适应区间卡尔曼滤波处理模块800，用于根据自适应区间卡尔曼滤波处理所述手势位置特征，得到目标手势位置特征，具体包括：

根据手势位置特征对应的加速度，确定手势加速度变化规律；

根据自适应区间卡尔曼滤波的模型，过滤偏离手势加速度变化规律的噪声；

利用自适应区间卡尔曼滤波的模型，根据过滤噪声后的手势位置特征中前一时刻的手势坐标、手势速度和加速度，估计当前时刻的手势坐标、手势速度和加速度，确定出当前时刻的目标手势位置特征。

可选的，改进粒子滤波处理模块900，用于根据改进粒子滤波处理所述手势姿态特征，得到目标手势姿态特征，具体包括：

获取手势姿态特征所表示的人手在三维坐标系各轴的旋转角；

根据所述人手在三维坐标系各轴的旋转角，确定四元数分量；

根据改进粒子滤波，确定人手粒子的后验概率；

根据所述后验概率迭代处理所述四元数分量，得到目标四元数分量，以获取到目标手势姿态特征。

可选的，目标指令生成模块600，用于根据所述语音控制指令和所述手势控制指令，生成目标控制指令，具体包括：

确定所述语音控制指令对应的语音控制变量，所述语音控制变量包括：所述语音控制指令所指示的操作方位关键词，操作关键词，操作关键词对应的操作值，和操作单位；及确定所述手势控制指令对应的手势控制变量；

结合所述语音控制变量和所述手势控制变量，形成描述目标控制指令的控制向量。

可选的，图13示出了本发明实施例提供的人机交互装置的又一结构框图，结合图12和图13所示，该装置还可以包括：

手势特征过滤模块1200，用于如果用户的手势特征对应的人手移动的距离，大于设定的弹性极限阈值，则过滤该手势特征；

相应的，手势控制指令确定模块1100，可用于确定未过滤的手势特征对应的手势控制指令。

可选的，图14示出了本发明实施例提供的人机交互装置的又另一结构框图，结合图10和图14所示，该装置还可以包括：

目标对象识别模块1300，用于获取环境场景图像；确定所述环境场景图像的图像特征；提取用户传达的语音信息中的目标关键词；根据预训练的目标分类模型，从环境场景图像的图像特征中匹配出与目标关键词相对应的图像特征；所述目标分类模型表示有各对象对应的图像特征；将环境场景图像中所匹配的图像特征对应的对象，确定为所识别的目标对象；所述目标对象为所述目标控制指令执行时针对的对象。

可选的，目标分类模型的训练由图15所示目标分类模型训练模块实现，图15示出了本发明实施例提供的人机交互装置的又再一结构框图，结合图14和图15所示，该装置还可以包括：

目标分类模型训练模块1400，用于对于任一对象，通过包含该对象的图像特征的第一特征集确定候选集，通过包含该对象的图像特征的第二特征集排列候选集中的特征，选取候选集中排列的设定序位的特征作为该对象的训练特征，以得到各对象的训练特征；其中，第二特征集所包含的对象的图像特征，多于，第一特征集所包含的对象的图像特征；根据各对象的训练特征训练得到目标分类模型。

可选的，本发明实施例提供的人机交互装置还可用于：

将用户输入的用于矫正机器人参数的数据作为，机器人的学习网络参数的特征值及标签数据；根据该特征值和标签数据更新机器人的学习网络参数。

可选的，上文描述的人机交互装置的模块架构可通过程序形式装载于人机交互终端中。人机交互终端的结构可如图3所示，包括：至少一个存储器和至少一个处理器；

其中，所述存储器存储有程序，所述处理器调用所述程序；所述程序用于：

获取用户传达的控制信息，所述控制信息包括语音信息；

提取所述语音信息的文本特征；

确定所述文本特征相应的文本特征向量；

根据所述语音控制指令，生成目标控制指令。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的核心思想或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种人机交互方法，其特征在于，包括：

获取用户传达的控制信息，所述控制信息包括语音信息；

提取所述语音信息的文本特征；

确定所述文本特征相应的文本特征向量；

根据所述语音控制指令，生成目标控制指令；

获取服务机器人所处于的环境场景图像；

将环境场景图像分成一定数量的子图像，将各个子图像按照一定的规则分割成细胞单元；对于每一个子图像，可采集细胞单元中各像素点的梯度方向直方图，计算各梯度方向直方图在该子图像中的密度，根据该密度对该子图像中的各个细胞单元做归一化处理；将各子图像的归一化结果进行组合，确定出环境场景图像的HOG特征；

提取用户传达的语音信息中的环境场景中待识别的目标对象的目标关键词；

根据预训练的目标分类模型，从环境场景图像的HOG特征中匹配出与目标关键词相对应的HOG特征；

将环境场景图像中所匹配的HOG特征对应的对象，确定为所识别的目标对象，所述目标对象为所述目标控制指令执行时针对的对象。

2.根据权利要求1所述的人机交互方法，其特征在于，所述根据预训练的语音分类模型，确定所述文本特征向量匹配的语音样本包括：

3.根据权利要求1或2所述的人机交互方法，其特征在于，还包括：

获取训练语料库，所述训练语料库记录有各语音控制指令的语音样本，一语音控制指令对应至少一条语音样本；

提取各语音样本的文本特征，得到多个文本特征；

对各文本特征分别进行特征向量加权，得到各文本特征的文本特征向量；

根据机器学习算法，对各文本特征向量与对应的语音样本的归属概率进行建模，得到语音分类模型。

4.根据权利要求3所述的人机交互方法，其特征在于，所述对各文本特征分别进行特征向量加权，得到各文本特征的文本特征向量包括：

根据该重要程度确定该文本特征对应的文本特征向量。

5.根据权利要求3所述的人机交互方法，其特征在于，所述根据机器学习算法，对各文本特征向量与对应的语音样本的归属概率进行建模，得到语音分类模型包括：

6.根据权利要求1所述的人机交互方法，其特征在于，所述控制信息还包括手势信息；所述手势信息包括：从用户手势图像提取的手势位置特征和手势姿态特征；

所述方法还包括：

根据自适应区间卡尔曼滤波处理所述手势位置特征，得到目标手势位置特征；及根据改进粒子滤波处理所述手势姿态特征，得到目标手势姿态特征；

融合所述目标手势位置特征和所述目标手势姿态特征，确定用户的手势特征；

确定所述手势特征对应的手势控制指令；

所述根据所述语音控制指令，生成目标控制指令包括：

7.根据权利要求6所述的人机交互方法，其特征在于，所述根据自适应区间卡尔曼滤波处理所述手势位置特征，得到目标手势位置特征包括：

8.根据权利要求6所述的人机交互方法，其特征在于，所述根据改进粒子滤波处理所述手势姿态特征，得到目标手势姿态特征包括：

根据改进粒子滤波，确定人手粒子的后验概率；

9.根据权利要求6所述的人机交互方法，其特征在于，所述根据所述语音控制指令和所述手势控制指令，生成目标控制指令包括：

10.根据权利要求1所述的人机交互方法，其特征在于，所述方法还包括：

对于任一对象，通过包含该对象的图像特征的第一特征集确定候选集，通过包含该对象的图像特征的第二特征集排列候选集中的特征，选取候选集中排列的设定序位的特征作为该对象的训练特征，以得到各对象的训练特征；其中，第二特征集所包含的对象的图像特征，多于，第一特征集所包含的对象的图像特征；

根据各对象的训练特征训练得到目标分类模型。

11.根据权利要求1所述的人机交互方法，其特征在于，所述方法还包括：

将用户输入的用于矫正机器人参数的数据作为，机器人的学习网络参数的特征值及标签数据；

根据该特征值和标签数据更新机器人的学习网络参数。

12.一种人机交互装置，其特征在于，包括：

文本特征提取模块，用于提取所述语音信息的文本特征；

目标指令生成模块，用于根据所述语音控制指令，生成目标控制指令，获取服务机器人所处于的环境场景图像；

13.根据权利要求12所述的人机交互装置，其特征在于，所述控制信息还包括手势信息；所述手势信息包括：从用户手势图像提取的手势位置特征和手势姿态特征；

所述装置还包括：

自适应区间卡尔曼滤波处理模块，用于根据自适应区间卡尔曼滤波处理所述手势位置特征，得到目标手势位置特征；

改进粒子滤波处理模块，用于根据改进粒子滤波处理所述手势姿态特征，得到目标手势姿态特征；

手势特征确定模块，用于融合所述目标手势位置特征和所述目标手势姿态特征，确定用户的手势特征；

手势控制指令确定模块，用于确定所述手势特征对应的手势控制指令；

所述目标指令生成模块，用于根据所述语音控制指令，生成目标控制指令，具体包括：

14.一种人机交互终端，其特征在于，包括：至少一个存储器和至少一个处理器；

获取用户传达的控制信息，所述控制信息包括语音信息；

提取所述语音信息的文本特征；

确定所述文本特征相应的文本特征向量；

根据所述语音控制指令，生成目标控制指令，

获取服务机器人所处于的环境场景图像；

15.一种存储介质，其特征在于，所述存储介质中存储有计算机可执行指令，所述计算机可执行指令被处理器加载并执行时，实现如上权利要求1至11任一项所述的人机交互方法。