CN111276140A

CN111276140A - 语音命令识别方法、装置、***及存储介质

Info

Publication number: CN111276140A
Application number: CN202010060884.5A
Authority: CN
Inventors: 宋德超; 陈翀; 陈向文; 罗晓宇; 黄智刚
Original assignee: Gree Electric Appliances Inc of Zhuhai; Zhuhai Lianyun Technology Co Ltd
Current assignee: Gree Electric Appliances Inc of Zhuhai; Zhuhai Lianyun Technology Co Ltd
Priority date: 2020-01-19
Filing date: 2020-01-19
Publication date: 2020-06-12
Anticipated expiration: 2040-01-19
Also published as: CN111276140B

Abstract

本发明涉及一种语音命令识别方法、装置、***及存储介质，该方法包括：获取语音信息及发出语音信息的语音用户在发出语音信息时的行为图像数据；对行为图像数据中的语音用户进行行为特征识别，以确定语音用户是否将语音信息作为控制指令发出；在确定语音信息是作为控制指令发出的情况下，根据语音信息生成相应的控制指令,用于控制目标设备按照语音信息执行相应的动作。本发明通过对语音用户在发出语音信息时的行为图像数据进行行为特征识别，即可确定出语音用户是否将语音信息作为控制指令发出，从而避免了目标设备误响应。

Description

语音命令识别方法、装置、***及存储介质

技术领域

本发明属于人工智能技术领域，涉及语音识别技术，尤其涉及一种语音命令识别方法、装置、***及存储介质。

背景技术

目前，随着人们生活水平的提高,智能家电(例如智能空调设备)已成为越来越多消费者的选择。其中,在家电设备上应用语音控制模块，使得传统家电的使用更加方便和智能,是家电智能化的发展路线之一。

然而,现有的集成了语音控制模块的家电设备在识别人的语音时，有时会出现识别错误的情况。例如，用户原本是与其他人进行语言交流，交流的话语因为与设备控制语句相似，被设备误认为控制命令而执行该命令，导致发生了错误的响应。

发明内容

本发明的主要目的提供了一种新的语音命令识别方法、装置、***及存储介质，来解决现有技术中因用户与其他人的交流语句与设备控制语句相似而导致家电设备误将该交流语句识别为控制命令并执行该命令的问题，实现了帮助家电设备准确地识别出交流语句是否为控制指令,提高正确响应的准确率和快速性。

本发明第一方面提供了一种语音命令识别方法，所述方法包括：获取语音信息及发出所述语音信息的语音用户在发出所述语音信息时的行为图像数据；对所述行为图像数据中的语音用户进行行为特征识别，以确定语音用户是否将所述语音信息作为控制指令发出；在确定所述语音信息是作为控制指令发出的情况下，根据所述语音信息生成相应的控制指令,用于控制目标设备按照所述语音信息执行相应的动作。

可选的，对所述行为图像数据中的语音用户进行行为特征识别，以确定语音用户是否将所述语音信息作为控制指令发出，包括：将所述行为图像数据进行划分，得到视频帧序列；对所述视频帧序列进行视频分析，确定语音用户发出语音信息时的人脸朝向信息及语音用户发出语音信息时的行为类别；根据所述人脸朝向信息以及所述行为类别，判断语音用户是否将所述语音信息作为控制指令发出。

可选的，对所述视频帧序列进行视频分析，确定语音用户发出语音信息时的人脸朝向信息，包括：对所述视频帧序列进行分析，得到语音用户在每个视频帧上的头部坐标信息；基于语音用户的头部坐标信息，对语音用户在每个视频帧上的头部区域进行定位，并获取每个视频帧对应的头部区域中的头部姿态信息及人脸特征信息；利用已训练好的人脸朝向识别模型，基于每个视频帧上的所述头部姿态信息及人脸特征信息，确定语音用户在发出所述语音信息时的人脸朝向信息。

可选的，对所述视频帧序列进行视频分析，确定语音用户发出语音信息时的行为类别，包括：从所述视频帧序列中筛选出含有语音用户的视频帧；利用已训练好的预设行为识别模型，基于含有语音用户的视频帧确定语音用户发出语音信息时的行为类别。

可选的，基于已训练好的预设行为识别模型，基于含有语音用户的视频帧确定语音用户发出语音信息时的行为类别，包括：对含有语音用户的视频帧中的语音用户进行定位分析，得到语音用户在含有语音用户的视频帧中的位置信息；根据所述位置信息，提取语音用户在含有语音用户的视频帧序列中的人体行为特征信息；基于语音用户在含有语音用户的视频帧中的人体行为特征信息，确定语音用户的行为类别。

可选的，所述预设行为识别模型通过以下步骤训练：根据视频帧对在场人员进行单独定位分析，得到含有该在场人员在对应的视频帧上的位置信息；根据该在场人员对应的位置信息，获取该在场人员在对应的视频帧中的人体行为特征信息；基于该在场人员在对应的视频帧中的人体行为特征信息，对预设行为识别模型进行训练。

可选的，在确定所述语音信息是作为控制指令发出的情况下，根据所述语音信息生成相应的控制指令，用于控制目标设备按照所述语音信息执行相应的动作，包括：对所述语音信息进行预处理，并从处理结果中提取语音关键字；利用预设语音识别模型，从所述语音关键字中识别出控制信息；在确定语音信息是作为控制指令发出的情况下，根据所述控制信息生成相应的控制指令，用于控制目标设备执行相应的动作。

可选的，所述预处理包括以下各项中的一项或多项：去噪、预加重、分帧、加窗和端点检测。

可选的，在确定语音信息是作为控制指令发出之后，且在根据所述控制信息生成相应的控制指令，用于控制目标设备执行相应的动作之前，所述方法还包括：基于预设指令列表，判断所述预设指令列表中是否包括所述控制信息，其中，所述预设指令列表包括若干可执行的控制信息；在判定所述预设指令列表中包括所述控制信息的情况下，则确定根据所述控制信息生成相应的控制指令，以控制目标设备执行相应的动作。

本发明第二方面提供了一种存储介质，所述存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现上述的语音命令识别方法。

本发明第三方面提供了一种语音命令识别装置，所述装置包括：包括处理器和存储器；所述存储器用于存储计算机指令，所述处理器用于运行所述存储器存储的计算机指令，以实现上述语音命令识别方法。

本发明第四方面提供了一种语音命令识别***，所述***包括：终端，用于采集语音信息及发出所述语音信息的语音用户在发出所述语音信息时的行为图像数据；服务器，其与所述终端通信连接，用于接收所述终端发送的语音信息及发出所述语音信息的语音用户在发出所述语音信息时的行为图像数据；其中，所述服务器还包括处理器和存储器；所述存储器用于存储计算机指令，所述处理器用于运行所述存储器存储的计算机指令，以实现上述语音命令识别方法。

本发明第五方面提供了一种智能家电***，包括如上述语音命令识别装置或***,以及与所述装置或***进行通信连接的家电设备，其中，所述家电设备接收所述装置或***发出的控制指令，并根据所述控制指令执行相应的动作。

与现有技术相比，本发明的有益效果如下：通过对语音用户在发出语音信息时的行为图像数据进行行为特征识别，即可确定出语音用户是否将语音信息作为控制指令发出。故，在通过行为图像数据确定出语音用户发出的语音信息不是作为控制指令时，无论该语音信息与用于人机交互的交流语言相似或相同，甚至该语音信息用于语音用户与人进行交流，该目标设备均不会响应该语音信息；而在通过行为图像数据确定出语音用户发出的语音信息是作为控制指令时，即可确定语音用户是在和智能空调等家电进行人机交互，使得该目标设备可响应该语音信息，从而避免了目标设备误响应，提高了目标设备响应的正确率。

附图说明

图1为本发明的一个实施例中的语音命令识别方法的应用环境示意图；

图2为本发明的另一实施例中的语音命令识别方法的工作流程示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明提供的一种语音命令识别方法可以应用于如图1所示的语音命令识别***的应用环境中。其中，终端102与服务器104通过无线网络进行通信连接。终端102用于采集语音信息及发出所述语音信息的语音用户在发出所述语音信息时的行为图像数据；并将采集的语音信息和行为图像数据传输至服务器104，服务器104对所述行为图像数据中的语音用户进行行为特征识别，以确定语音用户是否将所述语音信息作为控制指令发出；在确定所述语音信息是作为控制指令发出的情况下，根据所述语音信息生成相应的控制指令，用于控制目标设备按照所述语音信息执行相应的动作。其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

其中，上述目标设备包括但不限于：智能家电设备。为叙述方便，在下文中将该智能家电设备简称为家电设备。

在本实施例中，该终端102包括但不限于：应用于家电设备的语音信息及视频信息的采集设备，而上述服务器104包括但不限于应用于该家电设备且用于对采集设备上传的数据信号进行处理的信号处理设备。

在本实施例中，该服务器104与该家电设备构成数据连接，当然，在另一实施例中，也可由该终端102与该家电设备构成数据连接。

在本实施例中，该家电设备包括但不限于：例如：智能冰箱及智能空调。

在另一个实施例中，如图2所示，提供了一种语音命令识别方法，以该方法应用于图1中的服务器104为例进行说明，包括以下步骤：

步骤S201：获取语音信息及发出所述语音信息的语音用户在发出所述语音信息时的行为图像数据；

步骤S202：对所述行为图像数据中的语音用户进行行为特征识别，以确定语音用户是否将所述语音信息作为控制指令发出；在确定所述语音信息是作为控制指令发出的情况下，执行以下步骤S203.否则，执行以下步骤S204；

步骤S203：根据所述语音信息生成相应的控制指令,以控制目标设备按照所述语音信息执行相应的动作。

步骤S204：不作处理。

在本实施例中，终端102包括语音采集设备及视频采集设备，而且，在语音采集设备采集语音信息的同时，通过视频采集设备采集此时拍摄区域内的视频数据，即：该视频采集设备采集语音用户在发出语音信息时的行为图像数据。当然，在本实施例中，该语音采集设备及视频采集设备持续收集对应的数据信息。

在获取到行为图像数据后，通过对所述行为图像数据中的语音用户进行行为特征识别，从而确定出语音用户是否将所述语音信息作为控制指令发出。即：在本实施例中，通过对行为图像数据中的语音用户进行行为特征识别，从而确定出在采集到语音信息的时候语音用户是否实施了发出作为控制指令的语音信息的行为动作，在确定是的情况下，则可以确定语音用户将语音信息作为控制指令发出。在此情况下，则可以根据所述语音信息生成相应的控制指令,以控制目标设备按照所述语音信息执行相应的动作。

所以，在本实施例中，通过对语音用户在发出语音信息时的行为图像数据进行行为特征识别，即可确定出语音用户是否将语音信息作为控制指令发出。故，在通过行为图像数据确定出语音用户发出的语音信息不是作为控制指令时，无论该语音信息与用于人机交互的交流语言相似或相同，甚至该语音信息用于语音用户与人进行交流，该目标设备均不会响应该语音信息；而在通过行为图像数据确定出语音用户发出的语音信息是作为控制指令时，即可确定语音用户是在和智能空调等家电进行人机交互，使得该目标设备可响应该语音信息，从而避免了目标设备误响应。

在另一实施例中，上述步骤S202的一种实现方式：

步骤S221：将所述行为图像数据进行划分，得到视频帧序列；

步骤S222：对所述视频帧序列进行视频分析，确定语音用户发出语音信息时的人脸朝向信息及语音用户发出语音信息时的行为类别；

步骤S223：根据所述人脸朝向信息及所述行为特征判断语音用户是否将所述语音信息作为控制指令发出。

在本实施例中，将行为图像数据进行均匀划分，得到例如连续的视频帧。然后对这些连续的视频帧进行视频分析，从而确定出语音用户发出语音信息时的人脸朝向信息及语音用户发出语音信息时的行为类别；由此可以确定出语音用户在发出语音信息时的人脸朝向、以及语音用户是在与人交谈或是在进行人机交流，然后根据人脸朝向信息及行为特征来判断语音用户是否将所述语音信息作为控制指令发出，由此，可以综合考虑人脸朝向及行为类别来判断语音用户是否在与智能空调等家电进行人机交互，从而有助于提高本实施例中确定语音用户发出的语音信息是否作为控制指令发出的判断准确率。

所以在另一实施例中，上述步骤S222的一种实现方式包括：

步骤S2221：对连续的视频帧序列进行分析，得到语音用户在每个视频帧上的头部坐标信息；

步骤S2222：基于语音用户的头部坐标信息，对语音用户在每个视频帧上的头部区域进行定位，并获取每个视频帧对应的头部区域中的头部姿态信息及人脸特征信息；

步骤S2223：利用已训练好的人脸朝向识别模型，基于每个视频帧上的所述头部姿态信息及人脸特征信息，确定语音用户在发出所述语音信息时的人脸朝向信息。

在本实施例中，逐一对连续的视频帧均进行视频分析，从而得到语音用户在各个视频帧上的头部坐标信息，以获得头部坐标信息集合，通过头部坐标信息，从而实现对语音用户在各个视频帧上的头部区域进行定位。在此情况下，通过对对应的视频帧中的头部区域进行剪辑以得到各个视频帧对应的头部区域中的头部姿态信息及人脸特征信息，将头部姿态信息及人脸特征信息传入训练完成的人脸朝向识别模型中进行识别，确定语音用户在发出所述语音信息时的人脸朝向信息。

具体的，可以通过YOLOv3算法对连续对的视频帧序列上的语音用户进行检测，并检测人的头部坐标信息，从而确认人脸朝向，如果有两个人在交谈，这两人脸部朝向一般为相对，若人要通过语音控制空调，则一般会朝向智能空调等智能家电的位置。

当然，在本实施例中，可以采集通过大量标注好的人脸朝向样本对上述的人脸朝向识别模型进行训练，使得训练好的模型就能用于人脸朝向检测。

具体的，在另一实施例中，上述步骤S222的实现方式还包括：

步骤S2224：从所述视频帧序列中筛选出含有语音用户的视频帧；

步骤S2225：利用已训练好的预设行为识别模型，基于含有语音用户的视频帧确定语音用户发出语音信息时的行为类别。

当然，在本实施例中，并不对步骤S2221-步骤S2223和步骤S2224-步骤S2225之间的执行顺序进行限定，步骤S2221-步骤S2223可在先执行，当然，步骤S2224-步骤S2225也可在先执行。

在本实施例中，对所述视频帧序列中的语音用户均进行人体检测，如：对所述视频帧序列中的语音用户均进行以人为目标的检测，从而筛选出含有语音用户的视频帧；利用已训练好的预设行为识别模型，通过含有语音用户的视频帧确定语音用户发出语音信息时的行为类别。

具体的，在另一实施例中，上述步骤S2225的一种实现方式包括：

步骤S22251：对含有语音用户的视频帧中的语音用户进行定位分析，得到语音用户在对应的含有语音用户的视频帧中的位置信息；

步骤S22252：根据所述位置信息，提取语音用户在含有语音用户的视频帧序列中的人体行为特征信息；

步骤S22253：基于语音用户在含有语音用户的视频帧序列中的人体行为特征信息，确定语音用户的行为类别。

在本实施例中，通过对每个视频帧上的语音用户进行定位，可以准确的提取出语音用户在对应视频帧上的人体行为特征信息，结合提取出的人体行为特征信息，即可确定该语音用户的行为类别。

当然，在另一实施例中，上述预设行为识别模型的训练方式包括：

根据连续的视频帧对在场人员进行单独定位分析，得到含有该在场人员在对应的视频帧上的位置信息；根据该在场人员对应的位置信息，获取该在场人员在对应的视频帧中的人体行为特征信息；基于该在场人员在对应的视频帧中的人体行为特征信息，对预设行为识别模型进行训练。

所以，在本实施例中，可以通过视频帧中每个在场人员均进行单独定位分析，从而确定出每个在场人员是在与他人进行交流、人机交流又或其他行为。

当然，在本实施例中，上述预设行为识别模型可采用CNN-BiLSTM模型。具体的，通过人目标检测，将检测到的含有人的视频帧输入到预设行为识别模型中，进行分类识别。预设行为识别模型采用CNN-BiLSTM模型，CNN-BiLSTM模型分类类别数为3类：人与人之间在交流，人通过语音控制空调和其他行为。此外，在本实施例中，可以采集在场人员的人体行为特征信息训练该模型，当然，该人体行为特征信息包括实际场景中的人与人之间在交流，人通过语音控制空调和其他，然后将这些人体行为特征信息输入到该模型中进行训练。

此外，在另一实施例中，上述步骤S203的一种实现方式包括:

步骤S301：对所述语音信息进行预处理，并从处理结果中提取语音关键字；

当然，在本实施例中，该预处理包括但不限于以下一项或多项：去噪、预加重、分帧、加窗和端点检测。

步骤S302：通过预设语音识别模型，从所述语音关键字中识别出控制信息；；

步骤S303：在确定语音信息是作为控制指令发出的情况下，根据所述控制信息生成相应的控制指令，以控制目标设备执行相应的动作。

在本实施例中，在步骤S301-步骤S303中，通过对语言信息进行预处理，以从经处理后的语音信息中提取语音特征参数；然后，通过将这些提取出的语音特征参数输入值预设语音识别模型，从而识别出控制信息，在本实施例中，在确定语音信息是作为控制指令发出的情况下，根据所述控制信息生成相应的控制指令，以控制目标设备执行相应的动作。在本实施例中，根据文本信息，将该语音信息转换为文字信息，并提取其中的语音关键字；然后根据预设字典数据库查询这些提取出的关键字的语义及属性。这些关键字包括但不限于：语气助词、感叹词及动词。然后通过该预设语音识别模型为关键字的语义及属性进行组合分析，以从中识别出控制信息。

而且，在本实施例中，在确定语音信息是作为控制指令发出之后，且在根据所述控制信息生成相应的控制指令，以控制目标设备执行相应的动作之前，该语音命令识别方法还包括以下实现步骤：基于预设指令列表，判断所述预设指令列表中是否包括所述控制信息，其中，所述预设指令列表包括若干可执行的控制信息；若是，则确定根据所述控制信息生成相应的控制指令，以控制目标设备执行相应的动作。否则，则不作处理。

应该理解的是，虽然图2的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在本发明的另一个实施例中，提供了一种存储介质，所述存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现上述的语音命令识别方法。

本实施例中的一种存储介质所涉及的名词及实现原理具体可以参照上述实施例中的的一种语音命令识别方法，在此不再赘述。

在本发明的另一个实施例中，提供了一种语音命令识别装置，其包括处理器和存储器；所述存储器用于存储计算机指令，所述处理器用于运行所述存储器存储的计算机指令，以实现上述的语音命令识别方法。

本实施例中的一种语音命令识别装置所涉及的名词及实现原理具体可以参照上述实施例中的的一种语音命令识别方法，在此不再赘述。

在本发明的另一个实施例中，提供了一种语音命令识别***，如图1所示，其包括：

终端，用于采集语音信息及发出所述语音信息的语音用户在发出所述语音信息时的行为图像数据；

服务器，其与所述终端通信连接，用于接收所述终端发送的语音信息及发出所述语音信息的语音用户在发出所述语音信息时的行为图像数据；

其中，所述服务器还包括处理器和存储器；所述存储器用于存储计算机指令，所述处理器用于运行所述存储器存储的计算机指令，以实现上述的语音命令识别方法。

本实施例中的一种语音命令识别***所涉及的名词及实现原理具体可以参照上述实施例中的的一种语音命令识别方法，在此不再赘述。

在本发明的另一个实施例中，提供了一种智能家电***，其包括如上述的语音命令识别装置或***，以及与所述装置或***进行通信连接的家电设备，其中，所述家电设备接收所述终端设备发出的控制指令，并根据所述控制指令执行相应的动作。

本实施例中的一种智能家电***所涉及的名词及实现原理具体可以参照本发明实施例中的的一种语音命令识别装置或语音命令识别***，在此不再赘述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本发明所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种语音命令识别方法，其特征在于，所述方法包括：

获取语音信息及发出所述语音信息的语音用户在发出所述语音信息时的行为图像数据；

对所述行为图像数据中的语音用户进行行为特征识别，以确定语音用户是否将所述语音信息作为控制指令发出；

在确定所述语音信息是作为控制指令发出的情况下，根据所述语音信息生成相应的控制指令,用于控制目标设备按照所述语音信息执行相应的动作。

2.根据权利要求1所述的方法，其特征在于，对所述行为图像数据中的语音用户进行行为特征识别，以确定语音用户是否将所述语音信息作为控制指令发出，包括：

将所述行为图像数据进行划分，得到视频帧序列；

对所述视频帧序列进行视频分析，确定语音用户发出语音信息时的人脸朝向信息及语音用户发出语音信息时的行为类别；

根据所述人脸朝向信息以及所述行为类别，判断语音用户是否将所述语音信息作为控制指令发出。

3.根据权利要求2所述的方法，其特征在于，对所述视频帧序列进行视频分析，确定语音用户发出语音信息时的人脸朝向信息，包括：

对所述视频帧序列进行分析，得到语音用户在每个视频帧上的头部坐标信息；

基于语音用户的头部坐标信息，对语音用户在每个视频帧上的头部区域进行定位，并获取每个视频帧对应的头部区域中的头部姿态信息及人脸特征信息；

利用已训练好的人脸朝向识别模型，基于每个视频帧上的所述头部姿态信息及人脸特征信息，确定语音用户在发出所述语音信息时的人脸朝向信息。

4.根据权利要求2所述的方法，其特征在于，对所述视频帧序列进行视频分析，确定语音用户发出语音信息时的行为类别，包括：

从所述视频帧序列中筛选出含有语音用户的视频帧；

利用已训练好的预设行为识别模型，基于含有语音用户的视频帧确定语音用户发出语音信息时的行为类别。

5.根据权利要求4所述的方法，其特征在于，基于已训练好的预设行为识别模型，基于含有语音用户的视频帧确定语音用户发出语音信息时的行为类别，包括：

对含有语音用户的视频帧中的语音用户进行定位分析，得到语音用户在含有语音用户的视频帧中的位置信息；

根据所述位置信息，提取语音用户在含有语音用户的视频帧序列中的人体行为特征信息；

基于语音用户在含有语音用户的视频帧中的人体行为特征信息，确定语音用户的行为类别。

6.根据权利要求4或5所述的方法，其特征在于，所述预设行为识别模型通过以下步骤训练：

根据视频帧对在场人员进行单独定位分析，得到含有该在场人员在对应的视频帧上的位置信息；

根据该在场人员对应的位置信息，获取该在场人员在对应的视频帧中的人体行为特征信息；

基于该在场人员在对应的视频帧中的人体行为特征信息，对预设行为识别模型进行训练。

7.根据权利要求1所述的方法，其特征在于，在确定所述语音信息是作为控制指令发出的情况下，根据所述语音信息生成相应的控制指令，用于控制目标设备按照所述语音信息执行相应的动作，包括：

对所述语音信息进行预处理，并从处理结果中提取语音关键字；

利用预设语音识别模型，从所述语音关键字中识别出控制信息；

在确定语音信息是作为控制指令发出的情况下，根据所述控制信息生成相应的控制指令，用于控制目标设备执行相应的动作。

8.根据权利要求7所述的方法，其特征在于，所述预处理包括以下各项中的一项或多项：去噪、预加重、分帧、加窗和端点检测。

9.根据权利要求7所述的方法，其特征在于，在确定语音信息是作为控制指令发出之后，且在根据所述控制信息生成相应的控制指令，用于控制目标设备执行相应的动作之前，所述方法还包括：

基于预设指令列表，判断所述预设指令列表中是否包括所述控制信息，其中，所述预设指令列表包括若干可执行的控制信息；

在判定所述预设指令列表中包括所述控制信息的情况下，则确定根据所述控制信息生成相应的控制指令，以控制目标设备执行相应的动作。

10.一种存储介质，其特征在于，所述存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现如权利要求1至9中任一项所述的语音命令识别方法。

11.一种语音命令识别装置，其特征在于，包括处理器和存储器；

所述存储器用于存储计算机指令，所述处理器用于运行所述存储器存储的计算机指令，以实现如权利要求1至9中任一项所述的语音命令识别方法。

12.一种语音命令识别***，其特征在于，包括：

其中，所述服务器还包括处理器和存储器；所述存储器用于存储计算机指令，所述处理器用于运行所述存储器存储的计算机指令，以实现如权利要求1至9中任一项所述的语音命令识别方法。

13.一种智能家电***，其特征在于，包括如权利要求11所述的语音命令识别装置或如权利要求12所述的语音命令识别***,以及与所述装置或***进行通信连接的家电设备，其中，所述家电设备接收所述装置或***发出的控制指令，并根据所述控制指令执行相应的动作。