CN115373280A

CN115373280A - 一种远程语音控制方法、装置及***

Info

Publication number: CN115373280A
Application number: CN202110549978.3A
Authority: CN
Inventors: 杜兆臣; 孟卫明; 王彦芳
Original assignee: Hisense Group Holding Co Ltd
Current assignee: Hisense Group Holding Co Ltd
Priority date: 2021-05-20
Filing date: 2021-05-20
Publication date: 2022-11-22

Abstract

本申请公开了一种远程语音控制方法、装置及***，用以对语音指令的声纹进行身份校验，提高远程语音控制的安全性。本申请提供的一种远程语音控制方法，包括：当用户通过终端登录本地服务器成功时，接收所述终端发送的用户语音指令；对所述语音指令进行声纹校验，当校验通过时，通过所述语音指令实现对智能家居设备的远程控制。

Description

一种远程语音控制方法、装置及***

技术领域

本申请涉及智能家居技术领域，尤其涉及一种远程语音控制方法、装置及***。

背景技术

随着科学技术的发展，语音的远程控制，也开始慢慢出现，用户利用手机发出语音指令，从而远程智能家居设备等。

但是，现有的远程语音控制，只是传输语音指令，没有进行语音指令身份校验，存在语音指令的不安全性问题。

发明内容

本申请实施例提供了一种远程语音控制方法、装置及***，用以对语音指令的声纹进行身份校验，提高远程语音控制的安全性。

本申请实施例提供的一种远程语音控制方法，包括：

当用户通过终端登录本地服务器成功时，接收所述终端发送的用户语音指令；

对所述语音指令进行声纹校验，当校验通过时，通过所述语音指令实现对智能家居设备的远程控制。

通过该方法，当用户通过终端登录本地服务器成功时，接收所述终端发送的用户语音指令；对所述语音指令进行声纹校验，当校验通过时，通过所述语音指令实现对智能家居设备的远程控制，从而实现对语音指令的声纹进行身份校验，提高了远程语音控制的安全性。

可选地，该方法还包括：

接收用户通过终端采集的人脸图像和语音信息；

提取所述人脸图像的人脸特征，以及所述语音信息的声纹特征；

将所述声纹特征与所述人脸特征进行融合，基于融合结果判断所述用户是否可以登录本地服务器。

本申请实施例，针对用户单独的人脸验证会被照片或面具破解，声纹对于录音、克隆的声音存在识别漏洞的问题，本申请实施例采用将人脸特征与声纹特征进行融合，增加用户登录验证信息的可靠性。

可选地，将所述声纹特征与所述人脸特征进行融合，基于融合结果判断所述用户是否可以登录本地服务器，具体包括：

基于所述人脸特征的向量和所述声纹特征的向量，构建融合特征向量；

确定所述融合特征向量的权值矩阵；

将所述权值矩阵中的每一特征权值进行加和运算，最终得到一个数值，若该数值属于预设数值范围，则确定所述用户通过终端登录本地服务器成功。

可选地，通过所述语音指令实现对智能家居设备的远程控制，具体包括：

将所述语音指令分别传输给协调器和音箱模块，通过所述协调器控制智能家居设备的电源开关，通过所述音箱模块按照所述语音指令所含智能家居设备的关键词进行指令分类传输，使得所述语音指令传输给为与所述关键词相应的智能家居设备对应设置的音箱，并通过该音箱播放所述语音指令给与所述关键词相应的智能家居设备。

本申请实施例，针对远程语音控制家居设备指令不能做到及时反馈问题，本申请实施例将用户指令进行分类，并实现用户与本地服务器、本地服务器与智能家居设备的双向通信，实现了远程控制家居设备信息的及时反馈与优化。

可选地，该方法还包括：

当所述语音指令无法被相应的智能家居设备执行时，向所述用户终端反馈错误指令提示信息。

可选地，当校验通过时，该方法还包括：

若所述语音指令在本地服务器不能进行离线处理，则调用云端服务器对所述语音指令进行处理。

本申请实施例提供的一种远程语音控制装置，包括：

存储器，用于存储程序指令；

处理器，用于调用所述存储器中存储的程序指令，按照获得的程序执行上述任一种方法。

本申请实施例提供的一种远程语音控制***，包括所述的远程语音控制装置，以及分别与所述远程语音控制装置相连的协调器和音箱模块，以及与所述音箱模块连接的至少一个音箱；其中，

所述协调器，用于接收所述远程语音控制装置发送的语音指令，并基于该语音指令控制智能家居设备的电源开关；

所述音箱模块，用于确定所述远程语音控制装置发送的语音指令中包含的智能家居设备的关键词，将所述语音指令发送给与所述关键词相应的智能家居设备对应设置的音箱，通过该音箱播放所述语音指令给与所述关键词相应的智能家居设备。

可选地，该***还包括与每一所述音箱对应设置的智能家居设备。

本申请另一实施例提供了一种计算设备，其包括存储器和处理器，其中，所述存储器用于存储程序指令，所述处理器用于调用所述存储器中存储的程序指令，按照获得的程序执行上述任一种方法。

本申请另一实施例提供了一种计算机存储介质，所述计算机存储介质存储有计算机可执行指令，所述计算机可执行指令用于使所述计算机执行上述任一种方法。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅是本申请的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的整体***框架示意图；

图2为本申请实施例提供的声纹特征采集以及识别示意图；

图3为本申请实施例提供的人脸特征采集以及识别示意图；

图4为本申请实施例提供的人脸和声纹特征融合示意图；

图5为本申请实施例提供的用户身份注册与身份登录流程示意图；

图6为本申请实施例提供的语音信号远程传输与语音指令解析框架示意图；

图7为本申请实施例提供的远程语音控制智能家居设备框架示意图；

图8为本申请实施例提供的一种远程语音控制方法的流程示意图；

图9为本申请实施例提供的一种远程语音控制装置的结构示意图；

图10为本申请实施例提供的另一种远程语音控制装置的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，并不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例提供了一种远程语音控制方法及装置，用以实现对用户语音指令发出者身份的校验，增加用户登录验证信息的可靠性，提高远程语音控制的安全性。

其中，方法和装置是基于同一申请构思的，由于方法和装置解决问题的原理相似，因此装置和方法的实施可以相互参见，重复之处不再赘述。

下面结合说明书附图对本申请各个实施例进行详细描述。需要说明的是，本申请实施例的展示顺序仅代表实施例的先后顺序，并不代表实施例所提供的技术方案的优劣。

本申请实施例提供了一种用户可信赖的远程语音控制智能家居***，具体包括：

一、针对现有的远程语音控制，只是传输语音指令，没有进行语音指令身份校验，存在语音指令的不安全性的问题，本申请实施例将语音信号分为声纹信号与语音指令，对用户的每一步语音都进行身份校验；

二、针对用户单独的人脸验证会被照片或面具破解，声纹对于录音、克隆的声音存在识别漏洞的问题，本申请实施例采用将人脸特征与声纹特征进行融合，增加用户登录验证信息的可靠性；

三、针对远程语音控制家居设备指令不能做到及时反馈问题，本申请实施例将用户指令进行分类，并实现用户与本地服务器、本地服务器与智能家居设备的双向通信，实现了远程控制家居设备信息的及时反馈与优化。

综上，本申请实施例具体以下优点：

1.声纹和人脸融合特征，构建用户注册以及登录页面，实现融合特征的用户登录校验功能，避免了人脸单独校验或声纹单独校验的漏洞，增加了登录***的安全性；

2.用户登录成功后，对每一条语音进行解析，首先再进行一次声纹的校验，保证每条信息有校验，实现实时监控用户行为的合法性，进一步保证了远程语音控制的安全性；

3.构建智能家居硬件***，将用户信息通过智能音箱的扬声器功能播放给相关设备，相关设备实现相关的语音操作，并能将信息及时反馈给用户，实现远程控制功能的实现与反馈。

本申请实施例主要涉及一种基于实时监测的远程控制***。可以为用户提供一种新的远程指令识别方式，保护了用户的隐私与财产安全。本申请实施例提供的***框架如图1所示，其主要内容包括：

(1)、采集用户声纹特征并构建声纹数据库。

(2)、采集用户人脸特征并构建人脸数据库。

(3)、将声纹特征与人脸特征进行融合。

(4)、构建用户身份注册***与身份登录***。

(5)、语音信号远程传输与语音指令解析***。

(6)、远程语音控制智能家居设备框架设计。

关于上述内容，具体实施例描述如下：

(1)、采集用户声纹特征并构建声纹数据库：

本申请实施例关于声纹特征采集以及识别如图2所示，分为语音输入、预处理、语音特征提取、分类器以及构造声纹数据库五个阶段。

语音输入：通过移动端指定相关文本，用户通过阅读文本进行采集用户语音。

预处理：通过时域分析得到原始语音中有声片段，经过高通滤波器预加重处理提高音频的识别效果，经过窗函数分帧后处理得到音频帧，经过检测音频帧的短时能量、短时过零率，通过设置门限确定语音信号起始点与结束点。

其中，所述短时能量，表示每一帧语音信号能量的大小。

所述短时过零率，表示每一帧语音信号的波形穿过零轴的次数。

关于设置门限：用平均短时过零率和短时能量作为语音信号端点检测的门限是一种基本的双门限端点检测算法，其中，将短时能量的高门限设为低门限的4～5倍，短时过零率的高门限设为低门限的2倍左右时，端点检测的效果最好。

语音特征提取：使用梅尔频率倒谱系数(MFCC)和一阶差分系数进行语音特征提取，之后通过高斯混合模型加上背景模型的处理方法，将上述预处理后的语音信号处理成特征向量，并通过特征向量的降维，形成低维度且具有区分度的声纹特征。

其中，所述梅尔频率倒谱系数(MFCC)，是一种基于人耳对等距音高变化的感官判断而定的分线性频率系数。

所述混合高斯模型，即利用高斯概率密度函数精确地量化事物，一个将事物分解为若干的基于高斯概率密度函数形成的模型。

所述背景模型，指语音的背景音，可以通过语音信号的相邻两帧做差，就能去除掉背景音，从而避免干扰。

所述一阶差分系数：连续两帧之间，后一帧与前一帧特征参数之间做差，体现当前语音帧与前一帧之间的联系。

所述特征向量：描述语音信号特征的多个参数构成的向量。

所述降维：把高维度特征向量，通过算法(例如PCA)，降到低维度。

所述分类器：选择语音数据库VoxForge，利用提取出的语音特征向量，通过支持向量积(SVM)构造声纹身份识别的分类器。

所述语音数据库VoxForge：VOxForge是开源的语音语料库和声学模型库，在学术上常用，对测试语音模型在不同语调和重音环境下的鲁棒性强。

所述支持向量机(SVM)：是一类按照监督学习的方式对数据进行二元分类的分类器。

所述构造声纹数据库：经过上一步的声纹识别的分类器构建出数据库。之后再次语音输入，经过信号处理、特征提取、识别，在声纹数据库中找到用户声纹信息，完成匹配。

(2)、采集用户人脸特征并构建人脸数据库：

本申请实施例人脸特征采集以及识别如图3所示，分为人脸采集、图像预处理、图像特征提取、分类器以及构建人脸数据库五个阶段。

人脸采集：通过移动端摄像头采集人脸图像；

图像预处理：将采集到人脸图像数据进行灰度化处理，之后对图像进行滤波处理，实现降噪，之后将图像进行直方图均衡化，增强图像的特征。

图像的特征提取：利用方向梯度直方图(HOG)描述人脸图像特征，将人脸图像分成3×3子块，对每个子块进行HOG特征提取，之后利用主成分分析法(PCA)对高维的HOG特征进行降维处理；

分类器：选择人脸数据库CAS-PEAL，利用上一步提取的图像特征作为分类依据，并通过支持向量机(SVM)构造人脸识别分类器；

构建人脸识别数据库：通过上一步得到的人脸识别分类器构造出人脸数据库，并且通过再次输入人脸图像，经过图像预处理、特征提取、识别，在人脸数据库中找到用户声纹信息，完成匹配。

(3)、将声纹特征与人脸特征进行融合。

本申请实施例人脸特征和声纹特征融合如图4所示，将声纹特征与人脸特征进行特征级的融合，分为构建融合特征向量、针对每个维度设定权值、识别三个部分。

构建融合特征向量：用F＝(f₁,f₂,f₃,…,f_m)代表人脸的特征向量，其中f₁,f₂,f₃,…,f_m代表描述人脸的每一个特征的特征值。用V＝(v₁,v₂,v₃,…,v_n)代表声纹的特征向量，其中v₁,v₂,v₃,…,v_n代表描述声纹的每一个特征的特征值。经过量纲归一化之后，将F、V融合成新的特征向量S＝(s₁,s₂,s₃,…,s_m+n)，其中s₁,s₂,s₃,…,s_m+n代表描述人脸与声纹的融合特征的每一个特征的特征值；

权值确定：选取两组融合的特征向量S₁＝(s₁₁,s₁₂,s₁₃,…,s_1(m+n))、S₂＝(s₂₁,s₂₂,s₂₃,…,s_2(m+n))，其中s₁₁,s₁₂,s₁₃,…,s_1(m+n)代表第一组描述人脸与声纹的融合特征的每一个特征的特征值，s₂₁,s₂₂,s₂₃,…,s_2(m+n代表第二组描述人脸与声纹的融合特征的每一个特征的特征值。依据下面公式计算S1和S2之间的平均距离：

依据下面公式计算每个人脸与声纹的融合特征的特征向量的权值：

得到权值矩阵W＝(w₁,w₂,w₃,…,w_m+n)，重复上面计算过程，经过多次计算后，得到多个不同的权值矩阵，之后取其平均值确定为最终权值；

识别：通过输入人脸和语音信息，得到融合的特征向量，经过步骤(3)得到其权值矩阵，权值矩阵的每一个元素代表一个特征权值，将特征权值进行加和运算，最终得到一个数值，根据这个数值所在的数值范围，得出其识别结果，例如匹配上了百分之八十，则认为识别成功。

具体地，例如，得到的融合的特征向量值是S＝(0.8,0.7,0.5)，得到各个特征的权值矩阵是W＝(0.5,0.4,0.1)，将特征权值进行加和运算，计算出匹配程度P＝0.8*0.5+0.7*0.4+0.5*0.1＝0.73。如果设置标准是P大于或等于0.8才算匹配成功，则这个识别结果0.73小于0.8，不成功，即识别失败。

(4)、构建用户身份注册***与身份登录***：

用户身份注册与身份登录***如图5所示，本申请实施例将构建用户身份注册***与身份登录***，分为声纹和人脸特征的训练、身份登录验证两个部分。

声纹和人脸的特征训练：将用户家庭成员的声纹与人脸信息采集后，以个人为单位传输到家庭的本地服务器数据库中，之后提取声纹和人脸的特征，经过特征融合之后在本地服务器进行训练，训练结束后，训练结果保存到本地硬盘；

身份登录验证：用户在移动端登录，移动端将用户登录的人脸与声纹的信息输入到家庭本地服务器，调取本地服务器硬盘中的个人人脸与声纹的数据进行匹配，若匹配成功，则用户登录成功，否则登录失败；

本申请实施例是为了实现用户的信息注册，当用户想要远程控制家居设备时，需要先登录移动终端App，移动终端App登录需要进行声纹与人脸的同步验证，确保了用户登录身份的可靠性。

(5)、语音信号远程传输与语音指令解析***：

本申请实施例中语音信号远程传输与语音指令解析框架如图6所示，分为语音信号远程传输、语音信号数据解析和身份验证、语音指令传输三个部分。

语音信号远程传输：在移动端输入语音信号，语音信号传输到本地服务器；

语音信号数据解析和身份验证：得到语音信号后，语音数据被分为声纹数据与语音指令数据两部分，声纹数据首先传输给本地服务器进行声纹数据库验证，声纹如果在本地数据库中存在，则验证通过，否则验证失败；

语音指令传输：声纹信息验证通过后，将语音指令通过本地服务器传输给相关智能家居设备，实现语音的远程控制。

本申请实施例中，用户在登录成功后，进一步校验用户的每一条指令，确保用户每一条指令的发出者都是用户家庭成员的注册者，保证了用户远程操控智能家居每一个指令都是安全可信赖的。

(6)、远程语音控制智能家居设备框架设计：

本申请实施例设计的远程语音控制智能家居设备框架如图7所示，其中虚线框代表智能家电与为其充当扬声器的音箱设备，例如，音箱1作为室内环境采集模块的扬声器，所述室内环境采集模块包括加湿器、空气净化器等；音箱2作为家居设备模块的扬声器，家居设备模块包括空调、冰箱、电视等；音箱3作为基础模块的扬声器，基础模块包括灯、窗帘等。图7中的安防模块在此处只是体现家居设备的完整性，并不一定在远程控制的范围内。

本申请实施例设计的远程语音控制智能家居设备框架，用户在终端输入语音信息给本地服务器，本地服务器对于能够离线处理的信息在本地进行处理，对于不能本地处理的信息，则需要云端调取相关的服务。

其中，需要在云端获取的服务，例如包括：

互联网资源，例如歌曲、相声等；

语音识别，本地服务器算力不够，需要利用云端服务器的算力，例如声音克隆、声音的合成等。

本地服务器能够实现双向通讯，本地服务器中的语音模块把用户输入的语音信号的处理结果(例如，用户输入“打开窗帘”，本地服务器去执行打开窗帘的操作，之后把窗帘是否打开的结果传输给用户)，通过本地服务器中的控制模块分别传输给协调器和音箱模块(音箱模块可以自己独立作为智能音箱，实现基本的智能音箱操作，也可传输用户远程控制家电的信息)，协调器负责打开智能家居相关设备的电源开关，实现设备通电(如果已经通电，则无需此操作)；音箱模块采用分布式音箱(在多个房间部署，相互之间能实现通信)，音箱模块接收到相关指令，按照相关指令所含家电设备的关键词进行指令分类传输(例如“打开窗帘”，包含“窗帘”，指令将被分到基础模块)，传输给对应设备靠近的音箱，即不同类型的语音指令发给不同的音箱进行播放，此时音箱1、音箱2、音箱3在这个时候充当扬声器的功能，扬声器音箱播放相关语音指令，相关家居设备的语音模块接收到指令从而实现了语音的控制。

其中，本地服务器中的语音模块当检测到用户终端发送来的语音指令，不是智能家居设备的指令时，则反馈给用户终端，并提示用户终端用户指令失败。

本申请实施例中，根据接收指令的类型，将远程语音控制智能家居分为三个模块：

基础模块：包括灯、窗帘，只接受开、关相关指令，其他指令(除开、关指令外的指令)则将返回本地服务器，本地服务器再反馈给用户，提示用户指令失败；所述其他指令，即基础模块无法识别的指令，属于非法指令；所述其他指令返回本地服务器，基础模块不能执行的指令，会返回一个不能执行的信号，这个信号将返回给本地服务器；

室内环境采集模块：包括加湿器、空气净化器，接收开、关、模式指令，出现其他指令则返回本地服务器，并反馈给用户；所述其他指令，即室内环境采集模块无法识别的指令；所述其他指令返回本地服务器，即室内环境采集模块不能执行的指令，会返回一个不能执行的信号，这个信号将返回给本地服务器；

家居设备模块：包括空调、电视、冰箱等，除了开、关、模式等指令，还涉及其他复杂指令，若相关指令不存在，则也会经过本地服务器反馈给用户；所述相关指令不存在，会经过本地服务器反馈给用户，即家居设备模块不能执行的指令，会返回一个不能执行的信号，这个信号将返回给本地服务器，并通过本地服务器反馈给用户。

上述分类仅是一种举例说明，本申请实施例提供的技术方案，并不限于此分类方式。

综上所述，本申请实施例为了解决本地服务器不能处理相关语音指令的问题，本地服务器在一定程度上保护了用户的隐私，本地服务器将部分指令传输到云端又能保证相关指令的实现，例如，用户需要声音克隆时，对服务器算力要求高的声音克隆模型训练过程由云端实现，把云端对声音克隆训练得到的声音模型放到本地服务器；

本申请实施例还解决了相关家电设备通电启动问题，通过协调器，打开相关的点触开关将相关设备通上电源；

本申请实施例利用分布式音箱作为扬声器，解决了家居设备分布在不同房间接收指令的问题；将智能家居设备进行分类，方便将用户错误指令及时反馈给用户。

参见图8，在本地服务器侧，本申请实施例提供的一种远程语音控制方法，包括：

S101、当用户通过终端登录本地服务器成功时，接收所述终端发送的用户语音指令；

S102、对所述语音指令进行声纹校验，当校验通过时，通过所述语音指令实现对智能家居设备的远程控制。

本申请实施例中，可以在用户通过终端登录本地服务器成功后，进一步对每一语音指令都进行声纹校验，校验通过才能执行后续操作，从而提高了远程语音控制的安全性。

可选地，该方法还包括：

接收用户通过终端采集的人脸图像和语音信息；

基于所述人脸特征的向量和所述声纹特征的向量，构建融合特征向量；例如，用F＝(f₁,f₂,f₃,…,f_m)和V＝(v₁,v₂,v₃,…,v_n)，得到上述S＝(s₁,s₂,s₃,…,s_m+n)；

确定所述融合特征向量的权值矩阵；例如上述的W＝(w₁,w₂,w₃,…,w_m+n)；

将所述权值矩阵中的每一特征权值进行加和运算，最终得到一个数值，若该数值属于预设数值范围，则确定所述用户通过终端登录本地服务器成功。例如，得到的融合的特征向量值是S＝(0.8,0.7,0.5)，得到各个特征的权值矩阵是W＝(0.5,0.4,0.1)，将特征权值进行加和运算，得到一个数值，即计算出匹配程度P＝0.8*0.5+0.7*0.4+0.5*0.1＝0.73。如果设置标准是P大于或等于0.8才算匹配成功，则这个识别结果0.73小于0.8，不成功，即识别失败。

可选地，该方法还包括：

例如，若收到基础模块不能执行指令返回的信号，则向所述用户终端反馈错误指令提示信息。

可选地，当校验通过时，该方法还包括：

例如，本地服务器对于能够离线处理的信息在本地进行处理，对于不能本地处理的信息，则需要到云端服务器调取相关的服务，例如包括：

从云端服务器获取互联网资源，例如歌曲、相声等；

通过云端服务器进行语音识别，本地服务器算力不够，需要利用云端服务器的算力，进行例如声音克隆、声音的合成等处理。

参见图9，本申请实施例提供的一种远程语音控制装置，包括：

存储器520，用于存储程序指令；

处理器500，用于调用所述存储器中存储的程序指令，按照获得的程序执行：

可选地，处理器500还用于调用所述存储器中存储的程序指令，按照获得的程序执行：

接收用户通过终端采集的人脸图像和语音信息；

确定所述融合特征向量的权值矩阵；

可选地，当校验通过时，处理器500还用于调用所述存储器中存储的程序指令，按照获得的程序执行：

收发机510，用于在处理器500的控制下接收和发送数据。

其中，在图9中，总线架构可以包括任意数量的互联的总线和桥，具体由处理器500代表的一个或多个处理器和存储器520代表的存储器的各种电路链接在一起。总线架构还可以将诸如***设备、稳压器和功率管理电路等之类的各种其他电路链接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口提供接口。收发机510可以是多个元件，即包括发送机和接收机，提供用于在传输介质上与各种其他装置通信的单元。处理器500负责管理总线架构和通常的处理，存储器520可以存储处理器500在执行操作时所使用的数据。

处理器500可以是中央处埋器(CPU)、专用集成电路(Application SpecificIntegrated Circuit，ASIC)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)或复杂可编程逻辑器件(Complex Programmable Logic Device，CPLD)。

本申请实施例提供的一种远程语音控制***，可以参见图7(但不限于图7所示结构)，包括所述的远程语音控制装置(即本地服务器)，以及分别与所述远程语音控制装置相连的协调器和音箱模块，以及与所述音箱模块连接的至少一个音箱；其中，

可选地，该***还包括与每一所述音箱对应设置的智能家居设备，例如图7中的音箱1对应的室内环境采集模块、音箱2对应的家居设备模块、音箱3对应的基础模块。

需要说明的是，上述各音箱与其对应设置的智能家居设备之间，可以不具有连接关系，仅是作为扬声器使用，即播放语音指令给相应的智能家居设备，智能家居设备收到语音指令后执行相应操作。

参见图10，本申请实施例提供的另一种远程语音控制装置，包括：

第一单元11，用于当用户通过终端登录本地服务器成功时，接收所述终端发送的用户语音指令；

第二单元12，用于对所述语音指令进行声纹校验，当校验通过时，通过所述语音指令实现对智能家居设备的远程控制。

可选地，第一单元11还用于：

接收用户通过终端采集的人脸图像和语音信息；

确定所述融合特征向量的权值矩阵；

可选地，第二单元12还用于：

可选地，当校验通过时，第一单元11还用于：

需要说明的是，本申请实施例中对单元的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

本申请实施例提供了一种计算设备，该计算设备具体可以为桌面计算机、便携式计算机、智能手机、平板电脑、个人数字助理(Personal Digital Assistant，PDA)等。该计算设备可以包括中央处理器(Center Processing Unit，CPU)、存储器、输入/输出设备等，输入设备可以包括键盘、鼠标、触摸屏等，输出设备可以包括显示设备，如液晶显示器(Liquid Crystal Display，LCD)、阴极射线管(Cathode Ray Tube，CRT)等。

存储器可以包括只读存储器(ROM)和随机存取存储器(RAM)，并向处理器提供存储器中存储的程序指令和数据。在本申请实施例中，存储器可以用于存储本申请实施例提供的任一所述方法的程序。

处理器通过调用存储器存储的程序指令，处理器用于按照获得的程序指令执行本申请实施例提供的任一所述方法。

本申请实施例提供了一种计算机存储介质，用于储存为上述本申请实施例提供的装置所用的计算机程序指令，其包含用于执行上述本申请实施例提供的任一方法的程序。

所述计算机存储介质可以是计算机能够存取的任何可用介质或数据存储设备，包括但不限于磁性存储器(例如软盘、硬盘、磁带、磁光盘(MO)等)、光学存储器(例如CD、DVD、BD、HVD等)、以及半导体存储器(例如ROM、EPROM、EEPROM、非易失性存储器(NAND FLASH)、固态硬盘(SSD))等。

本领域内的技术人员应明白，本申请的实施例可提供为方法、***、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种远程语音控制方法，其特征在于，该方法包括：

2.根据权利要求1所述的方法，其特征在于，该方法还包括：

接收用户通过终端采集的人脸图像和语音信息；

3.根据权利要求2所述的方法，其特征在于，将所述声纹特征与所述人脸特征进行融合，基于融合结果判断所述用户是否可以登录本地服务器，具体包括：

确定所述融合特征向量的权值矩阵；

4.根据权利要求1所述的方法，其特征在于，通过所述语音指令实现对智能家居设备的远程控制，具体包括：

5.根据权利要求4所述的方法，其特征在于，该方法还包括：

6.根据权利要求1所述的方法，其特征在于，当校验通过时，该方法还包括：

7.一种远程语音控制装置，其特征在于，包括：

存储器，用于存储程序指令；

处理器，用于调用所述存储器中存储的程序指令，按照获得的程序执行权利要求1至6任一项所述的方法。

8.一种远程语音控制***，其特征在于，包括权利要求7所述的装置，以及分别与所述装置相连的协调器和音箱模块，以及与所述音箱模块连接的至少一个音箱；其中，

所述协调器，用于接收所述装置发送的语音指令，并基于该语音指令控制智能家居设备的电源开关；

所述音箱模块，用于确定所述装置发送的语音指令中包含的智能家居设备的关键词，将所述语音指令发送给与所述关键词相应的智能家居设备对应设置的音箱，通过该音箱播放所述语音指令给与所述关键词相应的智能家居设备。

9.根据权利要求8所述的***，其特征在于，该***还包括与每一所述音箱对应设置的智能家居设备。

10.一种计算机存储介质，其特征在于，所述计算机存储介质存储有计算机可执行指令，所述计算机可执行指令用于使所述计算机执行权利要求1至6任一项所述的方法。