CN116030790A

CN116030790A - 分布式语音控制方法及电子设备

Info

Publication number: CN116030790A
Application number: CN202111234615.7A
Authority: CN
Inventors: 孟亚洲; 兰国兴; 白立勋; 俞清华; 石巍巍
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2021-10-22
Filing date: 2021-10-22
Publication date: 2023-04-28
Also published as: WO2023065854A1

Abstract

一种分布式语音控制方法及电子设备，涉及终端技术领域，可以提升语音控制的效率。该方法包括：第一终端响应于用户输入的语音信息，将所述语音信息输入第一模型，并通过所述第一模型获得所述语音信息对应的特征信息；所述第一终端向第二终端发送所述特征信息，以使得所述第二终端中将所述特征信息输入第二模型，并通过所述第二模型确定所述语音信息对应的操作信息，以及根据所述操作信息执行相应操作，所述第一模型存在于所述第一终端，所述第二模型存在于所述第二终端。

Description

分布式语音控制方法及电子设备

技术领域

本申请涉及终端技术领域，尤其涉及分布式语音控制方法及电子设备。

背景技术

随着智能设备的普及，越来越多用户可以在各种智慧场景使用各种智能设备。其中，智慧场景包括语音控制场景。在语音控制场景中，可以通过某个电子设备对该分布式语音控制的其他设备进行语音控制。比如，在图1所示场景中，用户向手机输入语音信息“打开电视”，手机解析该语音信息所表示的操作信息(即用户想要打开电视)，并生成控制信号，将控制信号发给电视，以便控制电视打开。

在一些方案中，手机可以借助机器学习模型解析用户的语音信息。但是，由于不同设备可能来自不同厂商，因此，在有新类型或来自新厂商的设备与手机建立无线连接的情况下，手机厂商通常需要重新训练机器学习模型，以便模型能够正确解析用于控制该新类型或新厂商的设备的语音信息。可见，现有技术中，频繁重新训练模型将导致手机厂商开发量大，手机厂商需要后期不断重新训练和维护整个模型。并且，手机中运行的模型复杂，负载较重，导致处理时延较高，语音控制的效率较低。

发明内容

本申请提供分布式语音控制方法及电子设备，可以提升语音控制的效率。

为了实现上述目的，本申请实施例提供了以下技术方案：

第一方面提供一种分布式语音控制方法，可以应用于第一终端或能够实现第一终端功能的组件(比如芯片***)中，第一终端响应于用户输入的语音信息，将语音信息输入第一模型，并通过第一模型获得语音信息对应的特征信息，所述第一模型存在于所述第一终端；第一终端向第二终端发送特征信息，以使第二终端中将特征信息输入第二模型，并通过第二模型确定语音信息对应的操作信息，以及根据操作信息执行相应操作，所述第二模型存在于所述第二终端。

与现有技术中，第一终端(比如手机)需完成由语音的特征提取到操作信息识别的过程，导致第一终端的计算量大，语音控制的效率低相比，本申请的技术方案，在诸如智能家居设备的语音控制场景中，将特征信息的提取与操作信息的识别过程解耦。比如，可以将用于语音控制的完整模型至少拆分为第一模型和第二模型。其中，第一模型存在于第一终端中，第一终端可以通过第一模型提取语音信息对应的特征信息。第二模型存在于第二终端中，第二终端可以通过第二模型(比如手机控制的各智能家居设备)识别操作信息。由于第一终端不再执行语音控制中的全部步骤，比如不再进行操作信息识别的操作，因此，计算量有所降低，能够提升第一终端的运行速度，进而提高语音控制的效率。

在一种可能的设计中，第一模型是基于至少一个第一样本数据训练得到的模型，第一样本数据包括:第一语音信息，第一语音信息的特征信息是已知的，和/或，

第二模型是基于至少一个第二样本数据训练得到的模型，第二样本数据包括:第一特征信息，第一特征信息对应的操作信息是已知的。

在一种可能的设计中，第一终端、至少一个第二终端在同一局域网中；

或者，第一终端、至少一个第二终端在不同局域网中。

在一种可能的设计中，第一终端向第二终端发送特征信息，包括：第一终端向第二终端广播特征信息。

在一种可能的设计中，语音信息对应的特征信息，包括语音信息对应的声谱、声谱的音素。

第二方面提供一种分布式语音控制方法，方法包括：

第二终端从第一终端接收语音信息对应的特征信息；特征信息是第一终端将语音信息输入第一模型，并通过第一模型获得的，所述第一模型存在于所述第一终端；

第二终端将特征信息输入第二模型，并通过第二模型确定语音信息对应的操作信息，所述第二模型存在于所述第二终端；

第二终端根据操作信息执行相应操作。

在一种可能的设计中，第二终端根据操作信息执行相应操作，包括：

若确定语音信息对应的操作信息为第二终端匹配的操作信息，则第二终端根据语音信息对应的操作信息执行目标操作；和/或，

若确定语音信息对应的操作信息不是第二终端匹配的操作信息，则第二终端丢弃操作信息。

在一种可能的设计中，第一模型是基于至少一个第一样本数据训练得到的模型，第一样本数据包括:第一语音信息，第一语音信息的特征信息是已知的；和/或，第二模型是基于至少一个第二样本数据训练得到的模型，第二样本数据包括:第一特征信息，第一特征信息对应的操作信息是已知的。

在一种可能的设计中，第一终端与第二终端在同一局域网中，或者，第一终端与第二终端在不同局域网中。

第三方面提供一种语音识别方法，可以应用于第一终端或实现第一终端功能的组件(比如芯片***)中。以第一终端实现该方法为例，该方法包括：

第一终端接收用户输入的第一语言的第一语音信息；

所述第一终端响应于所述第一语音信息，将所述第一语音信息输入第一模型，并通过所述第一模型获得所述第一语音信息对应的特征信息；所述第一模型存在于所述第一终端；

所述第一终端向第二终端发送所述特征信息，以使得所述第二终端将所述特征信息输入第二模型，并通过所述第二模型确定所述第一语音信息对应的字幕信息，所述第二模型存在于所述第二终端。

在一种可能的设计中，所述第一模型是基于至少一个第一样本数据训练得到的模型，第一样本数据包括:第一语音信息，所述第一语音信息的特征信息是已知的；和/或，所述第二模型是基于至少一个第二样本数据训练得到的模型，第二样本数据包括:第一特征信息，所述第一特征信息对应的操作信息是已知的。

在一种可能的设计中，所述字幕信息为第二语言的字幕信息。

在一种可能的设计中，所述第一语言与所述第二语言不同。

该方法可应用在语音转字幕的场景中，比如远程会议中，第二终端可能需要将使用第一终端的说话者的语音信息生成字幕，并显示在屏幕上，以便于更清晰的了解、获知使用第一终端的说话者的讲话内容。进一步的，在第二终端开启语音翻译功能的情况下，第二终端可以根据第一语音信息的特征信息，将使用第一终端的说话者的第一语音信息(比如英文的语音信息)翻译为相应语种(比如中文)的字幕，进而能够让使用第二终端的用户更加了解对端说话者的讲话含义。

此外，由于语音转字幕的操作由第一终端和第二终端共同实现，第一终端无需负责将语音信息转化为相应操作信息，因此，第一终端的计算量有所降低，能够提升第一终端的运行速度，进而提升语音转字幕的效率。

在一种可能的设计中，所述第二终端包括开启语音翻译功能的终端。

在一种可能的设计中，所述第一终端向第二终端发送所述特征信息，包括：所述第一终端广播所述特征信息。

第四方面提供一种语音识别方法，可以应用于第二终端或实现第二终端功能的组件(比如芯片***)中。以第二终端实现该方法为例，该方法包括：

第二终端接收第一语音信息对应的特征信息；所述第一语音信息为第一语言的语音信息；

所述第二终端将所述特征信息输入第二模型，并通过所述第二模型确定所述第一语音信息对应的字幕信息；所述第二模型存在于所述第二终端。

在一种可能的设计中，所述第一语言与所述第二语言不同。

在一种可能的设计中，所述方法还包括：确定所述第一语音信息对应的第二语言的第二语音信息，并播放第二语言的第二语音信息。其中，所述第一语言与所述第二语言不同。类似于同声传译，该方案中，第二终端可以将使用第一终端的说话者的第一语音信息(英文语音信息)翻译为第二语音信息(中文语音信息)，并播放第二语音信息，同时还可以显示相应语种的字幕(比如中文字幕)。或者，第二终端也可以播放双语种的语音信息，同时显示双语种的字幕。或者，第二终端播放单语种的语音信息，显示双语种的字幕信息，或者，第二终端播放双语种的语音信息，显示单语种的字幕信息。本申请的技术方案对此不做限制。

在一种可能的设计中，所述第一终端向第二终端发送所述特征信息，包括：所述第二终端广播所述特征信息。

第五方面提供一种第一终端，包括：

处理模块，用于响应于用户输入的语音信息，将语音信息输入第一模型，并通过第一模型获得语音信息对应的特征信息；所述第一模型存在于所述第一终端；

通信模块，用于向第二终端发送特征信息，以使得所述第二终端将特征信息输入第二模型，并通过第二模型确定语音信息对应的操作信息，以及根据操作信息执行相应操作，所述第二模型存在于所述第二终端。

或者，第一终端、至少一个第二终端在不同局域网中。

在一种可能的设计中，通信模块，用于向第二终端发送特征信息，包括：第一终端广播特征信息。

第六方面提供一种第二终端，包括：

通信模块，用于从第一终端接收语音信息对应的特征信息；特征信息是第一终端将语音信息输入第一模型，并通过第一模型获得的；所述第一模型存在于所述第一终端；

处理模块，用于将特征信息输入第二模型，并通过第二模型确定语音信息对应的操作信息；所述第二模型存在于所述第二终端；

处理模块，用于根据操作信息执行相应操作。

若确定语音信息对应的操作信息为第二终端匹配的操作信息，则第二终端根据语音信息对应的操作信息执行目标操作；和/或，若确定语音信息对应的操作信息不是第二终端匹配的操作信息，则第二终端丢弃操作信息。

第七方面提供一种第一终端，包括：

输入模块，用于接收用户输入的第一语言的第一语音信息；

处理模块，用于响应于所述第一语音信息，将所述第一语音信息输入第一模型，并通过所述第一模型获得所述第一语音信息对应的特征信息；所述第一模型存在于所述第一终端；

通信模块，用于向第二终端发送所述特征信息，以使得所述第二终端中将所述特征信息输入第二模型，并通过所述第二模型确定所述第一语音信息对应的字幕信息；所述第二模型存在于所述第二终端。

在一种可能的设计中，所述第一语言与所述第二语言不同。

在一种可能的设计中，所述通信模块，用于向所述第二终端发送所述特征信息，包括：广播所述特征信息。

第八方面提供一种第二终端，包括：

输入模块，用于接收第一语音信息对应的特征信息；所述第一语音信息为第一语言的语音信息；所述特征信息是第一终端将第一语音信息输入第一模型，并通过第一模型获得的；所述第一模型存在于所述第一终端；

处理模块，用于将所述特征信息输入第二模型，并通过所述第二模型确定所述第一语音信息对应的字幕信息，所述第二模型存在于所述第二终端。

在一种可能的设计中，所述第一语言与所述第二语言不同。

在一种可能的设计中，所述处理模块，还用于确定所述第一语音信息对应的第二语言的第二语音信息；

输出模块，用于播放第二语言的第二语音信息。其中，所述第一语言与所述第二语言不同。

第九方面提供一种电子设备，该电子设备具有实现如上述任意方面及其中任一种可能的实现方式中的分布式语音控制方法的功能。该功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。该硬件或软件包括一个或多个与上述功能相对应的模块。

第十方面提供一种计算机可读存储介质，包括计算机指令，当计算机指令在电子设备上运行时，使得电子设备执行如上述任意方面及其中任一种可能的实现方式中任一项的分布式语音控制方法。

第十一方面提供一种计算机程序产品，当计算机程序产品在电子设备上运行时，使得电子设备执行如任意方面及其中任一种可能的实现方式中任一项的分布式语音控制方法。

第十二方面提供一种电路***，电路***包括处理电路，处理电路被配置为执行如上述任意方面及其中任一种可能的实现方式中的分布式语音控制方法。

第十三方面提供一种第一终端，包括：显示屏；一个或多个处理器；一个或多个存储器；存储器存储有一个或多个程序，当一个或者多个程序被处理器执行时，使得第一终端执行上述任一方面任一的方法。

第十四方面提供一种第二终端，包括：显示屏；一个或多个处理器；一个或多个存储器；存储器存储有一个或多个程序，当一个或者多个程序被处理器执行时，使得第二终端执行如上述任一方面任一设计的方法。

第十五方面提供一种芯片***，包括至少一个处理器和至少一个接口电路，至少一个接口电路用于执行收发功能，并将指令发送给至少一个处理器，当至少一个处理器执行指令时，至少一个处理器执行如上述任意方面及其中任一种可能的实现方式中的分布式语音控制方法。

附图说明

图1为本申请实施例提供的语音控制方法的流程示意图；

图2A、图2B为本申请实施例提供的语音控制方法的流程示意图；

图3为本申请实施例提供的***的架构示意图；

图4、图5为本申请实施例提供的电子设备的结构示意图；

图6-图8为本申请实施例提供的语音控制方法的流程示意图；

图9为本申请实施例提供的第一模型的训练方法示意图；

图10为本申请实施例提供的第二模型的训练方法示意图；

图11、图12为本申请实施例提供的人脸识别方法的流程示意图；

图13为本申请实施例提供的语音信息翻译方法的流程示意图；

图14为本申请实施例提供的语音控制方法的流程示意图；

图15为本申请实施例提供的装置的示意图；

图16为本申请实施例提供的芯片***的示意图。

具体实施方式

图2A示出了现有的一种语音识别流程，以用户通过手机语音控制电视调高音量为例，手机将语音信息“调高电视的音量”输入语音边界检测(voice activity detection，VAD)模型，由VAD模型截取语音中的人声(speech)，并将语音中的人声作为自动语音识别(automatic speech recognition，ASR)模型的输入。ASR模型将输入的声音信号转换为文字并输出。文字经过自然语言理解(natural language understanding，NLU)模型或正则匹配，转换为文字对应的用户操作信息。之后，手机根据用户操作信息(即调高电视的音量)，生成控制信号，并将控制信号发送给电视，电视根据控制信号调高音量。

在图2A对应的实现方式中，如果有新类型的设备(比如与手机属于不同厂商的设备)与手机建立连接，那么，考虑到手机与新设备之间的兼容性等因素，手机厂商可以重新训练用于语音识别的NLU模型或更新正则匹配。重新训练的NLU模型或正则匹配可以打包在用于实现语音控制的应用程序(比如用于管控智能家居的应用程序)的安装包中，以便用户可以通过更新应用程序等方式下载新版本应用程序到手机上，进而通过新应用程序使用相关模型处理人工智能任务(比如语音识别任务)。示例性的，手机当前与电视、音箱连接。手机可以通过智能家居APP控制电视、音箱。手机检测到新类型的设备(比如智能台灯)与自身建立连接，并将检测到新类型设备的消息上报至服务器。手机厂商通过服务器获知有新类型的设备与手机建立连接后，重新训练NLU模型。手机厂商训练好模型后，可以将训练好的模型打包在智能家居APP的安装包中，并将更新的智能家居APP存储在服务器中。用户可以下载更新的智能家居APP到手机中，手机并通过该更新的APP，控制网络中新增的智能台灯，比如，用户可以通过语音信息控制智能台灯开启、关闭、调节智能台灯的亮度。

从用户的角度，目前的技术方案中，手机厂商频繁训练模型，意味着用户需要频繁更新应用，用户体验感差。从手机角度，目前的技术方案中，手机处理语音识别任务，通常需要完成包括操作信息识别在内的任务，致使手机的负载较高，处理延时也较高，语音控制的效率较低。

图2B给出了现有的另一种语音识别方案。该方案中，使用口语理解(spokenlanguage understanding，SLU)模型替代上述ASR模型以及NLU模型(或正则匹配)。SLU模型可以直接将声音信号转换为用户操作信息。该方案，虽然能够直接将声音信号转换为用户操作信息，但是，在检测到有新类型设备与手机建立连接时，仍需重新训练SLU模型，后期的模型维护成本仍然较高。其次，随着与手机建立连接的设备的类型、数目增多，SLU模型需要识别的操作信息越来越多，需要复杂的模型结构支撑，导致手机运行速度慢。此外，SLU模型需要精确的将语音命令作为输入，日常闲聊时容易产生误识别。

上述图2A、图2B的技术方案，手机端均需完成包括操作信息识别在内的繁多任务，使得手机的负载高，并且，每次检测到新类型设备与手机建立连接时，手机厂商均需重新开发训练新的神经网络，以匹配新类型设备。可见，现有的语音识别方案中，手机的负载均较高，且处理延时也较高，导致语音控制的效率较低。

为了提升语音控制的效率，本申请实施例提供一种语音识别方法。该方法可适用于需要进行语音控制的***中。如图3所示，为本申请实施例提供的一种***架构的示例图，该***包括一个或多个电子设备，比如电子设备100和电子设备200(比如智能家居设备1-3)。

其中，电子设备之间可以建立连接关系。可选的，设备之间建立连接的方式包括但不限于如下一种或多种：通过扫描二维码或条形码建立通信连接、通过无线保真(wirelessfidelity，Wi-Fi)协议，蓝牙等通信协议建立连接、通过近距离通信服务(nearby service)建立连接。建立通信连接之后，设备之间可以进行数据和/或信令传输。本申请实施例并不限制电子设备之间建立连接的方式。

在一些场景中，可以由某个设备对连接的其他设备进行语音控制。以通过手机语音控制智能家居设备为例，用户向手机100输入语音信息“调高电视的音量”，手机100提取该语音信息对应的特征信息，并将特征信息发送给手机100连接的智能家居设备1-3，由智能家居设备1-3对特征信息进行处理，得到该语音信息对应的操作信息，并根据语音信息对应的操作信息判断是否需要进行响应。应理解，操作信息包括但不限于操作指令，控制指令。可选的，操作信息还包括智能家居设备根据特征信息得到的分类结果，比如，对不同的操作指令进行分类。智能家居设备可以根据操作信息执行相应操作。不同类型的操作信息(比如不同的控制指令)，用于控制智能家居设备执行不同的操作。

具体的，智能家居设备3(电视)接收特征信息后，对特征信息进行处理，确定语音信息对应的操作信息是“想要调高电视的音量”，并执行该操作信息对应的操作，即调高音量。智能家居设备1(台灯)从手机100接收特征信息之后，对特征信息进行处理，得到语音信息对应的操作信息，并根据操作信息确定不执行相应操作。可选的，台灯丢弃操作信息。类似的，智能家居设备2(空调)也不执行相应操作。该过程中，识别操作信息(操作指令)的步骤是由各智能家居设备完成，无需在手机中完成，从而能够降低手机的计算量，提升智能语音控制流程的效率。

可选的，手机提取语音信息对应的特征信息，可以实现为：手机将语音信息对应的语音信息输入第一模型，由第一模型输出语音信息对应的特征信息。第一模型，用于将语音信息转化为对应的特征信息。

可选的，智能家居设备对来自手机的特征信息进行处理，得到语音信息对应的操作信息(比如控制指令)，可以实现为：智能家居设备将来自手机的特征信息输入第二模型，由第二模型输出语音信息对应的操作信息。第二模型，用于将特征信息转化为对应的操作信息。第一模型、第二模型以及特征信息等将在下文中给出详细介绍。

在本申请实施例中，上述电子设备还可以称为终端。

可选的，该***还包括一个或多个服务器300。服务器可以与电子设备建立连接。在一些实施例中，电子设备之间可以通过服务器进行连接。比如，在图1所示***中，手机100可通过服务器300对智能家居设备进行远程控制。

在一些实施例中，第一模型、第二模型可以由服务器300训练，服务器300训练完第一模型、第二模型后，可以将训练好的第一模型、第二模型下发至各个终端。在另一些实施例中，第一模型、第二模型可以由终端训练，比如由手机训练。

可选的，第一模型、第二模型可以是基于任意算法得到的模型，比如可以是基于神经网络的模型，可以为卷积神经网络(Convolutional Neural Networks，CNN)、循环神经网络(Recurrent Neural Network，RNN)、深度神经网络(Deep Neural Networks，DNN)、多层感知器(Multi-Layer Perceptron，MLP)和梯度提升树(Gradient Boosting DecisonTree，GBDT)中的一种或多种的组合。

示例性的，上述电子设备100、电子设备200可以为手机、平板电脑、个人计算机(personal computer，PC)、个人数字助理(personal digital assistant，PDA)、智能手表、上网本、可穿戴电子设备、增强现实技术(augmented reality，AR)设备、虚拟现实(virtualreality，VR)设备、车载设备、智能汽车、智能音响、机器人、耳机、摄像头等可以用于语音控制或被语音控制的设备，本申请对该电子设备100、电子设备200的具体形式不做特殊限制。

本申请的说明书以及附图中的术语“第一”和“第二”等是用于区别不同的对象，或者用于区别对同一对象的不同处理。“第一”、“第二”等字样可以对功能和作用基本相同的相同项或相似项进行区分。例如，第一设备和第二设备仅仅是为了区分不同的设备，并不对其先后顺序进行限定。本领域技术人员可以理解“第一”、“第二”等字样并不对数量和执行次序进行限定，并且“第一”、“第二”等字样也并不限定一定不同。“至少一个”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B的情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指的这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b，或c中的至少一项(个)，可以表示：a，b，c，a-b，a-c，b-c，或a-b-c，其中a，b，c可以是单个，也可以是多个。

此外，本申请的描述中所提到的术语“包括”和“具有”以及它们的任何变形，操作信息在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、***、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括其他没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

需要说明的是，本申请实施例中，“示例性的”或者“例如”等词用于表示作例子、例证或说明。本申请实施例中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言，使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。

本申请的说明书以及附图中“的(英文：of)”，相应的“(英文corresponding，relevant)”和“对应的(英文：corresponding)”有时可以混用，应当指出的是，在不强调其区别时，其所要表达的含义是一致的。

以电子设备100为手机为例，图4示出了电子设备100的结构示意图。

电子设备100可以包括处理器110，外部存储器接口120，内部存储器121，通用串行总线(universal serial bus，USB)接口130，充电管理模块140，电源管理模块141，电池142，天线1，天线2，移动通信模块150，无线通信模块160，音频模块170，扬声器170A，受话器170B，麦克风170C，耳机接口170D，传感器模块180，按键190，马达191，指示器192，摄像头193，显示屏194，以及用户标识模块(subscriber identification module，SIM)卡接口195等。其中传感器模块180可以包括压力传感器180A，陀螺仪传感器180B，气压传感器180C，磁传感器180D，加速度传感器180E，距离传感器180F，接近光传感器180G，指纹传感器180H，温度传感器180J，触摸传感器180K，环境光传感器180L，骨传导传感器180M等。

可以理解的是，本发明实施例示意的结构并不构成对电子设备100的具体限定。在本申请另一些实施例中，电子设备100可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件，软件或软件和硬件的组合实现。

处理器110可以包括一个或多个处理单元，例如：处理器110可以包括应用处理器(application processor，AP)，调制解调处理器，图形处理器(graphics processingunit，GPU)，图像信号处理器(image signal processor，ISP)，控制器，视频编解码器，数字信号处理器(digital signal processor，DSP)，基带处理器，和/或神经网络处理器(neural-network processing unit，NPU)等。其中，不同的处理单元可以是独立的器件，也可以集成在一个或多个处理器中。

控制器可以根据指令操作码和时序信号，产生操作控制信号，完成取指令和执行指令的控制。

处理器110中还可以设置存储器，用于存储指令和数据。在一些实施例中，处理器110中的存储器为高速缓冲存储器。该存储器可以保存处理器110刚用过或循环使用的指令或数据。如果处理器110需要再次使用该指令或数据，可从所述存储器中直接调用。避免了重复存取，减少了处理器110的等待时间，因而提高了***的效率。

在一些实施例中，处理器110可以包括一个或多个接口。

在本申请的一些实施例中，电子设备100对语音信息进行处理，得到特征信息的过程，以及电子设备200对来自电子设备100的特征信息进行处理，得到语音信息对应的操作信息的过程中涉及的部分或全部数据处理也可在电子设备100中的处理器110中实现。电子设备100也称为第一终端，电子设备200也称为第二终端。

可以理解的是，本发明实施例示意的各模块间的接口连接关系，只是示意性说明，并不构成对电子设备100的结构限定。在本申请另一些实施例中，电子设备100也可以采用上述实施例中不同的接口连接方式，或多种接口连接方式的组合。

充电管理模块140用于从充电器接收充电输入。其中，充电器可以是无线充电器，也可以是有线充电器。在一些有线充电的实施例中，充电管理模块140可以通过USB接口130接收有线充电器的充电输入。在一些无线充电的实施例中，充电管理模块140可以通过电子设备100的无线充电线圈接收无线充电输入。充电管理模块140为电池142充电的同时，还可以通过电源管理模块141为电子设备供电。

电源管理模块141用于连接电池142，充电管理模块140与处理器110。电源管理模块141接收电池142和/或充电管理模块140的输入，为处理器110，内部存储器121，显示屏194，摄像头193，和无线通信模块160等供电。

电子设备100的无线通信功能可以通过天线1，天线2，移动通信模块150，无线通信模块160，调制解调处理器以及基带处理器等实现。

天线1和天线2用于发射和接收电磁波信号。电子设备100中的每个天线可用于覆盖单个或多个通信频带。不同的天线还可以复用，以提高天线的利用率。例如：可以将天线1复用为无线局域网的分集天线。在另外一些实施例中，天线可以和调谐开关结合使用。

移动通信模块150可以提供应用在电子设备100上的包括2G/3G/4G/5G/6G等无线通信的解决方案。移动通信模块150可以包括至少一个滤波器，开关，功率放大器，低噪声放大器(low noise amplifier，LNA)等。移动通信模块150可以由天线1接收电磁波，并对接收的电磁波进行滤波，放大等处理，传送至调制解调处理器进行解调。移动通信模块150还可以对经调制解调处理器调制后的信号放大，经天线1转为电磁波辐射出去。在一些实施例中，移动通信模块150的至少部分功能模块可以被设置于处理器110中。在一些实施例中，移动通信模块150的至少部分功能模块可以与处理器110的至少部分模块被设置在同一个器件中。

调制解调处理器可以包括调制器和解调器。其中，调制器用于将待发送的低频基带信号调制成中高频信号。解调器用于将接收的电磁波信号解调为低频基带信号。随后解调器将解调得到的低频基带信号传送至基带处理器处理。低频基带信号经基带处理器处理后，被传递给应用处理器。应用处理器通过音频设备(不限于扬声器170A，受话器170B等)输出声音信号，或通过显示屏194显示图像或视频。在一些实施例中，调制解调处理器可以是独立的器件。在另一些实施例中，调制解调处理器可以独立于处理器110，与移动通信模块150或其他功能模块设置在同一个器件中。

无线通信模块160可以提供应用在电子设备100上的包括无线局域网(wirelesslocal area networks，WLAN)(如无线保真(wireless fidelity，Wi-Fi)网络)，蓝牙(bluetooth，BT)，全球导航卫星***(global navigation satellite system，GNSS)，调频(frequency modulation，FM)，近距离无线通信技术(near field communication，NFC)，红外技术(infrared，IR)等无线通信的解决方案。无线通信模块160可以是集成至少一个通信处理模块的一个或多个器件。无线通信模块160经由天线2接收电磁波，将电磁波信号调频以及滤波处理，将处理后的信号发送到处理器110。无线通信模块160还可以从处理器110接收待发送的信号，对其进行调频，放大，经天线2转为电磁波辐射出去。

在一些实施例中，电子设备100的天线1和移动通信模块150耦合，天线2和无线通信模块160耦合，使得电子设备100可以通过无线通信技术与网络以及其他设备通信。

电子设备100通过GPU，显示屏194，以及应用处理器等实现显示功能。GPU为图像处理的微处理器，连接显示屏194和应用处理器。GPU用于执行数学和几何计算，用于图形渲染。处理器110可包括一个或多个GPU，其执行程序指令以生成或改变显示信息。

显示屏194用于显示图像，视频等。显示屏194包括显示面板。在一些实施例中，电子设备100可以包括1个或N个显示屏194，N为大于1的正整数。

电子设备100可以通过ISP，摄像头193，视频编解码器，GPU，显示屏194以及应用处理器等实现拍摄功能。

ISP用于处理摄像头193反馈的数据。例如，拍照时，打开快门，光线通过镜头被传递到摄像头感光元件上，光信号转换为电信号，摄像头感光元件将所述电信号传递给ISP处理，转化为肉眼可见的图像。ISP还可以对图像的噪点，亮度，肤色进行算法优化。ISP还可以对拍摄场景的曝光，色温等参数优化。在一些实施例中，ISP可以设置在摄像头193中。

摄像头193用于捕获静态图像或视频。物体通过镜头生成光学图像投射到感光元件。感光元件把光信号转换成电信号，之后将电信号传递给ISP转换成数字图像信号。ISP将数字图像信号输出到DSP加工处理。DSP将数字图像信号转换成标准的RGB，YUV等格式的图像信号。在一些实施例中，电子设备100可以包括1个或N个摄像头193，N为大于1的正整数。

数字信号处理器用于处理数字信号，除了可以处理数字图像信号，还可以处理其他数字信号。例如，当电子设备100在频点选择时，数字信号处理器用于对频点能量进行傅里叶变换等。

视频编解码器用于对数字视频压缩或解压缩。电子设备100可以支持一种或多种视频编解码器。这样，电子设备100可以播放或录制多种编码格式的视频，例如：动态图像专家组(moving picture experts group，MPEG)1，MPEG2，MPEG3，MPEG4等。

NPU为神经网络(neural-network，NN)计算处理器，通过借鉴生物神经网络结构，例如借鉴人脑神经元之间传递模式，对输入信息快速处理，还可以不断的自学习。通过NPU可以实现电子设备100的智能认知等应用，例如：图像识别，人脸识别，语音识别，文本理解等。

外部存储器接口120可以用于连接外部存储卡，例如Micro SD卡，实现扩展电子设备100的存储能力。外部存储卡通过外部存储器接口120与处理器110通信，实现数据存储功能。

内部存储器121可以用于存储计算机可执行程序代码，所述可执行程序代码包括指令。内部存储器121可以包括存储程序区和存储数据区。其中，存储程序区可存储操作***，至少一个功能所需的应用程序(比如声音播放功能，图像播放功能等)等。存储数据区可存储电子设备100使用过程中所创建的数据(比如音频数据，电话本等)等。此外，内部存储器121可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件，闪存器件，通用闪存存储器(universal flash storage，UFS)等。处理器110通过运行存储在内部存储器121的指令，和/或存储在设置于处理器中的存储器的指令，执行电子设备100的各种功能应用以及数据处理。

电子设备100可以通过音频模块170，扬声器170A，受话器170B，麦克风170C，耳机接口170D，以及应用处理器等实现音频功能。例如音乐播放，录音等。

音频模块170用于将数字音频信息转换成模拟音频信号输出，也用于将模拟音频输入转换为数字音频信号。音频模块170还可以用于对音频信号编码和解码。在一些实施例中，音频模块170可以设置于处理器110中，或将音频模块170的部分功能模块设置于处理器110中。

扬声器170A，也称“喇叭”，用于将音频电信号转换为声音信号。电子设备100可以通过扬声器170A收听音乐，或收听免提通话。

受话器170B，也称“听筒”，用于将音频电信号转换成声音信号。当电子设备100接听电话或语音信息时，可以通过将受话器170B靠近人耳接听语音。

麦克风170C，也称“话筒”，“传声器”，用于将声音信号转换为电信号。当拨打电话或发送语音信息时，用户可以通过人嘴靠近麦克风170C发声，将声音信号输入到麦克风170C。电子设备100可以设置至少一个麦克风170C。在另一些实施例中，电子设备100可以设置两个麦克风170C，除了采集声音信号，还可以实现降噪功能。在另一些实施例中，电子设备100还可以设置三个，四个或更多麦克风170C，实现采集声音信号，降噪，还可以识别声音来源，实现定向录音功能等。

耳机接口170D用于连接有线耳机。耳机接口170D可以是USB接口130，也可以是3.5mm的开放移动电子设备平台(open mobile terminal platform，OMTP)标准接口，美国蜂窝电信工业协会(cellular telecommunications industry association of the USA，CTIA)标准接口。

按键190包括开机键，音量键等。按键190可以是机械按键。也可以是触摸式按键。电子设备100可以接收按键输入，产生与电子设备100的用户设置以及功能控制有关的键信号输入。

马达191可以产生振动提示。

指示器192可以是指示灯，可以用于指示充电状态，电量变化，也可以用于指示消息，未接来电，通知等。

SIM卡接口195用于连接SIM卡。

示例性的，上述仅以电子设备100举例说明本申请实施例中电子设备的结构，但并不构成对电子设备结构、形态的限制。本申请实施例对电子设备的结构、形态不做限制。示例性的，图5示出了电子设备的另一种示例性结构。如图5所示，电子设备包括：处理器501、存储器502、收发器503。处理器501、存储器502的实现可参见电子设备100的处理器、存储器的实现。收发器503，用于电子设备与其他设备(比如电子设备100)交互。收发器503可以是基于诸如Wi-Fi、蓝牙或其他通信协议的器件。

可选的，服务器的结构可参见图5所示结构，这里不再赘述。

在本申请另一些实施例中，电子设备或服务器可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者替换某些部件，或者不同的部件布置。图示的部件可以以硬件，软件或软件和硬件的组合实现。

以下实施例中所涉及的技术方案均可以在具有如图4、图5所示结构的装置中实现。

示例性的，以智能家居场景为例，如图6，手机中包括第一模型，各智能家居设备中包括第二模型。其中，第一模型由手机厂商训练部署在手机。第一模型，可用于获取语音信息对应的多维度的特征信息。本申请实施例中，第一模型的权重通常固定，无需频繁更新第一模型。

第二模型由各智能家居设备的厂商自行训练。第二模型，可用于将语音信息对应的多维度的特征信息转换为相应的操作信息。本申请实施例中，对于第二模型，各智能家居设备的厂商可以根据实际使用需要进行更新。也就是说，在后期新增设备的情况下，通常只需该新增设备的厂商重新训练该新增设备中用于识别操作信息(比如对控制指令进行分类)的第二模型，手机厂商无需频繁更新用于识别特征信息的第一模型，如此，能够降低诸如手机等厂商的模型训练、维护成本。并且，由于第二模型只涉及到识别具体设备的操作信息(比如对控制指令进行分类)，模型较小，方便训练更新。

可选的，更新第二模型包括：更新第二模型的权重。

需要说明的是，由于不同的智能家居设备可能来自不同设备厂商，各厂商训练第二模型采用的算法可能不同，因此，不同智能家居设备上的第二模型可能不同。

在图6所示场景中，用户向手机输入语音信息“调高电视的音量”，手机检测到用户输入的语音信息后，可以将语音信息输入第一模型，由第一模型输出语音信息的特征信息。可选的，语音信息的特征信息可以以诸如但不限于特征矩阵形式输出。获得特征信息后，手机可以将特征信息发送给与手机连接的各智能家居设备(比如图6所示台灯、空调、电视)。

智能家居设备从手机接收特征信息之后，可以将特征信息输入第二模型，由第二模型输出语音信息对应的操作信息。如图6所示，电视能够根据第二模型识别出操作信息(控制指令的分类结果)是调高音量，这样一来，电视能够根据识别出的操作信息，执行该操作信息对应的操作，即调整音量。台灯无法识别操作信息，或者说台灯通过第二模型输出的操作信息与自身不匹配，或者说台灯通过第二模型输出的操作信息与自身可执行的操作信息(控制指令)不匹配，如此，台灯根据第二模型输出的操作信息(比如控制指令)可确定，用户的语音信息不是用于控制自身的，台灯不必响应用户的语音信息。类似的，空调不必响应用户的语音信息。

与现有技术中，手机需完成从特征信息提取到操作信息识别的过程，导致手机的计算量大，语音控制的效率低相比，在上述智能家居设备的语音控制场景中，将特征信息提取与操作信息识别过程解耦。其中，特征信息提取流程由手机执行，操作信息识别由各智能家居设备执行。相较于现有技术，手机不再执行操作信息识别的操作，计算量有所降低，能够提升手机的运行速度，进而提高语音控制的效率。

如下，介绍本申请实施例的语音控制过程中各设备之间的具体交互。如图7所示，以用户通过手机语音控制调高电视的音量为例，本申请实施例提供的语音控制方法包括：

S101、手机检测到用户输入语音信息。

示例性的，用户输入的语音信息是“调高电视的音量”。

S102、手机将语音信息转化为特征信息。

通常，语音信息属于模拟信号，手机需要通过编码模型将其转化成数字信号，并提取特征信息，后续，其他设备能够根据提取的特征信息识别语音信息对应的操作信息。

其中，特征信息指从语音信息中得到的具有辨识性的成分，通过这些具有辨识性的语音成分可以准确描述一段语音与其他语音之间区别。可选的，语音信息中具有辨识性的成分包括但不限于声谱、声谱的音素。声谱的音素包括但不限于声谱中的共振峰。本申请实施例的特征信息不局限于上述列举的几种，本申请实施例限于篇幅不再穷举全部特征信息，凡是语音中能够起到辨识作用的信息，都可称为特征信息。

作为一种可能的实现方式，手机包括第一模型，手机可以将语音信息输入第一模型，由第一模型计算并输出语音信息对应的特征信息。其中，第一模型的训练方式，可参见下述实施例。

本申请实施例中，第一模型可以实现为编码模型(还可以称为编码模块，编码神经网络，或有其他名称)，名称不构成对编码模型的限制。编码模型可视为手机上的功能模块，该功能模块用于将语音信息对应的信息转化为语音的特征信息。

或者，可选的，第一模型中除了包括编码模型，还可以集成其他模型，比如VAD模型。可选的，第一模型还可以集成其他功能，本申请实施例对第一模型是否集成其他功能以及其他功能的具体类型不做限定。

类似的，本申请实施例中的第二模型可以实现为解码模型(还可以称为解码模块，解码神经网络，或有其他名称)。解码模型也可视为设备(比如电视)中的功能模块，该功能模块用于将语音的特征信息转化为相应的操作信息。

可选的，第二模型中除了包括解码模型，还可以集成其他模型或模块，本申请实施例对第二模型是否集成其他功能以及其他功能的具体类型不做限定。

本申请实施例中，第一模型，还可以称为第一模型文件，或其他名称。第二模型，还可以称为第二模型文件，或其他名称。名称并不构成对第一模型、第二模型的限制。

S103、手机广播特征信息。

相应的，电视等手机连接的各设备从手机接收特征信息。

在本申请实施例中，手机不执行操作信息识别的操作，而是由手机控制的各设备完成操作信息识别，因此，手机并不知道用户的语音信息是用于控制哪个设备。那么，手机需向所连接的全部设备广播特征信息，由其他设备各自识别特征信息对应的操作信息后，判断用户的语音信息是否用于控制自身执行操作，若是，则响应用户的语音信息，执行语音信息对应的操作，若否，则不响应用户的语音信息，不执行语音信息对应的操作。

S104、电视将特征信息转化为电视对应的操作信息。

作为一种可能的实现方式，电视包括第二模型。电视从手机接收到语音的特征信息(比如语音的特征矩阵)之后，将语音的特征信息输入第二模型，由第二模型确定并输出语音信息对应的操作信息。示例性的，在图6所示场景中，电视将语音的特征信息(比如特征矩阵)输入第二模型，第二模型计算并确定该特征信息对应的操作信息为“调高电视的音量”。

S105、电视响应操作信息，执行操作信息对应的操作。

示例性的，仍如图6所示场景，电视识别出用户的语音信息对应的操作信息是“调高电视的音量”，且该操作信息是电视匹配的操作信息之后，可响应该操作信息，执行该操作信息对应的目标操作，即调高音量。

接下来，结合设备内部的功能模块阐述语音控制方法中设备之间的交互。如图8所示，本申请实施例的语音控制方法包括：

S201、手机检测到语音信息，并将语音信息输入VAD模型。

示例性的，用户向手机输入语音信息“调高电视的音量”，手机检测到该语音信息之后，将语音信息对应的语音信息输入VAD模型。

S202、VAD模型检测语音信息中的人声信息，并将语音信息中的人声信息输入手机的编码模型。

考虑到用户输入语音信息时，手机采集语音信息时可能也同时采集了环境中的其他声音，因此，为了降低后续计算过程的数据处理量，同时避免环境噪音的干扰，手机可以通过VAD模型识别所采集语音信息中的人声信息和非人声信息(noise)。其中，VAD模型可以是能够执行语音分类任务的任意类型模型。

可选的，可以将采集的原始语音信息切分成多个段(分帧)，例如20ms或者25ms的分帧，并将语音信息输入VAD模型，由VAD输出语音信息的分类结果。可选地，VAD模型输出各分帧属于人声或非人声的分类结果，并将属于人声的语音作为后续编码模型的输入。

其中，本申请实施例涉及的VAD模型的训练过程，可参见现有技术，这里不再赘述。

本申请实施例中，VAD模型也可视为手机上的功能模块，该功能模块具有识别人声和非人声的功能。

S203、编码模型根据语音信息中的人声信息，输出语音信息对应的特征信息。

可选的，编码模型将人声信息划分成多个帧，对于得到的每一帧，编码模型按照一定规则(比如但不限于人耳听声的(mel frequency cepstrum coefficient，MFCC)规则)，提取人声信息的特征信息。可选的，编码模型可以将提取的特征信息转换成特征向量。

示例性的，给出编码模型提取特征信息的方式。首先，对语音信息进行预处理。预处理包括但不限于：将语音信息划分为多个分帧。之后，对每一个分帧，执行下述操作：

通过快速傅里叶变换(fast fourier transform，FFT)得到分帧对应的频谱，并通过Mel滤波器组对得到的频谱进行处理，得到分帧对应的Mel频谱。如此，能够将线形的自然频谱转换为体现人类听觉特性的Mel频谱。接下来，对该分帧对应的Mel频谱进行倒谱分析，获得对应的MFCC，该MFCC可作为该分帧的语音信息对应的特征信息。

在获得语音的每个分帧的特征信息之后，可以组合各分帧的特征信息，得到语音信息对应的特征信息(比如特征向量)。

需要说明的是，编码模型提取特征信息的方法还可以为其他，并不局限于上述列举的方式。

S204、手机的通信模块获得语音信息对应的特征信息。

可选的，通信模块用于支持手机与其他电子设备通信。例如，通信模块可经由无线通信或有线通信连接到网络，以与其他个人终端或网络服务器进行通信。无线通信可采用蜂窝通信协议中的至少一个，诸如，5G、长期演进(LTE)、高级长期演进(LTE-A)、码分多址(CDMA)、宽带码分多址(WCDMA)、通用移动通信***(UMTS)、无线宽带(WiBro)或全球移动通信***(GSM)。无线通信可包括例如短距通信。短距通信可包括无线保真(Wi-Fi)、蓝牙、近场通信(NFC)、磁条传输(MST)或GNSS中的至少一个。

作为一种可能的实现方式，手机中的处理模块(比如处理器)可以获得上述编码模块的输出结果，即获得语音信息对应的特征信息，并可将语音信息对应的特征信息发给通信模块，由手机的通信模块执行步骤下述S205。

S205、手机的通信模块广播语音信息对应的特征信息。

相应的，电视的通信模块从手机接收语音的特征信息。

S206、电视的解码模型获得语音信息对应的特征信息。

作为一种可能的实现方式，电视的通信模块从手机接收语音信息对应的特征信息之后，向电视的处理模块发送该特征信息，处理模块将该特征信息输入解码模型。

S207、电视的解码模型根据语音信息对应的特征信息，输出该特征信息对应的操作信息。

可选的，解码模型可以是用于执行分类任务的模型，其输出内容为语音信息对应的操作信息。

需要注意的是，本申请实施例中的解码模型与传统ASR中的decoder不同，传统ASR中的decoder可以将语音信息对应的特征信息转换为文字，再由后续功能模块将文字转化为对应的操作信息，本申请实施例中的解码模型可以将语音信息对应的特征信息转换分类为对应的操作信息。可见，本申请实施例中的解码模型的转换效率更高。

S208、判断解码模型输出的操作信息是否为电视匹配的操作信息。若是，则执行下述步骤S209，若否，则执行S210。

S209、响应该操作信息，执行该操作信息对应的操作。

示例性的，仍如图6所示场景，电视从手机接收语音信息对应的特征信息(比如特征矩阵)之后，通过第二模型(比如解码模型)输出操作信息(比如控制指令)“调高电视的音量”，并根据该操作信息，执行该操作信息对应的操作，即调高音量。

S210、不响应该操作信息，不执行该操作信息对应的操作。

示例性的，仍如图6所示场景，空调从手机接收语音信息对应的特征信息之后，通过第二模型(比如解码模型)输出语音信息对应的操作信息“其他(others)类型的操作信息”，该操作信息(比如控制指令)表示用户的语音信息不是用于控制空调的。那么，空调根据该操作信息，不执行对应的操作。类似的，台灯接收到语音信息对应的特征信息之后，根据特征信息输出对应的操作信息，并确定无需执行相应操作。

通过在语音信息的控制设备(比如手机)端包括编码神经网络，在语音信息的受控设备(比如家居设备)端包括解码神经网络，也就是能够将解码神经网络的训练交由各个第三方厂商执行。不同厂商可训练各自的解码神经网络。一方面，无须频繁训练编码神经网络，极大降低了新增设备后的开发成本，另一方面，由于手机侧仅执行语音识别中的提取特征信息的操作，而不再执行操作信息识别的流程，因此，可以降低手机的运算量以及功耗，提升运算速度，进而降低语音识别流程的延时。

如下，介绍上述第一模型、第二模型的训练方法。所述第一模型是基于至少一个第一样本数据训练得到的模型，第一样本数据包括:第一语音信息，所述第一语音信息的特征信息是已知的。所述第二模型是基于至少一个第二样本数据训练得到的模型，第二样本数据包括:第一特征信息，所述第一特征信息对应的操作信息是已知的。

图9示例性给出了第一模型的一种训练方法。如图9的(1)所示，首先训练用于识别操作信息的模型，需要提供N(N为正整数)个训练样本，训练样本包括操作信息已知的语音信息(即第一语音信息)。语音数据的类型可以为多个，以保证语料足够丰富，提升识别准确率。可选的，训练样本还包括语音数据的标签，用于表征语音信息对应的操作信息，对多个样本进行训练即可得到能够用于提取特征信息以及识别语音信息对应的操作信息的模型。该模型能够输出语音信息对应的操作信息。

如图9的(1)所述训练模型的场景中，训练的模型包括32层神经元。其中，L1-L16层用于提取语音信息对应的特征信息，L17-L32层用于识别语音信息对应的操作信息。对于某层的神经元来说，其可以与下一层中的一个或多个神经元连接，并通过连接输出相应信号。如图9的(1)示出了所训练模型中部分神经元之间连接对应的权重，比如，L1层的第一个神经元与L2层的第一个神经元之间的连接，对应权重w11，L1层的第一个神经元与L2层的第二个神经元之间的连接，对应权重w12，以此类推。

可选的，为了提升模型的识别准确率，可以对模型进行评估、测试。当模型的识别率达到一定阈值，说明该模型已训练好。当模型的识别率较低，可以继续训练模型，直至模型的识别准确率达到一定阈值。

可选的，模型的训练过程可以在端侧(比如手机等终端)或云侧(比如服务器)。训练可以是离线训练或在线训练。本申请实施例对模型的具体训练方式不做限制。

如图9的(2)所示，在训练好用于提取特征信息以及识别操作信息(比如对控制指令进行分类)的完整模型之后，从该完整模型中移除用于识别操作信息(比如识别控制指令)的L17-L32层对应的部分，即可得到用于提取特征信息的模型。如图9的(2)所示，用于提取特征信息的第一模型包括L1-L16这16个层，在对第一模型输入语音数据(也称为语音信息)之后，第一模型可以输出语音数据对应的特征向量(也称为特征信息)。

总结来说，以第一模型为encoder，第二模型为decoder为例，本申请实施例的encoder是训练好的encoder-decoder模型中的encoder部分，相当于将一个encoder-decoder模型中的encoder部分抽离出来，形成第一模型。

如图10示例性给出了第二模型的一种训练以及使用方法。如图10的(1)所示，在训练第二模型之前，先获得第一模型。作为一种可能的实现方式，若用于提取语音信息对应的特征信息的第一模型由手机训练，则手机可以将第一模型上传至服务器。后续，其他设备可以从服务器获得第一模型，并根据第一模型训练第二模型。或者，设备可以通过其他方式获得手机中的第一模型，本申请实施例并不限制设备获得第一模型的具体方式。

作为一种可能的实现方式，训练第二模型时，将第一模型的输出作为第二模型的输入，形成神经网络进行训练。其中，第一模型的输入作为整个神经网络的输入，第二模型的输出作为整个神经网络的输出，训练过程中，第一模型的权重保持不变。比如，如图10的(1)，可以将第一模型的输出(即语音信息对应的特征信息)作为训练样本，并根据训练样本训练第二模型。训练好的第二模型，具有根据输入的特征信息输出操作信息的功能。以电视通过第二模型识别语音信息对应的操作信息为例，如图10的(2)所示，电视可以将操作信息未知的语音信息对应的特征信息(比如从手机接收的特征向量)输入第二模型，进而由第二模型输出语音信息对应的操作信息(比如调高电视的音量)。

在另一些实施例中，设备也可以单独训练第二模型，即在无需获得第一模型的情况下，训练第二模型。在该实现方式中，训练样本同样是语音信息对应的特征向量(第一特征信息的一种示例)，对训练样本进行训练得到第二模型。

不局限于语音控制场景，其他分布式任务处理场景均可适用该方法。示例性的，分布式任务处理场景包括但不限于：远程会议场景(包括但不限于实时翻译场景)、人脸识别验证场景。

在人脸识别验证场景，以通过手机进行人脸识别为例，示例性的，如图11所示，可以将人脸识别模型至少拆分为第一模型和第二模型。手机的摄像模组(比如摄像头)包括第一模型。第一模型用于提取人脸图像中的人脸的特征信息。手机的比如处理模块中包括第二模型。第二模型用于根据人脸的特征信息输出人脸的识别结果。

如图12示出了在人脸识别场景中本申请实施例方法的示例性流程，该流程包括如下步骤：

S301、摄像模组采集用户输入的人脸图像。

S302、摄像模组将人脸图像输入第一模型，第一模型输出人脸图像的特征信息。

S303、摄像模组将人脸图像的特征信息传递给处理模块。

S304、处理模块将人脸图像的特征信息输入第二模型，第二模型输出人脸的识别结果。

S305、处理模块根据人脸的识别结果，判断人脸是否为合法人脸。若是，则执行S306，若否，则执行S307。

S306、执行人脸信息对应的操作。

示例性的，在支付场景中，用户输入人脸图像，手机通过摄像模组中的第一模型、处理模块中的第二模型判断人脸为合法人脸时，将执行支付操作。在屏幕解锁场景中，用户输入人脸图像，手机通过摄像模组中的第一模型、处理模块中的第二模型判断人脸为合法人脸时，将解锁屏幕。

S307、不执行人脸信息相应的操作。

上述以摄像头为手机上的模块为例进行说明，在另一些场景中，第一模型所在的摄像头还可以在独立于手机之外的模块中，手机中包括第二模型。如此，手机的外部摄像头可以和手机共同完成人脸识别过程，并且，由于已经将模型拆分为第一模型和第二模型，因此，可以提升人脸识别的效率。

类似的，在其他分布式智慧场景中，设备可以将用于执行一个或多个任务的一个或多个模型拆分为多个子模型，并将多个子模型部署在该设备的多个模块中，借助该多个模块分担单个模块的模型运行负载。本申请实施例并不限制模型的具体拆分方式，也不限制模型被拆分为多个子模型后具体分布式的部署在哪些模块中。

在远程会议实时翻译场景，可以将现有的模型至少拆分为第一模型和第二模型，在说话方设备运行第一模型，在接听方设备运行第二模型。如图13示出了在远程会议翻译场景中本申请实施例方法的示例性流程，该流程包括如下步骤：

S401、手机A的音频采集模块采集源语言(即第一语言)的第一语言信息，并将第一语音信息输入手机A的第一模型。

可选的，音频采集模块包括但不限于麦克风。以英译中为例，源语言的第一语音信息为英文“this meeting is”，手机A的音频采集模块采集说话者的该英文语音信息，并将英文语音信息输入第一模型。

S402、第一模型提取第一语音信息的特征信息。

示例性的，提取英文语音信息的特征信息，即英文语音“this meeting is”对应的特征信息。

S403、手机A的通信模块获得第一语音信息的特征信息。

作为一种可能的实现方式，手机A的通信模块从第一模型获得第一语音信息的特征信息，或者，手机A的通信模块从处理模块获得第一语音信息的特征信息。

S404、手机A的通信模块向手机B的通信模块发送第一语音信息的特征信息。

S405、手机B的第二模型获得第一语音信息的特征信息。

作为一种可能的实现方式，第二模型从通信模块获得第一语音信息的特征信息。或者，处理模块将特征信息输入第二模型，即第二模型从处理模块获得第一语音信息的特征信息。

S406、第二模型根据第一语音信息的特征信息，确定第一语音信息对应的目标语言(第二语言)的字幕信息和/或第二语音信息。

可选的，所述第一语言与所述第二语言不同或相同。

示例性的，在手机B开启语音翻译(比如英译中)功能的场景中，手机B在接收到第一语音信息的特征信息之后，可自动将特征信息输入第二模型，并通过第二模型，将英文语音信息对应的特征信息，翻译为中文字幕。比如，根据英文“this meeting is”输出对应的中文操作信息(比如控制指令)“此次会议是”的操作信息。

再比如，手机B没有开启跨语种翻译功能的场景中，第二模型根据英文语音信息对应的特征信息，输出英文的操作信息识别结果。比如，输出对应的英文操作信息“thismeeting is”。

S407、手机B的处理模块控制显示第二语言的字幕信息，和/或播放第二语言的第二语音信息。

示例性的，处理模块控制显示模块显示翻译的中文字幕“此次会议是”，显示模块还可以显示英文字幕“this meeting is”。再示例性的，处理模块控制音频输出模块(比如扬声器)播放翻译的中文语音“此次会议是”，扬声器还可以播放英文语音“this meetingis”。

在远程会议翻译场景中，手机B仅需运行源语言的特征信息-翻译结果的过程，无需运行源语言的语音信息-源语言的特征信息(即提取特征信息)这一阶段的流程，降低了手机B的运算量，能够提升翻译效率。

远程会议场景、人脸识别场景中第一模型、第二模型的训练方法可参见图9、图10的模型训练方法，这里不再赘述。在一种可能的设计中，所述第一模型是基于至少一个第一样本数据训练得到的模型，第一样本数据包括:第一语音信息，所述第一语音信息的特征信息是已知的，和/或，所述第二模型是基于至少一个第二样本数据训练得到的模型，第二样本数据包括:第一特征信息，所述第一特征信息对应的操作信息是已知的。

可见，通过本申请实施例中的技术方案，可以将较为复杂的参数模型(包括但不限于机器学习模型)、非参数模型拆分为更小粒度的多个子模型，并且将多个子模型分别运行在同一设备的不同模块中，或者，分别运行在同一组网中的不同设备(如上述语音识别场景)中，或者，分别运行在不同组网的多个设备(如上述远程会议场景)中。如此，能够使得降低单个模块或设备上的运算量，从而提升整个任务处理流程的处理效率。其中，本申请实施例对子模型的拆分粒度、拆分方式、以及拆分后部署在哪些模块或设备不做限定，可以按照场景、设备类型等特点灵活确定。

并且，上述仅列举了几种可能的应用场景，本申请实施例的技术方案还可以应用在其他场景中，限于篇幅，这里不再穷举所有可能场景。示例性的，本申请实施例可以应用在骨声纹识别场景。目前，生物识别技术之一的骨声纹技术，在识别率、速度、便捷程度方面均较高。其识别人物身份的原理是：采集人物的语音信息，并根据语音信息对人物身份的合法性进行验证。其中，由于每个人的骨结构都是独一无二的，所以声音在骨骼间的反射回音也是独一无二的。声音在骨骼间的反射回音可称为骨声纹，与指纹可以用来辨识不同人物的原理类似，骨声纹可以用来识别不同用户的身份。

本申请实施例中，在骨声纹识别场景中，可以将用于骨声纹识别的模型拆分为两部分，其中一部分(第一模型)设置在诸如蓝牙耳机中，另外部分(第二模型)设置在手机中。耳机采集到用户的声音信息(比如用户输入“解锁屏幕”)后，可通过设置的第一模型提取声音信号(也称为语音信息)的特征信息，并将该特征信息发送给手机，手机通过第二模型识别声音是否为合法用户的声音，若是，则执行相应操作(比如解锁屏幕)。

图14示出了本申请实施例提供的分布式语音控制方法的流程。该方法应用于第一终端，该方法包括：

S1401、第一终端响应于用户输入的语音信息，将语音信息输入第一模型，并通过第一模型获得语音信息对应的特征信息。

其中，第一模型存在于第一终端，第二模型存在于第二终端。

示例性的，以第一终端为手机为例，如图6所示，手机接收用户输入的语音信息“调高电视的音量”，并通过第一模型输出该语音信息的特征信息(即特征矩阵)。

S1402、第一终端向第二终端发送特征信息，以使得第二终端将特征信息输入第二模型，并通过第二模型确定语音信息对应的操作信息，以及根据操作信息执行相应操作。

仍以图6为例，第二终端包括与手机连接的台灯、空调、电视。手机在获取到语音信息对应的特征信息后，将特征信息广播给台灯、空调、电视。台灯、空调、电视通过第二模型识别操作信息(比如控制指令)。其中，电视识别的操作信息与电视匹配，则电视执行“调高电视音量”这一操作信息对应的目标操作，即调高自身的播放音量。

需要说明的是，上述各方法实施例的流程中的一些操作任选地被组合，并且/或者一些操作的顺序任选地被改变。并且，各流程的步骤之间的执行顺序仅是示例性的，并不构成对步骤之间执行顺序的限制，各步骤之间还可以是其他执行顺序。并非旨在表明所述执行次序是可以执行这些操作的唯一次序。本领域的普通技术人员会想到多种方式来对本文所述的操作进行重新排序。另外，应当指出的是，本文结合本文所述的其他方法(例如，图7对应的方法、图8对应的方法)所述的其他过程的细节同样以类似的方式适用于上文结合图12所述的方法。

或者，方法实施例中的某些步骤可等效替换成其他可能的步骤。或者，方法实施例中的某些步骤可以是可选的，在某些使用场景中可以删除。或者，可以在方法实施例中增加其他可能的步骤。

本申请另一些实施例提供了一种装置，该装置可以是上述电子设备(比如折叠屏手机)。该装置可以包括：显示屏、存储器和一个或多个处理器。该显示屏、存储器和处理器耦合。该存储器用于存储计算机程序代码，该计算机程序代码包括计算机指令。当处理器执行计算机指令时，电子设备可执行上述方法实施例中手机执行的各个功能或者步骤。该电子设备的结构可以参考图4或图5所示的电子设备。

其中，该电子设备的核心结构可以表示为图15所示的结构，该核心结构可包括：处理模块1301、输入模块1302、存储模块1303、显示模块1304。图15的组件仅是示例性的，电子设备可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件，软件或软件和硬件的组合实现。

处理模块1301，可包括中央处理器(CPU)、应用处理器(Application Processor，AP)或通信处理器(Communication Processor，CP)中的至少一个。处理模块1301可执行与用户电子设备的其他元件中的至少一个的控制和/或通信相关的操作或数据处理。具体地，处理模块1301可用于根据一定的触发条件，控制主屏上显示的内容。或者根据预设规则确定屏幕上显示的内容。处理模块1301还用于将输入的指令或数据进行处理，并根据处理后的数据确定显示样式。

在本申请实施例中，若图15所示结构为第一电子设备(第一终端)或芯片***，处理模块1301，用于响应于用户输入的语音信息，将所述语音信息输入第一模型，并通过所述第一模型获得所述语音信息对应的特征信息。

在本申请实施例中，若图15所示结构为第二电子设备(第二终端)或芯片***，处理模块1301，用于将所述特征信息输入第二模型，并通过所述第二模型确定所述语音信息对应的操作信息；

处理模块，用于根据所述操作信息执行相应操作。

在一种可能的设计中，所述第二终端根据所述操作信息执行相应操作，包括：

若确定所述语音信息对应的操作信息为所述第二终端匹配的操作信息，则所述第二终端根据所述语音信息对应的操作信息执行目标操作，和/或，若确定所述语音信息对应的操作信息不是所述第二终端匹配的操作信息，则所述第二终端丢弃所述操作信息。

输入模块1302，用于获取用户输入的指令或数据，并将获取到的指令或数据传输到电子设备的其他模块。具体地说，输入模块1302的输入方式可以包括触摸、手势、接近屏幕等，也可以是语音输入。例如，输入模块可以是电子设备的屏幕，获取用户的输入操作并根据获取到的输入操作生成输入信号，将输入信号传输至处理模块1301。

存储模块1303，可包括易失性存储器和/或非易失性存储器。存储模块用于存储用户终端设备的其他模块中的至少一个相关的指令或数据，具体地说，存储模块可存储第一模型、第二模型。

显示模块1304，可包括例如液晶显示器(LCD)、发光二极管(LED)显示器、有机发光二极管(OLED)显示器、微机电***(MEMS)显示器或电子纸显示器。用于显示用户可观看的内容(例如，文本、图像、视频、图标、符号等)。

可选的，图15所示结构还可以包括输出模块(未在图15中示出)。输出模块可用于输出信息。示例性的，播放、输出语音信息。输出模块包括但不限于扬声器等模块。

可选的，图15所示结构还可通信模块1305，用于支持电子设备与其他电子设备通信。例如，通信模块可经由无线通信或有线通信连接到网络，以与其他个人终端或网络服务器进行通信。无线通信可采用蜂窝通信协议中的至少一个，诸如，5G、长期演进(LTE)、高级长期演进(LTE-A)、码分多址(CDMA)、宽带码分多址(WCDMA)、通用移动通信***(UMTS)、无线宽带(WiBro)或全球移动通信***(GSM)。无线通信可包括例如短距通信。短距通信可包括无线保真(Wi-Fi)、蓝牙、近场通信(NFC)、磁条传输(MST)或GNSS中的至少一个。

在本申请实施例中，若图15所示结构为第一电子设备或芯片***，通信模块1305，用于向所述第二终端发送所述特征信息。

可选的，向所述第二终端发送所述特征信息，包括：广播所述特征信息。

在本申请实施例中，若图15所示结构为第二电子设备或芯片***，通信模块1305，用于从所述第一终端接收语音信息对应的特征信息。

需要说明的是，本申请方法实施例中的各步骤的描述均可援引到装置对应的模块，这里不再赘述。

本申请实施例还提供一种芯片***，如图16所示，该芯片***包括至少一个处理器1401和至少一个接口电路1402。处理器1401和接口电路1402可通过线路互联。例如，接口电路1402可用于从其它装置(例如电子设备的存储器)接收信号。又例如，接口电路1402可用于向其它装置(例如处理器1401)发送信号。示例性的，接口电路1402可读取存储器中存储的指令，并将该指令发送给处理器1401。当指令被处理器1401执行时，可使得电子设备执行上述实施例中的各个步骤。当然，该芯片***还可以包含其他分立器件，本申请实施例对此不作具体限定。

本申请实施例还提供一种计算机存储介质，该计算机存储介质包括计算机指令，当计算机指令在上述电子设备上运行时，使得该电子设备执行上述方法实施例中手机执行的各个功能或者步骤。

本申请实施例还提供一种计算机程序产品，当计算机程序产品在计算机上运行时，使得计算机执行上述方法实施例中手机执行的各个功能或者步骤。

通过以上实施方式的描述，所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个装置，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是一个物理单元或多个物理单元，即可以位于一个地方，或者也可以分布到多个不同地方。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个可读取存储介质中。基于这样的理解，本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该软件产品存储在一个存储介质中，包括若干指令用以使得一个设备(可以是单片机，芯片等)或处理器(processor)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上内容，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何在本申请揭露的技术范围内的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种分布式语音控制方法，其特征在于，所述方法包括：

第一终端响应于用户输入的语音信息，将所述语音信息输入第一模型，并通过所述第一模型获得所述语音信息对应的特征信息，所述第一模型存在于所述第一终端；

所述第一终端向第二终端发送所述特征信息，以使得所述第二终端将所述特征信息输入第二模型，并通过所述第二模型确定所述语音信息对应的操作信息，以及根据所述操作信息执行相应操作，所述第二模型存在于所述第二终端。

2.根据权利要求1所述的方法，其特征在于，

所述第一模型是基于至少一个第一样本数据训练得到的模型，第一样本数据包括:第一语音信息，所述第一语音信息的特征信息是已知的；和/或，

所述第二模型是基于至少一个第二样本数据训练得到的模型，第二样本数据包括:第一特征信息，所述第一特征信息对应的操作信息是已知的。

3.根据权利要求1或2所述的方法，其特征在于，所述第一终端向第二终端发送所述特征信息，包括：所述第一终端广播所述特征信息。

4.一种分布式语音控制方法，其特征在于，所述方法包括：

第二终端从第一终端接收语音信息对应的特征信息；所述特征信息是所述第一终端将所述语音信息输入第一模型，并通过所述第一模型获得的，所述第一模型存在于所述第一终端；

所述第二终端将所述特征信息输入第二模型，并通过所述第二模型确定所述语音信息对应的操作信息，所述第二模型存在于所述第二终端；

所述第二终端根据所述操作信息执行相应操作。

5.根据权利要求4所述的方法，其特征在于，所述第二终端根据所述操作信息执行相应操作，包括：

若确定所述语音信息对应的操作信息为所述第二终端匹配的操作信息，则所述第二终端根据所述语音信息对应的操作信息执行目标操作；和/或，

若确定所述语音信息对应的操作信息不是所述第二终端匹配的操作信息，则所述第二终端丢弃所述操作信息。

6.根据权利要求4或5所述的方法，其特征在于，

7.一种第一终端，其特征在于，包括：

显示屏；

一个或多个处理器；

一个或多个存储器；

所述存储器存储有一个或多个程序，当所述一个或者多个程序被所述处理器执行时，使得所述第一终端执行如权利要求1至3中任一项所述的方法。

8.一种第二终端，其特征在于，包括：

显示屏；

一个或多个处理器；

一个或多个存储器；

所述存储器存储有一个或多个程序，当所述一个或者多个程序被所述处理器执行时，使得所述第二终端执行如权利要求4至6中任一项所述的方法。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，当所述计算机指令在终端上运行时，使得所述终端执行如权利要求1至3中任一项所述的方法，或者，执行如权利要求4至6中任一项所述的方法。

10.一种计算机程序产品，其特征在于，当所述计算机程序产品在终端上运行时，使得所述终端执行如权利要求1至3中任一项所述的方法，或者，执行如权利要求4至6中任一项的方法。