CN113470635A

CN113470635A - 一种智能音箱控制方法、设备、中控设备以及存储介质

Info

Publication number: CN113470635A
Application number: CN202010358015.0A
Authority: CN
Inventors: 陈维强; 唐至威; 刘帅帅; 孟卫明; 王月岭; 王彦芳; 刘波; 蒋鹏民; 田羽慧; 高雪松
Original assignee: Hisense Co Ltd
Current assignee: Hisense Co Ltd
Priority date: 2020-04-29
Filing date: 2020-04-29
Publication date: 2021-10-01
Anticipated expiration: 2040-04-29
Also published as: CN113470635B

Abstract

本发明公开了一种智能音箱控制方法、设备、中控设备以及存储介质，用以实现对多个智能音箱的协同控制。本发明实施例根据至少一个智能音箱发送的唤醒语音数据，从发送唤醒语音数据的至少一个智能音箱中选择需要唤醒的智能音箱；若根据用户的位置信息，确定用户离开当前唤醒的智能音箱的收音范围，则根据用户的位置信息以及多个候选智能音箱的位置信息，从多个候选智能音箱中选取目标智能音箱并唤醒。由于本发明实施例能够根据用户的位置信息以及多个候选智能音箱的位置信息确定需要唤醒的目标智能音箱，从而能够在用户位置发生变化时，及时切换与用户进行语音交互的智能音箱，保证智能音箱能够准确的为用户提供拾音和播音服务，提升用户体验。

Description

一种智能音箱控制方法、设备、中控设备以及存储介质

技术领域

本发明涉及人工智能领域，尤其涉及一种智能音箱控制方法、设备、中控设备以及存储介质。

背景技术

智能音箱作为娱乐设备以及语音交互设备，被广泛应用于家庭场景中，用户可以唤醒处于待机状态的智能音箱，通过向智能音箱下达语音指令实现对智能音箱的控制，或智能音箱接收到语音指令后上报给中控设备，由中控设备根据语音指令控制其它智能家居设备。

现有的智能音箱仅支持单设备与用户进行交互，用户唤醒智能音箱后，只能处于固定的该智能音箱的收音范围内与智能音箱进行语音交互，一旦用户离开该收音范围，则可能会造成语音信号的漏拾；且用户在与该智能音箱距离较远时，也无法听清智能音箱播报的内容；在用户进入其它智能音箱的收音范围时，只能再次对其它智能音箱进行唤醒，并重新下达语音指令。

综上，目前的智能音箱控制方法较为单一。

发明内容

本发明示例性的实施方式中提供一种智能音箱控制方法、设备、中控设备以及存储介质，用以实现对多个智能音箱的协同控制。

根据示例性的实施方式中的第一方面，提供一种智能音箱控制方法，该方法包括：

根据至少一个智能音箱发送的用户触发的用于唤醒智能音箱的唤醒语音数据，从发送所述唤醒语音数据的至少一个智能音箱中选择需要唤醒的智能音箱；

若根据所述用户的位置信息，确定所述用户离开当前唤醒的智能音箱的收音范围，则根据所述用户的位置信息以及多个候选智能音箱的位置信息，从所述多个候选智能音箱中选取目标智能音箱并唤醒。

上述实施例，能够根据至少一个智能音箱发送的用户触发的用于唤醒智能音箱的唤醒语音数据，从发送唤醒语音数据的至少一个智能音箱中选择需要唤醒的智能音箱，且能够根据用户的位置信息，在确定用户离开当前唤醒的智能音箱的收音范围时，根据用户的位置信息以及多个候选智能音箱的位置信息，从多个候选智能音箱中选取目标智能音箱并唤醒；由于本发明实施例能够根据用户的位置信息以及多个候选智能音箱的位置信息确定需要唤醒的目标智能音箱，从而能够在用户位置发生变化时，及时切换与用户进行语音交互的智能音箱，而不需用户在固定区域与智能音箱进行交互；随着用户的移动切换唤醒的智能音箱，保证智能音箱能够准确的为用户提供拾音和播音服务，为用户提供更加灵活便捷的语音交互方式，提升用户体验。

根据示例性的实施方式中的第二方面，提供一种中控设备，所述中控设备被配置为执行如上述第一方面所述的智能音箱控制方法。

根据示例性的实施方式中的第三方面，提供一种智能音箱控制设备，包括：收发单元、处理器；

所述收发单元被配置为接收智能音箱发送的用户触发的用于唤醒智能音箱的唤醒语音数据；

所述处理器被配置为根据至少一个智能音箱发送的用户触发的用于唤醒智能音箱的唤醒语音数据，从发送所述唤醒语音数据的至少一个智能音箱中选择需要唤醒的智能音箱；

根据示例性的实施方式中的第四方面，提供一种智能音箱控制装置，包括：

选择模块，被配置为根据至少一个智能音箱发送的用户触发的用于唤醒智能音箱的唤醒语音数据，从发送所述唤醒语音数据的至少一个智能音箱中选择需要唤醒的智能音箱；

唤醒模块，被配置为若根据所述用户的位置信息，确定所述用户离开当前唤醒的智能音箱的收音范围，则根据所述用户的位置信息以及多个候选智能音箱的位置信息，从所述多个候选智能音箱中选取目标智能音箱并唤醒。

根据示例性的实施方式中的第五方面，提供一种计算机存储介质，所述计算机存储介质中存储有计算机程序指令，当所述指令在计算机上运行时，使得所述计算机执行如上所述的检测方法。

在符合本领域常识的基础上，上述各优选条件，可任意组合，即得本发明各较佳实施例。

附图说明

图1为本发明实施例提供的一种智能音箱控制***示意图；

图2为本发明实施例提供的一种中控设备的结构框图；

图3为本发明实施例提供的一种智能音箱的结构框图；

图4为本发明实施例提供的一种智能音箱控制方法流程图；

图5为本发明实施例提供的一种智能音箱与中控设备的交互方法流程图；

图6为本发明实施例提供的一种完整的智能音箱控制方法交互流程图；

图7为本发明实施例提供的一种智能音箱控制设备的结构示意图；

图8为本发明实施例提供的一种智能音箱控制装置的结构示意图。

具体实施方式

下面将结合附图对本发明实施例中的技术方案进行清除、详尽地描述。其中，在本发明实施例的描述中，除非另有说明，“/”表示或的意思，例如，A/B可以表示A或B；文本中的“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况，另外，在本发明实施例的描述中，“多个”是指两个或多于两个。

以下，术语“第一”、“第二”仅用于描述目的，而不能理解为暗示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征，在本发明实施例的描述中，除非另有说明，“多个”的含义是两个或两个以上。

下面对文中出现的一些术语进行解释：

1、本发明实施例中术语“声纹识别”，是生物识别技术的一种，也称为说话人识别，是一种通过声音判别说话人身份的技术。声纹识别把声信号转换成电信号，再用计算机进行识别，通过提取语音信号对应的声纹特征，并对提取出的声纹特征进行模型匹配，从而确定声纹特征对应的说话人。

2、本发明实施例中术语“射频识别(Radio Frequency Identification，RFID)”，是自动识别技术的一种，通过无线射频方式进行非接触双向数据通信，利用无线射频方式对记录媒体(电子标签或射频卡)进行读写，从而达到识别目标和数据交换的目的，RFID还可以应用于室内定位，根据用户携带的电子标签或射频卡确定用户所处的位置。

智能音箱具有待机状态和工作状态两种模式，智能音箱在未被使用时，处于待机状态，待机状态下的智能音箱会停止或暂停拾音、播音等服务，在用户需要使用智能音箱时，需要对待机状态下的智能音箱进行唤醒，从而使智能音箱从待机状态切换为工作状态，与用户进行语音交互。

现有的智能音箱仅支持单设备与用户进行交互，用户唤醒智能音箱后，只能处于固定的该智能音箱的收音区域内与智能音箱进行语音交互，一旦用户离开该收音区域，则可能会造成语音信号的漏拾，且用户在与该智能音箱距离较远时，也无法听清智能音箱播报的内容；在用户进入其它智能音箱的收音区域时，只能再次对其它智能音箱进行唤醒，并重新下达语音指令。

基于上述问题，本发明实施例提供一种智能音箱控制***，用以实现对多个智能音箱的协同控制。如图1所示，智能音箱控制***包括多个智能音箱11以及中控设备12；智能音箱11接收用户触发的用于唤醒智能音箱11的唤醒语音数据，并将接收到的唤醒语音数据发送给中控设备12，中控设备12从发送唤醒语音数据的多个智能音箱11中选择需要唤醒的智能音箱。在智能音箱与用户交互的过程中，中控设备12根据用户的位置信息，若确定用户离开当前唤醒的智能音箱11的收音范围时，中控设备12根据用户的位置信息以及候选智能音箱的位置信息，从多个智能音箱11中选取目标智能音箱并唤醒。

本发明实施例的中控设备12可以为对智能家居设备进行控制和管理的设备，例如智能管家设备。

本发明实施例能够根据至少一个智能音箱发送的用户触发的用于唤醒智能音箱的唤醒语音数据，从发送唤醒语音数据的至少一个智能音箱中选择需要唤醒的智能音箱，且能够根据用户的位置信息，在确定用户离开当前唤醒的智能音箱的收音范围时，根据用户的位置信息以及多个候选智能音箱的位置信息，从多个候选智能音箱中选取目标智能音箱并唤醒；由于本发明实施例能够根据用户的位置信息以及多个候选智能音箱的位置信息确定需要唤醒的目标智能音箱，从而能够在用户位置发生变化时，及时切换与用户进行语音交互的智能音箱，而不需用户在固定区域与智能音箱进行交互；随着用户的移动切换唤醒的智能音箱，保证智能音箱能够准确的为用户提供拾音和播音服务，为用户提供更加灵活便捷的语音交互方式，提升用户体验。

图2示出了本发明实施例一种中控设备的结构框图。如图2所示，该中控设备100包括：通讯组件110、存储器120和处理器130。通讯组件110、存储器120和处理器130可以通过总线140连接。本领域技术人员可以理解，图2中示出的中控设备100结构并不构成对中控设备100的限定，可以包括比图示更多的部件，或者组合某些部件。下面结合图2对中控设备100的各个构成部件进行具体的介绍：

通讯组件110可用于与语音交互设备进行通信，例如，接收智能音箱发送的目标用户的唤醒语音数据及其它音频数据等。

存储器120可用于存储中控设备运行时所使用的数据、程序和/或模块，如本发明实施例中的语音交互设备的控制方法对应的程序指令和/或模块，处理器130通过运行存储在存储器120的程序和/或模块，从而执行中控设备100的各种功能应用以及数据处理，如本发明实施例提供的智能音箱控制方法。存储器120可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个应用的应用程序等；存储数据区可存储根据中控设备100的使用所创建的数据(比如每个智能音箱的位置信息)等。此外，存储器120可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

处理器130是中控设备100的控制中心，利用各种接口和线路连接整个服务器100的各个部分，通过运行或执行存储在存储器120内的软件程序和/或模块，以及调用存储在存储器120内的数据，执行中控设备100的各种功能和处理数据，从而对中控设备100进行整体监控。

在一些示例性实施例中，处理器130，可以包括多个处理器。多个处理器可包括一个主处理器以及多个或一个子处理器。主处理器，用于在智能音箱预加载模式中执行智能音箱200的一些初始化操作，和/或，在正常模式下数据的调取和处理操作，以实现对智能音箱200的控制，如唤醒智能音箱等。多个或一个子处理器，可用于协助主处理器进行语音质量的计算等。

本发明实施例中不限定上述存储器120、处理器130和通讯组件110之间的具体连接介质。本发明实施例在图2中，存储器120、处理器130和通讯组件110之间通过总线140连接，其它部件之间的连接方式，仅是进行示意性说明，并不引以为限。所述总线140可以分为地址总线、数据总线、控制总线等。为便于表示，图2中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

图3示出了本发明实施例提供了一种智能音箱的结构框图。图3所示的智能音箱200仅是一个范例，并且智能音箱200可以具有比图3中所示的更多的或者更少的部件，可以组合两个或多个的部件，或者可以具有不同的部件配置。图中所示出的各种部件可以在包括一个或多个信号处理和/或专用集成电路在内的硬件、软件、或硬件和软件的组合中实现。

如图3所示，智能音箱200包括：通信组件210、存储器220、处理器230、音频电路240、开关按键250、以及电源260等部件。

通信组件210用于与中控设备进行通信，向中控设备发送唤醒语音，以及接收中控设备发送的唤醒指令等。通信组件210可以是WiFi(Wireless Fidelity，电路无线保真)模块或射频模块等短距离无线传输模块。

存储器220可用于存储软件程序及数据。处理器230通过运行存储在存储器220的软件程序或数据，从而执行智能音箱200的各种功能以及数据处理。存储器220可储以包括高速随机存取存器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。存储器220存储有使得智能音箱200能运行的操作***。本发明中存储器220可以存储操作***及各种应用程序，还可以存储执行本发明实施例所述智能音箱控制方法的代码。

音频电路240、扬声器241、麦克风242可提供用户与智能音箱200之间进行语音交互的音频接口。音频电路240可将接收到的音频数据转换后的电信号，传输到扬声器241，由扬声器241转换为声音信号输出。智能音箱200还可配置音量按钮，用于调节声音信号的音量。另一方面，麦克风242将收集的声音信号转换为电信号，由音频电路240接收后转换为音频数据，再将音频数据通过通信组件210发送给中控设备100，或者将音频数据输出至存储器220以便进一步处理。本发明实施例中麦克风242可以获取用户的语音。

处理器230是智能音箱200的控制中心，利用各种接口和线路连接整个智能音箱200的各个部分，通过运行或执行存储在存储器220内的软件程序，以及调用存储在存储器220内的数据，执行智能音箱200的各种功能和处理数据。在一些实施例中，处理器230可包括一个或多个处理单元。本发明实施例中的处理器230可以运行操作***、应用程序、执行中控设备发送的操作指令以及本发明实施例的智能音箱控制方法等。

智能音箱200还可以包括为各个部件供电的电源260。电源260可以是市电电源，也可以是充电电池。电源可以通过电源管理***与处理器230逻辑相连，从而通过电源管理***实现管理充电、放电以及功耗等功能。智能音箱200还可配置有开关按键250，用于切断或接通电源，或者说用于控制智能音箱200的开机或关机，通常，智能音箱200处于接通电源的状态，以随时接收用户触发的唤醒语音。

本发明实施例还提供一种智能音箱控制方法，可以应用于智能音箱控制***中的中控设备，如图4所示，包括以下步骤：

步骤S401、根据至少一个智能音箱发送的用户触发的用于唤醒智能音箱的唤醒语音数据，从发送唤醒语音数据的至少一个智能音箱中选择需要唤醒的智能音箱；

步骤S402、若根据用户的位置信息，确定用户离开当前唤醒的智能音箱的收音范围，则根据用户的位置信息以及多个候选智能音箱的位置信息，从多个候选智能音箱中选取目标智能音箱并唤醒。

一种可选的实施方式为，用户触发的用于唤醒智能音箱的唤醒语音可以为预设的唤醒关键词，智能音箱在检测到用户触发预设的唤醒关键词后，将用户触发的用于唤醒智能音箱的唤醒语音数据发送给中控设备；例如，用户说出预设的唤醒关键词“小信，小信”，智能音箱检测到用户触发预设的唤醒关键词后，将用户触发的唤醒语音数据发送给中控设备。

中控设备对接收到的任意一个智能音箱发送的唤醒语音数据，根据唤醒语音数据的声音强度，确定智能音箱的唤醒语音质量参数；根据每个智能音箱的唤醒语音质量参数，从发送唤醒语音数据的至少一个智能音箱中选择需要唤醒的智能音箱。

具体实施中，用户在触发用于唤醒智能音箱的唤醒语音后，处于待机状态的至少一个智能音箱将接收到的唤醒语音数据发送给中控设备，若只有一个智能音箱接收到唤醒语音数据并发送给中控设备，则中控设备唤醒该智能音箱；

若多个智能音箱接收到唤醒语音数据并发送给中控设备，中控设备对每一个智能音箱发送的唤醒语音数据，根据唤醒语音数据的声音强度，确定智能音箱的唤醒语音质量参数，唤醒语音数据的声音强度越大则智能音箱的唤醒语音质量参数越大，表示智能音箱接收到的唤醒语音数据的声音质量越高，更适合作为与用户进行语音交互的智能音箱；

中控设备对唤醒语音质量参数最大的智能音箱进行唤醒，触发该智能音箱切换至能够提供拾音、播音等服务的工作状态。

需要说明的是，本发明实施例中还可以由智能音箱对接收到的唤醒语音数据，根据唤醒语音数据的声音强度，确定唤醒语音质量参数，并将自身对应的唤醒语音质量参数发送给中控设备，中控设备接收到至少一个智能音箱发送的唤醒语音质量参数后，选择唤醒语音质量参数最大的智能音箱进行唤醒。

本发明实施例中，一种可能的智能音箱与中控设备的交互方式如图5所示，为便于理解，图5仅示出了以智能音箱A和智能音箱B两个智能音箱为例的交互方式，实际实施中，智能音箱的数量可以多于两个。如图5所示的智能音箱与中控设备的交互方法，包括以下步骤：

步骤S501、智能音箱A将接收到用户触发的唤醒语音数据发送给中控设备；

步骤S502、智能音箱B将接收到用户触发的唤醒语音数据发送给中控设备；

一种可选的实施方式，待机状态下的智能音箱A和智能音箱B监听用户发出的声音，在监听到用户触发预设的唤醒关键词时，将接收到的唤醒语音数据发送给中控设备。

步骤S503、中控设备对每一个智能音箱发送的唤醒语音数据，根据唤醒语音数据的声音强度，确定智能音箱对应的唤醒语音质量参数，将唤醒语音质量参数最大的智能音箱A作为需要唤醒的智能音箱；

步骤S504、中控设备向智能音箱A发送唤醒指令；

步骤S505、智能音箱A切换至工作状态；

具体实施中，中控设备还可以向智能音箱B发送待机指令，也就是说，本发明实施例提供的智能音箱与中控设备的交互方法还可以包括以下步骤：

步骤S506、中控设备向智能音箱B发送待机指令；

步骤S507、智能音箱B维持待机状态。

在用户通过触发唤醒语音首次唤醒智能音箱后，与智能音箱进行语音交互的过程中，中控设备实时获取用户的位置信息；一种可选的实施方式为，根据下列方式确定用户的位置信息：

对至少一个智能音箱发送的语音数据进行声纹识别提取用户的声纹特征；根据声纹的特征与定位标签对应关系，确定用户的声纹特征对应的定位标签，并根据用户的定位标签确定用户的位置信息。

具体实施中，可以通过RFID室内定位技术确定用户的位置信息，RFID室内定位技术需要用户携带带有定位标签的便携设备或卡片，并预先存储用户的声纹特征与定位标签的对应关系，中控设备在接收到至少一个智能音箱发送的唤醒语音数据后，提取用户的声纹特征，并对提取到的用户的声纹特征进行模型匹配，根据声纹特征与定位标签的对应关系，确定所述用户的声纹特征对应的定位标签，并将定位标签的位置信息作为用户的位置信息。

由于用户的声纹特征为是声纹所具备的特征参数，是使得声纹可量化的参数，不同的声纹特征可以区分不同的发声者。中控设备可以预先采集用户的语音信号，并提取用户的声纹特征存储到中控设备的存储器中，同时将用户的声纹特征与用户携带的定位标签进行绑定；在接收到智能音箱发送的唤醒语音数据后，提取用户的声纹特征，并与存储器中预先存储的声纹特征进行模型匹配，确定与从唤醒语音数据中提取的用户的声纹特征匹配的声纹特征，并确定对应的定位标签。

RFID室内定位技术中，可以通过一组固定的阅读器读取定位标签的特征信息，例如身份ID、接收信号强度等信息，并采用近邻法、多边定位法、接收信号强度等方法确定定位标签所在的位置。

需要说明的是，本发明实施例中的定位技术并不限于使用RFID室内定位技术，还可以通过Wifi室内定位技术或蓝牙室内定位技术，Wifi定位、RFID定位、蓝牙定位的数据传输方式不同，Wifi定位需要用户使用Wifi定位标签蓝牙定位需要用户使用蓝牙ibeacon标签。

获取到用户的位置信息后，确定用户离开当前唤醒的智能音箱的收音范围，则根据用户的位置信息以及多个候选智能音箱的位置信息，从多个候选智能音箱中选取目标智能音箱并唤醒。

一种可选的实施方式为，根据下列方式确定用户离开当前唤醒的智能音箱的收音范围：

根据用户的位置信息以及当前唤醒的智能音箱的位置信息确定用户与当前唤醒的智能音箱的距离，在用户与当前唤醒的智能音箱的距离大于预设阈值时，确定用户离开当前唤醒的智能音箱的收音范围。

在确定用户离开当前唤醒的智能音箱的收音范围后，根据用户的位置信息以及多个候选智能音箱的位置信息，确定用户与每个候选智能音箱之间的距离；将用户距离最近的候选智能音箱作为目标智能音箱。

其中，候选智能音箱的位置信息为预设的位置信息；或候选智能音箱的位置信息是根据候选智能音箱的定位标签确定的。

在从多个候选智能音箱中选取出目标智能音箱后，唤醒目标智能音箱，并由目标智能音箱与用户进行语音交互。

下面以两个具体的实施例对本发明提供的智能音箱控制方法进行进一步说明：

实施例1

多个智能音箱接收到用户触发的唤醒语音，并将唤醒语音数据发送给中控设备，中控设备根据唤醒语音数据的声音强度，确定智能音箱的唤醒语音质量参数；根据每个智能音箱的唤醒语音质量参数，从发送唤醒语音数据的多个智能音箱中选择需要唤醒的智能音箱A，用户与智能音箱A进行语音交互，例如，用户问：“现在多少度？”，智能音箱A将用户的语音数据发送给中控设备，中控设备对语音数据进行语义分析，确定需要反馈给用户的反馈语音数据；

中控设备获取用户的位置信息，确定用户离开当前唤醒的智能音箱A的收音范围，则根据用户的位置信息以及多个候选智能音箱的位置信息，从多个候选智能音箱中选取距离用户最近的智能音箱B进行唤醒；

中控设备将确定出的反馈语音数据发送给智能音箱B，由智能音箱B向用户播放反馈语音，如“当前室温为20度”。

实施例2

多个智能音箱接收到用户触发的唤醒语音，并将唤醒语音数据发送给中控设备，中控设备根据唤醒语音数据的声音强度，确定智能音箱的唤醒语音质量参数；根据每个智能音箱的唤醒语音质量参数，从发送唤醒语音数据的多个智能音箱中选择需要唤醒的智能音箱A，用户与智能音箱A进行语音交互，例如，用户问：“今天星期几？”，智能音箱A将用户的语音数据发送给中控设备，中控设备对语音数据进行语义分析，确定需要反馈给用户的反馈语音数据；

中控设备获取用户的位置信息，确定用户仍处于当前唤醒的智能音箱A的收音范围，则将反馈语音数据发送给智能音箱A，由智能音箱A播放反馈语音，如“今天是星期二”。

在向用户播放反馈语音后，确定用户离开智能音箱A的收音范围，则根据用户的位置信息以及多个候选智能音箱的位置信息，从多个候选智能音箱中选取距离用户最近的智能音箱B并唤醒，由选取出的智能音箱B为用户继续提供拾音服务。

如图6所示，为本发明实施例第一种完整的智能音箱控制方法交互流程图，包括以下步骤：

步骤S601、智能音箱A向中控设备发送唤醒语音数据；

步骤S602、智能音箱B向中控设备发送唤醒语音数据；

步骤S603、中控设备根据接收到的唤醒语音数据，确定智能音箱A和智能音箱B的唤醒语音质量参数，确定唤醒语音质量参数最大的智能音箱A为需要唤醒的智能音箱；

步骤S604、中控设备向智能音箱A发送唤醒指令；

步骤S605、智能音箱A切换至工作状态；

步骤S606、中控设备对智能音箱A或智能音箱B发送的唤醒语音数据进行声纹识别提取用户的声纹特征；

步骤S607、根据声纹特征与定位标签的对应关系，确定用户的声纹特征对应的定位标签，并根据用户的定位标签确定用户的位置信息；

步骤S608、根据用户的位置信息，确定用户离开智能音箱A的收音范围，则根据用户的位置信息以及多个候选智能音箱的位置信息，从多个候选智能音箱中选取距离用户最近的智能音箱B作为目标智能音箱；

步骤S609、中控设备向智能音箱B发送唤醒指令；

步骤S610、智能音箱B切换至工作状态；

步骤S611、中控设备向智能音箱A发送待机指令；

步骤S612、智能音箱A切换至待机状态。

如图7所示，本发明实施例一种智能音箱控制设备，包括：收发单元701、处理器702；

所述收发单元701被配置为接收智能音箱发送的用户触发的用于唤醒智能音箱的唤醒语音数据；

所述处理器702被配置为根据至少一个智能音箱发送的用户触发的用于唤醒智能音箱的唤醒语音数据，从发送所述唤醒语音数据的至少一个智能音箱中选择需要唤醒的智能音箱；若根据所述用户的位置信息，确定所述用户离开当前唤醒的智能音箱的收音范围，则根据所述用户的位置信息以及多个候选智能音箱的位置信息，从所述多个候选智能音箱中选取目标智能音箱并唤醒。

在一些示例性的实施方式中，所述处理器702具体被配置为：

对所述至少一个智能音箱发送的唤醒语音数据进行声纹识别提取所述用户的声纹特征；

根据声纹特征与定位标签的对应关系，确定所述用户的声纹特征对应的定位标签，并根据所述用户的定位标签确定所述用户的位置信息。

在一些示例性的实施方式中，所述处理器702具体被配置为：

根据所述用户的位置信息以及多个候选智能音箱的位置信息，确定所述用户与每个候选智能音箱之间的距离；

将所述用户距离最近的候选智能音箱作为所述目标智能音箱。

在一些示例性的实施方式中，所述候选智能音箱的位置信息为预设的位置信息；或所述候选智能音箱的位置信息是根据所述候选智能音箱的定位标签确定的。

在一些示例性的实施方式中，所述处理器702具体被配置为：

针对任意一个智能音箱发送的唤醒语音数据，根据所述唤醒语音数据的声音强度，确定所述智能音箱的唤醒语音质量参数；

根据每个智能音箱的唤醒语音质量参数，从发送所述唤醒语音数据的至少一个智能音箱中选择需要唤醒的智能音箱。

如图8所示，本发明实施例还提供一种智能音箱控制装置，包括：

选择模块801，被配置为根据至少一个智能音箱发送的用户触发的用于唤醒智能音箱的唤醒语音数据，从发送所述唤醒语音数据的至少一个智能音箱中选择需要唤醒的智能音箱；

唤醒模块802，被配置为若根据所述用户的位置信息，确定所述用户离开当前唤醒的智能音箱的收音范围，则根据所述用户的位置信息以及多个候选智能音箱的位置信息，从所述多个候选智能音箱中选取目标智能音箱并唤醒。

在一些示例性的实施方式中，所述唤醒模块802具体被配置为：

在一些示例性的实施方式中，所述选择模块801具体被配置为：

本领域内的技术人员应明白，本发明的实施例可提供为方法、***、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种智能音箱控制方法，其特征在于，该方法包括：

2.如权利要求1所述的方法，其特征在于，根据下列方式确定所述用户的位置信息，包括：

3.如权利要求1所述的方法，其特征在于，所述根据所述用户的位置信息以及多个候选智能音箱的位置信息，从所述多个候选智能音箱中选取目标智能音箱，包括：

4.如权利要求1或3所述的方法，其特征在于，所述候选智能音箱的位置信息为预设的位置信息；或

所述候选智能音箱的位置信息是根据所述候选智能音箱的定位标签确定的。

5.如权利要求1所述的方法，其特征在于，所述根据至少一个智能音箱发送的用户触发的用于唤醒智能音箱的唤醒语音数据，从发送所述唤醒语音数据的至少一个智能音箱中选择需要唤醒的智能音箱，包括：

6.一种中控设备，其特征在于，所述中控设备被配置为执行权利要求1～5任一所述的智能音箱控制方法。

7.一种智能音箱控制设备，其特征在于，包括：收发单元、处理器；

所述处理器被配置为根据至少一个智能音箱发送的用户触发的用于唤醒智能音箱的唤醒语音数据，从发送所述唤醒语音数据的至少一个智能音箱中选择需要唤醒的智能音箱；若根据所述用户的位置信息，确定所述用户离开当前唤醒的智能音箱的收音范围，则根据所述用户的位置信息以及多个候选智能音箱的位置信息，从所述多个候选智能音箱中选取目标智能音箱并唤醒。

8.如权利要去7所述的智能音箱控制设备，其特征在于，所述处理器具体被配置为：

对所述至少一个智能音箱发送的唤醒语音数据进行声纹识别提取所述用户的声纹特征；根据声纹特征与定位标签的对应关系，确定所述用户的声纹特征对应的定位标签，并根据所述用户的定位标签确定所述用户的位置信息。

9.如权利要求7所述的智能音箱控制设备，其特征在于，所述处理器具体被配置为：

根据所述用户的位置信息以及多个候选智能音箱的位置信息，确定所述用户与每个候选智能音箱之间的距离；将所述用户距离最近的候选智能音箱作为所述目标智能音箱；

其中，所述候选智能音箱的位置信息为预设的位置信息；或所述候选智能音箱的位置信息是根据所述候选智能音箱的定位标签确定的。

10.一种计算机存储介质，其特征在于，所述计算机存储介质中存储有计算机程序指令，当所述指令在计算机上运行时，使得所述计算机执行如权利要求1至5任一项所述的方法。