CN114024789A

CN114024789A - 一种基于工作模式的语音播放方法和一种智能家居设备

Info

Publication number: CN114024789A
Application number: CN202111205827.2A
Authority: CN
Inventors: 高扬; 高滔; 李芸; 郑彩杰
Original assignee: Jinmao Green Building Technology Co Ltd
Current assignee: Jinmao Green Building Technology Co Ltd
Priority date: 2021-10-15
Filing date: 2021-10-15
Publication date: 2022-02-08

Abstract

本发明实施例提供了一种基于工作模式的语音播放方法和一种智能家居设备，方法可以应用于智能家居设备，智能家居设备具有语音收集功能和语音播放功能，方法包括：智能家居设备先确定当前工作模式，然后检测是否触发针对当前工作模式的语音输出事件；当检测到触发针对当前工作模式的语音输出事件时，再确定与当前工作模式和语音输出事件对应的待输出文本信息和目标声纹特征，并采用目标声纹特征，播放待输出文本信息。通过本发明实施例，实现了基于当前工作模式和语音输出事件，确定需要输出的文本信息和用于生成语音输出数据的声纹特征，丰富了语音播放的声调，满足了用户对智能家居设备语音播放的声音的个性化需求。

Description

一种基于工作模式的语音播放方法和一种智能家居设备

技术领域

本发明涉及智能家居的技术领域，特别是涉及一种基于工作模式的语音播放方法和一种智能家居设备。

背景技术

随着人工智能和智能家居技术的不断发展，越来越多的智能家居设备具备了和用户进行语音交互的功能了，例如：用户可以通过输入语音指令来控制智能家居设备，或者可以通过语音指令来与智能家居设备进行对话等等。

现有的智能家居设备在接收到用户输入的语音指令时，可以先对语音指令进行识别，然后生成对应的输出文本信息，再将该输出文本信息转化成语音数据输出；但是现有的智能家居设备所转化成的语音数据的声音都是一个样子的，无法满足用户的个性化需求。

发明内容

鉴于上述问题，提出了以便提供克服上述问题或者至少部分地解决上述问题的一种基于工作模式的语音播放方法和一种智能家居设备，包括：

一种基于工作模式的语音播放方法，方法应用于智能家居设备，智能家居设备具有语音收集功能和语音播放功能，方法包括：

确定智能家居设备的当前工作模式；

检测是否触发针对当前工作模式的语音输出事件；

当检测到触发针对当前工作模式的语音输出事件时，确定与当前工作模式和语音输出事件对应的待输出文本信息和目标声纹特征；

采用目标声纹特征，播放待输出文本信息。

可选地，采用目标声纹特征，播放待输出文本信息，包括：

对待输出文本信息进行语音转化，生成待转化语音数据；

将待转化语音数据中的声纹特征替换为目标声纹特征，得到目标语音数据；

播放目标语音数据。

可选地，确定智能家居设备的当前工作模式，包括：

接收用户输入的模式确定指令，并根据模式确定指令，确定当前工作模式；

或者，获取智能家居设备的当前时间，并根据当前时间，确定当前工作模式。

可选地，当前工作模式包括家居模式，检测是否触发针对当前工作模式的语音输出事件，包括：

当接收到家居交互指令时，判定触发针对家居模式的语音输出事件；

确定与当前工作模式和语音输出事件对应的待输出文本信息和目标声纹特征，包括：

对家居交互指令进行识别，并生成与识别结果匹配的待输出文本信息；

获取针对家居模式预设的目标声纹特征。

可选地，当前工作模式包括睡眠模式，检测是否触发针对当前工作模式的语音输出事件，包括：

当接收到助眠指令时，判定触发针对睡眠模式的语音输出事件；

对助眠指令进行识别，并生成与识别结果匹配的待输出文本信息；

获取针对睡眠模式预设的目标声纹特征。

可选地，当前工作模式包括提醒模式，检测是否触发针对当前工作模式的语音输出事件，包括：

当智能家居设备的当前时间到达预设时间时，判定触发针对提醒模式的语音输出事件；

获取针对预设时间预先录入的待输出文本信息，并获取针对提醒模式预设的目标声纹特征。

可选地，当前工作模式包括安防模式，检测是否触发针对当前工作模式的语音输出事件，包括：

当检测到预设区域存在入侵事件时，判定触发针对安防模式的语音输出事件；

获取针对入侵事件预先录入的待输出文本信息，并获取针对安防模式预设的目标声纹特征。

本发明实施例还提供了一种智能家居设备，智能家居设备包括：

采集单元：用于收集用户输入的指令，并将用户输入的指令发送给控制器单元；

存储单元：用于存储目标声纹特征；

控制器单元：用于将用户输入的指令通过通讯单元上传至语音生成云平台；以及接收通讯单元从语音生成云平台下载来的待转化语音数据；待转化语音数据由语音生成云平台根据用户输入的指令生成待输出文本信息，并基于待输出文本信息生成；

通讯单元：用于将用户输入的指令上传至语音生成云平台，以及从语音生成云平台下载待转化语音数据；

语音合成单元：用于从控制器单元获取待转化语音数据；以及从存储单元获取目标声纹特征，并采用目标声纹特征对待转化语音数据进行转化，生成目标语音数据；

语音播放单元：用于接收语音合成单元发送的目标语音数据，并播放目标语音数据。

本发明实施例还提供了一种基于工作模式的语音播放装置，装置应用于智能家居设备，智能家居设备具有语音收集功能和语音播放功能，方法包括：

模式确定模块，用于确定智能家居设备的当前工作模式；

检测模块，用于检测是否触发针对当前工作模式的语音输出事件；

文本声纹确定模块，用于当检测到触发针对当前工作模式的语音输出事件时，确定与当前工作模式和语音输出事件对应的待输出文本信息和目标声纹特征；

播放模块，用于采用目标声纹特征，播放待输出文本信息。

可选地，播放模块，包括：

转化子模块，用于对待输出文本信息进行语音转化，生成待转化语音数据；

替换子模块，用于将待转化语音数据中的声纹特征替换为目标声纹特征，得到目标语音数据；

目标语音数据播放子模块，用于播放目标语音数据。

可选地，模式确定模块，包括：

第一确定子模块，用于接收用户输入的模式确定指令，并根据模式确定指令，确定当前工作模式；

第二确定子模块，用于获取智能家居设备的当前时间，并根据当前时间，确定当前工作模式。

可选地，当前工作模式包括家居模式，检测模块，包括：

第一检测子模块，用于当接收到家居交互指令时，判定触发针对家居模式的语音输出事件；

文本声纹确定模块，包括：

第一文本声纹确定子模块，用于对家居交互指令进行识别，并生成与识别结果匹配的待输出文本信息；获取针对家居模式预设的目标声纹特征。

可选地，当前工作模式包括睡眠模式，检测模块，包括：

第二检测子模块，用于当接收到助眠指令时，判定触发针对睡眠模式的语音输出事件；

文本声纹确定模块，包括：

第二文本声纹确定子模块，用于对助眠指令进行识别，并生成与识别结果匹配的待输出文本信息；获取针对睡眠模式预设的目标声纹特征。

可选地，当前工作模式包括提醒模式，检测模块，包括：

第三检测子模块，用于当智能家居设备的当前时间到达预设时间时，判定触发针对提醒模式的语音输出事件；

文本声纹确定模块，包括：

第三文本声纹确定子模块，用于获取针对预设时间预先录入的待输出文本信息，并获取针对提醒模式预设的目标声纹特征。

可选地，当前工作模式包括安防模式，检测模块，包括：

第四检测子模块，用于当检测到预设区域存在入侵事件时，判定触发针对安防模式的语音输出事件；

文本声纹确定模块，包括：

第四文本声纹确定子模块，用于获取针对入侵事件预先录入的待输出文本信息，并获取针对安防模式预设的目标声纹特征。

本发明实施例还提供了一种计算机可读存储介质，计算机可读存储介质上存储计算机程序，计算机程序被处理器执行时实现如上的基于工作模式的语音播放方法。

本发明实施例具有以下优点：

本发明实施例中，智能家居设备先确定当前工作模式，然后检测是否触发针对当前工作模式的语音输出事件；当检测到触发针对当前工作模式的语音输出事件时，再确定与当前工作模式和语音输出事件对应的待输出文本信息和目标声纹特征，并采用目标声纹特征，播放待输出文本信息。通过本发明实施例，实现了基于当前工作模式和语音输出事件，确定需要输出的文本信息和用于生成语音输出数据的声纹特征，丰富了语音播放的声调，满足了用户对智能家居设备语音播放的声音的个性化需求。

且为智能家居设备预先部署多种模式，丰富了智能家居设备内设的模式的种类，从而丰富了智能家居设备的功能，从而丰富了用户的使用。

附图说明

为了更清楚地说明本发明的技术方案，下面将对本发明的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例的一种基于工作模式的语音播放方法的步骤流程图；

图2是本发明实施例的另一种基于工作模式的语音播放方法的步骤流程图；

图3是本发明实施例的一种生成目标语音数据的流程图；

图4是本发明实施例的一种选择当前工作模式的流程图；

图5是本发明实施例的另一种生成目标语音数据的流程图；

图6是本发明实施例的一种智能家居设备的结构框图；

图7是本发明实施例的一种基于工作模式的语音播放装置的结构框图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参照图1，示出了本发明实施例的一种基于工作模式的语音播放方法的步骤流程图，该方法可以应用于智能家居设备，智能家居设备可以同时具有语音收集功能和语音播放功能；

具体地，可以包括如下步骤：

步骤101、确定智能家居设备的当前工作模式；

其中，智能家居设备可以指通过物联网技术连接的家居设备，例如：智能语音音响、智能电视、智能窗帘等等，本发明实施例对此不作限制。

在实际应用中，可以预先在智能家居设备中部署多个工作模式，例如：日常使用的家居模式、睡眠时用作助眠使用的睡眠模式、外出时用作安防的安防模式、需要提醒时进行提醒的提醒模式等等，以便丰富用户的使用。

从而，可以先确定智能家居设备的当前工作模式，以便后续基于当前工作模式来输出语音输出数据。

步骤102、检测是否触发针对当前工作模式的语音输出事件；

其中，语音输出事件可以指预先针对不同工作模式设置的触发事件，当智能家居设备处于不同工作模式时，可能会在不同情况下输出语音输出数据，例如：家居设备可以在接收到用户输入的家居交互指令时，输出语音输出数据；睡眠模式(或者提醒模式)可以在预设时间时，输出语音输出数据，安防模式可以在检测到有人进入房间时，输出语音输出数据等等，本发明实施例对此不作限制。

因此，可以在确定当前工作模式后，确定是否触发了针对当前工作模式的语音输出事件，以便确定在当前工作模式下是否需要输出语音输出数据。

步骤103、当检测到触发针对当前工作模式的语音输出事件时，确定与当前工作模式和语音输出事件对应的待输出文本信息和目标声纹特征；

在检测到触发了针对当前工作模式的语音输出事件时，可以表示在此当前工作模式下，智能家居设备需要输出语音输出数据了。

此时，可以获取预先为当前工作模式设置的目标声纹特征，以及预先为语音触发事件设置的待输出文本信息。

其中，目标声纹特征可以由用户预先针对不同的工作模式设置，也可以由智能家居设备通过采集用户日常对话时的声纹特征得到，本发明实施例对此不作限制。

待输出文本信息也可以由用户预先输入，也可以是智能家居设备提供多个待输出文本信息后，由用户选择得到，还可以由智能家居设备对用户输入的指令进行识别后生成的，或者由智能家居设备将用户输入的指令发送至云平台后，由云平台对指令进行识别后生成并返回的，本发明实施例对此不作限制。

步骤104、采用目标声纹特征，播放待输出文本信息。

在得到待输出文本信息和目标声纹特征后，智能家居设备可以采用该目标声纹特征播放该待输出文本信息；从而，使得智能家居设备可以按照用户个性化的设置，采用特定的声纹特征输出待输出文本信息对应的语音输出数据。

参照图2，示出了本发明实施例的另一种基于工作模式的语音播放方法的步骤流程图，包括如下步骤：

步骤201、确定智能家居设备的当前工作模式；

在本发明一实施例中，当前工作模式可以通过如下步骤确定：

接收用户输入的模式确定指令，并根据模式确定指令，确定当前工作模式。

在日常生活中，用户可以主动在智能家居设备上输入模式确定指令，以便控制智能家居设备进行对应的工作模式，例如：用户可以在智能家居设备的显示屏或者控件上输入模式确定指令，或者可以通过语音输入模式确定指令，本发明实施例对此不作限制。

智能家居设备在接收到用户输入的模式确定指令后，可以对模式确定指令进行识别，以便确定用户需要智能家居设备进入的当前工作模式。

在本发明另一实施例中，当前工作模式也可以通过如下步骤确定：

获取智能家居设备的当前时间，并根据当前时间，确定当前工作模式。

用户也可以预先设置模式进入时间和结束时间，从而，当智能家居设备的***时间达到模式进入时间时，会进入对应的工作模式，以及当智能家居设备的***时间达到模式结束时间时，会退出当前工作模式。

从而，智能家居设备可以根据***的当前时间来确定当前工作模式；例如：用户预先在智能家居设备设置了22:00-7:00为睡眠模式，7:00-8:00为家居模式，8:00-18:00为安防模式，而当前时间为15:00，则可以确定当前工作模式为安防模式。

另外，也可以由智能终端设备采集到的用户作息规律来确定当前时间所对应的当前工作模式，本发明实施例对此不作限制。

如图3，当前工作模式可以由用户输入的模式确定指令来确定，当没有接受到用户输入的模式确定指令时，智能家居设备则可以基于采集到的用户作息规律来确定。

步骤202、检测是否触发针对当前工作模式的语音输出事件；

当智能家居设备处于不同工作模式时，可能会在不同情况下输出语音输出数据，例如：家居设备可以在接收到用户输入的家居交互指令时，输出语音输出数据；睡眠模式(或者提醒模式)可以在预设时间时，输出语音输出数据，安防模式可以在检测到有人进入房间时，输出语音输出数据等等，本发明实施例对此不作限制。

步骤203、当检测到触发针对当前工作模式的语音输出事件时，确定与当前工作模式和语音输出事件对应的待输出文本信息和目标声纹特征；

在本发明一实施例中，当前工作模式可以包括家居模式；相应的，可以通过如下步骤检测是否触发针对家居模式的语音输出事件：

当接收到家居交互指令时，判定触发针对家居模式的语音输出事件。

其中，家居交互指令可以指用户输入的用于控制智能家居设备工作的指令，例如：用于控制智能语音音响播放音乐、查询天气、设置闹钟等的指令，本发明实施例对此不作限制。

当确定当前工作模式为家居模式时，可以检测是否接受到针对智能家居设备的家居交互指令。

当接收到针对智能家居设备的家居交互指令时，可以判定触发了针对家居模式的语音输出事件。

另外，当当前工作模式为家居模式时，可以通过如下步骤确定待输出文本信息和目标声纹特征：

对家居交互指令进行识别，并生成与识别结果匹配的待输出文本信息；获取针对家居模式预设的目标声纹特征。

在接收到家居交互指令后，可以先对家居交互指令进行语音识别，得到识别结果；识别结果可以指对家居交互指令进行识别后得到的文本信息，例如：家居交互指令为“今天天气怎么样”的语音指令，则对其进行识别后可以得到“今天天气怎么样”的文本信息的识别结果。

在得到识别结果后，可以获取与识别结果匹配的待输出文本信息，接上例：可以得到与识别结果匹配的待输出文本信息“今天天气晴，26到28摄氏度”。

同时，还可以获取预先针对家居模式设置的目标声纹特征，该目标声纹特征可以是用户预先录入的，也可以是由智能家居设备通过采集用户日常对话生成的。

在本发明另一实施例中，当前工作模式也可以包括睡眠模式；相应的，可以通过如下步骤检测是否触发针对睡眠模式的语音输出事件：

当接收到助眠指令时，判定触发针对睡眠模式的语音输出事件。

其中，助眠指令既可以是用户通过语音或者显示屏输入的指令；也可以是用户预先设置一睡眠时间，然后在该睡眠时间时由智能家居设备自动生成一助眠指令。

当确定当前工作模式为睡眠模式时，可以检测是否接受到针对智能家居设备的助眠指令。

当接收到针对智能家居设备的助眠指令时，可以判定触发了针对睡眠模式的语音输出事件。

另外，当当前工作模式为睡眠模式时，可以通过如下步骤确定待输出文本信息和目标声纹特征：

对助眠指令进行识别，并生成与识别结果匹配的待输出文本信息；获取针对睡眠模式预设的目标声纹特征。

在接收到助眠指令后，可以先对助眠指令进行识别，得到识别结果；例如：用户可以输入“请讲个睡前故事”的助眠指令，智能家居设备在接收到该助眠指令后，智能家居设备可以通过对该助眠指令进行识别，得到“请讲个睡前故事”的文本信息的识别结果。

在得到识别结果后，智能家居设备可以获取与识别结果匹配的待输出文本信息，接上例，可以得到与识别结果匹配的待输出文本信息“小红帽的故事”。

同时，还可以获取预先针对睡眠模式设置的目标声纹特征，该目标声纹特征可以是用户预先录入的，也可以是由智能家居设备通过采集用户日常对话生成的。例如：可以针对睡前故事设置父母的声纹特征。

在睡眠模式下，也可以仅设置纯音乐，例如：可以合成大自然的声音帮助用户入睡，本发明实施例对此不作限制。

在本发明又一实施例中，当前工作模式也可以包括提醒模式；相应的，可以通过如下步骤检测是否触发针对提醒模式的语音输出事件：

当智能家居设备的当前时间到达预设时间时，判定触发针对提醒模式的语音输出事件。

在日常生活中，用户可以在智能家居设备中设置一预设时间，从而使得智能家居设备可以在预设时间时进行提醒，例如：在3点是提醒用户抢购火车票。

因此，可以检测智能家居设备***的当前时间是否达到用户预先设置的预设时间；当当前时间达到预设时间时，可以表示触发了针对提醒模式的语音输出事件。

另外，当当前工作模式为提醒模式时，可以通过如下步骤确定待输出文本信息和目标声纹特征：

触发了针对提醒模式的语音输出事件后，可以先获取针对预设时间输入的待输出文本信息，例如：用户预先针对2:59设置了“请在3点购买火车票”的待输出文本信息，则当当前时间达到2:59时获取该待输出文本信息。

同时，可以获取预先针对提醒模式设置的目标声纹特征，该目标声纹特征可以是用户在录入待输出文本信息时录入的，也可以是由智能家居设备通过采集用户日常对话生成的。

在本发明再一实施例中，当前工作模式还可以包括安防模式；相应的，可以通过如下步骤检测是否触发针对安防模式的语音输出事件：

当检测到预设区域存在入侵事件时，判定触发针对安防模式的语音输出事件。

其中，预设区域可以指禁止外部人员闯入的区域，例如：如果是家庭使用的话，则整个屋内的区域都可以是预设区域。

为了避免用户外出时，有外部人员闯入屋内，智能家居设备可以在进入安防模式后，检测预设区域是否存在入侵事件，例如：智能家居设备可以通过摄像头采集的图像检测预设区域内是否存在入侵事件。

当检测到预设区域内发生了入侵事件时，可以表示触发了针对安防模式的语音输出事件。

另外，当当前工作模式为安防模式时，可以通过如下步骤确定待输出文本信息和目标声纹特征：

当触发了针对安防模式的语音输出事件，可以表示屋内可能会被外部人员入侵，或者已经被外部人员入侵；此时，为了避免用户的损失，且为了可以喝退外部人员，可以获取针对入侵事件预先录入的待输出文本信息，例如：可以是两个或多个用户的对话的待输出文本信息；或者，也可以是“外面是谁”诸如此类的待输出文本信息。

当是两个或多个用户的对话的待输出文本信息时，可以获取两个或多个目标声纹特征；当然，为了进一步提高喝退的效果，可以设置成年男性的声纹特征作为针对安防模式预设的目标声纹特征，本发明实施例对此不作限制。

在一示例中，如图4，用户可以选择智能终端设备所处的工作模式，例如：选择提醒模式则可以合成家人留言提醒，并在预设时间输出该留言；选择睡眠模式则可以合成自然声助眠；选择安防模式可以合成家庭成员对话，以便在用户外出且有外部人员入侵屋内时喝退外部人员；选择家具模式可以合成家居交互声，以便用户与智能家居设备进行语音交互。

需要说明的是，上述工作模式可以同时部署在智能家居设备中，也可以仅部署其中的一个或多个在智能家居设备中，本发明实施例对此不作限制。

步骤204、对待输出文本信息进行语音转化，生成待转化语音数据；

在得到待输出文本信息后，可以先采用通用的声纹特征对待输出文本信息进行语音转化，得到待转化语音数据。

步骤205、将待转化语音数据中的声纹特征替换为目标声纹特征，得到目标语音数据；

仅采用通用的声纹特征得到的待转化语音数据可能无法满足用户的个性化需求；因此，可以在得到待转化语音数据后，采用目标声纹特征来替换待转化语音数据中的声纹特征，从而得到具有个性化的目标语音数据。

具体的，可以先对待转化语音数据进行傅里叶变化，得到频谱信息：

其中，x(n)指的是待转化语音数据的语音信号；w(mT,n)指的是窗函数；X_w(mT,w)指的待转化语音数据的频域信号。

然后在频谱信息中寻找基频值及频率浮动范围，分析并记录内容表征信息和声纹特征；其中，内容表征信息可以是与待输出文本信息对应的特征信息。

然后，可以基于Griffin&Lim算法得到目标语音数据：

其中，x(n)指的是待转化语音数据的语音信号；w(mT,n)指的是窗函数；X_w(mT,W)指的待转化语音数据的频域信号；y代表重建后的每一帧语音数据的语音信号。

在逆变换之后先对每帧语音信号乘以窗函数，然后再重叠相加，最后除以窗函数的平方和，从而对替换成目标声纹表征后的语音信号的进行重建，从而生成目标语音数据。

在一示例中，如图5，在获取到待输入文本信息和目标声纹特征后，智能终端设备可以先从通用语音库中获取通用的声纹特征，并基于通用的声纹特征和待输入文本信息生成待转化语音数据，然后对其进行傅里叶变化，得到内容表征信息和声纹特征；再采用目标声纹特征替换待转化语音数据中的声纹特征。之后，再基于Griffin&Lim算法得到目标语音数据。

步骤206、播放目标语音数据。

在得到替换了声纹特征后的目标语音数据后，智能家居设备可以播放该目标语音数据，从而实现与用户的交互。

如图3，在确定当前工作模式后，智能家居设备也可以从与其存在通信关系的语音生成云平台获取目标语音数据，具体的过程在会在后续的实施例中详细描述，在此不赘述。

本发明实施例中，智能家居设备先确定当前工作模式，然后检测是否触发针对当前工作模式的语音输出事件；当检测到触发针对当前工作模式的语音输出事件时，确定与当前工作模式和语音输出事件对应的待输出文本信息和目标声纹特征；然后对待输出文本信息进行语音转化，生成待转化语音数据；并将待转化语音数据中的声纹特征替换为目标声纹特征，得到目标语音数据；之后再播放目标语音数据。通过本发明实施例，实现了对所生成的语音数据的声纹特征进行替换，从而丰富了语音播放的声调，满足了用户对智能家居设备语音播放的声音的个性化需求。

且为智能家居设备预先部署多种模式，例如：家居模式、睡眠模式、提醒模式和安防模式；丰富了智能家居设备内设的模式的种类，从而丰富了智能家居设备的功能，从而丰富了用户的使用。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

参照图6，示出了本发明实施例的一种智能家居设备的结构示意图，包括如下单元：

采集单元601：用于收集用户输入的指令，并将用户输入的指令发送给控制器单元603；

采集单元601可以用于收集用户输入的指令，例如：模式确定指令、家居交互指令、助眠指令等等；指令既可以是用户通过语音输入来输入的，也可以是用户通过显示屏或者控件输入的，本发明实施例对此不作限制。其中，采集单元601可以包括麦克风采集列阵和滤波器。

在收集到用户输入的各种指令后，采集单元601可以先对指令进行降噪等预处理，然后将预处理后的指令发送给控制器单元603进行处理。

存储单元602：用于存储目标声纹特征；

存储单元602可以用于存储目标声纹特征；目标声纹特征可以是用户预先录入的，也可以是智能终端设备在用户日常对话中收集的。存储单元602可以包括但不限于电存储设备、磁存储设备、半导体存储设备等，本发明实施例对此不作限制。

控制器单元603：用于将用户输入的指令通过通讯单元604上传至语音生成云平台；以及接收通讯单元604从语音生成云平台下载来的待转化语音数据；待转化语音数据由语音生成云平台根据用户输入的指令生成待输出文本信息，并基于待输出文本信息生成；

控制器单元603可以用于接收采集单元601发送来的用户输入的指令，并通过通讯单元604将该指令上传至语音生成云平台；语音生成云平台可以是通过通讯单元604与智能家居设备连接的，用于生成待转化语音数据的云平台；通过语音生成云平台可以提高目标语音数据生成的效率和准确性。

语音生成云平台在接收到用户输入的指令后，可以对指令进行识别，并生成对应的待输出文本信息；然后采用通用的声纹特征将待输出文本信息转化成待转化语音数据；在生成待转化语音数据后，语音生成云平台可以将该待转化语音数据发送回智能家居设备。

另外，控制器单元603还可以用于控制智能家居设备中的其他单元的工作。

通讯单元604：用于将用户输入的指令上传至语音生成云平台，以及从语音生成云平台下载待转化语音数据；

通讯单元604可以用于将控制器单元603发送来的指令上传至语音生成云平台，也可以从语音生成云平台下载待转化语音数据，并将待转化语音数据发送至控制器单元603。

语音合成单元605：用于从控制器单元603获取待转化语音数据；以及从存储单元602获取目标声纹特征，并采用目标声纹特征对待转化语音数据进行转化，生成目标语音数据；

语音合成单元605可以从控制器单元603获取待转化语音数据，以及从存储单元602获取目标声纹特征；然后，可以采用目标声纹特征替换待转化语音数据中的声纹特征，从而对待转化语音数据进行转化，生成目标语音数据。

由于所生成的目标语音数据是由用户相关的(例如用户预先存储的，或者智能家居设备采集生成的)声纹特征转化得到的，使得所生成的目标语音数可以满足了用户对智能家居设备语音播放的声音的个性化需求。

语音播放单元606：用于接收语音合成单元605发送的目标语音数据，并播放目标语音数据。

语音播放单元606可以接收语音合成单元605发送来的目标语音数据，并调用扬声器播放该目标语音数据。

需要说明的是，上述方法实施例均可以应用于本实施例中的智能家居设备中。

参照图7，示出了本发明实施例的一种基于工作模式的语音播放装置的结构示意图，装置应用于智能家居设备，智能家居设备具有语音收集功能和语音播放功能；

具体地，可以包括如下模块：

模式确定模块701，用于确定智能家居设备的当前工作模式；

检测模块702，用于检测是否触发针对当前工作模式的语音输出事件；

文本声纹确定模块703，用于当检测到触发针对当前工作模式的语音输出事件时，确定与当前工作模式和语音输出事件对应的待输出文本信息和目标声纹特征；

播放模块704，用于采用目标声纹特征，播放待输出文本信息。

可选地，播放模块704，包括：

目标语音数据播放子模块，用于播放目标语音数据。

可选地，模式确定模块701，包括：

可选地，当前工作模式包括家居模式，检测模块702，包括：

文本声纹确定模块703，包括：

可选地，当前工作模式包括睡眠模式，检测模块702，包括：

文本声纹确定模块703，包括：

可选地，当前工作模式包括提醒模式，检测模块702，包括：

文本声纹确定模块703，包括：

可选地，当前工作模式包括安防模式，检测模块702，包括：

文本声纹确定模块703，包括：

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本发明实施例可提供为方法、装置、或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、终端设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对所提供的一种基于工作模式的语音播放方法和一种智能家居设备，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于工作模式的语音播放方法，其特征在于，所述方法应用于智能家居设备，所述智能家居设备具有语音收集功能和语音播放功能，所述方法包括：

确定所述智能家居设备的当前工作模式；

检测是否触发针对所述当前工作模式的语音输出事件；

当检测到触发针对所述当前工作模式的语音输出事件时，确定与所述当前工作模式和所述语音输出事件对应的待输出文本信息和目标声纹特征；

采用所述目标声纹特征，播放所述待输出文本信息。

2.根据权利要求1所述的方法，其特征在于，所述采用所述目标声纹特征，播放所述待输出文本信息，包括：

对所述待输出文本信息进行语音转化，生成待转化语音数据；

将所述待转化语音数据中的声纹特征替换为所述目标声纹特征，得到所述目标语音数据；

播放所述目标语音数据。

3.根据权利要求1所述的方法，其特征在于，所述确定所述智能家居设备的当前工作模式，包括：

接收用户输入的模式确定指令，并根据所述模式确定指令，确定所述当前工作模式；

或者，获取所述智能家居设备的当前时间，并根据所述当前时间，确定所述当前工作模式。

4.根据权利要求1-3任一项所述的方法，其特征在于，所述当前工作模式包括家居模式，所述检测是否触发针对所述当前工作模式的语音输出事件，包括：

当接收到家居交互指令时，判定触发针对所述家居模式的语音输出事件；

所述确定与所述当前工作模式和所述语音输出事件对应的待输出文本信息和目标声纹特征，包括：

对所述家居交互指令进行识别，并生成与识别结果匹配的待输出文本信息；

获取针对所述家居模式预设的目标声纹特征。

5.根据权利要求1-3任一项所述的方法，其特征在于，所述当前工作模式包括睡眠模式，所述检测是否触发针对所述当前工作模式的语音输出事件，包括：

当接收到助眠指令时，判定触发针对所述睡眠模式的语音输出事件；

对所述助眠指令进行识别，并生成与识别结果匹配的待输出文本信息；

获取针对所述睡眠模式预设的目标声纹特征。

6.根据权利要求1-3任一项所述的方法，其特征在于，所述当前工作模式包括提醒模式，所述检测是否触发针对所述当前工作模式的语音输出事件，包括：

当所述智能家居设备的当前时间到达预设时间时，判定触发针对所述提醒模式的语音输出事件；

获取针对所述预设时间预先录入的待输出文本信息，并获取针对所述提醒模式预设的目标声纹特征。

7.根据权利要求1-3任一项所述的方法，其特征在于，所述当前工作模式包括安防模式，所述检测是否触发针对所述当前工作模式的语音输出事件，包括：

当检测到预设区域存在入侵事件时，判定触发针对所述安防模式的语音输出事件；

获取针对所述入侵事件预先录入的待输出文本信息，并获取针对所述安防模式预设的目标声纹特征。

8.一种智能家居设备，其特征在于，所述智能家居设备包括：

采集单元：用于收集用户输入的指令，并将所述用户输入的指令发送给控制器单元；

存储单元：用于存储目标声纹特征；

控制器单元：用于将所述用户输入的指令通过通讯单元上传至语音生成云平台；以及接收通讯单元从语音生成云平台下载来的待转化语音数据；待转化语音数据由所述语音生成云平台根据所述用户输入的指令生成待输出文本信息，并基于所述待输出文本信息生成；

语音合成单元：用于从控制器单元获取所述待转化语音数据；以及从所述存储单元获取目标声纹特征，并采用所述目标声纹特征对所述待转化语音数据进行转化，生成目标语音数据；

语音播放单元：用于接收语音合成单元发送的所述目标语音数据，并播放所述目标语音数据。

9.一种基于工作模式的语音播放装置，其特征在于，所述装置应用于智能家居设备，所述智能家居设备具有语音收集功能和语音播放功能，所述方法包括：

模式确定模块，用于确定所述智能家居设备的当前工作模式；

检测模块，用于检测是否触发针对所述当前工作模式的语音输出事件；

文本声纹确定模块，用于当检测到触发针对所述当前工作模式的语音输出事件时，确定与所述当前工作模式和所述语音输出事件对应的待输出文本信息和目标声纹特征；

播放模块，用于采用所述目标声纹特征，播放所述待输出文本信息。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的基于工作模式的语音播放方法。