CN107704530A

CN107704530A - 语音设备交互方法、装置及设备

Info

Publication number: CN107704530A
Application number: CN201710852856.5A
Authority: CN
Inventors: 王禹; 谢波
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Baidu Online Network Technology Beijing Co Ltd; Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2017-09-19
Filing date: 2017-09-19
Publication date: 2018-02-16

Abstract

本申请提出一种语音设备交互方法、装置及设备，其中方法包括：根据预设的规则，从N个角色中选择语音设备当前的目标角色，其中N为大于1的正整数；获取目标角色的语音特征信息；根据语音特征信息，确定当前待播放语音的形式和/或内容。该方法实现了在语音交互时，通过不同目标角色所对应的语音特征，个性化的响应用户的语音消息，使得语音播放的形式丰富多变，满足了用户个性化的需求，提升了用户的使用体验。

Description

语音设备交互方法、装置及设备

技术领域

本申请涉及语音识别技术领域，尤其涉及一种语音设备交互方法、装置及设备。

背景技术

目前，人机语音交互的应用场景越来越普遍，人们可以通过与设备进行语音交互，使得设备明白用户说的内容是什么，并给出相应的回答及操作。例如，用户向智能音响发送“播放周杰伦的歌”，那么当智能音响接收到用户的语音消息之后，可向用户回答“好的，请稍等”，并执行播放周杰伦歌曲的操作。

然而，实际使用过程中，智能设备与用户进行语音交互时，智能设备的语音形式比较单一，导致使用效果较差。

发明内容

本申请旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本申请的第一个目的在于提出一种语音设备交互方法，该方法使得语音播放的形式丰富多变，满足了用户个性化需求，提升了用户使用体验。

本申请的第二个目的在于提出一种语音设备交互装置。

本申请的第三个目的在于提出一种语音设备。

本申请的第四个目的在于提出一种计算机可读存储介质。

为达上述目的，本申请第一方面实施例提出了一种语音设备交互方法，该方法包括：

根据预设的规则，从N个角色中选择语音设备当前的目标角色，其中N为大于1的正整数；

获取所述目标角色的语音特征信息；

根据所述语音特征信息，确定当前待播放语音的形式和/或内容。

本申请实施例提供的语音设备交互方法中，根据预设的规则，从N个角色中选择语音设备当前的目标角色，并获取目标角色的语音特征信息，然后根据目标角色的语音特征信息，确定当前待播放语音的形式和/或内容。由此，实现了在语音交互时，通过不同目标角色所对应的语音特征，个性化的响应用户的语音消息，使得语音播放的形式丰富多变，满足了用户个性化的需求，提升了用户的使用体验。

另外，本申请上述实施例提出的语音设备交互方法还可以具有如下附加的技术特征：

在本申请的一个实施例中，所述根据预设的规则，从N个角色中选择语音设备当前使用的目标角色，包括：

根据所述语音设备的历史使用信息、当前的时间和/或当前的使用场景，从N个角色中选择语音设备当前的目标角色。

在本申请的另一个实施例中，所述获取所述目标角色的语音特征信息，包括：

获取所述目标角色的音色、常用语和/或响应方式。

在本申请的另一个实施例中，所述确定当前待播放语音的形式和/或内容之后，还包括：

从预设的语音库中选取与所述待播放语音的形式和/或内容匹配的语音；

或者，根据所述待播放语音的形式和/或内容，将当前待播放的文本转化为语音。

在本申请的另一个实施例中，所述将当前待播放的文本转化为语音，包括：

根据当前的对话内容及场景，确定当前待播放语音对应的目标文本；

根据所述目标角色的语音特征信息，对所述目标文本的形式和/或内容进行调整；

将调制后的文本转化为语音。

为达上述目的，本申请第二方面实施例提出了一种语音设备交互装置，包括：

选择模块，用于根据预设的规则，从N个角色中选择语音设备当前的目标角色，其中N为大于1的正整数；

获取模块，用于获取所述目标角色的语音特征信息；

确定模块，用于根据所述语音特征信息，确定当前待播放语音的形式和/或内容。

本申请实施例提供的语音设备交互装置中，根据预设的规则，从N个角色中选择语音设备当前的目标角色，并获取目标角色的语音特征信息，然后根据目标角色的语音特征信息，确定当前待播放语音的形式和/或内容。由此，实现了在语音交互时，通过不同目标角色所对应的语音特征，个性化的响应用户的语音消息，使得语音播放的形式丰富多变，满足了用户个性化的需求，提升了用户的使用体验。

另外，本申请上述实施例提出的语音设备交互装置还可以具有如下附加的技术特征：

在本申请的一个实施例中，所述选择模块具体包括：

在本申请的另一个实施例中，所述获取模块具体包括：

获取所述目标角色的音色、常用语和/或响应方式。

在本申请的另一个实施例中，在所述确定模块之后，还包括：

匹配模块，用于从预设的语音库中选取与所述待播放语音的形式和/或内容匹配的语音；

或者，转换模块，用于根据所述待播放语音的形式和/或内容，将当前待播放的文本转化为语音。

在本申请的另一个实施例中，所述转换模块包括：

确定子单元，用于根据当前的对话内容及场景，确定当前待播放语音对应的目标文本；

调整子单元，用于根据所述目标角色的语音特征信息，对所述目标文本的形式和/或内容进行调整；

转换子单元，用于将调制后的文本转化为语音。

为达上述目的，本申请第三方面实施例提出了一种语音设备，包括：存储器、处理器、通信端口；

所述通信端口，用于传输通信数据；

所述存储器，用于存储可执行程序代码；

所述处理器，用于读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序，以用于实现第一方面实施例所述的语音设备交互方法。

本申请实施例提供的语音设备中，根据预设的规则，从N个角色中选择语音设备当前的目标角色，并获取目标角色的语音特征信息，然后根据目标角色的语音特征信息，确定当前待播放语音的形式和/或内容。由此，实现了在语音交互时，通过不同目标角色所对应的语音特征，个性化的响应用户的语音消息，使得语音播放的形式丰富多变，满足了用户个性化的需求，提升了用户的使用体验。

为达到上述目的，本申请第四方面实施例提出了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时，实现第一方面实施例所述的语音设备交互方法。

本申请附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1是本申请一个实施例的语音设备交互方法的流程图；

图2是本申请另一个实施例的语音设备交互方法的流程图；

图3是本申请一个实施例的语音设备交互装置的结构示意图；

图4是本申请另一个实施例的语音设备交互装置的结构示意图；

图5是本申请一个实施例的语音设备的结构示意图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本申请，而不能理解为对本申请的限制。

本申请主要针对现有技术中，用户与语音设备进行语音交互时，语音设备在响应用户时，播放的语音形式比较单一，导致使用效果较差的问题，提出一种语音设备交互方法。

本申请提出的语音设备交互方法，根据预设规则从N个角色中选择出目标角色，并获取目标角色的语音特征信息，然后根据目标角色的语音特征信息，确定出当前待播放语音的形式和/或内容。由此，实现了在语音交互时，通过不同目标角色所对应的语音特征，个性化的响应用户的语音消息，使得语音播放的形式丰富多变，满足了用户个性化的需求，提升了用户的使用体验。

下面结合附图对本申请实施例提出的语音设备交互方法进行详细描述。

图1是本申请的一个实施例的语音设备交互方法的流程图。

如图1所示，本申请语音设备交互方法可以包括以下步骤：

步骤101，根据预设的规则，从N个角色中选择语音设备当前的目标角色，其中N为大于1的正整数。

具体的，本申请实施例提供的语音设备交互方法，可以由本申请提供的语音设备交互装置执行，该装置可以被配置在任意具有语音交互功能的智能设备中，以实现对语音交互操作进行控制或管理。

其中，本申请中的智能设备可以是，但不限于智能手机、智能家电、智能水杯等设备。

其中智能家电可以是但不限于智能冰箱、智能空调、智能电视、智能电灯、智能音响等等，本申请对此不做具体限定。

在本申请中，N个角色可以是预先创建的，也可以是用户根据需求后续创建的，本申请对此不做限定。

具体实现时，本申请可通过以下方式，选择语音设备当前的目标角色，举例说明如下：

方式一，根据语音设备的历史使用信息，从N个角色中选择语音设备当前的目标角色。

具体的，在实际使用过程中，在与用户进行语音交互时，语音设备可自动将与用户交互时所使用的角色信息进行保存，以方便用户下一次进行语音交互时，可直接调用历史保存的角色信息，调取对应的角色与用户进行语音交互，节省了角色选择的时间，提高了语音设备的响应速度。

方式二，根据语音设备当前使用时间，从N个角色中选择语音设备当前的目标角色。

举例来说，若语音设备通过监测单元确定当前使用时间为晚上10：30，且语音设备为智能音响，那么当智能音箱接收到用户发送的“播放歌曲”的语音消息时，可根据当前时间自动选择音色比较轻柔的角色X来响应用户的语音消息。

方式三，根据语音设备当前的使用场景，从N个角色中选择语音设备当前的目标角色。

具体的，本申请可先通过语音设备的音频采集单元，采集用户发送的语音消息，然后对语音消息进行解析并识别，以确定出当前使用的场景，然后根据当前的使用场景选择目标角色。

举例来说，若确定出当前的使用场景比较吵杂，且语音设备为智能手机，那么当智能手机接收到用户发送的“向XXX拨打电话”的语音消息时，可根据当前使用场景自动选择音量大的角色G响应用户的语音消息。

需要说明的是，本申请通过上述方式选择语音设备当前的目标角色时，还可根据实际情况将上述方式中的任意两种进行组合，或者将三种方式进行组合来选择目标角色，本申请对此不做限定。

步骤102，获取目标角色的语音特征信息。

在本实施例中，目标角色的语音特征可包括：目标角色的音色，常用语和/或响应方式。

其中，常用语可以是语音设备被唤醒后所设定的响应语，比如“主人、你好”、“我在、来喽”等；或者，还可以是设定的口头禅，比如“真相只有一个”；又或者，可以是针对用户发送的语音消息设定的响应语，比如，表示确认的，“好的”、“放心吧”等等，本申请对此不做限定。

具体实现时，可通过以下实现方式，获取目标角色的语音特征信息，举例说明如下：

一种实现方式，在预先建立的角色-特征列表中获取目标角色的语音特征信息；

具体的，本申请可将目标角色与角色-特征列表进行匹配，获取目标角色的语音特征信息；或者，按照目标角色的名称或者标号，在角色-特征列表找中对应的名称或者标号，以获取目标角色的语音特征信息，本申请对此不做具体限定。

第二种实现方式，根据目标角色的使用场景，实时获取对应的语音特征信息。

具体的，本申请的语音设备可对用户的语音信息进行解析并识别，以确定目标角色当前所处的场景信息。然后，将确定的场景信息及目标角色发送给服务器，以通过服务器根据场景信息及目标角色，从资源库或者不同网站中获取与目标角色对应的语音特征信息，并将获取的语音特征信息返回给语音设备。

步骤103，根据语音特征信息，确定当前待播放语音的形式和/或内容。

具体的，本申请在获取到目标角色对应的语音特征信息之后，可进一步的确定语音设备当前待播放语音的形式和/或内容。

可以理解的是，根据语音特征信息可以确定语音设备当前待播放语音的形式；或者，可以确定语音设备当前待播放语音的内容；又或者，还可以确定语音设备当前待播放语音的形式和内容，本申请对此不做具体限定。

举例说明，若选择的目标角色是“乐迪”，且获取到“乐迪”的语音特征信息音色温柔，常用语为“主人，你好”，那么当用户发送“打开电视机”的语音消息后，智能电视机的音频采集单元采集到用户发送的“打开电视机”的语音消息之后，使用“乐迪”并温柔的向用户回答“好的”，并在打开电视机之后，播放“主人，你好”的语音，从而使得用户与语音设备进行语音交互时，播放的语音更符合用户需求。

基于上述实施例可知，本申请通过预设规则从N个角色中选择目标角色，并根据目标角色的语音特征，确定待播放语音的形式和/或内容。在本申请一种实现情景中，本申请还可在确定待播放语音的形式和/或内容之后，对语音设备播放的语音进行调节，以进一步丰富语音设备播放语音的多样性。下面结合图2，对上述情况下的语音设备交互方法进行具体说明。

图2是本申请的另一个实施例的语音设备交互方法的流程图。

如图2所示，该语音设备交互方法可以包括以下步骤：

步骤201，根据预设的规则，从N个角色中选择语音设备当前的目标角色，其中N为大于1的正整数。

步骤202，获取目标角色的语音特征信息。

步骤203，根据语音特征信息，确定当前待播放语音的形式和/或内容。

步骤204，根据待播放语音的形式和/或内容，将当前待播放的文本转化为语音。

具体的，由于在实际使用过程中，语音设备中的指令消息是以二进制的形式存储的。因此，本申请在确定出语音设备当前待播放语音的形式和/或内容之后，可将对应的文本通过转换插件转换为语音。

步骤205，根据当前的对话内容及场景，确定当前待播放语音对应的目标文本。

其中，目标文本可包括确认文本、抱歉文本、表达情感文本等，本申请对此不做限定。

其中，确认文本可以是“好的”、“没问题”等等；

抱歉文本可以是“对不起，没有找对应的内容”等等；

表达情感文本可以是表示开心的“太棒啦”、“给力哟”，或者表示伤心的“蓝瘦香菇”、“宝宝不开心”等等。

举例说明，若当前的对话内容是“切换下一首歌曲”，场景为正在播放“流行歌曲”，那么智能音响在获取到上述内容及场景后，可确定是否可以切换下一首歌曲。若确定当前播放的“流行歌曲”后面还有其他歌曲，则可获取“好的，请稍等”等目标文本；如果发现当前播放的“流行歌曲”后面已经没有其他的歌曲时，则获取“对不起，没有获取到其他流行歌曲”，或者，“当前已经为最后一首歌曲啦，是否需要从头开始播放”的目标文本。

步骤206，根据目标角色的语音特征信息，对目标文本的形式和/或内容进行调整。

具体的，为了保证语音设备在响应用户的语音消息时，能够使用选择的目标角色和对应的语音特征信息进行播放，本申请还可在获取到目标文本之后，根据目标角色及对应的语音特征信息对目标文本进行调整。

其中，可对目标文本的播放形式上的调整；或者，也可对目标文本的播放内容进行调整；又或者，还可对目标文本进行播放形式上的调整同时，对目标文本的内容进行调整，本申请对此不做具体限定。

具体实现时，可向目标文本中增添以下至少一种标签，比如背景音标签、音色调节标签、音频标签等，以实现对目标文本形式的调整。

或者，可向目标文本中增加一些修饰词，以实现对目标文本内容的调整。

举例说明，若目标文本为“明天有雨”，那么在“明天有雨”上增添雨滴声的背景音标签。

又例如，若目标文本为“已完成切换操作”，可对目标文本进行修饰之后，可得到调整后的目标文本“亲爱的，主人，已经切换完成啦”。

步骤207，将调整后的文本转化为语音。

具体实现时，可通过语音设备中的语音合成插件，将调整后的文本转换成语音；或者通过服务器对调整后的文本进行转换，以得到对应的语音信息，对此本申请不做限定。

进一步地，在本申请的另一个实施例中，该语音设备交互方法在确定待播放语音的形式和/或内容之后，还可以从预设的语音库中选取与待播放语音的形式和/或内容匹配的语音，以向用户播放相应的形式和/或语音。

其中，预设的语音库可以是对录音数据进行处理后生成的，也可以是提前预置的，本申请对此不做限定。

也就是说，本申请可将确定的待播放语音的形式和/或内容，与语音库进行匹配以确定相对应的语音，从而利用匹配的语音响应用户的语音消息。

本申请实施例提供的语音设备交互方法中，在确定出语音设备待播放语音的形式和/或内容之后，对当前待播放的文本进行转换得到对应的语音，并根据当前的对话内容及场景，确定当前待播放语音对应的目标文本，以根据目标角色的语音特征信息，调整目标文本的形式和/或内容，然后将调整后的文本转化成语音进行播放。由此，使得语音设备在于用户进行交互时，能够根据用户需求向用户播放不同形式的语音消息，增加了用户与设备之间交互的娱乐性，满足了用户个性化需求，进一步提升了用户使用体验。

为了实现上述实施例，本发明还提出一种语音设备交互装置。

图3是本发明一个实施例的语音设备交互装置的结构示意图。

参照图3，该语音设备交互装置包括：选择模块11、获取模块12以及确定模块13。

其中，选择模块11用于根据预设的规则，从N个角色中选择语音设备当前的目标角色，其中N为大于1的正整数；

具体的，所述选择模块11具体包括：

获取模块12用于获取所述目标角色的语音特征信息；

具体的，所述获取模块12具体包括：

获取所述目标角色的音色、常用语和/或响应方式。

确定模块13用于根据所述语音特征信息，确定当前待播放语音的形式和/或内容。

进一步的，在本申请的另一个实施例中，如图4所示，该语音设备交互装置还包括：转换模块14。

其中，转换模块14用于根据所述待播放语音的形式和/或内容，将当前待播放的文本转化为语音。

具体的，所述转换模块14包括：

确定子单元141用于根据当前的对话内容及场景，确定当前待播放语音对应的目标文本；

调整子单元142用于根据所述目标角色的语音特征信息，对所述目标文本的形式和/或内容进行调整；

转换子单元143用于将调制后的文本转化为语音。

此外，本申请的语音设备交互装置，在确定模块13之后，还包括：匹配模块。

其中，匹配模块用于从预设的语音库中选取与所述待播放语音的形式和/或内容匹配的语音。

需要说明的是，本实施例的语音设备交互装置的实施过程和技术原理参见前述对语音设备交互方法实施例的解释说明，此处不再赘述。

为了实现上述实施例，本发明还提出了一种语音设备。

图5是本发明一个实施例的语音设备的结构示意图。

如图5所示，该语音设备20，包括存储器21、处理器22、通信端口23；

其中，所述通信端口23用于传输通信数据；

所述存储器21用于存储可执行程序代码；

所述处理器22用于读取所述存储器21中存储的可执行程序代码来运行与所述可执行程序代码对应的程序，以用于实现第一方面实施例所述的语音设备交互方法。

其中，语音设备交互方法包括：根据预设的规则，从N个角色中选择语音设备当前的目标角色，其中N为大于1的正整数；获取所述目标角色的语音特征信息；根据所述语音特征信息，确定当前待播放语音的形式和/或内容。

需要说明的是，前述对语音设备交互方法实施例的解释说明也适用于该实施例的语音设备，其实现原理类似，此处不再赘述。

为了实现上述实施例，本申请还提出一种计算机可读存储介质。

该存储介质其上存储有计算机程序，该程序被处理器执行时，实现第一方面实施例所述的语音设备交互方法。该方法包括：根据预设的规则，从N个角色中选择语音设备当前的目标角色，其中N为大于1的正整数；获取所述目标角色的语音特征信息；根据所述语音特征信息，确定当前待播放语音的形式和/或内容。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种语音设备交互方法，其特征在于，包括：

获取所述目标角色的语音特征信息；

2.如权利要求1所述的方法，其特征在于，所述根据预设的规则，从N个角色中选择语音设备当前使用的目标角色，包括：

3.如权利要求1所述的方法，其特征在于，所述获取所述目标角色的语音特征信息，包括：

获取所述目标角色的音色、常用语和/或响应方式。

4.如权利要求1-3任一所述的方法，其特征在于，所述确定当前待播放语音的形式和/或内容之后，还包括：

5.如权利要求4所述的方法，其特征在于，所述将当前待播放的文本转化为语音，包括：

将调整后的文本转化为语音。

6.一种语音设备交互装置，其特征在于，包括：

获取模块，用于获取所述目标角色的语音特征信息；

7.如权利要求6所述的装置，其特征在于，所述选择模块具体包括：

8.如权利要求6所述的装置，其特征在于，所述获取模块具体包括：

获取所述目标角色的音色、常用语和/或响应方式。

9.如权利要求6-8任一所述的装置，其特征在于，在所述确定模块之后，还包括：

10.如权利要求9所述的装置，其特征在于，所述转换模块包括：

转换子单元，用于将调制后的文本转化为语音。

11.一种语音设备，其特征在于，包括：存储器、处理器、通信端口；

所述通信端口，用于传输通信数据；

所述存储器，用于存储可执行程序代码；

所述处理器，用于读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序，以用于实现如权利要求1-5任一所述的语音设备交互方法。

12.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-5任一项所述的语音设备交互方法。