CN110164411A

CN110164411A - 一种语音交互方法、设备及存储介质

Info

Publication number: CN110164411A
Application number: CN201810789292.XA
Authority: CN
Inventors: 罗俊; 陈敏; 黄归; 龙振海
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2018-07-18
Filing date: 2018-07-18
Publication date: 2019-08-23

Abstract

本发明实施例公开了语音交互方法、设备及存储介质，应用于通信技术领域。在本实施例的方法中，在语音交互设备的本地存储中事先储存预置类型的文本对应的原始语音信息和/或播放格式语音信息，这样，当语音交互设备采集到用户输入语音或接收到用户触摸信息，确定对应的反馈文本，如果该反馈文本为预置类型的文本，直接从本地存储中即可获取到对应的原始语音信息和/或播放格式语音信息，以进行语音播放，可以省去语音交互设备与语音交互后台之间的网络流量，进而减少了语音交互设备向用户的反馈时间。且如果预置类型的文本是高频率的反馈文本，可以进一步地减少语音交互设备向用户的反馈时间。

Description

一种语音交互方法、设备及存储介质

技术领域

本发明涉及通信技术领域，特别涉及一种语音交互方法、设备及存储介质。

背景技术

现有很多应用都具有语音交互功能，比如，苹果操作***(iphone operationsystem，IOS)中的siri，这样可以给用户带来很多趣味，这些语音交互功能主要通过如下的方法来实现：

用户操作语音交互设备后，语音交互设备会用户操作确定反馈给用户的文本，并向语音交互后台获取该文本对应的语音信息进行播放，其中，语音交互后台会按照文字转语音(text-to-speech，TTS)算法得到对应的语音信息。

在上述语音交互过程中，当用户操作语音交互设备后，为了减少用户等待语音交互设备反馈的时间，一般都是对语音交互后台的TTS算法进行优化，但是这种方法的难度较大，需要对TTS算法有一定研究的用户才能实现。

发明内容

本发明实施例提供一种语音交互方法、设备及存储介质，实现了可以直接从本地存储中获取预置类型的文本的原始语音信息和/或播放格式语音信息。

本发明实施例第一方面提供一种语音交互方法，包括：

采集语音交互设备的用户输入语音或接收对所述语音交互设备的用户触摸信息；

根据所述用户输入语音或用户触摸信息确定对应的反馈文本；

如果所述反馈文本为预置类型的文本，从所述语音交互设备的本地存储中获取所述反馈文本对应的原始语音信息和/或播放格式语音信息；

根据所述原始语音信息和/或播放格式语音信息进行语音播放。

本发明实施例第二方面提供一种语音交互设备，包括：

用户信息获取单元，用于采集语音交互设备的用户输入语音或接收对所述语音交互设备的用户触摸信息；

文本确定单元，用于根据所述用户输入语音或用户触摸信息确定对应的反馈文本；

语音获取单元，用于如果所述反馈文本为预置类型的文本，从所述语音交互设备的本地存储中获取所述反馈文本对应的原始语音信息和/或播放格式语音信息；

播放单元，用于根据所述原始语音信息和/或播放格式语音信息进行语音播放。

本发明实施例第三方面提供一种存储介质，所述存储介质储存多条指令，所述指令适于由处理器加载并执行如本发明实施例第一方面所述的语音交互方法。

本发明实施例第四方面提供一种终端设备，包括处理器和存储介质，所述处理器，用于实现各个指令；

所述存储介质用于储存多条指令，所述指令用于由处理器加载并执行如本发明实施例第一方面所述的语音交互方法。

可见，在本实施例的方法中，在语音交互设备的本地存储中事先储存预置类型的文本对应的原始语音信息和/或播放格式语音信息，这样，当语音交互设备采集到用户输入语音或接收到用户触摸信息，确定对应的反馈文本，如果该反馈文本为预置类型的文本，直接从本地存储中即可获取到对应的原始语音信息和/或播放格式语音信息，以进行语音播放，可以省去语音交互设备与语音交互后台之间的网络流量，进而减少了语音交互设备向用户的反馈时间。且如果预置类型的文本是高频率的反馈文本，可以进一步地减少语音交互设备向用户的反馈时间。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种语音交互方法所应用于的***的示意图；

图2是本发明一个实施例提供的一种语音交互方法的流程图；

图3是本发明另一个实施例提供的一种语音交互方法的流程图；

图4是本发明应用实施例中语音交互设备的结构示意图；

图5是本发明应用实施例提供的一种语音交互方法的流程图；

图6是本发明应用实施例提供的另一种语音交互方法的流程图；

图7是本发明应用实施例提供的又一种语音交互方法的流程图；

图8是本发明实施例提供的一种语音交互设备的结构示意图；

图9是本发明实施例提供的一种终端设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排它的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

本发明实施例提供一种语音交互方法，主要可以应用于如图1所示的***中，在该***中包括语音交互设备和语音交互后台，其中，语音交互设备是提供给用户的接口，当语音交互设备采集到用户输入语音或接收到对语音交互设备的用户触摸信息，确定对应的反馈文本，并向语音交互设备获取反馈文本对应的原始语音信息进行播放；语音交互后台用于向语音交互设备返回反馈文本对应的原始语音信息。语音交互设备可以按照如下步骤实现语音交互：

采集语音交互设备的用户输入语音或接收对语音交互设备的用户触摸信息；根据用户输入语音或用户触摸信息确定对应的反馈文本；如果反馈文本为预置类型的文本，从语音交互设备的本地存储中获取反馈文本对应的原始语音信息和/或播放格式语音信息；根据原始语音信息和/或播放格式语音信息进行语音播放。

这样，可以省去语音交互设备与语音交互后台之间的网络流量，进而减少了语音交互设备向用户的反馈时间；且如果预置类型的文本是高频率的反馈文本，可以进一步地减少语音交互设备向用户的反馈时间。

本发明一个实施例提供一种语音交互方法，主要是由于语音交互设备所执行的方法，流程图如图2所示，包括：

步骤101，采集用户对语音交互设备的用户输入语音或接收对语音交互设备的用户触摸信息。

可以理解，语音交互设备是接收对语音交互设备的用户触摸信息，或采集用户输入语音，并根据用户触摸信息或用户输入语音向用户进行语音反馈。

具体地，一种情况下，用户可以触摸语音交互设备显示的用户界面的某一区域，这样语音交互设备会接收到对语音交互设备的用户触摸信息，并发起本实施例的方法；另一种情况下，用户可以操作语音交互设备，使得语音交互设备进入语音采集状态，这样语音交互设备可以采集到用户输入语音。

步骤102，根据用户输入语音或用户触摸信息确定对应的反馈文本。

如果语音交互设备在步骤101采集到用户输入语音，则可以根据用户输入语音预测用户语义，然后根据用户语义确定对应的反馈文本。例如，用户输入语音为“数羊”，则对应的反馈文本包括：“一只羊，两只羊，三只羊……”，长度较长。

如果语音交互设备在步骤101接收到用户触摸信息，则可以根据语音交互设备中预置的用户触摸信息与反馈文本的对应关系，确定对应的反馈文本。例如，语音交互设备显示某一动画人物，当用户触摸语音交互设备显示的该动画人物的手，语音交互设备反馈的文本中包括：“hand”。

步骤103，判断反馈文本是否为预置类型的文本，如果是，则执行步骤104；如果不是，则执行步骤105。

其中，预置类型的文本可以为长度大于预置长度的文本，也可以是语音交互设备中预置的固定文本等。

步骤104，从语音交互设备的本地存储中获取反馈文本对应的原始语音信息，并根据原始语音信息进行语音播放。

这里原始语音信息可以是一种有损声音编码格式(比如OPUS格式)的语音信息，这样在根据原始语音信息进行语音播放时，需要先将原始语音信息转化为适合语音交互设备播放的播放格式语音信息，比如脉冲编码格式(Pulse Code Modulation，PCM)的语音信息，然后再对播放格式语音信息进行播放。

语音交互设备在执行本步骤时，具体可以先根据反馈文本确定对应的语音文本标识，并在语音交互设备的本地存储中，查找确定的语音文本标识对应的原始语音信息，将查找的原始语音信息作为反馈文本对应的原始语音信息。

其中，反馈文本对应的语音文本标识具体可以为如下至少一个信息的结合信息：反馈文本的数字签名，比如消息摘要算法(Message Digest Algorithm，MD)等；反馈文本所在场景的标识信息(简称场景标识)，例如，用户触摸语音交互设备显示的动画人物的手这个场景下的标识信息等。

步骤105，向语音交互后台获取反馈文本对应的原始语音信息，并根据原始语音信息进行语音播放。

具体地，语音交互设备可以向语音交互后台获取原始语音信息的获取请求，这样语音交互后台会根据获取请求将反馈文本转化为对应的原始语音信息，并返回给语音交互设备。

需要说明的是，为了实现本实施例中步骤101到105的方法，对于预置类型的文本是预置的固定文本，语音交互设备会在执行本实施例的步骤101之前，比如在语音交互设备启动的过程中，预先向语音交互后台获取预置的固定文本对应的原始语音信息；当语音交互设备接收语音交互后台发送的原始语音信息，会获取该预置的固定文本的语音文本标识，且在语音交互设备的本地存储中对应地储存语音文本标识及原始语音信息，这样，后续才能实现上述步骤101到105的方法。

对于预置类型的文本是长度大于预置长度的文本，语音交互设备会在执行本实施例的步骤101之前，具体在语音交互设备之前发起的语音交互流程时，首次从语音交互后台接收到该预置类型的文本对应的原始语音信息后，获取该预置类型的文本的语音文本标识，且在语音交互设备的本地存储中对应地储存语音文本标识及原始语音信息。

可见，在本实施例的方法中，在语音交互设备的本地存储中事先储存预置类型的文本对应的原始语音信息，这样，当语音交互设备采集到用户输入语音或接收到用户触摸信息，确定对应的反馈文本，如果该反馈文本为预置类型的文本，直接从本地存储中即可获取到对应的原始语音信息，以进行语音播放，可以省去语音交互设备与语音交互后台之间的网络流量，进而减少了语音交互设备向用户的反馈时间。且如果预置类型的文本是高频率的反馈文本，可以进一步地减少语音交互设备向用户的反馈时间，保证了用户体验的流畅度。

本发明另一实施例提供一种语音交互方法，主要是由于语音交互设备所执行的方法，本实施例的方法与上述图2所示的方法类似，不同的是，本发明实施例中，当确定的反馈文本为预置类型的文本时，会直接从本地存储中获取第一部分播放格式语音信息和其它部分原始语音信息。本实施例的方法流程图如图3所示，包括：

步骤201，采集用户对语音交互设备的用户输入语音或接收对语音交互设备的用户触摸信息。

步骤202，根据用户输入语音或用户触摸信息确定对应的反馈文本。

步骤203，判断反馈文本是否为预置类型的文本，如果不是，则执行步骤204；如果是，则执行步骤205和206。

步骤204，向语音交互后台获取反馈文本对应的原始语音信息，并根据原始语音信息进行语音播放。

步骤205，从语音交互设备的本地存储中获取反馈文本对应的第一部分播放格式语音信息，及除第一部分原始语音信息之外的其它部分原始语音信息，这里，第一部分播放格式语音信息与第一部分原始语音信息相对应，且第一部分原始语音信息与其它部分原始语音信息组成上述反馈文本对应的全部原始语音信息。

可以理解，原始语音信息可以是OPUS等格式的语音信息，而播放格式语音信息可以是PCM等格式适合播放的语音信息。

语音交互设备在执行本步骤时，具体可以先根据反馈文本确定对应的语音文本标识，并在语音交互设备的本地存储中，查找确定的语音文本标识对应的第一部分播放格式语音信息和其它部分原始语音信息。

步骤206，直接播放第一部分播放格式语音信息，及且根据其它部分原始语音信息进行语音播放。

在根据其它部分原始语音信息进行语音播放时，需要先将其它部分原始语音信息都转化为对应的播放格式语音信息，然后直接进行播放。

需要说明的是，为了实现本实施例中步骤201到206的方法，语音交互设备会在执行本实施例的步骤201之前，比如在语音交互设备启动的过程中，或语音交互设备之前发起的语音交互流程中，预先向语音交互后台获取预置类型的文本对应的多个部分原始语音信息及多个部分原始语音信息对应的位置标识信息。其中，各个部分原始语音信息对应的位置标识信息用于标识该部分原始语音信息在所有部分原始语音信息中所处的位置。

当语音交互设备接收语音交互后台发送的多个部分原始语音信息及多个部分原始语音信息分别对应的位置标识信息后，如果某一位置标识信息指示对应部分原始语音信息处于首位，语音交互设备会将某一位置标识信息对应的部分原始语音信息作为第一部分原始语音信息，且将第一部分原始语音信息转化为所述第一部分播放格式语音信息，及获取预置类型的文本对应的语音文本标识；然后在语音交互设备的本地存储中对应地储存语音文本标识、第一部分播放格式语音信息，及多个部分原始语音信息中除第一部分原始语音信息的其它部分原始语音信息，这样，后续才能实现上述步骤201到206的方法。

例如，语音交互后台向语音交互后台返回某一反馈文本对应的多个部分原始语音信息时，通过n个数据包返回，某一数据包可以包括某一部分原始语音信息及对应的位置标识信息i(i为1到n之间的自然数)，当某一位置标识信息i为1时，可以将该位置标识信息对应的部分原始语音信息作为第一部分原始语音信息。

可见，在本实施例的方法中，在语音交互设备的本地存储中事先储存预置类型的文本对应的第一部分播放格式语音信息及其它部分原始语音信息，这样，当语音交互设备采集到用户输入语音或接收到用户触摸信息，确定对应的反馈文本，如果该反馈文本为预置类型的文本，直接从本地存储中即可获取到对应的第一部分播放格式语音信息及其它部分原始语音信息，以进行语音播放，可以省去语音交互设备与语音交互后台之间的网络流量，进而减少了语音交互设备向用户的反馈时间；且在本地存储中储存有一部分原始语音信息对应的播放格式语音信息即第一部分播放格式语音信息，可以直接进行播放，省去了对原始语音信息的转化时间，更进一步地减少了反馈时间；进一步地如果预置类型的文本是高频率的反馈文本，可以进一步地减少语音交互设备向用户的反馈时间。

另外，需要说明的是，在其它实施例中，在语音交互设备的本地存储中预先对应储存有预置类型的文本对应的全部播放格式语音信息及语音文本标识，则当语音交互设备在发起上述的语音交互流程时，如果语音交互设备在确定反馈文本为预置类型的文本，则可以直接从语音交互设备的本地存储中获取该反馈文本对应的播放格式语音信息，并直接播放该播放格式语音信息，省去了将原始语音信息转化为播放格式语音信息的时间。

以下以一个具体的实施例说明本发明的语音交互方法，在本实施例中，语音交互设备可以包括如图4所示的结构，具体包括：业务层、话术层和播放层，其中：

业务层是语音交互设备提供给用户的接口，用于接收用户触摸信息或采集用户输入语音。

话术层，用于根据业务层接收的用户触摸信息或采集的用户输入语音，确定对应的反馈文本，并从语音交互设备的本地存储中获取对应的原始语音信息和/或播放格式语音信息，主要包括TTS语音事件管理模块(TTS Speech Event Manager)和TTS语音缓存管理模块(TTS Speech Cache Manager)。

播放层，用于根据话术层获取的原始语音信息和/或播放格式语音信息，进行语音播放，主要包括TTS播放模块(TTS Player)和PCM播放模块(TTS Player)。

参考图5所示，在一种情况下，本实施例的语音交互设备可以按照如下步骤来实现语音交互方法：

步骤301，用户操作语音交互设备，比如用户触摸语音交互设备显示的动画人物的“手”，语音交互设备的业务层会接收到用户触摸信息，将用户触摸信息传送给话术层中的TTS语音事件管理模块。

步骤302，TTS语音事件管理模块会向话术层中的TTS语音缓存管理模块确定用户触摸信息对应的反馈文本，由TTS语音事件管理模块会将反馈文本传送给播放层中的TTS播放模块。

步骤303，TTS播放模块会确定该反馈文本是否是预置类型的文本，如果是，则进一步查找在语音交互设备中是否储存该反馈文本对应的原始语音信息，如果未查找到，会向语音交互后台获取该反馈文本对应的原始语音信息，在本实施例中，具体为opus格式的语音信息；如果不是预置类型的文本，则执行向语音交互后台获取该反馈文本对应的原始语音信息。

进一步地，TTS播放模块会先获取该反馈文本对应的语音文本标识，具体可以为如下信息的结合信息：反馈文本的MD值，和反馈文本所在场景的场景标识等；然后在语音交互设备中对应地储存语音文本标识和原始语音信息。

步骤304，TTS播放模块会在获取到原始语音信息后，将该原始语音信息传送给播放层中的PCM播放模块，这样PCM播放模块会将原始语音信息转化为播放格式语音信息，具体为PCM格式的语音信息，进行语音播放。

步骤305，当业务层再次接收到上述用户触摸信息，即用户触摸语音交互设备显示的动画人物的“手”，并传送给TTS语音事件管理模块；TTS语音缓存管理模块会确定该用户触摸信息对应的反馈文本，由TTS语音事件管理模块将该反馈文本传送给TTS播放模块。

TTS播放模块会在语音交互设备的本地存储中查找到该反馈文本对应的原始语音信息，传送给PCM播放模块；由PCM播放模块将原始语音信息转化为播放格式语音信息，进行语音播放。

需要说明的是，上述实施例中，由播放层中的TTS播放模块对应地储存语音文本标识与原始语音信息，在其它实施例中，可以由播放层中的PCM播放模块对应地储存语音文本标识与播放格式语音信息，更进一步地，减少了语音交互设备向用户反馈的时间，提高了用户体验。

参考图6所示，在另一种情况下，本实施例的语音交互设备可以按照如下步骤来实现语音交互方法：

步骤401，语音交互设备在启动时，由话术层中的TTS语音事件管理模块会加载TTS语音缓存管理模块，并传送给播放层中的TTS播放模块；

由TTS播放模块向语音交互后台获取各个预置类型的文本分别对应的原始语音信息；并获取各个预置类型的文本分别对应的语音文本标识，然后对应地储存语音文本标识及原始语音信息。

步骤402，用户操作语音交互设备，语音交互设备的业务层会接收到用户触摸信息，将用户触摸信息传送给话术层中的TTS语音事件管理模块。

步骤403，TTS语音事件管理模块会向话术层中的TTS语音缓存管理模块确定用户触摸信息对应的反馈文本，由TTS语音事件管理模块会将反馈文本传送给播放层中的TTS播放模块。

步骤404，TTS播放模块会确定该反馈文本是否是预置类型的文本，如果是，则进一步查找在语音交互设备中该反馈文本对应的原始语音信息，具体为opus格式的语音信息；如果不是预置类型的文本，则执行向语音交互后台获取该反馈文本对应的原始语音信息。

TTS播放模块会将获取到的原始语音信息传送给PCM播放模块；由PCM播放模块将原始语音信息转化为播放格式语音信息，进行语音播放。

参考图7所示，在其它情况下，本实施例的语音交互设备可以按照如下步骤来实现语音交互方法：

步骤501，用户操作语音交互设备，使得语音交互设备进入语音采集状态，用户对准语音交互设备说“数羊”，这样，语音交互设备的业务层会接收到用户输入语音，将用户输入语音传送给话术层中的TTS语音事件管理模块。

步骤502，TTS语音事件管理模块会向话术层中的TTS语音缓存管理模块确定用户触摸信息对应的反馈文本，由TTS语音事件管理模块会将反馈文本传送给播放层中的TTS播放模块。

步骤503，TTS播放模块会确定该反馈文本的长度大于预置长度，为预置类型的文本，如果是，则进一步查找在语音交互设备中是否储存该反馈文本对应的第一部分播放格式语音信息和其它部分原始语音信息，如果未查找到，会向语音交互后台获取该反馈文本对应的多个部分原始语音信息，及各个部分原始语音信息分别对应的位置标识信息。

步骤504，TTS播放模块会将各个部分原始语音信息及其分别对应的位置标识信息，传送给PCM播放模块，这样PCM播放模块会将各个部分原始语音信息分别转化为播放格式语音信息，并按照对应的位置标识信息按照顺序进行语音播放。

步骤505，在PCM播放模块得到转化后的播放格式语音信息，PCM播放模块会根据位置标识信息，将位置处于首位的第一部分原始语音信息对应的第一部分播放格式语音模块，返回给传回给TTS播放模块。

TTS播放模块会获取该反馈文本对应的语音文本标识，然后在语音交互设备中对应地储存语音文本标识、第一部分播放格式语音信息和其它部分原始语音信息。

步骤506，当业务层再次采集到上述用户输入语音，即“数羊”，并传送给TTS语音事件管理模块；TTS语音缓存管理模块会确定该用户输入语音对应的反馈文本，由TTS语音事件管理模块将该反馈文本传送给TTS播放模块。

TTS播放模块会在语音交互设备的本地存储中查找到该反馈文本对应的第一部分播放格式语音信息及其它部分原始语音信息，传送给PCM播放模块；由PCM播放模块直接播放第一部分播放格式语音信息，且将其它部分原始语音信息转化为其它部分播放格式语音信息，进行语音播放。

本发明实施例还提供一种语音交互设备，其结构示意图如图8所示，具体可以包括：

用户信息获取单元10，用于采集语音交互设备的用户输入语音或接收对所述语音交互设备的用户触摸信息。

文本确定单元11，用于根据所述用户信息获取单元10采集的用户输入语音或接收的用户触摸信息确定对应的反馈文本。

语音获取单元12，用于如果所述文本确定单元11确定的反馈文本为预置类型的文本，从所述语音交互设备的本地存储中获取所述反馈文本对应的原始语音信息和/或播放格式语音信息。

所述预置类型的文本为长度大于预置长度的文本，或所述预置类型的文本为所述语音交互设备中预置的固定文本。

所述语音获取单元12，具体用于根据所述反馈文本确定对应的语音文本标识；在所述语音交互设备的本地存储中，查找所述确定的语音文本标识对应的原始语音信息和/或播放格式语音信息，将所述查找的原始语音信息和/或播放格式语音信息作为所述反馈文本对应的原始语音信息和/或播放格式语音信息。

进一步地，语音获取单元12，还用于如果所述反馈文本非预置类型的文本，向语音交互后台获取所述反馈文本对应的原始语音信息。

播放单元13，用于根据所述语音获取单元12获取的原始语音信息和/或播放格式语音信息进行语音播放。

且播放单元13根据所述原始语音信息进行语音播放。

在一个具体的实施例中，所述语音获取单元12，具体用于从所述语音交互设备的本地存储中获取所述反馈文本对应的第一部分播放格式语音信息，及除第一部分原始语音信息之外的其它部分原始语音信息，所述第一部分播放格式语音信息与所述第一部分原始语音信息相对应；所述播放单元13，具体用于播放所述第一部分播放格式语音信息，及根据所述其它部分原始语音信息进行语音播放。

进一步地，语音交互设备还可以包括：语音信息预置单元14，用于接收所述语音交互后台发送的所述预置类型的文本对应的原始语音信息；获取所述预置类型的文本对应的语音文本标识，在所述语音交互设备的本地存储中对应地储存所述语音文本标识及所述接收的原始语音信息。

该语音信息预置单元14，还用于接收所述语音交互后台发送的所述预置类型的文本对应的原始语音信息；将所述接收的原始语音信息转化为播放格式语音信息，及获取所述预置类型的文本对应的语音文本标识；在所述语音交互设备的本地存储中对应地储存所述语音文本标识及所述播放格式语音信息。

该语音信息预置单元14，还可以用于接收所述语音交互后台发送的所述预置类型的文本对应的多个部分原始语音信息，及所述多个部分原始语音信息分别对应的位置标识信息；如果某一位置标识信息指示对应部分原始语音信息处于首位，将所述某一位置标识信息对应的部分原始语音信息作为第一部分原始语音信息；将所述第一部分原始语音信息转化为所述第一部分播放格式语音信息，及获取所述预置类型的文本对应的语音文本标识；在所述语音交互设备的本地存储中对应地储存所述语音文本标识、第一部分播放格式语音信息，及所述多个部分原始语音信息中除所述第一部分原始语音信息的其它部分原始语音信息。

通过语音信息预置单元14在语音交互设备的本地存储中预置的信息，当语音交互设备后续再发起语音交互流程时，语音获取单元12可以直接获取到语音信息预置单元14预置的信息，然后由播放单元13进行语音播放。

可见，在本实施例的语音交互设备的本地存储中，事先储存预置类型的文本对应的原始语音信息和/或播放格式语音信息，这样，当语音交互设备的用户信息获取单元10采集到用户输入语音或接收到用户触摸信息，文本确定蒂娜元11确定对应的反馈文本，如果该反馈文本为预置类型的文本，语音获取单元12直接从本地存储中即可获取到对应的原始语音信息和/或播放格式语音信息，以进行语音播放，可以省去语音交互设备与语音交互后台之间的网络流量，进而减少了语音交互设备向用户的反馈时间。且如果预置类型的文本是高频率的反馈文本，可以进一步地减少语音交互设备向用户的反馈时间。

本发明实施例还提供一种终端设备，其结构示意图如图9所示，该终端设备可因配置或性能不同而产生比较大的差异，可以包括一个或一个以***处理器(centralprocessing units，CPU)20(例如，一个或一个以上处理器)和存储器21，一个或一个以上存储应用程序221或数据222的存储介质22(例如一个或一个以上海量存储设备)。其中，存储器21和存储介质22可以是短暂存储或持久存储。存储在存储介质22的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对终端设备中的一系列指令操作。更进一步地，中央处理器20可以设置为与存储介质22通信，在终端设备上执行存储介质22中的一系列指令操作。

具体地，在存储介质22中储存的应用程序221包括语音交互的应用程序，且该程序可以包括上述语音交互设备中的用户信息获取单元10，文本确定单元11，语音获取单元12，播放单元13和语音信息预置单元14，在此不进行赘述。更进一步地，中央处理器20可以设置为与存储介质22通信，在终端设备上执行存储介质22中储存的语音交互的应用程序对应的一系列操作。

终端设备还可以包括一个或一个以上电源23，一个或一个以上有线或无线网络接口24，一个或一个以上输入输出接口25，和/或，一个或一个以上操作***223，例如WindowsServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

上述方法实施例中所述的由语音交互设备所执行的步骤可以基于该图9所示的终端设备的结构。

本发明实施例还提供一种存储介质，所述存储介质储存多条指令，所述指令适于由处理器加载并执行如上述语音交互设备所执行的语音交互方法。

本发明实施例还提供一种终端设备，包括处理器和存储介质，所述处理器，用于实现各个指令；

所述存储介质用于储存多条指令，所述指令用于由处理器加载并执行如上述语音交互设备所执行的语音交互方法。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：只读存储器(ROM)、随机存取存储器RAM)、磁盘或光盘等。

以上对本发明实施例所提供的语音交互方法、设备及存储介质进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种语音交互方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，所述从所述语音交互设备的本地存储中获取所述反馈文本对应的原始语音信息和/或播放格式语音信息，具体包括：

根据所述反馈文本确定对应的语音文本标识；

在所述语音交互设备的本地存储中，查找所述确定的语音文本标识对应的原始语音信息和/或播放格式语音信息，将所述查找的原始语音信息和/或播放格式语音信息作为所述反馈文本对应的原始语音信息和/或播放格式语音信息。

3.如权利要求2所述的方法，其特征在于，所述采集语音交互设备的用户输入语音或接收对所述语音交互设备的用户触摸信息之前，所述方法还包括：

接收所述语音交互后台发送的所述预置类型的文本对应的原始语音信息；

获取所述预置类型的文本对应的语音文本标识，在所述语音交互设备的本地存储中对应地储存所述语音文本标识及所述接收的原始语音信息。

4.如权利要求2所述的方法，其特征在于，所述采集语音交互设备的用户输入语音或接收对所述语音交互设备的用户触摸信息之前，所述方法还包括：

将所述接收的原始语音信息转化为播放格式语音信息，及获取所述预置类型的文本对应的语音文本标识；

在所述语音交互设备的本地存储中对应地储存所述语音文本标识及所述播放格式语音信息。

5.如权利要求1至4任一项所述的方法，其特征在于，所述从所述语音交互设备的本地存储中获取所述反馈文本对应的原始语音信息和播放格式语音信息，具体包括：

从所述语音交互设备的本地存储中获取所述反馈文本对应的第一部分播放格式语音信息，及除第一部分原始语音信息之外的其它部分原始语音信息，所述第一部分播放格式语音信息与所述第一部分原始语音信息相对应；

则所述根据所述原始语音信息和播放格式语音信息进行语音播放，具体包括：

播放所述第一部分播放格式语音信息，及根据所述其它部分原始语音信息进行语音播放。

6.如权利要求5所述的方法，其特征在于，所述采集语音交互设备的用户输入语音或接收对所述语音交互设备的用户触摸信息之前，所述方法还包括：

接收所述语音交互后台发送的所述预置类型的文本对应的多个部分原始语音信息，及所述多个部分原始语音信息分别对应的位置标识信息；

如果某一位置标识信息指示对应部分原始语音信息处于首位，将所述某一位置标识信息对应的部分原始语音信息作为第一部分原始语音信息；

将所述第一部分原始语音信息转化为所述第一部分播放格式语音信息，及获取所述预置类型的文本对应的语音文本标识；

在所述语音交互设备的本地存储中对应地储存所述语音文本标识、第一部分播放格式语音信息，及所述多个部分原始语音信息中除所述第一部分原始语音信息的其它部分原始语音信息。

7.如权利要求1至4任一项所述的方法，其特征在于，所述方法还包括：

如果所述反馈文本非预置类型的文本，向语音交互后台获取所述反馈文本对应的原始语音信息，并根据所述原始语音信息进行语音播放。

8.如权利要求1至4任一项所述的方法，其特征在于，所述预置类型的文本为长度大于预置长度的文本，或所述预置类型的文本为所述语音交互设备中预置的固定文本。

9.一种语音交互设备，其特征在于，包括：

10.如权利要求9所述的语音交互设备，其特征在于，

所述语音获取单元，具体用于根据所述反馈文本确定对应的语音文本标识；在所述语音交互设备的本地存储中，查找所述确定的语音文本标识对应的原始语音信息和/或播放格式语音信息，将所述查找的原始语音信息和/或播放格式语音信息作为所述反馈文本对应的原始语音信息和/或播放格式语音信息。

11.如权利要求10所述的语音交互设备，其特征在于，还包括：

语音信息预置单元，用于接收所述语音交互后台发送的所述预置类型的文本对应的原始语音信息；获取所述预置类型的文本对应的语音文本标识，在所述语音交互设备的本地存储中对应地储存所述语音文本标识及所述接收的原始语音信息。

12.如权利要求9至11任一项所述的语音交互设备，其特征在于，

所述语音获取单元，具体用于从所述语音交互设备的本地存储中获取所述反馈文本对应的第一部分播放格式语音信息，及除第一部分原始语音信息之外的其它部分原始语音信息，所述第一部分播放格式语音信息与所述第一部分原始语音信息相对应；

所述播放单元，具体用于播放所述第一部分播放格式语音信息，及根据所述其它部分原始语音信息进行语音播放。

13.如权利要求12所述的语音交互设备，其特征在于，还包括：

语音信息预置单元，用于接收所述语音交互后台发送的所述预置类型的文本对应的多个部分原始语音信息，及所述多个部分原始语音信息分别对应的位置标识信息；如果某一位置标识信息指示对应部分原始语音信息处于首位，将所述某一位置标识信息对应的部分原始语音信息作为第一部分原始语音信息；将所述第一部分原始语音信息转化为所述第一部分播放格式语音信息，及获取所述预置类型的文本对应的语音文本标识；在所述语音交互设备的本地存储中对应地储存所述语音文本标识、第一部分播放格式语音信息，及所述多个部分原始语音信息中除所述第一部分原始语音信息的其它部分原始语音信息。

14.一种存储介质，其特征在于，所述存储介质储存多条指令，所述指令适于由处理器加载并执行如权利要求1至8任一项所述的语音交互方法。

15.一种终端设备，其特征在于，包括处理器和存储介质，所述处理器，用于实现各个指令；

所述存储介质用于储存多条指令，所述指令用于由处理器加载并执行如权利要求1至8任一项所述的语音交互方法。