CN109903760A

CN109903760A - 语音交互方法、装置和存储介质

Info

Publication number: CN109903760A
Application number: CN201910000681.4A
Authority: CN
Inventors: 陈果果; 牛飞; 王芃; 潘向; 胡文波
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Baidu Online Network Technology Beijing Co Ltd; Shanghai Xiaodu Technology Co Ltd
Priority date: 2019-01-02
Filing date: 2019-01-02
Publication date: 2019-06-18

Abstract

本发明提供一种语音交互方法、装置和存储介质，该方法包括：接收外设端发送的第一音频并发送给服务器；接收服务器发送的第一响应音频并发送给外设端，以使外设端播放第一响应音频，第一响应音频用于确定终端对应的用户的用户意图；接收外设端发送的第二音频并发送给服务器，第二音频用于表征用户意图；接收服务器发送的第二响应音频并发送给外设端，以使外设端播放第二响应音频，第二响应音频为服务器基于用户意图获取的响应音频。本发明实现了终端和服务器之间的多轮语音交互，丰富了外设端与终端的交互功能，提高了用户体验。

Description

语音交互方法、装置和存储介质

技术领域

本发明涉及语音交互技术领域，尤其涉及一种语音交互方法、装置和存储介质。

背景技术

蓝牙(Bluetooth)是一种无线技术标准，可实现固定设备、移动设备和楼宇个人域网之间的短距离数据交换；终端与蓝牙设备进行连接后，根据蓝牙设备的品类，可对蓝牙设备进行对应的操作；如蓝牙设备为蓝牙音箱时，终端可以通过蓝牙设备播放音乐。

现有技术中，终端与蓝牙设备之间的交互功能单一，不符合目前设备智能化的方向，用户体验差。

发明内容

本发明提供一种语音交互方法、装置和存储介质，实现了终端和服务器之间的多轮语音交互，丰富了外设端与终端的交互功能，提高了用户体验。

本发明的第一方面提供以一种语音交互方法，应用于终端，包括：

接收外设端发送的第一音频并发送给服务器；

接收所述服务器发送的第一响应音频并发送给所述外设端，以使所述外设端播放所述第一响应音频，所述第一响应音频用于确定所述终端对应的用户的用户意图；

接收所述外设端发送的第二音频并发送给所述服务器，所述第二音频用于表征所述用户意图；

接收所述服务器发送的第二响应音频并发送给所述外设端，以使所述外设端播放所述第二响应音频，所述第二响应音频为所述服务器基于所述用户意图获取的响应音频。

可选的，所述第一响应音频用于请求确定所述第一音频的语义，所述第一音频的语义用于表征所述用户意图；

所述第二音频用于表征所述第一音频的语义，所述第二响应音频为所述服务器基于所述第一音频的语义获取的响应音频。

可选的，所述接收外设端发送的第一音频之前，包括：

向所述外设端发送收音指令，所述收音指令用于指示所述外设端开始收音；

接收所述外设端发送的第三音频，若所述第三音频中包含有终端对应的唤醒信息，则所述终端进入唤醒状态。

可选的，所述接收外设端发送的第一音频之前，包括：

接收所述外设端发送的开始收音消息，所述开始收音消息用于指示所述外设端处于唤醒状态，且开始收音。

可选的，所述接收所述外设端发送的第二音频并发送给所述服务器之后，还包括：

接收所述服务器发送的停止发送消息，所述停止发送消息用于指示所述终端停止向所述服务器发送音频，所述停止发送消息是所述服务器在接收到所述第二音频之后的第一预设时长内，未接收到所述终端发送的第四音频时发送的；

向所述外设端发送停止收音消息，所述停止收音消息用于指示所述外设端停止收音。

可选的，所述接收所述服务器发送的第二响应音频并发送给所述外设端之后，还包括：

若在第二预设时长内未接收到所述外设端发送的第四音频，则进入非唤醒状态，并向所述外设端发送非唤醒状态消息。

本发明的第二方面提供一种语音交互方法，应用于外设端，包括：

向终端发送第一音频，以使所述终端向服务器发送所述第一音频，使得所述服务器根据所述第一音频向所述终端返回第一响应音频，所述第一响应音频用于确定所述终端对应的用户的用户意图；

接收所述终端发送的所述第一响应音频，并播放所述第一响应音频；

向所述终端发送第二音频，以使所述终端向所述服务器发送所述第二音频，使得所述服务器向所述终端返回第二响应音频，所述第二音频用于表征所述用户意图；

接收所述终端发送的所述第二响应音频，并播放所述第二响应音频，所述第二响应音频为所述服务器基于所述用户意图获取的响应音频。

对应的，所述第二音频用于表征所述第一音频的语义，所述第二响应音频为所述服务器基于所述第一音频的语义获取的响应音频。

可选的，所述向终端发送第一音频之前，还包括：

接收所述终端发送的收音指令，所述收音指令用于指示所述外设端开始收音；

向所述终端发送第三音频，若所述第三音频中包含有所述终端对应的唤醒信息，则所述终端进入唤醒状态。

可选的，所述向终端发送第一音频之前，还包括：

向所述终端发送开始收音消息，所述开始收音消息用于通知所述终端，所述外设端处于唤醒状态，且开始收音。

可选的，所述向所述终端发送开始收音消息之前，还包括：

收取用户的第一唤醒音频，并进入唤醒状态，所述第一唤醒音频中包含有所述外设端对应的唤醒信息；或者，

接收所述用户对所述唤醒控件的操作指令，并进入唤醒状态，所述外设端上设置有唤醒控件，所述唤醒控件用于触发唤醒所述外设端。

可选的，所述向所述终端发送第二音频之后，还包括：

接收所述终端发送的停止收音消息；

停止收音。

可选的，所述停止收音之后，还包括：

接收所述终端发送的非唤醒状态消息；

若在时间阈值范围内未接收到包含有唤醒信息的第二唤醒音频，则进入休眠状态。

本发明的第三方面提供一种语音交互装置，包括：

第一音频处理模块，用于接收外设端发送的第一音频并发送给服务器；

第一响应音频处理模块，用于接收所述服务器发送的第一响应音频并发送给所述外设端，以使所述外设端播放所述第一响应音频，所述第一响应音频用于确定所述语音交互装置对应的用户的用户意图；

第二音频处理模块，用于接收所述外设端发送的第二音频并发送给所述服务器，所述第二音频用于表征所述用户意图；

第二响应音频处理模块，用于接收所述服务器发送的第二响应音频并发送给所述外设端，以使所述外设端播放所述第二响应音频，所述第二响应音频为所述服务器基于所述用户意图获取的响应音频。

可选的，所述第一响应音频用于请求确定所述第一音频的语义，所述第一音频的语义用于表征所述用户意图；所述第二音频用于表征所述第一音频的语义，所述第二响应音频为所述服务器基于所述第一音频的语义获取的响应音频。

可选的，所述装置还包括：收音指令发送模块和第三音频接收模块；

所述收音指令发送模块，用于向所述外设端发送收音指令，所述收音指令用于指示所述外设端开始收音；

所述第三音频接收模块，用于接收所述外设端发送的第三音频，若所述第三音频中包含有语音交互装置对应的唤醒信息，则所述语音交互装置进入唤醒状态。

可选的，所述装置还包括：开始收音消息接收模块；

所述开始收音消息接收模块，用于接收所述外设端发送的开始收音消息，所述开始收音消息用于指示所述外设端处于唤醒状态，且开始收音。

可选的，所述装置还包括：停止收音模块；

所述停止收音模块，用于接收所述服务器发送的停止发送消息，所述停止发送消息用于指示所述语音交互装置停止向所述服务器发送音频，所述停止发送消息是所述服务器在接收到所述第二音频之后的第一预设时长内，未接收到所述语音交互装置发送的第四音频时发送的；向所述外设端发送停止收音消息，所述停止收音消息用于指示所述外设端停止收音。

可选的，可选的，所述装置还包括：非唤醒状态消息发送模块；

所述非唤醒状态消息发送模块，用于若在第二预设时长内未接收到所述外设端发送的第四音频，则进入非唤醒状态，并向所述外设端发送非唤醒状态消息。

本发明的第四方面提供一种语音交互装置，包括：

第一音频发送模块，用于向终端发送第一音频，以使所述终端向服务器发送所述第一音频，使得所述服务器根据所述第一音频向所述终端返回第一响应音频，所述第一响应音频用于确定所述终端对应的用户的用户意图；

播放模块，用于接收所述终端发送的所述第一响应音频，并播放所述第一响应音频；

第二音频发送模块，用于向所述终端发送第二音频，以使所述终端向所述服务器发送所述第二音频，使得所述服务器向所述终端返回第二响应音频，所述第二音频用于表征所述用户意图；

所述播放模块，还用于接收所述终端发送的所述第二响应音频，并播放所述第二响应音频，所述第二响应音频为所述服务器基于所述用户意图获取的响应音频。

所述装置还包括：第三音频发送模块；

可选的，所述装置还包括：第三音频发送模块；

所述第三音频发送模块，用于接收所述终端发送的收音指令，所述收音指令用于指示所述语音交互装置开始收音；向所述终端发送第三音频，若所述第三音频中包含有所述终端对应的唤醒信息，则所述终端进入唤醒状态。

可选的，所述装置还包括：开始收音消息模块；

所述开始收音消息模块，用于向所述终端发送开始收音消息，所述开始收音消息用于通知所述终端，所述语音交互装置处于唤醒状态，且开始收音。

可选的，所述装置还包括：唤醒模块；

所述唤醒模块，用于收取用户的第一唤醒音频，并进入唤醒状态，所述第一唤醒音频中包含有所述语音交互装置对应的唤醒信息；或者，接收所述用户对所述唤醒控件的操作指令，并进入唤醒状态，所述语音交互装置上设置有唤醒控件，所述唤醒控件用于触发唤醒所述语音交互装置。

可选的，所述装置还包括：停止收音模块；

所述停止收音模块，用于接收所述终端发送的停止收音消息；停止收音。

可选的，所述装置还包括：休眠模块；

所述休眠模块，用于接收所述终端发送的非唤醒状态消息；若在时间阈值范围内未接收到包含有唤醒词的第二唤醒音频，则进入休眠状态。

本发明的第五方面提供一种终端，包括：至少一个处理器和存储器；

所述存储器存储计算机执行指令；

所述至少一个处理器执行所述存储器存储的计算机执行指令，使得所述终端执行上述第一方面的语音交互方法。

本发明的第六方面提供一种外设端，包括：至少一个处理器和存储器；

所述存储器存储计算机执行指令；

所述至少一个处理器执行所述存储器存储的计算机执行指令，使得所述外设端执行上述第二方面的语音交互方法。

本发明的第七方面提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机执行指令，当所述计算机执行指令被处理器执行时，实现上述第一方面的语音交互方法。

本发明的第八方面提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机执行指令，当所述计算机执行指令被处理器执行时，实现上述第二方面的语音交互方法。

附图说明

图1为本发明提供的语音交互方法适用的场景示意图；

图2为本发明提供的语音交互方法的流程示意图一；

图3为本发明提供的语音交互方法的流程示意图二；

图4为本发明提供的语音交互方法的流程示意图三；

图5为本发明提供的终端的界面示意图；

图6为本发明提供的语音交互方法的流程示意图四；

图7为本发明提供的一语音交互装置的结构示意图一；

图8为本发明提供的一语音交互装置的结构示意图二；

图9为本发明提供的一语音交互装置的结构示意图三；

图10为本发明提供的又一语音交互装置的结构示意图一；

图11为本发明提供的又一语音交互装置的结构示意图二；

图12为本发明提供的又一语音交互装置的结构示意图三。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明的实施例，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

现有的技术中的蓝牙外设端多种多样，如蓝牙耳机、蓝牙音箱、蓝牙键盘、运动手环等，这些蓝牙外设端在使用前，需要与终端建立蓝牙连接；示例性的，蓝牙音箱与终端建立的蓝牙连接的过程为：长按蓝牙音箱的电源键，使得蓝牙音箱打开，在终端上搜索蓝牙音箱的名称，输入配对密码，则可建立蓝牙连接。

在建立连接后，终端可以通过蓝牙音箱播放终端上的歌曲或者其他音频，该音频可以是存储在终端的本地文件夹中的，也可以是终端与服务器交互获取的即时音频；终端将需要播放的文件发送给蓝牙音箱，蓝牙音箱即能播放文件对应的音频。

但现有技术中终端与蓝牙外设端之间的交互功能过于单一，只能够实现在终端的控制下被动播放，不能与用户进行交互，用户体验差；且现有技术中能够与用户进行交互的设备为智能设备，其前提是可以与服务器建立连接，外设端的配置成本高。

正是为了解决上述终端与蓝牙外设端之间的交互功能过于单一的问题，且在丰富二者之间的交互功能的同时，降低蓝牙外设端的配置成本；本发明提供了一种语音交互方式。图1为本发明提供的语音交互方法适用的场景示意图，如图1所示，本发明提供的语音交互方法的适用的场景中包括：外设端、终端和服务器。

其中，外设端可以与终端建立蓝牙连接，具体的该蓝牙连接可以是现有技术中的基于经典蓝牙的数据通信，在终端的***设置界面引导用户选择指定设备并完成配对；或者，终端可以与外设端建立智能蓝牙(DuerOS Mobile Accessories，DMA)连接，示例性的，终端在想要与外设端建立DMA连接时，可以直接在终端的应用程序的界面完成外设端的扫描、配对和连接，不需要返回到终端的***设置界面进行设置，再到应用程序的界面完成连接。对应的，本实施例中建立普通蓝牙连接时，外设端为普通的蓝牙设备；在终端与之建立DMA连接时，外设端为DMA设备，即支持DMA蓝牙协议的设备。具体的，当终端与外设端建立的是普通蓝牙连接时，具体的方式可以参照现有技术中的蓝牙连接方式；终端与外设端建立的是DMA连接的过程，具体在下述实施例中进行说明。

本发明中的终端和服务器之间可以为无线连接或者有线连接，本发明中的终端可以为手机、个人数字助理(Personal Digital Assistant，PDA)、平板电脑、便携设备(例如，便携式计算机、袖珍式计算机或手持式计算机)等移动设备；也可以是台式计算机等固定设备。

下面从外设端、终端和服务器之间交互的角度，对本发明提供的语音交互方法进行说明，图2为本发明提供的语音交互方法的流程示意图一，如图2所示，本实施例提供的语音交互方法可以包括：

S201，外设端向终端发送第一音频。

本实施例中的外设端具有收音功能，具体的，外设端可以为具有麦克Mic的车载支架，具有收音功能的蓝牙音箱、蓝牙耳机、发光二极管(Light-Emitting Diode，LED)灯、闹钟等设备。终端与外设端建立蓝牙连接或者DMA连接后，在用户有语音交互需求时，如用户想要询问天气、播放歌曲时，可以唤醒外设端或者终端，使得外设端和终端进行交互，传输收取到的音频或者响应音频；或者，外设端一直处于收音状态，只要能够收取到音频，即可将收取到的音频发送给终端。

第一种情况下，需要唤醒终端和外设端，下面对终端和外设端的唤醒方式做简要说明。

其中，唤醒终端的具体方式可以为：终端具有收音功能，预先为终端设置唤醒信息，该唤醒信息可以为唤醒词，在终端收取到包含有终端的唤醒词的音频时，进入唤醒状态；具体的，本实施例中，终端的显示界面上可显示有唤醒控件，在用户通过点击或者其他操作选择唤醒控件后，终端开始收取音频；可以想到的是，用户可以对终端进行设置，如在一天中的预设时间可以进行收音，在该预设时间的预设时长内未检测到收音后，可以自动关闭收音。具体的，当终端进入唤醒状态后，终端可以向外设端发送收音指令，以指示外设端开始收音，在外设端收到该收音指令后，外设端开始收音，并向终端发送第一音频。

其中，唤醒外设端的一种方式为：在外设端上设置有唤醒按钮，用户通过点击或者其他操作对唤醒按钮进行选择，该唤醒按钮用于唤醒外设端，且在外设端唤醒后，向终端发送开始收音消息。

唤醒外设端的再一种方式为：外设端具有预设的唤醒信息，该唤醒信息可以为唤醒词，当外设端收取到用户说出唤醒词或者包含有唤醒词的语句时，终端进入唤醒状态，且向终端发送开始收音消息。

唤醒外设端的再一种方式为：外设端上设置有开关按钮，在用户通过点击或者其他操作对唤醒按钮进行选择后，外设端打开，此时当外设端收取到用户说出外设端唤醒词或者包含有外设端唤醒词的语句时，终端进入唤醒状态，且向终端发送开始收音消息。

唤醒外设端的再一种方式为：终端向外设端发送音频消息，以唤醒外设端，当外设端向终端发送响应消息，即该开始收音消息时，即指示外设端处于唤醒状态。具体的，终端在向外设端发送音频消息之前，也需要进入唤醒状态；其中，终端进入唤醒状态的具体方式可以是用户点击终端界面上设置的唤醒控件，触发唤醒终端，或者，终端收取到用户说出终端的唤醒词或者包含有终端的唤醒词的语句，触发唤醒终端。

本实施例中以唤醒外设端作为实例对唤醒的动作进行示例说明，如外设端的唤醒词为“小度”，则用户说出“小度”或者“小度醒来”的语句时，在外设端收取到该音频后，对该音频进行解析，确定该音频中包含有外设端的唤醒词，则外设端进入唤醒状态。

具体的，当外设端进入唤醒状态后，可以向外设端开始收音消息，且在收音后，向终端发送第一音频。

本实施例中的第一音频可以是外设端接收到收音之后收取的第一段音频，或者是外设端唤醒后收取的第一段音频。具体的，外设端在检测到第一端音频之后的预设时间段内，若未检测到有效音频，则将该第一音频发送给终端。本实施例中外设端可以将收取的音频的音量大小超过阈值音量的音频作为有效音频。可以想到的是，当外设端进入唤醒状态后，若只检测到用户说出的一句话，则外设端将收取到的该一句话对应的音频作为第一音频。

本实施例中，外设端将收取到的第一音频发送给终端，本实施例中在外设端唤醒后或者接收到收音指令后开始收音，收取的音频均为有效音频，以使终端和服务器进行交互，获取该音频对应的响应音频；可以解决外设端未被唤醒或者终端未指示外设端收音时，外设端将收取到的音频发送给终端，占用终端的内存的问题。

S202，终端接收外设端发送的第一音频并发送给服务器。

本实施例中，终端在接收到外设端发送的第一音频后，将第一音频发送至服务器，以获取该第一音频对应的响应音频。

示例性的，第一音频为“北京的天气如何”，外设端将该第一音频发送给终端，终端进一步的将该第一音频“北京的天气如何”发送给服务器，以得到该第一音频的响应数据。

S203，服务器向终端发送的第一响应音频，第一响应音频用于确定终端对应的用户的用户意图。

本实施例中，服务器在接收到终端发送的第一响应音频后，可以对第一音频进行解析，获取第一音频对应的响应音频。具体的，服务器对第一音频进行解析的过程可以为：将第一音频转化为文字，将文字进行切分处理，获取该文字对应的多个词语；再根据每个词语的词性获取目标词语，再根据目标词语对应的用户意图，获取该第一音频对应的响应音频。

本实施例中可以采用切词工具如神经语言程序学(Neuro-LinguisticProgramming，NLP)工具对第一音频对应的文字进行分词处理，获取文字对应的多个词语，如第一音频对应的文字为“北京的天气如何”，采用切词工具将该文字切分成多个词语，具体的切分后的词语可以是“北京”、“的”、“天气”和“如何”。

本实施例中，可选的，可根据获取的多个词语的词性，获取有效信息对应的目标词语，如将切分后的会话消息中的量词、副词、形容词等去掉，获取有效信息对应的目标词语，如名词和动词等，如将上述切分结果中的“如何”和“的”去掉，获取有效信息对应的目标词语，“北京”和“天气”。服务器根据获取的目标词语确定用户意图的是“北京的天气”。

服务器此时虽然能够获取用户的部分意图是获取北京的天气，但并不能确定用户所需求的回答是哪一天的北京的天气，在服务器不确定用户意图时，可以根据第一音频中已经确定的用户意图，向终端返回第一响应音频。示例性的，如服务器向终端发送的第一响应音频为“请问您需要了解哪一天的北京的天气”。

值得注意的是，本实施例中的服务器根据第一音频的对应的文字、用户的情绪和断句，获取用户的意图；如第一音频为用户输入的“放一首抒情歌”，服务器获取用户的意图为“播放抒情歌曲”，服务器可以根据用户的意图为用户推荐多个抒情歌曲的名称，如返回第一响应音频“为您推荐《A》、《B》、《C》和《D》”；用以确定用户意图是播放具体哪首歌曲。

值得注意的是，当第一音频对应的文字为多句文字时，服务器可以先将文字进行分句处理，再对每个子句进行分词处理，再根据每个子句的中目标词语对应的用户意图，获取每个子句对应的响应音频，将第一音频音对应的多个响应音频按照子句在文字中的先后顺序发送给终端。

示例性的，用户的第一音频对应的文字为“去北京有什么好玩的吗？哪里住宿性价比高？”，服务器将文字分隔为两个子句“北京有什么好玩的地方”和“哪里住宿性价比高”。再分别获取每个子句对应的目标词语，如“北京”、“好玩的”、“地方”和“住宿”、“性价比高”，则分别获取每个子句对应的响应音频，如分别为“北京好玩的地方有故宫、长城……”以及“在北京住宿你可以选择xx酒店”。

其中，可以想到的是，当服务器确定部分子句的用户意图，不确定其他部分子句的用户意图时，对于确定用户意图的子句进行响应音频的发送，对于不确定用户意图的子句可以返回第一响应音频，以请求确定第一音频的对应的用户意图。

S204，终端向外设端发送第一响应音频。

本实施例中，起了节省终端的电量或者用户正在使用终端导致终端不方便播放响应音频时，可以在接收到该第一音频的第一响应音频后，将该第一响应音频发送给外设端，由外设端对第一响应音频进行播放。具体的，该种实施方式下，外设端可以为具有音频播放功能的外设端，如蓝牙音箱、运动手环等。

可以想到的是，也可以由终端对接收到的第一响应音频进行播放。

S205，外设端播放第一响应音频。

S206，外设端向终端发送第二音频。

本实施例中，在外设端播放第一响应音频后，用户可以获取服务器发送第一响应音频的语义，因此，针对该第一响应音频，用户可以说出表征用户意图的语句，外设端可以收取到该第二音频的语句，即第二音频，且为了得到对第一音频进行回答的响应音频，则向终端发送该第二音频。

示例性的，在外设端播放第一响应音频“请问您需要了解哪一天的北京的天气”后，外设端收取的第二音频为“明天”，向终端发送该第二音频“明天”。

S207，终端接收外设端发送的第二音频，并向服务器发送第二音频。

本实施例中，在终端接收到第二音频后，且为了得到对第一音频进行回答的响应音频，向服务器发送该第二音频。如向服务器发送该第二音频“明天”

S208，服务器向终端发送第二响应音频。

服务器在接收到第一音频如“北京的天气”后，可以确定用户意图是问北京的天气，且在接收到第二音频“明天”后，由于第二音频可以表征用户意图，因此，服务器可以确定用户意图是“明天北京的天气”。值得注意的是，服务器在接收到第二音频后，可以按照上述对音频的解析方式对第二音频进行解析。

本实施例中，服务器根据确定的第一音频的用户意图，于是服务器可以向用户返回关于明天北京天气的第二响应音频，如“明天北京晴天，气温20度”。且将该第二响应音频发送给终端。

值得注意的是，本实施例中服务器在获取第二音频后可以确定第一音频的语义，进而返回针对第一音频的第二响应音频；在服务器接收到第二音频后，若还不能确定第一音频的用户意图，则可继续向终端发送第二响应音频，此时，该第二响应音频还是用于请求第一音频的用户意图，即本实施例中的服务器、外设端和终端可以进行多轮交互，直至服务器能够获取第一音频的用户意图，向终端发送针对第一音频的用户意图的响应音频。

S209，终端向外设端发送第二响应音频。

本实施例中，终端在接收到第二响应音频后，可以发送给外设端，以使外设端播放该第二响应音频。

可以想到的是，终端在接收到第二响应音频后，也可以由终端对接收到的第二响应音频进行播放。

S210，外设端播放第二响应音频，第二响应音频为服务器基于用户意图获取的响应音频。

本实施例中采用外设端进行收音，相对于现有技术中的终端直接与服务器进行交互获取响应音频的方式；一方面，由于终端的收音效果有限，距离其一定距离可能不能准确收音，或者收音效果差，本实施例中采用外设端如带有Mic的车载支架，其收音效果更好；另一方面，还使得终端与蓝牙设备的交互更为多样化，提高用户体验。

本实施例提供的语音交互方法包括：接收外设端发送的第一音频并发送给服务器；接收服务器发送的第一响应音频并发送给外设端，以使外设端播放第一响应音频，第一响应音频用于确定终端对应的用户的用户意图；接收外设端发送的第二音频并发送给服务器，第二音频用于表征用户意图；接收服务器发送的第二响应音频并发送给外设端，以使外设端播放第二响应音频，第二响应音频为服务器基于用户意图获取的响应音频。本实施例实现了终端和服务器之间的多轮语音交互，丰富了外设端与终端的交互功能，提高了用户体验。

下面对服务器如何获取用户意图的具体过程进行说明，图3为本发明提供的语音交互方法的流程示意图二，如图3所示，本实施例提供的语音交互方法包括：

S301，外设端向终端发送第一音频。

S302，接收外设端发送的第一音频并发送给服务器。

S303，服务器向终端发送的第一响应音频，第一响应音频用于请求确定第一音频的语义。

本实施例中，服务器在接收到终端发送的第一响应音频后，可以对第一音频进行解析，具体的解析过程可参照上述实施例中的S203中的相关描述；本实施例中的第一响应音频用于请求确定第一音频的语义。用户的意图中包括第一音频的语义、语气和情绪等，上述实施例中的用于确定用户意图的第一响应音频还可以是服务器的主动推荐等。

示例性的，如第一音频对应的文字为“北京的天气如何”，采用切词工具将该文字切分成多个词语，具体的切分后的词语可以是“北京”、“的”、“天气”和“如何”。本实施例中，可选的，可根据获取的多个词语的词性，获取有效信息对应的目标词语，如将切分后的会话消息中的量词、副词、形容词等去掉，获取有效信息对应的目标词语，如名词和动词等，如将上述切分结果中的“如何”和“的”去掉，获取有效信息对应的目标词语，“北京”和“天气”。服务器根据获取的目标词语确定第一音频对应的语义是“北京的天气”。

服务器此时虽然能够获取用户需求的是北京的天气，但并不能确定用户所需求的回答是哪一天的北京的天气，在服务器不确定第一音频的语义时，可以根据第一音频中已经确定的语义，向终端返回第一响应音频。示例性的，如服务器向终端发送的第一响应音频为“请问您需要了解哪一天的北京的天气”。

S304，终端向外设端发送第一响应音频。

S305，外设端播放第一响应音频。

S306，外设端向终端发送第二音频。

本实施例中，在外设端播放第一响应音频后，用户可以接收到服务器发送第一响应音频的语义，因此，针对该第一响应音频，用户可以说出表征第一音频的语义的语句，外设端可以收取到该表征第一音频的语义的语句，即第二音频，且为了得到对第一音频进行回答的响应音频，则向终端发送该第二音频。

S307，终端接收外设端发送的第二音频，并向服务器发送第二音频。

S308，服务器向终端发送第二响应音频。

服务器在接收到第一音频如“北京的天气”后，可以确定用户的意图是问北京的天气，且在接收到第二音频“明天”后，由于第二音频可以表征第一音频的语义，因此，服务器可以确定第一音频的语义是“明天北京的天气”。值得注意的是，服务器在接收到第二音频后，可以按照上述对音频的解析方式对第二音频进行解析。

本实施例中，服务器根据确定的第一音频的语义，于是服务器可以向用户返回关于明天北京天气的第二响应音频，如“明天北京晴天，气温30度”。且将该第二响应音频发送给终端。

值得注意的是，本实施例中服务器在获取第二音频后可以确定第一音频的语义，进而返回针对第一音频的第二响应音频；在服务器接收到第二音频后，若还不能确定第一音频的语义，则可继续向终端发送第二响应音频，此时，该第二响应音频还是用于请求第一音频的语义，即本实施例中的服务器、外设端和终端可以进行多轮交互，直至服务器能够获取第一音频的语义，向终端发送针对第一音频的语义的相应音频。

S309，终端向外设端发送第二响应音频。

S310，外设端播放第二响应音频，第二响应音频为服务器确定第一音频的语义时获取的响应音频。

本实施例提供的语音交互方法包括：接收外设端发送的第一音频，并向服务器发送第一音频；接收服务器发送的第一响应音频，第一响应音频用于请求确定第一音频的语义；向外设端发送第一响应音频，以使外设端播放第一响应音频；接收外设端发送的第二音频，并向服务器发送第二音频，第二音频用于表征第一收音的语义；接收服务器发送的第二响应音频，并播放第二响应音频，或者，向外设端发送第二响应音频，以使外设端播放第二响应音频，第二响应音频为服务器确定第一音频的语义时获取的响应音频。本实施例实现了终端和服务器之间的多轮语音交互，丰富了外设端与终端的交互功能，提高了用户体验。

本发明中，在进行上述语音交互之前，需要对终端或者外设端进行唤醒，下述实施例中对如何唤醒终端或者外设端进行详细说明。

在上述实施例的基础上，下面结合图4对本发明提供的语音交互方法中如何唤醒终端进行说明，图4为本发明提供的语音交互方法的流程示意图三，如图4所示，本实施例提供的语音交互方法可以包括：

S401，终端与外设端建立DMA连接。

现有技术中，终端与外设蓝牙设备之间建立蓝牙连接为：终端通过现有的蓝牙扫描方式，即蓝牙低功耗(Bluetooth Low Energy，ble)扫描获取可以连接的蓝牙设备，与蓝牙设备间先建立ble连接；该连接建立后，蓝牙设备向终端返回响应消息，该响应消息指示终端可以通过支持rfcomm协议的rfcomm链路进行与蓝牙设备的连接，终端在收到该响应消息后断开与蓝牙设备的ble连接，重新通过rfcomm链路与蓝牙设备进行连接。现有技术中的连接方式会导致ble链路正常状态下，影响进行rfcomm连接的成功率和速度。

本实施例中的外设端为支持DMA协议的外设端，具体的，本实施例中对终端与外设端建立DMA连接方式做简要说明：终端在扫描的过程中，支持DMA协议的DMA外设端向终端发送广播包，该广播包中包含有指示该外设端支持DMA连接的标识信息，则终端直接通过rfcomm链路与外设端进行连接，解决了现有技术中的ble链路正常状态下，影响进行rfcomm连接的成功率和速度的问题。

S402，终端向外设端发送收音指令，收音指令用于指示外设端开始收音。

本实施例中的外设端具有收音功能，具体的，外设端可以为具有麦克Mic的车载支架，具有收音功能的蓝牙音箱、蓝牙耳机、发光二极管(Light-Emitting Diode，LED)灯等设备。

终端与外设端建立蓝牙连接或者DMA连接后，用户有语音交互需求时，如用户想要询问天气、播放歌曲时，可以在终端的界面上进行操作，以触发终端向外设端发送收音指令。图5为本发明提供的终端的界面示意图，如图5所示，终端在与外设端建立连接后，可在终端界面上显示外设端的名称，如外设端A；以及“开始收音”控件，用户通过点击或者其他操作选择该“开始收音”控件，以触发终端向外设端发送收音指令，具体的，该收音指令用于指示外设端开始收音。

S403，终端接收外设端发送的第三音频，若第三音频中包含有终端对应的唤醒词，则终端进入唤醒状态。

本实施例中，终端对接收到外设端发送的第三音频进行解析，具体的，该解析过程可以为：终端将获取的第三音频采用现有技术中的转换方式转换为文字。

终端判断接收到的第三音频是否有预设唤醒词，该唤醒词用于唤醒终端，具体的，是唤醒终端与服务器之间的交互。对应的，终端判断第三音频对应的文字中是否有唤醒词。在终端确定第三音频中有唤醒词时，即进入唤醒状态，即终端可以将携带有唤醒词的第三音频之后的音频发送给服务器。

示例性的，唤醒词为“小度”，则第三音频对应的文字中具有“小度”时，终端确定该第三音频中携带有唤醒词“小度”，则终端进入唤醒状态。

S404，外设端向终端发送第一音频。

S405，终端接收外设端发送的第一音频，并向服务器发送第一音频。

S406，服务器向终端发送的第一响应音频，第一响应音频用于确定终端对应的用户的用户意图。

可选的，本实施例中的第一响应音频用于请求确定第一音频的语义。

S407，终端向外设端发送第一响应音频。

S408，外设端播放第一响应音频。

S409，外设端向终端发送第二音频。

可选的，本实施例中的第二音频用于表征第一音频的语义。

S410，终端接收外设端发送的第二音频，并向服务器发送第二音频。

S411，终端接收服务器发送的停止发送消息，停止发送消息用于指示终端停止向服务器发送音频。

本实施例中，服务器中设置有第一预设时长，服务器在接收到终端发送的第二音频后，第一预设时间内若未再接收到终端发送的第四音频，则确定用户说话完毕，则根据第二音频获取对应的响应音频，且向终端发送停止发送消息，其中，停止发送消息用于指示终端停止向服务器发送音频。具体的，终端在接收到服务器发送的停止发送消息后，不再向服务器发送新的音频。

S412，向外设端发送停止收音消息，停止收音消息用于指示外设端停止收音。

本实施例中的外设端为可控收音的外设端，终端在接收到服务器发送的停止发送消息后，可以向外设端发送停止收音消息，以便外设端停止收音，以减少外设端的功耗。

S413，外设端停止收音。

S414，服务器向终端发送第二响应音频。

可选的，第二响应音频为服务器基于第一音频的语义获取的响应音频。

S415，终端向外设端发送第二响应音频。

S416，外设端播放第二响应音频。

S417，终端若在第二预设时长内未接收到外设端发送的第四音频，则进入非唤醒状态，并向外设端发送非唤醒状态消息。

本实施例中，终端中存储有第二预设时长，在终端在接收服务器发送的第二响应音频后的第二预设时长内，若未接收到外设端发送的第四音频，即新的音频，则确定用户没有新的语音交互的需求，则终端进入非唤醒状态，具体的还向外设端发送非唤醒状态消息。本实施例中的终端由于是被唤醒的终端，终端进入非唤醒状态可以是终端进入休眠状态。具体的，终端进入的非唤醒状态可以是进入节电模式，以便在没有语音交互的情况下，减少终端功耗。

S418，外设端接收终端发送的非唤醒状态消息；若在时间阈值范围内未收取到包含有唤醒词的第二唤醒音频，则进入休眠状态。

本实施例中，外设端在接收到终端发送的非唤醒状态消息后，确定终端的语音交互已经完成；具体的，在接收到该非唤醒状态消息后的时间阈值范围内，若外设端未收取到包含有唤醒词的第二唤醒音频，则确定用户没有语音交互的需求，则进入休眠状态。

具体的，本实施例中的S404-S410、S414-S416中的实施方式具体可参照上述实施例中的S301-S307、S308-S310中的相关描述，在此不作限制。

本实施例中的终端与外设端建立DMA连接，解决了现有技术中的ble链路正常状态下，影响进行rfcomm连接的成功率和速度的问题；本实施例中终端在进入唤醒状态后，可以实现与服务器的多轮交互，丰富了外设端与终端的交互功能，提高了用户体验；进一步的，终端若在第二预设时长内未接收到外设端发送的音频，则进入非唤醒状态，且外设端在时间阈值范围内未接收到包含有唤醒词的唤醒音频，则进入休眠状态，以便在没有语音交互的情况下，减少终端和外设端的功耗。且进一步的，本实施例实现了快速语音交互，即在唤醒终端后即可开始输入语音需求，进一步提高了用户体验。

下面结合图6对本发明提供的语音交互方法中的唤醒外设端的方法进行说明，图6为本发明提供的语音交互方法的流程示意图四，如图6所示，本实施例提供的语音交互方法可以包括：

S601，终端与外设端建立DMA连接。

S602，外设端进入唤醒状态。

本实施例中，外设端可以为控件唤醒，也可以是唤醒词唤醒。

其中，在终端和外设端建立DMA连接后，用户想要进行语音交互，则用户说出外设端的唤醒词，或者说出包含有唤醒词的语句，以唤醒外设端。其中，第一唤醒音频为包含有外设端对应的唤醒词的音频，在外设端收取到第一唤醒音频后，进入唤醒状态。

示例性的，如外设端的唤醒词为“小度”，则用户说出“小度”或者“小度醒来”的语句时，在外设端收取到该第一唤醒音频后，确定该音频中包含有外设端的唤醒词，外设端进入唤醒状态。

或者，本实施例中，外设端上设置有唤醒控件，唤醒控件用于触发唤醒外设端；当用户有语音交互的需求时，通过终端与外设端建立DMA连接，在建立DMA连接之后，用户通过点击或者其他操作对唤醒控件进行选择，该唤醒控件用于触发唤醒外设端，外设端接收用户对唤醒控件的操作指令后进入唤醒状态。

值得注意的是，外设端上设置的唤醒控件可以是机械按钮，也可以是外设端显示界面上显示的唤醒控件。

S603，终端接收外设端发送的开始收音消息，开始收音消息用于指示外设端处于唤醒状态，且开始收音。

S604，外设端向终端发送第一音频。

S605，终端接收外设端发送的第一音频，并向服务器发送第一音频。

S606，服务器向终端发送的第一响应音频。

S607，终端向外设端发送第一响应音频。

S608，外设端播放第一响应音频。

S609，外设端向终端发送第二音频。

S610，终端接收外设端发送的第二音频，并向服务器发送第二音频。

S611，终端接收服务器发送的停止发送消息，停止发送消息用于指示终端停止向服务器发送音频。

S612，向外设端发送停止收音消息，停止收音消息用于指示外设端停止收音

S613，外设端停止收音。

S614，服务器向终端发送第二响应音频。

S615，终端向外设端发送第二响应音频。

S616，外设端播放第二响应音频。

S617，终端若在第二预设时长内未接收到外设端发送的第四音频，则进入非唤醒状态，并向外设端发送非唤醒状态消息。

S618，外设端接收终端发送的非唤醒状态消息；若在时间阈值范围内未接收到包含有唤醒词的第二唤醒音频，则进入休眠状态。

具体的，本实施例中的S601、S605-S618中的实施方式具体可参照上述实施例中的S501、S505-S518中的相关描述，在此不作限制。

本实施例中，由外设端进入唤醒状态后，发起语音交互，实现了终端与服务器的多轮交互，丰富了外设端与终端的交互功能，提高了用户体验。

图7为本发明提供的一语音交互装置的结构示意图一，如图7所示，该语音交互装置700包括：第一音频处理模块701、第一响应音频处理模块702、第二音频处理模块703和第二响应音频处理模块704。

第一音频处理模块701，用于接收外设端发送的第一音频并发送给服务器。

第一响应音频处理模块702，用于接收服务器发送的第一响应音频并发送给外设端，以使外设端播放第一响应音频，第一响应音频用于确定语音交互装置对应的用户的用户意图。

第二音频处理模块703，用于接收外设端发送的第二音频并发送给服务器，第二音频用于表征用户意图。

第二响应音频处理模块704，用于接收服务器发送的第二响应音频并发送给外设端，以使外设端播放第二响应音频，第二响应音频为服务器基于用户意图获取的响应音频。

本实施例提供的语音交互装置与上述语音交互方法实现的原理和技术效果类似，在此不作赘述。

可选的，图8为本发明提供的一语音交互装置的结构示意图二，如图8所示，该语音交互装置700包括：收音指令发送模块705、第三音频接收模块706、开始收音消息接收模块707、停止收音模块708和非唤醒状态消息发送模块709。

收音指令发送模块705，用于向外设端发送收音指令，收音指令用于指示外设端开始收音。

第三音频接收模块706，用于接收外设端发送的第三音频，若第三音频中包含有语音交互装置对应的唤醒信息，则语音交互装置进入唤醒状态。

开始收音消息接收模块707，用于接收外设端发送的开始收音消息，开始收音消息用于指示外设端处于唤醒状态，且开始收音。

停止收音模块708，用于接收服务器发送的停止发送消息，停止发送消息用于指示语音交互装置停止向服务器发送音频，停止发送消息是服务器在接收到第二音频之后的第一预设时长内，未接收到语音交互装置发送的第四音频时发送的；向外设端发送停止收音消息，停止收音消息用于指示外设端停止收音。

非唤醒状态消息发送模块709，用于若在第二预设时长内未接收到外设端发送的第四音频，则进入非唤醒状态，并向外设端发送非唤醒状态消息。

可选的，第一响应音频用于请求确定第一音频的语义，第一音频的语义用于表征用户意图；第二音频用于表征第一音频的语义，第二响应音频为服务器基于第一音频的语义获取的响应音频。

图9为本发明提供的一语音交互装置的结构示意图三，如图9所示，该语音交互装置900包括：存储器901和至少一个处理器902。

存储器901，用于存储程序指令。

处理器902，用于在程序指令被执行时实现本实施例中的语音交互方法，具体实现原理可参见上述实施例，本实施例此处不再赘述。

该语音交互装置900还可以包括及输入/输出接口904。

输入/输出接口904可以包括独立的输出接口和输入接口，也可以为集成输入和输出的集成接口。其中，输出接口用于输出数据，输入接口用于获取输入的数据，上述输出的数据为上述方法实施例中输出的统称，输入的数据为上述方法实施例中输入的统称。

本发明还提供一种可读存储介质，可读存储介质中存储有执行指令，当语音交互装置的至少一个处理器执行该执行指令时，当计算机执行指令被处理器执行时，实现上述实施例中的语音交互方法。

本发明还提供一种程序产品，该程序产品包括执行指令，该执行指令存储在可读存储介质中。语音交互装置的至少一个处理器可以从可读存储介质读取该执行指令，至少一个处理器执行该执行指令使得语音交互装置实施上述的各种实施方式提供的语音交互方法。

图10为本发明提供的又一语音交互装置的结构示意图一，该语音交互装置为外设端，如图10所示，该语音交互装置1000包括：第一音频发送模块1001、播放模块1002和第二音频发送模块1003。

第一音频发送模块1001，用于向终端发送第一音频，以使终端向服务器发送第一音频，使得服务器根据第一音频向终端返回第一响应音频，第一响应音频用于确定终端对应的用户的用户意图。

播放模块1002，用于接收终端发送的第一响应音频，并播放第一响应音频。

第二音频发送模块1003，用于向终端发送第二音频，以使终端向服务器发送第二音频，使得服务器向终端返回第二响应音频，第二音频用于表征用户意图。

播放模块1002，还用于接收终端发送的第二响应音频，并播放第二响应音频，第二响应音频为服务器基于用户意图获取的响应音频。

可选的，图11为本发明提供的又一语音交互装置的结构示意图二，如图11所示，该语音交互装置1000包括：第三音频发送模块1004、开始收音消息模块1005、唤醒模块1006、停止收音模块1007和休眠模块1008。

第三音频发送模块1004，用于接收终端发送的收音指令，收音指令用于指示语音交互装置开始收音；向终端发送第三音频，若第三音频中包含有终端对应的唤醒信息，则终端进入唤醒状态。

开始收音消息模块1005，用于向终端发送开始收音消息，开始收音消息用于通知终端，语音交互装置处于唤醒状态，且开始收音。

唤醒模块1006，用于收取用户的第一唤醒音频，并进入唤醒状态，第一唤醒音频中包含有语音交互装置对应的唤醒信息；或者，接收用户对唤醒控件的操作指令，并进入唤醒状态，语音交互装置上设置有唤醒控件，唤醒控件用于触发唤醒语音交互装置。

停止收音模块1007，用于接收终端发送的停止收音消息；停止收音。

休眠模块1008，用于接收终端发送的非唤醒状态消息；若在时间阈值范围内未接收到包含有唤醒词的第二唤醒音频，则进入休眠状态。

图12为本发明提供的又一语音交互装置的结构示意图三，如图12所示，该语音交互装置1200包括：存储器1201和至少一个处理器1202。

存储器1201，用于存储程序指令。

处理器1202，用于在程序指令被执行时实现本实施例中的语音交互方法，具体实现原理可参见上述实施例，本实施例此处不再赘述。

该语音交互装置1200还可以包括及输入/输出接口1203。

输入/输出接口1203可以包括独立的输出接口和输入接口，也可以为集成输入和输出的集成接口。其中，输出接口用于输出数据，输入接口用于获取输入的数据，上述输出的数据为上述方法实施例中输出的统称，输入的数据为上述方法实施例中输入的统称。

在本发明所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(英文：processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(英文：Read-Only Memory，简称：ROM)、随机存取存储器(英文：Random Access Memory，简称：RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

在上述网络设备或者终端设备的实施例中，应理解，处理器可以是中央处理单元(英文：Central Processing Unit，简称：CPU)，还可以是其他通用处理器、数字信号处理器(英文：Digital Signal Processor，简称：DSP)、专用集成电路(英文：ApplicationSpecific Integrated Circuit，简称：ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种语音交互方法，应用于终端，其特征在于，包括：

接收外设端发送的第一音频并发送给服务器；

2.根据权利要求1所述的方法，其特征在于，

所述第一响应音频用于请求确定所述第一音频的语义，所述第一音频的语义用于表征所述用户意图；

3.根据权利要求1所述的方法，其特征在于，所述接收外设端发送的第一音频之前，包括：

4.根据权利要求1所述的方法，其特征在于，所述接收外设端发送的第一音频之前，包括：

5.根据权利要求1-4任一项所述的方法，其特征在于，所述接收所述外设端发送的第二音频并发送给所述服务器之后，还包括：

接收所述服务器发送的停止发送消息，所述停止发送消息用于指示所述终端停止向所述服务器发送音频；所述服务器在接收到所述第二音频之后的第一预设时长内未接收到所述终端发送的第四音频时，发送所述停止发送消息；

6.根据权利要求3或4所述的方法，其特征在于，所述接收所述服务器发送的第二响应音频并发送给所述外设端之后，还包括：

7.一种语音交互方法，应用于外设端，其特征在于，包括：

8.根据权利要求7所述的方法，其特征在于，

9.根据权利要求7所述的方法，其特征在于，所述向终端发送第一音频之前，还包括：

10.根据权利要求7所述的方法，其特征在于，所述向终端发送第一音频之前，还包括：

11.根据权利要求10所述的方法，其特征在于，所述向所述终端发送开始收音消息之前，还包括：

12.根据权利要求7-11任一项所述的方法，其特征在于，所述向所述终端发送第二音频之后，还包括：

接收所述终端发送的停止收音消息；

停止收音。

13.根据权利要求12所述的方法，其特征在于，所述停止收音之后，还包括：

接收所述终端发送的非唤醒状态消息；

14.一种语音交互装置，其特征在于，包括：

15.一种语音处理装置，其特征在于，包括：

第一响应音频处理模块，用于接收所述终端发送的所述第一响应音频，并播放所述第一响应音频；

第二响应音频处理模块，用于接收所述终端发送的所述第二响应音频，并播放所述第二响应音频，所述第二响应音频为所述服务器基于所述用户意图获取的响应音频。

16.一种终端，其特征在于，包括：至少一个处理器和存储器；

所述存储器存储计算机执行指令；

所述至少一个处理器执行所述存储器存储的计算机执行指令，使得所述终端执行权利要求1-6任一项所述的方法。

17.一种外设端，其特征在于，包括：至少一个处理器和存储器；

所述存储器存储计算机执行指令；

所述至少一个处理器执行所述存储器存储的计算机执行指令，使得所述外设端执行权利要求7-13任一项所述的方法。

18.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机执行指令，当所述计算机执行指令被处理器执行时，实现权利要求1-6任一项所述的方法。

19.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机执行指令，当所述计算机执行指令被处理器执行时，实现权利要求7-13任一项所述的方法。