CN110322873B

CN110322873B - 语音技能的退出方法、装置、设备及存储介质

Info

Publication number: CN110322873B
Application number: CN201910587670.0A
Authority: CN
Inventors: 唐欢; 周晓; 武良呈
Original assignee: Baidu Online Network Technology Beijing Co Ltd; Shanghai Xiaodu Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd; Shanghai Xiaodu Technology Co Ltd
Priority date: 2019-07-02
Filing date: 2019-07-02
Publication date: 2022-03-01
Anticipated expiration: 2039-07-02
Also published as: JP7053693B2; US20210005193A1; US11580974B2; JP2021009350A; CN110322873A

Abstract

本发明实施例提供一种语音技能的退出方法、装置、设备及存储介质，通过接收用户语音指令；根据所述用户语音指令与预设退出意图的文法规则，识别所述用户语音指令对应的目标退出意图；根据所述目标退出意图对设备当前语音技能进行对应操作。本发明实施例将用户的退出意图进行细化扩展，通过识别用户语音指令所属于的目标退出意图后，根据目标退出意图进行对应的操作，从而更符合用户对语音技能的不同退出需求，提升用户与设备交互的流畅性和便捷性，提升用户在使用语音技能时的退出体验。

Description

语音技能的退出方法、装置、设备及存储介质

技术领域

本发明涉及通信技术领域，尤其涉及一种语音技能的退出方法、装置、设备及存储介质。

背景技术

近年来，随着人工智能的迅速发展，智能语音技术被广泛应用到智能音箱、智能机顶盒等各种智能设备中，智能设备语音交互也成为了吸引消费者的重要因素之一。在智能语音技术领域中，语音技能是特指一项通过语音提供的一个功能或一种服务，比如“查看天气”是一项语音技能，“听音乐”也是一项技能。因此，语音技能是对语音功能的一种抽象，将众多分散的语音功能抽象为不同种类的语音技能。

现有技术中，当用户需要退出语音技能时，需要明确说出退出哪一语音技能，才能由智能设备识别、并执行退出语音技能的操作。而在实际应用过程中，可能存在用户并不会明确说出退出哪一语音技能、或者用户并不知道语音技能的名称等复杂的情况，导致智能设备无法准确识别出用户的退出意图，无法满足用户对语音技能的退出需求，导致语音交互流畅性较差，影响用户在使用语音技能时的退出体验。

发明内容

本发明实施例提供一种语音技能的退出方法、装置、设备及存储介质，以符合用户对语音技能的不同退出需求，提升用户与设备交互的流畅性和便捷性，提升用户在使用语音技能时的退出体验。

本发明实施例的第一方面是提供一种语音技能的退出方法，包括：

接收用户语音指令；

根据所述用户语音指令与预设退出意图的文法规则，识别所述用户语音指令对应的目标退出意图；

根据所述目标退出意图对设备当前语音技能进行对应操作。

本发明实施例的第二方面是提供一种语音技能的退出装置，包括：

接收模块，用于接收用户语音指令；

意图识别模块，用于根据所述用户语音指令与预设退出意图的文法规则，识别所述用户语音指令对应的目标退出意图；

执行模块，用于根据所述目标退出意图对设备当前语音技能进行对应操作。

本发明实施例的第三方面是提供一种语音技能的退出设备，包括：

存储器；

处理器；以及

计算机程序；

其中，所述计算机程序存储在所述存储器中，并被配置为由所述处理器执行以实现如第一方面所述的方法。

本发明实施例的第四方面是提供一种计算机可读存储介质，其上存储有计算机程序；

所述计算机程序被处理器执行时实现如第一方面所述的方法。

本发明实施例提供的语音技能的退出方法、装置、设备及存储介质，通过接收用户语音指令；根据所述用户语音指令与预设退出意图的文法规则，识别所述用户语音指令对应的目标退出意图；根据所述目标退出意图对设备当前语音技能进行对应操作。本发明实施例将用户的退出意图进行细化扩展，通过识别用户语音指令所属于的目标退出意图后，根据目标退出意图进行对应的操作，从而更符合用户对语音技能的不同退出需求，提升用户与设备交互的流畅性和便捷性，提升用户在使用语音技能时的退出体验。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的语音技能的退出方法流程图；

图2为本发明实施例提供的语音技能的退出装置的结构图；

图3为本发明实施例提供的语音技能的退出设备的结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明实施例提供的语音技能的退出方法流程图。本实施例提供了一种语音技能的退出方法，该方法具体步骤如下：

S101、接收用户语音指令。

在本实施例中，可通过设备上的麦克风采集用户的语音，获取用户语音指令，具体的，可通过语音识别技术(Automatic Speech Recognition，ASR)等技术实现将语音转换文本，从而得到用户语音指令。

S102、根据所述用户语音指令与预设退出意图的文法规则，识别所述用户语音指令对应的目标退出意图。

在本实施例中，可以预先根据不同的情况将退出意图划分为不同的种类，例如退出意图包括关机意图、明确退出意图、模糊退出意图中的至少一种，对于不同的退出意图需要进行对应的操作，其中关机意图为用户语音指令中明确表示需要对设备进行关机，例如用户语音指令为“关机吧”，其对应的操作为对设备进行关机；而明确退出意图为用户语音指令中明确表示需要退出设备当前语音技能(当前功能或当前服务)，例如用户语音指令为“退出吧”，其对应的操作为退出设备当前语音技能；模糊退出意图为具有退出、停止等意图、且用户语音指令中并没有明确表示需要退出设备当前语音技能，例如“我要睡觉/洗澡/工作了”、“我不玩了”、“停止吧”，由于模糊退出意图的用户语音指令中并没有明确表示需要退出设备当前语音技能，其对应的操作则相对于关机意图、明确退出意图更复杂，需要根据设备当前语音技能、场景等多种因素来具体分析，例如可由设备当前语音技能响应用户语音指令、或者暂停设备当前语音技能、或者退出设备当前语音技能等。

本实施例中对于不同的预设退出意图，分别配置不同的文法规则，进而可将用户语音指令与各预设退出意图的文法规则进行匹配，从而识别用户语音指令对应的目标退出意图。例如，关机意图的文法规则：“【关机/关机关机】啊/吧/啦/呀/哇/了”、或者“【关闭/关掉/关了/关/关机】+【设备/音箱/小度在家/小度音箱】啊/吧/啦/呀/哇/了”，文法规则中包括一些关键词，可将用户语音指令与文法规则进行匹配，当用户语音指令包括某一文法规则的所有关键词，则说明与该文法规则向匹配，进而可以确定该文法规则对应的预设退出意图为用户语音指令对应的目标退出指令。此外，在匹配过程中也可将用户语音指令进行分词，将分词结果与文法规则的关键词进行匹配。

S103、根据所述目标退出意图对设备当前语音技能进行对应操作。

在本实施例中，在获取到用户语音指令对应的目标退出意图后，根据目标退出指令对设备当前语音技能进行对应操作，具体的，例如当目标退出意图为关机意图可对设备进行关机操作；当目标退出意图为明确退出意图，则退出设备当前语音技能；当目标退出意图为模糊退出意图，则可经过进一步判断后执行对应操作。

本实施例提供的语音技能的退出方法，通过接收用户语音指令；根据所述用户语音指令与预设退出意图的文法规则，识别所述用户语音指令对应的目标退出意图；根据所述目标退出意图对设备当前语音技能进行对应操作。本实施例将用户的退出意图进行细化扩展，通过识别用户语音指令所属于的目标退出意图后，根据目标退出意图进行对应的操作，从而更符合用户对语音技能的不同退出需求，提升用户与设备交互的流畅性和便捷性，提升用户在使用语音技能时的退出体验。

在上述实施例的基础上，S102所述的根据所述目标退出意图对设备当前语音技能进行对应操作，具体包括：

若识别到所述目标退出意图为所述关机意图，则根据所述关机意图关闭所述设备。

在本实施例中，可预先配置关机意图的文法规则，具体可如下所示：

【关机/关机关机】啊/吧/啦/呀/哇/了

【关闭/关掉/关了/关/关机】+【设备/音箱/小度在家/小度音箱】啊/吧/啦/呀/哇/了

【给我/我要/我想/能不能/你/你可以/你能不能/请/麻烦】【关机】啊/吧/啦/呀/哇/了

【给我/我要/我想/能不能/你/你可以/你能不能/请/麻烦】【关闭/关掉/关了/关】+【设备/音箱/小度在家/小度音箱】啊/吧/啦/呀/哇/了

在上述文法规则中需要明确包含“关机”、“关闭设备”等关键词，否则无法准确判断用户是否真的有关机的意图，将导致误关机的情况发生。本实施例中可将用户语音指令与上述的文法规则进行匹配，若能够匹配，则可确定用户语音指令对应的目标退出意图为关机意图，进一步可根据关机意图关闭设备。此外，用户语音指令中也可包括对于设备关机的相关参数，例如关机时间、重新开始时间等等，在确定目标退出意图为关机意图后，可从用户语音指令中抓取关机的相关参数，进而根据关机的相关参数对设备进行关机。

在上述任一实施例的基础上，S102所述的根据所述目标退出意图对设备当前语音技能进行对应操作，包括：

若识别到所述目标退出意图为所述明确退出意图，则根据所述明确退出意图退出所述设备当前语音技能。

在本实施例中，可预先配置明确退出意图的文法规则，具体可如下所示：

【退出/退出退出/离开/关闭/关掉】啊/吧/啦/呀/哇/了

【退出/退出退出/离开/关闭/关掉】+【技能/服务/应用/游戏】啊/吧/啦/呀/哇/了

【给我/我要/我想/能不能/你/你可以/你能不能/请/麻烦】+【退出/退出退出/离开/关闭/关掉】啊/吧/啦/呀/哇/了

【给我/我要/我想/能不能/你/你可以/你能不能/请/麻烦】+【退出/退出退出/离开/关闭/关掉】+【技能/服务/应用/游戏】啊/吧/啦/呀/哇/了

在上述文法规则中需要明确包含“退出”、“关闭技能”等关键词，否则无法准确判断用户是否真的有退出语音技能的意图，也即无法准确判断是否为明确退出意图，将导致误退出的情况发生。在本实施例中可将用户语音指令与上述的文法规则进行匹配，若能够匹配，则可确定用户语音指令对应的目标退出意图为明确退出意图，进一步可根据明确退出意图退出设备当前语音技能。

若识别到所述目标退出意图为所述模糊退出意图，判断所述设备当前语音技能能否响应所述用户语音指令；

若所述设备当前语音技能能响应，则由所述设备当前语音技能执行与所述用户语音指令对应的响应操作；和/或

若所述设备当前语音技能不能响应，则退出所述设备当前语音技能。

在本实施例中，可预先配置一种模糊退出意图的文法规则，具体可如下所示：

【返回/休息/休息休息/睡觉/睡/洗澡/写作业/工作】啊/吧/啦/呀/哇/了

【我要/我想/能不能/你/你可以/你能不能/请/麻烦】+【返回/休息/休息休息/睡觉/睡】啊/吧/啦/呀/哇/了

【我要/我想/我去/我】+【洗澡/写作业/工作】啊/吧/啦/呀/哇/了

【不玩/不想/不要/不】+【玩】啊/吧/啦/呀/哇/了

在上述文法规则中并没有明确包含退出语音技能的关键词，但具有一定的退出意向，由于设备当前语音技能可能也能够响应满足上述文法规则的用户语音指令，例如用户语音指令为“我要睡觉了”，设备当前语音技能能响应该用户语音指令，播放催眠曲、睡前故事等，此时若退出设备当前语音技能则可能导致用户对于播放催眠曲、睡前故事的需求无法满足。因此当用户语音指令与上述的文法规则能够匹配时，需要判断设备当前语音技能能否响应用户语音指令，若能响应，可由设备当前语音技能执行与用户语音指令对应的响应操作；若不能响应，则退出设备当前语音技能。

需要说明的是，若判断设备当前语音技能能响应用户语音指令，也可由用户预先设定由当前语音技能响应、及退出设备当前语音技能两种操作之间的优先级，根据该优先级来确定具体采用哪种操作。例如上述用户语音指令为“我要睡觉了”，若设备当前语音技能能响应该用户语音指令，但用户设定的退出设备当前语音技能的优先级高于当前语音技能响应的优先级，即使当前语音技能能够响应“我要睡觉了”播放催眠曲、睡前故事等，也会优先退出当前语音技能。

若识别到所述目标退出意图为所述模糊退出意图，判断所述设备当前语音技能的场景；

若所述设备当前语音技能的场景为多媒体播放场景，则暂停多媒体的播放；和/或

若所述设备当前语音技能的场景不为多媒体播放场景，则退出所述设备当前语音技能。

在本实施例中，可预先配置另一种模糊退出意图的文法规则，具体可如下所示：

【停止/停下/停/暂停】啊/吧/啦/呀/哇/了

【停止/停下/停/暂停】+【技能/服务/应用/游戏/闯关/答题】

【我要/我想/能不能/你/你可以/你能不能/请/麻烦】+【停止/停下/停/暂停】+【技能/服务/应用/游戏/闯关/答题】啊/吧/啦/呀/哇/了

【不要说了/别说了/停止说吧/停止说/不要说话了/闭嘴吧/闭嘴/闭口/别吵了/别讲话了】

在上述文法规则中同样也没有明确包含退出语音技能的关键词，但也具有一定的退出意向。当用户语音指令与上述的文法规则能够匹配时，可获取设备当前语音技能的场景，进而根据当前语音技能的场景进行对应操作，具体的，若设备当前语音技能的场景为多媒体播放场景，例如播放音乐、视频、游戏、闯关、答题等等，此时可根据用户语音指令暂停多媒体的播放；若不为上述的多媒体播放场景，则可退出设备当前语音技能，从而可实现用户在多媒体播放场景下的暂停、以及在其他场景下退出设备当前语音技能的不同的操作，

进一步的，在上述实施例的基础上，当识别到目标退出意图为模糊退出意图后，也可先判断设备当前语音技能能否响应所述用户语音指令，若能响应，则由设备当前语音技能执行与用户语音指令对应的响应操作；若不能响应，在判断设备当前语音技能的场景是否为多媒体播放场景，若是，则暂停多媒体的播放；若不是，则退出所述设备当前语音技能。

在上述实施例的基础上，当预设退出意图包括关机意图、明确退出意图、模糊退出意图时，可设定关机意图的优先级最高、明确退出意图次之、模糊退出意图最低，也即匹配时，首先将用户语音指令与关机意图的文法规则匹配，若匹配成功则不需要进行其他预设退出意图的匹配；若未匹配成功，则将用户语音指令与明确退出意图的文法规则匹配，同样的，若匹配成功则不需要再与模糊退出意图的文法规则匹配；若未匹配成功再最后与模糊退出意图的文法规则。

图2为本发明实施例提供的语音技能的退出装置的结构图。本实施例提供的语音技能的退出装置可以执行语音技能的退出方法实施例提供的处理流程，如图2所示，所述语音技能的退出装置包括接收模块21、意图识别模块22、及执行模块23。

接收模块21，用于接收用户语音指令；

意图识别模块22，用于根据所述用户语音指令与预设退出意图的文法规则，识别所述用户语音指令对应的目标退出意图；

执行模块23，用于根据所述目标退出意图对设备当前语音技能进行对应操作。

在上述任一实施例的基础上，所述预设退出意图包括关机意图、明确退出意图、模糊退出意图中的至少一种。

在上述任一实施例的基础上，所述执行模块23用于：

本发明实施例提供的语音技能的退出装置可以具体用于执行上述图1所提供的方法实施例，具体功能此处不再赘述。

本发明实施例语音技能的退出装置，通过接收用户语音指令；根据所述用户语音指令与预设退出意图的文法规则，识别所述用户语音指令对应的目标退出意图；根据所述目标退出意图对设备当前语音技能进行对应操作。本实施例将用户的退出意图进行细化扩展，通过识别用户语音指令所属于的目标退出意图后，根据目标退出意图进行对应的操作，从而更符合用户对语音技能的不同退出需求，提升用户与设备交互的流畅性和便捷性，提升用户在使用语音技能时的退出体验。

图3为本发明实施例提供的语音技能的退出设备的结构示意图。本发明实施例提供的语音技能的退出设备可以执行语音技能的退出方法实施例提供的处理流程，如图3所示，语音技能的退出设备30包括存储器31、处理器32、计算机程序和通讯接口33；其中，计算机程序存储在存储器31中，并被配置为由处理器32执行以上实施例所述的语音技能的退出方法。

图3所示实施例的语音技能的退出设备可用于执行上述方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

另外，本实施例还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行以实现上述实施例所述的语音技能的退出方法。

在本发明所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

本领域技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。上述描述的装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种语音技能的退出方法，其特征在于，包括：

接收用户语音指令；

根据所述用户语音指令与预设退出意图的文法规则，识别所述用户语音指令对应的目标退出意图；所述预设退出意图包括关机意图、明确退出意图、模糊退出意图中的至少一种；

根据所述目标退出意图对设备当前语音技能进行对应操作；

所述根据所述目标退出意图对设备当前语音技能进行对应操作，包括：

2.根据权利要求1所述的方法，其特征在于，所述根据所述目标退出意图对设备当前语音技能进行对应操作，包括：

3.根据权利要求1所述的方法，其特征在于，所述根据所述目标退出意图对设备当前语音技能进行对应操作，包括：

4.根据权利要求1所述的方法，其特征在于，所述根据所述目标退出意图对设备当前语音技能进行对应操作，包括：

5.一种语音技能的退出装置，其特征在于，包括：

接收模块，用于接收用户语音指令；

意图识别模块，用于根据所述用户语音指令与预设退出意图的文法规则，识别所述用户语音指令对应的目标退出意图；所述预设退出意图包括关机意图、明确退出意图、模糊退出意图中的至少一种；

执行模块，用于根据所述目标退出意图对设备当前语音技能进行对应操作；

所述执行模块，具体用于：

6.根据权利要求5所述的装置，其特征在于，所述执行模块具体用于：

7.根据权利要求5所述的装置，其特征在于，所述执行模块具体用于：

8.根据权利要求5所述的装置，其特征在于，所述执行模块具体用于：

9.一种语音技能的退出设备，其特征在于，包括：

存储器；

处理器；以及

计算机程序；

其中，所述计算机程序存储在所述存储器中，并被配置为由所述处理器执行以实现如权利要求1-4中任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，其上存储有计算机程序；

所述计算机程序被处理器执行时实现如权利要求1-4中任一项所述的方法。