CN112466304B

CN112466304B - 离线语音交互方法、装置、***、设备和存储介质

Info

Publication number: CN112466304B
Application number: CN202011411215.4A
Authority: CN
Inventors: 孙洪菠
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-12-03
Filing date: 2020-12-03
Publication date: 2023-09-08
Anticipated expiration: 2040-12-03
Also published as: CN112466304A

Abstract

本申请公开了一种离线语音交互方法、装置、***、设备和存储介质，涉及计算机技术领域，具体涉及语音、深度学习等人工智能技术领域。离线语音交互方法包括：在本地终端唤醒后，持续传输用户发出的待识别语音信号至所述本地终端内的解码器，以使所述解码器持续解码所述待识别语音信号得到语音识别结果；持续接收所述解码器发送的所述语音识别结果，并持续响应所述语音识别结果，直至接收到所述用户发出的结束指令；接收到所述结束指令后，结束本次持续交互。本申请可以支持离线语音交互场景下的一次唤醒后的持续识别。

Description

离线语音交互方法、装置、***、设备和存储介质

技术领域

本申请涉及计算机技术领域，具体涉及语音、深度学习等人工智能技术领域，尤其涉及一种离线语音交互方法、装置、***、设备和存储介质。

背景技术

随着计算机技术的普及，当今人们的生活已经逐渐走入智能时代。不仅仅是电脑，手机，PAD，人们的衣食住行的方方面面都开始应用智能技术，比如，智能电视，智能导航，智能家居等，智能技术在人们生活的各个方面提供方便快捷的服务。语音交互属于人机交互的范畴，是基于语音输入的新一代交互模式，就是利用人类的自然语言给机器下指令，达成人类自身目的这一过程。

语音交互过程一般包括唤醒、语音识别、语音合成等流程。现有技术中，仅支持唤醒后的一次识别，即，当前唤醒智能设备后，智能设备仅执行当前唤醒后的单次指令，若之后还需要对智能设备进行控制，则需要再次唤醒，再次发出新的指令。

发明内容

本申请提供了一种离线语音交互方法、装置、***、设备和存储介质。

根据本申请的一方面，提供了一种离线语音交互方法，包括：在本地终端唤醒后，持续传输用户发出的待识别语音信号至所述本地终端内的解码器，以使所述解码器持续解码所述待识别语音信号得到语音识别结果；持续接收所述解码器发送的所述语音识别结果，并持续响应所述语音识别结果，直至接收到所述用户发出的结束指令；接收到所述结束指令后，结束本次持续交互。

根据本申请的另一方面，提供了一种离线语音交互装置，包括：传输单元，用于在本地终端唤醒后，持续传输用户发出的待识别语音信号至所述本地终端内的解码器，以使所述解码器持续解码所述待识别语音信号得到语音识别结果；响应单元，用于持续接收所述解码器发送的所述语音识别结果，并持续响应所述语音识别结果，直至接收到所述用户发出的结束指令；结束单元，用于接收到所述结束指令后，结束本次持续交互。

根据本申请的另一方面，提供了一种离线语音交互***，包括如上述任一方面的任一项所述的装置。

根据本申请的另一方面，提供了一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如上述任一方面的任一项所述的方法。

根据本申请的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行如上述任一方面的任一项所述的方法。

根据本申请的技术方案，通过在本地终端唤醒后，持续传输和处理语音信号，在用户主动发起结束时才结束本次语音交互，可以支持离线语音交互场景下的一次唤醒后的持续识别，以提升用户体验、避免资源浪费和提高语音交互效率。

应当理解，本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征，也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1是根据本申请第一实施例的示意图；

图2是根据本申请实施例的离线语音交互***的示意图；

图3是根据本申请第二实施例的示意图；

图4是根据本申请实施例的回溯语音信号的示意图；

图5是根据本申请第三实施例的示意图；

图6是根据本申请第四实施例的示意图；

图7是根据本申请第五实施例的示意图；

图8是用来实现本申请实施例的离线语音交互方法中任一方法的电子设备的示意图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

相关技术中，语音交互仅支持唤醒后的单次识别，比如，唤醒词是“小度小度”，在音乐场景下，用户需要唤醒智能设备(如智能音箱)播放音乐，用户需要说“小度小度”，智能音箱回复应答词(如“在呢”)，用户之后可以说语音指令“播放音乐”，智能音箱识别后执行播放音乐的操作。若播放音乐后用户发现音乐不是自己想听的，需要更换音乐，那么相关技术中，用户需要再次唤醒智能音箱，即用户需要再次说“小度小度”，然后智能音箱再次进行应答“在呢”，用户再次说新的语音指令“换一首”，之后智能音箱响应该新的语音指令，换一首音乐播放。若用户需要调大音量，则需要再次说“小度小度”，智能音箱再次应答“在呢”，之后用户才能再次说新的语音指令“调大音量”，之后智能音箱响应该新的语音指令，调大播放音量。从上述流程可以看出，在用户需要发出多次语音指令的情况下，相关技术中的语音交互过程，需要用户多次唤醒智能设备。对于用户来讲，操作繁琐，每次发出新的语音指令之前都需要先唤醒智能设备，影响用户体验；对于智能设备来讲，需要多次识别唤醒词多次应答，造成资源浪费、降低语音交互效率。

为了提升用户体验、避免资源浪费、提高语音交互效率，本申请提供如下一些实施例。

图1是根据本申请第一实施例的示意图。该实施例提供一种离线语音交互方法，包括：

101、在本地终端唤醒后，持续传输用户发出的待识别语音信号至所述本地终端内的解码器，以使所述解码器持续解码所述待识别语音信号得到语音识别结果。

102、持续接收所述解码器发送的所述语音识别结果，并持续响应所述语音识别结果，直至接收到所述用户发出的结束指令。

103、接收到所述结束指令后，结束本次持续交互。

本实施例提供的离线语音交互方法应用在离线语音交互场景下，因此，本实施例的执行主体为用户所使用的本地终端。本地终端的具体形式不作限定，涵盖配置有与用户进行离线语音交互功能的所有智能设备，比如，可以是车载终端、智能家居终端以及各种移动设备，移动设备比如包括：移动电话、平板计算机、手持式计算设备、PDA(个人数字助手)、便携式媒体播放器、使用头戴式受话器和耳机的设备(例如，蓝牙兼容设备)、手机平板(phablet)设备(即，组合智能电话/平板设备)、可穿戴式计算机等。

本地终端可以基于离线语音交互***与用户进行语音交互，进一步地，离线语音交互***可以包括语音交互界面，以便用户通过语音交互界面输入语音指令。语音交互界面可以由APP(应用)、网页或者程序等提供，本申请对此不作限定。APP可以显式地安装在本地终端的界面上，或者，APP也可以是用户通过特定的硬件和/或软件按钮调出，本申请对此也不作限定。

本实施例中，“持续”相对于“单次”而言，是指在未完成离线语音交互之前一直处于进行中状态而不是结束。比如，本地终端唤醒后，在接收到用户发出的结束指令之前有N条语音信号，若是“单次”处理，则只是对唤醒之后的第一条语音信号进行处理，其余N-1条均视作无效语音信号，不做处理。而本实施例中，是对这N条语音信号均做处理。从而可以实现单次唤醒后的多次交互，而不是单次唤醒单次识别。

如图2所示，离线语音交互***200可以包括：数据采集模块201、唤醒模块202、识别处理模块203、语音端点检测模块204和解码器205。

结合图2所示的离线语音交互***，图1所示方法的执行主体可以具体为图2所示***中的识别处理模块203。

离线语音交互过程中，智能设备采集到语音信号后，先判断语音信号中是否包含唤醒词，在确定包含唤醒词后，将之后接收的语音信号作为待识别语音信号，对待识别语音信号进行后续识别、响应等处理，比如，若待识别语音信号是“播放音乐”，则识别并响应“播放音乐”的操作。

本申请实施例中，为了区分，将本地终端成功唤醒之前接收的语音信号称为“唤醒语音信号”，该“唤醒语音信号”中可能包含或不包含唤醒词，比如唤醒词是“小度小度”，则包含“小度小度”的语音信号为唤醒语音信号；将本地终端成功唤醒之后接收的语音信号称为“待识别语音信号”，比如，采用唤醒词“小度小度”成功唤醒本地终端后，将之后的“播放音乐”等语音信号作为“待识别语音信号”。

数据采集模块201用于采集语音信号。比如，用户发出语音信号后，麦克风阵列采集到用户发出的语音信号，麦克风阵列可以对用户发出的语音信号不做处理或者经过增强等处理，之后将不做处理的语音信号(可称为原始语音信号)或处理后的语音信号发送给数据采集模块201。

数据采集模块201采集到语音信号后，若语音信号为唤醒语音信号，则将唤醒语音信号发送给唤醒模块202。比如，数据采集模块201采集到语音信号后，若未接收过唤醒模块202反馈的唤醒标识，则将当前采集的语音信号作为唤醒语音信号发送给唤醒模块202；若接收过唤醒模块202反馈的唤醒标识，则将当前采集的语音信号作为待识别语音信号，不再发送给唤醒模块。另外，数据采集模块201采集到语音信号后，不论该语音信号是唤醒语音信号，还是待识别语音信号，都将其发送给识别处理模块203。

唤醒模块202用于检测语音信号中是否包含唤醒词，在包含唤醒词时，确定成功唤醒本地终端，否则，在不包含唤醒词时继续检测语音信号。唤醒模块202在检测唤醒词时，可以采用各种相关技术实现，比如，先将语音信号划分为多帧，提取每帧语音信号的语音特征，再根据语音特征与唤醒声学模型判断该帧语音信号中是否包含唤醒词。

唤醒模块202在检测到语音信号中包含唤醒词后，向数据采集模块201反馈唤醒标识，数据采集模块201接收到唤醒标识后，确定本地终端成功唤醒，之后进行唤醒后的后续处理，比如，可以触发本地终端反馈应答信息，比如用户采用唤醒词“小度小度”唤醒本地终端后，本地终端向用户反馈应答词“在呢”。

数据采集模块201接收到唤醒模块202反馈的唤醒标识后，可以将该唤醒标识发送给识别处理模块203，以便识别处理模块203根据唤醒成功信息确定唤醒时间点，并基于该唤醒时间点进行后续处理。以及，数据采集模块201接收到唤醒标识后，将之后接收的语音信号作为待识别语音信号持续传输给识别处理模块203和语音端点检测模块204。

语音端点检测模块204用于检测待识别语音信号的语音起点和语音尾点，并将检测得到的语音起点和语音尾点发送给识别处理模块203。语音端点检测模块204比如是语音活动检测(Voice Activity Detection，VAD)模块。语音端点检测模块204可以采用各种相关技术进行语音端点(语音起点和语音尾点)检测，比如，提取语音信号的语音特征，再根据语音特征和语音端点检测模型检测出语音端点。

识别处理模块203用于根据接收的唤醒标识确定唤醒时间点，并将唤醒时间点作为基点确定回溯起点，以及将回溯起点与首次待识别语音信号的尾点之间的语音信号作为回溯语音信号发送给解码器205、以及根据语音端点检测模块204检测得到的语音起点和语音端点选择非首次待识别语音信号持续传输给解码器205。

解码器205用于对接收的待识别语音信号进行解码处理，得到语音识别结果，并将语音识别结果持续发送给识别处理模块203。解码器可以采用各种相关技术进行解码处理，比如提取语音信号的语音特征，基于语音特征和离线语音识别模型识别出语音识别结果。解码时，比如是将语音形式的“播放音乐”识别为文本形式的“播放音乐”。

识别处理模块203还用于持续接收解码器发送的语音识别结果后，并持续响应语音识别结果。比如，语音识别结果为“播放音乐”，则调用音乐播放接口，以播放音乐。

相关技术中，本地终端唤醒后，仅支持单次识别；而本实施例中，本次终端唤醒后，数据采集模块、语音端点检测模块、识别处理模块和解码器支持持续的语音传输、持续的语音端点检测、持续的语音解码、持续的语音识别结果响应等处理，直至接收到用户发出的结束指令。比如，采用“小度小度”唤醒本地终端后，用户又依次说了“播放音乐”、“换一首”、“调大音量”等语音信号，则相关技术中仅识别和响应“播放音乐”操作，并不会响应“换一首”、“调大音量”操作；而本实施例中，则会依次响应“播放音乐”、“换一首”等操作。

本申请实施例中，首次待识别语音信号是指本地终端唤醒后，用户说出的第一条待识别语音信号，比如上述的“播放音乐”，非首次待识别语音信号是指第一条待识别语音信号之后的待识别语音信号，比如上述的“换一首”、“调大音量”等。

用户发出的结束指令是指用户主动发出的，该发出的结束指令可以是用户说的语音信号，或者，也可以是用户通过操作本地终端上的软件或硬件，触发产生的操作指令。用户说的语音信号比如用户说“停止播放”；或者，比如，在语音交互界面上设置“退出”图标，用户点击“退出”图标后产生结束指令；或者还可以是硬件按钮，比如，用户点击本地终端上的预设的结束按钮后产生结束指令。本申请对用户发出的结束指令的具体形式不作限定。

识别处理模块203获取到用户发出的结束指令后，则结束本次持续交互，结束本次持续交互比如不再发送语音信号给解码器，也不再响应语音识别结果等，还可以进行状态置位，向应用层反馈成功退出本次持续交互的信息等。

由于本地终端的唤醒过程可以为多次，比如，在结束一次持续交互过程后，还可以进行下一次的持续交互过程，比如，以上述的“停止播放”结束本次持续交互过程后，若用户之后还需要再次播放音乐，或者需要进行其他操作，比如打电话等，则用户可以再次采用唤醒词“小度小度”唤醒本地终端，再次开启新一次的持续交互过程。所以，接收到结束指令后，是结束本次持续交互，或者说，结束当前持续交互，而不是结束所有的持续交互过程，用户在之后的过程中，依然可以重新唤醒并开启新一次的持续交互过程。

本实施例中，通过在本地终端唤醒后，持续传输和处理语音信号，在用户主动发起结束时才结束本次语音交互，可以支持离线语音交互场景下的一次唤醒后的持续识别，以提升用户体验、避免资源浪费和提高语音交互效率。

离线语音交互场景下，包括解码器在内的各个相关模块均集成在本地终端内，比如上述图2所示的离线语音交互***的各个模块均集成在本地终端的芯片上，受限于芯片的空间以及处理能力，可能会存在首次语音识别成功率不高的问题。为此，本申请还提供一些实施例，以提高首次识别成功率。

一些实施例中，所述唤醒是根据用户发出的唤醒语音信号确定，所述待识别语音信号包括首次待识别语音信号和非首次待识别语音信号，所述持续传输用户发出的待识别语音信号至所述本地终端内的解码器，包括：在所述唤醒语音信号中确定回溯起点，根据所述回溯起点和所述首次待识别语音信号确定回溯语音信号，将所述回溯语音信号传输至所述本地终端内的解码器；以及，持续获取所述非首次待识别语音信号的起点和尾点，并将所述起点和尾点之间的非首次待识别语音信号持续传输至所述本地终端内的解码器。

本实施例中，通过在首次待识别语音信号之前进行回溯，可以保证首次待识别语音信号的完整性，提高首次识别成功率。

图3是根据本申请第二实施例的示意图。本实施例提供一种离线语音交互方法，结合图2所示的***，该方法包括：

301-302、数据采集模块采集到唤醒语音信号后，将唤醒语音信号发送给唤醒模块和识别处理模块。

唤醒语音信号比如是用户发出的包含唤醒词“小度小度”的语音信号。

可以理解的是，数据采集模块向唤醒模块和识别处理模块发送唤醒语音信号的时序关系不限定，比如，可以是同时向唤醒模块和识别处理模块发送，或者，也可以是先向唤醒模块发送，再向识别处理模块发送，或者，也可以先向识别处理模块发送再向唤醒模块发送。

303、唤醒模块接收到唤醒语音信号后，识别其中的唤醒词，在识别出唤醒词后，确定本地终端唤醒，并向数据采集模块发送唤醒标识。

唤醒标识比如是语音水印值。

数据采集模块可以在唤醒语音信号上添加语音水印，并将添加了语音水印的唤醒语音信号发送给唤醒模块和识别处理模块。数据采集模块在添加语音水印时，还可以为每个语音水印分配语音水印值，语音水印值比如从0开始依次计数，即语音水印值可以分别为0、1、2...等。数据采集模块可以采用各种相关技术在语音信号上添加语音水印，本实施例对添加语音水印的方式不作限定。

唤醒模块在检测唤醒词时，可以基于语音帧进行处理。即，将语音信号划分为各个语音帧，比如，每隔32ms划分为一个语音帧，在每个语音帧中检测是否包含唤醒词。当检测到唤醒词后，可以基于预先配置的协议解析包含唤醒词的语音帧上的语音水印，得到对应的语音水印值，之后将该语音水印值作为唤醒标识发送给数据采集模块。

304-306、数据采集模块接收到唤醒标识后，确定本地终端唤醒。之后，可以将接收的唤醒标识发送给识别处理模块，以及，数据采集模块将本地终端唤醒之后采集到的语音信号作为待识别语音信号，将待识别语音信号发送给识别处理模块和语音端点检测模块。

可以理解的是，304-306的时序关系也不限定。

307、语音端点检测模块接收到待识别语音信号后，检测出待识别语音信号的起点和尾点，并将起点和尾点发送给识别处理模块。

308、识别处理模块接收到唤醒标识(即语音水印值)后，将该语音水印值对应的语音水印所在的语音帧的尾点确定为唤醒时间点，以唤醒时间点为基准，向前回溯预设时长确定为回溯起点，将所述回溯起点和首次待识别语音信号的尾点之间的语音信号确定为回溯语音信号。以及，将回溯语音信号发送给解码器。

数据采集模块采集到唤醒语音信号后，不仅向唤醒模块发送唤醒语音信号，还向识别处理模块发送唤醒语音信号，识别处理模块接收到唤醒语音信号后可以对其进行缓存。以及，如上所述，数据采集模块可以在发送的唤醒语音信号中添加语音水印。识别处理模块接收到作为唤醒标识的语音水印值后，可以根据预先配置的协议解析唤醒语音信号上的语音水印，找到接收的语音水印值对应的语音水印，以及，确定该语音水印所在的语音帧，之后将该语音帧的尾点确定为唤醒时间点。

本实施例中，通过以唤醒时间点为基准向前回溯，可以提高回溯起点的准确性，进而保证首次待识别语音信号的完整性。

本实施例中，通过基于语音水印值确定唤醒时间点，可以简便准确地确定出唤醒时间点。

比如，参见图4，依据上述流程可以在唤醒语音信号中确定出唤醒时间点。

预设时长一般是大于唤醒词所占的时长，比如，预设时长为2080ms。参见图4，以唤醒时间点为基准，向前回溯2080ms得到回溯起点。

待识别语音信号可以分为首次待识别语音信号和非首次待识别语音信号，经过语音端点检测模块的处理，可以检测出首次待识别语音信号的起点和尾点，以及非首次待识别语音信号的起点和尾点，之后，语音端点检测模块可以将检测得到的语音信号(包括首次待识别语音信号和非首次待识别语音信号)的起点和尾点发送给识别处理模块。

对应首次待识别语音信号，如图4所示，将回溯起点与首次待识别语音信号的尾点之前的语音信号确定为回溯语音信号。比如，首次待识别语音信号为“播放音乐”，则将回溯起点与“播放音乐”尾点之间的语音信号作为回溯语音信号。

比如，首次待识别语音信号为“播放音乐”，则将回溯起点与“播放音乐”尾点之间的语音信号发送给解码器。

本实施例中，通过将回溯起点和首次待识别语音信号的尾点之间的语音信号作为回溯语音信号发送给解码器，可以在解码器处保证首次待识别语音信号的完整性，提高首次识别成功率。

309、识别处理模块持续获取非首次待识别语音信号的起点和尾点，并将所述起点和尾点之间的非首次待识别语音信号持续传输至解码器。

对于非首次待识别语音信号，比如，非首次待识别语音信号包括“换一首”、“调大音量”等，则语音端点检测模块分别对每个非首次待识别语音信号进行端点检测并将检测得到的端点信息(起点和尾点)发送给识别处理模块，识别处理模块根据端点信息将起点和尾点之间的非首次待识别语音信号发送给解码器。

310、解码器持续解码待识别语音信号得到语音识别结果，并持续传输语音识别结果至识别处理模块。

其中，由于解码器首次接收的语音信号，即回溯语音信号，存在一定冗余，所以，解码器在首次接收的语音信号中需要去掉一部分，即从头去掉预设时长(如2080ms)，对去掉之后的语音信号再进行解码处理。

解码器在解码得到语音识别结果后，可以在语音识别结果中按序添加顺序标识，以便识别处理模块按序响应语音识别结果。顺序标识可以具有相同的标识前缀，比如，顺序标识分别为sn_1、sn_2、sn_3...等。

本实施例中，通过按序响应语音识别结果，可以保证响应的准确性，提升用户体验。

本实施例中，通过将顺序标识具有相同的标识前缀，可以便于统一识别。

比如，语音识别结果为“播放音乐”的顺序标识是sn_1，语音识别结果为“换一首”的顺序标识是sn_2，语音识别结果为“调大音量”的顺序标识是sn_3，语音识别结果为“停止播放”的顺序标识是sn_4等。

311、识别处理模块持续响应语音识别结果。

识别处理模块可以根据所述顺序标识按序响应所述语音识别结果。比如，先响应顺序标识为sn_1的语音识别结果，再响应顺序标识为sn_2的语音识别结果等。

312、识别处理模块接收到用户发出的结束指令后，结束本次持续交互。

比如，识别处理模块接收到的语音识别结果为“停止播放”，则接收到该语音识别结果后，结束本地持续交互。

下面以一个具体示例说明用户与本地终端的交互过程。本地终端以车载终端为例，在车内空间中，经常存在无网络或者网络不佳的情况，为提升用户体验，避免资源浪费和提高语音交互效率，本申请实施例可以支持持续的离线语音交互。

用户向本地终端发出的语音指令分别是：小度小度。播放音乐。声音大一点。停止播放。

1)用户对着车载终端说唤醒词，比如“小度小度”；车载终端基于该唤醒词唤醒车载终端；

2)车载终端播放应答音“在呢”；随后开启本次的持续交互过程，识别处理模块将带回溯的语音信号上传给解码器；

3)用户继续说“播放音乐”；解码器返回识别结果，识别处理模块调用车载终端的音乐资源进行播放；识别处理模块持续传输语音信号到解码器；

4)用户继续说“声音大一点”；解码器返回识别结果，识别处理模块调用车载终端的音量资源调大音量；识别处理模块持续传输数据到解码器；

5)用户继续说“停止播放”；解码器返回识别结果，识别处理模块停止播放音乐。结束本次持续交互。

本实施例中，通过在本地终端唤醒后，持续传输和处理语音信号，在用户主动发起结束时才结束本次语音交互，可以支持离线语音交互场景下的一次唤醒后的持续识别，以提升用户体验、避免资源浪费和提高语音交互效率。通过在首次待识别语音信号之前进行回溯，可以保证首次待识别语音信号的完整性，提高首次识别成功率。通过以唤醒时间点为基准向前回溯，可以提高回溯起点的准确性，进而保证首次待识别语音信号的完整性。通过基于语音水印值确定唤醒时间点，可以简便准确地确定出唤醒时间点。通过按序响应语音识别结果，可以保证响应的准确性，提升用户体验。通过将顺序标识具有相同的标识前缀，可以便于统一识别。

图5是根据本申请第三实施例的示意图。如图5所示，该实施例提供一种离线语音交互装置，离线语音交互装置500可以包括传输单元501、响应单元502和结束单元503。其中，传输单元501用于在本地终端唤醒后，持续传输用户发出的待识别语音信号至所述本地终端内的解码器，以使所述解码器持续解码所述待识别语音信号得到语音识别结果；响应模块502用于持续接收所述解码器发送的所述语音识别结果，并持续响应所述语音识别结果，直至接收到所述用户发出的结束指令；结束模块503用于接收到所述结束指令后，结束本次持续交互。

一些实施例中，所述唤醒是根据所述用户发出的唤醒语音信号确定，所述待识别语音信号包括首次待识别语音信号和非首次待识别语音信号，参见图6，该装置600包括传输单元601、响应单元602和结束单元603，传输单元601可以包括第一传输模块6011和第二传输模块6012。

第一传输模块6011用于在所述唤醒语音信号中确定回溯起点，根据所述回溯起点和所述首次待识别语音信号确定回溯语音信号，将所述回溯语音信号传输至所述本地终端内的解码器；以及，第二传输模块6012用于持续获取所述非首次待识别语音信号的起点和尾点，并将所述起点和尾点之间的非首次待识别语音信号持续传输至所述本地终端内的解码器。

一些实施例中，所述第一传输模块6011具体用于：在所述唤醒语音信号中，确定所述唤醒对应的唤醒时间点；以所述唤醒时间点为基准，向前回溯预设时长确定为回溯起点。

一些实施例中，所述第一传输模块6011进一步具体用于：接收唤醒标识，所述唤醒标识包括：语音水印值；将所述语音水印值对应的语音水印所在的语音帧的尾点确定为唤醒时间点。

一些实施例中，所述第一传输模块6011具体用于：获取所述首次待识别语音信号的尾点；将所述回溯起点与所述首次待识别语音信号的尾点之间的语音信号确定为回溯语音信号。

一些实施例中，所述语音识别结果包括顺序标识，所述响应模块603具体用于：根据所述顺序标识，按序响应所述语音识别结果。

一些实施例中，所述顺序标识具有相同的标识前缀。

图7是根据本申请第五实施例的示意图。本实施例提供一种离线语音交互***，该***700包括：离线语音交互装置701，该装置可以如图5或图6所示，在此不再详述。该***700还可以包括：解码器702，解码器702用于在首次接收的语音信号中从头开始去掉预设时长的语音信号，对去掉预设时长后的语音信号进行解码处理。

一些实施例中，解码器702还用于：在语音识别结果中，按序添加顺序标识。

根据本申请的实施例，本申请还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

如图8所示，是根据本申请实施例实现的离线语音交互方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图8所示，该电子设备包括：一个或多个处理器801、存储器802，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器***)。图8中以一个处理器801为例。

存储器802即为本申请所提供的非瞬时计算机可读存储介质。其中，所述存储器存储有可由至少一个处理器执行的指令，以使所述至少一个处理器执行本申请所提供的离线语音交互方法。

存储器802作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中的离线语音交互方法对应的程序指令/模块。处理器801通过运行存储在存储器802中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的离线语音交互方法。

存储器802可以包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需要的应用程序；存储数据区可存储根据离线语音交互方法的电子设备的使用所创建的数据等。此外，存储器802可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器802可选包括相对于处理器801远程设置的存储器，这些远程存储器可以通过网络连接至执行离线语音交互方法的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

执行离线语音交互方法的电子设备还可以包括：输入装置803和输出装置804。处理器801、存储器802、输入装置803和输出装置804可以通过总线或者其他方式连接，图8中以通过总线连接为例。

输入装置803可接收输入的数字或字符信息，以及产生与执行离线语音交互方法的电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置804可以包括显示设备、辅助照明装置(例如，LED)和触觉反馈装置(例如，振动电机)等。该显示设备可以包括但不限于，液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的***和技术的各种实施方式可以在数字电子电路***、集成电路***、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程***上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储***、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储***、该至少一个输入装置、和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的***和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的***和技术实施在包括后台部件的计算***(例如，作为数据服务器)、或者包括中间件部件的计算***(例如，应用服务器)、或者包括前端部件的计算***(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的***和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算***中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将***的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)、互联网和区块链网络。

计算机***可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务("Virtual Private Server"，或简称"VPS")中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式***的服务器，或者是结合了区块链的服务器。

可以理解的是，虽然本申请针对的是离线语音交互***，但是并不排除部署该离线语音交互***的终端具有联网能力，比如，该离线语音交互***部署在手机上，在一定条件下，比如车内时，由于车内空间的网络信号不佳，可以在车内空间时处于离线状态，而不限定为该终端时刻都处于离线状态，比如，在网络信号良好时，该终端可以具有联网能力。而本申请所针对的是终端(比如手机)在离线状态(比如位于车内无网络信号时)下的离线语音交互方案。

根据本申请实施例的技术方案，通过在本地终端唤醒后，持续传输和处理语音信号，在用户主动发起结束时才结束本次语音交互，可以支持离线语音交互场景下的一次唤醒后的持续识别，以提升用户体验、避免资源浪费和提高语音交互效率。通过在首次待识别语音信号之前进行回溯，可以保证首次待识别语音信号的完整性，提高首次识别成功率。通过以唤醒时间点为基准向前回溯，可以提高回溯起点的准确性，进而保证首次待识别语音信号的完整性。通过基于语音水印值确定唤醒时间点，可以简便准确地确定出唤醒时间点。通过按序响应语音识别结果，可以保证响应的准确性，提升用户体验。通过将顺序标识具有相同的标识前缀，可以便于统一识别。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种离线语音交互方法，包括：

在本地终端唤醒后，持续传输用户发出的待识别语音信号至所述本地终端内的解码器，以使所述解码器持续解码所述待识别语音信号得到语音识别结果；

持续接收所述解码器发送的所述语音识别结果，并持续响应所述语音识别结果，直至接收到所述用户发出的结束指令；

接收到所述结束指令后，结束本次持续交互；

其中，所述唤醒是根据所述用户发出的唤醒语音信号确定，所述待识别语音信号包括首次待识别语音信号和非首次待识别语音信号，所述持续传输用户发出的待识别语音信号至所述本地终端内的解码器，包括：

在所述唤醒语音信号中确定回溯起点，根据所述回溯起点和所述首次待识别语音信号确定回溯语音信号，将所述回溯语音信号传输至所述本地终端内的解码器；以及，

持续获取所述非首次待识别语音信号的起点和尾点，并将所述起点和尾点之间的非首次待识别语音信号持续传输至所述本地终端内的解码器。

2.根据权利要求1所述的方法，其中，所述在所述唤醒语音信号中确定回溯起点，包括：

在所述唤醒语音信号中，确定所述唤醒对应的唤醒时间点；

以所述唤醒时间点为基准，向前回溯预设时长确定为回溯起点。

3.根据权利要求2所述的方法，其中，所述确定所述唤醒对应的唤醒时间点，包括：

接收唤醒标识，所述唤醒标识包括：语音水印值；

将所述语音水印值对应的语音水印所在的语音帧的尾点确定为唤醒时间点。

4.根据权利要求1所述的方法，其中，所述根据所述回溯起点和所述首次待识别语音信号确定回溯语音信号，包括：

获取所述首次待识别语音信号的尾点；

将所述回溯起点与所述首次待识别语音信号的尾点之间的语音信号确定为回溯语音信号。

5.根据权利要求1-4任一项所述的方法，其中，所述语音识别结果包括顺序标识，所述持续响应所述语音识别结果，包括：

根据所述顺序标识，按序响应所述语音识别结果。

6.根据权利要求5所述的方法，其中，所述顺序标识具有相同的标识前缀。

7.一种离线语音交互装置，包括：

传输单元，用于在本地终端唤醒后，持续传输用户发出的待识别语音信号至所述本地终端内的解码器，以使所述解码器持续解码所述待识别语音信号得到语音识别结果；

响应单元，用于持续接收所述解码器发送的所述语音识别结果，并持续响应所述语音识别结果，直至接收到所述用户发出的结束指令；

结束单元，用于接收到所述结束指令后，结束本次持续交互；

其中，所述唤醒是根据所述用户发出的唤醒语音信号确定，所述待识别语音信号包括首次待识别语音信号和非首次待识别语音信号，所述传输单元包括：

第一传输模块，用于在所述唤醒语音信号中确定回溯起点，根据所述回溯起点和所述首次待识别语音信号确定回溯语音信号，将所述回溯语音信号传输至所述本地终端内的解码器；以及，

第二传输模块，用于持续获取所述非首次待识别语音信号的起点和尾点，并将所述起点和尾点之间的非首次待识别语音信号持续传输至所述本地终端内的解码器。

8.根据权利要求7所述的装置，其中，所述第一传输模块具体用于：

在所述唤醒语音信号中，确定所述唤醒对应的唤醒时间点；

9.根据权利要求8所述的装置，其中，所述第一传输模块进一步具体用于：

接收唤醒标识，所述唤醒标识包括：语音水印值；

10.根据权利要求7所述的装置，其中，所述第一传输模块具体用于：

获取所述首次待识别语音信号的尾点；

11.根据权利要求7-10任一项所述的装置，其中，所述语音识别结果包括顺序标识，所述响应模块具体用于：

根据所述顺序标识，按序响应所述语音识别结果。

12.根据权利要求11所述的装置，其中，所述顺序标识具有相同的标识前缀。

13.一种离线语音交互***，包括：

如权利要求7-12任一项所述的装置。

14.根据权利要求13所述的***，其中，还包括：

解码器，用于在首次接收的语音信号中从头开始去掉预设时长的语音信号，对去掉预设时长后的语音信号进行解码处理。

15.根据权利要求14所述的***，其中，所述解码器还用于：

在语音识别结果中，按序添加顺序标识。

16.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-6中任一项所述的方法。

17.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行权利要求1-6中任一项所述的方法。