CN111540357B

CN111540357B - 语音处理方法、装置、终端、服务器及存储介质

Info

Publication number: CN111540357B
Application number: CN202010315910.4A
Authority: CN
Inventors: 杨香斌
Original assignee: Hisense Visual Technology Co Ltd
Current assignee: Hisense Visual Technology Co Ltd
Priority date: 2020-04-21
Filing date: 2020-04-21
Publication date: 2024-01-26
Anticipated expiration: 2040-04-21
Also published as: CN111540357A

Abstract

本申请提供一种语音处理方法、装置、终端、服务器及存储介质。该方法包括：采集待检测音频；在检测到所述待检测音频中存在第一音频时，其中，所述第一音频为由应答语产生的回声的音频，所述应答语用于所述终端响应用户输入的唤醒语，将第二音频上传至服务器；其中，所述第二音频为所述待检测音频中位于所述第一音频的结束点之后的音频，所述第二音频用于所述服务器进行语音端点检测。本申请通过终端检测应答语产生的回声的第一音频，将第一音频的结束点之后的第二音频上传到服务器进行语音端点检测，使得服务器进行语音端点检测的音频中不包含第一音频，从而避免服务器将回声的端点误识别为用户语音的端点的情况，提高语音端点检测的准确度。

Description

语音处理方法、装置、终端、服务器及存储介质

技术领域

本申请涉及语音处理技术领域，尤其涉及一种语音处理方法、装置、终端、服务器及存储介质。

背景技术

随着语音识别技术的飞速发展，远场语音交互的应用场景越来越普遍，如智能电视、智能音箱、智能家居、智能车载终端、智能机器人、手机等终端可以与用户进行远场语音交互，为用户提供服务。在远场语音交互时，首先通过语音端点检测(Voice ActivityDetection，VAD)算法，检测出用户语音的前端点和后端点。

一般地，终端接收到用户输入的唤醒语后，播放应答语，同时进行音频采集，将采集的音频上传至服务器，由服务器通过基于深度学习的语音活动检测模型，识别音频中用户语音的前端点和后端点。

然而，有时终端播放的应答语会产生的回声，回声被终端采集到音频中。服务器容易错误地将音频中回声的前端点和后端点，识别为用户语音的前端点和后端点，出现语音端点检测错误，进而导致后续的语音交互出错。

发明内容

本申请实施例提供一种语音处理方法、装置、终端、服务器及存储介质，以解决语音端点检测容易出错的问题。

第一方面，本申请实施例提供一种语音处理方法，应用于终端，所述方法包括：

采集待检测音频；

在检测到所述待检测音频中存在第一音频时，其中，所述第一音频为由应答语产生的回声的音频，所述应答语用于所述终端响应用户输入的唤醒语，将第二音频上传至服务器；

其中，所述第二音频为所述待检测音频中位于所述第一音频的结束点之后的音频，所述第二音频用于所述服务器进行语音端点检测。

在一种可能的实施方式中，所述方法还包括：

根据所述应答语对应的音频特征，确定所述待检测音频中是否存在所述第一音频。

在一种可能的实施方式中，根据所述应答语对应的音频特征，确定所述待检测音频中是否存在所述第一音频，包括：

提取所述应答语对应的音频特征；

在所述应答语对应的音频特征与所述待检测音频之间匹配时，确定所述待检测音频中存在所述第一音频，其中，所述第一音频为所述待检测音频中的与所述应答语对应的音频特征相匹配的音频。

通过基于深度学习的第一语音端点检测模型，检测所述待检测音频中是否存在所述第一音频，其中，所述第一语音端点检测模型经过由所述应答语产生的回声的音频样本训练，所述音频样本中包含所述应答语对应的音频特征。

在一种可能的实施方式中，所述方法还包括：

在检测到所述待检测音频中不存在所述第一音频，且所述待检测音频中存在语音的前端点时，将第三音频上传至服务器，以使所述服务器检测所述第三音频中语音的后端点，其中，所述第三音频为所述待检测音频中位于所述语音的前端点之后的音频。

在一种可能的实施方式中，采集待检测音频，包括：

在接收到所述唤醒语后，采集所述待检测音频，并播放所述应答语。

在一种可能的实施方式中，所述方法还包括：

接收并显示所述服务器发送的语音识别结果，其中，所述语音识别结果由所述服务器在对所述第二音频进行语音端点检测，得到所述第二音频中语音的前端点和后端点后，对所述语音进行识别所得到。

第二方面，本申请实施例提供一种语音处理方法，应用于服务器，所述方法包括：

接收终端发送的第二音频，其中，所述第二音频为所述终端采集的待检测音频中位于第一音频的结束点之后的音频，所述第一音频为由应答语产生的回声的音频，所述应答语用于所述终端响应用户输入的唤醒语；

对所述第二音频进行语音端点检测。

在一种可能的实施方式中，对所述第二音频进行语音端点检测，包括：

将所述第二音频的起始点确定为所述第二音频中语音的前端点，并通过基于深度学习的第二语音端点检测模型，检测所述语音的后端点；其中，所述第二语音端点检测模型经过由包含语音的后端点的音频样本训练。

通过基于深度学习的第三语音端点检测模型，检测所述第二音频中语音的前端点和后端点，其中，所述第三语音端点检测模型经过由包含语音的前端点和后端点的音频样本训练。

在一种可能的实施方式中，对所述第二音频进行语音端点检测之后，所述方法还包括：

根据检测出的所述第二音频中语音的前端点和后端点，从所述第二音频中提取所述语音；

对所述语音进行识别，得到语音识别结果；

将所述语音识别结果发送至所述终端，所述语音识别结果用于所述终端进行显示。

第三方面，本申请实施例提供一种语音处理装置，应用于终端，所述装置包括：

采集模块，用于采集待检测音频；

发送模块，用于在检测到所述待检测音频中存在第一音频时，其中，所述第一音频为由应答语产生的回声的音频，所述应答语用于所述终端响应用户输入的唤醒语，将第二音频上传至服务器；

在一种可能的实施方式中，所述装置还包括：检测模块；

所述检测模块，用于：

在一种可能的实施方式中，所述检测模块，具体用于：

提取所述应答语对应的音频特征；

在一种可能的实施方式中，所述检测模块，具体用于：

在一种可能的实施方式中，所述发送模块，还用于：

在一种可能的实施方式中，采集模块，具体用于：

在一种可能的实施方式中，所述装置还包括：显示模块；

所述显示模块，用于：

第四方面，本申请实施例提供一种语音处理装置，应用于服务器，所述装置包括：

接收模块，用于接收终端发送的第二音频，其中，所述第二音频为所述终端采集的待检测音频中位于第一音频的结束点之后的音频，所述第一音频为由应答语产生的回声的音频，所述应答语用于所述终端响应用户输入的唤醒语；

处理模块，用于对所述第二音频进行语音端点检测。

在一种可能的实施方式中，所述处理模块，具体用于：

在一种可能的实施方式中，所述处理模块，还用于：

对所述语音进行识别，得到语音识别结果；

第五方面，本申请实施例提供一种终端，包括：至少一个处理器和存储器；

所述存储器存储计算机执行指令；

所述至少一个处理器执行所述存储器存储的计算机执行指令，使得所述至少一个处理器执行如上第一方面以及第一方面各种可能的实施方式所述的语音处理方法。

第六方面，本申请实施例提供一种服务器，包括：至少一个处理器和存储器；

所述存储器存储计算机执行指令；

所述至少一个处理器执行所述存储器存储的计算机执行指令，使得所述至少一个处理器执行如上第二方面以及第二方面各种可能的实施方式所述的语音处理方法。

第七方面，本申请实施例提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现如上第一方面以及第一方面各种可能的实施方式所述的语音处理方法。

第八方面，本申请实施例提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现如上第二方面以及第二方面各种可能的实施方式所述的语音处理方法。

本申请实施例提供的语音处理方法、装置、终端、服务器及存储介质，终端采集待检测音频；在检测到待检测音频中存在第一音频时，其中，第一音频为由应答语产生的回声的音频，应答语用于终端响应用户输入的唤醒语，将第二音频上传至服务器；其中，第二音频为待检测音频中位于第一音频的结束点之后的音频，第二音频用于服务器进行语音端点检测，通过终端检测应答语产生的回声的第一音频，将第一音频的结束点之后的第二音频上传到服务器进行语音端点检测，使得服务器进行语音端点检测的音频中不包含第一音频，从而避免服务器将回声的端点误识别为用户语音的端点的情况，提高语音端点检测的准确度。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请一实施例提供的语音处理方法的场景示意图；

图2为本申请一实施例提供的语音处理方法的流程示意图；

图3为本申请又一实施例提供的语音处理方法的流程示意图；

图4为本申请另一实施例提供的语音处理方法的流程示意图；

图5为本申请再一实施例提供的语音处理方法的信令交互图；

图6A为传统的语音处理方法的流程示意图；

图6B为本申请实施例提供的语音处理方法的流程示意图；

图7为本申请一实施例提供的语音处理装置的结构示意图；

图8为本申请又一实施例提供的语音处理装置的结构示意图；

图9为本申请一实施例提供的终端的硬件结构示意图；

图10为本申请一实施例提供的服务器的硬件结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

图1为本申请一实施例提供的语音处理方法的场景示意图。如图1所示，该场景包括终端11和服务器12。其中，终端11可以为智能电视、智能音箱、智能家居、智能车载终端、智能机器人、手机等，在此不作限定。终端11可以与用户进行远场语音交互，采集包含用户输入的语音的音频。终端11可以将采集的音频上传至服务器12。服务器12对音频进行语音端点检测和语音识别处理，并将识别结果返回到终端11。终端11通过播放或者显示等方式与用户进行交互，或者终端11执行识别结果对应的操作。

例如，终端11为智能电视，用户需要使用智能电视时，可以说唤醒语“ABC”来唤醒智能电视。智能电视接收到用户输入的“ABC”后，可以从休眠状态中醒来，播放欢迎语对应的应答语“我在”，并且进行语音采集。用户听到智能电视播放的“我在”后，获知智能电视被唤醒，进行后续的语音输入，如用户说“今天天气怎么样”。智能电视可以采集到包含用户语音“今天天气怎么样”的音频，将音频上传到服务器，由服务器对音频进行语音端点检测，检测到“今天天气怎么样”的前端点和后端点，并对前端点和后端点之间的语音进行语义识别，将识别结果反馈到智能电视。智能电视可以根据识别结果查询今天的天气情况，将天气情况通过语音播放和/或屏幕显示的方式告知用户。可选地，智能电视也可以在显示屏上显示语音识别结果，使用户获知其所识别出的语音内容。

然而，终端11播放的应答语可能产生回声，例如，智能电视播放的应答语在房间内所产生的回声。回声会被终端11采集到音频中并上传到服务器。服务器在进行语音端点检测时，会首先检测到回声对应的音频的前端点和后端点，将该前端点和后端点错误的识别为用户语音的前端点和后端点，导致服务器后续对回声对应的音频进行语音识别，进而导致后续的语音交互出错。例如，智能电视采集到的音频中包含应答语“我在”产生的回声的音频以及用户输入的用户语音“今天天气怎么样”，其中，“我在”对应的音频位置处于用户语音之前。服务器在进行语音端点检测时，会首先检测到“我在”对应的音频的前端点和后端点，进而对“我在”对应的音频进行语义识别，误识别用户的语音为“我在”，导致智能电视显示或播放针对“我在”的回复信息，导致语音交互出错。另外，对于单轮交互的场景，服务器一旦检测到“我在”对应的音频的前端点和后端点，不再对之后的音频进行识别，导致用户语音没有得到处理。

本实施例通过终端检测应答语产生的回声的第一音频，将第一音频的结束点之后的第二音频上传到服务器进行语音端点检测，使得服务器进行语音端点检测的音频中不包含第一音频，从而避免服务器将回声的端点误识别为用户语音的端点的情况，提高语音端点检测的准确度。下面结合实施例进行详细说明。

图2为本申请一实施例提供的语音处理方法的流程示意图。该方法可以由上述的终端执行。如图2所示，该方法包括：

S201、采集待检测音频。

本实施例中，终端可以采集待检测音频。其中，待检测音频中可以包含环境噪声的音频、终端播放的应答语所生成的回声的音频、用户语音中的一种或多种。以上述的智能电视为例，智能电视采集的待检测音频可能包括屋内的噪音音频、应答语“我在”所产生的回声的音频、用户输入的“今天天气怎么样”的语音。

可选地，在接收到所述唤醒语后，采集所述待检测音频，并播放所述应答语。

本实施例中，终端在被唤醒语唤醒后与用户进行交互。用户首先说出唤醒语以唤醒终端。终端接收到用户输入的唤醒语后，开始进行音频的采集，以采集待检测音频，并播放应答语，以通知用户自身已被唤醒。其中，应答语可以根据需求确定，在此不作限定，例如，应答语可以为“我在”、“您好”、“早上好”、“请问需要什么服务”等。

S202、在检测到所述待检测音频中存在第一音频时，其中，所述第一音频为由应答语产生的回声的音频，所述应答语用于所述终端响应用户输入的唤醒语，将第二音频上传至服务器；其中，所述第二音频为所述待检测音频中位于所述第一音频的结束点之后的音频，所述第二音频用于所述服务器进行语音端点检测。

本实施例中，终端接收到用户输入的唤醒语后播放应答语，第一音频为应答语所产生的回声的音频。如果应答语产生了回声，如终端和用户处于在房屋内、车内等空间，终端采集到的待检测音频中存在第一音频；如果应答语不产生回声，如终端和用户处于户外空间，终端采集到的待检测音频中不存在第一音频。

终端检测待检测音频中是否存在第一音频，若存在，则将第二音频上传至服务器。终端检测到待检测音频中存在第一音频时，可以确定第一音频的结束点，将待检测音频中第一音频的结束点之后的音频，作为第二音频上传到服务器。服务器可以对第二音频进行语音端点检测，检测出第二音频中语音的前端点和后端点。根据前端点和后端点从第二音频中提取语音，对语音进行识别，得到语音识别结果，然后将语音识别结果发送至终端。终端可以在屏幕上显示该语音识别结果，或者根据语音识别结果向用户推送回复信息。例如，语音识别结果是“今天天气怎么样”，终端可以在屏幕上显示“今天天气怎么样”的文本，也可以查询今天的天气情况，在屏幕上显示或者语音广播的方式向用户回复今天的天气情况。通过终端本地的检测，在待检测音频中存在第一音频时，仅将第一音频结束点之后的第二音频上传至服务器，不会将回声的音频给到服务器进行端点识别，避免了因回声的音频导致的语音端点检测错误。

本申请实施例中，终端采集待检测音频；在检测到待检测音频中存在第一音频时，其中，第一音频为由应答语产生的回声的音频，应答语用于终端响应用户输入的唤醒语，将第二音频上传至服务器；其中，第二音频为待检测音频中位于第一音频的结束点之后的音频，第二音频用于服务器进行语音端点检测，通过终端检测应答语产生的回声的第一音频，将第一音频的结束点之后的第二音频上传到服务器进行语音端点检测，使得服务器进行语音端点检测的音频中不包含第一音频，从而避免服务器将回声的端点误识别为用户语音的端点的情况，提高语音端点检测的准确度。

可选地，上述方法还可以包括：

本实施例中，语音是指用户输入的语音，例如用户输入的“今天天气怎么样”。终端检测待检测音频中是否存在第一音频，若不存在，则终端检测待检测音频中是否存在语音的前端点，若存在，则将待检测音频中位于语音的前端点之后的第三音频上传至服务器。服务器检测第三音频中语音的后端点。

例如，终端所处的环境使得终端播放的应答语不会产生回声，这样终端采集的待检测音频中不存在第一音频。以用户输入的语音为“今天天气怎么样”，终端在检测到待检测音频中不存在第一音频时，可以检测语音“今天天气怎么样”的前端点，将该前端点之后的音频作为第三音频上传至服务器，由服务器检测第三音频中语音“今天天气怎么样”的后端点，然后服务器可以根据语音“今天天气怎么样”的前端点和后端点进行后续的语音识别等处理。

可选地，终端本地可以采用基于能量和过零率的VAD算法，检测待检测音频中语音的前端点；服务器通过基于深度学习的VAD模型，检测第三音频中语音的后端点。终端基于能量和过零率的VAD算法检测语音的前端点，能够防止突发性的瞬间噪音对语音端点检测的干扰。服务器基于深度学习的VAD模型检测语音的后端点，由于VAD模型可以通过实时更新模型来进行优化，可以适用于更多场景的语音后端点检测，通过结合两种检测方式分别对语音的前端点和后端点进行检测，可以提高语音端点检测的准确度。

可选地，S202之后，上述方法还可以包括：

本实施例中，服务器在对第二音频进行语音端点检测，得到第二音频中语音的前端点和后端点后，可以根据前端点和后端点从第二音频中提取语音，对语音进行识别，得到语音识别结果，然后将语音识别结果发送至终端。终端可以在屏幕上显示该语音识别结果，或者根据语音识别结果向用户推送回复信息。例如，语音识别结果是“今天天气怎么样”，终端可以在屏幕上显示“今天天气怎么样”的文本，也可以查询今天的天气情况，在屏幕上显示今天的天气情况。通过终端显示语音识别结果，便于用户进行查看，使用户在语音识别结果出现错误时重新输入语音，提升用户体验。

图3为本申请又一实施例提供的语音处理方法的流程示意图。本实施例对检测待检测音频中是否存在第一音频的具体实现过程进行了详细说明。如图3所示，该方法包括：

S301、采集待检测音频。

本实施例中，S301与图2实施例中的S201类似，此处不再赘述。

S302、根据所述应答语对应的音频特征，确定所述待检测音频中是否存在所述第一音频。

本实施例中，终端可以根据应答语对应的音频特征，确定待检测音频中是否存在第一音频。其中，应答语对应的音频特征可以在包含应答语的音频样本中。终端可以从音频样本中获得应答语对应的音频特征。其中，音频特征的类型可以包括但不限于能量、过零率、频域、倒谱、谐波等中的一种和多种，在此不作限定。

在一种可能的实施方式中，S302可以包括：

提取所述应答语对应的音频特征；

本实施例中，终端可以从包含应答语的音频样本中提取应答语对应的音频特征，在检测待检测音频中是否存在第一音频时，可以将应答语对应的音频特征与待检测音频进行匹配，若待检测音频中存在与所述应答语对应的音频特征相匹配的音频，则确定待检测音频中存在第一音频。终端可以将待检测音频中与所述应答语对应的音频特征相匹配的音频，确定为第一音频，从而确定出第一音频的结束点。

例如，应答语对应的音频特征包括能量特征和过零率特征。终端可以基于能量和过零率的语音检测算法，将应答语对应的音频特征与待检测音频进行匹配，确定待检测音频中是否存在第一音频。终端通过特征匹配的方式可以快速实现对待检测音频中第一音频的检测。

在一种可能的实施方式中，S302可以包括：

本实施例中，可以预先构建基于深度学习的第一语音端点检测模型，并采集多个由应答语产生的回声的音频样本构成训练集，通过训练集训练第一语音端点检测模型。终端上预置有训练好的第一语音端点检测模型，终端可以通过该第一语音端点检测模型检测待检测音频中是否存在第一音频。

S303、在检测到所述待检测音频中存在第一音频时，其中，所述第一音频为由应答语产生的回声的音频，所述应答语用于所述终端响应用户输入的唤醒语，将第二音频上传至服务器；其中，所述第二音频为所述待检测音频中位于所述第一音频的结束点之后的音频，所述第二音频用于所述服务器进行语音端点检测。

本实施例中，S301与图2实施例中的S201类似，此处不再赘述。

本实施例通过应答语对应的音频特征，确定待检测音频中是否存在第一音频，能够准确检测出第一音频，进而防止将第一音频上传到服务器，给语音端点检测造成干扰，从而提高语音端点检测的准确度。

图4为本申请另一实施例提供的语音处理方法的流程示意图。该方法可以由服务器执行。如图4所示，该方法包括：

S401、接收终端发送的第二音频，其中，所述第二音频为所述终端采集的待检测音频中位于第一音频的结束点之后的音频，所述第一音频为由应答语产生的回声的音频，所述应答语用于所述终端响应用户输入的唤醒语。

S402、对所述第二音频进行语音端点检测。

本实施例中，终端可以采集待检测音频，在检测到所述待检测音频中存在第一音频时，将第一音频的结束点之后的第二音频上传至服务器。服务器接收终端发送的第二音频，并对第二音频进行语音端点检测。

本申请实施例中，服务器接收终端发送的第二音频，其中，第二音频为终端采集的待检测音频中位于第一音频的结束点之后的音频，第一音频为由应答语产生的回声的音频，应答语用于所述终端响应用户输入的唤醒语，对第二音频进行语音端点检测，通过终端检测应答语产生的回声的第一音频，将第一音频的结束点之后的第二音频上传到服务器进行语音端点检测，使得服务器进行语音端点检测的音频中不包含第一音频，从而避免服务器将回声的端点误识别为用户语音的端点的情况，提高语音端点检测的准确度。

在一种可能的实施方式中，S402可以包括：

本实施例中，服务器可以直接将第二音频的起始点作为语音的前端点，仅对语音的后端点进行检测。由于第二音频的起始点是第一音频的结束点，因而第二音频中不包含回声的音频，服务器仅检测第二音频的结束点，也可以实现后续的语音识别。例如，语音为“今天天气怎么样”，在第二音频中“今天天气怎么样”之前可能有一段的静默音或噪声，也可能没有，但由于静默音和噪声都不是语音，不影响后续的语音识别，因而可以直接将将第二音频的起始点作为语音的前端点。

可以预先构建基于深度学习的第二语音端点检测模型，并采集多个语音的后端点的音频样本构成训练集，通过训练集训练第二语音端点检测模型。其中，音频样本中的语音可以包含不同场景的语音，例如，语音可以为“今天天气怎么样”、“请打开X频道”、“今天车辆限号是多少”等，从而使训练出的第二语音端点检测模型可以准确检测出语音的后端点。并且在第二语音端点检测模型使用时，利用新采集的用户语音来对模型进行更新优化。服务器可以通过该第二语音端点检测模型检测第二音频中语音的后端点。

本实施例服务器将第二音频的起始点确定为第二音频中语音的前端点，并通过基于深度学习的第二语音端点检测模型，检测语音的后端点，服务器仅检测语音的后端点，从而提高语音端点检测的速度，提高响应速度，提升用户体验。

在一种可能的实施方式中，S402可以包括：

本实施例中，可以预先构建基于深度学习的第三语音端点检测模型，并采集多个语音的前端点和后端点构成训练集，通过训练集训练第三语音端点检测模型。其中，音频样本中的语音可以包含不同场景的语音，例如，语音可以为“今天天气怎么样”、“请打开X频道”、“今天车辆限号是多少”等，从而使训练出的第二语音端点检测模型可以准确检测出语音的前端点和后端点。并且在第三语音端点检测模型使用时，利用新采集的用户语音来对模型进行更新优化。服务器可以通过该第三语音端点检测模型检测第二音频中语音的前端点和后端点。

服务器可以检测第二音频中语音的前端点和后端点，由于第二音频的起始点和语音的前端点之间可能存在一段的静默音或噪声，服务器通过通过基于深度学***稳噪音中的干净语音能提取干净；从而能保证做识别的前端点即不会丢失语音，也不会带更多的噪音，进一步提高语音识别的准确度。

可选地，S402之后，上述方法还可以包括：

对所述语音进行识别，得到语音识别结果；

例如，用户输入的语音为“今天天气怎么样”，服务器根据检测出的“今天天气怎么样”的前端点和后端点，从第二音频中提取语音“今天天气怎么样”，然后识别该语音得到语音识别结果“今天天气怎么样”。终端可以在屏幕上显示“今天天气怎么样”的文本，也可以查询今天的天气情况，在屏幕上显示今天的天气情况。

本实施例服务器将语音识别结果发送至终端进行显示，便于用户进行查看，使用户在语音识别结果出现错误时重新输入语音，提升用户体验。

图5为本申请再一实施例提供的语音处理方法的信令交互图。该方法的执行主体包括上述的终端和服务器。如图5所示，该方法包括：

S501、终端在接收到唤醒语后，采集待检测音频，并播放应答语。

S502、终端在检测到待检测音频中存在第一音频时，其中，第一音频为由应答语产生的回声的音频，将第二音频上传至服务器，其中，所述第二音频为所述待检测音频中位于所述第一音频的结束点之后的音频。

S503、服务器对第二音频进行语音端点检测，得到第二音频中语音的前端点和后端点。

S504、服务器根据检测出的所述第二音频中语音的前端点和后端点，从第二音频中提取语音，对语音进行识别，得到语音识别结果。

S505、服务器将语音识别结果发送至终端。

S506、终端显示语音识别结果。

本申请实施例提供的语音处理方法，与上述的以终端为执行主体的方法实施例以及以服务器为执行主体的方法实施例，其实现原理和技术效果类似，本实施例此处不再赘述。

下面通过对比一个传统的语音处理方法的实施示例，与本申请提供的语音处理方法的一个实施示例进行说明。图6A为传统的语音处理方法的流程示意图，图6B为本申请实施例提供的语音处理方法的流程示意图。

参照图6A，传统的语音处理方法流程如下：终端被唤醒成功后，播放应答语“我在”，并且开始采集待检测音频并实时上传到服务器。服务器通过VAD检测待检测音频中语音的前端点，在检测到前端点后开始对前端点之后的音频进行语音识别，并将语音识别结果反馈给终端实时呈现，直到检测语音的后端点，则结束VAD和语音识别。传统的语音处理方法中，由于回声消除技术无法将回声消除干净，如果应答语产生回声，则该回声的音频会被终端采集到待检测音频中，并上传到服务器，导致服务器误将回声识别为用户的语音，导致语音端点检测和语音识别出错。

参照图6B，本实施例提供的语音处理方法流程如下：终端被唤醒成功后，播放应答语“我在”，并且开始采集待检测音频。终端通过VAD检测待检测音频中是否存在回声“我在”的音频，若检测到回声“我在”的音频，则在回声“我在”的音频的结束点之后开始实时向服务器上传采集到的音频。服务器对接收到的音频进行语音识别，并将语音识别结果反馈给终端实时呈现，直到服务器通过VAD检测到语音的后端点，则结束VAD和语音识别。本实施示例中，终端本地通过AVD检测待检测音频中的回声的音频，仅将回声的音频之后的音频上传到服务器，避免了服务器误将回声识别为用户的语音的问题，提高语音端点检测的准确度。采用终端本地VAD和服务器云端VAD相结合，本地VAD可以采用基于能量的和过零率的语音端点检测方法，云端VAD可以采用基于深度学习的语音端点检测方法，通过本地VAD消除回声对端点检测的干扰，并且可以消除突发性的瞬间噪音带来的干扰；通过云端VAD模型可以优化的优势，准确识别的后端点，在保证检测速度和尽量少占用终端本地计算资源的前提下，提高了语音端点检测的准确度。

图7为本申请一实施例提供的语音处理装置的结构示意图。该语音处理装置应用于终端。如图7所示，该语音处理装置70包括：采集模块701和发送模块702。

采集模块701，用于采集待检测音频。

发送模块702，用于在检测到所述待检测音频中存在第一音频时，其中，所述第一音频为由应答语产生的回声的音频，所述应答语用于所述终端响应用户输入的唤醒语，将第二音频上传至服务器。

本申请实施例通过采集模块采集待检测音频；发送模块在检测到待检测音频中存在第一音频时，其中，第一音频为由应答语产生的回声的音频，应答语用于终端响应用户输入的唤醒语，将第二音频上传至服务器；其中，第二音频为待检测音频中位于第一音频的结束点之后的音频，第二音频用于服务器进行语音端点检测，通过终端检测应答语产生的回声的第一音频，将第一音频的结束点之后的第二音频上传到服务器进行语音端点检测，使得服务器进行语音端点检测的音频中不包含第一音频，从而避免服务器将回声的端点误识别为用户语音的端点的情况，提高语音端点检测的准确度

可选地，该装置还包括：检测模块。

所述检测模块，用于：

可选地，所述检测模块，具体用于：

提取所述应答语对应的音频特征；

可选地，所述检测模块，具体用于：

可选地，所述发送模块702，还用于：

可选地，所述采集模块701，具体用于：

可选地，该装置还包括：显示模块；

所述显示模块，用于：

本申请实施例提供的语音处理装置，可用于执行上述以终端为执行主体的方法实施例，其实现原理和技术效果类似，本实施例此处不再赘述。

图8为本申请又一实施例提供的语音处理装置的结构示意图。该语音处理装置应用于服务器。如图8所示，该语音处理装置80包括：

接收模块801，用于接收终端发送的第二音频，其中，所述第二音频为所述终端采集的待检测音频中位于第一音频的结束点之后的音频，所述第一音频为由应答语产生的回声的音频，所述应答语用于所述终端响应用户输入的唤醒语。

处理模块802，用于对所述第二音频进行语音端点检测。

本申请实施例中，通过接收模块接收终端发送的第二音频，其中，第二音频为终端采集的待检测音频中位于第一音频的结束点之后的音频，第一音频为由应答语产生的回声的音频，应答语用于所述终端响应用户输入的唤醒语，处理模块对第二音频进行语音端点检测，通过终端检测应答语产生的回声的第一音频，将第一音频的结束点之后的第二音频上传到服务器进行语音端点检测，使得服务器进行语音端点检测的音频中不包含第一音频，从而避免服务器将回声的端点误识别为用户语音的端点的情况，提高语音端点检测的准确度。

可选地，所述处理模块802，具体用于：

可选地，所述处理模块802，还用于：

对所述语音进行识别，得到语音识别结果；

本申请实施例提供的语音处理装置，可用于执行上述以服务器为执行主体的方法实施例，其实现原理和技术效果类似，本实施例此处不再赘述。

图9为本申请一实施例提供的终端的硬件结构示意图。如图9所示，本实施例提供的终端90包括：至少一个处理器901和存储器902。该终端90还包括通信部件903。其中，处理器901、存储器902以及通信部件903通过总线904连接。

可选地，终端90还可以包括音频组件和/或多媒体组件。其中，音频组件被配置为输出和/或输入音频信号。例如，音频组件包括一个麦克风，当终端处于操作模式，如语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器或经由通信部件903发送。在一些实施例中，音频组件还包括一个扬声器，用于输出音频信号。多媒体组件包括在终端90和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器和触摸面板。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。

在具体实现过程中，至少一个处理器901执行所述存储器902存储的计算机执行指令，使得至少一个处理器901执行如上以终端为执行主体的语音处理方法。

处理器901的具体实现过程可参见上述方法实施例，其实现原理和技术效果类似，本实施例此处不再赘述。

图10为本申请另一实施例提供的服务器的硬件结构示意图。如图10所示，本实施例提供的服务器100包括：至少一个处理器1001和存储器1002。该服务器100还包括通信部件1003。其中，处理器1001、存储器1002以及通信部件1003通过总线1004连接。

在具体实现过程中，至少一个处理器1001执行所述存储器1002存储的计算机执行指令，使得至少一个处理器1001执行如上以服务器为执行主体的语音处理方法。

处理器1001的具体实现过程可参见上述方法实施例，其实现原理和技术效果类似，本实施例此处不再赘述。

在上述的图9和图10所示的实施例中，应理解，处理器可以是中央处理单元(英文：Central Processing Unit，简称：CPU)，还可以是其他通用处理器、数字信号处理器(英文：Digital Signal Processor，简称：DSP)、专用集成电路(英文：Application SpecificIntegrated Circuit，简称：ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合申请所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

存储器可能包含高速RAM存储器，也可能还包括非易失性存储NVM，例如至少一个磁盘存储器。

总线可以是工业标准体系结构(Industry Standard Architecture，ISA)总线、外部设备互连(Peripheral Component Interconnect，PCI)总线或扩展工业标准体系结构(Extended Industry Standard Architecture，EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，本申请附图中的总线并不限定仅有一根总线或一种类型的总线。

本申请还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现如上以终端为执行主体的语音处理方法。

本申请还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现如上以服务器为执行主体的语音处理方法。

上述可读存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。可读存储介质可以是通用或专用计算机能够存取的任何可用介质。

一种示例性的可读存储介质耦合至处理器，从而使处理器能够从该可读存储介质读取信息，且可向该可读存储介质写入信息。当然，可读存储介质也可以是处理器的组成部分。处理器和可读存储介质可以位于专用集成电路(Application Specific IntegratedCircuits，简称：ASIC)中。当然，处理器和可读存储介质也可以作为分立组件存在于设备中。

最后应说明的是：以上各实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述各实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

Claims

1.一种语音处理方法，其特征在于，应用于终端，所述方法包括：

采集待检测音频；

根据应答语对应的音频特征，确定所述待检测音频中是否存在第一音频；

在检测到所述待检测音频中存在第一音频时，确定所述第一音频的结束点；其中，所述第一音频为由应答语产生的回声的音频，所述应答语用于所述终端响应用户输入的唤醒语，将所述第一音频的结束点之后的第二音频上传至服务器；

其中，所述第二音频用于所述服务器进行语音端点检测。

2.根据权利要求1所述的方法，其特征在于，根据所述应答语对应的音频特征，确定所述待检测音频中是否存在所述第一音频，包括：

提取所述应答语对应的音频特征；

3.根据权利要求1所述的方法，其特征在于，根据所述应答语对应的音频特征，确定所述待检测音频中是否存在所述第一音频，包括：

4.根据权利要求1-3任一项所述的方法，其特征在于，所述方法还包括：

5.根据权利要求1-3任一项所述的方法，其特征在于，采集待检测音频，包括：

6.根据权利要求1-3任一项所述的方法，其特征在于，所述方法还包括：

7.一种语音处理方法，其特征在于，应用于服务器，所述方法包括：

接收终端发送的第二音频，其中，所述第二音频为所述终端采集的待检测音频中位于第一音频的结束点之后的音频，所述第一音频为由应答语产生的回声的音频，所述第一音频是由所述终端根据所述应答语对应的音频特征确定，所述应答语用于所述终端响应用户输入的唤醒语；

对所述第二音频进行语音端点检测。

8.根据权利要求7所述的方法，其特征在于，对所述第二音频进行语音端点检测，包括：

9.根据权利要求7所述的方法，其特征在于，对所述第二音频进行语音端点检测，包括：

10.根据权利要求7-9任一项所述的方法，其特征在于，对所述第二音频进行语音端点检测之后，所述方法还包括：

对所述语音进行识别，得到语音识别结果；

11.一种语音处理装置，其特征在于，应用于终端，所述装置包括：

采集模块，用于采集待检测音频；

所述检测模块，用于：根据应答语对应的音频特征，确定所述待检测音频中是否存在第一音频；

发送模块，用于在检测到所述待检测音频中存在第一音频时，确定所述第一音频的结束点；其中，所述第一音频为由应答语产生的回声的音频，所述应答语用于所述终端响应用户输入的唤醒语，将第一音频的结束点之后的第二音频上传至服务器；

其中，所述第二音频用于所述服务器进行语音端点检测。

12.根据权利要求11所述的装置，其特征在于，所述检测模块，具体用于：

提取所述应答语对应的音频特征；

13.根据权利要求11所述的装置，其特征在于，所述检测模块，具体用于：

14.根据权利要求11-13任一项所述的装置，其特征在于，所述发送模块，还用于：

15.根据权利要求11-13任一项所述的装置，其特征在于，所述采集模块，具体用于：

16.根据权利要求11-13任一项所述的装置，其特征在于，所述装置还包括：显示模块；

所述显示模块，用于：

17.一种语音处理装置，其特征在于，应用于服务器，所述装置包括：

接收模块，用于接收终端发送的第二音频，其中，所述第二音频为所述终端采集的待检测音频中位于第一音频的结束点之后的音频，所述第一音频为由应答语产生的回声的音频，所述第一音频是由所述终端根据所述应答语对应的音频特征确定，所述应答语用于所述终端响应用户输入的唤醒语；

处理模块，用于对所述第二音频进行语音端点检测。

18.根据权利要求17所述的装置，其特征在于，所述处理模块，具体用于：

19.根据权利要求17所述的装置，其特征在于，所述处理模块，具体用于：

20.根据权利要求17-19任一项所述的装置，其特征在于，所述处理模块，还用于：

对所述语音进行识别，得到语音识别结果；

21.一种终端，其特征在于，包括：至少一个处理器和存储器；

所述存储器存储计算机执行指令；

所述至少一个处理器执行所述存储器存储的计算机执行指令，使得所述至少一个处理器执行如权利要求1-6任一项所述的语音处理方法。

22.一种服务器，其特征在于，包括：至少一个处理器和存储器；

所述存储器存储计算机执行指令；

所述至少一个处理器执行所述存储器存储的计算机执行指令，使得所述至少一个处理器执行如权利要求7-10任一项所述的语音处理方法。

23.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现如权利要求1-6任一项所述的语音处理方法。

24.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现如权利要求7-10任一项所述的语音处理方法。