CN113192502A

CN113192502A - 音频处理方法、装置及存储介质

Info

Publication number: CN113192502A
Application number: CN202110460153.4A
Authority: CN
Inventors: 张一鸣; 梁荣堂; 熊磊; 王刚; 赵钰; 于思民
Original assignee: Beijing Xiaomi Mobile Software Co Ltd; Beijing Xiaomi Pinecone Electronic Co Ltd
Current assignee: Beijing Xiaomi Mobile Software Co Ltd; Beijing Xiaomi Pinecone Electronic Co Ltd
Priority date: 2021-04-27
Filing date: 2021-04-27
Publication date: 2021-07-30

Abstract

本公开是关于一种音频处理方法、装置及存储介质。该方法应用于云服务器，该方法包括：接收终端设备发送的第一音频数据；对第一音频数据进行语音识别；在得到第一语音识别结果的情况下，对第一语音识别结果进行语义分析，得到语义分析结果；基于语义分析结果，确定是否向终端设备发送判停指令；其中，判停指令用于指示终端设备停止发送音频数据。这样，不需要依赖标注数据来训练判停模型，能够减少由于标注数据的不准确导致判停模型精确度不高的问题，且能够获得更加准确的语音判停结果，使得发送至终端设备的判停指令更加精确。

Description

音频处理方法、装置及存储介质

技术领域

本公开涉及信息技术领域，尤其涉及一种音频处理方法、装置及存储介质。

背景技术

目前，通过语音进行人机交互的交互方式受到了广泛关注，整个互联网行业都在积极探索语音交互可能的应用方式和应用场景，且已经有大量基于语音交互的产品面世，如智能音箱、语音助手等。在进行语音交互时，如果用户在说话的过程中出现停顿或者拖音的情况，在停顿或拖音的时间稍长一点时，将无法准确判断出语音结束点。

相关技术中，可以基于kaldi模型或者基于机器学习模型训练的判停方法确定语音结束点。但是，kaldi模型在对人声中间的停顿或拖音进行计算时，该部分的能量值结果会与静音部分计算得到的能量值大小相似，进而导致kaldi模型出现将停顿或拖音现象错误判断为语音结束点，而无法获取说话人整句语音的最终结束位置。而基于机器学习模型训练的判停方法依赖于大量的标注数据，而在标注的音频数据中说话人的停顿与拖音时的音频特征与语音结束点的音频特征类似，会导致完全准确地训练生成判停模型，同样容易产生误判的情况。

发明内容

本公开提供一种音频处理方法、装置及存储介质。

根据本公开实施例的第一方面，提供一种音频处理方法，应用于云服务器，所述方法包括：

接收终端设备发送的第一音频数据；

对所述第一音频数据进行语音识别；

在得到第一语音识别结果的情况下，对所述第一语音识别结果进行语义分析，得到语义分析结果；

基于所述语义分析结果，确定是否向所述终端设备发送判停指令；其中，所述判停指令用于指示所述终端设备停止发送音频数据。

可选的，所述方法还包括：

在第一预设时长内未得到所述第一语音识别结果的情况下，向所述终端设备发送所述判停指令；

其中，所述第一预设时长的起始时刻为：接收到所述第一音频数据的时刻。

可选的，所述方法还包括：

在第二预设时长内未得到第二语音识别结果，且未检测到语音结束点的情况下，向所述终端设备发送所述判停指令；

其中，所述第二预设时长的起始时刻为：得到所述第一语音识别结果的时刻。

可选的，所述在得到第一语音识别结果的情况下，对所述第一语音识别结果进行语义分析，包括：

在得到所述第一语音识别结果，且检测到语音结束点的情况下，对所述第一语音识别结果进行语义分析。

可选的，所述方法还包括：

如果所述语义分析结果表征所述第一语音识别结果为非完整语句，则向所述终端设备发送所述第一语音识别结果对应的响应信息；

其中，所述响应信息用于指示所述终端设备发送音频数据。

可选的，所述如果所述语义分析结果表征所述第一语音识别结果为非完整语句，则向所述终端设备发送所述第一语音识别结果对应的响应信息，包括：

如果所述语义分析结果表征所述第一语音识别结果为非完整语句，则确定在第三预设时长内是否接收到第二音频数据；其中，所述第三预设时长的起始时刻为：确定出所述第一语音识别结果为非完整语句的时刻；

如果在所述第三预设时长内未接收到所述第二音频数据，则向所述终端设备发送所述响应信息。

可选的，所述基于所述语义分析结果，确定是否向所述终端设备发送判停指令，包括：

在所述语义分析结果表征所述第一语音识别结果为完整语句的情况下，向所述终端设备发送判停指令。

根据本公开实施例的第二方面，提供音频处理方法，应用于终端设备，所述方法包括：

向云服务器发送第一音频数据；

接收所述云服务器发送的判停指令；其中，所述判停指令为：所述云服务器对所述第一音频数据进行语音识别得到第一语音识别结果的情况下，对所述第一语音识别结果进行语义分析得到的语义分析结果确定的；

基于所述判停指令，停止向所述终端设备发送音频数据。

可选的，所述方法还包括：

接收所述云服务器发送的响应信息；其中，所述响应信息为：所述云服务器在确定所述第一语音识别结果为非完整语句的情况下发送的；

基于所述响应信息，向所述云服务器发送第三音频数据。

根据本公开实施例的第三方面，提供一种音频处理装置，应用于云服务器，所述装置包括：

接收模块，配置为接收终端设备发送的第一音频数据；

识别模块，配置为对所述第一音频数据进行语音识别；

语义处理模块，配置为在得到第一语音识别结果的情况下，对所述第一语音识别结果进行语义分析，得到语义分析结果；

第一发送模块，配置为基于所述语义分析结果，确定是否向所述终端设备发送判停指令；其中，所述判停指令用于指示所述终端设备停止发送音频数据。

可选的，所述装置还包括：

第二发送模块，配置为在所述第一预设时长内未得到所述第一语音识别结果的情况下，向所述终端设备发送所述判停指令；

可选的，所述装置还包括：

第三发送模块，配置为在所述第二预设时长内未得到第二语音识别结果，且未检测到语音结束点的情况下，向所述终端设备发送所述判停指令；

可选的，所述语义处理模块，还配置为：

可选的，所述装置还包括：

第四发送模块，配置为如果所述语义分析结果表征所述第一语音识别结果为非完整语句，则向所述终端设备发送所述第一语音识别结果对应的响应信息；

其中，所述响应信息用于指示所述终端设备发送音频数据。

可选的，所述第四发送模块，还配置为：

可选的，所述第一发送模块，还配置为：

在所述语义分析结果表征所述第一语音识别结果为完整语句的情况下，向所述终端设备发送所述判停指令。

根据本公开实施例的第四方面，提供一种音频处理装置，应用于终端设备，所述装置包括：

第五发送模块，配置为向云服务器发送第一音频数据；

指令接收模块，配置为接收所述云服务器发送的判停指令；其中，所述判停指令为：所述云服务器对所述第一音频数据进行语音识别得到第一语音识别结果的情况下，对所述第一语音识别结果进行语义分析得到的语义分析结果确定的；

停止模块，配置为基于所述判停指令，停止向所述终端设备发送音频数据。

可选的，所述装置还包括：

信息接收模块，配置为接收所述云服务器发送的响应信息；其中，所述响应信息为：所述云服务器在确定所述第一语音识别结果为非完整语句的情况下发送的；

第六发送模块，配置为基于所述响应信息，向所述云服务器发送第三音频数据。

根据本公开实施例的第五方面，提供一种音频处理装置，包括：

处理器；

配置为存储处理器可执行指令的存储器；

其中，所述处理器配置为：执行时实现上述第一方面或者第二方面中任一种音频处理方法中的步骤。

根据本公开实施例的第六方面，提供一种非临时性计算机可读存储介质，当所述存储介质中的指令由音频处理装置的处理器执行时，使得所述装置能够执行上述第一方面或者第二方面中任一种音频处理方法。

本公开的实施例提供的技术方案可以包括以下有益效果：

本公开实施例中，在云服务器接收到终端设备发送的第一音频数据之后，可以对第一音频数据进行语音识别，在得到第一语音识别结果的情况下，对第一语音识别结果进行语义分析，得到语义分析结果，进而根据语义分析结果确定是否向终端设备发送所述判停指令。

本公开实施例中的技术方案，第一方面，本公开通过将语音识别与语义处理相结合，基于语音识别结果和语义分析结果对语音数据进行判停，相较于相关技术中通过能量值进行判停的方式，能够从语音和语义两个层面上进行判停，判停结果更加精确。第二方面，不需要依赖标注数据来训练判停模型，能够减少由于标注数据的不准确导致判停模型精确度不高的问题。第三方面，相较于在识别出语音识别结果之后，就直接向终端设备发送判停指令，本公开还可以在得到语音识别结果之后，能够对识别的语音识别结果进行进一步分析处理，通过将语义分析结果考虑进去，能够获得更加准确的语音判停结果，使得发送至终端设备的判停指令更加精确。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

图1是根据一示例性实施例示出的音频处理方法的流程图一。

图2是根据一示例性实施例示出的音频处理***的架构示意图。

图3是根据一示例性实施例示出的音频处理方法的流程图二。

图4是根据一示例性实施例示出的音频处理方法的流程图三。

图5是根据一示例性实施例示出的一种音频处理装置框图。

图6是根据一示例性实施例示出的一种音频处理装置400的硬件结构框图。

图7是根据一示例性实施例示出的一种音频处理装置1300的硬件结构框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

图1是根据一示例性实施例示出的音频处理方法的流程图一，如图1所示，该方法应用于云服务器，该方法主要包括以下步骤：

在步骤101中，接收终端设备发送的第一音频数据；

在步骤102中，对所述第一音频数据进行语音识别；

在步骤103中，在得到第一语音识别结果的情况下，对所述第一语音识别结果进行语义分析，得到语义分析结果；

在步骤104中，基于所述语义分析结果，确定是否向所述终端设备发送判停指令；其中，所述判停指令用于指示所述终端设备停止发送音频数据。

这里，终端设备可以包括移动终端和固定终端，例如，手机、平板电脑、掌上电脑、笔记本电脑、台式机、可穿戴式移动设备、智能音箱以及电视等。

在实现的过程中，可以基于终端设备的音频采集模组采集第一音频数据，在采集到第一音频数据之后，可以将该第一音频数据发送至云服务器。例如，在唤醒终端设备上安装的目标应用程序之后，就控制终端设备的音频采集模组采集音频数据。其中，目标应用程序为可以安装在终端设备上的应用程序，用于与用户进行语音交互，例如，语音助手等。

其中，音频采集模组可以是终端设备所包含的用于采集音频的模组，以终端设备是手机为例，音频采集模组可以为手机上的麦克风。这里，可以基于自动语音识别(Automatic Speech Recognition，ASR)技术对第一音频数据进行语音识别。在另一些实施例中，还可以基于回声消除(Acoustic Echo Cancellation，AEC)技术对第一音频数据进行回声消除处理，以消除第一音频数据中的噪音。

在一些实施例中，云服务器包括语音识别模组(如，ASR模组)和语义处理模组。

本公开实施例中，在用户与终端设备进行语音交互时，终端设备可以对用户输入的第一音频数据进行录制，并将录制的第一音频数据上传至云服务器。云服务器在接收到第一音频数据之后，可以基于语音识别模组对第一音频数据进行语音识别，在语音识别模组识别出第一语音识别结果的情况下，能够基于语义处理模组对第一语音识别结果进行语义分析，并基于语义分析结果确定是否向终端设备发送判停指令。

在一些实施例中，语义分析结果可以用于表征第一语音识别结果是否为完整语句。这里，第一语音识别结果至少包括：第一语义内容，例如，文本内容。本公开实施例中，在得到第一语音识别结果之后，可以进一步检测第一语音识别结果是否完整。检测第一语音识别结果是否完整包括：获取第一语音识别结果中的第一语义内容；对所述第一语义内容进行语义分析，得到语义分析结果；根据语义分析结果确定第一语音识别结果是否完整。

例如，第一语义内容为“请帮我定”。经过对第一语义内容进行分析可知，虽然第一语义内容中包括部分词语，但是仅基于第一语义内容中所包含的词语并不足以确定出用户的需求是什么。由此可知，第一语义内容可能是用户在输入音频数据的过程中有所停顿或者被中断，可以判定第一语音识别结果不完整，即第一语音识别结果为非完整语句。

在一些实施例中，可以基于自然语言处理NLP(Natural Language Processing)模组检测第一语音识别结果是否完整。

在一些实施例中，语义处理模组用于：判断用户输入的音频数据所对应的语音识别结果是否为完整语句。该语义处理模组可以为：通过采集的历史音频数据(日常对话)对应的完整语句和非完整语句作为样本输入，进行深度学习模型训练并获得的语义处理模型。在使用该语义处理模型时，可以以语音识别结果(例如，文本结果)作为输入，经过语义处理模型输出预测结果，其中，预测结果用于表征输入的语音识别结果是否为完整语句，从而实现语义处理模组对第一音频数据的语义层面的语句完整判断。

在另一些实施例中，该方法还包括：如果语音识别模组未得到第一语音识别结果，则可以向终端设备发送判停指令。本公开实施例中，如果语音识别模组未得到第一语音识别结果，则可以确定用户没有与终端设备进行音频交互，为节省云服务器的***资源，可以会对当前音频进行强制判停。

在其他可选的实施例中，终端设备还可以基于本地的语音判停模组对第一音频数据进行判停处理。例如，在终端设备向云服务器发送音频数据的过程中，终端设备可以实时计算音频数据的音频能量值，在音频能量值小于设定能量阈值的情况下，确定用户的音频输入结束，终端设备同时停止上传音频数据到云服务器。在另一些实施例中，在确定音频能量小于设定能量阈值的情况下，可以不立即停止音频数据的上传，而是在设定观察时长内继续确定音频能量值的大小，如果在设定观察时长内音频能量值持续小于设定能量阈值，则确定用户的音频输入结束，终端设备停止向云服务器发送音频数据。

本公开实施例中，在云服务器接收到终端设备发送的第一音频数据之后，可以对第一音频数据进行语音识别，在得到第一语音识别结果的情况下，对第一语音识别结果进行语义分析，得到语义分析结果，进而根据语义分析结果确定是否向终端设备发送判停指令。

在一些实施例中，所述方法还包括：

在第一预设时长内未得到所述第一语音识别结果的情况下，向所述终端设备发送判停指令；

这里，第一预设时长可以是根据实验确定的时长，也可以是根据经验确定的时长，例如，可以将第一预设时长确定为5秒(s)、10s等，在此不作具体限定。

本公开实施例中，在接收到第一音频数据的时刻开始进行计时，如果在第一预设时长内没有识别出第一语音识别结果，则表明用户在第一预设时长内没有与终端设备进行音频交互，这时，可以直接向终端设备发送判停指令，以指示终端设备停止向云服务器发送音频数据，进而节省云服务器由于等待音频数据所需耗费的***资源。

在另一些实施例中，如果语音识别模组在第一预设时长内未得到了第一语音识别结果，则可以继续基于语音端点检测模组是否检测到语音结束点。

在一些实施例中，所述方法还包括：

在第二预设时长内未得到第二语音识别结果，且未检测到语音结束点的情况下，向所述终端设备发送判停指令；

本公开实施例中，在语音识别模组对第一音频数据进行语音识别的同时，可以持续基于语音端点检测模组对第一音频数据进行语音端点检测。

这里，如果语音识别模组在识别的过程中，得到了第一音频数据对应的部分或者全部语音识别结果，但语音端点检测模组尚未检测到语音结束点的情况下，可以以得到第一语音识别结果的时刻为起始时刻开始计时，确定在第二预设时长内是否得到第二语音识别结果。

这里，第二预设时长可以是根据实验确定的时长，也可以是根据经验确定的时长，例如，可以将第二预设时长确定为3s、5s等，在此不作具体限定。

本公开实施例中，如果在第二预设时长内没有得到第二语音识别结果(新的语音识别结果)，且未检测到语音结束点的情况下，云服务器可以确定语音端点检测模组失效，这时，可以直接向终端设备发送判停指令，进行强制判停逻辑，以通知终端设备停止上传音频数据，进而降低由于语音端点检测模组失效而引起误判的可能性。

在另一些实施例中，如果在第二预设时长内得到了第二语音识别结果，则可以基于第一语音识别结果和第二语音识别结果得到当前语音识别结果，并继续基于语音端点检测模组进行语音端点的检测，直至检测到语音结束点或者在第二预设时长内没有再继续得到新的语音识别结果。

在一些实施例中，所述在得到第一语音识别结果的情况下，对所述第一语音识别结果进行语义分析，包括：

本公开实施例中，在语音识别模组正常进行语音识别并持续有新的语音识别结果生成的情况下，如果语音端点检测模组检测到了语音结束点，云服务器可以将检测到语音结束点的判停时刻得到的当前语音识别结果发送至语义处理模组，以通过语义处理模组对当前语音识别结果的完整性进行判断。其中，当前语音识别结果可以是基于所有的语音识别结果生成的。

本公开实施例中，在语音识别模组对第一音频数据进行语音识别的同时，可以持续基于语音端点检测模组对第一音频数据进行语音端点检测，在得到第一语音识别结果，且语音端点检测模组检测到语音结束点的情况下，表明当前的音频数据的输入已经结束。这时，可以直接基于语义处理模组对第一语音识别结果进行语义分析。

在其他可选的实施例中，如果得到了第一语音识别结果，但语音端点检测没有检测到语音结束点的情况下，则可以确定在第二预设时长内是否有得到新的语音识别结果，如果没有得到新的语音识别结果，则向终端设备发送判停指令。

如果在第二预设时长内得到新的语音识别结果，则基于可以基于第一语义识别结果和新的语音识别结果得到当前语音识别结果，并继续基于语音端点检测模组进行语音端点的检测，直至检测到语音结束点或者在第二预设时长内没有再继续得到新的语音识别结果。

在一些实施例中，所述方法还包括：

其中，所述响应信息用于指示所述终端设备发送音频数据。

这里，如果确定出第一语音识别结果为非完整语句，则云服务器可以向终端设备发送响应信息。终端设备在接收到该响应信息之后，可以继续向云服务器发送音频数据，云服务器在接收到新的音频数据之后，可以继续对新的音频数据进行语音识别。

当然，终端设备在接收到该响应信息之后，也可以输出该响应信息，以提示用户第一语音识别结果为非完整语句。如果用户继续输入音频数据，则终端设备可以将用户继续输入的音频数据发送至云服务器。在另一些实施例中，用户也可以基于终端设备输入停止进行音频数据的操作，在此不作具体限定。

在一些实施例中，所述如果所述语义分析结果表征所述第一语音识别结果为非完整语句，则向所述终端设备发送所述第一语音识别结果对应的响应信息，包括：

这里，在语义分析结果表征第一语音识别结果为非完整语句的情况下，可以以确定出第一语音识别结果为非完整语句的时刻为起始时刻开始计时，并确定在第三预设时长内是否接收到第二音频数据，如果在第三预设时长内未接收到第二音频数据，则可以直接向终端设备发送该响应信息。

在另一些实施例中，终端设备如果在第三预设时长内接收到了第二音频数据，则可以基于语音识别模组对该第二音频数据进行语音识别。

在另一些实施例中，该方法还包括：如果在所述第三预设时长内未接收到所述第二音频数据，则直接向终端设备发送判停指令。

这里，第三预设时长可以是根据实验确定的时长，也可以是根据经验确定的时长，例如，可以将第三预设时长确定为3s、5s等，在此不作具体限定。

本公开实施例中，能够在云服务器做出响应之前设置等待时长(第三预设时长)，能够减少误判情况的发生。

在一些实施例中，所述基于所述语义分析结果，确定是否向所述终端设备发送判停指令，包括：

本公开实施例中，如果语义处理模组确定第一语音识别结果为完整语句，则云服务器可以确定第一音频数据从语音层面和语义层面双重判断为完整音频，可以直接向终端设备发送判停指令。

在另一些实施例中，所述在所述语义分析结果表征所述第一语音识别结果为完整语句，则向所述终端设备发送所述判停指令，包括：

在所述语义分析结果表征所述第一语音识别结果为完整语句，且语音端点检测模组检测到语音结束点的情况下，向所述终端设备发送所述判停指令

在另一些实施例中，在向终端设备发送判停指令的同时，还可以向终端设备发送最终的语音识别结果。当然，也可以在终端设备发送判停指令之后，再向终端设备发送最终的语音识别结果，在此不作具体限定。

本公开实施例中，基于语音识别模组和语义处理模组对接收到的音频数据进行判停，通过语音识别模组和语音端点检测模组进行语音层面的音频结束判断，通过语义处理模组进行语义层面的语言完整判断，能够从语音和语义两个层面上进行判停，判停结果更加精确。

图2是根据一示例性实施例示出的音频处理***的架构示意图，如图2所示，可以通过云服务器201或者本地的语音判停模组202对用户输入的音频数据进行判停处理。

在一些实施例中，终端设备还可以基于本地的语音判停模组对第一音频数据进行判停处理。例如，在终端设备向云服务器发送音频数据的过程中，终端设备可以实时计算音频数据的音频能量值，在音频能量值小于设定能量阈值时，则确定用户的音频输入结束，终端设备同时停止上传音频数据到云服务器。在另一些实施例中，在确定音频能量小于设定能量阈值时，可以不立即停止音频数据的上传，而是在设定观察时长内继续确定音频能量值的大小，如果在设定观察时长内音频能量值持续小于设定能量阈值，则确定用户的音频输入结束，终端设备停止向云服务器发送音频数据。

图3是根据一示例性实施例示出的音频处理方法的流程图二，如图3所示，该方法主要包括以下步骤：

在步骤301中，基于语音识别模组对第一音频数据进行语音识别。

这里，可以基于ASR模组对第一音频数据进行语音识别。在另一些实施例中，还可以基于AEC技术对第一音频数据进行回声消除处理。

在步骤302中，确定在第一预设时长内，是否得到第一语音识别结果。

这里，如果在第一预设时长内未得到第一语音识别结果，则向终端设备发送判停指令。本公开实施例中，在接收到第一音频数据的时刻开始进行计时，如果在第一预设时长内没有识别出第一语音识别结果，则表明用户在第一预设时长内没有与终端设备进行音频交互，这时，可以直接向终端设备发送判停指令，以指示终端设备停止向云服务器发送音频数据，进而节省云服务器由于等待音频数据所需耗费的***资源。

在步骤303中，如果在第一预设时长内得到了第一语音识别结果，则确定语音端点检测模组是否检测到语音结束点。

在步骤304中，如果语音端点检测模组未检测到语音结束点，则确定在第二预设时长内是否得到第二语音识别结果。

这里，如果在所述第二预设时长内未得到所述第二语音识别结果，则向所述终端设备发送判停指令。如果在所述第二预设时长内得到所述第二语音识别结果，则继续确定语音端点检测模组是否检测到语音结束点。

本公开实施例中，如果在第二预设时长内没有得到第二语音识别结果(新的语音识别结果)，则云服务器可以确定语音端点检测模组失效，这时，可以直接向终端设备发送判停指令，进行强制判停逻辑，以通知终端设备停止上传音频数据，进而降低由于语音端点检测模组失效而引起误判的可能性。

在步骤305中，在语音端点检测模组检测到语音结束点的情况下，基于所述语义处理模组对所述第一语音识别结果进行语义分析。

在步骤306中，基于语义分析结果，确定第一语音识别结果是否为完整语句。

在步骤307中，如果所述语义分析结果表征所述第一语音识别结果为非完整语句，则向所述终端设备发送所述第一语音识别结果对应的响应信息。

这里，如果语义处理模组确定出第一语音识别结果为非完整语句，则云服务器可以向终端设备发送响应信息。由于响应信息可以向终端设备提示该第一语音识别结果为非完整语句，终端设备在接收到该响应信息之后，可以继续向云服务器发送音频数据，云服务器在接收到新的音频数据之后，可以继续对新的音频数据进行语音识别。

在另一些实施例中，在所述语义分析结果表征所述第一语音识别结果为完整语句，则向所述终端设备发送所述判停指令。

在另一些实施例中，在向终端设备发送判停指令的同时，还可以向终端设备发送最终的语音识别结果。当然，也可以在终端设备发送判停指令之后，再向终端设备发送最终的语音识别结果，在此不作具体限定。其中，最终的语音识别结果可以是语义处理模组基于所有的语音识别结果生成的结果。

本公开实施例中，由于针对语音识别模组增加了第一预设时长和第二预设时长的两种超时逻辑，使得云服务器能够对终端设备上传的音频数据进行强制语音判停，避免由于云服务器的语音端点检测模组失效或计算速度较慢，导致的资源浪费问题。

同时，云服务器通过利用语义处理模组对语音识别结果进行语义判断，从而实现语音和语义两个层面上的判断，在语音端点检测模组由于用户的思考出现的停顿或拖音现象，而做出错误的判停操作的情况下，语义处理模组能够及时判断语音识别结果是否为非完整语句。如果语义处理模组能够及时判断语音识别结果为非完整语句，则云服务器不进行音频数据的最终判停，使得终端设备能够继续上传音频数据，进而能够解决语音端点检测模组的误判停问题。

通过本公开的技术方案，解决了由于用户的停顿或拖音情况引起的语音端点检测模组误判停问题，语音判停准确率能够从84.1％上升至92.3％；同时，因判停准确率的提升，语音识别模组识别语句的准确率亦从93.5％提升至95.8％。

图4是根据一示例性实施例示出的音频处理方法的流程图三，如图4所示，该方法应用于终端设备，该方法主要包括以下步骤：

在步骤31中，向云服务器发送第一音频数据；

在步骤32中，接收所述云服务器发送的判停指令；其中，所述判停指令为：所述云服务器对所述第一音频数据进行语音识别得到第一语音识别结果的情况下，对所述第一语音识别结果进行语义分析得到的语义分析结果确定的；

在步骤33中，基于所述判停指令，停止向所述终端设备发送音频数据。

在一些实施例中，所述方法还包括：

基于所述响应信息，向所述云服务器发送第三音频数据。

图5是根据一示例性实施例示出的一种音频处理装置框图。如图5所示，该音频处理装置40应用于云服务器，主要包括：

接收模块41，配置为接收终端设备发送的第一音频数据；

识别模块42，配置为对所述第一音频数据进行语音识别；

语义处理模块43，配置为在得到第一语音识别结果的情况下，对所述第一语音识别结果进行语义分析，得到语义分析结果；

第一发送模块44，配置为基于所述语义分析结果，确定是否向所述终端设备发送判停指令；其中，所述判停指令用于指示所述终端设备停止发送音频数据。

在一些实施例中，所述装置40还包括：

第二发送模块，配置为在第一预设时长内未得到所述第一语音识别结果的情况下，向所述终端设备发送判停指令；

在一些实施例中，所述装置40还包括：

第三发送模块，配置为在第二预设时长内未得到第二语音识别结果，且未检测到语音结束点的情况下，向所述终端设备发送判停指令；

在一些实施例中，所述语义处理模块43，还配置为：

在一些实施例中，所述装置40还包括：

其中，所述响应信息用于指示所述终端设备发送音频数据。

在一些实施例中，所述第四发送模块，还配置为：

在一些实施例中，所述第一发送模块44，还配置为：

在另一些实施例中，还提供一种音频处理装置，该音频处理装置应用于终端设备，所述装置包括：

第五发送模块，配置为向云服务器发送第一音频数据；

在一些实施例中，所述装置还包括：

第六发送模块，配置为基于所述响应信息，向所述云服务器发送第三音频数据。关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图6是根据一示例性实施例示出的一种音频处理装置400的硬件结构框图。例如，装置400可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图6，装置400可以包括以下一个或多个组件：处理组件402，存储器404，电力组件406，多媒体组件408，音频组件410，输入/输出(I/O)的接口412，传感器组件414，以及通信组件416。

处理组件402通常控制装置400的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件402可以包括一个或多个处理器420来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件402可以包括一个或多个模块，便于处理组件402和其他组件之间的交互。例如，处理组件402可以包括多媒体模块，以方便多媒体组件408和处理组件402之间的交互。

存储器404被配置为存储各种类型的数据以支持在装置400的操作。这些数据的示例包括用于在装置400上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器404可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电力组件406为装置400的各种组件提供电力。电力组件406可以包括电源管理***，一个或多个电源，及其他与为装置400生成、管理和分配电力相关联的组件。

多媒体组件408包括在所述装置400和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件408包括一个前置摄像头和/或后置摄像头。当装置400处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜***或具有焦距和光学变焦能力。

音频组件410被配置为输出和/或输入音频信号。例如，音频组件410包括一个麦克风(MIC)，当装置400处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器404或经由通信组件416发送。在一些实施例中，音频组件410还包括一个扬声器，用于输出音频信号。

I/O接口412为处理组件402和***接口模块之间提供接口，上述***接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件414包括一个或多个传感器，用于为装置400提供各个方面的状态评估。例如，传感器组件414可以检测到装置400的打开/关闭状态，组件的相对定位，例如所述组件为装置400的显示器和小键盘，传感器组件414还可以检测装置400或装置400一个组件的位置改变，用户与装置400接触的存在或不存在，装置400方位或加速/减速和装置400的温度变化。传感器组件414可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件414还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件414还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件416被配置为便于装置400和其他设备之间有线或无线方式的通信。装置400可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信组件416经由广播信道接收来自外部广播管理***的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件416还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，装置400可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器404，上述指令可由装置400的处理器420执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

一种非临时性计算机可读存储介质，当所述存储介质中的指令由音频处理装置的处理器执行时，使得音频处理装置能够执行一种音频处理方法，所述方法包括：

向云服务器发送第一音频数据；

基于所述判停指令，停止向所述终端设备发送音频数据。

图7是根据一示例性实施例示出的一种音频处理装置1300的硬件结构框图。例如，装置1300可以被提供为一服务器。参照图7，装置1300包括处理组件1322，其进一步包括一个或多个处理器，以及由存储器1332所代表的存储器资源，用于存储可由处理组件1322的执行的指令，例如应用程序。存储器1332中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件1322被配置为执行指令，以执行上述音频处理方法，所述方法包括：

接收终端设备发送的第一音频数据；

对所述第一音频数据进行语音识别；

装置1300还可以包括一个电源组件1326被配置为执行装置1300的电源管理，一个有线或无线网络接口1350被配置为将装置1300连接到网络，和一个输入输出(I/O)接口1358。装置1300可以操作基于存储在存储器1332的操作***，例如Windows ServerTM，MacOS XTM，UnixTM，LinuxTM，FreeBSDTM或类似。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种音频处理方法，其特征在于，应用于云服务器，所述方法包括：

接收终端设备发送的第一音频数据；

对所述第一音频数据进行语音识别；

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

4.根据权利要求1所述的方法，其特征在于，所述在得到第一语音识别结果的情况下，对所述第一语音识别结果进行语义分析，包括：

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

其中，所述响应信息用于指示所述终端设备发送音频数据。

6.根据权利要求5所述的方法，其特征在于，所述如果所述语义分析结果表征所述第一语音识别结果为非完整语句，则向所述终端设备发送所述第一语音识别结果对应的响应信息，包括：

7.根据权利要求1所述的方法，其特征在于，所述基于所述语义分析结果，确定是否向所述终端设备发送判停指令，包括：

8.一种音频处理方法，其特征在于，应用于终端设备，所述方法包括：

向云服务器发送第一音频数据；

基于所述判停指令，停止向所述终端设备发送音频数据。

9.根据权利要求8所述的方法，其特征在于，所述方法还包括：

基于所述响应信息，向所述云服务器发送第三音频数据。

10.一种音频处理装置，其特征在于，应用于云服务器，所述装置包括：

接收模块，配置为接收终端设备发送的第一音频数据；

识别模块，配置为对所述第一音频数据进行语音识别；

11.根据权利要求10所述的装置，其特征在于，所述装置还包括：

第二发送模块，配置为在第一预设时长内未得到所述第一语音识别结果的情况下，向所述终端设备发送所述判停指令；

12.根据权利要求10所述的装置，其特征在于，所述装置还包括：

第三发送模块，配置为在第二预设时长内未得到第二语音识别结果，且未检测到语音结束点的情况下，向所述终端设备发送所述判停指令；

13.根据权利要求10所述的装置，其特征在于，所述语义处理模块，还配置为：

14.根据权利要求10所述的装置，其特征在于，所述装置还包括：

其中，所述响应信息用于指示所述终端设备发送音频数据。

15.根据权利要求14所述的装置，其特征在于，所述第四发送模块，还配置为：

16.根据权利要求10所述的装置，其特征在于，所述第一发送模块，还配置为：

17.一种音频处理装置，其特征在于，应用于终端设备，所述装置包括：

第五发送模块，配置为向云服务器发送第一音频数据；

18.根据权利要求17所述的装置，其特征在于，所述装置还包括：

19.一种音频处理装置，其特征在于，包括：

处理器；

配置为存储处理器可执行指令的存储器；

其中，所述处理器配置为：执行时实现上述权利要求1至9中任一种音频处理方法中的步骤。

20.一种非临时性计算机可读存储介质，当所述存储介质中的指令由音频处理装置的处理器执行时，使得所述装置能够执行上述权利要求1至9中任一种音频处理方法。