CN111210822A

CN111210822A - 语音识别方法及其装置

Info

Publication number: CN111210822A
Application number: CN202010088060.9A
Authority: CN
Inventors: 杨潇峰
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2020-02-12
Filing date: 2020-02-12
Publication date: 2020-05-29

Abstract

本说明书实施例公开了一种自动语音识别方法及其装置，其中，该方法包括：获取待识别语音，对待识别语音进行分割，以生成多个音频切片。将多个音频切片分别发送给多个语音识别方，其中，语音识别方能够生成音频切片对应的文本。分别从每个语音识别方接收音频切片对应的文本，对多个音频切片对应的文本进行文本聚合，以生成待识别语音的识别结果。由此，实现了将待识别语音的音频切片发送给多个语音识别方，由多个语音识别方共同完成待识别语音的识别工作，在语音识别过程中任何语音识别方无法获得全部的待识别语音，从而防止了待识别语音出现泄漏，对待识别语音的内容进行了保密，保护了隐私。

Description

语音识别方法及其装置

【技术领域】

本说明书涉及语音识别技术领域，尤其涉及一种语音识别方法及其装置。

【背景技术】

语音即语言的声音，由人的发声器官发出，负载着一定的语言意义。因此，语音是一种特殊的音频。语音识别技术能够将语音中包含的语言意义进行提取，并转化为文本的形式，以便于计算机存储和处理。

相关技术中，语音拥有方通过语音识别方提供的语音识别算法对待识别语音进行自动识别，或者对待识别语音进行人工识别，来将待识别语音转化为对应的文本。当待识别语音中包括隐私信息时，采用现有技术对待识别语音进行处理，会泄露待识别语音中的隐私信息。

【发明内容】

本说明书实施例旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本说明书实施例的第一个目的在于提出一种语音识别方法，由多个语音识别方共同完成待识别语音的识别工作，在语音识别过程中任何语音识别方无法获得全部的待识别语音，从而防止了待识别语音出现泄漏，对待识别语音的内容进行了保密。

本说明书实施例的第二个目的在于提出一种语音识别装置。

本说明书实施例的第三个目的在于提出一种计算机设备。

本说明书实施例的第四个目的在于提出一种非临时性计算机可读存储介质。

为达上述目的，本说明书实施例第一方面实施例提出了一种语音识别方法，包括：获取待识别语音；对所述待识别语音进行分割，以生成多个音频切片；将所述多个音频切片分别发送给多个语音识别方；其中，所述语音识别方能够生成所述音频切片对应的文本；分别从每个所述语音识别方接收所述音频切片对应的文本；以及对所述多个音频切片对应的文本进行文本聚合，以生成所述待识别语音的识别结果。

和现有技术相比，本说明书实施例对待识别语音进行分割，将待识别语音的音频切片发送给多个语音识别方。由多个语音识别方共同完成待识别语音的识别工作，在语音识别过程中任何语音识别方无法获得全部的待识别语音，从而防止了待识别语音出现泄漏，对待识别语音的内容进行了保密。

另外，本说明书实施例的语音识别方法，还具有如下附加的技术特征：

可选地，所述对所述待识别语音进行分割，以生成多个音频切片，包括：生成所述待识别语音的波形图；根据所述波形图中的语音波形，确定所述待识别语音中的停顿；根据所述待识别语音中的停顿，将所述待识别语音分割成所述多个音频切片。

可选地，所述根据所述待识别语音中的停顿，将所述待识别语音分割成所述多个音频切片，包括：使用语音识别技术对所述待识别语音进行识别，以生成所述待识别语音对应的模糊文本；使用分词算法对所述待识别语音对应的模糊文本进行分词；根据所述待识别语音中的停顿和分词结果，将所述待识别语音分割成所述多个音频切片。

可选地，所述将所述多个音频切片分别发送给多个语音识别方，包括：将每个所述音频切片与音频标记相对应；其中，所述音频标记与所述音频切片在所述待识别语音中的位置相关；将多个所述音频切片发送给所述多个语音识别方。

可选地，所述对所述多个音频切片对应的文本进行文本聚合，以生成所述待识别语音的识别结果，包括：根据所述文本与所述音频标记的对应关系，对所述文本进行排序；将排序后的所述文本进行拼接，以生成所述待识别语音的识别结果。

可选地，在所述对所述多个音频切片对应的文本进行文本聚合，以生成所述待识别语音的识别结果之后，还包括：使用语言模型对所述待识别语音的识别结果进行文本纠错。

本说明书实施例第二方面实施例提出了一种语音识别装置，包括：获取模块，用于获取待识别语音；分割模块，用于对所述待识别语音进行分割，以生成多个音频切片；发送模块，用于将所述多个音频切片分别发送给多个语音识别方；其中，所述语音识别方能够生成所述音频切片对应的文本；接收模块，用于分别从每个所述语音识别方接收所述音频切片对应的文本；以及聚合模块，用于对所述多个音频切片对应的文本进行文本聚合，以生成所述待识别语音的识别结果。

另外，本说明书实施例的语音识别装置，还具有如下附加的技术特征：

可选地，所述分割模块，包括：生成子模块，用于生成所述待识别语音的波形图；确定子模块，用于根据所述波形图中的语音波形，确定所述待识别语音中的停顿；分割子模块，用于根据所述待识别语音中的停顿，将所述待识别语音分割成所述多个音频切片。

可选地，所述分割子模块，包括：识别单元，用于使用语音识别技术对所述待识别语音进行识别，以生成所述待识别语音对应的模糊文本；分词单元，用于使用分词算法对所述待识别语音对应的模糊文本进行分词；分割单元，用于根据所述待识别语音中的停顿和分词结果，将所述待识别语音分割成所述多个音频切片。

可选地，所述发送模块，包括：标记子模块，用于将每个所述音频切片与音频标记相对应；其中，所述音频标记与所述音频切片在所述待识别语音中的位置相关；发送子模块，用于将多个所述音频切片发送给所述多个语音识别方。

可选地，所述聚合模块，包括：排序子模块，用于根据所述文本与所述音频标记的对应关系，对所述文本进行排序；拼接子模块，用于将排序后的所述文本进行拼接，以生成所述待识别语音的识别结果。

可选地，所述装置还包括：纠错模块，用于使用语言模型对所述待识别语音的识别结果进行文本纠错。

本说明书实施例第三方面实施例提出了一种计算机设备，包括存储器和处理器；所述存储器上存储有可由处理器运行的计算机程序；所述处理器运行所述计算机程序时，执行如前述方法实施例所述的语音识别方法。

本说明书实施例第四方面实施例提出了一种非临时性计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如前述方法实施例所述的语音识别方法。

本说明书实施例附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本说明书实施例的实践了解到。

【附图说明】

为了更清楚地说明本说明书实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本说明书的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。

图1为本说明书实施例所提出的一种语音识别方法的流程示意图；

图2为本说明书实施例所提出的另一种语音识别方法的流程示意图；

图3为本说明书实施例所提出的又一种语音识别方法的流程示意图；

图4为本说明书实施例所提出的语音识别方法的一个示例的流程图；

图5为本说明书实施例所提出的一种语音识别装置的结构示意图；

图6为本说明书实施例所提出的另一种语音识别装置的结构示意图；以及

图7为本说明书实施例所提出的又一种语音识别装置的结构示意图。

【具体实施方式】

下面详细描述本说明书的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本说明书实施例，而不能理解为对本说明书实施例的限制。

下面参考附图描述本说明书实施例的语音识别方法及其装置。

基于上述现有技术的描述可以知道，相关技术中，语音拥有方通过语音识别方提供的语音识别算法对待识别语音进行自动识别，或者对待识别语音进行人工识别，来将待识别语音转化为对应的文本。

当待识别语音中包括隐私信息时，如果通过语音识别方提供的语音识别算法对待识别语音进行自动识别，需要语音识别方先获取全部的待识别语音，再对待识别语音进行处理，会导致待识别语音出现泄露。

如果对待识别语音进行人工识别，需要由人来听取全部的待识别语音，再手动写出待识别语音对应的文本，同样会导致待识别语音出现泄漏。

针对这一问题，本说明书实施例提出了一种语音识别方法，由多个语音识别方共同完成待识别语音的识别工作，在语音识别过程中任何语音识别方无法获得全部的待识别语音，从而防止了待识别语音出现泄漏，对待识别语音的内容进行了保密。

图1为本说明书实施例所提出的一种语音识别方法的流程示意图。如图1所示，该方法包括以下步骤：

步骤S101，获取待识别语音。

基于前述说明，可以知道，待识别语音是一种特殊的音频，由人的发声器官发出，负载着一定的语言意义，本说明书实施例中待识别语音的识别结果是待识别语音对应的文本。

步骤S103，对待识别语音进行分割，以生成多个音频切片。

需要说明的是，本说明书实施例中由语音识别方提供的语音识别算法对待识别语音进行语音识别，为了防止单个语音识别方获取全部的待识别语音，而导致待识别语音中的隐私信息出现泄漏。本说明书实施例由多个语音识别方分别对待识别语音的一部分进行语音识别，得到待识别语音的不同部分对应的文本，将不同部分对应的文本进行聚合和汇总，即可得到全部待识别语音的识别结果。

本说明书实施例通过对待识别语音进行分割的方式，来生成多个音频切片，每个音频切片即为前述的待识别语音的一部分。其中，音频切片是将一段音频剪成多段后，生成的类似切片形式的子音频。

步骤S105，将多个音频切片分别发送给多个语音识别方。

其中，语音识别方能够生成音频切片对应的文本。

可以理解，语音识别方能够通过语音识别算法来对音频切片进行识别，生成音频切片对应的文本。一种可能的实施方式是语音识别算法通过预先分析出的语音特征参数，制作语音模板，并存放在语音参数库中；对音频切片进行分析，得到对应的音频切片参数，将音频切片参数与语音参数库中的语音模板进行比较，生成音频切片对应的文本。

需要说明的是，本说明书实施例中的语音识别方之间相互独立，即每个语音识别方只能接收对应的音频切片，无法获知其他的音频切片，以及其他音频切片对应的文本。

步骤S107，分别从每个语音识别方接收音频切片对应的文本。

基于前述说明，可以知道，本说明书实施例将待识别语音分割成多个音频切片，那么也可以根据分割出的全部音频切片，得到待识别语音。

类似地，根据全部音频切片对应的文本，就可以得到待识别语音对应的文本，即待识别语音的识别结果。

由于步骤S105中，将多个音频切片分别发送给多个语音识别方，为了能够生成待识别语音对应的文本，需要分别从每个语音识别方接收音频切片对应的文本，进而生成待识别语音的识别结果。

步骤S109，对多个音频切片对应的文本进行文本聚合，以生成待识别语音的识别结果。

其中，文本聚合是指对多个文本进行匹配关联，生成完整文本的过程。

因此，通过对音频切片对应的文本进行文本聚合，能够生成待识别语音的识别结果。

需要特别说明的是，待识别语音是一个整体，语音内容具有连续性，上下文之间具有一定的逻辑关系。也就是说，不同音频切片对应的文本之间也具有一定的逻辑关系，因此，在步骤S109，对多个音频切片对应的文本进行文本聚合，以生成待识别语音的识别结果之后，可以利用聚合后的文本的上下文之间的逻辑关系，对待识别语音的识别结果进行文本纠错。具体可以通过步骤S111，使用语言模型对待识别语音的识别结果进行文本纠错。

其中，语言模型是一个基于概率的判别模型，它的输入是一句话(单词的顺序序列)，输出是这句话的概率，即这些单词的联合概率。在使用语言模型时，将多个可能的单词顺序序列输入语言模型，得到不同单词顺序序列对应的概率，通过比较概率大小，来实现对识别结果的纠错，即将概率最大的单词顺序序列作为最终的识别结果。

一种可能的实施方式是将N-gram模型是作为一种语言模型。该语言模型基于一种假设：单词顺序序列中，第n个词出现与前n-1个词相关，而与其他任何词不相关，整个单词顺序序列的概率就是各个词出现概率的乘积。在前n-1个词出现的基础上，第n个词出现的概率为样本语料库中这n个词同时出现的概率。也就是说，n个词同时出现的概率是通过对样本语料库中的语句进行统计后确定的。

可以理解，当n的数值较大时，N-gram模型的计算量过大，因此n的取值可以是2、3、4。

综上所述，本说明书实施例所提出的一种语音识别方法，获取待识别语音，对待识别语音进行分割，以生成多个音频切片。将多个音频切片分别发送给多个语音识别方，其中，语音识别方能够生成音频切片对应的文本。分别从每个语音识别方接收音频切片对应的文本，对多个音频切片对应的文本进行文本聚合，以生成待识别语音的识别结果。由此，实现了将待识别语音的音频切片发送给多个语音识别方，由多个语音识别方共同完成待识别语音的识别工作，在语音识别过程中任何语音识别方无法获得全部的待识别语音，从而对待识别语音的内容进行了保密。

为了对待识别语音进行分割，本说明书实施例还提出了另一种语音识别方法，图2为本说明书实施例所提出的另一种语音识别方法的流程示意图。如图2所示，该方法包括以下步骤：

步骤S201，获取待识别语音。

步骤S203，生成待识别语音的波形图。

其中，波形图即为待识别语音的语音信号的时域图。

应当理解，待识别语音是一种特殊的音频，待识别语音的波形图能够反映出语音信号随着时间的强弱变化。

当波形图中语音信号的强度为0时，即为待识别语音中的静音区域。此外，通过确定波形图中语音信号的强度为0的时长，可以确定静音区域对应的静音时长。

步骤S205，根据波形图中的语音波形，确定待识别语音中的停顿。

需要说明的是，本说明书实施例通过静音区域的静音时长来确定待识别语音中的停顿。应当理解，当静音区域的静音时长超过预设时长时，即将该静音区域对应的语音信号作为待识别语音中的停顿。

步骤S207，根据待识别语音中的停顿，将待识别语音分割成多个音频切片。

基于前述说明，可以知道，本说明书实施例在对待识别语音进行分割时，需要保证音频切片具有完整性和独立性，以便于每个语音识别方通过语音识别算法对接收到的音频切片进行语音识别。

需要说明的是，考虑到通过待识别语音的波形图，来确定待识别语音中的停顿，进而根据停顿将待识别语音分割成多个音频切片，分割准确度不高。

为了提升将待识别语音分割成多个音频切片的分割精度，步骤S207，根据待识别语音中的停顿，将待识别语音分割成多个音频切片，包括：

步骤S11，使用语音识别技术对待识别语音进行识别，以生成待识别语音对应的模糊文本。

步骤S13，使用分词算法对待识别语音对应的模糊文本进行分词。

步骤S15，根据待识别语音中的停顿和分词结果，将待识别语音分割成多个音频切片。

需要说明的是，为了提升对待识别语音的分割精度，本说明书实施例先通过语音识别技术对待识别语音进行简单识别，得到待识别语音对应的模糊文本，再通过分词算法对待识别语音对应的模糊文本进行分词，得到分词结果。根据停顿和分词结果，对待识别语音进行分割。

应当理解，前述对待识别语音进行简单识别，无法直接得到待识别语音的识别结果，只能大致确定待识别语音对应的模糊文本中存在的句尾词，进而使用分词算法对待识别语音对应的模糊文本进行处理，借助句尾词将不同的语句断开，能够解决待识别语音中语句之间的时间间隙过小，而无法将语句分割的问题。

步骤S209，将多个音频切片分别发送给多个语音识别方。

其中，语音识别方能够生成音频切片对应的文本。

步骤S211，分别从每个语音识别方接收音频切片对应的文本。

步骤S213，对多个音频切片对应的文本进行文本聚合，以生成待识别语音的识别结果。

步骤S215，使用语言模型对待识别语音的识别结果进行文本纠错。

需要说明的是，对前述实施例中的步骤S101-步骤S111的解释说明，也适用于本说明书实施例的步骤S201-步骤S215，此处不再赘述。

从而，实现了根据待识别语音的波形图，将待识别语音分割成多个音频切片。

为了防止音频切片在发送给语音识别方的过程中出现泄漏，本说明书实施例还提出了又一种语音识别方法。图3为本说明书实施例所提出的又一种语音识别方法的流程示意图，如图3所示，该方法包括以下步骤：

步骤S301，获取待识别语音。

步骤S303，生成待识别语音的波形图。

步骤S305，根据波形图中的语音波形，确定待识别语音中的停顿。

步骤S307，使用语音识别技术对待识别语音进行识别，以生成待识别语音对应的模糊文本。

步骤S309，使用分词算法对待识别语音对应的模糊文本进行分词。

步骤S311，根据待识别语音中的停顿和分词结果，将待识别语音分割成多个音频切片。

步骤S313，将每个音频切片与音频标记相对应。

其中，音频标记与音频切片在待识别语音中的位置相关。

步骤S315，将多个音频切片发送给多个语音识别方。

其中，语音识别方能够生成音频切片对应的文本。

应当理解，本说明书实施例需要将全部音频切片发送给对应的多个语音识别方，来对待识别语音进行识别。可以理解，不同的语音识别方对音频切片的识别方式存在区别，识别过程所需时长也不同，语音识别方一旦完成了对音频切片的识别，即将音频切片对应的文本发送给语音拥有方。也就是说，语音拥有方从不同语音识别方接收音频切片对应的文本的顺序是乱的，需要进行排序。为了便于在步骤S317，分别从每个语音识别方接收音频切片对应的文本之后，对文本进行排序，本说明书实施例在步骤S315，将多个音频切片发送给多个语音识别方之前，将每个音频切片与音频标记相对应，并在步骤S317，分别从每个语音识别方接收音频切片对应的文本之后，利用音频标记来对音频切片对应的文本进行排序。

此外，在音频传输过程中，为了防止第三方截获全部或者部分音频切片后，将音频切片还原为待识别语音，本说明书实施例可以将待传输的全部音频切片打乱顺序，再进行传输，即便第三方截获了音频切片，也无法确定音频切片的排列顺序，也就无法还原出待识别语音。

基于前述说明，可以知道，为了便于对音频切片对应的文本进行排序和整理，本说明书实施例可以将每个音频切片与音频标记相对应，再将多个音频切片发送给多个语音识别方。

步骤S317，分别从每个语音识别方接收音频切片对应的文本。

步骤S319，根据文本与音频标记的对应关系，对文本进行排序。

步骤S321，将排序后的文本进行拼接，以生成待识别语音的识别结果。

需要说明的是，在将音频切片发送给对应的语音识别方时，需要将该音频切片的音频标记与对应的语音识别方相关联。在分别从每个语音识别方接收音频切片对应的文本时，将音频标识和接收到的文本相对应。因此，能够根据文本与音频标记的对应关系，对文本进行排序。

应当理解，由于本说明书实施例中多个音频切片之间没有重复的部分，因此对应的文本也没有重复的部分，只需要将排序后的文本进行拼接，即可生成待识别语音的识别结果。

步骤S323，使用语言模型对待识别语音的识别结果进行文本纠错。

需要说明的是，对前述实施例中的步骤S201-步骤S215的解释说明，也适用于本说明书实施例的步骤S301-步骤S323，此处不再赘述。

从而，实现了将每个音频切片与音频标记相对应，再将多个音频切片进行传输，在从语音识别方接收音频切片对应的文本后，根据文本与音频标记的对应关系，对文本进行排序。

为了更加清楚地说明本说明书实施例所提出的语音识别方法，下面进行举例说明。图4为本说明书实施例所提出的语音识别方法的一个示例的流程图。

如图4所示，待识别语音对应的内容为“我叫萧峰，再不是你们丐帮的帮主。我今天来只想救一个人”，生成待识别语音的波形图后，确定待识别语音中的停顿为“我叫萧峰/再不是你们丐帮的帮主/我今天来只想救一个人”。

再使用语音识别技术生成待识别语音对应的文本，使用分词算法对待识别语音对应的文本进行分词，分词结果为“我叫萧峰”、“再不是你们丐帮的帮主”、“我今天来只想救一个人”。结合待识别语音中的停顿和分词结果，将待识别语音分割成三个音频切片，这些音频切片对应的内容为“我叫萧峰”、“再不是你们丐帮的帮主”、“我今天来只想救一个人”。

根据音频切片在待识别语音中的位置，将音频切片“我叫萧峰”与音频标记“1”相对应，将音频切片“再不是你们丐帮的帮主”与音频标记“2”相对应，将音频切片“我今天来只想救一个人”与音频标记“3”相对应。

将三个音频切片打乱顺序后，发送给三个语音识别方进行语音识别。由语音识别方A对音频标记“3”对应的音频切片进行识别，得到文本“我今天来只想救一个人”。由语音识别方B对音频标记“1”对应的音频切片进行识别，得到文本“我叫萧风”。由语音识别方C对音频标记“2”对应的音频切片进行识别，得到文本“再不是你们丐帮的帮主”。

从三个语音识别方分别接收三个音频切片对应的文本，根据音频标记“1”、“2”、“3”对三个语音识别方识别出的文本进行排序，将语音识别方B、语音识别方C、语音识别方A识别出的文本依次进行拼接，即可得到待识别语音的识别结果“我叫萧风/再不是你们丐帮的帮主/我今天来只想救一个人”。使用N-gram模型对识别结果进行纠错，得到纠错后的文本“我叫萧峰/再不是你们丐帮的帮主/我今天来只想救一个人”，实现了对待识别语音的识别。

为了实现上述实施例，本说明书实施例还提出了一种语音识别装置。图5为本说明书实施例所提出的一种语音识别装置的结构示意图，如图5所示，该装置包括：获取模块410，分割模块420，发送模块430，接收模块440，聚合模块450。

获取模块410，用于获取待识别语音。

分割模块420，用于对待识别语音进行分割，以生成多个音频切片。

发送模块430，用于将多个音频切片分别发送给多个语音识别方。

其中，语音识别方能够生成音频切片对应的文本。

接收模块440，用于分别从每个语音识别方接收音频切片对应的文本。

聚合模块450，用于对多个音频切片对应的文本进行文本聚合，以生成待识别语音的识别结果。

进一步地，为了对待识别语音的识别结果进行文本纠错，该装置还包括：纠错模块460，用于使用语言模型对待识别语音的识别结果进行文本纠错。

需要说明的是，前述对语音识别方法实施例的解释说明也适用于该实施例的语音识别装置，此处不再赘述。

综上所述，本说明书实施例所提出的一种语音识别装置，在进行语音识别时，获取待识别语音，对待识别语音进行分割，以生成多个音频切片。将多个音频切片分别发送给多个语音识别方，其中，语音识别方能够生成音频切片对应的文本。分别从每个语音识别方接收音频切片对应的文本，对多个音频切片对应的文本进行文本聚合，以生成待识别语音的识别结果。由此，实现了将待识别语音的音频切片发送给多个语音识别方，由多个语音识别方共同完成待识别语音的识别工作，在语音识别过程中任何语音识别方无法获得全部的待识别语音，从而对待识别语音的内容进行了保密。

为了实现上述实施例，本说明书实施例还提出了另一种语音识别装置。图6为本说明书实施例所提出的另一种语音识别装置的结构示意图，如图6所示，该装置包括：获取模块510，分割模块520，发送模块530，接收模块540，聚合模块550，纠错模块560。

获取模块510，用于获取待识别语音。

分割模块520，用于对待识别语音进行分割，以生成多个音频切片。

发送模块530，用于将多个音频切片分别发送给多个语音识别方。

其中，语音识别方能够生成音频切片对应的文本。

接收模块540，用于分别从每个语音识别方接收音频切片对应的文本。

聚合模块550，用于对多个音频切片对应的文本进行文本聚合，以生成待识别语音的识别结果。

纠错模块560，用于使用语言模型对待识别语音的识别结果进行文本纠错。

其中，分割模块520，包括：生成子模块521，用于生成待识别语音的波形。确定子模块522，用于根据波形图中的语音波形，确定待识别语音中的停顿。分割子模块523，用于根据待识别语音中的停顿，将待识别语音分割成多个音频切片。

进一步地，为了能够将待识别语音分割成多个音频切片，分割子模块523，包括：识别单元523a，用于使用语音识别技术对待识别语音进行识别，以生成待识别语音对应的模糊文本。分词单元523b，用于使用分词算法对待识别语音对应的模糊文本进行分词。分割单元523c，用于根据待识别语音中的停顿和分词结果，将待识别语音分割成多个音频切片。

为了实现上述实施例，本说明书实施例还提出了又一种语音识别装置。图7为本说明书实施例所提出的又一种语音识别装置的结构示意图，如图7所示，该装置包括：获取模块610，分割模块620，发送模块630，接收模块640，聚合模块650，纠错模块660。

获取模块610，用于获取待识别语音。

分割模块620，用于对待识别语音进行分割，以生成多个音频切片。

发送模块630，用于将多个音频切片分别发送给多个语音识别方。

其中，语音识别方能够生成音频切片对应的文本。

接收模块640，用于分别从每个语音识别方接收音频切片对应的文本。

聚合模块650，用于对多个音频切片对应的文本进行文本聚合，以生成待识别语音的识别结果。

纠错模块660，用于使用语言模型对待识别语音的识别结果进行文本纠错。

其中，分割模块620，包括：生成子模块621，用于生成待识别语音的波形。确定子模块622，用于根据波形图中的语音波形，确定待识别语音中的停顿。分割子模块623，用于根据待识别语音中的停顿，将待识别语音分割成多个音频切片。

进一步地，为了能够将待识别语音分割成多个音频切片，分割子模块623，包括：识别单元623a，用于使用语音识别技术对待识别语音进行识别，以生成待识别语音对应的模糊文本。分词单元623b，用于使用分词算法对待识别语音对应的模糊文本进行分词。分割单元623c，用于根据待识别语音中的停顿和分词结果，将待识别语音分割成多个音频切片。

发送模块630，包括：标记子模块631，用于将每个音频切片与音频标记相对应。其中，音频标记与音频切片在待识别语音中的位置相关。发送子模块632，用于将多个音频切片发送给多个语音识别方。

聚合模块650，包括：排序子模块651，用于根据文本与音频标记的对应关系，对文本进行排序。拼接子模块652，用于将排序后的文本进行拼接，以生成待识别语音的识别结果。

为了实现上述实施例，本说明书实施例还提出一种计算机设备，包括存储器和处理器；存储器上存储有可由处理器运行的计算机程序；当处理器运行计算机程序时，执行如前述方法实施例的语音识别方法。

为了实现上述实施例，实施例还提出一种非临时性计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现如前述方法实施例的语音识别方法。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本说明书实施例的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

在本说明书实施例中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系，除非另有明确的限定。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本说明书实施例中的具体含义。

在本说明书实施例中，除非另有明确的规定和限定，第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触，或第一和第二特征通过中间媒介间接接触。而且，第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方，或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方，或仅仅表示第一特征水平高度小于第二特征。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本说明书实施例的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种语音识别方法，包括：

获取待识别语音；

对所述待识别语音进行分割，以生成多个音频切片；

将所述多个音频切片分别发送给多个语音识别方；其中，所述语音识别方能够生成所述音频切片对应的文本；

分别从每个所述语音识别方接收所述音频切片对应的文本；以及

对所述多个音频切片对应的文本进行文本聚合，以生成所述待识别语音的识别结果。

2.如权利要求1所述的语音识别方法，其中，所述对所述待识别语音进行分割，以生成多个音频切片，包括：

生成所述待识别语音的波形图；

根据所述波形图中的语音波形，确定所述待识别语音中的停顿；

根据所述待识别语音中的停顿，将所述待识别语音分割成所述多个音频切片。

3.如权利要求2所述的语音识别方法，其中，所述根据所述待识别语音中的停顿，将所述待识别语音分割成所述多个音频切片，包括：

使用语音识别技术对所述待识别语音进行识别，以生成所述待识别语音对应的模糊文本；

使用分词算法对所述待识别语音对应的模糊文本进行分词；

根据所述待识别语音中的停顿和分词结果，将所述待识别语音分割成所述多个音频切片。

4.如权利要求1所述的语音识别方法，其中，所述将所述多个音频切片分别发送给多个语音识别方，包括：

将每个所述音频切片与音频标记相对应；其中，所述音频标记与所述音频切片在所述待识别语音中的位置相关；

将多个所述音频切片发送给所述多个语音识别方。

5.如权利要求4所述的语音识别方法，其中，所述对所述多个音频切片对应的文本进行文本聚合，以生成所述待识别语音的识别结果，包括：

根据所述文本与所述音频标记的对应关系，对所述文本进行排序；

将排序后的所述文本进行拼接，以生成所述待识别语音的识别结果。

6.如权利要求1-5中任一项所述的语音识别方法，其中，在所述对所述多个音频切片对应的文本进行文本聚合，以生成所述待识别语音的识别结果之后，还包括：

使用语言模型对所述待识别语音的识别结果进行文本纠错。

7.一种语音识别装置，包括：

获取模块，用于获取待识别语音；

分割模块，用于对所述待识别语音进行分割，以生成多个音频切片；

发送模块，用于将所述多个音频切片分别发送给多个语音识别方；其中，所述语音识别方能够生成所述音频切片对应的文本；

接收模块，用于分别从每个所述语音识别方接收所述音频切片对应的文本；以及

聚合模块，用于对所述多个音频切片对应的文本进行文本聚合，以生成所述待识别语音的识别结果。

8.如权利要求7所述的语音识别装置，其中，所述分割模块，包括：

生成子模块，用于生成所述待识别语音的波形图；

确定子模块，用于根据所述波形图中的语音波形，确定所述待识别语音中的停顿；

分割子模块，用于根据所述待识别语音中的停顿，将所述待识别语音分割成所述多个音频切片。

9.如权利要求8所述的语音识别装置，其中，所述分割子模块，包括：

识别单元，用于使用语音识别技术对所述待识别语音进行识别，以生成所述待识别语音对应的模糊文本；

分词单元，用于使用分词算法对所述待识别语音对应的模糊文本进行分词；

分割单元，用于根据所述待识别语音中的停顿和分词结果，将所述待识别语音分割成所述多个音频切片。

10.如权利要求7所述的语音识别装置，其中，所述发送模块，包括：

标记子模块，用于将每个所述音频切片与音频标记相对应；其中，所述音频标记与所述音频切片在所述待识别语音中的位置相关；

发送子模块，用于将多个所述音频切片发送给所述多个语音识别方。

11.如权利要求10所述的语音识别装置，其中，所述聚合模块，包括：

排序子模块，用于根据所述文本与所述音频标记的对应关系，对所述文本进行排序；

拼接子模块，用于将排序后的所述文本进行拼接，以生成所述待识别语音的识别结果。

12.如权利要求7-11任一项所述的语音识别装置，其中，所述装置还包括：

纠错模块，用于使用语言模型对所述待识别语音的识别结果进行文本纠错。

13.一种计算机设备，包括存储器和处理器；所述存储器上存储有可由处理器运行的计算机程序；所述处理器运行所述计算机程序时，执行如权利要求1-6中任一项所述的语音识别方法。

14.一种非临时性计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1-6中任一项所述的语音识别方法。