CN111862967A

CN111862967A - 一种语音识别方法、装置、电子设备及存储介质

Info

Publication number: CN111862967A
Application number: CN202010265398.7A
Authority: CN
Inventors: 蒋栋蔚
Original assignee: Beijing Didi Infinity Technology and Development Co Ltd
Current assignee: Beijing Didi Infinity Technology and Development Co Ltd
Priority date: 2020-04-07
Filing date: 2020-04-07
Publication date: 2020-10-30
Anticipated expiration: 2040-04-07
Also published as: CN111862967B

Abstract

本申请提供了一种语音识别方法、装置、电子设备及存储介质，通过按照接收时序，将接收到的待识别语音切分为预设时长的多个语音序列，并确定每个语音序列对应的高维特征向量，进而，按照切分次序，依次将每个语音序列的高维特征向量输入至语音识别模型中，得到每个语音序列对应的文本序列，进一步地，基于得到的多个文本序列和每个文本序列对应的切分次序，确定待识别语音的文本信息。这样，实时的接收到语音信息后，通过切分次序得到需要识别的语音序列，并可以按照切分次序，即时将语音序列输入至语音识别模型中，可以快捷方便的实现在线语音识别，识别的准确率高。

Description

一种语音识别方法、装置、电子设备及存储介质

技术领域

本申请涉及语音处理技术领域，具体而言，涉及一种语音识别方法、装置、电子设备及存储介质。

背景技术

语音识别(Automatic Speech Recognition，ASR)是以语音为研究对象，通过语音信号处理让机器自动识别和理解人类口述的语音。语音识别技术就是让机器通过识别和理解过程，把语音信号转变为相应的文本的技术。

通常，语音识别都是在离线场景下进行的，鲜少可以实现在线场景下进行语音识别，因此，在保证识别准确性的前提下，如何实现在线语音识别是目前亟待解决的技术问题。

发明内容

有鉴于此，本申请的至少在于提供一种语音识别方法、装置、电子设备及存储介质，通过将切分次序与实时接收的每个语音序列进行关联，并将关联后的语音序列依次输入至语音识别模型中，这样，不仅可以实现在线语音识别，还可以提高语音识别的准确率。

根据本申请的第一方面，提供了一种语音识别方法，所述语音识别方法包括：

按照接收时序，将接收到的待识别语音切分为预设时长的多个语音序列；

确定每个语音序列对应的高维特征向量；

按照切分次序，依次将每个语音序列的高维特征向量输入至语音识别模型中，得到每个语音序列对应的文本序列；

基于得到的多个文本序列和每个文本序列对应的切分次序，确定待识别语音的文本信息。

在本申请的一些实施例中，根据以下步骤确定每个语音序列对应的高维特征向量：

对每个语音序列按照预设长度进行分帧，以及对分帧后的该语音序列进行加窗处理，得到每个语音序列对应的语谱图信息；

从所述语谱图信息中逐帧提取语音特征，得到所述每个语音序列对应的语音特征向量；

对所述语音特征向量进行编码，得到每个语音序列对应的高维特征向量。

在本申请的一些实施例中，针对每个语音序列，所述按照切分次序，依次将每个语音序列的高维特征向量输入至语音识别模型中，得到每个语音序列对应的文本序列，包括：

按照切分次序，依次将待处理的语音序列确定为当前语音序列，以及将当前语音序列对应的高维特征向量确定为当前语音向量；

获取与所述当前语音序列对应的初始状态向量；

将所述当前语音向量和所述初始状态向量输入至所述语音识别模型中，得到所述当前语音序列的文本序列。

在本申请的一些实施例中，所述初始状态向量为在切分次序上，排在所述当前语音序列之前的前一个语音序列输入至所述语音识别模型后，输出的中间状态向量。

在本申请的一些实施例中，当所述当前语音序列为在切分次序上的第一个语音序列时，所述初始状态向量为预设状态向量。

在本申请的一些实施例中，所述将所述当前语音向量和所述初始状态向量输入至所述语音识别模型中，得到所述当前语音序列的文本序列，包括：

将所述当前语音向量和所述初始状态向量输入至所述语音识别模型的解码层中，得到与所述当前语音向量对应的中间文本向量、所述中间文本向量在所述当前语音向量中的目标位置和与所述目标位置对应的位置权重，以及中间状态向量；

基于得到的位置权重和所述当前语音向量，确定出用于解码处理的中间语音向量；

将确定出的中间语音向量作为所述当前语音向量，并将得到的中间状态向量作为所述初始状态向量，继续进行解码，直至预设次数后停止解码；

基于解码得到的多个中间文本向量和每个中间文本向量的位置权重，确定所述当前语音序列的文本序列。

在本申请的一些实施例中，所述解码层包括解码器和分类器；所述将所述当前语音向量和所述初始状态向量输入至所述语音识别模型的解码层中，得到与所述当前语音向量对应的中间文本向量、所述中间文本向量在所述当前语音向量中的目标位置和与所述目标位置对应的位置权重，以及中间状态向量，包括：

将所述当前语音向量和所述初始状态向量输入至所述解码器中，得到与所述当前语音向量对应的中间文本向量、所述中间文本向量在所述当前语音向量中的不同位置和与每个位置对应的位置权重，以及中间状态向量；

将所述中间文本向量在所述当前语音向量中的不同位置和与每个位置对应的位置权重输入至所述分类器中，得到所述中间文本向量在所述当前语音向量中的目标位置和与所述目标位置对应的位置权重。

在本申请的一些实施例中，所述基于得到的多个文本序列和每个文本序列对应的切分次序，确定待识别语音的文本信息，包括：

按照所述切分次序，将所述多个文本序列进行合并处理，得到所述待识别语音的文本信息。

在本申请的一些实施例中，在所述按照接收时序，将接收到的待识别语音切分为预设时长的多个语音序列之前，所述语音识别方法还包括根据以下步骤训练所述语音识别模型：

获取语音信息样本，以及所述语音信息样本对应的文本信息；

根据所述语音信息样本，以及所述语音信息样本对应的文本信息，对所述语音识别模型进行训练。

根据本申请的第二方面，提供了一种语音识别装置，所述语音识别装置包括：

切分模块，用于按照接收时序，将接收到的待识别语音切分为预设时长的多个语音序列；

第一确定模块，用于确定每个语音序列对应的高维特征向量；

生成模块，用于按照切分次序，依次将每个语音序列的高维特征向量输入至语音识别模型中，得到每个语音序列对应的文本序列；

第二确定模块，用于基于得到的多个文本序列和每个文本序列对应的切分次序，确定待识别语音的文本信息。

在本申请的一些实施例中，所述第一确定模块，用于根据以下步骤确定每个语音序列对应的高维特征向量：

在本申请的一些实施例中，所述生成模块包括：

确定单元，用于按照切分次序，依次将待处理的语音序列确定为当前语音序列，以及将当前语音序列对应的高维特征向量确定为当前语音向量；

获取单元，用于获取与所述当前语音序列对应的初始状态向量；

生成单元，用于将所述当前语音向量和所述初始状态向量输入至所述语音识别模型中，得到所述当前语音序列的文本序列。

在本申请的一些实施例中，所述生成单元包括：

第一生成子单元，用于将所述当前语音向量和所述初始状态向量输入至所述语音识别模型的解码层中，得到与所述当前语音向量对应的中间文本向量、所述中间文本向量在所述当前语音向量中的目标位置和与所述目标位置对应的位置权重，以及中间状态向量；

第一确定子单元，用于基于得到的位置权重和所述当前语音向量，确定出用于解码处理的中间语音向量；

停止子单元，用于将确定出的中间语音向量作为所述当前语音向量，并将得到的中间状态向量作为所述初始状态向量，继续进行解码，直至预设次数后停止解码；

第二确定子单元，用于基于解码得到的多个中间文本向量和每个中间文本向量的位置权重，确定所述当前语音序列的文本序列。

在本申请的一些实施例中，所述解码层包括解码器和分类器；所述第一生成子单元，具体用于：

在本申请的一些实施例中，所述第二确定模块，用于根据以下步骤确定待识别语音的文本信息：

在本申请的一些实施例中，所述语音识别装置还包括训练模块；所述训练模块，用于根据以下步骤训练所述语音识别模型：

根据本申请的第三方面，提供了一种电子设备，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行如上述的语音识别方法的步骤。

根据本申请的第四方面，提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如上述的语音识别方法的步骤。

在本申请实施例中，通过按照接收时序，将接收到的待识别语音切分为预设时长的多个语音序列，并确定每个语音序列对应的高维特征向量，进而，按照切分次序，依次将每个语音序列的高维特征向量输入至语音识别模型中，得到每个语音序列对应的文本序列，进一步地，基于得到的多个文本序列和每个文本序列对应的切分次序，确定待识别语音的文本信息。这样，实时的接收到语音信息后，通过切分次序得到需要识别的语音序列，并可以按照切分次序，即时将语音序列输入至语音识别模型中，可以快捷方便的实现在线语音识别，识别的准确率高。

进一步地，通过按照切分次序，依次将待处理的语音序列确定为当前语音序列，以及将当前语音序列对应的高维特征向量确定为当前语音向量，进而，在获取与当前语音序列对应的初始状态向量后，通过将当前语音向量和初始状态向量输入至语音识别模型中，得到当前语音序列的文本序列。这样，通过将状态向量和语音序列的高维特征向量共同作为语音识别模型的输入，可以提升语音识别的准确性。

为使本申请的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的一种语音识别***的架构示意图；

图2为本申请实施例所提供的一种语音识别方法的流程图；

图3为本申请另一实施例提供的语音识别方法的流程图；

图4为本申请实施例所提供的一种语音识别装置的结构示意图之一；

图5为图4中的生成模块的结构示意图；

图6为图5中的生成单元的结构示意图；

图7为本申请实施例所提供的一种语音识别装置的结构示意图之二；

图8为本申请实施例所提供的一种电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的每个其他实施例，都属于本申请保护的范围。

为了使得本领域技术人员能够使用本申请内容，结合特定应用场景“语音识别”，给出以下实施方式。对于本领域技术人员来说，在不脱离本申请的精神和范围的情况下，可以将这里定义的一般原理应用于其他实施例和应用场景。虽然本申请主要语音识别进行描述，但是应该理解，这仅是一个示例性实施例。

需要说明的是，本申请实施例中将会用到术语“包括”，用于指出其后所声明的特征的存在，但并不排除增加其它的特征。

本申请的一个方面涉及一种语音识别***。语音识别***可以通过依次将每个语音序列的高维特征向量输入至语音识别模型中，得到每个语音序列对应的文本序列，进而，得到待识别语音的文本信息，可以在保证语音识别的准确性的同时，可以实现在线语音识别。

值得注意的是，在本申请提出申请之前，鲜少有技术方案可以实现在线场景下进行语音识别，或者，在实现在线识别时，无法兼顾语音识别的准确性。

图1为本申请实施例提供的一种语音识别***的架构示意图。语音识别***可以是用于诸如出租车、代驾服务、快车、拼车、公共汽车服务、驾驶员租赁、或班车服务之类的运输服务、或其任意组合的在线运输服务平台，这些服务平台可以提供语音识别服务。语音识别***可以包括服务器110、网络120、数据库130、服务提供方终端140、服务请求方终端150中的一种或多种。

在一些实施例中，服务器110可以包括处理器。处理器可以处理与语音识别有关的信息和/或数据，以执行本申请中描述的一个或多个功能。例如，处理器可以按照接收时序，将接收到的待识别语音切分为预设时长的多个语音序列，并按照切分次序，依次将每个语音序列的高维特征向量输入至语音识别模型中，得到每个语音序列对应的文本序列，进而，得到待识别语音的文本信息。

其中，服务提供方终端140和服务请求方终端150可以为终端设备，终端设备不限于移动终端和个人电脑。

在一些实施例中，处理器可以包括一个或多个处理核(例如，单核处理器(S)或多核处理器(S))。仅作为举例，处理器可以包括中央处理单元(Central Processing Unit,CPU)、专用集成电路(Application Specific Integrated Circuit,ASIC)、专用指令集处理器(Application Specific Instruction-set Processor,ASIP)、图形处理单元(Graphics Processing Unit,GPU)、物理处理单元(Physics Processing Unit,PPU)、数字信号处理器(Digital Signal Processor,DSP)、现场可编程门阵列(Field ProgrammableGate Array,FPGA)、可编程逻辑器件(Programmable Logic Device,PLD)、控制器、微控制器单元、简化指令集计算机(Reduced Instruction Set Computing,RISC)、或微处理器等，或其任意组合。

在一些实施例中，数据库130可以连接到网络120以与语音识别***中的一个或多个组件(例如，服务器110、服务提供方终端140、服务请求方终端150)通信。语音识别***中的一个或多个组件可以经由网络120访问存储在数据库130中的数据或指令。在一些实施例中，数据库130可以直接连接到语音识别***中的一个或多个组件，或者，数据库130也可以是服务器110的一部分。

下面结合上述图1示出的语音识别统中描述的内容，对本申请实施例提供的语音识别方法进行详细说明。

请参阅图2，图2为本申请实施例所提供的一种语音识别方法的流程图。该方法可以由语音识别***中的处理器来执行，具体执行过程为：

S201：按照接收时序，将接收到的待识别语音切分为预设时长的多个语音序列。

该步骤中，实时接收待识别语音，并按照接收时序，以预设时长对待识别语音进行截取，截取出预设时长的多个语音序列。

一示例中，待识别语音为一段2s的语音信息，若预设时长为500ms，则可以从待识别语音中截取出4个语音序列。

需要说明的是，接收时序是指在接收时间上的先后顺序；预设时长可以根据实际需要进行设置，这里，可以参考语音识别模型适合识别的语音序列的长度进行设置，优选地，可以将预设时长设为300ms。

S202：确定每个语音序列对应的高维特征向量。

该步骤中，在将待识别语音切分为预设时长的连续多个语音序列后，对于待识别语音对应的多个语音序列中的每个语音序列，确定出每个语音序列对应的高维特征向量。

这里，高维特征向量可以理解为对声学特征进行编码得到的高级别声音特征，具体地，是将长度相对较长的语音序列转化为高级别的短的声音序列，即抽取声音特征。通过将每个语音序列的高维特征向量输入至语音识别模型，相对直接将原始的语音序列输入语音识别模型，一方面，可以大大加快识别时间，另一方面，语音识别模型适合从相对短级别长度的高维特征向量中提取出有用的声音特征。

进一步地，也即，步骤S202中确定每个语音序列对应的高维特征向量，包括以下步骤：

对每个语音序列按照预设长度进行分帧，以及对分帧后的该语音序列进行加窗处理，得到每个语音序列对应的语谱图信息；从所述语谱图信息中逐帧提取语音特征，得到所述每个语音序列对应的语音特征向量；对所述语音特征向量进行编码，得到每个语音序列对应的高维特征向量。

该步骤中，在确定每个语音序列对应的高维特征向量时，需要对该语音序列进行预处理，具体地，先将该语音序列按照预设长度进行分帧，即，将该语音序列切分为固定长度的小段，并对分帧后的该语音序列进行加窗处理，这里，加窗是指将每帧语音序列带入窗函数，进而，得到每个语音序列对应的语谱图信息，语谱图信息可以表示语音的频谱信息，进一步地，从语谱图信息中逐帧提取语音特征，得到该语音序列对应的语音特征向量，语音特征可以为fbank特征，就此，完成对该语音序列的预处理过程，进一步地，将该语音序列对应的语音特征向量输入编码网络进行编码，可以得到该语音序列对应的高维特征向量。

这里，预设长度可以根据实际需要进行设置，通常可以取10-30ms为一帧，其中，预设长度对应的时间长度要远小于语音序列的长度，即预设长度要远小于预设时长。

需要说明的是，对语音序列进行分帧的目的是由于语音信号是快速变化的，不便于进行傅里叶变换，所以在语音识别中，将语音序列进行分帧，这样一帧内既有足够的周期，又不会变化太剧烈，便于对每帧语音进行傅里叶变换；由于语音在长范围内是不停变动的，没有固定的特性无法做处理，所以将每一帧语音序列带入窗函数，窗外的值设为0，可以消除每一帧语音序列的两端信号不连续的问题。这里，编码网络可以为双向长短期记忆网络(Bi-Long Short-Term Memory，BLSTM)，编码网络包括多层网络，每个语音序列对应的语音特征向量经过编码网络的层层编码后，得到该语音序列对应的高维特征向量，其中，每个语音序列对应的语音特征向量的维度远大于该语音序列对应的高维特征向量的维度。

S203：按照切分次序，依次将每个语音序列的高维特征向量输入至语音识别模型中，得到每个语音序列对应的文本序列。

该步骤中，按照切分次序，依次将待识别语音对应的多个语音序列的高维特征向量输入至语音识别模型中，语音识别模型对每个语音序列的高维特征向量进行识别处理后，得到每个语音序列对应的文本序列，这里，文本序列即文本识别结果。

这里，语音识别模型可以为Transformer模型，Transformer模型中包含神经网络self-attention，即自注意力机制，self-attention是Transformer用来将其他相关单词的“理解”转换成我们正在处理的单词的一种思路。

进一步地，针对每个语音序列，步骤S203中按照切分次序，依次将每个语音序列的高维特征向量输入至语音识别模型中，得到每个语音序列对应的文本序列，包括以下步骤：

步骤a：按照切分次序，依次将待处理的语音序列确定为当前语音序列，以及将当前语音序列对应的高维特征向量确定为当前语音向量。

该步骤中，在对待识别语音进行语音识别时，是按照切分次序，依次对待识别语音对应的每个语音序列进行处理，具体地，在轮到对某一语音序列进行处理时，将该语音序列确定为当前语音序列，并将当前语音序列对应的高维特征向量确定为当前语音向量，进而，对当前语音向量进行处理，以便得到当前语音序列对应的文本序列。

步骤b：获取与所述当前语音序列对应的初始状态向量。

该步骤中，在对当前语音序列进行语音识别时，需要获取到当前语音序列对应的初始状态向量，这里，当前语音序列对应的初始向量，与当前语音序列在待识别语音中的切分次序有关，通常，分为两种情况，情况一是当前语音序列在切分次序上的处于中间或末尾的语音序列，情况二是当前语音序列为在切分次序上的处于首位的第一语音序列。

需要说明的是，每个语音序列对应的高维特征向量输入至语音识别模型后，除了输出该语音序列对应的文本序列之外，还会对应输出该语音序列对应的中间状态向量，其中，中间状态向量可以在一定程度上表征出该语音序列的状态信息。

情况一：当前语音序列在切分次序上的处于中间或末尾的语音序列，则初始状态向量为在切分次序上，排在当前语音序列之前的前一个语音序列输入至语音识别模型后，输出的中间状态向量。

情况二：当前语音序列为在切分次序上的处于首位的第一语音序列，初始状态向量为预设状态向量。

这里，预设状态向量可以为一个一维的常数向量。

步骤c：将所述当前语音向量和所述初始状态向量输入至所述语音识别模型中，得到所述当前语音序列的文本序列。

该步骤中，在获取与当前语音序列对应的初始状态向量后，通过将当前语音序列对应的当前语音向量和初始状态向量一同输入至语音识别模型中，可以得到当前语音序列对应的文本序列，这样，由于也将状态信息也作为语音识别模型的输入，可以提升语音识别的准确性。

S204：基于得到的多个文本序列和每个文本序列对应的切分次序，确定待识别语音的文本信息。

该步骤中，在按照切分次序，依次将待识别语音对应的多个语音序列的高维特征向量输入至语音识别模型中，得到每个语音序列对应的文本序列之后，即，得到待识别语音中多个语音序列中每个语音序列对应的文本序列后，按照各个文本序列对应的切分次序，将得到的各个语音序列对应的文本序列进行整合，可以得到待识别语音的文本信息。

进一步地，步骤S204中基于得到的多个文本序列和每个文本序列对应的切分次序，确定待识别语音的文本信息，包括以下步骤：

该步骤中，按照切分次序，将得到的每个语音序列对应的文本序列进行合并处理，即，将各个单个的文本序列连成连续的文本序列，进而，得到待识别语音对应的完整且连续的文本信息。

本申请实施例提供的语音识别方法，通过按照接收时序，将接收到的待识别语音切分为预设时长的多个语音序列，并确定每个语音序列对应的高维特征向量，进而，按照切分次序，依次将每个语音序列的高维特征向量输入至语音识别模型中，得到每个语音序列对应的文本序列，进一步地，基于得到的多个文本序列和每个文本序列对应的切分次序，确定待识别语音的文本信息。这样，实时的接收到语音信息后，通过切分次序得到需要识别的语音序列，并可以按照切分次序，即时将语音序列输入至语音识别模型中，可以快捷方便的实现在线语音识别，识别的准确率高。

请参阅图3，图3为本申请另一实施例提供的语音识别方法的流程图。该方法可以由语音识别***中的处理器来执行，具体执行过程为：

S301：按照接收时序，将接收到的待识别语音切分为预设时长的多个语音序列。

S302：确定每个语音序列对应的高维特征向量。

S303：针对每个语音序列，按照切分次序，依次将待处理的语音序列确定为当前语音序列，以及将当前语音序列对应的高维特征向量确定为当前语音向量。

S304：获取与所述当前语音序列对应的初始状态向量。

S305：将所述当前语音向量和所述初始状态向量输入至语音识别模型的解码层中，得到与所述当前语音向量对应的中间文本向量、所述中间文本向量在所述当前语音向量中的目标位置和与所述目标位置对应的位置权重，以及中间状态向量。

该步骤中，在对每个语音序列进行语音识别时，将该语音序列确定为当前语音序列，以及将当前语音序列对应的高维特征向量确定为当前语音向量，进而，将当前语音向量和当前语音向量对应的初始状态向量一同输入至语音识别模型的第一个解码层中，会得到当前语音向量对应的中间文本向量、该中间文本向量在当前语音向量中的目标位置、在目标位置对应的位置权重，以及当前语音向量对应的中间状态向量，至此，完成在第一个解码层的解码过程，之后，可以将第一次解码输出的内容，输入至语音识别模型的第二个解码层进行解码，直至完成语音识别模型的所有解码层的解码，在完成全部解码过程后，最终会得到当前语音向量对应的文本序列，即得到该语音序列对应的文本序列。

这里，语音识别模型包括串联的多个解码层，当前语音序列对应的当前语音向量和初始状态向量每通过一个解码层，完成一次解码，这里，通过多个解码层可以完成多次解码，这样，通过多次解码，可以提升对语音序列进行识别的准确性。

进一步地，根据以下步骤训练所述语音识别模型：获取语音信息样本，以及所述语音信息样本对应的文本信息；根据所述语音信息样本，以及所述语音信息样本对应的文本信息，对所述语音识别模型进行训练。

在该步骤中，在利用语音识别模型对待识别语音进行识别前，需要对语音识别模型进行训练，以提升语音识别模型进行语音识别的准确性，具体地，可以获取大量的语音信息样本，并获取各个语音信息样本对应的文本信息，这里，每个语音信息样本对应的文本信息可以是人工识别出的准确的文本识别结果，进而，通过这些语音信息样本，以及语音信息样本对应的文本信息，对语音识别模型进行训练，在具体训练过程中，通过将每个语音信息样本输入至语音识别模型后，会识别得到该语音信息样本对应的文本信息，进而，将识别得到该语音信息样本对应的文本信息，与该语音信息样本对应的文本信息进行比对，得到比对结果，并根据比对结果，对语音识别模型中的参数进行调整，采用同样的方式，不断训练语音识别模型，直至语音识别模型的识别准确率达到预设阈值为止，至此，语音识别模型的训练过程结束。

进一步地，解码层包括解码器和分类器；步骤S305中将所述当前语音向量和所述初始状态向量输入至所述语音识别模型的解码层中，得到与所述当前语音向量对应的中间文本向量、所述中间文本向量在所述当前语音向量中的目标位置和与所述目标位置对应的位置权重，以及中间状态向量，包括以下步骤：

步骤A：将所述当前语音向量和所述初始状态向量输入至所述解码器中，得到与所述当前语音向量对应的中间文本向量、所述中间文本向量在所述当前语音向量中的不同位置和与每个位置对应的位置权重，以及中间状态向量。

该步骤中，语音识别模型中的每个解码层包括解码器和分类器，将每个语音序列对应的当前语音向量和初始状态向量输入至语音识别模型的解码层中，实质上是先将该语音序列对应的当前语音向量和初始状态向量先输入至解码器中，会得到与当前语音向量对应的中间文本向量，中间文本向量在当前语音向量中的不同位置和与每个位置对应的位置权重，以及中间状态向量。

步骤B：将所述中间文本向量在所述当前语音向量中的不同位置和与每个位置对应的位置权重输入至所述分类器中，得到所述中间文本向量在所述当前语音向量中的目标位置和与所述目标位置对应的位置权重。

该步骤中，在通过解码器得到中间文本向量在当前语音向量中的不同位置和与每个位置对应的位置权重后，通过将该中间文本向量在当前语音向量中的不同位置和与每个位置对应的位置权重输入至分类器中，会得到中间文本向量在当前语音向量中的目标位置和与目标位置对应的位置权重。

这里，分类器可以为逻辑回归函数(Softmax logical regression)，通过该分类器可以确定出待分类物所属的类别，对于本申请的技术方案，通过分类器可以确定出中间文本向量在当前语音向量中的目标位置和与目标位置对应的位置权重。

S306：基于得到的位置权重和所述当前语音向量，确定出用于解码处理的中间语音向量。

该步骤中，在将每个语音序列对应的当前语音向量和初始状态向量输入至语音识别模型的解码层中，得到中间文本向量在当前语音向量中的目标位置和与目标位置对应的位置权重之后，根据得到的目标位置对应的位置权重，以及当前语音向量，可以得到用于解码处理的中间语音向量，具体地，将位置权重与该语音序列对应的当前语音向量相乘，得到中间语音向量。

需要说明的是，通过得到的位置权重和当前语音向量，确定出用于解码处理的中间语音向量，可以采用自注意力机制(self-attention)进行处理，这样，可以将上一个中间文本向量的“理解”转换成正在生成的当前的中间文本向量的一种思路。

这里，语音识别模型包括多个解码层，对于每个解码层的输入要依赖于在该解码层的上一个解码层的输出，解码的顺序可以为由上至下的解码，这里，该解码层的输入是上一解码层输出的中间语音向量和中间状态向量。

S307：将确定出的中间语音向量作为所述当前语音向量，并将得到的中间状态向量作为所述初始状态向量，继续进行解码，直至预设次数后停止解码。

该步骤中，在完成一次解码后，将上一解码层确定出的中间语音向量作为当前语音向量，并将得到的中间状态向量作为初始状态向量，进而，将确定出的当前语音向量和初始状态向量作为当前解码层的输入来继续解码，按照上述方式，依次经过语音识别模型中的多个解码层进行解码，在完成语音识别模型中所有的解码层的解码后，会确定出当前语音序列对应的文本序列。

这里，可以将预设次数设置为语音识别模型中的解码层的数量，所以在解码次数等于预设次数后停止解码，完成解码过程，即得到当前语音序列的文本序列。

需要说明的是，除了设置预设次数来停止解码，还可以采用从左到右的束搜索算法，束宽设置为语音识别模型中的解码层的数量，这样，从<SOS>标记开始解码，直到遇到<EOS>标记解码结束。

S308：基于解码得到的多个中间文本向量和每个中间文本向量的位置权重，确定所述当前语音序列的文本序列。

该步骤中，在将当前语音序列对应的高维特征向量，即当前语音向量输入语音识别模型中的解码层后，可以得到多个中间文本向量和每个中间文本向量的位置权重，通过每个中间文本向量的位置权重，可以确定出该中间文本向量在文本序列中的位置，进而，在确定出多个中间文本向量的位置后，可以确定出当前语音序列的文本序列。

S309：基于得到的多个文本序列和每个文本序列对应的切分次序，确定待识别语音的文本信息。

其中，S301、S302、S309的描述可以参见S201、S202、S204的描述，并且能够达到同样的技术效果，在此，不再进行阐述。

这里，按照步骤的执行顺序，对本申请中每个语音序列进行识别，得到该语音序列对应的文本序列的完整实施过程进行阐述，包括以下步骤：

步骤(1)：确定当前语音序列X对应的高维特征向量H₀，并将高维特征向量H₀确定为当前语音向量H₀。

步骤(2)：获取当前语音序列X对应的初始状态向量C₀。

步骤(3)：将当前语音向量H₀和初始状态向量C₀，输入至第一个编码层，得到当前语音序列X对应的中间状态向量C₁，当前语音向量H₀对应的中间文本向量y₀，中间文本向量y₀在当前语音向量H₀中的目标位置对应的位置权重α₀。

步骤(4)：根据位置权重α₀和当前语音向量H₀，确定当前语音序列X对应的中间语音向量H₁。

步骤(5)：将确定出的中间语音向量H₁作为新的当前语音向量，并将得到的中间状态向量C₁作为新的初始状态向量，统计解码次数，若解码次数没有达到预设次数，则返回步骤(3)继续进行解码；若解码次数达到预设次数，则停止解码，并将得到的多个中间文本向量和每个中间文本向量的位置权重，确定当前语音序列X的文本序列Y。

请参阅图4至图7，图4为本申请实施例所提供的一种语音识别装置400的结构示意图之一；图5为图4中的生成模块430的结构示意图；图6为图5中的生成单元436的结构示意图；图7为本申请实施例所提供的一种语音识别装置400的结构示意图之二。

如图4和图7所示，所述语音识别装置400包括：

切分模块410，用于按照接收时序，将接收到的待识别语音切分为预设时长的多个语音序列；

第一确定模块420，用于确定每个语音序列对应的高维特征向量；

生成模块430，用于按照切分次序，依次将每个语音序列的高维特征向量输入至语音识别模型中，得到每个语音序列对应的文本序列；

第二确定模块440，用于基于得到的多个文本序列和每个文本序列对应的切分次序，确定待识别语音的文本信息。

进一步地，如图4所示，所述第一确定模块420，用于根据以下步骤确定每个语音序列对应的高维特征向量：

进一步地，如图5所示，所述生成模块430包括：

确定单元432，用于按照切分次序，依次将待处理的语音序列确定为当前语音序列，以及将当前语音序列对应的高维特征向量确定为当前语音向量；

获取单元434，用于获取与所述当前语音序列对应的初始状态向量；

生成单元436，用于将所述当前语音向量和所述初始状态向量输入至所述语音识别模型中，得到所述当前语音序列的文本序列。

进一步地，所述初始状态向量为在切分次序上，排在所述当前语音序列之前的前一个语音序列输入至所述语音识别模型后，输出的中间状态向量。

进一步地，当所述当前语音序列为在切分次序上的第一个语音序列时，所述初始状态向量为预设状态向量。

进一步地，如图6所示，所述生成单元436包括：

第一生成子单元4361，用于将所述当前语音向量和所述初始状态向量输入至所述语音识别模型的解码层中，得到与所述当前语音向量对应的中间文本向量、所述中间文本向量在所述当前语音向量中的目标位置和与所述目标位置对应的位置权重，以及中间状态向量；

第一确定子单元4362，用于基于得到的位置权重和所述当前语音向量，确定出用于解码处理的中间语音向量；

停止子单元4363，用于将确定出的中间语音向量作为所述当前语音向量，并将得到的中间状态向量作为所述初始状态向量，继续进行解码，直至预设次数后停止解码；

第二确定子单元4364，用于基于解码得到的多个中间文本向量和每个中间文本向量的位置权重，确定所述当前语音序列的文本序列。

进一步地，如图6所示，所述解码层包括解码器和分类器；所述第一生成子单元4361，具体用于：

进一步地，如图4所示，所述第二确定模块440，用于根据以下步骤确定待识别语音的文本信息：

进一步地，如图7所示，所述语音识别装置400还包括训练模块450；所述训练模块450，用于根据以下步骤训练所述语音识别模型：

请参阅图8，图8为本申请实施例所提供的一种电子设备的结构示意图。如图8中所示，所述电子设备800包括处理器810、存储器820和总线830。

所述存储器820存储有所述处理器810可执行的机器可读指令，当电子设备800运行时，所述处理器810与所述存储器820之间通过总线830通信，所述机器可读指令被所述处理器810执行时，可以执行如上述图2以及图3所示方法实施例中的语音识别方法的步骤，具体实现方式可参见方法实施例，在此不再赘述。

本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时可以执行如上述图2以及图3所示方法实施例中的语音识别方法的步骤，具体实现方式可参见方法实施例，在此不再赘述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的***、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的***、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-OnlyMemory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施例，仅为本申请的具体实施方式，用以说明本申请的技术方案，而非对其限制，本申请的保护范围并不局限于此，尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种语音识别方法，其特征在于，所述语音识别方法包括：

确定每个语音序列对应的高维特征向量；

2.根据权利要求1所述的语音识别方法，其特征在于，根据以下步骤确定每个语音序列对应的高维特征向量：

3.根据权利要求1所述的语音识别方法，其特征在于，针对每个语音序列，所述按照切分次序，依次将每个语音序列的高维特征向量输入至语音识别模型中，得到每个语音序列对应的文本序列，包括：

获取与所述当前语音序列对应的初始状态向量；

4.根据权利要求3所述的语音识别方法，其特征在于，所述初始状态向量为在切分次序上，排在所述当前语音序列之前的前一个语音序列输入至所述语音识别模型后，输出的中间状态向量。

5.根据权利要求4所述的语音识别方法，其特征在于，当所述当前语音序列为在切分次序上的第一个语音序列时，所述初始状态向量为预设状态向量。

6.根据权利要求3所述的语音识别方法，其特征在于，所述将所述当前语音向量和所述初始状态向量输入至所述语音识别模型中，得到所述当前语音序列的文本序列，包括：

7.根据权利要求6所述的语音识别方法，其特征在于，所述解码层包括解码器和分类器；所述将所述当前语音向量和所述初始状态向量输入至所述语音识别模型的解码层中，得到与所述当前语音向量对应的中间文本向量、所述中间文本向量在所述当前语音向量中的目标位置和与所述目标位置对应的位置权重，以及中间状态向量，包括：

8.根据权利要求1所述的语音识别方法，其特征在于，所述基于得到的多个文本序列和每个文本序列对应的切分次序，确定待识别语音的文本信息，包括：

9.根据权利要求1所述的语音识别方法，其特征在于，在所述按照接收时序，将接收到的待识别语音切分为预设时长的多个语音序列之前，所述语音识别方法还包括根据以下步骤训练所述语音识别模型：

10.一种语音识别装置，其特征在于，所述语音识别装置包括：

11.一种电子设备，其特征在于，包括：处理器、存储介质和总线，所述存储介质存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储介质之间通过总线通信，所述处理器执行所述机器可读指令以执行如权利要求1至9任一所述语音识别方法的步骤。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行如权利要求1至9任一所述语音识别方法的步骤。