CN109087630A

CN109087630A - 语音识别的方法及相关装置

Info

Publication number: CN109087630A
Application number: CN201810999134.7A
Authority: CN
Inventors: 李熙印; 刘峰; 徐易楠; 刘云峰; 吴悦; 陈正钦; 杨振宇; 胡晓; 汶林丁
Original assignee: Shenzhen Chase Technology Co Ltd
Current assignee: Shenzhen Chase Technology Co Ltd; Shenzhen Zhuiyi Technology Co Ltd
Priority date: 2018-08-29
Filing date: 2018-08-29
Publication date: 2018-12-25
Anticipated expiration: 2038-08-29
Also published as: SG11202101838VA; CN109087630B; WO2020042902A1; US20210249019A1

Abstract

本发明涉及一种语音识别的方法及相关装置，包括：接收CPU发送的特征向量和解码图；特征向量为CPU从语音信号中提取得到；解码图为预先训练得到；根据预先训练得到的声学模型识别特征向量，得到概率矩阵；根据概率矩阵和解码图采用并行机制进行解码，得到文本序列信息；将文本序列信息发送给CPU。基于此，整个解码的过程是由GPU采用并行机制完成的，相较于现有技术中的CPU采用单线程机制进行解码，本申请的技术方案的解码速度更快，提升了用户的使用体验。

Description

语音识别的方法及相关装置

技术领域

本发明涉及人机交互技术领域，具体涉及一种语音识别的方法及相关装置。

背景技术

作为人机交互中语音通信的关键技术，语音识别技术一直受到各国科学界的广泛关注。以语音识别开发出的产品应用领域非常广泛，几乎深入到社会的每个行业、每个方面，其应用和经济社会效益前景非常广泛。因此语音识别技术既是国际竞争的一项重要技术，也是每一个国家经济发展不可缺少的重要技术支撑。研究语音识别，开发相应的产品有着广泛的社会意义和经济意义。

相关技术中，语音识别大致分为三个步骤：首先从输入的语音信号提取特征向量；然后通过声学模型对特征向量进行识别，被转化为音素的概率分布；最后音素的概率分布作为语音识别解码器的输入，联合预先使用文本生成的解码图，进行解码，以寻找到最有可能的相对应的文本序列。

其中，解码过程是一个在解码图中不断遍历搜索的过程，需要CPU遍历解码图中每一个活跃顶点的边，所以解码的计算量很大，而CPU的运算机制一般是单线程机制，在程序执行时，所执行的程序路径是按照连续顺序排下来的，前面的必须处理好，后面的才会执行，因此，在CPU中执行这种计算量很大的解码程序，就会使得解码的速度较为缓慢，给用户带来的使用体验不佳。

发明内容

有鉴于此，本发明的目的在于克服现有技术的不足，提供一种语音识别的方法及相关装置。

为实现以上目的，本发明采用如下技术方案：

根据本申请的第一方面，提供一种语音识别的方法，包括：

接收CPU发送的特征向量和解码图；所述特征向量为CPU从语音信号中提取得到；所述解码图为预先训练得到；

根据预先训练得到的声学模型识别所述特征向量，得到概率矩阵；

根据所述概率矩阵和所述解码图采用并行机制进行解码，得到文本序列信息；

将所述文本序列信息发送给CPU。

可选的，所述根据所述概率矩阵和解码图进行解码，得到文本序列信息，包括：

根据所述解码图和所述概率矩阵得到每一帧的活跃标记对象；

获取每一帧的遍历代价最低的所述活跃标记对象；

根据所述遍历代价最低的所述活跃标记对象回溯得到解码路径；

根据所述解码路径得到所述文本序列信息。

可选的，所述根据所述解码图和所述概率矩阵得到每一帧的活跃标记对象，包括：

对于当前帧，并行处理非发射状态，得到多个标记对象；所述非发射状态为解码图中发射出去的边的输入标签为空的状态；所述每个所述标记对象对应记录了对当前帧的进行剪枝后的每个状态的输出标签、累计的遍历代价；

若当前帧为第一帧，通过预先定义的约束参数，计算当前帧的截断代价；

比较每个所述标记对象记录的遍历代价与所述截断代价，裁剪掉所述遍历代价超过所述截断代价的所述标记对象，得到当前帧的所述活跃标记对象；

若当前帧并非最后一帧，则通过所述当前帧的所述活跃标记对象中遍历代价最小的活跃标记对象和所述约束参数计算下一帧的截断代价。

根据本申请的第二方面，提供一种语音识别的方法，包括：

从语音信号中提取特征向量；

获取解码图；所述解码图是预先训练得到的；

将所述特征向量和所述解码图发送给GPU；以使所述GPU根据预先训练得到的声学模型识别所述特征向量得到概率矩阵，并根据所述概率矩阵及所述解码图采用GPU的并行机制解码得到文本序列信息；

接收GPU发送的所述文本序列信息。

根据本申请的第三方面，提供一种语音识别的装置，包括：

第一接收模块，用于接收CPU发送的特征向量和解码图；所述特征向量为CPU从语音信号中提取而来；所述解码图是预先训练得到的；

识别模块，用于根据预先训练得到的声学模型识别所述特征向量，得到概率矩阵；

解码模块，用于根据所述概率矩阵和所述解码图进行解码，得到文本序列信息；

第一发送模块，用于将所述文本序列信息发送给CPU。

可选的，所述解码模块包括：

第一获取单元，用于根据所述解码图和所述概率矩阵得到每一帧的活跃标记对象；

第二获取单元，用于获取每一帧的遍历代价最低的所述活跃标记对象；

第三获取单元，用于根据所述遍历代价最低的所述活跃标记对象回溯得到解码路径；

第四获取单元，用于根据所述解码路径得到所述文本序列信息。

可选的，所述第一获取单元包括：

处理子单元，用于并行处理非发射状态，得到多个标记对象；所述非发射状态为解码图中发射出去的边的输入标签为空的状态；所述每个所述标记对象对应记录了对当前帧的进行剪枝后的每个状态的输出标签、累计的遍历代价；

第一计算子单元，用于若当前帧为第一帧，通过预先定义的约束参数，计算当前帧的截断代价；

裁剪子单元，用于比较每个所述标记对象记录的遍历代价与所述截断代价，裁剪掉所述遍历代价超过所述截断代价的所述标记对象，得到当前帧的所述活跃标记对象；

第二计算子单元，用于若当前帧并非最后一帧，则通过所述当前帧的所述活跃标记对象中遍历代价最小的活跃标记对象和所述约束参数计算下一帧的截断代价。

根据本申请的第四方面，提供一种语音识别的装置，包括：

提取模块，用于从语音信号中提取特征向量；

获取模块，用于获取解码图；所述解码图是预先训练得到的；

第二发送模块，用于将所述特征向量和所述解码图发送给GPU；以使所述GPU根据预先训练得到的声学模型识别所述特征向量得到概率矩阵，并根据所述概率矩阵及所述解码图解码得到文本序列信息；

第二接收模块，用于接收GPU发送的所述文本序列信息。

根据本申请的第五方面，提供一种语音识别的***，包括：

CPU及与之相连接的GPU；

所述CPU用于执行以下所述的语音识别的方法的各个步骤：

从语音信号中提取特征向量；

获取解码图；所述解码图是预先训练得到的；

接收GPU发送的所述文本序列信息。

所述GPU用于执行以下所述的语音识别的方法的各个步骤：

将所述文本序列信息发送给CPU。

获取每一帧的遍历代价最低的所述活跃标记对象；

根据所述解码路径得到所述文本序列信息。

根据本申请的第六方面，提供一种存储介质，所述存储介质存储有第一计算机程序和第二计算机程序；

所述第一计算机程序被GPU执行时，实现如下所述的语音识别的方法中各个步骤：

将所述文本序列信息发送给CPU。

获取每一帧的遍历代价最低的所述活跃标记对象；

根据所述解码路径得到所述文本序列信息。

所述第二计算机程序被CPU执行时，实现如下所述的语音识别的方法中各个步骤：

从语音信号中提取特征向量；

获取解码图；所述解码图是预先训练得到的；

接收GPU发送的所述文本序列信息。

本发明采用以上技术方案，GPU接收CPU发送的特征向量和解码图，然后根据预先训练得到的声学模型识别所述特征向量，得到概率矩阵，根据概率矩阵和解码图采用并行机制进行解码，得到文本序列并发送给CPU，其中特征向量是CPU从语音信号中提取出来的，解码图是预先训练得到的。基于此，整个解码的过程是由GPU采用并行机制完成的，相较于现有技术中的CPU采用单线程机制进行解码，本申请的技术方案的解码速度更快，提升了用户的使用体验。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例一提供的一种语音识别的方法的流程示意图。

图2是本发明实施例一提供的一种解码方法的流程示意图。

图3是本发明实施例一提供的一种获取活跃标记对象的方法的流程示意图。

图4是本发明实施例二提供的一种语音识别的方法的流程示意图。

图5是本发明实施例三提供的一种语音识别的装置的结构示意图。

图6是本发明实施例三提供的一种解码模块的结构示意图。

图7是本发明实施例三提供的一种第二获取单元的结构示意图。

图8是本发明实施例四提供的一种语音识别的装置的结构示意图。

图9是本发明实施例五提供的一种语音识别的***的结构示意图。

图10是本发明的实施例七提供的一种语音识别方法的流程示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将对本发明的技术方案进行详细的描述。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施方式，都属于本发明所保护的范围。

本实施从GPU一侧进行说明，如图1所示，本实施例的方法包括：

步骤11、接收CPU发送的特征向量和解码图；所述特征向量为CPU从语音信号中提取得到；所述解码图为预先训练得到；

步骤12、根据预先训练得到的声学模型识别所述特征向量，得到概率矩阵；

步骤13、根据所述概率矩阵和所述解码图采用并行机制进行解码，得到文本序列信息；

步骤14、将所述文本序列信息发送给CPU。

由于GPU接收CPU发送的特征向量和解码图，然后根据预先训练得到的声学模型识别所述特征向量，得到概率矩阵，根据概率矩阵和解码图采用并行机制进行解码，得到文本序列并发送给CPU，其中特征向量是CPU从语音信号中提取出来的，解码图是预先训练得到的。基于此，整个解码的过程是由GPU采用并行机制完成的，相较于现有技术中的CPU采用单线程机制进行解码，本申请的技术方案的解码速度更快，提升了用户的使用体验。

其中，如图2所示，在步骤13中，具体的解码过程可以包括：

步骤21、根据所述解码图和所述概率矩阵得到每一帧的活跃标记对象；其中活跃标记对象为本领域中通常说的active token。

步骤22、获取每一帧的遍历代价最低的所述活跃标记对象；

步骤23、根据所述遍历代价最低的所述活跃标记对象回溯得到解码路径；

步骤24、根据所述解码路径得到所述文本序列信息。

进一步地，如图3所示，在步骤22中，获取每一帧的遍历代价最低的所述活跃标记对象可以包括：

步骤31、对于当前帧，并行处理非发射状态，得到多个标记对象；所述非发射状态为解码图中发射出去的边的输入标签为空的状态；所述每个所述标记对象对应记录了对当前帧的进行剪枝后的每个状态的输出标签、累计的遍历代价。通常，边可以具有两个标记，即输入标记和输出标记。输入标记可以是音素，在中文中可以是声母或者韵母；输出标记可以是识别出的汉字。本申请中，将解码图中发射出去的边的输入标签为空的状态称为非发射状态，而发射出去的边的输入标签不为空的状态称为发射状态。其中，剪枝的含义可参照现有技术，本文中不再赘述。

步骤32、若当前帧为第一帧，通过预先定义的约束参数，计算当前帧的截断代价。其中，约束参数就是本领域常用的Beam。

步骤33、比较每个所述标记对象记录的遍历代价与所述截断代价，裁剪掉所述遍历代价超过所述截断代价的所述标记对象，得到当前帧的所述活跃标记对象。其中，标记对象即token，遍历代价超过截断代价的标记对象可以视为代价过高，不是后期回溯的较优的路径，因此在本步骤中将其裁剪掉，剩下的标记对象记为活跃标记对象，即active token。

步骤34、若当前帧并非最后一帧，则通过所述当前帧的所述活跃标记对象中遍历代价最小的活跃标记对象和所述约束参数计算下一帧的截断代价。只有第一帧的截断代价是根据步骤32计算得到的，其他帧的截断代价均可以是由其上一帧的遍历代价最小的活跃标记对象和所述约束参数计算得到的。其中，计算截断代价的方法可以通过损失函数计算，具体的计算过程可以参考现有技术。

本实施例从CPU一侧进行说明，如图4所示，本实施例的方法包括：

步骤41、从语音信号中提取特征向量；

步骤42、获取解码图；所述解码图是预先训练得到的；

步骤43、将所述特征向量和所述解码图发送给GPU；以使所述GPU根据预先训练得到的声学模型识别所述特征向量得到概率矩阵，并根据所述概率矩阵及所述解码图采用GPU的并行机制解码得到文本序列信息；

步骤44、接收GPU发送的所述文本序列信息。

如图5所示，本实施例的装置可以包括：

第一接收模块51，用于接收CPU发送的特征向量和解码图；所述特征向量为CPU从语音信号中提取而来；所述解码图是预先训练得到的；

识别模块52，用于根据预先训练得到的声学模型识别所述特征向量，得到概率矩阵；

解码模块53，用于根据所述概率矩阵和所述解码图进行解码，得到文本序列信息；

第一发送模块54，用于将所述文本序列信息发送给CPU。

其中，如图6所示，解码模块可以包括：

第一获取单元61，用于根据所述解码图和所述概率矩阵得到每一帧的活跃标记对象；

第二获取单元62，用于获取每一帧的遍历代价最低的所述活跃标记对象；

第三获取单元63，用于根据所述遍历代价最低的所述活跃标记对象回溯得到解码路径；

第四获取单元64，用于根据所述解码路径得到所述文本序列信息。

进一步地，如图7所示，第二获取单元可以包括：

处理子单元71，用于并行处理非发射状态，得到多个标记对象；所述非发射状态为解码图中发射出去的边的输入标签为空的状态；所述每个所述标记对象对应记录了对当前帧的进行剪枝后的每个状态的输出标签、累计的遍历代价；

第一计算子单元72，用于若当前帧为第一帧，通过预先定义的约束参数，计算当前帧的截断代价；

裁剪子单元73，用于比较每个所述标记对象记录的遍历代价与所述截断代价，裁剪掉所述遍历代价超过所述截断代价的所述标记对象，得到当前帧的所述活跃标记对象；

第二计算子单元74，用于若当前帧并非最后一帧，则通过所述当前帧的所述活跃标记对象中遍历代价最小的活跃标记对象和所述约束参数计算下一帧的截断代价。

如图8所示，本实施例的装置可以包括：

提取模块81，用于从语音信号中提取特征向量；

获取模块82，用于获取解码图；所述解码图是预先训练得到的；

第二发送模块83，用于将所述特征向量和所述解码图发送给GPU；以使所述GPU根据预先训练得到的声学模型识别所述特征向量得到概率矩阵，并根据所述概率矩阵及所述解码图解码得到文本序列信息；

第二接收模块84，用于接收GPU发送的所述文本序列信息。

如图9所示，本实施例可以包括：

CPU 91及与之相连接的GPU 92；

所述CPU用于执行如下所述的语音识别的方法的各个步骤：

将所述文本序列信息发送给CPU。

获取每一帧的遍历代价最低的所述活跃标记对象；

根据所述解码路径得到所述文本序列信息。

所述GPU用于执行如下所述的语音识别的方法的各个步骤：

从语音信号中提取特征向量；

获取解码图；所述解码图是预先训练得到的；

接收GPU发送的所述文本序列信息。

其中，本实施例还可以包括存储器，CPU、GPU和存储器的连接关系可以采用以下两种方式。

CPU与GPU可以与同一个存储器相连接，所述存储器可以存储CPU与GPU需要执行的方法对应的程序。

另外，本实施例的存储器可以为两个，分别为第一存储器和第二存储器，CPU可以连接第一存储器，GPU可以连接第二存储器，第一存储器可以存储CPU需要执行的方法对应的程序，第二存储器可以存储GPU需要执行的方法对应的程序。

进一步地，本申请的实施例六可以提供一种存储介质，所述存储介质存储有第一计算机程序和第二计算机程序。

其中，所述第一计算机程序被GPU执行时，实现如下所述的语音识别的方法中各个步骤：

将所述文本序列信息发送给CPU。

获取每一帧的遍历代价最低的所述活跃标记对象；

根据所述解码路径得到所述文本序列信息。

从语音信号中提取特征向量；

获取解码图；所述解码图是预先训练得到的；

接收GPU发送的所述文本序列信息。

另外，图10是本发明的实施例七提供的一种语音识别方法的流程示意图。

本实施例按照CPU与GPU之间的交互对语音识别的方法进行说明。如图10所示，本实施例包括：

步骤101、从语音信号中提取特征向量；

步骤102、获取解码图；

步骤103、将所属特征向量和所述解码图发送给GPU；

步骤104、接收CPU发送的特征向量和解码图；

步骤105、根据预先训练得到的声学模型识别所述特征向量，得到概率矩阵；

步骤106、根据所述解码图和所述概率矩阵得到每一帧的活跃标记对象；

步骤107、对于当前帧，并行处理非发射状态，得到多个标记对象；

步骤108、若当前帧为第一帧，通过预先定义的约束参数，计算当前帧的截断代价；

步骤109、比较每个所述标记对象记录的遍历代价与所述截断代价，裁剪掉所述遍历代价超过所述截断代价的所述标记对象，得到当前帧的所述活跃标记对象；

步骤1010、若当前帧并非最后一帧，则通过所述当前帧的所述活跃标记对象中遍历代价最小的活跃标记对象和所述约束参数计算下一帧的截断代价；

步骤1011、根据梭胡遍历代价最低的所述活跃标记对象回溯得到解码路径；

步骤1012、根据所述解码路径得到所述文本序列信息；

步骤1013、将所述文本序列信息发送给CPU；

步骤1014、接收GPU发送的所述文本序列信息。

可以理解的是，上述各实施例中相同或相似部分可以相互参考，在一些实施例中未详细说明的内容可以参见其他实施例中相同或相似的内容。

需要说明的是，在本发明的描述中，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本发明的描述中，除非另有说明，“多个”的含义是指至少两个。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种语音识别的方法，其特征在于，包括：

将所述文本序列信息发送给CPU。

2.根据权利要求1所述的方法，其特征在于，所述根据所述概率矩阵和解码图进行解码，得到文本序列信息，包括：

获取每一帧的遍历代价最低的所述活跃标记对象；

根据所述解码路径得到所述文本序列信息。

3.根据权利要求2所述的方法，其特征在于，所述根据所述解码图和所述概率矩阵得到每一帧的活跃标记对象，包括：

对于当前帧，并行处理非发射状态，得到多个标记对象；所述非发射状态为解码图中发射出去的边的输入标签为空的状态；每个所述标记对象对应记录了对当前帧的进行剪枝后的每个状态的输出标签、累计的遍历代价；

4.一种语音识别的方法，其特征在于，包括：

从语音信号中提取特征向量；

获取解码图；所述解码图是预先训练得到的；

接收GPU发送的所述文本序列信息。

5.一种语音识别的装置，其特征在于，包括：

第一发送模块，用于将所述文本序列信息发送给CPU。

6.根据权利要求5所述的装置，其特征在于，所述解码模块包括：

7.根据权利要求6所述的装置，其特征在于，所述第一获取单元包括：

8.一种语音识别的装置，其特征在于，包括：

提取模块，用于从语音信号中提取特征向量；

第二接收模块，用于接收GPU发送的所述文本序列信息。

9.一种语音识别的***，其特征在于，包括CPU及与之相连接的GPU；

所述CPU用于执行如权利要求4所述的语音识别的方法的各个步骤；

所述GPU用于执行如权利要求1-3任一项所述的语音识别的方法的各个步骤。

10.一种存储介质，其特征在于，所述存储介质存储有第一计算机程序和第二计算机程序，所述第一计算机程序被GPU执行时，实现如权利要求1-3任一项所述的语音识别的方法中各个步骤，所述第二计算机程序被CPU执行时，实现如权利要求4所述的语音识别的方法中各个步骤。