CN111667828A

CN111667828A - 语音识别方法和装置、电子设备和存储介质

Info

Publication number: CN111667828A
Application number: CN202010469985.8A
Authority: CN
Inventors: 张辽; 付晓寅; 蒋正翔; 梁鸣心; 邵俊尧; 张奇; 陈志杰; 臧启光
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-05-28
Filing date: 2020-05-28
Publication date: 2020-09-15
Anticipated expiration: 2040-05-28
Also published as: JP2021189429A; US11756529B2; CN111667828B; EP3916718A1; US20210375264A1; KR20210058765A; JP7216065B2

Abstract

本申请公开了语音识别方法和装置、电子设备和存储介质，涉及自然语言处理技术领域。具体实现方案为：获取待识别的音频数据；对所述音频数据进行解码，获取当前待转字的第一音节，其中，所述第一音节为字对应的至少一个音素的组合；获取所述待转字所属的所属句子，以及所述所属句子之中的已转字，并获取所述已转字的第二音节；根据所述待转字的所述第一音节和所述已转字的所述第二音节进行编码，以生成所述第一音节的第一编码信息；以及对所述第一编码信息进行解码，以获取所述待转字对应的文字，从而在保证准确性的情况下有效提高音转字的效率，无需待转字语音的整句输入。

Description

语音识别方法和装置、电子设备和存储介质

技术领域

本申请涉及语音处理技术领域，尤其涉及自然语言处理技术领域，具体涉及一种语音识别方法和装置、电子设备和存储介质。

背景技术

随着科技的发展，自然语言处理NLP(NaturalLanguageProcessing)是人机交互中的重要手段，而其中的注意力机制由于可以有效捕获词在上下文语境中的重要程度，并提高自然语言理解任务的有效性而受到了人们的普遍关注。但是，相关技术中采用注意力机制进行语音识别时识别准确率依赖于句子的完整性，因此，随着句子长度的增加识别中的计算量会呈现***式增长，严重影响识别速度。

发明内容

本公开提供了一种语音识别方法和装置、电子设备和存储介质。

根据本公开的一方面，提供了一种语音识别方法，包括：

获取待识别的音频数据；

对所述音频数据进行解码，获取当前待转字的第一音节，其中，所述第一音节为字对应的至少一个音素的组合；

获取所述待转字所属的所属句子，以及所述所属句子之中的已转字，并获取所述已转字的第二音节；

根据所述待转字的所述第一音节和所述已转字的所述第二音节进行编码，以生成所述第一音节的第一编码信息；以及

对所述第一编码信息进行解码，以获取所述待转字对应的文字。

根据本公开的第二方面，提供了一种语音识别装置，包括：

第一获取模块，用于获取待识别的音频数据；

第二获取模块，用于对所述音频数据进行解码，获取当前待转字的第一音节，其中，所述第一音节为字对应的至少一个音素的组合；

第三获取模块，用于获取所述待转字所属的所属句子，以及所述所属句子之中的已转字，并获取所述已转字的第二音节；

编码模块，用于根据所述待转字的所述第一音节和所述已转字的所述第二音节进行编码，以生成所述第一音节的第一编码信息；以及

解码模块，用于对所述第一编码信息进行解码，以获取所述待转字对应的文字。

根据本公开的第三方面，提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述一方面所述的语音识别方法。

根据本公开的第四方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行上述一方面所述的语音识别方法。

根据本申请的技术，能够根据当前待转字与其所属句子中的已转字，对当前待转字进行编码，编码过程中仅考虑前面已转字对待转字的影响，不再考虑待转字后面文字对其的影响，在保证准确性的情况下有效提高音转字的效率，无需待转字语音的整句输入。进一步地，根据上述编码进行音转字，由于在已转字的基础上获取待转字的编码信息，不仅降低了编码和转字的计算量，而且由于不需要考虑后面文字的影响，能够直接对待转字的编码进行音转字的即时翻译。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1为本申请实施例提供的一种语音识别方法的流程图；

图2为本申请实施例提供的一种语音识别方法的原理示意图；

图3为本申请实施例提供的另一种语音识别方法的流程图；

图4为本申请实施例提供的又一种语音识别方法的流程图；

图5为本申请实施例提供的一种语音识别方法的编码原理示意图；

图6为本申请实施例中采用的transformer模型中的编码器结构示意图；

图7为本申请实施例提供的再一种语音识别方法的流程图；

图8为本申请实施例提供的再一种语音识别方法的流程图；

图9为本申请实施例提供的一种语音识别装置的方框示意图；

图10为本申请实施例提供的一种语音识别装置的方框示意图；

图11是用来实现本申请实施例的语音识别方法的电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

下面参考附图描述本申请实施例的语音识别方法和装置、电子设备和存储介质。

图1为本申请实施例提供的一种语音识别方法的流程图。其中，需要说明的是，本示例的语音识别方法的执行主体为语音识别装置，语音识别装置可为设置为具有人机交互功能的电子设备，例如PC(Personal Computer，个人计算机)电脑、平板电脑、掌上电脑或移动终端等，此处不做任何限定，或者其他具有人机交互功能的硬件设备内的软件等。

如图1所示，本申请实施例的语音识别方法，包括以下步骤：

在步骤101中，获取待识别的音频数据。

其中，在获取音频数据时，可通过具有人机交互功能的电子设备的收音装置实时录制，也可获取本地或者远程存储区域中预先存储的音频数据。

在步骤102中，对音频数据进行解码，获取当前待转字的第一音节。

其中，第一音节为字对应的至少一个音素的组合。

需要说明的是，音素是根据语音的自然属性划分出来的最小语音单位，一个动作构成一个音素，至少一个音素组合构成一个音节，例如，汉字“哦”的音节由“o”一个音素组成，汉字“爱”的音节由“a”和“i”两个音素组成，汉字“我”的音节由“w”和“o”两个音素组成。

还需要说明的是，可利用声学模型和语言模型构成的解码空间中通过寻找最优路径来确定待转字的第一音节。

应当理解的是，在本申请实施例中，对音频数据进行解码为流式解码，即，对音频数据中的音频进行逐字解码，以逐个获取待转字的第一音节。也就是说，本申请对音频数据解码获取音节时，应当每识别出一个音节，即向后续的编码模块输入一个音节，以使后续的编码模块和解码模块能够逐字进行分析，以实现流式的音转字处理。

在步骤103中，获取待转字所属的所属句子，以及所属句子之中的已转字，并获取已转字的第二音节。

需要说明的是，本申请中对音节转字采用自注意力机制进行实现，其中，自注意力机制的核心是用文本中的其它词来增强目标词的语义表示，也就是说，对于待转字而言，待转字所属句子中在待转字之前的字对待转字的语义具有一定的影响，因此，需要获取待转字所属句子中在待转字以前的字的第二音节，将获取到的第二音节与待转字的第一音节相结合，以用来对待转字的语义进行识别。

而且，由于本申请采用流式音转字的处理方式，即，在待转字以前的音节均完成音转字，因此，待转字以前的文字可以称为已转字，即，可直接获取待转字所属句子之中的已转字的第二音节。

其中，待转字所属句子可根据语言习惯的停顿时长进行识别，例如，在前述解码过程中，通过判断每个音节与前一音节之间的停顿时长确定每个音节是否与前一因为属于同一句子，可选的，可判断停顿时长是否大于第一预设时间，如果停顿时长大于或等于第一预设时间，则确定当前音节为句首字。

前一音节与当前音节分别属于两个句子，在当前音节所属句子中不存在已转字，如果停顿时长小于第一预设时间，则确定当前音节非句首字，当前音节与前一音节属于同一句子，前一音节对应的文字即为当前音节所属句子中的已转字，并继续根据前一音节进行句首字判断，直至获取到当前音节所属句子的句首字，并获取从前一音节至句首字之间的全部已转字的第二音节，又如，在识别到某一音节为句首字时，在该音节的前段配置起始字符，可选的，起始字符可为<begin>，并获取当前音节与起始字符之间的全部第二音节。

作为另一个可行实施例，还可根据已转字的语义对当前音节是否与前一音节属于同一句子进行判断，例如，如果根据语义已判断出前一音节为句尾字，则确定当前音节为句首字，如果根据语义判断出前一音节非句首字，则确定当前音节与前一音节属于同一句子。

在步骤104中，根据待转字的第一音节和已转字的第二音节进行编码，以生成第一音节的第一编码信息。

在步骤105中，对第一编码信息进行编码，以获取待转字对应的文字。

也就是说，在本申请实施例中，通过根据待转字的第一音节和已转字的第二音节进行编码，使得第一编码信息中包含的第一音节之前的已转字对第一音节所对应文字的影响，通过对第一编码信息进行解码，能够得到基于前文内容影响所解码出的文字。

举例来说，如图2所示，一个句子中各个文字按照时序被解码成第一音节201，获取该音节之前的已转字对应的第二音节202，通过编码获取第一音节的第一编码信息203，对第一编码信息203进行解码得到待转字对应的文字204。比方，在t1时刻，获取到第一音节201“tian”，该第一音节201的已转字的第二音节202为“jin”，在t2时刻，获取到第一音节201“ni”，该第一音节201的已转字的第二音节202为“jintian”，在t3时刻，获取到第一音节201“zhen”，该第一音节201的已转字的第二音节202为“jintianni”，在t4时刻，获取到第一音节201“shuai”，该第一音节201的已转字的第二音节202为“jintiannizhen”。

由此，本申请能够根据当前待转字与其所属句子中的已转字，对当前待转字进行编码，编码过程中仅考虑前面已转字对待转字的影响，不再考虑待转字后面文字对其的影响，在保证准确性的情况下有效提高音转字的效率，无需待转字语音的整句输入。进一步地，根据上述编码进行音转字，由于在已转字的基础上获取待转字的编码信息，不仅降低了编码和转字的计算量，而且由于不需要考虑后面文字的影响，能够直接对待转字的编码进行音转字的即时翻译。

为了进一步清楚说明上一实施例，如图3所示，上述步骤104根据待转字的第一音节和已转字的第二音节进行编码，以生成第一音节的第一编码信息，可包括以下步骤：

在步骤301中，分别提取第一音节和第二音节的第一词嵌入向量和第二词嵌入向量。

需要说明的是，词嵌入向量是将音节通过可进行数学处理的向量方式进行表达，可采用提前训练好的音节-词嵌入向量的模型中，例如Word2Vec、Glove或者transformer，以分别获取每个音节的词嵌入向量。

应当理解的是，对于待转字而言，当待转字为非句首字时，其所属句子的已转字可为至少一个，即，已转字可为多个，而第二音节可为每个已转字的第二音节，即，在获取第二音节的词嵌入向量时，可针对每个第二音节，获取相应的词嵌入向量；当待转字为句首字时，其所属句子中无已转字，因此无实际的第二音节，此时可将零向量作为第二音节的词嵌入向量。还应当理解的是，在语句含字量较多时，前端的已转字对第一音节的影响较小，即，第二音节对第一音节的影响程度可与第一音节和第二音节之间的距离有关，因此，为了进一步降低计算量，还可仅获取第一音节之前的预设数量的第二音节，以及该预设数量的第二音节的词嵌入向量。

在步骤302中，根据第一词嵌入向量和第二词嵌入向量，生成第一编码信息。

也就是说，本申请首先将音节转换为可进行数学变换的词嵌入向量，为了保证待转字的语义准确性，根据已转字和待转字的词嵌入向量进行编码，进而能够获取到第一音节对应的第一编码信息。

由此，本申请通过词嵌入向量将音节数据转换为可进行数学处理的向量信息，从而便于对第一音节进行编码。

需要说明的是，本申请中逐个识别出的音节进行编码，因此对当前识别出的待转字的第一音节进行编码前，已经对前面的已转字进行过了编码处理，而且待转字对前面的已转字的编码信息不会造成影响，因此，本申请中可以直接在已转字的编码信息上，生成第一音节的编码信息。

可选地，本申请中可以采用训练好的音转字模型对第一音节进行编码和解码，其中，音转字模型的编码组件可以将前一个音节的编码状态进行保存，进而在对第一音节进行编码时，音转字模型可对其编码组件中缓存的已转字的编码状态进行复用，即，在对第一音节进行编码时从缓存中直接读取保存的编码状态，并将对第一音节的编码增量与前一个音节的编码信息进行拼接，以得到第一音节的第一编码信息，从而在对第一音节进行编码时无需对已转字的编码内容进行反复计算，极大的提高音节转字的速度。

下面以音转字模型为transformer模型，对上述步骤302根据第一嵌入词向量和第二词向量，生成第一编码信息进行解释说明，如图4所示，上述步骤302包括以下步骤：

在步骤401中，根据第一词嵌入向量和第二词嵌入向量，生成第一音节的第一查询向量和键向量。

作为一个可行实施例，根据第一音节的词嵌入向量，构造第一音节的第一查询向量，利用每个第二音节的词嵌入向量，构造第二音节的第二查询向量，以及将第一查询向量与第二查询向量拼接，以生成键向量。

在步骤402中，根据第一查询向量以及键向量，生成第一音节的编码增量。

作为一个可行实施例，可根据第一查询向量和键向量，生成第一音节的自注意力权重矩阵，根据第一音节和第二音节，生成第一音节的值向量，以及根据自注意力权重矩阵对值向量进行加权，以生成编码增量。

进一步地，根据第一查询向量和键向量，生成第一音节的自注意力权重矩阵，可包括：获取键向量的转置向量，将第一查询向量与转置向量进行乘积，以生成第一矩阵，以及对第一矩阵进行归一化处理，以生成自注意力权重矩阵。

在步骤403中，根据编码增量和第二音节的第二编码信息，生成第一编码信息。

作为一个可行实施例，可将编码增量与第二编码信息进行拼接，获取第一编码信息。

也就是说，在本申请实施例中，第一音节的查询向量是初始的增量，在编码过程中通过将第一音节的增量与已经保存的第二音节的编码过程中的状态数据例如键向量、值向量进行拼接，从而实现无需对第二音节的重复处理即对第一音节的编码过程。

举例来说，如图5所示，获取当前时刻T输入的第一音节501对应的词嵌入向量并将其作为查询向量Q＝x{T}，将第一音节的查询向量与所属句子的第一时刻T＝1至前一时刻T-1中每个第二音节的查询向量进行拼接，作为第一音节的键向量K＝x{1,2,…,T-1,T}。其中，值向量与键向量相同，为V＝x{1,2,…,T-1,T}。

然后，将第一音节的查询向量Q与键向量K的转置K^T点积相乘，以获得各个第二音节对第一音节的影响权重，可以标记为第一矩阵，然后对第一矩阵进行归一化处理，以得到自注意力权重矩阵，即，使得多个第二音节对第一音节的影响权重的和为1。

可选地，可采用如下公式获取自注意力权重矩阵：

其中，d_k是Q，K矩阵的列数，即，向量维度。

进一步地，由于第一音节即为整个编码过程的原始增量，因此，基于查询向量Q的运算结果也为增量，例如，如图5所示，根据第一音节的查询向量Q和键向量K，生成的第一音节的编码增量502。

需要说明的是，通过图5所示的矩阵结构可知，由于无需考虑待转字后面文字对其的影响，因此，获取到的完整的第一音节的编码信息为对角阵结构，而实际上当前时刻的第一音节对整个编码信息的影响也仅在矩阵的最后一行，即编码增量502处，因此，本申请提出对第二音节的编码信息进行复用，使得编码组件仅需要对增量部分进行计算即可，在保证准确性的情况下有效提高音转字的效率。

由此可见，本申请能够根据对每个待转字的第一音节的查询向量，与拼接后生成的键向量进行计算得到第一音节的编码增量，然后将编码增量与每个已转字的编码增量通过拼接的方式得到第一编码信息，即，通过对已转字的编码信息的复用替代计算生成过程，从而有效提升音节转字的效率，提高语音翻译的速度。

进一步地，对transformer模型中的编码器的结构进行介绍，如图6所示，编码器601包括N个编码组件，N为正整数，在N大于1时，第一至第N编码组件依次连接。

在第一编码组件602中，根据第一音节的词嵌入向量生成第一查询向量，将第一查询向量与每个第二音节的第二查询向量进行拼接，获取第一音节的键向量。

在第i编码组件603中，将前一编码组件获取到的第一音节的编码增量作为当前编码组件中的第一音节的第一查询向量，将前一编码组件获取到的第一音节的第一编码信息作为当前编码组件中的第一音节的键向量。其中，i为大于1且小于等于N的正整数。

其中，当前transformer模型中通常使用具有6个编码组件的编码器。

作为一个可行实施例，如图7所示，语音识别方法，在获取到第一音节对应的文字后，还可包括以下步骤：

在步骤701中，根据待转字对应的文字生成第一显示信息，并与当前上屏的第二显示信息进行拼接，以生成第三显示信息。

在步骤702中，根据第三显示信息进行上屏显示。

也就是说，本申请根据流式的音节转字，即，逐个音节转换文字，能够实现逐字的上屏显示，即，将当前待转字对应的文字的第一显示信息与已经转字并上屏的第二显示信息进行拼接，生成第三显示信息，并将第三显示信息上屏显示，从而能够实现转字-上屏的衔接，使得用户能够清楚的感受到对音频数据进行流式转换的效果。

作为一个可行实施例，可对第三显示信息进行语义分析，预测所属句子的含字量；根据预测的含字量确定第三显示信息在屏幕上的显示位置；控制第三显示信息在显示位置上进行显示。

需要说明的是，在不同显示区域内每行显示的字节数目是固定的，在显示不同字数时，通常会随着字数的增加而自动对字间距进行调节，当上屏显示的内容处于行尾时，容易产生不断调节的状态，影响用户的阅读体验，因此，本申请通过在上屏显示前增加语音分析的确定所属句子的含字量，从而确定出第三信息在屏幕上的显示位置，防止在行尾处出现屏幕闪烁等效果。

作为另一个可行实施例，可获取所述第三显示信息中的含字量；根据所述含字量调节所述第三显示信息中的字间距。

也就是说，也可根据在生活生成第三显示信息时，即获取当前第三显示信息的含字量，根据第三显示信息的含字量确定字间距，并在上屏显示时按照确定的字间距进行显示。

作为一个可行实施例，如图8所示，上述步骤102对音频数据进行解码，获取当前待转字的第一音节包括：

在步骤801中，利用声学模型获取音频数据的第一音节的第一候选后验概率。

在步骤802中，利用语音模型获取音频数据的第一音节的第二候选后验概率。

在步骤803中，根据第二候选后验概率对第一候选后验概率进行裁剪，获取概率最大的第一音节。

需要说明的是，声学模型的输入是语音特征，第一候选后验概率为音节后验概率，语音模型的输入是音节串，第二候选后验概率为音节串出现的概率，其中，音节后验概率和音节串后验概率均可表达待转字的音节信息，区别仅在于表达形式不同。进一步地，可将两个后验概率中概率最大且重合的音节，作为待转字的第一音节。

综上所述，根据本申请的技术，能够根据当前待转字与其所属句子中的已转字，对当前待转字进行编码，编码过程中仅考虑前面已转字对待转字的影响，不再考虑待转字后面文字对其的影响，在保证准确性的情况下有效提高音转字的效率，无需待转字语音的整句输入。进一步地，根据上述编码进行音转字，由于在已转字的基础上获取待转字的编码信息，不仅降低了编码和转字的计算量，而且由于不需要考虑后面文字的影响，能够直接对待转字的编码进行音转字的即时翻译。

图9为本申请实施例提供的一种语音识别装置的方框示意图。如图9所示，语音识别装置10，包括：

第一获取模块11，用于获取待识别的音频数据；

第二获取模块12，用于对所述音频数据进行解码，获取当前待转字的第一音节，其中，所述第一音节为字对应的至少一个音素的组合；

第三获取模块13，用于获取所述待转字所属的所属句子，以及所述所属句子之中的已转字，并获取所述已转字的第二音节；

编码模块14，用于根据所述待转字的所述第一音节和所述已转字的所述第二音节进行编码，以生成所述第一音节的第一编码信息；以及

解码模块15，用于对所述第一编码信息进行解码，以获取所述待转字对应的文字。

在一些实施例中，所述编码模块14，包括：

第一获取单元，用于分别提取所述第一音节和所述第二音节的第一词嵌入向量和第二词嵌入向量；

编码信息生成单元，用于根据所述第一词嵌入向量和第二词嵌入向量，生成第一编码信息。

在一些实施例中，所述编码信息生成单元，包括：

第一生成子单元，用于根据所述第一词嵌入向量和所述第二词嵌入向量，生成所述第一音节的第一查询向量和键向量；

第二生成子单元，用于根据所述第一查询向量以及键向量，生成所述第一音节的编码增量；以及

第三生成子单元，根据所述编码增量和所述第二音节的第二编码信息，生成所述第一编码信息。

在一些实施例中，所述第二生成子单元，包括：

第一生成组件，用于根据所述第一查询向量和所述键向量，生成所述第一音节的自注意力权重矩阵，其中，所述自注意力权重矩阵中的权重值用于表征音节之间的相关程度；

第二生成组件，用于根据所述第一音节和所述第二音节，生成所述第一音节的值向量；以及

第三生成组件，用于根据所述自注意力权重矩阵对所述值向量进行加权，以生成所述编码增量。…

在一些实施例中，所述第二音节为多个，所述第一生成子单元，包括：

第四生成组件，用于根据所述第一音节的词嵌入向量，构造所述第一音节的第一查询向量；

第五生成组件，用于利用每个所述第二音节的词嵌入向量，构造所述第二音节的第二查询向量；以及

第六生成组件，用于将所述第一查询向量与所述第二查询向量拼接，以生成所述键向量。

在一些实施例中，所述第一生成组件，具体用于：

获取所述键向量的转置向量；

将所述第一查询向量与所述转置向量进行乘积，以生成所述第一矩阵；以及

对所述第一矩阵进行归一化处理，以生成所述自注意力权重矩阵。

在一些实施例中，所述第三生成子单元，具体用于：

将所述编码增量与所述第二编码信息进行拼接，获取所述第一编码信息。

在一些实施例中，所述编码模块包括N个编码组件，N为正整数，在N大于1时，所述第一至第N编码组件依次连接，

在所述第一编码组件中，所述第一生成子单元，具体用于根据所述第一音节的词嵌入向量生成所述第一查询向量；

在第i编码组件中，所述第一生成子单元，具体用于将前一所述编码组件获取到的所述第一音节的所述编码增量，作为当前编码组件中的所述第一音节的第一查询向量，其中，i为大于1且小于等于N的正整数。

在一些实施例中，在所述第一编码组件中，所述第一生成子单元，还用于将所述第一查询向量与每个所述第二音节的第二查询向量进行拼接，获取所述第一音节的键向量；

在第i编码组件中，所述第一生成子单元，还用于将前一所述编码组件获取到的所述第一音节的所述第一编码信息作为当前编码组件中的所述第一音节的键向量，其中，i为大于1且小于等于N的正整数。

在一些实施例中，如图10所示，语音识别装置10，还包括：

第一生成模块16，用于根据所述待转字对应的文字生成第一显示信息，并与当前上屏的第二显示信息进行拼接，以生成第三显示信息；

显示模块17，用于根据所述第三显示信息进行上屏显示。

在一些实施例中，所述显示模块17，具体用于：

对所述第三显示信息进行语义分析，预测所述所属句子的含字量；

根据预测的所述含字量确定所述第三显示信息在屏幕上的显示位置；

控制所述第三显示信息在所述显示位置上进行显示。

在一些实施例中，所述显示模块17，具体用于：

获取所述第三显示信息中的含字量；

根据所述含字量调节所述第三显示信息中的字间距。

在一些实施例中，所述第二获取模块12，具体用于：

利用声学模型获取所述音频数据的所述第一音节的第一候选后验概率；

利用语音模型获取所述音频数据的所述第一音节的第二候选后验概率；

根据所述第二候选后验概率对所述第一候选后验概率，获取概率最大的所述第一音节。

需要说明的是，前述对语音识别方法实施例的解释说明也适用于该实施例的语音识别装置，此处不再赘述。

根据本申请的实施例，本申请还提供了一种电子设备和一种可读存储介质。

如图11所示，是根据本申请实施例的语音识别方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图11所示，该电子设备包括：一个或多个处理器1101、存储器1102，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器***)。图11中以一个处理器1101为例。

存储器1102即为本申请所提供的非瞬时计算机可读存储介质。其中，所述存储器存储有可由至少一个处理器执行的指令，以使所述至少一个处理器执行本申请所提供的语音识别方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供的语音识别方法。

存储器1102作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中的语音识别方法对应的程序指令/模块(例如，附图9所示的第一获取模块11、第二获取模块12、第三获取模块13、编码模块14和解码模块15)。处理器1101通过运行存储在存储器1102中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的语音识别方法。

存储器1102可以包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需要的应用程序；存储数据区可存储根据语音识别方法的电子设备的使用所创建的数据等。此外，存储器1102可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器1102可选包括相对于处理器1101远程设置的存储器，这些远程存储器可以通过网络连接至语音识别方法的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

语音识别方法的电子设备还可以包括：输入装置1103和输出装置1104。处理器1101、存储器1102、输入装置1103和输出装置1104可以通过总线或者其他方式连接，图11中以通过总线连接为例。

输入装置1103可接收输入的数字或字符信息，以及产生与语音识别方法的电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置1104可以包括显示设备、辅助照明装置(例如，LED)和触觉反馈装置(例如，振动电机)等。该显示设备可以包括但不限于，液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的***和技术的各种实施方式可以在数字电子电路***、集成电路***、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程***上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储***、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储***、该至少一个输入装置、和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的***和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的***和技术实施在包括后台部件的计算***(例如，作为数据服务器)、或者包括中间件部件的计算***(例如，应用服务器)、或者包括前端部件的计算***(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的***和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算***中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将***的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机***可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种语音识别方法，包括：

获取待识别的音频数据；

2.根据权利要求1所述的语音识别方法，其中，所述根据所述待转字的所述第一音节和所述已转字的所述第二音节进行编码，以生成所述第一音节的第一编码信息，包括：

分别提取所述第一音节和所述第二音节的第一词嵌入向量和第二词嵌入向量；

根据所述第一词嵌入向量和所述第二词嵌入向量，生成所述第一编码信息。

3.根据权利要求2所述的语音识别方法，其中，所述根据所述第一词嵌入向量和所述第二词嵌入向量，生成所述第一编码信息，包括：

根据所述第一词嵌入向量和所述第二词嵌入向量，生成所述第一音节的第一查询向量和键向量；

根据所述第一查询向量以及键向量，生成所述第一音节的编码增量；以及

根据所述编码增量和所述第二音节的第二编码信息，生成所述第一编码信息。

4.根据权利要求3所述的语音识别方法，其中，所述根据所述第一查询向量以及键向量，生成所述第一音节的编码增量，包括：

根据所述第一查询向量和所述键向量，生成所述第一音节的自注意力权重矩阵，其中，所述自注意力权重矩阵中的权重值用于表征音节之间的相关程度；

根据所述第一音节和所述第二音节，生成所述第一音节的值向量；以及

根据所述自注意力权重矩阵对所述值向量进行加权，以生成所述编码增量。

5.根据权利要求3所述的语音识别方法，其中，所述第二音节为多个，且所述根据所述第一词嵌入向量和所述第二词嵌入向量，生成所述第一音节的第一查询向量和键向量，包括：

根据所述第一音节的词嵌入向量，构造所述第一音节的第一查询向量；

利用每个所述第二音节的词嵌入向量，构造所述第二音节的第二查询向量；以及

将所述第一查询向量与所述第二查询向量拼接，以生成所述键向量。

6.根据权利要求4所述的语音识别方法，其中，所述根据所述第一查询向量和所述键向量，生成所述第一音节的自注意力权重矩阵，包括：

获取所述键向量的转置向量；

7.根据权利要求3所述的语音识别方法，其中，所述根据所述编码增量和所述第二音节的第二编码信息，生成所述第一编码信息，包括：

8.根据权利要求3所述的语音识别方法，其中，通过编码器对所述第一音节进行所述编码，所述编码器包括N个编码组件，N为正整数，在N大于1时，第一至第N编码组件依次连接，所述方法还包括：

在所述第一编码组件中，根据所述第一音节的词嵌入向量生成所述第一查询向量；

在第i编码组件中，将前一所述编码组件获取到的所述第一音节的所述编码增量，作为当前编码组件中的所述第一音节的第一查询向量，其中，i为大于1且小于等于N的正整数。

9.根据权利要求8所述的语音识别方法，还包括：

在所述第一编码组件中，将所述第一查询向量与每个所述第二音节的第二查询向量进行拼接，获取所述第一音节的键向量；

在第i编码组件中，将前一所述编码组件获取到的所述第一音节的所述第一编码信息作为当前编码组件中的所述第一音节的键向量，其中，i为大于1且小于等于N的正整数。

10.根据权利要求1-7中任一所述的语音识别方法，还包括：

根据所述待转字对应的文字生成第一显示信息，并与当前上屏的第二显示信息进行拼接，以生成第三显示信息；

根据所述第三显示信息进行上屏显示。

11.根据权利要求10所述的语音识别方法，其中，所述根据所述第三显示信息进行上屏显示，包括：

控制所述第三显示信息在所述显示位置上进行显示。

12.根据权利要求10所述的语音识别方法，其中，所述根据所述上屏显示信息进行上屏显示，包括：

获取所述第三显示信息中的含字量；

根据所述含字量调节所述第三显示信息中的字间距。

13.根据权利要求1所述的语音识别方法，其中，所述对音频数据进行解码，获取当前待转字的第一音节，包括：

根据所述第二候选后验概率对所述第一候选后验概率进行裁剪，获取概率最大的所述第一音节。

14.一种语音识别装置，包括：

第一获取模块，用于获取待识别的音频数据；

15.根据权利要求1所述的语音识别装置，其中，所述编码模块，包括：

16.根据权利要求15所述的语音识别装置，其中，所述编码信息生成单元，包括：

17.根据权利要求16所述的语音识别装置，其中，所述第二生成子单元，包括：

第三生成组件，用于根据所述自注意力权重矩阵对所述值向量进行加权，以生成所述编码增量。

18.根据权利要求15所述的语音识别装置，其中，所述第二音节为多个，所述第一生成子单元，包括：

19.根据权利要求17所述的语音识别装置，其中，所述第一生成组件，具体用于：

获取所述键向量的转置向量；

20.根据权利要求16所述的语音识别装置，其中，所述第三生成子单元，具体用于：

21.根据权利要求16所述的语音识别装置，其中，所述编码模块包括N个编码组件，N为正整数，在N大于1时，第一至第N编码组件依次连接，

22.根据权利要求21所述的语音识别装置，其中，

在所述第一编码组件中，所述第一生成子单元，还用于将所述第一查询向量与每个所述第二音节的第二查询向量进行拼接，获取所述第一音节的键向量；

23.根据权利要求14-20中任一所述的语音识别装置，还包括：

第一生成模块，用于根据所述待转字对应的文字生成第一显示信息，并与当前上屏的第二显示信息进行拼接，以生成第三显示信息；

显示模块，用于根据所述第三显示信息进行上屏显示。

24.根据权利要求23所述的语音识别装置，其中，所述显示模块，具体用于：

控制所述第三显示信息在所述显示位置上进行显示。

25.根据权利要求23所述的语音识别装置，其中，所述系那是模块，具体用于：

获取所述第三显示信息中的含字量；

根据所述含字量调节所述第三显示信息中的字间距。

26.根据权利要求14所述的语音识别装置，其中，所述第二获取模块，具体用于：

27.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-13中任一项所述的语音识别方法。

28.一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行权利要求1-13中任一项所述的语音识别方法。