CN114005438A

CN114005438A - 语音识别方法、语音识别模型的训练方法以及相关装置

Info

Publication number: CN114005438A
Application number: CN202111666006.9A
Authority: CN
Inventors: 张景宣; 万根顺; 高建清; 刘聪; 胡国平; 刘庆峰
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2021-12-31
Filing date: 2021-12-31
Publication date: 2022-02-01
Anticipated expiration: 2041-12-31
Also published as: CN114005438B

Abstract

本发明提供一种语音识别方法、语音识别模型的训练方法以及相关装置，语音识别方法包括：确定待识别语音信息的韵律特征，其中，韵律特征包括句子韵律特征和字符韵律特征中至少一种，句子韵律特征表征待识别语音信息的句子含义，字符韵律特征表征待识别语音信息的字符含义，且句子韵律特征基于初步处理待识别语音信息得到的文本信息确定，字符韵律特征包含待识别语音信息中每一字符的韵律特征，当前字符的韵律特征基于上一个字符的韵律特征确定；利用语音识别模型基于韵律特征对待识别语音信息进行文本识别，得到待识别语音信息的文本信息。该方法提高语音识别的准确性，得到更准确的文本识别结果，实现更可靠的识别效果。

Description

语音识别方法、语音识别模型的训练方法以及相关装置

技术领域

本发明涉及语音识别技术领域，特别是涉及一种语音识别方法、语音识别模型的训练方法以及相关装置。

背景技术

语音识别方案的效果随着深度学习和人工智能技术的普及有了很大提升，目前已经广泛的应用于各项智能语音交互设备，或者自动语音转写服务中。目前的端到端语音识别技术通常把语音到文本的学习认为是一种序列到序列的学习任务，即学习语音到文本序列的映射关系，这种端到端的语音识别技术方案有很大的优势。首先，该技术方案框架简洁，基于给定语音序列下文本序列的条件概率整体进行建模，避免了一些独立模块之间的假设；其次，端到端的语音识别技术构建方便，极大的简化了训练和部署流程。

在进行语音序列和文本序列之间直接建模的过程中，通常假设模型能够自动学习所需的特征。但是在实际模型应用中，经常会发现一些不符合直觉的识别错误的问题。以语音中的停顿信息为例，语音中的停顿本身就传达出一种分词和边界信息，比如一句语音“将<停顿>吸满水的瓶子打开”而识别结果可能产生错误为“江西满水的瓶子打开”。单从声学模型的角度考虑，模型因为忽略了停顿信息，造成了把停顿隔开的两个字当成了一个词语，进而影响了最终文本识别的结果，因此现有技术有待改进。

发明内容

本发明提供一种语音识别方法、语音识别模型的训练方法以及相关装置，该方法能够提高语音识别的准确性。

为解决上述技术问题，本发明提供的第一个技术方案为：提供一种语音识别方法，包括：确定待识别语音信息的韵律特征，其中，所述韵律特征包括句子韵律特征和字符韵律特征中至少一种，所述句子韵律特征表征所述待识别语音信息的句子含义，所述字符韵律特征表征所述待识别语音信息的字符含义，且所述句子韵律特征基于初步处理所述待识别语音信息得到的文本信息确定，所述字符韵律特征包含所述待识别语音信息中每一字符的韵律特征，当前字符的韵律特征基于上一个字符的韵律特征确定；利用语音识别模型基于韵律特征对待识别语音信息进行文本识别，得到待识别语音信息的文本信息。

其中，响应于韵律特征包括句子韵律特征，句子韵律特征基于待识别语音信息的句子属性确定；确定待识别语音信息的韵律特征的步骤，包括：利用语音识别模型对待识别语音信息进行初步处理，以得到待识别语音信息的初步文本信息；基于初步文本信息以及待识别语音信息确定句子韵律特征。

其中，基于初步文本信息以及待识别语音信息确定句子韵律特征的步骤，包括：基于待识别语音信息确定待识别语音信息对应的音调、能量以及音调变化信息；基于初步文本信息确定待识别语音信息中每一字符对应的平均发音时长；基于待识别语音信息对应的音调、能量以及音调变化信息、平均发音时长确定句子韵律特征。

其中，基于初步文本信息确定待识别语音信息中每一字符对应的平均发音时长的步骤，包括：将初步文本信息与待识别语音信息对齐，进而得到初步文本信息中每一字符对应的发音时长；基于每一字符对应的发音时长确定每一字符对应的平均发音时长。

其中，语音识别模型包括编码器以及解码器；利用语音识别模型基于韵律特征对待识别语音信息进行文本识别，得到待识别语音信息的文本信息的步骤，包括：利用编码器对待识别语音信息进行处理；利用注意力模块对编码器的输出以及句子韵律特征进行处理；利用解码器对注意力模块的输出进行处理，以得到待识别语音信息的文本信息。

其中，响应于韵律特征包括字符韵律特征，字符韵律特征基于待识别语音信息中的字符属性确定；确定待识别语音信息的韵律特征的步骤，包括：利用语音识别模型基于当前字符的上一个字符以及上一个字符的韵律特征确定当前字符以及当前字符的韵律特征，待识别语音信息中每一字符的韵律特征组成待识别语音信息的字符韵律特征。

其中，语音识别模型包括编码器以及解码器；利用语音识别模型基于韵律特征对待识别语音信息进行文本识别，得到待识别语音信息的文本信息的步骤，包括：利用编码器对待识别语音信息进行处理；利用注意力模块对编码器的输出进行处理；利用解码器对注意力模块的输出、字符韵律特征进行处理，以得到待识别语音信息的文本信息。

为解决上述技术问题，本发明提供的第二个技术方案为：提供一种语音识别装置，包括：韵律特征确定模块，用于确定待识别语音信息的韵律特征，其中，所述韵律特征包括句子韵律特征和字符韵律特征中至少一种，所述句子韵律特征表征所述待识别语音信息的句子含义，所述字符韵律特征表征所述待识别语音信息的字符含义，且所述句子韵律特征基于初步处理所述待识别语音信息得到的文本信息确定，所述字符韵律特征包含所述待识别语音信息中每一字符的韵律特征，当前字符的韵律特征基于上一个字符的韵律特征确定；文本识别模块，用于利用语音识别模型基于韵律特征对待识别语音信息进行文本识别，得到待识别语音信息的文本信息。

为解决上述技术问题，本发明提供的第三个技术方案为：提供一种语音识别模型的训练方法，包括：基于音频信息、音频信息对应的文本信息确定音频信息对应的韵律特征，其中，所述韵律特征包括句子韵律特征和字符韵律特征中至少一种，所述句子韵律特征表征所述待识别语音信息的句子含义，所述字符韵律特征表征所述待识别语音信息的字符含义，且所述句子韵律特征基于初步处理所述待识别语音信息得到的文本信息确定，所述字符韵律特征包含所述待识别语音信息中每一字符的韵律特征，当前字符的韵律特征基于上一个字符的韵律特征确定；基于音频信息、音频信息对应的文本信息、音频信息对应的韵律特征对初始模型进行训练，得到语音识别模型。

其中，基于音频信息、音频信息对应的文本信息确定音频信息对应的韵律特征的步骤，包括：获取训练样本集，训练样本集包括多个音频信息以及每一音频信息对应的文本信息；将音频信息以及音频信息对应的文本信息对齐，并确定音频信息对应的文本信息中每一字符的时间戳；基于音频信息、每一字符的时间戳确定音频信息对应的韵律特征。

其中，韵律特征包括句子韵律特征，句子韵律特征基于音频信息的句子属性确定；基于音频信息、每一字符的时间戳确定音频信息对应的韵律特征的步骤，包括：基于音频信息以及时间戳确定音频信息的平均能量、音调、音调变化信息、音频信息中每一字符平均发音时长；基于平均能量、音调、音调变化信息以及平均发音时长确定句子韵律特征。

其中，初始模型包括依次级联的编码器和解码器；基于音频信息、音频信息对应的文本信息、音频信息对应的韵律特征对初始模型进行训练，得到语音识别模型的步骤，包括：利用编码器对音频信息进行处理，得到输出结果；利用注意力模块对句子韵律特征以及编码器的输出结果进行处理；基于文本信息以及注意力模块的输出对解码器进行训练，得到语音识别模型。

其中，韵律特征包括字符韵律特征，字符韵律特征基于音频信息中的字符属性确定；基于音频信息、每一字符的时间戳确定音频信息对应的韵律特征的步骤，包括：基于音频信息、每一字符的时间戳确定音频信息中每一字符对应的能量、每一字符对应的静音时长、静音标志位以及每一字符对应的发音时长；基于能量、静音时长、静音标志位以及发音时长确定字符韵律特征。

其中，初始模型包括编码器以及解码器；基于音频信息、音频信息对应的文本信息、音频信息对应的韵律特征对初始模型进行训练，得到语音识别模型的步骤，包括：利用编码器对音频信息进行处理，得到输出结果；利用注意力模块对编码器的输出结果进行处理；基于字符韵律特征、注意力模块的输出以及文本信息对解码器进行训练，得到语音识别模型。

其中，基于字符韵律特征、注意力模块的输出以及文本信息对解码器进行训练的步骤，包括；利用解码器对音频信息中当前字符的上一个字符、上一个字符的韵律特征以及注意力模块的输出进行处理，得到当前字符的预测字符以及当前字符的预测韵律特征；利用交叉熵函数基于当前字符的真实字符和预测字符对解码器进行训练，以及利用均方误差函数基于当前字符的真实韵律特征和预测韵律特征对解码器进行训练，得到语音识别模型；当前字符的真实字符基于音频信息对应的文本信息得到，当前字符的真实韵律特征基于音频信息对应的字符韵律特征得到。

其中，利用均方误差函数基于当前字符的真实韵律特征和预测韵律特征对解码器进行训练的步骤，包括：对当前字符的真实韵律特征叠加高斯噪声，得到处理后的真实韵律特征；利用均方误差函数基于处理后的真实韵律特征和预测韵律特征对解码器进行训练。

其中，利用均方误差函数基于当前字符的真实韵律特征和预测韵律特征对解码器进行训练的步骤，包括：对上一个字符的真实韵律特征以及当前字符的预测韵律特征进行随机采样；利用均方误差函数基于随机采样处理后的上一个字符的真实韵律特征和随机采样处理后的当前字符的预测韵律特征对解码器进行训练。

为解决上述技术问题，本发明提供的第四个技术方案为：提供一种语音识别模型的训练装置，包括：韵律确定模块，用于基于音频信息、音频信息对应的文本信息确定音频信息对应的韵律特征，其中，所述韵律特征包括句子韵律特征和字符韵律特征中至少一种，所述句子韵律特征表征所述待识别语音信息的句子含义，所述字符韵律特征表征所述待识别语音信息的字符含义，且所述句子韵律特征基于初步处理所述待识别语音信息得到的文本信息确定，所述字符韵律特征包含所述待识别语音信息中每一字符的韵律特征，当前字符的韵律特征基于上一个字符的韵律特征确定；训练模块，用于基于音频信息、音频信息对应的文本信息、音频信息对应的韵律特征对初始模型进行训练，得到语音识别模型。

为解决上述技术问题，本发明提供的第五个技术方案为：提供一种电子设备，包括相互藕接的处理器以及存储器，其中，存储器用于存储实现上述任一项的方法的程序指令；处理器用于执行存储器存储的程序指令。

为解决上述技术问题，本发明提供的第六个技术方案为：提供一种计算机可读存储介质，存储有程序文件，程序文件能够被执行以实现上述任一项的方法。

本发明的有益效果，区别于现有技术，本发明的方法在对待识别语音信息进行文本识别时，结合了待识别语音信息的韵律特征，基于韵律特征进行文本识别，进而得到文本信息，该方法提高语音识别的准确性，实现更可靠的识别效果。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图，其中：

图1为本发明语音识别方法的一实施例的流程示意图；

图2为图1中步骤S11的一实施例的流程示意图；

图3为图1中步骤S12的一实施例的流程示意图；

图4为图1中步骤S12的另一实施例的流程示意图；

图5为本发明语音识别装置的一实施例的结构示意图；

图6为本发明语音识别模型的训练方法的一实施例的流程示意图；

图7为图6中步骤S62的一实施例的流程示意图；

图8为本申请提出的随机采样自反馈训练的一实施例的流程示意图；

图9为本发明语音识别模型的训练装置的一实施例的结构示意图；

图10是本发明电子设备的一实施例的结构示意图；

图11是本发明计算机可读存储介质的结构示意图。

具体实施方法

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

下面结合附图和实施例对本发明进行详细的说明。

请参见图1，为本发明语音识别方法的第一实施例的流程示意图，具体包括：

步骤S11：确定待识别语音信息的韵律特征。

其中，所述韵律特征包括句子韵律特征和字符韵律特征中至少一种，所述句子韵律特征表征所述待识别语音信息的句子含义，所述字符韵律特征表征所述待识别语音信息的字符含义，且所述句子韵律特征基于初步处理所述待识别语音信息得到的文本信息确定，所述字符韵律特征包含所述待识别语音信息中每一字符的韵律特征，当前字符的韵律特征基于上一个字符的韵律特征确定。

步骤S12：利用语音识别模型基于韵律特征对待识别语音信息进行文本识别，得到待识别语音信息的文本信息。

本申请中，确定待识别语音信息的韵律特征，基于韵律特征对待识别语音信息进行文本识别，进而得到待识别语音信息的文本信息。

在一实施例中，可以确定待识别语音信息的句子韵律特征，基于待识别语音信息的句子韵律特征对待识别语音信息进行文本识别，得到待识别语音信息的文本信息。

具体的，请结合图2，步骤S11包括：

步骤S21：利用语音识别模型对待识别语音信息进行初步处理，以得到待识别语音信息的初步文本信息。

在进行语音识别时，可以先利用语音识别模型对待识别语音信息进行初步处理，得到待识别语音信息的初步文本信息。

步骤S22：基于初步文本信息以及待识别语音信息确定句子韵律特征。

需要说明的是，句子韵律特征基于待识别语音信息的句子属性确定；句子韵律特征表征待识别语音信息整句的统计信息。具体的，句子韵律特征为一个4维的向量，分别为待识别语音信息能量、音调、音调变化信息以及平均发音时长。本实施例中，先基于待识别语音信息确定待识别语音信息对应的音调、能量以及音调变化信息。需要说明的是，待识别语音信息对应的能量为平均对数能量，也即确定待识别语音信息中每一字符的能量，基于每一字符的能量确定出平均能量，再对平均能量求取对数。待识别语音信息对应的音调为平均对数音调，也即确定待识别语音信息中每一字符的音调，基于每一字符的音调确定出平均音调，再对平均音调求取对数。待识别语音信息对应的音调变化信息为音调变化方差。例如，平均对数能量为E，平均发音时长为T，平均对数音调为f，音调变化方差为Vf，则句子韵律特征为（E，T，f，Vf）。

具体的，基于待识别语音信息确定待识别语音信息对应的音调、能量以及音调变化信息之后，进一步基于得到的初步文本信息确定待识别语音信息中每一字符对应的平均发音时长T。在一实施例中，将初步文本信息与待识别语音信息对齐，进而得到初步文本信息中每一字符对应的发音时长；基于每一字符对应的发音时长确定每一字符对应的平均发音时长。在一具体实施例中，利用训练好的DNN-HMM语音识别声学模型对初步文本信息以及待识别语音信息进行处理，进而将初步文本信息与待识别语音信息对齐，具体的，对初步文本信息编译好的解码图运行维特比解码算法，得到初步文本信息的逐帧级别标注信息，该标注信息即为初步文本信息对应的起止时间戳信息，以此得到初步文本信息中每一字符对应的发音时长。基于每一字符的发音时长确定每一字符对应的平均发音时长T。

基于待识别语音信息对应的音调、能量以及音调变化信息、平均发音时长确定句子韵律特征。具体的，在确定好平均发音时长T后，结合之前的平均对数能量为E、平均对数音调为f、音调变化方差为Vf即可得到待识别语音信息的句子韵律特征。

利用语音识别模型基于句子韵律特征对待识别语音信息进行文本识别，得到待识别语音信息的文本信息。具体的，语音识别模型包括编码器与解码器，编码器与解码器级联形成端到端的语音识别模型。在一实施例中，如图4所示，利用编码器对待识别语音信息进行处理；利用注意力模块对编码器的输出以及句子韵律特征进行处理；然后利用解码器对注意力模块的输出进行处理，以得到待识别语音信息的文本信息。

在另一实施例中，可以确定待识别语音信息的字符韵律特征，基于待识别语音信息的字符韵律特征对待识别语音信息进行文本识别，得到待识别语音信息的文本信息。

具体的，利用语音识别模型基于当前字符的上一个字符以及上一个字符的韵律特征确定当前字符以及当前字符的韵律特征，待识别语音信息中每一字符的韵律特征组成待识别语音的字符韵律特征。

假设待识别语音信息为“科大讯飞”，则先利用语音识别模型对字符“科”进行识别，识别后，得到字符“科”以及字符“科”的韵律特征。在一实施例中，字符韵律特征基于待识别语音信息中的字符属性确定。具体的，字符韵律特征为一个4维向量，分别为能量e,该字符中含有静音段所对应的时长t_s，如不含静音则有t_s=0，该字符中是否含有静音停顿的标志位m，以及该字符对应的时长t。在语音识别模型对字符“大”进行识别时，基于字符“科”以及字符“科”的韵律特征，确定字符“大”以及字符“大”的韵律特征。进一步的，在语音识别模型对字符“讯”进行识别时，基于字符“大”以及字符“大”的韵律特征，确定字符“讯”以及字符“讯”的韵律特征。进一步的，在语音识别模型对字符“飞”进行识别时，基于字符“讯”以及字符“讯”的韵律特征，确定字符“飞”以及字符“飞”的韵律特征。将字符“科”的韵律特征、字符“大”的韵律特征、字符“讯”的韵律特征以及字符“飞”的韵律特征组合，即可得到待识别语音信息的字符韵律特征。

利用语音识别模型基于字符韵律特征对待识别语音信息进行文本识别，得到待识别语音信息的文本信息。

需要说明的是，语音识别模型包括编码器与解码器，编码器与解码器级联形成端到端的语音识别模型。请参见图3，在一实施例中，利用语音识别模型基于韵律特征对待识别语音信息进行文本识别，得到待识别语音信息的文本信息包括：利用解码器对待识别语音信息进行处理，利用注意力模块对编码器的输出进行处理；利用解码器对注意力模块的输出、字符韵律特征进行处理，以得到待识别语音信息的文本信息。

本申请的语音识别方法，基于待识别语音信息的韵律特征（句子韵律特征或者字符韵律特征）对待识别语音信息进行文本识别，可以提高识别结果的准确性，使得识别结果更加贴合待识别语音信息所表示的含义。

请参见图5，为本发明提供的语音识别装置的一实施例的结构示意图，具体包括韵律特征确定模块51以及文本识别模块52。其中，韵律特征确定模块51用于确定待识别语音信息的韵律特征。其中，所述韵律特征包括句子韵律特征和字符韵律特征中至少一种，所述句子韵律特征表征所述待识别语音信息的句子含义，所述字符韵律特征表征所述待识别语音信息的字符含义，且所述句子韵律特征基于初步处理所述待识别语音信息得到的文本信息确定，所述字符韵律特征包含所述待识别语音信息中每一字符的韵律特征，当前字符的韵律特征基于上一个字符的韵律特征确定。

在一实施例中，韵律特征包括句子韵律特征，句子韵律特征基于待识别语音信息的句子属性确定。韵律特征确定模块51利用语音识别模型对待识别语音信息进行初步处理，以得到待识别语音信息的初步文本信息；基于初步文本信息以及待识别语音信息确定句子韵律特征。

具体的，韵律特征确定模块51基于待识别语音信息确定待识别语音信息对应的音调、能量以及音调变化信息；基于初步文本信息确定待识别语音信息中每一字符对应的平均发音时长；基于待识别语音信息对应的音调、能量以及音调变化信息、平均发音时长确定句子韵律特征。

韵律特征确定模块51用于将初步文本信息与待识别语音信息对齐，进而得到初步文本信息中每一字符对应的发音时长；基于每一字符对应的发音时长确定每一字符对应的平均发音时长。

在一实施例中，韵律特征包括字符韵律特征，字符韵律特征基于待识别语音信息中的字符属性确定。韵律特征确定模块51利用语音识别模型基于当前字符的上一个字符以及上一个字符的韵律特征确定当前字符以及当前字符的韵律特征，待识别语音信息中每一字符的韵律特征组成待识别语音信息的字符韵律特征。

文本识别模块52用于利用语音识别模型基于韵律特征对待识别语音信息进行文本识别，得到待识别语音信息的文本信息。

在一实施例中，如图4所示，语音识别模型包括编码器以及解码器，文本识别模块52利用编码器对待识别语音信息进行处理；利用注意力模块对编码器的输出以及句子韵律特征进行处理；利用解码器对注意力模块的输出进行处理，以得到待识别语音信息的文本信息。

在一实施例中，如图3所示，文本识别模块52利用编码器对待识别语音信息进行处理；利用注意力模块对编码器的输出进行处理；利用解码器对注意力模块的输出、字符韵律特征进行处理，以得到待识别语音信息的文本信息。

本申请的语音识别装置，基于待识别语音信息的韵律特征（句子韵律特征或者字符韵律特征）对待识别语音信息进行文本识别，可以提高识别结果的准确性，使得识别结果更加贴合待识别语音信息所表示的含义。

请参见图6，为本发明语音识别模型的训练方法的一实施例的流程示意图，具体包括：

步骤S61：基于音频信息、音频信息对应的文本信息确定音频信息对应的韵律特征。

在一具体实施例中，获取训练样本集，训练样本集包括多个音频信息以及每一音频信息对应的文本信息。将音频信息以及音频信息对应的文本信息对齐，并确定音频信息对应的文本信息中每一字符的时间戳。具体地，利用训练好的DNN-HMM语音识别声学模型对音频信息以及音频信息对应的文本信息进行处理，进而将音频信息以及音频信息对应的文本信息对齐，具体的，对音频信息对应的文本信息编译好的解码图运行维特比解码算法，得到文本信息的逐帧级别标注信息，该标注信息即为文本信息对应的起止时间戳信息，以此得到文本信息中每一字符对应的时间戳。基于音频信息、每一字符的时间戳确定音频信息对应的韵律特征。

步骤S62：基于音频信息、音频信息对应的文本信息、音频信息对应的韵律特征对初始模型进行训练，得到语音识别模型。

在一实施例中，韵律特征包括句子韵律特征，基于音频信息确定音频信息的平均能量、音调、音调变化信息。需要说明的是，平均能量为平均能量对数，也即计算音频信息中每一字符的能量，然后确定平均能量，对平均能量求取对数；音调为平均对数音调，也即计算音频信息中每一字符的音调，然后确定平均音调，对平均音调求取对数；音调变化信息为音调变化方差。基于时间戳确定音频信息中每一字符的平均发音时长，可以理解的，时间戳为每一字符的时间戳，也即已知每一字符的发音时长，以此可以求得每一字符的平均发音时长。基于平均能量、音调、音调变化信息以及平均发音时长确定句子韵律特征。

请结合图4，初始模型包括依次级联的编码器和解码器；利用编码器对音频信息进行处理，得到输出结果，利用注意力模块对句子韵律特征以及编码器的输出结果进行处理；基于文本信息以及注意力模块的输出对解码器进行训练，进而得到语音识别模型。

在一实施例中，韵律特征包括字符韵律特征，字符韵律特征基于音频信息中的字符属性确定。具体的，基于音频信息，每一字符的时间戳确定音频信息中每一字符对应的能量、每一字符对应的静音时长、静音标志位以及每一字符对应的发音时长；基于能量、静音时长、静音标志位以及发音时长确定字符韵律特征。具体的，每一字符的时间戳已知，那么即可知道每一字符中字符的发音时长以及静音时长，如果静音时长t大于0，则静音标志位为1，如果静音时长t=0，则静音标志位为0。需要说明的是，字符韵律特征中的能量为对数能量，也即对字符韵律中每一字符的能量求取对数。

在确定好字符韵律特征后，基于音频信息、音频信息对应的文本信息、音频信息对应的字符韵律特征对初始模型进行训练，得到语音识别模型。具体的，请结合图3，利用编码器对音频信息进行处理，得到输出结果；利用注意力模块对编码器的输出结果进行处理；基于字符韵律特征、注意力模块的输出以及文本信息对解码器进行训练，得到语音识别模型。

在一具体实施例中，请结合图7，基于字符韵律特征、注意力模块的输出以及文本信息对解码器进行训练，得到语音识别模型包括：利用解码器对音频信息中当前字符的上一个字符、上一个字符的韵律特征以及注意力模块的输出进行处理，得到当前字符的预测字符以及当前字符的预测韵律特征。利用交叉熵函数基于当前字符的真实字符和预测字符对解码器进行训练，以及利用均方误差函数基于当前字符的真实韵律特征和预测韵律特征对解码器进行训练，得到语音识别模型。需要说明的是，当前字符的真实字符基于音频信息对应的文本信息得到，当前字符的真实韵律特征基于音频信息对应的韵律特征得到。在本实施例中，在当前字符的上一个字符、上一个字符的韵律特征在送入解码器之前需要先进行拼接。

具体来说，本实施例中，语音识别模型在训练时，同步预测当前预测字符对应的韵律特征，该韵律特征的学习使用最小均方误差函数实现；且同步预测当前字符对应的预测字符，该字符的学习使用交叉熵函数实现。也即本实施例训练得到的语音识别模型的总损失函数为字符预测误差和交叉熵损失和韵律特征预测的均方误差损失之和：

其中，

、

分别表示预测韵律特征和真实韵律特征，

分别表示预测字符和真实字符，CE( )表示交叉熵损失函数，也即

表征预测字符

和真实字符y的交叉熵损失。

额外引出的预测模块在训练中还可以起到多任务学习的辅助作用，给模型提供更丰富的监督信息，引导模型学习。在测试阶段，该模型在以上一个字符预测的韵律表征输出

作为近似的韵律表征结果，在下一个字符预测时，输入上一个字符的预测输出

，同时预测下一个字符的韵律表征

。这样模型就可以动态的获取到当前解码历史对应的每个字符的韵律表征信息。

需要说明的是，句子韵律特征与字符韵律特征辅助语音识别的方式可以单独使用，还可以融合使用。根据上述描述，可以看出句子韵律特征辅助的方式引入的额外的计算量小，建立模型的粒度粗，识别精准度稍弱，而字符韵律特征辅助的方式则需要更多的计算量，但是建立模型的粒度细，识别精准度强。在实际应用中可以根据需求进行选择。而两者的结合使用可以帮助模型同时捕捉到语音中的全局层面的韵律信息和局部的韵律变化，实现更精准的语音识别。

韵律特征在训练阶段可以使用真实的，准确的标注来提取，因此得到的韵律特征相对比较准确。而对于测试阶段，尤其对于局部特征，由模型预测得到，可能和真实的韵律特征存在一定的偏差。因此，为了避免模型在测试阶段和训练阶段所接受的韵律特征不匹配，而导致效果提升不显著，本案进一步设计了两种方案：在训练阶段，对于真实的韵律特征叠加随机的高斯噪声或者引入随机采样自反馈连接。

具体的，对当前字符的真实韵律特征叠加高斯噪声，得到处理后的真实韵律特征；利用均方误差函数基于处理后的真实韵律特征和预测韵律特征对解码器进行训练。具体的，引入方差为

，均值为0的高斯噪声，将引入的高斯噪声和归一化后的真实韵律特征进行叠加，如：

其中，

为引入的高斯噪声，

为真实韵律特征。这样做可以对真实韵律信息进行适当的干扰，让模型在利用真实韵律信息的同时，能够提高对一些误差信号的容忍度。这样在测试阶段，如果预测的结果存在偏差，那么模型能够同样的对预测本身的误差不敏感。

在一实施例中，对上一个字符的真实韵律特征以及当前字符的预测韵律特征进行随机采样；利用均方误差函数基于随机采样处理后的上一个字符的真实韵律特征和随机采样处理后的当前字符的预测韵律特征对解码器进行训练，具体如图8所示。对上一个字符的真实韵律特征

和当前字符的预测韵律特征

进行随机采样，然后基于随机采样后的真实韵律特征

和当前字符的预测韵律特征

对解码器进行训练。进一步的，对上一个字符的真实韵律特征

和当前字符的预测韵律特征

进行随机采样，然后基于随机采样后的真实韵律特征

和当前字符的预测韵律特征

对解码器进行训练。

因为在测试中，始终使用的输入为预测韵律特征，该方法在训练中直接对这种情况进行模拟。具体来说，在训练过程中可以以50%的概率对上一个字符的真实韵律特征和当前字符的预测韵律特征进行采样，采样后的结果可以送入到模型的输入，这种混合真实和预测结果的方式可以有效地的减小训练和测试之间的不匹配性。

本申请的语音识别模型的训练方法中，考虑了语音的韵律特征，具体的，考虑了语音中的停顿、语速、语调等，使得语音识别过程中同样能够结合语音中的停顿、语速、语调等信息之间潜在的相关性进行文本识别，提高文本识别的准确性，实现更可靠的识别效果。

请参见图9，为本发明语音识别模型的训练装置的一实施例的结构示意图，具体包括：韵律确定模块71以及训练模块72。

其中，韵律确定模块71用于基于音频信息、音频信息对应的文本信息确定音频信息对应的韵律特征。其中，所述韵律特征包括句子韵律特征和字符韵律特征中至少一种，所述句子韵律特征表征所述待识别语音信息的句子含义，所述字符韵律特征表征所述待识别语音信息的字符含义，且所述句子韵律特征基于初步处理所述待识别语音信息得到的文本信息确定，所述字符韵律特征包含所述待识别语音信息中每一字符的韵律特征，当前字符的韵律特征基于上一个字符的韵律特征确定。

在一实施例中，韵律确定模块71用于获取训练样本集，训练样本集包括多个音频信息以及每一音频信息对应的文本信息；将音频信息以及音频信息对应的文本信息对齐，并确定音频信息对应的文本信息中每一字符的时间戳；基于音频信息、每一字符的时间戳确定音频信息对应的韵律特征。

在一实施例中，韵律特征包括句子韵律特征，句子韵律特征基于音频信息的句子属性确定。韵律确定模块71基于音频信息以及时间戳确定音频信息的平均能量、音调、音调变化信息、音频信息中每一字符平均发音时长；基于平均能量、音调、音调变化信息以及平均发音时长确定句子韵律特征。在另一实施例中，韵律特征包括字符韵律特征，字符韵律特征基于音频信息中的字符属性确定。韵律确定模块71基于音频信息、每一字符的时间戳确定音频信息中每一字符对应的能量、每一字符对应的静音时长、静音标志位以及每一字符对应的发音时长；基于能量、静音时长、静音标志位以及发音时长确定字符韵律特征。

其中，训练模块72用于基于音频信息、音频信息对应的文本信息、音频信息对应的韵律特征对初始模型进行训练，得到语音识别模型。初始模型包括依次级联的编码器和解码器。在一实施例中，训练模块72利用编码器对音频信息进行处理，得到输出结果；利用注意力模块对句子韵律特征以及编码器的输出结果进行处理；基于文本信息以及注意力模块的输出对解码器进行训练，得到语音识别模型。在另一实施例中，训练模块72利用编码器对音频信息进行处理，得到输出结果；利用注意力模块对编码器的输出结果进行处理；基于字符韵律特征、注意力模块的输出以及文本信息对解码器进行训练，得到语音识别模型。具体的，训练模块72利用解码器对音频信息中当前字符的上一个字符、上一个字符的韵律特征以及注意力模块的输出进行处理，得到当前字符的预测字符以及当前字符的预测韵律特征；利用交叉熵函数基于当前字符的真实字符和预测字符对解码器进行训练，以及利用均方误差函数基于当前字符的真实韵律特征和预测韵律特征对解码器进行训练，得到语音识别模型；当前字符的真实字符基于音频信息对应的文本信息得到，当前字符的真实韵律特征基于音频信息对应的字符韵律特征得到。在一实施例中，训练模块72对当前字符的真实韵律特征叠加高斯噪声，得到处理后的真实韵律特征；利用均方误差函数基于处理后的真实韵律特征和预测韵律特征对解码器进行训练。在一实施例中，训练模块72对上一个字符的真实韵律特征以及当前字符的预测韵律特征进行随机采样；利用均方误差函数基于随机采样处理后的上一个字符的真实韵律特征和随机采样处理后的当前字符的预测韵律特征对解码器进行训练。

本申请的语音识别模型的训练装置中，考虑了语音的韵律特征，具体的，考虑了语音中的停顿、语速、语调等，使得语音识别过程中同样能够结合语音中的停顿、语速、语调等信息之间潜在的相关性进行文本识别，提高文本识别的准确性，实现更可靠的识别效果。

请参见图10，为本发明电子设备的一实施例的结构示意图。电子设备包括相互连接的存储器82和处理器81。

存储器82用于存储实现上述任意一项的方法的程序指令。

处理器81用于执行存储器82存储的程序指令。

其中，处理器81还可以称为CPU（Central Processing Unit，中央处理单元）。处理器81可能是一种集成电路芯片，具有信号的处理能力。处理器81还可以是通用处理器、数字信号处理器（DSP）、专用集成电路（ASIC）、现场可编程门阵列（FPGA）或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器82可以为内存条、TF卡等，可以存储电子设备中全部信息，包括输入的原始数据、计算机程序、中间运行结果和最终运行结果都保存在存储器中。它根据控制器指定的位置存入和取出信息。有了存储器，电子设备才有记忆功能，才能保证正常工作。电子设备的存储器按用途存储器可分为主存储器(内存)和辅助存储器(外存)，也有分为外部存储器和内部存储器的分类方法。外存通常是磁性介质或光盘等，能长期保存信息。内存指主板上的存储部件，用来存放当前正在执行的数据和程序，但仅用于暂时存放程序和数据，关闭电源或断电，数据会丢失。

在本申请所提供的几个实施例中，应该理解到，所揭露的方法和装置，可以通过其它的方法实现。例如，以上所描述的装置实施方法仅仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方法，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方法方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，***服务器，或者网络设备等）或处理器（processor）执行本申请各个实施方法的全部或部分步骤。

请参阅图11，为本发明计算机可读存储介质的结构示意图。本申请的存储介质存储有能够实现上述所有方法的程序文件91，其中，该程序文件91可以以软件产品的形式存储在上述存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）或处理器（processor）执行本申请各个实施方法的全部或部分步骤。而前述的存储装置包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质，或者是计算机、服务器、手机、平板等终端设备。

以上仅为本发明的实施方法，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种语音识别方法，其特征在于，包括：

确定待识别语音信息的韵律特征，其中，所述韵律特征包括句子韵律特征和字符韵律特征中至少一种，所述句子韵律特征表征所述待识别语音信息的句子含义，所述字符韵律特征表征所述待识别语音信息的字符含义，且所述句子韵律特征基于初步处理所述待识别语音信息得到的文本信息确定，所述字符韵律特征包含所述待识别语音信息中每一字符的韵律特征，当前字符的韵律特征基于上一个字符的韵律特征确定；

利用语音识别模型基于所述韵律特征对所述待识别语音信息进行文本识别，得到所述待识别语音信息的文本信息。

2.根据权利要求1所述的方法，其特征在于，响应于所述韵律特征包括句子韵律特征，所述句子韵律特征基于所述待识别语音信息的句子属性确定；

所述确定待识别语音信息的韵律特征的步骤，包括：

利用所述语音识别模型对待识别语音信息进行初步处理，以得到所述待识别语音信息的初步文本信息；

基于所述初步文本信息以及所述待识别语音信息确定所述句子韵律特征。

3.根据权利要求2所述的方法，其特征在于，所述基于所述初步文本信息以及所述待识别语音信息确定所述句子韵律特征的步骤，包括：

基于所述待识别语音信息确定所述待识别语音信息对应的音调、能量以及音调变化信息；

基于所述初步文本信息确定所述待识别语音信息中每一字符对应的平均发音时长；

基于所述待识别语音信息对应的音调、能量以及音调变化信息、所述平均发音时长确定所述句子韵律特征。

4.根据权利要求3所述的方法，其特征在于，所述基于所述初步文本信息确定所述待识别语音信息中每一字符对应的平均发音时长的步骤，包括：

将所述初步文本信息与所述待识别语音信息对齐，进而得到所述初步文本信息中每一字符对应的发音时长；

基于每一字符对应的发音时长确定每一字符对应的平均发音时长。

5.根据权利要求2所述的方法，其特征在于，所述语音识别模型包括编码器以及解码器；

所述利用语音识别模型基于所述韵律特征对所述待识别语音信息进行文本识别，得到所述待识别语音信息的文本信息的步骤，包括：

利用所述编码器对所述待识别语音信息进行处理；

利用注意力模块对所述编码器的输出以及所述句子韵律特征进行处理；

利用所述解码器对所述注意力模块的输出进行处理，以得到所述待识别语音信息的文本信息。

6.根据权利要求1所述的方法，其特征在于，响应于所述韵律特征包括字符韵律特征，所述字符韵律特征基于所述待识别语音信息中的字符属性确定；

所述确定待识别语音信息的韵律特征的步骤，包括：

利用语音识别模型基于当前字符的上一个字符以及所述上一个字符的韵律特征确定当前字符以及所述当前字符的韵律特征，所述待识别语音信息中每一字符的韵律特征组成所述待识别语音信息的字符韵律特征。

7.根据权利要求6所述的方法，其特征在于，所述语音识别模型包括编码器以及解码器；

利用所述编码器对所述待识别语音信息进行处理；

利用注意力模块对所述编码器的输出进行处理；

利用所述解码器对所述注意力模块的输出、所述字符韵律特征进行处理，以得到所述待识别语音信息的文本信息。

8.一种语音识别装置，其特征在于，包括：

韵律特征确定模块，用于确定待识别语音信息的韵律特征，其中，所述韵律特征包括句子韵律特征和字符韵律特征中至少一种，所述句子韵律特征表征所述待识别语音信息的句子含义，所述字符韵律特征表征所述待识别语音信息的字符含义，且所述句子韵律特征基于初步处理所述待识别语音信息得到的文本信息确定，所述字符韵律特征包含所述待识别语音信息中每一字符的韵律特征，当前字符的韵律特征基于上一个字符的韵律特征确定；

文本识别模块，用于利用语音识别模型基于所述韵律特征对所述待识别语音信息进行文本识别，得到所述待识别语音信息的文本信息。

9.一种语音识别模型的训练方法，其特征在于，包括：

基于音频信息、所述音频信息对应的文本信息确定所述音频信息对应的韵律特征，其中，所述韵律特征包括句子韵律特征和字符韵律特征中至少一种，所述句子韵律特征表征所述音频信息的句子含义，所述字符韵律特征表征所述音频信息的字符含义，且所述句子韵律特征基于所述音频信息对应的文本信息确定，所述字符韵律特征包含所述音频信息中每一字符的韵律特征，当前字符的韵律特征基于上一个字符的韵律特征确定；

基于所述音频信息、所述音频信息对应的文本信息、所述音频信息对应的韵律特征对初始模型进行训练，得到语音识别模型。

10.根据权利要求9所述的方法，其特征在于，所述基于音频信息、所述音频信息对应的文本信息确定所述音频信息对应的韵律特征的步骤，包括：

获取训练样本集，所述训练样本集包括多个音频信息以及每一所述音频信息对应的文本信息；

将所述音频信息以及所述音频信息对应的文本信息对齐，并确定所述音频信息对应的文本信息中每一字符的时间戳；

基于所述音频信息、所述每一字符的时间戳确定所述音频信息对应的韵律特征。

11.根据权利要求10所述的方法，其特征在于，所述韵律特征包括句子韵律特征，所述句子韵律特征基于所述音频信息的句子属性确定；

基于所述音频信息、所述每一字符的时间戳确定所述音频信息对应的韵律特征的步骤，包括：

基于所述音频信息以及所述时间戳确定所述音频信息的平均能量、音调、音调变化信息、所述音频信息中每一字符平均发音时长；

基于所述平均能量、音调、音调变化信息以及所述平均发音时长确定所述句子韵律特征。

12.根据权利要求11所述的方法，其特征在于，所述初始模型包括依次级联的编码器和解码器；

所述基于所述音频信息、所述音频信息对应的文本信息、所述音频信息对应的韵律特征对初始模型进行训练，得到语音识别模型的步骤，包括：

利用所述编码器对所述音频信息进行处理，得到输出结果；

利用注意力模块对所述句子韵律特征以及所述编码器的输出结果进行处理；

基于所述文本信息以及所述注意力模块的输出对所述解码器进行训练，得到所述语音识别模型。

13.根据权利要求10所述的方法，其特征在于，所述韵律特征包括字符韵律特征，所述字符韵律特征基于所述音频信息中的字符属性确定；

所述基于所述音频信息、所述每一字符的时间戳确定所述音频信息对应的韵律特征的步骤，包括：

基于所述音频信息、所述每一字符的时间戳确定所述音频信息中每一字符对应的能量、每一字符对应的静音时长、静音标志位以及每一字符对应的发音时长；

基于所述能量、所述静音时长、所述静音标志位以及所述发音时长确定所述字符韵律特征。

14.根据权利要求13所述的方法，其特征在于，所述初始模型包括编码器以及解码器；

利用所述编码器对所述音频信息进行处理，得到输出结果；

利用注意力模块对所述编码器的输出结果进行处理；

基于所述字符韵律特征、所述注意力模块的输出以及所述文本信息对所述解码器进行训练，得到所述语音识别模型。

15.根据权利要求14所述的方法，其特征在于，所述基于所述字符韵律特征、所述注意力模块的输出以及所述文本信息对所述解码器进行训练的步骤，包括；

利用解码器对所述音频信息中当前字符的上一个字符、上一个字符的韵律特征以及所述注意力模块的输出进行处理，得到所述当前字符的预测字符以及所述当前字符的预测韵律特征；

利用交叉熵函数基于所述当前字符的真实字符和所述预测字符对所述解码器进行训练，以及利用均方误差函数基于所述当前字符的真实韵律特征和所述预测韵律特征对所述解码器进行训练，得到所述语音识别模型；所述当前字符的真实字符基于所述音频信息对应的文本信息得到，所述当前字符的真实韵律特征基于所述音频信息对应的字符韵律特征得到。

16.根据权利要求15所述的方法，其特征在于，所述利用均方误差函数基于所述当前字符的真实韵律特征和所述预测韵律特征对所述解码器进行训练的步骤，包括：

对所述当前字符的真实韵律特征叠加高斯噪声，得到处理后的真实韵律特征；

利用均方误差函数基于所述处理后的真实韵律特征和所述预测韵律特征对所述解码器进行训练。

17.根据权利要求15所述的方法，其特征在于，所述利用均方误差函数基于所述当前字符的真实韵律特征和所述预测韵律特征对所述解码器进行训练的步骤，包括：

对所述上一个字符的真实韵律特征以及所述当前字符的预测韵律特征进行随机采样；

利用均方误差函数基于随机采样处理后的上一个字符的真实韵律特征和随机采样处理后的当前字符的预测韵律特征对所述解码器进行训练。

18.一种语音识别模型的训练装置，其特征在于，包括：

韵律确定模块，用于基于音频信息、所述音频信息对应的文本信息确定所述音频信息对应的韵律特征，其中，所述韵律特征包括句子韵律特征和字符韵律特征中至少一种，所述句子韵律特征表征所述音频信息的句子含义，所述字符韵律特征表征所述音频信息的字符含义，且所述句子韵律特征基于所述音频信息对应的文本信息确定，所述字符韵律特征包含所述音频信息中每一字符的韵律特征，当前字符的韵律特征基于上一个字符的韵律特征确定；

训练模块，用于基于所述音频信息、所述音频信息对应的文本信息、所述音频信息对应的韵律特征对初始模型进行训练，得到语音识别模型。

19.一种电子设备，其特征在于，包括相互藕接的处理器以及存储器，其中，所述存储器用于存储实现如权利要求1-7和/或9-17任一项所述的方法的程序指令；

所述处理器用于执行所述存储器存储的所述程序指令。

20.一种计算机可读存储介质，其特征在于，存储有程序文件，所述程序文件能够被执行以实现如权利要求1-7和/或9-17任一项所述的方法。