CN114255740A

CN114255740A - 语音识别方法、装置、计算机设备和存储介质

Info

Publication number: CN114255740A
Application number: CN202111574438.7A
Authority: CN
Inventors: 崔洋洋; 余俊澎
Original assignee: Youmi Technology Shenzhen Co ltd
Current assignee: Youmi Technology Shenzhen Co ltd
Priority date: 2021-12-21
Filing date: 2021-12-21
Publication date: 2022-03-29

Abstract

本申请涉及一种语音识别方法、装置、计算机设备、存储介质和计算机程序产品。所述方法包括：对语音信号进行特征提取，得到语音信号特征；通过识别网络对所述语音信号特征进行语义识别，得到语音语义信息；根据唇语语义信息对所述语音语义信息进行调整；所述唇语语义信息是对所述语音信号对应的说话者唇部图像进行唇语识别所得的；基于调整后的所述语音语义信息生成语音识别文本。采用本方法能够提高语音识别的准确性。

Description

语音识别方法、装置、计算机设备和存储介质

技术领域

本申请涉及计算机技术领域，特别是涉及一种语音识别方法、装置、计算机设备、存储介质和计算机程序产品。

背景技术

随着计算机技术的发展，语音识别技术在通信、医疗、自动驾驶等领域得到广泛应用，通过语音识别技术可以通过说话者的语音信号识别出说话者的说话内容。但是，传统的语音识别技术只能识别标准的普通话，对于方言的识别效果较差，怎样准确的识别方言成为亟待解决的问题。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高语音识别准确性的语音识别方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。

第一方面，本申请提供了一种语音识别方法。所述方法包括：

对语音信号进行特征提取，得到语音信号特征；

通过识别网络对所述语音信号特征进行语义识别，得到语音语义信息；

根据唇语语义信息对所述语音语义信息进行调整；所述唇语语义信息是对所述语音信号对应的说话者唇部图像进行唇语识别所得的；

基于调整后的所述语音语义信息生成语音识别文本。

第二方面，本申请还提供了一种语音识别装置。所述装置包括：

提取模块，用于对语音信号进行特征提取，得到语音信号特征；

识别模块，用于通过识别网络对所述语音信号特征进行语义识别，得到语音语义信息；

调整模块，用于根据唇语语义信息对所述语音语义信息进行调整；所述唇语语义信息是对所述语音信号对应的说话者唇部图像进行唇语识别所得的；

生成模块，用于基于调整后的所述语音语义信息生成语音识别文本。

在一个实施例中，所述提取模块，还用于：

对语音信号进行分帧处理，得到至少两个音频帧；

分别对所述至少两个音频帧进行预加重处理；

对预加重后的所述音频帧进行加窗处理；

从加窗后的所述音频帧中提取语音信号特征。

在一个实施例中，所述识别模块，还用于：

通过识别网络中的声学模型，根据所述语音信号特征确定所述语音信号对应的至少两个候选词序列；

通过所述识别网络中的语言模型，从所述至少两个候选词序列中选取目标词序列，并将所述目标词序列作为所述语音语义信息。

在一个实施例中，所述识别模块，还用于：

通过识别网络中的声学模型，对所述语音信号特征进行特征处理，得到所述语音信号中各音频帧对应的音素；

在发音词典中查询与所述音素匹配的文字；

对由所述文字组成的词语进行排列组合，得到所述语音信号对应的至少两个候选词序列。

在一个实施例中，所述识别模块，还用于：

通过所述识别网络中的语言模型对各所述候选词序列进行评分，得到各所述候选词序列对应的分值；

根据所述分值从所述至少两个候选词序列中选取目标词序列。

在一个实施例中，所述装置还包括：

所述提取模块，还用于对语音信号样本进行特征提取，得到语音信号样本特征；

处理模块，用于通过预训练的声学模型对所述语音信号样本特征进行特征处理，得到所述语音信号样本中各音频帧样本对应的音素样本；

确定模块，用于根据所述音素样本与音素标签确定损失值；

所述调整模块，还用于根据所述损失值对所述预训练的声学模型的参数进行调整，得到所述声学模型。

第三方面，本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

对语音信号进行特征提取，得到语音信号特征；

基于调整后的所述语音语义信息生成语音识别文本。

第四方面，本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

对语音信号进行特征提取，得到语音信号特征；

基于调整后的所述语音语义信息生成语音识别文本。

第五方面，本申请还提供了一种计算机程序产品。所述计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现以下步骤：

对语音信号进行特征提取，得到语音信号特征；

基于调整后的所述语音语义信息生成语音识别文本。

上述语音识别方法、装置、计算机设备、存储介质和计算机程序产品，通过识别网络对从语音信号中提取的语音信号特征进行语义识别，得到语音语义信息。根据对语音信号对应的说话者唇部图像进行唇语识别所得的唇语语义信息，对语音语义信息进行调整，基于调整后的语音语义信息生成语音识别文本。当说话者的语言为方言时，通过唇语语义信息对语音语义信息进行调整，使调整后的语音语义信息更加准确，从而能够更加准确的识别方言，提高了语音识别的准确性。

附图说明

图1为一个实施例中语音识别方法的应用环境图；

图2为一个实施例中语音识别方法的流程示意图；

图3为一个实施例中通过声学模型生成语音语义信息方法的流程示意图；

图4为一个实施例中通过声学模型得到候选词序列方法的流程示意图；

图5为另一个实施例中语音识别方法的流程示意图；

图6为一个实施例中语音识别装置的结构框图；

图7为另一个实施例中语音识别装置的结构框图；

图8为一个实施例中计算机设备的内部结构图；

图9为另一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请实施例提供的语音识别方法，可以应用于如图1所示的应用环境中。其中，数据存储***可以存储计算机设备102需要处理的数据。数据存储***可以集成在服务器上，也可以放在云上或其他网络服务器上。计算机设备102对语音信号进行特征提取，得到语音信号特征；通过识别网络对语音信号特征进行语义识别，得到语音语义信息；根据唇语语义信息对语音语义信息进行调整；唇语语义信息是对语音信号对应的说话者唇部图像进行唇语识别所得的；基于调整后的语音语义信息生成语音识别文本。

其中，计算机设备102可以是终端，也可以是服务器，终端可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备，物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中，如图2所示，提供了一种语音识别方法，以该方法应用于图1中的计算机设备为例进行说明，包括以下步骤：

S202，对语音信号进行特征提取，得到语音信号特征。

其中，语音信号是记录说话者说话内容的音频信号，该说话者可以使用各种语言或者方言。例如，说话者可以使用英语、中文、法语等，或者说话者也可以使用普通话、湖南方言或者四川方言等。

其中，语音信号特征是用于表示语音信号特点的特征。例如，语音信号特征可以是幅度、能量、过零率、功率谱等，或者也可以是MFCC(Mel-frequency cepstralcoefficients，梅尔倒谱系数)特征、或者AMS(Amplitude Modulation Spectrogram，幅度调制频谱)特征、RASTA-PLP(Relative Spectral Transform-Perceptual LinearPrediction，相对频谱变换-感知线性预测)特征或者基于EMD(Empirical ModeDecomposition，经验模态分解)的语音信号特征等。

在一个实施例中，S202之前还包括：计算机设备获取通过麦克风采集的模拟语音信号，对模拟语音信号进行采样和量化，得到数字语音信号。S202具体包括：计算机设备对数字语音信号进行特征提取，得到语音信号特征。

S204，通过识别网络对语音信号特征进行语义识别，得到语音语义信息。

其中，识别网络是用于进行语义识别的神经网络，可以是CNN(ConvolutionalNeural Networks，卷积神经网络)、ResNet(Residual Net，残差卷积神经网络)、LSTM(LongShort-Term Memor，长短时记忆网络)、BLSTM(Bi-directional LSTM，双向长短时记忆网络)等神经网络。语音语义信息是语音信号中所包含的语义信息，记载了说话者的说话内容。

在一个实施例中，识别网络包括声学模型、语言模型和发音词典。其中声学模型用于通过语音信号特征得到语音信号对应的音素。发音词典用于将音素映射为文字。语言模型用于根据文字的语法和语义生成语音语义信息。

S206，根据唇语语义信息对语音语义信息进行调整；唇语语义信息是对语音信号对应的说话者唇部图像进行唇语识别所得的。

其中，唇语语义信息是从说话者唇部图像中提取的语义信息。唇部图像是在说话者说话时，通过图像采集设备采集的说话者唇部的图像，可以是灰度图像，也可以是彩色图像。唇语识别是通过说话者唇部特征识别出说话者的说话内容的技术。

在一个实施例中，S206之前还包括：计算机设备获取说话者唇部图像，通过CNN模型对唇部图像进行特征提取，得到唇部图像特征；通过BLSTM模型对唇部图像特征进行编码，得到特征向量。通过分类器(例如，Softmax分类函数)，根据特征向量计算唇部图像与各语义信息间的匹配概率，根据匹配概率确定唇部图像对应的唇语语义信息。其中，计算机设备可以通过NUMBER DATASET(数字数据集)或者PHRACE DATASET(短语数据集)中的训练样本对预训练的CNN模型和预训练的BLSTM模型进行训练，得到CNN模型和BLSTM模型。

S208，基于调整后的语音语义信息生成语音识别文本。

其中，语音识别文本是包含调整后的语音语义信息的文本，可以是TXT(Text，纯文本)、JSON(JavaScript Object Notation,JS对象简谱)等各种格式的文本。语音识别文本中可以包括一个或多个句子、段落或者篇章。

上述实施例中，通过识别网络对从语音信号中提取的语音信号特征进行语义识别，得到语音语义信息。根据由对语音信号对应的说话者唇部图像进行唇语识别所得的唇语语义信息，对语音语义信息进行调整，基于调整后的语音语义信息生成语音识别文本。当说话者的语言为方言时，通过唇语语义信息对语音语义信息进行调整，使调整后的语音语义信息更加准确，从而能够更加准确的识别方言，提高了语音识别的准确性。

在一个实施例中，S202具体包括：对语音信号进行分帧处理，得到至少两个音频帧；分别对至少两个音频帧进行预加重处理；对预加重后的音频帧进行加窗处理；从加窗后的音频帧中提取语音信号特征。

其中，分帧处理是将语音信号分为多个音频帧的处理过程。例如，语音信号为10秒长度的信号，计算机设备通过分帧处理将语音信号分为500个音频帧，每个音频帧的长度为20ms。

其中，预加重处理是对音频帧的高频分量进行补偿的处理过程。在一个实施例中，计算机设备可以通过一阶零点数字滤波器对音频帧进行预加重处理，以加强音频帧的高频共振峰，提高了音频帧的信噪比。加窗处理是通过窗函数对音频帧进行加权计算的处理过程。窗函数例如可以是汉明窗、高斯窗或者三角窗等。

上述实施例中，计算机设备对分帧处理所得的至少两个音频帧进行预加重处理并对预加重后的音频帧进行加窗处理。从加窗后的音频帧中提取语音信号特征。由于预加重处理可以提高音频帧的信噪比，加窗处理可以使音频帧频谱的分辨率更高，因此，从加窗后的音频帧中提取的语音信号特征的准确性更高。

在一个实施例中，S202具体包括：将获取的语音信号分解为至少两个本征模函数；对本征模函数进行特征提取，得到语音信号特征。

计算机设备可以通过EMD方法将语音信号分解为至少两个本征模函数，例如，计算机设备将语音信号分解为8个本征模函数。计算机设备对本征模函数进行傅里叶变换，得到各本征模函数的频谱，然后对各频谱的主能量频率值做离散余弦变换，得到特征分量D_i，根据特征分量D_i构成的语音信号特征T＝[D₁，D₂，D₃，…，D_N]，其中，N为分解得到的本征模函数的个数。

在一个实施例中，如图3所示，S204具体包括如下步骤：

S302，通过识别网络中的声学模型，根据语音信号特征确定语音信号对应的至少两个候选词序列。

其中，声学模型是一种机器学习模型，例如可以是CNN模型或者GMM(GaussianMixed Model，高斯混合模型)等。CNN模型中包括卷积层、池化层和全连接层，通过卷积层对语音信号特征进行卷积计算，根据卷积计算的结果确定语音信号对应的至少两个候选词序列。GMM模型是对高斯分布函数进行线性组合所得的模型。

S304，通过识别网络中的语言模型，从至少两个候选词序列中选取目标词序列，并将目标词序列作为语音语义信息。

其中，语言模型是根据语法和语义对各候选词序列进行评分的模型，例如N-gram(N元)模型或者DNN(Deep Neural Networks，深度神经网络)模型。语言模型对候选词序列进行评分的分值表示各候选词序列组成的语句合乎语法和语义的程度，分值高的候选词序列组成的语句更加符合语法和语义。

在一个实施例中，S304具体包括：计算机设备通过识别网络中的语言模型对各候选词序列进行评分，得到各候选词序列对应的分值；根据分值从至少两个候选词序列中选取目标词序列。

计算机设备可以从候选词序列中选取分值达到预设值的词序列作为目标词序列，或者也可以从候选词序列中选取分值最高的词序列作为目标词序列。

上述实施例中，计算机设备通过识别网络中的声学模型，根据语音信号特征确定语音信号对应的至少两个候选词序列。然后通过识别网络中的语言模型，从至少两个候选词序列中选取目标词序列，并将目标词序列作为语音语义信息。由于语言模型对词序列进行评分时，利用了语言的语法和语义知识，因此即使在语音信号对应的语言为方言时，也可以得到准确的语音语义信息。

在一个实施例中，如图4所示，S302具体包括如下步骤：

S402，通过识别网络中的声学模型，对语音信号特征进行特征处理，得到语音信号中各音频帧对应的音素。

其中，音素是包括元音和辅音的语音单位。例如，汉语中的a、i、an、ti、ou等。计算机设备通过声学模型，对语音信号特征进行特征处理，得到语音信号中各音频帧对应的音素。例如，第3个音频帧对应的音素为a。

在一个实施例中，S402具体包括：计算机设备通过识别网络中的声学模型，对语音信号特征进行特征处理，得到语音信号中每个音频帧与各音素间的匹配概率；基于匹配概率，从各音素中选取每个音频帧对应的音素。

S404，在发音词典中查询与音素匹配的文字。

其中，发音词典是以音素为键，以文字为值的词典。在发音词典中查询的与音素匹配的文字可以为一个，也可以为多个。例如，在发音词典中，音素“tian”匹配的文字可以为“填”、“天”或者“田”等。

S406，对由文字组成的词语进行排列组合，得到语音信号对应的至少两个候选词序列。

由于音素对应的文字可以为多个，因此由文字组成的词语也可以是多个。例如，与音素“mei”匹配的文字可以是“美”、“魅”或者“每”等，与音素“li”匹配的文字可以是“力”、“丽”或者“离”等。所以，由文字组成的词语可以是“美丽”、“魅力”等。

计算机设备对由文字组成的词语进行排列组合，得到语音信号对应的至少两个候选词序列。例如，语音信号中的第0-15个音频帧对应的词语为“魅力”、“美丽”，第16-25个音频帧对应的词语为“草原”或者“曹园”，则计算机设备对词语进行排列组合所得的候选词序列可以为“美丽、草原”；“美丽、曹园”；“魅力、草原”或者“魅力、曹园”。

上述实施例中，计算机设备通过声学模型得到语音信号中各音频帧对应的音素，在发音词典中查询与音素匹配的文字并对由文字组成的词语进行排列组合，得到语音信号对应的至少两个候选词序列，从而可以获取语音信号的语音语义信息。

在一个实施例中，计算机设备对语音信号样本进行特征提取，得到语音信号样本特征；通过预训练的声学模型对语音信号样本特征进行特征处理，得到语音信号样本中各音频帧样本对应的音素样本；根据音素样本与音素标签确定损失值；根据损失值对预训练的声学模型的参数进行调整，得到声学模型。

其中，语音信号样本是记录说话者说话内容的音频信号样本，该说话者可以使用各种语言或者方言。语音信号样本特征是用于表示语音信号特点的样本特征，可以是MFCC特征、AMS特征、或者RASTA-PLP特征、或者基于EMD的语音信号特征等。

在一个实施例中，计算机设备通过Viterbi(维特比)算法对预训练的声学模型进行初始训练，得到声学模型的初始参数，然后通过Baum-Welch算法对初始参数进行调整，得到声学模型的参数。

在一个实施例中，计算机设备获取通过麦克风采集的模拟语音信号样本，对模拟语音信号样本进行采样和量化，得到数字语音信号样本，其中采样频率可以是1kHz，量化后的语音信号样本中的每个样本点用16位的整数来表示。计算机设备将数字语音信号样本输入DIALOGIC卡(电话卡)，DIALOGIC卡将数字语音信号样本传输至公用电话网，然后通过另一个DIALOGIC卡接收公用电话卡传输的数字语音信号样本。计算机设备对数字语音信号样本进行存储，并通过存储的数字语音信号样本对预训练的声学模型进行训练。

在一个实施例中，如图5所示，语音识别方法包括如下步骤：

S502，将通过DIALOGIC卡获取的语音信号样本存入语音样本库，通过语音样本库中的语音信号样本对预训练的声学模型和预训练的语言模型进行训练，得到声学模型和语言模型。

S504，将声学模型、语言模型和发音词典组成识别网络，该识别网络为加权有限状态机的静态解码器。

S506，获取说话者的语音信号，通过对语音信号进行端点检测去除语音信号中的呼吸声、咂舌声和咳嗽声等无效的语音信号，得到有效的语音信号。

S508，对有效的语音信号进行分帧处理，得到至少两个音频帧；分别对至少两个音频帧进行预加重处理；对预加重后的音频帧进行加窗处理；从加窗后的音频帧中提取语音信号特征。

S510，通过识别网络中的声学模型，对语音信号特征进行特征处理，得到语音信号中各音频帧对应的音素。

S512，在发音词典中查询与音素匹配的文字并对由文字组成的词语进行排列组合，得到语音信号对应的至少两个候选词序列。

S514，通过识别网络中的语言模型对各候选词序列进行评分，得到各候选词序列对应的分值。

S516，根据分值从至少两个候选词序列中选取目标词序列，并将目标词序列作为语音语义信息。

S518，根据唇语语义信息对语音语义信息进行调整；唇语语义信息是对语音信号对应的说话者唇部图像进行唇语识别所得的；

S520，基于调整后的语音语义信息生成语音识别文本。

上述S502至S520的具体内容可以参考上文所述的具体实现过程。

应该理解的是，虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

基于同样的发明构思，本申请实施例还提供了一种用于实现上述所涉及的语音识别方法的语音识别装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个语音识别装置实施例中的具体限定可以参见上文中对于语音识别方法的限定，在此不再赘述。

在一个实施例中，如图6所示，提供了一种语音识别装置，包括：提取模块602、识别模块604、调整模块606和生成模块608，其中：

提取模块602，用于对语音信号进行特征提取，得到语音信号特征；

识别模块604，用于通过识别网络对所述语音信号特征进行语义识别，得到语音语义信息；

调整模块606，用于根据唇语语义信息对所述语音语义信息进行调整；所述唇语语义信息是对所述语音信号对应的说话者唇部图像进行唇语识别所得的；

生成模块608，用于基于调整后的所述语音语义信息生成语音识别文本。

上述实施例中，通过识别网络对从语音信号中提取的语音信号特征进行语义识别，得到语音语义信息。根据对语音信号对应的说话者唇部图像进行唇语识别所得的唇语语义信息，对语音语义信息进行调整，基于调整后的语音语义信息生成语音识别文本。当说话者的语言为方言时，通过唇语语义信息对语音语义信息进行调整，使调整后的语音语义信息更加准确，从而能够更加准确的识别方言，提高了语音识别的准确性。

在一个实施例中，提取模块602，还用于：

对语音信号进行分帧处理，得到至少两个音频帧；

分别对至少两个音频帧进行预加重处理；

对预加重后的音频帧进行加窗处理；

从加窗后的音频帧中提取语音信号特征。

在一个实施例中，识别模块604，还用于：

通过识别网络中的声学模型，根据语音信号特征确定语音信号对应的至少两个候选词序列；

通过识别网络中的语言模型，从至少两个候选词序列中选取目标词序列，并将目标词序列作为语音语义信息。

在一个实施例中，识别模块604，还用于：

通过识别网络中的声学模型，对语音信号特征进行特征处理，得到语音信号中各音频帧对应的音素；

在发音词典中查询与音素匹配的文字；

对由文字组成的词语进行排列组合，得到语音信号对应的至少两个候选词序列。

在一个实施例中，识别模块604，还用于：

通过识别网络中的语言模型对各候选词序列进行评分，得到各候选词序列对应的分值；

根据分值从至少两个候选词序列中选取目标词序列。

在一个实施例中，如图7所示，装置还包括：

提取模块602，还用于对语音信号样本进行特征提取，得到语音信号样本特征；

处理模块610，用于通过预训练的声学模型对语音信号样本特征进行特征处理，得到语音信号样本中各音频帧样本对应的音素样本；

确定模块612，用于根据音素样本与音素标签确定损失值；

调整模块606，还用于根据损失值对预训练的声学模型的参数进行调整，得到声学模型。

上述语音识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图8所示。该计算机设备包括通过***总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作***、计算机程序和数据库。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的数据库用于存储语音识别数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种语音识别方法。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图9所示。该计算机设备包括通过***总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***和计算机程序。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、移动蜂窝网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种语音识别方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图8、9中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：对语音信号进行特征提取，得到语音信号特征；通过识别网络对语音信号特征进行语义识别，得到语音语义信息；根据唇语语义信息对语音语义信息进行调整；唇语语义信息是对语音信号对应的说话者唇部图像进行唇语识别所得的；基于调整后的语音语义信息生成语音识别文本。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：对语音信号进行分帧处理，得到至少两个音频帧；分别对至少两个音频帧进行预加重处理；对预加重后的音频帧进行加窗处理；从加窗后的音频帧中提取语音信号特征。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：通过识别网络中的声学模型，根据语音信号特征确定语音信号对应的至少两个候选词序列；通过识别网络中的语言模型，从至少两个候选词序列中选取目标词序列，并将目标词序列作为语音语义信息。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：通过识别网络中的声学模型，对语音信号特征进行特征处理，得到语音信号中各音频帧对应的音素；在发音词典中查询与音素匹配的文字；对由文字组成的词语进行排列组合，得到语音信号对应的至少两个候选词序列。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：通过识别网络中的语言模型对各候选词序列进行评分，得到各候选词序列对应的分值；根据分值从至少两个候选词序列中选取目标词序列。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：对语音信号样本进行特征提取，得到语音信号样本特征；通过预训练的声学模型对语音信号样本特征进行特征处理，得到语音信号样本中各音频帧样本对应的音素样本；根据音素样本与音素标签确定损失值；根据损失值对预训练的声学模型的参数进行调整，得到声学模型。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：对语音信号进行特征提取，得到语音信号特征；通过识别网络对语音信号特征进行语义识别，得到语音语义信息；根据唇语语义信息对语音语义信息进行调整；唇语语义信息是对语音信号对应的说话者唇部图像进行唇语识别所得的；基于调整后的语音语义信息生成语音识别文本。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：对语音信号进行分帧处理，得到至少两个音频帧；分别对至少两个音频帧进行预加重处理；对预加重后的音频帧进行加窗处理；从加窗后的音频帧中提取语音信号特征。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：通过识别网络中的声学模型，根据语音信号特征确定语音信号对应的至少两个候选词序列；通过识别网络中的语言模型，从至少两个候选词序列中选取目标词序列，并将目标词序列作为语音语义信息。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：通过识别网络中的声学模型，对语音信号特征进行特征处理，得到语音信号中各音频帧对应的音素；在发音词典中查询与音素匹配的文字；对由文字组成的词语进行排列组合，得到语音信号对应的至少两个候选词序列。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：通过识别网络中的语言模型对各候选词序列进行评分，得到各候选词序列对应的分值；根据分值从至少两个候选词序列中选取目标词序列。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：对语音信号样本进行特征提取，得到语音信号样本特征；通过预训练的声学模型对语音信号样本特征进行特征处理，得到语音信号样本中各音频帧样本对应的音素样本；根据音素样本与音素标签确定损失值；根据损失值对预训练的声学模型的参数进行调整，得到声学模型。

在一个实施例中，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现以下步骤：对语音信号进行特征提取，得到语音信号特征；通过识别网络对语音信号特征进行语义识别，得到语音语义信息；根据唇语语义信息对语音语义信息进行调整；唇语语义信息是对语音信号对应的说话者唇部图像进行唇语识别所得的；基于调整后的语音语义信息生成语音识别文本。

需要说明的是，本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)，均为经用户授权或者经过各方充分授权的信息和数据。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory，ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory，MRAM)、铁电存储器(Ferroelectric Random Access Memory，FRAM)、相变存储器(Phase Change Memory，PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器等。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory，DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种语音识别方法，其特征在于，所述方法包括：

对语音信号进行特征提取，得到语音信号特征；

基于调整后的所述语音语义信息生成语音识别文本。

2.根据权利要求1所述的方法，其特征在于，所述对语音信号进行特征提取，得到语音信号特征包括：

对语音信号进行分帧处理，得到至少两个音频帧；

分别对所述至少两个音频帧进行预加重处理；

对预加重后的所述音频帧进行加窗处理；

从加窗后的所述音频帧中提取语音信号特征。

3.根据权利要求1所述的方法，其特征在于，所述通过识别网络对所述语音信号特征进行语义识别，得到语音语义信息包括：

4.根据权利要求3所述的方法，其特征在于，所述通过识别网络中的声学模型，根据所述语音信号特征确定所述语音信号对应的至少两个候选词序列包括：

在发音词典中查询与所述音素匹配的文字；

5.根据权利要求3所述的方法，其特征在于，所述通过所述识别网络中的语言模型，从所述至少两个候选词序列中选取目标词序列包括：

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

对语音信号样本进行特征提取，得到语音信号样本特征；

通过预训练的声学模型对所述语音信号样本特征进行特征处理，得到所述语音信号样本中各音频帧样本对应的音素样本；

根据所述音素样本与音素标签确定损失值；

根据所述损失值对所述预训练的声学模型的参数进行调整，得到所述声学模型。

7.一种语音识别装置，其特征在于，所述装置包括：

8.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述的方法的步骤。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。

10.一种计算机程序产品，包括计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。