CN111798841A

CN111798841A - 声学模型训练方法、***、移动终端及存储介质

Info

Publication number: CN111798841A
Application number: CN202010401369.9A
Authority: CN
Inventors: 徐敏; 肖龙源; 李稀敏; ***; 刘晓葳; 谭玉坤
Original assignee: Xiamen Kuaishangtong Technology Co Ltd
Current assignee: Xiamen Kuaishangtong Technology Co Ltd
Priority date: 2020-05-13
Filing date: 2020-05-13
Publication date: 2020-10-20
Anticipated expiration: 2040-05-13
Also published as: CN111798841B

Abstract

本发明提供了一种声学模型训练方法、***、移动终端及存储介质，该方法包括：对第一音频数据和第二音频数据构建音素集；构建第一音频数据的发音特征与音素集中对应音素之间的映射关系，并根据第一音频数据训练发音特征提取器；根据发音特征提取器提取第二音频数据的发音特征，并将第二音频数据的发音特征和语音特征进行特征拼接，得到声学特征；根据声学特征训练GMM‑HMM语音识别模型，得到第二音频数据中每一帧语音信息与对应音素之间的第一对齐关系，并根据第一对齐关系训练声学模型。本发明通过将第二音频数据的发音特征和语音特征进行特征拼接得到声学特征的设计，有效的提高了声学特征的鲁棒性，进而提高了对声学模型的模型训练的准确性。

Description

声学模型训练方法、***、移动终端及存储介质

技术领域

本发明属于语音识别技术领域，尤其涉及一种声学模型训练方法、***、移动终端及存储介质。

背景技术

语音识别***的一个目的，是把语音转换成文字，具体来说，是将一段语音信号，找一个文字序列(由词或字组成)，使得它与语音信号的匹配程度最高。语音识别***中最重要的部分之一即是声学模型(AcousticModeling)，在进行语音识别时，将语音信号转换为声学特征，再利用声学模型确定出声学特征对应的各个声学状态，由各个声学状态组合即获得文字。

语音识别通常将时域上的波形信号转换到特征域，这也被称为声学特征提取，然后用提取的声学特征作为输入用于训练声学模型，但现有的声学模型训练过程中，提取的声学特征并未考虑用户在发同一个音时，发声器官的变化以及环境对波形的影响，进而使得提取的声学特征对噪声、口音差异以及发声器官的状态变化鲁棒性差，降低了声学模型训练的准确性。

发明内容

本发明实施例的目的在于提供一种声学模型训练方法、***、移动终端及存储介质，旨在解决现有的声学模型训练过程中，由于提取的声学特征鲁棒性差所导致的模型训练准确性低下的问题。

本发明实施例是这样实现的，一种声学模型训练方法，所述方法包括：

获取第一音频数据和第二音频数据，并对所述第一音频数据和所述第二音频数据构建音素集；

构建所述第一音频数据的发音特征与所述音素集中对应音素之间的映射关系，并根据所述第一音频数据训练发音特征提取器；

根据所述发音特征提取器提取所述第二音频数据的发音特征，并将所述第二音频数据的发音特征和语音特征进行特征拼接，得到声学特征；

根据所述声学特征训练GMM-HMM语音识别模型，得到所述第二音频数据中每一帧语音信息与对应音素之间的第一对齐关系，并根据所述第一对齐关系训练声学模型。

更进一步的，所述根据所述第一音频数据训练发音特征提取器的步骤包括：

根据所述第一音频数据训练所述GMM-HMM语音识别模型，得到所述第一音频数据中每一帧语音信息与对应音素之间的第二对齐关系；

根据所述第二对齐关系和所述映射关系，得到所述第一音频数据中每一帧语音信息与发音特征之间的第一对应关系，并根据所述第一对应关系训练所述发音特征提取器。

更进一步的，所述对所述第一音频数据和所述第二音频数据构建音素集的步骤包括：

对所述第一音频数据和所述第二音频数中的音节进行相似度匹配，得到相似度值；

当所述相似度值大于相似度阈值时，将所述相似度值对应的两个音节以所述第一音频数据中的音节进行所述音素集的构建；

当所述相似度值小于或等于所述相似度阈值时，查询所述相似度值对应的所述第二音频数中音节的推荐音节；

根据所述推荐音节和所述相似度值对应的所述第一音频数中的音节分别进行所述音素集的构建。

更进一步的，所述构建所述第一音频数据的发音特征与所述音素集中对应音素之间的映射关系的步骤包括：

分别查询所述音素集中所有声母和韵母的发音标识，并将所述发音标识与本地预存储的发音特征表进行匹配；

将查询到的所述第一音频数据中的发音特征与所述发音标识对应的所述声母和/或所述韵母进行映射，以构建所述映射关系。

更进一步的，所述根根据所述发音特征提取器提取所述第二音频数据的发音特征，并将所述第二音频数据的发音特征和语音特征进行特征拼接，得到声学特征的步骤包括：

获取所述第二音频数据的语音特征，并将所述第二音频数据的语音特征输入所述发音特征提取器，得到所述第二音频数据中每一帧语音信息与对应发音特征之间的第二对应关系；

根据所述第二对应关系将所述第二音频数据中的发音特征与对应的语音特征进行特征拼接，得到所述声学特征。

更进一步的，所述将所述第二音频数据的发音特征和语音特征进行特征拼接，得到声学特征的步骤之后，所述方法还包括：

根据欧式距离公式计算所述第二音频数据中发音特征与对应语音特征之间的特征距离；

当所述特征距离大于距离阈值时，针对所述声学特征发出拼接错误提示。

更进一步的，所述语音特征为MFCC特征，所述发音特征提取器为LSTM发音特征提取器，所述发音特征的维度为54。

本发明实施例的另一目的在于提供一种声学模型训练***，所述***包括：

音素集构建模块，用于获取第一音频数据和第二音频数据，并对所述第一音频数据和所述第二音频数据构建音素集；

特征提取器训练模块，用于构建所述第一音频数据的发音特征与所述音素集中对应音素之间的映射关系，并根据所述第一音频数据训练发音特征提取器；

特征拼接模块，用于根据所述发音特征提取器提取所述第二音频数据的发音特征，并将所述第二音频数据的发音特征和语音特征进行特征拼接，得到声学特征；

声学模型训练模块，用于根据所述声学特征训练GMM-HMM语音识别模型，得到所述第二音频数据中每一帧语音信息与对应音素之间的第一对齐关系，并根据所述第一对齐关系训练声学模型。

本发明实施例的另一目的在于提供一种移动终端，包括存储设备以及处理器，所述存储设备用于存储计算机程序，所述处理器运行所述计算机程序以使所述移动终端执行上述的声学模型训练方法。

本发明实施例的另一目的在于提供一种存储介质，其存储有上述的移动终端中所使用的计算机程序，该计算机程序被处理器执行时实现上述的声学模型训练方法的步骤。

本发明实施例，通过根据第一音频数据训练发音特征提取器的设计，有效的降低了对第二音频数据中每一帧语音信息与对应音素之间的对齐成本，提高了第二音频数据中每一帧语音信息与对应音素之间的对齐精度，通过将第二音频数据的发音特征和语音特征进行特征拼接得到声学特征的设计，有效的提高了声学特征的鲁棒性，进而提高了对声学模型的模型训练的准确性。

附图说明

图1是本发明第一实施例提供的声学模型训练方法的流程图；

图2是本发明第二实施例提供的声学模型训练方法的流程图；

图3是本发明第三实施例提供的声学模型训练***的结构示意图；

图4是本发明第四实施例提供的移动终端的结构示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定***结构、技术之类的具体细节，以便透彻理解本申请实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中，省略对众所周知的***、装置、电路以及方法的详细说明，以免不必要的细节妨碍本申请的描述。

应当理解，当在本申请说明书和所附权利要求书中使用时，术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

如在本申请说明书和所附权利要求书中所使用的那样，术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地，短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。

另外，在本申请说明书和所附权利要求书的描述中，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此，在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例，而是意味着“一个或多个但不是所有的实施例”，除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”，除非是以其他方式另外特别强调。

实施例一

请参阅图1，是本发明第一实施例提供的声学模型训练方法的流程图，包括步骤：

步骤S10，获取第一音频数据和第二音频数据，并对所述第一音频数据和所述第二音频数据构建音素集；

其中，该第一音频数据和第二音频数据为不同语音音频，例如，本实施例中，该第一音频数据为普通话数据，该第二音频数据为闽南语数据；

具体的，该步骤中通过对该第一音频数据和第二音频数据进行声学特征分析，以构建统一的音素集，进而有效的提高了后续该第一语音音频数据和第二语音音频数据中语音特征获取的准确性；

步骤S20，构建所述第一音频数据的发音特征与所述音素集中对应音素之间的映射关系，并根据所述第一音频数据训练发音特征提取器；

其中，该音素集中的音素均包括对应的声母和/或韵母，通过将不同的声母和韵母与对应的发音特征进行对应关系的存储，以得到该第一音频数据的发音特征与音素集中对应音素之间的映射关系；

具体的，该步骤中，通过获取该第一音频数据中的语音特征，并根据该语音特征进行该发音特征提取器的训练，以使训练后的发音特征提取器能有效的对输入的数据进行发音特征的提取，进一步的，该语音特征可以为MFCC特征、 Fbank特征或PLP特征等。

步骤S30，根据所述发音特征提取器提取所述第二音频数据的发音特征，并将所述第二音频数据的发音特征和语音特征进行特征拼接，得到声学特征；

其中，通过将该第二音频数据中的MFCC特征输入发音特征提取器，以得到该第二音频数据中每一帧语音信息与对应发音特征之间的对应关系，并基于该对应关系将每一帧语音信息中的语音特征与对应发音特征进行拼接，以得到该声学特征；

具体的，该步骤中，通过将所述第二音频数据的发音特征和语音特征进行特征拼接的设计，使得声学特征对噪声、发音变化等具有更强的鲁棒性，以提高后续声学模型训练的准确性；

步骤S40，根据所述声学特征训练GMM-HMM语音识别模型，得到所述第二音频数据中每一帧语音信息与对应音素之间的第一对齐关系，并根据所述第一对齐关系训练声学模型；

其中，通过根据所述声学特征训练GMM-HMM语音识别模型的设计，有效的提高了第二音频数据中每一帧语音信息与对应音素之间的对齐精准度，使得训练后的声学模型对噪声、跨语种所导致的口音差异以及发声器官的状态变化具有较高的鲁棒性；

本实施例，通过根据第一音频数据训练发音特征提取器的设计，有效的降低了对第二音频数据中每一帧语音信息与对应音素之间的对齐成本，提高了第二音频数据中每一帧语音信息与对应音素之间的对齐精度，通过将第二音频数据的发音特征和语音特征进行特征拼接得到声学特征的设计，有效的提高了声学特征的鲁棒性，进而提高了对声学模型的模型训练的准确性。

实施例二

请参阅图2，是本发明第二实施例提供的声学模型训练方法的流程图，包括步骤：

步骤S11，获取第一音频数据和第二音频数据，并对所述第一音频数据和所述第二音频数中的音节进行相似度匹配，得到相似度值；

其中，该第一音频数据对应的语种可以为普通话，该第二音频数据对应的语种可以为闽南语，该步骤中，通过将第一音频数据与第二音频数中的所有音节依序进行匹配，以得到所有音节之间的相似度值；

当该相似度值越大时，则该相似度值对应的两个音节之间发音差异越小，当该相似度值越小时，则该相似度值对应的两个音节之间发音差异越大；

步骤S21，当所述相似度值大于相似度阈值时，将所述相似度值对应的两个音节以所述第一音频数据中的音节进行所述音素集的构建；

其中，该相似度阈值可以根据需求进行参数值的设置，例如，该相似度阈值可以设置为80％、85％或90％等；

当该相似度值大于相似度阈值时，则判定该相似度阈值对应的两个音素之间发音相似，因此，将该相似度值对应的两个音节以第一音频数据中的音节进行音素集的构建；

步骤S31，当所述相似度值小于或等于所述相似度阈值时，查询所述相似度值对应的所述第二音频数中音节的推荐音节，并根据所述推荐音节和所述相似度值对应的所述第一音频数中的音节分别进行所述音素集的构建；

其中，针对该第二音频数中的所有音节均预先设置有对应的推荐音节，例如，当相似度值小于或等于相似度阈值时，则根据该第二音频数据中的音节查询中国台湾闽南语罗马字拼音方案中对应的推荐音节；

以该推荐音节进行该第二音频数据中音节的表示，以完成该音素集的构建，具体的，该步骤中，通过该音素集的构建，有效的方便了后续跨语种发音特征的提取；

步骤S41，分别查询所述音素集中所有声母和韵母的发音标识，并将所述发音标识与本地预存储的发音特征表进行匹配；

其中，该发音特征表中预存储有所有声母和韵母与对应发音特征之间的对应关系，该对应关系可以根据需求进行设置，例如，任意的声母可以与Voiced、 Stop、Fricative和Affricate中任一一种或多种发音特征对应存储在该发音特征表中；

任意的韵母可以与Simple vowel and tail-dominant、head-dominant andcentre-dominant和Nasal中任一一种或多种发音特征对应存储在该发音特征表中；

步骤S51，将查询到的所述第一音频数据中的发音特征与所述发音标识对应的所述声母和/或所述韵母进行映射，以构建所述映射关系；

其中，通过构建了音素和发音特征之间的映射关系，将发音特征提取转换为一种多分类问题，因此，可用各种多分类算法进行该发音特征提取，进而提高了发音特征提取的多样性；

具体的，该步骤中，通过将该发音特征与对应的声母和/或韵母进行对应存储，以得到该映射关系；

步骤S61，根据所述第一音频数据训练所述GMM-HMM语音识别模型，得到所述第一音频数据中每一帧语音信息与对应音素之间的第二对齐关系；

其中，获取该第一音频数据中的MFCC特征，并根据该MFCC特征训练该 GMM-HMM语音识别模型，以得到该第一音频数据中每一帧语音信息与对应音素之间的第二对齐关系；

具体的，该步骤中，通过将资源丰富的普通话数据训练GMM-HMM语音识别模型的设计，使得无需进行人工对齐的情况下也能得到较高的对齐精度，提高了GMM-HMM语音识别模型的训练效率；

步骤S71，根据所述第二对齐关系和所述映射关系，得到所述第一音频数据中每一帧语音信息与发音特征之间的第一对应关系，并根据所述第一对应关系训练所述发音特征提取器；

其中，该发音特征提取器为LSTM发音特征提取器，进而能有效捕捉发音器官在说不同音素时的动态变化，提高了训练后的发音特征提取器能有效的对输入的数据进行发音特征的提取；

步骤S81，根据所述发音特征提取器提取所述第二音频数据的发音特征，并将所述第二音频数据的发音特征和语音特征进行特征拼接，得到声学特征；

具体的，该步骤中，所述根根据所述发音特征提取器提取所述第二音频数据的发音特征，并将所述第二音频数据的发音特征和语音特征进行特征拼接，得到声学特征的步骤包括：

根据所述第二对应关系将所述第二音频数据中的发音特征与对应的语音特征进行特征拼接，得到所述声学特征；

其中，基于该第二对应关系可以有效的查询到第二音频数据中每一帧语音信息与对应的发音特征，因此，将第二音频数据中每一帧语音信息的语音特征与对应发音特征进行拼接，以得到该声学特征。

此外，该步骤中，所述将所述第二音频数据的发音特征和语音特征进行特征拼接，得到声学特征的步骤之后，所述方法还包括：

步骤S91，根据所述声学特征训练GMM-HMM语音识别模型，得到所述第二音频数据中每一帧语音信息与对应音素之间的第一对齐关系，并根据所述第一对齐关系训练声学模型；

本实施例中，通过根据第一音频数据训练发音特征提取器的设计，有效的降低了对第二音频数据中每一帧语音信息与对应音素之间的对齐成本，提高了第二音频数据中每一帧语音信息与对应音素之间的对齐精度，通过将第二音频数据的发音特征和语音特征进行特征拼接得到声学特征的设计，有效的提高了声学特征的鲁棒性，进而提高了对声学模型的模型训练的准确性。

实施例三

请参阅图3，是本发明第三实施例提供的声学模型训练***100的结构示意图，包括：音素集构建模块10、特征提取器训练模块11、特征拼接模块12 和声学模型训练模块13，其中：

音素集构建模块10，用于获取第一音频数据和第二音频数据，并对所述第一音频数据和所述第二音频数据构建音素集，其中，该第一音频数据和第二音频数据为不同语音音频，例如，本实施例中，该第一音频数据为普通话数据，该第二音频数据为闽南语数据；具体的，该模块中通过对该第一音频数据和第二音频数据进行声学特征分析，以构建统一的音素集，进而有效的提高了后续该第一语音音频数据和第二语音音频数据中语音特征获取的准确性。

优选的，所述音素集构建模块10还用于：对所述第一音频数据和所述第二音频数中的音节进行相似度匹配，得到相似度值；

特征提取器训练模块11，用于构建所述第一音频数据的发音特征与所述音素集中对应音素之间的映射关系，并根据所述第一音频数据训练发音特征提取器，其中，所述发音特征的维度为54，该音素集中的音素均包括对应的声母和 /或韵母，通过将不同的声母和韵母与对应的发音特征进行对应关系的存储，以得到该第一音频数据的发音特征与音素集中对应音素之间的映射关系。

优选的，所述特征提取器训练模块11还用于：根据所述第一音频数据的语音特征训练所述GMM-HMM语音识别模型，得到所述第一音频数据中每一帧语音信息与对应音素之间的第二对齐关系，其中，所述语音特征为MFCC特征；

根据所述第二对齐关系和所述映射关系，得到所述第一音频数据中每一帧语音信息与发音特征之间的第一对应关系，并根据所述第一对应关系训练所述发音特征提取器，其中，所述发音特征提取器为LSTM发音特征提取器。

进一步的，所述特征提取器训练模块11还用于：分别查询所述音素集中所有声母和韵母的发音标识，并将所述发音标识与本地预存储的发音特征表进行匹配；

特征拼接模块12，用于根据所述发音特征提取器提取所述第二音频数据的发音特征，并将所述第二音频数据的发音特征和语音特征进行特征拼接，得到声学特征，其中，通过将该第二音频数据中的MFCC特征输入发音特征提取器，以得到该第二音频数据中每一帧语音信息与对应发音特征之间的对应关系，并基于该对应关系将每一帧语音信息中的语音特征与对应发音特征进行拼接，以得到该声学特征。

优选的，所述特征拼接模块12还用于：获取所述第二音频数据的语音特征，并将所述第二音频数据的语音特征输入所述发音特征提取器，得到所述第二音频数据中每一帧语音信息与对应发音特征之间的第二对应关系；

进一步的，所述特征拼接模块12还用于：根据欧式距离公式计算所述第二音频数据中发音特征与对应语音特征之间的特征距离；

声学模型训练模块13，用于根据所述声学特征训练GMM-HMM语音识别模型，得到所述第二音频数据中每一帧语音信息与对应音素之间的第一对齐关系，并根据所述第一对齐关系训练声学模型，其中，通过根据所述声学特征训练 GMM-HMM语音识别模型的设计，有效的提高了第二音频数据中每一帧语音信息与对应音素之间的对齐精准度，使得训练后的声学模型对噪声、跨语种所导致的口音差异以及发声器官的状态变化具有较高的鲁棒性。

实施例四

请参阅图4，是本发明第四实施例提供的移动终端101，包括存储设备以及处理器，所述存储设备用于存储计算机程序，所述处理器运行所述计算机程序以使所述移动终端101执行上述的声学模型训练方法。

本实施例还提供了一种存储介质，其上存储有上述移动终端101中所使用的计算机程序，该程序在执行时，包括如下步骤：

根据所述声学特征训练GMM-HMM语音识别模型，得到所述第二音频数据中每一帧语音信息与对应音素之间的第一对齐关系，并根据所述第一对齐关系训练声学模型。所述的存储介质，如：ROM/RAM、磁碟、光盘等。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元或模块完成，即将存储装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施方式中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。

本领域技术人员可以理解，图3中示出的组成结构并不构成对本发明的声学模型训练***的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置，而图1-2中的声学模型训练方法亦采用图3中所示的更多或更少的部件，或者组合某些部件，或者不同的部件布置来实现。本发明所称的单元、模块等是指一种能够被所述目标声学模型训练***中的处理器 (图未示)所执行并功能够完成特定功能的一系列计算机程序，其均可存储于所述目标声学模型训练***的存储设备(图未示)内。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种声学模型训练方法，其特征在于，所述方法包括：

2.如权利要求1所述的声学模型训练方法，其特征在于，所述根据所述第一音频数据训练发音特征提取器的步骤包括：

3.如权利要求1所述的声学模型训练方法，其特征在于，所述对所述第一音频数据和所述第二音频数据构建音素集的步骤包括：

4.如权利要求1所述的声学模型训练方法，其特征在于，所述构建所述第一音频数据的发音特征与所述音素集中对应音素之间的映射关系的步骤包括：

5.如权利要求1所述的声学模型训练方法，其特征在于，所述根根据所述发音特征提取器提取所述第二音频数据的发音特征，并将所述第二音频数据的发音特征和语音特征进行特征拼接，得到声学特征的步骤包括：

6.如权利要求1所述的声学模型训练方法，其特征在于，所述将所述第二音频数据的发音特征和语音特征进行特征拼接，得到声学特征的步骤之后，所述方法还包括：

7.如权利要求1所述的声学模型训练方法，其特征在于，所述语音特征为MFCC特征，所述发音特征提取器为LSTM发音特征提取器，所述发音特征的维度为54。

8.一种声学模型训练***，其特征在于，所述***包括：

9.一种移动终端，其特征在于，包括存储设备以及处理器，所述存储设备用于存储计算机程序，所述处理器运行所述计算机程序以使所述移动终端执行根据权利要求1至7任一项所述的声学模型训练方法。

10.一种存储介质，其特征在于，其存储有权利要求9所述的移动终端中所使用的计算机程序，该计算机程序被处理器执行时实现权利要求1至7任一项所述的声学模型训练方法的步骤。