CN115132170A

CN115132170A - 语种分类方法、装置及计算机可读存储介质

Info

Publication number: CN115132170A
Application number: CN202210743472.0A
Authority: CN
Inventors: 谭志力
Original assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Current assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority date: 2022-06-28
Filing date: 2022-06-28
Publication date: 2022-09-30

Abstract

本申请实施例提供一种语种分类方法、装置及计算机可读存储介质，该方法包括：获取待分类音频的频谱特征；调用训练完成的目标声学模型对频谱特征进行处理，得到待分类音频的音素序列；训练完成的目标声学模型是基于音素词典训练得到的神经网络模型，音素词典用于指示不同语种的字符与音素之间的对应关系；调用训练完成的目标语种分类模型对音素序列进行处理，得到待分类音频所属的语种；训练完成的目标语种分类模型是由多个训练音频的音素序列训练得到，每个训练音频具有标注的预设语种标签，训练完成的目标语种分类模型记录有音频的音素序列与音频所属语种的对应关系。采用本申请实施例，可以提高语种分类的准确率。

Description

语种分类方法、装置及计算机可读存储介质

技术领域

本申请涉及人工智能技术领域，尤其涉及一种语种分类方法、装置及计算机可读存储介质。

背景技术

语种分类技术，是指通过音频判断出文本所属语种的人工智能技术。在音乐领域中，语种分类技术可以通过音乐识别出歌词的语种类别，该技术可应用于曲库管理、歌曲推荐等，识别出的语种能够为判断听众兴趣等后续操作提供条件。

传统的语种分类方案采用端到端模型对音频的语种进行分类识别，这种端到端的模型通过接收音频的频谱特征，并在对其进行处理后直接输出音频文本的语种类别。但由于音频录制环境等因素，音频的频谱特征往往受到声调、伴奏等噪声干扰，导致语种分类的准确率不高。

发明内容

本申请实施例提供一种语种分类方法、装置及计算机可读存储介质，可以提高语种分类的准确率。

第一方面，本申请实施例提供了一种语种分类方法，所述方法包括:

获取待分类音频的频谱特征；

调用训练完成的目标声学模型对所述频谱特征进行处理，得到所述待分类音频的音素序列；所述训练完成的目标声学模型是基于音素词典训练得到的神经网络模型，所述音素词典用于指示不同语种的字符与音素之间的对应关系；

调用训练完成的目标语种分类模型对所述音素序列进行处理，得到所述待分类音频所属的语种；所述训练完成的目标语种分类模型是由多个训练音频的音素序列训练得到，每个所述训练音频具有标注的预设语种标签，所述训练完成的目标语种分类模型记录有音频的音素序列与音频所属语种的对应关系。

在一种可能实现方式中，所述训练完成的目标语种分类模型包括特征提取子模型和语种确定子模型，所述调用训练完成的目标语种分类模型对所述音素序列进行处理，得到所述待分类音频所属的语种，包括：

调用所述特征提取子模型对所述音素序列进行处理，得到音素特征向量，所述音素特征向量由所述音素序列的多个音素特征组成，所述音素特征与语种具有对应关系；

调用所述语种确定子模型对所述音素特征向量进行处理，得到所述待分类音频属于各个语种的概率，并根据所述待分类音频属于各个语种的概率，确定所述待分类音频所属的语种。

在一种可能实现方式中，所述训练完成的特征提取子模型包括嵌入层、自注意力层以及批标准化层；

所述调用所述特征提取子模型对所述音素序列进行处理，得到音素特征向量包括：

调用所述嵌入层对所述音素序列进行向量编码，得到音素嵌入向量；

调用所述自注意力层，基于所述音素嵌入向量中每个向量分量之间的关联性，处理所述音素嵌入向量得到初始特征向量；

调用所述批标准化层对所述初始特征向量进行归一化，得到音素特征向量。

在一种可能实现方式中，所述调用所述语种确定子模型对所述音素特征向量进行处理，得到所述待分类音频属于各个语种的概率，包括：

调用所述语种确定子模型中的映射规则，对所述音素特征向量进行映射，得到所述待分类音频属于各个语种的概率。

在一种可能实现方式中，所述方法还包括：

获取第一训练音频集，所述第一训练音频集包括至少一种语种的至少一个第一训练音频；

获取每个第一训练音频的频谱特征以及所述第一训练音频对应的第一字符序列；

调用初始声学模型对所述每个第一训练音频的频谱特征进行处理，得到所述每个第一训练音频的预测音素序列；

根据音素词典和所述每个第一训练音频的预测音素序列，得到所述每个第一训练音频的第二字符序列；

基于所述第一字符序列和所述第二字符序列对所述初始声学模型中的参数进行训练，得到所述训练完成的目标声学模型。

在一种可能实现方式中，所述方法还包括：

获取所述每个第一训练音频的待处理音素序列，所述待处理音素序列是调用所述训练完成的目标声学模型对所述每个第一训练音频的频谱特征进行处理得到的；

获取所述每个第一训练音频所属的预设语种；

调用初始语种分类模型对所述每个第一训练音频的待处理音素序列进行处理，得到所述每个第一训练音频所属的预测语种；

基于所述每个第一训练音频所属的预设语种以及预测语种对所述初始语种分类模型中的参数进行训练，得到所述训练完成的目标语种分类模型。

在一种可能实现方式中，所述方法还包括：

获取第二训练音频集，所述第二训练音频集包括至少一种语种的至少一个第二训练音频；

获取所述第二训练音频集中每个第二训练音频的频谱特征以及所属的预设语种；

依次调用所述目标声学模型、所述目标语种分类模型对所述每个第二训练音频的频谱特征进行处理，得到所述每个第二训练音频所属的预测语种；

基于所述每个第二训练音频所属的预测语种以及预设语种，更新所述目标声学模型和所述目标语种分类模型。

在一种可能实现方式中，所述每个第二训练音频所属的预设语种包含于所述第一训练音频集中第一训练音频所属的预设语种；所述第二训练音频集包括的第二训练音频的数量小于或等于所述第一训练音频集包括的第一训练音频的数量。

在一种可能实现方式中，所述方法还包括：

获取第三训练音频集，所述第三训练音频集包括至少一种语种的至少一个第三训练音频；所述第三训练音频所属的预设语种与所述第一训练音频所属的预设语种不同；

获取所述第三训练音频集中每个第三训练音频所属的预设语种；

依次调用所述目标声学模型、所述目标语种分类模型对所述每个第三训练音频进行处理，得到所述每个第三训练音频的预测语种；基于所述每个第三训练音频所属的预设语种以及预测语种，更新所述目标语种分类模型。

第二方面，本申请实施例提供了一种语种分类装置，所述装置包括:

获取单元，用于获取待分类音频的频谱特征；

处理单元，用于调用训练完成的目标声学模型对所述频谱特征进行处理，得到所述待分类音频的音素序列；所述训练完成的目标声学模型是基于音素词典训练得到的神经网络模型，所述音素词典用于指示不同语种的字符与音素之间的对应关系；

所述处理单元，还用于调用训练完成的目标语种分类模型对所述音素序列进行处理，得到所述待分类音频所属的语种；所述训练完成的目标语种分类模型是由多个训练音频的音素序列训练得到，每个所述训练音频具有标注的预设语种标签，所述训练完成的目标语种分类模型记录有音频的音素序列与音频所属语种的对应关系。

在一种可能实现方式中，所述训练完成的目标语种分类模型包括特征提取子模型和语种确定子模型，处理单元在用于调用训练完成的目标语种分类模型对所述音素序列进行处理，得到所述待分类音频所属的语种时，具体包括：

处理单元在用于调用所述特征提取子模型对所述音素序列进行处理，得到音素特征向量时，具体包括：

在一种可能实现方式中，所述处理单元，在用于调用所述语种确定子模型对所述音素特征向量进行处理，得到所述待分类音频属于各个语种的概率时，具体包括：

在一种可能实现方式中，所述获取单元，还用于：

获取第一训练音频集，所述第一训练音频集包括至少一种语种的至少一个第一训练音频；获取每个第一训练音频的频谱特征以及所述第一训练音频对应的第一字符序列；

所述处理单元，还用于：

在一种可能实现方式中，所述获取单元，还用于：

获取所述每个第一训练音频所属的预设语种；

所述处理单元，还用于：

在一种可能实现方式中，所述获取单元，还用于：

所述处理单元，还用于：

在一种可能实现方式中，所述获取单元，还用于：

所述处理单元，还用于：

第三方面，本申请实施例提供了一种终端设备，该终端设备包括处理器、存储器以及网络接口，所述处理器与所述存储器和所述网络接口相连；所述网络接口用于提供网络通信功能，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器用于调用程序代码实现如第一方面及第一方面的可能实现方式中的方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，计算机程序包括程序指令，程序指令当被处理器执行时，实现如第一方面及第一方面的可能实现方式中的方法。

第五方面，本申请实施例提供了一种计算机程序产品，该计算机程序产品包括计算机程序或计算机指令，计算机程序或计算机指令被处理器执行时实现如第一方面及第一方面的可能实现方式中的方法。

本申请实施例基于音频对应的音素序列识别出音频所属的语种类别，相较于传统语种分类方案，音素排除了音频中声调、伴奏等无关信息的干扰，与音频中的语音发音动作直接关联，能够作为语种分类的有力依据(不同语种的语音发音动作有所区别)，提高了语种分类的准确率。再有，本申请中的训练完成的目标声学模型基于音素词典得到，该音素词典能够适应多种语种，从而使得训练完成的目标声学模型能够对不同语种的音频进行处理，提高语种分类的效率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种语种分类方法的原理示意图；

图2是本申请实施例提供的一种语种分类方法的流程示意图；

图3是本申请实施例提供的一种语种分类相关模型的训练方法的流程示意图；

图4是本申请实施例提供的一种初始声学模型的训练流程示意图；

图5是本申请实施例提供的一种初始语种分类模型的训练流程示意图；

图6是本申请实施例提供的一种语种确定子模型更新前后的示意图；

图7是本申请实施例提供的一种语种分类装置的结构示意图；

图8是本申请实施例提供的一种终端设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在本申请的说明书、权利要求书及附图中的术语“第一”和“第二”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、***、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

为了更好的理解本申请实施例，下面先对本申请实施例中的专业术语及涉及的领域进行介绍：

音素(phone)：音素是根据语音的自然属性划分出来的最小语音单位，依据音节里的发音动作来分析，一个动作构成一个音素。例如，语音“ma”包含“m”和“a”两个音素，两个音素具有各自对应的发音动作。相同发音动作发出的音就是同一音素，不同发音动作发出的音就是不同音素，也即是说音素是发音动作的符号表示形式。例如在“ma”和“mi”中，两个“m”对应的发音动作相同，是相同音素，而“a”和“i”对应的发音动作不同，是不同音素。通常，在中文语音中以声韵母作为发音动作的符号表示形式(音素)，在英文语音中以英文音标作为发音动作的的符号表示形式(音素)，等等；在本申请实施例中，采用一种统一的符号表示形式(音素)来表示不同语种语音的发音动作(例如国际音标)。

本申请实施例涉及人工智能(artificial intelligence，AI)技术领域。其中，AI是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说，AI技术是计算机科学的一个综合技术，其主要通过了解智能的实质，生产出一种新的能以人类智能相似的方式做出反应的智能机器，使得智能机器具有感知、推理与决策等多种功能。AI技术主要包括计算机视觉技术(computer vision，CV)、语音技术(speech technology)、自然语言处理技术以及机器学习(machine learning，ML)等几大方向。

其中，语音技术的关键技术有自动语音识别技术(automatic speechrecognition，ASR)和语音合成技术以及声纹识别技术，语音技术让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向之一。

机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习通常包括深度学习、强化学习、迁移学习、归纳学习、式教学习等技术。

基于AI技术中的语音技术和机器学习技术，本申请实施例提供了一种语种分类方法。如图1所示，是本申请实施例提供的一种语种分类方法的原理示意图。其中，待分类音频首先通过频谱特征抽取模块确定频谱特征，再调用训练完成的目标声学模型对频谱特征进行处理得到音素序列，最后调用训练完成的目标语种分类模型对音素序列进行处理得到待分类音频所属的语种类别。在此过程中，训练完成的目标语种分类模型主要基于音素序列包含的信息(如音素序列中各音素的排列组合方式，各音素对应字符的语义联系等)对待分类音频的所属语种进行判断，而无需考虑待分类音频的伴奏、声调等无关信息，且时长较短的待分类音频经由训练完成的目标声学模型处理也可得到包含音素数量足够的音素序列(例如2～3秒的音频也可识别出包含10个音素的序列)。基于此，本申请提出的语种分类方法可以有效提高语种分类的准确率，并为基于语种分类结果的后续处理提供了条件。

需要说明的是，上述训练完成的目标声学模型和训练完成的目标语种分类模型可以由深度学***板电脑)、计算设备(例如个人电脑(personalcomputer,PC))、智能语音交互设备、智能家电、车载终端、飞行器等。

下面将结合图2至图7对本申请实施例提供的语种分类方法、装置及计算机可读存储介质分别进行详细说明。

参见图2，是本申请实施例提供的一种语种分类方法的流程示意图，该方法包括步骤S201～步骤S203，可由上述语种分类装置执行。其中：

S201、获取待分类音频的频谱特征。

在一些可能实施方式中，在获取待分类音频的频谱特征之前，还需要先获取到待分类音频的音频信号，示例性的，采用信号处理算法将位于时域的音频信号转换到频域得到频谱图，最后基于频谱图得到频谱特征。示例地，信号处理算法可以为傅里叶变换、离散傅里叶变换、快速傅里叶变换等，频谱特征包含但不限于过零率、短时能量等特征。需要说明的是，当本申请应用于具体产品和技术时，本申请实施例中的待分类音频等数据需要先获得对象的许可或者同意后方能获取，且这些数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

可选的，还可以进一步对频谱图进行处理得到梅尔频谱图(梅尔频谱图中的频率分布更符合人耳对频率的线性感知)，并基于梅尔频谱图确定梅尔频谱特征。示例地，梅尔频谱特征可以为梅尔频率倒谱系数(mel frequency cepstrum coefficient，MFCC)。

S202、调用训练完成的目标声学模型对频谱特征进行处理，得到待分类音频的音素序列；训练完成的目标声学模型是基于音素词典训练得到的神经网络模型，音素词典用于指示不同语种的字符与音素之间的对应关系。

其中，该步骤用于基于训练完成的目标声学模型获取得到待分类音频的音素序列，后续步骤均是基于本步骤得到的音素序列进行。具体地，训练完成的目标声学模型为基于频谱特征得到待分类音频的发音表示(也即是音素序列)的神经网络模型，这里的发音表示(音素序列)是由至少一个音素排列而成的序列组合。至少一个音素中的音素可以为相同音素或不同音素，一个音素是发音表示中的一个最小发音动作。例如，待分类音频包含5个按时间先后次序连接而成的发音动作，5个发音动作对应的音素为“l₁”、“l₂”、“l₃”、“l₂”、“l₁”，则待分类音频的音素序列可表示为“l₁,l₂,l₃,l₂,l₁”。

上述训练完成的目标声学模型基于音素词典和初始声学模型训练得到，训练方式可以参见下述图3所示的实施例，示例地，训练完成的目标声学模型可以为基于卷积神经网络和因子分解时延神经网络构建的自注意力机制的神经网络模型(CNN-TDNN-F-SA)等，本申请对此不作限制。

上述音素词典是适应于多语种的发音词典，包含多种语种的字符与音素之间的对应关系，换句话说，多种语种的字符发音均可以用音素词典中的音素进行表示，这种表示方式可以使训练完成的目标声学模型输出的音素序列具有标准统一的数据格式，进而使得训练完成的目标语种分类模型可以对任意音素序列进行处理，提高语种分类的准确率。并且，采用包含统一音素的音素词典减少了音素的数量，可以有效缓解数据稀疏的情况(不同语种若采取不同音素集导致音素的数量较多和组合情况十分复杂)。

示例地，音素词典中的音素可以由国际音标(international phoneticalphabet，IPA)表示，国际音标包括107个单独符号、56个变音符号和超音段成分，每个符号为一个音素，英语音标为国际音标的一部分，中文中的各个声韵母可在国际音标中确定出具有相同发音的符号，等等，在此不作限制。

示例地，表1是本申请实施例提供的一种音素词典的示意图，这里音素词典中的音素为集合L＝{l₁,l₂,...}中的音素。如表1所示，对于中文字符“今天”，英文字符“today”、日文字符“きょう”，这三个字符的语义意思相同(均为今天的含义)，但发音不同，用集合L中的音素进行表示，可分别表示为“l₁l₂l₃l₄”、“l₂₀l₂₁l₂₂l₂₃”、“l₅l₁₅l₂₅l₃₅”。

表1

字符	音素
		今天	l<sub>1</sub>l<sub>2</sub>l<sub>3</sub>l<sub>4</sub>
today	l<sub>20</sub>l<sub>21</sub>l<sub>22</sub>l<sub>23</sub>
		きょう	l<sub>5</sub>l<sub>15</sub>l<sub>25</sub>l<sub>35</sub>

S203、调用训练完成的目标语种分类模型对音素序列进行处理，得到待分类音频所属的语种；训练完成的目标语种分类模型是由多个训练音频的音素序列训练得到，每个训练音频具有标注的预设语种标签，训练完成的目标语种分类模型记录有音频的音素序列与音频所属语种的对应关系。

其中，该步骤用于基于训练完成的目标语种分类模型获取得到待分类音频所属的语种类别。

在一些可能实施方式中，训练完成的目标语种分类模型包括特征提取子模型和语种确定子模型，此处的调用训练完成的目标语种分类模型对音素序列进行处理，得到待分类音频所属的语种，具体包括：调用特征提取子模型对音素序列进行处理，得到音素特征向量，音素特征向量由音素序列的多个音素特征组成，音素特征与语种具有对应关系；调用语种确定子模型对音素特征向量进行处理，得到待分类音频属于各个语种的概率，并根据待分类音频属于各个语种的概率，确定待分类音频所属的语种。

具体地，特征提取子模型可由输入层、输出层和至少一个中间层组成，用于从音素序列中提取出多个音素特征构成的音素特征向量，该音素特征向量可以为固定长度的向量表示或可以转化为固定长度的向量表示。

在一些可能实施方式中，特征提取子模型包括至训练完成的特征提取子模型包括嵌入层、自注意力层以及批标准化层；上述调用所述特征提取子模型对所述音素序列进行处理，得到音素特征向量的方式，具体包括：调用嵌入层对音素序列进行向量编码，得到音素嵌入向量；调用自注意力层，基于音素嵌入向量中每个向量分量之间的关联性，处理音素嵌入向量得到初始特征向量；调用批标准化层对初始特征向量进行归一化，得到音素特征向量。

其中，此处的嵌入层可以理解为上述的特征提取子模型中的输入层，此处的自注意力层可以理解为上述的中间层、此处的批标准化层可以理解为上述的输出层。

具体地，嵌入层在对音素序列进行向量编码时，可以在预设的嵌入词典矩阵中查找与每个音素匹配的嵌入向量表示，再将每个音素匹配的嵌入向量表示作为音素嵌入向量中的向量分量。可选的，预设的嵌入词典矩阵的每一行为一个音素的嵌入向量表示。

可选的，为使训练完成的语言模型了解到音素序列中音素所在的位置(也即是排列顺序)，还可以使用位置向量来表征音素序列中每一个音素所在的位置，位置向量的向量维度与嵌入向量的向量维度相同，且可以在预设的位置向量矩阵中进行查找得到。将音素序列中音素对应的嵌入向量与位置向量相加即可得到该音素对应的在音素嵌入向量中的向量分量。

进一步地，自注意力层对音素嵌入向量中各个向量分量对应的音素之间的位置、语义等关联性进行学习，并基于学习到的关联性对各个向量分量进行注意力打分，所有向量分量的打分结果可以由初始特征向量表征。例如，在某些特定语种中，一些音素的使用频次比在其余语种中的使用频次更高，因此这些音素可作为该特定语种的关键音素，也即是说，可以更为注意这个音素在音素序列中是否存在，并对该音素分配更高的注意力得分。基于更高的注意力得分，后续的语种分类子模型更有可能确定待分类音频的所属语种为这一特定的语种。

更进一步地，批标准化层可以对初始特征归一化为标准的正态分布，以得到音素特征向量。批标准化层可以缓解特征提取子模型在进行训练时的梯度***/消失现象，提升特征提取子模型的训练效果。

可选的，特征提取子模型中还可以在自注意力层和批标准化层之间加入残差连接，此处的残差连接是指批标准化在处理时，会对音素嵌入向量和初始特征向量的叠加得到的向量进行处理。该方式可以进一步降低特征提取子模型的模型复杂度，防止训练时产生梯度***/消失现象。

根据上述过程确定的音素特征向量中的每一个向量分量可表征一个音素特征，音素特征用于表示音素序列中各音素之间的位置、语义等方面的相关性，与待分类音频的语种具有对应关系。

示例地，音素特征向量可以表示为(a₁,a₂,a₃,a₄,a₅)，“a₁”为向量表示中的第一个分量(也即是表征一个音素特征)，“a₂”为向量表示中的第二个分量，以此类推。若共有“语种A”、“语种B”、“语种C”三类语种类别，且语种A对应的音素特征向量为：分量“a₁”和“a₂”同时取值为1且其余分量同时取值为0，语种B对应的音素特征向量为：分量“a₂”和“a₃”同时取值为1且其余分量同时取值为0，语种C对应的音素特征向量为：分量“a₃”和“a₄”同时取值为1且其余分量同时取值为0，则若音素特征向量为(1,1,0,0,0)，据此可以确定出待分类音频的所属语种为语种A。

需要说明的是，上述音素特征向量仅为举例，在具体实施时，音素特征向量中的分量取值可能为任意数值且音频特征向量包含的分量可能很多，一般不能直接得到如上述示例的简单的对应关系。因此，还需采用语种确定子模型对音素特征向量进行处理，将音素特征向量的取值映射为待分类音频属于各个语种的概率取值，并基于概率取值确定待分类音频的所属语种。

在一些可能实施方式中，上述调用所述语种确定子模型对音素特征向量进行处理，得到待分类音频属于各个语种的概率的方式，具体包括：调用语种确定子模型中的映射规则，对音素特征向量进行映射，得到待分类音频属于各个语种的概率。

示例地，映射规则可以由下述公式表示：

Y＝WX+b

其中，“X”是音素特征向量、“W”是权重矩阵、“b”是偏置量、“Y”概率取值向量，“Y”中的每个分量为待分类音频属于各个语种的概率。例如，当语种确定子模型确定的“Y”为(0.4，0.5，0.1)时，“0.4”、“0.5”、“0.1”依次为待分类音频属于语种A、语种B、语种C的概率取值，如果按照取最大概率值的方式确定语种，则待分类音频的所属语种为语种B。

需要说明的是，这里的语种确定子模型可以采用支持向量机(support vectormachine，SVM)分类器，softmax分类等等，本申请对此不作限制。且训练完成的目标语种分类模型(包括特征提取子模型和语种确定子模型)可由初始语种分类模型训练得到，训练方式可以参见下述图3所示的实施例，在此不说明。示例地，训练完成的目标语种分类模型可以为机器翻译模型(Transformer)等神经网络模型，本申请对此不作限制，训练完成的目标语种分类模型可以学习到不同音素之间的相关性、也能较好地处理较长的音素序列。

在图2对应的实施例中，本申请可以基于音频对应的音素序列识别出音频所属的语种类别，相较于传统语种分类方案，音素排除了音频中声调、伴奏等无关信息的干扰，与音频中的语音发音动作直接关联，能够作为语种分类的有力依据(不同语种的语音发音动作有所区别)，应用于多种语种分类识别场景，提高了语种分类的准确率。再有，本申请中的训练完成的目标声学模型基于音素词典得到，该音素词典能够适应多种语种，从而使得训练完成的目标声学模型能够对不同语种的音频进行处理，提高语种分类的效率。

下面对图2实施例中训练完成的目标声学模型和训练完成的目标语种分类模型的确定方法进行说明，参见图3，是本申请实施例提供的一种语种分类相关模型的训练方法的流程示意图，此处的相关模型包括上述方法实施例中涉及到的模型，该方法应用于上述语种分类装置，包括步骤S301～步骤S303，其中：

S301、获取第一训练音频集，第一训练音频集包括至少一种语种的至少一个第一训练音频。

示例地，至少一种语种包括但不限于中文、英文、日文、韩文等语种，至少一种语种中的各个语种均可由上述图2对应的实施例中介绍的音素词典进行音素表示。

可选的，第一训练音频集中的每个第一训练音频可以是经由预处理阶段处理后的音频，预处理阶段可对第一训练音频的时长、内容等进行筛选，以提高后续模型训练的准确率。示例地，可限制第一训练音频的最短有效时长为2～3s(以便至少可以识别出包含10个音素的音素序列)，这里的有效时长是指包含语音内容的时长(也即是除静音时长、纯伴奏时长等以外的时长)；并且尽量选取不同场景下的训练音频(例如，抒情类、儿童类等的训练音频)，以提高训练数据的有效性、多样性，进而提高后续模型训练的效率。

S302、基于第一训练音频集对初始声学模型中的参数进行训练，得到训练完成的目标声学模型。

在一些可能实施方式中，此处的基于第一训练音频集对初始声学模型中的参数进行训练，得到训练完成的目标声学模型，具体包括：获取每个第一训练音频的频谱特征以及第一训练音频对应的第一字符序列；调用初始声学模型对每个第一训练音频的频谱特征进行处理，得到每个第一训练音频的预测音素序列；根据音素词典和每个第一训练音频的预测音素序列，得到每个第一训练音频的第二字符序列；基于第一字符序列和第二字符序列对初始声学模型中的参数进行训练，得到训练完成的目标声学模型。

具体地，上述第一字符序列为第一训练音频的真实文本的字符序列，若第一训练音频为音乐，则第一字符序列为音乐歌词的字符序列，若第一训练音频为影视作品中的人声片段，则第一字符序列为人声片段对应的字幕的字符序列，等等。上述第二字符序列为经由初始声学模型输出的预测音素序列得到的第二字符序列，由第一字符序列和第二字符序列可以得到初始声学模型的损失函数，该损失函数用于表示第一字符序列和第二字符序列的相似程度，当第一字符序列与第二字符序列相似程度越高，说明初始声学模型预测出的预测音素序列越准确。示例地，该损失函数可以为绝对值损失函数、平方损失函数、交叉熵损失函数等，本申请对此不作限制；当损失函数选取为绝对值损失函数时，损失函数的数值随着训练不断进行而减小到稳定状态时，代表训练阶段的结束。

示例地，图4是本申请实施例提供的一种初始声学模型的训练流程示意图。如图4所示，可将获取到的每个第一训练音频的频谱特作为输入数据输入初始声学模型，以得到预测音素序列L1；接着经由音素词典(音素词典中存储有音素集合L与字符之间的对应关系)，得到预测音素序列L1对应的第二字符序列W2；然后，采用损失函数对第一字符序列W1和第二字符序列W2之间的差异进行计算，计算得到的结果即为损失值；最后，将损失值回传至初始声学模型对模型中的参数进行训练。

可选的，上述经由音素词典得到预测音素序列L1对应的第二字符序列W2可以理解为：按照预测音素序列L1中每个音素的排列顺序，从前往后依次在音素词典中查找能够构成字符的音素组合，以得到第二字符序列W2。例如，若L1包括5个音素，按照从前往后的顺序，可以在音素词典中查找到前三个音素构成的组合对应的字符以及后两个音素构成的组合对应的字符，则W2为包含这两个组合对应的字符的序列。

进一步地，在查找时，可遵循音素数量最多原则，例如，若查找到L1中的前两个音素构成的组合具有对应的字符，L1中的前三个音素构成的组合也具有对应的字符，在此情况下可以将前三个音素构成的组合对应的字符作为最终的查找结果。该过程与中文中的前后鼻音的情况类似，能够有效避免漏查的情况。以中文声韵母进行举例，若预测音素序列为“yingw.....”，虽然“yin”能够在音素词典中查找到字符“音”、“引”等，但“g”与“w”不能构成字符，则此处应按照音素数量最多原则，在音素词典中查找“ying”对应的字符。

需要说明的是，上述获取每个第一训练音频的频谱特征的方式与图2对应实施例中获取待分类音频的频谱特征的方式相同，在此不再赘述。

S303、基于第一训练音频集和训练完成的目标声学模型对初始语种分类模型中的参数进行训练，得到训练完成的目标语种分类模型。

在一些可能实施方式中，此处的基于第一训练音频集和训练完成的目标声学模型对初始语种分类模型中的参数进行训练，得到训练完成的目标语种分类模型，具体包括：获取每个第一训练音频的待处理音素序列，待处理音素序列是调用训练完成的目标声学模型对每个第一训练音频的频谱特征进行处理得到的；获取每个第一训练音频所属的预设语种；调用初始语种分类模型对每个第一训练音频的待处理音素序列进行处理，得到每个第一训练音频所属的预测语种；基于每个第一训练音频所属的预设语种以及预测语种对初始语种分类模型中的参数进行训练，得到训练完成的目标语种分类模型。

其中，上述每个第一训练音频的待处理音素序列为调用训练完成的目标声学模型输出得到的，也即是说，本步骤采用上述步骤S302训练得到的训练完成的目标声学模型再次对每个第一训练音频进行处理，得到待处理音素序列。

可选的，在一些可能实施方式中，还可以获取基于音素词典标注的每个第一训练音频的待处理音素序列，这种可能实施方式中获取到待处理音素序列的准确率更高，可以使得后续训练初始语种分类模型的效果更好。

具体地，上述每个第一训练音频所属的预设语种为每个第一训练音频在真实情况下的语种，该语种也即是上述第一训练音频的第一字符序列的所属语种。在训练初始语种分类模型的过程中，本申请实施例可以基于每个第一训练音频所属的预设语种与预测语种(也即是由初始声学模型对待处理音素序列处理得到的)得到模型训练的损失函数，该损失函数用于指示预测语种与预设语种是否相同。示例地，该损失函数可以为0-1损失函数、交叉熵损失函数等，本申请对此不作限制；当损失函数的数值随着训练不断进行而减小到稳定状态时，代表训练阶段的结束。

示例地，图5是本申请实施例提供的一种初始语种分类模型的训练流程示意图。如图5所示，可将获取到的每个待处理音素序列作为输入数据输入初始语种分类模型，以得到每个第一训练音频所属的预测语种T₂；接着采用损失函数对每个第一训练音频所属的预测语种T₂与预设语种T₁之间的差异进行计算，计算结果即为损失值；最后，将该损失值回传至初始语种分类模型对模型中的参数进行训练。

在一些可能实施方式中，本申请在根据上述过程得到训练完成的目标声学模型和训练完成的目标语种分类模型后，还可以进一步对这两个模型进行微调训练，提高语种分类的准确率。其中，微调训练过程具体包括：获取第二训练音频集，第二训练音频集包括至少一种语种的至少一个第二训练音频；获取每个第二训练音频的频谱特征以及所属的预设语种；依次调用目标声学模型、目标语种分类模型对每个第二训练音频的频谱特征进行处理，得到每个第二训练音频所属的预测语种；基于每个第二训练音频所属的预测语种以及预设语种，更新目标声学模型和目标语种分类模型。

可选的，每个第二训练音频所属的预设语种包含于所述第一训练音频集中第一训练音频所属的预设语种。其中，第二训练音频集中第二训练音频所属的预设语种与具体地语种分类场景相关。示例地，若第一训练音频集中第一训练音频所属的预设语种包括中文中的普通话、中文中的粤语、英文、日文、韩文，经由第一训练音频集训练得到的目标声学模型和目标语种分类模型可以对这五种语种的音频进行分类(分类的原理与上述图2对应的实施例中的相应描述相同，在此不赘述)。当在具体应用场景中只需对这五种语种中的部分语种(示例为普通话、粤语、英文)进行分类时，可以通过该可能实施方式将上述得到的目标声学模型和目标语种分类模型堆叠到一起作为一个整体模型进行微调更新，更新后的目标声学模型和目标语种分类模型对普通话、粤语、英文具有更好的分类效果。

可选的，第二训练音频集包括的第二训练音频的数量还可以小于或等于第一训练音频集包括的第一训练音频的数量。该可选方式可以减少模型微调的处理工作量，提高处理效率。且再次对目标声学模型及目标语种分类模型进行训练的方式也能提高语种分类的准确率。

在一些实施例中，当本申请应用于具体的语种分类场景且该语种分类场景中包含有训练时未参与训练的新语种时，可以重新获取包含新语种的训练音频集对上述得到的目标语种分类模型的整个模型再次进行训练。

由图2对应的实施例可知，当音频(包含各类训练音频和待分类音频)的音素序列输入上述训练得到的目标语种分类模型时，首先由目标语种分类模型中的特征提取子模型从音素序列中提取出多个音素特征构成的音素特征向量，再由语种确定子模型对将音素特征向量的取值映射为待分类音频属于各个语种的概率取值并基于概率取值确定音频的所属语种。由此可见，音素序列由目标声学模型基于音素词典中的音素确定，由音素序列确定的音素特征向量不受后续映射确定所属语种的影响。

因此，在另一些可能实施方式中，若需要目标语种分类模型对未参与训练的新语种也具有语种分类功能，则本申请还可以只对上述训练得到的目标语种分类模型中语种确定子模型进行更新训练，而不再对特征提取子模型进行更新训练，该方式相较于再次训练整个目标语种分类模型而言，可以有效减少训练的工作量，提高训练效率。训练过程具体包括：获取第三训练音频集，第三训练音频集包括至少一种语种的至少一个第三训练音频；第三训练音频所属的预设语种与第一训练音频所属的预设语种不同；获取每个第三训练音频所属的预设语种；依次调用目标声学模型、目标语种分类模型对每个第三训练音频进行处理，得到每个第三训练音频的预测语种；基于每个第三训练音频所属的预设语种以及预测语种对目标语种分类模型中语种确定子模型进行更新。

具体地，第三训练音频为新语种音频(与第一训练音频的所属语种不同)，此处的至少一种语种包含一种新语种和多种新语种两种可能情况。在对特征提取子模型更新的过程中，需要依次调用目标声学模型、目标语种分类模型对每个第三训练音频进行处理，得到每个第三训练音频的预测语种，该过程与上述图2对应的实施例中的过程相同，在此不赘述；接着，由第三训练音频的预测语种和预设语种(也即是真实情况下的语种)确定损失函数取值，并基于损失函数的取值对语种确定子模型进行更新。更新后的语种确定子模型可以将音素特征向量映射为包含新语种在内的语种的概率分布。

示例地，图6是本申请实施例提供的一种语种确定子模型更新前后的示意图。如图6所示，当更新前的语种确定子模型接收到音素特征向量(a₁,2,3,...,_N)时，通过模型内部的矩阵运算将音素特征向量映射为待分类音频属于语种A和语种B的概率分别为0.7和0.3，基于该概率可确定待分类音频属于语种A。当更新后的语种确定子模型接收到上述音素特征向量时，通过模型内部的矩阵运算将音素特征向量映射为待分类音频属于语种A、语种B、语种C、语种D(语种C和语种D为新语种)的概率分别为0.3、0.1、0.5、0.1，基于该概率可确定待分类音频属于语种C。

需要说明的是，当本申请应用于具体产品和技术时，本实施例中的第一训练音频集、第二训练音频集、第三训练音频集以及这些训练音频集的相关数据需要先获得对象的许可或者同意后方能获取，且这些数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

在图3对应的实施例中，本申请可以先对初始声学模型进行训练以得到训练完成的目标声学模型，再基于训练完成的目标声学模型对初始语种分类模型进行训练以得到训练完成的目标语种分类模型，训练得到的两个模型可以应用于图2对应的实施例。

参见图7，为本申请实施例提供的一种语种分类装置的结构示意图。该语种分类装置包括获取单元701及处理单元702。其中：

获取单元701，用于获取训练完成的待分类音频的频谱特征；

处理单元702，用于调用训练完成的目标声学模型对所述频谱特征进行处理，得到所述待分类音频的音素序列；所述训练完成的目标声学模型是基于音素词典训练得到的神经网络模型，所述音素词典用于指示不同语种的字符与音素之间的对应关系；

所述处理单元702，还用于调用训练完成的目标语种分类模型对所述音素序列进行处理，得到所述待分类音频所属的语种；所述训练完成的目标语种分类模型是由多个训练音频的音素序列训练得到，每个所述训练音频具有标注的预设语种标签，所述训练完成的目标语种分类模型记录有音频的音素序列与音频所属语种的对应关系。

在一种可能实现方式中，所述训练完成的目标语种分类模型包括特征提取子模型和语种确定子模型，所述处理单元702在用于调用训练完成的目标语种分类模型对所述音素序列进行处理，得到所述待分类音频所属的语种时，具体包括：

所述处理单元702在用于调用所述特征提取子模型对所述音素序列进行处理，得到音素特征向量时，具体包括：

在一种可能实现方式中，所述处理单元702，在用于调用所述语种确定子模型对所述音素特征向量进行处理，得到所述待分类音频属于各个语种的概率时，具体包括：

在一种可能实现方式中，所述获取单元701，还用于：

所述处理单元702，还用于：

根据所述音素词典和所述每个第一训练音频的预测音素序列，得到所述每个第一训练音频的第二字符序列；

在一种可能实现方式中，所述获取单元701，还用于：

获取所述每个第一训练音频所属的预设语种；

所述处理单元702，还用于：

在一种可能实现方式中，所述获取单元701，还用于：

所述处理单元702，还用于：

在一种可能实现方式中，所述获取单元701，还用于：

所述处理单元702，还用于：

需要说明的是，本申请实施例的语种分类装置的各单元模块的功能可根据上述方法实施例中的方法具体实现，其具体实现过程可以参照上述方法实施例的相关描述，在此不作赘述。

参见图8，是本申请实施例提供的一种终端设备的结构示意图。如图8所示，本申请实施例中的终端设备可以包括：一个或多个处理器801、存储器802和网络接口803。上述处理器801、存储器802和网络接口803通过总线804连接。存储器802用于存储计算机程序，该计算机程序包括程序指令，处理器801和网络接口803用于执行存储器802存储的程序指令，执行如下操作：

获取待分类音频的频谱特征；

应当理解，在一些可行的实施方式中，上述处理器801可以是中央处理单元(central processing unit，CPU)，该处理器还可以是其他通用处理器、数字信号处理器(digital signal processor，DSP)、专用集成电路(application specific integratedcircuit，ASIC)、现成可编程门阵列(field programmable gate array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。上述存储器802可以包括只读存储器(read-only memory，ROM)和随机存取存储器(random access memory，RAM)，并向处理器801提供指令和数据。存储器802的一部分还可以包括非易失性随机存取存储器。例如，存储器802还可以存储设备类型的信息。

具体实现中，上述终端设备可通过其内置的各个功能模块执行如上述图2至图3中各个步骤所提供的实现方式，具体可参见上述各个步骤所提供的实现方式，在此不再赘述。

本申请实施例还提供了一种计算机可读存储介质，且计算机可读存储介质中存储有前文提及的文本处理装置所执行的计算机可读指令，且该计算机可读指令包括程序指令，当处理器执行上述程序指令时，能够执行上述图2至图3所对应实施例中的方法，因此，这里将不再进行赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。对于本申请所涉及的计算机可读存储介质实施例中未披露的技术细节，请参照本申请方法实施例的描述。作为示例，程序指令可以被部署在一个计算机设备上，或者在位于一个地点的多个计算机设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算机设备上执行，分布在多个地点且通过通信网络互连的多个计算机设备可以组成区块链***。

根据本申请的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备可以执行上述图2至图3所对应实施例中的方法，因此，在此不再进行赘述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，上述程序可存储于计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种语种分类方法，其特征在于，所述方法包括：

获取待分类音频的频谱特征；

调用训练完成的目标声学模型对所述频谱特征进行处理，得到所述待分类音频的音素序列；所述目标声学模型是基于音素词典训练得到的神经网络模型，所述音素词典用于指示不同语种的字符与音素之间的对应关系；

调用训练完成的目标语种分类模型对所述音素序列进行处理，得到所述待分类音频所属的语种；所述目标语种分类模型是由多个训练音频的音素序列训练得到，每个所述训练音频具有标注的预设语种标签，所述训练完成的目标语种分类模型记录有音频的音素序列与音频所属语种的对应关系。

2.根据权利要求1所述的方法，其特征在于，所述目标语种分类模型包括特征提取子模型和语种确定子模型，所述调用训练完成的目标语种分类模型对所述音素序列进行处理，得到所述待分类音频所属的语种，包括：

3.根据权利要求2所述的方法，其特征在于，所述特征提取子模型包括嵌入层、自注意力层以及批标准化层；所述调用所述特征提取子模型对所述音素序列进行处理，得到音素特征向量包括：

4.根据权利要求2所述的方法，其特征在于，所述调用所述语种确定子模型对所述音素特征向量进行处理，得到所述待分类音频属于各个语种的概率，包括：

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

基于所述第一字符序列和所述第二字符序列对所述初始声学模型中的参数进行训练，得到训练完成的目标声学模型。

6.根据权利要求5所述的方法，其特征在于，所述方法还包括：

获取所述每个第一训练音频的待处理音素序列，所述待处理音素序列是调用所述目标声学模型对所述每个第一训练音频的频谱特征进行处理得到的；

获取所述每个第一训练音频所属的预设语种；

基于所述每个第一训练音频所属的预设语种以及预测语种对所述初始语种分类模型中的参数进行训练，得到训练完成的目标语种分类模型。

7.根据权利要求6所述的方法，其特征在于，所述方法还包括：

获取第二训练音频集，所述第二训练音频集包括至少一种语种的至少一个第二训练音频；获取所述第二训练音频集中每个第二训练音频的频谱特征以及所属的预设语种；

8.根据权利要求7所述的方法，其特征在于，所述每个第二训练音频所属的预设语种包含于所述第一训练音频集中第一训练音频所属的预设语种；所述第二训练音频集包括的第二训练音频的数量小于或等于所述第一训练音频集包括的第一训练音频的数量。

9.根据权利要求6所述的方法，其特征在于，所述方法还包括：

10.一种终端设备，其特征在于，所述终端设备包括处理器、存储器以及网络接口，所述处理器与所述存储器和所述网络接口相连；所述网络接口用于提供网络通信功能，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器用于调用程序代码实现如权利要求1-9中任一项所述的方法。

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时，实现如权利要求1-9中任一项所述的方法。