CN114648976A

CN114648976A - 语种识别方法、装置、电子设备及介质

Info

Publication number: CN114648976A
Application number: CN202210142417.6A
Authority: CN
Inventors: 司玉景; 张钦; 李全忠; 何国涛; 蒲瑶
Original assignee: Puqiang Times Zhuhai Hengqin Information Technology Co ltd
Current assignee: Puqiang Times Zhuhai Hengqin Information Technology Co ltd
Priority date: 2022-02-16
Filing date: 2022-02-16
Publication date: 2022-06-21

Abstract

本发明提供一种语种识别方法、装置、电子设备及介质，该语种识别方法包括：获取多语种音频数据，根据音频数据提取对应的声学特征；创建深度神经网络，以声学特征作为输入，通过训练得到已训练的深度神经网络；根据语种识别请求，获取音频序列并提取声学特征，采用已训练的深度神经网络进行推理，确定音频序列中的语种概率；根据语种概率，计算语种置信度，最后确定音频序列的语种。本发明的技术方案通过对每个语种的声学发音特征进行建模，建模单元颗粒度更小，从而可以进一步提高语种识别的准确率和鲁棒性。

Description

语种识别方法、装置、电子设备及介质

技术领域

本发明涉及计算机人工智能技术领域，尤其涉及一种语种识别方法、装置、电子设备及介质。

背景技术

随着AI技术和计算机硬件的不断发展，语音识别领域取得了飞速发展，并且在各个领域均得到了广泛的应用，例如，智能音箱、智能客服助手、智能语音质检等。然而，在实际使用过程中，智能语音助手均需要事先指定需要识别的语言类型才能正常工作。语种识别技术可以自动识别用户所使用的语言，在很多语音处理任务中得到了广泛的应用，例如多语种语音识别、跨语种通信和机器翻译等领域。

传统的语种识别技术大多是采用语音信号处理中的方法，对底层声学特征进行抽取，例如梅尔频率倒谱系数(MFCC)、感知线性预测系数(PLP)等特征，然后采用浅层机器学习方法，例如混合高斯模型(GMM)及其改进方法GMM-UBM，对音频进行语种分类。但这种方式的语种识别的准确率不高。

而基于深度学习的语种识别方法大多是采用不同形式的神经网络对输入音频序列的语种信息进行建模，如图1所示，但这种语种识别方式无法满足对于识别率和鲁棒率越来越高的要求。

发明内容

本发明实施例的主要目的在于提出一种语种识别方法、装置、电子设备及介质，提高了语种识别的准确率和鲁棒性。

本发明的一方面提供了一种语种识别方法，包括：

获取多种音频数据，根据所述音频数据确定声学特征；

创建深度神经网络，以所述声学特征作为输入，通过训练得到已训练的所述深度神经网络；

根据语种识别请求，获取音频序列，通过已训练的所述深度神经网络对所述音频序列进行推理，确定所述音频序列中的语种概率；

根据所述语种概率，确定所述音频序列的语种。

根据所述的语种识别方法，其中获取多语种音频数据，根据音频数据提取对应的声学特征，包括：采集不同语种的所述音频数据，对所述音频数据执行预处理、加窗、FTT变换及梅尔滤波器处理，得到所述声学特征。

根据所述的语种识别方法，其中创建深度神经网络，以声学特征作为输入，通过训练得到已训练的深度神经网络，包括：以所述声学特征作为输入，以已标注的语种标签作为训练目标，对所述深度神经网络进行训练，所述深度神经网络的目标函数采用CTC损失函数，通过所述CTC损失函数对深度神经网络进行训练，训练得到的所述深度神经网络用来确定所述声学特征的序列概率。

根据所述的语种识别方法，其中方法还包括：

已训练的所述深度神经网络包括建模单元集，所述建模单元集合用于表征多个声学感知建模单元的集合，所述语种标签对应所述建模单元集，所述声学感知建模单元用于表征语音发声的语种、拼音、音节、音素中的至少一种。

根据所述的语种识别方法，其中根据语种识别请求，获取音频序列并提取声学特征，采用已训练的深度神经网络进行推理，确定音频序列中的语种概率，包括：

通过已训练的所述深度神经网络模型对所述音频序列进行推理，得到后验概率，对所述后验概率进行基于前缀树的束搜索算法的解码处理，确定每个语种声学感知建模的单元数量。

根据所述的语种识别方法，其中方法包括：

以所述感知建模单元数量的最大值作为所述音频序列的分类识别结果。

本发明的另一实施方式还包括一种语种识别装置，包括：

声学特征模块，用于获取多语种音频数据，根据音频数据提取对应的声学特征；

训练模块，用于创建深度神经网络，以所述声学特征作为输入，通过训练得到已训练的所述深度神经网络；

推理模块，用于根据语种识别请求，获取音频序列，通过已训练的所述深度神经网络对所述音频序列进行推理，确定所述音频序列中的语种概率；

分类模块，用于根据语种概率，计算语种置信度，最后确定音频序列的语种。

本发明实施例的另一方面提供了一种电子设备，包括处理器以及存储器；

所述存储器用于存储程序；

所述处理器执行所述程序实现如前文所描述的方法。

本发明实施例还公开了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行前文所描述的方法。

本发明的有益效果为：通过多语种音频数据对应的声学特征训练深度神经网络，通过训练后的深度神经网络执行语种概率识别，进一步通过对每个语种的声学发音现象进行建模，建模单元颗粒度更小，从而提高了语种识别的准确率和鲁棒性。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1是神经网络对输入音频序列的建模识别示意图。

图2是本发明实施例的语种识别方法的流程示意图。

图3是本发明实施例的语种标签和语种声学感知建模单元的关系示意图。

图4是本发明实施例的基于声学感知的深度神经网络结构示意图。

图5是本发明实施例的基于深度神经网络声学感知的语种识别***示意图。

图6是本发明实施例的语种识别装置示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。在后续的描述中，使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本发明的说明，其本身没有特有的意义。因此，“模块”、“部件”或“单元”可以混合地使用。“第一”、“第二”等只是用于区分技术特征为目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。在本后续的描述中，对方法步骤的连续标号是为了方便审查和理解，结合本发明的整体技术方案以及各个步骤之间的逻辑关系，调整步骤之间的实施顺序并不会影响本发明技术方案所达到的技术效果。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

参考图2，图2是语种识别方法的流程示意图，其流程包括：

S100，获取多语种音频数据，根据音频数据提取对应的声学特征；

在一些实施例中，声学特征采集不同语种的音频数据，对音频数据执行预处理、加窗、FTT变换及梅尔滤波器处理，得到声学特征。

在一些实施例中，其中的音频数据为训练数据，通过上述的实施例进行处理后作为深度神经网络的输入。

S200，创建深度神经网络，以声学特征作为输入，通过训练得到已训练的深度神经网络；

在一些实施例中，深度神经网络需要以已标注的语种标签作为训练目标，这些已标注的语种标签为事先标注得到；

参考图3，其中的语种标签为1个节点，而声学感知建模单元即为建模单元集，建模单元集为多个多种语种的建模单元的集合，其建模粒度相对于现有技术更加细化。

在一些实施例中，本发明的实施例将语种的内容标签，将语种、拼音、音节、音素等进行细粒度建模，通过细粒度建模实现了语种识别的准确率和鲁棒性。

在一些实施例中，除了考虑语种类别特征外，还对每个语种的声学发音特征进行建模，例如普通话如果按照拼音为建模单元，那建模单元为1300个左右的拼音，可表示为”zh_bei3 zh_jing1...”等，这种建模单元颗粒度更小，区分性更好，可以进一步提高语种识别的准确率和鲁棒性。

参考图4，通过如步骤S200的技术方案采用多种声学特征进行训练即可得到如图4所示的多种建模单元的用于识别音频序列中说包括的语种分布概率的识别模型。

S300，根据语种识别请求，获取音频序列并提取声学特征，采用已训练的深度神经网络进行推理，确定音频序列中的语种概率；

示例性地，参考图5所示的语种识别***示意图，包括：

将事先收集并标注好的各个语种的音频数据提取可供模型训练的声学特征(例如，可以经过传统的信号处理方法做预处理、加窗、FFT变换、梅尔滤波器等步骤)，将声学特征作为模型训练的输入，将标注好的标签作为训练目标，对深度神经网络模型进行训练，其中，建模单元为各语种的声学感知建模单元的集合，目标函数为CTC损失函数。

利用训练好的深度神经网络模型，对音频序列进行推理，得到后验概率，然后进行解码，解码策略采用基于前缀树的束搜索算法；

统计解码结果中各个语种建模单元所占的比例，比例最高者，则为该音频序列所对应的语种类别。

在一些实施例中，其中的置信度表示不同语种的分类概率的统计。

S400，根据语种概率，确定语种置信度，进而确定所述音频序列的语种。

在一些实施例中，语种概率最高的对应的语种，即为音频序列的语种识别结果。

图6是本发明实施例的语种识别分析装置图。所示所示，本发明实施例还提供了一种语种识别分析装置，该装置包括了声学特征模块601、训练模块602、推理模块603、分类模块604。

声学特征模块，用于获取多种音频数据，根据音频数据确定声学特征；训练模块，用于创建深度神经网络，以声学特征作为输入，通过训练得到已训练的深度神经网络；推理模块，用于根据语种识别请求，获取音频序列，通过已训练的深度神经网络对音频序列进行推理，确定音频序列中的语种概率；分类模块，用于根据语种概率，确定音频序列的语种。

示例性地，在装置中的声学特征模块、训练模块、推理模块、分类模块的协同下，实施例装置可以实现前述的任意一种语种识别方法，即

获取多语种音频数据，根据音频数据提取对应的声学特征；创建深度神经网络，以声学特征作为输入，通过训练得到已训练的深度神经网络；根据语种识别请求，获取音频序列并提取声学特征，采用已训练的深度神经网络进行推理，确定音频序列中的语种概率；根据语种概率，确定语种置信度，进而确定音频序列的语种。本发明的技术方案通过多语种音频数据对应的声学特征训练深度神经网络，通过训练后的深度神经网络执行语种概率识别，进一步通过对每个语种的声学发音现象进行建模，建模单元颗粒度更小，从而提高了语种识别的准确率和鲁棒性。

本发明实施例还提供了一种电子设备，该电子设备包括处理器以及存储器；

存储器存储有程序；

处理器执行程序以执行前述的语种识别方法；该电子设备具有搭载并运行本发明实施例提供的语种识别的软件***的功能，例如，个人计算机(Personal Computer，PC)、手机、智能手机、个人数字助手(Personal Digital Assistant，PDA)、可穿戴设备、掌上电脑PPC(Pocket PC)、平板电脑等。

本发明实施例还提供了一种计算机可读存储介质，存储介质存储有程序，程序被处理器执行实现如前面的语种识别方法。

在一些可选择的实施例中，在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如，取决于所涉及的功能/操作，连续示出的两个方框实际上可以被大体上同时地执行或所述方框有时能以相反顺序被执行。此外，在本发明的流程图中所呈现和描述的实施例以示例的方式被提供，目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的，其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。

本发明实施例还公开了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行前述的语种识别方法。

此外，虽然在功能性模块的背景下描述了本发明，但应当理解的是，除非另有相反说明，所述的功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中，或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是，有关每个模块的实际实现的详细讨论对于理解本发明是不必要的。更确切地说，考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下，在工程师的常规技术内将会了解该模块的实际实现。因此，本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本发明。还可以理解的是，所公开的特定概念仅仅是说明性的，并不意在限制本发明的范围，本发明的范围由所附权利要求书及其等同方案的全部范围来决定。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行***、装置或设备(如基于计算机的***、包括处理器的***或其他可以从指令执行***、装置或设备取指令并执行指令的***)使用，或结合这些指令执行***、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行***、装置或设备或结合这些指令执行***、装置或设备而使用的装置。

计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施例，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

以上是对本发明的较佳实施进行了具体说明，但本发明并不限于所述实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可做出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims

1.一种语种识别方法，其特征在于，包括：

获取多语种音频数据，根据所述音频数据确定声学特征；

根据所述语种概率，确定语种置信度，进而确定所述音频序列的语种。

2.根据权利要求1所述的语种识别方法，其特征在于，所述获取多语种音频数据，根据所述音频数据确定声学特征，包括：

采集不同语种的所述音频数据，对所述音频数据执行预处理、加窗、FTT变换及梅尔滤波器处理，得到所述声学特征。

3.根据权利要求2所述的语种识别方法，其特征在于，所述创建深度神经网络，以所述声学特征作为输入，通过训练得到已训练的所述深度神经网络，包括：

以所述声学特征作为输入，以已标注的语种标签作为训练目标，对所述深度神经网络进行训练，所述深度神经网络的目标函数采用CTC损失函数，通过所述CTC损失函数对深度神经网络进行训练，训练得到的所述深度神经网络用来确定所述声学特征的序列概率。

4.根据权利要求3所述的语种识别方法，其特征在于，所述方法还包括：

5.根据权利要求4所述的语种识别方法，其特征在于，所述根据语种识别请求，获取音频序列，通过已训练的所述深度神经网络对所述音频序列进行推理，确定所述音频序列中的语种概率，包括：

通过已训练的所述深度神经网络模型对所述音频序列进行推理，得到后验概率，对所述后验概率进行基于前缀树的束搜索算法的解码处理，确定每个语种声学感知建模单元的数量。

6.根据权利要求5所述的语种识别方法，其特征在于，所述方法包括：

7.一种语种识别装置，其特征在于，包括：

8.一种电子设备，其特征在于，包括处理器以及存储器；

所述存储器用于存储程序；

所述处理器执行所述程序实现如权利要求1-6中任一项所述的语种识别方法。

9.一种计算机可读存储介质，其特征在于，所述存储介质存储有程序，所述程序被处理器执行实现如权利要求1-6中任一项所述的语种识别方法。