CN113035247B

CN113035247B - 一种音频文本对齐方法、装置、电子设备及存储介质

Info

Publication number: CN113035247B
Application number: CN202110287610.4A
Authority: CN
Inventors: 刘峰; 康世胤; 陀得意; 游于人; 许佳
Original assignee: Guangzhou Huya Technology Co Ltd
Current assignee: Guangzhou Huya Technology Co Ltd
Priority date: 2021-03-17
Filing date: 2021-03-17
Publication date: 2022-12-23
Anticipated expiration: 2041-03-17
Also published as: CN113035247A

Abstract

本申请提供一种音频文本对齐方法、装置、电子设备及存储介质，所述方法包括：提取待对齐音频的音频特征；将待对齐文本进行三音素拆分，并对所述三音素进行聚类；基于所述音频特征与所述聚类后的三音素，对所述待对齐音频与所述待对齐文本进行三音素对齐。通过在将对齐文本进行三音素拆分后对三音素进行聚类，可以减少音频文本对齐过程中所要处理的特征数量，从而缩短了音频文本对齐处理流程，保证了对齐实时性。

Description

一种音频文本对齐方法、装置、电子设备及存储介质

技术领域

本申请涉及音频处理技术领域，尤其涉及一种音频文本对齐方法、装置、电子设备及存储介质。

背景技术

音频与文本对齐是一种以语音识别为基础的技术，是把音频和其对应的文本进行强制对齐的过程，目的是获得音频对文本之间的时间对应关系。音频文本对齐广泛应用在各生活场景中，如音乐播放过程中可以高亮显示当前歌词对应的文本。听书软件中，也可以高亮显示正在阅读的段落、句子等。在相关的技术方案中，音频与文本的对齐流程冗长，对齐实时性无法保证，限制了音频文本对齐在如直播等对实时性要求较高的场景下的应用。

发明内容

本申请提供了一种音频文本对齐方法、装置、电子设备及存储介质，有效缩短了音频文本对齐处理流程。

根据本申请实施例的第一方面，提供一种音频文本对齐方法，所述方法包括：

提取待对齐音频的音频特征；

将待对齐文本进行三音素拆分，并对所述三音素进行聚类；

基于所述音频特征与所述聚类后的三音素，对所述待对齐音频与所述待对齐文本进行三音素对齐。

根据本申请实施例的第二方面，提供一种音频文本对齐装置，所述装置包括：

提取模块，用于提取待对齐音频的音频特征；

聚类模块，用于将待对齐文本进行三音素拆分，并对所述三音素进行聚类；

对齐模块，用于基于所述音频特征与所述聚类后的三音素，对所述待对齐音频与所述待对齐文本进行三音素对齐。

根据本申请实施例的第三方面，提供一种电子设备，所述电子设备包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：

提取待对齐音频的音频特征；

将待对齐文本进行三音素拆分，并对所述三音素进行聚类；

根据本申请实施例的第四方面，提供一种计算机可读存储介质，其上存储有计算机指令，该指令被处理器执行时实现上述第一方面所述的方法。

本申请的实施例提供的技术方案可以包括以下有益效果：

本申请提供了一种音频文本对齐方法，通过在将对齐文本进行三音素拆分后对三音素进行聚类，可以减少音频文本对齐过程中所要处理的特征数量，从而缩短了音频文本对齐处理流程，保证了对齐实时性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

此处的附图被并入说明书中并构成本申请的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

图1是本申请根据一示例性实施例示出的一种音频文本对齐方法的流程图。

图2是本申请根据另一示例性实施例示出的一种音频文本对齐方法的流程图。

图3是本申请根据另一示例性实施例示出的一种音频文本对齐方法的流程图。

图4是本申请根据一示例性实施例示出的一种音频文本对齐装置的框图。

图5是本申请根据一示例性实施例示出的一种电子设备的硬件结构图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

在本申请使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本申请可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本申请范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

接下来对本申请实施例进行详细说明。

音频和文本的对齐，是指为每个字的发音在音频中标注起止时间信息，是音频与文本在时间线上对齐。音频与本文对齐以语音识别技术为基础，但不同的是，语音识别更关注音频的内容是什么，而音频文本对齐则关注音频和文本在时间上的对应关系。音频和文本对齐有很多应用，如音乐播放过程中可以高亮显示当前歌词对应的文本等。随着人工智能的日渐发展，音频中的时间信息从一开始需要通过人工标注，发展到可以通过模型进行自动标注。例如，利用语音合成***，可以实现在句子粒度上的对齐。利用强制对齐技术，可以达到词、字粒度上的对齐。但现有的对齐技术所能达到的对齐粒度依然较大，对齐精度不足，且如通过强制对齐技术的对齐过程耗费时间较长，并不适用于如直播等实时性要求较高的场景下。为了至少部分解决上述技术问题，本申请提供了一种音频文本对齐方法，可以应用于直播或短视频场景等对实时性要求较高的场景中，包括如图1所示的步骤：

步骤110：提取待对齐音频的音频特征；

步骤120：将待对齐文本进行三音素拆分，并对所述三音素进行聚类；

步骤130：基于所述音频特征与所述聚类后的三音素，对所述待对齐音频与所述待对齐文本进行三音素对齐。

音频文本的对齐往往需要利用模型进行，其过程可以分为两个阶段，第一阶段是对模型进行训练，优化模型参数，使得通过模型对齐后的音频文本，与真实对齐结果尽量一致。第二阶段是优化后的模型投入使用。上述方法通过在将对齐文本进行三音素拆分后对三音素进行聚类，可以减少音频文本对齐过程中所要处理的特征数量，一方面可以缩短模型训练所需时间，另一方面在优化后的模型的实际使用过程中，同样可以缩短音频文本的对齐过程，保证了保证了对齐实时性。

音频文本的对齐过程需要提取待对齐音频的音频特征。在一些实施例中，可以将待对齐音频帧的梅尔倒谱系数作为音频特征。通常地，首先对待处理音频进行分帧，帧长可取20、25、30毫秒等。将分帧后的每一帧分别进行加窗、傅里叶变换、取对数、逆傅里叶变换后，便可得到每一帧对应的梅尔倒谱系数。当然，处理梅尔倒谱系数以外，音频特征还可以是Filter banks特征、声谱图等，本领域技术人员可以根据实际需要选取不同的音频特征进行对齐，本申请在此不做限制。

上述图1所提供的音频文本对齐方法，直接将待对齐文本进行三音素拆分，并与待对齐音频进行三音素对齐。但实际上，若直接将待对齐文本进行三音素拆分，可能会因为类别数量过多而导致在三音素对齐过程中模型无法收敛。因此在一些实施例中，上述图1所提供的音频文本对齐方法，在步骤130进行三音素对齐之前，还包括如图2所示的步骤：

步骤210：将所述待对齐文本进行单音素拆分；

步骤220：基于所述音频特征与所述单音素，对所述待对齐音频与所述待对齐文本进行单音素对齐。

在声学模型中，音素是描述一种语言的基本单位。如在汉语中，一个声母或韵母代表一个音素。因此在一些实施例中，当待对齐文本与待对齐音频的语言种类为汉语时，上述单音素拆分可以是将待对齐文本中的文字转化为拼音，并将拼音拆分为声母和韵母。例如，当待对齐文本包含文字内容“今天天气真好”，则将上述文字内容转化为拼音“jin tiantian qi zhen hao”，并将上述拼音拆分为声母和韵母“j in t ian t ian q i zh en hao”。在单音素拆分后，可以基于音频特征与单音素，对待对齐音频与待对齐文本进行单音素对齐。如上所述，音频文本的对齐往往需要利用模型进行，因此在一些实施例中，可以将音频特征与单音素输入模型中，如隐马尔科夫-高斯混合模型(HMM-GMM模型)。通过一系列的算法优化与迭代，输出音频分布的最大概率，即音频特征对应于单音素的最大概率。基于音频分布的最大概率，可以得出音频特征所对应的单音素。由于一音频帧对应于一个音频特征，而通过上述模型计算可以得知音频特征所对应的单音素，因此可以得知待对齐文本中，单音素所对应的音频帧，即可为单音素标注上起止时间信息，使得音频与单音素在时间线上对齐。如在上述例子中，经过HMM-GMM模型对齐后，可以获得对齐结果j-(0.1～0.5)，表明待对齐文本中“今”的单音素j发音对应于待对齐音频中0.1秒-0.5秒。

但在实际说话过程中，人们并不会单独地对每个字进行发音，很多发音是连在一起的，这一点在英语中尤为常见。因此就算是同一个音素，若前后音素不同，最后该音素发音也会不一样。由于一个音素的发音会受其前后音素影响，因此可以将该音素与其前后的音素组合，使用三个状态来表示一个音素。如在上述待对齐文本中，音素en可以用zh-en、en、en-h来表示。因此，在一些实施例中，当待对齐文本与待对齐音频的语言种类为汉语时，上述三音素拆分可以是将待对齐文本中的文字拆分为三音素表达。在一些实施例中，三音素拆分可以基于单音素拆分的结果进行，如在上述例子中，待对齐文本中的“今”拆分为“jin”后，基于该结果，可以进一步地将j拆分为“sli-j j j-in”三音素表达。在得到三音素表达后，可以通过无监督学习将三音素进行聚类，使得相同或相似的三音素归为一类。相似的三音素是指发音相近的三音素，如对于“ning”与“ming”，韵母“ing”在这两个读音中的发音并不一样，但由于声母“n”与“m”发音相似，因此，三音素“n-ing”与“m-ing”的发音相似，可以归为一类。三音素聚类后，将相同或相似的三音素归为一类，可以减少音频文本对齐过程中要处理的特征数量，从而加快了对齐速度。

对三音素进行聚类后，可以对待对齐音频与待对齐文本进行三音素对齐。在一些实施例中，可以将音频特征与聚类后的三音素输入指定的模型中，通过模型输出指定时间精度级别的对齐结果。其中，可以根据输出的音频分布的最大概率，可以得出音频特征所对应的三音素。从而可以得知待对齐文本中，三音素所对应的音频帧，即可为三音素标注上起止时间信息，使得音频与三音素在时间线上对齐。

在一些实施例中，上述指定的模型可以是隐马尔科夫-高斯混合模型(HMM-GMM模型)。与上述单音素对齐中所用到的HMM-GMM模型不同的是，由于在三音素对齐中，HMM-GMM模型的输入特征为音频特征与聚类后的三音素，而在单音素对齐中，HMM-GMM模型的输入特征为音频特征与单音素，因此这两个HMM-GMM模型在训练过程中迭代过程、次数可能并不相同，且经过算法优化后得到的参数也并不一样。经过将音频特征与聚类后的三音素输入HMM-GMM模型，可以输出待对齐音频与待对齐文本的三音素对齐结果，其中，该对齐结果为第一时间精度级别。如在上述例子中，经过HMM-GMM模型对齐后，可以获得对齐结果sli-j-(0.10～0.23)，j-(0.23～0.34)，j-in-(0.34～0.51)。将三音素的对齐结果进行合并，即可获得对齐结果j-(0.1～0.51)。可见，与单音素对齐相比，三音素对齐精度更高。如上述对齐结果的精度达到0.01s，即第一时间精度级别可以是0.01s。实际上，单音素对齐是一种精度较低的粗对齐，在粗对齐的基础上进行三音素对齐，可以有效提高音频文本的对齐精度。

为了进一步提高音频文本的对齐精度，上述指定的模型除了可以是HMM-GMM模型以外，还可以是神经网络模型，如深度神经网络模型。与HMM-GMM模型相比，神经网络模型更为复杂，模型质量更好，可以学习到更多的特征，从而提高对齐精度。将音频特征与聚类后的三音素输入神经网络模型，输出待对齐音频与待对齐文本的三音素对齐结果，其中，该对齐结果为第二时间精度级别。如上所述，为了避免直接进行高精度对齐可能导致的模型无法收敛，运算速度慢等问题，在一些实施例中，可以先利用HMM-GMM模型进行三音素对齐，在该对齐结果的基础上，再利用神经网络进行三音素对齐。如在上述例子中，利用HMM-GMM模型进行三音素对齐可得到对齐结果sli-j-(0.10～0.23)，j-(0.23～0.34)，j-in-(0.34～0.51)。在这基础上，将音频特征与聚类后的三音素输入神经网络模型，可得到输出结果sli-j-(0.100～0.235)，j-(0.235～0.348)，j-in-(0.348～0.515)。将三音素的对齐结果进行合并，即可获得对齐结果j-(0.100～0.515)。经过神经网络模型的对齐结果为第二时间精度级别，高于第一时间精度级别，在上述例子中，第二时间精度级别为0.001s。

进一步地，最终获得的对齐结果还可以根据实际需要进行合并，例如通过上述不同精度级别的对齐后，获得对齐结果j-(0.100～0.515)，in-(0.515～0.900)，t-(0.900～1.015)，ian-(1.015-2.000)。根据实际需要，可将上述对齐结果合并为“今-(0.100～0.900)”以及“天-(0.900～2.000)”。

如上所述，当音频特征与单音素输入HMM-GMM模型，以及音频特征与三音素输入指定的模型后，可以输出音频分布的最大概率，即音频特征对应于单音素或三音素的最大概率。在一些实施例中，上述音频特征与单音素输入模型后，可以根据搜索算法获取音频特征对应于单音素条件概率最大的输出序列，并根据该输出序列进行单音素对齐；上述音频特征与三音素输入模型后，可以根据搜索算法获取音频特征对应于三音素条件概率最大的输出序列，并根据该输出序列进行三音素对齐。如在上述例子中，若输入音频特征A、音频特征B与音频特征C，以及单音素zh、en、h，通过搜索算法，可以计算得到输出序列音频特征A对应于单音素zh、音频特征B对应于单音素en以及音频特征C对应于单音素h的条件概率，相比于其他输出序列的条件概率最大，从而根据上述输出序列可以确定音频特征A、音频特征B与音频特征C分别对应的单音素，使得音频与单音素在时间线上对齐。三音素对齐过程也与上述单音素对齐过程类似，本申请在此不再赘述。在一些实施例中，上述搜索算法可以是束搜索，贪婪搜索等搜索算法，搜索过程中可以进行回溯和剪枝，从而得到理想结果。

在一些实施例中，上述音频文本对齐方法还包括分别对音频和文本进行预处理。如在提取音频特征之前，还可以先对待对齐音频进行降噪处理。通过信号***方法和神经网络方法的融合算法，对音频混响和底噪进行消除和抑制。在进行三音素拆分之前，还可以先清理待对齐文本，如采用正则表达式清理待对齐文本中包括标点、换行符等不规则字符。

本申请提供了一种音频文本对齐方法，通过在将对齐文本进行三音素拆分后对三音素进行聚类，可以减少音频文本对齐过程中所要处理的特征数量，从而缩短了音频文本对齐处理流程，保证了对齐实时性。同时在利用HMM-GMM模型的三音素对齐结果的基础上进行利用神经网络的三音素对齐，可以大幅提高音频文本的对齐精度。

此外，本申请还提供了一种音频文本对齐方法，包括如图3所示的步骤：

步骤311：对待对齐音频进行降噪处理；

步骤312：提取所述待对齐音频的音频特征；

步骤321：对待对齐文本进行文本清理；

步骤322：将所述待对齐文本进行单音素拆分；

其中，步骤311-312，与步骤321-322没有时间先后顺序，可以同时进行。

在步骤312与步骤322之后执行：

步骤331：将所述音频特征与所述单音素输入隐马尔可夫-高斯混合模型，输出所述待对齐音频与所述待对齐文本的单音素对齐结果；

步骤323：将所述待对齐文本进行三音素拆分，并对所述三音素进行聚类；

其中步骤331与步骤323没有时间先后顺序，在步骤331与步骤323之后执行：

步骤332：将所述音频特征与所述聚类后的三音素输入隐马尔可夫-高斯混合模型，输出所述待对齐音频与所述待对齐文本的三音素对齐结果，所述对齐结果为第一时间精度级别；

步骤323：将所述音频特征与所述聚类后的三音素输入神经网络模型，输出所述待对齐音频与所述待对齐文本的三音素对齐结果，所述对齐结果为第二时间精度级别。

上述步骤的具体实现方式参见上文实施例，本申请在此不再赘述。

基于上述任意实施例所述的音频文本对齐方法，本申请还提供了如图4所示的音频文本对齐装置400，包括：

提取模块410，用于提取待对齐音频的音频特征；

聚类模块420，用于将待对齐文本进行三音素拆分，并对所述三音素进行聚类；

对齐模块430，用于基于所述音频特征与所述聚类后的三音素，对所述待对齐音频与所述待对齐文本进行三音素对齐。

上述装置中各个模块的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

基于上述任意实施例所述的音频文本对齐方法，本申请还提供了如图5所示的一种电子设备的结构示意图。如图5，在硬件层面，该电子设备包括处理器、内部总线、网络接口、内存以及非易失性存储器，当然还可能包括其他业务所需要的硬件。处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行，以实现上述任意实施例所述的音频文本对齐方法。

本申请还提供了一种计算机存储介质，存储介质存储有计算机程序，计算机程序被处理器执行时可用于执行上述任意实施例所述的音频文本对齐方法。

上述对本申请特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本领域技术人员在考虑说明书及实践这里申请的发明后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未申请的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请的真正范围和精神由下面的权利要求指出。

Claims

1.一种音频文本对齐方法，应用于直播场景，其特征在于，所述方法包括：

提取待对齐音频的音频特征；

将待对齐文本进行三音素拆分，并对所述三音素进行聚类；

将所述音频特征与所述聚类后的三音素输入HMM-GMM模型，得到第一时间精度级别的三音素对齐结果；

基于所述第一时间精度级别的三音素对齐结果，将所述音频特征与所述聚类后的三音素输入神经网络，得到第二时间精度级别的三音素对齐结果；其中，所述第二时间精度级别高于所述第一时间精度级别。

2.根据权利要求1所述的方法，其特征在于，所述三音素对齐之前还包括：

将所述待对齐文本进行单音素拆分；

基于所述音频特征与所述单音素，对所述待对齐音频与所述待对齐文本进行单音素对齐。

3.根据权利要求2所述的方法，其特征在于，所述三音素拆分基于所述单音素拆分的结果进行。

4.根据权利要求1所述的方法，其特征在于，所述得到第二时间精度级别的三音素对齐结果包括：

根据搜索算法获取所述音频特征对应于所述三音素条件概率最大的输出序列，根据所述输出序列进行三音素对齐。

5.根据权利要求1所述的方法，其特征在于，在提取所述音频特征以及进行三音素拆分之前，还包括步骤：

对所述待对齐音频进行降噪处理；

对所述待对齐文本进行文本清理。

6.一种音频文本对齐装置，应用于直播场景，其特征在于，所述装置包括：

提取模块，用于提取待对齐音频的音频特征；

对齐模块，用于将所述音频特征与所述聚类后的三音素输入HMM-GMM模型，得到第一时间精度级别的三音素对齐结果；基于所述第一时间精度级别的三音素对齐结果，将所述音频特征与所述聚类后的三音素输入神经网络，得到第二时间精度级别的三音素对齐结果；其中，所述第二时间精度级别高于所述第一时间精度级别。

7.一种电子设备，应用于直播场景，其特征在于，所述电子设备包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：

提取待对齐音频的音频特征；

将待对齐文本进行三音素拆分，并对所述三音素进行聚类；

8.一种计算机可读存储介质，其特征在于，其上存储有计算机指令，该指令被处理器执行时实现权利要求1-5任一所述的方法。