CN115862603B

CN115862603B - 一种歌曲语音识别方法、***、存储介质和电子设备

Info

Publication number: CN115862603B
Application number: CN202211397956.0A
Authority: CN
Inventors: 周晓桐
Original assignee: Shumei Tianxia Beijing Technology Co ltd; Beijing Nextdata Times Technology Co ltd
Current assignee: Shumei Tianxia Beijing Technology Co ltd; Beijing Nextdata Times Technology Co ltd
Priority date: 2022-11-09
Filing date: 2022-11-09
Publication date: 2023-06-20
Anticipated expiration: 2042-11-09
Also published as: CN115862603A

Abstract

本发明涉及一种歌曲语音识别方法、***、存储介质和电子设备，包括：获取并对每个原始歌曲语音样本中的声音特征数据、文本韵律特征数据和声学韵律特征数据进行融合，得到每个原始歌曲语音样本对应的融合特征数据；基于多个融合特征数据，对用于歌曲语音识别的预设ASR模型进行训练，得到目标歌曲语音识别模型；将待识别歌曲语音数据输入至目标歌曲语音识别模型中进行识别，得到待识别歌曲语音数据对应的目标转译文本。本发明通过将歌曲语音样本中的多个韵律特征与声音特征进行融合，并将融合特征输入至语音识别模型中进行训练，提高了语音识别模型对于歌曲语音识别准确率，能够得到高精度的歌曲语音的转译文本。

Description

一种歌曲语音识别方法、***、存储介质和电子设备

技术领域

本发明涉及语音识别技术领域，尤其涉及一种歌曲语音识别方法、***、存储介质和电子设备。

背景技术

随着互联网和AI技术的发展，自动语音识别技术广泛使用于各种细分领域，尤其是针对直播场景需求强烈，而直播场景又存在大量的歌曲识别需求。由于传统的声学信息特征提取方法对韵律信息保留较少，导致语音识别模型对歌曲的转译较差，造成了对歌曲语音的识别精度不高。

因此，亟需提供一种技术方案解决上述技术问题。

发明内容

为解决上述技术问题，本发明提供了一种歌曲语音识别方法、***、存储介质和电子设备。

本发明的一种歌曲语音识别方法的技术方案如下：

获取并分别对每个包含原始歌曲语音数据和原始文本数据的原始歌曲语音样本中的声音特征数据、文本韵律特征数据和声学韵律特征数据进行融合，得到每个原始歌曲语音样本对应的融合特征数据；

基于多个融合特征数据，对用于歌曲语音识别的预设ASR模型进行训练，得到目标歌曲语音识别模型；

将待识别歌曲语音数据输入至所述目标歌曲语音识别模型中进行识别，得到所述待识别歌曲语音数据对应的目标转译文本。

本发明的一种歌曲语音识别方法的有益效果如下：

本发明的方法通过将歌曲语音样本中的多个韵律特征与声音特征进行融合，并将融合特征输入至语音识别模型中进行训练，提高了语音识别模型对于歌曲语音识别准确率，能够得到高精度的歌曲语音的转译文本。

在上述方案的基础上，本发明的一种歌曲语音识别方法还可以做如下改进。

进一步，获取任一包含原始歌曲语音数据和原始文本数据的原始歌曲语音样本中的声音特征数据、文本韵律特征数据和声学韵律特征数据的步骤，包括：

对所述任一原始歌曲语音样本的原始文本数据进行预处理，得到所述任一原始歌曲语音样本的第一文本数据，并从所述任一原始歌曲语音样本的第一文本数据中，提取所述任一原始歌曲语音样本的文本韵律特征数据；

通过梅尔滤波器对所述任一原始歌曲语音样本的原始歌曲语音数据进行解耦处理，得到并将所述任一原始歌曲语音样本的声音特征数据输入至预设GMM模型，得到所述任一原始歌曲语音样本的声音特征数据中的每一帧声音特征数据所对应的音素；

从所述任一原始歌曲语音样本的每一帧声音特征数据和每一帧声音特征数据对应的音素中，获取所述任一原始歌曲语音样本的声学韵律特征数据。

进一步，对所述任一原始歌曲语音样本的声音特征数据、文本韵律特征数据和声学韵律特征数据进行融合的步骤，包括：

通过注意力机制，将所述任一原始歌曲语音样本的声音特征数据、文本韵律特征数据和声学韵律特征数据进行特征融合，得到所述任一原始歌曲语音样本的融合特征数据。

进一步，所述任一原始歌曲语音样本的文本韵律特征数据包括：所述任一原始歌曲语音样本的声母信息、韵母信息和音调信息；所述任一原始歌曲语音样本的声学韵律特征数据包括：所述任一原始歌曲语音样本的发音时长、发音音速和发音音调。

进一步，所述基于多个融合特征数据，对用于歌曲语音识别的预设ASR模型进行训练，得到目标歌曲语音识别模型的步骤，包括：

将每个融合特征数据分别输入至所述预设ASR模型进行训练，得到每个融合特征数据的损失值；

根据所有的损失值对所述预设ASR模型的参数进行优化，得到优化后的ASR模型；

将所述优化后的ASR模型作为所述预设ASR模型，并返回执行所述将每个融合特征数据分别输入至所述预设ASR模型进行训练的步骤，直至所述优化后的ASR模型满足预设条件时，将所述优化后的ASR模型确定为所述目标歌曲语音识别模型。

本发明的一种歌曲语音识别***的技术方案如下：

包括：处理模块、训练模块和识别模块；

所述处理模块用于：获取并分别对每个包含原始歌曲语音数据和原始文本数据的原始歌曲语音样本中的声音特征数据、文本韵律特征数据和声学韵律特征数据进行融合，得到每个原始歌曲语音样本对应的融合特征数据；

所述训练模块用于：基于多个融合特征数据，对用于歌曲语音识别的预设ASR模型进行训练，得到目标歌曲语音识别模型；

所述识别模块用于：将待识别歌曲语音数据输入至所述目标歌曲语音识别模型中进行识别，得到所述待识别歌曲语音数据对应的目标转译文本。

本发明的一种歌曲语音识别***的有益效果如下：

本发明的***通过将歌曲语音样本中的多个韵律特征与声音特征进行融合，并将融合特征输入至语音识别模型中进行训练，提高了语音识别模型对于歌曲语音识别准确率，能够得到高精度的歌曲语音的转译文本。

在上述方案的基础上，本发明的一种歌曲语音识别***还可以做如下改进。

进一步，所述处理模块具体用于：

获取任一包含原始歌曲语音数据和原始文本数据的原始歌曲语音样本中的声音特征数据、文本韵律特征数据和声学韵律特征数据的步骤，包括：

进一步，所述处理模块具体还用于：

本发明的一种存储介质的技术方案如下：

存储介质中存储有指令，当计算机读取所述指令时，使所述计算机执行如本发明的一种歌曲语音识别方法的步骤。

本发明的一种电子设备的技术方案如下：

包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时，使所述计算机执行如本发明的一种歌曲语音识别方法的步骤。

附图说明

图1为本发明实施例的一种歌曲语音识别方法的流程示意图；

图2为本发明实施例的一种歌曲语音识别***的结构示意图。

具体实施方式

如图1所示，本发明实施例的一种歌曲语音识别方法，包括如下步骤：

S1、获取并分别对每个包含原始歌曲语音数据和原始文本数据的原始歌曲语音样本中的声音特征数据、文本韵律特征数据和声学韵律特征数据进行融合，得到每个原始歌曲语音样本对应的融合特征数据。

其中，①每个原始歌曲语音样本均包括：原始歌曲语音数据和原始文本数据。②原始歌曲语音数据为：包含FBANK声音特征的声音信号。③原始文本数据为：原始歌曲语音数据对应的标注文本，即根据从原始歌曲语音数据(音频)中所听到的内容进行标注，所得到的文本。④声音特征数据为：从原始歌曲语音数据(声音信号)中提取的声音特征数据(FBANK声音特征)。⑤文本韵律特征数据为：标注文本中的韵律特征，主要包括：声母信息、韵母信息和音调信息等。⑥声学韵律特征数据主要涉及情绪韵律，情绪韵律主要包括：韵律发音单元的设计、韵律单元发音时长、发音音速、发音音调等属性。⑦融合特征数据包括：基于原始歌曲语音样本中的多个特征进行融合后所得到的特征数据，其用于对语音识别模型进行训练，以提升语音识别模型对歌曲语音进行识别所得到的转译文本的精度。

S2、基于多个融合特征数据，对用于歌曲语音识别的预设ASR模型进行训练，得到目标歌曲语音识别模型。

其中，①预设ASR模型为：自动语音识别模型，是一种将人的语音转换为可编辑文本的模型。②目标歌曲语音识别模型为：经过训练后的ASR模型，其能够用于对待识别歌曲语音数据进行精准识别，得到高精度的转译文本。

S3、将待识别歌曲语音数据输入至所述目标歌曲语音识别模型中进行识别，得到所述待识别歌曲语音数据对应的目标转译文本。

其中，待识别歌曲语音数据为：任一歌曲语音数据，其为Fbank类型的语音数据。目标转译文本为：经过目标歌曲语音识别模型输出的待识别歌曲语音数据对应的转译文本。

较优地，获取任一包含原始歌曲语音数据和原始文本数据的原始歌曲语音样本中的声音特征数据、文本韵律特征数据和声学韵律特征数据的步骤，包括：

对所述任一原始歌曲语音样本的原始文本数据进行预处理，得到所述任一原始歌曲语音样本的第一文本数据，并从所述任一原始歌曲语音样本的第一文本数据中，提取所述任一原始歌曲语音样本的文本韵律特征数据。

其中，①第一文本数据为：原始文本数据经过文本预处理后所得到的文本数据。②文本预处理的过程为：将原始文本数据中的标点进行删除，并通过本文映射进行格式转化，得到纯文本数据，此纯文本数据即为本实施例中的第一文本数据。③根据文本韵律信息规则库和第一文本数据，得到每个原始歌曲语音样本的文本韵律特征数据。文本韵律信息规则库设置了提取每个文本数据中的每个文字的声母信息、韵母信息和声调信息，上述信息的提取通过相应的脚本处理即可，文本韵律特征数据的提取过程在此不过多赘述。

需要说明的是，文本韵律信息规则库的规则设置下表1所示。例如，当第一文本数据为“你好”时，基于文本韵律信息规则库得到的文本韵律特征数据(包含声母信息、韵母信息和声调信息)为：“n、i、2、h、ao、3”。其中，“n”表示“你”的声母信息，“i”表示“你”的韵母信息，“2”表示“你”的声调信息。此外，上述仅列举了关于文本韵律信息规则库的一种规则，不限于对规则中的信息进行增加或删除。

表1：

文本韵律信息类型

声母信息

韵母信息

声调信息

通过梅尔滤波器对所述任一原始歌曲语音样本的原始歌曲语音数据进行解耦处理，得到并将所述任一原始歌曲语音样本的声音特征数据输入至预设GMM模型，得到所述任一原始歌曲语音样本的声音特征数据中的每一帧声音特征数据所对应的音素。

其中，①梅尔滤波器用于将声音特征从原始歌曲语音数据(声音信号)中进行解耦，从而得到声音信号中的声音特征。②GMM模型为：高斯混合模型，其用于得到每一帧声音特征对应的音素；本实施例中采用训练好的高斯混合模型。

需要说明的是，训练GMM模型的过程以及通过GMM模型提取每一帧声音特征对应的音素的过程为现有技术，在此不过多赘述。

具体地，基于声学韵律规则库，并从所述任一原始歌曲语音样本的每一帧声音特征数据和每一帧声音特征数据对应的音素中，获取所述每个原始歌曲语音样本的声学韵律特征数据。

需要说明的是，本实施例中的声学韵律规则库的规则设置下表2所示。例如，GMM模型输出的每一帧声音特征数据对应的音素为：第一帧对齐音素：n，第二帧对齐音素：n，第三帧对齐音素：n，第四帧对齐音素：i3，第五帧对齐音素：i3；每一帧声音特征数据为：第一帧声音特征数据、第二帧声音特征数据、第三帧声音特征数据、第四帧声音特征数据；根据声学韵律规则库所得到的声学韵律特征数据为：前一韵律单元发音时长：3帧，当前韵律单元发音时长：2帧，后一韵律单元发音时长：4帧。

表2：

在表2中，颗粒度是指发音单元的标示方法，一帧数据颗粒度粗到细可以对应表示为字、音素、三音素等。表2中的A、B、C、D：可以是实际发音时长(音调、音速)的帧数；也可以按帧数划分区间为A-D，按实际发音帧数找到对应所属区间。

此外，输入音素对齐结果与声音特征，根据不同的规则就可以为声音特征抽取出所需不同的韵律信息。上述仅以声学韵律规则库中的发音时长为例说明声学韵律特征数据，并不限于其他声学韵律特征，如发音音调、发音音速等，在此不过多赘述。

较优地，对所述任一原始歌曲语音样本的声音特征数据、文本韵律特征数据和声学韵律特征数据进行融合的步骤，包括：

需要说明的是，通过注意力机制对多个特征进行特征融合的过程为现有技术，在此不过多赘述。

较优地，步骤S2包括：

S21、将每个融合特征数据分别输入至所述预设ASR模型进行训练，得到每个融合特征数据的损失值。

具体地，将每个融合特征数据输入至预设ASR模型，得到融合特征数据对应的预测值，并将每个融合特征数据对应的预测值与真实值进行比对，计算每个融合特征数据的损失值。

S22、根据所有的损失值对所述预设ASR模型的参数进行优化，得到优化后的ASR模型。

其中，基于损失值(损失函数)对模型参数进行优化的过程为现有技术，在此不过多赘述。

S23、将所述优化后的ASR模型作为所述预设ASR模型，并返回执行所述将每个融合特征数据分别输入至所述预设ASR模型进行训练的步骤，直至所述优化后的ASR模型满足预设条件时，将所述优化后的ASR模型确定为所述目标歌曲语音识别模型。

其中，预设条件为：模型达到最大迭代训练次数或损失函数收敛等，在此不设限制。

本实施例的技术方案通过将歌曲语音样本中的多个韵律特征与声音特征进行融合，并将融合特征输入至语音识别模型中进行训练，提高了语音识别模型对于歌曲语音识别准确率，能够得到高精度的歌曲语音的转译文本。

如图2所示，本发明实施例的一种歌曲语音识别***200，包括：处理模块210、训练模块220和识别模块230；

所述处理模块210用于：获取并分别对每个包含原始歌曲语音数据和原始文本数据的原始歌曲语音样本中的声音特征数据、文本韵律特征数据和声学韵律特征数据进行融合，得到每个原始歌曲语音样本对应的融合特征数据；

所述训练模块220用于：基于多个融合特征数据，对用于歌曲语音识别的预设ASR模型进行训练，得到目标歌曲语音识别模型；

所述识别模块230用于：将待识别歌曲语音数据输入至所述目标歌曲语音识别模型中进行识别，得到所述待识别歌曲语音数据对应的目标转译文本。

较优地，所述处理模块210具体用于：

较优地，所述处理模块210具体还用于：

上述关于本实施例的一种歌曲语音识别***200中的各参数和各个模块实现相应功能的步骤，可参考上文中关于一种歌曲语音识别方法的实施例中的各参数和步骤，在此不做赘述。

本发明实施例提供的一种存储介质，包括：存储介质中存储有指令，当计算机读取所述指令时，使所述计算机执行如一种歌曲语音识别方法的步骤，具体可参考上文中一种歌曲语音识别方法的实施例中的各参数和步骤，在此不做赘述。

计算机存储介质例如：优盘、移动硬盘等。

本发明实施例提供的一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时，使所述计算机执行如一种歌曲语音识别方法的步骤，具体可参考上文中的一种歌曲语音识别方法的实施例中的各参数和步骤，在此不做赘述。

所属技术领域的技术人员知道，本发明可以实现为方法、***、存储介质和电子设备。

因此，本发明可以具体实现为以下形式，即：可以是完全的硬件、也可以是完全的软件(包括固件、驻留软件、微代码等)，还可以是硬件和软件结合的形式，本文一般称为“电路”、“模块”或“***”。此外，在一些实施例中，本发明还可以实现为在一个或多个计算机可读介质中的计算机程序产品的形式，该计算机可读介质中包含计算机可读的程序代码。可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)，只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行***、装置或者器件使用或者与其结合使用。尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种歌曲语音识别方法，其特征在于，包括：

将待识别歌曲语音数据输入至所述目标歌曲语音识别模型中进行识别，得到所述待识别歌曲语音数据对应的目标转译文本；

从所述任一原始歌曲语音样本的每一帧声音特征数据和每一帧声音特征数据对应的音素中，获取所述任一原始歌曲语音样本的声学韵律特征数据；

所述任一原始歌曲语音样本的文本韵律特征数据包括：所述任一原始歌曲语音样本的声母信息、韵母信息和音调信息；所述任一原始歌曲语音样本的声学韵律特征数据包括：所述任一原始歌曲语音样本的发音时长、发音音速和发音音调。

2.根据权利要求1所述的歌曲语音识别方法，其特征在于，对所述任一原始歌曲语音样本的声音特征数据、文本韵律特征数据和声学韵律特征数据进行融合的步骤，包括：

3.根据权利要求1所述的歌曲语音识别方法，其特征在于，所述基于多个融合特征数据，对用于歌曲语音识别的预设ASR模型进行训练，得到目标歌曲语音识别模型的步骤，包括：

4.一种歌曲语音识别***，其特征在于，包括：处理模块、训练模块和识别模块；

所述识别模块用于：将待识别歌曲语音数据输入至所述目标歌曲语音识别模型中进行识别，得到所述待识别歌曲语音数据对应的目标转译文本；

所述处理模块具体用于：

5.根据权利要求4所述的歌曲语音识别***，其特征在于，所述处理模块具体还用于：

6.一种存储介质，其特征在于，所述存储介质中存储有指令，当计算机读取所述指令时，使所述计算机执行如权利要求1至3中任一项所述的歌曲语音识别方法。

7.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时，使所述计算机执行如权利要求1至3中任一项所述的歌曲语音识别方法。