CN117672184A

CN117672184A - 一种数据处理方法、装置、设备、存储介质及程序产品

Info

Publication number: CN117672184A
Application number: CN202211027484.XA
Authority: CN
Inventors: 谭维
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2022-08-25
Filing date: 2022-08-25
Publication date: 2024-03-08

Abstract

本申请实施例公开了一种数据处理方法、装置、设备、存储介质及程序产品，可应用于人工智能场景，该方法包括：获取待识别音乐中的音乐干声数据，分别提取音乐干声数据中的音乐节奏数据以及音乐音频帧数据；基于音乐节奏数据以及音素状态参数，得到与N个音素相关联的音素起止时间集；基于音乐音频帧数据对应的音乐声学特征以及音素起止时间集，确定与N个音素相关联的音乐音素序列的音乐声学特征概率；基于针对待识别音乐的词典数据，获取音乐音素序列对应的M个候选文本，从M个候选文本中确定待识别音乐对应的音乐文本数据。采用本申请实施例，能够提升音乐识别的准确度。

Description

一种数据处理方法、装置、设备、存储介质及程序产品

技术领域

本申请涉及人工智能技术领域，尤其涉及一种数据处理方法、装置、设备、存储介质及程序产品。

背景技术

在音频识别场景中，现有音频识别方法往往通过音频数据的帧数据进行音频识别，以预测该音频数据对应的文本数据。然而在对歌曲、戏曲等待识别音乐进行音频识别的场景中，由于待识别音乐中往往存在背景音，且歌唱方式不同于日常说话方式，因此，采用现有音频识别方式对待识别音乐进行识别后所得到的文本数据可能存在误差，以至于降低了对音频识别的准确度。

发明内容

本申请实施例提供一种数据处理方法、装置、设备、存储介质及程序产品，能够提高音乐识别的准确度。

本申请实施例一方面提供了一种数据处理方法，包括：

获取待识别音乐中的音乐干声数据，分别提取音乐干声数据中的音乐节奏数据以及音乐音频帧数据；

基于音乐节奏数据以及音素状态参数，对音乐音频帧数据进行状态对齐处理，得到与N个音素相关联的音素起止时间集；N为正整数；

基于音乐音频帧数据对应的音乐声学特征以及音素起止时间集，确定与N个音素相关联的音乐音素序列的音乐声学特征概率；

基于针对待识别音乐的词典数据，获取音乐音素序列对应的M个候选文本，基于音乐声学特征概率以及M个候选文本分别对应的文本序列概率，从M个候选文本中确定待识别音乐对应的音乐文本数据；M为正整数。

本申请实施例一方面还提供了一种数据处理方法，包括：

在获取到包括样本音频数据和样本文本数据的样本数据时，从样本音频数据中的样本干声数据中，分别提取样本节奏数据、样本音频帧数据以及样本基音数据；样本音频数据携带样本标签；样本标签用于表征样本音频数据对应的实际文本数据；

获取初始音频识别模型中的词典数据，基于实际文本数据、词典数据以及样本基音数据进行音素转化处理，得到样本音素串；

基于样本节奏数据以及音素状态参数，对样本音频帧数据进行状态对齐处理，得到与样本音素串相关联的样本起止时间集；

基于样本音频帧数据对应的样本声学特征以及样本起止时间集，确定与样本音素串相关联的样本音素序列的样本声学特征概率；

基于样本文本数据、词典数据以及样本音素序列的样本声学特征概率，获取样本音素序列对应的预测文本数据；

基于样本文本数据、实际文本数据以及预测文本数据，对初始音频识别模型进行训练，得到音乐音频识别模型；音乐音频识别模型用于对待识别音乐的音乐文本数据进行预测。

本申请实施例一方面提供了一种数据处理装置，包括：

干声数据获取模块，用于获取待识别音乐中的音乐干声数据，分别提取音乐干声数据中的音乐节奏数据以及音乐音频帧数据；

音乐状态对齐模块，用于基于音乐节奏数据以及音素状态参数，对音乐音频帧数据进行状态对齐处理，得到与N个音素相关联的音素起止时间集；N为正整数；

特征概率确定模块，用于基于音乐音频帧数据对应的音乐声学特征以及音素起止时间集，确定与N个音素相关联的音乐音素序列的音乐声学特征概率；

文本数据确定模块，用于基于针对待识别音乐的词典数据，获取音乐音素序列对应的M个候选文本，基于音乐声学特征概率以及M个候选文本分别对应的文本序列概率，从M个候选文本中确定待识别音乐对应的音乐文本数据；M为正整数。

其中，音乐节奏数据是由P个音高所组成的；P为小于或者等于N的正整数；N为P个音高对应的音素总数量；

音乐状态对齐模块包括：

初始对齐单元，用于基于P个音高以及音素状态参数，对音乐音频帧数据进行初始对齐处理，得到第一对齐数据；第一对齐数据用于指示N个音素中的每个音素对应的第一起止时间；音乐音频帧数据包括音频帧V_i；i为大于或者等于Q的正整数；Q为音乐音频帧数据对应的音频帧数量；

综合概率获取单元，用于基于第一对齐数据，获取音频帧V_i对应的状态综合概率；状态综合概率是由音频帧V_i对应的状态转移概率以及音频帧V_i对应的状态发射概率所确定的；

调整对齐单元，用于在获取到每个音频帧对应的状态综合概率时，对第一对齐数据进行调整对齐处理，得到第二对齐数据；

时间集获取单元，用于从第二对齐数据中，获取N个音素中的每个音素对应的第二起止时间，基于N个第二起止时间，得到与N个音素相关联的音素起止时间集。

其中，初始对齐单元包括：

帧数确定子单元，用于从P个音高中获取音高Y_j，确定音高Y_j在音乐音频帧数据中的音高起止帧数；j为小于或者等于P的正整数；

时间确定子单元，用于基于音素状态参数以及音高Y_j对应的音素数量，从音高起止帧数中确定音高Y_j中的每个音素对应的第一起止时间；

对齐数据确定子单元，用于基于与P个音高相关联的N个音素中的每个音素对应的第一起止时间，确定音乐音频帧对应的第一对齐数据。

其中，音乐干声数据是基于音乐音频识别模型中的业务声学模型所确定的；业务声学模型包括第一子模型和第二子模型；

特征概率确定模型，包括：

特征提取单元，用于基于音素起止时间集，对音乐音频帧数据进行特征提取处理，得到音乐声学特征；

音素识别单元，用于将音乐声学特征输入至第一子模型，由第一子模型对音乐声学特征进行音素识别处理，得到初始音素序列对应的序列概率；

转换概率确定单元，用于基于音素起止时间集以及第二子模型，确定初始音素序列对应的音素转换概率；

音素转换单元，用于基于音素转换概率对初始音素序列进行音素转换处理，得到与N个音素相关联的音乐音素序列；

特征确定单元，用于基于音乐音素序列的音素序列概率以及音素转换概率，确定音乐音素序列的音乐声学特征概率。

其中，文本数据确定模块，包括：

文本获取单元，用于在从音乐音频识别模型中获取针对待识别音乐的词典数据时，基于词典数据，获取音乐音素序列对应的M个候选文本；

文本输入单元，用于将M个候选文本输入至音乐音频识别模型中的业务语言模型，由业务语言模型输出M个候选文本分别对应的文本序列概率；

匹配概率获取单元，用于基于音乐声学特征概率以及M个候选文本分别对应的文本序列概率，得到M个候选文本分别对应的文本匹配概率；

文本确定单元，用于从M个文本匹配概率中获取最高文本匹配概率，将最高文本匹配概率对应的候选文本作为待识别音乐对应的音乐文本数据。

本申请实施例一方面提供了一种数据处理装置，包括：

样本音频获取模块，用于在获取到包括样本音频数据和样本文本数据的样本数据时，从样本音频数据中的样本干声数据中，分别提取样本节奏数据、样本音频帧数据以及样本基音数据；样本音频数据携带样本标签；样本标签用于表征样本音频数据对应的实际文本数据；

音素串获取模块，用于获取初始音频识别模型中的词典数据，基于实际文本数据、词典数据以及样本基音数据进行音素转化处理，得到样本音素串；

样本状态对齐模块，用于基于样本节奏数据以及音素状态参数，对样本音频帧数据进行状态对齐处理，得到与样本音素串相关联的样本起止时间集；

样本概率确定模块，用于基于样本音频帧数据对应的样本声学特征以及样本起止时间集，确定与样本音素串相关联的样本音素序列的样本声学特征概率；

预测文本获取模块，用于基于样本文本数据、词典数据以及样本音素序列的样本声学特征概率，获取样本音素序列对应的预测文本数据；

模型训练模块，用于基于样本文本数据、实际文本数据以及预测文本数据，对初始音频识别模型进行训练，得到音乐音频识别模型；音乐音频识别模型用于对待识别音乐的音乐文本数据进行预测。

其中，音素串获取模块，包括：

音素串确定单元，用于获取初始音频识别模型中的词典数据，基于词典数据，对实际文本数据进行音素转化处理，确定样本基音数据对应的初始音素串；初始音素串携带第一音调；

参数确定单元，用于获取与样本音频数据的音频类型相匹配的基音变更规则，基于初始音素串所属的基音频率区间，在基音变更规则中确定初始音素串对应的音调变更参数；

音调变更单元，用于基于音调变更参数，将第一音调变更为第二音调，将具有第二音调的初始音素串确定为样本音素串。

其中，样本文本数据包括原始文本数据和歌词文本数据；

模型训练模型，包括：

语言模型获取单元，用于基于原始文本数据和歌词文本数据，确定初始音频识别模型中的初始语言模型的第一模型损失，基于第一模型损失对初始语言模型进行训练，得到业务语言模型；

声学模型获取单元，用于基于实际文本数据以及预测文本数据，确定初始音频识别模型中的初始声学模型的第二模型损失，基于第二模型损失对初始声学模型的进行训练，得到业务声学模型；

音乐模型确定单元，用于将包括业务语言模型和业务声学模型的初始音频识别模型作为音乐音频识别模型。

本申请一方面提供了一种计算机设备，包括：处理器、存储器、网络接口；

上述处理器与上述存储器、上述网络接口相连，其中，上述网络接口用于提供数据通信功能，上述存储器用于存储计算机程序，上述处理器用于调用上述计算机程序，以使得计算机设备执行本申请实施例中的方法。

本申请实施例一方面提供了一种计算机可读存储介质，上述计算机可读存储介质中存储有计算机程序，上述计算机程序适于由处理器加载并执行本申请实施例中的方法。

本申请实施例一方面提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中；计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行本申请实施例中的方法。

本申请实施例中，具有音乐识别功能的计算机设备在获取到待识别音乐时，可以从待识别音乐的音乐干声数据中，提取出用于进行状态对齐处理的音乐节奏数据以及音乐音频帧数据，以至于得到更加精准的音素起止时间集，进而在后续根据该音素起止时间集以及音乐音频帧数据对应的音乐声学特征，可以得到更加准确的音乐音素序列所对应的音乐声学特征概率，进一步地，在后续获取音乐音素序列对应的M个候选文本时，M为正整数，通过音乐声学特征概率与M个候选文本对应的文本序列概率进行音频识别时，能够提升音频识别的准确度。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种***架构示意图；

图2是本申请实施例提供的一种用于进行音乐识别的场景示意图；

图3是本申请实施例提供的一种数据处理方法的流程示意图；

图4是本申请实施例提供的一种用于进行状态对齐处理的场景示意图；

图5是本申请实施例提供的一种数据处理方法的流程示意图；

图6是本申请实施例提供的一种用于进行模型训练的场景示意图；

图7是本申请实施例提供的一种数据处理装置的结构示意图；

图8是本申请实施例提供的一种数据处理装置的结构示意图；

图9是本申请实施例提供的一种计算机设备的结构示意图；

图10是本申请实施例提供的一种数据处理***的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

其中，本申请实施例提供了一种基于音乐音频识别模型进行音乐识别的方法，该方法涉及人工智能领域。其中，人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术(语音技术)、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。

其中，语音技术(Speech Technology)的关键技术有自动语音识别技术和语音合成技术以及声纹识别技术。让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音成为未来最被看好的人机交互方式之一。

其中，机器学习(Machine Learning，ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络(例如，已经训练完成的音乐音频识别模型)、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

请参见图1，图1是本申请实施例提供的一种***架构示意图。如图1所示，该***可以包括服务器10F以及终端集群，终端集群可以包括一个或者多个终端设备，本申请不对终端设备的数量进行限制。如图1所示，具体可以包括：终端设备100a、终端设备100b、终端设备100c、…、终端设备100n，如图1所示，终端设备100a、终端设备100b、终端设备100c、…、终端设备100n可以分别与上述服务器10F进行网络连接，以便于每个终端设备可以通过该网络连接与服务器10F进行数据交互。其中，这里的网络连接不限定连接方式，可以通过有线通信方式进行直接或间接地连接，也可以通过无线通信方式进行直接或间接地连接，还可以通过其他方式，本申请在此不做限制。

其中，该终端集群中的每个终端设备均可以包括：智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、车载终端、智能电视等具有音乐识别功能的智能终端。应当理解，如图1所示的终端集群中的每个终端设备均可以安装有应用客户端，当该应用客户端运行于各终端设备中时，可以分别与上述图1所示的服务器10F之间进行数据交互。其中，该应用客户端可以包括社交客户端、多媒体客户端(例如，音乐客户端)、娱乐客户端(例如，游戏客户端)、教育客户端、直播客户端等具有音乐识别功能的应用客户端。其中，该应用客户端可以为独立的客户端，也可以为集成在某客户端(例如，社交客户端、教育客户端以及多媒体客户端等)中的嵌入式子客户端，在此不做限定。其中，终端集群之间可以存在通信连接，例如终端设备100a与终端设备100b之间存在通信连接(进行数据传输与交互)，终端设备100a与终端设备100c之间存在通信连接(进行数据传输与交互)。

如图1所示，本申请实施例中的服务器10F可以为该应用客户端对应的服务器，该服务器10F可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式***，还可以是提供云计算服务的云服务器。

为便于理解，本申请实施例可以在图1所示的多个终端设备中选择一个终端设备作为用于音乐识别的终端设备。例如，本申请实施例可以选择图1所示的终端设备100a作为用于进行音乐识别处理的对象终端设备，该对象终端设备中可以集成有应用客户端。此时，该对象终端设备可以通过该应用客户端与服务器10F之间实现数据交互。其中，这里的应用客户端可以运行有已经训练完成的音乐音频识别模型，该音乐音频识别模型是一种用于对待识别音乐的音乐文本数据进行预测的神经网络模型。

应当理解，本申请实施例中具有音乐识别功能的计算机设备(例如，图1所示的服务器10F或对象终端设备)所获取的待识别音乐可以为当前需要识别的音乐，比如，若业务对象(即用户)在对象终端设备上访问的应用客户端为视频客户端，则该待识别音乐可以为该视频客户端中的正在播放的多媒体数据(例如，某音乐节目上的歌曲数据)中所截取的音乐音频数据。又比如，若业务对象在对象终端设备上访问的应用客户端为音乐客户端，则该待识别音乐可以为对象终端设备所采集到的另一设备(例如，电视机)所播放的音乐音频数据。再比如，该待识别音乐还可以为对象终端设备直接采集的业务对象所演唱的音乐音频数据。当然，该待识别音乐还可以为其他场景下的音频数据，这里将不对该待识别音乐进行一一举例。

该计算机设备可以从待识别音乐中的音乐干声数据中，提取音乐节奏数据以及音乐音频帧数据，以便于后续得到更加精准的音乐文本数据，其中，这里的音乐干声数据可以为计算机设备针对待识别音乐进行音源分离处理，将伴奏等背景音乐从待识别音乐中剥离后所得到的纯净人声数据。音乐节奏数据可以是该计算机设备通过在音乐领域的工业标准电子通信协议，从音乐干声数据中提取到的由P个音高所组成的数据，P为正整数，其中，本申请实施例中的一个音高可以对应一个字符，例如，一个音高对应一个字或一个单词，该音乐节奏数据可以表征电子乐器等演奏设备定义的各种音符或弹奏码，例如，乐器数字接口(MIDI，Musical Instrument Digital Interface)数据。简而言之，在时域上进行理解，音乐节奏数据可以包括音乐的节拍数据。其中，音乐音频帧数据可以为针对音乐干声数据进行分帧处理后得到的数据。

为便于后续理解和说明，请一并参见图2，图2是本申请实施例提供的一种用于进行音乐识别的场景示意图。如图2所示，本申请实施例中的计算机设备可以针对待识别音乐(例如，图2所示的待识别音乐2S₁)进行识别，该计算机设备可以为上述图1所对应实施例中的服务器10F，也可以为上述终端集群中的任意一个终端设备，例如，终端设备100a，这里将不对其进行限定。

其中，该计算机设备上运行的音乐音频识别模型(例如，图2所示的音频识别模型2000A)可以包括业务声学模型(例如，图2所示的声学模型200B)与业务语言模型(例如，图2所示的语言模型200A)，其中，声学模型200B是由第一子模型20B₁(例如，帧到单音素的分类模型)和第二子模型20B₂(例如，音素转换概率模型)构成的，该声学模型200B可以用于预测某一音素序列(例如，图2所示的音素序列2S₆)的音乐声学特征概率。语言模型200A用于获取候选文本集中的每个候选文本分别对应的文本序列概率。其中，候选文本集可以包括M个候选文本(M为正整数)，图2中的候选文本的数量可以以两个为例，即候选文本集具体可以包括候选文本2S₇₁与候选文本2S₇₂。

其中，计算机设备可以在获取到待识别音乐2S₁时，可以对待识别音乐2S₁进行音源分离处理，将背景音乐从待识别音乐2S₁中剥离，得到干声数据2S₂(即音乐干声数据)，进而可以通过对干声数据2S₂进行提取处理，计算机设备可以得到节奏数据2S₃(即音乐节奏数据)与音频帧数据2S₄(即音乐音频帧数据)。其中，提取过程可以通过现有神经网络模型进行实现，这里不再过多赘述。

应当理解，该计算机设备可以获取与待识别音乐2S₁相关联的音素状态参数。其中，这里的音素状态参数用于形容每个音素所对应的状态数量，比如，若音素状态参数为5，则意味着一个音素可以对应五个状态，具体可以包括第一状态(例如，“创建状态”)、第二状态(例如，“起始音状态”)、第三状态(例如，“持续音状态”)、第四状态(例如，“结束音状态”)与第五状态(例如，“终止状态”)。可选的，若音素状态参数为3，则意味着一个音素可以对应三个状态，具体可以包括第一状态(例如，“起始音状态”)、第二状态(例如，“持续音状态”)与第三状态(例如，“结束音状态”)。其中，该音素状态参数可以根据实际业务需求所动态选择，这里将不对其进行限定。

进一步地，计算机设备可以基于节奏数据2S₃以及音素状态参数，对音频帧数据2S₄进行状态对齐处理，从而得到与N个音素(phone)相关联的音素起止时间集2S₅，N为正整数。其中，音素是根据语音的自然属性划分出来的最小语音单位。例如，若本申请中的音素数量以3个为例，则音素起止时间集2S₅可以包括音素1的起止时间、音素2的起止时间以及音素3的起止时间。其中，音素1的起止时间是指音频帧数据2S₄中的从第1帧到第3帧的时间。

然后，计算机设备可以对音频帧数据2S₄进行特征提取处理，以得到声学特征2X₁，进而可以将声学特征2X₁以及音素起止时间集2S₄输入至声学模型200B，由声学模型200B确定与N个音素相关联的音乐音素序列的声学特征概率2G₁₁(即音乐声学特征概率)。例如，该计算机设备获取到的由音素1、音素2以及音素3所构成的音素序列2S₆可以为“[H][AO][VN]”。

与此同时，计算机设备可以基于针对待识别音乐2S₁的词典数据，获取音素序列2S₆对应的候选文本集。例如，图2中候选文本集中的候选文本2S₇₁可以为“好晕”，候选文本2S₇₂可以为“好运”。

计算机设备可以基于声学特征概率2G₁₁、候选文本2S₇₁对应的文本序列概率2G₂₁与候选文本2S₇₂对应的文本序列概率2G₂₂，从候选文本2S₇₁与候选文本2S₇₂中确定待识别音乐2S₁对应的音乐文本数据。例如，该计算机设备可以从基于声学特征概率2G₁₁以及候选文本2S₇₁对应的文本序列概率2G₂₁，确定该候选文本2S₇₁的文本匹配概率。同理，该计算机设备还可以基于声学特征概率2G₁₁以及候选文本2S₇₂对应的文本序列概率2G₂₂，确定该候选文本2S₇₂的文本匹配概率，进而可以从这两个文本匹配概率中选出具有最高文本匹配概率的候选文本(例如，候选文本2S₇₁)作为待识别音乐2S₁对应的音乐文本数据。

本申请实施例中，计算机设备通过包括声学模型200B与语言模型200A的音频识别模型2000A对待识别音乐2S₁进行识别，可以获取音素起止时间集2S₅，进而计算机设备可以通过声学模型200B更加精准的预测的音素序列2S₆。进一步地，计算机设备通过音素序列2S₆可以获取更加贴合待识别音乐2S₁的声学特征概率2G₁₁，此外，计算机设备可以基于音素序列2S₆获取与待识别音乐2S₁关联性更强的候选文本2S₇₁，进而通过语言模型200A获取每个候选文本分别对应的文本序列概率。总而言之，计算机设备可以通过音频识别模型2000A，更加精准地对待识别音乐进行识别处理。

进一步地，请参见图3，图3是本申请实施例提供的一种数据处理方法的流程示意图。如图3所示，该方法可以由计算机设备执行，该计算机设备可以为上述图1所示的终端集群中的任意一个终端设备，例如，终端设备100a，也可以为上述图1所示的服务器10F，在此不做限定。为便于理解，本申请实施例以该方法由计算机设备执行为例进行说明，该数据处理方法至少可以包括以下步骤S101-步骤S104：

步骤S101，获取待识别音乐中的音乐干声数据，分别提取音乐干声数据中的音乐节奏数据以及音乐音频帧数据。

具体的，计算机设备在获取到待识别音乐时，可以对待识别音乐进行音源分离处理，以从音乐音频识别模型中剥离伴奏等背景音乐，进而可以将剥离后的干净的纯人声数据或虚拟人声数据作为音乐干声数据。进一步地，计算机设备从音乐干声数据中，分别提取出音乐干声数据的音乐节奏数据，以及音乐音频帧数据。

其中，待识别音乐的语言种类数量可以为多个，具体可以包括第一语种(例如，中文)、第二语种(例如，英文)、第三语种(例如，法文)与其他语种等，此外，该待识别音乐的业务类型可以包括歌曲、戏曲、评书以及音乐剧等。

步骤S102，基于音乐节奏数据以及音素状态参数，对音乐音频帧数据进行状态对齐处理，得到与N个音素相关联的音素起止时间集。

其中，N为正整数。音乐节奏数据是由P个音高所组成的，P为小于或者等于N的正整数，N为P个音高对应的音素总数量。具体的，计算机设备可以通过P个音高以及音素状态参数，对音乐音频帧数据进行初始对齐处理，进而得到第一对齐数据。第一对齐数据可以用于指示N个音素中的每个音素对应的第一起止时间。其中，音乐音频帧数据可以包括音频帧V_i，i为大于或者等于Q的正整数，Q为音乐音频帧数据对应的音频帧数量。计算机设备可以通过第一对齐数据，获取音频帧V_i对应的状态综合概率。其中，状态综合概率可以是由音频帧V_i对应的状态转移概率以及音频帧V_i对应的状态发射概率所共同确定的。然后，计算机设备在获取到每个音频帧对应的状态综合概率时，可以对第一对齐数据进行调整对齐处理，得到第二对齐数据。此外，计算机设备还可以从第二对齐数据中，获取N个音素中的每个音素对应的第二起止时间，基于N个第二起止时间，得到与N个音素相关联的音素起止时间集。

其中，计算机设备可以从P个音高中获取音高Y_j，并确定音高Y_j在音乐音频帧数据中的音高起止帧数，j为小于或者等于P的正整数。然后，计算机设备还可以基于音素状态参数以及音高Y_j对应的音素数量，从音高起止帧数中确定音高Y_j中的每个音素对应的第一起止时间。再然后，计算机设备还可以基于与P个音高相关联的N个音素中的每个音素对应的第一起止时间，确定音乐音频帧对应的第一对齐数据。

进一步地，请一并参见图4，图4是本申请实施例提供的一种用于进行状态对齐处理的场景示意图。如图4所示，音频帧数据400R为计算机设备对待识别音乐中的音乐干声数据进行提取处理得到的音乐音频帧数据。这里的计算机设备为上述图1所示的终端集群中的任意一个终端设备，例如，终端设备100a，也可以为上述图1所示的服务器10F，在此不做限定。

如图4所示，该音频帧数据400R的音频帧数量可以以15个为例，具体可以包括音频帧V₁、音频帧V₂、音频帧V₃、音频帧V₄、音频帧V₅、音频帧V₆、音频帧V₇、音频帧V₈、音频帧V₉、音频帧V₁₀、音频帧V₁₁、音频帧V₁₂、音频帧V₁₃、音频帧V₁₄与音频帧V₁₅。可以理解的是，计算机设备从音乐干声数据中所提取到的音乐节奏数据是由2个音高(例如，音高Y₁和音高Y₂)组成的，且该计算机设备获取到的音素状态参数可以以3为例，即这意味着一个音素对应三个状态，具体可以包括第一状态，第二状态以及第三状态。

该计算机设备可以基于音乐节奏数据以及音素状态参数，对音频帧数据400R进行状态对齐处理，以得到更加精准音素起止时间集。这里的状态对齐处理可以包括初始对齐处理以及调整对齐处理。其中，初始对齐处理方式可以包括第一对齐方式(例如，基于直接均分进行初始对齐处理的方式)和第二对齐方式(例如，基于音高进行初始对齐处理的方式)。

其中，对于第一对齐方式而言，由于音频帧数据400R中包括15个音频帧，且音素总数量以音素1、音素2以及音素3这3个音素为例，因此，该计算机设备在使用直接均分的方式进行初始对齐处理时，可以按照音频帧的帧顺序，为每个音素分别划分5个音频帧。例如，该计算机设备可以将音素1的起止时间划分为该音视频帧400R中从音频帧V₁到音频帧V₅的时间，将音素2的起止时间划分为该音视频帧400R中从音频帧V₆到音频帧V₁₀的时间，将音素3的起止时间划分为该音视频帧400R中从音频帧V₁₁到音频帧V₁₅的时间。进一步地，该计算机设备可以对按照音素状态参数(例如，3)，对每个音素的起止时间再次进行粗略均分处理。比如，对于音素1而言，该计算机设备可以将音素1的第一状态(例如，状态W₁₁)分配至音频帧V₁和音频帧V₂，将音素1的第二状态(例如，状态W₁₂)分配至音频帧V₃和音频帧V₄，将音素1的第三状态(例如，状态W₁₃)分配至音频帧V₅。其中，在本申请实施例中，某个音素的状态可以由状态W_ef下标所表示，其中，e是指表示某一音素的音素序号(例如，音素1的音素序号为1)，f可以表示该音素的状态。

可选的，为了减少对齐数据能够更快收敛，减少迭代对齐的计算量，该计算机设备还可以采用第二对齐方式进行初始对齐处理。其中，由于在音乐的谱写过程中，一个音高通常对应着一个字符，获取音高的数量即可得到待识别音乐对应的音乐文本数据中的字符的数量，因此计算机设备在音乐识别的过程中，可以利用音高这个先验信息进行初始对齐处理，即计算机设备可以直接利用音乐节奏数据中的音高，定位到单个字符对应的起止帧数。

比如，对于音高Y₁(例如，包括2个音素)而言，该计算机设备可以确定音高Y₁在音频帧数据400R中的音高起止帧数(例如，音频帧V₁到音频帧V₈)，进而可以基于音素状态参数以及音高Y₁对应的音素数量，从音高起止帧数中确定音高Y₁中的每个音素对应的起止时间。其中，该计算机设备可以确定音高Y₁中的一个音素(例如，音素1)的起止时间为从音频帧V₁到音频帧V₄的时间，且将音素1的第一状态(例如，状态W₁₁)分配至音频帧V₁，将音素1的第二状态(例如，状态W₁₂)分配至音频帧V₂和音频帧V₃，将音素1的第三状态(例如，状态W₁₃)分配至音频帧V₄。此外，该计算机设备还可以确定音高Y₁中的另一个音素(例如，音素2)的起止时间为从音频帧V₅到音频帧V₈的时间，且将音素2的第一状态(例如，状态W₂₁)分配至音频帧V₅，将音素2的第二状态(例如，状态W₂₂)分配至音频帧V₆和音频帧V₇，将音素2的第三状态(例如，状态W₂₃)分配至音频帧V₈。

同理，对于音高Y₂(例如，包括1个音素，即音素3)而言，该计算机设备可以确定音高Y₂在音频帧数据400R中的音高起止帧数(例如，音频帧V₉到音频帧V₁₅)，进而可以基于音素状态参数以及音高Y₂对应的音素数量，从音高起止帧数中确定音高Y₂中的音素3对应的起止时间。其中，该计算机设备可以确定音素3的起止时间为从音频帧V₉到音频帧V₁₅的时间，且将音素3的第一状态(例如，状态W₃₁)分配至音频帧V₉、音频帧V₁₀与音频帧V₁₁，将音素3的第二状态(例如，状态W₃₂)分配至音频帧V₁₂、音频帧V₁₃与音频帧V₁₄，将音素3的第三状态(例如，状态W₃₃)分配至音频帧V₁₅。最终，计算机设备可以基于这三个音素中的每个音素对应的起止时间，从而得到确定音频帧数据400R对应的对齐数据401S(即第一对齐数据)。其中，本申请实施例可以将第一对齐数据中的音素的起止时间称之为第一起止时间。

进一步地，为了得到更加精准的对齐数据，计算机设备可以对对齐数据401S进行调整对齐处理。其中，调整对齐处理方式可以包括第三对齐方式与第四对齐方式。比如，第三对齐方式可以是硬对齐方式(如维特比算法)，第四对齐方式可以是软对齐方式(如前后向算法)。

比如，计算机设备可以基于对齐数据401S，获取每个音频帧对应的状态综合概率。一个音频帧对应的状态综合概率是由这个音频帧对应的状态转移概率以及这个音频帧对应的状态发射概率(例如，均值与方差)所共同确定的。在本申请实施例中，由于音频帧V₁为该音频帧数据400R的第一帧，因此该计算机设备可以继续保持音频帧V₁的原状态(例如，状态W₁₁)。

对于音频帧V₂而言，该计算机设备可以获取将音频帧V₁的状态W₁₁转移到状态W₁₁的状态转移概率、以及将音频帧V₁的状态W₁₁转移到状态W₁₂的状态转移概率，进而可以将这两个状态转移概率中的最大状态转移概率作为该音频帧V₂的状态转移概率。此外，计算机设备还需要获取音频帧V₂的状态发射概率。比如，计算机设备可以获取音素1的每一个状态的状态发射概率，以音素1的第二状态(例如，状态W₁₂)为例，由于在对齐数据401S中，音素1的状态W₁₂被分配至音频帧V₂与音频帧V₃，因此该计算机设备需要对音频帧V₂进行特征提取，得到音频帧V₂的音频帧特征为(4，3)，并对音频帧V₃进行特征提取，得到音频帧V₃的音频帧特征为(4，7)。其中，这里的音频帧特征可以为梅尔倒谱系数(MFCC，Mel-scaleFrequencyCepstral Coefficients)特征。基于此，该计算机设备可以根据上述两个音频帧分别对应的音频帧特征，确定音素1的状态W₁₂的均值为(4，5)，音素1的状态W₁₂的方差为(0，8)。以此类推，音素1的其他状态不再进行赘述。进一步地，计算机设备可以基于音频帧V₂的状态转移概率与音素1的每个状态分别对应的状态发射概率，得到音频帧V₂的状态综合概率。

可以理解的是，参见上述确定音频帧V₂的状态综合概率的具体实施方式，计算机设备可以获取每个音频帧分别对应的状态综合概率，进而可以通过这15个状态综合概率，对对齐数据401S进行调整对齐处理，以得到图4所示的对齐数据402S(即第二对齐数据)。此时，计算机设备可以从对齐数据402S中，获取三个音素中的每个音素对应的起止时间，比如，在对齐数据402S中，音素1的起止时间为从音频帧V₁到音频帧V₅的时间，音素2的起止时间为从音频帧V₆到音频帧V₈的时间，音素3的起止时间为从音频帧V₉到音频帧V₁₅的时间。然后，该计算机设备可以基于三个音素对应的起止时间，得到与三个音素相关联的音素起止时间集。其中，本申请实施例可以将第二对齐数据中的音素的起止时间称之为第二起止时间。

步骤S103，基于音乐音频帧数据对应的音乐声学特征以及音素起止时间集，确定与N个音素相关联的音乐音素序列的音乐声学特征概率。

其中，音乐声学特征概率是基于音乐音频识别模型中的业务声学模型所确定的，业务声学模型包括第一子模型(例如，帧到单音素的分类模型)和第二子模型(例如，音素转换概率模型)。第一子模型用于针对音乐声学特征进行分类处理，以识别该声学特征对应的音素。第二子模型用于基于音素起止时间集对音素起止时间集所对应的音素进行音素转换处理。具体的，计算机设备可以基于音素起止时间集，对音乐音频帧数据进行特征提取处理，得到音乐声学特征(又称帧到单音素数据)。此外，计算机设备可以将音乐声学特征输入至第一子模型，由第一子模型对音乐声学特征进行音素识别处理，得到初始音素序列对应的音素序列概率。此外，计算机设备可以基于音素起止时间集以及第二子模型，确定初始音素序列对应的音素转换概率。然后，计算机设备可以基于音素转换概率对初始音素序列进行音素转换处理，得到与N个音素相关联的音乐音素序列。最终，计算机设备可以基于音乐音素序列的音素序列概率以及音素转换概率，确定音乐音素序列的音乐声学特征概率。

可以理解的是，该计算机设备在获取初始音素序列时，需要将音乐声学特征输入到第一子模型，从而可以得到O个初始音素序列以及O个初始音素序列分别对应的音素序列概率，O为正整数。进一步地，计算机设备可以将这O个初始音素序列分别输入至该第二子模型，进而通过该第二子模型确定每个初始音素序列对应的音素转换概率。此时，该计算机设备可以基于O个初始音素序列分别对应的音素序列概率、O个初始音素序列分别对应的音素转换概率，确定每个初始音素序列分别对应的序列筛选概率。然后，计算机设备可以从这O个序列筛选概率中，将最大序列筛选概率对应的初始音素序列确定为音乐音素序列，且将该最大序列筛选概率确定为该音乐音素序列的音乐声学特征概率。

比如，这里的O可以以2个为例，具体可以包括初始音素序列1(例如，音素序列“[H][AO][VN]”)和初始音素序列2(例如，音素序列“[H][AI][VN]”)，且通过第一子模型，该计算机设备获取到的该初始音素序列1对应的音素序列概率可以为60％，该初始音素序列2对应的音素序列概率可以为40％。此外，通过第二子模型，该计算机设备获取到的初始音素序列1对应的音素转换概率可以为80％，初始音素序列2对应的音素转换概率可以为20％。这时，该计算机设备可以基于初始音素序列1对应的音素序列概率以及初始音素序列1对应的音素转换概率，确定初始音素序列1的序列筛选概率，且基于初始音素序列2对应的音素序列概率以及初始音素序列2对应的音素转换概率，确定初始音素序列2的序列筛选概率。进一步地，该计算机设备可以从中选择最大序列筛选概率对应的初始音素序列(例如，初始音素序列1)，将其作为音乐音素序列，即初始音素序列1对应的序列筛选概率为本申请实施例中的音乐声学特征概率。

步骤S104，基于针对待识别音乐的词典数据，获取音乐音素序列对应的M个候选文本，基于音乐声学特征概率以及M个候选文本分别对应的文本序列概率，从M个候选文本中确定待识别音乐对应的音乐文本数据。

其中，每个候选文本均是从词典数据中的字符所构成的字符拓扑图中，基于字符之间的拓扑路径所选择的字符组合，且每个候选文本均对应P个字符，这里的P是指音乐节奏数据所包括的音高数量，P为正整数。具体的，计算机设备在从音乐音频识别模型中获取针对待识别音乐的词典数据时，可以基于词典数据，获取音乐音素序列对应的M个候选文本，M为正整数。进一步地，计算机设备将M个候选文本分别输入至音乐音频识别模型中的业务语言模型，由业务语言模型输出M个候选文本分别对应的文本序列概率。然后，计算机设备可以基于音乐声学特征概率以及M个候选文本分别对应的文本序列概率，得到M个候选文本分别对应的文本匹配概率，进而可以从M个文本匹配概率中获取最高文本匹配概率，将最高文本匹配概率对应的候选文本作为待识别音乐对应的音乐文本数据。

具体的，候选文本的文本匹配概率(即K)的获取可以参见公式(1)所示：

K＝arg max_WP(X|W)P(W) (1)

其中，P(X|W)可以用于表示音乐声学特征概率，即给定候选文本W后，待识别音乐X的概率，即这句话发成这串音的可能性，P(W)可以表示候选文本W的文本序列概率。

如图2所示，该计算机设备确定的候选文本可以包括候选文本2S₇₁(例如，“好晕”)和候选文本2S₇₂(例如，“好运”)。基于此，该计算机设备可以从基于声学特征概率2G₁₁(即音乐声学特征概率)以及候选文本2S₇₁对应的文本序列概率2G₂₁，确定该候选文本2S₇₁的文本匹配概率。同理，该计算机设备还可以基于声学特征概率2G₁₁以及候选文本2S₇₂对应的文本序列概率2G₂₂，确定该候选文本2S₇₂的文本匹配概率，进而可以从这两个文本匹配概率中选出具有最高文本匹配概率的候选文本(例如，候选文本2S₇₁)作为待识别音乐2S₁对应的音乐文本数据。

本申请实施例中，具有音乐识别功能的计算机设备在进行音乐识别时，由于待识别音乐中往往包含背景音乐，为了提高后续音频识别的准确度，该计算机设备需要将背景音乐从待识别音乐中进行剥离，以得到音乐干声数据。进一步地，该计算机设备不仅需要从音乐干声数据中获取音乐音频帧数据，还需要从音乐干声数据中获取音乐节奏数据，以在后续对音乐音频帧数据进行状态对齐处理时，能够得到更加精准的音素起止时间集，进而提升了音频识别的准确度。此外，该计算机设备通过音乐音频识别模型进行音频识别处理，在待识别音乐数量较多时，能够缩短识别时间，以至于提升音频识别的效率。

进一步地，请参见图5，图5是本申请实施例提供的一种数据处理方法的流程示意图。如图5所示，该方法可以由计算机设备执行，该计算机设备可以为上述图1所示的终端集群中的任意一个终端设备，例如，终端设备100a，也可以为上述图1所示的服务器10F，在此不做限定。该数据处理方法至少可以包括以下步骤S201-步骤S210：

步骤S201，获取待识别音乐中的音乐干声数据，分别提取音乐干声数据中的音乐节奏数据以及音乐音频帧数据。

步骤S202，基于音乐节奏数据以及音素状态参数，对音乐音频帧数据进行状态对齐处理，得到与N个音素相关联的音素起止时间集。

步骤S203，基于音乐音频帧数据对应的音乐声学特征以及音素起止时间集，确定与N个音素相关联的音乐音素序列的音乐声学特征概率。

步骤S204，基于针对待识别音乐的词典数据，获取音乐音素序列对应的M个候选文本，基于音乐声学特征概率以及M个候选文本分别对应的文本序列概率，从M个候选文本中确定待识别音乐对应的音乐文本数据。

其中，本申请实施例中的数据处理方法可以包括模型训练过程以及模型应用过程。可以理解的是，该步骤S201-步骤S204阐述了模型应用过程，该模型应用过程的具体实施方式可参见上述图3所对应实施例中对步骤S101-步骤S104的描述，这里将不再继续进行赘述。

其中，该模型训练过程具体可以参见下述步骤S205-步骤S210的描述。

步骤S205，在获取到包括样本音频数据和样本文本数据的样本数据时，从样本音频数据中的样本干声数据中，分别提取样本节奏数据、样本音频帧数据以及样本基音数据。

具体的，计算机设备可以获取包括样本音频数据和样本文本数据的样本数据，进而可以基于获取到的初始音频识别模型，对样本音频数据进行音源分离处理，得到纯净人声的样本干声数据。进一步，该计算机设备可以从样本干声数据中，分别提取样本节奏数据、样本音频帧数据与样本基音数据。其中，样本节奏数据可以是针对样本干声数据的节奏信息的数据；样本音频帧数据可以是针对样本干声数据进行分帧处理后得到的数据；样本基音数据可以是样本干声数据的基础音频部分(例如，F0数据)，这里的样本基音数据是指对样本干声数据进行频率分解后所得到的具有最低频率的正弦波。其中，本申请实施例中关于样本节奏数据与样本音频帧数据的具体获取步骤，请参见图3中关于音乐节奏数据与音乐音频帧数据的获取步骤，这里不再继续进行赘述。

应当理解，这里的样本文本数据可以包括原始文本数据和歌词文本数据，样本音频数据可以包括各种业务类型(例如，歌曲、戏曲、评书以及音乐剧等其他类型)、各种语言种类(例如，中文、英文、法文等其他语种)的音频数据。其中，样本音频数据携带样本标签；样本标签可以用于表征样本音频数据对应的实际文本数据(即实际歌词数据)。

步骤S206，获取初始音频识别模型中的词典数据，基于实际文本数据、词典数据以及样本基音数据进行音素转化处理，得到样本音素串；

具体的，计算机设备可以获取初始音频识别模型中的词典数据，基于词典数据，对实际文本数据进行音素转化处理，确定样本基音数据对应的初始音素串。其中，初始音素串可以携带第一音调。计算机设备还可以获取与样本音频数据的音频类型相匹配的基音变更规则，基于初始音素串所属的基音频率区间，在基音变更规则中确定初始音素串对应的音调变更参数。此外，计算机设备可以基于音调变更参数，将第一音调变更为第二音调，将具有第二音调的初始音素串确定为样本音素串。

进一步地，请参见表1，表1是本申请实施例提供的一种用于基于词典数据进行音素转化处理的示例表。其中，表1可以包括文本数据栏、文本转换串栏以及初始音素串栏。其中，这里文本转换串栏可以用于转换成文本数据的字符串，例如，中文对应的拼音、英文对应的音标等。可以理解的是，一个文本可能对应一个文本转换串，也可能对应多个文本转换串(即该文本为多音字)，例如，表1中的文本1对应的文本转换串可以包括“hao3”和“hao4”。其中，这里的一个文本转换串对应一个初始音素串。如表1所示：

表1

其中，该计算机设备获取到的基音变更规则用于指示不同音频频率区间所对应的基音数据与音调变更的对应关系，该基音变更规则可以是该计算机设备在基于大量音频数据集后所统计得到的，也可以是为音频类型的音频数据所配置的，这里将不对其进行限定。为便于理解，进一步地，请参见表2，表2是本申请实施例提供的一种与音频类型相匹配的基音变更规则表。该基音变更规则表可以包括多个基音频率区间，每个基音频率区间可以对应不同的音调变更参数。如表2所示：

表2

基音频率区间	变更参数
		区间1：(T₀，T₁]	降低Z₁个音调，直至最低音调
区间2：(T₁，T₂]	保持原调
		区间3：大于T₂	上升Z₂个音调，直至最高音调

其中，表2所示的基音变更规则表中的基音频率区间可以以3个基音频率区间为例，这里的T₀可以为下限数值频率(如0HZ)，T₁可以为第一分界数值频率(如300HZ)，T₂可以为第二分界数值频率(如600HZ)。其中，这里的T₁和T₂均可以为该计算机设备根据实际业务需求所动态调整的，这里将不对其进行限定。可以理解的是，若表2所示的基音变更规则表所匹配的音频类型包括H个音调，这里的Z₁和Z₂均可以为小于H的正整数。

进一步地，该计算机设备基于实际文本数据、词典数据以及样本基音数据进行音素转化处理，得到样本音素串的具体实施方式可以参见下述表3，该表3提供了一种确定样本音素串的示例表。如表3所示：

表3

其中，表3中区间1对应的变更参数可以为降低2个音调，直至最低音调，区间2对应的变更参数可以为保持原调，区间3对应的变更参数可以为上升3个音调，直至最高音调。比如，由于该样本音频数据对应的音频类型包括4个音调，具体可以包括音调1、音调2、音调3以及音调4，且音调1高于音调2，音调2高于音调3，音调3高于音调4，即音调1为最高音调，音调4为最低音调。

其中，本申请实施例可以以实际文本数据“晕”为例，用以阐述确定样本音素串的具体实施方式。比如，该计算机设备可以基于词典数据，对文本数据“晕”进行音素转换处理，以得到表1所示的初始音素串(即“VN1”)。在该初始音素串所属的基音频率区间为区间1时，该计算机设备可以将初始音素串的音调降低2个音调，由于原音调已经为音调1，则该计算机设备可以直接将初始音素串的音调变更为音调3，以得到样本音素串(即“VN3”)。可选的，在该初始音素串所属的基音频率区间为区间2时，该计算机设备可以将初始音素串的音调继续保持，即该计算机设备无需变更初始音素串的音调，可以直接将初始音素串确定为样本音素串(即“VN1”)。可选的，在该初始音素串所属的基音频率区间为区间3时，该计算机设备可以将初始音素串的音调上升3个音调，但由于原音调已经为音调1，即已经为最高音调，此时该计算机设备可以直接将具有最高音调的初始音素串确定为样本音素串(即“VN1”)。

步骤S207，基于样本节奏数据以及音素状态参数，对样本音频帧数据进行状态对齐处理，得到与样本音素串相关联的样本起止时间集；

具体的，计算机设备可以通过样本节奏数据所指示的音高数量以及音素状态参数，对样本音频帧数据进行初始对齐处理，进而得到第一样本对齐数据。这里的第一样本对齐数据可以用于指示样本音素串中的每个音素对应的第一起止时间。计算机设备可以通过第一样本对齐数据，获取样本音频帧数据中的每个音频帧分别对应的状态综合概率，进而可以对第一样本对齐数据进行调整对齐处理，得到第二样本对齐数据，直到调整对齐处理后的第二样本对齐数据收敛。此外，计算机设备还可以从收敛的第二样本对齐数据中，获取样本音素串中的每个音素对应的第二起止时间，以得到与样本音素串相关联的样本起止时间集。其中，本申请实施例确定样本起止时间集的具体实施方式，可以参见上述图3所对应实施例中步骤S102中对音素起止时间集的描述，这里将不再继续进行赘述。

其中，可以理解的是，本申请实施例中的样本音素串所包括音素划分可以根识别精度所动态选择。比如，对于样本音素串“HAO3”而言，在识别精度为第一精度(例如，最高精度)时，该计算机设备可以将其划分为3个音素，例如，音素“H”，音素“A”，以及音素“O”。又比如，在识别精度为第二精度(例如，中间精度)时，该计算机设备还可以将这一样本音素串划分为2个音素，例如，音素“H”以及音素“AO”。再比如，在识别精度为第三精度(例如，最低精度)时，该计算机设备还可以将这一样本音素串划分为1个音素，例如，直接将其划分为音素“HAO”。

步骤S208，基于样本音频帧数据对应的样本声学特征以及样本起止时间集，确定与样本音素串相关联的样本音素序列的样本声学特征概率；

具体的，计算机设备可以基于样本起止时间集，对样本音频帧数据进行特征提取处理，得到样本声学特征。此外，计算机设备可以将样本声学特征输入至初始音频识别模型中的初始声学模型，由初始声学模型对样本声学特征进行音素识别处理，得到样本初始音素序列对应的样本音素序列概率。此外，计算机设备可以基于样本起止时间集以及初始声学模型，确定样本初始音素序列对应的样本音素转换概率。然后，计算机设备可以基于样本音素转换概率对样本初始音素序列进行音素转换处理，得到与样本音素串相关联的样本音素序列。最终，计算机设备可以基于样本音素序列的样本音素序列概率以及样本音素转换概率，确定样本音素序列的样本声学特征概率。其中，本申请实施例确定样本声学特征概率的具体实施方式，可以参见上述图3所对应实施例中步骤S103中对音乐声学特征概率的描述，这里将不再继续进行赘述。

步骤S209，基于样本文本数据、词典数据以及样本音素序列的样本声学特征概率，获取样本音素序列对应的预测文本数据。

具体的，计算机设备在从初始音频识别模型中获取词典数据时，可以基于词典数据，获取样本音素序列对应的多个候选文本。进一步地，计算机设备将多个候选文本分别输入至初始音频识别模型中的初始语言模型，由初始语言模型输出多个候选文本分别对应的样本文本序列概率。然后，计算机设备可以基于样本声学特征概率以及多个候选文本分别对应的样本文本序列概率，得到多个候选文本分别对应的文本匹配概率，进而可以从多个文本匹配概率中获取最高文本匹配概率，将最高文本匹配概率对应的候选文本作为样本音素序列对应的预测文本数据。其中，本申请实施例确定预测文本数据的具体实施方式，可以参见上述图3所对应实施例中步骤S104中对音乐文本数据的描述，这里将不再继续进行赘述。

步骤S210，基于样本文本数据、实际文本数据以及预测文本数据，对初始音频识别模型进行训练，得到音乐音频识别模型。

具体的，该计算机设备可以基于样本文本数据中的原始文本数据和歌词文本数据，确定初始音频识别模型中的初始语言模型的第一模型损失，进而基于第一模型损失对初始语言模型进行训练，得到业务语言模型。与此同时，该计算机设备还可以基于实际文本数据以及预测文本数据，确定初始音频识别模型中的初始声学模型的第二模型损失，进而可以基于第二模型损失对初始声学模型的进行训练，得到业务声学模型。进一步地，该计算机设备可以将包括业务语言模型和业务声学模型的初始音频识别模型作为音乐音频识别模型。其中，音乐音频识别模型用于对待识别音乐的音乐文本数据进行预测。

可以理解的是，该计算机设备还可以获取与初始语言模型相关联的第一模型收敛条件和与初始声学模型相关联的第二模型收敛条件，其中，这里的模型收敛条件均可以为模型损失持续N轮(例如，10轮)未继续下降，即停止模型训练。可选的，该模型收敛条件还均可以为模型损失小于模型收敛条件中的损失阈值，即停止模型训练。这里将不对其进行限定。

其中，该计算机设备在对初始语言模型进行训练时，可以将原始文本数据和歌词文本数据一并输入至初始语言模型，以对其进行训练。可选的，为了提高模型收敛速度，减少模型训练次数，在原始文本数据的数量集远大于歌词文本数据时，该计算机设备还可以先将原始文本数据输入至初始语言模型中进行训练，则将歌词文本数据输入至训练后的初始语言模型中进行微调训练，在微调训练后的模型满足第一模型收敛条件时，从而得到业务语言模型。

其中，该计算机设备在基于第二模型损失对初始声学模型的进行训练，可以得到模型训练结果。若模型训练结果指示训练后的初始声学模型满足第二模型收敛条件，则将满足第二模型收敛条件的初始声学模型作为业务声学模型。可选的，若模型训练结果指示迭代训练后的初始声学模型不满足第二模型收敛条件，则该计算机设备可以基于不满足第二模型收敛条件的模型损失函数，对初始声学模型的模型参数进行调整。进一步地，该计算机设备可以将调整模型参数后的初始声学模型作为过渡声学模型，对过渡声学模型进行训练，直到训练后的过渡声学模型满足第二模型收敛条件时，将满足第二模型收敛条件的过渡声学模型作为业务声学模型。

进一步地，请参见图6，图6是本申请实施例提供的一种用于进行模型训练的场景示意图。如图6所示，计算机设备通过将音频数据6S₁(即样本音频数据)输入初始音频识别模型6000A进行模型训练，得到预测文本数据。其中，计算机设备在获取到包括音频数据6S₁(即样本音频数据)和文本数据6S₇(即样本文本数据)的样本数据时，可以从音频数据6S₁的干声数据6S₂(即样本干声数据)中，分别提取节奏数据6S₃(即样本节奏数据)、音频帧数据6S₄(即样本音频帧数据)以及基音数据6S₉(即样本基音数据)。其中，音频数据6S₁携带样本标签，样本标签可以用于表征音频数据6S₁对应的实际文本数据。

进一步地，计算机设备可以获取初始音频识别模型6000A中的词典数据6S₁₀，基于实际文本数据、词典数据6S₁₀以及基音数据6S₉进行音素转化处理，得到音素串6S₁₁(即样本音素串)。计算机设备还可以基于节奏数据6S₃以及音素状态参数，对音频帧数据6S₄进行状态对齐处理，得到与音素串6S₁₁相关联的起止时间集6S₅(即样本起止时间集)。在此之后，计算机设备可以基于音频帧数据6S₄对应的声学特征6X₁(即样本声学特征)以及起止时间集6S₅，确定与音素串6S₁₁相关联的样本音素序列的样本声学特征概率。此外，计算机设备可以基于文本数据6S₇、词典数据6S₁₀以及样本声学特征概率，获取样本音素序列对应的预测文本数据。

进一步地，计算机设备可以基于文本数据6S₇、实际文本数据以及预测文本数据，对初始音频识别模型6000A进行训练，得到用于对待识别音乐的音乐文本数据进行预测的音乐音频识别模型(即图2中的音频识别模型2000A)。可以理解的是，计算机设备对初始音频识别模型6000A进行模型训练的过程可以分成两部分进行训练，即对语言模型600A(即初始语言模型)与声学模型600B(即初始声学模型)分别进行模型训练。

比如，这里的文本数据6S₇不仅可以包括日常对话等方面的原始文本数据，还可以包括歌词文本数据。其中，歌词文本数据可以包括音频数据6S₁对应的实际文本数据，也可以为其他音乐数据对应的文本数据。因此，该计算机设备在对语言模型600A进行训练时，可以将原始文本数据和歌词文本数据一并输入至语言模型600A，以对其进行训练，得到模型训练结果，进而基于模型训练结果对语言模型600A的模型参数进行调整，直到得到满足第一模型收敛条件的业务语言模型。

与此同时，该计算机设备可以基于音频数据6S₁中的样本标签所指示的实际文本数据以及图6所示的预测文本数据，确定该声学模型600B的模型损失(即第二模型损失)，进而可以在基于第二模型损失对声学模型600B的进行训练，以得到模型训练结果。若模型训练结果指示训练后的声学模型600B满足第二模型收敛条件，则将满足第二模型收敛条件的声学模型600B作为业务声学模型。可选的，若模型训练结果指示迭代训练后的声学模型600B不满足第二模型收敛条件，则该计算机设备可以基于不满足第二模型收敛条件的模型损失函数，对声学模型600B的模型参数进行调整。进一步地，该计算机设备可以将调整模型参数后的声学模型600B作为过渡声学模型，对过渡声学模型进行训练，直到训练后的过渡声学模型满足第二模型收敛条件时，将满足第二模型收敛条件的过渡声学模型作为业务声学模型。

进一步地，在训练得到业务声学模型和业务语言模型时，该计算机设备可以将包括业务声学模型和业务语言模型的初始音频识别模型6000A作为音乐音频识别模型。本申请实施例通过在初始音频识别模型的训练过程中，引入了样本基音数据，进而通过对样本基音数据的范围进行划分，可以得到针对于音素的音调变化，以至于该计算机设备可以在模型训练过程中能够更加贴合歌唱中的音调变化习惯，即能够训练得到更加精准预测文本数据的音乐音频识别模型。

进一步地，请参见图7，图7是本申请实施例提供的一种数据处理装置的结构示意图。上述数据处理装置可以是运行于计算机设备中的一个计算机程序(包括程序代码)，例如该数据处理装置为一个应用软件；该装置可以用于执行本申请实施例提供的方法中的相应步骤。如图7所示，该数据处理装置1可以包括：干声数据获取模块11、音乐状态对齐模块12、特征概率确定模块13以及文本数据确定模块14。

干声数据获取模块11，用于获取待识别音乐中的音乐干声数据，分别提取音乐干声数据中的音乐节奏数据以及音乐音频帧数据；

音乐状态对齐模块12，用于基于音乐节奏数据以及音素状态参数，对音乐音频帧数据进行状态对齐处理，得到与N个音素相关联的音素起止时间集；N为正整数；

特征概率确定模块13，用于基于音乐音频帧数据对应的音乐声学特征以及音素起止时间集，确定与N个音素相关联的音乐音素序列的音乐声学特征概率；

文本数据确定模块14，用于基于针对待识别音乐的词典数据，获取音乐音素序列对应的M个候选文本，基于音乐声学特征概率以及M个候选文本分别对应的文本序列概率，从M个候选文本中确定待识别音乐对应的音乐文本数据；M为正整数。

其中，干声数据获取模块11、音乐状态对齐模块12、特征概率确定模块13以及文本数据确定模块14的具体功能实现方式可以参见上述图3对应实施例中的步骤S101-步骤S104，这里不再进行赘述。

再请参见图7，其中，音乐节奏数据是由P个音高所组成的；P为小于或者等于N的正整数；N为P个音高对应的音素总数量；

音乐状态对齐模块12包括：

初始对齐单元121，用于基于P个音高以及音素状态参数，对音乐音频帧数据进行初始对齐处理，得到第一对齐数据；第一对齐数据用于指示N个音素中的每个音素对应的第一起止时间；音乐音频帧数据包括音频帧V_i；i为大于或者等于Q的正整数；Q为音乐音频帧数据对应的音频帧数量；

综合概率获取单元122，用于基于第一对齐数据，获取音频帧V_i对应的状态综合概率；状态综合概率是由音频帧V_i对应的状态转移概率以及音频帧V_i对应的状态发射概率所确定的；

调整对齐单元123，用于在获取到每个音频帧对应的状态综合概率时，对第一对齐数据进行调整对齐处理，得到第二对齐数据；

时间集获取单元124，用于从第二对齐数据中，获取N个音素中的每个音素对应的第二起止时间，基于N个第二起止时间，得到与N个音素相关联的音素起止时间集。

其中，初始对齐单元121、综合概率获取单元122、调整对齐单元123以及时间集获取单元124的具体功能实现方式可以参见上述图3对应实施例中的步骤S101，这里不再进行赘述。

再请参见图7，其中，初始对齐单元121包括：

帧数确定子单元1211，用于从P个音高中获取音高Y_j，确定音高Y_j在音乐音频帧数据中的音高起止帧数；j为小于或者等于P的正整数；

时间确定子单元1212，用于基于音素状态参数以及音高Y_j对应的音素数量，从音高起止帧数中确定音高Y_j中的每个音素对应的第一起止时间；

对齐数据确定子单元1213，用于基于与P个音高相关联的N个音素中的每个音素对应的第一起止时间，确定音乐音频帧对应的第一对齐数据。

其中，帧数确定子单元1211、时间确定子单元1212以及对齐数据确定子单元1213的具体功能实现方式可以参见上述图3对应实施例中的步骤S102，这里不再进行赘述。

再请参见图7，其中，音乐干声数据是基于音乐音频识别模型中的业务声学模型所确定的；业务声学模型包括第一子模型和第二子模型；

特征概率确定模块13，包括：

特征提取单元131，用于基于音素起止时间集，对音乐音频帧数据进行特征提取处理，得到音乐声学特征；

音素识别单元132，用于将音乐声学特征输入至第一子模型，由第一子模型对音乐声学特征进行音素识别处理，得到初始音素序列对应的音素序列概率；

转换概率确定单元133，用于基于音素起止时间集以及第二子模型，确定初始音素序列对应的音素转换概率；

音素转换单元134，用于基于音素转换概率对初始音素序列进行音素转换处理，得到与N个音素相关联的音乐音素序列；

特征确定单元135，用于基于音乐音素序列的音素序列概率以及音素转换概率，确定音乐音素序列的音乐声学特征概率。

其中，特征提取单元131、音素识别单元132、转换概率确定单元133、音素转换单元134以及特征确定单元135的具体功能实现方式可以参见上述图3对应实施例中的步骤S103，这里不再进行赘述。

再请参见图7，其中，文本数据确定模块14，包括：

文本获取单元141，用于在从音乐音频识别模型中获取针对待识别音乐的词典数据时，基于词典数据，获取音乐音素序列对应的M个候选文本；

文本输入单元142，用于将M个候选文本输入至音乐音频识别模型中的业务语言模型，由业务语言模型输出M个候选文本分别对应的文本序列概率；

匹配概率获取单元143，用于基于音乐声学特征概率以及M个候选文本分别对应的文本序列概率，得到M个候选文本分别对应的文本匹配概率；

文本确定单元144，用于从M个文本匹配概率中获取最高文本匹配概率，将最高文本匹配概率对应的候选文本作为待识别音乐对应的音乐文本数据。

其中，文本获取单元141、文本输入单元142、匹配概率获取单元143以及文本确定单元144的具体功能实现方式可以参见上述图3对应实施例中的步骤S104，这里不再进行赘述。

进一步地，请参见图8，图8是本申请实施例提供的一种数据处理装置的结构示意图。上述数据处理装置可以是运行于计算机设备中的一个计算机程序(包括程序代码)，例如该数据处理装置为一个应用软件；该装置可以用于执行本申请实施例提供的方法中的相应步骤。如图8所示，该数据处理装置2可以包括：样本音频获取模块21、音素串获取模块22、样本状态对齐模块23、样本概率确定模块24、预测文本获取模块25以及模型训练模块26。

样本音频获取模块21，用于在获取到包括样本音频数据和样本文本数据的样本数据时，从样本音频数据中的样本干声数据中，分别提取样本节奏数据、样本音频帧数据以及样本基音数据；样本音频数据携带样本标签；样本标签用于表征样本音频数据对应的实际文本数据；

音素串获取模块22，用于获取初始音频识别模型中的词典数据，基于实际文本数据、词典数据以及样本基音数据进行音素转化处理，得到样本音素串；

样本状态对齐模块23，用于基于样本节奏数据以及音素状态参数，对样本音频帧数据进行状态对齐处理，得到与样本音素串相关联的样本起止时间集；

样本概率确定模块24，用于基于样本音频帧数据对应的样本声学特征以及样本起止时间集，确定与样本音素串相关联的样本音素序列的样本声学特征概率；

预测文本获取模块25，用于基于样本文本数据、词典数据以及样本音素序列的样本声学特征概率，获取样本音素序列对应的预测文本数据；

模型训练模块26，用于基于样本文本数据、实际文本数据以及预测文本数据，对初始音频识别模型进行训练，得到音乐音频识别模型；音乐音频识别模型用于对待识别音乐的音乐文本数据进行预测。

其中，样本音频获取模块21、音素串获取模块22、样本状态对齐模块23、样本概率确定模块24、预测文本获取模块25以及模型训练模块26的具体功能实现方式可以参见上述图5对应实施例中的步骤S301-步骤S305，这里不再进行赘述。

其中，音素串获取模块22，包括：

音素串确定单元221，用于获取初始音频识别模型中的词典数据，基于词典数据，对实际文本数据进行音素转化处理，确定样本基音数据对应的初始音素串；初始音素串携带第一音调；

参数确定单元222，用于获取与样本音频数据的音频类型相匹配的基音变更规则，基于初始音素串所属的基音频率区间，在基音变更规则中确定初始音素串对应的音调变更参数；

音调变更单元223，用于基于音调变更参数，将第一音调变更为第二音调，将具有第二音调的初始音素串确定为样本音素串。

其中，音素串确定单元221、参数确定单元222以及音调变更单元223的具体功能实现方式可以参见上述图5对应实施例中的步骤S301，这里不再进行赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。

其中，样本文本数据包括原始文本数据和歌词文本数据；

模型训练模型26，包括：

语言模型获取单元261，用于基于原始文本数据和歌词文本数据，确定初始音频识别模型中的初始语言模型的第一模型损失，基于第一模型损失对初始语言模型进行训练，得到业务语言模型；

声学模型获取单元262，用于基于实际文本数据以及预测文本数据，确定初始音频识别模型中的初始声学模型的第二模型损失，基于第二模型损失对初始声学模型的进行训练，得到业务声学模型；

音乐模型确定单元263，用于将包括业务语言模型和业务声学模型的初始音频识别模型作为音乐音频识别模型。

其中，语语言模型获取单元261、声学模型获取单元262以及音乐模型确定单元263的具体功能实现方式可以参见上述图5对应实施例中的步骤S301，这里不再进行赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。

进一步地，请参见图9，图9是本申请实施例提供的一种计算机设备的结构示意图。如图9所示，该计算机设备1000可以包括：至少一个处理器1001，例如CPU，至少一个网络接口1004，用户接口1003，存储器1005，至少一个通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。其中，用户接口1003可以包括显示屏(Display)、键盘(Keyboard)，网络接口1004可选地可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。存储器1005可选地还可以是至少一个位于远离前述处理器1001的存储装置。如图9所示，作为一种计算机存储介质的存储器1005可以包括操作***、网络通信模块、用户接口模块以及设备控制应用程序。

在图9所示的计算机设备1000中，网络接口1004可提供网络通讯功能；而用户接口1003主要用于为用户提供输入的接口；而处理器1001可以用于调用存储器1005中存储的设备控制应用程序，以实现：

获取待识别音乐中的音乐干声数据，分别提取音乐干声数据中的音乐节奏数据以及音乐音频帧数据；基于音乐节奏数据以及音素状态参数，对音乐音频帧数据进行状态对齐处理，得到与N个音素相关联的音素起止时间集；N为正整数；基于音乐音频帧数据对应的音乐声学特征以及音素起止时间集，确定与N个音素相关联的音乐音素序列的音乐声学特征概率；基于针对待识别音乐的词典数据，获取音乐音素序列对应的M个候选文本，基于音乐声学特征概率以及M个候选文本分别对应的文本序列概率，从M个候选文本中确定待识别音乐对应的音乐文本数据；M为正整数。

处理器1001还可以用于调用存储器1005中存储的设备控制应用程序，以实现：

在获取到包括样本音频数据和样本文本数据的样本数据时，从样本音频数据中的样本干声数据中，分别提取样本节奏数据、样本音频帧数据以及样本基音数据；样本音频数据携带样本标签；样本标签用于表征样本音频数据对应的实际文本数据；获取初始音频识别模型中的词典数据，基于实际文本数据、词典数据以及样本基音数据进行音素转化处理，得到样本音素串；基于样本节奏数据以及音素状态参数，对样本音频帧数据进行状态对齐处理，得到与样本音素串相关联的样本起止时间集；基于样本音频帧数据对应的样本声学特征以及样本起止时间集，确定与样本音素串相关联的样本音素序列的样本声学特征概率；基于样本文本数据、词典数据以及样本音素序列的样本声学特征概率，获取样本音素序列对应的预测文本数据；基于样本文本数据、实际文本数据以及预测文本数据，对初始音频识别模型进行训练，得到音乐音频识别模型；音乐音频识别模型用于对待识别音乐的音乐文本数据进行预测。

应当理解，本申请实施例中所描述的计算机设备1000可执行前文图2、图3、图4、图5以及图6所对应实施例中对数据处理方法的描述，也可执行前文图7所对应实施例中对数据处理装置1的描述，也可执行前文图8所对应实施例中对数据处理装置2的描述，在此不再赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。

本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序包括程序指令，该程序指令被处理器执行时实现图2、图3、图4、图5以及图6中各个步骤所提供的数据处理方法，具体可参见上述图2、图3、图4、图5以及图6各个步骤所提供的实现方式，在此不再赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。

上述计算机可读存储介质可以是前述任一实施例提供的数据处理装置或者上述计算机设备的内部存储单元，例如计算机设备的硬盘或内存。该计算机可读存储介质也可以是该计算机设备的外部存储设备，例如该计算机设备上配备的插接式硬盘，智能存储卡(smart media card，SMC)，安全数字(secure digital，SD)卡，闪存卡(flash card)等。进一步地，该计算机可读存储介质还可以既包括该计算机设备的内部存储单元也包括外部存储设备。该计算机可读存储介质用于存储该计算机程序以及该计算机设备所需的其他程序和数据。该计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。

本申请实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备可执行前文图2、图3、图4、图5以及图6所对应实施例中对数据处理方法的描述，在此不再赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。

进一步的，请参见图10，图10是本申请实施例提供的一种数据处理***的结构示意图。该数据处理***3可以包含数据处理装置10a和数据处理装置10b。其中，数据处理装置10a可以为上述图7所对应实施例中的数据处理装置1，因此，这里将不再进行赘述。其中，数据处理装置10b可以为上述图8所对应实施例中的数据处理装置2，因此，这里将不再进行赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。对于本申请所涉及的数据处理***实施例中未披露的技术细节，请参照本申请方法实施例的描述。

本申请实施例的说明书和权利要求书及附图中的术语“包括”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、装置、产品或设备没有限定于已列出的步骤或模块，而是可选地还包括没有列出的步骤或模块，或可选地还包括对于这些过程、方法、装置、产品或设备固有的其他步骤单元。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

本申请实施例提供的方法及相关装置是参照本申请实施例提供的方法流程图和/或结构示意图来描述的，具体可由计算机程序指令实现方法流程图和/或结构示意图的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。这些计算机程序指令可提供到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或结构示意图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或结构示意图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或结构示意一个方框或多个方框中指定的功能的步骤。

以上所揭露的仅为本申请较佳实施例而已，当然不能以此来限定本申请之权利范围，因此依本申请权利要求所作的等同变化，仍属本申请所涵盖的范围。

Claims

1.一种数据处理方法，其特征在于，包括：

获取待识别音乐中的音乐干声数据，分别提取所述音乐干声数据中的音乐节奏数据以及音乐音频帧数据；

基于所述音乐节奏数据以及音素状态参数，对所述音乐音频帧数据进行状态对齐处理，得到与N个音素相关联的音素起止时间集；N为正整数；

基于所述音乐音频帧数据对应的音乐声学特征以及所述音素起止时间集，确定与所述N个音素相关联的音乐音素序列的音乐声学特征概率；

基于针对所述待识别音乐的词典数据，获取所述音乐音素序列对应的M个候选文本，基于所述音乐声学特征概率以及所述M个候选文本分别对应的文本序列概率，从所述M个候选文本中确定所述待识别音乐对应的音乐文本数据；M为正整数。

2.根据权利要求1所述的方法，其特征在于，所述音乐节奏数据是由P个音高所组成的；P为小于或者等于N的正整数；N为所述P个音高对应的音素总数量；

所述基于所述音乐节奏数据以及音素状态参数，对所述音乐音频帧数据进行状态对齐处理，得到与N个音素相关联的音素起止时间集，包括：

基于所述P个音高以及音素状态参数，对所述音乐音频帧数据进行初始对齐处理，得到第一对齐数据；所述第一对齐数据用于指示所述N个音素中的每个音素对应的第一起止时间；所述音乐音频帧数据包括音频帧V_i；i为大于或者等于Q的正整数；Q为所述音乐音频帧数据对应的音频帧数量；

基于所述第一对齐数据，获取所述音频帧V_i对应的状态综合概率；所述状态综合概率是由所述音频帧V_i对应的状态转移概率以及所述音频帧V_i对应的状态发射概率所确定的；

在获取到每个音频帧对应的状态综合概率时，对所述第一对齐数据进行调整对齐处理，得到第二对齐数据；

从所述第二对齐数据中，获取所述N个音素中的每个音素对应的第二起止时间，基于N个第二起止时间，得到与N个音素相关联的音素起止时间集。

3.根据权利要求2所述的方法，其特征在于，所述基于所述P个音高以及音素状态参数，对所述音乐音频帧数据进行初始对齐处理，得到第一对齐数据，包括：

从所述P个音高中获取音高Y_j，确定所述音高Y_j在所述音乐音频帧数据中的音高起止帧数；j为小于或者等于P的正整数；

基于音素状态参数以及所述音高Y_j对应的音素数量，从所述音高起止帧数中确定所述音高Y_j中的每个音素对应的第一起止时间；

基于与所述P个音高相关联的所述N个音素中的每个音素对应的第一起止时间，确定所述音乐音频帧对应的第一对齐数据。

4.根据权利要求1所述的方法，其特征在于，所述音乐干声数据是基于音乐音频识别模型中的业务声学模型所确定的；所述业务声学模型包括第一子模型和第二子模型；

所述基于所述音乐音频帧数据对应的音乐声学特征以及所述音素起止时间集，确定与所述N个音素相关联的音乐音素序列的音乐声学特征概率，包括：

基于所述音素起止时间集，对所述音乐音频帧数据进行特征提取处理，得到音乐声学特征；

将所述音乐声学特征输入至所述第一子模型，由所述第一子模型对所述音乐声学特征进行音素识别处理，得到初始音素序列对应的音素序列概率；

基于所述音素起止时间集以及所述第二子模型，确定所述初始音素序列对应的音素转换概率；

基于所述音素转换概率对所述初始音素序列进行音素转换处理，得到与所述N个音素相关联的音乐音素序列；

基于所述音乐音素序列的音素序列概率以及所述音素转换概率，确定所述音乐音素序列的音乐声学特征概率。

5.根据权利要求1所述的方法，其特征在于，所述基于针对所述待识别音乐的词典数据，获取所述音乐音素序列对应的M个候选文本，基于所述音乐声学特征概率以及所述M个候选文本分别对应的文本序列概率，从所述M个候选文本中确定所述待识别音乐对应的音乐文本数据，包括：

在从音乐音频识别模型中获取针对所述待识别音乐的词典数据时，基于所述词典数据，获取所述音乐音素序列对应的M个候选文本；

将所述M个候选文本输入至所述音乐音频识别模型中的业务语言模型，由所述业务语言模型输出所述M个候选文本分别对应的文本序列概率；

基于所述音乐声学特征概率以及所述M个候选文本分别对应的文本序列概率，得到所述M个候选文本分别对应的文本匹配概率；

从M个文本匹配概率中获取最高文本匹配概率，将所述最高文本匹配概率对应的候选文本作为所述待识别音乐对应的音乐文本数据。

6.一种数据处理方法，其特征在于，包括：

在获取到包括样本音频数据和样本文本数据的样本数据时，从所述样本音频数据中的样本干声数据中，分别提取样本节奏数据、样本音频帧数据以及样本基音数据；所述样本音频数据携带样本标签；所述样本标签用于表征所述样本音频数据对应的实际文本数据；

获取初始音频识别模型中的词典数据，基于所述实际文本数据、所述词典数据以及所述样本基音数据进行音素转化处理，得到样本音素串；

基于所述样本节奏数据以及音素状态参数，对所述样本音频帧数据进行状态对齐处理，得到与所述样本音素串相关联的样本起止时间集；

基于所述样本音频帧数据对应的样本声学特征以及所述样本起止时间集，确定与所述样本音素串相关联的样本音素序列的样本声学特征概率；

基于所述样本文本数据、所述词典数据以及所述样本音素序列的样本声学特征概率，获取所述样本音素序列对应的预测文本数据；

基于所述样本文本数据、所述实际文本数据以及所述预测文本数据，对所述初始音频识别模型进行训练，得到音乐音频识别模型；所述音乐音频识别模型用于对待识别音乐的音乐文本数据进行预测。

7.根据权利要求6所述的方法，其特征在于，所述获取初始音频识别模型中的词典数据，基于所述实际文本数据、所述词典数据以及所述样本基音数据进行音素转化处理，得到样本音素串，包括：

获取初始音频识别模型中的词典数据，基于所述词典数据，对所述实际文本数据进行音素转化处理，确定所述样本基音数据对应的初始音素串；所述初始音素串携带第一音调；

获取与所述样本音频数据的音频类型相匹配的基音变更规则，基于所述初始音素串所属的基音频率区间，在所述基音变更规则中确定所述初始音素串对应的音调变更参数；

基于所述音调变更参数，将所述第一音调变更为第二音调，将具有所述第二音调的初始音素串确定为样本音素串。

8.根据权利要求6所述的方法，其特征在于，所述样本文本数据包括原始文本数据和歌词文本数据；

所述基于所述样本文本数据、所述实际文本数据以及所述预测文本数据，对所述初始音频识别模型进行训练，得到音乐音频识别模型，包括：

基于所述原始文本数据和所述歌词文本数据，确定所述初始音频识别模型中的初始语言模型的第一模型损失，基于所述第一模型损失对所述初始语言模型进行训练，得到业务语言模型；

基于所述实际文本数据以及所述预测文本数据，确定所述初始音频识别模型中的初始声学模型的第二模型损失，基于所述第二模型损失对所述初始声学模型的进行训练，得到业务声学模型；

将包括所述业务语言模型和所述业务声学模型的初始音频识别模型作为音乐音频识别模型。

9.一种数据处理装置，其特征在于，包括：

干声数据获取模块，用于获取待识别音乐中的音乐干声数据，分别提取所述音乐干声数据中的音乐节奏数据以及音乐音频帧数据；

音乐状态对齐模块，用于基于所述音乐节奏数据以及音素状态参数，对所述音乐音频帧数据进行状态对齐处理，得到与N个音素相关联的音素起止时间集；N为正整数；

特征概率确定模块，用于基于所述音乐音频帧数据对应的音乐声学特征以及所述音素起止时间集，确定与所述N个音素相关联的音乐音素序列的音乐声学特征概率；

文本数据确定模块，用于基于针对所述待识别音乐的词典数据，获取所述音乐音素序列对应的M个候选文本，基于所述音乐声学特征概率以及所述M个候选文本分别对应的文本序列概率，从所述M个候选文本中确定所述待识别音乐对应的音乐文本数据；M为正整数。

10.一种数据处理装置，其特征在于，包括：

样本音频获取模块，用于在获取到包括样本音频数据和样本文本数据的样本数据时，从所述样本音频数据中的样本干声数据中，分别提取样本节奏数据、样本音频帧数据以及样本基音数据；所述样本音频数据携带样本标签；所述样本标签用于表征所述样本音频数据对应的实际文本数据；

音素串获取模块，用于获取初始音频识别模型中的词典数据，基于所述实际文本数据、所述词典数据以及所述样本基音数据进行音素转化处理，得到样本音素串；

样本状态对齐模块，用于基于所述样本节奏数据以及音素状态参数，对所述样本音频帧数据进行状态对齐处理，得到与所述样本音素串相关联的样本起止时间集；

样本概率确定模块，用于基于所述样本音频帧数据对应的样本声学特征以及所述样本起止时间集，确定与所述样本音素串相关联的样本音素序列的样本声学特征概率；

预测文本获取模块，用于基于所述样本文本数据、所述词典数据以及所述样本音素序列的样本声学特征概率，获取所述样本音素序列对应的预测文本数据；

模型训练模块，用于基于所述样本文本数据、所述实际文本数据以及所述预测文本数据，对所述初始音频识别模型进行训练，得到音乐音频识别模型；所述音乐音频识别模型用于对待识别音乐的音乐文本数据进行预测。

11.一种计算机设备，其特征在于，包括：处理器、存储器以及网络接口；

处理器与存储器、网络接口相连，其中，网络接口用于提供数据通信功能，存储器用于存储计算机程序，处理器用于调用计算机程序，以使得计算机设备执行权利要求1-8任一项所述的方法。

12.一种计算机可读存储介质，其特征在于，计算机可读存储介质中存储有计算机程序，计算机程序适于由处理器加载并执行，以使得具有处理器的计算机设备执行权利要求1-8任一项所述的方法。

13.一种计算机程序产品，其特征在于，计算机程序产品包括计算机程序，计算机程序存储在计算机可读存储介质中，计算机程序适于由处理器读取并执行，以使得具有处理器的计算机设备实现权利要求1-8任一项所述方法的步骤。