CN115331648A

CN115331648A - 音频数据处理方法、装置、设备、存储介质及产品

Info

Publication number: CN115331648A
Application number: CN202210935243.9A
Authority: CN
Inventors: 袁微
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2022-08-03
Filing date: 2022-08-03
Publication date: 2022-11-11

Abstract

本申请实施例提供了一种音频数据处理方法、装置、设备、存储介质及产品，包括：获取样本多轨音频数据以及N个音频片段分别对应的标注音频特征信息；根据音频片段N₁的标注音频特征信息，确定音频片段N₁的预测音频特征信息；采用初始音频生成模型根据音频片段集合中的音频片段的标注音频特征信息，预测音频片段N_i的预测音频特征信息；若获取到N个音频片段分别对应的预测音频特征信息，则根据N个音频片段分别对应的标注音频特征信息，以及N个音频片段分别对应的预测音频特征信息，对初始音频生成模型进行调整，将调整后的初始音频生成模型用于生成目标多轨音频数据，从而基于人工智能技术实现多轨音频数据的自动化智能化生成。

Description

音频数据处理方法、装置、设备、存储介质及产品

技术领域

本申请涉及音频处理技术领域，尤其涉及一种音频数据处理方法、装置、设备、存储介质及产品。

背景技术

音频，如音乐，用于人们的日常休闲娱乐。例如，对于音乐来说，音乐的曲谱都是作曲家自己手动进行创作。由一些歌手基于该曲谱和歌词进行演唱，并在演唱的过程中进行录制，从而生成该歌曲。然而该方式不够自动化智能化。

发明内容

本申请实施例提供了一种音频数据处理方法、装置、设备及存储介质，可以实现音频数据的自动化智能化生成。

第一方面，本申请实施例提供了一种音频数据处理方法，包括：

获取样本多轨音频数据以及N个音频片段分别对应的标注音频特征信息；所述样本多轨音频数据包括至少两个演奏乐器生成的所述N个音频片段；N为大于或等于1的整数；

根据音频片段N₁的标注音频特征信息，确定所述音频片段N₁的预测音频特征信息；所述音频片段N₁为所述N个音频片段中播放时间最早的音频片段；

采用初始音频生成模型根据音频片段集合中的音频片段的标注音频特征信息，预测音频片段N_i的预测音频特征信息；所述音频片段N_i属于所述N个音频片段中除所述音频片段N₁以外的音频片段，i为大于1且小于或等于N的正整数；所述音频片段集合包括所述N个音频片段中播放时间位于所述音频片段N_i之前的所有音频片段；

若获取到所述N个音频片段分别对应的预测音频特征信息，则根据所述N个音频片段分别对应的标注音频特征信息，以及所述N个音频片段分别对应的预测音频特征信息，对所述初始音频生成模型进行调整，将调整后的初始音频生成模型确定为用于生成目标多轨音频数据的目标音频生成模型。

第二方面，本申请实施例提供了一种音频数据处理装置，包括：

获取模块，用于获取样本多轨音频数据以及N个音频片段分别对应的标注音频特征信息；所述样本多轨音频数据包括至少两个演奏乐器生成的所述N个音频片段；N为大于或等于1的整数；

确定模块，用于根据音频片段N₁的标注音频特征信息，确定所述音频片段N₁的预测音频特征信息；所述音频片段N₁为所述N个音频片段中播放时间最早的音频片段；

预测模块，用于采用初始音频生成模型根据音频片段集合中的音频片段的标注音频特征信息，预测音频片段N_i的预测音频特征信息；所述音频片段N_i属于所述N个音频片段中除所述音频片段N₁以外的音频片段，i为大于1且小于或等于N的正整数；所述音频片段集合包括所述N个音频片段中播放时间位于所述音频片段N_i之前的所有音频片段；

调整模块，用于若获取到所述N个音频片段分别对应的预测音频特征信息，则根据所述N个音频片段分别对应的标注音频特征信息，以及所述N个音频片段分别对应的预测音频特征信息，对所述初始音频生成模型进行调整，将调整后的初始音频生成模型确定为用于生成目标多轨音频数据的目标音频生成模型。

第三方面，本申请实施例提供了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现第一方面所述的方法的步骤。

第四方面，本申请实施例提供了一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现第一方面所述的方法的步骤。

第五方面，本申请实施例提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现第一方面所述的方法的步骤。

综上，计算机设备可以获取样本多轨音频数据以及N个音频片段分别对应的标注音频特征信息；根据音频片段N₁的标注音频特征信息，确定音频片段N₁的预测音频特征信息；采用初始音频生成模型根据音频片段集合中的音频片段的标注音频特征信息，预测音频片段N_i的预测音频特征信息；若获取到N个音频片段分别对应的预测音频特征信息，则根据N个音频片段分别对应的标注音频特征信息，以及N个音频片段分别对应的预测音频特征信息，对初始音频生成模型进行调整，将调整后的初始音频生成模型确定为用于生成目标多轨音频数据的目标音频生成模型，从而实现音频数据的自动化智能化生成。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种多媒体数据处理***的结构示意图；

图2是本申请实施例提供的一种音频处理方法的流程示意图；

图3是本申请实施例提供的一种样本音频特征信息的示例；

图4是本申请实施例提供的一种音频处理过程的示意图；

图5是本申请实施例提供的一种音频处理装置的结构示意图；

图6是本申请实施例提供的一种计算机设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。

音乐分为单轨音乐和多轨音乐。

多轨音乐指多个乐器共同演奏的音乐，例如，音乐1由小提琴和钢琴共同演奏而成，音乐1是多轨音乐。音乐2由吉他、贝斯和鼓共同演奏而成，音乐2也是多轨音乐。

多轨音乐的音频文件分为声音文件和乐器数字接口文件(MIDI，MusicalInstrument Digital Interface)文件。多轨音乐的声音文件和MIDI文件相互之间能够进行转换。即，多轨音乐的声音文件可以转录为多轨音乐的MIDI文件，多轨音乐的MIDI文件也能够逆转录为多轨音乐的声音文件。其中，声音文件的格式包括但不限于为Wave、AIF、Audio、MPEG等格式。MIDI文件的格式为MIDI。

声音文件是通过录音设备录制而成的音频文件，记录了多轨音乐的二进制采样数据。二进制采样数据是通过对录制的多轨音乐的声音根据模拟信号转换为数字信号得到的。

MIDI文件是计算机合成的音乐文件，记录了多轨音乐中各个乐器的各个音符的数字控制信号等信息。MIDI文件将音乐以计算机能够理解的语言进行描述。MIDI文件将音乐以字节的形式进行描述。

MIDI文件记录了音乐的各个小节的音乐数据，音乐数据包括在小节参与演奏的至少一种乐器的乐器信息、在小节参与演奏的每种乐器演奏的各个音符的音符信息等信息。乐器信息用于标识乐器。音符信息包括音符类型、发音时长、发音强度。

人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

语音技术(Speech Technology)的关键技术有自动语音识别技术(ASR)和语音合成技术(TTS)以及声纹识别技术。让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音成为未来最被看好的人机交互方式之一。

自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

本申请实施例提供的方案涉及人工智能的语音技术、自然语音处理技术等技术。

为了便于更清楚理解本申请，首先介绍实现本申请的多媒体数据处理方法的多媒体数据处理***，如图1所示，如图1所示，该媒体数据处理***中包括服务器10和终端集群，终端集群可以包括一个或者多个终端，这里将不对终端的数量进行限制。如图1所示，终端集群具体可以包括终端1、终端2、…、终端n；可以理解的是，终端1、终端2、终端3、…、终端n均可以与服务器10进行网络连接，以便于每个终端均可以通过网络连接与服务器10之间进行数据交互。

终端安装有为用户提供多音频制作平台，该音频制作平台可以是指网页、小程序以及音频制作程序等，终端可以通过音频制作平台中的目标音频生成模型自动生成音频数据，音频数据可以包括单轨音频数据或多轨音频数据，单轨音频数据可以是指由一种演奏乐器生成的，多轨音频数据可以是指由至少两个演奏乐器生成的。

可理解的是，服务器10可以是指用于为音频制作平台提供后端服务的设备，例如，服务器10可以对初始音频生成模型进行训练，得到用于生成音频数据的目标音频生成模型，将该目标音频生成模型发送至终端，为终端提供生成音频数据的服务。

其中，服务器可以是独立的一个物理服务器，也可以是至少两个物理服务器构成的服务器集群或者分布式***，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、中容分发网络(Content DeliveryNetwork，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端具体可以是指车载终端、智能手机、平板电脑、笔记本电脑、桌上型电脑、智能音箱、有屏音箱、智能手表等等，但并不局限于此。各个终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，同时，终端以及服务器的数量可以为一个或至少两个，本申请在此不做限制。

请参阅图2，为本申请实施例提供的一种音频数据处理方法的流程示意图。如图1所示，该方法可由图1中的终端来执行，也可以由图1中的服务器来执行，还可以由图1中的终端和服务器共同执行，本申请中用于执行该方法的设备可以统称为计算机设备。具体地，该方法包括如下步骤：

S201、获取样本多轨音频数据以及N个音频片段分别对应的标注音频特征信息。

其中，样本多轨音频数据可以为一个或多个。样本多轨音频数据可以是样本多轨音频的音频数据。样本多轨音频可以为样本多轨音乐。例如，样本多轨音乐为多轨音乐1，样本多轨音频数据为多轨音乐1的音频数据，或样本多轨音乐为多轨音乐2，样本多轨音频数据可以为将多轨音乐2的音频数据可以作为样本多轨音乐数据。

其中，样本多轨音乐由至少两个演奏乐器共同演奏而成。至少两个为两个及以上。例如，样本多轨音乐为多轨音乐1，多轨音乐1由小提琴和钢琴共同演奏而成，多轨音乐2由吉他、架子鼓、贝斯共同演奏而成。

样本多轨音频数据可以包括N个音频片段。N为大于或等于1的整数。音频片段的标注音频特征信息为音乐片段的真实音频特征信息。标注音频特征信息可以包括能够反映音频片段的音频特征的信息。

在一个实施例中，计算机设备获取N个音频片段分别对应的标注音频特征信息的方式可以为：计算机设备可以对所述样本多轨音频数据进行小节识别，得到所述样本多轨音频数据的M个音频小节，并对M个音频小节进行数据分析，得到M个音频小节分别对应的音频片段，以及得到M个音频小节分别对应的音频片段的标注音频特征信息。其中，所述的N个音频片段可以包括M个音频小节分别对应的音频片段。在一个实施例中，N个音频片段也可以仅包括音频小节1-音频小节p分别的音频片段。其中，p大于或等于1，且小于M，p为正整数。也就是说，N个音频片段可以仅包括M个音频小节分别对应的音频片段中的部分音频片段。或者，N个音频片段也可以包括音频小节p-M分别的音频片段。

在一个实施例中，计算机设备对所述样本多轨音频数据进行小节识别，得到所述样本多轨音频数据的M个音频小节的方式可以为：计算机设备对样本多轨音频数据进行节拍检测，得到节拍检测结果，并根据节拍检测结果确定样本多轨音频数据的M个音频小节。其中，节拍检测结果可以包括样本多轨音频数据的所有音乐节拍以及所有音乐节拍分别的出现时间，此处音乐节拍指单位拍。由于音频小节的划分与强拍的出现位置有关，因此可以根据节拍检测结果确定样本多轨音频数据的M个音频小节。举例来说，若样本多轨音频数据的所有音频节拍依次为强、弱、强、弱、强、弱，那么根据所有这个音频节拍，便可以确定样本音频数据的3个小节。

下面以音频小节M_j为例，对M个音频小节进行数据分析，得到M个音频小节分别对应的音频片段，以及得到M个音频小节分别对应的音频片段的标注音频特征信息的方式进行介绍。其中，音频小节M_j可以为M个音频小节中的任一音频小节。j为小于或等于M的正整数。

具体地，计算机设备可以对音频小节M_j进行音符识别，得到音频小节M_j对应的音频片段，以及音频小节M_j对应的音频片段的基本音频属性；计算机设备根据音频小节M_j对应的音频片段的基本音频属性，确定音频小节M_j对应的音频片段的标注音频特征信息。其中，音频小节M_j可以包括一个或多个音频片段。音频小节M_j内的一个音符与一个音频片段对应。

其中，标注音频特征信息可以包括音频节拍类别、发音速度、音符类型、和弦特征、演奏乐器类别、音符信息。为了便于区分各个音频片段所处的音频小节，标注音频特征信息可以包括小节标识、音频节拍类别、发音速度、和弦特征、演奏乐器类别、音符信息。其中，音符信息可以包括音符类型、发音时长、发音强度。小节标识用于标识音频片段所在的小节。小节标识包括但不限于为小节名称或小节编码。音频节拍类别表示在小节使用的节拍类型，用拍号表示。音频节拍类别包括但不限于为1/16拍、3/16拍、5/16拍。参见表1，音频节拍类别可以为1/16note position*(1-16)。其中，1–16表示1至16。1/16note position表示16分音符。发音速度用于衡量节奏的快慢，为单位时间内的拍子数，如1分钟的拍子数。参见表1，发音速度可以为180种bpm中的一种，具体可以是30–209bpm中的一种。和弦特征指小节采用的和弦类型。此处的和弦类型由根音和品质组合而成。参见表1，和弦特征可以为132种和弦中的一种。12种根音和11种品质两两组合，可以形成132种和弦。演奏乐器类别指演奏音频片段的乐器所属乐器类别。参见表1，演奏乐器类别可以为10种乐器类别中的一种。10种乐器类别包括鼓、钢琴、色彩敲击乐器、风琴、吉他、贝斯、弦乐、铜管、簧管、笛。其中，发音时长为音符时长，音符时长指音频片段内音符的音符时长，为64种音符时长中的一种。音符时长的表达式为1/32note duration*(1-64)。1/32note duration表示32分音符。(1-64)为1至64。发音强度为音符力度。音频片段内音符的音符力度可以为32种音符力度中的一种。

表1

在一个实施例中，音频小节M_j的目标音频片段的基本音频属性包括目标音频片段的音符类型、发音强度、发音时长、音色、音频节拍。目标音频片段为所述音频小节M_j对应的音频片段中的任一音频片段。下面对根据音频小节M_j对应的音频片段的基本音频属性，确定音频小节M_j对应的音频片段的标注音频特征信息的方式进行介绍。

在一个实施例中，为了减少模型处理的数据的维度，可以对目标音频片段的初始发音强度进行归类。初始发音强度是在音符识别后得到的发音强度。具体地，计算机设备可以根据目标音频片段的初始发音强度，确定初始发音强度所处的发音强度范围，确定所述发音强度范围对应的目标发音强度，以作为目标音频片段对应的发音强度。由于力度有32种，将力度范围0-127均匀映射到1-32，例如0-3映射为1。例如，目标音频片段的初始发音强度为1，可以确定初始发音强度1属于0-3，0-3对应的目标发音力度为4，可以确定目标音频片段的发音强度为4。再如，目标音频片段的初始发音强度为5，可以确定初始发音强度5属于5-7，5-7对应的目标发音力度为8，可以确定目标音频片段的发音强度为8。

在一个实施例中，在标注音频特征信息包括音乐节拍类别时，计算机设备根据音频小节M_j对应的音频片段的基本音频属性，确定音频小节M_j对应的音频片段的标注音频特征信息的方式可以为：计算机设备对音频小节M_j对应的所有音频片段的发音强度进行分布检测，确定音频小节M_j对应的发音强度分布特征，根据音频小节M_j对应的发音强度分布特征，确定目标音频片段的音频节拍类别。在一个实施例中，计算机设备根据音频小节M_j对应的发音强度分布特征，确定目标音频片段的音频节拍类别的方式可以是根据音频小节M_j对应的发音强度分布特征确定音频小节的M_j对应的音乐节拍，根据所述音频小节的M_j对应的各个音乐节拍确定音频小节的M_j的音频节拍类别，作为目标音频片段的音频节拍类别。在一个实施例中，计算机设备除了采用上述方式确定目标音频片段的音频节拍类别，还可以根据目标小节M_j以及节拍检测结果确定目标小节对应的各个音频节拍，并根据目标小节对应的各个音频节拍确定目标小节的音频节拍类别，将目标小节的音频节拍类别确定为目标音频片段的音频节拍类别。

在一个实施例中，在标注音频特征信息包括和弦特征时，计算机设备根据音频小节M_j对应的音频片段的基本音频属性，确定音频小节M_j对应的音频片段的标注音频特征信息的方式可以为：计算机设备根据音频小节M_j对应的所有音频片段的音符类型，确定目标音频片段的和弦特征；音频小节M_j对应的不同音频片段之间的和弦特征相同。相当于说，上述过程能够确定出音频小节M_j对应的和弦特征，并将音频小节M_j对应的和弦特征作为目标音频片段的和弦特征。

在一个实施例中，在标注音频特征信息包括演奏乐器类别时，计算机设备根据音频小节M_j对应的音频片段的基本音频属性，确定音频小节M_j对应的音频片段的标注音频特征信息的方式可以为：根据目标音频片段的音色，确定目标音频片段对应的演奏乐器类别。其中，音色能够用于区别一种乐器与其它乐器。

在一个实施例中，为了减少模型处理的数据的维度，可以对根据目标音频片段确定出的演奏乐器进行归类。具体地，计算机设备根据所述目标音频片段的音色，确定所述目标音频片段对应的演奏乐器类别的方式可以为根据所述目标音频片段的音色，确定所述目标音频片段对应的初始演奏乐器；从乐器类别映射表，查询所述初始演奏乐器所属的演奏乐器类别，将所述初始演奏乐器所属的演奏乐器类别确定为所述目标音频片段对应的演奏乐器类别。例如，当根据目音频片段识别出的音色，确定目标音频片段对应的初始演奏乐器为大鼓，若乐器类别表存在大鼓与色彩击打乐器的映射关系，则将色彩击打乐器确定为目标音频片段对应的演奏乐器类别。

在一个实施例中，在标注音频特征信息包括发音速度时，计算机设备根据音频小节M_j对应的音频片段的基本音频属性，确定音频小节M_j对应的音频片段的标注音频特征信息的方式可以为：根据音频小节M_j对应的所有音频片段的发音时长，以及音频小节M_j对应的所有音频片段的音频节拍，确定目标音频片段的发音速度；音频小节M_j对应的不同音频片段之间的发音速度均相同。在一个实施例中，计算机设备可以根据音频小节M_j对应的所有音频片段的发音时长确定音频小节M_j的发音时长，根据音频小节M_j的发音时长以及音频小节M_j对应的所有音频片段的音频节拍，确定单个音频节拍的发音时长，从而将根据单个节拍的发音时长计算得到的发音速度作为目标音频片段的发音速度。需要说明的是，根据音频小节M_j对应的所有音频片段的发音时长，以及音频小节M_j对应的所有音频片段的音频节拍，确定目标音频片段的发音速度的方式包括但不限于采用这种方式。在一个实施例中，计算机设备确定音频小节M_j对应的所有音频片段的发音时长的方式，还可以是通过在一个实施例中，计算机设备还可以根据节拍检测结果确定音频小节M_j中每相邻两节拍之间的时间间隔，从而将根据音频小节M_j中每相邻两节拍之间的时间间隔计算得到的发音速度，作为目标音乐片段的发音速度。在一个实施例中，计算机设备可以从音频小节M_j中每相邻两节拍之间的时间间隔中任选一时间间隔用于计算发音速度，或者计算每相邻两节拍之间的时间间隔之间的平均值，根据计算得到的平均值计算发音速度。需要说明的是，根据音频小节M_j中每相邻两节拍之间的时间间隔计算得到的发音速度的方式，包括但不限于上述方式。

在一个实施例中，计算机设备还可以获取目标音频片段的初始发音时长；根据目标音频片段的发音速度，对目标发音片段的初始发音时长进行调整，得到目标发音片段的发音时长。其中，目标音频片段的初始发音时长，是指目标音频片段未利用发音速度调整的发音时长。由于人演奏音乐的节奏的误差，一个音频节拍对应的至少一个音符的发音时长之和与另一个音频节拍对应的至少一个音符的发音时长之和可能不同，或者一个音频节拍内的各个音符间的时值不一致。本方案在确定出速度后，可以确定单位音频节拍的时长，然后利用单位节拍的时长去调整音符的时长，调整的方式可以是增加音符的时长或减少音符的时长。在一个实施例中，计算机设备还可以为所述音乐小节M_j生成小节属性信息(用于表示音乐小节M_j是小节)，所述演奏乐器类型生成乐器属性信息(用于表示演奏乐器类型是乐器)，为所述和弦特征、音频节拍类型、发音速度生成韵律属性信息(表示这一组数据为韵律相关)、为所述音频类型、发音强度、发音速度生成音符属性信息(表示这组数据为音符相关)；在一个实施例中，标注音频特征信息除包括音频节拍类别、和弦特征、演奏乐器类别、音符类型、发音强度、发音时长、发音速度之外，还包括上述属性信息。若N个音频片段中存在多个音频片段属于同一音频小节，则多个音频片段分别对应的小节标识相同、多个音频片段分别对应的音频节拍类型相同、多个音频片段分别对应的和弦特征相同、多个音频片段分别对应的发音速度相同。

S202、将音频片段N₁的标注音频特征信息，确定为所述音频片段N₁的预测音频特征信息。

S203、采用初始音频生成模型根据音频片段集合中的音频片段的标注音频特征信息，预测音频片段N_i的预测音频特征信息。

S204、若获取到所述N个音频片段分别对应的预测音频特征信息，则根据所述N个音频片段分别对应的标注音频特征信息，以及所述N个音频片段分别对应的预测音频特征信息，对所述初始音频生成模型进行调整，将调整后的初始音频生成模型确定为用于生成目标多轨音频数据的目标音频生成模型。

其中，所述音频片段N₁为所述N个音频片段中播放时间最早的音频片段。N_i属于所述N个音频片段，i为大于或等于1且小于N的正整数；所述音频片段集合包括所述N个音频片段中播放时间位于所述音频片段N_i之前的所有音频片段。

在步骤S202-步骤S204中，计算机设备可以将N个音频片段的标注特征信息输入初始音频生成模型，计算机设备可以利用初始音频生成模型以根据音频片段N₁的标注音频特征信息，预测得到音频片段2的预测音频特征信息；利用初始音频生成模型以根据音频片段N₁的标注音频特征信息和音频片段的N₂的标注音频特征信息，预测得到音频片段3的预测音频特征信息，依次类推，直到得到音频片段N的预测音频特征信息。计算机设备可以根据N个音频片段分别对应的标注音频特征信息以及N个音频片段分别对应的预测音频特征信息，确定初始音频生成模型的音频特征预测误差，若音频特征预测误差未处于收敛状态，则根据音频特征预测误差对初始音频生成模型进行调整，得到调整后的初始音频生成模型。

其中，计算机设备根据N个音频片段分别对应的标注音频特征信息以及N个音频片段分别对应的预测音频特征信息，确定初始音频生成模型的音频特征预测误差的方式可以是计算机设备分别计算N个音频片段分别对应的标注音频特征信息与该音频片段对应的预测音频特征信息之间音频预测误差，以得到N个音频预测误差，从将N个音频预测误差之和确定为初始音频生成模型的音频特征预测误差。上述过程中，计算机设备可以每预测得到一个音频片段对应的预测音频特征信息，便根据该音频片段对应的预测音频特征信息计算得到一个音频预测误差。或者，还可以在得到N个音频片段分别对应的预测音频特征信息后，计算每个音频片段分别对应的标注音频特征信息与该音频片段对应的预测特征信息之间的音频预测误差。

在一个实施例中，初始音频生成模型可以采用transformer模型，例如可以为linear transformer模型。transformer模型包括encoder编码器，而本申请可以利用N个音频片段分别对应的标注音频特征信息训练transformer模型的编码器，并通过训练后的encoder结构以进行音频片段的音频特征信息的预测。transformer模型包括的编码器的数量可以为一个或多个。在一个实施例中，编码器包括词嵌入编码层，位置编码层，还包括多头注意力层、与多头注意力层连接的第一个相加并归一化层，第一个相加并归一化层还连接了全连接神经网络，全连接神经网络还连接了第二个相加并归一化层，至少一个编码器的最后一层编码器连接有全连接神经网络。全连接神经网络包括多个预测头，包括用于预测小节标识的预测模块，用于预测音频节拍类别的预测模块、用于预测发音速度的预测模块、用于预测和弦特征的预测模块、用于预测演奏乐器类别的预测模块、用于预测音符信息的预测模块。其中，用于预测音符信息的预测模块分别为用于预测音符类型的预测模块、用于预测发音时长的预测模块、用于预测发音强度的预测模块。在一个实施例中，多个预测头还可以在此基础上包括用于预测前述提及的属性信息的预测模块。

在一个实施例中，计算机设备可以获取参考音频片段的音频特征信息，并采用目标音频生成模型对参考音频片段的音频特征信息进行识别，得到K个音频片段对应的音频特征信息；对参考音频片段的音频特征信息和K个音频片段对应的音频特征信息进行融合，得到融合音频特征信息，根据融合音频特征信息生成目标多轨音频数据。其中，参考音频片段为待预测的音频片段。具体来讲，计算机设备利用目标音频生成模型，以根据参考音频片段对应的音频特征信息预测得到第一个音频片段对应的音频特征信息，随后由目标音频生成模型根据参考音频片段对应的音频特征信息以及第一个音频片段对应的音频特征信息预测得到第二个音频片段对应的音频特征信息，如此循环，直到满足预测任务结束条件，得到第K个音频片段对应的音频特征信息。在得到第K个音频片段对应的音频特征信息后，可以输出第K个音频片段对应的音频特征信息，和/或可以输出参考音频片段对应的音频特征信息以及所述K个音频片段对应的音频特征信息，或可以根据参考音频片段对应的音频特征信息以及所述K个音频片段对应的音频特征信息生成目标多轨音乐数据后输出。具体地，可以是对参考音频片段的音频特征信息和K个音频片段对应的音频特征信息进行融合，得到融合音频特征信息，根据融合音频特征信息生成目标多轨音频数据。需要说明的是，根据应用场景的不同，还可以设置其他的预测停止条件，本申请在此不一一赘述。

在一个实施例中，若N个音频片段中存在多个音频片段属于同一小节，则多个音频片段分别对应的小节标识相同、多个音频片段分别对应的音频节拍类型相同、多个音频片段分别对应的和弦特征相同、多个音频片段分别对应的发音速度相同，因此本申请实施例中可以将同一小节的多个音频片段分别对应的标注音频特征信息可以融合为图3所示的形式，其中，不同小节的多个音频片段分别对应的标注音频特征信息之间也参见图3所示的形式进行融合。在图3中，图3所示的第一列数据为小节1。小节1为第一小节的小节标识。图3所示的第二列数据，由下到上依次为节拍(1/16)、速度、和弦。节拍(1/16)为本申请实施例提及的音频节拍类型、速度为本申请实施例提及的发音速度、和弦为本申请实施例提及的和弦特征。图3所示的第三列数据为乐器(1)，乐器(1)为本申请实施例提到的演奏乐器类型。图3所示的第四列-第六列表示由乐器(1)在小节1依次演奏的音符的音符信息。图3所示的第四列数据由下到上分别为音高、时长、力度，此处音高为该位置的音符对应的音符类型，时长为对应音符的发音时长，力度为对应音符的发音强度。图3所示的第五列数据由下到上分别为音高、时长、力度，此处音高为该位置对应音符的音符类型，时长为该位置对应音符的发音时长，力度为该位置对应音符的发音强度。图3所示的第六列数据由下到上分别为音高、时长、力度，此处音高为该位置对应音符的音符类型，时长为该位置对应音符的发音时长，力度为该位置对应音符的发音强度。关于图3中除第一-第七列以外的其它列数据的可参考上述描述理解，在此不做赘述。在一个实施例中，可以将如图3所示的每一列数据构建为一个复合词输入初始音频生成模型以对初始音频生成模型进行训练。相应地，目标音频生成模型便可以实现候选可以根据用户新输入的某一列数据，如根据用户输入的小节标识实现其它列数据的生成，即实现音频片段的音频特征信息的自动生成。

计算机设备可以获取样本多轨音频数据以及N个音频片段分别对应的标注音频特征信息；根据音频片段N₁的标注音频特征信息，确定音频片段N₁的预测音频特征信息；采用初始音频生成模型根据音频片段集合中的音频片段的标注音频特征信息，预测音频片段N_i的预测音频特征信息；若获取到N个音频片段分别对应的预测音频特征信息，则根据N个音频片段分别对应的标注音频特征信息，以及N个音频片段分别对应的预测音频特征信息，对初始音频生成模型进行调整，将调整后的初始音频生成模型确定为用于生成目标多轨音频数据的目标音频生成模型，从而实现音频数据的自动化生成。

参见图4，为对本申请实施例提供的一种音频数据处理过程进行阐述。

计算机设备可以获取多轨音乐的声音数据(对应于样本多轨音频数据)，并将多轨音乐的音频数据转换为MIDI数据。也就是说，计算机设备可以获取多轨音乐的声音文件(包括音频数据，将多轨音乐的音频文件转录为MIDI文件(包括MIDI数据)。其中，计算机设备可以采用可以通过MIDI自动化转录技术将样本多轨音频数据转录为MIDI数据。

计算机设备可以从MIDI文件中获取到多轨音乐的N个音频片段分别对应的部分音频特征信息(对应于样本音频特征信息中的部分信息)。计算机设备还可以根据声音文件确定出多轨音乐的N个音频片段分别对应的剩下部分音频特征信息。此处，假设1个音频片段为一个音符所在的音频片段。

由于MIDI文件中记录有每个音频片段的部分音频特征信息，因此，可以从MIDI文件中获取每个音频片段的部分音频特征信息。需要说明的是，可以对从MIDI文件中读取的部分音频特征信息进行数据转换，得到最终输入初始音频生成模型的音频特征信息。因为MIDI文件记录的是一条条的指令，因为可以将其转换为表1展示的最终输入初始音频生成模型信息，提升音频特征信息预测过的可解释性。其中，计算机设备从MIDI文件中每个音频片段的部分音频特征信息，包括：演奏乐器类型、音符类型、发音强度、发音时长。

由于MIDI文件不含小节标识的相关标识信息以及音频节拍类型相关的指示信息，因此本方案可以根据声音文件确定每个音乐片段对应的音频小节的小节标识和音频节拍类型。具体地，对于如何生成音频小节的小节标识以及音频节拍类型的方式可参见前文描述，在此不做赘述。

此外，由于MIDI文件不含和弦相关标识信息，本申请可以基于MIDI文件采用如下方式生成和弦特征。具体地，显示关于所述MIDI文件的音频编辑界面；所述音频编辑界面包括由所述多个音频构成的时间轴、所述多轨音乐关联的至少一个乐器的音符序列，所述音符序列包括所述至少一个乐器按照所述时间轴依次演奏各个音符的音符图像；在所述音频编辑界面滑动窗口，每滑动一次窗口获得所述窗口内的图像，根据每次获得的所述窗口内的图像，确定所述窗口内的图像出现的图像所对应的音符类型；根据所述窗口内的图像出现的图像所对应的音符类型，确定多个音频小节对应的和弦特征。此外，由于MIDI文件不包括速度信息，速度信息可以参见前文描述的获取方式，在此不做赘述。

至此，便可以得到每个音乐片段对应的音频特征信息以输入transformer模型(原始音频生成模型)进行训练，训练过程参见前文，在此不做赘述。在得到训练后的transformer模型后，便可以用于音频片段的音频特征信息的生成，通过将预测输出的音频片段的音频特征信息进行逆转录，便可以得到MIDI文件。

请参阅图5，为本申请实施例提供的一种音频数据处理装置的结构示意图。该音频处理装置可以应用于前述提及的终端。具体地，该装置包括获取模块501、确定模块502、预测模块503、调整模块504。其中：

在一个实施例中，获取模块获取N个音频片段分别对应的标注音频特征信息，包括：

对所述样本多轨音频数据进行节拍检测，得到所述样本多轨音频数据的M个音频小节；M大于或等于1的整数；

对音频小节M_j进行音符识别，得到所述音频小节M_j对应的音频片段，以及所述音频小节M_j对应的音频片段的基本音频属性；j为小于或等于M的正整数，所述音频小节M_j内的一个音符与一个音频片段对应，所述M个音频小节对应的音频片段的数量为N个；

根据所述音频小节M_j对应的音频片段的基本音频属性，确定所述音频小节M_j对应的音频片段的标注音频特征信息。

在一个实施例中，所述音频小节M_j对应的目标音频片段的基本音频属性包括所述目标音频片段的音符类型、发音强度、发音时长、音色、音频节拍；所述目标音频片段为所述音频小节M_j对应的音频片段中的任一音频片段。

在一个实施例中，确定模块根据所述音频小节M_j对应的音频片段的基本音频属性，确定所述音频小节M_j对应的音频片段的标注音频特征信息，包括：

对所述音频小节M_j对应的所有音频片段的发音强度进行分布检测，确定所述音频小节M_j对应的发音强度分布特征；

根据所述音频小节M_j对应的发音强度分布特征，确定所述目标音频片段的音频节拍类别；

根据所述音频小节M_j对应的所有音频片段的音符类型，确定所述目标音频片段的和弦特征；所述音频小节M_j对应的不同音频片段之间的和弦特征相同；

根据所述目标音频片段的音色，确定所述目标音频片段对应的演奏乐器类别；

根据所述音频小节M_j对应的所有音频片段的发音时长，以及所述音频小节M_j对应的所有音频片段的音频节拍，确定所述目标音频片段的发音速度；所述音频小节M_j对应的不同音频片段之间的发音速度均相同；

将所述目标音频片段对应的音频节拍类别、和弦特征、演奏乐器类别、音符类型、发音强度、发音时长、发音速度，确定为所述目标音频片段的标注音频特征信息。

在一个实施例中，确定模块根据所述目标音频片段的音色，确定所述目标音频片段对应的演奏乐器类别，包括：

根据所述目标音频片段的音色，确定所述目标音频片段对应的初始演奏乐器；

从乐器类别映射表，查询所述初始演奏乐器所属的演奏乐器类别，将所述初始演奏乐器所属的演奏乐器类别确定为所述目标音频片段对应的演奏乐器类别。

在一个实施例中，确定模块根据所述音频小节M_j对应的所有音频片段的发音时长，以及所述音频小节M_j对应的所有音频片段的音频节拍，确定所述目标音频片段的发音速度，包括：

根据所述音频小节M_j对应的所有音频片段的音频节拍，统计所述音频小节M_j内的音频节拍总数量；

根据所述音频小节Mj对应的所有音频片段的发音时长，计算所述音频小节Mj对应的发音总时长；

将所述发音总时长与所述音频节拍总数量之间的比值，确定所述目标音频片段的发音速度。

在一个实施例中，获取模块，还用于获取所述目标音频片段的初始发音时长。

在一个实施例中，调整模块，还用于根据所述目标音频片段的发音速度，对所述目标发音片段的初始发音时长进行调整，得到所述目标发音片段的发音时长。

在一个实施例中，调整模块，还用于根据所述N个音频片段分别对应的标注音频特征信息，以及所述N个音频片段分别对应的预测音频特征信息，对所述初始音频生成模型进行调整，包括：

根据所述N个音频片段分别对应的标注音频特征信息，以及所述N个音频片段分别对应的预测音频特征信息，确定所述初始音频生成模型的音频特征预测误差；

若所述音频特征预测误差未处于收敛状态，则根据所述音频特征预测误差对所述初始音频生成模型进行调整，得到调整后的初始音频生成模型。

在一个实施例中，预测模块，还用于：

获取参考音频片段的音频特征信息；

采用所述目标音频生成模型对所述参考音频片段的音频特征信息进行识别，得到K个音频片段对应的音频特征信息；

对所述参考音频片段的音频特征信息和所述K个音频片段对应的音频特征信息进行融合，得到融合音频特征信息；

根据所述融合音频特征信息生成目标多轨音频数据。

可见，音频处理装置可以获取样本多轨音频数据以及N个音频片段分别对应的标注音频特征信息；根据音频片段N₁的标注音频特征信息，确定音频片段N₁的预测音频特征信息；采用初始音频生成模型根据音频片段集合中的音频片段的标注音频特征信息，预测音频片段N_i的预测音频特征信息；若获取到N个音频片段分别对应的预测音频特征信息，则根据N个音频片段分别对应的标注音频特征信息，以及N个音频片段分别对应的预测音频特征信息，对初始音频生成模型进行调整，将调整后的初始音频生成模型确定为用于生成目标多轨音频数据的目标音频生成模型，从而实现音频数据的自动化生成。

请参见图6，是本申请实施例提供的一种计算机设备的结构示意图。如图6所示，上述计算机设备1000可以包括：处理器1001，网络接口1004和存储器1005，此外，上述计算机设备1000还可以包括：用户接口1003，和至少一个通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。其中，用户接口1003可以包括显示屏(Display)、键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是非易失性的存储器(non-volatile memory)，例如至少一个磁盘存储器。存储器1005可选的还可以是至少一个在远离前述处理器1001的存储装置。如图6所示，作为一种计算机可读存储介质的存储器1005中可以包括操作***、网络通信模块、用户接口模块以及设备控制应用程序。

在图6所示的计算机设备1000中，网络接口1004可提供网络通讯功能；而用户接口1003主要用于提供输入的接口；而处理器1001可以用于调用存储器1005中存储的设备控制应用程序，以实现：

在一个实施例中，处理器1001可以用于调用存储器1005中存储的设备控制应用程序，以实现获取N个音频片段分别对应的标注音频特征信息，包括：

在一个实施例中，所述音频小节M_j对应的目标音频片段的基本音频属性包括所述目标音频片段的音符类型、发音强度、发音时长、音色、音频节拍；所述目标音频片段为所述音频小节M_j对应的音频片段中的任一音频片段；

处理器1001可以用于调用存储器1005中存储的设备控制应用程序，以实现根据所述音频小节M_j对应的音频片段的基本音频属性，确定所述音频小节M_j对应的音频片段的标注音频特征信息，包括：

在一个实施例中，处理器1001可以用于调用存储器1005中存储的设备控制应用程序，以实现根据所述目标音频片段的音色，确定所述目标音频片段对应的演奏乐器类别，包括：

在一个实施例中，处理器1001可以用于调用存储器1005中存储的设备控制应用程序，以实现根据所述音频小节M_j对应的所有音频片段的发音时长，以及所述音频小节M_j对应的所有音频片段的音频节拍，确定所述目标音频片段的发音速度，包括：

在一个实施例中，处理器1001可以用于调用存储器1005中存储的设备控制应用程序，以实现：

获取所述目标音频片段的初始发音时长；

根据所述目标音频片段的发音速度，对所述目标发音片段的初始发音时长进行调整，得到所述目标发音片段的发音时长。

在一个实施例中，处理器1001可以用于调用存储器1005中存储的设备控制应用程序，以实现根据所述N个音频片段分别对应的标注音频特征信息，以及所述N个音频片段分别对应的预测音频特征信息，对所述初始音频生成模型进行调整，包括：

获取参考音频片段的音频特征信息；

根据所述融合音频特征信息生成目标多轨音频数据。

应当理解，本申请实施例中所描述的计算机设备1000可执行前文图2所对应实施例中对音频数据处理方法的描述，也可执行前文图5所对应实施例中对音频数据处理装置的描述，在此不再赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。

此外，这里需要指出的是：本申请实施例还提供了一种计算机可读存储介质，且上述计算机可读存储介质中存储有前文提及的音频数据处理装置所执行的计算机程序，且上述计算机程序包括程序指令，当上述处理器执行上述程序指令时，能够执行前文图2以及前文图4对应实施例中对上述音频数据处理方法的描述，因此，这里将不再进行赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。对于本申请所涉及的计算机可读存储介质实施例中未披露的技术细节，请参照本申请方法实施例的描述。

作为示例，上述程序指令可被部署在一个计算机设备上执行，或者被部署在一个地点的至少两个计算机设备上执行，又或者，在分布在至少两个地点且通过通信网络互连的至少两个计算机设备上执行，分布在至少两个地点且通过通信网络互连的至少两个计算机设备可以组成区块链网络。

上述计算机可读存储介质可以是前述任一实施例提供的音频数据处理装置或者上述计算机设备的中部存储单元，例如计算机设备的硬盘或中存。该计算机可读存储介质也可以是该计算机设备的外部存储设备，例如该计算机设备上配备的插接式硬盘，智能存储卡(smart media card，SMC)，安全数字(secure digital，SD)卡，闪存卡(flash card)等。进一步地，该计算机可读存储介质还可以既包括该计算机设备的中部存储单元也包括外部存储设备。该计算机可读存储介质用于存储该计算机程序以及该计算机设备所需的其他程序和数据。该计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。

本申请实施例的说明书和权利要求书及附图中的术语“第一”、“第二”等是用于区别不同媒体中容，而非用于描述特定顺序。此外，术语“包括”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、装置、产品或设备没有限定于已列出的步骤或模块，而是可选地还包括没有列出的步骤或模块，或可选地还包括对于这些过程、方法、装置、产品或设备固有的其他步骤单元。

本申请实施例还提供了一种计算机程序产品，包括计算机程序/指令，所述计算机程序/指令被处理器执行时实现前文图4和图2对应实施例中对上述音频数据处理方法的描述，因此，这里将不再进行赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。对于本申请所涉及的计算机程序产品的实施例中未披露的技术细节，请参照本申请方法实施例的描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

本申请实施例提供的方法及相关装置是参照本申请实施例提供的方法流程图和/或结构示意图来描述的，具体可由计算机程序指令实现方法流程图和/或结构示意图的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。这些计算机程序指令可提供到通用计算机、专用计算机、嵌入式处理机或其他可编程网络连接设备的处理器以产生一个机器，使得通过计算机或其他可编程网络连接设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或结构示意图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程网络连接设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或结构示意图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程网络连接设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或结构示意一个方框或多个方框中指定的功能的步骤。

以上所揭露的仅为本申请较佳实施例而已，当然不能以此来限定本申请之权利范围，因此依本申请权利要求所作的等同变化，仍属本申请所涵盖的范围。

Claims

1.一种音频数据处理方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述获取N个音频片段分别对应的标注音频特征信息，包括：

3.根据权利要求2所述的方法，所述音频小节M_j对应的目标音频片段的基本音频属性包括所述目标音频片段的音符类型、发音强度、发音时长、音色、音频节拍；所述目标音频片段为所述音频小节M_j对应的音频片段中的任一音频片段；

所述根据所述音频小节M_j对应的音频片段的基本音频属性，确定所述音频小节M_j对应的音频片段的标注音频特征信息，包括：

4.根据权利要求3所述的方法，其特征在于，所述根据所述目标音频片段的音色，确定所述目标音频片段对应的演奏乐器类别，包括：

5.根据权利要求3所述的方法，其特征在于，所述根据所述音频小节M_j对应的所有音频片段的发音时长，以及所述音频小节M_j对应的所有音频片段的音频节拍，确定所述目标音频片段的发音速度，包括：

6.根据权利要求5所述的方法，其特征在于，所述方法还包括：

获取所述目标音频片段的初始发音时长；

7.根据权利要求1所述的方法，其特征在于，所述根据所述N个音频片段分别对应的标注音频特征信息，以及所述N个音频片段分别对应的预测音频特征信息，对所述初始音频生成模型进行调整，包括：

8.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取参考音频片段的音频特征信息；

根据所述融合音频特征信息生成目标多轨音频数据。

9.一种音频数据处理装置，其特征在于，包括：

10.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述的方法的步骤。

11.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至8中任一项所述的方法的步骤。

12.一种计算机程序产品，包括计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至8中任一项所述的方法的步骤。