CN112562647B

CN112562647B - 一种音频起始点的标注方法及装置

Info

Publication number: CN112562647B
Application number: CN202011328460.9A
Authority: CN
Inventors: 王军; 马连航; 文亮; 汪万涛; 阮林萍; 赵罡
Original assignee: CETHIK Group Ltd
Current assignee: CETHIK Group Ltd
Priority date: 2020-11-24
Filing date: 2020-11-24
Publication date: 2022-09-06
Anticipated expiration: 2040-11-24
Also published as: CN112562647A

Abstract

本发明公开了一种音频起始点的标注方法及装置，方法包括：获取音频源文件，对音频源文件进行时频分析，得到频谱能量图；对频谱能量图进行平滑滤波；以音频源文件中的时域作为横坐标，振幅为纵坐标建立波形图，将波形图和平滑滤波后的频谱能量图的横坐标的时域对齐，并在对齐后进行上下拼接得到对比图进行展示；根据展示的对比图生成起始点标注信息；以接收的多个时间点初步确定音频源文件中对应的多个起始点，判断并删除多个起始点中的错误起始点；根据最终确定的起始点对应的时间点，将音频源文件中对应时间点的音频帧标注为起始帧，并导出作为标注样本。本发明具备标注准确性高、泛化性强的优点。

Description

一种音频起始点的标注方法及装置

技术领域

本申请属于音频信号分析与处理技术领域，具体涉及一种音频起始点的标注方法及装置。

背景技术

音符起始点是音乐特征信息中最基础的特征，指的是音乐中某一音符开始的时间。如图1所示，一个音符时间域信息中起始(Attack)阶段能量突然上升，一段过渡期(Transient)后能量逐渐下降(Decay)，其中起始(Attack)阶段的起始点(Onset)即为音符起始点。音符起始点检测在信号处理领域有很多应用方向和重要用途，如：对音乐进行节拍划分、节奏检测、音高估计等。

目前市面上的标注工具主要分为两种，都是采用深度学习的方式对音频特征进行提取。需要注意的是，这两种工具都是对整首音频的曲风流派进行标注，并未标注出音频内部的起始点信息，不能应用于音频起始点检测任务中。第一种是从候选特征中找到概率最大的特征作为音频特征，第二种是通过训练黑盒模型直接输出特征。前者需要切分片段，寻找相同片段，提取声学图像特征，该方案工作量大，步骤繁琐，后者通过深度学习训练网络预测标注的方法缺乏验证手段，可靠性较低，难以在后续的音乐高级分析任务中发挥作用。

现有的标注方法如申请号为201610866294.5(2016.09.29)的中国专利，提供了一种音频标注的装置及方法，该方法首先将音频文件切分为多个片段，并从多个相同的音频片段中提取声学和图像特征，将二者合成得到特征向量，最后通过训练特征向量模型得到概率分布，选择概率值最大的标签作为音频文件标签。该方案前期工作量繁琐，需要对音频文件切割并将相同类型音频进行归类后进行声学与图像特征提取，此外还需要利用神经网络黑盒模型寻找概率最大值作为标签。一方面，模型训练需要大量数据支撑，而且准确性和精度并不能有较高保证，若训练出现问题极大可能无法有效解决，缺乏验证手段；另一方面该方法是对不同音频曲风的标注，并不是对音频内部的起始点信息进行标注。

又如申请号为201810050808.9(2018.01.18)的中国专利，提供了一种基于深度学习的音频自动化标注方法，该方法首先将原始音频文件切割成多个语谱图片段，用于训练一个卷积神经网络模型；对新的音频文件采用同样的切割处理方式，并送入训练好的卷积神经网络模型得到标注。该方案将短时傅里叶变换取对数得到的梅尔频谱切片得到的值作为标签，一方面切片长度需要与时域一一比照对应，工作量较大；另一方面，训练卷积神经网络结果准确性和精度并不能得到有效保障，若训练出现问题可能无法有效解决，且模型对不同类型的音频信号泛化性较弱。

发明内容

本申请的目的在于提供一种音频起始点的标注方法及装置，具备标注准确性高、泛化性强的优点。

为实现上述目的，本申请所采取的技术方案为：

一种音频起始点的标注方法，用于生成供音频起始点检测的标注样本，所述音频起始点的标注方法包括：

获取音频源文件，采用短时傅里叶变换对所述音频源文件进行时频分析，得到频谱能量图，所述频谱能量图的横坐标为时域、纵坐标为频率；

对频谱能量图进行平滑滤波；

以音频源文件中的时域作为横坐标，以音频源文件中的振幅为纵坐标建立波形图，将波形图和平滑滤波后的频谱能量图的横坐标的时域对齐，并在对齐后进行上下拼接得到对比图进行展示；

根据展示的对比图生成起始点标注信息，所述起始点标注信息包括与横坐标的时域相应的多个时间点；

以接收的多个时间点初步确定音频源文件中对应的多个起始点，判断并删除多个起始点中的错误起始点，得到最终确定的起始点；

根据最终确定的起始点对应的时间点，将音频源文件中对应时间点的音频帧标注为起始帧，完成针对获取音频源文件的音频起始点的标注，并导出作为标注样本。

以下还提供了若干可选方式，但并不作为对上述总体方案的额外限定，仅仅是进一步的增补或优选，在没有技术或逻辑矛盾的前提下，各可选方式可单独针对上述总体方案进行组合，还可以是多个可选方式之间进行组合。

作为优选，所述采用短时傅里叶变换对所述音频源文件进行时频分析，得到频谱能量图，包括：

设置参数包括窗长N，相邻窗之间的步长h，频率分量的索引k以及帧的索引n，得到结合时间与频率特征的时频数据值，公式如下：

X_z(k，n)表示采用短时傅里叶变换后第n帧上第k个频率分量对应的能量值，j是表示复数域的数学符号，z(.)为源信号，w(m)为窗函数，通过窗滑动得到多个频谱值，拼接所有频谱值可以得到一个二维矩阵特征数据，即频谱能量图，频谱能量图中横坐标的时域表示从音频源文件时间戳初始值到结束值的时序帧，纵坐标的频率表示从低到高的频率分量。

作为优选，所述对频谱能量图进行平滑滤波，包括：

a)对频谱能量图采用p次纵向平滑，公式如下：

X_z[i，r]＝(X_z[i-1，r]*0.5+X_z[i，r]+X_z[i+1，r]*0.5)/2.0

b)对经过p次纵向平滑后的频谱能量图采用q次横向平滑，公式如下：

X_z[i，r]＝(X_z[i，r-1]+X_z[i，r])/2.0

c)对经过p次纵向平滑和q次横向平滑后的频谱能量图，利用前后两帧能量差值进一步滤波，公式如下：

其中，X_z[i，r]表示第r帧中第i个频率分量对应的能量值。

作为优选，所述判断并删除多个起始点中的错误起始点，包括：

以起始点对应的音频帧作为起始帧，取起始帧、起始帧的前K/2帧以及起始帧的后(K/2)-1帧作为起始帧对应的N维特征向量，其中N＝K×M，M为每帧的数据维度；

根据N维特征向量得到K帧能量图，所述K帧能量图是由K个时序上的帧拼接而成，每帧中含有M维的频率分量，横坐标为K个时序上的帧，纵坐标为每一帧的每个频率分量对应的能量值；

对比K帧能量图中起始帧与前K/2帧、后(K/2)-1帧的能量值判断起始帧是否为错误的起始帧。

本申请还提供一种音频起始点的标注装置，用于生成供音频起始点检测的标注样本，所述音频起始点的标注装置，包括：

导入模块，用于获取音频源文件，采用短时傅里叶变换对所述音频源文件进行时频分析，得到频谱能量图，所述频谱能量图的横坐标为时域、纵坐标为频率；还用于对频谱能量图进行平滑滤波；

显示模块，用于以音频源文件中的时域作为横坐标，以音频源文件中的振幅为纵坐标建立波形图，将波形图和平滑滤波后的频谱能量图的横坐标的时域对齐，并在对齐后进行上下拼接得到对比图进行展示；

标注模块，用于根据展示的对比图生成起始点标注信息，所述起始点标注信息包括与横坐标的时域相应的多个时间点；

验证模块，用于以接收的多个时间点初步确定音频源文件中对应的多个起始点，判断并删除多个起始点中的错误起始点，得到最终确定的起始点；

导出模块，用于根据最终确定的起始点对应的时间点，将音频源文件中对应时间点的音频帧标注为起始帧，完成针对获取音频源文件的音频起始点的标注，并导出作为标注样本。

作为优选，所述对频谱能量图进行平滑滤波，包括：

a)对频谱能量图采用p次纵向平滑，公式如下：

X_z[i，r]＝(X_z[i-1，r]*0.5+X_z[i，r]+X_z[i+1，r]*0.5)/2.0

X_z[i，r]＝(X_z[i，r-1]+X_z[i，r])/2.0

其中，X_z[i，r]表示第r帧中第i个频率分量对应的能量值。

本申请提供的音频起始点的标注方法，将音频源文件可视化为具有波形图和频谱能量图的对比图，在对比图的基础上生成起始点标注信息，并基于起始点标注信息对起始点进行验证及修正，一方面能够精简音频起始点标注流程，降低标注难度；另一方面，本发明所提方法具备起始点标注的验证及修正功能，具有很高的可靠性。

附图说明

图1为现有技术中一个音符时间域信息的示意图；

图2为本申请音频起始点的标注方法的流程图；

图3为本申请波形图与频谱能量图拼接且标注后的示意图；

图4为本申请K帧能量图的示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中在本申请的说明书中所使用的术语只是为了描述具体的实施例的目的，不是在于限制本申请。

音符起始点检测技术为基于内容的音乐信息检索的关键技术，同时音符起始点检测也作为基于内容的音乐研究(对音乐进行节拍划分、节奏检测、音高估计等)的基础，已成为音乐研究领域的关键研究对象。

而音频起始点标注是起始点检测任务的前提，目的是获得音符起始点的特征向量和标签，并以此作为训练数据训练出一个起始点的二分分类器。现有标注方法大多是对整首音频的曲风标注，无法得到音频内部的起始点信息，且缺乏对所标注数据可靠性的验证方法。因此本申请提出一种针对音频内部的起始点信息的标注方法。

容易理解的是，起始点标注仅为音频处理标注领域的一种形式任务，本申请的标注方法同样适用于非起始点的标注，即对音频起始点标注任务有普适性。

如图2所示，本实施例的一种音频起始点的标注方法，包括以下步骤：

步骤1、获取音频源文件(如WAV格式)，采用短时傅里叶变换(STFT，short-timeFourier transform或short-term Fourier transform)对音频源文件进行时频分析，得到频谱能量图，频谱能量图的横坐标为时域、纵坐标为频率。

本实施例基于常用的短时傅里叶变换进行处理，例如设置参数包括窗长N，相邻窗之间的步长h，频率分量的索引k以及帧的索引n，得到结合时间与频率特征的时频数据值，公式如下：

并且需要说明的是，采用短时傅里叶变换仅为本申请提供的一种优选的时频分析方式，本申请中所有不同形式的对音频源文件进行频域变换得到频谱能量图的方案均属于本案所保护的范畴，例如小波变换方法。

步骤2、对频谱能量图进行平滑滤波。

为了消除毛刺噪点带来的干扰，使起始点能量特征更加突出，采用了多次平滑方法，对特征转换模块得到的频率能量图中的二维矩阵时频数据X_z[i，r](i表示频率维度，r表示时间维度，即帧数)进行预处理。

为了保证具有较优的平滑效果，在一个实施例中，采用的平滑方法如下：

a)对频谱能量图采用p次纵向平滑(沿频率维度，实际使用时p可以取3)，公式如下：

X_z[i，r]＝(X_z[i-1，r]*0.5+X_z[i，r]+X_z[i+1，r]*0.5)/2.0

b)对经过p次纵向平滑后的频谱能量图采用q次横向平滑(沿时间维度，实际使用时q可以取3)，公式如下：

X_z[i，r]＝(X_z[i，r-1]+X_z[i，r])/2.0

c)对经过p次纵向平滑和q次横向平滑后的频谱能量图，利用前后两帧能量差值(即谱通量值)进一步滤波，公式如下：

其中，X_z[i，r]表示第r帧中第i个频率分量对应的能量值。

本实施例采用的平滑滤波方法先从纵向和横向两个维度进行平滑使频谱能量图中的毛刺光滑，在纵向上以前后两个能量值修正当前的能量值，在横向上以前一个能量值修正当前能量值，使频谱能量图中各能量值之间的差值减少，完成初步平滑；并且在初步平滑的基础上，利用横向上前后两个能量值进行再次平滑使能量强度特征在频率上的特征更明显和容易区分，将由噪声引发的能量凸点去除，完成最终的平滑滤波。该平滑滤波方法不仅计算简单，且平滑效果好，不仅去除了噪声影响，还有效平滑了能量值的变化，更优的是能够根据平滑滤波要求调整p和q，即考虑了对计算硬件的要求，又满足在有限计算资源下的最佳平滑效果。

步骤3、以音频源文件中的时域作为横坐标，以音频源文件中的振幅为纵坐标建立波形图，将波形图和平滑滤波后的频谱能量图的横坐标的时域对齐，并在对齐后进行上下拼接得到对比图进行展示。

将横坐标对齐后的波形图和频谱能量图进行上下拼接，提供直观的视觉变化对比，方便后续的起始点标注步骤。

最后展示的波形图与频谱能量图呈上下分布，共同使用时间轴作为横向标尺，纵坐标则采用各自的标尺，可参考如图3的排列，其中波形图横坐标每一小格表示时域的每帧，纵坐标表示时域振幅大小；频谱能量图横坐标每小格也表示时域每帧，纵坐标从上到下表示频率从低到高，白色光亮的部分表示能量值，越亮表示能量值越大，图3里面光柱左端即起始点能量值激增处也符合起始点规律，光柱部分为主要发声区域，光柱内阶梯形式亮度区域表示该发声点的基频与倍频关系，也是该处为发声点的另一有力依据。

步骤4、根据展示的对比图生成起始点标注信息，所述起始点标注信息包括与横坐标的时域相应的多个时间点。

本实施例中根据展示的对比图生成起始点标注信息时，可以是以预设间隔选取多个时间点作为起始点标注信息，也可以是接收外界基于展示的对比图输入的时间点作为起始点标注信息，还可以是逐一判断对比图中同一时间点的频率、能量和振幅，取满足起始帧变化规律的时间点作为起始点标注信息。

为了得到准确率较高的标注样本，且简化后续的起始帧判断与修正，本申请优选采用接收外界直接输出的时间点作为起始点标注信息。

相较于利用神经网络进行标注时的操作繁琐、标注准确性得不到保障的问题，本实施例接收外界输出的标注信息作为标注基础，给标注的准确性奠定了基础。由于起始点标注后常用于训练分类神经网络，而在标注时即采用神经网络不仅可能会出现神经网络识别错误叠加，影响后续分类神经网络训练；并且对于标注神经网络而言，其自身的训练样本也是难以得到。

因此本实施例接收由用户基于本申请给出的对比图进行标注的标注信息，因为对比图中清楚展示了在时域上频率、能量、振幅的对应关系，因此用户可准确、快速的完成信息的输入。

基于起始点标注信息，能够确定初始的起始点且该起始点信息不仅具有较高的准确性，而且能够适应不同人群标注需求。

步骤5、以接收的多个时间点初步确定音频源文件中对应的多个起始点，判断并删除多个起始点中的错误起始点，得到最终确定的起始点。

本实施例中在判断起始点是否错误时，以起始点对应的音频帧作为起始帧，取起始帧、起始帧的前K/2帧以及起始帧的后(K/2)-1帧作为起始帧对应的N维特征向量，其中N＝K×M，M为每帧的数据维度。

本实施例中采用如图3底部所示的矩形作为标注位置，与发声点突变上升处保持一致，如图3标注准线所示，以标注小方块的最左侧作为实际标注的起始点。并在标注完后将标注时间点以及对应的N维特征向量输出，该N维特征向量不仅可作为对起始点的校对，还可以作为基于N维特征向量中包括的起始点标注帧及其前后帧的特征，直接用于起始点检测及高级音乐分析任务中。

如图4所示，本实施例在进行校对时，可以是直接根据K帧能量值判断是否符合起始帧变化规律，也可以将K帧能量图导出展示，由用户进行核对，通过观察前四帧能量极低，后四帧能量逐渐升高的规律分析是否选取到了正确的起始点，另外一种验证的方式是比对时间戳是否为起始点，可以借助其它音频播放工具实现比对，直到所有的起始点标注正确，就能得到可靠性高的音频起始点特征。

步骤6、根据最终确定的起始点对应的时间点，将音频源文件中对应时间点的音频帧标注为起始帧，完成针对获取音频源文件的音频起始点的标注，并导出作为标注样本，该样本可以作为后续音频起始点检测任务中检测神经网络的训练，样本可靠性高，泛化性好。

本实施例提出的起始点标注方法精简了音频起始点标注流程，降低了标注难度。首先，本方法对原始音频的二维矩阵时频值采用一系列平滑手段，可以强化起始点频率成分，增强起始点特征，更容易区分起始点与非起始点的位置，；其次，通过将波形图和频谱能量图在时间轴上对齐，结合波形图中的幅度突变上升点以及频谱能量图的光柱最左端作为判断标准对起始点进行标注，能够得到比较准确的音频起始点特征，直接降低了标注的难度；并且对标注的起始点进一步判断是否正确，以修正起始点，提高起始点标注的准确性。

应该理解的是，虽然图2的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在另一个实施例中，还提供一种音频起始点的标注装置，用于生成供音频起始点检测的标注样本，本实施例的音频起始点的标注装置，包括：

关于音频起始点的标注装置的具体限定可以参见上文中对于音频起始点的标注方法的限定，在此不再赘述。

上述音频起始点的标注装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在另一个实施例中，所述采用短时傅里叶变换对所述音频源文件进行时频分析，得到频谱能量图，包括：

在另一个实施例中，所述对频谱能量图进行平滑滤波，包括：

a)对频谱能量图采用p次纵向平滑，公式如下：

X_z[i，r]＝(X_z[i-1，r]*0.5+X_z[i，r]+X_z[i+1，r]*0.5)/2.0

X_z[i，r]＝(X_z[i，r-1]+X_z[i，r])/2.0

其中，X_z[i，r]表示第r帧中第i个频率分量对应的能量值。

在另一个实施例中，所述判断并删除多个起始点中的错误起始点，包括：

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。