CN108257614A

CN108257614A - 音频数据标注的方法及其***

Info

Publication number: CN108257614A
Application number: CN201611247230.3A
Authority: CN
Inventors: 晁卫
Original assignee: Beijing Kuwo Technology Co Ltd
Current assignee: Beijing Kuwo Technology Co Ltd
Priority date: 2016-12-29
Filing date: 2016-12-29
Publication date: 2018-07-06

Abstract

本发明提供一种音频数据标注的方法及其***，该方法包括：接收待标注的音频数据；获取待标注的音频数据的音频片段，采用预训练的至少一个训练模型对音频片段进行分析，确定音频片段的分类标签；为音频片段对应的所述待标注的音频数据标注分类标签。实现了音频数据的自动化标注，提高了音频数据标注的准确率。

Description

音频数据标注的方法及其***

技术领域

本发明涉及音频分析和处理技术领域，尤其设计一种音频数据标注的方法及其***。

背景技术

随着声音采集技术和互联网技术的快速发展，每天都会产生大量的音频数据(例如歌曲)上传到网络，音频数据的风格分类可以帮助用户快速寻找到喜欢的音频数据，但传统的音频数据分类，即对音频数据进行情感标注需要人工筛选，并进行标注，需要大量的人力和时间，且会因为个人的主观因素导致音频数据分类结果具有很差差异，导致音频数据标注的准确性低。

发明内容

本发明提供一种音频数据标注的方法及其***，通过提取音频数据中的部分音频数据的特征向量，完成了音频数据的自动化标注，提到了音频数据标注的准确性。

第一方面，本发明实施例提供一种音频数据标注的方法，该方法包括：

接收待标注的音频数据；

获取待标注的音频数据的音频片段，采用预训练的至少一个训练模型对音频片段进行分析，确定音频片段的分类标签；

为音频片段对应的待标注的音频数据标注分类标签。

通过获取待标注音频数据的音频片段，并经训练模型对音频片段进行分析，并为音频片段对应的待标注的音频数据进行分类标签的标注，实现了音频数据的自动化标注，提高了音频数据标注的准确率。

可选地，在一个设计方案中，在采用预训练的至少一个训练模型对音频片段进行分析之前，方法还包括：

按照至少一个分类标签获取每个分类标签对应的多个待训练音频数据；

获取每个分类标签对应的多个待训练的音频数据的音频片段，并提取音频片段的特征向量；

对至少一个分类标签对应的多个音频片段的特征向量进行训练，得到至少一个分类标签对应的至少一个训练模型。

可选地，在一个设计方案中，提取音频片段的特征向量，包括：

采用梅尔频率倒谱系数MFCC和感性线性预测PLP提取音频片段的特征向量。

可选地，在一个设计方案中，在提取音频片段的特征向量之前，该方法还包括：

对音频片段进行汉明窗处理。

可选地，在一个设计方案中，对至少一个分类标签对应的多个音频片段的特征向量进行训练，包括：

采用卷积神经网络CNN对至少一个分类标签对应的多个音频片段的特征向量进行训练。

第二方面，本发明实施例提供一种***，***包括：

接收单元，用于接收待标注的音频数据；

处理单元，用于获取待标注的音频数据的音频片段，采用预训练的至少一个训练模型对音频片段进行分析，确定音频片段的分类标签；

处理单元，还用于为音频片段对应的待标注的音频数据标注分类标签。

可选地，在一个设计方案中，***还包括训练单元；

处理单元，还用于按照至少一个分类标签获取每个分类标签对应的多个待训练音频数据；

处理单元，还用于获取每个分类标签对应的多个待训练的音频数据的音频片段，并提取音频片段的特征向量；

训练单元，用于对至少一个分类标签对应的多个音频片段的特征向量进行训练，得到至少一个分类标签对应的至少一个训练模型。

可选地，在一个设计方案中，处理单元提取音频片段的特征向量，包括：

可选地，在一个设计方案中，处理单元，还用于对音频片段进行汉明窗处理。

可选地，在一个设计方案中，训练单元对至少一个分类标签对应的多个音频片段的特征向量进行训练，包括：

训练单元采用卷积神经网络CNN对至少一个分类标签对应的多个音频片段的特征向量进行训练。

基于本发明提供的音频数据标注的方法及其***，采取待分类音频数据的音频片段，通过预先训练的训练模型，对音频数据进行分类，并标注，实现了音频数据的自动化标注，提高了音频数据标注的准确性。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例中所需要使用的附图作简单地介绍，显而易见地，下面所描述的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种音频数据标注的方法流程图；

图2为本发明实施例提供的一种模型训练的方法流程图；

图3为本发明实施例提供的一种音频数据标注的结果图；

图4为本发明实施例提供的一种***的结构示意图。

具体实施方式

本发明提供了一种音频数据标注的方法及其***，适用于对音频数据，例如：歌曲的类型进行分类，以及分类类型的标注。

下面结合附图对本发明的技术方案进行详细的描述。

图1为本发明实施例提供的一种音频数据标注的方法流程图。如图1所示，该方法可以包括以下步骤：

S110，接收待标注的音频数据。

待标注的音频数据为待进行分类的音频数据。当有待分类的音频数据需要分类时，例如音频数据库中的音频数据进行类型分类。更具体的，对音乐库中的歌曲进行类型分类，或者说对歌曲进行分类标签分类，风格类型的分类，例如流行(POP)歌曲、摇滚(Rock)歌曲、嘻哈(Rap)歌曲、爵士(Jazz)歌曲、蓝调(Blues)歌曲、古典(Classical)歌曲、朋克(Punk)、金属(Metal)类型歌曲、拉丁音乐(Latin Music)、雷鬼(Reggae)音乐、新世纪(NewAge)、乡村音乐(Folk Music或Country Music)、电子舞曲(Electronic Dance)、儿歌(Child Music)、民乐、民歌、世界(World)音乐、发烧(HiFi)音乐，等等。

S120，获取待标注的音频数据的音频片段，采用预训练的至少一个训练模型对音频片段进行分析，确定音频片段的分类标签。

在本发明实施例中，获取待标注的音频数据的部分音频片段，为加快获取的速度，在本发明实施例中获取待标注音频数据中30秒的音频片段。具体获取过程为：以采样率为16KHz(一帧音频数据可以有512个采样点)，帧移为16ms对音频数据进行采样，即一帧音频数据可以有256个采样点，以获取音频数据的音频片段。在本发明实施例中，一首歌曲可以得到1875帧，以保证与原音频数据的一致。

在本发明实施例中，在采用预训练的至少一个训练模型对音频片段进行分析之前，需要训练至少一个训练模型，具体训练过程如图2的描述。

利用训练好的至少一个训练模型对音频片段进行分析，确定音频片段的分类。可选地，在本发明实施例中，采用AlexNet作为训练模型对音频片段进行分析。AlexNet相比较LeNet等其他训练模型的优势在于：网络增大(5个卷积层+3个全连接层+1个softmax层)，同时解决了拟合(dropout，data augmentation或LRN)，并且可以同时利用多个图形处理器(Graphic Processing Unit，GPU)进行计算，加速了计算速度，缩短了训练时间，即缩短了对音频片段的分析时间。

在本发明实施例中，音频数据标注***的部署方式可以采用服务器/客户端(Client/Server，CS)结构。在本发明实施例中，服务端可以采用分布式部署方式。客户端执行S110和S120，在S120之后，即获取了待标注的音频数据的音频片段后，向服务器发送调用至少一个训练模型的调用请求，服务器根据调用请求调用训练模型，对音频片段进行分析，确定音频片段的分类标签。采用CS部署方式实现了训练模型对待训练音频数据的并行处理，提高了客户端请求的响应速度。

S130，为音频片段对应的待标注的音频数据标注分类标签。

采用本发明实施例提供的音频数据标注的方法，通过获取待标注音频数据的音频片段，并经训练模型对音频片段进行分析，并为音频片段对应的待标注的音频数据进行分类标签的标注，实现了音频数据的自动化标注，提高了音频数据标注的准确率。

图2为本发明实施例提供的一种模型训练的方法流程图。如图2所示，该方法可以包括以下步骤：

S210，按照至少一个分类标签获取每个分类标签对应的多个待训练音频数据。

在音频数据的深度学习领域中，首先需要确定训练集选取的基本原则，其中，训练集是训练模型时，按照至少一个分类标签获取的每个分类标签对应的多个待训练音频数据的集合。

例如，至少一个分类标签为20个分类标签，或者称为20个风格类型，如流行(POP)、摇滚(Rock)、嘻哈(Rap)、爵士(Jazz)、蓝调(Blues)、古典(Classical)、朋克(Punk)、金属(Metal)、拉丁(Latin)、雷鬼(Reggae)、新世纪(New Age)、乡村音乐(Folk Music或CountryMusic)、电子舞曲(Electronic Dance)、儿歌(Child Music)、民乐、民歌、世界(World)音乐、发烧(HiFi)音乐，等等音乐风格类型。按照20个风格类型从音频数据库，选取20个风格类型的训练集，每个风格类型选取多个待训练音频数据，在本发明实施例中，一个风格类型可以选择1000首待训练的歌曲，在选取过程中可以辅以人工筛选，以提高待训练音乐的质量。

S220，获取每个分类标签对应的多个待训练的音频数据的音频片段，并提取音频片段的特征向量。

在发明实施例中，为了加快处理速度，截取每个音频数据中30秒的音频片段。具体可以以采样率为16KHz(一帧音频数据可以有512个采样点)，帧移为16ms对音频数据进行采样，即一帧音频数据可以有256个采样点，以获取音频数据的音频片段。

可选地，在本发明实施例中，将获取到音频片段进行汉明窗处理，汉明窗处理为常见的函数处理过程，为简洁描述，在这里不再赘述。

提取处理后的音频片段的特征向量。可选地，在本发明实施例中，可以采用梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients，MFCC)和感性线性预测PLP提取所述音频片段的特征向量。例如：对经过预处理的每一首歌曲提取其前20维MFCC，取RASTA-PLP倒谱9维，RASTA-PLP频谱21维，对得到的MFCC和RASTA-PLP特征向量分别求其均值和方差，这样的话一首音乐片段可以有100维的特征向量表示。

需要说明的是，梅尔频率倒谱系数(MFCC)它可以对人耳的听觉模型进行建模。音乐特征方面MFCC要比其他的短时特征参数更能准确的表示音乐信号，所以本申请选择采用MFCC。感知线性预测(PLP)是一种强健的特征参数，它模拟人耳听觉的特性，与语音其他特征参数相比鲁棒性要好，同时经过RASTA滤波处理，对短时谱分析时帧与帧之间的变化起到了一定的平滑作用。另外，对得到的PLP倒谱参数进行了谱增减处理，锐化谱顶点。最后对得到的短时特征参数分别取其均值和方差，以建立每一特征参数帧与帧之间的相关性。

S230，对至少一个分类标签对应的多个音频片段的特征向量进行训练，得到至少一个分类标签对应的至少一个训练模型。

可选地，在本发明实施例中，采用卷积神经网络(Convolutional NeuralNetwork,CNN)对至少一个分类标签对应的多个音频片段的特征向量进行训练，得到至少一个分类标签对应的至少一个训练模型。CNN是一种前馈神经网络，它的人工神经元可以响应一部分覆盖范围内的周围单元，对于图像处理有出色表现。它包括卷积层(alternatingconvolutional layer)和池化层(pooling layer)。

本发明实施例提供的训练方法，利用提取好的特征向量进行卷积神经网络模型的训练，成功的降低带有主观因素的人工标注。

采用该训练方法训练的模型可以达到98.58％的识别准确率。例如图3所示。

图3为本发明实施例提供的音频数据标注的结果图。图3(a)为民族歌曲标注的结果图；图3(b)为古典歌曲标注的结果图；图3(c)为DJ歌曲的标注结果图；图3(d)为儿童歌曲的标注结果图。其中，图3(a)、图3(b)、图3(c)和图3(d)中的横坐标表示维度；纵坐标表示对应的维度值。

从图3(a)、图3(b)、图3(c)和图3(d)这几类风格的标注结果图中可知，除图3(c)DJ风格的波动比较大，其他三种风格的大致呈现上升趋势。对于图3(a)、图3(b)、图3(b)、图3(c)的标注准确率分别高达98.73％、98.97％、99.73％、98.17％。

上文的图1和图3详细介绍了训练模型的训练过程，待标注音频数据的标注过程，以及采用图2训练的训练模型对待标注音频数据进行标注的结果分析，下面结合附图4详细描述本发明实施例提供的***。

图4为本发明实施例提供的一种***的结构示意图。如图4所示，该***可以包括接收单元310和处理单元320。

接收单元310，用于接收待标注的音频数据。

处理单元320，用于获取待标注的音频数据的音频片段，采用预训练的至少一个训练模型对所述音频片段进行分析，确定音频片段的分类标签；为音频片段对应的待标注的音频数据标注分类标签。

其具体过程与图1中S110、S120和S130的过程相同，具体描述请详见图1的S110、S120和S130，为简洁描述，在这里不再赘述。

可选地，在本发明实施例中，如图4所示，该***还可以包括训练单元330。

处理单元320，按照至少一个分类标签获取每个分类标签对应的多个待训练音频数据；获取每个分类标签对应的所述多个待训练的音频数据的音频片段，并提取所述音频片段的特征向量。

训练单元330，用于对至少一个分类标签对应的多个音频片段的特征向量进行训练，得到至少一个分类标签对应的至少一个训练模型。

在训练过程中，需要先按照分类标签获取每个分类标签对应的训练样本，即多个待训练音频数据。并获取多个待训练音频数据的音乐片段，提取音频判断的特征向量。

可选地，在本发明实施例中，处理单元320对获取到的音频片段进行汉明窗处理。并将处理后的音频片段，按照分类标签提取每个分类标签的音频片段。

在本发明实施例中，可以采用梅尔频率倒谱系数MFCC和感性线性预测PLP提取所述音频片段的特征向量。

然后，训练单元330对至少一个分类标签对应的多个音频片段的特征向量进行训练，包括：

训练单元330采用卷积神经网络CNN对至少一个分类标签对应的多个音频片段的特征向量进行训练。

具体过程与图2的S210、S220和S230的过程相同，具体描述请参见图2的S210、S220和S230，为简洁描述，在这里不再赘述。

采用本发明实施例提供的***，通过获取待标注音频数据的音频片段，并经训练模型对音频片段进行分析，并为音频片段对应的待标注的音频数据进行分类标签的标注，实现了音频数据的自动化标注，提高了音频数据标注的准确率。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种音频数据标注的方法，其特征在于，所述方法包括：

接收待标注的音频数据；

获取所述待标注的音频数据的音频片段，采用预训练的至少一个训练模型对所述音频片段进行分析，确定所述音频片段的分类标签；

为所述音频片段对应的所述待标注的音频数据标注所述分类标签。

2.根据权利要求1所述的方法，其特征在于，在所述采用预训练的至少一个训练模型对所述音频片段进行分析之前，所述方法还包括：

获取每个分类标签对应的所述多个待训练的音频数据的音频片段，并提取所述音频片段的特征向量；

对所述至少一个分类标签对应的多个音频片段的特征向量进行训练，得到所述至少一个分类标签对应的至少一个训练模型。

3.根据权利要求2所述的方法，其特征在于，所述提取所述音频片段的特征向量，包括：

采用梅尔频率倒谱系数MFCC和感性线性预测PLP提取所述音频片段的特征向量。

4.根据权利要求2所述的方法，其特征在于，在所述提取所述音频片段的特征向量之前，所述方法还包括：

对所述音频片段进行汉明窗处理。

5.根据权利要求2至4任一项所述的方法，其特征在于，所述对所述至少一个分类标签对应的多个音频片段的特征向量进行训练，包括：

采用卷积神经网络CNN对所述至少一个分类标签对应的多个音频片段的特征向量进行训练。

6.一种***，其特征在于，所述***包括：

接收单元，用于接收待标注的音频数据；

处理单元，用于获取所述待标注的音频数据的音频片段，采用预训练的至少一个训练模型对所述音频片段进行分析，确定所述音频片段的分类标签；

所述处理单元，还用于为所述音频片段对应的所述待标注的音频数据标注所述分类标签。

7.根据权利要求6所述的***，其特征在于，所述***还包括训练单元；

所述处理单元，还用于按照至少一个分类标签获取每个分类标签对应的多个待训练音频数据；

所述处理单元，还用于获取每个分类标签对应的所述多个待训练的音频数据的音频片段，并提取所述音频片段的特征向量；

所述训练单元，用于对所述至少一个分类标签对应的多个音频片段的特征向量进行训练，得到所述至少一个分类标签对应的至少一个训练模型。

8.根据权利要求7所述的***，其特征在于，所述处理单元提取所述音频片段的特征向量，包括：

9.根据权利要求7所述的***，其特征在于，

所述处理单元，还用于对所述音频片段进行汉明窗处理。

10.根据权利要求7至9任一项所述的***，其特征在于，所述训练单元对所述至少一个分类标签对应的多个音频片段的特征向量进行训练，包括：

所述训练单元采用卷积神经网络CNN对所述至少一个分类标签对应的多个音频片段的特征向量进行训练。