CN108257614A - 音频数据标注的方法及其*** - Google Patents
音频数据标注的方法及其*** Download PDFInfo
- Publication number
- CN108257614A CN108257614A CN201611247230.3A CN201611247230A CN108257614A CN 108257614 A CN108257614 A CN 108257614A CN 201611247230 A CN201611247230 A CN 201611247230A CN 108257614 A CN108257614 A CN 108257614A
- Authority
- CN
- China
- Prior art keywords
- audio
- tag along
- along sort
- audio data
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 239000012634 fragment Substances 0.000 claims abstract description 101
- 238000012549 training Methods 0.000 claims abstract description 65
- 239000013598 vector Substances 0.000 claims description 39
- 238000012545 processing Methods 0.000 claims description 28
- 238000013527 convolutional neural network Methods 0.000 claims description 15
- 241001269238 Data Species 0.000 claims description 9
- 238000000605 extraction Methods 0.000 claims description 9
- 239000000284 extract Substances 0.000 claims description 8
- NGVDGCNFYWLIFO-UHFFFAOYSA-N pyridoxal 5'-phosphate Chemical compound CC1=NC=C(COP(O)(O)=O)C(C=O)=C1O NGVDGCNFYWLIFO-UHFFFAOYSA-N 0.000 claims 2
- 230000008569 process Effects 0.000 description 10
- 238000010586 diagram Methods 0.000 description 6
- 239000002184 metal Substances 0.000 description 4
- 239000011435 rock Substances 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000001228 spectrum Methods 0.000 description 3
- 206010037660 Pyrexia Diseases 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 241001014642 Rasta Species 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 210000004027 cell Anatomy 0.000 description 1
- 238000013434 data augmentation Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000010183 spectrum analysis Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/12—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being prediction coefficients
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/45—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Electrically Operated Instructional Devices (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种音频数据标注的方法及其***,该方法包括:接收待标注的音频数据;获取待标注的音频数据的音频片段,采用预训练的至少一个训练模型对音频片段进行分析,确定音频片段的分类标签;为音频片段对应的所述待标注的音频数据标注分类标签。实现了音频数据的自动化标注,提高了音频数据标注的准确率。
Description
技术领域
本发明涉及音频分析和处理技术领域,尤其设计一种音频数据标注的方法及其***。
背景技术
随着声音采集技术和互联网技术的快速发展,每天都会产生大量的音频数据(例如歌曲)上传到网络,音频数据的风格分类可以帮助用户快速寻找到喜欢的音频数据,但传统的音频数据分类,即对音频数据进行情感标注需要人工筛选,并进行标注,需要大量的人力和时间,且会因为个人的主观因素导致音频数据分类结果具有很差差异,导致音频数据标注的准确性低。
发明内容
本发明提供一种音频数据标注的方法及其***,通过提取音频数据中的部分音频数据的特征向量,完成了音频数据的自动化标注,提到了音频数据标注的准确性。
第一方面,本发明实施例提供一种音频数据标注的方法,该方法包括:
接收待标注的音频数据;
获取待标注的音频数据的音频片段,采用预训练的至少一个训练模型对音频片段进行分析,确定音频片段的分类标签;
为音频片段对应的待标注的音频数据标注分类标签。
通过获取待标注音频数据的音频片段,并经训练模型对音频片段进行分析,并为音频片段对应的待标注的音频数据进行分类标签的标注,实现了音频数据的自动化标注,提高了音频数据标注的准确率。
可选地,在一个设计方案中,在采用预训练的至少一个训练模型对音频片段进行分析之前,方法还包括:
按照至少一个分类标签获取每个分类标签对应的多个待训练音频数据;
获取每个分类标签对应的多个待训练的音频数据的音频片段,并提取音频片段的特征向量;
对至少一个分类标签对应的多个音频片段的特征向量进行训练,得到至少一个分类标签对应的至少一个训练模型。
可选地,在一个设计方案中,提取音频片段的特征向量,包括:
采用梅尔频率倒谱系数MFCC和感性线性预测PLP提取音频片段的特征向量。
可选地,在一个设计方案中,在提取音频片段的特征向量之前,该方法还包括:
对音频片段进行汉明窗处理。
可选地,在一个设计方案中,对至少一个分类标签对应的多个音频片段的特征向量进行训练,包括:
采用卷积神经网络CNN对至少一个分类标签对应的多个音频片段的特征向量进行训练。
第二方面,本发明实施例提供一种***,***包括:
接收单元,用于接收待标注的音频数据;
处理单元,用于获取待标注的音频数据的音频片段,采用预训练的至少一个训练模型对音频片段进行分析,确定音频片段的分类标签;
处理单元,还用于为音频片段对应的待标注的音频数据标注分类标签。
通过获取待标注音频数据的音频片段,并经训练模型对音频片段进行分析,并为音频片段对应的待标注的音频数据进行分类标签的标注,实现了音频数据的自动化标注,提高了音频数据标注的准确率。
可选地,在一个设计方案中,***还包括训练单元;
处理单元,还用于按照至少一个分类标签获取每个分类标签对应的多个待训练音频数据;
处理单元,还用于获取每个分类标签对应的多个待训练的音频数据的音频片段,并提取音频片段的特征向量;
训练单元,用于对至少一个分类标签对应的多个音频片段的特征向量进行训练,得到至少一个分类标签对应的至少一个训练模型。
可选地,在一个设计方案中,处理单元提取音频片段的特征向量,包括:
采用梅尔频率倒谱系数MFCC和感性线性预测PLP提取音频片段的特征向量。
可选地,在一个设计方案中,处理单元,还用于对音频片段进行汉明窗处理。
可选地,在一个设计方案中,训练单元对至少一个分类标签对应的多个音频片段的特征向量进行训练,包括:
训练单元采用卷积神经网络CNN对至少一个分类标签对应的多个音频片段的特征向量进行训练。
基于本发明提供的音频数据标注的方法及其***,采取待分类音频数据的音频片段,通过预先训练的训练模型,对音频数据进行分类,并标注,实现了音频数据的自动化标注,提高了音频数据标注的准确性。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例中所需要使用的附图作简单地介绍,显而易见地,下面所描述的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种音频数据标注的方法流程图;
图2为本发明实施例提供的一种模型训练的方法流程图;
图3为本发明实施例提供的一种音频数据标注的结果图;
图4为本发明实施例提供的一种***的结构示意图。
具体实施方式
本发明提供了一种音频数据标注的方法及其***,适用于对音频数据,例如:歌曲的类型进行分类,以及分类类型的标注。
下面结合附图对本发明的技术方案进行详细的描述。
图1为本发明实施例提供的一种音频数据标注的方法流程图。如图1所示,该方法可以包括以下步骤:
S110,接收待标注的音频数据。
待标注的音频数据为待进行分类的音频数据。当有待分类的音频数据需要分类时,例如音频数据库中的音频数据进行类型分类。更具体的,对音乐库中的歌曲进行类型分类,或者说对歌曲进行分类标签分类,风格类型的分类,例如流行(POP)歌曲、摇滚(Rock)歌曲、嘻哈(Rap)歌曲、爵士(Jazz)歌曲、蓝调(Blues)歌曲、古典(Classical)歌曲、朋克(Punk)、金属(Metal)类型歌曲、拉丁音乐(Latin Music)、雷鬼(Reggae)音乐、新世纪(NewAge)、乡村音乐(Folk Music或Country Music)、电子舞曲(Electronic Dance)、儿歌(Child Music)、民乐、民歌、世界(World)音乐、发烧(HiFi)音乐,等等。
S120,获取待标注的音频数据的音频片段,采用预训练的至少一个训练模型对音频片段进行分析,确定音频片段的分类标签。
在本发明实施例中,获取待标注的音频数据的部分音频片段,为加快获取的速度,在本发明实施例中获取待标注音频数据中30秒的音频片段。具体获取过程为:以采样率为16KHz(一帧音频数据可以有512个采样点),帧移为16ms对音频数据进行采样,即一帧音频数据可以有256个采样点,以获取音频数据的音频片段。在本发明实施例中,一首歌曲可以得到1875帧,以保证与原音频数据的一致。
在本发明实施例中,在采用预训练的至少一个训练模型对音频片段进行分析之前,需要训练至少一个训练模型,具体训练过程如图2的描述。
利用训练好的至少一个训练模型对音频片段进行分析,确定音频片段的分类。可选地,在本发明实施例中,采用AlexNet作为训练模型对音频片段进行分析。AlexNet相比较LeNet等其他训练模型的优势在于:网络增大(5个卷积层+3个全连接层+1个softmax层),同时解决了拟合(dropout,data augmentation或LRN),并且可以同时利用多个图形处理器(Graphic Processing Unit,GPU)进行计算,加速了计算速度,缩短了训练时间,即缩短了对音频片段的分析时间。
在本发明实施例中,音频数据标注***的部署方式可以采用服务器/客户端(Client/Server,CS)结构。在本发明实施例中,服务端可以采用分布式部署方式。客户端执行S110和S120,在S120之后,即获取了待标注的音频数据的音频片段后,向服务器发送调用至少一个训练模型的调用请求,服务器根据调用请求调用训练模型,对音频片段进行分析,确定音频片段的分类标签。采用CS部署方式实现了训练模型对待训练音频数据的并行处理,提高了客户端请求的响应速度。
S130,为音频片段对应的待标注的音频数据标注分类标签。
采用本发明实施例提供的音频数据标注的方法,通过获取待标注音频数据的音频片段,并经训练模型对音频片段进行分析,并为音频片段对应的待标注的音频数据进行分类标签的标注,实现了音频数据的自动化标注,提高了音频数据标注的准确率。
图2为本发明实施例提供的一种模型训练的方法流程图。如图2所示,该方法可以包括以下步骤:
S210,按照至少一个分类标签获取每个分类标签对应的多个待训练音频数据。
在音频数据的深度学习领域中,首先需要确定训练集选取的基本原则,其中,训练集是训练模型时,按照至少一个分类标签获取的每个分类标签对应的多个待训练音频数据的集合。
例如,至少一个分类标签为20个分类标签,或者称为20个风格类型,如流行(POP)、摇滚(Rock)、嘻哈(Rap)、爵士(Jazz)、蓝调(Blues)、古典(Classical)、朋克(Punk)、金属(Metal)、拉丁(Latin)、雷鬼(Reggae)、新世纪(New Age)、乡村音乐(Folk Music或CountryMusic)、电子舞曲(Electronic Dance)、儿歌(Child Music)、民乐、民歌、世界(World)音乐、发烧(HiFi)音乐,等等音乐风格类型。按照20个风格类型从音频数据库,选取20个风格类型的训练集,每个风格类型选取多个待训练音频数据,在本发明实施例中,一个风格类型可以选择1000首待训练的歌曲,在选取过程中可以辅以人工筛选,以提高待训练音乐的质量。
S220,获取每个分类标签对应的多个待训练的音频数据的音频片段,并提取音频片段的特征向量。
在发明实施例中,为了加快处理速度,截取每个音频数据中30秒的音频片段。具体可以以采样率为16KHz(一帧音频数据可以有512个采样点),帧移为16ms对音频数据进行采样,即一帧音频数据可以有256个采样点,以获取音频数据的音频片段。
可选地,在本发明实施例中,将获取到音频片段进行汉明窗处理,汉明窗处理为常见的函数处理过程,为简洁描述,在这里不再赘述。
提取处理后的音频片段的特征向量。可选地,在本发明实施例中,可以采用梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients,MFCC)和感性线性预测PLP提取所述音频片段的特征向量。例如:对经过预处理的每一首歌曲提取其前20维MFCC,取RASTA-PLP倒谱9维,RASTA-PLP频谱21维,对得到的MFCC和RASTA-PLP特征向量分别求其均值和方差,这样的话一首音乐片段可以有100维的特征向量表示。
需要说明的是,梅尔频率倒谱系数(MFCC)它可以对人耳的听觉模型进行建模。音乐特征方面MFCC要比其他的短时特征参数更能准确的表示音乐信号,所以本申请选择采用MFCC。感知线性预测(PLP)是一种强健的特征参数,它模拟人耳听觉的特性,与语音其他特征参数相比鲁棒性要好,同时经过RASTA滤波处理,对短时谱分析时帧与帧之间的变化起到了一定的平滑作用。另外,对得到的PLP倒谱参数进行了谱增减处理,锐化谱顶点。最后对得到的短时特征参数分别取其均值和方差,以建立每一特征参数帧与帧之间的相关性。
S230,对至少一个分类标签对应的多个音频片段的特征向量进行训练,得到至少一个分类标签对应的至少一个训练模型。
可选地,在本发明实施例中,采用卷积神经网络(Convolutional NeuralNetwork,CNN)对至少一个分类标签对应的多个音频片段的特征向量进行训练,得到至少一个分类标签对应的至少一个训练模型。CNN是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,对于图像处理有出色表现。它包括卷积层(alternatingconvolutional layer)和池化层(pooling layer)。
本发明实施例提供的训练方法,利用提取好的特征向量进行卷积神经网络模型的训练,成功的降低带有主观因素的人工标注。
采用该训练方法训练的模型可以达到98.58%的识别准确率。例如图3所示。
图3为本发明实施例提供的音频数据标注的结果图。图3(a)为民族歌曲标注的结果图;图3(b)为古典歌曲标注的结果图;图3(c)为DJ歌曲的标注结果图;图3(d)为儿童歌曲的标注结果图。其中,图3(a)、图3(b)、图3(c)和图3(d)中的横坐标表示维度;纵坐标表示对应的维度值。
从图3(a)、图3(b)、图3(c)和图3(d)这几类风格的标注结果图中可知,除图3(c)DJ风格的波动比较大,其他三种风格的大致呈现上升趋势。对于图3(a)、图3(b)、图3(b)、图3(c)的标注准确率分别高达98.73%、98.97%、99.73%、98.17%。
上文的图1和图3详细介绍了训练模型的训练过程,待标注音频数据的标注过程,以及采用图2训练的训练模型对待标注音频数据进行标注的结果分析,下面结合附图4详细描述本发明实施例提供的***。
图4为本发明实施例提供的一种***的结构示意图。如图4所示,该***可以包括接收单元310和处理单元320。
接收单元310,用于接收待标注的音频数据。
处理单元320,用于获取待标注的音频数据的音频片段,采用预训练的至少一个训练模型对所述音频片段进行分析,确定音频片段的分类标签;为音频片段对应的待标注的音频数据标注分类标签。
其具体过程与图1中S110、S120和S130的过程相同,具体描述请详见图1的S110、S120和S130,为简洁描述,在这里不再赘述。
通过获取待标注音频数据的音频片段,并经训练模型对音频片段进行分析,并为音频片段对应的待标注的音频数据进行分类标签的标注,实现了音频数据的自动化标注,提高了音频数据标注的准确率。
可选地,在本发明实施例中,如图4所示,该***还可以包括训练单元330。
处理单元320,按照至少一个分类标签获取每个分类标签对应的多个待训练音频数据;获取每个分类标签对应的所述多个待训练的音频数据的音频片段,并提取所述音频片段的特征向量。
训练单元330,用于对至少一个分类标签对应的多个音频片段的特征向量进行训练,得到至少一个分类标签对应的至少一个训练模型。
在训练过程中,需要先按照分类标签获取每个分类标签对应的训练样本,即多个待训练音频数据。并获取多个待训练音频数据的音乐片段,提取音频判断的特征向量。
可选地,在本发明实施例中,处理单元320对获取到的音频片段进行汉明窗处理。并将处理后的音频片段,按照分类标签提取每个分类标签的音频片段。
在本发明实施例中,可以采用梅尔频率倒谱系数MFCC和感性线性预测PLP提取所述音频片段的特征向量。
然后,训练单元330对至少一个分类标签对应的多个音频片段的特征向量进行训练,包括:
训练单元330采用卷积神经网络CNN对至少一个分类标签对应的多个音频片段的特征向量进行训练。
具体过程与图2的S210、S220和S230的过程相同,具体描述请参见图2的S210、S220和S230,为简洁描述,在这里不再赘述。
采用本发明实施例提供的***,通过获取待标注音频数据的音频片段,并经训练模型对音频片段进行分析,并为音频片段对应的待标注的音频数据进行分类标签的标注,实现了音频数据的自动化标注,提高了音频数据标注的准确率。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种音频数据标注的方法,其特征在于,所述方法包括:
接收待标注的音频数据;
获取所述待标注的音频数据的音频片段,采用预训练的至少一个训练模型对所述音频片段进行分析,确定所述音频片段的分类标签;
为所述音频片段对应的所述待标注的音频数据标注所述分类标签。
2.根据权利要求1所述的方法,其特征在于,在所述采用预训练的至少一个训练模型对所述音频片段进行分析之前,所述方法还包括:
按照至少一个分类标签获取每个分类标签对应的多个待训练音频数据;
获取每个分类标签对应的所述多个待训练的音频数据的音频片段,并提取所述音频片段的特征向量;
对所述至少一个分类标签对应的多个音频片段的特征向量进行训练,得到所述至少一个分类标签对应的至少一个训练模型。
3.根据权利要求2所述的方法,其特征在于,所述提取所述音频片段的特征向量,包括:
采用梅尔频率倒谱系数MFCC和感性线性预测PLP提取所述音频片段的特征向量。
4.根据权利要求2所述的方法,其特征在于,在所述提取所述音频片段的特征向量之前,所述方法还包括:
对所述音频片段进行汉明窗处理。
5.根据权利要求2至4任一项所述的方法,其特征在于,所述对所述至少一个分类标签对应的多个音频片段的特征向量进行训练,包括:
采用卷积神经网络CNN对所述至少一个分类标签对应的多个音频片段的特征向量进行训练。
6.一种***,其特征在于,所述***包括:
接收单元,用于接收待标注的音频数据;
处理单元,用于获取所述待标注的音频数据的音频片段,采用预训练的至少一个训练模型对所述音频片段进行分析,确定所述音频片段的分类标签;
所述处理单元,还用于为所述音频片段对应的所述待标注的音频数据标注所述分类标签。
7.根据权利要求6所述的***,其特征在于,所述***还包括训练单元;
所述处理单元,还用于按照至少一个分类标签获取每个分类标签对应的多个待训练音频数据;
所述处理单元,还用于获取每个分类标签对应的所述多个待训练的音频数据的音频片段,并提取所述音频片段的特征向量;
所述训练单元,用于对所述至少一个分类标签对应的多个音频片段的特征向量进行训练,得到所述至少一个分类标签对应的至少一个训练模型。
8.根据权利要求7所述的***,其特征在于,所述处理单元提取所述音频片段的特征向量,包括:
采用梅尔频率倒谱系数MFCC和感性线性预测PLP提取所述音频片段的特征向量。
9.根据权利要求7所述的***,其特征在于,
所述处理单元,还用于对所述音频片段进行汉明窗处理。
10.根据权利要求7至9任一项所述的***,其特征在于,所述训练单元对所述至少一个分类标签对应的多个音频片段的特征向量进行训练,包括:
所述训练单元采用卷积神经网络CNN对所述至少一个分类标签对应的多个音频片段的特征向量进行训练。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611247230.3A CN108257614A (zh) | 2016-12-29 | 2016-12-29 | 音频数据标注的方法及其*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611247230.3A CN108257614A (zh) | 2016-12-29 | 2016-12-29 | 音频数据标注的方法及其*** |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108257614A true CN108257614A (zh) | 2018-07-06 |
Family
ID=62720722
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611247230.3A Pending CN108257614A (zh) | 2016-12-29 | 2016-12-29 | 音频数据标注的方法及其*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108257614A (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109065075A (zh) * | 2018-09-26 | 2018-12-21 | 广州势必可赢网络科技有限公司 | 一种语音处理方法、装置、***及计算机可读存储介质 |
CN109166593A (zh) * | 2018-08-17 | 2019-01-08 | 腾讯音乐娱乐科技(深圳)有限公司 | 音频数据处理方法、装置及存储介质 |
CN109408660A (zh) * | 2018-08-31 | 2019-03-01 | 安徽四创电子股份有限公司 | 一种基于音频特征的音乐自动分类的方法 |
CN110517671A (zh) * | 2019-08-30 | 2019-11-29 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种音频信息的评估方法、装置及存储介质 |
CN110584701A (zh) * | 2019-08-23 | 2019-12-20 | 杭州智团信息技术有限公司 | 一种肠鸣音的标注识别***及方法 |
CN110689040A (zh) * | 2019-08-19 | 2020-01-14 | 广州荔支网络技术有限公司 | 一种基于主播画像的声音分类方法 |
CN110782917A (zh) * | 2019-11-01 | 2020-02-11 | 广州美读信息技术有限公司 | 一种诗词吟诵风格的分类方法与*** |
CN110930997A (zh) * | 2019-12-10 | 2020-03-27 | 四川长虹电器股份有限公司 | 一种利用深度学习模型对音频进行标注的方法 |
CN111782863A (zh) * | 2020-06-30 | 2020-10-16 | 腾讯音乐娱乐科技(深圳)有限公司 | 音频分段方法、装置、存储介质及电子设备 |
CN112420070A (zh) * | 2019-08-22 | 2021-02-26 | 北京峰趣互联网信息服务有限公司 | 自动标注方法、装置、电子设备及计算机可读存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104616664A (zh) * | 2015-02-02 | 2015-05-13 | 合肥工业大学 | 一种基于声谱图显著性检测的音频识别方法 |
CN105872855A (zh) * | 2016-05-26 | 2016-08-17 | 广州酷狗计算机科技有限公司 | 视频文件的标注方法及装置 |
CN105895110A (zh) * | 2016-06-30 | 2016-08-24 | 北京奇艺世纪科技有限公司 | 一种音频文件的分类方法及装置 |
-
2016
- 2016-12-29 CN CN201611247230.3A patent/CN108257614A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104616664A (zh) * | 2015-02-02 | 2015-05-13 | 合肥工业大学 | 一种基于声谱图显著性检测的音频识别方法 |
CN105872855A (zh) * | 2016-05-26 | 2016-08-17 | 广州酷狗计算机科技有限公司 | 视频文件的标注方法及装置 |
CN105895110A (zh) * | 2016-06-30 | 2016-08-24 | 北京奇艺世纪科技有限公司 | 一种音频文件的分类方法及装置 |
Non-Patent Citations (2)
Title |
---|
孟子厚 等著: "《汉语语音区别特征分析》", 30 June 2016, 国防工业出版社 * |
迷之飞翔: ""caffe深度学习笔记实例薛开宇 基于卷积神经网络CNN的声音识别"", 《HTTPS://WWW.DOCIN.COM/P-1441307242.HTML》 * |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109166593A (zh) * | 2018-08-17 | 2019-01-08 | 腾讯音乐娱乐科技(深圳)有限公司 | 音频数据处理方法、装置及存储介质 |
CN109408660A (zh) * | 2018-08-31 | 2019-03-01 | 安徽四创电子股份有限公司 | 一种基于音频特征的音乐自动分类的方法 |
CN109065075A (zh) * | 2018-09-26 | 2018-12-21 | 广州势必可赢网络科技有限公司 | 一种语音处理方法、装置、***及计算机可读存储介质 |
CN110689040A (zh) * | 2019-08-19 | 2020-01-14 | 广州荔支网络技术有限公司 | 一种基于主播画像的声音分类方法 |
CN110689040B (zh) * | 2019-08-19 | 2022-10-18 | 广州荔支网络技术有限公司 | 一种基于主播画像的声音分类方法 |
CN112420070A (zh) * | 2019-08-22 | 2021-02-26 | 北京峰趣互联网信息服务有限公司 | 自动标注方法、装置、电子设备及计算机可读存储介质 |
CN110584701A (zh) * | 2019-08-23 | 2019-12-20 | 杭州智团信息技术有限公司 | 一种肠鸣音的标注识别***及方法 |
CN110517671A (zh) * | 2019-08-30 | 2019-11-29 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种音频信息的评估方法、装置及存储介质 |
CN110782917B (zh) * | 2019-11-01 | 2022-07-12 | 广州美读信息技术有限公司 | 一种诗词吟诵风格的分类方法与*** |
CN110782917A (zh) * | 2019-11-01 | 2020-02-11 | 广州美读信息技术有限公司 | 一种诗词吟诵风格的分类方法与*** |
CN110930997A (zh) * | 2019-12-10 | 2020-03-27 | 四川长虹电器股份有限公司 | 一种利用深度学习模型对音频进行标注的方法 |
CN110930997B (zh) * | 2019-12-10 | 2022-08-16 | 四川长虹电器股份有限公司 | 一种利用深度学习模型对音频进行标注的方法 |
CN111782863A (zh) * | 2020-06-30 | 2020-10-16 | 腾讯音乐娱乐科技(深圳)有限公司 | 音频分段方法、装置、存储介质及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108257614A (zh) | 音频数据标注的方法及其*** | |
Chen et al. | The AMG1608 dataset for music emotion recognition | |
CN105895087A (zh) | 一种语音识别方法及装置 | |
Tran et al. | Ensemble application of ELM and GPU for real-time multimodal sentiment analysis | |
Dissanayake et al. | Speech emotion recognition ‘in the wild’using an autoencoder | |
Panteli et al. | Towards the characterization of singing styles in world music | |
CN105023573A (zh) | 使用听觉注意力线索的语音音节/元音/音素边界检测 | |
Mokhsin et al. | Automatic music emotion classification using artificial neural network based on vocal and instrumental sound timbres | |
CN113813609A (zh) | 游戏音乐风格分类方法、装置、可读介质及电子设备 | |
Iqbal et al. | Mfcc and machine learning based speech emotion recognition over tess and iemocap datasets | |
Wu et al. | The DKU-LENOVO Systems for the INTERSPEECH 2019 Computational Paralinguistic Challenge. | |
Ghosal et al. | Automatic male-female voice discrimination | |
Wang et al. | [Retracted] Research on Music Style Classification Based on Deep Learning | |
Unni et al. | A Technique to Detect Music Emotions Based on Machine Learning Classifiers | |
Wang | Research on recognition and classification of folk music based on feature extraction algorithm | |
CN111462774B (zh) | 一种基于深度学习的音乐情感可信分类方法 | |
Chaudhary et al. | Automatic music emotion classification using hashtag graph | |
CN116486838A (zh) | 音乐情感识别方法和***、电子设备、存储介质 | |
CN111402919A (zh) | 一种基于多尺度多视图的戏曲唱腔风格识别方法 | |
Matsane et al. | The use of automatic speech recognition in education for identifying attitudes of the speakers | |
Mezghani et al. | Multifeature speech/music discrimination based on mid-term level statistics and supervised classifiers | |
Khanna et al. | Recognizing emotions from human speech | |
Li et al. | Multi-modal emotion recognition based on speech and image | |
Ricard et al. | Bag of MFCC-based Words for Bird Identification. | |
O’Brien | Musical Structure Segmentation with Convolutional Neural Networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180706 |
|
RJ01 | Rejection of invention patent application after publication |