CN107886941A - 一种音频标注方法及装置 - Google Patents

一种音频标注方法及装置 Download PDF

Info

Publication number
CN107886941A
CN107886941A CN201610866294.5A CN201610866294A CN107886941A CN 107886941 A CN107886941 A CN 107886941A CN 201610866294 A CN201610866294 A CN 201610866294A CN 107886941 A CN107886941 A CN 107886941A
Authority
CN
China
Prior art keywords
audio
audio fragment
fragment
vector
label
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610866294.5A
Other languages
English (en)
Inventor
高玉敏
王志鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yeelion Online Network Technology Beijing Co Ltd
Original Assignee
Yeelion Online Network Technology Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yeelion Online Network Technology Beijing Co Ltd filed Critical Yeelion Online Network Technology Beijing Co Ltd
Priority to CN201610866294.5A priority Critical patent/CN107886941A/zh
Publication of CN107886941A publication Critical patent/CN107886941A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/686Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title or artist information, time, location or usage information, user ratings
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Library & Information Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Auxiliary Devices For Music (AREA)

Abstract

本发明涉及一种音频标注方法及装置,方法包括:将音频文件切分成多个音频片段,并从中选取至少一个音频片段;提取至少一个音频片段的声学特征和图像特征,所述声学特征包括调性和/或频率分布特征;将至少一个音频片段中相同的音频片段的音频特征和图像特征进行合成,获得至少一个音频片段中相同的音频片段的特征向量;对至少一个音频片段的特征向量进行训练和预测,获得相应的概率分布,选择概率值中的最大值对应的标签作为音频文件的标签,解决了音频标注时耗费人力资源大、耗时长且标注准确率低的问题,实现了高效率高准确率的音频标注。

Description

一种音频标注方法及装置
技术领域
本发明涉及音频分析和处理领域,尤其涉及一种音频标注方法及装置。
背景技术
对音频文件进行标注,是音频分析和处理领域不可或缺的知识训练源。
现有技术中,对音频进行标注时,经常采用两种方法,人工标注(即专家标注)法和基于统计标注法,在采用人工标注法对音频进行标注时,人力成本投入大、耗时长,而且标注的准确率不高,在利用统计进行音频标注时,只能对音频中之前被标注过的那部分音频进行标注,不能对音频中之前未被标注过的那部分音频进行标注,导致标注的准确率较低。
发明内容
本发明的目的是解决现有技术中音频标注耗费人力资源大、耗时长且标注准确率低的问题。
第一方面,本发明提供了一种音频标注方法,包括以下步骤:将音频文件切分成多个音频片段,并从中选取至少一个音频片段;提取所述至少一个音频片段的声学特征和图像特征,所述声学特征包括调性和/或频率分布特征;将所述至少一个音频片段中相同的音频片段的所述声学特征和所述图像特征进行合成,获得所述至少一个音频片段中相同的音频片段的特征向量;对所述至少一个音频片段的特征向量进行训练和预测,获得相应的概率分布,选择概率值中的最大值对应的标签作为所述音频文件的标签。
优选地,所述将音频文件切分成多个音频片段,并从中选取至少一个音频片段步骤,包括:通过ffmpeg工具将音频文件切分成多个音频片段,并从中选取开头部分、中间部分和结尾部分三个音频片段。
优选地,所述提取所述至少一个音频片段的声学特征步骤,包括:通过marsyas工具提取所述至少一个音频片段的声学特征,当所述音频片段为单声道时,提取包括调性特征和频率分布特征在内的31个特征,并计算其均方差,获得31个特征值;当所述音频片段为双声道时,则提取的特征个数为62,并计算其均方差,获得62个特征值;所述单声道的音频片段合成一个62维的向量,所述双声道的音频片段合成一个124维的向量;
所述提取所述至少一个音频片段的图像特征步骤,包括:通过marsyas工具提取所述至少一个音频片段的频谱分布图;将所述频谱分布图切分成10个频谱分布小图;计算每个所述频谱分布小图的59个LBP向量;将所述10个频谱分布小图的59个LBP向量合成一个590维的向量。
优选地,所述将所述至少一个音频片段中相同的音频片段的所述声学特征和所述图像特征进行合成,获得所述至少一个音频片段中相同的音频片段的特征向量步骤,包括:当所述音频片段为单声道时,将所述62维的向量和所述590维的向量合成652维的向量,获得所述至少一个音频片段中相同的音频片段的特征向量;当所述音频片段为双声道时,将所述124维的向量和所述590维的向量合成714维的向量,获得所述至少一个音频片段中相同的音频片段的特征向量。
优选地,所述对所述至少一个音频片段的特征向量进行训练和预测,获得相应的概率分布,选择概率值中的最大值对应的标签作为所述音频文件的标签步骤,包括:通过SVM将所述至少一个音频片段的特征向量和训练集进行训练和预测;获得所述至少一个音频片段在预设标签上的概率分布;通过预设规则对所述至少一个音频片段在预设标签上的概率分布进行合成,选择概率值中的最大值对应的标签作为所述音频文件的标签。
第二方面,本发明提供了一种音频标注装置,所述装置包括:切分模块、提取模块、合成模块和训练预测模块;其中,切分模块用于将音频文件切分成多个音频片段,并从中选取至少一个音频片段;提取模块用于提取所述至少一个音频片段的声学特征和图像特征,所述声学特征包括调性和/或频率分布特征;合成模块用于将所述至少一个音频片段中相同的音频片段的所述声学特征和所述图像特征进行合成,获得所述至少一个音频片段中相同的音频片段的特征向量;训练预测模块用于对所述至少一个音频片段的特征向量进行训练和预测,获得相应的概率分布,选择概率值中的最大值对应的标签作为所述音频文件的标签。
优选地,所述切分模块具体用于通过ffmpeg工具将音频文件切分成多个音频片段,并从中选取开头部分、中间部分和结尾部分三个音频片段。
优选地,所述装置还包括:计算模块;
所述提取模块具体用于通过marsyas工具提取所述至少一个音频片段的声学特征,当所述音频片段为单声道时,提取包括调性特征和频率分布特征在内的31个特征,并计算其均方差,获得31个特征值;当所述音频片段为双声道时,则提取的特征个数为62,并计算其均方差,获得62个特征值;所述合成模块还用于将所述单声道的音频片段合成一个62维的向量,将所述双声道的音频片段合成一个124维的向量;所述提取模块还用于通过marsyas工具提取所述至少一个音频片段的频谱分布图;所述切分模块还用于将所述频谱分布图切分成10个频谱分布小图;所述计算模块用于计算每个所述频谱分布小图的59个LBP向量;所述合成模块还用于将所述10个频谱分布小图的59个LBP向量合成一个590维的向量。
优选地,所述合成模块具体用于当所述音频片段为单声道时,将所述62维的向量和所述590维的向量合成652维的向量,获得所述至少一个音频片段中相同的音频片段的特征向量;当所述音频片段为双声道时,将所述124维的向量和所述590维的向量合成714维的向量,获得所述至少一个音频片段中相同的音频片段的特征向量;将所述10个频谱分布小图的59个LBP向量合成一个590维的向量。
优选地,所述训练预测模块具体用于通过SVM将所述至少一个音频片段的特征向量和训练集进行训练和预测;获得所述至少一个音频片段在预设标签上的概率分布;所述合成模块还用于通过预设规则对所述至少一个音频片段在预设标签上的概率分布进行合成,选择概率值中的最大值对应的标签作为所述音频文件的标签。
本发明解决了音频标注时耗费人力资源大、耗时长且标注准确率低的问题,实现了高效率高准确率的音频标注。
附图说明
图1为本发明实施例提供的音频标注方法流程示意图;
图2为本发明实施例提供的音频标注装置示意图;
图3为本发明实施例提供的另一音频标注装置示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为便于对本发明实施例的理解,下面将结合附图以具体实施例做进一步的解释说明,实施例并不构成对本发明实施例的限定。
图1为本发明实施例提供的音频标注方法流程示意图。如图1所示,所述方法的执行主体可以为终端,终端可以称之为用户设备(User Equipment,UE)、移动台(MobileStation,MS)、移动终端(Mobile Terminal)、计算机、微机等。例如,终端可以是移动电脑、具有移动终端的计算机,本发明对此并不限定。
S110,将音频文件切分成多个音频片段,并从中选取至少一个音频片段。
音频文件包括但不限于歌曲、一段录音、钢琴曲。此处,可以通过ffmpeg工具将音频文件切分成多个音频片段,并从中选取开头部分、中间部分和结尾部分三个音频片段。
下面以音频文件为歌曲进行举例说明。当音频文件为mp3格式的歌曲时,选取该歌曲的开头部分的30-40s为一个音频片段,中间部分的10s为一个音频片段,结尾部分的30-40s为一个音频片段。
S120,提取所述至少一个音频片段的声学特征和图像特征,所述声学特征包括调性和/或频率分布特征。
可选地,所述提取所述至少一个音频片段的声学特征步骤,包括:
通过marsyas工具提取所述至少一个音频片段的声学特征,当所述音频片段为单声道时,提取包括调性特征和频率分布特征在内的31个特征,并计算其均方差,获得31个特征值;当所述音频片段为双声道时,则提取的特征个数为62,并计算其均方差,获得62个特征值;
所述单声道的音频片段合成一个62维的向量,所述双声道的音频片段合成一个124维的向量。
具体地,对于mp3格式的歌曲,当该歌曲为单一声道时,提取该歌曲的开头部分的音频片段在单一声道的包括调性和/或频率分布在内的31个特征,并计算其均方差,获得31个特征,共计获得62个特征值,该62个特征值合成为62维的向量作为该音频片段的声学特征。其中,提取时,采样点窗口大小可以为1024。单一声道时,中间部分音频片段的声学特征和结尾部分音频片段的声学特征的提取方法与上述相同,此处不再赘述。
由于mp3格式的歌曲多为双声道,当该歌曲为双声道时,在提取完该歌曲在一个声道的开头部分音频片段的声学特征后,提取该歌曲在另一声道的开头部分音频片段的声学特征共计获得124个特征值,该124个特征值合成124维的向量作为开头部分音频片段的声学特征。双声道时,中间部分音频片段的声学特征和结尾部分音频片段的声学特征的提取方法与上述相同,此处不再赘述。
可选地,提取所述至少一个音频片段的图像特征步骤,包括:通过marsyas工具提取所述至少一个音频片段的频谱分布图;将所述频谱分布图切分成10个频谱分布小图;计算每个所述频谱分布小图的59个LBP向量;将所述10个频谱分布小图的59个LBP向量合成一个590维的向量。
具体地,通过marsyas工具中的sound2png提取开头部分的音频片段的频谱分布图,采用线性的频率分布方法,将该音频片段的频谱分布图分成10个频谱分布小图,对每个频谱分布小图求取LBP向量,共59维,10个频谱分布小图的59个LBP向量合成一个590维的向量,作为该音频片段的图像特征。
中间部分音频片段的图像特征的提取方法、结尾部分音频片段的图像特征的提取方法和开头部分的音频片段的图像特征的提取方法一样,此处不再赘述。
S130,将所述至少一个音频片段中相同的音频片段的所述声学特征和所述图像特征进行合成,获得所述至少一个音频片段中相同的音频片段的特征向量。
可选地,将所述至少一个音频片段中相同的音频片段的所述声学特征和所述图像特征进行合成,获得至少一个音频片段中相同的音频片段的特征向量步骤,包括:
当音频片段为单声道时,将所述62维的向量和所述590维的向量合成652维的向量,获得所述至少一个音频片段中相同的音频片段的特征向量;
当所述音频片段为双声道时,将所述124维的向量和所述590维的向量合成714维的向量,获得所述至少一个音频片段中相同的音频片段的特征向量。
其中,相同的音频片段的所述声学特征和所述图像特征进行合成,即开头部分音频片段的声学特征和图像特征进行合成,中间部分音频片段的声学特征和图像特征进行合成,结尾部分音频片段的声学特征和图像特征进行合成。
S140,对至少一个音频片段的特征向量进行训练和预测,获得相应的概率分布,选择概率值中的最大值对应的标签作为所述音频文件的标签。
可选地,对所述至少一个音频片段的特征向量进行训练和预测,获得相应的概率分布,选择概率值中的最大值对应的标签作为所述音频文件的标签步骤,包括:通过支持向量机(Support Vector Machine,SVM)将所述至少一个音频片段的特征向量和训练集进行训练和预测;获得所述至少一个音频片段在预设标签上的概率分布;
通过预设规则对所述至少一个音频片段在预设标签上的概率分布进行合成,选择概率值中的最大值对应的标签作为所述音频文件的标签。
以音频为mp3格式歌曲为例,对竞品数据进行分析,虾米音乐的曲风标签一共包括23个大类标签,包括:布鲁斯、乡村、古典、电子、民谣、说唱、爵士、轻音乐、新世纪、流行、节奏布鲁斯、雷鬼、摇滚、唱作人、儿童、中国特色、铃声、有色书、世界音乐、舞台/银幕/娱乐、实验、拉丁、金属,这23个大类标签包括614个小类标签,由于唱作人、儿童、中国特色、铃声、有色书这5个大类标签带有内容导向,拉丁、金属这两个大类标签易于混淆,世界音乐、舞台/银幕/娱乐、实验这3个大类标签风格不明确,都予以删除。根据酷我曲库中音乐的特色内容,增加了铃声、有声书、DJ、红歌、儿童歌曲、中国戏曲这5个大类标签。组成的预设标签包括但不限于:布鲁斯、乡村、古典、电子、民谣、说唱、爵士、轻音乐、新世纪、流行、节奏布鲁斯、摇滚、雷鬼、铃声、有声书、DJ、红歌、儿童歌曲、中国戏曲的任意组合。
在选取训练集时,以预设标签的个数为13为例,可以抓取虾米音乐300多万歌曲的大类标签,先筛选出仅带有一个大类标签的所有歌曲,共约100万首,其次,13个大类标签共约500个小类标签,为了保证属于小类标签的歌曲在训练集中分布均匀并达到一定的量,每个小类标签下选取10首以上的歌曲,最终组成的样本集为每个大类标签包含500首歌曲,共6500首歌曲,这6500首歌曲构成训练集。
利用SVM,将要进行预测的歌曲的特征向量和预先建立好的训练集进行训练、预测,获得该歌曲的概率分布。
可选地,通过预设规则对所述至少一个音频片段在预设标签上的概率分布进行合成,选择概率值中的最大值对应的标签作为所述音频文件的标签步骤,包括:
当预设规则为Max规则时,计算所述至少一个音频片段在预设标签上概率的最大值,选择概率值中的最大值对应的标签作为所述音频文件的标签;
当预设规则为Min规则时,计算所述至少一个音频片段在预设标签上概率的最小值,选择概率值中的最大值对应的标签作为所述音频文件的标签;
当预设规则为Sum规则时,计算所述至少一个音频片段在预设标签上概率的和,选择概率值中的最大值对应的标签作为所述音频文件的标签;
当预设规则为Product规则时,计算所述至少一个音频片段在预设标签上概率的积,选择概率值中的最大值对应的标签作为所述音频文件的标签。
以预设标签的个数为13,音频片段个数为3为例,当预设规则为Max规则时,计算3个音频片段在13个标签上概率的最大值,选择概率值中的最大值对应的标签作为所述音频文件的标签;
当预设规则为Min规则时,计算3个音频片段在13个标签上概率的最小值,选择概率值中的最大值对应的标签作为所述音频文件的标签;
当预设规则为Sum规则时,计算3个音频片段在13个标签上概率的和,选择概率值中的最大值对应的标签作为所述音频文件的标签;
当预设规则为Product规则时,计算3个音频片段在13个标签上概率的积,选择概率值中的最大值对应的标签作为所述音频文件的标签。
在一个实施例中,比如歌曲有3个音频片段,分别为A、B和C,上述3个音频片段A、B、C在4个标签上的概率分布为A:[0.8,0.1,0.05,0.05],B:[0.2,0.2,0.2,0.4],C:[0.7,0.1,0.1,0.1],当预设规则为Max规则时,分别取A、B、C在每个标签上的最大值,结果为[0.8,0.2,0.2,0.4],此时,0.8对应的标签即为该歌曲的标签;当预设规则为Min规则时,分别取A、B、C在每个标签上的最小值,结果为[0.8,0.2,0.2,0.4],此时,0.8对应的标签即为该歌曲的标签;当预设规则为Sum规则时,分别计算A、B、C在每个标签上的和,结果为[1.7,0.4,0.35,0.55],此时,1.7对应的标签即为该歌曲的标签;当预设规则为Product规则时,分别计算A、B、C在每个标签上的积,结果为[0.112,0.002,0.001,0.002],此时,0.112对应的标签即为该歌曲的标签。
在实际对音频文件打标签之前,利用ismir2004数据集验证本发明实施例提供的音频标注方法的准确率,发现较好的结果往往出现在采用Min规则进行结果整合的实验中,因此,在生产过程中,选取Min规则得到的结果作为最终结果。
应用本发明实施例提供的音频标注方法,将音频文件切分成多个音频片段,并从中选取至少一个音频片段;提取至少一个音频片段的声学特征和图像特征,所述声学特征包括调性和/或频率分布特征;将至少一个音频片段中相同的音频片段的音频特征和图像特征进行合成,获得至少一个音频片段中相同的音频片段的特征向量;对至少一个音频片段的特征向量进行训练和预测,获得相应的概率分布,选择概率值中的最大值对应的标签作为音频文件的标签,解决了音频标注时耗费人力资源大、耗时长且标注准确率低的问题,实现了高效率高准确率的音频标注。
图2为本发明实施例提供的音频标注装置示意图。如图2所示,在图2中,音频标注装置包括:切分模块210、提取模块220、合成模块230和训练预测模块240。
其中,切分模块210用于将音频文件切分成多个音频片段,并从中选取至少一个音频片段。
提取模块220用于提取所述至少一个音频片段的声学特征和图像特征,所述声学特征包括调性和/或频率分布特征;
合成模块230用于将所述至少一个音频片段中相同的音频片段的所述声学特征和所述图像特征进行合成,获得所述至少一个音频片段中相同的音频片段的特征向量;
所述训练预测模块240用于对所述至少一个音频片段的特征向量进行训练和预测,获得相应的概率分布,选择概率值中的最大值对应的标签作为所述音频文件的标签。
优选地,所述切分模块210具体用于通过ffmpeg工具将音频文件切分成多个音频片段,并从中选取开头部分、中间部分和结尾部分三个音频片段。
优选地,提取模块220具体用于通过marsyas工具提取所述至少一个音频片段的声学特征,当所述音频片段为单声道时,提取包括调性特征和频率分布特征在内的31个特征,并计算其均方差,获得31个特征值;当所述音频片段为双声道时,则提取的特征个数为62,并计算其均方差,获得62个特征值;
合成模块230还用于将所述单声道的音频片段合成一个62维的向量,将所述双声道的音频片段合成一个124维的向量;
提取模块220还用于通过marsyas工具提取所述至少一个音频片段的频谱分布图;
切分模块210还用于将频谱分布图切分成10个频谱分布小图。
在图2的音频标注装置中增加了一个模块,计算模块250,如图3所示,图3为本发明实施例提供的另一音频标注装置示意图,在图3中,计算模块250用于计算每个所述频谱分布小图的59个LBP向量。
合成模块230还用于将10个频谱分布小图的59个LBP向量合成一个590维的向量。
优选地,合成模块230具体用于,当音频片段为单声道时,将62维的向量和所述590维的向量合成652维的向量,获得至少一个音频片段中相同的音频片段的特征向量;当音频片段为双声道时,将124维的向量和所述590维的向量合成714维的向量,获得至少一个音频片段中相同的音频片段的特征向量;将10个频谱分布小图的59个LBP向量合成一个590维的向量。
优选地,训练预测模块240具体用于,通过SVM将所述至少一个音频片段的特征向量和训练集进行训练和预测;
获得所述至少一个音频片段在预设标签上的概率分布;
合成模块230还用于通过预设规则对所述至少一个音频片段在预设标签上的概率分布进行合成,选择概率值中的最大值对应的标签作为所述音频文件的标签。
可选地,计算模块250还用于:
当预设规则为Max规则时,计算至少一个音频片段在预设标签上概率的最大值,选择概率值中的最大值对应的标签作为所述音频文件的标签;
当预设规则为Min规则时,计算所述至少一个音频片段在预设标签上概率的最小值,选择概率值中的最大值对应的标签作为所述音频文件的标签;
当预设规则为Sum规则时,计算所述至少一个音频片段在预设标签上概率的和,选择概率值中的最大值对应的标签作为所述音频文件的标签;
当预设规则为Product规则时,计算所述至少一个音频片段在预设标签上概率的积,选择概率值中的最大值对应的标签作为所述音频文件的标签。
应用本发明实施例提供的音频标注装置,切分模块将音频文件切分成多个音频片段,并从中选取至少一个音频片段;提取模块提取至少一个音频片段的声学特征和图像特征,声学特征包括调性和/或频率分布特征;合成模块将至少一个音频片段中相同的音频片段的所述声学特征和所述图像特征进行合成,获得至少一个音频片段中相同的音频片段的特征向量;训练预测模块对至少一个音频片段的特征向量进行训练和预测,获得相应的概率分布,选择概率值中的最大值对应的标签作为所述音频文件的标签,解决了音频标注时耗费人力资源大、耗时长且标注准确率低的问题,实现了高效率高准确率的音频标注。
本领域普通技术人员应该还可以进一步意识到,结合本文中所公开的实施例描述的各示例的模块及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执轨道,取决于技术方案的特定应用和设计约束条件。本领域普通技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执轨道的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种音频标注方法,其特征在于,包括以下步骤:
将音频文件切分成多个音频片段,并从中选取至少一个音频片段;
提取所述至少一个音频片段的声学特征和图像特征,所述声学特征包括调性和/或频率分布特征;
将所述至少一个音频片段中相同的音频片段的所述声学特征和所述图像特征进行合成,获得所述至少一个音频片段中相同的音频片段的特征向量;
对所述至少一个音频片段的特征向量进行训练和预测,获得相应的概率分布,选择概率值中的最大值对应的标签作为所述音频文件的标签。
2.根据权利要求1所述的方法,其特征在于,所述将音频文件切分成多个音频片段,并从中选取至少一个音频片段步骤,包括:
通过ffmpeg工具将音频文件切分成多个音频片段,并从中选取开头部分、中间部分和结尾部分三个音频片段。
3.根据权利要求1所述的方法,其特征在于,所述提取所述至少一个音频片段的声学特征步骤,包括:
通过marsyas工具提取所述至少一个音频片段的声学特征,当所述音频片段为单声道时,提取包括调性特征和频率分布特征在内的31个特征,并计算其均方差,获得31个特征值;当所述音频片段为双声道时,则提取的特征个数为62,并计算其均方差,获得62个特征值;
所述单声道的音频片段合成一个62维的向量,所述双声道的音频片段合成一个124维的向量;
所述提取所述至少一个音频片段的图像特征步骤,包括:
通过marsyas工具提取所述至少一个音频片段的频谱分布图;
将所述频谱分布图切分成10个频谱分布小图;
计算每个所述频谱分布小图的59个LBP向量;
将所述10个频谱分布小图的59个LBP向量合成一个590维的向量。
4.根据权利要求1-3任一项所述的方法,其特征在于,所述将所述至少一个音频片段中相同的音频片段的所述声学特征和所述图像特征进行合成,获得所述至少一个音频片段中相同的音频片段的特征向量步骤,包括:
当所述音频片段为单声道时,将所述62维的向量和所述590维的向量合成652维的向量,获得所述至少一个音频片段中相同的音频片段的特征向量;
当所述音频片段为双声道时,将所述124维的向量和所述590维的向量合成714维的向量,获得所述至少一个音频片段中相同的音频片段的特征向量。
5.根据权利要求1所述的方法,其特征在于,所述对所述至少一个音频片段的特征向量进行训练和预测,获得相应的概率分布,选择概率值中的最大值对应的标签作为所述音频文件的标签步骤,包括:
通过SVM将所述至少一个音频片段的特征向量和训练集进行训练和预测;
获得所述至少一个音频片段在预设标签上的概率分布;
通过预设规则对所述至少一个音频片段在预设标签上的概率分布进行合成,选择概率值中的最大值对应的标签作为所述音频文件的标签。
6.一种音频标注装置,其特征在于,所述装置包括:切分模块、提取模块、合成模块和训练预测模块;
所述切分模块,用于将音频文件切分成多个音频片段,并从中选取至少一个音频片段;
所述提取模块,用于提取所述至少一个音频片段的声学特征和图像特征,所述声学特征包括调性和/或频率分布特征;
所述合成模块,用于将所述至少一个音频片段中相同的音频片段的所述声学特征和所述图像特征进行合成,获得所述至少一个音频片段中相同的音频片段的特征向量;
所述训练预测模块,用于对所述至少一个音频片段的特征向量进行训练和预测,获得相应的概率分布,选择概率值中的最大值对应的标签作为所述音频文件的标签。
7.根据权利要求6所述的装置,其特征在于,所述切分模块具体用于,通过ffmpeg工具将音频文件切分成多个音频片段,并从中选取开头部分、中间部分和结尾部分三个音频片段。
8.根据权利要求6所述的装置,其特征在于,所述装置还包括:计算模块;
所述提取模块具体用于,通过marsyas工具提取所述至少一个音频片段的声学特征,当所述音频片段为单声道时,提取包括调性特征和频率分布特征在内的31个特征,并计算其均方差,获得31个特征值;当所述音频片段为双声道时,则提取的特征个数为62,并计算其均方差,获得62个特征值;
所述合成模块还用于,将所述单声道的音频片段合成一个62维的向量,将所述双声道的音频片段合成一个124维的向量;
所述提取模块还用于,通过marsyas工具提取所述至少一个音频片段的频谱分布图;
所述切分模块还用于,将所述频谱分布图切分成10个频谱分布小图;
所述计算模块,用于计算每个所述频谱分布小图的59个LBP向量;
所述合成模块还用于,将所述10个频谱分布小图的59个LBP向量合成一个590维的向量。
9.根据权利要求6-8任一项所述的装置,其特征在于,所述合成模块具体用于,当所述音频片段为单声道时,将所述62维的向量和所述590维的向量合成652维的向量,获得所述至少一个音频片段中相同的音频片段的特征向量;
当所述音频片段为双声道时,将所述124维的向量和所述590维的向量合成714维的向量,获得所述至少一个音频片段中相同的音频片段的特征向量;
将所述10个频谱分布小图的59个LBP向量合成一个590维的向量。
10.根据权利要求6所述的装置,其特征在于,
所述训练预测模块具体用于,通过SVM将所述至少一个音频片段的特征向量和训练集进行训练和预测;
获得所述至少一个音频片段在预设标签上的概率分布;
所述合成模块还用于,通过预设规则对所述至少一个音频片段在预设标签上的概率分布进行合成,选择概率值中的最大值对应的标签作为所述音频文件的标签。
CN201610866294.5A 2016-09-29 2016-09-29 一种音频标注方法及装置 Pending CN107886941A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610866294.5A CN107886941A (zh) 2016-09-29 2016-09-29 一种音频标注方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610866294.5A CN107886941A (zh) 2016-09-29 2016-09-29 一种音频标注方法及装置

Publications (1)

Publication Number Publication Date
CN107886941A true CN107886941A (zh) 2018-04-06

Family

ID=61768845

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610866294.5A Pending CN107886941A (zh) 2016-09-29 2016-09-29 一种音频标注方法及装置

Country Status (1)

Country Link
CN (1) CN107886941A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109065076A (zh) * 2018-09-05 2018-12-21 深圳追科技有限公司 音频标签的设置方法、装置、设备和存储介质
CN112562647A (zh) * 2020-11-24 2021-03-26 中电海康集团有限公司 一种音频起始点的标注方法及装置
CN115757784A (zh) * 2022-11-21 2023-03-07 中科世通亨奇(北京)科技有限公司 基于标注模型和标签模板筛选的语料标注方法及装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101398825A (zh) * 2007-09-29 2009-04-01 三星电子株式会社 用于快速音乐分类和检索的方法和设备
CN101599271A (zh) * 2009-07-07 2009-12-09 华中科技大学 一种数字音乐情感的识别方法
CN103186527A (zh) * 2011-12-27 2013-07-03 北京百度网讯科技有限公司 建立音乐分类模型的***、推荐音乐的***及相应方法
CN104090876A (zh) * 2013-04-18 2014-10-08 腾讯科技(深圳)有限公司 一种音频文件的分类方法及装置
CN104123934A (zh) * 2014-07-23 2014-10-29 泰亿格电子(上海)有限公司 一种构音识别方法及其***
CN104735528A (zh) * 2015-03-02 2015-06-24 青岛海信电器股份有限公司 一种音效匹配方法及装置
CN105872855A (zh) * 2016-05-26 2016-08-17 广州酷狗计算机科技有限公司 视频文件的标注方法及装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101398825A (zh) * 2007-09-29 2009-04-01 三星电子株式会社 用于快速音乐分类和检索的方法和设备
CN101599271A (zh) * 2009-07-07 2009-12-09 华中科技大学 一种数字音乐情感的识别方法
CN103186527A (zh) * 2011-12-27 2013-07-03 北京百度网讯科技有限公司 建立音乐分类模型的***、推荐音乐的***及相应方法
CN104090876A (zh) * 2013-04-18 2014-10-08 腾讯科技(深圳)有限公司 一种音频文件的分类方法及装置
CN104123934A (zh) * 2014-07-23 2014-10-29 泰亿格电子(上海)有限公司 一种构音识别方法及其***
CN104735528A (zh) * 2015-03-02 2015-06-24 青岛海信电器股份有限公司 一种音效匹配方法及装置
CN105872855A (zh) * 2016-05-26 2016-08-17 广州酷狗计算机科技有限公司 视频文件的标注方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
常艺伟: "基于音乐库的用户音乐分类方法研究", 《中国优秀硕士学位论文库全文数据库 信息科技辑》 *
田慧: "支持向量机集成及在音乐分类中的应用", 《中国优秀硕士学位论文库全文数据库 信息科技辑》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109065076A (zh) * 2018-09-05 2018-12-21 深圳追科技有限公司 音频标签的设置方法、装置、设备和存储介质
CN112562647A (zh) * 2020-11-24 2021-03-26 中电海康集团有限公司 一种音频起始点的标注方法及装置
CN112562647B (zh) * 2020-11-24 2022-09-06 中电海康集团有限公司 一种音频起始点的标注方法及装置
CN115757784A (zh) * 2022-11-21 2023-03-07 中科世通亨奇(北京)科技有限公司 基于标注模型和标签模板筛选的语料标注方法及装置
CN115757784B (zh) * 2022-11-21 2023-07-07 中科世通亨奇(北京)科技有限公司 基于标注模型和标签模板筛选的语料标注方法及装置

Similar Documents

Publication Publication Date Title
CN104715760B (zh) 一种k歌匹配分析方法及***
CN104395953A (zh) 来自音乐音频信号的拍子、和弦和强拍的评估
WO2018045988A1 (zh) 歌曲的数字乐谱文件的生成方法、装置和存储介质
CN107608963A (zh) 一种基于互信息的中文纠错方法、装置、设备及存储介质
Mion et al. Score-independent audio features for description of music expression
CN103824565A (zh) 一种基于音符和时值建模的哼唱识谱方法及***
CN104992712B (zh) 能识别音乐自动成谱的方法
CN105023573A (zh) 使用听觉注意力线索的语音音节/元音/音素边界检测
CN105161116B (zh) 多媒体文件高潮片段的确定方法及装置
CN106653037B (zh) 音频数据处理方法和装置
CN105868372B (zh) 标签分配方法及装置
CN105096933B (zh) 分词词典的生成方法和装置及语音合成方法和装置
CN104575519B (zh) 特征提取方法、装置及重音检测的方法、装置
CN107886941A (zh) 一种音频标注方法及装置
CN110377212B (zh) 通过音频触发显示的方法、装置、计算机设备和存储介质
CN108257614A (zh) 音频数据标注的方法及其***
CN107978322A (zh) 一种k歌打分算法
CN107767850A (zh) 一种演唱评分方法及***
CN108172211B (zh) 可调节的波形拼接***及方法
CN111210850B (zh) 歌词对齐方法及相关产品
CN108804474A (zh) 歌曲的音频信号处理方法、音频相似度匹配方法及装置
CN109410972A (zh) 生成音效参数的方法、装置及存储介质
CN106503181B (zh) 一种音频数据处理方法及装置
CN102184733A (zh) 基于音频关注度的音频质量评价***及方法
Chordia Automatic raag classification of pitch-tracked performances using pitch-class and pitch-class dyad distributions

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180406