CN113140226A - 一种采用双Token标签的声事件标注及识别方法 - Google Patents

一种采用双Token标签的声事件标注及识别方法 Download PDF

Info

Publication number
CN113140226A
CN113140226A CN202110465526.7A CN202110465526A CN113140226A CN 113140226 A CN113140226 A CN 113140226A CN 202110465526 A CN202110465526 A CN 202110465526A CN 113140226 A CN113140226 A CN 113140226A
Authority
CN
China
Prior art keywords
audio
layer
label
matrix
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110465526.7A
Other languages
English (en)
Other versions
CN113140226B (zh
Inventor
姚雨
宋浠瑜
王玫
仇洪冰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guilin University of Electronic Technology
Original Assignee
Guilin University of Electronic Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guilin University of Electronic Technology filed Critical Guilin University of Electronic Technology
Priority to CN202110465526.7A priority Critical patent/CN113140226B/zh
Publication of CN113140226A publication Critical patent/CN113140226A/zh
Application granted granted Critical
Publication of CN113140226B publication Critical patent/CN113140226B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种采用双Token标签的声事件标注及识别方法,其特征在于,包括声事件标注过程和识别过程,所述声事件标注过程为:1‑1)音频标签形式;1‑2)完成数据集中所有音频标注;所述识别过程为:2‑1)构建音频数据集;2‑2)音频数据预处理和特征提取;2‑3)音频数据扩增;2‑4)搭建卷积循环神经网络;2‑5)训练卷积循环神经网络学习检测模型;2‑6)使用训练好的检测模型识别待检测音频。这种方法能在保证准确率的同时,以较小的代价拓宽声事件识别范围,可实现人们生活环境中准确的声音事件检测与监控,从而更好地服务智慧城市建设。

Description

一种采用双Token标签的声事件标注及识别方法
技术领域
本发明涉及声事件检测领域,具体是一种采用双Token标签的声事件标注及识别方法。
背景技术
在人们的生活环境中,各类声音携带了大量有关日常环境和其中发生的物理事件信息。声音事件检测(Sound Events Detection,简称SED)研究,能帮助人们更好地感知其所处声音场景,识别出各种声源类别,获得感兴趣事件的时间戳,具有重要的现实意义。可应用于城市环境噪声监控、公共场所的安全监控、室内环境中老人儿童行为监测等智慧城市与智慧家居场景,比如声监控应用场景下可以自动的检测识别枪声、尖叫声、物件燃烧声,在人机交互、听觉感知、满足社会中各类检测需求中都有重要价值。
声事件检测任务依赖于信号处理方法和机器学习模型,声事件检测模型通常由大量的带标签标注的音频数据训练得到,得到的模型可以对一段标签未知的音频做预测,通常是预测其发生的声事件所属类别和对应的时间戳。具体地,对带标注音频使用信号处理方法得到其时频域某种特征表示,将带标注的特征表示作为输入,送入机器学习模型,机器学习模型定义好损失函数和随机初始化权重参数;根据前向传播计算输出和标签的损失值,接着使用反向传播,更新权重;通过来回不断的迭代,直到损失函数很小,此时的权重参数就是声事件识别模型,得到的模型就可以对一段不知标签的音频做预测,达到声事件检测的目的。而这种迭代、更新权值的过程就是机器学习训练过程。由于机器学习遵从“garbage in,garbage out”的原则,标注数据的准确度、好坏程度、数据量的大小极大的影响了检测模型的效果。数据的标注有强标签标注(准确标注其声事件类别和时间戳、体现了一段音频中声事件数量及位置)和弱标签标注(仅标注某类声事件出现与否、无法体现其音频中发声了几次和在什么时间点发生)。
数据量和标注通常不能兼顾:若对音频数据进行强标注,训练模型就能获得更准确详细的标签描述,并预测出可能重叠的声事件的开始和结束时间(时间戳)。然而,强标注音频数据,往往是通过人耳聆听与手工标注完成,需要人在聆听过程中时刻保持高度注意力,并利用专业软件记录,是一项非常耗时、耗力的任务,尤其是当一段音频中混合着多种类别且时间重叠的声事件时,强标注任务的时间、人力成本则会成倍增长。而弱标注,这种方式只标注一段音频中有无感兴趣事件发生,以舍弃部分时间信息为代价,降低音频数据集标注的人力成本,相应地,使用弱标注数据集训练获得的模型,无法预测声音事件的时间信息,且识别率也不高。常用的弱标注数据集有:1.Detection and Classification ofAcoustic Scenes and Events(DCASE2017)声事件检测数据集-优点在于标注精确,但该数据集样本类型与数量较少,使用该数据集训练得到的模型识别范围较窄,模型普适性差;2.Google Audio-set弱标注数据集-优点在于样本类型与数量较多,但受成本限制,其标注精度较低,因此,基于该数据集训练得到的模型,虽然识别范围较广,但是识别准确率不如前者。
发明内容
本发明的目的是针对现有技术的不足,而提供一种采用双Token标签的声事件标注及识别方法。这种方法能在保证准确率的同时,以较小的代价拓宽声事件识别范围,可实现人们生活环境中准确的声音事件检测与监控,从而更好地服务智慧城市建设。
实现本发明目的的技术方案是:
一种采用双Token标签的声事件标注及识别方法,包括声事件标注过程和识别过程,所述声事件标注过程:
1-1)音频标签形式:在音频标注软件Audacity播放包含各类声事件的原始音频数据,标注步骤为:在音频的每个声事件发生时间范围内随机地选取两个Token,分别为Ci_start与Ci_end,C表示声事件类别;
1-2)重复标注步骤,完成数据集中所有音频标注;
所述识别过程为:
2-1)构建音频数据集:根据检测任务要求添加声事件音频构成音频数据集,音频数据集构建需要大量的带标注音频,依据检测要求,首先确定待检测声事件类别,采用音频标注软件Audacity播放待检测声事件音频,播放音频的同时,在软件Label Track栏中点击鼠标标记声事件类别和时间戳,完成音频数据标注,在听到的声事件发声时间范围内随机的选取两个点,得到两个Token,Token分别为Ci_start与Ci_end,C表示声事件类别,因为强标签中重叠声事件的边界需要人反复回放才能准确标注,本发明随机给定两个Token省去了反复回放确定边界这一耗时繁琐的过程,节省了人力,这种简化标注方法以此节省人力带来了标注信息减少会对识别带来负面影响,这种影响可以通过设计配套的卷积循环神经网络解决;最后,采用Audacity导出标签文件,标签文件记录了音频文件名、每个音频文件名下发生的声事件类别、每个声事件时间戳;
2-2)音频数据预处理和特征提取:
对于音频:由于音频的来源可能为不同的录制设备,处理平台对所有音频重采样频率为16kHz,重采样完成后对音频波形数据标准化,使音频波形数据值规整到(-1,1)范围类,采用max标准化:x(t)=s(t)/max(|s(t)|),然后采用短时傅里叶变换对所有音频提取128维的对数梅尔能量谱,短时傅里叶变换具体参数为:nfft=2048、采样频率为16kHz、采用1/2帧重叠,最后对对数梅尔能量谱采样z-score标准化:假设输入对数梅尔能量谱为X1,X2,...Xn
Figure BDA0003043709350000031
其中,
Figure BDA0003043709350000032
得到规整后的对数梅尔能量谱:Y1,Y2....Yn,其均值为0,方差为1;
对音频标签:将以秒为单位的标签转换成以帧为单位的标签,对每个标签文件采取如下步骤变换得到以帧为单位的音频标签编码矩阵,标签编码矩阵由0元素和1元素组成,矩阵的列数n为帧数,矩阵的行数m为声事件类别数,一个包含m类声事件的音频标签编码矩阵从以秒为单位到以帧为时间单位的转换如下:
step1:产生一个m行n列的零矩阵,假设采样频率为sr,音频持续时间为t,则矩阵列数n=sr*t,矩阵行数m为声事件类别数;
step2:确定每个声事件以帧为单位的时间戳:假设以秒为单位的时间戳timestampsecond、hop_length为帧重叠,则时间戳转换公式为:
timestampframe=timestampsecond÷nfft÷(1-hop_length);
step3:timestampframe包含范围即每个声事件起始帧到结束帧之间的矩阵值用1替换0;
2-3)音频数据扩增:为提高神经网络泛化性能,防止过拟合采用如下数据扩增方式将音频数据扩增至原来的三倍:音频随机缩放、time masking、frequency masking、加随机噪声、音频样本混合(mixup);
2-4)搭建卷积循环神经网络:采用PyTorch框架搭建如下卷积循环神经网络:第一层为输入层、输入128维对数梅尔能量谱,第二层为输入通道数为16的2维卷积层接2×2的2d池化,第三层为输入通道数为32的2维卷积层接2×2的2d池化,第四层为输入通道数为64的2维卷积层接2×2的2d池化,第五层为输入通道数为128的2维卷积层接2×1的2d池化,第六层为输入通道数为256使用2×1的2d池化,再将输出特征图张量展平,第七层为输入通道数为256的一维卷积层,第八层为使用两层GRU的双向循环神经网络、神经元个数为256,第九层为输出层,依次使用256、80个神经元的全连接层且使用ReLU激活,最后拼接一个神经元个数为声事件类别数的使用sigmoid激活的全连接层,每个卷积层都使用大小为3×3的卷积核、步长为1,并且每个卷积层接一个批标准化层、且都使用ReLU函数激活;
2-5)训练卷积循环神经网络学习检测模型:将训练数据即音频的对数梅尔能量谱送入步骤2-4)搭建的卷积循环神经网络,卷积循环神经网络初始权值参数由PyTorch随机给定,得到输出
Figure BDA0003043709350000041
其中C为声事件类别数,T为帧总数,计算真阳性预测标签损失Yp,将Yp
Figure BDA0003043709350000042
逐元素相乘得到输出
Figure BDA0003043709350000043
最后计算如下二项交叉熵损失函数:
Figure BDA0003043709350000044
梯度反向传播,使用Adam梯度下降法,学习率设置为0.001,更新权值参数,迭代训练直至损失不再下降,保存模型参数;
2-6)使用训练好的检测模型识别待检测音频:将标签未知的待检测音频标准化后提取对数梅尔能量谱在规整后送入卷积循环神经网络,得到神经网络概率输出,保存,依据f1-score为标尺搜索最佳判决门限α,依据判决门限α二值化得到双Token标签下预测结果,双Token标注此时的结果相较强标签标注检测模型而言,是没有覆盖到声事件真实的时间戳的,为了降低这种假阴性的预测,采用标签延展的策略,具体做法是:依据双Token标签预测输出矩阵确定的声事件开始结束时间帧节点,计算神经网络概率输出矩阵对应帧节点的相邻帧cosine相似度,相似度大于0.5则延展该帧,即延展了双Token标签矩阵中时间戳,最后得到标签延展后的预测矩阵,得到识别结果,完成识别,注意的是这种左右两侧延展不得超过预先设定的超参数collar值,根据所有声事件的最大最小时长一般取(250ms-50ms)。
本技术方案拟针对数据强标签和弱标签的特性,结合深度学习范式,找到一种折衷的方法,提供了弱标签往强标签转换的一种节省人力的思路,通过计算音频分析研究和机器学习模型,更新双Token标签标注下的预测结果,使其能在声学事件检测结果上达到超过弱标签而趋于强标注的效果,本技术方案所提出的交互式音频标注配套发明提出的神经网络模型,有望降低数据驱动模型的数据标注的时间与人力成本、缩小声学事件检测模型实际检测能力和理论检测能力的差异,从而更好地服务智慧城市建设。
这种方法能在保证准确率的同时,以较小的代价拓宽声事件识别范围,可实现人们生活环境中准确的声音事件检测与监控,从而更好地服务智慧城市建设。
附图说明
图1为实施例中识别过程流程示意图;
图2为实施例中构建数据集过程中使用音频标注软件标注一段音频示意图;
图3为实施例中包含3类声事件实施例的双Token标签示意图。
具体实施方式
下面结合附图和实施例对本发明的内容作进一步的阐述,但不是对本发明的限定。
实施例:
参照图1,一种采用双Token标签的声事件标注及识别方法,包括声事件标注过程和识别过程,所述事件标注过程为:
1-1)音频标签形式:采用音频标注软件Audacity播放包含各类声事件的原始音频数据,标注步骤为:在音频的每个声事件发生时间范围内随机地选取两个Token,分别为Ci_start与Ci_end,C表示声事件类别;
1-2)重复标注步骤,完成数据集中所有音频标注;
所述识别过程为:
2-1)构建音频数据集:根据检测任务要求添加声事件音频构成音频数据集,音频数据集构建需要大量的带标注音频,依据检测要求,首先确定待检测声事件类别,本例检测要求为3类声事件:枪击声、尖叫声、警笛声,通过人工录制枪击声、尖叫声、警笛声和在视频社交网站如YOUTUBE、BILIBILI下载包含枪击声、尖叫声、警笛声的音频文件,将获取到的音频分为持续时间为10s的音频段,10s各类音频声事件可能重叠多次,重复录制和下载使得包含三类声事件的音频数量达到3000条,采用音频标注软件Audacity播放待检测声事件这3000条音频,播放音频的同时,在软件Label Track栏中点击鼠标标记声事件类别和时间戳,完成音频数据标注,如图2所示,在Audacity软件Label Track栏每点击鼠标就是一次标注,标注方法:不用仔细聆听、确定声事件的开始、停止事件点,在听到的声事件发声时间范围内随机的选取两个点,得到两个Token,Token分别为Ci_start与Ci_end,C表示声事件类别,因为强标签中重叠声事件的边界需要人反复回放才能准确标注,本例随机给定两个Token省去了反复回放确定边界这一耗时繁琐的过程,节省了人力,这种简化标注方法以此节省人力带来了标注信息减少会对识别带来负面影响,这种影响可以通过设计配套的卷积循环神经网络解决,如图3所示,图3上部为对模拟双Token标签标注过程,只用随机在对应声事件发生范围内取两个Token占位,图3中部为标签的真值,图3下部为双Token标签的标签编码矩阵,与真值对比,由于随机选取token没有仔细地、消耗大量精力取确定重叠声发声时间边界的缘故,故标签覆盖不完整,以标签矩阵的形式对比了强签标注和双Token标注,图3标签矩阵中纵轴代表声事件类别(这里假设为3类),横轴表示帧数,1表示在图中所示帧数发声了该类声事件,空白处为0即未发生声事件,可以看到,虽然双Token虽然是随机给定的,但是,仍然保留了一定的时间戳信息,最后,使用Audacity导出标签文件,标签文件记录了音频文件名、每个音频文件名下发生的声事件类别、每个声事件时间戳;
2-2)音频数据预处理和特征提取:
对于音频:由于音频的来源可能为不同的录制设备,处理平台对所有音频重采样频率为16kHz,重采样完成后对音频波形数据标准化,使音频波形数据值规整到(-1,1)范围类,采用max标准化:x(t)=s(t)/max(|s(t)|),然后采用短时傅里叶变换对所有音频提取128维的对数梅尔能量谱,短时傅里叶变换具体参数为:帧长nfft=2048、采样频率为16kHz、采用1/2帧重叠,最后对对数梅尔能量谱采样z-score标准化:假设输入对数梅尔能量谱为X1,X2,...Xn
Figure BDA0003043709350000061
Figure BDA0003043709350000062
其中,
Figure BDA0003043709350000063
,得到规整后的对数梅尔能量谱Y1,Y2....Yn的均值为0,方差为1;
对音频标签:将以秒为单位的标签转换成以帧为单位的标签,对每个标签文件采取如下步骤变换得到以帧为单位的音频标签编码矩阵,标签编码矩阵由0元素和1元素组成,矩阵的列数n为帧数,本例中n=160000;矩阵的行数m为声事件类别数,本例中m=3;本例中取nfft=2048,hop_length=1/2提取梅尔能量谱,一个包含m类声事件的音频标签编码矩阵从以秒为单位到以帧为时间单位的转换如下:
step1:假设采样率为sr,本例中sr=16000;音频持续时间为t,本例中为10d,则矩阵列数n=sr*t=160000,矩阵行数m为声事件类别数3,即产生一个3行160000列的零矩阵;
step2:确定每个声事件以帧为单位的时间戳:假设以秒为单位的时间戳timestampsecond、hop_length为帧重叠,则时间戳转换公式为:
timestampframe=timestampsecond÷2048÷(1-1/2);
step3:timestampframe包含范围即每个声事件起始帧到结束帧之间的矩阵值用1替换0;
2-3)音频数据扩增:为提高神经网络泛化性能,防止过拟合采用如下数据扩增方式将音频数据扩增至原来(3000条)的三倍(9000条):音频随机缩放、time masking、frequency masking、加随机噪声、音频样本混合(mixup);
2-4)搭建卷积循环神经网络:采用PyTorch框架搭建如下卷积循环神经网络:第一层为输入层、输入128维对数梅尔能量谱,第二层为输入通道数为16的2维卷积层接2×2的2d池化,第三层为输入通道数为32的2维卷积层接2×2的2d池化,第四层为输入通道数为64的2维卷积层接2×2的2d池化,第五层为输入通道数为128的2维卷积层接2×1的2d池化,第六层为输入通道数为256使用2×1的2d池化,再将输出特征图张量展平,第七层为输入通道数为256的一维卷积层,第八层为使用两层GRU的双向循环神经网络、神经元个数为256,第九层为输出层,依次使用256、80个神经元的全连接层且使用ReLU激活,最后拼接一个神经元个数为声事件类别数的使用sigmoid激活的全连接层,每个卷积层都使用大小为3×3的卷积核、步长为1,并且每个卷积层接一个批标准化层、且都使用ReLU函数激活;
2-5)训练卷积循环神经网络学习检测模型:将训练数据即音频的对数梅尔能量谱送入步骤2-4)搭建的卷积循环神经网络,卷积循环神经网络初始权值参数由PyTorch随机给定,得到输出
Figure BDA0003043709350000081
其中C为声事件类别数,T为帧总数,计算真阳性预测标签损失Yp,将Yp
Figure BDA0003043709350000082
逐元素相乘得到输出
Figure BDA0003043709350000083
最后计算如下二项交叉熵损失函数:
Figure BDA0003043709350000084
梯度反向传播,使用Adam梯度下降法,学习率设置为0.001,更新权值参数,迭代训练直至损失不再下降,保存模型参数;
2-6)使用训练好的检测模型识别待检测音频:将标签未知的待检测音频标准化后提取对数梅尔能量谱在规整后送入卷积循环神经网络,得到神经网络概率输出,保存,依据f1-score为标尺搜索最佳判决门限α,依据判决门限α二值化得到双Token标签下预测结果,双Token标注此时的结果相较强标签标注检测模型而言,是没有覆盖到声事件真实的时间戳的,为了降低这种假阴性的预测,本项发明采用标签延展的策略,具体做法是:依据双Token标签预测输出矩阵确定的声事件开始结束时间帧节点,计算神经网络概率输出矩阵对应帧节点的相邻帧cosine相似度,相似度大于0.5则延展该帧,即延展了双Token标签矩阵中时间戳。最后得到标签延展后的预测矩阵,得到识别结果,完成识别,本例中左右两侧延展不得超过预先设定的超参数collar值,根据所有声事件的最大最小时长取(250ms-50ms)。

Claims (1)

1.一种采用双Token标签的声事件标注及识别方法,其特征在于,包括声事件标注过程和识别过程,所述声事件标注过程为:
1-1)音频标签形式:采用音频标注软件Audacity播放包含各类声事件的原始音频数据,标注步骤为:在音频的每个声事件发生时间范围内随机地选取两个Token,分别为Ci_start与Ci_end,C表示声事件类别;
1-2)重复标注步骤,完成数据集中所有音频标注;
所述识别过程为:
2-1)构建音频数据集:根据检测任务要求添加声事件音频构成音频数据集,首先确定待检测声事件类别,采用音频标注软件Audacity播放待检测声事件音频,播放音频的同时,在软件Label Track栏中点击鼠标标记声事件类别和时间戳,完成音频数据标注,在听到的声事件发声时间范围内随机的选取两个点,得到两个Token,Token分别为Ci_start与Ci_end,C表示声事件类别,最后,采用Audacity导出标签文件,标签文件记录了音频文件名、每个音频文件名下发生的声事件类别、每个声事件时间戳;
2-2)音频数据预处理和特征提取:
对于音频:对所有音频重采样频率为16kHz,重采样完成后对音频波形数据标准化,使音频波形数据值规整到(-1,1)范围类,采用max标准化:x(t)=s(t)/max(|s(t)|),然后采用短时傅里叶变换对所有音频提取128维的对数梅尔能量谱,短时傅里叶变换具体参数为:nfft=2048、采样频率为16kHz、采用1/2帧重叠,最后对对数梅尔能量谱采样z-score标准化:假设输入对数梅尔能量谱为X1,X2,...Xn
Figure FDA0003043709340000011
其中,
Figure FDA0003043709340000012
得到规整后的对数梅尔能量谱Y1,Y2....Yn的均值为0,方差为1;
对音频标签:将以秒为单位的标签转换成以帧为单位的标签,对每个标签文件采取如下步骤变换得到以帧为单位的音频标签编码矩阵,标签编码矩阵由0元素和1元素组成,矩阵的列数n为帧数,矩阵的行数m为声事件类别数,一个包含m类声事件的音频标签编码矩阵从以秒为单位到以帧为时间单位的转换如下:
step1:产生一个m行n列的零矩阵,假设采样频率为sr,音频持续时间为t,则矩阵列数n=sr*t,矩阵行数m为声事件类别数;
step2:确定每个声事件以帧为单位的时间戳:假设以秒为单位的时间戳timestampsecond、frame_length为帧长、hop_length为帧重叠,则时间戳转换公式为:
timestampframe=timestampsecond÷nfft÷(frame_length-hop-length);
step3:timestampframe包含范围即每个声事件起始帧到结束帧之间的矩阵值用1替换0;
2-3)音频数据扩增:采用如下数据扩增方式将原始音频数据扩增至原来的三倍:音频随机缩放、time masking、frequency masking、加随机噪声、音频样本混合(mixup);
2-4)搭建卷积循环神经网络:采用PyTorch框架搭建如下卷积循环神经网络:第一层为输入层、输入128维对数梅尔能量谱,第二层为输入通道数为16的2维卷积层接2×2的2d池化,第三层为输入通道数为32的2维卷积层接2×2的2d池化,第四层为输入通道数为64的2维卷积层接2×2的2d池化,第五层为输入通道数为128的2维卷积层接2×1的2d池化,第六层为输入通道数为256使用2×1的2d池化,再将输出特征图张量展平,第七层为输入通道数为256的一维卷积层,第八层为使用两层GRU的双向循环神经网络、神经元个数为256,第九层为输出层,依次使用256、80个神经元的全连接层且使用ReLU激活,最后拼接一个神经元个数为声事件类别数的、使用sigmoid激活的全连接层,每个卷积层都使用大小为3×3的卷积核、步长为1,并且每个卷积层接一个批标准化层、且都使用ReLU函数激活;
2-5)训练卷积循环神经网络学习检测模型:将训练数据即音频的对数梅尔能量谱送入步骤2-4)搭建的卷积循环神经网络,卷积循环神经网络初始权值参数由PyTorch随机给定,得到输出
Figure FDA0003043709340000021
其中C为声事件类别数,T为帧总数,计算真阳性预测标签损失Yp,将Yp
Figure FDA0003043709340000022
逐元素相乘得到输出
Figure FDA0003043709340000023
最后计算如下二项交叉熵损失函数:
Figure FDA0003043709340000024
梯度反向传播,使用Adam梯度下降法,学习率设置为0.001,更新权值参数,迭代训练直至损失不再下降,保存模型参数;
2-6)使用训练好的检测模型识别待检测音频:将标签未知的待检测音频标准化后提取对数梅尔能量谱在规整后送入卷积循环神经网络,得到神经网络概率输出,保存,依据f1-score为标尺搜索最佳判决门限α,依据判决门限α二值化得到双Token标签下预测结果,具体做法是:依据双Token标签预测输出矩阵确定的声事件开始结束时间帧节点,计算神经网络概率输出矩阵对应帧节点的相邻帧cosine相似度,相似度大于0.5则延展该帧,即延展了双Token标签矩阵中时间戳,最后得到标签延展后的预测矩阵,得到识别结果,完成识别。
CN202110465526.7A 2021-04-28 2021-04-28 一种采用双Token标签的声事件标注及识别方法 Active CN113140226B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110465526.7A CN113140226B (zh) 2021-04-28 2021-04-28 一种采用双Token标签的声事件标注及识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110465526.7A CN113140226B (zh) 2021-04-28 2021-04-28 一种采用双Token标签的声事件标注及识别方法

Publications (2)

Publication Number Publication Date
CN113140226A true CN113140226A (zh) 2021-07-20
CN113140226B CN113140226B (zh) 2022-06-21

Family

ID=76816250

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110465526.7A Active CN113140226B (zh) 2021-04-28 2021-04-28 一种采用双Token标签的声事件标注及识别方法

Country Status (1)

Country Link
CN (1) CN113140226B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113299314A (zh) * 2021-07-27 2021-08-24 北京世纪好未来教育科技有限公司 一种音频事件识别模型的训练方法、装置及其设备
CN113593606A (zh) * 2021-09-30 2021-11-02 清华大学 音频识别方法和装置、计算机设备、计算机可读存储介质
CN113963228A (zh) * 2021-09-14 2022-01-21 电信科学技术第五研究所有限公司 一种基于深度学习特征连接分析的语音事件提取方法
CN114373484A (zh) * 2022-03-22 2022-04-19 南京邮电大学 语音驱动的帕金森病多症状特征参数的小样本学习方法
CN115206294A (zh) * 2022-09-16 2022-10-18 深圳比特微电子科技有限公司 训练方法、声音事件检测方法、装置、设备和介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109065030A (zh) * 2018-08-01 2018-12-21 上海大学 基于卷积神经网络的环境声音识别方法及***
US20190042881A1 (en) * 2017-12-07 2019-02-07 Intel Corporation Acoustic event detection based on modelling of sequence of event subparts
CN110827804A (zh) * 2019-11-14 2020-02-21 福州大学 一种音频帧序列到事件标签序列的声音事件标注方法
CN110990534A (zh) * 2019-11-29 2020-04-10 北京搜狗科技发展有限公司 一种数据处理方法、装置和用于数据处理的装置
US20200160845A1 (en) * 2018-11-21 2020-05-21 Sri International Real-time class recognition for an audio stream
US10783434B1 (en) * 2019-10-07 2020-09-22 Audio Analytic Ltd Method of training a sound event recognition system
US20200312350A1 (en) * 2019-03-29 2020-10-01 Electronics And Telecommunications Research Institute Method and apparatus for detecting sound event considering the characteristics of each sound event
CN112447189A (zh) * 2020-12-01 2021-03-05 平安科技(深圳)有限公司 语音事件检测方法、装置、电子设备及计算机存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190042881A1 (en) * 2017-12-07 2019-02-07 Intel Corporation Acoustic event detection based on modelling of sequence of event subparts
CN109065030A (zh) * 2018-08-01 2018-12-21 上海大学 基于卷积神经网络的环境声音识别方法及***
US20200160845A1 (en) * 2018-11-21 2020-05-21 Sri International Real-time class recognition for an audio stream
US20200312350A1 (en) * 2019-03-29 2020-10-01 Electronics And Telecommunications Research Institute Method and apparatus for detecting sound event considering the characteristics of each sound event
US10783434B1 (en) * 2019-10-07 2020-09-22 Audio Analytic Ltd Method of training a sound event recognition system
CN110827804A (zh) * 2019-11-14 2020-02-21 福州大学 一种音频帧序列到事件标签序列的声音事件标注方法
CN110990534A (zh) * 2019-11-29 2020-04-10 北京搜狗科技发展有限公司 一种数据处理方法、装置和用于数据处理的装置
CN112447189A (zh) * 2020-12-01 2021-03-05 平安科技(深圳)有限公司 语音事件检测方法、装置、电子设备及计算机存储介质

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
KIM B: "Sound event detection using point-labeled data", 《2019 IEEE WORKSHOP ON APPLICATIONS OF SIGNAL PROCESSING TO AUDIO AND ACOUSTICS (WASPAA)》 *
M. WANG: "Environmental Sound Recognition Based on Double-input Convolutional Neural Network Model", 《2020 IEEE 2ND INTERNATIONAL CONFERENCE ON CIVIL AVIATION SAFETY AND INFORMATION TECHNOLOGY》 *
Y. WANG: "A first attempt at polyphonic sound event detection using connectionist temporal classification", 《2017 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP)》 *
刘亚明: "基于深层神经网络的多声音事件检测方法研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 *
张留军: "基于改进对数梅尔谱特征的街道环境声事件检测方法", 《桂林电子科技大学学报》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113299314A (zh) * 2021-07-27 2021-08-24 北京世纪好未来教育科技有限公司 一种音频事件识别模型的训练方法、装置及其设备
CN113963228A (zh) * 2021-09-14 2022-01-21 电信科学技术第五研究所有限公司 一种基于深度学习特征连接分析的语音事件提取方法
CN113963228B (zh) * 2021-09-14 2024-07-02 电信科学技术第五研究所有限公司 一种基于深度学习特征连接分析的语音事件提取方法
CN113593606A (zh) * 2021-09-30 2021-11-02 清华大学 音频识别方法和装置、计算机设备、计算机可读存储介质
CN114373484A (zh) * 2022-03-22 2022-04-19 南京邮电大学 语音驱动的帕金森病多症状特征参数的小样本学习方法
CN115206294A (zh) * 2022-09-16 2022-10-18 深圳比特微电子科技有限公司 训练方法、声音事件检测方法、装置、设备和介质
CN115206294B (zh) * 2022-09-16 2022-12-06 深圳比特微电子科技有限公司 训练方法、声音事件检测方法、装置、设备和介质

Also Published As

Publication number Publication date
CN113140226B (zh) 2022-06-21

Similar Documents

Publication Publication Date Title
CN113140226B (zh) 一种采用双Token标签的声事件标注及识别方法
Mac Aodha et al. Bat detective—Deep learning tools for bat acoustic signal detection
LeBien et al. A pipeline for identification of bird and frog species in tropical soundscape recordings using a convolutional neural network
Priyadarshani et al. Automated birdsong recognition in complex acoustic environments: a review
Zhong et al. Multispecies bioacoustic classification using transfer learning of deep convolutional neural networks with pseudo-labeling
Kasten et al. The remote environmental assessment laboratory's acoustic library: An archive for studying soundscape ecology
Ntalampiras Bird species identification via transfer learning from music genres
Keen et al. A comparison of similarity-based approaches in the classification of flight calls of four species of North American wood-warblers (Parulidae)
Cartwright et al. SONYC-UST-V2: An urban sound tagging dataset with spatiotemporal context
Luque et al. Non-sequential automatic classification of anuran sounds for the estimation of climate-change indicators
CN107293307A (zh) 音频检测方法及装置
Brooker et al. Automated detection and classification of birdsong: An ensemble approach
Zhong et al. Acoustic detection of regionally rare bird species through deep convolutional neural networks
Huang et al. Intelligent feature extraction and classification of anuran vocalizations
CN111429943B (zh) 音频中音乐及音乐相对响度的联合检测方法
Cheng et al. A comparative study in birds: call-type-independent species and individual recognition using four machine-learning methods and two acoustic features
Rowe et al. Acoustic auto-encoders for biodiversity assessment
Hou et al. Transfer learning for improving singing-voice detection in polyphonic instrumental music
Wang et al. Automated call detection for acoustic surveys with structured calls of varying length
Morales et al. Method for passive acoustic monitoring of bird communities using UMAP and a deep neural network
CN107578785B (zh) 基于Gamma分布分析的音乐连续情感特征分析评价方法
CN117877516A (zh) 一种基于跨模型两阶段训练的声音事件检测方法
Soni et al. Automatic audio event recognition schemes for context-aware audio computing devices
Martin-Morato et al. On the robustness of deep features for audio event classification in adverse environments
Wang et al. A hierarchical birdsong feature extraction architecture combining static and dynamic modeling

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20210720

Assignee: Wuhan xingeno Technology Co.,Ltd.

Assignor: GUILIN University OF ELECTRONIC TECHNOLOGY

Contract record no.: X2022450000387

Denomination of invention: An Acoustic Event Labeling and Recognition Method Using Double Token Tags

Granted publication date: 20220621

License type: Common License

Record date: 20221226