CN111161715A - 一种基于序列分类的特定声音事件检索与定位的方法 - Google Patents
一种基于序列分类的特定声音事件检索与定位的方法 Download PDFInfo
- Publication number
- CN111161715A CN111161715A CN201911363277.XA CN201911363277A CN111161715A CN 111161715 A CN111161715 A CN 111161715A CN 201911363277 A CN201911363277 A CN 201911363277A CN 111161715 A CN111161715 A CN 111161715A
- Authority
- CN
- China
- Prior art keywords
- sound
- frame
- event
- loss
- specific
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 41
- 238000012545 processing Methods 0.000 claims abstract description 16
- 238000009499 grossing Methods 0.000 claims abstract description 10
- 238000012805 post-processing Methods 0.000 claims abstract description 4
- 230000006870 function Effects 0.000 claims description 28
- 238000012549 training Methods 0.000 claims description 15
- 238000004364 calculation method Methods 0.000 claims description 14
- 230000002457 bidirectional effect Effects 0.000 claims description 10
- 238000001228 spectrum Methods 0.000 claims description 10
- 230000008569 process Effects 0.000 claims description 9
- 238000009432 framing Methods 0.000 claims description 7
- 230000004807 localization Effects 0.000 claims description 7
- 238000010606 normalization Methods 0.000 claims description 5
- 239000000126 substance Substances 0.000 claims description 4
- 238000002372 labelling Methods 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims description 3
- 230000007246 mechanism Effects 0.000 abstract description 6
- 239000000284 extract Substances 0.000 abstract description 2
- 238000001514 detection method Methods 0.000 description 11
- 238000012544 monitoring process Methods 0.000 description 8
- 230000004913 activation Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000002159 abnormal effect Effects 0.000 description 2
- 230000002411 adverse Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000001537 neural effect Effects 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 206010039740 Screaming Diseases 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012821 model calculation Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/45—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种基于序列分类的特定声音事件检索与定位的方法,通过利用声音的时序性和注意力机制关注重要的上下文信息以提取特定目标声音事件的声音深层特征,再通过多任务学***滑处理得到音频文件完整的特定声音事件检索和定位信息。
Description
技术领域
本发明涉及音频信号处理领域,特别是一种基于序列分类的特定 声音事件检索与定位的方法。
背景技术
为了更好的介绍音域的概念,先介绍一些基本概念。
音频:音频信号一般分为语音信号和非语音信号两大类。语音主 要是人类通过发音器官发出的、进行语音交流时的声音;而非语音则 包括大自然各种声音,范围甚是宽广。
声音事件:声音事件是指音频流中具有某种特定语义或内容的一 个音频片段,例如,街道中的风声,行人的走路声和说话声,以及汽 车行驶的声音等等。
声音事件检测(Sound Event Detection,SED),也称为音频事件检测, 是指在给定的音频记录中,找出感兴趣的声音事件,判定每一个事件 的类别,并定位每一个事件在音频记录中的起始和结束位置。
梅尔能量:梅尔能量特征将线性频谱映射到基于听觉感知的Mel 非线性频谱中。
双向GRU网络:双向GRU网络的前向和后向网络有32个GRU单元; 前向和后向两个GRU神经单元使用共同的输入,连接着共同的输 出;这个结构提供了输入序列中每个点完整的过去和未来的上下文 时序信息。
多任务学习:多任务学习是利用任务之间的共享信息同时对多个 任务进行学习的一种机器学习算法。多任务在同时进行学习的过程中, 通过利用多个任务之间的相关性(共享信息),以避免学习方法的欠 学习,从而提升关键任务的泛化性能。多任务学习与单任务学习的区 别之处在于:单任务学习是一次学习一个任务,建立对应模型,各个 任务的学习是相互独立的,多任务学习则同时考虑了多个任务之间内 在相关性,以提高模型的泛化能力。
注意力机制:人类的注意力机制(Attention Mechanism)使得 当人的大脑接受到外部信息时,如听觉信息、视觉信息,往往不会对 全部信息进行处理和理解,而只会将注意力集中在显著或者感兴趣的 信息上,有助于语音识别、自然语言处理、图像检索等任务的完成。 因此,人们通过构建注意力模型来模拟这种能力,以用于从众多信息 中筛选出针对当前任务有用的重要信息。
单一的视频图像监控虽然目前在实际家庭安防应用中占据主要 的地位,但是也存在一些不利条件,比如在光照条件不好或者夜晚时, 或者目标物体被其他东西遮挡时,视频图像监控发挥的作用大大削 弱,而音频监控则不受此影响。利用重叠声音检测技术,把各种声音 分离出来,去除环境噪音,关注异常的声音,例如尖叫声、枪声等预 示危险的异常声音。视频监控与声音检测相结合能够发挥出更大的效 能,例如通过声音检测分离出异常声音,再定位到音源,然后快速使 摄像头转向音源。相较单一的视频监控,二者结合能够提升室内安防 的效果。单一的重叠声音检索也可用在视频监控无法部署的地方,或 者摄像头不方便部署的地方,来弥补视频监控的不足。
发明内容
有鉴于此,本发明的目的是提供本发明的目的是提供一种基于序 列分类的特定声音事件检索与定位的方法,对待测音源文件进行分析, 利用声音的时序性和注意力机制关注重要的上下文信息以提取特定 目标声音事件的声音深层特征,再通过多任务学习联合回归损失和分 类损失来训练特定声音检索模型。使用该模型可以检索待测音频包含 的特定声音事件和位置信息。
本发明采用以下方案实现:一种基于序列分类的特定声音事件检 索与定位的方法,包括以下步骤:
步骤S1:选取已经标注完成的含有检索目标事件音源的声音片 段分别进行特定声音事件检索模型构建;
步骤S2:对待检索的音源依据40ms为1帧,帧移20ms完成分 帧,逐帧提取梅尔能量特征;61帧为1个声音片段,将待检索的音 源依据1.2秒为1个片段,片段位移20ms完成分段,得到若干声音 片段后,逐片段输入到特定声音事件检索模型中,得到每个声音片段 的特定声音事件的检索结果;
步骤S3:检索每一帧中特定声音事件是否存在;
步骤S4:对S3得到的每帧检索结果进行平滑处理;
步骤S5:平滑处理后会输出给定音频文件中包含的声音事件出 现起止时间的标注结果的集合,即得到需检索音源中包含的所有声音 事件和每个声音事件对应的起止时间,如此得到完整的检索和定位信 息。
进一步地,所述步骤S1具体包括以下内容:
步骤S11:将所需检测的声音事件的训练数据集中的音源按照 40ms为一帧,帧移20ms,一块为61帧完整分帧、分块,得到N个 声音片段;逐帧计算其123维梅尔能量特征;
步骤S12:将每个声音片段的61帧梅尔能量特征输入到特定声 音事件检索模型进行学习。
进一步地,步骤S11中所述的对每个声音帧计算其梅尔能量特征
包括以下步骤:
步骤SA:将声音帧进行预加重处理;
步骤SB:将声音帧进行分帧处理;
步骤SC:将声音帧进行加窗处理;
步骤SD:对步骤SC中进行加窗处理完对声音帧进行快速傅里叶 变换(FastFourier Transform,FFT)得到对应的频谱;
步骤SE:再使用一组三角形带通滤波器所组成的梅尔刻度滤波 器对功率谱使用向量乘法得到梅尔能量特征;
步骤SF:最后梅尔能量特征的计算公式为:
进一步地,所述步骤S12的具体内容为:首先,通过卷积层提取 每帧的深层特征,将深层特征输入双向GRU层提取更加抽象的深层 特征;然后将GRU网络得到的结果输入到Flatten层中做扁平化处理 后输入到注意力层,所述注意力层包括分类注意力和回归注意力,再 输入到分类和回归层,根据声音片段的标注真值,使用分类损失和回 归损失,并且将两个损失联合起来做多任务损失学习。
进一步地,所述使用分类损失和回归损失,并且将两个损失联合 起来做多任务损失学习的具体内容为:
由于定位任务的加入,对于给定的每一声音帧,其标注数据不仅 需要包含声音事件类标签还需要给出其定位信息;给定声音片段S中 的帧序列数据S={X1,…,Xi,…,XN}及其真值集合Y={Y1,…,Yi,…,YN},其 中,N为数据集大小,总的声音类别集合为C={C0,…,CC},C0表示 背景声音事件,其余类别为前景声音事件;若Xi为背景事件C0,则 Yi={C0};若音频帧Xi中共包含l个前景声音事件,则 其中,为声音事件的类别,为 该事件在声音片段起始和结束时间位置,和分别表示Xi到和 的距离;使用交叉熵损失作为分类损失函数,使用修正余弦相似度 (AdjustedCosine Similarity,ACS)作为回归损失函数,最后将 两个损失联合起来做多任务损失学习;
构造多任务损失函数:交叉熵结合修正余弦相似度构成的余弦多 任务损失(MCL)。
对于使用MCL损失函数的模型,其训练过程是最小化如下损失函 数:
其中,θ为网络的训练参数,λ用于平衡误差项和l2范数正则化 项,Eacos(θ)为修正余弦相似度损失,λacos表示其权重系数;Ecross(θ)表 示交叉熵损失,λcross为其权重系数;
Ecross(θ)的计算公式如下:
Eacos(θ)的计算公式如下:
其中是输出层距离平均值,是预测平均值;余弦相似度仅考 虑向量维度方向上的相似,没有考虑各个维度量纲的差异性,是归一 化后的点积结果;而ACS同时考虑了向量维度的方向相似性和量纲差 异性,是去中心化和归一化后的点积结果。
进一步地,所述步骤S3的具体内容为:对于第i帧,使用后处理 操作得到第i帧检索结果:以第i帧开始,该帧对应起始将连续的w 块数据组成W秒的时间窗口,该窗口中包含了w个块数据结果 {prei,…,prei+w};对该时间窗口判定其包含声音事件,对声音事件类cj判 断预测概率大于等于阈值p且个数大于等于q,假设声音事件类C中有 l个类存在,则输出对应检索集合
进一步地,步骤S4中所述进行平滑处理的具体内容为:相邻帧 中同类别事件合并后,删除事件时间长度小于阈值的事件,同时两个 可能目标段之间的无效帧小于等于设定帧时,这两段会被认为是一段。
与现有技术相比,本发明具有以下有益效果:
本发明针对重叠声音事件重叠数量不确定、特征刻画难度大的问 题,且面向片段分类的检测方法导致的大量重复检测问题;针对传统 重叠声音事件检测方法仅将重叠声音事件检测视为分类任务而忽视 了回归任务;针对重叠声音事件容易漏检和误检的问题,本发明相比 传统方法在检测性能上有整体提升。
附图说明
图1为本发明实施例的双向GRU网络结构图。
图2为本发明实施例的Street数据集“b093.wav”音频文件检索结 果图。
具体实施方式
下面结合附图及实施例对本发明做进一步说明。
应该指出,以下详细说明都是例示性的,旨在对本申请提供进一 步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本 申请所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式, 而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除 非上下文另外明确指出,否则单数形式也意图包括复数形式,此外, 还应当理解的是,当在本说明书中使用术语“包含”和/或“包括” 时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
本实施例提供一种基于序列分类的特定声音事件检索与定位的 方法,其特征在于:包括以下步骤:
步骤S1:选取已经标注完成的含有检索目标事件音源的声音片 段分别进行特定声音事件检索模型构建;
步骤S2:对待检索的音源依据40ms为1帧,帧移20ms完成分 帧,逐帧提取梅尔能量特征;61帧为1个声音片段,将待检索的音 源依据1.2秒为1个片段,片段位移20ms完成分段,得到若干声音 片段后,逐片段输入到特定声音事件检索模型中,得到每个声音片段 的特定声音事件的检索结果;
步骤S3:检索每一帧中特定声音事件是否存在;
步骤S4:对S3得到的每帧检索结果进行平滑处理;
步骤S5:平滑处理后会输出给定音频文件中包含的声音事件出 现起止时间的标注结果的集合,即得到需检索音源中包含的所有声音 事件和每个声音事件对应的起止时间,如此得到完整的检索和定位信 息。如图2。
在本实施例中,所述步骤S1具体包括以下内容:
步骤S11:将所需检测的声音事件的训练数据集中的音源(例如要检 测脚步声,需要将含有脚步声的训练数据集放入模型进行训练)按照 40ms为一帧,帧移20ms,一块为61帧(约1.2秒)完整分帧、分块, 得到N个声音片段;逐帧计算其123维梅尔能量特征;
步骤S12:将每个声音片段的61帧梅尔能量特征输入到特定声 音事件检索模型进行学习。
在本实施例中,步骤S11中所述的对每个声音帧计算其梅尔能量
特征包括以下步骤:
步骤SA:将声音帧进行预加重处理;
步骤SB:将声音帧进行分帧处理;
步骤SC:将声音帧进行加窗处理;
步骤SD:对步骤SC中进行加窗处理完对声音帧进行快速傅里叶 变换(FastFourier Transform,FFT)得到对应的频谱;
步骤SE:再使用一组三角形带通滤波器所组成的梅尔刻度滤波 器对功率谱使用向量乘法得到梅尔能量特征;
步骤SF:最后梅尔能量特征的计算公式为:
在本实施例中,所述步骤S12的具体内容为:首先,通过卷积层 提取每帧的深层特征,为了有效地利用上下文时序信息,将深层特征 输入双向GRU层提取更加抽象的深层特征;然后将GRU网络得到的 结果输入到Flatten层中做扁平化处理后输入到注意力层,所述注意 力层包括分类注意力和回归注意力,再输入到分类和回归层,根据声 音片段的标注真值,使用分类损失和回归损失,并且将两个损失联合 起来做多任务损失学习。
在本实施例中,所述使用分类损失和回归损失,并且将两个损失 联合起来做多任务损失学习的具体内容为:
由于定位任务的加入,对于给定的每一声音帧,其标注数据不仅 需要包含声音事件类标签还需要给出其定位信息;给定声音片段S中 的帧序列数据S={X1,…,Xi,…,XN}及其真值集合Y={Y1,…,Yi,…,YN},其 中,N为数据集大小,总的声音类别集合为C={C0,…,CC},C0表示 背景声音事件,其余类别为前景声音事件;若Xi为背景事件C0,则 Yi={C0};若音频帧Xi中共包含l个前景声音事件,则 其中,为声音事件的类别,为 该事件在声音片段起始和结束时间位置,和分别表示Xi到和 的距离;使用交叉熵损失作为分类损失函数,使用修正余弦相似度 (AdjustedCosine Similarity,ACS)作为回归损失函数,最后将 两个损失联合起来做多任务损失学习;
构造多任务损失函数:交叉熵结合修正余弦相似度构成的余弦多 任务损失(MCL)。
对于使用MCL损失函数的模型,其训练过程是最小化如下损失函 数:
其中,θ为网络的训练参数,λ用于平衡误差项和l2范数正则化 项,Eacos(θ)为修正余弦相似度损失,λacos表示其权重系数;Ecross(θ)表 示交叉熵损失,λcross为其权重系数;
Ecross(θ)的计算公式如下:
Eacos(θ)的计算公式如下:
其中是输出层距离平均值,是预测平均值;余弦相似度仅考 虑向量维度方向上的相似,没有考虑各个维度量纲的差异性,是归一 化后的点积结果;而ACS同时考虑了向量维度的方向相似性和量纲差 异性,是去中心化和归一化后的点积结果。
在本实施例中,所述步骤S3的具体内容为:对于第i帧,使用后 处理操作得到第i帧检索结果:以第i帧开始,该帧对应起始将连 续的w块数据组成W秒的时间窗口,该窗口中包含了w个块数据结果 {prei,…,prei+w};对该时间窗口判定其包含声音事件,对声音事件类cj判 断预测概率大于等于阈值p且个数大于等于q,假设声音事件类C中有 l个类存在,则输出对应检索集合
在本实施例中,步骤S4中所述进行平滑处理的具体内容为:相 邻帧中同类别事件合并后,删除事件时间长度小于阈值的事件,同时 两个可能目标段之间的无效帧小于等于设定帧时,这两段会被认为是 一段。
在本实施例中,使用Street数据集中的声音事件的音源声音片段 进行模型构建,得到各个声音事件的检索模型,使用梅尔能量特征作 为声音深层特征。将音源声音依据约2.2秒设置滑动窗口,40ms为 一帧,帧移20ms,一块为61帧(约1.2秒)分帧、分块,对每个声音帧计算其梅尔能量特征。梅尔能量特征计算过程具体为:
首先,将声音帧进行预加重处理。第二步,将声音帧进行分帧处 理。
第三步,将声音帧进行加窗处理。
第四步,对处理完对声音帧进行快速傅里叶变换(Fast Fourier Transform,FFT)得到对应的频谱。
最后再使用一组三角形带通滤波器所组成的梅尔刻度滤波器对 功率谱使用向量乘法,计算得到梅尔能量特征。
一般频率f转换到Mel频率计算公式为:
在本实施例中,每个模型使用30帧步长获取真值,将每帧计算 出的梅尔能量特征作为卷积层的输入,其中,卷积层设置如下,第一 层的卷积网络使用128个大小为(3,3)的卷积核,激活函数为Relu, padding设置为“same”,最后通过大小为1×5的最大池化层降低特征 维度。第二、三层的卷积网络使用128个大小为(3,3)的卷积核, 激活函数为Relu,padding设置为“same”,最后通过大小为1×2的最 大池化层降低特征维度。
将卷积网络得到的抽象特征输入到双向GRU模型中,双向GRU 模型结构为:双向GRU网络的前向和后向网络有32个GRU单元; 前向和后向两个GRU神经单元使用共同的输入X,连接着共同的输 出O,这个结构提供了输入序列中每个点完整的过去和未来的上下文时序信息。具体计算过程为:
输入X经过重置门,即图1中r,重置门用于控制忽略前一时刻 的状态信息的程度,重置门的值越小说明忽略得越多。对于某一时刻 rt,重置门采用Sigmoid函数对输入信息Xt和上一层GRU输出信息 ht-1进行处理。
rt=σ(Wr·(ht-1,Xt))
更新门,即图1中z,用于控制前一时刻的状态信息被带入到当 前状态中的程度,更新门的值越大说明前一时刻的状态信息带入越多。 信息Xt经过更新门和tanh层,更新门采用Sigmoid函数决定tanh信 息是否用于更新,操作与上一步相同;tanh层对输入信息Xt、上一 层信息ht-1和rt进行编码产生一个新的信息值。
zt=σ(Wz·(ht-1,Xt))
输出内容,tanh函数将状态信息进行编码:
zt=σ(Wo·ht)
对上一步输出的内容做扁平化Flatten处理,展开为一维。
将扁平化后的结果,输入到softmax前馈神经网络层(包含分类 注意力和回归注意力),以帮助网络对重要的上下文信息施加更高的 权重,再对注意力机制层输出的结果输入分类回归层,最后在分类回 归层中将二者联合起来做多任务损失学习,得到结果。再输入顺着时 间轴位移30帧后的61帧,重复步骤使损失最小,以此训练模型,得 到各个具体声音事件的ATT-MCL-CBG多任务损失检索模型。具体实 现过程为:
在双向GRU层之后,额外的引入了Softmax前馈神经网络层作 为注意力机制层。具体地,对每帧的所有通道分别进行Softmax和 Sigmoid,获得与输入大小一致的两个输出A和B,再将A和B进行 点乘,得到注意力特征,再使用全连接层将注意力特征输出成每一帧的分类结果。具体公式表示为:
定义全连接层Softmax前馈神经网络层的注意力输出为Zatt(t), 包括分类注意力输出Zclass_att(t)和回归注意力输出Zreg_att(t)。使用Sigmoid激活函数得到分类和回归结果:
Oclass(t)=Sigmoid(Zclass_att(t))
Oreg(t)=Sigmoid(Zreg_att(t))
最后,对序列的预测标签输出进行标签合并操作得到重叠声音事 件检测结果。
给定声音片段S中的帧序列数据S={X1,…,Xi,…,XN}及其真值集 合Y={Y1,…,Yi,…,YN},其中,N为数据集大小,总的声音类别集合为 C={C0,…,C|C|},C0表示背景声音事件,其余类别为前景声音事件。 若Xi为背景事件C0,则Yi={C0}。若音频帧Xi中共包含l个前景声音事 件,则其中,为声音事件的类别,为该事件在声音片段起始和结束时间位置,和分别表示 Xi到和的距离。
本实施例使用交叉熵损失用来做分类损失函数,使用修正余弦 相似度(AdjustedCosine Similarity,ACS)作为回归损失函数,最后 将两个损失联合起来做多任务损失学习。这里构造多任务损失函数: 交叉熵结合修正余弦相似度构成的余弦多任务损失(MCL)。
对于使用MCL损失函数的模型,其训练过程是最小化如下损失 函数:
其中,θ为网络的训练参数,λ用于平衡误差项和l2范数正则化 项,Eacos(θ)为修正余弦相似度损失,λacos表示其权重系数。Ecross(θ)表 示交叉熵损失,λcross为其权重系数。
Ecross(θ)的计算公式如下:
Eacos(θ)的计算公式如下:
其中是输出层距离平均值,是预测平均值。余弦相似度仅考 虑向量维度方向上的相似,没有考虑各个维度量纲的差异性,是归一 化后的点积结果;而ACS同时考虑了向量维度的方向相似性和量纲 差异性,是去中心化和归一化后的点积结果。
依据上述得到的损失函数,通过训练使其最小化,即得到 ATT-MCL-CBG多任务损失检索模型。每次输入是61帧声音的梅尔 能量特征,每次模型计算完后顺着时间轴向后位移30帧,再取61帧 作为输入,如此循环。
以上所述仅为本发明的较佳实施例,凡依本发明申请专利范围所 做的均等变化与修饰,皆应属本发明的涵盖范围。
Claims (7)
1.一种基于序列分类的特定声音事件检索与定位的方法,其特征在于:包括以下步骤:
步骤S1:选取已经标注完成的含有检索目标事件音源的声音片段分别进行特定声音事件检索模型构建;
步骤S2:对待检索的音源依据40ms为1帧,帧移20ms完成分帧,逐帧提取梅尔能量特征;61帧为1个声音片段,将待检索的音源依据1.2秒为1个片段,片段位移20ms完成分段,得到若干声音片段后,逐片段输入到特定声音事件检索模型中,得到每个声音片段的特定声音事件的检索结果;
步骤S3:检索每一帧中特定声音事件是否存在;
步骤S4:对S3得到的每帧检索结果进行平滑处理;
步骤S5:平滑处理后会输出给定音频文件中包含的声音事件出现起止时间的标注结果的集合,即得到需检索音源中包含的所有声音事件和每个声音事件对应的起止时间,如此得到完整的检索和定位信息。
2.根据权利要求1所述的一种基于序列分类的特定声音事件检索与定位的方法,其特征在于:所述步骤S1具体包括以下内容:
步骤S11:将所需检测的声音事件的训练数据集中的音源按照40ms为一帧,帧移20ms,一块为61帧完整分帧、分块,得到N个声音片段;逐帧计算其123维梅尔能量特征;
步骤S12:将每个声音片段的61帧梅尔能量特征输入到特定声音事件检索模型进行学习。
4.根据权利要求2所述的一种基于序列分类的特定声音事件检索与定位的方法,其特征在于:所述步骤S12的具体内容为:首先,通过卷积层提取每帧的深层特征,将深层特征输入双向GRU层提取更加抽象的深层特征;然后将GRU网络得到的结果输入到Flatten层中做扁平化处理后输入到注意力层,所述注意力层包括分类注意力和回归注意力,再输入到分类和回归层,根据声音片段的标注真值,使用分类损失和回归损失,并且将两个损失联合起来做多任务损失学习。
5.根据权利要求4所述的一种基于序列分类的特定声音事件检索与定位的方法,其特征在于:所述使用分类损失和回归损失,并且将两个损失联合起来做多任务损失学习的具体内容为:
由于定位任务的加入,对于给定的每一声音帧,其标注数据不仅需要包含声音事件类标签还需要给出其定位信息;给定声音片段S中的帧序列数据S={X1,…,Xi,…,XN}及其真值集合Y={Y1,…,Yi,…,YN},其中,N为数据集大小,总的声音类别集合为C={C0,…,C|C|},C0表示背景声音事件,其余类别为前景声音事件;若Xi为背景事件C0,则Yi={C0};若音频帧Xi中共包含l个前景声音事件,则其中,为声音事件的类别,为该事件在声音片段起始和结束时间位置,和分别表示Xi到和的距离;使用交叉熵损失作为分类损失函数,使用修正余弦相似度作为回归损失函数,最后将两个损失联合起来做多任务损失学习;
构造多任务损失函数:交叉熵结合修正余弦相似度构成的余弦多任务损失。
对于使用MCL损失函数的模型,其训练过程是最小化如下损失函数:
其中,θ为网络的训练参数,λ用于平衡误差项和l2范数正则化项,Eacos(θ)为修正余弦相似度损失,λacos表示其权重系数;Ecross(θ)表示交叉熵损失,λcross为其权重系数;
Ecross(θ)的计算公式如下:
Eacos(θ)的计算公式如下:
7.根据权利要求1所述的一种基于序列分类的特定声音事件检索与定位的方法,其特征在于:步骤S4中所述进行平滑处理的具体内容为:相邻帧中同类别事件合并后,删除事件时间长度小于阈值的事件,同时两个可能目标段之间的无效帧小于等于设定帧时,这两段会被认为是一段。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911363277.XA CN111161715B (zh) | 2019-12-25 | 2019-12-25 | 一种基于序列分类的特定声音事件检索与定位的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911363277.XA CN111161715B (zh) | 2019-12-25 | 2019-12-25 | 一种基于序列分类的特定声音事件检索与定位的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111161715A true CN111161715A (zh) | 2020-05-15 |
CN111161715B CN111161715B (zh) | 2022-06-14 |
Family
ID=70556813
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911363277.XA Expired - Fee Related CN111161715B (zh) | 2019-12-25 | 2019-12-25 | 一种基于序列分类的特定声音事件检索与定位的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111161715B (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111797801A (zh) * | 2020-07-14 | 2020-10-20 | 北京百度网讯科技有限公司 | 用于视频场景分析的方法和装置 |
CN111797778A (zh) * | 2020-07-08 | 2020-10-20 | 龙岩学院 | 一种用于breaking街舞主播连麦斗舞的自动评分方法 |
CN111933109A (zh) * | 2020-07-24 | 2020-11-13 | 南京烽火星空通信发展有限公司 | 一种音频监测方法及*** |
CN112071330A (zh) * | 2020-09-16 | 2020-12-11 | 腾讯科技(深圳)有限公司 | 一种音频数据处理方法、设备以及计算机可读存储介质 |
CN112735466A (zh) * | 2020-12-28 | 2021-04-30 | 北京达佳互联信息技术有限公司 | 一种音频检测方法及装置 |
CN112863492A (zh) * | 2020-12-31 | 2021-05-28 | 思必驰科技股份有限公司 | 声音事件定位模型训练方法和装置 |
CN113763988A (zh) * | 2020-06-01 | 2021-12-07 | 中车株洲电力机车研究所有限公司 | 机车司机室监控信息与lkj监控信息的时间同步方法及*** |
CN114571473A (zh) * | 2020-12-01 | 2022-06-03 | 北京小米移动软件有限公司 | 足式机器人的控制方法、装置及足式机器人 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170372725A1 (en) * | 2016-06-28 | 2017-12-28 | Pindrop Security, Inc. | System and method for cluster-based audio event detection |
US20180121799A1 (en) * | 2016-11-03 | 2018-05-03 | Salesforce.Com, Inc. | Training a Joint Many-Task Neural Network Model using Successive Regularization |
KR20180122171A (ko) * | 2017-05-02 | 2018-11-12 | 서강대학교산학협력단 | 심층 신경망을 기반으로 한 사운드 이벤트 검출 방법 및 사운드 이벤트 검출 장치 |
CN109192222A (zh) * | 2018-07-23 | 2019-01-11 | 浙江大学 | 一种基于深度学习的声音异常检测*** |
CN109473119A (zh) * | 2017-09-07 | 2019-03-15 | 中国科学院声学研究所 | 一种声学目标事件监控方法 |
EP3540634A1 (en) * | 2018-03-13 | 2019-09-18 | InterDigital CE Patent Holdings | Method for audio-visual events classification and localization and corresponding apparatus computer readable program product and computer readable storage medium |
-
2019
- 2019-12-25 CN CN201911363277.XA patent/CN111161715B/zh not_active Expired - Fee Related
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170372725A1 (en) * | 2016-06-28 | 2017-12-28 | Pindrop Security, Inc. | System and method for cluster-based audio event detection |
US20180121799A1 (en) * | 2016-11-03 | 2018-05-03 | Salesforce.Com, Inc. | Training a Joint Many-Task Neural Network Model using Successive Regularization |
KR20180122171A (ko) * | 2017-05-02 | 2018-11-12 | 서강대학교산학협력단 | 심층 신경망을 기반으로 한 사운드 이벤트 검출 방법 및 사운드 이벤트 검출 장치 |
CN109473119A (zh) * | 2017-09-07 | 2019-03-15 | 中国科学院声学研究所 | 一种声学目标事件监控方法 |
EP3540634A1 (en) * | 2018-03-13 | 2019-09-18 | InterDigital CE Patent Holdings | Method for audio-visual events classification and localization and corresponding apparatus computer readable program product and computer readable storage medium |
CN109192222A (zh) * | 2018-07-23 | 2019-01-11 | 浙江大学 | 一种基于深度学习的声音异常检测*** |
Non-Patent Citations (1)
Title |
---|
ARJUN PANKAJAKSHAN等: "POLYPHONIC SOUND EVENT AND SOUND ACTIVITY DETECTION: A MULTI-TASK APPROACH", 《2019 IEEE WORKSHOP ON APPLICATIONS OF SIGNAL PROCESSING TO AUDIO AND ACOUSTICS》 * |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113763988A (zh) * | 2020-06-01 | 2021-12-07 | 中车株洲电力机车研究所有限公司 | 机车司机室监控信息与lkj监控信息的时间同步方法及*** |
CN113763988B (zh) * | 2020-06-01 | 2024-05-28 | 中车株洲电力机车研究所有限公司 | 机车司机室监控信息与lkj监控信息的时间同步方法及*** |
CN111797778B (zh) * | 2020-07-08 | 2023-06-02 | 龙岩学院 | 一种用于breaking街舞主播连麦斗舞的自动评分方法 |
CN111797778A (zh) * | 2020-07-08 | 2020-10-20 | 龙岩学院 | 一种用于breaking街舞主播连麦斗舞的自动评分方法 |
CN111797801A (zh) * | 2020-07-14 | 2020-10-20 | 北京百度网讯科技有限公司 | 用于视频场景分析的方法和装置 |
CN111797801B (zh) * | 2020-07-14 | 2023-07-21 | 北京百度网讯科技有限公司 | 用于视频场景分析的方法和装置 |
CN111933109A (zh) * | 2020-07-24 | 2020-11-13 | 南京烽火星空通信发展有限公司 | 一种音频监测方法及*** |
CN112071330A (zh) * | 2020-09-16 | 2020-12-11 | 腾讯科技(深圳)有限公司 | 一种音频数据处理方法、设备以及计算机可读存储介质 |
CN112071330B (zh) * | 2020-09-16 | 2022-09-20 | 腾讯科技(深圳)有限公司 | 一种音频数据处理方法、设备以及计算机可读存储介质 |
CN114571473A (zh) * | 2020-12-01 | 2022-06-03 | 北京小米移动软件有限公司 | 足式机器人的控制方法、装置及足式机器人 |
CN112735466A (zh) * | 2020-12-28 | 2021-04-30 | 北京达佳互联信息技术有限公司 | 一种音频检测方法及装置 |
CN112735466B (zh) * | 2020-12-28 | 2023-07-25 | 北京达佳互联信息技术有限公司 | 一种音频检测方法及装置 |
CN112863492A (zh) * | 2020-12-31 | 2021-05-28 | 思必驰科技股份有限公司 | 声音事件定位模型训练方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN111161715B (zh) | 2022-06-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111161715B (zh) | 一种基于序列分类的特定声音事件检索与定位的方法 | |
Sang et al. | Convolutional recurrent neural networks for urban sound classification using raw waveforms | |
Xu et al. | Convolutional gated recurrent neural network incorporating spatial features for audio tagging | |
WO2020248376A1 (zh) | 情绪检测方法、装置、电子设备及存储介质 | |
Cakir et al. | Multi-label vs. combined single-label sound event detection with deep neural networks | |
CN110852215B (zh) | 一种多模态情感识别方法、***及存储介质 | |
CN109635676B (zh) | 一种从视频中定位音源的方法 | |
CN110827804A (zh) | 一种音频帧序列到事件标签序列的声音事件标注方法 | |
CN108922559A (zh) | 基于语音时频变换特征和整数线性规划的录音终端聚类方法 | |
CN110853656B (zh) | 基于改进神经网络的音频篡改识别方法 | |
CN113643723A (zh) | 一种基于注意力CNN Bi-GRU融合视觉信息的语音情感识别方法 | |
CN112183107A (zh) | 音频的处理方法和装置 | |
CN116701568A (zh) | 一种基于3d卷积神经网络的短视频情感分类方法及*** | |
CN112183582A (zh) | 一种多特征融合的水下目标识别方法 | |
Lu et al. | Temporal Attentive Pooling for Acoustic Event Detection. | |
CN114694255A (zh) | 基于通道注意力与时间卷积网络的句子级唇语识别方法 | |
CN113707175A (zh) | 基于特征分解分类器与自适应后处理的声学事件检测*** | |
CN112766368A (zh) | 一种数据分类方法、设备和可读存储介质 | |
EP3847646B1 (en) | An audio processing apparatus and method for audio scene classification | |
CN116758451A (zh) | 基于多尺度和全局交叉注意力的视听情感识别方法及*** | |
CN116844529A (zh) | 语音识别方法、装置及计算机存储介质 | |
Liu et al. | Bird song classification based on improved Bi-LSTM-DenseNet network | |
CN116312512A (zh) | 面向多人场景的视听融合唤醒词识别方法及装置 | |
CN113488069B (zh) | 基于生成式对抗网络的语音高维特征快速提取方法和装置 | |
CN115565533A (zh) | 语音识别方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20220614 |