CN115331697A - 多尺度环境声音事件识别方法 - Google Patents

多尺度环境声音事件识别方法 Download PDF

Info

Publication number
CN115331697A
CN115331697A CN202211256395.2A CN202211256395A CN115331697A CN 115331697 A CN115331697 A CN 115331697A CN 202211256395 A CN202211256395 A CN 202211256395A CN 115331697 A CN115331697 A CN 115331697A
Authority
CN
China
Prior art keywords
model
label
prediction
sound event
convolution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211256395.2A
Other languages
English (en)
Other versions
CN115331697B (zh
Inventor
殷波
陈智奇
魏志强
杜泽华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ocean University of China
Original Assignee
Ocean University of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ocean University of China filed Critical Ocean University of China
Priority to CN202211256395.2A priority Critical patent/CN115331697B/zh
Publication of CN115331697A publication Critical patent/CN115331697A/zh
Application granted granted Critical
Publication of CN115331697B publication Critical patent/CN115331697B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Image Analysis (AREA)

Abstract

本发明属于声音识别技术领域,公开了多尺度环境声音事件识别方法,首先通过构建两个不同感受野尺度的神经网络模型相互约束,充分学习帧级别的信息和片段级别的信息,将训练好的模型作为高维特征提取模块;然后通过不同大小的卷积核对高维特征提取模块输出的特征图进行特征的重映射,将处理过的特征图输入至GRU模块获取时序特征图;最后时序特征图经过基于注意力机制的池化模块的处理得到多尺度环境声音事件识别的预测概率矩阵。本发明在提高多尺度环境声音事件片段级预测精度的基础上,兼顾帧级别的预测精度,不但解决了当前无法有效利用无标签的多尺度环境声音事件数据的问题,而且大大提高了多尺度环境声音事件的定位精度。

Description

多尺度环境声音事件识别方法
技术领域
本发明属于声音识别技术领域,特别涉及多尺度环境声音事件识别方法。
背景技术
家庭环境中,智能安全监控***可以为老人和婴幼儿提供安全监控。传统监控技术主要以视频监控为主,但是,视频监控存在很多不容忽略的问题。比如,人们期望的是***能够在房间内家人出现危险的时自动发出预警而不是人工时刻观察显示器判断家人有没有危险;视频监控也存在着一些隐私问题,并且视频文件需要较大的存储空间这就给小型家用的终端设备的存储性能提出了挑战。而基于家庭环境声音事件识别技术的声音监控则有效的避免了这些问题,所以将声音监控和视频监控有效的结合在一起,能够进一步提高智能安全监控***的稳定性和准确性。
针对家庭环境声音事件识别领域,早期的研究人员通常采用与人耳听觉特性相关的声音特征如基于人耳听觉特征的梅尔频谱倒谱系数(Mel Frequency CepstralCoefficients),和基于声道模型的线性预测倒谱系数(Linear Predictive Cepstral)然后将获取到的声音特征输入到如高斯混合模型(Gaussian Mixed Model),隐马尔科夫模型(Hidden Markov Model),支持向量机(Support Vector Machine)和多层感知机(Multilayer Perceptron)中进行数据的拟合,以实现对家庭环境声音事件的识别。近些年来随着深度学习领域的发展,越来越多的研究学者将深度学习引入了家庭环境声音事件领域。将基于原始家庭环境声音事件波形提取出来的二维声音特征输送到神经网络中,通过神经网络中神经元自动提取高维特征向量,然后将提取的高维特征向量送到池化层处理得到识别结果。
但是在真实环境中通常在同一时间内会发生多种声音事件,这不但给神经网络的识别带来了困难,而且给研究人员的数据标注带来了挑战。
为了充分利用大量的无标签数据,研究人员通过引入半监督学***滑处理,常用固定窗口值得中值滤波器,这种方法的缺点就是无法根据不同类型的家庭环境声音事件有针对性的设置合适的窗口大小,模糊了声音的边界定位。
发明内容
针对现有技术存在的不足,本发明提供一种多尺度环境声音事件识别方法,在充分利用大量无标签多尺度环境声音事件数据的基础上,平衡帧级别预测和片段级预测之间有关感受野的冲突;同时通过多尺度的特征空间映射和自适应滤波窗口有效的拟合不同持续时间的多尺度环境声音事件数据;此外,本发明还通过双向的时间序列特征扫描和不同池化模块的相互作用进一步提升多尺度环境声音事件的识别精度。
为了解决上述技术问题,本发明采用的技术方案是:
多尺度环境声音事件识别方法,包括以下步骤:
S1、获取多尺度环境声音事件的原始波形数据;
S2、将多尺度环境声音事件的原始波形数据转换为二维音频特征图;
S3、基于改进Mean-Teacher算法进行双向定位多尺度环境声音事件识别,步骤如下:
S301、构建两个不同感受野大小的神经网络模型,作为Teacher模型和Student模型,两个不同结构的模型相互约束训练,学习步骤S2获取的二维音频特征图帧级别的信息和片段级别的信息,提取帧级别特征和片段级特征,将训练好的模型作为高维特征提取模块;
S302、构建两个具有相同网络结构的PS模型和PT模型,并采用Mean-Teacher算法联合训练利用无标签的数据:
通过不同大小的卷积核对高维特征提取模块输出的特征图进行特征空间的重映射,得到不同细粒度的特征信息,然后通过双向扫描定位不同细粒度特征信息的聚合结果,得到时序特征图;
将时序特征图经过基于注意机制的实例级池化方法处理得到多尺度环境声音事件识别的预测概率矩阵;
S4、预测概率矩阵经过自适应窗口滤波器的平滑处理,得到平滑预测结果,逐元素的与设定的阈值比较,得到最终的多尺度环境声音事件识别结果。
进一步的,所述Teacher模型包括多组卷积模块A、一层卷积核为1*1的卷积层、基于注意力机制的嵌入级池化模块和全连接层,其中每组卷积模块A均包括两层卷积层、一层最大池化层和一层遗忘层;
所述Student模型包括多组卷积模块B、基于注意力机制的嵌入级池化模块eATP和全连接层,其中每组卷积模块B包括一层卷积层和一层最大池化层,并且仅在特征维度进行压缩。
进一步的,S301高维特征提取模块具体训练流程如下:
经过步骤S1、S2得到的特征图
Figure 812054DEST_PATH_IMAGE001
作为Student模型的输入
Figure 791511DEST_PATH_IMAGE002
,对
Figure 571248DEST_PATH_IMAGE003
进行扰动得到
Figure 294354DEST_PATH_IMAGE004
,将
Figure 108726DEST_PATH_IMAGE004
作为Teacher模型的输入,
Figure 727926DEST_PATH_IMAGE004
公式如下:
Figure 994959DEST_PATH_IMAGE005
其中random()为符合正态分布的随机噪声函数;
通过Student模型的输出
Figure 521756DEST_PATH_IMAGE006
、Teacher模型的输出
Figure 190634DEST_PATH_IMAGE007
和损失函数BCE()进行Student模型参数
Figure 183998DEST_PATH_IMAGE008
和Teacher模型参数
Figure 645DEST_PATH_IMAGE009
的更新:
Figure 737656DEST_PATH_IMAGE010
Figure 261042DEST_PATH_IMAGE011
Figure 487624DEST_PATH_IMAGE012
Figure 729249DEST_PATH_IMAGE013
Figure 4373DEST_PATH_IMAGE014
其中,
Figure 975740DEST_PATH_IMAGE015
为Teacher模型和Student模型弱标签预测结果和真实标签y的弱标签损失的加和;
Figure 310906DEST_PATH_IMAGE016
为Teacher模型和Student模型强标签预测结果和真实标签y的强标签损失的加和;
Figure 836565DEST_PATH_IMAGE017
为以Teacher模型弱标签预测结果为真实标签与Student模型弱标签预测结果的损失和
Figure 915380DEST_PATH_IMAGE018
倍以Teacher模型强标签预测结果为真实标签与Student模型强标签预测结果的损失;
Figure 413357DEST_PATH_IMAGE019
Figure 512900DEST_PATH_IMAGE020
倍以Student模型弱标签预测结果为真实标签与Teacher模型弱标签预测结果的损失和以Student模型强标签预测结果为真实标签与Teacher模型强标签预测结果的损失;
Figure 463539DEST_PATH_IMAGE021
为影响因子,y为真实标签,
Figure 346044DEST_PATH_IMAGE022
函数作用为获得预测结果,BCE()为二元交叉熵函数;
Figure 760845DEST_PATH_IMAGE023
为真实标签y的弱标签,
Figure 703393DEST_PATH_IMAGE025
为Student模型的弱标签预测结果,
Figure 938065DEST_PATH_IMAGE026
为Teacher模型的弱标签预测结果,
Figure 358682DEST_PATH_IMAGE027
为真实标签y的强标签,
Figure 831252DEST_PATH_IMAGE028
为Student模型的强标签预测结果,
Figure 944702DEST_PATH_IMAGE029
为Teacher模型的强标签预测结果;
通过最小化loss得到表征能力最好的Student模型,改进的Mean-Teacher算法通过损失
Figure 197828DEST_PATH_IMAGE030
Figure 484453DEST_PATH_IMAGE031
利用无标签的数据并使不同网络架构的Teacher模型和Student模型共同训练,相互制约,其中,
Figure 545950DEST_PATH_IMAGE032
Figure 892618DEST_PATH_IMAGE033
中的
Figure 305145DEST_PATH_IMAGE034
取值如下:
Figure 333143DEST_PATH_IMAGE035
其中N为神经网络训练的总轮数,epoch为当前神经网络训练的轮次。
进一步的,所述PS模型和PT模型分别包括多组卷积模块C、双向定位模块和基于注意力机制的实例级池化模块,其中卷积模块C包括一层卷积层和一层最大池化层,并且仅在特征维度进行压缩;并且卷积模块C的网络参数由上一步骤S301训练好的Student模型参数进行初始化,所述双向定位模块包括两组GRU模块。
进一步的,步骤S302具体流程如下:
将卷积模块C输出的特征图M,和经过加噪的
Figure 577043DEST_PATH_IMAGE036
分别输入到PS模型和PT模型的双向定位模块中;由于PS模型和PT模型的流程相同,下面仅描述PS模型流程:对于输入的特征图M,采用卷积核大小为
Figure 766716DEST_PATH_IMAGE037
Figure 666539DEST_PATH_IMAGE038
Figure 29387DEST_PATH_IMAGE039
的卷积层进行不同尺度的特征空间映射,得到特征图
Figure 331055DEST_PATH_IMAGE040
Figure 19526DEST_PATH_IMAGE041
Figure 406645DEST_PATH_IMAGE042
; 特征图
Figure 838763DEST_PATH_IMAGE040
Figure 729359DEST_PATH_IMAGE041
Figure 588730DEST_PATH_IMAGE042
在通道域进行拼接得到特征图F K ,最后通过卷积核大小为1的卷积层对特征图F K 进行降维,得到特征图F
将特征图F分别以正序和反序输入到两组GRU模块,然后按位置逐个取两组GRU模块输出的最大值,得到时序特征图
Figure 197566DEST_PATH_IMAGE043
最后将时序特征图
Figure 371058DEST_PATH_IMAGE044
输入到基于注意力机制的实例级池化模块,得到强标签预测概率矩阵
Figure 444057DEST_PATH_IMAGE045
和弱标签的预测概率矩阵
Figure 412013DEST_PATH_IMAGE046
,其中,
Figure 508145DEST_PATH_IMAGE047
为第一帧在类别1下的预测概率,
Figure 282066DEST_PATH_IMAGE048
为第t帧在类别1下的预测概率,
Figure 147253DEST_PATH_IMAGE049
为第一帧在类别n下的预测概率,
Figure 286111DEST_PATH_IMAGE050
第t帧在类别n下的预测概率;
Figure 931856DEST_PATH_IMAGE051
为类别1的总体预测概率,
Figure 181571DEST_PATH_IMAGE052
为类别2的总体预测概率,
Figure 229162DEST_PATH_IMAGE053
为类别n的总体预测概率。
进一步的,通过PS模型的输出
Figure 538921DEST_PATH_IMAGE054
、PT模型的输出
Figure 609645DEST_PATH_IMAGE055
、损失函数BCE()和MSE()进行PS模型参数
Figure 725368DEST_PATH_IMAGE008
和PT模型参数
Figure 565148DEST_PATH_IMAGE009
的更新:
Figure 45808DEST_PATH_IMAGE056
Figure 400566DEST_PATH_IMAGE057
Figure 257664DEST_PATH_IMAGE058
其中
Figure 951950DEST_PATH_IMAGE059
为PS模型弱标签预测结果和真实弱标签
Figure 665828DEST_PATH_IMAGE060
的损失与PS模型强标签预测结果和真实强标签
Figure 711145DEST_PATH_IMAGE061
损失的加和,
Figure 106354DEST_PATH_IMAGE062
为PS模型强标签预测结果和PT模型强标签预测结果的损失和PS模型弱标签预测结果和PT模型弱标签预测结果损失的加和,MSE()为均方差损失函数,BCE()为二元交叉熵函数,
Figure 740901DEST_PATH_IMAGE063
为PS模型的弱标签预测结果,
Figure 891260DEST_PATH_IMAGE064
为PS模型的强标签预测结果,
Figure 158293DEST_PATH_IMAGE065
为PT模型的弱标签预测结果,
Figure 357193DEST_PATH_IMAGE066
为PT模型的强标签预测结果。
进一步的,所述基于注意力机制的嵌入级池化模块和基于注意力机制的实例级池化模块在处理数据时,分别如下:
所述基于注意力机制的嵌入级池化模块,对输入的高维特征
Figure 822810DEST_PATH_IMAGE067
进行特征空间的映射得到不同帧在不同类别下的注意力权重值,其中T为帧长,c为类别;然后基于高维特征
Figure 81753DEST_PATH_IMAGE068
和权重值
Figure 836082DEST_PATH_IMAGE069
得到上下文特征
Figure 635411DEST_PATH_IMAGE070
Figure 158796DEST_PATH_IMAGE071
上下文特征h经过全连接层的降维得到最终的网络输出结果,其中D为上层输出高维特征,
Figure 588641DEST_PATH_IMAGE072
为特征向量,
Figure 627004DEST_PATH_IMAGE073
为不同帧在类别c下的注意力权重矩阵,
Figure 167706DEST_PATH_IMAGE074
为不同帧在类别c下的注意力权重向量;
所述基于注意力机制的实例级池化模块,对输入的高维特征
Figure 873494DEST_PATH_IMAGE075
,其中
Figure 270978DEST_PATH_IMAGE076
为不同帧的高维特征向量,先通过全连接层的映射得出强标签的预测概率矩阵
Figure 999899DEST_PATH_IMAGE077
,其中
Figure 141031DEST_PATH_IMAGE078
为第一帧在类别1下的预测概率,
Figure 639008DEST_PATH_IMAGE079
为第t帧在类别1下的预测概率,
Figure 145076DEST_PATH_IMAGE080
为第一帧在类别n下的预测概率,
Figure 423610DEST_PATH_IMAGE081
第t帧在类别n下的预测概率;然后强标签的预测概率矩阵进行特征空间的映射得到不同位置的注意力权重值
Figure 306116DEST_PATH_IMAGE082
,其中
Figure 658600DEST_PATH_IMAGE083
为第一帧在类别1下的注意力权重,
Figure 663465DEST_PATH_IMAGE084
为第t帧在类别1下的注意力权重,
Figure 101399DEST_PATH_IMAGE085
为第一帧在类别n下的注意力权重,
Figure 522016DEST_PATH_IMAGE086
第t帧在类别n下的注意力权重;最后强标签的预测概率矩阵与对应位置的注意力权重值点乘得到最终的网络输出结果。
进一步的,步骤S4中,根据不同类别的多尺度环境声音事件的平均持续时间,自适应的设置中值滤波器窗口的大小Window
Figure 56903DEST_PATH_IMAGE087
其中,
Figure 904773DEST_PATH_IMAGE088
为参数;将平滑处理后的概率矩阵逐元素的与设定的阈值进行比较,得出最终的识别结果。
与现有技术相比,本发明优点在于:
(1)本发明提出一种基于改进Mean-Teacher算法的双向定位多尺度环境声音事件识别方法,尤其适用于家庭环境声音事件识别方法,为了进一步的提高家庭环境声音事件的识别能力,引入了神经网络模型,通过神经元学习拟合家庭环境声音数据。通过数据增强和改进的Mean-Teacher解决了大量无标签数据无法有效利用的问题。
(2)针对家庭环境声音事件帧级别预测和片段级别预测感受野之间的冲突,通过设计合理的损失函数,使得两个不同细粒度的神经网络模型能够相互学习,
相互约束,提高最终的环境声音识别精度。
(3)由于不同声音事件在一段事件内的持续事件不同,叠加状态不同难以得到剥离和识别。通过设计双向定位模块,先采用不同的细粒度提取特征信息,然后将不同细粒度信息聚合起来,极大的丰富了特征图。双向的扫描定位和自适应滤波窗口的引入,更加精准的标记出了声音事件的边界,提高识别精度。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图:
图1为实施例中的一段时间内家庭环境声音的示意图;
图2为实施例中的家庭环境声音事件的数据分布;
图3为实施例中的高维特征提取模块示意图;
图4 为实施例中的PS模型示意图;
图5 为本发明的基于注意力机制的实例级池化模块;
图6 为本发明的基于注意力机制的嵌入级池化模块;
图7 为本发明的总体流程图。
具体实施方式
下面结合附图及具体实施例对本发明作进一步的说明。
本发明提供一种多尺度环境声音事件识别方法,适用于多种场景下的多尺度声音事件,尤其适用于家庭环境声音事件识别。本实施例以家庭环境声音事件识别为例说明,结合图7,本发明包括以下步骤:
S1、获取多尺度(家庭)环境声音事件的原始波形数据。
S2、将多尺度(家庭)环境声音事件的原始波形数据转换为二维音频特征图。
S3、基于改进Mean-Teacher算法进行双向定位多尺度环境声音事件识别,步骤如下:
S301、构建两个不同感受野大小的神经网络模型,作为Teacher模型和Student模型,两个不同结构的模型相互约束训练,学习步骤S2获取的二维音频特征图帧级别的信息和片段级别的信息,提取帧级别特征和片段级特征,将训练好的模型作为高维特征提取模块,其中Teacher模型和Student模型的输入为弱标签数据、无标签数据、强标签数据;
S302、构建两个具有相同网络结构的PS模型和PT模型,并采用Mean-Teacher算法联合训练利用无标签的数据,其中PS模型和PT模型的输入为弱标签数据、无标签数据、强标签数据:
通过不同大小的卷积核对高维特征提取模块输出的特征图进行特征空间的重映射,得到不同细粒度的特征信息,然后将不同细粒度特征信息聚合,通过双向扫描定位不同细粒度特征信息的聚合结果,得到时序特征图;
将时序特征图经过基于注意机制的实例级池化方法处理得到多尺度环境声音事件识别的预测概率矩阵;
S4、预测概率矩阵经过自适应窗口滤波器的平滑处理,得到平滑预测结果,逐元素的与设定的阈值比较,得到最终的多尺度环境声音事件识别结果(可获得帧级别预测和片段级别预测)。
首先需要说明的是,家庭声音事件数据难以标注和需要有效利用的必要性。从图1可以看出,在一段声音的持续时间内,可能同时发生多种家庭声音事件,如讲话、盘子破碎、吸尘器等声音事件可能同时发生。不同的家庭声音事件相互重叠,给研究人员的数据标签标注和声音事件的头尾划分带来了挑战。从图2可以看出,其中,弱标签和无标签的数据占据了大约90%的总数据量。如果不能有效的利用弱标签数据和无标签数据进行训练,无疑会丢失大量的样本信息,从而影响神经网络模型的识别精度。即使通过数据增强等方法扩充强标签数据的数据量,也会带来过拟合和引入噪声的问题。其中弱标签数据是指仅有声音事件类型标注的数据,强标签数据是指既有声音事件类型的标注而且有起止时间标注的数据,无标签数据是指没有进行标注的数据。
为解决这一问题,本发明设计了步骤S3改进的Mean-Teacher算法。由于半监督领域常用的Mean-Teacher算法,是通过构建两个相同结构相同的网络模型,然后将Student模型的参数加权平均传递给Teacher模型,通过损失函数优化,进行联合训练。而家庭环境声音的识别需要神经网络同时输出帧级别的预测和片段级别预测。帧级别预测需要较小的感受野,而片段级别预测需要较大的感受野,这种感受野的冲突,导致不能通过构建单一的网络模型架构解决家庭环境声音的识别问题。本发明设计了一种新的适用于家庭环境等多尺度环境声音事件识别的模型架构,基于对输入数据进行轻微扰动不影响神经网络输出这一前提,将提取出来的二维音频特征图和加入白噪声的二维音频特征图分别输入到Student模型和Teacher模型来利用无标签的数据。本发明使得两个不同感受野尺度的神经网络模型既能够联合训练又能利用大量的无标签数据,进而有效提取帧级别特征和片段级特征,解决帧级别预测和片段级别预测有关神经网络感受野设计之间的冲突。
下面结合附图介绍本发明的模型架构。
结合图3、图7所示,Teacher模型包括多组卷积模块A(卷积模块A设置为5组时效果较好)、一层卷积核为1*1的卷积层、基于注意力机制的嵌入级池化模块(eATP)和全连接层,其中每组卷积模块A均包括两层卷积层、一层最大池化层和一层遗忘层。这种较深的网络结构设计使得Teacher模型拥有较大的感受野,使得Teacher模型拥有对片段级别预测更好的性能。
Student模型包括多组卷积模块B(卷积模块B设置为4组时效果较好)、基于注意力机制的嵌入级池化模块(eATP)和全连接层,其中每组卷积模块B包括一层卷积层和一层最大池化层,并且仅在特征维度进行压缩,保留了丰富的时序信息。Student模型相较于Teacher模型拥有较浅的网络结构,这种网络结构设计使得Student模型拥有更好的细节感知能力,使得Student模型拥有对帧级别更好的预测效果。本发明通过改进Mean-Teacher算法的损失函数使网络不但能够利用无标签的数据,而且使Student模型同样具有良好的片段级预测能力。
作为一个优选的实施方式,步骤S301高维特征提取模块具体训练流程如下:
经过步骤S1、S2得到的特征图
Figure 892321DEST_PATH_IMAGE001
作为Student模型的输入
Figure 116629DEST_PATH_IMAGE002
,对
Figure 443705DEST_PATH_IMAGE003
进行扰动得到
Figure 790372DEST_PATH_IMAGE004
,将
Figure 202899DEST_PATH_IMAGE004
作为Teacher模型的输入,
Figure 965319DEST_PATH_IMAGE004
公式如下:
Figure 209218DEST_PATH_IMAGE005
其中random()为符合正态分布的随机噪声函数;
通过Student模型的输出
Figure 664471DEST_PATH_IMAGE006
、Teacher模型的输出
Figure 564293DEST_PATH_IMAGE089
和损失函数BCE()进行Student模型参数
Figure 192721DEST_PATH_IMAGE008
和Teacher模型参数
Figure 228810DEST_PATH_IMAGE009
的更新:
Figure 854963DEST_PATH_IMAGE090
Figure 304399DEST_PATH_IMAGE091
Figure 408622DEST_PATH_IMAGE012
Figure 627113DEST_PATH_IMAGE013
Figure 424168DEST_PATH_IMAGE014
其中,
Figure 95321DEST_PATH_IMAGE015
为Teacher模型和Student模型弱标签预测结果和真实标签y的弱标签损失的加和;
Figure 268813DEST_PATH_IMAGE016
为Teacher模型和Student模型强标签预测结果和真实标签y的强标签损失的加和;
Figure 279494DEST_PATH_IMAGE017
为以Teacher模型弱标签预测结果为真实标签与Student模型弱标签预测结果的损失和
Figure 309767DEST_PATH_IMAGE018
倍以Teacher模型强标签预测结果为真实标签与Student模型强标签预测结果的损失;
Figure 405899DEST_PATH_IMAGE092
Figure 914241DEST_PATH_IMAGE093
倍以Student模型弱标签预测结果为真实标签与Teacher模型弱标签预测结果的损失和以Student模型强标签预测结果为真实标签与Teacher模型强标签预测结果的损失;
Figure 45008DEST_PATH_IMAGE021
为影响因子,y为真实标签,
Figure 246182DEST_PATH_IMAGE094
函数作用为获得预测结果,BCE()为二元交叉熵函数;
Figure 829610DEST_PATH_IMAGE023
为真实标签y的弱标签,
Figure 79326DEST_PATH_IMAGE095
为Student模型的弱标签预测结果,
Figure 126917DEST_PATH_IMAGE026
为Teacher模型的弱标签预测结果,
Figure 436675DEST_PATH_IMAGE027
为真实标签y的强标签,
Figure 569716DEST_PATH_IMAGE096
为Student模型的强标签预测结果,
Figure 623123DEST_PATH_IMAGE029
为Teacher模型的强标签预测结果;
通过最小化loss得到表征能力最好的Student模型,改进的Mean-Teacher算法通过损失
Figure 462903DEST_PATH_IMAGE030
Figure 5880DEST_PATH_IMAGE031
利用无标签的数据并使不同网络架构的Teacher模型和Student模型共同训练,相互制约,其中,
Figure 298321DEST_PATH_IMAGE097
Figure 155418DEST_PATH_IMAGE033
中的
Figure 912022DEST_PATH_IMAGE034
取值如下:
Figure 563583DEST_PATH_IMAGE035
其中N为神经网络训练的总轮数,epoch为当前神经网络训练的轮次,由于Student模型对片段级预测的能力不如Teacher模型,而Teacher模型的帧级别预测能力不如Student模型。所以在经过10个epoch以后,才通过Student模型对Teacher模型的弱标签预测进行约束和通过Teacher模型对Student模型的强标签预测进行约束,平滑了训练过程,最终得到拥有片段级预测能力和帧级预测能力的Student模型,并将其用于下一阶段(步骤S302)的训练。
作为一个优选的实施方式,步骤S302设计了PS模型、PT模型,并采用Mean-Teacher算法联合训练利用无标签的数据。不同于上一阶段的训练,PS模型和PT模型具有相同的网络结构。PS模型和PT模型分别包括多组卷积模块C(卷积模块C设置为4组时效果较好)、双向定位模块和基于注意力机制的实例级池化模块(iATP),其中卷积模块C包括一层卷积层和一层最大池化层,并且仅在特征维度进行压缩;并且卷积模块C的网络参数由上一步骤S301训练好的Student模型参数进行初始化。双向定位模块包括两组GRU模块,不同细粒度特征信息聚合后的结果分别以正序和反序输入到PS模型和PT模型的GRU模块获取时序特征图。
步骤S302具体流程如下:
由于,不同家庭环境声音事件的时间跨度不同,将卷积模块C输出的特征图M,和经过加噪的
Figure 608899DEST_PATH_IMAGE036
分别输入到PS模型和PT模型的双向定位模块中;由于PS模型和PT模型的流程相同,结合图4、图7所示,下面仅描述PS模型流程:
对于输入的特征图M,采用卷积核大小为
Figure 66426DEST_PATH_IMAGE037
Figure 615219DEST_PATH_IMAGE038
Figure 765577DEST_PATH_IMAGE039
的卷积层进行不同尺度的特征空间映射,得到特征图
Figure 32610DEST_PATH_IMAGE040
Figure 965931DEST_PATH_IMAGE041
Figure 697127DEST_PATH_IMAGE042
; 特征图
Figure 956070DEST_PATH_IMAGE040
Figure 444820DEST_PATH_IMAGE041
Figure 509728DEST_PATH_IMAGE042
在通道域进行拼接得到特征图F K ,最后通过卷积核大小为1的卷积层对特征图F K 进行降维,得到特征图F
将特征图F分别以正序和反序输入到两组GRU模块,然后按位置逐个取两组GRU模型输出的最大值,得到时序特征图
Figure 33113DEST_PATH_IMAGE043
最后将时序特征图
Figure 197379DEST_PATH_IMAGE043
输入到基于注意力机制的实例级池化模块(iATP),得到强标签预测概率矩阵
Figure 501321DEST_PATH_IMAGE045
和弱标签的预测概率矩阵
Figure 42024DEST_PATH_IMAGE046
,其中,
Figure 419915DEST_PATH_IMAGE047
为第一帧在类别1下的预测概率,
Figure 82978DEST_PATH_IMAGE048
为第t帧在类别1下的预测概率,
Figure 546320DEST_PATH_IMAGE049
为第一帧在类别n下的预测概率,
Figure 953031DEST_PATH_IMAGE050
第t帧在类别n下的预测概率;
Figure 451008DEST_PATH_IMAGE051
为类别1的总体预测概率,
Figure 19393DEST_PATH_IMAGE052
为类别2的总体预测概率,
Figure 235611DEST_PATH_IMAGE053
为类别n的总体预测概率。
通过PS模型的输出
Figure 118116DEST_PATH_IMAGE098
、PT模型的输出
Figure 532917DEST_PATH_IMAGE055
、损失函数BCE()和MSE()进行PS模型参数
Figure 209886DEST_PATH_IMAGE008
和PT模型参数
Figure 647820DEST_PATH_IMAGE009
的更新:
Figure 396333DEST_PATH_IMAGE099
Figure 603324DEST_PATH_IMAGE100
Figure 716773DEST_PATH_IMAGE058
其中
Figure 704321DEST_PATH_IMAGE059
为PS模型弱标签预测结果和真实弱标签
Figure 928629DEST_PATH_IMAGE060
的损失与PS模型强标签预测结果和真实强标签
Figure 318022DEST_PATH_IMAGE061
损失的加和,
Figure DEST_PATH_IMAGE101
为PS模型强标签预测结果和PT模型强标签预测结果的损失和PS模型弱标签预测结果和PT模型弱标签预测结果损失的加和,MSE()为均方差损失函数,BCE()为二元交叉熵函数,
Figure 664690DEST_PATH_IMAGE102
为PS模型的弱标签预测结果,
Figure 811637DEST_PATH_IMAGE103
为PS模型的强标签预测结果,
Figure 839636DEST_PATH_IMAGE104
为PT模型的弱标签预测结果,
Figure 83536DEST_PATH_IMAGE105
为PT模型的强标签预测结果。通过最小化
Figure 538788DEST_PATH_IMAGE106
得到性能最好的PS模型。
作为一个优选的实施方式,步骤S301和步骤S302这两个阶段最终决策层分别采用基于注意力机制的嵌入级池化模块和基于注意力机制的实例级池化模块。结合图6所示,基于注意力机制的嵌入级级池化模块,对输入的高维特征
Figure 438611DEST_PATH_IMAGE067
进行特征空间的映射得到不同帧在不同类别下的注意力权重值,其中T为帧长,c为类别;然后基于高维特征
Figure 67038DEST_PATH_IMAGE067
和权重值
Figure 103127DEST_PATH_IMAGE069
得到上下文特征
Figure 729281DEST_PATH_IMAGE070
Figure 913137DEST_PATH_IMAGE071
上下文特征h经过全连接层的降维得到最终的网络输出结果,其中D为上层输出高维特征,
Figure 282939DEST_PATH_IMAGE072
为特征向量,
Figure 501430DEST_PATH_IMAGE073
为不同帧在类别c下的注意力权重矩阵,
Figure 298485DEST_PATH_IMAGE074
为不同帧在类别c下的注意力权重向量。
结合图5所示,基于注意力机制的实例级池化模块,对输入的高维特征
Figure 907321DEST_PATH_IMAGE075
,其中
Figure 877551DEST_PATH_IMAGE076
为不同帧的高维特征向量,先通过全连接层的映射得出强标签的预测概率矩阵
Figure 888232DEST_PATH_IMAGE077
,(其中
Figure 856188DEST_PATH_IMAGE078
为第一帧在类别1下的预测概率,
Figure 14637DEST_PATH_IMAGE079
为第t帧在类别1下的预测概率,
Figure 726241DEST_PATH_IMAGE080
为第一帧在类别n下的预测概率,
Figure 857008DEST_PATH_IMAGE081
第t帧在类别n下的预测概率);然后强标签的预测概率矩阵进行特征空间的映射得到不同位置的注意力权重值
Figure 58183DEST_PATH_IMAGE082
,(其中
Figure 376031DEST_PATH_IMAGE083
为第一帧在类别1下的注意力权重,
Figure 891326DEST_PATH_IMAGE084
为第t帧在类别1下的注意力权重,
Figure 938917DEST_PATH_IMAGE085
为第一帧在类别n下的注意力权重,
Figure 248675DEST_PATH_IMAGE086
第t帧在类别n下的注意力权重);最后强标签的预测概率矩阵与对应位置的注意力权重值点乘得到最终的网络输出结果。
基于注意力机制的嵌入级池化模块更加依赖输入的高维特征,所以本发明将基于注意力机制的嵌入级池化模块应用于第一阶段(步骤S301)的训练,以求得到更好的特征提取前端。而基于注意力机制的实例级池化模块更加依赖强标签的预测精度,经过双向定位模块的处理,得到了较好的强标签预测,所以将基于注意力机制的实例级池化模块应用于第二阶段(步骤S302)。本发明在不同阶段根据其特性应用不同的池化模块进一步提高了家庭环境声音事件识别的精度。
最后PS模型输出的预测概率矩阵经过自适应窗口滤波器的平滑处理。
作为一个优选的实施方式,步骤S4中,根据不同类别的多尺度环境声音事件的平均持续时间,自适应的设置中值滤波器窗口的大小Window
Figure 116137DEST_PATH_IMAGE087
其中,
Figure 169544DEST_PATH_IMAGE107
为参数;将平滑处理后的概率矩阵逐元素的与设定的阈值进行比较,得出最终的识别结果。
综上所述,本发明实现了多尺度环境声音事件的高精度识别,尤其适用于家庭环境声音事件的识别,基于改进Mean-Teacher算法进行双向定位家庭环境声音事件,本发明具有以下优点:
1) 针对家庭环境声音识别精度低,难以与视频监控有效的结合在一起。本发明提出一种基于改进Mean-Teacher算法的双向定位家庭环境声音事件识别方法,有效的提高了神经网络对家庭环境声音的识别能力。
2) 通过改进的Mean-Teacher算法,有效的利用了大量因标注困难而没有标签的数据,大大扩充了特征信息,提高了家庭环境声音的识别精度。
3) 通过改进的Mean-Teacher算法构建Teacher模型和Student模型联合训练,不但有效利用了无标签的数据而且解决了帧级预测和片段级预测之间有关感受野的冲突。
4)通过引入自适应的滤波窗口、多尺度特征空间映射和双向时间序列特征扫描解决了因不同类型的家庭环境声音事件持续时间不同而导致的家庭环境声音事件边界定位模糊的问题。
当然,上述说明并非是对本发明的限制,本发明也并不限于上述举例,本技术领域的普通技术人员,在本发明的实质范围内,做出的变化、改型、添加或替换,都应属于本发明的保护范围。

Claims (8)

1.多尺度环境声音事件识别方法,其特征在于,包括以下步骤:
S1、获取多尺度环境声音事件的原始波形数据;
S2、将多尺度环境声音事件的原始波形数据转换为二维音频特征图;
S3、基于改进Mean-Teacher算法进行双向定位多尺度环境声音事件识别,步骤如下:
S301、构建两个不同感受野大小的神经网络模型,作为Teacher模型和Student模型,两个不同结构的模型相互约束训练,学习步骤S2获取的二维音频特征图帧级别的信息和片段级别的信息,提取帧级别特征和片段级特征,将训练好的模型作为高维特征提取模块;
S302、构建两个具有相同网络结构的PS模型和PT模型,并采用Mean-Teacher算法联合训练利用无标签的数据:
通过不同大小的卷积核对高维特征提取模块输出的特征图进行特征空间的重映射,得到不同细粒度的特征信息,然后通过双向扫描定位不同细粒度特征信息的聚合结果,得到时序特征图;
将时序特征图经过基于注意机制的实例级池化方法处理得到多尺度环境声音事件识别的预测概率矩阵;
S4、预测概率矩阵经过自适应窗口滤波器的平滑处理,得到平滑预测结果,逐元素的与设定的阈值比较,得到最终的多尺度环境声音事件识别结果。
2.根据权利要求1所述的多尺度环境声音事件识别方法,其特征在于,所述Teacher模型包括多组卷积模块A、一层卷积核为1*1的卷积层、基于注意力机制的嵌入级池化模块和全连接层,其中每组卷积模块A均包括两层卷积层、一层最大池化层和一层遗忘层;
所述Student模型包括多组卷积模块B、基于注意力机制的嵌入级池化模块和全连接层,其中每组卷积模块B包括一层卷积层和一层最大池化层,并且仅在特征维度进行压缩。
3.根据权利要求1所述的多尺度环境声音事件识别方法,其特征在于,步骤S301高维特征提取模块具体训练流程如下:
经过步骤S1、S2得到的特征图
Figure 964723DEST_PATH_IMAGE001
作为Student模型的输入
Figure 773279DEST_PATH_IMAGE002
,对
Figure 331299DEST_PATH_IMAGE003
进行扰动得到
Figure 719555DEST_PATH_IMAGE004
,将
Figure 679421DEST_PATH_IMAGE004
作为Teacher模型的输入,
Figure 330982DEST_PATH_IMAGE004
公式如下:
Figure 173036DEST_PATH_IMAGE005
其中random()为符合正态分布的随机噪声函数;
通过Student模型的输出
Figure 568245DEST_PATH_IMAGE006
、Teacher模型的输出
Figure 382617DEST_PATH_IMAGE008
和损失函数BCE()进行Student模型参数
Figure 267397DEST_PATH_IMAGE009
和Teacher模型参数
Figure 534430DEST_PATH_IMAGE010
的更新:
Figure 795647DEST_PATH_IMAGE011
Figure 464526DEST_PATH_IMAGE012
Figure 785786DEST_PATH_IMAGE013
Figure 540115DEST_PATH_IMAGE014
Figure 542706DEST_PATH_IMAGE015
其中,
Figure 862829DEST_PATH_IMAGE016
为Teacher模型和Student模型弱标签预测结果和真实标签y的弱标签损失的加和;
Figure 27094DEST_PATH_IMAGE017
为Teacher模型和Student模型强标签预测结果和真实标签y的强标签损失的加和;
Figure 268720DEST_PATH_IMAGE018
为以Teacher模型弱标签预测结果为真实标签与Student模型弱标签预测结果的损失和
Figure 871739DEST_PATH_IMAGE019
倍以Teacher模型强标签预测结果为真实标签与Student模型强标签预测结果的损失;
Figure 249631DEST_PATH_IMAGE020
Figure 850377DEST_PATH_IMAGE021
倍以Student模型弱标签预测结果为真实标签与Teacher模型弱标签预测结果的损失和以Student模型强标签预测结果为真实标签与Teacher模型强标签预测结果的损失;
Figure 641615DEST_PATH_IMAGE022
为影响因子,y为真实标签,
Figure 782747DEST_PATH_IMAGE023
函数作用为获得预测结果,BCE()为二元交叉熵函数;
Figure 15145DEST_PATH_IMAGE024
为真实标签y的弱标签,
Figure 786792DEST_PATH_IMAGE025
为Student模型的弱标签预测结果,
Figure 65326DEST_PATH_IMAGE026
为Teacher模型的弱标签预测结果,
Figure 947832DEST_PATH_IMAGE027
为真实标签y的强标签,
Figure 300316DEST_PATH_IMAGE028
为Student模型的强标签预测结果,
Figure 39601DEST_PATH_IMAGE029
为Teacher模型的强标签预测结果;
通过最小化loss得到表征能力最好的Student模型,改进的Mean-Teacher算法通过损失
Figure 477536DEST_PATH_IMAGE030
Figure 163732DEST_PATH_IMAGE031
利用无标签的数据并使不同网络架构的Teacher模型和Student模型共同训练,相互制约,其中,
Figure 433040DEST_PATH_IMAGE032
Figure 546489DEST_PATH_IMAGE033
中的
Figure 471720DEST_PATH_IMAGE034
取值如下:
Figure 23924DEST_PATH_IMAGE035
其中N为神经网络训练的总轮数,epoch为当前神经网络训练的轮次。
4.根据权利要求1所述的多尺度环境声音事件识别方法,其特征在于,所述PS模型和PT模型分别包括多组卷积模块C、双向定位模块和基于注意力机制的实例级池化模块,其中卷积模块C包括一层卷积层和一层最大池化层,并且仅在特征维度进行压缩;并且卷积模块C的网络参数由上一步骤S301训练好的Student模型参数进行初始化;所述双向定位模块包括两组GRU模块,不同细粒度特征信息聚合后的结果分别以正序和反序输入到PS模型和PT模型的GRU模块获取时序特征图。
5.根据权利要求4所述的多尺度环境声音事件识别方法,其特征在于,步骤S302具体流程如下:
将卷积模块C输出的特征图M,和经过加噪的
Figure 351000DEST_PATH_IMAGE036
分别输入到PS模型和PT模型的双向定位模块中;由于PS模型和PT模型的流程相同,下面仅描述PS模型流程:对于输入的特征图M,采用卷积核大小为
Figure 166509DEST_PATH_IMAGE037
Figure 579036DEST_PATH_IMAGE038
Figure 934931DEST_PATH_IMAGE039
的卷积层进行不同尺度的特征空间映射,得到特征图
Figure 116514DEST_PATH_IMAGE040
Figure 571766DEST_PATH_IMAGE041
Figure 268326DEST_PATH_IMAGE042
; 特征图
Figure 834437DEST_PATH_IMAGE040
Figure 136105DEST_PATH_IMAGE041
Figure 558996DEST_PATH_IMAGE042
在通道域进行拼接得到特征图F K ,最后通过卷积核大小为1的卷积层对特征图F K 进行降维,得到特征图F
将特征图F分别以正序和反序输入到两组GRU模块,然后按位置逐个取两组GRU模块输出的最大值,得到时序特征图
Figure 680536DEST_PATH_IMAGE043
最后将时序特征图
Figure 50338DEST_PATH_IMAGE044
输入到基于注意力机制的实例级池化模块,得到强标签预测概率矩阵
Figure 534409DEST_PATH_IMAGE045
和弱标签的预测概率矩阵
Figure 331463DEST_PATH_IMAGE046
,其中,
Figure 737037DEST_PATH_IMAGE047
为第一帧在类别1下的预测概率,
Figure 644950DEST_PATH_IMAGE048
为第t帧在类别1下的预测概率,
Figure 983527DEST_PATH_IMAGE049
为第一帧在类别n下的预测概率,
Figure 951483DEST_PATH_IMAGE050
第t帧在类别n下的预测概率;
Figure 47615DEST_PATH_IMAGE051
为类别1的总体预测概率,
Figure 821536DEST_PATH_IMAGE052
为类别2的总体预测概率,
Figure 686724DEST_PATH_IMAGE053
为类别n的总体预测概率。
6.根据权利要求5所述的多尺度环境声音事件识别方法,其特征在于,通过PS模型的输出
Figure 825581DEST_PATH_IMAGE054
、PT模型的输出
Figure 205747DEST_PATH_IMAGE055
、损失函数BCE()和MSE()进行PS模型参数
Figure 721042DEST_PATH_IMAGE009
和PT模型参数
Figure 440736DEST_PATH_IMAGE010
的更新:
Figure 78391DEST_PATH_IMAGE056
Figure 149115DEST_PATH_IMAGE057
Figure 264839DEST_PATH_IMAGE058
其中
Figure 104619DEST_PATH_IMAGE059
为PS模型弱标签预测结果和真实弱标签
Figure 647596DEST_PATH_IMAGE060
的损失与PS模型强标签预测结果和真实强标签
Figure 205616DEST_PATH_IMAGE061
损失的加和,
Figure 797134DEST_PATH_IMAGE062
为PS模型强标签预测结果和PT模型强标签预测结果的损失和PS模型弱标签预测结果和PT模型弱标签预测结果损失的加和,MSE()为均方差损失函数,BCE()为二元交叉熵函数,
Figure 553738DEST_PATH_IMAGE063
为PS模型的弱标签预测结果,
Figure 470878DEST_PATH_IMAGE064
为PS模型的强标签预测结果,
Figure 250615DEST_PATH_IMAGE065
为PT模型的弱标签预测结果,
Figure 442562DEST_PATH_IMAGE066
为PT模型的强标签预测结果。
7.根据权利要求4所述的多尺度环境声音事件识别方法,其特征在于,所述基于注意力机制的嵌入级池化模块和基于注意力机制的实例级池化模块在处理数据时,分别如下:
所述基于注意力机制的嵌入级池化模块,对输入的高维特征
Figure 256935DEST_PATH_IMAGE067
进行特征空间的映射得到不同帧在不同类别下的注意力权重值,其中T为帧长,c为类别;然后基于高维特征
Figure 79397DEST_PATH_IMAGE068
和权重值
Figure 674326DEST_PATH_IMAGE069
得到上下文特征
Figure 873227DEST_PATH_IMAGE070
Figure 604422DEST_PATH_IMAGE071
上下文特征h经过全连接层的降维得到最终的网络输出结果,其中D为上层输出高维特征,
Figure 597786DEST_PATH_IMAGE072
为特征向量,
Figure 352115DEST_PATH_IMAGE073
为不同帧在类别c下的注意力权重矩阵,
Figure 151444DEST_PATH_IMAGE074
为不同帧在类别c下的注意力权重向量;
所述基于注意力机制的实例级池化模块,对输入的高维特征
Figure 674829DEST_PATH_IMAGE075
,其中
Figure 166991DEST_PATH_IMAGE076
为不同帧的高维特征向量,先通过全连接层的映射得出强标签的预测概率矩阵
Figure 408616DEST_PATH_IMAGE077
,其中
Figure 683740DEST_PATH_IMAGE078
为第一帧在类别1下的预测概率,
Figure 389527DEST_PATH_IMAGE079
为第t帧在类别1下的预测概率,
Figure 724694DEST_PATH_IMAGE080
为第一帧在类别n下的预测概率,
Figure 453615DEST_PATH_IMAGE081
第t帧在类别n下的预测概率;然后强标签的预测概率矩阵进行特征空间的映射得到不同位置的注意力权重值
Figure 594747DEST_PATH_IMAGE082
,其中
Figure 92724DEST_PATH_IMAGE083
为第一帧在类别1下的注意力权重,
Figure 926688DEST_PATH_IMAGE084
为第t帧在类别1下的注意力权重,
Figure 877327DEST_PATH_IMAGE085
为第一帧在类别n下的注意力权重,
Figure 759832DEST_PATH_IMAGE086
第t帧在类别n下的注意力权重;最后强标签的预测概率矩阵与对应位置的注意力权重值点乘得到最终的网络输出结果。
8.根据权利要求1所述的多尺度环境声音事件识别方法,其特征在于,步骤S4中,根据不同类别的多尺度环境声音事件的平均持续时间,自适应的设置中值滤波器窗口的大小Window
Figure 174633DEST_PATH_IMAGE087
其中,
Figure 117181DEST_PATH_IMAGE088
为参数;将平滑处理后的概率矩阵逐元素的与设定的阈值进行比较,得出最终的识别结果。
CN202211256395.2A 2022-10-14 2022-10-14 多尺度环境声音事件识别方法 Active CN115331697B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211256395.2A CN115331697B (zh) 2022-10-14 2022-10-14 多尺度环境声音事件识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211256395.2A CN115331697B (zh) 2022-10-14 2022-10-14 多尺度环境声音事件识别方法

Publications (2)

Publication Number Publication Date
CN115331697A true CN115331697A (zh) 2022-11-11
CN115331697B CN115331697B (zh) 2023-01-24

Family

ID=83914805

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211256395.2A Active CN115331697B (zh) 2022-10-14 2022-10-14 多尺度环境声音事件识别方法

Country Status (1)

Country Link
CN (1) CN115331697B (zh)

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015148740A (ja) * 2014-02-07 2015-08-20 日本電信電話株式会社 モデル処理装置、モデル処理方法、およびプログラム
CN110827804A (zh) * 2019-11-14 2020-02-21 福州大学 一种音频帧序列到事件标签序列的声音事件标注方法
US20200265273A1 (en) * 2019-02-15 2020-08-20 Surgical Safety Technologies Inc. System and method for adverse event detection or severity estimation from surgical data
CN112183577A (zh) * 2020-08-31 2021-01-05 华为技术有限公司 一种半监督学习模型的训练方法、图像处理方法及设备
CN112802484A (zh) * 2021-04-12 2021-05-14 四川大学 一种混合音频下的大熊猫声音事件检测方法及***
CN113299314A (zh) * 2021-07-27 2021-08-24 北京世纪好未来教育科技有限公司 一种音频事件识别模型的训练方法、装置及其设备
CN113707175A (zh) * 2021-08-24 2021-11-26 上海师范大学 基于特征分解分类器与自适应后处理的声学事件检测***
CN113724740A (zh) * 2021-08-30 2021-11-30 中国科学院声学研究所 音频事件检测模型训练方法及装置
CN113724734A (zh) * 2021-08-31 2021-11-30 上海师范大学 声音事件的检测方法、装置、存储介质及电子装置
CN114023354A (zh) * 2021-08-24 2022-02-08 上海师范大学 基于聚焦损失函数的指导型声学事件检测模型训练方法
US20220159403A1 (en) * 2019-08-06 2022-05-19 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. System and method for assisting selective hearing

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015148740A (ja) * 2014-02-07 2015-08-20 日本電信電話株式会社 モデル処理装置、モデル処理方法、およびプログラム
US20200265273A1 (en) * 2019-02-15 2020-08-20 Surgical Safety Technologies Inc. System and method for adverse event detection or severity estimation from surgical data
US20220159403A1 (en) * 2019-08-06 2022-05-19 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. System and method for assisting selective hearing
CN110827804A (zh) * 2019-11-14 2020-02-21 福州大学 一种音频帧序列到事件标签序列的声音事件标注方法
CN112183577A (zh) * 2020-08-31 2021-01-05 华为技术有限公司 一种半监督学习模型的训练方法、图像处理方法及设备
CN112802484A (zh) * 2021-04-12 2021-05-14 四川大学 一种混合音频下的大熊猫声音事件检测方法及***
CN113299314A (zh) * 2021-07-27 2021-08-24 北京世纪好未来教育科技有限公司 一种音频事件识别模型的训练方法、装置及其设备
CN113707175A (zh) * 2021-08-24 2021-11-26 上海师范大学 基于特征分解分类器与自适应后处理的声学事件检测***
CN114023354A (zh) * 2021-08-24 2022-02-08 上海师范大学 基于聚焦损失函数的指导型声学事件检测模型训练方法
CN113724740A (zh) * 2021-08-30 2021-11-30 中国科学院声学研究所 音频事件检测模型训练方法及装置
CN113724734A (zh) * 2021-08-31 2021-11-30 上海师范大学 声音事件的检测方法、装置、存储介质及电子装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
DONGCHI YU ET AL: "SEMI SUPERVISED SOUND EVENT DETECTION USING MULTI SCALE CONVOLUTIONAL RECURRENT NEURAL NETWORK AND WEIGHTED POOLING", 《DETECTION AND CLASSIFICATION OF ACOUSTIC SCENES AND EVENTS 2021》 *
王金甲等: "基于平均教师模型的弱标记半监督声音事件检测", 《复旦学报(自然科学版)》 *
王金甲等: "基于注意力门控卷积循环神经网络的通用音频标记", 《复旦学报(自然科学版)》 *

Also Published As

Publication number Publication date
CN115331697B (zh) 2023-01-24

Similar Documents

Publication Publication Date Title
CN109949317B (zh) 基于逐步对抗学习的半监督图像实例分割方法
CN112232416B (zh) 一种基于伪标签加权的半监督学习方法
CN108133188B (zh) 一种基于运动历史图像与卷积神经网络的行为识别方法
CN104573669B (zh) 图像物体检测方法
CN112560432B (zh) 基于图注意力网络的文本情感分析方法
CN110555881A (zh) 一种基于卷积神经网络的视觉slam测试方法
CN112818861A (zh) 一种基于多模态上下文语义特征的情感分类方法及***
CN109753897B (zh) 基于记忆单元强化-时序动态学习的行为识别方法
CN111259785B (zh) 基于时间偏移残差网络的唇语识别方法
CN116311483B (zh) 基于局部面部区域重构和记忆对比学习的微表情识别方法
CN112232395B (zh) 一种基于联合训练生成对抗网络的半监督图像分类方法
CN115393933A (zh) 一种基于帧注意力机制的视频人脸情绪识别方法
CN111860193A (zh) 一种基于文本的行人检索自监督视觉表示学习***及方法
CN110633689B (zh) 基于半监督注意力网络的人脸识别模型
CN116434241A (zh) 基于注意力机制的自然场景图像中文本识别方法及***
CN115311605A (zh) 基于近邻一致性和对比学习的半监督视频分类方法及***
CN110472655A (zh) 一种用于跨境旅游的标志物机器学习识别***及方法
CN113707175A (zh) 基于特征分解分类器与自适应后处理的声学事件检测***
CN111598113A (zh) 模型优化方法、数据识别方法和数据识别装置
CN115331697B (zh) 多尺度环境声音事件识别方法
CN116433909A (zh) 基于相似度加权多教师网络模型的半监督图像语义分割方法
CN116543250A (zh) 一种基于类注意力传输的模型压缩方法
CN115797642A (zh) 基于一致性正则化与半监督领域自适应图像语义分割算法
CN115240647A (zh) 声音事件检测方法、装置、电子设备及存储介质
CN114139655A (zh) 一种蒸馏式竞争学习的目标分类***和方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant