CN111539449A - 一种基于二阶融合注意力网络模型的声源分离及定位方法 - Google Patents

一种基于二阶融合注意力网络模型的声源分离及定位方法 Download PDF

Info

Publication number
CN111539449A
CN111539449A CN202010205408.8A CN202010205408A CN111539449A CN 111539449 A CN111539449 A CN 111539449A CN 202010205408 A CN202010205408 A CN 202010205408A CN 111539449 A CN111539449 A CN 111539449A
Authority
CN
China
Prior art keywords
network
sound
visual
sound source
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010205408.8A
Other languages
English (en)
Other versions
CN111539449B (zh
Inventor
胡睿晗
周松斌
刘忆森
韩威
李永亮
李昌
刘伟鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Institute of Intelligent Manufacturing
Original Assignee
Guangdong Institute of Intelligent Manufacturing
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Institute of Intelligent Manufacturing filed Critical Guangdong Institute of Intelligent Manufacturing
Priority to CN202010205408.8A priority Critical patent/CN111539449B/zh
Publication of CN111539449A publication Critical patent/CN111539449A/zh
Application granted granted Critical
Publication of CN111539449B publication Critical patent/CN111539449B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/285Selection of pattern recognition techniques, e.g. of classifiers in a multi-classifier system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于二阶融合注意力网络模型的声源分离及定位方法,包括以下步骤:S1:使用混合‑分离策略训练二阶融合注意力网络,每次训练时在视频流样本中随机挑选出两个训练样本,切分为声音信号和视觉图像信号;S2:将声音信号以线性方式进行混合,形成混合声音信号,利用短时傅里叶变换STFT将声音信号转化得到频率谱信息,计算真值掩码;S3:构建训练阶段二阶融合注意力网络模型;S4:构建测试阶段二阶融合注意力网络模型,完成声源分离及定位。本发明将声音和视觉模态进行有效的二阶融合,提升了声源分离的质量以及声源定位的准确率,补足了当前主流声源分离模型利用单一声音模态往往需要对声音进行人工标注并预先指定声源类别的缺陷。

Description

一种基于二阶融合注意力网络模型的声源分离及定位方法
技术领域
本发明涉及模式识别与机器学习领域,尤其是涉及一种基于二阶融合注意力网络模型的声源分离及定位方法。
背景技术
相比于传统的单一模态信息,视频内容中包含了以多帧连续图像为主要成分的视觉流信息和以声音信号为主要成分的音频流信息的多模态信息。大量的前人实验中已经证实了,更丰富的模态数据可以更加全面地表达视频内容。
基于视听模态的建模技术应用场景广泛,包括视听模态配准、声音事件定位、声源分离任务等。视听模态融合工作有两个研究方向:第一个方向是简单的模态融合,即采取视觉特征提取和声音特征提取算子分别对视觉和音频信息进行提取,最后将两个模态的特征信息线性加和起来;第二个方向是深度的信息融合,使用非线性的手段进行特征的融合,该方法考虑了两种模态信息在时间轴的协同特性。在现实世界应用场景中,这两种方法分别具有相应的优势和劣势。针对简单的模态融合方法,其优点在于计算简单;相应的缺点在于各个模态都包含其模态相关的特性,简单的线性合并没有考虑到各模态的差异性,给模态融合的过程带来负面影响。深度的信息融合则可以较好地处理多模态数据的复杂特性;缺点在于现有大量的信息融合模型都是生成式模型,缺乏很好的适用于判决性任务的融合计算框架。
当前,以深度学习为代表的人工智能技术已被证明具备非常强的特征学习能力,并在视频理解、视频特征表达等应用中获得了显著的效果。这些模型主要聚焦于视频中的单一模态信息,例如检测视频中的目标信息。关于联合利用视频中的视觉和音频信息的深度学习模型的研究工作数量相对较少。
在现有研究体系下,某些科学家使用深度置信网络对于各模态数据进行融合,对各模态数据的融合权重的交替优化;某些科学家使用简单的Concat层将各骨骼位置所提取的紧凑双线性池化层相连接,组成骨骼引导多模态融合神经网络;另有一些科学家提出将激光焊接中采集到的正面焊接图像通道、侧面焊接图像通道以及光电图像通道数据,使用全连接网络进行模态融合。然而,以上方法均是将各模态的信息进行简单的加权融合,并没有将各模态数据之间的匹配关系考虑其中。因此,亟需提出一种新的数据融合方法,将各模态数据之间的匹配关系考虑其中,从而将声音和视觉模态进行有效的二阶融合,提升声源分离的质量以及声源定位的准确率。
发明内容
有鉴于此,有必要针对上述的问题,提供一种基于二阶融合注意力网络模型的声源分离及定位方法,针对视频中的音觉数据和视觉数据进行建模,模型使用多模态分离器网络和多模态匹配分类器网络对于视觉和音觉特征进行深度融合,在视频中实现了发声物***置的自动捕捉并针对独立的发声源的声音进行声源分离,从而将声音和视觉模态进行有效的二阶融合,提升声源分离的质量以及声源定位的准确率,补足当前主流声源分离模型利用单一声音模态往往需要对声音进行人工标注并预先指定声源类别的缺陷。
为实现上述目的,本发明是根据以下技术方案实现的:
一种基于二阶融合注意力网络模型的声源分离及定位方法,包括以下步骤:
步骤S1:使用混合-分离策略训练二阶融合注意力网络,每次训练时在视频流样本中随机挑选出两个训练样本,并将样本切分为声音信号a1(t),a2(t)和视觉图像信号v1(t),v2(t);
步骤S2:将声音信号a1(t),a2(t)以线性方式进行混合,形成混合声音信号ax(t),利用短时傅里叶变换STFT将声音信号a1(t),a2(t),ax(t)转化到频率域,将得到的频率谱信息分别标记为A1(t),A2(t),Ax(t),计算公式为:
A1(t)=STFT(a1(t)),A2(t)=STFT(a2(t)),Ax(t)=STFT(ax(t)) (1)
根据得到的频率谱信息计算真值掩码,计算公式为:
Figure BDA0002420883410000021
其中,m1(t),m2(t)分别为声音信号a1(t),a2(t)的真值掩码;
步骤S3:构建训练阶段二阶融合注意力网络模型;
步骤S4:构建测试阶段二阶融合注意力网络模型,完成声源分离及定位。
进一步地,步骤S3具体包括以下步骤:
步骤S31:构建一阶多模态融合,将步骤S1得到的视觉图像信号v1(t),v2(t)与步骤S2得到的混合声音信号ax(t)作为输入,输入到多模态分离器网络中,实现发声物体声源分离;其中视觉图像信号v1(t),v2(t)经过多模态分离器网络计算得到视觉特征向量V(t),并将视觉特征向量V(t)作为输入,输入到谱分离网络的编码器输出端,计算得到分离的干净频谱掩码信号
Figure BDA0002420883410000031
实现干净声源的分离;
步骤S32:构建二阶多模态融合,将视觉特征向量V(t)与频谱掩码信号
Figure BDA0002420883410000032
作为输入,输入到多模态匹配分类器网络,实现视觉和音频模态的匹配;在多模态匹配分离器中,注意力机制用来对视觉特征向量V(t)和音频掩码
Figure BDA0002420883410000033
进行二阶融合,并使用多模态协同分数ψm,v对视觉和音频模态的匹配度进行打分,计算公式为:
Figure BDA0002420883410000034
其中W代表网络的权重;
将协同分数ψm,v与视觉特征向量V(t)相乘得到跨模态匹配特征AVatt(t),计算公式为:
Figure BDA0002420883410000035
步骤S33:构建二阶融合注意力网络的联合损失函数,联合损失函数由多模态分离器网络计算得到的音频谱掩码信号
Figure BDA0002420883410000036
与多模态匹配分类器网络计算得到的发声源类别标签组成,对于视觉特征向量V(t),针对音频谱掩码信号
Figure BDA0002420883410000037
与真值谱掩码
Figure BDA0002420883410000038
的误差构建最小二乘回归误差损失函数:
Figure BDA0002420883410000039
针对计算得到的预测标签值与真值标签之间的误差构建交叉熵分类误差损失函数:
Figure BDA0002420883410000041
二阶融合注意力网络的损失函数L由回归损失和分类损失联合构成:
L=Lregression+λLclassification (7)
其中λ为误差方程的对齐系数。
进一步地,在步骤S31中,所述多模态分离器网络的网络结构由18层的卷积网络所组成的视觉特征提取网络以及14层频谱分离网络组成;
其中视觉特征提取网络由4个残差块组成,分别包含了64,128,256和512个卷积神经元,最后计算得到的视觉特征向量维度为512维;
频谱分离网络由7层卷积网络和7层解卷积网络的自编码器结构组成,其中卷积层的神经元数目分别为64,128,256,512,512,512,512,解卷积层的神经元数目分别为512,512,512,256,128,64;
进一步地,在步骤S32中,所述多模态匹配分类器网络的网络结构由全连接层、LSTM层以及融合层所组成;视觉特征向量V(t)和音频掩码
Figure BDA0002420883410000042
经过两层非线性激励函数sigmoid和softmax加权的全连接层进行二阶融合。
进一步地,步骤S4具体包括以下步骤:
步骤S41:将计算得到的发声物体的频谱掩码
Figure BDA0002420883410000046
与混合频谱Ax(t)进行解耦,得到干净的频谱变量:
Figure BDA0002420883410000043
步骤S42:将二阶融合注意力网络模型输出得到的发声物体的频谱A(t)进行短时傅里叶反变换得到发声物体的干净时域信号:
a(t)=ISTFT(A(t)) (9)
步骤S43:将协同分数ψm,v正则化到与图像像素相同的大小:
Figure BDA0002420883410000044
其中,
Figure BDA0002420883410000045
为输出的声音事件定位变量;
步骤S44:将步骤S43得到的
Figure BDA0002420883410000051
与原始视觉图像相叠加,得到发声物体在视觉图像中的空间位置。
与现有技术相比,本发明的优点和积极效果至少包括:
1、将视觉特征融合到频谱分离网络中,增强声源分离效果;此外,计算跨模态匹配特征并与声音频谱掩码融合,增强视觉、音频特征同步性。
2、本发明对于视频中的视觉和音频模态进行建模,设计了二阶融合计算框架,其中在多模态分离器网络中,视觉和音频特征进行一阶融合,得到干净的发声源的音频掩码;在多模态匹配分类器网络中,视觉和音频特征进行二阶融合,得到声音事件位置信息。
3、二阶融合注意力网络使用了基于声源分离的回归损失函数以及基于多目标匹配的分类损失函数组成联合损失函数并进行优化。本专利申请提出的多模态的二阶融合注意力网络模型,将声音和视觉模态进行有效的二阶融合,提升了声源分离的质量以及声源定位的准确率,补足了当前主流声源分离模型利用单一声音模态往往需要对声音进行人工标注并预先指定声源类别的缺陷。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明的二阶融合注意力网络模型的计算框架;
图2(a)是本发明的多模态分离器网络模块示意图;
图2(b)是本发明的多模态匹配分类器网络模块示意图;
图3(a)是本发明的声源分离频谱掩码,频率谱及其真值变量的对比示意图;
图3(b)本发明计算输出得到的发声物***置定位结果示意图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面将结合附图和具体的实施例对本发明的技术方案进行详细说明。需要指出的是,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明,若本发明实施例中有涉及“第一”、“第二”等的描述,则该“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
实施例1
本发明提供一种基于二阶融合注意力网络模型的声源分离及定位方法,包括以下步骤:
步骤S1:使用混合-分离策略训练二阶融合注意力网络,每次训练时在视频流样本中随机挑选出两个训练样本,并将样本切分为声音信号a1(t),a2(t)和视觉图像信号v1(t),v2(t);
步骤S2:将声音信号a1(t),a2(t)以线性方式进行混合,形成混合声音信号ax(t),利用短时傅里叶变换STFT将声音信号a1(t),a2(t),am(t)转化到频率域,将得到的频率谱信息分别标记为A1(t),A2(t),Ax(t),计算公式为:
A1(t)=STFT(a1(t)),A2(t)=STFT(a2(t)),Ax(t)=STFT(ax(t)) (1)
根据得到的频率谱信息计算真值掩码,计算公式为:
Figure BDA0002420883410000061
其中,m1(t),m2(t)分别为声音信号a1(t),a2(t)的真值掩码;
步骤S3:构建训练阶段二阶融合注意力网络模型;
步骤S4:构建测试阶段二阶融合注意力网络模型,完成声源分离及定位。
进一步地,步骤S3具体包括以下步骤:
步骤S31:构建一阶多模态融合,将步骤S1得到的视觉图像信号v1(t),v2(t)与步骤S2得到的混合声音信号ax(t)作为输入,输入到多模态分离器网络中,实现发声物体声源分离;其中视觉图像信号v1(t),v2(t)经过多模态分离器网络计算得到视觉特征向量V(t),将视觉特征向量V(t)作为输入,输入到谱分离网络中,计算得到分离的干净频谱掩码信号
Figure BDA0002420883410000071
实现干净声源的分离;
步骤S32:构建二阶多模态融合,将视觉特征向量V(t)与频谱掩码信号
Figure BDA0002420883410000072
作为输入,输入到多模态匹配分类器网络,实现视觉和音频模态的匹配;在多模态匹配分离器中,注意力机制用来对视觉特征向量V(t)和音频掩码
Figure BDA0002420883410000073
进行二阶融合,并使用多模态协同分数ψm,v对视觉和音频模态的匹配度进行打分,计算公式为:
Figure BDA0002420883410000074
其中W代表网络的权重;
将协同分数ψm,v与视觉特征向量V(t)相乘得到跨模态匹配特征AVatt(t),计算公式为:
Figure BDA0002420883410000075
步骤S33:构建二阶融合注意力网络的联合损失函数,联合损失函数由多模态分离器网络计算得到的音频谱掩码信号
Figure BDA0002420883410000076
与多模态匹配分类器网络计算得到的发声源类别标签组成,对于视觉特征向量V(t),针对音频谱掩码信号
Figure BDA0002420883410000077
与真值谱掩码
Figure BDA0002420883410000078
的误差构建最小二乘回归误差损失函数:
Figure BDA0002420883410000079
针对计算得到的预测标签值与真值标签之间的误差构建交叉熵分类误差损失函数:
Figure BDA00024208834100000710
二阶融合注意力网络的损失函数L由回归损失和分类损失联合构成:
L=Lregression+λLclassification (7)
其中λ为误差方程的对齐系数。
进一步地,在步骤S31中,所述多模态分离器网络的网络结构由18层的卷积网络所组成的视觉特征提取网络以及14层频谱分离网络组成;
其中视觉特征提取网络由4个残差块组成,分别包含了64,128,256和512个卷积神经元,最后计算得到的视觉特征向量维度为512维;
频谱分离网络由7层卷积网络和7层解卷积网络的自编码器结构组成,其中卷积层的神经元数目分别为64,128,256,512,512,512,512,解卷积层的神经元数目分别为512,512,512,256,128,64;
将视觉特征嵌入到频谱分离网络的编码器输出端,进行一阶融合,得到1024维度的视听觉多模态信号。
进一步地,在步骤S32中,所述多模态匹配分类器网络的网络结构由全连接层、LSTM层以及融合层所组成;视觉特征向量V(t)和音频掩码
Figure BDA0002420883410000086
经过两层非线性激励函数sigmoid和softmax加权的全连接层进行二阶融合。
进一步地,步骤S4具体包括以下步骤:
步骤S41:将计算得到的发声物体的频谱掩码
Figure BDA0002420883410000081
与混合频谱Ax(t)进行解耦,得到干净的频谱变量:
Figure BDA0002420883410000082
步骤S42:将二阶融合注意力网络模型输出得到的发声物体的频谱A(t)进行短时傅里叶反变换得到发声物体的干净时域信号:
a(t)=ISTFT(A(t)) (9)
步骤S43:将协同分数ψm,v正则化到与图像像素相同的大小:
Figure BDA0002420883410000083
其中,
Figure BDA0002420883410000084
为输出的声音事件定位变量;
步骤S44:将步骤S43得到的
Figure BDA0002420883410000085
与原始视觉图像相叠加,得到发声物体在视觉图像中的空间位置。
实施例2
本实施例为利用视频中不同乐器声音实现声源分离及其发声源事件定位,以对本发明进行具体说明。
需要说明的是,本实施例中所使用的具体数字,仅仅是本实施例中所使用的一组可能的或较优的搭配,但并不能因此而理解为对本发明专利范围的限制;应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明的保护范围应以所附权利要求为准。
图1展示了二阶融合注意力网络模型,如图1所示,本发明提供一种基于二阶融合注意力网络模型的声源分离及定位方法,将该方法应用于视频中不同乐器声音实现声源分离及其发声源事件定位,包括以下步骤:
S.1:我们搜集到的视频数据包含单乐器和双乐器弹奏两个场景,根据“混合-分离”训练框架,如果两个单乐器视频作为输入,则有两个发声体声源;如果两个双乐器视频作为输入,则有四个发声体声源;如果一个单乐器,一个双乐器弹奏视频作为输入,则有三个发声体声源。经过统计一共有542个视频样本数据,其中380个样本作为训练数据,54个样本作为验证数据,108个样本作为测试数据。
S.2:数据预处理:
S2-1将每个发声体的时域音频数据及混合的音频数据进行短时傅里叶变换转化到频谱信号。其中傅里叶窗口大小为1022,截取长度为256。
S2-2将视频帧切片的图像信号进行图像增强,增强手段包括图片翻转;图片亮度增强,增强系数为0.6;图像色彩增强,增强系数为0.6。
步骤S3:网络构建:
S3-1多模态分离器网络模块中的视觉特征提取网络由18层卷积神经网络组成,其中具体参数为:
第一层网络,卷积的输出通道维度为64,卷积核大小为7*7,滑动步长为2*2,填充尺寸为3*3。BatchNormalization层的输出通道维度为64。Relu激励函数;
第二层网络,池化层的池化尺寸为3*3,滑动步长为2*2,填充尺寸为1*1;
第三层网络,卷积的输出通道维度为64,卷积核大小为3*3,滑动步长为1*1,填充尺寸为1*1。BatchNormalization层的输出通道维度为64。Relu激励函数。
第四层网络,卷积的输出通道维度为64,卷积核大小为3*3,滑动步长为1*1,填充尺寸为1*1。BatchNormalization层的输出通道维度为64。
第五层网络,卷积的输出通道维度为64,卷积核大小为3*3,滑动步长为1*1,填充尺寸为1*1。BatchNormalization层的输出通道维度为64。Relu激励函数。
第六层网络,卷积的输出通道维度为64,卷积核大小为3*3,滑动步长为1*1,填充尺寸为1*1。BatchNormalization层的输出通道维度为64。
第七层网络,卷积的输出通道维度为128,卷积核大小为3*3,滑动步长为2*2,填充尺寸为1*1。BatchNormalization层的输出通道维度为128。Relu激励函数。
第八层网络,卷积的输出通道维度为128,卷积核大小为3*3,滑动步长为2*2,填充尺寸为1*1。BatchNormalization层的输出通道维度为128。
第九层网络,卷积的输出通道维度为128,卷积核大小为3*3,滑动步长为1*1,填充尺寸为1*1。BatchNormalization层的输出通道维度为128。Relu激励函数。
第十层网络,卷积的输出通道维度为128,卷积核大小为3*3,滑动步长为1*1,填充尺寸为1*1。BatchNormalization层的输出通道维度为128。
第十一层网络,卷积的输出通道维度为256,卷积核大小为3*3,滑动步长为2*2,填充尺寸为1*1。BatchNormalization层的输出通道维度为256。Relu激励函数。
第十二层网络,卷积的输出通道维度为256,卷积核大小为3*3,滑动步长为1*1,填充尺寸为1*1。BatchNormalization层的输出通道维度为256。
第十三层网络,卷积的输出通道维度为256,卷积核大小为3*3,滑动步长为1*1,填充尺寸为1*1。BatchNormalization层的输出通道维度为256。激励函数为Relu。
第十四层网络,,卷积的输出通道维度为256,卷积核大小为3*3,滑动步长为1*1,填充尺寸为1*1。BatchNormalization层的输出通道维度为256。
第十五层网络,卷积的输出通道维度为512,卷积核大小为3*3,滑动步长为2*2,填充尺寸为1*1。BatchNormalization层的输出通道维度为512。Relu激励函数。
第十六层网络,卷积的输出通道维度为512,卷积核大小为3*3,滑动步长为2*2,填充尺寸为1*1。BatchNormalization层的输出通道维度为512。
第十七层网络,卷积的输出通道维度为512,卷积核大小为3*3,滑动步长为1*1,填充尺寸为1*1。BatchNormalization层的输出通道维度为512。Relu激励函数。
第十八层网络,卷积的输出通道维度为512,卷积核大小为3*3,滑动步长为2*2,填充尺寸为1*1。BatchNormalization层的输出通道维度为512。
S3-2多模态分离器网络模块中的谱分离网络,由14层卷积自编码网络组成其中具体参数为:
第一层网络,卷积的输出通道维度为64,卷积核大小为4*4,滑动步长为2*2,填充尺寸为1*1。BatchNormalization层的输出通道维度为64。Relu激励函数。
第二层网络,卷积的输出通道维度为128,卷积核大小为4*4,滑动步长为2*2,填充尺寸为1*1。BatchNormalization层的输出通道维度为128。Relu激励函数。
第三层网络,卷积的输出通道维度为256,卷积核大小为4*4,滑动步长为2*2,填充尺寸为1*1。BatchNormalization层的输出通道维度为256。Relu激励函数。
第四层网络,卷积的输出通道维度为512,卷积核大小为4*4,滑动步长为2*2,填充尺寸为1*1。BatchNormalization层的输出通道维度为512。Relu激励函数。
第五层网络,卷积的输出通道维度为512,卷积核大小为4*4,滑动步长为2*2,填充尺寸为1*1。BatchNormalization层的输出通道维度为512。Relu激励函数。
第六层网络,卷积的输出通道维度为512,卷积核大小为4*4,滑动步长为2*2,填充尺寸为1*1。BatchNormalization层的输出通道维度为512。Relu激励函数。
第七层网络,卷积的输出通道维度为512,卷积核大小为4*4,滑动步长为2*2,填充尺寸为1*1。BatchNormalization层的输出通道维度为512。Relu激励函数。
第八层网络,反卷积的输出通道维度为512,卷积核大小为4*4,滑动步长为2*2,填充尺寸为1*1。BatchNormalization层的输出通道维度为512。Relu激励函数。
第九层网络,反卷积的输出通道维度为512,卷积核大小为4*4,滑动步长为2*2,填充尺寸为1*1。BatchNormalization层的输出通道维度为512。Relu激励函数。
第十层网络,反卷积的输出通道维度为512,卷积核大小为4*4,滑动步长为2*2,填充尺寸为1*1。BatchNormalization层的输出通道维度为512。Relu激励函数。
第十一层网络,反卷积的输出通道维度为512,卷积核大小为4*4,滑动步长为2*2,填充尺寸为1*1。BatchNormalization层的输出通道维度为512。Relu激励函数。
第十二层网络,反卷积的输出通道维度为256,卷积核大小为4*4,滑动步长为2*2,填充尺寸为1*1。BatchNormalization层的输出通道维度为256。Relu激励函数。
第十三层网络,反卷积的输出通道维度为128,卷积核大小为4*4,滑动步长为2*2,填充尺寸为1*1。BatchNormalization层的输出通道维度为128。Relu激励函数。
第十四层网络,反卷积的输出通道维度为64,卷积核大小为4*4,滑动步长为2*2,填充尺寸为1*1。BatchNormalization层的输出通道维度为64。Relu激励函数。
S3-3多模态匹配分类器网络,由十层卷积神经网络组成其中具体参数为:
第一层网络,全连接层,输出通道为128。
第二层网络,音频特征全连接层,输出通道为512。
第三层网络,视觉特征全连接层,输出通道为512。
第四层网络,音频特征全连接层,输出通道为1。
第五层网络,视觉特征全连接层,输出通道为1。
第六层网络,融合全连接层,输出通道为1。
第七层网络,递归LSTM层,输出通道为128。
第八层网络,递归LSTM层,输出通道为128。
第九层网络,线性层,输出通道为64。
第十层网络,线性层,输出通道为16。
S.4:二阶融合注意力网络的损失函数为联合损失函数,由多模态分离器网络的回归损失函数和多模态匹配分类器的分类损失函数组成:
L=Lregression+λLclassification
其中参数λ控制回归损失与分类损失在联合损失函数中的比率。
联合损失函数由多模态分离器网络计算得到的音频谱掩码信号
Figure BDA0002420883410000131
与多模态匹配分类器网络计算得到的发声源类别标签组成,对于视觉特征向量V(t),针对音频谱掩码信号
Figure BDA0002420883410000132
与真值谱掩码
Figure BDA0002420883410000133
的误差构建最小二乘回归误差损失函数:
Figure BDA0002420883410000134
针对计算得到的预测标签值与真值标签之间的误差构建交叉熵分类误差损失函数:
Figure BDA0002420883410000135
S.5:训练二阶融合注意力网络:
采用梯度下降方法,训练二阶融合注意力网络,优化器采用“Adam”优化器,学习率为0.0001。
S.6:声源分离和声音事件定位部分
将计算得到的发声物体的频谱掩码
Figure BDA0002420883410000141
与混合频谱Ax(t)进行解耦,得到干净的频谱变量:
Figure BDA0002420883410000142
将二阶融合注意力网络模型输出得到的发声物体的频谱A(t)进行短时傅里叶反变换得到发声物体的干净时域信号:
a(t)=ISTFT(A(t)) (9)
将计算得到的预测频谱掩码,真值频谱掩码,预测频谱,真值频率谱展示在图3(a);
将协同分数ψm,v正则化到与图像像素相同的大小:
Figure BDA0002420883410000143
其中,
Figure BDA0002420883410000144
为输出的声音事件定位变量;
将步骤S43得到的
Figure BDA0002420883410000145
与原始视觉图像相叠加,得到发声物体在视觉图像中的空间位置。
我们将计算得到的发声物体空间位置展示在图3(b)。
由图3(a)结果可知,经过二阶融合注意力网络计算输出得到的预测频谱掩码、频率谱接近于真值频谱掩码,频率谱。由图3(b)结果可知,视频图像中的发声物体的声音可以被实时精确的定位。由此,由图3(a)和图3(b)结果可知,本发明一种基于二阶融合注意力网络模型的声源分离及定位方法将视觉特征融合到频谱分离网络中,增强了声源分离效果;计算跨模态匹配特征并与声音频谱掩码融合,增强了视觉、音频特征同步性;在多模态匹配分类器网络中,视觉和音频特征进行二阶融合,增强了声音事件位置信息定位的精确度;补足了当前主流声源分离模型利用单一声音模态往往需要对声音进行人工标注并预先指定声源类别的缺陷。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明的保护范围应以所附权利要求为准。

Claims (5)

1.一种基于二阶融合注意力网络模型的声源分离及定位方法,其特征在于,包括以下步骤:
步骤S1:使用混合-分离策略训练二阶融合注意力网络,每次训练时在视频流样本中随机挑选出两个训练样本,并将样本切分为声音信号a1(t),a2(t)和视觉图像信号v1(t),v2(t);
步骤S2:将声音信号a1(t),a2(t)以线性方式进行混合,形成混合声音信号ax(t),利用短时傅里叶变换STFT将声音信号a1(t),a2(t),ax(t)转化到频率域,将得到的频率谱信息分别标记为A1(t),A2(t),Ax(t),计算公式为:
A1(t)=STFT(a1(t)),A2(t)=STFT(a2(t)),Ax(t)=STFT(ax(t)) (1)
根据得到的频率谱信息计算真值掩码,计算公式为:
Figure FDA0002420883400000011
其中,m1(t),m2(t)分别为声音信号a1(t),a2(t)的真值掩码;
步骤S3:构建训练阶段二阶融合注意力网络模型;
步骤S4:构建测试阶段二阶融合注意力网络模型,完成声源分离及定位。
2.根据权利要求1所述的基于二阶融合注意力网络模型的声源分离及定位方法,其特征在于,步骤S3具体包括以下步骤:
步骤S31:构建一阶多模态融合,将步骤S1得到的视觉图像信号v1(t),v2(t)与步骤S2得到的混合声音信号ax(t)作为输入,输入到多模态分离器网络中,实现发声物体声源分离;其中视觉图像信号v1(t),v2(t)经过多模态分离器网络计算得到视觉特征向量V(t),将视觉特征向量V(t)作为输入,输入到谱分离网络中,计算得到分离的干净频谱掩码信号
Figure FDA0002420883400000015
实现干净声源的分离;
步骤S32:构建二阶多模态融合,将视觉特征向量V(t)与频谱掩码信号
Figure FDA0002420883400000012
作为输入,输入到多模态匹配分类器网络,实现视觉和音频模态的匹配;在多模态匹配分离器中,注意力机制用来对视觉特征向量V(t)和音频掩码
Figure FDA0002420883400000013
进行二阶融合,并使用多模态协同分数ψm,v对视觉和音频模态的匹配度进行打分,计算公式为:
Figure FDA0002420883400000014
其中W代表网络的权重;
将协同分数ψm,v与视觉特征向量V(t)相乘得到跨模态匹配特征AVatt(t),计算公式为:
Figure FDA0002420883400000021
步骤S33:构建二阶融合注意力网络的联合损失函数,联合损失函数由多模态分离器网络计算得到的音频谱掩码信号
Figure FDA0002420883400000022
与多模态匹配分类器网络计算得到的发声源类别标签组成,对于视觉特征向量V(t),针对音频谱掩码信号
Figure FDA0002420883400000023
与真值谱掩码
Figure FDA0002420883400000024
的误差构建最小二乘回归误差损失函数:
Figure FDA0002420883400000025
针对计算得到的预测标签值与真值标签之间的误差构建交叉熵分类误差损失函数:
Figure FDA0002420883400000026
二阶融合注意力网络的损失函数L由回归损失和分类损失联合构成:
L=Lregression+λLclassification (7)
其中λ为误差方程的对齐系数。
3.根据权利要求2所述的基于二阶融合注意力网络模型的声源分离及定位方法,其特征在于,在步骤S31中,所述多模态分离器网络的网络结构由18层的卷积网络所组成的视觉特征提取网络以及14层频谱分离网络组成;
其中视觉特征提取网络由4个残差块组成,分别包含了64,128,256和512个卷积神经元,最后计算得到的视觉特征向量维度为512维;
频谱分离网络由7层卷积网络和7层解卷积网络的自编码器结构组成,其中卷积层的神经元数目分别为64,128,256,512,512,512,512,解卷积层的神经元数目分别为512,512,512,256,128,64;
将视觉特征嵌入到频谱分离网络的编码器输出端,进行一阶融合,得到1024维度的视听觉多模态信号。
4.根据权利要求2所述的基于二阶融合注意力网络模型的声源分离及定位方法,其特征在于,在步骤S32中,所述多模态匹配分类器网络的网络结构由全连接层、LSTM层以及融合层所组成;视觉特征向量V(t)和音频掩码
Figure FDA0002420883400000035
经过两层非线性激励函数sigmoid和softmax加权的全连接层进行二阶融合。
5.根据权利要求3或4任一项所述的基于二阶融合注意力网络模型的声源分离及定位方法,其特征在于,步骤S4具体包括以下步骤:
步骤S41:将计算得到的发声物体的频谱掩码
Figure FDA0002420883400000036
与混合频谱Ax(t)进行解耦,得到干净的频谱变量:
Figure FDA0002420883400000031
步骤S42:将二阶融合注意力网络模型输出得到的发声物体的频谱A(t)进行短时傅里叶反变换得到发声物体的干净时域信号:
a(t)=ISTFT(A(t)) (9)
步骤S43:将协同分数ψm,v正则化到与图像像素相同的大小:
Figure FDA0002420883400000032
其中,
Figure FDA0002420883400000033
为输出的声音事件定位变量;
步骤S44:将步骤S43得到的
Figure FDA0002420883400000034
与原始视觉图像相叠加,得到发声物体在视觉图像中的空间位置。
CN202010205408.8A 2020-03-23 2020-03-23 一种基于二阶融合注意力网络模型的声源分离及定位方法 Active CN111539449B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010205408.8A CN111539449B (zh) 2020-03-23 2020-03-23 一种基于二阶融合注意力网络模型的声源分离及定位方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010205408.8A CN111539449B (zh) 2020-03-23 2020-03-23 一种基于二阶融合注意力网络模型的声源分离及定位方法

Publications (2)

Publication Number Publication Date
CN111539449A true CN111539449A (zh) 2020-08-14
CN111539449B CN111539449B (zh) 2023-08-18

Family

ID=71976720

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010205408.8A Active CN111539449B (zh) 2020-03-23 2020-03-23 一种基于二阶融合注意力网络模型的声源分离及定位方法

Country Status (1)

Country Link
CN (1) CN111539449B (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112085116A (zh) * 2020-09-16 2020-12-15 北京邮电大学 一种基于gaqn-astft-idkpca的运动过程视听信息融合方法
CN112101462A (zh) * 2020-09-16 2020-12-18 北京邮电大学 一种基于bmfcc-gbfb-dnn的机电设备视听信息融合方法
CN112232746A (zh) * 2020-11-03 2021-01-15 金陵科技学院 基于注意力加权的冷链物流需求估计方法
CN112820320A (zh) * 2020-12-31 2021-05-18 中国科学技术大学 跨模态注意力一致性网络自监督学习方法
CN112863538A (zh) * 2021-02-24 2021-05-28 复旦大学 一种基于视听网络的多模态语音分离方法及装置
CN113011444A (zh) * 2020-12-18 2021-06-22 浙江大学 一种基于神经网络频域注意力机制的图像识别方法
CN113099374A (zh) * 2021-03-30 2021-07-09 四川省人工智能研究院(宜宾) 一种基于多重注意力视听融合的音频立体化方法
CN114245280A (zh) * 2021-12-20 2022-03-25 清华大学深圳国际研究生院 一种基于神经网络的场景自适应助听器音频增强***
CN114596876A (zh) * 2022-01-21 2022-06-07 中国科学院自动化研究所 声源分离方法及装置
CN116859336A (zh) * 2023-07-14 2023-10-10 苏州大学 一种声源定位的高精度实现方法
CN117556208A (zh) * 2023-11-20 2024-02-13 中国地质大学(武汉) 多模态数据的智能卷积通用网络预测方法、设备及介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106373589A (zh) * 2016-09-14 2017-02-01 东南大学 一种基于迭代结构的双耳混合语音分离方法
CN109635676A (zh) * 2018-11-23 2019-04-16 清华大学 一种从视频中定位音源的方法
US20190394568A1 (en) * 2018-06-21 2019-12-26 Trustees Of Boston University Auditory signal processor using spiking neural network and stimulus reconstruction with top-down attention control
CN110706720A (zh) * 2019-08-16 2020-01-17 广东省智能制造研究所 一种端到端无监督深度支撑网络的声学异常检测方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106373589A (zh) * 2016-09-14 2017-02-01 东南大学 一种基于迭代结构的双耳混合语音分离方法
US20190394568A1 (en) * 2018-06-21 2019-12-26 Trustees Of Boston University Auditory signal processor using spiking neural network and stimulus reconstruction with top-down attention control
CN109635676A (zh) * 2018-11-23 2019-04-16 清华大学 一种从视频中定位音源的方法
CN110706720A (zh) * 2019-08-16 2020-01-17 广东省智能制造研究所 一种端到端无监督深度支撑网络的声学异常检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
肖易明等: "引入注意力机制的视频声源定位", 《信号处理》 *

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112101462A (zh) * 2020-09-16 2020-12-18 北京邮电大学 一种基于bmfcc-gbfb-dnn的机电设备视听信息融合方法
CN112085116A (zh) * 2020-09-16 2020-12-15 北京邮电大学 一种基于gaqn-astft-idkpca的运动过程视听信息融合方法
CN112101462B (zh) * 2020-09-16 2022-04-19 北京邮电大学 一种基于bmfcc-gbfb-dnn的机电设备视听信息融合方法
CN112232746A (zh) * 2020-11-03 2021-01-15 金陵科技学院 基于注意力加权的冷链物流需求估计方法
CN112232746B (zh) * 2020-11-03 2023-08-22 金陵科技学院 基于注意力加权的冷链物流需求估计方法
CN113011444B (zh) * 2020-12-18 2022-05-13 浙江大学 一种基于神经网络频域注意力机制的图像识别方法
CN113011444A (zh) * 2020-12-18 2021-06-22 浙江大学 一种基于神经网络频域注意力机制的图像识别方法
CN112820320A (zh) * 2020-12-31 2021-05-18 中国科学技术大学 跨模态注意力一致性网络自监督学习方法
CN112820320B (zh) * 2020-12-31 2023-10-20 中国科学技术大学 跨模态注意力一致性网络自监督学习方法
CN112863538A (zh) * 2021-02-24 2021-05-28 复旦大学 一种基于视听网络的多模态语音分离方法及装置
CN112863538B (zh) * 2021-02-24 2022-06-14 复旦大学 一种基于视听网络的多模态语音分离方法及装置
CN113099374A (zh) * 2021-03-30 2021-07-09 四川省人工智能研究院(宜宾) 一种基于多重注意力视听融合的音频立体化方法
CN114245280B (zh) * 2021-12-20 2023-06-23 清华大学深圳国际研究生院 一种基于神经网络的场景自适应助听器音频增强***
CN114245280A (zh) * 2021-12-20 2022-03-25 清华大学深圳国际研究生院 一种基于神经网络的场景自适应助听器音频增强***
CN114596876A (zh) * 2022-01-21 2022-06-07 中国科学院自动化研究所 声源分离方法及装置
CN116859336A (zh) * 2023-07-14 2023-10-10 苏州大学 一种声源定位的高精度实现方法
CN117556208A (zh) * 2023-11-20 2024-02-13 中国地质大学(武汉) 多模态数据的智能卷积通用网络预测方法、设备及介质
CN117556208B (zh) * 2023-11-20 2024-05-14 中国地质大学(武汉) 多模态数据的智能卷积通用网络预测方法、设备及介质

Also Published As

Publication number Publication date
CN111539449B (zh) 2023-08-18

Similar Documents

Publication Publication Date Title
CN111539449B (zh) 一种基于二阶融合注意力网络模型的声源分离及定位方法
CN111275518B (zh) 一种基于混合光流的视频虚拟试穿方法及装置
Chen et al. Lip movements generation at a glance
Zhang et al. Speech emotion recognition using deep convolutional neural network and discriminant temporal pyramid matching
Ye et al. Evaluating two-stream CNN for video classification
CN111507311B (zh) 一种基于多模态特征融合深度网络的视频人物识别方法
CN112151030B (zh) 一种基于多模态的复杂场景语音识别方法和装置
CN112487949B (zh) 一种基于多模态数据融合的学习者行为识别方法
CN108765512B (zh) 一种基于多层级特征的对抗图像生成方法
CN113850246B (zh) 基于对偶一致网络的声源定位与声源分离的方法和***
CN114898432A (zh) 基于多特征融合的伪造人脸视频检测方法及***
Rao et al. Audio-to-visual conversion for multimedia communication
CN113255678A (zh) 一种基于语义分割的道路裂缝自动识别方法
Agrawal et al. Image caption generator using attention mechanism
CN110415261B (zh) 一种分区域训练的表情动画转换方法及***
Si et al. Speech2video: Cross-modal distillation for speech to video generation
Arora et al. A review of techniques to detect the GAN-generated fake images
Shin et al. Multi-view attention transfer for efficient speech enhancement
CN116977903A (zh) 一种通过文本智能生成短视频的aigc方法
CN116244473A (zh) 一种基于特征解耦和图知识蒸馏的多模态情感识别方法
Goh et al. Automatic effect generation method for 4D films
CN115346259A (zh) 一种结合上下文信息的多粒度学业情绪识别方法
Li et al. Ae-nerf: Audio enhanced neural radiance field for few shot talking head synthesis
Khan et al. Face recognition via multi-level 3D-GAN colorization
Abdrakhmanova et al. Multimodal Person Verification With Generative Thermal Data Augmentation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant