CN115376518B - 一种实时噪声大数据的声纹识别方法、***、设备和介质 - Google Patents

一种实时噪声大数据的声纹识别方法、***、设备和介质 Download PDF

Info

Publication number
CN115376518B
CN115376518B CN202211314627.5A CN202211314627A CN115376518B CN 115376518 B CN115376518 B CN 115376518B CN 202211314627 A CN202211314627 A CN 202211314627A CN 115376518 B CN115376518 B CN 115376518B
Authority
CN
China
Prior art keywords
spectrogram
gamma
time
attention
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211314627.5A
Other languages
English (en)
Other versions
CN115376518A (zh
Inventor
郑建辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Soundbox Acoustic Tech Co ltd
Original Assignee
Guangzhou Soundbox Acoustic Tech Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Soundbox Acoustic Tech Co ltd filed Critical Guangzhou Soundbox Acoustic Tech Co ltd
Priority to CN202211314627.5A priority Critical patent/CN115376518B/zh
Publication of CN115376518A publication Critical patent/CN115376518A/zh
Application granted granted Critical
Publication of CN115376518B publication Critical patent/CN115376518B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/65Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/18Artificial neural networks; Connectionist approaches
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/26Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种实时噪声大数据的声纹识别方法、***、设备及介质,所述方法包括:获取环境噪声数据,并生成环境噪声数据的对数γ频谱图;将对数γ频谱图进行预处理,得到对应的三维对数γ频谱图;将三维对数γ频谱图输入至预先构建的包括依次连接的双重域特征提取模块、有效特征融合模块、下采样模块、全连接层和softmax分类器的高区分度双重域学习网络模型进行分类预测,得到对应的声纹识别结果。本发明通过使用门控循环单元网络和反事实因果注意力学习层并行提取时间结构特征和频率特征,并采用相似性矩阵与注意力机制结合的方式进行特征融合,有效提高了环境噪音分类模型的鲁棒性、运行效率以及分类精准性。

Description

一种实时噪声大数据的声纹识别方法、***、设备和介质
技术领域
本发明涉及声纹识别技术领域,特别是涉及一种实时噪声大数据的声纹识别方法、***、计算机设备和存储介质。
背景技术
近年来,环境声音分类在环保监控、家庭自动化、场景分析和机器听觉中都受到了广泛的关注。环境声音分类与音乐/语音识别任务不同之处在于环境声音分类的时间结构特征和频率特征更加复杂多变,应用传统技术方案通常无法获得良好的性能。
目前学术界为了提升环境声音分类性能主要采用DSP信号处理和机器学习两种技术。然而,DSP信号处理技术虽然可以处理一些浅层简单特征,且在环境声音分类中成功应用了一些基于字典的方法,但这类方案往往需要繁琐的特征设计过程才能获得一定的精度。同时,环境声音分类中应用的机器学习技术,如高斯混合模型(GMM)、支持向量机(SVM)和神经网络模型,虽然应用了多种特征变换方案能够处理复杂的高维特征,在一定程度上提升了特征提取能力,但其不仅模型泛化能力较弱,而且识别过程中仅关注声谱图中的特征频率,而忽略了环境声音具有复杂的时间结构特征,如环境声音可以是短暂的(如枪声)、连续的(如下雨)或间歇的(如狗叫声)等,并不能简单地通过现有技术来有效模拟的问题,进而降低了模型的稳健性和分类精准性。
发明内容
本发明的目的是提供一种实时噪声大数据的声纹识别方法,通过设计一种基于时间结构域和频域的高区分度双重域学习网络来专注于语义相关、突出帧以及音频数据时间结构特征等内容,解决现有环境噪声数据识别的缺陷,有针对性的提高城市环境噪音音频分类模型的鲁棒性和运行效率的同时,进一步提高环境噪音音频分类的精准性。
为了实现上述目的,有必要针对上述技术问题,提供了一种实时噪声大数据的声纹识别方法、***、计算机设备和存储介质。
第一方面,本发明实施例提供了一种实时噪声大数据的声纹识别方法,所述方法包括以下步骤:
获取环境噪声数据,并生成所述环境噪声数据的对数γ频谱图;
将所述对数γ频谱图进行预处理,得到对应的三维对数γ频谱图;
将所述三维对数γ频谱图输入至预先构建的高区分度双重域学习网络模型进行分类预测,得到对应的声纹识别结果;所述高区分度双重域学习网络模型包括依次连接的双重域特征提取模块、有效特征融合模块、下采样模块、全连接层和softmax分类器。
进一步地,所述生成所述环境噪声数据的对数γ频谱图的步骤包括:
将所述环境噪声数据进行短时傅立叶变换处理,得到对应的能量谱图;
计算所述能量谱图的Delta信息,并采用γ型滤波器对所述能量谱图进行滤波处理,得到γ频谱图;
将所述Delta信息和所述γ频谱图串联,得到所述对数γ频谱图。
进一步地,所述将所述对数γ频谱图进行预处理,得到对应的三维对数γ频谱图的步骤包括:
将所述对数γ频谱图按照预设时间间隔进行分割,得到若干个对数γ频谱分割图;
将所述对数γ频谱分割图的分割时序作为第三维次数,并按照第三维次数由小到大的顺序对所述对数γ频谱分割图进行正序排列,得到所述三维对数γ频谱图。
进一步地,所述双重域特征提取模块包括并联的高区分度时间结构特征模块和高区分度频率特征模块;
所述高区分度时间结构特征模块为门控循环单元网络;
所述高区分度频率特征模块包括依次连接的输入层、反事实因果注意力学习层和输出层。
进一步地,所述反事实因果注意力学习层的损失函数表示为:
Figure 468351DEST_PATH_IMAGE001
式中,
Figure 966328DEST_PATH_IMAGE002
Figure DEST_PATH_IMAGE003
Figure 534713DEST_PATH_IMAGE004
Figure 750930DEST_PATH_IMAGE005
Figure 633436DEST_PATH_IMAGE006
其中,
Figure 798969DEST_PATH_IMAGE007
表示反事实因果注意力学习层的损失值;
Figure 475938DEST_PATH_IMAGE008
表示分类标签;
Figure 976189DEST_PATH_IMAGE009
Figure 662386DEST_PATH_IMAGE010
均表示交叉熵损失函数;
Figure 869376DEST_PATH_IMAGE011
表示
Figure 314918DEST_PATH_IMAGE012
的第i个分量;A表示反事实因果注意 力学习层得到的注意力图;
Figure 240149DEST_PATH_IMAGE013
表示反事实因果注意力学习层基于反事实干预得到的注意力 图;
Figure 464457DEST_PATH_IMAGE014
表示softmax分类器基于注意力图A的输出结 果的第i个分量;
Figure 853850DEST_PATH_IMAGE015
表示softmax分类器基于注意力图
Figure 138200DEST_PATH_IMAGE013
的输出结果;
Figure 285148DEST_PATH_IMAGE016
表示因果推理干预;
Figure 126196DEST_PATH_IMAGE017
表示三维对数γ频谱图;A表示反事实因果注意 力学习层得到的注意力图;X表示频率特征图;Y (A=A, X=X)表示使用A原值的注意力计算 结果;Y (do(A=
Figure 307779DEST_PATH_IMAGE013
),X=X)表示反事实选择时,用
Figure 763031DEST_PATH_IMAGE013
代替A后的注意力计算结果。
进一步地,所述将所述三维对数γ频谱图输入至预先构建的高区分度双重域学习网络模型进行分类预测,得到对应的声纹识别结果的步骤包括:
将所述三维对数γ频谱图输入所述双重域特征提取模块进行特征提取,得到对应的时间结构特征图和频率特征图;
将所述时间结构特征图和所述频率特征图输入所述有效特征融合模块进行特征融合,得到时频融合特征;
将所述时频融合特征依次输入所述下采样模块、全连接层和softmax分类器进行处理,得到所述声纹识别结果。
进一步地,所述将所述时间结构特征图和所述频率特征图输入所述有效特征融合模块进行特征融合,得到时频融合特征的步骤包括:
根据所述时间结构特征图和所述频率特征图,得到特征相似矩阵;
将所述特征相似矩阵分别输入第一卷积层和第二卷积层进行卷积处理,得到对应的时间权重矩阵和频率权重矩阵;
根据所述时间权重矩阵和所述频率权重矩阵对所述时间结构特征图和所述频率特征图进行融合,得到所述时频融合特征。
第二方面,本发明实施例提供了一种实时噪声大数据的声纹识别***,所述***包括:
数据获取模块,用于取环境噪声数据,并生成所述环境噪声数据的对数γ频谱图;
预处理模块,用于将所述对数γ频谱图进行预处理,得到对应的三维对数γ频谱图;
声纹识别模块,用于将所述三维对数γ频谱图输入至预先构建的高区分度双重域学习网络模型进行分类预测,得到对应的声纹识别结果;所述高区分度双重域学习网络模型包括依次连接的双重域特征提取模块、有效特征融合模块、下采样模块、全连接层和softmax分类器。
第三方面,本发明实施例还提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。
第四方面,本发明实施例还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述方法的步骤。
上述本申请提供了一种实时噪声大数据的声纹识别方法、***、计算机设备及存储介质,通过所述方法,实现了在获取环境噪声数据后,生成对应的对数γ频谱图,并将对其进行预处理得到的三维对数γ频谱图输入至预先构建的包括依次连接的双重域特征提取模块、有效特征融合模块、下采样模块、全连接层和softmax分类器的高区分度双重域学习网络模型进行分类预测,得到对应的声纹识别结果的技术方案。与现有技术相比,该实时噪声大数据的声纹识别方法,通过使用门控循环单元网络和反事实因果注意力学习层并行提取时间结构特征和频率特征,并采用相似性矩阵与注意力机制结合的方式进行特征融合,有效提高了环境噪音分类模型的鲁棒性、运行效率以及分类精准性。
附图说明
图1是本发明实施例中实时噪声大数据的声纹识别方法的应用场景示意图;
图2是本发明实施例中实时噪声大数据的声纹识别模型框架示意图;
图3是本发明实施例中实时噪声大数据的声纹识别方法的流程示意图;
图4是本发明实施例中生成的对数γ频谱图示意图;
图5中本发明实施例中生成的三维对数γ频谱图的过程示意图;
图6是本发明实施例中双重域特征提取模块中门控循环单元模型的结构示意图;
图7是图6中门控循环单元模型中的隐状态结构示意图;
图8是本发明实施例中双重域特征提取模块中频率特征提取模块的结构示意图;
图9是图8中反事实因果注意力学习层的结构示意图;
图10是本发明实施例中有效特征融合模块的结构示意图;
图11是本发明实施例中实时噪声大数据的声纹识别***的结构示意图;
图12是本发明实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案和有益效果更加清楚明白,下面结合附图及实施例,对本发明作进一步详细说明,显然,以下所描述的实施例是本发明实施例的一部分,仅用于说明本发明,但不用来限制本发明的范围。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供的实时噪声大数据的声纹识别方法可应用于图1所示的并发处理多个终端应用数据的服务器上。其中,终端可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。服务器可根据图2所示的声纹识别模型架构对获取的环境实时噪声数据进行分析判断,生成对应的声纹识别结果用于服务器后续的研究使用或发送至终端,供终端的使用者查看分析;下述实施例将对本发明的实时噪声大数据的声纹识别方法进行详细说明。
在一个实施例中,如图3所示,提供了一种实时噪声大数据的声纹识别方法,包括以下步骤:
S11、获取环境噪声数据,并生成所述环境噪声数据的对数γ频谱图;其中,环境噪声数据可理解为由用户使用移动噪声采集设备(如手机APP)或其他专用采集环境噪声数据的设备,在检测现场采集的一段连续不间断(可以为10秒或20秒等)的实时噪声音频数据,具体的采集设备和采集时长此处不作限制;
基于环境声音分类采用对数γ频谱特征在分类精度方面比采用对数MEL频谱图表现更好的考虑,本实施例优选将采集到的环境噪声数据数据统一进行对数γ频谱特征提取,生成对数γ频谱图再进行使用;具体地,所述生成所述环境噪声数据的对数γ频谱图的步骤包括:
将所述环境噪声数据进行短时傅立叶变换处理,得到对应的能量谱图;其中,能量谱图是使用的尺寸为23 ms(44.1 kHz的1024个样品)短时傅立叶变换并基于50%重叠的原则提取得到;
计算所述能量谱图的Delta信息,并采用γ型滤波器对所述能量谱图进行滤波处理,得到γ频谱图;其中,得到γ频谱图的过程可理解为将128波段γ型滤波器应用于能量谱图,并将所得的频谱图转换为对数尺度,且为了有效利用有限的数据,进一步将频谱图分为128帧(约1.5帧)重叠50%;
将所述Delta信息和所述γ频谱图串联,得到所述对数γ频谱图;其中,对数γ频谱图 如图4所示为将Delta信息和γ频谱图串联得到的3-D特征,可表示为
Figure 725171DEST_PATH_IMAGE018
S12、将所述对数γ频谱图进行预处理,得到对应的三维对数γ频谱图;其中,预处理可理解为便于后续模型提取声纹特征所进行的频谱图分割处理,具体地,如图5所示,所述将所述对数γ频谱图进行预处理,得到对应的三维对数γ频谱图的步骤包括:
将所述对数γ频谱图按照预设时间间隔进行分割,得到若干个对数γ频谱分割图;其中,预设时间间隔可基于实际采集环境噪声数据的时长,根据实际应用需求进行确定,只需满足小于频谱图尺寸上的总时长即可,此处不作具体限制;
将所述对数γ频谱分割图的分割时序作为第三维次数,并按照第三维次数由小到大的顺序对所述对数γ频谱分割图进行正序排列,得到所述三维对数γ频谱图。
S13、将所述三维对数γ频谱图输入至预先构建的高区分度双重域学习网络模型进行分类预测,得到对应的声纹识别结果;所述高区分度双重域学习网络模型H2DNet(Highdiscrimination Dual-domain Net)包括依次连接的双重域特征提取模块、有效特征融合模块、下采样模块、全连接层和softmax分类器;其中,所述双重域特征提取模块包括并联的高区分度时间结构特征模块(HDT:High Discrimination Time Feature )和高区分度频率特征模块(HDF:High Discrimination Frequency Feature),分别用于提取声谱图的时间结构域特征和频域特征;
本实施例基于串行运算会损坏声谱图信息连续性的考虑,将双重域特征提取模块中分别提取时间结构域和频域的相关特征的两个特征提取模块采用并行运算的模式结合,不仅可以很好的保留声谱图原本的信息特征,使得提取的特征更加准确全面,而且可以提高模型的运算速率,从而达到更好的特征提取效果;原则上,双重域特征提取模块中的时间结构特征模块和频率特征模块可沿用现有的提取方法,但为了保证提取的特征更精准更具有区分度,本实施例优选地,将高区分度时间结构特征模块采用能够自适应地捕捉不同时间尺度的依赖关系,且广泛应用于序列建模的门控循环单元网络(Gated Recurrent Unit,GRU)进行声谱图时间相关性特征学习与提取,且高区分度频率特征模块设计为包括依次连接的输入层、反事实因果注意力学习层和输出层的基于反事实因果注意力的网络模型。
门控循环单元网络(Gated Recurrent Unit, GRU)用更新门(update gate)和复位门(reset gate)两个门限单元来调节单元内部的信息流,且更新门(update gate)决定单元更新其内容的程度,复位门(reset gate)决定遗忘其之前隐状态的程度,没有单独的记忆单元,模型计算效率较高且可以有效节约计算成本;本实施例所使用的门控循环单元网络结构介绍如下:
对于只有单隐藏层的多层感知机而言,设隐藏层的激活函数为
Figure 291281DEST_PATH_IMAGE019
,给定一个小批量 样本
Figure 327370DEST_PATH_IMAGE020
,其中批量大小为
Figure 265108DEST_PATH_IMAGE021
,输入维度为
Figure 386648DEST_PATH_IMAGE022
,则隐藏层的输出
Figure 756449DEST_PATH_IMAGE023
通过下式计 算:
Figure 974941DEST_PATH_IMAGE024
(1)
简单循环神经网络相当于单隐藏层的多层感知机在不同时间序列的关联组合得 到,其网络结构如图6所示。假设在时间步有小批量输入
Figure 771996DEST_PATH_IMAGE025
。换言之,对于
Figure 193881DEST_PATH_IMAGE021
个序列 样本的小批量,
Figure 101794DEST_PATH_IMAGE026
的每一行对应于来自该序列的时间步
Figure 112476DEST_PATH_IMAGE027
处的一个样本。接下来,用
Figure 142748DEST_PATH_IMAGE028
表示时间步
Figure 553395DEST_PATH_IMAGE027
的隐藏变量。与多层感知机不同的是,在这里保存了前一个时间步 的隐藏变量
Figure 327316DEST_PATH_IMAGE029
,并引入了一个新的权重参数
Figure 271132DEST_PATH_IMAGE030
来描述如何在当前时间步中使 用前一个时间步的隐藏变量。具体地说,当前时间步隐藏变量由当前时间步的输入与前一 个时间步的隐藏变量一起计算得出:
Figure 783891DEST_PATH_IMAGE031
(2)
式(2)与式(1)相比多添加了一项
Figure 164056DEST_PATH_IMAGE032
。从相邻时间步的隐藏变量
Figure 679351DEST_PATH_IMAGE033
Figure 477674DEST_PATH_IMAGE029
之间的关系可知,这些变量捕获并保留了序列直到其当前时间步的历史信息,就如当前时 间步下神经网络的状态或记忆,因此这样的隐藏变量被称为隐状态。由于在当前时间步中, 隐状态使用的定义与前一个时间步中使用的定义相同,因此式(2)的计算是循环,于是基于 循环计算的隐状态神经网络被命名为循环神经网络。
对于时间步,输出层的输出类似于多层感知机中的计算:
Figure 787433DEST_PATH_IMAGE034
门控循环单元与普通的循环神经网络之间的关键区别在于后者支持隐状态(hidden state)的门控,这意味着模型有专门的机制来确定应该何时更新隐状态,以及应该何时重置隐状态,具体计算门控循环单元网络中的隐状态结构图如图7所示。
门控循环单元中有重置门(reset gate)和更新门(update gate),输入是由当前时间步的输入和前一时间步的隐状态给出。两个门的输出是由使用sigmoid激活函数的两个全连接层给出。
对于给定的时间步
Figure 592578DEST_PATH_IMAGE027
,假设输入是一个小批量
Figure 708301DEST_PATH_IMAGE035
(样本个数:
Figure 548081DEST_PATH_IMAGE027
,输入个数:
Figure 28741DEST_PATH_IMAGE022
),上一个时间步的隐状态是
Figure 895416DEST_PATH_IMAGE036
(隐藏单元个数:
Figure 486935DEST_PATH_IMAGE037
)。那么,重置门
Figure 446800DEST_PATH_IMAGE038
和 更新门
Figure 160679DEST_PATH_IMAGE039
的计算如下所示:
Figure 940416DEST_PATH_IMAGE040
(3)
Figure 335625DEST_PATH_IMAGE041
(4)
其中
Figure 963046DEST_PATH_IMAGE042
Figure 785509DEST_PATH_IMAGE043
是权重参数,
Figure 52542DEST_PATH_IMAGE044
是 偏置参数。在这里,使用sigmoid函数将输入值转换到区间(0, 1)中。
接下来,将重置门与式(2)中的常规隐状态更新机制集成,得到在时间步t的候选 隐状态(candidate hidden state)
Figure 313759DEST_PATH_IMAGE028
Figure 982638DEST_PATH_IMAGE045
(5)
其中,
Figure 976002DEST_PATH_IMAGE046
Figure 104233DEST_PATH_IMAGE030
是权重参数,
Figure 106824DEST_PATH_IMAGE047
是偏置项,符号
Figure 630209DEST_PATH_IMAGE048
是 Hadamard积(按元素乘积)运算符,且使用tanh非线性激活函数来确保候选隐状态中的值保 持在区间(-1.1)中。
与式(2)相比,式(5)中的
Figure 607523DEST_PATH_IMAGE029
Figure 849149DEST_PATH_IMAGE049
的元素相乘可以减少以往状态的影响。每当重 置门
Figure 389852DEST_PATH_IMAGE049
中的项接近时,恢复一个如式(2)中的普通的循环神经网络。对于重置门
Figure 830060DEST_PATH_IMAGE049
中所有 接0的项,候选隐状态是以
Figure 430806DEST_PATH_IMAGE026
作为输入的多层感知机的结果。因此,任何预先存在的隐状态 都会被重置为默认值。
式(5)计算了候选隐状态,仍然需要结合更新门
Figure 894148DEST_PATH_IMAGE050
的效果。这一步确定新的隐状态
Figure 553056DEST_PATH_IMAGE028
在多大程度上来自旧的状态
Figure 785454DEST_PATH_IMAGE029
和新的候选状态
Figure 557101DEST_PATH_IMAGE051
。更新门
Figure 570056DEST_PATH_IMAGE050
仅需要在
Figure 452562DEST_PATH_IMAGE029
Figure 805046DEST_PATH_IMAGE051
之间进行按元素的凸组合就可以实现目标,即得出了门控循环单元的最终更新公式:
Figure 560643DEST_PATH_IMAGE052
(6)
每当更新门
Figure 998578DEST_PATH_IMAGE050
接近1时,模型就倾向只保留旧状态。此时,来自
Figure 747091DEST_PATH_IMAGE026
的信息基本上被 忽略,从而有效地跳过了依赖链条中的时间步t。相反,当
Figure 954081DEST_PATH_IMAGE050
接近0时,新的隐状态
Figure 67531DEST_PATH_IMAGE033
就会接 近候选隐状态
Figure 304346DEST_PATH_IMAGE033
。这些设计可以帮助处理循环神经网络中的梯度消失问题,并更好地捕获 时间步距离很长的序列的依赖关系。例如,如果整个子序列的所有时间步的更新门都接近 于1,则无论序列的长度如何,在序列起始时间步的旧隐状态都将很容易保留并传递到序列 结束。
本实施例采用的门控循环单元网络结构相对简单,较适用于构建大型网络,不仅能保证提取精准有效时间结构特征,而且能保证特征提取过程中能有效节约计算成本,提高计算效率。
上述高区分度频率特征模块HDF的作用主要在于重点提取声谱图中的有效信息,尽管卷积神经网络可以达到提取特征和判别特征的效果,但是对于一些相似性结构的图像在细粒度的视觉识别任务中效果表现不佳,基于此,本实施例针对声谱图的细粒度图像分类任务优选采用注意力模块(attention module)来定位图像中的某些重要区域,以改善图像分类的精度。
现有注意力机制大多采用注意力模块仅由最终损失函数监督的弱监督方式学习视觉注意力,而这种方法只明确地监督最终预测(如分类任务的类别概率),而忽略了预测与注意力之间的因果关系,且不能区分主要线索和有偏见的线索。例如,如果一个特定类别(公路上汽车的鸣笛声)大多数训练样本总伴随着下雨声,那么注意力模型很可能将下雨声视为一个区分因素。虽然这些有偏差的线索可能也有利于在当前数据集上的分类,但注意力模型应该只关注区别模式,即主要线索。此外,直接从数据中学习可能会导致模型只关注对象的某些属性,而不是所有属性,这可能会限制测试集的泛化能力。即,现有的注意力学习方案是次优的,学习到的注意力有效性不能总是得到保证,注意力可能缺乏识别力、明确的意义和鲁棒性。基于此,本实施例提出了一种超越传统似然最大化的注意力学习方法来减轻数据偏差的影响,采用反事实因果注意力CAL (Counterfactual AttentionLearning)注意力模型,通过比较事实(即学习得到的注意力)和反事实(即未纠正的注意力)对最终预测(即分类分数)的影响来量化注意力的质量,再使用差异最大化以鼓励网络学习更有效的视觉注意力,并减少有偏训练集的影响的方法学习音频数据的频率特征。具体地,高区分度频率特征模块HDF的网络结构如图8所示:
输入层则是将之前处理好的三维对数γ频谱图的依次输入,虽然频谱图是一个三维结构,但是HDF在输出层之前是将一个三维结构的图形分解成多个二维图形进行并行处理的过程。
反事实因果注意力学习CAL(Counterfactual Attention Learning)层,通过比较事实和反事实对最终预测的影响来量化关注注意力的质量,其主要由卷积神经网络结构和注意力机制模型组成,分别学习基本特征映射和“软”注意力特征图。CAL是一个模型十分灵活的框架,可增强注意力学习并减轻数据集偏差的影响,在声谱图细粒度的视觉识别任务有很强的针对性,可以有效增加模型的声纹识别能力。
CAL层也是HDF模块的核心部分,具体结构详细结构如图9中CAL模块所示,分别学习基本特征映射和注意力,给定图像I和对应的大小为H×W×C的CNN特征图X=f(I),其中,H表示高度(Height)、W表示宽度(Width),且C是通道数(Channel),即深度;视觉空间注意力模型M旨在发现图像的区别区域,通过显式地结合物体的结构知识来改进CNN特征图X。视觉空间注意力模型M大致可以分为两类:第一种类型旨在学习“硬”注意力特征图,其中每个注意力可以表示为一个边界框或分割掩码,覆盖了某个感兴趣的区域;第二种类型与“硬”注意力模型不同,更广泛的注意力模型是基于学习“软”注意图,更容易优化。本实施例中重点研究了这组方法,模型采用多头注意力模块,注意力模型的目的是学习物体各部分的空间分布,注意力图可以表示为A∈H×W×N,其中N为注意力数量,且使用注意力模型M,注意力图可以计算为:
Figure 528654DEST_PATH_IMAGE053
(7)
其中,
Figure 855730DEST_PATH_IMAGE054
∈H×W是覆盖某一部分的注意力图,如狗叫声比较高分贝的地方;注意力 模型M采用二维卷积层和ReLU激活函数实现。然后使用注意力图对特征图进行软加权,并通 过全局平均池化操作进行聚合:
Figure 671239DEST_PATH_IMAGE055
(8)
其中,∗表示两个张量的元素相乘,则全局表示Y为:
Figure 83766DEST_PATH_IMAGE056
(9)
式(9)可理解为将
Figure 111765DEST_PATH_IMAGE057
表示连接起来,再对汇总的表示进行归一化(normalize),最 终得到Y。
需要说明的是,与传统的注意力卷积神经网络模型相比,本实施例将使用因果关 系来衡量学习注意力的质量,然后通过鼓励网络产生更多有影响力的注意力图来改进模 型。通过引入因果图,可以通过直接操作几个变量的值来分析因果关系并看到效果,这种操 作在因果推理被称为干预,可以用do(·)表示,通过清除某个变量的所有传入链接并给该 变量分配某个值来执行,例如,在因果图中,do(A=
Figure 371976DEST_PATH_IMAGE013
)意味着要求变量A取
Figure 827228DEST_PATH_IMAGE013
的值,并切断X→ A的联系,以迫使变量不再由其因果父X引起。受因果推理方法的启发,本实施例采用反事实 干预来研究学习到的视觉注意力的质量。反事实干预(A=
Figure 523789DEST_PATH_IMAGE013
)是通过一种假想的干预来改变 假定不同的变量的状态,通过任意的注意力图
Figure 89900DEST_PATH_IMAGE013
来取代已习得的注意力图,并保持特征图X 不变。根据式(8)和式(9),可得到干预后的最终预测结果:
Figure 391568DEST_PATH_IMAGE058
(10)
其中,
Figure 326376DEST_PATH_IMAGE015
是softmax分类器基于反事实干预 图特征
Figure 447916DEST_PATH_IMAGE059
得到的输出结果。
在实际应用中,可以使用随机注意力、统一注意力或反向注意力作为反事实。在衡量习得的注意力质量时,本实施例优选地采用观察到的预测Y (A=A, X=X)和它的反事实选择Y (do(A=̄A),X=X)之间的差异来表示习得的注意力对预测结果的实际影响:
Figure 817717DEST_PATH_IMAGE060
(11)
其中,表示对预测影响的
Figure 973892DEST_PATH_IMAGE012
和γ是反事实注意力的分布,注意力的有效性可 以解释为与错误的注意力相比,这种注意力如何改善最终预测结果。因此,可以用
Figure 833264DEST_PATH_IMAGE012
来 衡量习得注意力的质量。此外,可以将注意力质量作为一种监督信号来明确指导注意力学 习过程,本实施例优选地基于注意力质量设计得到的应用于注意力学习过程中的目标函 数,即反事实因果注意力学习层的损失函数表示为:
Figure 442100DEST_PATH_IMAGE001
(12)
式中,
Figure 350013DEST_PATH_IMAGE004
Figure 908164DEST_PATH_IMAGE005
Figure 876120DEST_PATH_IMAGE006
其中,
Figure 300148DEST_PATH_IMAGE007
表示反事实因果注意力学习层的损失值;
Figure 11752DEST_PATH_IMAGE008
表示分类标签;
Figure 876940DEST_PATH_IMAGE009
Figure 327382DEST_PATH_IMAGE010
均表示交叉熵损失函数;
Figure 707548DEST_PATH_IMAGE011
表示
Figure 222843DEST_PATH_IMAGE012
的第i个分量;
Figure 21166DEST_PATH_IMAGE014
表示softmax分类器基于注意力图A得到的输出 结果的第i个分量;
Figure 330924DEST_PATH_IMAGE061
表示反事实因果注意力学习层得到的第i个注意力图;
通过对式(12)所示的新目标函数的优化,期望达到两方面的目的:
1)注意力模型应尽可能改进基于错误注意力的预测,鼓励注意发现最具鉴别性的区域,避免次优结果;
2)对基于错误注意力的预测进行惩罚,使得分类器更多地基于主线索而不是有偏线索进行决策,减少了有偏训练集的影响。
需要注意的是,在实际操作中,不需要计算式(11)中的期望,在训练过程中,只对每个观察到的注意力抽样一个反事实注意力,也符合随机梯度下降SGD的思想。因此,该方法在推理过程中不会引入明显的额外计算。
输出层是用于将不同并行路线上CAL层得到的有效特征向量图进行特征融合,考 虑到经过CAL层得到的特征向量已经包含稳定的细节,若再采用复杂的融合方式,反而会打 乱之前提取好的特征向量,本实施例优选采用简单的累加求均值方式得到
Figure 198386DEST_PATH_IMAGE062
基于上述优选结构的高区分度时间结构特征模块和高区分度频率特征模块并联即可得到的双重域特征提取模块,实现同时对音频数据的时间结构特征和频率特征进行精准且全面地提取。
本实施例所采用的高区分度双重域学习网络模型可理解为通过预先训练构建得到的稳定模型,其训练过程的数据处理步骤与真实分类应用的步骤相同,下面以分类预测为例对高区分度双重域学习网络模型处理三维对数γ频谱图数据得到分类预测结果的过程进行详细说明。具体地,所述将所述三维对数γ频谱图输入至预先构建的高区分度双重域学习网络模型进行分类预测,得到对应的声纹识别结果的步骤包括:
将所述三维对数γ频谱图输入所述双重域特征提取模块进行特征提取,得到对应 的时间结构特征图和频率特征图;其中,时间结构特征图和频率特征图为声谱图分别输入 到HDT和HDF模块后得到同等维度大小的时间结构特征向量
Figure 251793DEST_PATH_IMAGE063
和频率特征向量
Figure 671666DEST_PATH_IMAGE062
,具体 的获取方式可参见上文双重域特征提取模块结构的介绍,此处不再赘述;
将所述时间结构特征图和所述频率特征图输入所述有效特征融合模块(EFF)进行 特征融合,得到时频融合特征;其中,时频融合特征可理解为对上述特征向量
Figure 152326DEST_PATH_IMAGE063
和特征 向量
Figure 710346DEST_PATH_IMAGE062
经过图10所示的有效特征融合模块处理得到的特征;本实施例所使用的有效特征融 合模块并没有简单使用累加求和、累乘,平均等传统的特征融合方法,而是受多视角图像特 征融合深度学习方法的启发,采用了一种注意机制和相似性矩阵的特征融合方法,让模型 可以获取两个特征向量的相似性矩阵,并运用卷积神经网络进行反馈传播分别得到两个特 征向量的权重后,将特征向量
Figure 364182DEST_PATH_IMAGE063
Figure 58468DEST_PATH_IMAGE062
分别乘以各自的权重向量
Figure 975608DEST_PATH_IMAGE064
Figure 302816DEST_PATH_IMAGE065
累加得到融合后 的特征向量
Figure 698025DEST_PATH_IMAGE066
。具体地,所述将所述时间结构特征图和所述频率特征图输入所述有效特 征融合模块进行特征融合,得到时频融合特征的步骤包括:
根据所述时间结构特征图和所述频率特征图,得到特征相似矩阵;其中,特征相似 矩阵可理解为表示融合两个特征图
Figure 512397DEST_PATH_IMAGE063
Figure 662756DEST_PATH_IMAGE062
的矩阵,表示为:
Figure 929789DEST_PATH_IMAGE067
(13)
将所述特征相似矩阵分别输入第一卷积层和第二卷积层进行卷积处理,得到对应的时间权重矩阵和频率权重矩阵;其中,第一卷积层和第二卷积层均为二维卷积层,而对应的卷积核尺寸不同;对应得到的时间权重矩阵和频率权重矩阵可表示为:
Figure 128689DEST_PATH_IMAGE068
(14)
Figure 843573DEST_PATH_IMAGE069
(15)
根据所述时间权重矩阵和所述频率权重矩阵对所述时间结构特征图和所述频率特征图进行融合,得到所述时频融合特征;其中,时频融合特征表示为:
Figure 836937DEST_PATH_IMAGE070
(16)
式中,
Figure 653583DEST_PATH_IMAGE071
(17)
Figure 390595DEST_PATH_IMAGE072
(18)
基于式(17)和(18)可知,两个加权矩阵
Figure 913980DEST_PATH_IMAGE073
Figure 422453DEST_PATH_IMAGE074
可以灵活地增强了一个特征点的 贡献,而压缩另一个特征点的贡献。卷积神经网络不共享权值,通过将二维特征映射与相应 的权值矩阵相乘分别的得到
Figure 664079DEST_PATH_IMAGE075
Figure 939202DEST_PATH_IMAGE076
,最后将两则得到求和得到来实现特征融合。比如, 两个不同的音频声谱图的图像相似,则H2Det网络则可以加强声谱图的时间结构特征的权 重,从而通过时间结构特征的角度更易区分两个不同类别声谱图的差异性,避免了单一特 征提取的识别困难。
本实施例的特征融合方式根据不同的特征向量之间的相关性进行调整,是不断进行动态学习的过程,能够让模型更加有效得关注到声谱图中的有语义区分度的特征向量,从而提高模型的鲁棒性;此外,该特征融合方式可广泛运用于一些深度学习特征融合,有利于模型根据权重结果进行反向传播,从而自动调整模型权重,而不是一开始就固定好参数,并且这样的融合方式没有增强大量的计算量损失,相比于其他动态的融合方式更为简单,有利于提高计算效率。
将所述时频融合特征依次输入所述下采样模块、全连接层(FC)和softmax分类器进行处理,得到所述声纹识别结果;其中,下采样模块可采用单个简单的多层感知机模型MLP,其对时频融合特征下采样得到的特征直接输入一个全连接层,全连接层的作用是将多维度的特征向量拉取到同一个维度,得到一个一维的特征向量,最后将得到的一维特征向量输入到softmax激活函数,最终得到分类结果概率值分布,即声纹识别结果。
本申请实施例通过对获取的环境噪声数据进行处理得到用于分类预测的三维对数γ频谱图后,将对其进行预处理得到的三维对数γ频谱图输入至预先构建的包括依次连接的双重域特征提取模块、有效特征融合模块、下采样模块、全连接层和softmax分类器的高区分度双重域学习网络模型进行分类预测,得到对应的声纹识别结果的技术方案,不仅通过采用更加全面有效的提取声谱图中频率特征和时间结构特征的双重域特征提取模块增强声纹识别功能,而且通过采用频率特征和时间结构特征并行提取的方法提升模型提取特征的运行速率的同时,还通过引入CAL技术,从因果关系的角度出发,通过比较事实(即习得的注意力)和反事实(即未纠正的注意力)对最终预测(即分类分数)的影响来量化注意力的质量,赋能AI模型学会如何区分主要线索和有偏见的线索,进而达到提取高质量的视觉上下文线索的目的,提高城市噪音音频分类模型的鲁棒性和精准性。
在一个实施例中,如图11所示,提供了一种实时噪声大数据的声纹识别***,所述***包括:
数据获取模块1,用于取环境噪声数据,并生成所述环境噪声数据的对数γ频谱图;
预处理模块2,用于将所述对数γ频谱图进行预处理,得到对应的三维对数γ频谱图;
声纹识别模块3,用于将所述三维对数γ频谱图输入至预先构建的高区分度双重域学习网络模型进行分类预测,得到对应的声纹识别结果;所述高区分度双重域学习网络模型包括依次连接的双重域特征提取模块、有效特征融合模块、下采样模块、全连接层和softmax分类器。
关于实时噪声大数据的声纹识别***的具体限定可以参见上文中对于实时噪声大数据的声纹识别方法的限定,在此不再赘述。上述实时噪声大数据的声纹识别***中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
图12示出一个实施例中计算机设备的内部结构图,该计算机设备具体可以是终端或服务器。如图12所示,该计算机设备包括通过***总线连接的处理器、存储器、网络接口、显示器和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***和计算机程序。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现实时噪声大数据的声纹识别方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域普通技术人员可以理解,图12中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述方法的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述方法的步骤。
综上,本发明实施例提供的一种实时噪声大数据的声纹识别方法、***、计算机设备及存储介质,其实时噪声大数据的声纹识别方法实现了在获取环境噪声数据后,生成对应的对数γ频谱图,并将对其进行预处理得到的三维对数γ频谱图输入至预先构建的包括依次连接的双重域特征提取模块、有效特征融合模块、下采样模块、全连接层和softmax分类器的高区分度双重域学习网络模型进行分类预测,得到对应的声纹识别结果的技术方案,该方法提出一种基于时间结构域和频域的高区分度双重域学习网络来专注于语义相关、突出帧以及音频数据时间结构特征等内容,不仅通过提取更加全面有效的的双重域特征来增强声纹识别功能,而且通过采用频率特征和时间结构特征并行提取的方法提升模型提取特征的运行速率的同时,还通过引入CAL技术,从因果关系的角度出发,通过比较事实和反事实对最终预测的影响来量化注意力的质量,赋能AI模型学会如何区分主要线索和有偏见的线索,进而达到提取高质量的视觉上下文线索的目的,以及采用相似性矩阵与注意力机制结合的方式进行特征融合,提高城市噪音音频分类模型的鲁棒性、运行效率和精准性。
本说明书中的各个实施例均采用递进的方式描述,各个实施例直接相同或相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于***实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。需要说明的是,上述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种优选实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和替换,这些改进和替换也应视为本申请的保护范围。因此,本申请专利的保护范围应以所述权利要求的保护范围为准。

Claims (9)

1.一种实时噪声大数据的声纹识别方法,其特征在于,所述方法包括以下步骤:
获取环境噪声数据,并生成所述环境噪声数据的对数γ频谱图;
将所述对数γ频谱图进行预处理,得到对应的三维对数γ频谱图;
将所述三维对数γ频谱图输入至预先构建的高区分度双重域学习网络模型进行分类预测,得到对应的声纹识别结果;所述高区分度双重域学习网络模型包括依次连接的双重域特征提取模块、有效特征融合模块、下采样模块、全连接层和softmax分类器;
其中,所述双重域特征提取模块包括并联的高区分度时间结构特征模块和高区分度频率特征模块;
所述高区分度时间结构特征模块为门控循环单元网络;
所述高区分度频率特征模块包括依次连接的输入层、反事实因果注意力学习层和输出层。
2.如权利要求1所述的实时噪声大数据的声纹识别方法,其特征在于,所述生成所述环境噪声数据的对数γ频谱图的步骤包括:
将所述环境噪声数据进行短时傅立叶变换处理,得到对应的能量谱图;
计算所述能量谱图的Delta信息,并采用γ型滤波器对所述能量谱图进行滤波处理,得到γ频谱图;
将所述Delta信息和所述γ频谱图串联,得到所述对数γ频谱图。
3.如权利要求1所述的实时噪声大数据的声纹识别方法,其特征在于,所述将所述对数γ频谱图进行预处理,得到对应的三维对数γ频谱图的步骤包括:
将所述对数γ频谱图按照预设时间间隔进行分割,得到若干个对数γ频谱分割图;
将所述对数γ频谱分割图的分割时序作为第三维次数,并按照第三维次数由小到大的顺序对所述对数γ频谱分割图进行正序排列,得到所述三维对数γ频谱图。
4.如权利要求1所述的实时噪声大数据的声纹识别方法,其特征在于,所述反事实因果注意力学习层的损失函数表示为:
Figure 301876DEST_PATH_IMAGE001
式中,
Figure 447425DEST_PATH_IMAGE002
Figure 460380DEST_PATH_IMAGE003
Figure 155935DEST_PATH_IMAGE004
Figure 885250DEST_PATH_IMAGE005
Figure 890115DEST_PATH_IMAGE006
其中,
Figure 203416DEST_PATH_IMAGE007
表示反事实因果注意力学习层的损失值;
Figure 935617DEST_PATH_IMAGE008
表示分类标签;
Figure 470504DEST_PATH_IMAGE009
Figure 397003DEST_PATH_IMAGE010
均 表示交叉熵损失函数;
Figure 384550DEST_PATH_IMAGE011
表示
Figure 923372DEST_PATH_IMAGE012
的第i个分量;A表示反事实因果注意力学习层 得到的注意力图;
Figure 47186DEST_PATH_IMAGE013
表示反事实因果注意力学习层基于反事实干预得到的注意力图;
Figure 144586DEST_PATH_IMAGE014
表示softmax分类器基于注意力图A的输出结果的 第i个分量;
Figure 993331DEST_PATH_IMAGE015
表示softmax分类器基于注意力图
Figure 834379DEST_PATH_IMAGE013
的输 出结果;
Figure 78279DEST_PATH_IMAGE016
表示因果推理干预;
Figure 582466DEST_PATH_IMAGE017
表示三维对数γ频谱图;X表示频率特征图;Y(A=A,X=X) 表示使用A原值的注意力计算结果;Y(do(A=
Figure 544606DEST_PATH_IMAGE013
),X=X)表示反事实选择时,用
Figure 923766DEST_PATH_IMAGE013
代替A后的注 意力计算结果。
5.如权利要求1所述的实时噪声大数据的声纹识别方法,其特征在于,所述将所述三维对数γ频谱图输入至预先构建的高区分度双重域学习网络模型进行分类预测,得到对应的声纹识别结果的步骤包括:
将所述三维对数γ频谱图输入所述双重域特征提取模块进行特征提取,得到对应的时间结构特征图和频率特征图;
将所述时间结构特征图和所述频率特征图输入所述有效特征融合模块进行特征融合,得到时频融合特征;
将所述时频融合特征依次输入所述下采样模块、全连接层和softmax分类器进行处理,得到所述声纹识别结果。
6.如权利要求5所述的实时噪声大数据的声纹识别方法,其特征在于,所述将所述时间结构特征图和所述频率特征图输入所述有效特征融合模块进行特征融合,得到时频融合特征的步骤包括:
根据所述时间结构特征图和所述频率特征图,得到特征相似矩阵;
将所述特征相似矩阵分别输入第一卷积层和第二卷积层进行卷积处理,得到对应的时间权重矩阵和频率权重矩阵;
根据所述时间权重矩阵和所述频率权重矩阵对所述时间结构特征图和所述频率特征图进行融合,得到所述时频融合特征。
7.一种实时噪声大数据的声纹识别***,其特征在于,能够执行如权利要求1所述的实时噪声大数据的声纹识别方法,所述***包括:
数据获取模块,用于取环境噪声数据,并生成所述环境噪声数据的对数γ频谱图;
预处理模块,用于将所述对数γ频谱图进行预处理,得到对应的三维对数γ频谱图;
声纹识别模块,用于将所述三维对数γ频谱图输入至预先构建的高区分度双重域学习网络模型进行分类预测,得到对应的声纹识别结果;所述高区分度双重域学习网络模型包括依次连接的双重域特征提取模块、有效特征融合模块、下采样模块、全连接层和softmax分类器。
8.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一所述方法的步骤。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一所述方法的步骤。
CN202211314627.5A 2022-10-26 2022-10-26 一种实时噪声大数据的声纹识别方法、***、设备和介质 Active CN115376518B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211314627.5A CN115376518B (zh) 2022-10-26 2022-10-26 一种实时噪声大数据的声纹识别方法、***、设备和介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211314627.5A CN115376518B (zh) 2022-10-26 2022-10-26 一种实时噪声大数据的声纹识别方法、***、设备和介质

Publications (2)

Publication Number Publication Date
CN115376518A CN115376518A (zh) 2022-11-22
CN115376518B true CN115376518B (zh) 2023-01-20

Family

ID=84072850

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211314627.5A Active CN115376518B (zh) 2022-10-26 2022-10-26 一种实时噪声大数据的声纹识别方法、***、设备和介质

Country Status (1)

Country Link
CN (1) CN115376518B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116164751B (zh) * 2023-02-21 2024-04-16 浙江德清知路导航科技有限公司 一种室内音频指纹定位方法、***、介质、设备及终端
CN116206612A (zh) * 2023-03-02 2023-06-02 中国科学院半导体研究所 鸟类声音识别方法、模型训练方法、装置、电子设备
CN115954019B (zh) * 2023-03-03 2023-05-30 广州声博士声学技术有限公司 一种融合自注意力和卷积操作的环境噪声识别方法及***

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107610692B (zh) * 2017-09-22 2020-07-21 杭州电子科技大学 基于神经网络堆叠自编码器多特征融合的声音识别方法
CN109523994A (zh) * 2018-11-13 2019-03-26 四川大学 一种基于胶囊神经网络的多任务语音分类方法
CN109766929A (zh) * 2018-12-24 2019-05-17 重庆第二师范学院 一种基于svm的音频分类方法及***
CN110390952B (zh) * 2019-06-21 2021-10-22 江南大学 基于双特征2-DenseNet并联的城市声音事件分类方法
CN116997962A (zh) * 2020-11-30 2023-11-03 杜比国际公司 基于卷积神经网络的鲁棒侵入式感知音频质量评估
CN113643723B (zh) * 2021-06-29 2023-07-25 重庆邮电大学 一种基于注意力CNN Bi-GRU融合视觉信息的语音情感识别方法
CN113643724B (zh) * 2021-07-06 2023-04-28 中国科学院声学研究所南海研究站 一种基于时-频双分支特征的猕猴情绪识别方法及***
CN114913872A (zh) * 2022-05-23 2022-08-16 扬州大学 基于卷积神经网络的时频双域音频分类方法与***

Also Published As

Publication number Publication date
CN115376518A (zh) 2022-11-22

Similar Documents

Publication Publication Date Title
CN115376518B (zh) 一种实时噪声大数据的声纹识别方法、***、设备和介质
CN110832499B (zh) 通过稀疏时间池化网络的弱监督动作定位
Li et al. A hybrid approach for forecasting ship motion using CNN–GRU–AM and GCWOA
US20210012198A1 (en) Method for training deep neural network and apparatus
KR102213013B1 (ko) 신경망을 이용한 주파수 기반 오디오 분석
US11501161B2 (en) Method to explain factors influencing AI predictions with deep neural networks
CN112784778B (zh) 生成模型并识别年龄和性别的方法、装置、设备和介质
CN116171473A (zh) 用于视听事件定位的双模态关系网络
CN114787844A (zh) 模型训练方法、视频处理方法、装置、存储介质及电子设备
CN109583367A (zh) 图像文本行检测方法及装置、存储介质和电子设备
CN112420125A (zh) 分子属性预测方法、装置、智能设备和终端
CN115131604A (zh) 一种多标签图像分类方法、装置、电子设备及存储介质
CN112529149A (zh) 一种数据处理方法及相关装置
CN115238909A (zh) 一种基于联邦学习的数据价值评估方法及其相关设备
WO2023050143A1 (zh) 一种推荐模型训练方法及装置
CN114008666A (zh) 动态图像分辨率评估
Ma et al. Temporal pyramid recurrent neural network
CN110414562B (zh) X光片的分类方法、装置、终端及存储介质
CN116703466A (zh) 基于改进灰狼算法的***访问量预测方法及其相关设备
CN116910357A (zh) 一种数据处理方法及相关装置
CN116204709A (zh) 一种数据处理方法及相关装置
CN115795025A (zh) 一种摘要生成方法及其相关设备
CN113010687B (zh) 一种习题标签预测方法、装置、存储介质以及计算机设备
CN117063208A (zh) 无监督多模型联合推理***和方法
CN113010774A (zh) 一种基于动态深度注意力模型的点击率预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant