CN113707158A - 一种基于VGGish迁移学习网络的电网危害鸟种鸣声识别方法 - Google Patents

一种基于VGGish迁移学习网络的电网危害鸟种鸣声识别方法 Download PDF

Info

Publication number
CN113707158A
CN113707158A CN202110878305.2A CN202110878305A CN113707158A CN 113707158 A CN113707158 A CN 113707158A CN 202110878305 A CN202110878305 A CN 202110878305A CN 113707158 A CN113707158 A CN 113707158A
Authority
CN
China
Prior art keywords
bird
vggish
network
singing
spectrogram
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110878305.2A
Other languages
English (en)
Inventor
邱志斌
王海祥
廖才波
卢祖文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanchang University
Original Assignee
Nanchang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanchang University filed Critical Nanchang University
Priority to CN202110878305.2A priority Critical patent/CN113707158A/zh
Publication of CN113707158A publication Critical patent/CN113707158A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/26Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/20Pattern transformations or operations aimed at increasing system robustness, e.g. against channel noise or different working conditions
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/45Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • G06F2218/02Preprocessing
    • G06F2218/04Denoising
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • G06F2218/08Feature extraction

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Software Systems (AREA)
  • Evolutionary Biology (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Auxiliary Devices For Music (AREA)

Abstract

本发明公开了一种基于VGGish迁移学习网络的电网危害鸟种鸣声识别方法。该方法首先根据历史涉鸟故障的鸟种信息及电网周边鸟种调查结果建立电网危害鸟种音频库,然后对鸟鸣信号进行分帧、加窗、深度学习降噪和剪裁等预处理,计算鸟鸣信号语谱图,映射到64阶Mel滤波器组中得到Mel频谱图,把Mel频谱图作为网络的输入。针对因样本数量不足而导致传统鸟鸣识别模型泛化能力弱的问题,采用迁移学习的方法,利用在AudioSet数据集上预训练的VGGish网络提取128维鸟鸣VGGish特征,并通过主成分分析法对特征进行降维,最后利用分类网络对迁移特征进行识别。本发明可以有效的识别出不同的鸟种,有助于实现电网渉鸟故障的精准化防治。

Description

一种基于VGGish迁移学习网络的电网危害鸟种鸣声识别方法
技术领域
本发明涉及输电线路领域,具体涉及一种基于VGGish迁移学习网络的电网危害鸟种鸣声识别方法。
背景技术
电网周围经常活动的鸟类种类繁多,不同的鸟类有不同的习性,故造成的故障类型也不同,涉鸟故障主要包括鸟粪类、鸟巢类、鸟啄类和鸟体短接类四种类型。为确保有效防范和控制因鸟类活动引发的电网故障跳闸,需要根据鸟的不同种类以及涉鸟故障类型做出相应的防治措施,但因缺少必要的识鸟手段,而且电网运维人员对电网周围活动的鸟类知识又极度匮乏,导致涉鸟故障的精准化防治难以实现,因此有必要对电网涉鸟故障相关鸟种进行智能识别。
鸟种识别常用的方法有图像识别和鸟鸣识别。图像识别利用鸟类的形状、颜色和纹理等特征对鸟类进行识别,但存在对运动中的鸟类和夜晚活动的鸟类识别效果不理想的问题。鸟鸣识别以鸟鸣信号作为分析对象,利用不同鸟类鸣叫声的差异性进行分类。由于传统特征参数维数较低,对鸟鸣特征的表达能力不足,造成传统鸟鸣识别算法只能对较少种类的鸟种进行识别。随着计算机视觉技术的发展,通过把音频信号转化为时频谱图的方法,实现鸟鸣信号的可视化,并以时频谱图为特征结合卷积神经网络对鸟鸣信号进行识别,但训练鸟鸣识别的卷积神经网络模型需要大量鸟类声音样本,由于获取电网危害鸟种鸟鸣信号较为困难,导致识别效果不理想。
发明内容
针对现有技术存在的问题,本发明的目的在于提供一种基于VGGish迁移学习网络的电网危害鸟种鸣声识别方法,提高电网危害鸟种鸟鸣信号的识别准确率,可为电网运维人员进行涉鸟故障防治提供参考。
为达到此发明目的,本发明采用以下技术方案,包括如下步骤:
一种基于VGGish迁移学习网络的电网危害鸟种鸣声识别方法,包括如下步骤:
S1:根据历史涉鸟故障的鸟种信息及电网周边鸟种调查结果建立电网危害鸟种音频样本库;
S2:对音频进行预处理,利用深度学习对鸟鸣音频进行降噪,深度学习降噪是使用含噪音鸟鸣信号和纯净鸟鸣信号对卷积神经网络进行训练,得到鸟鸣深度学习降噪模型,利用降噪模型对鸟鸣信号中的噪音进行滤除;
S3:计算鸟鸣信号语谱图并获取其Mel频谱图,以Mel频谱图作为网络的输入,对在AudioSet数据集上预训练的VGGish模型进行重新训练,对网络权重进行微调,得到针对于鸟鸣的VGGish特征提取网络,利用该网络提取出能够高度概括鸟鸣信息的鸟鸣VGGish特征;
S4:通过主成分分析法对鸟鸣VGGish特征进行降维,将高维特征映射到低维度,用主成分对鸟鸣VGGish特征重新描述,减少特征的相关性,降低冗余特征干扰;
S5:将特征降维后的鸟鸣VGGish特征按照一定比例划分为训练集、测试集和验证集,利用训练集训练识别网络,利用验证集对网络参数进行调整,得到VGGish特征识别模型,利用测试集对识别网络进行测试,输出识别结果。
进一步地,S2中包含归一化、分帧、加窗和快速傅里叶变换等预处理。
进一步地,S2中利用深度学习进行降噪处理,通过时频掩蔽、频谱映射和信号近似的方法得到降噪后的鸟鸣信号频谱特征,进一步对网络参数进行调整,得到降噪网络模型。
进一步地,S3中计算每帧信号能量谱密度,用横轴表示时间,纵轴表示频率,颜色深浅表示能量谱密度大小,生成鸟鸣语谱图,将语谱图映射到64阶Mel滤波器组中,生成基于人耳听觉机理的Mel频谱图;
进一步地,S5中VGGish特征识别网络包含支持向量机、卷积神经网络和长短期记忆网络。
本发明的有益效果是:
本发明提供的一种基于VGGish迁移学习网络的电网危害鸟种鸣声识别方法,克服了因样本数量不足而导致传统鸟鸣识别模型泛化能力弱的问题,基于迁移学习的思想,提取高度概括鸟鸣信息的128维VGGish特征,结合分类网络能够取得优异的效果,可以有效的识别出不同的鸟种,有助于实现电网涉鸟故障的精准化防治。
附图说明
附图1是本发明中的一种基于VGGish迁移学习网络的电网危害鸟种鸣声识别方法流程图;
附图2是本发明实施例中的鸟鸣信号深度学习算法降噪效果对比图;
附图3是本发明实施例中鸟鸣信号Mel频谱图;
附图4是本发明实施例中VGGish迁移学习网络结构图;
附图5是本发明实施例中鸟鸣信号VGGish特征;
附图6是本发明实施例中鸟鸣信号特征降维后VGGish特征;
附图7是本发明实施例中38种鸟鸣信号识别结果。
具体实施方式
下面结合实施例对本发明做进一步的描述,有必要在此指出的是以下实施例只是用于对本发明进行进一步的说明,不能理解为对本发明保护范围的限制,该领域的技术熟练人员根据上述发明内容所做出的一些非本质的改进和调整,仍属于本发明的保护范围。
以下通过对电网故障典型鸟种的鸣声信号预处理、VGGish特征提取和分类识别进行详细阐述,其流程图如图1所示。包括以下步骤:
S1:首先根据历史涉鸟故障的鸟种信息及电网周边鸟种调查结果,挑选电网高危鸟种18种、微害鸟种18种和无危害鸟种2种,共计38种,收集相关鸟种音频,建立鸟鸣音频库,高危和微害鸟种名称及样本数如表1。
表1
Figure BDA0003191031290000031
Figure BDA0003191031290000041
S2:利用大量与电网故障相关鸟种带噪鸟鸣信号和不含噪音鸟鸣信号训练卷积神经网络,得到鸟鸣降噪网络模型,利用该模型对38种鸟鸣信号进行降噪处理,典型鸟种音频信号降噪前后对比如图2,(a)-(f)分别为鹗、喜鹊、红隼、凤头麦鸡、苍鹭、大杜鹃的音频信号降噪前后对比。
S3:语谱图的绘制过程包括分帧、加窗、快速傅里叶变换、计算能量谱密度和语谱图绘制。鸟鸣信号以20ms时长进行分帧,使用连续Hanning窗进行加窗处理,然后计算能量谱密度,计算方法为
Ei(k)=[X′i(k)]2 (1)
其中,X′i(k)表示降噪后鸟鸣频域信号。通过公式(1)计算每一帧鸟鸣信号的能量谱密度,根据计算数值大小进行着色,生成对应的语谱图,然后把每帧对应生成的语谱图以10ms帧移进行叠加,得到完整的鸟鸣信号语谱图。
S4:Mel频谱图是一种基于人耳听觉特性的频谱图像。由于语谱图计算过程中所用的是实际频率,导致语谱图在频域区分度不高,而且容易受到掩蔽效应的影响。为减少掩蔽效应并提高频域区分度,设置一组基于人耳听觉机理的滤波器组,把语谱图中的实际频率转化为基于人耳听觉的感知频率,这组滤波器称为Mel滤波器组,Mel滤波器组表达式为
Figure BDA0003191031290000042
式中,Hm(k)为三角滤波器的频率响应,m表示第m个滤波器,f(m)为三角滤波器的中心频率,三角滤波器的中心频率定义为:
Figure BDA0003191031290000043
式中,fl为滤波器的最低频率;fh为滤波器的最高频率;N为快速傅里叶变换的长度;fs为音频采样频率;
Figure BDA0003191031290000044
为Fmel的逆函数,Fmel和实际频率的关系为
Figure BDA0003191031290000051
设置一个由64个滤波器组成的Mel滤波器组,将语谱图中实际频率映射到Mel滤波器组上,生成Mel频谱图。生成的Mel频谱图以0.96s时长进行分割,以每帧时长10ms进行重新组帧,帧与帧之间无帧重叠,共计96帧,即生成的每张Mel频谱图大小为96×64,典型鸟种Mel频谱图如图3所示,(a)-(f)分别为鹗、喜鹊、红隼、凤头麦鸡、苍鹭、大杜鹃的Mel频谱图。
S5:VGGish迁移学习网络是在AudioSet数据集上训练的类VGG模型。网络的输入大小更改为96×64×1,而且删除了最后一组卷积和最大池化层,网络由4组卷积,4个池化层,8次ReLU,3个全连接层组成。卷积过程卷积核大小均为3×3,步长为1,经过卷积后输入和输出大小保持不变,通道数增大。池化过程池化核大小为2×2,步长为2,池化后输出变为输入大小1/2,深度不变。VGGish的最后一个全连接层大小也由1000更改为128,充当嵌入层,最终输出128维的VGGish特征,网络结构如图4所示。把鸟鸣信号生成的大小为96×64×1的Mel频谱图作为VGGish迁移学习网络的输入,训练网络参数并提取128维鸟鸣VGGish特征,网络输出格式为[Num,128],其中,Num表示为
Figure BDA0003191031290000052
其中,0.96表示每张Mel频谱图时长,典型鸟种VGGish特征如图5所示,(a)-(f)分别为鹗、喜鹊、红隼、凤头麦鸡、苍鹭、大杜鹃的VGGish特征。
S6:由于鸟鸣信号生成的VGGish特征存在许多零值的单个特征,并不包含有用信息,故可以利用主成分分析法对生成的特征进行特征降维,典型鸟种特征降维后VGGish特征如图6所示,(a)-(f)分别为鹗、喜鹊、红隼、凤头麦鸡、苍鹭、大杜鹃的特征降维后VGGish特征。
S7:提取鸟类音频VGGish特征后,可以作为其他识别网络的输入特征,利用卷积神经网络、长短期记忆网络和支持向量机进行识别,也可以直接连接softmax层直接进行分类。
S8:按照训练集、验证集和测试集比例6:2:2划分数据集,利用鸟类音频数据库对VGGish迁移学习网络重新训练,38种鸟种测试集音频总体识别正确率达94.43%,38种鸟鸣信号识别结果如图7所示。
虽然以上结合附图描述了本发明的具体实施方式,但是本领域普通技术人员应当理解,这些仅是举例说明,可以对这些实施方式做出多种变形或修改,而不背离本发明的原理和实质。本发明的范围仅由所附权利要求书限定。

Claims (4)

1.一种基于VGGish迁移学习网络的电网危害鸟种鸣声识别方法,其特征在于;包括如下步骤:
S1:根据历史涉鸟故障的鸟种信息及电网周边鸟种调查结果建立电网危害鸟种音频样本库;
S2:对音频进行预处理,利用深度学习对鸟鸣音频进行降噪,深度学习降噪是使用含噪音鸟鸣信号和纯净鸟鸣信号对卷积神经网络进行训练,得到鸟鸣深度学习降噪模型,利用降噪模型对鸟鸣信号中的噪音进行滤除;
S3:计算鸟鸣信号语谱图并获取其Mel频谱图,以Mel频谱图作为网络的输入,对在AudioSet数据集上预训练的VGGish模型进行重新训练,对网络权重进行微调,得到针对于鸟鸣的VGGish特征提取网络,利用该网络提取出能够高度概括鸟鸣信息的鸟鸣VGGish特征;
S4:通过主成分分析法对鸟鸣VGGish特征进行降维,将高维特征映射到低维度,用主成分对鸟鸣VGGish特征重新描述,减少特征的相关性,降低冗余特征干扰;
S5:将特征降维后的鸟鸣VGGish特征按照一定比例划分为训练集、测试集和验证集,利用训练集训练识别网络,利用验证集对网络参数进行调整,得到VGGish特征识别模型,利用测试集对识别网络进行测试,输出识别结果。
2.如权利要求1所述的一种基于VGGish迁移学习网络的电网危害鸟种鸣声识别方法,其特征在于:所述S2中对鸟鸣信号进行归一化、分帧、加窗和快速傅里叶变换预处理。
3.如权利要求1所述的一种基于VGGish迁移学习网络的电网危害鸟种鸣声识别方法,其特征在于:所述S3中计算每帧信号能量谱密度,用横轴表示时间,纵轴表示频率,颜色深浅表示能量谱密度大小,生成鸟鸣语谱图,将语谱图映射到64阶Mel滤波器组中,生成基于人耳听觉机理的Mel频谱图。
4.如权利要求1所述的一种基于VGGish迁移学习网络的电网危害鸟种鸣声识别方法,其特征在于:所述S5中识别网络包含支持向量机、卷积神经网络和长短期记忆网络。
CN202110878305.2A 2021-08-02 2021-08-02 一种基于VGGish迁移学习网络的电网危害鸟种鸣声识别方法 Pending CN113707158A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110878305.2A CN113707158A (zh) 2021-08-02 2021-08-02 一种基于VGGish迁移学习网络的电网危害鸟种鸣声识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110878305.2A CN113707158A (zh) 2021-08-02 2021-08-02 一种基于VGGish迁移学习网络的电网危害鸟种鸣声识别方法

Publications (1)

Publication Number Publication Date
CN113707158A true CN113707158A (zh) 2021-11-26

Family

ID=78651107

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110878305.2A Pending CN113707158A (zh) 2021-08-02 2021-08-02 一种基于VGGish迁移学习网络的电网危害鸟种鸣声识别方法

Country Status (1)

Country Link
CN (1) CN113707158A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114067368A (zh) * 2022-01-17 2022-02-18 国网江西省电力有限公司电力科学研究院 基于深度卷积特征的电网危害鸟种分类识别方法
CN114863937A (zh) * 2022-05-17 2022-08-05 武汉工程大学 基于深度迁移学习与XGBoost的混合鸟鸣识别方法
CN117238299A (zh) * 2023-11-14 2023-12-15 国网山东省电力公司电力科学研究院 输电线路鸟类声音识别模型优化方法、***、介质及设备
CN117727309A (zh) * 2024-02-18 2024-03-19 百鸟数据科技(北京)有限责任公司 基于tdnn结构的鸟鸣物种自动识别方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107369451A (zh) * 2017-07-18 2017-11-21 北京市计算中心 一种辅助鸟类繁殖期的物候研究的鸟类声音识别方法
CN109117732A (zh) * 2018-07-16 2019-01-01 国网江西省电力有限公司电力科学研究院 一种输电线路涉鸟故障鸟种图音识别及防治方法
CN110246504A (zh) * 2019-05-20 2019-09-17 平安科技(深圳)有限公司 鸟类声音识别方法、装置、计算机设备和存储介质
CN111833895A (zh) * 2019-04-23 2020-10-27 北京京东尚科信息技术有限公司 音频信号处理方法、装置、计算机设备和介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107369451A (zh) * 2017-07-18 2017-11-21 北京市计算中心 一种辅助鸟类繁殖期的物候研究的鸟类声音识别方法
CN109117732A (zh) * 2018-07-16 2019-01-01 国网江西省电力有限公司电力科学研究院 一种输电线路涉鸟故障鸟种图音识别及防治方法
CN111833895A (zh) * 2019-04-23 2020-10-27 北京京东尚科信息技术有限公司 音频信号处理方法、装置、计算机设备和介质
CN110246504A (zh) * 2019-05-20 2019-09-17 平安科技(深圳)有限公司 鸟类声音识别方法、装置、计算机设备和存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
SRUTHI KURADA ET AL.: "Poster:VGGish Embeddings Based Audio Classifiers to Improve Parkinson’s Disease Diagnosis", 2020 IEEE/ACM INTERNATIONAL CONFERENCE ON CONNECTED HEALTH:APPLICATION,SYSTEMS AND ENGINEERING TECHNOLOGY(CHASE), pages 54 - 10 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114067368A (zh) * 2022-01-17 2022-02-18 国网江西省电力有限公司电力科学研究院 基于深度卷积特征的电网危害鸟种分类识别方法
CN114863937A (zh) * 2022-05-17 2022-08-05 武汉工程大学 基于深度迁移学习与XGBoost的混合鸟鸣识别方法
CN117238299A (zh) * 2023-11-14 2023-12-15 国网山东省电力公司电力科学研究院 输电线路鸟类声音识别模型优化方法、***、介质及设备
CN117238299B (zh) * 2023-11-14 2024-01-30 国网山东省电力公司电力科学研究院 输电线路鸟类声音识别模型优化方法、***、介质及设备
CN117727309A (zh) * 2024-02-18 2024-03-19 百鸟数据科技(北京)有限责任公司 基于tdnn结构的鸟鸣物种自动识别方法
CN117727309B (zh) * 2024-02-18 2024-04-26 百鸟数据科技(北京)有限责任公司 基于tdnn结构的鸟鸣物种自动识别方法

Similar Documents

Publication Publication Date Title
CN113707158A (zh) 一种基于VGGish迁移学习网络的电网危害鸟种鸣声识别方法
CN108827605B (zh) 一种基于改进稀疏滤波的机械故障特征自动提取方法
CN105023573B (zh) 使用听觉注意力线索的语音音节/元音/音素边界检测
CN106653032B (zh) 低信噪比环境下基于多频带能量分布的动物声音检测方法
CN110718232B (zh) 一种基于二维语谱图和条件生成对抗网络的语音增强方法
CN108630209B (zh) 一种基于特征融合与深度置信网络的海洋生物识别方法
CN112257521A (zh) 基于数据增强和时频分离的cnn水声信号目标识别方法
CN108490349A (zh) 基于Mel频率倒谱系数的电机异音检测方法
CN111724770B (zh) 一种基于深度卷积生成对抗网络的音频关键词识别方法
CN109887496A (zh) 一种黑盒场景下的定向对抗音频生成方法及***
CN114863937B (zh) 基于深度迁移学习与XGBoost的混合鸟鸣识别方法
CN116189681B (zh) 一种智能语音交互***及方法
CN112465069B (zh) 一种基于多尺度卷积核cnn的脑电情绪分类方法
CN102982351A (zh) 基于bp神经网络的瓷绝缘子振动声学检测数据分类方法
CN112820275A (zh) 一种基于声音信号分析哺乳仔猪异常的自动监测方法
CN110111769A (zh) 一种电子耳蜗控制方法、装置、可读存储介质及电子耳蜗
CN113646833A (zh) 语音对抗样本检测方法、装置、设备及计算机可读存储介质
CN111626093B (zh) 一种基于鸣声功率谱密度的输电线路相关鸟种识别方法
CN116861303A (zh) 一种变电站数字孪生多源信息融合诊断方法
CN113850013B (zh) 一种舰船辐射噪声分类方法
CN111933186B (zh) 用于对有载分接开关进行故障识别的方法、装置及***
CN113539243A (zh) 语音分类模型的训练方法、语音分类方法及相关装置
CN114077851A (zh) 基于fsvc的球磨机工况识别方法
CN113611331A (zh) 一种变压器声纹异常检测方法
CN106887229A (zh) 一种提升声纹识别准确度的方法和***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination