CN114566184A - 音频识别方法及相关装置 - Google Patents

音频识别方法及相关装置 Download PDF

Info

Publication number
CN114566184A
CN114566184A CN202210188532.7A CN202210188532A CN114566184A CN 114566184 A CN114566184 A CN 114566184A CN 202210188532 A CN202210188532 A CN 202210188532A CN 114566184 A CN114566184 A CN 114566184A
Authority
CN
China
Prior art keywords
audio
audio data
samples
support set
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210188532.7A
Other languages
English (en)
Inventor
洪思欣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Music Entertainment Technology Shenzhen Co Ltd
Original Assignee
Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Music Entertainment Technology Shenzhen Co Ltd filed Critical Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority to CN202210188532.7A priority Critical patent/CN114566184A/zh
Publication of CN114566184A publication Critical patent/CN114566184A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/26Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例提供了一种音频识别方法及相关装置,其中方法包括:获得待识别的音频数据后,提取音频数据的音频特征信息;将音频特征信息输入到预先训练完成的音频识别模型中,由音频识别模型的编码器提取音频特征信息的分类特征,以及由音频识别模型的分类器依据分类特征获得音频数据所属的动物类别;其中,编码器由训练集进行训练获得,分类器为利用转导推理方法,对带标签的支持集和不带标签的查询集进行训练获得;训练集中样本数量大于支持集中的样本数量,且训练集中样本与支持集中样本属于不同的动物类别。通过本申请实施例,可在小样本数据的情形下,快速准确地识别出音频数据所属的动物类别。

Description

音频识别方法及相关装置
技术领域
本申请涉及计算机技术领域,尤其涉及一种音频识别方法及相关装置。
背景技术
现今,面向珍稀动物的识别方法是使用图像识别的方法。该方法使用传统图像处理方法对动物图像进行第一次模糊分类,缩小识别的范围,然后在更小的范围内根据具体动物种类的特点,进行第二次精确的分类。但是该方案需要大量的图像训练样本,且在进行推理的时候,需要摄像头精确捕捉到稀有动物的身形。而在野生环境中放置摄像头拍摄出来的图像普遍存在失真、模糊、遮挡物多、捕捉困难等问题,导致识别珍稀动物难度大且准确度低。因此,如何在小样本数据的情形下,有效地识别珍稀动物的类别是亟待解决的问题。
发明内容
本申请实施例提供一种音频识别方法及相关装置,可以在小样本数据的情形下,快速准确地识别出音频数据所属的动物类别。
一方面,本申请实施例提供了一种音频识别方法,所述方法包括:
获得待识别的音频数据后,提取所述音频数据的音频特征信息;
将所述音频特征信息输入到预先训练完成的音频识别模型中,由所述音频识别模型的编码器提取所述音频特征信息的分类特征,以及由所述音频识别模型的分类器依据所述分类特征获得所述音频数据所属的动物类别;
其中,所述编码器由训练集进行训练获得,所述分类器为利用转导推理方法,对带标签的支持集和不带标签的查询集进行训练获得;所述训练集中样本数量大于所述支持集中的样本数量,且所述训练集中样本与所述支持集中样本属于不同的动物类别。
可选地,所述查询集与所述支持集中的样本数据属于相同的动物类别,且所述查询集中样本未标注标签信息;
所述分类器为利用转导推理方法,对带标签的支持集和不带标签的查询集进行训练获得,包括:
利用所述支持集初步训练所述音频识别模型的分类器;
利用初步训练的所述分类器预测查询集对应的标签信息;
根据所述查询集对应的标签信息,确定所述查询集对应的损失函数;
根据所述支持集对应的标签信息,确定所述支持集对应的损失函数;
利用所述查询集和所述支持集分别对应的损失函数,更新所述初步训练的所述分类器的权重参数,以训练得到所述音频识别模型的分类器。
可选地,所述利用所述查询集和所述支持集分别对应的损失函数,更新所述初步训练的所述分类器的权重参数,包括:
根据所述查询集和所述支持集分别对应的损失函数,确定损失函数Lω
基于所述损失函数Lω,更新所述所述初步训练的分类器的权重参数。
可选地,所述支持集对应的损失函数包括标准交叉熵损失函数,且所述标准交叉熵损失函数至少由所述支持集中样本的标签、模型预测结果以及支持集中的样本数量确定。
可选的,所述查询集对应的损失函数包括互信息损失函数以及全局正则化器;其中:
所述互信息损失函数是基于条件熵损失和边际熵损失计算的,且至少由所述查询集的样本数量及所述查询集中样本的预测概率确定;所述全局正则化至少由所述查询集中正样本或负样本的平均概率以及查询集中正样本和负样本的比例确定。
可选地,所述提取所述音频数据的音频特征信息,包括:
提取所述音频数据中每个音频帧的梅尔特征;
根据所述每个音频帧的梅尔特征,获得所述音频数据的初始梅尔频谱图;
对所述音频数据的初始梅尔频谱图进行处理,获得所述音频数据的梅尔频谱图作为所述音频数据的音频特征信息。
可选地,训练所述编码器的模型特征时采用带标签的训练集进行训练,以及测试所述编码器的模型特征时采用测试数据集进行测试。
可选地,所述支持集是基于K个不同类的样本音频数据中每个类中随机抽取的N个样本(K-way N-shot任务)获得的。
一方面,本申请实施例提供了一种音频识别装置,所述装置包括:
数据处理模块,用于获得待识别的音频数据后,提取所述音频数据的音频特征信息;
识别模块,用于将所述音频特征信息输入到预先训练完成的音频识别模型中,由所述音频识别模型的编码器提取所述音频特征信息的分类特征,以及由所述音频识别模型的分类器依据所述分类特征获得所述音频数据所属的动物类别;
其中,所述编码器由训练集进行训练获得,所述分类器为利用转导推理方法,对带标签的支持集和不带标签的查询集进行训练获得;所述训练集中样本数量大于所述支持集中的样本数量,且所述训练集中样本与所述支持集中样本属于不同的动物类别。
一方面,本申请实施例提供了一种电子设备,包括:处理器、通信接口和存储器,所述处理器、所述通信接口和所述存储器相互连接,其中,所述存储器存储有可执行程序代码,所述处理器用于调用所述可执行程序代码,执行本申请实施例提供的方法。
相应地,本申请还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在电子设备上运行时,使得电子设备执行本申请实施例提供的方法。
相应地,本申请实施例还提供了一种计算机程序产品或计算机程序,所述计算机程序产品或计算机程序包括计算机指令,所述计算机指令存储在计算机可读存储介质中。电子设备的处理器从所述计算机可读存储介质读取所述计算机指令,处理器执行所述计算机指令,使得所述电子设备执行本申请实施例提供的方法
本申请实施例通过电子设备获得待识别的音频数据后,提取音频数据的音频特征信息;将音频特征信息输入到预先训练完成的音频识别模型中,由所述音频识别模型的编码器提取所述音频特征信息的分类特征,以及由所述音频识别模型的分类器依据所述分类特征获得音频数据所属的动物类别;其中,编码器由训练集进行训练获得,分类器利用转导推理方法,对带标签的支持集和不带标签的查询集进行训练获得;训练集中样本数量大于支持集中的样本数量,且训练集中样本与支持集中样本属于不同的动物类别。采用本申请实施例,可在小样本数据的情形下,快速准确地识别出音频数据所属的动物类别。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种音频识别方法的示意图;
图2是本申请实施例提供的一种音频识别方法的流程示意图;
图3是本申请实施例提供的另一种音频识别方法的示意图;
图4是本申请实施例提供的一种利用小样本学习方法训练音频识别模型的示意图;
图5是本申请实施例提供的一种训练音频识别模型的示意图;
图6是本申请实施例示出的一种音频识别装置的示意图;
图7是本申请实施例示出的一种电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
目前,已经有使用图像捕捉技术来捕捉动物出现的照片,然后再通过图像识别技术识别出动物的类别。该方法不但需要大量的图像训练样本,且需要精确捕捉到动物的身形。然而,珍稀动物行踪不定,常常难以捕捉到它们出现的身形,或者捕捉到的照片过于模糊或者存在失真,导致识别珍稀动物的难度大且准确度低。
本申请实施例提供了一种音频识别方法及相关装置,基于少量的样本音频数据(或者称为小样本音频数据),也可使得音频识别模型学习针对动物类别的识别能力(该过程也可称为小样本学习),从而,在应用阶段,基于该音频识别模型可快速准确地识别出音频数据所属的动物类别。
小样本学***衡的任务。而原型网络(Prototypical network)是使用元学***均值。然而,当训练集提供的音频数据文件质量好,原型网络的结果就很好;当训练集提供的音频数据文件不足以代表珍稀动物的声音时,原型网络的结果就差强人意。
本申请中,小样本学习利用未标记标签的统计数据来更新原型表示,该方法也可称为转导推理(Transductive inference)。转导推理是一种通过观察特定的训练样本,进而预测特定的测试样本的方法。该方法拥有着更广的视角,在模型训练之初,就已经获得训练集(带标签)、支持集(带标签)和查询集(不带标签)。尽管在训练之时不知道查询集的真实标签,但可以从其特征分布中学到些额外的信息(如分布聚集性)。该方法通过寻找补充信息,可帮助原型网络表示尽可能接近真正的类别中心,避免了因支持集样本不完整(如背景干扰或模糊的细节),导致一些具有代表性的属性特征丢失,从而造成原型网络不能很好的代表类别中心的问题。本申请提供的音频识别方法,基于转导推理获得音频识别模型,可带来模型效果上的增益。
请参阅图1,图1是本申请实施例提供的一种音频识别方法的示意图。如图1所示,该方法包括:电子设备获得待识别的音频数据后,提取该音频数据的音频特征信息(对应图中的音频预处理);将音频特征信息输入到预先训练完成的音频识别模型中,由音频识别模型的编码器提取所述音频特征信息的分类特征,以及由音频识别模型的分类器依据分类特征获得音频数据所属的动物类别(定义图中的动物音频识别);其中,编码器由训练集进行训练获得,分类器为利用转导推理方法,对带标签的支持集和不带标签的查询集进行训练获得;训练集中样本数量大于支持集中的样本数量,且训练集中样本与支持集中样本属于不同的动物类别。可见,该方法能够针对少量的样本音频数据,快速准确地识别出音频数据所属的动物类别。
需要说明的是,在具体实现中,上述方法可以由电子设备执行,该电子设备可以是终端或者服务器;其中,终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能手表、智能车载终端等,但并不局限于此。服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式***等,但并不局限于此。当电子设备是服务器时,上述方法通过服务器后台进行处理,其处理效率高、运行速度快。
为了便于理解本申请实施例,下面以电子设备作为执行主体进行阐述。
请参阅图2,图2为本申请实施例提供的一种音频识别方法的流程示意图。本申请实施例中所描述的方法包括如下步骤S201-S202。
S201、获得待识别的音频数据后,提取音频数据的音频特征信息。
在一种可选的实施方式中,电子设备提取音频数据的音频特征信息,包括:提取音频数据中每个音频帧的梅尔特征;根据每个音频帧的梅尔特征,获得音频数据的初始梅尔频谱图;对音频数据的初始梅尔频谱图进行处理,获得音频数据的梅尔频谱图作为所述音频数据的音频特征信息。其中,梅尔特征是与人耳听觉感知接近的特征,利于卷积神经网络从用户的听感角度获得相似的特征向量。可选地,电子设备可对音频数据进行下采样处理,将音频数据下采样到EkHz,并应用窗口大小为F的短时傅里叶变换(Short-time FourierTransform,STFT)对音频数据的波形进行变换,然后通过梅尔标度(Mel-scale)滤波器,得到G维N帧的初始梅尔频谱图,之后对初始梅尔频谱图进行零均值化和归一化处理,获得音频数据的梅尔频谱图。例如,下采样到E kHz可以是22.05kHz,窗口大小F可以是1024,得到G维N帧的初始梅尔频谱图可以是128维86帧的初始梅尔频谱图,归一化处理可以是归一化为单位方差。可选地,音频数据的文件格式包括但不限于mp3、m4a、wav等。
S202、将音频特征信息输入到预先训练完成的音频识别模型中,由音频识别模型的编码器提取音频特征信息的分类特征,以及由音频识别模型的分类器依据分类特征获得音频数据所属的动物类别。
其中,编码器由训练集进行训练获得,分类器为利用转导推理方法,对带标签的支持集和不带标签的查询集进行训练获得;训练集中样本数量大于支持集中的样本数量,且训练集中样本与支持集中样本属于不同的动物类别。
可选地,训练集中的样本类别与支持集中的样本类别可为不同类别。
本申请实施例中,电子设备提取音频数据的音频特征信息;将音频特征信息输入到预先训练完成的音频识别模型,由音频识别模型的编码器提取音频特征信息的分类特征,以及由音频识别模型的分类器依据分类特征获得音频数据所属的动物类别;其中,编码器由训练集进行训练获得,分类器为利用转导推理方法,对带标签的支持集和不带标签的查询集进行训练获得;训练集中样本数量大于支持集中的样本数量,且训练集中样本与支持集中样本属于不同的动物类别。可见,该方法通过训练集训练音频识别模型的特征提取能力,利用支持集和查询集训练分类器的识别能力,从而能够识别出小样本的音频数据所属的动物类别的。
请参阅图3,图3是本申请实施例提供的另一种音频识别方法的示意图,与图1相比,该方法还包括构建音频数据集以及在音频预处理之后基于小样本学习方法获得音频识别模型的步骤。如图3所示,该方法中,电子设备首先构建音频数据集;然后对各个数据集中的音频数据进行预处理,获得各个音频数据的音频特征信息;之后基于小样本学习,获得音频识别模型;利用音频识别模型对预处理后的音频数据进行识别,获得音频数据所属的动物类别(即动物音频识别)。
在一种可选的实施方式中,电子设备构建音频数据集包括构建训练集、支持集及查询集。
在一种可选的实施方式中,电子设备可通过获取开源音频数据集来构建训练集。可选地,开源数据集包括但不限于谷歌Goolge发布的大规模音频数据集AudioSet等。
在一种可选的实施方式中,训练集中的数据可以是各种类型的动物音频等,此处不做限定。
在一种可选的实施方式中,电子设备可通过采集珍稀动物音频数据构建支持集和查询集。可选地,采集珍稀动物音频数据包括但不限于电子设备利用网上相关珍稀动物的视频采集其声音音频数据。可选地,采集的每一种类型动物的声音音频数据是A个,假设需要识别珍稀动物的类别有B种,则需要收集的声音音频数据为C=A*B个,其中,每个音频数据的长度固定为D秒。例如,声音音频数据A个可为5个,需要识别珍稀动物的类别有B种可为10种,则需要收集的声音音频数据为C=5*10=50个,每个音频数据的长度固定为D秒可为10秒。
可选的,支持集与查询集之间的交集是空集,即支持集中和查询集中没有重复的样本。在一种可选的实施方式中,可对采集的珍稀动物音频数据按照一定的比例划分,得到支持集和查询集。例如,采集到的音频数据所属的珍稀动物的类别有10种,每种类别的音频数据有5个,可按照6:4的比例对所采集的音频数据进行划分,则支持集中的音频数据有10*3=30个,查询集中的音频数据有10*2=20个,之后对支持集的音频数据标注标签信息(即类别),查询集的音频数据不标注标签信息。
在一种可选的实施方式中,电子设备在构建音频数据集之后,还可以对各个数据集中的音频数据进行预处理,获得各个音频数据的音频特征信息。该实施方式的具体过程可参见上文S201中的描述,此处不再进行赘述。
请参阅图4,图4是本申请提供的一种利用小样本学习方法训练音频识别模型的示意图。如图4所示,电子设备首先使用训练集(training set)中的音频数据学习编码器参数,然后使用支持集(support set)初步训练音频识别模型的分类器,最后利用支持集和查询集(query set)更新分类器的权重。其中,软分类器使用的是概率模型,可以输出不同类别对应的概率,最后的分类结果为概率最大的类别。
可选的,该分类器是软分类器,软分类器指的是使用概率模型,输出不同类对应的概率的分类器,其最后的分类结果取概率最大的类。例如支持向量机(Surport VectorMachines,SVM)多分类器。需要说明的是,本申请所提及的分类器均为此处的软分类器。
在一种可选的实施方式中,训练编码器的模型特征时采用带标签的训练集进行训练,以及测试所述编码器的模型特征时采用测试数据集进行测试。
在一种可选的实施方式中,支持集是基于K个不同类的样本音频数据中每个类中随机抽取的N个样本(K-way N-shot任务)获得的。
在一种可选的实施方式中,编码器训练阶段:电子设备可通过一个大规模的训练集训练编码器(即特征提取器)的模型特征,训练该编码器的模型特征时可给出一个有标签的训练集(training set)Xbase={xi,yi}进行训练,其中xi表示样本i的原始特征,yi表示独热(one-hot)编码的标签,0≤i≤Nbase,Nbase为训练集的样本数量。另外,测试该编码器的模型特征时可采用测试数据集:Xtest={xj,yj}进行测试。其中,0≤j≤Ntest,Ntest为测试集的样本数量。其中
Figure BDA0003523646050000081
Ybase为训练集类别,Ytest为测试集的类别。
每个类中随机抽取N个样本(即K-way N-shot任务)包括从K个不同类中的每一类里随机抽取N个样本,构建一个标记样本集合S,该集合S称为支持集(support set),大小为|S|=N*K。此外,每个任务都有以Q表示的查询集(query set),由K个不同类中每一类中的未标记样本NQ|组成,Q的大小为|Q|=NQ*K。通过使用训练集Xbase训练音频识别模型中的编码器,使用训练的编码器提取支持集的分类特征之后,将该分类特征输入到分类器中,以训练该分类器,并根据未标记的查询集(query set)对该分类器进行评估。
对于给定的小样本任务,在支持集S和查询集Q中,用X表示S∪Q中的原始特征,并用Y={1,2,...,K}表示与原始特征相关的标签集合。其中,该K表示的是标签。令
Figure BDA0003523646050000091
表示深度神经网络的编码器(即特征提取器),其中
Figure BDA0003523646050000092
表示可训练参数。首先,在训练集Xbase使用标准交叉熵损失对编码器(Encoder)进行训练,学习编码器参数。然后,使用支持集训练一个软分类器,该软分类器以参数化表示的权值矩阵为W∈Rk*d(k、d为分类器参数维度)。最后,预测查询集中的动物类别,以更新分类器的权值矩阵。
在一种可选的实施方式中,电子设备利用训练集训练音频识别模型中的编码器,包括:将训练集中的音频数据的音频特征信息输入到音频识别模型中的编码器中,获得编码器的参数。
在一种可选的实施方式中,电子设备利用支持集和查询集训练音频识别模型中的分类器之前,包括:将支持集和查询集中音频数据的音频特征信息分别输入到音频识别模型中的编码器中,获取支持集和查询集中音频数据分别对应的特征向量。
在一种可选的实施方式中,电子设备利用支持集初步训练音频识别模型的分类器;利用初步训练的分类器预测查询集对应的标签信息;根据查询集对应的标签信息,确定查询集对应的损失函数;根据支持集对应的标签信息,确定支持集对应的损失函数;利用查询集和支持集分别对应的损失函数,更新初步训练的分类器的权重参数,以训练得到所述音频识别模型的分类器。其中,查询集与支持集中的样本数据属于相同的动物类别,且查询集中样本未标注标签信息。
请参阅图5,图5是本申请实施例提供的一种训练音频识别模型的示意图。如图5所示,该音频识别模型通过转导推理方法获得。图5中,支持集和查询集中的音频数据都是经过预处理之后,得到的音频数据的音频特征信息,即音频数据的梅尔频谱图。该模型中,电子设备通过训练好的编码器对支持集和查询集中的音频数据进行特征提取,获得音频数据的特征向量;通过支持集中音频数据的特征向量初步训练分类器,利用该初步训练的分类器预测查询集中各个音频数据对应的动物类别,获得查询集中各个音频数据的标签信息;根据查询集对应的标签信息,确定查询集对应的损失函数,并根据支持集对应的标签信息,确定支持集对应的损失函数;利用查询集和支持集分别对应的损失函数,更新初步训练的分类器的权重参数,从而获得能够用于音频识别的音频识别模型。
在一种可选的实施方式中,利用查询集和支持集分别对应的损失函数,更新初步训练的所分类器的权重参数,包括:根据查询集和支持集分别对应的损失函数,确定损失函数Lω;基于损失函数Lω,更新初步训练的所述分类器的权重参数。
在一种可选的实施方式中,支持集对应的损失函数包括标准交叉熵损失,且标准交叉熵损失函数至少由支持集中样本的标签、模型预测结果以及支持集中的样本数量确定。
在一种可选的实施方式中,查询集对应的损失函数包括互信息损失函数以及全局正则化器;其中,互信息损失函数是基于条件熵损失和边际熵损失计算的,且至少由查询集的样本数量及查询集中样本的预测概率确定;全局正则化器至少由查询集中正样本或负样本的平均概率以及查询集中正样本和负样本的比例确定。如图5中的步骤1和步骤2,对于每个单一的小样本任务,可通过转导推理,即通过式(1)的损失函数Lω更新软分类器的权值矩阵W,得到更新后的软分类器对应的参数化表示,记为
Figure BDA0003523646050000101
在一种可选的实施方式中,损失函数的计算公式如下式(1):
Figure BDA0003523646050000102
式(1)中,Lω表示的是损失函数;λ表示CE的权重,CE表示支持集对应的标准交叉熵损失函数,
Figure BDA0003523646050000103
表示查询集中的样本与其潜在标签之间的互信息损失函数,λKL表示DKL的权重,DKL表示查询集中正样本预测比例与正样本真实比例之间的KL损失。
该实施方式中,标准交叉熵损失函数CE的计算公式如下式(2):
Figure BDA0003523646050000111
式(2)中,yik表示支持集中样本的标签,pik表示模型预测结果,S表示支持集,|S|表示支持集的样本数量,i表示支持集中的样本,K表示支持集中有K个样本数据,k表示支持集中的第k个样本数据,k为整数,k∈[1,K]。
该实施方式中,互信息损失函数
Figure BDA0003523646050000112
的计算公式如下式(3):
Figure BDA0003523646050000113
式(3)中,Q表示查询集,|Q|表示查询集的样本数量,
Figure BDA0003523646050000114
表示查询集中样本的预测概率,i表示查询集中的样本,K表示查询集中有K个样本数据,k表示查询集中的第k个样本数据,k为整数,k∈[1,K]。
Figure BDA0003523646050000115
表示查询集中的样本与其潜在标签之间的互信息损失函数,
Figure BDA0003523646050000116
由两项组成,第一项指的是给定查询原始特征的标签条件熵的经验估计(Monte-Carlo)、第二项指的是经验标签边际熵。其中,经验估计的目的是最小化未标记查询样本的后验的不确定性,从而鼓励模型输出自信的预测。这种熵损失被广泛应用于半监督学习(Semi-supervised Learning,SSL),有效地模拟了聚类假设(即分类器的边界不应该出现在未标记特征的密集区域)。标签边际熵正则化器鼓励标签的边际分布是均匀的。
该实施方式中,基于正样本和负样本比例的全局KL-divergence正则化器的计算公式如下式(4)~(5):
Figure BDA0003523646050000117
式(4)中,DKL表示正样本预测比例与正样本真实比例之间的KL损失,Q表示查询集,π表示正样本和负样本的比例,
Figure BDA0003523646050000118
表示查询集Q中正样本或负样本的平均概率。其中,
Figure BDA0003523646050000119
的计算公式如下式(5):
Figure BDA00035236460500001110
式(5)中,pi表示第i个样本为正样本的概率,II是求积运算,故式(5)表示先求积再累加的运算。
在一种可选的实施方式中,在获得音频识别模型之后,电子设备可利用音频识别模型对预处理后的音频数据进行识别,获得音频数据所属的动物类别(即动物音频识别)。
该方法中,电子设备通过训练集训练音频识别模型的编码器;使用小样本的支持集来训练音频识别模型的分类器,并获得支持集对应的标签信息;利用分类器预测查询集对应的标签信息;根据支持集和查询集分别对应的标签信息,获得支持集和查询集分别对应的损失函数;利用支持集和查询集分别对应的损失函数,更新分类器的权重参数,获得音频识别模型。之后,电子设备可利用音频识别模型对预处理后的音频数据进行识别,获得音频数据所属的动物类别。可见,该方法可在小样本数据的情形下,快速准确地识别出音频数据所属的动物类别。
另外,该方法不仅实现简单,而且在识别出动物类别之后,能令生态保护相关人员及时对动物分布区域的生态进行针对性的保护。
请参见图6,图6是本申请实施例示出的一种音频识别装置示意图。该实施例中所描述的音频识别装置可以包括以下部分:
数据处理模块601,用于获得待识别的音频数据后,提取音频数据的音频特征信息;
识别模块602,用于将音频特征信息输入到预先训练完成的音频识别模型中,由所述音频识别模型的编码器提取所述音频特征信息的分类特征,以及由所述音频识别模型的分类器依据所述分类特征获得音频数据所属的动物类别;其中,编码器由训练集进行训练获得,分类器为利用转导推理方法,由带标签的支持集和不带标签的查询集进行训练获得;该训练集中样本数量大于支持集中的样本数量,且训练集中样本与支持集中样本属于不同的动物类别。
在一种可选的实施方式中,查询集与支持集中的样本数据属于相同的动物类别,且查询集中样本未标注标签信息;该装置还包括:训练模块603,用于训练编码器和分类器。训练模块603在用于训练编码器时,具体用于利用训练集训练音频识别模型中的编码器。
训练模块603在训练分类器时,具体用于:利用支持集初步训练音频识别模型的分类器;利用初步训练的分类器预测查询集对应的标签信息;根据查询集对应的标签信息,确定查询集对应的损失函数;根据支持集对应的标签信息,确定支持集对应的损失函数;利用查询集和支持集分别对应的损失函数,更新分类器的权重参数,以训练得到音频识别模型的分类器。
在一种可选的实施方式中,训练模块603在利用查询集和支持集分别对应的损失函数,更新初步训练的分类器的权重参数时,具体用于:
根据查询集和支持集分别对应的损失函数,确定损失函数Lω
基于损失函数Lω,更新初步训练的分类器的权重参数。
在一种可选的实施方式中,支持集对应的损失函数包括标准交叉熵损失函数,且标准交叉熵损失函数至少由支持集中样本的标签、模型预测结果以及支持集中的样本数量确定。
在一种可选的实施方式中,查询集对应的损失函数包括互信息损失函数以及全局正则化器;其中,互信息损失是基于条件熵损失和边际熵损失计算的,且至少由查询集的样本数量及查询集中样本的预测概率确定;全局正则化器至少由查询集中正样本或负样本的平均概率以及查询集中正样本和负样本的比例确定。
在一种可选的实施方式中,数据处理模块601在提取音频数据的音频特征信息时,具体用于:
提取音频数据中每个音频帧的梅尔特征;
根据每个音频帧的梅尔特征,获得音频数据的初始梅尔频谱图;
对音频数据的初始梅尔频谱图进行处理,获得音频数据的梅尔频谱图作为所述音频数据的音频特征信息。
在一种可选的实施方式中,训练模块603训练编码器的模型特征时采用带标签的训练集进行训练,以及测试所述编码器的模型特征时采用测试数据集进行测试。
在一种可选的实施方式中,支持集是基于K个不同类的样本音频数据中每个类中随机抽取的N个样本(K-way N-shot任务)获得的。
可以理解的是,本申请实施例所述音频识别装置中各个模块的具体实现以及可以达到的有益效果可参考前述相关实施例的描述,在此不再赘述。
请参见图7,图7是本申请实施例示出的一种电子设备的结构示意图。本申请实施例中所描述的电子设备包括:处理器701、用户接口702、通信接口703及存储器704。其中,处理器701、用户接口702、通信接口703及存储器703可通过总线或其他方式连接,本申请实施例以通过总线连接为例。
其中,处理器701(或称CPU(Central Processing Unit,中央处理器))是电子设备的计算核心以及控制核心,其可以解析电子设备内的各类指令以及处理电子设备的各类数据,例如:CPU可以用于解析用户向电子设备所发送的开关机指令,并控制电子设备进行开关机操作;再如:CPU可以在电子设备内部结构之间传输各类交互数据,等等。用户接口702是实现用户与电子设备进行交互和信息交换的媒介,其具体体现可以包括用于输出的显示屏(Display)以及用于输入的键盘(Keyboard)等等,需要说明的是,此处的键盘既可以为实体键盘,也可以为触屏虚拟键盘,还可以为实体与触屏虚拟相结合的键盘。通信接口703可选的可以包括标准的有线接口、无线接口(如Wi-Fi、移动通信接口等),受处理器701的控制用于收发数据。存储器704(Memory)是电子设备中的记忆设备,用于存放程序和数据。可以理解的是,此处的存储器704既可以包括电子设备的内置存储器,当然也可以包括电子设备所支持的扩展存储器。存储器704提供存储空间,该存储空间存储了电子设备的操作***,可包括但不限于:Android***、iOS***、Windows Phone***等等,本申请对此并不作限定。
在本申请实施例中,处理器701用于提取目标音频数据的音频特征,利用小样本模型识别珍稀动物音频类别等,执行上述所述的音频识别方法的相关操作。
通信接口703,用于麦克风收集动物音频信号。
存储器704,还用于存储接收的数据和处理过程中生成的数据。
在本申请实施例中,处理器701通过运行存储器704中的可执行程序代码,执行如下操作:
获得待识别的音频数据后,提取音频数据的音频特征信息;
将音频特征信息输入到预先训练完成的音频识别模型,由所述音频识别模型的编码器提取所述音频特征信息的分类特征,以及由所述音频识别模型的分类器依据所述分类特征获得音频数据所属的动物类别;编码器由训练集进行训练获得,分类器为利用转导推理方法,对带标签的支持集和不带标签的查询集进行训练获得;该训练集中样本数量大于支持集中的样本数量,且训练集中样本与支持集中样本属于不同的动物类别。
在一种可选的实施方式中,查询集与支持集中的样本数据属于相同的动物类别,且查询集中样本未标注标签信息;处理器701还用于:
利用支持集初步训练音频识别模型的分类器;
利用初步训练的分类器预测查询集对应的标签信息;
根据查询集对应的标签信息,确定查询集对应的损失函数;
根据支持集对应的标签信息,确定支持集对应的损失函数;
利用查询集和支持集分别对应的损失函数,更新初步训练的分类器的权重参数,以训练得到所述音频识别模型的分类器。
在一种可选的实施方式中,处理器701在利用查询集和支持集分别对应的损失函数,更新初步训练的分类器的权重参数时,具体用于:
根据查询集和支持集分别对应的损失函数,确定损失函数Lω
基于损失函数Lω,更新初步训练的分类器的权重参数。
在一种可选的实施方式中,支持集对应的损失函数包括标准交叉熵损失函数,且标准交叉熵损失函数至少由支持集中样本的标签、模型预测结果以及支持集中的样本数量确定。
在一种可选的实施方式中,查询集对应的损失函数包括互信息损失函数以及全局正则化器;其中:互信息损失是基于条件熵损失和边际熵损失计算的,且至少由查询集的样本数量及查询集中样本的预测概率确定;全局正则化器至少由查询集中正样本或负样本的平均概率以及查询集中正样本和负样本的比例确定。
在一种可选的实施方式中,处理器701在提取音频数据的音频特征信息时,具体用于:
提取音频数据中每个音频帧的梅尔特征;
根据每个音频帧的梅尔特征,获得音频数据的初始梅尔频谱图;
对音频数据的初始梅尔频谱图进行处理,获得音频数据的梅尔频谱图作为所述音频数据的音频特征信息。
在一种可选的实施方式中,处理器701训练编码器的模型特征时采用带标签的训练集进行训练,以及测试所述编码器的模型特征时采用测试数据集进行测试。
在一种可选的实施方式中,支持集是基于K个不同类的样本音频数据中每个类中随机抽取的N个样本(K-way N-shot任务)获得的。
具体实现中,本申请实施例中所描述的处理器701、用户接口702、通信接口703及存储器704可执行本申请实施例提供的音频识别方法中所描述的电子设备的实现方式,也可执行本申请实施例提供的音频识别装置中所描述的实现方式,在此不再赘述。
本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序包括程序指令,该程序指令被处理器执行时实现本申请实施例所提供的音频检测方法,具体可参见上述各个步骤所提供的实现方式,在此不再赘述。
本申请实施例还提供了一种计算机程序产品或计算机程序,所述计算机程序产品或计算机程序包括计算机指令,所述计算机指令存储在计算机可读存储介质中。电子设备的处理器从所述计算机可读存储介质读取所述计算机指令,处理器执行所述计算机指令,使得所述电子设备执行如本申请实施例所述的方法。其具体实现方式可参考前文描述,此处不再赘述。
需要说明的是,对于前述的各个方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某一些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(Read-Only Memory,ROM)、随机存取器(Random AccessMemory,RAM)、磁盘或光盘等。
以上所揭露的仅为本申请部分实施例而已,当然不能以此来限定本申请之权利范围,因此依本申请权利要求所作的等同变化,仍属本申请所涵盖的范围。

Claims (10)

1.一种音频识别方法,其特征在于,所述方法包括:
获得待识别的音频数据后,提取所述音频数据的音频特征信息;
将所述音频特征信息输入到预先训练完成的音频识别模型中,由所述音频识别模型的编码器提取所述音频特征信息的分类特征,以及由所述音频识别模型的分类器依据所述分类特征获得所述音频数据所属的动物类别;
其中,所述编码器由训练集进行训练获得,所述分类器为利用转导推理方法对带标签的支持集和不带标签的查询集进行训练获得;所述训练集中样本数量大于所述支持集中的样本数量,且所述训练集中样本与所述支持集中样本属于不同的动物类别。
2.根据权利要求1所述的方法,其特征在于,所述查询集与所述支持集中的样本数据属于相同的动物类别,且所述查询集中样本未标注标签信息;所述方法还包括:
利用所述支持集初步训练所述音频识别模型的分类器;
利用初步训练的所述分类器预测查询集对应的标签信息;
根据所述查询集对应的标签信息,确定所述查询集对应的损失函数;
根据所述支持集对应的标签信息,确定所述支持集对应的损失函数;
利用所述查询集和所述支持集分别对应的损失函数,更新所述初步训练的所述分类器的权重参数,以训练得到所述音频识别模型的分类器。
3.根据权利要求2所述的方法,其特征在于,所述利用所述查询集和所述支持集分别对应的损失函数,更新所述初步训练的所述分类器的权重参数,包括:
根据所述查询集和所述支持集分别对应的损失函数,确定损失函数Lω
基于所述损失函数Lω,更新所述初步训练的所述分类器的权重参数。
4.根据权利要求2或3所述的方法,其特征在于,所述支持集对应的损失函数包括标准交叉熵损失函数,且所述标准交叉熵损失函数至少由所述支持集中样本的标签、模型预测结果以及所述支持集中的样本数量确定。
5.根据权利要求2或3所述的方法,其特征在于,所述查询集对应的损失函数包括互信息损失函数以及全局正则化器;其中:
所述互信息损失是基于条件熵损失和边际熵损失计算的,且至少由所述查询集的样本数量及所述查询集中样本的预测概率确定;所述全局正则化器至少由所述查询集中正样本或负样本的平均概率以及所述查询集中正样本和负样本的比例确定。
6.根据权利要求1所述的方法,其特征在于,所述提取所述音频数据的音频特征信息,包括:
提取所述音频数据中每个音频帧的梅尔特征;
根据所述每个音频帧的梅尔特征,获得所述音频数据的初始梅尔频谱图;
对所述音频数据的初始梅尔频谱图进行处理,获得所述音频数据的梅尔频谱图作为所述音频数据的音频特征信息。
7.根据权利要求1至3任一项所述的方法,其特征在于,训练所述编码器的模型特征时采用带标签的训练集进行训练,以及测试所述编码器的模型特征时采用测试数据集进行测试。
8.根据权利要求1至3任一项所述的方法,其特征在于,所述支持集是基于K个不同类的样本音频数据中每个类中随机抽取的N个样本(K-way N-shot任务)获得的。
9.一种电子设备,其特征在于,包括:处理器、通信接口和存储器,所述处理器、所述通信接口和所述存储器相互连接,其中,所述存储器存储有可执行程序代码,所述处理器用于调用所述可执行程序代码,执行如权利要求1-8中任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行如权利要求1-8任一项所述的方法。
CN202210188532.7A 2022-02-28 2022-02-28 音频识别方法及相关装置 Pending CN114566184A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210188532.7A CN114566184A (zh) 2022-02-28 2022-02-28 音频识别方法及相关装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210188532.7A CN114566184A (zh) 2022-02-28 2022-02-28 音频识别方法及相关装置

Publications (1)

Publication Number Publication Date
CN114566184A true CN114566184A (zh) 2022-05-31

Family

ID=81714855

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210188532.7A Pending CN114566184A (zh) 2022-02-28 2022-02-28 音频识别方法及相关装置

Country Status (1)

Country Link
CN (1) CN114566184A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117292693A (zh) * 2023-11-27 2023-12-26 安徽大学 融入自注意力机制的crnn珍稀动物识别与定位方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117292693A (zh) * 2023-11-27 2023-12-26 安徽大学 融入自注意力机制的crnn珍稀动物识别与定位方法
CN117292693B (zh) * 2023-11-27 2024-02-09 安徽大学 融入自注意力机制的crnn珍稀动物识别与定位方法

Similar Documents

Publication Publication Date Title
Sun et al. Deep learning for plant identification in natural environment
CN111598190B (zh) 图像目标识别模型的训练方法、图像识别方法及装置
CN109993102B (zh) 相似人脸检索方法、装置及存储介质
CN112183577A (zh) 一种半监督学习模型的训练方法、图像处理方法及设备
CN108288051B (zh) 行人再识别模型训练方法及装置、电子设备和存储介质
WO2021057186A1 (zh) 训练神经网络的方法、数据处理方法和相关装置
CN112395979B (zh) 基于图像的健康状态识别方法、装置、设备及存储介质
JP2022141931A (ja) 生体検出モデルのトレーニング方法及び装置、生体検出の方法及び装置、電子機器、記憶媒体、並びにコンピュータプログラム
WO2020238353A1 (zh) 数据处理方法和装置、存储介质及电子装置
CN111542841A (zh) 一种内容识别的***和方法
CN111783997B (zh) 一种数据处理方法、装置及设备
Zong et al. Emotion recognition in the wild via sparse transductive transfer linear discriminant analysis
CN114550053A (zh) 一种交通事故定责方法、装置、计算机设备及存储介质
CN112529149B (zh) 一种数据处理方法及相关装置
CN115512005A (zh) 一种数据处理方法及其装置
CN115713715A (zh) 一种基于深度学习的人体行为识别方法及识别***
CN113656563A (zh) 一种神经网络搜索方法及相关设备
CN112749737A (zh) 图像分类方法及装置、电子设备、存储介质
Wang et al. Gated convolutional LSTM for speech commands recognition
CN117036843A (zh) 目标检测模型训练方法、目标检测方法和装置
CN117726884B (zh) 对象类别识别模型的训练方法、对象类别识别方法及装置
CN114943937A (zh) 行人重识别方法、装置、存储介质及电子设备
CN114818864A (zh) 一种基于小样本的手势识别方法
CN114566184A (zh) 音频识别方法及相关装置
CN116152938A (zh) 身份识别模型训练和电子资源转移方法、装置及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination