CN113807408B - 基于数据驱动的有监督字典学习音频分类方法、***及介质 - Google Patents

基于数据驱动的有监督字典学习音频分类方法、***及介质 Download PDF

Info

Publication number
CN113807408B
CN113807408B CN202110988214.4A CN202110988214A CN113807408B CN 113807408 B CN113807408 B CN 113807408B CN 202110988214 A CN202110988214 A CN 202110988214A CN 113807408 B CN113807408 B CN 113807408B
Authority
CN
China
Prior art keywords
dictionary
training
class
trained
supervised
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110988214.4A
Other languages
English (en)
Other versions
CN113807408A (zh
Inventor
陈真
邱小群
向友君
张淘珊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN202110988214.4A priority Critical patent/CN113807408B/zh
Publication of CN113807408A publication Critical patent/CN113807408A/zh
Application granted granted Critical
Publication of CN113807408B publication Critical patent/CN113807408B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/28Determining representative reference patterns, e.g. by averaging or distorting; Generating dictionaries
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering
    • G10L2015/0633Creating reference templates; Clustering using lexical or orthographic knowledge sources

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于数据驱动的有监督字典学习音频分类方法、***及介质。该方法包括:确定样本集类别数;利用输入的样本及其对应的类标签训练特定类字典;利用已训练的字典得出输入样本的稀疏编码,并将稀疏编码作为特征,训练SVM分类器;利用已训练的字典和已训练的SVM分类器对输入样本进行分类,输出预测标签。本发明通过每个类学习一个字典来实现最小化类内均匀性,最大化类的可分性,提高稀疏性以控制信号在字典上分解的复杂性,同时最小化基于类的重构错误,并提高字典的成对正交性。本发明能够广泛应用于多个场景中,如计算听觉场景识别和音乐和弦识别;其在数据集上的测试也相对稳定,泛化能力表现优秀。

Description

基于数据驱动的有监督字典学习音频分类方法、***及介质
技术领域
本发明属于稀疏表示,监督字典学习的技术领域,具体涉及一种基于数据驱动的有监督字典学习音频分类方法、***及介质。
背景技术
传统的字典学习公式最大限度地减小了给定信号与其在学习字典上的稀疏表示之间的重构误差。虽然这个方法对于解决信号去噪很方便,但是由于它的最终目标是通过学习到的字典去获得训练信号的区分性分解,所以它可能不适用于分类任务。由于传统字典学习技术在分类方面的局限性,有监督字典学习得到了广泛的应用。
Ramirez等人建议通过加强字典的正交性来获取不同的信息,使学习字典尽可能的不同,即一个类对应一个字典;Fulkerson等人提出首先学习一个非常大的字典,然后根据包含凝聚信息瓶颈(AIB)的预定义准则合并字典的原子以起到压缩字典的效果;Mairal等人提出联合学习字典与分类任务;随后张和杨等人提出将类别标签嵌入字典以及稀疏编码的学习当中以达到最小化类内差异与最大化类间差异的作用。
发明内容
本发明的主要目的在于克服传统字典学习方法对音频识别任务的缺点与不足,提供一种基于数据驱动的有监督字典学习音频分类方法、***及介质,针对每个不同的类,学习不同的对应的字典,以提取异构信息进行分类,通过促进类特定字典之间的成对正交性和控制音频片段在这些字典上分解的稀疏性结构,寻求最小化类内的同质性和最大化类间的可分离性。
为了达到上述目的,本发明采用以下技术方案:
本发明的一个方面,提供了一种基于数据驱动的有监督字典学习音频分类方法,包括下述步骤:
S1、确定样本集类别数C,利用输入的样本xn,及其对应的类标签yn训练C个特定类字典Dc,c∈[1,C];
S2、利用已训练的字典Dc,c∈[1,C],得出输入样本xn的稀疏编码an,并将稀疏编码作为特征,训练SVM分类器;
S3、利用已训练的字典Dc,c∈[1,C],和已训练的SVM分类器对输入样本xn进行分类,输出预测标签y n
作为优选的技术方案,所述训练C个特定类字典Dc,c∈[1,C]如下:
S11、初始化字典Dc 0,学习率η0,学习率更新率α,迭代次数T;
S12、确定损失函数J;
S13、开始次数为T的迭代求解过程,当迭代次数为t时,固定字典Dt-1,计算稀疏编码集合At
S14、固定稀疏编码的集合At,更新字典Dc t
S15、t=t+1,进入下一次迭代,直至t=T。
作为优选的技术方案,所述损失函数J具体形式为:
J(A,D)=J1(D,A)+μJ2(D,A)+λJ3(A)+γ1J4(A)+γ2J5(D);
其中,μ为样本约束参数,λ为分类器约束参数,γ1为稀疏编码约束参数,γ2为字典学习约束参数。
作为优选的技术方案,所述开始次数为T的迭代求解过程,当迭代次数为t时,固定字典Dt-1,计算稀疏编码集合At的步骤具体通过Lasso算法最小化损失函数J(Dt-1,At)得到At
作为优选的技术方案,所述固定稀疏编码的集合At,更新字典Dc t的步骤具体如下:
S141、计算损失函数J关于字典D的梯度Gt
S142、初步更新,Dc t/2=Dc t-1-ηGt
S143、通过近端投影算子Prox对初步更新的字典进行约束;
S144、直至J(Dc t,At)<J(Dc t-1,At-1),结束对字典的更新。
作为优选的技术方案,所述训练SVM分类器具体为:训练得一个超平面,将不同的样本分开;其测试阶段即为判断样本在超平面所分割空间的哪一边。
本发明的另一个方面,还提供了一种基于数据驱动的有监督字典学习音频分类***,应用于上述的基于数据驱动的有监督字典学习音频分类方法,包括字典训练模块、SVM分类器训练模块、预测输出模块;
所述字典训练模块用于确定样本集类别数C,利用输入的样本xn,及其对应的类标签yn训练C个特定类字典Dc,c∈[1,C];
所述SVM分类器训练模块用于利用已训练的字典Dc,c∈[1,C],得出输入样本xn的稀疏编码an,并将稀疏编码作为特征,训练SVM分类器;
所述预测输出模块用于利用已训练的字典Dc,c∈[1,C],和已训练的SVM分类器对输入样本xn进行分类,输出预测标签y n
本发明的另一个方面,还提供了一种存储介质,存储有程序,所述程序被处理器执行时,实现上述的基于数据驱动的有监督字典学习音频分类方法。
本发明与现有技术相比,具有如下优点和有益效果:
(1)本发明公开的基于数据驱动的有监督字典学习音频识别方法通过每个类学习一个字典来实现最小化类内均匀性,最大化类的可分性,提高稀疏性以控制信号在字典上分解的复杂性,同时最小化基于类的重构错误,并提高字典的成对正交性;
(2)本发明提出的方法能够广泛应用于多个场景中,如计算听觉场景识别和音乐和弦识别;其在数据集上的测试也相对稳定,泛化能力表现优秀。
(3)本发明提出的方法能够精确提升对音频的识别,对语音认证、音频辨伪等安全计算领域具有优异的性能。
附图说明
图1是本发明实施例基于数据驱动的有监督字典学习音频分类方法的实现步骤流程图;
图2是本发明实施例特定类字典Dc的学习步骤流程图;
图3是本发明实施例SVM分类器的训练步骤流程图;
图4是本发明实施例测试阶段进行分类并输出预测标签的流程示意图;
图5是本发明实施例在Rouen数据集上学习的成对特定类字典的相似性图;
图6是本发明实施例在音乐和弦数据集上学习的成对特定类字典的相似性图;
图7是本发明实施例基于数据驱动的有监督字典学习音频分类***的结构示意图;
图8是本发明实施例的存储介质的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
实施例
如图1所示,本实施例提供了一种基于数据驱动的有监督字典学习音频分类方,包括以下步骤:
S1、确定样本集类别数C,利用输入的样本xn,及其对应的类标签yn训练C个特定类字典Dc,c∈[1,C],如图2所示,具体包括以下步骤:
S11、初始化字典Dc 0,学习率η0,学习率更新率α,迭代次数T;
S12、确定损失函数J;
更进一步的,所述损失函数J具体形式为:
J(A,D)=J1(D,A)+μJ2(D,A)+λJ3(A)+γ1J4(A)+γ2J5(D);
其中,μ为样本约束参数,λ为分类器约束参数,γ1为稀疏编码约束参数,γ2为字典学习约束参数。
S13、开始次数为T的迭代求解过程,当迭代次数为t时,固定字典Dt-1,计算稀疏编码At
更进一步的,所述稀疏编码At,通过Lasso算法最小化损失函数J(Dt-1,At)得到。
S14、固定稀疏编码At,更新字典Dc t,包括以下步骤:
S141、计算损失函数J关于字典D的梯度Gt;具体的,损失函数为:
其中:
梯度为:
其中:
S142、初步更新,Dc t/2=Dc t-1-ηGt
S143、通过近端投影算子Prox对初步更新的字典进行约束;
S144、直至J(Dc t,At)<J(Dc t-1,At-1),结束对字典的更新。
S15、t=t+1,进入下一次迭代,直至t=T。
S2、利用已训练的字典Dc,c∈[1,C],得出输入样本xn的稀疏编码an,并将稀疏编码作为特征,训练SVM分类器,如图3所示;
所述训练SVM分类器具体为:训练得一个超平面,将不同的样本分开;其测试阶段即为判断样本在超平面所分割空间的哪一边。
S3、在测试阶段,利用已训练的字典Dc,c∈[1,C],和已训练的SVM分类器对输入样本xn进行分类,输出预测标签y n,如图4所示。
在本实施例中,对两种不同的音频信号分类问题进行了实验,分别是计算听觉场景识别和音乐和弦识别:
(1)在计算听觉识别问题上,本发明在East Anglia和Litis Rouen数据集上均进行了实验。表1列出了本发明的方法在这个问题上与其他方法的比较结果;
表1.本发明的方法在计算听觉识别问题上与其他方法的比较结果
由表1易知,本发明的方法与某些方法相比已经完全胜出,在两个数据集上的测试也相对稳定,泛化能力表现优秀,表明本发明的方法还有一定的前景可以探索。图5展示了不同字典的成对相似性,可以看出,在计算听觉场景识别问题上,不同类别对应的字典还是有较大的相似性,即不同类别可能提取到的特征是相似的,不利于分类,越来越多的类别使得强制执行成对字典不相似难度增加。
(2)在音乐和弦识别问题上,本发明制作了一个包含14个不同类别的2156个音乐和弦样本,每个样本持续时间为2s,频率为44100Hz。用本发明的方法与一些传统特征相比较,得出如表2所示的结果;
Features Music chord
Chroma 0.19±0.01
Interpolated PSD 0.15±0.02
Spectrogram pooling 0.14±0.01
Dictionary learning 0.66±0.01
表2.本发明的方法在音乐和弦识别问题上与传统特征的比较结果
由表2易知,本发明的方法优于其他传统特征。图6展示了不同字典的成对相似性,可以看到,不同字典的成对相似性最大值是在左上-右下的对角线上,说明本发明的方法在音乐和弦识别数据集上达到了需要的效果,即不同类别对应的字典能够提取互异的信息,这也是本发明的方法战胜其他传统特征的一个很好的说明。
如图7所示,在本申请的另一个实施例中,提供了一种基于数据驱动的有监督字典学习音频分类***,该***包括字典训练模块、SVM分类器训练模块、预测输出模块;
所述字典训练模块用于确定样本集类别数C,利用输入的样本xn,及其对应的类标签yn训练C个特定类字典Dc,c∈[1,C];
所述SVM分类器训练模块用于利用已训练的字典Dc,c∈[1,C],得出输入样本xn的稀疏编码an,并将稀疏编码作为特征,训练SVM分类器;
所述预测输出模块用于利用已训练的字典Dc,c∈[1,C],和已训练的SVM分类器对输入样本xn进行分类,输出预测标签y n
在此需要说明的是,上述实施例提供的***仅以上述各功能模块的划分进行举例说明,在实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能,该***是应用于上述实施例的基于数据驱动的有监督字典学习音频分类方法。
如图8所示,在本申请的另一个实施例中,还提供了一种存储介质,存储有程序,所述程序被处理器执行时,实现基于数据驱动的有监督字典学习音频分类方法,具体为:
S1、确定样本集类别数C,利用输入的样本xn,及其对应的类标签yn训练C个特定类字典Dc,c∈[1,C];
S2、利用已训练的字典Dc,c∈[1,C],得出输入样本xn的稀疏编码an,并将稀疏编码作为特征,训练SVM分类器;
S3、利用已训练的字典Dc,c∈[1,C],和已训练的SVM分类器对输入样本xn进行分类,输出预测标签y n
应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (6)

1.基于数据驱动的有监督字典学习音频分类方法,其特征在于,包括下述步骤:
确定样本集类别数C,利用输入的样本xn,及其对应的类标签yn训练C个字典Dc,c∈[1,C];所述训练C个字典Dc,c∈[1,C]如下:
初始化字典Dc 0,学习率η0,学习率更新率α,迭代次数T;
确定损失函数J;
开始次数为T的迭代求解过程,当迭代次数为t时,固定字典Dt-1,计算稀疏编码的集合At
固定稀疏编码的集合At,更新字典Dc t
t=t+1,进入下一次迭代,直至t=T;
所述损失函数J具体形式为:
J(A,D)=J1(D,A)+μJ2(D,A)+λJ3(A)+γ1J4(A)+γ2J5(D);
其中,μ为样本约束参数,λ为分类器约束参数,γ1为稀疏编码约束参数,γ2为字典学习约束参数;
利用已训练的字典Dc,c∈[1,C],得出输入样本xn的稀疏编码an,并将稀疏编码作为特征,训练SVM分类器;
利用已训练的字典Dc,c∈[1,C],和已训练的SVM分类器对输入样本xn进行分类,输出预测标签y n
2.根据权利要求1所述基于数据驱动的有监督字典学习音频分类方法,其特征在于,所述开始次数为T的迭代求解过程,当迭代次数为t时,固定字典Dt-1,计算稀疏编码集合At的步骤具体通过Lasso算法最小化损失函数J(Dt-1,At)得到At
3.根据权利要求1所述基于数据驱动的有监督字典学习音频分类方法,其特征在于,所述固定稀疏编码的集合At,更新字典Dc t的步骤具体如下:
计算损失函数J关于字典D的梯度Gt
初步更新,Dc t/2=Dc t-1-ηGt
通过近端投影算子Prox对初步更新的字典进行约束;
直至J(Dc t,At)<J(Dc t-1,At-1),结束对字典的更新。
4.根据权利要求1所述基于数据驱动的有监督字典学***面,将不同的样本分开;其测试阶段即为判断样本在超平面所分割空间的哪一边。
5.基于数据驱动的有监督字典学习音频分类***,其特征在于,应用于权利要求1-4中任一项所述的基于数据驱动的有监督字典学习音频分类方法,包括字典训练模块、SVM分类器训练模块、预测输出模块;
所述字典训练模块用于确定样本集类别数C,利用输入的样本xn,及其对应的类标签yn训练C个字典Dc,c∈[1,C];
所述SVM分类器训练模块用于利用已训练的字典Dc,c∈[1,C],得出输入样本xn的稀疏编码an,并将稀疏编码作为特征,训练SVM分类器;
所述预测输出模块用于利用已训练的字典Dc,c∈[1,C],和已训练的SVM分类器对输入样本xn进行分类,输出预测标签y n
6.一种存储介质,存储有程序,其特征在于:所述程序被处理器执行时,实现权利要求1-4任一项所述的基于数据驱动的有监督字典学习音频分类方法。
CN202110988214.4A 2021-08-26 2021-08-26 基于数据驱动的有监督字典学习音频分类方法、***及介质 Active CN113807408B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110988214.4A CN113807408B (zh) 2021-08-26 2021-08-26 基于数据驱动的有监督字典学习音频分类方法、***及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110988214.4A CN113807408B (zh) 2021-08-26 2021-08-26 基于数据驱动的有监督字典学习音频分类方法、***及介质

Publications (2)

Publication Number Publication Date
CN113807408A CN113807408A (zh) 2021-12-17
CN113807408B true CN113807408B (zh) 2023-08-22

Family

ID=78941984

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110988214.4A Active CN113807408B (zh) 2021-08-26 2021-08-26 基于数据驱动的有监督字典学习音频分类方法、***及介质

Country Status (1)

Country Link
CN (1) CN113807408B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115082727B (zh) * 2022-05-25 2023-05-05 江苏大学 基于多层局部感知深度字典学习的场景分类方法及***
CN115273819B (zh) * 2022-09-28 2022-12-06 深圳比特微电子科技有限公司 声音事件检测模型建立方法、装置及可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104966105A (zh) * 2015-07-13 2015-10-07 苏州大学 一种鲁棒机器错误检索方法与***
EP3166020A1 (en) * 2015-11-06 2017-05-10 Thomson Licensing Method and apparatus for image classification based on dictionary learning
CN109948735A (zh) * 2019-04-02 2019-06-28 广东工业大学 一种多标签分类方法、***、装置及存储介质
CN111160387A (zh) * 2019-11-28 2020-05-15 广东工业大学 一种基于多视角字典学习的图模型

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118141344A (zh) * 2017-10-27 2024-06-07 高等工艺学校 用于估计扣除用户引起的伪影的用户耳内的噪声暴露量的方法和***

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104966105A (zh) * 2015-07-13 2015-10-07 苏州大学 一种鲁棒机器错误检索方法与***
EP3166020A1 (en) * 2015-11-06 2017-05-10 Thomson Licensing Method and apparatus for image classification based on dictionary learning
CN109948735A (zh) * 2019-04-02 2019-06-28 广东工业大学 一种多标签分类方法、***、装置及存储介质
CN111160387A (zh) * 2019-11-28 2020-05-15 广东工业大学 一种基于多视角字典学习的图模型

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
结合字典学习的多标签分类算法;宋科建;杨海南;;电子世界(02);第67-68页 *

Also Published As

Publication number Publication date
CN113807408A (zh) 2021-12-17

Similar Documents

Publication Publication Date Title
CN113807408B (zh) 基于数据驱动的有监督字典学习音频分类方法、***及介质
Jansen et al. Efficient spoken term discovery using randomized algorithms
US8484024B2 (en) Phonetic features for speech recognition
US20210005183A1 (en) Orthogonally constrained multi-head attention for speech tasks
CA3074675A1 (en) System and method for machine learning with long-range dependency
CN112884010A (zh) 基于自编码器的多模态自适应融合深度聚类模型及方法
WO2016155047A1 (zh) 低信噪比声场景下声音事件的识别方法
CN108898181B (zh) 一种图像分类模型的处理方法、装置及存储介质
Scholler et al. Sparse approximations for drum sound classification
US20230031733A1 (en) Method for training a speech recognition model and method for speech recognition
CN116824495A (zh) 危险行为识别方法、***、存储介质及计算机设备
Li et al. When speaker recognition meets noisy labels: Optimizations for front-ends and back-ends
Kumar et al. Stacked auto-encoders based visual features for speech/music classification
CN111598113A (zh) 模型优化方法、数据识别方法和数据识别装置
US20230360636A1 (en) Quality estimation for automatic speech recognition
CN111640438A (zh) 音频数据处理方法、装置、存储介质及电子设备
Sahraeian et al. Under-resourced speech recognition based on the speech manifold
US20230110719A1 (en) Systems and methods for few-shot protein fitness prediction with generative models
Saeb et al. SR-NBS: A fast sparse representation based N-best class selector for robust phoneme classification
Rao et al. Sparse Representation Classification-Based Automatic Chord Recognition For Noisy Music.
CN112634869A (zh) 命令词识别方法、设备及计算机存储介质
CN112668502A (zh) 一种基于级联匹配的快速再辨识方法与快速再辨识***
Mohand et al. Structure Adaptation of HMM applied to OCR
Kumar et al. IITG-Indigo system for NIST 2016 SRE challenge
US20220383117A1 (en) Bayesian personalization

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant