CN113807408A - 基于数据驱动的有监督字典学习音频分类方法、***及介质 - Google Patents

基于数据驱动的有监督字典学习音频分类方法、***及介质 Download PDF

Info

Publication number
CN113807408A
CN113807408A CN202110988214.4A CN202110988214A CN113807408A CN 113807408 A CN113807408 A CN 113807408A CN 202110988214 A CN202110988214 A CN 202110988214A CN 113807408 A CN113807408 A CN 113807408A
Authority
CN
China
Prior art keywords
dictionary
data
learning
training
class
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110988214.4A
Other languages
English (en)
Other versions
CN113807408B (zh
Inventor
陈真
邱小群
向友君
张淘珊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN202110988214.4A priority Critical patent/CN113807408B/zh
Publication of CN113807408A publication Critical patent/CN113807408A/zh
Application granted granted Critical
Publication of CN113807408B publication Critical patent/CN113807408B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/28Determining representative reference patterns, e.g. by averaging or distorting; Generating dictionaries
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering
    • G10L2015/0633Creating reference templates; Clustering using lexical or orthographic knowledge sources

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于数据驱动的有监督字典学习音频分类方法、***及介质。该方法包括:确定样本集类别数;利用输入的样本及其对应的类标签训练特定类字典;利用已训练的字典得出输入样本的稀疏编码,并将稀疏编码作为特征,训练SVM分类器;利用已训练的字典和已训练的SVM分类器对输入样本进行分类,输出预测标签。本发明通过每个类学习一个字典来实现最小化类内均匀性,最大化类的可分性,提高稀疏性以控制信号在字典上分解的复杂性,同时最小化基于类的重构错误,并提高字典的成对正交性。本发明能够广泛应用于多个场景中,如计算听觉场景识别和音乐和弦识别;其在数据集上的测试也相对稳定,泛化能力表现优秀。

Description

基于数据驱动的有监督字典学习音频分类方法、***及介质
技术领域
本发明属于稀疏表示,监督字典学习的技术领域,具体涉及一种基于数据驱动的有监督字典学习音频分类方法、***及介质。
背景技术
传统的字典学习公式最大限度地减小了给定信号与其在学习字典上的稀疏表示之间的重构误差。虽然这个方法对于解决信号去噪很方便,但是由于它的最终目标是通过学习到的字典去获得训练信号的区分性分解,所以它可能不适用于分类任务。由于传统字典学习技术在分类方面的局限性,有监督字典学习得到了广泛的应用。
Ramirez等人建议通过加强字典的正交性来获取不同的信息,使学习字典尽可能的不同,即一个类对应一个字典;Fulkerson等人提出首先学习一个非常大的字典,然后根据包含凝聚信息瓶颈(AIB)的预定义准则合并字典的原子以起到压缩字典的效果;Mairal等人提出联合学习字典与分类任务;随后张和杨等人提出将类别标签嵌入字典以及稀疏编码的学习当中以达到最小化类内差异与最大化类间差异的作用。
发明内容
本发明的主要目的在于克服传统字典学习方法对音频识别任务的缺点与不足,提供一种基于数据驱动的有监督字典学习音频分类方法、***及介质,针对每个不同的类,学习不同的对应的字典,以提取异构信息进行分类,通过促进类特定字典之间的成对正交性和控制音频片段在这些字典上分解的稀疏性结构,寻求最小化类内的同质性和最大化类间的可分离性。
为了达到上述目的,本发明采用以下技术方案:
本发明的一个方面,提供了一种基于数据驱动的有监督字典学习音频分类方法,包括下述步骤:
S1、确定样本集类别数C,利用输入的样本xn,及其对应的类标签yn训练C个特定类字典Dc,c∈[1,C];
S2、利用已训练的字典Dc,c∈[1,C],得出输入样本xn的稀疏编码an,并将稀疏编码作为特征,训练SVM分类器;
S3、利用已训练的字典Dc,c∈[1,C],和已训练的SVM分类器对输入样本xn进行分类,输出预测标签y n
作为优选的技术方案,所述训练C个特定类字典Dc,c∈[1,C]如下:
S11、初始化字典Dc 0,学习率η0,学习率更新率α,迭代次数T;
S12、确定损失函数J;
S13、开始次数为T的迭代求解过程,当迭代次数为t时,固定字典Dt-1,计算稀疏编码集合At
S14、固定稀疏编码的集合At,更新字典Dc t
S15、t=t+1,进入下一次迭代,直至t=T。
作为优选的技术方案,所述损失函数J具体形式为:
J(A,D)=J1(D,A)+μJ2(D,A)+λJ3(A)+γ1J4(A)+γ2J5(D);
Figure BDA0003231440840000021
Figure BDA0003231440840000022
Figure BDA0003231440840000023
Figure BDA0003231440840000031
Figure BDA0003231440840000032
其中,μ为样本约束参数,λ为分类器约束参数,γ1为稀疏编码约束参数,γ2为字典学习约束参数。
作为优选的技术方案,所述开始次数为T的迭代求解过程,当迭代次数为t时,固定字典Dt-1,计算稀疏编码集合At的步骤具体通过Lasso算法最小化损失函数J(Dt-1,At)得到At
作为优选的技术方案,所述固定稀疏编码的集合At,更新字典Dc t的步骤具体如下:
S141、计算损失函数J关于字典D的梯度Gt
S142、初步更新,Dc t/2=Dc t-1-ηGt
S143、通过近端投影算子Prox对初步更新的字典进行约束;
S144、直至J(Dc t,At)<J(Dc t-1,At-1),结束对字典的更新。
作为优选的技术方案,所述训练SVM分类器具体为:训练得一个超平面,将不同的样本分开;其测试阶段即为判断样本在超平面所分割空间的哪一边。
本发明的另一个方面,还提供了一种基于数据驱动的有监督字典学习音频分类***,应用于上述的基于数据驱动的有监督字典学习音频分类方法,包括字典训练模块、SVM分类器训练模块、预测输出模块;
所述字典训练模块用于确定样本集类别数C,利用输入的样本xn,及其对应的类标签yn训练C个特定类字典Dc,c∈[1,C];
所述SVM分类器训练模块用于利用已训练的字典Dc,c∈[1,C],得出输入样本xn的稀疏编码an,并将稀疏编码作为特征,训练SVM分类器;
所述预测输出模块用于利用已训练的字典Dc,c∈[1,C],和已训练的SVM分类器对输入样本xn进行分类,输出预测标签y n
本发明的另一个方面,还提供了一种存储介质,存储有程序,所述程序被处理器执行时,实现上述的基于数据驱动的有监督字典学习音频分类方法。
本发明与现有技术相比,具有如下优点和有益效果:
(1)本发明公开的基于数据驱动的有监督字典学习音频识别方法通过每个类学习一个字典来实现最小化类内均匀性,最大化类的可分性,提高稀疏性以控制信号在字典上分解的复杂性,同时最小化基于类的重构错误,并提高字典的成对正交性;
(2)本发明提出的方法能够广泛应用于多个场景中,如计算听觉场景识别和音乐和弦识别;其在数据集上的测试也相对稳定,泛化能力表现优秀。
(3)本发明提出的方法能够精确提升对音频的识别,对语音认证、音频辨伪等安全计算领域具有优异的性能。
附图说明
图1是本发明实施例基于数据驱动的有监督字典学习音频分类方法的实现步骤流程图;
图2是本发明实施例特定类字典Dc的学习步骤流程图;
图3是本发明实施例SVM分类器的训练步骤流程图;
图4是本发明实施例测试阶段进行分类并输出预测标签的流程示意图;
图5是本发明实施例在Rouen数据集上学习的成对特定类字典的相似性图;
图6是本发明实施例在音乐和弦数据集上学习的成对特定类字典的相似性图;
图7是本发明实施例基于数据驱动的有监督字典学习音频分类***的结构示意图;
图8是本发明实施例的存储介质的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
实施例
如图1所示,本实施例提供了一种基于数据驱动的有监督字典学习音频分类方,包括以下步骤:
S1、确定样本集类别数C,利用输入的样本xn,及其对应的类标签yn训练C个特定类字典Dc,c∈[1,C],如图2所示,具体包括以下步骤:
S11、初始化字典Dc 0,学习率η0,学习率更新率α,迭代次数T;
S12、确定损失函数J;
更进一步的,所述损失函数J具体形式为:
J(A,D)=J1(D,A)+μJ2(D,A)+λJ3(A)+γ1J4(A)+γ2J5(D);
Figure BDA0003231440840000051
Figure BDA0003231440840000052
Figure BDA0003231440840000053
Figure BDA0003231440840000061
Figure BDA0003231440840000062
其中,μ为样本约束参数,λ为分类器约束参数,γ1为稀疏编码约束参数,γ2为字典学习约束参数。
S13、开始次数为T的迭代求解过程,当迭代次数为t时,固定字典Dt-1,计算稀疏编码At
更进一步的,所述稀疏编码At,通过Lasso算法最小化损失函数J(Dt-1,At)得到。
S14、固定稀疏编码At,更新字典Dc t,包括以下步骤:
S141、计算损失函数J关于字典D的梯度Gt;具体的,损失函数为:
Figure BDA0003231440840000063
其中:
Figure BDA0003231440840000064
Figure BDA0003231440840000065
Figure BDA0003231440840000066
梯度为:
Figure BDA0003231440840000067
其中:
Figure BDA0003231440840000068
Figure BDA0003231440840000071
Figure BDA0003231440840000072
S142、初步更新,Dc t/2=Dc t-1-ηGt
S143、通过近端投影算子Prox对初步更新的字典进行约束;
S144、直至J(Dc t,At)<J(Dc t-1,At-1),结束对字典的更新。
S15、t=t+1,进入下一次迭代,直至t=T。
S2、利用已训练的字典Dc,c∈[1,C],得出输入样本xn的稀疏编码an,并将稀疏编码作为特征,训练SVM分类器,如图3所示;
所述训练SVM分类器具体为:训练得一个超平面,将不同的样本分开;其测试阶段即为判断样本在超平面所分割空间的哪一边。
S3、在测试阶段,利用已训练的字典Dc,c∈[1,C],和已训练的SVM分类器对输入样本xn进行分类,输出预测标签y n,如图4所示。
在本实施例中,对两种不同的音频信号分类问题进行了实验,分别是计算听觉场景识别和音乐和弦识别:
(1)在计算听觉识别问题上,本发明在East Anglia和Litis Rouen数据集上均进行了实验。表1列出了本发明的方法在这个问题上与其他方法的比较结果;
Figure BDA0003231440840000073
Figure BDA0003231440840000081
表1.本发明的方法在计算听觉识别问题上与其他方法的比较结果
由表1易知,本发明的方法与某些方法相比已经完全胜出,在两个数据集上的测试也相对稳定,泛化能力表现优秀,表明本发明的方法还有一定的前景可以探索。图5展示了不同字典的成对相似性,可以看出,在计算听觉场景识别问题上,不同类别对应的字典还是有较大的相似性,即不同类别可能提取到的特征是相似的,不利于分类,越来越多的类别使得强制执行成对字典不相似难度增加。
(2)在音乐和弦识别问题上,本发明制作了一个包含14个不同类别的2156个音乐和弦样本,每个样本持续时间为2s,频率为44100Hz。用本发明的方法与一些传统特征相比较,得出如表2所示的结果;
Features Music chord
Chroma 0.19±0.01
Interpolated PSD 0.15±0.02
Spectrogram pooling 0.14±0.01
Dictionary learning 0.66±0.01
表2.本发明的方法在音乐和弦识别问题上与传统特征的比较结果
由表2易知,本发明的方法优于其他传统特征。图6展示了不同字典的成对相似性,可以看到,不同字典的成对相似性最大值是在左上-右下的对角线上,说明本发明的方法在音乐和弦识别数据集上达到了需要的效果,即不同类别对应的字典能够提取互异的信息,这也是本发明的方法战胜其他传统特征的一个很好的说明。
如图7所示,在本申请的另一个实施例中,提供了一种基于数据驱动的有监督字典学习音频分类***,该***包括字典训练模块、SVM分类器训练模块、预测输出模块;
所述字典训练模块用于确定样本集类别数C,利用输入的样本xn,及其对应的类标签yn训练C个特定类字典Dc,c∈[1,C];
所述SVM分类器训练模块用于利用已训练的字典Dc,c∈[1,C],得出输入样本xn的稀疏编码an,并将稀疏编码作为特征,训练SVM分类器;
所述预测输出模块用于利用已训练的字典Dc,c∈[1,C],和已训练的SVM分类器对输入样本xn进行分类,输出预测标签y n
在此需要说明的是,上述实施例提供的***仅以上述各功能模块的划分进行举例说明,在实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能,该***是应用于上述实施例的基于数据驱动的有监督字典学习音频分类方法。
如图8所示,在本申请的另一个实施例中,还提供了一种存储介质,存储有程序,所述程序被处理器执行时,实现基于数据驱动的有监督字典学习音频分类方法,具体为:
S1、确定样本集类别数C,利用输入的样本xn,及其对应的类标签yn训练C个特定类字典Dc,c∈[1,C];
S2、利用已训练的字典Dc,c∈[1,C],得出输入样本xn的稀疏编码an,并将稀疏编码作为特征,训练SVM分类器;
S3、利用已训练的字典Dc,c∈[1,C],和已训练的SVM分类器对输入样本xn进行分类,输出预测标签y n
应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (8)

1.基于数据驱动的有监督字典学习音频分类方法,其特征在于,包括下述步骤:
确定样本集类别数C,利用输入的样本xn,及其对应的类标签yn训练C个特定类字典Dc,c∈[1,C];
利用已训练的字典Dc,c∈[1,C],得出输入样本xn的稀疏编码an,并将稀疏编码作为特征,训练SVM分类器;
利用已训练的字典Dc,c∈[1,C],和已训练的SVM分类器对输入样本xn进行分类,输出预测标签y n
2.根据权利要求1所述基于数据驱动的有监督字典学习音频分类方法,其特征在于,所述训练C个特定类字典Dc,c∈[1,C]如下:
初始化字典Dc 0,学习率η0,学习率更新率α,迭代次数T;
确定损失函数J;
开始次数为T的迭代求解过程,当迭代次数为t时,固定字典Dt-1,计算稀疏编码的集合At
固定稀疏编码的集合At,更新字典Dc t
t=t+1,进入下一次迭代,直至t=T。
3.根据权利要求2所述基于数据驱动的有监督字典学习音频分类方法,其特征在于,所述损失函数J具体形式为:
J(A,D)=J1(D,A)+μJ2(D,A)+λJ3(A)+γ1J4(A)+γ2J5(D);
Figure FDA0003231440830000011
Figure FDA0003231440830000012
Figure FDA0003231440830000013
Figure FDA0003231440830000014
Figure FDA0003231440830000015
其中,μ为样本约束参数,λ为分类器约束参数,γ1为稀疏编码约束参数,γ2为字典学习约束参数。
4.根据权利要求2所述基于数据驱动的有监督字典学习音频分类方法,其特征在于,所述开始次数为T的迭代求解过程,当迭代次数为t时,固定字典Dt-1,计算稀疏编码集合At的步骤具体通过Lasso算法最小化损失函数J(Dt-1,At)得到At
5.根据权利要求2所述基于数据驱动的有监督字典学习音频分类方法,其特征在于,所述固定稀疏编码的集合At,更新字典Dc t的步骤具体如下:
计算损失函数J关于字典D的梯度Gt
初步更新,Dc t/2=Dc t-1-ηGt
通过近端投影算子Prox对初步更新的字典进行约束;
直至J(Dc t,At)<J(Dc t-1,At-1),结束对字典的更新。
6.根据权利要求1所述基于数据驱动的有监督字典学***面,将不同的样本分开;其测试阶段即为判断样本在超平面所分割空间的哪一边。
7.基于数据驱动的有监督字典学习音频分类***,其特征在于,应用于权利要求1-6中任一项所述的基于数据驱动的有监督字典学习音频分类方法,包括字典训练模块、SVM分类器训练模块、预测输出模块;
所述字典训练模块用于确定样本集类别数C,利用输入的样本xn,及其对应的类标签yn训练C个特定类字典Dc,c∈[1,C];
所述SVM分类器训练模块用于利用已训练的字典Dc,c∈[1,C],得出输入样本xn的稀疏编码an,并将稀疏编码作为特征,训练SVM分类器;
所述预测输出模块用于利用已训练的字典Dc,c∈[1,C],和已训练的SVM分类器对输入样本xn进行分类,输出预测标签y n
8.一种存储介质,存储有程序,其特征在于:所述程序被处理器执行时,实现权利要求1-6任一项所述的基于数据驱动的有监督字典学习音频分类方法。
CN202110988214.4A 2021-08-26 2021-08-26 基于数据驱动的有监督字典学习音频分类方法、***及介质 Active CN113807408B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110988214.4A CN113807408B (zh) 2021-08-26 2021-08-26 基于数据驱动的有监督字典学习音频分类方法、***及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110988214.4A CN113807408B (zh) 2021-08-26 2021-08-26 基于数据驱动的有监督字典学习音频分类方法、***及介质

Publications (2)

Publication Number Publication Date
CN113807408A true CN113807408A (zh) 2021-12-17
CN113807408B CN113807408B (zh) 2023-08-22

Family

ID=78941984

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110988214.4A Active CN113807408B (zh) 2021-08-26 2021-08-26 基于数据驱动的有监督字典学习音频分类方法、***及介质

Country Status (1)

Country Link
CN (1) CN113807408B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115082727A (zh) * 2022-05-25 2022-09-20 江苏大学 基于多层局部感知深度字典学习的场景分类方法及***
CN115273819A (zh) * 2022-09-28 2022-11-01 深圳比特微电子科技有限公司 声音事件检测模型建立方法、装置及可读存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104966105A (zh) * 2015-07-13 2015-10-07 苏州大学 一种鲁棒机器错误检索方法与***
EP3166020A1 (en) * 2015-11-06 2017-05-10 Thomson Licensing Method and apparatus for image classification based on dictionary learning
CN109948735A (zh) * 2019-04-02 2019-06-28 广东工业大学 一种多标签分类方法、***、装置及存储介质
CN111160387A (zh) * 2019-11-28 2020-05-15 广东工业大学 一种基于多视角字典学习的图模型
US20200312321A1 (en) * 2017-10-27 2020-10-01 Ecole De Technologie Superieure In-ear nonverbal audio events classification system and method

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104966105A (zh) * 2015-07-13 2015-10-07 苏州大学 一种鲁棒机器错误检索方法与***
EP3166020A1 (en) * 2015-11-06 2017-05-10 Thomson Licensing Method and apparatus for image classification based on dictionary learning
US20200312321A1 (en) * 2017-10-27 2020-10-01 Ecole De Technologie Superieure In-ear nonverbal audio events classification system and method
CN109948735A (zh) * 2019-04-02 2019-06-28 广东工业大学 一种多标签分类方法、***、装置及存储介质
CN111160387A (zh) * 2019-11-28 2020-05-15 广东工业大学 一种基于多视角字典学习的图模型

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
宋科建;杨海南;: "结合字典学习的多标签分类算法", 电子世界, no. 02, pages 67 - 68 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115082727A (zh) * 2022-05-25 2022-09-20 江苏大学 基于多层局部感知深度字典学习的场景分类方法及***
CN115082727B (zh) * 2022-05-25 2023-05-05 江苏大学 基于多层局部感知深度字典学习的场景分类方法及***
CN115273819A (zh) * 2022-09-28 2022-11-01 深圳比特微电子科技有限公司 声音事件检测模型建立方法、装置及可读存储介质

Also Published As

Publication number Publication date
CN113807408B (zh) 2023-08-22

Similar Documents

Publication Publication Date Title
US20240095501A1 (en) Multi-modal adaptive fusion deep clustering model and method based on auto-encoder
US11908457B2 (en) Orthogonally constrained multi-head attention for speech tasks
CN113807408A (zh) 基于数据驱动的有监督字典学习音频分类方法、***及介质
WO2020003533A1 (en) Pattern recognition apparatus, pattern recognition method, and computer-readable recording medium
CN109308912B (zh) 音乐风格识别方法、装置、计算机设备及存储介质
WO2019214289A1 (zh) 图像处理方法、装置、电子设备及存储介质
CN108898181B (zh) 一种图像分类模型的处理方法、装置及存储介质
CN110188827A (zh) 一种基于卷积神经网络和递归自动编码器模型的场景识别方法
CN110705636B (zh) 一种基于多样本字典学习和局部约束编码的图像分类方法
US20240177697A1 (en) Audio data processing method and apparatus, computer device, and storage medium
US9269024B2 (en) Image recognition system based on cascaded over-complete dictionaries
Huang et al. Deep learning vector quantization for acoustic information retrieval
CN114663798A (zh) 一种基于强化学习的单步视频内容识别方法
CN116910571A (zh) 一种基于原型对比学习的开集域适应方法及***
CN111860834A (zh) 一种神经网络调优方法、***、终端以及存储介质
CN114613450A (zh) 药物分子的性质预测方法、装置、存储介质及计算机设备
Nekhaev et al. Margin based knowledge distillation for mobile face recognition
CN116415181A (zh) 一种多标签数据分类方法
Zhao et al. Asymmetric deep hashing for person re-identifications
CN115881160A (zh) 一种融合知识图谱的音乐流派分类方法及***
CN115510855A (zh) 多关系词对标签空间的实体关系联合抽取方法
ES2536560T3 (es) Método para descubrir y reconocer patrones
KR20180048226A (ko) 피부 상태 분류 장치와, 그 장치에서 사용되는 피부 상태 분류 모형을 생성하는 장치 및 그 방법
Morsali et al. Face: Fast, accurate and context-aware audio annotation and classification
US20220383117A1 (en) Bayesian personalization

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant