CN109087635A - 一种语音智能分类方法及*** - Google Patents

一种语音智能分类方法及*** Download PDF

Info

Publication number
CN109087635A
CN109087635A CN201811000494.8A CN201811000494A CN109087635A CN 109087635 A CN109087635 A CN 109087635A CN 201811000494 A CN201811000494 A CN 201811000494A CN 109087635 A CN109087635 A CN 109087635A
Authority
CN
China
Prior art keywords
training set
data
model
obtains
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811000494.8A
Other languages
English (en)
Inventor
饶鉴
熊展坤
刘罡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hubei University of Technology
Original Assignee
Hubei University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hubei University of Technology filed Critical Hubei University of Technology
Priority to CN201811000494.8A priority Critical patent/CN109087635A/zh
Publication of CN109087635A publication Critical patent/CN109087635A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Hospice & Palliative Care (AREA)
  • General Health & Medical Sciences (AREA)
  • Psychiatry (AREA)
  • Child & Adolescent Psychology (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明公开了一种语音智能分类方法及***。该方法包括:获取训练集语音数据;对所述训练集语音数据进行处理,得到训练集特征数据;构建初始化模型;所述初始化分类模型包括依次连接的第一卷积层、第一最大池化层、双向循环神经网络模型、第二卷积层、第二最大池化层、第一全连接层、第一dropout层、第二全连接层、第二dropout层以及线性层;通过所述训练集特征数据对所述初始化模型进行训练,得到分类模型;获取测试集语音数据;对所述测试集语音数据进行处理,得到测试集特征数据;通过所述分类模型对所述测试集特征数据进行分类。本发明的方法或***能够加快语音分类训练时的收敛速度,提高判断精度。

Description

一种语音智能分类方法及***
技术领域
本发明涉及语音分类领域,特别是涉及一种语音智能分类方法及***。
背景技术
随着深度学习技术的发展,基于深度学习的语音分类技术正在逐渐应用到各个领域中。由于语音数据是一种时序数据,而循环神经网络适用于时序数据处理,所以循环神经网络是实现语音分类的核心。语音分类就是从给定的语音数据中提取特征,将提取的特征作为循环神经网络的输入数据对神经网络进行训练,达到判断语音所属类别的效果,其经常被用于语音识别,语音情感分析等方面。语音分类所使用的循环神经网络结构的设计往往会直接影响到语音分类的效果。传统循环神经网络应用于语音分类时往往存在着收敛速度慢,分类效果不好的缺点。
发明内容
本发明的目的是提供一种语音智能分类方法及***,用以加快语音分类训练时的收敛速度,提高判断精度。
为实现上述目的,本发明提供了如下方案:
一种语音智能分类方法,所述方法包括:
获取训练集语音数据;
对所述训练集语音数据进行处理,得到训练集特征数据;
构建初始化模型;所述初始化分类模型包括依次连接的第一卷积层、第一最大池化层、双向循环神经网络模型、第二卷积层、第二最大池化层、第一全连接层、第一dropout层、第二全连接层、第二dropout层以及线性层;
通过所述训练集特征数据对所述初始化模型进行训练,得到分类模型;
获取测试集语音数据;
对所述测试集语音数据进行处理,得到测试集特征数据;
通过所述分类模型对所述测试集特征数据进行分类。
可选的,所述对所述训练集语音数据进行处理,得到训练集特征数据,具体包括:
提取所述训练集语音数据的梅尔频率倒谱系数;
根据长度阈值对所述梅尔频率倒谱系数进行长度划分,得到训练集特征数据。
可选的,所述通过所述训练集特征数据对所述初始化模型进行训练,得到分类模型,具体包括:
通过第一卷积层以及第一最大池化层对所述训练集特征数据进行卷积以及最大池化处理,得到第一卷积数据;
将所述训练集卷积数据作为所述双向循环神经网络模型的输入,得到第一输出数据;
通过所述第二卷积层以及第二最大池化层对所述第一输出数据进行卷积以及最大池化处理,得到第二卷积数据;
通过所述第一全连接层、所述第一dropout层、所述第二全连接层、所述第二dropout层以及所述线性层对所述第二卷积数据进行输出,得到第二输出数据;
判断所述第二输出数据是否在误差范围阈值内;
若是,确定所述初始化模型为分类模型;
若否,调整所述初始化模型的参数,使所述第二输出数据在所述误差范围阈值内,得到分类模型。
一种语音分类***,所述***包括:
训练集获取模块,用于获取训练集语音数据;
训练集处理模块,用于对所述训练集语音数据进行处理,得到训练集特征数据;
建模模块,用于构建初始化模型;所述初始化分类模型包括依次连接的第一卷积层、第一最大池化层、双向循环神经网络模型、第二卷积层、第二最大池化层、第一全连接层、第一dropout层、第二全连接层、第二dropout层以及线性层;
训练模块,用于通过所述训练集特征数据对所述初始化模型进行训练,得到分类模型;
测试集获取模块,用于获取测试集语音数据;
测试集处理模块,用于对所述测试集语音数据进行处理,得到测试集特征数据;
分类模块,用于通过所述分类模型对所述测试集特征数据进行分类。
可选的,所述训练集处理模块具体包括:
提取单元,用于提取所述训练集语音数据的梅尔频率倒谱系数;
划分单元,用于根据长度阈值对所述梅尔频率倒谱系数进行长度划分,得到训练集特征数据。
可选的,所述训练模块具体包括:
第一卷积及最大池化单元,用于通过第一卷积层以及第一最大池化层对所述训练集特征数据进行卷积以及最大池化处理,得到第一卷积数据;
输入单元,用于将所述训练集卷积数据作为所述双向循环神经网络模型的输入,得到第一输出数据;
第一卷积及最大池化单元,用于通过所述第二卷积层以及第二最大池化层对所述第一输出数据进行卷积以及最大池化处理,得到第二卷积数据;
输出单元,用于通过所述第一全连接层、所述第一dropout层、所述第二全连接层、所述第二dropout层以及所述线性层对所述第二卷积数据进行输出,得到第二输出数据;
判断单元,用于判断所述第二输出数据是否在误差范围阈值内;
确定单元,用于当所述第二输出数据在误差范围阈值内时,确定所述初始化模型为分类模型;
调整单元,用于当所述第二输出数据不在误差范围阈值内时,,调整所述初始化模型的参数,使所述第二输出数据在所述误差范围阈值内,得到分类模型。
与现有技术相比,本发明具有以下技术效果:本发明在将语音数据送入循环神经网络结构之前将其进行卷积与最大池化,在保证信息丢失较小的情况下尽可能的减少循环神经网络的参数,然后在经过循环神经网络结构之后再次进行卷积池化,减少了后续全连接层的参数,所以与同类方法相比,本发明能够加快模型的收敛速度,并且能够使收敛效果更好,提高语音分类的精度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例语音智能分类方法的流程图;
图2为本发明实施例语音分类***的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
如图1所示,一种语音智能分类方法包括:
步骤101:获取训练集语音数据。
步骤102:对所述训练集语音数据进行处理,得到训练集特征数据。提取所述训练集语音数据的梅尔频率倒谱系数;根据长度阈值对所述梅尔频率倒谱系数进行长度划分,得到训练集特征数据。
步骤103:构建初始化模型;所述初始化分类模型包括依次连接的第一卷积层、第一最大池化层、双向循环神经网络模型、第二卷积层、第二最大池化层、第一全连接层、第一dropout层、第二全连接层、第二dropout层以及线性层。
步骤104:通过所述训练集特征数据对所述初始化模型进行训练,得到分类模型。
通过第一卷积层以及第一最大池化层对所述训练集特征数据进行卷积以及最大池化处理,得到第一卷积数据;
将所述训练集卷积数据作为所述双向循环神经网络模型的输入,得到第一输出数据;
通过所述第二卷积层以及第二最大池化层对所述第一输出数据进行卷积以及最大池化处理,得到第二卷积数据;
通过所述第一全连接层、所述第一dropout层、所述第二全连接层、所述第二dropout层以及所述线性层对所述第二卷积数据进行输出,得到第二输出数据;
判断所述第二输出数据是否在误差范围阈值内;
若是,确定所述初始化模型为分类模型;
若否,调整所述初始化模型的参数,使所述第二输出数据在所述误差范围阈值内,得到分类模型。
步骤105:获取测试集语音数据。
步骤106:对所述测试集语音数据进行处理,得到测试集特征数据。
步骤107:通过所述分类模型对所述测试集特征数据进行分类。
具体实施步骤如下:
步骤1,用户初始化参数,所述初始化参数包括学习率learning_rate=0.000015,分类数量classnum=10,GRU中神经元个数为64,训练样本分批输入,每批训练样本个数记为batchsize=64,正则指数L2_penalty=1e-4,最大训练代数maxstep=20000,一段语音的分帧个数step=20,一帧MFCC的特征长度steplength,规整化后一帧MFCC特征长度D_input=80等等;
步骤2,处理训练集,规整化输入训练集数据的结构。
步骤2.1,取一个批次的语音,提取出MFCC特征并将其制为[64,20,steplength]的大小;
步骤2.2,将steplength这一维度的长度规整化成D_input,即该批输入训练集数据的结构为inputs_T=[64,20,80];将所有训练集处理完毕;
步骤3,构造基于卷积双向GRU的网络结构,输入训练数据;
步骤3.1,对输入数据进行卷积操作。将该批输入训练集数据的格式重置为[64,20,80,1]以方便卷积,用[1*1*3*1]的卷积模板进行卷积,卷积模板的步长为[1*1*1*1]。输入训练集数据经过卷积层后不改变数据大小;然后将卷积后数据送入最大池化层,以[1*1*2*1]模板进行池化,最终使得inputs_T变为[64,20,40,1],然后重置回[64,20,40];对池化后数据进行转置,转置的数据格式为[20,64,40];
步骤3.2,构造两个GRU循环神经元;
步骤3.3,将inputs_T以帧的正时序和逆时序分别送入两个GRU神经元,分别得出两个[20,64,64]的矩阵,将这两个矩阵进行拼接,最终拼接成为一个[20,64,128]的矩阵,该矩阵记为netoutput;然后将netoutput的结构转置为[64,20,128];
步骤3.4,对双向GRU的输出数据进行卷积操作。将netoutput的结构重置为[64,20,128,1]以方便卷积,用[1*1*3*1]的卷积模板进行卷积,步长为[1*1*1*1],输出数据经过卷积层后不改变数据大小;然后过最大池化层,以[1*1*2*1]模板进行池化,最终使得netoutput的结构变为[64,20,64,1],然后再将它重置回[64,20,64],将netouput再次重置成[64,20*64,以便送入全连接层;
步骤4,将netoutput送入全连接层。全连接层权值W_FC1的结构为[20*64,1024],偏置b_FC1的结构为[1024],netoutput经过全连接层处理之后,输出的数据格式为[64,1024];
步骤5,将全连接层处理过后的netoutput送入dropout层,dropout层的作用是防止或减轻过拟合,让某个神经元的激活值以概率drop_keep_rate=0.7停止工作,经过dropout层处理后得到netoutput_1;
步骤6,将netoutput_1再次送入全连接层;
步骤7,全连接层权值W_FC2的结构为[1024,512],偏置b_FC2的结构为[512],netoutput_1经过全连接层处理之后,输出的数据格式为[64,512];
步骤8,将全连接层处理过后的netoutput_1送入dropout层,操作步骤同步骤6,得到netoutput_2;
步骤9,将netoutput_2送入最后的线性层,线性层权值W_FC3的结构为[512,10],偏置b_FC1的结构为[10],netoutput_2经过线性层处理之后,最终输出的数据格式为[64,10];
步骤10,该方法使用梯度下降法作为参数的优化算法,其使用的损失函数如下:
loss=loss_1+L2_penalty*loss_2
loss_1为网络最终输出与标签的交叉熵,loss_2为正则函数。
步骤11,循环重复步骤2至步骤10,循环次数为20000;
步骤12,至此训练步骤已经结束;
最终网络测试准确率为95%。
根据本发明提供的具体实施例,本发明公开了以下技术效果:本发明在将语音数据送入循环神经网络结构之前将其进行卷积与最大池化,在保证信息丢失较小的情况下尽可能的减少循环神经网络的参数,然后在经过循环神经网络结构之后再次进行卷积池化,减少了后续全连接层的参数,所以与同类方法相比,本发明能够加快模型的收敛速度,并且能够使收敛效果更好,提高语音分类的精度。
如图2所示,一种语音分类***包括:
训练集获取模块201,用于获取训练集语音数据。
训练集处理模块202,用于对所述训练集语音数据进行处理,得到训练集特征数据。
所述训练集处理模块202具体包括:
提取单元,用于提取所述训练集语音数据的梅尔频率倒谱系数;
划分单元,用于根据长度阈值对所述梅尔频率倒谱系数进行长度划分,得到训练集特征数据。
建模模块203,用于构建初始化模型;所述初始化分类模型包括依次连接的第一卷积层、第一最大池化层、双向循环神经网络模型、第二卷积层、第二最大池化层、第一全连接层、第一dropout层、第二全连接层、第二dropout层以及线性层。
训练模块204,用于通过所述训练集特征数据对所述初始化模型进行训练,得到分类模型。
所述训练模块204具体包括:
第一卷积及最大池化单元,用于通过第一卷积层以及第一最大池化层对所述训练集特征数据进行卷积以及最大池化处理,得到第一卷积数据;
输入单元,用于将所述训练集卷积数据作为所述双向循环神经网络模型的输入,得到第一输出数据;
第一卷积及最大池化单元,用于通过所述第二卷积层以及第二最大池化层对所述第一输出数据进行卷积以及最大池化处理,得到第二卷积数据;
输出单元,用于通过所述第一全连接层、所述第一dropout层、所述第二全连接层、所述第二dropout层以及所述线性层对所述第二卷积数据进行输出,得到第二输出数据;
判断单元,用于判断所述第二输出数据是否在误差范围阈值内;
确定单元,用于当所述第二输出数据在误差范围阈值内时,确定所述初始化模型为分类模型;
调整单元,用于当所述第二输出数据不在误差范围阈值内时,,调整所述初始化模型的参数,使所述第二输出数据在所述误差范围阈值内,得到分类模型。
测试集获取模块205,用于获取测试集语音数据。
测试集处理模块206,用于对所述测试集语音数据进行处理,得到测试集特征数据。
分类模块207,用于通过所述分类模型对所述测试集特征数据进行分类。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的***而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。

Claims (6)

1.一种语音智能分类方法,其特征在于,所述方法包括:
获取训练集语音数据;
对所述训练集语音数据进行处理,得到训练集特征数据;
构建初始化模型;所述初始化分类模型包括依次连接的第一卷积层、第一最大池化层、双向循环神经网络模型、第二卷积层、第二最大池化层、第一全连接层、第一dropout层、第二全连接层、第二dropout层以及线性层;
通过所述训练集特征数据对所述初始化模型进行训练,得到分类模型;
获取测试集语音数据;
对所述测试集语音数据进行处理,得到测试集特征数据;
通过所述分类模型对所述测试集特征数据进行分类。
2.根据权利要求1所述的语音智能分类方法,其特征在于,所述对所述训练集语音数据进行处理,得到训练集特征数据,具体包括:
提取所述训练集语音数据的梅尔频率倒谱系数;
根据长度阈值对所述梅尔频率倒谱系数进行长度划分,得到训练集特征数据。
3.根据权利要求1所述的语音智能分类方法,其特征在于,所述通过所述训练集特征数据对所述初始化模型进行训练,得到分类模型,具体包括:
通过第一卷积层以及第一最大池化层对所述训练集特征数据进行卷积以及最大池化处理,得到第一卷积数据;
将所述训练集卷积数据作为所述双向循环神经网络模型的输入,得到第一输出数据;
通过所述第二卷积层以及第二最大池化层对所述第一输出数据进行卷积以及最大池化处理,得到第二卷积数据;
通过所述第一全连接层、所述第一dropout层、所述第二全连接层、所述第二dropout层以及所述线性层对所述第二卷积数据进行输出,得到第二输出数据;
判断所述第二输出数据是否在误差范围阈值内;
若是,确定所述初始化模型为分类模型;
若否,调整所述初始化模型的参数,使所述第二输出数据在所述误差范围阈值内,得到分类模型。
4.一种语音分类***,其特征在于,所述***包括:
训练集获取模块,用于获取训练集语音数据;
训练集处理模块,用于对所述训练集语音数据进行处理,得到训练集特征数据;
建模模块,用于构建初始化模型;所述初始化分类模型包括依次连接的第一卷积层、第一最大池化层、双向循环神经网络模型、第二卷积层、第二最大池化层、第一全连接层、第一dropout层、第二全连接层、第二dropout层以及线性层;
训练模块,用于通过所述训练集特征数据对所述初始化模型进行训练,得到分类模型;
测试集获取模块,用于获取测试集语音数据;
测试集处理模块,用于对所述测试集语音数据进行处理,得到测试集特征数据;
分类模块,用于通过所述分类模型对所述测试集特征数据进行分类。
5.根据权利要求4所述的语音分类***,其特征在于,所述训练集处理模块具体包括:
提取单元,用于提取所述训练集语音数据的梅尔频率倒谱系数;
划分单元,用于根据长度阈值对所述梅尔频率倒谱系数进行长度划分,得到训练集特征数据。
6.根据权利要求5所述的语音分类***,其特征在于,所述训练模块具体包括:
第一卷积及最大池化单元,用于通过第一卷积层以及第一最大池化层对所述训练集特征数据进行卷积以及最大池化处理,得到第一卷积数据;
输入单元,用于将所述训练集卷积数据作为所述双向循环神经网络模型的输入,得到第一输出数据;
第一卷积及最大池化单元,用于通过所述第二卷积层以及第二最大池化层对所述第一输出数据进行卷积以及最大池化处理,得到第二卷积数据;
输出单元,用于通过所述第一全连接层、所述第一dropout层、所述第二全连接层、所述第二dropout层以及所述线性层对所述第二卷积数据进行输出,得到第二输出数据;
判断单元,用于判断所述第二输出数据是否在误差范围阈值内;
确定单元,用于当所述第二输出数据在误差范围阈值内时,确定所述初始化模型为分类模型;
调整单元,用于当所述第二输出数据不在误差范围阈值内时,,调整所述初始化模型的参数,使所述第二输出数据在所述误差范围阈值内,得到分类模型。
CN201811000494.8A 2018-08-30 2018-08-30 一种语音智能分类方法及*** Pending CN109087635A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811000494.8A CN109087635A (zh) 2018-08-30 2018-08-30 一种语音智能分类方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811000494.8A CN109087635A (zh) 2018-08-30 2018-08-30 一种语音智能分类方法及***

Publications (1)

Publication Number Publication Date
CN109087635A true CN109087635A (zh) 2018-12-25

Family

ID=64795231

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811000494.8A Pending CN109087635A (zh) 2018-08-30 2018-08-30 一种语音智能分类方法及***

Country Status (1)

Country Link
CN (1) CN109087635A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110176248A (zh) * 2019-05-23 2019-08-27 广西交通科学研究院有限公司 道路声音识别方法、***、计算机设备及可读存储介质
CN110397131A (zh) * 2019-07-01 2019-11-01 厦门瑞尔特卫浴科技股份有限公司 一种马桶冲水量的自动控制***及方法
CN112885315A (zh) * 2020-12-24 2021-06-01 携程旅游信息技术(上海)有限公司 模型的生成方法、音乐合成的方法、***、设备及介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106782602A (zh) * 2016-12-01 2017-05-31 南京邮电大学 基于长短时间记忆网络和卷积神经网络的语音情感识别方法
CN107961007A (zh) * 2018-01-05 2018-04-27 重庆邮电大学 一种结合卷积神经网络和长短时记忆网络的脑电识别方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106782602A (zh) * 2016-12-01 2017-05-31 南京邮电大学 基于长短时间记忆网络和卷积神经网络的语音情感识别方法
CN107961007A (zh) * 2018-01-05 2018-04-27 重庆邮电大学 一种结合卷积神经网络和长短时记忆网络的脑电识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
艾玲梅第: "基于循环卷积神经网络的目标检测与分类", 《计算机技术与发展》 *
荣光辉等: "基于深度学习的问答匹配方法", 《计算机应用》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110176248A (zh) * 2019-05-23 2019-08-27 广西交通科学研究院有限公司 道路声音识别方法、***、计算机设备及可读存储介质
CN110397131A (zh) * 2019-07-01 2019-11-01 厦门瑞尔特卫浴科技股份有限公司 一种马桶冲水量的自动控制***及方法
CN112885315A (zh) * 2020-12-24 2021-06-01 携程旅游信息技术(上海)有限公司 模型的生成方法、音乐合成的方法、***、设备及介质
CN112885315B (zh) * 2020-12-24 2024-01-02 携程旅游信息技术(上海)有限公司 模型的生成方法、音乐合成的方法、***、设备及介质

Similar Documents

Publication Publication Date Title
CN108597539B (zh) 基于参数迁移和语谱图的语音情感识别方法
CN109036465B (zh) 语音情感识别方法
CN106952649A (zh) 基于卷积神经网络和频谱图的说话人识别方法
CN102664011B (zh) 一种快速说话人识别方法
CN109816092A (zh) 深度神经网络训练方法、装置、电子设备及存储介质
CN104732978B (zh) 基于联合深度学习的文本相关的说话人识别方法
CN110675860A (zh) 基于改进注意力机制并结合语义的语音信息识别方法及***
CN106297773B (zh) 一种神经网络声学模型训练方法
CN109599129A (zh) 基于注意力机制和卷积神经网络的语音抑郁症识别方法
CN110289003A (zh) 一种声纹识别的方法、模型训练的方法以及服务器
CN108648759A (zh) 一种文本无关的声纹识别方法
CN108777140A (zh) 一种非平行语料训练下基于vae的语音转换方法
CN107393554A (zh) 一种声场景分类中融合类间标准差的特征提取方法
CN108806667A (zh) 基于神经网络的语音与情绪的同步识别方法
CN106782511A (zh) 修正线性深度自编码网络语音识别方法
CN106897746A (zh) 数据分类模型训练方法和装置
CN110459225B (zh) 一种基于cnn融合特征的说话人辨认***
CN110164476A (zh) 一种基于多输出特征融合的blstm的语音情感识别方法
CN109119072A (zh) 基于dnn-hmm的民航陆空通话声学模型构建方法
CN103824054A (zh) 一种基于级联深度神经网络的人脸属性识别方法
CN110428843A (zh) 一种语音性别识别深度学习方法
CN103544963A (zh) 一种基于核半监督判别分析的语音情感识别方法
CN109087635A (zh) 一种语音智能分类方法及***
CN110148408A (zh) 一种基于深度残差的中文语音识别方法
CN108922513A (zh) 语音区分方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
AD01 Patent right deemed abandoned
AD01 Patent right deemed abandoned

Effective date of abandoning: 20230324