CN110428843A - 一种语音性别识别深度学习方法 - Google Patents

一种语音性别识别深度学习方法 Download PDF

Info

Publication number
CN110428843A
CN110428843A CN201910719758.3A CN201910719758A CN110428843A CN 110428843 A CN110428843 A CN 110428843A CN 201910719758 A CN201910719758 A CN 201910719758A CN 110428843 A CN110428843 A CN 110428843A
Authority
CN
China
Prior art keywords
voice
deep learning
cochlea
frame
capsule
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910719758.3A
Other languages
English (en)
Other versions
CN110428843B (zh
Inventor
陈晋生
罗世操
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Jiefeng Technology Co ltd
Original Assignee
HANGZHOU XIONGMAI TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by HANGZHOU XIONGMAI TECHNOLOGY Co Ltd filed Critical HANGZHOU XIONGMAI TECHNOLOGY Co Ltd
Publication of CN110428843A publication Critical patent/CN110428843A/zh
Application granted granted Critical
Publication of CN110428843B publication Critical patent/CN110428843B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/18Artificial neural networks; Connectionist approaches

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Theoretical Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开的是一种语音性别识别深度学习方法,包括如下步骤:a.采集语音信号;b.对所采集语音信号进行人声语音端点检测并分割出有人声的语音信号段;c.对语音信号段分帧并对每帧进行多分辨率的耳蜗语音特征提取;d.把每帧语音特征输入预先训练好的语音性别识别深度学习模型中进行分类;e.对输出的语音性别判定进行投票统计,根据得票高低最终输出该语音信号段的说话者性别,本发明采用多分辨率的耳蜗语音特征,更符合人的听觉感知分析的语音特征参数,采用胶囊网络作为语音性别识别声学推理模型,能够适应低信噪比的语音环境,相比传统的方法有更高的识别率。

Description

一种语音性别识别深度学习方法
技术领域
本发明涉及一种深度学习方法,更具体一点说,涉及一种语音性别识别深度学习方法,属于性别识别技术领域。
背景技术
说话人识别是目前身份认证及人工智能领域研究的一个热点,解决说话人识别问题具有重要的理论价值和深远的实用意义。性别辨识可应用于需验证男女生性别的场合,例如从身份证号码的第一个数字得知被验证者的性别,验证说话者的性别是否与该身份证号码所载的性别一致,此外也可应用在语音辨识的前端,当辨识出说话者的性别后,以性别相关的语音模型(Gender-Dependent Model)进行辨认以提升语音辨识率。当前的语音性别识别***通常由三个部分组成,它们是语音信号预处理,特征提取和分类,特征提取是最重要的部分,它的好坏直接影响识别结果,之前研究者所提出的语音性别特征大多是基于语音的韵律特征和音质特征,均为人工设计的特征,***的鲁棒性不高,很容易受到环境的影响。
发明内容
本发明的目的在于解决上述技术问题,本发明提供具有纬度丰富、识别率高等技术特点的一种语音性别识别深度学习方法,实现对语音信号的性别识别。
为了实现上述目的,本发明采用如下技术方案:
一种语音性别识别深度学习方法,其特征在于该方法包括以下步骤:
a)语音信号采集;
b)对所采集的语音信号进行语音端点检测并分割出有人声的语音信号段;
c)对语音信号段进行分帧后获得N帧,对每帧均进行多分辨率的耳蜗语音特征提取,最终获得N帧的语音特征;
d)进行语音性别识别以输出语音性别识别结果,所述语音性别识别包括如下步骤:
d1)建立基于胶囊神经网络的深度学习分类器;
d2)把每帧提取到的多分辨率耳蜗语音特征输入深度学习分类器中,得到N帧分类结果,运用多数优先投票原则对N帧分类结果进行投票,得到最终语音性别识别结果。
作为一种改进,步骤a)中所述语音信号采集包括如下过程:
1)利用麦克风设备输入语音信号;
2)通过采样量化获得相应的语音信号。
作为一种改进,所述采样量化的采样频率为16KHz,量化精度为16bit。
作为一种改进,步骤b)中所述端点检测是利用短时零积法进行。
作为一种改进,步骤c)中所述分帧的帧长范围为20ms~30ms,帧步长范围为10ms~15ms。
作为一种改进,步骤c)中耳蜗语音特征提取的方法是在时间维度上多分辨率的提取耳蜗语音特征,通过融合局部和全局的特征信息,具体方法包括如下步骤:
1)构建基于人耳耳蜗听觉模型的Gammatone滤波器组,其时域表达形式如下:
g(f,t)=kta-1e-2πbt cos(2πft+φ),t≥0;
其中,k为滤波器增益,a为滤波器阶数,f为中心频率,Φ为相位,b是衰减因子,所述衰减因子决定相应的滤波器的带宽,衰减因子b与中心频率f的关系为:
b=24.7(4.37f/1000+1);
2)利用基于FFT的重叠相加法对语音信号进行Gammatone滤波器滤波,得到输出响应信号R(n,t),其中,n是滤波器的通道数,取值为8,t是输出响应信号的长度,取值为自然数,t的长度输入信号保持相等;
3)对输出响应信号R(n,t)分帧求取帧内的响应能量以获得类耳蜗图,处理公式如下:
Gm(i)=log([|R|(i,m)]1/2),i=0,1,...,N-1;m=0,1,...,M-1
其中,i表示第i个gammatone滤波器,m表示第m帧,N取8为滤波器组的个数,M为分帧后的帧数;类耳蜗图的每一帧称为Gammatone特征系数GF,一个GF特征矢量由8个频率成分组成;
4)多分辨率的耳蜗语音特征是由4种不同窗口尺寸和不同帧长的耳蜗语音特征组成的,首先将4种耳蜗语音特征拼接起来得到32-D语音特征,然后计算32-D语音特征的一阶差分和二阶差分得到32-D Delta特征、32-D Delta-Delta特征,并将三者融合最终得到96-D语音特征,差分特征计算公式如下:
作为一种改进,第一种和第四种的耳蜗语音特征分别是20ms和200ms帧长的耳蜗语音特征,第二种和第三种耳蜗语音特征是在第一种耳蜗语音特征上做3x5和5x11窗口的移动平均得到。
作为一种改进,所述的Gammatone滤波器组采用的是8个channel的4阶Gammatone滤波器,其中心频率范围为50Hz~8000Hz。
作为一种改进,步骤d)中所述基于胶囊神经网络的深度学习分类器包括一个输入层、两个隐含层以及一个胶囊层,训练基于胶囊神经网络的深度学习分类器的方法为:
1)建立胶囊神经网络的深度学习分类器的训练集:Xi∈χ=(Rf)*以及Li∈Z={0,1}*;其中,n是训练集中训练样本本个数,i表示训练样本序列号,Xi∈χ=(Rf)*为96-D的语音耳蜗特征,Li∈Z={0,1}*是Xi对应的训练标签,0表示Xi是男性语音样本,1表示Xi是女性语音样本;
2)建立胶囊神经网络的深度学习分类器的模型:将输入层和隐含层以及隐含层和隐含层之间采用全连接方式,激活函数是RELU;进行各层神经网络神经元个数配置:输入层维度为96,第一个隐含层维度为128,第二个隐含层的维度为32x8,所述第二个隐含层为下级胶囊层,其包含32个不同胶囊,每个胶囊向量维度为8,公式如下:
wij是分类器模型权重参数,xi为神经元输入,zj是中间结果,yj是神经网络激活输出,且其同时作为下一层的输入;
3)计算胶囊层的第j个胶囊:先利用分类器模型权重参数Wij和下级胶囊层输入ui相乘得到下级胶囊层共n个胶囊,得到n个然后将n个分别乘以各自的权重cij得到sj,在训练过程中,通过动态路由算法来更新bij和权重cij,其中bij初始值为0;激活函数为squash函数,把sj向量缩放到0到单位长度,具体公式如下:
4)建立胶囊神经网络的深度学习分类器的损失函数,首先计算出胶囊层的输出vj,vj是一个16维向量,胶囊层共输出两个vj向量,对两个vj向量求模,模值最大的那个vj向量代表语音性别概率最大的分类,通过向量模的大小衡量实体出现的概率,模值越大,概率越大;采用Margin Loss来作为网络的Loss,具体公式如下:
Lc=Tc max(0,m+-||vc||)2+λ(1-Tc)max(0,||vc||-m-)2
Tc=1表示类别c是存在的,m+=0.9,m-=0.1,λ为0.5。
作为一种改进,步骤d)中所述多数优先投票原则对N帧分类结果进行投票,把每帧提取到的多分辨率耳蜗语音特征输入深度学***均如果p≥0.5,则输出为男性声音,反之则为女性声音。
有益效果在于:本发明提供的一种语音性别识别深度学习方法,针对传统语音性别识别容易受环境变换影响,采用多分辨率的耳蜗语音特征,更符合人的听觉感知分析的语音特征参数,并采用胶囊网络作为语音性别识别声学推理模型,能够适应低信噪比的语音环境,利用胶囊网络的向量表达替换传统标量表达,维度更为丰富,相比传统的方法有更高的识别率。
附图说明
图1是本发明语音性别识别深度学习方法流程图。
图2为本发明多分辨率的耳蜗语音特征提取示意图。
图3为本发明胶囊神经网络的深度学习分类器示意图。
具体实施方式
以下结合说明书附图,对本发明作进一步说明,但本发明并不局限于以下实施例。
如图1-3所示为一种语音性别识别深度学习方法的具体实施例,该实施例一种语音性别识别深度学习方法,该方法包括以下步骤:
a)语音信号采集;
b)对所采集的语音信号进行语音端点检测并分割出有人声的语音信号段;
c)对语音信号段进行分帧后获得N帧,对每帧均进行多分辨率的耳蜗语音特征提取,最终获得N帧的语音特征;
d)进行语音性别识别以输出语音性别识别结果,所述语音性别识别包括如下步骤:
d1)建立基于胶囊神经网络的深度学习分类器;
d2)把每帧提取到的多分辨率耳蜗语音特征输入深度学习分类器中,得到N帧分类结果,运用多数优先投票原则对N帧分类结果进行投票,得到最终语音性别识别结果。
作为一种改进的实施例,步骤a)中所述语音信号采集包括如下过程:
1)利用麦克风设备输入语音信号;
2)通过采样量化获得相应的语音信号。
作为一种改进的实施例,所述采样量化的采样频率为16KHz,量化精度为16bit。
作为一种改进的实施例,步骤b)中所述端点检测是利用短时零积法进行。
作为一种改进的实施例,步骤c)中所述分帧的帧长范围为20ms~30ms,优选20ms,帧步长范围为10ms~15ms,优选10ms。
作为一种改进的实施例,步骤c)中耳蜗语音特征提取的方法是在时间维度上多分辨率的提取耳蜗语音特征,通过融合局部和全局的特征信息,具体方法包括如下步骤:
1)构建基于人耳耳蜗听觉模型的Gammatone滤波器组,其时域表达形式如下:
g(f,t)=kta-1e-2πbt cos(2πft+φ),t≥0;
其中,k为滤波器增益,a为滤波器阶数,f为中心频率,φ为相位,b是衰减因子,所述衰减因子决定相应的滤波器的带宽,e是自然对数函数的底数,e≈2.71828,衰减因子b与中心频率f的关系为:
b=24.7(4.37f/1000+1);
2)利用基于FFT的重叠相加法对语音信号进行Gammatone滤波器滤波,得到输出响应信号R(n,t),其中,n是滤波器的通道数,取值为8,t是输出响应信号的长度,取值为自然数,t的长度输入信号保持相等;
3)对输出响应信号R(n,t)分帧求取帧内的响应能量以获得类耳蜗图,处理公式如下:
Gm(i)=log([|R|(i,m)]1/2),i=0,1,...,N-1;m=0,1,...,M-1
其中,i表示第i个gammatone滤波器,m表示第m帧,N取8为滤波器组的个数,M为分帧后的帧数;类耳蜗图的每一帧称为Gammatone特征系数GF,一个GF特征矢量由8个频率成分组成;
4)多分辨率的耳蜗语音特征是由4种不同窗口尺寸和不同帧长的耳蜗语音特征组成的,首先将4种耳蜗语音特征拼接起来得到32-D语音特征,然后计算32-D语音特征的一阶差分和二阶差分得到32-D Delta特征、32-D Delta-Delta特征,并将三者融合最终得到96-D语音特征,差分特征计算公式如下:
作为一种改进的实施例,如图2所示为本发明多分辨率的耳蜗语音特征提取示意图,第一种和第四种的耳蜗语音特征分别是20ms和200ms帧长的耳蜗语音特征,第二种和第三种耳蜗语音特征是在第一种耳蜗语音特征上做3x5和5x11窗口的移动平均得到。
作为一种改进的实施例,所述的Gammatone滤波器组采用的是8个channel的4阶Gammatone滤波器,其中心频率范围为50Hz~8000Hz。
作为一种改进的实施例,步骤d)中所述基于胶囊神经网络的深度学习分类器包括一个输入层、两个隐含层以及一个胶囊层,训练基于胶囊神经网络的深度学习分类器的具体方法为:
1)建立胶囊神经网络的深度学习分类器的训练集:Xi∈χ=(Rf)*以及Li∈Z={0,1}*;其中,n是训练集中训练样本本个数,i表示训练样本序列号,Xi∈χ=(Rf)*为96-D的语音耳蜗特征,其中R为实数集,Rf表示是一个维度为f的高维的实数空间集合,Li∈Z={0,1}*是Xi对应的训练标签,0表示Xi是男性语音样本,1表示Xi是女性语音样本;
2)建立胶囊神经网络的深度学习分类器的模型:将输入层和隐含层以及隐含层和隐含层之间采用全连接方式,激活函数是RELU;进行各层神经网络神经元个数配置,如图3所示为本发明胶囊神经网络的深度学习分类器示意图,输入层维度为96,第一个隐含层维度为128,第二个隐含层的维度为32x8,所述第二个隐含层为下级胶囊层,其包含32个不同胶囊,每个胶囊向量维度为8,公式如下:
wij是分类器模型权重参数,xi为神经元输入,zj是中间结果,yj是神经网络激活输出,同时作为下一层的输入;
3)计算胶囊层的第j个胶囊:先利用分类器模型权重参数wij,i=1,...,m;j=1,...,k和下级胶囊层输入ui相乘得到下级胶囊层共n个胶囊,得到n个然后将n个分别乘以各自的权重cij得到sj,在训练过程中,通过动态路由算法来更新bij和权重cij,其中bij初始值为0;激活函数为squash函数,把sj向量缩放到0到单位长度,具体公式如下:
bij的计算公式为:
4)建立胶囊神经网络的深度学习分类器的损失函数,首先计算出胶囊层的输出vj,vj是一个16维向量,胶囊层共输出两个这样的向量,对这两个向量求模,求得模值最大的那个向量代表的就是语音性别概率最大的那个分类,胶囊网络中用向量模的大小衡量某个实体出现的概率,模值越大,概率越大;采用Margin Loss来作为网络的Loss,具体公式如下:
Lc=Tc max(0,m+-||vc||)2+λ(1-Tc)max(0,||vc||-m-)2
Tc=1表示类别c是存在的,m+=0.9,m-=0.1,λ为0.5。
作为一种改进的实施例,步骤d)中所述多数优先投票原则对N帧分类结果进行投票,把每帧提取到的多分辨率耳蜗语音特征输入深度学***均如果p≥0.5说明为男性声音,反之则为女性声音。
最后,需要注意的是,本发明不限于以上实施例,还可以有很多变形。本领域的普通技术人员能从本发明公开的内容中直接导出或联想到的所有变形,均应认为是本发明的保护范围。

Claims (10)

1.一种语音性别识别深度学习方法,其特征在于该方法包括以下步骤:
a)语音信号采集;
b)对所采集的语音信号进行语音端点检测并分割出有人声的语音信号段;
c)对语音信号段进行分帧后获得N帧,对每帧均进行多分辨率的耳蜗语音特征提取,最终获得N帧的语音特征;
d)进行语音性别识别以输出语音性别识别结果,所述语音性别识别包括如下步骤:
d1)建立基于胶囊神经网络的深度学习分类器;
d2)把每帧提取到的多分辨率耳蜗语音特征输入深度学习分类器中,得到N帧分类结果,运用多数优先投票原则对N帧分类结果进行投票,得到最终语音性别识别结果。
2.根据权利要求1所述的一种语音性别识别深度学习方法,其特征在于,步骤a)中所述语音信号采集包括如下过程:
1)利用麦克风设备输入语音信号;
2)通过采样量化获得相应的语音信号。
3.根据权利要求2所述的一种语音性别识别深度学习方法,其特征在于,所述采样量化的采样频率为16KHz,量化精度为16bit。
4.根据权利要求1或2所述的一种语音性别识别深度学习方法,其特征在于,步骤b)中所述端点检测是利用短时零积法进行。
5.根据权利要求1或2所述的一种语音性别识别深度学习方法,其特征在于,步骤c)中所述分帧的帧长范围为20ms~30ms,帧步长范围为10ms~15ms。
6.根据权利要求1所述的一种语音性别识别深度学习方法,其特征在于,步骤c)中耳蜗语音特征提取的方法是在时间维度上多分辨率的提取耳蜗语音特征,通过融合局部和全局的特征信息,具体方法包括如下步骤:
1)构建基于人耳耳蜗听觉模型的Gammatone滤波器组,其时域表达形式如下:
g(f,t)=kta-1e-2πbtcos(2πft+φ),t≥0;
其中,k为滤波器增益,a为滤波器阶数,f为中心频率,Φ为相位,b是衰减因子,所述衰减因子决定相应的滤波器的带宽,衰减因子b与中心频率f的关系为:
b=24.7(4.37f/1000+1);
2)利用基于FFT的重叠相加法对语音信号进行Gammatone滤波器滤波,得到输出响应信号R(n,t),其中,n是滤波器的通道数,取值为8,t是输出响应信号的长度,取值为自然数,t的长度输入信号保持相等;
3)对输出响应信号R(n,t)分帧求取帧内的响应能量以获得类耳蜗图,处理公式如下:
Gm(i)=log([|R|(i,m)]1/2),i=0,1,...,N-1;m=0,1,...,M-1
其中,i表示第i个gammatone滤波器,m表示第m帧,N取8为滤波器组的个数,M为分帧后的帧数;类耳蜗图的每一帧称为Gammatone特征系数GF,一个GF特征矢量由8个频率成分组成;
4)多分辨率的耳蜗语音特征是由4种不同窗口尺寸和不同帧长的耳蜗语音特征组成的,首先将4种耳蜗语音特征拼接起来得到32-D语音特征,然后计算32-D语音特征的一阶差分和二阶差分得到32-D Delta特征、32-D Delta-Delta特征,并将三者融合最终得到96-D语音特征,差分特征计算公式如下:
7.根据权利要求6所述的一种语音性别识别深度学***均得到。
8.根据权利要求6或7所述的一种语音性别识别深度学习方法,其特征在于,所述的Gammatone滤波器组采用的是8个channel的4阶Gammatone滤波器,其中心频率范围为50Hz~8000Hz。
9.根据权利要求1所述的一种语音性别识别深度学习方法,其特征在于,步骤d)中所述基于胶囊神经网络的深度学习分类器包括一个输入层、两个隐含层以及一个胶囊层,训练基于胶囊神经网络的深度学习分类器的方法为:
1)建立胶囊神经网络的深度学习分类器的训练集:Xi∈χ=(Rf)*以及Li∈Z={0,1}*;其中,n是训练集中训练样本本个数,i表示训练样本序列号,Xi∈χ=(Rf)*为96-D的语音耳蜗特征,Li∈Z={0,1}*是Xi对应的训练标签,0表示Xi是男性语音样本,1表示Xi是女性语音样本;
2)建立胶囊神经网络的深度学习分类器的模型:将输入层和隐含层以及隐含层和隐含层之间采用全连接方式,激活函数是RELU;进行各层神经网络神经元个数配置:输入层维度为96,第一个隐含层维度为128,第二个隐含层的维度为32x8,所述第二个隐含层为下级胶囊层,其包含32个不同胶囊,每个胶囊向量维度为8,公式如下:
yj=RELU(zj);
wij是分类器模型权重参数,xi为神经元输入,zj是中间结果,yj是神经网络激活输出,且其同时作为下一层的输入;
3)计算胶囊层的第j个胶囊:先利用分类器模型权重参数Wij和下级胶囊层输入ui相乘得到下级胶囊层共n个胶囊,得到n个然后将n个分别乘以各自的权重cij得到sj,在训练过程中,通过动态路由算法来更新bij和权重cij,其中bij初始值为0;激活函数为squash函数,把sj向量缩放到0到单位长度,具体公式如下:
4)建立胶囊神经网络的深度学习分类器的损失函数,首先计算出胶囊层的输出vj,vj是一个16维向量,胶囊层共输出两个vj向量,对两个vj向量求模,模值最大的那个vj向量代表语音性别概率最大的分类,通过向量模的大小衡量实体出现的概率,模值越大,概率越大;采用Margin Loss来作为网络的Loss,具体公式如下:
Lc=Tc max(0,m+-||vc||)2+λ(1-Tc)max(0,||vc||-m-)2
Tc=1表示类别c是存在的,m+=0.9,m-=0.1,λ为0.5。
10.根据权利要求1所述的一种语音性别识别深度学***均如果p≥0.5,则输出为男性声音,反之则为女性声音。
CN201910719758.3A 2019-03-11 2019-08-06 一种语音性别识别深度学习方法 Active CN110428843B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN2019101786052 2019-03-11
CN201910178605 2019-03-11

Publications (2)

Publication Number Publication Date
CN110428843A true CN110428843A (zh) 2019-11-08
CN110428843B CN110428843B (zh) 2021-09-07

Family

ID=68414252

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910719758.3A Active CN110428843B (zh) 2019-03-11 2019-08-06 一种语音性别识别深度学习方法

Country Status (1)

Country Link
CN (1) CN110428843B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111048109A (zh) * 2019-12-25 2020-04-21 广州酷狗计算机科技有限公司 声学特征的确定方法、装置、计算机设备及存储介质
CN111105803A (zh) * 2019-12-30 2020-05-05 苏州思必驰信息科技有限公司 快速识别性别的方法及装置、用于识别性别的算法模型的生成方法
CN111326179A (zh) * 2020-02-27 2020-06-23 杭州雄迈集成电路技术股份有限公司 一种婴儿哭声检测深度学习方法
CN111696580A (zh) * 2020-04-22 2020-09-22 广州多益网络股份有限公司 一种语音检测方法、装置、电子设备及存储介质
CN112382301A (zh) * 2021-01-12 2021-02-19 北京快鱼电子股份公司 基于轻量级神经网络的含噪语音性别识别方法及***
CN112599134A (zh) * 2020-12-02 2021-04-02 国网安徽省电力有限公司 一种基于声纹识别的变压器声音事件检测方法
CN113012714A (zh) * 2021-02-22 2021-06-22 哈尔滨工程大学 基于像素注意力机制胶囊网络模型的声学事件检测方法
WO2021175031A1 (zh) * 2020-03-03 2021-09-10 深圳壹账通智能科技有限公司 信息提示方法、装置、电子设备及介质
US11854528B2 (en) 2020-12-22 2023-12-26 Samsung Electronics Co., Ltd. Method and system for detecting unsupported utterances in natural language understanding

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20230419181A1 (en) * 2022-04-26 2023-12-28 Mahendrajeet Singh Machine learning using structurally dynamic cellular automata

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100824312B1 (ko) * 2007-07-30 2008-04-22 한국과학기술연구원 음성 신호의 성별 인식 시스템 및 방법
KR101658452B1 (ko) * 2016-01-12 2016-09-21 세종대학교산학협력단 음성 데이터에 대한 성별 인식 장치 및 성별 인식 방법
CN108962247A (zh) * 2018-08-13 2018-12-07 南京邮电大学 基于渐进式神经网络多维语音信息识别***及其方法
CN108962223A (zh) * 2018-06-25 2018-12-07 厦门快商通信息技术有限公司 一种基于深度学习的语音性别识别方法、设备及介质
CN109376636A (zh) * 2018-10-15 2019-02-22 电子科技大学 基于胶囊网络的眼底视网膜图像分类方法
CN109410917A (zh) * 2018-09-26 2019-03-01 河海大学常州校区 基于改进型胶囊网络的语音数据分类方法
CN109523994A (zh) * 2018-11-13 2019-03-26 四川大学 一种基于胶囊神经网络的多任务语音分类方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100824312B1 (ko) * 2007-07-30 2008-04-22 한국과학기술연구원 음성 신호의 성별 인식 시스템 및 방법
KR101658452B1 (ko) * 2016-01-12 2016-09-21 세종대학교산학협력단 음성 데이터에 대한 성별 인식 장치 및 성별 인식 방법
CN108962223A (zh) * 2018-06-25 2018-12-07 厦门快商通信息技术有限公司 一种基于深度学习的语音性别识别方法、设备及介质
CN108962247A (zh) * 2018-08-13 2018-12-07 南京邮电大学 基于渐进式神经网络多维语音信息识别***及其方法
CN109410917A (zh) * 2018-09-26 2019-03-01 河海大学常州校区 基于改进型胶囊网络的语音数据分类方法
CN109376636A (zh) * 2018-10-15 2019-02-22 电子科技大学 基于胶囊网络的眼底视网膜图像分类方法
CN109523994A (zh) * 2018-11-13 2019-03-26 四川大学 一种基于胶囊神经网络的多任务语音分类方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
GEOFFREY E.HINTON: ""Transforming Auto-Encoders"", 《INTERNATIONAL CONFERENCE ON ARTIFICIAL NERUAL NETWORKS 2011》 *
夏子琪: ""基于注意力机制的声音场景深度分类模型研究"", 《中国优秀硕士学位论文全文数据库(信息科技辑)》 *
肖光汉: ""基于MFCC和SVM的说话人性别识别"", 《重庆大学学报》 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111048109A (zh) * 2019-12-25 2020-04-21 广州酷狗计算机科技有限公司 声学特征的确定方法、装置、计算机设备及存储介质
CN111105803A (zh) * 2019-12-30 2020-05-05 苏州思必驰信息科技有限公司 快速识别性别的方法及装置、用于识别性别的算法模型的生成方法
CN111326179A (zh) * 2020-02-27 2020-06-23 杭州雄迈集成电路技术股份有限公司 一种婴儿哭声检测深度学习方法
CN111326179B (zh) * 2020-02-27 2023-05-26 杭州雄迈集成电路技术股份有限公司 一种婴儿哭声检测深度学习方法
WO2021175031A1 (zh) * 2020-03-03 2021-09-10 深圳壹账通智能科技有限公司 信息提示方法、装置、电子设备及介质
CN111696580A (zh) * 2020-04-22 2020-09-22 广州多益网络股份有限公司 一种语音检测方法、装置、电子设备及存储介质
CN112599134A (zh) * 2020-12-02 2021-04-02 国网安徽省电力有限公司 一种基于声纹识别的变压器声音事件检测方法
US11854528B2 (en) 2020-12-22 2023-12-26 Samsung Electronics Co., Ltd. Method and system for detecting unsupported utterances in natural language understanding
CN112382301A (zh) * 2021-01-12 2021-02-19 北京快鱼电子股份公司 基于轻量级神经网络的含噪语音性别识别方法及***
CN112382301B (zh) * 2021-01-12 2021-05-14 北京快鱼电子股份公司 基于轻量级神经网络的含噪语音性别识别方法及***
CN113012714A (zh) * 2021-02-22 2021-06-22 哈尔滨工程大学 基于像素注意力机制胶囊网络模型的声学事件检测方法

Also Published As

Publication number Publication date
CN110428843B (zh) 2021-09-07

Similar Documents

Publication Publication Date Title
CN110428843A (zh) 一种语音性别识别深度学习方法
CN105976809B (zh) 基于语音和面部表情的双模态情感融合的识别方法及***
CN102509547B (zh) 基于矢量量化的声纹识别方法及***
CN109559736B (zh) 一种基于对抗网络的电影演员自动配音方法
CN111754988B (zh) 基于注意力机制和双路径深度残差网络的声场景分类方法
CN110853680B (zh) 一种具有多输入多融合策略的双BiLSTM的语音情感识别方法
CN109493886A (zh) 基于特征选择和优化的语音情感识别方法
CN110534132A (zh) 一种基于谱图特征的并行卷积循环神经网络的语音情感识别方法
CN107808659A (zh) 智能语音信号模式识别***装置
CN105206270A (zh) 一种组合pca和rbm的孤立数字语音识别分类***及方法
CN108806667A (zh) 基于神经网络的语音与情绪的同步识别方法
CN105869630A (zh) 基于深度学习的说话人语音欺骗攻击检测方法及***
CN108648759A (zh) 一种文本无关的声纹识别方法
CN108281146A (zh) 一种短语音说话人识别方法和装置
CN102890930A (zh) 基于hmm/sofmnn混合模型的语音情感识别方法
CN110148408A (zh) 一种基于深度残差的中文语音识别方法
CN104091602A (zh) 一种基于模糊支持向量机的语音情感识别方法
CN110197665A (zh) 一种用于公安刑侦监听的语音分离与跟踪方法
CN113221673B (zh) 基于多尺度特征聚集的说话人认证方法及***
CN109473119A (zh) 一种声学目标事件监控方法
CN110070895A (zh) 一种基于监督变分编码器因素分解的混合声音事件检测方法
CN113763965B (zh) 一种多重注意力特征融合的说话人识别方法
CN108461085A (zh) 一种短时语音条件下的说话人识别方法
CN111653267A (zh) 一种基于时延神经网络的快速语种识别方法
CN108877812B (zh) 一种声纹识别方法、装置及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20210628

Address after: 311422 8 / F, 9 Yinhu innovation center, 9 Fuxian Road, Yinhu street, Fuyang District, Hangzhou City, Zhejiang Province

Applicant after: HANGZHOU JUFENG TECHNOLOGY Co.,Ltd.

Address before: 311422 Building 9, Yinhu innovation center, 9 Fuxian Road, Yinhu street, Fuyang District, Hangzhou City, Zhejiang Province

Applicant before: HANGZHOU XIONGMAI TECHNOLOGY Co.,Ltd.

GR01 Patent grant
GR01 Patent grant
PE01 Entry into force of the registration of the contract for pledge of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: A deep learning method for speech gender recognition

Effective date of registration: 20221212

Granted publication date: 20210907

Pledgee: Zhejiang Fuyang Rural Commercial Bank branch Limited by Share Ltd. Silver Lake

Pledgor: HANGZHOU JUFENG TECHNOLOGY Co.,Ltd.

Registration number: Y2022980026912

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20231109

Address after: 311400 Room 408, 4/F, Building 12, China Zhigu Fuchun Park, Yinhu Street, Fuyang District, Hangzhou City, Zhejiang Province

Patentee after: Hangzhou Jiefeng Technology Co.,Ltd.

Address before: 311422 8 / F, 9 Yinhu innovation center, 9 Fuxian Road, Yinhu street, Fuyang District, Hangzhou City, Zhejiang Province

Patentee before: HANGZHOU JUFENG TECHNOLOGY Co.,Ltd.

PC01 Cancellation of the registration of the contract for pledge of patent right
PC01 Cancellation of the registration of the contract for pledge of patent right

Granted publication date: 20210907

Pledgee: Zhejiang Fuyang Rural Commercial Bank branch Limited by Share Ltd. Silver Lake

Pledgor: HANGZHOU JUFENG TECHNOLOGY Co.,Ltd.

Registration number: Y2022980026912