CN106169295A - 身份向量生成方法和装置 - Google Patents

身份向量生成方法和装置 Download PDF

Info

Publication number
CN106169295A
CN106169295A CN201610560366.3A CN201610560366A CN106169295A CN 106169295 A CN106169295 A CN 106169295A CN 201610560366 A CN201610560366 A CN 201610560366A CN 106169295 A CN106169295 A CN 106169295A
Authority
CN
China
Prior art keywords
statistic
speaker
distribution component
gauss distribution
statistical amount
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610560366.3A
Other languages
English (en)
Other versions
CN106169295B (zh
Inventor
李为
黄飞跃
吴永坚
吴富章
李科
金星明
钱柄桦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201610560366.3A priority Critical patent/CN106169295B/zh
Publication of CN106169295A publication Critical patent/CN106169295A/zh
Priority to PCT/CN2017/092892 priority patent/WO2018010683A1/zh
Priority to EP17827019.5A priority patent/EP3486903B1/en
Priority to US16/213,421 priority patent/US10909989B2/en
Application granted granted Critical
Publication of CN106169295B publication Critical patent/CN106169295B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/14Use of phonemic categorisation or speech recognition prior to speaker recognition or verification
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/20Pattern transformations or operations aimed at increasing system robustness, e.g. against channel noise or different working conditions

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Game Theory and Decision Science (AREA)
  • Business, Economics & Management (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Telephonic Communication Services (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本发明涉及一种身份向量生成方法和装置,该方法包括:获取待处理语音数据;从所述待处理语音数据提取相应的声学特征;对各所述声学特征属于说话人背景模型中每个高斯分布分量的后验概率进行统计得到统计量;将所述统计量映射到统计量空间获得参考统计量;所述统计量空间根据超过预设语音时长的语音样本所对应的统计量构建而成;根据统计得到的所述统计量和所述参考统计量确定修正统计量;根据所述修正统计量生成身份向量。本发明提供的身份向量生成方法和装置,提高身份向量的身份识别性能。

Description

身份向量生成方法和装置
技术领域
本发明涉及计算机技术领域,特别是涉及一种身份向量生成方法和装置。
背景技术
说话人身份识别是一种重要的身份识别手段,采集用户说出一段语音,并将采集的语音进行预处理、特征提取、建模和参数估计等一系列操作后,将语音映射为一段定长的可以表达说话人语音特征的向量,该向量称为身份向量(i-vector)。身份向量可以良好地表达相应语音中包括的说话人身份信息。
目前在生成语音数据的身份向量时,需要提取出其声学特征,并基于高斯混合模型形式的说话人背景模型,统计各声学特征属于说话人背景模型中每个高斯分布分量的后验概率的统计量,进而基于该统计量生成身份向量。
然而,目前生成身份向量的方式,在语音数据语音长度比较短或者语音比较稀疏的情况下,会导致身份向量的身份识别性能降低。
发明内容
基于此,有必要针对目前生成身份向量的方式在语音数据语音长度比较短或者语音比较稀疏的情况下,导致身份向量的身份识别性能降低的技术问题,提供一种身份向量生成方法和装置。
一种身份向量生成方法,包括:
获取待处理语音数据;
从所述待处理语音数据提取相应的声学特征;
对各所述声学特征属于说话人背景模型中每个高斯分布分量的后验概率进行统计得到统计量;
将所述统计量映射到统计量空间获得参考统计量;所述统计量空间根据超过预设语音时长的语音样本所对应的统计量构建而成;
根据统计得到的所述统计量和所述参考统计量确定修正统计量;
根据所述修正统计量生成身份向量。
一种身份向量生成装置,包括:
声学特征提取模块,用于获取待处理语音数据;从所述待处理语音数据提取相应的声学特征;
统计量生成模块,用于对各所述声学特征属于说话人背景模型中每个高斯分布分量的后验概率进行统计得到统计量;
映射模块,用于将所述统计量映射到统计量空间获得参考统计量;所述统计量空间根据超过预设语音时长的语音样本所对应的统计量构建而成;
修正统计量确定模块,用于根据统计得到的所述统计量和所述参考统计量确定修正统计量;
身份向量生成模块,用于根据所述修正统计量生成身份向量。
上述身份向量生成方法和装置,统计量空间根据超过预设语音时长的语音样本所对应的统计量构建而成,在对各所述声学特征属于说话人背景模型中每个高斯分布分量的后验概率进行统计得到统计量后,将该统计量映射到该统计量空间中,得到的参考统计量是先验统计量。利用先验统计量来对统计得到的统计量进行修正得到修正统计量,该修正统计量能够补偿因待处理语音数据的语音时长过短和语音稀疏的情况下导致的统计量偏估,提高身份向量的身份识别性能。
附图说明
图1为一个实施例中说话人识别***的应用环境图;
图2A为一个实施例中服务器的内部结构示意图;
图2B为一个实施例中终端的内部结构示意图;
图3为一个实施例中身份向量生成方法的流程示意图;
图4为另一个实施例中身份向量生成方法的流程示意图;
图5为一个实施例中构建统计量空间的步骤的流程示意图;
图6为一个实施例中身份向量生成装置的结构框图;
图7为一个实施例中统计量生成模块的结构框图;
图8为另一个实施例中身份向量生成装置的结构框图;
图9为再一个实施例中身份向量生成装置的结构框图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
可以理解,本发明所使用的术语“第一”、“第二”等可在本文中用于描述各种元件,但这些元件不受这些术语限制。这些术语仅用于将第一个元件与另一个元件区分。第一零阶统计量和第二零阶统计量两者都是零阶统计量,但其不是同一零阶统计量。
图1为一个实施例中说话人识别***的应用环境图。如图1所示,该***包括通过网络连接的终端110和服务器120。终端110可用于采集待验证语音数据,并采用本申请中的身份向量生成方法生成待验证身份向量,并将待验证身份向量发送到服务器120。服务器120可收集目标说话人类别的语音数据,并采用本申请中的身份向量生成方法生成目标说话人身份向量。服务器120可用于计算待验证身份向量和目标说话人身份向量的相似度;根据相似度进行说话人身份验证。服务器120可用于向终端110反馈身份验证结果。
图2A为一个实施例中服务器的内部结构示意图。如图2A所示,该服务器包括通过***总线连接的处理器、非易失性存储介质、内存储器和网络接口。其中,该服务器的非易失性存储介质存储有操作***、数据库和身份向量生成装置,该身份向量生成装置可用于实现一种身份向量生成方法。该服务器的处理器用于提供计算和控制能力,支撑整个服务器的运行。该服务器的内存储器为非易失性存储介质中的身份向量生成装置的运行提供环境,该内存储器中可存储有计算机可读指令,该计算机可读指令被处理器执行时,可使得处理器执行一种身份向量生成方法。该服务器的网络接口用于与终端连接通信。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。本领域技术人员可以理解,图2A中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的服务器的限定,具体的服务器可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
图2B为一个实施例中终端的内部结构示意图。如图2B所示,该终端包括通过***总线连接的处理器、非易失性存储介质、内存储器、网络接口和声音采集装置。其中,终端的非易失性存储介质存储有操作***,还包括一种身份向量生成装置,该身份向量生成装置用于实现一种身份向量生成方法。该处理器用于提供计算和控制能力,支撑整个终端的运行。终端中的内存储器为非易失性存储介质中的身份向量生成装置的运行提供环境,该内存储器中可储存有计算机可读指令,该计算机可读指令被处理器执行时,可使得处理器执行一种身份向量生成方法。网络接口用于与服务器进行网络通信。该终端可以是手机、平板电脑或者个人数字助理或穿戴式设备等。本领域技术人员可以理解,图2B中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的终端的限定,具体的终端可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
图3为一个实施例中身份向量生成方法的流程示意图。本实施例以该方法应用于服务器120来举例说明。参照图3,该方法具体包括如下步骤:
S302,获取待处理语音数据。
其中,待处理语音数据是指需要对其进行一系列处理以生成相应的身份向量的语音数据。语音数据是在说话人将语音说出后由声音采集设备所采集的声音进行保存而形成的数据。待处理语音数据可以包括待验证语音数据和目标说话人类别的语音数据,其中待验证语音数据是指未知说话人类别并需要判断是否属于目标说话人类别的语音数据;目标说话人类别是已知的说话人类别,是目标说话人说话形成的语音数据所构成的类别。
S304,从待处理语音数据提取相应的声学特征。
具体地,服务器可以对待处理语音数据进行预处理,比如滤除噪声或者统一语音格式等,再从经过预处理的待处理语音数据提取相应的声学特征向量。声学特征向量是指反映声学特性的声学特征所构成的向量。声学特征向量包括一系列的声学特征,该声学特征可以是梅尔倒谱系数(MFCC,Mel Frequency Cepstrum Coefficient)或者线性预测倒谱系数(LPCC)。
S306,对各声学特征属于说话人背景模型中每个高斯分布分量的后验概率进行统计得到统计量。
其中,说话人背景模型是采用一系列的语音样本训练得到的高斯混合模型,用来训练表示与说话人无关的特征分布。其中高斯混合模型是固定数量的高斯分布分量叠加而成的数学模型。说话人背景模型可通过EM算法(Expectation Maximization Algorithm,译为期望最大化算法)训练得到。说话人背景模型可采用GMM-UBM(Gaussian Mixture Model-Universal Background Model,高斯混合模型-通用背景模型)。
在一个实施例中,说话人背景模型可用如下公式(1)表示:
其中,x表示语音样本;C是高斯混合模型所包括高斯分布分量的总数,c表示高斯混合模型所包括的高斯分布分量的序号;N(x|μc,∑c)表示第c个高斯分布分量;ac是第c个高斯分布分量的系数;μc是第c个高斯分布分量的均值;∑c是第c个高斯分布分量的方差。
在一个实施例中,声学特征向量可表达为:{y1,y2…yL}。该声学特征向量包括L个声学特征,每个声学特征可表示为yt,其中,t∈[1,L]。在一个实施例中,声学特征向量中各声学特征属于说话人背景模型中每个高斯分布分量的后验概率可表示为:P(c|yt,Ω)。其中,Ω表示说话人背景模型。P(c|yt,Ω)表示在说话人背景模型Ω和声学特征yt已观测到的情况下声学特征yt属于第c个高斯分布分量的后验概率。服务器可基于后验概率P(c|yt,Ω)进行统计得到统计量。
S308,将统计量映射到统计量空间获得参考统计量;统计量空间根据超过预设语音时长的语音样本所对应的统计量构建而成。
其中,统计量空间是一种向量空间,统计量空间根据语音样本所对应的与上述统计得到的统计量同类型的统计量构建而成,该用来构建统计量空间的语音样本的语音时长超过预设语音时长,预设语音时长比如30秒。用来构建统计量空间的语音样本可以是从用于训练说话人背景模型的语音样本中筛选出的超过预设语音时长的语音样本。将统计得到的统计量映射到统计量空间后得到参考统计量,该参考统计量是根据超过预设语音时长的语音样本所对应的统计量确定的先验统计量。
S310,根据统计得到的统计量和参考统计量确定修正统计量。
其中,修改统计量是利用参考统计量修正统计得到的统计量后得到的统计量,该统计量结合了先验的统计量和后验的统计量。
S312,根据修正统计量生成身份向量。
具体地,在得到修正统计量后,可以利用修正统计量并采用常规的生成身份向量的方式来生成身份向量。
上述身份向量生成方法,统计量空间根据超过预设语音时长的语音样本所对应的统计量构建而成,在对各声学特征属于说话人背景模型中每个高斯分布分量的后验概率进行统计得到统计量后,将该统计量映射到该统计量空间中,得到的参考统计量是先验统计量。利用先验统计量来对统计得到的统计量进行修正得到修正统计量,该修正统计量能够补偿因待处理语音数据的语音时长过短和语音稀疏的情况下导致的统计量偏估,提高身份向量的身份识别性能。
图4为另一个实施例中身份向量生成方法的流程示意图。如图4所示,该身份向量生成方法包括如下步骤:
S402,获取待处理语音数据。
S404,从待处理语音数据提取相应的声学特征。
S406,对应于说话人背景模型中的每个高斯分布分量,分别统计各声学特征属于相应高斯分布分量的后验概率的总和作为相应的第一零阶统计量。
具体地,对应于说话人背景模型Ω中的每个高斯分布分量c,分别统计各声学特征yt属于相应高斯分布分量c的后验概率P(c|yt,Ω)的总和,将该总和作为相应高斯分布分量c所对应的第一零阶统计量。
更具体地,可采用如下公式(2)计算对应于高斯分布分量c的第一零阶统计量Nc(u):
其中,u表示待处理语音数据;Nc(u)表示待处理语音数据u对应于高斯分布分量c的第一零阶统计量;yt表示声学特征向量的L个声学特征中第t个声学特征;P(c|yt,Ω)表示在说话人背景模型Ω和声学特征yt已观测到的情况下声学特征yt属于第c个高斯分布分量的后验概率。
S408,对应于说话人背景模型中的每个高斯分布分量,分别将各声学特征以该声学特征属于相应高斯分布分量的后验概率为权重计算加权和作为相应的第一一阶统计量。
其中,S404和S406包括于上述步骤S304。具体地,对应于说话人背景模型中的每个高斯分布分量c,分别将各声学特征yt以该声学特征yt属于相应高斯分布分量c的后验概率P(c|yt,Ω)为权重计算加权和,将该加权和作为应高斯分布分量c所对应的第一一阶统计量。
更具体地,可采用如下公式(3)计算对应于高斯分布分量c的第一一阶统计量Fc(u):
其中,u表示待处理语音数据;Fc(u)表示待处理语音数据u对应于高斯分布分量c的第一一阶统计量;yt表示声学特征向量的L个声学特征中第t个声学特征;P(c|yt,Ω)表示在说话人背景模型Ω和声学特征yt已观测到的情况下声学特征yt属于第c个高斯分布分量的后验概率。
S410,将第一零阶统计量和第一一阶统计量映射到统计量空间,获得对应说话人背景模型中每个高斯分布分量的参考一阶统计量和相应参考零阶统计量的第二商;统计量空间根据超过预设语音时长的语音样本所对应的统计量构建而成。
具体地,将第一零阶统计量Nc(u)和第一一阶统计量Fc(u)映射到统计量空间H,得到对应说话人背景模型中每个高斯分布分量c的参考一阶统计量Fc ref(u)和相应参考零阶统计量Nc ref(u)的第二商:Fc ref(u)/Nc ref(u)。
S412,将第一一阶统计量与相应第一零阶统计量的第三商,与相应高斯分布分量的第二商加权求和,得到对应说话人背景模型中每个高斯分布分量的修正一阶统计量和相应修正零阶统计量的第四商作为修正统计量。
具体地,可采用如下公式(4)计算对应于高斯分布分量c的修正统计量:
其中,表示对应于高斯分布分量c的修正一阶统计量;表示对应于高斯分布分量c的修正零阶统计量;R1和R2是权重;表示对应于高斯分布分量c的第二商;表示对应于高斯分布分量c的第三商。可限定R1和R2的和为1。
在一个实施例中,加权求和中,第三商的权重为相应高斯分布分量的第一零阶统计量除以相应的第一零阶统计量与可调参数的和,第二商的权重为可调参数除以相应高斯分布分量的第一零阶统计量与可调参数的和。
具体地,可采用如下公式(5)计算对应于高斯分布分量c的修正统计量:
其中,第三商的权重为是相应高斯分布分量c的第一零阶统计量Nc(u)除以相应的第一零阶统计量Nc(u)与可调参数q的和;第二商的权重为是可调参数q除以相应高斯分布分量c的第一零阶统计量Nc(u)与可调参数q的和。q取0.4~1时可达到很好的效果。本实施例中,通过调整可调参数,可以针对不同环境进行差异性调整,增加鲁棒性。
S414,根据修正统计量生成身份向量。
具体地,当时可求得
按照如下公式(6)定义说话人背景模型的均值超向量m:
其中,μ1、μ2……μC分别是说话人背景模型各高斯分布分量的均值。
按照如下公式(7)定义对角矩阵形式的修正零阶统计量矩阵
其中,分别是对应于说话人背景模型各高斯分布分量的修正零阶统计量。
按照如下公式(8)定义修正一阶统计量矩阵
其中,分别是对应于说话人背景模型各高斯分布分量的修正一阶统计量。
在一个实施例中,可根据如下公式(9)计算身份向量
其中,I表示单位矩阵;T表示已知的全因子矩阵(Total Factor Matrix);t表示转置;∑表示对角矩阵形式的协方差矩阵,∑的对角元素是各高斯分布分量的协方差;m表示说话人背景模型的均值超向量;表示修正零阶统计量矩阵;表示修正一阶统计量矩阵。
在一个实施例中,可对上述公式(9)进行变换,将涉及矩阵的计算变换为涉及的计算,而本实施例中在得到后可直接用来计算身份向量,不必构建矩阵简化计算。
本实施例中,利用第一一阶统计量和第一零阶统计量可以更加准确地反映声学特征的特性,便于计算出准确的修正统计量。由于一阶统计量与相应零阶统计量的商基本保持在稳定的范围内,可以在确定修正统计量时直接进行线性加和,减少计算量。
图5为一个实施例中构建统计量空间的步骤的流程示意图。参照图5,构建统计量空间的步骤具体包括如下步骤
S502,获取超过预设语音时长的语音样本。
具体地,可从用于训练说话人背景模型的语音样本中筛选出语音时长超过预设语音时长的语音样本。
S504,按照语音样本中说话人类别统计对应于说话人背景模型中的每个高斯分布分量的第二零阶统计量和第二一阶统计量。
具体地,若获取的语音样本共有S个说话人类别,对于第s个说话人类别,参照上述公式(2)和(3),分别统计对应于每个高斯分布分量c的第二零阶统计量和第二一阶统计量
S506,计算第二一阶统计量和相应的第二零阶统计量的第一商。
具体地,对于每个说话类别s,分别计算对应于说话人背景模型中每个高斯分布分量c的第二一阶统计量和相应的第二零阶统计量的第一商
S508,根据计算出的第一商构建统计量空间。
具体地,可将对于每个说话类别s且对应于说话人背景模型中每个高斯分布分量c的第一商,按照说话人类别和对应的高斯分布分量依次排布形成表征统计量空间的矩阵。
本实施例中,基于第二一阶统计量和相应的第二零阶统计量的第一商建立统计量空间,由于一阶统计量与相应零阶统计量的商基本保持在稳定的范围内,便于将第一零阶统计量和第一一阶统计量映射到统计量空间的计算,提高计算效率。
在一个实施例中,S508包括:将计算出的第一商减去相应高斯分布分量的均值得到相应的差值;将得到的差值按照说话人类别和对应的高斯分布分量依次排布形成表征统计量空间的矩阵。
具体地,可按照如下公式(10)确定表征统计量空间的矩阵H:
其中,m表示说话人背景模型的均值超向量;表示第s个说话人类别对应的第二一阶统计量矩阵,表示各第s个说话人类别的对应于说话人背景模型各高斯分布分量c的第二零阶统计量。
可表示为如下形式:
因此,上述公式(10)可变形为如下公式(11)
本实施例中,将计算出的第一商减去相应高斯分布分量的均值得到相应的差值,从而将得到的差值按照说话人类别和对应的高斯分布分量依次排布形成表征统计量空间的矩阵,使得构建出的统计量空间中心大致在统计量空间的原点处,便于计算,提高计算效率。
在一个实施例中,步骤S410具体包括:获取统计量空间的正交基向量;求取正交基向量的映射系数,正交基向量与映射系数的乘积加上相应高斯分布分量的均值后,与相应高斯分布分量的第三商之间的二范数距离最小化;将正交基向量乘以映射系数后加上相应高斯分布分量的均值,得到对应说话人背景模型中每个高斯分布分量的参考一阶统计量和相应参考零阶统计量的第二商。
具体地,统计量空间可通过特征值分解得到统计量空间的一组正交基向量Feigen。可定义如下公式(12)的优化函数:
其中,Nc(u)表示对应于高斯分布分量c的第一零阶统计量;Fc(u)表示对应于高斯分布分量c的第一一阶统计量;表示对应于高斯分布分量c的第三商;μc表示对应于高斯分布分量c的均值;Feigen表示统计量空间H的正交基向量;表示映射系数。
优化如公式(12)的优化函数,得到的最优的映射系数如下公式(13):
进一步地,按照如下公式(14)计算对应说话人背景模型中每个高斯分布分量的参考一阶统计量和相应参考零阶统计量的第二商:
本实施例中,可实现准确地将第一零阶统计量和第一一阶统计量映射到统计量空间。
在一个实施例中,待处理语音数据包括待验证语音数据和目标说话人类别的语音数据;步骤S312包括:根据与待验证语音数据对应的修正统计量生成待验证身份向量;根据与目标说话人类别的语音数据对应的修正统计量生成目标说话人身份向量。该身份向量生成方法还包括:计算待验证身份向量和目标说话人身份向量的相似度;根据相似度进行说话人身份验证。
具体地,说话人身份识别可以应用于多种需要认证未知用户身份的场景。说话人身份识别分为线下(off-line)和线上(on-line)两个阶段:线下阶段需要收集大量的非目标说话人类别的语音样本用于训练说话人身份识别***,说话人身份识别***包括身份向量提取模块与身份向量规整模块。
线上阶段又分为两个阶段:注册阶段与识别阶段。在注册阶段中,需要获取目标说话人的语音数据,将该语音数据进行预处理、特征提取与模型训练后,映射为一段定长的身份向量,该已知身份向量即是表征目标说话人身份的一个模型。而在识别阶段中,获取一段身份未知的待验证语音,将该待验证语音同样经过预处理、特征提取与模型训练后,映射为一段待验证身份向量。
目标说话人类别的身份向量与识别阶段的待验证身份向量接下来在相似度计算模块中计算相似度,将相似度与预先人工设定的一个门限值进行比较,若相似度大于等于门限值,则可判定待验证语音对应的身份与目标说话人身份匹配,身份验证通过。若相似度小于门限值,则可判定待验证语音对应的身份与目标说话人身份不匹配,身份验证未通过。相似度可采用余弦相似度、皮尔森相关系数或者欧氏距离等。
本实施例中,即使是语音时长很短的语音数据,通过本实施例的身份向量生成方法,依然可以生成身份识别性能较高的身份向量,不需要说话人说出太长的语音,使得短时文本无关说话人识别能够广泛推广。
图6为一个实施例中身份向量生成装置600的结构框图。如图6所示,身份向量生成装置600包括声学特征提取模块610、统计量生成模块620、映射模块630、修正统计量确定模块640和身份向量生成模块650。
声学特征提取模块610,用于获取待处理语音数据;从待处理语音数据提取相应的声学特征。
统计量生成模块620,用于对各声学特征属于说话人背景模型中每个高斯分布分量的后验概率进行统计得到统计量。
映射模块630,用于将统计量映射到统计量空间获得参考统计量;统计量空间根据超过预设语音时长的语音样本所对应的统计量构建而成。
修正统计量确定模块640,用于根据统计得到的统计量和参考统计量确定修正统计量。
身份向量生成模块650,用于根据修正统计量生成身份向量。
上述身份向量生成装置600,统计量空间根据超过预设语音时长的语音样本所对应的统计量构建而成,在对各声学特征属于说话人背景模型中每个高斯分布分量的后验概率进行统计得到统计量后,将该统计量映射到该统计量空间中,得到的参考统计量是先验统计量。利用先验统计量来对统计得到的统计量进行修正得到修正统计量,该修正统计量能够补偿因待处理语音数据的语音时长过短和语音稀疏的情况下导致的统计量偏估,提高身份向量的身份识别性能。
图7为一个实施例中统计量生成模块620的结构框图。本实施例中,统计得到的统计量包括第一零阶统计量和第一一阶统计量;统计量生成模块620包括:第一零阶统计量生成模块621和第一一阶统计量生成模块622。
第一零阶统计量生成模块621,用于对应于说话人背景模型中的每个高斯分布分量,分别统计各声学特征属于相应高斯分布分量的后验概率的总和作为相应的第一零阶统计量。
第一一阶统计量生成模块622,用于对应于说话人背景模型中的每个高斯分布分量,分别将各声学特征以该声学特征属于相应高斯分布分量的后验概率为权重计算加权和作为相应的第一一阶统计量。
图8为另一个实施例中身份向量生成装置600的结构框图。身份向量生成装置600还包括:统计量统计模块660和统计量空间构建模块670。
统计量统计模块660,用于获取超过预设语音时长的语音样本;按照语音样本中说话人类别统计对应于说话人背景模型中的每个高斯分布分量的第二零阶统计量和第二一阶统计量。
统计量空间构建模块670,用于计算第二一阶统计量和相应的第二零阶统计量的第一商;根据计算出的第一商构建统计量空间。
本实施例中,基于第二一阶统计量和相应的第二零阶统计量的第一商建立统计量空间,由于一阶统计量与相应零阶统计量的商基本保持在稳定的范围内,便于将第一零阶统计量和第一一阶统计量映射到统计量空间的计算,提高计算效率。
在一个实施例中,统计量空间构建模块670还用于将计算出的第一商减去相应高斯分布分量的均值得到相应的差值;将得到的差值按照说话人类别和对应的高斯分布分量依次排布形成表征统计量空间的矩阵。
本实施例中,将计算出的第一商减去相应高斯分布分量的均值得到相应的差值,从而将得到的差值按照说话人类别和对应的高斯分布分量依次排布形成表征统计量空间的矩阵,使得构建出的统计量空间中心大致在统计量空间的原点处,便于计算,提高计算效率。
在一个实施例中,参考统计量包括对应说话人背景模型中每个高斯分布分量的参考一阶统计量和相应参考零阶统计量的第二商;修正统计量确定模块640还用于将第一一阶统计量与相应第一零阶统计量的第三商,与相应高斯分布分量的第二商加权求和,得到对应说话人背景模型中每个高斯分布分量的修正一阶统计量和相应修正零阶统计量的第四商作为修正统计量。
在一个实施例中,修正统计量确定模块640用于加权求和时,第三商的权重为相应高斯分布分量的第一零阶统计量除以相应的第一零阶统计量与可调参数的和,第二商的权重为可调参数除以相应高斯分布分量的第一零阶统计量与可调参数的和。本实施例中,通过调整可调参数,可以针对不同环境进行差异性调整,增加鲁棒性。
在一个实施例中,映射模块630还用于获取统计量空间的正交基向量;求取正交基向量的映射系数,正交基向量与映射系数的乘积加上相应高斯分布分量的均值后,与相应高斯分布分量的第三商之间的二范数距离最小化;将正交基向量乘以映射系数后加上相应高斯分布分量的均值,得到对应说话人背景模型中每个高斯分布分量的参考一阶统计量和相应参考零阶统计量的第二商。
在一个实施例中,待处理语音数据包括待验证语音数据和目标说话人类别的语音数据;身份向量生成模块650还用于根据与待验证语音数据对应的修正统计量生成待验证身份向量;根据与目标说话人类别的语音数据对应的修正统计量生成目标说话人身份向量。
图9为再一个实施例中身份向量生成装置600的结构框图。本实施例中身份向量生成装置600还包括:说话人身份验证模块680,用于计算待验证身份向量和目标说话人身份向量的相似度;根据相似度进行说话人身份验证。
本实施例中,即使是语音时长很短的语音数据,通过本实施例的身份向量生成方法,依然可以生成身份识别性能较高的身份向量,不需要说话人说出太长的语音,使得短时文本无关说话人识别能够广泛推广。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,该存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (16)

1.一种身份向量生成方法,包括:
获取待处理语音数据;
从所述待处理语音数据提取相应的声学特征;
对各所述声学特征属于说话人背景模型中每个高斯分布分量的后验概率进行统计得到统计量;
将所述统计量映射到统计量空间获得参考统计量;所述统计量空间根据超过预设语音时长的语音样本所对应的统计量构建而成;
根据统计得到的所述统计量和所述参考统计量确定修正统计量;
根据所述修正统计量生成身份向量。
2.根据权利要求1所述的方法,其特征在于,统计得到的所述统计量包括第一零阶统计量和第一一阶统计量;所述对各所述声学特征属于说话人背景模型中每个高斯分布分量的后验概率进行统计得到统计量包括:
对应于说话人背景模型中的每个高斯分布分量,分别统计各所述声学特征属于相应高斯分布分量的后验概率的总和作为相应的第一零阶统计量;
对应于说话人背景模型中的每个高斯分布分量,分别将各所述声学特征以该声学特征属于相应高斯分布分量的后验概率为权重计算加权和作为相应的第一一阶统计量。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
获取超过预设语音时长的语音样本;
按照所述语音样本中说话人类别统计对应于说话人背景模型中的每个高斯分布分量的第二零阶统计量和第二一阶统计量;
计算所述第二一阶统计量和相应的第二零阶统计量的第一商;
根据计算出的第一商构建统计量空间。
4.根据权利要求3所述的方法,其特征在于,所述根据计算出的第一商构建统计量空间包括:
将计算出的第一商减去相应高斯分布分量的均值得到相应的差值;
将得到的差值按照说话人类别和对应的高斯分布分量依次排布形成表征统计量空间的矩阵。
5.根据权利要求2所述的方法,其特征在于,所述参考统计量包括对应所述说话人背景模型中每个高斯分布分量的参考一阶统计量和相应参考零阶统计量的第二商;所述根据统计得到的所述统计量和所述参考统计量确定修正统计量包括:
将所述第一一阶统计量与相应第一零阶统计量的第三商,与相应高斯分布分量的所述第二商加权求和,得到对应所述说话人背景模型中每个高斯分布分量的修正一阶统计量和相应修正零阶统计量的第四商作为修正统计量。
6.根据权利要求5所述的方法,其特征在于,所述加权求和中,所述第三商的权重为相应高斯分布分量的第一零阶统计量除以相应的第一零阶统计量与可调参数的和,所述第二商的权重为所述可调参数除以所述相应高斯分布分量的第一零阶统计量与所述可调参数的和。
7.根据权利要求5所述的方法,其特征在于,所述将所述统计量映射到统计量空间获得参考统计量包括:
获取所述统计量空间的正交基向量;
求取所述正交基向量的映射系数,所述正交基向量与所述映射系数的乘积加上相应高斯分布分量的均值后,与相应高斯分布分量的第三商之间的二范数距离最小化;
将所述正交基向量乘以所述映射系数后加上相应高斯分布分量的均值,得到对应所述说话人背景模型中每个高斯分布分量的参考一阶统计量和相应参考零阶统计量的第二商。
8.根据权利要求1所述的方法,其特征在于,所述待处理语音数据包括待验证语音数据和目标说话人类别的语音数据;所述根据所述修正统计量生成身份向量包括:
根据与所述待验证语音数据对应的修正统计量生成待验证身份向量;
根据与目标说话人类别的语音数据对应的修正统计量生成目标说话人身份向量;
所述方法还包括:
计算所述待验证身份向量和所述目标说话人身份向量的相似度;
根据所述相似度进行说话人身份验证。
9.一种身份向量生成装置,其特征在于,包括:
声学特征提取模块,用于获取待处理语音数据;从所述待处理语音数据提取相应的声学特征;
统计量生成模块,用于对各所述声学特征属于说话人背景模型中每个高斯分布分量的后验概率进行统计得到统计量;
映射模块,用于将所述统计量映射到统计量空间获得参考统计量;所述统计量空间根据超过预设语音时长的语音样本所对应的统计量构建而成;
修正统计量确定模块,用于根据统计得到的所述统计量和所述参考统计量确定修正统计量;
身份向量生成模块,用于根据所述修正统计量生成身份向量。
10.根据权利要求9所述的装置,其特征在于,统计得到的所述统计量包括第一零阶统计量和第一一阶统计量;所述统计量生成模块包括:
第一零阶统计量生成模块,用于对应于说话人背景模型中的每个高斯分布分量,分别统计各所述声学特征属于相应高斯分布分量的后验概率的总和作为相应的第一零阶统计量;
第一一阶统计量生成模块,用于对应于说话人背景模型中的每个高斯分布分量,分别将各所述声学特征以该声学特征属于相应高斯分布分量的后验概率为权重计算加权和作为相应的第一一阶统计量。
11.根据权利要求10所述的装置,其特征在于,所述装置还包括:
统计量统计模块,用于获取超过预设语音时长的语音样本;按照所述语音样本中说话人类别统计对应于说话人背景模型中的每个高斯分布分量的第二零阶统计量和第二一阶统计量;
统计量空间构建模块,用于计算所述第二一阶统计量和相应的第二零阶统计量的第一商;根据计算出的第一商构建统计量空间。
12.根据权利要求11所述的装置,其特征在于,所述统计量空间构建模块还用于将计算出的第一商减去相应高斯分布分量的均值得到相应的差值;将得到的差值按照说话人类别和对应的高斯分布分量依次排布形成表征统计量空间的矩阵。
13.根据权利要求10所述的装置,其特征在于,所述参考统计量包括对应所述说话人背景模型中每个高斯分布分量的参考一阶统计量和相应参考零阶统计量的第二商;所述修正统计量确定模块还用于将所述第一一阶统计量与相应第一零阶统计量的第三商,与相应高斯分布分量的所述第二商加权求和,得到对应所述说话人背景模型中每个高斯分布分量的修正一阶统计量和相应修正零阶统计量的第四商作为修正统计量。
14.根据权利要求13所述的装置,其特征在于,所述修正统计量确定模块用于加权求和时,所述第三商的权重为相应高斯分布分量的第一零阶统计量除以相应的第一零阶统计量与可调参数的和,所述第二商的权重为所述可调参数除以所述相应高斯分布分量的第一零阶统计量与所述可调参数的和。
15.根据权利要求13所述的装置,其特征在于,所述映射模块还用于获取所述统计量空间的正交基向量;求取所述正交基向量的映射系数,所述正交基向量与所述映射系数的乘积加上相应高斯分布分量的均值后,与相应高斯分布分量的第三商之间的二范数距离最小化;将所述正交基向量乘以所述映射系数后加上相应高斯分布分量的均值,得到对应所述说话人背景模型中每个高斯分布分量的参考一阶统计量和相应参考零阶统计量的第二商。
16.根据权利要求9所述的装置,其特征在于,所述待处理语音数据包括待验证语音数据和目标说话人类别的语音数据;所述身份向量生成模块还用于根据与所述待验证语音数据对应的修正统计量生成待验证身份向量;根据与目标说话人类别的语音数据对应的修正统计量生成目标说话人身份向量;
所述装置还包括:
说话人身份验证模块,用于计算所述待验证身份向量和所述目标说话人身份向量的相似度;根据所述相似度进行说话人身份验证。
CN201610560366.3A 2016-07-15 2016-07-15 身份向量生成方法和装置 Active CN106169295B (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN201610560366.3A CN106169295B (zh) 2016-07-15 2016-07-15 身份向量生成方法和装置
PCT/CN2017/092892 WO2018010683A1 (zh) 2016-07-15 2017-07-14 身份向量生成方法、计算机设备和计算机可读存储介质
EP17827019.5A EP3486903B1 (en) 2016-07-15 2017-07-14 Identity vector generating method, computer apparatus and computer readable storage medium
US16/213,421 US10909989B2 (en) 2016-07-15 2018-12-07 Identity vector generation method, computer device, and computer-readable storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610560366.3A CN106169295B (zh) 2016-07-15 2016-07-15 身份向量生成方法和装置

Publications (2)

Publication Number Publication Date
CN106169295A true CN106169295A (zh) 2016-11-30
CN106169295B CN106169295B (zh) 2019-03-01

Family

ID=58065477

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610560366.3A Active CN106169295B (zh) 2016-07-15 2016-07-15 身份向量生成方法和装置

Country Status (4)

Country Link
US (1) US10909989B2 (zh)
EP (1) EP3486903B1 (zh)
CN (1) CN106169295B (zh)
WO (1) WO2018010683A1 (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018010683A1 (zh) * 2016-07-15 2018-01-18 腾讯科技(深圳)有限公司 身份向量生成方法、计算机设备和计算机可读存储介质
WO2018166187A1 (zh) * 2017-03-13 2018-09-20 平安科技(深圳)有限公司 服务器、身份验证方法、***及计算机可读存储介质
CN109346084A (zh) * 2018-09-19 2019-02-15 湖北工业大学 基于深度堆栈自编码网络的说话人识别方法
CN110310647A (zh) * 2017-09-29 2019-10-08 腾讯科技(深圳)有限公司 一种语音身份特征提取器、分类器训练方法及相关设备
CN113053395A (zh) * 2021-03-05 2021-06-29 深圳市声希科技有限公司 发音纠错学习方法、装置、存储介质及电子设备

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102637339B1 (ko) * 2018-08-31 2024-02-16 삼성전자주식회사 음성 인식 모델을 개인화하는 방법 및 장치
CN110544481B (zh) * 2019-08-27 2022-09-20 华中师范大学 一种基于声纹识别的s-t分类方法、装置及设备终端
JP7355248B2 (ja) * 2020-01-31 2023-10-03 日本電気株式会社 音声埋込装置および方法
CN111462762B (zh) * 2020-03-25 2023-02-24 清华大学 一种说话人向量正则化方法、装置、电子设备和存储介质
CN113660670B (zh) * 2020-05-12 2024-02-06 哈尔滨工程大学 基于射频指纹的无线设备身份认证方法及其装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080010065A1 (en) * 2006-06-05 2008-01-10 Harry Bratt Method and apparatus for speaker recognition
CN102024455A (zh) * 2009-09-10 2011-04-20 索尼株式会社 说话人识别***及其方法
CN102820033A (zh) * 2012-08-17 2012-12-12 南京大学 一种声纹识别方法
CN105261367A (zh) * 2014-07-14 2016-01-20 中国科学院声学研究所 一种说话人识别方法

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8060366B1 (en) * 2007-07-17 2011-11-15 West Corporation System, method, and computer-readable medium for verbal control of a conference call
US9042867B2 (en) * 2012-02-24 2015-05-26 Agnitio S.L. System and method for speaker recognition on mobile devices
EP2713367B1 (en) * 2012-09-28 2016-11-09 Agnitio, S.L. Speaker recognition
US9406298B2 (en) * 2013-02-07 2016-08-02 Nuance Communications, Inc. Method and apparatus for efficient i-vector extraction
US20140222423A1 (en) * 2013-02-07 2014-08-07 Nuance Communications, Inc. Method and Apparatus for Efficient I-Vector Extraction
US9336781B2 (en) * 2013-10-17 2016-05-10 Sri International Content-aware speaker recognition
US20150154002A1 (en) * 2013-12-04 2015-06-04 Google Inc. User interface customization based on speaker characteristics
US9640186B2 (en) * 2014-05-02 2017-05-02 International Business Machines Corporation Deep scattering spectrum in acoustic modeling for speech recognition
CN107210038B (zh) * 2015-02-11 2020-11-10 邦及欧路夫森有限公司 多媒体***中的说话者识别
US10141009B2 (en) * 2016-06-28 2018-11-27 Pindrop Security, Inc. System and method for cluster-based audio event detection
CN106169295B (zh) * 2016-07-15 2019-03-01 腾讯科技(深圳)有限公司 身份向量生成方法和装置
WO2018053531A1 (en) * 2016-09-19 2018-03-22 Pindrop Security, Inc. Dimensionality reduction of baum-welch statistics for speaker recognition
GB2563952A (en) * 2017-06-29 2019-01-02 Cirrus Logic Int Semiconductor Ltd Speaker identification
CN110310647B (zh) * 2017-09-29 2022-02-25 腾讯科技(深圳)有限公司 一种语音身份特征提取器、分类器训练方法及相关设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080010065A1 (en) * 2006-06-05 2008-01-10 Harry Bratt Method and apparatus for speaker recognition
CN102024455A (zh) * 2009-09-10 2011-04-20 索尼株式会社 说话人识别***及其方法
CN102820033A (zh) * 2012-08-17 2012-12-12 南京大学 一种声纹识别方法
CN105261367A (zh) * 2014-07-14 2016-01-20 中国科学院声学研究所 一种说话人识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
MD, JAHANGIR ALAM 等: "Multi-taper MFCC Features for Speaker Verification Using I-vectors", 《AUTOMATIC SPEECH RECOGNITION AND UNDERSTANDING (ASRU), 2011 IEEE WORKSHOP ON》 *
YUN, LEI 等: "A Noise Robust I-vector Extractor Using Vector Taylor Series for Speaker Recognition", 《ACOUSTICS,SPEECH AND SIGNAL PROCESSING (ICASSP), 2013 IEEE INTERNATIONAL CONFERENCE ON》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018010683A1 (zh) * 2016-07-15 2018-01-18 腾讯科技(深圳)有限公司 身份向量生成方法、计算机设备和计算机可读存储介质
US10909989B2 (en) 2016-07-15 2021-02-02 Tencent Technology (Shenzhen) Company Limited Identity vector generation method, computer device, and computer-readable storage medium
WO2018166187A1 (zh) * 2017-03-13 2018-09-20 平安科技(深圳)有限公司 服务器、身份验证方法、***及计算机可读存储介质
CN110310647A (zh) * 2017-09-29 2019-10-08 腾讯科技(深圳)有限公司 一种语音身份特征提取器、分类器训练方法及相关设备
CN110310647B (zh) * 2017-09-29 2022-02-25 腾讯科技(深圳)有限公司 一种语音身份特征提取器、分类器训练方法及相关设备
CN109346084A (zh) * 2018-09-19 2019-02-15 湖北工业大学 基于深度堆栈自编码网络的说话人识别方法
CN113053395A (zh) * 2021-03-05 2021-06-29 深圳市声希科技有限公司 发音纠错学习方法、装置、存储介质及电子设备
CN113053395B (zh) * 2021-03-05 2023-11-17 深圳市声希科技有限公司 发音纠错学习方法、装置、存储介质及电子设备

Also Published As

Publication number Publication date
CN106169295B (zh) 2019-03-01
EP3486903B1 (en) 2024-04-24
EP3486903A1 (en) 2019-05-22
EP3486903A4 (en) 2019-05-22
WO2018010683A1 (zh) 2018-01-18
US20190115031A1 (en) 2019-04-18
US10909989B2 (en) 2021-02-02

Similar Documents

Publication Publication Date Title
CN106169295A (zh) 身份向量生成方法和装置
Michelsanti et al. Conditional generative adversarial networks for speech enhancement and noise-robust speaker verification
EP3479377B1 (en) Speech recognition
US5787394A (en) State-dependent speaker clustering for speaker adaptation
CN101833951B (zh) 用于说话人识别的多背景模型建立方法
CN108922544B (zh) 通用向量训练方法、语音聚类方法、装置、设备及介质
CN108735199B (zh) 一种声学模型的自适应训练方法及***
JP3664739B2 (ja) 話者の音声確認用の自動式時間的無相関変換装置
CN111785288B (zh) 语音增强方法、装置、设备及存储介质
CN108281137A (zh) 一种全音素框架下的通用语音唤醒识别方法及***
CN110047504B (zh) 身份矢量x-vector线性变换下的说话人识别方法
CN108922543B (zh) 模型库建立方法、语音识别方法、装置、设备及介质
CN113611315B (zh) 基于轻量化卷积神经网络的声纹识别方法和装置
Omar et al. Training Universal Background Models for Speaker Recognition.
CN110111798A (zh) 一种识别说话人的方法及终端
CN106128466A (zh) 身份向量处理方法和装置
US20050267752A1 (en) Methods and apparatus for statstical biometric model migration
Saeidi et al. Particle swarm optimization for sorted adapted gaussian mixture models
Tan et al. Denoised senone i-vectors for robust speaker verification
Bui et al. A non-linear GMM KL and GUMI kernel for SVM using GMM-UBM supervector in home acoustic event classification
Choi et al. Adversarial speaker-consistency learning using untranscribed speech data for zero-shot multi-speaker text-to-speech
CN115273807A (zh) 环境声音生成方法、装置、计算机设备及存储介质
CN106373576A (zh) 一种基于vq和svm算法的说话人确认方法及其***
CN112489678A (zh) 一种基于信道特征的场景识别方法及装置
CN112735381A (zh) 一种模型更新方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant