JP6420781B2 - 声道スペクトル推定装置、声道スペクトル推定方法、及びプログラム - Google Patents
声道スペクトル推定装置、声道スペクトル推定方法、及びプログラム Download PDFInfo
- Publication number
- JP6420781B2 JP6420781B2 JP2016031809A JP2016031809A JP6420781B2 JP 6420781 B2 JP6420781 B2 JP 6420781B2 JP 2016031809 A JP2016031809 A JP 2016031809A JP 2016031809 A JP2016031809 A JP 2016031809A JP 6420781 B2 JP6420781 B2 JP 6420781B2
- Authority
- JP
- Japan
- Prior art keywords
- vocal tract
- spectrum
- estimation
- time
- spectrogram
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Reverberation, Karaoke And Other Acoustics (AREA)
Description
<本発明の実施の形態の概要>
声道スペクトログラムが低ランクな非負値行列で近似できるという仮定に基づいて、音声信号に付与されたコンテキストラベルを用いることなく、音声信号の複数のフレームにおける調波成分の情報を手がかりにして、声道スペクトルを精度良く推定する。
<低ランク非負値行列による声道スペクトログラムのモデル化>
まず、低ランク非負値行列による声道スペクトログラムのモデル化について説明する。時間インデックスをt(t=0,・・,T-1)とし、周波数インデックスk(k=0,・・,K-1)と対応する正規化角周波数をそれぞれωkと表す。
STRAIGHTによって推定された声道スペクトログラムY=(Yk,t)k,tが与えられた場合、声道スペクトログラムの推定問題は、与えられた声道スペクトログラムYk,tと推定した声道スペクトログラムXk,tとの距離D*(Yk,t;Xk,t)を用いて、(6)式のように定式化ができる。
次に、GMM-NMFに対するパラメータ推定アルゴリズム、及びAR-NMFに対するパラメータ推定アルゴリズムについて説明する。
上記(7)式の一般化KLダイバージェンスDGKLを用いた場合の目的関数LGKL(Θ)における右辺括弧内の第2項は、対数関数の中に加算演算を含んでいるため、(7)式の目的関数を最小化する最適化問題を直接解くことは困難である。
AR-NMFに関しても、GMM-NMFに対する反復アルゴリズムの導出方法と同様にして、閉形式の更新式を導出することができる。
<システム構成>
次に、音声信号の複数のフレームにおける調波成分の情報を手がかりにして、声道スペクトルを推定する声道スペクトル推定装置に本発明を適用した場合を例にして、本発明の第1の実施の形態を説明する。なお、第1の実施の形態では距離D*(Yk,t;Xk,t)として、一般化KLダイバージェンスDGKLを用いた場合のGMM-NMFに対する声道スペクトルの推定アルゴリズムを利用する声道スペクトル推定装置の例について説明する。
次に、GMM-NMFに対する声道スペクトルの推定アルゴリズムを利用する第1の実施の形態に係る声道スペクトル推定装置100の作用について説明する。
<システム構成>
次に、第2の実施の形態に係る声道スペクトル推定装置について説明する。第2の実施の形態では、距離D*(Yk,t;Xk,t)として、一般化KLダイバージェンスDGKLを用いた場合のAR-NMFに対する声道スペクトルの推定アルゴリズムを利用する声道スペクトル推定装置の例について説明する。本発明の第2の実施の形態に係る声道スペクトル推定装置は、図1に示した第1の実施の形態に係る声道スペクトル推定装置のシステム構成と同様に、入力部10と、演算部20と、記憶部30と、出力部40とを備えている。また、演算部20は、観測スペクトログラム推定部21と、初期設定部22と、推定部23と、終了判定部24と、出力部25とを備えている。
次に、AR-NMFに対する声道スペクトルの推定アルゴリズムを利用する第2の実施の形態に係る声道スペクトル推定装置100の作用について説明する。
<評価実験の条件>
次に、第1の実施の形態に係る声道スペクトルの推定方法(以降、「提案法」という)の有効性を示す目的で、提案法で推定した声道スペクトルと、STRAIGHTで推定した声道スペクトルの推定精度を比較する評価実験を行った。
図4に、提案法とSTRAIGHTによる声道スペクトルの推定結果のメルケプストラム歪みを示す。なお、“GKL”の列は、F0の倍率xに対する一般化KLダイバージェンスを用いた場合の評価結果、“EU”の列は、F0の倍率xに対する2乗距離を用いた場合の評価結果、及び“STRAIGHT”の列は、STRAIGHTによる評価結果を表している。各々の評価結果は、[平均値±標準偏差][dB]の形式で記載されており、括弧内の値は、非周期性指標Ak,tを用いなかった場合の評価結果を示している。
20 演算部
21 観測スペクトログラム推定部
22 初期設定部
23 推定部
24 終了判定部
25 出力部
30 記憶部
100 声道スペクトル推定装置
Claims (7)
- 音声信号の時系列データを、基本周期の幅で切り出し、各々切り出した音声信号のスペクトルから、各時刻及び各正規化角周波数の観測時間周波数成分を表す観測スペクトログラムを出力する観測スペクトログラム推定部と、
前記観測スペクトログラム推定部により出力された前記観測スペクトログラムと、各スペクトルパターンにおける各正規化角周波数のパワースペクトルを表す声道スペクトル、及び各スペクトルパターンの各時刻における重みから求められる各時刻及び各正規化角周波数の時間周波数成分を表す声道スペクトログラムとの距離を用いて表される目的関数を小さくするように、各スペクトルパターンにおける各正規化角周波数の前記声道スペクトル、及び各スペクトルパターンの各時刻における重みを推定する推定部と、
を含む声道スペクトル推定装置。 - r番目のスペクトルパターンにおけるk番目の正規化角周波数ωkの前記声道スペクトルを、以下の式で表わされるHk,r (GMM)とし、
前記推定部は、r番目のスペクトルパターンにおけるk番目の正規化角周波数ωkの前記声道スペクトルとして、n番目の正規分布の各々に対する重みWr,nを推定する請求項1記載の声道スペクトル推定装置。
ただし、Gn(ω)は、平均ρn、分散νn 2の正規分布を表し、h(ω)は、周波数ワーピング関数を表す。 - r番目のスペクトルパターンにおけるk番目の正規化角周波数ωkの前記声道スペクトルを、以下の式で表わされるHk,r (AR)とし、
前記推定部は、r番目のスペクトルパターンにおけるk番目の正規化角周波数ωkの前記声道スペクトルとして、P次の全極フィルタの係数arを推定する請求項1記載の声道スペクトル推定装置。
ただし、Q(ω)は、(p,q)成分が、cos(ω(p−q))で表わされる(P+1)×(P+1)のToeplitz行列である。 - 観測スペクトログラム推定部と推定部とを含む声道スペクトル推定装置における声道スペクトル推定方法であって、
前記観測スペクトログラム推定部が、音声信号の時系列データを、基本周期の幅で切り出し、各々切り出した音声信号のスペクトルから、各時刻及び各正規化角周波数の観測時間周波数成分を表す観測スペクトログラムを出力し、
前記推定部が、前記観測スペクトログラム推定部により出力された前記観測スペクトログラムと、各スペクトルパターンにおける各正規化角周波数のパワースペクトルを表す声道スペクトル、及び各スペクトルパターンの各時刻における重みから求められる各時刻及び各正規化角周波数の時間周波数成分を表す声道スペクトログラムとの距離を用いて表される目的関数を小さくするように、各スペクトルパターンにおける各正規化角周波数の前記声道スペクトル、及び各スペクトルパターンの各時刻における重みを推定する
声道スペクトル推定方法。 - r番目のスペクトルパターンにおけるk番目の正規化角周波数ωkの前記声道スペクトルを、以下の式で表わされるHk,r (GMM)とし、
前記推定部が推定することでは、r番目のスペクトルパターンにおけるk番目の正規化角周波数ωkの前記声道スペクトルとして、n番目の正規分布の各々に対する重みWr,nを推定する請求項4記載の声道スペクトル推定方法。
ただし、Gn(ω)は、平均ρn、分散νn 2の正規分布を表し、h(ω)は、周波数ワーピング関数を表す。
声道スペクトル推定方法。 - r番目のスペクトルパターンにおけるk番目の正規化角周波数ωkの前記声道スペクトルを、以下の式で表わされるHk,r (AR)とし、
前記推定部が推定することでは、r番目のスペクトルパターンにおけるk番目の正規化角周波数ωkの前記声道スペクトルとして、P次の全極フィルタの係数arを推定する請求項4記載の声道スペクトル推定方法。
ただし、Q(ω)は、(p,q)成分が、cos(ω(p−q))で表わされる(P+1)×(P+1)のToeplitz行列である。
声道スペクトル推定方法。 - 請求項1〜請求項3の何れか1項に記載の声道スペクトル推定装置の各部としてコンピュータを機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016031809A JP6420781B2 (ja) | 2016-02-23 | 2016-02-23 | 声道スペクトル推定装置、声道スペクトル推定方法、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016031809A JP6420781B2 (ja) | 2016-02-23 | 2016-02-23 | 声道スペクトル推定装置、声道スペクトル推定方法、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2017151188A JP2017151188A (ja) | 2017-08-31 |
JP6420781B2 true JP6420781B2 (ja) | 2018-11-07 |
Family
ID=59741757
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016031809A Active JP6420781B2 (ja) | 2016-02-23 | 2016-02-23 | 声道スペクトル推定装置、声道スペクトル推定方法、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6420781B2 (ja) |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3266819B2 (ja) * | 1996-07-30 | 2002-03-18 | 株式会社エイ・ティ・アール人間情報通信研究所 | 周期信号変換方法、音変換方法および信号分析方法 |
JP5159279B2 (ja) * | 2007-12-03 | 2013-03-06 | 株式会社東芝 | 音声処理装置及びそれを用いた音声合成装置。 |
-
2016
- 2016-02-23 JP JP2016031809A patent/JP6420781B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2017151188A (ja) | 2017-08-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20200357381A1 (en) | Speech synthesis device, speech synthesis method, speech synthesis model training device, speech synthesis model training method, and computer program product | |
Chen et al. | MVA processing of speech features | |
CN107924686B (zh) | 语音处理装置、语音处理方法以及存储介质 | |
EP2109096B1 (en) | Speech synthesis with dynamic constraints | |
EP2337006A1 (en) | Speech processing and learning | |
US5907826A (en) | Speaker-independent speech recognition using vowel/consonant segmentation based on pitch intensity values | |
US20080167862A1 (en) | Pitch Dependent Speech Recognition Engine | |
WO2007094463A1 (ja) | 信号歪み除去装置、方法、プログラム及びそのプログラムを記録した記録媒体 | |
Nower et al. | Restoration scheme of instantaneous amplitude and phase using Kalman filter with efficient linear prediction for speech enhancement | |
JP6420781B2 (ja) | 声道スペクトル推定装置、声道スペクトル推定方法、及びプログラム | |
JP5325130B2 (ja) | Lpc分析装置、lpc分析方法、音声分析合成装置、音声分析合成方法及びプログラム | |
McAulay | Maximum likelihood spectral estimation and its application to narrow-band speech coding | |
JP4571871B2 (ja) | 音声信号分析方法およびこの分析方法を実施する装置、この音声信号分析装置を用いた音声認識装置、この分析方法を実行するプログラムおよびその記憶媒体 | |
JP2012027196A (ja) | 信号分析装置、方法、及びプログラム | |
JP6553584B2 (ja) | 基本周波数モデルパラメータ推定装置、方法、及びプログラム | |
JP6689769B2 (ja) | 声道スペクトル推定装置、方法、及びプログラム | |
Kato et al. | HMM-based speech enhancement using sub-word models and noise adaptation | |
JP6564744B2 (ja) | 信号解析装置、方法、及びプログラム | |
JP6665079B2 (ja) | 基本周波数モデルパラメータ推定装置、方法、及びプログラム | |
JP2019070775A (ja) | 信号解析装置、方法、及びプログラム | |
JP4362072B2 (ja) | 音声信号分析方法およびこの分析方法を実施する装置、この音声信号分析装置を用いた音声認識装置、この分析方法を実行するプログラムおよびその記憶媒体 | |
Eyben et al. | A frequency-weighted post-filtering transform for compensation of the over-smoothing effect in HMM-based speech synthesis | |
JP4762176B2 (ja) | 音声認識装置および音声認識プログラム | |
JP6553561B2 (ja) | 信号解析装置、方法、及びプログラム | |
Arima et al. | Noise‐robust speech analysis using system identification methods |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20171113 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20180905 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20181009 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20181012 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6420781 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |