JP6665079B2 - 基本周波数モデルパラメータ推定装置、方法、及びプログラム - Google Patents
基本周波数モデルパラメータ推定装置、方法、及びプログラム Download PDFInfo
- Publication number
- JP6665079B2 JP6665079B2 JP2016240303A JP2016240303A JP6665079B2 JP 6665079 B2 JP6665079 B2 JP 6665079B2 JP 2016240303 A JP2016240303 A JP 2016240303A JP 2016240303 A JP2016240303 A JP 2016240303A JP 6665079 B2 JP6665079 B2 JP 6665079B2
- Authority
- JP
- Japan
- Prior art keywords
- command
- time
- fundamental frequency
- function
- updated
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Description
非特許文献2〜非特許文献4で提案されたモデルでは、前記HMMの状態系列
と出力値系列
を変数にもつ。非特許文献2、3では、観測F0パターン
が与えられた下で
と
の条件付同時確率
を
に関して周辺化した
の条件付確率
を、
を隠れ変数としたEMアルゴリズムで局所最大化できることが示されている。一方、非特許文献4では、
を
に関して周辺化した
の条件付確率
を、
を隠れ変数としたEM アルゴリズムで局所最大化できることが示されている。前者の方法は
に対する非負値制約を
の推定プロセスに組み込むことが難しかったのに対し、後者の方法は
に対する非負値制約の下で局所最適な
の推定が可能となったため高いパラメータの推定精度を実現している。しかし、後者の方法では
が与えられた下でForward-Backward アルゴリズムにより
の事後確率計算を行うステップ(Eステップ)が必要であり、このステップに膨大な計算量を要していた。そこで、本発明の実施の形態では、最適化規準を
や
の代わりに
と
の条件付同時確率
とし、
の事後確率計算ステップを
の最適推定ステップに置き換えたパラメータ推定アルゴリズムを提案する。すなわち、
が与えられた下で非負値制約の下での最適な
を推定するステップと
が与えられた下で最適な
をViterbi アルゴリズムにより効率的に探索するステップを繰り返すことで
の非負値制約の下で局所最適な
と
を推定することができる。本方法は、非特許文献4においてForward-BackwardアルゴリズムをViterbiアルゴリズムに置き換えたものになる点がポイントであり、一般にViterbi アルゴリズムはForward-Backwardアルゴリズムに比べ高速であるため、全体の計算量の効率化が期待される。
非特許文献4に記載されているF0軌跡の確率モデル化について説明する。
とする。各状態の出力分布を正規分布とした場合、出力系列
は
と分散
が状態遷移の結果として時間とともに変化することを意味する。HMM の利点は、状態遷移ネットワークの設計を通してモデル化したい系列に対して課すべき制約を柔軟に設けられる点にある。フレーズ指令、アクセント指令に対する先述の制約は例えば図2のような状態遷移ネットワークによって表現できる。加えて、それぞれの状態を同じ出力分布をもったいくつかの小状態に分割することで自己遷移の持続長をパラメータ化することもできる。
と表記する。以上のHMM の構成は以下となる。
との和として表すことで、観測F0パターンの不確実性を分散v2 n[k]の設定を通して組み込むことができる。すなわち、観測F0パターンy[k]を
が与えられたもとでの
の条件つき確率密度関数
は
が与えられたもとでの
の条件つき確率密度関数
は
で与えられる。ここで、
は出力分布の平均と分散の系列を表す。状態系列
の確率分布
はHMMにおけるマルコフ性の仮定より、遷移確率の積
で与えられる。
非特許文献2、3では、観測F0 系列
が与えられたときの状態系列
の事後確率
を最大化する
をEM アルゴリズムにより探索するアルゴリズムが提案されており、非特許文献4では、観測F0系列
が与えられたときの状態出力系列
の事後確率
を
の各要素が非負値となるように最大化する
をEMアルゴリズムと補助関数法により探索するアルゴリズムが提案されている。これらに対し本発明は、観測F0系列
が与えられたときの状態出力系列
と状態系列
の同時事後確率
を最大化する
と
を、
を固定した上で
が最大となるように
を更新するステップと、
を固定した上で
が増大するように
を非負値制約下で更新するステップを反復することで探索するアルゴリズムである。
状態系列更新ステップは、
を固定した上で
が最大となるように
を更新するステップである。
で
に依存する項は
であるため、
を最大化する
を求める問題は、
を出力系列としたHMM の状態系列探索問題と同形である。従ってViterbi アルゴリズムを用いて解決することができる。
状態出力系列更新ステップは、
を固定した上で
が最大となるように
を更新するステップである。
で
に依存する項は
であり、
と
はそれぞれ
を最大化する
を直接求めるのは難しいが、補助関数法に基づく反復計算により局所的に最大化する
を探索することができる。補助関数法は最大化したい目的関数の下界となる関数を反復的に増加させていくことで目的関数を増加させる手法である。式(12) の下界となる関数は、Jensen の不等式
を補助変数と呼び、
を満たす。式(14) の等号成立条件は
と呼ぶ。この補助関数をui[l]に関して偏微分すると、
を増加させることができる。
を最大にするHMM の状態出力分布のパラメータ
は
に関する偏微分をそれぞれ0 と置くことで
はsk= anであるようなk の集合
を表し、
はその集合の要素数を表す。
とする。この基本周波数の抽出処理は、周知技術により実現でき、例えば、非特許文献5(H. Kameoka, "Statistical speech spectrum model incorporating all-pole vocal tract model and F0 contour generating process model," in Tech. Rep. IEICE, 2010, in Japanese.)に記載の手法を利用して、8msごとに基本周波数を抽出する。
の初期値(非負値)を設定する。また、初期値設定部4は、C(p)[k]の初期値として、
のフレーズ指令関数の振幅を線形補間したものを設定し、Cn (a)の初期値として適切な値を設定する。
と
の局所最適解は、状態系列更新部5とモデルパラメータ更新部6の2つのステップを繰り返すことで得られる。
又は指令関数
の初期値に基づいて、観測基本周波数系列
、指令関数
、及び状態系列
の対数同時確率
を目的関数として、前記目的関数を増加させるように、Viterbiアルゴリズムを用いて、状態系列
を更新する。具体的には、
が最大となるように、Viterbiアルゴリズムを用いて、状態系列
を更新する。
または指令関数
の初期値、観測基本周波数系列
、および各時刻kにおける不確かさの程度vn 2[k]に基づいて、目的関数を増加させるように、補助関数法を用いて、各々非負値である指令関数
、及びパラメータ群
を更新する。
と、不確かさの程度vn 2 [k]と、状態系列更新部5によって更新された状態系列
と、補助変数更新部61によって更新された補助変数λp,k,lとに基づいて、上記式(18)に従って、非負値である各時刻lのフレーズ指令up[l]を更新する。
と、不確かさの程度vn 2[k]と、状態系列更新部5によって更新された状態系列
と、補助変数更新部61によって更新された補助変数λa,k,lとに基づいて、上記式(18)に従って、非負値である各時刻lのアクセント指令ua[l]を更新する。
と、不確かさの程度vn 2 [k]と、補助変数更新部61によって更新された補助変数λb,k,lとに基づいて、上記式(18)に従って、ベース成分ubを更新する。
を更新する。
と
に代入して、反復アルゴリズム(状態系列更新部5及びモデルパラメータ更新部6の各処理)を繰り返す。収束判定部7は、収束条件を満足したと判定した場合には、出力部9による処理に移行する。
、パラメータ群
、状態系列
を出力する。
次に、本実施の形態に係る基本周波数モデルパラメータ推定装置100の作用について説明する。まず、分析対象として、観測された音声信号の時系列データが、基本周波数モデルパラメータ推定装置100に入力され、記憶部1に格納される。そして、基本周波数モデルパラメータ推定装置100において、図5に示す基本周波数モデルパラメータ推定処理ルーチンが実行される。
を抽出する。ステップS102において、音声信号の時系列データに基づいて、有声区間、無声区間を特定し、各時刻kの基本周波数の不確かさの程度vn 2 [k]を推定する。
を推定して、初期値として設定すると共に、C(p)[k]の初期値及びCn (a)の初期値を設定する。
の初期値、または後述するステップS105で前回更新された指令系列
に基づいて、
が最大となるように、Viterbiアルゴリズムを用いて、状態系列
を更新する。
と、上記ステップS102で算出された各時刻kの不確かさの程度vn 2[k]と、上記ステップS104で更新された状態系列
と、上記ステップS105で更新された補助変数λp,k、l、λa,k,l、λb,k,lとに基づいて、上記式(18)に従って、非負値である各時刻lのフレーズ指令up[l]及びアクセント指令ua[l]からなる指令系列
とベース成分ubとを更新する。
とに基づいて、上記式(20)に従って、各アクセント指令nの状態出力分布のパラメータCn (a)を更新することにより、パラメータ群
を更新する。
、パラメータ群
、状態系列
を出力して、基本周波数モデルパラメータ推定処理ルーチンを終了する。
表1は、音声データ長: 3.62 秒の音声データに従来法(非特許文献4)と本発明の実施の形態の手法を適用した際の各ステップに要した計算時間を示している。
・RAM: 32GB
・OS: Windows 7 SP1
・MATLAB R2016a
を目的関数として、Viterbiアルゴリズムを用いて、状態系列を更新し、指令関数、及びパラメータ群θを更新することを繰り返すことにより、計算量を抑えて、藤崎モデルのパラメータを推定することができる。
2 基本周波数系列抽出部
3 有声無声区間推定部
4 初期値設定部
5 状態系列更新部
6 モデルパラメータ更新部
7 収束判定部
61 補助変数更新部
62 指令関数更新部
63 収束判定部
64 状態出力分布更新部
100 基本周波数モデルパラメータ推定装置
Claims (7)
- 音声信号を入力として、隠れマルコフモデルの各時刻kの状態skからなる状態系列sと、各時刻kにおける甲状軟骨の平行移動運動によって生じる基本周波数パターンを表すフレーズ指令up[k]及び甲状軟骨の回転運動によって生じる基本周波数パターンを表すアクセント指令ua[k]のペアo[k]からなる指令関数oと、各時刻kにおける状態skに応じたフレーズ指令の状態出力分布のパラメータC(p)[k]及び各アクセント指令nの状態出力分布のパラメータCn (a)を表すパラメータ群θとを推定する基本周波数モデルパラメータ推定装置であって、
前記音声信号の時系列データから、前記音声信号の各時刻kの基本周波数を表す観測基本周波数系列yを抽出する基本周波数抽出部と、
前記音声信号の時系列データについて、有声区間及び無声区間の何れであるかに応じて、各時刻kにおける前記基本周波数の不確かさの程度を推定する有声無声区間推定部と、
前記指令関数oの初期値を設定する初期値設定部と、
前回更新された前記指令関数oまたは前記指令関数oの初期値に基づいて、前記観測基本周波数系列y、前記指令関数o、及び状態系列sの対数同時確率log p(y,o,s)を目的関数として、前記目的関数を増加させるように、Viterbiアルゴリズムを用いて、前記状態系列sを更新する状態系列更新部と、
前回更新された前記指令関数oまたは前記指令関数oの初期値、前記観測基本周波数系列y、および各時刻kにおける前記不確かさの程度に基づいて、前記目的関数を増加させるように、各々非負値である前記指令関数o、及び前記パラメータ群θを更新するモデルパラメータ更新部と、
予め定められた収束条件を満たすまで、前記状態系列更新部による更新、及び前記モデルパラメータ更新部による更新を繰り返させる収束判定部と、
を含み、
前記状態系列更新部は、以下の式に従って、前記状態系列sが与えられたもとでの前記指令関数oの条件付き確率密度関数の対数log p(o|s)と前記状態系列sの確率分布の対数log p(s)との和を増加させるように、Viterbiアルゴリズムを用いて、前記状態系列sを更新する
基本周波数モデルパラメータ推定装置。
- 前記モデルパラメータ更新部は、前回更新された前記指令関数oまたは前記指令関数oの初期値、前記観測基本周波数系列y、および各時刻kにおける前記不確かさの程度に基づいて、補助関数法を用いて、前記目的関数を増加させるように、各々非負値である前記指令関数o、及び前記パラメータ群θを更新する請求項1記載の基本周波数モデルパラメータ推定装置。
- 前記モデルパラメータ更新部は、
前回更新された各時刻lのフレーズ指令up[l]又は各時刻lのフレーズ指令up[l]の初期値に基づいて、時刻k、lの組み合わせ(k、l)の各々について、補助変数λp,k,lを算出して更新し、かつ、前回更新された各時刻kのアクセント指令ua[k]又は各時刻kのアクセント指令ua[k]の初期値に基づいて、時刻k、lの組み合わせ(k、l)の各々について、補助変数λa,k,lを算出して更新し、かつ、前回更新されたベースライン成分ub又はベースライン成分ubの初期値に基づいて、時刻k、lの組み合わせ(k、l)の各々について、補助変数λb,k,lを算出して更新する補助変数更新部と、
前記観測基本周波数系列yと、各時刻kの前記不確かさの程度と、前記補助変数更新部によって更新された前記補助変数λp,k,l、λa,k,l、λb,k,lとに基づいて、前記目的関数の下界となる関数を補助関数として、前記補助関数を増加させるように、各時刻lのフレーズ指令up[l]及びアクセント指令ua[l]と、ベースライン成分ubとを更新する指令関数更新部と、
予め定められた収束条件を満たすまで、前記補助変数更新部による更新、及び前記指令関数更新部による更新を繰り返させる収束判定部と、
前記指令関数更新部によって更新された各時刻lのフレーズ指令up[l]に基づいて、各時刻kのフレーズ指令の状態出力分布のパラメータC(p)[k]を更新し、かつ、前記指令関数更新部よって更新された各時刻lのアクセント指令ua[l]と、前記更新された状態系列sとに基づいて、各アクセント指令nの状態出力分布のパラメータCn (a)を更新することにより、前記パラメータ群θを更新する状態出力分布更新部と、
を含む請求項2記載の基本周波数モデルパラメータ推定装置。 - 音声信号を入力として、隠れマルコフモデルの各時刻kの状態skからなる状態系列sと、各時刻kにおける甲状軟骨の平行移動運動によって生じる基本周波数パターンを表すフレーズ指令up[k]及び甲状軟骨の回転運動によって生じる基本周波数パターンを表すアクセント指令ua[k]のペアo[k]からなる指令関数oと、各時刻kにおける状態skに応じたフレーズ指令の状態出力分布のパラメータC(p)[k]及び各アクセント指令nの状態出力分布のパラメータCn (a)を表すパラメータ群θとを推定する基本周波数モデルパラメータ推定装置における基本周波数モデルパラメータ推定方法であって、
基本周波数抽出部が、前記音声信号の時系列データから、前記音声信号の各時刻kの基本周波数を表す観測基本周波数系列yを抽出し、
有声無声区間推定部が、前記音声信号の時系列データについて、有声区間及び無声区間の何れであるかに応じて、各時刻kにおける前記基本周波数の不確かさの程度を推定し、
初期値設定部が、前記指令関数oの初期値を設定し、
状態系列更新部が、前回更新された前記指令関数oまたは前記指令関数oの初期値に基づいて、前記観測基本周波数系列y、前記指令関数o、及び状態系列sの対数同時確率log p(y,o,s)を目的関数として、前記目的関数を増加させるように、Viterbiアルゴリズムを用いて、前記状態系列sを更新し、
モデルパラメータ更新部が、前回更新された前記指令関数oまたは前記指令関数oの初期値、前記観測基本周波数系列y、および各時刻kにおける前記不確かさの程度に基づいて、前記目的関数を増加させるように、各々非負値である前記指令関数o、及び前記パラメータ群θを更新し、
収束判定部が、予め定められた収束条件を満たすまで、前記状態系列更新部による更新、及び前記モデルパラメータ更新部による更新を繰り返させる
ことを含み、
前記状態系列更新部が更新することでは、以下の式に従って、前記状態系列sが与えられたもとでの前記指令関数oの条件付き確率密度関数の対数log p(o|s)と前記状態系列sの確率分布の対数log p(s)との和を増加させるように、Viterbiアルゴリズムを用いて、前記状態系列sを更新する
基本周波数モデルパラメータ推定方法。
- 前記モデルパラメータ更新部が更新することでは、前回更新された前記指令関数oまたは前記指令関数oの初期値、前記観測基本周波数系列y、および各時刻kにおける前記不確かさの程度に基づいて、補助関数法を用いて、前記目的関数を増加させるように、各々非負値である前記指令関数o、及び前記パラメータ群θを更新する請求項4記載の基本周波数モデルパラメータ推定方法。
- 前記モデルパラメータ更新部が更新することでは、
補助変数更新部が、前回更新された各時刻lのフレーズ指令up[l]又は各時刻lのフレーズ指令up[l]の初期値に基づいて、時刻k、lの組み合わせ(k、l)の各々について、補助変数λp,k,lを算出して更新し、かつ、前回更新された各時刻kのアクセント指令ua[k]又は各時刻kのアクセント指令ua[k]の初期値に基づいて、時刻k、lの組み合わせ(k、l)の各々について、補助変数λa,k,lを算出して更新し、かつ、前回更新されたベースライン成分ub又はベースライン成分ubの初期値に基づいて、時刻k、lの組み合わせ(k、l)の各々について、補助変数λb,k,lを算出して更新し、
指令関数更新部が、前記観測基本周波数系列yと、各時刻kの前記不確かさの程度と、前記補助変数更新部によって更新された前記補助変数λp,k,l、λa,k,l、λb,k,lとに基づいて、前記目的関数の下界となる関数を補助関数として、前記補助関数を増加させるように、各時刻lのフレーズ指令up[l]及びアクセント指令ua[l]と、ベースライン成分ubとを更新し、
収束判定部が、予め定められた収束条件を満たすまで、前記補助変数更新部による更新、及び前記指令関数更新部による更新を繰り返させ、
状態出力分布更新部が、前記指令関数更新部によって更新された各時刻lのフレーズ指令up[l]に基づいて、各時刻kのフレーズ指令の状態出力分布のパラメータC(p)[k]を更新し、かつ、前記指令関数更新部よって更新された各時刻lのアクセント指令ua[l]と、前記更新された状態系列sとに基づいて、各アクセント指令nの状態出力分布のパラメータCn (a)を更新することにより、前記パラメータ群θを更新する
請求項5記載の基本周波数モデルパラメータ推定方法。 - 請求項1〜請求項3の何れか1項に記載の基本周波数モデルパラメータ推定装置の各部としてコンピュータを機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016240303A JP6665079B2 (ja) | 2016-12-12 | 2016-12-12 | 基本周波数モデルパラメータ推定装置、方法、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016240303A JP6665079B2 (ja) | 2016-12-12 | 2016-12-12 | 基本周波数モデルパラメータ推定装置、方法、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018097114A JP2018097114A (ja) | 2018-06-21 |
JP6665079B2 true JP6665079B2 (ja) | 2020-03-13 |
Family
ID=62632372
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016240303A Active JP6665079B2 (ja) | 2016-12-12 | 2016-12-12 | 基本周波数モデルパラメータ推定装置、方法、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6665079B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7120807B2 (ja) | 2018-05-21 | 2022-08-17 | 株式会社神戸製鋼所 | 圧縮装置及び圧縮装置の搬出方法 |
-
2016
- 2016-12-12 JP JP2016240303A patent/JP6665079B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2018097114A (ja) | 2018-06-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6777768B2 (ja) | 単語ベクトル化モデル学習装置、単語ベクトル化装置、音声合成装置、それらの方法、及びプログラム | |
KR101120765B1 (ko) | 스위칭 상태 스페이스 모델과의 멀티모덜 변동 추정을이용한 스피치 인식 방법 | |
JP2019144402A (ja) | 音声変換学習装置、音声変換装置、方法、及びプログラム | |
JP2007279744A (ja) | F0および休止予測モデルを訓練する方法および装置、f0および休止予測方法および装置、音声合成方法および装置 | |
GB2590509A (en) | A text-to-speech synthesis method and system, a method of training a text-to-speech synthesis system, and a method of calculating an expressivity score | |
JP5807921B2 (ja) | 定量的f0パターン生成装置及び方法、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム | |
Das et al. | Optimal prosodic feature extraction and classification in parametric excitation source information for Indian language identification using neural network based Q-learning algorithm | |
JP5885210B2 (ja) | 基本周波数モデルパラメータ推定装置、方法、及びプログラム | |
JP6553584B2 (ja) | 基本周波数モデルパラメータ推定装置、方法、及びプログラム | |
JP6665079B2 (ja) | 基本周波数モデルパラメータ推定装置、方法、及びプログラム | |
JP6137477B2 (ja) | 基本周波数モデルパラメータ推定装置、方法、及びプログラム | |
JP5474713B2 (ja) | 音声合成装置、音声合成方法および音声合成プログラム | |
JP6468519B2 (ja) | 基本周波数パターン予測装置、方法、及びプログラム | |
JP6142401B2 (ja) | 音声合成モデル学習装置、方法、及びプログラム | |
Yu et al. | Hidden Markov models and the variants | |
JP6472005B2 (ja) | 基本周波数パターン予測装置、方法、及びプログラム | |
US11798579B2 (en) | Device, method, and program for analyzing speech signal | |
Yoshizato et al. | Hidden Markov Convolutive Mixture Model for Pitch Contour Analysis of Speech. | |
Yu et al. | A lattice search technique for a long-contextual-span hidden trajectory model of speech | |
Koriyama et al. | Frame-level acoustic modeling based on Gaussian process regression for statistical nonparametric speech synthesis | |
JP6137708B2 (ja) | 定量的f0パターン生成装置、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム | |
JP6662801B2 (ja) | 指令列推定装置、状態系列推定モデル学習装置、その方法、及びプログラム | |
Hashimoto et al. | Overview of NIT HMMbased speech synthesis system for Blizzard Challenge 2011 | |
Takaki et al. | Contextual partial additive structure for HMM-based speech synthesis | |
Kameoka | Probabilistic Modeling of Pitch Contours Toward Prosody Synthesis and Conversion |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180822 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20190620 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20190625 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190822 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200128 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200219 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6665079 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |