JP6665079B2

JP6665079B2 - 基本周波数モデルパラメータ推定装置、方法、及びプログラム

Info

Publication number: JP6665079B2
Application number: JP2016240303A
Authority: JP
Inventors: 弘和亀岡; 薫平松; 柏野　邦夫; 邦夫柏野; 遼太郎佐藤
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2016-12-12
Filing date: 2016-12-12
Publication date: 2020-03-13
Anticipated expiration: 2036-12-12
Also published as: JP2018097114A

Description

本発明は、基本周波数モデルパラメータ推定装置、方法、及びプログラムに係り、特に、音声信号から、観測基本周波数系列のパラメータを推定する基本周波数モデルパラメータ推定装置、方法、及びプログラムに関する。

音声には言語情報以外にも様々な情報が含まれており、日常的なコミュニケーションに利用される。我々はこれらの非言語的な情報を工学的に扱う枠組みを構築することを目標として、非言語情報の解析・合成のための情報処理と信号処理の研究を進めている。

音声の基本周波数(F₀)軌跡には、話者性、感情、意図などの非言語的な情報が豊富に含まれることが知られている。このため、F₀軌跡のモデル化は、音声合成、話者認識、感情認識、対話システムなど、韻律情報が重要な役割を担う応用において極めて有効である。F₀軌跡は、韻律句全体にわたってゆるやかに変化する成分(フレーズ成分) と、アクセントに従って急峻に変化する成分(アクセント成分) により構成される。これらの成分は、ヒトの甲状軟骨の並進運動と回転運動にそれぞれ対応していると解釈できるが、この解釈に基づき対数F₀ 軌跡をこれらの成分の和で表した数学的なモデル(以後、藤崎モデル)が提案されている（非特許文献１）。藤崎モデルは、フレーズ・アクセント指令の生起時刻、持続時間、各指令の大きさなどをパラメータとして有し、これらが適切に設定されたとき実測の軌跡を非常によく近似することが知られている。また、パラメータの言語学的対応の妥当性も広く確認されている。

先述の藤崎モデルのパラメータは、韻律的特徴を効率よく表現できるため、実測のF₀軌跡から藤崎モデルのパラメータを高速かつ高精度に推定することができれば有用である。しかしながら、この問題は元来不良設定問題であること、また藤崎モデルには言語学的な知見により守られるべき制約が存在することなどから、必ずしも容易ではなかった。これまで発明者らは、藤崎モデルをベースとしたF₀ パターンの確率的生成過程をモデル化し、藤崎モデルの最尤パラメータをExpectation-Maximization(EM) アルゴリズムにより推定する手法を提案している（非特許文献２〜４）。

H. Fujisaki, O. Fujimura, Ed., "A note on the physiological and physical basis for the phrase and accent components in the Voice fundamental frequency contour," in Vocal Physiology: Voice Production, Mechanisms and Functions. New York, NY, USA: Raven, 1988. H. Kameoka, J. L. Roux, and Y. Ohishi, "A statistical model of speech F0contours," in Proc.SAPA, 2010, pp. 43−48. K. Yoshizato, H. Kameoka, D. Saito, and S. Sagayama, "Statistical approach to fujisaki-model parameter estimation from speech signals and its quantitative evaluation," in Proc. Speech Prosody 2012, 2012, pp. 175−178. K. Yoshizato, H. Kameoka, D. Saito, and S. Sagayama, "Hidden Markov convolutive mixture model for pitch contour analysis of speech," in Proc. The 13th Annual Conference of the International Speech Communication Association (Interspeech 2012), Sep. 2012.

前記手法の中心的なアイデアは、フレーズ・アクセント指令列の生成プロセスを隠れマルコフモデル(HMM) により表現した点にあるが、これらの手法では、その計算時間の90%以上が各時刻における状態事後確率を算出するためのForward-Backward アルゴリズムに費やされていた。前記手法ではHMMの全ての状態での出力分布が正規分布で記述されるため、状態事後確率の逐次計算において多数の確率値の積和の計算のための指数計算と対数計算が必要になり、これが計算に時間を要する主要因となっていた。この処理部の計算量を抑えることができればアルゴリズム全体を効率化することができる。

本発明は、上記の事情を鑑みてなされたもので、計算量を抑えて、藤崎モデルのパラメータを推定することができる基本周波数モデルパラメータ推定装置、方法、及びプログラムを提供することを目的とする。

上記の目的を達成するために本発明に係る基本周波数モデルパラメータ推定装置は、音声信号を入力として、隠れマルコフモデルの各時刻ｋの状態ｓ_kからなる状態系列ｓと、各時刻ｋにおける甲状軟骨の平行移動運動によって生じる基本周波数パターンを表すフレーズ指令ｕ_p［ｋ］及び甲状軟骨の回転運動によって生じる基本周波数パターンを表すアクセント指令ｕ_a［ｋ］のペアｏ[ｋ]からなる指令関数ｏと、各時刻ｋにおける状態ｓ_kに応じたフレーズ指令の状態出力分布のパラメータＣ^(p)[ｋ]及び各アクセント指令ｎの状態出力分布のパラメータＣ_n ^(a)を表すパラメータ群θとを推定する基本周波数モデルパラメータ推定装置であって、前記音声信号の時系列データから、前記音声信号の各時刻ｋの基本周波数を表す観測基本周波数系列ｙを抽出する基本周波数抽出部と、前記音声信号の時系列データについて、有声区間及び無声区間の何れであるかに応じて、各時刻ｋにおける前記基本周波数の不確かさの程度を推定する有声無声区間推定部と、前記指令関数ｏの初期値を設定する初期値設定部と、前回更新された前記指令関数ｏまたは前記指令関数ｏの初期値に基づいて、前記観測基本周波数系列ｙ、前記指令関数ｏ、及び状態系列ｓの対数同時確率ｌｏｇｐ（ｙ，ｏ，ｓ）を目的関数として、前記目的関数を増加させるように、Ｖｉｔｅｒｂｉアルゴリズムを用いて、前記状態系列ｓを更新する状態系列更新部と、前回更新された前記指令関数ｏまたは前記指令関数ｏの初期値、前記観測基本周波数系列ｙ、および各時刻ｋにおける前記不確かさの程度に基づいて、前記目的関数を増加させるように、各々非負値である前記指令関数ｏ、及び前記パラメータ群θを更新するモデルパラメータ更新部と、予め定められた収束条件を満たすまで、前記状態系列更新部による更新、及び前記モデルパラメータ更新部による更新を繰り返させる収束判定部と、を含んで構成されている。

本発明に係る基本周波数モデルパラメータ推定方法は、音声信号を入力として、隠れマルコフモデルの各時刻ｋの状態ｓ_kからなる状態系列ｓと、各時刻ｋにおける甲状軟骨の平行移動運動によって生じる基本周波数パターンを表すフレーズ指令ｕ_p［ｋ］及び甲状軟骨の回転運動によって生じる基本周波数パターンを表すアクセント指令ｕ_a［ｋ］のペアｏ[ｋ]からなる指令関数ｏと、各時刻ｋにおける状態ｓ_kに応じたフレーズ指令の状態出力分布のパラメータＣ^(p)[ｋ]及び各アクセント指令ｎの状態出力分布のパラメータＣ_n ^(a)を表すパラメータ群θとを推定する基本周波数モデルパラメータ推定装置における基本周波数モデルパラメータ推定方法であって、基本周波数抽出部が、前記音声信号の時系列データから、前記音声信号の各時刻ｋの基本周波数を表す観測基本周波数系列ｙを抽出し、有声無声区間推定部が、前記音声信号の時系列データについて、有声区間及び無声区間の何れであるかに応じて、各時刻ｋにおける前記基本周波数の不確かさの程度を推定し、初期値設定部が、前記指令関数ｏの初期値を設定し、状態系列更新部が、前回更新された前記指令関数ｏまたは前記指令関数ｏの初期値に基づいて、前記観測基本周波数系列ｙ、前記指令関数ｏ、及び状態系列ｓの対数同時確率ｌｏｇｐ（ｙ，ｏ，ｓ）を目的関数として、前記目的関数を増加させるように、Ｖｉｔｅｒｂｉアルゴリズムを用いて、前記状態系列ｓを更新し、モデルパラメータ更新部が、前回更新された前記指令関数ｏまたは前記指令関数ｏの初期値、前記観測基本周波数系列ｙ、および各時刻ｋにおける前記不確かさの程度に基づいて、前記目的関数を増加させるように、各々非負値である前記指令関数ｏ、及び前記パラメータ群θを更新し、収束判定部が、予め定められた収束条件を満たすまで、前記状態系列更新部による更新、及び前記モデルパラメータ更新部による更新を繰り返させる。

本発明に係るプログラムは、上記の基本周波数モデルパラメータ推定装置の各部としてコンピュータを機能させるためのプログラムである。

以上説明したように、本発明の基本周波数モデルパラメータ推定装置、方法、及びプログラムによれば、観測基本周波数系列ｙ、前記指令関数ｏ、及び状態系列ｓの対数同時確率ｌｏｇｐ（ｙ，ｏ，ｓ）を目的関数として、Ｖｉｔｅｒｂｉアルゴリズムを用いて、前記状態系列ｓを更新し、各々非負値である前記指令関数ｏ、及び前記パラメータ群θを更新することを繰り返すことにより、計算量を抑えて、藤崎モデルのパラメータを推定することができる、という効果が得られる。

藤崎モデルを説明するための図である。ＨＭＭを説明するための図である。状態の分割を説明するための図である。本発明の実施の形態に係る基本周波数モデルパラメータ推定装置の構成を示す概略図である。本発明の実施の形態に係る基本周波数モデルパラメータ推定装置における基本周波数モデルパラメータ推定処理ルーチンの内容を示すフローチャートである。

以下、図面を参照して本発明の実施の形態を詳細に説明する。本発明で提案する手法では、観測F₀パターンの再現性が高い藤崎モデルのパラメータ推定を実現するために、藤崎モデルをベースにしたF₀パターン生成過程の確率モデルを定式化し、それに基づいて観測F₀パターンが生じたと仮定する。藤崎モデルのパラメータ推定アルゴリズムも、この確率モデルに基づく。

＜本発明の実施の形態の概要＞
非特許文献２〜非特許文献４で提案されたモデルでは、前記HMMの状態系列

と出力値系列

を変数にもつ。非特許文献２、３では、観測F₀パターン

が与えられた下で

と

の条件付同時確率

を

に関して周辺化した

の条件付確率

を、

を隠れ変数としたEMアルゴリズムで局所最大化できることが示されている。一方、非特許文献４では、

を

に関して周辺化した

の条件付確率

を、

を隠れ変数としたEM アルゴリズムで局所最大化できることが示されている。前者の方法は

に対する非負値制約を

の推定プロセスに組み込むことが難しかったのに対し、後者の方法は

に対する非負値制約の下で局所最適な

の推定が可能となったため高いパラメータの推定精度を実現している。しかし、後者の方法では

が与えられた下でForward-Backward アルゴリズムにより

の事後確率計算を行うステップ（Eステップ）が必要であり、このステップに膨大な計算量を要していた。そこで、本発明の実施の形態では、最適化規準を

や

の代わりに

と

の条件付同時確率

とし、

の事後確率計算ステップを

の最適推定ステップに置き換えたパラメータ推定アルゴリズムを提案する。すなわち、

が与えられた下で非負値制約の下での最適な

を推定するステップと

が与えられた下で最適な

をViterbi アルゴリズムにより効率的に探索するステップを繰り返すことで

の非負値制約の下で局所最適な

と

を推定することができる。本方法は、非特許文献４においてForward-BackwardアルゴリズムをViterbiアルゴリズムに置き換えたものになる点がポイントであり、一般にViterbi アルゴリズムはForward-Backwardアルゴリズムに比べ高速であるため、全体の計算量の効率化が期待される。

＜F₀軌跡の確率モデル化＞
非特許文献４に記載されているF₀軌跡の確率モデル化について説明する。

図１に示すように、藤崎モデル（非特許文献１参照）は、対数F₀軌跡y(t)を以下の3つの成分の和

で表すモデルである。ここで、tは時刻、x_p(t)はフレーズ成分、x_a(t)はアクセント成分、x_b はベースライン成分と呼ぶ時間によらない定数である。さらにフレーズ成分、アクセント成分はそれぞれ、フレーズ指令、アクセント指令と呼ばれる信号の2次のフィルタの出力

であると仮定される。ここでu_p(t)はフレーズ指令と呼ぶパルス列であり、u_a(t)はアクセント指令と呼ばれる矩形パルス列である。これらのうち非ゼロの値をとるのは各時刻で高々1つである。α、βはそれぞれ2次フィルタの応答の速さを表す角周波数であり、個人や発話によらずおおよそα=3rad/s、β=20rad/s程度の値をとることが知られている。

以下に、これまで発明者らが開発してきた藤崎モデルをベースにしたF₀軌跡の生成過程の確率モデル（非特許文献４）について概説する。上述の藤崎モデルにおいて、フレーズ指令、アクセント指令はそれぞれデルタ列、矩形パルス列であり、さらにこれらは互いに重ならないという仮定が置かれる。非特許文献２〜４の手法の中心的なアイデアは、フレーズ・アクセント指令列の生成プロセスを隠れマルコフモデル(HMM)により表現した点にある。離散時刻のインデックスをkとし、フレーズ指令u_p[k]、アクセント指令u_a[k]のペアを

とする。各状態の出力分布を正規分布とした場合、出力系列

は

に従う。ここでs_kは時刻k における状態を表す。すなわち、式(6)は平均

と分散

が状態遷移の結果として時間とともに変化することを意味する。HMM の利点は、状態遷移ネットワークの設計を通してモデル化したい系列に対して課すべき制約を柔軟に設けられる点にある。フレーズ指令、アクセント指令に対する先述の制約は例えば図２のような状態遷移ネットワークによって表現できる。加えて、それぞれの状態を同じ出力分布をもったいくつかの小状態に分割することで自己遷移の持続長をパラメータ化することもできる。

図２に、従来法におけるフレーズ・アクセント指令列の状態遷移モデルを示す（非特許文献２〜４参照）。状態r₀ではμ_p[k]とμ_a[k] はいずれも0 となる。状態p₀ではμ_p[k]は非負値C^(p)[k]をとり、μ_a[k] は0 となる。状態r₁では状態r₀ と同様μ_p[k]とμ_a[k]はいずれも0 となる。従って状態r₀ から状態p₁を経由して状態r₁に遷移する過程でμ_p[k]はパルス状の系列となる。状態r₁ は状態a₀,...,a_N-1へのみ遷移することができ、これらの状態においてμ_a[k] はそれぞれ異なる値C^(a) _n をとり、μ_p[k] は0 となる。状態r₁を経由せずに直接a_n からa_n′ (n≠n′)へ遷移することができないようにすることでμ_a[k] が矩形パルス列となるように制約することができる。

次に、図３に状態a_n を小状態に分割した例を示す。例えばこの図３のように全てのm≠0に対してa_n,m からa_n,m+1への状態遷移確率を1 に設定することで、a_n,0からa_n,mへの遷移確率が状態a_n がm ステップだけ持続する確率に対応し、アクセント指令の持続長を柔軟に制御できるようになる。同様にp₁ とp₀ とa₀ も小状態に分割することで、フレーズ指令の持続長と指令間の間隔の長さの分布をパラメータ化することが可能になる。こうした分割をふまえて、以後は改めて

と表記する。以上のHMM の構成は以下となる。

上記のHMMから出力された指令関数u_p[k]、u_a[k]にそれぞれ異なるフィルタG_p[k]とG_a[k] が畳み込まれたものがフレーズ成分とアクセント成分

となる。ただし、＊は離散時間kに関する畳込みを表す。また、G_p[k]とG_a[k]はそれぞれG_p(t) とG_a(t)を離散時間表現である。以上より、F₀軌跡の離散時間表現x[k]は

となる。x_bはベースライン成分を表す。

無声区間においてはF₀は観測されないことがあったり、観測されていたとしても信頼できない場合がある。また、F₀抽出において推定誤りが生じる場合もある。そこで観測F₀パターンy[k]を、上述のF₀パターンモデルx[k]とノイズ

との和として表すことで、観測F₀パターンの不確実性を分散ｖ² _n[k]の設定を通して組み込むことができる。すなわち、観測F₀パターンy[k]を

と表現することで、信頼のおける区間かどうかに関わらず全ての観測区間を統一的に扱える。ここで、x_n[k]を周辺化すると、

が与えられたもとでの

の条件つき確率密度関数

は

となる。式(6) より、状態系列

が与えられたもとでの

の条件つき確率密度関数

は

で与えられる。ここで、

は出力分布の平均と分散の系列を表す。状態系列

の確率分布

はHMMにおけるマルコフ性の仮定より、遷移確率の積

で与えられる。

＜藤崎モデルパラメータ推定アルゴリズム＞
非特許文献２、３では、観測F₀ 系列

が与えられたときの状態系列

の事後確率

を最大化する

をEM アルゴリズムにより探索するアルゴリズムが提案されており、非特許文献４では、観測F₀系列

が与えられたときの状態出力系列

の事後確率

を

の各要素が非負値となるように最大化する

をEMアルゴリズムと補助関数法により探索するアルゴリズムが提案されている。これらに対し本発明は、観測F₀系列

が与えられたときの状態出力系列

と状態系列

の同時事後確率

を最大化する

と

を、

を固定した上で

が最大となるように

を更新するステップと、

を固定した上で

が増大するように

を非負値制約下で更新するステップを反復することで探索するアルゴリズムである。

＜状態系列更新ステップ＞
状態系列更新ステップは、

を固定した上で

が最大となるように

を更新するステップである。

で

に依存する項は

であるため、

を最大化する

を求める問題は、

を出力系列としたHMM の状態系列探索問題と同形である。従ってViterbi アルゴリズムを用いて解決することができる。

＜状態出力系列更新ステップ＞
状態出力系列更新ステップは、

を固定した上で

が最大となるように

を更新するステップである。

で

に依存する項は

であり、

と

はそれぞれ

で与えられる。ただしG_b[k]=δ[k]（クロネッカーのデルタ）である。指令関数u_p[k]、u_a[k] が非負であるという条件の下で

を最大化する

を直接求めるのは難しいが、補助関数法に基づく反復計算により局所的に最大化する

を探索することができる。補助関数法は最大化したい目的関数の下界となる関数を反復的に増加させていくことで目的関数を増加させる手法である。式(12) の下界となる関数は、Jensen の不等式

が成り立つことを利用して設計することができる。ただし、

を補助変数と呼び、

を満たす。式(14) の等号成立条件は

である。

よって、

が成り立ち、右辺を補助関数

と呼ぶ。この補助関数をu_i[l]に関して偏微分すると、

となるため、これを0 と置くことで

を得る。以上より、式(15)、式(18) を反復することで

を増加させることができる。

また、

を最大にするHMM の状態出力分布のパラメータ

は

に関する偏微分をそれぞれ0 と置くことで

で与えられる。ただし、

はs_k= a_nであるようなk の集合

を表し、

はその集合の要素数を表す。

＜システム構成＞

次に、観測された音声信号の時系列データを解析して、藤崎モデルのパラメータを推定する基本周波数モデルパラメータ推定装置に、本発明を適用した場合を例にして、本発明の実施の形態を説明する。

図４に示すように、本発明の実施の形態に係る基本周波数モデルパラメータ推定装置１００は、ＣＰＵと、ＲＡＭと、後述する基本周波数モデルパラメータ推定処理ルーチンを実行するためのプログラムを記憶したＲＯＭとを備えたコンピュータで構成され、機能的には次に示すように構成されている。

図４に示すように、基本周波数モデルパラメータ推定装置１００は、記憶部１と、基本周波数系列抽出部２と、有声無声区間推定部３と、初期値設定部４と、状態系列更新部５と、モデルパラメータ更新部６と、収束判定部７と、出力部９とを備えている。

記憶部１は、観測された音声信号の時系列データを記憶する。

基本周波数系列抽出部２は、音声信号の時系列データから、基本周波数の時系列データを抽出し、それらを離散時間ｋで表現するように変換して、音声信号の基本周波数の時系列データである観測基本周波数系列

とする。この基本周波数の抽出処理は、周知技術により実現でき、例えば、非特許文献５（H. Kameoka, "Statistical speech spectrum model incorporating all-pole vocal tract model and F₀ contour generating process model," in Tech. Rep. IEICE, 2010, in Japanese.）に記載の手法を利用して、８ｍｓごとに基本周波数を抽出する。

有声無声区間推定部３は、音声信号の時系列データから、有声区間と無声区間とを特定し、離散時間ｋ毎に、有声区間であるか無声区間であるかに応じて、観測Ｆ₀［ｋ］値の不確かさの程度v_n ²[k]を推定する。無声区間では不確かさの程度を大きく推定し、有声区間では不確かさの程度を小さく推定する。

初期値設定部４は、後述する処理で用いる各パラメータである、アクセント指令の数N、u_bを定数とみなし初期値を設定する。初期値として適当な値を設定する。また、初期値設定部４は、HMMの小状態の個数、遷移確率φ_i′,Iを、予め用意した正解データから学習して決定する。また、初期値設定部４は、従来既知の藤崎モデルのパラメータ推定法を用いて、

の初期値（非負値）を設定する。また、初期値設定部４は、Ｃ^(p)[k]の初期値として、

のフレーズ指令関数の振幅を線形補間したものを設定し、Ｃ_n ^(a)の初期値として適切な値を設定する。

本実施の形態では、藤崎モデルパラメータ

と

の局所最適解は、状態系列更新部５とモデルパラメータ更新部６の2つのステップを繰り返すことで得られる。

状態系列更新部５は、前回更新された指令関数

又は指令関数

の初期値に基づいて、観測基本周波数系列

、指令関数

、及び状態系列

の対数同時確率

を目的関数として、前記目的関数を増加させるように、Ｖｉｔｅｒｂｉアルゴリズムを用いて、状態系列

を更新する。具体的には、

が最大となるように、Ｖｉｔｅｒｂｉアルゴリズムを用いて、状態系列

を更新する。

モデルパラメータ更新部６は、前回更新された指令関数

または指令関数

の初期値、観測基本周波数系列

、および各時刻ｋにおける不確かさの程度v_n ²[k]に基づいて、目的関数を増加させるように、補助関数法を用いて、各々非負値である指令関数

、及びパラメータ群

を更新する。

具体的には、モデルパラメータ更新部６は、補助変数更新部６１、指令関数更新部６２、収束判定部６３、及び状態出力分布更新部６４を備えている。

補助変数更新部６１は、前回更新された各時刻ｋのフレーズ指令ｕ_p［ｋ］（又は初期値）に基づいて、時刻ｋ、ｌ（ｌ＜ｋ）の全ての組み合わせ（ｋ、ｌ）の各々について、上記の式（１５）に従って、補助変数λ_p,k,lを算出して更新する。また、補助変数更新部６１は、前回更新された各時刻ｋのアクセント指令ｕ_a［ｋ］（又は初期値）に基づいて、（ｋ、ｌ）の全ての組み合わせについて、上記の式（１５）に従って、補助変数λ_a,k,lを算出して更新する。

また、補助変数更新部６１は、ｕ_bに基づいて、（ｋ、ｌ）の全ての組み合わせについて、上記の式（１５）に従って、補助変数λ_b,k,lを算出して更新する。

指令関数更新部６２は、基本周波数系列

と、不確かさの程度v_n ² [k]と、状態系列更新部５によって更新された状態系列

と、補助変数更新部６１によって更新された補助変数λ_p,k,lとに基づいて、上記式（１８）に従って、非負値である各時刻ｌのフレーズ指令ｕ_p［ｌ］を更新する。

また、指令関数更新部６２は、基本周波数系列

と、不確かさの程度v_n ²[k]と、状態系列更新部５によって更新された状態系列

と、補助変数更新部６１によって更新された補助変数λ_a,k,lとに基づいて、上記式（１８）に従って、非負値である各時刻ｌのアクセント指令ｕ_a［ｌ］を更新する。

また、指令関数更新部６２は、基本周波数系列

と、不確かさの程度v_n ² [k]と、補助変数更新部６１によって更新された補助変数λ_b,k,lとに基づいて、上記式（１８）に従って、ベース成分ｕ_bを更新する。

収束判定部６３は、予め定められた収束条件を満足するか否かを判定し、収束条件を満足していない場合には、補助変数更新部６１及び指令関数更新部６２の各処理を繰り返す。収束判定部６３は、収束条件を満足したと判定した場合には、状態出力分布更新部６４による処理に移行する。

収束条件としては、繰り返し回数ｓが予め定めた回数Ｓ（例えば、２０回）に達したことを用いればよい。なお、s-1回目のパラメータを用いたときの補助関数の値とs回目のパラメータを用いたときの補助関数の値との差が、予め定めた閾値よりも小さくなったことを、収束条件として用いてもよい。

状態出力分布更新部６４は、指令関数更新部６２によって更新された各時刻ｋのフレーズ指令ｕ_p［ｋ］に基づいて、上記式（１９）に従って、各時刻ｋのフレーズ指令の状態出力分布のパラメータＣ^(p)[ｋ]を更新すると共に、指令関数更新部６２によって更新された各時刻ｋのアクセント指令ｕ_a［ｋ］と、状態系列更新部５によって更新された状態系列ｓとに基づいて、上記式（２０）に従って、各アクセント指令ｎの状態出力分布のパラメータＣ_n ^(a)を更新することにより、パラメータ群

を更新する。

収束判定部７は、予め定められた収束条件を満足するか否かを判定し、収束条件を満足していない場合には、上記の更新値を改めて

と

に代入して、反復アルゴリズム（状態系列更新部５及びモデルパラメータ更新部６の各処理）を繰り返す。収束判定部７は、収束条件を満足したと判定した場合には、出力部９による処理に移行する。

収束条件としては、繰り返し回数ｒが予め定めた回数Ｒ（例えば、２０回）に達したことを用いればよい。なお、ｒ-1回目のパラメータを用いたときの目的関数の値とｒ回目のパラメータを用いたときの目的関数の値との差が、予め定めた閾値よりも小さくなったことを、収束条件として用いてもよい。

そして、出力部９により、指令関数

、パラメータ群

、状態系列

を出力する。

＜基本周波数モデルパラメータ推定装置の作用＞
次に、本実施の形態に係る基本周波数モデルパラメータ推定装置１００の作用について説明する。まず、分析対象として、観測された音声信号の時系列データが、基本周波数モデルパラメータ推定装置１００に入力され、記憶部１に格納される。そして、基本周波数モデルパラメータ推定装置１００において、図５に示す基本周波数モデルパラメータ推定処理ルーチンが実行される。

まず、ステップＳ１０１において、記憶部１から、音声信号の時系列データを読み込み、各時刻ｋの基本周波数Ｆ₀からなる基本周波数系列

を抽出する。ステップＳ１０２において、音声信号の時系列データに基づいて、有声区間、無声区間を特定し、各時刻ｋの基本周波数の不確かさの程度v_n ² [ｋ]を推定する。

次のステップＳ１０３では、各パラメータN、u_bに対して適切な初期値を設定すると共に、HMMの小状態の個数、遷移確率φ_i′,Iを、予め用意した正解データから学習して決定する。また、従来手法により指令系列

を推定して、初期値として設定すると共に、Ｃ^(p)[k]の初期値及びＣ_n ^(a)の初期値を設定する。

そして、ステップＳ１０４において、上記ステップＳ１０３で設定された指令系列

の初期値、または後述するステップＳ１０５で前回更新された指令系列

に基づいて、

が最大となるように、Ｖｉｔｅｒｂｉアルゴリズムを用いて、状態系列

を更新する。

ステップＳ１０５では、上記ステップＳ１０３で設定された各時刻ｋのフレーズ指令ｕ_p［ｋ］の初期値、又は後述するステップＳ１０６で前回更新された各時刻ｋのフレーズ指令ｕ_p［ｋ］に基づいて、時刻ｋ、ｌ（ｌ＜ｋ）の全ての組み合わせ（ｋ、ｌ）の各々について、上記の式（１５）に従って、補助変数λ_p,k,lを算出して更新する。上記ステップＳ１０３で設定された各時刻ｋのアクセント指令ｕ_a［ｋ］の初期値、又は後述するステップＳ１０６で前回更新された各時刻ｋのアクセント指令ｕ_a［ｋ］に基づいて、（ｋ、ｌ）の全ての組み合わせについて、上記の式（１５）に従って、補助変数λ_a,k,lを算出して更新する。また、上記ステップＳ１０３で設定されたｕ_bの初期値、又は後述するステップＳ１０６で前回更新されたｕ_bに基づいて、（ｋ、ｌ）の全ての組み合わせについて、上記の式（１５）に従って、補助変数λ_b,k,lを算出して更新する。

次のステップＳ１０６では、上記ステップＳ１０１で算出された基本周波数系列

と、上記ステップＳ１０２で算出された各時刻ｋの不確かさの程度v_n ²[ｋ]と、上記ステップＳ１０４で更新された状態系列

と、上記ステップＳ１０５で更新された補助変数λ_p,k、l、λ_a,k,l、λ_b,k,lとに基づいて、上記式（１８）に従って、非負値である各時刻ｌのフレーズ指令ｕ_p［ｌ］及びアクセント指令ｕ_a［ｌ］からなる指令系列

とベース成分ｕ_bとを更新する。

次のステップＳ１０７では、収束条件として、繰り返し回数ｓが、Ｓに到達したか否かを判定し、繰り返し回数ｓがＳに到達していない場合には、収束条件を満足していないと判断して、上記ステップＳ１０５へ戻り、上記ステップＳ１０５〜ステップＳ１０６の処理を繰り返す。一方、繰り返し回数ｓがＳに到達した場合には、収束条件を満足したと判断し、ステップＳ１０８で、上記ステップＳ１０６で更新された各時刻ｋのフレーズ指令ｕ_p［ｋ］に基づいて、上記式（１９）に従って、各時刻ｋのフレーズ指令の状態出力分布のパラメータＣ^(p)[ｋ]を更新すると共に、上記ステップＳ１０６で更新された各時刻ｋのアクセント指令ｕ_a［ｋ］と、上記ステップＳ１０４で更新された状態系列

とに基づいて、上記式（２０）に従って、各アクセント指令ｎの状態出力分布のパラメータＣ_n ^(a)を更新することにより、パラメータ群

を更新する。

そして、ステップＳ１０９において、収束条件として、繰り返し回数ｒが、Ｒに到達したか否かを判定し、繰り返し回数ｒがＲに到達していない場合には、収束条件を満足していないと判断して、上記ステップＳ１０４へ戻り、上記ステップＳ１０４〜ステップＳ１０８の処理を繰り返す。一方、繰り返し回数ｒがＲに到達した場合には、収束条件を満足したと判断し出力部９により、指令関数

、パラメータ群

、状態系列

を出力して、基本周波数モデルパラメータ推定処理ルーチンを終了する。

＜実験＞
表１は、音声データ長: 3.62 秒の音声データに従来法（非特許文献４）と本発明の実施の形態の手法を適用した際の各ステップに要した計算時間を示している。

実装環境は下記のとおりである。

・CPU: Core i7-6700K 4.0GHz
・RAM: 32GB
・OS: Windows 7 SP1
・MATLAB R2016a

本発明の実施の形態の手法の状態系列s の更新ステップは従来法の状態系列s の事後確率更新ステップに比べ70 倍程度高速化し、全体で16 倍程度高速化できることができた。

以上説明したように、本発明の実施の形態に係る基本周波数モデルパラメータ推定装置によれば、観測基本周波数系列、指令関数、及び状態系列の対数同時確率

を目的関数として、Ｖｉｔｅｒｂｉアルゴリズムを用いて、状態系列を更新し、指令関数、及びパラメータ群θを更新することを繰り返すことにより、計算量を抑えて、藤崎モデルのパラメータを推定することができる。

なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。

例えば、上述の基本周波数モデルパラメータ推定装置は、内部にコンピュータシステムを有しているが、「コンピュータシステム」は、ＷＷＷシステムを利用している場合であれば、ホームページ提供環境（あるいは表示環境）も含むものとする。

また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能である。

１記憶部
２基本周波数系列抽出部
３有声無声区間推定部
４初期値設定部
５状態系列更新部
６モデルパラメータ更新部
７収束判定部
６１補助変数更新部
６２指令関数更新部
６３収束判定部
６４状態出力分布更新部
１００基本周波数モデルパラメータ推定装置

Claims

音声信号を入力として、隠れマルコフモデルの各時刻ｋの状態ｓ_kからなる状態系列ｓと、各時刻ｋにおける甲状軟骨の平行移動運動によって生じる基本周波数パターンを表すフレーズ指令ｕ_p［ｋ］及び甲状軟骨の回転運動によって生じる基本周波数パターンを表すアクセント指令ｕ_a［ｋ］のペアｏ[ｋ]からなる指令関数ｏと、各時刻ｋにおける状態ｓ_kに応じたフレーズ指令の状態出力分布のパラメータＣ^(p)[ｋ]及び各アクセント指令ｎの状態出力分布のパラメータＣ_n ^(a)を表すパラメータ群θとを推定する基本周波数モデルパラメータ推定装置であって、
前記音声信号の時系列データから、前記音声信号の各時刻ｋの基本周波数を表す観測基本周波数系列ｙを抽出する基本周波数抽出部と、
前記音声信号の時系列データについて、有声区間及び無声区間の何れであるかに応じて、各時刻ｋにおける前記基本周波数の不確かさの程度を推定する有声無声区間推定部と、
前記指令関数ｏの初期値を設定する初期値設定部と、
前回更新された前記指令関数ｏまたは前記指令関数ｏの初期値に基づいて、前記観測基本周波数系列ｙ、前記指令関数ｏ、及び状態系列ｓの対数同時確率ｌｏｇｐ（ｙ，ｏ，ｓ）を目的関数として、前記目的関数を増加させるように、Ｖｉｔｅｒｂｉアルゴリズムを用いて、前記状態系列ｓを更新する状態系列更新部と、
前回更新された前記指令関数ｏまたは前記指令関数ｏの初期値、前記観測基本周波数系列ｙ、および各時刻ｋにおける前記不確かさの程度に基づいて、前記目的関数を増加させるように、各々非負値である前記指令関数ｏ、及び前記パラメータ群θを更新するモデルパラメータ更新部と、
予め定められた収束条件を満たすまで、前記状態系列更新部による更新、及び前記モデルパラメータ更新部による更新を繰り返させる収束判定部と、
を含み、
前記状態系列更新部は、以下の式に従って、前記状態系列ｓが与えられたもとでの前記指令関数ｏの条件付き確率密度関数の対数ｌｏｇｐ（ｏ｜ｓ）と前記状態系列ｓの確率分布の対数ｌｏｇｐ（ｓ）との和を増加させるように、Ｖｉｔｅｒｂｉアルゴリズムを用いて、前記状態系列ｓを更新する
基本周波数モデルパラメータ推定装置。
前記モデルパラメータ更新部は、前回更新された前記指令関数ｏまたは前記指令関数ｏの初期値、前記観測基本周波数系列ｙ、および各時刻ｋにおける前記不確かさの程度に基づいて、補助関数法を用いて、前記目的関数を増加させるように、各々非負値である前記指令関数ｏ、及び前記パラメータ群θを更新する請求項１記載の基本周波数モデルパラメータ推定装置。
前記モデルパラメータ更新部は、
前回更新された各時刻ｌのフレーズ指令ｕ_p［ｌ］又は各時刻ｌのフレーズ指令ｕ_p［ｌ］の初期値に基づいて、時刻ｋ、ｌの組み合わせ（ｋ、ｌ）の各々について、補助変数λ_p,k,lを算出して更新し、かつ、前回更新された各時刻ｋのアクセント指令ｕ_a［ｋ］又は各時刻ｋのアクセント指令ｕ_a［ｋ］の初期値に基づいて、時刻ｋ、ｌの組み合わせ（ｋ、ｌ）の各々について、補助変数λ_a,k,lを算出して更新し、かつ、前回更新されたベースライン成分ｕ_b又はベースライン成分ｕ_bの初期値に基づいて、時刻ｋ、ｌの組み合わせ（ｋ、ｌ）の各々について、補助変数λ_b,k,lを算出して更新する補助変数更新部と、
前記観測基本周波数系列ｙと、各時刻ｋの前記不確かさの程度と、前記補助変数更新部によって更新された前記補助変数λ_p,k,l、λ_a,k,l、λ_b,k,lとに基づいて、前記目的関数の下界となる関数を補助関数として、前記補助関数を増加させるように、各時刻ｌのフレーズ指令ｕ_p［ｌ］及びアクセント指令ｕ_a［ｌ］と、ベースライン成分ｕ_bとを更新する指令関数更新部と、
予め定められた収束条件を満たすまで、前記補助変数更新部による更新、及び前記指令関数更新部による更新を繰り返させる収束判定部と、
前記指令関数更新部によって更新された各時刻ｌのフレーズ指令ｕ_p［ｌ］に基づいて、各時刻ｋのフレーズ指令の状態出力分布のパラメータＣ^(p)[ｋ]を更新し、かつ、前記指令関数更新部よって更新された各時刻ｌのアクセント指令ｕ_a［ｌ］と、前記更新された状態系列ｓとに基づいて、各アクセント指令ｎの状態出力分布のパラメータＣ_n ^(a)を更新することにより、前記パラメータ群θを更新する状態出力分布更新部と、
を含む請求項２記載の基本周波数モデルパラメータ推定装置。
音声信号を入力として、隠れマルコフモデルの各時刻ｋの状態ｓ_kからなる状態系列ｓと、各時刻ｋにおける甲状軟骨の平行移動運動によって生じる基本周波数パターンを表すフレーズ指令ｕ_p［ｋ］及び甲状軟骨の回転運動によって生じる基本周波数パターンを表すアクセント指令ｕ_a［ｋ］のペアｏ[ｋ]からなる指令関数ｏと、各時刻ｋにおける状態ｓ_kに応じたフレーズ指令の状態出力分布のパラメータＣ^(p)[ｋ]及び各アクセント指令ｎの状態出力分布のパラメータＣ_n ^(a)を表すパラメータ群θとを推定する基本周波数モデルパラメータ推定装置における基本周波数モデルパラメータ推定方法であって、
基本周波数抽出部が、前記音声信号の時系列データから、前記音声信号の各時刻ｋの基本周波数を表す観測基本周波数系列ｙを抽出し、
有声無声区間推定部が、前記音声信号の時系列データについて、有声区間及び無声区間の何れであるかに応じて、各時刻ｋにおける前記基本周波数の不確かさの程度を推定し、
初期値設定部が、前記指令関数ｏの初期値を設定し、
状態系列更新部が、前回更新された前記指令関数ｏまたは前記指令関数ｏの初期値に基づいて、前記観測基本周波数系列ｙ、前記指令関数ｏ、及び状態系列ｓの対数同時確率ｌｏｇｐ（ｙ，ｏ，ｓ）を目的関数として、前記目的関数を増加させるように、Ｖｉｔｅｒｂｉアルゴリズムを用いて、前記状態系列ｓを更新し、
モデルパラメータ更新部が、前回更新された前記指令関数ｏまたは前記指令関数ｏの初期値、前記観測基本周波数系列ｙ、および各時刻ｋにおける前記不確かさの程度に基づいて、前記目的関数を増加させるように、各々非負値である前記指令関数ｏ、及び前記パラメータ群θを更新し、
収束判定部が、予め定められた収束条件を満たすまで、前記状態系列更新部による更新、及び前記モデルパラメータ更新部による更新を繰り返させる
ことを含み、
前記状態系列更新部が更新することでは、以下の式に従って、前記状態系列ｓが与えられたもとでの前記指令関数ｏの条件付き確率密度関数の対数ｌｏｇｐ（ｏ｜ｓ）と前記状態系列ｓの確率分布の対数ｌｏｇｐ（ｓ）との和を増加させるように、Ｖｉｔｅｒｂｉアルゴリズムを用いて、前記状態系列ｓを更新する
基本周波数モデルパラメータ推定方法。
前記モデルパラメータ更新部が更新することでは、前回更新された前記指令関数ｏまたは前記指令関数ｏの初期値、前記観測基本周波数系列ｙ、および各時刻ｋにおける前記不確かさの程度に基づいて、補助関数法を用いて、前記目的関数を増加させるように、各々非負値である前記指令関数ｏ、及び前記パラメータ群θを更新する請求項４記載の基本周波数モデルパラメータ推定方法。
前記モデルパラメータ更新部が更新することでは、
補助変数更新部が、前回更新された各時刻ｌのフレーズ指令ｕ_p［ｌ］又は各時刻ｌのフレーズ指令ｕ_p［ｌ］の初期値に基づいて、時刻ｋ、ｌの組み合わせ（ｋ、ｌ）の各々について、補助変数λ_p,k,lを算出して更新し、かつ、前回更新された各時刻ｋのアクセント指令ｕ_a［ｋ］又は各時刻ｋのアクセント指令ｕ_a［ｋ］の初期値に基づいて、時刻ｋ、ｌの組み合わせ（ｋ、ｌ）の各々について、補助変数λ_a,k,lを算出して更新し、かつ、前回更新されたベースライン成分ｕ_b又はベースライン成分ｕ_bの初期値に基づいて、時刻ｋ、ｌの組み合わせ（ｋ、ｌ）の各々について、補助変数λ_b,k,lを算出して更新し、
指令関数更新部が、前記観測基本周波数系列ｙと、各時刻ｋの前記不確かさの程度と、前記補助変数更新部によって更新された前記補助変数λ_p,k,l、λ_a,k,l、λ_b,k,lとに基づいて、前記目的関数の下界となる関数を補助関数として、前記補助関数を増加させるように、各時刻ｌのフレーズ指令ｕ_p［ｌ］及びアクセント指令ｕ_a［ｌ］と、ベースライン成分ｕ_bとを更新し、
収束判定部が、予め定められた収束条件を満たすまで、前記補助変数更新部による更新、及び前記指令関数更新部による更新を繰り返させ、
状態出力分布更新部が、前記指令関数更新部によって更新された各時刻ｌのフレーズ指令ｕ_p［ｌ］に基づいて、各時刻ｋのフレーズ指令の状態出力分布のパラメータＣ^(p)[ｋ]を更新し、かつ、前記指令関数更新部よって更新された各時刻ｌのアクセント指令ｕ_a［ｌ］と、前記更新された状態系列ｓとに基づいて、各アクセント指令ｎの状態出力分布のパラメータＣ_n ^(a)を更新することにより、前記パラメータ群θを更新する
請求項５記載の基本周波数モデルパラメータ推定方法。
請求項１〜請求項３の何れか１項に記載の基本周波数モデルパラメータ推定装置の各部としてコンピュータを機能させるためのプログラム。