JP3742206B2

JP3742206B2 - 音声合成方法及び装置

Info

Publication number: JP3742206B2
Application number: JP32292597A
Authority: JP
Inventors: 芳則志賀
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 1997-11-25
Filing date: 1997-11-25
Publication date: 2006-02-01
Anticipated expiration: 2017-11-25
Also published as: JPH11161297A

Description

【０００１】
【発明の属する技術分野】
本発明は、音声合成の対象となる音韻情報に基づいて、当該音韻情報に含まれる個々の音韻の継続時間長を決定すると共に音声素片を選択し、決定した音韻の継続時間長に基づいて選択した音声素片を接続することによって音声を合成する音声合成方法及び音声合成装置に関する。
【０００２】
【従来の技術】
この種の音声合成装置の代表的なものに、音声を細分化して蓄積し、その組み合わせによって任意の音声を合成可能な規則合成装置があることが知られている。以下では、この規則合成装置の従来技術の例を図を参照しながら説明していく。
【０００３】
図１３は従来の規則合成装置の構成を示すブロック図である。
図１３の規則合成装置は入力されるテキストデータ（以下、単にテキストと称する）を音韻と韻律からなる記号列に変換し、その記号列から音声を生成する文音声変換（Text-to-speech conversion ：以下、ＴＴＳと称する）処理を行う。
【０００４】
この図１３の規則合成装置におけるＴＴＳ処理機構は、大きく分けて言語処理部１２と音声合成部１３の２つの処理部からなり、日本語の規則合成を例にとると次のように行われるのが一般的である。
【０００５】
まず言語処理部１２では、テキストファイル１１から入力されるテキスト（漢字かな混じり文）に対して形態素解析、構文解析等の言語処理を行い、形態素への分解、係り受け関係の推定等の処理を行うと同時に、各形態素に読みとアクセント型を与える。その後言語処理部１２では、アクセントに関しては複合語等のアクセント移動規則を用いて、読み上げの際の区切りとなる句（以下、アクセント句と称する）毎のアクセント型を決定する。通常ＴＴＳの言語処理部１２では、こうして得られるアクセント句毎の読みとアクセント型を記号列（以下、音声記号列と称する）として出力できるようになっている。
【０００６】
次に音声合成部１３内では、得られた読みに含まれる各音韻の継続時間長を音韻継続時間長決定処理部１４にて決定する。音韻の継続時間長は、日本語の音節の等時性に基づき、図１４に示されるように、各音節の基準点（ここでは、子音から母音へのわたり部であり、図において記号△で示される位置）の間隔が一定になるように決定するのが一般的である。最も簡単な方法としては、子音の継続時間長は子音の種類により一定とし、母音の継続時間長で基準点間隔を一定に保つ方法がとられる。
【０００７】
続いて上記のようにして得られる「読み」に従って、音韻パラメータ生成処理部１６が音声素片メモリ１５から必要な音声素片を読み出し、読み出した音声素片を「音韻の継続時間長」に従って時間軸方向に伸縮させながら接続して、合成すべき音声の特徴パラメータ系列を生成する。
【０００８】
ここで音声素片メモリ１５には、予め作成された多数の音声素片が格納されている。音声素片は、アナウンサ等が発声した音声を分析して所定の音声の特徴パラメータを得た後、所定の合成単位例えば日本語の音節（子音十母音：以下、ＣＶと称する）単位で、日本語の音声に含まれる全ての音節を上記特徴パラメータから切り出すことにより作成される。
【０００９】
ここではパラメータとして低次ケプストラム係数を利用している。低次ケプストラム係数は次のようにして求めることができる。まず、アナウンサ等が発声した音声データに、一定幅、一定周期で窓関数（ここではハニング窓）をかけ、各窓内の音声波形に対してフーリエ変換を行い音声の短時間スペクトルを計算する。次に、得られた短時間スペクトルのパワーを対数化して対数パワースペクトルを得た後、対数パワースペクトルを逆フーリエ変換する。こうして計算されるのがケプストラム係数である。そして一般に、高次のケプストラム係数は音声の基本周波数情報を、低次のケプストラム係数は音声のスペクトル包絡情報を保持していることが知られている。
【００１０】
音声合成部１３では更に、ピッチパターン生成処理部１７が上記アクセント型をもとにピッチの高低変化が生じる時点にて点ピッチを設定し、複数設定された点ピッチ間を直線補間してピッチのアクセント成分を生成し、これにイントネーション成分（通常は周波数−時間軸上での単調減少直線）を重畳してピッチパターンを生成する。そして有声区間ではピッチパターンに基づいた周期パルスを、無声区間ではランダムノイズをそれぞれ音源として、一方音声の特徴パラメー夕系列からフィルタ係数を算出し、合成フィルタ処理部１８に与えて所望の音声を合成する。ここでは、合成フィルタ処理部１８に、ケプストラム係数を直接フィルタ係数とするＬＭＡ（Log Magnitude Approximation ）フィルタ（対数振幅近似フィルタ）を合成フィルタとして用いている。
【００１１】
ここまでの処理はディジタル処理によって行われるのが一般的で、したがって合成された音声は離散信号であるから、音声合成部１３では最後に、この離散波形をＤ／Ａ（ディジタル／アナログ）変換器１９に供給し、離散信号を電気的なアナログ信号に変換する。こうして得られたアナログ信号でスピーカー等を駆動することにより聴覚で知覚できる音声が合成できる。
【００１２】
【発明が解決しようとする課題】
上記した規則合成装置に代表される従来の音声合成装置では、その音声合成装置で生成される音声には次のような問題があった。
まず、従来の音声合成装置では、音声合成部において、読みに含まれる各音韻の継続時間長を決定する際、上述したように、日本語の音節の等時性に基づき、各音節の基準点の間隔を一定になるように決定している。しかしながら、人間が音声を発声するときには、言葉の発音（調音）を司る顎、唇、舌などの調音器官の物理的な制約によって、等時性を維持するのは難しい。そのため、実際には、音韻の種類やその前後の音韻の影響を受けて、等時性は乱されてしまうが、逆にそれが音声に人間らしさや発声者の個性を与えている。
【００１３】
したがって、従来の音声合成装置における日本語の音節の等時性のみに基づく音韻継続時間長の決定手法では、このような調音器官の物理的な制約が考慮されていないがために、音節の時間的な配置が一定間隔になり過ぎてしまい、合成音声の人間らしさが損なわれてしまうという欠点があった。
【００１４】
本発明は上記事情を考慮してなされたものでその目的は、調音器官の物理的な制約を考慮して音韻継続時間長を決定することで、合成音声をより人間らしい自然なものにし、聞き取りやすく長時間聞いていても疲れない音声を合成可能な音声合成装置及び音声合成方法を提供することにある。
【００１５】
本発明の他の目的は、音声合成時に、合成音声に合わせて滑らかに口が動く動画像を合成することができ、簡単にアニメーションなどを作成することが可能な音声合成装置及び音声合成方法を提供することにある。
【００１６】
【課題を解決するための手段】
本発明は、音声合成の対象となる第１の音韻情報に含まれる個々の音韻とその音韻環境から異音レベルの第２の音韻情報を変換・生成し、この第２の音韻情報に基づいて、調音器官の動きをモデル化した調音モデルの状態を時間軸方向に変化させ、上記調音モデルの状態変化をもとに上記第２の音韻情報に含まれる個々の音韻の継続時間長を決定すると共に、上記第１または第２の音韻情報に基づいて音声素片を選択し、上記決定した音韻の継続時間長に基づいて上記選択した音声素片を接続することによって音声を合成することを特徴とする。
【００１７】
本発明においては、調音モデルを用い、当該調音モデルの制御結果に基づいて音韻の継続時間長を求めることで、人間が音声を発声した際の調音器官の物理的な制約を音韻継続時間長に反映することができるので、より人間らしく自然で、聞き取りやすい音声を合成することが可能となる。特に本発明においては、異音レベルの音韻情報（第２の音韻情報）に基づいて調音モデルの状態を時間軸方向に変化させることから、当該調音モデルの動きがより人間の調音器官に近いものとなるので、より一層人間らしく、聞き取りやすく音声を合成できる。
【００１８】
また本発明は、実音声をもとに作成された調音モデルを制御するための音韻別の調音モデルパラメータからなる調音モデルパラメータセットを保持しておき、音声合成の際には、上記調音モデルパラメータに基づいて調音モデルを制御することを特徴とする。
【００１９】
本発明においては、人が実際に発声した音声（実音声）をもとに作成された調音モデルパラメータを用いて、調音モデルが制御されるため、より人間らしい合成音声とすることができ、更に当該パラメータの作成に用いられた音声を発声した話者の口調を真似ることが可能となる。
【００２０】
ここで、異なる話者の音声をもとに作成された複数の調音モデルパラメータセットを保持し、音声合成の際、上記複数セットの調音モデルパラメータの中から１つの調音モデルパラメータのセットを選択し、この選択した調音モデルパラメータのセットに基づいて調音モデルを制御するならば、合成音声の口調を種々変えることができる。
【００２１】
また、上記調音モデルパラメータとして、実音声をもとに取得される音韻情報と音韻境界の情報が格納された音声データベースを用いて最適化されたものを適用するならば、より一層人間らしい合成音声とすることができる。ここで、調音モデルパラメータを最適化するには、音声データベースから音韻情報と音韻境界の情報を取り出して、両情報をもとに隣り合う音韻境界位置（時間）の差分をとることによって、各音韻の実音声における継続時間長を求めると共に、音声データベース内の音韻情報をもとに、上記した継続時間長の決定手法を適用して、その時点において求められている調音モデルパラメータを用いて調音モデルを制御することで、個々の音韻の継続時間長を推定し、実音声の音韻継続時間長と、推定した音韻継続時間長とを比較して、継続時間長の推定誤差を計算し、その推定誤差が小さくなるように、音韻別の調音モデルパラメータの値を変更するフィードバック制御を繰り返し実行すればよい。
【００２２】
また本発明は、音声を合成すると同時に、調音モデルの時間的変化に基づいて口の動画像を合成することを特徴とする。
本発明においては、調音モデルの各調音器官の動きをもとに口の動画像が合成されることから、音声合成時に、合成音声に合わせて滑らかに口が動く動画像を合成することができ、簡単にアニメーションなどを作成することが可能となる。
【００２３】
また本発明は、上記調音モデルに、顎、唇、及び舌の各調音器官の動きをモデル化した調音モデルを適用するようにしたことを特徴とする。ここで、調音モデルで示される調音器官の動きを、臨界制動２次線形系のステップ応答関数で表すとよい。
【００２４】
このような調音モデルでは、モデルが簡素化されるため演算量が少なくて済む。
また、調音モデルパラメータとして、音韻別に、その音韻が発声されていると認められる調音器官の状態である許容範囲を割り当て、この許容範囲をもとに、音韻間の境界を決定して音韻の継続時間長を求めるならば、人間が通常に発声する際の顎、唇、及び舌の各調音器官の比較的あいまいな動きが反映されるので、より一層人間らしく自然で、聞き取りやすく長時間聞いていても疲れない音声を合成することが可能となる。許容範囲に基づく音韻間の境界の決定方法としては、例えば、いずれかの調音器官の状態が最初に音韻（当該音韻）の対応する許容範囲を抜けた時点（ｔout ）と全ての調音器官の状態が後の音韻（後続音韻）の対応する許容範囲に入った時点とで挟まれた区間の中間時点とする方法が適用可能（当該音韻と後続音韻が共に母音の場合）である。この他、いずれかの調音器官の状態が最初に当該音韻の対応する許容範囲を抜けた時点（ｔout ）を音韻間の境界とするとか（当該音韻が子音の場合）、全ての調音器官の状態が後続音韻の対応する許容範囲に入った時点（ｔin）を音韻間の境界とする（当該音韻が母音で後続音韻が子音の場合）ことも可能である。
【００２５】
【発明の実施の形態】
以下、本発明の実施の形態につき図面を参照して説明する。
図１は本発明の一実施形態に係る音声の規則合成装置の概略構成を示すブロック図である。この音声規則合成装置（以下、音声合成装置と称する）は、例えばパーソナルコンピュータ等の情報処理装置上で、ＣＤ−ＲＯＭ、フロッピーディスク、メモリカード等の記録媒体、或いはネットワーク等の通信媒体により供給される専用のソフトウェア（文音声変換ソフトウェア）を実行することにより実現されるもので、文音声変換（ＴＴＳ）処理機能、即ちテキストから音声を生成する文音声変換処理（文音声合成処理）機能を有しており、その機能構成は、大別して言語処理部１０１、音声合成部１０２とに分けられる。
【００２６】
言語処理部１０１は、入力文、例えば漢字かな混じり文を解析して読み情報とアクセント情報を生成する処理と、これら情報に基づき音韻記号系列及びアクセント情報が記述された音声記号列を生成する処理を司る。
【００２７】
音声合成部１０２は、言語処理部１０１の出力である音声記号列をもとに音声を生成する処理を司る。
さて、図１の音声合成装置において、文音声変換（読み上げ）の対象となるテキスト（ここでは日本語文書）はテキストファイル１０３として保存されている。本装置では、文音声変換ソフトウェアに従い、当該ファイル１０３から漢字かな混じり文をｌ文ずつ読み出して、言語処理部１０１及び音声合成部１０２により以下に述べる文音声変換処理を行い、音声を合成する。
【００２８】
まず、テキストファイル１０３から読み出された漢字かな混じり文（入力文）は、言語処理部１０１内の言語解析処理部１０４に入力される。
言語解析処理部１０４は、入力される漢字かな混じり文に対して形態素解析を行い、読み情報とアクセント情報を生成する。形態素解析とは、与えられた文の中で、どの文字列が語句を構成しているか、そしてその語の構造がどのようなものかを解析する作業である。
【００２９】
そのために、言語解析処理部１０４は、文の最小構成要素である「形態素」を見出し語に持つ形態素辞書１０５と形態素間の接続規則が登録されている接続規則ファイル１０６を利用する。即ち言語解析処理部１０４は、入力文と形態素辞書１０５とを照合することで得られる全ての形態素系列候補を求め、その中から、接続規則ファイル１０６を参照して文法的に前後に接続できる組み合わせを出力する。形態素辞書１０５には、解析時に用いられる文法情報と共に、形態素の読み並びにアクセントの型が登録されている。このため、形態素解析により形態素が定まれば、同時に読みとアクセント型も与えることができる。
【００３０】
例えば、「公園へ行って本を読みます」という文に対して形態素解析を行うと、
／公園／へ／行って／本／を／読み／ます／。
と形態素に分割される。
【００３１】
各形態素に読みとアクセント型が与えられ、
／コウエン／エ／イッテ／ホ＾ン／ヲ／ヨミ／マ＾ス／
となる。ここで「＾」の入っている形態素は、その直前の音節でピッチが高く、その直後の音節ではピッチが落ちるアクセントであることを意床する。また「＾」がない場合は、平板型のアクセントであることを意味する。
【００３２】
ところで、人間が文章を読むときには、このような形態素単位でアクセントを付けて読むことはせず、幾つかの形態素をひとまとめにして、そのまとまり毎にアクセントを付けて読んでいる。
【００３３】
そこで、このようなことを考慮して、言語解析処理部１０４では更に、１つのアクセント句（アクセントを与える単位）で形態素をまとめると同時に、まとめたことによるアクセントの移動も推定する。これに加えて言語解析処理部１０４は、母音の無声化や読み上げの際のポーズ（息継ぎ）等の情報も付加する。これにより、上記の例では、最終的に次のような音声記号列が生成される。
【００３４】
／コーエンエ／イッテ．／ホ＾ンオ／ヨミマ＾（ス）／
ここで、ピリオド「．」はポーズを、「（）」は母音が無声化した音節であることを表わす。
【００３５】
さて、上記のようにして言語処理部１０１内の言語解析処理部１０４により音声記号列が生成されると、音声合成部１０２内の音韻継続時間長計算処理部１０７が起動される。
【００３６】
音韻継続時間長計算処理部１０７は、言語解析処理部１０４で生成した音声記号列中の音韻情報に従って、入力文に含まれる各音節の子音部並びに母音部の継続時間長（単位は例えばms）を決定する。この音韻継続時間長処理部１０７での継続時間長の決定処理の概略は以下の通りである。
【００３７】
既に述べたように、人間の音声の生成過程において、調音器官の動きの物理的制約が音韻継続時間に影響を及ぼす。日本語音声においては、この調音器官の制約が、拍の等時性という日本語特有の時間構造の特徴を乱す原因となっている。しかしながら、実際には等時性は乱されているが、逆にそれが音声に人間らしさを与えているのである。
【００３８】
そこで、複数の調音器官の状態をパラメータとして１つの調音モデルを考え、合成すべき音韻列に従ってモデルを制御し、その制御結果に基づいて音韻継続時間長を決定する。
【００３９】
調音モデルに関しては、古くは藤村−Coker の調音モデルなど、様々なモデルが提案されている。しかし、近年のこれらのモデルの多くは、調音器官の動きと音声の音響的な性質との関連付けを目的としており、調音器官の制御機構をシミュレートし、声道の音響特性を近似するために、モデルの構造や制御が複雑である。
【００４０】
音韻継続時間長を決定するために必要となるモデルは、調音器官の物理的制約による音韻継続時間長への影響が表現できればよいから、単純なモデルで十分である。
【００４１】
そこで本実施形態では、実際の発話においてその動きに物理的制約を受けやすいと思われる４つの調音器官を選択し、これらによって音韻継続時間制御のための調音モデルを構成する。選択した調音器官は、図３に示した顎の開き（Ｊ）、唇の丸め（Ｌ）、前舌の位置（ＦＴ）、後舌の位置（ＢＴ）である。
【００４２】
調音器官の動きを模擬するために、異なる調音様式で発音される音韻、即ち異音は全て区別する。例えば、撥音「ん」には、図４に示すように、後続する音韻によって幾つかの異なる調音様式を持つ。
【００４３】
そこで、図４に示したような音韻の細分化を行い、日本語音声に関しては、母音については無声化母音、鼻母音までを、子音は口蓋化子音までの分類を行う。前述の「公園へ行って本を読みます」という文の入力例に従えば、言語処理部１０１内の言語解析処理部１０４から入力される音声記号列に含まれる音韻系列のそれぞれの音韻は、まず図５（ａ）に示すような系列（第１の音韻情報）で表される。この図５（ａ）において、／：／は調音を、／Ｎ／は撥音、／Ｑ／は促音を表す。
【００４４】
更に、それぞれの音韻は、その音韻環境から、音韻継続時間長計算処理部１０７（内の調音モデル時間変化決定処理部１０７ｂ）により、上記した詳細分類の音韻系列、つまり異音レベルの音韻系列（第２の音韻情報）に図５（ｂ）のように変換される。なお、この異音レベルの音韻系列への変換は、音韻継続時間長計算処理部１０７側でなく、言語処理部１０１側（例えば言語解析処理部１０４）で行われるものであっても構わない。
【００４５】
本実施形態において、個々の音韻ｐｈには、各調音器官ｋ（ｋは、Ｊ，Ｌ，ＦＴ，ＢＴ）毎の固有状態Ａinh(ｋ，ｐｈ) と調音器官ｋの範囲（以下、許容範囲と称する）の上限Ａmax(ｋ，ｐｈ) 及び下限Ａmin(ｋ，ｐｈ) との３×４（＝１２）個と、その音韻ｐｈの最小継続時間長Ｄmin(ｐｈ) の計１３個の調音モデルのパラメータが割り当てられる。
【００４６】
１つの音韻ｐｈを考えた場合、その音韻を発声するのに代表的な調音モデルの各調音器官ｋの状態が固有状態Ａinh(ｋ，ｐｈ) である。一方、この音韻が発声されていると認められる調音器官の状態は、固有状態における１点ではなく、ある程度の許容範囲がある。そこで、各調音器官ｋのその音韻の調音として許容できる範囲を、上記のようにＡmax(ｋ，ｐｈ) 及びＡmin(ｋ，ｐｈ) で表す。なお本実施形態では、Ａinh(ｋ，ｐｈ) ，Ａmax(ｋ，ｐｈ) ，Ａmin(ｋ，ｐｈ) は、調音器官の可動範囲を０〜１として正規化されている。例えば、音韻［ｉ］に対するパラメータ値は図６のようになっている。
【００４７】
個々の調音器官ｋの動きを表す時系列Ｍ（ｋ，ｔ）は、合成すべき音韻系列をもとに次式（１）によって計算される。
Ｍ（ｋ，ｔ）＝Ａinh(ｋ，ｐｈ1)＋ΣＲi(ｋ，ｔ) ……（１）
ここで、ΣＲi(ｋ，ｔ) は、音韻系列の音韻数をｉ＝１〜ｉ＝ＮのＮ個であるとすると、Ｒi(ｋ，ｔ) のｉ＝１〜ｉ＝Ｎ−１までの総和である。
【００４８】
またＲi(ｋ，ｔ) は、モデルをｉ番目の当該音韻ｐｈi から後続音韻ｐｈi+1 （ｉ＋１番目の音韻）へ移行させる開始時点をｔi とすると、ｔ＜ｔi の範囲では
Ｒi(ｋ，ｔ) ＝０
で表され、ｔ≧ｔi の範囲では
Ｒi(ｋ，ｔ) ＝｛Ａinh(ｋ，ｐｈi+1)−Ａinh(ｋ，ｐｈi)｝Ｓ（ｔ−ｔi ）
で表される。
【００４９】
また、Ｓ（ｔ）には、臨界制動２次線形系のステップ応答、即ち
Ｓ（ｔ）＝１−（１＋ａｔ）ｅ^-at ……（２）
を用い近似する。ここで、ａは調音器官ｋの固有角周波数αk を表す。固有角周波数は調音器官によって異なり、動きの速い調音器官ほど大きな値をとる。
【００５０】
上記ｔi は、日本語の音声合成においては、次のようにして決まる。
まず、先行するｉ−１番目の音韻ｐｈi-1 から上記式に基づいて各調音器官を動かすことにより調音モデルをｉ番目の当該音韻ｐｈi へ移行させる際、全ての調音器官（Ｊ，Ｌ，ＦＴ，ＢＴ）が当該音韻ｐｈi のそれぞれの許容範囲（調音許容範囲）に入る時点を求め、更に、当該音韻ｐｈi の最小継続時間長Ｄmin(ｐｈi)だけ進めた（加算した）時点を求める。当該音韻ｐｈi が子音の場合には、この時点を後続音韻ｐｈi+1 へのモデルの移行開始時点ｔi とし、当該音韻ｐｈi が母音の場合には、この時点と次に述べる拍同期時点とを比較し大きい方をｔi とする。拍同期時点は、日本語の等時性に基づいて与えられる時間軸上の等間隔の点である。この拍同期時点の間隔Ｔを調節することで、合成音声の発話速度を変化させることができる。この規則に基づいて制御された各調音器官Ｊ，Ｌ，ＦＴ，ＢＴ（の動きをモデル化した調音モデルの状態）の時間変化の例を図７に示す。このように、調音器官の動きが時間軸に対する連続量として表わされる。
【００５１】
こうして音韻継続時間長計算処理部１０７で計算された各調音器官の時系列パターンから、当該音韻継続時間長計算処理部１０７は音韻継続時間長を決定する。調音モデルが当該音韻から後続音韻へ遷移する場合、初めの状態では、全ての調音器官は当該音韻の調音許容範囲内にあるが、調音モデルの状態が変化すると、調音器官のうちの１つが時点ｔout にてその許容範囲を抜け出る。そしてモデルの状態遷移が進むと、ある時点ｔinにおいて全ての調音器官が後続音韻の調音許容範囲に入る。これは、ｔ＜ｔout では全ての調音器官は当該音韻の調音許容範囲にあり、ｔ≧ｔinでは全ての調音器官は後続音韻の調音許容範囲内にあることを意味する。
【００５２】
ここでは、当該音韻が子音の場合、つまり当該音韻が子音で後続音韻が母音の場合には、ｔout を当該音韻と後続音韻の境界（子音−母音間の音韻境界）とし、当該音韻が母音で後続音韻が子音の場合には、ｔinを当該音韻と後続音韻の境界（母音−子音間の音韻境界）とする。また、当該音韻及び後続音韻が共に母音の場合には、（ｔout ＋ｔin）／２なる時点を当該音韻と後続音韻の境界（母音−母音間の音韻境界）とする。つまり、子音−母音間の境界は、いずれかの調音器官が最初に子音（当該音韻）の調音許容範囲を抜け出た時点とし、母音−子音間の境界は、全ての調音器官が子音（後続音韻）の調音許容範囲に入った時点とする。また、母音−母音間の境界は、いずれかの調音器官が最初に当該音韻の調音許容範囲を抜け出た時点と、全ての調音器官が後続音韻の許容範囲に入った時点とで挟まれた区間の中間時点とする。
【００５３】
以上の手順で全ての音韻境界を決定し、隣り合う境界の時間差から、それぞれの音韻の長さ（音韻継続時間長）を決定する。
このようにして、与えられた音韻系列に含まれる全ての音韻の時間的な長さ、即ち音韻継続時間長が決定される。
【００５４】
ところで、上記のようにして調音モデルを制御するためには、音韻ｐｈ毎に割り当てられた各調音器官ｋの固有状態Ａinh(ｋ，ｐｈ) 、その許容範囲Ａmax(ｋ，ｐｈ) 及びＡmin(ｋ，ｐｈ) と、最小継続時間長Ｄmin(ｐｈ) と、上記（２）式の調音器官ｋ毎に決まる固有角周波数ａ（＝αk ）を適切に設定する必要がある。そのため本実施形態では、実際に人間が発生した大量の音量データを用いて最適化（学習）することにより、予めこれらの値を設定するようにしている。
【００５５】
この個々の音韻の調音モデルの各パラメータ値を大量の音声データを用いて最適化する方法について、図８を参照して説明する。
図８において、音声データベース１３０には、人間が発声した音声をディジタル化してファイルにしたもので、音声の内容を示す（音韻情報としての）音韻ラベルと音韻境界の情報が一緒に収められている。
【００５６】
実音声音韻継続時間計算処理部１３１は、音声データベース１３０より音韻ラベルと音韻境界位置（時点）の情報を取り出し、隣り合う音韻境界位置（時点）の差分をとることによって、各音韻の実音声における継続時間長を計算する。
【００５７】
音韻継続時間長推定処理部１３２は前記した図１中の音韻継続時間長計算処理部１０７で適用する手法と同一手法による処理を行うもので、音声データベース１３０に含まれる音韻ラベル系列を入力として、音韻の継続時間長を推定する。
【００５８】
時間長比較部１３３は、実音声音韻継続時間計算処理部１３１により求められた実音声の音韻継続時間長と、音韻継続時間長推定処理部１３２により推定された音韻継続時間長とを比較して、継続時間長の推定誤差を計算する。本実施形態では、この推定誤差として、音声データベース１３０に含まれる全音韻の２乗誤差の和を全音韻数で割った平均２乗誤差を採用している。
【００５９】
パラメータ変更部１３４は、時間長比較部１３３により求められた継続時間長の推定誤差が小さくなるように、音韻別調音モデルパラメータメモリ１３５の内容である、各音韻毎の調音モデルパラメータの値を変更する。
【００６０】
このようなフィードバック制御を繰り返すことにより、継続時間長の推定誤差を最小化する音韻別の調音モデルパラメータセットを、音韻別調音モデルパラメータメモリ１３５内に得ることができる。
【００６１】
以上のようにして、音韻別調音モデルパラメータメモリ１３５内に、調音モデル制御のためのパラメータ値を得ると、合成される音声は、音声データベース１３０に収録された話者の口調に非常に近いものとなることがわかる。
【００６２】
本実施形態では、異なる話者の音声より作成した２種類の音声データファイルから、上記の手法により、２セットの調音モデル制御のためのパラメータを求めるようにしている。即ち、音声データベース１３０に収録される（音韻ラベルと音韻境界の情報を含む）音声データファイルとして、第１の話者の音声により作成した第１の音声データファイルと、第２の話者の音声により作成した第２の音声データファイルの２種類用意し、当該音声データファイルを切り替えて上記の手法を適用することで、その都度音韻別調音モデルパラメータメモリ１３５に、その話者の口調に対応した調音モデルパラメータセットを求めるようにしている。
【００６３】
このようにして求められた第１及び第２の話者にそれぞれ対応した調音モデルパラメータセットの一方は図１中の音韻別調音モデルパラメータメモリ１０７ａに、他方は同じく図１中のもう一つの音韻別調音モデルパラメータメモリ１０７ａ′に格納されて使用される。本実施形態では、このメモリ１０７ａ，１０７′のいずれか一方を、ユーザ指定等によって決定されるシステムの内部状態に基づいて切り替え使用することで、合成音声の口調を切り替えることができるようになっている。
【００６４】
次に、音韻継続時間長計算処理部１０７での動作の詳細を、図９乃至図１１のフローチャートを参照して説明する。
まず音韻継続時間長計算処理部１０７は、上記した音韻別調音モデルパラメータメモリ１０７ａ，１０７ａ′の他に、調音モデル時間変化決定処理を行う調音モデル時間変化決定処理部１０７ｂと、当該処理部１０７ｂの処理結果をもとに音韻境界決定処理を行う音韻境界決定処理部１０７ｃとから構成される。
【００６５】
本実施形態では、上記の手法で求められた異なる話者に対応する２種類の音韻別調音モデルパラメータファイル（図示せず）、つまり音韻別に割り当てられる各調音器官Ｊ，Ｌ，ＦＴ，ＢＴの調音モデルのパラメータが蓄積された２種類の音韻別調音モデルパラメータファイルが用意されており、文音声ソフトウェアに従う文音声変換処理の開始時に、一方のファイルの内容が上記音韻別調音モデルパラメータメモリ１０７ａに、他方のファイルの内容が音韻別調音モデルパラメータメモリ１０７ａ′に読み込まれるようになっている。このメモリ１０７ａ，１０７ａ′は、例えばメインメモリ（図示せず）に確保された特定領域である。
【００６６】
言語処理部１０１内の言語解析処理部１０４により読み情報が生成されて、音声合成部１０２内の音韻継続時間長計算処理部１０７が起動されると、当該処理部１０７内の調音モデル時間変化決定処理部１０７ｂは、読み情報に含まれている合成すべき音韻列（音韻数をＮとする）中の音韻位置を示す変数ｉを先頭の音韻を示す１に、時点ｔを０に、拍同期時点を示す変数ｔsyncを（例えばユーザの指定する発話速度で決まる値）Ｔに、全ての調音器官Ｊ，Ｌ，ＦＴ，ＢＴがｉ番目の音韻のそれぞれの調音許容範囲に入る時点を示す変数ｔin(i) （＝ｔin(1) ）を０に初期設定する（ステップＳ１）。
【００６７】
次に調音モデル時間変化決定処理部１０７ｂは、時点ｔをｉ番目の音韻の最小継続時間長（Ｄmin(ｐｈi)）だけ進めた値に更新する（ステップＳ２）。この最小継続時間長（Ｄmin(ｐｈi)）は、ｉ番目の音韻を用いて音韻別調音モデルパラメータメモリ１０７ａまたは１０７ａ′を参照することで取得できる。
【００６８】
次に調音モデル時間変化決定処理部１０７ｂは、ｉ番目の音韻が子音であるか否かをチェックし（ステップＳ３）、母音であれば、時点ｔと拍同期時点ｔsyncとを比較する（ステップＳ４）。
【００６９】
もし、時点ｔが拍同期時点ｔsyncを越えていないならば、時点ｔを拍同期時点ｔsyncに更新した後（ステップＳ５）、拍同期時点ｔsyncをＴだけ進める（ステップＳ６）。これに対し、時点ｔが拍同期時点ｔsyncを越えているならば、時点ｔを更新することなくステップＳ６に進み、拍同期時点ｔsyncをＴだけ進める。そして調音モデル時間変化決定処理部１０７ｂは、ステップＳ６の後、現在の時点ｔの値を前記移行開始時点ｔi （即ち、モデルをｉ番目の音韻から後続音韻へ移行させる開始時点）として決定する（ステップＳ７）。
【００７０】
一方、ｉ番目の音韻が子音であるならば、そのままステップＳ７に進んで、現在の時点ｔの値を移行開始時点ｔi として決定する。
調音モデル時間変化決定処理部１０７ｂはステップＳ７を実行すると、時点ｔにおける各調音器官Ｊ，Ｌ，ＦＴ，ＢＴの位置（動き）を表すＭJ （＝Ｍ（Ｊ，ｔ）），ＭL （＝Ｍ（Ｌ，ｔ）），ＭFT（＝Ｍ（ＦＴ，ｔ）），ＭBT（＝Ｍ（ＢＴ，ｔ））を、上記（１）式により算出する（ステップＳ８）。
【００７１】
次に調音モデル時間変化決定処理部１０７ｂは、時点ｔにおける調音器官Ｊ，Ｌ，ＦＴ，ＢＴの位置（ＭJ ，ＭL ，ＭFT，ＭBT）がｉ番目の音韻のそれぞれの調音許容範囲、即ちＡmin(Ｊ，ｐｈi)〜Ａmax(Ｊ，ｐｈi)、Ａmin(Ｌ，ｐｈi)〜Ａmax(Ｌ，ｐｈi)、Ａmin(ＦＴ，ｐｈi)〜Ａmax(ＦＴ，ｐｈi)、Ａmin(ＢＴ，ｐｈi)〜Ａmax(ＢＴ，ｐｈi)に全て入っているか否かをチェックする（ステップＳ９）。
【００７２】
もし、時点ｔにおける調音器官Ｊ，Ｌ，ＦＴ，ＢＴの位置（ＭJ ，ＭL ，ＭFT，ＭBT）がｉ番目の音韻のそれぞれの調音許容範囲に全て収まっているならば、調音モデル時間変化決定処理部１０７ｂは、時点ｔを所定の微小時間δ（例えば５ms）だけ進めた後（ステップ１０）、ステップＳ８に戻って、その新たな時点ｔでの各調音器官Ｊ，Ｌ，ＦＴ，ＢＴの位置ＭJ ，ＭL ，ＭFT，ＭBTを算出し、再びステップＳ９の判定を行う。
【００７３】
調音モデル時間変化決定処理部１０７ｂは、以上の動作を、調音器官Ｊ，Ｌ，ＦＴ，ＢＴの位置の少なくとも１つが、ｉ番目の音韻の対応する調音許容範囲から外れるのを検出するまで繰り返す。
【００７４】
このようにして、時点ｔにおける調音器官Ｊ，Ｌ，ＦＴ，ＢＴの位置のいずれかがｉ番目の音韻の対応する調音許容範囲から外れたならば、調音モデル時間変化決定処理部１０７ｂは、その時点ｔを、調音器官Ｊ，Ｌ，ＦＴ，ＢＴの位置の少なくとも１つがｉ番目の音韻の調音許容範囲から出る時点ｔout(i)であると決定し、図示せぬメモリに保持する（ステップＳ１１）。
【００７５】
次に時間変化決定処理部１０７ｂは、時点ｔにおけるステップＳ８と同じ処理を行う（ステップＳ１２）。但し、この例のようにステップＳ１１が行われた直後では、各調音器官Ｊ，Ｌ，ＦＴ，ＢＴの位置を表すＭJ ，ＭL ，ＭFT，ＭBTの値は、当該ステップＳ１１の直前に行われたステップＳ８でのＭJ ，ＭL ，ＭFT，ＭBTの算出結果と一致することから、当該ステップＳ１１が行われた直後の上記ステップＳ１２はスルーしても構わない。
【００７６】
次に時間変化決定処理部１０７ｂは、時点ｔにおける調音器官Ｊ，Ｌ，ＦＴ，ＢＴの位置が次のｉ＋１番目の音韻のそれぞれの調音許容範囲、即ちＡmin(Ｊ，ｐｈi+1)〜Ａmax(Ｊ，ｐｈi+1)、Ａmin(Ｌ，ｐｈi+1)〜Ａmax(Ｌ，ｐｈi+1)、Ａmin(ＦＴ，ｐｈi+1)〜Ａmax(ＦＴ，ｐｈi+1)、Ａmin(ＢＴ，ｐｈi+1)〜Ａmax(ＢＴ，ｐｈi+1)に全て入っているか否かをチェックする（ステップＳ１３）。
【００７７】
もし、時点ｔにおける調音器官Ｊ，Ｌ，ＦＴ，ＢＴの位置のいずれか１つでもｉ＋１番目の音韻の対応する調音許容範囲から外れているならば、調音モデル時間変化決定処理部１０７ｂは、時点ｔを所定の微小時間δだけ進めた後（ステップＳ１４）、ステップＳ１２に戻って、その新たな時点ｔでの各調音器官Ｊ，Ｌ，ＦＴ，ＢＴの位置を表すＭJ ，ＭL ，ＭFT，ＭBTを算出し、再びステップＳ１３の判定を行う。
【００７８】
調音モデル時間変化決定処理部１０７ｂは、以上の動作を、全ての調音器官Ｊ，Ｌ，ＦＴ，ＢＴの位置が、ｉ＋１番目の音韻の対応する調音許容範囲に入るのを検出するまで繰り返す。
【００７９】
このようにして、時点ｔにおける調音器官Ｊ，Ｌ，ＦＴ，ＢＴの位置の全てがｉ＋１番目の音韻の対応する調音許容範囲に入ったならば、調音モデル時間変化決定処理部１０７ｂは、その時点ｔを、全ての調音器官Ｊ，Ｌ，ＦＴ，ＢＴの位置がｉ＋１番目の音韻（次の音韻）の調音許容範囲に入る（移行する）時点ｔin(i+1) であると決定し、図示せぬメモリに保持する（ステップＳ１５）。
【００８０】
次に調音モデル時間変化決定処理部１０７ｂは、Ｎ−１番目の音韻（Ｎ個の音韻からなる音韻列中の最後から２番目の音韻）まで処理が進んだか否かを、現在のｉの値がＮ−１であるか否かによりチェックする（ステップＳ１６）。
【００８１】
もし、現在のｉの値がＮ−１でないならば、調音モデル時間変化決定処理部１０７ｂはｉの値をインクリメント（＋１）した後（ステップＳ１７）、即ちｉの値を音韻列中の次の音韻を指すように更新した後、上記ステップＳ２に戻る。
【００８２】
このようにして調音モデル時間変化決定処理部１０７ｂは、ステップＳ２以降の処理をｉ＝１〜ｉ＝Ｎ−１まで繰り返し、ｔin(i) の列（ｉ＝１，２，３，…，Ｎ）、即ちｔin(1) ，ｔin(2) ，ｔin(3) ，…，ｔin(N) と、ｔout(i) の列（ｉ＝１，２，３，…，Ｎ−１）、即ちｔout(1)，ｔout(2)，ｔout(3)，…，ｔout(N-1)とを求める。
【００８３】
すると、調音モデル時間変化決定処理部１０７ｂから同じ音韻継続時間長計算処理部１０７内の音韻境界決定処理部１０７ｃに制御が渡される。
音韻境界決定処理部１０７ｃはまず、合成すべき音韻列中の音韻位置を示す変数ｉを先頭の音韻を示す１に、ｉ番目の音韻の先行音韻との音韻境界を示す変数Ｂi 、即ちＢ1 を、ｔin(i) 、即ちｔin(1) に初期設定する（ステップＳ２１）。
【００８４】
次に音韻境界決定処理部１０７ｃは、ｉ番目の音韻が子音であるか或いは母音であるかをチェックし（ステップＳ２２）、母音であれば、次のｉ＋１番目の音韻が子音であるか否かをチェックする（ステップＳ２３）。
【００８５】
もし、ｉ番目の音韻が母音で、次のｉ＋１番目の音韻が子音であるならば、音韻境界決定処理部１０７ｃは、ｉ＋１番目の音韻の先行音韻との音韻境界を示す変数Ｂi+1 にｔin(i+1) を設定し（ステップＳ２４）、ｉ番目の音韻が母音で、次のｉ＋１番目の音韻も母音であるならば、音韻境界決定処理部１０７ｃは、ｔout(i)とｔin(i+1) の中間時点（ｔout(i)＋ｔin(i+1) ）／２をＢi+1 に設定する（ステップＳ２５）。
【００８６】
これに対し、ｉ番目の音韻が子音であるならば（この場合、子音−子音の組み合わせは存在しないから、次のｉ＋１番目の音韻は母音となる）、音韻境界決定処理部１０７ｃはｔout(i)をＢi+1 に設定する（ステップＳ２６）。
【００８７】
音韻境界決定処理部１０７ｃは、上記ステップＳ２４，Ｓ２５またはＳ２６によりＢi+1 の値を決定すると、Ｂi+1 とＢi との差、即ちｉ＋１番目の音韻の先行音韻（ｉ番目の音韻）との音韻境界Ｂi+1 と、ｉ番目の音韻の先行音韻（ｉ−１番目の音韻）との音韻境界Ｂi との時間差を求めて、ｉ番目の音韻の継続時間長Ｄi を決定する（ステップＳ２７）。１回目のステップＳ２７では、１番目の音韻の継続時間長Ｄ1 がＢ2 −Ｂ1 の演算により求められる。
【００８８】
次に音韻境界決定処理部１０７ｃは、Ｎ−１番目の音韻まで処理が進んだか否かを、現在のｉの値がＮ−１であるか否かによりチェックする（ステップＳ２８）。
【００８９】
もし、現在のｉの値がＮ−１でないならば、音韻境界決定処理部１０７ｃはｉの値をインクリメント（＋１）した後（ステップＳ２９）、上記ステップＳ２２に戻る。
【００９０】
このようにして音韻境界決定処理部１０７ｃは、ステップＳ２２以降の処理をｉ＝１〜ｉ＝Ｎ−１まで繰り返し、Ｄi の列（ｉ＝１，２，３，…，Ｎ−１）、即ちＤ1 ，Ｄ2 ，Ｄ3 ，…，ＤN-1 を求める。
【００９１】
次に音韻境界決定処理部１０７ｃは、Ｎ番目の音韻、即ち音韻系列中の最後の音韻（＝母音）の継続時間長ＤN を次の演算
ＤN ＝ｔin(i+1) −Ｂi+1 ＋ＤFO ……（３）
により求める（ステップＳ３０）。ここでＤFOは、母音のフェードアウト時間である。
【００９２】
これにより音韻境界決定処理部１０７ｃ（を備えた音韻継続時間長計算処理部１０７）は、音韻系列に含まれるＮ個の音韻の継続時間長Ｄ1 ，Ｄ2 ，Ｄ3 ，…，ＤN を求めたことになる。
【００９３】
さて、以上のようにして音声合成部１０２内の音韻継続時間長計算処理部１０７により入力文（入力テキスト）に含まれる各音節の（子音部並びに母音部の）継続時間長が決定されると、同じ音声合成部１０２内のピッチパターン生成処理部１０９が起動される。
【００９４】
ピッチパターン生成処理部１０９は音韻継続時間長計算処理部１０７により決定された継続時間長（の系列）と、言語解析処理部１０４により決定されたアクセント情報に基づいて、まず点ピッチ位置を設定する。次に、設定された複数の点ピッチを直線で補間して例えば１０ms毎のピッチパターンを得る。
【００９５】
一方、音声合成部１０２内の音韻パラメータ生成処理部１１０は、音声記号列の音韻情報をもとに音韻パラメータを生成する処理を、例えぱピッチパターン生成処理部１０９によるピッチパターン生成処理と並行して次のように行う。
【００９６】
まず本実施形態では、サンプリング周波数１１０２５Ｈｚで標本化した実音声を改良ケプストラム法により窓長２０ms、フレーム周期１０msで分析して得た０次から２５次のケプストラム係数を子音＋母音（ＣＶ）の単位で日本語音声の合成に必要な全音節を切り出した計１３７個の音声素片が蓄積された音声素片ファイル（図示せず）が用意されている。この音声素片ファイルの内容は、文音声変換ソフトウェアに従う文音声変換処理の開始時に、例えばメインメモリ（図示せず）に確保された音声素片領域（以下、音声素片メモリと称する）１１１に読み込まれているものとする。
【００９７】
音韻パラメータ生成処理部１１０は、言語解析処理部１０４から渡される音声記号列中の音韻情報（ここでは第１の音韻情報であるが、第２の音韻情報でも構わない）に従って、上記したＣＶ単位の音声素片を音声素片メモリ１１１から順次読み出し、読み出した音声素片を接続することにより合成すべき音声の音韻パラメータ（特徴パラメータ）を生成する。
【００９８】
ピッチパターン生成処理部１０９によりピッチパターンが生成され、音韻パラメータ生成処理部１１０により音韻パラメータが生成されると、音声合成部１０２内の合成フィルタ処理部１１２が起動される。この合成フィルタ処理部１１２は、図２に示すように、ホワイトノイズ発生部１１８、インパルス発生部１１９、駆動音源切り替え部１２０、及びＬＭＡフィルタ１２１から構成されており、上記生成されたピッチパターンと音韻パラメータから、次のようにして音声を合成する。
【００９９】
まず、音声の有声部（Ｖ）では、駆動音源切り替え部１２０によりインパルス発生部１１９側に切り替えられる。インパルス発生部１１９は、ピッチパターン生成処理部１０９により生成されたピッチパターンに応じた間隔のインパルスを発生し、このインパルスを音源としてＬＭＡフィルタ１２１を駆動する。一方、音声の無声部（Ｕ）では、駆動音源切り替え部１２０によりホワイトノイズ発生部１１８側に切り替えられる。ホワイトノイズ発生部１１８はホワイトノイズを発生し、このホワイトノイズを音源としてＬＭＡフィルタ１２１を駆動する。
【０１００】
ＬＭＡフィルタ１２１は音声のケプストラムを直接フィルタ係数とするものである。本実施形態において音韻パラメータ生成処理部１１０により生成された音韻パラメータは前記したようにケプストラムであることから、この音韻パラメータがＬＭＡフィルタ１２１のフィルタ係数となり、駆動音源切り替え部１２０により切り替えられる音源によって駆動されることで、合成音声を出力する。
【０１０１】
合成フィルタ処理部１１２（内のＬＭＡフィルタ１２１）により合成された音声は離散音声信号であり、Ｄ／Ａ変換器１１３によりアナログ信号に変換し、アンプ１１４を通してスピーカ１１５に出力することで、初めて音として聞くことができる。
【０１０２】
さて本実施形態では、以上に述べた音声の合成だけでなく、顔画像（動画）の合成も行うようになっている。以下、顔画像の合成について説明する。
まず、図１中の調音モデル時間変化決定処理部１０７ｂは調音モデルを制御する際、各調音器官の状態（位置）を示す情報（ＭJ ，ＭL ，ＭFT，ＭBT）を顔画像合成処理部１１６に渡す。
【０１０３】
顔画像合成処理部１１６は、調音モデル時間変化決定処理部１０７ｂから受け取った各調音器官、即ち顎（Ｊ）、唇（Ｌ）、前舌（ＦＴ）、後舌（ＢＴ）の位置（ＭJ ，ＭL ，ＭFT，ＭBT）を、図１２に示すように、顔画像（図１２（ａ））中の口の縦の開き（図１２（ｂ））、唇の丸め具合（図１２（ｃ））、前舌の高さ（図１２（ｄ））、後舌の高さ（図１２（ｅ））にそれぞれ対応させ、口の部分の画像を合成し、ディスプレイ１１７に描画する。
【０１０４】
ここでは、調音モデル時間変化決定処理部１０７ｂから顔画像合成処理部１１６には、１／３０sec 周期で各調音器官の位置情報が送られ、顔画像合成処理部１１６では、この送られた位置情報に基づいて図１２（ａ）に示す顔画像を合成する。そして、音声と同期をとって、１／３０sec 周期でディスプレイ１１７に顔画像を描画すれば、合成音声に合わせて滑らかに口が動く顔画像を合成することができ、あたかも画像に写し出された人の顔やアニメーションの顔が喋っているようにみせることができる。
【０１０５】
以上本発明の一実施施形態について説明してきたが、本発明は前記実施形態に限定されるものではない。例えば、前記実施形態では、音声の特徴パラメータとしてケプストラムを使用しているが、ＬＰＣやＰＡＲＣＯＲ、フォルマントなど他のパラメータであっても、本発明は適用可能であり同様な効果が得られる。言語処理部に関しても形態素解析以外に構文解析等が挿入されても全＜問題なく、ピッチ生成に関しても、点ピッチによる方法でなくともよく、例えば藤崎モデルを利用した場合でも本発明は適用可能である。
【０１０６】
また、前記実施形態では、調音モデルパラメータの切り替えにより２種類の口調が合成可能である場合について説明したが、更に様々な人の声からパラメータを作成して３種類以上のパラメータを用意し、それらを切り替えて使用しても構わない。
要するに本発明はその要旨に逸脱しない範囲で種々変形して実施することができる。
【０１０７】
【発明の効果】
以上詳述したように本発明によれば、異音レベルの音韻情報に基づいて調音モデルの状態を時間軸方向に変化させることにより、当該調音モデルの動きをより人間の調音器官に近いものとすることができ、しかも当該調音モデルの状態変化をもとに上記異音レベルの音韻情報に含まれる個々の音韻の継続時間長を決定することにより、人間が音声を発声した際の調音器官の物理的な制約を音韻継続時間長に反映することができるため、より人間らしく、聞き取りやすい音声を合成できる。
【０１０８】
また、本発明によれば、音声を合成すると同時に、調音モデルの各調音器官の動きをもとに口の動画像を合成することにより、合成音声に合わせて滑らかに口が動く動画像を合成することができ、簡単にアニメーションなどを作成することができる。
【図面の簡単な説明】
【図１】本発明の一実施形態に係る音声の規則合成装置の概略構成を示すブロック図。
【図２】図１中の合成フィルタ処理部１１２の構成を示すブロック図。
【図３】同実施形態で適用される調音モデルを構成する４つの調音器官を示す図。
【図４】音韻の細分化について、後続する音韻によって（つまり音韻環境によって）幾つかの異なる調音様式を持つ撥音「ん」の場合を例に示す図。
【図５】「公園へ行って本を読みます」という文を言語処理することで生成される音声記号列に含まれる音韻系列の例を、音韻環境を考慮する前と後について示す図。
【図６】音韻［ｉ］に対する調音モデルのパラメータの一例を示す図。
【図７】４つの調音器官の動きをモデル化した調音モデルの状態の時間変化の例を示す図。
【図８】個々の音韻の調音モデルの各パラメータ値を大量の音声データを用いて最適化する方法を説明するための図。
【図９】音韻継続時間長計算処理部１０７内の調音モデル時間変化決定処理部１０７ｂによる調音モデル時間変化決定処理を説明するためのフローチャートの一部を示す図。
【図１０】音韻継続時間長計算処理部１０７内の調音モデル時間変化決定処理部１０７ｂによる調音モデル時間変化決定処理を説明するためのフローチャートの残りを示す図。
【図１１】音韻継続時間長計算処理部１０７内の音韻境界決定処理部１０７ｃによる音韻境界と音韻の継続時間長の決定処理を説明するためのフローチャート。
【図１２】調音モデルの各調音器官の動きに基づく口の動画像の合成を説明するための図。
【図１３】従来の規則合成装置の構成を示すブロック図。
【図１４】図１３の規則合成装置における従来の音韻の継続時間長決定方法を説明するための図。
【符号の説明】
１０１…言語処理部
１０２…音声合成部
１０４…言語解析処理部
１０７…音韻継続時間長計算処理部（音韻継続時間長決定手段）
１０７ａ，１０７ａ′，１３５…音韻列調音モデルパラメータメモリ（調音モデルパラメータ蓄積手段）
１０７ｂ…調音モデル時間変化決定処理部
１０７ｃ…音韻境界決定処理部
１０９…ピッチパターン生成処理部
１１０…音韻パラメータ生成処理部
１１２…合成フィルタ処理部
１１６…顔画像合成処理部（口画像合成手段）
１３０…音声データベース
１３１…実音声音韻継続時間計算処理部
１３２…音韻継続時間長推定処理部
１３３…時間長比較部
１３４…パラメータ変更部

Claims

音声合成の対象となる第１の音韻情報に含まれる個々の音韻とその音韻環境から異音レベルの第２の音韻情報を変換・生成し、
各音韻毎に調音器官の動きをモデル化した調音モデルの可動範囲を設定し、
前記第２の音韻情報に基づいて前記調音モデルの状態を時間軸方向に変化させ、前記第２の音韻情報に含まれる個々の音韻と後続音韻との境界において、当該個々の音韻の前記設定された可動範囲を前記調音モデルの状態が一部でも外れた時刻と、前記調音モデルの全ての状態が後続音韻の前記設定された可動範囲に入った時刻との少なくともいずれか一方に基づいて当該個々の音韻と後続音韻の境界時刻を決定し、当該境界時刻に基づいて当該個々の音韻の継続時間長を決定すると共に、前記第１または第２の音韻情報に基づいて音声素片を選択し、
前記決定した音韻の継続時間長に基づいて前記選択した音声素片を接続することによって音声を合成することを特徴とする音声合成方法。
音声合成の対象となる第１の音韻情報に含まれる個々の音韻とその音韻環境から異音レベルの第２の音韻情報を変換・生成する音韻情報変換手段と、
各音韻毎に調音器官の動きをモデル化した調音モデルの可動範囲を設定保持する手段と、
前記第２の音韻情報に基づいて前記調音モデルの状態を時間軸方向に変化させ、前記第２の音韻情報に含まれる個々の音韻と後続音韻との境界において、当該個々の音韻の前記設定保持されている可動範囲を前記調音モデルの状態が一部でも外れた時刻と、前記調音モデルの全ての状態が後続音韻の前記設定保持されている可動範囲に入った時刻との少なくともいずれか一方に基づいて当該個々の音韻と後続音韻の境界時刻を決定し、当該境界時刻に基づいて当該個々の音韻の継続時間長を決定する音韻継続時間長決定手段と、
前記第１または第２の音韻情報に基づいて音声素片を選択し、この選択した音声素片を、前記音韻継続時間長決定手段により決定された音韻の継続時間長に基づいて接続することにより音声を生成する音声生成処理手段とを具備することを特徴とする音声合成装置。
音声合成の対象となる第１の音韻情報に含まれる個々の音韻とその音韻環境から異音レベルの第２の音韻情報を変換・生成するステップと、
各音韻毎に調音器官の動きをモデル化した調音モデルの可動範囲を設定するステップと、
前記第２の音韻情報に基づいて前記調音モデルの状態を時間軸方向に変化させ、前記第２の音韻情報に含まれる個々の音韻と後続音韻との境界において、当該個々の音韻の前記設定された可動範囲を前記調音モデルの状態が一部でも外れた時刻と、前記調音モデルの全ての状態が後続音韻の前記設定された可動範囲に入った時刻との少なくともいずれか一方に基づいて当該個々の音韻と後続音韻の境界時刻を決定し、当該境界時刻に基づいて当該個々の音韻の継続時間長を決定すると共に、前記第１または第２の音韻情報に基づいて音声素片を選択するステップと、
前記決定した音韻の継続時間長に基づいて前記選択した音声素片を接続することによって音声を合成するステップとを、
コンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体。
実音声をもとに作成された前記調音モデルを制御するための音韻別の調音モデルパラメータであって、前記調音モデルの可動範囲を含む調音モデルパラメータからなる調音モデルパラメータセットを保持しておき、
音声合成の際、前記調音モデルパラメータに基づいて前記調音モデルを制御することを特徴とする請求項１記載の音声合成方法。
実音声をもとに作成された前記調音モデルを制御するための音韻別の調音モデルパラメータであって、前記調音モデルの可動範囲を含む調音モデルパラメータからなる調音モデルパラメータセットを保持する調音モデルパラメータ蓄積手段を更に具備し、
前記音韻継続時間長決定手段は、前記調音モデルパラメータ蓄積手段から前記調音モデルパラメータを読み出し、当該読み出したパラメータに基づいて前記調音モデルを制御することを特徴とする請求項２記載の音声合成装置。
前記調音モデルを制御するための音韻別の調音モデルパラメータであって、前記調音モデルの可動範囲を含む調音モデルパラメータからなり、それぞれ異なる話者の音声をもとに作成された複数の調音モデルパラメータセットを保持しておき、
音声合成の際、前記複数セットの調音モデルパラメータの中から１つの調音モデルパラメータのセットを選択し、この選択した調音モデルパラメータのセットに基づいて前記調音モデルを制御することを特徴とする請求項１記載の音声合成方法。
前記調音モデルを制御するための音韻別の調音モデルパラメータであって、前記調音モデルの可動範囲を含む調音モデルパラメータからなり、それぞれ異なる話者の音声をもとに作成された調音モデルパラメータセットを保持する複数の調音モデルパラメータ蓄積手段を更に具備し、
前記音韻継続時間長決定手段は、前記複数の調音モデルパラメータ蓄積手段の１つを選択し、その選択した前記調音モデルパラメータ蓄積手段から前記調音モデルパラメータを読み出し、当該読み出したパラメータに基づいて前記調音モデルを制御することを特徴とする請求項２記載の音声合成装置。
前記調音モデルパラメータは、実音声をもとに取得される音韻情報と音韻境界の情報が格納された音声データベースを用いて最適化されたものである請求項４または請求項６記載の音声合成方法。
前記調音モデルパラメータは、実音声をもとに取得される音韻情報と音韻境界の情報が格納された音声データベースを用いて最適化されたものである請求項５または請求項７記載の音声合成装置。
各音韻毎に調音器官の動きをモデル化した調音モデルの可動範囲を設定し、
音声合成の対象となる音韻情報に基づいて前記調音モデルの状態を時間軸方向に変化させ、前記音韻情報に含まれる個々の音韻と後続音韻との境界において、当該個々の音韻の前記設定された可動範囲を前記調音モデルの状態が一部でも外れた時刻と、前記調音モデルの全ての状態が後続音韻の前記設定された可動範囲に入った時刻との少なくともいずれか一方に基づいて当該個々の音韻と後続音韻の境界時刻を決定し、当該境界時刻に基づいて当該個々の音韻の継続時間長を決定すると共に、前記音韻情報に基づいて音声素片を選択し、
前記決定した音韻の継続時間長に基づいて前記選択した音声素片を接続することによって音声を合成すると同時に、
前記調音モデルの時間的変化に基づいて口の動画像を合成することを特徴とする音声合成方法。
各音韻毎に調音器官の動きをモデル化した調音モデルの可動範囲を設定保持する手段と、
音声合成の対象となる音韻情報に基づいて前記調音モデルの状態を時間軸方向に変化させ、前記音韻情報に含まれる個々の音韻と後続音韻との境界において、当該個々の音韻の前記設定保持されている可動範囲を前記調音モデルの状態が一部でも外れた時刻と、前記調音モデルの全ての状態が後続音韻の前記設定保持されている可動範囲に入った時刻との少なくともいずれか一方に基づいて当該個々の音韻と後続音韻の境界時刻を決定し、当該境界時刻に基づいて当該個々の音韻の継続時間長を決定する音韻継続時間長決定手段と、
前記音韻情報に基づいて音声素片を選択し、この選択した音声素片を、前記音韻継続時間長決定手段により決定された音韻の継続時間長に基づいて接続することにより音声を生成する音声生成処理手段と、
前記調音モデルの時間的変化に基づいて口の動画像を合成する口画像合成手段とを具備することを特徴とする音声合成装置。
前記音声を合成すると同時に、前記調音モデルの時間的変化に基づいて口の動画像を合成することを特徴とする請求項１、請求項４、請求項６または請求項８のいずれかに記載の音声合成方法。
前記調音モデルの時間的変化に基づいて口の動画像を合成する口画像合成手段を更に具備することを特徴とする請求項２、請求項５、請求項７または請求項９のいずれかに記載の音声合成装置。
前記調音モデルに、顎、唇、及び舌の各調音器官の動きをモデル化した調音モデルを用いることを特徴とする請求項１、請求項４、請求項６、請求項８、請求項１０または請求項１２に記載の音声合成方法。
前記音韻継続時間長決定手段は、顎、唇、及び舌の各調音器官の動きをモデル化した調音モデルを用いることを特徴とする請求項２、請求項５、請求項７、請求項９、請求項１１または請求項１３のいずれかに記載の音声合成装置。
前記調音モデルで示される調音器官の動きを、臨界制動２次線形系のステップ応答関数で表すことを特徴とする請求項１、請求項４、請求項６、請求項８、請求項１０、請求項１２または請求項１４のいずれかに記載の音声合成方法。
前記音韻継続時間長決定手段は、前記調音モデルで示される調音器官の動きを、臨界制動２次線形系のステップ応答関数で計算することを特徴とする請求項２、請求項５、請求項７、請求項９、請求項１１、請求項１３または請求項１５のいずれかに記載の音声合成装置。