JP3742206B2 - 音声合成方法及び装置 - Google Patents

音声合成方法及び装置 Download PDF

Info

Publication number
JP3742206B2
JP3742206B2 JP32292597A JP32292597A JP3742206B2 JP 3742206 B2 JP3742206 B2 JP 3742206B2 JP 32292597 A JP32292597 A JP 32292597A JP 32292597 A JP32292597 A JP 32292597A JP 3742206 B2 JP3742206 B2 JP 3742206B2
Authority
JP
Japan
Prior art keywords
phoneme
articulation model
speech
articulation
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP32292597A
Other languages
English (en)
Other versions
JPH11161297A (ja
Inventor
芳則 志賀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP32292597A priority Critical patent/JP3742206B2/ja
Publication of JPH11161297A publication Critical patent/JPH11161297A/ja
Application granted granted Critical
Publication of JP3742206B2 publication Critical patent/JP3742206B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Processing Or Creating Images (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、音声合成の対象となる音韻情報に基づいて、当該音韻情報に含まれる個々の音韻の継続時間長を決定すると共に音声素片を選択し、決定した音韻の継続時間長に基づいて選択した音声素片を接続することによって音声を合成する音声合成方法及び音声合成装置に関する。
【0002】
【従来の技術】
この種の音声合成装置の代表的なものに、音声を細分化して蓄積し、その組み合わせによって任意の音声を合成可能な規則合成装置があることが知られている。以下では、この規則合成装置の従来技術の例を図を参照しながら説明していく。
【0003】
図13は従来の規則合成装置の構成を示すブロック図である。
図13の規則合成装置は入力されるテキストデータ(以下、単にテキストと称する)を音韻と韻律からなる記号列に変換し、その記号列から音声を生成する文音声変換(Text-to-speech conversion :以下、TTSと称する)処理を行う。
【0004】
この図13の規則合成装置におけるTTS処理機構は、大きく分けて言語処理部12と音声合成部13の2つの処理部からなり、日本語の規則合成を例にとると次のように行われるのが一般的である。
【0005】
まず言語処理部12では、テキストファイル11から入力されるテキスト(漢字かな混じり文)に対して形態素解析、構文解析等の言語処理を行い、形態素への分解、係り受け関係の推定等の処理を行うと同時に、各形態素に読みとアクセント型を与える。その後言語処理部12では、アクセントに関しては複合語等のアクセント移動規則を用いて、読み上げの際の区切りとなる句(以下、アクセント句と称する)毎のアクセント型を決定する。通常TTSの言語処理部12では、こうして得られるアクセント句毎の読みとアクセント型を記号列(以下、音声記号列と称する)として出力できるようになっている。
【0006】
次に音声合成部13内では、得られた読みに含まれる各音韻の継続時間長を音韻継続時間長決定処理部14にて決定する。音韻の継続時間長は、日本語の音節の等時性に基づき、図14に示されるように、各音節の基準点(ここでは、子音から母音へのわたり部であり、図において記号△で示される位置)の間隔が一定になるように決定するのが一般的である。最も簡単な方法としては、子音の継続時間長は子音の種類により一定とし、母音の継続時間長で基準点間隔を一定に保つ方法がとられる。
【0007】
続いて上記のようにして得られる「読み」に従って、音韻パラメータ生成処理部16が音声素片メモリ15から必要な音声素片を読み出し、読み出した音声素片を「音韻の継続時間長」に従って時間軸方向に伸縮させながら接続して、合成すべき音声の特徴パラメータ系列を生成する。
【0008】
ここで音声素片メモリ15には、予め作成された多数の音声素片が格納されている。音声素片は、アナウンサ等が発声した音声を分析して所定の音声の特徴パラメータを得た後、所定の合成単位例えば日本語の音節(子音十母音:以下、CVと称する)単位で、日本語の音声に含まれる全ての音節を上記特徴パラメータから切り出すことにより作成される。
【0009】
ここではパラメータとして低次ケプストラム係数を利用している。低次ケプストラム係数は次のようにして求めることができる。まず、アナウンサ等が発声した音声データに、一定幅、一定周期で窓関数(ここではハニング窓)をかけ、各窓内の音声波形に対してフーリエ変換を行い音声の短時間スペクトルを計算する。次に、得られた短時間スペクトルのパワーを対数化して対数パワースペクトルを得た後、対数パワースペクトルを逆フーリエ変換する。こうして計算されるのがケプストラム係数である。そして一般に、高次のケプストラム係数は音声の基本周波数情報を、低次のケプストラム係数は音声のスペクトル包絡情報を保持していることが知られている。
【0010】
音声合成部13では更に、ピッチパターン生成処理部17が上記アクセント型をもとにピッチの高低変化が生じる時点にて点ピッチを設定し、複数設定された点ピッチ間を直線補間してピッチのアクセント成分を生成し、これにイントネーション成分(通常は周波数−時間軸上での単調減少直線)を重畳してピッチパターンを生成する。そして有声区間ではピッチパターンに基づいた周期パルスを、無声区間ではランダムノイズをそれぞれ音源として、一方音声の特徴パラメー夕系列からフィルタ係数を算出し、合成フィルタ処理部18に与えて所望の音声を合成する。ここでは、合成フィルタ処理部18に、ケプストラム係数を直接フィルタ係数とするLMA(Log Magnitude Approximation )フィルタ(対数振幅近似フィルタ)を合成フィルタとして用いている。
【0011】
ここまでの処理はディジタル処理によって行われるのが一般的で、したがって合成された音声は離散信号であるから、音声合成部13では最後に、この離散波形をD/A(ディジタル/アナログ)変換器19に供給し、離散信号を電気的なアナログ信号に変換する。こうして得られたアナログ信号でスピーカー等を駆動することにより聴覚で知覚できる音声が合成できる。
【0012】
【発明が解決しようとする課題】
上記した規則合成装置に代表される従来の音声合成装置では、その音声合成装置で生成される音声には次のような問題があった。
まず、従来の音声合成装置では、音声合成部において、読みに含まれる各音韻の継続時間長を決定する際、上述したように、日本語の音節の等時性に基づき、各音節の基準点の間隔を一定になるように決定している。しかしながら、人間が音声を発声するときには、言葉の発音(調音)を司る顎、唇、舌などの調音器官の物理的な制約によって、等時性を維持するのは難しい。そのため、実際には、音韻の種類やその前後の音韻の影響を受けて、等時性は乱されてしまうが、逆にそれが音声に人間らしさや発声者の個性を与えている。
【0013】
したがって、従来の音声合成装置における日本語の音節の等時性のみに基づく音韻継続時間長の決定手法では、このような調音器官の物理的な制約が考慮されていないがために、音節の時間的な配置が一定間隔になり過ぎてしまい、合成音声の人間らしさが損なわれてしまうという欠点があった。
【0014】
本発明は上記事情を考慮してなされたものでその目的は、調音器官の物理的な制約を考慮して音韻継続時間長を決定することで、合成音声をより人間らしい自然なものにし、聞き取りやすく長時間聞いていても疲れない音声を合成可能な音声合成装置及び音声合成方法を提供することにある。
【0015】
本発明の他の目的は、音声合成時に、合成音声に合わせて滑らかに口が動く動画像を合成することができ、簡単にアニメーションなどを作成することが可能な音声合成装置及び音声合成方法を提供することにある。
【0016】
【課題を解決するための手段】
本発明は、音声合成の対象となる第1の音韻情報に含まれる個々の音韻とその音韻環境から異音レベルの第2の音韻情報を変換・生成し、この第2の音韻情報に基づいて、調音器官の動きをモデル化した調音モデルの状態を時間軸方向に変化させ、上記調音モデルの状態変化をもとに上記第2の音韻情報に含まれる個々の音韻の継続時間長を決定すると共に、上記第1または第2の音韻情報に基づいて音声素片を選択し、上記決定した音韻の継続時間長に基づいて上記選択した音声素片を接続することによって音声を合成することを特徴とする。
【0017】
本発明においては、調音モデルを用い、当該調音モデルの制御結果に基づいて音韻の継続時間長を求めることで、人間が音声を発声した際の調音器官の物理的な制約を音韻継続時間長に反映することができるので、より人間らしく自然で、聞き取りやすい音声を合成することが可能となる。特に本発明においては、異音レベルの音韻情報(第2の音韻情報)に基づいて調音モデルの状態を時間軸方向に変化させることから、当該調音モデルの動きがより人間の調音器官に近いものとなるので、より一層人間らしく、聞き取りやすく音声を合成できる。
【0018】
また本発明は、実音声をもとに作成された調音モデルを制御するための音韻別の調音モデルパラメータからなる調音モデルパラメータセットを保持しておき、音声合成の際には、上記調音モデルパラメータに基づいて調音モデルを制御することを特徴とする。
【0019】
本発明においては、人が実際に発声した音声(実音声)をもとに作成された調音モデルパラメータを用いて、調音モデルが制御されるため、より人間らしい合成音声とすることができ、更に当該パラメータの作成に用いられた音声を発声した話者の口調を真似ることが可能となる。
【0020】
ここで、異なる話者の音声をもとに作成された複数の調音モデルパラメータセットを保持し、音声合成の際、上記複数セットの調音モデルパラメータの中から1つの調音モデルパラメータのセットを選択し、この選択した調音モデルパラメータのセットに基づいて調音モデルを制御するならば、合成音声の口調を種々変えることができる。
【0021】
また、上記調音モデルパラメータとして、実音声をもとに取得される音韻情報と音韻境界の情報が格納された音声データベースを用いて最適化されたものを適用するならば、より一層人間らしい合成音声とすることができる。ここで、調音モデルパラメータを最適化するには、音声データベースから音韻情報と音韻境界の情報を取り出して、両情報をもとに隣り合う音韻境界位置(時間)の差分をとることによって、各音韻の実音声における継続時間長を求めると共に、音声データベース内の音韻情報をもとに、上記した継続時間長の決定手法を適用して、その時点において求められている調音モデルパラメータを用いて調音モデルを制御することで、個々の音韻の継続時間長を推定し、実音声の音韻継続時間長と、推定した音韻継続時間長とを比較して、継続時間長の推定誤差を計算し、その推定誤差が小さくなるように、音韻別の調音モデルパラメータの値を変更するフィードバック制御を繰り返し実行すればよい。
【0022】
また本発明は、音声を合成すると同時に、調音モデルの時間的変化に基づいて口の動画像を合成することを特徴とする。
本発明においては、調音モデルの各調音器官の動きをもとに口の動画像が合成されることから、音声合成時に、合成音声に合わせて滑らかに口が動く動画像を合成することができ、簡単にアニメーションなどを作成することが可能となる。
【0023】
また本発明は、上記調音モデルに、顎、唇、及び舌の各調音器官の動きをモデル化した調音モデルを適用するようにしたことを特徴とする。ここで、調音モデルで示される調音器官の動きを、臨界制動2次線形系のステップ応答関数で表すとよい。
【0024】
このような調音モデルでは、モデルが簡素化されるため演算量が少なくて済む。
また、調音モデルパラメータとして、音韻別に、その音韻が発声されていると認められる調音器官の状態である許容範囲を割り当て、この許容範囲をもとに、音韻間の境界を決定して音韻の継続時間長を求めるならば、人間が通常に発声する際の顎、唇、及び舌の各調音器官の比較的あいまいな動きが反映されるので、より一層人間らしく自然で、聞き取りやすく長時間聞いていても疲れない音声を合成することが可能となる。許容範囲に基づく音韻間の境界の決定方法としては、例えば、いずれかの調音器官の状態が最初に音韻(当該音韻)の対応する許容範囲を抜けた時点(tout )と全ての調音器官の状態が後の音韻(後続音韻)の対応する許容範囲に入った時点とで挟まれた区間の中間時点とする方法が適用可能(当該音韻と後続音韻が共に母音の場合)である。この他、いずれかの調音器官の状態が最初に当該音韻の対応する許容範囲を抜けた時点(tout )を音韻間の境界とするとか(当該音韻が子音の場合)、全ての調音器官の状態が後続音韻の対応する許容範囲に入った時点(tin)を音韻間の境界とする(当該音韻が母音で後続音韻が子音の場合)ことも可能である。
【0025】
【発明の実施の形態】
以下、本発明の実施の形態につき図面を参照して説明する。
図1は本発明の一実施形態に係る音声の規則合成装置の概略構成を示すブロック図である。この音声規則合成装置(以下、音声合成装置と称する)は、例えばパーソナルコンピュータ等の情報処理装置上で、CD−ROM、フロッピーディスク、メモリカード等の記録媒体、或いはネットワーク等の通信媒体により供給される専用のソフトウェア(文音声変換ソフトウェア)を実行することにより実現されるもので、文音声変換(TTS)処理機能、即ちテキストから音声を生成する文音声変換処理(文音声合成処理)機能を有しており、その機能構成は、大別して言語処理部101、音声合成部102とに分けられる。
【0026】
言語処理部101は、入力文、例えば漢字かな混じり文を解析して読み情報とアクセント情報を生成する処理と、これら情報に基づき音韻記号系列及びアクセント情報が記述された音声記号列を生成する処理を司る。
【0027】
音声合成部102は、言語処理部101の出力である音声記号列をもとに音声を生成する処理を司る。
さて、図1の音声合成装置において、文音声変換(読み上げ)の対象となるテキスト(ここでは日本語文書)はテキストファイル103として保存されている。本装置では、文音声変換ソフトウェアに従い、当該ファイル103から漢字かな混じり文をl文ずつ読み出して、言語処理部101及び音声合成部102により以下に述べる文音声変換処理を行い、音声を合成する。
【0028】
まず、テキストファイル103から読み出された漢字かな混じり文(入力文)は、言語処理部101内の言語解析処理部104に入力される。
言語解析処理部104は、入力される漢字かな混じり文に対して形態素解析を行い、読み情報とアクセント情報を生成する。形態素解析とは、与えられた文の中で、どの文字列が語句を構成しているか、そしてその語の構造がどのようなものかを解析する作業である。
【0029】
そのために、言語解析処理部104は、文の最小構成要素である「形態素」を見出し語に持つ形態素辞書105と形態素間の接続規則が登録されている接続規則ファイル106を利用する。即ち言語解析処理部104は、入力文と形態素辞書105とを照合することで得られる全ての形態素系列候補を求め、その中から、接続規則ファイル106を参照して文法的に前後に接続できる組み合わせを出力する。形態素辞書105には、解析時に用いられる文法情報と共に、形態素の読み並びにアクセントの型が登録されている。このため、形態素解析により形態素が定まれば、同時に読みとアクセント型も与えることができる。
【0030】
例えば、「公園へ行って本を読みます」という文に対して形態素解析を行うと、
/公園/へ/行って/本/を/読み/ます/。
と形態素に分割される。
【0031】
各形態素に読みとアクセント型が与えられ、
/コウエン/エ/イッテ/ホ^ン/ヲ/ヨミ/マ^ス/
となる。ここで「^」の入っている形態素は、その直前の音節でピッチが高く、その直後の音節ではピッチが落ちるアクセントであることを意床する。また「^」がない場合は、平板型のアクセントであることを意味する。
【0032】
ところで、人間が文章を読むときには、このような形態素単位でアクセントを付けて読むことはせず、幾つかの形態素をひとまとめにして、そのまとまり毎にアクセントを付けて読んでいる。
【0033】
そこで、このようなことを考慮して、言語解析処理部104では更に、1つのアクセント句(アクセントを与える単位)で形態素をまとめると同時に、まとめたことによるアクセントの移動も推定する。これに加えて言語解析処理部104は、母音の無声化や読み上げの際のポーズ(息継ぎ)等の情報も付加する。これにより、上記の例では、最終的に次のような音声記号列が生成される。
【0034】
/コーエンエ/イッテ./ホ^ンオ/ヨミマ^(ス)/
ここで、ピリオド「.」はポーズを、「( )」は母音が無声化した音節であることを表わす。
【0035】
さて、上記のようにして言語処理部101内の言語解析処理部104により音声記号列が生成されると、音声合成部102内の音韻継続時間長計算処理部107が起動される。
【0036】
音韻継続時間長計算処理部107は、言語解析処理部104で生成した音声記号列中の音韻情報に従って、入力文に含まれる各音節の子音部並びに母音部の継続時間長(単位は例えばms)を決定する。この音韻継続時間長処理部107での継続時間長の決定処理の概略は以下の通りである。
【0037】
既に述べたように、人間の音声の生成過程において、調音器官の動きの物理的制約が音韻継続時間に影響を及ぼす。日本語音声においては、この調音器官の制約が、拍の等時性という日本語特有の時間構造の特徴を乱す原因となっている。しかしながら、実際には等時性は乱されているが、逆にそれが音声に人間らしさを与えているのである。
【0038】
そこで、複数の調音器官の状態をパラメータとして1つの調音モデルを考え、合成すべき音韻列に従ってモデルを制御し、その制御結果に基づいて音韻継続時間長を決定する。
【0039】
調音モデルに関しては、古くは藤村−Coker の調音モデルなど、様々なモデルが提案されている。しかし、近年のこれらのモデルの多くは、調音器官の動きと音声の音響的な性質との関連付けを目的としており、調音器官の制御機構をシミュレートし、声道の音響特性を近似するために、モデルの構造や制御が複雑である。
【0040】
音韻継続時間長を決定するために必要となるモデルは、調音器官の物理的制約による音韻継続時間長への影響が表現できればよいから、単純なモデルで十分である。
【0041】
そこで本実施形態では、実際の発話においてその動きに物理的制約を受けやすいと思われる4つの調音器官を選択し、これらによって音韻継続時間制御のための調音モデルを構成する。選択した調音器官は、図3に示した顎の開き(J)、唇の丸め(L)、前舌の位置(FT)、後舌の位置(BT)である。
【0042】
調音器官の動きを模擬するために、異なる調音様式で発音される音韻、即ち異音は全て区別する。例えば、撥音「ん」には、図4に示すように、後続する音韻によって幾つかの異なる調音様式を持つ。
【0043】
そこで、図4に示したような音韻の細分化を行い、日本語音声に関しては、母音については無声化母音、鼻母音までを、子音は口蓋化子音までの分類を行う。前述の「公園へ行って本を読みます」という文の入力例に従えば、言語処理部101内の言語解析処理部104から入力される音声記号列に含まれる音韻系列のそれぞれの音韻は、まず図5(a)に示すような系列(第1の音韻情報)で表される。この図5(a)において、/:/は調音を、/N/は撥音、/Q/は促音を表す。
【0044】
更に、それぞれの音韻は、その音韻環境から、音韻継続時間長計算処理部107(内の調音モデル時間変化決定処理部107b)により、上記した詳細分類の音韻系列、つまり異音レベルの音韻系列(第2の音韻情報)に図5(b)のように変換される。なお、この異音レベルの音韻系列への変換は、音韻継続時間長計算処理部107側でなく、言語処理部101側(例えば言語解析処理部104)で行われるものであっても構わない。
【0045】
本実施形態において、個々の音韻phには、各調音器官k(kは、J,L,FT,BT)毎の固有状態Ainh(k,ph) と調音器官kの範囲(以下、許容範囲と称する)の上限Amax(k,ph) 及び下限Amin(k,ph) との3×4(=12)個と、その音韻phの最小継続時間長Dmin(ph) の計13個の調音モデルのパラメータが割り当てられる。
【0046】
1つの音韻phを考えた場合、その音韻を発声するのに代表的な調音モデルの各調音器官kの状態が固有状態Ainh(k,ph) である。一方、この音韻が発声されていると認められる調音器官の状態は、固有状態における1点ではなく、ある程度の許容範囲がある。そこで、各調音器官kのその音韻の調音として許容できる範囲を、上記のようにAmax(k,ph) 及びAmin(k,ph) で表す。なお本実施形態では、Ainh(k,ph) ,Amax(k,ph) ,Amin(k,ph) は、調音器官の可動範囲を0〜1として正規化されている。例えば、音韻[i]に対するパラメータ値は図6のようになっている。
【0047】
個々の調音器官kの動きを表す時系列M(k,t)は、合成すべき音韻系列をもとに次式(1)によって計算される。
M(k,t)=Ainh(k,ph1)+ΣRi(k,t) ……(1)
ここで、ΣRi(k,t) は、音韻系列の音韻数をi=1〜i=NのN個であるとすると、Ri(k,t) のi=1〜i=N−1までの総和である。
【0048】
またRi(k,t) は、モデルをi番目の当該音韻phi から後続音韻phi+1 (i+1番目の音韻)へ移行させる開始時点をti とすると、t<ti の範囲では
Ri(k,t) =0
で表され、t≧ti の範囲では
Ri(k,t) ={Ainh(k,phi+1)−Ainh(k,phi)}S(t−ti )
で表される。
【0049】
また、S(t)には、臨界制動2次線形系のステップ応答、即ち
S(t)=1−(1+at)e-at ……(2)
を用い近似する。ここで、aは調音器官kの固有角周波数αk を表す。固有角周波数は調音器官によって異なり、動きの速い調音器官ほど大きな値をとる。
【0050】
上記ti は、日本語の音声合成においては、次のようにして決まる。
まず、先行するi−1番目の音韻phi-1 から上記式に基づいて各調音器官を動かすことにより調音モデルをi番目の当該音韻phi へ移行させる際、全ての調音器官(J,L,FT,BT)が当該音韻phi のそれぞれの許容範囲(調音許容範囲)に入る時点を求め、更に、当該音韻phi の最小継続時間長Dmin(phi)だけ進めた(加算した)時点を求める。当該音韻phi が子音の場合には、この時点を後続音韻phi+1 へのモデルの移行開始時点ti とし、当該音韻phi が母音の場合には、この時点と次に述べる拍同期時点とを比較し大きい方をti とする。拍同期時点は、日本語の等時性に基づいて与えられる時間軸上の等間隔の点である。この拍同期時点の間隔Tを調節することで、合成音声の発話速度を変化させることができる。この規則に基づいて制御された各調音器官J,L,FT,BT(の動きをモデル化した調音モデルの状態)の時間変化の例を図7に示す。このように、調音器官の動きが時間軸に対する連続量として表わされる。
【0051】
こうして音韻継続時間長計算処理部107で計算された各調音器官の時系列パターンから、当該音韻継続時間長計算処理部107は音韻継続時間長を決定する。調音モデルが当該音韻から後続音韻へ遷移する場合、初めの状態では、全ての調音器官は当該音韻の調音許容範囲内にあるが、調音モデルの状態が変化すると、調音器官のうちの1つが時点tout にてその許容範囲を抜け出る。そしてモデルの状態遷移が進むと、ある時点tinにおいて全ての調音器官が後続音韻の調音許容範囲に入る。これは、t<tout では全ての調音器官は当該音韻の調音許容範囲にあり、t≧tinでは全ての調音器官は後続音韻の調音許容範囲内にあることを意味する。
【0052】
ここでは、当該音韻が子音の場合、つまり当該音韻が子音で後続音韻が母音の場合には、tout を当該音韻と後続音韻の境界(子音−母音間の音韻境界)とし、当該音韻が母音で後続音韻が子音の場合には、tinを当該音韻と後続音韻の境界(母音−子音間の音韻境界)とする。また、当該音韻及び後続音韻が共に母音の場合には、(tout +tin)/2なる時点を当該音韻と後続音韻の境界(母音−母音間の音韻境界)とする。つまり、子音−母音間の境界は、いずれかの調音器官が最初に子音(当該音韻)の調音許容範囲を抜け出た時点とし、母音−子音間の境界は、全ての調音器官が子音(後続音韻)の調音許容範囲に入った時点とする。また、母音−母音間の境界は、いずれかの調音器官が最初に当該音韻の調音許容範囲を抜け出た時点と、全ての調音器官が後続音韻の許容範囲に入った時点とで挟まれた区間の中間時点とする。
【0053】
以上の手順で全ての音韻境界を決定し、隣り合う境界の時間差から、それぞれの音韻の長さ(音韻継続時間長)を決定する。
このようにして、与えられた音韻系列に含まれる全ての音韻の時間的な長さ、即ち音韻継続時間長が決定される。
【0054】
ところで、上記のようにして調音モデルを制御するためには、音韻ph毎に割り当てられた各調音器官kの固有状態Ainh(k,ph) 、その許容範囲Amax(k,ph) 及びAmin(k,ph) と、最小継続時間長Dmin(ph) と、上記(2)式の調音器官k毎に決まる固有角周波数a(=αk )を適切に設定する必要がある。そのため本実施形態では、実際に人間が発生した大量の音量データを用いて最適化(学習)することにより、予めこれらの値を設定するようにしている。
【0055】
この個々の音韻の調音モデルの各パラメータ値を大量の音声データを用いて最適化する方法について、図8を参照して説明する。
図8において、音声データベース130には、人間が発声した音声をディジタル化してファイルにしたもので、音声の内容を示す(音韻情報としての)音韻ラベルと音韻境界の情報が一緒に収められている。
【0056】
実音声音韻継続時間計算処理部131は、音声データベース130より音韻ラベルと音韻境界位置(時点)の情報を取り出し、隣り合う音韻境界位置(時点)の差分をとることによって、各音韻の実音声における継続時間長を計算する。
【0057】
音韻継続時間長推定処理部132は前記した図1中の音韻継続時間長計算処理部107で適用する手法と同一手法による処理を行うもので、音声データベース130に含まれる音韻ラベル系列を入力として、音韻の継続時間長を推定する。
【0058】
時間長比較部133は、実音声音韻継続時間計算処理部131により求められた実音声の音韻継続時間長と、音韻継続時間長推定処理部132により推定された音韻継続時間長とを比較して、継続時間長の推定誤差を計算する。本実施形態では、この推定誤差として、音声データベース130に含まれる全音韻の2乗誤差の和を全音韻数で割った平均2乗誤差を採用している。
【0059】
パラメータ変更部134は、時間長比較部133により求められた継続時間長の推定誤差が小さくなるように、音韻別調音モデルパラメータメモリ135の内容である、各音韻毎の調音モデルパラメータの値を変更する。
【0060】
このようなフィードバック制御を繰り返すことにより、継続時間長の推定誤差を最小化する音韻別の調音モデルパラメータセットを、音韻別調音モデルパラメータメモリ135内に得ることができる。
【0061】
以上のようにして、音韻別調音モデルパラメータメモリ135内に、調音モデル制御のためのパラメータ値を得ると、合成される音声は、音声データベース130に収録された話者の口調に非常に近いものとなることがわかる。
【0062】
本実施形態では、異なる話者の音声より作成した2種類の音声データファイルから、上記の手法により、2セットの調音モデル制御のためのパラメータを求めるようにしている。即ち、音声データベース130に収録される(音韻ラベルと音韻境界の情報を含む)音声データファイルとして、第1の話者の音声により作成した第1の音声データファイルと、第2の話者の音声により作成した第2の音声データファイルの2種類用意し、当該音声データファイルを切り替えて上記の手法を適用することで、その都度音韻別調音モデルパラメータメモリ135に、その話者の口調に対応した調音モデルパラメータセットを求めるようにしている。
【0063】
このようにして求められた第1及び第2の話者にそれぞれ対応した調音モデルパラメータセットの一方は図1中の音韻別調音モデルパラメータメモリ107aに、他方は同じく図1中のもう一つの音韻別調音モデルパラメータメモリ107a′に格納されて使用される。本実施形態では、このメモリ107a,107′のいずれか一方を、ユーザ指定等によって決定されるシステムの内部状態に基づいて切り替え使用することで、合成音声の口調を切り替えることができるようになっている。
【0064】
次に、音韻継続時間長計算処理部107での動作の詳細を、図9乃至図11のフローチャートを参照して説明する。
まず音韻継続時間長計算処理部107は、上記した音韻別調音モデルパラメータメモリ107a,107a′の他に、調音モデル時間変化決定処理を行う調音モデル時間変化決定処理部107bと、当該処理部107bの処理結果をもとに音韻境界決定処理を行う音韻境界決定処理部107cとから構成される。
【0065】
本実施形態では、上記の手法で求められた異なる話者に対応する2種類の音韻別調音モデルパラメータファイル(図示せず)、つまり音韻別に割り当てられる各調音器官J,L,FT,BTの調音モデルのパラメータが蓄積された2種類の音韻別調音モデルパラメータファイルが用意されており、文音声ソフトウェアに従う文音声変換処理の開始時に、一方のファイルの内容が上記音韻別調音モデルパラメータメモリ107aに、他方のファイルの内容が音韻別調音モデルパラメータメモリ107a′に読み込まれるようになっている。このメモリ107a,107a′は、例えばメインメモリ(図示せず)に確保された特定領域である。
【0066】
言語処理部101内の言語解析処理部104により読み情報が生成されて、音声合成部102内の音韻継続時間長計算処理部107が起動されると、当該処理部107内の調音モデル時間変化決定処理部107bは、読み情報に含まれている合成すべき音韻列(音韻数をNとする)中の音韻位置を示す変数iを先頭の音韻を示す1に、時点tを0に、拍同期時点を示す変数tsyncを(例えばユーザの指定する発話速度で決まる値)Tに、全ての調音器官J,L,FT,BTがi番目の音韻のそれぞれの調音許容範囲に入る時点を示す変数tin(i) (=tin(1) )を0に初期設定する(ステップS1)。
【0067】
次に調音モデル時間変化決定処理部107bは、時点tをi番目の音韻の最小継続時間長(Dmin(phi))だけ進めた値に更新する(ステップS2)。この最小継続時間長(Dmin(phi))は、i番目の音韻を用いて音韻別調音モデルパラメータメモリ107aまたは107a′を参照することで取得できる。
【0068】
次に調音モデル時間変化決定処理部107bは、i番目の音韻が子音であるか否かをチェックし(ステップS3)、母音であれば、時点tと拍同期時点tsyncとを比較する(ステップS4)。
【0069】
もし、時点tが拍同期時点tsyncを越えていないならば、時点tを拍同期時点tsyncに更新した後(ステップS5)、拍同期時点tsyncをTだけ進める(ステップS6)。これに対し、時点tが拍同期時点tsyncを越えているならば、時点tを更新することなくステップS6に進み、拍同期時点tsyncをTだけ進める。そして調音モデル時間変化決定処理部107bは、ステップS6の後、現在の時点tの値を前記移行開始時点ti (即ち、モデルをi番目の音韻から後続音韻へ移行させる開始時点)として決定する(ステップS7)。
【0070】
一方、i番目の音韻が子音であるならば、そのままステップS7に進んで、現在の時点tの値を移行開始時点ti として決定する。
調音モデル時間変化決定処理部107bはステップS7を実行すると、時点tにおける各調音器官J,L,FT,BTの位置(動き)を表すMJ (=M(J,t)),ML (=M(L,t)),MFT(=M(FT,t)),MBT(=M(BT,t))を、上記(1)式により算出する(ステップS8)。
【0071】
次に調音モデル時間変化決定処理部107bは、時点tにおける調音器官J,L,FT,BTの位置(MJ ,ML ,MFT,MBT)がi番目の音韻のそれぞれの調音許容範囲、即ちAmin(J,phi)〜Amax(J,phi)、Amin(L,phi)〜Amax(L,phi)、Amin(FT,phi)〜Amax(FT,phi)、Amin(BT,phi)〜Amax(BT,phi)に全て入っているか否かをチェックする(ステップS9)。
【0072】
もし、時点tにおける調音器官J,L,FT,BTの位置(MJ ,ML ,MFT,MBT)がi番目の音韻のそれぞれの調音許容範囲に全て収まっているならば、調音モデル時間変化決定処理部107bは、時点tを所定の微小時間δ(例えば5ms)だけ進めた後(ステップ10)、ステップS8に戻って、その新たな時点tでの各調音器官J,L,FT,BTの位置MJ ,ML ,MFT,MBTを算出し、再びステップS9の判定を行う。
【0073】
調音モデル時間変化決定処理部107bは、以上の動作を、調音器官J,L,FT,BTの位置の少なくとも1つが、i番目の音韻の対応する調音許容範囲から外れるのを検出するまで繰り返す。
【0074】
このようにして、時点tにおける調音器官J,L,FT,BTの位置のいずれかがi番目の音韻の対応する調音許容範囲から外れたならば、調音モデル時間変化決定処理部107bは、その時点tを、調音器官J,L,FT,BTの位置の少なくとも1つがi番目の音韻の調音許容範囲から出る時点tout(i)であると決定し、図示せぬメモリに保持する(ステップS11)。
【0075】
次に時間変化決定処理部107bは、時点tにおけるステップS8と同じ処理を行う(ステップS12)。但し、この例のようにステップS11が行われた直後では、各調音器官J,L,FT,BTの位置を表すMJ ,ML ,MFT,MBTの値は、当該ステップS11の直前に行われたステップS8でのMJ ,ML ,MFT,MBTの算出結果と一致することから、当該ステップS11が行われた直後の上記ステップS12はスルーしても構わない。
【0076】
次に時間変化決定処理部107bは、時点tにおける調音器官J,L,FT,BTの位置が次のi+1番目の音韻のそれぞれの調音許容範囲、即ちAmin(J,phi+1)〜Amax(J,phi+1)、Amin(L,phi+1)〜Amax(L,phi+1)、Amin(FT,phi+1)〜Amax(FT,phi+1)、Amin(BT,phi+1)〜Amax(BT,phi+1)に全て入っているか否かをチェックする(ステップS13)。
【0077】
もし、時点tにおける調音器官J,L,FT,BTの位置のいずれか1つでもi+1番目の音韻の対応する調音許容範囲から外れているならば、調音モデル時間変化決定処理部107bは、時点tを所定の微小時間δだけ進めた後(ステップS14)、ステップS12に戻って、その新たな時点tでの各調音器官J,L,FT,BTの位置を表すMJ ,ML ,MFT,MBTを算出し、再びステップS13の判定を行う。
【0078】
調音モデル時間変化決定処理部107bは、以上の動作を、全ての調音器官J,L,FT,BTの位置が、i+1番目の音韻の対応する調音許容範囲に入るのを検出するまで繰り返す。
【0079】
このようにして、時点tにおける調音器官J,L,FT,BTの位置の全てがi+1番目の音韻の対応する調音許容範囲に入ったならば、調音モデル時間変化決定処理部107bは、その時点tを、全ての調音器官J,L,FT,BTの位置がi+1番目の音韻(次の音韻)の調音許容範囲に入る(移行する)時点tin(i+1) であると決定し、図示せぬメモリに保持する(ステップS15)。
【0080】
次に調音モデル時間変化決定処理部107bは、N−1番目の音韻(N個の音韻からなる音韻列中の最後から2番目の音韻)まで処理が進んだか否かを、現在のiの値がN−1であるか否かによりチェックする(ステップS16)。
【0081】
もし、現在のiの値がN−1でないならば、調音モデル時間変化決定処理部107bはiの値をインクリメント(+1)した後(ステップS17)、即ちiの値を音韻列中の次の音韻を指すように更新した後、上記ステップS2に戻る。
【0082】
このようにして調音モデル時間変化決定処理部107bは、ステップS2以降の処理をi=1〜i=N−1まで繰り返し、tin(i) の列(i=1,2,3,…,N)、即ちtin(1) ,tin(2) ,tin(3) ,…,tin(N) と、tout(i) の列(i=1,2,3,…,N−1)、即ちtout(1),tout(2),tout(3),…,tout(N-1)とを求める。
【0083】
すると、調音モデル時間変化決定処理部107bから同じ音韻継続時間長計算処理部107内の音韻境界決定処理部107cに制御が渡される。
音韻境界決定処理部107cはまず、合成すべき音韻列中の音韻位置を示す変数iを先頭の音韻を示す1に、i番目の音韻の先行音韻との音韻境界を示す変数Bi 、即ちB1 を、tin(i) 、即ちtin(1) に初期設定する(ステップS21)。
【0084】
次に音韻境界決定処理部107cは、i番目の音韻が子音であるか或いは母音であるかをチェックし(ステップS22)、母音であれば、次のi+1番目の音韻が子音であるか否かをチェックする(ステップS23)。
【0085】
もし、i番目の音韻が母音で、次のi+1番目の音韻が子音であるならば、音韻境界決定処理部107cは、i+1番目の音韻の先行音韻との音韻境界を示す変数Bi+1 にtin(i+1) を設定し(ステップS24)、i番目の音韻が母音で、次のi+1番目の音韻も母音であるならば、音韻境界決定処理部107cは、tout(i)とtin(i+1) の中間時点(tout(i)+tin(i+1) )/2をBi+1 に設定する(ステップS25)。
【0086】
これに対し、i番目の音韻が子音であるならば(この場合、子音−子音の組み合わせは存在しないから、次のi+1番目の音韻は母音となる)、音韻境界決定処理部107cはtout(i)をBi+1 に設定する(ステップS26)。
【0087】
音韻境界決定処理部107cは、上記ステップS24,S25またはS26によりBi+1 の値を決定すると、Bi+1 とBi との差、即ちi+1番目の音韻の先行音韻(i番目の音韻)との音韻境界Bi+1 と、i番目の音韻の先行音韻(i−1番目の音韻)との音韻境界Bi との時間差を求めて、i番目の音韻の継続時間長Di を決定する(ステップS27)。1回目のステップS27では、1番目の音韻の継続時間長D1 がB2 −B1 の演算により求められる。
【0088】
次に音韻境界決定処理部107cは、N−1番目の音韻まで処理が進んだか否かを、現在のiの値がN−1であるか否かによりチェックする(ステップS28)。
【0089】
もし、現在のiの値がN−1でないならば、音韻境界決定処理部107cはiの値をインクリメント(+1)した後(ステップS29)、上記ステップS22に戻る。
【0090】
このようにして音韻境界決定処理部107cは、ステップS22以降の処理をi=1〜i=N−1まで繰り返し、Di の列(i=1,2,3,…,N−1)、即ちD1 ,D2 ,D3 ,…,DN-1 を求める。
【0091】
次に音韻境界決定処理部107cは、N番目の音韻、即ち音韻系列中の最後の音韻(=母音)の継続時間長DN を次の演算
DN =tin(i+1) −Bi+1 +DFO ……(3)
により求める(ステップS30)。ここでDFOは、母音のフェードアウト時間である。
【0092】
これにより音韻境界決定処理部107c(を備えた音韻継続時間長計算処理部107)は、音韻系列に含まれるN個の音韻の継続時間長D1 ,D2 ,D3 ,…,DN を求めたことになる。
【0093】
さて、以上のようにして音声合成部102内の音韻継続時間長計算処理部107により入力文(入力テキスト)に含まれる各音節の(子音部並びに母音部の)継続時間長が決定されると、同じ音声合成部102内のピッチパターン生成処理部109が起動される。
【0094】
ピッチパターン生成処理部109は音韻継続時間長計算処理部107により決定された継続時間長(の系列)と、言語解析処理部104により決定されたアクセント情報に基づいて、まず点ピッチ位置を設定する。次に、設定された複数の点ピッチを直線で補間して例えば10ms毎のピッチパターンを得る。
【0095】
一方、音声合成部102内の音韻パラメータ生成処理部110は、音声記号列の音韻情報をもとに音韻パラメータを生成する処理を、例えぱピッチパターン生成処理部109によるピッチパターン生成処理と並行して次のように行う。
【0096】
まず本実施形態では、サンプリング周波数11025Hzで標本化した実音声を改良ケプストラム法により窓長20ms、フレーム周期10msで分析して得た0次から25次のケプストラム係数を子音+母音(CV)の単位で日本語音声の合成に必要な全音節を切り出した計137個の音声素片が蓄積された音声素片ファイル(図示せず)が用意されている。この音声素片ファイルの内容は、文音声変換ソフトウェアに従う文音声変換処理の開始時に、例えばメインメモリ(図示せず)に確保された音声素片領域(以下、音声素片メモリと称する)111に読み込まれているものとする。
【0097】
音韻パラメータ生成処理部110は、言語解析処理部104から渡される音声記号列中の音韻情報(ここでは第1の音韻情報であるが、第2の音韻情報でも構わない)に従って、上記したCV単位の音声素片を音声素片メモリ111から順次読み出し、読み出した音声素片を接続することにより合成すべき音声の音韻パラメータ(特徴パラメータ)を生成する。
【0098】
ピッチパターン生成処理部109によりピッチパターンが生成され、音韻パラメータ生成処理部110により音韻パラメータが生成されると、音声合成部102内の合成フィルタ処理部112が起動される。この合成フィルタ処理部112は、図2に示すように、ホワイトノイズ発生部118、インパルス発生部119、駆動音源切り替え部120、及びLMAフィルタ121から構成されており、上記生成されたピッチパターンと音韻パラメータから、次のようにして音声を合成する。
【0099】
まず、音声の有声部(V)では、駆動音源切り替え部120によりインパルス発生部119側に切り替えられる。インパルス発生部119は、ピッチパターン生成処理部109により生成されたピッチパターンに応じた間隔のインパルスを発生し、このインパルスを音源としてLMAフィルタ121を駆動する。一方、音声の無声部(U)では、駆動音源切り替え部120によりホワイトノイズ発生部118側に切り替えられる。ホワイトノイズ発生部118はホワイトノイズを発生し、このホワイトノイズを音源としてLMAフィルタ121を駆動する。
【0100】
LMAフィルタ121は音声のケプストラムを直接フィルタ係数とするものである。本実施形態において音韻パラメータ生成処理部110により生成された音韻パラメータは前記したようにケプストラムであることから、この音韻パラメータがLMAフィルタ121のフィルタ係数となり、駆動音源切り替え部120により切り替えられる音源によって駆動されることで、合成音声を出力する。
【0101】
合成フィルタ処理部112(内のLMAフィルタ121)により合成された音声は離散音声信号であり、D/A変換器113によりアナログ信号に変換し、アンプ114を通してスピーカ115に出力することで、初めて音として聞くことができる。
【0102】
さて本実施形態では、以上に述べた音声の合成だけでなく、顔画像(動画)の合成も行うようになっている。以下、顔画像の合成について説明する。
まず、図1中の調音モデル時間変化決定処理部107bは調音モデルを制御する際、各調音器官の状態(位置)を示す情報(MJ ,ML ,MFT,MBT)を顔画像合成処理部116に渡す。
【0103】
顔画像合成処理部116は、調音モデル時間変化決定処理部107bから受け取った各調音器官、即ち顎(J)、唇(L)、前舌(FT)、後舌(BT)の位置(MJ ,ML ,MFT,MBT)を、図12に示すように、顔画像(図12(a))中の口の縦の開き(図12(b))、唇の丸め具合(図12(c))、前舌の高さ(図12(d))、後舌の高さ(図12(e))にそれぞれ対応させ、口の部分の画像を合成し、ディスプレイ117に描画する。
【0104】
ここでは、調音モデル時間変化決定処理部107bから顔画像合成処理部116には、1/30sec 周期で各調音器官の位置情報が送られ、顔画像合成処理部116では、この送られた位置情報に基づいて図12(a)に示す顔画像を合成する。そして、音声と同期をとって、1/30sec 周期でディスプレイ117に顔画像を描画すれば、合成音声に合わせて滑らかに口が動く顔画像を合成することができ、あたかも画像に写し出された人の顔やアニメーションの顔が喋っているようにみせることができる。
【0105】
以上本発明の一実施施形態について説明してきたが、本発明は前記実施形態に限定されるものではない。例えば、前記実施形態では、音声の特徴パラメータとしてケプストラムを使用しているが、LPCやPARCOR、フォルマントなど他のパラメータであっても、本発明は適用可能であり同様な効果が得られる。言語処理部に関しても形態素解析以外に構文解析等が挿入されても全<問題なく、ピッチ生成に関しても、点ピッチによる方法でなくともよく、例えば藤崎モデルを利用した場合でも本発明は適用可能である。
【0106】
また、前記実施形態では、調音モデルパラメータの切り替えにより2種類の口調が合成可能である場合について説明したが、更に様々な人の声からパラメータを作成して3種類以上のパラメータを用意し、それらを切り替えて使用しても構わない。
要するに本発明はその要旨に逸脱しない範囲で種々変形して実施することができる。
【0107】
【発明の効果】
以上詳述したように本発明によれば、異音レベルの音韻情報に基づいて調音モデルの状態を時間軸方向に変化させることにより、当該調音モデルの動きをより人間の調音器官に近いものとすることができ、しかも当該調音モデルの状態変化をもとに上記異音レベルの音韻情報に含まれる個々の音韻の継続時間長を決定することにより、人間が音声を発声した際の調音器官の物理的な制約を音韻継続時間長に反映することができるため、より人間らしく、聞き取りやすい音声を合成できる。
【0108】
また、本発明によれば、音声を合成すると同時に、調音モデルの各調音器官の動きをもとに口の動画像を合成することにより、合成音声に合わせて滑らかに口が動く動画像を合成することができ、簡単にアニメーションなどを作成することができる。
【図面の簡単な説明】
【図1】本発明の一実施形態に係る音声の規則合成装置の概略構成を示すブロック図。
【図2】図1中の合成フィルタ処理部112の構成を示すブロック図。
【図3】同実施形態で適用される調音モデルを構成する4つの調音器官を示す図。
【図4】音韻の細分化について、後続する音韻によって(つまり音韻環境によって)幾つかの異なる調音様式を持つ撥音「ん」の場合を例に示す図。
【図5】「公園へ行って本を読みます」という文を言語処理することで生成される音声記号列に含まれる音韻系列の例を、音韻環境を考慮する前と後について示す図。
【図6】音韻[i]に対する調音モデルのパラメータの一例を示す図。
【図7】4つの調音器官の動きをモデル化した調音モデルの状態の時間変化の例を示す図。
【図8】個々の音韻の調音モデルの各パラメータ値を大量の音声データを用いて最適化する方法を説明するための図。
【図9】音韻継続時間長計算処理部107内の調音モデル時間変化決定処理部107bによる調音モデル時間変化決定処理を説明するためのフローチャートの一部を示す図。
【図10】音韻継続時間長計算処理部107内の調音モデル時間変化決定処理部107bによる調音モデル時間変化決定処理を説明するためのフローチャートの残りを示す図。
【図11】音韻継続時間長計算処理部107内の音韻境界決定処理部107cによる音韻境界と音韻の継続時間長の決定処理を説明するためのフローチャート。
【図12】調音モデルの各調音器官の動きに基づく口の動画像の合成を説明するための図。
【図13】従来の規則合成装置の構成を示すブロック図。
【図14】図13の規則合成装置における従来の音韻の継続時間長決定方法を説明するための図。
【符号の説明】
101…言語処理部
102…音声合成部
104…言語解析処理部
107…音韻継続時間長計算処理部(音韻継続時間長決定手段)
107a,107a′,135…音韻列調音モデルパラメータメモリ(調音モデルパラメータ蓄積手段)
107b…調音モデル時間変化決定処理部
107c…音韻境界決定処理部
109…ピッチパターン生成処理部
110…音韻パラメータ生成処理部
112…合成フィルタ処理部
116…顔画像合成処理部(口画像合成手段)
130…音声データベース
131…実音声音韻継続時間計算処理部
132…音韻継続時間長推定処理部
133…時間長比較部
134…パラメータ変更部

Claims (17)

  1. 音声合成の対象となる第1の音韻情報に含まれる個々の音韻とその音韻環境から異音レベルの第2の音韻情報を変換・生成し、
    各音韻毎に調音器官の動きをモデル化した調音モデルの可動範囲を設定し、
    前記第2の音韻情報に基づいて前記調音モデルの状態を時間軸方向に変化させ、前記第2の音韻情報に含まれる個々の音韻と後続音韻との境界において、当該個々の音韻の前記設定された可動範囲を前記調音モデルの状態が一部でも外れた時刻と、前記調音モデルの全ての状態が後続音韻の前記設定された可動範囲に入った時刻との少なくともいずれか一方に基づいて当該個々の音韻と後続音韻の境界時刻を決定し、当該境界時刻に基づいて当該個々の音韻の継続時間長を決定すると共に、前記第1または第2の音韻情報に基づいて音声素片を選択し、
    前記決定した音韻の継続時間長に基づいて前記選択した音声素片を接続することによって音声を合成することを特徴とする音声合成方法。
  2. 音声合成の対象となる第1の音韻情報に含まれる個々の音韻とその音韻環境から異音レベルの第2の音韻情報を変換・生成する音韻情報変換手段と、
    各音韻毎に調音器官の動きをモデル化した調音モデルの可動範囲を設定保持する手段と、
    前記第2の音韻情報に基づいて前記調音モデルの状態を時間軸方向に変化させ、前記第2の音韻情報に含まれる個々の音韻と後続音韻との境界において、当該個々の音韻の前記設定保持されている可動範囲を前記調音モデルの状態が一部でも外れた時刻と、前記調音モデルの全ての状態が後続音韻の前記設定保持されている可動範囲に入った時刻との少なくともいずれか一方に基づいて当該個々の音韻と後続音韻の境界時刻を決定し、当該境界時刻に基づいて当該個々の音韻の継続時間長を決定する音韻継続時間長決定手段と、
    前記第1または第2の音韻情報に基づいて音声素片を選択し、この選択した音声素片を、前記音韻継続時間長決定手段により決定された音韻の継続時間長に基づいて接続することにより音声を生成する音声生成処理手段とを具備することを特徴とする音声合成装置。
  3. 音声合成の対象となる第1の音韻情報に含まれる個々の音韻とその音韻環境から異音レベルの第2の音韻情報を変換・生成するステップと、
    各音韻毎に調音器官の動きをモデル化した調音モデルの可動範囲を設定するステップと、
    前記第2の音韻情報に基づいて前記調音モデルの状態を時間軸方向に変化させ、前記第2の音韻情報に含まれる個々の音韻と後続音韻との境界において、当該個々の音韻の前記設定された可動範囲を前記調音モデルの状態が一部でも外れた時刻と、前記調音モデルの全ての状態が後続音韻の前記設定された可動範囲に入った時刻との少なくともいずれか一方に基づいて当該個々の音韻と後続音韻の境界時刻を決定し、当該境界時刻に基づいて当該個々の音韻の継続時間長を決定すると共に、前記第1または第2の音韻情報に基づいて音声素片を選択するステップと、
    前記決定した音韻の継続時間長に基づいて前記選択した音声素片を接続することによって音声を合成するステップとを、
    コンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体。
  4. 実音声をもとに作成された前記調音モデルを制御するための音韻別の調音モデルパラメータであって、前記調音モデルの可動範囲を含む調音モデルパラメータからなる調音モデルパラメータセットを保持しておき、
    音声合成の際、前記調音モデルパラメータに基づいて前記調音モデルを制御することを特徴とする請求項1記載の音声合成方法。
  5. 実音声をもとに作成された前記調音モデルを制御するための音韻別の調音モデルパラメータであって、前記調音モデルの可動範囲を含む調音モデルパラメータからなる調音モデルパラメータセットを保持する調音モデルパラメータ蓄積手段を更に具備し、
    前記音韻継続時間長決定手段は、前記調音モデルパラメータ蓄積手段から前記調音モデルパラメータを読み出し、当該読み出したパラメータに基づいて前記調音モデルを制御することを特徴とする請求項2記載の音声合成装置。
  6. 前記調音モデルを制御するための音韻別の調音モデルパラメータであって、前記調音モデルの可動範囲を含む調音モデルパラメータからなり、それぞれ異なる話者の音声をもとに作成された複数の調音モデルパラメータセットを保持しておき、
    音声合成の際、前記複数セットの調音モデルパラメータの中から1つの調音モデルパラメータのセットを選択し、この選択した調音モデルパラメータのセットに基づいて前記調音モデルを制御することを特徴とする請求項1記載の音声合成方法。
  7. 前記調音モデルを制御するための音韻別の調音モデルパラメータであって、前記調音モデルの可動範囲を含む調音モデルパラメータからなり、それぞれ異なる話者の音声をもとに作成された調音モデルパラメータセットを保持する複数の調音モデルパラメータ蓄積手段を更に具備し、
    前記音韻継続時間長決定手段は、前記複数の調音モデルパラメータ蓄積手段の1つを選択し、その選択した前記調音モデルパラメータ蓄積手段から前記調音モデルパラメータを読み出し、当該読み出したパラメータに基づいて前記調音モデルを制御することを特徴とする請求項2記載の音声合成装置。
  8. 前記調音モデルパラメータは、実音声をもとに取得される音韻情報と音韻境界の情報が格納された音声データベースを用いて最適化されたものである請求項4または請求項6記載の音声合成方法。
  9. 前記調音モデルパラメータは、実音声をもとに取得される音韻情報と音韻境界の情報が格納された音声データベースを用いて最適化されたものである請求項5または請求項7記載の音声合成装置。
  10. 各音韻毎に調音器官の動きをモデル化した調音モデルの可動範囲を設定し、
    音声合成の対象となる音韻情報に基づいて前記調音モデルの状態を時間軸方向に変化させ、前記音韻情報に含まれる個々の音韻と後続音韻との境界において、当該個々の音韻の前記設定された可動範囲を前記調音モデルの状態が一部でも外れた時刻と、前記調音モデルの全ての状態が後続音韻の前記設定された可動範囲に入った時刻との少なくともいずれか一方に基づいて当該個々の音韻と後続音韻の境界時刻を決定し、当該境界時刻に基づいて当該個々の音韻の継続時間長を決定すると共に、前記音韻情報に基づいて音声素片を選択し、
    前記決定した音韻の継続時間長に基づいて前記選択した音声素片を接続することによって音声を合成すると同時に、
    前記調音モデルの時間的変化に基づいて口の動画像を合成することを特徴とする音声合成方法。
  11. 各音韻毎に調音器官の動きをモデル化した調音モデルの可動範囲を設定保持する手段と、
    音声合成の対象となる音韻情報に基づいて前記調音モデルの状態を時間軸方向に変化させ、前記音韻情報に含まれる個々の音韻と後続音韻との境界において、当該個々の音韻の前記設定保持されている可動範囲を前記調音モデルの状態が一部でも外れた時刻と、前記調音モデルの全ての状態が後続音韻の前記設定保持されている可動範囲に入った時刻との少なくともいずれか一方に基づいて当該個々の音韻と後続音韻の境界時刻を決定し、当該境界時刻に基づいて当該個々の音韻の継続時間長を決定する音韻継続時間長決定手段と、
    前記音韻情報に基づいて音声素片を選択し、この選択した音声素片を、前記音韻継続時間長決定手段により決定された音韻の継続時間長に基づいて接続することにより音声を生成する音声生成処理手段と、
    前記調音モデルの時間的変化に基づいて口の動画像を合成する口画像合成手段とを具備することを特徴とする音声合成装置。
  12. 前記音声を合成すると同時に、前記調音モデルの時間的変化に基づいて口の動画像を合成することを特徴とする請求項1、請求項4、請求項6または請求項8のいずれかに記載の音声合成方法。
  13. 前記調音モデルの時間的変化に基づいて口の動画像を合成する口画像合成手段を更に具備することを特徴とする請求項2、請求項5、請求項7または請求項9のいずれかに記載の音声合成装置。
  14. 前記調音モデルに、顎、唇、及び舌の各調音器官の動きをモデル化した調音モデルを用いることを特徴とする請求項1、請求項4、請求項6、請求項8、請求項10または請求項12に記載の音声合成方法。
  15. 前記音韻継続時間長決定手段は、顎、唇、及び舌の各調音器官の動きをモデル化した調音モデルを用いることを特徴とする請求項2、請求項5、請求項7、請求項9、請求項11または請求項13のいずれかに記載の音声合成装置。
  16. 前記調音モデルで示される調音器官の動きを、臨界制動2次線形系のステップ応答関数で表すことを特徴とする請求項1、請求項4、請求項6、請求項8、請求項10、請求項12または請求項14のいずれかに記載の音声合成方法。
  17. 前記音韻継続時間長決定手段は、前記調音モデルで示される調音器官の動きを、臨界制動2次線形系のステップ応答関数で計算することを特徴とする請求項2、請求項5、請求項7、請求項9、請求項11、請求項13または請求項15のいずれかに記載の音声合成装置。
JP32292597A 1997-11-25 1997-11-25 音声合成方法及び装置 Expired - Fee Related JP3742206B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP32292597A JP3742206B2 (ja) 1997-11-25 1997-11-25 音声合成方法及び装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP32292597A JP3742206B2 (ja) 1997-11-25 1997-11-25 音声合成方法及び装置

Publications (2)

Publication Number Publication Date
JPH11161297A JPH11161297A (ja) 1999-06-18
JP3742206B2 true JP3742206B2 (ja) 2006-02-01

Family

ID=18149169

Family Applications (1)

Application Number Title Priority Date Filing Date
JP32292597A Expired - Fee Related JP3742206B2 (ja) 1997-11-25 1997-11-25 音声合成方法及び装置

Country Status (1)

Country Link
JP (1) JP3742206B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11238883B2 (en) * 2018-05-25 2022-02-01 Dolby Laboratories Licensing Corporation Dialogue enhancement based on synthesized speech

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4536464B2 (ja) * 2004-09-08 2010-09-01 日本電信電話株式会社 音声合成装置およびその方法
JP5089473B2 (ja) * 2008-04-18 2012-12-05 三菱電機株式会社 音声合成装置及び音声合成方法
CN111260761B (zh) * 2020-01-15 2023-05-09 北京猿力未来科技有限公司 一种生成动画人物口型的方法及装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11238883B2 (en) * 2018-05-25 2022-02-01 Dolby Laboratories Licensing Corporation Dialogue enhancement based on synthesized speech

Also Published As

Publication number Publication date
JPH11161297A (ja) 1999-06-18

Similar Documents

Publication Publication Date Title
Klatt Review of text‐to‐speech conversion for English
JP3408477B2 (ja) フィルタパラメータとソース領域において独立にクロスフェードを行う半音節結合型のフォルマントベースのスピーチシンセサイザ
JP4125362B2 (ja) 音声合成装置
US6308156B1 (en) Microsegment-based speech-synthesis process
Syrdal et al. Applied speech technology
JP5148026B1 (ja) 音声合成装置および音声合成方法
JPH031200A (ja) 規則型音声合成装置
JP5039865B2 (ja) 声質変換装置及びその方法
CA2518663A1 (en) Method and apparatus for preventing speech comprehension by interactive voice response systems
O'Shaughnessy Modern methods of speech synthesis
JP2017167526A (ja) 統計的パラメトリック音声合成のためのマルチストリームスペクトル表現
JP3742206B2 (ja) 音声合成方法及び装置
Carlson Models of speech synthesis.
JP3220163B2 (ja) 音源生成装置、音声合成装置および方法
JP3437064B2 (ja) 音声合成装置
JP2001034284A (ja) 音声合成方法及び装置、並びに文音声変換プログラムを記録した記録媒体
Murphy Controlling the voice quality dimension of prosody in synthetic speech using an acoustic glottal model
JPH0580791A (ja) 音声規則合成装置および方法
Matsuda et al. Applying generation process model constraint to fundamental frequency contours generated by hidden-Markov-model-based speech synthesis
i Barrobes Voice Conversion applied to Text-to-Speech systems
JP2001100777A (ja) 音声合成方法及び装置
Georgila 19 Speech Synthesis: State of the Art and Challenges for the Future
Bailey Speech communication: the problem and some solutions
JP2000010580A (ja) 音声合成方法及び装置
Deng et al. Speech Synthesis

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20050401

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050426

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050627

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050726

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050926

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20051108

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20051110

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081118

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091118

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101118

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101118

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111118

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121118

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131118

Year of fee payment: 8

LAPS Cancellation because of no payment of annual fees