JP2006350091A

JP2006350091A - 音声合成方法、音声合成情報処理方法、クライアント端末、音声合成情報処理サーバ、クライアント端末プログラム、音声合成情報処理プログラム

Info

Publication number: JP2006350091A
Application number: JP2005177720A
Authority: JP
Inventors: Hideyuki Mizuno; 秀之水野
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2005-06-17
Filing date: 2005-06-17
Publication date: 2006-12-28
Anticipated expiration: 2025-06-17
Also published as: JP4653572B2

Abstract

【課題】処理量の少ない携帯端末でも肉声に近い良質の合成音声を発生させる。
【解決手段】処理量が大きいテキスト解析、韻律パラメータの計算、音声素片の探索処理をサーバ側で実行させ、クライアント端末ではサーバから送られて来る音声素片情報に基づいてクライアント端末に備えた音声素片データベースから音声素片データを読み出し、読み出された音声素片データを順に接続して合成音声データを生成し、この合成音声データを順次合成音声として出力する。
【選択図】図１

Description

本発明は、音声合成方法、音声合成情報処理方法及びこの音声合成方法、音声合成情報処理方法を用いて動作するクライアント端末、音声合成情報処理サーバに関する。

近年では大容量な記憶装置の使用コストの低下に伴って、数十分以上の大容量の音声データをそのまま大容量の記録装置に蓄積し、入力されたテキスト及び韻律情報に応じて音声素片を適切に選択し、接続・変形することで高品質な音声を合成する波形接続型コーパスベース音声合成方法が提案されている（特許文献１、非特許文献１）。
このような方法によって、物理的には肉声同等の高品質な合成音声を生成することが可能になってきている。具体的には、音声データベースから、合成したい文字列に対応する音韻系列と部分的または完全に一致する音声素片をバイナリーツリー等で構成された音声素片辞書を用いて検索し、音声素片の類似度を評価するための複数のパラメータを組み合わせに基づく評価尺度に従ってコスト付けされた多数の音声素片の中から、DP（Dynamic Programming）等の方法によって適切な音声素片の組み合わせを選択し、選択された音声素片を順に接続することで音声合成を行っている（非特許文献２）。しかし、このような音声合成方法においては、そもそも適切な音声素片が音声データベースに存在しない場合、高品質な合成音声を生成不可能である。

従って、様々なテキストを高品質に音声合成するためには、豊富な音声素片のバリエーションを含む音声データベースを用いることが必須であり、そのため近年では音声素片のバリエーションを増やし合成音声を高品質化するために、音声データベースの容量をより一層増加させる方向で開発が進んでいる。しかしながら、音声データベースを大容量化することにより、合成音声の品質は向上されるものの、当然音声データベース内に格納される音声素片の個数は増大するため、音声合成の際に入力テキストに応じて適切な音声素片を、音声データベースに含まれる膨大な数の中から検索するに要する検索処理量は増大している。
特許第２７６１５５２号明細書 M.Beutnagel, A. Conkie, J.Schoroeter, Y. Stylianou, and A. Sydral, "Choose the best to modify the least: A new generation concatenative synthesis system", in Proc. Eurospeech'99, 1999, pp.2291-2294 "波形編集型規則合成法における波形選択法"、広川他、電子情報通信学会音声研究会資料、SP89-114,pp.362-369(1990)

波形接続型コーパスベース音声合成方法では、音声データベースを大容量化することにより高品質な合成音声の生成が可能となったものの、反面では従来の手法と比較して処理量が増大するようになってきている。しかし、これまでに主に音声合成機能が必要とされてきたパーソナルコンピュータやワークステーション等においては近年の著しく処理能力及び記憶装置の容量が発達したため、処理量については特に問題とはならなかった。
一方、携帯電話、カーナビゲーション、家電機器などの小型機器分野でも、より一層の機器の普及や差別化に繋げるため、ユーザにとって使いやすい様々なソフトウェアの開発が行われており、音声合成技術も人にとってわかりやすい音声での情報伝達が可能なため必要な技術と考えられ始めている。

しかし、そういった機器等では、処理能力やメモリ量が非常に低い場合が多く、そうでない場合も、処理能力やメモリのほとんどは、それらの機器の主要な用途である画像の表示や機器の制御などに使われており、音声合成のために利用可能なメモリや処理能力はほとんど残されていない。
計算処理量を減らすため、計算処理を簡素化したり、音声素片探索時の枝狩り処理を行ったりすることである程度の高速化は可能であるが、その場合最適な素片が選択されず合成音声の品質が劣化する可能性もある。また、音声素片のインデックス等をメモリ上に確保することで探索処理時間の軽減を図る方法もあるが、その場合は大量のワーク用外部メモリが必要となるがそのような外部メモリを搭載可能でない場合も多い。従って、これまで波形接続型コーパスベース音声合成方法はそれらの機器で動作させることは非常に困難であった。

このため、携帯機器から高品質な合成音声を出力させる方法として、クライアント・サーバ構成にして、クライアントである携帯機器からテキストを送信し、サーバである高性能なワークステーション等でテキストから合成音声を生成し、クライアントに合成音声を伝送する方法や、クライアントである携帯機器で処理量が少なく必要なメモリ量も少なくてよいテキスト解析処理まで行った後テキスト解析結果をサーバに送信し、大量の音声素片データとワークメモリを必要とする音声合成部のみサーバで動作させ、テキスト解析結果から合成音声を生成し、クライアントに合成音声を送信する方法で、上記の問題を解決する方法も容易に考えられる。しかし、これらの場合は合成したいテキストデータに対応する合成音声をサーバ側で生成・送信し、クライアント側が受信するまでの間は全くクライアントから音声を出力することができないため、ネットワークの速度やスループットによっては、音声が出力されるまでの応答時間が非常に掛かる欠点があった。

また、現状では携帯電話やカーナビゲーション等ではネットワークとして通常携帯電話のパケット網が利用されることが多いが、その場合はほぼ従量制で課金されるためネットワークの使用料が非常に高くなるという問題もある。さらにパケット網はネットワーク自体の遅延や速度変動が極めて大きいため、音声が途中で途切れたりするなどの問題があった。

音声合成したいテキストを解析し、そのテキスト解析結果に基づいて適切な音声素片系列を音声素片インデックスを用いて決定した後、音声合成に必要な情報のうち少なくとも音声素片系列情報を送信する機能を有する音声合成情報処理サーバを用意する。
また合成音声を出力させたいクライアント側には少なくとも音声素片系列情報を受信する機能と、音声素片を格納した音声素片データベースと音声合成部とを備えておく。
また、音声合成情報処理サーバ、クライアント共に、ネットワークを利用したデータの送受信機能を有しているものとし、クライアントと音声合成情報処理サーバをネットワークで接続しておく。

このようにしてネットワークで接続されたクライアント・サーバ構成にし、処理量が多く及び大量のメモリが必要なテキスト解析から音声素片系列の決定までの処理を高性能なワークステーション等の利用可能なサーバで行う。また読み出しメモリ専用のメモリ又は記憶装置に音声素片データベースを格納し軽微な処理と少量のメモリしか必要としない音声素片データベースからの読み出しと合成処理を、ワークメモリが少ないクライアント側で行うものとする。

ネットワーク上に、テキストから音声合成に必要な音声素片系列を決定し、決定された音声素片系列の情報を送信する機能を有する音声合成情報処理サーバと、音声素片を格納した音声素片データベースを備えた音声合成部を有するクライアントを用意し、クライアントにおいて音声合成を利用する時には、合成したいテキストに対応した音声素片系列情報や韻律パラメータ等の情報を音声合成情報処理サーバから受信し、その受信された音声素片系列情報に対応した音声素片データを音声素片データベースから読み出し、その音声素片データを用いて音声合成処理し高品質な合成音を生成する。このように処理することにより、予めクライアント側の処理性能が限られており、かつ速度若しくは使用量が限定されたネットワークを利用する条件下において、処理性能やネットワークの種類によらず高品質かつ高速な合成音声の実現が可能となる。

なぜならば、クライアント側では最低限音声素片の読み込みと読み込まれた音声素片を用いた音声合成が可能な程度のみ処理性能及びメモリがあれば、音声合成情報処理サーバから受信した音声素片系列を用いて音声素片データベースから音声素片を読み込み合成することで音声合成することが可能である。
また音声合成処理は、クライアント側で実行されるためネットワークの混雑上場とは無関係に音声合成の出力が可能である。
さらに、ネットワークを用いて伝送されるべき音声素片系列情報や韻律パラメータは音声データと比較すれば極めて少ないデータ量であるため、携帯パケット網を用いても料金は低廉にすることが可能である。また合成音声を送信する場合、大量のパケットを送るための時間がかかりその間に遅延が発生する可能性も高く、遅延が発生すると音声が途切れてしまうが、本発明では少ないパケットで短時間に必要な情報を送信できるため遅延にも強く合成音声が途中で途切れるような状況の発生を極めて少なくすることが可能となる。

この発明による音声合成方法に従って動作するクライアント端末及び音声合成情報処理方法に従って動作する音声合成情報処理サーバは何れもハードウェアによって構成することもできるが、最も簡素に実現するにはこの発明で提案するクライアント端末プログラム及び音声合成情報処理プログラムをコンピュータにインストールし、コンピュータにクライアント端末或いは音声合成情報処理サーバとして機能させる実施形態が最良である。
コンピュータにクライアント端末として機能させる場合、コンピュータには少なくともプログラムによりテキスト送信部と、音声素片情報受信部と、音声素片データ読み出し部と、音声素片接続部と、音声出力部とを構築し、音声合成用のクライアント端末として機能させる。

コンピュータに音声合成情報処理サーバとして機能させる場合、コンピュータには少なくともプログラムによりテキストデータ受信部と、テキスト解析部と、韻律パラメータ取得部と、音声素片インデックスと、音声素片探索部と、音声素片情報送出部とを構築し、音声合成情報処理サーバとして機能させる。

以下この発明の第１の実施形態を述べる。
まず、図１にシステム全体の概念図を示す。クライアント端末１で合成音声を利用する。クライアント端末１内の音声合成装置または音声合成プログラムで音声合成を実行する際には、ネットワーク２を介して音声合成情報処理サーバ３に接続する。ネットワーク２は、例えば携帯電話のパケット通信網や、電話線を利用したＡＤＳＬや、光ファイバを利用したＦＴＴＨなどがある。尚、図１ではクライアント端末を１個だけ示すが、現実には複数のクライアント端末１が同時に音声合成情報処理サーバ３にアクセスする状況が考えられる。

音声合成情報処理サーバ３は、合成したいテキストに対応する音声素片情報の決定を行い、クライアント端末１に送信する。クライアント端末１は、音声合成に必要な音声素片系列情報を音声合成情報処理サーバ３から受信し、クライアント端末１内の音声合成装置または音声合成プログラムは受信した音声素片情報を利用して音声合成を実施する。
ここで、クライアント端末１における音声合成装置は、例えばＣＰＵ（Central Processing Unit）やＲＡＭ、ハードディスク装置等から構成される公知のコンピュータに所定のプログラムを実行させることにより構成されるものでもよいし、図２に示すような、プログラム及び演算結果などを格納するＲＡＭ等で構成するワークメモリ４０、プログラムに基づき演算などをするとともに音声合成装置の各構成要素を制御するＭＰＵ（Micro Processing Unit）４１、音声素片データ及びその他のファイルを格納するＲＯＭ等で構成する蓄積メモリ４２、ネットワーク２へテキストデータを送信し、またネットワーク２からデータを受信するためのデータ送受信部４３、音声出力部４４とを具備する。

パーソナルコンピュータ等においては、上記蓄積メモリ４２は磁気ディスク等で実装してもよい。また、音声合成情報処理サーバ３は、例えばＣＰＵやＲＡＭ、ハードディスク装置等から構成される公知のコンピュータに所定のプログラムを実行させることにより構成されるものである。
図３は、本実施形態における音声合成情報処理サーバ３の概念的な構成図の例示である。
本実施形態の音声合成情報処理サーバ３は、テキストデータ受信部９、テキスト解析部１０、韻律パラメータ取得部１１、音声素片探索部１２、音声素片情報送出部１３、音声素片インデックスIndex-1とを有している。

図４は、本形態での音声合成情報処理サーバ３における音声素片情報送信処理を説明するための流れ図である。
以下に上記の図３及び図４に従って、本実施形態の音声素片情報送信の詳細を説明する。音声合成情報処理サーバ３はクライアント端末１から送られて来たテキストデータを受信する（ステップＳ４−１）と、テキスト解析部１０ではテキスト解析処理を実施し、読み情報及び韻律情報を生成する（Ｓ４−２）。ここでいうテキスト解析処理は、主に形態素解析処理と読み・アクセント付与処理からなるがこれらの処理方法については従来から様々な方法が存在し、例えば（参考文献：特許第３３７９６４３号明細書「形態素解析方法および形態素解析プログラムを記録した記録媒体」）や、（参考文献：特許第３５１８３４０号明細書「読み韻律情報設定方法及び装置及び読み韻律情報設定プログラムを格納した記録媒体」）、の方法に基づいて行うこともできる。

次に、韻律パラメータ取得部１１で前記韻律情報に基づいて韻律パラメータを求める（Ｓ４−３）。ここで韻律パラメータとしてはピッチ（基本周波数）や音素継続時間長等があるが、これらを求める方法も従来から存在し、例えば（参考文献：特許第３２４０６９１号明細書「ピッチパタン生成方法、その装置及びプログラム、記録媒体」）や、（参考文献：特許第３３４４４８７号明細書「音声基本周波数パターン生成装置」）の方法によってピッチ（基本周波数）を求めることが可能である。また、例えば（参考文献：海木ら、「言語情報を利用した母音継続時間長の制御」vol.75, No.3 pp.467-463、信学論,1992）や、（参考文献：M.D. Riley. “Tree-based modeling for speech synthesis.” In G. Bailly C. Benoit, and T.R. Sawallis, editors, Talking Machines: Theories, Models, and Designs, pages 265-273. Elsevier, 1992.）の方法により音素継続時間長を求めることもできる。

次に、前述の読み情報と韻律パラメータに従って、音声素片探索部１２において、音声素片インデックスIndex-1を用いて最適な音声素片系列を決定する（Ｓ４−４）。ここで音声素片インデックスの構成や音声素片系列の決定方法としては、例えば、特許第3515406号明細書「音声合成方法及び装置」等もあるが、ここでは、図１１で示す音声素片インデックスの概念図を用いて説明する。
前記の読み情報と韻律情報の組をキーとして、音声素片インデックスIndex-1を探索し、該当音声素片インデックスIndex-1から、これの組の類似範囲に属する読み情報である音律列と韻律パラメータの組と対応する、音声素片を選択し音声素片系列を決定する。

尚、ここでいう類似範囲とは、例えば読み情報及び韻律パラメータが完全に一致するもの、一部一致するもの、コストによって特定される類似度が高いものなどを含む概念である。例えば、読み情報として、音韻が「ア」、前音素環境が“＃”が与えられ、韻律パラメータとして、平均F0が200±10Hzという条件が与えられた場合、図１１で示すような音声素片A1、A2、A3の３つが適合することになる。さらに前記読み情報と韻律パラメータに対して、音声素片インデックスIndex-1内の音声素片に適合する読み情報と韻律パラメータから総合コスト値を計算し、コスト最小となる音声素片を選択することもできる。

ここで、総合コスト計算方法であるが、例えば、下記のようにサブコスト関数を用いて総合コストPnewを求めることができる（参考文献：「波形編集型合成方式におけるスペクトル連続性を考慮した波形選択法」、日本音響学会講演論分集、2-6-10、pp.413-414、1990/9）。
読み情報としての音韻系列と、音声素片の読み情報としての音韻系列が一致する音韻数をnとし、読み情報に対応するサブコスト関数を
C₁(n)=1/eⁿ
韻律パラメータのうち平均ピッチVpと、音声素片の平均ピッチVsに対応するサブコスト関数を
C₂(Vp,Vs)=|Vp-Vs|²
韻律パラメータのうちピッチの傾きFpと、音声素片のピッチの傾きFsに対応するサブコスト関数を
C₃(Fp,Fs)=|Fp-Fs|²
韻律パラメータのうち時間長Tpと、音声素片の時間長Tsに対応するサブコスト関数を
C₄(Tp,Ts)=|Tp-Ts|²
韻律パラメータのうち振幅Apと、音声素片の振幅Asに対応するサブコスト関数を
C₅(Ap,As)=|Ap-As|²
とし、上記C₁、C₂、C₃、C₄、C₅の各サブコスト関数に対応するサブコスト重みとしてそれぞれ、ω₁、ω₂、ω₃、ω₄、ω₅が予め与えられていたとき
Ω=ω₂C₂(Vp,Vs)+ω₃C₃(Fp,Fs)+ω₄C₄(Tp,Ts)+ω₅C₅(Ap,As)
P=ω₁C₁(n)+(1-ω₁)Ω
Pnew=(1+G)P ： Gは音響的な尺度
こうして求められた各音声素片の総合コストを用いて、例えば一般的なDP（Dynamic Programming）法やViterbi法を用いることで、容易にコスト最小となるような音声素片を順次選択することができ音声素片系列を決定することができる。

次に、音声素片情報送出部１３において、前記音声素片系列において音声素片情報をクライアント端末１に対して送信する（Ｓ４−５）。
図５は、上記実施形態でのクライアント端末１の概念的な構成図の例示である。本実施形態のクライアント端末１は、テキストデータ送信部２９、音声素片情報受信部３０、音声素片データ読み出し部３１、音声素片接続部３２、音声出力部３３、音声素片データベースDB-1とを有している。
図６は、本実施形態でのクライアント端末１における音声合成処理を説明するための流れ図である。

以下、図５と図６に従って、本実施形態における音声合成処理の詳細を説明する。
先ず、クライアント端末１は生成したい合成音声に対応するテキストデータをネットワーク２を通じて音声合成情報処理サーバ３に送信する（Ｓ６−１）。
音声合成情報処理サーバ３は送り込まれたテキストデータを解析し、クライアント端末１に音声素片情報を返送する。クライアント端末１はネットワーク２を通して、音声合成情報処理サーバ３から送信された音声素片情報を音声素片情報受信部３０で受信する（Ｓ６−２）。

次に、音声素片データ読み出し部３１において、受信した音声素片情報に基づいて、音声素片データベースDB-1から音声素片データを読み出す（Ｓ６−３）。
ここで、受信した音声素片情報が格納されている音声合成情報処理サーバ３に存在する音声素片インデックスIndex-1と、図１２に示すようなクライアント端末１に備えられている音声素片データベースDB-1は物理的に別々に存在していても、理論的に対応付けられているため、該音声素片情報から対応する音声データを容易に読み出すことができる。
例えば、音声素片情報として、音声素片A2、音声素片R1、音声素片I2、…の中から、音声素片A2に対応する音声素片格納情報に基づいて音声素片データとして、ファイル番号８、始点10msec、時間長110msecの音声データを読み出し、音声素片R1に対応する音声素片データとして、ファイル番号２３、始点5225msec、時間長15msec、音声素片I2に対応する音声素片データとして、ファイル番号２３、始点5240msec、時間長95msecの音声データを読み出す、のように順次音声素片データの読み出しを行う。

次に、音声素片接続部３２において、前記読み出された音声素片を順次接続し合成音声データを生成する（Ｓ６−４）。ここで、音声素片データを時間的な順に単に接続してもよいが、異なる音声素片間を時間的又は周波数的に補完することも容易である。（参考文献：特開平07-072897号公報「音声合成方法および装置」）最後に、前記接続された音声素片データは、音声出力部３３において、合成音声として出力される（Ｓ６−５）。
なお、上述ではテキストデータをクライアント端末１から音声合成情報処理サーバ３に送信するものとして説明したが、必ずしもその必要はなく、例えばネットワーク上にテキストデータを多数備えたサーバを用意し、このサーバにクライアント端末１から希望するテキストデータを音声合成情報処理サーバ３に送ることを指示することにより、音声合成情報処理サーバ３に目的のテキストデータを送り込むようにしてもよい。

図７は、この発明の第２実施形態で提案する音声合成情報処理サーバ３'の概念的な構成図の例示である。
本実施形態の音声合成情報処理サーバ３'はテキストデータ受信部９、テキスト解析部１０、韻律パラメータ取得部１１、音声素片探索部１２、音声素片情報・韻律パラメータ送出部１４、音声素片インデックスIndex-1、とを備えて構成されている。
図８は、この第２実施形態で提案する音声合成情報処理サーバ３'における音声素片情報送信処理を説明するための流れ図である。

以下、上記の図７と図８に従って、第２実施形態の音声素片情報送信の詳細を説明する。音声合成情報処理サーバ3'はクライアント端末から送信されたテキスト情報が入力されてから、音声素片情報が得られるまでの、テキスト解析部１０、韻律パラメータ取得部１１、音声素片探索部１２における構成及び処理の内容は前述の第１実施形態と同様に実行することが可能である。
この第２実施形態ではクライアント端末における合成音声品質の改善を可能とするために、以下の処理を行う。

音声素片情報・韻律パラメータ送出部１４において、音声素片探索部１２で決定された音声素片情報に加えて、韻律パラメータ取得部１１で得られた韻律パラメータを、クライアント端末に対して送信する。
図９は、上記音声合成情報処理サーバ３'に対応したクライアント端末１'の概念的な構成図の例示である。
本実施形態のクライアント端末１'における音声合成装置は、テキストデータ送信部２９と、音声素片情報・韻律パラメータ受信部３４、音声素片データ読み出し部３１、音声素片接続・変形部３５、音声出力部３３、音声素片データベースDB-1、とを有している。

図１０は、本実施形態のクライアント端末１'における音声合成処理を説明するための流れ図である。以下、この図に従って、本実施形態における音声合成処理の詳細を説明する。
この実施例２でも図６の場合と同様にクライアント端末１'はテキストデータ送信部２９から目的とするテキストデータを音声合成情報処理サーバ３'に送信する（Ｓ１０−１）。音声合成情報処理サーバ３'は送り込まれたテキストデータを解析し、そのテキストデータに対応する音声素片データと韻律パラメータをクライアント端末１'に返送する。クライアント端末１'はネットワーク２を通して、音声合成情報処理サーバ３'から送信された音声素片情報及び韻律パラメータを音声素片情報・韻律パラメータ受信部３４で受信する（Ｓ１０−２）。

次に、音声素片データ読み出し部３１における処理の内容は、前述の第１実施形態における音声素片データ読み出し部３１の処理と同様に実行できる（Ｓ１０−３）。
次に、音声素片接続・変形部３５において、音声素片データ読み出し部３１で読み出された音声素片を順次接続し合成音声データを生成する（Ｓ１０−４）。ここで、音声素片データを時間的な順に接続する際に異なる音声素片間を時間的又は周波数的に補完するとともに（参考文献：特開平07-072897号公報「音声合成方法および装置」）、前記受信した韻律情報に基づいて音声素片データに対し信号処理を施した後に接続を行う（Ｓ１０−４）。（参考文献：Y. Stylianou, "Applying the Harmonic Plus Noise Model in Concatenative Speech Synthesis." IEEE TRANSACTIONS ON SPEECH AND AUDIO PROSESSING, VOL.9, NO.1, pp.21-29 JANUARY 2001）（Ｓ１０−４）。

こうすることで、処理量は多少増加するものの、単純に補完して接続する場合と比較して、信号処理により音声素片の時間長や基本周波数F0を制御することが可能となるため、より韻律的に正確な合成音声の出力が可能となり、合成音声の総合的な品質が改善される。
最後に前記接続された音声素片データは、音声出力部３３において、合成音声として出力される（Ｓ１０−５）。
なお、この実施例２でもテキストデータをクライアント端末１'から音声合成情報処理サーバ３'に送り込むものとして説明したが、必ずしもその通りでなくてもよく、クライアント端末１'の指示に従って他のサーバからテキストデータを音声合成情報処理サーバ３'に送り込んでもよい。

以上説明したこの発明によるクライアント端末１、１'、及び音声合成情報処理サーバ３、３'はそれぞれ、この発明で提案するクライアント端末プログラム及び音声合成情報処理プログラムをコンピュータにインストールし、コンピュータにプログラムを実行させることによって実現することができる。
この発明で提案するクライアント端末プログラム及び音声合成処理プログラムはコンピュータが解読可能なプログラム言語によって記述され、コンピュータが読み取り可能な例えば磁気ディスク或いはＣＤ−ＲＯＭのような記録媒体に記録される。コンピュータにはこの記録媒体から又は通信回線を通じてインストールされる。インストールされたプログラムはコンピュータに備えられたＣＰＵ或いはＭＰＵによって解読されて実行される。

この発明は携帯端末を用いた音声案内システム、自動予約システム或いはカーナビゲーションにおける音声ガイドシステム等の分野に利用可能である。

この発明による音声合成方法の概要を説明するためのブロック図。この発明による音声合成方法に用いられるクライアント端末の全体の構成を説明するためのブロック図。この発明による音声合成方法に用いる音声合成情報処理サーバの構成を説明するためのブロック図。図３に示した音声合成情報処理サーバの動作を説明するためのフローチャート。図２に示したクライアント端末内に構築される音声合成手段の構成を説明するためのブロック図。図５に示したクライアント端末内に構築された音声合成手段の動作を説明するためのフローチャート。この発明の実施例２で提案する音声合成処理サーバの構成を説明するためのブロック図。図７に示した音声合成情報処理サーバの動作を説明するためのフローチャート。図７に示した音声合成情報処理サーバと対応して動作するクライアント端末の構成を説明するためのブロック図。図９に示したクライアント端末の動作を説明するためのフローチャート。この発明による音声合成処理サーバに備えたインデックスの概要を説明するための図。この発明によるクライアント端末に備えた音声素片データベースの概要を説明するための図。

符号の説明

１、１' クライアント端末３４音声素片情報・韻律パラメータ受信部
２ネットワーク３５音声素片接続・変形部
３、３' 音声合成情報処理サーバ４０ワークメモリ
９テキストデータ受信部４１ＭＰＵ
１０テキスト解析部４２蓄積メモリ
１１韻律パラメータ取得部４３データ送受信部
１２音声素片探索部４４音声出力部
１３音声素片情報送出部
１４音声素片情報・韻律パラメータ送出部
Index-1 音声素片インデックス
２９テキストデータ送信部
３０音声素片情報受信部
３１音声素片データ読み出し部
３２音声素片接続部
３３音声出力部
DB-1 音声素片データベース

Claims

サーバでテキスト解析された結果を音声素片情報として受信する音声素片情報受信ステップと、
受信した音声素片情報に基づいて音声素片データベースから音声素片データを読み出す音声素片データ読み出しステップと、
読み出された音声素片データを順に接続して合成音声データを生成する音声素片接続ステップと、
合成音声データを順次合成音声として出力する音声出力ステップと、
を実行することを特徴とする音声合成方法。
送られてきたテキストデータを受信するテキストデータ受信ステップと、
受信したテキストデータに対してテキスト解析を行い読み情報及び韻律情報を取得するテキスト解析ステップと、
前記韻律情報から、音声合成に必要な物理的な韻律パターンを取得する韻律パターン取得ステップと、
音声素片インデックスを用いて前記読み情報及び韻律パラメータに基づいて音声素片情報を取得する音声素片探索ステップと、
前記音声素片情報をネットワークに送出する音声素片情報送信ステップと、
を実行することを特徴とする音声合成情報処理方法。
自己宛に送られて来た音声素片情報を受信する音声素片情報受信手段と、
受信した音声素片情報に基づいて音声素片データベースから音声素片データを読み出す音声素片データ読み出し手段と、
読み出された音声素片データを順に接続して合成音声データを生成する音声素片接続手段と、
前記合成音声データを合成音声として順次出力する音声出力手段と、
を備えることを特徴とするクライアント端末。
請求項３記載のクライアント端末において、前記音声素片情報受信手段は音声素片情報に加えて韻律パラメータを受信し、前記音声素片接続手段は読み出された音声素片データを前記韻律パラメータに従って変形処理を行った後に順に接続合成音声データを生成し、生成された接続合成音声データを前記音声出力手段から合成音声として出力することを特徴とするクライアント端末。
自己宛に送られて来たテキストデータを受信するテキストデータ受信手段と、
受信したテキストデータに対してテキスト解析を行い読み情報及び韻律情報を取得するテキスト解析手段と、
前記韻律情報から、音声合成に必要な物理的な韻律パラメータを取得する韻律パラメータ取得手段と、
音声素片インデックスを用いて前記読み情報及び韻律パラメータに基づいて音声素片情報を取得する音声素片探索手段と、
前記音声素片情報をネットワークに送出する音声素片情報送信手段と、
を備えることを特徴とする音声合成情報処理サーバ。
請求項５記載の音声合成情報処理サーバにおいて、前記音声素片情報送出手段は前記音声素片情報に韻律パラメータを付加して送出することを特徴とする音声合成情報処理サーバ。
コンピュータが解読可能なプログラム言語によって記述され、コンピュータに少なくとも請求項３又は４の何れかに記載のクライアント端末として機能させるクライアント端末プログラム。
コンピュータが読取可能なプログラム言語によって記述され、コンピュータに少なくとも請求項５又は６の何れかに記載の音声合成情報処理サーバとして機能させる音声合成情報処理プログラム。
コンピュータが読み取り可能な記録媒体によって構成され、この記録媒体に少なくとも請求項７記載のクライアント端末プログラム又は請求項８記載の音声合成情報処理プログラムの何れかを記録した記録媒体。