JP2006350091A - 音声合成方法、音声合成情報処理方法、クライアント端末、音声合成情報処理サーバ、クライアント端末プログラム、音声合成情報処理プログラム - Google Patents

音声合成方法、音声合成情報処理方法、クライアント端末、音声合成情報処理サーバ、クライアント端末プログラム、音声合成情報処理プログラム Download PDF

Info

Publication number
JP2006350091A
JP2006350091A JP2005177720A JP2005177720A JP2006350091A JP 2006350091 A JP2006350091 A JP 2006350091A JP 2005177720 A JP2005177720 A JP 2005177720A JP 2005177720 A JP2005177720 A JP 2005177720A JP 2006350091 A JP2006350091 A JP 2006350091A
Authority
JP
Japan
Prior art keywords
speech
information
unit
data
client terminal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2005177720A
Other languages
English (en)
Other versions
JP4653572B2 (ja
Inventor
Hideyuki Mizuno
秀之 水野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2005177720A priority Critical patent/JP4653572B2/ja
Publication of JP2006350091A publication Critical patent/JP2006350091A/ja
Application granted granted Critical
Publication of JP4653572B2 publication Critical patent/JP4653572B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Telephonic Communication Services (AREA)

Abstract

【課題】処理量の少ない携帯端末でも肉声に近い良質の合成音声を発生させる。
【解決手段】処理量が大きいテキスト解析、韻律パラメータの計算、音声素片の探索処理をサーバ側で実行させ、クライアント端末ではサーバから送られて来る音声素片情報に基づいてクライアント端末に備えた音声素片データベースから音声素片データを読み出し、読み出された音声素片データを順に接続して合成音声データを生成し、この合成音声データを順次合成音声として出力する。
【選択図】図1

Description

本発明は、音声合成方法、音声合成情報処理方法及びこの音声合成方法、音声合成情報処理方法を用いて動作するクライアント端末、音声合成情報処理サーバに関する。
近年では大容量な記憶装置の使用コストの低下に伴って、数十分以上の大容量の音声データをそのまま大容量の記録装置に蓄積し、入力されたテキスト及び韻律情報に応じて音声素片を適切に選択し、接続・変形することで高品質な音声を合成する波形接続型コーパスベース音声合成方法が提案されている(特許文献1、非特許文献1)。
このような方法によって、物理的には肉声同等の高品質な合成音声を生成することが可能になってきている。具体的には、音声データベースから、合成したい文字列に対応する音韻系列と部分的または完全に一致する音声素片をバイナリーツリー等で構成された音声素片辞書を用いて検索し、音声素片の類似度を評価するための複数のパラメータを組み合わせに基づく評価尺度に従ってコスト付けされた多数の音声素片の中から、DP(Dynamic Programming)等の方法によって適切な音声素片の組み合わせを選択し、選択された音声素片を順に接続することで音声合成を行っている(非特許文献2)。しかし、このような音声合成方法においては、そもそも適切な音声素片が音声データベースに存在しない場合、高品質な合成音声を生成不可能である。
従って、様々なテキストを高品質に音声合成するためには、豊富な音声素片のバリエーションを含む音声データベースを用いることが必須であり、そのため近年では音声素片のバリエーションを増やし合成音声を高品質化するために、音声データベースの容量をより一層増加させる方向で開発が進んでいる。しかしながら、音声データベースを大容量化することにより、合成音声の品質は向上されるものの、当然音声データベース内に格納される音声素片の個数は増大するため、音声合成の際に入力テキストに応じて適切な音声素片を、音声データベースに含まれる膨大な数の中から検索するに要する検索処理量は増大している。
特許第2761552号明細書 M.Beutnagel, A. Conkie, J.Schoroeter, Y. Stylianou, and A. Sydral, "Choose the best to modify the least: A new generation concatenative synthesis system", in Proc. Eurospeech'99, 1999, pp.2291-2294 "波形編集型規則合成法における波形選択法"、広川他、電子情報通信学会音声研究会資料、SP89-114,pp.362-369(1990)
波形接続型コーパスベース音声合成方法では、音声データベースを大容量化することにより高品質な合成音声の生成が可能となったものの、反面では従来の手法と比較して処理量が増大するようになってきている。しかし、これまでに主に音声合成機能が必要とされてきたパーソナルコンピュータやワークステーション等においては近年の著しく処理能力及び記憶装置の容量が発達したため、処理量については特に問題とはならなかった。
一方、携帯電話、カーナビゲーション、家電機器などの小型機器分野でも、より一層の機器の普及や差別化に繋げるため、ユーザにとって使いやすい様々なソフトウェアの開発が行われており、音声合成技術も人にとってわかりやすい音声での情報伝達が可能なため必要な技術と考えられ始めている。
しかし、そういった機器等では、処理能力やメモリ量が非常に低い場合が多く、そうでない場合も、処理能力やメモリのほとんどは、それらの機器の主要な用途である画像の表示や機器の制御などに使われており、音声合成のために利用可能なメモリや処理能力はほとんど残されていない。
計算処理量を減らすため、計算処理を簡素化したり、音声素片探索時の枝狩り処理を行ったりすることである程度の高速化は可能であるが、その場合最適な素片が選択されず合成音声の品質が劣化する可能性もある。また、音声素片のインデックス等をメモリ上に確保することで探索処理時間の軽減を図る方法もあるが、その場合は大量のワーク用外部メモリが必要となるがそのような外部メモリを搭載可能でない場合も多い。従って、これまで波形接続型コーパスベース音声合成方法はそれらの機器で動作させることは非常に困難であった。
このため、携帯機器から高品質な合成音声を出力させる方法として、クライアント・サーバ構成にして、クライアントである携帯機器からテキストを送信し、サーバである高性能なワークステーション等でテキストから合成音声を生成し、クライアントに合成音声を伝送する方法や、クライアントである携帯機器で処理量が少なく必要なメモリ量も少なくてよいテキスト解析処理まで行った後テキスト解析結果をサーバに送信し、大量の音声素片データとワークメモリを必要とする音声合成部のみサーバで動作させ、テキスト解析結果から合成音声を生成し、クライアントに合成音声を送信する方法で、上記の問題を解決する方法も容易に考えられる。しかし、これらの場合は合成したいテキストデータに対応する合成音声をサーバ側で生成・送信し、クライアント側が受信するまでの間は全くクライアントから音声を出力することができないため、ネットワークの速度やスループットによっては、音声が出力されるまでの応答時間が非常に掛かる欠点があった。
また、現状では携帯電話やカーナビゲーション等ではネットワークとして通常携帯電話のパケット網が利用されることが多いが、その場合はほぼ従量制で課金されるためネットワークの使用料が非常に高くなるという問題もある。さらにパケット網はネットワーク自体の遅延や速度変動が極めて大きいため、音声が途中で途切れたりするなどの問題があった。
音声合成したいテキストを解析し、そのテキスト解析結果に基づいて適切な音声素片系列を音声素片インデックスを用いて決定した後、音声合成に必要な情報のうち少なくとも音声素片系列情報を送信する機能を有する音声合成情報処理サーバを用意する。
また合成音声を出力させたいクライアント側には少なくとも音声素片系列情報を受信する機能と、音声素片を格納した音声素片データベースと音声合成部とを備えておく。
また、音声合成情報処理サーバ、クライアント共に、ネットワークを利用したデータの送受信機能を有しているものとし、クライアントと音声合成情報処理サーバをネットワークで接続しておく。
このようにしてネットワークで接続されたクライアント・サーバ構成にし、処理量が多く及び大量のメモリが必要なテキスト解析から音声素片系列の決定までの処理を高性能なワークステーション等の利用可能なサーバで行う。また読み出しメモリ専用のメモリ又は記憶装置に音声素片データベースを格納し軽微な処理と少量のメモリしか必要としない音声素片データベースからの読み出しと合成処理を、ワークメモリが少ないクライアント側で行うものとする。
ネットワーク上に、テキストから音声合成に必要な音声素片系列を決定し、決定された音声素片系列の情報を送信する機能を有する音声合成情報処理サーバと、音声素片を格納した音声素片データベースを備えた音声合成部を有するクライアントを用意し、クライアントにおいて音声合成を利用する時には、合成したいテキストに対応した音声素片系列情報や韻律パラメータ等の情報を音声合成情報処理サーバから受信し、その受信された音声素片系列情報に対応した音声素片データを音声素片データベースから読み出し、その音声素片データを用いて音声合成処理し高品質な合成音を生成する。このように処理することにより、予めクライアント側の処理性能が限られており、かつ速度若しくは使用量が限定されたネットワークを利用する条件下において、処理性能やネットワークの種類によらず高品質かつ高速な合成音声の実現が可能となる。
なぜならば、クライアント側では最低限音声素片の読み込みと読み込まれた音声素片を用いた音声合成が可能な程度のみ処理性能及びメモリがあれば、音声合成情報処理サーバから受信した音声素片系列を用いて音声素片データベースから音声素片を読み込み合成することで音声合成することが可能である。
また音声合成処理は、クライアント側で実行されるためネットワークの混雑上場とは無関係に音声合成の出力が可能である。
さらに、ネットワークを用いて伝送されるべき音声素片系列情報や韻律パラメータは音声データと比較すれば極めて少ないデータ量であるため、携帯パケット網を用いても料金は低廉にすることが可能である。また合成音声を送信する場合、大量のパケットを送るための時間がかかりその間に遅延が発生する可能性も高く、遅延が発生すると音声が途切れてしまうが、本発明では少ないパケットで短時間に必要な情報を送信できるため遅延にも強く合成音声が途中で途切れるような状況の発生を極めて少なくすることが可能となる。
この発明による音声合成方法に従って動作するクライアント端末及び音声合成情報処理方法に従って動作する音声合成情報処理サーバは何れもハードウェアによって構成することもできるが、最も簡素に実現するにはこの発明で提案するクライアント端末プログラム及び音声合成情報処理プログラムをコンピュータにインストールし、コンピュータにクライアント端末或いは音声合成情報処理サーバとして機能させる実施形態が最良である。
コンピュータにクライアント端末として機能させる場合、コンピュータには少なくともプログラムによりテキスト送信部と、音声素片情報受信部と、音声素片データ読み出し部と、音声素片接続部と、音声出力部とを構築し、音声合成用のクライアント端末として機能させる。
コンピュータに音声合成情報処理サーバとして機能させる場合、コンピュータには少なくともプログラムによりテキストデータ受信部と、テキスト解析部と、韻律パラメータ取得部と、音声素片インデックスと、音声素片探索部と、音声素片情報送出部とを構築し、音声合成情報処理サーバとして機能させる。
以下この発明の第1の実施形態を述べる。
まず、図1にシステム全体の概念図を示す。クライアント端末1で合成音声を利用する。クライアント端末1内の音声合成装置または音声合成プログラムで音声合成を実行する際には、ネットワーク2を介して音声合成情報処理サーバ3に接続する。ネットワーク2は、例えば携帯電話のパケット通信網や、電話線を利用したADSLや、光ファイバを利用したFTTHなどがある。尚、図1ではクライアント端末を1個だけ示すが、現実には複数のクライアント端末1が同時に音声合成情報処理サーバ3にアクセスする状況が考えられる。
音声合成情報処理サーバ3は、合成したいテキストに対応する音声素片情報の決定を行い、クライアント端末1に送信する。クライアント端末1は、音声合成に必要な音声素片系列情報を音声合成情報処理サーバ3から受信し、クライアント端末1内の音声合成装置または音声合成プログラムは受信した音声素片情報を利用して音声合成を実施する。
ここで、クライアント端末1における音声合成装置は、例えばCPU(Central Processing Unit)やRAM、ハードディスク装置等から構成される公知のコンピュータに所定のプログラムを実行させることにより構成されるものでもよいし、図2に示すような、プログラム及び演算結果などを格納するRAM等で構成するワークメモリ40、プログラムに基づき演算などをするとともに音声合成装置の各構成要素を制御するMPU(Micro Processing Unit)41、音声素片データ及びその他のファイルを格納するROM等で構成する蓄積メモリ42、ネットワーク2へテキストデータを送信し、またネットワーク2からデータを受信するためのデータ送受信部43、音声出力部44とを具備する。
パーソナルコンピュータ等においては、上記蓄積メモリ42は磁気ディスク等で実装してもよい。また、音声合成情報処理サーバ3は、例えばCPUやRAM、ハードディスク装置等から構成される公知のコンピュータに所定のプログラムを実行させることにより構成されるものである。
図3は、本実施形態における音声合成情報処理サーバ3の概念的な構成図の例示である。
本実施形態の音声合成情報処理サーバ3は、テキストデータ受信部9、テキスト解析部10、韻律パラメータ取得部11、音声素片探索部12、音声素片情報送出部13、音声素片インデックスIndex-1とを有している。
図4は、本形態での音声合成情報処理サーバ3における音声素片情報送信処理を説明するための流れ図である。
以下に上記の図3及び図4に従って、本実施形態の音声素片情報送信の詳細を説明する。音声合成情報処理サーバ3はクライアント端末1から送られて来たテキストデータを受信する(ステップS4−1)と、テキスト解析部10ではテキスト解析処理を実施し、読み情報及び韻律情報を生成する(S4−2)。ここでいうテキスト解析処理は、主に形態素解析処理と読み・アクセント付与処理からなるがこれらの処理方法については従来から様々な方法が存在し、例えば(参考文献:特許第3379643号明細書「形態素解析方法および形態素解析プログラムを記録した記録媒体」)や、(参考文献:特許第3518340号明細書「読み韻律情報設定方法及び装置及び読み韻律情報設定プログラムを格納した記録媒体」)、の方法に基づいて行うこともできる。
次に、韻律パラメータ取得部11で前記韻律情報に基づいて韻律パラメータを求める(S4−3)。ここで韻律パラメータとしてはピッチ(基本周波数)や音素継続時間長等があるが、これらを求める方法も従来から存在し、例えば(参考文献:特許第3240691号明細書「ピッチパタン生成方法、その装置及びプログラム、記録媒体」)や、(参考文献:特許第3344487号明細書「音声基本周波数パターン生成装置」)の方法によってピッチ(基本周波数)を求めることが可能である。また、例えば(参考文献:海木ら、「言語情報を利用した母音継続時間長の制御」vol.75, No.3 pp.467-463、信学論,1992)や、(参考文献:M.D. Riley. “Tree-based modeling for speech synthesis.” In G. Bailly C. Benoit, and T.R. Sawallis, editors, Talking Machines: Theories, Models, and Designs, pages 265-273. Elsevier, 1992.)の方法により音素継続時間長を求めることもできる。
次に、前述の読み情報と韻律パラメータに従って、音声素片探索部12において、音声素片インデックスIndex-1を用いて最適な音声素片系列を決定する(S4−4)。ここで音声素片インデックスの構成や音声素片系列の決定方法としては、例えば、特許第3515406号明細書「音声合成方法及び装置」等もあるが、ここでは、図11で示す音声素片インデックスの概念図を用いて説明する。
前記の読み情報と韻律情報の組をキーとして、音声素片インデックスIndex-1を探索し、該当音声素片インデックスIndex-1から、これの組の類似範囲に属する読み情報である音律列と韻律パラメータの組と対応する、音声素片を選択し音声素片系列を決定する。
尚、ここでいう類似範囲とは、例えば読み情報及び韻律パラメータが完全に一致するもの、一部一致するもの、コストによって特定される類似度が高いものなどを含む概念である。例えば、読み情報として、音韻が「ア」、前音素環境が“#”が与えられ、韻律パラメータとして、平均F0が200±10Hzという条件が与えられた場合、図11で示すような音声素片A1、A2、A3の3つが適合することになる。さらに前記読み情報と韻律パラメータに対して、音声素片インデックスIndex-1内の音声素片に適合する読み情報と韻律パラメータから総合コスト値を計算し、コスト最小となる音声素片を選択することもできる。
ここで、総合コスト計算方法であるが、例えば、下記のようにサブコスト関数を用いて総合コストPnewを求めることができる(参考文献:「波形編集型合成方式におけるスペクトル連続性を考慮した波形選択法」、日本音響学会講演論分集、2-6-10、pp.413-414、1990/9)。
読み情報としての音韻系列と、音声素片の読み情報としての音韻系列が一致する音韻数をnとし、読み情報に対応するサブコスト関数を
C1(n)=1/en
韻律パラメータのうち平均ピッチVpと、音声素片の平均ピッチVsに対応するサブコスト関数を
C2(Vp,Vs)=|Vp-Vs|2
韻律パラメータのうちピッチの傾きFpと、音声素片のピッチの傾きFsに対応するサブコスト関数を
C3(Fp,Fs)=|Fp-Fs|2
韻律パラメータのうち時間長Tpと、音声素片の時間長Tsに対応するサブコスト関数を
C4(Tp,Ts)=|Tp-Ts|2
韻律パラメータのうち振幅Apと、音声素片の振幅Asに対応するサブコスト関数を
C5(Ap,As)=|Ap-As|2
とし、上記C1、C2、C3、C4、C5の各サブコスト関数に対応するサブコスト重みとしてそれぞれ、ω1、ω2、ω3、ω4、ω5が予め与えられていたとき
Ω=ω2C2(Vp,Vs)+ω3C3(Fp,Fs)+ω4C4(Tp,Ts)+ω5C5(Ap,As)
P=ω1C1(n)+(1-ω1
Pnew=(1+G)P : Gは音響的な尺度
こうして求められた各音声素片の総合コストを用いて、例えば一般的なDP(Dynamic Programming)法やViterbi法を用いることで、容易にコスト最小となるような音声素片を順次選択することができ音声素片系列を決定することができる。
次に、音声素片情報送出部13において、前記音声素片系列において音声素片情報をクライアント端末1に対して送信する(S4−5)。
図5は、上記実施形態でのクライアント端末1の概念的な構成図の例示である。本実施形態のクライアント端末1は、テキストデータ送信部29、音声素片情報受信部30、音声素片データ読み出し部31、音声素片接続部32、音声出力部33、音声素片データベースDB-1とを有している。
図6は、本実施形態でのクライアント端末1における音声合成処理を説明するための流れ図である。
以下、図5と図6に従って、本実施形態における音声合成処理の詳細を説明する。
先ず、クライアント端末1は生成したい合成音声に対応するテキストデータをネットワーク2を通じて音声合成情報処理サーバ3に送信する(S6−1)。
音声合成情報処理サーバ3は送り込まれたテキストデータを解析し、クライアント端末1に音声素片情報を返送する。クライアント端末1はネットワーク2を通して、音声合成情報処理サーバ3から送信された音声素片情報を音声素片情報受信部30で受信する(S6−2)。
次に、音声素片データ読み出し部31において、受信した音声素片情報に基づいて、音声素片データベースDB-1から音声素片データを読み出す(S6−3)。
ここで、受信した音声素片情報が格納されている音声合成情報処理サーバ3に存在する音声素片インデックスIndex-1と、図12に示すようなクライアント端末1に備えられている音声素片データベースDB-1は物理的に別々に存在していても、理論的に対応付けられているため、該音声素片情報から対応する音声データを容易に読み出すことができる。
例えば、音声素片情報として、音声素片A2、音声素片R1、音声素片I2、…の中から、音声素片A2に対応する音声素片格納情報に基づいて音声素片データとして、ファイル番号8、始点10msec、時間長110msecの音声データを読み出し、音声素片R1に対応する音声素片データとして、ファイル番号23、始点5225msec、時間長15msec、音声素片I2に対応する音声素片データとして、ファイル番号23、始点5240msec、時間長95msecの音声データを読み出す、のように順次音声素片データの読み出しを行う。
次に、音声素片接続部32において、前記読み出された音声素片を順次接続し合成音声データを生成する(S6−4)。ここで、音声素片データを時間的な順に単に接続してもよいが、異なる音声素片間を時間的又は周波数的に補完することも容易である。(参考文献:特開平07-072897号公報「音声合成方法および装置」)最後に、前記接続された音声素片データは、音声出力部33において、合成音声として出力される(S6−5)。
なお、上述ではテキストデータをクライアント端末1から音声合成情報処理サーバ3に送信するものとして説明したが、必ずしもその必要はなく、例えばネットワーク上にテキストデータを多数備えたサーバを用意し、このサーバにクライアント端末1から希望するテキストデータを音声合成情報処理サーバ3に送ることを指示することにより、音声合成情報処理サーバ3に目的のテキストデータを送り込むようにしてもよい。
図7は、この発明の第2実施形態で提案する音声合成情報処理サーバ3'の概念的な構成図の例示である。
本実施形態の音声合成情報処理サーバ3'はテキストデータ受信部9、テキスト解析部10、韻律パラメータ取得部11、音声素片探索部12、音声素片情報・韻律パラメータ送出部14、音声素片インデックスIndex-1、とを備えて構成されている。
図8は、この第2実施形態で提案する音声合成情報処理サーバ3'における音声素片情報送信処理を説明するための流れ図である。
以下、上記の図7と図8に従って、第2実施形態の音声素片情報送信の詳細を説明する。音声合成情報処理サーバ3'はクライアント端末から送信されたテキスト情報が入力されてから、音声素片情報が得られるまでの、テキスト解析部10、韻律パラメータ取得部11、音声素片探索部12における構成及び処理の内容は前述の第1実施形態と同様に実行することが可能である。
この第2実施形態ではクライアント端末における合成音声品質の改善を可能とするために、以下の処理を行う。
音声素片情報・韻律パラメータ送出部14において、音声素片探索部12で決定された音声素片情報に加えて、韻律パラメータ取得部11で得られた韻律パラメータを、クライアント端末に対して送信する。
図9は、上記音声合成情報処理サーバ3'に対応したクライアント端末1'の概念的な構成図の例示である。
本実施形態のクライアント端末1'における音声合成装置は、テキストデータ送信部29と、音声素片情報・韻律パラメータ受信部34、音声素片データ読み出し部31、音声素片接続・変形部35、音声出力部33、音声素片データベースDB-1、とを有している。
図10は、本実施形態のクライアント端末1'における音声合成処理を説明するための流れ図である。以下、この図に従って、本実施形態における音声合成処理の詳細を説明する。
この実施例2でも図6の場合と同様にクライアント端末1'はテキストデータ送信部29から目的とするテキストデータを音声合成情報処理サーバ3'に送信する(S10−1)。音声合成情報処理サーバ3'は送り込まれたテキストデータを解析し、そのテキストデータに対応する音声素片データと韻律パラメータをクライアント端末1'に返送する。クライアント端末1'はネットワーク2を通して、音声合成情報処理サーバ3'から送信された音声素片情報及び韻律パラメータを音声素片情報・韻律パラメータ受信部34で受信する(S10−2)。
次に、音声素片データ読み出し部31における処理の内容は、前述の第1実施形態における音声素片データ読み出し部31の処理と同様に実行できる(S10−3)。
次に、音声素片接続・変形部35において、音声素片データ読み出し部31で読み出された音声素片を順次接続し合成音声データを生成する(S10−4)。ここで、音声素片データを時間的な順に接続する際に異なる音声素片間を時間的又は周波数的に補完するとともに(参考文献:特開平07-072897号公報「音声合成方法および装置」)、前記受信した韻律情報に基づいて音声素片データに対し信号処理を施した後に接続を行う(S10−4)。(参考文献:Y. Stylianou, "Applying the Harmonic Plus Noise Model in Concatenative Speech Synthesis." IEEE TRANSACTIONS ON SPEECH AND AUDIO PROSESSING, VOL.9, NO.1, pp.21-29 JANUARY 2001)(S10−4)。
こうすることで、処理量は多少増加するものの、単純に補完して接続する場合と比較して、信号処理により音声素片の時間長や基本周波数F0を制御することが可能となるため、より韻律的に正確な合成音声の出力が可能となり、合成音声の総合的な品質が改善される。
最後に前記接続された音声素片データは、音声出力部33において、合成音声として出力される(S10−5)。
なお、この実施例2でもテキストデータをクライアント端末1'から音声合成情報処理サーバ3'に送り込むものとして説明したが、必ずしもその通りでなくてもよく、クライアント端末1'の指示に従って他のサーバからテキストデータを音声合成情報処理サーバ3'に送り込んでもよい。
以上説明したこの発明によるクライアント端末1、1'、及び音声合成情報処理サーバ3、3'はそれぞれ、この発明で提案するクライアント端末プログラム及び音声合成情報処理プログラムをコンピュータにインストールし、コンピュータにプログラムを実行させることによって実現することができる。
この発明で提案するクライアント端末プログラム及び音声合成処理プログラムはコンピュータが解読可能なプログラム言語によって記述され、コンピュータが読み取り可能な例えば磁気ディスク或いはCD−ROMのような記録媒体に記録される。コンピュータにはこの記録媒体から又は通信回線を通じてインストールされる。インストールされたプログラムはコンピュータに備えられたCPU或いはMPUによって解読されて実行される。
この発明は携帯端末を用いた音声案内システム、自動予約システム或いはカーナビゲーションにおける音声ガイドシステム等の分野に利用可能である。
この発明による音声合成方法の概要を説明するためのブロック図。 この発明による音声合成方法に用いられるクライアント端末の全体の構成を説明するためのブロック図。 この発明による音声合成方法に用いる音声合成情報処理サーバの構成を説明するためのブロック図。 図3に示した音声合成情報処理サーバの動作を説明するためのフローチャート。 図2に示したクライアント端末内に構築される音声合成手段の構成を説明するためのブロック図。 図5に示したクライアント端末内に構築された音声合成手段の動作を説明するためのフローチャート。 この発明の実施例2で提案する音声合成処理サーバの構成を説明するためのブロック図。 図7に示した音声合成情報処理サーバの動作を説明するためのフローチャート。 図7に示した音声合成情報処理サーバと対応して動作するクライアント端末の構成を説明するためのブロック図。 図9に示したクライアント端末の動作を説明するためのフローチャート。 この発明による音声合成処理サーバに備えたインデックスの概要を説明するための図。 この発明によるクライアント端末に備えた音声素片データベースの概要を説明するための図。
符号の説明
1、1' クライアント端末 34 音声素片情報・韻律パラメータ受信部
2 ネットワーク 35 音声素片接続・変形部
3、3' 音声合成情報処理サーバ 40 ワークメモリ
9 テキストデータ受信部 41 MPU
10 テキスト解析部 42 蓄積メモリ
11 韻律パラメータ取得部 43 データ送受信部
12 音声素片探索部 44 音声出力部
13 音声素片情報送出部
14 音声素片情報・韻律パラメータ送出部
Index-1 音声素片インデックス
29 テキストデータ送信部
30 音声素片情報受信部
31 音声素片データ読み出し部
32 音声素片接続部
33 音声出力部
DB-1 音声素片データベース

Claims (9)

  1. サーバでテキスト解析された結果を音声素片情報として受信する音声素片情報受信ステップと、
    受信した音声素片情報に基づいて音声素片データベースから音声素片データを読み出す音声素片データ読み出しステップと、
    読み出された音声素片データを順に接続して合成音声データを生成する音声素片接続ステップと、
    合成音声データを順次合成音声として出力する音声出力ステップと、
    を実行することを特徴とする音声合成方法。
  2. 送られてきたテキストデータを受信するテキストデータ受信ステップと、
    受信したテキストデータに対してテキスト解析を行い読み情報及び韻律情報を取得するテキスト解析ステップと、
    前記韻律情報から、音声合成に必要な物理的な韻律パターンを取得する韻律パターン取得ステップと、
    音声素片インデックスを用いて前記読み情報及び韻律パラメータに基づいて音声素片情報を取得する音声素片探索ステップと、
    前記音声素片情報をネットワークに送出する音声素片情報送信ステップと、
    を実行することを特徴とする音声合成情報処理方法。
  3. 自己宛に送られて来た音声素片情報を受信する音声素片情報受信手段と、
    受信した音声素片情報に基づいて音声素片データベースから音声素片データを読み出す音声素片データ読み出し手段と、
    読み出された音声素片データを順に接続して合成音声データを生成する音声素片接続手段と、
    前記合成音声データを合成音声として順次出力する音声出力手段と、
    を備えることを特徴とするクライアント端末。
  4. 請求項3記載のクライアント端末において、前記音声素片情報受信手段は音声素片情報に加えて韻律パラメータを受信し、前記音声素片接続手段は読み出された音声素片データを前記韻律パラメータに従って変形処理を行った後に順に接続合成音声データを生成し、生成された接続合成音声データを前記音声出力手段から合成音声として出力することを特徴とするクライアント端末。
  5. 自己宛に送られて来たテキストデータを受信するテキストデータ受信手段と、
    受信したテキストデータに対してテキスト解析を行い読み情報及び韻律情報を取得するテキスト解析手段と、
    前記韻律情報から、音声合成に必要な物理的な韻律パラメータを取得する韻律パラメータ取得手段と、
    音声素片インデックスを用いて前記読み情報及び韻律パラメータに基づいて音声素片情報を取得する音声素片探索手段と、
    前記音声素片情報をネットワークに送出する音声素片情報送信手段と、
    を備えることを特徴とする音声合成情報処理サーバ。
  6. 請求項5記載の音声合成情報処理サーバにおいて、前記音声素片情報送出手段は前記音声素片情報に韻律パラメータを付加して送出することを特徴とする音声合成情報処理サーバ。
  7. コンピュータが解読可能なプログラム言語によって記述され、コンピュータに少なくとも請求項3又は4の何れかに記載のクライアント端末として機能させるクライアント端末プログラム。
  8. コンピュータが読取可能なプログラム言語によって記述され、コンピュータに少なくとも請求項5又は6の何れかに記載の音声合成情報処理サーバとして機能させる音声合成情報処理プログラム。
  9. コンピュータが読み取り可能な記録媒体によって構成され、この記録媒体に少なくとも請求項7記載のクライアント端末プログラム又は請求項8記載の音声合成情報処理プログラムの何れかを記録した記録媒体。
JP2005177720A 2005-06-17 2005-06-17 クライアント端末、音声合成情報処理サーバ、クライアント端末プログラム、音声合成情報処理プログラム Expired - Fee Related JP4653572B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005177720A JP4653572B2 (ja) 2005-06-17 2005-06-17 クライアント端末、音声合成情報処理サーバ、クライアント端末プログラム、音声合成情報処理プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005177720A JP4653572B2 (ja) 2005-06-17 2005-06-17 クライアント端末、音声合成情報処理サーバ、クライアント端末プログラム、音声合成情報処理プログラム

Publications (2)

Publication Number Publication Date
JP2006350091A true JP2006350091A (ja) 2006-12-28
JP4653572B2 JP4653572B2 (ja) 2011-03-16

Family

ID=37646007

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005177720A Expired - Fee Related JP4653572B2 (ja) 2005-06-17 2005-06-17 クライアント端末、音声合成情報処理サーバ、クライアント端末プログラム、音声合成情報処理プログラム

Country Status (1)

Country Link
JP (1) JP4653572B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010237307A (ja) * 2009-03-30 2010-10-21 Nippon Telegr & Teleph Corp <Ntt> 音声学習・合成システム及び音声学習・合成方法
JP2012173702A (ja) * 2011-02-24 2012-09-10 Denso Corp 音声案内システム
JP2013161038A (ja) * 2012-02-08 2013-08-19 Denso Corp 音声出力装置、および、音声出力システム
WO2015111256A1 (ja) * 2014-01-24 2015-07-30 クラリオン株式会社 音声調整システム、サーバ及び車載装置

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05233565A (ja) * 1991-11-12 1993-09-10 Fujitsu Ltd 音声合成システム
JP2000020417A (ja) * 1998-06-26 2000-01-21 Canon Inc 情報処理方法及び装置、その記憶媒体
JP2001043064A (ja) * 1999-07-30 2001-02-16 Canon Inc 音声情報処理方法、装置及び記憶媒体
JP2002196780A (ja) * 2000-12-26 2002-07-12 Advanced Telecommunication Research Institute International 通信システム
JP2002221979A (ja) * 2001-01-24 2002-08-09 Matsushita Electric Ind Co Ltd 音声合成装置、言語辞書メンテナンス方法および言語辞書メンテナンス装置
JP2003029774A (ja) * 2001-07-19 2003-01-31 Matsushita Electric Ind Co Ltd 音声波形辞書配信システム、音声波形辞書作成装置、及び音声合成端末装置
JP2003195884A (ja) * 2001-12-27 2003-07-09 Canon Inc 音声合成装置及びその方法と音声合成システム
JP2006018133A (ja) * 2004-07-05 2006-01-19 Hitachi Ltd 分散型音声合成システム、端末装置及びコンピュータ・プログラム

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05233565A (ja) * 1991-11-12 1993-09-10 Fujitsu Ltd 音声合成システム
JP2000020417A (ja) * 1998-06-26 2000-01-21 Canon Inc 情報処理方法及び装置、その記憶媒体
JP2001043064A (ja) * 1999-07-30 2001-02-16 Canon Inc 音声情報処理方法、装置及び記憶媒体
JP2002196780A (ja) * 2000-12-26 2002-07-12 Advanced Telecommunication Research Institute International 通信システム
JP2002221979A (ja) * 2001-01-24 2002-08-09 Matsushita Electric Ind Co Ltd 音声合成装置、言語辞書メンテナンス方法および言語辞書メンテナンス装置
JP2003029774A (ja) * 2001-07-19 2003-01-31 Matsushita Electric Ind Co Ltd 音声波形辞書配信システム、音声波形辞書作成装置、及び音声合成端末装置
JP2003195884A (ja) * 2001-12-27 2003-07-09 Canon Inc 音声合成装置及びその方法と音声合成システム
JP2006018133A (ja) * 2004-07-05 2006-01-19 Hitachi Ltd 分散型音声合成システム、端末装置及びコンピュータ・プログラム

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010237307A (ja) * 2009-03-30 2010-10-21 Nippon Telegr & Teleph Corp <Ntt> 音声学習・合成システム及び音声学習・合成方法
JP2012173702A (ja) * 2011-02-24 2012-09-10 Denso Corp 音声案内システム
JP2013161038A (ja) * 2012-02-08 2013-08-19 Denso Corp 音声出力装置、および、音声出力システム
WO2015111256A1 (ja) * 2014-01-24 2015-07-30 クラリオン株式会社 音声調整システム、サーバ及び車載装置
JPWO2015111256A1 (ja) * 2014-01-24 2017-03-23 クラリオン株式会社 音声調整システム、サーバ及び車載装置

Also Published As

Publication number Publication date
JP4653572B2 (ja) 2011-03-16

Similar Documents

Publication Publication Date Title
US7113909B2 (en) Voice synthesizing method and voice synthesizer performing the same
JPWO2004097792A1 (ja) 音声合成システム
US7693719B2 (en) Providing personalized voice font for text-to-speech applications
US20090254349A1 (en) Speech synthesizer
US11094312B2 (en) Voice synthesis method, voice synthesis apparatus, and recording medium
KR20110025666A (ko) 개선된 스피치 합성을 제공하는 방법, 장치 및 컴퓨터 프로그램 제품
JP4653572B2 (ja) クライアント端末、音声合成情報処理サーバ、クライアント端末プログラム、音声合成情報処理プログラム
US20080195381A1 (en) Line Spectrum pair density modeling for speech applications
US11842719B2 (en) Sound processing method, sound processing apparatus, and recording medium
JP2008139631A (ja) 音声合成方法、装置、プログラム
KR20230079503A (ko) 샘플 생성 방법 및 장치
CN112037755B (zh) 一种基于音色克隆的语音合成方法、装置及电子设备
US20090177473A1 (en) Applying vocal characteristics from a target speaker to a source speaker for synthetic speech
JP2018004870A (ja) 音声合成装置および音声合成方法
JP4639932B2 (ja) 音声合成装置
KR102689227B1 (ko) 감정 간의 강도 조절이 가능한 감정 음성 생성 방법 및 장치
JP2003233386A (ja) 音声合成方法、音声合成装置および音声合成プログラム
CN112037757A (zh) 一种歌声合成方法、设备及计算机可读存储介质
JP4392383B2 (ja) 音声合成システム、クライアント装置、音声素片データベースサーバ装置、音声合成方法及びプログラム
CN113299271B (zh) 语音合成方法、语音交互方法、装置及设备
JP5387410B2 (ja) 音声合成装置、音声合成方法および音声合成プログラム
JP5049310B2 (ja) 音声学習・合成システム及び音声学習・合成方法
KR100798408B1 (ko) Tts 기능을 제공하는 통신 단말기 및 방법
WO2024174787A1 (zh) 语音编辑方法、装置及相关设备
JP2008241898A (ja) 音声合成装置、方法、プログラム及びその記録媒体、音声案内システム、方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070810

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100223

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100330

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100422

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100803

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100928

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20101207

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20101217

R150 Certificate of patent or registration of utility model

Ref document number: 4653572

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131224

Year of fee payment: 3

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees