JP2006018133A - 分散型音声合成システム、端末装置及びコンピュータ・プログラム - Google Patents

分散型音声合成システム、端末装置及びコンピュータ・プログラム Download PDF

Info

Publication number
JP2006018133A
JP2006018133A JP2004197622A JP2004197622A JP2006018133A JP 2006018133 A JP2006018133 A JP 2006018133A JP 2004197622 A JP2004197622 A JP 2004197622A JP 2004197622 A JP2004197622 A JP 2004197622A JP 2006018133 A JP2006018133 A JP 2006018133A
Authority
JP
Japan
Prior art keywords
waveform
terminal device
content
function
processing server
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2004197622A
Other languages
English (en)
Other versions
JP2006018133A5 (ja
Inventor
Nobuo Nukaga
信尾 額賀
Toshihiro Kujirai
俊宏 鯨井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2004197622A priority Critical patent/JP2006018133A/ja
Priority to US11/030,109 priority patent/US20060004577A1/en
Publication of JP2006018133A publication Critical patent/JP2006018133A/ja
Publication of JP2006018133A5 publication Critical patent/JP2006018133A5/ja
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • G10L13/047Architecture of speech synthesisers

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)

Abstract

【課題】テキストから音声を合成するテキスト音声合成技術おいて、最適素片選択型音声合成を、比較的計算パワーの小さい端末装置にて行えるようにする。
【解決手段】テキストから音声を合成するテキスト音声合成において、コンテンツ生成、出力に関して、素片選択処理の結果を二次コンテンツとして出力することで、負荷の高い素片選択処理と、負荷の軽い音声波形合成処理とに分離して処理可能とした。これにより、素片選択処理をサーバ側で実施し、使用素片情報を端末に送信し合成用のデータとする。
【選択図】 図3

Description

本発明は、テキストから音声を合成するテキスト音声合成技術に関する。特に、自動車や携帯電話等の移動体装置に対して情報を配信し、移動体装置において音声合成を行う、情報読み上げサービスにおいて極めて有効な、分散型音声合成システム、端末装置及びコンピュータ・プログラムに関する。
近年、任意のテキストを音声に変換する音声合成技術が開発され、カーナビゲーションシステムや自動音声応答装置、ロボットの音声出力部、福祉機器等、様々な装置・システムに適用されている。
例えば、サーバ側に入力されたテキストデータを通信回線を介して端末装置へ伝送し、端末装置で音声情報として出力する情報配信システムでは、入力されたテキストデータに対応する音読情報となる中間言語情報を生成する言語処理機能と、この中間言語情報を用いて音声合成を行い音声合成情報を生成する音声合成機能とが必要になる。
前者の言語処理機能に関しては、例えば特許文献1に開示されているような技術がある。特許文献1には、中間言語情報として、音声合成処理における音声合成のためにテキストデータを分析し、所定のデータ形態とした情報をサーバから端末装置に伝送するものが開示されている。
一方、後者の音声合成機能に関して、テキスト音声合成の音質は、これまで「機械の音声」と称されるほど、録音された肉声をつなぎ合わせて出力する録音再生方式の音質とはかけはなれていたが、近年の音声合成技術の進歩により、その差は縮まっている。
音質を改善するための方法として、大量の波形データベースから最適な素片(音声波形の断片)を選択し合成を行う「コーパスベース音声合成方式」が成功を収めている。コーパスベース音声合成方式では、合成音声の音質を近似する評価値を用いて素片を選択するため、上記評価値の設計が主たる技術課題である。コーパスベース音声合成方式が導入される以前は、合成音質を向上するために経験的な知識に頼らざるを得なかったが、コーパスベース音声合成方式では、合成音質の向上は、評価値の設計手法に置き換えることができるため、透明性が高くなり、広く技術を共有できる利点を持つ。
コーパスベース音声合成には2つのタイプのシステムがある。一つは、狭義の素片接続型音声合成である。このアプローチでは、合成音声はコスト関数と呼ばれる基準を用いて選択された最適な音声波形を用いて生成され、波形の生成時には韻律情報による変形は行われず直接接続される。他方のアプローチでは、選択された音声波形の韻律及びスペクトルは信号処理技術を用いて変形される。
前者の例としては、非特許文献1に記載されるシステムが挙げられる。当該システムでは、ターゲットコストと接続コストと呼ばれる二つのコスト関数を用いる。ターゲットコストは、モデルから生成されたターゲットパラメータと、コーパスに格納されているパラメータの異なり度合い(距離)の尺度である。ターゲットパラメータには、基本周波数、パワー、継続時間長、スペクトルが含まれる。接続コストは、波形の接続点でのパラメータの距離をあらわす尺度として計算される。該システムでは、ターゲットコストと接続コストの重み付け加算で求められる評価値を最小化するように、動的計画法により最適波形が求められる。このアプローチでは、波形選択に関するコスト関数の設計が極めて重要である。
後者の例としては、非特許文献2に記載されるシステムが挙げられる。このシステムでは、上記非特許文献1のシステムと同様な評価値を用いて素片の選択を行うが、素片を接続する際に信号処理技術を用いて変形を行う。
特開平11−265195号公報 A.J.Hunt and A.W.Black, "Unit selection in a concatenative speech synthesis system using a large speech database," Proc.IEEE−ICASSP’96,pp.373−376,1996 Y.Stylianou,"Applying the Harmonic Plus Noise Model in Concatenative Speech Synthesis," IEEE Transactions on Speech and Audio Processing, Vol.9,No.1,pp.21−29,2001
上記のように、音声合成に関して、コーパスベース音声合成技術を用いることにより、肉声に近い音質を達成しつつあるが、コーパスベース音声合成技術では、大量の波形の中から目的の素片を選択し波形合成を行う方式のため、計算量が大きくなるという欠点を持っている。一般的な従来型の組み込み型音声合成システムが必要とする波形のデータ量は、数百バイトから数メガバイトであったのに対し、上記コーパスベース音声合成システムでの波形のデータ量は、数百メガバイトから数ギガバイトの容量となる。このため、波形データを格納するためのディスク装置に対するアクセス処理に時間が必要となる。
音声合成に関して上記のような大規模なシステムを、カーナビゲーションシステムや携帯電話など、比較的計算機リソースの少ないシステムに搭載すると、発声させたい内容の合成を完了し発声の開始を行うまでに相当数の時間を必要とするため、目的の動作が達せられないという問題が生じる。
本発明の目的は、テキストから音声を合成して出力するものにおいて、高品質な音声を合成するための言語処理機能及び音声合成機能を確保しつつ、かつ、カーナビゲーションシステムや携帯電話など、比較的計算機リソースの少ないシステムでの実現を可能とする、分散型音声合成システム、端末装置及びコンピュータ・プログラムを提供することにある。
上述の課題を解決するために本願において開示される発明のうち代表的なものの概要を簡単に説明すれば以下の通りである。
一般に、コーパスベース音声合成システムでは、入力文から目的の素片系列を選択する素片選択処理と、選択された素片に対して信号処理を行い、波形を生成する波形生成処理に分けられる。本発明では、素片選択処理と波形生成処理の処理量差に着目し、素片選択処理と波形生成処理を別々のプロセスで実施する。
すなわち、本発明の一つの特徴は、テキストから音声を合成するテキスト音声合成処理を、ネットワークを介して配信された一次コンテンツに含まれるテキストデータに対する最適素片選択処理がなされ波形データベースの利用情報が付与された二次コンテンツとして生成する機能と、この二次コンテンツと波形データベースとに基いて、前記テキストデータを音声合成する機能に分割したことを特徴とする。これら2つの機能は、処理サーバと端末装置とでそれぞれ分担することが望ましいが、各機能の一部を他方で分担しても良い。また、より高度な処理結果を得るために、各機能の一部を双方で二重に処理するようにしても差し支えない。
本発明によれば、処理サーバと端末装置がネットワークを介して接続され得る環境において、二次コンテンツとして生成する機能と、この二次コンテンツと波形データベースとに基いて、前記テキストデータを音声合成する機能を分離したため、例えば、最適素片選択処理を処理サーバ側にて実施し、端末装置には最適素片選択処理の結果に伴う波形情報だけを送信することが可能となる。そのため、端末装置のコンテンツデータの送受信を含めた処理負担を大きく軽減することができる。これにより、比較的計算機能力の小さい装置で高品質な音声を合成することが可能となる。そのため、当該の計算機上で行う他の計算処理に対して負荷となることがなくなり、装置全体の応答速度、消費する電力も従来装置と比較して改善できる。
以下、図面を用いて、本発明に関わる分散型音声合成の方法及びシステムの実施の形態について説明する。
はじめに、図1Aおよび図1Bを用いて本発明に関わる分散型音声合成システムの一実施例を説明する。図1Aは、本発明を実施する一実施例のシステムの構成例であり、図1Bは、図1Aのシステムにおける各構成の有する機能を表した図である。
本発明の分散型音声合成システムは、入力されたテキストに対して言語処理等を行って音声情報を生成し端末装置104に対して配信する処理サーバ101、処理サーバ内に設置される波形データベース102、通信ネットワーク103、端末装置からの音声を出力する音声出力装置105、端末装置内に設置される波形データベース106及び処理サーバ101へコンテンツを配信する配信サーバ107からなる。サーバや端末装置は、それぞれデータベースなどを有するコンピュータで構成されており、メモリ上にロードされたプログラムをCPUで処理することによりコンピュータが各種の機能を実現させるものである。処理サーバ101は主な機能として、図1Bに示すように、配信サーバ107から受信したコンテンツについて設定を行うコンテンツ設定機能101A、設定されたコンテンツについて音声合成のための最適素片選択処理を行う最適素片選択処理機能101B、端末装置へ送り出すコンテンツを組成する送出コンテンツ組成機能101C、波形データベース管理機能101E及び通信処理機能101Fを備えている。また、端末装置104は、コンテンツ要求機能104Aと、音声出力機能104Cを含むコンテンツ出力機能104B、音声波形合成機能104D、波形データベース管理機能104E及び通信処理機能104Fを備えている。コンテンツ設定機能101Aやコンテンツ要求機能104Aは、入力用の表示画面あるいはタッチパネル等を備えている。コンテンツ出力機能104Bは、コンテンツとして音声出力装置105へ音声を出力する機能のほか、コンテンツに表示すべきテキストや画像が含まれている場合には、これらのテキストや画像を音声と同期させて端末装置の表示画面に出力する機能も備えている。配信サーバ107は、コンテンツ配信機能107Aを有している。なお、配信サーバ107は処理サーバ101と一体に、単一のすなわち処理サーバとして構成されていても良い。
本構成例において、波形データベース102及び波形データベース106に関しては、少なくとも特定の波形を一意に指定できる指定表現を共有している必要がある。例えば、波形データベース内の全て波形に対する一意に定められる通し番号(ID)は、上記共有指定表現の一例である。また、音素を指定する音素記号と、該音素記号に対応する通し番号の組もその一例である。例えば、「マ」という音声波形がデータベース内にN個存在する場合、i≦Nとなるiに対して、(マ,i)という参照情報は、上記共有指定表現の一例である。また、当然のことながら、波形データベース102及び波形データベース106が、全く同一のデータを保有している場合も、上記指定表現を共有している一例である。
図2は、本発明の具体的な用途として自動車等を考えた場合のシステムを構成例を示すものである。この実施例の分散型音声合成システムは、筐体装置200、処理サーバ201、この処理サーバ201に接続された波形データベース202、筐体内の通信を行う通信路203、端末装置204及び音声出力装置205、情報を配信するための配信サーバ207から構成される。図1Aに示した実施例と異なり端末装置204には波形データベース202が接続されていない。この実施例では、端末装置204側で必要な波形データに関する処理も処理サーバ201が分担する。もちろん、端末装置204に処理能力の余裕があれば、図1Aに示した実施例と同様に、端末装置204側に波形データベース202を接続して波形データに関する処理を行わせるようにしても良い。
ここで、筐体装置200は例えば、自動車等が該当する。車載の処理サーバ201としては、端末装置204と比較して計算能力が優れた計算機装置を設置する。尚、処理サーバ201と端末装置204を格納する筐体装置200は、物理的な筐体を限定するものではなく、例えば、組織内ネットワークやインターネット等のような仮想的システムとして構成されていても良い。処理サーバ201および端末装置204の主な機能は、図1Bで示したものと同じである。
上記図1、図2のいずれの場合でも、分散型音声合成システムは、配信サーバから配信されたコンテンツに関して、音声合成のために必要な処理を行ったコンテンツを生成し出力する処理サーバ(第一の実施例の処理サーバ101、第二の実施例の処理サーバ201)と、このコンテンツに基き音声を出力する端末装置(第一の実施例の端末装置104、第二の実施例の端末装置204)とでシステムが構成される。従って、以下では、図1のシステム構成例を前提に説明するが、これらはそのまま、図2のシステム構成例における端末装置204と処理サーバ201間の情報の送受信ステップに置き換えることができることは言うまでも無い。
なお、以下の説明でコンテンツを区別する必要のある場合には、配信サーバから配信されたオリジナルのコンテンツを一次コンテンツ、この一次コンテンツに含まれるテキストデータに対する最適素片選択処理がなされ波形データベースの利用情報が付与されたコンテンツを二次コンテンツ、と称する。
この二次コンテンツは、中間言語情報付与に加えて最適素片選択処理がなされ波形データベースの利用情報を含む中間データであり、この二次コンテンツを基にさらに波形生成処理すなわち音声波形合成処理がなされ、音声出力装置から音声として出力される。
続いて、図3〜図7を用いて、一次コンテンツに対して処理サーバで、中間言語情報付与に加えて最適素片選択処理を行い波形データベースの利用情報を付与して生成された二次コンテンツを、端末装置へ配信する場合の実施の形態を、詳細に説明する。
ここで対象とする処理は、処理サーバ101で一次コンテンツに対して音声合成の処理を行った二次コンテンツを送出し、端末装置104にて該二次コンテンツに基づき、例えば交通情報やニュース等のテキスト情報を合成音声で読み上げる処理である。
図3は、図1の処理サーバ101及び端末装置104(あるいは図2の処理サーバ201及び端末装置204)で実施する処理例、すなわちコンテンツの送受信を行う際の処理手順例である。図4は、端末装置104と処理サーバ101間で送受信されるデータの構成例である。図5は、端末装置104に関する情報を記録する管理テーブルの一例である。
まず、端末装置104から、波形データベースIDを処理サーバ101に対して送出する(ステップS301)。その際、図4における端末ID401、要求ID402、波形データベースID403に対して、端末に特有な情報を設定してデータを構成する。S301にて送出される波形データベースIDは、図4の403の領域に格納される。ステップS302にて、データを受信した処理サーバ104は、受信したデータから波形データベースIDを検索し、処理サーバ101内に設置するメモリ領域301のうち、波形データベースID記録領域302に、端末104に関するID情報を記録する。
端末104に関するID情報は、例えば図5に示す管理テーブル501として管理する。管理テーブル501は、端末ID部502と波形データベースID503から構成されている。図5の例では、端末IDとして3個の端末のIDが記録されており、各端末に搭載されている波形データベースIDが記録されている。例えば、ID10001の端末においては、WDB0002の波形データベースが格納されていることが示されている。同様に、ID10023の端末にはWDB0004の波形データベース、ID10005の端末にはWDB0002の波形データベースが格納されている。ここで、ID10001及びID10005の端末に関しては、同一の波形データベースIDが記録されていることから、同一の波形データベースが搭載されていることが分かる。
図3のステップS303では、上記管理テーブル501を処理サーバ101内のメモリ領域302に記録する。これは、処理サーバにて以下の素片選択処理を実施する場合、端末装置側にて搭載される素片の特徴が不明であると最適な素片が選択できない。そこで、処理サーバ側にて端末側の素片データを特定できるステップを設けたものである。
続いて、端末装置104では、処理サーバ101に対してコンテンツの配信を要求する(ステップS304)。配信要求を受けた処理サーバ101は、配信サーバ107から一次コンテンツを受信し、処理して配信すべきコンテンツの内容の設定を行う(ステップS305)。例えば、要求されたコンテンツが定時ニュースや天気予報である場合、特別の指定がない限り、コンテンツとして最新の定時ニュースや天気予報を配信するように、設定する。特別の指定があれば、それが処理・配信可能かをサーチし、可能な場合にコンテンツとして配信するように設定する。
続いて、処理サーバ101は、コンテンツ要求を受けた端末装置101に対応する波形データベースIDを、メモリ領域302より読み出す(ステップS306)。続いて処理サーバ101は、設定されたコンテンツ、例えば定時ニュースのテキストデータについて、波形データベースIDに対応した波形データベースから、配信すべきコンテンツを読み上げるために最適な素片を選択したのち(ステップS307)、配信すべき二次コンテンツを組成し(ステップS308)、端末装置104に対して二次コンテンツを送出する(ステップS309)。端末装置104では、受信した二次コンテンツ(ステップS310)に音声波形合成処理を行い、音声出力装置105から音声として出力する(ステップS311)。
上記の各ステップから明らかなとおり、本実施例によれば、従来端末装置104内のみにて行っていたテキストデータから音声変換、音声出力までの一連の処理を、テキストデータに素片選択処理を行い音声データへ変換を行った二次コンテンツとして生成する処理と、この二次コンテンツに基づいて音声波形生成を行う処理との2段階の処理に分けることが可能になる。これにより、指定表現を共有する波形データベースを保持することを前提に、二次コンテンツ生成の処理を、サーバ101側にて実施することが可能となり、端末装置104の、コンテンツデータの送受信を含めた処理負担を大きく軽減することができる。
このため、比較的計算機能力の小さい端末装置でも高品質な音声を合成することが可能となる。その結果、端末装置104で行う他の計算処理に対して負荷となることがなくなり、これにより、システム全体の応答速度を高めることができる。
なお、テキストデータから音声変換、音声出力までの一連の処理を、テキストデータに基づき最適素片選択処理を行い音声データへ変換を行った二次コンテンツとして生成する処理と、この二次コンテンツに基づいて音声波形生成を行う処理との2段階の処理を、サーバ101と端末装置104とでそれぞれ分担することに限定する必要はない。先の図2のシステム構成例のように、サーバ側の処理能力がより大きい場合には、二次コンテンツに基づいた音声波形生成の一部もサーバ101側で処理するようにしても良い。
次に、本発明の特徴である、処理サーバ101における二次コンテンツ生成のための音声合成処理を詳細に説明する。
まず、上記実施の形態のうち、ステップS307の最適素片選択処理に関わる実施の形態、及び送出される二次コンテンツの形態に関して、図6A〜図6Cを用いて、説明する。
図6Aは、処理サーバ101で音声変換処理され送出される、二次コンテンツの例である。二次コンテンツ601は、音声波形生成・出力用の中間データであり、テキスト部602と、波形参照情報を記述する波形情報部603から構成される。テキスト部602には、一次コンテンツの内容すなわち読み上げ対象のテキスト(text)、あるいは言語解析処理結果の発音記号列、例えば中間言語情報(pron)等が格納される。波形情報部603には、テキストデータに対する最適素片選択処理がなされ波形データベースの利用情報が付与される。すなわち、波形情報部603には、波形データベースID情報604、テキスト部602を合成するための波形インデックス情報605等が格納される。本例では、「まもなく、」というフレーズに対するテキスト情報(text)及び発音記号列(pron)がテキスト部602に記載され、「まもなく、」を合成するための波形情報、すなわち、波形データベースID=WDB0002の波形データベースを利用する指示が604に記載され、「マ」に対してはID=50の波形、以下、「モ」はID=104、「ナ」はID=9、「ク」はID=5の波形を利用する指示が波形インデックス情報605に記載されている。上記のコンテンツ記述を用いることで、「まもなく、」という文に対して端末装置内にて最適波形選択を行うことなく、最適な波形情報が得られる。
なお、二次コンテンツ601の構成は、上記実施例に限定されるものではなく、テキスト部602と波形情報部603とが一意に特定されうるようになっていればよい。例えば、入力テキストとして、かな漢字混じりの文章のみならず、ニュースや電子メールで良く使用される英文混じりの文章等にも対応できるように、波形データベースの構成を使用頻度の高い英文や絵文字も対象とするようにするのが良い。
一例として、図6Bに示すように、入力テキストが「TEL下さい。」の場合、発音記号列(pron)で「デンワクダサ’イ」に変換し、波形情報部603で、「デ」に対してはID=30の波形、「ン」はID=84、−−の波形を利用する指示を波形インデックス情報605に記載すればよい。
他の例として、図6Cに示すように、入力テキストが英文"Turn right."の場合、発音記号列(pron)で英語による発音記号「t3:n/ra'lt.」に変換し、波形情報部603で、"t"に対してはID=35の波形、"3:"はID=48、−−の波形を利用する指示を波形インデックス情報605に記載すればよい。
また、入力テキストに付随する画像情報が有る場合には、各入力テキストと対応の画像情報との同期をとるための同期情報を、二次コンテンツ601の構成に付け加え、端末装置のコンテンツ出力機能104Bで同期して出力されるようにすれば良い。
次に、図7を用いて、処理サーバ101における最適素片選択処理、すなわち図3におけるステップS307を説明する。このステップS307に対応する処理には、中間言語情報の生成処理も含まれる。なお、後で述べる図9BおけるステップS908、図10におけるステップS1003の処理内容も、ステップS307と同じ内容である。
最適素片選択処理では、まず、一次コンテンツすなわち入力テキストに対して言語解析辞書701を参照して形態素解析を行う(ステップS701、ステップS702)。形態素とは、文の言語的構成単位を指す。例えば、「東京まで渋滞です。」という文に対しては、「東京/まで/渋滞/です/。」という5つの形態素に分割できる。ここでは、句点も形態素としている。言語辞書701には、形態素情報が格納されている。上記例では、「東京」「まで」「渋滞」「です」「。」という形態素の情報、例えば、品詞、接続情報、読み等の情報が記憶されている。続いて、形態素解析結果に対して、読み及びアクセントの決定を行い、発音記号列を生成する(ステップS703)。一般に、アクセント付与は、アクセント辞書に記載されている情報を検索する処理と、アクセント結合という規則によるアクセント変形を行う処理からなる。上記例に対しては、「トーキョーマ’デ|ジュータイデ’ス>.」という発音記号列に変換される。該発音記号列において、記号「’」はアクセント核の位置を示し、記号「|」はポーズ位置を示し、記号「.」は文の終端を示し、記号「>」は当該音節の母音が無声化することを示している。このように、発音記号列は、音を表す記号だけではなく、アクセントやポーズ等の韻律情報を表す文字から構成される。尚、発音記号列の表記方法は上記に限定するものではない。
続いて、テキストから変換された発音記号列に対して、韻律生成を行う(ステップS704)。韻律生成処理は、合成音声の音の高さを決定する基本周波数パタン生成処理と、各音の長さを決定する継続時間長生成処理からなる。尚、合成音声の韻律は、上記、基本周波数パタン及び継続時間長に限定するものではなく、例えば、各音の大きさを決定するパワーパターン生成処理などを追加しても良い。
続いて、前ステップで生成された韻律情報に対して、評価関数Fを最小にするような素片の組を、波形データベース703から探索する最適素片選択の処理を行い(ステップS705)、得られた素片系列IDを出力する(ステップS706)。上記評価関数Fは、例えば、各素片を構成する音節、上記例では、音節「ト」「ー」「キョ」「ー」「マ」「デ」「ジュ」「ー」「タ」「イ」「デ」「ス>」の各々に対して距離関数fを定義し、Fはfの総和となるような関数として記述する。例えば、音節「ト」に対応する距離関数fは、波形データベース703内にある波形「ト」の基本周波数と継続時間長と、ステップS704で求められた「ト」に対応する区間の基本周波数と継続時間長のユークリッド距離とすればよい。
この定義を用いれば、発音記号列「トーキョーマ’デ|ジュータイデ’ス>.」に対して、波形データベース703内に格納されている断片を用いて構成できる合成音声「トーキョーマ’デ|ジュータイデ’ス>.」の距離Fが計算できる。通常、波形データベース703内には、例えば「ト」に対しては300個格納されている等、複数の波形候補が格納されているので、上記距離Fは、可能な全ての組み合わせ数Nに対して、F(1)、F(2)、...、F(N)と計算でき、これらの距離F(i)の中から最小となるi=kを求め、k番目の素片系列を解とすればよい。
一般に、波形データベース内の全ての組み合わせを計算すると膨大な数となるため、最小となるF(k)は動的計画法などを用いて求めるのがよい。上記例では、距離関数Fの計算には、各音節の距離fに関する韻律パラメータの距離を用いていたが、例えば、素片と素片を接続する際に生じるスペクトルの不連続性を評価する距離を追加してもよく、距離関数Fの実施は上記例に限定するものではない。上記のステップで、入力テキストから素片系列IDを出力する処理を実現することが可能である。
このようにして、図6A〜図6Cに示した二次コンテンツが生成される。これらの二次コンテンツは、通信ネットワーク103を介して処理サーバ101から端末装置104へ送信される。図6A〜図6Cの例でも明らかな通り、二次コンテンツに含まれる情報の量はごく限られた少ないものであり、各端末装置においては、二次コンテンツの情報と各端末装置が保有する波形データベースとから、音声出力を行うことが出来る。
本実施例の二次コンテンツを送る方式は、処理サーバ101から端末装置104へ音声波形データも含めた情報を送信するのに比較して、はるかに少ない情報量の送信で足りる。一例として、「マ」に関して二次コンテンツで送信する情報量(バイト)は、「マ」の音声波形データも含めた情報量の数百分の一で足りる。
次に、図8を用いて、上記二次コンテンツを基に、端末装置104内で音声出力を行うステップの一例を説明する。まず、端末装置104では、処理サーバ101から受信した二次コンテンツを、端末装置4のメモリ801内のコンテンツ記憶領域802に記録する(ステップS801)。続いて、コンテンツ記憶領域802から、処理サーバ101から送信された素片系列IDをコンテンツ記憶領域802から読み込む(ステップS802)。次に、前ステップで得られた素片系列IDを参照し、波形データベース803から対応する波形を検索して、波形を合成し(ステップS803)、音声出力装置105から音声を出力する(ステップS804)。
例えば、図6Aに記載した二次コンテンツ例では、音節「マ」の第50番目の波形、音節「モ」の第104番目の波形、音節「ナ」の第9番目の波形、音節「ク」の第5番目の波形を、波形データベース802から検索し、該波形を接続することで合成音声を生成する(ステップS803)。なお、波形合成の方法としては、上記記載の非特許文献1の方法が利用できるがこの方法に限定するものではない。上記のステップを用いることで、処理サーバにて設定された素片系列を用いた波形合成が可能となる。この場合、端末装置104において処理負荷の高い最適素片選択処理を行わず、しかも最適素片選択処理のなされた高品質な音声を合成する手段を提供できる。なお、音声出力の方式は図8で述べた実施例に限定されるものではない。図8の実施例は、後で述べる音声出力に関する他の実施例と比較した場合、端末装置104の処理能力に余裕が無い場合に適している。
続いて、図9A、図9Bを用いて、本発明の音声合成処理及び出力の処理に関する他の実施例を説明する。この実施例では、端末装置104内に格納した一次コンテンツ、例えば電子メールの読み上げの際に、処理能力の高い処理サーバ101にコンテンツ変換を依頼し、端末装置104では、変換された二次コンテンツを受信して、音声読み上げをする。
図9Aに示すように、この実施例では、処理サーバ101は主な機能として、受信した一次コンテンツについて音声合成のための最適素片選択処理を行う最適素片選択処理機能101B、送出コンテンツ組成機能101C、波形データベース管理機能101E及び通信処理機能101Fを備えている。また、端末装置104は、配信サーバ107から受信した一次コンテンツの設定を行うコンテンツ設定機能104G、音声出力機能104Cを含むコンテンツ出力機能104B、音声波形合成機能104D、波形データベース管理機能104E及び通信処理機能104Fを備えている。
図9Bの処理フローにおいて、まず、端末装置104は、波形データベースIDを処理サーバ101へ送信する(ステップS901)。波形データベースIDを受信した処理サーバ101は、端末ID及び波形データベースIDを、メモリ901内の波形データベースID記憶領域902に記録する(ステップS902、S903)。ここで記憶されるデータは、図5に示した管理テーブル501と同様の情報である。続いて、端末装置104では、配信サーバに変換を依頼する一次コンテンツを組成する(ステップS904)。
ここで、送出される一次コンテンツは、配信サーバ107から端末装置104に配信されたもので、本来、端末装置104内において、例えば図3のステップS307に示す最適素片選択の処理を行い合成音声に変換されるべきコンテンツであるが、端末装置104の計算機能力不足のため端末装置104内での処理に適していないコンテンツから構成される。例えば、比較的容量の大きい電子メールやニュース文等が該当するが、容量の大きさが処理を限定するものではなく、読み上げ対象となるコンテンツであれば容量は問わない。
端末装置104のステップS904では、配信サーバに変換を依頼する一次コンテンツとして、例えば、前回組成を依頼した後に受信した新たな電子メールについて、変換を依頼すべく、組成を行い、この一次コンテンツを、処理サーバ101に対して送出する(ステップS905)。一次コンテンツを受信した処理サーバは(ステップS906)、端末装置104の端末IDに対応した波形データベースIDを、管理テーブル501が記録されている記憶領域902から読み出し、波形データベースを設定する(ステップS907)。続いて、受信した一次コンテンツに対し、最適素片選択を行い(ステップS908)、得られた選択素片情報を受信コンテンツに付与して送出するコンテンツ(二次コンテンツ)を組成する(ステップS909)。そして、上記二次コンテンツを端末装置104に対して送出する(ステップS910)。端末装置104では、選択素片情報の付与された二次コンテンツを受信し(ステップS911)、端末装置4のメモリ内のコンテンツ記憶領域に記録した後、音声波形合成機能により波形を合成し、音声出力機能により音声出力装置から音声を出力する(ステップS912)。
上記ステップにより、本来、端末装置104内にて処理されるべきコンテンツに対して、処理サーバ101内にて最適素片選択の処理を行う方法を提供できる。従来端末装置104内にて行っていた一連の処理のうち負荷の大きな言語処理や最適素片選択の処理を処理サーバにて分担実施することで、端末装置104の処理負担を大きく軽減することができる。
これにより、比較的計算機能力の小さい装置で高品質な音声を合成することが可能となる。そのため、端末装置104で行う他の計算処理に対して負荷となることがなくなり、これにより、システム全体の応答速度を高めることができる。
続いて、図10を用いて、本発明の他の実施例を説明する。この実施例では、処理サーバ101内にてあらかじめ一次コンテンツに処理を施して送出すべき二次コンテンツとして生成しておき、端末装置104からの要求に応じて二次コンテンツを配信する。
この実施例において、処理サーバ101は主な機能として、図1Bの例と同様に、配信サーバ107から受信した一次コンテンツについて設定を行うコンテンツ設定機能101A、受信した一次コンテンツについて音声合成のための最適素片選択処理を行うための最適素片選択処理機能101B、送出コンテンツ組成機能101C、波形データベース管理機能101E及び通信処理機能101Fを備えている。また、端末装置104は、コンテンツ要求機能104A、音声出力機能104Cを含むコンテンツ出力機能104B、音声波形合成機能104D、波形データベース管理機能104E及び通信処理機能104Fを備えている。
図10の処理フローにおいて、まず、処理サーバ101では、配信サーバ107から一次コンテンツを受信し、配信すべきコンテンツを設定する(ステップS1001)。続いて、処理サーバ内のメモリ1001のうち、対象波形データベースIDを記憶領域1002から読み込む(ステップS1002)。ステップS1002で読み込む波形データベースIDは、前記各実施例とは異なり、端末からの要求時に得られる波形データベースIDでなくともよい。例えば、処理サーバ内に格納されている全波形データベースの波形データベースIDを参照することで得られる。続くステップS1003では、前ステップにて読み込んだ波形データベースIDに対応した波形データベースを用いて最適素片選択を行う。続いて、ステップS1003にて得られた素片系列情報を用いて送出すべき二次コンテンツを組成し(ステップS1004)、端末装置からの後の要求に備えて、処理サーバ内のメモリ1001のうち、送出コンテンツ記憶領域1003に、ステップS1002で読み込んだ波形データベースIDと関連付けて保存する。
一方、端末装置104では、処理サーバ101に対してコンテンツ要求を行う(ステップS1006)。コンテンツ要求の際には、端末IDも同時に送信しても良い。
コンテンツ要求を受信した処理サーバ101は(ステップS1007)、処理サーバ内のメモリ1001のうち、送出コンテンツ記憶領域1003に格納されている二次コンテンツから、コンテンツ要求があった波形データベースIDに対応する二次コンテンツを読み出し(ステップS1008)、端末装置104に対してコンテンツを送出する(ステップS1009)。端末装置104では、選択素片情報の付与された二次コンテンツを受信し(ステップS1010)、端末装置4のメモリ内のコンテンツ記憶領域に記録した後、音声波形合成機能により波形を合成し、音声出力機能により音声出力装置から二次コンテンツを読み上げ出力する(ステップS1011)。
この実施例では、処理サーバ101であらかじめ二次コンテンツの組成を行っておくことで、各端末装置からの要求時に遅滞なく送信されることが望ましい一次コンテンツ、例えば、現時刻での交通情報や朝のニュース等に適用するとより効果が高い。しかしながら、図10の実施例においては、一次コンテンツの種類を限定するものではない。
次に、図11を用いて、端末装置104内での音声出力を行うステップの他の一例を説明する。この実施例は、端末装置104に処理能力に若干余裕がある場合に適している。まず、端末装置104では、処理サーバ101から受信した二次コンテンツを、端末装置4のメモリ1101内のコンテンツ記憶領域1102に記録する(ステップS1101)。続いて、コンテンツ記憶領域1102から、発音記号列を読み込み(ステップS1102)、該発音記号列に対し韻律生成を行い、入力テキストに対応する韻律情報を出力する(ステップS1103)。
例えば、図6Aに記載した二次コンテンツ例では、発音記号列(pron)の「マモ’ナク」に対し韻律生成を行い、入力テキストに対応する韻律情報を出力する。上記、ステップS1103の韻律生成処理は、図7で延べた処理と同等の処理方法で構わない。
続いて、ステップS1104では、コンテンツ記憶領域1102から、処理サーバ101から送信された素片系列IDを読み込む。次に、波形合成部では、前ステップで得られた素片系列IDを参照し、波形データベース1103から対応する波形を検索して、図8で記載した方法と同様の方法を用いて波形を合成し(ステップS1105)、音声出力装置105から音声を出力する(ステップS1106)。上記の方法で、処理サーバにて設定された素片系列を用いた波形合成が可能となる。
上記の端末装置104で韻律生成処理処理を行うステップを追加することで、端末装置104において処理負荷の高い最適素片選択処理を行わず、しかも、高品質でより滑らかな音声を合成する手段を提供できる。
次に、図12A、図12Bを用いて、端末装置104内での音声出力を行うステップの他の実施例を説明する。この実施例は、端末装置104の処理能力に余裕がある場合に適している。図12Aにおいて、まず、端末装置104では、処理サーバ101から受信したコンテンツを、端末装置104のメモリ1201内のコンテンツ記憶領域1202に記録する(ステップS1201)。続いて、コンテンツ記憶領域1202からテキストを読み込み(ステップS1202)、テキストに対して、言語解析辞書1203を参照することで形態素解析処理を行う(ステップS1203)。
例えば、図12Bに記載した二次コンテンツ1211の例のように、テキスト部1212のテキスト1212Aが「間もなく」という漢字交じりの文字列であった場合、これをアクセント(pron)1212Bとして「マモ’ナク」に変換する。続いて、形態素解析処理結果に対して、アクセント辞書1204を用いて、読み・アクセント付与処理を行い、発音記号列を生成する(ステップS1204)。ステップS1204では、該発音記号列に対し韻律生成を行い、入力テキストに対応する韻律情報を出力する(ステップS1205)。上記、ステップS1202からステップS1205までの処理は、図7で記載した処理と同等の方法で構わない。続いて、ステップS1206では、コンテンツ記憶領域1202から、処理サーバ101から送信された素片系列IDを読み込む。
次に、波形合成部では、前ステップで得られた波形情報部1213の素片系列ID1214を参照し、波形インデックス情報1215に基き波形データベース1205から対応する波形を検索して、波形を合成し(ステップS1207)、音声出力装置105から音声を出力する。図12Bに記載したコンテンツの例では、各音節に対応する波形を、波形データベース1205から検索し、該波形を接続することで合成音声を生成する(ステップS1208)。
上記のステップを用いることで、端末装置104において処理負荷の高い最適素片選択処理を行わず、高品質な音声を合成する手段を提供できる。しかも、入力テキストに対して、言語解析辞書を参照し形態素解析処理を行い、さらに韻律生成処理処理を行うことで、全体としてかなり精度の高い音声合成処理を行うことができる。
なお、図11や図12で示した韻律生成処理処理や形態素解析処理は、全ての二次コンテンツを対象として行ってもよいが、特定の条件のテキストデータに対してのみこれらの処理を行うように予め条件を設定するようにしても良い。
次に、図13及び図14を用いて、処理サーバ101での、波形データベース管理方法及び最適選択方法に関する実施の形態を説明する。処理サーバでは、音質向上のため、素片選択に使用される波形データベースの更新処理(リビジョンアップ)を行う必要がある。
例えば、図14のような形態で波形データベースを管理する。図14の管理方法では、図5における波形データベース管理方法に加え、同一の波形データベースIDに対する更新ID(リビジョンアップ)により管理する。図13では、端末ID1302が「ID10001」及び「ID10005」に対する波形データベースID1303は、WDB0002で同一であるが、更新ID1304は「000A」と「000B」で異なっている。すなわち、該管理方法を用いることで、「ID10001」と「ID10005」の端末IDを持つ端末は、波形データベースの更新状況が異なっているという情報を管理することができる。
一方、処理サーバ101においては、図14に示す形態で、波形データベースに含まれる各素片のID情報を管理する。図14は、例えば音節「マ」に関する素片の更新状況を管理するテーブルの一例である。管理テーブル1401は、波形ID1402、更新状況1403から構成される。更新状況1403は、更新状況に応じて、「000A」(1404)、「000B」(1405)、「000C」(1406)から構成される。各更新状況においては、各波形IDに対して、「存在しない」「存在するが使用しない」「使用する」の3段階の状態が設定される。例えば、更新状況「000A」においては、波形ID1402が「0001」及び「0002」の波形のみ使用する条件が設定してあり、該素片以外の素片波形は存在しないことが記録されている。
このような管理方法を用いることで、更新状況1403が「000C」の素片を用いる場合、「使用しない」素片の距離関数fを無限大に設定することにより、当該の素片を事実上利用できなくすることができ、更新状況1403が「000C」の波形データベースIDを持つ端末向けの最適な素片選択が可能となる。上記距離関数fは、図7の実施例で示した距離関数と同等である。
なお、本発明は、以上述べた実施例に限定されるものではなく、配信サービスを構成する配信サーバ、処理サーバ、端末装置等へ広く利用可能である。また、読み上げ対象となるテキストの言語は、日本語に限らず、英語その他の言語であってもよい。
本発明の一実施例になる分散型音声合成システムの構成例を示す図。 図1Aのシステムにおける各構成の有する機能を表した図。 本発明の他の実施形態のシステム構成例を示す図。 本発明の一実施例における、処理サーバからコンテンツを送出する場合の端末装置及び処理サーバ間の処理フローを示す図。 本発明の一実施例における、端末装置及び処理サーバ間で送信されるデータ構成例を示す図。 本発明の一実施例における、管理テーブル例を示す図。 本発明における、二次コンテンツの一例を示す図。 本発明における、二次コンテンツの他の例を示す図。 本発明における、二次コンテンツの他の例を示す図。 本発明の一実施例における、処理サーバにおける最適素片選択処理の一例を示す図。 本発明における、端末装置における音声出力処理の一例を示す図。 本発明の他の実施例のシステムにおける各構成の有する機能を表した図。 図9Aの実施例における、端末装置からコンテンツ要求を行う場合の、端末装置及び処理サーバ間の処理フローを示す図。 本発明の他の実施例のシステムにおける、処理サーバで事前にコンテンツを作成する場合の、端末装置及び処理サーバ間の処理フローを示す図。 本発明における、端末装置における音声出力処理の他の例を示す図。 本発明の一実施例における、二次コンテンツを基に端末装置内で音声出力を行うステップの他の例を説明する図。 図12の実施例における、二次コンテンツの例を示す図。 本発明における、処理サーバにおける波形データベース管理方法の一例を示す図。 本発明における、波形データベースに関する波形ID管理方法の一例を示す図。
符号の説明
101 処理サーバ
102 波形データベース
103 電子的ネットワーク
104 端末装置
105 音声出力装置
106 波形データベース
107 配信サーバ
201 処理サーバ
200 筐体装置
202 波形データベース
203 電子的ネットワーク
204 端末装置
205 音声出力装置
401 端末ID
402 要求ID
403 波形データベースID
404 データ構成
501 波形データベースID管理テーブル
601 二次コンテンツ
603 素片情報領域
604 波形データベースID領域
605 素片系列情報領域。

Claims (20)

  1. ネットワークを介して処理サーバに接続し得る端末装置であって、
    前記ネットワークを介して配信された一次コンテンツに含まれるテキストデータに対する最適素片選択処理がなされ波形データベースの利用情報が付与された二次コンテンツを、前記処理サーバから受け取り記録する機能と、
    前記二次コンテンツと波形データベースとに基いて、前記テキストデータを音声合成する機能とを備えている、ことを特徴とする端末装置。
  2. 請求項1記載の端末装置において、前記処理サーバには、前記端末装置に搭載されている波形データベースと特定の波形を一意に指定できる指定表現を共有している波形データベースが搭載されている、ことを特徴とする端末装置。
  3. 請求項1に記載の端末装置において、
    前記二次コンテンツは、前記一次コンテンツのテキスト及び発音記号列が格納されたテキスト部と、該テキスト部のデータに対して前記最適素片選択処理がなされた波形参照情報を記述する波形情報部とから構成され、
    前記波形情報部には、前記波形データベースを特定するための波形データベースID情報と、前記テキスト部を合成するための波形インデックス情報が格納される、ことを特徴とする端末装置。
  4. 請求項3記載の端末装置において、
    前記二次コンテンツに含まれる発音記号列に対し韻律生成を行い、前記テキスト部のデータに対応する韻律情報を出力する機能を備えている、ことを特徴とする端末装置。
  5. 請求項3記載の端末装置において、
    前記二次コンテンツに含まれるテキストに対して、形態素解析処理を行う機能と、
    前記二次コンテンツに含まれる発音記号列に対し韻律生成を行い、前記テキストデータに対応する韻律情報を出力する機能を備えている、ことを特徴とする端末装置。
  6. 処理サーバと、ネットワークを介して前記処理サーバに接続された端末装置とを含み、前記ネットワークを介して受信した一次コンテンツに含まれるテキストデータを音声合成して出力する分散型音声合成システムであって、
    前記処理サーバは、
    前記ネットワークを介して受信した一次コンテンツに含まれるテキストデータに対する最適素片選択処理を行い、波形データベースの利用情報を付与して二次コンテンツを生成する機能と、
    該二次コンテンツを前記端末装置に送信する機能とを備えている、ことを特徴とする分散型音声合成システム。
  7. 請求項6記載の分散型音声合成システムにおいて、
    前記処理サーバと前記端末装置は、特定の波形を一意に指定できる指定表現を共有している波形データベースを、各々搭載している、ことを特徴とする分散型音声合成システム。
  8. 請求項7に記載の分散型音声合成システムにおいて、
    前記二次コンテンツは、前記一次コンテンツのテキスト及び発音記号列が格納されたテキスト部と、該テキスト部のデータに対して前記最適素片選択処理がなされた波形参照情報を記述する波形情報部とから構成され、
    前記波形情報部には、前記波形データベースを特定するための波形データベースID情報と、前記テキスト部のテキストを合成するための波形インデックス情報が格納される、ことを特徴とする分散型音声合成システム。
  9. ネットワークを介して処理サーバに接続された端末装置において、要求したコンテンツの内容を音声合成して出力するためのコンピュータ・プログラムであって、
    前記コンピュータ・プログラムは、コンピュータに
    前記処理サーバに対して、読みあげ対象となる一次コンテンツを指定する機能と、
    前記処理サーバから、前記一次コンテンツのテキストデータに対して最適選択された素片系列の情報を含む二次コンテンツを受信する機能と、
    波形データベースを用いて、該二次コンテンツの内容を音声合成する機能、とを実現させることを特徴とするコンピュータ・プログラム。
  10. 請求項9記載のコンピュータ・プログラムにおいて、前記端末装置に搭載されている波形データベースと、前記処理サーバに搭載されている波形データベースは、特定の波形を一意に指定できる指定表現を共有していることを特徴とするコンピュータ・プログラム。
  11. 請求項9記載のコンピュータ・プログラムにおいて、
    前記二次コンテンツは、前記一次コンテンツのテキスト及び発音記号列が格納されたテキスト部と、該テキスト部のデータに対して前記最適素片選択処理がなされた波形参照情報を記述する波形情報部とから構成され、前記波形情報部は、利用すべき波形データベースを特定すると波形データベースIDと、該波形データベースID中の利用波形を特定する波形インデックス情報とから構成されることを特徴とするコンピュータ・プログラム。
  12. 請求項9記載のコンピュータ・プログラムにおいて、
    前記二次コンテンツに含まれる発音記号列に対し韻律生成を行い、前記テキスト部のデータに対応する韻律情報を出力する機能を有する、ことを特徴とするコンピュータ・プログラム。
  13. 請求項9記載のコンピュータ・プログラムにおいて、
    前記二次コンテンツに含まれるテキストに対して、形態素解析処理を行う機能と、
    前記二次コンテンツに含まれる発音記号列に対し韻律生成を行い、前記テキストデータに対応する韻律情報を出力する機能とを有する、ことを特徴とするコンピュータ・プログラム。
  14. 請求項9記載のコンピュータ・プログラムにおいて、
    前記端末装置は、管理テーブルを備えており、該管理テーブルは、波形データベースと、該端末装置に搭載している前記波形データベースを特定する識別子情報としての端末ID部とから構成されることを特徴とするコンピュータ・プログラム。
  15. 請求項14記載のコンピュータ・プログラムにおいて、
    前記識別子情報は、前記処理サーバにて管理される識別子情報である、ことを特徴とするコンピュータ・プログラム。
  16. 請求項14記載のコンピュータ・プログラムにおいて、前記端末装置に搭載している前記波形データベースを特定する識別子情報を、該端末装置から前記処理サーバにネットワークを介して伝達する機能、とを実現させることを特徴とするコンピュータ・プログラム
  17. 処理サーバと、ネットワークを介して前記処理サーバに接続された端末装置とを含む分散型音声合成システムにおいて、前記ネットワークを介して受信した一次コンテンツに含まれるテキストデータを音声合成して出力する分散型音声合成用のコンピュータ・プログラムであって、
    前記処理サーバと前記端末装置は、特定の波形を一意に指定できる指定表現を共有している波形データベースを、各々搭載しており、
    前記コンピュータ・プログラムは、コンピュータに
    一次コンテンツに含まれるテキストデータに対する最適素片選択処理を行い、波形データベースの利用情報を付与して二次コンテンツを生成する機能と、
    前記二次コンテンツと波形データベースとに基いて、前記テキストデータを音声合成する機能、とを実現させることを特徴とするコンピュータ・プログラム。
  18. 請求項17記載のコンピュータ・プログラムにおいて、読みあげ対象となる一次コンテンツの素片選択処理を前記端末装置から前記処理サーバに依頼する機能と、
    前記処理サーバにおいて、該依頼に基く二次コンテンツを生成する機能と、
    前記端末装置からのコンテンツ要求に伴い前記二次コンテンツを前記処理サーバに対して送信する機能、とを実現させることを特徴とするコンピュータ・プログラム。
  19. 請求項17記載のコンピュータ・プログラムにおいて、読みあげ対象となる一次コンテンツの素片選択処理を予め処理サーバにて実施して二次コンテンツを生成する機能と、
    前記端末装置からのコンテンツ要求に伴い前記二次コンテンツを前記処理サーバに対して送信する機能、とを実現させることを特徴とするコンピュータ・プログラム。
  20. 請求項17記載のコンピュータ・プログラムにおいて、
    前記処理サーバにおいて、波形IDと更新状況から構成される管理テーブルにより、素片選択に使用される波形データベースの更新処理を行う機能を実現させることを特徴とするコンピュータ・プログラム。
JP2004197622A 2004-07-05 2004-07-05 分散型音声合成システム、端末装置及びコンピュータ・プログラム Withdrawn JP2006018133A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2004197622A JP2006018133A (ja) 2004-07-05 2004-07-05 分散型音声合成システム、端末装置及びコンピュータ・プログラム
US11/030,109 US20060004577A1 (en) 2004-07-05 2005-01-07 Distributed speech synthesis system, terminal device, and computer program thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004197622A JP2006018133A (ja) 2004-07-05 2004-07-05 分散型音声合成システム、端末装置及びコンピュータ・プログラム

Publications (2)

Publication Number Publication Date
JP2006018133A true JP2006018133A (ja) 2006-01-19
JP2006018133A5 JP2006018133A5 (ja) 2007-05-10

Family

ID=35515122

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004197622A Withdrawn JP2006018133A (ja) 2004-07-05 2004-07-05 分散型音声合成システム、端末装置及びコンピュータ・プログラム

Country Status (2)

Country Link
US (1) US20060004577A1 (ja)
JP (1) JP2006018133A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006350091A (ja) * 2005-06-17 2006-12-28 Nippon Telegr & Teleph Corp <Ntt> 音声合成方法、音声合成情報処理方法、クライアント端末、音声合成情報処理サーバ、クライアント端末プログラム、音声合成情報処理プログラム
JP2009527822A (ja) * 2006-02-16 2009-07-30 ハネウェル・インターナショナル・インコーポレーテッド 航空交通管制のための改良されたシステムおよび方法
JP2010237307A (ja) * 2009-03-30 2010-10-21 Nippon Telegr & Teleph Corp <Ntt> 音声学習・合成システム及び音声学習・合成方法
JP2014021136A (ja) * 2012-07-12 2014-02-03 Yahoo Japan Corp 音声合成システム

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080154605A1 (en) * 2006-12-21 2008-06-26 International Business Machines Corporation Adaptive quality adjustments for speech synthesis in a real-time speech processing system based upon load
JP2008185805A (ja) * 2007-01-30 2008-08-14 Internatl Business Mach Corp <Ibm> 高品質の合成音声を生成する技術
US9761219B2 (en) * 2009-04-21 2017-09-12 Creative Technology Ltd System and method for distributed text-to-speech synthesis and intelligibility
FR2993088B1 (fr) * 2012-07-06 2014-07-18 Continental Automotive France Procede et systeme de synthese vocale
JP6385752B2 (ja) * 2013-12-02 2018-09-05 三星電子株式会社Samsung Electronics Co.,Ltd. 送風装置及び空気調和装置用室外機

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE69327774T2 (de) * 1992-11-18 2000-06-21 Canon Information Systems, Inc. Prozessor zur Umwandlung von Daten in Sprache und Ablaufsteuerung hierzu
US20070026852A1 (en) * 1996-10-02 2007-02-01 James Logan Multimedia telephone system
US6870914B1 (en) * 1999-01-29 2005-03-22 Sbc Properties, L.P. Distributed text-to-speech synthesis between a telephone network and a telephone subscriber unit
JP3654083B2 (ja) * 1999-09-27 2005-06-02 ヤマハ株式会社 波形生成方法及び装置
US6810379B1 (en) * 2000-04-24 2004-10-26 Sensory, Inc. Client/server architecture for text-to-speech synthesis
US7277855B1 (en) * 2000-06-30 2007-10-02 At&T Corp. Personalized text-to-speech services
US20020077823A1 (en) * 2000-10-13 2002-06-20 Andrew Fox Software development systems and methods
US6934756B2 (en) * 2000-11-01 2005-08-23 International Business Machines Corporation Conversational networking via transport, coding and control conversational protocols
US7035803B1 (en) * 2000-11-03 2006-04-25 At&T Corp. Method for sending multi-media messages using customizable background images
US6625576B2 (en) * 2001-01-29 2003-09-23 Lucent Technologies Inc. Method and apparatus for performing text-to-speech conversion in a client/server environment
US7035794B2 (en) * 2001-03-30 2006-04-25 Intel Corporation Compressing and using a concatenative speech database in text-to-speech systems
JP2002366186A (ja) * 2001-06-11 2002-12-20 Hitachi Ltd 音声合成方法及びそれを実施する音声合成装置
JP3589216B2 (ja) * 2001-11-02 2004-11-17 日本電気株式会社 音声合成システム及び音声合成方法
US7571100B2 (en) * 2002-12-03 2009-08-04 Speechworks International, Inc. Speech recognition and speaker verification using distributed speech processing
US7260539B2 (en) * 2003-04-25 2007-08-21 At&T Corp. System for low-latency animation of talking heads
WO2004097792A1 (ja) * 2003-04-28 2004-11-11 Fujitsu Limited 音声合成システム
US7788098B2 (en) * 2004-08-02 2010-08-31 Nokia Corporation Predicting tone pattern information for textual information used in telecommunication systems

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006350091A (ja) * 2005-06-17 2006-12-28 Nippon Telegr & Teleph Corp <Ntt> 音声合成方法、音声合成情報処理方法、クライアント端末、音声合成情報処理サーバ、クライアント端末プログラム、音声合成情報処理プログラム
JP4653572B2 (ja) * 2005-06-17 2011-03-16 日本電信電話株式会社 クライアント端末、音声合成情報処理サーバ、クライアント端末プログラム、音声合成情報処理プログラム
JP2009527822A (ja) * 2006-02-16 2009-07-30 ハネウェル・インターナショナル・インコーポレーテッド 航空交通管制のための改良されたシステムおよび方法
JP2010237307A (ja) * 2009-03-30 2010-10-21 Nippon Telegr & Teleph Corp <Ntt> 音声学習・合成システム及び音声学習・合成方法
JP2014021136A (ja) * 2012-07-12 2014-02-03 Yahoo Japan Corp 音声合成システム

Also Published As

Publication number Publication date
US20060004577A1 (en) 2006-01-05

Similar Documents

Publication Publication Date Title
JP6434948B2 (ja) 名前発音システム及び方法
US8990089B2 (en) Text to speech synthesis for texts with foreign language inclusions
US9761219B2 (en) System and method for distributed text-to-speech synthesis and intelligibility
US7596499B2 (en) Multilingual text-to-speech system with limited resources
EP1168299B1 (en) Method and system for preselection of suitable units for concatenative speech
JP4056470B2 (ja) イントネーション生成方法、その方法を用いた音声合成装置及びボイスサーバ
US7233901B2 (en) Synthesis-based pre-selection of suitable units for concatenative speech
CN112309366B (zh) 语音合成方法、装置、存储介质及电子设备
JP2002530703A (ja) 音声波形の連結を用いる音声合成
US20060004577A1 (en) Distributed speech synthesis system, terminal device, and computer program thereof
US20100125459A1 (en) Stochastic phoneme and accent generation using accent class
KR101735195B1 (ko) 운율 정보 기반의 자소열 음소열 변환 방법과 시스템 그리고 기록 매체
US9646601B1 (en) Reduced latency text-to-speech system
JP2018169434A (ja) 音声合成装置、音声合成方法及び音声合成システムならびに音声合成用コンピュータプログラム
KR101097186B1 (ko) 대화체 앞뒤 문장정보를 이용한 다국어 음성합성 시스템 및 방법
US20090112597A1 (en) Predicting a resultant attribute of a text file before it has been converted into an audio file
JP2001272991A (ja) 音声対話方法及び音声対話装置
CN111489752A (zh) 语音输出方法、装置、电子设备和计算机可读存储介质
Zine et al. Towards a high-quality lemma-based text to speech system for the Arabic language
JPH1115497A (ja) 氏名読み音声合成装置
JP2003029774A (ja) 音声波形辞書配信システム、音声波形辞書作成装置、及び音声合成端末装置
US9251782B2 (en) System and method for concatenate speech samples within an optimal crossing point
JP4787686B2 (ja) テキスト選択装置、その方法、そのプログラム、及びその記録媒体
KR20180103273A (ko) 음성 합성 장치 및 음성 합성 방법
WO2023047623A1 (ja) 情報処理装置、情報処理方法及び情報処理プログラム

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070320

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070320

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20070320

A761 Written withdrawal of application

Free format text: JAPANESE INTERMEDIATE CODE: A761

Effective date: 20090116