JP2006018133A

JP2006018133A - 分散型音声合成システム、端末装置及びコンピュータ・プログラム

Info

Publication number: JP2006018133A
Application number: JP2004197622A
Authority: JP
Inventors: Nobuo Nukaga; 信尾額賀; Toshihiro Kujirai; 俊宏鯨井
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2004-07-05
Filing date: 2004-07-05
Publication date: 2006-01-19
Also published as: US20060004577A1

Abstract

【課題】テキストから音声を合成するテキスト音声合成技術おいて、最適素片選択型音声合成を、比較的計算パワーの小さい端末装置にて行えるようにする。
【解決手段】テキストから音声を合成するテキスト音声合成において、コンテンツ生成、出力に関して、素片選択処理の結果を二次コンテンツとして出力することで、負荷の高い素片選択処理と、負荷の軽い音声波形合成処理とに分離して処理可能とした。これにより、素片選択処理をサーバ側で実施し、使用素片情報を端末に送信し合成用のデータとする。
【選択図】図３

Description

本発明は、テキストから音声を合成するテキスト音声合成技術に関する。特に、自動車や携帯電話等の移動体装置に対して情報を配信し、移動体装置において音声合成を行う、情報読み上げサービスにおいて極めて有効な、分散型音声合成システム、端末装置及びコンピュータ・プログラムに関する。

近年、任意のテキストを音声に変換する音声合成技術が開発され、カーナビゲーションシステムや自動音声応答装置、ロボットの音声出力部、福祉機器等、様々な装置・システムに適用されている。

例えば、サーバ側に入力されたテキストデータを通信回線を介して端末装置へ伝送し、端末装置で音声情報として出力する情報配信システムでは、入力されたテキストデータに対応する音読情報となる中間言語情報を生成する言語処理機能と、この中間言語情報を用いて音声合成を行い音声合成情報を生成する音声合成機能とが必要になる。

前者の言語処理機能に関しては、例えば特許文献１に開示されているような技術がある。特許文献１には、中間言語情報として、音声合成処理における音声合成のためにテキストデータを分析し、所定のデータ形態とした情報をサーバから端末装置に伝送するものが開示されている。

一方、後者の音声合成機能に関して、テキスト音声合成の音質は、これまで「機械の音声」と称されるほど、録音された肉声をつなぎ合わせて出力する録音再生方式の音質とはかけはなれていたが、近年の音声合成技術の進歩により、その差は縮まっている。

音質を改善するための方法として、大量の波形データベースから最適な素片（音声波形の断片）を選択し合成を行う「コーパスベース音声合成方式」が成功を収めている。コーパスベース音声合成方式では、合成音声の音質を近似する評価値を用いて素片を選択するため、上記評価値の設計が主たる技術課題である。コーパスベース音声合成方式が導入される以前は、合成音質を向上するために経験的な知識に頼らざるを得なかったが、コーパスベース音声合成方式では、合成音質の向上は、評価値の設計手法に置き換えることができるため、透明性が高くなり、広く技術を共有できる利点を持つ。

コーパスベース音声合成には２つのタイプのシステムがある。一つは、狭義の素片接続型音声合成である。このアプローチでは、合成音声はコスト関数と呼ばれる基準を用いて選択された最適な音声波形を用いて生成され、波形の生成時には韻律情報による変形は行われず直接接続される。他方のアプローチでは、選択された音声波形の韻律及びスペクトルは信号処理技術を用いて変形される。

前者の例としては、非特許文献１に記載されるシステムが挙げられる。当該システムでは、ターゲットコストと接続コストと呼ばれる二つのコスト関数を用いる。ターゲットコストは、モデルから生成されたターゲットパラメータと、コーパスに格納されているパラメータの異なり度合い（距離）の尺度である。ターゲットパラメータには、基本周波数、パワー、継続時間長、スペクトルが含まれる。接続コストは、波形の接続点でのパラメータの距離をあらわす尺度として計算される。該システムでは、ターゲットコストと接続コストの重み付け加算で求められる評価値を最小化するように、動的計画法により最適波形が求められる。このアプローチでは、波形選択に関するコスト関数の設計が極めて重要である。

後者の例としては、非特許文献２に記載されるシステムが挙げられる。このシステムでは、上記非特許文献１のシステムと同様な評価値を用いて素片の選択を行うが、素片を接続する際に信号処理技術を用いて変形を行う。

特開平１１−２６５１９５号公報Ａ．Ｊ．ＨｕｎｔａｎｄＡ．Ｗ．Ｂｌａｃｋ， "Ｕｎｉｔｓｅｌｅｃｔｉｏｎｉｎａｃｏｎｃａｔｅｎａｔｉｖｅｓｐｅｅｃｈｓｙｎｔｈｅｓｉｓｓｙｓｔｅｍｕｓｉｎｇａｌａｒｇｅｓｐｅｅｃｈｄａｔａｂａｓｅ，" Ｐｒｏｃ．ＩＥＥＥ−ＩＣＡＳＳＰ’９６，ｐｐ．３７３−３７６，１９９６Ｙ．Ｓｔｙｌｉａｎｏｕ，"ＡｐｐｌｙｉｎｇｔｈｅＨａｒｍｏｎｉｃＰｌｕｓＮｏｉｓｅＭｏｄｅｌｉｎＣｏｎｃａｔｅｎａｔｉｖｅＳｐｅｅｃｈＳｙｎｔｈｅｓｉｓ，" ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＳｐｅｅｃｈａｎｄＡｕｄｉｏＰｒｏｃｅｓｓｉｎｇ，Ｖｏｌ．９，Ｎｏ．１，ｐｐ．２１−２９，２００１

上記のように、音声合成に関して、コーパスベース音声合成技術を用いることにより、肉声に近い音質を達成しつつあるが、コーパスベース音声合成技術では、大量の波形の中から目的の素片を選択し波形合成を行う方式のため、計算量が大きくなるという欠点を持っている。一般的な従来型の組み込み型音声合成システムが必要とする波形のデータ量は、数百バイトから数メガバイトであったのに対し、上記コーパスベース音声合成システムでの波形のデータ量は、数百メガバイトから数ギガバイトの容量となる。このため、波形データを格納するためのディスク装置に対するアクセス処理に時間が必要となる。

音声合成に関して上記のような大規模なシステムを、カーナビゲーションシステムや携帯電話など、比較的計算機リソースの少ないシステムに搭載すると、発声させたい内容の合成を完了し発声の開始を行うまでに相当数の時間を必要とするため、目的の動作が達せられないという問題が生じる。

本発明の目的は、テキストから音声を合成して出力するものにおいて、高品質な音声を合成するための言語処理機能及び音声合成機能を確保しつつ、かつ、カーナビゲーションシステムや携帯電話など、比較的計算機リソースの少ないシステムでの実現を可能とする、分散型音声合成システム、端末装置及びコンピュータ・プログラムを提供することにある。

上述の課題を解決するために本願において開示される発明のうち代表的なものの概要を簡単に説明すれば以下の通りである。

一般に、コーパスベース音声合成システムでは、入力文から目的の素片系列を選択する素片選択処理と、選択された素片に対して信号処理を行い、波形を生成する波形生成処理に分けられる。本発明では、素片選択処理と波形生成処理の処理量差に着目し、素片選択処理と波形生成処理を別々のプロセスで実施する。

すなわち、本発明の一つの特徴は、テキストから音声を合成するテキスト音声合成処理を、ネットワークを介して配信された一次コンテンツに含まれるテキストデータに対する最適素片選択処理がなされ波形データベースの利用情報が付与された二次コンテンツとして生成する機能と、この二次コンテンツと波形データベースとに基いて、前記テキストデータを音声合成する機能に分割したことを特徴とする。これら２つの機能は、処理サーバと端末装置とでそれぞれ分担することが望ましいが、各機能の一部を他方で分担しても良い。また、より高度な処理結果を得るために、各機能の一部を双方で二重に処理するようにしても差し支えない。

本発明によれば、処理サーバと端末装置がネットワークを介して接続され得る環境において、二次コンテンツとして生成する機能と、この二次コンテンツと波形データベースとに基いて、前記テキストデータを音声合成する機能を分離したため、例えば、最適素片選択処理を処理サーバ側にて実施し、端末装置には最適素片選択処理の結果に伴う波形情報だけを送信することが可能となる。そのため、端末装置のコンテンツデータの送受信を含めた処理負担を大きく軽減することができる。これにより、比較的計算機能力の小さい装置で高品質な音声を合成することが可能となる。そのため、当該の計算機上で行う他の計算処理に対して負荷となることがなくなり、装置全体の応答速度、消費する電力も従来装置と比較して改善できる。

以下、図面を用いて、本発明に関わる分散型音声合成の方法及びシステムの実施の形態について説明する。
はじめに、図１Ａおよび図１Ｂを用いて本発明に関わる分散型音声合成システムの一実施例を説明する。図１Ａは、本発明を実施する一実施例のシステムの構成例であり、図１Ｂは、図１Ａのシステムにおける各構成の有する機能を表した図である。

本発明の分散型音声合成システムは、入力されたテキストに対して言語処理等を行って音声情報を生成し端末装置１０４に対して配信する処理サーバ１０１、処理サーバ内に設置される波形データベース１０２、通信ネットワーク１０３、端末装置からの音声を出力する音声出力装置１０５、端末装置内に設置される波形データベース１０６及び処理サーバ１０１へコンテンツを配信する配信サーバ１０７からなる。サーバや端末装置は、それぞれデータベースなどを有するコンピュータで構成されており、メモリ上にロードされたプログラムをＣＰＵで処理することによりコンピュータが各種の機能を実現させるものである。処理サーバ１０１は主な機能として、図１Ｂに示すように、配信サーバ１０７から受信したコンテンツについて設定を行うコンテンツ設定機能１０１Ａ、設定されたコンテンツについて音声合成のための最適素片選択処理を行う最適素片選択処理機能１０１Ｂ、端末装置へ送り出すコンテンツを組成する送出コンテンツ組成機能１０１Ｃ、波形データベース管理機能１０１Ｅ及び通信処理機能１０１Ｆを備えている。また、端末装置１０４は、コンテンツ要求機能１０４Ａと、音声出力機能１０４Ｃを含むコンテンツ出力機能１０４Ｂ、音声波形合成機能１０４Ｄ、波形データベース管理機能１０４Ｅ及び通信処理機能１０４Ｆを備えている。コンテンツ設定機能１０１Ａやコンテンツ要求機能１０４Ａは、入力用の表示画面あるいはタッチパネル等を備えている。コンテンツ出力機能１０４Ｂは、コンテンツとして音声出力装置１０５へ音声を出力する機能のほか、コンテンツに表示すべきテキストや画像が含まれている場合には、これらのテキストや画像を音声と同期させて端末装置の表示画面に出力する機能も備えている。配信サーバ１０７は、コンテンツ配信機能１０７Ａを有している。なお、配信サーバ１０７は処理サーバ１０１と一体に、単一のすなわち処理サーバとして構成されていても良い。

本構成例において、波形データベース１０２及び波形データベース１０６に関しては、少なくとも特定の波形を一意に指定できる指定表現を共有している必要がある。例えば、波形データベース内の全て波形に対する一意に定められる通し番号（ＩＤ）は、上記共有指定表現の一例である。また、音素を指定する音素記号と、該音素記号に対応する通し番号の組もその一例である。例えば、「マ」という音声波形がデータベース内にＮ個存在する場合、ｉ≦Ｎとなるｉに対して、（マ，ｉ）という参照情報は、上記共有指定表現の一例である。また、当然のことながら、波形データベース１０２及び波形データベース１０６が、全く同一のデータを保有している場合も、上記指定表現を共有している一例である。

図２は、本発明の具体的な用途として自動車等を考えた場合のシステムを構成例を示すものである。この実施例の分散型音声合成システムは、筐体装置２００、処理サーバ２０１、この処理サーバ２０１に接続された波形データベース２０２、筐体内の通信を行う通信路２０３、端末装置２０４及び音声出力装置２０５、情報を配信するための配信サーバ２０７から構成される。図１Ａに示した実施例と異なり端末装置２０４には波形データベース２０２が接続されていない。この実施例では、端末装置２０４側で必要な波形データに関する処理も処理サーバ２０１が分担する。もちろん、端末装置２０４に処理能力の余裕があれば、図１Ａに示した実施例と同様に、端末装置２０４側に波形データベース２０２を接続して波形データに関する処理を行わせるようにしても良い。

ここで、筐体装置２００は例えば、自動車等が該当する。車載の処理サーバ２０１としては、端末装置２０４と比較して計算能力が優れた計算機装置を設置する。尚、処理サーバ２０１と端末装置２０４を格納する筐体装置２００は、物理的な筐体を限定するものではなく、例えば、組織内ネットワークやインターネット等のような仮想的システムとして構成されていても良い。処理サーバ２０１および端末装置２０４の主な機能は、図１Ｂで示したものと同じである。

上記図１、図２のいずれの場合でも、分散型音声合成システムは、配信サーバから配信されたコンテンツに関して、音声合成のために必要な処理を行ったコンテンツを生成し出力する処理サーバ（第一の実施例の処理サーバ１０１、第二の実施例の処理サーバ２０１）と、このコンテンツに基き音声を出力する端末装置（第一の実施例の端末装置１０４、第二の実施例の端末装置２０４）とでシステムが構成される。従って、以下では、図１のシステム構成例を前提に説明するが、これらはそのまま、図２のシステム構成例における端末装置２０４と処理サーバ２０１間の情報の送受信ステップに置き換えることができることは言うまでも無い。

なお、以下の説明でコンテンツを区別する必要のある場合には、配信サーバから配信されたオリジナルのコンテンツを一次コンテンツ、この一次コンテンツに含まれるテキストデータに対する最適素片選択処理がなされ波形データベースの利用情報が付与されたコンテンツを二次コンテンツ、と称する。

この二次コンテンツは、中間言語情報付与に加えて最適素片選択処理がなされ波形データベースの利用情報を含む中間データであり、この二次コンテンツを基にさらに波形生成処理すなわち音声波形合成処理がなされ、音声出力装置から音声として出力される。

続いて、図３〜図７を用いて、一次コンテンツに対して処理サーバで、中間言語情報付与に加えて最適素片選択処理を行い波形データベースの利用情報を付与して生成された二次コンテンツを、端末装置へ配信する場合の実施の形態を、詳細に説明する。

ここで対象とする処理は、処理サーバ１０１で一次コンテンツに対して音声合成の処理を行った二次コンテンツを送出し、端末装置１０４にて該二次コンテンツに基づき、例えば交通情報やニュース等のテキスト情報を合成音声で読み上げる処理である。

図３は、図１の処理サーバ１０１及び端末装置１０４（あるいは図２の処理サーバ２０１及び端末装置２０４）で実施する処理例、すなわちコンテンツの送受信を行う際の処理手順例である。図４は、端末装置１０４と処理サーバ１０１間で送受信されるデータの構成例である。図５は、端末装置１０４に関する情報を記録する管理テーブルの一例である。

まず、端末装置１０４から、波形データベースＩＤを処理サーバ１０１に対して送出する（ステップＳ３０１）。その際、図４における端末ＩＤ４０１、要求ＩＤ４０２、波形データベースＩＤ４０３に対して、端末に特有な情報を設定してデータを構成する。Ｓ３０１にて送出される波形データベースＩＤは、図４の４０３の領域に格納される。ステップＳ３０２にて、データを受信した処理サーバ１０４は、受信したデータから波形データベースＩＤを検索し、処理サーバ１０１内に設置するメモリ領域３０１のうち、波形データベースＩＤ記録領域３０２に、端末１０４に関するＩＤ情報を記録する。

端末１０４に関するＩＤ情報は、例えば図５に示す管理テーブル５０１として管理する。管理テーブル５０１は、端末ＩＤ部５０２と波形データベースＩＤ５０３から構成されている。図５の例では、端末ＩＤとして３個の端末のＩＤが記録されており、各端末に搭載されている波形データベースＩＤが記録されている。例えば、ＩＤ１０００１の端末においては、ＷＤＢ０００２の波形データベースが格納されていることが示されている。同様に、ＩＤ１００２３の端末にはＷＤＢ０００４の波形データベース、ＩＤ１０００５の端末にはＷＤＢ０００２の波形データベースが格納されている。ここで、ＩＤ１０００１及びＩＤ１０００５の端末に関しては、同一の波形データベースＩＤが記録されていることから、同一の波形データベースが搭載されていることが分かる。

図３のステップＳ３０３では、上記管理テーブル５０１を処理サーバ１０１内のメモリ領域３０２に記録する。これは、処理サーバにて以下の素片選択処理を実施する場合、端末装置側にて搭載される素片の特徴が不明であると最適な素片が選択できない。そこで、処理サーバ側にて端末側の素片データを特定できるステップを設けたものである。

続いて、端末装置１０４では、処理サーバ１０１に対してコンテンツの配信を要求する（ステップＳ３０４）。配信要求を受けた処理サーバ１０１は、配信サーバ１０７から一次コンテンツを受信し、処理して配信すべきコンテンツの内容の設定を行う（ステップＳ３０５）。例えば、要求されたコンテンツが定時ニュースや天気予報である場合、特別の指定がない限り、コンテンツとして最新の定時ニュースや天気予報を配信するように、設定する。特別の指定があれば、それが処理・配信可能かをサーチし、可能な場合にコンテンツとして配信するように設定する。

続いて、処理サーバ１０１は、コンテンツ要求を受けた端末装置１０１に対応する波形データベースＩＤを、メモリ領域３０２より読み出す（ステップＳ３０６）。続いて処理サーバ１０１は、設定されたコンテンツ、例えば定時ニュースのテキストデータについて、波形データベースＩＤに対応した波形データベースから、配信すべきコンテンツを読み上げるために最適な素片を選択したのち（ステップＳ３０７）、配信すべき二次コンテンツを組成し（ステップＳ３０８）、端末装置１０４に対して二次コンテンツを送出する（ステップＳ３０９）。端末装置１０４では、受信した二次コンテンツ（ステップＳ３１０）に音声波形合成処理を行い、音声出力装置１０５から音声として出力する（ステップＳ３１１）。

上記の各ステップから明らかなとおり、本実施例によれば、従来端末装置１０４内のみにて行っていたテキストデータから音声変換、音声出力までの一連の処理を、テキストデータに素片選択処理を行い音声データへ変換を行った二次コンテンツとして生成する処理と、この二次コンテンツに基づいて音声波形生成を行う処理との２段階の処理に分けることが可能になる。これにより、指定表現を共有する波形データベースを保持することを前提に、二次コンテンツ生成の処理を、サーバ１０１側にて実施することが可能となり、端末装置１０４の、コンテンツデータの送受信を含めた処理負担を大きく軽減することができる。

このため、比較的計算機能力の小さい端末装置でも高品質な音声を合成することが可能となる。その結果、端末装置１０４で行う他の計算処理に対して負荷となることがなくなり、これにより、システム全体の応答速度を高めることができる。

なお、テキストデータから音声変換、音声出力までの一連の処理を、テキストデータに基づき最適素片選択処理を行い音声データへ変換を行った二次コンテンツとして生成する処理と、この二次コンテンツに基づいて音声波形生成を行う処理との２段階の処理を、サーバ１０１と端末装置１０４とでそれぞれ分担することに限定する必要はない。先の図２のシステム構成例のように、サーバ側の処理能力がより大きい場合には、二次コンテンツに基づいた音声波形生成の一部もサーバ１０１側で処理するようにしても良い。

次に、本発明の特徴である、処理サーバ１０１における二次コンテンツ生成のための音声合成処理を詳細に説明する。
まず、上記実施の形態のうち、ステップＳ３０７の最適素片選択処理に関わる実施の形態、及び送出される二次コンテンツの形態に関して、図６Ａ〜図６Ｃを用いて、説明する。

図６Ａは、処理サーバ１０１で音声変換処理され送出される、二次コンテンツの例である。二次コンテンツ６０１は、音声波形生成・出力用の中間データであり、テキスト部６０２と、波形参照情報を記述する波形情報部６０３から構成される。テキスト部６０２には、一次コンテンツの内容すなわち読み上げ対象のテキスト（ｔｅｘｔ）、あるいは言語解析処理結果の発音記号列、例えば中間言語情報（ｐｒｏｎ）等が格納される。波形情報部６０３には、テキストデータに対する最適素片選択処理がなされ波形データベースの利用情報が付与される。すなわち、波形情報部６０３には、波形データベースＩＤ情報６０４、テキスト部６０２を合成するための波形インデックス情報６０５等が格納される。本例では、「まもなく、」というフレーズに対するテキスト情報（ｔｅｘｔ）及び発音記号列（ｐｒｏｎ）がテキスト部６０２に記載され、「まもなく、」を合成するための波形情報、すなわち、波形データベースＩＤ＝ＷＤＢ０００２の波形データベースを利用する指示が６０４に記載され、「マ」に対してはＩＤ＝５０の波形、以下、「モ」はＩＤ＝１０４、「ナ」はＩＤ＝９、「ク」はＩＤ＝５の波形を利用する指示が波形インデックス情報６０５に記載されている。上記のコンテンツ記述を用いることで、「まもなく、」という文に対して端末装置内にて最適波形選択を行うことなく、最適な波形情報が得られる。

なお、二次コンテンツ６０１の構成は、上記実施例に限定されるものではなく、テキスト部６０２と波形情報部６０３とが一意に特定されうるようになっていればよい。例えば、入力テキストとして、かな漢字混じりの文章のみならず、ニュースや電子メールで良く使用される英文混じりの文章等にも対応できるように、波形データベースの構成を使用頻度の高い英文や絵文字も対象とするようにするのが良い。

一例として、図６Ｂに示すように、入力テキストが「ＴＥＬ下さい。」の場合、発音記号列（ｐｒｏｎ）で「デンワクダサ’イ」に変換し、波形情報部６０３で、「デ」に対してはＩＤ＝３０の波形、「ン」はＩＤ＝８４、−−の波形を利用する指示を波形インデックス情報６０５に記載すればよい。

他の例として、図６Ｃに示すように、入力テキストが英文"Turn right."の場合、発音記号列（ｐｒｏｎ）で英語による発音記号「t3:n/ra'lt.」に変換し、波形情報部６０３で、"t"に対してはＩＤ＝３５の波形、"3:"はＩＤ＝４８、−−の波形を利用する指示を波形インデックス情報６０５に記載すればよい。

また、入力テキストに付随する画像情報が有る場合には、各入力テキストと対応の画像情報との同期をとるための同期情報を、二次コンテンツ６０１の構成に付け加え、端末装置のコンテンツ出力機能１０４Ｂで同期して出力されるようにすれば良い。

次に、図７を用いて、処理サーバ１０１における最適素片選択処理、すなわち図３におけるステップＳ３０７を説明する。このステップＳ３０７に対応する処理には、中間言語情報の生成処理も含まれる。なお、後で述べる図９ＢおけるステップＳ９０８、図１０におけるステップＳ１００３の処理内容も、ステップＳ３０７と同じ内容である。

最適素片選択処理では、まず、一次コンテンツすなわち入力テキストに対して言語解析辞書７０１を参照して形態素解析を行う（ステップＳ７０１、ステップＳ７０２）。形態素とは、文の言語的構成単位を指す。例えば、「東京まで渋滞です。」という文に対しては、「東京／まで／渋滞／です／。」という５つの形態素に分割できる。ここでは、句点も形態素としている。言語辞書７０１には、形態素情報が格納されている。上記例では、「東京」「まで」「渋滞」「です」「。」という形態素の情報、例えば、品詞、接続情報、読み等の情報が記憶されている。続いて、形態素解析結果に対して、読み及びアクセントの決定を行い、発音記号列を生成する（ステップＳ７０３）。一般に、アクセント付与は、アクセント辞書に記載されている情報を検索する処理と、アクセント結合という規則によるアクセント変形を行う処理からなる。上記例に対しては、「トーキョーマ’デ｜ジュータイデ’ス＞．」という発音記号列に変換される。該発音記号列において、記号「’」はアクセント核の位置を示し、記号「｜」はポーズ位置を示し、記号「．」は文の終端を示し、記号「＞」は当該音節の母音が無声化することを示している。このように、発音記号列は、音を表す記号だけではなく、アクセントやポーズ等の韻律情報を表す文字から構成される。尚、発音記号列の表記方法は上記に限定するものではない。

続いて、テキストから変換された発音記号列に対して、韻律生成を行う（ステップＳ７０４）。韻律生成処理は、合成音声の音の高さを決定する基本周波数パタン生成処理と、各音の長さを決定する継続時間長生成処理からなる。尚、合成音声の韻律は、上記、基本周波数パタン及び継続時間長に限定するものではなく、例えば、各音の大きさを決定するパワーパターン生成処理などを追加しても良い。

続いて、前ステップで生成された韻律情報に対して、評価関数Ｆを最小にするような素片の組を、波形データベース７０３から探索する最適素片選択の処理を行い（ステップＳ７０５）、得られた素片系列ＩＤを出力する（ステップＳ７０６）。上記評価関数Ｆは、例えば、各素片を構成する音節、上記例では、音節「ト」「ー」「キョ」「ー」「マ」「デ」「ジュ」「ー」「タ」「イ」「デ」「ス＞」の各々に対して距離関数ｆを定義し、Ｆはｆの総和となるような関数として記述する。例えば、音節「ト」に対応する距離関数ｆは、波形データベース７０３内にある波形「ト」の基本周波数と継続時間長と、ステップＳ７０４で求められた「ト」に対応する区間の基本周波数と継続時間長のユークリッド距離とすればよい。

この定義を用いれば、発音記号列「トーキョーマ’デ｜ジュータイデ’ス＞．」に対して、波形データベース７０３内に格納されている断片を用いて構成できる合成音声「トーキョーマ’デ｜ジュータイデ’ス＞．」の距離Ｆが計算できる。通常、波形データベース７０３内には、例えば「ト」に対しては３００個格納されている等、複数の波形候補が格納されているので、上記距離Ｆは、可能な全ての組み合わせ数Ｎに対して、Ｆ（１）、Ｆ（２）、．．．、Ｆ（Ｎ）と計算でき、これらの距離Ｆ（ｉ）の中から最小となるｉ＝ｋを求め、ｋ番目の素片系列を解とすればよい。

一般に、波形データベース内の全ての組み合わせを計算すると膨大な数となるため、最小となるＦ（ｋ）は動的計画法などを用いて求めるのがよい。上記例では、距離関数Ｆの計算には、各音節の距離ｆに関する韻律パラメータの距離を用いていたが、例えば、素片と素片を接続する際に生じるスペクトルの不連続性を評価する距離を追加してもよく、距離関数Ｆの実施は上記例に限定するものではない。上記のステップで、入力テキストから素片系列ＩＤを出力する処理を実現することが可能である。

このようにして、図６Ａ〜図６Ｃに示した二次コンテンツが生成される。これらの二次コンテンツは、通信ネットワーク１０３を介して処理サーバ１０１から端末装置１０４へ送信される。図６Ａ〜図６Ｃの例でも明らかな通り、二次コンテンツに含まれる情報の量はごく限られた少ないものであり、各端末装置においては、二次コンテンツの情報と各端末装置が保有する波形データベースとから、音声出力を行うことが出来る。

本実施例の二次コンテンツを送る方式は、処理サーバ１０１から端末装置１０４へ音声波形データも含めた情報を送信するのに比較して、はるかに少ない情報量の送信で足りる。一例として、「マ」に関して二次コンテンツで送信する情報量（バイト）は、「マ」の音声波形データも含めた情報量の数百分の一で足りる。

次に、図８を用いて、上記二次コンテンツを基に、端末装置１０４内で音声出力を行うステップの一例を説明する。まず、端末装置１０４では、処理サーバ１０１から受信した二次コンテンツを、端末装置４のメモリ８０１内のコンテンツ記憶領域８０２に記録する（ステップＳ８０１）。続いて、コンテンツ記憶領域８０２から、処理サーバ１０１から送信された素片系列ＩＤをコンテンツ記憶領域８０２から読み込む（ステップＳ８０２）。次に、前ステップで得られた素片系列ＩＤを参照し、波形データベース８０３から対応する波形を検索して、波形を合成し（ステップＳ８０３）、音声出力装置１０５から音声を出力する（ステップＳ８０４）。

例えば、図６Ａに記載した二次コンテンツ例では、音節「マ」の第５０番目の波形、音節「モ」の第１０４番目の波形、音節「ナ」の第９番目の波形、音節「ク」の第５番目の波形を、波形データベース８０２から検索し、該波形を接続することで合成音声を生成する（ステップＳ８０３）。なお、波形合成の方法としては、上記記載の非特許文献１の方法が利用できるがこの方法に限定するものではない。上記のステップを用いることで、処理サーバにて設定された素片系列を用いた波形合成が可能となる。この場合、端末装置１０４において処理負荷の高い最適素片選択処理を行わず、しかも最適素片選択処理のなされた高品質な音声を合成する手段を提供できる。なお、音声出力の方式は図８で述べた実施例に限定されるものではない。図８の実施例は、後で述べる音声出力に関する他の実施例と比較した場合、端末装置１０４の処理能力に余裕が無い場合に適している。

続いて、図９Ａ、図９Ｂを用いて、本発明の音声合成処理及び出力の処理に関する他の実施例を説明する。この実施例では、端末装置１０４内に格納した一次コンテンツ、例えば電子メールの読み上げの際に、処理能力の高い処理サーバ１０１にコンテンツ変換を依頼し、端末装置１０４では、変換された二次コンテンツを受信して、音声読み上げをする。

図９Ａに示すように、この実施例では、処理サーバ１０１は主な機能として、受信した一次コンテンツについて音声合成のための最適素片選択処理を行う最適素片選択処理機能１０１Ｂ、送出コンテンツ組成機能１０１Ｃ、波形データベース管理機能１０１Ｅ及び通信処理機能１０１Ｆを備えている。また、端末装置１０４は、配信サーバ１０７から受信した一次コンテンツの設定を行うコンテンツ設定機能１０４Ｇ、音声出力機能１０４Ｃを含むコンテンツ出力機能１０４Ｂ、音声波形合成機能１０４Ｄ、波形データベース管理機能１０４Ｅ及び通信処理機能１０４Ｆを備えている。

図９Ｂの処理フローにおいて、まず、端末装置１０４は、波形データベースＩＤを処理サーバ１０１へ送信する（ステップＳ９０１）。波形データベースＩＤを受信した処理サーバ１０１は、端末ＩＤ及び波形データベースＩＤを、メモリ９０１内の波形データベースＩＤ記憶領域９０２に記録する（ステップＳ９０２、Ｓ９０３）。ここで記憶されるデータは、図５に示した管理テーブル５０１と同様の情報である。続いて、端末装置１０４では、配信サーバに変換を依頼する一次コンテンツを組成する（ステップＳ９０４）。

ここで、送出される一次コンテンツは、配信サーバ１０７から端末装置１０４に配信されたもので、本来、端末装置１０４内において、例えば図３のステップＳ３０７に示す最適素片選択の処理を行い合成音声に変換されるべきコンテンツであるが、端末装置１０４の計算機能力不足のため端末装置１０４内での処理に適していないコンテンツから構成される。例えば、比較的容量の大きい電子メールやニュース文等が該当するが、容量の大きさが処理を限定するものではなく、読み上げ対象となるコンテンツであれば容量は問わない。

端末装置１０４のステップＳ９０４では、配信サーバに変換を依頼する一次コンテンツとして、例えば、前回組成を依頼した後に受信した新たな電子メールについて、変換を依頼すべく、組成を行い、この一次コンテンツを、処理サーバ１０１に対して送出する（ステップＳ９０５）。一次コンテンツを受信した処理サーバは（ステップＳ９０６）、端末装置１０４の端末ＩＤに対応した波形データベースＩＤを、管理テーブル５０１が記録されている記憶領域９０２から読み出し、波形データベースを設定する（ステップＳ９０７）。続いて、受信した一次コンテンツに対し、最適素片選択を行い（ステップＳ９０８）、得られた選択素片情報を受信コンテンツに付与して送出するコンテンツ（二次コンテンツ）を組成する（ステップＳ９０９）。そして、上記二次コンテンツを端末装置１０４に対して送出する（ステップＳ９１０）。端末装置１０４では、選択素片情報の付与された二次コンテンツを受信し（ステップＳ９１１）、端末装置４のメモリ内のコンテンツ記憶領域に記録した後、音声波形合成機能により波形を合成し、音声出力機能により音声出力装置から音声を出力する（ステップＳ９１２）。

上記ステップにより、本来、端末装置１０４内にて処理されるべきコンテンツに対して、処理サーバ１０１内にて最適素片選択の処理を行う方法を提供できる。従来端末装置１０４内にて行っていた一連の処理のうち負荷の大きな言語処理や最適素片選択の処理を処理サーバにて分担実施することで、端末装置１０４の処理負担を大きく軽減することができる。

これにより、比較的計算機能力の小さい装置で高品質な音声を合成することが可能となる。そのため、端末装置１０４で行う他の計算処理に対して負荷となることがなくなり、これにより、システム全体の応答速度を高めることができる。

続いて、図１０を用いて、本発明の他の実施例を説明する。この実施例では、処理サーバ１０１内にてあらかじめ一次コンテンツに処理を施して送出すべき二次コンテンツとして生成しておき、端末装置１０４からの要求に応じて二次コンテンツを配信する。

この実施例において、処理サーバ１０１は主な機能として、図１Ｂの例と同様に、配信サーバ１０７から受信した一次コンテンツについて設定を行うコンテンツ設定機能１０１Ａ、受信した一次コンテンツについて音声合成のための最適素片選択処理を行うための最適素片選択処理機能１０１Ｂ、送出コンテンツ組成機能１０１Ｃ、波形データベース管理機能１０１Ｅ及び通信処理機能１０１Ｆを備えている。また、端末装置１０４は、コンテンツ要求機能１０４Ａ、音声出力機能１０４Ｃを含むコンテンツ出力機能１０４Ｂ、音声波形合成機能１０４Ｄ、波形データベース管理機能１０４Ｅ及び通信処理機能１０４Ｆを備えている。

図１０の処理フローにおいて、まず、処理サーバ１０１では、配信サーバ１０７から一次コンテンツを受信し、配信すべきコンテンツを設定する（ステップＳ１００１）。続いて、処理サーバ内のメモリ１００１のうち、対象波形データベースＩＤを記憶領域１００２から読み込む（ステップＳ１００２）。ステップＳ１００２で読み込む波形データベースＩＤは、前記各実施例とは異なり、端末からの要求時に得られる波形データベースＩＤでなくともよい。例えば、処理サーバ内に格納されている全波形データベースの波形データベースＩＤを参照することで得られる。続くステップＳ１００３では、前ステップにて読み込んだ波形データベースＩＤに対応した波形データベースを用いて最適素片選択を行う。続いて、ステップＳ１００３にて得られた素片系列情報を用いて送出すべき二次コンテンツを組成し（ステップＳ１００４）、端末装置からの後の要求に備えて、処理サーバ内のメモリ１００１のうち、送出コンテンツ記憶領域１００３に、ステップＳ１００２で読み込んだ波形データベースＩＤと関連付けて保存する。

一方、端末装置１０４では、処理サーバ１０１に対してコンテンツ要求を行う（ステップＳ１００６）。コンテンツ要求の際には、端末ＩＤも同時に送信しても良い。

コンテンツ要求を受信した処理サーバ１０１は（ステップＳ１００７）、処理サーバ内のメモリ１００１のうち、送出コンテンツ記憶領域１００３に格納されている二次コンテンツから、コンテンツ要求があった波形データベースＩＤに対応する二次コンテンツを読み出し（ステップＳ１００８）、端末装置１０４に対してコンテンツを送出する（ステップＳ１００９）。端末装置１０４では、選択素片情報の付与された二次コンテンツを受信し（ステップＳ１０１０）、端末装置４のメモリ内のコンテンツ記憶領域に記録した後、音声波形合成機能により波形を合成し、音声出力機能により音声出力装置から二次コンテンツを読み上げ出力する（ステップＳ１０１１）。

この実施例では、処理サーバ１０１であらかじめ二次コンテンツの組成を行っておくことで、各端末装置からの要求時に遅滞なく送信されることが望ましい一次コンテンツ、例えば、現時刻での交通情報や朝のニュース等に適用するとより効果が高い。しかしながら、図１０の実施例においては、一次コンテンツの種類を限定するものではない。

次に、図１１を用いて、端末装置１０４内での音声出力を行うステップの他の一例を説明する。この実施例は、端末装置１０４に処理能力に若干余裕がある場合に適している。まず、端末装置１０４では、処理サーバ１０１から受信した二次コンテンツを、端末装置４のメモリ１１０１内のコンテンツ記憶領域１１０２に記録する（ステップＳ１１０１）。続いて、コンテンツ記憶領域１１０２から、発音記号列を読み込み（ステップＳ１１０２）、該発音記号列に対し韻律生成を行い、入力テキストに対応する韻律情報を出力する（ステップＳ１１０３）。

例えば、図６Ａに記載した二次コンテンツ例では、発音記号列（ｐｒｏｎ）の「マモ’ナク」に対し韻律生成を行い、入力テキストに対応する韻律情報を出力する。上記、ステップＳ１１０３の韻律生成処理は、図７で延べた処理と同等の処理方法で構わない。

続いて、ステップＳ１１０４では、コンテンツ記憶領域１１０２から、処理サーバ１０１から送信された素片系列ＩＤを読み込む。次に、波形合成部では、前ステップで得られた素片系列ＩＤを参照し、波形データベース１１０３から対応する波形を検索して、図８で記載した方法と同様の方法を用いて波形を合成し（ステップＳ１１０５）、音声出力装置１０５から音声を出力する（ステップＳ１１０６）。上記の方法で、処理サーバにて設定された素片系列を用いた波形合成が可能となる。

上記の端末装置１０４で韻律生成処理処理を行うステップを追加することで、端末装置１０４において処理負荷の高い最適素片選択処理を行わず、しかも、高品質でより滑らかな音声を合成する手段を提供できる。

次に、図１２Ａ、図１２Ｂを用いて、端末装置１０４内での音声出力を行うステップの他の実施例を説明する。この実施例は、端末装置１０４の処理能力に余裕がある場合に適している。図１２Ａにおいて、まず、端末装置１０４では、処理サーバ１０１から受信したコンテンツを、端末装置１０４のメモリ１２０１内のコンテンツ記憶領域１２０２に記録する（ステップＳ１２０１）。続いて、コンテンツ記憶領域１２０２からテキストを読み込み（ステップＳ１２０２）、テキストに対して、言語解析辞書１２０３を参照することで形態素解析処理を行う（ステップＳ１２０３）。

例えば、図１２Ｂに記載した二次コンテンツ１２１１の例のように、テキスト部１２１２のテキスト１２１２Ａが「間もなく」という漢字交じりの文字列であった場合、これをアクセント（ｐｒｏｎ）１２１２Ｂとして「マモ’ナク」に変換する。続いて、形態素解析処理結果に対して、アクセント辞書１２０４を用いて、読み・アクセント付与処理を行い、発音記号列を生成する（ステップＳ１２０４）。ステップＳ１２０４では、該発音記号列に対し韻律生成を行い、入力テキストに対応する韻律情報を出力する（ステップＳ１２０５）。上記、ステップＳ１２０２からステップＳ１２０５までの処理は、図７で記載した処理と同等の方法で構わない。続いて、ステップＳ１２０６では、コンテンツ記憶領域１２０２から、処理サーバ１０１から送信された素片系列ＩＤを読み込む。

次に、波形合成部では、前ステップで得られた波形情報部１２１３の素片系列ＩＤ１２１４を参照し、波形インデックス情報１２１５に基き波形データベース１２０５から対応する波形を検索して、波形を合成し（ステップＳ１２０７）、音声出力装置１０５から音声を出力する。図１２Ｂに記載したコンテンツの例では、各音節に対応する波形を、波形データベース１２０５から検索し、該波形を接続することで合成音声を生成する（ステップＳ１２０８）。

上記のステップを用いることで、端末装置１０４において処理負荷の高い最適素片選択処理を行わず、高品質な音声を合成する手段を提供できる。しかも、入力テキストに対して、言語解析辞書を参照し形態素解析処理を行い、さらに韻律生成処理処理を行うことで、全体としてかなり精度の高い音声合成処理を行うことができる。

なお、図１１や図１２で示した韻律生成処理処理や形態素解析処理は、全ての二次コンテンツを対象として行ってもよいが、特定の条件のテキストデータに対してのみこれらの処理を行うように予め条件を設定するようにしても良い。

次に、図１３及び図１４を用いて、処理サーバ１０１での、波形データベース管理方法及び最適選択方法に関する実施の形態を説明する。処理サーバでは、音質向上のため、素片選択に使用される波形データベースの更新処理（リビジョンアップ）を行う必要がある。

例えば、図１４のような形態で波形データベースを管理する。図１４の管理方法では、図５における波形データベース管理方法に加え、同一の波形データベースＩＤに対する更新ＩＤ（リビジョンアップ）により管理する。図１３では、端末ＩＤ１３０２が「ＩＤ１０００１」及び「ＩＤ１０００５」に対する波形データベースＩＤ１３０３は、ＷＤＢ０００２で同一であるが、更新ＩＤ１３０４は「０００Ａ」と「０００Ｂ」で異なっている。すなわち、該管理方法を用いることで、「ＩＤ１０００１」と「ＩＤ１０００５」の端末ＩＤを持つ端末は、波形データベースの更新状況が異なっているという情報を管理することができる。

一方、処理サーバ１０１においては、図１４に示す形態で、波形データベースに含まれる各素片のＩＤ情報を管理する。図１４は、例えば音節「マ」に関する素片の更新状況を管理するテーブルの一例である。管理テーブル１４０１は、波形ＩＤ１４０２、更新状況１４０３から構成される。更新状況１４０３は、更新状況に応じて、「０００Ａ」（１４０４）、「０００Ｂ」（１４０５）、「０００Ｃ」（１４０６）から構成される。各更新状況においては、各波形ＩＤに対して、「存在しない」「存在するが使用しない」「使用する」の３段階の状態が設定される。例えば、更新状況「０００Ａ」においては、波形ＩＤ１４０２が「０００１」及び「０００２」の波形のみ使用する条件が設定してあり、該素片以外の素片波形は存在しないことが記録されている。

このような管理方法を用いることで、更新状況１４０３が「０００Ｃ」の素片を用いる場合、「使用しない」素片の距離関数ｆを無限大に設定することにより、当該の素片を事実上利用できなくすることができ、更新状況１４０３が「０００Ｃ」の波形データベースＩＤを持つ端末向けの最適な素片選択が可能となる。上記距離関数ｆは、図７の実施例で示した距離関数と同等である。

なお、本発明は、以上述べた実施例に限定されるものではなく、配信サービスを構成する配信サーバ、処理サーバ、端末装置等へ広く利用可能である。また、読み上げ対象となるテキストの言語は、日本語に限らず、英語その他の言語であってもよい。

本発明の一実施例になる分散型音声合成システムの構成例を示す図。図１Ａのシステムにおける各構成の有する機能を表した図。本発明の他の実施形態のシステム構成例を示す図。本発明の一実施例における、処理サーバからコンテンツを送出する場合の端末装置及び処理サーバ間の処理フローを示す図。本発明の一実施例における、端末装置及び処理サーバ間で送信されるデータ構成例を示す図。本発明の一実施例における、管理テーブル例を示す図。本発明における、二次コンテンツの一例を示す図。本発明における、二次コンテンツの他の例を示す図。本発明における、二次コンテンツの他の例を示す図。本発明の一実施例における、処理サーバにおける最適素片選択処理の一例を示す図。本発明における、端末装置における音声出力処理の一例を示す図。本発明の他の実施例のシステムにおける各構成の有する機能を表した図。図９Ａの実施例における、端末装置からコンテンツ要求を行う場合の、端末装置及び処理サーバ間の処理フローを示す図。本発明の他の実施例のシステムにおける、処理サーバで事前にコンテンツを作成する場合の、端末装置及び処理サーバ間の処理フローを示す図。本発明における、端末装置における音声出力処理の他の例を示す図。本発明の一実施例における、二次コンテンツを基に端末装置内で音声出力を行うステップの他の例を説明する図。図１２の実施例における、二次コンテンツの例を示す図。本発明における、処理サーバにおける波形データベース管理方法の一例を示す図。本発明における、波形データベースに関する波形ＩＤ管理方法の一例を示す図。

符号の説明

１０１処理サーバ
１０２波形データベース
１０３電子的ネットワーク
１０４端末装置
１０５音声出力装置
１０６波形データベース
１０７配信サーバ
２０１処理サーバ
２００筐体装置
２０２波形データベース
２０３電子的ネットワーク
２０４端末装置
２０５音声出力装置
４０１端末ＩＤ
４０２要求ＩＤ
４０３波形データベースＩＤ
４０４データ構成
５０１波形データベースＩＤ管理テーブル
６０１二次コンテンツ
６０３素片情報領域
６０４波形データベースＩＤ領域
６０５素片系列情報領域。

Claims

ネットワークを介して処理サーバに接続し得る端末装置であって、
前記ネットワークを介して配信された一次コンテンツに含まれるテキストデータに対する最適素片選択処理がなされ波形データベースの利用情報が付与された二次コンテンツを、前記処理サーバから受け取り記録する機能と、
前記二次コンテンツと波形データベースとに基いて、前記テキストデータを音声合成する機能とを備えている、ことを特徴とする端末装置。
請求項１記載の端末装置において、前記処理サーバには、前記端末装置に搭載されている波形データベースと特定の波形を一意に指定できる指定表現を共有している波形データベースが搭載されている、ことを特徴とする端末装置。
請求項１に記載の端末装置において、
前記二次コンテンツは、前記一次コンテンツのテキスト及び発音記号列が格納されたテキスト部と、該テキスト部のデータに対して前記最適素片選択処理がなされた波形参照情報を記述する波形情報部とから構成され、
前記波形情報部には、前記波形データベースを特定するための波形データベースＩＤ情報と、前記テキスト部を合成するための波形インデックス情報が格納される、ことを特徴とする端末装置。
請求項３記載の端末装置において、
前記二次コンテンツに含まれる発音記号列に対し韻律生成を行い、前記テキスト部のデータに対応する韻律情報を出力する機能を備えている、ことを特徴とする端末装置。
請求項３記載の端末装置において、
前記二次コンテンツに含まれるテキストに対して、形態素解析処理を行う機能と、
前記二次コンテンツに含まれる発音記号列に対し韻律生成を行い、前記テキストデータに対応する韻律情報を出力する機能を備えている、ことを特徴とする端末装置。
処理サーバと、ネットワークを介して前記処理サーバに接続された端末装置とを含み、前記ネットワークを介して受信した一次コンテンツに含まれるテキストデータを音声合成して出力する分散型音声合成システムであって、
前記処理サーバは、
前記ネットワークを介して受信した一次コンテンツに含まれるテキストデータに対する最適素片選択処理を行い、波形データベースの利用情報を付与して二次コンテンツを生成する機能と、
該二次コンテンツを前記端末装置に送信する機能とを備えている、ことを特徴とする分散型音声合成システム。
請求項６記載の分散型音声合成システムにおいて、
前記処理サーバと前記端末装置は、特定の波形を一意に指定できる指定表現を共有している波形データベースを、各々搭載している、ことを特徴とする分散型音声合成システム。
請求項７に記載の分散型音声合成システムにおいて、
前記二次コンテンツは、前記一次コンテンツのテキスト及び発音記号列が格納されたテキスト部と、該テキスト部のデータに対して前記最適素片選択処理がなされた波形参照情報を記述する波形情報部とから構成され、
前記波形情報部には、前記波形データベースを特定するための波形データベースＩＤ情報と、前記テキスト部のテキストを合成するための波形インデックス情報が格納される、ことを特徴とする分散型音声合成システム。
ネットワークを介して処理サーバに接続された端末装置において、要求したコンテンツの内容を音声合成して出力するためのコンピュータ・プログラムであって、
前記コンピュータ・プログラムは、コンピュータに
前記処理サーバに対して、読みあげ対象となる一次コンテンツを指定する機能と、
前記処理サーバから、前記一次コンテンツのテキストデータに対して最適選択された素片系列の情報を含む二次コンテンツを受信する機能と、
波形データベースを用いて、該二次コンテンツの内容を音声合成する機能、とを実現させることを特徴とするコンピュータ・プログラム。
請求項９記載のコンピュータ・プログラムにおいて、前記端末装置に搭載されている波形データベースと、前記処理サーバに搭載されている波形データベースは、特定の波形を一意に指定できる指定表現を共有していることを特徴とするコンピュータ・プログラム。
請求項９記載のコンピュータ・プログラムにおいて、
前記二次コンテンツは、前記一次コンテンツのテキスト及び発音記号列が格納されたテキスト部と、該テキスト部のデータに対して前記最適素片選択処理がなされた波形参照情報を記述する波形情報部とから構成され、前記波形情報部は、利用すべき波形データベースを特定すると波形データベースＩＤと、該波形データベースＩＤ中の利用波形を特定する波形インデックス情報とから構成されることを特徴とするコンピュータ・プログラム。
請求項９記載のコンピュータ・プログラムにおいて、
前記二次コンテンツに含まれる発音記号列に対し韻律生成を行い、前記テキスト部のデータに対応する韻律情報を出力する機能を有する、ことを特徴とするコンピュータ・プログラム。
請求項９記載のコンピュータ・プログラムにおいて、
前記二次コンテンツに含まれるテキストに対して、形態素解析処理を行う機能と、
前記二次コンテンツに含まれる発音記号列に対し韻律生成を行い、前記テキストデータに対応する韻律情報を出力する機能とを有する、ことを特徴とするコンピュータ・プログラム。
請求項９記載のコンピュータ・プログラムにおいて、
前記端末装置は、管理テーブルを備えており、該管理テーブルは、波形データベースと、該端末装置に搭載している前記波形データベースを特定する識別子情報としての端末ＩＤ部とから構成されることを特徴とするコンピュータ・プログラム。
請求項１４記載のコンピュータ・プログラムにおいて、
前記識別子情報は、前記処理サーバにて管理される識別子情報である、ことを特徴とするコンピュータ・プログラム。
請求項１４記載のコンピュータ・プログラムにおいて、前記端末装置に搭載している前記波形データベースを特定する識別子情報を、該端末装置から前記処理サーバにネットワークを介して伝達する機能、とを実現させることを特徴とするコンピュータ・プログラム
処理サーバと、ネットワークを介して前記処理サーバに接続された端末装置とを含む分散型音声合成システムにおいて、前記ネットワークを介して受信した一次コンテンツに含まれるテキストデータを音声合成して出力する分散型音声合成用のコンピュータ・プログラムであって、
前記処理サーバと前記端末装置は、特定の波形を一意に指定できる指定表現を共有している波形データベースを、各々搭載しており、
前記コンピュータ・プログラムは、コンピュータに
一次コンテンツに含まれるテキストデータに対する最適素片選択処理を行い、波形データベースの利用情報を付与して二次コンテンツを生成する機能と、
前記二次コンテンツと波形データベースとに基いて、前記テキストデータを音声合成する機能、とを実現させることを特徴とするコンピュータ・プログラム。
請求項１７記載のコンピュータ・プログラムにおいて、読みあげ対象となる一次コンテンツの素片選択処理を前記端末装置から前記処理サーバに依頼する機能と、
前記処理サーバにおいて、該依頼に基く二次コンテンツを生成する機能と、
前記端末装置からのコンテンツ要求に伴い前記二次コンテンツを前記処理サーバに対して送信する機能、とを実現させることを特徴とするコンピュータ・プログラム。
請求項１７記載のコンピュータ・プログラムにおいて、読みあげ対象となる一次コンテンツの素片選択処理を予め処理サーバにて実施して二次コンテンツを生成する機能と、
前記端末装置からのコンテンツ要求に伴い前記二次コンテンツを前記処理サーバに対して送信する機能、とを実現させることを特徴とするコンピュータ・プログラム。
請求項１７記載のコンピュータ・プログラムにおいて、
前記処理サーバにおいて、波形ＩＤと更新状況から構成される管理テーブルにより、素片選択に使用される波形データベースの更新処理を行う機能を実現させることを特徴とするコンピュータ・プログラム。