JPH1152987A

JPH1152987A - 話者適応機能を持つ音声合成装置

Info

Publication number: JPH1152987A
Application number: JP9205773A
Authority: JP
Inventors: Nobuo Nukaga; 信尾額賀; Yoshinori Kitahara; 義典北原; Shunichi Yajima; 俊一矢島; Keiko Fujita; 啓子藤田
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1997-07-31
Filing date: 1997-07-31
Publication date: 1999-02-26
Anticipated expiration: 2017-07-31
Also published as: JP3914612B2

Abstract

(57)【要約】【課題】任意の話者の特徴を持った音声を合成する音
声合成装置を提供することにある。【解決手段】システム固有の基準パラメータと話者の
音声の特徴を表すパラメータの差分を計算しメモリに記
憶し、音声合成装置では、メモリに記憶された該差分値
とシステムの基準パラメータとを加算するパラメータ加
算部の出力したパラメータで音声合成を行うことで、該
話者の特徴を持った音声を合成できる。【効果】音声で合成すべき内容を、特定の個人の特徴パ
ラメータに適応することが可能となるので、特定の個人
の音声で出力することが望ましいシステム、特に、電子
メールの読み上げシステム等に優れた効果を発揮する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、文字列より合成し
た音声の出力様態を、別途音声入力した話者の音声の出
力様態に変更できる音声合成装置に関する。

【０００２】

【従来の技術】これまでの音声合成装置は、韻律的特徴
を表す音源モデルと、音韻的特徴を表す声道モデルとか
ら算出される合成パラメータを用いて、文字列から音声
を合成する方式が一般的であった。音声の特徴を表す合
成パラメータとしては、基本周波数、音素継続時間長、
パワー、スペクトルパラメータ等がある。

【０００３】該音声合成装置を用いる場合、人間が発声
する音声を模擬するためには、韻律の特徴を表すパラメ
ータを生成する音源モデルと、声道の伝達特性を模擬す
る声道モデルを精密に構成する必要がある。音源モデル
及び声道モデルは、話者の個人性を担っている情報であ
り、両者をできるだけ肉声に近づけることで、該話者の
音声に近づけることができる。音源モデルのうち、基本
周波数を指定するモデルとしては、例えば、文献「藤
崎、須藤：”日本語単語アクセントの基本周波数パタン
とその生成機構”、日本音響学会誌２７、ｐｐ．４４５
−４５３、１９７１」で提案されているモデル等があ
る。一方、音声のスペクトル情報もしくはフォルマント
と呼ばれる周波数軸上の特定の周波数のエネルギー分布
は、音韻性を決める声道モデルのパラメータとなる。

【０００４】

【発明が解決しようとする課題】さて、該音声合成装置
を用いて特定の個人の音声を合成するためには、該個人
の音声から分析抽出したパラメータを利用してモデルを
構築する必要がある。

【０００５】しかし、これまでの音声合成装置における
音源モデル及び声道モデルは、システムの基準音声を元
に設計されているため、文字列のみから不特定の話者の
合成音を実現することは不可能であった。

【０００６】更には、音声の基本周波数等の音源モデル
は肉声の基本周波数を生成ルールで近似するため、モデ
ル化の対象とはならない細かいピッチの揺らぎ等が表現
できない場合があるという問題があった。

【０００７】そこで本発明では、上述した問題点を解決
するために、文字列に対して算出されたシステムの基準
合成パラメータと、該個人の発声した音声を分析して得
られた分析パラメータとの差分値を求め、該差分値を文
字列と共に伝送することにより、特定の個人の音声を模
擬することが可能な音声合成装置を提供することを目的
とする。

【０００８】

【課題を解決するための手段】上記目的を達成するため
に本発明の音声合成装置は、利用者の音声を入力する手
段と、入力音声を分析するパラメータ分析部と、文字列
に対する合成パラメータを算出するパラメータ算出部
と、入力音声から得られたパラメータとシステムの固有
のモデルから算出されたパラメータとを比較するパラメ
ータ比較部と、パラメータ比較部により演算された差分
値を格納するパラメータ差分値蓄積手段を備え、利用者
の音声をシステムの基準合成パラメータと差分値に分け
る機能を有する。更に、本発明の音声合成装置は、文字
列に対してシステムのモデルから算出された基準合成パ
ラメータとパラメータ差分値を加算して、利用者の音声
の特徴を表すパラメータを求めるパラメータ加算部を有
し、パラメータ加算部によって求められたパラメータを
用いて音声合成を行うことで、利用者の音声の特徴を持
った音声が合成可能であることを特徴とする。

【０００９】また、本発明の音声合成装置で算出される
差分値と文字列から構成されるデータを、電気的格納媒
体及び通信手段に因って異なった時空間に存在する音声
合成装置の間を伝達する手段を提供することを特徴とす
る。この特徴により、前記差分値により簡便に個人情報
に適応した音声を合成することが可能になる。

【００１０】

【発明の実施の形態】以下、本発明の実施例を図面を用
いて説明する。

【００１１】まず、図１及び図２を用いて、本発明の実
施の形態を説明する。図１は、本発明の請求項１の構成
を示すブロック図である。図１において、１は文字列を
入力しメモリ１０に転送するための文字列入力装置、２
は該文字列から音声の特徴を表すパラメータを算出しメ
モリ１０に転送する合成パラメータ算出部、３はメモリ
１０もしくはパラメータ差分値蓄積装置９に蓄積された
パラメータ差分値と、合成パラメータ算出手段２により
算出された合成パラメータをメモリ１０より読み出し、
該差分値と該合成パラメータを加算して、加算したパラ
メータをメモリ１０に転送するパラメータ加算部、４は
合成パラメータ算出部２より出力されたパラメータから
音声合成を行い音声波形をメモリ１０に転送する音声合
成部、５は音声合成部４によって合成された音声を出力
する音声出力装置、６は利用者の音声を入力しメモリ１
０に転送するための音声入力装置、７は音声入力装置６
から入力された音声データをメモリ１０より読み出しパ
ラメータの分析を行う音声パラメータ分析部、８は合成
パラメータ算出手段２により算出された合成パラメータ
と音声パラメータ分析手段７により計算された音声パラ
メータをメモリ１０より読み出し、パラメータの差分値
を計算しパラメータ差分値蓄積装置９もしくはメモリ１
０に転送するパラメータ比較部、９はパラメータ比較部
８により計算された差分値を格納するパラメータ差分値
蓄積装置である。図２は、合成パラメータ算出部におけ
る手順を示すフローである。また、メモリ１０のデータ
構造を図７に示す。

【００１２】まず、利用者が文字列入力装置１を用いて
文字を入力する。文字列入力装置１は、キーボードだけ
ではなく、文字列が入力できる装置であれば、持ち運び
可能な記録媒体読み込み装置、通信線を介した文字列伝
送手段、音声認識装置等であっても良い。ここでは、例
として「今日の話題」という文字列を入力したとする。
該文字列はメモリ１０の１０００に格納される。次に合
成パラメータ算出部では、メモリ１０の１０００より文
字列を読み出し、該文字列を音素に分割する（ステップ
Ｓ１０１）。文字列から音素に分割する方法は、例え
ば、宮崎らの方法（「日本文音声出力のための言語処理
方式」情報処理学会論文誌、Ｖｏｌ．２７、Ｎｏ．１
１、ｐｐ．１０５３−１０６１、１９８６）を利用す
る。勿論、該計算方法は一例であり、他の音素を分割す
る方法を用いてもよい。このようにして、「今日の話
題」という文字列は、「ｋｙ／ｏ／ｏ／ｎ／ｏ／ｗ／ａ
／ｄ／ａ／ｉ」という音素に分割され、該音素分割デー
タはメモリ１０の１００１に格納される。ここで、「ｋ
ｙ」「ｗ」「ａ」等は音素を示す記号である。勿論、該
音素記号データは一例であり、他の音素記号表現を用い
てもよい。また、求める単位は音素単位に限らず、音素
を２分割した単位や音節でも良い。次に音素に分割され
た音素分割データをメモリ１０の１００１より読み出
し、音素毎の継続時間長の計算（ステップＳ１０２）を
行って、継続時間長データをメモリ１０の１００２へ転
送する。音素毎の継続時間長の計算方法は、例えば、匂
坂らの方法（「規則による音声合成のための音韻時間長
制御」電子通信学会論文誌、Ｖｏｌ．Ｊ６７−Ａ、Ｎ
ｏ．７、ｐｐ．６２９−６３６、１９８４）を利用す
る。勿論、該計算方法は一例であり、他の音素継続時間
長の計算方法を用いてもよい。このような方法で、先の
音素分割データ「ｋｙ／ｏ／ｏ／ｎ／ｏ／ｗ／ａ／ｄ／
ａ／ｉ」から、例えば、ミリ秒単位の継続時間長データ
「５０／１５０／１２０／４０／１５０／２０／２００
／４０／１８０／１７０」が計算結果として求められ、
メモリ１０の１００２に格納される。勿論、該継続時間
長は一例であり、秒単位等の継続時間長データを用いて
もよい。次に、メモリ１０の１０００と１００１から、
文字列と音素分割データを読み出し、音の高さを指定す
るアクセントの付与（ステップＳ１０３）を行い、アク
セントデータをメモリ１０の１００３へ転送する。文字
列へのアクセント付与の方法は、例えば、匂坂らの方法
（「日本語単語連鎖のアクセント規則」電子通信学会論
文誌、Ｖｏｌ．Ｊ６６−Ｄ、Ｎｏ．７、ｐｐ．８４９−
８５６、１９８３）を利用する。勿論、該計算方法は一
例であり、他のアクセント付与方法を用いてもよい。こ
のようにして、文字列「今日の話題」はアクセントデー
タ「ｋｙｏ’ｏｎｏ，ｗａｄａｉ．」に変換され、メモ
リ１０の１００３に格納される。ここで、「’」が付さ
れている音節はアクセント核のある音節、「，」は句の
区切れ、「．」は文の終端を表す記号である。勿論、該
記号は一例であり、他の記号を用いてもよい。次に、メ
モリ１０の１００１と１００２より、音素分割データと
アクセントデータを読み出し、基本周波数の計算（ステ
ップＳ１０４）を行い、基本周波数データをメモリ１０
の１００４に転送する。基本周波数の計算方法は、例え
ば、藤崎らの方法（「日本語単語アクセントの基本周波
数パタンとその生成機構」日本音響学会誌２７、ｐｐ．
４４５−４５３、１９７１）を利用する。勿論、該計算
方法は一例であり、他の基本周波数の計算方法を用いて
もよい。このようにして、文字列「今日の話題」は、
（Ｆ０，Ｆ１，．．．，Ｆｉ，．．．，Ｆｐ）という基
本周波数データに変換され、メモリ１０の１００４に格
納される。ここで、Ｆｉは基本周波数を表す数値であ
り、例えば、１０ミリ秒単位で求められた値である。ま
た、ｐは基本周波数を表す値の数である。勿論、基本周
波数を表す該方法は一例であり、基本周波数の値を求め
ることができる方法であるならば、一定の時間間隔では
ない時間単位で基本周波数を求める方法、基本周波数を
求めるモデルのパラメータの組で表す方法等でも良い。
次に、音素継続時間長データをメモリ１０の１００２よ
り読み出し、パワー計算（ステップＳ１０５）を行い、
パワーデータをメモリ１０の１００５に転送する。パワ
ー計算の方法は、例えば、三村らの方法（「統計的手法
を用いた音声パワーの分析と制御」日本音響学会誌、４
９巻、ｐｐ．２５３−２５９、１９９３）を利用する。
勿論、該計算方法は一例であり、他のパワー計算方法を
利用してもよい。このようにして、文字列「今日の話
題」は、（Ｐ０，Ｐ１，．．．，Ｐｉ，．．．，Ｐｑ）
というパワーデータに変換され、メモリ１０の１００５
に格納される。ここで、Ｐｉはパワーを表す値でありｄ
Ｂ値で格納される。ｑはパワーデータの個数である。勿
論、パワー値を表す該方法は一例であり、他のパワー値
表現方法を利用してもよい。次に、音素分割データをメ
モリ１０の１００１より読み出し、ケプストラムを計算
（ステップＳ１０６）し、ケプストラムデータをメモリ
１０の１００６に転送する。ケプストラムデータを求め
る方法は、例えば、音素毎の代表波形をケプストラム分
析した結果を用いる方法を利用する。勿論、該計算方法
は一例であり、他のケプストラム分析の方法を利用して
もよい。このようにして、文字列「今日の話題」は、
（Ｃ０，Ｃ１，．．．，Ｃｉ，．．．Ｃｒ）というケプ
ストラムデータに変換され、メモリ１０の１００６に格
納される。ここで、ｒはケプストラムデータの数、Ｃｉ
はケプストラム係数を表すベクトルデータで、（ｃ
１，．．．，ｃｉ，．．．，ｃｓ）で表される。ｓはケ
プストラム係数の次数を示す。勿論、ケプストラムデー
タを表す該方法は一例であり、他の表現方法を用いても
よい。

【００１３】このようにして、音声の特徴を表すパラメ
ータである、音素継続時間長データ、基本周波数デー
タ、パワーデータ、ケプストラムデータがメモリ１０の
１００２、１００４、１００５、１００６にそれぞれ格
納される。なお、本実施例では、音声の特徴を表すパラ
メータとして、音素継続時間長データ、基本周波数デー
タ、パワーデータ、ケプストラムデータを用いたが、音
声の特徴を表すパラメータであれば、フォルマント周波
数、線形予測分析の結果得られる線形予測係数、メル尺
度に変換したメルケプストラム等のパラメータであって
も良い。

【００１４】続いて、利用者は、音声入力装置６を用い
て、「今日の話題」と発声し音声を装置内に取り込む。
例えば、音声はサンプリング周波数１６キロヘルツ、量
子化ビット数１６ビット、モノラル音声で取り込む。次
に音声入力装置６は、音声データをメモリ１０の１００
７に転送する。次に、音声パラメータ分析手段７は、メ
モリ１０の１００７より音声データを読み出し、基本周
波数の分析を行い、基本周波数データ（Ｆ’０，Ｆ’
１，．．．，Ｆ’ｉ，．．．，Ｆ’ｋ）をメモリ１０の
１００９に転送する。ここで、Ｆ’ｉは基本周波数の値
であり、ｋは基本周波数データの値の数である。基本周
波数の分析の方法は、例えば、ＬＰＣ分析の残差信号の
自己相関関数より基本周波数を求める方法を利用する。
勿論、該計算方法は一例であり、他の基本周波数分析方
法を利用してもよい。ここでは、基本周波数の分析間隔
は、文字列「今日の話題」から基本周波数データを求め
た時の基本単位と等しくする。例えば、１０ミリ秒単位
で基本周波数データを分析する。勿論、該分析方法は一
例であり、後に説明する基本周波数の差分値を計算でき
る方法であるならば、他の基本周波数分析の方法及び基
本周波数のデータ構造を利用してもよい。このようにし
て、音声「今日の話題」の基本周波数データがメモリ１
０の１００９に格納される。次に、メモリ１０の１００
７より音声データを読み出し、音素継続時間長の分析を
行い、音素継続時間長データをメモリ１０の１００８に
転送する。音素継続時間長の分析は、例えば、中川らの
方法（「ＨＭＭ法とベイズ確率を用いた連続音声のセグ
メンテーション」電子情報通信学会論文誌、Ｖｏｌ．Ｊ
７２−Ｄ−ＩＩ、ｐｐ．１−１０、１９８９）を利用す
る。勿論、該計算方法は一例であり、他の音素継続時間
長の分析方法を利用してもよい。このようにして、音声
「今日の話題」の音素継続時間長データ「８０／１４０
／１５０／３０／１５０／５０／１８０／５０／１８０
／１８０」がメモリ１０の１００８に格納される。ここ
では、文字列「今日の話題」から計算した音素継続時間
長と同じく時間長データの単位はミリ秒としたが、勿
論、該単位は一例であり、後に説明する音素継続時間長
データの差分値を計算できる方法であるならば、他の音
素継続時間長計算方法及びデータ表現方法を用いてもよ
い。次に、メモリ１０の１００７より音声データを読み
出し、パワーの分析を行い、パワー値をメモリ１０の１
０１０に転送する。パワーの分析は、例えば、ケプスト
ラム分析の結果得られたケプストラムパラメータの０次
項を利用する。勿論、該計算方法は一例であり、他のパ
ワーデータ計算方法を用いてもよい。このようにして、
音声「今日の話題」のパワーデータ（Ｐ’０，Ｐ’
１，．．．，Ｐ’ｉ，．．．，Ｐ’ｊ）がメモリ１０の
１０１０に格納される。ここで、Ｐ’ｉはパワーデータ
であり、ｊはパワーデータの個数である。勿論、該表現
方法は一例であり、後に説明するパワーデータの差分値
が計算できる方法であれば、他のパワーデータ表現方法
を利用してもよい。次に、メモリ１０の１００７より音
声データを読み出し、ケプストラム分析を行い、ケプス
トラムパラメータデータをメモリ１０の１０１１に転送
する。ケプストラム分析の単位時間は、例えば、メモリ
１０の１００６に格納されているケプストラムパラメー
タと等しくする。このようにして、音声「今日の話題」
のケプストラムデータ（Ｃ’０，Ｃ’１，．．．，Ｃ’
ｉ，．．．Ｃ’ｍ）に変換され、メモリ１０の１００６
に格納される。ここで、ｍはケプストラムデータの数、
Ｃ’ｉはケプストラム係数を表すベクトルデータで、
（ｃ’１，．．．，ｃ’ｉ，．．．，ｃ’ｎ）で表され
る。ｎはケプストラム係数の次数を示す。勿論、ケプス
トラムデータを表す該方法は一例であり、後に説明する
ケプストラムの差分値を求めることが出来るならば、他
の表現方法を用いてもよい。

【００１５】以上の手順で、音素継続時間長、基本周波
数、パワー、ケプストラムのデータがメモリ１０の１０
０８、１００９、１０１０、１０１１に格納される。

【００１６】続いて、パラメータ比較手段８では、合成
パラメータ算出手段２で算出された合成パラメータと音
声パラメータ分析手段７で分析された分析パラメータを
メモリ１０の１００２、１００４、１００５、１００６
及び１００８、１００９、１０１０、１０１１より読み
出し、対応するパラメータの比較を行う。ここで、対応
するパラメータとは、合成パラメータにおける基本周波
数と分析パラメータにおける基本周波数、合成パラメー
タにおける音素継続時間長と分析パラメータにおける音
素継続時間長、合成パラメータにおけるパワーデータと
分析パラメータにおけるパワーデータ、合成パラメータ
におけるケプストラムデータと分析パラメータにおける
ケプストラムデータである。

【００１７】まず、図４を用いて、図１のパラメータ比
較手段８における音素継続時間に関するパラメータ差分
値を算出する実施方法を説明する。図４は、「今日の話
題（キョウオノワダイ）」という文字列に対して実施し
た具体例である。４０１は図２の音素継続時間長計算手
順１０３の結果求められる合成パラメータである。合成
パラメータ４０１はシステム固有のパラメータ値であ
り、４０１の形式で格納されている。合成パラメータ４
０１は、音素記号４０２と継続長４０３の組合せで定義
されており、音素記号毎に異なる値を持っている。継続
長４０３の単位はミリ秒である。例えば、４０４に示す
ように「オ（ｏ）」という音素は１５０ミリ秒という継
続長が決まっている。このようにして、「今日の話題」
という文字列に対する合成パラメータ４０１を求める。
４０５は、「今日の話題」という文字列の内容を利用者
が発声した音声を分析した結果を示す分析パラメータ表
である。音素記号４０６及び継続長４０７は、合成パラ
メータ４０１と同じである。４０４の「オ」に対応する
分析パラメータにおける「オ」４０８は、合成パラメー
タ４０１とは異なる値を示している。これは、利用者の
発声とシステムで想定した合成パラメータとが異なって
いることを意味しており、利用者の個人性と解釈するこ
とも可能である。４２１は前記手順で求められた分析パ
ラメータであり、４２２は合成パラメータである。４２
３は分析パラメータ４２１と合成パラメータ４２２の差
分値４２４を計算する差分器である。該実施例では、差
分器４２３では、音素記号４０２と音素記号４０６の対
応する項目の継続長の差分が計算され、４０９で示すパ
ラメータ差分値表として格納される。例えば一つ目の
「ｏ」に対しては、４０８の値より４０４の値を減じ
る。結果として、差分値「３０」が差分継続長として４
１２に格納される。上記の方法を用いてパラメータ差分
値４０９を求める。このようにして、「３０／−１０／
３０／−１０／０／３０／−２０／１０／０／１０」が
メモリ１０の１０１２に格納される。

【００１８】以下、同様にして、基本周波数、パワー、
ケプストラムパラメータに関する差分値を計算する。

【００１９】このようにして、音素継続時間長、基本周
波数、パワー、ケプストラムの差分値がメモリ１０の１
０１２、１０１３、１０１４、１０１５に格納された。
ここで、メモリ１０に格納された差分値を、パラメータ
差分値蓄積装置９である記憶媒体に格納して保存するこ
とや、後述の実施例で示す方法で該差分値を利用するこ
ともできる。

【００２０】ここで、図３を用いて、差分値データより
合成パラメータを求める原理を説明する。３０１は図１
の音声入力装置６により入力された利用者の音声デー
タ、３０２は音声データ３０１を分析し音声の特徴を表
す分析パラメータを出力する音声パラメータ分析部、３
０３は図１の文字列入力装置１により入力された文字列
データ、３０４は文字列データ３０３より合成パラメー
タを算出する合成パラメータ算出部、３０５は前記分析
パラメータと合成パラメータと比較しパラメータ差分値
３０６を計算するパラメータ比較部、３０７は文字列デ
ータ３０３より算出された合成パラメータとパラメータ
差分値３０６から合成パラメータを計算するパラメータ
加算部、３０８はパラメータ加算手段３０７により出力
された合成パラメータから音声を合成する音声合成部で
ある。ここでは、パラメータ比較部３０５とパラメータ
加算部３０７は同一の合成パラメータを用いているが、
異なるパラメータを用いてもよい。上記の原理を用い
て、利用者の音声３０１の音声の特徴を持った音声３０
９を合成することが可能である。

【００２１】上記原理を用いて、パラメータ差分値より
合成パラメータを計算する。本実施例では、これから説
明する方法で合成パラメータを計算する。仮に、合成パ
ラメータｐと合成パラメータｑからパラメータ差分値ｄ
を求める演算をｆｄとすると、ｄ＝ｆｄ（ｐ，ｑ）が成
り立つ。ここで、差分値ｄから合成パラメータｐを求め
るパラメータ加算方法ｆｓが、以下の関係を満たすよう
な演算ｆｓをパラメータ加算方法を利用する。すなわ
ち、ｐ＝ｆｓ（ｆｄ（ｐ，ｑ））を満たすｆｓを採用す
る。例えば、前記例ではパラメータ比較方法にパラメー
タの差を用いたので、パラメータ加算方法にはパラメー
タの和を用いることにより、該関係を満たすことができ
る。勿論、該関係は一例であり、差分値より話者の音声
の特徴を表すパラメータを算出することができるパラメ
ータ加算方法を利用してもよい。このようにして算出さ
れた合成パラメータは、メモリ１０の１００２、１００
４、１００５、１００６へ転送される。続いて、音声合
成部４は、メモリ１０の１００２、１００４、１００
５、１００６から合成パラメータを読み出し、合成フィ
ルタを駆動することにより音声合成を行い、音声データ
を生成する。音声合成の方法は、例えば、文献「古
井：”ディジタル音声処理”、ｐ．２２、東海大学出版
会、１９８５」に示されている方法を利用する。勿論、
該音声合成方法は一例であり、他の音声合成方法を利用
してもよい。このようにして、生成された音声データは
メモリ１０の１０１６に格納される。次に、音声出力装
置５を通じて、メモリ１０の１０１６に格納されている
音声データを出力する。以上の手続きを以って、目的の
音声を合成する。

【００２２】さて、上記の実施例は、利用者が「今日の
話題」という文字列を入力し、「今日の話題」という音
声を入力した場合の差分値を計算する例であったが、例
えば、複数の文字列に対して発声した音声に関して分析
を行った結果得られた複数の差分値に関して、差分値の
平均を計算した平均差分値もしくは、差分値に関する平
均値と分散値といった値も、差分値として利用しても良
い。また、差分値は、基準パラメータとの異なりを示す
値であれば、基準パラメータとの比等を利用しても一向
に構わない。

【００２３】また、上記音声合成装置は、差分値及び合
成音声を出力できればよく、例えば、文字列入力装置及
び音声入力装置を備える計算機装置に蓄えられ、該計算
機装置のＣＰＵが読み出されて実行されるプログラムで
も良い。

【００２４】次に、図５を用いて、本発明の他の実施形
態を説明する。５０はメールを送信する側のシステム、
６０はメールを受信する側のシステム、５６はメール送
信側システムの通信装置、６６はメール受信側システム
の通信装置、５８は通信装置５６と通信装置６６が通信
可能な通信路である。メールの送信者が、メール送信側
システム５０を利用して、例えば、「今日の会議は、延
期になりました。」という内容のメールをメールの受信
者に送信する場合、メールの送信者は、まず、ＣＰＵ５
５に対してメール送信プログラムをメモリ５４より読み
出して実行するように指示した後、文字入力装置５１よ
り、「今日の会議は、延期になりました。」という文字
列を入力する。ここで、メール送信プログラムは、実行
される前に、固定ディスク等の記録媒体から転送されて
メモリ５４に格納されているものとする。勿論、実行さ
れる前にメモリ５４に格納されていれば、他のプログラ
ム格納方法を利用してもよい。入力された文字列は、メ
モリ５４に転送された後、表示装置５３に表示される。
続いて、利用者は音声入力装置５２を用いて、「今日の
会議は、延期になりました。」という音声を入力する。
入力された音声は、メモリ５４に転送される。続いて、
メール送信プログラムは、上述の機能を持つ音声合成プ
ログラムをメモリ５４より読み出し、実行を開始する。
ここで、音声合成プログラムは、実行される前に、固定
ディスク等の記録媒体から転送されてメモリ５４に格納
されているものとする。勿論、実行される前にメモリ５
４に格納されていれば、他のプログラム格納方法を利用
してもよい。次に、音声合成プログラムは、入力された
文字列をメモリ５４より読み出し、音声合成のためのシ
ステムの基準合成パラメータの生成して、メモリ５４に
転送する。次に、ＣＰＵ５５は入力された音声をメモリ
５４より読み出し、音声の特徴を表す分析パラメータを
生成して、メモリ５４に転送する。次に、音声合成プロ
グラムは、メモリ５４に格納されている基準合成パラメ
ータと分析パラメータの比較を行い、パラメータの差分
値を算出し、メモリ５４に転送する。次に、メール送信
プログラムは、メモリ５４より、「今日の会議は、延期
になりました。」という文字列と、音声合成プログラム
により算出された差分値を読み出して、例えば、該メー
ルには差分値が含まれている旨のデータを結合し、１つ
のメールデータとした後に、メモリ５４に転送する。図
６にメールデータの一例を示す。５０７はメールデー
タ、５０１はメールデータの宛て先を示す情報、５０２
はメールを送信する利用者の情報、５０３はメールのタ
イトル、５０４はメールの本文の内容であり、本実施例
では、文字列「今日の会議は、延期になりました。」、
５０５はメールに差分値が添付されている旨を示す差分
値情報有無フラグ、５０６はメール送信者の音声から算
出した差分値である。メール送信プログラムは、該メー
ルデータをメモリ５４より読み出し、通信装置５６を用
いて、通信装置６６にデータを送信する。上記の結果、
「今日の会議は、延期になりました。」という文字列と
送信者の音声の特徴を担った差分値及び、差分値データ
が付加されている旨を示す付加データから構成されるメ
ールデータが、メール受信側システムに送信された。

【００２５】一方、メール受信者は、ＣＰＵ６５に対し
て、メール受信プログラムをメモリ６４より読み出し、
実行するように指示を与える。ここで、メール受信プロ
グラムは、実行される前に、固定ディスク等の記録媒体
から転送されてメモリ５４に格納されているものとす
る。勿論、実行される前にメモリ５４に格納されていれ
ば、他のプログラム格納方法を利用してもよい。メール
受信プログラムは、通信装置６６に蓄積されているメー
ルデータの存在を検査し、メールが到着している場合に
は、メールデータをメモリ６４に読み込む。メール受信
プログラムは、メモリ６４よりメールデータを読み出
し、差分値データが付加されている旨を示す付加デー
タ、図６では差分値情報有無フラグ５０５を参照し、差
分値が付加されているかどうかを検査し、付加されてい
る場合には、文字列と差分値を分割するプログラムを実
行し、文字列と差分値をメモリ６４に転送し、受信した
文字列を表示装置６３に表示する。メール受信プログラ
ムは、メールに差分値データが付加されている場合に
は、その差分値に基づき音声を合成する機能を持つ音声
合成プログラムをメモリ６４より読み出し実行する。こ
こで、音声合成プログラムは、実行される前に、固定デ
ィスク等の記録媒体から転送されてメモリ５４に格納さ
れているものとする。勿論、実行される前にメモリ５４
に格納されていれば、他のプログラム格納方法を利用し
てもよい。例えば、装置中に備え付けの半導体メモリ、
外付けの光ディスク、ＤＶＤ、磁気ディスク、更にネッ
トワークコンピューティングのように、通信手段により
接続されている他のシステムから読み出してもよい。通
信手段も有線である必要はなく、無線、光、赤外線等の
通信手段でも良い。こうして目盛り５４に読み出された
音声合成プログラムは、文字列と差分値をメモリ６４よ
り読み出し、文字列「今日の会議は、延期になりまし
た。」から、音声合成のためのシステムの基準合成パラ
メータを算出し、基準パラメータと該差分値を加算する
ことにより合成パラメータを算出し、メモリ６４に転送
する。次に、音声合成プログラムは、該合成パラメータ
をメモリ６４より読み出して音声合成を行った後、音声
データをメモリ６４に転送する。次に、メール受信プロ
グラムは、音声データをメモリ６４より読み出し、音声
出力装置６２より音声を出力する。

【００２６】尚、上記の実施例は、メール送受信プログ
ラムと音声合成プログラムは、それぞれ別個のプログラ
ムとして説明したが、メール送受信プログラムの一部で
ある音声合成プログラムとして構成してもよい。

【００２７】ここでは、メール送信者により入力された
文字列と該文字列に対応する音声の差分値を算出した
が、メール送信者が既に該メールシステムを利用したこ
とがある場合、音声入力を行わず、計算済みの差分値を
メモリより検索し、文字列に付加する方法を採っても良
い。また、受信側システムでは、メールに差分値が付加
されていない場合があるとしても、メールの送信者情報
から、メモリに格納されている差分値情報を検索し、送
信者の差分値情報とする方法を採ることにより、送信者
の音声の特徴を持った音声を合成することが可能であ
る。

【００２８】

【発明の効果】以上のように、本発明装置を利用すれ
ば、音声で合成すべき内容を、特定の個人の特徴パラメ
ータに適応することが可能となるので、特定の個人の音
声で出力することが望ましいシステム、特に、電子メー
ルの読み上げシステム等に優れた効果を発揮する。

【図面の簡単な説明】

【図１】本発明の構成を示すブロック図である。

【図２】本発明における合成パラメータ算出部の処理手
順の実施例を示す図である。

【図３】本発明の原理を示す図である。

【図４】本発明におけるパラメータ比較手段の具体例を
示す音素継続長のパラメータ差分値を説明する図であ
る。

【図５】本発明の構成を示すブロック図である。

【図６】本発明におけるメールデータの例である。

【図７】本発明におけるメモリのデータ構造を示す図で
ある。

【符号の説明】１…文字列入力装置、２…合成パラメータ算出部、３…
パラメータ加算部、４…音声合成部、５…音声出力装
置、６…音声入力装置、７…音声パラメータ分析部、８
…パラメータ比較部、９…パラメータ差分値蓄積装置、
１０…メモリ、５０…送信側システム、５１…文字入力
装置、５２…音声入力装置、５３…表示装置、５４…メ
モリ、５５…ＣＰＵ、５６…通信装置、５８…通信路、
６０…受信側システム、６１…文字入力装置、６２…音
声出力装置、６３…表示装置、６４…メモリ、６５…Ｃ
ＰＵ、６６…通信装置、３０１…利用者の音声、３０２
…音声パラメータ分析部、３０３…文字列、３０４…合
成パラメータ算出部、３０５…パラメータ比較部、３０
６…パラメータ差分値、３０７…パラメータ加算部、３
０８…音声合成部、３０９…利用者の音声の特徴を持っ
た音声、４０１…合成パラメータ表、４０２…音素記
号、４０３…継続長、４０４…「ｏ」に対する継続長、
４０５…分析パラメータ表、４０６…音素記号、４０７
…分析継続長、４０８…「ｏ」に対する継続長、４０９
…パラメータ差分値表、４１０…音素記号、４１１…差
分継続長、４１２…「ｏ」に対する継続長、４２１…分
析パラメータ、４２２…合成パラメータ、４２３…差分
器、４２４…パラメータ差分値、５０１…宛て先、５０
２…送信者情報、５０３…タイトル、５０４…メール本
文、５０５…差分値情報有無フラグ、５０６…差分値、
５０７…メールデータ。

───────────────────────────────────────────────────── フロントページの続き (72)発明者藤田啓子東京都国分寺市東恋ケ窪一丁目280番地株式会社日立製作所中央研究所内

Claims

【特許請求の範囲】

【請求項１】文字列を入力する文字列入力部と、該文字
列から音声の特徴を表すパラメータを算出する合成パラ
メータ算出部と、該パラメータから音声を合成する音声
合成部と、該音声合成部により合成された音声を出力す
る音声出力部から成る音声合成装置において、音声を入
力する音声入力装置と、該入力音声を分析し音声の特徴
を表すパラメータを算出する音声パラメータ分析部と、
前記合成パラメータ算出部及び前記音声パラメータ分析
部により出力されたパラメータを比較し差分値を出力す
るパラメータ比較部と、該差分値と前記合成パラメータ
算出部により生成されたパラメータを加算するパラメー
タ加算部を備え、該パラメータ加算部により出力された
パラメータから音声を合成する音声合成部を備えたこと
を特徴とする音声合成装置。
【請求項２】入力された文字列データを音声で出力する
場合の音声の特徴を表す第１のパラメータを算出する合
成パラメータ算出部と、別途入力された該文字列の音声
データの特徴を表わす第２のパラメータを算出する音声
パラメータ分析部と、上記第１のパラメータと上記第２
のパラメータとの差分を演算する比較部と、該差分に基
づいて該文字列の音声を合成する手段とを備えることを
特徴とする音声合成装置。
【請求項３】文字列から音声の特徴を表すパラメータを
算出する合成パラメータ算出部と、該パラメータから音
声を合成して音声データを生成する音声合成部とからな
る音声合成プログラムにおいて、音声を分析し音声の特
徴を表すパラメータを算出する音声パラメータ分析部
と、前記合成パラメータ算出部及び前記音声パラメータ
分析部により出力されたパラメータを比較して差分値を
出力するパラメータ比較部と、該差分値と前記合成パラ
メータ算出部により生成されたパラメータを加算するパ
ラメータ加算部を備え、該パラメータ加算部により出力
されたパラメータから音声を合成して音声データを生成
する機能を備えたことを特徴とする音声合成プログラム
を記録した記録媒体。
【請求項４】テキストデータを音声出力する装置により
読みだされ実行されるプログラムを保持したコンピュー
タ可読な記憶媒体であって、該記憶媒体は、該文字列データを分析して、予め備えた標準的な音声出
力時の合成パラメータを得るステップと、該文字列を読み上げた入力音声から、該音声を再合成す
るに必要な特徴パラメータを得るステップと、上記合成パラメータと上記特徴パラメータとの差分パラ
メータを得るステップと、該差分パラメータを他のシステムへ送信するステップ
と、その受信した差分パラメータのもとになった文字列の音
声を出力するステップと、を有するプログラムを保持することを特徴とする記憶媒
体。
【請求項５】所定の基準値に設定されている音声の基準
パラメータを記憶するメモリと、音声を入力する音声入
力装置と、入力された音声のパラメータと上記基準パラ
メータの差を示す差分情報を作成して上記テキストデー
タとともに外部へ送信し、かつ、外部から受信したテキ
ストデータとともに送信された差分情報に基づいて上記
メモリに記憶された上記基準パラメータを変更して得た
合成音声パラメータで、上記受信したテキストデータの
合成音声データを作成する演算制御部と、上記合成音声
データに従って合成音声を出力する音声出力装置とから
構成されるメール送受信装置。
【請求項６】所定のテキストデータに対して基準値に設
定されている音声の基準パラメータを記憶するメモリ
と、入力された音声のパラメータと上記基準パラメータ
の差を示す差分情報を作成して上記テキストデータとと
もに外部へ送信し、かつ、外部から受信したテキストデ
ータとともに送信された差分情報に基づいて上記メモリ
に記憶された上記基準パラメータを変更して得た合成音
声パラメータで、上記受信したテキストデータの合成音
声データを作成する演算制御部と、上記合成音声データ
に従って合成音声を出力する音声出力装置とから構成さ
れるメール送受信装置。