JPH1152987A - 話者適応機能を持つ音声合成装置 - Google Patents

話者適応機能を持つ音声合成装置

Info

Publication number
JPH1152987A
JPH1152987A JP9205773A JP20577397A JPH1152987A JP H1152987 A JPH1152987 A JP H1152987A JP 9205773 A JP9205773 A JP 9205773A JP 20577397 A JP20577397 A JP 20577397A JP H1152987 A JPH1152987 A JP H1152987A
Authority
JP
Japan
Prior art keywords
parameter
voice
data
memory
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP9205773A
Other languages
English (en)
Other versions
JP3914612B2 (ja
Inventor
Nobuo Nukaga
信尾 額賀
Yoshinori Kitahara
義典 北原
Shunichi Yajima
俊一 矢島
Keiko Fujita
啓子 藤田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP20577397A priority Critical patent/JP3914612B2/ja
Publication of JPH1152987A publication Critical patent/JPH1152987A/ja
Application granted granted Critical
Publication of JP3914612B2 publication Critical patent/JP3914612B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 任意の話者の特徴を持った音声を合成する音
声合成装置を提供することにある。 【解決手段】 システム固有の基準パラメータと話者の
音声の特徴を表すパラメータの差分を計算しメモリに記
憶し、音声合成装置では、メモリに記憶された該差分値
とシステムの基準パラメータとを加算するパラメータ加
算部の出力したパラメータで音声合成を行うことで、該
話者の特徴を持った音声を合成できる。 【効果】音声で合成すべき内容を、特定の個人の特徴パ
ラメータに適応することが可能となるので、特定の個人
の音声で出力することが望ましいシステム、特に、電子
メールの読み上げシステム等に優れた効果を発揮する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、文字列より合成し
た音声の出力様態を、別途音声入力した話者の音声の出
力様態に変更できる音声合成装置に関する。
【0002】
【従来の技術】これまでの音声合成装置は、韻律的特徴
を表す音源モデルと、音韻的特徴を表す声道モデルとか
ら算出される合成パラメータを用いて、文字列から音声
を合成する方式が一般的であった。音声の特徴を表す合
成パラメータとしては、基本周波数、音素継続時間長、
パワー、スペクトルパラメータ等がある。
【0003】該音声合成装置を用いる場合、人間が発声
する音声を模擬するためには、韻律の特徴を表すパラメ
ータを生成する音源モデルと、声道の伝達特性を模擬す
る声道モデルを精密に構成する必要がある。音源モデル
及び声道モデルは、話者の個人性を担っている情報であ
り、両者をできるだけ肉声に近づけることで、該話者の
音声に近づけることができる。音源モデルのうち、基本
周波数を指定するモデルとしては、例えば、文献「藤
崎、須藤:”日本語単語アクセントの基本周波数パタン
とその生成機構”、日本音響学会誌27、pp.445
−453、1971」で提案されているモデル等があ
る。一方、音声のスペクトル情報もしくはフォルマント
と呼ばれる周波数軸上の特定の周波数のエネルギー分布
は、音韻性を決める声道モデルのパラメータとなる。
【0004】
【発明が解決しようとする課題】さて、該音声合成装置
を用いて特定の個人の音声を合成するためには、該個人
の音声から分析抽出したパラメータを利用してモデルを
構築する必要がある。
【0005】しかし、これまでの音声合成装置における
音源モデル及び声道モデルは、システムの基準音声を元
に設計されているため、文字列のみから不特定の話者の
合成音を実現することは不可能であった。
【0006】更には、音声の基本周波数等の音源モデル
は肉声の基本周波数を生成ルールで近似するため、モデ
ル化の対象とはならない細かいピッチの揺らぎ等が表現
できない場合があるという問題があった。
【0007】そこで本発明では、上述した問題点を解決
するために、文字列に対して算出されたシステムの基準
合成パラメータと、該個人の発声した音声を分析して得
られた分析パラメータとの差分値を求め、該差分値を文
字列と共に伝送することにより、特定の個人の音声を模
擬することが可能な音声合成装置を提供することを目的
とする。
【0008】
【課題を解決するための手段】上記目的を達成するため
に本発明の音声合成装置は、利用者の音声を入力する手
段と、入力音声を分析するパラメータ分析部と、文字列
に対する合成パラメータを算出するパラメータ算出部
と、入力音声から得られたパラメータとシステムの固有
のモデルから算出されたパラメータとを比較するパラメ
ータ比較部と、パラメータ比較部により演算された差分
値を格納するパラメータ差分値蓄積手段を備え、利用者
の音声をシステムの基準合成パラメータと差分値に分け
る機能を有する。更に、本発明の音声合成装置は、文字
列に対してシステムのモデルから算出された基準合成パ
ラメータとパラメータ差分値を加算して、利用者の音声
の特徴を表すパラメータを求めるパラメータ加算部を有
し、パラメータ加算部によって求められたパラメータを
用いて音声合成を行うことで、利用者の音声の特徴を持
った音声が合成可能であることを特徴とする。
【0009】また、本発明の音声合成装置で算出される
差分値と文字列から構成されるデータを、電気的格納媒
体及び通信手段に因って異なった時空間に存在する音声
合成装置の間を伝達する手段を提供することを特徴とす
る。この特徴により、前記差分値により簡便に個人情報
に適応した音声を合成することが可能になる。
【0010】
【発明の実施の形態】以下、本発明の実施例を図面を用
いて説明する。
【0011】まず、図1及び図2を用いて、本発明の実
施の形態を説明する。図1は、本発明の請求項1の構成
を示すブロック図である。図1において、1は文字列を
入力しメモリ10に転送するための文字列入力装置、2
は該文字列から音声の特徴を表すパラメータを算出しメ
モリ10に転送する合成パラメータ算出部、3はメモリ
10もしくはパラメータ差分値蓄積装置9に蓄積された
パラメータ差分値と、合成パラメータ算出手段2により
算出された合成パラメータをメモリ10より読み出し、
該差分値と該合成パラメータを加算して、加算したパラ
メータをメモリ10に転送するパラメータ加算部、4は
合成パラメータ算出部2より出力されたパラメータから
音声合成を行い音声波形をメモリ10に転送する音声合
成部、5は音声合成部4によって合成された音声を出力
する音声出力装置、6は利用者の音声を入力しメモリ1
0に転送するための音声入力装置、7は音声入力装置6
から入力された音声データをメモリ10より読み出しパ
ラメータの分析を行う音声パラメータ分析部、8は合成
パラメータ算出手段2により算出された合成パラメータ
と音声パラメータ分析手段7により計算された音声パラ
メータをメモリ10より読み出し、パラメータの差分値
を計算しパラメータ差分値蓄積装置9もしくはメモリ1
0に転送するパラメータ比較部、9はパラメータ比較部
8により計算された差分値を格納するパラメータ差分値
蓄積装置である。図2は、合成パラメータ算出部におけ
る手順を示すフローである。また、メモリ10のデータ
構造を図7に示す。
【0012】まず、利用者が文字列入力装置1を用いて
文字を入力する。文字列入力装置1は、キーボードだけ
ではなく、文字列が入力できる装置であれば、持ち運び
可能な記録媒体読み込み装置、通信線を介した文字列伝
送手段、音声認識装置等であっても良い。ここでは、例
として「今日の話題」という文字列を入力したとする。
該文字列はメモリ10の1000に格納される。次に合
成パラメータ算出部では、メモリ10の1000より文
字列を読み出し、該文字列を音素に分割する(ステップ
S101)。文字列から音素に分割する方法は、例え
ば、宮崎らの方法(「日本文音声出力のための言語処理
方式」情報処理学会論文誌、Vol.27、No.1
1、pp.1053−1061、1986)を利用す
る。勿論、該計算方法は一例であり、他の音素を分割す
る方法を用いてもよい。このようにして、「今日の話
題」という文字列は、「ky/o/o/n/o/w/a
/d/a/i」という音素に分割され、該音素分割デー
タはメモリ10の1001に格納される。ここで、「k
y」「w」「a」等は音素を示す記号である。勿論、該
音素記号データは一例であり、他の音素記号表現を用い
てもよい。また、求める単位は音素単位に限らず、音素
を2分割した単位や音節でも良い。次に音素に分割され
た音素分割データをメモリ10の1001より読み出
し、音素毎の継続時間長の計算(ステップS102)を
行って、継続時間長データをメモリ10の1002へ転
送する。音素毎の継続時間長の計算方法は、例えば、匂
坂らの方法(「規則による音声合成のための音韻時間長
制御」電子通信学会論文誌、Vol.J67−A、N
o.7、pp.629−636、1984)を利用す
る。勿論、該計算方法は一例であり、他の音素継続時間
長の計算方法を用いてもよい。このような方法で、先の
音素分割データ「ky/o/o/n/o/w/a/d/
a/i」から、例えば、ミリ秒単位の継続時間長データ
「50/150/120/40/150/20/200
/40/180/170」が計算結果として求められ、
メモリ10の1002に格納される。勿論、該継続時間
長は一例であり、秒単位等の継続時間長データを用いて
もよい。次に、メモリ10の1000と1001から、
文字列と音素分割データを読み出し、音の高さを指定す
るアクセントの付与(ステップS103)を行い、アク
セントデータをメモリ10の1003へ転送する。文字
列へのアクセント付与の方法は、例えば、匂坂らの方法
(「日本語単語連鎖のアクセント規則」電子通信学会論
文誌、Vol.J66−D、No.7、pp.849−
856、1983)を利用する。勿論、該計算方法は一
例であり、他のアクセント付与方法を用いてもよい。こ
のようにして、文字列「今日の話題」はアクセントデー
タ「kyo’ono,wadai.」に変換され、メモ
リ10の1003に格納される。ここで、「’」が付さ
れている音節はアクセント核のある音節、「,」は句の
区切れ、「.」は文の終端を表す記号である。勿論、該
記号は一例であり、他の記号を用いてもよい。次に、メ
モリ10の1001と1002より、音素分割データと
アクセントデータを読み出し、基本周波数の計算(ステ
ップS104)を行い、基本周波数データをメモリ10
の1004に転送する。基本周波数の計算方法は、例え
ば、藤崎らの方法(「日本語単語アクセントの基本周波
数パタンとその生成機構」日本音響学会誌27、pp.
445−453、1971)を利用する。勿論、該計算
方法は一例であり、他の基本周波数の計算方法を用いて
もよい。このようにして、文字列「今日の話題」は、
(F0,F1,...,Fi,...,Fp)という基
本周波数データに変換され、メモリ10の1004に格
納される。ここで、Fiは基本周波数を表す数値であ
り、例えば、10ミリ秒単位で求められた値である。ま
た、pは基本周波数を表す値の数である。勿論、基本周
波数を表す該方法は一例であり、基本周波数の値を求め
ることができる方法であるならば、一定の時間間隔では
ない時間単位で基本周波数を求める方法、基本周波数を
求めるモデルのパラメータの組で表す方法等でも良い。
次に、音素継続時間長データをメモリ10の1002よ
り読み出し、パワー計算(ステップS105)を行い、
パワーデータをメモリ10の1005に転送する。パワ
ー計算の方法は、例えば、三村らの方法(「統計的手法
を用いた音声パワーの分析と制御」日本音響学会誌、4
9巻、pp.253−259、1993)を利用する。
勿論、該計算方法は一例であり、他のパワー計算方法を
利用してもよい。このようにして、文字列「今日の話
題」は、(P0,P1,...,Pi,...,Pq)
というパワーデータに変換され、メモリ10の1005
に格納される。ここで、Piはパワーを表す値でありd
B値で格納される。qはパワーデータの個数である。勿
論、パワー値を表す該方法は一例であり、他のパワー値
表現方法を利用してもよい。次に、音素分割データをメ
モリ10の1001より読み出し、ケプストラムを計算
(ステップS106)し、ケプストラムデータをメモリ
10の1006に転送する。ケプストラムデータを求め
る方法は、例えば、音素毎の代表波形をケプストラム分
析した結果を用いる方法を利用する。勿論、該計算方法
は一例であり、他のケプストラム分析の方法を利用して
もよい。このようにして、文字列「今日の話題」は、
(C0,C1,...,Ci,...Cr)というケプ
ストラムデータに変換され、メモリ10の1006に格
納される。ここで、rはケプストラムデータの数、Ci
はケプストラム係数を表すベクトルデータで、(c
1,...,ci,...,cs)で表される。sはケ
プストラム係数の次数を示す。勿論、ケプストラムデー
タを表す該方法は一例であり、他の表現方法を用いても
よい。
【0013】このようにして、音声の特徴を表すパラメ
ータである、音素継続時間長データ、基本周波数デー
タ、パワーデータ、ケプストラムデータがメモリ10の
1002、1004、1005、1006にそれぞれ格
納される。なお、本実施例では、音声の特徴を表すパラ
メータとして、音素継続時間長データ、基本周波数デー
タ、パワーデータ、ケプストラムデータを用いたが、音
声の特徴を表すパラメータであれば、フォルマント周波
数、線形予測分析の結果得られる線形予測係数、メル尺
度に変換したメルケプストラム等のパラメータであって
も良い。
【0014】続いて、利用者は、音声入力装置6を用い
て、「今日の話題」と発声し音声を装置内に取り込む。
例えば、音声はサンプリング周波数16キロヘルツ、量
子化ビット数16ビット、モノラル音声で取り込む。次
に音声入力装置6は、音声データをメモリ10の100
7に転送する。次に、音声パラメータ分析手段7は、メ
モリ10の1007より音声データを読み出し、基本周
波数の分析を行い、基本周波数データ(F’0,F’
1,...,F’i,...,F’k)をメモリ10の
1009に転送する。ここで、F’iは基本周波数の値
であり、kは基本周波数データの値の数である。基本周
波数の分析の方法は、例えば、LPC分析の残差信号の
自己相関関数より基本周波数を求める方法を利用する。
勿論、該計算方法は一例であり、他の基本周波数分析方
法を利用してもよい。ここでは、基本周波数の分析間隔
は、文字列「今日の話題」から基本周波数データを求め
た時の基本単位と等しくする。例えば、10ミリ秒単位
で基本周波数データを分析する。勿論、該分析方法は一
例であり、後に説明する基本周波数の差分値を計算でき
る方法であるならば、他の基本周波数分析の方法及び基
本周波数のデータ構造を利用してもよい。このようにし
て、音声「今日の話題」の基本周波数データがメモリ1
0の1009に格納される。次に、メモリ10の100
7より音声データを読み出し、音素継続時間長の分析を
行い、音素継続時間長データをメモリ10の1008に
転送する。音素継続時間長の分析は、例えば、中川らの
方法(「HMM法とベイズ確率を用いた連続音声のセグ
メンテーション」電子情報通信学会論文誌、Vol.J
72−D−II、pp.1−10、1989)を利用す
る。勿論、該計算方法は一例であり、他の音素継続時間
長の分析方法を利用してもよい。このようにして、音声
「今日の話題」の音素継続時間長データ「80/140
/150/30/150/50/180/50/180
/180」がメモリ10の1008に格納される。ここ
では、文字列「今日の話題」から計算した音素継続時間
長と同じく時間長データの単位はミリ秒としたが、勿
論、該単位は一例であり、後に説明する音素継続時間長
データの差分値を計算できる方法であるならば、他の音
素継続時間長計算方法及びデータ表現方法を用いてもよ
い。次に、メモリ10の1007より音声データを読み
出し、パワーの分析を行い、パワー値をメモリ10の1
010に転送する。パワーの分析は、例えば、ケプスト
ラム分析の結果得られたケプストラムパラメータの0次
項を利用する。勿論、該計算方法は一例であり、他のパ
ワーデータ計算方法を用いてもよい。このようにして、
音声「今日の話題」のパワーデータ(P’0,P’
1,...,P’i,...,P’j)がメモリ10の
1010に格納される。ここで、P’iはパワーデータ
であり、jはパワーデータの個数である。勿論、該表現
方法は一例であり、後に説明するパワーデータの差分値
が計算できる方法であれば、他のパワーデータ表現方法
を利用してもよい。次に、メモリ10の1007より音
声データを読み出し、ケプストラム分析を行い、ケプス
トラムパラメータデータをメモリ10の1011に転送
する。ケプストラム分析の単位時間は、例えば、メモリ
10の1006に格納されているケプストラムパラメー
タと等しくする。このようにして、音声「今日の話題」
のケプストラムデータ(C’0,C’1,...,C’
i,...C’m)に変換され、メモリ10の1006
に格納される。ここで、mはケプストラムデータの数、
C’iはケプストラム係数を表すベクトルデータで、
(c’1,...,c’i,...,c’n)で表され
る。nはケプストラム係数の次数を示す。勿論、ケプス
トラムデータを表す該方法は一例であり、後に説明する
ケプストラムの差分値を求めることが出来るならば、他
の表現方法を用いてもよい。
【0015】以上の手順で、音素継続時間長、基本周波
数、パワー、ケプストラムのデータがメモリ10の10
08、1009、1010、1011に格納される。
【0016】続いて、パラメータ比較手段8では、合成
パラメータ算出手段2で算出された合成パラメータと音
声パラメータ分析手段7で分析された分析パラメータを
メモリ10の1002、1004、1005、1006
及び1008、1009、1010、1011より読み
出し、対応するパラメータの比較を行う。ここで、対応
するパラメータとは、合成パラメータにおける基本周波
数と分析パラメータにおける基本周波数、合成パラメー
タにおける音素継続時間長と分析パラメータにおける音
素継続時間長、合成パラメータにおけるパワーデータと
分析パラメータにおけるパワーデータ、合成パラメータ
におけるケプストラムデータと分析パラメータにおける
ケプストラムデータである。
【0017】まず、図4を用いて、図1のパラメータ比
較手段8における音素継続時間に関するパラメータ差分
値を算出する実施方法を説明する。図4は、「今日の話
題(キョウオノワダイ)」という文字列に対して実施し
た具体例である。401は図2の音素継続時間長計算手
順103の結果求められる合成パラメータである。合成
パラメータ401はシステム固有のパラメータ値であ
り、401の形式で格納されている。合成パラメータ4
01は、音素記号402と継続長403の組合せで定義
されており、音素記号毎に異なる値を持っている。継続
長403の単位はミリ秒である。例えば、404に示す
ように「オ(o)」という音素は150ミリ秒という継
続長が決まっている。このようにして、「今日の話題」
という文字列に対する合成パラメータ401を求める。
405は、「今日の話題」という文字列の内容を利用者
が発声した音声を分析した結果を示す分析パラメータ表
である。音素記号406及び継続長407は、合成パラ
メータ401と同じである。404の「オ」に対応する
分析パラメータにおける「オ」408は、合成パラメー
タ401とは異なる値を示している。これは、利用者の
発声とシステムで想定した合成パラメータとが異なって
いることを意味しており、利用者の個人性と解釈するこ
とも可能である。421は前記手順で求められた分析パ
ラメータであり、422は合成パラメータである。42
3は分析パラメータ421と合成パラメータ422の差
分値424を計算する差分器である。該実施例では、差
分器423では、音素記号402と音素記号406の対
応する項目の継続長の差分が計算され、409で示すパ
ラメータ差分値表として格納される。例えば一つ目の
「o」に対しては、408の値より404の値を減じ
る。結果として、差分値「30」が差分継続長として4
12に格納される。上記の方法を用いてパラメータ差分
値409を求める。このようにして、「30/−10/
30/−10/0/30/−20/10/0/10」が
メモリ10の1012に格納される。
【0018】以下、同様にして、基本周波数、パワー、
ケプストラムパラメータに関する差分値を計算する。
【0019】このようにして、音素継続時間長、基本周
波数、パワー、ケプストラムの差分値がメモリ10の1
012、1013、1014、1015に格納された。
ここで、メモリ10に格納された差分値を、パラメータ
差分値蓄積装置9である記憶媒体に格納して保存するこ
とや、後述の実施例で示す方法で該差分値を利用するこ
ともできる。
【0020】ここで、図3を用いて、差分値データより
合成パラメータを求める原理を説明する。301は図1
の音声入力装置6により入力された利用者の音声デー
タ、302は音声データ301を分析し音声の特徴を表
す分析パラメータを出力する音声パラメータ分析部、3
03は図1の文字列入力装置1により入力された文字列
データ、304は文字列データ303より合成パラメー
タを算出する合成パラメータ算出部、305は前記分析
パラメータと合成パラメータと比較しパラメータ差分値
306を計算するパラメータ比較部、307は文字列デ
ータ303より算出された合成パラメータとパラメータ
差分値306から合成パラメータを計算するパラメータ
加算部、308はパラメータ加算手段307により出力
された合成パラメータから音声を合成する音声合成部で
ある。ここでは、パラメータ比較部305とパラメータ
加算部307は同一の合成パラメータを用いているが、
異なるパラメータを用いてもよい。上記の原理を用い
て、利用者の音声301の音声の特徴を持った音声30
9を合成することが可能である。
【0021】上記原理を用いて、パラメータ差分値より
合成パラメータを計算する。本実施例では、これから説
明する方法で合成パラメータを計算する。仮に、合成パ
ラメータpと合成パラメータqからパラメータ差分値d
を求める演算をfdとすると、d=fd(p,q)が成
り立つ。ここで、差分値dから合成パラメータpを求め
るパラメータ加算方法fsが、以下の関係を満たすよう
な演算fsをパラメータ加算方法を利用する。すなわ
ち、p=fs(fd(p,q))を満たすfsを採用す
る。例えば、前記例ではパラメータ比較方法にパラメー
タの差を用いたので、パラメータ加算方法にはパラメー
タの和を用いることにより、該関係を満たすことができ
る。勿論、該関係は一例であり、差分値より話者の音声
の特徴を表すパラメータを算出することができるパラメ
ータ加算方法を利用してもよい。このようにして算出さ
れた合成パラメータは、メモリ10の1002、100
4、1005、1006へ転送される。続いて、音声合
成部4は、メモリ10の1002、1004、100
5、1006から合成パラメータを読み出し、合成フィ
ルタを駆動することにより音声合成を行い、音声データ
を生成する。音声合成の方法は、例えば、文献「古
井:”ディジタル音声処理”、p.22、東海大学出版
会、1985」に示されている方法を利用する。勿論、
該音声合成方法は一例であり、他の音声合成方法を利用
してもよい。このようにして、生成された音声データは
メモリ10の1016に格納される。次に、音声出力装
置5を通じて、メモリ10の1016に格納されている
音声データを出力する。以上の手続きを以って、目的の
音声を合成する。
【0022】さて、上記の実施例は、利用者が「今日の
話題」という文字列を入力し、「今日の話題」という音
声を入力した場合の差分値を計算する例であったが、例
えば、複数の文字列に対して発声した音声に関して分析
を行った結果得られた複数の差分値に関して、差分値の
平均を計算した平均差分値もしくは、差分値に関する平
均値と分散値といった値も、差分値として利用しても良
い。また、差分値は、基準パラメータとの異なりを示す
値であれば、基準パラメータとの比等を利用しても一向
に構わない。
【0023】また、上記音声合成装置は、差分値及び合
成音声を出力できればよく、例えば、文字列入力装置及
び音声入力装置を備える計算機装置に蓄えられ、該計算
機装置のCPUが読み出されて実行されるプログラムで
も良い。
【0024】次に、図5を用いて、本発明の他の実施形
態を説明する。50はメールを送信する側のシステム、
60はメールを受信する側のシステム、56はメール送
信側システムの通信装置、66はメール受信側システム
の通信装置、58は通信装置56と通信装置66が通信
可能な通信路である。メールの送信者が、メール送信側
システム50を利用して、例えば、「今日の会議は、延
期になりました。」という内容のメールをメールの受信
者に送信する場合、メールの送信者は、まず、CPU5
5に対してメール送信プログラムをメモリ54より読み
出して実行するように指示した後、文字入力装置51よ
り、「今日の会議は、延期になりました。」という文字
列を入力する。ここで、メール送信プログラムは、実行
される前に、固定ディスク等の記録媒体から転送されて
メモリ54に格納されているものとする。勿論、実行さ
れる前にメモリ54に格納されていれば、他のプログラ
ム格納方法を利用してもよい。入力された文字列は、メ
モリ54に転送された後、表示装置53に表示される。
続いて、利用者は音声入力装置52を用いて、「今日の
会議は、延期になりました。」という音声を入力する。
入力された音声は、メモリ54に転送される。続いて、
メール送信プログラムは、上述の機能を持つ音声合成プ
ログラムをメモリ54より読み出し、実行を開始する。
ここで、音声合成プログラムは、実行される前に、固定
ディスク等の記録媒体から転送されてメモリ54に格納
されているものとする。勿論、実行される前にメモリ5
4に格納されていれば、他のプログラム格納方法を利用
してもよい。次に、音声合成プログラムは、入力された
文字列をメモリ54より読み出し、音声合成のためのシ
ステムの基準合成パラメータの生成して、メモリ54に
転送する。次に、CPU55は入力された音声をメモリ
54より読み出し、音声の特徴を表す分析パラメータを
生成して、メモリ54に転送する。次に、音声合成プロ
グラムは、メモリ54に格納されている基準合成パラメ
ータと分析パラメータの比較を行い、パラメータの差分
値を算出し、メモリ54に転送する。次に、メール送信
プログラムは、メモリ54より、「今日の会議は、延期
になりました。」という文字列と、音声合成プログラム
により算出された差分値を読み出して、例えば、該メー
ルには差分値が含まれている旨のデータを結合し、1つ
のメールデータとした後に、メモリ54に転送する。図
6にメールデータの一例を示す。507はメールデー
タ、501はメールデータの宛て先を示す情報、502
はメールを送信する利用者の情報、503はメールのタ
イトル、504はメールの本文の内容であり、本実施例
では、文字列「今日の会議は、延期になりました。」、
505はメールに差分値が添付されている旨を示す差分
値情報有無フラグ、506はメール送信者の音声から算
出した差分値である。メール送信プログラムは、該メー
ルデータをメモリ54より読み出し、通信装置56を用
いて、通信装置66にデータを送信する。上記の結果、
「今日の会議は、延期になりました。」という文字列と
送信者の音声の特徴を担った差分値及び、差分値データ
が付加されている旨を示す付加データから構成されるメ
ールデータが、メール受信側システムに送信された。
【0025】一方、メール受信者は、CPU65に対し
て、メール受信プログラムをメモリ64より読み出し、
実行するように指示を与える。ここで、メール受信プロ
グラムは、実行される前に、固定ディスク等の記録媒体
から転送されてメモリ54に格納されているものとす
る。勿論、実行される前にメモリ54に格納されていれ
ば、他のプログラム格納方法を利用してもよい。メール
受信プログラムは、通信装置66に蓄積されているメー
ルデータの存在を検査し、メールが到着している場合に
は、メールデータをメモリ64に読み込む。メール受信
プログラムは、メモリ64よりメールデータを読み出
し、差分値データが付加されている旨を示す付加デー
タ、図6では差分値情報有無フラグ505を参照し、差
分値が付加されているかどうかを検査し、付加されてい
る場合には、文字列と差分値を分割するプログラムを実
行し、文字列と差分値をメモリ64に転送し、受信した
文字列を表示装置63に表示する。メール受信プログラ
ムは、メールに差分値データが付加されている場合に
は、その差分値に基づき音声を合成する機能を持つ音声
合成プログラムをメモリ64より読み出し実行する。こ
こで、音声合成プログラムは、実行される前に、固定デ
ィスク等の記録媒体から転送されてメモリ54に格納さ
れているものとする。勿論、実行される前にメモリ54
に格納されていれば、他のプログラム格納方法を利用し
てもよい。例えば、装置中に備え付けの半導体メモリ、
外付けの光ディスク、DVD、磁気ディスク、更にネッ
トワークコンピューティングのように、通信手段により
接続されている他のシステムから読み出してもよい。通
信手段も有線である必要はなく、無線、光、赤外線等の
通信手段でも良い。こうして目盛り54に読み出された
音声合成プログラムは、文字列と差分値をメモリ64よ
り読み出し、文字列「今日の会議は、延期になりまし
た。」から、音声合成のためのシステムの基準合成パラ
メータを算出し、基準パラメータと該差分値を加算する
ことにより合成パラメータを算出し、メモリ64に転送
する。次に、音声合成プログラムは、該合成パラメータ
をメモリ64より読み出して音声合成を行った後、音声
データをメモリ64に転送する。次に、メール受信プロ
グラムは、音声データをメモリ64より読み出し、音声
出力装置62より音声を出力する。
【0026】尚、上記の実施例は、メール送受信プログ
ラムと音声合成プログラムは、それぞれ別個のプログラ
ムとして説明したが、メール送受信プログラムの一部で
ある音声合成プログラムとして構成してもよい。
【0027】ここでは、メール送信者により入力された
文字列と該文字列に対応する音声の差分値を算出した
が、メール送信者が既に該メールシステムを利用したこ
とがある場合、音声入力を行わず、計算済みの差分値を
メモリより検索し、文字列に付加する方法を採っても良
い。また、受信側システムでは、メールに差分値が付加
されていない場合があるとしても、メールの送信者情報
から、メモリに格納されている差分値情報を検索し、送
信者の差分値情報とする方法を採ることにより、送信者
の音声の特徴を持った音声を合成することが可能であ
る。
【0028】
【発明の効果】以上のように、本発明装置を利用すれ
ば、音声で合成すべき内容を、特定の個人の特徴パラメ
ータに適応することが可能となるので、特定の個人の音
声で出力することが望ましいシステム、特に、電子メー
ルの読み上げシステム等に優れた効果を発揮する。
【図面の簡単な説明】
【図1】本発明の構成を示すブロック図である。
【図2】本発明における合成パラメータ算出部の処理手
順の実施例を示す図である。
【図3】本発明の原理を示す図である。
【図4】本発明におけるパラメータ比較手段の具体例を
示す音素継続長のパラメータ差分値を説明する図であ
る。
【図5】本発明の構成を示すブロック図である。
【図6】本発明におけるメールデータの例である。
【図7】本発明におけるメモリのデータ構造を示す図で
ある。
【符号の説明】 1…文字列入力装置、2…合成パラメータ算出部、3…
パラメータ加算部、4…音声合成部、5…音声出力装
置、6…音声入力装置、7…音声パラメータ分析部、8
…パラメータ比較部、9…パラメータ差分値蓄積装置、
10…メモリ、50…送信側システム、51…文字入力
装置、52…音声入力装置、53…表示装置、54…メ
モリ、55…CPU、56…通信装置、58…通信路、
60…受信側システム、61…文字入力装置、62…音
声出力装置、63…表示装置、64…メモリ、65…C
PU、66…通信装置、301…利用者の音声、302
…音声パラメータ分析部、303…文字列、304…合
成パラメータ算出部、305…パラメータ比較部、30
6…パラメータ差分値、307…パラメータ加算部、3
08…音声合成部、309…利用者の音声の特徴を持っ
た音声、401…合成パラメータ表、402…音素記
号、403…継続長、404…「o」に対する継続長、
405…分析パラメータ表、406…音素記号、407
…分析継続長、408…「o」に対する継続長、409
…パラメータ差分値表、410…音素記号、411…差
分継続長、412…「o」に対する継続長、421…分
析パラメータ、422…合成パラメータ、423…差分
器、424…パラメータ差分値、501…宛て先、50
2…送信者情報、503…タイトル、504…メール本
文、505…差分値情報有無フラグ、506…差分値、
507…メールデータ。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 藤田 啓子 東京都国分寺市東恋ケ窪一丁目280番地 株式会社日立製作所中央研究所内

Claims (6)

    【特許請求の範囲】
  1. 【請求項1】文字列を入力する文字列入力部と、該文字
    列から音声の特徴を表すパラメータを算出する合成パラ
    メータ算出部と、該パラメータから音声を合成する音声
    合成部と、該音声合成部により合成された音声を出力す
    る音声出力部から成る音声合成装置において、音声を入
    力する音声入力装置と、該入力音声を分析し音声の特徴
    を表すパラメータを算出する音声パラメータ分析部と、
    前記合成パラメータ算出部及び前記音声パラメータ分析
    部により出力されたパラメータを比較し差分値を出力す
    るパラメータ比較部と、該差分値と前記合成パラメータ
    算出部により生成されたパラメータを加算するパラメー
    タ加算部を備え、該パラメータ加算部により出力された
    パラメータから音声を合成する音声合成部を備えたこと
    を特徴とする音声合成装置。
  2. 【請求項2】入力された文字列データを音声で出力する
    場合の音声の特徴を表す第1のパラメータを算出する合
    成パラメータ算出部と、別途入力された該文字列の音声
    データの特徴を表わす第2のパラメータを算出する音声
    パラメータ分析部と、上記第1のパラメータと上記第2
    のパラメータとの差分を演算する比較部と、該差分に基
    づいて該文字列の音声を合成する手段とを備えることを
    特徴とする音声合成装置。
  3. 【請求項3】文字列から音声の特徴を表すパラメータを
    算出する合成パラメータ算出部と、該パラメータから音
    声を合成して音声データを生成する音声合成部とからな
    る音声合成プログラムにおいて、音声を分析し音声の特
    徴を表すパラメータを算出する音声パラメータ分析部
    と、前記合成パラメータ算出部及び前記音声パラメータ
    分析部により出力されたパラメータを比較して差分値を
    出力するパラメータ比較部と、該差分値と前記合成パラ
    メータ算出部により生成されたパラメータを加算するパ
    ラメータ加算部を備え、該パラメータ加算部により出力
    されたパラメータから音声を合成して音声データを生成
    する機能を備えたことを特徴とする音声合成プログラム
    を記録した記録媒体。
  4. 【請求項4】テキストデータを音声出力する装置により
    読みだされ実行されるプログラムを保持したコンピュー
    タ可読な記憶媒体であって、該記憶媒体は、 該文字列データを分析して、予め備えた標準的な音声出
    力時の合成パラメータを得るステップと、 該文字列を読み上げた入力音声から、該音声を再合成す
    るに必要な特徴パラメータを得るステップと、 上記合成パラメータと上記特徴パラメータとの差分パラ
    メータを得るステップと、 該差分パラメータを他のシステムへ送信するステップ
    と、 その受信した差分パラメータのもとになった文字列の音
    声を出力するステップと、 を有するプログラムを保持することを特徴とする記憶媒
    体。
  5. 【請求項5】所定の基準値に設定されている音声の基準
    パラメータを記憶するメモリと、音声を入力する音声入
    力装置と、入力された音声のパラメータと上記基準パラ
    メータの差を示す差分情報を作成して上記テキストデー
    タとともに外部へ送信し、かつ、外部から受信したテキ
    ストデータとともに送信された差分情報に基づいて上記
    メモリに記憶された上記基準パラメータを変更して得た
    合成音声パラメータで、上記受信したテキストデータの
    合成音声データを作成する演算制御部と、上記合成音声
    データに従って合成音声を出力する音声出力装置とから
    構成されるメール送受信装置。
  6. 【請求項6】所定のテキストデータに対して基準値に設
    定されている音声の基準パラメータを記憶するメモリ
    と、入力された音声のパラメータと上記基準パラメータ
    の差を示す差分情報を作成して上記テキストデータとと
    もに外部へ送信し、かつ、外部から受信したテキストデ
    ータとともに送信された差分情報に基づいて上記メモリ
    に記憶された上記基準パラメータを変更して得た合成音
    声パラメータで、上記受信したテキストデータの合成音
    声データを作成する演算制御部と、上記合成音声データ
    に従って合成音声を出力する音声出力装置とから構成さ
    れるメール送受信装置。
JP20577397A 1997-07-31 1997-07-31 通信システム Expired - Fee Related JP3914612B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP20577397A JP3914612B2 (ja) 1997-07-31 1997-07-31 通信システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP20577397A JP3914612B2 (ja) 1997-07-31 1997-07-31 通信システム

Publications (2)

Publication Number Publication Date
JPH1152987A true JPH1152987A (ja) 1999-02-26
JP3914612B2 JP3914612B2 (ja) 2007-05-16

Family

ID=16512439

Family Applications (1)

Application Number Title Priority Date Filing Date
JP20577397A Expired - Fee Related JP3914612B2 (ja) 1997-07-31 1997-07-31 通信システム

Country Status (1)

Country Link
JP (1) JP3914612B2 (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001080020A1 (fr) * 2000-04-17 2001-10-25 Kenichi Ohmae Dispositif d'emission et de reception de messages vocaux, production de ce dispositif, systeme de relais, procede d'emission, de reception et de relais et support d'enregistrement
US6549887B1 (en) 1999-01-22 2003-04-15 Hitachi, Ltd. Apparatus capable of processing sign language information
JP2003189000A (ja) * 2001-12-14 2003-07-04 Matsushita Electric Works Ltd 通話システム
JP2006030609A (ja) * 2004-07-16 2006-02-02 Yamaha Corp 音声合成データ生成装置、音声合成装置、音声合成データ生成プログラム及び音声合成プログラム
JP2007140002A (ja) * 2005-11-17 2007-06-07 Oki Electric Ind Co Ltd 音声合成装置,音声合成方法,およびコンピュータプログラム
WO2010137385A1 (ja) 2009-05-28 2010-12-02 インターナショナル・ビジネス・マシーンズ・コーポレーション 話者適応のための基本周波数の移動量学習装置、基本周波数生成装置、移動量学習方法、基本周波数生成方法及び移動量学習プログラム
JP2021511533A (ja) * 2018-01-11 2021-05-06 ネオサピエンス株式会社Neosapience, Inc. 機械学習を利用したテキスト音声合成方法、装置およびコンピュータ読み取り可能な記憶媒体

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6549887B1 (en) 1999-01-22 2003-04-15 Hitachi, Ltd. Apparatus capable of processing sign language information
WO2001080020A1 (fr) * 2000-04-17 2001-10-25 Kenichi Ohmae Dispositif d'emission et de reception de messages vocaux, production de ce dispositif, systeme de relais, procede d'emission, de reception et de relais et support d'enregistrement
JP2003189000A (ja) * 2001-12-14 2003-07-04 Matsushita Electric Works Ltd 通話システム
JP2006030609A (ja) * 2004-07-16 2006-02-02 Yamaha Corp 音声合成データ生成装置、音声合成装置、音声合成データ生成プログラム及び音声合成プログラム
JP2007140002A (ja) * 2005-11-17 2007-06-07 Oki Electric Ind Co Ltd 音声合成装置,音声合成方法,およびコンピュータプログラム
US7739113B2 (en) 2005-11-17 2010-06-15 Oki Electric Industry Co., Ltd. Voice synthesizer, voice synthesizing method, and computer program
JP4539537B2 (ja) * 2005-11-17 2010-09-08 沖電気工業株式会社 音声合成装置,音声合成方法,およびコンピュータプログラム
WO2010137385A1 (ja) 2009-05-28 2010-12-02 インターナショナル・ビジネス・マシーンズ・コーポレーション 話者適応のための基本周波数の移動量学習装置、基本周波数生成装置、移動量学習方法、基本周波数生成方法及び移動量学習プログラム
JP2021511533A (ja) * 2018-01-11 2021-05-06 ネオサピエンス株式会社Neosapience, Inc. 機械学習を利用したテキスト音声合成方法、装置およびコンピュータ読み取り可能な記憶媒体

Also Published As

Publication number Publication date
JP3914612B2 (ja) 2007-05-16

Similar Documents

Publication Publication Date Title
US11062694B2 (en) Text-to-speech processing with emphasized output audio
US10140973B1 (en) Text-to-speech processing using previously speech processed data
Tokuda et al. Speech synthesis based on hidden Markov models
US7460997B1 (en) Method and system for preselection of suitable units for concatenative speech
US20160379638A1 (en) Input speech quality matching
US7739113B2 (en) Voice synthesizer, voice synthesizing method, and computer program
US20050119890A1 (en) Speech synthesis apparatus and speech synthesis method
JP2001215993A (ja) 対話処理装置および対話処理方法、並びに記録媒体
US11763797B2 (en) Text-to-speech (TTS) processing
CN114203147A (zh) 用于文本到语音的跨说话者样式传递以及用于训练数据生成的***和方法
JPH04313034A (ja) 合成音声生成方法及びテキスト音声合成装置
WO2000058943A1 (fr) Systeme et procede de synthese de la parole
JP5198046B2 (ja) 音声処理装置及びそのプログラム
JP4829477B2 (ja) 声質変換装置および声質変換方法ならびに声質変換プログラム
JP2012141354A (ja) 音声合成方法、音声合成装置及び音声合成プログラム
JPH05197398A (ja) 音響単位の集合をコンパクトに表現する方法ならびに連鎖的テキスト−音声シンセサイザシステム
JP3914612B2 (ja) 通信システム
Sawada et al. The nitech text-to-speech system for the blizzard challenge 2016
JP2001034280A (ja) 電子メール受信装置および電子メールシステム
KR101097186B1 (ko) 대화체 앞뒤 문장정보를 이용한 다국어 음성합성 시스템 및 방법
KR102277205B1 (ko) 오디오 변환 장치 및 방법
Takaki et al. Overview of NIT HMM-based speech synthesis system for Blizzard Challenge 2012
JP2021148942A (ja) 声質変換システムおよび声質変換方法
JP2021099454A (ja) 音声合成装置、音声合成プログラム及び音声合成方法
JP2001092482A (ja) 音声合成システム、および音声合成方法

Legal Events

Date Code Title Description
A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20040615

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040708

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20040713

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20040820

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20060427

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20061213

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070205

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100209

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110209

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110209

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120209

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120209

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130209

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130209

Year of fee payment: 6

LAPS Cancellation because of no payment of annual fees