JP2002202789A - テキスト音声合成装置およびプログラム記録媒体 - Google Patents

テキスト音声合成装置およびプログラム記録媒体

Info

Publication number
JP2002202789A
JP2002202789A JP2000400788A JP2000400788A JP2002202789A JP 2002202789 A JP2002202789 A JP 2002202789A JP 2000400788 A JP2000400788 A JP 2000400788A JP 2000400788 A JP2000400788 A JP 2000400788A JP 2002202789 A JP2002202789 A JP 2002202789A
Authority
JP
Japan
Prior art keywords
speech
waveform
information
text
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2000400788A
Other languages
English (en)
Other versions
JP3673471B2 (ja
Inventor
Tomokazu Morio
智一 森尾
Osamu Kimura
治 木村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP2000400788A priority Critical patent/JP3673471B2/ja
Priority to PCT/JP2001/011511 priority patent/WO2002054383A1/ja
Priority to US10/451,825 priority patent/US7249021B2/en
Publication of JP2002202789A publication Critical patent/JP2002202789A/ja
Application granted granted Critical
Publication of JP3673471B2 publication Critical patent/JP3673471B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • G10L13/0335Pitch control
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

(57)【要約】 【課題】 簡単な処理で同一テキストを複数の話者に同
時に発声させる。 【解決手段】 複数音声指示器17は、複数音声合成器
16に対して、ピッチの変形率と混合率とを指示する。
複数音声合成器16は、音声素片データベース15から
読み出された音声素片データと音声素片選択器14から
の韻律情報とに基づいて波形重畳によって標準音声信号
を生成する。さらに、上記韻律情報と複数音声指示器1
7からの指示情報とに基づいて、上記標準音声信号の時
間軸を伸縮して声の高さを変える。そして、上記標準音
声信号と伸縮音声信号とを混合して出力端子18から出
力する。したがって、テキスト解析や韻律生成の処理を
時分割で並行して行ったり、ピッチ変換処理を後処理と
して加えることなく、同一のテキストに基づく複数話者
による同時発声を実現できる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は、テキストから合
成音声信号を生成するテキスト音声合成装置およびテキ
スト音声合成処理プログラムを記録したプログラム記録
媒体に関する。
【0002】
【従来の技術】図11は、一般的なテキスト音声合成装
置の構成を示すブロック図である。テキスト音声合成装
置は、テキスト入力端子1,テキスト解析器2,韻律生成
器3,音声素片選択器4,音声素片データベース5,音声
合成器6および出力端子7で概略構成される。
【0003】以下、従来のテキスト音声合成装置の動作
について説明する。入力端子1から単語や文章等の日本
語の漢字仮名混じりテキスト情報(例えば、漢字「左」)が
入力されると、テキスト解析器2は、入力テキスト情報
「左」を読みの情報(例えば、「hidari」)に変換して出力
する。尚、入力テキストとしては、日本語の漢字仮名混
じりテキストに限定されるものではなく、アルファベッ
ト等の読み記号を直接入力しても差し支えない。
【0004】上記韻律生成器3は、上記テキスト解析器
2からの読み情報「hidari」に基づいて、韻律情報(声の
高さ,大きさ,発声速度の情報)を生成する。ここで、声
の高さの情報は母音のピッチ(基本周波数)で設定され、
本例の場合においては、時間順に母音「i」,「a」,「i」の
ピッチが設定される。また、声の大きさおよび発声速度
の情報は、各音素「h」,「i」,「d」,「a」,「r」,「i」毎に
音声波形の振幅および継続時間長で設定される。こうし
て生成された韻律情報は、読み情報「hidari」と共に音声
素片選択器4に送出される。
【0005】そうすると、上記音声素片選択器4は、音
声素片データベース5を参照して、韻律生成器3からの
読み情報「hidari」に基づいて音声合成に必要な音声素片
データを選択する。ここで、音声合成単位としては、子
音+母音(CV:Consonant,Vowel)の音節単位(例えば
「ka」,「gu」)や、高音質化を目的に音素連鎖の過渡部
の特徴量を保持した母音+子音+母音(VCV)の単位
(例えば「aki」,「ito」)等が広く用いられている。
以下の説明においては、音声素片の基本単位(音声合成
単位)としてVCV単位を用いる場合について説明す
る。
【0006】上記音声素片データベース5には、例えば
アナウンサーの発声した音声データからVCVの単位で
適切に切り出された音声データを分析し、合成処理に必
要な形式に変換された波形やパラメータが、上記音声素
片データとして格納されている。VCV音声素片を合成
単位として用いる一般的な日本語テキスト音声合成の場
合には、800個程度のVCV音声素片データが格納さ
れている。本例のごとく読み情報「hidari」が音声素片選
択器4に入力された場合には、音声素片選択器4は、音
声素片データベース5から、VCV素片「*hi」,「id
a」,「ari」,「i**」の音声素片データを選択するの
である。尚、記号「*」は無音を表す。こうして得られた
選択結果情報は、韻律情報と共に音声合成器6に送出さ
れる。
【0007】最後に、上記音声合成器6は、入力された
選択結果情報に基づいて音声素片データベース5から該
当する音声素片データを読み出す。そして、入力された
韻律情報と上記得られた音声素片データとに基づいて、
韻律情報に従って声の高さや大きさや発声速度を制御し
ながら、上記選択されたVCV音声素片の系列を母音区
間で滑らかに接続して、出力端子7から出力するのであ
る。ここで、上記音声合成器6には、一般に波形重畳方
式と呼ばれる手法(例えば、特開昭60‐21098号
公報)や、一般にボコーダー方式またはホルマント合成
方式と呼ばれる手法(例えば、「音声情報処理の基礎」オ
ーム社P76‐77)が広く用いられている。
【0008】上記テキスト音声合成装置は、声の高さや
音声素片データベースを変更することによって、声質
(話者)を増やすことができる。また、上記音声合成器6
からの出力音声信号に対して別途信号処理を行うことに
よって、エコー等の音響効果を施すことも行われてい
る。さらに、音声合成器6からの出力音声信号に対して
カラオケ等にも応用されているピッチ変換処理を施し、
元々の合成音声信号とピッチ変換音声信号とを組み合わ
せて複数話者の同時発声を行うことが提案されている
(例えば、特開平3‐211597号公報)。また、上記
テキスト音声合成装置におけるテキスト解析器2および
韻律生成器3を時分割で駆動すると共に、音声合成器6
等によって構成される音声出力部を複数設けることによ
って、複数のテキストに対する複数の音声を同時に出力
する装置も提案されている(例えば、特開平6‐755
94号公報)。
【0009】
【発明が解決しようとする課題】しかしながら、上記従
来のテキスト音声合成装置においては、音声素片データ
ベースを変更することによって、指定したテキストを種
々の話者に切り替えて発声することは可能ではある。と
ころが、例えば、同一内容を複数人で同時に発声させる
ことは不可能であるという問題がある。
【0010】また、上記特開平6‐75594号公報に
開示されているように、上記テキスト音声合成装置にお
けるテキスト解析器2および韻律生成器3を時分割で駆
動すると共に、上記音声出力部を複数設けることによっ
て、複数の合成音声を同時に出力することができる。し
かしながら、時分割で前処理を行う必要があり、装置が
複雑化すると言う問題がある。
【0011】また、上記特開平3‐211597号公報
に開示されているように、上記音声合成器6からの出力
音声信号に対してピッチ変換処理を施して、標準の合成
音声信号とピッチ変換音声信号とによって複数話者を同
時発声させることができる。しかしながら、上記ピッチ
変換処理には、一般にピッチ抽出と言われる処理量の大
きい処理が必要であり、そのような装置構成では処理量
が多くなると共にコストの増加も大きいと言う問題があ
る。
【0012】そこで、この発明の目的は、より簡単な処
理で同一テキストを複数の話者に同時に発声させること
が可能なテキスト音声合成装置、および、テキスト音声
合成処理プログラムを記録したプログラム記録媒体を提
供することにある。
【0013】
【課題を解決するための手段】上記目的を達成するた
め、第1の発明は、入力されたテキスト情報の読み及び
品詞情報に基づいて音声素片データベースから必要な音
声素片情報を選択し,この選択された音声素片情報に基
づいて音声信号を生成するテキスト音声合成装置におい
て、上記入力テキスト情報を解析して読みおよび品詞情
報を得るテキスト解析手段と、上記読みおよび品詞情報
に基づいて韻律情報を生成する韻律生成手段と、同一の
入力テキストに対する複数音声の同時発声を指示する複
数音声指示手段と、上記複数音声指示手段からの指示を
受け,上記韻律生成手段からの韻律情報と上記音声素片
データベースから選択された音声素片情報とに基づい
て,複数の合成音声信号を生成する複数音声合成手段を
備えたことを特徴としている。
【0014】上記構成によれば、一つのテキスト情報か
らテキスト解析手段および韻律生成手段によって読みお
よび韻律情報が生成される。そして、複数音声指示手段
からの指示に従って、複数音声合成手段によって、上記
一つのテキスト情報から生成された韻律情報と音声素片
データベースから選択された音声素片情報とに基づいて
複数の合成音声信号が生成される。したがって、同一の
入力テキストに基づく複数音声の同時発声が、テキスト
解析手段および韻律生成手段の時分割処理やピッチ変換
処理の追加等を行うことなく簡単な処理で行われる。
【0015】また、第1の実施例は、上記複数音声合成
手段を、上記音声素片情報と韻律情報とに基づいて,波
形重畳法によって音声信号を生成する波形重畳手段と、
上記韻律情報と上記複数音声指示手段からの指示情報と
に基づいて,上記波形重畳手段によって生成された音声
信号の波形の時間軸を伸縮して声の高さが異なる音声信
号を生成する波形伸縮手段と、上記波形重畳手段からの
音声信号と上記波形伸縮手段からの音声信号とを混合す
る混合手段を備えるように成したことを特徴としてい
る。
【0016】この実施例によれば、波形重畳手段によっ
て、標準の音声信号が生成される。一方、波形伸縮手段
によって、上記標準の音声信号の波形の時間軸が伸縮さ
れて伸縮音声信号が生成される。そして、混合手段によ
って、上記標準の音声信号と伸縮音声信号とが混合され
る。こうして、例えば、同一の入力テキストに基づく男
性の音声と女性の音声とが、同時に発声される。
【0017】また、第2の実施例は、上記複数音声合成
手段を、上記音声素片情報と韻律情報とに基づいて,波
形重畳法によって音声信号を生成する第1波形重畳手段
と、上記音声素片情報と韻律情報と上記複数音声指示手
段からの指示情報とに基づいて,上記第1波形重畳手段
とは異なる基本周期で,上記波形重畳法によって音声信
号を生成する第2波形重畳手段と、上記第1波形重畳手
段からの音声信号と上記第2波形重畳手段からの音声信
号とを混合する混合手段を備えるように成したことを特
徴としている。
【0018】この実施例によれば、第1波形重畳手段に
よって、上記音声素片に基づいて第1の音声信号が生成
される。一方、第2波形重畳手段によって、上記音声素
片に基づいて上記第1の音声信号とは基本周期のみが異
なる第2の音声信号が生成される。そして、混合手段に
よって、上記第1の音声信号と第2の音声信号とが混合
される。こうして、例えば、同一の入力テキストに基づ
く男性の音声と男性の更に高音の音声とが、同時に発声
される。
【0019】さらに、上記第1波形重畳手段と第2波形
重畳手段との基本構成は同じであるため、1つの波形重
畳手段を時分割によって上記第1波形重畳手段と第2波
形重畳手段として動作させることが可能であり、構成を
簡単にして低コスト化を図ることが可能になる。
【0020】また、第3の実施例は、上記複数音声合成
手段を、上記音声素片情報と韻律情報とに基づいて,波
形重畳法によって音声信号を生成する第1波形重畳手段
と、上記音声素片データベースとしての第1音声素片デ
ータベースとは異なる音声素片情報が格納された第2音
声素片データベースと、上記第2音声素片データベース
から選択された音声素片情報と,上記韻律情報と,上記複
数音声指示手段からの指示情報とに基づいて,上記波形
重畳法によって音声信号を生成する第2波形重畳手段
と、上記第1波形重畳手段からの音声信号と上記第2波
形重畳手段からの音声信号とを混合する混合手段を備え
るように成したことを特徴としている。
【0021】この実施例によれば、例えば、第1音声素
片データベースに男性用の音声素片情報を格納する一
方、第2音声素片データベースに女性用の音声素片情報
を格納しておけば、上記第2波形重畳手段は上記第2音
声素片データベースから選択された音声素片情報を用い
ることによって、同一の入力テキストに基づく男性の音
声と女性の音声とが、同時に発声される。
【0022】また、第4の実施例は、上記複数音声合成
手段を、上記音声素片と韻律情報とに基づいて,波形重
畳法によって音声信号を生成する波形重畳手段と、上記
韻律情報と上記複数音声指示手段からの指示情報とに基
づいて上記音声素片の波形の時間軸を伸縮し,上記波形
重畳法によって音声信号を生成する波形伸縮重畳手段
と、上記波形重畳手段からの音声信号と上記波形伸縮重
畳手段からの音声信号とを混合する混合手段を備えるよ
うに成したことを特徴としている。
【0023】この実施例によれば、波形重畳手段によっ
て、上記音声素片が用いられて標準の音声信号が生成さ
れる。一方、波形伸縮重畳手段によって、上記音声素片
の波形の時間軸が伸縮されて、上記標準の音声信号とは
ピッチが異なり且つ周波数スペクトルが変形された音声
信号が生成される。そして、混合手段によって、上記両
音声信号が混合される。こうして、例えば、同一の入力
テキストに基づく男性の音声と女性の音声とが、同時に
発声される。
【0024】また、第5の実施例は、上記複数音声合成
手段を、上記韻律情報に基づいて,第1励振波形を生成
する第1励振波形生成手段と、上記韻律情報と上記複数
音声指示手段からの指示情報とに基づいて,上記第1励
振波形とは周波数が異なる第2励振波形を生成する第2
励振波形生成手段と、上記第1励振波形と第2励振波形
とを混合する混合手段と、上記音声素片情報に含まれて
いる声道調音特性パラメータを取得し,この声道調音特
性パラメータを用いて,上記混合された励振波形に基づ
いて合成音声信号を生成する合成フィルタを備えるよう
に成したことを特徴としている。
【0025】この実施例によれば、第1励振波形生成手
段によって生成された第1励振波形と第2励振波形生成
手段によって生成された上記第1励振波形とは周波数が
異なる第2励振波形との混合励振波形が、混合手段によ
って生成される。そして、この混合励振波形に基づい
て、上記選択された音声素片情報に含まれる声道調音特
性パラメータによって声道調音特性が設定された合成フ
ィルタによって、合成音声が生成される。こうして、例
えば、同一の入力テキストに基づく複数の声の高さの音
声が、同時に発声される。
【0026】また、第6の実施例は、上記波形伸縮手
段,第2波形重畳手段,波形伸縮重畳手段あるいは第2励
振波形生成手段を、複数設けたことを特徴としている。
【0027】この実施例によれば、同一の入力テキスト
に基づいて同時発声させる際の人数を3人以上に増加で
き、バラエティーに富んだテキスト合成音声が生成され
る。
【0028】また、第7の実施例は、上記混合手段を、
上記複数音声指示手段からの指示情報に基づく混合率で
上記混合を行うように成したことを特徴としている。
【0029】この実施例によれば、同一の入力テキスト
に基づいて同時発声させる複数の人夫々に遠近感を持た
せたりして、種々の場面に応じた複数人による同時発声
が可能になる。
【0030】また、第2の発明のプログラム記録媒体
は、コンピュータを、上記第1の発明におけるテキスト
解析手段,韻律生成手段,複数音声指示手段および複数音
声合成手段として機能させるテキスト音声合成処理プロ
グラムが記録されたことを特徴としている。
【0031】上記構成によれば、上記第1の発明の場合
と同様に、同一の入力テキストに基づく複数音声の同時
発声が、テキスト解析手段および韻律生成手段の分割処
理やピッチ変換処理の追加等を行うことなく簡単な処理
で行われる。
【0032】
【発明の実施の形態】以下、この発明を図示の実施の形
態により詳細に説明する。 <第1実施の形態>図1は、本実施の形態のテキスト音
声合成装置におけるブロック図である。本テキスト音声
合成装置は、テキスト入力端子11,テキスト解析器1
2,韻律生成器13,音声素片選択器14,音声素片デー
タベース15,複数音声合成器16,複数音声指示器17
および出力端子18で概略構成される。
【0033】上記テキスト入力端子11,テキスト解析
器12,韻律生成器13,音声素片選択器14,音声素片
データベース15および出力端子18は、図11に示す
従来のテキスト音声合成装置におけるテキスト入力端子
1,テキスト解析器2,韻律生成器3,音声素片選択器4,
音声素片データベース5および出力端子7と同様であ
る。すなわち、入力端子11から入力されたテキスト情
報は、テキスト解析器12によって読みの情報に変換さ
れる。そして、韻律生成器13によって上記読み情報に
基づいて韻律情報が生成され、音声素片選択器14によ
って、音声素片データベース15から上記読み情報に基
づいてVCV音声素片が選択され、選択結果情報が韻律
情報と共に複数音声合成器16に送出されるのである。
【0034】上記複数音声指示器17は、上記複数音声
合成器16に対してどのような複数の音声を同時に発声
するのかを指示する。そうすると、複数音声合成器16
は、複数音声指示器17からの指示に従って複数の音声
信号を同時に合成するのである。そうすることによっ
て、同一の入力テキストに基づいて複数の話者によって
同時に発声させることができるのである。例えば、「い
らっしゃいませ」という発声を、男声と女声との2名の
話者で同時に行うことが可能になるのである。
【0035】上記複数音声指示器17は、上述したよう
に、上記複数音声合成器16に対して、どのような複数
の声で発声させるかを指示する。その場合の指示の例と
しては、通常の合成音声に対するピッチの変化率と、ピ
ッチを変化させた音声信号の混合率とを指定する方法が
ある。例えば「1オクターブ上の音声信号を、振幅を半
分にして混合する」という指定である。尚、上述の例で
は、2つの音声を同時に発声させる例で説明している
が、処理量やデータベースのサイズの増加は生じるもの
の、3つ以上の音声の同時発声にも容易に拡張できる。
【0036】上記複数音声合成器16は、上記複数音声
指示器17からの指示に従って、複数の音声を同時に発
声させる処理を行う。後に説明するように、この複数音
声合成器16は図11に示す1つの音声を発声させる従
来のテキスト音声合成装置における音声合成器6の処理
を部分的に拡充して実現することができる。したがっ
て、上記特開平3‐211597号公報の場合のように
ピッチ変換処理を後処理として加える構成に比べて、複
数音声生成の処理量の増加を少なく抑えることができる
のである。
【0037】以下、上記複数音声合成器16の構成およ
び動作について具体的に説明する。図2は、複数音声合
成器16の構成の一例を示すブロック図である。図2に
おいて、複数音声合成器16は、波形重畳器21,波形
伸縮器22および混合器23から構成される。上記波形
重畳器21は、音声素片選択器14によって選択された
音声素片データを読み出し、この音声素片データと音声
素片選択器14からの韻律情報とに基づいて、波形重畳
によって音声信号を生成する。そして、生成された音声
信号は、波形伸縮器22と混合器23とに送出される。
そうすると、波形伸縮器22は、音声素片選択器14か
らの韻律情報と複数音声指示器17からの上記指示とに
基づいて、波形重畳器21からの音声信号の波形の時間
軸を伸縮して声の高さを変える。そして、伸縮後の音声
信号が混合器23に送出される。混合器23は、波形重
畳器21からの標準の音声信号と波形伸縮器22からの
伸縮後の音声信号との二つの音声信号を混合して、出力
端子18に出力するのである。
【0038】上記構成において、上記波形重畳器21で
合成音を生成する処理としては、例えば、特開昭60‐
21098号公報に開示されている波形重畳方式を用い
ている。この波形重畳方式においては、音声素片データ
ベース15内に音声素片を基本周期単位の波形として記
憶している。そして、波形重畳器21は、この波形を指
定のピッチに応じた時間間隔で繰り返し生成することに
よって音声信号を生成するのである。波形重畳の処理と
して種々の実現方法が開発されているが、例えば繰り返
す時間間隔が音声素片の基本周波数より長い場合は不足
している部分に0のデータを埋め、逆に短い場合は波形
の終端が急峻に変化しないように適当に窓掛け処理を行
った後に処理を打ち切る方法等がある。
【0039】次に、上記波形伸縮器22によって行われ
る上記波形重畳方式で生成された標準の音声信号による
声の高さを変える処理について説明する。ここで、声の
高さを変える処理は、上記特開平3‐211597号公
報等に開示された従来の技術においてはテキスト音声合
成の出力信号に対して行うため、ピッチ抽出処理が必要
である。これに対して、本実施の形態においては、複数
音声合成器16に入力される韻律情報に含まれるピッチ
情報を用いるために、ピッチ抽出処理を省くことができ
効率的に実現できるのである。
【0040】図3は、本実施の形態における上記複数音
声合成器16の各部で生成される音声信号波形を示す。
以下、図3に従って、声の高さを変える処理について説
明する。図3(a)は、波形重畳器21によって上記波形
重畳方式で生成された母音区間の音声波形である。波形
伸縮器22は、音声素片選択器14からの韻律情報の1
つであるピッチと、複数音声指示器17から指示された
ピッチ変化率の情報とに基づいて、波形重畳器21で生
成された図3(a)の音声波形を基本周期A毎に波形伸縮
する。その結果、図3(b)に示すように、全体が時間軸
方向に伸縮された音声波形が得られる。その際に、上記
伸縮によって全体の時間長が変化しないように、ピッチ
を高くする場合には適当に基本周期単位の波形を多く繰
り返し、逆にピッチを低くする場合には間引くようにす
る。図3(b)の場合には基本周期を狭めた波形に縮めて
いるので、図3(a)の音声波形に比べピッチが高くな
り、周波数スペクトルも高域に伸張された信号となる。
効果を分かり易く例で説明すると、上記標準の音声信号
としての男声の合成音声信号に基づいて、波形伸縮器2
2によって上記伸縮された音声信号としての女声の合成
音声信号が作成されたことになるのである。
【0041】次に、上記混合器23は、上記複数音声指
示器17から与えられる混合率に従って、波形重畳器2
1で生成された図3(a)の音声波形と波形伸縮器22で
生成された図3(b)の音声波形との2つの音声波形を混
合する。図3(c)に混合された結果の音声波形の一例を
示す。こうして、同一のテキストに基づいて二人の話者
による同時発声が実現されるのである。
【0042】上述したごとく、本実施の形態において
は、上記複数音声合成器16と複数音声指示器17とを
有している。さらに、複数音声合成器16を波形重畳器
21,波形伸縮器22および混合器23で構成してい
る。そして、複数音声指示器17によって、複数音声合
成器16に対して、標準の合成音声信号に対するピッチ
の変化率(ピッチ変化率)と、ピッチを変化させた音声信
号の混合率とを指示する。
【0043】そうすると、上記波形重畳器21は、音声
素片データベース15から読み出された音声素片データ
と音声素片選択器14からの韻律情報に基づいて、波形
重畳によって標準音声信号を生成する。一方、波形伸縮
器22は、音声素片選択器14からの韻律情報と複数音
声指示器17からの上記指示とに基づいて、上記標準の
音声信号の波形の時間軸を伸縮して声の高さを変える。
そして、混合器23によって、波形重畳器21からの標
準の音声信号と波形伸縮器22からの伸縮音声信号とを
混合して、出力端子18に出力するようにしている。
【0044】したがって、上記テキスト解析器12およ
び韻律生成器13は、時分割処理を行うことなく1つの
入力テキスト情報に対してテキスト解析処理と韻律生成
処理とを行えばよい。また、複数音声合成器16の後処
理として、ピッチ変換処理を加える必要もない。すなわ
ち、本実施の形態によれば、同一のテキストに基づく複
数話者による合成音声の同時発声を、より簡単な処理
で、より簡単な装置で実現することができるのである。
【0045】<第2実施の形態>以下、上記複数音声合
成器16の他の実施の形態について説明する。図4は、
本実施の形態における複数音声合成器16の構成を示す
ブロック図である。本複数音声合成器16は、第1波形
重畳器25,第2波形重畳器26および混合器27で構
成されている。第1波形重畳器25は、音声素片データ
ベース15から読み出された音声素片データと音声素片
選択器14からの韻律情報とに基づいて、上記波形重畳
によって音声信号を生成して混合器27に送出する。一
方、第2波形重畳器26は、音声素片選択器14からの
韻律情報の1つであるピッチを複数音声指示器17から
指示されたピッチ変化率に基づいて変更する。そして、
第1波形重畳器25が用いた音声素片データと同一の音
声素片データと上記変更後のピッチとに基づいて、上記
波形重畳によって音声信号を生成する。そして、生成し
た音声信号を混合器27に送出するのである。混合器2
7は、第1波形重畳器25からの標準の音声信号と第2
波形重畳器26からの音声信号との二つの音声信号を、
複数音声指示器17からの混合率に従って混合して出力
端子18に出力するのである。
【0046】尚、上記第1波形重畳器25による合成音
声生成処理は、上記第1実施の形態における波形重畳器
21の場合と同じである。また、上記第2波形重畳器2
6による合成音声生成処理も、複数音声指示器17から
のピッチ変化率の指示に従ってピッチを変更する点を除
けば、波形重畳器21の場合と同じ通常の波形重畳処理
である。したがって、上記第1実施の形態における複数
音声合成器16の場合には、波形重畳器21とは構成を
異にする波形伸縮器22を有しているため、指定の基本
周期に波形を伸縮する処理が別途必要であるのに対し
て、本実施の形態においては、基本の機能が同じ二つの
波形重畳器25,26を用いるので、実際の構成におい
ては、第1波形重畳器25を時分割処理で2回使用する
ことによって第2波形重畳器26を削除することも可能
であり、構成を簡単にしてコストを低減することも可能
なのである。
【0047】図5は、本実施の形態における各部で生成
される音声信号波形を示す。以下、図5に従って音声信
号生成処理について説明する。図5(a)は、第1波形重
畳器25によって標準の波形重畳方式で生成された母音
区間の音声波形である。図5(b)は、第2波形重畳器2
6によって、複数音声指示器17から指示されたピッチ
変化率に基づいて変更したピッチを用いて、標準のピッ
チとは異なるピッチで生成された音声波形である。この
例では通常より高いピッチの音声信号が生成されてい
る。尚、図5(b)から分かるように、第2波形重畳器2
6によって生成された音声信号は、図5(a)の音声波形
に対してピッチは変化しているが波形伸縮は行われない
ので、周波数スペクトルは第1波形重畳器25による標
準の音声波形と同じである。効果を分かり易く例で説明
すると、上記標準の音声信号としての男声の合成音声信
号に基づいて、第2重畳器26によってピッチを高めた
男声の合成音声信号が作成されたことになるのである。
【0048】次に、上記混合器27は、上記複数音声指
示器17から与えられる混合率に従って、第1波形重畳
器25で生成された図5(a)の音声波形と第2波形重畳
器26で生成された図5(b)の音声波形との2つの音声
波形を混合する。図5(c)に混合された結果の音声波形
の一例を示す。こうして、同一のテキストに基づいて二
人の話者による同時発声が実現されるのである。
【0049】上述したごとく、本実施の形態において
は、上記複数音声合成器16を第1波形重畳器25,第
2波形重畳器26および混合器27で構成している。そ
して、第1波形重畳器25によって、音声素片データベ
ース15から読み出された音声素片データに基づいて標
準の音声信号を生成する。一方、第2波形重畳器26に
よって、音声素片選択器14からのピッチを複数音声指
示器17からのピッチ変化率に基づいて変更したピッチ
を用いて、上記音声素片データに基づいて上記波形重畳
によって音声信号を生成する。そして、混合器27によ
って、両波形重畳器25,26からの二つの音声信号を
混合して、出力端子18に出力するようにしている。し
たがって、同一のテキストに基づいて二人の話者による
同時発声を簡単な処理で行うことができるのである。
【0050】また、本実施の形態によれば、基本の機能
が同じ二つの波形重畳器25,26を用いるので、第1
波形重畳器25を時分割処理で2回使用することによっ
て第2波形重畳器26を削除することも可能であり、上
記第1実施の形態に比して、構成を簡単にしてコスト低
減を図ることが可能になる。
【0051】<第3実施の形態>図6は、本実施の形態
における複数音声合成器16の構成を示すブロック図で
ある。本複数音声合成器16は、波形重畳器31,波形
伸縮重畳器32及び混合器33で構成されている。波形
重畳器31は、音声素片データベース15から読み出さ
れた音声素片データと音声素片選択器14からの韻律情
報とに基づいて、上記波形重畳によって音声信号を生成
して混合器33に送出する。一方、波形伸縮重畳器32
は、音声素片データベース15から読み出された波形重
畳器31が用いた音声素片データと同じ音声素片の波形
を、複数音声指示器17から指示されたピッチ変化率に
基づいて指定のピッチに応じた時間間隔に伸縮して繰り
返し生成することによって音声信号を生成する。その場
合における上記伸縮の方法としては、線形補間等があ
る。すなわち、本実施の形態においては、波形重畳器自
体に波形伸縮機能を持たせて波形重畳の処理過程におい
て音声素片の波形を伸縮するのである。
【0052】こうして生成された音声信号は混合器33
に送出される。そうすると、混合器28は、波形重畳器
31からの標準の音声信号と波形伸縮重畳器32からの
伸縮音声信号との二つの音声信号を、複数音声指示器1
7から与えられた混合率に従って混合し、出力端子18
に出力するのである。
【0053】本実施の形態の複数音声合成器16におけ
る上記波形重畳器31,波形伸縮重畳器32および混合
器33よって生成される音声信号の波形は、図3と同様
である。尚、上記第2実施の形態における第2波形重畳
器26から出力される音声信号もピッチは変化している
が、周波数スペクトルは変化していないので、声質的に
は似ている複数の声が出力される。これに対して、本実
施の形態における波形伸縮重畳器32から出力される音
声信号は、周波数スペクトルも変化されているのであ
る。
【0054】<第4実施の形態>図7は、本実施の形態
における複数音声合成器16の構成を示すブロック図で
ある。本複数音声合成器16は、第2実施の形態の場合
と同様に、第1波形重畳器35,第2波形重畳器36お
よび混合器37で構成されている。さらに、本実施の形
態においては、第2波形重畳器36が専用に用いる音声
素片データベースを、第1波形重畳器35が用いる音声
素片データベース15と独立して設けている。以下、第
1波形重畳器35が用いる音声素片データベース15を
第1音声素片データと称する一方、第2波形重畳器36
が用いる音声素片データベースを第2音声素片データベ
ース38と称する。
【0055】上記第1実施の形態〜第3実施の形態にお
いては、ある―人の話者の声から作成された音声素片デ
ータベース15のみを用いているが。本実施の形態にお
いては、音声素片データベース15とは別の話者から作
成された第2音声素片データベース38を備えて、第2
波形重畳器36によって用いられるのである。この発明
の場合には、元々異なる声質の2種類の音声データベー
ス15,38を用いるので、上記各実施の形態以上にバ
リエーションに富んだ複数の音質の同時発声が可能にな
る。
【0056】尚、この場合には、上記複数音声指示器1
7からは、複数の音声素片データベースを用いて複数の
音声合成を行う指定が出力される。例えば「通常の合成
音声の生成には男性話者のデータを用い、もう―つの合
成音声の生成には別途女性話者のデータベースを用い
て、二つを同比率で混合する」という指定である。
【0057】図8は、本実施の形態における上記複数音
声合成器16の各部によって生成される音声信号波形を
示す。以下、図8に従って音声信号生成処理について説
明する。図8(a)は、第1音声素片データベース15を
用いて第1波形重畳器35によって生成された標準音声
波形である。また、図8(b)は、第2音声素片データベ
ース38を用いて第2波形重畳器36によって生成され
た標準音声波形よりもピッチが高い音声信号波形であ
る。また、図8(c)は、上記2つの音声波形を混合した
音声波形である。尚、この場合、第1音声素片データベ
ース15を男性話者から作成する一方、第2音声素片デ
ータベース38を女性話者から作成しておけば、第2波
形重畳器36において波形の伸縮処理は行わずに女性の
音声を生成できるのである。
【0058】<第5実施の形態>図9は、本実施の形態
における複数音声合成器16の構成を示すブロック図で
ある。本複数音声合成器16は、第1励振波形生成器4
1,第2励振波形生成器42,混合器43および合成フィ
ルタ44で構成されている。第1励振波形生成器41
は、音声素片選択器14からの韻律情報の1つのピッチ
に基づいて標準の励振波形を生成する。また、第2励振
波形生成器42は、上記ピッチを複数音声指示器17か
ら指示されたピッチ変化率に基づいて変更する。そし
て、この変更後のピッチに基づいて励振波形を生成す
る。また、混合器43は、第1,第2励振波形生成器4
1,42からの2つの励振波形を、複数音声指示器17
からの混合率に従って混合して混合励振波形を生成す
る。また、合成フィルタ44は、音声素片データベース
15からの音声素片データに含まれている声道調音特性
を表現するパラメータを取得する。そして、この声道調
音特性パラメータを用いて、上記混合励振波形に基づい
て音声信号を生成する。
【0059】すなわち、本複数音声合成器16は、ボコ
ーダー方式による音声合成処理を行うものであり、母音
等の有声区間ではピッチに応じた時間間隔のパルス列で
成る一方、摩擦性の子音等の無声区間では白色雑音で成
る励振波形を生成する。そして、その励振波形を、選択
された音声素片に応じた声道調音特性を与える合成フィ
ルタを通すことによって合成音声信号を生成するのであ
る。
【0060】図10は、本実施の形態における上記複数
音声合成器16の各部によって生成される音声信号波形
を示す。以下、図10に従って、本実施の形態における
音声信号生成処理について説明する。図10(a)は、第
1励振波形生成器41によって生成された標準の励振波
形である。また、図10(b)は、第2励振波形生成器4
2によって生成された励振波形である。この例の場合に
は、複数音声指定器17から指示されたピッチ変化率に
基づいて、音声素片選択器14からのピッチを変更した
通常のピッチより高いピッチで生成されている。混合器
43は、複数音声指示器17からの混合率に従って上記
2つの励振波形を混合し、図10(c)に示すような混合
された励振波形を生成する。図10(d)は、この混合励
振波形を合成フィルタ44に入力して得られた音声信号
である。
【0061】上記各実施の形態における音声素片データ
ベース15,38には波形重畳用の音声素片の波形デー
タが記憶されている。これに対して、本実施の形態にお
けるボコーダー方式用の上記音声素片データベース15
には、各音声素片毎に声道調音特性パラメータ(例え
ば、線形予測パラメータ)のデータが記憶されている。
【0062】上述したごとく、本実施の形態において
は、上記複数音声合成器16を第1励振波形生成器4
1,第2励振波形生成器42,混合器43および合成フィ
ルタ44で構成している。そして、第1励振波形生成器
41によって標準の励振波形を生成する。一方、第2励
振波形生成器42によって、音声素片選択器14からの
ピッチを複数音声指示器17からのピッチ変化率に基づ
いて変更したピッチを用いて励振波形を生成する。そし
て、混合器43によって、両励振波形生成器41,42
からの二つの励振波形を混合し、上記選択された音声素
片に応じた声道調音特性に設定された合成フィルタ44
を通すことによって合成音声信号を生成するようにして
いる。
【0063】したがって、本実施の形態によれば、上記
テキスト解析処理および韻律生成処理を時分割で行った
り、ピッチ変換処理を後処理として加えることなく、同
一のテキストに基づく複数話者による合成音声の同時発
声を簡単な処理で実現することができるのである。
【0064】尚、上記各実施の形態においては、摩擦性
の子音等の無声区間に関しては上述の処理は行わず、一
人の話者の合成音声信号のみを生成するようにしてい
る。つまり、二人が同時に発声しているように信号処理
するのはピッチが存在する有声区間のみなのである。ま
た、上記第1実施の形態における波形伸縮器22,第2
実施の形態における第2波形重畳器26,第3実施の形
態における波形伸縮重畳器32,第4実施の形態におけ
る第2波形重畳器36および第5実施の形態における第
2励振波形生成器42を複数設けて、同一の入力テキス
トに基づいて同時発声させる際の人数を3人以上にする
こともできる。
【0065】ところで、上記各実施の形態における上記
テキスト解析手段,韻律生成手段,複数音声指示手段及び
複数音声合成手段としての機能は、プログラム記録媒体
に記録されたテキスト音声合成処理プログラムによって
実現される。上記プログラム記録媒体は、ROM(リー
ド・オンリ・メモリ)でなるプログラムメディアである。
または、外部補助記憶装置に装着されて読み出されるプ
ログラムメディアであってもよい。尚、何れの場合にお
いても、上記プログラムメディアからテキスト音声合成
処理プログラムを読み出すプログラム読み出し手段は、
上記プログラムメディアに直接アクセスして読み出す構
成を有していてもよいし、RAM(ランダム・アクセス・
メモリ)に設けられたプログラム記憶エリア(図示せず)
にダウンロードして、上記プログラム記憶エリアにアク
セスして読み出す構成を有していてもよい。尚、上記プ
ログラムメディアからRAMの上記プログラム記憶エリ
アにダウンロードするためのダウンロードプログラム
は、予め本体装置に格納されているものとする。
【0066】ここで、上記プログラムメディアとは、本
体側と分離可能に構成され、磁気テープやカセットテー
プ等のテープ系、フロッピー(登録商標)ディスク,ハ
ードディスク等の磁気ディスクやCD(コンパクトディ
スク)‐ROM,MO(光磁気)ディスク,MD(ミニディス
ク),DVD(ディジタルビデオディスク)等の光ディスク
のディスク系、IC(集積回路)カードや光カード等のカ
ード系、マスクROM,EPROM(紫外線消去型RO
M),EEPROM(電気的消去型ROM),フラッシュR
OM等の半導体メモリ系を含めた、固定的にプログラム
を坦持する媒体である。
【0067】また、上記各実施の形態におけるテキスト
音声合成装置は、モデムを備えてインターネットを含む
通信ネットワークと接続可能な構成を有していれば、上
記プログラムメディアは、通信ネットワークからのダウ
ンロード等によって流動的にプログラムを坦持する媒体
であっても差し支えない。尚、その場合における上記通
信ネットワークからダウンロードするためのダウンロー
ドプログラムは、予め本体装置に格納されているものと
する。または、別の記録媒体からインストールされるも
のとする。
【0068】尚、上記記録媒体に記録されるものはプロ
グラムのみに限定されるものではなく、データも記録す
ることが可能である。
【0069】
【発明の効果】以上より明らかなように、第1の発明の
テキスト音声合成装置は、テキスト解析手段で入力テキ
スト情報から得られた読みおよび品詞情報に基づいて、
韻律生成手段によって韻律情報を生成し、複数音声指示
手段からの指示があると、複数音声合成手段によって、
上記韻律情報と音声素片データベースから選択された音
声素片情報とに基づいて複数の合成音声信号を生成する
ので、同一の入力テキストに基づいて、複数の音声を同
時に発声させることができる。その際に、特開平6‐7
5594号公報のごとく上記テキスト解析手段および韻
律生成手段は時分割処理を行う必要がなく、特開平3‐
211597号公報のごとくピッチ変換処理の追加を行
う必要がない。したがって、一つのテキストに基づく複
数音声の同時発声を非常に簡単な処理で実現することが
できるのである。
【0070】また、第1の実施例は、上記複数音声合成
手段を、標準の音声信号を生成する波形重畳手段と、上
記標準の音声信号の波形の時間軸を伸縮して音声信号を
生成する波形伸縮手段と、上記標準の音声信号と伸縮さ
れた音声信号とを混合する混合手段で成したので、例え
ば、同一の入力テキストに基づく男性の音声と女性の音
声とを、簡単な処理で同時に発声させることができる。
【0071】また、第2の実施例は、上記複数音声合成
手段を、標準の音声信号を生成する第1波形重畳手段
と、上記第1波形重畳手段と同じ音声素片情報を用いて
異なる基本周期の音声信号を生成する第2波形重畳手段
と、上記標準の音声信号と基本周期が異なる音声信号と
を混合する混合手段で成したので、例えば、男性の音声
と男性の更に高音の音声とを、簡単な処理で同時に発声
させることができる。
【0072】さらに、上記第1波形重畳手段と第2波形
重畳手段との基本構成は同じであるため、1つの波形重
畳手段を時分割によって上記第1波形重畳手段と第2波
形重畳手段として動作させることが可能であり、構成を
簡単にして低コスト化を図ることができる。
【0073】また、第3の実施例は、上記複数音声合成
手段を、第1音声素片データベースから選択された音声
素片情報を用いて標準の音声信号を生成する第1波形重
畳手段と、少なくとも第2音声素片データベースから選
択された音声素片情報を用いて異なるピッチの音声信号
を生成する第2波形重畳手段と、上記標準の音声信号と
異なるピッチの音声信号とを混合する混合手段で成した
ので、例えば、第1音声素片データベースに男性用の音
声素片情報を格納する一方、第2音声素片データベース
に女性用の音声素片情報を格納しておけば、同一の入力
テキストに基づく男性の音声と女性の音声とを、簡単な
処理で同時に発声させることができる。
【0074】また、第4の実施例は、上記複数音声合成
手段を、標準の音声信号を生成する波形重畳手段と、上
記波形重畳手段と同じ音声素片の波形の時間軸を伸縮し
て音声信号を生成する波形伸縮重畳手段と、上記波形重
畳手段および波形伸縮重畳手段からの両音声信号を混合
する混合手段で成したので、例えば、同一の入力テキス
トに基づく男性の音声と女性の音声とを、簡単な処理で
同時に発声させることができる。
【0075】また、第5の実施例は、上記複数音声合成
手段を、標準の第1励振波形を生成する第1励振波形生
成手段と、上記第1励振波形と周波数が異なる第2励振
波形を生成する第2励振波形生成手段と、上記両励振波
形を混合する混合手段と、上記選択された音声素片情報
に応じた声道調音特性パラメータを用いて上記混合され
た励振波形に基づいて合成音声信号を生成する合成フィ
ルタで成したので、例えば、同一の入力テキストに基づ
いて、複数の声の高さの音声を簡単な処理で同時に発声
させることができる。
【0076】すなわち、この実施例によれば、ボコーダ
ー方式あるいはホルマント合成方式の音声合成装置にお
いても、同一の入力テキストに基づく複数話者の音声
を、簡単な処理で同時に発声させることができるのであ
る。
【0077】また、第6の実施例は、上記波形伸縮手
段,第2波形重畳手段,波形伸縮重畳手段あるいは第2励
振波形生成手段を複数設けたので、同一の入力テキスト
に基づいて同時発声させる人数を3人以上に増加でき、
バラエティーに富んだテキスト合成音声を生成すること
ができる。
【0078】また、第7の実施例は、上記混合手段を、
上記複数音声指示手段からの指示情報に基づく混合率で
上記混合を行うように成したので、種々の場面に応じた
複数人による同時発声が可能になる。
【0079】また、第2の発明のプログラム記録媒体
は、コンピュータを、上記第1の発明におけるテキスト
解析手段,韻律生成手段,複数音声指示手段および複数音
声合成手段として機能させるテキスト音声合成処理プロ
グラムが記録されているので、上記第1の発明の場合と
同様に、同一の入力テキストに基づく複数音声の同時発
声を、上記テキスト解析手段および韻律生成手段の分割
処理やピッチ変換処理の追加等を行うことなく簡単な処
理で行うことができる。
【図面の簡単な説明】
【図1】 この発明のテキスト音声合成装置におけるブ
ロック図である。
【図2】 図1における複数音声合成器の構成の一例を
示すブロック図である。
【図3】 図2に示す複数音声合成器の各部で生成され
る音声波形を示す図である。
【図4】 図2とは異なる複数音声合成器の構成を示す
ブロック図である。
【図5】 図4に示す複数音声合成器の各部で生成され
る音声波形を示す図である。
【図6】 図2および図4とは異なる複数音声合成器の
構成を示すブロック図である。
【図7】 図2,図4および図6とは異なる複数音声合
成器の構成を示すブロック図である。
【図8】 図7に示す複数音声合成器の各部で生成され
る音声波形を示す図である。
【図9】 図2,図4,図6および図7とは異なる複数音
声合成器の構成を示すブロック図である。
【図10】 図9に示す複数音声合成器の各部で生成さ
れる信号波形を示す図である。
【図11】 従来のテキスト音声合成装置の構成を示す
ブロック図である。
【符号の説明】
11…テキスト入力端子、 12…テキスト解析器、 13…韻律生成器、 14…音声素片選択器、 15,38…音声素片データベース、 16…複数音声合成器、 17…複数音声指示器、 18…出力端子、 21,31…波形重畳器、 22…波形伸縮器、 23,27,33,37,43…混合器、 25,35…第1波形重畳器、 26,36…第2波形重畳器、 32…波形伸縮重畳器、 41…第1励振波形生成器、 42…第2励振波形生成器、 44…合成フィルタ。

Claims (9)

    【特許請求の範囲】
  1. 【請求項1】 入力されたテキスト情報の読みおよび品
    詞情報に基づいて音声素片データベースから必要な音声
    素片情報を選択し、この選択された音声素片情報に基づ
    いて音声信号を生成するテキスト音声合成装置におい
    て、 上記入力テキスト情報を解析して読みおよび品詞情報を
    得るテキスト解析手段と、 上記読みおよび品詞情報に基づいて韻律情報を生成する
    韻律生成手段と、 同一の入力テキストに対する複数音声の同時発声を指示
    する複数音声指示手段と、 上記複数音声指示手段からの指示を受け、上記韻律生成
    手段からの韻律情報と上記音声素片データベースから選
    択された音声素片情報とに基づいて、複数の合成音声信
    号を生成する複数音声合成手段を備えたことを特徴とす
    るテキスト音声合成装置。
  2. 【請求項2】 請求項1に記載のテキスト音声合成装置
    において、 上記複数音声合成手段は、 上記音声素片情報と韻律情報とに基づいて、波形重畳法
    によって音声信号を生成する波形重畳手段と、 上記韻律情報と上記複数音声指示手段からの指示情報と
    に基づいて、上記波形重畳手段によって生成された音声
    信号の波形の時間軸を伸縮して声の高さが異なる音声信
    号を生成する波形伸縮手段と、 上記波形重畳手段からの音声信号と上記波形伸縮手段か
    らの音声信号とを混合する混合手段を備えていることを
    特徴とするテキスト音声合成装置。
  3. 【請求項3】 請求項1に記載のテキスト音声合成装置
    において、 上記複数音声合成手段は、 上記音声素片情報と韻律情報とに基づいて、波形重畳法
    によって音声信号を生成する第1波形重畳手段と、 上記音声素片情報と韻律情報と上記複数音声指示手段か
    らの指示情報とに基づいて、上記第1波形重畳手段とは
    異なる基本周期で、上記波形重畳法によって音声信号を
    生成する第2波形重畳手段と、 上記第1波形重畳手段からの音声信号と上記第2波形重
    畳手段からの音声信号とを混合する混合手段を備えてい
    ることを特徴とするテキスト音声合成装置。
  4. 【請求項4】 請求項1に記載のテキスト音声合成装置
    において、 上記複数音声合成手段は、 上記音声素片情報と韻律情報とに基づいて、波形重畳法
    によって音声信号を生成する第1波形重畳手段と、 上記音声素片データベースとしての第1音声素片データ
    ベースとは異なる音声素片情報が格納された第2音声素
    片データベースと、 上記2音声素片データベースから選択された音声素片情
    報と、上記韻律情報と、上記複数音声指示手段からの指
    示情報とに基づいて、上記波形重畳法によって音声信号
    を生成する第2波形重畳手段と、 上記第1波形重畳手段からの音声信号と上記第2波形重
    畳手段からの音声信号とを混合する混合手段を備えてい
    ることを特徴とするテキスト音声合成装置。
  5. 【請求項5】 請求項1に記載のテキスト音声合成装置
    において、 上記複数音声合成手段は、 上記音声素片と韻律情報とに基づいて、波形重畳法によ
    って音声信号を生成する波形重畳手段と、 上記韻律情報と上記複数音声指示手段からの指示情報と
    に基づいて上記音声素片の波形の時間軸を伸縮し、上記
    波形重畳法によって音声信号を生成する波形伸縮重畳手
    段と、 上記波形重畳手段からの音声信号と上記波形伸縮重畳手
    段からの音声信号とを混合する混合手段を備えているこ
    とを特徴とするテキスト音声合成装置。
  6. 【請求項6】 請求項1に記載のテキスト音声合成装置
    において、 上記複数音声合成手段は、 上記韻律情報に基づいて、第1励振波形を生成する第1
    励振波形生成手段と、 上記韻律情報と上記複数音声指示手段からの指示情報と
    に基づいて、上記第1励振波形とは周波数が異なる第2
    励振波形を生成する第2励振波形生成手段と、 上記第1励振波形と第2励振波形とを混合する混合手段
    と、 上記音声素片情報に含まれている声道調音特性パラメー
    タを取得し、この声道調音特性パラメータを用いて、上
    記混合された励振波形に基づいて合成音声信号を生成す
    る合成フィルタを備えていることを特徴とするテキスト
    音声合成装置。
  7. 【請求項7】 請求項2乃至請求項6の何れか一つに記
    載のテキスト音声合成装置において、 上記波形伸縮手段,第2波形重畳手段,波形伸縮重畳手段
    あるいは第2励振波形生成手段は、複数存在することを
    特徴とするテキスト音声合成装置。
  8. 【請求項8】 請求項2乃至請求項7の何れか一つに記
    載のテキスト音声合成装置において、 上記混合手段は、上記複数音声指示手段からの指示情報
    に基づく混合率で上記混合を行うようになっていること
    を特徴とするテキスト音声合成装置。
  9. 【請求項9】 コンピュータを、 請求項1におけるテキスト解析手段,韻律生成手段,複数
    音声指示手段および複数音声合成手段として機能させる
    テキスト音声合成処理プログラムが記録されたことを特
    徴とするコンピュータ読出し可能なプログラム記録媒
    体。
JP2000400788A 2000-12-28 2000-12-28 テキスト音声合成装置およびプログラム記録媒体 Expired - Fee Related JP3673471B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2000400788A JP3673471B2 (ja) 2000-12-28 2000-12-28 テキスト音声合成装置およびプログラム記録媒体
PCT/JP2001/011511 WO2002054383A1 (fr) 2000-12-28 2001-12-27 Dispositif de synthese vocale de texte et support d'enregistrement de programme
US10/451,825 US7249021B2 (en) 2000-12-28 2001-12-27 Simultaneous plural-voice text-to-speech synthesizer

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000400788A JP3673471B2 (ja) 2000-12-28 2000-12-28 テキスト音声合成装置およびプログラム記録媒体

Publications (2)

Publication Number Publication Date
JP2002202789A true JP2002202789A (ja) 2002-07-19
JP3673471B2 JP3673471B2 (ja) 2005-07-20

Family

ID=18865310

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000400788A Expired - Fee Related JP3673471B2 (ja) 2000-12-28 2000-12-28 テキスト音声合成装置およびプログラム記録媒体

Country Status (3)

Country Link
US (1) US7249021B2 (ja)
JP (1) JP3673471B2 (ja)
WO (1) WO2002054383A1 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006337468A (ja) * 2005-05-31 2006-12-14 Brother Ind Ltd 音声合成装置及び音声合成プログラム
JP2009025328A (ja) * 2007-07-17 2009-02-05 Oki Electric Ind Co Ltd 音声合成装置
US7805307B2 (en) 2003-09-30 2010-09-28 Sharp Laboratories Of America, Inc. Text to speech conversion system
RU2606312C2 (ru) * 2014-11-27 2017-01-10 Роман Валерьевич Мещеряков Устройство синтеза речи

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7454348B1 (en) * 2004-01-08 2008-11-18 At&T Intellectual Property Ii, L.P. System and method for blending synthetic voices
JP3895758B2 (ja) * 2004-01-27 2007-03-22 松下電器産業株式会社 音声合成装置
JP4483450B2 (ja) * 2004-07-22 2010-06-16 株式会社デンソー 音声案内装置、音声案内方法およびナビゲーション装置
JP2006065105A (ja) * 2004-08-27 2006-03-09 Canon Inc 音声処理装置および方法
JP2008545995A (ja) * 2005-03-28 2008-12-18 レサック テクノロジーズ、インコーポレーテッド ハイブリッド音声合成装置、方法および用途
US7716052B2 (en) * 2005-04-07 2010-05-11 Nuance Communications, Inc. Method, apparatus and computer program providing a multi-speaker database for concatenative text-to-speech synthesis
US20070083367A1 (en) * 2005-10-11 2007-04-12 Motorola, Inc. Method and system for bandwidth efficient and enhanced concatenative synthesis based communication
US7953600B2 (en) * 2007-04-24 2011-05-31 Novaspeech Llc System and method for hybrid speech synthesis
JP4455633B2 (ja) * 2007-09-10 2010-04-21 株式会社東芝 基本周波数パターン生成装置、基本周波数パターン生成方法及びプログラム
US8321225B1 (en) 2008-11-14 2012-11-27 Google Inc. Generating prosodic contours for synthesized speech
JP4785909B2 (ja) * 2008-12-04 2011-10-05 株式会社ソニー・コンピュータエンタテインメント 情報処理装置
US8731932B2 (en) 2010-08-06 2014-05-20 At&T Intellectual Property I, L.P. System and method for synthetic voice generation and modification
CN103366732A (zh) * 2012-04-06 2013-10-23 上海博泰悦臻电子设备制造有限公司 语音播报方法及装置、车载***
US11335322B2 (en) * 2017-03-13 2022-05-17 Sony Corporation Learning device, learning method, voice synthesis device, and voice synthesis method
US11295721B2 (en) * 2019-11-15 2022-04-05 Electronic Arts Inc. Generating expressive speech audio from text data

Family Cites Families (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6021098A (ja) 1983-07-15 1985-02-02 沖電気工業株式会社 音声合成方法
JP3086458B2 (ja) * 1988-02-02 2000-09-11 シャープ株式会社 音声合成装置
JPH01169879U (ja) * 1988-05-20 1989-11-30
JPH03211597A (ja) 1990-01-17 1991-09-17 Hitachi Ltd カラオケ装置
JP3083624B2 (ja) 1992-03-13 2000-09-04 株式会社東芝 音声規則合成装置
JPH0675594A (ja) * 1992-08-26 1994-03-18 Oki Electric Ind Co Ltd テキスト音声変換システム
US5384893A (en) * 1992-09-23 1995-01-24 Emerson & Stern Associates, Inc. Method and apparatus for speech synthesis based on prosodic analysis
US5787398A (en) * 1994-03-18 1998-07-28 British Telecommunications Plc Apparatus for synthesizing speech by varying pitch
IT1266943B1 (it) * 1994-09-29 1997-01-21 Cselt Centro Studi Lab Telecom Procedimento di sintesi vocale mediante concatenazione e parziale sovrapposizione di forme d'onda.
JP3085631B2 (ja) * 1994-10-19 2000-09-11 日本アイ・ビー・エム株式会社 音声合成方法及びシステム
JPH08129398A (ja) * 1994-11-01 1996-05-21 Oki Electric Ind Co Ltd テキスト解析装置
JPH09244693A (ja) 1996-03-07 1997-09-19 N T T Data Tsushin Kk 音声合成方法及び装置
JP3309735B2 (ja) 1996-10-24 2002-07-29 三菱電機株式会社 音声マンマシンインタフェース装置
JP3678522B2 (ja) 1997-01-06 2005-08-03 オリンパス株式会社 ズームレンズを備えたカメラ
US6490562B1 (en) * 1997-04-09 2002-12-03 Matsushita Electric Industrial Co., Ltd. Method and system for analyzing voices
JPH10290225A (ja) * 1997-04-15 1998-10-27 Nippon Telegr & Teleph Corp <Ntt> ディジタル音声ミキシング装置
JPH11243256A (ja) 1997-12-03 1999-09-07 Canon Inc 分布帰還形半導体レーザとその駆動方法
JPH11243456A (ja) * 1998-02-26 1999-09-07 Nippon Telegr & Teleph Corp <Ntt> ディジタル音声ミキシング方法
US6101470A (en) * 1998-05-26 2000-08-08 International Business Machines Corporation Methods for generating pitch and duration contours in a text to speech system
JP2000010580A (ja) * 1998-06-22 2000-01-14 Toshiba Corp 音声合成方法及び装置
CA2354871A1 (en) * 1998-11-13 2000-05-25 Lernout & Hauspie Speech Products N.V. Speech synthesis using concatenation of speech waveforms
US6253182B1 (en) * 1998-11-24 2001-06-26 Microsoft Corporation Method and apparatus for speech synthesis with efficient spectral smoothing
US6823309B1 (en) * 1999-03-25 2004-11-23 Matsushita Electric Industrial Co., Ltd. Speech synthesizing system and method for modifying prosody based on match to database
JP2000305585A (ja) * 1999-04-23 2000-11-02 Oki Electric Ind Co Ltd 音声合成装置
JP2000305582A (ja) * 1999-04-23 2000-11-02 Oki Electric Ind Co Ltd 音声合成装置
JP2002023787A (ja) * 2000-07-06 2002-01-25 Canon Inc 音声合成装置、音声合成システム、音声合成方法及び記憶媒体
JP2002023778A (ja) * 2000-06-30 2002-01-25 Canon Inc 音声合成装置、音声合成システム、音声合成方法及び記憶媒体

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7805307B2 (en) 2003-09-30 2010-09-28 Sharp Laboratories Of America, Inc. Text to speech conversion system
JP2006337468A (ja) * 2005-05-31 2006-12-14 Brother Ind Ltd 音声合成装置及び音声合成プログラム
JP2009025328A (ja) * 2007-07-17 2009-02-05 Oki Electric Ind Co Ltd 音声合成装置
RU2606312C2 (ru) * 2014-11-27 2017-01-10 Роман Валерьевич Мещеряков Устройство синтеза речи

Also Published As

Publication number Publication date
WO2002054383A1 (fr) 2002-07-11
US7249021B2 (en) 2007-07-24
US20040054537A1 (en) 2004-03-18
JP3673471B2 (ja) 2005-07-20

Similar Documents

Publication Publication Date Title
JP3673471B2 (ja) テキスト音声合成装置およびプログラム記録媒体
JP3361066B2 (ja) 音声合成方法および装置
EP1643486A1 (en) Method and apparatus for preventing speech comprehension by interactive voice response systems
WO2004097792A1 (ja) 音声合成システム
JPS62160495A (ja) 音声合成装置
JPH031200A (ja) 規則型音声合成装置
JP2006251538A (ja) 音声合成装置、音声合成方法及びプログラム
JPH1138989A (ja) 音声合成装置及び方法
JP2003108178A (ja) 音声合成装置及び音声合成用素片作成装置
JP2001034280A (ja) 電子メール受信装置および電子メールシステム
JP4648878B2 (ja) 様式指定型音声合成方法、及び様式指定型音声合成装置とそのプログラムと、その記憶媒体
JP5360489B2 (ja) 音素符号変換装置および音声合成装置
JPH08335096A (ja) テキスト音声合成装置
JP2009157220A (ja) 音声編集合成システム、音声編集合成プログラム及び音声編集合成方法
JP3233036B2 (ja) 歌唱音合成装置
JPH11249679A (ja) 音声合成装置
JP2008058379A (ja) 音声合成システム及びフィルタ装置
JP2987089B2 (ja) 音声素片作成方法および音声合成方法とその装置
JP3575919B2 (ja) テキスト音声変換装置
JP2642617B2 (ja) 音声合成装置
JP3081300B2 (ja) 残差駆動型音声合成装置
JP3113101B2 (ja) 音声合成装置
JPH09179576A (ja) 音声合成方法
JPH11109992A (ja) 音声素片データベースの作成方法、音声合成方法、音声素片データベース、音声素片データベース作成装置および音声合成装置
JP2577372B2 (ja) 音声合成装置および方法

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040824

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20041022

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20041221

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050217

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20050419

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20050422

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080428

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090428

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090428

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100428

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100428

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110428

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120428

Year of fee payment: 7

LAPS Cancellation because of no payment of annual fees