JPH06138894A - 音声合成装置及び音声合成方法 - Google Patents
音声合成装置及び音声合成方法Info
- Publication number
- JPH06138894A JPH06138894A JP4311356A JP31135692A JPH06138894A JP H06138894 A JPH06138894 A JP H06138894A JP 4311356 A JP4311356 A JP 4311356A JP 31135692 A JP31135692 A JP 31135692A JP H06138894 A JPH06138894 A JP H06138894A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- unit
- waveform data
- memory
- end frame
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Machine Translation (AREA)
Abstract
(57)【要約】
【目的】本発明は、音声合成装置及び音声合成方法にお
いて、実際の人間の音声に比して品質の劣化が少なく違
和感のない合成音を発声する。 【構成】周期性を有する有声部分に関しては実音声の分
析処理によつて得られた各1ピツチ周期分に対応する音
声波形データを、また周期性のない無声部分に関しては
実音声をそのまま音声波形データとして必要フレーム数
分メモリに貯えた音声単位内において、音声単位の前端
フレーム及び後端フレームには音声波形データと共に、
分析処理によりその音声波形データの包絡情報と微細構
造情報とを合わせ持たせる。さらに所定の韻律規則に従
つて合成音声のピツチパターンを生成し、また音韻規則
に従つて合成音声に必要な音声波形データをメモリから
読み出し、音声波形データ及びピツチパターンに基づい
て合成音を生成するようにしたことにより、実際の人間
の音声に比して品質の劣化が少なく違和感のない合成音
を発声し得る。
いて、実際の人間の音声に比して品質の劣化が少なく違
和感のない合成音を発声する。 【構成】周期性を有する有声部分に関しては実音声の分
析処理によつて得られた各1ピツチ周期分に対応する音
声波形データを、また周期性のない無声部分に関しては
実音声をそのまま音声波形データとして必要フレーム数
分メモリに貯えた音声単位内において、音声単位の前端
フレーム及び後端フレームには音声波形データと共に、
分析処理によりその音声波形データの包絡情報と微細構
造情報とを合わせ持たせる。さらに所定の韻律規則に従
つて合成音声のピツチパターンを生成し、また音韻規則
に従つて合成音声に必要な音声波形データをメモリから
読み出し、音声波形データ及びピツチパターンに基づい
て合成音を生成するようにしたことにより、実際の人間
の音声に比して品質の劣化が少なく違和感のない合成音
を発声し得る。
Description
【0001】
【目次】以下の順序で本発明を説明する。 産業上の利用分野 従来の技術 発明が解決しようとする課題 課題を解決するための手段(図1) 作用(図1) 実施例(図1〜図4) 発明の効果
【0002】
【産業上の利用分野】本発明は音声合成装置及び音声合
成方法に関し、特に規則音声合成方式に従つて合成音を
生成するものに適用して好適なものである。
成方法に関し、特に規則音声合成方式に従つて合成音を
生成するものに適用して好適なものである。
【0003】
【従来の技術】従来、規則音声合成方式を用いた音声合
成装置においては、入力された文字の系列を解析した
後、所定の規則に従つてパラメータを合成することによ
り、いかなる言葉でも音声合成し得るようになされてい
る。すなわち、規則音声合成方式による音声合成装置
は、入力された文字の系列を解析した後、所定の規則に
従つて、各文節ごとにアクセントを検出し、各文節の並
びから文字系列全体としての抑揚やポース等を表現する
ピツチパラメータを合成する。
成装置においては、入力された文字の系列を解析した
後、所定の規則に従つてパラメータを合成することによ
り、いかなる言葉でも音声合成し得るようになされてい
る。すなわち、規則音声合成方式による音声合成装置
は、入力された文字の系列を解析した後、所定の規則に
従つて、各文節ごとにアクセントを検出し、各文節の並
びから文字系列全体としての抑揚やポース等を表現する
ピツチパラメータを合成する。
【0004】さらに音声合成装置は、同様に所定の規則
に従つて各文節を例えばCV単位のような音声単位に分
割した後、そのスペクトラムを表現する合成パラメータ
を生成する。これによりピツチパラメータ及び合成パラ
メータに基づいて合成音を発声するようになされてい
る。
に従つて各文節を例えばCV単位のような音声単位に分
割した後、そのスペクトラムを表現する合成パラメータ
を生成する。これによりピツチパラメータ及び合成パラ
メータに基づいて合成音を発声するようになされてい
る。
【0005】またより高品質な音声を合成するために、
音声単位として周期性を有する有声部分については実音
声を分析処理し、その1周期にあたる音声波形データを
それぞれ保持し、また周期性の無い無声部分について
は、実音声をそのまま音声波形データとして保持し、合
成時はこれらの音声波形データをピツチパラメータに基
づいて波形重畳して合成音を生成するようになされてい
る。
音声単位として周期性を有する有声部分については実音
声を分析処理し、その1周期にあたる音声波形データを
それぞれ保持し、また周期性の無い無声部分について
は、実音声をそのまま音声波形データとして保持し、合
成時はこれらの音声波形データをピツチパラメータに基
づいて波形重畳して合成音を生成するようになされてい
る。
【0006】
【発明が解決しようとする課題】ところで従来の波形重
畳の手法では、ピツチパラメータに基づいて音声単位内
の音声波形データを繰り返したり、あるいは間引くこと
によつてフレーム数を調整して音声を合成している。こ
こで用いられる個々の音声単位は、それが抽出された実
音声内での前後の音韻環境の影響を受けており、その影
響が合成音声内において表れてくる。
畳の手法では、ピツチパラメータに基づいて音声単位内
の音声波形データを繰り返したり、あるいは間引くこと
によつてフレーム数を調整して音声を合成している。こ
こで用いられる個々の音声単位は、それが抽出された実
音声内での前後の音韻環境の影響を受けており、その影
響が合成音声内において表れてくる。
【0007】すなわちある音声単位では合成時における
音韻環境と、抽出された実音声内ので音韻環境とが異な
る場合が生じてくる。これによつて合成音声の各音声単
位接続部において実音声と比べて不自然な音声波形が生
成され、周波数領域での不連続性が原因となつて異聴等
が発生し、合成音声の品質が劣化しやすいといつた問題
があつた。
音韻環境と、抽出された実音声内ので音韻環境とが異な
る場合が生じてくる。これによつて合成音声の各音声単
位接続部において実音声と比べて不自然な音声波形が生
成され、周波数領域での不連続性が原因となつて異聴等
が発生し、合成音声の品質が劣化しやすいといつた問題
があつた。
【0008】本発明は以上の点を考慮してなされたもの
で、実際の人間の音声に比して品質の劣化が少なく違和
感のない合成音を発声し得る音声合成装置及び音声合成
方法を提案しようとするものである。
で、実際の人間の音声に比して品質の劣化が少なく違和
感のない合成音を発声し得る音声合成装置及び音声合成
方法を提案しようとするものである。
【0009】
【課題を解決するための手段】かかる課題を解決するた
めに本発明においては、個々の音声単位毎に、その音声
単位内において周期性を有する有声部分について、実音
声の分析処理によつて得られる各1ピツチ周期分に対応
する音声波形データを音声単位として必要フレーム数分
だけメモリに貯え、同時に音声単位の前端フレーム及び
後端フレームには、音声波形データと共に分析処理によ
つて得られる包絡情報及び微細構造情報を合わせてメモ
リに貯え、同時に音声単位内における周期性の無い無声
部分について、実音声をそのまま音声波形データとして
メモリに貯える音声単位記憶部2と、入力された音韻記
号と韻律記号に基づく所定の音韻規則及び韻律規則に従
つて、ピツチパターンを生成する音声合成規則部4と、
有声部分の合成時の補間フレームにおいて、先行音声単
位の後端フレーム及び後方音声単位の前端フレームの包
絡情報を補間して、先行音声単位の微細構造情報と合わ
せて時間波形を求め、その時間波形を補間フレームの音
声波形データとして、音声単位及びピツチパターンに基
づいて合成音を生成する音声合成部5とを設けるように
した。
めに本発明においては、個々の音声単位毎に、その音声
単位内において周期性を有する有声部分について、実音
声の分析処理によつて得られる各1ピツチ周期分に対応
する音声波形データを音声単位として必要フレーム数分
だけメモリに貯え、同時に音声単位の前端フレーム及び
後端フレームには、音声波形データと共に分析処理によ
つて得られる包絡情報及び微細構造情報を合わせてメモ
リに貯え、同時に音声単位内における周期性の無い無声
部分について、実音声をそのまま音声波形データとして
メモリに貯える音声単位記憶部2と、入力された音韻記
号と韻律記号に基づく所定の音韻規則及び韻律規則に従
つて、ピツチパターンを生成する音声合成規則部4と、
有声部分の合成時の補間フレームにおいて、先行音声単
位の後端フレーム及び後方音声単位の前端フレームの包
絡情報を補間して、先行音声単位の微細構造情報と合わ
せて時間波形を求め、その時間波形を補間フレームの音
声波形データとして、音声単位及びピツチパターンに基
づいて合成音を生成する音声合成部5とを設けるように
した。
【0010】また本発明においては、入力された文字の
系列を解析して、単語、文節の境界及び基本アクセント
を検出する文章解析部3と、個々の音声単位毎に、その
音声単位内において周期性を有する有声部分について、
実音声の分析処理によつて得られる各1ピツチ周期分に
対応する音声波形データを音声単位として必要フレーム
数分だけメモリに貯え、同時に音声単位の前端フレーム
及び後端フレームには、音声波形データと共に分析処理
によつて得られる包絡情報及び微細構造情報を合わせて
メモリに貯え、同時に音声単位内における周期性のない
無声部分について、実音声をそのまま音声波形データと
してメモリに貯える音声単位記憶部2と、文章解析部3
の解析結果に基づく所定の音韻規則及び韻律規則に従つ
て、ピツチパターンを生成する音声合成規則部4と、有
声部分の合成時の補間フレームにおいて、先行音声単位
の後端フレーム及び後方音声単位の前端フレームの包絡
情報を補間して、先行音声単位の微細構造情報と合わせ
て時間波形を求め、その時間波形を補間フレームの音声
波形データとして、音声単位及びピツチパターンに基づ
いて合成音を生成する音声合成部5とを設けるようにし
た。
系列を解析して、単語、文節の境界及び基本アクセント
を検出する文章解析部3と、個々の音声単位毎に、その
音声単位内において周期性を有する有声部分について、
実音声の分析処理によつて得られる各1ピツチ周期分に
対応する音声波形データを音声単位として必要フレーム
数分だけメモリに貯え、同時に音声単位の前端フレーム
及び後端フレームには、音声波形データと共に分析処理
によつて得られる包絡情報及び微細構造情報を合わせて
メモリに貯え、同時に音声単位内における周期性のない
無声部分について、実音声をそのまま音声波形データと
してメモリに貯える音声単位記憶部2と、文章解析部3
の解析結果に基づく所定の音韻規則及び韻律規則に従つ
て、ピツチパターンを生成する音声合成規則部4と、有
声部分の合成時の補間フレームにおいて、先行音声単位
の後端フレーム及び後方音声単位の前端フレームの包絡
情報を補間して、先行音声単位の微細構造情報と合わせ
て時間波形を求め、その時間波形を補間フレームの音声
波形データとして、音声単位及びピツチパターンに基づ
いて合成音を生成する音声合成部5とを設けるようにし
た。
【0011】また本発明においては、個々の音声単位毎
に、その音声単位内において周期性を有する有声部分に
ついて、実音声の分析処理によつて得られる各1ピツチ
周期分に対応する音声波形データを音声単位として必要
フレーム数分だけメモリにメモリに貯え、同時に音声単
位の前端フレーム及び後端フレームには、音声波形デー
タと共に分析処理によつて得られる包絡情報及び微細構
造情報を合わせてメモリにメモリに貯え、同時に音声単
位内における周期性の無い無声部分について、実音声を
そのまま音声波形データとしてメモリにメモリに貯え、
入力された音韻記号と韻律記号に基づく所定の音韻規則
及び韻律規則に従つて、ピツチパターンを生成し、有声
部分の合成時の補間フレームにおいて、先行音声単位の
後端フレーム及び後方音声単位の前端フレームの包絡情
報を補間して、先行音声単位の微細構造情報と合わせて
時間波形を求め、その時間波形を補間フレームの音声波
形データとして、音声単位及びピツチパターンに基づい
て合成音を生成するようにした。
に、その音声単位内において周期性を有する有声部分に
ついて、実音声の分析処理によつて得られる各1ピツチ
周期分に対応する音声波形データを音声単位として必要
フレーム数分だけメモリにメモリに貯え、同時に音声単
位の前端フレーム及び後端フレームには、音声波形デー
タと共に分析処理によつて得られる包絡情報及び微細構
造情報を合わせてメモリにメモリに貯え、同時に音声単
位内における周期性の無い無声部分について、実音声を
そのまま音声波形データとしてメモリにメモリに貯え、
入力された音韻記号と韻律記号に基づく所定の音韻規則
及び韻律規則に従つて、ピツチパターンを生成し、有声
部分の合成時の補間フレームにおいて、先行音声単位の
後端フレーム及び後方音声単位の前端フレームの包絡情
報を補間して、先行音声単位の微細構造情報と合わせて
時間波形を求め、その時間波形を補間フレームの音声波
形データとして、音声単位及びピツチパターンに基づい
て合成音を生成するようにした。
【0012】また本発明においては、入力された文字の
系列を解析して、単語、文節の境界及び基本アクセント
を検出し、個々の音声単位毎に、その音声単位内におい
て周期性を有する有声部分について、実音声の分析処理
によつて得られる各1ピツチ周期分に対応する音声波形
データを音声単位として必要フレーム数だけメモリに貯
え、同時に音声単位の前端フレーム及び後端フレームに
は、音声波形データと共に分析処理によつて得られる包
絡情報及び微細構造情報を合わせてメモリに貯え、同時
に音声単位内における周期性のない無声部分について、
実音声をそのまま音声波形データとしてメモリに貯え、
文字の系列の解析結果に基づく所定の音韻規則及び韻律
規則に従つて、ピツチパターンを生成し、有声部分の合
成時の補間フレームにおいて、先行音声単位の後端フレ
ーム及び後方音声単位の前端フレームの包絡情報を補間
して、先行音声単位の微細構造情報と合わせて時間波形
を求め、その時間波形を補間フレームの音声波形データ
として、音声単位及びピツチパターンに基づいて、合成
音を生成するようにした。
系列を解析して、単語、文節の境界及び基本アクセント
を検出し、個々の音声単位毎に、その音声単位内におい
て周期性を有する有声部分について、実音声の分析処理
によつて得られる各1ピツチ周期分に対応する音声波形
データを音声単位として必要フレーム数だけメモリに貯
え、同時に音声単位の前端フレーム及び後端フレームに
は、音声波形データと共に分析処理によつて得られる包
絡情報及び微細構造情報を合わせてメモリに貯え、同時
に音声単位内における周期性のない無声部分について、
実音声をそのまま音声波形データとしてメモリに貯え、
文字の系列の解析結果に基づく所定の音韻規則及び韻律
規則に従つて、ピツチパターンを生成し、有声部分の合
成時の補間フレームにおいて、先行音声単位の後端フレ
ーム及び後方音声単位の前端フレームの包絡情報を補間
して、先行音声単位の微細構造情報と合わせて時間波形
を求め、その時間波形を補間フレームの音声波形データ
として、音声単位及びピツチパターンに基づいて、合成
音を生成するようにした。
【0013】また本発明においては、音声として日本語
に基づく音声を用いるようにした。
に基づく音声を用いるようにした。
【0014】
【作用】周期性を有する有声部分に関しては実音声の分
析処理によつて得られた各1ピツチ周期分に対応する音
声波形データを、また周期性のない無声部分に関しては
実音声をそのまま音声波形データとして必要フレーム数
分メモリに貯えた音声単位内において、音声単位の前端
フレーム及び後端フレームには音声波形データと共に、
分析処理によりその音声波形データの包絡情報と微細構
造情報とを合わせ持たせる。さらに所定の韻律規則に従
つて合成音声のピツチパターンを生成し、また音韻規則
に従つて合成音声に必要な音声波形データをメモリから
読み出し、音声波形データ及びピツチパターンに基づい
て合成音を生成するようにしたことにより、実際の人間
の音声に比して品質の劣化が少なく違和感のない合成音
を発声し得る。
析処理によつて得られた各1ピツチ周期分に対応する音
声波形データを、また周期性のない無声部分に関しては
実音声をそのまま音声波形データとして必要フレーム数
分メモリに貯えた音声単位内において、音声単位の前端
フレーム及び後端フレームには音声波形データと共に、
分析処理によりその音声波形データの包絡情報と微細構
造情報とを合わせ持たせる。さらに所定の韻律規則に従
つて合成音声のピツチパターンを生成し、また音韻規則
に従つて合成音声に必要な音声波形データをメモリから
読み出し、音声波形データ及びピツチパターンに基づい
て合成音を生成するようにしたことにより、実際の人間
の音声に比して品質の劣化が少なく違和感のない合成音
を発声し得る。
【0015】
【実施例】以下図面について、本発明の一実施例を詳述
する。
する。
【0016】図1において、1は全体として演算処理装
置を含んでなる音声合成装置の概略構成を示し、音声単
位記憶部2、文章解析部3、音声合成規則部4及び音声
合成部5に分割される。
置を含んでなる音声合成装置の概略構成を示し、音声単
位記憶部2、文章解析部3、音声合成規則部4及び音声
合成部5に分割される。
【0017】文章解析部3は、所定の入力装置から入力
されたテキスト入力(文字の系列で表された文章等でな
る)を、所定の辞書を基準にして解析し、仮名文字列に
変換した後、単語、文節毎に分解する。すなわち日本語
においては英語のように単語が分かち書きされていない
ことから、例えば「米国産業界」のような言葉は、「米
国/産業・界」、「米/国産/業界」のように2種類区
分化し得る。
されたテキスト入力(文字の系列で表された文章等でな
る)を、所定の辞書を基準にして解析し、仮名文字列に
変換した後、単語、文節毎に分解する。すなわち日本語
においては英語のように単語が分かち書きされていない
ことから、例えば「米国産業界」のような言葉は、「米
国/産業・界」、「米/国産/業界」のように2種類区
分化し得る。
【0018】このため文章解析部3は、辞書を参考にし
ながら、言葉の連続関係及び単語の統計的性質を利用し
て、テキスト入力を単語、文節毎に分解するようになさ
れ、これにより単語、文節の境界を検出するようになさ
れている。さらに文章解析部3は、各単語毎に基本アク
セントを検出した後、音声合成規則部4に出力する。
ながら、言葉の連続関係及び単語の統計的性質を利用し
て、テキスト入力を単語、文節毎に分解するようになさ
れ、これにより単語、文節の境界を検出するようになさ
れている。さらに文章解析部3は、各単語毎に基本アク
セントを検出した後、音声合成規則部4に出力する。
【0019】音声合成規則部4は、日本語の特徴に基づ
いて設定された所定の音韻規則に従つて、文章解析部3
の検出結果及びテキスト入力を処理するようになされて
いる。すなわち日本語の自然な音声は、言語学的特性に
基づいて区別すると、約 100程度の発声の単位に区分す
ることができる。例えば「さくら」という単語を発声の
単位に区分すると、「sa」+「ak」+「ku」+「ur」+
「ra」の5つのCV/VC単位に分割することができ
る。
いて設定された所定の音韻規則に従つて、文章解析部3
の検出結果及びテキスト入力を処理するようになされて
いる。すなわち日本語の自然な音声は、言語学的特性に
基づいて区別すると、約 100程度の発声の単位に区分す
ることができる。例えば「さくら」という単語を発声の
単位に区分すると、「sa」+「ak」+「ku」+「ur」+
「ra」の5つのCV/VC単位に分割することができ
る。
【0020】さらに日本語は単語が連続する場合、連な
つた後ろの語の語頭音節が濁音化したり(すなわち続濁
でなる)、語頭以外のガ行音が鼻音化したりして、単語
単体の場合と発声が変化する特徴がある。従つて音声合
成規則部4は、これら日本語の特徴に従つて音韻規則が
設定されるようになされ、当該規則に従つてテキスト入
力を音韻記号列(すなわち上述の「sa」+「ak」+「k
u」+「ur」+「ra」等の連続する列でなる)に変換す
る。さらに音声合成規則部4は、当該音韻記号列に基づ
いて、音声単位記憶部2から各音声単位のデータをロー
ドする。
つた後ろの語の語頭音節が濁音化したり(すなわち続濁
でなる)、語頭以外のガ行音が鼻音化したりして、単語
単体の場合と発声が変化する特徴がある。従つて音声合
成規則部4は、これら日本語の特徴に従つて音韻規則が
設定されるようになされ、当該規則に従つてテキスト入
力を音韻記号列(すなわち上述の「sa」+「ak」+「k
u」+「ur」+「ra」等の連続する列でなる)に変換す
る。さらに音声合成規則部4は、当該音韻記号列に基づ
いて、音声単位記憶部2から各音声単位のデータをロー
ドする。
【0021】ここで当該音声合成装置1は、波形編集の
手法を用いて合成音を発声するようになされ、音声単位
記憶部2からロードされるデータは、各CV/VC単位
で表される合成音を生成する際に用いられる波形データ
である。この波形合成に用いられる音声単位データは次
のように構成されている。すなわち音声単位データの有
声部に関しては、実音声の有声部分において1ピツチに
対応する音声波形データを必要なフレーム数だけメモリ
に貯えたものからなり、また音声単位データの無声部に
関しては、実音声の無声部分の波形を切り出してそのま
まメモリに貯えたものからなる。
手法を用いて合成音を発声するようになされ、音声単位
記憶部2からロードされるデータは、各CV/VC単位
で表される合成音を生成する際に用いられる波形データ
である。この波形合成に用いられる音声単位データは次
のように構成されている。すなわち音声単位データの有
声部に関しては、実音声の有声部分において1ピツチに
対応する音声波形データを必要なフレーム数だけメモリ
に貯えたものからなり、また音声単位データの無声部に
関しては、実音声の無声部分の波形を切り出してそのま
まメモリに貯えたものからなる。
【0022】また図2に示すように音声単位データの有
声部の前端フレーム及び後端フレームは、音声波形デー
タ(図2(A))と共に、ケプストラム分析法等の分析
処理によつて得られるその音声波形データの包絡情報
(図2(B))及び微細構造情報(図2(C))が同時
にメモリに貯えられる。従つて音声単位データがCV/
VC単位である場合には、1つの音声単位CVの子音部
Cが無声子音である時には無声部分の切り出し波形と、
1ピツチの音声波形からなる複数フレームにおいて、そ
の後端フレームには対応する音声波形の包絡情報と微細
構造情報も含まれている。
声部の前端フレーム及び後端フレームは、音声波形デー
タ(図2(A))と共に、ケプストラム分析法等の分析
処理によつて得られるその音声波形データの包絡情報
(図2(B))及び微細構造情報(図2(C))が同時
にメモリに貯えられる。従つて音声単位データがCV/
VC単位である場合には、1つの音声単位CVの子音部
Cが無声子音である時には無声部分の切り出し波形と、
1ピツチの音声波形からなる複数フレームにおいて、そ
の後端フレームには対応する音声波形の包絡情報と微細
構造情報も含まれている。
【0023】これにより1つの音声単位データが構成さ
れ、また1つの音声単位CVの子音部Cが有声子音であ
るときには、1ピツチの音声波形からなる複数フレーム
において、その先端フレーム及び後端フレームにそれぞ
れ対応する音声波形の包絡情報及び微細構造情報が含ま
れており、これにより1つの音声単位データが構成され
る。
れ、また1つの音声単位CVの子音部Cが有声子音であ
るときには、1ピツチの音声波形からなる複数フレーム
において、その先端フレーム及び後端フレームにそれぞ
れ対応する音声波形の包絡情報及び微細構造情報が含ま
れており、これにより1つの音声単位データが構成され
る。
【0024】音声合成規則部4は、音声単位記憶部2か
らロードされた音声単位データをテキスト入力に応じた
順序(以下このデータを合成波形データと呼ぶ)で合成
し、かくして抑揚のない状態で、テキスト入力を読み上
げた合成音声波形を得ることができる。また合成波形デ
ータ内での、有声部における音声単位の連結では、次の
ような処理が行われる。
らロードされた音声単位データをテキスト入力に応じた
順序(以下このデータを合成波形データと呼ぶ)で合成
し、かくして抑揚のない状態で、テキスト入力を読み上
げた合成音声波形を得ることができる。また合成波形デ
ータ内での、有声部における音声単位の連結では、次の
ような処理が行われる。
【0025】音声合成部5において合成しようとするあ
る音韻連鎖C′VC″では、音声単位記憶部2からロー
ドされたデータC′V、VC″内の波形データ群を順に
並べ、音韻連鎖内の同一音素V内での接続部において
は、次の補間処理によつて得られる音声波形データを用
いる。これは、図3に示すように、先行音声単位C′V
の終端フレーム内の包絡情報と、後方音声単位VC″の
先端フレーム内の包絡情報を用いて線形補間等の補間処
理を行い、この補間処理によつて得られた包絡情報と先
行音声単位C′Vの終端フレーム内の微細構造情報を加
えたものを接続部における補間フレームの周波数情報と
する。
る音韻連鎖C′VC″では、音声単位記憶部2からロー
ドされたデータC′V、VC″内の波形データ群を順に
並べ、音韻連鎖内の同一音素V内での接続部において
は、次の補間処理によつて得られる音声波形データを用
いる。これは、図3に示すように、先行音声単位C′V
の終端フレーム内の包絡情報と、後方音声単位VC″の
先端フレーム内の包絡情報を用いて線形補間等の補間処
理を行い、この補間処理によつて得られた包絡情報と先
行音声単位C′Vの終端フレーム内の微細構造情報を加
えたものを接続部における補間フレームの周波数情報と
する。
【0026】この周波数情報を周波数領域から時間領域
へ変換し、接続部における補間フレームの音声波形デー
タとし、合成波形データに用いる。また、この補間処理
による音声単位の連結は、Cが有声子音であるような別
の音韻連鎖V′CV″における音声単位V′Cと音声単
位CV″の同一音素C内でも行われる。
へ変換し、接続部における補間フレームの音声波形デー
タとし、合成波形データに用いる。また、この補間処理
による音声単位の連結は、Cが有声子音であるような別
の音韻連鎖V′CV″における音声単位V′Cと音声単
位CV″の同一音素C内でも行われる。
【0027】さらに音声合成規則部4は所定の韻律規則
に基づいて、テキスト入力を適当な長さで分割して、切
れ目(すなわちポーズでなる)を検出する。かくして、
例えばテキスト入力として図4(A)に示すように、文
章「きれいな花を山田さんからもらいました」が入力さ
れた場合、当該テキスト入力は図4(B)に示すよう
に、「きれいな」、「はなを」、「やまださんから」、
「もらいました」に分解された後、「はなを」及び「や
まださんから」間にポーズが検出される。
に基づいて、テキスト入力を適当な長さで分割して、切
れ目(すなわちポーズでなる)を検出する。かくして、
例えばテキスト入力として図4(A)に示すように、文
章「きれいな花を山田さんからもらいました」が入力さ
れた場合、当該テキスト入力は図4(B)に示すよう
に、「きれいな」、「はなを」、「やまださんから」、
「もらいました」に分解された後、「はなを」及び「や
まださんから」間にポーズが検出される。
【0028】さらに音声合成規則部4は、韻律規則及び
各単語の基本アクセントに基づいて、各文節のアクセン
トを検出する。すなわち日本語の文節単体のアクセント
は、感覚的に仮名文字を単位として(以下モーラと呼
ぶ)高低の2レベルで表現することができる。このと
き、文節の内容等に応じて、文節のアクセント位置を区
別することができる。
各単語の基本アクセントに基づいて、各文節のアクセン
トを検出する。すなわち日本語の文節単体のアクセント
は、感覚的に仮名文字を単位として(以下モーラと呼
ぶ)高低の2レベルで表現することができる。このと
き、文節の内容等に応じて、文節のアクセント位置を区
別することができる。
【0029】例えば、端、箸、橋は、2モーラの単語
で、それぞれアクセントのない0型、アクセントの位置
が先頭のモーラにある1型、アクセントの位置が2モー
ラ目にある2型に分類することができる。かくしてこの
実施例の場合音声合成規則部4は、テキスト入力の各文
節を、図4(C)に示すように、順次1型、2型、0
型、4型と分類し、これにより文節単位でアクセント及
びポーズを検出する。
で、それぞれアクセントのない0型、アクセントの位置
が先頭のモーラにある1型、アクセントの位置が2モー
ラ目にある2型に分類することができる。かくしてこの
実施例の場合音声合成規則部4は、テキスト入力の各文
節を、図4(C)に示すように、順次1型、2型、0
型、4型と分類し、これにより文節単位でアクセント及
びポーズを検出する。
【0030】さらに音声合成規則部4は、アクセント及
びポーズの検出結果に基づいて、テキスト入力全体の抑
揚を表す基本ピツチパターンを生成する。すなわち、日
本語における文節のアクセントは感覚的に2レベルで表
し得るのに対し、実際の抑揚はアクセントの位置から徐
々に低下する特徴がある(図4(D))。さらに日本語
においては、文節が連続して1つの文章になると、ポー
ズから続くポーズに向かつて、抑揚が徐々に低下する特
徴がある(図4(E))。
びポーズの検出結果に基づいて、テキスト入力全体の抑
揚を表す基本ピツチパターンを生成する。すなわち、日
本語における文節のアクセントは感覚的に2レベルで表
し得るのに対し、実際の抑揚はアクセントの位置から徐
々に低下する特徴がある(図4(D))。さらに日本語
においては、文節が連続して1つの文章になると、ポー
ズから続くポーズに向かつて、抑揚が徐々に低下する特
徴がある(図4(E))。
【0031】従つて音声合成規則部4はこのような日本
語の特徴に基づいて、テキスト入力全体の抑揚を表すパ
ラメータを各モーラ毎に生成した後、人間が発声した場
合と同様に抑揚が滑らかに変化するように、モーラ間に
補間によりパラメータを設定する。かくして音声合成規
則部4は、テキスト入力に応じた順序で、各モーラのパ
ラメータ及び補間したパラメータを合成し(以下ピツチ
パターンと呼ぶ)、これにより図4(F)に示すよう
に、テキスト入力を読み上げた音声の抑揚を表すピツチ
パターン(図4(F))を得るようになされている。
語の特徴に基づいて、テキスト入力全体の抑揚を表すパ
ラメータを各モーラ毎に生成した後、人間が発声した場
合と同様に抑揚が滑らかに変化するように、モーラ間に
補間によりパラメータを設定する。かくして音声合成規
則部4は、テキスト入力に応じた順序で、各モーラのパ
ラメータ及び補間したパラメータを合成し(以下ピツチ
パターンと呼ぶ)、これにより図4(F)に示すよう
に、テキスト入力を読み上げた音声の抑揚を表すピツチ
パターン(図4(F))を得るようになされている。
【0032】音声合成部5は、合成波形データ及びピツ
チパターンに基づいて、波形合成処理を行ない合成音を
生成する。この波形合成処理は、次のようなことを行な
つている。すなわち合成音声の有声部においては、合成
波形データ内の1ピツチに対応した波形データをピツチ
パターンに基づいて並べ重畳していく。また合成音声の
無声部分においては、合成波形データ内の切り出し波形
をそのまま所望の合成音声の波形とする。
チパターンに基づいて、波形合成処理を行ない合成音を
生成する。この波形合成処理は、次のようなことを行な
つている。すなわち合成音声の有声部においては、合成
波形データ内の1ピツチに対応した波形データをピツチ
パターンに基づいて並べ重畳していく。また合成音声の
無声部分においては、合成波形データ内の切り出し波形
をそのまま所望の合成音声の波形とする。
【0033】これにより、ピツチパターンの変化に追従
して抑揚の変化する合成音を得ることができる。従つ
て、高品質な合成音声が得られる波形重畳方式の音声合
成システムにおいて、有声部分における音声単位接続部
での接続歪みを低減することができ、補間を行わない合
成方式や、時間軸上での単純な波形補間による合成方式
に比べ、接続部をよりなめらかに接続していくことがで
き、人間の音声に近い高品質な任意合成音が得ることが
できる。
して抑揚の変化する合成音を得ることができる。従つ
て、高品質な合成音声が得られる波形重畳方式の音声合
成システムにおいて、有声部分における音声単位接続部
での接続歪みを低減することができ、補間を行わない合
成方式や、時間軸上での単純な波形補間による合成方式
に比べ、接続部をよりなめらかに接続していくことがで
き、人間の音声に近い高品質な任意合成音が得ることが
できる。
【0034】以上の構成において、所定の入力装置から
入力されたテキスト入力は、文章解析部2で所定の辞書
を基準にして解析され、単語、文節の境界及び基本アク
セントが検出される。この単語、文節の境界及び基本ア
クセントの検出結果は、音声合成規則部4で所定の音韻
規則に従つて処理され、抑揚のない状態でテキスト入力
を読み上げた音声を表す合成波形データが生成される。
入力されたテキスト入力は、文章解析部2で所定の辞書
を基準にして解析され、単語、文節の境界及び基本アク
セントが検出される。この単語、文節の境界及び基本ア
クセントの検出結果は、音声合成規則部4で所定の音韻
規則に従つて処理され、抑揚のない状態でテキスト入力
を読み上げた音声を表す合成波形データが生成される。
【0035】さらに単語、文節の境界及び基本アクセン
トの検出結果は、音声合成規則部4で、所定の韻律規則
に従つて処理され、テキスト入力全体の抑揚を表すピツ
チパターンが生成される。ピツチパターンは合成波形デ
ータと共に音声合成部5に出力され、ここでピツチパタ
ーン及び合成波形データに基づいて合成音が生成され
る。
トの検出結果は、音声合成規則部4で、所定の韻律規則
に従つて処理され、テキスト入力全体の抑揚を表すピツ
チパターンが生成される。ピツチパターンは合成波形デ
ータと共に音声合成部5に出力され、ここでピツチパタ
ーン及び合成波形データに基づいて合成音が生成され
る。
【0036】以上の構成によれば、高品質な合成音声が
得られる波形重畳方式の音声合成システムにおいて、有
声部分における音声単位接続部での接続歪みを低減する
ことができ、よりなめらかに音声単位を接続することに
よつて、人間の音声に近い高品質な合成音声を任意に生
成し得る音声合成装置1を実現できる。
得られる波形重畳方式の音声合成システムにおいて、有
声部分における音声単位接続部での接続歪みを低減する
ことができ、よりなめらかに音声単位を接続することに
よつて、人間の音声に近い高品質な合成音声を任意に生
成し得る音声合成装置1を実現できる。
【0037】なお上述の実施例においては、音声合成部
5で合成しようとするある音韻連鎖C′VC″におい
て、先行音声単位C′Vの終端フレーム内の包絡情報
と、後方音声単位VC″の先端フレーム内の包絡情報と
を補間処理して得られた包絡情報に対して、先行音声単
位C′Vの終端フレーム内の微細構造情報の代わりに後
方音声単位VC″の先端フレーム内の微細構造情報を加
えたものを接続部における補間フレームの周波数情報と
してもよい。
5で合成しようとするある音韻連鎖C′VC″におい
て、先行音声単位C′Vの終端フレーム内の包絡情報
と、後方音声単位VC″の先端フレーム内の包絡情報と
を補間処理して得られた包絡情報に対して、先行音声単
位C′Vの終端フレーム内の微細構造情報の代わりに後
方音声単位VC″の先端フレーム内の微細構造情報を加
えたものを接続部における補間フレームの周波数情報と
してもよい。
【0038】
【発明の効果】上述のように本発明によれば、高品質な
合成音声が得られる波形重畳方式の音声合成システムに
おいて、有声部分における音声単位接続部での接続歪み
を低減することができ、人間の音声に近い高品質な合成
音を任意に合成することができる音声合成装置を得るこ
とができる。
合成音声が得られる波形重畳方式の音声合成システムに
おいて、有声部分における音声単位接続部での接続歪み
を低減することができ、人間の音声に近い高品質な合成
音を任意に合成することができる音声合成装置を得るこ
とができる。
【図1】本発明の一実施例による音声合成装置を示すブ
ロツク図である。
ロツク図である。
【図2】音声単位データ内の先端フレーム及び終端フレ
ームのデータの説明に供する信号波形図である。
ームのデータの説明に供する信号波形図である。
【図3】補間処理の説明に供する略線図である。
【図4】音声合成装置の動作の説明に供する略線図であ
る。
る。
1……音声合成装置、2……音声単位記憶部、3……文
章解析部、4……音声合成規則部、5……音声合成部。
章解析部、4……音声合成規則部、5……音声合成部。
Claims (5)
- 【請求項1】個々の音声単位毎に、当該音声単位内にお
いて周期性を有する有声部分について、実音声の分析処
理によつて得られる各1ピツチ周期分に対応する音声波
形データを上記音声単位として必要フレーム数分だけメ
モリに貯え、 同時に上記音声単位の前端フレーム及び後端フレームに
は、上記音声波形データと共に分析処理によつて得られ
る包絡情報及び微細構造情報を合わせて上記メモリに貯
え、 同時に上記音声単位内における周期性の無い無声部分に
ついて、上記実音声をそのまま上記音声波形データとし
て上記メモリに貯える音声単位記憶部と、 入力された音韻記号と韻律記号に基づく所定の音韻規則
及び韻律規則に従つて、ピツチパターンを生成する音声
合成規則部と、 上記有声部分の合成時の補間フレームにおいて、先行音
声単位の上記後端フレーム及び後方音声単位の上記前端
フレームの上記包絡情報を補間して、上記先行音声単位
の上記微細構造情報と合わせて時間波形を求め、当該時
間波形を上記補間フレームの上記音声波形データとし
て、上記音声単位及び上記ピツチパターンに基づいて合
成音を生成する音声合成部とを具えることを特徴とする
音声合成装置。 - 【請求項2】入力された文字の系列を解析して、単語、
文節の境界及び基本アクセントを検出する文章解析部
と、 個々の音声単位毎に、当該音声単位内において周期性を
有する有声部分について、実音声の分析処理によつて得
られる各1ピツチ周期分に対応する音声波形データを上
記音声単位として必要フレーム数分だけメモリに貯え、 同時に上記音声単位の前端フレーム及び後端フレームに
は、上記音声波形データと共に分析処理によつて得られ
る包絡情報及び微細構造情報を合わせて上記メモリに貯
え、 同時に上記音声単位内における周期性のない無声部分に
ついて、上記実音声をそのまま上記音声波形データとし
て上記メモリに貯える音声単位記憶部と、 上記文章解析部の解析結果に基づく所定の音韻規則及び
韻律規則に従つて、ピツチパターンを生成する音声合成
規則部と、 上記有声部分の合成時の補間フレームにおいて、先行音
声単位の上記後端フレーム及び後方音声単位の上記前端
フレームの上記包絡情報を補間して、上記先行音声単位
の上記微細構造情報と合わせて時間波形を求め、当該時
間波形を上記補間フレームの上記音声波形データとし
て、上記音声単位及び上記ピツチパターンに基づいて合
成音を生成する音声合成部とを具えることを特徴とする
音声合成装置。 - 【請求項3】個々の音声単位毎に、当該音声単位内にお
いて周期性を有する有声部分について、実音声の分析処
理によつて得られる各1ピツチ周期分に対応する音声波
形データを上記音声単位として必要フレーム数分だけメ
モリにメモリに貯え、 同時に上記音声単位の前端フレーム及び後端フレームに
は、上記音声波形データと共に分析処理によつて得られ
る包絡情報及び微細構造情報を合わせて上記メモリにメ
モリに貯え、 同時に上記音声単位内における周期性の無い無声部分に
ついて、上記実音声をそのまま上記音声波形データとし
て上記メモリにメモリに貯え、 入力された音韻記号と韻律記号に基づく所定の音韻規則
及び韻律規則に従つて、ピツチパターンを生成し、 上記有声部分の合成時の補間フレームにおいて、先行音
声単位の上記後端フレーム及び後方音声単位の上記前端
フレームの上記包絡情報を補間して、上記先行音声単位
の上記微細構造情報と合わせて時間波形を求め、当該時
間波形を上記補間フレームの上記音声波形データとし
て、上記音声単位及びピツチパターンに基づいて合成音
を生成するようにしたことを特徴とする音声合成方法。 - 【請求項4】入力された文字の系列を解析して、単語、
文節の境界及び基本アクセントを検出し、 個々の音声単位毎に、当該音声単位内において周期性を
有する有声部分について、実音声の分析処理によつて得
られる各1ピツチ周期分に対応する音声波形データを上
記音声単位として必要フレーム数だけメモリに貯え、 同時に上記音声単位の前端フレーム及び後端フレームに
は、上記音声波形データと共に分析処理によつて得られ
る包絡情報及び微細構造情報を合わせて上記メモリに貯
え、 同時に上記音声単位内における周期性のない無声部分に
ついて、上記実音声をそのまま上記音声波形データとし
て上記メモリに貯え、 上記文字の系列の解析結果に基づく所定の音韻規則及び
韻律規則に従つて、ピツチパターンを生成し、 上記有声部分の合成時の補間フレームにおいて、先行音
声単位の上記後端フレーム及び後方音声単位の上記前端
フレームの上記包絡情報を補間して、上記先行音声単位
の上記微細構造情報と合わせて時間波形を求め、当該時
間波形を上記補間フレームの上記音声波形データとし
て、上記音声単位及び上記ピツチパターンに基づいて、
合成音を生成するようにしたことを特徴とする音声合成
方法。 - 【請求項5】上記音声として日本語に基づく音声を用い
るようにしたことを特徴とする請求項1、請求項2及び
請求項3、請求項4に記載の音声合成装置及び音声合成
方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP31135692A JP3235747B2 (ja) | 1992-10-27 | 1992-10-27 | 音声合成装置及び音声合成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP31135692A JP3235747B2 (ja) | 1992-10-27 | 1992-10-27 | 音声合成装置及び音声合成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH06138894A true JPH06138894A (ja) | 1994-05-20 |
JP3235747B2 JP3235747B2 (ja) | 2001-12-04 |
Family
ID=18016177
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP31135692A Expired - Fee Related JP3235747B2 (ja) | 1992-10-27 | 1992-10-27 | 音声合成装置及び音声合成方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3235747B2 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1997036286A1 (fr) * | 1996-03-25 | 1997-10-02 | Arcadia, Inc. | Generateur de source de sons, synthetiseur vocal et procede de synthese vocale |
CN113096634A (zh) * | 2021-03-30 | 2021-07-09 | 平安科技(深圳)有限公司 | 语音合成方法、装置、服务器及存储介质 |
-
1992
- 1992-10-27 JP JP31135692A patent/JP3235747B2/ja not_active Expired - Fee Related
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1997036286A1 (fr) * | 1996-03-25 | 1997-10-02 | Arcadia, Inc. | Generateur de source de sons, synthetiseur vocal et procede de synthese vocale |
CN113096634A (zh) * | 2021-03-30 | 2021-07-09 | 平安科技(深圳)有限公司 | 语音合成方法、装置、服务器及存储介质 |
CN113096634B (zh) * | 2021-03-30 | 2024-03-01 | 平安科技(深圳)有限公司 | 语音合成方法、装置、服务器及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
JP3235747B2 (ja) | 2001-12-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2000206982A (ja) | 音声合成装置及び文音声変換プログラムを記録した機械読み取り可能な記録媒体 | |
JP3587048B2 (ja) | 韻律制御方法及び音声合成装置 | |
JPH0632020B2 (ja) | 音声合成方法および装置 | |
JP2761552B2 (ja) | 音声合成方法 | |
US6829577B1 (en) | Generating non-stationary additive noise for addition to synthesized speech | |
JPH0887297A (ja) | 音声合成システム | |
JPH08335096A (ja) | テキスト音声合成装置 | |
JP3235747B2 (ja) | 音声合成装置及び音声合成方法 | |
JP3622990B2 (ja) | 音声合成装置及び方法 | |
JPH0580791A (ja) | 音声規則合成装置および方法 | |
JP3614874B2 (ja) | 音声合成装置及び方法 | |
KR20050057409A (ko) | 음성 신호 합성 방법, 컴퓨터 프로그램 제품, 컴퓨터시스템 및 합성 음성 신호 | |
Dessai et al. | Development of Konkani TTS system using concatenative synthesis | |
JP3397406B2 (ja) | 音声合成装置及び音声合成方法 | |
JPH01321496A (ja) | 音声合成装置 | |
JP2573585B2 (ja) | 音声スペクトルパタン生成装置 | |
JPH0594196A (ja) | 音声合成装置 | |
JPH08160990A (ja) | 音声合成装置 | |
JPH03269599A (ja) | 音声合成装置 | |
Teranishi | A speech synthesis system by rule in Japanese | |
Isard | Speech Synthesis | |
Agrawal | Analysis and synthesis of CV syllables in Hindi | |
Changli et al. | Synthesis of Chinese by rules based on a multipulse excitation model | |
JPH04190398A (ja) | 音声合成方法 | |
Morris et al. | Speech Generation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
LAPS | Cancellation because of no payment of annual fees |