JP3264998B2 - 音声合成器 - Google Patents

音声合成器

Info

Publication number
JP3264998B2
JP3264998B2 JP26099692A JP26099692A JP3264998B2 JP 3264998 B2 JP3264998 B2 JP 3264998B2 JP 26099692 A JP26099692 A JP 26099692A JP 26099692 A JP26099692 A JP 26099692A JP 3264998 B2 JP3264998 B2 JP 3264998B2
Authority
JP
Japan
Prior art keywords
frame
prediction gain
memory
speech
buffer memory
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP26099692A
Other languages
English (en)
Other versions
JPH06110496A (ja
Inventor
潤 亀谷
世光 友竹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP26099692A priority Critical patent/JP3264998B2/ja
Publication of JPH06110496A publication Critical patent/JPH06110496A/ja
Application granted granted Critical
Publication of JP3264998B2 publication Critical patent/JP3264998B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は音声合成器に関し、特に
規則合成方式を用いた音声合成器などにおいて、予めフ
レーム毎に分析したスペクトル情報を含む複数の音声情
報パラメータをフレーム単位で合成して音声発声を可能
とする音声合成器に関する。
【0002】
【従来の技術】従来、文章を一定時間長のフレームごと
に分析した音声情報パラメータを用いて音声を合成する
場合、一定フレーム時間ごとに例えばスペクトル情報と
残差(パルス)などのパラメータにより合成している。
このような音声合成器で高速音声発声を行う場合は、ス
ペクトル情報により有声または無声および母音または子
音の判定を行い、有声もしくは母音と判定されたフレー
ムをある区間毎一定に間引く方法により高速度音声発声
を行っている。
【0003】図3を参照すると、従来の音声合成器は、
一定時間長のフレームごとに分析したスペクトル情報を
含む複数の音声情報パラメータを前記フレーム単位で編
集して合成する音声合成器において、音声ファイル1か
らの合成に必要な音声データをa蓄えるとともに制御信
号d応じて1フレーム単位でスペクトル情報bを出力し
かつ残差cを出力する音声メモリ2と、音声メモリ2か
らのペクトル情報bの予測ゲインを算出する予測ゲイ
ン算出器3と、予測ゲイン算出器3からの予測ゲイン算
出値をしきい値メモリ5からの予測ゲインしきい値と比
較判定する判定器4と、音声メモリ2からのペクトル
情報bを格納するバッファメモリ6と、音声メモリ2か
らの残差cを格納するバッファメモリ7と、判定器4か
らの判定出力により制御信号を出力してバッファメモリ
6およびバッファメモリ7を制御するバッファ制御回路
11と、バッファメモリ6からの出力とバッファメモリ
7からの出力とを合成する合成フィルタ8と、フレーム
間引きのための制御信号dを出力して音声メモリ2を制
御するフレーム制御回路10とから構成される。
【0004】
【発明が解決しようとする課題】この従来の音声合成器
では、有声もしくは母音フレームを一つの基準により間
引いているために、母音と判定される区間が一律に間引
かれしまうことによって、しきい値の設定状態あるいは
発声する言葉によっては母音フレームがほとんど間引か
れて音質の劣化が起こる。
【0005】
【課題を解決するための手段】本発明による音声合成器
は、一定時間長のフレームごとに分析したスペクトル情
報を含む複数の音声情報パラメータを前記フレーム単位
で編集して合成する音声合成器において、前記スペクト
ル情報の予測ゲインを算出する予測ゲイン算出手段と、
前記フレーム間引きを制御する制御手段とを有し、前
記予測ゲインが予測ゲインしきい値より小さい場合、か
つ前記予測ゲインのフレーム間変化量が少ない場合に前
記フレームを間引く。
【0006】また、本発明による音声合成器は、一定時
間長のフレームごとに分析したスペクトル情報を含む複
数の音声情報パラメータを前記フレーム単位で編集して
合成する音声合成器において、前記スペクトル情報の予
測ゲインを算出する予測ゲイン算出手段と、前記スペク
トル情報のピッチ周期を算出するピッチ周期算出手段
と、前記フレーム間引きを制御する制御手段とを有
し、前記予測ゲインが予測ゲインしきい値より小さい場
合、かつ前記スペクトル情報のピッチ周期が安定してい
る場合に前記フレームを間引く。
【0007】さらに、本発明による音声合成器は、一定
時間長のフレームごとに分析したスペクトル情報を含む
複数の音声情報パラメータを前記フレーム単位で編集し
て合成する音声合成器において、音声ファイルからの合
成に必要な音声データを蓄えるとともに第1の制御信号
に応じてフレーム単位でスペクトル情報を出力しかつ残
差を出力する音声メモリと、前記音声メモリからの
クトル情報の予測ゲインを算出する予測ゲイン算出手段
と、前記予測ゲイン算出手段からの前記予測ゲインの変
化量を算出する予測ゲイン変化量算出手段と、前記予測
ゲイン算出手段からの予測ゲイン算出値を予測ゲインし
きい値と比較判定するとともに前記予測ゲイン変化量算
出手段からの予測ゲインの変化量を予測ゲイン変化量し
きい値と比較判定する判定手段と、前記音声メモリから
の前記ペクトル情報を格納する第1のバッファメモリ
と、前記音声メモリからの前記残差を格納する第2のバ
ッファメモリと、前記判定手段からの判定出力により第
2の制御信号を出力して前記第1のバッファメモリを制
御するとともに第3の制御信号を出力して前記第2のバ
ッファメモリを制御するバッファ制御手段と、前記第1
のバッファメモリからの出力と前記第2のバッファメモ
リからの出力とを合成する合成フィルタと、前記フレー
間引きのための前記第1の制御信号を出力して前記
音声メモリを制御するフレーム制御手段とを備える。
【0008】さらにまた、本発明による音声合成器は、
一定時間長のフレームごとに分析したスペクトル情報を
含む複数の音声情報パラメータをフレーム単位で編集し
て合成する音声合成器において、音声ファイルからの合
成に必要な音声データを蓄えるとともに第1の制御信号
に応じてフレーム単位でスペクトル情報を出力しかつ残
差を出力する音声メモリと、前記音声メモリからの
クトル情報の予測ゲインを算出する予測ゲイン算出手段
と、前記音声メモリからのペクトル情報のピッチ周期
を算出するピッチ周期算出手段と、前記予測ゲイン算出
手段からの予測ゲイン算出値を予測ゲインしきい値と比
較判定するとともに前記ピッチ周期算出手段からのピッ
チ周期の変化量をピッチ周期変化量しきい値と比較判定
する判定手段と、前記音声メモリからの前記ペクトル
情報を格納する第1のバッファメモリと、前記音声メモ
リからの前記残差を格納する第2のバッファメモリと、
前記判定手段からの判定出力により第2の制御信号を出
力して前記第1のバッファメモリを制御するとともに第
3の制御信号を出力して前記第2のバッファメモリを制
御するバッファ制御手段と、前記第1のバッファメモリ
からの出力と前記第2のバッファメモリからの出力とを
合成する合成フィルタと、前記フレーム間引きのため
の前記第1の制御信号を出力して前記音声メモリを制御
するフレーム制御手段とを備える。
【0009】
【実施例】スペクトル情報として偏自己相関(PARC
OR)方式を例にすると、フレーム内の平均予測残差信
号電力Peは、音声スペクトル情報の一つの表現方法で
ある偏自己相関係数kiを用いて式(1)のように表さ
れる。また、予測ゲインは、音声符号化処理の分野では
一般的な用語であり、”入力信号のエネルギーと予測残
差のエネルギーの比を予測利得(予測ゲイン)”として
定義される(「音声符号化」 守谷健弘著 電子情報通
信学会刊 P.23参照)。 スペクトル情報(ここでは
偏自己相関係数:ki )から算出した予測ゲインを本
発明では、以下で“kiの予測ゲイン”と記述すが、
“kiの予測ゲイン”とは”正規化予測ゲインPg”を
示すので、“kiの予測ゲイン”とは“正規化予測ゲイ
ンPg”のことである。 また、偏自己相関係数kiは、
予測ゲインを表すのに使用される係数であるため、正規
化予測ゲインPgをスペクトル情報の1つである偏自己
相関係数kiにより算出することができる。 よって、k
iの予測ゲインとは、スペクトル情報すなわち偏自己相
関 係数kiから算出した正規化予測ゲインPgを示
し、この正規化予測ゲインPgをここでは(2)式のよ
うに定義する。
【0010】 ここで、P0 は入力音声の平均電力を示す。また、偏自
己相関係数ki の次数p は通常10程度の値が選択され
る。
【0011】この場合、kiで表すことができる正規化
予測ゲインPg入力音声が母音定常部などのような
周期波の場合は、一般に偏自己相関係数kiが、比較的
に安定した値をとり、正規化予測ゲインPgは同様に安
定して0に近い値をとる。入力音声が子音部のような非
周期波の場合は偏自己相関係数kiの値がばらつき、
また、このとき、正規化予測ゲインPgは、1に近い値
をとる。
【0012】上述より、正規化予測ゲインPgの値をし
きい値と比較するすることにより母音部フレームを検
出することができる。
【0013】一般に定常な母音フレームは正規化予測ゲ
インPgが安定しているので、正規化予測ゲインPg
しきい値以下で変化量の少ない(小さくかつ安定してい
る所)フレームを見つけることによって安定している
母音フレームを見つけることができる。
【0014】また、ピッチ周期検出法では、スぺクトル
情報や残差のピークを探して算出する方法により実現す
ることができる。
【0015】次に、本発明について図面を参照して説明
する。本発明の音声合成器の第1の実施例を示す図1を
参照すると、一定時間長のフレームごとに分析したスペ
クトル情報を含む複数の音声情報パラメータを前記フレ
ーム単位で編集して合成する音声合成器において、音声
ファイル1からの合成に必要な音声データaを蓄えると
ともに制御信号dに応じて1フレーム単位でスペクトル
情報bを出力しかつ残差cを出力する音声メモリ2と、
音声メモリ2からのペクトル情報bの予測ゲインを算
出する予測ゲイン算出器3と、予測ゲイン算出器3から
の予測ゲインの変化量を算出する変化量算出器12と、
予測ゲイン算出器3からの予測ゲイン算出値をしきい値
メモリ5からの予測ゲインしきい値と比較判定するとと
もに変化量算出器12からの予測ゲインの変化量をしき
い値メモリ5からの予測ゲイン変化量しきい値と比較判
定する判定器4と、音声メモリ2からのペクトル情報
bを格納するバッファメモリ6と、音声メモリ2からの
残差cを格納するバッファメモリ7と、判定器4からの
判定出力により制御信号を出力してバッファメモリ6お
よびバッファメモリ7を制御するバッファ制御回路11
と、バッファメモリ6からの出力とバッファメモリ7か
らの出力とを合成する合成フィルタ8と、フレーム間引
きのための制御信号dを出力して音声メモリ2を制御す
るフレーム制御回路10とから構成される。
【0016】詳述すると、スペクトル情報と音源情報と
を分離した形で記憶し合成する残差駆動方式の音声合成
器では、まず、音声ファイル1から合成に必要な音声デ
ータaを音声メモリ2に蓄える。音声メモリ2はフレー
ム制御回路10からの制御信号dにより制御されて、ス
ペクトル情報bを1フレーム単位で予測ゲイン算出器3
とバッファメモリ6とへ転送するとともに残差cをバッ
ファメモリ7へ転送する。
【0017】予測ゲイン算出器3ではスペクトル情報b
から予測ゲインPg を計算してその算出結果を判定器4
および変化量算出器12へ送出する。判定器4では予測
ゲインPg の算出結果をしきい値メモリ5からのしきい
値と比較する。このとき変化量算出器12では予測ゲイ
ンPg の算出結果を数フレーム分格納できるようなリン
グバッファ等に格納しておく。
【0018】ここで、予測ゲインPg の算出結果が予め
設定したしきい値以上の場合、すなわち、間引かないと
判断されたフレームは、判定器4に接続されているバッ
ファ制御回路11でバッファメモリ6およびバッファメ
モリ7を制御してバッファメモリ7に蓄積されている各
データを合成フィルタ8へ送出し、合成フィルタ8で音
声合成を行って音声出力端子9を介して出力する。
【0019】また、予測ゲインPg の算出結果が予め設
定したしきい値以下の場合は、母音フレームと判定され
て間引かれる候補になる。次に変化量算出器12では、
リングバッファに格納されている予測ゲインPg の算出
値の平均変化量を算出して判定器4へ送出する。判定器
4では変化量算出器12で算出した予測ゲインPg の平
均変化量が予め設定した変化量以下の場合にはバッファ
メモリ6およびバッファメモリ7に蓄積されている1フ
レーム分のスペクトル情報と残差cを廃棄し、次の1フ
レーム分の各データをバッファメモリ6およびバッファ
メモリ7に蓄積する。この残差cの廃棄は合成フィルタ
8における音声合成を一時中断することにより行う。こ
のような方法によりフレームの間引を行う。
【0020】本発明の音声合成器の第2の実施例を示す
図2を参照すると、一定時間長のフレームごとに分析し
たスペクトル情報を含む複数の音声情報パラメータをフ
レーム単位で編集して合成する音声合成器において、音
声ファイル1からの合成に必要な音声データaを蓄える
とともに制御信号dに応じて1フレーム単位でスペクト
ル情報bを出力しかつ残差cを出力する音声メモリ2
と、音声メモリ2からのペクトル情報bの予測ゲイン
を算出する予測ゲイン算出器3と、音声メモリ2からの
ペクトル情報bのピッチ周期を算出するピッチ周期算
出器13と、予測ゲイン算出器3からの予測ゲイン算出
値をしきい値メモリ5からの予測ゲインしきい値と比較
判定するとともにピッチ周期算出器13からのピッチ周
期の変化量をしきい値メモリ5からのピッチ周期変化量
しきい値と比較判定する判定器4と、音声メモリ4から
ペクトル情報bを格納するバッファメモリ6と、音
声メモリ2からの残差cを格納するバッファメモリ7
と、判定器4からの判定出力によ制御信号を出力して
バッファメモリ6およびバッファメモリ7を制御するバ
ッファ制御回路11と、バッファメモリ6からの出力と
バッファメモリ7からの出力とを合成する合成フィルタ
8と、フレーム間引きのための制御信号dを出力して音
声メモリ2を制御するフレーム制御回路10とから構成
される。
【0021】この第2の実施例の場合は第1の実施例の
場合と同様に、間引くフレームの候補になるかどうかの
予測ゲイン算出結果のしきい値判定がされる。この場合
は、ピッチ周期をピッチ周期算出器13のリングバッフ
ァ等に格納しておく。もし、間引くフレームの候補にな
った場合にはリングバッファに格納されているピッチ周
期を予め設定したピッチ周期と比較してほぼ一定になっ
ているか判定する。間引く場合は、図1の第1の実施例
の場合と同様の手順で行う。
【0022】
【発明の効果】以上説明したように本発明よれば、フレ
ームごとに予測ゲインを算出し、予測ゲインの変化量ま
たはピッチ周期の安定しているフレームを正確に判定し
て定常的に連続している母音のフレームのみを間引くこ
とにより音質劣下の少ない高速発声を可能にできる。
【図面の簡単な説明】
【図1】本発明の第1の実施例の音声合成器を示すブロ
ック図である。
【図2】本発明の第2の実施例の音声合成器を示すブロ
ック図である。
【図3】従来の音声合成器を示すブロック図である。
【符号の説明】
1 音声ファイル 2 音声メモリ 3 予測ゲイン算出器 4 判定器 5 しきい値メモリ 6 バッファメモリ 7 バッファメモリ 8 合成フィルタ 9 音声出力端子 10 フレーム制御回路 11 バッファ制御回路 12 変化量算出器 13 ピッチ周期算出器 a 音声データ b スペクトル情報 c 残差 d 制御信号 e 音声出力
───────────────────────────────────────────────────── フロントページの続き (56)参考文献 特開 平3−259197(JP,A) 特開 昭61−290499(JP,A) 特開 昭62−102300(JP,A) 特開 昭63−234299(JP,A) 特開 平4−273300(JP,A) 特開 平5−27791(JP,A) (58)調査した分野(Int.Cl.7,DB名) G10L 13/00 - 13/08 G10L 21/04

Claims (4)

    (57)【特許請求の範囲】
  1. 【請求項1】 一定時間長のフレームごとに分析したス
    ペクトル情報を含む複数の音声情報パラメータを前記フ
    レーム単位で編集して合成する音声合成器において、 前記スペクトル情報の予測ゲインを算出する予測ゲイン
    算出手段と、前記フレーム間引きを制御する制御手段
    とを有し、前記予測ゲインが予測ゲインしきい値より小
    さい場合、かつ前記予測ゲインのフレーム間変化量が少
    ない場合に前記フレームを間引くことを特徴とする音声
    合成器。
  2. 【請求項2】 一定時間長のフレームごとに分析したス
    ペクトル情報を含む複数の音声情報パラメータを前記フ
    レーム単位で編集して合成する音声合成器において、 前記スペクトル情報の予測ゲインを算出する予測ゲイン
    算出手段と、前記スペクトル情報のピッチ周期を算出す
    るピッチ周期算出手段と、前記フレーム間引きを制御
    する制御手段とを有し、前記予測ゲインが予測ゲインし
    きい値より小さい場合、かつ前記スペクトル情報のピッ
    チ周期が安定している場合に前記フレームを間引くこと
    を特徴とする音声合成器。
  3. 【請求項3】 一定時間長のフレームごとに分析したス
    ペクトル情報を含む複数の音声情報パラメータを前記フ
    レーム単位で編集して合成する音声合成器において、 音声ファイルからの合成に必要な音声データを蓄えると
    ともに第1の制御信号に応じてフレーム単位でスペクト
    ル情報を出力しかつ残差を出力する音声メモリと、 前記音声メモリからのペクトル情報の予測ゲインを算
    出する予測ゲイン算出手段と、 前記予測ゲイン算出手段からの前記予測ゲインの変化量
    を算出する予測ゲイン変化量算出手段と、 前記予測ゲイン算出手段からの予測ゲイン算出値を予測
    ゲインしきい値と比較判定するとともに前記予測ゲイン
    変化量算出手段からの予測ゲインの変化量を予測ゲイン
    変化量しきい値と比較判定する判定手段と、 前記音声メモリからの前記ペクトル情報を格納する第
    1のバッファメモリと、 前記音声メモリからの前記残差を格納する第2のバッフ
    ァメモリと、 前記判定手段からの判定出力により第2の制御信号を出
    力して前記第1のバッファメモリを制御するとともに第
    3の制御信号を出力して前記第2のバッファメモリを制
    御するバッファ制御手段と、 前記第1のバッファメモリからの出力と前記第2のバッ
    ファメモリからの出力とを合成する合成フィルタと、 前記フレーム間引きのための前記第1の制御信号を出
    力して前記音声メモリを制御するフレーム制御手段と、 を備えることを特徴とする音声合成器。
  4. 【請求項4】 一定時間長のフレームごとに分析したス
    ペクトル情報を含む複数の音声情報パラメータを前記フ
    レーム単位で編集して合成する音声合成器において、 音声ファイルからの合成に必要な音声データを蓄えると
    ともに第1の制御信号に応じてフレーム単位でスペクト
    ル情報を出力しかつ残差を出力する音声メモリと、 前記音声メモリからのペクトル情報の予測ゲインを算
    出する予測ゲイン算出手段と、 前記音声メモリからのペクトル情報のピッチ周期を算
    出するピッチ周期算出手段と、 前記予測ゲイン算出手段からの予測ゲイン算出値を予測
    ゲインしきい値と比較判定するとともに前記ピッチ周期
    算出手段からのピッチ周期の変化量をピッチ周期変化量
    しきい値と比較判定する判定手段と、 前記音声メモリからの前記ペクトル情報を格納する第
    1のバッファメモリと、 前記音声メモリからの前記残差を格納する第2のバッフ
    ァメモリと、 前記判定手段からの判定出力により第2の制御信号を出
    力して前記第1のバッファメモリを制御するとともに第
    3の制御信号を出力して前記第2のバッファメモリを制
    御するバッファ制御手段と、 前記第1のバッファメモリからの出力と前記第2のバッ
    ファメモリからの出力とを合成する合成フィルタと、 前記フレーム間引きのための前記第1の制御信号を出
    力して前記音声メモリを制御するフレーム制御手段と、 を備えることを特徴とする音声合成器。
JP26099692A 1992-09-30 1992-09-30 音声合成器 Expired - Fee Related JP3264998B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP26099692A JP3264998B2 (ja) 1992-09-30 1992-09-30 音声合成器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP26099692A JP3264998B2 (ja) 1992-09-30 1992-09-30 音声合成器

Publications (2)

Publication Number Publication Date
JPH06110496A JPH06110496A (ja) 1994-04-22
JP3264998B2 true JP3264998B2 (ja) 2002-03-11

Family

ID=17355618

Family Applications (1)

Application Number Title Priority Date Filing Date
JP26099692A Expired - Fee Related JP3264998B2 (ja) 1992-09-30 1992-09-30 音声合成器

Country Status (1)

Country Link
JP (1) JP3264998B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4313724B2 (ja) * 2004-05-18 2009-08-12 日本電信電話株式会社 音声再生速度調節方法、音声再生速度調節プログラム、およびこれを格納した記録媒体
JP6263868B2 (ja) 2013-06-17 2018-01-24 富士通株式会社 音声処理装置、音声処理方法および音声処理プログラム
US10726851B2 (en) * 2017-08-31 2020-07-28 Sony Interactive Entertainment Inc. Low latency audio stream acceleration by selectively dropping and blending audio blocks

Also Published As

Publication number Publication date
JPH06110496A (ja) 1994-04-22

Similar Documents

Publication Publication Date Title
US7277856B2 (en) System and method for speech synthesis using a smoothing filter
KR100651957B1 (ko) 음성 인식에서 무음을 사용한 시스템
US5293448A (en) Speech analysis-synthesis method and apparatus therefor
JP3180655B2 (ja) パターンマッチングによる単語音声認識方法及びその方法を実施する装置
EP0680033A2 (en) Speech-rate modification for linear-prediction based analysis-by-synthesis speech coders
WO2005109399A1 (ja) 音声合成装置および方法
JPH1124699A (ja) 音声符号化方法及び装置
EP1355296A2 (en) Keyword detection in a speech signal
GB2370401A (en) Speech recognition
EP1355295A2 (en) Speech recognition apparatus, speech recognition method, and computer-readable recording medium in which speech recognition program is recorded
KR20040028932A (ko) 음성 대역 확장 장치 및 음성 대역 확장 방법
JPH04158397A (ja) 声質変換方式
US6910009B1 (en) Speech signal decoding method and apparatus, speech signal encoding/decoding method and apparatus, and program product therefor
JPH0632020B2 (ja) 音声合成方法および装置
US5995925A (en) Voice speed converter
JP3264998B2 (ja) 音声合成器
JP3703394B2 (ja) 声質変換装置および声質変換方法およびプログラム記憶媒体
JP2002207499A (ja) 非常に低いビット・レートで作動する音声符号器のための韻律を符号化する方法
JP2002091467A (ja) 音声認識システム
EP0421360A2 (en) Speech analysis-synthesis method and apparatus therefor
JPH0950288A (ja) 音声認識装置及び音声認識方法
JPH113099A (ja) 音声符号化復号化システム、音声符号化装置及び音声復号化装置
JP3068250B2 (ja) 音声合成器
JP2000099099A (ja) データ再生装置
JP2005352311A (ja) 音声合成装置および音声合成プログラム

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20011204

LAPS Cancellation because of no payment of annual fees