JP3307875B2

JP3307875B2 - 符号化音声再生装置および符号化音声再生方法

Info

Publication number: JP3307875B2
Application number: JP08817598A
Authority: JP
Inventors: 主識加藤; 元康大野
Original assignee: 松下電送システム株式会社
Priority date: 1998-03-16
Filing date: 1998-03-16
Publication date: 2002-07-24
Anticipated expiration: 2018-03-16
Also published as: JPH11265200A; US6266632B1

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、ＩＴＵ−Ｔ勧告
Ｇ．７２３．１及びＣＥＬＰ（Code Excited Linear
Prediction）系符号化の音源パラメータ情報に基づい
て符号化したデジタル音声データを再生する為の符号化
音声再生装置、および符号化音声再生方法に関するもの
である。

【０００２】

【従来の技術】音声をデジタル符号化する技術に関する
勧告に、ＩＴＵ−Ｔ勧告Ｇ．７２３．１があり、主にア
ナログ回線向けテレビ電話システムのＩＴＵ−Ｔ勧告H.
３２４の音声コーデックとして使用されている。この音
声符号化は6.3kbps／5.3kbpsのデュアルレートで符号化
されるものあり、その符号化方法とは音声信号から人の
発声メカニズムのモデル化を行うものである。

【０００３】以下、その符号化動作を図１１の機能ブロ
ック図に基づいて説明する。

【０００４】音声が入力されると、ＬＰＣ分析部１１０
１で、人間の声道（のどの形状）をモデル化し、線形予
測を行ない、ＬＳＰ量子化部１１０４で量子化を行な
う。この部分でモデル化された音声のパラメータの一つ
であるＬＳＰ情報が生成される。次に、聴感重み付けフ
ィルタ１１０２により、入力された音声の周波数特性を
変形し、聴感性を向上させる。このフィルタ１１０２を
通したデータに基づいてピッチ評価部１１０３が音声デ
ータのピッチを算出する。

【０００５】また同時に、ハーモニックノイズフィルタ
１１０５で雑音などを閾値以下に治まるように歪みを調
整して、音声の品質を整える。ピッチ予測部１１０６で
は、前処理の音声データをフィードバックさせ、この前
処理の音声データ、及び現処理のピッチに基づいて最適
なピッチを算出し、ピッチ情報（ピッチ長、及び有声
音、無声音を判定するためのインデックス）を生成す
る。このピッチに基づいて、音源パラメータ生成部で音
源パラメータMampを生成する。また、この音源パラメー
タは疑似デコーダ部１１０８に入力され、一旦デコード
し、ピッチ予測部１１０６に次の音声データのためにフ
ィードバックされ、次のデータのピッチを最適なものと
なるようにする。

【０００６】このように、ＩＴＵ−Ｔ勧告Ｇ７２３．１
による符号化では、ＬＳＰ情報、ピッチ情報、音源パラ
メータMampが生成され、これら情報が回線を介して通信
され、受信側ではこれを復号化することにより音声とし
て再生することができる。

【０００７】これを再生する場合には、ＬＳＰ復号部１
１２１にＬＳＰ情報が、ピッチ再生部１１２２にはピッ
チ情報が、音源パラメータ再生部１１２３には音源パラ
メータMampがそれぞれ入力され、合成フィルタ１１２４
により、合成され、聴感重み付けフィルタ１１２５によ
り聴感性をよくするための補正を行ない、音声として再
生される。

【０００８】上述したように、ＩＴＵ−Ｔ勧告Ｇ７２
３．１は、音声データを複数のパラメータに符号化（モ
デル化）することができるものであり、また復号化する
ときはこの複数のパラメータに基づいて復号化し、音声
を再生することができるものである。

【０００９】これら符号化方法は、ＣＥＬＰ（Code Ex
cited Linear Prediction）といわれる符号化方法の
一つである。ＣＥＬＰ系符号化方法は、音声の生成過程
をモデル化する符号化方法と波形符号化方法との両方の
特性を有する符号化方法であり、ＩＴＵ−Ｔ勧告Ｇ７２
３．１符号化方法と同様に音源パラメータを生成する符
号化方法である。

【００１０】

【発明が解決しようとしている課題】ＩＴＵ−Ｔ勧告Ｇ
７２３．１による音声の符号化方法では、電話回線など
を介して音声を通話録音する際、回線の劣化などによ
り、お互いの話者のボリューム（音量）に相違が発生す
る。つまり、一方の話者の声が大きく録音され、もう一
方の話者の声は小さく録音されるため、これを符号化
し、音声として再生する時には聴き辛い音声となってい
た。

【００１１】このことは、もともとの音声にボリューム
差があるために生ずる問題であった。これを防止するた
めには、小音量の音声の利得を制御し、ゲインコントロ
ールすれば良い。このゲインコントロール方法には、以
下の方法が挙げられる。

【００１２】まず大音量、小音量が混在している音声を
再生し、波形化する。そして、音声波形をサンプリング
し、そのサンプリングしたエネルギーを算出する。この
サンプル毎のエネルギーを利得制御し、大音量の音声は
そのままに、小音量の音声は大音量と同じぐらいのエネ
ルギーをもつよう利得制御する。

【００１３】このように、大音量、小音量が混在してい
る音声の小音量の音声の利得を制御することにより、再
生される音声の音量を均一にすることができる方法を、
ＩＴＵ−Ｔ勧告Ｇ７２３．１の符号化音声を再生する場
合に適用することが考えられる。

【００１４】しかしながら、この方法には以下の課題が
ある。

【００１５】すなわち、一度音声を再生し、音声波形を
サンプリングすることが必要であり、このサンプリング
は木目細かにする必要があるため、サンプリング個数が
大量になってしまう。そのため、サンプリングしたデー
タを保持する記憶容量を多く取る必要があったり、また
大量のサンプリングデータを利得制御するための演算量
が莫大なものとなり、ＣＰＵの負荷が大きくなったり、
また再生速度が遅くなったりするものであった。

【００１６】本発明は、上述の課題を解決するために、
ＩＴＵ−Ｔ勧告Ｇ７２３．１により符号化された音声デ
ータを、特に通話録音を行なうときのように、それぞれ
の話者の音声の音量に相違のある音声を再生するための
演算量を少なくし、かつ聞きやすい音声に再生するため
の符号化音声再生装置を実現することを目的とする。

【００１７】

【課題を解決する為の手段】本発明は上述の課題を解決
するため、以下の構成を備える。

【００１８】請求項１記載の符号化音声再生装置の発明
は、ＩＴＵ勧告Ｇ．７２３．１に規定される符号化パラ
メータ、またはＣＥＬＰ系符号化パラメータから構成さ
れる符号化音声データを再生する再生手段と、前記パラ
メータの一つである音源パラメータに基づいて算出した
エネルギー値と予め定められているゲインパラメータと
に基づいて音声の音量を補正する補正手段とを備え、前
記エネルギー値は下式により算出され、Ｅｎｅｒ _n+1 ＝Ｍａｍｐ _n+1 ＋（（Ｘ−１）／Ｘ）・Ｅｎｅｒ _n （但し、Ｍａｍｐは音源パラメータ、Ｅｎｅｒは音源パ
ラメータのエネルギー、ｎはサブフレームの個数、Ｘは
任意の数値）前記補正手段は、前記エネルギー値が所定
範囲内にあるときのみ、前記ゲインパラメータを用いて
音量の補正を行なう構成とした。

【００１９】この構成により、音源パラメータに基づい
て算出したエネルギー値と予め定められているゲインパ
ラメータとに基づいて符号化された音声を補正すること
により、聞き取りやすい音声に補正することができる。
さらに、音源のエネルギー値が所定範囲に有るときのみ
補正するようにしているため、ノイズなどを補正するこ
となく、また、大きい音量のときにはオーバーフローす
ることなく、さらに聞き取りやすい音声に補正すること
ができる。また、上式における（Ｘ−１）／Ｘとは、Ｉ
ＩＲ型フィルタにおいてＸサブフレーム分のMampエネル
ギーEnerの和をとったときのその修正値を示すものであ
る。通常、Ｘサブフレーム分のMampエネルギーEnerの和
を算出するときには、１からＸサブフレーム目までのMa
mpエネルギーEnerをメモリなどに保持し、この和を算出
し、次のサブフレームを処理するときには２から（Ｘ＋
１）サブフレームまでを算出する。このとき、１サブフ
レーム目を除去し、（Ｘ＋１）サブフレーム目を加算す
ることにより、２から（Ｘ＋１）サブフレーム目までの
和を算出することができる。しかし、この方法では演算
量が多くなる。そこで、ＩＩＲ型フィルタで代用した場
合、ＩＩＲ型フィルタでの（Ｘ−１）／Ｘは、そのとき
の最初のサブフレーム分を除去するために、その値を間
引きするための係数である。これを用いることにより、
所定区間のデータの総和を順次算出する際、簡易に行な
うことができる。

【００２０】

【００２１】

【００２２】請求項２記載の発明は、請求項１記載の符
号化音声再生装置において、前記エネルギー値は音源パ
ラメータをＩＩＲ型フィルタを通して生成されることを
特徴とする。請求項３記載の発明は、請求項１又は請求
項２記載の符号化音声再生装置において、前記Ｘは４０
であることを特徴とする。このサブフレーム数が、少な
い数（例えば、２０サブフレーム、係数が１９／２０）
では、MampエネルギーEnerが極端に増減し、音声の切れ
目で後に説明する下限値以下になる場合があり、ＡＧＣ
制御のオン／オフが頻繁になり、好ましくない。逆にあ
まりに大きい数（例えば６０サブフレーム、係数が５９
／６０）では、そのMampエネルギーEnerの変動が小さく
上限値、及び下限値の閾値の取り方が難しい。ここでの
４０サブフレーム、３９／４０という係数はその中で適
切な値となっている。請求項４記載の発明は、請求項か
ら１乃至３記載の符号化音声再生装置において、前記補
正手段は、サブフレーム単位に音声データの補正を行
い、補正する毎に前記所定範囲内で任意に設定された目
標値に近似するようゲインパラメータを増減させる構成
を備えたものである。この構成により、音源のエネルギ
ー値が所定範囲にあるときのみ補正するようにしている
ため、ノイズなどを補正することなく、また、大きい音
量のときにはオーバーフローすることなく、さらに聞き
取りやすい音声に補正することができる。

【００２３】この構成により、サブフレーム単位に再生
音声を補正することができ、徐々に補正することによ
り、違和感のない聞き取りやすい音声に補正することが
できる。

【００２４】請求項５記載の発明は、請求項４記載の符
号化音声再生装置において、所定の周期性を有する音を
検出したときには、前記目標値を減算し、小さい値とす
る構成を備えたものである。

【００２５】この構成により、所定の周期性を有する
音、つまりＰＢトーン、又は単一周波数を検出したとき
には、それら音に適した補正処理を行ない、オーバーフ
ローを起こさないよう処理することができる。

【００２６】請求項６記載の発明は、請求項１乃至５記
載の符号化音声再生装置の発明において、前記補正手段
は、ゲインパラメータを増加させるときの増加量は大き
く、減少させるときの減少量は小さい特性を有するゲイ
ンパラメータを用いて補正する構成を備えたものであ
る。

【００２７】この構成により、音量を上げるときには急
激に上がり、下げるときには徐々に下がるため、再生音
声をレスポンスよく補正することができ、さらに聞き取
りやすい音声に補正することができる。

【００２８】請求項７記載の発明は、請求項１乃至６記
載の符号化音声再生装置において、前記補正手段は、ゲ
インコントロールによる補正停止時には、サブフレーム
単位の補正処理毎にゲインパラメータを徐々に減少させ
ることにより、徐々に補正を停止するという構成を備え
たものである。

【００２９】この構成により、補正処理における補正の
度合いを徐々に減少させるため、補正処理データと補正
無しデータとの境をなくすことができ、聞き取りやすい
音声に補正することができる。

【００３０】

【００３１】

【００３２】これら補正の具体的な演算式として、請求
項８に記載されるように、前記補正手段は、ゲインパラ
メータの変動の影響を減少させる数値ａを用いた演算式
（ｂ＋ａ×ゲインパラメータ（ａ＝０．２、ｂ＝０．
８））を補正係数とする。さらに具体的には、ａがゲイ
ンパラメータの値に対して適度に影響を及ぼすようａ＝
０．２程度にすると都合がよく、これに基づいて、ｂ＝
０．８とすればよい。

【００３３】請求項９記載の発明は、請求項１乃至８記
載の符号化音声再生装置において、ノイズ区間、又は無
声音区間を検出する検出手段とを備え、このノイズ区
間、無声音区間では補正を行わない構成を備えたもので
ある。

【００３４】この構成により、無声音区間であるノイズ
区間では補正を行なわないようにしているため、ノイズ
を補正することなく、聞き取りやすい音声に補正するこ
とができる。

【００３５】請求項１０記載の発明は、請求項９記載の
符号化音声再生装置において、前記ノイズ認識手段は、
サブフレーム単位に隣接する音源パラメータのエネルギ
ーの差分を検出する差分検出手段と、この差分を過去に
おける所定サブフレーム分の和を算出し、この和を所定
数で除算処理を行なう第１の算出手段と、前記差分が所
定値以内であるものの過去における所定サブフレーム分
の和を算出する第２の算出手段と、この第１の算出手段
と第２の算出手段とを比較し、第２の算出手段による結
果が第１の算出手段による結果より大きいサブフレーム
をノイズ区間と認識する手段という構成を備えたもので
ある。

【００３６】この構成により、ノイズ区間は隣接する差
分に余りなく、小さい値が算出され、この値が、音源パ
ラメータのエネルギーにおける隣接する差分の所定サブ
フレーム分の値を適当に除算処理した値より小さいとき
にはノイズ区間と判別することができ、ノイズ区間を容
易に検出することができる。

【００３７】請求項１１記載の発明は、請求項９又は１
０記載の符号化音声再生装置において、前記ノイズ認識
手段は、音声区間からノイズ区間への移行を判別すると
きは所定数のサブフレームを用いて決定し、ノイズ区間
から音声区間への移行を判別するときには、１サブフレ
ームで決定する構成を備えたものである。

【００３８】この構成により、ノイズ区間から音声区間
へ移行するときの判別を１サブフレームで決定すること
により、ゲインコントロールを即座に行なうことがで
き、聞取りやすい音声に補正することができる。。

【００３９】請求項１２記載の発明は、請求項１乃至１
１記載の符号化音声再生装置において、所定の周期性を
有する音を認識する認識手段と、この認識結果により再
生される音に所定の周期性を有すると認識した場合に
は、あらかじめ定められた所定の周期性を有する音に適
したゲインコントロールによる補正を行う制御手段とい
う構成を備えたものである。

【００４０】この構成により、ＰＢトーンなどの単一周
波数を検出したときにはゲインコントロールを低めに行
なうため、極端に音が大きくなるなどの不都合がなく、
聞き取りやすい音声に補正することができる。

【００４１】請求項１３記載の発明は、請求項１２記載
の符号化音声再生装置において、前記ノイズ認識手段
は、音声波形における波形エネルギーが所定値以上であ
り、音源パラメータのエネルギー値が所定範囲にあると
きにはＰＢトーン、又は単一周波数と判別する構成を備
えたものである。

【００４２】この構成により、音声波形の波形エネルギ
ー、音源パラメータのエネルギーに基づいて、ＰＢトー
ンなどの単一周波数であることを認識することができ、
ゲインコントロールのための補正を適正に行なうことが
できる。

【００４３】請求項１４記載の発明は、請求項１２又は
１３記載の符号化音声再生装置において、ゲインパラメ
ータ特性を表す演算式を複数記憶する記憶手段を備え、
前記ノイズ認識手段が再生音声データをＰＢトーン又
は、単一周波数と認識した場合には、緩やかに増加する
ゲインパラメータ特性を有する演算式を用い、通常音声
と認識した場合には、急激に増加するゲインパラメータ
特性を有する演算式を用いることにより、ゲインパラメ
ータの特性を変える構成を備えたものである。

【００４４】この構成により、ＰＢトーン、または単一
周波数であることを認識したときには、ゲインパラメー
タの特性を変えることにより、ゲインコントロールの補
正増加量、または減少量を押さえ気味に制御するため、
聞き取りやすい音声に補正することができる。

【００４５】請求項１５記載の符号化音声再生装置の発
明は、入力した音声データのエネルギー値をＩＴＵ勧告
Ｇ．７２３．１に規定される符号化パラメータ、または
ＣＥＬＰ系符号化パラメータの一つである音源パラメー
タに基づいて下式により算出するエネルギー算出手段
と、このエネルギーが所定範囲外の時には、利得制御を
行なわず、所定範囲内の時には、利得制御を行なうとと
もに、利得幅の増減を制御した補正量で、音声データを
補正する補正手段とを備え、これをサブフレーム単位で
順次処理する構成を備えたものである。Ｅｎｅｒ _n+1 ＝Ｍａｍｐ _n+1 ＋（（Ｘ−１）／Ｘ）・Ｅｎｅｒ _n 但し、Ｍａｍｐは音源パラメータ、Ｅｎｅｒは音源パラ
メータのエネルギー、ｎはサブフレームの個数、Ｘは任
意の数値を示す。

【００４６】この構成により、サブフレーム単位に音声
データのエネルギー値に基づいて、利得制御の増減幅を
変えることで、適切なゲインコントロールのための補正
処理を実現することができる。

【００４７】

【００４８】

【００４９】請求項１６記載の符号化音声再生方法の発
明は、方法の発明であり、入力した音声データのエネル
ギーをＩＴＵ勧告Ｇ．７２３．１に規定される符号化パ
ラメータ、またはＣＥＬＰ系符号化パラメータの一つで
ある音源パラメータに基づいて下式により算出し、この
エネルギー値が所定範囲にあるとき、利得制御を行な
い、利得幅の増減を制御した補正量で、サブフレーム単
位に順次補正するものである。Ｅｎｅｒ _n+1 ＝Ｍａｍｐ _n+1 ＋（（Ｘ−１）／Ｘ）・Ｅｎｅｒ _n 但し、Ｍａｍｐは音源パラメータ、Ｅｎｅｒは音源パラ
メータのエネルギー、ｎはサブフレームの個数、Ｘは任
意の数値を示す。

【００５０】この構成により、入力した音声データのエ
ネルギー値に基づいて利得幅を制御をサブフレーム単位
に行なうことができ、適切なゲインコントロールのため
の補正を行なうことができる。

【００５１】

【発明の実施の形態】以下、本発明の実施の形態１につ
いて、図面を参照して説明する。

【００５２】図１は、本発明の符号化音声再生装置を用
いたテレビ会議システム装置におけるハードブロック構
成図である。

【００５３】図において、モデム部１０１は電話回線か
らのデータを受信し、Ｇ７２３．１符号復号部１０２は
モデム部１０１で受けたデータに基づいてＬＳＰ情報、
ピッチ情報、音源パラメータに符号化する。ここで、Ｌ
ＳＰ情報とは、人間で言うと声道のモデル化を行ってい
る部分で、ＬＰＣ合成(Linear Predictive Coding)に
より線形予測を行い、更にＬＳＰ係数（Line Spectrum
Pair）により量子化がなされている情報であり、ピッ
チ情報とは、人間で言うと声帯振動に相当する部分で、
聴覚重み付きした入力音声を用いた開ループ探索と、入
力音声と合成音声の歪みを計算する閉ループ探索の２段
階によって計算される情報であり、音源パラメータと
は、人間で言うとピッチ成分以外の音源情報に相当する
部分で、ピッチ成分等を取り除いた残留信号や、インパ
ルス応答等を用いて、サブフレーム単位に５又は６本の
音源パラメータのインデックス及びゲインが計算されて
いるものである。

【００５４】メモリ部１０３は、符号化されたパラメー
タをそれぞれ記憶するものであり、具体的には、例えば
これは通話録音を行なうためのＩＣメモリなどのデジタ
ル録音できるメモリである。ここまでが、入力された音
声を符号化するための処理である。

【００５５】これを音声として再生する場合は、Ｇ７２
３．１符号復号部がメモリ部１０３に記憶されている上
記パラメータを読み出し、復号化する。復号化された音
声はデジタル音声として出力され、オートボリュームコ
ントロール部１０４に入力される。

【００５６】オートボリュームコントロール部１０４
は、後述する式を用いて上記パラメータの一つである音
源パラメータMampのエネルギーであるMampエネルギーEn
erを算出する。そして、算出したMampエネルギーEnerを
所定値に近づけるよう演算処理をサブフレーム単位に行
ない、徐々に音量を増大、または減少させるよう制御す
る。そして、スピーカ部１０５が音声として再生出力す
る。

【００５７】パネル部１０６は、音声を録音、または再
生するときの指示ボタン、電話をかけるためのテンキー
などからなるものである。ハンドセット１０７は、通話
するためものであり、ハンドセットの代わりにマイクで
も良い。画像処理部１０８は、モデム部１０１を介して
外部から送られる画像を処理し、表示部１０９は画像処
理部８で処理された画像を表示するものである。制御部
１１０は、これらモデム部１０１〜表示部１０９までを
総括的に制御するものである。

【００５８】次に、オートボリュームコントロールにつ
いて、図を参照して説明する。図２は、上記実施の形態
における符号化音声再生装置におけるオートボリューム
コントロール部１０４の機能ブロック図である。

【００５９】電話回線からＧ７２３．１勧告に基づいて
符号化されたデジタル音声（ＬＣＰ情報、ピッチ情報、
音源パラメータMamp）が送られ、これら情報がメモリ部
１０３に記憶される。

【００６０】これを再生する場合、Ｇ７２３．１符号復
号部１０２により復号し、再生音声として出力し、オー
トボリュームコントロール部１０４に再生音声は入力さ
れる。エネルギー抽出部２０１は、Ｇ７２３．１の勧告
に基づいて符号化されたときに算出された音源パラメー
タMampのエネルギー値を抽出する。

【００６１】エネルギー値判定部２０２は、ここで算出
したエネルギー値を所定範囲内にあるエネルギー値であ
るか判定する。

【００６２】ゲインコントロール部２０３は、エネルギ
ー判定部２０２がエネルギー値が所定範囲内にあると判
別したときに、ゲインパラメータ設定部２０５に設定さ
れているパラメータに基づいて、再生されたデジタル音
声のゲインコントロールを行なう。そして、音声再生部
２０６はゲインコントロールされた音声を再生する。

【００６３】また、差分検出部２０４は、サブフレーム
単位に隣接している音源パラメータのエネルギー値の差
分をみて、この差分が所定範囲内に有るときにはノイズ
と判定する。このとき、差分検出部２０４は、ゲインコ
ントロール部２０３に対してゲインコントロールしない
よう制御する。

【００６４】以上のように構成された符号化音声再生装
置について、その動作を図３、図４、図９、図１０に沿
って説明する。

【００６５】まず、基本的な動作である、音源パラメー
タMampから生成されるMampエネルギーEnerが所定範囲に
あるとき、あらかじめ定められている目標値に近似する
ようゲインコントロールするときの方法を、図３に沿っ
て詳細に説明する。

【００６６】ＩＴＵ−Ｔ勧告G７２３．１における音声
符号化の処理単位は３０msecのフレーム長で、更に４つ
に分割した処理を７．５msecのサブフレーム長としてい
る。以下に説明する処理は１サブフレーム(7.5msec)単
位で行うものである。

【００６７】まず、ＳＴ３０１では、ＩＴＵ−Ｔ勧告G
７２３．１によりモデル化されたパラメータの一つであ
る音源パラメータMampのエネルギーであるMampエネルギ
ーEnerを式１により算出する。なお、nはサブフレーム
の個数単位を表す。また、Mampは演算対象となっている
サブフレームのものである。

【００６８】 Ener_n+1＝Mamp_n+1＋３９／４０Ener_n （１）式（１）における３９／４０とは、ＩＩＲ型フィルタに
おいて４０サブフレーム分のMampエネルギーEnerの和を
とったときのその修正値を示すものである。通常、４０
サブフレーム分のMampエネルギーEnerの和を算出すると
きには、１から４０サブフレーム目までのMampエネルギ
ーEnerをメモリなどに保持し、この和を算出し、次のサ
ブフレームを処理するときには２から４１サブフレーム
までを算出する。このとき、１サブフレーム目を除去
し、４１サブフレーム目を加算することにより、２から
４１サブフレーム目までの和を算出することができる。

【００６９】しかし、この方法では演算量が多くなるた
め、現在ではＩＩＲ型フィルタといわれるもので代用し
て行われている。ＩＩＲ型フィルタでの３９／４０は、
そのときの最初のサブフレーム分を除去するために、そ
の値を間引きするための係数である。これを用いること
により、所定区間のデータの総和を順次算出する際、簡
易に行なうことができる。

【００７０】このサブフレーム数が、少ない数（例え
ば、２０サブフレーム、係数が１９／２０）では、Mamp
エネルギーEnerが極端に増減し、音声の切れ目で後に説
明する下限値以下になる場合があり、ＡＧＣ制御のオン
／オフが頻繁になり、好ましくない。逆にあまりに大き
い数（例えば６０サブフレーム、係数が５９／６０）で
は、そのMampエネルギーEnerの変動が小さく上限値、及
び下限値の閾値の取り方が難しい。ここでの４０サブフ
レーム、３９／４０という係数はその中で適切な値とな
っている。

【００７１】次に、ＳＴ３０２では、MampエネルギーEn
erが所定範囲内にあるか、否かを判別する。ここでの所
定範囲とは、下限値はノイズとの境目を示す値であり、
上限値はデジタル信号でのオーバーフローを起こさない
ための値であり、具体的には演算処理に用いるレジスタ
の上限値である。MampエネルギーEnerが所定範囲内にあ
ると、ＳＴ３０３でオートゲインコントロールをオンと
する。MampエネルギーEnerが所定範囲外にあると、ＳＴ
３０６でオートゲインコントロールをオフとする。

【００７２】ＳＴ３０３でオートゲインコントロールを
オンとすると、ＳＴ３０４、ＳＴ３０５、ＳＴ３０７で
ゲインコントロールを行なう。ＳＴ３０４では、Mampエ
ネルギーとゲインパラメータAGainとの乗算結果が、あ
らかじめ定められている目標値以下であるかを判別す
る。

【００７３】ＳＴ３０４でMampエネルギーEner×AGain
が目標値以下であると、ゲインアップ処理を行なうた
め、ＳＴ３０５に移行する。この目標値は、上述の下限
値以上、上限値以下の所定範囲にある値であり、具体的
な値は上述の上限値の１／３から１／２ぐらいの値が適
切な値となる。

【００７４】ＳＴ３０５では、以下に示す式（２）、式
（３）、式（４）に基づいて補正のためのゲインパラメ
ータAGainを決定する。式（２）は、ゲインパラメータA
Gainの増加量GainUpStepを示すものであり、サブフレー
ム単位に１増加するように定める。式（３）はゲインパ
ラメータを減少させるときに、その減少量GainDownStep
を定めるものであり、初期値として０が設定されてい
る。式（４）は式（２）で算出された増加量GainUpStep
を１６で割った値をゲインパラメータAGainに加算し、
ゲインパラメータAGainを算出する。このようにゲイン
アップ処理時には、ゲインパラメータAGainをサブフレ
ーム処理毎に増加させている。

【００７５】そして、ＳＴ３０８では、式（４）で算出
したゲインパラメータAGainを式（８）に代入し、最終
出力の音声を計算し、これを出力する。この式（８）の
各値は実験によりａ＝０．２、ｂ＝０．８が適切な値と
なっている。また、ゲインパラメータの影響より元のデ
ータの影響の方をより強く受けるように、ゲインパラメ
ータにかかる係数ａはｂよりはるかに小さい値となって
いる。

【００７６】また、ＳＴ３０４で目標値以上であると判
別すると、ゲインダウン処理を行なうためにＳＴ３０７
に移行する。ＳＴ３０７では、式（５）、式（６）、式
（７）に基づいて補正のためのゲインパラメータAGain
を決定する。

【００７７】式（５）では、増加時に使用した増加量Ga
inUpStepを現状のまま保持する。式（６）は、ゲインパ
ラメータAGainを減少させるための減少量を定めるため
のものであり、サブフレーム単位に減少量を１増加させ
ている。式（７）では、式（６）で算出したGainDownSt
epを６４で割った値をゲインパラメータAGainから減算
し、減少時のゲインパラメータAGainを算出する。そし
て、ＳＴ３０８で、算出したゲインパラメータAGainを
式（８）に代入し、データを補正する。

【００７８】これらゲインパラメータAGainはゲインパ
ラメータ設定部４０５に設定され、保持される。

【００７９】また、ＳＴ３０２でMampエネルギーEnerが
所定範囲外であるときには、ＳＴ３０６に移行する。Ｓ
Ｔ３０６では、ゲインコントロールをオフとし、補正処
理を行なわないようにする。しかし、直ちに補正を止め
ると、再生音声に違和感がでるため、徐々に補正量を減
少させるために式（９）を用いて、ゲインパラメータAG
ainを減少させ、ゲインパラメータが１となるまでこの
処理をサブフレーム単位に繰り返す。ここで、減少値は
所定の定数である。また、ゲインパラメータAGainが１
以下になると、１として演算処理し、減算処理を終了す
る。そして、上述と同様にＳＴ３０８では、ここで算出
したゲインパラメータAGainを用いて補正処理を行な
う。この制御により、緩やかに補正量を減少させ、補正
無しの状態に移行することができ、聞きやすい音声に補
正することができる。

【００８０】（増加時） GainUpStep＝GainUpStep＋１（２） GainDownStep＝０（３） AGain_n+1＝AGain_n＋GainUpStep／１６（４）（減少時） GainUpStep＝GainUpStep （５） GainDownStep＝GainDownStep＋１（６） AGain_n+1＝AGain_n−GainUpStep／６４（７）（補正処理時） Data＝Data（ｂ＋ａ×ＡGain）（但し、ａ＋ｂ＝１）（８）（補正停止時） AGain_n+1＝AGain_n−減少値（９）なお、ゲインパラメータの増加時の立ち上がり(GainUp)
は鋭く（増加量が大きく）、減少時の立ち下がり(GainD
own)は緩やか（減少量が小さく）な特性を有している。
これにより、音声が入力されてからただちにゲインコン
トロールが機能し、相手の音量と自分の音量との相違が
あり、音量の低い音声を即座に、もう一方の音声の音量
と同じレベルまでに引き上げることができ、全体的に聞
き取りやすい音声を再生することができる。

【００８１】次に、音声と音声との間の無音区間、及び
ノイズ区間でのゲインコントロール方法について図４乃
至８を用いて説明する。

【００８２】デジタル音声データの中には無音区間、ノ
イズ区間などの無声音区間（音声ではない区間）が、通
常の音声データともに存在しており、図３の方法では、
無音区間、ノイズ区間まで補正してしまう。この為、本
発明では、無音区間、ノイズ区間を検出して、その区間
は補正処理をしないように制御することが必要である。

【００８３】まず、無音区間、およびノイズ区間の検出
方法を図５に基づいて説明する。図５において、点線が
MampエネルギーEner、実線が音源パラメータMampの変動
を表している。MampエネルギーEnerの大きい部分、つま
り、音声が存在している部分に関して音源パラメータMa
mpが追従して変動している事がわかる。図5では、１サ
ブフレームから１４０１サブフレームまでの、Mampエネ
ルギーEner、音源パラメータMampとの関係を示してい
る。この特徴を利用して、サブフレーム単位に隣接する
ものの差分を検出することにより無音区間、およびノイ
ズ区間を検出する。

【００８４】図７は、図５における１サブフレームから
４２サブフレームまでを拡大して表したグラフ図であ
る。この図において、隣接するサブフレームの差分を図
８に示すように算出する。例えば、は1サブフレーム
と２サブフレームとの差を図に示したものであり、1サ
ブフレームの音源パラメータMampは０、2サブフレーム
の音源パラメータMampは１２００であり、この差を図示
したものである。この長さは大体１２００である。は
同様に、２サブフレームと３サブフレームとの差を図示
したものであり、これをの４０サブフレームと４１サ
ブフレームとの差まで繰り返し、４０個分行ない、この
差分の総和とる。対象となるサブフレームの手前４０個
分の差分の総和をサブフレーム単位にグラフ化したもの
が図６の点線部分である。このため、1サブフレームか
ら４０サブフレームまでは、手前４０サブフレームをと
ることができないため、その値は０である。

【００８５】図６において、点線が1サブフレーム単位
の隣接するMampの差分の４１サブフレーム間の積和値を
４分の１にした値である。実線は１サブフレーム単位の
隣接するMampの差分が８以下のものの４１サブフレーム
間の積和値を示すものである。点線部分は、差分８以下
とのスライスレベル比較する為に４分の１にしている。

【００８６】このとき、数回（数サブフレーム分）続け
て式（１０）の条件を満たしたときに無音区間、あるい
はノイズ区間と判定する。これは、ノイズ、または無音
の音源パラメータMampは、その変動が少なく、差分が８
以下のものが多い。そのため、対象サブフレームの手前
４１サブフレーム分の差分が８以下のものの総和をとる
と、それなりに大きい値となる。

【００８７】逆に普通の音声は音源パラメータのMampの
変動は大きく、差分が８以下のものはあまりなく、対象
サブフレームの手前４１サブフレーム分の差分が８以下
のものの総和をとってもその値は小さい値のものとな
る。これを利用して差分８以下の４１サブフレーム分の
総和がある程度大きいものをノイズと判別する。

【００８８】ここで、ある程度大きい値とは、対象サブ
フレームの手前４１サブフレーム分の差分の総和値を４
分の１にした値であることが、実験により適切であるこ
とが分かっている。ここでその条件を数回連続して満た
すことで、誤認識を防止することができる。なお、ここ
でのの差分が８以下、４分の１という値は実験から得た
適切な値であり、適宜変更可能なものであり、ノイズレ
ベルに応じて、差分のサブフレーム数、スライスレベ
ル、差分８以下等の数値は可変設定可能なものとする。

【００８９】また、ノイズ区間から音声区間への切替の
ときの判定は即座に行なう。これは音声への補正を即座
に行ないたいためである。

【００９０】全体の差分の総和／４≦差分８以下の総和（１０）以下、図４のフロー図に基づいて無音区間、あるいはノ
イズ区間での補正処理の動作を詳細に説明する。無音区
間、ノイズ区間は音源パラメータMampで表す上では、同
じ意味をなす。なお、図３と同じ処理については説明を
省略する。

【００９１】ＳＴ４０１では、MampエネルギーEnerを抽
出した後に、上述した方法で無音区間、あるいはノイズ
区間であるか否かを判別する。ここで差分制御で無音区
間、あるいはノイズ区間でないと判別した場合は、ＳＴ
４０２へ移行し、Nonv = 1とし、無音区間、あるいは
ノイズ区間と判定した場合には、ＳＴ４０３に移行し、
フラグNonvをNonv = 0とする。

【００９２】ＳＴ４０４では、MampエネルギーEnerが所
定範囲内にあることを判定する。MampエネルギーEnerが
所定範囲内にある時にはＳＴ４０５に移行する。

【００９３】ＳＴ４０５では、ＳＴ４０２、ＳＴ４０３
で設定したフラグNonv＝１であるか、否かを判定する。

【００９４】ＳＴ４０５で、Nonv＝１であると判定され
るとＳＴ４０６に移行し、ゲインコントロールを行な
う。また、ＳＴ４０４で、MampエネルギーEnerが所定範
囲外のとき、ＳＴ４０５で、フラグNonv＝０のとき、Ｓ
Ｔ４０７に移行し、ゲインコントロールをしないよう制
御する。

【００９５】以下、図３と同様に処理され、ゲインパラ
メータAGainを増減させることで、目標値に近似させる
ように制御し、これをサブフレーム単位に繰り返し処理
する。

【００９６】以上、音声の特徴である音源パラメータMa
mpの変動を使用した差分判定による処理を行う事によ
り、無音区間、およびノイズ区間を検出する事が可能と
なる。これにより、無音区間、およびノイズ区間では補
正処理をせず、ノイズを持ち上げずに違和感のない出力
音声を得る事ができ、聞き取りやすい音声を再生するこ
とができる。

【００９７】次に、ＰＢトーン、または単一周波数であ
る音（音声）を扱うときの処理を図９、及び図１０に基
づいて説明する。これら音は通常は扱われないが、操作
者の操作ミスなどでプッシュボタンを押下することによ
り、ＰＢトーンを発信することがある。このため、ＰＢ
トーンまでもオートボリュームコントロールすることに
より、違和感のある音声を再生してしまう。

【００９８】具体的には、符号化情報のパラメータにお
いて、ＰＢトーン、または単一周波数は音源パラメータ
Mamp情報よりも、周期性を表す情報であるピッチパラメ
ータに依存している。従って、その影響により大きな振
幅のＰＢトーンまたは単一周波数に対して、小さなMamp
エネルギーEnerを得て、必要以上のゲイン補正を行って
しまう。

【００９９】また一方、音源パラメータMampの変動が小
さいと、上述の差分判別処理によりノイズ区間と判別し
てしまうという問題が生じる。この事は単一周波数だけ
でなく、ＰＢトーンのＡＧＣ補正が正常に動作できなく
なる原因になる。

【０１００】以下、ＰＢトーン、単一周波数をオートボ
リュームコントロールするための処理を図９、図１０の
フロー図に基づいて説明する。

【０１０１】まず、図9の前半のフロー図に沿って説明
する。

【０１０２】ＳＴ９０１では、ＩＴＵ−Ｔ勧告Ｇ７２
３．１により符号化された音声情報を復号化する。

【０１０３】ＳＴ９０２では、有声音、無声音を判定す
るためのインデックスInterIndxの判別を行ない、その
判別に基づいてＳＴ９０３、ＳＴ９０４のいずれかに移
行する。インデックスInterIndxとは、ＩＴＵ−Ｔ勧告
Ｇ７２３．１で符号化される際に、ピッチ情報としてピ
ッチ長とともに生成される情報であり、有声音か、無声
音かを示す情報である。

【０１０４】ＳＴ９０３は、無声音であったときに進む
ステップであり、ＳＴ９０３では、Din_Flag = 1とす
る。ＳＴ９０４は、有声音であったときに進むステップ
であり、Din_Flag＝０とする。

【０１０５】その後、図４と同様にMampエネルギーEner
を抽出し、差分算出からノイズ区間であるかを判別し、
ノイズ区間でないならNonv＝１を、ノイズ区間であるな
らNonv＝０を設定する。

【０１０６】ＳＴ９０５では、音声波形エネルギーVCEn
erを算出する。音声波形エネルギーVCEnerは、４サブフ
レーム分（３０msec）のエネルギーであり、式（１１）
により算出される。音源パラメータMampの４サブフレー
ム(30msec)分の積和値MampIntgralを式（１２）を用い
て算出する。なお、式（１１）における「波形エネルギ
ー」とは演算対象となっている１サブフレームにおける
音声波形の６０サンプルのエネルギーの総和である。

【０１０７】 VCEner_n+1＝波形エネルギー＋３／４VCEner_n （１１）

【０１０８】

【数１】式（１１）における３／４はＩＩＲ型フィルタにおい
て、サブフレームを処理する毎に４サブフレーム分のエ
ネルギーを順次算出するための係数である。ノイズの確
認を行なう場合は、４サブフレーム分見れば良い。これ
より小さい値であると、ノイズであるか否かの判別を行
なうことは難しく、大きすぎると、その演算量が大きく
なり、４サブフレームが適切な値である。

【０１０９】次に図１０の後半のフロー図に基づいて説
明する。

【０１１０】ＳＴ１００１では、音声波形エネルギーVC
Enerが所定の上限値を上回るか否かを判別する。ここ
で、音声波形エネルギーVCEnerが所定の上限値より大き
い値の場合にはオーバーフローを防ぐ為に、補正処理を
行なわないよう制御する。

【０１１１】ＳＴ１００２は、音声波形エネルギーVCEn
erが所定の上限値より小さいときに移行するステップで
あり、MampエネルギーEnerが所定範囲内にあるか否かを
判別する。ここで所定範囲内であると判別されると、Ｓ
Ｔ１００３に移行し、ＳＴ１００３では、有声音、無声
音判定のためのフラグがNonv＝１であるか、否かを判別
する。

【０１１２】ＳＴ１００３でNonv＝１でない場合、つま
りノイズ区間である場合には、ＳＴ１００４に移行す
る。ＳＴ１００４では、ＳＴ９０３、ＳＴ９０４で定義
したフラグDin_Flagを判別する。Din_Flag＝０のとき
は、さらにＳＴ１００５に移行する。

【０１１３】ＳＴ１００５では、ＰＢトーンまたは単一
周波数であるか否かを判別する。ここでは音声波形エネ
ルギーVCEnerが所定値以上であり、音源パラメータMamp
が所定値以下であるとき、つまりMampIntgralが所定範
囲内にあり、なおかつ、音声波形エネルギーVCEnerが所
定値以上の場合には、ＰＢトーンまたは単一周波数と判
別し、ＳＴ１００７に移行する。そうでなければＡＧＣ
ＯＦＦとし、補正処理を行なわない制御を行なう。

【０１１４】これにより、差分判定処理でノイズ判定し
てしまったＰＢトーンまたは単一周波数においても検知
することができ、通常ではゲインコントロールしなかっ
たＰＢトーンまたは単一周波数についてもゲインコント
ロールすることができ、聞き取りやすい音声を再生する
ことができる。

【０１１５】また、ＳＴ１００２でMampエネルギーEner
が所定範囲外にあるときには、ＳＴ１００６に進む。Ｓ
Ｔ１００６では、MampエネルギーEnerが所定範囲におけ
る下限値以下であるかを判別するとともに、ＰＢトーン
または単一周波数であるか否かを判別する。ＰＢトーン
または単一周波数の検出方法は上述したように音声波形
エネルギーVCEnerが所定値以上であり、音源パラメータ
Mampが所定値以下であるとき、ＰＢトーンまたは単一周
波数として認識し、ＳＴ１００７に移行する。

【０１１６】なお、ここでの所定値は先の所定値より大
なるものである。ＰＢトーンまたは単一周波数として認
識できないとき、またはMampエネルギーEnerが上限値以
上であるときには、ノイズと判別してAGC OFFとし、補
正処理を行なわないようにする。このように、Mampエネ
ルギーEnerの下限値以下でのＰＢトーンまたは単一周波
数検知を可能とした。

【０１１７】ＳＴ１００７では、音声データがＰＢトー
ンまたは単一周波数であると判別された場合、または音
声と判別された場合は、Mamp値が制限値内に否かを判別
する。ここでは、Mampが所定値以上ありAGCの必要があ
るか否かを判別し、必要であるならＳＴ１００８へ、不
必要であるならAGC OFFとする。

【０１１８】ＳＴ１００８では、ＳＴ９０５で算出され
た音声波形エネルギーVCEner及びMampの４サブフレーム
分の積和値MampIntgralを使用し、オバーフローの恐れ
のあるＰＢトーンまたは単一周波数であるか、つまり振
幅が中程度であるためゲインコントロールすることでオ
ーバーフローする恐れがあるかを判別する。音声波形エ
ネルギーVCEnerがある所定値を持った値よりもエネルギ
ーが大きく、かつ、積和値MampIntgralがある所定値を
持った値よりも積和値が小さい時には、中振幅のＰＢト
ーンまたは単一周波数と判別し、ＳＴ１００９に進む。

【０１１９】ＳＴ１００９ではＰＢトーンまたは単一周
波数のための制御を行なう。具体的には、目標値を決定
する為に使用されるTagFlagをインクリメントする。

【０１２０】ＳＴ１０１０に移行した場合では、音声及
び小さな振幅のＰＢトーンまたは単一周波数と判別し、
TagFlagをデクリメントする。ＳＴ１０１１では、ＳＴ
１００９、ＳＴ１０１０で設定したTagFlagを式（１
３）に用いて、目標値を設定する。式（１３）でのαは
目標値に収束する早さを調整するパラメータである。ま
た、０≦TagFlag≦任意設定とし、αとの兼ね合いで目
標値が下限値以下にならないようにする。

【０１２１】このように、目標値を可変にする事により
中振幅のＰＢトーンまたは単一周波数についてオーバー
フローを回避している。目標値＝目標値−α×TagFlag／４（１３）ＳＴ１０１２では、MampエネルギーEnerとゲインパラメ
ータAgainを乗算し、目標値に対して大であるか、小で
あるかを判別し、ＳＴ１０１３、ＳＴ１０１４のいずれ
かに移行する。

【０１２２】ＳＴ１０１３では、GainUp処理を行なう。
ここでは、音声制御処理（ＳＴ１０１０）を通過したサ
ブフレームに対しては、式（２）、式（３）、式（４）
を用いてゲインパラメータAGainを算出する。一方、単
一周波数制御処理（ＰＢトーン制御処理も含む）（ＳＴ
１００９）を通過したサブフレームに対しては、式
（２）、式（３）、式（１４）を用いてゲインパラメー
タAGainを算出する。

【０１２３】 AGain_n+1＝AGain_n＋GainUpStep／６４（１４）式（１４）を用いる理由は、波形変動の多い音声に対し
て、ＰＢトーンや単一周波数などは波形変動が少ないた
め、音声の品質を保持する為の立ち上がりの鋭いAGC処
理を使用した場合、再生時に違和感のあるＰＢトーンま
たは単一周波数になってしまうので、これを回避するた
めである。このように、GainDown時と同様な特性でGain
Upし、違和感のない単一周波数、ＰＢトーン等のＡＧＣ
処理を可能にした。

【０１２４】ＳＴ１０１４では、GainDown処理を行な
い、式（５）、式（６）、式（７）を用いてゲインパラ
メータAGainを算出する。

【０１２５】ＳＴ１０１３、ＳＴ１０１４で算出したゲ
インパラメータAGainを用いて最終音声のための演算処
理を行ない、補正された音声として出力する。

【０１２６】このようにＰＢトーンまたは単一周波数を
ノイズ区間と認識することがなく、ゲインコントロール
することで、音声を補正することができ、聞き取りやす
い音声を再生することができる。

【０１２７】

【発明の効果】本発明では上述に説明したように、ＩＴ
Ｕ−ＴのＧ．７２３．１勧告及びＣＥＬＰ系の音源パラ
メータを生成する符号化音声を再生する際に、精度良く
ゲインコントロールする事ができ、聞き取りやすい音声
を再生することができる。

【図面の簡単な説明】

【図１】本発明の符号化再生音声装置を用いたテレビ会
議システム装置のハードブロック図

【図２】上記実施形態のオートボリュームコントロール
部の機能ブロック図

【図３】上記実施形態のオートボリュームコントロール
の状態を示すフロー図

【図４】上記実施形態のノイズ区間におけるオートボリ
ュームコントロールの状態を示すフロー図

【図５】上記実施形態におけるＧ７２３．１により符号
化した際に算出されるMampエネルギーEnerとMampとの関
連を示すグラフ図

【図６】上記実施形態におけるMampの４０サブフレーム
単位の総和を算出したときの図

【図７】上記実施形態における音源パラメータMamp と
MampエネルギーEnerとの関連を示すグラフ図を拡大した
図

【図８】上記実施形態におけるサブフレーム毎に隣接す
る音源パラメータMampの差分を算出するときの説明図

【図９】上記実施形態の単一周波数を検出するときのオ
ートボリュームコントロールの状態を示す前半のフロー
図

【図１０】上記実施形態の単一周波数を検出するときの
オートボリュームコントロールの状態を示す後半のフロ
ー図

【図１１】Ｇ７２３．１勧告に関わる符号復号化処理を
行なう機能ブロック図

【符号の説明】

１０１モデム部１０２Ｇ７２３符号復号部１０３メモリ部１０４オートボリュームコントロール部１０５スピーカ部１０６パネル部１０７ハンドセット１０８画像処理部１０９表示部１１０制御部２０１エネルギー抽出部２０２エネルギー値判定部２０３ゲインコントロール部２０４差分検出部２０５ゲインパラメータ設定部２０６音声再生部１１０１ＬＰＣ分析部１１０２聴感重み付けフィルタ１１０３ピッチ評価部１１０４ＬＳＰ量子化部１１０５ハーモニックノイズフィルタ１１０６ピッチ予測部１１０７音源パラメータ生成部１１０８疑似デコーダ部１１２１ＬＳＰ復号部１１２２ピッチ再生部１１２３音源パラメータ再生部１１２４合成フィルタ１１２５聴感重み付けフィルタ

───────────────────────────────────────────────────── フロントページの続き (56)参考文献特開平７−177085（ＪＰ，Ａ) 特開平９−185396（ＪＰ，Ａ) 特開平８−30292（ＪＰ，Ａ) 特表平５−502517（ＪＰ，Ａ) (58)調査した分野(Int.Cl.⁷，ＤＢ名) G10L 19/00 - 19/14 H03M 7/30 H04B 14/04

Claims

(57)【特許請求の範囲】

【請求項１】ＩＴＵ勧告Ｇ．７２３．１に規定される
符号化パラメータ、またはＣＥＬＰ系符号化パラメータ
から構成される符号化音声データを再生する再生手段
と、前記パラメータの一つである音源パラメータに基づ
いて算出したエネルギー値と予め定められているゲイン
パラメータとに基づいて音声の音量を補正する補正手段
とを備え、前記エネルギー値は下式により算出され、Ｅｎｅｒ _n+1 ＝Ｍａｍｐ _n+1 ＋（（Ｘ−１）／Ｘ）・Ｅｎｅｒ _n （但し、Ｍａｍｐは音源パラメータ、Ｅｎｅｒは音源パ
ラメータのエネルギー、ｎはサブフレームの個数、Ｘは
任意の数値）前記補正手段は、前記エネルギー値が所定
範囲内にあるときのみ、前記ゲインパラメータを用いて
音量の補正を行なうことを特徴とする符号化音声再生装
置。
【請求項２】前記エネルギー値は音源パラメータをＩ
ＩＲ型フィルタを通して生成されることを特徴とする請
求項１記載の符号化音声再生装置。
【請求項３】前記Ｘは４０であることを特徴とする請
求項１又は請求項２記載の符号化音声再生装置。
【請求項４】前記補正手段は、サブフレーム単位に音
声データの補正を行い、補正する毎に前記所定範囲内で
任意に設定された目標値に近似するようゲインパラメー
タを増減させることを特徴とする請求項１から請求項３
のいずれかに記載の符号化音声再生装置。
【請求項５】所定の周期性を有する音を検出したとき
には、前記目標値を減算し、小さい値とすることを特徴
とする請求項４記載の符号化音声再生装置。
【請求項６】前記補正手段は、ゲインパラメータを増
加させるときの増加量は大きく、減少させるときの減少
量は小さい特性を有するゲインパラメータを用いて補正
を行なうことを特徴とする請求項１から請求項５のいず
れかに記載の符号化音声再生装置。
【請求項７】前記補正手段は、ゲインコントロールに
よる補正停止時には、サブフレーム単位の補正処理毎に
ゲインパラメータを徐々に減少させることにより、徐々
に補正を停止することを特徴とする請求項１から請求項
６のいずれかに記載の符号化音声再生装置。
【請求項８】前記補正手段は、ゲインパラメータの変
動の影響を減少させる数値ａを用いた演算式（ｂ＋ａ×
ゲインパラメータ（ａ＝０．２、ｂ＝０．８））を補正
係数として、補正を行うことを特徴とする請求項１から
請求項７のいずれかに記載の符号化音声再生装置。
【請求項９】再生する音声のノイズ区間を認識するノ
イズ認識手段を備え、このノイズ区間では補正を行わな
いことを特徴とする請求項１から請求項８のいずれかに
記載の符号化音声再生装置。
【請求項１０】前記ノイズ認識手段は、サブフレーム
単位に隣接する音源パラメータのエネルギーの差分を検
出する差分検出手段と、この差分を過去における所定サ
ブフレーム分の和を算出し、この和を所定数で除算処理
を行なう第１の算出手段と、前記差分が所定値以内であ
るものの過去における所定サブフレーム分の和を算出す
る第２の算出手段と、この第１の算出手段と第２の算出
手段とを比較し、第２の算出手段による結果が第１の算
出手段による結果より大きいサブフレームをノイズ区間
と認識する手段とを備えることを特徴とする請求項９記
載の符号化音声再生装置。
【請求項１１】前記ノイズ認識手段は、音声区間から
ノイズ区間への移行を判別するときは所定数のサブフレ
ームを用いて決定し、ノイズ区間から音声区間への移行
を判別するときには、１サブフレームで決定することを
特徴とする請求項９または請求項１０記載の符号化音声
再生装置。
【請求項１２】所定の周期性を有する音を認識する認
識手段と、この認識結果により再生される音に所定の周
期性を有すると認識した場合には、あらかじめ定められ
た所定の周期性を有する音に適したゲインコントロール
による補正を行う制御手段とを備えることを特徴とする
請求項１から請求項１１のいずれかに記載の符号化音声
再生装置。
【請求項１３】前記認識手段は、音声波形における波
形エネルギーが所定値以上であるとき、かつ音源パラメ
ータのエネルギー値が所定範囲にあるときは、ＰＢトー
ン、又は単一周波数と認識することを特徴とする請求項
１２記載の符号化音声再生装置。
【請求項１４】ゲインパラメータ特性を表す演算式を
複数記憶する記憶手段を備え、前記認識手段が再生音声
データをＰＢトーン又は、単一周波数と認識した場合に
は、緩やかに増加するゲインパラメータ特性を有する演
算式を用い、通常音声と認識した場合には、急激に増加
するゲインパラメータ特性を有する演算式を用いること
により、ゲインパラメータの特性を変えることを特徴と
する請求項１２または請求項１３記載の符号化音声再生
装置。
【請求項１５】入力した音声データのエネルギー値を
ＩＴＵ勧告Ｇ．７２３．１に規定される符号化パラメー
タ、またはＣＥＬＰ系符号化パラメータの一つである音
源パラメータに基づいて下式により算出するエネルギー
算出手段と、このエネルギーが所定範囲外の時には、利
得制御を行なわず、所定範囲内の時には、利得制御を行
なうとともに、利得幅の増減を制御した補正量で、音声
データを補正する補正手段とを備え、これをサブフレー
ム単位で順次処理することを特徴とする符号化音声再生
装置。Ｅｎｅｒ _n+1 ＝Ｍａｍｐ _n+1 ＋（（Ｘ−１）／Ｘ）・Ｅｎｅｒ _n 但し、Ｍａｍｐは音源パラメータ、Ｅｎｅｒは音源パラ
メータのエネルギー、ｎはサブフレームの個数、Ｘは任
意の数値を示す。
【請求項１６】入力した音声データのエネルギーをＩ
ＴＵ勧告Ｇ．７２３．１に規定される符号化パラメー
タ、またはＣＥＬＰ系符号化パラメータの一つである音
源パラメータに基づいて下式により算出し、このエネル
ギー値が所定範囲にあるとき、利得制御を行ない、利得
幅の増減を制御した補正量で、サブフレーム単位に順次
補正することを特徴とする符号化音声再生方法。Ｅｎｅｒ _n+1 ＝Ｍａｍｐ _n+1 ＋（（Ｘ−１）／Ｘ）・Ｅｎｅｒ _n 但し、Ｍａｍｐは音源パラメータ、Ｅｎｅｒは音源パラ
メータのエネルギー、ｎはサブフレームの個数、Ｘは任
意の数値を示す。