JP3307875B2 - 符号化音声再生装置および符号化音声再生方法 - Google Patents

符号化音声再生装置および符号化音声再生方法

Info

Publication number
JP3307875B2
JP3307875B2 JP08817598A JP8817598A JP3307875B2 JP 3307875 B2 JP3307875 B2 JP 3307875B2 JP 08817598 A JP08817598 A JP 08817598A JP 8817598 A JP8817598 A JP 8817598A JP 3307875 B2 JP3307875 B2 JP 3307875B2
Authority
JP
Japan
Prior art keywords
sound
energy
correction
parameter
gain
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP08817598A
Other languages
English (en)
Other versions
JPH11265200A (ja
Inventor
主識 加藤
元康 大野
Original Assignee
松下電送システム株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 松下電送システム株式会社 filed Critical 松下電送システム株式会社
Priority to JP08817598A priority Critical patent/JP3307875B2/ja
Priority to US09/267,685 priority patent/US6266632B1/en
Publication of JPH11265200A publication Critical patent/JPH11265200A/ja
Application granted granted Critical
Publication of JP3307875B2 publication Critical patent/JP3307875B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/083Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being an excitation gain

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、ITU−T勧告
G.723.1及びCELP(Code Excited Linear
Prediction)系符号化の音源パラメータ情報に基づい
て符号化したデジタル音声データを再生する為の符号化
音声再生装置、および符号化音声再生方法に関するもの
である。
【0002】
【従来の技術】音声をデジタル符号化する技術に関する
勧告に、ITU−T勧告G.723.1があり、主にア
ナログ回線向けテレビ電話システムのITU−T勧告H.
324の音声コーデックとして使用されている。この音
声符号化は6.3kbps/5.3kbpsのデュアルレートで符号化
されるものあり、その符号化方法とは音声信号から人の
発声メカニズムのモデル化を行うものである。
【0003】以下、その符号化動作を図11の機能ブロ
ック図に基づいて説明する。
【0004】音声が入力されると、LPC分析部110
1で、人間の声道(のどの形状)をモデル化し、線形予
測を行ない、LSP量子化部1104で量子化を行な
う。この部分でモデル化された音声のパラメータの一つ
であるLSP情報が生成される。次に、聴感重み付けフ
ィルタ1102により、入力された音声の周波数特性を
変形し、聴感性を向上させる。このフィルタ1102を
通したデータに基づいてピッチ評価部1103が音声デ
ータのピッチを算出する。
【0005】また同時に、ハーモニックノイズフィルタ
1105で雑音などを閾値以下に治まるように歪みを調
整して、音声の品質を整える。ピッチ予測部1106で
は、前処理の音声データをフィードバックさせ、この前
処理の音声データ、及び現処理のピッチに基づいて最適
なピッチを算出し、ピッチ情報(ピッチ長、及び有声
音、無声音を判定するためのインデックス)を生成す
る。このピッチに基づいて、音源パラメータ生成部で音
源パラメータMampを生成する。また、この音源パラメー
タは疑似デコーダ部1108に入力され、一旦デコード
し、ピッチ予測部1106に次の音声データのためにフ
ィードバックされ、次のデータのピッチを最適なものと
なるようにする。
【0006】このように、ITU−T勧告G723.1
による符号化では、LSP情報、ピッチ情報、音源パラ
メータMampが生成され、これら情報が回線を介して通信
され、受信側ではこれを復号化することにより音声とし
て再生することができる。
【0007】これを再生する場合には、LSP復号部1
121にLSP情報が、ピッチ再生部1122にはピッ
チ情報が、音源パラメータ再生部1123には音源パラ
メータMampがそれぞれ入力され、合成フィルタ1124
により、合成され、聴感重み付けフィルタ1125によ
り聴感性をよくするための補正を行ない、音声として再
生される。
【0008】上述したように、ITU−T勧告G72
3.1は、音声データを複数のパラメータに符号化(モ
デル化)することができるものであり、また復号化する
ときはこの複数のパラメータに基づいて復号化し、音声
を再生することができるものである。
【0009】これら符号化方法は、CELP(Code Ex
cited Linear Prediction)といわれる符号化方法の
一つである。CELP系符号化方法は、音声の生成過程
をモデル化する符号化方法と波形符号化方法との両方の
特性を有する符号化方法であり、ITU−T勧告G72
3.1符号化方法と同様に音源パラメータを生成する符
号化方法である。
【0010】
【発明が解決しようとしている課題】ITU−T勧告G
723.1による音声の符号化方法では、電話回線など
を介して音声を通話録音する際、回線の劣化などによ
り、お互いの話者のボリューム(音量)に相違が発生す
る。つまり、一方の話者の声が大きく録音され、もう一
方の話者の声は小さく録音されるため、これを符号化
し、音声として再生する時には聴き辛い音声となってい
た。
【0011】このことは、もともとの音声にボリューム
差があるために生ずる問題であった。これを防止するた
めには、小音量の音声の利得を制御し、ゲインコントロ
ールすれば良い。このゲインコントロール方法には、以
下の方法が挙げられる。
【0012】まず大音量、小音量が混在している音声を
再生し、波形化する。そして、音声波形をサンプリング
し、そのサンプリングしたエネルギーを算出する。この
サンプル毎のエネルギーを利得制御し、大音量の音声は
そのままに、小音量の音声は大音量と同じぐらいのエネ
ルギーをもつよう利得制御する。
【0013】このように、大音量、小音量が混在してい
る音声の小音量の音声の利得を制御することにより、再
生される音声の音量を均一にすることができる方法を、
ITU−T勧告G723.1の符号化音声を再生する場
合に適用することが考えられる。
【0014】しかしながら、この方法には以下の課題が
ある。
【0015】すなわち、一度音声を再生し、音声波形を
サンプリングすることが必要であり、このサンプリング
は木目細かにする必要があるため、サンプリング個数が
大量になってしまう。そのため、サンプリングしたデー
タを保持する記憶容量を多く取る必要があったり、また
大量のサンプリングデータを利得制御するための演算量
が莫大なものとなり、CPUの負荷が大きくなったり、
また再生速度が遅くなったりするものであった。
【0016】本発明は、上述の課題を解決するために、
ITU−T勧告G723.1により符号化された音声デ
ータを、特に通話録音を行なうときのように、それぞれ
の話者の音声の音量に相違のある音声を再生するための
演算量を少なくし、かつ聞きやすい音声に再生するため
の符号化音声再生装置を実現することを目的とする。
【0017】
【課題を解決する為の手段】本発明は上述の課題を解決
するため、以下の構成を備える。
【0018】請求項1記載の符号化音声再生装置の発明
は、ITU勧告G.723.1に規定される符号化パラ
メータ、またはCELP系符号化パラメータから構成さ
れる符号化音声データを再生する再生手段と、前記パラ
メータの一つである音源パラメータに基づいて算出した
エネルギー値と予め定められているゲインパラメータと
に基づいて音声の音量を補正する補正手段とを備え、
記エネルギー値は下式により算出され、 Ener n+1 =Mamp n+1 +((X−1)/X)・Ener n (但し、Mampは音源パラメータ、Enerは音源パ
ラメータのエネルギー、nはサブフレームの個数、Xは
任意の数値) 前記補正手段は、前記エネルギー値が所定
範囲内にあるときのみ、前記ゲインパラメータを用いて
音量の補正を行なう構成とした。
【0019】この構成により、音源パラメータに基づい
て算出したエネルギー値と予め定められているゲインパ
ラメータとに基づいて符号化された音声を補正すること
により、聞き取りやすい音声に補正することができる。
さらに、音源のエネルギー値が所定範囲に有るときのみ
補正するようにしているため、ノイズなどを補正するこ
となく、また、大きい音量のときにはオーバーフローす
ることなく、さらに聞き取りやすい音声に補正すること
ができる。また、上式における(X−1)/Xとは、I
IR型フィルタにおいてXサブフレーム分のMampエネル
ギーEnerの和をとったときのその修正値を示すものであ
る。通常、Xサブフレーム分のMampエネルギーEnerの和
を算出するときには、1からXサブフレーム目までのMa
mpエネルギーEnerをメモリなどに保持し、この和を算出
し、次のサブフレームを処理するときには2から(X+
1)サブフレームまでを算出する。このとき、1サブフ
レーム目を除去し、(X+1)サブフレーム目を加算す
ることにより、2から(X+1)サブフレーム目までの
和を算出することができる。 しかし、この方法では演算
量が多くなる。そこで、IIR型フィルタで代用した場
合、IIR型フィルタでの(X−1)/Xは、そのとき
の最初のサブフレーム分を除去するために、その値を間
引きするための係数である。これを用いることにより、
所定区間のデータの総和を順次算出する際、簡易に行な
うことができる。
【0020】
【0021】
【0022】請求項2記載の発明は、請求項1記載の符
号化音声再生装置において、前記エネルギー値は音源パ
ラメータをIIR型フィルタを通して生成されることを
特徴とする。請求項3記載の発明は、請求項1又は請求
項2記載の符号化音声再生装置において、前記Xは40
であることを特徴とする。このサブフレーム数が、少な
い数(例えば、20サブフレーム、係数が19/20)
では、MampエネルギーEnerが極端に増減し、音声の切れ
目で後に説明する下限値以下になる場合があり、AGC
制御のオン/オフが頻繁になり、好ましくない。逆にあ
まりに大きい数(例えば60サブフレーム、係数が59
/60)では、そのMampエネルギーEnerの変動が小さく
上限値、及び下限値の閾値の取り方が難しい。ここでの
40サブフレーム、39/40という係数はその中で適
切な値となっている。 請求項4記載の発明は、請求項か
ら1乃至記載の符号化音声再生装置において、前記補
正手段は、サブフレーム単位に音声データの補正を行
い、補正する毎に前記所定範囲内で任意に設定された目
標値に近似するようゲインパラメータを増減させる構成
を備えたものである。この構成により、音源のエネルギ
ー値が所定範囲にあるときのみ補正するようにしている
ため、ノイズなどを補正することなく、また、大きい音
量のときにはオーバーフローすることなく、さらに聞き
取りやすい音声に補正することができる。
【0023】この構成により、サブフレーム単位に再生
音声を補正することができ、徐々に補正することによ
り、違和感のない聞き取りやすい音声に補正することが
できる。
【0024】請求項5記載の発明は、請求項4記載の符
号化音声再生装置において、所定の周期性を有する音を
検出したときには、前記目標値を減算し、小さい値とす
る構成を備えたものである。
【0025】この構成により、所定の周期性を有する
音、つまりPBトーン、又は単一周波数を検出したとき
には、それら音に適した補正処理を行ない、オーバーフ
ローを起こさないよう処理することができる。
【0026】請求項6記載の発明は、請求項1乃至5記
の符号化音声再生装置の発明において、前記補正手段
は、ゲインパラメータを増加させるときの増加量は大き
く、減少させるときの減少量は小さい特性を有するゲイ
ンパラメータを用いて補正する構成を備えたものであ
る。
【0027】この構成により、音量を上げるときには急
激に上がり、下げるときには徐々に下がるため、再生音
声をレスポンスよく補正することができ、さらに聞き取
りやすい音声に補正することができる。
【0028】請求項7記載の発明は、請求項1乃至6記
の符号化音声再生装置において、前記補正手段は、ゲ
インコントロールによる補正停止時には、サブフレーム
単位の補正処理毎にゲインパラメータを徐々に減少させ
ることにより、徐々に補正を停止するという構成を備え
たものである。
【0029】この構成により、補正処理における補正の
度合いを徐々に減少させるため、補正処理データと補正
無しデータとの境をなくすことができ、聞き取りやすい
音声に補正することができる。
【0030】
【0031】
【0032】これら補正の具体的な演算式として、請求
項8に記載されるように、前記補正手段は、ゲインパラ
メータの変動の影響を減少させる数値aを用いた演算式
(b+a×ゲインパラメータ(a=0.2、b=0.
8))を補正係数とする。さらに具体的には、aがゲイ
ンパラメータの値に対して適度に影響を及ぼすようa=
0.2程度にすると都合がよく、これに基づいて、b=
0.8とすればよい。
【0033】請求項9記載の発明は、請求項1乃至8記
の符号化音声再生装置において、ノイズ区間、又は無
声音区間を検出する検出手段とを備え、このノイズ区
間、無声音区間では補正を行わない構成を備えたもので
ある。
【0034】この構成により、無声音区間であるノイズ
区間では補正を行なわないようにしているため、ノイズ
を補正することなく、聞き取りやすい音声に補正するこ
とができる。
【0035】請求項10記載の発明は、請求項9記載
符号化音声再生装置において、前記ノイズ認識手段は、
サブフレーム単位に隣接する音源パラメータのエネルギ
ーの差分を検出する差分検出手段と、この差分を過去に
おける所定サブフレーム分の和を算出し、この和を所定
数で除算処理を行なう第1の算出手段と、前記差分が所
定値以内であるものの過去における所定サブフレーム分
の和を算出する第2の算出手段と、この第1の算出手段
と第2の算出手段とを比較し、第2の算出手段による結
果が第1の算出手段による結果より大きいサブフレーム
をノイズ区間と認識する手段という構成を備えたもので
ある。
【0036】この構成により、ノイズ区間は隣接する差
分に余りなく、小さい値が算出され、この値が、音源パ
ラメータのエネルギーにおける隣接する差分の所定サブ
フレーム分の値を適当に除算処理した値より小さいとき
にはノイズ区間と判別することができ、ノイズ区間を容
易に検出することができる。
【0037】請求項11記載の発明は、請求項9又は1
0記載の符号化音声再生装置において、前記ノイズ認識
手段は、音声区間からノイズ区間への移行を判別すると
きは所定数のサブフレームを用いて決定し、ノイズ区間
から音声区間への移行を判別するときには、1サブフレ
ームで決定する構成を備えたものである。
【0038】この構成により、ノイズ区間から音声区間
へ移行するときの判別を1サブフレームで決定すること
により、ゲインコントロールを即座に行なうことがで
き、聞取りやすい音声に補正することができる。。
【0039】請求項12記載の発明は、請求項1乃至1
1記載の符号化音声再生装置において、所定の周期性を
有する音を認識する認識手段と、この認識結果により再
生される音に所定の周期性を有すると認識した場合に
は、あらかじめ定められた所定の周期性を有する音に適
したゲインコントロールによる補正を行う制御手段とい
う構成を備えたものである。
【0040】この構成により、PBトーンなどの単一周
波数を検出したときにはゲインコントロールを低めに行
なうため、極端に音が大きくなるなどの不都合がなく、
聞き取りやすい音声に補正することができる。
【0041】請求項13記載の発明は、請求項12記載
の符号化音声再生装置において、前記ノイズ認識手段
は、音声波形における波形エネルギーが所定値以上であ
り、音源パラメータのエネルギー値が所定範囲にあると
きにはPBトーン、又は単一周波数と判別する構成を備
えたものである。
【0042】この構成により、音声波形の波形エネルギ
ー、音源パラメータのエネルギーに基づいて、PBトー
ンなどの単一周波数であることを認識することができ、
ゲインコントロールのための補正を適正に行なうことが
できる。
【0043】請求項14記載の発明は、請求項12又は
13記載の符号化音声再生装置において、ゲインパラメ
ータ特性を表す演算式を複数記憶する記憶手段を備え、
前記ノイズ認識手段が再生音声データをPBトーン又
は、単一周波数と認識した場合には、緩やかに増加する
ゲインパラメータ特性を有する演算式を用い、通常音声
と認識した場合には、急激に増加するゲインパラメータ
特性を有する演算式を用いることにより、ゲインパラメ
ータの特性を変える構成を備えたものである。
【0044】この構成により、PBトーン、または単一
周波数であることを認識したときには、ゲインパラメー
タの特性を変えることにより、ゲインコントロールの補
正増加量、または減少量を押さえ気味に制御するため、
聞き取りやすい音声に補正することができる。
【0045】請求項15記載の符号化音声再生装置の発
明は、入力した音声データのエネルギー値をITU勧告
G.723.1に規定される符号化パラメータ、または
CELP系符号化パラメータの一つである音源パラメー
タに基づいて下式により算出するエネルギー算出手段
と、このエネルギーが所定範囲外の時には、利得制御を
行なわず、所定範囲内の時には、利得制御を行なうとと
もに、利得幅の増減を制御した補正量で、音声データを
補正する補正手段とを備え、これをサブフレーム単位で
順次処理する構成を備えたものである。 Ener n+1 =Mamp n+1 +((X−1)/X)・Ener n 但し、Mampは音源パラメータ、Enerは音源パラ
メータのエネルギー、nはサブフレームの個数、Xは任
意の数値を示す。
【0046】この構成により、サブフレーム単位に音声
データのエネルギー値に基づいて、利得制御の増減幅を
変えることで、適切なゲインコントロールのための補正
処理を実現することができる。
【0047】
【0048】
【0049】請求項16記載の符号化音声再生方法の発
明は、方法の発明であり、入力した音声データのエネル
ギーをITU勧告G.723.1に規定される符号化パ
ラメータ、またはCELP系符号化パラメータの一つで
ある音源パラメータに基づいて下式により算出し、この
エネルギー値が所定範囲にあるとき、利得制御を行な
い、利得幅の増減を制御した補正量で、サブフレーム単
位に順次補正するものである。 Ener n+1 =Mamp n+1 +((X−1)/X)・Ener n 但し、Mampは音源パラメータ、Enerは音源パラ
メータのエネルギー、nはサブフレームの個数、Xは任
意の数値を示す。
【0050】この構成により、入力した音声データのエ
ネルギー値に基づいて利得幅を制御をサブフレーム単位
に行なうことができ、適切なゲインコントロールのため
の補正を行なうことができる。
【0051】
【発明の実施の形態】以下、本発明の実施の形態1につ
いて、図面を参照して説明する。
【0052】図1は、本発明の符号化音声再生装置を用
いたテレビ会議システム装置におけるハードブロック構
成図である。
【0053】図において、モデム部101は電話回線か
らのデータを受信し、G723.1符号復号部102は
モデム部101で受けたデータに基づいてLSP情報、
ピッチ情報、音源パラメータに符号化する。ここで、L
SP情報とは、人間で言うと声道のモデル化を行ってい
る部分で、LPC合成(Linear Predictive Coding)に
より線形予測を行い、更にLSP係数(Line Spectrum
Pair)により量子化がなされている情報であり、ピッ
チ情報とは、人間で言うと声帯振動に相当する部分で、
聴覚重み付きした入力音声を用いた開ループ探索と、入
力音声と合成音声の歪みを計算する閉ループ探索の2段
階によって計算される情報であり、音源パラメータと
は、人間で言うとピッチ成分以外の音源情報に相当する
部分で、ピッチ成分等を取り除いた残留信号や、インパ
ルス応答等を用いて、サブフレーム単位に5又は6本の
音源パラメータのインデックス及びゲインが計算されて
いるものである。
【0054】メモリ部103は、符号化されたパラメー
タをそれぞれ記憶するものであり、具体的には、例えば
これは通話録音を行なうためのICメモリなどのデジタ
ル録音できるメモリである。ここまでが、入力された音
声を符号化するための処理である。
【0055】これを音声として再生する場合は、G72
3.1符号復号部がメモリ部103に記憶されている上
記パラメータを読み出し、復号化する。復号化された音
声はデジタル音声として出力され、オートボリュームコ
ントロール部104に入力される。
【0056】オートボリュームコントロール部104
は、後述する式を用いて上記パラメータの一つである音
源パラメータMampのエネルギーであるMampエネルギーEn
erを算出する。そして、算出したMampエネルギーEnerを
所定値に近づけるよう演算処理をサブフレーム単位に行
ない、徐々に音量を増大、または減少させるよう制御す
る。そして、スピーカ部105が音声として再生出力す
る。
【0057】パネル部106は、音声を録音、または再
生するときの指示ボタン、電話をかけるためのテンキー
などからなるものである。ハンドセット107は、通話
するためものであり、ハンドセットの代わりにマイクで
も良い。画像処理部108は、モデム部101を介して
外部から送られる画像を処理し、表示部109は画像処
理部8で処理された画像を表示するものである。制御部
110は、これらモデム部101〜表示部109までを
総括的に制御するものである。
【0058】次に、オートボリュームコントロールにつ
いて、図を参照して説明する。図2は、上記実施の形態
における符号化音声再生装置におけるオートボリューム
コントロール部104の機能ブロック図である。
【0059】電話回線からG723.1勧告に基づいて
符号化されたデジタル音声(LCP情報、ピッチ情報、
音源パラメータMamp)が送られ、これら情報がメモリ部
103に記憶される。
【0060】これを再生する場合、G723.1符号復
号部102により復号し、再生音声として出力し、オー
トボリュームコントロール部104に再生音声は入力さ
れる。エネルギー抽出部201は、G723.1の勧告
に基づいて符号化されたときに算出された音源パラメー
タMampのエネルギー値を抽出する。
【0061】エネルギー値判定部202は、ここで算出
したエネルギー値を所定範囲内にあるエネルギー値であ
るか判定する。
【0062】ゲインコントロール部203は、エネルギ
ー判定部202がエネルギー値が所定範囲内にあると判
別したときに、ゲインパラメータ設定部205に設定さ
れているパラメータに基づいて、再生されたデジタル音
声のゲインコントロールを行なう。そして、音声再生部
206はゲインコントロールされた音声を再生する。
【0063】また、差分検出部204は、サブフレーム
単位に隣接している音源パラメータのエネルギー値の差
分をみて、この差分が所定範囲内に有るときにはノイズ
と判定する。このとき、差分検出部204は、ゲインコ
ントロール部203に対してゲインコントロールしない
よう制御する。
【0064】以上のように構成された符号化音声再生装
置について、その動作を図3、図4、図9、図10に沿
って説明する。
【0065】まず、基本的な動作である、音源パラメー
タMampから生成されるMampエネルギーEnerが所定範囲に
あるとき、あらかじめ定められている目標値に近似する
ようゲインコントロールするときの方法を、図3に沿っ
て詳細に説明する。
【0066】ITU−T勧告G723.1における音声
符号化の処理単位は30msecのフレーム長で、更に4つ
に分割した処理を7.5msecのサブフレーム長としてい
る。以下に説明する処理は1サブフレーム(7.5msec)単
位で行うものである。
【0067】まず、ST301では、ITU−T勧告G
723.1によりモデル化されたパラメータの一つであ
る音源パラメータMampのエネルギーであるMampエネルギ
ーEnerを式1により算出する。なお、nはサブフレーム
の個数単位を表す。また、Mampは演算対象となっている
サブフレームのものである。
【0068】 Ener n+1=Mamp n+1+39/40Ener n (1) 式(1)における39/40とは、IIR型フィルタに
おいて40サブフレーム分のMampエネルギーEnerの和を
とったときのその修正値を示すものである。通常、40
サブフレーム分のMampエネルギーEnerの和を算出すると
きには、1から40サブフレーム目までのMampエネルギ
ーEnerをメモリなどに保持し、この和を算出し、次のサ
ブフレームを処理するときには2から41サブフレーム
までを算出する。このとき、1サブフレーム目を除去
し、41サブフレーム目を加算することにより、2から
41サブフレーム目までの和を算出することができる。
【0069】しかし、この方法では演算量が多くなるた
め、現在ではIIR型フィルタといわれるもので代用し
て行われている。IIR型フィルタでの39/40は、
そのときの最初のサブフレーム分を除去するために、そ
の値を間引きするための係数である。これを用いること
により、所定区間のデータの総和を順次算出する際、簡
易に行なうことができる。
【0070】このサブフレーム数が、少ない数(例え
ば、20サブフレーム、係数が19/20)では、Mamp
エネルギーEnerが極端に増減し、音声の切れ目で後に説
明する下限値以下になる場合があり、AGC制御のオン
/オフが頻繁になり、好ましくない。逆にあまりに大き
い数(例えば60サブフレーム、係数が59/60)で
は、そのMampエネルギーEnerの変動が小さく上限値、及
び下限値の閾値の取り方が難しい。ここでの40サブフ
レーム、39/40という係数はその中で適切な値とな
っている。
【0071】次に、ST302では、MampエネルギーEn
erが所定範囲内にあるか、否かを判別する。ここでの所
定範囲とは、下限値はノイズとの境目を示す値であり、
上限値はデジタル信号でのオーバーフローを起こさない
ための値であり、具体的には演算処理に用いるレジスタ
の上限値である。MampエネルギーEnerが所定範囲内にあ
ると、ST303でオートゲインコントロールをオンと
する。MampエネルギーEnerが所定範囲外にあると、ST
306でオートゲインコントロールをオフとする。
【0072】ST303でオートゲインコントロールを
オンとすると、ST304、ST305、ST307で
ゲインコントロールを行なう。ST304では、Mampエ
ネルギーとゲインパラメータAGainとの乗算結果が、あ
らかじめ定められている目標値以下であるかを判別す
る。
【0073】ST304でMampエネルギーEner×AGain
が目標値以下であると、ゲインアップ処理を行なうた
め、ST305に移行する。この目標値は、上述の下限
値以上、上限値以下の所定範囲にある値であり、具体的
な値は上述の上限値の1/3から1/2ぐらいの値が適
切な値となる。
【0074】ST305では、以下に示す式(2)、式
(3)、式(4)に基づいて補正のためのゲインパラメ
ータAGainを決定する。式(2)は、ゲインパラメータA
Gainの増加量GainUpStepを示すものであり、サブフレー
ム単位に1増加するように定める。式(3)はゲインパ
ラメータを減少させるときに、その減少量GainDownStep
を定めるものであり、初期値として0が設定されてい
る。式(4)は式(2)で算出された増加量GainUpStep
を16で割った値をゲインパラメータAGainに加算し、
ゲインパラメータAGainを算出する。このようにゲイン
アップ処理時には、ゲインパラメータAGainをサブフレ
ーム処理毎に増加させている。
【0075】そして、ST308では、式(4)で算出
したゲインパラメータAGainを式(8)に代入し、最終
出力の音声を計算し、これを出力する。この式(8)の
各値は実験によりa=0.2、b=0.8が適切な値と
なっている。また、ゲインパラメータの影響より元のデ
ータの影響の方をより強く受けるように、ゲインパラメ
ータにかかる係数aはbよりはるかに小さい値となって
いる。
【0076】また、ST304で目標値以上であると判
別すると、ゲインダウン処理を行なうためにST307
に移行する。ST307では、式(5)、式(6)、式
(7)に基づいて補正のためのゲインパラメータAGain
を決定する。
【0077】式(5)では、増加時に使用した増加量Ga
inUpStepを現状のまま保持する。式(6)は、ゲインパ
ラメータAGainを減少させるための減少量を定めるため
のものであり、サブフレーム単位に減少量を1増加させ
ている。式(7)では、式(6)で算出したGainDownSt
epを64で割った値をゲインパラメータAGainから減算
し、減少時のゲインパラメータAGainを算出する。そし
て、ST308で、算出したゲインパラメータAGainを
式(8)に代入し、データを補正する。
【0078】これらゲインパラメータAGainはゲインパ
ラメータ設定部405に設定され、保持される。
【0079】また、ST302でMampエネルギーEnerが
所定範囲外であるときには、ST306に移行する。S
T306では、ゲインコントロールをオフとし、補正処
理を行なわないようにする。しかし、直ちに補正を止め
ると、再生音声に違和感がでるため、徐々に補正量を減
少させるために式(9)を用いて、ゲインパラメータAG
ainを減少させ、ゲインパラメータが1となるまでこの
処理をサブフレーム単位に繰り返す。ここで、減少値は
所定の定数である。また、ゲインパラメータAGainが1
以下になると、1として演算処理し、減算処理を終了す
る。そして、上述と同様にST308では、ここで算出
したゲインパラメータAGainを用いて補正処理を行な
う。この制御により、緩やかに補正量を減少させ、補正
無しの状態に移行することができ、聞きやすい音声に補
正することができる。
【0080】 (増加時) GainUpStep=GainUpStep+1 (2) GainDownStep=0 (3) AGain n+1=AGain n+GainUpStep/16 (4) (減少時) GainUpStep=GainUpStep (5) GainDownStep=GainDownStep+1 (6) AGain n+1=AGain n−GainUpStep/64 (7) (補正処理時) Data=Data(b+a×AGain)(但し、a+b=1) (8) (補正停止時) AGain n+1=AGain n−減少値 (9) なお、ゲインパラメータの増加時の立ち上がり(GainUp)
は鋭く(増加量が大きく)、減少時の立ち下がり(GainD
own)は緩やか(減少量が小さく)な特性を有している。
これにより、音声が入力されてからただちにゲインコン
トロールが機能し、相手の音量と自分の音量との相違が
あり、音量の低い音声を即座に、もう一方の音声の音量
と同じレベルまでに引き上げることができ、全体的に聞
き取りやすい音声を再生することができる。
【0081】次に、音声と音声との間の無音区間、及び
ノイズ区間でのゲインコントロール方法について図4乃
至8を用いて説明する。
【0082】デジタル音声データの中には無音区間、ノ
イズ区間などの無声音区間(音声ではない区間)が、通
常の音声データともに存在しており、図3の方法では、
無音区間、ノイズ区間まで補正してしまう。この為、本
発明では、無音区間、ノイズ区間を検出して、その区間
は補正処理をしないように制御することが必要である。
【0083】まず、無音区間、およびノイズ区間の検出
方法を図5に基づいて説明する。図5において、点線が
MampエネルギーEner、実線が音源パラメータMampの変動
を表している。MampエネルギーEnerの大きい部分、つま
り、音声が存在している部分に関して音源パラメータMa
mpが追従して変動している事がわかる。図5では、1サ
ブフレームから1401サブフレームまでの、Mampエネ
ルギーEner、音源パラメータMampとの関係を示してい
る。この特徴を利用して、サブフレーム単位に隣接する
ものの差分を検出することにより無音区間、およびノイ
ズ区間を検出する。
【0084】図7は、図5における1サブフレームから
42サブフレームまでを拡大して表したグラフ図であ
る。この図において、隣接するサブフレームの差分を図
8に示すように算出する。例えば、は1サブフレーム
と2サブフレームとの差を図に示したものであり、1サ
ブフレームの音源パラメータMampは0、2サブフレーム
の音源パラメータMampは1200であり、この差を図示
したものである。この長さは大体1200である。は
同様に、2サブフレームと3サブフレームとの差を図示
したものであり、これをの40サブフレームと41サ
ブフレームとの差まで繰り返し、40個分行ない、この
差分の総和とる。対象となるサブフレームの手前40個
分の差分の総和をサブフレーム単位にグラフ化したもの
が図6の点線部分である。このため、1サブフレームか
ら40サブフレームまでは、手前40サブフレームをと
ることができないため、その値は0である。
【0085】図6において、点線が1サブフレーム単位
の隣接するMampの差分の41サブフレーム間の積和値を
4分の1にした値である。実線は1サブフレーム単位の
隣接するMampの差分が8以下のものの41サブフレーム
間の積和値を示すものである。点線部分は、差分8以下
とのスライスレベル比較する為に4分の1にしている。
【0086】このとき、数回(数サブフレーム分)続け
て式(10)の条件を満たしたときに無音区間、あるい
はノイズ区間と判定する。これは、ノイズ、または無音
の音源パラメータMampは、その変動が少なく、差分が8
以下のものが多い。そのため、対象サブフレームの手前
41サブフレーム分の差分が8以下のものの総和をとる
と、それなりに大きい値となる。
【0087】逆に普通の音声は音源パラメータのMampの
変動は大きく、差分が8以下のものはあまりなく、対象
サブフレームの手前41サブフレーム分の差分が8以下
のものの総和をとってもその値は小さい値のものとな
る。これを利用して差分8以下の41サブフレーム分の
総和がある程度大きいものをノイズと判別する。
【0088】ここで、ある程度大きい値とは、対象サブ
フレームの手前41サブフレーム分の差分の総和値を4
分の1にした値であることが、実験により適切であるこ
とが分かっている。ここでその条件を数回連続して満た
すことで、誤認識を防止することができる。なお、ここ
でのの差分が8以下、4分の1という値は実験から得た
適切な値であり、適宜変更可能なものであり、ノイズレ
ベルに応じて、差分のサブフレーム数、スライスレベ
ル、差分8以下等の数値は可変設定可能なものとする。
【0089】また、ノイズ区間から音声区間への切替の
ときの判定は即座に行なう。これは音声への補正を即座
に行ないたいためである。
【0090】 全体の差分の総和/4≦差分8以下の総和 (10) 以下、図4のフロー図に基づいて無音区間、あるいはノ
イズ区間での補正処理の動作を詳細に説明する。無音区
間、ノイズ区間は音源パラメータMampで表す上では、同
じ意味をなす。なお、図3と同じ処理については説明を
省略する。
【0091】ST401では、MampエネルギーEnerを抽
出した後に、上述した方法で無音区間、あるいはノイズ
区間であるか否かを判別する。ここで差分制御で無音区
間、あるいはノイズ区間でないと判別した場合は、ST
402へ移行し、Nonv = 1とし、無音区間、あるいは
ノイズ区間と判定した場合には、ST403に移行し、
フラグNonvをNonv = 0とする。
【0092】ST404では、MampエネルギーEnerが所
定範囲内にあることを判定する。MampエネルギーEnerが
所定範囲内にある時にはST405に移行する。
【0093】ST405では、ST402、ST403
で設定したフラグNonv=1であるか、否かを判定する。
【0094】ST405で、Nonv=1であると判定され
るとST406に移行し、ゲインコントロールを行な
う。また、ST404で、MampエネルギーEnerが所定範
囲外のとき、ST405で、フラグNonv=0のとき、S
T407に移行し、ゲインコントロールをしないよう制
御する。
【0095】以下、図3と同様に処理され、ゲインパラ
メータAGainを増減させることで、目標値に近似させる
ように制御し、これをサブフレーム単位に繰り返し処理
する。
【0096】以上、音声の特徴である音源パラメータMa
mpの変動を使用した差分判定による処理を行う事によ
り、無音区間、およびノイズ区間を検出する事が可能と
なる。これにより、無音区間、およびノイズ区間では補
正処理をせず、ノイズを持ち上げずに違和感のない出力
音声を得る事ができ、聞き取りやすい音声を再生するこ
とができる。
【0097】次に、PBトーン、または単一周波数であ
る音(音声)を扱うときの処理を図9、及び図10に基
づいて説明する。これら音は通常は扱われないが、操作
者の操作ミスなどでプッシュボタンを押下することによ
り、PBトーンを発信することがある。このため、PB
トーンまでもオートボリュームコントロールすることに
より、違和感のある音声を再生してしまう。
【0098】具体的には、符号化情報のパラメータにお
いて、PBトーン、または単一周波数は音源パラメータ
Mamp情報よりも、周期性を表す情報であるピッチパラメ
ータに依存している。従って、その影響により大きな振
幅のPBトーンまたは単一周波数に対して、小さなMamp
エネルギーEnerを得て、必要以上のゲイン補正を行って
しまう。
【0099】また一方、音源パラメータMampの変動が小
さいと、上述の差分判別処理によりノイズ区間と判別し
てしまうという問題が生じる。この事は単一周波数だけ
でなく、PBトーンのAGC補正が正常に動作できなく
なる原因になる。
【0100】以下、PBトーン、単一周波数をオートボ
リュームコントロールするための処理を図9、図10の
フロー図に基づいて説明する。
【0101】まず、図9の前半のフロー図に沿って説明
する。
【0102】ST901では、ITU−T勧告G72
3.1により符号化された音声情報を復号化する。
【0103】ST902では、有声音、無声音を判定す
るためのインデックスInterIndxの判別を行ない、その
判別に基づいてST903、ST904のいずれかに移
行する。インデックスInterIndxとは、ITU−T勧告
G723.1で符号化される際に、ピッチ情報としてピ
ッチ長とともに生成される情報であり、有声音か、無声
音かを示す情報である。
【0104】ST903は、無声音であったときに進む
ステップであり、ST903では、Din_Flag = 1とす
る。ST904は、有声音であったときに進むステップ
であり、Din_Flag=0とする。
【0105】その後、図4と同様にMampエネルギーEner
を抽出し、差分算出からノイズ区間であるかを判別し、
ノイズ区間でないならNonv=1を、ノイズ区間であるな
らNonv=0を設定する。
【0106】ST905では、音声波形エネルギーVCEn
erを算出する。音声波形エネルギーVCEnerは、4サブフ
レーム分(30msec)のエネルギーであり、式(11)
により算出される。音源パラメータMampの4サブフレー
ム(30msec)分の積和値MampIntgralを式(12)を用い
て算出する。なお、式(11)における「波形エネルギ
ー」とは演算対象となっている1サブフレームにおける
音声波形の60サンプルのエネルギーの総和である。
【0107】 VCEner n+1=波形エネルギー+3/4VCEner n (11)
【0108】
【数1】 式(11)における3/4はIIR型フィルタにおい
て、サブフレームを処理する毎に4サブフレーム分のエ
ネルギーを順次算出するための係数である。ノイズの確
認を行なう場合は、4サブフレーム分見れば良い。これ
より小さい値であると、ノイズであるか否かの判別を行
なうことは難しく、大きすぎると、その演算量が大きく
なり、4サブフレームが適切な値である。
【0109】次に図10の後半のフロー図に基づいて説
明する。
【0110】ST1001では、音声波形エネルギーVC
Enerが所定の上限値を上回るか否かを判別する。ここ
で、音声波形エネルギーVCEnerが所定の上限値より大き
い値の場合にはオーバーフローを防ぐ為に、補正処理を
行なわないよう制御する。
【0111】ST1002は、音声波形エネルギーVCEn
erが所定の上限値より小さいときに移行するステップで
あり、MampエネルギーEnerが所定範囲内にあるか否かを
判別する。ここで所定範囲内であると判別されると、S
T1003に移行し、ST1003では、有声音、無声
音判定のためのフラグがNonv=1であるか、否かを判別
する。
【0112】ST1003でNonv=1でない場合、つま
りノイズ区間である場合には、ST1004に移行す
る。ST1004では、ST903、ST904で定義
したフラグDin_Flagを判別する。Din_Flag=0のとき
は、さらにST1005に移行する。
【0113】ST1005では、PBトーンまたは単一
周波数であるか否かを判別する。ここでは音声波形エネ
ルギーVCEnerが所定値以上であり、音源パラメータMamp
が所定値以下であるとき、つまりMampIntgralが所定範
囲内にあり、なおかつ、音声波形エネルギーVCEnerが所
定値以上の場合には、PBトーンまたは単一周波数と判
別し、ST1007に移行する。そうでなければAGC
OFFとし、補正処理を行なわない制御を行なう。
【0114】これにより、差分判定処理でノイズ判定し
てしまったPBトーンまたは単一周波数においても検知
することができ、通常ではゲインコントロールしなかっ
たPBトーンまたは単一周波数についてもゲインコント
ロールすることができ、聞き取りやすい音声を再生する
ことができる。
【0115】また、ST1002でMampエネルギーEner
が所定範囲外にあるときには、ST1006に進む。S
T1006では、MampエネルギーEnerが所定範囲におけ
る下限値以下であるかを判別するとともに、PBトーン
または単一周波数であるか否かを判別する。PBトーン
または単一周波数の検出方法は上述したように音声波形
エネルギーVCEnerが所定値以上であり、音源パラメータ
Mampが所定値以下であるとき、PBトーンまたは単一周
波数として認識し、ST1007に移行する。
【0116】なお、ここでの所定値は先の所定値より大
なるものである。PBトーンまたは単一周波数として認
識できないとき、またはMampエネルギーEnerが上限値以
上であるときには、ノイズと判別してAGC OFFとし、補
正処理を行なわないようにする。このように、Mampエネ
ルギーEnerの下限値以下でのPBトーンまたは単一周波
数検知を可能とした。
【0117】ST1007では、音声データがPBトー
ンまたは単一周波数であると判別された場合、または音
声と判別された場合は、Mamp値が制限値内に否かを判別
する。ここでは、Mampが所定値以上ありAGCの必要があ
るか否かを判別し、必要であるならST1008へ、不
必要であるならAGC OFFとする。
【0118】ST1008では、ST905で算出され
た音声波形エネルギーVCEner及びMampの4サブフレーム
分の積和値MampIntgralを使用し、オバーフローの恐れ
のあるPBトーンまたは単一周波数であるか、つまり振
幅が中程度であるためゲインコントロールすることでオ
ーバーフローする恐れがあるかを判別する。音声波形エ
ネルギーVCEnerがある所定値を持った値よりもエネルギ
ーが大きく、かつ、積和値MampIntgralがある所定値を
持った値よりも積和値が小さい時には、中振幅のPBト
ーンまたは単一周波数と判別し、ST1009に進む。
【0119】ST1009ではPBトーンまたは単一周
波数のための制御を行なう。具体的には、目標値を決定
する為に使用されるTagFlagをインクリメントする。
【0120】ST1010に移行した場合では、音声及
び小さな振幅のPBトーンまたは単一周波数と判別し、
TagFlagをデクリメントする。ST1011では、ST
1009、ST1010で設定したTagFlagを式(1
3)に用いて、目標値を設定する。式(13)でのαは
目標値に収束する早さを調整するパラメータである。ま
た、0≦TagFlag≦任意設定とし、αとの兼ね合いで目
標値が下限値以下にならないようにする。
【0121】このように、目標値を可変にする事により
中振幅のPBトーンまたは単一周波数についてオーバー
フローを回避している。 目標値=目標値−α×TagFlag/4 (13) ST1012では、MampエネルギーEnerとゲインパラメ
ータAgainを乗算し、目標値に対して大であるか、小で
あるかを判別し、ST1013、ST1014のいずれ
かに移行する。
【0122】ST1013では、GainUp処理を行なう。
ここでは、音声制御処理(ST1010)を通過したサ
ブフレームに対しては、式(2)、式(3)、式(4)
を用いてゲインパラメータAGainを算出する。一方、単
一周波数制御処理(PBトーン制御処理も含む)(ST
1009)を通過したサブフレームに対しては、式
(2)、式(3)、式(14)を用いてゲインパラメー
タAGainを算出する。
【0123】 AGain n+1=AGain n+GainUpStep/64 (14) 式(14)を用いる理由は、波形変動の多い音声に対し
て、PBトーンや単一周波数などは波形変動が少ないた
め、音声の品質を保持する為の立ち上がりの鋭いAGC処
理を使用した場合、再生時に違和感のあるPBトーンま
たは単一周波数になってしまうので、これを回避するた
めである。このように、GainDown時と同様な特性でGain
Upし、違和感のない単一周波数、PBトーン等のAGC
処理を可能にした。
【0124】ST1014では、GainDown処理を行な
い、式(5)、式(6)、式(7)を用いてゲインパラ
メータAGainを算出する。
【0125】ST1013、ST1014で算出したゲ
インパラメータAGainを用いて最終音声のための演算処
理を行ない、補正された音声として出力する。
【0126】このようにPBトーンまたは単一周波数を
ノイズ区間と認識することがなく、ゲインコントロール
することで、音声を補正することができ、聞き取りやす
い音声を再生することができる。
【0127】
【発明の効果】本発明では上述に説明したように、IT
U−TのG.723.1勧告及びCELP系の音源パラ
メータを生成する符号化音声を再生する際に、精度良く
ゲインコントロールする事ができ、聞き取りやすい音声
を再生することができる。
【図面の簡単な説明】
【図1】本発明の符号化再生音声装置を用いたテレビ会
議システム装置のハードブロック図
【図2】上記実施形態のオートボリュームコントロール
部の機能ブロック図
【図3】上記実施形態のオートボリュームコントロール
の状態を示すフロー図
【図4】上記実施形態のノイズ区間におけるオートボリ
ュームコントロールの状態を示すフロー図
【図5】上記実施形態におけるG723.1により符号
化した際に算出されるMampエネルギーEnerとMampとの関
連を示すグラフ図
【図6】上記実施形態におけるMampの40サブフレーム
単位の総和を算出したときの図
【図7】上記実施形態における音源パラメータMamp と
MampエネルギーEnerとの関連を示すグラフ図を拡大した
【図8】上記実施形態におけるサブフレーム毎に隣接す
る音源パラメータMampの差分を算出するときの説明図
【図9】上記実施形態の単一周波数を検出するときのオ
ートボリュームコントロールの状態を示す前半のフロー
【図10】上記実施形態の単一周波数を検出するときの
オートボリュームコントロールの状態を示す後半のフロ
ー図
【図11】G723.1勧告に関わる符号復号化処理を
行なう機能ブロック図
【符号の説明】
101 モデム部 102 G723符号復号部 103 メモリ部 104 オートボリュームコントロール部 105 スピーカ部 106 パネル部 107 ハンドセット 108 画像処理部 109 表示部 110 制御部 201 エネルギー抽出部 202 エネルギー値判定部 203 ゲインコントロール部 204 差分検出部 205 ゲインパラメータ設定部 206 音声再生部 1101 LPC分析部 1102 聴感重み付けフィルタ 1103 ピッチ評価部 1104 LSP量子化部 1105 ハーモニックノイズフィルタ 1106 ピッチ予測部 1107 音源パラメータ生成部 1108 疑似デコーダ部 1121 LSP復号部 1122 ピッチ再生部 1123 音源パラメータ再生部 1124 合成フィルタ 1125 聴感重み付けフィルタ
───────────────────────────────────────────────────── フロントページの続き (56)参考文献 特開 平7−177085(JP,A) 特開 平9−185396(JP,A) 特開 平8−30292(JP,A) 特表 平5−502517(JP,A) (58)調査した分野(Int.Cl.7,DB名) G10L 19/00 - 19/14 H03M 7/30 H04B 14/04

Claims (16)

    (57)【特許請求の範囲】
  1. 【請求項1】 ITU勧告G.723.1に規定される
    符号化パラメータ、またはCELP系符号化パラメータ
    から構成される符号化音声データを再生する再生手段
    と、前記パラメータの一つである音源パラメータに基づ
    いて算出したエネルギー値と予め定められているゲイン
    パラメータとに基づいて音声の音量を補正する補正手段
    とを備え、前記エネルギー値は下式により算出され、 Ener n+1 =Mamp n+1 +((X−1)/X)・Ener n (但し、Mampは音源パラメータ、Enerは音源パ
    ラメータのエネルギー、nはサブフレームの個数、Xは
    任意の数値) 前記補正手段は、前記エネルギー値が所定
    範囲内にあるときのみ、前記ゲインパラメータを用いて
    音量の補正を行なうことを特徴とする符号化音声再生装
    置。
  2. 【請求項2】 前記エネルギー値は音源パラメータをI
    IR型フィルタを通して生成されることを特徴とする請
    求項1記載の符号化音声再生装置。
  3. 【請求項3】 前記Xは40であることを特徴とする
    求項1又は請求項2記載の符号化音声再生装置。
  4. 【請求項4】 前記補正手段は、サブフレーム単位に音
    声データの補正を行い、補正する毎に前記所定範囲内で
    任意に設定された目標値に近似するようゲインパラメー
    タを増減させることを特徴とする請求項1から請求項3
    のいずれかに記載の符号化音声再生装置。
  5. 【請求項5】 所定の周期性を有する音を検出したとき
    には、前記目標値を減算し、小さい値とすることを特徴
    とする請求項4記載の符号化音声再生装置。
  6. 【請求項6】 前記補正手段は、ゲインパラメータを増
    加させるときの増加量は大きく、減少させるときの減少
    量は小さい特性を有するゲインパラメータを用いて補正
    を行なうことを特徴とする請求項1から請求項5のいず
    れかに記載の符号化音声再生装置。
  7. 【請求項7】 前記補正手段は、ゲインコントロールに
    よる補正停止時には、サブフレーム単位の補正処理毎に
    ゲインパラメータを徐々に減少させることにより、徐々
    に補正を停止することを特徴とする請求項1から請求項
    6のいずれかに記載の符号化音声再生装置。
  8. 【請求項8】 前記補正手段は、ゲインパラメータの変
    動の影響を減少させる数値aを用いた演算式(b+a×
    ゲインパラメータ(a=0.2、b=0.8))を補正
    係数として、補正を行うことを特徴とする請求項1から
    請求項7のいずれかに記載の符号化音声再生装置。
  9. 【請求項9】 再生する音声のノイズ区間を認識するノ
    イズ認識手段備え、このノイズ区間では補正を行わな
    いことを特徴とする請求項1から請求項8のいずれかに
    記載の符号化音声再生装置。
  10. 【請求項10】 前記ノイズ認識手段は、サブフレーム
    単位に隣接する音源パラメータのエネルギーの差分を検
    出する差分検出手段と、この差分を過去における所定サ
    ブフレーム分の和を算出し、この和を所定数で除算処理
    を行なう第1の算出手段と、前記差分が所定値以内であ
    るものの過去における所定サブフレーム分の和を算出す
    る第2の算出手段と、この第1の算出手段と第2の算出
    手段とを比較し、第2の算出手段による結果が第1の算
    出手段による結果より大きいサブフレームをノイズ区間
    と認識する手段とを備えることを特徴とする請求項9
    載の符号化音声再生装置。
  11. 【請求項11】 前記ノイズ認識手段は、音声区間から
    ノイズ区間への移行を判別するときは所定数のサブフレ
    ームを用いて決定し、ノイズ区間から音声区間への移行
    を判別するときには、1サブフレームで決定することを
    特徴とする請求項9または請求項10記載の符号化音声
    再生装置。
  12. 【請求項12】 所定の周期性を有する音を認識する認
    識手段と、この認識結果により再生される音に所定の周
    期性を有すると認識した場合には、あらかじめ定められ
    た所定の周期性を有する音に適したゲインコントロール
    による補正を行う制御手段とを備えることを特徴とする
    請求項1から請求項11のいずれかに記載の符号化音声
    再生装置。
  13. 【請求項13】 前記認識手段は、音声波形における波
    形エネルギーが所定値以上であるとき、かつ音源パラメ
    ータのエネルギー値が所定範囲にあるときは、PBトー
    ン、又は単一周波数と認識することを特徴とする請求項
    12記載の符号化音声再生装置。
  14. 【請求項14】 ゲインパラメータ特性を表す演算式を
    複数記憶する記憶手段を備え、前記認識手段が再生音声
    データをPBトーン又は、単一周波数と認識した場合に
    は、緩やかに増加するゲインパラメータ特性を有する演
    算式を用い、通常音声と認識した場合には、急激に増加
    するゲインパラメータ特性を有する演算式を用いること
    により、ゲインパラメータの特性を変えることを特徴と
    する請求項12または請求項13記載の符号化音声再生
    装置。
  15. 【請求項15】 入力した音声データのエネルギー値を
    ITU勧告G.723.1に規定される符号化パラメー
    タ、またはCELP系符号化パラメータの一つである音
    源パラメータに基づいて下式により算出するエネルギー
    算出手段と、このエネルギーが所定範囲外の時には、利
    得制御を行なわず、所定範囲内の時には、利得制御を行
    なうとともに、利得幅の増減を制御した補正量で、音声
    データを補正する補正手段とを備え、これをサブフレー
    ム単位で順次処理することを特徴とする符号化音声再生
    装置。 Ener n+1 =Mamp n+1 +((X−1)/X)・Ener n 但し、Mampは音源パラメータ、Enerは音源パラ
    メータのエネルギー、nはサブフレームの個数、Xは任
    意の数値を示す。
  16. 【請求項16】 入力した音声データのエネルギーをI
    TU勧告G.723.1に規定される符号化パラメー
    タ、またはCELP系符号化パラメータの一つである音
    源パラメータに基づいて下式により算出し、このエネル
    ギー値が所定範囲にあるとき、利得制御を行ない、利得
    幅の増減を制御した補正量で、サブフレーム単位に順次
    補正することを特徴とする符号化音声再生方法。 Ener n+1 =Mamp n+1 +((X−1)/X)・Ener n 但し、Mampは音源パラメータ、Enerは音源パラ
    メータのエネルギー、nはサブフレームの個数、Xは任
    意の数値を示す。
JP08817598A 1998-03-16 1998-03-16 符号化音声再生装置および符号化音声再生方法 Expired - Fee Related JP3307875B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP08817598A JP3307875B2 (ja) 1998-03-16 1998-03-16 符号化音声再生装置および符号化音声再生方法
US09/267,685 US6266632B1 (en) 1998-03-16 1999-03-15 Speech decoding apparatus and speech decoding method using energy of excitation parameter

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP08817598A JP3307875B2 (ja) 1998-03-16 1998-03-16 符号化音声再生装置および符号化音声再生方法

Publications (2)

Publication Number Publication Date
JPH11265200A JPH11265200A (ja) 1999-09-28
JP3307875B2 true JP3307875B2 (ja) 2002-07-24

Family

ID=13935580

Family Applications (1)

Application Number Title Priority Date Filing Date
JP08817598A Expired - Fee Related JP3307875B2 (ja) 1998-03-16 1998-03-16 符号化音声再生装置および符号化音声再生方法

Country Status (2)

Country Link
US (1) US6266632B1 (ja)
JP (1) JP3307875B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6850179B2 (en) 2001-06-15 2005-02-01 Sony Corporation Encoding apparatus and encoding method

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100900113B1 (ko) * 1997-10-22 2009-06-01 파나소닉 주식회사 확산 펄스 벡터 생성 장치 및 방법
US6651040B1 (en) * 2000-05-31 2003-11-18 International Business Machines Corporation Method for dynamic adjustment of audio input gain in a speech system
US7155385B2 (en) * 2002-05-16 2006-12-26 Comerica Bank, As Administrative Agent Automatic gain control for adjusting gain during non-speech portions
US7072477B1 (en) * 2002-07-09 2006-07-04 Apple Computer, Inc. Method and apparatus for automatically normalizing a perceived volume level in a digitally encoded file
US7631382B2 (en) * 2003-03-10 2009-12-15 Adidas International Marketing B.V. Intelligent footwear systems
CA2457988A1 (en) * 2004-02-18 2005-08-18 Voiceage Corporation Methods and devices for audio compression based on acelp/tcx coding and multi-rate lattice vector quantization
FI119533B (fi) * 2004-04-15 2008-12-15 Nokia Corp Audiosignaalien koodaus
US20070147518A1 (en) * 2005-02-18 2007-06-28 Bruno Bessette Methods and devices for low-frequency emphasis during audio compression based on ACELP/TCX
US20060217983A1 (en) * 2005-03-28 2006-09-28 Tellabs Operations, Inc. Method and apparatus for injecting comfort noise in a communications system
US20060215683A1 (en) * 2005-03-28 2006-09-28 Tellabs Operations, Inc. Method and apparatus for voice quality enhancement
US20060217988A1 (en) * 2005-03-28 2006-09-28 Tellabs Operations, Inc. Method and apparatus for adaptive level control
US20060217972A1 (en) * 2005-03-28 2006-09-28 Tellabs Operations, Inc. Method and apparatus for modifying an encoded signal
US20060217970A1 (en) * 2005-03-28 2006-09-28 Tellabs Operations, Inc. Method and apparatus for noise reduction
GB2450886B (en) * 2007-07-10 2009-12-16 Motorola Inc Voice activity detector and a method of operation
KR101475724B1 (ko) * 2008-06-09 2014-12-30 삼성전자주식회사 오디오 신호 품질 향상 장치 및 방법
JP4924619B2 (ja) * 2009-01-08 2012-04-25 沖電気工業株式会社 帯域補正装置
WO2012001730A1 (ja) 2010-06-28 2012-01-05 三菱電機株式会社 音声認識装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01186042A (ja) 1988-01-21 1989-07-25 Oki Electric Ind Co Ltd 音声メール装置
JP2629618B2 (ja) 1993-10-27 1997-07-09 日本電気株式会社 利得調整装置
JPH08320700A (ja) 1995-05-26 1996-12-03 Nec Corp 音声符号化装置
JPH09185396A (ja) 1995-12-28 1997-07-15 Olympus Optical Co Ltd 音声符号化装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6850179B2 (en) 2001-06-15 2005-02-01 Sony Corporation Encoding apparatus and encoding method

Also Published As

Publication number Publication date
JPH11265200A (ja) 1999-09-28
US6266632B1 (en) 2001-07-24

Similar Documents

Publication Publication Date Title
JP3307875B2 (ja) 符号化音声再生装置および符号化音声再生方法
JP4222951B2 (ja) 紛失フレームを取扱うための音声通信システムおよび方法
JP4132109B2 (ja) 音声信号の再生方法及び装置、並びに音声復号化方法及び装置、並びに音声合成方法及び装置
EP0673013B1 (en) Signal encoding and decoding system
JP3522012B2 (ja) コード励振線形予測符号化装置
EP0814458A2 (en) Improvements in or relating to speech coding
US20030088408A1 (en) Method and apparatus to eliminate discontinuities in adaptively filtered signals
WO1999030315A1 (fr) Procede et dispositif de traitement du signal sonore
KR20010014352A (ko) 음성 통신 시스템에서 음성 강화를 위한 방법 및 장치
JP2010530154A (ja) 音声信号中に埋め込まれた隠れデータの回復
WO1998049673A1 (fr) Procede et dispositif destines a detecter des parties vocales, procede de conversion du debit de parole et dispositif utilisant ce procede et ce dispositif
KR20080080893A (ko) 음성신호의 대역폭 확장 제어 방법 및 장치
JPH1097296A (ja) 音声符号化方法および装置、音声復号化方法および装置
EP1096476B1 (en) Speech signal decoding
US6424942B1 (en) Methods and arrangements in a telecommunications system
JPH10149199A (ja) 音声符号化方法、音声復号化方法、音声符号化装置、音声復号化装置、電話装置、ピッチ変換方法及び媒体
JPH0644195B2 (ja) エネルギ正規化および無声フレーム抑制機能を有する音声分析合成システムおよびその方法
US6205423B1 (en) Method for coding speech containing noise-like speech periods and/or having background noise
JP3092652B2 (ja) 音声再生装置
EP1619666B1 (en) Speech decoder, speech decoding method, program, recording medium
JPH09185397A (ja) 音声情報記録装置
JP3451998B2 (ja) 無音声符号化を含む音声符号化・復号装置、復号化方法及びプログラムを記録した記録媒体
US6240383B1 (en) Celp speech coding and decoding system for creating comfort noise dependent on the spectral envelope of the speech signal
US20030055633A1 (en) Method and device for coding speech in analysis-by-synthesis speech coders
JP3417362B2 (ja) 音声信号復号方法及び音声信号符号化復号方法

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090517

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090517

Year of fee payment: 7

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090517

Year of fee payment: 7

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100517

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110517

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110517

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120517

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120517

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130517

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130517

Year of fee payment: 11

LAPS Cancellation because of no payment of annual fees