JP5074749B2

JP5074749B2 - 音声信号受信装置、それに使用される音声パケット消失補償方法、その方法を実施するプログラム、及びそのプログラムを記録した記録媒体

Info

Publication number: JP5074749B2
Application number: JP2006327051A
Authority: JP
Inventors: 仲大室; 岳至森; 祐介日和▲崎▼; 章俊片岡
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2006-12-04
Filing date: 2006-12-04
Publication date: 2012-11-14
Anticipated expiration: 2026-12-04
Also published as: JP2008139661A

Description

この発明は、ディジタル化された音声、音楽などの音響信号(以下総称して音声信号)をインターネットをはじめとするパケット通信網を介して送信する際に、受信側において、安定した品質で音声信号を再生するための音声信号受信装置、それに使用される音声パケット消失補償方法、その方法を実施するプログラム、及びそのプログラムを記録した記録媒体に関する。

音声信号をVoice over IP技術を利用して送信するサービスが普及しつつある。図1に示すように、入力音声信号を音声信号送信装置２０でフレームと呼ばれる一定の時間(例えば10ミリ秒〜20ミリ秒)ごとに区切って音声パケットに変換し、パケット通信網３０を通して音声信号受信装置１０にリアルタイムに送信する場合、通信網の状態によっては通信路の途中でパケットロスが生じ、それによって再生音声が途切れるといった品質劣化が問題となっている。特に、インターネットなどのベストエフォートと呼ばれる通信サービスの場合には、通信網の混雑時に特にこの問題が顕著である。

そこで、音声信号をパケット通信網で通信する場合には、パケット消失補償と呼ばれる手法を用いて、パケットが通信路の途中で消失あるいは通信路の遅延によって制限時間内に受信側に届かなかった場合(以下総称してパケットロスの場合)に、届かなかったパケット(以下ロスパケット)に対応する区間の音声信号を受信側で推定して補償する方法が用いられる。パケット消失補償処理の代表的な方法として、非特許文献1が知られている。

図２は、非特許文献1で用いられている音声信号受信装置１０の構成例である。以下では説明を簡単にするため、音声信号送信装置では１フレーム毎の音声信号符号データを１パケットに挿入して送出するものとする。一連の音声パケットは、ゆらぎ吸収バッファとも呼ばれるパケット受信部１１によって順次受信され、受信バッファ１２に格納される。

制御部１６の制御に従って受信バッファ１２から蓄積された音声パケットがフレーム番号の小さい順に取り出される。取り出された音声パケットは、音声波形復号部１３に送られ、ディジタル音声信号に復号されて出力される。出力されたディジタル音声信号は、予め決められた時間(フレーム数)だけ、出力音声バッファ１４に蓄積される。なお、以降の説明においても音声波形復号部により復号され出力される音声信号はこの発明の場合も含めてディジタル音声信号であり、従って、以下においては特にディジタル信号であることをことわらず単に音声信号と呼ぶ。

受信バッファ１２から音声パケットを取り出す段階において、取り出すべきフレーム番号の音声パケットが蓄積されていない場合、パケットロス判定部１５
は、当該フレームでパケットロスが発生したと判断し、パケットロスである旨を制御部１６に伝える。
制御部１６は、パケットロスが発生した旨を受け取ると、スイッチＳＷをＢ側にセットする。音声波形補間処理部１７は、出力音声バッファ１４内の音声信号を用いて、パケットロスが発生したフレームの音声信号を補間処理により生成し、スイッチＳＷを通して出力する。

図３は音声波形補間処理部１７において出力音声信号を生成する補間処理を概念的に表したものである。出力音声バッファ１４内の音声信号の最後のサンプル点S_Eからピッチ長と呼ばれる音声の基本周期に対応した長さだけ遡った波形３Ａをコピーし、その波形を音声波形補間処理部１７内の図示してないロスフレームバッファに順に波形３Ｂ、３Ｃ、３Ｄとして並べて貼り付ける。この合成された波形の音声信号を現フレーム（ロスフレーム）の音声信号としてスイッチＳＷを通して出力する。なお、波形接続部が不連続とならないように、波形３Ａを１ピッチ長よりも少し長く取り、波形の一部を重ね合わせながらコピーする方法を用いてもよい。

非特許文献１（図３）の方法の問題は、過去の出力信号のみを用いて波形の補間処理(一方向の外挿ともいう)を行うために、音声の特性が変動している過渡部、例えば無音（背景雑音）区間から音声区間への変化部、あるいは無声音から有声音への変化部などでパケットロスが発生すると、音質が劣化することである。
この問題を解決する方法として、非特許文献２の方法が提案されている。図４に、非特許文献２で用いられている音声信号受信装置の構成例を、図２と同じ構成要素には同じ参照番号を付けて示す。

図４に示す音声信号受信装置１０は、図２の装置においてバッファ探索部１８が追加された構成となっている。図４の装置では、パケットロスが発生すると、バッファ探索部１８において受信バッファ１２内を探索し、パケットロスが発生したフレームよりも後のフレーム番号のパケットが受信バッファ１２内に到着している揚合には、当該パケットをデコードし、デコードして得られた音声信号(以下先読み波形と呼ぶ)を音声波形補間処理部１７に送る。

図５は、図４における音声波形補間処理部１７によって音声波形を補間処理により生成する補間処理を概念的に示す。音声波形補間処理部１７は、非特許文献１（図３）の方法と同様に出力音声バッファ１４内の音声信号から1ピッチ長の波形３Ａをコピーして１フレームを埋めるように波形３Ｂ，３Ｃ，３Ｄとして並べて貼り付ける処理と、先読み波形の先頭から1ピッチ長の波形４Ａをコピーして、後向きに１フレームを埋めるように波形４Ｂ，４Ｃ，４Ｄとして並べて貼り付ける処理とによって、前向き補間されたフレーム波形３１と後ろ向き補間されたフレーム波形４１を生成し、それら２つのフレーム波形の加重和によって1つのフレーム波形を生成する。このような処理を、前後方向の内挿ともいう。なお、図３の説明と同様に、波形接続部が不連続とならないように、波形３Ａあるいは４Ａを１ピッチ長よりも少し長く取り、波形の一部を重ね合わせながらコピーする方法を用いてもよい。
ITU-T Rec. G.711 Appendix I(1999) 大室、森、日和崎、栗原、片岡、"音声特徴量並行送信によるバーストパケットロス耐性の向上"、電子情報通信学会信学技報 SP2004-77(2004)

非特許文献２（図５）の方法は、音声信号の過渡部でパケットロスが発生した場合において、過渡部の品質劣化を抑える優れた方法である。一般的なパケット音声通信端末では、受信バッファとパケット消失補償処理は別のプロセッサに実装することが多い。しかしながら、図４において受信バッファとパケット消失補償を別のプロセッサに実装するハードウェア上では、同じ受信バッファ１２に対し受信バッファ処理とパケット消失補償処理、特に受信バッファ探索部１８による探索処理とを密に連動させて非特許文献２の方法を実現することは、大変に複雑な実装が必要となり、実質的に実現が困難であった。

この発明の目的は、パケット消失補償処理が容易に実行可能な音声信号受信装置、音声パケット消失補償方法、及びその方法のプログラムと、そのプログラムを記録した記録媒体を提供することである。

この発明による音声信号受信装置は、
受信した音声パケットを一時的に蓄える受信バッファと、
上記受信バッファから、フレーム番号の小さい順に音声パケットを取り出し、音声パケット内の音声符号を復号して音声信号を得る復号手段と、
取り出すべき音声パケットが上記受信バッファに蓄積されているか否かを判定し、判定結果をパケットロスが発生したか否かを表すパケットロスフラグとして生成するパケットロス判定手段と、
復号された上記音声信号を指定されたフレーム数まで蓄積し、フレーム番号の小さい順に音声信号を出力する遅延バッファ手段と、
予め決められた時間またはフレーム数の出力音声信号を蓄積する出力音声バッファ手段と、
上記遅延バッファ手段から出力すべきフレームがパケットロスであった場合に、上記出力音声バッファ内の出力音声信号から波形をコピーすることによって第１の補間波形を生成し、上記遅延バッファ手段内から探索された、上記パケットロスのフレームよりも後のフレーム番号の音声信号からコピーした波形によって第２の補間波形を生成し、上記第１の補間波形と上記第２の補間波形を用いて補間音声信号を生成し、それをパケットロスのフレームに対応する出力音声とする音声波形補間処理手段と、
上記遅延バッファ手段から出力すべきフレームがパケットロスでなければ上記遅延バッファ手段からの音声信号を出力音声信号として出力し、パケットロスであれば上記音声波形補間処理手段からの上記補間音声信号を出力音声信号として出力する出力制御手段、
とを含むように構成されている。

また、この発明による音声パケット消失補償方法は、
(a) 受信した音声パケットを受信バッファに一時的に蓄えるステップと、
(b) 上記受信バッファから、フレーム番号の小さい順に音声パケットを取り出し、音声パケット内の音声符号を復号して音声信号を得るステップと、
(c) 取り出すべき音声パケットが上記受信バッファに蓄積されているか否かを判定し、判定結果をパケットロスが発生したか否かを表すパケットロスフラグとして生成するステップと、
(d) 復号された上記音声信号を指定されたフレーム数まで遅延バッファ手段に蓄積し、フレーム番号の小さい順に音声信号を遅延バッファ手段から出力するステップと、
(e) 予め決められた時間またはフレーム数の出力音声信号を出力音声バッファ手段に蓄積するステップと、
(f) 上記遅延バッファ手段から出力すべきフレームがパケットロスであった場合に、上記出力音声バッファ内の出力音声信号から波形をコピーすることによって第１の補間波形を生成し、上記遅延バッファ手段内から探索された、上記パケットロスのフレームよりも後のフレーム番号の音声信号からコピーした波形によって第２の補間波形を生成し、上記第１の補間波形と上記第２の補間波形を用いて補間音声信号を生成し、それをパケットロスのフレームに対応する出力音声とするステップと、
(g) 上記遅延バッファ手段から出力すべきフレームがパケットロスでなければ上記遅延バッファ手段からの音声信号を出力音声信号として出力し、パケットロスであれば上記音声波形補間処理手段からの上記補間音声信号を出力音声信号として出力するステップ、
とを含む。

この発明によれば、復号音声信号を遅延バッファ手段に指定されたフレーム数だけ保持し、出力し、パケットロスのフレームについては遅延バッファ手段内のロスフレームより後の音声信号を先読みして補間波形を生成するので、受信バッファとパケット消失補償を別プロセッサにインプリメントする場合においても、必要最小限の遅延の増加で、過渡部における音質劣化の少ないパケット消失補償を実現できる。結果として、低コストで通話品質の高いパケット音声通信端末が容易に実現可能である。
本発明は、コンピュータ本体とコンピュータプログラムとして実行することが可能であるし、デジタルシグナルプロセッサや専用LSIに実装して実現することも可能である。

［実施例１］
図６は、本発明における音声信号受信装置の構成例である。図２，４における装置と共通する構成要素には同じ参照番号を付けて示してある。この発明による音声信号受信装置は、パケット受信部１１，受信バッファ１２，音声波形復号部１３，出力音声バッファ１４，パケットロス判定部１５、制御部１６，音声波形補間処理部１７，バッファ探索部１８が設けられている点は図４の場合と同様である。図６の実施例では、更に遅延バッファ部１９と出力制御部２１が追加されている。出力音声バッファ１４、音声波形補間処理部１７、バッファ探索部１８、遅延バッファ部１９、スイッチＳＷはパケット消失補償処理部１００を構成している。

図２で説明したと同様に、音声パケットは、パケット受信部１１によって受信され、受信バッファ１２に送られる。制御部１６の制御に従って受信バッファ１２からフレーム番号の小さい順に蓄積された音声パケットが取り出される。取り出された音声パケットは、音声波形復号部１３に送られ、音声信号に復号されて、この発明では遅延バッファ部１９に送られる。ここで、復号された音声信号には、狭義の音声波形信号即ちPCM形式を代表とする音声波形信号だけでなく、音声波形復号時に得られる音声パラメータ（例えば、ピッチ、パワー、フレーム番号情報等）も含んでもよい。

パケットロス判定部１５は、受信バッファから音声パケットが取り出される段階において、取り出されるべきフレーム番号の音声パケットが蓄積されていいるか否かを判定し、判定結果を当該フレームでパケットロスが発生したか否かを表すパケットロスフラグF_PLとして制御部１６に与える。例えばF_PL=1の場合はパケットロスが生じたことを表すものとする。

制御部１６は、パケットロスフラグF_PLを受け取ると、それを遅延バッファ部１９に伝える。あるいはパケットロス判定部１５から直接パケットロスフラグF_PLを遅延バッファ部１９に与えてもよい。制御部１６の統計値計算部１６Ａは、パケットロス判定部１５からパケットロスフラグF_PLを受け取るごとに統計的にパケットロスの頻度やパターンをパケットロスの統計値として求め、遅延バッファ部１９内に保持すべきフレーム数N_Fを決定して、遅延バッファ部１９に与える。パケットロスの頻度やパターンと、要保持フレーム数N_Fの関係は、予め規則(対応表)を作成して表メモリ１６Ｂに格納しておき、それを参照して要保持フレーム数N_Fを決定する。

パケットロスの頻度としてはパケットロス率を使用し、統計値計算部１６Ａで例えば、フレームｋにおけるパケットロス率e(k)をフレーム毎に、
e(k)＝e(k-1)×0.99+0.01, パケットロス(F_PL=1)の場合 (1)
e(k)＝e(k-1)×0.99, パケットロスでない(F_PL=0)場合 (2)
により計算する。kはフレーム番号k=1,2,3,...であり、e(k)の初期値をe(0)＝0とする。または、パケットロスフラグF_PLを統計値計算部１６Ａ内の図示してないバッファに一定時間蓄積して、フレーム毎にバッファ内のパケットロスフラグF_PLからパケットロス率e(k)をバッファ内のF_PL=1の数とF_PLの全数（フレーム数）の比として計算してもよい。

パケットロスのパターンを数値で表すには、連続パケットロス率を計算する。ｎ連続パケットロス率（ｎは１以上の整数）は、ｎフレーム以上連続してパケットロスした率と定義し、第ｋフレームにおけるｎ連続パケットロス率をen(k)と表記することにする。ここでは、ei(k), i=1, 2, ..., nの各連続パケットロス率を計算し、それらに基づいて後述のように表を参照して要保持フレーム数N_Fを決定する。ei(k)の計算方法を図７のフロー図を参照して以下に説明する。

まず、連続回数パラメータｒの初期値を０に設定する（ステップＳ１）。次にパケットロスフラグF_PLが１か０であるかによりパケットロスであるか判定する（ステップＳ２）。パケットロスであった場合はステップＳ３でｒの値を１増加させ、ステップＳ２に戻る。ステップＳ２でパケットロスでないと判定された場合は、ステップＳ４でei(k), i=1, 2, ..., nの計算を以下のように行う。
ｒ＜ｉのei(k)に対しそれぞれ
ei(k)＝ei(k-1) ×0.99 (3)
をr+1回ずつ計算する。
ｒ≧ｉのei(k)に対しそれぞれ
ei(k)＝ei(k-1)×0.99＋0.01 (4)
をｒ回ずつ計算し、さらに
ei(k)＝ei(k-1)×0.99 (5)
の計算を１回ずつ行う。なお、i=1の場合であるe1(k)は前記e(k)と同じである。また、ei(k)の計算は、上記e(k)の計算と同様に、パケットロスフラグF_PLを一定時間バッファに蓄積して、フレーム毎にバッファ内のパケットロスフラグF_PLから連続パケットロス率を計算してもよい。式(1)〜(5)における定数0.99及び0.01は実験的に適当なものを予め決めることとし、例えば、それぞれ0.95と0.05、0.995と0.005といった組み合わせでもよい。また、フレーム番号ｋが小さい間、即ち音声パケットの受信を開始してから間もない間は0.95と0.05という定数の組を用い、一定の時間が経過後は0.99と0.01の組を用いるというように、途中で定数を変更してもよい。

図８と図９Ａに、それぞれe(k)とei(k), i=2, 3, 4によって要保持フレーム数N_Fを決める規則の例を表で示す。これらの表は制御部１６の表メモリ１６Ｂに予め格納しておく。要保持フレーム数N_Fは図８に示すe(k)だけに基づいて決めてもよいし、図８のe(k)と図９Ａのei(k)に基づいて決めてもよい。後者の場合、図８と図９Ａで該当する項目が複数ある場合は、該当する中で最も大きい値を要保持フレーム数N_Fとする。なお、図８と図９Ａの各閾値は他の値に変更してもよく、図９Ａの代わりに図９Ｂを用いてもよい。一般に閾値を大きく設定すると要保持フレーム数が小さく設定されて、遅延バッファ部１９による通話遅延は少なくなるが、パケットロス時の品質劣化が大きくなり、逆に閾値を小さく設定すると要保持フレーム数が大きく設定されて、パケットロス時の品質劣化は抑えられるが、遅延バッファ部１９による通話遅延が大きくなるため、トレードオフの関係にある。従って、閾値は品質劣化が目立たない範囲でできるだけ大きくなるように実際にパケットロスが発生する環境で調整するのがよい。

遅延バッファ部１９は、制御部１６から指定される要保持フレーム数N_F分の復号された音声信号を内部に保持するシフトバッファまたはリングバッファである。遅延バッファ部１９は音声波形復号部１３から受け取った音声信号を保持し、保持している音声信号のうち、最もフレーム番号の小さい音声信号を出力する。ただし、制御部１６からパケットロスが発生した旨（F_PL=1）を受け取ると、音声波形復号部１３から復号音声信号を受け取って遅延バッファ部１９に格納する代わりに、そのフレームはパケットロスである旨の情報を格納する。パケットロス情報としては、例えばパケットロスフラグF_PLとフレーム番号情報を使う。制御部１６から指定される要保持フレーム数N_Fが0のときは、音声波形復号部１３から音声信号を受け取ると同時にそれを出力するので、遅延は生じない。

遅延バッファ部１９から出力された音声信号は、スイッチＳＷのＡ端子に送られる。出力制御部２１は遅延バッファ部１９から最もフレーム番号の小さい音声信号を出力させるときに、当該フレームがパケットロスでない場合は、スイッチＳＷをＡ側即ち遅延バッファ部側にセットする。遅延バッファ部１９から出力されるフレームが当該フレームにおいて復号音声信号の代わりにパケットロスである旨の情報が格納されていた場合は、スイッチＳＷをＢ側即ち音声波形補間処理部１７側にセットする。音声信号はスイッチＳＷを通して出力されるとともに、出力音声バッファ１４に書き込まれる。

出力音声バッファ１４は、スイッチＳＷから送られる出力音声信号を、予め決められた時間(フレーム数)だけ内部に蓄積し、蓄積した音声信号を音声波形補間部１７に送る。バッファ探索部１８は、遅延バッファ部１９から出力されるフレームがパケットロスであった場合に、遅延バッファ部１９内を探索し、パケットロスが発生したフレームよりも後のフレーム番号（大きいフレーム番号）のパケットが遅延バッファ部１９に蓄積されている場合には、探索して得られた波形（先読み波形）を音声波形補間処理部１７に送る。

音声波形補間処理部１７は、図５で説明した方法と同様に、出力音声バッファ１４内の音声信号から1ピッチ波形を切り出して並べる処埋と、遅延バッファ部１９からの先読み波形の先頭から1ピッチ波形を切り出して、後向きに波形を並べる処理によって２つのフレーム波形を生成し、それらの加重和によって1つのフレーム波形を補間音声信号として生成する。図５の説明と同様に、波形接続部が不連続とならないように、切り出す波形は１ピッチ長よりも少し長く取り、波形の一部を重ね合わせながらコピーする方法を用いてもよい。生成した補間音声信号は、スイッチＳＷのＢ端子から出力音声信号として出力されるとともに、出力音声バッファ１４に書き込まれる。

上述した図６の音声信号受信装置において実施される音声パケット消失補償方法を図１０のフロー図で説明する。
ステップＳ１：受信バッファ１２に取り出すべき音声パケットが蓄積されているか判定し、パケットロスフラグF_PLを生成する。
ステップＳ２：制御部１６においてパケットロスフラグF_PLに基づいて連続パケットロス率ei(k), i=1, 2, ..., nを計算する。
ステップＳ３：制御部１６において連続パケットロス率から、表メモリ１６Ｂの表（図８及び９Ａ）を参照して要保持フレーム数N_Fを決定する。

ステップＳ４：パケットロスフラグF_PLがパケットロスを表しているか判定する。
ステップＳ５：ステップＳ４でパケットロスでないと判定された場合は、受信バッファ１２から取り出した音声パケットを復号して音声信号を得て、要保持フレーム数N_Fの条件の下に復号音声信号を遅延バッファ部に書き込む。N_Fの制限の下に実際に復号音声信号を遅延バッファ部１９に書き込むか否かについては後述の実施例において説明する。
ステップＳ６：ステップＳ４でパケットロスであると判定された場合は、パケットロス情報を遅延バッファ部１９に書き込む。
ステップＳ７：遅延バッファ部１９内の最も番号の小さいフレームがパケットロスであるか判定する。

ステップＳ８：ステップＳ７でパケットロスでないと判定された場合は、読み出した音声信号を音声信号受信装置から出力するとともに、出力音声バッファ１４に書き込み、ステップＳ１に戻る。
ステップＳ９：ステップＳ７でパケットロスであると判定された場合は、バッファ探索部１８により遅延バッファ部１９内のパケットロスのフレーム番号より大きい番号のフレームがパケットロスであるか判定し、パケットロスでないフレームが見つかるまでフレーム番号の小さい順に判定することを繰り返す。
ステップＳ１０：ステップＳ９の探索により得られたフレームの音声信号と、出力音声バッファ１４に保持されている前フレームの音声信号を使って音声波形補間処理部１７において前述した補間処理により補間音声信号を生成してスイッチＳＷを介して出力するとともに出力音声バッファ１４に書き込み、ステップＳ１に戻る。

以上説明したように、この発明では復号音声信号を保持する遅延バッファ部１９を設けて、その遅延バッファ部１９内を探索して補間処理に使用するための先読み波形を得ているので、受信バッファ１２の書き込み、読み出し処理とのタイミングを考慮する必要がなく、補間処理によるパケット消失補償処理を容易に実施することができる。
［実施例２］

図６の構成において、遅延バッファ部１９は、制御部１６から指定される要保持フレーム数N_F分の復号音声信号を内部に保持するが、制御部１６から指定される要保持フレーム数N_Fが途中で変わった場合は、遅延バッファ部１９は更新された要保持フレーム数N_Fの復号音声信号を内部に保持するように、遅延バッファ部１９の内部状態を遷移させる。例えば、要保持フレーム数N_Fが減った場合には、無音区間または非音声区間の復号音声信号の遅延バッファ部１９への取り込みを禁止して破棄することにより、遅延バッファ部１９内に保持されているフレーム数を減らす。要保持フレーム数N_Fが増えた場合には、無音区間または非音声区間での同じ復号音声信号の遅延バッファ部１９への取り込みを複数回行なうことにより遅延バッファ部１９内に保持するフレーム数を増やす。

そのような遅延バッファ部１９の構成例を図１１に、その動作フローを図１２に示す。遅延バッファ部１９はフレームバッファ１９Ａと、比較部１９Ｂと、無音区間検出部１９Ｃと、書込み制御部１９Ｄとで構成する。以下では簡単のため、要保持フレーム数N_Fの初期値N_F0は予め決められた値であり、復号開始からパケットロスが生じないでフレームバッファ１９Ａにフレーム数ｍがｍ＝N_F0となるまで復号音声信号S_Dが取り込まれたものとする。
比較部１９Ｂは制御部１６から要保持フレーム数N_Fを受け（ステップＳ１）、書込み制御部１９Ｄから与えられたフレームバッファ１９Ａ内のフレーム数ｍと比較し、比較結果を書込み制御部１９Ｄに与える（ステップＳ２）。

無音区間検出部１９Ｃは音声波形復号部１３から与えられている復号音声信号S_Dが無音区間の信号であるか否かを判定し（ステップＳ３及びＳ６）、判定結果を書込み制御部１９Ｄに与える。書込み制御部１９Ｄは、ｍ＜N_Fで、かつ復号音声信号S_Dが無音区間のものである場合は復号音声信号S_Dをフレームバッファ１９Ａに取り込み、ｍの値を１だけ増加させ（ステップＳ４）、ステップＳ５に移る。ステップＳ３で復号音声信号S_Dが無音区間のものでないと判定された場合は、そのままステップＳ５に移る。ステップＳ２でｍ＝N_Fの場合もステップＳ５に移る。

ステップＳ５で書込み制御部１９Ｄは与えられている復号音声信号S_Dをフレームバッファ１９Ａに取り込み、ステップＳ１に戻る。フレームバッファ１９Ａは１フレーム分の音声信号が取り込まれると、最も番号の小さいフレームの音声信号を出力するので、ステップＳ５の処理によるｍの値の増減はない。

ｍ＞N_Fの場合は、ステップＳ６で無音区間でないと判定されていれば上記ステップＳ５を実行する。ステップＳ６で無音区間と判定されている場合、書込み制御部１９Ｄは、与えられているその無音区間の復号音声信号S_Dの取込を禁止して破棄し、フレームバッファ１９Ａから最も番号の小さいフレームを出力するので、フレームバッファ１９Ａ内のフレーム数ｍは１だけ減り、従って、ｍの値を１だけ減じて（ステップＳ７）ステップＳ１に戻る。
このように、フレーム毎に図１２の処理を行なうことにより、ｍ＝N_Fとなるように次第にフレーム数ｍが変化する。

無音区間検出部１９Ｃによる無音区間の検出方法としては、例えば復号音声信号に含まれている音声パラメータの１つであるパワーが予め決めた閾値より小さい場合に無音区間と判定する。上記ステップＳ４、Ｓ５を実行した場合は、与えられている同じ復号音声信号S_Dが２回フレームバッファ１９Ａに取り込まれることになる。ステップＳ４において復号音声信号S_Dをフレームバッファ１９Ａに取り込む代わりに、例えば図１１に破線で示すように波形メモリ１９Ｅに無音区間または非音声区間の予め決めた音声波形を格納しておき、ステップＳ４でその音声波形の音声信号をフレームバッファ１９Ａに取り込んでもよい。
［実施例３］

図１３は、前述のように、復号された第ｋフレームの音声信号S_Dが、狭義の音声波形信号即ちPCM形式を代表とする音声波形信号S_PCMと、フレーム番号差分である相対位置ｊと、第k-jフレームの音声パラメータP_k-jとがセットになっている例である。つまり、音声信号送信装置（図１参照）側で第ｋフレームのPCM形式音声波形信号S_PCMの符号に、jフレーム前である第k-jフレームの音声パラメータP_k-jの符号をセットにして音声パケットに挿入し、送信するものとする。

もし第ｋフレームのパケットに第ｋフレームの音声波形信号符号と第ｋフレームの音声パラメータ符号のみを挿入した場合には、第ｋフレームのパケットが受信できなかった場合にその第ｋフレームの音声情報はまったく無くなってしまうので、隣接フレームの音声信号から補間処理により音声信号を生成しても品質の高い音声信号が得られない。これに対し、図１３のように第ｋフレームの音声波形信号S_PCMに対し第k-jフレームの音声パラメータP_k-jを付加しておけば、出力制御部２１が、遅延バッファ部１９から出力しようとする第ｋフレームがパケットロスであることを検出した場合に、遅延バッファ部１９内に保持されている第k+jフレームの音声信号S_Dに含まれている第ｋフレームの音声パラメータP_k中のピッチ長を使って例えば図５で説明した前後のフレーム波形からそれぞれ１ピッチ長の波形を切り出し、補間処理により波形生成を行い、更に必要であれば音声パラメータP_k中のパワーを使って、補間処理により生成した波形のパワーを補正することにより、第ｋフレームにパケットロスが生じても比較的に品質の高い音声出力を得ることができるからである。

遅延バッファ部１９に制御部１６から指定される要保持フレーム数N_Fが途中で変化し、前述の図１２で説明した処理により遅延バッファ部１９が更新された要保持フレーム数N_Fの音声信号を内部に保持するためにフレーム波形を破棄/挿入する場合、その対象がPCM音声波形信号S_PCMだけであれば、破棄/挿入に伴って必要となるような処理は発生しないが、図１３のように、第ｋフレームのPCM音声波形信号S_PCMに、フレーム番号k-jの音声パラメータP_k-jがセットになっている場合には、フレーム波形の破棄/挿入処理によって、PCM音声波形信号S_PCMと音声パラメータP_k-jのフレーム相対位置関係がずれてしまうことになる。そのような揚合には、遅延バッファ部１９において、フレーム波形の破棄/挿入処理とともに、音声パラメータの相対位置関係の修正処理を併せて行う必要がある。

図１４にそのための遅延バッファ部１９の構成を示し、図１５にその処理フローを示す。図１４の遅延バッファ部１９は、図１１に示した遅延バッファ部１９において書込み制御部１９Ｄ内に相対位置修正部19D1を設けた構成になっている。音声波形復号部１３からの復号音声信号S_Dの挿入または削除を行う場合は、相対位置修正部19D1が復号音声信号に続くｊ個またはj-1個のフレームの音声信号に含まれる相対位置ｊをそれぞれj+1またはj-1に修正を行う。

図１５に示す処理フローは、図１２に示した処理フローにおいてステップＳ４とＳ７に相対位置ｊの修正処理が追加されている。ｍ＜N_Fの場合、ステップＳ３で復号音声信号が無音区間のものであると判定されると、ステップＳ４において復号音声信号に続くｊ個のフレームの音声信号にそれぞれ含まれる相対位置ｊをj+1に修正し、その後、復号音声信号をフレームバッファ１９Ａに取り込むとともに、ｍを１だけ増加させる。ステップＳ７においては、復号音声信号の書き込みを禁止し、ｍを１だけ減算し、復号音声信号に続くj-1個のフレームにそれぞれ含まれる相対位置ｊをj-1に修正する。その他の処理は図１２の処理と同じである。

なお、図１３，１４，１５の説明では、相対位置ｊは第ｋフレームの音声パラメータがｊフレーム後の第k+jフレームに収納されていることを意味する場合として説明したが、相対位置ｊがｊフレーム前の第k-jフレームに収納されていると定義することもできる。その場合は、例えばステップＳ４で音声信号の挿入が行われると、フレームバッファ１９Ａ内の最新のｊ個のフレームに対し、ｊをj+1に修正し、ステップＳ７で書き込み禁止を行った場合は、フレームバッファ１９Ａ内の最新のj-1個のフレームに対しｊをj-1に修正すればよい。
［実施例４］

図１６は、本発明の音声信号受信装置を広帯域音声符号化に代表される帯域分割符号化に適用した構成例である。図６におけるパケット消失補償処理部１００が低域パケット消失補償処理部100Lと高域パケット消失補償処理部100Hの２つ設けられた構成になっている。それらの構成部は低域側には記号Ｌを、高域側には記号Ｈをそれぞれの参照番号に付加して示してある。

音声波形復号部１３は、受信バッファ１２から取り出した音声パケットを復号して、高域音声信号S_DHと低域音声信号S_DLをそれぞれ出力する。高域音声信号S_DHは、高域パケット消失補償処理部100Hの遅延バッファ部１９Ｈに送られる。低域音声信号S_DLは、低域パケット消失補償処理部100Lの遅延バッファ部１９Ｌに送られる。

高域パケット消失補償処理部100Hと低域パケット消失補償処理部100Lの処理は、それぞれ実施例１〜３の図６と同様である。ただし、高域の音声波形補間処理部１７Ｈの補間処理は、ピッチ単位で切り出して並べる方法をとらず、単純にフレーム長の波形をピッチ単位の波形とみなしてそのまま補間に使用する方法でもよい。高域パケット消失補償処理部100Hと低域パケット消失補償処理部100Lから出力されたそれぞれの音声信号は、帯域合成部２２で帯域合成されて、出力音声として出力される。

制御部１６は、パケットロス判定部１５からパケットロスが発生した旨（即ちパケットロスフラグF_PL=1）を受け取ると、その旨を遅延バッファ部１９Ｈ，１９Ｌに伝える。また、制御部１６は、図６の場合と同様に、パケットロス判定部１５から受け取るパケットロスの情報(パケットロスフラグF_PL)から統計的にパケットロスの頻度やパターンを求め、遅延バッファ部１９Ｈ，１９Ｌ内に保持すべきフレーム数N_Fを決定して、要保持フレーム数N_Fを高域パケット消失補償処理部100Hと低域パケット消失補償処理部100Lの遅延バッファ部１９Ｈ，１９Ｌに指示する。

遅延バッファ部１９Ｈ，１９Ｌは、制御部１６から指定された要保持フレーム数N_Fの復号音声信号を内部に保持する。制御部１６から指定された要保持フレーム数N_Fが途中で変わった場合は、遅延バッファ部１９Ｈ，１９Ｌは更新された要保持フレーム数N_Fの復号音声信号を内部に保持するように、遅延バッファ部１９Ｈ．１９Ｌ内のフレーム保持状態を遷移させる。即ち、図６の構成と同様に、例えば、要保持フレーム数N_Fが減った場合には、無音区間または非音声区間でフレーム波形を破棄し、要保持フレーム数N_Fが増えた場合には、無音区間または非音声区間で無音に相当するフレーム波形を挿入すればよい。
［実施例５］

図１２の説明から理解されるように、図１６の構成において、制御部１６による要保持フレーム数N_Fの変更指示から、両方の遅延バッファ部１９Ｈ，１９Ｌに、指示されたフレーム数N_Fの音声信号が実際に蓄積される状態になるまで、タイムラグが生じることが多い。無音区間で波形の削除、挿入を行う方法では、指示を受けた後、無音区間になるまで待たなければならないからである。その場合でも、高域パケット消失補償処理部100Hと低域パケット消失補償処理部100Lの両遅延バッファ部１９Ｈ，１９Ｌの実際の遅延量の増減、即ち保持フレーム数の増減は、必ず同期するように制御する。

例えば、低域のほうが、制御部１６から要保持フレーム数N_Fの変更を遅延バッファ部１９Ｌに指示した後、実際に低域保持フレーム数ｍ_Lが指示値N_Fに遷移するまでに時間がかかることが多いため、制御部１６はまず低域の遅延バッファ部１９Ｌに要保持フレーム数N_Fの指示を行い、低域の遅延バッファ部１９Ｌの実際の保持フレーム数ｍ_Lを図１６中に破線で示すように高域の遅延バッファ部１９Ｈに伝えて、与えられた高域復号音声信号S_DHが無音区間のものであるか否かにかかわらず、削除または複数回取り込みを行なうことで高域の遅延バッファ部１９Ｈの保持フレーム数ｍ_Hを強制的に低域の現フレーム数ｍ_Lに合わせるようにしてもよい。
［実施例６］

図１７は、図６（及び図１６）における音声波形補間処理部１７（１７Ｈ，１７Ｌ）の構成例を示したものである。この例では音声波形補間処理部１７はピッチ抽出部１７Ａ，前向き波形生成部１７Ｂ、後向き波形生成部１７Ｃ、及び重み付け加算部１７Ｄとから構成されている。ピッチ抽出部１７Ａは、出力音声バッファ１４（１４Ｈ，１４Ｌ）内の音声信号を分析して、音声の基本周期に対応するピッチ長を決定し、ピッチ長を前向き波形生成部１７Ｂと後向き波形生成部１７Ｃに送る。ピッチ長は、通常サンプル数で表し、8kHzサンプリングの場合は20〜140程度の値であることが多い。前向き波形生成部１７Ｂは、図５を用いて説明したように、出力音声バッファ１４内の音声信号の最後のサンプル点からピッチ長の波形をコピーして、ロスフレームバッファ内に順に並べて貼り付ける。

後向き波形生成部１７Ｃも、図５を用いて説明したように、先読み波形の先頭から1ピッチ波形をコピーして、現在のフレームバッファ内に後向きに波形を並べて貼り付ける処理を行う。重み付け加算部１７Ｄは、上記前向き波形生成部１７Ｂによって生成された波形と、上記後向き波形生成部１７Ｃによって生成された波形に重み付けをして加算することによって、1フレーム分の補間波形を作成し、補間音声信号として出力する。
［変形実施例］

図１７では出力音声バッファ１４に保持されている音声信号を分析してピッチ長を抽出し、そのピッチ長で音声波形のコピー、貼り付けを行なって補間音声信号を生成したが、例えば前述のように、復号された各フレームの音声信号S_Dが、狭義の音声波形信号即ちPCM形式を代表とする音声波形信号と、音声パラメータがセットになっている場合には、その音声パラメータに含まれるピッチパラメータを利用してもよい。ここでは、図１３の例とは異なり、各フレームの音声信号S_Dが図１８に示すように、ｋを現在のフレーム番号とすると、第ｋフレームの音声波形信号S_PCMと、第ｋフレームの音声パラメータP_kがセットになっているものとする。

図１９は、図１８の音声信号を使用する場合の音声波形補間処理部１７（１７Ｈ，１７Ｌ）の構成例である。この場合には、遅延バッファ部１９内の各フレームの音声信号、出力音声バッファ１４内の音声信号とも音声パラメータがセットになっている。遅延バッファ部１９内の探索により読み出された先読み波形の音声信号にセットされている音声パラメータからピッチパラメータ取得部１７Ｅでピッチ長が取得され、得られたピッチ長は後向き波形生成部１７Ｃに送られる。出力音声バッファ１４内の音声信号にセットされている音声パラメータからピッチパラメータ取得部１７Ｆでピッチ長が取得され、得られたピッチ長は前向き波形生成部１７Ｂに送られる。その他の処理は図１７の場合と同様である。

図１７の方法と図１９の方法を比べると、図１９のほうが品質劣化の少ない補間波形が得られる。また、図１９のほうが、受信側の処理量が少ないというメリットもある。

図１９の音声波形補間処理部では図１８のように同じフレーム番号の音声波形信号と音声パラメータのセットで構成された音声信号を使用する場合の構成例を示したが、図１３で示したように音声波形信号のフレーム番号と音声パラメータのフレーム番号が異なる復号音声信号S_Dを使うこともできる。その場合は、図１９においてピッチパラメータ取得部１７Ｆは設けず、遅延バッファ部１９から出力しようとする第ｋフレームがロスフレームであった場合、ピッチパラメータ取得部１７Ｅは遅延バッファ部１９内に保持されている第k+jフレームの復号音声信号に含まれている第ｋフレームの音声パラメータP_kからピッチ長を取得して後向き波形生成部１７Ｃに与えると共に、同じピッチ長を破線で示すように前向き波形生成部１７Ｂにも与える。

以上説明したこの発明による音声信号受信装置は、その処理をコンピュータでプログラムを実行することにより実施するように構成してもよい。また、この発明による音声パケット消失補償方法をコンピュータで実施可能なプログラムとして記録媒体に格納しておき、その記録媒体のプログラムをコンピュータで実施するようにしてもよい。

パケット通信網上で音声通信を行う利用形態が普及してきており、本発明を適用することによって、安価で信頼駐の高い音声通信が実現できる。

音声信号をパケット化して通信するシステムの例を示す図。従来の音声信号受信装置の構成例を示すブロック図。図２における音声波形補間処理を概念的に示す波形図。従来の音声信号受信装置の他の構成例を示すブロック図。図４における音声波形補間処理を概念的に示す波形図。本発明による音声信号受信装置の構成例を示すブロック図。ｎ連続パケットロス率の計算を実行する処理フロー図。パケットロス率に対する要保持フレーム数の例を示す表。Ａは連続パケットロス率に対する要保持フレーム数を示す表の一例、Ｂは表の他の例。音声パケット消失補償の処理フロー図。フレーム波形削除／挿入を行なう遅延バッファ部の構成例を示すブロック図。図１１におけるフレーム波形削除／挿入処理を行なうフロー図。 PCM音声波形信号に音声パラメータがセットになった音声信号の例を示す図。音声パラメータのフレーム相対位置を修正する遅延バッファ部の構成例を示すブロック図。図１４における音声パラメータのフレーム相対位置を修正する処理フロー図。本発明による音声信号受信装置の他の構成例を示すブロック図。音声波形補間処理部の構成例を示すブロック図。 PCM音声波形信号に音声パラメータがセットになった音声信号の他の例を示す図。音声波形補間処理部の他の構成例を示すブロック図。

Claims

受信した音声パケットを一時的に蓄える受信バッファと、
上記受信バッファから、フレーム番号の小さい順に音声パケットを取り出し、音声パケット内の音声符号を復号して、第kフレーム（kはフレーム番号）のPCM形式音声波形信号S _PCM と、フレーム番号差分である相対位置jと、第k-jフレームの音声パラメータP _k-j とがセットになった音声信号を得る復号手段と、
取り出すべき音声パケットが上記受信バッファに蓄積されているか否かを判定し、判定結果をパケットロスが発生したか否かを表すパケットロスフラグとして生成するパケットロス判定手段と、
遅延バッファ手段内に保持すべきフレーム数（以下要保持フレーム数）を決定して、遅延バッファ手段に与える要保持フレーム数決定手段と、
遅延バッファ手段内に保持されているフレーム数が上記要保持フレーム数よりも大きい場合は、復号された上記音声信号を破棄するとともに、フレームバッファに蓄積された音声信号をフレーム番号の小さい順に出力し、遅延バッファ手段内に保持されているフレーム数が上記要保持フレーム数よりも小さい場合は、復号された上記音声信号をフレームバッファに二度蓄積するとともに、フレームバッファに蓄積された音声信号をフレーム番号の小さい順に出力し、遅延バッファ手段内に保持されているフレーム数と上記要保持フレーム数とが等しい場合は、復号された上記音声信号をフレームバッファに蓄積するとともに、フレームバッファに蓄積された音声信号をフレーム番号の小さい順に出力する遅延バッファ手段と、
出力音声信号を予め決められた時間またはフレーム数だけ蓄積する出力音声バッファ手段と、
上記遅延バッファ手段から出力すべきフレームがパケットロスであった場合に、上記出力音声バッファ内の出力音声信号の音声波形信号と、上記遅延バッファ手段内の上記パケットロスであるフレームより後のフレームの音声波形信号と、上記遅延バッファ手段内の上記パケットロスであるフレームの音声波形信号に対応する音声パラメータとを用いて補間音声信号を生成する音声波形補間処理手段と、
上記遅延バッファ手段から出力すべきフレームがパケットロスでなければ上記遅延バッファ手段からの音声信号を出力音声信号として出力し、パケットロスであれば上記音声波形補間処理手段からの上記補間音声信号を出力音声信号として出力する出力制御手段、とを含む音声信号受信装置であって、
上記遅延バッファ手段は、
遅延バッファ手段内に保持されているフレーム数が上記要保持フレーム数よりも大きい場合は、上記破棄したフレームに続くj-1個の音声信号に含まれる相対位置jの値をj-1に修正し、遅延バッファ手段内に保持されているフレーム数が上記要保持フレーム数よりも小さい場合は、該フレームに続くフレームのj個のフレームの音声信号に含まれる相対位置jの値をj+1に修正する相対位置修正手段、
とを含むことを特徴とする音声信号受信装置。
請求項１記載の音声信号受信装置において、
上記パケットロスフラグが与えられ、パケットロスの統計値を求めるパケットロス統計値計算手段をさらに有し、
上記要保持フレーム数決定手段は、
上記パケットロス統計値に基づいて、上記遅延バッファ手段内に保持すべきフレーム数（以下要保持フレーム数）を決定して、上記遅延バッファ手段に与えることを特徴とする音声信号受信装置。
請求項２記載の音声信号受信装置において、予めパケットロスの統計値に対する要保持フレーム数を規定した規則を格納したメモリ手段をさらに有し、
上記要保持フレーム数決定手段は上記パケットロス統計値から上記メモリ手段の規則を参照して上記要保持フレーム数を決定することを特徴とする音声信号受信装置。
請求項２または３記載の音声信号受信装置において、上記遅延バッファ手段は、
復号された上記音声信号が無音区間または非音声区間の音声信号であるかを判定する無音区間検出手段とを有し、
上記書き込み制御手段における破棄または二度蓄積する音声信号は無音区間または非音声区間の音声信号であることを特徴とする音声信号受信装置。
請求項１乃至４のいずれか記載の音声信号受信装置において、
上記復号手段は、各音声パケットから得た高域音声符号と低域音声符号をそれぞれ復号して高域復号音声信号及び低域復号音声信号を出力し、
上記遅延バッファ手段と上記出力バッファ手段と上記音声波形補間処理手段の組は、復号音声信号として与えられた上記高域復号音声信号を処理して高域出力音声信号を生成する高域用の組と、復号音声信号として与えられた上記低域復号音声信号を処理して低域出力音声信号を生成する低域用の組の２組が設けられており、さらに、
上記高域出力音声信号と上記低域出力音声信号を帯域合成して出力音声信号を生成する帯域合成手段が設けられていることを特徴とする音声信号受信装置。
請求項５記載の音声信号受信装置において、上記高域用の組の遅延バッファ手段と上記低域用の遅延バッファ手段には、同じ値の上記要保持フレーム数が与えられ、それぞれ高域復号音声信号及び低域復号音声信号の削除または挿入によって、上記高域用の遅延バッファ手段と上記低域用の遅延バッファ手段の実際の保持フレーム数が常に同期するように制御する手段が設けられていることを特徴とする音声信号受信装置。
請求項５記載の音声信号受信装置において、上記低域用の遅延バッファ手段は与えられた要保持フレーム数に従って上記低域用の遅延バッファ手段が低域復号音声信号の削除または挿入によって、異なる保持フレーム数の状態に遷移した後に、上記保持フレーム数を上記高域用の遅延バッファ手段に与え、上記高域用の遅延バッファ手段は上記保持フレーム数に合わせて強制的に高域復号音声信号の削除または挿入を実行することを特徴とする音声信号受信装置。
請求項１乃至４のいずれか記載の音声信号受信装置において、上記音声波形補間処理手段は、
上記出力音声バッファ手段内の出力音声信号に含まれる音声パラメータから第１ピッチ長を取得し、上記出力音声信号から上記第１ピッチ長に対応する波形をコピーして上記第１の補間波形を生成する前向き波形生成手段と、
上記遅延バッファ手段内から探索された上記音声信号に含まれる音声パラメータから第２ピッチ長を取得し、上記探索された音声信号から上記第２ピッチ長に対応する波形をコピーして上記第２補間波形を生成する後ろ向き波形生成手段と、
上記第１補間波形と上記第２補間波形の重み付け加算により上記補間音声信号を生成する重み付け加算手段、
とを含むことを特徴とする音声信号受信装置。
請求項１乃至４のいずれか記載の音声信号受信装置において、上記音声波形補間処理手段は、
上記遅延バッファ手段内の、パケットロスのフレームより予め指定されたｊフレーム後の音声信号に含まれる音声パラメータからピッチ長を取得し、上記探索した音声信号から上記ピッチ長に対応する波形をコピーして上記第２補間波形を生成する後ろ向き波形生成手段と、
上記出力音声バッファ手段内の出力音声信号から上記ピッチ長に対応する波形をコピーして上記第１の補間波形を生成する前向き波形生成手段と、
上記第１補間波形と上記第２補間波形の重み付け加算により上記補間音声信号を生成する重み付け加算手段、
とを含むことを特徴とする音声信号受信装置。
音声パケット消失補償方法であり、
(a) 受信した音声パケットを受信バッファに一時的に蓄えるステップと、
(b) 上記受信バッファから、フレーム番号の小さい順に音声パケットを取り出し、音声パケット内の音声符号を復号して、第kフレーム（kはフレーム番号）のPCM形式音声波形信号S _PCM と、フレーム番号差分である相対位置jと、第k-jフレームの音声パラメータP _k-j とがセットになった音声信号を得るステップと、
(c) 取り出すべき音声パケットが上記受信バッファに蓄積されているか否かを判定し、判定結果をパケットロスが発生したか否かを表すパケットロスフラグとして生成するステップと、
(d) 遅延バッファ手段内に保持すべきフレーム数（以下要保持フレーム数）を決定して、遅延バッファ手段に与えるステップと、
(e) 遅延バッファ手段内に保持されているフレーム数が上記要保持フレーム数よりも大きい場合は、復号された上記音声信号を破棄するとともに、フレームバッファに蓄積された音声信号をフレーム番号の小さい順に出力し、遅延バッファ手段内に保持されているフレーム数が上記要保持フレーム数よりも小さい場合は、復号された上記音声信号をフレームバッファに二度蓄積するとともに、フレームバッファに蓄積された音声信号をフレーム番号の小さい順に出力し、遅延バッファ手段内に保持されているフレーム数と上記要保持フレーム数とが等しい場合は、復号された上記音声信号をフレームバッファに蓄積するとともに、フレームバッファに蓄積された音声信号をフレーム番号の小さい順に遅延バッファ手段から出力するステップと、
(f) 出力音声信号を予め決められた時間またはフレーム数だけ出力音声バッファ手段に蓄積するステップと、
(g) 上記遅延バッファ手段から出力すべきフレームがパケットロスであった場合に、上記出力音声バッファ内の出力音声信号の音声波形信号と、上記遅延バッファ手段内の上記パケットロスであるフレームより後のフレームの音声波形信号と、上記遅延バッファ手段内の上記パケットロスであるフレームの音声波形信号に対応する音声パラメータとを用いて補間音声信号を生成するステップと、
(h) 上記遅延バッファ手段から出力すべきフレームがパケットロスでなければ上記遅延バッファ手段からの音声信号を出力音声信号として出力し、パケットロスであれば上記音声波形補間処理手段からの上記補間音声信号を出力音声信号として出力するステップ、
とを含む音声パケット消失補償方法であって、
上記ステップ(e) は、
遅延バッファ手段内に保持されているフレーム数が上記要保持フレーム数よりも大きい場合は、上記破棄したフレームに続くj-1個の音声信号に含まれる相対位置jの値をj-1に修正し、遅延バッファ手段内に保持されているフレーム数が上記要保持フレーム数よりも小さい場合は、該フレームに続くフレームのj個のフレームの音声信号に含まれる相対位置jの値をj+1に修正するステップ、
とを含むことを特徴とする音声パケット消失補償方法。
請求項１０記載の方法においてさらに、
(i) 上記パケットロスフラグからパケットロスの統計値を求めるステップを含み、
上記ステップ(d) は、
上記パケットロス統計値に基づいて、上記遅延バッファ手段内に保持すべきフレーム数（以下要保持フレーム数）を決定して、上記遅延バッファ手段に与えることを特徴とする音声パケット消失補償方法。
請求項１１記載の方法において、上記ステップ(d) は予めパケットロスの統計値に対する要保持フレーム数を規定した規則を参照して上記パケットロス統計値から上記要保持フレーム数を決定することを特徴とする音声パケット消失補償方法。
請求項１１または１２記載の方法において、上記ステップ(e) は、
(e-1) 復号された上記音声信号が無音区間または非音声区間の音声信号であるかを判定するステップを含み、
上記書き込み制御手段における破棄または二度蓄積する音声信号は無音区間または非音声区間の音声信号であることを特徴とする音声パケット消失補償方法。
請求項１０乃至１３のいずれか記載の音声パケット消失方法をコンピュータで実施するためのプログラム。
請求項１４記載のプログラムを記録した、コンピュータで読み取り可能な記録媒体。