JP2005114814A

JP2005114814A - 音声符号化・復号化方法、音声符号化・復号化装置、音声符号化・復号化プログラム、及びこれを記録した記録媒体

Info

Publication number: JP2005114814A
Application number: JP2003345608A
Authority: JP
Inventors: Yuusuke Hiwazaki; 祐介日和▲崎▼; Naka Omuro; 仲大室; Takeshi Mori; 岳至森; Sachiko Kurihara; 祥子栗原; Akitoshi Kataoka; 章俊片岡
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2003-10-03
Filing date: 2003-10-03
Publication date: 2005-04-28

Abstract

【課題】
中帯域以上の広帯域符号化と狭帯域の電話帯域符号化との相互接続性を得る。
【解決手段】
広帯域音声信号を狭帯域の電話帯域音声信号と、中帯域の高域側音声信号と、広帯域の高域側音声信号とに帯域分割する帯域分割処理と、帯域分割された電話帯域音声信号の周波数特性を高域強調特性に変更する周波数特性補償処理と、周波数特性補償処理が施された電話帯域音声信号と、中帯域の高域側音声信号と広帯域の高域側音声信号のそれぞれを符号化する符号化処理と、各符号化処理された符号化データをパケット信号として送出するパケット構築処理を実行する。
【選択図】図１

Description

本発明は、インターネットを始めとするパケット通信ネットワークにおいて音声を伝送し、音声信号を保存して再生する音声符号化・復号化方法、音声符号化・復号化装置、音声符号化・復号化プログラム、これらを記録した記録媒体に関する。

従来の広帯域音声符号化は、狭帯域の電話帯域（０〜３．４ｋＨｚ）、や中帯域（０〜７ｋＨｚ）、広帯域（０〜１５ｋＨｚ）までの音声信号を帯域分割を行なわず、単一の符号化方法を用いることが多い。電話帯域の音声信号を符号化する例としては、波形符号化としてＧ.711（非特許文献１）に用いられる非線形波形圧縮符号化（μ則・Ａ則ＰＣＭ）や、Ｇ.726（非特許文献２）などに用いられる差分予測波形圧縮符号化波形方式（ＡＤＰＣＭ）が挙げられる。中帯域（0〜7ｋＨｚ）については、ＡＭＲ−ＷＢなどのＣＥＬＰ方式などが挙げられる。
ITU−T (Telecommunication Standardization Sector, International Telecommunication Union), Geneva, Switzerland. ITU−T G.711‐Pulse code modulation (PCM) of voice frequencies, Nov. 1988. ITU−T (Telecommunication Standardization Sector, International Telecommunication Union), Geneva, Switzerland. ITU−T G.726‐40, 32, 24, 16 kbit/s adaptive, differential pulse code modulation (ADPCM), Dec. 1990.

中帯域以上の広帯域符号化と広く一般に普及している狭帯域の電話帯域符号化は相互接続性がない。また、従来技術として挙げた、電話帯域符号化方式は広く普及しているため、広帯域符号化へ網全体を一遍に変更することは容易ではない。本発明の課題は、広帯域での高品質再生機能を達成しながら、かつ狭帯域の再生能力しかない従来の再生機器における再生をも可能にすることである。

この発明では、広帯域音声信号を狭帯域の電話帯域音声信号と、中帯域の高域側音声信号と、広帯域の高域側音声信号とに帯域分割する帯域分割処理と、帯域分割された電話帯域音声信号の周波数特性を高域強調特性に変更する周波数特性補償処理と、周波数特性補償処理が施された電話帯域音声信号と中帯域の高域側音声信号と広帯域の高域側音声信号のそれぞれを符号化する符号化処理と、各符号化処理された符号化データをパケット信号として送出するパケット構築処理とを含む音声符号化方法を提案する。
この発明では更に、着信したパケット信号を広帯域の高域側音声符号化データ、中帯域の高域側音声符号化データ、電話帯域の音声符号化データに分解するパケット分解処理と、これらの音声符号化データのそれぞれを音声信号に復号化処理する復号化処理と、復号化処理された音声信号を合成し、広帯域信号を再生する合成処理とを含む音声復号化方法を提案する。

この発明によれば帯域分割により広帯域信号から電話帯域の音声信号を分割し、この分割した音声信号の周波数特性を高域強調特性に変更したから、この周波数補償により従来からの電話網での伝送特性によく合致し、従来の電話網への互換が維持され、電話レベルでの音声の再生が可能である。更に、電話帯域の音声信号に加えて中帯域の音声信号の高域側及び広帯域の音声信号の高域側も符号化し、パケットとして伝送するから、中帯域及び広帯域の再生機能を持つ端末でも不足なく忠実度の高い広帯域の音声を再生することができる。

また、本発明によれば、従来型（G.711やG.726）の音声受信機構しか備えない音声受信機構と対に接続する場合は、パケット構築部で、中帯域及び広帯域高域側のデータをパケットに詰めずに電話音声データのみをペイロードとしてネットワークＡＰＩに渡せば、余分に符号化を行なうことなく相互接続が可能となる。
また、ここで本発明はスケーラブル符号化の一種であるため、実施例１に示す図１で与えられる32ｋＨｚサンプリングで入力され符号化された音声信号データパケットを図８に与えても、パケット分解部に擬似広帯域高域側符号データを無視して処理しないようにすれば、問題なく音声が再生できるという利点もある。

帯域分割フィルタはウェーブレット変換技術を利用した帯域分割フィルタバンクで構成することができる。帯域分割フィルタバンクに広帯域入力音声信号を入力し、その出力側に擬似電話帯域音声信号と、擬似中帯域高域側音声信号と、擬似広帯域高域側音声信号を分離して出力する。
擬似中帯域高域側音声信号と擬似広帯域高域側音声信号はそのまま各帯域に適した符号化方法により符号化し、パケット構築部に入力する。
電話帯域音声信号は周波数特性補償部で旧来の電話網における伝送特性に合致させるべく、高域強調特性に補償し、この周波数特性が補償された電話帯域信号を符号化し、パケット構築部に入力する。

パケット構築部では各符号化部から入力される電話帯域音声符号化データ、中帯域高域側符号データ、広帯域高域側符号化データをパケット化し、パケット通信網に送出する。
受信側では着信したパケットをパケット分解部で擬似広帯域高域側符号データと、擬似中帯域高域側符号データと、擬似電話帯域符号データに分解し、これらを復号部で音声信号に復号し、復号した音声信号を再合成フィルタバンクで合成し、広帯域の音声信号を再生する。
電話帯域のみを利用する場合は送信側では電話帯域音声信号のみを符号化し、パケットとして送信すればよく、また中帯域の音声信号を伝送する場合は電話帯域と中帯域の高域側音声信号を符号化し、この符号化データをパケットとして伝送すればよく、広帯域の信号を伝送するには電話帯域の音声信号と、中帯域の高域側音声信号と広帯域の高域側音声信号を符号化し、これらの符号データをパケットとして伝送すればよい。広帯域の音声信号の伝送中又は中帯域の音声信号の伝送中のどの状態でも、電話帯域の再生機能しか持たない端末は電話帯域のデータだけを用いて音声を再生することができる。

更にまた、帯域分割手段として双直交フィルタバンクを用いると、基本的には符号化及び復号化の処理を経て得られる信号に重畳される雑音信号（すなわち復号化信号と原信号との差分信号）が合成時に直交化されて加算されるため、再合成フィルタ通過時にノイズが加算されて強調されることがなく、符号化などの処理には都合が良い。つまり、通常のoverlap and add方式のフィルタバンクより、双直交変換あるいはそれに準ずる変換方式を用いれば雑音信号の影響を低減することができる。ここで、帯域分割方法には従来から用いられるQMF(Quadrature Mirror Filter)などが挙げられる。このような変換は厳密には「フレーム」と呼ばれ、数学的にもそのような特性を持つことが証明されている（参考文献１）。

そのような条件を満たすフィルタバンクには、離散フーリエ変換（DFT）や離散ウェーブレット変換（DWT）（参考文献２）などが考えられるが、本実施例では高速離散ウェーブレット変換（FWT）（参考文献３）を用いた場合の実装について述べる。ここで、ウェーブレット変換を用いる理由としては、人間の聴覚は、低い周波数帯域では時間分解能よりも周波数分解能の方が重要で逆に高い周波数帯域では周波数分解能よりも時間分解能の方が重要であるということに基づく。つまり、例えば32ｋＨｚサンプリングの音声信号を符号化する場合には15ｋＨｚを電話帯域（0〜4ｋＨｚ帯域）と中帯域の高域（4〜8ｋＨｚ）、そして残りの広帯域の高域（8〜15ｋＨｚ）と分割した方が既存の符号化方式にも適用しやすく、また人間の聴覚特性とも一致する。また、ウェーブレット分解によって得られるウェーブレット展開係数やスケーリング係数は、サンプリング変換に必要な低域通過フィルタ処理とサンプル間引き処理を同時に行うので高速に処理が可能であるという利点もある。
［参考文献１］
S. Mallat. A Wavelet Tour of Signal Processing. Academic Press, San Diego, 2nd edition, 1999.
［参考文献２］
G. Strang and T. Nguyen. Wavelets and Filter Banks. Wellesley‐Ca‐
Mbridge Press, Wallesley, MA, 1996.
［参考文献３］
I. Daubechies. Ten Lectures on Wavelets. SIAM, Philadelphia, PN, 1992.
基底（厳密には「フレーム基底」）としては、Mayers, Daubechies、Mexican Hatなど多数挙げられるが、Symmletを用い、１４タップ長程度のものを用いることとする。このウェーブレット基底は時間領域では係数が比較的対称な形を持つという性質を持つため、時間領域の局所化の妥当性が高く、効率の良い符号化結果が望める。タップ数は大きくなると分割した帯域の重なりが減り、低域だけを再生した時にエイリアジングによる雑音が低減できるというメリットがあるが、演算量が増加してしまうためあまり好ましくない。

電話帯域音声信号の符号化に、既存のG.711やG.726などの高音質な符号化方式を用いても、本来それらが入力として期待するIRS特性（高域強調特性）に沿わない入力信号（例えば平坦の周波数特性の信号）が与えられると、本来の性能を発揮できず雑音が顕著に知覚できるようになってしまうため、周波数特性補償を用いれば、高音質の符号化処理が可能で、相互接続性を保つことができる。
しかし、周波数特性の補償だけでは、広帯域音声として再生した場合、低域が欠落しているために、臨場感のない信号しか再生できない。ここで、２段目に原音との差分信号を量子化するような機構を入れれば電話帯域のみの再生と広帯域の再生の双方の品質を高品質に保つことができる。

また、周波数特性の補償は音声信号の場合、信号のパワーはほぼ低域に集中していることにより、周波数特性補正により多くのパワーを損失し、明瞭性が低下する可能性がある。その音質劣化を回避するためには、利得調整を行えばよいのだが、逆に広帯域で再生する場合には、パワーが増大して不一致ができてしまう。ここで、受信機構では補正利得を乗ずることによって、その状態を回避することが可能となる。

図１に本発明の音声符号化方法を実施した場合の送信側のブロック図を示す。
本実施例では、広帯域入力音声信号を入力とする。この入力音声信号は、３２ｋＨｚサンプリングでも良いし、それより大きなサンプリング周波数の信号を入力とする場合には、予め３２ｋＨｚまでダウンサンプリングしておく必要がある。
本実施例で述べる処理系は、実時間処理を目的とするため通常５ｍｓ〜５０ｍｓ程度の短時間処理フレーム毎の処理が行われる。もちろん、オフラインで実施するのであれば、メモリの許す限り信号を保存して一括処理をしても同じ結果が得られる。

まず広帯域入力音声信号を帯域分割フィルタバンク１０を用いて分割し、擬似電話帯域音声信号と擬似中帯域高域側音声信号、擬似広帯域高域側音声信号を得る。この帯域分割には、双直交変換であるフィルタバンクを用いる。そのような条件を満たすフィルタバンクとしては、一般的なＱＭＦ(Quadrature Mirror Filter)や高速ウェーブレット変換（ＦＷＴ）を用いたフィルタバンクなどが挙げられる。ＦＷＴを用いた帯域分割フィルタバンク１０の実装例を図２に示す。ここでは、スケーリング係数分析フィルタ１０−１と、ウェーブレット展開係数分析フィルタ１０−２と、スケーリング係数分析フィルタ１０‐３と、ウェーブレット展開係数分析フィルタ１０−４とによって構成した場合を示す。ここで得られる各帯域の音声信号はウェーブレット分析で得られるスケーリング係数及びウェーブレット展開係数であるため、擬似電話帯域音声信号や擬似中帯域高域側音声信号、擬似広帯域高域側音声信号と呼ぶ。

こうして得られた擬似電話帯域音声信号（低域音声信号）は周波数特性補償部１１で、周波数特性を平坦なものから、ＩＲＳ特性等に代表される従来の電話器から出力される信号の周波数特性に準ずるものに変更される。ここでのＩＲＳ特性（参考文献４）とは、図３のような緩やかな高域強調特性を持つ。この周波数特性の操作には１０〜２０タップのＦＩＲフィルタとして実装する。また、ＩＲＳに準ずる周波数特性とは、図４に示すような、擬似ＩＲＳ特性として高域通過フィルタを代用することで聴感的に同じ効果を得られる。この場合より短いタップ長のフィルタで実装が可能である。
［参考文献４］
ITU−T (Telecommunication Standardization Sector, International Telecommunication Union), Geneva, Switzerland. ITU−T P.830 Anner D‐modifired IRS send and receive characteristics, Feb. 1996.
次に周波数特性補償部１１を経た信号は利得調整部１２で利得調整をされる。この利得調整部１２では音声通信の場合ならば１．０〜４．０の範囲の値を取る定数gをサンプルに乗ずることである。

こうして得られた擬似電話帯域音声信号は電話帯域符号化部１３で符号化される。このとき、電話帯域符号化部１３は、従来の波形符号化方法を用いるが圧縮符号化を行なわなずに、デジタルデータそのままを送信しても良い。
これと共に、擬似電話帯域音声信号は、位相遅れ補償部１４で位相操作が行われる。この位相遅れ補償部１４は、原音声信号をバッファリングして電話帯域信号を遅れさせる機能を持つ。この位相遅れ補償部１４は、位相のみを操作する全通過フィルタとしても実装することも可能である。この位相遅れは、周波数特性補償部１１を経由して得られる位相遅れと一致しているものを用いるが、周波数特性補償部１１がＦＩＲフィルタで実装されている場合、そのフィルタのタップ長の半分だけ遅れさせればよい。

次に位相遅れが補償された原擬似電話帯域音声信号は、周波数特性を変更された信号との差分を減算部１５でとり、電話帯域補償符号化部１６に渡され、符号化される。
中帯域高域側（4〜8ｋＨｚ帯域）および広帯域の高域側（8〜16ｋＨｚ帯域）の信号はそれぞれ符号化部１７および１８に渡されて符号化データを得る。通常従来の電話帯域の符号化方式では広帯域を用いないため、これらの符号化方式は独自のものを用いてもよいし、従来の電話帯域符号化を用いても同じ効果が得られる。
その後、これらの符号化データはパケット構築部１９に渡され、ＩＰパケットのペイロードデータとしてネットワークＡＰＩに渡されてＩＰネットワークに伝送される。この時、各帯域の符号データの優先度を演算し、優先度毎にパケット化して伝送することも可能である。尚この優先度付きパケット出力方法に関しては後に詳しく説明する。

図５に本発明の音声復合化方法を実施した場合の受信側の機構ブロック図を示す。ここでは、ネットワークＡＰＩから受信したパケットのペイロード部分からパケット分解部５０で擬似電話帯域補償符号データ、擬似電話帯域符号データおよび擬似中帯域高域側符号データ、擬似広帯域高域側符号データを分割し、それぞれ対応する復号部５１、５２、５３、５４に渡す。
電話帯域復号部以外の復号部５３、５４から出力された各信号は、位相遅れ補償部５５でそれぞれ位相遅れ補償を施される。送信側で述べたとおり、この位相遅れ補償は信号のサンプルを遅れさせるバッファとして実装しても良いし、位相のみを操作する全通過フィルタとして実装することもできる。ここでは行う位相操作には図１に示した送信機構の位相遅れ補償部１４と同じものを用いることができる。

電話帯域復号部５２から得られる信号については、利得補償部５６で補正利得を乗じる。この補正利得は、送信機構（図１）で用いた利得gの逆数（1/g）を用いる。この信号は加算部５７で位相遅れ補償された電話帯域補償信号との和を取り、擬似電話帯域再生信号とする。
こうして擬似電話帯域復号信号、擬似中帯域高域側復号信号、擬似広帯域広域側復号信号は再合成フィルタバンク５８へと渡され、広帯域音声に再合成される。このときの逆ＦＷＴによる再合成フィルタバンクの実装例を図６に示す。図６に示す例では再合成フィルタバンク５８を２個のスケーリング係数合成フィルタ５８−１および５８−３と２個のウェーブレット展開係数合成フィルタ５８−２、５８−４とによって構成した場合を示す。

再合成フィルタバンク５８を経て得られた広帯域音声信号は32ｋＨｚよりも大きい所望のサンプリング周波数にアップサンプリングされる。32ｋＨｚサンプリングのまま使用する場合は、アップサンプリングの必要はない。
なお、従来型（G.711やG.726）の音声受信機構しか備えない音声送信機構と対に接続する場合は、中帯域および広帯域高域側のデータに０を詰めて再合成フィルタバンク５８を通過させることにより相互接続が可能となる。また、電話帯域復号部５２のみを動かし、得られた8ｋＨｚサンプリングの再生音声信号を32ｋＨｚにアップサンプリングすることにより同じ効果を得ることができ、低演算量で実現することも可能である。

上述した実施例では、まず32ｋＨｚサンプリングの広帯域高域側音声を符号化する例を挙げたが、拡声系を用いた音声会議システムに於いては16ｋＨｚサンプリングの中帯域高域側音声でも十分とされる場合がある。そのような入力音声信号に適用する場合には、帯域分割フィルタバンク１０は電話帯域が出力できるよう電話帯域音声信号と中帯域高音側音声信号の２分割で実装が可能となり、広帯域高域側音声信号を符号化および復号する機構は不要となる。この実装のブロック図を図７に示す。これに対となる受信機構のブロック図を図８に示す。また、その場合の帯域分割フィルタバンク１０および再合成フィルタバンク５８の実装例をそれぞれ図９と図１０に示す。

図１１に、実施例１の機構に１段目の電話帯域符号化部１３で発生する雑音を２段目の電話帯域符号化部で補償する形の実施例を示す。
ここでは、１段目の電話帯域符号化器１３から得られた符号データを電話帯域復号部１１１で復号し得られた信号に、利得補償部１１２で補正利得を乗じ、位相遅れ補償部１４で位相補償された擬似電話帯域信号との差分信号を減算部１１３で求め、電話帯域補償符号化器１１４に与える。利得補償部１１２の補正利得は、実施例１の受信側と同様に、利得gの逆数（1/g）を用いる。

ここで得られる効果は、もし１段目の電話帯域符号化部１３で十分なＳＮＲが得られない場合、補償符号化で１段目で発生する雑音を含んだ形で符号化するため、受信側で雑音を相殺することができ、再生される音声の品質向上が望めることである。
これと対に用いる音声受信機構には、図５と同じものを用いる。
上述したこの発明の音声符号化装置および音声復号化装置はコンピュータにより機能させることもできる。その場合は上述したこの発明の方法の各ステップをコンピュータに実行させるためのプログラムをＣＤ−ＲＯＭ、磁気ディスクなどの記録媒体から当該装置として機能させるコンピュータにインストールし、或は通信回線を介してダウンロードして実行させればよい。

以下では優先度付パケット信号の出力方法に関して説明する。
与えられたネットワークやシステム資源（音声、映像など）を用いて最大の効果が得られるように、各メディアの品質（アプリケーション品質）を調整することを、インターネットで自動的に制御する技術、いわゆるインターネットＱｏＳ（Quality of Service）制御技術として、DiffServ（参考文献５、６）が注目されている。この手法は特にネットワークに入るパケットを予め優先度でクラス分けしておき、輻輳時に各ネットワークロードで優先度の低いパケットから破棄する仕組みである。この仕組みを音声通信で利用するためには、音声の処理単位（すなわちパケット）毎に優先度が演算されているようにしておけば有効なネットワークの活用ができる。

一般に音声信号伝送に用いられているＶＡＤ（Voice Activity Detection）（参考文献７）は、基本的には音声信号の有無の制御に主眼が置かれ、音声区間と非音声区間と２つの粗い区別しかなかった。つまり従来の音声信号パケットにおいては、音声区間を高い優先度とし、無音区間を低い優先度とする２段階しかなかった。
［参考文献５］
IETF‐RFC2474 : Definition of the Differentiated Services Field （DS Field）in the IPv4 and IPv6 Headers,1998.
［参考文献６］
IETF‐RFC2475 : An architecture for Differentiated Services,1998.
［参考文献７］
3GPP : ETSI TS 146 032, “Digital cellular telecommunications system (Phase 2+) ; Voice Activity Detection (VAD) , 2002
今後普及するであろう音声、音楽、映像とデータとの統合ネットワ−ク環境では一般的なピーク伝送レートの高い「データ通信」と、伝送レートが低くとも遅延時間が品質劣化に直接結びついてしまう「音声、音楽、映像通信」とが効率良く混在する必要がある。この場合滑らかな階段の優先度を持つパケットを生成して音声、楽音や映像などを品質を落とさずに効率良く伝送を可能とすることが望まれる。

このような要求に応えるべく、本出願人は特願２００３−６３４４５号にて滑らかな優先度を持つパケットを生成し、楽音や映像などを品質を落とさずに効率良く伝送を可能としたディジタル信号パケット出力方法を提案した。
この先願の方法によればディジタル信号をフレームごとに分割し、その分割されたフレーム毎のディジタル信号を符号化し、上記符号化に基づく特徴量又は／及び上記ディジタル信号の特徴量を説明変数として求め、上記説明変数の複数個を線形結合して指標値を求め、その指標値を量子化して優先度を求め、この優先度と上記符号化の符号とをパケットとして出力する。

更に好ましくはディジタル信号をフレームごとに複数帯域に分割し、各帯粋ごとのディジタル信号を符号化し、フレーム及び帯域毎に符号化に基づく特徴量、及び／又は帯域毎の各ディジタル信号の特徴量の複数個を説明変数として求め、これら説明変数を１時結合して１つの指標値を求め、その指標値を量子化し優先度を求め、フレーム及び帯域毎のその優先度及び符号化符号を組みとし、少なくともその組の一つを含むパケットとして出力する。フレームが消失した場合に、その説明変数が主観評価値に与える影響度を線形結合の各係数と対応づけて決定する。

図１２に先願の第１実施形態を示す。入力端子１２１１からの各サンプルがディジタル値とされた音声ディジタル信号（以下音声信号と記す）ｓ［ｎ］はこの種の一般的な符号化器と同様に５ミリ秒から２０ミリ秒の単位のフレームにフレーム分割部１２１２で分割され、各フレーム毎に、つまり音声信号ｓ［ｎ］（ｎは離散的時刻）がまとめてＮサンプル毎に符号化部１２１３で符号化される。例えば３２ｋＨｚサンプリングの音声信号であれば、Ｎ＝１６０サンプルからＮ＝６４０サンプルである。またフレーム毎にパケットの優先度を優先度決定部１２１４で決定する。優先度決定部１２１４の具体例を図１３に示す。この例ではそのフレームの音声信号ｓ［ｎ］の特徴量を、複数の説明変数生成部１３１１、１３１２、１３１３でそれぞれ説明変数ｘ１［ｉ］、ｘ２［ｉ］、ｘ３［ｉ］として生成する。ｉ番目の処理フレームの説明変数をｘｊ［ｉ］として、そのフレームの音声信号ｓ［ｎ］を入力して、その絶対電力を説明変数生成部１３１１で次式（１）を計算して求める。

ｘ１［ｉ］＝（１／Ｎ）Σ_ｎ＝１ ^Ｎｓ［Ｎｉ＋ｎ］^２（１）
あるいは、次式（２）に示すように絶対電力の対数表現としてｘ１［ｉ］を求める。
ｘ１［ｉ］＝ｌｏｇ_１０（（１／Ｎ）Σ_ｎ＝１ ^Ｎｓ［Ｎｉ＋ｎ］^２）（２）
説明変数生成部１３１２では説明変数生成部１３１１よりの説明変数ｘ１［ｉ］と、前フレーム（ｉ−１）の説明変数ｘ１［ｉ−１］を入力して現フレームの電力の前フレームの電力に対する比を次式（３）により計算して説明変数ｘ２［ｉ］を出力する。

ｘ２［ｉ］＝ｘ１［ｉ］／（ｘ１［ｉ−１］）（３）
前フレームの説明変数ｘ１［ｉ−１］を前フレームバッファ１３１２ａに格納しておき、式（３）の計算を計算部１３１２ｂで行い、現フレームの説明変数ｘ１「ｉ」で前フレームバッファ１３１２ａに保持する説明変数を更新する。
更に説明変数生成部１３１３では音声信号ｓ「ｎ」を入力して、その自己相関関数（ρ［ｎ］）の最大値（周期性）を次式（４）により計算して説明変数ｘ３［ｉ］とする。
ｘ３［ｉ］＝ｍａｘ（ρ_ｉ［ｋ］）（４）
ここで正規化された自己相関関数ρ［ｎ］は、次式（５）を用いて計算する。

ρ_ｉ［ｋ］＝Σ_ｎ＝０ ^Ｎ（ｓ［Ｎｉ＋ｎ］）（ｓ［Ｎｉ＋ｎ＋ｋ］）／
Σ_ｎ＝０ ^Ｎ（ｓ［Ｎｉ＋ｎ］）^２（５）
ｋは１、２…とし、ｋの最大値は音声信号ｓ［ｎ］のピッチ周期相当程度とする。この時、自己相関関数をアップサンプリングして、つまり補間してより正確な値を計算するようにした方が良い結果が得られる。
これら求めた説明変数ｘ１［ｉ］、ｘ２［ｉ］、ｘ３［ｉ］を指標値計算部１３１４で線形結合して指標値ｙ［ｉ］を求める。つまり例えば次式（６）、（７）を計算する。

ｙ［ｉ］＝α０＋Σ_ｊ＝１ ^３αｊｘｊ［ｉ］＾（６）
ｘｊ［ｉ］＾は説明変数ｘｊの確率分布の平均を０、分散を１に正規化したもの、つまり次式（７）で求まる。
ｘｊ［ｉ］＾＝（ｘｊ［ｉ］−ｘｊ´）／γｊ（７）
ｘｊ´、γｊはそれぞれ説明変数ｘｊの平均値、標準偏差である。
これらの線形結合係数α０、α１は重回帰分析（例えば奥野忠−他：多変量解析法（改訂版）、日科技連、１９８１参照）を用いて事前に最適化した偏回帰係数値を用いる。例えば１つのパケット（フレーム）を消失させたときの受聴者が主観評価したＭＯＳ値をｙ［ｉ］´とした時、このｙ［ｉ］´と式（６）により計算された指標値ｙ［ｉ］との誤差が最小となるように、最小自乗法を用いて、係数αｊを求める。α０はＭＯＳ値１〜５の平均値である。ここでＭＯＳ値１は「非常に悪い」、ＭＯＳ値５は「非常に良い」と対応する。

係数α０〜α３は、このように決められるから、αｊの絶対値が大きいことはその説明変数（特徴量）がパケット（フレーム）消失時の主観評価品質に大きく影響し、αｊの絶対値が小さければその説明変数（特徴量）はパケット（フレーム）消失時の主観評価品質への影響が比較的小さいことになる。つまり主観評価品質への影響度が大きい程、係数αｊが大きくなるようにαｊが決定されている。また指標値ｙ［ｉ］は複数の説明変数（特徴量）ｘ１［ｉ］〜ｘ３［ｉ］を係数α１〜α３を用いて線形結合させたものであるから、１つの説明変数（特徴量）のみにて、パケット（フレーム）消失の主観評価品質に与える影響の程度よりも、より正しく、影響の程度を示すことになる。主観評価品質に対して大きく影響を与えるフレーム、この場合音声であるから聴感的に重要なものは指標値ｙ［ｉ］が小さくなり、重要でないものは指標値が大きくなる傾向になる。

図１３中の指標値計算部１３１４において、各説明変数ｘ１〜ｘ３はそれぞれ正規化部１３１４ａ１〜１３１４ａ３で正規化され、正規化説明変数ｘ１〜ｘ３はそれぞれ正規化部１３１４ｂ１〜１３１４ｂ３で係数α１〜α３がそれぞれ乗算され、これら乗算結果と定数α０は加算部１３１４ｃ１、１３１４ｃ２により加算されて指標値ｙ［ｉ］が出力される。
こうして求められた指標値ｙ［ｉ］は、量子化部１３１５でスカラ量子化され、離散的な値、例えば０、１、…、７の何れかの値の優先度ｐ［ｉ］が出力される。つまり一般的に指標値の小さいパケットは高優先度のものへ、大きいものは低優先度のものへと写像する。写像は以下のような関数で表わすことができる。

ｐ［ｉ］＝ｆ（ｙ［ｉ］）（８）
このとき用いる写像関数ｆ（ｙ）は、パケットを総優先度ステップ数に写像するスカラ量子化を用いればよい。このときの量子化のしきい値は、指標値ｙ「ｉ」を等確率で分割する方法や、指標値ｙ［ｉ］の範囲を等分割する等の方法がある。
線形結合係数の各値は例えばα１＝−０．３７、α２＝−０．１、α３＝−０．２であり、その絶対値が大きい程、主観評価品質への影響が大きい。これらの３つの説明変数（特徴量）において絶対電力が大きいフレームが消失すると、主観評価品質への影響が最も大きい、これは音声信号中の大きなレベルのフレームが消失すれば大きな影響を与えることを意味している。自己相関関数の最大値が大きいフレームが消失すると主観評価品質への影響は次に大きい。このことは、そのフレームの絶対電力が小さくても、音声信号があれば、自己相関関数の最大値が大きくなり、そのように音声信号を含むフレームの消失は小さい絶対電力でも比較的大きく影響することを意味している。

従って、説明変数ｘ１〜ｘ３のうち少なくともｘ１とｘ３を用い、更にｘ２も用いると、一層なめらかな階段をもつ優先度ｐ「ｉ」が得られ、そのフレームの消失の主観評価品質への影響がより正確になる。以上の具体例は係数が負の値であり、評価値ｙ［ｉ］が小さい程、高い優先度ｐ［ｉ］とされる。
このようにして各フレームごとに決定された優先度ｐ［ｉ］は符号化部１２１３よりのそのフレームｉの符号Ｐ「ｉ」と、パケット送出部１２１５（図１２）でパケットとして組立てられて出力される。

第２実施形態
この第２実施形態は広帯域音声信号を複数帯域に分割して符号化を行なう場合に適用したものである。
図１４に示すように広帯域音声信号はフレーム分割部１２１２で一定区間ごとのフレームに分割され、帯域分割部１４１１で帯域通過フィルタを用いてＦ個の複数帯域に分割される。この帯域の分割方法は、音声信号ｓ［ｎ］が例えば１６ｋＨｚサンプリングであれば上下各４ｋＨｚ帯域（Ｆ＝２）に分割し、３２ｋＨｚサンプリングであればＦ＝３で０〜４ｋＨｚ帯域と、４ｋＨｚ〜８ｋＨｚ帯域と、８ｋＨｚ〜１６ｋＨｚ帯域というようにウェーブレットで分割しても良いし、Ｆ＝４で総て等間隔に各４ｋＨｚ帯域に分割しても良い。各帯域分割された音声信号は個々の符号化器で、固定時間長（フレーム）ごとに符号化される。このときの音声ブロック（パケット）の分割イメージを図１５に示す。図１５の例はＦ＝３でフレームごとに各帯域の信号がそれぞれブロック（パケット）とされ、フレームごとに３つのブロック（パケット）が生成されることになる。

図１４に示す例では音声信号を上、下２帯域に分割した場合で、分離された低域音声信号ｓ１［ｎ］、高域音声信号ｓ２［ｎ］はそれぞれ低域符号化部１４１２Ｌ、高域符号化部１４１２Ｈで符号化される。また低域音声信号ｓ１［ｎ］、高域音声信号ｓ２［ｎ］はそれぞれ低域優先度決定部１４１３Ｌ、高域優先度決定部１４１３Ｈに入力され、フレームごとのパケット優先度がそれぞれ決定される。
低域優先度決定部１４１３Ｌの具体例を図１６に示す。図１６において図１３と対応する機能構成部分に同一番号を付し、その番号に符号Ｌを付けてある。低域音声信号ｓ１［ｎ］は説明変数生成部１３１１Ｌで式（１）又は（２）と同様に絶対電力又はその対数が計算されて説明変数ｘ１［１，ｉ］が生成される。説明変数生成部１３１２Ｌで式（３）と同様に前フレーム電力比が計算されて説明変数ｘ２［１，ｉ］が生成される。また説明変数生成部１３１３Ｌで式（４）、（５）と同様に自己相関関数の最大値が計算されて、説明変数ｘ３［１，ｉ］が生成される。

更にこの実施形態では説明変数生成部１３１６Ｌでこの帯域の絶対電力ｘ１［ｆ，ｉ］と、他帯域の絶対電力とが入力されてこの帯域の絶対電力の総電力に対する比が次式（９）により計算され、説明変数ｘ４［ｆ、ｉ］として出力される。
ｘ４［ｆ，ｉ］＝ｘ１［ｆ，ｉ］／Σ_ｆ＝１ ^Ｆｘ１［ｆ，ｉ］（９）
図１６の例ではＦ＝２であるから、低域のｘ１［１，ｉ］と高域のｘ１［２，ｉ］により
ｘ４［１，ｉ］＝ｘ１［１，ｉ］／（ｘ１［１，ｉ］＋ｘ１［２，ｉ］）
が計算される。

指標値計算部１３１４Ｌで説明変数ｘ１［１，ｉ］、ｘ２［１，ｉ］、ｘ３［１，ｉ］、ｘ４［１，ｉ］が線形結合され、次式による指標値ｙ［１，ｉ］が計算される。
ｙ［１，ｉ］＝α０＋Σ_ｊ＝１ ^４αｊｘｊ［１，ｉ］＾
ｘｊ［１，ｉ］＾＝（ｘｊ［１，ｉ］−ｘｊ［１］´）／γｊ［１］
この指標値ｙ［１，ｉ］は量子化部１３１５Ｌで量子化され、優先度ｐ［１，ｉ］＝ｆ_１（ｙ［１，ｉ］）が出力される。
同様にして高域優先度決定部１４１３Ｈで指標値
ｙ［２，ｉ］＝α０＋Σ_ｊ＝１ ^４αｊｘｊ［２，ｉ］＾
ｘｊ［２，ｉ］＾＝（ｘｊ［２，ｉ］−ｘｊ［２］´）／γｊ［２］
が計算され、更に優先度ｐ［２，ｉ］＝ｆ_２（ｙ［２，ｉ］）が出力される。パケット送出部１２１５は、低域符号化部１４１２Ｌよりの符号化符号Ｐ［１，ｉ］と優先度ｐ［１，ｉ］が１つのパケットとして、また符号化部１４１２Ｈよりの符号化符号Ｐ［２，ｉ］と優先度ｐ［２，ｉ］が１つのパケットとして送出される。

なお一般にＦ個に帯域分割された場合、ｆ番目の帯域の指標値ｙ［ｆ，ｉ］は
ｙ［ｆ，ｉ］＝α０＋Σ_ｊ＝１ ^４αｊｘｊ［ｆ，ｉ］＾
ｘｊ［ｆ，ｉ］＾＝（ｘｊ［ｆ，ｉ］−ｘｊ［ｆ］´）／γｊ［ｆ］
により計算され、優先度ｐ［ｆ，ｉ］はｆ_ｆ（ｙ［ｆ，ｉ］）により求められる。
係数α４は例えば−０．４３であり、α１より大とされる。つまり分割された帯域のフレームの全帯域電力に対する比が大きいことは、その部分に大きな電力の音声信号成分があることになりα１〜α４中で優先度を最も高くすることが好ましいことを意味している。

第３実施形態
第３実施形態は単一帯域の品質スケーラブル符号化器、つまり各種の品質の符号化を行うことができる符号化器を用いて音声を符号化する場合にこの発明を適用した実施形態である。この場合の音声ブロック（パケット）の分割イメージは図１５中に括弧書きで品質ｑとフレームとの関係を示すようになる。またＱ＝２段構成の、一般的な固定処理時間単位で音声信号を符合化する場合に適用した機能構成を図１７に示す。
音声信号ｓ［ｎ］はフレーム分割部１２１２でフレーム単位で分割され、１段目符号化部１４１２‐１でフレームごとに符号化されると共に１段目優先度決定部１４１３−１で優先度ｐ［１，ｉ］が決定される。１段目符号化部１４１２−１よりの符号化符号Ｐ［１，ｉ］は１段目復号化部１７１１−１で復号化され、この復号化信号が音声信号から減算部１７１２−１で差し引かれて、１段目の残差信号（符号化誤差信号）ｅ１［ｎ］が生成される。この残差信号は２段目符号化部１４１２−２でフレームごとに符号化されると共に２段目優先度決定部１４１３−２で優先度ｐ２［２，ｉ］が決定される。２段目符号化部１４１２−２よりの符号化符号Ｐ［２，ｉ］は２段目復号化部１７１１−２で復号化され、その復号化信号が、１段目の残差信号ｅ１［ｎ］から減算部１７１２−２で差し引かれて２段目残差信号ｅ２［ｎ］が生成される。

１段目優先度決定部１４１３−１の具体例を図１８に示す。図１３に示した優先度決定部１２１４と同様に、絶対電力の説明変数ｘ１［１，ｉ］と前フレーム電力比の説明変数ｘ２［１，ｉ］と、自己相関関数最大値の説明変数ｘ３［１，ｉ］とがそれぞれ説明変数生成部１３１１と１３１２と１３１３で生成される。
この第３実施形態では更に説明変数生成部１３１７で符号Ｐ［１，ｉ］の品質、例えば信号に対する雑音比が説明変数ｘ５［１，ｉ］として生成される。すなわち信号電力計算部１３１７ａでＳ＝Σ_ｎ＝１ ^Ｎｓ［Ｎｉ＋ｎ］^２が計算され、また雑音計算部１３１７ｂでＥ＝Σ_ｎ＝１ ^Ｎｅ１［Ｎｉ＋ｎ］^２が計算され、これらの比の対数ｌｏｇ_１０Ｅ／Ｓが対数割算部１３１７ｃで計算され、その結果が説明変数ｘ５［１，ｉ］として出力される。

これら４個の説明変数は指標計算部１３１４で線形結合されて指標値ｙ［１，ｉ］が計算される。例えば先の場合と同様に正規化部１４１４ａｊ（ｊ＝１，…，４）で説明変数ｘｊ［１，ｉ］がそれぞれ正規化され、その正規化値ｘｊ［１，ｉ］＾が線形結合ｙ［１，ｉ］＝α０＋Σ_ｊ＝１ ^４αｊｘｊ［１，ｉ］＾、ｘｊ［１，ｉ］＾＝（ｘｊ［１，ｉ］−ｘｊ［１］´）γｊされる。この指標値ｙ［１，ｉ］は量子化部１３１５で量子化され、１段目優先度ｐ［１，ｉ］が出力される。
２段目優先度ｐ［２，ｉ］も同様に求められる。この場合は図１８中に括弧書きで示しているように、１段目残差信号ｅ１［ｎ］の代わりに２段目残差信号ｅ２［ｎ］がそれぞれ入力され、これら信号に対して同様に処理され、２段目優先度ｐ［２、ｉ］が出力される。

パケット送出部１２１５（図１７）では１段目符号Ｐ［１，ｉ］と優先度ｐ［１，ｉ］を１つのパケットとし、２段目符号Ｐ［２，ｉ］と優先度ｐ［２，ｉ］を１つのパケットとして出力する。
この説明変数ｘ５［ｑ，ｉ］（ｑ＝１，２，…，Ｑ）は符号化に基づく特徴量といえる。これを求める計算式は一般的に示すと以下となる。
ｘ５［ｑ，ｉ］＝ｌｏｇ_１０（Σ_ｎ＝１ ^Ｎｅｑ［Ｎｉ＋ｎ］^２／Σ_ｎ＝１ ^Ｎｓ［Ｎｉ＋ｎ］^２）
この場合の線形結合係数α５は−０．１程度が考えられる。ｑが大きいものは高品質の信号の再生には必要であるが、トラヒックが輻輳している状態では品質よりも伝送される情報の意味内容がより需要であるから、ｑが大きいパケットはｘ５［ｑ，ｉ］が小さくなり、かつα５が比較的小さいから優先度にあまり関与しないようになる。

第４実施形態
一般的なスケーラブル複数帯域符号化器の場合は、第１実施形態に挙げた説明変数ｘ１［ｉ］、ｘ２［ｉ］、ｘ３［ｉ］の他に、第２実施形態に挙げた説明変数ｘ４［ｆ，ｉ］と第３実施形態に挙げた説明変数ｘ５［ｑ，ｉ］の双方を用いて指標値ｙ［ｆ，ｑ，ｉ］の演算を行なう。このときの音声ブロック（パケット）の分割イメージを図１９に示す。
つまり各種サンプリング周波数、各種サンプル量子化精度（振幅ビット数）の組合せを持つ各品質の音声信号に符号化する、いわゆるスケーラブル符号化の場合で、図１９はサンプリング周波数は３段階、量子化精度（品質）も３段階とした場合で周波数帯域がｆ＝１、ｆ＝２、ｆ＝３の３帯域に分割され、振幅ビット長がｑ＝１、ｑ＝２、ｑ＝３の３領域に分割され、互に直交する周波数帯軸（帯域番号）と品質軸（振幅ビット分割番号）と時間軸（フレーム番号）で表わされていた３次現空間における１つの信号ブロック（パケット）として［ｆ，ｑ，ｉ］で識別される。

この場合の各説明変数はそれぞれ次式で求める。帯域ｆ、品質（ビット分割番号ｑ）の音声信号をｓｆｑと表わす。
ｘ１［ｆ，ｑ，ｉ］＝（１／Ｎ）Σ_ｎ＝１ ^Ｎｓｆｑ［Ｎｉ＋ｎ］^２
又はｘ１［ｆ，ｑ，ｉ］＝ｌｏｇ_１０（（１／Ｎ）Σ_ｎ＝１ ^Ｎｓｆｑ［Ｎｉ＋ｎ］）^２
ｘ２［ｆ，ｑ，ｉ］＝ｘ１［ｆ，ｑ，ｉ］／ｘ１［ｆ，ｑ，ｉ−１］
ｘ３［ｆ，ｑ，ｉ］＝ｍａｘ（ρ_{ｆ，ｑ，ｉ}［ｋ］）
ρ_{ｆ，ｑ，ｉ}［ｋ］＝Σ_ｎ＝０ ^Ｎ（ｓｆｑ［Ｎｉ＋ｎ］）（ｓｆｑ［Ｎｉ＋ｎ＋ｋ］）／Σ_ｎ＝０ ^Ｎ（ｓｆｑ［Ｎｉ＋ｎ］）^２
ｘ４［ｆ，ｑ，ｉ］＝ｘ１［ｆ，ｑ，ｉ］／Σ_ｆ＝１ ^Ｆｘ１［ｆ，ｑ，ｉ］
ｘ５［ｆ，ｑ，ｉ］＝ｌｏｇ_１０（Σ_ｎ＝１ ^Ｎｅｆｑ［Ｎｉ＋ｎ］^２／Σ_ｎ＝１ ^Ｎｓｆｑ［Ｎｉ＋ｎ］^２）
指標値ｙ［ｆ，ｑ，ｉ］＝α０＋Σ_ｊ＝１ ^５αｊｘｊ［ｆ，ｑ，ｉ］
優先度ｐ［ｆ，ｑ，ｉ］＝ｆ_ｆ，ｑ（ｙ［ｆ，ｑ，ｉ］）
このようにして決定された優先度ｐ［ｆ，ｑ，ｉ］と対応する符号化符号Ｐ［ｆ，ｑ，ｉ］とを一つのパケットとして送出する。

第５実施形態
上述においては分割された各音声ブロックごとその符号化符号と優先度とを組として
１パケットとして出力したが、第５実施形態では同一優先度の信号ブロックの符号をまとめて１つのパケットとして送出する。
例えば図２０に示すようにフレーム分割された音声信号を、Ｆ個の帯域に帯域分割部１４１１で分割し、これら１〜Ｆ番目の帯域信号をそれぞれ符号化部２０１１−１〜２０１１−Ｆで符号化すると共に優先度決定部２０１２−１〜２０１２−Ｆでそれぞれ優先度を決定する。この第５実施形態ではこれら符号化符号Ｐ［１，ｉ］〜Ｐ［Ｆ，ｉ］と優先度ｐ［１，ｉ］〜ｐ［Ｆ，ｉ］をパケット集約部２０１３に供給し、所定フレーム数ごとに、同一優先度の符号をまとめて、１つのパケットとして送出部１２１５より送出する。
入力音声信号ｓ［ｎ］を例えばウェーブレット分析を用いた０−４ｋＨｚ、４ｋＨｚ−８ｋＨｚ、８−１６ｋＨｚのＦ＝３帯域に分割し、５ｍｓで時間方向に分割し、時間２０ｍｓごとにパケット送出するものとする。各パケット送出番号ｔにおけるフレーム番号ｉ＝１，…，４とし、フレーム番号ｉの帯域番号ｆの信号ブロックの符号化符号をＰ［ｆ，ｉ］と、優先度をｐ［ｆ，ｉ］とそれぞれ表わす。各第ｔ番目の送出区間における各ブロックの符号Ｐ［ｆ、ｉ］と優先度ｐ［ｆ，ｉ］が図２１Ａに示すようになった場合パケット集約部２０１３では図２１Ｂに示すように、同じ優先度を持つブロックをそれぞれ集約して１つのパケットする。この例では優先度ｐ＝４のブロック（１，２）及び（１，３）の符号Ｐ［１，２］、Ｐ［１，３］をまとめ、かつその各符号Ｐ［１，２］、Ｐ［１，３］の帯域−時間座標上の位置情報（１，２）、（１，３）を優先度ｐ＝４のパケットに組み込む。優先度ｐ＝３のパケットには符号Ｐ［２，２］，Ｐ［１，４］とその位置情報（２，２）、（１，４）を組み込む。以下同様に同一優先度の符号をまとめ、その位置情報と共に一つのパケットとして組み込む。

こうして同一の優先順位を持つ符号が集約されたパケットは、この例では２０ｍｓ毎にネットワークへと送出される。このとき、ネットワークの状況に応じて、優先度が低いパケットは品質への影響が少ないので、送出しなくても良い。また、ネットワークの各ノ−ドにおいてトラフィックの混雑状況に応じて低い優先度のパケットは破棄されても通話品質への影響は最小限に留められる。
こうして、ネットワークに送出されたパケットは、受信側において図２２に示すようにパケット分解部２２１１でｔ番目の送出区間の全てのパケット、図２１の場合は優先度ｐ＝１〜ｐ＝４の４つのパケットＰ［１，ｔ］〜Ｐ［４，ｔ］を図２１に示した組立てと逆の手順を経て帯域−時間座標上に再構成し、各帯域符号Ｐ［１，ｉ］〜Ｐ［Ｆ，ｉ］を復号化部２２１２−１〜２２１２−Ｆでそれぞれ帯域音声復号に復号する。このとき、受信側に到達しなかった低い優先度の符号がある場合は、基本的にはその符号に対する復号化部の動作を停止する。高優先度の符号が到達しない場合は、フレーム（ブロック）消失対策をブロック消失補償部２２１３−１〜２２１３−Ｆの対応する部分で行い、品質低下を避ける。このようにして復号され、必要に応じて消失補償された各帯域音声信号は帯域合成部２２１４で合成されて再生音声信号ｓ［ｎ］として出力される。なおパケット分解部２２１１よりブロック消失情報がブロック消失補償部２２１３−１〜２２１３−Ｆへ供給されている。このブロック消失補償は公知の技術により行なえばよい。

図１９に示したように音声信号を３次元座標（空間）にブロック化する第４実施形態の場合も所定のフレーム数ごとに、同一優先度のブロック符号をその位置情報と共にまとめて１つのパケットとして送出するようにしてもよい。
上述では、優先度付パケット出力方法を音声信号に適用したが、音楽信号、映像信号にも適用できる。また符号化に基づく特徴量の説明変数としては次のものなども考えられる。例えば、予測符号化を用いた音声符号化器によっては語頭などのパケットが破棄されると、その後の音声品質（ＳＮ比）が著しく劣化する可能性がある。そのようなパケットが破棄されることによって伝播するＳＮ比の劣化も説明変数ｘｊ（ｍ，ｊ）としてもよい。音声信号の特徴量の説明変数、符号化に基づく特徴量の説明変数の何れも上述した例に限らず、各種のものを使用することができる。

以上説明した優先度付パケット送出方法は図１乃至図１１で説明した本発明の音声符号化方法及び符号化方法に適用することができる。その適用によりトラヒックが輻輳している状況でも通話品質への影響は最小限に留められる効果が得られる。

この発明の音声符号化方法、復号化方法はインターネットのようなパケット通信網で利用することができ、低機能の端末から高機能の端末まで相互接続が可能となる。

この発明の音声符号化方法を実行する音声符号化装置の第１実施例を説明するためのブロック図。図１に示した実施例に用いた帯域分割フィルタバンクの構成を説明するためのブロック図。図１に示した実施例に用いた周波数特性補償部の周波数特性の一例を説明するためのグラフ。図１に示した実施例に用いた周波数特性補償部の周波数特性の他の例を説明するためのグラフ。この発明の音声復号化方法を実行する音声復号化装置の実施例を説明するためのブロック図。図５に示した音声復号化装置に用いた再合成フィルタバンクの構成を説明するためのブロック図。図１に示した音声符号化装置を１６ｋＨｚサンプリングに適用した場合の音声符号化装置の実施例を示すブロック図。図７に示した音声符号化装置で送信したパケットを着信して復号する音声復号化装置の構成を示すブロック図。図７に示した音声符号化装置に用いた帯域分割フィルタバンクの構成の一例を説明するためのブロック図。図８に示した音声復号化装置に用いた再合成フィルタバンクの構成の一例を説明するためのブロック図。この発明の実施例２で説明した音声符号化装置の実施例を説明するためのブロック図。この発明に適用することができる優生度付パケット信号の送出方法の第１実施形態の機能構成例を示すブロック図。図１３中の優先度決定部１２１４の具体的機能構成例を示すブロック図。この優先度付パケット信号の送出方法の第２実施形態の機能構成例を示すブロック図。信号を帯域−時間座標のブロックに分割した例を示す図。図１４中の低域優先度決定部１４１３Ｌの具体的機能構成例を示すブロック図。優先度付パケット送出方法の第３実施形態の機能構成例を示すブロック図。図１７中の１段目優先度決定部１４１３−１の具体的機能構成例を示すブロック図。優先度付パケット送出方法の第４実施形態に用いる品質−帯域−時間の３次元座標に信号をブロック分割する例を示す図。優先度付パケット送出方法の第５実施形態の機能構成例を示すブロック図。図２０の中のパケット集約部２０１３の処理を説明するための図。図２０に示したパケット送出装置と対応するパケット受信装置の機能構成例を示すブロック図。

符号の説明

１０帯域分割フィルタバンク５０パケット分解部
１１周波数特性補償部５１電話帯域補償復号部
１２利得調整部５２電話帯域復号部
１３電話帯域符号化部５３中帯域高域側復号部
１４位相遅れ補償部５４広帯域高域側復号部
１５減算部５５位相遅れ補償部
１６電話帯域補償符号化部５６利得調整部
１７中帯域高域側符号化部５７加算部
１８広帯域高域側符号化部５８再合成フィルタバンク
１９パケット構築部

Claims

広帯域音声信号を狭帯域の電話帯域音声信号と、中帯域の高域側音声信号と、広帯域の高域側音声信号とに帯域分割する帯域分割処理と、
帯域分割された上記電話帯域音声信号の周波数特性を高域強調特性に変更する周波数特性補償処理と、
周波数特性補償処理が施された電話帯域音声信号と、上記中帯域の高域側音声信号と広帯域の高域側音声信号のそれぞれを符号化する符号化処理と、
各符号化処理された符号化データをパケット信号として送出するパケット構築処理と、
を含むことを特徴とする音声符号化方法。
請求項１記載の音声符号化方法において、上記符号化処理前の上記電話帯域音声信号に利得補償を施すことを特徴とする音声符号化方法。
請求項１又は２記載の音声符号化方法の何れかにおいて、上記各帯域音声信号の優先度を求め、優先度付きディジタル信号パケット出力方法を併用することを特徴とする音声符号化方法。
請求項１乃至３記載の音声符号化方法の何れかにおいて、上記周波数特性補償処理を施した電話帯域音声信号と周波数特性補償処理を施さない電話帯域音声信号との差を求め、この差分信号を符号化処理し、その符号化データを補償符号データとしてパケット化し、送出することを特徴とする音声符号化方法。
請求項１乃至３記載の音声符号化方法の何れかにおいて、上記電話帯域音声信号の符号化処理された符号化データを復号する復号処理と、この復号処理された電話帯域信号と上記周波数特性補償処理しない電話帯域音声信号との差を求める減算処理と、この減算処理で得られた差分信号を符号化する符号化処理と、この符号化処理で得られた補償符号データをパケット信号として送出するパケット構築処理とを付加することを特徴とする音声符号化方法。
着信したパケット信号を広帯域の高域側音声符号化データ、中帯域の高域側音声符号化データと、電話帯域の音声符号化データに分解するパケット分解処理と、
これらの音声符号化データのそれぞれを音声信号に復号化処理する復号化処理と、
復号化処理された音声信号を合成し、広帯域信号を再生する合成処理と、
を含むことを特徴とする音声復号化方法。
請求項６記載の音声復号化方法において、上記パケット分解処理で補償符号データを抽出し、この補償符号データを復号処理し、復号処理した補償成分を上記電話帯域音声信号に加算する処理を付加したことを特徴とする音声復号化方法。
請求項６又は７記載の音声復号化方法の何れかにおいて、上記電話帯域符号化データを復号処理して得られた音声信号に利得補正処理を施すことを特徴とする音声復号化方法。
広帯域音声信号を狭帯域の電話帯域と、中帯域の広域側音声信号と、広帯域の広域側音声信号とに帯域分割する帯域分割部と、
帯域分割された上記電話音声信号の周波数特性を高域強調特性に変更する周波数特性補償部と、
周波数特性補償部で周波数特性補償された電話帯域音声信号と上記中帯域の広域側音声信号と広帯域の広域側音声信号のそれぞれを符号化する符号化部と、
各符号化部で符号化された符号化データをパケット信号として送出するパケット構築部と、
を具備することを特徴とする音声符号化装置。
請求項９記載の音声符号化装置において、上記符号化部に入力される電話帯域音声信号に利得補償を施す利得補償部を付加したことを特徴とする音声符号化装置。
請求項９又は１０記載の音声符号化装置の何れかにおいて、上記周波数特性補償部で周波数特性補償された上記電話帯域音声信号と周波数特性補償を施さない電話帯域信号の差分を求める減算部と、この減算部で減算して求めた差分信号を符号化する符号化部と、この符号化部で符号化した差分符号化データをパケットとして送出するパケット構築部とを具備したことを特徴とする音声符号化装置。
請求項９又は１０記載の音声符号化装置の何れかにおいて、上記電話帯域音声信号の符号化データを復号する復号部と、この復号部で復号した電話帯域信号と上記周波数特性補償部で周波数特性補償しない電話帯域信号との差を求める減算部と、この減算部で得られた差分信号を符号化する符号化処理と、この符号化処理で得られた補償符号データをパケット信号として送出するパケット構築部とを具備したことを特徴とする音声符号化装置。
着信したパケット信号を広帯域の高域側音声符号化データ、中帯域の高域側音声符号化データと、電話帯域の音声符号化データに分解するパケット分解部と、
これらの音声符号化データのそれぞれを音声信号に復号化処理する復号化部と、
復号化処理された音声信号を合成し、広帯域信号を再生する合成部と、
を具備することを特徴とする音声復号化装置。
請求項１３記載の音声復号化装置において、上記パケット分解部で補償符号データを抽出し、この補償符号データを復号処理し、復号処理した補償成分を上記電話帯域音声信号に加算する加算部を付加したことを特徴とする音声復号化装置。
請求項１３又は１４記載の音声復号化装置の何れかにおいて、上記電話帯域符号化データを復号して得られた音声信号に利得補正を施す利得調整部を設けたことを特徴とする音声復号化装置。
コンピュータに請求項１乃至５記載の音声符号化方法の少なくとも一つを各処理ステップに従って実行させる音声符号化プログラム。
コンピュータに請求項６乃至８記載の音声復号化方法の少なくとも一つを各処理ステップに従って実行させる音声復号化プログラム。
コンピュータが読み取り可能な記録媒体で構成され、請求項１６及び１７記載の音声符号化プログラム、音声復号化プログラムの少なくとも一つを記録した記録媒体。