JP6042900B2

JP6042900B2 - 音声信号の帯域選択的量子化方法及び装置

Info

Publication number: JP6042900B2
Application number: JP2014538688A
Authority: JP
Inventors: キュヒョクチョン; ヨンハンリ; キボンホン; ヘジョンジョン; インスンリ; インギュカン; ラギョンキム
Original assignee: LG Electronics Inc
Current assignee: LG Electronics Inc
Priority date: 2011-10-24
Filing date: 2012-05-04
Publication date: 2016-12-14
Anticipated expiration: 2032-05-04
Also published as: EP2772911A4; US20140303967A1; EP2772911B1; WO2013062201A1; EP2772911A1; CN103999153A; KR20140088879A; CN103999153B; JP2014531063A; US9390722B2; KR102052144B1

Description

本発明は、音声信号の帯域選択的量子化方法及びこのような方法を使用する装置に関し、より詳しくは、音声符号化・復号方法及び装置に関する。

音声通信は、現在移動通信において主に使用される方法である。人が発生する音声は電気的なアナログ信号で表現することができ、有線電話は、このアナログ信号を伝送し、受信側では伝送されたアナログ電気信号を音声信号に再生する過程を経る。

情報技術の発達に伴い、既存のアナログ電気信号を伝送するアナログシステムより更に柔軟であり、かつ多くの情報を伝達することができる方法が研究されている。このような理由で音声信号は、アナログからデジタルに変更された。デジタル音声信号は、アナログに比べて伝送に広い帯域幅を必要とするが、信号伝送、柔軟性、セキュリティ、そして他のシステムとの連動など、多くの部分で長所を有する。デジタル音声信号が有する広帯域幅という短所を補完するために音声圧縮技術が開発され、これによって音声信号のアナログからデジタルへの変化が加速され、音声圧縮技術は、現在、情報通信の重要な部分を占めている。

音声コーデック（ｃｏｄｅｃ）は、音声信号を圧縮する際に信号をモデル化する方法によって、１６ｋｂｐｓ以下の中・低伝送速度コーデックと高伝送速度コーデックとに分類することができる。高伝送速度コーデックの場合は波形符号化（ＷａｖｅＦｏｒｍＣｏｄｉｎｇ）方式を使用し、これは、受信部で原信号をどれほど正確に復元できるのかに注目して圧縮する。このような符号化方式を可能にするコーデックを波形符号化器（ＷａｖｅｆｏｒｍＣｏｄｅｒ）という。しかし、中・低伝送速度コーデックでは、原信号を表すことができるビットが少ないため、情報源符号化方式（Ｓｏｕｒｃｅｃｏｄｉｎｇ）を使用して圧縮する。この方式は、音声信号発生モデルを用いて特徴パラメータだけを伝送することによって、受信部でどれほど似た音が復元されるかに注目して符号化する。このような方式のｃｏｄｅｒをボコーダ（ｖｏｃｏｄｅｒ）という。

本発明の目的は、音声符号化効率を向上させるために、音声の周波数帯域別に選択的に量子化及び逆量子化を行う方法を提供することである。

また、本発明の他の目的は、音声符号化効率を向上させるために、周波数帯域別に選択的に量子化及び逆量子化を行う方法を行う装置を提供することである。

上述した本発明の目的を達成するための本発明の一態様による復号方法は、選択的に量子化された音声の周波数帯域で算出された音声パラメータ情報を逆量子化するステップと、逆量子化された音声パラメータ情報に基づいて逆変換を行うステップとを含むことができる。選択的に量子化された音声帯域は、予め決められた固定された少なくとも一つの量子化対象の低周波音声帯域及び選択された少なくとも一つの量子化対象の高周波音声帯域であってよい。選択された少なくとも一つの高周波音声帯域は、音声の周波数帯域のエネルギの分布情報に基づいて選択されたエネルギ比重の高い周波数帯域であってよい。逆量子化された音声パラメータ情報に基づいて逆変換を行うステップは、逆量子化された音声パラメータ情報に基づいて選択された量子化対象の音声帯域に対して、別個の符号表を適用して逆変換を行うステップであってよい。量子化対象の音声帯域は、予め決められた固定された少なくとも一つの量子化対象の低周波音声帯域及び選択された少なくとも一つの量子化対象の高周波音声帯域であってよい。量子化対象の音声帯域に別個の符号表を適用して逆変換を行うステップは、第１の符号表及び逆量子化された量子化対象の低周波音声帯域の音声パラメータに基づいて音声信号を復元し、第２の符号表及び逆量子化された量子化対象の高周波音声帯域の音声パラメータに基づいて音声信号を復元するステップであってよい。逆量子化された音声パラメータ情報に基づいて逆変換を行うステップは、逆量子化された擬似背景雑音（ｃｏｍｆｏｒｔｎｏｉｓｅ）レベルを非量子化対象の音声帯域に適用して音声信号を復元するステップを更に含むことができる。選択的に量子化された音声帯域は、予め決められた固定された少なくとも一つの量子化対象の低周波音声帯域及び選択された少なくとも一つの量子化対象の高周波音声帯域であってよい。選択的に量子化された音声周波数帯域で算出された音声パラメータ情報を逆量子化するステップは、合成分析（ＡｎａｌｙｓｉｓｂｙＳｙｎｔｈｅｓｉｓ、ＡｂＳ）を用いて原信号と最も類似した組合せで選択された量子化対象の高周波音声帯域と、予め決められた固定された少なくとも一つの量子化対象の低周波音声帯域とで算出された音声パラメータ情報を逆量子化するステップであってよい。逆量子化された音声パラメータ情報に基づいて逆変換を行うステップは、量子化対象の高周波音声帯域に逆離散フーリエ変換（ＩＤＦＴ）を使用し、量子化対象の低周波音声帯域に逆高速フーリエ変換（ＩＦＦＴ）を使用して逆変換を行うステップであってよい。

上述した本発明の他の目的を達成するための本発明の他の態様による復号装置は、選択的に量子化された音声周波数帯域で算出された音声パラメータ情報を逆量子化する逆量子化部と、逆量子化部で逆量子化された音声パラメータ情報に基づいて逆変換を行う逆変換部とを備えることができる。選択的に量子化された音声帯域は、予め決められた固定された少なくとも一つの量子化対象の低周波音声帯域及び選択された少なくとも一つの量子化対象の高周波音声帯域であってよい。逆変換部は、逆量子化された音声パラメータ情報に基づいて量子化対象の音声帯域を判断し、量子化対象の音声帯域に別個の符号表を適用して逆変換を行って音声信号を復元する逆変換部であってよい。逆量子化部は、合成分析を用いて原信号と最も類似した組合せで選択された量子化対象の高周波音声帯域と、予め決められた固定された少なくとも一つの量子化対象の低周波音声帯域とで算出された音声パラメータ情報を逆量子化する逆量子化部であってよい。逆変換部は、量子化対象の高周波音声帯域にＩＤＦＴを使用し、量子化対象の低周波音声帯域にＩＦＦＴを使用して逆変換を行う逆変換部であってよい。

上述したように、本発明の実施形態による音声信号の帯域選択的量子化方法及び装置によれば、音声パラメータ情報を量子化するにあって、重要情報を含む一部帯域だけを選択的に量子化することによって、不要な情報を減らして音声符号化効率を高めることができる。また、一部帯域を選択するとき、ＡｂＳ法によって選択するため、時間軸音声信号に最も近い信号を復元することができる。

本発明の実施形態による音声符号化器及び復号器を示した概念図である。本発明の実施形態によるＴＣＸモードを行うＴＣＸモード実行部を示した概念図である。本発明の実施形態によるＣＥＬＰモードを行うＣＥＬＰモード実行部を示した概念図である。本発明の実施形態による音声復号器を示した概念図である。本発明の実施形態によるＴＣＸモードで符号化を行う方法を示した順序図である。本発明の実施形態によるＴＣＸモードで符号化を行う方法を示した順序図である。本発明の実施形態によるＴＣＸモードで符号化を行う方法を示した順序図である。本発明の実施形態による量子化対象帯域選択方法の一例を示した図である。本発明の実施形態による前述した量子化選択帯域の線形予測残余信号の正規化過程の一例を示した図である。本発明の実施形態による擬似背景雑音レベル挿入の効果を示すために、擬似背景雑音の挿入前後の信号を示した図である。本発明の実施形態による擬似背景雑音算出方法を示した概念図である。本発明の実施形態による音声符号化器の一部（ＴＣＸモードブロックの量子化部）を示した概念図である。本発明の実施形態によるＴＣＸモードブロックの逆量子化過程を示した順序図である。本発明の実施形態による音声復号装置の一部（ＴＣＸモードブロックの逆量子化部）を示した概念図である。本発明の実施形態によるＡｂＳ法を使用するＴＣＸモードで符号化を行う方法を示した概念図である。本発明の実施形態による帯域選択ＩＤＦＴがＡｂＳ構造に適用される方法を示した概念図である。本発明の実施形態によるＡｂＳ構造の前段で処理される帯域選択ＩＤＦＴの過程を示した概念図である。本発明の実施形態によるＡｂＳ構造を使用してＴＣＸモードを符号化する方法を示した概念図である。本発明の実施形態によるＡｂＳ構造を使用したＴＣＸモードブロックの逆量子化過程を示した順序図である。本発明の実施形態による音声復号装置の一部（ＡｂＳ構造を使用するＴＣＸモードブロックの逆量子化部）を示した概念図である。ＡｂＳ構造において高周波音声帯域信号の組合せを選択するための比較信号であって、入力音声信号が聴覚認知加重フィルタであるＷ（ｚ）を通過した場合を示した概念図である。ＡｂＳ構造において高周波音声帯域信号の組合せを選択するための比較信号であって、入力音声信号が聴覚認知加重フィルタであるＷ（ｚ）を通過した場合を示した概念図である。ＡｂＳ構造において高周波音声帯域信号の組合せを選択するための比較信号であって、入力音声信号が聴覚認知加重フィルタであるＷ（ｚ）を通過した場合を示した概念図である。

以下、図面を参照して本発明の実施形態について具体的に説明する。本明細書の実施形態を説明するに際して、関連した公知構成又は機能に関する具体的な説明が本明細書の要旨を不明瞭にする恐れがあると判断される場合には、その詳細な説明を省略する。

ある構成要素が他の構成要素に「連結されて」いる又は「接続されて」いると言及されたときには、その他の構成要素に直接的に連結されているか又は接続されていることもあるが、中間に他の構成要素が存在できるとも理解されなければならない。さらに、本発明において特定構成を「含む」と記述する内容は、当該構成以外の構成を排除するものではなく、追加的な構成が本発明の実施又は本発明の技術的思想の範囲に含まれ得ることを意味する。

第１、第２などの用語は、種々の構成要素を説明するのに使用することがあるが、この構成要素等は、この用語等によって限定されてはならない。この用語等は、一つの構成要素を他の構成要素から区別する目的としてだけ使用される。例えば、本発明の権利範囲を逸脱せずに、第１の構成要素を第２の構成要素と呼ぶことができ、同様に、第２の構成要素を第１の構成要素と呼ぶことができる。

また、本発明の実施形態に現れる構成部は、別個の特徴的な機能を表すために独立して図示されるものであって、各構成部が分離されたハードウェア又は一つのソフトウェア構成単位でなされることを意味しない。すなわち、各構成部は、説明の便宜上、個別に配置されるものであって、各構成部のうち、少なくとも２個の構成部を組み合わせて一つの構成部としてもよいし、一つの構成部が複数個の構成部に分けられて機能を果たしてもよい。このような各構成部の統合された実施形態及び分離された実施形態も本発明の本質から外れない限り、本発明の権利範囲に含まれる。

また、一部の構成要素は、本発明で本質的な機能を行う必須な構成要素ではなく、単に性能を向上させるための選択的構成要素であってよい。本発明は、単に性能向上のために使用される構成要素を除いた、本発明の本質を実現するのに必須な構成部だけを含んで実現することができ、単に、性能向上のために使用される選択的構成要素を除いた必須構成要素だけを含む構造も本発明の権利範囲に含まれる。

図１は、本発明の実施形態による音声符号化器を示した概念図である。

図１に示すように、音声符号化器は、帯域幅確認部１０３、サンプリング変換部１０６、前処理部１０９、帯域分割部１１２、線形予測分析部１１５、１１８、線形予測量子化部１２１、１２４、ＴＣＸモード実行部１２７、ＣＥＬＰモード実行部１３６、モード選択部１５１、帯域予測部１５４、及び補償利得予測部１５７を備えることができる。

図１は、音声符号化器を説明するための一つの実施形態であって、本発明の本質から外れない限り、本発明の実施形態による音声符号化器は他の構成を有することができる。また、図１に示された各構成部は、音声符号化器における別個の特徴的な機能を示すために独立して図示したものであって、各構成部が分離されたハードウェア又は一つのソフトウェア構成単位でなされることを意味しない。すなわち、各構成部は、説明の便宜上、各々の構成部を個別に配置したものであって、各構成部のうち、少なくとも２つの構成部を組み合わせて一つの構成部としてもよいし、一つの構成部が複数個の構成部に分けられて機能を果たしてもよい。このような各構成部の統合された実施形態及び分離された実施形態も本発明の本質から外れない限り、本発明の権利範囲に含まれる。また、一部の構成要素は、本発明において本質的な機能を果たす必須な構成要素ではなく、単に性能を向上させるための選択的構成要素であってよい。例えば、音声信号の帯域幅によっては、図１から不要な構成部が除かれた音声符号化器を実現してもよく、このような音声符号化器の実施形態も本発明の権利範囲に含まれる。

本発明は、単に性能向上のために使用される構成要素を除いた、本発明の本質を実現するのに必須な構成部だけを含んで実現することができ、単に性能向上のために使用される選択的構成要素を除いた必須構成要素のみを含む構造も本発明の権利範囲に含まれる。

帯域幅確認部１０３は、入力される音声信号の帯域幅情報を判断することができる。音声信号は、帯域幅によって、約４ｋＨｚの帯域幅を有し、公衆交換電話網（ＰＳＴＮ）で多く使用される狭帯域信号と、約７ｋＨｚの帯域幅を有し狭帯域の音声信号より自然な、高音質音声又はＡＭラジオで多く使用される広帯域信号と、約１４ｋＨｚ程度の帯域幅を有し、音楽、デジタル放送のように音質が重要視される分野で多く使用される超広帯域信号（Ｓｕｐｅｒｗｉｄｅｂａｎｄと）、２０ｋＨｚ程度の帯域幅を有する全帯域（ｆｕｌｌｂａｎｄ）とに分類することができる。帯域幅確認部１０３では、入力された音声信号を周波数領域に変換して現在の音声信号の帯域幅を判断することができる。

音声符号化器では、音声の帯域幅によって符号化動作が変わることがある。例えば、入力音声が超広帯域信号である場合、帯域分割部１１２ブロックだけに入力され、サンプリング変換部１０６は動作しない。入力音声が狭帯域信号又は広帯域信号である場合、信号はサンプリング変換部１０６ブロックだけに入力され、帯域分割部１１２ブロック以後のブロック１１５、１２１、１５７、１５４は動作しない。実施例によっては、入力される音声信号の帯域幅が固定されている場合、帯域幅確認部１０３は音声符号化器に備えられないこともある。

サンプリング変換部１０６は、入力された狭帯域信号又は広帯域信号を一定の標本化速度に変更することができる。例えば、入力された狭帯域音声信号の標本化速度が８ｋＨｚである場合、１２．８ｋＨｚにアップサンプリングして高周波音声帯域信号を生成することができ、入力された広帯域音声信号が１６ｋＨｚである場合、１２．８ｋＨｚにダウンサンプリングを行って低周波音声帯域信号を作ることができる。内部サンプリング周波数は、１２．８ｋＨｚとは異なるサンプリング周波数であってもよい。

前処理部１０９は、サンプリング変換部１０６から変換された内部サンプリング周波数を有した音声信号に対して前処理を行い、前処理部１０９の後段で音声パラメータを効果的に算出できるようにする。例えば、高域通過ろ波又はプリエンファシスろ波のようなろ波を使用して重要な領域の周波数成分を抽出することができる。例えば、音声帯域幅によって遮断周波数を異なるように設定して、相対的に重要さが低い情報が集まっている周波数帯域である超低周波（ｖｅｒｙｌｏｗｆｒｅｑｕｅｎｃｙ）を高域通過ろ波することによって、フォーカスをパラメータ抽出時に必要な重要帯域に合わせることができる。さらに他の例として、プリエンファシスろ波を使用して入力信号の高い周波数帯域を強化し、低周波領域及び高周波領域のエネルギを調整して、線形予測分析の際、解像度を増加させることができる。

帯域分割部１１２は、入力された超広帯域信号のサンプリング周波数を変換し、上位の高周波音声帯域と下位の低周波音声帯域とに分割することができる。例えば、３２ｋＨｚの音声信号を２５．６ｋＨｚのサンプリング周波数に変換し、高周波音声帯域と低周波音声帯域とに１２．８ｋＨｚずつ分割することができる。分割された帯域のうち低周波音声帯域は、前処理部１０９に伝送してろ波することができる。

線形予測分析部１１８は、線形予測係数（ＬｉｎｅａｒＰｒｅｄｉｃｔｉｏｎＣｏｅｆｆｉｃｉｅｎｔ、ＬＰＣ）を算出することができる。線形予測分析部１１８では、音声信号の周波数スペクトルの全体形状を示すフォルマントをモデル化することができる。線形予測分析部１１８では、元の音声信号と、線形予測分析部１１８で算出された線形予測係数を用いて生成した予測音声信号との差である誤差値の平均２乗誤差（ＭＳＥ）が最も小さくなるようにＬＰＣ係数値を算出することができる。ＬＰＣ係数を算出するためには、自己相関法又は共分散法など、様々なＬＰＣ係数算出方法を使用することができる。

線形予測量子化部１２４では、低周波音声帯域音声信号に対して抽出されたＬＰＣ係数をＬＳＰ又はＬＳＦのような周波数領域の変換係数に変換して量子化することができる。ＬＰＣ係数は、大きな変動範囲（ＤｙｎａｍｉｃＲａｎｇｅ）を有するため、このようなＬＰＣ係数をそのまま伝送すると圧縮率が低下する。したがって、周波数領域に変換された変換係数を使用して少ない情報量でＬＰＣ係数情報を生成することができる。線形予測量子化部１２４では、ＬＰＣ係数情報を量子化して符号化し、逆量子化を行って時間領域に変換されたＬＰＣ係数を用いてフォルマント成分を除いた信号であるピッチ情報成分と、ランダム信号を含む線形予測残余信号とを線形予測量子化部１２４の後段に伝送することができる。高周波音声帯域では、線形予測残余信号が補償利得予測部１５７に伝送され、低周波音声帯域では、ＴＣＸモード実行部１２７とＣＥＬＰ実行部１３６とに伝送されることができる。

以下、本発明の実施形態では、狭帯域信号又は広帯域信号の線形予測残余信号を変換符号化励起（ＴｒａｎｓｆｏｒｍＣｏｄｅｄＥｘｃｉｔａｔｉｏｎ、ＴＣＸ）モード又は符号励起線形予測（ＣｏｄｅＥｘｃｉｔｅｄＬｉｎｅａｒＰｒｅｄｉｃｔｉｏｎ、ＣＥＬＰ）モードで符号化する方法について説明する。

図２は、本発明の実施形態によるＴＣＸモードを行うＴＣＸモード実行部を示した概念図である。

ＴＣＸモード実行部は、ＴＣＸ変換部２００、ＴＣＸ量子化部２１０、ＴＣＸ逆変換部２２０、及びＴＣＸ合成部２３０を備えることができる。

ＴＣＸ変換部２００では、ＤＦＴ又は修正離散コサイン変換（ＭＤＣＴ）のような変換関数に基づいて入力された残余信号を周波数領域に変換することができ、変換係数情報をＴＣＸ量子化部２１０に伝送することができる。

ＴＣＸ量子化部２１０では、ＴＣＸ変換部２００を介して変換された変換係数に対して様々な量子化方法を使用して量子化を行うことができる。本発明の実施形態によれば、ＴＣＸ量子化部２１０で選択的に周波数帯域によって量子化を行うことができ、また、ＡｂＳを用いて最適の周波数組合せを算出することができ、このような実施形態については、以下、本発明の実施形態で詳述する。

ＴＣＸ逆変換部２２０では、量子化された情報に基づいて変換部で周波数領域に変換された線形予測残余信号を再度時間領域の励起信号に逆変換することができる。

ＴＣＸ合成部２３０は、逆変換されたＴＣＸモードで量子化された線形予測係数値及び復元された励起信号を用いて合成された音声信号を算出することができる。合成された音声信号は、モード選択部１５１に提供され、ＴＣＸモードで復元された音声信号は、この後、後述するＣＥＬＰモードで量子化され、復元された音声信号と比較される。

図３は、本発明の実施形態によるＣＥＬＰモードを行うＣＥＬＰモード実行部を示した概念図である。

ＣＥＬＰモード実行部は、ピッチ検出部３００、適応符号表検索部３１０、固定符号表検索部３２０、ＣＥＬＰ量子化部３３０、ＣＥＬＰ逆変換部３４０、及びＣＥＬＰ合成部３５０を備えることができる。

ピッチ検出部３００では、線形予測残余信号に基づいてピッチの周期情報及びピーク情報を自己相関法のような開ループ方式で求めることができる。

ピッチ検出部３００では、合成された音声信号と実際の音声信号とを比較してピッチ周期（ピーク値）を算出することができる。算出されたピッチ情報は、ＣＥＬＰ量子化部で量子化され、適応符号表検索部に伝達されてピッチ周期（ピッチ値）をＡｂＳのような方法で算出することができる。

適応符号表検索部３１０は、ピッチ検出部３００で算出された量子化されたピッチ情報に基づいて、ＡｂＳのような方法で線形予測残余信号からピッチ構造を算出することができる。適応符号表検索部３１０では、ピッチ構造を除いた残りのランダム信号成分が算出される。

固定符号表検索部３２０は、適応符号表検索部３１０から算出されたランダム信号成分に対して、符号表インデクス情報及び符号表利得情報を用いて符号化を行うことができる。固定符号表検索部３２０で算出された符号表インデクス情報及び符号表利得情報は、ＣＥＬＰ量子化部３３０で量子化することができる。

ＣＥＬＰ量子化部３３０は、前述したように、ピッチ検出部３００、適応符号表検索部３１０、固定符号表検索部３２０で算出されたピッチ関連情報、及び符号表関連情報を量子化することができる。

ＣＥＬＰ逆変換部３４０は、ＣＥＬＰ量子化部３３０で量子化された情報を利用して励起信号を復元することができる。

ＣＥＬＰ合成部３５０は、逆変換されたＣＥＬＰモードで量子化された線形予測残余信号である復元された励起信号に対して線形予測の逆過程を行って、復元された音声信号及び量子化された線形予測係数に基づいて合成された音声信号を算出することができる。ＣＥＬＰモードで復元された音声信号はモード選択部１５１に提供され、前述したＴＣＸモードで復元された音声信号と比較することができる。

モード選択部１５１では、ＴＣＸモードで復元された励起信号で生成したＴＣＸ復元音声信号と、ＣＥＬＰモードで復元された励起信号で生成したＣＥＬＰ復元音声信号とを比較して、元の音声信号と最も類似した信号を選択することができ、どのモードで符号化されたかに関するモード情報も符号化することができる。選択情報は、帯域予測部１５４に伝送することができる。

帯域予測部１５４では、モード選択部１５１から伝送された選択情報と、復元された励起信号とを用いて高周波音声帯域の予測励起信号を生成することができる。

補償利得予測部１５７は、帯域予測部１５４から伝送された高周波音声帯域予測励起信号と高周波音声帯域予測残余信号とを比較してスペクトル上の利得を補償することができる。

図４は、本発明の実施形態による音声復号器を示した概念図である。

図４に示すように、音声復号器は、逆量子化部４０１、４０２、逆変換部４０５、第１の線形予測合成部４１０、サンプリング変換部４１５、後処理ろ波部４２０、４４５、帯域予測部４４０、利得補償部４３０、第２の線形予測合成部４３５、及び帯域合成部４４０を備えることができる。

逆量子化部４０１、４０２は、音声符号化器で量子化されたパラメータ情報を逆量子化して音声復号器の各構成部に提供することができる。

逆変換部４０５では、ＴＣＸモード又はＣＥＬＰモードで符号化された音声情報を逆変換して励起信号を復元することができる。本発明の実施形態によれば、逆変換部では、音声符号化器で選択された一部帯域に対する逆変換だけを行うことができ、このような実施形態については、以下、本発明の実施形態で詳述する。復元された励起信号は、第１の線形予測合成部４１０と帯域予測部４２５とに伝送することができる。

第１の線形予測合成部４１０は、逆変換部４０５から伝送された励起信号と、音声符号化器から伝送された線形予測係数情報とを利用して低周波音声帯域信号を復元することができる。復元された低周波音声帯域音声信号は、サンプリング変換部４１５と帯域合成部４４０とに伝送されることができる。

帯域予測部４２５は、逆変換部４０５から伝送された復元された励起信号値に基づいて高周波音声帯域の予測励起信号を生成することができる。

利得補償部４３０では、帯域予測部４２５から伝送された高周波音声帯域予測励起信号と、符号化器から伝送された補償利得値とに基づいて超広帯域音声信号のスペクトル上の利得を補償することができる。

第２の高周波音声帯域線形予測合成部４３５は、利得補償部４３０から伝送された補償された高周波音声帯域予測励起信号値と、音声符号化器から伝送された線形予測係数値とに基づいて高周波音声帯域の音声信号を復元することができる。

帯域合成部４４０では、第１の線形予測合成部４１０から伝送された復元された低周波音声帯域信号と、第２の高周波音声帯域線形予測合成部４３５から伝送された復元された高周波音声帯域信号との帯域を合成して帯域合成を行うことができる。

サンプリング変換部４１５では、内部サンプリング周波数値を再度元のサンプリング周波数値に変換することができる。

後処理ろ波部４２０、４４５は、例えば、前処理部でプリエンファシスフィルタの逆ろ波をすることができるデエンファシスフィルタを含んでもよい。このようなろ波だけでなく、後処理ろ波部は、量子化エラーの最小化及び高調波のピークを回復し、谷（ｖａｌｌｅｙ）を抑圧する動作など、種々の後処理動作を行うことができる。

前述したように、図１及び図２で説明した音声符号化器は、本発明で説明された発明が使用される一つの例示であって、本発明の本質から外れない限り、他の音声符号化器の構造を使用することができ、このような実施形態も本発明の本質に含まれる。

図５〜７は、本発明の実施形態によるＴＣＸモードで符号化を行う方法を示した順序図である。

本発明の実施形態によるＴＣＸ符号化方法では、信号の重要度によって量子化を選択的に行う方法を使用することによって、高い符号化効率を有することができる。

図５に示すように、入力された音声信号に対してターゲット信号を算出する（ステップＳ５００）。ターゲット信号は、時間軸で音声サンプル間の短期間相関性を除去した線形予測残余信号である。

Ａｗ（ｚ）は、ＬＰＣ分析及び量子化部を経た後の量子化された線形予測係数ＬＰＣなどからなるフィルタを示す。入力信号は、Ａｗ（ｚ）フィルタを通過して線形予測残余信号を出力することができる。このような線形予測残余信号は、ＴＣＸモードを用いた符号化対象の信号であってよい。

前のフレームがＴＣＸモードでない他のモードで符号化された場合、無入力応答（ＺｅｒｏＩｎｐｕｔＲｅｓｐｏｎｓｅ、ＺＩＲ）を除去する（ステップＳ５１０）。

例えば、前のフレームがＴＣＸモードでないＡＣＥＬＰで符号化されたフレームである場合、前の入力信号による出力値の効果をなくすために、加重された信号から、加重フィルタと合成フィルタとの組合せの無入力応答を除去してもよい。

適応的窓開け（Ａｄａｐｔｉｖｅｗｉｎｄｏｗｉｎｇ）を行う（ステップＳ５２０）。

線形予測残余信号は、前述したように、ＴＣＸ又はＣＥＬＰのように複数個の方法で符号化することができる。連続したフレームが別個の方法で符号化される場合、フレームの境界面で音声品質の低下が起こる可能性がある。したがって、前のフレームが現在フレームと異なるモードで符号化された場合、窓開けを使用してフレーム間の連続性が得られる。

次に変換を行う（ステップＳ５３０）。

窓開けされた線形予測残余信号を、ＤＦＴ又はＭＤＣＴのような変換関数を使用して、時間領域信号から周波数領域信号に変換することができる。

図６に示すように、ステップＳ５３０を介して変換された線形予測残余信号に対してスペクトル予整形（ｓｐｅｃｔｒｕｍｐｒｅｓｈａｐｉｎｇ）及び帯域分割を行う（ステップＳ６００）。

本発明の実施形態による音声信号帯域分割方法は、線形予測残余信号を周波数によって低周波音声帯域と高周波音声帯域とに分けて符号化を行うことができる。帯域を区分する方法を使用することによって、帯域が有する重要度によって量子化を行うか否かを決定することができる。以下、本発明の実施形態では、低周波音声帯域の一部周波数帯域を固定して量子化を行い、残りの上位高周波の周波数帯域のうち、エネルギ比重の高い帯域を選択して量子化を行う方法について説明する。量子化を行う帯域を量子化対象の周波数帯域という用語で表すことができ、また、複数個の固定された低周波音声帯域を固定低周波音声帯域という用語で、選択的に量子化を行う複数個の高周波音声帯域を選択高周波音声帯域という用語で表すことができる。

周波数帯域を高周波音声帯域と低周波音声帯域とに区分し、区分された周波数帯域で量子化を行う周波数帯域を選択することは任意である。したがって、本発明の本質から外れない限り、他の方式の周波数帯域区分方法を使用して周波数帯域を選択することができ、また、各周波数帯域に対して量子化を行う帯域の個数は変えてもよい。このような発明の実施形態も本発明の権利範囲に含まれる。以下、本発明の実施形態では、説明の便宜上、変換方法としてＤＦＴを使用した場合についてだけ説明するが、他の変換方法（例えば、ＭＤＣＴ）を使用することもでき、このような実施形態も本発明の権利範囲に含まれる。

スペクトル予整形を介してＴＣＸモードのターゲット信号は周波数領域の係数に変換される。本発明の実施形態では、説明の便宜上、内部動作サンプリング周波数１２．８ｋＨｚでの２０ｍｓ（２５６サンプル）のフレーム区間を処理する過程を説明するが、フレームサイズの変更によって具体的な値（周波数係数の個数及び帯域分割の特定値など）は任意である。

周波数領域の係数は、２８８サンプルを有する周波数領域に変換することができ、また、変換された周波数領域の信号は、８個のサンプルを有する３６個の帯域に分割することができる。周波数領域の信号は、８個のサンプルを有する３６個の帯域に分割するために、変換係数の実数部と虚数部とを交互に再配置した後、グループ分けする予整形を行うことができる。例えば、２８８サンプルをＤＦＴするとき、周波数領域では、Ｆｓ／２を中心として対称であるため、符号化する係数は１４４個の周波数領域サンプルであってよい。１個の周波数領域係数は実数部及び虚数部で構成される。したがって、量子化するために、実数部と虚数部とを交互に再配置して、２８８個を８個ずつグループ分けして３６個の帯域を生成することができる。

次の式１は、分割された周波数領域信号を示したものである。

このとき、４個の低周波音声帯域（Ｘ_ｎ（ｋ），ｎ＝０，．．．，３）は固定し、３２個の高周波音声帯域のうち、エネルギ分布による重要帯域を４個選択して量子化選択帯域として定義することができる。最終的に量子化選択帯域は、４個の低周波音声帯域及び４個の高周波音声帯域を含む８個の帯域

になる。前述したように、量子化を行うための対象周波数帯域の個数は任意であり、変えることができる。選択された帯域の位置に関する情報は復号器に伝送することができる。

図８は、本発明の実施形態による量子化対象帯域選択方法の一例を示した図である。

図８に示すように、図８の上段で横軸は、元の線形予測残余信号を周波数帯域に変換したときの周波数帯域を示したものである（８００）。前述したように、線形予測残余信号の周波数変換係数は、周波数帯域によって３２個の帯域に分割することができ、元のＬＰ残余信号周波数帯域で低周波音声帯域の固定された４個の帯域（８２０）と、高周波音声帯域の選択的な４個の帯域（８４０）である８個の帯域とが量子化対象帯域として選択され得る。選択される８個の帯域は、低周波音声帯域の固定された４個の帯域を除いた３２個の帯域のうち、エネルギが大きい順に配置し、８個の上位帯域を選択する。

さらに図６を参照すれば、選択された量子化帯域は正規化することができる（ステップＳ６１０）。

量子化対象周波数帯域は、次の式２を使用して選択された帯域別のエネルギ（Ｅ（ｎ），ｎ＝０，．．．，７））を計算して総エネルギＥ_{ｔｏｔａｌ}を算出することができる。

総エネルギは、選択されたサンプルの数で除して、最終的に正規化される利得値Ｇを求めることができる。選択された量子化対象の周波数帯域は、次の式３から算出された利得で除して最終的に正規化された信号Ｍ（ｋ）を得ることができる。

図９は、本発明の実施形態による前述した量子化選択帯域の線形予測残余信号の正規化過程の一例を図示したものである。

図９に示すように、図９の上段は、原線形予測残余信号の周波数変換係数であり、図９の中段は、原周波数変換係数で選択された周波数領域を示したものである。図９の下段は、図９の中段で選択された帯域を正規化した線形予測残余信号の周波数変換係数を示す。

さらに図６を参照すれば、正規化された線形予測残余信号の周波数係数は、帯域別のエネルギ値と平均エネルギ値とを比較して、場合ごとに符号表を異なるように選択して量子化する（ステップＳ６２０）。

符号表の符号語と量子化すべき正規化された信号の最小２乗誤差（ＭＭＳＥ）とを求めて符号表のインデクスを選択することができる。

本発明の実施形態では、所定の数式によって別個の符号表を選択することができる。量子化対象の周波数帯域で量子化された信号の帯域別のエネルギと平均エネルギとを演算して、量子化対象の周波数帯域のエネルギが平均エネルギより大きい場合、大きいエネルギがある帯域でトレーニングされた第１の符号表を選択し、量子化選択帯域のエネルギが平均エネルギより小さい場合、低いエネルギ比率を有する帯域でトレーニングされた第２の符号表を選択する。平均エネルギと量子化する帯域のエネルギとの比較によって選択された符号表に基づいて形状ベクトル量子化（ｓｈａｐｅｖｅｃｔｏｒｑｕａｎｔｉｚａｔｉｏｎ）を行うことができる。式４は、帯域別のエネルギ及び帯域別のエネルギの平均値を示したものである。

スペクトルを逆整形（ｄｅｓｈａｐｉｎｇ）し、量子化された変換係数を逆変換して時間軸の線形予測残余信号を復元する（ステップＳ６３０）。

前述したスペクトル予整形過程の逆過程としてスペクトル逆整形を行うことができ、スペクトル逆整形後、逆変換を行うことができる。

時間領域の全利得を算出する。これは量子化された線形予測残余信号の逆変換を介して得られる（ステップＳ６４０）。

全利得は、ステップＳ５２０の適応的な窓開けを行った線形予測残余信号と、ステップＳ６３０で算出された量子化された係数に逆変換された時間軸予測残余信号とに基づいて算出することができる。

図７に示すように、ステップＳ６４０によって量子化された線形予測残余信号に対して再度適応的窓開けを行う（ステップＳ７００）。

復元された線形予測残余信号に対して適応的に窓開けを行うことができる。

後で伝送される信号から窓開けされた重複信号を除去するために、窓開けされた重複信号を記憶する（ステップＳ７１０）。重複信号は、前述されたＳ５２０での次のフレームと重なる区間と同じであり、記憶される信号は、次のフレームの重ね合わせ／合算過程（Ｓ７２０）で使用される。

ステップＳ７００を介して窓開けされた復元された予測残余信号は、前のフレームで記憶された窓開けされた重複信号を重ね合わせ／合算することによって、フレーム間の不連続性を除去する（ステップＳ７２０）。

擬似背景雑音レベルを算出する（ステップＳ７３０）。

聴覚的に改善された音質を提供するために、擬似背景雑音を使用することができる。

図１０は、本発明の実施形態による擬似背景雑音レベルを挿入する方法を示した概念図である。

図１０の上段は、擬似背景雑音を挿入していない場合、図１０の下段は、擬似背景雑音を挿入した場合を示す。擬似背景雑音は、量子化されていない帯域に満たすことができ、このような擬似背景雑音情報は符号化されて音声復号器に伝送される。音声信号を聴取した場合、擬似背景雑音が挿入されていない信号に対しては、量子化誤差及び帯域の不連続性に対する雑音が聴取されることがあるが、雑音が挿入された信号では、最も安定した音を聴取することができる。

したがって、各フレーム別の雑音のレベルは、下記の過程を介して算出され得る。算出された利得（Ｇ）を用いて原信号Ｘ（ｋ）の上位１８個の帯域に対して正規化過程を行う。正規化過程を経た信号

の帯域別のエネルギが算出され、算出された帯域の総エネルギ

と、平均エネルギ

とが算出される。次の式５は、帯域の総エネルギ及び平均エネルギを算出する過程を示したものである。

上位１８個の帯域に対して

のしきい値を越える帯域に対しては、総エネルギ

から除外することができる。このとき、定数０．８は実験によって求められた加重値であり、異なる値を使用することもできる。これは、擬似背景雑音のレベルが余りに高い場合、量子化された帯域より雑音が挿入された帯域の影響が大きくなって音質に悪影響を与える恐れがあるため、所定のしきい値以下のエネルギだけを用いてレベルを決定する。

図１１は、本発明の実施形態による擬似背景雑音算出方法を示した概念図である。

図１１の上段は、上位１８個の周波数帯域の信号を示す。図１１の中段は、しきい値及び上位１８個の周波数帯域のエネルギ値を示す。しきい値は、前述したように、エネルギの平均値に任意の値をかけて算出することができ、このようなしきい値を越える周波数帯域のエネルギだけを用いてエネルギのレベルを決定することができる。

算出された音声信号（量子化された線形予測残余信号）に対して１／Ａｗ（ｚ）フィルタを適用して音声信号を復元する（ステップＳ７４０）。

ステップＳ５００でＡｗ（ｚ）を使用したこととは反対に、ＬＰＣ係数フィルタである１／Ａｗ（ｚ）フィルタを使用して復元音声信号を生成することができる。ステップＳ７３０とＳ７４０の順序は変えることができ、このような場合も本発明の権利範囲に含まれる。

図１２は、本発明の実施形態による音声符号化器の一部（ＴＣＸモードブロックの量子化部）を示した概念図である。

図１２では、説明の便宜上、音声符号化器の量子化器で下記において説明する動作がすべて起こることと仮定したものであって、他の音声符号化器の構成部で下記において説明した動作が行われてもよく、このような実施形態も本発明の権利範囲に含まれる。

図１２に示すように、音声符号化器の量子化部１２００は、帯域選択部１２１０、正規化部１２２０、符号表判断部１２３０、擬似背景雑音係数算出部１２４０、及び量子化実行部１２５０を備えることができる。

帯域選択部１２１０は、予整形によって帯域を決め、どの帯域を固定低周波音声帯域及び選択高周波音声帯域として選択するかを決定することができる。

正規化部１２２０では、選択された帯域を正規化することができる。前述したように、選択された帯域別のエネルギ、選択されたサンプル数に基づいて正規化する利得値を求め、最終的に、正規化された信号を得る。

符号表判断部１２３０は、所定の判断数式に基づいて当該帯域にどの符号表を適用するかを決定し、符号表インデクス情報を算出することができる。

擬似背景雑音係数算出部１２４０は、所定の周波数帯域に基づいて選択されていない帯域に挿入する雑音レベルを算出することができ、算出された雑音レベル値に基づいて量子化対象でない帯域の雑音係数を計算することができる。音声復号器では、符号化器で量子化された雑音係数に基づいて復元された線形予測残余信号と合成された音声信号を生成することができる。復元された線形予測残余信号は、帯域予測部（図１の１５４）の入力として使用され、復元された線形予測残余信号が１／Ａｗ（ｚ）フィルタを通過して生成された合成された音声信号は、モード選択部１５１の入力として入ってモードを選択するときに使用することができる。また、量子化された雑音係数は、復号器で同じ情報を生成するために量子化して伝送することができる。

量子化実行部１２５０は、符号表インデクス情報を量子化することができる。

図１３は、本発明の実施形態によるＴＣＸモードブロックの逆量子化過程を示した順序図である。

図１３に示すように、音声符号化器で伝送された量子化されたパラメータ情報を逆量子化する（ステップＳ１３００）。

音声符号化器で伝送された量子化されたパラメータ情報には、利得情報、形状情報、雑音係数情報、選択量子化帯域情報などがあってもよく、このような量子化されたパラメータ情報を逆量子化する。

逆量子化されたパラメータ情報に基づいて逆変換を行って音声信号を復元する（ステップＳ１３１０）。

逆量子化されたパラメータ情報に基づいてどの周波数帯域が選択された周波数帯域であるかを判断し（ステップＳ１３１０−１）、判断された結果に応じて選択された周波数帯域には他の符号表を適用して逆変換を行うことができる（ステップＳ１３１０−２）。また、逆量子化された擬似背景雑音レベル情報に基づいて、非選択の周波数帯域に雑音レベルを加えることができる（ステップＳ１３１０−３）。

図１４は、本発明の実施形態による音声復号装置の一部（ＴＣＸモードブロックの逆量子化部）を示した概念図である。

図１４において図１２と同様に、説明の便宜上、音声復号器の逆量子化部と逆変換部とで下記において説明する動作がすべて起こることと仮定したものであって、他の音声符号化器の構成部で下記において説明した動作を行ってもよく、このような実施形態も本発明の権利範囲に含まれる。

音声復号装置は、逆量子化部１４００及び逆変換部１４５０を備えることができる。

逆量子化部１４００は、音声符号化装置で伝送された量子化されたパラメータに基づいて逆量子化を行うことができ、利得情報、形状情報、雑音係数情報、選択量子化帯域情報を算出することができる。

逆変換部１４５０は、周波数帯域判断部１４１０、符号表適用部１４２０、擬似背景雑音係数適用部１４３０を備えることができ、逆量子化された音声パラメータ情報に基づいて音声信号を復元することができる。

周波数帯域判断部１４１０は、現在の周波数帯域が固定低周波音声帯域であるか、選択高周波音声帯域であるか、擬似背景雑音係数適用周波帯域であるかを判断することができる。

符号表適用部１４２０は、周波数帯域判断部によって判断された量子化対象周波数帯域及び逆量子化部１４００によって伝送された符号表インデクス情報に基づいて、固定低周波音声帯域又は選択高周波音声帯域に応じて異なる符号表を適用することができる。

擬似背景雑音係数適用部１４３０は、擬似背景雑音適用周波帯域に逆量子化された擬似背景雑音係数を適用することができる。

図１５〜２０は、本発明の更に他の実施形態であって、ＡｂＳ法を使用してＴＣＸモードの符号化を行う方法を示す。

図１５は、本発明の実施形態によるＡｂＳ法を使用するＴＣＸモードで符号化を行う方法を示した概念図である。

前述した音声符号化器の場合、低周波音声帯域は固定して量子化し、高周波音声帯域のうち、帯域エネルギに基づいて一部の帯域を選択して量子化する方法を使用した。エネルギ分布が信号の符号化時に、一部性能に比例することはあるが、目的信号、すなわち、音声信号と類似したエネルギ分布を有する周波数帯域のうち、実際音質に影響を及ぼす帯域を選択することが更に重要なことがある。

実際ＴＣＸモードの量子化ターゲット信号は、聴覚的に聴取される原信号ではなく、Ａｗ（ｚ）フィルタを経た残余信号である。したがって、エネルギが類似する場合、ＬＰＣ合成フィルタ（１／Ａｗ（ｚ））を介して実際聴取する信号で合成した後、その結果を確認することによって、実際音質に影響を及ぼす帯域を効果的に選択することができ、符号化効率を高めることができる。したがって、以下、本発明の実施形態では、候補帯域等の組合せ及びＡｂＳ構造に基づいて最適の帯域を選択する方法について説明する。

図１５のステップＳ１５００以前は、図５のステップＳ５００からステップＳ５２０までと同じであり、図１５のステップＳ１５４０以後は、図７のステップＳ７００からステップＳ７４０までと同じように行うことができる。

本発明の一実施形態による音声符号化方法では、図６と同じ方式で低周波音声帯域では固定低周波音声帯域に基づいて量子化を行うことができ、残りの高周波音声帯域のうち、エネルギ比重の高い帯域を選択して量子化を行い、候補選択高周波音声帯域の数を最終選択する選択高周波音声帯域の数より多く選択されるようにすることができる（ステップＳ１５００）。

ステップＳ１５００では、量子化対象周波数帯域を、正規化を行う固定低周波音声帯域と候補選択高周波音声帯域とに分けることができ、候補選択高周波音声帯域は、最終的に選択する選択高周波音声帯域の数より多く選択することができ、この後、分析合成段では、候補選択高周波音声帯域で最適の組合せを探して、最終的に量子化を行う選択高周波音声帯域を決定することができる。

ステップＳ１５１０及びステップＳ１５２０の過程は、前述した図６のステップＳ６１０及びステップＳ６２０と同様に選択された量子化帯域に対して正規化を行い（ステップＳ１５１０）、正規化された線形予測残余信号は、帯域別のエネルギ値と平均エネルギ値とを比較して、場合に応じて異なる符号表を選択して量子化する（ステップＳ１５２０）。

ＡｂＳブロック（ステップＳ１５４０）を実行するために、低周波音声帯域に対する時間領域信号が、固定された４個の帯域に対する周波数逆変換過程によって取得され、高周波音声帯域に対する時間領域信号が、上位高周波音声帯域のうち候補帯域に対する帯域選択逆ＤＦＴによって取得される。（ステップＳ１５３０）。

ＡｂＳ過程（ステップＳ１５４０）は、固定された低周波信号に対しては変化がなく、上位高周波音声帯域を切替え、組み合わせる過程であるため、信号の変化がない低周波信号には、相対的に演算量が少ないＩＦＦＴを適用し、各帯域に対する時間領域信号が必要な高周波候補帯域には、帯域別の逆変換が可能な帯域選択逆ＤＦＴを適用する。ステップＳ１５３０については、下記において詳細に説明する。

ＩＦＦＴ及び帯域選択逆ＤＦＴを通過した低周波信号と、高周波候補帯域の信号との組合せによって量子化された線形予測残余信号に対する時間領域信号を得て、ＡｂＳを使用して最適の組合せを算出する（ステップＳ１５４０）。

ＩＦＦＴ及び帯域選択逆ＤＦＴを通過した低周波信号と、高周波候補帯域の信号との組合せによって生成された復元された候補線形予測残余信号は、ＡｂＳブロックの内部に存在する合成フィルタである１／Ａｗ（ｚ）フィルタを通過して可聴信号を作り出すことができる。この信号等は、聴覚加重フィルタを通過して復元された音声信号を生成する。同じフィルタを通過して得た信号の信号対雑音比は、ＴＣＸモードの目的信号である線形予測残余信号には量子化を行わないようにして、演算することができる。上記の過程を候補の組合せ個数の分だけ繰り返し行って、最も高い信号対雑音比を有する候補帯域の組合せを選択帯域として最終的に決定することができる。最終的に選択された帯域の変換係数量子化値は、Ｓ１５２０で量子化された候補帯域の変換係数の量子化値から選択される。

利得を算出し量子化を行う（ステップＳ１５５０）。

ステップＳ１５５０では、時間軸線形予測残余信号と、ステップＳ１５４０で合成された線形予測残余信号とに基づいて利得値を算出することができ、また、利得値を量子化することができる。

本発明の実施形態によるＡｂＳ構造で提案する帯域選択逆変換（ＢＳ−ＩＤＦＴ）は、組合せに必要な帯域等の逆変換を介して演算量を最小化することができる。すなわち、ＡｂＳ構造の適用時に、固定された低周波音声帯域は相対的に演算量が少ないＩＦＦＴを適用し、高周波音声帯域のうち、候補帯域は、各帯域に対する時間領域信号を得るために帯域選択逆変換を適用して演算量を減らすことができる。式６は、本発明の実施形態による逆離散フーリエ変換を示すものである。

本発明の実施形態による帯域選択ＩＤＦＴ（ＢＳ−ＩＤＦＴ）は、選択された帯域の周波数成分に対する逆変換を実行するため、演算量はｋ_ＤＦＴＮ^２から帯域のサンプル数（Ｋ_ｂａｎｄ）だけ行うｋ_ｂａｎｄＮ^２に減少させることができる。また、ＢＳ−ＩＤＦＴは、ＩＦＦＴ演算を行う場合と比較しても、必要とした部分に対してだけ演算を行うため、演算量を減らすことができる。

図１６は、本発明の実施形態による帯域選択ＩＤＦＴがＡｂＳ構造に適用される方法を示した概念図である。

本発明の実施形態によるＡｂＳ法は、逆変換を繰り返し行わないために、ＡｂＳ構造の外部で帯域選択ＩＤＦＴを行う方法を使用して、各候補帯域に対する時間軸信号を求めることができる。

図１６に示すように、４個の固定された低周波音声帯域に対してはＩＦＦＴを行い（１６００）、高周波音声帯域に対してはＡｂＳブロック（Ｓ１５４０）の外部で逆量子化を行い（１６２０）、ＡｂＳブロック（Ｓ１５４０）の内部で候補帯域の時間領域信号の組合せによって合成を行う（１６４０）。固定された低周波音声帯域と候補帯域との組合せによって合成された時間軸の復元された線形予測残余信号は、１／Ａｗ（ｚ）フィルタを通過して復元音声信号を生成する。最適比を有する高周波音声帯域信号の組合せは、復元された音声信号と、ＴＣＸモードの入力信号、すなわち、量子化される時間軸線形予測信号との信号対雑音比に基づいて選択することができる（１６６０）。

最適な高周波音声帯域信号の組合せを選択するための比較信号として、Ｗ（ｚ）のような聴覚認知加重フィルタを通過させた入力音声信号を使用してもよく、このような実施形態は、図２１に説明される。図１７は、本発明の実施形態によるＡｂＳ構造の前段で処理される帯域選択ＩＤＦＴの過程を示した概念図である。

図１７に示すように、固定された低周波数帯域に対してはＩＦＦＴを適用し、候補選択高周波音声帯域では所定の組合せを生成して誤差を最小化する最適の組合せを生成することができる。

図１７でも同様に、最適の高周波音声帯域信号の組合せを選択するための比較信号として、Ｗ（ｚ）のような聴覚認知加重フィルタを通過してろ波された入力音声信号を使用してもよく、このような実施形態は図２２に説明される。図２２及び図２３と同様に、図１９の分割及び合成部でも線形予測残余係数情報の代わりに、入力音声信号を受信して高周波音声帯域信号の組合せを選択するために使用してもよく、このような実施形態は図２３に説明される。

図１８は、本発明の実施形態による音声符号化器の一部を示した概念図である。

図１８に示すように、音声符号化器は量子化部１８００と、逆変換部１８５５とを備えることができ、量子化部１８００は、帯域分割部１８１０、正規化部１８２０、符号表適用部１８３０、帯域組合せ部１８４０、擬似背景雑音レベル算出部１８５０、逆変換部１８５５、分析合成部１８６０、及び量子化実行部１８７０を備えることができる。

帯域分割部１８１０は、周波数帯域を固定低周波音声帯域及び候補選択高周波音声帯域に分けることができる。周波数帯域を、正規化を行う固定低周波音声帯域と候補選択高周波音声帯域とに分けることができる。いくつかの候補選択高周波音声帯域は、組合せによって分析合成部１８６０で最終選択高周波音声帯域として決定される。

正規化部１８２０では、帯域分割部で選択された帯域である固定低周波音声帯域と選択される候補高周波音声帯域とを正規化することができる。前述したように、選択された帯域別のエネルギ及び選択されたサンプル数に基づいて正規化する利得値を求め、最終的に正規化された信号を得る。

符号表適用部１８３０は、所定の判断数式に基づいて当該帯域にどの符号表を適用するのかを決定することができる。符号表インデクス情報は、量子化実行部１８７０に伝送されて量子化される。

高周波数帯域組合せ部１８４０は、逆変換部１８５５でどの選択高周波数帯域を組み合わせて選択するかを決定することができる。

量子化実行部１８７０は、選択された帯域情報、各帯域に適用された符号表インデクス情報、擬似背景雑音係数情報など、ＬＰ残余信号を復元するための音声パラメータ情報を量子化することができる。

逆変換部１８５５では、固定低周波音声帯域に対してはＩＦＦＴ、候補選択高周波音声帯域に対してはＢＳ−ＩＤＦＴを行って逆変換を行うことができる。

分析合成部１８６０は、ＢＳ−ＩＤＦＴを行った候補選択高周波音声帯域に対しては所定の組合せを行い、繰り返し原信号と比較して最適の選択高周波音声帯域の組合せを選択することができる。最終的に決定された選択高周波音声帯域情報は、量子化実行部１８７０に伝送される。

擬似背景雑音レベル算出部１８５０は、所定の周波数帯域に基づいて選択されていない帯域に挿入する雑音レベルを決定することができる。雑音レベルに基づいた雑音係数値は、量子化実行部１８７０を介して量子化されて伝送される。

図１９は、本発明の実施形態による音声復号方法を示した順序図である。

図１９に示すように、音声符号化器で伝送された量子化されたパラメータ情報を逆量子化する（ステップＳ１９００）。

音声符号化器で伝送された量子化されたパラメータ情報は、利得情報、形状情報、雑音係数情報、符号化器のＡｂＳ構造によって量子化対象として選択された選択量子化帯域情報などがあってよく、このような量子化されたパラメータ情報を逆量子化する。

逆量子化されたパラメータ情報に基づいて逆変換を行う（ステップＳ１９１０）。

ＡｂＳによって量子化対象として選択された選択量子化帯域情報に基づいて、どの周波数帯域が選択された周波数帯域であるかを判断し（ステップＳ１９１０−１）、判断された結果に応じて選択された周波数帯域に異なる符号表を適用して逆変換を行うことができる（ステップＳ１９１０−２）。また、逆量子化された擬似背景雑音レベル情報に基づいて、非選択の周波数帯域に雑音レベルを加えることができる（ステップＳ１９１０−３）。

図２０は、本発明の実施形態による音声復号装置の一部を示した概念図である。

図２０でも説明の便宜上、音声復号器の逆量子化部及び逆変換部で下記において説明する動作がすべて起こることを仮定したものであって、更に他の実施形態では、音声符号化器に含まれた他の構成部で下記において説明した動作を行ってもよく、このような実施形態も本発明の権利範囲に含まれる。

音声復号装置は、逆量子化部２０００と逆変換部２０１０とを備えることができる。

逆量子化部２０００は、音声符号化装置で伝送された量子化されたパラメータに基づいて逆量子化を行うことができ、利得情報、形状情報、雑音係数情報、音声符号化器の分析合成部で選択された選択量子化帯域情報などを算出することができる。

逆変換部２０１０は、周波数帯域判断部２０２０、符号表適用部２０３０、及び擬似背景雑音レベル適用部２０４０を備えることができる。

周波数帯域判断部２０２０は、現在の周波数帯域が固定低周波音声帯域であるか、選択高周波音声帯域であるか、擬似背景雑音レベル適用周波帯域であるかを判断することができる。

符号表適用部２０３０は、周波数帯域判断部によって判断された量子化対象周波数帯域及び逆量子化部２０００によって伝送された符号表インデクス情報に基づいて、固定低周波音声帯域又は選択高周波音声帯域によって符号表を異なるように適用することができる。

擬似背景雑音係数適用部２０４０は、擬似背景雑音適用周波数帯域に逆量子化された擬似背景雑音レベルを適用することができる。

図２１、図２２、及び図２３は、図１６、図１７、及び図１５で前述したように、高周波音声帯域信号の組合せを選択するための比較信号として、入力音声信号が聴覚認知加重フィルタであるＷ（ｚ）を通過した場合を示したものである。図２１、図２２、及び図２３においてその他の構成は、図１６、図１７、及び図１５と同様である。

以上で説明した映像符号化及び映像復号方法は、図１〜図４で前述した各音声符号化器及び音声復号器装置の各構成部によって実現することができる。

以上、実施形態を参照して説明したが、当該技術分野の熟練された当業者は、下記の特許請求の範囲に記載された本発明の思想及び領域から逸脱しない範囲内で本発明を様々に修正及び変更させ得ることが理解できるであろう。

Claims

量子化された音声帯域から抽出された音声パラメータ情報を逆量子化するステップであって、前記量子化された音声帯域は少なくとも一つの所定の固定低周波音声帯域と複数の選択された高周波音声帯域を含み、前記複数の選択された高周波音声帯域は第１の選択された高周波音声帯域と第２の選択された高周波音声帯域を含み、前記第１の選択された高周波音声帯域と前記第２の選択された高周波音声帯域は不連続である、ステップと、
前記逆量子化された音声パラメータ情報に基づいて前記量子化された音声帯域に逆変換を行うステップと、を含み、
前記量子化された音声帯域に前記逆変換を行うステップは、
第１の符号表と前記少なくとも一つの所定の固定低周波音声帯域の音声パラメータに基づいて前記逆変換を行うステップと、第２の符号表と前記複数の選択された高周波音声帯域の音声パラメータに基づいて前記逆変換を行うステップであって、前記第１の符号表は前記第２の符号表とは異なる、ステップとをさらに含み、
前記少なくとも一つの所定の固定低周波音声帯域のエネルギが平均値より高い場合、前記第１の符号表は高いエネルギを備える帯域に基づく符号表であり、前記少なくとも一つの所定の固定低周波音声帯域のエネルギが前記平均値より低い場合、前記第１の符号表は、低いエネルギを備える帯域に基づく符号表であり、
前記複数の選択された高周波音声帯域のエネルギが前記平均値より高い場合、前記第２の符号表は高いエネルギを備える帯域に基づく符号表であり、前記複数の選択された高周波音声帯域のエネルギが前記平均値より低い場合、前記第２の符号表は低いエネルギを備える帯域に基づく符号表である、音声復号方法。
前記選択された少なくとも一つの高周波音声帯域は、
音声帯域のエネルギの分布情報に基づいて選択されたエネルギ比重の高い周波数帯域である、請求項１に記載の音声復号方法。
前記逆量子化された音声パラメータ情報に基づいて逆変換を行うステップは、
逆量子化された擬似背景雑音レベルを非量子化対象の音声帯域に適用して音声信号を復元するステップを含むことを特徴とする、請求項１に記載の音声復号方法。
前記疑似背景雑音レベルは前記所定のしきい値と等しいかより小さいエネルギのみを用いて決定される、請求項３に記載の音声復号方法。
前記量子化された音声帯域から抽出された前記音声パラメータ情報を逆量子化するステップは、
分析合成（ＡｂＳ）に基づいて前記音声パラメータ情報を逆量子化するステップを含む、請求項１に記載の音声復号方法。
前記逆量子化された音声パラメータ情報に基づいて前記逆変換を行うステップは、
前記量子化対象の高周波音声帯域に逆離散フーリエ変換（ＩＤＦＴ）を利用して前記逆変換を行うステップと、
前記量子化対象の低周波音声帯域に逆高速フーリエ変換（ＩＦＦＴ）を利用して逆変換を行うステップを含む、請求項５に記載の音声復号方法。
量子化された音声帯域から抽出された音声パラメータ情報を逆量子化する逆量子化部であって、前記量子化された音声帯域は少なくとも１つの所定の固定低周波音声帯域と複数の選択された高周波音声帯域を含み、前記複数の選択された高周波音声帯域は第１の選択された高周波音声帯域と第２の選択された高周波音声帯域を含み、前記第１の選択された高周波音声帯域と前記第２の選択された高周波音声帯域は不連続である、逆量子化部と、
前記逆量子化部で逆量子化された前記音声パラメータ情報に基づいて前記量子化された音声帯域に逆変換を行う逆変換部と、を備え、
前記逆変換部は、第１の符号表と前記低周波音声帯域の音声パラメータに基づいて前記逆変換をさらに行い、
前記逆変換部は、第２の符号表と前記複数の選択された高周波音声帯域の音声パラメータに基づいて前記逆変換をさらに行い、
前記第１の符号表は前記第２の符号表とは異なり、
前記少なくとも一つの所定の固定低周波音声帯域のエネルギが平均値より高い場合、前記第１の符号表は高いエネルギを備える帯域に基づく符号表であり、前記少なくとも一つの所定の固定低周波音声帯域のエネルギが前記平均値より低い場合、前記第１の符号表は、低いエネルギを備える帯域に基づく符号表であり、
前記複数の選択された高周波音声帯域のエネルギが前記平均値より高い場合、前記第２の符号表は高いエネルギを備える帯域に基づく符号表であり、前記複数の選択された高周波音声帯域のエネルギが前記平均値より低い場合、前記第２の符号表は低いエネルギを備える帯域に基づく符号表である、音声復号装置。
前記少なくとも１つの選択された高周波音声帯域は、音声帯域のエネルギ分布情報に基づいて選択されたエネルギ比重の高い高周波帯域である、請求項７に記載の装置。
前記逆量子化部は、
分析合成（ＡｂＳ）に基づいて前記音声パラメータ情報を逆量子化する、請求項７に記載の装置。
前記逆変換部は、
前記量子化対象の高周波音声帯域に逆離散フーリエ変換（ＩＤＦＴ）を利用して逆変換を行い、前記量子化対象の低周波音声帯域に逆高速フーリエ変換（ＩＦＦＴ）を利用して逆変換を行う、請求項７に記載の装置。
前記逆変換部は、逆量子化した疑似背景雑音レベルを非量子化対象の音声帯域に適用して音声信号を復元する、請求項７に記載の装置。
前記疑似背景雑音レベルは前記所定のしきい値と等しいかより小さいエネルギのみを利用して決定する、請求項７に記載の装置。