JP2011528134A

JP2011528134A - 音声／オーディオ統合信号の符号化／復号化装置

Info

Publication number: JP2011528134A
Application number: JP2011518644A
Authority: JP
Inventors: リー、テ、ジン; ベク、スン、クウォン; キム、ミンジェ; ジャン、テ、ヤン; カン、キョンゴク; ホン、ジン、ウー; パク、ホチョン; パク、ヤン‐チョル
Original assignee: Electronics and Telecommunications Research Institute ETRI; Industry Academic Collaboration Foundation of Kwangwoon University
Current assignee: Electronics and Telecommunications Research Institute ETRI; Industry Academic Collaboration Foundation of Kwangwoon University
Priority date: 2008-07-14
Filing date: 2009-07-14
Publication date: 2011-11-10
Also published as: EP3706122A1; US8959015B2; EP2302623A4; EP2302623B1; WO2010008175A3; EP2302623A2; CN102150205A; WO2010008175A2; CN102150205B; US20110119054A1; KR20100007738A

Abstract

音声／オーディオ統合信号の符号化／復号化装置が開示される。音声／オーディオ統合信号の符号化装置は、入力信号の特性を分析して前記入力信号の第１フレームを符号化するための第１符号化モジュールを選択するモジュール選択部と、前記モジュール選択部の選択によって、前記入力信号を符号化して音声ビットストリームを生成する音声符号化部と、前記モジュール選択部の選択によって、前記入力信号を符号化してオーディオビットストリームを生成するオーディオ符号化部と、前記モジュール選択部の選択によって、前記音声符号化部または前記オーディオ符号化部から出力ビットストリームを生成するビットストリーム生成部とを含む。

Description

音声／オーディオ統合信号の符号化／復号化装置およびその方法に関し、特にコーデック（ｃｏｄｅｃ）が互いに異なる構造として動作する２つ以上の符号化／復号化モジュールを有して各動作フレームごとに入力特性に応じて複数の内部モジュールのうち１つを選択して動作する場合、フレームの進み状態に応じて選択されたモジュールが変更されるときに発生する信号歪曲の問題を解決し、歪曲することなくモジュールの変更が可能な装置およびその方法に関する。

本発明は、知識経済部および情報通信研究振興院のＩＴ源泉技術開発事業の一環として行った研究から導き出されたものである［課題管理番号：２００８−Ｆ−０１１−０１、課題名：次世代ＤＴＶ核心技術開発］。

音声信号およびオーディオ信号は互いに異なる特性を有し、各信号の固有な特性を活用して各信号に特化した音声コーデックとオーディオコーデックが独立的に研究されて各標準コーデックが開発された。

最近、通信および放送サービスが統合されることによって、多様な特性の音声およびオーディオ信号を１つのコーデックに統合処理することが求められるようになった。しかし、従来における音声コーデックまたはオーディオコーデックは、それぞれの統合コーデックが要求している性能を提供することができなかった。すなわち、最高の性能を有するオーディオコーデックは音声信号に対して満足する性能を提供できず、最高の性能を有する音声コーデックはオーディオ信号に対して満足する性能を提供できなかったことから、従来におけるコーデックは、統合音声／オーディオコーデックに用いられることができなかった。

したがって、入力信号の特徴によって該当のモジュールを選択して各信号に最適化した符号化／復号化を行なうことのできる技術が求められている。

本発明は、音声コーデックモジュールとオーディオコーデックモジュールとを結合し、入力信号の特性に応じてコーデックモジュールを選択して適用することによって、より優れる性能を表す音声／オーディオ統合符号化／復号化装置および方法を提供する。

本発明は、時間の進み状態に応じて選択されたコーデックモジュールが変更されるときに過去モジュールの情報を用いることによって、各モジュール動作の不連続によって発生する歪曲問題を解決する音声／オーディオ統合符号化／復号化装置および方法を提供する。

本発明は、ＴＤＡＣを要求するＭＤＣＴモジュールにおいて重複−和のための以前情報が提供されない場合に追加的な方法を用いることによって、ＴＤＡＣ（ＤｏｍａｉｎＡｌｉａｓｉｎｇＣａｎｃｅｌｌａｔｉｏｎ）を可能にし、正常なＭＤＣＴ基盤コーデック動作を行うことのできる音声／オーディオ統合符号化／復号化装置および方法を提供する。

本発明の一実施形態に係る音声／オーディオ統合符号化装置は、入力信号の特性を分析して前記入力信号の第１フレームを符号化するための第１符号化モジュールを選択するモジュール選択部と、前記モジュール選択部の選択によって、前記入力信号を符号化して音声ビットストリームを生成する音声符号化部と、前記モジュール選択部の選択によって、前記入力信号を符号化してオーディオビットストリームを生成するオーディオ符号化部と、前記モジュール選択部の選択によって、前記音声符号化部または前記オーディオ符号化部から出力ビットストリームを生成するビットストリーム生成部とを含む。

本発明の一側面によれば、前記音声／オーディオ統合信号の符号化装置は、前記選択された符号化モジュールのモジュールＩＤを格納し、前記第１フレームの以前フレームに対応する符号化モジュールである第２符号化モジュールの情報を前記音声符号化部および前記オーディオ符号化部に送信するモジュールバッファと、前記入力信号を格納し、前記以前フレームに対する入力信号である過去の入力信号を出力する入力バッファと、をさらに含み、前記ビットストリーム生成部は、前記選択された符号化モジュールのモジュールＩＤと前記選択された符号化モジュールのビットストリームとを結合して出力ビットストリームを生成してもよい。

本発明の一側面によれば、前記モジュール選択部は、前記選択された符号化モジュールのモジュールＩＤを抽出し、前記モジュールＩＤを前記モジュールバッファおよび前記ビットストリーム生成部に伝達してもよい。

本発明の一側面によれば、前記音声符号化部は、前記第１符号化モジュールと前記第２符号化モジュールとが同一である場合、ＣＥＬＰ構造に前記入力信号を符号化する第１音声符号化部と、前記第１符号化モジュールと前記第２符号化モジュールとが異なる場合、前記第１音声符号化部の符号化のための初期値を決定する符号化初期化部とを含んでもよい。

本発明の一側面によれば、前記第１音声符号化部は、前記第１符号化モジュールと前記第２符号化モジュールとが同一である場合、前記第１音声符号化部内の初期値を用いて符号化し、前記第１符号化モジュールと前記第２符号化モジュールとが異なる場合、前記符号化初期化部で決定された初期値を用いて符号化してもよい。

本発明の一側面によれば、前記符号化初期化部は、前記過去の入力信号に対するＬＰＣ係数を算出するＬＰＣ分析部と、前記ＬＰＣ分析部で算出したＬＰＣ係数をＬＳＰ値に変換するＬＳＰ変換部と、前記過去の入力信号および前記ＬＰＣ係数を用いてＬＰＣ残余信号を算出するＬＰＣ残余信号算出部と、前記ＬＰＣ係数、前記ＬＳＰ値、および前記ＬＰＣ残余信号を用いて前記第１音声符号化部の符号化のための初期値を決定する符号化初期値決定部とを含んでもよい。

本発明の一側面によれば、前記オーディオ符号化部は、前記第１符号化モジュールと前記第２符号化モジュールとが同一である場合、ＭＤＣＴの動作によって入力信号を符号化する第１オーディオ符号化部と、前記第１符号化モジュールと前記第２符号化モジュールとが異なる場合、ＣＥＬＰ構造に入力信号を符号化する第２音声符号化部と、前記第１符号化モジュールと前記第２符号化モジュールとが異なる場合、ＭＤＣＴの動作によって入力信号を符号化する第２オーディオ符号化部と、前記第１オーディオ符号化部の出力、前記第２音声符号化部の出力、および前記第２オーディオ符号化部の出力のうち１つを選択して出力ビットストリームを生成するマルチプレクサとを含んでもよい。

本発明の一側面によれば、前記第２音声符号化部は、前記第１符号化モジュールと前記第２符号化モジュールとが異なる場合、前記第１フレームの前の１／２サンプルに該当する入力信号を符号化してもよい。

本発明の一側面によれば、前記第２オーディオ符号化部は、前記第２音声符号化部の符号化動作が終了した後、ＬＰＣフィルタに対するゼロ入力応答を算出するゼロ入力応答算出部と、前記第１フレームの前の１／２サンプルに該当する入力信号をゼロに変換する第１変換部と、前記第１フレームの後の１／２サンプルに該当する入力信号から前記ゼロ入力応答を差し引く第２変換部とを含み、前記第１変換部の変換信号および前記第２変換部の変換信号を符号化してもよい。

本発明の一実施形態に係る音声／オーディオ統合信号の復号化装置は、入力ビットストリームの特性を分析して前記入力ビットストリームの第１フレームを復号化するための第１復号化モジュールを選択するモジュール選択部と、前記モジュール選択部の選択によって、前記入力ビットストリームを復号化して音声信号を生成する音声復号化部と、前記モジュール選択部の選択によって、前記入力ビットストリームを復号化してオーディオ信号を生成するオーディオ復号化部と、前記モジュール選択部の選択によって、前記音声復号化部の音声信号および前記オーディオ復号化部のオーディオ信号のうちの１つを選択して出力信号を生成する出力生成部とを含む。

本発明の一側面によれば、前記音声／オーディオ統合信号の復号化装置は、前記選択された復号化モジュールのモジュールＩＤを格納し、前記第１フレームの以前フレームに対する復号化モジュールである第２復号化モジュールの情報を前記音声復号化部および前記オーディオ復号化部に送信するモジュールバッファと、前記出力信号を格納し、前記以前フレームに対する出力信号である過去の出力信号を出力する出力バッファとをさらに含んでもよい。

本発明の一側面によれば、前記オーディオ復号化部は、前記第１復号化モジュールと前記第２復号化モジュールとが同一である場合、ＩＭＤＣＴの動作によって入力ビットストリームを復号化する第１オーディオ復号化部と、前記第１復号化モジュールと前記第２復号化モジュールとが異なる場合、ＣＥＬＰ構造に入力ビットストリームを復号化する第２音声復号化部と、前記第１復号化モジュールと前記第２復号化モジュールとが異なる場合、ＩＭＤＣＴの動作によって入力ビットストリームを復号化する第２オーディオ復号化部と、前記第２音声復号化部の出力と前記第２オーディオ復号化部の出力から最終出力を算出する信号復元部と、前記信号復元部の出力または前記第１オーディオ復号化部の出力のうちの１つを選択して出力する出力選択部とを含んでもよい。

本発明の一実施形態によれば、音声コーデックモジュールとオーディオコーデックモジュールとを結合し、入力信号の特性に応じてコーデックモジュールを選択して適用することによって、より優れる性能を表す音声／オーディオ統合符号化／復号化装置および方法が提供される。

本発明の一実施形態によれば、時間の進み状態に応じて選択されたコーデックモジュールが変更されるときに過去モジュールが情報を用いることによって、各モジュール動作の不連続によって発生する歪曲問題を解決する音声／オーディオ統合符号化／復号化装置および方法が提供される。

本発明の一実施形態によれば、ＴＤＡＣを要求するＭＤＣＴモジュールにおいて重複−和のための以前情報が提供されない場合に追加的な方法を用いることによって、ＴＤＡＣを可能にし、正常なＭＤＣＴ基盤コーデック動作を行うようにする音声／オーディオ統合符号化／復号化装置および方法が提供される。

本発明の一実施形態に係る音声／オーディオ統合信号の符号化装置を示す図である。図１に示す音声符号化部の一例を示す図である。図１に示すオーディオ符号化部の一例を示す図である。図３に示すオーディオ符号化部の動作を説明するための図である。本発明の一実施形態に係る音声／オーディオ統合信号の復号化装置を示す図である。図５に示す音声復号化部の一例を示す図である。図５に示すオーディオ復号化部の一例を示す図である。図７に示すオーディオ復号化部の動作を説明するための図である。本発明の一実施形態に係る音声／オーディオ統合信号の符号化方法を示すフローチャートである。本発明の一実施形態に係る音声／オーディオ統合信号の復号化方法を示すフローチャートである。

以下、添付の図面に記載された内容を参照して本発明に係る実施形態を詳細に説明する。ただし、本発明が実施形態によって制限されたり限定されることはない。各図面に提示する同一の参照符号は同一の部材を示す。

本発明の実施形態では、統合コーデックが２つの符号化／復号化モジュールをそれぞれ含む構造を有し、音声符号化／復号化モジュールは、ＣＥＬＰ（ＣｏｄｅＥ×ｃｉｔａｔｉｏｎＬｉｎｅａｒＰｒｅｄｉｃｔｉｏｎ）の構造を有し、オーディオ符号化／復号化モジュールはＭＤＣＴ（ＭｏｄｉｆｉｅｄＤｉｓｃｒｅｔｅＣｏｓｉｎｅＴｒａｎｓｆｏｒｍ）の動作を含む構造を有すると仮定する。

図１は、本発明の一実施形態に係る音声／オーディオ統合信号の符号化装置を示す図である。

図１に示すように、音声／オーディオ統合信号の符号化装置１００は、モジュール選択部１１０、音声符号化部１３０、オーディオ符号化部１４０、およびビットストリーム生成部１５０を含んでもよい。

また、音声／オーディオ統合信号の符号化装置１００は、モジュールバッファ１２０および入力バッファ１６０をさらに含んでもよい。

モジュール選択部１１０は、入力信号の特性を分析して前記入力信号の第１フレームを符号化するための第１符号化モジュールを選択してもよい。ここで、第１フレームは入力信号の現在フレームであってもよい。また、モジュール選択部１１０は、入力信号を分析して現在フレームを符号化するモジュールＩＤを決定し、第１選択された符号化モジュールに入力信号を伝達してモジュールＩＤをビットストリーム生成部に入力してもよい。

モジュールバッファ１２０は、選択された符号化モジュールのモジュールＩＤを格納し、前記第１フレームの以前フレームに対応する符号化モジュールの第２符号化モジュールの情報を前記音声符号化部および前記オーディオ符号化部に送信してもよい。

入力バッファ１６０は入力信号を格納し、前記以前フレームに対する入力信号である過去の入力信号を出力してもよい。すなわち、入力バッファは入力信号を格納し、現在フレームよりも１フレーム以前のフレームに該当する過去の入力信号を出力してもよい。

音声符号化部１３０は、モジュール選択部１１０の選択によって前記入力信号を符号化して音声ビットストリームを生成してもよい。ここで、音声符号化部１３０は図２を参考して以下のように詳しく説明する。

図２は、図１に示す音声符号化部１３０の一例を示す図である。

図２を参考すれば、音声符号化部１３０は、符号化初期化部２１０および第１音声符号化部２２０を含んでもよい。

符号化初期化部２１０は、第１符号化モジュールと第２符号化モジュールとが異なる場合、前記第１音声符号化部２２０の符号化のための初期値を決定してもよい。すなわち、符号化初期化部２１０は、過去モジュールが入力されて以前フレームがＭＤＣＴの動作を行なった場合に限って、第１音声符号化部２２０に提供する初期値を決定してもよい。ここで、符号化初期化部２１０は、ＬＰＣ分析部２１１、ＬＳＰ変換部２１２、ＬＰＣ残余信号算出部２１３、および符号化初期値決定部２１４を含んでもよい。

ＬＰＣ分析部２１１は、前記過去の入力信号に対するＬＰＣ（ＬｉｎｅｒｐｒｅｄｉｃｔｉｖｅＣｏｄｅｒ）係数を算出してもよい。すなわち、ＬＰＣ分析部２１１は過去の入力信号が入力され、第１音声符号化部２２０と同一の方法によりＬＰＣ分析を行なって過去の入力信号に該当するＬＰＣ係数を求めて出力してもよい。

ＬＳＰ変換部２１２は、前記ＬＰＣ分析部で算出したＬＰＣ係数をＬＳＰ（ＬｉｎｅａｒＳｐｅｃｔｒｕｍＰａｉｒ）値に変換してもよい。

ＬＰＣ残余信号算出部２１３は、前記過去の入力信号および前記ＬＰＣ係数を用いてＬＰＣ残余信号を算出してもよい。

符号化初期値決定部２１４は、前記ＬＰＣ係数、前記ＬＳＰ値、および前記ＬＰＣ残余信号を用いて第１音声符号化部２２０の符号化のための初期値を決定してもよい。すなわち、符号化初期値決定部２１４は、ＬＰＣ係数、ＬＳＰ値、ＬＰＣ残余信号などを入力して第１音声符号化部２２０で要求する形態に初期値を決めて出力してもよい。

また、第１音声符号化部２２０は、第１符号化モジュールと第２符号化モジュールとが同一である場合、ＣＥＬＰ構造に前記入力信号を符号化してもよい。ここで、前記第１符号化モジュールと前記第２符号化モジュールとが同一である場合に前記第１音声符号化部内の初期値を用いて符号化し、前記第１符号化モジュールと前記第２符号化モジュールとが異なる場合に前記符号化初期化部で決定された初期値を用いて符号化してもよい。例えば、第１音声符号化部２２０は、現在フレームよりも１フレーム以前のフレームに対して符号化を行った過去モジュールが入力され、もし、以前フレームがＣＥＬＰ動作を行えば、現在フレームに該当する入力信号をＣＥＬＰ方法により符号化してもよい。この場合、第１音声符号化部２２０は、連続したＣＥＬＰ動作を行なうため、内部的に提供される以前情報を用いて符号化動作を行なってビットストリームを生成してもよい。もし、以前フレームがＭＤＣＴの動作を行えば、第１音声符号化部２２０は、ＣＥＬＰ符号化のための全ての過去情報を消し、符号化初期化部２１０に提供される初期値を用いて符号化動作を行なってビットストリームを生成してもよい。

再び図１に示すように、オーディオ符号化部１４０は、モジュール選択部１１０の選択によって前記入力信号を符号化してオーディオビットストリームを生成してもよい。ここで、オーディオ符号化部１４０は、図３および図４を参考して以下のように詳しく説明する。

図３は、図１に示すオーディオ符号化部１４０の一例を示す図である。

図３に示すように、オーディオ符号化部１４０は、第１オーディオ符号化部３３０、第２音声符号化部３１０、第２オーディオ符号化部３２０、およびマルチプレクサ３４０を含んでもよい。

第１オーディオ符号化部３３０は、第１符号化モジュールと第２符号化モジュールとが同一である場合、ＭＤＣＴ（ＭｏｄｉｆｉｅｄＤｉｓｃｒｅｔｅＣｏｓｉｎｅＴｒａｎｓｆｏｒｍ）の動作によって入力信号を符号化してもよい。すなわち、第１オーディオ符号化部３３０は、過去モジュールが入力されて以前フレームがＭＤＣＴの動作を行えば、現在フレームに該当する入力信号もＭＤＣＴの動作を行って符号化してビットストリームを生成してもよい。生成されたビットストリームはマルチプレクサ３４０に入力されてもよい。

このとき、図４に示すようにＸを現在フレームの入力信号とし、これを１／２フレーム長に２等分した信号をそれぞれｘ１、ｘ２という。現在フレームのＭＤＣＴの動作は、未来フレームに該当するＹ信号を含んでＸＹ信号に適用し、ウィンドウｗ１、ｗ２、ｗ３、ｗ４をＸＹに乗算した後、ＭＤＣＴを実行してもよい。ここで、ｗ１、ｗ２、ｗ３、ｗ４は、ウィンドウを１／２フレーム長に分解したそれぞれのウィンドウの欠片を意味する。もし、以前フレームがＣＥＬＰ動作を行えば、第１オーディオ符号化部３３０はいかなる動作も行なわない。

第２音声符号化部３１０は、第１符号化モジュールと第２符号化モジュールとが異なる場合、ＣＥＬＰ構造で入力信号を符号化してもよい。このとき、第２音声符号化部３１０は過去モジュールが入力され、もし、以前フレームがＣＥＬＰとして動作すれば、ｘ１信号を符号化してビットストリームを出力してマルチプレクサ３４０に入力してもよい。この場合、以前フレームがＣＥＬＰとして動作したことから、第２音声符号化部３１０は以前フレームに連続的に接続されることから、初期化の問題なしに符号化動作を行なうことができる。もし、以前フレームがＭＤＣＴの動作を行えば、第２音声符号化部３１０はいかなる動作も行なわない。

第２オーディオ符号化部３２０は、第１符号化モジュールと第２符号化モジュールとが異なる場合、ＭＤＣＴの動作によって入力信号を符号化してもよい。ここで、第２オーディオ符号化部３２０は過去モジュールが入力されて、もし、以前フレームがＣＥＬＰとして動作すれば、第１方法〜第３方法のうち１つの方法により入力信号を符号化する。第１方法は、従来のＭＤＣＴの動作に応じて入力信号を符号化してもよい。第２方法は、ｘ１＝０に入力信号を変形して、その結果を従来のＭＤＣＴの動作による方法により符号化してもよい。第３方法は、第２音声符号化部３１０がｘ１信号の符号化動作を終了した後に有するＬＰＣフィルタに対してゼロ入力応答（ｚｅｒｏｉｎｐｕｔｒｅｓｐｏｎｓｅ）ｘ３を求め、ｘ２＝ｘ２−ｘ３によってｘ２信号を変形し、また、ｘ１＝０にして入力信号を変形し、その結果を従来におけるＭＤＣＴの動作による方法により符号化してもよい。このとき、第２オーディオ符号化部３２０が用いる方法によってオーディオ復号化モジュールの信号復元機動作を決定してもよい。もし、以前フレームがＭＤＣＴの動作を行えば、第２オーディオ符号化部３２０はいかなる動作も行なわない。

前記符号化のために第２オーディオ符号化部３２０は、第２音声符号化部３１０の符号化動作の終了後にＬＰＣフィルタに対するゼロ入力応答を算出するゼロ入力応答算出部（図示せず）、前記第１フレームの前の１／２サンプルに該当する入力信号をゼロに変換する第１変換部（図示せず）、および前記第１フレームの後の１／２サンプルに該当する入力信号から前記ゼロ入力応答を差し引く第２変換部（図示せず）を含み、前記第１変換部の変換信号および前記第２変換部の変換信号を符号化してもよい。

マルチプレクサ３４０は、第１オーディオ符号化部３３０の出力、第２音声符号化部３１０の出力、および第２オーディオ符号化部３２０の出力のうちの１つを選択して出力ビットストリームを生成してもよい。ここで、マルチプレクサ３４０は、ビットストリームを結合して最終のビットストリームを生成するものの、もし、以前フレームがＭＤＣＴの動作を行えば、最終のビットストリームは第１オーディオ符号化部３３０の出力ビットストリームと同一である。

再び図１を参照すれば、ビットストリーム生成部１５０は、選択された符号化モジュールのモジュールＩＤおよび前記選択された符号化モジュールのビットストリームを結合して出力ビットストリームを生成してもよい。ここで、ビットストリーム生成部１５０は、モジュールＩＤと前記モジュールＩＤに該当するビットストリームを結合して最終のビットストリームを生成してもよい。

図５は、本発明の一実施形態に係る音声／オーディオ統合信号の復号化装置を示す図である。

図５に示すように、音声／オーディオ統合信号の復号化装置５００は、モジュール選択部５１０、音声復号化部５３０、オーディオ復号化部５４０、出力生成部５５０を含んでもよい。また、音声／オーディオ統合信号の復号化装置５００は、モジュールバッファ５２０および出力バッファ５６０をさらに含んでもよい。

モジュール選択部５１０は、入力ビットストリームの特性を分析して前記入力ビットストリームの第１フレームを復号化するための第１復号化モジュールを選択してもよい。すなわち、モジュール選択部５１０は、入力ビットストリームから送信されたモジュールを分析してモジュールＩＤを出力し、該当の復号化モジュールに入力ビットストリームを伝達してもよい。

音声復号化部５３０は、モジュール選択部５１０の選択によって前記入力ビットストリームを復号化し、音声信号を生成してもよい。すなわち、ＣＥＬＰの基盤音声復号化動作を行なってもよい。ここで、音声復号化部５３０は、図６に基づいて以下のように詳しく説明する。

図６は、図５に示す音声復号化部の一例を示す図である。

図６に示すように、音声復号化部５３０は、復号化初期化部６１０および第１音声復号化部６２０を含んでもよい。

復号化初期化部６１０は、第１復号化モジュールと第２復号化モジュールとが異なる場合、第１音声復号化部６２０の復号化のための初期値を決定してもよい。すなわち、復号化初期化部６１０は、過去モジュールが入力されて以前フレームがＭＤＣＴの動作を行なった場合に限って、第１音声復号化部６２０に提供する初期値を決定してもよい。ここで、復号化初期化部６１０は、ＬＰＣ分析部６１１、ＬＳＰ変換部６１２、ＬＰＣ残余信号算出部６１３、および復号化初期値決定部６１４を含んでもよい。

ＬＰＣ分析部６１１は、前記過去の出力信号に対するＬＰＣ係数を算出してもよい。すなわち、ＬＰＣ分析部６１１は、過去の出力信号が入力されて、第１音声復号化部６２０と同一の方法によりＬＰＣ分析を行なって過去の出力信号に該当するＬＰＣ係数を求めて出力してもよい。

ＬＳＰ変換部６１２は、ＬＰＣ分析部６１１で算出したＬＰＣ係数をＬＳＰ値に変換してもよい。

ＬＰＣ残余信号算出部６１３は、前記過去の出力信号および前記ＬＰＣ係数を用いてＬＰＣ残余信号を算出してもよい。

復号化初期値決定部６１４は、前記ＬＰＣ係数、前記ＬＳＰ値、および前記ＬＰＣ残余信号を用いて第１音声復号化部６２０の復号化のための初期値を決定してもよい。すなわち、復号化初期値決定部６１４は、ＬＰＣ係数、ＬＳＰ値、ＬＰＣ残余信号などを入力して第１音声復号化部６２０で要求する形態に初期値を決めて出力してもよい。

また、第１音声復号化部６２０は、第１復号化モジュールと第２復号化モジュールとが同一である場合、ＣＥＬＰ構造に前記入力信号を復号化してもよい。ここで、前記第１復号化モジュールと前記第２復号化モジュールとが同一である場合、前記第１音声復号化部内の初期値を用いて符号化し、前記第１復号化モジュールと前記第２復号化モジュールとが異なる場合、前記復号化初期化部において決定された初期値を用いて復号化してもよい。すなわち、第１音声復号化部６２０は、現在フレームよりも１フレーム以前のフレームに対して復号化を行った過去モジュールが入力され、もし、以前フレームがＣＥＬＰ動作を行えば、現在フレームに該当する入力信号をＣＥＬＰ方法により復号化してもよい。この場合、第１音声復号化部６２０は、連続してＣＥＬＰ動作を行なうことから、内部的に提供される以前情報を用いて復号化動作を行なって出力信号を生成してもよい。もし、以前フレームがＭＤＣＴの動作を行えば、第１音声復号化部６２０はＣＥＬＰ復号化のための全ての過去情報を消して復号化初期化部６１０に提供される初期値を用いて復号化動作を行なって出力信号を生成してもよい。

再び図５を参照すれば、オーディオ復号化部５４０は、モジュール選択部５１０の選択によって前記入力ビットストリームを復号化し、オーディオ信号を生成してもよい。ここで、オーディオ復号化部５４０は、図７および図８に基づいて以下のように詳しく説明する。

図７は、図５に示すオーディオ復号化部５４０の一例を示す図である。

図７に示すように、オーディオ復号化部５４０は、第１オーディオ復号化部７３０、第２音声復号化部７１０、第２オーディオ復号化部７２０、信号復元部７４０、および出力選択部７５０を含んでもよい。

第１オーディオ復号化部７３０は、第１復号化モジュールと第２復号化モジュールとが同一である場合、ＩＭＤＣＴ（ＩｎｖｅｒｓｅＭｏｄｉｆｉｅｄＤｉｓｃｒｅｔｅＣｏｓｉｎｅＴｒａｎｓｆｏｒｍ）の動作に応じて入力ビットストリームを復号化してもよい。すなわち、第１オーディオ復号化部７３０は、過去モジュールが入力されて以前フレームがＩＭＤＣＴの動作を行えば、現在フレームに該当する入力信号もＩＭＤＣＴの動作を行って符号化してビットストリームを生成してもよい。すなわち、第１オーディオ復号化部７３０は、現在フレームの入力ビットストリームを入力し、既存の技術によってＩＭＤＣＴの動作を行ってウィンドウを適用し、ＴＤＡＣ動作を行うことで最終の出力信号を出力する。もし、以前フレームがＣＥＬＰ動作を行えば、第１オーディオ復号化部７３０はいかなる動作も行なわない。

図８に示すように、第２音声復号化部７１０は、第１復号化モジュールと第２復号化モジュールとが異なる場合、ＣＥＬＰ構造において入力ビットストリームを復号化してもよい。すなわち、第２音声復号化部７１０は、過去モジュールが入力されて以前フレームがＣＥＬＰ動作を行えば、従来の音声復号化方法によってビットストリームを復号化して出力信号を生成してもよい。このとき、第２音声復号化部７１０の出力信号はｘ４（８２０）であり、１／２フレーム長を有してもよい。以前フレームがＣＥＬＰとして動作したことから、第２音声復号化部７１０は以前フレームに連続的に接続されて、初期化の問題なしに復号化動作を行なうことができる。

第２オーディオ復号化部７２０は、第１復号化モジュールと第２復号化モジュールとが異なる場合、ＩＭＤＣＴの動作によって入力ビットストリームを復号化してもよい。このとき、ＩＭＤＣＴの後にウィンドウだけを適用してＴＤＡＣ動作を行なわず、出力信号を求めることができる。また、図８において、第２オーディオ復号化部７２０の出力信号をａｂ８３０と定義し、ａとｂはそれぞれ１／２フレーム長を有する信号を意味する。

信号復元部７４０は、第２音声復号化部７１０の出力と第２オーディオ復号化部７２０の出力から最終出力を算出することができる。また、信号復元部７４０は現在フレームの最終の出力信号を求め、図８に示すように出力信号をｇｈ８５０と定義し、ｇおよびｈはそれぞれ１／２フレーム長を有する信号と定義することができる。信号復元部７４０は、常にｇ＝ｘ４と決め、ｈ信号は第２オーディオ符号化器の動作に応じて次のうち１つの方法により信号を復元してもよい。第１方法は、下記の［数１］によってｈを求めることができる。このとき、一般的なウィンドウ動作を仮定し、_Ｒは信号を１／２フレーム長の単位に時間軸回転させたことを意味する。

ここで、ｈは前記第１フレームの後の１／２サンプルに該当する出力信号、ｂは第２オーディオ復号化部出力信号、ｘ４は第２音声復号化部出力信号、ｗ１、ｗ２はウィンドウ、ｗ１_Ｒ、ｘ４_Ｒはそれぞれｗ１、ｘ４信号を１／２フレーム長の単位に時間軸回転させた信号をそれぞれ意味する。

第２方法は下記の［数２］によってｈを求めてもよい。

ここで、ｈは前記第１フレームの後の１／２サンプルに該当する出力信号、ｂは第２オーディオ復号化部出力信号、ｗ２はウィンドウを意味する。

第３方法は、の下［数３］によってｈを求めてもよい。

ここで、ｈは前記第１フレームの後の１／２サンプルに該当する出力信号、ｂは第２オーディオ復号化部出力信号、ｗ２はウィンドウ、ｘ５（８４０）は第２音声復号化部出力信号を復号化した後のＬＰＣフィルタに対するゼロ入力応答をそれぞれ意味する。

このとき、以前フレームがＭＤＣＴの動作を行えば、第２音声復号化部７１０、第２オーディオ復号化部７２０、および信号復元部７４０はいかなる動作も行ななくてもよい。

出力選択部７５０は、信号復元部７４０の出力または第１オーディオ復号化部７３０の出力のうち１つを選択して出力してもよい。

再び図５を参照すれば、出力生成部５５０は、モジュール選択部５１０の選択によって音声復号化部５３０の音声信号およびオーディオ復号化部５４０のオーディオ信号のうち１つを選択して出力信号を生成してもよい。すなわち、出力生成部５５０は、モジュールＩＤにより出力信号を選択して最終の出力信号に出力してもよい。

モジュールバッファ５２０は、前記選択された復号化モジュールのモジュールＩＤを格納し、前記第１フレームの以前フレームに対する復号化モジュールの第２復号化モジュールの情報を音声復号化部５３０およびオーディオ復号化部５４０に送信してもよい。すなわち、モジュールバッファ５２０は、モジュールＩＤを格納して１フレーム以前モジュールＩＤに該当する過去モジュールを出力してもよい。

出力バッファ５６０は前記出力信号を格納し、前記以前フレームに対する出力信号の過去の出力信号を出力してもよい。

図９は、本発明の一実施形態に係る音声／オーディオ統合信号の符号化方法を示すフローチャートである。

図９に示すように、ステップ９１０において、入力信号を分析して現フレームを符号化する符号化モジュール種類を決定し、入力信号をバッファリングして以前フレームの入力信号を備え、現フレームのモジュール種類を格納して以前フレームのモジュール種類を備えてもよい。

ステップ９２０において、前記決定されたモジュールの種類が音声モジュールであるかオーディオモジュールであるかを判断してもよい。

ステップ９３０において、前記決定されたモジュールが音声モジュールの場合、モジュールの変更が発生したか否かを判断してもよい。

ステップ９５０において、モジュール変更が発生しなかった場合、既存の技術によってＣＥＬＰ符号化動作を行い、ステップ９５０においては、モジュール変更が発生した場合、符号化初期化モジュールの動作に応じて初期化を行って初期値を求め、これを用いてＣＥＬＰ符号化動作を行なってもよい。

ステップ９４０において、前記決定されたモジュールがオーディオモジュールである場合、モジュールの変更が発生したか否かを判断してもよい。

ステップ９７０において、モジュール変更が発生した場合、追加的な符号化動作を行なってもよい。追加的な符号化過程では、１／２フレームに該当する入力信号をＣＥＬＰ基盤に符号化し、全体のフレーム信号に対して第２オーディオ符号化器動作を行なってもよい。ステップ９８０において、モジュール変更が発生しなかった場合、既存の技術によってＭＤＣＴ基盤の符号化動作を行なってもよい。

ステップ９９０において、モジュール種類とモジュールの変更有無に応じて最終のビットストリームを選択して出力してもよい。

図１０は、本発明の一実施形態に係る音声／オーディオ統合信号の復号化方法を示すフローチャートである。

図１０に示すように、ステップ１００１において、入力ビットストリーム情報により現フレームの復号化モジュール種類を決定して以前フレームの出力信号を備え、現フレームのモジュール種類を格納して以前フレームのモジュール種類を備えてもよい。

ステップ１００２において、前記決定されたモジュールの種類が音声モジュールであるかオーディオモジュールであるかを判断してもよい。

ステップ１００３において、前記決定されたモジュールが音声モジュールである場合、モジュールの変更が発生したか否かを判断してもよい。

ステップ１００５において、モジュール変更が発生しなかった場合、既存の技術によってＣＥＬＰ復号化動作を行い、ステップ１００６においては、モジュール変更が発生した場合、復号化初期化モジュールの動作に応じて初期化を行って初期値を求め、これを用いてＣＥＬＰ復号化動作を行なってもよい。

ステップ１００４において、前記決定されたモジュールがオーディオモジュールである場合、モジュールの変更が発生したか否かを判断してもよい。

ステップ１００７において、モジュール変更が発生した場合、追加的な復号化動作を行なってもよい。追加的な復号化過程では、入力ビットストリームをＣＥＬＰ基盤に復号化して１／２フレーム長に該当する出力信号を求め、入力ビットストリームに対して第２オーディオ復号化部動作を行って出力信号を求める。

ステップ１００８において、モジュール変更が発生しなかった場合、既存の技術によってＭＤＣＴ基盤の復号化動作を行なってもよい。

ステップ１００９において、信号復元機動作を行って出力信号を求め、ステップ１０１０においては、モジュール種類とモジュールの変更有無に応じて最終信号を選択して出力してもよい。

上記のように、音声コーデックモジュールとオーディオコーデックモジュールとを結合し、入力信号の特性に応じてコーデックモジュールを選択して適用することによって、より優れる性能を表す音声／オーディオ統合符号化／復号化装置および方法を提供することができる。

また、時間の進み状態に応じて選択されたコーデックモジュールが変更されるとき過去モジュールが情報を用いることによって、各モジュール動作の不連続によって発生する歪曲問題を解決することができ、ＴＤＡＣを要求するＭＤＣＴモジュールにおいて重複−和のための以前情報が提供されない場合に追加的な方法を用いることによって、ＴＤＡＣを可能にして正常なＭＤＣＴ基盤のコーデック動作を行う音声／オーディオ統合符号化／復号化装置および方法を提供することができる。

上述したように本発明は、たとえ限定された実施形態と図面によって説明されたが、本発明は、前記の実施形態に限定されるものではなく、本発明が属する分野において通常の知識を有する者であれば、このような記載から多様な修正および変形が可能である。

したがって、本発明の範囲は説明された実施形態に限定されて決定されてはならず、後述する特許請求の範囲だけでなくこの特許請求の範囲と均等なものなどによって決まらなければならない。

Claims

入力信号の特性を分析して前記入力信号の第１フレームを符号化するための第１符号化モジュールを選択するモジュール選択部と、
前記モジュール選択部の選択によって、前記入力信号を符号化して音声ビットストリームを生成する音声符号化部と、
前記モジュール選択部の選択によって、前記入力信号を符号化してオーディオビットストリームを生成するオーディオ符号化部と、
前記モジュール選択部の選択によって、前記音声符号化部または前記オーディオ符号化部から出力ビットストリームを生成するビットストリーム生成部と、
を含むことを特徴とする音声／オーディオ統合信号の符号化装置。
前記選択された符号化モジュールのモジュールＩＤを格納し、前記第１フレームの以前フレームに対応する符号化モジュールである第２符号化モジュールの情報を前記音声符号化部および前記オーディオ符号化部に送信するモジュールバッファと、
前記入力信号を格納し、前記以前フレームに対する入力信号である過去の入力信号を出力する入力バッファと、をさらに含み、
前記ビットストリーム生成部は、前記選択された符号化モジュールのモジュールＩＤと前記選択された符号化モジュールのビットストリームとを結合して出力ビットストリームを生成することを特徴とする請求項１に記載の音声／オーディオ統合信号の符号化装置。
前記モジュール選択部は、前記選択された符号化モジュールのモジュールＩＤを抽出し、前記モジュールＩＤを前記モジュールバッファおよび前記ビットストリーム生成部に伝達することを特徴とする請求項２に記載の音声／オーディオ統合信号の符号化装置。
前記音声符号化部は、
前記第１符号化モジュールと前記第２符号化モジュールとが同一である場合、ＣＥＬＰ構造に前記入力信号を符号化する第１音声符号化部と、
前記第１符号化モジュールと前記第２符号化モジュールとが異なる場合、前記第１音声符号化部の符号化のための初期値を決定する符号化初期化部と、
を含むことを特徴とする請求項２に記載の音声／オーディオ統合信号の符号化装置。
前記第１音声符号化部は、前記第１符号化モジュールと前記第２符号化モジュールとが同一である場合、前記第１音声符号化部内の初期値を用いて符号化し、
前記第１符号化モジュールと前記第２符号化モジュールとが異なる場合、前記符号化初期化部で決定された初期値を用いて符号化することを特徴とする請求項４に記載の音声／オーディオ統合信号の符号化装置。
前記符号化初期化部は、
前記過去の入力信号に対するＬＰＣ係数を算出するＬＰＣ分析部と、
前記ＬＰＣ分析部で算出したＬＰＣ係数をＬＳＰ値に変換するＬＳＰ変換部と、
前記過去の入力信号および前記ＬＰＣ係数を用いてＬＰＣ残余信号を算出するＬＰＣ残余信号算出部と、
前記ＬＰＣ係数、前記ＬＳＰ値、および前記ＬＰＣ残余信号を用いて前記第１音声符号化部の符号化のための初期値を決定する符号化初期値決定部と、
を含むことを特徴とする請求項４に記載の音声／オーディオ統合信号の符号化装置。
前記オーディオ符号化部は、
前記第１符号化モジュールと前記第２符号化モジュールとが同一である場合、ＭＤＣＴの動作によって入力信号を符号化する第１オーディオ符号化部と、
前記第１符号化モジュールと前記第２符号化モジュールとが異なる場合、ＣＥＬＰ構造に入力信号を符号化する第２音声符号化部と、
前記第１符号化モジュールと前記第２符号化モジュールとが異なる場合、ＭＤＣＴの動作によって入力信号を符号化する第２オーディオ符号化部と、
前記第１オーディオ符号化部の出力、前記第２音声符号化部の出力、および前記第２オーディオ符号化部の出力のうち１つを選択して出力ビットストリームを生成するマルチプレクサと、
を含むことを特徴とする請求項２に記載の音声／オーディオ統合信号の符号化装置。
前記第２音声符号化部は、前記第１符号化モジュールと前記第２符号化モジュールとが異なる場合、前記第１フレームの前の１／２サンプルに該当する入力信号を符号化することを特徴とする請求項７に記載の音声／オーディオ統合信号の符号化装置。
前記第２オーディオ符号化部は、
前記第２音声符号化部の符号化動作が終了した後、ＬＰＣフィルタに対するゼロ入力応答を算出するゼロ入力応答算出部と、
前記第１フレームの前の１／２サンプルに該当する入力信号をゼロに変換する第１変換部と、
前記第１フレームの後の１／２サンプルに該当する入力信号から前記ゼロ入力応答を差し引く第２変換部と、を含み、
前記第１変換部の変換信号および前記第２変換部の変換信号を符号化することを特徴とする請求項７に記載の音声／オーディオ統合信号の符号化装置。
入力ビットストリームの特性を分析して前記入力ビットストリームの第１フレームを復号化するための第１復号化モジュールを選択するモジュール選択部と、
前記モジュール選択部の選択によって、前記入力ビットストリームを復号化して音声信号を生成する音声復号化部と、
前記モジュール選択部の選択によって、前記入力ビットストリームを復号化してオーディオ信号を生成するオーディオ復号化部と、
前記モジュール選択部の選択によって、前記音声復号化部の音声信号および前記オーディオ復号化部のオーディオ信号のうちの１つを選択して出力信号を生成する出力生成部と、
を含むことを特徴とする音声／オーディオ統合信号の復号化装置。
前記選択された復号化モジュールのモジュールＩＤを格納し、前記第１フレームの以前フレームに対する復号化モジュールである第２復号化モジュールの情報を前記音声復号化部および前記オーディオ復号化部に送信するモジュールバッファと、
前記出力信号を格納し、前記以前フレームに対する出力信号である過去の出力信号を出力する出力バッファと、
をさらに含むことを特徴とする請求項１０に記載の音声／オーディオ統合信号の復号化装置。
前記音声復号化部は、
前記第１復号化モジュールと前記第２復号化モジュールとが同一である場合、ＣＥＬＰ構造に前記入力ビットストリームを復号化する第１音声復号化部と、
前記第１復号化モジュールと前記第２復号化モジュールとが異なる場合、前記第１音声復号化部の復号化のための初期値を決定する復号化初期化部と、
を含むことを特徴とする請求項１１に記載の音声／オーディオ統合信号の復号化装置。
前記復号化初期化部は、
前記過去の出力信号に対するＬＰＣ係数を算出するＬＰＣ分析部と、
前記ＬＰＣ分析部で算出したＬＰＣ係数をＬＳＰ値に変換するＬＳＰ変換部と、
前記過去の出力信号および前記ＬＰＣ係数を用いてＬＰＣ残余信号を算出するＬＰＣ残余信号算出部と、
前記ＬＰＣ係数、前記ＬＳＰ値、および前記ＬＰＣ残余信号を用いて前記第１音声復号化部の復号化のための初期値を決定する復号化初期値決定部と、
を含むことを特徴とする請求項１２に記載の音声／オーディオ統合信号の復号化装置。
前記第１音声復号化部は、前記第１復号化モジュールと前記第２復号化モジュールとが同一である場合、前記第１音声復号化部内の初期値を用いて復号化し、前記第１復号化モジュールと前記第２復号化モジュールとが異なる場合、前記復号化初期化部で決定された初期値を用いて復号化することを特徴とする請求項１２に記載の音声／オーディオ統合信号の復号化装置。
前記オーディオ復号化部は、
前記第１復号化モジュールと前記第２復号化モジュールとが同一である場合、ＩＭＤＣＴの動作によって入力ビットストリームを復号化する第１オーディオ復号化部と、
前記第１復号化モジュールと前記第２復号化モジュールとが異なる場合、ＣＥＬＰ構造に入力ビットストリームを復号化する第２音声復号化部と、
前記第１復号化モジュールと前記第２復号化モジュールとが異なる場合、ＩＭＤＣＴの動作によって入力ビットストリームを復号化する第２オーディオ復号化部と、
前記第２音声復号化部の出力と前記第２オーディオ復号化部の出力から最終出力を算出する信号復元部と、
前記信号復元部の出力または前記第１オーディオ復号化部の出力のうちの１つを選択して出力する出力選択部と、
を含むことを特徴とする請求項１１に記載の音声／オーディオ統合信号の復号化装置。
前記第２音声復号化部は、前記第１復号化モジュールと前記第２復号化モジュールとが異なる場合、前記第１フレームの前の１／２サンプルに該当する入力ビットストリームを復号化して入力信号を出力することを特徴とする請求項１５に記載の音声／オーディオ統合信号の復号化装置。
前記信号復元部は、前記第２音声復号化部の出力を前記第１フレームの前の１／２サンプルに該当する出力信号に決定することを特徴とする請求項１５に記載の音声／オーディオ統合信号の復号化装置。
前記信号復元部は、下記の数１によって前記第１フレームの後の１／２サンプルに該当する出力信号を決定することを特徴とする請求項１５に記載の音声／オーディオ統合信号の復号化装置。

（ここで、ｈは前記第１フレームの後の１／２サンプルに該当する出力信号、ｂは第２オーディオ復号化部出力信号、ｘ４は第２音声復号化部出力信号、ｗ１、ｗ２はウィンドウ、ｗ１_Ｒ、ｘ４_Ｒはそれぞれｗ１、ｘ４信号を１／２フレーム長の単位に時間軸に回転させた信号を意味する）
前記信号復元部は、下記の数２によって前記第１フレームの後の１／２サンプルに該当する出力信号を決定することを特徴とする請求項１５に記載の音声／オーディオ統合信号の復号化装置。

（ここで、ｈは前記第１フレームの後の１／２サンプルに該当する出力信号、ｂは第２オーディオ復号化部出力信号、ｗ２はウィンドウを意味する）
前記信号復元部は、下記の［数３］によって前記第１フレームの後の１／２サンプルに該当する出力信号を決定することを特徴とする請求項１５に記載の音声／オーディオ統合信号の復号化装置。

（ここで、ｈは前記第１フレームの後の１／２サンプルに該当する出力信号、ｂは第２オーディオ復号化部出力信号、ｗ２はウィンドウ、ｘ５は第２音声復号化部出力信号を復号化した後のＬＰＣフィルタに対するゼロ入力応答を意味する）