JP6067601B2

JP6067601B2 - 音声／音楽統合信号の符号化／復号化装置

Info

Publication number: JP6067601B2
Application number: JP2014023744A
Authority: JP
Inventors: リー、テ、ジン; ベク、スン、クウォン; キム、ミンジェ; ジャン、テ、ヤン; ソ、ジョンイル; カン、キョンゴク; ホン、ジン、ウー; パク、ホチョン; パク、ヤン‐チョル
Original assignee: Electronics and Telecommunications Research Institute ETRI; Industry Academic Collaboration Foundation of Kwangwoon University
Current assignee: Electronics and Telecommunications Research Institute ETRI; Industry Academic Collaboration Foundation of Kwangwoon University
Priority date: 2008-07-14
Filing date: 2014-02-10
Publication date: 2017-01-25
Anticipated expiration: 2029-07-14
Also published as: CN103531203A; KR20100007739A; US20190385621A1; CN102150204A; JP2013232007A; EP2302624A1; CN103531203B; US20150095023A1; US11705137B2; WO2010008176A1; US9818411B2; US20180068667A1; US10403293B2; JP2014139674A; KR101565634B1; US10714103B2; US8903720B2; US20240119948A1; EP2302624A4; KR101381513B1

Description

音声／音楽統合信号の符号化／復号化装置に関し、特に音声と音楽信号に対して互いに異なる構造で動作する符号化／復号化モジュールを有して入力信号の特性に応じて内部モジュールを効果的に選択し、音声／音楽すべての信号に対して効果的に符号化する方法および装置に関する。

音声信号と音楽信号は互いに異なる特性を有し、各信号の固有特性を活用して各信号に特化された音声コーデックと音楽コーデックが独立的に研究され、それぞれの標準コーデックが開発された。現在広く用いられている音声コーデック（ＡＭＲ−ＷＢ＋）は、ＣＥＬＰ構造を有し、音声の発声モデルによってＬＰＣに基づいて音声パラメータを抽出して量子化する構造を有する。一方、現在広く用いられている音楽コーデック（ＨＥ−ＡＡＣＶ２）は、周波数領域で人間の聴覚特性を考慮して心理音響の面で最適に周波数係数を量子化する構造を有する。

したがって、音楽信号符号化装置および音声信号符号化装置を統合すると同時に信号の特性およびビット率によって適切な符号化方式を選択し、より効果的に符号化／復号化を実行することのできるコーデックが要求される。

本発明は、入力信号の特性に応じて内部モジュールを効果的に選択することによって、多様なビット率で音声信号および音楽信号のすべてに対して優れた音質を提供する符号化／復号化装置および方法を提供する。

本発明は、サンプリング率変換の前に周波数帯域を拡張することによって、さらに広い帯域に周波数の拡張が可能な符号化／復号化装置および方法を提供する。

本発明の一実施形態に係る音声／音楽統合信号の符号化装置は、入力信号の特性を分析する入力信号分析部と、前記入力信号がステレオ信号である場合、モノラル信号でダウンミックスして、ステレオ音像情報を抽出するステレオ符号化部と、前記入力信号を高周波帯域信号に拡張する周波数帯域拡張部と、前記周波数帯域拡張部の出力信号に対するサンプリング率を変換するサンプリング率変換部と、前記入力信号が音声特性を有する信号である場合、音声符号化モジュールを用いて前記入力信号を符号化する音声信号符号化部と、前記入力信号が音楽特性を有する信号である場合、音楽符号化モジュールを用いて前記入力信号を符号化する音楽信号符号化部と、前記音声信号符号化部の出力信号および前記音楽信号符号化部の出力信号を用いてビットストリームを生成するビットストリーム生成部とを含むことができる。

本発明の一側面によれば、前記入力信号分析部は、前記入力信号のＺＣＲ（ＺｅｒｏＣｒｏｓｓｉｎｇＲａｔｅ）、相関関係、およびフレーム単位のエネルギのうち少なくとも１つを用いて前記入力信号を分析することができる。

本発明の一側面によれば、前記ステレオ音像情報は、左／右チャネルの相関関係および左／右チャネルのレベル差のうち少なくとも１つを含むことができる。

本発明の一側面によれば、前記周波数帯域拡張部は、前記サンプリング率の変換の前に前記入力信号を高周波帯域信号に拡張することができる。

本発明の一側面によれば、前記サンプリング率変換部は、前記音声信号符号化部または音楽信号符号化部で要求するサンプリング率によって前記入力信号のサンプリング率を変換することができる。

本発明の一側面によれば、前記サンプリング率変換部は、入力信号を１／２にダウンサンプリングする第１ダウンサンプリング部と、前記第１ダウンサンプリング部の出力信号を１／２にダウンサンプリングする第２ダウンサンプリング部とを含むことができる。

本発明の一側面によれば、前記ビットストリーム生成部は、前記入力信号が音声特性信号と音楽特性信号との間で変化する場合、フレーム単位の変化を補償する情報をビットストリームに格納することができる。

本発明の一側面によれば、前記フレーム単位の変化を補償する情報は、入力信号の特性に係る時間／周波数変換方法および時間／周波数変換サイズのうち少なくとも１つを含むことができる。

本発明の一実施形態に係る音声／音楽統合信号の復号化装置は、入力されたビットストリーム信号を分析するビットストリーム分析部と、前記ビットストリーム信号が音声特性信号に対するビットストリームである場合、音声復号化モジュールを用いて前記ビットストリーム信号を解読する音声信号復号化部と、前記ビットストリーム信号が音楽特性信号に対するビットストリームである場合、音楽復号化モジュールを用いて前記ビットストリーム信号を解読する音楽信号復号化部と、前記音楽特性信号と前記音声特性信号との間の変換時変換処理を行う信号補償部と、前記ビットストリーム信号のサンプリング率を変換するサンプリング率変換部と、復号化された低周波帯域信号を用いて高周波帯域信号を生成する周波数帯域拡張部と、ステレオ拡張パラメータを用いてステレオ信号を生成するステレオ復号化部とを含むことができる。

本発明の一実施形態によれば、入力信号の特性に応じて内部モジュールを効果的に選択することによって、多様なビット率で音声信号および音楽信号のすべてに対して優れた音質を提供する符号化／復号化装置および方法が提供される。

本発明の一実施形態によれば、サンプリング率変換の前に周波数帯域を拡張することによって、さらに広い帯域に周波数の拡張が可能な符号化／復号化装置および方法が提供される。

本発明の一実施形態において、音声／音楽統合信号の符号化装置を示す図である。図１に示したサンプリング率変換部の一例を示す図である。本発明の一実施形態において、周波数帯域拡張部の開始および終了周波数帯域を示す図である。本発明の一実施形態において、ビット率に係るモジュール別の動作を示す図である。本発明の一実施形態において、音声／音楽統合信号の復号化装置を示す図である。

以下、添付する図面に記載した内容を参照しながら本発明に係る実施形態を詳細に説明する。ただし、本発明が実施形態によって制限されたり限定されることはない。各図面に提示した同一の参照符号は同一の部材を示す。

図１は、本発明の一実施形態において、音声／音楽統合信号の符号化装置を示す図である。

図１を参照すると、音声／音楽統合信号の符号化装置１００は、入力信号分析部１１０と、ステレオ符号化部１２０と、周波数帯域拡張部１３０と、サンプリング率変換部１４０と、音声信号符号化部１５０と、音楽信号符号化部１６０と、ビットストリーム生成部１７０とを含んでもよい。

入力信号分析部１１０は、入力信号の特性を分析してもよい。すなわち、入力信号分析部１１０は、入力信号の特性を分析して音声特性を有する信号であるか、音楽特性を有する信号であるかを分離してもよい。この時、入力信号分析のために入力信号のＺＣＲ、相関関係、およびフレーム単位のエネルギのうち少なくとも１つを用いてもよい。

ステレオ符号化部１２０は、入力信号をモノラル信号でダウンミックスして、ステレオ音像情報を抽出してもよい。この時、ステレオ音像情報は、左／右チャネルの相関関係および左／右チャネルのレベル差のうち少なくとも１つを含んでもよい。

周波数帯域拡張部１３０は、入力信号を高周波帯域信号に拡張してもよい。この時、サンプリング率の変換の前に前記入力信号を高周波帯域信号に拡張してもよい。ここで、周波数帯域拡張部１３０の動作は、図３を参照しながら以下にて詳しく説明する。

図３は、本発明の一実施形態において、周波数帯域拡張部の開始および終了周波数帯域を示す図である。

図３の表３００を参照すると、周波数帯域拡張部１３０は、モノラルダウンミックス信号が音楽特性信号である場合、図３に例示するように、ビット率に係る高周波帯域信号を生成するための情報を抽出してもよい。一方、音声特性信号は、一例として入力オーディオ信号のサンプリング率が４８ｋＨｚである場合、ｓｔａｒｔ周波数帯域を６ｋＨｚに固定して、Ｓｔｏｐ周波数帯域は音楽特性信号と同一の値を用いるようにしてもよい。ここで、音声特性信号のｓｔａｒｔ周波数帯域は、音声特性信号の符号化モジュールで用いる符号化モジュールの設定によって多様な値を有することができる。また、周波数帯域拡張部１３０で用いるＳｔｏｐ周波数帯域は、入力信号のサンプリング率や設定したビット率によって多様な値に設定することができる。周波数帯域拡張部１３０は、組成（ｔｏｎａｌｉｔｙ）、ブロック単位のエネルギ値などの情報を用いて動作することができる。また、音声特性信号と音楽特性信号によって周波数帯域拡張に関する情報が変わるが、前記周波数帯域拡張に関する情報を音声特性信号と音楽特性信号との間に変換が発生する時にビットストリームに格納するようにしてもよい。

再び図１を参照すると、サンプリング率変換部１４０は、入力信号のサンプリング率を変換してもよい。ここで、サンプリング率変換部１４０は、入力信号を符号化する前に入力信号を前処理する過程に該当する。したがって、サンプリング率変換部１４０は、入力ビット率によりコア（ｃｏｒｅ）帯域の周波数帯域を変更するために、入力オーディオ信号のサンプリング率を変換してもよい。この時、サンプリング率の変換を周波数帯域の拡張の次に行うことによって、周波数帯域の拡張における周波数帯域の設定がコア帯域で用いるサンプリング率に固定されずにさらに広い帯域に拡張が可能となる。

サンプリング率変換部１４０を図２を参照しながら以下にて詳しく説明する。

図２は、図２に示したサンプリング率変換部の一例を示す図である。

図２を参照すると、サンプリング率変換部１４０は、第１ダウンサンプリング部２１０および第２ダウンサンプリング部２２０を含んでもよい。

第１ダウンサンプリング部２１０は、入力信号を１／２にダウンサンプリングしてもよい。例えば、第１ダウンサンプリング部２１０は、音楽符号化モジュールがＡＡＣ（ａｄｖａｎｃｅｄａｕｄｉｏｃｏｄｉｎｇ）に基づく符号化モジュールを用いる場合、１／２ダウンサンプリングを実行することができる。

第２ダウンサンプリング部２２０は、第１ダウンサンプリング部の出力信号を１／２にダウンサンプリングしてもよい。例えば、第２ダウンサンプリング部２２０は、音声符号化モジュールがＡＭＲ−ＷＢ＋（ＡｄａｐｔｉｖｅＭｕｌｔｉ−ＲａｔｅＷｉｄｅｂａｎｄＰｌｕｓ）に基づく符号化モジュールを用いる場合、前記第１ダウンサンプリング部の出力信号を１／２ダウンサンプリングしてもよい。

したがって、音楽信号符号化部１６０でＡＡＣに基づく符号化モジュールを用いる場合、サンプリング率変換部１４０では１／２にダウンサンプリングした信号を生成し、音声信号符号化部１５０でＡＭＲ−ＷＢ＋に基づく符号化モジュールを用いる場合、１／４にダウンサンプリングを行ってもよい。したがって、サンプリング変換部１４０を音声信号符号化部１５０および音楽信号符号化部１６０の前に置いて、音声／音楽信号符号化モジュールが処理するサンプリング率が異なる時、これを予め考慮してサンプリング変換部１４０で処理した後に音声信号符号化モジュールまたは音楽信号符号化モジュールに入力できるようにする。

また、サンプリング率変換部１４０は、前記音声信号符号化部または音楽信号符号化部で要求するサンプリング率によって前記入力信号のサンプリング率を変換してもよい。

再び図１を参照すると、音声信号符号化部１５０は、入力信号が音声特性を有する信号である場合、音声符号化モジュールを用いて前記入力信号を符号化してもよい。ここで、入力信号が音声特性を有する信号である場合、周波数帯域拡張をしないコア帯域に対して音声特性信号符号化モジュールで符号化を行ってもよい。一方、音声信号符号化部１５０は、ＣＥＬＰ（ＣｏｄｅＥｘｃｉｔａｔｉｏｎＬｉｎｅａｒＰｒｅｄｉｃｔｉｏｎ）に基づく音声符号化モジュールを用ってもよい。

音楽信号符号化部１６０は、入力信号が音楽特性を有する信号である場合、音楽符号化モジュールを用いて前記入力信号を符号化してもよい。ここで、入力信号が音楽特性を有する信号である場合、周波数帯域拡張を行わないコア帯域に対して音楽特性信号符号化モジュールで符号化を行ってもよい。

一方、音楽信号符号化部１６０は、時間／周波数に基づく音声符号化モジュールを用いてもよい。

ビットストリーム生成部１７０は、音声信号符号化部の出力信号および音楽信号符号化部の出力信号を用いてビットストリームを生成してもよい。この時、ビットストリーム生成部１７０は、前記入力信号が音声特性信号と音楽特性信号との間で変化する場合、フレーム単位の変化を補償する情報をビットストリームに格納してもよい。ここで、前記フレーム単位の変化を補償する情報は、入力信号の特性に係る時間／周波数変換方法および時間／周波数変換サイズのうち少なくとも１つを含むことができる。前記フレーム単位の変化を補償する情報を用いて復号化装置で音声特性信号フレームと音楽特性信号フレームの間の変換を行うようにしてもよい。

一方、ターゲット（ｔａｒｇｅｔ）ビット率に係る音声／音楽統合信号の符号化装置１００の動作は、図４を参照しながら以下にて詳細に説明する。

図４は、本発明の一実施形態において、ビット率に係るモジュール別の動作を示す図である。

図４の表４００を参照すると、入力信号がモノである場合、ステレオ符号化モジュールをすべてＯＦＦにし、ビット率が１２ｋｂｐｓ、１６ｋｂｐｓである場合、音楽特性信号符号化モジュールをＯＦＦにしてもよい。ここで、ビット率１２ｋｂｐｓ、１６ｋｂｐｓで音楽特性信号符号化モジュールをＯＦＦする理由は、低いビット率ではＣＥＬＰに基づく音声符号化モジュールを用いて音楽特性信号を符号化することが音楽符号化モジュールを用いて符号化することより優れた音質を示すためである。したがって、ビット率１２ｋｂｐｓ、１６ｋｂｐｓでモノ入力信号に対する符号化は、音楽符号化モジュール、ステレオ符号化モジュール、入力信号分析モジュールをＯＦＦした後、音声信号符号化モジュールと周波数帯域拡張モジュールだけを用いることができる。

ビット率２０ｋｂｐｓ、２４ｋｂｐｓ、３２ｋｂｐｓでは、音声特性信号と音楽特性信号によって音声信号符号化モジュールと音楽信号符号化モジュールを交換しながら用いるてもよ。すなわち、入力信号分析モジュールで入力信号を分析して音声特性信号である場合、音声符号化モジュールによって符号化し、音楽特性信号である場合、音楽符号化モジュールを用いて符号化してもよい。

ビット率６４ｋｂｐｓでは、使用可能なビットが充分であるため、時間／周波数変換に基づく音楽符号化モジュールの性能が向上する。したがって、６４ｋｂｐｓでは、音声符号化モジュールと入力信号分析モジュールをＯＦＦと、入力信号をすべて音楽符号化モジュールおよび周波数帯域拡張モジュールを用いて符号化してもよい。

入力信号がステレオである場合、ステレオ符号化モジュールを動作させることができる。ビット率１２ｋｂｐｓ、１６ｋｂｐｓ、２０ｋｂｐｓで符号化する場合、音楽符号化モジュールと入力信号分析モジュールをすべてＯＦＦにした後、すべての入力信号をステレオ符号化モジュール、周波数帯域拡張モジュールおよび音声符号化モジュールによって符号化してもよい。一般的にステレオ符号化モジュールで用いるビットは４ｋｂｐｓ以下であるため、２０ｋｂｐｓでステレオ入力信号を符号化する場合、１６ｋｂｐｓでダウンミックスしたモノラル信号を符号化しなければならない。この帯域は、音声符号化モジュールが音楽符号化モジュールより優れた性能を示すため、入力信号分析モジュールをＯＦＦし、すべての入力信号に対して音声符号化モジュールを用いて符号化を行ってもよい。

入力ステレオ信号に対してビット率２４ｋｂｐｓ、３２ｋｂｐｓで符号化する場合、入力信号分析モジュールの結果に応じて音声特性信号は音声符号化モジュールを用いて符号化し、音楽特性信号は音楽符号化モジュールを用いて符号化を行ってもよい。

ステレオ信号をビット率６４ｋｂｐｓで符号化する場合、使用可能ビットが多いため、音楽特性信号符号化モジュールだけを用いて入力信号を符号化してもよい。

例えば、音声符号化装置のＡＭＲ−ＷＢ＋と音楽符号化装置のＨＥ−ＡＡＣＶ２（Ｈｉｇｈ−ＥｆｆｉｃｉｅｎｃｙＡｄｖａｎｃｅｄＡｕｄｉｏＣｏｄｉｎｇｖｅｒｓｉｏｎ２）を用いて統合音声／音楽統合信号の符号化装置１００を構成する場合、ＡＭＲ−ＷＢ＋のステレオモジュールと周波数帯域拡張モジュールの性能が優れていないために、ＨＥ−ＡＡＣＶ２のＰＳ（ＰａｒａｍｅｔｒｉｃＳｔｅｒｅｏ）モジュールとＳＢＲ（ＳｐｅｃｔｒａｌＢａｎｄＲｅｐｌｉｃａｔｉｏｎ）モジュールを用いてステレオ信号に対する処理と周波数帯域の拡張を行える。

１２ｋｂｐｓ、１６ｋｂｐｓモノラル信号に対しては、ＣＥＬＰに基づくＡＭＲ−ＷＢ＋の性能が優れているため、コア帯域の符号化はＡＭＲ−ＷＢ＋のＡＣＥＬＰ（ＡｌｇｅｂｒａｉｃＣｏｄｅＥｘｃｉｔｅｄＬｉｎｅａｒＰｒｅｄｉｃｔｉｏｎ）／ＴＣＸ（ＴｒａｎｓｆｏｒｍＣｏｄｅｄＥｘｃｉｔａｔｉｏｎ）モジュールを用いて、周波数帯域の拡張にはＨＥ−ＡＡＣＶ２のＳＢＲ（ＳｐｅｃｔｒａｌＢａｎｄＲｅｐｌｉｃａｔｉｏｎ）モジュールを用いてもよい。

２０ｋｂｐｓ、２４ｋｂｐｓ、３２ｋｂｐｓでは、入力信号を分析して音声特性信号である場合、ＡＭＲ−ＷＢ＋のＡＣＥＬＰ／ＴＣＸモジュール、音楽特性信号である場合、ＨＥ−ＡＡＣＶ２のＡＡＣモジュールを用いてコア帯域を符号化し、ＨＥ−ＡＡＣＶ２のＳＢＲを用いて周波数帯域の拡張を行ってもよい。

６４ｋｂｐｓでは、コア帯域の符号化にＨＥ−ＡＡＣＶ２のＡＡＣモジュールだけを用いて符号化を行ってもよい。

ステレオ入力に対しては、ＨＥ−ＡＡＣＶ２のＰＳモジュールを用いてステレオ符号化を行い、モードによって適切なＡＲＭ−ＷＢ＋のＡＣＥＬＰ／ＴＣＸモジュールとＨＥ−ＡＡＣＶ２のＡＡＣモジュールを選択してコア帯域に対する符号化を行ってもよい。

上記のように、入力信号の特性に応じて内部モジュールを効果的に選択することにより、多様なビット率で音声信号および音楽信号のすべてに対して優れた音質を提供し、サンプリング率変換の前に周波数帯域を拡張することによって、さらに広い帯域で周波数拡張が可能となり得る。

図５は、本発明の一実施形態において、音声／音楽統合信号の復号化装置を示す図である。

図５を参照すると、音声／音楽統合信号の復号化装置５００は、ビットストリーム分析部５１０、音声信号復号化部５２０、音楽信号復号化部５３０、信号補償部５４０、サンプリング率変換部５５０、周波数帯域拡張部５６０、およびステレオ復号化部５７０を含むことができる。

ビットストリーム分析部５１０は、入力されたビットストリーム信号を分析してもよい。

音声信号復号化部５２０は、ビットストリーム信号が音声特性信号に対するビットストリームである場合、音声復号化モジュールを用いて前記ビットストリーム信号を復号化してもよい。

音楽信号復号化部５３０は、ビットストリーム信号が音楽特性信号に対するビットストリームである場合、音楽復号化モジュールを用いて前記ビットストリーム信号を復号化してもよい。

信号補償部５４０は、音楽特性信号と音声特性信号との間の変換時の変換処理を行うことができる。すなわち、音声特性信号と音楽特性信号との間の変換時に、アーチファクト（ａｒｔｉｆａｃｔ）が発生しないように、それぞれの特性に係る変換情報を用いて滑らかに音声特性信号と音楽特性信号との間を変換するように処理してもよい。

サンプリング率変換部５５０は、ビットストリーム信号のサンプリング率を変換してもよい。したがって、サンプリング率変換部５５０は、コア帯域で用いたサンプリング率を円サンプリング率に変換して周波数帯域拡張モジュールやステレオ符号化モジュールで用いるための信号を生成してもよい。すなわち、コア帯域で変換して用いたサンプリング率を変換前サンプリング率によって再変換し、周波数帯域拡張モジュールやステレオ符号化モジュールで用いるための信号を生成してもよい。

周波数帯域拡張部５６０は、復号化された低周波帯域信号を用いて高周波帯域信号を生成してもよい。

ステレオ復号化部５７０は、ステレオ拡張パラメータを用いてステレオ信号を生成してもよい。

上述したように、本発明では具体的な構成要素などの特定事項と限定される実施形態および図面によって説明したが、これは本発明のより全般的な理解を助けるために提供したものに過ぎず、本発明は、前記の実施形態に限定されるものではなく、本発明が属する分野で通常の知識を有する者であれば、このような記載から多様な修正および変形が可能である。したがって、本発明の思想は説明した実施形態に限定して決定されてはならず、後述する特許請求の範囲だけでなくこの特許請求の範囲と均等または等価的変形のある全てのものは本発明の思想の範疇に属するといえる。

Claims

入力されたビットストリーム信号をフレーム単位で分析するステップと、
前記ビットストリーム信号のフレームが音声特性信号である場合、音声復号化モジュールを用いて前記音声特性信号のコア帯域を復号化するステップと、
前記ビットストリーム信号のフレームが音楽特性信号である場合、音楽復号化モジュールを用いて前記音楽特性信号のコア帯域を復号化するステップと、
前記ビットストリーム信号で前記復号化された音楽特性信号と前記復号化された音声特性信号との間の変換時変換処理を行うステップと、
前記変換処理されたビットストリーム信号のサンプリング率を変換するステップと、
前記サンプリング率が変換されたビットストリーム信号で復号化された低周波帯域信号を用いて高周波帯域信号を生成するステップと、
ステレオ拡張パラメータを用いて前記高周波帯域信号が生成されたビットストリーム信号からステレオ信号を生成するステップと、
を含み、
前記コア帯域は、周波数帯域が拡張されない周波数帯域であり、
前記ビットストリーム信号は、入力ビット率によりコア帯域の周波数帯域を変更するために、１／２ダウンサンプリングしたり、または１／２ダウンサンプリングした後、さらに１／２ダウンサンプリングしてサンプリング率が変換された入力信号が付号化された結果であり、
前記ビットストリーム信号分析ステップの出力結果は、ビットストリーム信号のフレームの特性に応じて音声復号化モジュールまたは音楽復号化モジュールのうちいずれか１つで入力され、
前記サンプリング率を変換するステップは、
コア帯域で１／２にダウンサンプリングして用いたサンプリング率、またはコア帯域で１／２にダウンサンプリングした結果に対して、さらに１／２にダウンサンプリングして用いたサンプリング率を変換前の元のサンプリング率によって再変換する音声／音楽統合信号の復号化方法。