JPWO2006008932A1

JPWO2006008932A1 - 音声符号化装置および音声符号化方法

Info

Publication number: JPWO2006008932A1
Application number: JP2006528766A
Authority: JP
Inventors: 吉田　幸司; 幸司吉田
Original assignee: Panasonic Corp; Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Corp; Panasonic Holdings Corp
Priority date: 2004-07-23
Filing date: 2005-06-29
Publication date: 2008-05-01
Also published as: US8670988B2; ES2634511T3; WO2006008932A1; EP1768106A4; EP1768106B1; EP1768106B8; EP1768106A1; EP3276619A1; CN1989549B; EP3276619B1; CN1989549A; US20070299660A1

Abstract

音声符号化に伴って用いられる制御方式に対応した音声復号のモードを復号側に自由に選択させるとともに、復号側がその制御方式に対応していなくとも復号可能なデータを生成することができる音声符号化装置を提供する。音声符号化装置（１００）は、音声成分を含む音声信号に対応する符号化データと音声成分を含まない音声信号に対応する符号化データとを出力する。音声符号化部（１０２）は、入力音声信号を所定区間単位で符号化し符号化データを生成する。有音無音判定部（１０６）は、入力音声信号が音声成分を含むか否かを所定区間毎に判定する。ビット埋め込み部（１０４）は、音声符号化部（１０２）によって生成された符号化データのうち無音区間の入力音声信号から生成されたもののみに対して雑音データの合成を行うことにより、音声成分を含む音声信号に対応する符号化データと音声成分を含まない音声信号に対応する符号化データとを取得する。

Description

本発明は、音声符号化装置および音声符号化方法に関し、特に、有音区間と無音区間とで異なるフォーマットタイプの符号化データを伝送するのに用いられる音声符号化装置および音声符号化方法に関する。

ＩＰ（ＩｎｔｅｒｎｅｔＰｒｏｔｏｃｏｌ）ネットワーク上での音声データ通信において、有音区間と無音区間とで異なるフォーマットタイプの符号化データを伝送することがある。有音とは、音声信号が所定レベル以上の音声成分を含むことである。無音とは、音声信号が所定レベル以上の音声成分を含まないことである。音声信号が音声成分とは異なる雑音成分のみを含む場合、その音声信号は無音と認識される。このような伝送技術の一つに、ＤＴＸ制御と呼ばれるものがある（例えば、非特許文献１および非特許文献２参照）。

例えば図１に示す音声符号化装置１０がＤＴＸ制御を伴うモードで音声符号化を行う場合、有音無音判定部１１で、所定長の区間（フレーム長に相当）の単位で区切られた音声信号に対して、その区間毎に有音か無音かの判定が行われる。そして、有音と判定された場合つまり有音区間の場合、音声符号化部１２で生成された符号化データは、有音フレームとしてＤＴＸ制御部１３から出力される。このとき、有音フレームは、有音フレームの伝送を通知するためのフレームタイプ情報とともに出力される。有音フレームは、例えば図２（Ａ）に示すように、Ｎｖビットの情報で構成されたフォーマットを有する。

一方、無音と判定された場合つまり無音区間の場合は、快適雑音符号化部１４で無音フレーム符号化が行われる。無音フレーム符号化は、無音区間における周囲騒音を模擬した信号を復号側で得るための符号化であり、有音区間に比べて少ない情報量つまりビット数で行われる符号化である。無音フレーム符号化によって生成された符号化データは、連続する無音区間において一定の周期で、いわゆるＳＩＤ（ＳｉｌｅｎｃｅＤｅｓｃｒｉｐｔｏｒ）フレームとしてＤＴＸ制御部１３から出力される。このとき、ＳＩＤフレームは、ＳＩＤフレームの伝送を通知するためのフレームタイプ情報とともに出力される。また、ＳＩＤフレームは、例えば図２（Ｂ）に示すように、Ｎｕｖビット（Ｎｕｖ＜Ｎｖ）の情報で構成されたフォーマットを有する。

また、無音区間においてＳＩＤフレームが伝送されるとき以外は、符号化情報の伝送が行われない。換言すれば、無音フレームの伝送が省略される。ただし、無音フレームの伝送を通知するためのフレームタイプ情報だけがＤＴＸ制御部１３から出力される。このように、ＤＴＸ制御では、不連続な伝送が行われるような制御が行われるので、伝送路を介して伝送される情報量や復号側で復号される情報量は、無音区間において低減される。

これに対して、ＤＴＸ制御を伴わないモードで音声符号化を行う場合は、音声信号は常に有音であるものとして扱われ、その結果、符号化データの伝送が常に連続的に行われる。したがって、ＤＴＸ制御機能を有する従来の音声符号化装置では、音声符号化のモードを、ＤＴＸ制御を伴うモード（ＤＴＸ制御あり）またはＤＴＸ制御を伴わないモード（ＤＴＸ制御なし）のいずれかに予め設定した上で、音声符号化を行う。
″ＭａｎｄａｔｏｒｙｓｐｅｅｃｈＣＯＤＥＣｓｐｅｅｃｈｐｒｏｃｅｓｓｉｎｇｆｕｎｃｔｉｏｎｓ；ＡＭＲｓｐｅｅｃｈＣＯＤＥＣ；Ｇｅｎｅｒａｌｄｅｓｃｒｉｐｔｉｏｎ″，３ｒｄＧｅｎｅｒａｔｉｏｎＰａｒｔｎｅｒｓｈｉｐＰｒｏｊｅｃｔ，ＴＳ２６．０７１ ″ＭａｎｄａｔｏｒｙｓｐｅｅｃｈｃｏｄｅｃｓｐｅｅｃｈｐｒｏｃｅｓｓｉｎｇｆｕｎｃｔｉｏｎｓＡｄａｐｔｉｖｅＭｕｌｔｉ−Ｒａｔｅ（ＡＭＲ）ｓｐｅｅｃｈｃｏｄｅｃ；Ｓｏｕｒｃｅｃｏｎｔｒｏｌｌｅｄｒａｔｅｏｐｅｒａｔｉｏｎ″，３ｒｄＧｅｎｅｒａｔｉｏｎＰａｒｔｎｅｒｓｈｉｐＰｒｏｊｅｃｔ，ＴＳ２６．０９３

しかしながら、上記従来の音声符号化装置においては、ＤＴＸ制御ありの場合とＤＴＸ制御なしの場合とで、出力される符号化データ系列に違いが生じる。例えば、ＤＴＸ制御なしのモードでは、符号化データを構成する符号化データのフォーマットは１タイプである。これに対し、ＤＴＸ制御ありのモードでは、実際に伝送される符号化データのフォーマットは２タイプであるが、実質的に存在するフォーマットは３タイプである。このような違いに伴って、符号化側でＤＴＸ制御を行う場合、復号側ではＤＴＸ制御ありの音声符号化に対応したモードで音声復号を行う必要があり、また、符号化側でＤＴＸ制御を行わない場合、ＤＴＸ制御なしの音声符号化に対応したモードで音声復号を行う必要がある。換言すれば、復号側で設定される音声復号のモードは、符号化側で設定される音声符号化のモードに拘束されるため、復号側は音声復号のモードを自由に選択できない。

すなわち、ＤＴＸ制御対応の音声復号装置に対して、ＤＴＸ制御なしのモードで生成された符号化データを伝送したとすると、ある符号化データの元の音声信号が無音だったとしても、ネットワーク上で、無音区間において復号する情報量を低減することができない、すなわち、伝送効率の向上を図ることができず、またその音声復号装置は処理負荷を軽減することができない。一方、ＤＴＸ制御ありのモードで生成された符号化データを伝送したとすると、音声復号装置でのサービス（例えば、全区間を有音として復号することで得られる高音質受信モード）の選択の自由度が制限されてしまう。

また、ＤＴＸ制御対応でない音声復号装置に対して、ＤＴＸ制御ありのモードで得られた符号化データを伝送すると、その音声復号装置は、受信した符号化データを復号することができない。

したがって、例えば、音声符号化装置が、ＤＴＸ制御対応のものとＤＴＸ制御対応でないものとを含む複数の音声復号装置に対してマルチキャストを行う場合、ＤＴＸ制御ありのモードで音声符号化を行っても、ＤＴＸ制御なしのモードで音声符号化を行っても、上記のいずれかの問題が発生する。

本発明の目的は、音声符号化に伴って用いられる制御方式に対応した音声復号のモードを復号側に自由に選択させることができるとともに、復号側がその制御方式に対応していなくとも復号可能なデータを生成することができる音声符号化装置および音声符号化方法を提供することである。

本発明の音声符号化装置は、音声成分を含む音声信号に対応する第一の符号化データと前記音声成分を含まない音声信号に対応する第二の符号化データとを出力する音声符号化装置であって、入力音声信号を所定区間単位で符号化し符号化データを生成する符号化手段と、前記入力音声信号が前記音声成分を含むか否かを前記所定区間毎に判定する判定手段と、前記符号化データのうち、前記音声成分を含まないと判定された無音区間の前記入力音声信号から生成されたもののみに対して雑音データの合成を行うことにより、前記第一の符号化データと前記第二の符号化データとを取得する合成手段と、を有する構成を採る。

本発明の音声復号装置は、雑音データを合成された符号化データを復号し第一の復号音声信号を生成する第一の復号手段と、前記雑音データのみを復号し第二の復号音声信号を生成する第二の復号手段と、前記第一の復号音声信号および前記第二の復号音声信号のいずれか一方を選択する選択手段と、を有する構成を採る。

本発明の音声符号化方法は、音声成分を含む音声信号に対応する第一の符号化データと前記音声成分を含まない音声信号に対応する第二の符号化データとを出力する音声符号化方法であって、入力音声信号を所定区間単位で符号化し符号化データを生成する符号化ステップと、前記入力音声信号が前記音声成分を含むか否かを前記所定区間毎に判定する判定ステップと、前記符号化データのうち、前記音声成分を含まないと判定された無音区間の前記入力音声信号から生成されたもののみに対して雑音データの合成を行うことにより、前記第一の符号化データと前記第二の符号化データとを取得する合成ステップと、を有するようにした。

本発明の音声復号方法は、雑音データを合成された符号化データを復号し第一の復号音声信号を生成する第一の復号ステップと、前記雑音データのみを復号し第二の復号音声信号を生成する第二の復号ステップと、前記第一の復号音声信号および前記第二の復号音声信号のいずれか一方を選択する選択ステップと、を有するようにした。

本発明によれば、音声符号化に伴って用いられる制御方式に対応した音声復号のモードを復号側に自由に選択させることができるとともに、復号側がその制御方式に対応していなくとも復号可能なデータを生成することができる。

従来の音声符号化装置の構成の一例を示すブロック図従来の有音フレームの構成の一例および従来のいわゆるＳＩＤフレームの構成の一例を示す図本発明の実施の形態１に係る音声符号化装置の構成を示すブロック図本発明の実施の形態１に係る音声復号装置の構成の一例を示すブロック図本発明の実施の形態１に係る音声復号装置の構成の他の例を示すブロック図本発明の実施の形態１のフォーマットタイプの例を示す図本発明の実施の形態１のフォーマットタイプの変形例を示す図本発明の実施の形態２に係る音声符号化装置の構成を示すブロック図本発明の実施の形態２に係る音声符号化部の構成を示すブロック図本発明の実施の形態２に係る第１符号化候補生成部の構成を示すブロック図本発明の実施の形態２に係る第１符号化候補生成部の動作説明図本発明の実施の形態３に係るスケーラブル符号化装置の構成を示すブロック図本発明の実施の形態３に係るスケーラブル復号装置の構成を示すブロック図

以下、本発明の実施の形態について、図面を用いて詳細に説明する。

（実施の形態１）
図３は、本発明の実施の形態１に係る音声符号化装置の構成を示すブロック図である。また、図４Ａは、本実施の形態に係る音声復号装置の構成の一例を示すブロック図であり、図４Ｂは、本実施の形態に係る音声復号装置の構成の他の例を示すブロック図である。

まず、図３に示す音声符号化装置１００の構成について説明する。音声符号化装置１００は、音声符号化部１０２、ビット埋め込み部１０４、有音無音判定部１０６、フレームタイプ判定部１０８および無音パラメータ分析・符号化部１１０を有する。

音声符号化部１０２は、入力音声信号を所定長の区間（フレーム）単位で符号化し、複数（例えば、Ｎｖ）ビットの符号化ビット列から成る符号化データを生成する。音声符号化部１０２は、生成される符号化データのフォーマットが常に同じになるように、符号化のときに得られたＮｖビットの符号化ビット列を配置することにより符号化データの生成を行う。また、符号化データのビット数は予め定められている。

有音無音判定部１０６は、入力音声信号が音声成分を含むか否かを、前述の区間毎に判定し、この判定結果を示す有音無音判定フラグをフレームタイプ判定部１０８および無音パラメータ分析・符号化部１１０に出力する。

フレームタイプ判定部１０８は、入力された有音無音判定フラグを用いて、音声符号化部１０２で生成された符号化データを、３種類のフレームタイプ、すなわち、（ａ）有音フレーム、（ｂ）無音フレーム（埋込みあり）、（ｃ）無音フレーム（埋込みなし）のいずれかに決定する。

より具体的には、有音無音判定フラグが有音を示す場合は、（ａ）有音フレームに決定する。また、有音無音判定フラグが無音を示す場合は、（ｂ）無音フレーム（埋込みあり）または（ｃ）無音フレーム（埋込みなし）に決定する。

さらに、無音を示す有音無音判定フラグが連続する場合、換言すれば、無音区間が続いている場合、一定周期毎のフレーム（符号化データ）だけを（ｂ）無音フレーム（埋込みあり）に決定し、それ以外を（ｃ）無音フレーム（埋込みなし）に決定する。あるいは、無音を示す有音無音判定フラグが連続する場合、入力音声信号の信号特性が変換したときだけを（ｂ）無音フレーム（埋込みあり）に決定し、それ以外を（ｃ）無音フレーム（埋込みなし）に決定する。こうすることで、ビット埋め込み部１０４での埋め込み処理の負荷を軽減することができる。決定された結果は、フレームタイプ情報として出力される。フレームタイプ情報は、無音パラメータ分析・符号化部１１０およびビット埋め込み部１０４に通知される情報であり、且つ、符号化データとともに伝送される情報でもある。

無音パラメータ分析・符号化部１１０は、入力音声信号が有音無音判定部１０６によって無音と判定された場合つまり無音区間の場合、模擬雑音データとしての無音パラメータ符号化データを生成する。

より具体的には、連続する無音区間において入力音声信号の信号特性を平均化することにより得られる情報を無音パラメータとする。無音パラメータに含まれる情報としては、例えば、ＬＰＣ（ＬｉｎｅａｒＰｒｅｄｉｃｔｉｖｅＣｏｄｉｎｇ）分析により得られるスペクトル概形情報、音声信号のエネルギー、ＬＰＣスペクトル合成における駆動音源信号の利得情報などが挙げられる。無音パラメータ分析・符号化部１１０は、無音パラメータを、有音区間の入力音声信号よりも少ないビット数（例えば、Ｎｕｖビット）で符号化して無音パラメータ符号化データを生成する。つまり、無音パラメータ符号化データのビット数は、音声符号化部１０２により符号化される入力音声信号のビット数よりも少ない（Ｎｕｖ＜Ｎｖ）。生成された無音パラメータ符号化データは、フレームタイプ判定部１０８から出力されたフレームタイプ情報が無音フレーム（埋込みあり）を示している場合に、出力される。

ビット埋め込み部１０４は、フレームタイプ判定部１０８から出力されたフレームタイプ情報が有音フレームまたは無音フレーム（埋込みなし）を示している場合は、音声符号化部１０２から出力された符号化フレームをそのまま出力する。したがって、この場合に出力される符号化データのフォーマットは、図５（Ａ）に示すように、音声符号化部１０２によって生成された符号化データのフォーマットと同一である。

一方、フレームタイプ判定部１０８から出力されたフレームタイプ情報が無音フレーム（埋込みあり）を示している場合は、音声符号化部１０２から出力された符号化データに、無音パラメータ分析・符号化部１１０から出力された無音パラメータ符号化データを埋め込む。そして、無音パラメータ符号化データが埋め込まれた符号化データを出力する。したがって、この場合に出力される符号化データは、図５（Ｂ）に示すように、音声符号化部１０２によって生成された符号化データ内の所定の位置に無音パラメータ符号化データが埋め込まれたフォーマットタイプを有する。

このように、符号化データに無音パラメータ符号化データを埋め込むため、符号化データのフレームサイズを変えずに、符号化データの伝送を行うことができる。さらに、符号化データの所定の位置に無音パラメータ符号化データを埋め込むため、無音パラメータ符号化データを埋め込むときの制御処理を簡略化することができる。

より具体的には、ビット埋め込み部１０４は、符号化データのＮｖビットのうち所定の位置に配置されたＮｕｖビットを、Ｎｕｖビットから成る無音パラメータ符号化データで置き換える。こうすることで、符号化によって得られた符号化データの一部のビットの代わりに、無音パラメータ符号化データを伝送することができる。また、Ｎｖビットから成る符号化データの一部を無音パラメータ符号化データで置き換えるため、符号化データの残りのビットおよび無音パラメータ符号化データの両方を伝送することができる。

あるいは、ビット埋め込み部１０４は、符号化データのＮｖビットのうち所定の位置に配置されたＮｕｖビットを、Ｎｕｖビットから成る無音パラメータ符号化データで上書きする。こうすることで、符号化によって得られた符号化データの一部のビットを消去して、無音パラメータ符号化データを伝送することができる。また、Ｎｖビットから成る符号化データの一部を無音パラメータ符号化データで上書きするため、符号化データの残りのビットおよび無音パラメータ符号化データの両方を伝送することができる。

ビットの置き換えまたは上書きを行うことは、これらを行っても復号音声信号の品質に与える影響が低い場合や、符号化のときに得られた符号化ビット列に低重要度のビットがある場合などに、とりわけ有効である。

また、本実施の形態では、符号化のときに得られたビットの置き換えまたは上書きを行うことにより無音パラメータ符号化データを埋め込む場合について説明した。ただし、無音パラメータ符号化データを埋め込む代わりに、図６に示すように、符号化のときに得られたＮｖビットのビット列の後端にＮｕｖビットの無音パラメータ符号化データを付加しても良い。つまり、ビット埋め込み部１０４は、無音パラメータ符号化データの埋め込みや付加を行うことで、無音パラメータ符号化データと符号化データとを合成する。これにより、この合成を行う場合と行わない場合とで、異なるタイプのフォーマットを持つ符号化データが取得されるようなフレームフォーマット切り替え制御が行われる。こうすることによって、無音パラメータ符号化データが符号化データに合成された場合と合成されない場合とでフレームフォーマットのタイプは異なるが、基本的なフレーム構成は不変のままで、符号化データ系列を伝送することができる。

また、無音パラメータ符号化データの付加を行う場合は、符号化データのフレームサイズが変わるので、符号化データとともにフレームサイズに関する情報を、任意の形式で伝送することが好ましい。

また、本実施の形態では、無音パラメータ符号化データを符号化データの所定の位置に埋め込む場合について説明した。ただし、無音パラメータ符号化データの埋め込み方は前述のものに限定されない。例えば、ビット埋め込み部１０４は、無音パラメータ符号化データが埋め込まれる位置を、埋め込みを行うたびに適応的に定めても良い。この場合、置換対象となるビットの位置または上書き対象となるビットの位置を、各ビットの感度や重要度などに応じて適応的に変更することができる。

次に、図４Ａおよび図４Ｂに示す音声復号装置１５０ａ、１５０ｂの構成について説明する。音声復号装置１５０ａは、音声符号化装置１００のフレームフォーマット切り替え制御に対応する機能を有しない構成となっているが、音声復号装置１５０ｂは、その機能を有する構成となっている。

図４Ａに示す音声復号装置１５０ａは、音声復号部１５２を有する。

音声復号部１５２は、音声符号化装置１００から伝送路を介して伝送された符号化データを受信する。また、受信符号化データに対してフレーム単位で復号を行う。より具体的には、受信符号化データを構成する符号化データを復号することにより、復号音声信号を生成する。受信符号化データには、無音パラメータ符号化データが合成されているか否かによってフォーマットの変化する符号化データが含まれている。しかし、基本的なフレーム構成の変化しない符号化データが連続的に伝送されるので、フレームフォーマット切り替え制御対応でない音声復号装置１５０ａは、音声符号化装置１００から受信した符号化データを復号することができる。

図４Ｂに示す音声復号装置１５０ｂは、音声復号装置１５０ａに設けられたものと同一の音声復号部１５２の他に、切り替え器１５４、無音パラメータ抽出部１５６、フレームタイプ判定部１５８および無音フレーム復号部１６０を有する。

無音パラメータ抽出部１５６は、受信符号化データを構成する符号化データのうち無音フレーム（埋込みあり）として伝送された符号化データに合成された無音パラメータ符号化データを抽出する。

フレームタイプ判定部１５８は、音声符号化装置１００から伝送されたフレームタイプ情報を受信し、受信した符号化データが３種類のフレームタイプの中のどれに該当するかを判定する。判定の結果は、切り替え器１５４および無音フレーム復号部１６０に通知される。

無音フレーム復号部１６０は、フレームタイプ情報に示された情報が無音フレームであった場合に、無音パラメータ抽出部１５６によって抽出された無音パラメータ符号化データのみを復号する。これによって、無音パラメータに含まれている情報（例えば、スペクトル概形情報やエネルギーなど）を取得する。そして、取得した情報を用いて、無音フレーム（埋込みあり）および無音フレーム（埋込みなし）を含む全ての無音フレームにおける復号音声信号を生成する。

切り替え器１５４は、フレームタイプ判定部１５８から通知された判定結果に従って、音声復号装置１５０ｂの出力を切り替える。例えば、フレームタイプ情報に示された情報が有音フレームであった場合は、音声復号部１５２によって生成された復号音声信号が音声復号装置１５０ｂの出力となるように、接続を制御する。つまり、図４Ｂに示すように、音声復号装置１５０ｂの出力との接続がａ側に切り替えられる。一方、示された情報が無音フレームの場合は、無音フレーム復号部１６０によって生成された復号音声信号が音声復号装置１５０ｂの出力となるように、接続を制御する。つまり、音声復号装置１５０ｂの出力との接続がｂ側に切り替えられる。

前述の接続切り替え制御は、伝送される符号化データのフレームタイプによって復号対象を切り替えるために行われる。ただし、切り替え器１５４は、伝送される符号化データのフレームタイプに依存した制御を行わず、音声復号装置１５０ｂの出力との接続をａ側に常時固定することもできる。音声復号装置１５０ｂは、フレームタイプに依存した接続切り替え制御を行うか、または、接続の常時固定を行うか、を自ら選択する。こうすることにより、音声復号装置１５０ｂは、無音パラメータ符号化データが合成されたままの状態で符号化データを復号することと、合成された無音パラメータを選択的に復号することと、のいずれかを自由に選択することができる。

次いで、上記構成を有する音声符号化装置１００での無音パラメータ符号化データ埋め込み動作について説明する。

音声符号化部１０２では、入力音声信号の音声符号化を行い、符号化データを生成する。また、入力音声信号のフレームタイプ判定を行う。

そして、フレームタイプ判定の結果、符号化データが有音フレームに決定された場合は、ビット埋め込み部１０４での無音パラメータ符号化データ埋め込みは行われず、その結果、図５（Ａ）に示すフォーマットの符号化データが取得される。また、符号化データが無音フレーム（埋込みなし）に決定された場合も、無音パラメータ符号化データ埋め込みは行われず、その結果、図５（Ａ）に示すフォーマットの符号化データが取得される。一方、符号化データが無音フレーム（埋込みあり）に決定された場合は、無音パラメータ符号化データ埋め込みが行われ、その結果、図５（Ｂ）に示すフォーマットの符号化データが取得される。

このように、本実施の形態によれば、符号化データのうち、無音フレーム（埋込みあり）としての符号化データのみに無音パラメータ符号化データを合成することにより、音声成分を含む音声信号に対応する符号化データと音声成分を含まない音声信号に対応する符号化データとを取得する、つまり符号化データに無音パラメータ符号化データを合成するため、復号側に対して、異なるフォーマットタイプを有していながら同様のフレーム構成を有する符号化データを連続的に伝送することができる。このため、無音パラメータ符号化データが符号化データに合成されるようなモードで生成された符号化データが復号側に伝送された場合に、復号側では、符号化データを、無音パラメータ符号化データが合成されたままの状態で復号することができる。すなわち、符号化側では、音声符号化に伴って用いられる制御方式に復号側が対応していなくとも復号可能なデータを生成することができる。さらに、前述の場合において、復号側では、無音パラメータ符号化データが合成されたままの状態で符号化データを復号することと、合成された無音パラメータ符号化データを選択的に復号することと、のいずれかを自由に選択することができる。すなわち、符号化側では、音声符号化に伴って用いられる制御方式に対応した音声復号のモードを復号側に自由に選択させることができる。

（実施の形態２）
図７は、本発明の実施の形態２に係る音声符号化装置の構成を示すブロック図である。なお、本実施の形態で説明する音声符号化装置２００は、実施の形態１で説明した音声符号化装置１００と同様の基本的構成を有するため、同一の構成要素には同一の参照符号を付し、その詳細な説明を省略する。また、音声符号化装置２００から伝送される符号化データは、実施の形態１で説明した音声復号装置１５０ａ、１５０ｂで復号することができるので、ここでは音声復号装置についての説明を省略する。

音声符号化装置２００は、音声符号化装置１００に設けられた音声符号化部１０２およびビット埋め込み部１０４の代わりに、音声符号化部２０２を設けた構成を有する。

音声符号化部２０２は、音声符号化部１０２の動作およびビット埋め込み部１０４の動作を組み合わせた動作を実行する。また、音声符号化部２０２には、入力音声信号を効率的に符号化することができるＣＥＬＰ（ＣｏｄｅＥｘｃｉｔｅｄＬｉｎｅａｒＰｒｅｄｉｃｔｉｏｎ）符号化が適用されている。

音声符号化部２０２は、図８に示すとおり、ＬＰＣ分析部２０４、第１符号化候補生成部２０６、ＬＰＣ量子化部２０８、適応符号利得符号帳２１０、適応符号帳２１２、乗算器２１４、加算器２１６、固定符号帳２１８、乗算器２２０、第２符号化候補生成部２２２、合成フィルタ２２４、減算器２２６、重み付け誤差最小化部２２８、無音パラメータ符号化データ分割部２３０および多重化部２３２を有する。

ＬＰＣ分析部２０４は、入力音声信号を用いて線形予測分析を行い、その分析結果つまりＬＰＣ係数をＬＰＣ量子化部２０８に出力する。

ＬＰＣ量子化部２０８は、ＬＰＣ分析部２０４から出力されたＬＰＣ係数を、第１符号化候補生成部２０６から出力された符号化候補値および符号化候補符号に基づいて、ベクトル量子化する。そして、ベクトル量子化の結果として得られたＬＰＣ量子化符号を多重化部２３２に出力する。また、ＬＰＣ量子化部２０８は、ＬＰＣ係数から復号化ＬＰＣ係数を得て、この復号化ＬＰＣ係数を合成フィルタ２２４に出力する。

第１符号化候補生成部２０６は、図９に示すように、符号帳２４２および探索範囲制限部２４４を有し、入力音声信号の音声符号化を行うときにＬＰＣ量子化部２０８で行われるＬＰＣ係数のベクトル量子化に用いられる、符号化候補値および符号化候補符号を生成し、これらをＬＰＣ量子化部２０８に出力する。

符号帳２４２は、音声信号を符号化するときにＬＰＣ量子化部２０８で用いられ得る符号化候補値および符号化候補符号のリストを予め保持している。探索範囲制限部２４４は、入力音声信号を符号化するときにＬＰＣ量子化部２０８で用いられる符号化候補値および符号化候補符号を生成する。より具体的には、フレームタイプ判定部１０８からのフレームタイプ情報が「有音フレーム」または「無音フレーム（埋込みなし）」を示している場合、探索範囲制限部２４４は、符号帳２４２に予め保持されている符号化候補値および符号化候補符号に対して、探索範囲の制限を行わない。一方、フレームタイプ情報が「無音フレーム（埋込みあり）」を示している場合、探索範囲制限部２４４は、符号化候補値および符号化候補符号に対して、探索範囲の制限を行う。制限された探索範囲は、無音パラメータ符号化データ分割部２３０から得た分割パラメータ符号のビット数に基づくマスクビットの割り当てを行い且つマスクビットの割り当てに従って分割パラメータ符号を埋め込むことによって、定められる。

合成フィルタ２２４は、ＬＰＣ量子化部２０８から出力された復号化ＬＰＣ係数と加算器２１６から出力された駆動音源とを用いてフィルタ合成を行い、合成信号を減算器２２６へ出力する。減算器２２６は、合成フィルタ２２４から出力された合成信号と入力音声信号との誤差信号を算出し、重み付け誤差最小化部２２８に出力する。

重み付け誤差最小化部２２８は、減算器２２６から出力された誤差信号に対して聴覚的な重み付けを行い、聴覚重み付け領域での入力音声信号と合成信号との歪みを算出する。そして、この歪みが最小となるように、適応符号帳２１２と固定符号帳２１８と第２符号化候補生成部２２２とから生成されるべき信号を決定する。

より具体的には、重み付け誤差最小化部２２８は、歪みを最小とする適応音源ラグを適応符号帳２１２から選択する。また、歪みを最小とする固定音源ベクトルを固定符号帳２１８から選択する。また、歪みを最小とする量子化適応音源利得を適応符号利得符号帳２１０から選択する。また、量子化固定音源利得を第２符号化候補生成部２２２から選択する。

適応符号帳２１２は、バッファを有し、過去に加算器２１６によって出力された駆動音源をそのバッファに記憶しており、重み付け誤差最小化部２２８から出力される信号によって特定される切り出し位置から１フレーム分のサンプルをバッファから切り出し、適応音源ベクトルとして乗算器２１４へ出力する。また、決定結果を示す適応音源ラグ符号を多重化部２３２に出力する。また、適応符号帳２１２は、加算器２１６から出力された駆動音源を受けるたびにバッファに記憶された駆動音源のアップデートを行う。

適応符号利得符号帳２１０は、重み付け誤差最小化部２２８から出力される信号に基づいて、量子化適応音源利得を決定し、これを乗算器２１４に出力する。また、この決定結果を示す量子化適応音源利得符号を多重化部２３２に出力する。

乗算器２１４は、適応符号利得符号帳２１０から出力された量子化適応音源利得を、適応符号帳２１２から出力された適応音源ベクトルに乗じ、その乗算結果を加算器２１６に出力する。

固定符号帳２１８は、重み付け誤差最小化部２２８から出力された信号によって特定される形状を有するベクトルを固定音源ベクトルとして決定し、乗算器２２０へ出力する。また、この決定結果を示す固定音源ベクトル符号を多重化部２３２に出力する。

乗算器２２０は、第２符号化候補生成部２２２から出力された量子化固定音源利得を、固定符号帳２１８から出力された固定音源ベクトルに乗じ、その乗算結果を加算器２１６に出力する。

加算器２１６は、乗算器２１４から出力された適応音源ベクトルと乗算器２２０から出力された固定音源ベクトルとを加算し、その加算結果である駆動音源を合成フィルタ２２４および適応符号帳２１２に出力する。

無音パラメータ符号化データ分割部２３０は、無音パラメータ分析・符号化部１１０から出力された無音パラメータ符号化データを分割する。無音パラメータ符号化データは、無音パラメータ符号化データが埋め込まれる量子化符号のビット数毎に分割される。また、本実施の形態では、フレーム単位のＬＰＣ量子化符号およびサブフレーム単位の量子化固定音源利得符号を埋め込み対象の量子化符号に指定している。このため、無音パラメータ符号化データ分割部２３０は、無音パラメータ符号化データを（１＋サブフレーム数）分に分割し、その個数分の分割パラメータ符号を得る。

第２符号化候補生成部２２２は、固定符号利得符号帳を有し、音声符号化を行うときに固定音源ベクトルに乗算する量子化固定音源利得の候補を生成する。より具体的には、フレームタイプ判定部１０８からのフレームタイプ情報が「有音フレーム」または「無音フレーム（埋込みなし）」を示している場合、第２符号化候補生成部２２２は、予め固定符号利得符号帳に格納されている、量子化固定音源利得候補に対して、探索範囲の制限を行わない。一方、フレームタイプ情報が「無音フレーム（埋込みあり）」を示している場合、第２符号化候補生成部２２２は、量子化固定音源利得候補に対して、探索範囲の制限を行う。制限された探索範囲は、無音パラメータ符号化データ分割部２３０から得た分割パラメータ符号のビット数に基づくマスクビットの割り当てを行い且つマスクビットの割り当てに従って分割パラメータ符号を埋め込むことによって、定められる。このようにして、量子化固定音源利得候補の生成が行われる。そして、生成された量子化固定音源利得候補の中から、重み付け誤差最小化部２２８から信号に基づいて特定されるものを、固定音源ベク卜ルに乗算すべき量子化固定音源利得として決定し、これを乗算器２２０に出力する。また、この決定結果を示す量子化固定音源利得符号を多重化部２３２に出力する。

多重化部２３２は、ＬＰＣ量子化部２０８からのＬＰＣ量子化符号と、適応符号利得符号帳２１０からの量子化適応音源利得符号と、適応符号帳２１２からの適応音源ベクトル符号と、固定符号帳２１８からの固定音源ベクトル符号と、第２符号化候補生成部２２２からの量子化固定音源利得符号と、を多重化する。この多重化によって、符号化データが得られる。

次いで、音声符号化部２０２における探索範囲制限動作について、説明する。ここでは、第１符号化候補生成部２０６での探索範囲制限動作を例にとって説明する。

音声符号化部２０２において、符号帳２４２には、図１０に示すように、１６通りの符号インデクスｉと各符号インデクスｉに対応する符号ベクトルＣ［ｉ］との組み合わせが、符号化候補符号および符号化候補値としてそれぞれ格納されている。

そして、フレームタイプ判定部１０８からのフレームタイプ情報が「有音フレーム」または「無音フレーム（埋込みなし）」を示している場合、探索範囲制限部２４４は探索範囲を制限せずに１６通りの候補の組み合わせをＬＰＣ量子化部２０８に出力する。

一方、フレームタイプ情報が「無音フレーム（埋込みあり）」を示している場合、探索範囲制限部２４４は、無音パラメータ符号化データ分割部２３０から得た分割パラメータ符号のビット数に基づいて、符号インデクスｉにマスクビットを割り当てる。本実施の形態では、ビット感度が所定レベルよりも低い所定数の符号化ビットまたはビット感度が最も低い符号化ビットを含む所定数の符号化ビットを置き換えおよびマスクの対象とする。例えば、スカラー値の量子化値が符号と昇順に対応している場合は、ＬＳＢ（最下位ビット）からマスクビットを割り当てる。このようなマスクビット割り当てを行うことで、探索範囲を制限する。すなわち、予め埋め込みを前提とした符号帳の制限を行う。このため、埋め込みを行うことによる符号化性能の劣化を防止することができる。

そして、マスクビット割り当てでマスクされたビットに分割パラメータ符号を埋め込むことによって、制限された探索範囲に属する探索候補が特定される。ここでの例示においては、下位の２ビットにマスクビットが割り当てられているので、探索範囲が、元の１６通りの候補から４通りの候補に制限される。そして、これら４通りの候補の組み合わせがＬＰＣ量子化部２０８に出力される。

このように、本実施の形態によれば、無音パラメータ符号化データの埋め込みを前提とした最適な量子化が行われる。すなわち、無音フレームとしての符号化データを構成する複数のビットのうち、所定レベル以下の感度を有する所定数のビットを、または、感度が最も低いビットを含む所定数のビットを、マスクビット割り当ておよび分割パラメータ符号埋め込みの対象とする。このため、復号音声の品質に与える影響を低減することができ、分割パラメータ符号埋め込みを行った場合の符号化性能を向上することができる。

なお、本実施の形態では、音声符号化にＣＥＬＰ符号化が用いられた場合について説明したが、ＣＥＬＰ符号化を用いることは本発明の要件ではなく、他の音声符号化方式を用いても上記と同様の作用効果を実現することができる。

また、無音パラメータの一部または全てに、通常の音声符号化パラメータと共通なものを用いるようにしても良い。例えば、無音パラメータのうち、スペクトル概形情報にＬＰＣパラメータが用いられる場合に、そのＬＰＣパラメータの量子化符号を、ＬＰＣ量子化部２０８で用いられるＬＰＣパラメータの量子化符号またはその一部と同一のものにする。このようにすることで、無音パラメータ符号化データの埋め込み（置換や上書きなど）を行ったときの量子化性能を向上することができる。

また、本実施の形態では、ＬＰＣ量子化符号および量子化固定音源利得符号を、無音パラメータ符号化データを埋め込む対象の符号化データとした場合について説明した。ただし、埋め込み対象の符号化データはこれらだけに限定されず、これら以外の符号化データを埋め込み対象として採用しても良い。

（実施の形態３）
図１１Ａおよび図１１Ｂは、本発明の実施の形態９に係るスケーラブル符号化装置およびスケーラブル復号装置をそれぞれ示すブロック図である。本実施の形態では、スケーラブル構成として帯域スケーラブルの機能を有する音声符号化のコアレイヤに、実施の形態１（または実施の形態２）で説明した各装置を適用した場合について説明する。

図１１Ａに示すスケーラブル符号化装置３００は、ダウンサンプリング部３０２、音声符号化装置１００、局部復号部３０４、アップサンプリング部３０６および拡張レイヤ符号化部３０８を有する。

ダウンサンプリング部３０２は、入力音声信号をコアレイヤの帯域の信号にダウンサンプリングする。音声符号化装置１００は、実施の形態１で説明したものと同一の構成を有するものであり、ダウンサンプリングされた入力音声信号から符号化データおよびフレームタイプ情報を生成し、これらを出力する。生成された符号化データは、コアレイヤ符号化データとして出力される。

局部復号部３０４は、コアレイヤ符号化データに対して局部復号を行い、コアレイヤの復号音声信号を得る。アップサンプリング部３０６は、コアレイヤの復号音声信号を拡張レイヤの帯域の信号にアップサンプリングする。拡張レイヤ符号化部３０８は、拡張レイヤの信号帯域を有する入力音声信号に対して拡張レイヤの符号化を行い、拡張レイヤ符号化データを生成し、出力する。

図１１Ｂに示すスケーラブル復号装置３５０は、音声復号装置１５０ｂ、アップサンプリング部３５２および拡張レイヤ復号部３５４を有する。

音声復号装置１５０ｂは、実施の形態１で説明したものと同一の構成を有するものであり、スケーラブル符号化装置３００から伝送されたコアレイヤ符号化データおよびフレームタイプ情報から、復号音声信号を生成し、これをコアレイヤ復号信号として出力する。

アップサンプリング部３５２は、コアレイヤ復号信号を拡張レイヤの帯域の信号にアップサンプリングする。拡張レイヤ復号部３５４は、スケーラブル符号化装置３００から伝送された拡張レイヤ符号化データを復号して、拡張レイヤ復号信号を得る。そして、アップサンプリングされたコアレイヤ復号信号を、拡張レイヤ復号信号に多重化することによって、コアレイヤ＋拡張レイヤ復号信号を生成し、これを出力する。

なお、スケーラブル符号化装置３００は、前述の音声符号化装置１００の代わりに、実施の形態２で説明した音声符号化装置２００を有しても良い。

以下、上記構成を有するスケーラブル復号装置３５０での動作について説明する。コアレイヤにおいて、フレームフォーマット切り替え制御を行わないとする。この場合、常に、コアレイヤ＋拡張レイヤ復号信号を得ることができる。また、コアレイヤのみを復号するように設定し、且つ、コアレイヤにおいてフレームフォーマット切り替え制御を行うとする。この場合は、最も符号化効率の高い且つ低ビットレートの復号信号を得ることができる。また、無音フレームでは、フレームフォーマット切り替え制御ありでコアレイヤのみを復号するように設定し、有音フレームでは、コアレイヤ＋拡張レイヤを復号するように設定したとする。この場合は、前述の二つの場合に対して中間的な音声品質および伝送効率を実現することができる。

このように、本実施の形態によれば、複数の種類の復号音声信号を、符号化側での制御の設定状態に依存することなく、復号側（またはネットワーク上）で自由に選択して復号することができる。

なお、上記各実施の形態の説明に用いた各機能ブロックは、典型的には集積回路であるＬＳＩとして実現される。これらは個別に１チップ化されても良いし、一部又は全てを含むように１チップ化されても良い。

ここでは、ＬＳＩとしたが、集積度の違いにより、ＩＣ、システムＬＳＩ、スーパーＬＳＩ、ウルトラＬＳＩと呼称されることもある。

また、集積回路化の手法はＬＳＩに限るものではなく、専用回路又は汎用プロセッサで実現しても良い。ＬＳＩ製造後に、プログラムすることが可能なＦＰＧＡ（ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）や、ＬＳＩ内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサーを利用しても良い。

さらには、半導体技術の進歩又は派生する別技術によりＬＳＩに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積化を行っても良い。バイオ技術の適応等が可能性としてありえる。

本明細書は、２００４年７月２３日出願の特願２００４−２１６１２７に基づく。この内容はすべてここに含めておく。

本発明の音声符号化装置および音声符号化方法は、有音区間と無音区間とで異なるフォーマットタイプの符号化データを伝送するのに有用である。

ＩＰ（Internet Protocol）ネットワーク上での音声データ通信において、有音区間と無音区間とで異なるフォーマットタイプの符号化データを伝送することがある。有音とは、音声信号が所定レベル以上の音声成分を含むことである。無音とは、音声信号が所定レベル以上の音声成分を含まないことである。音声信号が音声成分とは異なる雑音成分のみを含む場合、その音声信号は無音と認識される。このような伝送技術の一つに、ＤＴＸ制御と呼ばれるものがある（例えば、非特許文献１および非特許文献２参照）。

一方、無音と判定された場合つまり無音区間の場合は、快適雑音符号化部１４で無音フレーム符号化が行われる。無音フレーム符号化は、無音区間における周囲騒音を模擬した信号を復号側で得るための符号化であり、有音区間に比べて少ない情報量つまりビット数で行われる符号化である。無音フレーム符号化によって生成された符号化データは、連続する無音区間において一定の周期で、いわゆるＳＩＤ（Silence Descriptor）フレームとしてＤＴＸ制御部１３から出力される。このとき、ＳＩＤフレームは、ＳＩＤフレームの伝送を通知するためのフレームタイプ情報とともに出力される。また、ＳＩＤフレームは、例えば図２（Ｂ）に示すように、Ｎｕｖビット（Ｎｕｖ＜Ｎｖ）の情報で構成されたフォーマットを有する。

これに対して、ＤＴＸ制御を伴わないモードで音声符号化を行う場合は、音声信号は常に有音であるものとして扱われ、その結果、符号化データの伝送が常に連続的に行われる。したがって、ＤＴＸ制御機能を有する従来の音声符号化装置では、音声符号化のモードを、ＤＴＸ制御を伴うモード（ＤＴＸ制御あり）またはＤＴＸ制御を伴わないモード（ＤＴＸ制御なし）のいずれかに予め設定した上で、音声符号化を行う。
" Mandatory speech CODEC speech processing functions; AMR speech CODEC; General description", 3rd Generation Partnership Project, TS26.071 " Mandatory speech codec speech processing functionsAdaptive Multi-Rate (AMR) speech codec; Source controlled rate operation", 3rd Generation Partnership Project, TS26.093

より具体的には、連続する無音区間において入力音声信号の信号特性を平均化することにより得られる情報を無音パラメータとする。無音パラメータに含まれる情報としては、例えば、ＬＰＣ（Linear Predictive Coding）分析により得られるスペクトル概形情報、音声信号のエネルギー、ＬＰＣスペクトル合成における駆動音源信号の利得情報などが挙げられる。無音パラメータ分析・符号化部１１０は、無音パラメータを、有音区間の入力音声信号よりも少ないビット数（例えば、Ｎｕｖビット）で符号化して無音パラメータ符号化データを生成する。つまり、無音パラメータ符号化データのビット数は、音声符号化部１０２により符号化される入力音声信号のビット数よりも少ない（Ｎｕｖ＜Ｎｖ）。生成された無音パラメータ符号化データは、フレームタイプ判定部１０８から出力されたフレームタイプ情報が無音フレーム（埋込みあり）を示している場合に、出力される。

また、本実施の形態では、無音パラメータ符号化データを符号化データの所定の位置に埋め込む場合について説明した。ただし、無音パラメータ符号化データの埋め込み方は前
述のものに限定されない。例えば、ビット埋め込み部１０４は、無音パラメータ符号化データが埋め込まれる位置を、埋め込みを行うたびに適応的に定めても良い。この場合、置換対象となるビットの位置または上書き対象となるビットの位置を、各ビットの感度や重要度などに応じて適応的に変更することができる。

音声符号化部２０２は、音声符号化部１０２の動作およびビット埋め込み部１０４の動作を組み合わせた動作を実行する。また、音声符号化部２０２には、入力音声信号を効率的に符号化することができるＣＥＬＰ（Code Excited Linear Prediction）符号化が適用されている。

より具体的には、重み付け誤差最小化部２２８は、歪みを最小とする適応音源ラグを適
応符号帳２１２から選択する。また、歪みを最小とする固定音源ベクトルを固定符号帳２１８から選択する。また、歪みを最小とする量子化適応音源利得を適応符号利得符号帳２１０から選択する。また、量子化固定音源利得を第２符号化候補生成部２２２から選択する。

第２符号化候補生成部２２２は、固定符号利得符号帳を有し、音声符号化を行うときに固定音源ベクトルに乗算する量子化固定音源利得の候補を生成する。より具体的には、フレームタイプ判定部１０８からのフレームタイプ情報が「有音フレーム」または「無音フレーム（埋込みなし）」を示している場合、第２符号化候補生成部２２２は、予め固定符号利得符号帳に格納されている、量子化固定音源利得候補に対して、探索範囲の制限を行わない。一方、フレームタイプ情報が「無音フレーム（埋込みあり）」を示している場合、第２符号化候補生成部２２２は、量子化固定音源利得候補に対して、探索範囲の制限を行う。制限された探索範囲は、無音パラメータ符号化データ分割部２３０から得た分割パラメータ符号のビット数に基づくマスクビットの割り当てを行い且つマスクビットの割り当てに従って分割パラメータ符号を埋め込むことによって、定められる。このようにして
、量子化固定音源利得候補の生成が行われる。そして、生成された量子化固定音源利得候補の中から、重み付け誤差最小化部２２８から信号に基づいて特定されるものを、固定音源ベクトルに乗算すべき量子化固定音源利得として決定し、これを乗算器２２０に出力する。また、この決定結果を示す量子化固定音源利得符号を多重化部２３２に出力する。

また、無音パラメータの一部または全てに、通常の音声符号化パラメータと共通なもの
を用いるようにしても良い。例えば、無音パラメータのうち、スペクトル概形情報にＬＰＣパラメータが用いられる場合に、そのＬＰＣパラメータの量子化符号を、ＬＰＣ量子化部２０８で用いられるＬＰＣパラメータの量子化符号またはその一部と同一のものにする。このようにすることで、無音パラメータ符号化データの埋め込み（置換や上書きなど）を行ったときの量子化性能を向上することができる。

以下、上記構成を有するスケーラブル復号装置３５０での動作について説明する。コア
レイヤにおいて、フレームフォーマット切り替え制御を行わないとする。この場合、常に、コアレイヤ＋拡張レイヤ復号信号を得ることができる。また、コアレイヤのみを復号するように設定し、且つ、コアレイヤにおいてフレームフォーマット切り替え制御を行うとする。この場合は、最も符号化効率の高い且つ低ビットレートの復号信号を得ることができる。また、無音フレームでは、フレームフォーマット切り替え制御ありでコアレイヤのみを復号するように設定し、有音フレームでは、コアレイヤ＋拡張レイヤを復号するように設定したとする。この場合は、前述の二つの場合に対して中間的な音声品質および伝送効率を実現することができる。

また、集積回路化の手法はＬＳＩに限るものではなく、専用回路又は汎用プロセッサで実現しても良い。ＬＳＩ製造後に、プログラムすることが可能なＦＰＧＡ（Field Programmable Gate Array）や、ＬＳＩ内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサーを利用しても良い。

Claims

音声成分を含む音声信号に対応する第一の符号化データと前記音声成分を含まない音声信号に対応する第二の符号化データとを出力する音声符号化装置であって、
入力音声信号を所定区間単位で符号化し符号化データを生成する符号化手段と、
前記入力音声信号が前記音声成分を含むか否かを前記所定区間毎に判定する判定手段と、
前記符号化データのうち、前記音声成分を含まないと判定された無音区間の前記入力音声信号から生成されたもののみに対して雑音データの合成を行うことにより、前記第一の符号化データと前記第二の符号化データとを取得する合成手段と、
を有する音声符号化装置。
前記合成手段は、
前記無音区間の前記入力音声信号から生成された前記符号化データに、前記雑音データを埋め込む、
請求項１記載の音声符号化装置。
前記合成手段は、
前記無音区間の前記入力音声信号から生成された前記符号化データにおける所定の位置に、前記雑音データを埋め込む、
請求項１記載の音声符号化装置。
前記合成手段は、
前記無音区間の前記入力音声信号から生成された前記符号化データのビットを、前記雑音データで置き換える、
請求項１記載の音声符号化装置。
前記合成手段は、
前記無音区間の前記入力音声信号から生成された前記符号化データのビットを、前記雑音データで上書きする、
請求項１記載の音声符号化装置。
前記符号化手段は、
複数のビットから成る前記符号化データを生成し、
前記合成手段は、
前記無音区間の前記入力音声信号から生成された前記符号化データを構成する前記複数のビットの一部を、前記雑音データで置き換える、
請求項１記載の音声符号化装置。
前記符号化手段は、
複数のビットから成る前記符号化データを生成し、
前記合成手段は、
前記無音区間の前記入力音声信号から生成された前記符号化データを構成する前記複数のビットの一部を、前記雑音データで上書きする、
請求項１記載の音声符号化装置。
前記合成手段は、
前記無音区間の前記入力音声信号から生成された前記符号化データを構成する前記複数のビットのうち、所定レベル以下の感度を有する所定数のビットを、前記雑音データで置き換える、
請求項６記載の音声符号化装置。
前記合成手段は、
前記無音区間の前記入力音声信号から生成された前記符号化データを構成する前記複数のビットのうち、最も感度の低いビットを含む所定数のビットを、前記雑音データで置き換える、
請求項６記載の音声符号化装置。
音声信号の符号化に用いられる符号化候補を記憶する記憶手段を有し、
前記符号化手段は、
前記符号化データを構成する複数のビットのいずれかにマスクビットを割り当て、前記入力音声信号の符号化に用いられる前記符号化候補を、前記マスクビットの割り当てに従って制限する、
請求項１記載の音声符号化装置。
請求項１記載の音声符号化装置を有するスケーラブル符号化装置。
雑音データを合成された符号化データを復号し第一の復号音声信号を生成する第一の復号手段と、
前記雑音データのみを復号し第二の復号音声信号を生成する第二の復号手段と、
前記第一の復号音声信号および前記第二の復号音声信号のいずれか一方を選択する選択手段と、
を有する音声復号装置。
請求項１２記載の音声復号装置を有するスケーラブル復号装置。
音声成分を含む音声信号に対応する第一の符号化データと前記音声成分を含まない音声信号に対応する第二の符号化データとを出力する音声符号化方法であって、
入力音声信号を所定区間単位で符号化し符号化データを生成する符号化ステップと、
前記入力音声信号が前記音声成分を含むか否かを前記所定区間毎に判定する判定ステップと、
前記符号化データのうち、前記音声成分を含まないと判定された無音区間の前記入力音声信号から生成されたもののみに対して雑音データの合成を行うことにより、前記第一の符号化データと前記第二の符号化データとを取得する合成ステップと、
を有する音声符号化方法。
請求項１４記載の音声符号化方法を有するスケーラブル符号化方法。
雑音データを合成された符号化データを復号し第一の復号音声信号を生成する第一の復号ステップと、
前記雑音データのみを復号し第二の復号音声信号を生成する第二の復号ステップと、
前記第一の復号音声信号および前記第二の復号音声信号のいずれか一方を選択する選択ステップと、
を有する音声復号方法。
請求項１６記載の音声復号方法を有するスケーラブル復号方法。