JPWO2006008932A1 - 音声符号化装置および音声符号化方法 - Google Patents

音声符号化装置および音声符号化方法 Download PDF

Info

Publication number
JPWO2006008932A1
JPWO2006008932A1 JP2006528766A JP2006528766A JPWO2006008932A1 JP WO2006008932 A1 JPWO2006008932 A1 JP WO2006008932A1 JP 2006528766 A JP2006528766 A JP 2006528766A JP 2006528766 A JP2006528766 A JP 2006528766A JP WO2006008932 A1 JPWO2006008932 A1 JP WO2006008932A1
Authority
JP
Japan
Prior art keywords
encoded data
speech
encoding
decoding
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2006528766A
Other languages
English (en)
Inventor
吉田 幸司
幸司 吉田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp
Panasonic Holdings Corp
Original Assignee
Panasonic Corp
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Corp, Matsushita Electric Industrial Co Ltd filed Critical Panasonic Corp
Publication of JPWO2006008932A1 publication Critical patent/JPWO2006008932A1/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/012Comfort noise or silence coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

音声符号化に伴って用いられる制御方式に対応した音声復号のモードを復号側に自由に選択させるとともに、復号側がその制御方式に対応していなくとも復号可能なデータを生成することができる音声符号化装置を提供する。音声符号化装置(100)は、音声成分を含む音声信号に対応する符号化データと音声成分を含まない音声信号に対応する符号化データとを出力する。音声符号化部(102)は、入力音声信号を所定区間単位で符号化し符号化データを生成する。有音無音判定部(106)は、入力音声信号が音声成分を含むか否かを所定区間毎に判定する。ビット埋め込み部(104)は、音声符号化部(102)によって生成された符号化データのうち無音区間の入力音声信号から生成されたもののみに対して雑音データの合成を行うことにより、音声成分を含む音声信号に対応する符号化データと音声成分を含まない音声信号に対応する符号化データとを取得する。

Description

本発明は、音声符号化装置および音声符号化方法に関し、特に、有音区間と無音区間とで異なるフォーマットタイプの符号化データを伝送するのに用いられる音声符号化装置および音声符号化方法に関する。
IP(Internet Protocol)ネットワーク上での音声データ通信において、有音区間と無音区間とで異なるフォーマットタイプの符号化データを伝送することがある。有音とは、音声信号が所定レベル以上の音声成分を含むことである。無音とは、音声信号が所定レベル以上の音声成分を含まないことである。音声信号が音声成分とは異なる雑音成分のみを含む場合、その音声信号は無音と認識される。このような伝送技術の一つに、DTX制御と呼ばれるものがある(例えば、非特許文献1および非特許文献2参照)。
例えば図1に示す音声符号化装置10がDTX制御を伴うモードで音声符号化を行う場合、有音無音判定部11で、所定長の区間(フレーム長に相当)の単位で区切られた音声信号に対して、その区間毎に有音か無音かの判定が行われる。そして、有音と判定された場合つまり有音区間の場合、音声符号化部12で生成された符号化データは、有音フレームとしてDTX制御部13から出力される。このとき、有音フレームは、有音フレームの伝送を通知するためのフレームタイプ情報とともに出力される。有音フレームは、例えば図2(A)に示すように、Nvビットの情報で構成されたフォーマットを有する。
一方、無音と判定された場合つまり無音区間の場合は、快適雑音符号化部14で無音フレーム符号化が行われる。無音フレーム符号化は、無音区間における周囲騒音を模擬した信号を復号側で得るための符号化であり、有音区間に比べて少ない情報量つまりビット数で行われる符号化である。無音フレーム符号化によって生成された符号化データは、連続する無音区間において一定の周期で、いわゆるSID(Silence Descriptor)フレームとしてDTX制御部13から出力される。このとき、SIDフレームは、SIDフレームの伝送を通知するためのフレームタイプ情報とともに出力される。また、SIDフレームは、例えば図2(B)に示すように、Nuvビット(Nuv<Nv)の情報で構成されたフォーマットを有する。
また、無音区間においてSIDフレームが伝送されるとき以外は、符号化情報の伝送が行われない。換言すれば、無音フレームの伝送が省略される。ただし、無音フレームの伝送を通知するためのフレームタイプ情報だけがDTX制御部13から出力される。このように、DTX制御では、不連続な伝送が行われるような制御が行われるので、伝送路を介して伝送される情報量や復号側で復号される情報量は、無音区間において低減される。
これに対して、DTX制御を伴わないモードで音声符号化を行う場合は、音声信号は常に有音であるものとして扱われ、その結果、符号化データの伝送が常に連続的に行われる。したがって、DTX制御機能を有する従来の音声符号化装置では、音声符号化のモードを、DTX制御を伴うモード(DTX制御あり)またはDTX制御を伴わないモード(DTX制御なし)のいずれかに予め設定した上で、音声符号化を行う。
″Mandatory speech CODEC speech processing functions;AMR speech CODEC;General description″,3rd Generation Partnership Project,TS26.071 ″Mandatory speech codec speech processing functionsAdaptive Multi−Rate(AMR)speech codec;Source controlled rate operation″,3rd Generation Partnership Project,TS26.093
しかしながら、上記従来の音声符号化装置においては、DTX制御ありの場合とDTX制御なしの場合とで、出力される符号化データ系列に違いが生じる。例えば、DTX制御なしのモードでは、符号化データを構成する符号化データのフォーマットは1タイプである。これに対し、DTX制御ありのモードでは、実際に伝送される符号化データのフォーマットは2タイプであるが、実質的に存在するフォーマットは3タイプである。このような違いに伴って、符号化側でDTX制御を行う場合、復号側ではDTX制御ありの音声符号化に対応したモードで音声復号を行う必要があり、また、符号化側でDTX制御を行わない場合、DTX制御なしの音声符号化に対応したモードで音声復号を行う必要がある。換言すれば、復号側で設定される音声復号のモードは、符号化側で設定される音声符号化のモードに拘束されるため、復号側は音声復号のモードを自由に選択できない。
すなわち、DTX制御対応の音声復号装置に対して、DTX制御なしのモードで生成された符号化データを伝送したとすると、ある符号化データの元の音声信号が無音だったとしても、ネットワーク上で、無音区間において復号する情報量を低減することができない、すなわち、伝送効率の向上を図ることができず、またその音声復号装置は処理負荷を軽減することができない。一方、DTX制御ありのモードで生成された符号化データを伝送したとすると、音声復号装置でのサービス(例えば、全区間を有音として復号することで得られる高音質受信モード)の選択の自由度が制限されてしまう。
また、DTX制御対応でない音声復号装置に対して、DTX制御ありのモードで得られた符号化データを伝送すると、その音声復号装置は、受信した符号化データを復号することができない。
したがって、例えば、音声符号化装置が、DTX制御対応のものとDTX制御対応でないものとを含む複数の音声復号装置に対してマルチキャストを行う場合、DTX制御ありのモードで音声符号化を行っても、DTX制御なしのモードで音声符号化を行っても、上記のいずれかの問題が発生する。
本発明の目的は、音声符号化に伴って用いられる制御方式に対応した音声復号のモードを復号側に自由に選択させることができるとともに、復号側がその制御方式に対応していなくとも復号可能なデータを生成することができる音声符号化装置および音声符号化方法を提供することである。
本発明の音声符号化装置は、音声成分を含む音声信号に対応する第一の符号化データと前記音声成分を含まない音声信号に対応する第二の符号化データとを出力する音声符号化装置であって、入力音声信号を所定区間単位で符号化し符号化データを生成する符号化手段と、前記入力音声信号が前記音声成分を含むか否かを前記所定区間毎に判定する判定手段と、前記符号化データのうち、前記音声成分を含まないと判定された無音区間の前記入力音声信号から生成されたもののみに対して雑音データの合成を行うことにより、前記第一の符号化データと前記第二の符号化データとを取得する合成手段と、を有する構成を採る。
本発明の音声復号装置は、雑音データを合成された符号化データを復号し第一の復号音声信号を生成する第一の復号手段と、前記雑音データのみを復号し第二の復号音声信号を生成する第二の復号手段と、前記第一の復号音声信号および前記第二の復号音声信号のいずれか一方を選択する選択手段と、を有する構成を採る。
本発明の音声符号化方法は、音声成分を含む音声信号に対応する第一の符号化データと前記音声成分を含まない音声信号に対応する第二の符号化データとを出力する音声符号化方法であって、入力音声信号を所定区間単位で符号化し符号化データを生成する符号化ステップと、前記入力音声信号が前記音声成分を含むか否かを前記所定区間毎に判定する判定ステップと、前記符号化データのうち、前記音声成分を含まないと判定された無音区間の前記入力音声信号から生成されたもののみに対して雑音データの合成を行うことにより、前記第一の符号化データと前記第二の符号化データとを取得する合成ステップと、を有するようにした。
本発明の音声復号方法は、雑音データを合成された符号化データを復号し第一の復号音声信号を生成する第一の復号ステップと、前記雑音データのみを復号し第二の復号音声信号を生成する第二の復号ステップと、前記第一の復号音声信号および前記第二の復号音声信号のいずれか一方を選択する選択ステップと、を有するようにした。
本発明によれば、音声符号化に伴って用いられる制御方式に対応した音声復号のモードを復号側に自由に選択させることができるとともに、復号側がその制御方式に対応していなくとも復号可能なデータを生成することができる。
従来の音声符号化装置の構成の一例を示すブロック図 従来の有音フレームの構成の一例および従来のいわゆるSIDフレームの構成の一例を示す図 本発明の実施の形態1に係る音声符号化装置の構成を示すブロック図 本発明の実施の形態1に係る音声復号装置の構成の一例を示すブロック図 本発明の実施の形態1に係る音声復号装置の構成の他の例を示すブロック図 本発明の実施の形態1のフォーマットタイプの例を示す図 本発明の実施の形態1のフォーマットタイプの変形例を示す図 本発明の実施の形態2に係る音声符号化装置の構成を示すブロック図 本発明の実施の形態2に係る音声符号化部の構成を示すブロック図 本発明の実施の形態2に係る第1符号化候補生成部の構成を示すブロック図 本発明の実施の形態2に係る第1符号化候補生成部の動作説明図 本発明の実施の形態3に係るスケーラブル符号化装置の構成を示すブロック図 本発明の実施の形態3に係るスケーラブル復号装置の構成を示すブロック図
以下、本発明の実施の形態について、図面を用いて詳細に説明する。
(実施の形態1)
図3は、本発明の実施の形態1に係る音声符号化装置の構成を示すブロック図である。また、図4Aは、本実施の形態に係る音声復号装置の構成の一例を示すブロック図であり、図4Bは、本実施の形態に係る音声復号装置の構成の他の例を示すブロック図である。
まず、図3に示す音声符号化装置100の構成について説明する。音声符号化装置100は、音声符号化部102、ビット埋め込み部104、有音無音判定部106、フレームタイプ判定部108および無音パラメータ分析・符号化部110を有する。
音声符号化部102は、入力音声信号を所定長の区間(フレーム)単位で符号化し、複数(例えば、Nv)ビットの符号化ビット列から成る符号化データを生成する。音声符号化部102は、生成される符号化データのフォーマットが常に同じになるように、符号化のときに得られたNvビットの符号化ビット列を配置することにより符号化データの生成を行う。また、符号化データのビット数は予め定められている。
有音無音判定部106は、入力音声信号が音声成分を含むか否かを、前述の区間毎に判定し、この判定結果を示す有音無音判定フラグをフレームタイプ判定部108および無音パラメータ分析・符号化部110に出力する。
フレームタイプ判定部108は、入力された有音無音判定フラグを用いて、音声符号化部102で生成された符号化データを、3種類のフレームタイプ、すなわち、(a)有音フレーム、(b)無音フレーム(埋込みあり)、(c)無音フレーム(埋込みなし)のいずれかに決定する。
より具体的には、有音無音判定フラグが有音を示す場合は、(a)有音フレームに決定する。また、有音無音判定フラグが無音を示す場合は、(b)無音フレーム(埋込みあり)または(c)無音フレーム(埋込みなし)に決定する。
さらに、無音を示す有音無音判定フラグが連続する場合、換言すれば、無音区間が続いている場合、一定周期毎のフレーム(符号化データ)だけを(b)無音フレーム(埋込みあり)に決定し、それ以外を(c)無音フレーム(埋込みなし)に決定する。あるいは、無音を示す有音無音判定フラグが連続する場合、入力音声信号の信号特性が変換したときだけを(b)無音フレーム(埋込みあり)に決定し、それ以外を(c)無音フレーム(埋込みなし)に決定する。こうすることで、ビット埋め込み部104での埋め込み処理の負荷を軽減することができる。決定された結果は、フレームタイプ情報として出力される。フレームタイプ情報は、無音パラメータ分析・符号化部110およびビット埋め込み部104に通知される情報であり、且つ、符号化データとともに伝送される情報でもある。
無音パラメータ分析・符号化部110は、入力音声信号が有音無音判定部106によって無音と判定された場合つまり無音区間の場合、模擬雑音データとしての無音パラメータ符号化データを生成する。
より具体的には、連続する無音区間において入力音声信号の信号特性を平均化することにより得られる情報を無音パラメータとする。無音パラメータに含まれる情報としては、例えば、LPC(Linear Predictive Coding)分析により得られるスペクトル概形情報、音声信号のエネルギー、LPCスペクトル合成における駆動音源信号の利得情報などが挙げられる。無音パラメータ分析・符号化部110は、無音パラメータを、有音区間の入力音声信号よりも少ないビット数(例えば、Nuvビット)で符号化して無音パラメータ符号化データを生成する。つまり、無音パラメータ符号化データのビット数は、音声符号化部102により符号化される入力音声信号のビット数よりも少ない(Nuv<Nv)。生成された無音パラメータ符号化データは、フレームタイプ判定部108から出力されたフレームタイプ情報が無音フレーム(埋込みあり)を示している場合に、出力される。
ビット埋め込み部104は、フレームタイプ判定部108から出力されたフレームタイプ情報が有音フレームまたは無音フレーム(埋込みなし)を示している場合は、音声符号化部102から出力された符号化フレームをそのまま出力する。したがって、この場合に出力される符号化データのフォーマットは、図5(A)に示すように、音声符号化部102によって生成された符号化データのフォーマットと同一である。
一方、フレームタイプ判定部108から出力されたフレームタイプ情報が無音フレーム(埋込みあり)を示している場合は、音声符号化部102から出力された符号化データに、無音パラメータ分析・符号化部110から出力された無音パラメータ符号化データを埋め込む。そして、無音パラメータ符号化データが埋め込まれた符号化データを出力する。したがって、この場合に出力される符号化データは、図5(B)に示すように、音声符号化部102によって生成された符号化データ内の所定の位置に無音パラメータ符号化データが埋め込まれたフォーマットタイプを有する。
このように、符号化データに無音パラメータ符号化データを埋め込むため、符号化データのフレームサイズを変えずに、符号化データの伝送を行うことができる。さらに、符号化データの所定の位置に無音パラメータ符号化データを埋め込むため、無音パラメータ符号化データを埋め込むときの制御処理を簡略化することができる。
より具体的には、ビット埋め込み部104は、符号化データのNvビットのうち所定の位置に配置されたNuvビットを、Nuvビットから成る無音パラメータ符号化データで置き換える。こうすることで、符号化によって得られた符号化データの一部のビットの代わりに、無音パラメータ符号化データを伝送することができる。また、Nvビットから成る符号化データの一部を無音パラメータ符号化データで置き換えるため、符号化データの残りのビットおよび無音パラメータ符号化データの両方を伝送することができる。
あるいは、ビット埋め込み部104は、符号化データのNvビットのうち所定の位置に配置されたNuvビットを、Nuvビットから成る無音パラメータ符号化データで上書きする。こうすることで、符号化によって得られた符号化データの一部のビットを消去して、無音パラメータ符号化データを伝送することができる。また、Nvビットから成る符号化データの一部を無音パラメータ符号化データで上書きするため、符号化データの残りのビットおよび無音パラメータ符号化データの両方を伝送することができる。
ビットの置き換えまたは上書きを行うことは、これらを行っても復号音声信号の品質に与える影響が低い場合や、符号化のときに得られた符号化ビット列に低重要度のビットがある場合などに、とりわけ有効である。
また、本実施の形態では、符号化のときに得られたビットの置き換えまたは上書きを行うことにより無音パラメータ符号化データを埋め込む場合について説明した。ただし、無音パラメータ符号化データを埋め込む代わりに、図6に示すように、符号化のときに得られたNvビットのビット列の後端にNuvビットの無音パラメータ符号化データを付加しても良い。つまり、ビット埋め込み部104は、無音パラメータ符号化データの埋め込みや付加を行うことで、無音パラメータ符号化データと符号化データとを合成する。これにより、この合成を行う場合と行わない場合とで、異なるタイプのフォーマットを持つ符号化データが取得されるようなフレームフォーマット切り替え制御が行われる。こうすることによって、無音パラメータ符号化データが符号化データに合成された場合と合成されない場合とでフレームフォーマットのタイプは異なるが、基本的なフレーム構成は不変のままで、符号化データ系列を伝送することができる。
また、無音パラメータ符号化データの付加を行う場合は、符号化データのフレームサイズが変わるので、符号化データとともにフレームサイズに関する情報を、任意の形式で伝送することが好ましい。
また、本実施の形態では、無音パラメータ符号化データを符号化データの所定の位置に埋め込む場合について説明した。ただし、無音パラメータ符号化データの埋め込み方は前述のものに限定されない。例えば、ビット埋め込み部104は、無音パラメータ符号化データが埋め込まれる位置を、埋め込みを行うたびに適応的に定めても良い。この場合、置換対象となるビットの位置または上書き対象となるビットの位置を、各ビットの感度や重要度などに応じて適応的に変更することができる。
次に、図4Aおよび図4Bに示す音声復号装置150a、150bの構成について説明する。音声復号装置150aは、音声符号化装置100のフレームフォーマット切り替え制御に対応する機能を有しない構成となっているが、音声復号装置150bは、その機能を有する構成となっている。
図4Aに示す音声復号装置150aは、音声復号部152を有する。
音声復号部152は、音声符号化装置100から伝送路を介して伝送された符号化データを受信する。また、受信符号化データに対してフレーム単位で復号を行う。より具体的には、受信符号化データを構成する符号化データを復号することにより、復号音声信号を生成する。受信符号化データには、無音パラメータ符号化データが合成されているか否かによってフォーマットの変化する符号化データが含まれている。しかし、基本的なフレーム構成の変化しない符号化データが連続的に伝送されるので、フレームフォーマット切り替え制御対応でない音声復号装置150aは、音声符号化装置100から受信した符号化データを復号することができる。
図4Bに示す音声復号装置150bは、音声復号装置150aに設けられたものと同一の音声復号部152の他に、切り替え器154、無音パラメータ抽出部156、フレームタイプ判定部158および無音フレーム復号部160を有する。
無音パラメータ抽出部156は、受信符号化データを構成する符号化データのうち無音フレーム(埋込みあり)として伝送された符号化データに合成された無音パラメータ符号化データを抽出する。
フレームタイプ判定部158は、音声符号化装置100から伝送されたフレームタイプ情報を受信し、受信した符号化データが3種類のフレームタイプの中のどれに該当するかを判定する。判定の結果は、切り替え器154および無音フレーム復号部160に通知される。
無音フレーム復号部160は、フレームタイプ情報に示された情報が無音フレームであった場合に、無音パラメータ抽出部156によって抽出された無音パラメータ符号化データのみを復号する。これによって、無音パラメータに含まれている情報(例えば、スペクトル概形情報やエネルギーなど)を取得する。そして、取得した情報を用いて、無音フレーム(埋込みあり)および無音フレーム(埋込みなし)を含む全ての無音フレームにおける復号音声信号を生成する。
切り替え器154は、フレームタイプ判定部158から通知された判定結果に従って、音声復号装置150bの出力を切り替える。例えば、フレームタイプ情報に示された情報が有音フレームであった場合は、音声復号部152によって生成された復号音声信号が音声復号装置150bの出力となるように、接続を制御する。つまり、図4Bに示すように、音声復号装置150bの出力との接続がa側に切り替えられる。一方、示された情報が無音フレームの場合は、無音フレーム復号部160によって生成された復号音声信号が音声復号装置150bの出力となるように、接続を制御する。つまり、音声復号装置150bの出力との接続がb側に切り替えられる。
前述の接続切り替え制御は、伝送される符号化データのフレームタイプによって復号対象を切り替えるために行われる。ただし、切り替え器154は、伝送される符号化データのフレームタイプに依存した制御を行わず、音声復号装置150bの出力との接続をa側に常時固定することもできる。音声復号装置150bは、フレームタイプに依存した接続切り替え制御を行うか、または、接続の常時固定を行うか、を自ら選択する。こうすることにより、音声復号装置150bは、無音パラメータ符号化データが合成されたままの状態で符号化データを復号することと、合成された無音パラメータを選択的に復号することと、のいずれかを自由に選択することができる。
次いで、上記構成を有する音声符号化装置100での無音パラメータ符号化データ埋め込み動作について説明する。
音声符号化部102では、入力音声信号の音声符号化を行い、符号化データを生成する。また、入力音声信号のフレームタイプ判定を行う。
そして、フレームタイプ判定の結果、符号化データが有音フレームに決定された場合は、ビット埋め込み部104での無音パラメータ符号化データ埋め込みは行われず、その結果、図5(A)に示すフォーマットの符号化データが取得される。また、符号化データが無音フレーム(埋込みなし)に決定された場合も、無音パラメータ符号化データ埋め込みは行われず、その結果、図5(A)に示すフォーマットの符号化データが取得される。一方、符号化データが無音フレーム(埋込みあり)に決定された場合は、無音パラメータ符号化データ埋め込みが行われ、その結果、図5(B)に示すフォーマットの符号化データが取得される。
このように、本実施の形態によれば、符号化データのうち、無音フレーム(埋込みあり)としての符号化データのみに無音パラメータ符号化データを合成することにより、音声成分を含む音声信号に対応する符号化データと音声成分を含まない音声信号に対応する符号化データとを取得する、つまり符号化データに無音パラメータ符号化データを合成するため、復号側に対して、異なるフォーマットタイプを有していながら同様のフレーム構成を有する符号化データを連続的に伝送することができる。このため、無音パラメータ符号化データが符号化データに合成されるようなモードで生成された符号化データが復号側に伝送された場合に、復号側では、符号化データを、無音パラメータ符号化データが合成されたままの状態で復号することができる。すなわち、符号化側では、音声符号化に伴って用いられる制御方式に復号側が対応していなくとも復号可能なデータを生成することができる。さらに、前述の場合において、復号側では、無音パラメータ符号化データが合成されたままの状態で符号化データを復号することと、合成された無音パラメータ符号化データを選択的に復号することと、のいずれかを自由に選択することができる。すなわち、符号化側では、音声符号化に伴って用いられる制御方式に対応した音声復号のモードを復号側に自由に選択させることができる。
(実施の形態2)
図7は、本発明の実施の形態2に係る音声符号化装置の構成を示すブロック図である。なお、本実施の形態で説明する音声符号化装置200は、実施の形態1で説明した音声符号化装置100と同様の基本的構成を有するため、同一の構成要素には同一の参照符号を付し、その詳細な説明を省略する。また、音声符号化装置200から伝送される符号化データは、実施の形態1で説明した音声復号装置150a、150bで復号することができるので、ここでは音声復号装置についての説明を省略する。
音声符号化装置200は、音声符号化装置100に設けられた音声符号化部102およびビット埋め込み部104の代わりに、音声符号化部202を設けた構成を有する。
音声符号化部202は、音声符号化部102の動作およびビット埋め込み部104の動作を組み合わせた動作を実行する。また、音声符号化部202には、入力音声信号を効率的に符号化することができるCELP(Code Excited Linear Prediction)符号化が適用されている。
音声符号化部202は、図8に示すとおり、LPC分析部204、第1符号化候補生成部206、LPC量子化部208、適応符号利得符号帳210、適応符号帳212、乗算器214、加算器216、固定符号帳218、乗算器220、第2符号化候補生成部222、合成フィルタ224、減算器226、重み付け誤差最小化部228、無音パラメータ符号化データ分割部230および多重化部232を有する。
LPC分析部204は、入力音声信号を用いて線形予測分析を行い、その分析結果つまりLPC係数をLPC量子化部208に出力する。
LPC量子化部208は、LPC分析部204から出力されたLPC係数を、第1符号化候補生成部206から出力された符号化候補値および符号化候補符号に基づいて、ベクトル量子化する。そして、ベクトル量子化の結果として得られたLPC量子化符号を多重化部232に出力する。また、LPC量子化部208は、LPC係数から復号化LPC係数を得て、この復号化LPC係数を合成フィルタ224に出力する。
第1符号化候補生成部206は、図9に示すように、符号帳242および探索範囲制限部244を有し、入力音声信号の音声符号化を行うときにLPC量子化部208で行われるLPC係数のベクトル量子化に用いられる、符号化候補値および符号化候補符号を生成し、これらをLPC量子化部208に出力する。
符号帳242は、音声信号を符号化するときにLPC量子化部208で用いられ得る符号化候補値および符号化候補符号のリストを予め保持している。探索範囲制限部244は、入力音声信号を符号化するときにLPC量子化部208で用いられる符号化候補値および符号化候補符号を生成する。より具体的には、フレームタイプ判定部108からのフレームタイプ情報が「有音フレーム」または「無音フレーム(埋込みなし)」を示している場合、探索範囲制限部244は、符号帳242に予め保持されている符号化候補値および符号化候補符号に対して、探索範囲の制限を行わない。一方、フレームタイプ情報が「無音フレーム(埋込みあり)」を示している場合、探索範囲制限部244は、符号化候補値および符号化候補符号に対して、探索範囲の制限を行う。制限された探索範囲は、無音パラメータ符号化データ分割部230から得た分割パラメータ符号のビット数に基づくマスクビットの割り当てを行い且つマスクビットの割り当てに従って分割パラメータ符号を埋め込むことによって、定められる。
合成フィルタ224は、LPC量子化部208から出力された復号化LPC係数と加算器216から出力された駆動音源とを用いてフィルタ合成を行い、合成信号を減算器226へ出力する。減算器226は、合成フィルタ224から出力された合成信号と入力音声信号との誤差信号を算出し、重み付け誤差最小化部228に出力する。
重み付け誤差最小化部228は、減算器226から出力された誤差信号に対して聴覚的な重み付けを行い、聴覚重み付け領域での入力音声信号と合成信号との歪みを算出する。そして、この歪みが最小となるように、適応符号帳212と固定符号帳218と第2符号化候補生成部222とから生成されるべき信号を決定する。
より具体的には、重み付け誤差最小化部228は、歪みを最小とする適応音源ラグを適応符号帳212から選択する。また、歪みを最小とする固定音源ベクトルを固定符号帳218から選択する。また、歪みを最小とする量子化適応音源利得を適応符号利得符号帳210から選択する。また、量子化固定音源利得を第2符号化候補生成部222から選択する。
適応符号帳212は、バッファを有し、過去に加算器216によって出力された駆動音源をそのバッファに記憶しており、重み付け誤差最小化部228から出力される信号によって特定される切り出し位置から1フレーム分のサンプルをバッファから切り出し、適応音源ベクトルとして乗算器214へ出力する。また、決定結果を示す適応音源ラグ符号を多重化部232に出力する。また、適応符号帳212は、加算器216から出力された駆動音源を受けるたびにバッファに記憶された駆動音源のアップデートを行う。
適応符号利得符号帳210は、重み付け誤差最小化部228から出力される信号に基づいて、量子化適応音源利得を決定し、これを乗算器214に出力する。また、この決定結果を示す量子化適応音源利得符号を多重化部232に出力する。
乗算器214は、適応符号利得符号帳210から出力された量子化適応音源利得を、適応符号帳212から出力された適応音源ベクトルに乗じ、その乗算結果を加算器216に出力する。
固定符号帳218は、重み付け誤差最小化部228から出力された信号によって特定される形状を有するベクトルを固定音源ベクトルとして決定し、乗算器220へ出力する。また、この決定結果を示す固定音源ベクトル符号を多重化部232に出力する。
乗算器220は、第2符号化候補生成部222から出力された量子化固定音源利得を、固定符号帳218から出力された固定音源ベクトルに乗じ、その乗算結果を加算器216に出力する。
加算器216は、乗算器214から出力された適応音源ベクトルと乗算器220から出力された固定音源ベクトルとを加算し、その加算結果である駆動音源を合成フィルタ224および適応符号帳212に出力する。
無音パラメータ符号化データ分割部230は、無音パラメータ分析・符号化部110から出力された無音パラメータ符号化データを分割する。無音パラメータ符号化データは、無音パラメータ符号化データが埋め込まれる量子化符号のビット数毎に分割される。また、本実施の形態では、フレーム単位のLPC量子化符号およびサブフレーム単位の量子化固定音源利得符号を埋め込み対象の量子化符号に指定している。このため、無音パラメータ符号化データ分割部230は、無音パラメータ符号化データを(1+サブフレーム数)分に分割し、その個数分の分割パラメータ符号を得る。
第2符号化候補生成部222は、固定符号利得符号帳を有し、音声符号化を行うときに固定音源ベクトルに乗算する量子化固定音源利得の候補を生成する。より具体的には、フレームタイプ判定部108からのフレームタイプ情報が「有音フレーム」または「無音フレーム(埋込みなし)」を示している場合、第2符号化候補生成部222は、予め固定符号利得符号帳に格納されている、量子化固定音源利得候補に対して、探索範囲の制限を行わない。一方、フレームタイプ情報が「無音フレーム(埋込みあり)」を示している場合、第2符号化候補生成部222は、量子化固定音源利得候補に対して、探索範囲の制限を行う。制限された探索範囲は、無音パラメータ符号化データ分割部230から得た分割パラメータ符号のビット数に基づくマスクビットの割り当てを行い且つマスクビットの割り当てに従って分割パラメータ符号を埋め込むことによって、定められる。このようにして、量子化固定音源利得候補の生成が行われる。そして、生成された量子化固定音源利得候補の中から、重み付け誤差最小化部228から信号に基づいて特定されるものを、固定音源ベク卜ルに乗算すべき量子化固定音源利得として決定し、これを乗算器220に出力する。また、この決定結果を示す量子化固定音源利得符号を多重化部232に出力する。
多重化部232は、LPC量子化部208からのLPC量子化符号と、適応符号利得符号帳210からの量子化適応音源利得符号と、適応符号帳212からの適応音源ベクトル符号と、固定符号帳218からの固定音源ベクトル符号と、第2符号化候補生成部222からの量子化固定音源利得符号と、を多重化する。この多重化によって、符号化データが得られる。
次いで、音声符号化部202における探索範囲制限動作について、説明する。ここでは、第1符号化候補生成部206での探索範囲制限動作を例にとって説明する。
音声符号化部202において、符号帳242には、図10に示すように、16通りの符号インデクスiと各符号インデクスiに対応する符号ベクトルC[i]との組み合わせが、符号化候補符号および符号化候補値としてそれぞれ格納されている。
そして、フレームタイプ判定部108からのフレームタイプ情報が「有音フレーム」または「無音フレーム(埋込みなし)」を示している場合、探索範囲制限部244は探索範囲を制限せずに16通りの候補の組み合わせをLPC量子化部208に出力する。
一方、フレームタイプ情報が「無音フレーム(埋込みあり)」を示している場合、探索範囲制限部244は、無音パラメータ符号化データ分割部230から得た分割パラメータ符号のビット数に基づいて、符号インデクスiにマスクビットを割り当てる。本実施の形態では、ビット感度が所定レベルよりも低い所定数の符号化ビットまたはビット感度が最も低い符号化ビットを含む所定数の符号化ビットを置き換えおよびマスクの対象とする。例えば、スカラー値の量子化値が符号と昇順に対応している場合は、LSB(最下位ビット)からマスクビットを割り当てる。このようなマスクビット割り当てを行うことで、探索範囲を制限する。すなわち、予め埋め込みを前提とした符号帳の制限を行う。このため、埋め込みを行うことによる符号化性能の劣化を防止することができる。
そして、マスクビット割り当てでマスクされたビットに分割パラメータ符号を埋め込むことによって、制限された探索範囲に属する探索候補が特定される。ここでの例示においては、下位の2ビットにマスクビットが割り当てられているので、探索範囲が、元の16通りの候補から4通りの候補に制限される。そして、これら4通りの候補の組み合わせがLPC量子化部208に出力される。
このように、本実施の形態によれば、無音パラメータ符号化データの埋め込みを前提とした最適な量子化が行われる。すなわち、無音フレームとしての符号化データを構成する複数のビットのうち、所定レベル以下の感度を有する所定数のビットを、または、感度が最も低いビットを含む所定数のビットを、マスクビット割り当ておよび分割パラメータ符号埋め込みの対象とする。このため、復号音声の品質に与える影響を低減することができ、分割パラメータ符号埋め込みを行った場合の符号化性能を向上することができる。
なお、本実施の形態では、音声符号化にCELP符号化が用いられた場合について説明したが、CELP符号化を用いることは本発明の要件ではなく、他の音声符号化方式を用いても上記と同様の作用効果を実現することができる。
また、無音パラメータの一部または全てに、通常の音声符号化パラメータと共通なものを用いるようにしても良い。例えば、無音パラメータのうち、スペクトル概形情報にLPCパラメータが用いられる場合に、そのLPCパラメータの量子化符号を、LPC量子化部208で用いられるLPCパラメータの量子化符号またはその一部と同一のものにする。このようにすることで、無音パラメータ符号化データの埋め込み(置換や上書きなど)を行ったときの量子化性能を向上することができる。
また、本実施の形態では、LPC量子化符号および量子化固定音源利得符号を、無音パラメータ符号化データを埋め込む対象の符号化データとした場合について説明した。ただし、埋め込み対象の符号化データはこれらだけに限定されず、これら以外の符号化データを埋め込み対象として採用しても良い。
(実施の形態3)
図11Aおよび図11Bは、本発明の実施の形態9に係るスケーラブル符号化装置およびスケーラブル復号装置をそれぞれ示すブロック図である。本実施の形態では、スケーラブル構成として帯域スケーラブルの機能を有する音声符号化のコアレイヤに、実施の形態1(または実施の形態2)で説明した各装置を適用した場合について説明する。
図11Aに示すスケーラブル符号化装置300は、ダウンサンプリング部302、音声符号化装置100、局部復号部304、アップサンプリング部306および拡張レイヤ符号化部308を有する。
ダウンサンプリング部302は、入力音声信号をコアレイヤの帯域の信号にダウンサンプリングする。音声符号化装置100は、実施の形態1で説明したものと同一の構成を有するものであり、ダウンサンプリングされた入力音声信号から符号化データおよびフレームタイプ情報を生成し、これらを出力する。生成された符号化データは、コアレイヤ符号化データとして出力される。
局部復号部304は、コアレイヤ符号化データに対して局部復号を行い、コアレイヤの復号音声信号を得る。アップサンプリング部306は、コアレイヤの復号音声信号を拡張レイヤの帯域の信号にアップサンプリングする。拡張レイヤ符号化部308は、拡張レイヤの信号帯域を有する入力音声信号に対して拡張レイヤの符号化を行い、拡張レイヤ符号化データを生成し、出力する。
図11Bに示すスケーラブル復号装置350は、音声復号装置150b、アップサンプリング部352および拡張レイヤ復号部354を有する。
音声復号装置150bは、実施の形態1で説明したものと同一の構成を有するものであり、スケーラブル符号化装置300から伝送されたコアレイヤ符号化データおよびフレームタイプ情報から、復号音声信号を生成し、これをコアレイヤ復号信号として出力する。
アップサンプリング部352は、コアレイヤ復号信号を拡張レイヤの帯域の信号にアップサンプリングする。拡張レイヤ復号部354は、スケーラブル符号化装置300から伝送された拡張レイヤ符号化データを復号して、拡張レイヤ復号信号を得る。そして、アップサンプリングされたコアレイヤ復号信号を、拡張レイヤ復号信号に多重化することによって、コアレイヤ+拡張レイヤ復号信号を生成し、これを出力する。
なお、スケーラブル符号化装置300は、前述の音声符号化装置100の代わりに、実施の形態2で説明した音声符号化装置200を有しても良い。
以下、上記構成を有するスケーラブル復号装置350での動作について説明する。コアレイヤにおいて、フレームフォーマット切り替え制御を行わないとする。この場合、常に、コアレイヤ+拡張レイヤ復号信号を得ることができる。また、コアレイヤのみを復号するように設定し、且つ、コアレイヤにおいてフレームフォーマット切り替え制御を行うとする。この場合は、最も符号化効率の高い且つ低ビットレートの復号信号を得ることができる。また、無音フレームでは、フレームフォーマット切り替え制御ありでコアレイヤのみを復号するように設定し、有音フレームでは、コアレイヤ+拡張レイヤを復号するように設定したとする。この場合は、前述の二つの場合に対して中間的な音声品質および伝送効率を実現することができる。
このように、本実施の形態によれば、複数の種類の復号音声信号を、符号化側での制御の設定状態に依存することなく、復号側(またはネットワーク上)で自由に選択して復号することができる。
なお、上記各実施の形態の説明に用いた各機能ブロックは、典型的には集積回路であるLSIとして実現される。これらは個別に1チップ化されても良いし、一部又は全てを含むように1チップ化されても良い。
ここでは、LSIとしたが、集積度の違いにより、IC、システムLSI、スーパーLSI、ウルトラLSIと呼称されることもある。
また、集積回路化の手法はLSIに限るものではなく、専用回路又は汎用プロセッサで実現しても良い。LSI製造後に、プログラムすることが可能なFPGA(Field Programmable Gate Array)や、LSI内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサーを利用しても良い。
さらには、半導体技術の進歩又は派生する別技術によりLSIに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積化を行っても良い。バイオ技術の適応等が可能性としてありえる。
本明細書は、2004年7月23日出願の特願2004−216127に基づく。この内容はすべてここに含めておく。
本発明の音声符号化装置および音声符号化方法は、有音区間と無音区間とで異なるフォーマットタイプの符号化データを伝送するのに有用である。
本発明は、音声符号化装置および音声符号化方法に関し、特に、有音区間と無音区間とで異なるフォーマットタイプの符号化データを伝送するのに用いられる音声符号化装置および音声符号化方法に関する。
IP(Internet Protocol)ネットワーク上での音声データ通信において、有音区間と無音区間とで異なるフォーマットタイプの符号化データを伝送することがある。有音とは、音声信号が所定レベル以上の音声成分を含むことである。無音とは、音声信号が所定レベル以上の音声成分を含まないことである。音声信号が音声成分とは異なる雑音成分のみを含む場合、その音声信号は無音と認識される。このような伝送技術の一つに、DTX制御と呼ばれるものがある(例えば、非特許文献1および非特許文献2参照)。
例えば図1に示す音声符号化装置10がDTX制御を伴うモードで音声符号化を行う場合、有音無音判定部11で、所定長の区間(フレーム長に相当)の単位で区切られた音声信号に対して、その区間毎に有音か無音かの判定が行われる。そして、有音と判定された場合つまり有音区間の場合、音声符号化部12で生成された符号化データは、有音フレームとしてDTX制御部13から出力される。このとき、有音フレームは、有音フレームの伝送を通知するためのフレームタイプ情報とともに出力される。有音フレームは、例えば図2(A)に示すように、Nvビットの情報で構成されたフォーマットを有する。
一方、無音と判定された場合つまり無音区間の場合は、快適雑音符号化部14で無音フレーム符号化が行われる。無音フレーム符号化は、無音区間における周囲騒音を模擬した信号を復号側で得るための符号化であり、有音区間に比べて少ない情報量つまりビット数で行われる符号化である。無音フレーム符号化によって生成された符号化データは、連続する無音区間において一定の周期で、いわゆるSID(Silence Descriptor)フレームとしてDTX制御部13から出力される。このとき、SIDフレームは、SIDフレームの伝送を通知するためのフレームタイプ情報とともに出力される。また、SIDフレームは、例えば図2(B)に示すように、Nuvビット(Nuv<Nv)の情報で構成されたフォーマットを有する。
また、無音区間においてSIDフレームが伝送されるとき以外は、符号化情報の伝送が行われない。換言すれば、無音フレームの伝送が省略される。ただし、無音フレームの伝送を通知するためのフレームタイプ情報だけがDTX制御部13から出力される。このように、DTX制御では、不連続な伝送が行われるような制御が行われるので、伝送路を介して伝送される情報量や復号側で復号される情報量は、無音区間において低減される。
これに対して、DTX制御を伴わないモードで音声符号化を行う場合は、音声信号は常に有音であるものとして扱われ、その結果、符号化データの伝送が常に連続的に行われる。したがって、DTX制御機能を有する従来の音声符号化装置では、音声符号化のモードを、DTX制御を伴うモード(DTX制御あり)またはDTX制御を伴わないモード(DTX制御なし)のいずれかに予め設定した上で、音声符号化を行う。
" Mandatory speech CODEC speech processing functions; AMR speech CODEC; General description", 3rd Generation Partnership Project, TS26.071 " Mandatory speech codec speech processing functionsAdaptive Multi-Rate (AMR) speech codec; Source controlled rate operation", 3rd Generation Partnership Project, TS26.093
しかしながら、上記従来の音声符号化装置においては、DTX制御ありの場合とDTX制御なしの場合とで、出力される符号化データ系列に違いが生じる。例えば、DTX制御なしのモードでは、符号化データを構成する符号化データのフォーマットは1タイプである。これに対し、DTX制御ありのモードでは、実際に伝送される符号化データのフォーマットは2タイプであるが、実質的に存在するフォーマットは3タイプである。このような違いに伴って、符号化側でDTX制御を行う場合、復号側ではDTX制御ありの音声符号化に対応したモードで音声復号を行う必要があり、また、符号化側でDTX制御を行わない場合、DTX制御なしの音声符号化に対応したモードで音声復号を行う必要がある。換言すれば、復号側で設定される音声復号のモードは、符号化側で設定される音声符号化のモードに拘束されるため、復号側は音声復号のモードを自由に選択できない。
すなわち、DTX制御対応の音声復号装置に対して、DTX制御なしのモードで生成された符号化データを伝送したとすると、ある符号化データの元の音声信号が無音だったとしても、ネットワーク上で、無音区間において復号する情報量を低減することができない、すなわち、伝送効率の向上を図ることができず、またその音声復号装置は処理負荷を軽減することができない。一方、DTX制御ありのモードで生成された符号化データを伝送したとすると、音声復号装置でのサービス(例えば、全区間を有音として復号することで得られる高音質受信モード)の選択の自由度が制限されてしまう。
また、DTX制御対応でない音声復号装置に対して、DTX制御ありのモードで得られた符号化データを伝送すると、その音声復号装置は、受信した符号化データを復号することができない。
したがって、例えば、音声符号化装置が、DTX制御対応のものとDTX制御対応でないものとを含む複数の音声復号装置に対してマルチキャストを行う場合、DTX制御ありのモードで音声符号化を行っても、DTX制御なしのモードで音声符号化を行っても、上記のいずれかの問題が発生する。
本発明の目的は、音声符号化に伴って用いられる制御方式に対応した音声復号のモードを復号側に自由に選択させることができるとともに、復号側がその制御方式に対応していなくとも復号可能なデータを生成することができる音声符号化装置および音声符号化方法を提供することである。
本発明の音声符号化装置は、音声成分を含む音声信号に対応する第一の符号化データと前記音声成分を含まない音声信号に対応する第二の符号化データとを出力する音声符号化装置であって、入力音声信号を所定区間単位で符号化し符号化データを生成する符号化手段と、前記入力音声信号が前記音声成分を含むか否かを前記所定区間毎に判定する判定手段と、前記符号化データのうち、前記音声成分を含まないと判定された無音区間の前記入力音声信号から生成されたもののみに対して雑音データの合成を行うことにより、前記第一の符号化データと前記第二の符号化データとを取得する合成手段と、を有する構成を採る。
本発明の音声復号装置は、雑音データを合成された符号化データを復号し第一の復号音声信号を生成する第一の復号手段と、前記雑音データのみを復号し第二の復号音声信号を生成する第二の復号手段と、前記第一の復号音声信号および前記第二の復号音声信号のいずれか一方を選択する選択手段と、を有する構成を採る。
本発明の音声符号化方法は、音声成分を含む音声信号に対応する第一の符号化データと前記音声成分を含まない音声信号に対応する第二の符号化データとを出力する音声符号化方法であって、入力音声信号を所定区間単位で符号化し符号化データを生成する符号化ステップと、前記入力音声信号が前記音声成分を含むか否かを前記所定区間毎に判定する判定ステップと、前記符号化データのうち、前記音声成分を含まないと判定された無音区間の前記入力音声信号から生成されたもののみに対して雑音データの合成を行うことにより、前記第一の符号化データと前記第二の符号化データとを取得する合成ステップと、を有するようにした。
本発明の音声復号方法は、雑音データを合成された符号化データを復号し第一の復号音声信号を生成する第一の復号ステップと、前記雑音データのみを復号し第二の復号音声信号を生成する第二の復号ステップと、前記第一の復号音声信号および前記第二の復号音声信号のいずれか一方を選択する選択ステップと、を有するようにした。
本発明によれば、音声符号化に伴って用いられる制御方式に対応した音声復号のモードを復号側に自由に選択させることができるとともに、復号側がその制御方式に対応していなくとも復号可能なデータを生成することができる。
以下、本発明の実施の形態について、図面を用いて詳細に説明する。
(実施の形態1)
図3は、本発明の実施の形態1に係る音声符号化装置の構成を示すブロック図である。また、図4Aは、本実施の形態に係る音声復号装置の構成の一例を示すブロック図であり、図4Bは、本実施の形態に係る音声復号装置の構成の他の例を示すブロック図である。
まず、図3に示す音声符号化装置100の構成について説明する。音声符号化装置100は、音声符号化部102、ビット埋め込み部104、有音無音判定部106、フレームタイプ判定部108および無音パラメータ分析・符号化部110を有する。
音声符号化部102は、入力音声信号を所定長の区間(フレーム)単位で符号化し、複数(例えば、Nv)ビットの符号化ビット列から成る符号化データを生成する。音声符号化部102は、生成される符号化データのフォーマットが常に同じになるように、符号化のときに得られたNvビットの符号化ビット列を配置することにより符号化データの生成を行う。また、符号化データのビット数は予め定められている。
有音無音判定部106は、入力音声信号が音声成分を含むか否かを、前述の区間毎に判定し、この判定結果を示す有音無音判定フラグをフレームタイプ判定部108および無音パラメータ分析・符号化部110に出力する。
フレームタイプ判定部108は、入力された有音無音判定フラグを用いて、音声符号化部102で生成された符号化データを、3種類のフレームタイプ、すなわち、(a)有音フレーム、(b)無音フレーム(埋込みあり)、(c)無音フレーム(埋込みなし)のいずれかに決定する。
より具体的には、有音無音判定フラグが有音を示す場合は、(a)有音フレームに決定する。また、有音無音判定フラグが無音を示す場合は、(b)無音フレーム(埋込みあり)または(c)無音フレーム(埋込みなし)に決定する。
さらに、無音を示す有音無音判定フラグが連続する場合、換言すれば、無音区間が続いている場合、一定周期毎のフレーム(符号化データ)だけを(b)無音フレーム(埋込みあり)に決定し、それ以外を(c)無音フレーム(埋込みなし)に決定する。あるいは、無音を示す有音無音判定フラグが連続する場合、入力音声信号の信号特性が変換したときだけを(b)無音フレーム(埋込みあり)に決定し、それ以外を(c)無音フレーム(埋込みなし)に決定する。こうすることで、ビット埋め込み部104での埋め込み処理の負荷を軽減することができる。決定された結果は、フレームタイプ情報として出力される。フレームタイプ情報は、無音パラメータ分析・符号化部110およびビット埋め込み部104に通知される情報であり、且つ、符号化データとともに伝送される情報でもある。
無音パラメータ分析・符号化部110は、入力音声信号が有音無音判定部106によって無音と判定された場合つまり無音区間の場合、模擬雑音データとしての無音パラメータ符号化データを生成する。
より具体的には、連続する無音区間において入力音声信号の信号特性を平均化することにより得られる情報を無音パラメータとする。無音パラメータに含まれる情報としては、例えば、LPC(Linear Predictive Coding)分析により得られるスペクトル概形情報、音声信号のエネルギー、LPCスペクトル合成における駆動音源信号の利得情報などが挙げられる。無音パラメータ分析・符号化部110は、無音パラメータを、有音区間の入力音声信号よりも少ないビット数(例えば、Nuvビット)で符号化して無音パラメータ符号化データを生成する。つまり、無音パラメータ符号化データのビット数は、音声符号化部102により符号化される入力音声信号のビット数よりも少ない(Nuv<Nv)。生成された無音パラメータ符号化データは、フレームタイプ判定部108から出力されたフレームタイプ情報が無音フレーム(埋込みあり)を示している場合に、出力される。
ビット埋め込み部104は、フレームタイプ判定部108から出力されたフレームタイプ情報が有音フレームまたは無音フレーム(埋込みなし)を示している場合は、音声符号化部102から出力された符号化フレームをそのまま出力する。したがって、この場合に出力される符号化データのフォーマットは、図5(A)に示すように、音声符号化部102によって生成された符号化データのフォーマットと同一である。
一方、フレームタイプ判定部108から出力されたフレームタイプ情報が無音フレーム(埋込みあり)を示している場合は、音声符号化部102から出力された符号化データに、無音パラメータ分析・符号化部110から出力された無音パラメータ符号化データを埋め込む。そして、無音パラメータ符号化データが埋め込まれた符号化データを出力する。したがって、この場合に出力される符号化データは、図5(B)に示すように、音声符号化部102によって生成された符号化データ内の所定の位置に無音パラメータ符号化データが埋め込まれたフォーマットタイプを有する。
このように、符号化データに無音パラメータ符号化データを埋め込むため、符号化データのフレームサイズを変えずに、符号化データの伝送を行うことができる。さらに、符号化データの所定の位置に無音パラメータ符号化データを埋め込むため、無音パラメータ符号化データを埋め込むときの制御処理を簡略化することができる。
より具体的には、ビット埋め込み部104は、符号化データのNvビットのうち所定の位置に配置されたNuvビットを、Nuvビットから成る無音パラメータ符号化データで置き換える。こうすることで、符号化によって得られた符号化データの一部のビットの代わりに、無音パラメータ符号化データを伝送することができる。また、Nvビットから成る符号化データの一部を無音パラメータ符号化データで置き換えるため、符号化データの残りのビットおよび無音パラメータ符号化データの両方を伝送することができる。
あるいは、ビット埋め込み部104は、符号化データのNvビットのうち所定の位置に配置されたNuvビットを、Nuvビットから成る無音パラメータ符号化データで上書きする。こうすることで、符号化によって得られた符号化データの一部のビットを消去して、無音パラメータ符号化データを伝送することができる。また、Nvビットから成る符号化データの一部を無音パラメータ符号化データで上書きするため、符号化データの残りのビットおよび無音パラメータ符号化データの両方を伝送することができる。
ビットの置き換えまたは上書きを行うことは、これらを行っても復号音声信号の品質に与える影響が低い場合や、符号化のときに得られた符号化ビット列に低重要度のビットがある場合などに、とりわけ有効である。
また、本実施の形態では、符号化のときに得られたビットの置き換えまたは上書きを行うことにより無音パラメータ符号化データを埋め込む場合について説明した。ただし、無音パラメータ符号化データを埋め込む代わりに、図6に示すように、符号化のときに得られたNvビットのビット列の後端にNuvビットの無音パラメータ符号化データを付加しても良い。つまり、ビット埋め込み部104は、無音パラメータ符号化データの埋め込みや付加を行うことで、無音パラメータ符号化データと符号化データとを合成する。これにより、この合成を行う場合と行わない場合とで、異なるタイプのフォーマットを持つ符号化データが取得されるようなフレームフォーマット切り替え制御が行われる。こうすることによって、無音パラメータ符号化データが符号化データに合成された場合と合成されない場合とでフレームフォーマットのタイプは異なるが、基本的なフレーム構成は不変のままで、符号化データ系列を伝送することができる。
また、無音パラメータ符号化データの付加を行う場合は、符号化データのフレームサイズが変わるので、符号化データとともにフレームサイズに関する情報を、任意の形式で伝送することが好ましい。
また、本実施の形態では、無音パラメータ符号化データを符号化データの所定の位置に埋め込む場合について説明した。ただし、無音パラメータ符号化データの埋め込み方は前
述のものに限定されない。例えば、ビット埋め込み部104は、無音パラメータ符号化データが埋め込まれる位置を、埋め込みを行うたびに適応的に定めても良い。この場合、置換対象となるビットの位置または上書き対象となるビットの位置を、各ビットの感度や重要度などに応じて適応的に変更することができる。
次に、図4Aおよび図4Bに示す音声復号装置150a、150bの構成について説明する。音声復号装置150aは、音声符号化装置100のフレームフォーマット切り替え制御に対応する機能を有しない構成となっているが、音声復号装置150bは、その機能を有する構成となっている。
図4Aに示す音声復号装置150aは、音声復号部152を有する。
音声復号部152は、音声符号化装置100から伝送路を介して伝送された符号化データを受信する。また、受信符号化データに対してフレーム単位で復号を行う。より具体的には、受信符号化データを構成する符号化データを復号することにより、復号音声信号を生成する。受信符号化データには、無音パラメータ符号化データが合成されているか否かによってフォーマットの変化する符号化データが含まれている。しかし、基本的なフレーム構成の変化しない符号化データが連続的に伝送されるので、フレームフォーマット切り替え制御対応でない音声復号装置150aは、音声符号化装置100から受信した符号化データを復号することができる。
図4Bに示す音声復号装置150bは、音声復号装置150aに設けられたものと同一の音声復号部152の他に、切り替え器154、無音パラメータ抽出部156、フレームタイプ判定部158および無音フレーム復号部160を有する。
無音パラメータ抽出部156は、受信符号化データを構成する符号化データのうち無音フレーム(埋込みあり)として伝送された符号化データに合成された無音パラメータ符号化データを抽出する。
フレームタイプ判定部158は、音声符号化装置100から伝送されたフレームタイプ情報を受信し、受信した符号化データが3種類のフレームタイプの中のどれに該当するかを判定する。判定の結果は、切り替え器154および無音フレーム復号部160に通知される。
無音フレーム復号部160は、フレームタイプ情報に示された情報が無音フレームであった場合に、無音パラメータ抽出部156によって抽出された無音パラメータ符号化データのみを復号する。これによって、無音パラメータに含まれている情報(例えば、スペクトル概形情報やエネルギーなど)を取得する。そして、取得した情報を用いて、無音フレーム(埋込みあり)および無音フレーム(埋込みなし)を含む全ての無音フレームにおける復号音声信号を生成する。
切り替え器154は、フレームタイプ判定部158から通知された判定結果に従って、音声復号装置150bの出力を切り替える。例えば、フレームタイプ情報に示された情報が有音フレームであった場合は、音声復号部152によって生成された復号音声信号が音声復号装置150bの出力となるように、接続を制御する。つまり、図4Bに示すように、音声復号装置150bの出力との接続がa側に切り替えられる。一方、示された情報が無音フレームの場合は、無音フレーム復号部160によって生成された復号音声信号が音声復号装置150bの出力となるように、接続を制御する。つまり、音声復号装置150bの出力との接続がb側に切り替えられる。
前述の接続切り替え制御は、伝送される符号化データのフレームタイプによって復号対象を切り替えるために行われる。ただし、切り替え器154は、伝送される符号化データのフレームタイプに依存した制御を行わず、音声復号装置150bの出力との接続をa側に常時固定することもできる。音声復号装置150bは、フレームタイプに依存した接続切り替え制御を行うか、または、接続の常時固定を行うか、を自ら選択する。こうすることにより、音声復号装置150bは、無音パラメータ符号化データが合成されたままの状態で符号化データを復号することと、合成された無音パラメータを選択的に復号することと、のいずれかを自由に選択することができる。
次いで、上記構成を有する音声符号化装置100での無音パラメータ符号化データ埋め込み動作について説明する。
音声符号化部102では、入力音声信号の音声符号化を行い、符号化データを生成する。また、入力音声信号のフレームタイプ判定を行う。
そして、フレームタイプ判定の結果、符号化データが有音フレームに決定された場合は、ビット埋め込み部104での無音パラメータ符号化データ埋め込みは行われず、その結果、図5(A)に示すフォーマットの符号化データが取得される。また、符号化データが無音フレーム(埋込みなし)に決定された場合も、無音パラメータ符号化データ埋め込みは行われず、その結果、図5(A)に示すフォーマットの符号化データが取得される。一方、符号化データが無音フレーム(埋込みあり)に決定された場合は、無音パラメータ符号化データ埋め込みが行われ、その結果、図5(B)に示すフォーマットの符号化データが取得される。
このように、本実施の形態によれば、符号化データのうち、無音フレーム(埋込みあり)としての符号化データのみに無音パラメータ符号化データを合成することにより、音声成分を含む音声信号に対応する符号化データと音声成分を含まない音声信号に対応する符号化データとを取得する、つまり符号化データに無音パラメータ符号化データを合成するため、復号側に対して、異なるフォーマットタイプを有していながら同様のフレーム構成を有する符号化データを連続的に伝送することができる。このため、無音パラメータ符号化データが符号化データに合成されるようなモードで生成された符号化データが復号側に伝送された場合に、復号側では、符号化データを、無音パラメータ符号化データが合成されたままの状態で復号することができる。すなわち、符号化側では、音声符号化に伴って用いられる制御方式に復号側が対応していなくとも復号可能なデータを生成することができる。さらに、前述の場合において、復号側では、無音パラメータ符号化データが合成されたままの状態で符号化データを復号することと、合成された無音パラメータ符号化データを選択的に復号することと、のいずれかを自由に選択することができる。すなわち、符号化側では、音声符号化に伴って用いられる制御方式に対応した音声復号のモードを復号側に自由に選択させることができる。
(実施の形態2)
図7は、本発明の実施の形態2に係る音声符号化装置の構成を示すブロック図である。なお、本実施の形態で説明する音声符号化装置200は、実施の形態1で説明した音声符号化装置100と同様の基本的構成を有するため、同一の構成要素には同一の参照符号を付し、その詳細な説明を省略する。また、音声符号化装置200から伝送される符号化データは、実施の形態1で説明した音声復号装置150a、150bで復号することができるので、ここでは音声復号装置についての説明を省略する。
音声符号化装置200は、音声符号化装置100に設けられた音声符号化部102およびビット埋め込み部104の代わりに、音声符号化部202を設けた構成を有する。
音声符号化部202は、音声符号化部102の動作およびビット埋め込み部104の動作を組み合わせた動作を実行する。また、音声符号化部202には、入力音声信号を効率的に符号化することができるCELP(Code Excited Linear Prediction)符号化が適用されている。
音声符号化部202は、図8に示すとおり、LPC分析部204、第1符号化候補生成部206、LPC量子化部208、適応符号利得符号帳210、適応符号帳212、乗算器214、加算器216、固定符号帳218、乗算器220、第2符号化候補生成部222、合成フィルタ224、減算器226、重み付け誤差最小化部228、無音パラメータ符号化データ分割部230および多重化部232を有する。
LPC分析部204は、入力音声信号を用いて線形予測分析を行い、その分析結果つまりLPC係数をLPC量子化部208に出力する。
LPC量子化部208は、LPC分析部204から出力されたLPC係数を、第1符号化候補生成部206から出力された符号化候補値および符号化候補符号に基づいて、ベクトル量子化する。そして、ベクトル量子化の結果として得られたLPC量子化符号を多重化部232に出力する。また、LPC量子化部208は、LPC係数から復号化LPC係数を得て、この復号化LPC係数を合成フィルタ224に出力する。
第1符号化候補生成部206は、図9に示すように、符号帳242および探索範囲制限部244を有し、入力音声信号の音声符号化を行うときにLPC量子化部208で行われるLPC係数のベクトル量子化に用いられる、符号化候補値および符号化候補符号を生成し、これらをLPC量子化部208に出力する。
符号帳242は、音声信号を符号化するときにLPC量子化部208で用いられ得る符号化候補値および符号化候補符号のリストを予め保持している。探索範囲制限部244は、入力音声信号を符号化するときにLPC量子化部208で用いられる符号化候補値および符号化候補符号を生成する。より具体的には、フレームタイプ判定部108からのフレームタイプ情報が「有音フレーム」または「無音フレーム(埋込みなし)」を示している場合、探索範囲制限部244は、符号帳242に予め保持されている符号化候補値および符号化候補符号に対して、探索範囲の制限を行わない。一方、フレームタイプ情報が「無音フレーム(埋込みあり)」を示している場合、探索範囲制限部244は、符号化候補値および符号化候補符号に対して、探索範囲の制限を行う。制限された探索範囲は、無音パラメータ符号化データ分割部230から得た分割パラメータ符号のビット数に基づくマスクビットの割り当てを行い且つマスクビットの割り当てに従って分割パラメータ符号を埋め込むことによって、定められる。
合成フィルタ224は、LPC量子化部208から出力された復号化LPC係数と加算器216から出力された駆動音源とを用いてフィルタ合成を行い、合成信号を減算器226へ出力する。減算器226は、合成フィルタ224から出力された合成信号と入力音声信号との誤差信号を算出し、重み付け誤差最小化部228に出力する。
重み付け誤差最小化部228は、減算器226から出力された誤差信号に対して聴覚的な重み付けを行い、聴覚重み付け領域での入力音声信号と合成信号との歪みを算出する。そして、この歪みが最小となるように、適応符号帳212と固定符号帳218と第2符号化候補生成部222とから生成されるべき信号を決定する。
より具体的には、重み付け誤差最小化部228は、歪みを最小とする適応音源ラグを適
応符号帳212から選択する。また、歪みを最小とする固定音源ベクトルを固定符号帳218から選択する。また、歪みを最小とする量子化適応音源利得を適応符号利得符号帳210から選択する。また、量子化固定音源利得を第2符号化候補生成部222から選択する。
適応符号帳212は、バッファを有し、過去に加算器216によって出力された駆動音源をそのバッファに記憶しており、重み付け誤差最小化部228から出力される信号によって特定される切り出し位置から1フレーム分のサンプルをバッファから切り出し、適応音源ベクトルとして乗算器214へ出力する。また、決定結果を示す適応音源ラグ符号を多重化部232に出力する。また、適応符号帳212は、加算器216から出力された駆動音源を受けるたびにバッファに記憶された駆動音源のアップデートを行う。
適応符号利得符号帳210は、重み付け誤差最小化部228から出力される信号に基づいて、量子化適応音源利得を決定し、これを乗算器214に出力する。また、この決定結果を示す量子化適応音源利得符号を多重化部232に出力する。
乗算器214は、適応符号利得符号帳210から出力された量子化適応音源利得を、適応符号帳212から出力された適応音源ベクトルに乗じ、その乗算結果を加算器216に出力する。
固定符号帳218は、重み付け誤差最小化部228から出力された信号によって特定される形状を有するベクトルを固定音源ベクトルとして決定し、乗算器220へ出力する。また、この決定結果を示す固定音源ベクトル符号を多重化部232に出力する。
乗算器220は、第2符号化候補生成部222から出力された量子化固定音源利得を、固定符号帳218から出力された固定音源ベクトルに乗じ、その乗算結果を加算器216に出力する。
加算器216は、乗算器214から出力された適応音源ベクトルと乗算器220から出力された固定音源ベクトルとを加算し、その加算結果である駆動音源を合成フィルタ224および適応符号帳212に出力する。
無音パラメータ符号化データ分割部230は、無音パラメータ分析・符号化部110から出力された無音パラメータ符号化データを分割する。無音パラメータ符号化データは、無音パラメータ符号化データが埋め込まれる量子化符号のビット数毎に分割される。また、本実施の形態では、フレーム単位のLPC量子化符号およびサブフレーム単位の量子化固定音源利得符号を埋め込み対象の量子化符号に指定している。このため、無音パラメータ符号化データ分割部230は、無音パラメータ符号化データを(1+サブフレーム数)分に分割し、その個数分の分割パラメータ符号を得る。
第2符号化候補生成部222は、固定符号利得符号帳を有し、音声符号化を行うときに固定音源ベクトルに乗算する量子化固定音源利得の候補を生成する。より具体的には、フレームタイプ判定部108からのフレームタイプ情報が「有音フレーム」または「無音フレーム(埋込みなし)」を示している場合、第2符号化候補生成部222は、予め固定符号利得符号帳に格納されている、量子化固定音源利得候補に対して、探索範囲の制限を行わない。一方、フレームタイプ情報が「無音フレーム(埋込みあり)」を示している場合、第2符号化候補生成部222は、量子化固定音源利得候補に対して、探索範囲の制限を行う。制限された探索範囲は、無音パラメータ符号化データ分割部230から得た分割パラメータ符号のビット数に基づくマスクビットの割り当てを行い且つマスクビットの割り当てに従って分割パラメータ符号を埋め込むことによって、定められる。このようにして
、量子化固定音源利得候補の生成が行われる。そして、生成された量子化固定音源利得候補の中から、重み付け誤差最小化部228から信号に基づいて特定されるものを、固定音源ベクトルに乗算すべき量子化固定音源利得として決定し、これを乗算器220に出力する。また、この決定結果を示す量子化固定音源利得符号を多重化部232に出力する。
多重化部232は、LPC量子化部208からのLPC量子化符号と、適応符号利得符号帳210からの量子化適応音源利得符号と、適応符号帳212からの適応音源ベクトル符号と、固定符号帳218からの固定音源ベクトル符号と、第2符号化候補生成部222からの量子化固定音源利得符号と、を多重化する。この多重化によって、符号化データが得られる。
次いで、音声符号化部202における探索範囲制限動作について、説明する。ここでは、第1符号化候補生成部206での探索範囲制限動作を例にとって説明する。
音声符号化部202において、符号帳242には、図10に示すように、16通りの符号インデクスiと各符号インデクスiに対応する符号ベクトルC[i]との組み合わせが、符号化候補符号および符号化候補値としてそれぞれ格納されている。
そして、フレームタイプ判定部108からのフレームタイプ情報が「有音フレーム」または「無音フレーム(埋込みなし)」を示している場合、探索範囲制限部244は探索範囲を制限せずに16通りの候補の組み合わせをLPC量子化部208に出力する。
一方、フレームタイプ情報が「無音フレーム(埋込みあり)」を示している場合、探索範囲制限部244は、無音パラメータ符号化データ分割部230から得た分割パラメータ符号のビット数に基づいて、符号インデクスiにマスクビットを割り当てる。本実施の形態では、ビット感度が所定レベルよりも低い所定数の符号化ビットまたはビット感度が最も低い符号化ビットを含む所定数の符号化ビットを置き換えおよびマスクの対象とする。例えば、スカラー値の量子化値が符号と昇順に対応している場合は、LSB(最下位ビット)からマスクビットを割り当てる。このようなマスクビット割り当てを行うことで、探索範囲を制限する。すなわち、予め埋め込みを前提とした符号帳の制限を行う。このため、埋め込みを行うことによる符号化性能の劣化を防止することができる。
そして、マスクビット割り当てでマスクされたビットに分割パラメータ符号を埋め込むことによって、制限された探索範囲に属する探索候補が特定される。ここでの例示においては、下位の2ビットにマスクビットが割り当てられているので、探索範囲が、元の16通りの候補から4通りの候補に制限される。そして、これら4通りの候補の組み合わせがLPC量子化部208に出力される。
このように、本実施の形態によれば、無音パラメータ符号化データの埋め込みを前提とした最適な量子化が行われる。すなわち、無音フレームとしての符号化データを構成する複数のビットのうち、所定レベル以下の感度を有する所定数のビットを、または、感度が最も低いビットを含む所定数のビットを、マスクビット割り当ておよび分割パラメータ符号埋め込みの対象とする。このため、復号音声の品質に与える影響を低減することができ、分割パラメータ符号埋め込みを行った場合の符号化性能を向上することができる。
なお、本実施の形態では、音声符号化にCELP符号化が用いられた場合について説明したが、CELP符号化を用いることは本発明の要件ではなく、他の音声符号化方式を用いても上記と同様の作用効果を実現することができる。
また、無音パラメータの一部または全てに、通常の音声符号化パラメータと共通なもの
を用いるようにしても良い。例えば、無音パラメータのうち、スペクトル概形情報にLPCパラメータが用いられる場合に、そのLPCパラメータの量子化符号を、LPC量子化部208で用いられるLPCパラメータの量子化符号またはその一部と同一のものにする。このようにすることで、無音パラメータ符号化データの埋め込み(置換や上書きなど)を行ったときの量子化性能を向上することができる。
また、本実施の形態では、LPC量子化符号および量子化固定音源利得符号を、無音パラメータ符号化データを埋め込む対象の符号化データとした場合について説明した。ただし、埋め込み対象の符号化データはこれらだけに限定されず、これら以外の符号化データを埋め込み対象として採用しても良い。
(実施の形態3)
図11Aおよび図11Bは、本発明の実施の形態9に係るスケーラブル符号化装置およびスケーラブル復号装置をそれぞれ示すブロック図である。本実施の形態では、スケーラブル構成として帯域スケーラブルの機能を有する音声符号化のコアレイヤに、実施の形態1(または実施の形態2)で説明した各装置を適用した場合について説明する。
図11Aに示すスケーラブル符号化装置300は、ダウンサンプリング部302、音声符号化装置100、局部復号部304、アップサンプリング部306および拡張レイヤ符号化部308を有する。
ダウンサンプリング部302は、入力音声信号をコアレイヤの帯域の信号にダウンサンプリングする。音声符号化装置100は、実施の形態1で説明したものと同一の構成を有するものであり、ダウンサンプリングされた入力音声信号から符号化データおよびフレームタイプ情報を生成し、これらを出力する。生成された符号化データは、コアレイヤ符号化データとして出力される。
局部復号部304は、コアレイヤ符号化データに対して局部復号を行い、コアレイヤの復号音声信号を得る。アップサンプリング部306は、コアレイヤの復号音声信号を拡張レイヤの帯域の信号にアップサンプリングする。拡張レイヤ符号化部308は、拡張レイヤの信号帯域を有する入力音声信号に対して拡張レイヤの符号化を行い、拡張レイヤ符号化データを生成し、出力する。
図11Bに示すスケーラブル復号装置350は、音声復号装置150b、アップサンプリング部352および拡張レイヤ復号部354を有する。
音声復号装置150bは、実施の形態1で説明したものと同一の構成を有するものであり、スケーラブル符号化装置300から伝送されたコアレイヤ符号化データおよびフレームタイプ情報から、復号音声信号を生成し、これをコアレイヤ復号信号として出力する。
アップサンプリング部352は、コアレイヤ復号信号を拡張レイヤの帯域の信号にアップサンプリングする。拡張レイヤ復号部354は、スケーラブル符号化装置300から伝送された拡張レイヤ符号化データを復号して、拡張レイヤ復号信号を得る。そして、アップサンプリングされたコアレイヤ復号信号を、拡張レイヤ復号信号に多重化することによって、コアレイヤ+拡張レイヤ復号信号を生成し、これを出力する。
なお、スケーラブル符号化装置300は、前述の音声符号化装置100の代わりに、実施の形態2で説明した音声符号化装置200を有しても良い。
以下、上記構成を有するスケーラブル復号装置350での動作について説明する。コア
レイヤにおいて、フレームフォーマット切り替え制御を行わないとする。この場合、常に、コアレイヤ+拡張レイヤ復号信号を得ることができる。また、コアレイヤのみを復号するように設定し、且つ、コアレイヤにおいてフレームフォーマット切り替え制御を行うとする。この場合は、最も符号化効率の高い且つ低ビットレートの復号信号を得ることができる。また、無音フレームでは、フレームフォーマット切り替え制御ありでコアレイヤのみを復号するように設定し、有音フレームでは、コアレイヤ+拡張レイヤを復号するように設定したとする。この場合は、前述の二つの場合に対して中間的な音声品質および伝送効率を実現することができる。
このように、本実施の形態によれば、複数の種類の復号音声信号を、符号化側での制御の設定状態に依存することなく、復号側(またはネットワーク上)で自由に選択して復号することができる。
なお、上記各実施の形態の説明に用いた各機能ブロックは、典型的には集積回路であるLSIとして実現される。これらは個別に1チップ化されても良いし、一部又は全てを含むように1チップ化されても良い。
ここでは、LSIとしたが、集積度の違いにより、IC、システムLSI、スーパーLSI、ウルトラLSIと呼称されることもある。
また、集積回路化の手法はLSIに限るものではなく、専用回路又は汎用プロセッサで実現しても良い。LSI製造後に、プログラムすることが可能なFPGA(Field Programmable Gate Array)や、LSI内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサーを利用しても良い。
さらには、半導体技術の進歩又は派生する別技術によりLSIに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積化を行っても良い。バイオ技術の適応等が可能性としてありえる。
本明細書は、2004年7月23日出願の特願2004−216127に基づく。この内容はすべてここに含めておく。
本発明の音声符号化装置および音声符号化方法は、有音区間と無音区間とで異なるフォーマットタイプの符号化データを伝送するのに有用である。
従来の音声符号化装置の構成の一例を示すブロック図 従来の有音フレームの構成の一例および従来のいわゆるSIDフレームの構成の一例を示す図 本発明の実施の形態1に係る音声符号化装置の構成を示すブロック図 本発明の実施の形態1に係る音声復号装置の構成の一例を示すブロック図 本発明の実施の形態1に係る音声復号装置の構成の他の例を示すブロック図 本発明の実施の形態1のフォーマットタイプの例を示す図 本発明の実施の形態1のフォーマットタイプの変形例を示す図 本発明の実施の形態2に係る音声符号化装置の構成を示すブロック図 本発明の実施の形態2に係る音声符号化部の構成を示すブロック図 本発明の実施の形態2に係る第1符号化候補生成部の構成を示すブロック図 本発明の実施の形態2に係る第1符号化候補生成部の動作説明図 本発明の実施の形態3に係るスケーラブル符号化装置の構成を示すブロック図 本発明の実施の形態3に係るスケーラブル復号装置の構成を示すブロック図

Claims (17)

  1. 音声成分を含む音声信号に対応する第一の符号化データと前記音声成分を含まない音声信号に対応する第二の符号化データとを出力する音声符号化装置であって、
    入力音声信号を所定区間単位で符号化し符号化データを生成する符号化手段と、
    前記入力音声信号が前記音声成分を含むか否かを前記所定区間毎に判定する判定手段と、
    前記符号化データのうち、前記音声成分を含まないと判定された無音区間の前記入力音声信号から生成されたもののみに対して雑音データの合成を行うことにより、前記第一の符号化データと前記第二の符号化データとを取得する合成手段と、
    を有する音声符号化装置。
  2. 前記合成手段は、
    前記無音区間の前記入力音声信号から生成された前記符号化データに、前記雑音データを埋め込む、
    請求項1記載の音声符号化装置。
  3. 前記合成手段は、
    前記無音区間の前記入力音声信号から生成された前記符号化データにおける所定の位置に、前記雑音データを埋め込む、
    請求項1記載の音声符号化装置。
  4. 前記合成手段は、
    前記無音区間の前記入力音声信号から生成された前記符号化データのビットを、前記雑音データで置き換える、
    請求項1記載の音声符号化装置。
  5. 前記合成手段は、
    前記無音区間の前記入力音声信号から生成された前記符号化データのビットを、前記雑音データで上書きする、
    請求項1記載の音声符号化装置。
  6. 前記符号化手段は、
    複数のビットから成る前記符号化データを生成し、
    前記合成手段は、
    前記無音区間の前記入力音声信号から生成された前記符号化データを構成する前記複数のビットの一部を、前記雑音データで置き換える、
    請求項1記載の音声符号化装置。
  7. 前記符号化手段は、
    複数のビットから成る前記符号化データを生成し、
    前記合成手段は、
    前記無音区間の前記入力音声信号から生成された前記符号化データを構成する前記複数のビットの一部を、前記雑音データで上書きする、
    請求項1記載の音声符号化装置。
  8. 前記合成手段は、
    前記無音区間の前記入力音声信号から生成された前記符号化データを構成する前記複数のビットのうち、所定レベル以下の感度を有する所定数のビットを、前記雑音データで置き換える、
    請求項6記載の音声符号化装置。
  9. 前記合成手段は、
    前記無音区間の前記入力音声信号から生成された前記符号化データを構成する前記複数のビットのうち、最も感度の低いビットを含む所定数のビットを、前記雑音データで置き換える、
    請求項6記載の音声符号化装置。
  10. 音声信号の符号化に用いられる符号化候補を記憶する記憶手段を有し、
    前記符号化手段は、
    前記符号化データを構成する複数のビットのいずれかにマスクビットを割り当て、前記入力音声信号の符号化に用いられる前記符号化候補を、前記マスクビットの割り当てに従って制限する、
    請求項1記載の音声符号化装置。
  11. 請求項1記載の音声符号化装置を有するスケーラブル符号化装置。
  12. 雑音データを合成された符号化データを復号し第一の復号音声信号を生成する第一の復号手段と、
    前記雑音データのみを復号し第二の復号音声信号を生成する第二の復号手段と、
    前記第一の復号音声信号および前記第二の復号音声信号のいずれか一方を選択する選択手段と、
    を有する音声復号装置。
  13. 請求項12記載の音声復号装置を有するスケーラブル復号装置。
  14. 音声成分を含む音声信号に対応する第一の符号化データと前記音声成分を含まない音声信号に対応する第二の符号化データとを出力する音声符号化方法であって、
    入力音声信号を所定区間単位で符号化し符号化データを生成する符号化ステップと、
    前記入力音声信号が前記音声成分を含むか否かを前記所定区間毎に判定する判定ステップと、
    前記符号化データのうち、前記音声成分を含まないと判定された無音区間の前記入力音声信号から生成されたもののみに対して雑音データの合成を行うことにより、前記第一の符号化データと前記第二の符号化データとを取得する合成ステップと、
    を有する音声符号化方法。
  15. 請求項14記載の音声符号化方法を有するスケーラブル符号化方法。
  16. 雑音データを合成された符号化データを復号し第一の復号音声信号を生成する第一の復号ステップと、
    前記雑音データのみを復号し第二の復号音声信号を生成する第二の復号ステップと、
    前記第一の復号音声信号および前記第二の復号音声信号のいずれか一方を選択する選択ステップと、
    を有する音声復号方法。
  17. 請求項16記載の音声復号方法を有するスケーラブル復号方法。
JP2006528766A 2004-07-23 2005-06-29 音声符号化装置および音声符号化方法 Pending JPWO2006008932A1 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2004216127 2004-07-23
JP2004216127 2004-07-23
PCT/JP2005/011998 WO2006008932A1 (ja) 2004-07-23 2005-06-29 音声符号化装置および音声符号化方法

Publications (1)

Publication Number Publication Date
JPWO2006008932A1 true JPWO2006008932A1 (ja) 2008-05-01

Family

ID=35785052

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006528766A Pending JPWO2006008932A1 (ja) 2004-07-23 2005-06-29 音声符号化装置および音声符号化方法

Country Status (6)

Country Link
US (1) US8670988B2 (ja)
EP (2) EP3276619B1 (ja)
JP (1) JPWO2006008932A1 (ja)
CN (1) CN1989549B (ja)
ES (1) ES2634511T3 (ja)
WO (1) WO2006008932A1 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102008009719A1 (de) * 2008-02-19 2009-08-20 Siemens Enterprise Communications Gmbh & Co. Kg Verfahren und Mittel zur Enkodierung von Hintergrundrauschinformationen
CN101483495B (zh) * 2008-03-20 2012-02-15 华为技术有限公司 一种背景噪声生成方法以及噪声处理装置
KR101468458B1 (ko) * 2010-11-12 2014-12-03 폴리콤 인코포레이티드 멀티 포인트 환경에서의 스케일러블 오디오
JP2013076871A (ja) * 2011-09-30 2013-04-25 Oki Electric Ind Co Ltd 音声符号化装置及びプログラム、音声復号装置及びプログラム、並びに、音声符号化システム
US9953660B2 (en) * 2014-08-19 2018-04-24 Nuance Communications, Inc. System and method for reducing tandeming effects in a communication system
KR102362788B1 (ko) * 2015-01-08 2022-02-15 한국전자통신연구원 레이어드 디비전 멀티플렉싱을 이용한 방송 신호 프레임 생성 장치 및 방송 신호 프레임 생성 방법
CA3062640C (en) * 2015-01-08 2022-04-26 Electronics And Telecommunications Research Institute An apparatus and method for broadcast signal reception using layered divisional multiplexing

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0236628A (ja) * 1988-07-27 1990-02-06 Toshiba Corp 音声信号の送信方式及び送受信方式
JPH05122165A (ja) * 1991-10-28 1993-05-18 Nippon Telegr & Teleph Corp <Ntt> 音声信号伝送方法
JPH06104851A (ja) * 1992-09-21 1994-04-15 Matsushita Electric Ind Co Ltd デジタル音声伝送装置
JPH0997098A (ja) * 1995-09-29 1997-04-08 Nec Corp 無音圧縮音声符号化復号化装置
JPH09149104A (ja) * 1995-11-24 1997-06-06 Kenwood Corp 擬似背景雑音生成方法
JPH1039898A (ja) * 1996-07-22 1998-02-13 Nec Corp 音声信号伝送方法及び音声符号復号化システム
JPH10190498A (ja) * 1996-11-15 1998-07-21 Nokia Mobile Phones Ltd 不連続伝送中に快適雑音を発生させる改善された方法
WO2000034944A1 (fr) * 1998-12-07 2000-06-15 Mitsubishi Denki Kabushiki Kaisha Decodeur sonore et procede de decodage sonore
JP2001094507A (ja) * 2000-08-11 2001-04-06 Kenwood Corp 擬似背景雑音生成方法
JP2001343984A (ja) * 2000-05-30 2001-12-14 Matsushita Electric Ind Co Ltd 有音/無音判定装置、音声復号化装置及び音声復号化方法
JP2002333900A (ja) * 2001-05-10 2002-11-22 Hitachi Ltd 音声符号化復号化方法および音声送受信装置
JP2003023683A (ja) * 2001-07-06 2003-01-24 Mitsubishi Electric Corp 音声中継伝送システム
JP2004094132A (ja) * 2002-09-03 2004-03-25 Sony Corp データレート変換方法及びデータレート変換装置

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2483322C (en) * 1991-06-11 2008-09-23 Qualcomm Incorporated Error masking in a variable rate vocoder
US5664057A (en) * 1993-07-07 1997-09-02 Picturetel Corporation Fixed bit rate speech encoder/decoder
US5960389A (en) * 1996-11-15 1999-09-28 Nokia Mobile Phones Limited Methods for generating comfort noise during discontinuous transmission
US5959560A (en) * 1997-02-07 1999-09-28 Said; Amir Data compression via alphabet partitioning and group partitioning
KR100261254B1 (ko) * 1997-04-02 2000-07-01 윤종용 비트율 조절이 가능한 오디오 데이터 부호화/복호화방법 및 장치
US6226607B1 (en) * 1999-02-08 2001-05-01 Qualcomm Incorporated Method and apparatus for eighth-rate random number generation for speech coders
EP1094446B1 (en) * 1999-10-18 2006-06-07 Lucent Technologies Inc. Voice recording with silence compression and comfort noise generation for digital communication apparatus
JP2001242896A (ja) * 2000-02-29 2001-09-07 Matsushita Electric Ind Co Ltd 音声符号化/復号装置およびその方法
US7136810B2 (en) * 2000-05-22 2006-11-14 Texas Instruments Incorporated Wideband speech coding system and method
JP3670217B2 (ja) * 2000-09-06 2005-07-13 国立大学法人名古屋大学 雑音符号化装置、雑音復号装置、雑音符号化方法および雑音復号方法
US6631139B2 (en) * 2001-01-31 2003-10-07 Qualcomm Incorporated Method and apparatus for interoperability between voice transmission systems during speech inactivity
US6804655B2 (en) * 2001-02-06 2004-10-12 Cirrus Logic, Inc. Systems and methods for transmitting bursty-asnychronous data over a synchronous link
US20020165720A1 (en) * 2001-03-02 2002-11-07 Johnson Timothy M. Methods and system for encoding and decoding a media sequence
GB0119569D0 (en) * 2001-08-13 2001-10-03 Radioscape Ltd Data hiding in digital audio broadcasting (DAB)
EP1374230B1 (en) * 2001-11-14 2006-06-21 Matsushita Electric Industrial Co., Ltd. Audio coding and decoding
CA2392640A1 (en) * 2002-07-05 2004-01-05 Voiceage Corporation A method and device for efficient in-based dim-and-burst signaling and half-rate max operation in variable bit-rate wideband speech coding for cdma wireless systems
US7406096B2 (en) * 2002-12-06 2008-07-29 Qualcomm Incorporated Tandem-free intersystem voice communication
JP4527369B2 (ja) * 2003-07-31 2010-08-18 富士通株式会社 データ埋め込み装置及びデータ抽出装置
JP2006135871A (ja) * 2004-11-09 2006-05-25 Fujitsu Ltd フレーム伝送装置およびフレーム受信装置

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0236628A (ja) * 1988-07-27 1990-02-06 Toshiba Corp 音声信号の送信方式及び送受信方式
JPH05122165A (ja) * 1991-10-28 1993-05-18 Nippon Telegr & Teleph Corp <Ntt> 音声信号伝送方法
JPH06104851A (ja) * 1992-09-21 1994-04-15 Matsushita Electric Ind Co Ltd デジタル音声伝送装置
JPH0997098A (ja) * 1995-09-29 1997-04-08 Nec Corp 無音圧縮音声符号化復号化装置
JPH09149104A (ja) * 1995-11-24 1997-06-06 Kenwood Corp 擬似背景雑音生成方法
JPH1039898A (ja) * 1996-07-22 1998-02-13 Nec Corp 音声信号伝送方法及び音声符号復号化システム
JPH10190498A (ja) * 1996-11-15 1998-07-21 Nokia Mobile Phones Ltd 不連続伝送中に快適雑音を発生させる改善された方法
WO2000034944A1 (fr) * 1998-12-07 2000-06-15 Mitsubishi Denki Kabushiki Kaisha Decodeur sonore et procede de decodage sonore
JP2001343984A (ja) * 2000-05-30 2001-12-14 Matsushita Electric Ind Co Ltd 有音/無音判定装置、音声復号化装置及び音声復号化方法
JP2001094507A (ja) * 2000-08-11 2001-04-06 Kenwood Corp 擬似背景雑音生成方法
JP2002333900A (ja) * 2001-05-10 2002-11-22 Hitachi Ltd 音声符号化復号化方法および音声送受信装置
JP2003023683A (ja) * 2001-07-06 2003-01-24 Mitsubishi Electric Corp 音声中継伝送システム
JP2004094132A (ja) * 2002-09-03 2004-03-25 Sony Corp データレート変換方法及びデータレート変換装置

Also Published As

Publication number Publication date
US8670988B2 (en) 2014-03-11
ES2634511T3 (es) 2017-09-28
WO2006008932A1 (ja) 2006-01-26
EP1768106A4 (en) 2008-09-03
EP1768106B1 (en) 2017-05-03
EP1768106B8 (en) 2017-07-19
EP1768106A1 (en) 2007-03-28
EP3276619A1 (en) 2018-01-31
CN1989549B (zh) 2011-05-18
EP3276619B1 (en) 2021-05-05
CN1989549A (zh) 2007-06-27
US20070299660A1 (en) 2007-12-27

Similar Documents

Publication Publication Date Title
JP4871894B2 (ja) 符号化装置、復号装置、符号化方法および復号方法
JP4708446B2 (ja) 符号化装置、復号装置およびそれらの方法
JP5058152B2 (ja) 符号化装置および符号化方法
JP5143193B2 (ja) スペクトル包絡情報量子化装置、スペクトル包絡情報復号装置、スペクトル包絡情報量子化方法及びスペクトル包絡情報復号方法
KR101366124B1 (ko) 오디오 인코딩/디코딩에서의 인지 가중 장치
JPWO2009057327A1 (ja) 符号化装置および復号装置
JP5236040B2 (ja) 符号化装置、復号装置、符号化方法および復号方法
JPWO2006008932A1 (ja) 音声符号化装置および音声符号化方法
JPWO2007132750A1 (ja) Lspベクトル量子化装置、lspベクトル逆量子化装置、およびこれらの方法
JPWO2007114290A1 (ja) ベクトル量子化装置、ベクトル逆量子化装置、ベクトル量子化方法及びベクトル逆量子化方法
JP4937746B2 (ja) 音声符号化装置および音声符号化方法
JP4948401B2 (ja) スケーラブル符号化装置およびスケーラブル符号化方法
JPWO2011045926A1 (ja) 符号化装置、復号装置およびこれらの方法
JP5236033B2 (ja) 音声符号化装置、音声復号装置およびそれらの方法
RU2459283C2 (ru) Кодирующее устройство, декодирующее устройство и способ
JP6001451B2 (ja) 符号化装置及び符号化方法
JP2006072269A (ja) 音声符号化装置、通信端末装置、基地局装置および音声符号化方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080627

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110517

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110706

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120131

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120328

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20121023

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130122

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20130130

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20130405