JPWO2006009075A1 - 音声符号化装置および音声符号化方法 - Google Patents

音声符号化装置および音声符号化方法 Download PDF

Info

Publication number
JPWO2006009075A1
JPWO2006009075A1 JP2006529150A JP2006529150A JPWO2006009075A1 JP WO2006009075 A1 JPWO2006009075 A1 JP WO2006009075A1 JP 2006529150 A JP2006529150 A JP 2006529150A JP 2006529150 A JP2006529150 A JP 2006529150A JP WO2006009075 A1 JPWO2006009075 A1 JP WO2006009075A1
Authority
JP
Japan
Prior art keywords
encoding
unit
code
speech
additional information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2006529150A
Other languages
English (en)
Other versions
JP4937746B2 (ja
Inventor
押切 正浩
正浩 押切
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp
Panasonic Holdings Corp
Original Assignee
Panasonic Corp
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Corp, Matsushita Electric Industrial Co Ltd filed Critical Panasonic Corp
Priority to JP2006529150A priority Critical patent/JP4937746B2/ja
Publication of JPWO2006009075A1 publication Critical patent/JPWO2006009075A1/ja
Application granted granted Critical
Publication of JP4937746B2 publication Critical patent/JP4937746B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/018Audio watermarking, i.e. embedding inaudible data in the audio signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Electrophonic Musical Instruments (AREA)
  • Reduction Or Emphasis Of Bandwidth Of Signals (AREA)

Abstract

音声符号化に、ステガノグラフィ技術と予測符号化とを組み合わせて適用しても、復号信号の品質劣化を生じさせないことができる音声符号化装置を開示する。この装置おいて、符号化部(102)は、符号化コードIをビット埋め込み部(104)に出力する。機能拡張符号化部(103)は、音声符号化装置(100)の機能拡張に必要な情報の符号化コードJを生成し、ビット埋め込み部(104)に出力する。ビット埋め込み部(104)は、符号化コードIの一部のビットに符号化コードJの情報を埋め込み、得られる符号化コードI’を出力する。同期情報生成部(106)は、ビットが埋め込まれた後の符号化コードI’に基づいて同期情報を生成し、符号化部(102)に出力する。符号化部(102)は、この同期情報に基づいて内部状態等を更新し、次のディジタル音声信号Xの符号化を行う。

Description

本発明は、音声符号化装置および音声符号化方法に関する。
音声信号またはオーディオ信号を低ビットレートで圧縮する音声符号化技術は、通信システムにおいて伝送路容量の有効利用のために重要である。音声符号化技術の主要な応用先として、近年、VoIP(Voice over IP)ネットワーク、携帯電話網等に代表される通信システムが注目されている。VoIPとは、IP(Internet Protocol)によるパケット通信網を利用し、パケットに音声信号の符号化コードを格納し、通信相手とパケットの交換を行う音声通信技術である。
ところで、音声通信システムにおいて通信相手と音声通信を成立させるためには、通信相手が所持する通信端末装置が生成した符号化コードを、自分が所有する通信端末装置が正確に解釈して復号化処理を施すことができる必要がある。そのため、音声通信システムのコーデックの仕様が一旦決められた後は、この仕様を変更するのは容易ではない。仮にコーデックの仕様を変更しようとすれば、符号化装置および復号化装置の双方の機能を変更しなければならないからである。よって、符号化装置に新たに何らかの拡張機能を持たせ、その拡張機能に関する情報も併せて送信するようなことを考えた場合、音声通信システムのコーデックの仕様自体も修正する必要があり、多大なコスト増を生む。
特許文献1または非特許文献1には、付加情報をステガノグラフィ技術を利用して符号化コードに埋め込む音声符号化方法が開示されている。例えば、人間の聴覚的には、符号化コードの最下位ビットが多少変更されていても全く違いがわからない。そこで、送信装置において新たな情報を付加するために、聴覚的には問題を生じない音声データの最下位ビットに付加情報を表すビットを埋め込んで、このデータを伝送する。この技術によれば、符号化装置に何らかの拡張機能を持たせ、その拡張機能に関する情報を拡張符号にして元の符号化コードに埋め込んで伝送することとしても、復号化装置において復号化ができなくなるということが起こらない。すなわち、拡張機能に対応した復号化装置は勿論のこと、拡張機能に対応していない復号化装置においても、この符号化コードを解釈して復号信号を生成することが可能である。
例えば、上記の特許文献1では、上記の拡張機能に関する情報として、パケットロス等での音質劣化を抑える補償技術を適用するための情報を埋め込んでおり、また、上記の非特許文献1では、狭帯域信号を広帯域信号へ拡張するための情報を埋め込んでいる。
特開2003−316670号公報 青木著「ステガノグラフィを用いたVoIPにおける音声の広帯域化に関する一検討」信学技報SP2003−72,pp.49−52
一般的に、音声信号のように時間的に相関のある信号を量子化する場合、符号化対象のサンプルの振幅値を過去のサンプルの振幅値から予測して、時間的な冗長性を除去してから符号化する予測符号化を使用した方が低ビットレート化を実現できる。ここで予測とは、具体的には、過去のサンプルの振幅値に特定の係数を乗じて符号化対象のサンプルの振幅値を推定することである。そして、符号化対象のサンプルの振幅値から予測値を減じた残差を量子化すれば、符号化対象のサンプルの振幅値を直接量子化するよりも少ない符号量で符号化することができ、低ビットレート化が可能となる。過去のサンプルの振幅値に乗じる係数として、例えば、LPC(Linear Predictive Coding)係数がある。
しかしながら、例えば、上記の特許文献1または非特許文献1のいずれにおいても、使用しているコーデックはITU−T勧告のG.711方式である。このG.711方式は、サンプルの振幅値を直接量子化する符号化方式であり、上記の予測符号化を行っていない。そこで、ステガノグラフィ技術と予測符号化とを組み合わせることを考えると、以下のような問題が発生する。
音声符号化装置において、予測符号化は符号化処理の一環であるため、符号化部内部において行われる。そして、符号化部から生成される符号化コードに対し、拡張符号が埋め込まれ、音声符号化装置から出力される。一方、音声復号化装置においては、拡張符号が既に埋め込まれた符号化コードに対し、予測符号化が行われ、音声信号が復号化される。すなわち、予測符号化の対象が、音声符号化装置においては拡張符号が埋め込まれる前のものであるのに対し、音声復号化装置においては拡張符号化が埋め込まれた後のものである。よって、音声符号化装置内の予測部の内部状態と音声復号化装置内の予測部の内部状態とが乖離するようになり、復号信号に品質劣化が生じる。これは、ステガノグラフィ技術と予測符号化とを組み合わせる場合に発生する特有の問題である。
よって、本発明の目的は、音声符号化にステガノグラフィ技術と予測符号化とを組み合わせて適用しても、復号信号の品質劣化を生じさせない音声符号化装置および音声符号化方法を提供することである。
本発明の音声符号化装置は、予測符号化によって音声信号から符号を生成する符号化手段と、前記符号に付加情報を埋め込む埋込手段と、前記付加情報が埋め込まれた符号を用いて、前記符号化手段の予測符号化に対応する復号化を行う予測復号化手段と、前記符号化手段の予測符号化で使用されるパラメータを、前記予測復号化手段の復号化で使用されるパラメータに同期させる同期手段と、を具備する構成を採る。
本発明によれば、音声符号化にステガノグラフィ技術と予測符号化とを組み合わせて適用しても、復号信号の品質劣化を防止することができる。
実施の形態1に係るパケット送信装置の主要な構成を示すブロック図 実施の形態1に係る符号化部内部の主要な構成を表すブロック図 実施の形態1に係るビット埋め込み部内部の主要な構成を表すブロック図 実施の形態1に係るビット埋め込み部から入出力される信号のビット構成の一例を表す図 実施の形態1に係る同期情報生成部内部の主要な構成を表すブロック図 実施の形態1に係る音声復号化装置の構成例を表すブロック図 実施の形態1に係る音声復号化装置の構成例を表すブロック図 実施の形態2に係る符号化部の主要な構成を示すブロック図 実施の形態2に係る同期情報生成部内部の主要な構成を示すブロック図 実施の形態3に係る音声符号化装置の主要な構成を示すブロック図 実施の形態3に係る再符号化部内部の主要な構成を示すブロック図 実施の形態3に係る量子化部の再決定処理の概要を説明するための図 CELP方式を用いた場合の実施の形態3に係る再符号化部の構成を示すブロック図 実施の形態3に係る音声符号化装置のバリエーションの構成を示すブロック図
以下、本発明の実施の形態について、添付図面を参照して詳細に説明する。
(実施の形態1)
図1は、本発明の実施の形態1に係る音声符号化装置100を搭載したパケット送信装置の主要な構成を示すブロック図である。
本実施の形態では、音声符号化装置100がADPCM(Adaptive Differential Pulse Code Modulation)方式による音声符号化を行う場合を例にとって説明する。ADPCM方式は、予測部および適応部において後方予測による適応化を図ることにより符号化効率を上げる。例えば、ITU−T標準規格であるG.726方式は、ADPCM方式をベースにした音声符号化方法であるが、狭帯域信号を16〜40kbit/sで符号化することができ、予測を用いないG.711よりも低ビットレート化を実現する。また、G.722方式も同様に、ADPCM方式をベースにした符号化方式であり、広帯域信号を48〜64kbit/sのビットレートで符号化できる。
本実施の形態に係るパケット送信装置は、A/D変換部101、符号化部102、機能拡張符号化部103、ビット埋め込み部104、パケット化部105、および同期情報生成部106を備え、各部は以下の動作を行う。
A/D変換部101は、入力音声信号をディジタル化し、ディジタル音声信号Xを符号化部102および機能拡張符号化部103に出力する。符号化部102は、ディジタル音声信号Xと復号化装置で生成される復号信号との間の量子化歪が最小となるような、または人間の聴感的に歪が知覚されにくくなるような符号化コードIを決定し、ビット埋め込み部104に出力する。
一方、機能拡張符号化部103は、音声符号化装置100の機能拡張に必要な情報の符号化コードJを生成し、ビット埋め込み部104に出力する。機能拡張としては、例えば、周波数帯域を狭帯域(0.3〜3.4kHz帯域、すなわち一般的な電話回線で使用されている信号帯域)から広帯域(0.05〜7kHz帯域、この帯域を使用することにより狭帯域の場合よりも自然で明瞭性が高くなる)に拡張したり、復号化装置において現パケットを損失(ロスト)しても次パケットを利用することにより誤り補償を行って品質劣化が最小限に抑えられるような補償情報の生成を行う。
ビット埋め込み部104は、符号化部102から得られる符号化コードIの一部のビットに、機能拡張符号化部103から得られる符号化コードJの情報を埋め込み、その結果得られる符号化コードI’をパケット化部105に出力する。パケット化部105は、符号化コードI’をパケット化し、例えば、VoIPであればパケットをIPネットワークを介して通信相手に送信する。同期情報生成部106は、ビットが埋め込まれた後の符号化コードI’に基づいて後述の同期情報を生成し、符号化部102に出力する。符号化部102は、この同期情報に基づいて内部状態等を更新し、次のディジタル音声信号Xの符号化を行う。
なお、IとI’のビットレートは同じである。仮に、符号化部102がG.726方式を採用しており、符号化コードIのLSB(Least Significant Bit;最下位ビット)に拡張符号Jを埋め込むとすると、ビットレート8kbit/sで拡張符号Jを埋め込むことができる。
本実施の形態に係る音声符号化処理の手順を整理すると次のようになる。
まず、同期情報生成部106から、予測部132の内部状態、予測部132で使用される予測係数、および適応部133で用いられる1サンプル前の量子化符号が符号化部102に与えられる。次に、符号化部102にて符号化処理が行われ、機能拡張符号化部103にて拡張機能に関する情報の符号化が行われる。次に、ビット埋め込み部104にて符号化コードI’が生成され、これが出力されるとともに同期情報生成部106に与えられる。同期情報生成部106は、符号化コードI’を用いて、予測部132の内部状態、予測部132で使用される予測係数、および適応部133で用いられる1サンプル前の量子化符号の更新を行い、その結果を符号化部102に与え、符号化部102は次の入力ディジタル信号Xに備える。
図2は、符号化部102内部の主要な構成を表すブロック図である。
更新部111には、図1に示した同期情報生成部106から同期情報が与えられる。更新部111は、この同期情報に基づき、予測部115で使用される予測係数、予測部115の内部状態、および適応部113で用いられる1サンプル前の量子化符号を更新する。符号化部102の以降の処理は、更新された適応部113および予測部115を用いて行われる。
符号化部102には、ディジタル音声信号Xが与えられ、減算部116に入力される。減算部116は、ディジタル音声信号Xから予測部115の出力を減算し、その誤差信号を量子化部112に与える。量子化部112は、適応部113にて1サンプル前の量子化符号を用いて決定された量子化ステップサイズにて誤差信号を量子化し、その符号化コードIを出力すると共に、適応部113および逆量子化部114に与える。逆量子化部114は、適応部113から与えられる量子化ステップサイズに従い、量子化後の誤差信号を復号し、その信号を予測部115に与える。適応部113は、1サンプル前の量子化符号が表す誤差信号の振幅値に基づき、振幅値が大きい場合には量子化ステップ幅を拡大し、振幅値が小さい場合には量子化ステップ幅を縮小する。予測部115は、量子化後の誤差信号ならびに入力信号の予測値を用いて次の式(1)に従い、予測を行う。
Figure 2006009075
ここで、y(n)は第nサンプルの入力信号の予測値、u(n)は第nサンプルの量子化後の誤差信号、a(i)はAR予測係数、b(i)はMA予測係数、L、MはそれぞれAR予測次数、MA予測次数を表す。そして、a(i)およびb(i)は、後方予測による適応化により逐次更新される。
図3は、ビット埋め込み部104内部の主要な構成を表すブロック図である。
ビットマスク部121は、入力される符号化コードIの予め定められたビット位置をマスクして、その位置のビットの値を常に0にする。埋め込み部122は、マスクされた符号化コードのそのビット位置に拡張符号Jの情報を埋め込んで、その位置のビットの値を拡張符号Jで置き換え、埋め込み後の符号化コードI’を出力する。
図4は、ビット埋め込み部104から入出力される信号のビット構成の一例を表す図である。なお、MSBは、Most Significant Bit(最上位ビット)の略である。
ここでは、4ビットの符号化コード(4ワード)Iに対して4ビットの拡張符号Jを埋め込み、符号化コードI’として出力する場合を例にとって説明する。なお、拡張符号を埋め込むビット位置はLSBである。符号化コードIは、ビットマスク部121において「Itmp=I&(0xE)」と処理がなされ、Itmpとなる。このItmpは、埋め込み部122において「I’=Itmp|J」と処理がなされ、符号化コードI’となる。なお、これらの処理において「&」は論理積、「|」は論理和を表す。この例では、8kHzサンプリングデータの処理の場合、ビットレートが32kbit/sとなり、ビットレート8kbit/sだけの付加情報を埋め込むことが可能となる。
なお、ここでは、1サンプル当り4ビットで符号化し、LSBに拡張符号を埋め込む場合を例にとって説明したが、これに限定されるわけではない。例えば、1サンプルおきに拡張符号を埋め込めば、ビットレート4kbit/sの付加情報を埋め込むことができる。また、下位2ビットに拡張符号を埋め込むようにすれば、付加情報用ビットレートは16kbit/sとなる。このように、付加情報のビットレートを比較的自由度高く設定することができる。また、入力される音声信号の性質に応じて、適応的に埋め込むビット数を変化させることも可能である。かかる場合、何ビットを埋め込んだかという情報を別途復号化装置に通知する。
図5は、同期情報生成部106内部の主要な構成を表すブロック図である。同期情報生成部106は、ビット埋め込み部104の出力である符号化コードI’を使って復号化処理を次のように行う。
まず、適応部133から与えられる量子化ステップ情報を使い、逆量子化部131では量子化後の残差信号を復号し、それを予測部132に与える。予測部132では、上記の式(1)に従い、量子化後の残差信号および予測部132の前回の処理において出力された信号を用いて、式(1)に表される内部状態および予測係数を更新する。適応部133は、誤差信号の振幅値に基づき、振幅値が大きい場合には量子化ステップ幅を拡大し、振幅値が小さい場合には量子化ステップ幅を縮小する。これら一連の処理がなされた後に、抽出部134は、予測部132の内部状態、予測部132で使用される予測係数、および適応部133で用いられる1サンプル前の量子化符号を抽出して同期情報として出力する。
同期情報生成部106の基本的な動作は、音声復号化装置内に存在する復号化部、すなわち、符号化部102に対応する復号化部の処理を、符号化コードI’を用いて音声符号化装置100内で擬似的に行い、その結果得られる予測符号化に関するパラメータ(予測部132で使用される予測係数、予測部132の内部状態、および適応部133で用いられる1サンプル前の量子化符号)を符号化部102における予測符号化(適応部113および予測部115の処理)に反映させることである。すなわち、符号化部102内の適応部113および予測部115には、符号化コードI’に基づいて生成される予測符号化に関するパラメータが同期情報として同期情報生成部106から通知されるため、音声復号化装置内の予測部で使用される予測係数、この予測部の内部状態、および音声復号化装置内の適応部で用いられる1サンプル前の量子化符号を、符号化部102内の予測部115で使用される予測係数、予測部115の内部状態、および適応部113で用いられる1サンプル前の量子化符号に同期(一致)させることができる。換言すると、音声符号化装置100とこれに対応する音声復号化装置の双方において、同一の符号化コードI’に基づいて予測符号化に関するパラメータが求められる。このような構成を採ることにより、音声復号化装置で得られる復号信号の音質劣化を避けることができる。
このように、本実施の形態によれば、拡張符号のビットを埋め込んだ後の符号を使って符号化部内の予測部で使用される予測符号化に関するパラメータを更新するため、音声符号装置内の予測部で使用されるパラメータと音声復号装置内の予測部で使用されるパラメータとを同期させることができ、復号信号の音質劣化を防止することができる。
また、以上の構成において、ADPCM方式を用いた符号化方法の場合、ビット埋め込み部104は、符号化コードのLSBに付加情報の一部もしくはすべてを埋め込む。
なお、本実施の形態では、音声符号化装置100がパケット送信装置に搭載される場合を例にとって説明したが、音声符号化装置100は非パケット通信型の携帯電話機に搭載されても良い。かかる場合、パケット通信の代わりに回線交換型の通信ネットワークを用いるため、パケット化部105の代わりに多重化部が設置される。
また、音声符号化装置100に対応する音声復号化装置、すなわち、音声符号化装置100から出力される符号化パケットを復号化する音声復号化装置は、機能拡張に対応している必要はない。
また、符号化コード以外の、例えば通信システムの制御情報を通信している場合(シグナリング時)には、付加情報を埋め込む位置または埋め込む量を通信相手である通信端末装置に伝える機能をさらに備えることにより、以下の効果が得られる。
例えば、音声符号化装置において、通信相手の通信端末装置の置かれている状況(伝送誤りを受けやすい/受け難い)を判断して、埋め込み位置をシグナリング時に決定しても良い。これにより、伝送誤り耐性を改善できる。
また、例えば、自端末で拡張機能の符号化コードの大きさを設定しても良い。これにより、自端末の使用者が付加機能の程度を選択できる。例えば、拡張帯域の帯域幅を7kHz、10kHz、15kHzのいずれかから選択できる。
図6Aおよび図6Bは、音声符号化装置100に対応する音声復号化装置の構成例を表すブロック図である。図6Aは、機能拡張に対応していない音声復号化装置150の例、図6Bは、機能拡張に対応している音声復号化装置160の例を表している。なお、同一の構成要素には同一の符号を付している。
音声復号化装置150において、パケット分離部151は、受け取ったパケットから符号化コードI’を分離する。復号化部152は、この符号化コードI’の復号化処理を行う。D/A変換部153は、その結果得られる復号信号X’をアナログ信号に変換し、復号音声信号を出力する。一方、音声復号化装置160では、ビット抽出部161がパケット分離部151から出力された符号化コードI’から拡張符号のビットJを抽出する。機能拡張復号化部162は、抽出されたビットJを復号化して拡張機能に関する情報を得て、復号化部163に出力する。復号化部163は、機能拡張復号化部162から出力された情報に基づいて拡張機能を使用しつつ、ビット抽出部161から出力される符号化コードI’(パケット分離部151から出力される符号化コードと同一)を復号化する。このように、復号化部152、163に入力される符号化コードは双方ともI’であり、双方の違いは、符号化コードI’を拡張機能を使用して復号化するか拡張機能を使用せずに符号化するかという点である。このとき、音声復号化装置160で得られる音声信号も音声復号化装置150で得られる音声信号も共に、LSBの情報において伝送路誤りが生じたような状態となっている。よって、このLSBの受信誤りによって復号信号に音質劣化を生じさせるが、その音質劣化の程度は小さい。
(実施の形態2)
本発明の実施の形態2に係る音声符号化装置は、CELP方式による音声符号化を行う。CELPの代表例として、G.729やAMR、AMR−WB等がある。なお、この音声符号化装置は、実施の形態1に示した音声符号化装置100と同様の基本的構成を有しているので、同一の部分の説明は省略する。
図7は、本実施の形態に係る音声符号化装置内部の符号化部201の主要な構成を示すブロック図である。
更新部211には、適応符号帳219および聴感重み付き合成フィルタ215の内部状態に関する情報が与えられる。更新部211は、この情報に基づいて、適応符号帳219および聴感重み付き合成フィルタ215の内部状態を更新する。
符号化部201に入力された音声信号は、LPC分析部212にてLPC係数が求められる。このLPC係数は、聴感的な品質向上のために利用され、聴感重みフィルタ216と聴感重み付き合成フィルタ215とに与えられる。また、LPC係数は、同時にLPC量子化部213にも与えられ、LPC量子化部213は、LPC係数をLSP係数などの量子化に適したパラメータに変換し、量子化を行う。この量子化で得られるインデックスが多重化部225に与えられ、かつLPC復号部214に与えられる。LPC復号部214は、符号化コードから量子化後のLSP係数を算出し、LPC係数に変換する。これにより、量子化後のLPC係数が求められる。この量子化後のLPC係数は聴感重み付き合成フィルタ215に与えられ、適応符号帳219および雑音符号帳220で利用される。
聴感重みフィルタ216は、LPC分析部212で求められたLPC係数に基づいて入力音声信号に重み付けを行う。これは、量子化歪のスペクトルを入力信号のスペクトル包絡にマスクされるようスペクトル整形を行うことを目的として行われる。
次に、適応ベクトル、適応ベクトルゲイン、雑音ベクトル、雑音ベクトルゲインの探索方法について説明する。
適応符号帳219は、過去に生成した駆動音源信号を内部状態として保持しており、この内部状態を所望のピッチ周期で繰り返すことにより適応ベクトルを生成する。ピッチ周期の取る範囲は60Hz〜400Hzの間が適当である。また、雑音符号帳220は、あらかじめ記憶領域に格納されている雑音ベクトル、もしくは代数(algebraic)構造のように記憶領域を持たずにルールに従い生成されるベクトルを雑音ベクトルとして出力する。ゲイン符号帳223から、適応ベクトルに乗じられる適応ベクトルゲインと、雑音ベクトルに乗じられる雑音ベクトルゲインとが出力され、乗算器221、222においてそれぞれのゲインがそれぞれのベクトルに乗じられる。
加算器224は、適応ベクトルゲインが乗じられた適応ベクトルと雑音ベクトルゲインが乗じられた雑音ベクトルとを加算し、駆動音源信号を生成し、聴感重み付き合成フィルタ215に与える。聴感重み付き合成フィルタ215は、駆動音源信号を通過させて聴覚重み付き合成信号を生成し、減算器217に与える。減算器217は、聴覚重み付き入力信号から聴覚重み付き合成信号を減算し、探索部218に減算後の信号を与える。探索部218は、減算後の信号から定義される歪が最小となる適応ベクトル、適応ベクトルゲイン、雑音ベクトル、雑音ベクトルゲインの組み合わせを効率よく探索し、それら符号化コードを多重化部225に送る。
探索部218は、次の式(2)または式(3)で定義される歪を最小とするインデックスi、j、m、もしくはインデックスi、j、m、nを決定して、それらを多重化部225に送る。
Figure 2006009075
Figure 2006009075
ここで、t(k)は聴覚重み付き入力信号、p(k)は第i番目の適応ベクトルに聴覚重み付き合成フィルタを通して得られる信号、e(k)は第j番目の雑音ベクトルに聴覚重み付き合成フィルタを通して得られる信号、βとγはそれぞれ適応ベクトルゲインと雑音ベクトルゲインを表す。式(2)と式(3)とではゲイン符号帳の構成が異なり、式(2)の場合、ゲイン符号帳は適応ベクトルゲインβと雑音ベクトルゲインγを要素として持つベクトルとして表されており、ベクトルを特定するためのインデックスmが決定されることになる。式(3)の場合、ゲイン符号帳は適応ベクトルゲインβと雑音ベクトルゲインγをそれぞれ独立に有しており、それぞれのインデックスm、nが独立に決定されることになる。
多重化部225は、全てのインデックスが決定された後に、インデックスを一つに多重化して符号化コードを生成し、出力する。
図8は、本実施の形態に係る同期情報生成部206内部の主要な構成を示すブロック図である。
同期情報生成部206の基本的な動作は、実施の形態1で示した同期情報生成部106と同様である。すなわち、音声復号化装置内に存在する復号化部の処理を、符号化コードI’を用いて音声符号化装置内で擬似的に行い、その結果得られる適応符号帳および(聴感重み付き)合成フィルタの内部状態を符号化部201内の適応符号帳219および聴感重み付き合成フィルタ215に反映させることである。これにより、復号信号の品質劣化を防止することが可能となる。
分離部231は、入力される符号化コードI’から符号化コードを分離し、適応符号帳233、雑音符号帳234、ゲイン符号帳235、およびLPC復号部232にそれぞれ与える。LPC復号部232は、与えられる符号化コードを用いてLPC係数を復号し、合成フィルタ239に与える。
適応符号帳233、雑音符号帳234、およびゲイン符号帳235は、符号化コードを利用してそれぞれ適応ベクトルq(k)、雑音ベクトルc(k)、適応ベクトルゲインβ、および雑音ベクトルゲインγをそれぞれ復号化する。乗算器236は適応ベクトルと適応ベクトルゲインとを乗じ、乗算器237は雑音ベクトルと雑音ベクトルゲインとを乗じ、加算器238はそれぞれの乗算後の信号を加算して駆動音源信号を生成する。駆動音源信号をex(k)と表すと、駆動音源信号ex(k)は次の式(4)のように求められる。
Figure 2006009075
次に、復号されたLPC係数と駆動音源信号ex(k)とを用いて合成フィルタ239にて合成信号syn(k)を次の式(5)に従い生成する。
Figure 2006009075
ここで、α(i)は復号されたLPC係数、NPはLPC係数の次数を表す。次に、駆動音源信号ex(k)を用いて適応符号帳233の内部状態を更新する。
これら一連の処理がなされた後に、抽出部240は、適応符号帳233および合成フィルタ239の内部状態を抽出し、出力する。
このように、本実施の形態によれば、CELP方式による音声符号化を行う場合に、付加情報の一部もしくは全てをCELPの励振音源を表す符号に埋め込む。これにより、実施の形態1と同様の効果を得ることができる。
なお、ここでは適応符号帳219と聴感重み付き合成フィルタ215の内部状態を用いる場合について説明したが、その他の処理、例えば、LPC復号、雑音符号帳、ゲイン符号帳等についても予測を利用する場合には、それらの予測に利用される内部状態、予測係数についても同様に処理を行う。
(実施の形態3)
図9は、本発明の実施の形態3に係る音声符号化装置300の主要な構成を示すブロック図である。なお、この音声符号化装置300は、実施の形態1に示した音声符号化装置100と同様の基本的構成を有しており、同一の構成要素には同一の符号を付し、その説明を省略する。ここでは、ADPCM方式による音声符号化を行う場合を例にとって説明する。
本実施の形態の特徴は、ビット埋め込み部104から与えられる符号化コードI’のうち、機能拡張符号化部103の拡張符号Jに相当する情報はそのままで保持し、その情報を変更しないという制限を設定し、この制限の下、再符号化部301にて符号化コードI’に対し再度符号化処理を行い、最終的な符号化コードI”を決定することである。
再符号化部301には、入力ディジタル信号Xと、ビット埋め込み部104の出力である符号化コードI’とが与えられる。再符号化部301は、ビット埋め込み部104から与えられる符号化コードI’を再符号化する。ただし、符号化コードI’のうち拡張符号Jに相当する情報については変更が加わらないように符号化対象から外す。そして、得られた最終的な符号化コードI”を出力する。これにより、機能拡張符号化部103の符号化コードJの情報を保持しつつ、最適な符号化コードを生成することが可能となる。さらに、このときの予測部で使用される予測係数、予測部の内部状態、および適応部で用いられる1サンプル前の量子化符号を符号化部102に与えることにより、符号化コードI”にて復号処理を行う音声復号化装置(図示せず)の予測部で使用される予測係数、予測部の内部状態、および適応部で用いられる1サンプル前の量子化符号と同期がとれるようになり、復号信号の音質劣化を防止することができる。
図10は、上記の再符号化部301内部の主要な構成を示すブロック図である。なお、量子化部311および内部状態抽出部312を除き、実施の形態1で示した符号化部102(図2参照)と同様の構成を有しているので、これらの説明は省略する。
量子化部311には、ビット埋め込み部104で生成される符号化コードI’が与えられる。量子化部311は、符号化コードI’のうち、埋め込まれた機能拡張符号化部103の符号化コードJの情報はそのままに、それ以外の符号化コードを再決定する。
図11は、量子化部311の再決定処理の概要を説明するための図である。ここでは、機能拡張符号化部103の符号化コードJは{0,1,1,0}であり、符号化コードは4ビット、そのLSBに符号化コードJが埋め込まれている場合を例にとって説明する。
かかる場合、量子化部311は、LSBが符号化コードJで固定されている状態で、目標の残差信号に対して最も歪が小さくなる量子化値の符号化コードを再決定することになる。よって、機能拡張符号化部103の符号化コードJが0の場合、量子化部311が採ることの可能な量子化値の符号化コードは、0x0,0x2,0x4,0x6,0x8,0xA,0xC,0xDの8種類である。また、J=1の場合には、量子化部311が採ることの可能な量子化値の符号化コードは、0x1,0x3,0x5,0x7,0x9,0xB,0xD,0xFの8種類となる。
このようにして再決定した符号化コードI”を出力すると共に、予測部115の内部状態、予測部115で使用される予測係数、および適応部113で用いる1サンプル前の量子化符号を内部状態抽出部312を介して、出力する。これらの情報は符号化部102に与えられ、次の入力Xに備える。
本実施の形態に係る符号化処理の手順を整理すると次のようになる。
まず符号化部102にて符号化処理が行われ、次にビット埋め込み部104で符号化部102より得られる符号化コードIに機能拡張符号化部103より与えられる符号化コードJを埋め込み、符号化コードI’を生成する。この符号化コードI’を再符号化部301に与える。再符号化部301では、符号化コードJを保持するという制限の基に符号化コードを再決定し、符号化コードI”を生成する。最後に符号化コードI”を出力するとともに、再符号化部301内の予測部で使用される予測係数、この予測部の内部状態、および再符号化部301内の適応部で用いられる1サンプル前の量子化符号を符号化部102に与え、次の入力Xに備える。
このように、本実施の形態によれば、符号化部の予測部で使用されるパラメータと、復号化部の予測部で使用されるパラメータとの間の同期がとれ、音質劣化の発生を防止することができる。さらに、ビット埋め込み情報による制限の基で最適な符号化パラメータを再決定するため、ビット埋め込みによる劣化を最小限に抑えることができる。
なお、本実施の形態では、ADPCM方式による音声符号化を行う場合を例にとって説明したが、CELP方式であっても良い。
図12は、CELP方式を用いた場合の再符号化部301の構成を示すブロック図である。なお、雑音符号帳321および内部状態抽出部322を除き、実施の形態2で示した符号化部201(図7参照)と同様の構成を有するので、これらについては説明を省略する。
雑音符号帳321にはビット埋め込み部104で生成される符号化コードI’が与えられる。雑音符号帳321は、符号化コードI’のうち、埋め込まれた符号化コードJの情報はそのままに、それ以外の符号化コードを再決定する。仮に、雑音符号帳321のインデックスが8ビットで表され、そのLSBに拡張機能符号化部102の情報{0}が埋め込まれている場合には、雑音符号帳321の探索は、インデックスが偶数で表される候補{2n;n=0〜127}の中で行われる。雑音符号帳321は、その中で最も歪を小さくする候補を探索によって決定し、そのインデックスを出力する。同様に、雑音符号帳321のインデックスが8ビットで表され、そのLSBに拡張機能符号化部102の情報{1}が埋め込まれている場合には、雑音符号帳321の探索は、インデックスが奇数で表される候補{2n+1;n=0〜127}の中で行われる。
再符号化部301は、このようにして再決定した符号化コードI”を出力すると共に、適応符号帳219、聴感重みフィルタ216、および聴感重み付き合成フィルタ215の内部状態を、内部状態抽出部322を介して出力する。これらの情報は符号化部102に与えられる。
上記の説明は、雑音符号帳321のインデックスの一部に拡張機能の情報を埋め込む場合の説明である。このとき、再符号化部301は、LPC係数の算出および符号化、適応符号帳の探索は行う必要は無い。その理由は、再符号化が必要なのは雑音符号帳についてであり、その前段で処理される部分は符号化部102での結果と変わらない。よって、符号化部102で求めた結果をそのまま利用すればよいためである。
また、ここでは、雑音ベクトルのインデックスの一部に拡張機能の情報を埋め込む場合について説明しているが、これに限定されることは無く、例えばLPC係数、適応符号帳、ゲイン符号帳のインデックスに拡張機能の情報を埋め込むことも可能である。その場合の動作原理は、上記の雑音符号帳321に対する説明と同じで、拡張機能の情報は保持するという制限の下、歪が最も小さくなるときのインデックスを再決定する点が特徴となる。
なお、ここでは適応符号帳219と聴感重み付き合成フィルタ215の内部状態を用いる場合について説明したが、その他の処理、例えば、LPC復号、雑音符号帳、ゲイン符号帳等についても予測を利用する場合には、それらの予測に利用される内部状態、予測係数についても同様に処理を行う。
図13は、音声符号化装置300のバリエーションの構成を示すブロック図である。
図9に示した音声符号化装置300は、符号化部102の処理結果に依存して機能拡張符号化部103の処理結果が変わる構成となっていた。ここでは、符号化部102の処理結果とは独立に機能拡張符号化部103の処理が行える構成とする。
上記の構成は、例えば、入力音声信号を2つの帯域(例えば、0−4kHzと4−8kHz)に帯域分割し、符号化部102では0−4kHz帯域、機能拡張部符号部103では4−8kHz帯域を独立に符号化するような場合に適用できる。この場合、機能拡張符号化部103の符号化処理は、符号化部102の処理結果に依存せずに実施することが可能である。
符号化処理の手順を説明すると、まず機能拡張符号化部103にて符号化処理を行い、拡張符号Jを生成する。この拡張符号Jを符号化処理制限部331に与える。符号化部102には、拡張符号Jを埋め込むことを前提として、この符号Jに関し情報を変更しないという制限情報が符号化処理制限部331から与えられる。よって、符号化部102は、この制限の下で符号化処理を行い、最終的な符号化コードI’を決定する。この構成によれば、再符号化部301が必要なくなり、少ない演算量で実施の形態3に係る音声符号化を実現できる。
以上、本発明の各実施の形態について説明した。
本発明に係る音声符号化装置は、上記の実施の形態1〜3に限定されず、種々変更して実施することが可能である。
本発明に係る音声符号化装置は、移動体通信システムにおける通信端末装置および基地局装置に搭載することも可能であり、これにより上記と同様の作用効果を有する通信端末装置および基地局装置を提供することができる。
なお、ここでは、本発明をハードウェアで構成する場合を例にとって説明したが、本発明はソフトウェアで実現することも可能である。例えば、本発明に係る音声符号化方法のアルゴリズムをプログラミング言語によって記述し、このプログラムをメモリに記憶しておいて情報処理手段によって実行させることにより、本発明に係る音声符号化装置と同様の機能を実現することができる。
また、上記各実施の形態の説明に用いた各機能ブロックは、典型的には集積回路であるLSIとして実現される。これらは個別に1チップ化されても良いし、一部または全てを含むように1チップ化されても良い。
また、ここではLSIとしたが、集積度の違いによって、IC、システムLSI、スーパーLSI、ウルトラLSI等と呼称されることもある。
また、集積回路化の手法はLSIに限るものではなく、専用回路または汎用プロセッサで実現しても良い。LSI製造後に、プログラム化することが可能なFPGA(Field Programmable Gate Array)や、LSI内部の回路セルの接続もしくは設定を再構成可能なリコンフィギュラブル・プロセッサを利用しても良い。
さらに、半導体技術の進歩または派生する別技術により、LSIに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積化を行っても良い。バイオ技術の適応等が可能性としてあり得る。
本明細書は、2004年7月20日出願の特願2004−211589に基づく。この内容はすべてここに含めておく。
本発明に係る音声符号化装置および音声符号化方法は、VoIPネットワーク、携帯電話網等の用途に適用できる。
本発明は、音声符号化装置および音声符号化方法に関する。
音声信号またはオーディオ信号を低ビットレートで圧縮する音声符号化技術は、通信システムにおいて伝送路容量の有効利用のために重要である。音声符号化技術の主要な応用先として、近年、VoIP(Voice over IP)ネットワーク、携帯電話網等に代表される通信システムが注目されている。VoIPとは、IP(Internet Protocol)によるパケット通信網を利用し、パケットに音声信号の符号化コードを格納し、通信相手とパケットの交換を行う音声通信技術である。
ところで、音声通信システムにおいて通信相手と音声通信を成立させるためには、通信相手が所持する通信端末装置が生成した符号化コードを、自分が所有する通信端末装置が正確に解釈して復号化処理を施すことができる必要がある。そのため、音声通信システムのコーデックの仕様が一旦決められた後は、この仕様を変更するのは容易ではない。仮にコーデックの仕様を変更しようとすれば、符号化装置および復号化装置の双方の機能を変更しなければならないからである。よって、符号化装置に新たに何らかの拡張機能を持たせ、その拡張機能に関する情報も併せて送信するようなことを考えた場合、音声通信システムのコーデックの仕様自体も修正する必要があり、多大なコスト増を生む。
特許文献1または非特許文献1には、付加情報をステガノグラフィ技術を利用して符号化コードに埋め込む音声符号化方法が開示されている。例えば、人間の聴覚的には、符号化コードの最下位ビットが多少変更されていても全く違いがわからない。そこで、送信装置において新たな情報を付加するために、聴覚的には問題を生じない音声データの最下位ビットに付加情報を表すビットを埋め込んで、このデータを伝送する。この技術によれば、符号化装置に何らかの拡張機能を持たせ、その拡張機能に関する情報を拡張符号にして元の符号化コードに埋め込んで伝送することとしても、復号化装置において復号化ができなくなるということが起こらない。すなわち、拡張機能に対応した復号化装置は勿論のこと、拡張機能に対応していない復号化装置においても、この符号化コードを解釈して復号信号を生成することが可能である。
例えば、上記の特許文献1では、上記の拡張機能に関する情報として、パケットロス等での音質劣化を抑える補償技術を適用するための情報を埋め込んでおり、また、上記の非特許文献1では、狭帯域信号を広帯域信号へ拡張するための情報を埋め込んでいる。
特開2003−316670号公報 青木著「ステガノグラフィを用いたVoIPにおける音声の広帯域化に関する一検討」信学技報SP2003−72,pp.49−52
一般的に、音声信号のように時間的に相関のある信号を量子化する場合、符号化対象のサンプルの振幅値を過去のサンプルの振幅値から予測して、時間的な冗長性を除去してから符号化する予測符号化を使用した方が低ビットレート化を実現できる。ここで予測とは、具体的には、過去のサンプルの振幅値に特定の係数を乗じて符号化対象のサンプルの振幅値を推定することである。そして、符号化対象のサンプルの振幅値から予測値を減じた残差を量子化すれば、符号化対象のサンプルの振幅値を直接量子化するよりも少ない符号量で符号化することができ、低ビットレート化が可能となる。過去のサンプルの振幅値に
乗じる係数として、例えば、LPC(Linear Predictive Coding)係数がある。
しかしながら、例えば、上記の特許文献1または非特許文献1のいずれにおいても、使用しているコーデックはITU―T勧告のG.711方式である。このG.711方式は、サンプルの振幅値を直接量子化する符号化方式であり、上記の予測符号化を行っていない。そこで、ステガノグラフィ技術と予測符号化とを組み合わせることを考えると、以下のような問題が発生する。
音声符号化装置において、予測符号化は符号化処理の一環であるため、符号化部内部において行われる。そして、符号化部から生成される符号化コードに対し、拡張符号が埋め込まれ、音声符号化装置から出力される。一方、音声復号化装置においては、拡張符号が既に埋め込まれた符号化コードに対し、予測符号化が行われ、音声信号が復号化される。すなわち、予測符号化の対象が、音声符号化装置においては拡張符号が埋め込まれる前のものであるのに対し、音声復号化装置においては拡張符号化が埋め込まれた後のものである。よって、音声符号化装置内の予測部の内部状態と音声復号化装置内の予測部の内部状態とが乖離するようになり、復号信号に品質劣化が生じる。これは、ステガノグラフィ技術と予測符号化とを組み合わせる場合に発生する特有の問題である。
よって、本発明の目的は、音声符号化にステガノグラフィ技術と予測符号化とを組み合わせて適用しても、復号信号の品質劣化を生じさせない音声符号化装置および音声符号化方法を提供することである。
本発明の音声符号化装置は、予測符号化によって音声信号から符号を生成する符号化手段と、前記符号に付加情報を埋め込む埋込手段と、前記付加情報が埋め込まれた符号を用いて、前記符号化手段の予測符号化に対応する復号化を行う予測復号化手段と、前記符号化手段の予測符号化で使用されるパラメータを、前記予測復号化手段の復号化で使用されるパラメータに同期させる同期手段と、を具備する構成を採る。
本発明によれば、音声符号化にステガノグラフィ技術と予測符号化とを組み合わせて適用しても、復号信号の品質劣化を防止することができる。
以下、本発明の実施の形態について、添付図面を参照して詳細に説明する。
(実施の形態1)
図1は、本発明の実施の形態1に係る音声符号化装置100を搭載したパケット送信装置の主要な構成を示すブロック図である。
本実施の形態では、音声符号化装置100がADPCM(Adaptive Differential Pulse Code Modulation)方式による音声符号化を行う場合を例にとって説明する。ADPCM方式は、予測部および適応部において後方予測による適応化を図ることにより符号化効率を上げる。例えば、ITU−T標準規格であるG.726方式は、ADPCM方式をベースにした音声符号化方法であるが、狭帯域信号を16〜40kbit/sで符号化することができ、予測を用いないG.711よりも低ビットレート化を実現する。また、G.722方式も同様に、ADPCM方式をベースにした符号化方式であり、広帯域信号を48〜64kbit/sのビットレートで符号化できる。
本実施の形態に係るパケット送信装置は、A/D変換部101、符号化部102、機能拡張符号化部103、ビット埋め込み部104、パケット化部105、および同期情報生成部106を備え、各部は以下の動作を行う。
A/D変換部101は、入力音声信号をディジタル化し、ディジタル音声信号Xを符号化部102および機能拡張符号化部103に出力する。符号化部102は、ディジタル音声信号Xと復号化装置で生成される復号信号との間の量子化歪が最小となるような、または人間の聴感的に歪が知覚されにくくなるような符号化コードIを決定し、ビット埋め込み部104に出力する。
一方、機能拡張符号化部103は、音声符号化装置100の機能拡張に必要な情報の符号化コードJを生成し、ビット埋め込み部104に出力する。機能拡張としては、例えば、周波数帯域を狭帯域(0.3〜3.4kHz帯域、すなわち一般的な電話回線で使用されている信号帯域)から広帯域(0.05〜7kHz帯域、この帯域を使用することにより狭帯域の場合よりも自然で明瞭性が高くなる)に拡張したり、復号化装置において現パケットを損失(ロスト)しても次パケットを利用することにより誤り補償を行って品質劣化が最小限に抑えられるような補償情報の生成を行う。
ビット埋め込み部104は、符号化部102から得られる符号化コードIの一部のビットに、機能拡張符号化部103から得られる符号化コードJの情報を埋め込み、その結果得られる符号化コードI’をパケット化部105に出力する。パケット化部105は、符号化コードI’をパケット化し、例えば、VoIPであればパケットをIPネットワークを介して通信相手に送信する。同期情報生成部106は、ビットが埋め込まれた後の符号化コードI’に基づいて後述の同期情報を生成し、符号化部102に出力する。符号化部102は、この同期情報に基づいて内部状態等を更新し、次のディジタル音声信号Xの符号化を行う。
なお、IとI’のビットレートは同じである。仮に、符号化部102がG.726方式を採用しており、符号化コードIのLSB(Least Significant Bit;最下位ビット)に拡張符号Jを埋め込むとすると、ビットレート8kbit/sで拡張符号Jを埋め込むことができる。
本実施の形態に係る音声符号化処理の手順を整理すると次のようになる。
まず、同期情報生成部106から、予測部132の内部状態、予測部132で使用される予測係数、および適応部133で用いられる1サンプル前の量子化符号が符号化部102に与えられる。次に、符号化部102にて符号化処理が行われ、機能拡張符号化部103にて拡張機能に関する情報の符号化が行われる。次に、ビット埋め込み部104にて符号化コードI’が生成され、これが出力されるとともに同期情報生成部106に与えられる。同期情報生成部106は、符号化コードI’を用いて、予測部132の内部状態、予測部132で使用される予測係数、および適応部133で用いられる1サンプル前の量子化符号の更新を行い、その結果を符号化部102に与え、符号化部102は次の入力ディジタル信号Xに備える。
図2は、符号化部102内部の主要な構成を表すブロック図である。
更新部111には、図1に示した同期情報生成部106から同期情報が与えられる。更新部111は、この同期情報に基づき、予測部115で使用される予測係数、予測部115の内部状態、および適応部113で用いられる1サンプル前の量子化符号を更新する。符号化部102の以降の処理は、更新された適応部113および予測部115を用いて行われる。
符号化部102には、ディジタル音声信号Xが与えられ、減算部116に入力される。減算部116は、ディジタル音声信号Xから予測部115の出力を減算し、その誤差信号を量子化部112に与える。量子化部112は、適応部113にて1サンプル前の量子化符号を用いて決定された量子化ステップサイズにて誤差信号を量子化し、その符号化コードIを出力すると共に、適応部113および逆量子化部114に与える。逆量子化部114は、適応部113から与えられる量子化ステップサイズに従い、量子化後の誤差信号を復号し、その信号を予測部115に与える。適応部113は、1サンプル前の量子化符号が表す誤差信号の振幅値に基づき、振幅値が大きい場合には量子化ステップ幅を拡大し、振幅値が小さい場合には量子化ステップ幅を縮小する。予測部115は、量子化後の誤差信号ならびに入力信号の予測値を用いて次の式(1)に従い、予測を行う。
Figure 2006009075
ここで、y(n)は第nサンプルの入力信号の予測値、u(n)は第nサンプルの量子化後の誤差信号、a(i)はAR予測係数、b(i)はMA予測係数、L、MはそれぞれAR予測次数、MA予測次数を表す。そして、a(i)およびb(i)は、後方予測による適応化により逐次更新される。
図3は、ビット埋め込み部104内部の主要な構成を表すブロック図である。
ビットマスク部121は、入力される符号化コードIの予め定められたビット位置をマスクして、その位置のビットの値を常に0にする。埋め込み部122は、マスクされた符号化コードのそのビット位置に拡張符号Jの情報を埋め込んで、その位置のビットの値を拡張符号Jで置き換え、埋め込み後の符号化コードI’を出力する。
図4は、ビット埋め込み部104から入出力される信号のビット構成の一例を表す図である。なお、MSBは、Most Significant Bit(最上位ビット)の略である。
ここでは、4ビットの符号化コード(4ワード)Iに対して4ビットの拡張符号Jを埋
め込み、符号化コードI’として出力する場合を例にとって説明する。なお、拡張符号を埋め込むビット位置はLSBである。符号化コードIは、ビットマスク部121において「Itmp=I&(0xE)」と処理がなされ、Itmpとなる。このItmpは、埋め込み部122において「I’=Itmp|J」と処理がなされ、符号化コードI’となる。なお、これらの処理において「&」は論理積、「|」は論理和を表す。この例では、8kHzサンプリングデータの処理の場合、ビットレートが32kbit/sとなり、ビットレート8kbit/sだけの付加情報を埋め込むことが可能となる。
なお、ここでは、1サンプル当り4ビットで符号化し、LSBに拡張符号を埋め込む場合を例にとって説明したが、これに限定されるわけではない。例えば、1サンプルおきに拡張符号を埋め込めば、ビットレート4kbit/sの付加情報を埋め込むことができる。また、下位2ビットに拡張符号を埋め込むようにすれば、付加情報用ビットレートは16kbit/sとなる。このように、付加情報のビットレートを比較的自由度高く設定することができる。また、入力される音声信号の性質に応じて、適応的に埋め込むビット数を変化させることも可能である。かかる場合、何ビットを埋め込んだかという情報を別途復号化装置に通知する。
図5は、同期情報生成部106内部の主要な構成を表すブロック図である。同期情報生成部106は、ビット埋め込み部104の出力である符号化コードI’を使って復号化処理を次のように行う。
まず、適応部133から与えられる量子化ステップ情報を使い、逆量子化部131では量子化後の残差信号を復号し、それを予測部132に与える。予測部132では、上記の式(1)に従い、量子化後の残差信号および予測部132の前回の処理において出力された信号を用いて、式(1)に表される内部状態および予測係数を更新する。適応部133は、誤差信号の振幅値に基づき、振幅値が大きい場合には量子化ステップ幅を拡大し、振幅値が小さい場合には量子化ステップ幅を縮小する。これら一連の処理がなされた後に、抽出部134は、予測部132の内部状態、予測部132で使用される予測係数、および適応部133で用いられる1サンプル前の量子化符号を抽出して同期情報として出力する。
同期情報生成部106の基本的な動作は、音声復号化装置内に存在する復号化部、すなわち、符号化部102に対応する復号化部の処理を、符号化コードI’を用いて音声符号化装置100内で擬似的に行い、その結果得られる予測符号化に関するパラメータ(予測部132で使用される予測係数、予測部132の内部状態、および適応部133で用いられる1サンプル前の量子化符号)を符号化部102における予測符号化(適応部113および予測部115の処理)に反映させることである。すなわち、符号化部102内の適応部113および予測部115には、符号化コードI’に基づいて生成される予測符号化に関するパラメータが同期情報として同期情報生成部106から通知されるため、音声復号化装置内の予測部で使用される予測係数、この予測部の内部状態、および音声復号化装置内の適応部で用いられる1サンプル前の量子化符号を、符号化部102内の予測部115で使用される予測係数、予測部115の内部状態、および適応部113で用いられる1サンプル前の量子化符号に同期(一致)させることができる。換言すると、音声符号化装置100とこれに対応する音声復号化装置の双方において、同一の符号化コードI’に基づいて予測符号化に関するパラメータが求められる。このような構成を採ることにより、音声復号化装置で得られる復号信号の音質劣化を避けることができる。
このように、本実施の形態によれば、拡張符号のビットを埋め込んだ後の符号を使って符号化部内の予測部で使用される予測符号化に関するパラメータを更新するため、音声符号装置内の予測部で使用されるパラメータと音声復号装置内の予測部で使用されるパラメ
ータとを同期させることができ、復号信号の音質劣化を防止することができる。
また、以上の構成において、ADPCM方式を用いた符号化方法の場合、ビット埋め込み部104は、符号化コードのLSBに付加情報の一部もしくはすべてを埋め込む。
なお、本実施の形態では、音声符号化装置100がパケット送信装置に搭載される場合を例にとって説明したが、音声符号化装置100は非パケット通信型の携帯電話機に搭載されても良い。かかる場合、パケット通信の代わりに回線交換型の通信ネットワークを用いるため、パケット化部105の代わりに多重化部が設置される。
また、音声符号化装置100に対応する音声復号化装置、すなわち、音声符号化装置100から出力される符号化パケットを復号化する音声復号化装置は、機能拡張に対応している必要はない。
また、符号化コード以外の、例えば通信システムの制御情報を通信している場合(シグナリング時)には、付加情報を埋め込む位置または埋め込む量を通信相手である通信端末装置に伝える機能をさらに備えることにより、以下の効果が得られる。
例えば、音声符号化装置において、通信相手の通信端末装置の置かれている状況(伝送誤りを受けやすい/受け難い)を判断して、埋め込み位置をシグナリング時に決定しても良い。これにより、伝送誤り耐性を改善できる。
また、例えば、自端末で拡張機能の符号化コードの大きさを設定しても良い。これにより、自端末の使用者が付加機能の程度を選択できる。例えば、拡張帯域の帯域幅を7kHz、10kHz、15kHzのいずれかから選択できる。
図6Aおよび図6Bは、音声符号化装置100に対応する音声復号化装置の構成例を表すブロック図である。図6Aは、機能拡張に対応していない音声復号化装置150の例、図6Bは、機能拡張に対応している音声復号化装置160の例を表している。なお、同一の構成要素には同一の符号を付している。
音声復号化装置150において、パケット分離部151は、受け取ったパケットから符号化コードI’を分離する。復号化部152は、この符号化コードI’の復号化処理を行う。D/A変換部153は、その結果得られる復号信号X’をアナログ信号に変換し、復号音声信号を出力する。一方、音声復号化装置160では、ビット抽出部161がパケット分離部151から出力された符号化コードI’から拡張符号のビットJを抽出する。機能拡張復号化部162は、抽出されたビットJを復号化して拡張機能に関する情報を得て、復号化部163に出力する。復号化部163は、機能拡張復号化部162から出力された情報に基づいて拡張機能を使用しつつ、ビット抽出部161から出力される符号化コードI’(パケット分離部151から出力される符号化コードと同一)を復号化する。このように、復号化部152、163に入力される符号化コードは双方ともI’であり、双方の違いは、符号化コードI’を拡張機能を使用して復号化するか拡張機能を使用せずに符号化するかという点である。このとき、音声復号化装置160で得られる音声信号も音声復号化装置150で得られる音声信号も共に、LSBの情報において伝送路誤りが生じたような状態となっている。よって、このLSBの受信誤りによって復号信号に音質劣化を生じさせるが、その音質劣化の程度は小さい。
(実施の形態2)
本発明の実施の形態2に係る音声符号化装置は、CELP方式による音声符号化を行う。CELPの代表例として、G.729やAMR、AMR−WB等がある。なお、この音
声符号化装置は、実施の形態1に示した音声符号化装置100と同様の基本的構成を有しているので、同一の部分の説明は省略する。
図7は、本実施の形態に係る音声符号化装置内部の符号化部201の主要な構成を示すブロック図である。
更新部211には、適応符号帳219および聴感重み付き合成フィルタ215の内部状態に関する情報が与えられる。更新部211は、この情報に基づいて、適応符号帳219および聴感重み付き合成フィルタ215の内部状態を更新する。
符号化部201に入力された音声信号は、LPC分析部212にてLPC係数が求められる。このLPC係数は、聴感的な品質向上のために利用され、聴感重みフィルタ216と聴感重み付き合成フィルタ215とに与えられる。また、LPC係数は、同時にLPC量子化部213にも与えられ、LPC量子化部213は、LPC係数をLSP係数などの量子化に適したパラメータに変換し、量子化を行う。この量子化で得られるインデックスが多重化部225に与えられ、かつLPC復号部214に与えられる。LPC復号部214は、符号化コードから量子化後のLSP係数を算出し、LPC係数に変換する。これにより、量子化後のLPC係数が求められる。この量子化後のLPC係数は聴感重み付き合成フィルタ215に与えられ、適応符号帳219および雑音符号帳220で利用される。
聴感重みフィルタ216は、LPC分析部212で求められたLPC係数に基づいて入力音声信号に重み付けを行う。これは、量子化歪のスペクトルを入力信号のスペクトル包絡にマスクされるようスペクトル整形を行うことを目的として行われる。
次に、適応ベクトル、適応ベクトルゲイン、雑音ベクトル、雑音ベクトルゲインの探索方法について説明する。
適応符号帳219は、過去に生成した駆動音源信号を内部状態として保持しており、この内部状態を所望のピッチ周期で繰り返すことにより適応ベクトルを生成する。ピッチ周期の取る範囲は60Hz〜400Hzの間が適当である。また、雑音符号帳220は、あらかじめ記憶領域に格納されている雑音ベクトル、もしくは代数(algebraic)構造のように記憶領域を持たずにルールに従い生成されるベクトルを雑音ベクトルとして出力する。ゲイン符号帳223から、適応ベクトルに乗じられる適応ベクトルゲインと、雑音ベクトルに乗じられる雑音ベクトルゲインとが出力され、乗算器221、222においてそれぞれのゲインがそれぞれのベクトルに乗じられる。
加算器224は、適応ベクトルゲインが乗じられた適応ベクトルと雑音ベクトルゲインが乗じられた雑音ベクトルとを加算し、駆動音源信号を生成し、聴感重み付き合成フィルタ215に与える。聴感重み付き合成フィルタ215は、駆動音源信号を通過させて聴覚重み付き合成信号を生成し、減算器217に与える。減算器217は、聴覚重み付き入力信号から聴覚重み付き合成信号を減算し、探索部218に減算後の信号を与える。探索部218は、減算後の信号から定義される歪が最小となる適応ベクトル、適応ベクトルゲイン、雑音ベクトル、雑音ベクトルゲインの組み合わせを効率よく探索し、それら符号化コードを多重化部225に送る。
探索部218は、次の式(2)または式(3)で定義される歪を最小とするインデックスi、j、m、もしくはインデックスi、j、m、nを決定して、それらを多重化部225に送る。
Figure 2006009075
Figure 2006009075
ここで、t(k)は聴覚重み付き入力信号、p(k)は第i番目の適応ベクトルに聴覚重み付き合成フィルタを通して得られる信号、e(k)は第j番目の雑音ベクトルに聴覚重み付き合成フィルタを通して得られる信号、βとγはそれぞれ適応ベクトルゲインと雑音ベクトルゲインを表す。式(2)と式(3)とではゲイン符号帳の構成が異なり、式(2)の場合、ゲイン符号帳は適応ベクトルゲインβと雑音ベクトルゲインγを要素として持つベクトルとして表されており、ベクトルを特定するためのインデックスmが決定されることになる。式(3)の場合、ゲイン符号帳は適応ベクトルゲインβと雑音ベクトルゲインγをそれぞれ独立に有しており、それぞれのインデックスm、nが独立に決定されることになる。
多重化部225は、全てのインデックスが決定された後に、インデックスを一つに多重化して符号化コードを生成し、出力する。
図8は、本実施の形態に係る同期情報生成部206内部の主要な構成を示すブロック図である。
同期情報生成部206の基本的な動作は、実施の形態1で示した同期情報生成部106と同様である。すなわち、音声復号化装置内に存在する復号化部の処理を、符号化コードI’を用いて音声符号化装置内で擬似的に行い、その結果得られる適応符号帳および(聴感重み付き)合成フィルタの内部状態を符号化部201内の適応符号帳219および聴感重み付き合成フィルタ215に反映させることである。これにより、復号信号の品質劣化を防止することが可能となる。
分離部231は、入力される符号化コードI’から符号化コードを分離し、適応符号帳233、雑音符号帳234、ゲイン符号帳235、およびLPC復号部232にそれぞれ与える。LPC復号部232は、与えられる符号化コードを用いてLPC係数を復号し、合成フィルタ239に与える。
適応符号帳233、雑音符号帳234、およびゲイン符号帳235は、符号化コードを利用してそれぞれ適応ベクトルq(k)、雑音ベクトルc(k)、適応ベクトルゲインβ、および雑音ベクトルゲインγをそれぞれ復号化する。乗算器236は適応ベクトルと適応ベクトルゲインとを乗じ、乗算器237は雑音ベクトルと雑音ベクトルゲインとを乗じ、加算器238はそれぞれの乗算後の信号を加算して駆動音源信号を生成する。駆動音源信号をex(k)と表すと、駆動音源信号ex(k)は次の式(4)のように求められる。
Figure 2006009075
次に、復号されたLPC係数と駆動音源信号ex(k)とを用いて合成フィルタ239にて合成信号syn(k)を次の式(5)に従い生成する。
Figure 2006009075
ここで、α(i)は復号されたLPC係数、NPはLPC係数の次数を表す。次に、駆動音源信号ex(k)を用いて適応符号帳233の内部状態を更新する。
これら一連の処理がなされた後に、抽出部240は、適応符号帳233および合成フィルタ239の内部状態を抽出し、出力する。
このように、本実施の形態によれば、CELP方式による音声符号化を行う場合に、付加情報の一部もしくは全てをCELPの励振音源を表す符号に埋め込む。これにより、実施の形態1と同様の効果を得ることができる。
なお、ここでは適応符号帳219と聴感重み付き合成フィルタ215の内部状態を用いる場合について説明したが、その他の処理、例えば、LPC復号、雑音符号帳、ゲイン符号帳等についても予測を利用する場合には、それらの予測に利用される内部状態、予測係数についても同様に処理を行う。
(実施の形態3)
図9は、本発明の実施の形態3に係る音声符号化装置300の主要な構成を示すブロック図である。なお、この音声符号化装置300は、実施の形態1に示した音声符号化装置100と同様の基本的構成を有しており、同一の構成要素には同一の符号を付し、その説明を省略する。ここでは、ADPCM方式による音声符号化を行う場合を例にとって説明する。
本実施の形態の特徴は、ビット埋め込み部104から与えられる符号化コードI’のうち、機能拡張符号化部103の拡張符号Jに相当する情報はそのままで保持し、その情報を変更しないという制限を設定し、この制限の下、再符号化部301にて符号化コードI’に対し再度符号化処理を行い、最終的な符号化コードI”を決定することである。
再符号化部301には、入力ディジタル信号Xと、ビット埋め込み部104の出力である符号化コードI’とが与えられる。再符号化部301は、ビット埋め込み部104から与えられる符号化コードI’を再符号化する。ただし、符号化コードI’のうち拡張符号Jに相当する情報については変更が加わらないように符号化対象から外す。そして、得られた最終的な符号化コードI”を出力する。これにより、機能拡張符号化部103の符号化コードJの情報を保持しつつ、最適な符号化コードを生成することが可能となる。さらに、このときの予測部で使用される予測係数、予測部の内部状態、および適応部で用いられる1サンプル前の量子化符号を符号化部102に与えることにより、符号化コードI”にて復号処理を行う音声復号化装置(図示せず)の予測部で使用される予測係数、予測部の内部状態、および適応部で用いられる1サンプル前の量子化符号と同期がとれるようになり、復号信号の音質劣化を防止することができる。
図10は、上記の再符号化部301内部の主要な構成を示すブロック図である。なお、量子化部311および内部状態抽出部312を除き、実施の形態1で示した符号化部102(図2参照)と同様の構成を有しているので、これらの説明は省略する。
量子化部311には、ビット埋め込み部104で生成される符号化コードI’が与えられる。量子化部311は、符号化コードI’のうち、埋め込まれた機能拡張符号化部103の符号化コードJの情報はそのままに、それ以外の符号化コードを再決定する。
図11は、量子化部311の再決定処理の概要を説明するための図である。ここでは、機能拡張符号化部103の符号化コードJは{0,1,1,0}であり、符号化コードは4ビット、そのLSBに符号化コードJが埋め込まれている場合を例にとって説明する。
かかる場合、量子化部311は、LSBが符号化コードJで固定されている状態で、目標の残差信号に対して最も歪が小さくなる量子化値の符号化コードを再決定することになる。よって、機能拡張符号化部103の符号化コードJが0の場合、量子化部311が採ることの可能な量子化値の符号化コードは、0x0,0x2,0x4,0x6,0x8,0xA,0xC,0xDの8種類である。また、J=1の場合には、量子化部311が採ることの可能な量子化値の符号化コードは、0x1,0x3,0x5,0x7,0x9,0xB,0xD,0xFの8種類となる。
このようにして再決定した符号化コードI”を出力すると共に、予測部115の内部状態、予測部115で使用される予測係数、および適応部113で用いる1サンプル前の量子化符号を内部状態抽出部312を介して、出力する。これらの情報は符号化部102に与えられ、次の入力Xに備える。
本実施の形態に係る符号化処理の手順を整理すると次のようになる。
まず符号化部102にて符号化処理が行われ、次にビット埋め込み部104で符号化部102より得られる符号化コードIに機能拡張符号化部103より与えられる符号化コードJを埋め込み、符号化コードI’を生成する。この符号化コードI’を再符号化部301に与える。再符号化部301では、符号化コードJを保持するという制限の基に符号化コードを再決定し、符号化コードI”を生成する。最後に符号化コードI”を出力するとともに、再符号化部301内の予測部で使用される予測係数、この予測部の内部状態、および再符号化部301内の適応部で用いられる1サンプル前の量子化符号を符号化部102に与え、次の入力Xに備える。
このように、本実施の形態によれば、符号化部の予測部で使用されるパラメータと、復号化部の予測部で使用されるパラメータとの間の同期がとれ、音質劣化の発生を防止することができる。さらに、ビット埋め込み情報による制限の基で最適な符号化パラメータを再決定するため、ビット埋め込みによる劣化を最小限に抑えることができる。
なお、本実施の形態では、ADPCM方式による音声符号化を行う場合を例にとって説明したが、CELP方式であっても良い。
図12は、CELP方式を用いた場合の再符号化部301の構成を示すブロック図である。なお、雑音符号帳321および内部状態抽出部322を除き、実施の形態2で示した符号化部201(図7参照)と同様の構成を有するので、これらについては説明を省略する。
雑音符号帳321にはビット埋め込み部104で生成される符号化コードI’が与えられる。雑音符号帳321は、符号化コードI’のうち、埋め込まれた符号化コードJの情報はそのままに、それ以外の符号化コードを再決定する。仮に、雑音符号帳321のインデックスが8ビットで表され、そのLSBに拡張機能符号化部102の情報{0}が埋め込まれている場合には、雑音符号帳321の探索は、インデックスが偶数で表される候補{2n;n=0〜127}の中で行われる。雑音符号帳321は、その中で最も歪を小さくする候補を探索によって決定し、そのインデックスを出力する。同様に、雑音符号帳321のインデックスが8ビットで表され、そのLSBに拡張機能符号化部102の情報{
1}が埋め込まれている場合には、雑音符号帳321の探索は、インデックスが奇数で表される候補{2n+1;n=0〜127}の中で行われる。
再符号化部301は、このようにして再決定した符号化コードI”を出力すると共に、適応符号帳219、聴感重みフィルタ216、および聴感重み付き合成フィルタ215の内部状態を、内部状態抽出部322を介して出力する。これらの情報は符号化部102に与えられる。
上記の説明は、雑音符号帳321のインデックスの一部に拡張機能の情報を埋め込む場合の説明である。このとき、再符号化部301は、LPC係数の算出および符号化、適応符号帳の探索は行う必要は無い。その理由は、再符号化が必要なのは雑音符号帳についてであり、その前段で処理される部分は符号化部102での結果と変わらない。よって、符号化部102で求めた結果をそのまま利用すればよいためである。
また、ここでは、雑音ベクトルのインデックスの一部に拡張機能の情報を埋め込む場合について説明しているが、これに限定されることは無く、例えばLPC係数、適応符号帳、ゲイン符号帳のインデックスに拡張機能の情報を埋め込むことも可能である。その場合の動作原理は、上記の雑音符号帳321に対する説明と同じで、拡張機能の情報は保持するという制限の下、歪が最も小さくなるときのインデックスを再決定する点が特徴となる。
なお、ここでは適応符号帳219と聴感重み付き合成フィルタ215の内部状態を用いる場合について説明したが、その他の処理、例えば、LPC復号、雑音符号帳、ゲイン符号帳等についても予測を利用する場合には、それらの予測に利用される内部状態、予測係数についても同様に処理を行う。
図13は、音声符号化装置300のバリエーションの構成を示すブロック図である。
図9に示した音声符号化装置300は、符号化部102の処理結果に依存して機能拡張符号化部103の処理結果が変わる構成となっていた。ここでは、符号化部102の処理結果とは独立に機能拡張符号化部103の処理が行える構成とする。
上記の構成は、例えば、入力音声信号を2つの帯域(例えば、0−4kHzと4−8kHz)に帯域分割し、符号化部102では0−4kHz帯域、機能拡張部符号部103では4−8kHz帯域を独立に符号化するような場合に適用できる。この場合、機能拡張符号化部103の符号化処理は、符号化部102の処理結果に依存せずに実施することが可能である。
符号化処理の手順を説明すると、まず機能拡張符号化部103にて符号化処理を行い、拡張符号Jを生成する。この拡張符号Jを符号化処理制限部331に与える。符号化部102には、拡張符号Jを埋め込むことを前提として、この符号Jに関し情報を変更しないという制限情報が符号化処理制限部331から与えられる。よって、符号化部102は、この制限の下で符号化処理を行い、最終的な符号化コードI’を決定する。この構成によれば、再符号化部301が必要なくなり、少ない演算量で実施の形態3に係る音声符号化を実現できる。
以上、本発明の各実施の形態について説明した。
本発明に係る音声符号化装置は、上記の実施の形態1〜3に限定されず、種々変更して実施することが可能である。
本発明に係る音声符号化装置は、移動体通信システムにおける通信端末装置および基地局装置に搭載することも可能であり、これにより上記と同様の作用効果を有する通信端末装置および基地局装置を提供することができる。
なお、ここでは、本発明をハードウェアで構成する場合を例にとって説明したが、本発明はソフトウェアで実現することも可能である。例えば、本発明に係る音声符号化方法のアルゴリズムをプログラミング言語によって記述し、このプログラムをメモリに記憶しておいて情報処理手段によって実行させることにより、本発明に係る音声符号化装置と同様の機能を実現することができる。
また、上記各実施の形態の説明に用いた各機能ブロックは、典型的には集積回路であるLSIとして実現される。これらは個別に1チップ化されても良いし、一部または全てを含むように1チップ化されても良い。
また、ここではLSIとしたが、集積度の違いによって、IC、システムLSI、スーパーLSI、ウルトラLSI等と呼称されることもある。
また、集積回路化の手法はLSIに限るものではなく、専用回路または汎用プロセッサで実現しても良い。LSI製造後に、プログラム化することが可能なFPGA(Field Programmable Gate Array)や、LSI内部の回路セルの接続もしくは設定を再構成可能なリコンフィギュラブル・プロセッサを利用しても良い。
さらに、半導体技術の進歩または派生する別技術により、LSIに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積化を行っても良い。バイオ技術の適応等が可能性としてあり得る。
本明細書は、2004年7月20日出願の特願2004−211589に基づく。この内容はすべてここに含めておく。
本発明に係る音声符号化装置および音声符号化方法は、VoIPネットワーク、携帯電話網等の用途に適用できる。
実施の形態1に係るパケット送信装置の主要な構成を示すブロック図 実施の形態1に係る符号化部内部の主要な構成を表すブロック図 実施の形態1に係るビット埋め込み部内部の主要な構成を表すブロック図 実施の形態1に係るビット埋め込み部から入出力される信号のビット構成の一例を表す図 実施の形態1に係る同期情報生成部内部の主要な構成を表すブロック図 実施の形態1に係る音声復号化装置の構成例を表すブロック図 実施の形態1に係る音声復号化装置の構成例を表すブロック図 実施の形態2に係る符号化部の主要な構成を示すブロック図 実施の形態2に係る同期情報生成部内部の主要な構成を示すブロック図 実施の形態3に係る音声符号化装置の主要な構成を示すブロック図 実施の形態3に係る再符号化部内部の主要な構成を示すブロック図 実施の形態3に係る量子化部の再決定処理の概要を説明するための図 CELP方式を用いた場合の実施の形態3に係る再符号化部の構成を示すブロック図 実施の形態3に係る音声符号化装置のバリエーションの構成を示すブロック図

Claims (12)

  1. 予測符号化によって音声信号から符号を生成する符号化手段と、
    前記符号に付加情報を埋め込む埋込手段と、
    前記付加情報が埋め込まれた符号を用いて、前記符号化手段の予測符号化に対応する復号化を行う予測復号化手段と、
    前記符号化手段の予測符号化で使用されるパラメータを、前記予測復号化手段の復号化で使用されるパラメータに同期させる同期手段と、
    を具備する音声符号化装置。
  2. 前記符号化手段は、
    ADPCM(Adaptive Differential Pulse Code Modulation)方式により前記符号を生成し、
    前記埋込手段は、
    前記符号のLSB(Least Significant Bit)に前記付加情報を埋め込む、
    請求項1記載の音声符号化装置。
  3. 前記符号化手段は、
    CELP方式により前記符号を生成し、
    前記埋込手段は、
    前記符号のうちCELP方式の励振音源を表す符号に前記付加情報を埋め込む、
    請求項1記載の音声符号化装置。
  4. 前記埋込手段は、
    埋め込む前記付加情報のビット数を前記音声信号の性質に応じて変化させ、かつ、このビット数を音声復号化装置に通知する、
    請求項1記載の音声符号化装置。
  5. 前記付加情報のビット数が所定の選択肢の中から指定される指定手段、
    をさらに具備する請求項1記載の音声符号化装置。
  6. 請求項1記載の音声符号化装置を具備する通信端末装置。
  7. 前記埋込手段が付加情報を埋め込む位置、および前記付加情報のビット数をシグナリングする送信手段、
    をさらに具備する請求項6記載の通信端末装置。
  8. 前記埋込手段は、
    通信相手の通信端末装置の受信状況に応じて前記付加情報を埋め込む位置を決定する、
    請求項7記載の通信端末装置。
  9. 請求項1記載の音声符号化装置を具備する基地局装置。
  10. 前記埋込手段が付加情報を埋め込む位置、および前記付加情報のビット数をシグナリングする送信手段、
    をさらに具備する請求項9記載の基地局装置。
  11. 前記埋込手段は、
    通信相手の通信端末装置の受信状況に応じて前記付加情報を埋め込む位置を決定する、
    請求項10記載の基地局装置。
  12. 予測符号化によって音声信号から符号を生成する符号化ステップと、
    前記符号に付加情報を埋め込む埋込ステップと、
    前記付加情報が埋め込まれた符号を用いて、前記符号化ステップにおける予測符号化に対応する復号化を行う予測復号化ステップと、
    前記符号化ステップにおける予測符号化で使用されるパラメータを、前記予測復号化ステップにおける復号化で使用されるパラメータに同期させる同期ステップと、
    を具備する音声符号化方法。
JP2006529150A 2004-07-20 2005-07-14 音声符号化装置および音声符号化方法 Expired - Fee Related JP4937746B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006529150A JP4937746B2 (ja) 2004-07-20 2005-07-14 音声符号化装置および音声符号化方法

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2004211589 2004-07-20
JP2004211589 2004-07-20
PCT/JP2005/013052 WO2006009075A1 (ja) 2004-07-20 2005-07-14 音声符号化装置および音声符号化方法
JP2006529150A JP4937746B2 (ja) 2004-07-20 2005-07-14 音声符号化装置および音声符号化方法

Publications (2)

Publication Number Publication Date
JPWO2006009075A1 true JPWO2006009075A1 (ja) 2008-05-01
JP4937746B2 JP4937746B2 (ja) 2012-05-23

Family

ID=35785188

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006529150A Expired - Fee Related JP4937746B2 (ja) 2004-07-20 2005-07-14 音声符号化装置および音声符号化方法

Country Status (6)

Country Link
US (1) US7873512B2 (ja)
EP (1) EP1763017B1 (ja)
JP (1) JP4937746B2 (ja)
CN (1) CN1989546B (ja)
AT (1) ATE555470T1 (ja)
WO (1) WO2006009075A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008122911A (ja) * 2006-11-13 2008-05-29 Korea Electronics Telecommun キー再同期区間の音声データを見積もるためのベクトル情報の挿入方法、ベクトル情報伝送方法、およびベクトル情報を用いたキー再同期区間の音声データ見積り方法

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5195402B2 (ja) * 2008-12-25 2013-05-08 パナソニック株式会社 無線通信装置及び無線通信システム
US8447619B2 (en) * 2009-10-22 2013-05-21 Broadcom Corporation User attribute distribution for network/peer assisted speech coding
JP5447628B1 (ja) 2012-09-28 2014-03-19 パナソニック株式会社 無線通信装置及び通信端末
JP6079230B2 (ja) * 2012-12-28 2017-02-15 株式会社Jvcケンウッド 付加情報挿入装置、付加情報挿入方法、付加情報挿入プログラム、付加情報抽出装置、付加情報抽出方法、及び付加情報抽出プログラム
JP7252976B2 (ja) 2018-04-25 2023-04-05 ドルビー・インターナショナル・アーベー 後処理遅延低減との高周波再構成技術の統合
CA3098295C (en) 2018-04-25 2022-04-26 Kristofer Kjoerling Integration of high frequency reconstruction techniques with reduced post-processing delay

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0651799A (ja) * 1992-06-04 1994-02-25 American Teleph & Telegr Co <Att> 音声メッセージ符号化装置と復号化装置とを同期化させる方法
JPH10260700A (ja) * 1997-03-18 1998-09-29 Kowa Co 振動波の符号化方法、復号化方法、及び振動波の符号化装置、復号化装置
JP2004173237A (ja) * 2002-11-08 2004-06-17 Sanyo Electric Co Ltd 電子透かし埋め込み装置と方法ならびに電子透かし抽出装置と方法

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5054072A (en) * 1987-04-02 1991-10-01 Massachusetts Institute Of Technology Coding of acoustic waveforms
US5327520A (en) * 1992-06-04 1994-07-05 At&T Bell Laboratories Method of use of voice message coder/decoder
KR100322706B1 (ko) * 1995-09-25 2002-06-20 윤종용 선형예측부호화계수의부호화및복호화방법
CN1183771C (zh) * 1997-01-27 2005-01-05 皇家菲利浦电子有限公司 在编码信号中嵌入补充数据
US6182030B1 (en) * 1998-12-18 2001-01-30 Telefonaktiebolaget Lm Ericsson (Publ) Enhanced coding to improve coded communication signals
US7423983B1 (en) * 1999-09-20 2008-09-09 Broadcom Corporation Voice and data exchange over a packet based network
US7574351B2 (en) * 1999-12-14 2009-08-11 Texas Instruments Incorporated Arranging CELP information of one frame in a second packet
US6697776B1 (en) * 2000-07-31 2004-02-24 Mindspeed Technologies, Inc. Dynamic signal detector system and method
SE519985C2 (sv) * 2000-09-15 2003-05-06 Ericsson Telefon Ab L M Kodning och avkodning av signaler från flera kanaler
JP2002135715A (ja) * 2000-10-27 2002-05-10 Matsushita Electric Ind Co Ltd 電子透かし埋め込み装置
US7310596B2 (en) * 2002-02-04 2007-12-18 Fujitsu Limited Method and system for embedding and extracting data from encoded voice code
JP4022427B2 (ja) 2002-04-19 2007-12-19 独立行政法人科学技術振興機構 エラー隠蔽方法、エラー隠蔽プログラム、送信装置、受信装置及びエラー隠蔽装置
US7009533B1 (en) * 2004-02-13 2006-03-07 Samplify Systems Llc Adaptive compression and decompression of bandlimited signals
US8332218B2 (en) * 2006-06-13 2012-12-11 Nuance Communications, Inc. Context-based grammars for automated speech recognition

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0651799A (ja) * 1992-06-04 1994-02-25 American Teleph & Telegr Co <Att> 音声メッセージ符号化装置と復号化装置とを同期化させる方法
JPH10260700A (ja) * 1997-03-18 1998-09-29 Kowa Co 振動波の符号化方法、復号化方法、及び振動波の符号化装置、復号化装置
JP2004173237A (ja) * 2002-11-08 2004-06-17 Sanyo Electric Co Ltd 電子透かし埋め込み装置と方法ならびに電子透かし抽出装置と方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008122911A (ja) * 2006-11-13 2008-05-29 Korea Electronics Telecommun キー再同期区間の音声データを見積もるためのベクトル情報の挿入方法、ベクトル情報伝送方法、およびベクトル情報を用いたキー再同期区間の音声データ見積り方法
JP4564985B2 (ja) * 2006-11-13 2010-10-20 韓國電子通信研究院 キー再同期区間の音声データを見積もるためのベクトル情報の挿入方法、ベクトル情報伝送方法、およびベクトル情報を用いたキー再同期区間の音声データ見積り方法

Also Published As

Publication number Publication date
EP1763017A4 (en) 2008-08-20
JP4937746B2 (ja) 2012-05-23
ATE555470T1 (de) 2012-05-15
US7873512B2 (en) 2011-01-18
WO2006009075A1 (ja) 2006-01-26
EP1763017B1 (en) 2012-04-25
CN1989546A (zh) 2007-06-27
US20080071523A1 (en) 2008-03-20
EP1763017A1 (en) 2007-03-14
CN1989546B (zh) 2011-07-13

Similar Documents

Publication Publication Date Title
JP5413839B2 (ja) 符号化装置および復号装置
JP5046652B2 (ja) 音声符号化装置および音声符号化方法
JP4907522B2 (ja) 音声符号化装置および音声符号化方法
US7848921B2 (en) Low-frequency-band component and high-frequency-band audio encoding/decoding apparatus, and communication apparatus thereof
JP4963963B2 (ja) スケーラブル符号化装置、スケーラブル復号装置、スケーラブル符号化方法およびスケーラブル復号方法
JP5046653B2 (ja) 音声符号化装置および音声符号化方法
JP4937746B2 (ja) 音声符号化装置および音声符号化方法
KR20070061818A (ko) 음성 부호화 장치, 음성 복호 장치, 통신 장치 및 음성부호화 방법
KR20070029754A (ko) 음성 부호화 장치 및 그 방법과, 음성 복호화 장치 및 그방법
WO2006046587A1 (ja) スケーラブル符号化装置、スケーラブル復号化装置、およびこれらの方法
WO2006041055A1 (ja) スケーラブル符号化装置、スケーラブル復号装置及びスケーラブル符号化方法
JPWO2007132750A1 (ja) Lspベクトル量子化装置、lspベクトル逆量子化装置、およびこれらの方法
WO2005066937A1 (ja) 信号復号化装置及び信号復号化方法
JPWO2007114290A1 (ja) ベクトル量子化装置、ベクトル逆量子化装置、ベクトル量子化方法及びベクトル逆量子化方法
WO2006035705A1 (ja) スケーラブル符号化装置およびスケーラブル符号化方法
JP2005338200A (ja) 音声・楽音復号化装置および音声・楽音復号化方法
JPWO2006008932A1 (ja) 音声符号化装置および音声符号化方法
JPWO2010103854A1 (ja) 音声符号化装置、音声復号装置、音声符号化方法及び音声復号方法
JP2005091749A (ja) 音源信号符号化装置、及び音源信号符号化方法
JP2004302259A (ja) 音響信号の階層符号化方法および階層復号化方法
JPWO2008018464A1 (ja) 音声符号化装置および音声符号化方法
JP4236675B2 (ja) 音声符号変換方法および装置
JP4373693B2 (ja) 音響信号の階層符号化方法および階層復号化方法
JP6713424B2 (ja) 音声復号装置、音声復号方法、プログラム、および記録媒体
JP2006072269A (ja) 音声符号化装置、通信端末装置、基地局装置および音声符号化方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080711

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110524

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110722

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120131

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120222

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150302

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4937746

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees