JP5706445B2 - 符号化装置、復号装置およびそれらの方法 - Google Patents

符号化装置、復号装置およびそれらの方法 Download PDF

Info

Publication number
JP5706445B2
JP5706445B2 JP2012548620A JP2012548620A JP5706445B2 JP 5706445 B2 JP5706445 B2 JP 5706445B2 JP 2012548620 A JP2012548620 A JP 2012548620A JP 2012548620 A JP2012548620 A JP 2012548620A JP 5706445 B2 JP5706445 B2 JP 5706445B2
Authority
JP
Japan
Prior art keywords
frequency
low
encoding
rate
coding rate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2012548620A
Other languages
English (en)
Other versions
JPWO2012081166A1 (ja
Inventor
押切 正浩
正浩 押切
貴子 堀
貴子 堀
江原 宏幸
宏幸 江原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Intellectual Property Corp of America
Original Assignee
Panasonic Intellectual Property Corp of America
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Intellectual Property Corp of America filed Critical Panasonic Intellectual Property Corp of America
Priority to JP2012548620A priority Critical patent/JP5706445B2/ja
Publication of JPWO2012081166A1 publication Critical patent/JPWO2012081166A1/ja
Application granted granted Critical
Publication of JP5706445B2 publication Critical patent/JP5706445B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/22Mode decision, i.e. based on audio signal content versus external parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

本発明は、音声信号及び/又は音楽信号の符号化、復号を行う符号化装置、復号装置およびそれらの方法に関する。
音声信号を低ビットレートで圧縮する音声符号化技術は、移動体通信における電波等の有効利用のために重要である。近年では、通話音声の品質向上に対する期待が高まってきており、信号帯域が広く臨場感の高い通話サービスの実現が望まれている。
音声信号を符号化する音声符号化として、ITU−T(International Telecommunication Union Telecommunication Standardization Sector)で規格化されているG726、G729などの方式が存在する。これらの方式は、狭帯域(300Hz〜3.4kHz)信号(以後、NB(Narrow Band)信号)を対象とし、ビットレートが8kbit/s〜32kbit/sの符号化が行える。対象としている狭帯域信号は、周波数帯域が最大3.4kHzであるため、了解性は問題ないものの、その音質はこもっており臨場感に欠ける。
また、ITU−T及び3GPP(The 3rd Generation Partnership Project)には、信号帯域が50Hz〜7kHzの広帯域信号(以後、WB(Wide Band)信号)を符号化する標準方式(例えば、G.722、AMR−WB)が存在する。これらの方式は、ビットレートが6.6kbit/s〜64kbit/sであり、広帯域信号の符号化が行える。広帯域信号は狭帯域信号に比べ高音質であるものの、高臨場感が要求される通話サービスに対しては十分な音質とは言い難い。
一方で、従来は回線交換方式によって音声通信を実現していたが、回線交換方式は回線を占有するために非効率である。そのため、符号化データをパケット化してIP(Internet Protocol)ネットワークにて伝送することにより通信路の有効利用を図る方式が台頭してきている。特に音声通話にこの技術を適用する方式は、VoIP(Voice over IP)と呼ばれる。移動体通信においては、例えば3GPP LTE(Long Term Evolution)通信システムにおいてVoIPが用いられる。
例えばAMR−WBをVoIPに適用する場合、AMR−WBの符号化データがRTP(Real-time Transport Protocol)パケットのペイロードとしてIPネットワークに伝送されることになる。この際、ペイロードの大きさがビットレート情報として、RTPペイロードの一部であるヘッダ部のFT(Frame type)フィールドに記述されている。RTPペイロードのヘッダ部は非特許文献1および非特許文献2にて規定されている。
臨場感の高い音声通信を実現するため、超広帯域(50Hz〜14kHz)信号(以後、SWB(Super Wide Band)信号)を符号化する方式がいくつか提案されている。例えば、ITU−Tで標準化されたG.718 Annex B(非特許文献3、以後、G.718B)方式は、28kbit/s〜48kbit/sのビットレートでSWB信号を符号化することができる。G.718Bは複数のレイヤより成る階層構造を有し、低域部(50Hz〜7kHz)の信号を24kbit/sまたは32kbit/sの2種類のビットレートで、また、高域部(7kHz〜14kHz)の信号を4kbit/s,8kbit/s,16kbit/sの3種類のビットレートで、符号化することができる。
図1は、G.718Bの場合に採り得るビットレートモードと、低域部のビットレート(以下、低域符号化レートという)および高域部のビットレート(以下、高域符号化レートという)の組み合わせとの対応関係を示す図である。図1に示すように、G.718Bは、5種類のビットレートモードのうちのいずれかのビットレートモードでSWB信号を符号化することができる。
G.718Bのように、低域符号化レートと高域符号化レートとがそれぞれ複数存在する符号化方式である場合、低域符号化レートと高域符号化レートとの組み合わせの数だけ、全体のビットレートが存在する。そのため、低域符号化レートと高域符号化レートとの全ての組み合わせを表せるように、RTPペイロードヘッダのFTフィールドの領域を確保しようとすると、ヘッダサイズが大きくなってしまい効率的な通信ができないという課題がある。
また、ヘッダサイズの増大を抑えるために、全体のビットレート(以下、トータル符号化レートという)が同一となる低域符号化レートと高域符号化レートとの組み合わせを一つに限定する方法が考えられる。しかし、入力信号の特性によって最適な組み合わせが変わり得るにも関わらず、一つの組み合わせに限定されてしまうことにより、効率的な符号化が行えないという課題がある。
G.718Bを例にすると、全体のビットレート(トータル符号化レート)が40kbit/sと設定されたとき、低域符号化レートと高域符号化レートとの組み合わせとしては、{24kbit/s,16kbit/s}または{32kbit/s,8kbit/s}の2種類が存在する。どちらの組み合わせが良いかは、本来入力信号の特性によってパケット(フレーム)単位に決められるはずである。しかし、FTフィールドサイズの増大を避けるため、予め{24kbit/s,16kbit/s}または{32kbit/s,8kbit/s}のどちらか一方に設定し、全体のビットレートの情報のみを通知するようにすると、本来備わっているコーデックの性能を十分に引き出せないという課題が生じる。
本発明の目的は、各レイヤが複数のビットレート(マルチレート)を有する階層符号化(スケーラブル符号化、エンベディッド符号化)において、入力信号の特徴に応じて、各レイヤのビットレートの組み合わせを決定することにより、高音質な符号化/復号を実現することができる符号化装置、復号装置およびそれらの方法を提供することである。
本発明の符号化装置は、入力信号の特徴を低域部および高域部ごと分析し、分析結果を示す特徴データを生成する分析手段と、低域符号化レートおよび高域符号化レートの合計であって予め設定されたトータル符号化レートと前記特徴データとに基づいて、前記低域符号化レートおよび前記高域符号化レートの組み合わせを決定する決定手段と、前記決定された低域符号化レートを用いて前記入力信号の低域部の符号化を行い、低域符号化データを生成する低域符号化手段と、前記決定された高域符号化レートを用いて前記入力信号の高域部の符号化を行い、高域符号化データを生成する高域符号化手段と、前記低域符号化データと、前記高域符号化データと、前記特徴データとを多重化する多重化手段と、を具備する。
本発明の復号装置は、低域符号化レートを用いて入力信号の低域部の符号化を行い生成された低域符号化データと、高域符号化レートを用いて前記入力信号の高域部の符号化を行い生成された高域符号化データと、前記低域部および前記高域部ごとに前記入力信号の特徴を分析した結果を示す特徴データとが多重化された多重化データを、前記低域符号化データと、前記高域符号化データと、前記特徴データとに分離する分離手段と、前記低域符号化レートおよび前記高域符号化レートの合計であって予め設定されたトータル符号化レートと前記特徴データとに基づいて、前記低域符号化レートと前記高域符号化レートとの組み合わせを決定する決定手段と、前記決定された低域符号化レートを用いて、前記低域符号化データを復号する低域復号手段と、前記決定された高域符号化レートを用いて、前記高域符号化データを復号する高域復号手段と、を具備する。
本発明の符号化方法は、入力信号の特徴を低域部および高域部ごと分析し、分析結果を示す特徴データを生成するステップと、低域符号化レートおよび高域符号化レートの合計であって予め設定されたトータル符号化レートと前記特徴データとに基づいて、前記低域符号化レートおよび前記高域符号化レートの組み合わせを決定するステップと、前記決定された低域符号化レートを用いて前記入力信号の低域部の符号化を行い、低域符号化データを生成するステップと、前記決定された高域符号化レートを用いて前記入力信号の高域部の符号化を行い、高域符号化データを生成するステップと、前記低域符号化データと、前記高域符号化データと、前記特徴データとを多重化するステップと、を具備する。
本発明の復号方法は、低域符号化レートを用いて入力信号の低域部の符号化を行い生成された低域符号化データと、高域符号化レートを用いて前記入力信号の高域部の符号化を行い生成された高域符号化データと、前記低域部および前記高域部ごとに前記入力信号の特徴を分析した結果を示す特徴データとが多重化された多重化データを、前記低域符号化データと、前記高域符号化データと、前記特徴データとに分離するステップと、前記低域符号化レートおよび前記高域符号化レートの合計であって予め設定されたトータル符号化レートと前記特徴データとに基づいて、前記低域符号化レートと前記高域符号化レートとの組み合わせを決定するステップと、前記決定された低域符号化レートを用いて、前記低域符号化データを復号するステップと、前記決定された高域符号化レートを用いて、前記高域符号化データを復号するステップと、を具備する。
本発明によれば、各レイヤが複数のビットレート(マルチレート)を有する階層符号化(スケーラブル符号化、エンベディッド符号化)において、入力信号の特徴に応じて、各レイヤのビットレートの組み合わせを決定することにより、高音質な符号化/復号を実現することができる。
ビットレートモードと、低域符号化レートおよび高域符号化レートの組み合わせとの対応関係を示す図 本発明の実施の形態1に係る符号化装置の構成を示すブロック図 RTPパケットの構成を示す図 ビットレートモードと、ビットレート情報と、ペイロードサイズとの対応関係を示す図 本発明の実施の形態1に係る復号装置の構成を示すブロック図 本発明の実施の形態2に係る符号化装置の構成を示すブロック図 本発明の実施の形態2に係る復号装置の構成を示すブロック図 各フレームモード別にSNRを調査した結果を示す図 各フレームモード別にSNRを調査した結果を示す図 本発明の実施の形態3に係る符号化装置の構成を示すブロック図 本発明の実施の形態3に係る低域信号符号化部の内部構成を示すブロック図 本発明の実施の形態3に係る復号装置の構成を示すブロック図 本発明の実施の形態3に係る低域信号復号部の内部構成を示すブロック図 低域符号化レートと高域符号化レートの組み合わせの具体的な例を示す図
以下、本発明の実施の形態について、図面を参照して詳細に説明する。
なお、本実施の形態では、G.718Bを例に説明する。G.718Bは、SWB(50Hz〜14kHz)信号を符号化するITU−T規格の音声符号化方式である。
G.718Bは、SWB信号の低域部(50Hz〜7kHz)を24kbit/sまたは32kbit/sの2種類のビットレートで符号化を行う。また、G.718Bは、SWB信号の高域部(7kHz〜14kHz)を4kbit/s,8kbit/s,16kbit/sの3種類のビットレートで符号化する。
図1に示したように、G.718Bは、5種類のビットレートモードのうちのいずれかのビットレートモードでSWB信号を符号化することができる。
このとき、28kbit/sモードは、ミニマム品質を保証する最低ビットレートモードであり、48kbit/sモードは、最高品質が得られる最高ビットレートモードである。その他のモードは、中間ビットレートモードとなる。どのモードが使用されるかは、ネットワークの状況を指標の一つにして予め決められる。ネットワークの状況としては、ネットワークの混雑の程度が挙げられ、例えば、ネットワークが空いている場合には最高ビットレートモードが選択され、ネットワークで輻輳が発生している場合には最低ビットレートモードが選択され、これらの中間の状態のときには中間ビットレートが選択される。このように、ネットワークの混雑の程度によって符号化部のビットレートモードを選択する。
始めに、図2を用いて本実施の形態に係る符号化装置について説明する。
図2は、本実施の形態に係る符号化装置の構成を示すブロック図である。図2の符号化装置100は、所定の時間間隔(フレーム長)単位で符号化処理を行い、RTPパケットを生成し、当該RTPパケットを、後述する復号装置に伝送する。本実施の形態では、フレーム長が20msの場合を例に説明する。
図2の符号化装置100は、特徴分析部101、ビットレート決定部102、ダウンサンプリング部103、低域信号符号化部104、高域信号符号化部105、多重化部106およびRTPパケット構成部107を有する。
符号化装置100には、入力信号としてSWB信号(例えば、サンプリングレートが32kHz)が入力され、入力信号は、特徴分析部101、ダウンサンプリング部103および高域信号符号化部105に与えられる。
特徴分析部101は、入力信号の特徴を分析して特徴データを生成し、特徴データをビットレート決定部102および多重化部106に与える。特徴分析部101の詳細については、後述する。
ビットレート決定部102は、特徴データに基づいて、低域信号符号化部104の符号化ビットレート(低域符号化レート)および高域信号符号化部105の符号化ビットレート(高域符号化レート)を決定する。そして、ビットレート決定部102は、低域符号化レートの情報を低域信号符号化部104に通知し、高域符号化レートの情報を高域信号符号化部105に通知する。ビットレート決定部102の詳細については、後述する。
ダウンサンプリング部103は、入力信号のダウンサンプリングを行い、WB信号(例えば、サンプリングレートが16kHz)を生成する。WB信号は、低域信号符号化部104に与えられる。
低域信号符号化部104は、ビットレート決定部102より決定された低域符号化レートに基づいて、入力信号の低域部(低域スペクトル部)を符号化し、低域符号化データを生成する。低域符号化データは、多重化部106に与えられる。本実施の形態では、G.718Bを用いる場合を想定しているため、低域信号符号化部104は、G.718符号化方式によってWB信号の符号化を行う。
高域信号符号化部105は、ビットレート決定部102より決定された高域符号化レートに基づいて、入力信号の高域部(高域スペクトル部)を符号化し、高域符号化データを生成する。高域符号化データは、多重化部106に与えられる。
多重化部106は、特徴データ、低域符号化データ、高域符号化データを多重化し、多重化データを生成する。多重化データは、RTPパケット構成部107に与えられる。
RTPパケット構成部107は、多重化データ(RTPペイロード)の先頭にRTPヘッダを付加してRTPパケットを生成し、RTPパケットを図示しない復号部に伝送する。
ここで、図3を用いて、本発明の各実施の形態で用いるRTP関連用語を説明する。RTPパケットは、図3に示すように、RTPヘッダとRTPペイロードとから成る。RTPヘッダはIETF(Internet Engineering Task Force)のRFC(Request for Comments)3550(非特許文献4)に記載の通りであり、RTPペイロードの種類(コーデックの種類等)によらず共通である。RTPペイロードのフォーマットはRTPペイロードの種類により異なる。図3に示すように、RTPペイロードは、ヘッダ部とデータ部とから成るが、RTPペイロードの種類によってはヘッダ部が存在しない場合もある。ここでは、ヘッダ部が存在する場合を例に説明する。RTPペイロードのヘッダ部には、音声及び/又は動画等のエンコードされたデータのビット数を特定するための情報等が含まれる。RTPペイロードデータ部には音声及び/又は動画等のエンコードされたデータが含まれる。
G.718Bを用いた場合、ビットレートモードとして、28kbit/sモード,32kbit/sモード,36kbit/sモード,40kbit/sモード,48kbit/sモードの5種類が存在する(図1参照)。そして、このFTフィールドには、各モードを特定できる情報が記録される。
本実施の形態では、28kbit/sモード,32kbit/sモード,36kbit/sモード,40kbit/sモード,48kbit/sモードを、それぞれ0,1,2,3,4のビットレート情報(3ビット)で表し、選択されたビットレートモードに応じたビットレート情報がFTフィールドに記録される。
なお、図4に、ビットレートモードと、ビットレート情報と、ペイロードのデータ部のサイズとの対応関係を示す。例えば、FTフィールドに記録されるビットレート情報が0を示す場合、28kbit/sモードであり、フレーム長が20msの場合、ペイロードのデータ部のサイズは560bitとなる。同様に、ビットレート情報が1,2,3,4を示す場合、ペイロードのデータ部のサイズは、それぞれ640bit,720bit,800bit,960bitとなる。
以下、特徴分析部101およびビットレート決定部102の詳細について説明する。なお、以下では、G.718Bがサポートするビットレートモードのうち、ネットワークの状況などの指標により、40kbit/sモードが選択された場合を例に説明する。
G.718Bのビットレートモードとして40kbit/sモードが選択された場合、低域符号化レートおよび高域符号化レートの組み合わせとしては、{24kbit/s,16kbit/s}、もしくは{32kbit/s,8kbit/s}の2通りが存在する。
低域符号化レートおよび高域符号化レートの組み合わせが複数存在する場合、ビットレート決定部102は、入力信号の特徴を分析し、その分析結果に応じて、複数の組み合わせの候補から、1組の組み合わせを選択する。
入力信号の特徴としては、入力信号の低域部および高域部に共通に含まれる情報量に関連付けられるパラメータが適当である。すなわち、ビットレート決定部102は、低域部および高域部に共通に含まれる情報量(入力信号の特徴量)が、低域部に比較的多く含まれるようであれば、低域部のビットレート(低域符号化レート)をより高く設定する。また、ビットレート決定部102は、当該入力信号の特徴量が、高域部に比較的多く含まれるようであれば、高域部のビットレート(高域符号化レート)をより高く設定する。
{24kbit/s,16kbit/s}と{32kbit/s,8kbit/s}とでは、{24kbit/s,16kbit/s}より{32kbit/s,8kbit/s}の方が、低域符号化レートが高い。反対に、{32kbit/s,8kbit/s}より{24kbit/s,16kbit/s}の方が、高域符号化レートが高い。
したがって、ビットレート決定部102は、入力信号の特徴量が低域部に比較的多く含まれるようであれば、{32kbit/s,8kbit/s}を選択する。また、ビットレート決定部102は、入力信号の特徴量が高域部に比較的多く含まれるようであれば、{24kbit/s,16kbit/s}を選択する。
このようにして、ビットレート決定部102は、入力信号の特徴に応じて、入力信号に適したビットレートの組み合わせを選択する。なお、ビットレート決定部102は、このようなビットレートの切り替えをフレーム単位で行う。これにより、フレーム毎に入力信号の特徴に適したビットレートの選択が行われるようになり、高音質な符号化が実現できる。
本実施の形態では、符号化装置100は、低域部と高域部とに共通に含まれる情報量に関連付けられるパラメータとして、信号エネルギーを用いる。
すなわち、特徴分析部101は、入力信号S(k)の低域部(低域信号)と高域部(高域信号)のエネルギーを求める。
次に、特徴分析部101は、これら低域信号のエネルギーと高域信号のエネルギーとの対数領域での差分と、所定の閾値とを比較する(式(1)参照)。
Figure 0005706445
ここで、FL,FHは、それぞれ入力信号S(k)の低域部の最高周波数、高域部の最高周波数を表す。また、THは、所定の閾値を表す。また、式(1)の第1項は、低域信号SL(k)のエネルギーを表し、式(1)の第2項は高域信号SH(k)のエネルギーを表す。式(1)では、低域信号SL(k)および高域信号SH(k)のエネルギーをそれぞれデシベル値で表しているが、これに限定されず、両信号のエネルギーを線形領域で比較しても良い。
なお、音声信号及び音楽信号は元来、高域信号に比べて低域信号のエネルギーの方が高い傾向にある。そのため、式(1)の閾値THには、20〜30(dB)を用いるのが適当である。
特徴分析部101は、比較結果を特徴データとして、ビットレート決定部102および多重化部106に出力する。例えば、式(1)が成立し、入力信号のエネルギーが低域部に比較的多く含まれる場合には、特徴分析部101は、特徴データとして0を出力する。また、式(1)が成立せず、入力信号のエネルギーが高域部に比較的多く含まれる場合には、特徴分析部101は、特徴データとして1を出力する。
ビットレート決定部102は、特徴データに基づいて、低域信号符号化部104のビットレート(低域符号化レート)および高域信号符号化部105のビットレート(高域符号化レート)を決定する。
具体的には、特徴分析部101からの特徴データが0を示す場合、入力信号の特徴量が低域部に比較的多く含まれるため、ビットレート決定部102は、{24kbit/s,16kbit/s},{32kbit/s,8kbit/s}のうち、低域符号化レートが高い{32kbit/s,8kbit/s}を選択する。そして、ビットレート決定部102は、低域符号化レートを32kbit/sに設定し、高域符号化レートを8kbit/sに設定する。
一方、特徴分析部101からの特徴データが1を示す場合、入力信号の特徴量が高域部に比較的多く含まれるため、ビットレート決定部102は、{24kbit/s,16kbit/s},{32kbit/s,8kbit/s}のうち、高域符号化レートが高い{24kbit/s,16kbit/s}を選択する。そして、ビットレート決定部102は、低域符号化レートを24kbit/sに設定し、高域符号化レートを16kbit/sに設定する。
このようにして、低域符号化レートおよび高域符号化レートを設定すると、ビットレート決定部102は、設定した低域符号化レートの情報を低域信号符号化部104に出力し、設定した高域符号化レートの情報を高域信号符号化部105に出力する。
次に、図5を用いて本実施の形態に係る復号装置について説明する。
図5は、本実施の形態に係る復号装置の構成を示すブロック図である。図5の復号装置200は、RTPパケット分離部201、分離部202、ビットレート決定部203、低域信号復号部204、高域信号復号部205、アップサンプリング部206、および、復号信号生成部207を有する。
RTPパケット分離部201は、符号化装置100から送られてきたRTPパケットに含まれるRTPペイロードのヘッダ部のFTフィールドを参照し、FTフィールドに記載されているビットレート情報に基づいて、RTPペイロードのデータ部(多重化データ)のサイズを特定する。図4に示すように、本実施の形態では、ビットレート情報が、0,1,2,3,4を示す場合、ペイロードサイズはそれぞれ、560bit,640bit,720bit,800bit,960bitとなる。このように、RTPパケット分離部201は、FTフィールドに記述されているビットレート情報に従いペイロードサイズを特定し、このペイロードサイズに従い、RTPパケットからRTPペイロードのデータ部を抽出して、多重化データとして分離部202に出力する。
分離部202は、多重化データを、特徴データ、低域符号化データ、高域符号化データに分離し、それぞれビットレート決定部203、低域信号復号部204、高域信号復号部205に出力する。
ビットレート決定部203は、ビットレート決定部102と同様に、特徴データに基づいて、低域信号復号部204のビットレート(すなわち、低域符号化レート)および高域信号復号部205のビットレート(すなわち、高域符号化レート)を決定する。そして、ビットレート決定部203は、低域符号化レートの情報を低域信号復号部204に通知し、高域符号化レートの情報を高域信号復号部205に通知する。
低域信号復号部204は、ビットレート決定部203より決定された低域符号化レートに基づいて、低域符号化データに復号処理を行い、復号低域信号を生成する。低域信号復号部204は、復号低域信号をアップサンプリング部206に出力する。
高域信号復号部205は、ビットレート決定部203より決定された高域符号化レートに基づいて、高域符号化データに復号処理を行い、復号高域信号を生成する。高域信号復号部205は、復号高域信号を復号信号生成部207に出力する。
アップサンプリング部206は、復号低域信号に対してアップサンプリングを行い、例えばサンプリングレートが32kHzの信号を生成する。アップサンプリング部206は、アップサンプリング後の復号低域信号を復号信号生成部207に出力する。
復号信号生成部207は、アップサンプリング後の復号低域信号および復号高域信号に対して加算処理等を行い、例えばサンプリングレート32kHzの復号信号を生成し、復号信号を出力する。
以上のように、符号化装置100において、特徴分析部101は、入力信号の特徴量を抽出する。そして、ビットレート決定部102は、入力信号の特徴量に基づいて、入力信号の低域部の符号化を行う低域信号符号化部104の符号化レート(低域符号化レート)と、入力信号の高域部の符号化を行う高域信号符号化部105の符号化レート(高域符号化レート)との組み合わせを決定する。
すなわち、特徴分析部101は、入力信号の特徴量を低域部および高域部ごとに取得し、特徴量が低域部または高域部のどちらに多く含まれているか分析し、分析結果(特徴データ)を出力する。そして、ビットレート決定部102は、低域符号化レートおよび高域符号化レートの合計であってネットワークの状況などの指標により予め設定されたトータル符号化レートと、分析結果とに基づいて、予め設定された低域符号化レートと高域符号化レートとの組み合わせの候補から、低域信号符号化部104および高域信号符号化部105が実際に用いる低域符号化レートおよび高域符号化レートの組み合わせを決定する。
入力信号の特徴量としては、特徴分析部101は、入力信号の低域部および高域部のエネルギーを抽出する。そして、特徴分析部101は、低域部のエネルギーおよび高域部のエネルギーが、低域部または高域部のどちらに多く含まれているか分析する。
また、復号装置200において、分離部202は、低域符号化データと、高域符号化データと、低域部および高域部ごとに取得された入力信号の特徴量が低域部または高域部のどちらに多く含まれているかを示す分析結果(特徴データ)とが多重化された多重化データを、低域符号化データと、高域符号化データと、分析結果(特徴データ)とに分離する。そして、ビットレート決定部203は、低域符号化レートおよび高域符号化レートの合計であってネットワークの状況などの指標により予め設定されたトータル符号化レートと、分析結果(特徴データ)とに基づいて、予め設定された低域符号化レートと高域符号化レートとの組み合わせの候補から、低域信号復号部204および高域信号復号部205が実際に用いる低域符号化レートおよび高域符号化レートの組み合わせを決定する。
これにより、入力信号の特徴に応じて、入力信号の低域符号化レートと高域符号化レートとの組み合わせを適応的に切り替えて、高音質化を図ることができる。
なお、以上の説明では、特徴分析部101が、入力信号の特徴量として、入力信号の低域部(低域信号SL(k))および入力信号の高域部(高域信号SH(k))のエネルギーを用いる場合について説明した。この場合には、音楽信号のように高域部のエネルギーが大きい信号に対して、高域符号化レートを高く設定できるようになり、少ない演算量で高音質化を図ることができる。
しかし、入力信号の特徴量は、これに限らず、低域信号および高域信号に共通に含まれる情報であればよい。例えば、特徴分析部101が、入力信号の特徴量として、LPC(Linear Predictive Coding)予測ゲインを求めるようにしても良い。
これは次の考えに基づいている。すなわち、低域信号符号化部104にCELP(Code-Excited Linear Prediction,符号励振線形予測)を用いる場合、CELP性能は、入力信号がLPC予測モデルに適した信号であるかどうかで概ね決まる。つまり、入力信号がLPC予測モデルに適していない信号の場合(例えば音楽信号)、低域信号符号化部104のビットレート(低域符号化レート)を大きくしても、低域信号符号化部104の性能向上は限定的となる。それよりは、高域信号符号化部105のビットレート(高域符号化レート)を大きくした方が、全体的な性能は向上し、音質改善につながる。逆に入力信号がLPC予測モデルに適している信号の場合(例えば音声信号)、高域信号符号化部105のビットレート(高域符号化レート)を抑え、低域信号符号化部104のビットレート(低域符号化レート)を大きくして、低域信号符号化部104の性能向上を図る方が、全体的な音質は改善する。
このような考えに基づき、特徴分析部101は、入力信号の特徴量として、入力信号のLPC予測ゲインを求め、LPC予測ゲインに基づいて、特徴データを設定するようにしてもよい。
特徴分析部101は、次のようにして、LPC予測ゲインを算出する。まず、特徴分析部101は、LPC係数α(i)を用いて入力信号s(n)に対して線形予測を行い、LPC予測残差信号e(n)を算出する。
Figure 0005706445
ここで、NPはLPC係数の次数を表す。
次に、特徴分析部101は、入力信号とLPC予測残差信号とのエネルギー比を対数領域で算出し、これをLPC予測ゲインとする。LPC予測ゲインは、次式のようにして算出される。
Figure 0005706445
ここで、GLPCは、LPC予測ゲインを表し、NFはフレーム長を表す。
そして、特徴分析部101は、LPC予測ゲインと所定の閾値とを比較する。そして、比較結果を特徴データとして、ビットレート決定部102および多重化部106に出力する。例えば、LPC予測ゲインが所定の閾値以上であり、入力信号がLPC予測モデルに適した信号の場合には、特徴分析部101は、特徴データとして0を出力する。また、LPC予測ゲインが所定の閾値未満であり、入力信号がLPC予測モデルに適さない信号の場合には、特徴分析部101は、特徴データとして1を出力する。
これにより、特徴分析部101からの特徴データが0を示す場合、入力信号がLPC予測モデルに適した信号であるため、ビットレート決定部102は、符号化レートの複数の組み合わせ{24kbit/s,16kbit/s},{32kbit/s,8kbit/s}のうち、低域符号化レートが高い組み合わせ{32kbit/s,8kbit/s}を選択する。すなわち、ビットレート決定部102は、低域符号化レートを32kbit/sに設定し、高域符号化レートを8kbit/sに設定する。
一方、特徴分析部101からの特徴データが1を示す場合、入力信号がLPC予測モデルに適さない信号であるため、ビットレート決定部102は、符号化レートの複数の組み合わせ{24kbit/s,16kbit/s},{32kbit/s,8kbit/s}のうち、高域符号化レートが高い組み合わせ{24kbit/s,16kbit/s}を選択する。すなわち、ビットレート決定部102は、低域符号化レートを24kbit/sに設定し、高域符号化レートを16kbit/sに設定する。
このようにして、入力信号の特徴量にLPC予測ゲインを用いることにより、低域信号符号化部104の性能を予測することができる。また、LPC予測ゲインの算出に必要な演算量は少なくて済むため、低演算量化を実現できる。
なお、特徴分析部101は、LPC係数を、入力信号に対して算出しても良いし、低域信号に対して算出しても良い。後者の場合、式(2)は入力信号s(n)に代えて、低域信号slow(n)を用いて、LPC予測ゲインを算出することになる。また、低域信号slow(n)に対するLPC係数は、低域信号符号化部104の符号化処理において求められる量子化前のLPC係数または量子化後のLPC係数を用いても良い。この場合には、入力信号の低域部を符号化する前に、低域符号化レートおよび高域符号化レートの組み合わせを決定できるようになり、演算量を削減できる。
なお、LPC予測ゲインに基づいて設定された特徴データを含む多重化データを復号する場合の復号装置の構成は、復号装置200の構成と同様のため図示および説明を省略する。
(実施の形態2)
図6は、本実施の形態に係る符号化装置の構成を示すブロック図である。なお、図6において、図2と共通する構成部分には共通の符号を付して説明を省略する。図6の符号化装置300は、図2の符号化装置100に対して、ビットレート決定部102に代えてビットレート決定部301を有し、多重化部106とRTPパケット構成部107との間に、冗長ビット付加部302を更に追加した構成を採る。
なお、本実施の形態では、G.718Bがサポートするビットレートモードのうち、ネットワークの状況などの指標により、36kbit/sモードが選択された場合について説明する。
G.718Bのビットレートモードとして36kbit/sモードが選択された場合、低域符号化レートと高域符号化レートとの組み合わせは、{32kbit/s,4kbit/s}のみとなる。そのため、実施の形態1では、ビットレート決定部102は、低域符号化レートを32kbit/sに設定し、高域符号化レートを4kbit/sに設定する。そして、ビットレート決定部102は、低域信号符号化部104および高域信号符号化部105に、低域符号化レートおよび高域符号化レートがそれぞれ32kbit/sと4kbit/sであることを示す情報を出力する。
しかしながら、特徴分析部101からの特徴データが1を示す場合、すなわち、入力信号の高域部に比較的多くの情報が含まれると判定された場合、高域符号化レートは4kbit/sでは十分ではなく、4kbit/sより高い8kbit/sを用いた方が高音質化が図れる。
そこで、本実施の形態では、ビットレート決定部301は、予め設定された36kbit/sモードよりも全体のビットレート(トータル符号化レート)が低く、かつ、高域符号化レートが36kbit/sモードよりも高いモードである32kbit/sモードを選択する。
すなわち、ビットレート決定部301は、特徴分析部101からの特徴データが1を示す場合、低域信号符号化部104のビットレート(低域符号化レート)を24kbit/sに設定し、高域信号符号化部105のビットレート(高域符号化レート)を8kbit/sに設定する。そして、ビットレート決定部301は、低域信号符号化部104および高域信号符号化部105に、低域符号化レートおよび高域符号化レートがそれぞれ24kbit/sと8kbit/sであることを示す情報を出力する。
このようにして、本実施の形態では、特徴分析部101からの特徴データが1を示す場合、すなわち、入力信号の高域部に比較的多くの情報が含まれると判定された場合、ビットレートモードが、高域符号化レートが4kbit/sより高い8kbit/sである32kbit/sモードに設定される。
ところで、ビットレートモードが36kbit/sモードの場合、ペイロードサイズは、720ビットであった(図4参照)。これに対し、ビットレートモードが32kbit/sモードの場合、ペイロードサイズは、640ビットとなる(図4参照)。すなわち、ビットレートモードが36kbit/sモードから32kbit/sモードに変更されることにより、ビットレートの差分4kbit/sに相当する80(=720−640)ビット分だけ、ペイロードサイズが短くなってしまう。しかしながら、ネットワークの状況などの指標により、既に全体のビットレート(トータル符号化レート)として36kbit/sが選択されているため、不足分の80ビットを補う必要がある。
そこで、本実施の形態では、多重化部106とRTPパケット構成部107との間に、冗長ビット付加部302を設け、冗長ビット付加部302がビットレートを変更したことにより生じる不足ビットを追加するようにした。
具体的には、冗長ビット付加部302は、多重化部106より送られてくる多重化データを参照し、特徴データが0または1のいずれであるかを参照する。そして、特徴データが1の場合、冗長ビット付加部302は、不足分の80ビット(すなわち4kbit/s)の冗長ビットを多重化データに付加して、全体のビットレートを36kbit/sとする。そして、冗長ビットを付加した多重化データをRTPパケット構成部107に出力する。
これにより、以下のような効果が得られる。1つ目の効果としては、ビットレート決定部301は、設定された全体のビットレート(トータル符号化レート)を実現する低域符号化レートと高域符号化レートとの組み合わせが複数ある場合には、実施の形態1のビットレート決定部102と同様に、入力信号の特徴に応じて、低域符号化レートおよび高域符号化レートを適応的に切り替える。これにより、高音質化を図ることができる。
2つ目の効果としては、冗長ビット付加部302が、多重化データに冗長ビットを付加することにより、全体のビットレート(トータル符号化レート)の種類を絞り込むことができる。これにより、RTPペイロードヘッダのFTフィールドに必要なビット数を減少させることができ、RTPペイロードヘッダに必要なビット数を削減してネットワーク利用の効率化を図ることができる。
実施の形態1では、図1に示したように、ビットレートモードの選択対象が、28kbit/sモード、32kbit/sモード、36kbit/sモード、40kbit/sモード、48kbit/sモードの5種類であった。そのため、RTPペイロードヘッダのFTフィールドは3ビット必要であった。これに対し、本実施の形態では、選択対象から32kbit/sモードが除外されることになる。そのため、ビットレートモードの選択対象が、28kbit/sモード、36kbit/sモード、40kbit/sモード、48kbit/sモードの4種類に限定されるので、FTフィールドに必要なビット数を2ビットに削減することができる。
このように、本実施の形態では、入力信号の特徴に応じて、低域符号化レートおよび高域符号化レートを適応的に切り替えて、高音質化を図ると共に、FTフィールドに必要なビット数を抑えてネットワーク利用の効率化を図ることができる。
図7は、本実施の形態に係る復号装置の構成を示すブロック図である。なお、図7において、図5と共通する構成部分には共通の符号を付して説明を省略する。図7の復号装置400は、図5の復号装置200に対して、RTPパケット分離部201と分離部202との間に、冗長ビット削除部401を更に追加した構成を採る。また、以下では、G.718Bがサポートするビットレートモードのうち、ネットワークの状況などの指標により、36kbit/sモードが選択された場合を例に説明する。
冗長ビット削除部401は、多重化データを参照し、特徴データが0または1のいずれかであるかを参照する。冗長ビット削除部401は、特徴データが1の場合、多重化データには80ビット(すなわち4kbit/s)の冗長ビットが付加されていると判定する。そこで、特徴データが1の場合、冗長ビット削除部401は、多重化データから冗長ビットを削除し、冗長データ削除後の多重化データを分離部202に出力する。一方、特徴データが0の場合、多重化データには冗長ビットが存在しないので、冗長ビット削除部401は、多重化データをそのまま分離部202に出力する。
なお、以降の動作については、実施の形態1と同様のため説明を省略する。
以上のように、本実施の形態では、ビットレート決定部301は、符号化レートの組み合わせの候補を限定し、特徴分析部101の分析結果(特徴データ)に基づいて、限定後の組み合わせの候補から、低域信号符号化部104および高域信号符号化部105が実際に用いる符号化レートの組み合わせを決定する。そして、冗長ビット付加部302は、決定された組み合わせのトータル符号化レートと、予め設定されたトータル符号化レートとの差分に応じた冗長ビットを、多重化データに付加する。そして、冗長ビット削除部401は、決定された組み合わせのトータル符号化レートと、予め設定されたトータル符号化レートとの差分に応じた冗長ビットであって、多重化データに付加された冗長ビットを削除する。これにより、全体のビットレート(トータル符号化レート)の種類を絞り込むことができ、RTPペイロードヘッダのFTフィールドに必要なビット数を減少させることができる。この結果、RTPペイロードヘッダに必要なビット数を削減してネットワーク利用の効率化を図ることができる。
(実施の形態3)
以下、実施の形態3について図面を用いて説明する。本実施形態の特徴は、符号化装置から復号装置に伝送される符号化データに含まれる情報を利用して低域符号化レートと高域符号化レートを決定する点にある。つまり、符号化装置と復号装置の両者で利用できる情報に基づきビットレートを決定する。この特徴により、ビットレートを決定するために必要な特徴データの情報を符号化する必要がないので、情報量を削減することができる。
ここでは、低域信号の符号化にG.718を用いた場合を想定して、フレームに含まれる信号の特徴を表すフレームモードを用いてビットレートの組合せを決定する構成について説明する。
G.718では、フレーム毎に低域信号を分析して、Unvoice(UC)、Voice(VC)、Transition(TC)、Generic(GC)の4種類のフレームモードに分類する。そして、各フレームモードに適したLPC係数の量子化、音源情報の符号化を行い、音質の向上を図る。この際、フレームモードは復号部に伝送される符号化データに含まれる。
G.718を用いて低域信号を符号化したときに、フレームモード毎にSNRを調査した結果を図8および図9に示す。図8は約24秒の音声信号、図9は45秒の音楽信号を用いたときの図である。図8および図9において、横軸はSNR、縦軸はそのSNRとなるときのフレーム数である。
SNRは符号化の性能を表す指標とみなすことができる。SNRが高いときには符号化による歪が小さく抑えられ、聴感的に音質が高くなる。逆に、SNRが低いときには符号化歪が大きく残り、聴感的に音質が低くなる。
図8および図9から明らかなように、フレームモードとSNRとの間に強い相関があることが分かる。つまり、UCに分類されるフレームはSNRが低い場合が多く、それ以外のVC,TC、GCに分類されるフレームはSNRが高い場合が多い。
したがって、UCに分類されるフレームの場合には、低域信号のSNRが低いので、低域符号化レートを高く設定し、その分高域符号化レートを低く設定する。逆に、VC,TC、GCに分類されるフレームでは、低域信号のSNRが高いので、低域符号化レートを低く設定し、その分高域符号化レートを高く設定する。
なお、ここでは、UCの場合とVC,TC,GCの場合で低域符号化レートと高域符号化レートを決定する方法を例に説明したが、本発明はこれに限定されず、各フレームモードで異なるビットレートの組合せを選択するような構成であっても良い。
このように、フレームモードを用いて、低域符号化レートと高域符号化レートを決定することにより、情報量を増加させることなく適切に低域符号化レートと高域符号化レートを特定し、符号化、復号を行うことができる。これにより、ビットレートの組合せを示す情報を符号化する事なしに、音質を向上させることができる。
次に、図10および図11を用いて、本実施形態の符号化装置の構成について説明する。なお、図10において、図2と同一名称のブロックについては説明を省略する。図10に示す符号化装置500は、図2に示した符号化装置100と比較して、特徴分析部101、ビットレート決定部102がない。また、符号化装置500の低域信号符号化部501の機能が、符号化装置100の低域信号符号化部104の機能と異なる。
低域信号符号化部501は、入力信号の低域部の符号化の際に使用される符号化情報を用いて低域符号化レートと高域符号化レートを決定し、高域符号化レートの情報を高域信号符号化部105に出力する。低域信号符号化部501は、低域符号化レートに基づいて、入力信号の低域部を符号化し、低域符号化データを生成する。低域信号符号化部501は、低域符号化データを多重化部106に出力する。
図11は、低域信号符号化部501の内部構成を示すブロック図である。ここでは、符号化情報としてフレームモードを用いて低域符号化レートと高域符号化レートを決定する構成について説明する。
低域信号符号化部501は、フレームモード判定部511と、ビットレート決定部512と、LPC係数符号化部513と、音源符号化部514と、多重化部515と、から主に構成される。低域信号符号化部501において、ダウンサンプリング部103の出力信号は、フレームモード判定部511、LPC係数符号化部513及び音源符号化部514に入力される。
フレームモード判定部511は、ダウンサンプリング部103の出力信号を分析し、Unvoice(UC)、Voice(VC)、Transition(TC)、Generic(GC)のいずれに属するかをフレーム毎に判定する。分析の方法としては、信号エネルギー、スペクトル傾き、短期予測ゲイン、長期予測ゲイン等が用いられる。フレームモード判定部511は、判定結果を示すフレームモードを、ビットレート決定部512、LPC係数符号化部513、音源符号化部514及び多重化部515に出力する。
ビットレート決定部512は、フレームモードに基づいて低域符号化レートおよび高域符号化レートを決定する。図8、図9で説明したフレームモードとSNRの関係から、ビットレート決定部512は、UCが選択されたフレームでは低域符号化レートを高く設定し、その分高域符号化レートを低く設定する。低域信号符号化部501にG.718を用い、ビットレートモードが40kbit/sの場合には、低域符号化レートと高域符号化レートの組合せは{32kbit/s、8kbit/s}とする。VC,TC,GCが選択されたフレームでは、低域符号化レートを低く設定し、その分高域符号化レートを高く設定する。低域信号符号化部501にG.718を用い、ビットレートモードが40kbit/sの場合には、低域符号化レートと高域符号化レートの組合せは{24kbit/s、16kbit/s}とする。ビットレート決定部512は、決定した低域符号化レートの情報をLPC係数符号化部513および音源符号化部514に出力し、高域符号化レートの情報を高域信号符号化部105に出力する。
LPC係数符号化部513は、予め定められた複数種類のビットレートに基づいてLPC係数の符号化を行う。LPC係数符号化部513は、ダウンサンプリング部103より出力されたダウンサンプリング後の入力信号に対してLPC分析を行い、LPC係数を求める。このLPC係数は、量子化に適したパラメータ(例えば線形予測対(LSP))に変換される。LPC係数符号化部513は、フレームモードおよび低域符号化レートの情報に基づいてパラメータの量子化を行い、LPC係数符号化データを生成する。LPC係数符号化部513は、LPC係数符号化データを多重化部515に出力する。また、LPC係数符号化部513は、LPC係数符号化データを復号して復号LPC係数を求め、音源符号化部514に出力する。
音源符号化部514は、予め定められた複数種類のビットレートに基づいた音源情報の符号化を行う。音源符号化部514は、ダウンサンプリング後の入力信号に対して復号LPC係数、フレームモードおよび低域符号化レートの情報に基づいて音源情報の符号化を行い、音源符号化データを生成する。音源符号化部514は、音源符号化データを多重化部515に出力する。
多重化部515は、フレームモード、LPC係数符号化データおよび音源符号化データを多重化して低域符号化データを生成する。多重化部515は、低域符号化データを多重化部106に出力する。なお、図11の多重化部515は必須の構成要素ではなく、フレームモード判定情報、LPC係数符号化データおよび音源符号化データを低域符号化データとして、直接、多重化部106に出力しても良い。この場合、図11の多重化部515は不要となる。
次に、図12、図13を用いて、本実施形態の復号装置の構成について説明する。なお、図12に示す復号装置600において、図5に示した復号装置200と同一名称のブロックは説明を省略する。図12の復号装置600は、図5の復号装置200と比較して、ビットレート決定部203がない。また、復号装置600の低域信号復号部601の機能が、復号装置200の低域信号復号部204と異なる。
低域信号復号部601は、分離部202から出力された低域符号化データに含まれる情報を用いて低域信号復号部601のビットレート(すなわち、低域符号化レート)と高域信号復号部205のビットレート(すなわち、高域符号化レート)を決定し、高域符号化レートの情報を高域信号復号部205に出力する。低域信号復号部601は、低域符号化レートに基づいて、低域符号化データに復号処理を行い、復号低域信号を生成する。低域信号復号部601は、復号低域信号をアップサンプリング部206に出力する。
図13は、低域信号復号部601の内部構成を示すブロック図である。低域信号復号部601は、分離部611と、ビットレート決定部612と、LPC係数復号部613と、音源復号部614と、合成フィルタ615と、から主に構成される。
分離部611は、低域符号化データを、フレームモード、LPC係数符号化データ、音源符号化データに分離する。
ビットレート決定部612は、フレームモードに基づいて、低域符号化レートと高域符号化レートを決定する。図8、図9で説明したフレームモードとSNRの関係から、UCが選択されたフレームでは低域符号化レートを高く設定し、その分高域符号化レートを低く設定する。低域信号復号部601にG.718を用い、ビットレートモードが40kbit/sの場合には、低域符号化レートと高域符号化レートの組合せは{32kbit/s、8kbit/s}とする。VC,TC,GCが選択されたフレームでは、低域符号化レートを低く設定し、その分高域符号化レートを高く設定する。低域信号復号部601にG.718を用い、ビットレートモードが40kbit/sの場合には、低域符号化レートと高域符号化レートの組合せは{24kbit/s、16kbit/s}とする。ビットレート決定部612は、決定した低域符号化レートの情報をLPC係数復号部613および音源復号部614に出力し、高域符号化レートの情報を高域信号復号部205に出力する。
LPC係数復号部613は、予め定められた複数種類のビットレートに基づいたLPC係数の復号を行う。LPC係数復号部613は、LPC係数符号化データ、フレームモードおよび低域符号化レートの情報に基づいてLPC係数の復号処理を行い、復号LPC係数を生成する。LPC係数復号部613は、復号LPC係数を合成フィルタ615に出力する。
音源復号部614は、予め定められた複数種類のビットレートに基づいた音源信号の復号を行う。音源復号部614は、フレームモードおよび低域符号化レートの情報を用いて音源符号化データに対して復号処理を行い、音源信号を生成する。音源復号部614は、音源信号を合成フィルタ615に出力する。
合成フィルタ615は、復号LPC係数を基に合成フィルタを構成する。そして、合成フィルタ615は、音源信号を当該合成フィルタに通してフィルタ処理を行い、復号低域信号を生成する。合成フィルタ615は、復号低域信号をアップサンプリング部206に出力する。なお、分離部611は必須の構成要素ではなく、図12の分離部202から直接、フレームモード、LPC係数符号化データ、音源符号化データをビットレート決定部612、LPC係数復号部613、音源復号部614に出力しても良い。この場合、分離部611は不要になる。
なお、本発明では、フレームモードの代わりに、LPC係数、ピッチ周期、ピッチゲインなどの符号化情報をビットレートの決定に使用する構成であっても良い。
ビットレートの決定にLPC係数の量子化情報を用いる場合、量子化後のLPC係数からスペクトル包絡を算出し、スペクトル包絡の表すホルマントの大きさからビットレートを決定する。その具体例として、予め定められたサブバンド毎にスペクトル包絡のエネルギーを算出し、当該エネルギーが最大となるサブバンドと最小となるサブバンドを検出し、サブバンドエネルギーの最大値に対する最小値の比を求める。この比と閾値とを比較し、この比が閾値を超える場合、LPC係数が入力信号のホルマントを精度良く表しているとみなすことができるので、低域符号化レートが低く、高域符号化レートが高いビットレートの組合せを選択する。逆にこの比が閾値以下の場合、低域符号化レートが高く、高域符号化レートが低いビットレートの組合せを選択する。
ビットレートの決定にピッチ周期を用いる場合、ピッチ周期の時間的な変化量が閾値より小さい場合に、適応符号帳又はピッチフィルタによる予測が効率的に行われているとみなすことができる。そのため、低域符号化レートが低く、高域符号化レートが高いビットレートの組合せを選択する。逆に、ピッチ周期の時間的な変化量が閾値以上の場合、低域符号化レートが高く、高域符号化レートが低いビットレートの組合せを選択する。
ビットレートの決定にピッチゲインを用いる場合、ピッチゲインの大きさが閾値より大きい場合に、適応符号帳又はピッチフィルタによる予測が効率的に行われているとみなすことができる。そのため、低域符号化レートが低く、高域符号化レートが高いビットレートの組合せを選択する。逆に、ピッチゲインの大きさが閾値以下の場合、低域符号化レートが高く、高域符号化レートが低いビットレートの組合せを選択する。
以上、本発明の各実施の形態について説明した。
なお、以上の説明では、G.718Bを例に説明したが、本発明はこれに限定されない。階層符号化でかつ各レイヤの少なくとも1つのレイヤがマルチレートの符号化方式であれば、本発明の効果を享受できる。各実施の形態では、マルチレートの種類の少ないG.718Bを用いて説明したため、全体ビットレートが40kbit/sのときにのみ、実施の形態1で説明した低域符号化レートおよび高域符号化レートの組み合わせの切り替えによる本発明の効果が得られた。しかし、マルチレートの種類が多い場合には、同一の全体ビットレートに対して低域符号化レートと高域符号化レートの組み合わせが数多く存在するようになる。そのような場合には、本発明の効果がより大きく得られる。
図14は、低域符号化レートと高域符号化レートの組み合わせの具体的な例を示す図である。図14では、低域符号化レートが8kbit/sから20kbit/sまで2kbit/s刻みでサポートされ、高域符号化レートが4kbit/sから16kbit/sまで2kbit/s刻みでサポートされている例を示している。図14において、例えば、全体のビットレートが24kbit/sと設定された場合、低域符号化レートと高域符号化レートの組合せは、{20,4}、{18,6}、{16,8}、{14,10}、{12,12}、{10,14}、{8,16}の7通りが存在する。このように2種類よりも多くの組合せが存在する構成であっても、本発明を適用することができる。
また、以上の説明では、信号帯域に対してスケーラビリティを有する多重化データを生成する符号化方式を例にして説明したが、本発明はこれに限定されない。信号帯域は一定でビットレートに対してスケーラビリティを有する多重化データを生成する符号化方式に対しても本発明の効果を享受できる。
また、以上の説明では、入力信号の特徴に基づいて、低域符号化レートおよび高域符号化レートを決定する方法について説明したが、これに限定されない。低域信号符号化部104(501)および高域信号符号化部105の演算量に基づいて、低域符号化レートおよび高域符号化レートを決定しても良い。これは、例えば、各実施の形態で説明した符号化装置および復号装置がバッテリで動作する携帯電話又は携帯端末に適用された場合に有効である。具体的には、バッテリの残量が少なくなったときに、演算量の少ない符号化方式が動作する低域符号化レート又は高域符号化レートを選択することにより、バッテリの電力消費を抑えることができる。このように演算量に基づいて符号化レートを決定することにより、携帯電話又は携帯端末の動作の長時間化を図ることができる。
また、本発明は、低域符号化レートが所定の値よりも小さくならないように制限する構成であっても良い。このようにすることで、復号低域信号の音質が極端に悪くならないようにし、音質の低下を防ぐことができる。
また、低域符号化レートと高域符号化レートの時間的な変化が極端に大きくならないように制限する構成であっても良い。例えば、フレーム間のビットレートの変化量を最大2kbit/sより大きくならないようにする。図14の例でいうと、全体のビットレートが24kbit/sと設定され、低域符号化レートと高域符号化レートの組合せが、{20,4}から{8,16}へ変化させる必要が生じた場合、フレーム間で12kbit/sものビットレートの変化が生じてしまう。このような急激なビットレートの組合せの変化が生じないようにするため、例えば、{20,4}から{18,6}へ、{18,6}から{16,8}へ、というように1フレーム進む度に2kbit/sずつビットレートが変化するようにビットレートの変化量に制限を設ける。この場合、最終的にビットレートの組合せが{8,16}となるまでには、6フレーム分の時間が必要になる。このように徐々にビットレートが変化するように制限を設けることにより、急激なビットレートの変化に起因するフレーム間の音質の変化を最小限にし、音質劣化を軽減することができる。
また、本発明は、上記実施の形態に限定されず、種々変更して実施することが可能である。
また、上記実施の形態では、本発明をハードウェアで構成する場合を例にとって説明したが、本発明はハードウェアとの連携においてソフトウェアでも実現することも可能である。
また、上記実施の形態の説明に用いた各機能ブロックは、典型的には集積回路であるLSIとして実現される。これらは個別に1チップ化されてもよいし、一部又は全てを含むように1チップ化されてもよい。ここでは、LSIとしたが、集積度の違いにより、IC、システムLSI、スーパーLSI、ウルトラLSIと呼称されることもある。
また、集積回路化の手法はLSIに限るものではなく、専用回路又は汎用プロセッサで実現してもよい。LSI製造後に、プログラムすることが可能なFPGA(Field Programmable Gate Array)、又は、LSI内部の回路セルの接続又は設定を再構成可能なリコンフィギュラブル/プロセッサを利用してもよい。
さらには、半導体技術の進歩又は派生する別技術によりLSIに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積化を行ってもよい。バイオ技術の適用等が可能性としてありえる。
2010年12月14日出願の特願2010−278228及び2011年4月6日出願の特願2011−084440の日本出願に含まれる明細書、図面及び要約書の開示内容は、すべて本願に援用される。
本発明に係る符号化装置、復号装置およびそれら方法は、音声信号及び/又は音楽信号の符号化、復号を行う符号化装置等として有用である。
100、300、500 符号化装置
101 特徴分析部
102,203,301 ビットレート決定部
103 ダウンサンプリング部
104、501 低域信号符号化部
105 高域信号符号化部
106、515 多重化部
107 RTPパケット構成部
200、400、600 復号装置
201 RTPパケット分離部
202、611 分離部
204、601 低域信号復号部
205 高域信号復号部
206 アップサンプリング部
207 復号信号生成部
302 冗長ビット付加部
401 冗長ビット削除部
511 フレームモード判定部
512 ビットレート決定部
513 LPC係数符号化部
514 音源符号化部
515 多重化部
612 ビットレート決定部
613 LPC係数復号部
614 音源復号部
615 合成フィルタ

Claims (19)

  1. 入力信号の特徴を低域部および高域部ごと分析し、分析結果を示す特徴データを生成する分析手段と、
    低域符号化レートおよび高域符号化レートの合計であって予め設定されたトータル符号化レートと前記特徴データとに基づいて、前記低域符号化レートおよび前記高域符号化レートの組み合わせを決定する決定手段と、
    前記決定された低域符号化レートを用いて前記入力信号の低域部の符号化を行い、低域符号化データを生成する低域符号化手段と、
    前記決定された高域符号化レートを用いて前記入力信号の高域部の符号化を行い、高域符号化データを生成する高域符号化手段と、
    前記低域符号化データと、前記高域符号化データと、前記特徴データとを多重化する多重化手段と、
    を具備し、
    前記分析手段は、前記入力信号とLPC予測残差信号とのエネルギー比であるLPC予測ゲインと閾値との比較結果を前記特徴データとする、
    号化装置。
  2. 入力信号の特徴を低域部および高域部ごと分析し、分析結果を示す特徴データを生成する分析手段と、
    低域符号化レートおよび高域符号化レートの合計であって予め設定されたトータル符号化レートと前記特徴データとに基づいて、前記低域符号化レートおよび前記高域符号化レートの組み合わせを決定する決定手段と、
    前記決定された低域符号化レートを用いて前記入力信号の低域部の符号化を行い、低域符号化データを生成する低域符号化手段と、
    前記決定された高域符号化レートを用いて前記入力信号の高域部の符号化を行い、高域符号化データを生成する高域符号化手段と、
    前記低域符号化データと、前記高域符号化データと、前記特徴データとを多重化する多重化手段と、
    を具備し、
    前記決定手段は、前記組み合わせの候補を限定し、限定後の組み合わせの候補の中から実際に用いる組み合わせを決定し、
    前記決定された組み合わせのトータル符号化レートと、前記予め設定されたトータル符号化レートとの差分に応じた冗長ビットを、前記多重化されたデータに付加する付加手段を更に具備する、
    号化装置。
  3. 前記決定手段は、
    前記特徴データが、前記入力信号の低域部および高域部に共通に含まれる情報量である特徴量が前記高域部に多く含まれていることを示す場合、前記予め設定されたトータル符号化レートよりも、トータル符号化レートが低い組み合わせの候補の中から前記高域符号化レートが前記低域符号化レートよりも高い組み合わせを実際に用いる組み合わせに決定する、
    請求項記載の符号化装置。
  4. 入力信号の特徴を低域部および高域部ごと分析し、分析結果を示す特徴データを生成する分析手段と、
    低域符号化レートおよび高域符号化レートの合計であって予め設定されたトータル符号化レートと入力信号の低域部の符号化の際に使用される符号化情報とに基づいて、前記低域符号化レートおよび前記高域符号化レートの組み合わせを決定し、前記決定された低域符号化レートを用いて入力信号の低域部の符号化を行い、低域符号化データを生成する低域符号化手段と、
    前記決定された高域符号化レートを用いて前記入力信号の高域部の符号化を行い、高域符号化データを生成する高域符号化手段と、
    前記低域符号化データと、前記高域符号化データと、前記特徴データとを多重化する多重化手段と、
    を具備する符号化装置。
  5. 前記符号化情報は、入力信号の低域部がUnvoice(UC)、Voice(VC)、Transition(TC)、Generic(GC)のいずれに属するかを示すフレームモードである、請求項記載の符号化装置。
  6. 前記符号化情報は、LPC係数である、請求項記載の符号化装置。
  7. 前記符号化情報は、ピッチ周期である、請求項記載の符号化装置。
  8. 前記符号化情報は、ピッチゲインである、請求項記載の符号化装置。
  9. 請求項1または請求項2のいずれかに記載の符号化装置を備える移動局装置。
  10. 請求項1または請求項2のいずれかに記載の符号化装置を備える基地局装置。
  11. 低域符号化レートを用いて入力信号の低域部の符号化を行い生成された低域符号化データと、高域符号化レートを用いて前記入力信号の高域部の符号化を行い生成された高域符号化データと、前記低域部および前記高域部ごとに前記入力信号の特徴を分析した結果を示す特徴データとが多重化された多重化データを、前記低域符号化データと、前記高域符号化データと、前記特徴データとに分離する分離手段と、
    前記低域符号化レートおよび前記高域符号化レートの合計であって予め設定されたトータル符号化レートと前記特徴データとに基づいて、前記低域符号化レートと前記高域符号化レートとの組み合わせを決定する決定手段と、
    前記決定された低域符号化レートを用いて、前記低域符号化データを復号する低域復号手段と、
    前記決定された高域符号化レートを用いて、前記高域符号化データを復号する高域復号手段と、
    を具備し、
    前記決定手段は、前記組み合わせの候補を限定し、限定後の前記組み合わせの候補の中から実際に用いる組み合わせを決定し、
    前記決定された組み合わせのトータル符号化レートと前記予め設定されたトータル符号化レートとの差分に応じて前記多重化データに付加された冗長ビットを削除する削除手段を更に具備する、
    号装置。
  12. 前記決定手段は、
    前記特徴データが、前記入力信号の低域部および高域部に共通に含まれる情報量である特徴量が前記高域部に多く含まれていることを示す場合、予め設定されたトータル符号化レートよりも、トータル符号化レートが低い組み合わせの候補の中から前記高域符号化レートが前記低域符号化レートよりも高い組み合わせを実際に用いる組み合わせに決定する、請求項11記載の復号装置。
  13. 低域符号化レートを用いて入力信号の低域部の符号化を行い生成された低域符号化データと、高域符号化レートを用いて前記入力信号の高域部の符号化を行い生成された高域符号化データと、入力信号の低域部の符号化の際に使用される符号化情報とが多重化された多重化データを、前記低域符号化データと、前記高域符号化データと、前記符号化情報とに分離する分離手段と、
    前記低域符号化レートおよび前記高域符号化レートの合計であって予め設定されたトータル符号化レートと前記符号化情報とに基づいて、前記低域符号化レートと前記高域符号化レートとの組み合わせを決定し、前記決定された低域符号化レートを用いて、前記低域符号化データを復号する低域復号手段と、
    前記決定された高域符号化レートを用いて、前記高域符号化データを復号する高域復号手段と、
    を具備する復号装置。
  14. 請求項11記載の復号装置を備える移動局装置。
  15. 請求項11記載の復号装置を備える基地局装置。
  16. 入力信号の特徴を低域部および高域部ごと分析し、分析結果を示す特徴データを生成するステップと、
    低域符号化レートおよび高域符号化レートの合計であって予め設定されたトータル符号化レートと前記特徴データとに基づいて、前記低域符号化レートおよび前記高域符号化レートの組み合わせを決定するステップと、
    前記決定された低域符号化レートを用いて前記入力信号の低域部の符号化を行い、低域符号化データを生成するステップと、
    前記決定された高域符号化レートを用いて前記入力信号の高域部の符号化を行い、高域符号化データを生成するステップと、
    前記低域符号化データと、前記高域符号化データと、前記特徴データとを多重化するステップと、
    を具備し、
    前記特徴データは、前記入力信号とLPC予測残差信号とのエネルギー比であるLPC予測ゲインと閾値との比較結果である、
    号化方法。
  17. 入力信号の特徴を低域部および高域部ごと分析し、分析結果を示す特徴データを生成するステップと、
    低域符号化レートおよび高域符号化レートの合計であって予め設定されたトータル符号化レートと入力信号の低域部の符号化の際に使用される符号化情報とに基づいて、前記低域符号化レートおよび前記高域符号化レートの組み合わせを決定し、前記決定された低域符号化レートを用いて入力信号の低域部の符号化を行い、低域符号化データを生成するステップと、
    前記決定された高域符号化レートを用いて前記入力信号の高域部の符号化を行い、高域符号化データを生成するステップと、
    前記低域符号化データと、前記高域符号化データと、前記特徴データとを多重化するステップと、
    を具備する符号化方法。
  18. 低域符号化レートを用いて入力信号の低域部の符号化を行い生成された低域符号化データと、高域符号化レートを用いて前記入力信号の高域部の符号化を行い生成された高域符号化データと、前記低域部および前記高域部ごとに前記入力信号の特徴を分析した結果を示す特徴データとが多重化された多重化データを、前記低域符号化データと、前記高域符号化データと、前記特徴データとに分離するステップと、
    前記低域符号化レートおよび前記高域符号化レートの合計であって予め設定されたトータル符号化レートと前記特徴データとに基づいて、前記低域符号化レートと前記高域符号化レートとの組み合わせを決定するステップと、
    前記組み合わせの候補を限定し、限定後の前記組み合わせの候補の中から実際に用いる組み合わせを決定するステップと、
    前記決定された組み合わせのトータル符号化レートと前記予め設定されたトータル符号化レートとの差分に応じて前記多重化データに付加された冗長ビットを削除するステップと、
    前記決定された低域符号化レートを用いて、前記低域符号化データを復号するステップと、
    前記決定された高域符号化レートを用いて、前記高域符号化データを復号するステップと、
    を具備する復号方法。
  19. 低域符号化レートを用いて入力信号の低域部の符号化を行い生成された低域符号化データと、高域符号化レートを用いて前記入力信号の高域部の符号化を行い生成された高域符号化データと、入力信号の低域部の符号化の際に使用される符号化情報とが多重化された多重化データを、前記低域符号化データと、前記高域符号化データと、前記符号化情報とに分離するステップと、
    前記低域符号化レートおよび前記高域符号化レートの合計であって予め設定されたトータル符号化レートと前記符号化情報とに基づいて、前記低域符号化レートと前記高域符号化レートとの組み合わせを決定し、前記決定された低域符号化レートを用いて、前記低域符号化データを復号するステップと、
    前記決定された高域符号化レートを用いて、前記高域符号化データを復号するステップと、
    を具備する復号方法。
JP2012548620A 2010-12-14 2011-11-08 符号化装置、復号装置およびそれらの方法 Expired - Fee Related JP5706445B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012548620A JP5706445B2 (ja) 2010-12-14 2011-11-08 符号化装置、復号装置およびそれらの方法

Applications Claiming Priority (6)

Application Number Priority Date Filing Date Title
JP2010278228 2010-12-14
JP2010278228 2010-12-14
JP2011084440 2011-04-06
JP2011084440 2011-04-06
JP2012548620A JP5706445B2 (ja) 2010-12-14 2011-11-08 符号化装置、復号装置およびそれらの方法
PCT/JP2011/006236 WO2012081166A1 (ja) 2010-12-14 2011-11-08 符号化装置、復号装置およびそれらの方法

Publications (2)

Publication Number Publication Date
JPWO2012081166A1 JPWO2012081166A1 (ja) 2014-05-22
JP5706445B2 true JP5706445B2 (ja) 2015-04-22

Family

ID=46244286

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012548620A Expired - Fee Related JP5706445B2 (ja) 2010-12-14 2011-11-08 符号化装置、復号装置およびそれらの方法

Country Status (4)

Country Link
US (1) US9373332B2 (ja)
JP (1) JP5706445B2 (ja)
CN (1) CN102985969B (ja)
WO (1) WO2012081166A1 (ja)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9479886B2 (en) 2012-07-20 2016-10-25 Qualcomm Incorporated Scalable downmix design with feedback for object-based surround codec
US9761229B2 (en) 2012-07-20 2017-09-12 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for audio object clustering
US10199044B2 (en) * 2013-03-20 2019-02-05 Nokia Technologies Oy Audio signal encoder comprising a multi-channel parameter selector
CN104217727B (zh) * 2013-05-31 2017-07-21 华为技术有限公司 信号解码方法及设备
KR102244612B1 (ko) 2014-04-21 2021-04-26 삼성전자주식회사 무선 통신 시스템에서 음성 데이터를 송신 및 수신하기 위한 장치 및 방법
CN113259059B (zh) * 2014-04-21 2024-02-09 三星电子株式会社 用于在无线通信***中发射和接收语音数据的装置和方法
CN107452391B (zh) 2014-04-29 2020-08-25 华为技术有限公司 音频编码方法及相关装置
US10109285B2 (en) * 2014-09-08 2018-10-23 Sony Corporation Coding device and method, decoding device and method, and program
US10061554B2 (en) * 2015-03-10 2018-08-28 GM Global Technology Operations LLC Adjusting audio sampling used with wideband audio
CN106033982B (zh) * 2015-03-13 2018-10-12 ***通信集团公司 一种实现超宽带语音互通的方法、装置和终端
GB2559200A (en) * 2017-01-31 2018-08-01 Nokia Technologies Oy Stereo audio signal encoder
CN113870872A (zh) * 2018-06-05 2021-12-31 安克创新科技股份有限公司 基于深度学习的语音音质增强方法、装置和***
CN112885363A (zh) * 2019-11-29 2021-06-01 北京三星通信技术研究有限公司 语音发送方法和装置以及语音接收方法和装置、电子设备
EP4055594A4 (en) * 2019-11-29 2022-12-28 Samsung Electronics Co., Ltd. METHOD, DEVICE AND ELECTRONIC APPARATUS FOR TRANSMITTING AND RECEIVING A VOICE SIGNAL

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09504124A (ja) * 1994-08-10 1997-04-22 クゥアルコム・インコーポレイテッド 可変レートボコーダーにおけるエンコーディングレート選択決定のための方法および装置
JPH10268897A (ja) * 1997-03-28 1998-10-09 Sony Corp 信号符号化方法及び装置
JP2001222297A (ja) * 1999-11-29 2001-08-17 Digital Voice Syst Inc マルチバンドハーモニック変換コーダ
JP2001267928A (ja) * 2000-03-17 2001-09-28 Casio Comput Co Ltd オーディオデータ圧縮装置、及び記憶媒体
JP2002341900A (ja) * 2001-05-17 2002-11-29 Sony Corp 高能率符号化方法、高能率符号化装置、符号化データ復号方法、符号化データ復号装置、データ伝送方法、データ伝送装置、付加情報付加方法、付加情報付加装置および記録媒体
JP2005215502A (ja) * 2004-01-30 2005-08-11 Matsushita Electric Ind Co Ltd 符号化装置、復号化装置、およびこれらの方法
JP2005328542A (ja) * 2004-05-12 2005-11-24 Samsung Electronics Co Ltd 複数のルックアップテーブルを利用したデジタル信号の符号化方法、デジタル信号の符号化装置及び複数のルックアップテーブル生成方法
WO2007046027A1 (en) * 2005-10-21 2007-04-26 Nokia Corporation Audio coding
JP2009288560A (ja) * 2008-05-29 2009-12-10 Sanyo Electric Co Ltd 音声符号化装置、音声復号装置、及びプログラム

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3700820A (en) * 1966-04-15 1972-10-24 Ibm Adaptive digital communication system
KR100548891B1 (ko) 1998-06-15 2006-02-02 마츠시타 덴끼 산교 가부시키가이샤 음성 부호화 장치 및 음성 부호화 방법
KR20070037945A (ko) 2005-10-04 2007-04-09 삼성전자주식회사 오디오 신호의 부호화/복호화 방법 및 장치
JP2007258841A (ja) * 2006-03-20 2007-10-04 Ntt Docomo Inc チャネル符号化及び復号化を行うための装置及び方法
CN101197576A (zh) * 2006-12-07 2008-06-11 上海杰得微电子有限公司 一种音频信号编码、解码方法
WO2009084221A1 (ja) 2007-12-27 2009-07-09 Panasonic Corporation 符号化装置、復号装置およびこれらの方法
JP5448850B2 (ja) 2008-01-25 2014-03-19 パナソニック株式会社 符号化装置、復号装置およびこれらの方法
KR101452722B1 (ko) * 2008-02-19 2014-10-23 삼성전자주식회사 신호 부호화 및 복호화 방법 및 장치
JP5764488B2 (ja) 2009-05-26 2015-08-19 パナソニック インテレクチュアル プロパティ コーポレーション オブアメリカPanasonic Intellectual Property Corporation of America 復号装置及び復号方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09504124A (ja) * 1994-08-10 1997-04-22 クゥアルコム・インコーポレイテッド 可変レートボコーダーにおけるエンコーディングレート選択決定のための方法および装置
JPH10268897A (ja) * 1997-03-28 1998-10-09 Sony Corp 信号符号化方法及び装置
JP2001222297A (ja) * 1999-11-29 2001-08-17 Digital Voice Syst Inc マルチバンドハーモニック変換コーダ
JP2001267928A (ja) * 2000-03-17 2001-09-28 Casio Comput Co Ltd オーディオデータ圧縮装置、及び記憶媒体
JP2002341900A (ja) * 2001-05-17 2002-11-29 Sony Corp 高能率符号化方法、高能率符号化装置、符号化データ復号方法、符号化データ復号装置、データ伝送方法、データ伝送装置、付加情報付加方法、付加情報付加装置および記録媒体
JP2005215502A (ja) * 2004-01-30 2005-08-11 Matsushita Electric Ind Co Ltd 符号化装置、復号化装置、およびこれらの方法
JP2005328542A (ja) * 2004-05-12 2005-11-24 Samsung Electronics Co Ltd 複数のルックアップテーブルを利用したデジタル信号の符号化方法、デジタル信号の符号化装置及び複数のルックアップテーブル生成方法
WO2007046027A1 (en) * 2005-10-21 2007-04-26 Nokia Corporation Audio coding
JP2009288560A (ja) * 2008-05-29 2009-12-10 Sanyo Electric Co Ltd 音声符号化装置、音声復号装置、及びプログラム

Also Published As

Publication number Publication date
US9373332B2 (en) 2016-06-21
WO2012081166A1 (ja) 2012-06-21
JPWO2012081166A1 (ja) 2014-05-22
US20130132099A1 (en) 2013-05-23
CN102985969A (zh) 2013-03-20
CN102985969B (zh) 2014-12-10

Similar Documents

Publication Publication Date Title
JP5706445B2 (ja) 符号化装置、復号装置およびそれらの方法
KR101344174B1 (ko) 오디오 신호 처리 방법 및 오디오 디코더 장치
US9406307B2 (en) Method and apparatus for polyphonic audio signal prediction in coding and networking systems
JP5328368B2 (ja) 符号化装置、復号装置、およびこれらの方法
JP5203929B2 (ja) スペクトルエンベロープ表示のベクトル量子化方法及び装置
JP5363488B2 (ja) マルチチャネル・オーディオのジョイント強化
RU2418324C2 (ru) Поддиапазонный речевой кодекс с многокаскадными таблицами кодирования и избыточным кодированием
US7848921B2 (en) Low-frequency-band component and high-frequency-band audio encoding/decoding apparatus, and communication apparatus thereof
KR101139172B1 (ko) 스케일러블 음성 및 오디오 코덱들에서 양자화된 mdct 스펙트럼에 대한 코드북 인덱스들의 인코딩/디코딩을 위한 기술
KR101075845B1 (ko) 오디오 신호 인코딩
US9830920B2 (en) Method and apparatus for polyphonic audio signal prediction in coding and networking systems
US20080208575A1 (en) Split-band encoding and decoding of an audio signal
JP2010503881A (ja) 音声・音響送信器及び受信器のための方法及び装置
WO2008072737A1 (ja) 符号化装置、復号装置およびこれらの方法
JPWO2007126015A1 (ja) 音声符号化装置、音声復号化装置、およびこれらの方法
KR101081781B1 (ko) 대역폭 적응 양자화
WO2012169133A1 (ja) 音声符号化装置、音声復号装置、音声符号化方法及び音声復号方法
WO2008053970A1 (fr) Dispositif de codage de la voix, dispositif de décodage de la voix et leurs procédés
EP2057626B1 (en) Encoding an audio signal
Bhatt Implementation and overall performance evaluation of CELP based GSM AMR NB coder over ABE
JP5774490B2 (ja) 符号化装置、復号装置およびこれらの方法
KR101551236B1 (ko) 패킷 손실 은닉에서의 적응형 뮤팅 방법
Babu et al. High quality voice calls on mobile communication networks: A better user experience

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140508

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20140605

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20141028

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20141211

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150203

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150226

R150 Certificate of patent or registration of utility model

Ref document number: 5706445

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees