JP2011075936A - オーディオエンコーダ及びデコーダ - Google Patents

オーディオエンコーダ及びデコーダ Download PDF

Info

Publication number
JP2011075936A
JP2011075936A JP2009228953A JP2009228953A JP2011075936A JP 2011075936 A JP2011075936 A JP 2011075936A JP 2009228953 A JP2009228953 A JP 2009228953A JP 2009228953 A JP2009228953 A JP 2009228953A JP 2011075936 A JP2011075936 A JP 2011075936A
Authority
JP
Japan
Prior art keywords
signal
encoder
audio
decoder
encoded
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2009228953A
Other languages
English (en)
Other versions
JP5519230B2 (ja
Inventor
Shuji Miyasaka
修二 宮阪
Kosuke Nishio
孝祐 西尾
Takeshi Norimatsu
武志 則松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp
Original Assignee
Panasonic Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Corp filed Critical Panasonic Corp
Priority to JP2009228953A priority Critical patent/JP5519230B2/ja
Priority to CN201080043418.0A priority patent/CN102576534B/zh
Priority to PCT/JP2010/004728 priority patent/WO2011039919A1/ja
Publication of JP2011075936A publication Critical patent/JP2011075936A/ja
Priority to US13/433,063 priority patent/US8688442B2/en
Application granted granted Critical
Publication of JP5519230B2 publication Critical patent/JP5519230B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/22Mode decision, i.e. based on audio signal content versus external parameters

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

【課題】USACの規格が利用されるのに際し、適切な方法で、復号化後信号が加工できること。
【解決手段】複数の復号化器102xと、符号化信号が対応復号化器により復号化された復号化後信号を、伝送される情報により特定される方法で加工する帯域拡大器104と、前記複数の復号化器102xの中から、前記対応復号化器を特定する情報を、前記信号加工器に伝送する情報伝送器101とを備えるオーディオデコーダ1a。
【選択図】図1

Description

本発明は、低ビットレートで高音質を得られるような、オーディオエンコーダ及びオーディオデコーダに関する。特に、本発明は、入力信号が音声信号(人の声)であっても、非音声信号(楽音、自然音など)であっても、良好な音質が得られるようなオーディオエンコーダ及びオーディオデコーダに関する。
携帯電話等での通話に用いられる符号化方式は、所謂CELP(Code-Excited Linear Prediction)系のコーデックといわれる方式であり、入力信号を、線形予測係数と励振信号(当該線形予測係数を用いた線形予測フィルタの入力となる信号)とに分解し、分解されたそれぞれのデータを符号化する方式である。例えば、AMR(adaptive multi-rate)方式(非特許文献1参照)等がそれにあたる。この方式では、線形予測係数によって、声道の音響特性をモデル化し、励振信号によって、声帯の振動をモデル化しているので、スピーチ信号は効率的に符号化できるが、スピーチ信号以外の、自然音の信号(オーディオ信号)は、そのモデルに当てはまらないので、効率的に符号化できない。
一方、デジタルTVや、DVDプレーヤ、ブルーレイディスクプレーヤで用いられている符号化方式は、例えばAAC(Advanced Audio Coding)方式(非特許文献2参照)のような方式である。この方式は、入力信号の周波数スペクトルそのものを符号化する方式なので、スピーチ信号以外の自然音(オーディオ信号)でも良好な音質が得られるが、スピーチ信号に対しては、CELP系のコーデックほどの高圧縮率は得られない。
図11は、上記のことを定性的に表現した図である。
図11のグラフの横軸は、符号化のビットレートを示しており、縦軸は、音質を示している。そして、実線の曲線は、AACのようなオーディオコーデック(オーディオ用の方式が利用された際)における、ビットレートと音質との関係を示している。一点鎖線の曲線は、AMRのようなスピーチコーデックでスピーチ信号を処理した際(スピーチ用の方式が利用された際)のビットレートと音質との関係を示しており、破線の曲線は、スピーチコーデックにより、スピーチ信号でない信号を処理した際のビットレートと音質との関係を示している。ここで、図中の縦方向の細い破線で囲まれた範囲90が、入力信号によって最適なエンコーダが異なるビットレートの範囲を示している。なお、ビットレートに関する点は、後で詳しく述べられる。
そして、後で詳しく述べられるUSACの規格化の作業においては、範囲90のみが着目され、範囲90以外の範囲(範囲91)はあまり意識されていない。範囲90では、入力信号(符号化前信号)の種類により、入力信号がスピーチ信号の場合、スピーチコーデックの方が良好な音質を実現でき、逆に、入力信号がスピーチ信号でない場合には(入力信号がオーディオ信号である場合には)、オーディオコーデックの方が良好な音質を実現できる。
そのような中、近年、MPEGオーディオ規格化活動の中で、スピーチ信号も、スピーチ以外の自然音(オーディオ信号)も、ともに効率的に符号化できるような符号化規格(Unified Speech and Audio Codec : USAC)の検討が始まっている。
図9は、その概略のエンコード処理ブロック図を表している。
図9のブロック図において示される複数のブロックは、入力信号(符号化前信号)を符号化する際に、スピーチコーデックが適しているか、オーディオコーデックが適しているかを分類する入力信号分類器500と、入力信号の高域成分を符号化する高域信号符号化器501と、オーディオ信号符号化器502と、スピーチ信号符号化器503と、ビットストリーム生成器504とである。
図9に示すように、入力信号は、スピーチコーデックに適している信号か、オーディオコーデックに適している信号かが入力信号分類器500により分類される。そして、それぞれの分類がされた場合において、スピーチコーデックおよびオーディオコーデックの種類のうちで、適していると分類された方の種類に対応する符号化器(オーディオ信号符号化器502かスピーチ信号符号化器503)で符号化される。なお、その前段の高域信号符号化器501では、MPEG(Moving Picture Experts Group)で規格化された、帯域拡大技術(SBR(Spectral Band Replication)技術:ISO/IEC11496-3)のエンコード処理が行われ、デコード時の再生帯域の拡大に寄与している。
図10は、USACのデコード処理ブロック図を示している。
図10のブロック図において示される複数のブロックは、入力のビットストリームを符号化信号に分離するビットストリーム分離器600と、オーディオ信号復号化器601と、スピーチ信号復号化器602と、上記いずれかの復号化器で復号された信号の再生帯域を拡大する帯域拡大器603とである。
図10に示すように、入力のビットストリームはビットストリーム分離器600で、符号化信号に分離される。そして、当該符号化信号がオーディオ信号の符号化信号であると分類されれば、オーディオ信号復号化器601で処理され、スピーチ信号の符号化信号であると分類されれば、スピーチ信号復号化器602で処理される。これにより、PCM(Pulse Code Modulation)信号が生成される。なお、上記いずれの場合も、復号された信号に対しては、帯域拡大器603で、その信号の再生帯域が拡大される処理が行われる。
3GPP TS 26.090, Adaptive Multi-Rate (AMR) speech codec; Transcoding functions ISO/IEC 13818-7:2004, Information technology - Generic coding of moving pictures and associated audio information: - Part 7: Advanced Audio Coding (AAC).
しかしながら、上記のような構成では、エンコード時に、信号の性質を分析し、スピーチ信号なのかオーディオ信号なのかを把握できているにも関わらず、デコード処理の後処理の工程である後処理工程の信号加工器(図10でいえば帯域拡大器)に、その情報、つまり把握された情報を伝える手段がない。よって、信号加工器が最適な処理を実施することを妨げている。
本発明は、このような従来の課題に鑑みてなされたものであって、入力の符号化信号の性質に応じて、最適なデコード信号を生成するオーディオデコーダを提供することを目的とする。
ここで、図9のような構成では、何れのエンコーダを用いるかは、入力信号分類器500による分類によって決定される。
しかしながら、図11の範囲91で示したように、仮に、入力信号がスピーチ信号であると分類されたとしても、符号化のビットレートが、所定の値より大きい場合は(範囲91b)、スピーチ信号符号化器で符号化するよりも、オーディオ信号符号化器で符号化した方が高音質に符号化可能である。また、符号化前信号(入力信号)が、オーディオ信号と分類されても、ビットレートが、範囲91aの小さいビットレートである場合には、スピーチ用の符号化器により符号化された方が音質が高い。この事実があるのに、入力信号分類器500の出力(分類の結果)のみで、ビットレートに関わらず、どの符号化方式を用いるかを決定すると、最適な符号化方式が選択されないという課題がある。
なお、先の従来技術の説明でも、図11に言及された。しかし、この言及は、単なる、説明の便宜での言及である。図11は、このように、本発明の課題を説明する。
本発明は、このような従来の課題に鑑みてなされたものであって、最適な符号化方式で入力信号をエンコードできるようなオーディオエンコーダを提供することを目的とする。
つまり、本発明は、復号化された復号化後信号に加工がされるのに際して、適切な方法による加工ができることを目的とする。また、本発明は、確実に、適切な符号化方式により符号化ができることを目的とする。なお、本発明は、ひいては、これらの効果から派生する種々の効果を得ることを目的とする。
上記の課題を解決するために、本願のA1のオーディオデコーダは、入力信号の性質に応じて、複数の符号化方式のうちから、当該性質の前記入力信号の符号化に適切な符号化方式が選択されて、選択された前記符号化方式により符号化された符号化信号を復号化するオーディオデコーダであって、それぞれの復号化器が、前記複数の符号化方式のうちの1つにおける復号化を行い、その復号化器が、前記符号化信号が符号化された前記符号化方式の復号化を行う対応復号化器である場合には、その復号化器が前記符号化信号を復号化する複数の復号化器と、前記符号化信号が前記対応復号化器により復号化された復号化後信号を、複数の方法のうちで、当該信号加工器に伝送される情報により特定される前記復号化器により復号化された復号化後信号に適する方法で加工する信号加工器と、前記複数の復号化器の中から、前記対応復号化器を特定する情報を、前記信号加工器に伝送する情報伝送器とを備えるオーディオデコーダである。
また、本願のA2のオーディオエンコーダは、複数の符号化器と、入力信号の特徴に応じて、前記特徴に対応する分類を、前記入力信号の分類と特定する信号分類器と、前記信号分類器により特定された前記分類と、当該選択器に対して指定された指標とに応じて、前記複数の符号化器の中から、前記分類および前記指標に対応する利用符号化器を選択し、選択した前記利用符号化器に前記入力信号を符号化させる選択器とを備えるオーディオエンコーダである。
そして、A3の音信号処理システムは、A1のオーディオデコーダと、A2のオーディオエンコーダとを備える、USAC(Unified Speech and Audio Codec)の規格における音信号処理システムである。
この音信号処理システムでは、オーディオデコーダにおいて、符号化信号が一定の符号化方式による信号(例えば、スピーチコーデックでの符号化信号)の場合、より質の高い方法で(例えば、より精度よく)、復号化後信号の加工(例えば、帯域拡大)がされる。そして、オーディオエンコーダにおいて、分類が一定の範囲(例えば範囲91a)であっても、指標に対応する符号化器が選択される。これにより、より多くの場合に、上記一定の符号化方式の符号化器が選択され、確実に、質の高い適切な加工ができる。
この音信号処理システムが備えるA1のオーディオデコーダおよびA2のオーディオデコーダは、この効果を得るためのA3の音信号処理システムの2つの部品に利用できる。A1、A2、A3は、何れも、この目的(効果、課題)へと結ばれた技術であり、単一の技術範囲に属する。
また、本願のB1のオーディオデコーダは、入力信号の性質に応じて、複数の符号化方式から適切な符号化方式を選択し、該選択された符号化方式で符号化されたビットストリームを復号化するオーディオデコーダであって、符号化時に選択された符号化方式に対応した複数の復号化器からなる復号化器群と、前記復号化器の出力信号を加工する信号加工器と、前記復号化器群の中の何れの復号化器が用いられたかを示す情報を前記信号加工器に伝える情報伝送器とを有し、前記信号加工器は、前記情報伝送器からの情報に応じて異なる方法で信号を加工する。
本願のB2のオーディオデコーダは、B1のオーディオデコーダにおいて、前記復号化器群は、周波数スペクトル信号を符号化したビットストリームを復号化する第1の復号化器と、線形予測係数と励振信号とを符号化したビットストリームを復号化する第2の復号化器とを有し、前記信号加工器は、前記復号化器群で復号化された信号の再生帯域を拡大し、前記第2の復号化器によって復号化された信号に対し、前記線形予測係数に基づいて算出される周波数包絡特性に応じ再生帯域の拡大処理を実施する。
本願のB3のオーディオデコーダは、B1のオーディオデコーダにおいて、前記復号化器群は、周波数スペクトル信号を符号化したビットストリームを復号化する第1の復号化器と、線形予測係数と励振信号とを符号化したビットストリームを復号化する第2の復号化器とを有し、前記信号加工器は、音声信号を強調するための処理を実施し、前記第2の復号化器によって復号化された信号に対し、音声帯域を強調する処理を実施する。
本願のB4のオーディオエンコーダは、1からN(N>1)までの番号で順位付けられた複数の符号化器と、入力信号の特徴に応じて入力信号を分類する信号分類器と、前記複数の符号化器の中からどの符号化器を用いるかを選択する選択器とを有し、前記選択器は、前記信号分類器の出力と、予め指定された指標とに応じて、どの符号化器を用いるかを選択する。
本願のB5のオーディオエンコーダは、B4のオーディオエンコーダにおいて、順位1の符号化器は、入力信号の周波数スペクトル信号を符号化する符号化器であり、順位Nの符号化器は、入力信号を線形予測係数と励振信号とに分け、それぞれを符号化する符号化器である。
本願のB6のオーディオエンコーダは、B4のオーディオエンコーダにおいて、順位1の符号化器は、入力信号の周波数スペクトル信号を符号化する符号化器であり、順位Nの符号化器は、入力信号を線形予測係数と励振信号とに分け、それぞれを符号化する符号化器であるが、励振信号は時間軸信号として符号化し、順位M(1<M<N)の符号化器は、入力信号を線形予測係数と励振信号とに分け、それぞれを符号化する符号化器であるが、励振信号は周波数軸信号として符号化する。
本願のB7のオーディオエンコーダは、B4のオーディオエンコーダにおいて、前記指標は、符号化のビットレートであり、前記選択器は、ビットレートが高いときは、ビットレートが低いときに比べて、順位の若い符号化器を高い頻度で選択する。
本願のB8のオーディオエンコーダは、B4のオーディオエンコーダにおいて、前記指標は、用途であり、前記選択器は、用途が音声通話を含む用途である場合は、そうでない場合と比べて、順位の若い符号化器を低い頻度で選択する。
本発明によれば、復号化後信号に加工がされる際に、適切な方法で加工ができる。また、本発明によれば、確実に、適切な符号化方式により符号化ができる。また、ひいては、本発明によれば、確実に、適切な加工ができる。
B1のオーディオデコーダによれば、入力のビットストリームの性質に応じた最適なデコード信号を得ることができることとなる。
B2のオーディオデコーダによれば、入力のビットストリームがスピーチ信号を符号化したストリームである場合、最適な方法で再生帯域の拡大が実施できることとなる。
B3のオーディオデコーダによれば、入力のビットストリームがスピーチ信号を符号化したストリームである場合において、最適な方法で音声帯域の強調処理が実施できることとなる。
B4のオーディオエンコーダによれば、入力信号の性質と予め指定された指標に応じて最適な符号化器を選択できることとなる。
B5のオーディオエンコーダによれば、入力信号がスピーチ信号であってもオーディオ信号であっても最適な符号化器を選択でき高音質を得られることとなる。
B6のオーディオエンコーダによれば、入力信号がスピーチ信号であってもオーディオ信号であってもその中間的な信号であっても最適な符号化器を選択でき高音質を得られることとなる。
B7のオーディオエンコーダによれば、入力信号がスピーチ信号であってもオーディオ信号であってもビットレートに応じて最適な符号化器を選択でき高音質を得られることとなる。
B8のオーディオエンコーダによれば、入力信号がスピーチ信号であってもオーディオ信号であってもその用途に応じて最適な符号化器を選択でき高音質を得られることとなる。
図1は、本実施の形態1におけるオーディオデコーダの構成を示す図である。 図2は、本実施の形態1におけるオーディオデコーダのもう一つの構成を示す図である。 図3は、本実施の形態2におけるオーディオエンコーダの構成を示す図である。 図4は、本実施の形態2におけるオーディオエンコーダのもう一つの構成を示す図である。 図5は、音信号処理システムを示す図である。 図6は、オーディオエンコーダを示す図である。 図7は、本発明を応用した通信システムの構成図である。 図8は、エコーキャンセラの内部の構成図である。 図9は、従来の技術におけるオーディオデコーダの構成を示す図である。 図10は、従来の技術におけるオーディオエンコーダの構成を示す図である。 図11は、各符号化方式におけるビットレートと音質の傾向を示す図である。
以下、図面が参照されつつ、実施の形態が説明される。
(実施の形態1)
まず、本発明の実施の形態1におけるオーディオデコーダについて、図面を参照しながら説明する。
実施の形態1のオーディオデコーダは、入力信号(符号化前信号)の性質(例えば、スピーチの成分の量)に応じて、複数の符号化方式のうちから、当該性質の前記入力信号の符号化に適切な符号化方式が(オーディオエンコーダ3によって)選択されて、選択された前記符号化方式により(オーディオエンコーダ3によって)符号化された符号化信号を復号化するオーディオデコーダ(オーディオデコーダ1、オーディオデコーダ1a)であって、それぞれの復号化器(オーディオ信号復号化器102、スピーチ信号復号化器103)が、前記複数の符号化方式のうちの1つにおける復号化を行い、その復号化器が、前記符号化信号が符号化された前記符号化方式の復号化を行う対応復号化器(利用符号化器)である場合には、その復号化器(利用符号化器)が前記符号化信号を復号化する複数の復号化器(複数の復号化器102x)と、前記符号化信号が前記対応復号化器により復号化された復号化後信号を、複数の方法のうちで、当該信号加工器に伝送される情報(含有情報、種類信号)により特定される前記復号化器により復号化された復号化後信号に適する方法で加工する信号加工器(帯域拡大器104)と、前記複数の復号化器の中から、前記対応復号化器を特定する情報を、前記信号加工器に伝送する情報伝送器(情報伝送器101)とを備えるオーディオデコーダである。以下、詳しく説明される。
なお、適切な符号化方式とは、例えば、後で詳しく述べられるように、その符号化方式により符号化された符号化信号のデータ量、音質の品質が比較的高いことなどを意味する。
また、前記復号化器により復号化された復号化後信号に適する方法とは、例えば、後で詳しく述べられるように、その方法で加工された加工後信号が、予め定められた信号に、より近く、精度が高いことである。
図1は、本実施の形態1におけるオーディオデコーダ1aの構成を示す図である。
オーディオデコーダ1aは、図1において示されるように、ビットストリーム分離器100と、情報伝送器101と、オーディオ信号復号化器102と、スピーチ信号復号化器103と、帯域拡大器104とを備える。
ビットストリーム分離器100は、オーディオデコーダ1aへの入力のビットストリームから、そのビットストリームに含まれる符号化信号を分離する。
情報伝送器101は、前記ビットストリーム分離器100からの情報から、種類信号(含有情報、音声有無情報)を取り出す。種類信号は、ビットストリーム分離器100によって分離された前記符号化信号が、オーディオコーデックによって符号化された信号か、スピーチコーデックによって符号化された信号かを示す信号である。情報伝送器101は、この種類信号を取り出し、取り出した種類信号を、他のモジュール(後述の帯域拡大器104)に伝送する。
オーディオ信号復号化器102は、前記ビットストリーム分離器100で分離された符号化信号がオーディオコーデックによって符号化された信号である場合、当該符号化信号を復号化する。なお、オーディオ信号復号化器102は、例えば、先述の種類信号により、符号化信号が、オーディオコーデックによる信号と示される場合に、その符号化信号を復号化する。
スピーチ信号復号化器103は、前記ビットストリーム分離器100で分離された符号化信号がスピーチコーデックによって符号化された信号である場合、当該符号化信号を復号化する。
帯域拡大器104は、前記いずれかの復号化器で復号化された信号(復号化後信号)の再生帯域を拡大する。
本実施の形態1では、入力のビットストリームは、複数の符号化器(例えば、図3のオーディオ信号符号化器300およびスピーチ信号符号化器301等)を、入力信号の特徴に応じて切り替えながら、それらの符号化器を用いて生成されたビットストリームである。つまり、入力のビットストリームに含まれる符号化信号は、その符号化信号が符号化される前の符号化前信号がオーディオ信号である場合には、AAC方式のように入力信号の周波数スペクトルそのものを符号化した信号である。そして、符号化信号は、符号化前信号がスピーチ信号である場合には、AMR方式のように、入力信号を、線形予測係数と励振信号(当該線形予測係数を用いた線形予測フィルタの入力となる信号)とに分解し、それぞれを符号化した信号である。
以上のように構成されたオーディオデコーダの動作について以下説明する。
まず、ビットストリーム分離器100によって、入力のビットストリームから、符号化信号を分離する。
次に、情報伝送器101によって、前記ビットストリーム分離器100で分離された情報から、種類信号を取り出す。種類信号は、先述の通り、ビットストリーム分離器100により分離された前記符号化信号が、オーディオコーデックによって符号化された信号か、スピーチコーデックによって符号化された信号かを示す信号である。そして、情報伝送器101は、取り出した種類信号を帯域拡大器104に伝送する。
次に、前記ビットストリーム分離器100で分離された符号化信号が、オーディオコーデックによって符号化された信号である場合、当該符号化信号をオーディオ信号復号化器102で復号化する。
なお、本実施の形態では、例えばオーディオコーデックは、AAC方式としたので、当該オーディオ信号復号化器102は、AAC規格に準拠した復号化器であるが、必ずしもそれに限定されず、MP3方式や、AC3方式のように、周波数スペクトル信号を符号化する復号化器であればどのような復号化器であってもよい。
一方、前記ビットストリーム分離器100で分離された符号化信号が、スピーチコーデックによって符号化された信号である場合、当該符号化信号を、スピーチ信号復号化器103で復号化する。
なお、本実施の形態では、例えばスピーチコーデックは、AMR方式としたので、当該スピーチ信号復号化器103は、AMR規格に準拠した復号化器であるが、必ずしもそれに限定されず、G.729方式のように、入力信号を線形予測係数と励振信号とに分解しそれぞれを符号化する復号化器であればどのような復号化器であってもよい。
最後に、帯域拡大器104で、前記いずれかの復号化器、つまり、利用復号化器で復号化された信号(復号化後信号)の再生帯域を拡大する。ここで、利用復号化器は、復号化される符号化信号が、オーディオコーデックによる場合、オーディオ信号復号化器102であり、スピーチコーデックによる場合、スピーチ信号復号化器103である。ここで重要なことは、帯域拡大器104は、再生帯域を拡大する方法を、前記情報伝送器101からの情報に応じて変更することである。以下、その点に関して説明する。
入力の符号化信号がオーディオコーデックによる信号であった場合、帯域拡大器104が再生帯域を拡大する方法は、MPEGで既に規格化されたSBR方式のように、低域信号の周波数スペクトル信号を高域に複写し、所定のビットストリーム情報に基づいて、当該高域信号を整形する方法でよい(SBR技術:ISO/IEC11496-3参照)。
一方、入力の符号化信号がスピーチコーデックによる信号であった場合、帯域拡大器104が再生帯域を拡大する方法は、上記SBR方式を下記のように改良した方法を用いる。すなわち、まず上記SBR方式と同様の方法で高域周波数成分を生成した後、符号化信号に含まれている前記線形予測係数に基づいて高帯域の周波数包絡特性を算出し、算出された当該周波数包絡特性に応じて、高域の周波数特性を修正する。そうすることによって、高域の周波数特性が、より原音に近い特性に精度よく整形されるので、良好な音質が得られる。
なお、ここで、線形予測係数に基づいて高帯域の周波数包絡特性を算出する方法については、具体的には、例えば、従来から知られている方法を用いればよい。具体的には、例えば、特許第3189614号公報に記載された方法でよい。
上記のように本実施の形態によれば、入力のビットストリームから符号化信号を分離するビットストリーム分離器(ビットストリーム分離器100)と、前記ビットストリーム分離器からの情報から前記符号化信号がオーディオコーデックによって符号化された符号化信号か、スピーチコーデックによって符号化された符号化信号かを示す信号(種類信号)を取り出し、取り出した信号を、他のモジュールに伝送する情報伝送器(情報伝送器101)と、前記ビットストリーム分離器で分離された符号化信号が、オーディオコーデックによって符号化された信号である場合、当該符号化信号を復号化するオーディオ信号復号化器(オーディオ信号復号化器102)と、前記ビットストリーム分離器で分離された符号化信号が、スピーチコーデックによって符号化された符号化信号である場合、当該符号化信号を復号化するスピーチ信号復号化器(スピーチ信号復号化器103)と、前記いずれかの復号化器(利用復号化器)で復号化された信号(復号化後信号)の再生帯域を拡大する帯域拡大器(帯域拡大器104)とを備え、帯域拡大器が、情報伝送器から伝送される情報(種類信号)に応じて、再生帯域を拡大する処理方法を、その情報に対応する方法に変えることで、高域の周波数特性が、より原音に近い特性に精度よく整形され、よって良好な音質が得られることとなるオーディオデコーダ(オーディオデコーダ1a)が構築される。
図2は、オーディオデコーダ1b(ビットストリーム分離器200、オーディオ信号復号化器202、スピーチ信号復号化器203、音声帯域強調器204、情報伝送器201)を示す図である。
なお、本実施の形態では、復号化信号(復号化後信号)に対して信号加工器(帯域拡大器104)により行われる後処理工程として、周波数帯域を拡大する処理を説明したが、後処理工程(信号加工器)は、必ずしもそれに限らない。例えば、後処理工程の処理は、音声帯域強調処理であってもよい。
近年のオーディオ再生環境においては、再生する信号(復号化後信号)に、重低音信号や高域信号が含まれており、かつ、再生するスピーカーの周波数特性も改善されている(重低音信号から高域信号まで再生できる特性を有している)。このため、結果的に、リスナーはリッチな音響信号を楽しむことができるようになってきた。その反面、映画コンテンツなどの場合、音声(人の声:セリフ)が、リッチな音響信号の中に埋もれ、逆に聞き取り難い、という課題は生じている。このような場合、音声信号帯域を強調することで(重低音信号や高域信号を抑制することで)、音声は聞き取り易くなるが、逆に、リッチな音響信号を楽しむことができなくなる。
そのような場合、オーディオデコーダ1bの構成であれば、前記情報伝送器201からの信号(種類信号)が、スピーチ信号を再生している状態であることを示している場合、つまり、種類信号が、符号化信号がスピーチコーデックによることを示す場合に、次の処理が行われる。行われる処理は、音声信号帯域を信号加工器(音声帯域強調器204)が強調する処理である。この処理が行われることによって、次の問題が解決される。つまり、これによって、コンテンツに音声信号が含まれている場合だけ(例えばセリフが含まれている場合だけ)、当該音声信号を強調することができ、かつ、そうでない場合は、リッチな音響を楽しむこともできる。図2は、そのような場合の構成を示している。図1と図2とが異なるのは、帯域拡大器104が音声帯域強調器204に代わっていることだけである。
なお、本実施の形態では、復号化信号の後処理工程は、エコーキャンセラの処理であってもよい。
図7は、復号化信号の後処理工程がエコーキャンセラである場合の構成を示した図である。
図7において、入力のビットストリームは、音の符号化信号と、当該信号に音声が含まれているか否かを示す音声有無情報とから成っている。ここで音声有無情報は、先に示した例のように、当該フレームのビットストリーム(符号化信号)がオーディオコーデックで符号化されたストリームか、スピーチコーデックで符号化されたストリームかを示す情報であってもよいし、当該フレームに音声がどの程度含まれているかの割合を示すような情報であってもよい。また、音声のピッチ成分の強度を示すような情報であってもよい。
図7においては、音声有無情報分離器800と、デコーダ801と、スピーカー802と、マイクロホン803と、エコーキャンセラ804と、音声有無判定器805と、エンコーダ806とを備える通信システムが示される。
音声有無情報分離器800は、入力のビットストリームから音声有無情報を取り出す。
デコーダ801は、入力のビットストリームをデコードする。
ここで、デコーダ801は、前記音声有無情報を用いて、入力のビットストリームをデコードする方式のデコーダでもよいし、前記音声有無情報を用いないで、入力のビットストリームをデコードする方式のデコーダでもよい。
スピーカー802は、前記デコーダの出力信号を可聴信号に変換する。
マイクロホン803は、前記スピーカー802を音源とする音響空間の音を収音する。
エコーキャンセラ804は、前記デコーダ801でデコードされたデコード信号と、前記マイクロホン803で収音された信号と、前記音声有無情報とを当該エコーキャンセラ804に入力し、前記マイクロホン803で収音された信号から、前記デコード信号のエコーの成分を除去する。
音声有無判定器805は、前記エコーキャンセラ804の出力信号に、音声の成分が含まれているか否かを判定する。
エンコーダ806は、前記エコーキャンセラ804の出力信号を符号化する。
上記のような構成で、エコーキャンセラ804を含む通信システムを構成することによって得られる効果について述べる。
エコーキャンセラ804は、エコーが生成される空間の伝達関数を同定することによって、擬似的にエコー信号を、信号処理装置の内部で生成し、収音された信号(エコーを含む信号)から、当該生成された擬似エコー信号を減算することで、エコーを除去する(例えば電子情報通信学会論文誌 A Vol, J79-A No.6 pp.1138-1146 1996年6月“周波数帯域における音響エコー経路の変動特性を反映させたサブバンドESアルゴリズム”参照)。
ここで空間の伝達関数の同定は、マイクロホン803によって収音される音の音源が、スピーカー802から発生した音のみに起因する場合に可能である。すなわち、マイクロホン803で収音される音に、スピーカー802からの音以外の他の音が入ってきている場合(ダブルトークの場合)には、空間の伝達関数を同定することが困難である。そこで、そのような場合、つまり、収音される音に、他の音が入ってきている場合には、同定のための学習を中止するように制御する。そこで、図7で示したような構成であれば、音声有無情報分離器800で分離された音声有無情報をエコーキャンセラ804に転送することで、エコーキャンセラ804では、デコード音内の音声の成分の有無が容易に判定できる。これにより、ダブルトーク状態の検出が容易となる。
図8は、エコーキャンセラ900を示す図である。
ここでエコーキャンセラ804は、図8に示すエコーキャンセラ900(帯域分割器901、帯域分割器902、バンド毎処理部903、帯域合成器904)のように、入力信号をサブバンド分割し、対応するサブバンドごとに、空間の伝達関数を同定する方式でもよいが、各対応するサブバンドごとに、異なるタップ長のフィルタで、空間の伝達関数を同定してもよい。さらにこの場合、前記音声有無情報によって、音声が含まれていると判定される場合と、そうでない場合とで、タップ長を変更し、音声帯域の伝達関数を同定するように制御してもよい。
続けて、次の説明がされる。オーディオデコーダ1a(オーディオデコーダ1)の細部については、具体的には、例えば、次の説明のようであってもよい。ただし、次の説明は、単なる一例である。
図5は、音信号処理システム4を示す図である。
音信号処理システム4は、オーディオエンコーダ3と、オーディオデコーダ1とを備える。
オーディオデコーダ1は、オーディオデコーダ1aである。なお、オーディオデコーダ1は、オーディオデコーダ1bであってもよいし、他のデコーダであってもよい。
なお、オーディオデコーダ1aおよびオーディオデコーダ1bのそれぞれは、このように音信号処理システム4の一部である形態を有してもよいし、他の形態を有してもよい。
ビットストリーム分離器100は、オーディオデコーダ1に入力されたビットストリームから、ビットストリームに含まれた符号化信号を取得する。取得される符号化信号は、オーディオエンコーダ3により符号化前信号(オーディオエンコーダ3に入力された符号化前信号(入力信号))が符号化された信号である。
符号化信号は、複数の(N個の)種類の符号化信号のうちの、何れかの符号化信号である。それぞれの種類の符号化信号は、複数の(N個の)種類の符号化器(例えば、後述される図3の複数の符号化器300x)のうちの、何れかの符号化器により、その符号化器による符号化の方法で符号化された符号化信号である。
それぞれの種類の符号化信号は、その種類に対応する、スピーチの成分の量を有する。それぞれの種類の符号化信号は、対応する量のスピーチ成分を有する符号化前信号が符号化されるのに際して、複数の種類の符号化信号のうちで、最も適切な符号化信号である。
そして、複数の種類の符号化信号のうちには、その符号化信号が符号化される前の符号化前信号の線形予測係数と励振信号とが符号化された(線形予測係数等を表す)符号化信号である特定符号化信号が含まれる。線形予測係数および励振信号は、人の声道の音響特性のモデルに対応する予め定められた計算式が、それらの線形予測係数等について計算されることにより、その符号化前信号が算出されるデータである。
複数の復号化器102xは、それぞれの種類の符号化信号を復号化する複数の(N個の)復号化器(オーディオ信号復号化器102等)を含む。複数の復号化器102xは、ビットストリーム分離器100により取得された符号化信号を、その符号化信号の種類に対応する復号化器(利用復号化器)により復号化する。
すなわち、このオーディオデコーダ1は、現在、規格化が進められつつある最新の規格である、USACの規格のオーディオデコーダである。
そして、オーディオデコーダ1は、帯域拡大器104を備える。
帯域拡大器104は、利用復号化器により復号化された復号化後信号の高域の部分を、その復号化信号の符号化前信号(原音)における高域の部分に近づける修正を、復号化後信号の高域の部分に対して行う。帯域拡大器104は、これにより、復号化後信号の再生帯域を拡大する。
そして、より具体的には、帯域拡大器104は、このような再生帯域の拡大をする際に、第1の方法および第2の方法のうちから一方を特定し、特定された方法により、拡大を行う。
第1の方法では、帯域拡大器104は、復号化後信号における低域信号の周波数スペクトルに対応する周波数スペクトルを、復号化後信号の高域に複写する修正を、復号化後信号の高域の部分に行うことにより、帯域を拡大する。
第2の方法では、帯域拡大器104は、符号化信号からスピーチ信号復号化器103等により復号化された線形予測係数および励振信号から、特許第3189614号公報の方法などにより、復号化後信号の包絡特性を算出する。そして、帯域拡大器104は、算出された包絡特性により特定される、上記の第1の方法による修正よりも高い精度の修正を、復号化後信号の高域の部分に行うことで、帯域を拡大する。なお、ここで、精度が高いとは、例えば、拡大後の拡大後信号が、拡大がされた復号化後信号の基となった符号化前信号に対して、より近いことである。
具体的には、例えば、第2の方法では、第1の方法での加工後の信号の包絡特性よりも、算出された包絡特性に近い包絡特性を有する加工後の信号へと、加工を行うことにより、より復号化前信号に近い加工後の信号へと、加工を行ってもよい。
情報伝送器101は、例えばビットストリーム分離器100(選択情報取得部)などから、復号化される符号化信号が、線形予測係数および励振信号が符号化された特定符号化信号か否かを示す含有情報を取得する。なお、含有情報は、例えば、符号化信号の種類を示す、先述の種類信号の一部又は全部である。情報伝送器101は、取得された含有情報を、帯域拡大器104に伝送する。情報伝送器101は、符号化信号が、特定符号化信号ではない場合には、そのことを示す第1の含有情報を取得し、取得された第1の含有情報を帯域拡大器104に伝送することにより、第1の方法での帯域の拡大を帯域拡大器104に行わせる。他方、情報伝送器101は、符号化信号が、特定符号化信号である場合、そのことを示す第2の含有情報を取得し、伝送することにより、第2の方法での拡大を帯域拡大器104に行わせる。
このように、このオーディオデコーダ(オーディオデコーダ1、オーディオデコーダ1a)では、前記複数の符号化方式は、前記入力信号に含まれるスピーチの成分の量が第1の量である場合(図11の(1)の場合)に適する第1の方式と、第1の量よりも多い第2の量である場合(図11の(2)の場合)に適する第2の方式とを含み、前記第2の方式により符号化された前記符号化信号は、線形予測係数および励振信号が符号化された信号であり、当該線形予測係数および励振信号は、当該線形予測係数および励振信号について、人の声道の音響特性のモデルに対応する計算式がオーディオデコーダ1等によって計算されることにより、前記入力信号が算出されるデータであり、当該オーディオデコーダは、USAC(Unified Speech and Audio Codec)の規格におけるオーディオデコーダであり、前記線形予測係数は、前記入力信号の包絡特性を特定し、前記信号加工器は、当該信号加工器に伝送される前記情報により、前記第2の方式(特定符号化信号の方式)以外の他の方式に対応する復号化器(オーディオ信号復号化器102)が特定される場合には、前記復号化後信号を、当該復号化後信号よりも前記入力信号に近い第1の加工後信号へと加工し、前記情報により、前記第2の方式に対応する復号化器(スピーチ信号復号化器103)が特定される場合には、前記第1の加工後信号の包絡特性よりも、前記線形予測係数により特定される前記包絡特性に近い包絡特性を有し、前記第1の加工後信号よりも前記入力信号に近い、第2の加工後信号へと、前記入力信号を加工する。
これにより、包絡特性に基づいた、より適切な方法による加工が確実にできる。
なお、信号加工器(音声帯域強調器204)は、第2の方法の加工では、復号化後信号を、当該復号化後信号とは異なる加工後信号へと加工する(音声の強調を行う)一方で、第1の方法の加工における加工後信号は、前記復号化後信号と同一であってもよい(音声の強調がされていない信号であってもよい)。
(実施の形態2)
以下、本発明の実施の形態2におけるオーディオエンコーダについて、図面を参照しながら説明する。
実施の形態2のオーディオエンコーダは、複数の符号化器(複数の符号化器300x等)と、入力信号の特徴(例えば、スピーチの成分の量)に応じて、前記特徴に対応する分類を、前記入力信号の分類と特定する信号分類器(信号分類器302)と、前記信号分類器により特定された前記分類と、当該選択器に対して指定された指標(指標B)とに応じて、前記複数の符号化器の中から、前記分類および前記指標に対応する利用符号化器(選択符号化器)を選択し、選択した前記利用符号化器に前記入力信号を符号化させる選択器(選択器303)とを備えるオーディオエンコーダ(オーディオエンコーダ3c、オーディオエンコーダ3)である。以下、詳しく説明される。
図3は、本実施の形態2におけるオーディオエンコーダ3cの構成を示す図である。
オーディオエンコーダ3cは、図3において示されるように、オーディオ信号符号化器300と、スピーチ信号符号化器301と、信号分類器302と、選択器303と、ビットストリーム生成器304とを備える。
オーディオ信号符号化器300は、入力信号(符号化前信号)の周波数スペクトル信号を符号化する。
スピーチ信号符号化器301は、入力信号を線形予測係数と励振信号とに分け、分けられた線形予測係数と励振信号とのそれぞれを符号化する。
信号分類器302は、入力信号の特徴に応じて、入力信号を分類する。なお、具体的には、信号分類器302は、入力信号の分類として、その入力信号に含まれるスピーチの成分の量を示す分類を特定してもよい。
選択器303は、前記複数の符号化器300xの中から、どの符号化器をオーディオエンコーダ3cが用いるかを選択する。つまり、選択器303は、複数の符号化器300xのなかから、選択符号化器を選択し、符号化前信号の符号化に用いられる利用符号化器として、選択された選択符号化器を利用させる。
ビットストリーム生成器304は、利用符号化器により符号化されたそれぞれの符号化信号を、パッキングして、それぞれの符号化信号がパッキングされたビットストリームを生成する。
本実施の形態2では、オーディオ信号符号化器300を、順位1の符号化器とする。その符号化方式は、例えばAAC方式であるが、それに限られるのではなく、入力信号の周波数スペクトル信号を符号化する方式であればどのような方式であってもよい。また、本実施の形態2では、スピーチ信号符号化器301を、順位2の符号化器とする。その符号化方式は、例えばAMR方式であるが、それに限られるのではなく、入力信号を線形予測係数と励振信号とに分け、それぞれを符号化する方式であればどのような方式であってもよい。
次に、以上のように構成されたオーディオエンコーダ3cの動作について以下説明する。
まず、前記信号分類器302によって、入力信号の特徴に応じて、入力信号を分類する。具体的には、入力信号がスピーチ信号なのか、スピーチ信号でない信号なのかを、信号分類器302は分類する。もちろん、信号分類器302は、背景音を含むようなスピーチ信号の場合は、スピーチ信号の成分がどの程度含まれるのかを判断し、含まれると判断された程度(量)が閾値以上か否かに応じて、よりスピーチ信号に近いのか、そうでないのかを分類してもよい。例えば、信号分類器302は、入力信号が、完全にスピーチ信号だけを含んでいるような場合は、変数S(分類情報S)を10と特定し、逆にスピーチ信号を全然含んでいないような場合は、変数S(分類情報S)を0と特定する。また、信号分類器302は、その中間的な場合は、スピーチ信号が含まれる度合いに応じて、0から10までの値を変数Sに設定する。
次に、選択器303によって、前記信号分類器302で設定される値Sと、別途入力される指標Bとによって、前記複数の符号化器の中からどの符号化器を用いるかを(利用符号化器を)選択する。例えば指標Bは、符号化のビットレートである。
選択器303は、前記Sの値が小さい場合は(入力信号にスピーチ信号が含まれる度合いが小さい場合は)、順位の若い符号化器を選択する(本実施の形態では順位1の符号化器、すなわちオーディオ信号符号化器300を選択する)。そして、選択器303は、前記Sの値が大きい場合は(入力信号にスピーチ信号が含まれる度合いが大きい場合は)、順位の大きい符号化器を選択する(本実施の形態では順位2の符号化器、すなわちスピーチ信号符号化器301を選択する)。
ただし、選択器303は、指標Bで表される符号化ビットレートが、高いビットレートである場合は、順位の若い符号化器をより多く用いるように、符号化器を選択する。つまり、選択器303は、例えば、予め定められたビットレート以上のビットレートである場合は、そのビットレート以下のビットレートである場合に、予め定められた順位以下の順位の符号化器を用いる頻度(割合)よりも高い頻度(割合)で、その符号化器を用いる。
より具体的には、例えば、選択の処理は、次の通りである。
例えば、選択器303は、Bが24kbpsのときには、Sが5以下の場合に、オーディオ信号符号化器300を用い、Sが5より大きい場合に、スピーチ信号符号化器301を用いるように選択する。一方、選択器303は、例えば、Bが32kbpsのときには、Sが7以下の場合、オーディオ信号符号化器300を用い、Sが7より大きい場合、スピーチ信号符号化器301を用いるように、符号化器を選択する。また、選択器303は、例えばBが48kbpsの場合、Sの値に関わらずスピーチ信号符号化器301を用いないように選択する。これは、それぞれの符号化器による音質の傾向が、図11に示すようになっているからである。
図11の横軸は、符号化のビットレートを示しており、縦軸は音質を示している。実線の曲線は、AACのようなオーディオコーデックにおける、ビットレートと音質との関係を示している。一点鎖線の曲線は、AMRのようなスピーチコーデックでスピーチ信号処理した際のビットレートと音質との関係を示しており、破線の曲線は、スピーチコーデックで、スピーチ信号でない信号を処理した際のビットレートと音質との関係を示している。図11に示すように、ビットレートがある所定の値(例えば、範囲91bの下端の値)より大きい場合は、入力信号がスピーチ信号であっても、そうでなくても、オーディオコーデックの方が高音質に信号を符号化できる。
このような特徴を鑑みたとき、入力信号がスピーチ信号かどうかだけを手がかりに符号化器を選択することは相応しくない。そこで、選択器303で、外部から、分類情報Sとは別途、入力される指標Bによって、符号化器を選択するのである。
すなわち、例えば、信号分類器302は、複数の符号化器300xに含まれる符号化器の個数よりも多い個数の分類(S=0〜10)のうちから、符号化前信号の分類を特定してもよい。そして、選択器303は、それらの複数の分類の閾値として、指標B(例えば、24kbps)に対応する閾値(例えば5)を特定する。そして、選択器303は、信号分類器302により特定された分類(S)が、閾値(5)以下の小さい分類である場合、比較的低い順位の符号化器(オーディオ信号符号化器300)を選択し、閾値より大きい分類である場合(Sが5より大きい場合)、比較的高い順位の符号化器(スピーチ信号符号化器301)を選択する。
そして、選択器303は、指標Bにより、対比ビットレート(例えば、32kbps)ではないビットレート(例えば、48kbps)が示される場合には、対比ビットレートが示される場合に特定する対比閾値(7)とは異なる閾値(無限大)を特定する。つまり、選択器303は、対比ビットレートよりも大きいビットレート(48kbps)が示される場合、対比閾値よりも大きい閾値(例えば、無限大)を選択して、比較的低い順位の符号化器(オーディオ信号符号化器300)をより高い頻度で選択し、比較的高い順位の符号化器(スピーチ信号符号化器301)を、より低い頻度で選択する。他方、選択器303は、対比ビットレート(例えば、32kbps)よりも小さいビットレート(例えば、24kbps)が示される場合、対比閾値(7)よりも小さい閾値(5)を選択して、比較的低い順位の符号化器(オーディオ信号符号化器300)をより低い頻度で選択し、比較的高い順位の符号化器(スピーチ信号符号化器301)をより高い頻度で選択する。
また、選択器303は、閾値を特定しなくてもよい。そして、例えば、選択器303は、指標Bにより、予め定められたビットレート(例えば、図11の範囲90のビットレート)よりも大きなビットレート(例えば、範囲91bのビットレート)が示される場合には、信号分類器302により特定された分類に関わらず、何れの分類が特定された場合にでも、比較的高い順位の符号化器(スピーチ信号符号化器301)は選択せず、比較的低い順位の符号化器(オーディオ信号符号化器300)を選択してもよい。そして、選択器303は、指標Bにより、予め定められたビットレートより小さなビットレート(例えば、範囲91aのビットレート)が示される場合には、信号分類器302により特定された分類に関わらず、比較的低い順位の符号化器(オーディオ信号符号化器300)は選択せず、比較的高い順位の符号化器(スピーチ信号符号化器301)を選択してもよい。
次に、前記選択器303でオーディオ信号符号化器300が選択された場合、当該オーディオ信号符号化器300で入力信号を符号化する。
一方、前記選択器303でスピーチ信号符号化器301が選択された場合は、当該スピーチ信号符号化器301で入力信号を符号化する。
最後に、ビットストリーム生成器304で、1以上の符号化信号をビットストリームへとパッキングして、ビットストリームを生成する。
上記のように本実施の形態によれば、入力信号(符号化前信号)の周波数スペクトル信号を符号化するオーディオ信号符号化器(オーディオ信号符号化器300)と、入力信号を、線形予測係数と励振信号とに分け、それぞれを符号化するスピーチ信号符号化器(スピーチ信号符号化器301)と、入力信号の特徴に応じて、入力信号を分類する信号分類器(信号分類器302)と、前記複数の符号化器の中からどの符号化器を用いるか(選択符号化器(利用符号化器))を選択する選択器(選択器303)と、符号化信号をパッキングしてビットストリームを生成するビットストリーム生成器(ビットストリーム生成器304)とを備え、選択器において、信号分類器の分類結果(分類情報S)と、予め定められた指標B(ビットレート)とによって最適な符号化器を選択することで、入力信号の分類と、それぞれの符号化器の特性とに応じて、最適な符号化器が選択できるので良好な音質が得られる。
なお、指標Bは、以下に説明されるプロファイル情報でもよい。
本実施の形態では、前記選択器303に入力される指標を、符号化のビットレートとしたが、例えば、用途を表す指標であってもよい。すなわち、選択器303は、用途を表す指標が、音声通話を含む用途を示す場合は、そうでない場合と比べて、順位の若い符号化器を、あまり選択しないようにする。或いは全く選択しないようにする。
図6は、プロファイル情報(指標B)の表(図6下段)を示す図である。
図6下段の表の第1列に示される、「音声通話Profile」などのそれぞれは、USACの規格に対して、詳細な点の規定を加えた、USACの規格のプロファイルのうちの1つである。複数のプロファイルのうちの1つは、プロファイル情報(用途情報)たる指標Bにより特定される。
例えば、「音声通話Profile」は、携帯電話や、有線電話などの、音声通話に用いるのに適するプロファイルである。また、「AV Com Profile」は、テレビ電話での通信に適するプロファイルである。また、「Mobile TV Profile」は、ワンセグテレビの通信に適するプロファイルであり、「TV Profile」は、フルセグのテレビの通信に適するプロファイルである。
なお、「音声通話Profile」などの、複数のプロファイルのうちの1つ又は複数は、例えば、携帯電話の通信における規格により、その規格の一部として指定され、参照されるプロファイルであってもよい。
図6の表の第3列〜5列におけるそれぞれの列は、それぞれの行のプロファイルにおける、選択器303(選択器403)が選択することが許される許可符号化器を示す。第3列の丸印は、オーディオ信号符号化器300が許可符号化器であることを示し、第5列の丸印は、スピーチ信号符号化器301が許可符号化器であることを示す。
そして、高いビットレート(例えば48kbps)のプロファイルでは、順位の低い符号化器(オーディオ信号符号化器300、第3列)が許可符号化器であり、順位の高い符号化器(スピーチ信号符号化器301、第5列)が許可符号化器ではない。他方、低いビットレート(4kbpsなど)のプロファイルでは、順位の低い符号化器が許可符号化器ではなく、順位の高い符号化器(スピーチ信号符号化器301、第5列)が許可符号化器である。また、中間のビットレート(12kbps)のプロファイルでは、より低いビットレートのときの許可符号化器(スピーチ信号符号化器301)と、より高いビットレートのときの許可符号化器(オーディオ信号符号化器300)との両方がそれぞれ許可符号化器である。
そして、選択器303は、複数の符号化器のうちで、取得された指標Bにより示されるプロファイルについての1個又は複数個の許可符号化器のなかから、選択符号化器を選択し、許可符号化器ではない符号化器は選択しない。なお、例えば、選択器303は、選択した選択符号化器の順位を特定する順位情報Xを生成することにより、生成された順位情報Xが特定する選択符号化器により、符号化前信号を符号化させる。
なお、オーディオエンコーダ3c(オーディオエンコーダ3)は、例えば、選択器303により取得される指標Bが設定され、設定された指標Bを保持するプロファイル情報設定部B1(図6)を有しても良い。
これにより、プロファイルに基づいて、簡単かつ的確に、適切な符号化器が選択できる。
なお、前記選択器303に入力される指標は、符号化する信号のチャネル数を示す指標であってもよい。すなわち、選択器303は、チャネル数が多い場合は、そうでない場合に比べて、順位の若い符号化器を多く選択する。入力信号のチャネル数が多いということは、用途としては、リッチコンテンツを符号化する用途であると考えられるので、スピーチ信号のみが強く含まれているということを想定しない方が良いからである。
さて、本実施の形態は、符号化器として、順位1から順位2の2つの符号化器を用いてその動作を説明したが、もちろんそれに限られない。
図4は、符号化器として、順位1から順位3の3つの符号化器を用いたオーディオエンコーダ3d(オーディオエンコーダ3)を示す図である。図3と図4の構成要素で、異なることは、図4では混合信号符号化器405をさらに備えていることと、選択器403が、順位1から順位3までの3つの符号化器から符号化器を選択することである。他の構成要素は、図3の、その構成要素に対応する要素と同じである。ここでは、順位1の符号化器はオーディオ信号符号化器400であり、順位2の符号化器は混合信号符号化器405であり、順位3のスピーチ信号符号化器401である。
このような構成の場合、選択器403では、信号分類器402からの情報(分類情報)Sと、別途入力される指標Bによって、3つの符号化器の中から適切な符号化器を選択する。
選択器403は、前記Sの値が小さい場合は(入力信号にスピーチ信号の成分が含まれる度合いが小さい場合は)順位の若い符号化器を選択する(本実施の形態では順位1の符号化器、すなわちオーディオ信号符号化器400を選択する)。また、選択器403は、前記Sの値が大きい場合は(入力信号にスピーチ信号の成分が含まれる度合いが大きい場合は)順位の大きい符号化器を選択する(本実施の形態では順位3の符号化器、すなわちスピーチ信号符号化器401を選択する)。また、選択器403は、中間的な値の場合、混合信号符号化器405を選択する(本実施の形態では順位2の符号化器を選択する)。
ただし、選択器403は、指標Bで表される符号化ビットレートが高い場合は、順位の若い符号化器をより多く用いるように、選択をする。
具体的には、例えば、選択器403は、Bが24kbpsのときに、Sが3以下の場合、オーディオ信号符号化器400を用い、Sが3より大きく7以下の場合、混合信号符号化器405を用い、Sが7より大きい場合、スピーチ信号符号化器401を用いるように、選択をする。
そして、例えば、選択器403は、Bが32kbpsのときには、Sが5以下の場合、オーディオ信号符号化器400を用い、Sが5より大きく9以下の場合、混合信号符号化器405を用い、Sが9より大きい場合、スピーチ信号符号化器401を用いるように、選択をする。
また、例えば、選択器403は、Bが48kbpsのときには、Sが7以下の場合、オーディオ信号符号化器400を用い、Sが7より大きい場合、混合信号符号化器405を用い、Sの値に関わらずスピーチ信号符号化器401を用いないようにする。
逆に、例えば、選択器403は、Bが12kbpsのときには、Sが3以下の場合、混合信号符号化器405を用い、Sが7より大きい場合、スピーチ信号符号化器401を用い、Sの値に関わらず、オーディオ信号符号化器400は用いないようにする。
また、選択器403は、符号化された符号化信号の用途が、放送や音楽配信など、一定以上の高い音質が求められる用途の場合は、順位3の符号化器(スピーチ信号符号化器401)は用いないようにしてもよい。また、選択器403は、用途が、通話を含む用途の場合は、順位1の符号化器(オーディオ信号符号化器400)は用いないようにしてもよい。
ここで混合信号符号化器405は、入力信号を、線形予測係数と励振信号とに分け、それぞれを符号化する符号化器である。ただし、混合信号符号化器405は、分けられた励振信号については、その励振信号に対応する周波数軸信号を符号化することによって、その励振信号を符号化する。
なお、図6の表の第4列では、混合信号符号化器405が許可符号化器か否かが示される。選択器403は、例えば、プロファイルを示す指標Bに基づいて、上記の3つの符号化器のなかから、指標Bにより示されるプロファイルに対応する許可符号化器を、選択符号化器として選択してもよい。そして、選択器403は、こうして、3つの符号化器から、プロファイルに基づいて選択した選択符号化器により、符号化前信号を符号化させてもよい。
すなわち、要約すれば、実施の形態により、次の課題が解決される。つまり、この実施の形態は、低ビットレートで高音質を得られるようなオーディオエンコーダ及びオーディオデコーダに関する。そして、解決される課題とは、入力信号が音声信号(人の声)であっても、非音声信号(楽音、自然音など)であっても、良好な音質が得られるようなオーディオエンコーダ(オーディオエンコーダ3c等)及びオーディオデコーダ(オーディオデコーダ1a等)を提供することである。このために、符号化時に選択された符号化方式に対応した複数の復号化器からなる復号化器群と、前記復号化器(利用符号化器)の出力信号を加工する信号加工器と、前記復号化器群の中の何れの復号化器が用いられたか(利用符号化器)を示す情報を前記信号加工器に伝える情報伝送器と、を備えるオーディオデコーダが構築される。
なお、オーディオエンコーダ3cのより詳細な点は、例えば、次の説明のようであってもよい。ただし、次の説明は、単なる一例である。
つまり、オーディオエンコーダ3cは、複数の符号化器(複数の符号化器300x)と、信号分類器(信号分類器302)と、選択器(選択器303)とを備える。
信号分類器は、入力信号(符号化前信号)に含まれる、スピーチの成分の量(分類情報S)を、複数の量のなかから特定する。
前記複数の量は、予め定められた特定量(例えばS=6の量)を含む。
複数の符号化器は、特定符号化器を含む。特定符号化器は、含まれるスピーチの成分の量が、前記特定量(6)である符号化前信号の符号化において、前記符号化前信号が符号化された前記符号化信号のビットレートが第1のビットレート(例えば、24kbps)である場合には、前記複数の符号化器のうちで最適であり、第2のビットレート(例えば、32kbps)である場合には、最適ではない符号化器(スピーチ信号符号化器301)である。
それぞれの前記符号化器は、その符号化器が利用符号化器である場合に、前記符号化前信号を前記符号化後信号へと符号化する。
選択器は、前記信号分類器により特定された量が前記特定量(6)の場合において、指標(指標B)により示される、前記符号化後信号のビットレートが、前記第1のビットレート(24kbps)である場合には、前記特定符号化器(スピーチ信号符号化器301)を前記利用符号化器として選択し、前記第2のビットレート(32kbps)である場合には、前記特定符号化器を前記利用符号化器として選択しない。
これにより、スピーチの成分の量が特定量であるときにおいて、利用符号化器として、確実に、適切な符号化器が選択できる。
換言すれば、例えば、このオーディオエンコーダ(オーディオエンコーダ3)においては、次の通りである。
それぞれの前記符号化器は、その符号化器が前記利用符号化器である場合、前記入力信号を符号化信号へと符号化する。
前記複数の符号化器は、前記符号化信号のビットレートが予め定められた特定ビットレート(範囲91aのビットレート)である場合において、前記複数の符号化器のうちで最も適切に前記入力信号を符号化する特定符号化器(スピーチ信号符号化器301)を含む。
なお、最も適切に符号化するとは、先述のように、例えば、符号化された符号化信号のデータ量および音質の評価値が比較的高いことである。
前記選択器は、前記指標により示される、前記符号化信号のビットレートが、前記特定ビットレート(範囲91aのビットレート)である場合と、前記特定ビットレートでない場合と(範囲90、範囲91b)のうちで、前記特定ビットレートでない場合にのみ、前記特定符号化器以外の他の前記符号化器(オーディオ信号符号化器502)を、前記利用符号化器として選択する。
また、具体的には、例えば、次の通りである。
つまり、前記複数の符号化器は、前記符号化信号のビットレートが予め定められた特定ビットレート(24kbps)であり(かつSが6である)場合において、前記複数の符号化器のうちで最も適切に前記入力信号を符号化する特定符号化器(スピーチ信号符号化器301)を含む。
前記選択器は、前記指標により示される、前記符号化信号のビットレートが、前記特定ビットレート(24kbps)である場合と、前記特定ビットレートでない場合と(例えば32kbpsである場合と)のうちで、前記特定ビットレートでない場合にのみ、前記特定符号化器以外の他の前記符号化器(オーディオ信号符号化器502)を、(Sが6の場合において)前記利用符号化器として選択する。
そして、より詳細には、次の通りである。
前記特定符号化器は、前記入力信号が特定入力信号(Sが5以下の場合の入力信号)である場合には、前記符号化信号のビットレートが前記特定ビットレート(24kbps)でも、前記入力信号の符号化において、最も適切ではない。
前記信号分類器は、前記入力信号が前記特定入力信号(Sが5以下)であることを特定する。
前記選択器は、前記符号化信号のビットレートが、前記特定ビットレート(24kbps)であっても、前記信号分類器により前記入力信号が前記特定入力信号(Sが5以下)と特定される場合には、他の前記符号化器(オーディオ信号符号化器300)を選択する。
前記特定入力信号は、特定量(Sが5以下の量)だけスピーチの成分を含む前記入力信号である。
前記信号分類器は、前記入力信号に含まれる、スピーチの成分の量(S)を特定する。
前記選択器は、閾値を特定し、特定された前記閾値が、前記信号分類器により特定された前記量以上である場合に、他の前記符号化器(オーディオ信号符号化器300)を前記利用符号化器として選択し、特定された前記量未満である場合に、前記特定符号化器(スピーチ信号符号化器301)を選択する。なお、前記選択器は、前記符号化信号のビットレートが前記特定ビットレート(24kbps)である場合には、前記特定量(Sが5以下の量)以上の閾値(5)を特定する。
なお、音信号処理システム4は、例えば、オーディオエンコーダ3として、オーディオエンコーダ3c(オーディオエンコーダ3d)を備え、オーディオデコーダ1として、オーディオデコーダ1a(オーディオデコーダ1b)を備える、USACの規格における音信号処理システムである。
この音信号処理システム4によれば、オーディオデコーダ1において、比較的適切な方法での加工が実行される。そして、オーディオエンコーダ3により、適切な符号化方式が確実に選択されることにより、適切な方法での加工が確実に実行できる。
オーディオエンコーダ3c(オーディオエンコーダ3d)およびオーディオデコーダ1a(オーディオデコーダ1b)は、この音信号処理システム4を構成する2つの部品に利用できて、互いに密接な関係を有する。つまり、音信号処理システム4、オーディオエンコーダ3、オーディオデコーダ1は、何れもこの効果に結ばれた技術であり、単一の技術範囲に属する。すなわち、仮に、ボルトと、ナットと、それらボルトおよびナットを含んでなる全体たる結合具とが、単一の技術範囲に属すると仮定する。この音信号処理システム4は、全体である結合具に対応し、オーディオエンコーダ3は、ボルト及びナットのうちの一方に対応し、オーディオデコーダ1は他方に対応する。
なお、本発明は、上記の実施の形態に限定されるものではない。本発明の趣旨を逸脱しない限り、当業者が思いつく各種変形を上記の実施の形態に施した形態、あるいは異なる実施の形態における構成要素を組み合わせて構築される形態も、本発明の範囲内に含まれる。
今回開示された実施の形態はすべての点で例示であって、制限的な記載ではないと考えられるべきである。本発明の範囲は上記した説明ではなくて特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。
本発明にかかるオーディオデコーダは、符号化時に選択される複数の符号化方式に対応した複数の復号化器からなる復号化器群と、前記復号化器の出力信号を加工する信号加工器と、前記復号化器群の中の何れの復号化器が用いられたかを示す情報を前記信号加工器に伝える情報伝送器とを有し、前記信号加工器は、前記情報伝送器からの情報に応じて、異なる方法で信号を加工する。このため、入力の符号化信号の性質(スピーチ信号かオーディオ信号かの性質)に応じて最適なデコード信号を生成できるので、携帯端末からデジタルテレビなどの大型AV機器まで幅広い機器に応用できる。
本発明にかかるオーディオエンコーダは、1からN(N>1)までの番号で順位付けられた複数の符号化器と、入力信号の特徴に応じて、入力信号を分類する信号分類器と、前記複数の符号化器の中からどの符号化器を用いるかを選択する選択器とを有し、前記選択器は、前記信号分類器の出力と、予め指定された指標とに応じて、どの符号化器を用いるかを選択する。このため、最適な符号化方式で入力信号をエンコードすることによって、比較的低いビットレートで、スピーチ信号からオーディオ信号までの信号を高音質に符号化でき、従って、携帯端末からデジタルテレビなどの大型AV機器まで、幅広い機器に応用できる。
100、200 ビットストリーム分離器
101、201 情報伝送器
102、202 オーディオ信号復号化器
103、203 スピーチ信号復号化器
104 帯域拡大器
204 音声帯域強調器
300、400 オーディオ信号符号化器
301、401 スピーチ信号符号化器
302、402 信号分類器
303、403 選択器
304、404 ビットストリーム生成器
500 入力信号分類器
501 高域信号符号化器
502 オーディオ信号符号化器
503 スピーチ信号符号化器
504 ビットストリーム生成器
600 ビットストリーム分離器
601 オーディオ信号復号化器
602 スピーチ信号復号化器
603 帯域拡大器
800 音声有無情報分離器
801 デコーダ
802 スピーカー
803 マイクロホン
804 エコーキャンセラ
805 音声有無判定器
806 エンコーダ

Claims (13)

  1. 入力信号の性質に応じて、複数の符号化方式のうちから、当該性質の前記入力信号の符号化に適切な符号化方式が選択されて、選択された前記符号化方式により符号化された符号化信号を復号化するオーディオデコーダであって、
    それぞれの復号化器が、前記複数の符号化方式のうちの1つにおける復号化を行い、その復号化器が、前記符号化信号が符号化された前記符号化方式の復号化を行う対応復号化器である場合には、その復号化器が前記符号化信号を復号化する複数の復号化器と、
    前記符号化信号が前記対応復号化器により復号化された復号化後信号を、複数の方法のうちで、当該信号加工器に伝送される情報により特定される前記復号化器により復号化された復号化後信号に適する方法で加工する信号加工器と、
    前記複数の復号化器の中から、前記対応復号化器を特定する情報を、前記信号加工器に伝送する情報伝送器とを備えるオーディオデコーダ。
  2. 前記複数の復号化器は、
    前記入力信号の周波数スペクトル信号が符号化された前記符号化信号を復号化する第1の復号化器と、
    前記入力信号を表す線形予測係数と励振信号とが符号化された前記符号化信号を復号化する第2の復号化器とを有し、
    前記信号加工器は、前記対応復号化器により復号化された前記復号化後信号の再生帯域を拡大し、伝送された前記情報により前記第2の復号化器が特定される場合には、前記復号化後信号に対して、前記線形予測係数に基づいて算出される、周波数の包絡特性に応じた、再生帯域の拡大処理を実施する請求項1記載のオーディオデコーダ。
  3. 前記複数の復号化器は、
    前記入力信号の周波数スペクトル信号が符号化された前記符号化信号を復号化する第1の復号化器と、
    前記入力信号を表す線形予測係数と励振信号とが符号化された前記符号化信号を復号化する第2の復号化器とを有し、
    前記信号加工器は、伝送された前記情報により前記第2の復号化器が特定される場合には、前記復号化後信号に対して、当該復号化後信号における音声帯域の音を強調する処理を実施する請求項1記載のオーディオデコーダ。
  4. 前記複数の符号化方式は、前記入力信号に含まれるスピーチの成分の量が第1の量である場合に適する第1の方式と、第1の量よりも多い第2の量である場合に適する第2の方式とを含み、
    前記第2の方式により符号化された前記符号化信号は、線形予測係数および励振信号が符号化された信号であり、
    前記線形予測係数および励振信号は、当該線形予測係数および励振信号について、人の声道の音響特性のモデルに対応する計算式が計算されることにより、前記入力信号が算出されるデータであり、
    当該オーディオデコーダは、USAC(Unified Speech and Audio Codec)の規格におけるオーディオデコーダであり、
    前記線形予測係数は、前記入力信号の包絡特性を特定し、
    前記信号加工器は、
    当該信号加工器に伝送される前記情報により、前記第2の方式以外の他の方式に対応する復号化器が特定される場合には、前記復号化後信号を、当該復号化後信号よりも前記入力信号に近い第1の加工後信号へと加工し、
    前記情報により、前記第2の方式に対応する復号化器が特定される場合には、前記第1の加工後信号の包絡特性よりも、前記線形予測係数により特定される前記包絡特性に近い包絡特性を有し、前記第1の加工後信号よりも前記入力信号に近い、第2の加工後信号へと、前記入力信号を加工する請求項1記載のオーディオデコーダ。
  5. 複数の符号化器と、
    入力信号の特徴に応じて、前記特徴に対応する分類を、前記入力信号の分類と特定する信号分類器と、
    前記信号分類器により特定された前記分類と、当該選択器に対して指定された指標とに応じて、前記複数の符号化器の中から、前記分類および前記指標に対応する利用符号化器を選択し、選択した前記利用符号化器に前記入力信号を符号化させる選択器とを備えるオーディオエンコーダ。
  6. 前記複数の符号化器のそれぞれは、1からN(N>1)までの順位のうちの1つが付けられた請求項5記載のオーディオエンコーダ。
  7. 順位1の前記符号化器は、前記入力信号の周波数スペクトル信号を符号化する符号化器であり、
    順位N(1<N)の前記符号化器は、前記入力信号を線形予測係数と励振信号とに分け、分けられたそれぞれを符号化する符号化器である請求項6記載のオーディオエンコーダ。
  8. 順位1の前記符号化器は、前記入力信号の周波数スペクトル信号を符号化する符号化器であり、
    順位N(2<N)の前記符号化器は、前記入力信号を線形予測係数と励振信号とに分け、分けられたそれぞれを符号化し、分けられた前記励振信号の符号化に際して、前記励振信号の時間軸信号を符号化し、
    順位M(1<M<N)の前記符号化器は、前記入力信号を線形予測係数と励振信号とに分け、分けられたそれぞれを符号化し、分けられた前記励振信号の符号化に際して、前記励振信号の周波数軸信号を符号化する請求項6記載のオーディオエンコーダ。
  9. 前記指標は、前記利用符号化器により前記入力信号から符号化される符号化信号のビットレートを示し、
    前記選択器は、前記指標により示されるビットレートが第1のビットレートのときには、前記第1のビットレートよりも低い第2のビットレートのときに、予め定められた順位よりも若い順位の前記符号化器を選択する頻度よりも高い頻度で、当該若い順位の符号化器を選択する請求項6記載のオーディオエンコーダ。
  10. 前記指標は、前記利用符号化器により前記入力信号が符号化された符号化信号の用途を示し、
    前記選択器は、前記指標により示される前記用途が、音声通話を含む用途である場合は、前記音声通話を含まない用途である場合に、予め定められた順位よりも若い順位の前記符号化器を選択する頻度よりも低い頻度で、当該若い順位の符号化器を選択する請求項6記載のオーディオエンコーダ。
  11. それぞれの前記符号化器は、その符号化器が前記利用符号化器である場合、前記入力信号を符号化信号へと符号化し、
    前記複数の符号化器は、特定符号化器を含み、
    前記特定符号化器は、前記符号化信号のビットレートが予め定められた特定ビットレートである場合において、前記複数の符号化器のうちで最も適切に前記入力信号を符号化し、
    前記選択器は、前記指標により示される、前記符号化信号のビットレートが、前記特定ビットレートである場合と、前記特定ビットレートでない場合とのうちで、前記特定ビットレートでない場合にのみ、前記特定符号化器以外の他の前記符号化器を、前記利用符号化器として選択する請求項5記載のオーディオエンコーダ。
  12. 前記特定符号化器は、前記入力信号が特定入力信号である場合には、前記符号化信号のビットレートが前記特定ビットレートでも、前記入力信号の符号化において、最も適切ではなく、
    前記信号分類器は、前記入力信号が前記特定入力信号であることを特定し、
    前記選択器は、前記符号化信号のビットレートが、前記特定ビットレートであっても、前記信号分類器により前記入力信号が前記特定入力信号と特定される場合には、他の前記符号化器を選択する請求項11記載のオーディオエンコーダ。
  13. オーディオデコーダとオーディオエンコーダとを備える、USAC(Unified Speech and Audio Codec)の規格における音信号処理システムであって、
    前記オーディオデコーダは、請求項1記載のオーディオデコーダであり、
    前記オーディオエンコーダは、
    複数の符号化器と、
    入力信号の特徴に応じて、特徴に対応する分類を、前記入力信号の分類と特定する信号分類器と、
    前記信号分類器により特定された前記分類と、当該選択器に対して指定された指標とに応じて、前記複数の符号化器の中から、前記分類および前記指標に対応する利用符号化器を選択し、選択した前記利用符号化器に前記入力信号を符号化させる選択器とを備える音信号処理システム。
JP2009228953A 2009-09-30 2009-09-30 オーディオエンコーダ及び音信号処理システム Active JP5519230B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2009228953A JP5519230B2 (ja) 2009-09-30 2009-09-30 オーディオエンコーダ及び音信号処理システム
CN201080043418.0A CN102576534B (zh) 2009-09-30 2010-07-23 音频解码器、音频编码器、***
PCT/JP2010/004728 WO2011039919A1 (ja) 2009-09-30 2010-07-23 オーディオデコーダ、オーディオエンコーダ、システム
US13/433,063 US8688442B2 (en) 2009-09-30 2012-03-28 Audio decoding apparatus, audio coding apparatus, and system comprising the apparatuses

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009228953A JP5519230B2 (ja) 2009-09-30 2009-09-30 オーディオエンコーダ及び音信号処理システム

Publications (2)

Publication Number Publication Date
JP2011075936A true JP2011075936A (ja) 2011-04-14
JP5519230B2 JP5519230B2 (ja) 2014-06-11

Family

ID=43825773

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009228953A Active JP5519230B2 (ja) 2009-09-30 2009-09-30 オーディオエンコーダ及び音信号処理システム

Country Status (4)

Country Link
US (1) US8688442B2 (ja)
JP (1) JP5519230B2 (ja)
CN (1) CN102576534B (ja)
WO (1) WO2011039919A1 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014529755A (ja) * 2011-08-19 2014-11-13 シルコフ,アレクサンダー 多重構造、多重レベルの情報形式化および構造化方法、ならびに関連する装置
JP2014531056A (ja) * 2011-10-21 2014-11-20 サムスン エレクトロニクスカンパニー リミテッド フレームエラー隠匿方法及びその装置、並びにオーディオ復号化方法及びその装置
JP2015507222A (ja) * 2012-01-13 2015-03-05 クゥアルコム・インコーポレイテッドQualcomm Incorporated 複数コーディングモード信号分類
JP2016507789A (ja) * 2013-02-21 2016-03-10 クゥアルコム・インコーポレイテッドQualcomm Incorporated 平均符号化レートを制御するためのシステムおよび方法
JP2017526956A (ja) * 2014-07-26 2017-09-14 ホアウェイ・テクノロジーズ・カンパニー・リミテッド 時間ドメイン符号化と周波数ドメイン符号化の間の分類の改善
JP2018515813A (ja) * 2015-05-20 2018-06-14 テレフオンアクチーボラゲット エルエム エリクソン(パブル) マルチチャネルオーディオ信号のコード化

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102398124B1 (ko) * 2015-08-11 2022-05-17 삼성전자주식회사 음향 데이터의 적응적 처리
CN113724717B (zh) * 2020-05-21 2023-07-14 成都鼎桥通信技术有限公司 车载音频处理***、方法、车机控制器和车辆

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62123843A (ja) * 1985-11-25 1987-06-05 Nippon Telegr & Teleph Corp <Ntt> 通信方式
JPH02123400A (ja) * 1988-11-02 1990-05-10 Nec Corp 高能率音声符号化器
JP2000267699A (ja) * 1999-03-19 2000-09-29 Nippon Telegr & Teleph Corp <Ntt> 音響信号符号化方法および装置、そのプログラム記録媒体、および音響信号復号装置
JP2001318694A (ja) * 2000-05-10 2001-11-16 Toshiba Corp 信号処理装置、信号処理方法および記録媒体
JP2002301066A (ja) * 2001-04-06 2002-10-15 Mitsubishi Electric Corp 遠隔聴診装置
JP2005258226A (ja) * 2004-03-12 2005-09-22 Toshiba Corp 広帯域音声復号化方式及び広帯域音声復号化装置
JP2008139623A (ja) * 2006-12-04 2008-06-19 Nippon Telegr & Teleph Corp <Ntt> ディジタル電話機、音補正装置、方法、プログラム及びその記録媒体
JP2009527785A (ja) * 2006-02-24 2009-07-30 フランス テレコム 信号包絡線の量子化インデックスをバイナリ符号化する方法、信号包絡線を復号化する方法、および、対応する符号化および復号化モジュール

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3189614B2 (ja) 1995-03-13 2001-07-16 松下電器産業株式会社 音声帯域拡大装置
US5774837A (en) * 1995-09-13 1998-06-30 Voxware, Inc. Speech coding system and method using voicing probability determination
US6658383B2 (en) * 2001-06-26 2003-12-02 Microsoft Corporation Method for coding speech and music signals
CA2388352A1 (en) * 2002-05-31 2003-11-30 Voiceage Corporation A method and device for frequency-selective pitch enhancement of synthesized speed
WO2004090870A1 (ja) 2003-04-04 2004-10-21 Kabushiki Kaisha Toshiba 広帯域音声を符号化または復号化するための方法及び装置
CN101281749A (zh) * 2008-05-22 2008-10-08 上海交通大学 可分级的语音和乐音联合编码装置和解码装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62123843A (ja) * 1985-11-25 1987-06-05 Nippon Telegr & Teleph Corp <Ntt> 通信方式
JPH02123400A (ja) * 1988-11-02 1990-05-10 Nec Corp 高能率音声符号化器
JP2000267699A (ja) * 1999-03-19 2000-09-29 Nippon Telegr & Teleph Corp <Ntt> 音響信号符号化方法および装置、そのプログラム記録媒体、および音響信号復号装置
JP2001318694A (ja) * 2000-05-10 2001-11-16 Toshiba Corp 信号処理装置、信号処理方法および記録媒体
JP2002301066A (ja) * 2001-04-06 2002-10-15 Mitsubishi Electric Corp 遠隔聴診装置
JP2005258226A (ja) * 2004-03-12 2005-09-22 Toshiba Corp 広帯域音声復号化方式及び広帯域音声復号化装置
JP2009527785A (ja) * 2006-02-24 2009-07-30 フランス テレコム 信号包絡線の量子化インデックスをバイナリ符号化する方法、信号包絡線を復号化する方法、および、対応する符号化および復号化モジュール
JP2008139623A (ja) * 2006-12-04 2008-06-19 Nippon Telegr & Teleph Corp <Ntt> ディジタル電話機、音補正装置、方法、プログラム及びその記録媒体

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10140305B2 (en) 2011-08-19 2018-11-27 General Harmonics International Inc. Multi-structural, multi-level information formalization and structuring method, and associated apparatus
JP2014529755A (ja) * 2011-08-19 2014-11-13 シルコフ,アレクサンダー 多重構造、多重レベルの情報形式化および構造化方法、ならびに関連する装置
JP2014531056A (ja) * 2011-10-21 2014-11-20 サムスン エレクトロニクスカンパニー リミテッド フレームエラー隠匿方法及びその装置、並びにオーディオ復号化方法及びその装置
JP2016184182A (ja) * 2011-10-21 2016-10-20 サムスン エレクトロニクス カンパニー リミテッド フレームエラー隠匿方法及びその装置、並びにオーディオ復号化方法及びその装置
US11657825B2 (en) 2011-10-21 2023-05-23 Samsung Electronics Co., Ltd. Frame error concealment method and apparatus, and audio decoding method and apparatus
US10984803B2 (en) 2011-10-21 2021-04-20 Samsung Electronics Co., Ltd. Frame error concealment method and apparatus, and audio decoding method and apparatus
JP2018041109A (ja) * 2011-10-21 2018-03-15 サムスン エレクトロニクス カンパニー リミテッド フレームエラー隠匿方法及びその装置、並びにオーディオ復号化方法及びその装置
US10468034B2 (en) 2011-10-21 2019-11-05 Samsung Electronics Co., Ltd. Frame error concealment method and apparatus, and audio decoding method and apparatus
JP2015507222A (ja) * 2012-01-13 2015-03-05 クゥアルコム・インコーポレイテッドQualcomm Incorporated 複数コーディングモード信号分類
JP2016507789A (ja) * 2013-02-21 2016-03-10 クゥアルコム・インコーポレイテッドQualcomm Incorporated 平均符号化レートを制御するためのシステムおよび方法
JP2017161917A (ja) * 2013-02-21 2017-09-14 クゥアルコム・インコーポレイテッドQualcomm Incorporated 平均符号化レートを制御するためのシステムおよび方法
US10586547B2 (en) 2014-07-26 2020-03-10 Huawei Technologies Co., Ltd. Classification between time-domain coding and frequency domain coding
US10885926B2 (en) 2014-07-26 2021-01-05 Huawei Technologies Co., Ltd. Classification between time-domain coding and frequency domain coding for high bit rates
JP2017526956A (ja) * 2014-07-26 2017-09-14 ホアウェイ・テクノロジーズ・カンパニー・リミテッド 時間ドメイン符号化と周波数ドメイン符号化の間の分類の改善
JP2018515813A (ja) * 2015-05-20 2018-06-14 テレフオンアクチーボラゲット エルエム エリクソン(パブル) マルチチャネルオーディオ信号のコード化

Also Published As

Publication number Publication date
JP5519230B2 (ja) 2014-06-11
CN102576534B (zh) 2014-10-08
US20120185241A1 (en) 2012-07-19
US8688442B2 (en) 2014-04-01
WO2011039919A1 (ja) 2011-04-07
CN102576534A (zh) 2012-07-11

Similar Documents

Publication Publication Date Title
JP7244609B2 (ja) ビットバジェットに応じて2サブフレームモデルと4サブフレームモデルとの間で選択を行うステレオ音声信号の左チャンネルおよび右チャンネルを符号化するための方法およびシステム
JP5519230B2 (ja) オーディオエンコーダ及び音信号処理システム
JP6336086B2 (ja) 適合的帯域幅拡張およびそのための装置
US8060042B2 (en) Method and an apparatus for processing an audio signal
JP7019096B2 (ja) 低ビットレート符号化オーディオの増強を制御する方法及び機器
US9489962B2 (en) Sound signal hybrid encoder, sound signal hybrid decoder, sound signal encoding method, and sound signal decoding method
TW201419269A (zh) 用以再現音訊信號之裝置及方法、用以產生編碼音訊信號之裝置及方法、電腦程式、與編碼音訊信號
CA2708861A1 (en) A method and an apparatus for processing an audio signal
EP2839460A1 (en) Stereo audio signal encoder
JP7150996B2 (ja) ハイレゾリューションオーディオ符号化
JP7262593B2 (ja) ハイレゾリューションオーディオ符号化
Herre et al. Perceptual audio coding
JP7266689B2 (ja) ハイレゾリューションオーディオ符号化
JP2022517992A (ja) 高分解能オーディオコーディング

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120312

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130806

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130913

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140401

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140403

R151 Written notification of patent or utility model registration

Ref document number: 5519230

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350