JP5986565B2 - 音声符号化装置、音声復号装置、音声符号化方法及び音声復号方法 - Google Patents

音声符号化装置、音声復号装置、音声符号化方法及び音声復号方法 Download PDF

Info

Publication number
JP5986565B2
JP5986565B2 JP2013519367A JP2013519367A JP5986565B2 JP 5986565 B2 JP5986565 B2 JP 5986565B2 JP 2013519367 A JP2013519367 A JP 2013519367A JP 2013519367 A JP2013519367 A JP 2013519367A JP 5986565 B2 JP5986565 B2 JP 5986565B2
Authority
JP
Japan
Prior art keywords
band
signal
encoding
restriction
extension
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2013519367A
Other languages
English (en)
Other versions
JPWO2012169133A1 (ja
Inventor
勝統 大毛
勝統 大毛
押切 正浩
正浩 押切
江原 宏幸
宏幸 江原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Intellectual Property Corp of America
Original Assignee
Panasonic Intellectual Property Corp of America
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Intellectual Property Corp of America filed Critical Panasonic Intellectual Property Corp of America
Publication of JPWO2012169133A1 publication Critical patent/JPWO2012169133A1/ja
Application granted granted Critical
Publication of JP5986565B2 publication Critical patent/JP5986565B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B1/00Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission
    • H04B1/66Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission for reducing bandwidth of signals; for improving efficiency of transmission
    • H04B1/667Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission for reducing bandwidth of signals; for improving efficiency of transmission using a division in frequency subbands
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

本発明は、例えばスケーラブル構成を有する音声符号化装置、音声復号装置、音声符号化方法及び音声復号方法に関する。
移動体通信システムでは、電波資源等の有効利用のために、音声信号を低ビットレートに圧縮して伝送することが要求されている。その一方で、通話音声の品質向上及び臨場感の高い通話サービスの実現も望まれており、その実現には、より帯域の広い音声信号または音楽信号等を高品質に符号化することが望ましい。
このように相反する2つの要求に対し、複数の符号化技術を階層的に統合する技術が有望視されている。この技術は、入力信号を広帯域(0kHz〜7kHz)まで符号化する第1レイヤと、入力信号と第1レイヤの復号信号とを用いて超広帯域(7kHz〜16kHz)まで符号化を行う帯域拡張レイヤとを階層的に組み合わせるものである。以後、第1レイヤで符号化される信号帯域(0kHz〜7kHz)を広帯域部、帯域拡張レイヤで符号化される信号帯域(7kHz〜16kHz)を拡張帯域部と呼ぶ。図1は、入力信号スペクトルにおける広帯域部と拡張帯域部とを示す図である。
このように階層的に符号化を行う技術は、符号化装置から得られるビットストリームにスケーラビリティ性、すなわち、ビットストリームの一部の情報からでも復号信号を得ることができる性質を有するため、一般的にスケーラブル符号化(階層符号化)と呼ばれている。
スケーラブル符号化方式は、その性質から、ビットレートの異なるネットワーク間の通信に柔軟に対応することができるので、IPプロトコルで多様なネットワークが統合されていく今後のネットワーク環境に適したものと言える。
ITU−T(International Telecommunication Union Telecommunication Standardization Sector)で規格化された技術を用いてスケーラブル符号化を実現する例として、例えば、非特許文献1に開示されている技術がある。この技術は、第1レイヤにおいて、広帯域の信号を符号化し、帯域拡張レイヤにおいて、広帯域部の信号を用いて拡張帯域部の信号を拡張することで符号化を行う。このようなスケーラブル構成を用いることにより、音声信号及び、音声信号よりも帯域の広い音楽信号等の符号化における高品質化を図ることが可能となる。
超広帯域までの信号を符号化して高音質を実現する符号化方式の場合、信号帯域が広く、情報量が多いため、ビットレートが高くなる。一方、無線通信において、音声通話に使用できるビットレートは限られているため、なるべくビットレートを低くして音声通話を行いたいという需要がある。一般に、無線通信では、周波数資源に限りがあるため、個々の回線の通信容量を抑える必要があり、音声コーデックが用いるトータルビットレートは16kbps程度に抑えなければならない。
Recommendation ITU-T G.718 AnnexB,2010年3月
しかしながら、従来の装置においては、広帯域部の音声を高品質に符号化するためには相対的に高いビットレートが必要なため、拡張帯域部の音声の符号化には非常に低いビットレートしかビットを割り振ることができない。この結果、拡張帯域部において量子化ノイズが発生しやすくなり、全体としての品質を落としてしまうという問題がある。これに対して、広帯域部の音声の符号化に用いるビットレートを抑え、拡張帯域部の符号化に割り振るビットレートを増やした場合、広帯域音声の符号化品質が劣化するために、全体としての品質も劣化してしまうという問題がある。つまり、低ビットレートにおいて超広帯域の信号を含む音声を符号化する場合、広帯域部の品質と拡張帯域部の品質とはトレードオフの関係にある。
本発明の目的は、ビットレートを低くしても符号化に伴う全体的な品質の劣化を防ぐことができる音声符号化装置、音声復号装置、音声符号化方法及び音声復号方法を提供することである。
本発明の音声符号化装置は、広帯域の信号を第1レイヤにおいて符号化するとともに、前記広帯域よりも高域である拡張帯域の信号を帯域拡張レイヤにおいて符号化する音声符号化装置であって、前記拡張帯域において符号化の際に制限を加える帯域を選択する帯域選択手段と、入力信号の帯域のうち前記選択された帯域に前記制限を加える帯域制限手段と、を具備する構成を採る。
本発明の音声復号装置は、符号化装置において生成された、広帯域の信号を符号化することによって得られた第1レイヤ符号化情報を第1レイヤにおいて復号し、前記広帯域よりも高域である拡張帯域の信号を符号化することによって得られた帯域拡張レイヤ符号化情報を帯域拡張レイヤにおいて復号する音声復号化装置であって、前記拡張帯域において出力の際に制限を加える帯域を選択する帯域選択手段と、復号信号の帯域のうち前記選択された帯域に前記制限を加える帯域制限手段と、を具備する構成を採る。
本発明の音声符号化方法は、広帯域の信号を第1レイヤにおいて符号化するとともに、前記広帯域よりも高域である拡張帯域の信号を帯域拡張レイヤにおいて符号化する音声符号化方法であって、前記拡張帯域において符号化の際に制限を加える帯域を選択するステップと、入力信号の帯域のうち前記選択された帯域に制限を加えるステップと、を具備するようにした。
本発明の音声復号方法は、広帯域の信号を第1レイヤにおいて復号するとともに、前記広帯域よりも高域である拡張帯域の信号を帯域拡張レイヤにおいて復号する音声復号方法であって、前記拡張帯域において出力の際に制限を加える帯域を選択するステップと、復号信号の帯域のうち前記選択された帯域に前記制限を加えるステップと、を具備するようにした。
本発明によれば、ビットレートを低くしても符号化に伴う全体的な品質の劣化を防ぐことができる。
入力信号スペクトルにおける広帯域部と拡張帯域部とを示す図 本発明の実施の形態1に係る音声符号化装置の構成を示すブロック図 本発明の実施の形態1における適応帯域制限部の構成を示すブロック図 本発明の実施の形態1における適応帯域選択部の構成を示すブロック図 本発明の実施の形態1における音声復号装置の構成を示すブロック図 本発明の実施の形態2における適応帯域選択部の構成を示すブロック図 本発明の実施の形態2における帯域制限周波数の決定方法を示す図 本発明の実施の形態2における帯域制限周波数決定部の動作を示すフロー図 本発明の実施の形態2に係る音声符号化装置の変形例を示すブロック図 本発明の実施の形態2の変形例における適応帯域制限部の構成を示すブロック図 本発明の実施の形態2の変形例における適応帯域選択部の構成を示すブロック図 本発明の実施の形態3における適応帯域選択部の構成を示すブロック図 本発明の実施の形態3における帯域制限周波数の決定方法を示す図 スケーラブル構成ではない音声符号化装置の構成を示すブロック図 本発明の実施の形態4に係る音声復号装置の構成を示すブロック図 本発明の実施の形態4の変形例に係る音声復号装置の構成を示すブロック図 本発明の実施の形態4の変形例における適応帯域制限部の構成を示すブロック図
以下、本発明の実施の形態について、図面を参照して詳細に説明する。
(実施の形態1)
<音声符号化装置の構成>
図2は、本発明の実施の形態1に係る音声符号化装置100の構成を示すブロック図である。
音声符号化装置100は、所定の時間間隔(フレーム)単位で入力信号の符号化処理を行ってビットストリームを生成し、生成したビットストリームを図示しない通信路(transmission channel)へ伝送する。
第1レイヤ符号化部101は、入力信号の第1レイヤにおける符号化処理を行い、第1レイヤ符号化データを生成する。第1レイヤ符号化部101は、生成した第1レイヤ符号化データを帯域拡張レイヤ符号化部103及び多重化部104に出力する。
適応帯域制限部102は、入力信号のピッチ周期に基づいて制限を加える帯域を選択し、帯域拡張レイヤの入力信号の帯域のうち、選択した帯域に制限を加える。そして、適応帯域制限部102は、選択した帯域に制限を加えた帯域制限信号を、帯域拡張レイヤ符号化部103に出力する。ここで、制限を加える帯域とは、帯域拡張レイヤにおいて符号化対象から除外する帯域、または帯域拡張レイヤにおいてエネルギーを減衰させる帯域である。なお、適応帯域制限部102の構成の詳細については後述する。
帯域拡張レイヤ符号化部103は、第1レイヤ符号化部101から入力した第1レイヤ符号化データと、適応帯域制限部102から入力した帯域制限信号とを用いて、拡張帯域部の帯域拡張レイヤにおける符号化処理を行い、帯域拡張レイヤ符号化データを生成する。帯域拡張レイヤ符号化部103は、生成した帯域拡張レイヤ符号化データを多重化部104に出力する。
多重化部104は、第1レイヤ符号化部101から入力した第1レイヤ符号化データと、帯域拡張レイヤ符号化部103から入力した帯域拡張レイヤ符号化データとを多重化してビットストリームを生成し、生成したビットストリームを図示しない通信路(transmission channel)に出力する。
<適応帯域制限部の構成>
図3は、本実施の形態における適応帯域制限部102の構成を示すブロック図である。
適応帯域選択部301は、入力信号の特徴を分析し、分析結果に基づいて、入力信号において制限を加える帯域を選択する。適応帯域選択部301は、選択した制限を加える帯域の情報を帯域制限周波数として帯域制限信号生成部302に出力する。なお、適応帯域選択部301の構成の詳細については後述する。
帯域制限信号生成部302は、入力信号と適応帯域選択部301から入力した帯域制限周波数とに基づいて帯域制限信号を生成し、生成した帯域制限信号を帯域拡張レイヤ符号化部103に出力する。
具体的には、帯域制限信号生成部302は、適応帯域選択部301から入力した帯域制限周波数より低域の周波数を通過域とし、入力信号の帯域を制限する。即ち、帯域制限信号生成部302は、適応帯域選択部301により選択した帯域制限周波数より低域の入力信号を、帯域制限信号として帯域拡張レイヤ符号化部103に出力する。この場合には、帯域制限信号生成部302は、例えば低域通過フィルターにより構成される。
または、帯域制限信号生成部302は、入力信号のうち、適応帯域選択部301から入力した帯域制限周波数よりも高域のエネルギーを減衰させた信号を、帯域制限信号として帯域拡張レイヤ符号化部103に出力する。
<適応帯域選択部の構成>
図4は、本実施の形態における適応帯域選択部301の構成を示すブロック図である。
ピッチ周期算出部401は、入力信号のピッチ周期を算出し、算出したピッチ周期を帯域制限周波数決定部402に出力する。
帯域制限周波数決定部402は、ピッチ周期算出部401から入力したピッチ周期を用いて、ピッチ周期の逆数で表されるピッチ周波数F0を求め、求めたピッチ周波数F0を用いて帯域制限周波数Fcutを決定する。帯域制限周波数Fcutは、ピッチ周波数F0が低ければ高くなるように設定し、ピッチ周波数F0が高ければ低くなるように設定する。具体的には、帯域制限周波数Fcutは、以下の(1)式で表される。
Figure 0005986565
ピッチ周期が高い音声(高音)は、比較的超広帯域部にエネルギーを多く含んでいる傾向にあるため、低ビットレートにおいて帯域拡張レイヤで符号化した際にノイズ感が出やすい。従って、ピッチ周期が高い音声の場合には、ピッチ周期が低い音声(低音)の場合よりも帯域制限周波数Fcutを低く設定する。一方、ピッチ周期が低い音声は、ピッチ周期が高い音声に比べて超広帯域部に含まれるエネルギーが少ない傾向にあるため、低ビットレートにおいて帯域拡張レイヤで符号化した際でもノイズ感が知覚されにくい。従って、ピッチ周期が低い音声の場合には、ピッチ周期が高い音声(高音)の場合よりも帯域制限周波数Fcutを高く設定する。このように、帯域制限周波数Fcutをピッチ周期に応じて適応的に設定することによって、超広帯域部で発生する量子化ノイズの発生を抑え、音質改善を図ることができる。
帯域制限周波数決定部402は、決定した帯域制限周波数Fcutを帯域制限信号生成部302に出力する。これにより、帯域制限信号生成部302は、帯域制限周波数Fcutよりも高域を通過させないようにして帯域に制限を加える。または、帯域制限信号生成部302は、帯域制限周波数Fcutよりも高域のエネルギーを減衰させて帯域に制限を加える。
上記で説明したように、本実施の形態では、低ビットレートで超広帯域の信号を含む音声を符号化する際に、拡張帯域部で発生する量子化ノイズを低減させるために、帯域拡張レイヤに入力する信号の帯域を入力信号の特徴に合わせて適応的に制限する。一般に、音声の品質は低域の信号ほど聴感的に重要であり、例えば7kHz以上の周波数帯域では、信号の帯域幅の差による主観的な品質の違いは感じにくくなる。この原理を利用し、入力信号の特徴から拡張帯域部で量子化ノイズが発生しやすいと判断された場合には、入力信号の帯域幅を制限することで、出力信号のノイズ感を低減させる。このとき、帯域を制限したことによって帯域感の損失は生じるが、帯域幅の差による主観的な品質の違いは感じにくいことから、全体としての品質は向上する。
<音声復号装置の構成>
図5は、本発明の実施の形態1における音声復号装置500の構成を示すブロック図である。
分離部501は、図示しない通信路(transmission channel)を介して入力されるビットストリームを第1レイヤ符号化データと帯域拡張レイヤ符号化データとに分離して、第1レイヤ符号化データを第1レイヤ復号部502へ出力し、帯域拡張レイヤ符号化データを帯域拡張レイヤ復号部503へ出力する。ただし、輻輳の発生等の通信路の状況によっては、符号化データの一部(例えば、帯域拡張レイヤ符号化データ)、または符号化データの全てが廃棄されてしまう場合がある。この際、分離部501は、受信した符号化データに第1レイヤ符号化データのみが含まれる場合であるのか、または第1レイヤ符号化データと帯域拡張レイヤ符号化データとの双方が含まれる場合であるのかを判定し、その判定結果をレイヤ情報として切替部505に出力する。レイヤ情報は、例えば、前者の場合を「1」、後者の場合を「2」とする。なお、音声復号装置500は、全ての符号化データを廃棄した場合、所定の補償処理を行って出力信号を生成する。
第1レイヤ復号部502は、分離部501から入力した第1レイヤ符号化データの復号処理を行って第1レイヤ復号信号を生成し、生成した第1レイヤ復号信号を加算部504及び切替部505に出力する。
帯域拡張レイヤ復号部503は、分離部501から入力した帯域拡張レイヤ符号化データの復号処理を行って帯域拡張レイヤ復号信号を生成し、生成した帯域拡張レイヤ復号信号を加算部504に出力する。
加算部504は、第1レイヤ復号部502から入力した第1レイヤ復号信号と、帯域拡張レイヤ復号部503から入力した帯域拡張レイヤ復号信号とを加算して加算復号信号を生成し、生成した加算復号信号を切替部505に出力する。
切替部505は、分離部501から入力したレイヤ情報を参照し、第1レイヤ符号化データのみが含まれる場合(例えば、レイヤ情報が「1」の場合)には、第1レイヤ復号信号を復号信号として後処理部506に出力する。また、切替部505は、分離部501から入力したレイヤ情報を参照し、第1レイヤ符号化データと帯域拡張レイヤ符号化データとの双方が含まれる場合(例えば、レイヤ情報が「2」の場合)には、加算部504から入力した、第1レイヤ復号信号と帯域拡張レイヤ復号信号とを加算した加算復号信号を、復号信号として後処理部506に出力する。
後処理部506は、切替部505から入力した復号信号にポストフィルタ等の後処理を行い、出力信号として出力する。
<本実施の形態の効果>
本実施の形態によれば、ピッチ周期に応じて帯域制限周波数を適応的に調整し、帯域制限周波数以上の帯域は、帯域拡張レイヤにおける符号化対象から除外するか、または帯域拡張レイヤにおいてエネルギーを減衰させて聴感的な重要度を下げることにより、ビットレートを低くしても符号化に伴う全体的な品質の劣化を防ぐことができる。
<本実施の形態の変形例>
本実施の形態において、第1レイヤ符号化部101において入力信号を単に符号化したが、本発明はこれに限らず、入力信号が音声であるのか音楽であるのかをモード判定し、そのモード判定情報を適応帯域制限部102に出力し、適応帯域制限部102において入力信号が音声の場合と音楽の場合とによって帯域制限を行うか否かを切り替えてもよい。具体的には、入力信号が音声であった場合には帯域制限を行い、入力信号が音楽であった場合には帯域制限を行わないように切り替えてもよい。
また、本実施の形態において、適応帯域選択部301においてピッチ周波数F0から帯域制限周波数Fcutを決定する際に数式を用いたが、本発明はこれに限らず、テーブルを参照することにより、ピッチ周波数F0から帯域制限周波数Fcutを決定してもよい。この際、テーブルは、入力信号のピッチ周波数F0が低いほどFcutが高くなるように、または入力信号のピッチ周波数F0が高いほどFcutが低くなるように設計される。
また、本実施の形態において、拡張帯域部における帯域制限周波数Fcutより高域を帯域制限したが、本発明はこれに限らず、拡張帯域部における品質に影響を与える所定帯域幅を帯域制限してもよい。
また、本実施の形態において、ピッチ周期算出部401において入力信号のピッチ周期を算出したが、本発明はこれに限らず、第1レイヤ符号化部101で入力信号のピッチ周期を算出して帯域制限周波数決定部402に出力してもよい。この場合には、ピッチ周期算出部401を不要にすることができる。
(実施の形態2)
本実施の形態は、入力信号をFFT(Fast Fourier Transform)分析することによりスペクトルを求め、求めたスペクトルと、ピッチ周波数及びビットレートによって決まる閾値とを用いて帯域制限周波数を決定する点に特徴を有する。ここでビットレートは、音声符号化装置の外部から入力される。
<適応帯域選択部の構成>
図6は、本発明の実施の形態2における適応帯域選択部600の構成を示すブロック図である。なお、本実施の形態における音声符号化装置は、図2と同一構成であるので、その説明を省略する。本実施の形態における適応帯域制限部は、適応帯域選択部301の代わりに適応帯域選択部600を有する以外は図3と同一構成であるので、その説明を省略する。また、本実施の形態における音声復号装置は、図5と同一構成であるので、その説明を省略する。
スペクトル算出部601は、入力信号に対してFFT分析を行ってスペクトルを算出し、算出したスペクトルのスペクトル情報を帯域制限周波数決定部604に出力する。
ピッチ周期算出部602は、入力信号のピッチ周期を算出し、算出したピッチ周期を閾値算出部603に出力する。
閾値算出部603は、ピッチ周期算出部602から入力したピッチ周期と、入力したビットレートとから閾値を算出し、算出した閾値Ithを帯域制限周波数決定部604に出力する。ビットレートは、予め設定した値である。閾値Ithは、以下の(2)式より求められる。
Figure 0005986565
ここで、ピッチ周波数は、ピッチ周期算出部602から入力したピッチ周期の逆数で表される。(2)式より、閾値Ithは、ビットレートが高くなるほど大きくなり、ピッチ周波数が高くなるほど小さくなる。また、ビットレートは、コーデック全体に割り当てられるビットレートでもよいし、帯域拡張レイヤだけに割り当てられるビットレートでもよい。
帯域制限周波数決定部604は、スペクトル算出部601から入力したスペクトル情報と、閾値算出部603から入力した閾値とを用いて帯域制限周波数を決定し、決定した帯域制限周波数を帯域制限信号生成部302に出力する。
<帯域制限周波数の決定方法>
図7は、帯域制限周波数の決定方法を示す図である。図7は、超広帯域音声スペクトルを、E[0]〜E[8]の9つのサブバンドに分割した場合を示す。なお、超広帯域音声スペクトルは、9つのサブバンドに分割する場合に限らず、任意の数のサブバンドに分割することができる。また、各サブバンドの帯域幅は、等幅である場合に限らず、異なる幅であってもよい。
帯域制限周波数決定部604は、全サブバンドのエネルギーの総和Eallに対する、低域からの各サブバンドエネルギーE[k]の累積和Ef[k]のサブバンドエネルギーの比(Ef[k]/Eall)を求める。ここでkは0から8までの整数で表されるサブバンドインデックスである。そして、帯域制限周波数決定部604は、サブバンドエネルギー比が、閾値算出部603から入力した閾値Ithより大きな値になったときのサブバンドインデックスk(図7の場合はk=5)を帯域制限信号生成部302に出力する。
<帯域制限周波数決定部の動作>
図8は、帯域制限周波数決定部604の動作を示すフロー図である。
帯域制限周波数決定部604は、まず全サブバンドエネルギーの総和Eallを「0」にして初期化する(ステップST801)。
次に、帯域制限周波数決定部604は、全サブバンドエネルギーの総和Eallを求める(ステップST802)。
次に、帯域制限周波数決定部604は、サブバンドエネルギーの累積和Ef[k]を求めるために、サブバンドインデックスkとサブバンドエネルギーの累積和Ef[0]とを0にして初期化する(ステップST803)。
次に、帯域制限周波数決定部604は、サブバンドインデックスkに対応するサブバンドエネルギーの累積和Ef[k]を求め(ステップST804)、それを用いて得られるサブバンドエネルギー比(Ef[k]/Eall)と閾値算出部603から出力された閾値Ithとを比較する(ステップST805)。
サブバンドエネルギー比が閾値Ith以下の場合(ステップST805:NO)には、帯域制限周波数決定部604は、サブバンドインデックスkの値をインクリメントし(ステップST806)、所定の範囲の探索が終了したか否かを判定する(ステップST807)。
探索が終了していない場合(ステップST807:NO)には、帯域制限周波数決定部604は、サブバンドエネルギー比が閾値Ithより大きくなるまでステップST804〜ステップST807の処理を繰り返す。
一方、サブバンドエネルギー比が閾値Ithを超えた場合(ステップST805:YES)、または所定の範囲の探索が終了した場合(ステップST807:YES)には、帯域制限周波数決定部604は、そのときのサブバンドインデックスkを帯域制限信号生成部302に出力する(ステップST808)。サブバンドインデックスkの各々は、各サブバンドの上端周波数と一対一で各々対応しており、この上端周波数を帯域制限周波数と見なす。
このように、本実施の形態では、サブバンドエネルギー比を用いて帯域制限周波数を設定することで、全帯域の中でエネルギーが比較的大きい帯域と小さい帯域とに分割し、エネルギーが小さい帯域を符号化対象から除外するか、またはエネルギーが小さい帯域のエネルギーを減衰させることによって聴感的な重要度を下げる。
<本実施の形態の効果>
本実施の形態によれば、サブバンドエネルギー比に応じて帯域制限周波数を適応的に調整することにより、ビットレートを低くしても符号化に伴う全体的な品質の劣化を防ぐことができる。
<本実施の形態の変形例>
本実施の形態において、スペクトル算出部601は、入力信号に対してFFT分析を行うことによりスペクトルを算出したが、本発明はこれに限らず、第1レイヤ符号化部で生成されるLPC(Linear Prediction coding)係数を用いてスペクトル包絡を求めてもよい。
図9は、本実施の形態に係る音声符号化装置の変形例(音声符号化装置900)を示すブロック図である。なお、図9に示す音声符号化装置900は、図2に示す実施の形態1に係る音声符号化装置100に対して、適応帯域制限部102の代わりに適応帯域制限部901を有する。なお、図9において、図2と同一構成である部分には同一の符号を付してその説明を省略する。
第1レイヤ符号化部101は、入力信号の符号化処理を行い、第1レイヤ符号化データを生成する。第1レイヤ符号化部101は、生成した第1レイヤ符号化データを帯域拡張レイヤ符号化部103及び多重化部104に出力するとともに、第1レイヤ符号化部101で生成されるLPC係数を適応帯域制限部901に出力する。LPC係数は、例えば、自己相関法により算出する。
適応帯域制限部901は、入力信号と、第1レイヤ符号化部101から入力したLPC係数とに基づいて、帯域拡張レイヤにおいて制限を加える帯域を選択する。そして、適応帯域制限部901は、入力信号の帯域のうち、選択した帯域に制限を加えた帯域制限信号を、帯域拡張レイヤ符号化部103に出力する。なお、適応帯域制限部901の構成の詳細については後述する。
帯域拡張レイヤ符号化部103は、第1レイヤ符号化部101から入力した第1レイヤ符号化データと、適応帯域制限部901から入力した帯域制限信号とを用いて拡張帯域部の符号化処理を行い、帯域拡張レイヤ符号化データを生成する。帯域拡張レイヤ符号化部103は、生成した帯域拡張レイヤ符号化データを多重化部104に出力する。
図10は、適応帯域制限部901の構成を示すブロック図である。なお、図10に示す適応帯域制限部901は、図3に示す実施の形態1における適応帯域制限部102に対して、適応帯域選択部301の代わりに、適応帯域選択部1001を有する。なお、図10において、図3と同一構成である部分には同一の符号を付してその説明を省略する。なお、適応帯域選択部1001の構成の詳細については後述する。
適応帯域選択部1001は、入力信号の特徴を分析し、分析結果と第1レイヤ符号化部101から入力したLPC係数とに基づいて、入力信号において制限を加える帯域を選択する。適応帯域選択部1001は、選択した制限を加える帯域の情報を帯域制限周波数として帯域制限信号生成部302に出力する。なお、適応帯域選択部1001の構成の詳細については後述する。
帯域制限信号生成部302は、入力信号と適応帯域選択部1001から入力した帯域制限周波数とに基づいて帯域制限信号を生成し、生成した帯域制限信号を帯域拡張レイヤ符号化部103に出力する。なお、本実施の形態における帯域制限信号生成部302の構成及び動作は、上記の実施の形態1の帯域制限信号生成部302と同一であるので、その詳細な説明を省略する。
図11は、本実施の形態における適応帯域選択部1001の構成を示すブロック図である。なお、図11に示す適応帯域選択部1001は、図6に示す本実施の形態における適応帯域選択部600に対して、スペクトル算出部601を除き、スペクトル包絡算出部1101を追加する。なお、図11において、図6と同一構成である部分には同一の符号を付してその説明を省略する。
スペクトル包絡算出部1101は、第1レイヤ符号化部101から入力したLPC係数を用いて、スペクトル包絡を推定し、推定したスペクトル包絡をスペクトル情報として帯域制限周波数決定部604に出力する。このスペクトル情報を基に、帯域制限周波数決定部604では、FFT分析でスペクトルを求めた場合と同様にして、前記サブバンドエネルギー比を求めることができる。
上記の構成により、本実施の形態の効果と同様の効果を得ることができる。
なお、本実施の形態の変形例において、スペクトル包絡算出部1101は、LPC係数を用いてスペクトル包絡を求めたが、本発明はこれに限らず、LPC係数以外のLSP(Linear Spectral Pairs)、LSF(Linear Spectral Frequencies)、ISP(Immitance Spectral Pairs)ISF(Immitance Spectral Frequencies)またはPARCOR(Partial Auto Correlation)係数などを用いてスペクトル包絡を求めることができる。
<本実施の形態におけるその他の変形例>
本実施の形態において、スペクトル算出部は、入力信号に対してFFT分析を行ってスペクトルを算出したが、本発明はこれに限らず、FFT以外のDFT(Discrete Fourier Transform)、DCT(Discrete Cosine Transform)、MDCT(Modified Discrete Cosine Transform)またはフィルタバンクなどを使用することができる。
また、本実施の形態において、ピッチ周期算出部602において入力信号のピッチ周期を算出したが、本発明はこれに限らず、第1レイヤ符号化部101で入力信号のピッチ周期を算出して閾値算出部603に出力してもよい。この場合には、ピッチ周期算出部602を不要にすることができる。
(実施の形態3)
本実施の形態は、無声区間における背景雑音スペクトルと、有声区間における音声スペクトルとの比較に基づく帯域制限を行うことで、制限帯域を符号化対象から除外する点に特徴を有する。すなわち、無声区間においては背景雑音スペクトルを求め、有声区間では音声スペクトルを求める。有声区間においては、背景雑音のレベルを下回る帯域の音声スペクトルに関しては背景雑音にマスキングされ、聴感上重要ではないとみなすことができるので、この背景雑音のレベルを下回る帯域を制限する。
<適応帯域選択部の構成>
図12は、本発明の実施の形態3における適応帯域選択部1200の構成を示すブロック図である。なお、本実施の形態における音声符号化装置は、図2と同一構成であるので、その説明を省略する。また、本実施の形態における適応帯域制限部102は、適応帯域選択部301の代わりに適応帯域選択部1200を有する以外は図4と同一構成であるので、その説明を省略する。また、本実施の形態における音声復号装置は、図5と同一構成であるので、その説明を省略する。
スペクトル算出部1201は、入力信号に対してFFT分析を行うことにより、入力信号のスペクトルを求め、求めたスペクトルのスペクトル情報をスイッチ部1203及び帯域制限周波数決定部1205に出力する。
音声検出部1202は、入力信号を用いて無声区間か有声区間かを検出し、検出情報をスイッチ部1203に出力する。音声検出部1202は、例えば無声区間なら「0」、有声区間なら「1」を検出情報としてスイッチ部1203に出力する。
スイッチ部1203は、音声検出部1202から入力した検出情報を用いてスイッチングを行う。具体的には、スイッチ部1203は、検出情報が無声区間の場合(例えば、検出情報「0」の場合)のみ、スペクトル算出部1201から入力したスペクトル情報を背景雑音スペクトル算出部1204に出力する。一方、スイッチ部1203は、検出情報が有声区間の場合(例えば、検出情報「1」の場合)は、スイッチをオフにして何も出力しない。
背景雑音スペクトル算出部1204は、無声区間のフレームの間、スイッチ部1203から入力したスペクトル情報におけるサブバンドエネルギーの平均化をサブバンド毎に行い、サブバンド毎に平均化された背景雑音スペクトルを帯域制限周波数決定部1205に出力する。背景雑音スペクトルの平均化は、例えば次の(3)式のように行われる。
Figure 0005986565
(3)式において、次の無声区間のフレームにおけるNeを求める際には、Nprevに前フレームにおけるNeを代入することでNprevを更新する。
帯域制限周波数決定部1205は、サブバンドごとにスペクトル算出部1201から入力したスペクトル情報のスペクトルSから、背景雑音スペクトル算出部1204から入力した平均化された背景雑音スペクトルNeを対数領域において引き算する。そして、帯域制限周波数決定部1205は、引き算した値が負になったときの周波数の値を、帯域制限周波数Fcutとして帯域制限信号生成部302に出力する。一方、帯域制限周波数決定部1205は、引き算した値が負にならなかった場合には、帯域制限周波数Fcutの値を16kHzに設定して、帯域制限信号生成部302に出力する。すなわち、帯域制限を行わない。
<帯域制限周波数の決定方法>
図13は、本実施の形態における帯域制限周波数の決定方法を示す図である。
帯域制限周波数決定部1205は、図13(A)に示す入力信号から無声区間と有声区間とを検出し、無声区間において入力信号のFFT分析を行うことにより、図13(B)に示す背景雑音スペクトルを得る。
また、帯域制限周波数決定部1205は、有声区間においても入力信号のFFT分析を行うことにより、図13(C)に示す音声スペクトルを得る。
帯域制限周波数決定部1205は、図13(D)に示すように、図13(B)のスペクトルと図13(C)のスペクトルとを比較する。そして、帯域制限信号生成部302は、音声スペクトルが背景雑音スペクトルのレベルを下回る帯域(図13(D)においてはFcut以上の帯域)を、符号化対象から除外するか、または音声スペクトルが背景雑音スペクトルのレベルを下回る帯域(図13(D)においてはFcut以上の帯域)のエネルギーを減衰させることにより帯域に制限を加える。
<本実施の形態の効果>
本実施の形態によれば、音声スペクトルのレベルと背景雑音スペクトルのレベルとの関係に応じて帯域制限周波数を適応的に調整することにより、ビットレートを低くしても符号化に伴う全体的な品質の劣化を防ぐことができる。
<本実施の形態の変形例>
本実施の形態において、スペクトル算出部は、入力信号に対してFFT分析を行ってスペクトルを算出したが、本発明はこれに限らず、FFT以外のDFT、DCT、MDCTまたはフィルタバンクなどを使用することができる。
<実施の形態1〜実施の形態3に共通の変形例>
上記の実施の形態1〜実施の形態3において、音声符号化装置をスケーラブル構成として説明したが、本発明はこれに限らず、スケーラブル構成ではない符号化方式にも適用可能である。図14は、スケーラブル構成ではない音声符号化装置1400の構成を示すブロック図である。本発明は、図14に示すような音声符号化装置1400にも適用することができる。
図14より、適応帯域制限部1401は、帯域拡張レイヤにおいて制限する帯域を選択し、入力信号の帯域のうち選択した帯域を制限した帯域制限信号を符号化部1402に出力する。なお、適応帯域制限部1401は、上記の実施の形態1〜実施の形態3に示した何れか1つの方法を採用して帯域制限周波数を決定することができる。この際、例えば符号化部1402が符号化対象とする帯域が狭帯域(0Hz〜3.5kHz)の場合には、適応帯域制限部1401で決定される帯域制限周波数の下限は、3.5kHzまでの値をとり得る。
符号化部1402は、適応帯域制限部1401から入力した帯域制限信号を符号化してビットストリームを生成し、生成したビットストリームを図示しない通信路に出力する。
(実施の形態4)
本実施の形態は、音声復号装置において帯域に制限を加える点に特徴を有する。
図15は、本実施の形態に係る音声復号装置1500の構成を示すブロック図である。
復号部1501は、図示しない通信路(transmission channel)を介して入力されるビットストリームを復号して復号信号を生成し、生成した復号信号を適応帯域制限部1502に出力する。なお、本実施の形態における復号部1501は、一例として、図5の音声復号装置500と同一構成としてもよく、ここではその詳細な説明を省略する。
適応帯域制限部1502は、制限を加える帯域を選択し、復号部1501から入力した復号信号の帯域のうち、選択した帯域に制限を加えた帯域制限信号を出力信号として出力する。この際、適応帯域制限部1502は、上記の実施の形態1〜実施の形態3に示した何れか1つの方法を採用して帯域制限周波数を決定する。
即ち、適応帯域制限部1502は、復号部1501から入力した復号信号のピッチ周期に基づいて制限を加える帯域を選択する。または、適応帯域制限部1502は、復号部1501から入力した復号信号に対してFFT分析を行ってスペクトルを算出し、算出したスペクトルと(2)式により求めた閾値とを用いて制限を加える帯域を選択する。または、適応帯域制限部1502は、復号部1501から入力した復号信号に対してFFT分析を行ってスペクトルを算出し、サブバンドごとに算出したスペクトルから、平均化された背景雑音スペクトルを対数領域において引き算し、引き算した値が負になったときの周波数以上の周波数を制限を加える帯域として選択する。
すなわち、前述の実施の形態の符号化装置のように、適応帯域制限部1502は、ピッチ周波数が高いほど広い、除外する帯域を選択する構成を有するようにしたり、あるいは、符号化装置がスケーラブル構成の場合は、ピッチ周波数が高いほど広い、拡張帯域のエネルギーを減衰させる帯域を選択する構成を有するようにしてもよい。
なお、適応帯域制限部1502は、例えば復号部1501が復号対象とする帯域が狭帯域(0Hz〜3.5kHz)の場合には、帯域制限周波数の下限として3.5kHzまでの値をとり得る。
<本実施の形態の効果>
本実施の形態による音声復号装置は、帯域制限周波数を適応的に調整し、帯域制限周波数以上の帯域を、帯域拡張レイヤにおける符号化対象から除外するか、または帯域拡張レイヤにおいてエネルギーを減衰させて聴感的な重要度を下げることにより、ビットレートを低くしても符号化に伴う全体的な品質の劣化を防ぐことができる。
<本実施の形態の変形例>
図16は、本実施の形態の変形例に係る音声復号装置1600を示すブロック図である。
本実施の形態の変形例における音声復号装置1600は、適応帯域制限部1602において、上記実施の形態2の方法を用いて帯域制限周波数を決定する。この場合、復号部1601で生成されるLPC係数を用いる。
復号部1601は、図示しない通信路(transmission channel)を介して入力されるビットストリームを復号して復号信号を生成し、生成した復号信号を適応帯域制限部1602に出力する。この際、復号部1601は、LPC係数を生成し、生成したLPC係数を適応帯域制限部1602に出力する。LPC係数は、例えば、自己相関法により算出する。なお、復号部1601におけるその他の構成及び動作は、図5の音声復号装置500と同一であるので、その説明を省略する。
適応帯域制限部1602は、復号部1601から入力した復号信号及びLPC係数に基づいて、制限を加える帯域を選択し、復号部1601から入力した帯域拡張レイヤの復号信号の帯域のうち、選択した帯域に制限を加える。そして、適応帯域制限部1602は、選択した帯域に制限を加えた帯域制限信号を出力信号として出力する。
図17は、本実施の形態の変形例における適応帯域制限部1602の構成を示すブロック図である。
適応帯域選択部1701は、復号部1601から入力した復号信号の特徴を分析し、分析結果と復号部1601から入力したLPC係数とに基づいて、復号信号において制限を加える帯域を選択する。適応帯域選択部1701は、選択した制限を加える帯域の情報を帯域制限周波数として帯域制限信号生成部1702に出力する。
帯域制限信号生成部1702は、復号部1601から入力した復号信号と適応帯域選択部1701から入力した帯域制限周波数とに基づいて帯域制限信号を生成し、生成した帯域制限信号を出力信号として出力する。
具体的には、帯域制限信号生成部1702は、適応帯域選択部1701から入力した帯域制限周波数より低域の周波数を通過域とし、復号部1601から入力した復号信号において帯域に制限を加える。即ち、帯域制限信号生成部1702は、適応帯域選択部1701により選択した帯域制限周波数より低域の入力信号を出力信号(帯域制限信号)として出力する。この場合には、帯域制限信号生成部1702は、例えば低域通過フィルターにより構成される。
または、帯域制限信号生成部1702は、入力信号のうち、適応帯域選択部1701から入力した帯域制限周波数よりも高域のエネルギーを減衰させた信号を、出力信号(帯域制限信号)として出力する。
この変形例によれば、上記実施の形態2と同様の効果を得ることができる。
なお、本実施の形態の変形例は、復号部1601がスケーラブル構成である場合に限らず、スケーラブル構成以外の構成にも適用可能である。
<全ての実施の形態に共通の変形例>
上記の実施の形態1〜実施の形態4において、階層数が2のスケーラブル構成にしたが、本発明はこれに限らず、階層数が3以上のスケーラブル構成にも適用可能である。
また、上記の実施の形態1〜実施の形態4において、入力信号は音声信号、音楽信号、あるいは音声と音楽とが混在する信号の何れであってもよい。
また、上記の実施の形態1〜実施の形態4において、本発明をハードウェアで構成する場合を例にとって説明したが、本発明はハードウェアとの連携においてソフトウェアでも実現することも可能である。
また、上記の実施の形態1〜実施の形態4の説明に用いた各機能ブロックは、典型的には集積回路であるLSIとして実現される。これらは個別に1チップ化されてもよいし、一部または全てを含むように1チップ化されてもよい。ここでは、LSIとしたが、集積度の違いにより、IC、システムLSI、スーパーLSI、ウルトラLSIと呼称されることもある。
また、集積回路化の手法はLSIに限るものではなく、専用回路または汎用プロセッサで実現してもよい。LSI製造後に、プログラムすることが可能なFPGA(Field Programmable Gate Array)、または、LSI内部の回路セルの接続または設定を再構成可能なリコンフィギュラブルプロセッサを利用してもよい。
さらには、半導体技術の進歩または派生する別技術によりLSIに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積化を行ってもよい。バイオ技術の適用等が可能性としてありえる。
2011年6月9日出願の特願2011−129428の日本出願及び2011年8月5日出願の特願2011−172393の日本出願に含まれる明細書、図面及び要約書の開示内容は、すべて本願に援用される。
本発明は、例えばスケーラブル構成を有する音声符号化装置、音声復号装置、音声符号化方法及び音声復号方法に好適である。
101 第1レイヤ符号化部
102、901、1401、1502、1602 適応帯域制限部
103 帯域拡張レイヤ符号化部
104 多重化部
301、600、1001、1701 適応帯域選択部
302、1702 帯域制限信号生成部
401、602 ピッチ周期算出部
402、604、1205 帯域制限周波数決定部
601、1201 スペクトル算出部
603 閾値算出部
1101 スペクトル包絡算出部
1202 音声検出部
1203 スイッチ部
1204 背景雑音スペクトル算出部
1402 符号化部
1501、1601 復号部

Claims (8)

  1. 広帯域の信号を第1レイヤにおいて符号化するとともに、前記広帯域よりも高域である拡張帯域の信号を帯域拡張レイヤにおいて符号化する音声符号化装置であって、
    前記拡張帯域において符号化の際に制限を加える帯域を選択する帯域選択手段と、
    入力信号の帯域のうち前記選択された帯域に前記制限を加える帯域制限手段と、
    を具備し、
    前記帯域選択手段は、
    前記拡張帯域において符号化対象から前記制限を加える帯域として、前記入力信号のピッチ周波数が高いほど除外する帯域を広く選択し、
    前記帯域制限手段は、
    前記選択された帯域を符号化対象から除外することにより前記制限を加える、
    音声符号化装置。
  2. 広帯域の信号を第1レイヤにおいて符号化するとともに、前記広帯域よりも高域である拡張帯域の信号を帯域拡張レイヤにおいて符号化する音声符号化装置であって、
    前記拡張帯域において符号化の際に制限を加える帯域を選択する帯域選択手段と、
    入力信号の帯域のうち前記選択された帯域に前記制限を加える帯域制限手段と、
    を具備し、
    前記帯域選択手段は、
    前記拡張帯域において前記制限を加える帯域として、前記入力信号のピッチ周波数が高いほどエネルギーを減衰させる帯域を広く選択し、
    前記帯域制限手段は、
    前記選択された帯域のエネルギーを減衰させることにより前記制限を加える
    声符号化装置。
  3. 符号化装置において生成された、広帯域の信号を符号化することによって得られた第1レイヤ符号化情報を第1レイヤにおいて復号し、前記広帯域よりも高域である拡張帯域の信号を符号化することによって得られた帯域拡張レイヤ符号化情報を帯域拡張レイヤにおいて復号する音声復号装置であって、
    前記拡張帯域において出力の際に制限を加える帯域を選択する帯域選択手段と、
    復号信号の帯域のうち前記選択された帯域に前記制限を加える帯域制限手段と、
    を具備し、
    前記帯域選択手段は、
    前記拡張帯域において出力対象から前記制限を加える帯域として、前記復号信号のピッチ周波数が高いほど除外する帯域を広く選択し、
    前記帯域制限手段は、
    前記選択された帯域を出力対象から除外することにより前記制限を加える、
    音声復号装置。
  4. 符号化装置において生成された、広帯域の信号を符号化することによって得られた第1レイヤ符号化情報を第1レイヤにおいて復号し、前記広帯域よりも高域である拡張帯域の信号を符号化することによって得られた帯域拡張レイヤ符号化情報を帯域拡張レイヤにおいて復号する音声復号装置であって、
    前記拡張帯域において出力の際に制限を加える帯域を選択する帯域選択手段と、
    復号信号の帯域のうち前記選択された帯域に前記制限を加える帯域制限手段と、
    を具備し、
    前記帯域選択手段は
    前記拡張帯域において前記制限を加える帯域として、前記復号信号のピッチ周波数が高いほどエネルギーを減衰させる帯域を広く選択し、
    前記帯域制限手段は、
    前記選択された帯域のエネルギーを減衰させることにより前記制限を加える、
    音声復号装置。
  5. 広帯域の信号を第1レイヤにおいて符号化するとともに、前記広帯域よりも高域である拡張帯域の信号を帯域拡張レイヤにおいて符号化する音声符号化方法であって、
    前記拡張帯域において符号化の際に制限を加える帯域を選択するステップと、
    入力信号の帯域のうち前記選択された帯域に制限を加えるステップと、
    を具備し、
    前記帯域を選択するステップは、
    前記拡張帯域において符号化対象から前記制限を加える帯域として、前記入力信号のピッチ周波数が高いほど除外する帯域を広く選択し、
    前記選択された帯域に制限を加えるステップは、
    前記選択された帯域を符号化対象から除外することにより前記制限を加える、
    音声符号化方法。
  6. 広帯域の信号を第1レイヤにおいて符号化するとともに、前記広帯域よりも高域である拡張帯域の信号を帯域拡張レイヤにおいて符号化する音声符号化方法であって、
    前記拡張帯域において符号化の際に制限を加える帯域を選択するステップと、
    入力信号の帯域のうち前記選択された帯域に制限を加えるステップと、
    を具備し、
    前記帯域を選択するステップは、
    前記拡張帯域において前記制限を加える帯域として、前記入力信号のピッチ周波数が高いほどエネルギーを減衰させる帯域を広く選択し、
    前記選択された帯域に制限を加えるステップは、
    前記選択された帯域のエネルギーを減衰させることにより前記制限を加える、
    音声符号化方法。
  7. 広帯域の信号を第1レイヤにおいて復号するとともに、前記広帯域よりも高域である拡張帯域の信号を帯域拡張レイヤにおいて復号する音声復号方法であって、
    前記拡張帯域において出力の際に制限を加える帯域を選択するステップと、
    復号信号の帯域のうち前記選択された帯域に前記制限を加えるステップと、
    を具備し、
    前記帯域を選択するステップは、
    前記拡張帯域において出力対象から前記制限を加える帯域として、前記復号信号のピッチ周波数が高いほど除外する帯域を広く選択し、
    前記選択された帯域に前記制限を加えるステップは、
    前記選択された帯域を出力対象から除外することにより前記制限を加える、
    音声復号方法。
  8. 広帯域の信号を第1レイヤにおいて復号するとともに、前記広帯域よりも高域である拡張帯域の信号を帯域拡張レイヤにおいて復号する音声復号方法であって、
    前記拡張帯域において出力の際に制限を加える帯域を選択するステップと、
    復号信号の帯域のうち前記選択された帯域に前記制限を加えるステップと、
    を具備し、
    前記帯域を選択するステップは、
    前記拡張帯域において前記制限を加える帯域として、前記復号信号のピッチ周波数が高いほどエネルギーを減衰させる帯域を広く選択し、
    前記選択された帯域に前記制限を加えるステップは、
    前記選択された帯域のエネルギーを減衰させることにより前記制限を加える、
    音声復号方法。
JP2013519367A 2011-06-09 2012-05-25 音声符号化装置、音声復号装置、音声符号化方法及び音声復号方法 Active JP5986565B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
JP2011129428 2011-06-09
JP2011129428 2011-06-09
JP2011172393 2011-08-05
JP2011172393 2011-08-05
PCT/JP2012/003409 WO2012169133A1 (ja) 2011-06-09 2012-05-25 音声符号化装置、音声復号装置、音声符号化方法及び音声復号方法

Publications (2)

Publication Number Publication Date
JPWO2012169133A1 JPWO2012169133A1 (ja) 2015-02-23
JP5986565B2 true JP5986565B2 (ja) 2016-09-06

Family

ID=47295725

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013519367A Active JP5986565B2 (ja) 2011-06-09 2012-05-25 音声符号化装置、音声復号装置、音声符号化方法及び音声復号方法

Country Status (4)

Country Link
US (1) US9264094B2 (ja)
EP (1) EP2709103B1 (ja)
JP (1) JP5986565B2 (ja)
WO (1) WO2012169133A1 (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9208798B2 (en) * 2012-04-09 2015-12-08 Board Of Regents, The University Of Texas System Dynamic control of voice codec data rate
EP2936486B1 (en) 2012-12-21 2018-07-18 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Comfort noise addition for modeling background noise at low bit-rates
CN104681032B (zh) * 2013-11-28 2018-05-11 ***通信集团公司 一种语音通信方法和设备
US9697843B2 (en) * 2014-04-30 2017-07-04 Qualcomm Incorporated High band excitation signal generation
DE112019003209T5 (de) 2018-06-28 2021-04-08 Sony Corporation Codiervorrichtung, Codierverfahren, Decodiervorrichtung, Decodierverfahren und Programm
CN112470104B (zh) 2018-07-03 2024-04-19 索尼公司 编码设备、编码方法、解码设备、解码方法、发送***、接收设备和程序
CN112534723B (zh) * 2018-08-08 2024-06-18 索尼公司 解码装置、解码方法和程序
US20230110255A1 (en) * 2021-10-12 2023-04-13 Zoom Video Communications, Inc. Audio super resolution

Family Cites Families (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3134455B2 (ja) 1992-01-29 2001-02-13 ソニー株式会社 高能率符号化装置及び方法
JPH07327014A (ja) 1994-06-01 1995-12-12 Matsushita Electric Ind Co Ltd オーディオ信号高能率符号化装置
JPH09127987A (ja) * 1995-10-26 1997-05-16 Sony Corp 信号符号化方法及び装置
TW321810B (ja) 1995-10-26 1997-12-01 Sony Co Ltd
SE512719C2 (sv) * 1997-06-10 2000-05-02 Lars Gustaf Liljeryd En metod och anordning för reduktion av dataflöde baserad på harmonisk bandbreddsexpansion
US6539355B1 (en) * 1998-10-15 2003-03-25 Sony Corporation Signal band expanding method and apparatus and signal synthesis method and apparatus
GB2351889B (en) * 1999-07-06 2003-12-17 Ericsson Telefon Ab L M Speech band expansion
FI115329B (fi) * 2000-05-08 2005-04-15 Nokia Corp Menetelmä ja järjestely lähdesignaalin kaistanleveyden vaihtamiseksi tietoliikenneyhteydessä, jossa on valmiudet useisiin kaistanleveyksiin
US7330814B2 (en) * 2000-05-22 2008-02-12 Texas Instruments Incorporated Wideband speech coding with modulated noise highband excitation system and method
JP3576935B2 (ja) * 2000-07-21 2004-10-13 株式会社ケンウッド 周波数間引き装置、周波数間引き方法及び記録媒体
JP2002169599A (ja) * 2000-11-30 2002-06-14 Toshiba Corp ノイズ抑制方法及び電子機器
CN1244904C (zh) * 2001-05-08 2006-03-08 皇家菲利浦电子有限公司 声频信号编码方法和设备
JP4119696B2 (ja) 2001-08-10 2008-07-16 松下電器産業株式会社 送信装置、受信装置及び無線通信方法
US7162415B2 (en) * 2001-11-06 2007-01-09 The Regents Of The University Of California Ultra-narrow bandwidth voice coding
US7447631B2 (en) * 2002-06-17 2008-11-04 Dolby Laboratories Licensing Corporation Audio coding system using spectral hole filling
US7548852B2 (en) * 2003-06-30 2009-06-16 Koninklijke Philips Electronics N.V. Quality of decoded audio by adding noise
JP4222250B2 (ja) * 2004-04-26 2009-02-12 ヤマハ株式会社 圧縮楽音データ再生装置
EP1864281A1 (en) * 2005-04-01 2007-12-12 QUALCOMM Incorporated Systems, methods, and apparatus for highband burst suppression
ATE528748T1 (de) * 2006-01-31 2011-10-15 Nuance Communications Inc Verfahren und entsprechendes system zur erweiterung der spektralen bandbreite eines sprachsignals
US20080300866A1 (en) * 2006-05-31 2008-12-04 Motorola, Inc. Method and system for creation and use of a wideband vocoder database for bandwidth extension of voice
JP4918841B2 (ja) * 2006-10-23 2012-04-18 富士通株式会社 符号化システム
CN101903943A (zh) * 2008-01-01 2010-12-01 Lg电子株式会社 用于处理信号的方法和装置
JP5337381B2 (ja) * 2008-01-18 2013-11-06 富士フイルム株式会社 メロシアニン色素及び光電変換素子
WO2010028297A1 (en) * 2008-09-06 2010-03-11 GH Innovation, Inc. Selective bandwidth extension
WO2010028301A1 (en) * 2008-09-06 2010-03-11 GH Innovation, Inc. Spectrum harmonic/noise sharpness control
JP5326714B2 (ja) 2009-03-23 2013-10-30 沖電気工業株式会社 帯域拡張装置、方法及びプログラム、並びに、量子化雑音学習装置、方法及びプログラム
GB2476041B (en) * 2009-12-08 2017-03-01 Skype Encoding and decoding speech signals
JP2011129428A (ja) 2009-12-18 2011-06-30 Toyota Motor Corp 蓄電素子のホルダ
JP2011172393A (ja) 2010-02-19 2011-09-01 Sumitomo Wiring Syst Ltd バスバー回路構造体
US8738385B2 (en) * 2010-10-20 2014-05-27 Broadcom Corporation Pitch-based pre-filtering and post-filtering for compression of audio signals

Also Published As

Publication number Publication date
JPWO2012169133A1 (ja) 2015-02-23
EP2709103A1 (en) 2014-03-19
EP2709103B1 (en) 2015-10-07
EP2709103A4 (en) 2014-03-26
US9264094B2 (en) 2016-02-16
US20140122065A1 (en) 2014-05-01
WO2012169133A1 (ja) 2012-12-13

Similar Documents

Publication Publication Date Title
JP5986565B2 (ja) 音声符号化装置、音声復号装置、音声符号化方法及び音声復号方法
US10559313B2 (en) Speech/audio signal processing method and apparatus
RU2688247C2 (ru) Устройство и способ для расширения диапазона частот для акустических сигналов
US10217470B2 (en) Bandwidth extension system and approach
US7983904B2 (en) Scalable decoding apparatus and scalable encoding apparatus
JP5171256B2 (ja) ステレオ符号化装置、ステレオ復号装置、及びステレオ符号化方法
JP5706445B2 (ja) 符号化装置、復号装置およびそれらの方法
ES2706148T3 (es) Dispositivo de codificación de audio vocal, dispositivo de decodificación de audio vocal, procedimiento de codificación de audio vocal, y procedimiento de decodificación de audio vocal
JP5753540B2 (ja) ステレオ信号符号化装置、ステレオ信号復号装置、ステレオ信号符号化方法及びステレオ信号復号方法
US20140052439A1 (en) Method and apparatus for polyphonic audio signal prediction in coding and networking systems
CN110706715B (zh) 信号编码和解码的方法和设备
US20140114651A1 (en) Device and method for execution of huffman coding
JPWO2009057327A1 (ja) 符号化装置および復号装置
US9589576B2 (en) Bandwidth extension of audio signals
JPWO2007114291A1 (ja) 音声符号化装置、音声復号化装置、およびこれらの方法
JP6082703B2 (ja) 音声復号装置及び音声復号方法
JP2011501228A (ja) 知覚モデルの適応的調整
CN105874534B (zh) 编码装置、解码装置、编码方法、解码方法及程序
JP5295380B2 (ja) 符号化装置、復号化装置およびこれらの方法
Gibson Challenges in speech coding research

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150220

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20151117

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160216

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160802

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160805

R150 Certificate of patent or registration of utility model

Ref document number: 5986565

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150