JPWO2006075663A1 - 音声切替装置および音声切替方法 - Google Patents

音声切替装置および音声切替方法 Download PDF

Info

Publication number
JPWO2006075663A1
JPWO2006075663A1 JP2006552962A JP2006552962A JPWO2006075663A1 JP WO2006075663 A1 JPWO2006075663 A1 JP WO2006075663A1 JP 2006552962 A JP2006552962 A JP 2006552962A JP 2006552962 A JP2006552962 A JP 2006552962A JP WO2006075663 A1 JPWO2006075663 A1 JP WO2006075663A1
Authority
JP
Japan
Prior art keywords
section
audio signal
enhancement layer
signal
core layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2006552962A
Other languages
English (en)
Other versions
JP5046654B2 (ja
Inventor
河嶋 拓也
拓也 河嶋
江原 宏幸
宏幸 江原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp
Panasonic Holdings Corp
Original Assignee
Panasonic Corp
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Corp, Matsushita Electric Industrial Co Ltd filed Critical Panasonic Corp
Priority to JP2006552962A priority Critical patent/JP5046654B2/ja
Publication of JPWO2006075663A1 publication Critical patent/JPWO2006075663A1/ja
Application granted granted Critical
Publication of JP5046654B2 publication Critical patent/JP5046654B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0364Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

復号信号の音質を向上することができる音声切替装置を開示する。この装置において、重み付け加算部114は、出力する音声信号の帯域を切り替えるときに、狭帯域音声信号および広帯域音声信号が混合された混合信号を出力する。拡張レイヤ復号音声増幅器122および加算器124から成る混合部は、狭帯域音声信号および広帯域音声信号の混合比を経時的に変化させながら、狭帯域音声信号および広帯域音声信号を混合して、混合信号を得る。拡張レイヤ復号音声利得制御器120は、混合比の経時的な変化の度合いを可変設定する。

Description

本発明は、音声信号の帯域を切り替える音声切替装置および音声切替方法に関する。
一般にスケーラブル音声符号化と呼ばれる、階層的に音声信号を符号化する技術においては、ある階層(レイヤ)の符号化データが失われても他の階層の符号化データから音声信号を復号することができる。スケーラブル符号化の中には、帯域スケーラブル音声符号化と呼ばれるものがある。帯域スケーラブル音声符号化では、狭帯域信号に対して符号化、復号化を行う処理層と、狭帯域信号を高品質化、広帯域化させるための符号化、復号化を行う処理層と、が用いられる。以下、前者の処理層をコアレイヤと言い、後者の処理層を拡張レイヤと言う。
帯域スケーラブル音声符号化を、例えば、伝送帯域が保証されず符号化データが部分的に消失したり遅延したりし得る通信ネットワーク上での音声データ通信に適用した場合、受信側では、コアレイヤおよび拡張レイヤの双方の符号化データ(コアレイヤ符号化データおよび拡張レイヤ符号化データ)を受信できるときもあれば、コアレイヤ符号化データのみを受信できるときもある。したがって、受信側に設けられた音声復号装置では、出力する復号音声信号を、コアレイヤ符号化データのみから得られる狭帯域の復号音声信号とコアレイヤおよび拡張レイヤの双方の符号化データから得られる広帯域の復号音声信号との間で切り替える必要がある。
狭帯域復号音声信号と広帯域復号音声信号とをスムーズに切り替えて、音声の大きさの不連続性や帯域の広がり感(帯域感)の不連続性を防止するための手法としては、例えば特許文献1に記載されたものがある。この文献に記載された音声切替装置では、両信号(つまり、狭帯域復号音声信号および広帯域復号音声信号)のサンプリング周波数、遅延および位相を合わせてから、両信号を重み付け加算する。重み付け加算においては、両信号の混合比を一定の度合い(増分または減分)で経時的に変化させながら、両信号を加算する。そして、出力する信号が、狭帯域復号音声信号から広帯域復号音声信号に切り替えられるとき、あるいは、広帯域復号音声信号から狭帯域復号音声信号に切り替えられるとき、狭帯域復号音声信号の出力および広帯域復号音声信号の出力の間に、重み付け加算信号の出力が行われる。
特開2000−352999号公報
しかしながら、上記従来の音声切替装置においては、両信号の重み付け加算に用いる混合比の変化の度合いが常に一定であるため、受信状況によっては、復号音声の受聴者が違和感や変動感を持つことがある。例えば、定常的な背景雑音を表す信号が音声信号に含まれている区間で音声切替が頻繁に発生すると、切替に伴うパワーや帯域感の変化が受聴者に感じ取られやすくなる。したがって、音質の向上に一定の限界があった。
よって、本発明の目的は、復号音声の音質を向上することができる音声切替装置および音声切替方法を提供することである。
本発明の音声切替装置は、出力する音声信号の帯域を切り替えるときに、狭帯域音声信号および広帯域音声信号が混合された混合信号を出力する音声切替装置であって、前記狭帯域音声信号および前記広帯域音声信号の混合比を経時的に変化させながら前記狭帯域音声信号および前記広帯域音声信号を混合して、前記混合信号を得る混合手段と、前記混合比の経時的な変化の度合いを可変設定する設定手段と、を有する構成を採る。
本発明によれば、狭帯域復号音声信号と広帯域復号音声信号とをスムーズに切り替えることができ、従って復号音声の音質を向上することができる。
本発明の一実施の形態に係る音声復号装置の構成を示すブロック図 本発明の一実施の形態に係る重み付け加算部の構成を示すブロック図 本発明の一実施の形態に係る拡張レイヤ利得の経時変化の例を説明するための図 本発明の一実施の形態に係る拡張レイヤ利得の経時変化の他の例を説明するための図 本発明の一実施の形態に係る許容区間検出部の内部構成を示すブロック図 本発明の一実施の形態に係る無音区間検出部の内部構成を示すブロック図 本発明の一実施の形態に係るパワー変動区間検出部の内部構成を示すブロック図 本発明の一実施の形態に係る音質変化区間検出部の内部構成を示すブロック図 本発明の一実施の形態に係る拡張レイヤパワー微小区間検出部の内部構成を示すブロック図
以下、本発明の実施の形態について、図面を用いて詳細に説明する。
図1は、本発明の一実施の形態に係る音声切替装置を備えた音声復号装置の構成を示すブロック図である。図1の音声復号装置100は、コアレイヤ復号化部102、コアレイヤフレーム誤り検出部104、拡張レイヤフレーム誤り検出部106、拡張レイヤ復号化部108、許容区間検出部110、信号調整部112、および重み付け加算部114を有する。
コアレイヤフレーム誤り検出部104は、コアレイヤ符号化データが復号可能か否かを検出する。具体的には、コアレイヤフレーム誤り検出部104はコアレイヤフレーム誤りを検出する。そして、コアレイヤフレーム誤りが検出されたときに、コアレイヤ符号化データが復号不可能であると判断する。コアレイヤフレーム誤り検出結果は、コアレイヤ復号化部102および許容区間検出部110に出力される。
ここで、コアレイヤフレーム誤りとは、コアレイヤ符号化データのフレームが送信途中で受けた誤りや、パケット通信におけるパケットロス(例えば、通信路上でのパケット破棄、ジッタによるパケット未着など)などの理由によってコアレイヤ符号化データのほとんどまたは全てを復号に用いることができない状態を指す。
コアレイヤフレーム誤りの検出は、例えば下記の処理をコアレイヤフレーム誤り検出部104で実行することにより実現される。例えば、コアレイヤフレーム誤り検出部104はコアレイヤ符号化データとは別に誤り情報を受信する。あるいは、コアレイヤフレーム誤り検出部104はコアレイヤ符号化データに付加されたCRC(Cyclic Redundancy Check)などの誤り検査符号を用いて誤り検出を行う。あるいはコアレイヤフレーム誤り検出部104は、復号時間までにコアレイヤ符号化データが未着であることを判断する。あるいは、パケットロスや未着を検知する。あるいは、コアレイヤ復号化部102でのコアレイヤ符号化データの復号過程において、コアレイヤ符号化データ内に含まれる誤り検出符号などにより重大な誤りが検出されたときに、コアレイヤフレーム誤り検出部104はその旨の情報をコアレイヤ復号化部102から取得する。
コアレイヤ復号化部102は、コアレイヤ符号化データを受信して、そのコアレイヤ符号化データを復号する。この復号によって生成されたコアレイヤ復号音声信号は、信号調整部112に出力される。コアレイヤ復号音声信号は、狭帯域の信号である。なお、このコアレイヤ復号音声信号は、そのまま最終出力として用いられても良い。またコアレイヤ復号化部102は、コアレイヤ符号化データの一部もしくはコアレイヤLSP(Line Spectrum Pair)を許容区間検出部110に出力する。コアレイヤLSPは、コアレイヤ復号の過程で得られたスペクトルパラメータである。ここでは、コアレイヤ復号化部102が許容区間検出部110にコアレイヤLSPを出力する場合を例にとって説明しているが、コアレイヤ復号の過程で得られる他のスペクトルパラメータ、さらにはコアレイヤ復号の過程で得られるスペクトルパラメータではない他のパラメータを出力するようにしても良い。
コアレイヤ復号化部102は、コアレイヤフレーム誤りがコアレイヤフレーム誤り検出部104から通知された場合や、コアレイヤ符号化データの復号過程において、コアレイヤ符号化データ内に含まれる誤り検出符号などにより重大な誤りがあると判定された場合は、過去の符号化情報などを利用して線形予測係数および音源の補間などを行う。これによって、コアレイヤ復号音声信号を生成し出力し続ける。また、コアレイヤ符号化データの復号過程において、コアレイヤ符号化データ内に含まれる誤り検出符号などにより重大な誤りがあると判定された場合、コアレイヤ復号化部102は、その旨の情報をコアレイヤフレーム誤り検出部104に通知する。
拡張レイヤフレーム誤り検出部106は、拡張レイヤ符号化データが復号可能か否かを検出する。具体的には拡張レイヤフレーム誤り検出部106は、拡張レイヤフレーム誤りを検出する。そして、拡張レイヤフレーム誤りが検出されたときに、拡張レイヤ符号化データが復号不可能であると判断する。拡張レイヤフレーム誤り検出結果は、拡張レイヤ復号化部108および重み付け加算部114に出力される。
ここで、拡張レイヤフレーム誤りとは、拡張レイヤ符号化データのフレームが送信途中で受けた誤りや、パケット通信におけるパケットロスなどの理由によって拡張レイヤ符号化データのほとんどまたは全てを復号に用いることができない状態を指す。
拡張レイヤフレーム誤りの検出は、例えば下記の処理を拡張レイヤフレーム誤り検出部106で実行することにより実現される。例えば、拡張レイヤフレーム誤り検出部106は拡張レイヤ符号化データとは別に誤り情報を受信する。あるいは拡張レイヤフレーム誤り検出部106は、拡張レイヤ符号化データに付加されたCRCなどの誤り検査符号を用いて誤り検出を行う。あるいは拡張レイヤフレーム誤り検出部106は、復号時間までに拡張レイヤ符号化データが未着であることを判断する。あるいは拡張レイヤフレーム誤り検出部106は、パケットロスや未着を検知する。あるいは、拡張レイヤ復号化部108での拡張レイヤ符号化データの復号過程において、拡張レイヤ符号化データ内に含まれる誤り検出符号などにより重大な誤りが検出されたときに、拡張レイヤフレーム誤り検出部106はその旨の情報を拡張レイヤ復号化部108から取得する。あるいは、拡張レイヤの復号にコアレイヤの情報が不可欠であるようなスケーラブル音声符号化方式が採用されている場合は、コアレイヤフレーム誤りが検出されたときに、拡張レイヤフレーム誤り検出部106は拡張レイヤフレーム誤りが検出されたと判断する。この場合拡張レイヤフレーム誤り検出部106は、コアレイヤフレーム誤り検出部104から、コアレイヤフレーム誤り検出結果の入力を受ける。
拡張レイヤ復号化部108は、拡張レイヤ符号化データを受信して、その拡張レイヤ符号化データを復号する。この復号によって生成された拡張レイヤ復号音声信号は、許容区間検出部110および重み付け加算部114に出力される。拡張レイヤ復号音声信号は、広帯域の信号である。
拡張レイヤ復号化部108は、拡張レイヤフレーム誤りが拡張レイヤフレーム誤り検出部106から通知された場合や、拡張レイヤ符号化データの復号過程において、拡張レイヤ符号化データ内に含まれる誤り検出符号などにより重大な誤りがあると判定された場合は、過去の符号化情報などを利用して線形予測係数および音源の補間などを行う。これによって、必要に応じて、拡張レイヤ復号音声信号を生成し出力する。また、拡張レイヤ符号化データの復号過程において、拡張レイヤ符号化データ内に含まれる誤り検出符号などにより重大な誤りがあると判定された場合、拡張レイヤ復号化部108は、その旨の情報を拡張レイヤフレーム誤り検出部106に通知する。
信号調整部112は、コアレイヤ復号化部102から入力されたコアレイヤ復号音声信号を調整する。具体的には信号調整部112は、コアレイヤ復号音声信号に対してアップサンプリングを行って、拡張レイヤ復号音声信号のサンプリング周波数に合わせる。また信号調整部112は、遅延および位相を拡張レイヤ復号音声信号に合わせるために、コアレイヤ復号音声信号の遅延および位相を調整する。これらの処理を施されたコアレイヤ復号音声信号は、許容区間検出部110および重み付け加算部114に出力される。
許容区間検出部110は、コアレイヤフレーム誤り検出部104から入力されるコアレイヤフレーム誤り検出結果、信号調整部112から入力されたコアレイヤ復号音声信号、コアレイヤ復号化部102から入力されたコアレイヤLSP、および拡張レイヤ復号化部108から入力された拡張レイヤ復号音声信号を分析し、分析結果に基づいて許容区間を検出する。許容区間検出結果は、重み付け加算部114に出力される。このため、コアレイヤ復号音声信号および拡張レイヤ復号音声信号の混合比を経時的に変化させる度合いを比較的高くする期間を許容区間のみに限定することができ、混合比の経時変化の度合いを変更するタイミングを制御することができる。
ここで、許容区間とは、出力音声信号の帯域が変化しても聴感上の影響が少ない区間、すなわち、出力音声信号の帯域変化が受聴者に知覚されにくい区間である。逆に、コアレイヤ復号音声信号および拡張レイヤ復号音声信号が生成されている期間のうち許容区間以外の区間は、出力音声信号の帯域変化が受聴者に知覚されやすい区間である。したがって、許容区間は、出力音声信号の帯域の急変を許容する区間である。
許容区間検出部110は、無音区間、パワー変動区間、音質変化区間、拡張レイヤパワー微小区間、などを、許容区間として検出し、検出結果を重み付け加算部114に出力する。許容区間検出部110の内部構成および許容区間を検出する処理の詳細については後述する。
音声切替装置としての重み付け加算部114は、出力音声信号の帯域を切り替える。また重み付け加算部114は、出力音声信号の帯域を切り替えるとき、コアレイヤ音声信号および拡張レイヤ音声信号が混合された混合信号を出力音声信号として出力する。混合信号は、信号調整部112から入力されたコアレイヤ復号音声信号および拡張レイヤ復号化部108から入力された拡張レイヤ復号音声信号の重み付け加算を行うことによって、生成される。すなわち混合信号は、コアレイヤ復号音声信号および拡張レイヤ復号音声信号の重み和である。重み付け加算の詳細については後述する。
図5は、許容区間検出部110の内部構成を示すブロック図である。許容区間検出部110は、コアレイヤ復号音声信号パワー算出部501、無音区間検出部502、パワー変動区間検出部503、音質変化区間検出部504、拡張レイヤパワー微小区間検出部505、および許容区間判定部506を有する。
コアレイヤ復号音声信号パワー算出部501は、コアレイヤ復号化部102からコアレイヤ復号音声信号が入力され、下記の式(1)に従ってコアレイヤ復号音声信号パワーPc(t)を算出する。
Figure 2006075663
ここで、tはフレーム番号、Pc(t)はフレームtにおけるコアレイヤ復号音声信号のパワー、L_FRAMEはフレーム長、iはサンプル番号、Oc(i)はコアレイヤ復号音声信号をそれぞれ表す。
コアレイヤ復号音声信号パワー算出部501は、算出して得られたコアレイヤ復号音声信号パワーPc(t)を、無音区間検出部502、パワー変動区間検出部503、および拡張レイヤパワー微小区間検出部505に出力する。無音区間検出部502は、コアレイヤ復号音声信号パワー算出部501から入力されるコアレイヤ復号音声信号パワーPc(t)を用いて、無音区間を検出し、得られる無音区間検出結果を許容区間判定部506に出力する。パワー変動区間検出部503は、コアレイヤ復号音声信号パワー算出部501から入力されるコアレイヤ復号音声信号パワーPc(t)を用いて、パワー変動区間を検出し、得られるパワー変動区間検出結果を許容区間判定部506に出力する。音質変化区間検出部504は、コアレイヤフレーム誤り検出部104から入力されるコアレイヤフレーム誤り検出結果およびコアレイヤ復号化部102から入力されるコアレイヤLSPを用いて、音質変化区間を検出し、得られる音質変化区間検出結果を許容区間判定部506に出力する。拡張レイヤパワー微小区間検出部505は、拡張レイヤ復号化部108から入力される拡張レイヤ復号音声信号を用いて、拡張レイヤパワー微小区間を検出し、得られる拡張レイヤパワー微小区間検出結果を許容区間判定部506に出力する。許容区間判定部506では、無音区間検出部502、パワー変動区間検出部503、音質変化区間検出部504、拡張レイヤパワー微小区間検出部505の検出結果に基づき、無音区間、パワー変動区間、音質変化区間、または拡張レイヤパワー微小区間が検出されたか否かを判定する。つまり、許容区間が検出されたか否かを判定し、判定結果として許容区間検出結果を出力する。
図6は、無音区間検出部502の内部構成を示すブロック図である。
無音区間は、コアレイヤ復号音声信号のパワーが非常に小さい区間である。無音区間においては、拡張レイヤ復号音声信号の利得(換言すれば、コアレイヤ復号音声信号および拡張レイヤ復号音声信号の混合比)を急速に変化させてもその変化を知覚されにくい。無音区間は、コアレイヤ復号音声信号のパワーが所定の閾値以下であることを検出することによって、検出される。このような検出を行う無音区間検出部502は、無音判定閾値記憶部521および無音区間判定部522を有する。
無音判定閾値記憶部521は、無音区間の判定に必要な閾値εが記憶されており、閾値εを無音区間判定部522に出力する。無音区間判定部522は、コアレイヤ復号音声信号パワー算出部501から入力されるコアレイヤ復号音声信号パワーPc(t)と閾値εとを比較して、下記の式(2)に従い無音区間判定結果d(t)を得る。許容区間は無音区間を含めるため、ここでは無音区間判定結果を許容区間検出結果と同じくd(t)で表す。無音区間判定部522は、無音区間判定結果d(t)を許容区間判定部506に出力する。
Figure 2006075663
図7は、パワー変動区間検出部503の内部構成を示すブロック図である。
パワー変動区間は、コアレイヤ復号音声信号(または拡張レイヤ復号音声信号)のパワーが大きく変動する区間である。パワー変動区間においては、多少の変化(例えば、出力音声信号の音色の変化や帯域感の変化)は、聴感的に知覚されにくい、あるいは、知覚されても受聴者に違和感を持たせない。したがって、拡張レイヤ復号音声信号の利得(換言すれば、コアレイヤ復号音声信号および拡張レイヤ復号音声信号の混合比)を急速に変化させてもその変化を知覚されにくい。パワー変動区間は、コアレイヤ復号音声信号(または拡張レイヤ復号音声信号)の短期パワーと長期平滑化パワーとの差または比を所定の閾値と比較した結果として、差または比が閾値以上であることを検出することによって、検出される。このような検出を行うパワー変動区間検出部503は、短期平滑化係数記憶部531、短期平滑化パワー算出部532、長期平滑化係数記憶部533、長期平滑化パワー算出部534、判定調整係数記憶部535、およびパワー変動区間判定部536を有する。
短期平滑化係数記憶部531は、短期平滑化係数αが記憶されており、短期平滑化係数αを短期平滑化パワー算出部532に出力する。短期平滑化パワー算出部532は、この短期平滑化係数αと、コアレイヤ復号音声信号パワー算出部501から入力されるコアレイヤ復号音声信号パワーPc(t)を用いて、下記の式(3)に従いコアレイヤ復号音声信号パワーPc(t)の短期平滑化パワーPs(t)を算出する。短期平滑化パワー算出部532は、算出されたコアレイヤ復号音声信号パワーPc(t)の短期平滑化パワーPs(t)をパワー変動区間判定部536に出力する。
Figure 2006075663
長期平滑化係数記憶部533は、長期平滑化係数βが記憶されており、長期平滑化係数βを長期平滑化パワー算出部534に出力する。長期平滑化パワー算出部534は、この長期平滑化係数βと、コアレイヤ復号音声信号パワー算出部501から入力されるコアレイヤ復号音声信号パワーPc(t)を用いて、下記の式(4)に従いコアレイヤ復号音声信号パワーPc(t)の長期平滑化パワーPl(t)を算出する。長期平滑化パワー算出部534は、算出されたコアレイヤ復号音声信号パワーPc(t)の長期平滑化パワーPl(t)をパワー変動区間判定部536に出力する。上記の短期平滑化係数αと長期平滑化係数βとは、0.0<α<β<1.0の関係にある。
Figure 2006075663
ここで、短期平滑化係数αと長期平滑化係数βとは(0.0<α<β<1.0)の関係にある。
判定調整係数記憶部535は、パワー変動区間を判定するための調整係数γが記憶されており、調整係数γをパワー変動区間判定部536に出力する。パワー変動区間判定部536は、この調整係数γ、短期平滑化パワー算出部532から入力されるPs(t)、および長期平滑化パワー算出部534から入力される長期平滑化パワーPl(t)を用いて、下記の式(5)に従いパワー変動区間判定結果d(t)を得る。許容区間はパワー変動区間を含めるため、ここではパワー変動区間判定結果を許容区間検出結果と同じくd(t)で表す。パワー変動区間判定部536は、パワー変動区間判定結果d(t)を許容区間判定部506に出力する。
Figure 2006075663
なお、ここでパワー変動区間は、短期パワーと長期平滑化パワーとを比較することにより検出するが、前後のフレーム(またはサブフレーム)などのパワーを比較した結果として、パワーの変化量が所定の閾値以上であることを判定することによって、検出しても良い。あるいは、パワー変動区間は、コアレイヤ復号音声信号(または拡張レイヤ復号音声信号)の立ち上がり時を判定することによって、検出しても良い。
図8は、音質変化区間検出部504の内部構成を示すブロック図である。
音質変化区間は、コアレイヤ復号音声信号(または拡張レイヤ復号音声信号)の音質が大きく変動する区間である。音質変化区間においては、コアレイヤ復号音声信号(または拡張レイヤ復号音声信号)自体が、聴感的に時間的連続性を失っている状態となっている。この場合、拡張レイヤ復号音声信号の利得(換言すれば、コアレイヤ復号音声信号および拡張レイヤ復号音声信号の混合比)を急速に変化させてもその変化を知覚されにくい。音質変化区間は、コアレイヤ復号音声信号(または拡張レイヤ復号音声信号)に含まれる背景雑音信号の種類の急変を検出することによって、検出される。あるいは、音質変化区間は、コアレイヤ符号化データのスペクトルパラメータ(例えば、LSP)の変化を検出することによって、検出される。例えばLSPの変化を検出するためには、過去のLSPの各要素と現在のLSPの各要素との間の距離の合計を所定の閾値と比較した結果として、その距離の合計が閾値以上であることを検出する。このような検出を行う音質変化区間検出部504は、LSP要素間距離算出部541、LSP要素間距離蓄積部542、LSP要素間距離変化率算出部543、音質変化判定閾値記憶部544、コアレイヤ誤り復帰検出部545、および音質変化区間判定部546を有する。
LSP要素間距離算出部541は、コアレイヤ復号化部102から入力されるコアレイヤLSPを用いて、下記の式(6)に従いLSP要素間距離dlsp(t)を算出する。
Figure 2006075663
LSP要素間距離dlsp(t)は、LSP要素間距離蓄積部542及びLSP要素間距離度化率算出部543に出力される。
LSP要素間距離蓄積部542は、LSP要素間距離算出部541から入力されるLSP要素間距離dlsp(t)を蓄積し、過去(1フレーム前)のLSP要素間距離dlsp(t−1)を、LSP要素間距離変化率算出部543に出力する。LSP要素間距離変化率算出部543は、LSP要素間距離dlsp(t)を過去のLSP要素間距離dslp(t−1)で除算することによりLSP要素間距離変化率を算出する。算出されたLSP要素間距離変化率は、音質変化区間判定部546に出力される。
音質変化判定閾値記憶部544は、音質変化区間の判定に必要な閾値Aが記憶され、閾値Aを音質変化区間判定部546に出力する。音質変化区間判定部546は、この閾値Aと、LSP要素間距離変化率算出部543から入力されるLSP要素間距離変化率とを用いて下記の式(7)に従い音質変化区間判定結果d(t)を得る。
Figure 2006075663
ここで、lspはコアレイヤのLSP係数、Mはコアレイヤの線形予測係数の分析次数、mはLSPの要素番号、dlspは隣り合う要素間の距離をそれぞれ表す。
なお、許容区間はパワー変動区間を含めるため、ここでは音質変化区間判定結果を許容区間検出結果と同じくd(t)で表す。音質変化区間判定部546は、音質変化区間判定結果d(t)を許容区間判定部506に出力する。
コアレイヤ誤り復帰検出部545は、コアレイヤフレーム誤り検出部102から入力されるコアレイヤフレーム誤り検出結果に基づき、フレーム誤りから復帰(正常受信)したことを検出すると、その旨を音質変化区間判定部546に通知し、音質変化区間判定部546は、復帰後の所定数のフレームを音質変化区間と判定する。すなわち、コアレイヤフレーム誤りに起因してコアレイヤ復号音声信号に対して補間処理が行われた後の所定数のフレームを、音質変化区間として判定する。
図9は、拡張レイヤパワー微小区間検出部505の内部構成を示すブロック図である。
拡張レイヤパワー微小区間は、拡張レイヤ復号音声信号のパワーが非常に小さい区間である。拡張レイヤパワー微小区間においては、出力音声信号の帯域を急速に変化させてもその変化は知覚されにくい。したがって、拡張レイヤ復号音声信号の利得(換言すれば、コアレイヤ復号音声信号および拡張レイヤ復号音声信号の混合比)を急速に変化させてもその変化を知覚されにくい。拡張レイヤパワー微小区間は、拡張レイヤ復号音声信号のパワーが所定の閾値以下であることを検出することによって、検出される。あるいは、拡張レイヤパワー微小区間は、コアレイヤ復号音声信号のパワーに対する拡張レイヤ復号音声信号のパワーの比が所定値以下であることを検出することによって、検出される。このような検出を行う拡張レイヤパワー微小区間検出部505は、拡張レイヤ復号音声信号パワー算出部551、拡張レイヤパワー比算出部552、拡張レイヤパワー微小判定閾値記憶部553、拡張レイヤパワー微小区間判定部554を有する。
拡張レイヤ復号音声信号パワー算出部551は、拡張レイヤ復号化部108から入力される拡張レイヤ復号信号を用いて、下記の式(8)に従い拡張レイヤ復号音声信号パワーPe(t)を算出する。
Figure 2006075663
ここで、Oe(i)は拡張レイヤ復号音声信号、Pe(t)は拡張レイヤ復号音声信号パワーをそれぞれ表す。拡張レイヤ復号音声信号パワーPe(t)は、拡張レイヤパワー比算出部552及び拡張レイヤパワー微小区間判定部554に出力される。
拡張レイヤパワー比算出部552は、この拡張レイヤ復号音声信号パワーPe(t)を、コアレイヤ復号音声信号パワー算出部501から入力されるコアレイヤ復号信号パワーPc(t)で除算することにより、拡張レイヤパワー比を算出する。拡張レイヤパワー比は拡張レイヤパワー微小区間判定部554に出力される。
拡張レイヤパワー微小判定閾値記憶部553は、拡張レイヤパワー微小区間の判定に必要な閾値BおよびCが記憶されており、閾値BおよびCを拡張レイヤパワー微小区間判定部554に出力する。拡張レイヤパワー微小区間判定部554は、拡張レイヤ復号音声信号パワー算出部551から入力される拡張レイヤ復号音声信号パワーPe(t)、拡張レイヤパワー比算出部552から入力される拡張レイヤパワー比、拡張レイヤパワー微小判定閾値記憶部553から入力される閾値BおよびCを用いて、下記の式(9)に従い拡張レイヤパワー微小区間判定結果d(t)を得る。許容区間は拡張レイヤパワー微小区間を含めるため、ここでは拡張レイヤパワー微小区間判定結果を許容区間検出結果と同じくd(t)で表す。拡張レイヤパワー微小区間判定部554は、拡張レイヤパワー微小区間判定結果d(t)を許容区間判定部506に出力する。
Figure 2006075663
許容区間検出部110が前述の方法で許容区間を検出すると、次いで重み付け加算部114は、音声信号の帯域変化が知覚されにくい区間においてのみ、混合比を比較的急に変化させるとともに、音声信号の帯域変化が知覚されやすい区間においては、混合比を比較的緩やかに変化させる。よって、受聴者が音声信号に対して違和感や変動感を持つ可能性を確実に低減することができる。
次いで、重み付け加算部114の内部構成およびその動作について、図2を用いて説明する。図2は、重み付け加算部114の内部構成を示すブロック図であり、重み付け加算部114は、拡張レイヤ復号音声利得制御器120、拡張レイヤ復号音声増幅器122および加算器124を有する。
設定手段としての拡張レイヤ復号音声利得制御器120は、拡張レイヤフレーム誤り検出結果および許容区間検出結果に基づいて、拡張レイヤ復号音声信号の利得(以下「拡張レイヤ利得」と言う)を制御する。拡張レイヤ復号音声信号の利得制御においては、拡張レイヤ復号音声信号の利得の経時的な変化の度合いが可変設定される。これによって、コアレイヤ復号音声信号および拡張レイヤ復号音声信号が混合されるときの混合比が可変設定される。
なお、拡張レイヤ復号音声利得制御器120では、コアレイヤ復号音声信号の利得(以下「コアレイヤ利得」と言う)の制御は行われず、拡張レイヤ復号音声信号と混合されるときのコアレイヤ復号音声信号の利得は一定の値に固定される。したがって、両信号の利得を可変設定する場合に比べて容易に混合比を可変設定することができる。ただし、拡張レイヤ利得だけでなくコアレイヤ利得も制御するようにしても良い。
拡張レイヤ復号音声増幅器122は、拡張レイヤ復号音声利得制御器120によって制御された利得を、拡張レイヤ復号化部108から入力された拡張レイヤ復号音声信号に乗じる。利得を乗じられた拡張レイヤ復号音声信号は、加算器124に出力される。
加算器124は、拡張レイヤ復号音声増幅器122から入力された拡張レイヤ復号音声信号および信号調整部112から入力されたコアレイヤ復号音声信号を加算する。これによって、コアレイヤ復号音声信号および拡張レイヤ復号音声信号は混合され、混合信号が生成される。生成された混合信号は、音声復号装置100の出力音声信号となる。すなわち、拡張レイヤ復号音声増幅器122および加算器124の組み合わせは、コアレイヤ復号音声信号および拡張レイヤ復号音声信号の混合比を経時的に変化させながらコアレイヤ復号音声信号および拡張レイヤ復号音声信号を混合して、混合信号を得る混合部を構成する。
以下、重み付け加算部114における動作について説明する。
重み付け加算部114の拡張レイヤ復号音声利得制御器120では、拡張レイヤ利得は、主として拡張レイヤ符号化データが受信できないときに減衰し拡張レイヤ符号化データを受信し始めたら上昇するように制御される。また、拡張レイヤ利得は、コアレイヤ復号音声信号または拡張レイヤ復号音声信号の状態に同期して適応的に制御される。
ここで、拡張レイヤ復号音声利得制御器120での拡張レイヤ利得の可変設定動作の例を説明する。なお、本実施の形態では、コアレイヤ復号音声信号の利得は固定されているため、拡張レイヤ利得およびその経時変化の度合いが拡張レイヤ復号音声利得制御器120によって変更されるとき、コアレイヤ復号音声信号および拡張レイヤ復号音声信号の混合比ならびにその経時変化の度合いは変更される。
拡張レイヤ復号音声利得制御器120は、拡張レイヤフレーム誤り検出部106から入力された拡張レイヤフレーム誤り検出結果e(t)と、許容区間検出部110から入力された許容区間検出結果d(t)と、を用いて拡張レイヤ利得g(t)を決定する。拡張レイヤ利得g(t)は、次の式(10)〜(12)によって決定される。
g(t)=1.0 ,g(t−1)+s(t)>1.0の場合 …(10)
g(t)=g(t−1)+s(t)
,0.0≦g(t−1)+s(t)≦1.0の場合 …(11)
g(t)=0.0 ,g(t−1)+s(t)<0.0の場合 …(12)
なお、s(t)は拡張レイヤ利得の増減値を表す。
すなわち、拡張レイヤ利得g(t)の最小値は0.0であり、最大値は1.0である。コアレイヤ利得は制御されない、つまりコアレイヤ利得は常に1.0であるため、g(t)=1.0のときは、コアレイヤ復号音声信号および拡張レイヤ復号音声信号が1:1の混合比で混合される。一方、g(t)=0.0のときは、信号調整部112から出力されたコアレイヤ復号音声信号が出力音声信号となる。
増減値s(t)は、拡張レイヤフレーム誤り検出結果e(t)および許容区間検出結果d(t)に従い、次の式(13)〜(16)によって決定される。
s(t)=0.20 ,e(t)=1且つd(t)=1の場合 …(13)
s(t)=0.02 ,e(t)=1且つd(t)=0の場合 …(14)
s(t)=−0.40 ,e(t)=0且つd(t)=1の場合 …(15)
s(t)=−0.20 ,e(t)=0且つd(t)=0の場合 …(16)
なお、拡張レイヤフレーム誤り検出結果e(t)は次の式(17)〜(18)で示される。
e(t)=1 ,拡張レイヤフレーム誤りなしの場合 …(17)
e(t)=0 ,拡張レイヤフレーム誤りありの場合 …(18)
また、許容区間検出結果d(t)は、次の式(19)〜(20)で示される。
d(t)=1 ,許容区間の場合 …(19)
d(t)=0 ,許容区間以外の区間の場合 …(20)
式(13)および式(14)を比較すると、または、式(15)および式(16)を比較すると、許容区間(d(t)=1)では、許容区間以外の区間(d(t)=0)に比べて、拡張レイヤ利得の増減値s(t)が大きくなる。したがって、許容区間では、許容区間以外の区間に比べて、コアレイヤ復号音声信号および拡張レイヤ復号音声信号の混合比の経時変化の度合いが大きくなり、混合比の経時変化が急になる。そして、許容区間以外の区間では、許容区間に比べて、コアレイヤ復号音声信号および拡張レイヤ復号音声信号の混合比の経時変化の度合いが小さくなり、混合比の経時変化が緩やかになる。
なお、説明の簡略化のため、前述の各関数g(t)、s(t)、d(t)をフレーム単位で表現したが、サンプル単位で表現しても良い。また、前述の式(10)〜(20)で用いられた数値は一例であり、他の数値を用いても良い。前述の例では、拡張レイヤ利得が直線的に増減するような関数が用いられているが、拡張レイヤ利得を単調増加または単調減少させる任意の関数を用いることができる。また、背景雑音信号がコアレイヤ復号音声信号に含まれている場合は、コアレイヤ復号音声信号を用いて音声信号対背景雑音信号比などを求め、その比に応じて、拡張レイヤ利得の増分、減分を適応的に制御しても良い。
続いて、拡張レイヤ復号音声利得制御器120によって制御された拡張レイヤ利得の経時変化について、2つの例を挙げて説明する。図3は、拡張レイヤ利得の経時変化の第1の例を説明するための図であり、図4は、拡張レイヤ利得の経時変化の第2の例を説明するための図である。
まず、図3を用いて第1の例について説明する。図3Bには、拡張レイヤ符号化データが受信できたか否かが示されている。時刻T1から時刻T2までの区間、時刻T6から時刻T8までの区間および時刻T10以降の区間において、拡張レイヤフレーム誤りが検出されており、それ以外の区間では、拡張レイヤフレーム誤りは検出されていない。
また、図3Cには、許容区間検出結果が示されている。時刻T3から時刻T5までの区間および時刻T9から時刻T11までの区間は、検出された許容区間である。これ以外の区間では、許容区間は検出されていない。
また、図3Aには、拡張レイヤ利得が示されている。g(t)=0.0は、拡張レイヤ復号音声信号を完全に減衰し全く出力に貢献しないことを表す。一方、g(t)=1.0は、拡張レイヤ復号音声信号を全て利用することを表す。
時刻T1から時刻T2までの区間では、拡張レイヤフレーム誤りが検出されているため、拡張レイヤ利得が徐々に下げられている。時刻T2に至ると拡張レイヤフレーム誤りが検出されなくなるため、拡張レイヤ利得は、今度は逆に上げられている。時刻T2以降の拡張レイヤ利得上昇期間のうち、時刻T2から時刻T3までの区間は、許容区間ではない。したがって、拡張レイヤ利得の上昇の度合いは小さく、拡張レイヤ利得の上昇は比較的緩やかである。一方、時刻T2以降の拡張レイヤ利得上昇期間のうち、時刻T3から時刻T5までの区間は、許容区間である。したがって、拡張レイヤ利得の上昇の度合いは大きく、拡張レイヤ利得の上昇は比較的急である。これによって、時刻T2から時刻T3までの区間において、帯域変化が知覚されることを防止することができる。また、時刻T3から時刻T5においては、帯域変化が知覚されにくい状態を維持しながら帯域変化を速めることができ、広帯域感を出すことに貢献することができ、主観品質を向上することができる。
そして、時刻T8から時刻T10までの区間では、拡張レイヤフレーム誤りが検出されていないため、拡張レイヤ利得が上げられている。しかし、時刻T8から時刻T10までの区間のうち、時刻T8から時刻T9までの区間は、許容区間ではない。したがって、拡張レイヤ利得の上昇は比較的緩やかな状態に抑えられている。一方、時刻T8から時刻T10までの区間のうち、時刻T9から時刻T10までの区間は、許容区間である。したがって、拡張レイヤ利得の上昇は比較的急である。
そして、時刻T10以降の区間では、拡張レイヤフレーム誤りが検出されている。このため、拡張レイヤ利得の変化は、時刻T10から低下に転じる。また、時刻T10以降の区間のうち、時刻T10から時刻11までの区間は、許容区間である。したがって、拡張レイヤ利得の低下の度合いは大きく、拡張レイヤ利得の低下は比較的急である。一方、時刻T11以降の区間は、許容区間ではない。したがって、拡張レイヤ利得の低下の度合いは小さく、拡張レイヤ利得の低下は比較的緩やかな状態に抑えられている。そして、時刻T12にて、拡張レイヤ利得は0.0になる。これによって、時刻T10から時刻T11までの区間においては、帯域変化が知覚されにくい状態を維持しながら帯域変化を速めることができる。また、時刻T11から時刻T12までの区間においては、帯域変化が知覚されることを防止することができる。
次に、図4を用いて、第2の例について説明する。図4Bには、拡張レイヤ符号化データが受信できたか否かが示されている。時刻T21から時刻T22までの区間、時刻T24から時刻T27までの区間、時刻T28から時刻T30までの区間および時刻T31以降の区間において、拡張レイヤフレーム誤りが検出されており、それ以外の区間では、拡張レイヤフレーム誤りは検出されていない。
また、図4Cには、許容区間検出結果が示されている。時刻T23から時刻T26までの区間は、検出された許容区間である。これ以外の区間では、許容区間は検出されていない。
また、図4Aには、拡張レイヤ利得が示されている。第2の例では、拡張レイヤフレーム誤りが検出される頻度が、第1の例に比べて高い。したがって、拡張レイヤ利得の増減の転換の頻度が高い。具体的には、拡張レイヤ利得は、時刻T22から上昇し、時刻T24からは低下し、時刻T27からは上昇し、時刻T28からは低下し、時刻T30からは上昇し、時刻T31からは低下する。この過程において、許容区間は、時刻T23から時刻T26までの区間のみである。つまり、時刻T26以降の区間では、拡張レイヤ利得の変化の度合いが小さくなるように制御され、拡張レイヤ利得の変化は比較的緩やかな状態に抑えられる。このため、時刻T27から時刻28までの区間および時刻T30から時刻T31までの区間での拡張レイヤ利得の上昇は、比較的緩やかであり、時刻T28から時刻29までの区間および時刻T31から時刻T32までの区間での拡張レイヤ利得の低下は、比較的緩やかである。これによって、帯域変化が頻繁に起こったときに受聴者が変動感を持つのを防止することができる。
このように、前述の2つの例では、許容区間において、帯域切替を速やかに行うことで、コアレイヤ復号音声信号のパワーなどの変化と、帯域切替によって生じ得る総合的な復号音声の変動感を緩和させることができる。一方、許容区間以外の区間において、パワーや帯域幅の変化を緩やかに行うよう制御することで、帯域幅の変化を目立たなくすることができる。
また、前述の2つの例では、拡張レイヤ利得の経時変化の度合いが変更されることに伴って、混合信号の出力時間が変更される。このため、混合比の経時変化の度合いが変更されたときに、音の大きさや不連続性や帯域感の不連続性が発生するのを防止することができる。
以上説明したように、本実施の形態によれば、コアレイヤ復号音声信号つまり狭帯域音声信号および拡張レイヤ復号音声信号つまり広帯域音声信号を混合するときに経時的に変化する混合比の変化の度合いを可変設定するため、受聴者が音声信号に対して違和感や変動感を持つ可能性を低減することができ、音質を向上することができる。
なお、採用可能な帯域スケーラブル音声符号化方式は、本実施の形態で説明したものに限定されない。例えば、拡張レイヤでコアレイヤ符号化データおよび拡張レイヤ符号化データの双方を用いて広帯域復号音声信号を一括復号するような方式であって、拡張レイヤフレーム誤り発生時にはコアレイヤ復号音声信号を使用するような方式にも、本実施の形態の構成を適用することができる。この場合、コアレイヤ復号音声および拡張レイヤ復号音声を切り替える際には、コアレイヤ復号音声および拡張レイヤ復号音声の双方に対して、フェードインまたはフェードアウトするような重ね合わせ処理を行う。そして、前述の許容区間検出結果に従ってフェードインまたはフェードアウトの速度を制御する。これによって、音質劣化を抑えた復号音声を得ることができる。
また、本実施の形態の許容区間検出部110と同様に、帯域の変化を許容する区間を検出するための構成を、帯域スケーラブル音声符号化方式を適用した音声符号化装置に設けても良い。この場合、音声符号化装置は、帯域の変化を許容する区間以外の区間では帯域切替(つまり、狭帯域から広帯域への切替または広帯域から狭帯域への切替)を保留し、帯域の変化を許容する区間のみにおいて帯域切替を実行する。この音声符号化装置で符号化された音声を音声復号装置で復号した場合、その音声復号装置がたとえ帯域切り替え機能を有しないものであったとしても、受聴者が復号音声に対して違和感や変動感を持つ可能性を低減することができる。
また、上記各実施の形態の説明に用いた各機能ブロックは、典型的には集積回路であるLSIとして実現される。これらは個別に1チップ化されても良いし、一部又は全てを含むように1チップ化されても良い。
ここでは、LSIとしたが、集積度の違いにより、IC、システムLSI、スーパーLSI、ウルトラLSIと呼称されることもある。
また、集積回路化の手法はLSIに限るものではなく、専用回路又は汎用プロセッサで実現しても良い。LSI製造後に、プログラムすることが可能なFPGA(Field Programmable Gate Array)や、LSI内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサーを利用しても良い。
さらには、半導体技術の進歩又は派生する別技術によりLSIに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積化を行っても良い。バイオ技術の適応等が可能性としてありえる。
本発明の第1の態様は、音声切替装置であって、この装置は出力する音声信号の帯域を切り替えるときに、狭帯域音声信号および広帯域音声信号が混合された混合信号を出力する音声切替装置であって、前記狭帯域音声信号および前記広帯域音声信号の混合比を経時的に変化させながら前記狭帯域音声信号および前記広帯域音声信号を混合して、前記混合信号を得る混合手段と、前記混合比の経時的な変化の度合いを可変設定する設定手段と、を有する構成を採る。
この構成によれば、狭帯域音声信号および広帯域音声信号を混合するときに経時的に変化する混合比の変化の度合いを可変設定するため、受聴者が音声信号に対して違和感や変動感を持つ可能性を低減することができ、音質を向上することができる。
本発明の第2の態様は、上記構成において、前記狭帯域音声信号または前記広帯域音声信号が得られる期間において特定の区間を検出する検出手段を有し、前記設定手段は、前記特定の区間が検出されたときは前記度合いを増加させ、前記特定の区間が検出されないときは前記度合いを低減させる構成を採る。
この構成によれば、混合比の経時変化の度合いを比較的高くする期間を、音声信号が得られる期間の中の特定の区間に限定することができ、混合比の経時変化の度合いを変更するタイミングを制御することができる。
本発明の第3の態様は、上記構成において、前記検出手段は、前記音声信号の帯域の所定レベル以上の急変を許容する区間を前記特定の区間として検出する構成を採る。
本発明の第4の態様は、上記構成において、前記検出手段は、無音区間を前記特定の区間として検出する構成を採る。
本発明の第5の態様は、上記構成において、前記検出手段は、前記狭帯域音声信号のパワーが所定レベル以下である区間を前記特定の区間として検出する構成を採る。
本発明の第6の態様は、上記構成において、前記検出手段は、前記広帯域音声信号のパワーが所定レベル以下である区間を前記特定の区間として検出する構成を採る。
本発明の第7の態様は、上記構成において、前記検出手段は、前記狭帯域音声信号のパワーに対する前記広帯域音声信号のパワーの大きさが所定レベル以下である区間を前記特定の区間として検出する。
本発明の第8の態様は、上記構成において、前記検出手段は、前記狭帯域音声信号のパワーの変動が所定レベル以上である区間を前記特定の区間として検出する構成を採る。
本発明の第9の態様は、上記構成において、前記検出手段は、前記狭帯域音声信号の立ち上がりを前記特定の区間として検出する構成を採る。
本発明の第10の態様は、上記構成において、前記検出手段は、前記広帯域音声信号のパワーの変動が所定レベル以上である区間を前記特定の区間として検出する構成を採る。
本発明の第11の態様は、上記構成において、前記検出手段は、前記広帯域音声信号の立ち上がりを検出する構成を採る。
本発明の第12の態様は、上記構成において、前記検出手段は、前記狭帯域音声信号に含まれる背景雑音信号の種類が変化する区間を前記特定の区間として検出する構成を採る。
本発明の第13の態様は、上記構成において、前記検出手段は、前記広帯域音声信号に含まれる背景雑音信号の種類が変化する区間を前記特定の区間として検出する構成を採る。
本発明の第14の態様は、上記構成において、前記検出手段は、前記狭帯域音声信号のスペクトルパラメータの変化が所定レベル以上である区間を前記特定の区間として検出する構成を採る。
本発明の第15の態様は、上記構成において、前記検出手段は、前記広帯域音声信号のスペクトルパラメータの変化が所定レベル以上である区間を前記特定の区間として検出する構成を採る。
本発明の第16の態様は、上記構成において、前記検出手段は、前記狭帯域音声信号に対して補間処理が行われた後の区間を前記特定の区間として検出する構成を採る。
本発明の第17の態様は、上記構成において、前記検出手段は、前記広帯域音声信号に対して補間処理が行われた後の区間を前記特定の区間として検出する構成を採る。
これらの構成によれば、音声信号の帯域変化が知覚されにくい区間においてのみ、混合比を比較的急に変化させることができるとともに、音声信号の帯域変化が知覚されやすい区間においては、混合比を比較的緩やかに変化させることができ、受聴者が音声信号に対して違和感や変動感を持つ可能性を確実に低減することができる。
本発明の第18の態様は、上記構成において、前記設定手段は、前記狭帯域音声信号の利得を固定する一方、前記広帯域音声信号の利得の経時的な変化の度合いを可変設定する構成を採る。
この構成によれば、両信号の利得の経時変化の度合いを可変設定する場合に比べて容易に混合比可変設定を行うことができる。
本発明の第19の態様は、上記構成において、前記設定手段は、前記混合信号の出力時間を変更する構成を採る。
この構成によれば、両信号の混合比の経時変化の度合いが変更されたときに、音の大きさの不連続性や帯域感の不連続性が発生するのを防止することができる。
本発明の第20の態様は、通信端末装置であって、この装置は上記構成の音声切替装置を具備する構成を採る。
本発明の第21の態様は、音声切替方法であって、この方法は出力する音声信号の帯域を切り替えるときに、狭帯域音声信号および広帯域音声信号が混合された混合信号を出力する音声切替方法であって、前記狭帯域音声信号および前記狭帯域音声信号の混合比の経時的な変化の度合いを変更する変更ステップと、変更された度合いで前記混合比を経時的に変化させながら前記狭帯域音声信号および前記広帯域音声信号を混合して、前記混合信号を得る混合ステップと、を有するようにした。
この方法によれば、狭帯域音声信号および広帯域音声信号を混合するときに経時的に変化する混合比の変化の度合いを可変設定するため、受聴者が音声信号に対して違和感や変動感を持つ可能性を低減することができ、音質を向上することができる。
本明細書は、2005年1月14日出願の特願2005−008084に基づく。この内容はすべてここに含めておく。
本発明の音声切替装置および音声切替方法は、音声信号の帯域の切替に適用することができる。
本発明は、音声信号の帯域を切り替える音声切替装置および音声切替方法に関する。
一般にスケーラブル音声符号化と呼ばれる、階層的に音声信号を符号化する技術においては、ある階層(レイヤ)の符号化データが失われても他の階層の符号化データから音声信号を復号することができる。スケーラブル符号化の中には、帯域スケーラブル音声符号化と呼ばれるものがある。帯域スケーラブル音声符号化では、狭帯域信号に対して符号化、復号化を行う処理層と、狭帯域信号を高品質化、広帯域化させるための符号化、復号化を行う処理層と、が用いられる。以下、前者の処理層をコアレイヤと言い、後者の処理層を拡張レイヤと言う。
帯域スケーラブル音声符号化を、例えば、伝送帯域が保証されず符号化データが部分的に消失したり遅延したりし得る通信ネットワーク上での音声データ通信に適用した場合、受信側では、コアレイヤおよび拡張レイヤの双方の符号化データ(コアレイヤ符号化データおよび拡張レイヤ符号化データ)を受信できるときもあれば、コアレイヤ符号化データのみを受信できるときもある。したがって、受信側に設けられた音声復号装置では、出力する復号音声信号を、コアレイヤ符号化データのみから得られる狭帯域の復号音声信号とコアレイヤおよび拡張レイヤの双方の符号化データから得られる広帯域の復号音声信号との間で切り替える必要がある。
狭帯域復号音声信号と広帯域復号音声信号とをスムーズに切り替えて、音声の大きさの不連続性や帯域の広がり感(帯域感)の不連続性を防止するための手法としては、例えば特許文献1に記載されたものがある。この文献に記載された音声切替装置では、両信号(つまり、狭帯域復号音声信号および広帯域復号音声信号)のサンプリング周波数、遅延および位相を合わせてから、両信号を重み付け加算する。重み付け加算においては、両信号の混合比を一定の度合い(増分または減分)で経時的に変化させながら、両信号を加算する。そして、出力する信号が、狭帯域復号音声信号から広帯域復号音声信号に切り替えられるとき、あるいは、広帯域復号音声信号から狭帯域復号音声信号に切り替えられるとき、狭帯域復号音声信号の出力および広帯域復号音声信号の出力の間に、重み付け加算信号の出力が行われる。
特開2000−352999号公報
しかしながら、上記従来の音声切替装置においては、両信号の重み付け加算に用いる混合比の変化の度合いが常に一定であるため、受信状況によっては、復号音声の受聴者が違和感や変動感を持つことがある。例えば、定常的な背景雑音を表す信号が音声信号に含まれている区間で音声切替が頻繁に発生すると、切替に伴うパワーや帯域感の変化が受聴者に感じ取られやすくなる。したがって、音質の向上に一定の限界があった。
よって、本発明の目的は、復号音声の音質を向上することができる音声切替装置および音声切替方法を提供することである。
本発明の音声切替装置は、出力する音声信号の帯域を切り替えるときに、狭帯域音声信号および広帯域音声信号が混合された混合信号を出力する音声切替装置であって、前記狭
帯域音声信号および前記広帯域音声信号の混合比を経時的に変化させながら前記狭帯域音声信号および前記広帯域音声信号を混合して、前記混合信号を得る混合手段と、前記混合比の経時的な変化の度合いを可変設定する設定手段と、を有する構成を採る。
本発明によれば、狭帯域復号音声信号と広帯域復号音声信号とをスムーズに切り替えることができ、従って復号音声の音質を向上することができる。
以下、本発明の実施の形態について、図面を用いて詳細に説明する。
図1は、本発明の一実施の形態に係る音声切替装置を備えた音声復号装置の構成を示すブロック図である。図1の音声復号装置100は、コアレイヤ復号化部102、コアレイヤフレーム誤り検出部104、拡張レイヤフレーム誤り検出部106、拡張レイヤ復号化部108、許容区間検出部110、信号調整部112、および重み付け加算部114を有する。
コアレイヤフレーム誤り検出部104は、コアレイヤ符号化データが復号可能か否かを検出する。具体的には、コアレイヤフレーム誤り検出部104はコアレイヤフレーム誤りを検出する。そして、コアレイヤフレーム誤りが検出されたときに、コアレイヤ符号化データが復号不可能であると判断する。コアレイヤフレーム誤り検出結果は、コアレイヤ復号化部102および許容区間検出部110に出力される。
ここで、コアレイヤフレーム誤りとは、コアレイヤ符号化データのフレームが送信途中で受けた誤りや、パケット通信におけるパケットロス(例えば、通信路上でのパケット破棄、ジッタによるパケット未着など)などの理由によってコアレイヤ符号化データのほとんどまたは全てを復号に用いることができない状態を指す。
コアレイヤフレーム誤りの検出は、例えば下記の処理をコアレイヤフレーム誤り検出部104で実行することにより実現される。例えば、コアレイヤフレーム誤り検出部104はコアレイヤ符号化データとは別に誤り情報を受信する。あるいは、コアレイヤフレーム誤り検出部104はコアレイヤ符号化データに付加されたCRC(Cyclic Redundancy Check)などの誤り検査符号を用いて誤り検出を行う。あるいはコアレイヤフレーム誤り検出部104は、復号時間までにコアレイヤ符号化データが未着であることを判断する。あ
るいは、パケットロスや未着を検知する。あるいは、コアレイヤ復号化部102でのコアレイヤ符号化データの復号過程において、コアレイヤ符号化データ内に含まれる誤り検出符号などにより重大な誤りが検出されたときに、コアレイヤフレーム誤り検出部104はその旨の情報をコアレイヤ復号化部102から取得する。
コアレイヤ復号化部102は、コアレイヤ符号化データを受信して、そのコアレイヤ符号化データを復号する。この復号によって生成されたコアレイヤ復号音声信号は、信号調整部112に出力される。コアレイヤ復号音声信号は、狭帯域の信号である。なお、このコアレイヤ復号音声信号は、そのまま最終出力として用いられても良い。またコアレイヤ復号化部102は、コアレイヤ符号化データの一部もしくはコアレイヤLSP(Line Spectrum Pair)を許容区間検出部110に出力する。コアレイヤLSPは、コアレイヤ復号の過程で得られたスペクトルパラメータである。ここでは、コアレイヤ復号化部102が許容区間検出部110にコアレイヤLSPを出力する場合を例にとって説明しているが、コアレイヤ復号の過程で得られる他のスペクトルパラメータ、さらにはコアレイヤ復号の過程で得られるスペクトルパラメータではない他のパラメータを出力するようにしても良い。
コアレイヤ復号化部102は、コアレイヤフレーム誤りがコアレイヤフレーム誤り検出部104から通知された場合や、コアレイヤ符号化データの復号過程において、コアレイヤ符号化データ内に含まれる誤り検出符号などにより重大な誤りがあると判定された場合は、過去の符号化情報などを利用して線形予測係数および音源の補間などを行う。これによって、コアレイヤ復号音声信号を生成し出力し続ける。また、コアレイヤ符号化データの復号過程において、コアレイヤ符号化データ内に含まれる誤り検出符号などにより重大な誤りがあると判定された場合、コアレイヤ復号化部102は、その旨の情報をコアレイヤフレーム誤り検出部104に通知する。
拡張レイヤフレーム誤り検出部106は、拡張レイヤ符号化データが復号可能か否かを検出する。具体的には拡張レイヤフレーム誤り検出部106は、拡張レイヤフレーム誤りを検出する。そして、拡張レイヤフレーム誤りが検出されたときに、拡張レイヤ符号化データが復号不可能であると判断する。拡張レイヤフレーム誤り検出結果は、拡張レイヤ復号化部108および重み付け加算部114に出力される。
ここで、拡張レイヤフレーム誤りとは、拡張レイヤ符号化データのフレームが送信途中で受けた誤りや、パケット通信におけるパケットロスなどの理由によって拡張レイヤ符号化データのほとんどまたは全てを復号に用いることができない状態を指す。
拡張レイヤフレーム誤りの検出は、例えば下記の処理を拡張レイヤフレーム誤り検出部106で実行することにより実現される。例えば、拡張レイヤフレーム誤り検出部106は拡張レイヤ符号化データとは別に誤り情報を受信する。あるいは拡張レイヤフレーム誤り検出部106は、拡張レイヤ符号化データに付加されたCRCなどの誤り検査符号を用いて誤り検出を行う。あるいは拡張レイヤフレーム誤り検出部106は、復号時間までに拡張レイヤ符号化データが未着であることを判断する。あるいは拡張レイヤフレーム誤り検出部106は、パケットロスや未着を検知する。あるいは、拡張レイヤ復号化部108での拡張レイヤ符号化データの復号過程において、拡張レイヤ符号化データ内に含まれる誤り検出符号などにより重大な誤りが検出されたときに、拡張レイヤフレーム誤り検出部106はその旨の情報を拡張レイヤ復号化部108から取得する。あるいは、拡張レイヤの復号にコアレイヤの情報が不可欠であるようなスケーラブル音声符号化方式が採用されている場合は、コアレイヤフレーム誤りが検出されたときに、拡張レイヤフレーム誤り検出部106は拡張レイヤフレーム誤りが検出されたと判断する。この場合拡張レイヤフレーム誤り検出部106は、コアレイヤフレーム誤り検出部104から、コアレイヤフレー
ム誤り検出結果の入力を受ける。
拡張レイヤ復号化部108は、拡張レイヤ符号化データを受信して、その拡張レイヤ符号化データを復号する。この復号によって生成された拡張レイヤ復号音声信号は、許容区間検出部110および重み付け加算部114に出力される。拡張レイヤ復号音声信号は、広帯域の信号である。
拡張レイヤ復号化部108は、拡張レイヤフレーム誤りが拡張レイヤフレーム誤り検出部106から通知された場合や、拡張レイヤ符号化データの復号過程において、拡張レイヤ符号化データ内に含まれる誤り検出符号などにより重大な誤りがあると判定された場合は、過去の符号化情報などを利用して線形予測係数および音源の補間などを行う。これによって、必要に応じて、拡張レイヤ復号音声信号を生成し出力する。また、拡張レイヤ符号化データの復号過程において、拡張レイヤ符号化データ内に含まれる誤り検出符号などにより重大な誤りがあると判定された場合、拡張レイヤ復号化部108は、その旨の情報を拡張レイヤフレーム誤り検出部106に通知する。
信号調整部112は、コアレイヤ復号化部102から入力されたコアレイヤ復号音声信号を調整する。具体的には信号調整部112は、コアレイヤ復号音声信号に対してアップサンプリングを行って、拡張レイヤ復号音声信号のサンプリング周波数に合わせる。また信号調整部112は、遅延および位相を拡張レイヤ復号音声信号に合わせるために、コアレイヤ復号音声信号の遅延および位相を調整する。これらの処理を施されたコアレイヤ復号音声信号は、許容区間検出部110および重み付け加算部114に出力される。
許容区間検出部110は、コアレイヤフレーム誤り検出部104から入力されるコアレイヤフレーム誤り検出結果、信号調整部112から入力されたコアレイヤ復号音声信号、コアレイヤ復号化部102から入力されたコアレイヤLSP、および拡張レイヤ復号化部108から入力された拡張レイヤ復号音声信号を分析し、分析結果に基づいて許容区間を検出する。許容区間検出結果は、重み付け加算部114に出力される。このため、コアレイヤ復号音声信号および拡張レイヤ復号音声信号の混合比を経時的に変化させる度合いを比較的高くする期間を許容区間のみに限定することができ、混合比の経時変化の度合いを変更するタイミングを制御することができる。
ここで、許容区間とは、出力音声信号の帯域が変化しても聴感上の影響が少ない区間、すなわち、出力音声信号の帯域変化が受聴者に知覚されにくい区間である。逆に、コアレイヤ復号音声信号および拡張レイヤ復号音声信号が生成されている期間のうち許容区間以外の区間は、出力音声信号の帯域変化が受聴者に知覚されやすい区間である。したがって、許容区間は、出力音声信号の帯域の急変を許容する区間である。
許容区間検出部110は、無音区間、パワー変動区間、音質変化区間、拡張レイヤパワー微小区間、などを、許容区間として検出し、検出結果を重み付け加算部114に出力する。許容区間検出部110の内部構成および許容区間を検出する処理の詳細については後述する。
音声切替装置としての重み付け加算部114は、出力音声信号の帯域を切り替える。また重み付け加算部114は、出力音声信号の帯域を切り替えるとき、コアレイヤ音声信号および拡張レイヤ音声信号が混合された混合信号を出力音声信号として出力する。混合信号は、信号調整部112から入力されたコアレイヤ復号音声信号および拡張レイヤ復号化部108から入力された拡張レイヤ復号音声信号の重み付け加算を行うことによって、生成される。すなわち混合信号は、コアレイヤ復号音声信号および拡張レイヤ復号音声信号の重み和である。重み付け加算の詳細については後述する。
図5は、許容区間検出部110の内部構成を示すブロック図である。許容区間検出部110は、コアレイヤ復号音声信号パワー算出部501、無音区間検出部502、パワー変動区間検出部503、音質変化区間検出部504、拡張レイヤパワー微小区間検出部505、および許容区間判定部506を有する。
コアレイヤ復号音声信号パワー算出部501は、コアレイヤ復号化部102からコアレイヤ復号音声信号が入力され、下記の式(1)に従ってコアレイヤ復号音声信号パワーPc(t)を算出する。
Figure 2006075663
ここで、tはフレーム番号、Pc(t)はフレームtにおけるコアレイヤ復号音声信号のパワー、L_FRAMEはフレーム長、iはサンプル番号、Oc(i)はコアレイヤ復号音声信号をそれぞれ表す。
コアレイヤ復号音声信号パワー算出部501は、算出して得られたコアレイヤ復号音声信号パワーPc(t)を、無音区間検出部502、パワー変動区間検出部503、および拡張レイヤパワー微小区間検出部505に出力する。無音区間検出部502は、コアレイヤ復号音声信号パワー算出部501から入力されるコアレイヤ復号音声信号パワーPc(t)を用いて、無音区間を検出し、得られる無音区間検出結果を許容区間判定部506に出力する。パワー変動区間検出部503は、コアレイヤ復号音声信号パワー算出部501から入力されるコアレイヤ復号音声信号パワーPc(t)を用いて、パワー変動区間を検出し、得られるパワー変動区間検出結果を許容区間判定部506に出力する。音質変化区間検出部504は、コアレイヤフレーム誤り検出部104から入力されるコアレイヤフレーム誤り検出結果およびコアレイヤ復号化部102から入力されるコアレイヤLSPを用いて、音質変化区間を検出し、得られる音質変化区間検出結果を許容区間判定部506に出力する。拡張レイヤパワー微小区間検出部505は、拡張レイヤ復号化部108から入力される拡張レイヤ復号音声信号を用いて、拡張レイヤパワー微小区間を検出し、得られる拡張レイヤパワー微小区間検出結果を許容区間判定部506に出力する。許容区間判定部506では、無音区間検出部502、パワー変動区間検出部503、音質変化区間検出部504、拡張レイヤパワー微小区間検出部505の検出結果に基づき、無音区間、パワー変動区間、音質変化区間、または拡張レイヤパワー微小区間が検出されたか否かを判定する。つまり、許容区間が検出されたか否かを判定し、判定結果として許容区間検出結果を出力する。
図6は、無音区間検出部502の内部構成を示すブロック図である。
無音区間は、コアレイヤ復号音声信号のパワーが非常に小さい区間である。無音区間においては、拡張レイヤ復号音声信号の利得(換言すれば、コアレイヤ復号音声信号および拡張レイヤ復号音声信号の混合比)を急速に変化させてもその変化を知覚されにくい。無音区間は、コアレイヤ復号音声信号のパワーが所定の閾値以下であることを検出することによって、検出される。このような検出を行う無音区間検出部502は、無音判定閾値記憶部521および無音区間判定部522を有する。
無音判定閾値記憶部521は、無音区間の判定に必要な閾値εが記憶されており、閾値εを無音区間判定部522に出力する。無音区間判定部522は、コアレイヤ復号音声信号パワー算出部501から入力されるコアレイヤ復号音声信号パワーPc(t)と閾値εとを比較して、下記の式(2)に従い無音区間判定結果d(t)を得る。許容区間は無音
区間を含めるため、ここでは無音区間判定結果を許容区間検出結果と同じくd(t)で表す。無音区間判定部522は、無音区間判定結果d(t)を許容区間判定部506に出力する。
Figure 2006075663
図7は、パワー変動区間検出部503の内部構成を示すブロック図である。
パワー変動区間は、コアレイヤ復号音声信号(または拡張レイヤ復号音声信号)のパワーが大きく変動する区間である。パワー変動区間においては、多少の変化(例えば、出力音声信号の音色の変化や帯域感の変化)は、聴感的に知覚されにくい、あるいは、知覚されても受聴者に違和感を持たせない。したがって、拡張レイヤ復号音声信号の利得(換言すれば、コアレイヤ復号音声信号および拡張レイヤ復号音声信号の混合比)を急速に変化させてもその変化を知覚されにくい。パワー変動区間は、コアレイヤ復号音声信号(または拡張レイヤ復号音声信号)の短期パワーと長期平滑化パワーとの差または比を所定の閾値と比較した結果として、差または比が閾値以上であることを検出することによって、検出される。このような検出を行うパワー変動区間検出部503は、短期平滑化係数記憶部531、短期平滑化パワー算出部532、長期平滑化係数記憶部533、長期平滑化パワー算出部534、判定調整係数記憶部535、およびパワー変動区間判定部536を有する。
短期平滑化係数記憶部531は、短期平滑化係数αが記憶されており、短期平滑化係数αを短期平滑化パワー算出部532に出力する。短期平滑化パワー算出部532は、この短期平滑化係数αと、コアレイヤ復号音声信号パワー算出部501から入力されるコアレイヤ復号音声信号パワーPc(t)を用いて、下記の式(3)に従いコアレイヤ復号音声信号パワーPc(t)の短期平滑化パワーPs(t)を算出する。短期平滑化パワー算出部532は、算出されたコアレイヤ復号音声信号パワーPc(t)の短期平滑化パワーPs(t)をパワー変動区間判定部536に出力する。
Figure 2006075663
長期平滑化係数記憶部533は、長期平滑化係数βが記憶されており、長期平滑化係数βを長期平滑化パワー算出部534に出力する。長期平滑化パワー算出部534は、この長期平滑化係数βと、コアレイヤ復号音声信号パワー算出部501から入力されるコアレイヤ復号音声信号パワーPc(t)を用いて、下記の式(4)に従いコアレイヤ復号音声信号パワーPc(t)の長期平滑化パワーPl(t)を算出する。長期平滑化パワー算出部534は、算出されたコアレイヤ復号音声信号パワーPc(t)の長期平滑化パワーPl(t)をパワー変動区間判定部536に出力する。上記の短期平滑化係数αと長期平滑化係数βとは、0.0<α<β<1.0の関係にある。
Figure 2006075663
ここで、短期平滑化係数αと長期平滑化係数βとは(0.0<α<β<1.0)の関係にある。
判定調整係数記憶部535は、パワー変動区間を判定するための調整係数γが記憶されており、調整係数γをパワー変動区間判定部536に出力する。パワー変動区間判定部5
36は、この調整係数γ、短期平滑化パワー算出部532から入力されるPs(t)、および長期平滑化パワー算出部534から入力される長期平滑化パワーPl(t)を用いて、下記の式(5)に従いパワー変動区間判定結果d(t)を得る。許容区間はパワー変動区間を含めるため、ここではパワー変動区間判定結果を許容区間検出結果と同じくd(t)で表す。パワー変動区間判定部536は、パワー変動区間判定結果d(t)を許容区間判定部506に出力する。
Figure 2006075663
なお、ここでパワー変動区間は、短期パワーと長期平滑化パワーとを比較することにより検出するが、前後のフレーム(またはサブフレーム)などのパワーを比較した結果として、パワーの変化量が所定の閾値以上であることを判定することによって、検出しても良い。あるいは、パワー変動区間は、コアレイヤ復号音声信号(または拡張レイヤ復号音声信号)の立ち上がり時を判定することによって、検出しても良い。
図8は、音質変化区間検出部504の内部構成を示すブロック図である。
音質変化区間は、コアレイヤ復号音声信号(または拡張レイヤ復号音声信号)の音質が大きく変動する区間である。音質変化区間においては、コアレイヤ復号音声信号(または拡張レイヤ復号音声信号)自体が、聴感的に時間的連続性を失っている状態となっている。この場合、拡張レイヤ復号音声信号の利得(換言すれば、コアレイヤ復号音声信号および拡張レイヤ復号音声信号の混合比)を急速に変化させてもその変化を知覚されにくい。音質変化区間は、コアレイヤ復号音声信号(または拡張レイヤ復号音声信号)に含まれる背景雑音信号の種類の急変を検出することによって、検出される。あるいは、音質変化区間は、コアレイヤ符号化データのスペクトルパラメータ(例えば、LSP)の変化を検出することによって、検出される。例えばLSPの変化を検出するためには、過去のLSPの各要素と現在のLSPの各要素との間の距離の合計を所定の閾値と比較した結果として、その距離の合計が閾値以上であることを検出する。このような検出を行う音質変化区間検出部504は、LSP要素間距離算出部541、LSP要素間距離蓄積部542、LSP要素間距離変化率算出部543、音質変化判定閾値記憶部544、コアレイヤ誤り復帰検出部545、および音質変化区間判定部546を有する。
LSP要素間距離算出部541は、コアレイヤ復号化部102から入力されるコアレイヤLSPを用いて、下記の式(6)に従いLSP要素間距離dlsp(t)を算出する。
Figure 2006075663
LSP要素間距離dlsp(t)は、LSP要素間距離蓄積部542及びLSP要素間距離変化率算出部543に出力される。
LSP要素間距離蓄積部542は、LSP要素間距離算出部541から入力されるLSP要素間距離dlsp(t)を蓄積し、過去(1フレーム前)のLSP要素間距離dlsp(t−1)を、LSP要素間距離変化率算出部543に出力する。LSP要素間距離変化率算出部543は、LSP要素間距離dlsp(t)を過去のLSP要素間距離dslp(t−1)で除算することによりLSP要素間距離変化率を算出する。算出されたLSP要素間距離変化率は、音質変化区間判定部546に出力される。
音質変化判定閾値記憶部544は、音質変化区間の判定に必要な閾値Aが記憶され、閾値Aを音質変化区間判定部546に出力する。音質変化区間判定部546は、この閾値Aと、LSP要素間距離変化率算出部543から入力されるLSP要素間距離変化率とを用いて下記の式(7)に従い音質変化区間判定結果d(t)を得る。
Figure 2006075663
ここで、lspはコアレイヤのLSP係数、Mはコアレイヤの線形予測係数の分析次数、mはLSPの要素番号、dlspは隣り合う要素間の距離をそれぞれ表す。
なお、許容区間はパワー変動区間を含めるため、ここでは音質変化区間判定結果を許容区間検出結果と同じくd(t)で表す。音質変化区間判定部546は、音質変化区間判定結果d(t)を許容区間判定部506に出力する。
コアレイヤ誤り復帰検出部545は、コアレイヤフレーム誤り検出部102から入力されるコアレイヤフレーム誤り検出結果に基づき、フレーム誤りから復帰(正常受信)したことを検出すると、その旨を音質変化区間判定部546に通知し、音質変化区間判定部546は、復帰後の所定数のフレームを音質変化区間と判定する。すなわち、コアレイヤフレーム誤りに起因してコアレイヤ復号音声信号に対して補間処理が行われた後の所定数のフレームを、音質変化区間として判定する。
図9は、拡張レイヤパワー微小区間検出部505の内部構成を示すブロック図である。
拡張レイヤパワー微小区間は、拡張レイヤ復号音声信号のパワーが非常に小さい区間である。拡張レイヤパワー微小区間においては、出力音声信号の帯域を急速に変化させてもその変化は知覚されにくい。したがって、拡張レイヤ復号音声信号の利得(換言すれば、コアレイヤ復号音声信号および拡張レイヤ復号音声信号の混合比)を急速に変化させてもその変化を知覚されにくい。拡張レイヤパワー微小区間は、拡張レイヤ復号音声信号のパワーが所定の閾値以下であることを検出することによって、検出される。あるいは、拡張レイヤパワー微小区間は、コアレイヤ復号音声信号のパワーに対する拡張レイヤ復号音声信号のパワーの比が所定値以下であることを検出することによって、検出される。
このような検出を行う拡張レイヤパワー微小区間検出部505は、拡張レイヤ復号音声信号パワー算出部551、拡張レイヤパワー比算出部552、拡張レイヤパワー微小判定閾値記憶部553、拡張レイヤパワー微小区間判定部554を有する。
拡張レイヤ復号音声信号パワー算出部551は、拡張レイヤ復号化部108から入力される拡張レイヤ復号信号を用いて、下記の式(8)に従い拡張レイヤ復号音声信号パワーPe(t)を算出する。
Figure 2006075663
ここで、Oe(i)は拡張レイヤ復号音声信号、Pe(t)は拡張レイヤ復号音声信号パワーをそれぞれ表す。拡張レイヤ復号音声信号パワーPe(t)は、拡張レイヤパワー比算出部552及び拡張レイヤパワー微小区間判定部554に出力される。
拡張レイヤパワー比算出部552は、この拡張レイヤ復号音声信号パワーPe(t)を、コアレイヤ復号音声信号パワー算出部501から入力されるコアレイヤ復号信号パワー
Pc(t)で除算することにより、拡張レイヤパワー比を算出する。拡張レイヤパワー比は拡張レイヤパワー微小区間判定部554に出力される。
拡張レイヤパワー微小判定閾値記憶部553は、拡張レイヤパワー微小区間の判定に必要な閾値BおよびCが記憶されており、閾値BおよびCを拡張レイヤパワー微小区間判定部554に出力する。拡張レイヤパワー微小区間判定部554は、拡張レイヤ復号音声信号パワー算出部551から入力される拡張レイヤ復号音声信号パワーPe(t)、拡張レイヤパワー比算出部552から入力される拡張レイヤパワー比、拡張レイヤパワー微小判定閾値記憶部553から入力される閾値BおよびCを用いて、下記の式(9)に従い拡張レイヤパワー微小区間判定結果d(t)を得る。許容区間は拡張レイヤパワー微小区間を含めるため、ここでは拡張レイヤパワー微小区間判定結果を許容区間検出結果と同じくd(t)で表す。拡張レイヤパワー微小区間判定部554は、拡張レイヤパワー微小区間判定結果d(t)を許容区間判定部506に出力する。
Figure 2006075663
許容区間検出部110が前述の方法で許容区間を検出すると、次いで重み付け加算部114は、音声信号の帯域変化が知覚されにくい区間においてのみ、混合比を比較的急に変化させるとともに、音声信号の帯域変化が知覚されやすい区間においては、混合比を比較的緩やかに変化させる。よって、受聴者が音声信号に対して違和感や変動感を持つ可能性を確実に低減することができる。
次いで、重み付け加算部114の内部構成およびその動作について、図2を用いて説明する。図2は、重み付け加算部114の内部構成を示すブロック図であり、重み付け加算部114は、拡張レイヤ復号音声利得制御器120、拡張レイヤ復号音声増幅器122および加算器124を有する。
設定手段としての拡張レイヤ復号音声利得制御器120は、拡張レイヤフレーム誤り検出結果および許容区間検出結果に基づいて、拡張レイヤ復号音声信号の利得(以下「拡張レイヤ利得」と言う)を制御する。拡張レイヤ復号音声信号の利得制御においては、拡張レイヤ復号音声信号の利得の経時的な変化の度合いが可変設定される。これによって、コアレイヤ復号音声信号および拡張レイヤ復号音声信号が混合されるときの混合比が可変設定される。
なお、拡張レイヤ復号音声利得制御器120では、コアレイヤ復号音声信号の利得(以下「コアレイヤ利得」と言う)の制御は行われず、拡張レイヤ復号音声信号と混合されるときのコアレイヤ復号音声信号の利得は一定の値に固定される。したがって、両信号の利得を可変設定する場合に比べて容易に混合比を可変設定することができる。ただし、拡張レイヤ利得だけでなくコアレイヤ利得も制御するようにしても良い。
拡張レイヤ復号音声増幅器122は、拡張レイヤ復号音声利得制御器120によって制御された利得を、拡張レイヤ復号化部108から入力された拡張レイヤ復号音声信号に乗じる。利得を乗じられた拡張レイヤ復号音声信号は、加算器124に出力される。
加算器124は、拡張レイヤ復号音声増幅器122から入力された拡張レイヤ復号音声信号および信号調整部112から入力されたコアレイヤ復号音声信号を加算する。これに
よって、コアレイヤ復号音声信号および拡張レイヤ復号音声信号は混合され、混合信号が生成される。生成された混合信号は、音声復号装置100の出力音声信号となる。すなわち、拡張レイヤ復号音声増幅器122および加算器124の組み合わせは、コアレイヤ復号音声信号および拡張レイヤ復号音声信号の混合比を経時的に変化させながらコアレイヤ復号音声信号および拡張レイヤ復号音声信号を混合して、混合信号を得る混合部を構成する。
以下、重み付け加算部114における動作について説明する。
重み付け加算部114の拡張レイヤ復号音声利得制御器120では、拡張レイヤ利得は、主として拡張レイヤ符号化データが受信できないときに減衰し拡張レイヤ符号化データを受信し始めたら上昇するように制御される。また、拡張レイヤ利得は、コアレイヤ復号音声信号または拡張レイヤ復号音声信号の状態に同期して適応的に制御される。
ここで、拡張レイヤ復号音声利得制御器120での拡張レイヤ利得の可変設定動作の例を説明する。なお、本実施の形態では、コアレイヤ復号音声信号の利得は固定されているため、拡張レイヤ利得およびその経時変化の度合いが拡張レイヤ復号音声利得制御器120によって変更されるとき、コアレイヤ復号音声信号および拡張レイヤ復号音声信号の混合比ならびにその経時変化の度合いは変更される。
拡張レイヤ復号音声利得制御器120は、拡張レイヤフレーム誤り検出部106から入力された拡張レイヤフレーム誤り検出結果e(t)と、許容区間検出部110から入力された許容区間検出結果d(t)と、を用いて拡張レイヤ利得g(t)を決定する。拡張レイヤ利得g(t)は、次の式(10)〜(12)によって決定される。
g(t)=1.0 ,g(t−1)+s(t)>1.0の場合 …(10)
g(t)=g(t−1)+s(t)
,0.0≦g(t−1)+s(t)≦1.0の場合 …(11)
g(t)=0.0 ,g(t−1)+s(t)<0.0の場合 …(12)
なお、s(t)は拡張レイヤ利得の増減値を表す。
すなわち、拡張レイヤ利得g(t)の最小値は0.0であり、最大値は1.0である。コアレイヤ利得は制御されない、つまりコアレイヤ利得は常に1.0であるため、g(t)=1.0のときは、コアレイヤ復号音声信号および拡張レイヤ復号音声信号が1:1の混合比で混合される。一方、g(t)=0.0のときは、信号調整部112から出力されたコアレイヤ復号音声信号が出力音声信号となる。
増減値s(t)は、拡張レイヤフレーム誤り検出結果e(t)および許容区間検出結果d(t)に従い、次の式(13)〜(16)によって決定される。
s(t)=0.20 ,e(t)=1且つd(t)=1の場合 …(13)
s(t)=0.02 ,e(t)=1且つd(t)=0の場合 …(14)
s(t)=−0.40 ,e(t)=0且つd(t)=1の場合 …(15)
s(t)=−0.20 ,e(t)=0且つd(t)=0の場合 …(16)
なお、拡張レイヤフレーム誤り検出結果e(t)は次の式(17)〜(18)で示される。
e(t)=1 ,拡張レイヤフレーム誤りなしの場合 …(17)
e(t)=0 ,拡張レイヤフレーム誤りありの場合 …(18)
また、許容区間検出結果d(t)は、次の式(19)〜(20)で示される。
d(t)=1 ,許容区間の場合 …(19)
d(t)=0 ,許容区間以外の区間の場合 …(20)
式(13)および式(14)を比較すると、または、式(15)および式(16)を比較すると、許容区間(d(t)=1)では、許容区間以外の区間(d(t)=0)に比べて、拡張レイヤ利得の増減値s(t)が大きくなる。したがって、許容区間では、許容区間以外の区間に比べて、コアレイヤ復号音声信号および拡張レイヤ復号音声信号の混合比の経時変化の度合いが大きくなり、混合比の経時変化が急になる。そして、許容区間以外の区間では、許容区間に比べて、コアレイヤ復号音声信号および拡張レイヤ復号音声信号の混合比の経時変化の度合いが小さくなり、混合比の経時変化が緩やかになる。
なお、説明の簡略化のため、前述の各関数g(t)、s(t)、d(t)をフレーム単位で表現したが、サンプル単位で表現しても良い。また、前述の式(10)〜(20)で用いられた数値は一例であり、他の数値を用いても良い。前述の例では、拡張レイヤ利得が直線的に増減するような関数が用いられているが、拡張レイヤ利得を単調増加または単調減少させる任意の関数を用いることができる。また、背景雑音信号がコアレイヤ復号音声信号に含まれている場合は、コアレイヤ復号音声信号を用いて音声信号対背景雑音信号比などを求め、その比に応じて、拡張レイヤ利得の増分、減分を適応的に制御しても良い。
続いて、拡張レイヤ復号音声利得制御器120によって制御された拡張レイヤ利得の経時変化について、2つの例を挙げて説明する。図3は、拡張レイヤ利得の経時変化の第1の例を説明するための図であり、図4は、拡張レイヤ利得の経時変化の第2の例を説明するための図である。
まず、図3を用いて第1の例について説明する。図3Bには、拡張レイヤ符号化データが受信できたか否かが示されている。時刻T1から時刻T2までの区間、時刻T6から時刻T8までの区間および時刻T10以降の区間において、拡張レイヤフレーム誤りが検出されており、それ以外の区間では、拡張レイヤフレーム誤りは検出されていない。
また、図3Cには、許容区間検出結果が示されている。時刻T3から時刻T5までの区間および時刻T9から時刻T11までの区間は、検出された許容区間である。これ以外の区間では、許容区間は検出されていない。
また、図3Aには、拡張レイヤ利得が示されている。g(t)=0.0は、拡張レイヤ復号音声信号を完全に減衰し全く出力に貢献しないことを表す。一方、g(t)=1.0は、拡張レイヤ復号音声信号を全て利用することを表す。
時刻T1から時刻T2までの区間では、拡張レイヤフレーム誤りが検出されているため、拡張レイヤ利得が徐々に下げられている。時刻T2に至ると拡張レイヤフレーム誤りが検出されなくなるため、拡張レイヤ利得は、今度は逆に上げられている。時刻T2以降の拡張レイヤ利得上昇期間のうち、時刻T2から時刻T3までの区間は、許容区間ではない。したがって、拡張レイヤ利得の上昇の度合いは小さく、拡張レイヤ利得の上昇は比較的緩やかである。一方、時刻T2以降の拡張レイヤ利得上昇期間のうち、時刻T3から時刻T5までの区間は、許容区間である。したがって、拡張レイヤ利得の上昇の度合いは大きく、拡張レイヤ利得の上昇は比較的急である。これによって、時刻T2から時刻T3までの区間において、帯域変化が知覚されることを防止することができる。また、時刻T3から時刻T5においては、帯域変化が知覚されにくい状態を維持しながら帯域変化を速めることができ、広帯域感を出すことに貢献することができ、主観品質を向上することができる。
そして、時刻T8から時刻T10までの区間では、拡張レイヤフレーム誤りが検出されていないため、拡張レイヤ利得が上げられている。しかし、時刻T8から時刻T10までの区間のうち、時刻T8から時刻T9までの区間は、許容区間ではない。したがって、拡張レイヤ利得の上昇は比較的緩やかな状態に抑えられている。一方、時刻T8から時刻T10までの区間のうち、時刻T9から時刻T10までの区間は、許容区間である。したがって、拡張レイヤ利得の上昇は比較的急である。
そして、時刻T10以降の区間では、拡張レイヤフレーム誤りが検出されている。このため、拡張レイヤ利得の変化は、時刻T10から低下に転じる。また、時刻T10以降の区間のうち、時刻T10から時刻11までの区間は、許容区間である。したがって、拡張レイヤ利得の低下の度合いは大きく、拡張レイヤ利得の低下は比較的急である。一方、時刻T11以降の区間は、許容区間ではない。したがって、拡張レイヤ利得の低下の度合いは小さく、拡張レイヤ利得の低下は比較的緩やかな状態に抑えられている。そして、時刻T12にて、拡張レイヤ利得は0.0になる。これによって、時刻T10から時刻T11までの区間においては、帯域変化が知覚されにくい状態を維持しながら帯域変化を速めることができる。また、時刻T11から時刻T12までの区間においては、帯域変化が知覚されることを防止することができる。
次に、図4を用いて、第2の例について説明する。図4Bには、拡張レイヤ符号化データが受信できたか否かが示されている。時刻T21から時刻T22までの区間、時刻T24から時刻T27までの区間、時刻T28から時刻T30までの区間および時刻T31以降の区間において、拡張レイヤフレーム誤りが検出されており、それ以外の区間では、拡張レイヤフレーム誤りは検出されていない。
また、図4Cには、許容区間検出結果が示されている。時刻T23から時刻T26までの区間は、検出された許容区間である。これ以外の区間では、許容区間は検出されていない。
また、図4Aには、拡張レイヤ利得が示されている。第2の例では、拡張レイヤフレーム誤りが検出される頻度が、第1の例に比べて高い。したがって、拡張レイヤ利得の増減の転換の頻度が高い。具体的には、拡張レイヤ利得は、時刻T22から上昇し、時刻T24からは低下し、時刻T27からは上昇し、時刻T28からは低下し、時刻T30からは上昇し、時刻T31からは低下する。この過程において、許容区間は、時刻T23から時刻T26までの区間のみである。つまり、時刻T26以降の区間では、拡張レイヤ利得の変化の度合いが小さくなるように制御され、拡張レイヤ利得の変化は比較的緩やかな状態に抑えられる。このため、時刻T27から時刻28までの区間および時刻T30から時刻T31までの区間での拡張レイヤ利得の上昇は、比較的緩やかであり、時刻T28から時刻29までの区間および時刻T31から時刻T32までの区間での拡張レイヤ利得の低下は、比較的緩やかである。これによって、帯域変化が頻繁に起こったときに受聴者が変動感を持つのを防止することができる。
このように、前述の2つの例では、許容区間において、帯域切替を速やかに行うことで、コアレイヤ復号音声信号のパワーなどの変化と、帯域切替によって生じ得る総合的な復号音声の変動感を緩和させることができる。一方、許容区間以外の区間において、パワーや帯域幅の変化を緩やかに行うよう制御することで、帯域幅の変化を目立たなくすることができる。
また、前述の2つの例では、拡張レイヤ利得の経時変化の度合いが変更されることに伴って、混合信号の出力時間が変更される。このため、混合比の経時変化の度合いが変更されたときに、音の大きさや不連続性や帯域感の不連続性が発生するのを防止することがで
きる。
以上説明したように、本実施の形態によれば、コアレイヤ復号音声信号つまり狭帯域音声信号および拡張レイヤ復号音声信号つまり広帯域音声信号を混合するときに経時的に変化する混合比の変化の度合いを可変設定するため、受聴者が音声信号に対して違和感や変動感を持つ可能性を低減することができ、音質を向上することができる。
なお、採用可能な帯域スケーラブル音声符号化方式は、本実施の形態で説明したものに限定されない。例えば、拡張レイヤでコアレイヤ符号化データおよび拡張レイヤ符号化データの双方を用いて広帯域復号音声信号を一括復号するような方式であって、拡張レイヤフレーム誤り発生時にはコアレイヤ復号音声信号を使用するような方式にも、本実施の形態の構成を適用することができる。この場合、コアレイヤ復号音声および拡張レイヤ復号音声を切り替える際には、コアレイヤ復号音声および拡張レイヤ復号音声の双方に対して、フェードインまたはフェードアウトするような重ね合わせ処理を行う。そして、前述の許容区間検出結果に従ってフェードインまたはフェードアウトの速度を制御する。これによって、音質劣化を抑えた復号音声を得ることができる。
また、本実施の形態の許容区間検出部110と同様に、帯域の変化を許容する区間を検出するための構成を、帯域スケーラブル音声符号化方式を適用した音声符号化装置に設けても良い。この場合、音声符号化装置は、帯域の変化を許容する区間以外の区間では帯域切替(つまり、狭帯域から広帯域への切替または広帯域から狭帯域への切替)を保留し、帯域の変化を許容する区間のみにおいて帯域切替を実行する。この音声符号化装置で符号化された音声を音声復号装置で復号した場合、その音声復号装置がたとえ帯域切り替え機能を有しないものであったとしても、受聴者が復号音声に対して違和感や変動感を持つ可能性を低減することができる。
また、上記各実施の形態の説明に用いた各機能ブロックは、典型的には集積回路であるLSIとして実現される。これらは個別に1チップ化されても良いし、一部又は全てを含むように1チップ化されても良い。
ここでは、LSIとしたが、集積度の違いにより、IC、システムLSI、スーパーLSI、ウルトラLSIと呼称されることもある。
また、集積回路化の手法はLSIに限るものではなく、専用回路又は汎用プロセッサで実現しても良い。LSI製造後に、プログラムすることが可能なFPGA(Field Programmable Gate Array)や、LSI内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサーを利用しても良い。
さらには、半導体技術の進歩又は派生する別技術によりLSIに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積化を行っても良い。バイオ技術の適応等が可能性としてありえる。
本発明の第1の態様は、音声切替装置であって、この装置は出力する音声信号の帯域を切り替えるときに、狭帯域音声信号および広帯域音声信号が混合された混合信号を出力する音声切替装置であって、前記狭帯域音声信号および前記広帯域音声信号の混合比を経時的に変化させながら前記狭帯域音声信号および前記広帯域音声信号を混合して、前記混合信号を得る混合手段と、前記混合比の経時的な変化の度合いを可変設定する設定手段と、を有する構成を採る。
この構成によれば、狭帯域音声信号および広帯域音声信号を混合するときに経時的に変
化する混合比の変化の度合いを可変設定するため、受聴者が音声信号に対して違和感や変動感を持つ可能性を低減することができ、音質を向上することができる。
本発明の第2の態様は、上記構成において、前記狭帯域音声信号または前記広帯域音声信号が得られる期間において特定の区間を検出する検出手段を有し、前記設定手段は、前記特定の区間が検出されたときは前記度合いを増加させ、前記特定の区間が検出されないときは前記度合いを低減させる構成を採る。
この構成によれば、混合比の経時変化の度合いを比較的高くする期間を、音声信号が得られる期間の中の特定の区間に限定することができ、混合比の経時変化の度合いを変更するタイミングを制御することができる。
本発明の第3の態様は、上記構成において、前記検出手段は、前記音声信号の帯域の所定レベル以上の急変を許容する区間を前記特定の区間として検出する構成を採る。
本発明の第4の態様は、上記構成において、前記検出手段は、無音区間を前記特定の区間として検出する構成を採る。
本発明の第5の態様は、上記構成において、前記検出手段は、前記狭帯域音声信号のパワーが所定レベル以下である区間を前記特定の区間として検出する構成を採る。
本発明の第6の態様は、上記構成において、前記検出手段は、前記広帯域音声信号のパワーが所定レベル以下である区間を前記特定の区間として検出する構成を採る。
本発明の第7の態様は、上記構成において、前記検出手段は、前記狭帯域音声信号のパワーに対する前記広帯域音声信号のパワーの大きさが所定レベル以下である区間を前記特定の区間として検出する。
本発明の第8の態様は、上記構成において、前記検出手段は、前記狭帯域音声信号のパワーの変動が所定レベル以上である区間を前記特定の区間として検出する構成を採る。
本発明の第9の態様は、上記構成において、前記検出手段は、前記狭帯域音声信号の立ち上がりを前記特定の区間として検出する構成を採る。
本発明の第10の態様は、上記構成において、前記検出手段は、前記広帯域音声信号のパワーの変動が所定レベル以上である区間を前記特定の区間として検出する構成を採る。
本発明の第11の態様は、上記構成において、前記検出手段は、前記広帯域音声信号の立ち上がりを検出する構成を採る。
本発明の第12の態様は、上記構成において、前記検出手段は、前記狭帯域音声信号に含まれる背景雑音信号の種類が変化する区間を前記特定の区間として検出する構成を採る。
本発明の第13の態様は、上記構成において、前記検出手段は、前記広帯域音声信号に含まれる背景雑音信号の種類が変化する区間を前記特定の区間として検出する構成を採る。
本発明の第14の態様は、上記構成において、前記検出手段は、前記狭帯域音声信号のスペクトルパラメータの変化が所定レベル以上である区間を前記特定の区間として検出す
る構成を採る。
本発明の第15の態様は、上記構成において、前記検出手段は、前記広帯域音声信号のスペクトルパラメータの変化が所定レベル以上である区間を前記特定の区間として検出する構成を採る。
本発明の第16の態様は、上記構成において、前記検出手段は、前記狭帯域音声信号に対して補間処理が行われた後の区間を前記特定の区間として検出する構成を採る。
本発明の第17の態様は、上記構成において、前記検出手段は、前記広帯域音声信号に対して補間処理が行われた後の区間を前記特定の区間として検出する構成を採る。
これらの構成によれば、音声信号の帯域変化が知覚されにくい区間においてのみ、混合比を比較的急に変化させることができるとともに、音声信号の帯域変化が知覚されやすい区間においては、混合比を比較的緩やかに変化させることができ、受聴者が音声信号に対して違和感や変動感を持つ可能性を確実に低減することができる。
本発明の第18の態様は、上記構成において、前記設定手段は、前記狭帯域音声信号の利得を固定する一方、前記広帯域音声信号の利得の経時的な変化の度合いを可変設定する構成を採る。
この構成によれば、両信号の利得の経時変化の度合いを可変設定する場合に比べて容易に混合比可変設定を行うことができる。
本発明の第19の態様は、上記構成において、前記設定手段は、前記混合信号の出力時間を変更する構成を採る。
この構成によれば、両信号の混合比の経時変化の度合いが変更されたときに、音の大きさの不連続性や帯域感の不連続性が発生するのを防止することができる。
本発明の第20の態様は、通信端末装置であって、この装置は上記構成の音声切替装置を具備する構成を採る。
本発明の第21の態様は、音声切替方法であって、この方法は出力する音声信号の帯域を切り替えるときに、狭帯域音声信号および広帯域音声信号が混合された混合信号を出力する音声切替方法であって、前記狭帯域音声信号および前記狭帯域音声信号の混合比の経時的な変化の度合いを変更する変更ステップと、変更された度合いで前記混合比を経時的に変化させながら前記狭帯域音声信号および前記広帯域音声信号を混合して、前記混合信号を得る混合ステップと、を有するようにした。
この方法によれば、狭帯域音声信号および広帯域音声信号を混合するときに経時的に変化する混合比の変化の度合いを可変設定するため、受聴者が音声信号に対して違和感や変動感を持つ可能性を低減することができ、音質を向上することができる。
本明細書は、2005年1月14日出願の特願2005−008084に基づく。この内容はすべてここに含めておく。
本発明の音声切替装置および音声切替方法は、音声信号の帯域の切替に適用することができる。
本発明の一実施の形態に係る音声復号装置の構成を示すブロック図 本発明の一実施の形態に係る重み付け加算部の構成を示すブロック図 本発明の一実施の形態に係る拡張レイヤ利得の経時変化の例を説明するための図 本発明の一実施の形態に係る拡張レイヤ利得の経時変化の他の例を説明するための図 本発明の一実施の形態に係る許容区間検出部の内部構成を示すブロック図 本発明の一実施の形態に係る無音区間検出部の内部構成を示すブロック図 本発明の一実施の形態に係るパワー変動区間検出部の内部構成を示すブロック図 本発明の一実施の形態に係る音質変化区間検出部の内部構成を示すブロック図 本発明の一実施の形態に係る拡張レイヤパワー微小区間検出部の内部構成を示すブロック図

Claims (21)

  1. 出力する音声信号の帯域を切り替えるときに、狭帯域音声信号および広帯域音声信号が混合された混合信号を出力する音声切替装置であって、
    前記狭帯域音声信号および前記広帯域音声信号の混合比を経時的に変化させながら前記狭帯域音声信号および前記広帯域音声信号を混合して、前記混合信号を得る混合手段と、
    前記混合比の経時的な変化の度合いを可変設定する設定手段と、
    を有する音声切替装置。
  2. 前記狭帯域音声信号または前記広帯域音声信号が得られる期間において特定の区間を検出する検出手段を有し、
    前記設定手段は、
    前記特定の区間が検出されたときは前記度合いを増加させ、前記特定の区間が検出されないときは前記度合いを低減させる、
    請求項1記載の音声切替装置。
  3. 前記検出手段は、
    前記音声信号の帯域の所定レベル以上の急変を許容する区間を前記特定の区間として検出する、
    請求項2記載の音声切替装置。
  4. 前記検出手段は、
    無音区間を前記特定の区間として検出する、
    請求項2記載の音声切替装置。
  5. 前記検出手段は、
    前記狭帯域音声信号のパワーが所定レベル以下である区間を前記特定の区間として検出する、
    請求項2記載の音声切替装置。
  6. 前記検出手段は、
    前記広帯域音声信号のパワーが所定レベル以下である区間を前記特定の区間として検出する、
    請求項2記載の音声切替装置。
  7. 前記検出手段は、
    前記狭帯域音声信号のパワーに対する前記広帯域音声信号のパワーの大きさが所定レベル以下である区間を前記特定の区間として検出する、
    請求項2記載の音声切替装置。
  8. 前記検出手段は、
    前記狭帯域音声信号のパワーの変動が所定レベル以上である区間を前記特定の区間として検出する、
    請求項2記載の音声切替装置。
  9. 前記検出手段は、
    前記狭帯域音声信号の立ち上がりを前記特定の区間として検出する、
    請求項2記載の音声切替装置。
  10. 前記検出手段は、
    前記広帯域音声信号のパワーの変動が所定レベル以上である区間を前記特定の区間として検出する、
    請求項2記載の音声切替装置。
  11. 前記検出手段は、
    前記広帯域音声信号の立ち上がりを検出する、
    請求項2記載の音声切替装置。
  12. 前記検出手段は、
    前記狭帯域音声信号に含まれる背景雑音信号の種類が変化する区間を前記特定の区間として検出する、
    請求項2記載の音声切替装置。
  13. 前記検出手段は、
    前記広帯域音声信号に含まれる背景雑音信号の種類が変化する区間を前記特定の区間として検出する、
    請求項2記載の音声切替装置。
  14. 前記検出手段は、
    前記狭帯域音声信号のスペクトルパラメータの変化が所定レベル以上である区間を前記特定の区間として検出する、
    請求項2記載の音声切替装置。
  15. 前記検出手段は、
    前記広帯域音声信号のスペクトルパラメータの変化が所定レベル以上である区間を前記特定の区間として検出する、
    請求項2記載の音声切替装置。
  16. 前記検出手段は、
    前記狭帯域音声信号に対して補間処理が行われた後の区間を前記特定の区間として検出する、
    請求項2記載の音声切替装置。
  17. 前記検出手段は、
    前記広帯域音声信号に対して補間処理が行われた後の区間を前記特定の区間として検出する、
    請求項2記載の音声切替装置。
  18. 前記設定手段は、
    前記狭帯域音声信号の利得を固定する一方、前記広帯域音声信号の利得の経時的な変化の度合いを可変設定する、
    請求項1記載の音声切替装置。
  19. 前記設定手段は、
    前記混合信号の出力時間を変更する、
    請求項1記載の音声切替装置。
  20. 請求項1記載の音声切替装置を具備する通信端末装置。
  21. 出力する音声信号の帯域を切り替えるときに、狭帯域音声信号および広帯域音声信号が混合された混合信号を出力する音声切替方法であって、
    前記狭帯域音声信号および前記狭帯域音声信号の混合比の経時的な変化の度合いを変更する変更ステップと、
    変更された度合いで前記混合比を経時的に変化させながら前記狭帯域音声信号および前記広帯域音声信号を混合して、前記混合信号を得る混合ステップと、
    を有する音声切替方法。
JP2006552962A 2005-01-14 2006-01-12 スケーラブル復号装置及びスケーラブル復号方法 Expired - Fee Related JP5046654B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006552962A JP5046654B2 (ja) 2005-01-14 2006-01-12 スケーラブル復号装置及びスケーラブル復号方法

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2005008084 2005-01-14
JP2005008084 2005-01-14
JP2006552962A JP5046654B2 (ja) 2005-01-14 2006-01-12 スケーラブル復号装置及びスケーラブル復号方法
PCT/JP2006/300295 WO2006075663A1 (ja) 2005-01-14 2006-01-12 音声切替装置および音声切替方法

Publications (2)

Publication Number Publication Date
JPWO2006075663A1 true JPWO2006075663A1 (ja) 2008-06-12
JP5046654B2 JP5046654B2 (ja) 2012-10-10

Family

ID=36677688

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006552962A Expired - Fee Related JP5046654B2 (ja) 2005-01-14 2006-01-12 スケーラブル復号装置及びスケーラブル復号方法

Country Status (6)

Country Link
US (1) US8010353B2 (ja)
EP (2) EP1814106B1 (ja)
JP (1) JP5046654B2 (ja)
CN (2) CN101107650B (ja)
DE (1) DE602006009215D1 (ja)
WO (1) WO2006075663A1 (ja)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8254935B2 (en) 2002-09-24 2012-08-28 Fujitsu Limited Packet transferring/transmitting method and mobile communication system
CN101622667B (zh) * 2007-03-02 2012-08-15 艾利森电话股份有限公司 用于分层编解码器的后置滤波器
JP4984983B2 (ja) 2007-03-09 2012-07-25 富士通株式会社 符号化装置および符号化方法
CN101499278B (zh) * 2008-02-01 2011-12-28 华为技术有限公司 音频信号切换处理方法和装置
CN101505288B (zh) * 2009-02-18 2013-04-24 上海云视科技有限公司 一种宽带窄带双向通信中继装置
JP2010233207A (ja) * 2009-03-05 2010-10-14 Panasonic Corp 高周波スイッチ回路及び半導体装置
JP5267257B2 (ja) * 2009-03-23 2013-08-21 沖電気工業株式会社 音声ミキシング装置、方法及びプログラム、並びに、音声会議システム
EP2545551B1 (en) * 2010-03-09 2017-10-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Improved magnitude response and temporal alignment in phase vocoder based bandwidth extension for audio signals
CN101964189B (zh) * 2010-04-28 2012-08-08 华为技术有限公司 语音频信号切换方法及装置
JP5589631B2 (ja) * 2010-07-15 2014-09-17 富士通株式会社 音声処理装置、音声処理方法および電話装置
CN102142256B (zh) * 2010-08-06 2012-08-01 华为技术有限公司 淡入时间的计算方法和装置
HUE064739T2 (hu) 2010-11-22 2024-04-28 Ntt Docomo Inc Audio kódoló eszköz és eljárás
US8779962B2 (en) * 2012-04-10 2014-07-15 Fairchild Semiconductor Corporation Audio device switching with reduced pop and click
CN102743016B (zh) 2012-07-23 2014-06-04 上海携福电器有限公司 刷类用品的头部结构
US9827080B2 (en) 2012-07-23 2017-11-28 Shanghai Shift Electrics Co., Ltd. Head structure of a brush appliance
US9741350B2 (en) 2013-02-08 2017-08-22 Qualcomm Incorporated Systems and methods of performing gain control
US9711156B2 (en) * 2013-02-08 2017-07-18 Qualcomm Incorporated Systems and methods of performing filtering for gain determination
JP2016038513A (ja) * 2014-08-08 2016-03-22 富士通株式会社 音声切替装置、音声切替方法及び音声切替用コンピュータプログラム
US9837094B2 (en) * 2015-08-18 2017-12-05 Qualcomm Incorporated Signal re-use during bandwidth transition period

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08248997A (ja) * 1995-03-13 1996-09-27 Matsushita Electric Ind Co Ltd 音声帯域拡大装置
JPH09258787A (ja) * 1996-03-21 1997-10-03 Kokusai Electric Co Ltd 狭帯域音声信号の周波数帯域拡張回路
JP2000206995A (ja) * 1999-01-11 2000-07-28 Sony Corp 受信装置及び方法、通信装置及び方法
JP2000261529A (ja) * 1999-03-10 2000-09-22 Nippon Telegr & Teleph Corp <Ntt> 通話装置

Family Cites Families (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5432859A (en) * 1993-02-23 1995-07-11 Novatel Communications Ltd. Noise-reduction system
US5699479A (en) 1995-02-06 1997-12-16 Lucent Technologies Inc. Tonality for perceptual audio compression based on loudness uncertainty
EP0732687B2 (en) 1995-03-13 2005-10-12 Matsushita Electric Industrial Co., Ltd. Apparatus for expanding speech bandwidth
JP3301473B2 (ja) 1995-09-27 2002-07-15 日本電信電話株式会社 広帯域音声信号復元方法
US6449519B1 (en) * 1997-10-22 2002-09-10 Victor Company Of Japan, Limited Audio information processing method, audio information processing apparatus, and method of recording audio information on recording medium
DE19804581C2 (de) * 1998-02-05 2000-08-17 Siemens Ag Verfahren und Funk-Kommunikationssystem zur Übertragung von Sprachinformation
CA2252170A1 (en) * 1998-10-27 2000-04-27 Bruno Bessette A method and device for high quality coding of wideband speech and audio signals
JP2000206996A (ja) * 1999-01-13 2000-07-28 Sony Corp 受信装置及び方法、通信装置及び方法
US6377915B1 (en) * 1999-03-17 2002-04-23 Yrp Advanced Mobile Communication Systems Research Laboratories Co., Ltd. Speech decoding using mix ratio table
JP2000305599A (ja) * 1999-04-22 2000-11-02 Sony Corp 音声合成装置及び方法、電話装置並びにプログラム提供媒体
JP2000352999A (ja) 1999-06-11 2000-12-19 Nec Corp 音声切替装置
US6978236B1 (en) * 1999-10-01 2005-12-20 Coding Technologies Ab Efficient spectral envelope coding using variable time/frequency resolution and time/frequency switching
US7027981B2 (en) * 1999-11-29 2006-04-11 Bizjak Karl M System output control method and apparatus
FI119576B (fi) * 2000-03-07 2008-12-31 Nokia Corp Puheenkäsittelylaite ja menetelmä puheen käsittelemiseksi, sekä digitaalinen radiopuhelin
FI115329B (fi) * 2000-05-08 2005-04-15 Nokia Corp Menetelmä ja järjestely lähdesignaalin kaistanleveyden vaihtamiseksi tietoliikenneyhteydessä, jossa on valmiudet useisiin kaistanleveyksiin
US6691085B1 (en) * 2000-10-18 2004-02-10 Nokia Mobile Phones Ltd. Method and system for estimating artificial high band signal in speech codec using voice activity information
US20020128839A1 (en) * 2001-01-12 2002-09-12 Ulf Lindgren Speech bandwidth extension
KR100830857B1 (ko) * 2001-01-19 2008-05-22 코닌클리케 필립스 일렉트로닉스 엔.브이. 오디오 전송 시스템, 오디오 수신기, 전송 방법, 수신 방법 및 음성 디코더
US20030028386A1 (en) * 2001-04-02 2003-02-06 Zinser Richard L. Compressed domain universal transcoder
JP2004522198A (ja) * 2001-05-08 2004-07-22 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 音声符号化方法
US6895375B2 (en) * 2001-10-04 2005-05-17 At&T Corp. System for bandwidth extension of Narrow-band speech
US6988066B2 (en) * 2001-10-04 2006-01-17 At&T Corp. Method of bandwidth extension for narrow-band speech
MXPA03005133A (es) * 2001-11-14 2004-04-02 Matsushita Electric Ind Co Ltd Dispositivo de codificacion, dispositivo de decodificacion y sistema de los mismos.
JP2003323199A (ja) * 2002-04-26 2003-11-14 Matsushita Electric Ind Co Ltd 符号化装置、復号化装置及び符号化方法、復号化方法
US7752052B2 (en) 2002-04-26 2010-07-06 Panasonic Corporation Scalable coder and decoder performing amplitude flattening for error spectrum estimation
JP4817658B2 (ja) * 2002-06-05 2011-11-16 アーク・インターナショナル・ピーエルシー 音響仮想現実エンジンおよび配信された音声改善のための新技術
JP3881943B2 (ja) * 2002-09-06 2007-02-14 松下電器産業株式会社 音響符号化装置及び音響符号化方法
US7283956B2 (en) * 2002-09-18 2007-10-16 Motorola, Inc. Noise suppression
AU2003260958A1 (en) * 2002-09-19 2004-04-08 Matsushita Electric Industrial Co., Ltd. Audio decoding apparatus and method
JP3963850B2 (ja) * 2003-03-11 2007-08-22 富士通株式会社 音声区間検出装置
JP4669394B2 (ja) * 2003-05-20 2011-04-13 パナソニック株式会社 オーディオ信号の帯域を拡張するための方法及び装置
JP4436075B2 (ja) 2003-06-19 2010-03-24 三菱農機株式会社 スプロケット
US20050004793A1 (en) * 2003-07-03 2005-01-06 Pasi Ojala Signal adaptation for higher band coding in a codec utilizing band split coding
EP1496500B1 (en) * 2003-07-09 2007-02-28 Samsung Electronics Co., Ltd. Bitrate scalable speech coding and decoding apparatus and method
KR100651712B1 (ko) * 2003-07-10 2006-11-30 학교법인연세대학교 광대역 음성 부호화기 및 그 방법과 광대역 음성 복호화기및 그 방법
US7461003B1 (en) * 2003-10-22 2008-12-02 Tellabs Operations, Inc. Methods and apparatus for improving the quality of speech signals
US7613607B2 (en) * 2003-12-18 2009-11-03 Nokia Corporation Audio enhancement in coded domain
JP4733939B2 (ja) * 2004-01-08 2011-07-27 パナソニック株式会社 信号復号化装置及び信号復号化方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08248997A (ja) * 1995-03-13 1996-09-27 Matsushita Electric Ind Co Ltd 音声帯域拡大装置
JPH09258787A (ja) * 1996-03-21 1997-10-03 Kokusai Electric Co Ltd 狭帯域音声信号の周波数帯域拡張回路
JP2000206995A (ja) * 1999-01-11 2000-07-28 Sony Corp 受信装置及び方法、通信装置及び方法
JP2000261529A (ja) * 1999-03-10 2000-09-22 Nippon Telegr & Teleph Corp <Ntt> 通話装置

Also Published As

Publication number Publication date
EP1814106A1 (en) 2007-08-01
EP1814106A4 (en) 2007-11-28
CN101107650A (zh) 2008-01-16
CN102592604A (zh) 2012-07-18
EP1814106B1 (en) 2009-09-16
EP2107557A3 (en) 2010-08-25
EP2107557A2 (en) 2009-10-07
JP5046654B2 (ja) 2012-10-10
WO2006075663A1 (ja) 2006-07-20
CN101107650B (zh) 2012-03-28
US20100036656A1 (en) 2010-02-11
US8010353B2 (en) 2011-08-30
DE602006009215D1 (de) 2009-10-29

Similar Documents

Publication Publication Date Title
JP5046654B2 (ja) スケーラブル復号装置及びスケーラブル復号方法
JP4846712B2 (ja) スケーラブル復号化装置およびスケーラブル復号化方法
JP5100380B2 (ja) スケーラブル復号装置および消失データ補間方法
US10559313B2 (en) Speech/audio signal processing method and apparatus
RU2387025C2 (ru) Способ и устройство для векторного квантования спектрального представления огибающей
US10891964B2 (en) Generation of comfort noise
KR101427863B1 (ko) 오디오 신호 코딩 방법 및 장치
US9373332B2 (en) Coding device, decoding device, and methods thereof
JP2007316658A (ja) ステレオ音響信号の処理方法と装置
JP5986565B2 (ja) 音声符号化装置、音声復号装置、音声符号化方法及び音声復号方法
EP2774148B1 (en) Bandwidth extension of audio signals
EP2626856B1 (en) Encoding device, decoding device, encoding method, and decoding method
JP2008261999A (ja) オーディオ復号装置
US10504531B2 (en) Audio parameter quantization
JP2004234023A (ja) 雑音抑圧装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20081225

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110913

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111114

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120626

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120717

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150727

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees