JPWO2006075663A1

JPWO2006075663A1 - 音声切替装置および音声切替方法

Info

Publication number: JPWO2006075663A1
Application number: JP2006552962A
Authority: JP
Inventors: 河嶋　拓也; 拓也河嶋; 江原　宏幸; 宏幸江原
Original assignee: Panasonic Corp; Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Corp; Panasonic Holdings Corp
Priority date: 2005-01-14
Filing date: 2006-01-12
Publication date: 2008-06-12
Anticipated expiration: 2026-01-12
Also published as: EP1814106A1; EP1814106A4; CN101107650A; CN102592604A; EP1814106B1; EP2107557A3; EP2107557A2; JP5046654B2; WO2006075663A1; CN101107650B; US20100036656A1; US8010353B2; DE602006009215D1

Abstract

復号信号の音質を向上することができる音声切替装置を開示する。この装置において、重み付け加算部１１４は、出力する音声信号の帯域を切り替えるときに、狭帯域音声信号および広帯域音声信号が混合された混合信号を出力する。拡張レイヤ復号音声増幅器１２２および加算器１２４から成る混合部は、狭帯域音声信号および広帯域音声信号の混合比を経時的に変化させながら、狭帯域音声信号および広帯域音声信号を混合して、混合信号を得る。拡張レイヤ復号音声利得制御器１２０は、混合比の経時的な変化の度合いを可変設定する。

Description

本発明は、音声信号の帯域を切り替える音声切替装置および音声切替方法に関する。

一般にスケーラブル音声符号化と呼ばれる、階層的に音声信号を符号化する技術においては、ある階層（レイヤ）の符号化データが失われても他の階層の符号化データから音声信号を復号することができる。スケーラブル符号化の中には、帯域スケーラブル音声符号化と呼ばれるものがある。帯域スケーラブル音声符号化では、狭帯域信号に対して符号化、復号化を行う処理層と、狭帯域信号を高品質化、広帯域化させるための符号化、復号化を行う処理層と、が用いられる。以下、前者の処理層をコアレイヤと言い、後者の処理層を拡張レイヤと言う。

帯域スケーラブル音声符号化を、例えば、伝送帯域が保証されず符号化データが部分的に消失したり遅延したりし得る通信ネットワーク上での音声データ通信に適用した場合、受信側では、コアレイヤおよび拡張レイヤの双方の符号化データ（コアレイヤ符号化データおよび拡張レイヤ符号化データ）を受信できるときもあれば、コアレイヤ符号化データのみを受信できるときもある。したがって、受信側に設けられた音声復号装置では、出力する復号音声信号を、コアレイヤ符号化データのみから得られる狭帯域の復号音声信号とコアレイヤおよび拡張レイヤの双方の符号化データから得られる広帯域の復号音声信号との間で切り替える必要がある。

狭帯域復号音声信号と広帯域復号音声信号とをスムーズに切り替えて、音声の大きさの不連続性や帯域の広がり感（帯域感）の不連続性を防止するための手法としては、例えば特許文献１に記載されたものがある。この文献に記載された音声切替装置では、両信号（つまり、狭帯域復号音声信号および広帯域復号音声信号）のサンプリング周波数、遅延および位相を合わせてから、両信号を重み付け加算する。重み付け加算においては、両信号の混合比を一定の度合い（増分または減分）で経時的に変化させながら、両信号を加算する。そして、出力する信号が、狭帯域復号音声信号から広帯域復号音声信号に切り替えられるとき、あるいは、広帯域復号音声信号から狭帯域復号音声信号に切り替えられるとき、狭帯域復号音声信号の出力および広帯域復号音声信号の出力の間に、重み付け加算信号の出力が行われる。
特開２０００−３５２９９９号公報

しかしながら、上記従来の音声切替装置においては、両信号の重み付け加算に用いる混合比の変化の度合いが常に一定であるため、受信状況によっては、復号音声の受聴者が違和感や変動感を持つことがある。例えば、定常的な背景雑音を表す信号が音声信号に含まれている区間で音声切替が頻繁に発生すると、切替に伴うパワーや帯域感の変化が受聴者に感じ取られやすくなる。したがって、音質の向上に一定の限界があった。

よって、本発明の目的は、復号音声の音質を向上することができる音声切替装置および音声切替方法を提供することである。

本発明の音声切替装置は、出力する音声信号の帯域を切り替えるときに、狭帯域音声信号および広帯域音声信号が混合された混合信号を出力する音声切替装置であって、前記狭帯域音声信号および前記広帯域音声信号の混合比を経時的に変化させながら前記狭帯域音声信号および前記広帯域音声信号を混合して、前記混合信号を得る混合手段と、前記混合比の経時的な変化の度合いを可変設定する設定手段と、を有する構成を採る。

本発明によれば、狭帯域復号音声信号と広帯域復号音声信号とをスムーズに切り替えることができ、従って復号音声の音質を向上することができる。

本発明の一実施の形態に係る音声復号装置の構成を示すブロック図本発明の一実施の形態に係る重み付け加算部の構成を示すブロック図本発明の一実施の形態に係る拡張レイヤ利得の経時変化の例を説明するための図本発明の一実施の形態に係る拡張レイヤ利得の経時変化の他の例を説明するための図本発明の一実施の形態に係る許容区間検出部の内部構成を示すブロック図本発明の一実施の形態に係る無音区間検出部の内部構成を示すブロック図本発明の一実施の形態に係るパワー変動区間検出部の内部構成を示すブロック図本発明の一実施の形態に係る音質変化区間検出部の内部構成を示すブロック図本発明の一実施の形態に係る拡張レイヤパワー微小区間検出部の内部構成を示すブロック図

以下、本発明の実施の形態について、図面を用いて詳細に説明する。

図１は、本発明の一実施の形態に係る音声切替装置を備えた音声復号装置の構成を示すブロック図である。図１の音声復号装置１００は、コアレイヤ復号化部１０２、コアレイヤフレーム誤り検出部１０４、拡張レイヤフレーム誤り検出部１０６、拡張レイヤ復号化部１０８、許容区間検出部１１０、信号調整部１１２、および重み付け加算部１１４を有する。

コアレイヤフレーム誤り検出部１０４は、コアレイヤ符号化データが復号可能か否かを検出する。具体的には、コアレイヤフレーム誤り検出部１０４はコアレイヤフレーム誤りを検出する。そして、コアレイヤフレーム誤りが検出されたときに、コアレイヤ符号化データが復号不可能であると判断する。コアレイヤフレーム誤り検出結果は、コアレイヤ復号化部１０２および許容区間検出部１１０に出力される。

ここで、コアレイヤフレーム誤りとは、コアレイヤ符号化データのフレームが送信途中で受けた誤りや、パケット通信におけるパケットロス（例えば、通信路上でのパケット破棄、ジッタによるパケット未着など）などの理由によってコアレイヤ符号化データのほとんどまたは全てを復号に用いることができない状態を指す。

コアレイヤフレーム誤りの検出は、例えば下記の処理をコアレイヤフレーム誤り検出部１０４で実行することにより実現される。例えば、コアレイヤフレーム誤り検出部１０４はコアレイヤ符号化データとは別に誤り情報を受信する。あるいは、コアレイヤフレーム誤り検出部１０４はコアレイヤ符号化データに付加されたＣＲＣ（ＣｙｃｌｉｃＲｅｄｕｎｄａｎｃｙＣｈｅｃｋ）などの誤り検査符号を用いて誤り検出を行う。あるいはコアレイヤフレーム誤り検出部１０４は、復号時間までにコアレイヤ符号化データが未着であることを判断する。あるいは、パケットロスや未着を検知する。あるいは、コアレイヤ復号化部１０２でのコアレイヤ符号化データの復号過程において、コアレイヤ符号化データ内に含まれる誤り検出符号などにより重大な誤りが検出されたときに、コアレイヤフレーム誤り検出部１０４はその旨の情報をコアレイヤ復号化部１０２から取得する。

コアレイヤ復号化部１０２は、コアレイヤ符号化データを受信して、そのコアレイヤ符号化データを復号する。この復号によって生成されたコアレイヤ復号音声信号は、信号調整部１１２に出力される。コアレイヤ復号音声信号は、狭帯域の信号である。なお、このコアレイヤ復号音声信号は、そのまま最終出力として用いられても良い。またコアレイヤ復号化部１０２は、コアレイヤ符号化データの一部もしくはコアレイヤＬＳＰ（ＬｉｎｅＳｐｅｃｔｒｕｍＰａｉｒ）を許容区間検出部１１０に出力する。コアレイヤＬＳＰは、コアレイヤ復号の過程で得られたスペクトルパラメータである。ここでは、コアレイヤ復号化部１０２が許容区間検出部１１０にコアレイヤＬＳＰを出力する場合を例にとって説明しているが、コアレイヤ復号の過程で得られる他のスペクトルパラメータ、さらにはコアレイヤ復号の過程で得られるスペクトルパラメータではない他のパラメータを出力するようにしても良い。

コアレイヤ復号化部１０２は、コアレイヤフレーム誤りがコアレイヤフレーム誤り検出部１０４から通知された場合や、コアレイヤ符号化データの復号過程において、コアレイヤ符号化データ内に含まれる誤り検出符号などにより重大な誤りがあると判定された場合は、過去の符号化情報などを利用して線形予測係数および音源の補間などを行う。これによって、コアレイヤ復号音声信号を生成し出力し続ける。また、コアレイヤ符号化データの復号過程において、コアレイヤ符号化データ内に含まれる誤り検出符号などにより重大な誤りがあると判定された場合、コアレイヤ復号化部１０２は、その旨の情報をコアレイヤフレーム誤り検出部１０４に通知する。

拡張レイヤフレーム誤り検出部１０６は、拡張レイヤ符号化データが復号可能か否かを検出する。具体的には拡張レイヤフレーム誤り検出部１０６は、拡張レイヤフレーム誤りを検出する。そして、拡張レイヤフレーム誤りが検出されたときに、拡張レイヤ符号化データが復号不可能であると判断する。拡張レイヤフレーム誤り検出結果は、拡張レイヤ復号化部１０８および重み付け加算部１１４に出力される。

ここで、拡張レイヤフレーム誤りとは、拡張レイヤ符号化データのフレームが送信途中で受けた誤りや、パケット通信におけるパケットロスなどの理由によって拡張レイヤ符号化データのほとんどまたは全てを復号に用いることができない状態を指す。

拡張レイヤフレーム誤りの検出は、例えば下記の処理を拡張レイヤフレーム誤り検出部１０６で実行することにより実現される。例えば、拡張レイヤフレーム誤り検出部１０６は拡張レイヤ符号化データとは別に誤り情報を受信する。あるいは拡張レイヤフレーム誤り検出部１０６は、拡張レイヤ符号化データに付加されたＣＲＣなどの誤り検査符号を用いて誤り検出を行う。あるいは拡張レイヤフレーム誤り検出部１０６は、復号時間までに拡張レイヤ符号化データが未着であることを判断する。あるいは拡張レイヤフレーム誤り検出部１０６は、パケットロスや未着を検知する。あるいは、拡張レイヤ復号化部１０８での拡張レイヤ符号化データの復号過程において、拡張レイヤ符号化データ内に含まれる誤り検出符号などにより重大な誤りが検出されたときに、拡張レイヤフレーム誤り検出部１０６はその旨の情報を拡張レイヤ復号化部１０８から取得する。あるいは、拡張レイヤの復号にコアレイヤの情報が不可欠であるようなスケーラブル音声符号化方式が採用されている場合は、コアレイヤフレーム誤りが検出されたときに、拡張レイヤフレーム誤り検出部１０６は拡張レイヤフレーム誤りが検出されたと判断する。この場合拡張レイヤフレーム誤り検出部１０６は、コアレイヤフレーム誤り検出部１０４から、コアレイヤフレーム誤り検出結果の入力を受ける。

拡張レイヤ復号化部１０８は、拡張レイヤ符号化データを受信して、その拡張レイヤ符号化データを復号する。この復号によって生成された拡張レイヤ復号音声信号は、許容区間検出部１１０および重み付け加算部１１４に出力される。拡張レイヤ復号音声信号は、広帯域の信号である。

拡張レイヤ復号化部１０８は、拡張レイヤフレーム誤りが拡張レイヤフレーム誤り検出部１０６から通知された場合や、拡張レイヤ符号化データの復号過程において、拡張レイヤ符号化データ内に含まれる誤り検出符号などにより重大な誤りがあると判定された場合は、過去の符号化情報などを利用して線形予測係数および音源の補間などを行う。これによって、必要に応じて、拡張レイヤ復号音声信号を生成し出力する。また、拡張レイヤ符号化データの復号過程において、拡張レイヤ符号化データ内に含まれる誤り検出符号などにより重大な誤りがあると判定された場合、拡張レイヤ復号化部１０８は、その旨の情報を拡張レイヤフレーム誤り検出部１０６に通知する。

信号調整部１１２は、コアレイヤ復号化部１０２から入力されたコアレイヤ復号音声信号を調整する。具体的には信号調整部１１２は、コアレイヤ復号音声信号に対してアップサンプリングを行って、拡張レイヤ復号音声信号のサンプリング周波数に合わせる。また信号調整部１１２は、遅延および位相を拡張レイヤ復号音声信号に合わせるために、コアレイヤ復号音声信号の遅延および位相を調整する。これらの処理を施されたコアレイヤ復号音声信号は、許容区間検出部１１０および重み付け加算部１１４に出力される。

許容区間検出部１１０は、コアレイヤフレーム誤り検出部１０４から入力されるコアレイヤフレーム誤り検出結果、信号調整部１１２から入力されたコアレイヤ復号音声信号、コアレイヤ復号化部１０２から入力されたコアレイヤＬＳＰ、および拡張レイヤ復号化部１０８から入力された拡張レイヤ復号音声信号を分析し、分析結果に基づいて許容区間を検出する。許容区間検出結果は、重み付け加算部１１４に出力される。このため、コアレイヤ復号音声信号および拡張レイヤ復号音声信号の混合比を経時的に変化させる度合いを比較的高くする期間を許容区間のみに限定することができ、混合比の経時変化の度合いを変更するタイミングを制御することができる。

ここで、許容区間とは、出力音声信号の帯域が変化しても聴感上の影響が少ない区間、すなわち、出力音声信号の帯域変化が受聴者に知覚されにくい区間である。逆に、コアレイヤ復号音声信号および拡張レイヤ復号音声信号が生成されている期間のうち許容区間以外の区間は、出力音声信号の帯域変化が受聴者に知覚されやすい区間である。したがって、許容区間は、出力音声信号の帯域の急変を許容する区間である。

許容区間検出部１１０は、無音区間、パワー変動区間、音質変化区間、拡張レイヤパワー微小区間、などを、許容区間として検出し、検出結果を重み付け加算部１１４に出力する。許容区間検出部１１０の内部構成および許容区間を検出する処理の詳細については後述する。

音声切替装置としての重み付け加算部１１４は、出力音声信号の帯域を切り替える。また重み付け加算部１１４は、出力音声信号の帯域を切り替えるとき、コアレイヤ音声信号および拡張レイヤ音声信号が混合された混合信号を出力音声信号として出力する。混合信号は、信号調整部１１２から入力されたコアレイヤ復号音声信号および拡張レイヤ復号化部１０８から入力された拡張レイヤ復号音声信号の重み付け加算を行うことによって、生成される。すなわち混合信号は、コアレイヤ復号音声信号および拡張レイヤ復号音声信号の重み和である。重み付け加算の詳細については後述する。

図５は、許容区間検出部１１０の内部構成を示すブロック図である。許容区間検出部１１０は、コアレイヤ復号音声信号パワー算出部５０１、無音区間検出部５０２、パワー変動区間検出部５０３、音質変化区間検出部５０４、拡張レイヤパワー微小区間検出部５０５、および許容区間判定部５０６を有する。

コアレイヤ復号音声信号パワー算出部５０１は、コアレイヤ復号化部１０２からコアレイヤ復号音声信号が入力され、下記の式（１）に従ってコアレイヤ復号音声信号パワーＰｃ（ｔ）を算出する。

ここで、ｔはフレーム番号、Ｐｃ（ｔ）はフレームｔにおけるコアレイヤ復号音声信号のパワー、Ｌ＿ＦＲＡＭＥはフレーム長、ｉはサンプル番号、Ｏｃ（ｉ）はコアレイヤ復号音声信号をそれぞれ表す。

コアレイヤ復号音声信号パワー算出部５０１は、算出して得られたコアレイヤ復号音声信号パワーＰｃ（ｔ）を、無音区間検出部５０２、パワー変動区間検出部５０３、および拡張レイヤパワー微小区間検出部５０５に出力する。無音区間検出部５０２は、コアレイヤ復号音声信号パワー算出部５０１から入力されるコアレイヤ復号音声信号パワーＰｃ（ｔ）を用いて、無音区間を検出し、得られる無音区間検出結果を許容区間判定部５０６に出力する。パワー変動区間検出部５０３は、コアレイヤ復号音声信号パワー算出部５０１から入力されるコアレイヤ復号音声信号パワーＰｃ（ｔ）を用いて、パワー変動区間を検出し、得られるパワー変動区間検出結果を許容区間判定部５０６に出力する。音質変化区間検出部５０４は、コアレイヤフレーム誤り検出部１０４から入力されるコアレイヤフレーム誤り検出結果およびコアレイヤ復号化部１０２から入力されるコアレイヤＬＳＰを用いて、音質変化区間を検出し、得られる音質変化区間検出結果を許容区間判定部５０６に出力する。拡張レイヤパワー微小区間検出部５０５は、拡張レイヤ復号化部１０８から入力される拡張レイヤ復号音声信号を用いて、拡張レイヤパワー微小区間を検出し、得られる拡張レイヤパワー微小区間検出結果を許容区間判定部５０６に出力する。許容区間判定部５０６では、無音区間検出部５０２、パワー変動区間検出部５０３、音質変化区間検出部５０４、拡張レイヤパワー微小区間検出部５０５の検出結果に基づき、無音区間、パワー変動区間、音質変化区間、または拡張レイヤパワー微小区間が検出されたか否かを判定する。つまり、許容区間が検出されたか否かを判定し、判定結果として許容区間検出結果を出力する。

図６は、無音区間検出部５０２の内部構成を示すブロック図である。

無音区間は、コアレイヤ復号音声信号のパワーが非常に小さい区間である。無音区間においては、拡張レイヤ復号音声信号の利得（換言すれば、コアレイヤ復号音声信号および拡張レイヤ復号音声信号の混合比）を急速に変化させてもその変化を知覚されにくい。無音区間は、コアレイヤ復号音声信号のパワーが所定の閾値以下であることを検出することによって、検出される。このような検出を行う無音区間検出部５０２は、無音判定閾値記憶部５２１および無音区間判定部５２２を有する。

無音判定閾値記憶部５２１は、無音区間の判定に必要な閾値εが記憶されており、閾値εを無音区間判定部５２２に出力する。無音区間判定部５２２は、コアレイヤ復号音声信号パワー算出部５０１から入力されるコアレイヤ復号音声信号パワーＰｃ（ｔ）と閾値εとを比較して、下記の式（２）に従い無音区間判定結果ｄ（ｔ）を得る。許容区間は無音区間を含めるため、ここでは無音区間判定結果を許容区間検出結果と同じくｄ（ｔ）で表す。無音区間判定部５２２は、無音区間判定結果ｄ（ｔ）を許容区間判定部５０６に出力する。

図７は、パワー変動区間検出部５０３の内部構成を示すブロック図である。

パワー変動区間は、コアレイヤ復号音声信号（または拡張レイヤ復号音声信号）のパワーが大きく変動する区間である。パワー変動区間においては、多少の変化（例えば、出力音声信号の音色の変化や帯域感の変化）は、聴感的に知覚されにくい、あるいは、知覚されても受聴者に違和感を持たせない。したがって、拡張レイヤ復号音声信号の利得（換言すれば、コアレイヤ復号音声信号および拡張レイヤ復号音声信号の混合比）を急速に変化させてもその変化を知覚されにくい。パワー変動区間は、コアレイヤ復号音声信号（または拡張レイヤ復号音声信号）の短期パワーと長期平滑化パワーとの差または比を所定の閾値と比較した結果として、差または比が閾値以上であることを検出することによって、検出される。このような検出を行うパワー変動区間検出部５０３は、短期平滑化係数記憶部５３１、短期平滑化パワー算出部５３２、長期平滑化係数記憶部５３３、長期平滑化パワー算出部５３４、判定調整係数記憶部５３５、およびパワー変動区間判定部５３６を有する。

短期平滑化係数記憶部５３１は、短期平滑化係数αが記憶されており、短期平滑化係数αを短期平滑化パワー算出部５３２に出力する。短期平滑化パワー算出部５３２は、この短期平滑化係数αと、コアレイヤ復号音声信号パワー算出部５０１から入力されるコアレイヤ復号音声信号パワーＰｃ（ｔ）を用いて、下記の式（３）に従いコアレイヤ復号音声信号パワーＰｃ（ｔ）の短期平滑化パワーＰｓ（ｔ）を算出する。短期平滑化パワー算出部５３２は、算出されたコアレイヤ復号音声信号パワーＰｃ（ｔ）の短期平滑化パワーＰｓ（ｔ）をパワー変動区間判定部５３６に出力する。

長期平滑化係数記憶部５３３は、長期平滑化係数βが記憶されており、長期平滑化係数βを長期平滑化パワー算出部５３４に出力する。長期平滑化パワー算出部５３４は、この長期平滑化係数βと、コアレイヤ復号音声信号パワー算出部５０１から入力されるコアレイヤ復号音声信号パワーＰｃ（ｔ）を用いて、下記の式（４）に従いコアレイヤ復号音声信号パワーＰｃ（ｔ）の長期平滑化パワーＰｌ（ｔ）を算出する。長期平滑化パワー算出部５３４は、算出されたコアレイヤ復号音声信号パワーＰｃ（ｔ）の長期平滑化パワーＰｌ（ｔ）をパワー変動区間判定部５３６に出力する。上記の短期平滑化係数αと長期平滑化係数βとは、０．０＜α＜β＜１．０の関係にある。

ここで、短期平滑化係数αと長期平滑化係数βとは（０．０＜α＜β＜１．０）の関係にある。

判定調整係数記憶部５３５は、パワー変動区間を判定するための調整係数γが記憶されており、調整係数γをパワー変動区間判定部５３６に出力する。パワー変動区間判定部５３６は、この調整係数γ、短期平滑化パワー算出部５３２から入力されるＰｓ（ｔ）、および長期平滑化パワー算出部５３４から入力される長期平滑化パワーＰｌ（ｔ）を用いて、下記の式（５）に従いパワー変動区間判定結果ｄ（ｔ）を得る。許容区間はパワー変動区間を含めるため、ここではパワー変動区間判定結果を許容区間検出結果と同じくｄ（ｔ）で表す。パワー変動区間判定部５３６は、パワー変動区間判定結果ｄ（ｔ）を許容区間判定部５０６に出力する。

なお、ここでパワー変動区間は、短期パワーと長期平滑化パワーとを比較することにより検出するが、前後のフレーム（またはサブフレーム）などのパワーを比較した結果として、パワーの変化量が所定の閾値以上であることを判定することによって、検出しても良い。あるいは、パワー変動区間は、コアレイヤ復号音声信号（または拡張レイヤ復号音声信号）の立ち上がり時を判定することによって、検出しても良い。

図８は、音質変化区間検出部５０４の内部構成を示すブロック図である。

音質変化区間は、コアレイヤ復号音声信号（または拡張レイヤ復号音声信号）の音質が大きく変動する区間である。音質変化区間においては、コアレイヤ復号音声信号（または拡張レイヤ復号音声信号）自体が、聴感的に時間的連続性を失っている状態となっている。この場合、拡張レイヤ復号音声信号の利得（換言すれば、コアレイヤ復号音声信号および拡張レイヤ復号音声信号の混合比）を急速に変化させてもその変化を知覚されにくい。音質変化区間は、コアレイヤ復号音声信号（または拡張レイヤ復号音声信号）に含まれる背景雑音信号の種類の急変を検出することによって、検出される。あるいは、音質変化区間は、コアレイヤ符号化データのスペクトルパラメータ（例えば、ＬＳＰ）の変化を検出することによって、検出される。例えばＬＳＰの変化を検出するためには、過去のＬＳＰの各要素と現在のＬＳＰの各要素との間の距離の合計を所定の閾値と比較した結果として、その距離の合計が閾値以上であることを検出する。このような検出を行う音質変化区間検出部５０４は、ＬＳＰ要素間距離算出部５４１、ＬＳＰ要素間距離蓄積部５４２、ＬＳＰ要素間距離変化率算出部５４３、音質変化判定閾値記憶部５４４、コアレイヤ誤り復帰検出部５４５、および音質変化区間判定部５４６を有する。

ＬＳＰ要素間距離算出部５４１は、コアレイヤ復号化部１０２から入力されるコアレイヤＬＳＰを用いて、下記の式（６）に従いＬＳＰ要素間距離ｄｌｓｐ（ｔ）を算出する。

ＬＳＰ要素間距離ｄｌｓｐ（ｔ）は、ＬＳＰ要素間距離蓄積部５４２及びＬＳＰ要素間距離度化率算出部５４３に出力される。

ＬＳＰ要素間距離蓄積部５４２は、ＬＳＰ要素間距離算出部５４１から入力されるＬＳＰ要素間距離ｄｌｓｐ（ｔ）を蓄積し、過去（１フレーム前）のＬＳＰ要素間距離ｄｌｓｐ（ｔ−１）を、ＬＳＰ要素間距離変化率算出部５４３に出力する。ＬＳＰ要素間距離変化率算出部５４３は、ＬＳＰ要素間距離ｄｌｓｐ（ｔ）を過去のＬＳＰ要素間距離ｄｓｌｐ（ｔ−１）で除算することによりＬＳＰ要素間距離変化率を算出する。算出されたＬＳＰ要素間距離変化率は、音質変化区間判定部５４６に出力される。

音質変化判定閾値記憶部５４４は、音質変化区間の判定に必要な閾値Ａが記憶され、閾値Ａを音質変化区間判定部５４６に出力する。音質変化区間判定部５４６は、この閾値Ａと、ＬＳＰ要素間距離変化率算出部５４３から入力されるＬＳＰ要素間距離変化率とを用いて下記の式（７）に従い音質変化区間判定結果ｄ（ｔ）を得る。

ここで、ｌｓｐはコアレイヤのＬＳＰ係数、Ｍはコアレイヤの線形予測係数の分析次数、ｍはＬＳＰの要素番号、ｄｌｓｐは隣り合う要素間の距離をそれぞれ表す。

なお、許容区間はパワー変動区間を含めるため、ここでは音質変化区間判定結果を許容区間検出結果と同じくｄ（ｔ）で表す。音質変化区間判定部５４６は、音質変化区間判定結果ｄ（ｔ）を許容区間判定部５０６に出力する。

コアレイヤ誤り復帰検出部５４５は、コアレイヤフレーム誤り検出部１０２から入力されるコアレイヤフレーム誤り検出結果に基づき、フレーム誤りから復帰（正常受信）したことを検出すると、その旨を音質変化区間判定部５４６に通知し、音質変化区間判定部５４６は、復帰後の所定数のフレームを音質変化区間と判定する。すなわち、コアレイヤフレーム誤りに起因してコアレイヤ復号音声信号に対して補間処理が行われた後の所定数のフレームを、音質変化区間として判定する。

図９は、拡張レイヤパワー微小区間検出部５０５の内部構成を示すブロック図である。

拡張レイヤパワー微小区間は、拡張レイヤ復号音声信号のパワーが非常に小さい区間である。拡張レイヤパワー微小区間においては、出力音声信号の帯域を急速に変化させてもその変化は知覚されにくい。したがって、拡張レイヤ復号音声信号の利得（換言すれば、コアレイヤ復号音声信号および拡張レイヤ復号音声信号の混合比）を急速に変化させてもその変化を知覚されにくい。拡張レイヤパワー微小区間は、拡張レイヤ復号音声信号のパワーが所定の閾値以下であることを検出することによって、検出される。あるいは、拡張レイヤパワー微小区間は、コアレイヤ復号音声信号のパワーに対する拡張レイヤ復号音声信号のパワーの比が所定値以下であることを検出することによって、検出される。このような検出を行う拡張レイヤパワー微小区間検出部５０５は、拡張レイヤ復号音声信号パワー算出部５５１、拡張レイヤパワー比算出部５５２、拡張レイヤパワー微小判定閾値記憶部５５３、拡張レイヤパワー微小区間判定部５５４を有する。

拡張レイヤ復号音声信号パワー算出部５５１は、拡張レイヤ復号化部１０８から入力される拡張レイヤ復号信号を用いて、下記の式（８）に従い拡張レイヤ復号音声信号パワーＰｅ（ｔ）を算出する。

ここで、Ｏｅ（ｉ）は拡張レイヤ復号音声信号、Ｐｅ（ｔ）は拡張レイヤ復号音声信号パワーをそれぞれ表す。拡張レイヤ復号音声信号パワーＰｅ（ｔ）は、拡張レイヤパワー比算出部５５２及び拡張レイヤパワー微小区間判定部５５４に出力される。

拡張レイヤパワー比算出部５５２は、この拡張レイヤ復号音声信号パワーＰｅ（ｔ）を、コアレイヤ復号音声信号パワー算出部５０１から入力されるコアレイヤ復号信号パワーＰｃ（ｔ）で除算することにより、拡張レイヤパワー比を算出する。拡張レイヤパワー比は拡張レイヤパワー微小区間判定部５５４に出力される。

拡張レイヤパワー微小判定閾値記憶部５５３は、拡張レイヤパワー微小区間の判定に必要な閾値ＢおよびＣが記憶されており、閾値ＢおよびＣを拡張レイヤパワー微小区間判定部５５４に出力する。拡張レイヤパワー微小区間判定部５５４は、拡張レイヤ復号音声信号パワー算出部５５１から入力される拡張レイヤ復号音声信号パワーＰｅ（ｔ）、拡張レイヤパワー比算出部５５２から入力される拡張レイヤパワー比、拡張レイヤパワー微小判定閾値記憶部５５３から入力される閾値ＢおよびＣを用いて、下記の式（９）に従い拡張レイヤパワー微小区間判定結果ｄ（ｔ）を得る。許容区間は拡張レイヤパワー微小区間を含めるため、ここでは拡張レイヤパワー微小区間判定結果を許容区間検出結果と同じくｄ（ｔ）で表す。拡張レイヤパワー微小区間判定部５５４は、拡張レイヤパワー微小区間判定結果ｄ（ｔ）を許容区間判定部５０６に出力する。

許容区間検出部１１０が前述の方法で許容区間を検出すると、次いで重み付け加算部１１４は、音声信号の帯域変化が知覚されにくい区間においてのみ、混合比を比較的急に変化させるとともに、音声信号の帯域変化が知覚されやすい区間においては、混合比を比較的緩やかに変化させる。よって、受聴者が音声信号に対して違和感や変動感を持つ可能性を確実に低減することができる。

次いで、重み付け加算部１１４の内部構成およびその動作について、図２を用いて説明する。図２は、重み付け加算部１１４の内部構成を示すブロック図であり、重み付け加算部１１４は、拡張レイヤ復号音声利得制御器１２０、拡張レイヤ復号音声増幅器１２２および加算器１２４を有する。

設定手段としての拡張レイヤ復号音声利得制御器１２０は、拡張レイヤフレーム誤り検出結果および許容区間検出結果に基づいて、拡張レイヤ復号音声信号の利得（以下「拡張レイヤ利得」と言う）を制御する。拡張レイヤ復号音声信号の利得制御においては、拡張レイヤ復号音声信号の利得の経時的な変化の度合いが可変設定される。これによって、コアレイヤ復号音声信号および拡張レイヤ復号音声信号が混合されるときの混合比が可変設定される。

なお、拡張レイヤ復号音声利得制御器１２０では、コアレイヤ復号音声信号の利得（以下「コアレイヤ利得」と言う）の制御は行われず、拡張レイヤ復号音声信号と混合されるときのコアレイヤ復号音声信号の利得は一定の値に固定される。したがって、両信号の利得を可変設定する場合に比べて容易に混合比を可変設定することができる。ただし、拡張レイヤ利得だけでなくコアレイヤ利得も制御するようにしても良い。

拡張レイヤ復号音声増幅器１２２は、拡張レイヤ復号音声利得制御器１２０によって制御された利得を、拡張レイヤ復号化部１０８から入力された拡張レイヤ復号音声信号に乗じる。利得を乗じられた拡張レイヤ復号音声信号は、加算器１２４に出力される。

加算器１２４は、拡張レイヤ復号音声増幅器１２２から入力された拡張レイヤ復号音声信号および信号調整部１１２から入力されたコアレイヤ復号音声信号を加算する。これによって、コアレイヤ復号音声信号および拡張レイヤ復号音声信号は混合され、混合信号が生成される。生成された混合信号は、音声復号装置１００の出力音声信号となる。すなわち、拡張レイヤ復号音声増幅器１２２および加算器１２４の組み合わせは、コアレイヤ復号音声信号および拡張レイヤ復号音声信号の混合比を経時的に変化させながらコアレイヤ復号音声信号および拡張レイヤ復号音声信号を混合して、混合信号を得る混合部を構成する。

以下、重み付け加算部１１４における動作について説明する。

重み付け加算部１１４の拡張レイヤ復号音声利得制御器１２０では、拡張レイヤ利得は、主として拡張レイヤ符号化データが受信できないときに減衰し拡張レイヤ符号化データを受信し始めたら上昇するように制御される。また、拡張レイヤ利得は、コアレイヤ復号音声信号または拡張レイヤ復号音声信号の状態に同期して適応的に制御される。

ここで、拡張レイヤ復号音声利得制御器１２０での拡張レイヤ利得の可変設定動作の例を説明する。なお、本実施の形態では、コアレイヤ復号音声信号の利得は固定されているため、拡張レイヤ利得およびその経時変化の度合いが拡張レイヤ復号音声利得制御器１２０によって変更されるとき、コアレイヤ復号音声信号および拡張レイヤ復号音声信号の混合比ならびにその経時変化の度合いは変更される。

拡張レイヤ復号音声利得制御器１２０は、拡張レイヤフレーム誤り検出部１０６から入力された拡張レイヤフレーム誤り検出結果ｅ（ｔ）と、許容区間検出部１１０から入力された許容区間検出結果ｄ（ｔ）と、を用いて拡張レイヤ利得ｇ（ｔ）を決定する。拡張レイヤ利得ｇ（ｔ）は、次の式（１０）〜（１２）によって決定される。
ｇ（ｔ）＝１．０，ｇ（ｔ−１）＋ｓ（ｔ）＞１．０の場合 …（１０）
ｇ（ｔ）＝ｇ（ｔ−１）＋ｓ（ｔ）
，０．０≦ｇ（ｔ−１）＋ｓ（ｔ）≦１．０の場合 …（１１）
ｇ（ｔ）＝０．０，ｇ（ｔ−１）＋ｓ（ｔ）＜０．０の場合 …（１２）
なお、ｓ（ｔ）は拡張レイヤ利得の増減値を表す。

すなわち、拡張レイヤ利得ｇ（ｔ）の最小値は０．０であり、最大値は１．０である。コアレイヤ利得は制御されない、つまりコアレイヤ利得は常に１．０であるため、ｇ（ｔ）＝１．０のときは、コアレイヤ復号音声信号および拡張レイヤ復号音声信号が１：１の混合比で混合される。一方、ｇ（ｔ）＝０．０のときは、信号調整部１１２から出力されたコアレイヤ復号音声信号が出力音声信号となる。

増減値ｓ（ｔ）は、拡張レイヤフレーム誤り検出結果ｅ（ｔ）および許容区間検出結果ｄ（ｔ）に従い、次の式（１３）〜（１６）によって決定される。
ｓ（ｔ）＝０．２０，ｅ（ｔ）＝１且つｄ（ｔ）＝１の場合 …（１３）
ｓ（ｔ）＝０．０２，ｅ（ｔ）＝１且つｄ（ｔ）＝０の場合 …（１４）
ｓ（ｔ）＝−０．４０，ｅ（ｔ）＝０且つｄ（ｔ）＝１の場合 …（１５）
ｓ（ｔ）＝−０．２０，ｅ（ｔ）＝０且つｄ（ｔ）＝０の場合 …（１６）

なお、拡張レイヤフレーム誤り検出結果ｅ（ｔ）は次の式（１７）〜（１８）で示される。
ｅ（ｔ）＝１，拡張レイヤフレーム誤りなしの場合 …（１７）
ｅ（ｔ）＝０，拡張レイヤフレーム誤りありの場合 …（１８）

また、許容区間検出結果ｄ（ｔ）は、次の式（１９）〜（２０）で示される。
ｄ（ｔ）＝１，許容区間の場合 …（１９）
ｄ（ｔ）＝０，許容区間以外の区間の場合 …（２０）

式（１３）および式（１４）を比較すると、または、式（１５）および式（１６）を比較すると、許容区間（ｄ（ｔ）＝１）では、許容区間以外の区間（ｄ（ｔ）＝０）に比べて、拡張レイヤ利得の増減値ｓ（ｔ）が大きくなる。したがって、許容区間では、許容区間以外の区間に比べて、コアレイヤ復号音声信号および拡張レイヤ復号音声信号の混合比の経時変化の度合いが大きくなり、混合比の経時変化が急になる。そして、許容区間以外の区間では、許容区間に比べて、コアレイヤ復号音声信号および拡張レイヤ復号音声信号の混合比の経時変化の度合いが小さくなり、混合比の経時変化が緩やかになる。

なお、説明の簡略化のため、前述の各関数ｇ（ｔ）、ｓ（ｔ）、ｄ（ｔ）をフレーム単位で表現したが、サンプル単位で表現しても良い。また、前述の式（１０）〜（２０）で用いられた数値は一例であり、他の数値を用いても良い。前述の例では、拡張レイヤ利得が直線的に増減するような関数が用いられているが、拡張レイヤ利得を単調増加または単調減少させる任意の関数を用いることができる。また、背景雑音信号がコアレイヤ復号音声信号に含まれている場合は、コアレイヤ復号音声信号を用いて音声信号対背景雑音信号比などを求め、その比に応じて、拡張レイヤ利得の増分、減分を適応的に制御しても良い。

続いて、拡張レイヤ復号音声利得制御器１２０によって制御された拡張レイヤ利得の経時変化について、２つの例を挙げて説明する。図３は、拡張レイヤ利得の経時変化の第１の例を説明するための図であり、図４は、拡張レイヤ利得の経時変化の第２の例を説明するための図である。

まず、図３を用いて第１の例について説明する。図３Ｂには、拡張レイヤ符号化データが受信できたか否かが示されている。時刻Ｔ１から時刻Ｔ２までの区間、時刻Ｔ６から時刻Ｔ８までの区間および時刻Ｔ１０以降の区間において、拡張レイヤフレーム誤りが検出されており、それ以外の区間では、拡張レイヤフレーム誤りは検出されていない。

また、図３Ｃには、許容区間検出結果が示されている。時刻Ｔ３から時刻Ｔ５までの区間および時刻Ｔ９から時刻Ｔ１１までの区間は、検出された許容区間である。これ以外の区間では、許容区間は検出されていない。

また、図３Ａには、拡張レイヤ利得が示されている。ｇ（ｔ）＝０．０は、拡張レイヤ復号音声信号を完全に減衰し全く出力に貢献しないことを表す。一方、ｇ（ｔ）＝１．０は、拡張レイヤ復号音声信号を全て利用することを表す。

時刻Ｔ１から時刻Ｔ２までの区間では、拡張レイヤフレーム誤りが検出されているため、拡張レイヤ利得が徐々に下げられている。時刻Ｔ２に至ると拡張レイヤフレーム誤りが検出されなくなるため、拡張レイヤ利得は、今度は逆に上げられている。時刻Ｔ２以降の拡張レイヤ利得上昇期間のうち、時刻Ｔ２から時刻Ｔ３までの区間は、許容区間ではない。したがって、拡張レイヤ利得の上昇の度合いは小さく、拡張レイヤ利得の上昇は比較的緩やかである。一方、時刻Ｔ２以降の拡張レイヤ利得上昇期間のうち、時刻Ｔ３から時刻Ｔ５までの区間は、許容区間である。したがって、拡張レイヤ利得の上昇の度合いは大きく、拡張レイヤ利得の上昇は比較的急である。これによって、時刻Ｔ２から時刻Ｔ３までの区間において、帯域変化が知覚されることを防止することができる。また、時刻Ｔ３から時刻Ｔ５においては、帯域変化が知覚されにくい状態を維持しながら帯域変化を速めることができ、広帯域感を出すことに貢献することができ、主観品質を向上することができる。

そして、時刻Ｔ８から時刻Ｔ１０までの区間では、拡張レイヤフレーム誤りが検出されていないため、拡張レイヤ利得が上げられている。しかし、時刻Ｔ８から時刻Ｔ１０までの区間のうち、時刻Ｔ８から時刻Ｔ９までの区間は、許容区間ではない。したがって、拡張レイヤ利得の上昇は比較的緩やかな状態に抑えられている。一方、時刻Ｔ８から時刻Ｔ１０までの区間のうち、時刻Ｔ９から時刻Ｔ１０までの区間は、許容区間である。したがって、拡張レイヤ利得の上昇は比較的急である。

そして、時刻Ｔ１０以降の区間では、拡張レイヤフレーム誤りが検出されている。このため、拡張レイヤ利得の変化は、時刻Ｔ１０から低下に転じる。また、時刻Ｔ１０以降の区間のうち、時刻Ｔ１０から時刻１１までの区間は、許容区間である。したがって、拡張レイヤ利得の低下の度合いは大きく、拡張レイヤ利得の低下は比較的急である。一方、時刻Ｔ１１以降の区間は、許容区間ではない。したがって、拡張レイヤ利得の低下の度合いは小さく、拡張レイヤ利得の低下は比較的緩やかな状態に抑えられている。そして、時刻Ｔ１２にて、拡張レイヤ利得は０．０になる。これによって、時刻Ｔ１０から時刻Ｔ１１までの区間においては、帯域変化が知覚されにくい状態を維持しながら帯域変化を速めることができる。また、時刻Ｔ１１から時刻Ｔ１２までの区間においては、帯域変化が知覚されることを防止することができる。

次に、図４を用いて、第２の例について説明する。図４Ｂには、拡張レイヤ符号化データが受信できたか否かが示されている。時刻Ｔ２１から時刻Ｔ２２までの区間、時刻Ｔ２４から時刻Ｔ２７までの区間、時刻Ｔ２８から時刻Ｔ３０までの区間および時刻Ｔ３１以降の区間において、拡張レイヤフレーム誤りが検出されており、それ以外の区間では、拡張レイヤフレーム誤りは検出されていない。

また、図４Ｃには、許容区間検出結果が示されている。時刻Ｔ２３から時刻Ｔ２６までの区間は、検出された許容区間である。これ以外の区間では、許容区間は検出されていない。

また、図４Ａには、拡張レイヤ利得が示されている。第２の例では、拡張レイヤフレーム誤りが検出される頻度が、第１の例に比べて高い。したがって、拡張レイヤ利得の増減の転換の頻度が高い。具体的には、拡張レイヤ利得は、時刻Ｔ２２から上昇し、時刻Ｔ２４からは低下し、時刻Ｔ２７からは上昇し、時刻Ｔ２８からは低下し、時刻Ｔ３０からは上昇し、時刻Ｔ３１からは低下する。この過程において、許容区間は、時刻Ｔ２３から時刻Ｔ２６までの区間のみである。つまり、時刻Ｔ２６以降の区間では、拡張レイヤ利得の変化の度合いが小さくなるように制御され、拡張レイヤ利得の変化は比較的緩やかな状態に抑えられる。このため、時刻Ｔ２７から時刻２８までの区間および時刻Ｔ３０から時刻Ｔ３１までの区間での拡張レイヤ利得の上昇は、比較的緩やかであり、時刻Ｔ２８から時刻２９までの区間および時刻Ｔ３１から時刻Ｔ３２までの区間での拡張レイヤ利得の低下は、比較的緩やかである。これによって、帯域変化が頻繁に起こったときに受聴者が変動感を持つのを防止することができる。

このように、前述の２つの例では、許容区間において、帯域切替を速やかに行うことで、コアレイヤ復号音声信号のパワーなどの変化と、帯域切替によって生じ得る総合的な復号音声の変動感を緩和させることができる。一方、許容区間以外の区間において、パワーや帯域幅の変化を緩やかに行うよう制御することで、帯域幅の変化を目立たなくすることができる。

また、前述の２つの例では、拡張レイヤ利得の経時変化の度合いが変更されることに伴って、混合信号の出力時間が変更される。このため、混合比の経時変化の度合いが変更されたときに、音の大きさや不連続性や帯域感の不連続性が発生するのを防止することができる。

以上説明したように、本実施の形態によれば、コアレイヤ復号音声信号つまり狭帯域音声信号および拡張レイヤ復号音声信号つまり広帯域音声信号を混合するときに経時的に変化する混合比の変化の度合いを可変設定するため、受聴者が音声信号に対して違和感や変動感を持つ可能性を低減することができ、音質を向上することができる。

なお、採用可能な帯域スケーラブル音声符号化方式は、本実施の形態で説明したものに限定されない。例えば、拡張レイヤでコアレイヤ符号化データおよび拡張レイヤ符号化データの双方を用いて広帯域復号音声信号を一括復号するような方式であって、拡張レイヤフレーム誤り発生時にはコアレイヤ復号音声信号を使用するような方式にも、本実施の形態の構成を適用することができる。この場合、コアレイヤ復号音声および拡張レイヤ復号音声を切り替える際には、コアレイヤ復号音声および拡張レイヤ復号音声の双方に対して、フェードインまたはフェードアウトするような重ね合わせ処理を行う。そして、前述の許容区間検出結果に従ってフェードインまたはフェードアウトの速度を制御する。これによって、音質劣化を抑えた復号音声を得ることができる。

また、本実施の形態の許容区間検出部１１０と同様に、帯域の変化を許容する区間を検出するための構成を、帯域スケーラブル音声符号化方式を適用した音声符号化装置に設けても良い。この場合、音声符号化装置は、帯域の変化を許容する区間以外の区間では帯域切替（つまり、狭帯域から広帯域への切替または広帯域から狭帯域への切替）を保留し、帯域の変化を許容する区間のみにおいて帯域切替を実行する。この音声符号化装置で符号化された音声を音声復号装置で復号した場合、その音声復号装置がたとえ帯域切り替え機能を有しないものであったとしても、受聴者が復号音声に対して違和感や変動感を持つ可能性を低減することができる。

また、上記各実施の形態の説明に用いた各機能ブロックは、典型的には集積回路であるＬＳＩとして実現される。これらは個別に１チップ化されても良いし、一部又は全てを含むように１チップ化されても良い。

ここでは、ＬＳＩとしたが、集積度の違いにより、ＩＣ、システムＬＳＩ、スーパーＬＳＩ、ウルトラＬＳＩと呼称されることもある。

また、集積回路化の手法はＬＳＩに限るものではなく、専用回路又は汎用プロセッサで実現しても良い。ＬＳＩ製造後に、プログラムすることが可能なＦＰＧＡ（ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）や、ＬＳＩ内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサーを利用しても良い。

さらには、半導体技術の進歩又は派生する別技術によりＬＳＩに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積化を行っても良い。バイオ技術の適応等が可能性としてありえる。

本発明の第１の態様は、音声切替装置であって、この装置は出力する音声信号の帯域を切り替えるときに、狭帯域音声信号および広帯域音声信号が混合された混合信号を出力する音声切替装置であって、前記狭帯域音声信号および前記広帯域音声信号の混合比を経時的に変化させながら前記狭帯域音声信号および前記広帯域音声信号を混合して、前記混合信号を得る混合手段と、前記混合比の経時的な変化の度合いを可変設定する設定手段と、を有する構成を採る。

この構成によれば、狭帯域音声信号および広帯域音声信号を混合するときに経時的に変化する混合比の変化の度合いを可変設定するため、受聴者が音声信号に対して違和感や変動感を持つ可能性を低減することができ、音質を向上することができる。

本発明の第２の態様は、上記構成において、前記狭帯域音声信号または前記広帯域音声信号が得られる期間において特定の区間を検出する検出手段を有し、前記設定手段は、前記特定の区間が検出されたときは前記度合いを増加させ、前記特定の区間が検出されないときは前記度合いを低減させる構成を採る。

この構成によれば、混合比の経時変化の度合いを比較的高くする期間を、音声信号が得られる期間の中の特定の区間に限定することができ、混合比の経時変化の度合いを変更するタイミングを制御することができる。

本発明の第３の態様は、上記構成において、前記検出手段は、前記音声信号の帯域の所定レベル以上の急変を許容する区間を前記特定の区間として検出する構成を採る。

本発明の第４の態様は、上記構成において、前記検出手段は、無音区間を前記特定の区間として検出する構成を採る。

本発明の第５の態様は、上記構成において、前記検出手段は、前記狭帯域音声信号のパワーが所定レベル以下である区間を前記特定の区間として検出する構成を採る。

本発明の第６の態様は、上記構成において、前記検出手段は、前記広帯域音声信号のパワーが所定レベル以下である区間を前記特定の区間として検出する構成を採る。

本発明の第７の態様は、上記構成において、前記検出手段は、前記狭帯域音声信号のパワーに対する前記広帯域音声信号のパワーの大きさが所定レベル以下である区間を前記特定の区間として検出する。

本発明の第８の態様は、上記構成において、前記検出手段は、前記狭帯域音声信号のパワーの変動が所定レベル以上である区間を前記特定の区間として検出する構成を採る。

本発明の第９の態様は、上記構成において、前記検出手段は、前記狭帯域音声信号の立ち上がりを前記特定の区間として検出する構成を採る。

本発明の第１０の態様は、上記構成において、前記検出手段は、前記広帯域音声信号のパワーの変動が所定レベル以上である区間を前記特定の区間として検出する構成を採る。

本発明の第１１の態様は、上記構成において、前記検出手段は、前記広帯域音声信号の立ち上がりを検出する構成を採る。

本発明の第１２の態様は、上記構成において、前記検出手段は、前記狭帯域音声信号に含まれる背景雑音信号の種類が変化する区間を前記特定の区間として検出する構成を採る。

本発明の第１３の態様は、上記構成において、前記検出手段は、前記広帯域音声信号に含まれる背景雑音信号の種類が変化する区間を前記特定の区間として検出する構成を採る。

本発明の第１４の態様は、上記構成において、前記検出手段は、前記狭帯域音声信号のスペクトルパラメータの変化が所定レベル以上である区間を前記特定の区間として検出する構成を採る。

本発明の第１５の態様は、上記構成において、前記検出手段は、前記広帯域音声信号のスペクトルパラメータの変化が所定レベル以上である区間を前記特定の区間として検出する構成を採る。

本発明の第１６の態様は、上記構成において、前記検出手段は、前記狭帯域音声信号に対して補間処理が行われた後の区間を前記特定の区間として検出する構成を採る。

本発明の第１７の態様は、上記構成において、前記検出手段は、前記広帯域音声信号に対して補間処理が行われた後の区間を前記特定の区間として検出する構成を採る。

これらの構成によれば、音声信号の帯域変化が知覚されにくい区間においてのみ、混合比を比較的急に変化させることができるとともに、音声信号の帯域変化が知覚されやすい区間においては、混合比を比較的緩やかに変化させることができ、受聴者が音声信号に対して違和感や変動感を持つ可能性を確実に低減することができる。

本発明の第１８の態様は、上記構成において、前記設定手段は、前記狭帯域音声信号の利得を固定する一方、前記広帯域音声信号の利得の経時的な変化の度合いを可変設定する構成を採る。

この構成によれば、両信号の利得の経時変化の度合いを可変設定する場合に比べて容易に混合比可変設定を行うことができる。

本発明の第１９の態様は、上記構成において、前記設定手段は、前記混合信号の出力時間を変更する構成を採る。

この構成によれば、両信号の混合比の経時変化の度合いが変更されたときに、音の大きさの不連続性や帯域感の不連続性が発生するのを防止することができる。

本発明の第２０の態様は、通信端末装置であって、この装置は上記構成の音声切替装置を具備する構成を採る。

本発明の第２１の態様は、音声切替方法であって、この方法は出力する音声信号の帯域を切り替えるときに、狭帯域音声信号および広帯域音声信号が混合された混合信号を出力する音声切替方法であって、前記狭帯域音声信号および前記狭帯域音声信号の混合比の経時的な変化の度合いを変更する変更ステップと、変更された度合いで前記混合比を経時的に変化させながら前記狭帯域音声信号および前記広帯域音声信号を混合して、前記混合信号を得る混合ステップと、を有するようにした。

この方法によれば、狭帯域音声信号および広帯域音声信号を混合するときに経時的に変化する混合比の変化の度合いを可変設定するため、受聴者が音声信号に対して違和感や変動感を持つ可能性を低減することができ、音質を向上することができる。

本明細書は、２００５年１月１４日出願の特願２００５−００８０８４に基づく。この内容はすべてここに含めておく。

本発明の音声切替装置および音声切替方法は、音声信号の帯域の切替に適用することができる。

本発明の音声切替装置は、出力する音声信号の帯域を切り替えるときに、狭帯域音声信号および広帯域音声信号が混合された混合信号を出力する音声切替装置であって、前記狭
帯域音声信号および前記広帯域音声信号の混合比を経時的に変化させながら前記狭帯域音声信号および前記広帯域音声信号を混合して、前記混合信号を得る混合手段と、前記混合比の経時的な変化の度合いを可変設定する設定手段と、を有する構成を採る。

コアレイヤフレーム誤りの検出は、例えば下記の処理をコアレイヤフレーム誤り検出部１０４で実行することにより実現される。例えば、コアレイヤフレーム誤り検出部１０４はコアレイヤ符号化データとは別に誤り情報を受信する。あるいは、コアレイヤフレーム誤り検出部１０４はコアレイヤ符号化データに付加されたＣＲＣ（Cyclic Redundancy Check）などの誤り検査符号を用いて誤り検出を行う。あるいはコアレイヤフレーム誤り検出部１０４は、復号時間までにコアレイヤ符号化データが未着であることを判断する。あ
るいは、パケットロスや未着を検知する。あるいは、コアレイヤ復号化部１０２でのコアレイヤ符号化データの復号過程において、コアレイヤ符号化データ内に含まれる誤り検出符号などにより重大な誤りが検出されたときに、コアレイヤフレーム誤り検出部１０４はその旨の情報をコアレイヤ復号化部１０２から取得する。

コアレイヤ復号化部１０２は、コアレイヤ符号化データを受信して、そのコアレイヤ符号化データを復号する。この復号によって生成されたコアレイヤ復号音声信号は、信号調整部１１２に出力される。コアレイヤ復号音声信号は、狭帯域の信号である。なお、このコアレイヤ復号音声信号は、そのまま最終出力として用いられても良い。またコアレイヤ復号化部１０２は、コアレイヤ符号化データの一部もしくはコアレイヤＬＳＰ（Line Spectrum Pair）を許容区間検出部１１０に出力する。コアレイヤＬＳＰは、コアレイヤ復号の過程で得られたスペクトルパラメータである。ここでは、コアレイヤ復号化部１０２が許容区間検出部１１０にコアレイヤＬＳＰを出力する場合を例にとって説明しているが、コアレイヤ復号の過程で得られる他のスペクトルパラメータ、さらにはコアレイヤ復号の過程で得られるスペクトルパラメータではない他のパラメータを出力するようにしても良い。

拡張レイヤフレーム誤りの検出は、例えば下記の処理を拡張レイヤフレーム誤り検出部１０６で実行することにより実現される。例えば、拡張レイヤフレーム誤り検出部１０６は拡張レイヤ符号化データとは別に誤り情報を受信する。あるいは拡張レイヤフレーム誤り検出部１０６は、拡張レイヤ符号化データに付加されたＣＲＣなどの誤り検査符号を用いて誤り検出を行う。あるいは拡張レイヤフレーム誤り検出部１０６は、復号時間までに拡張レイヤ符号化データが未着であることを判断する。あるいは拡張レイヤフレーム誤り検出部１０６は、パケットロスや未着を検知する。あるいは、拡張レイヤ復号化部１０８での拡張レイヤ符号化データの復号過程において、拡張レイヤ符号化データ内に含まれる誤り検出符号などにより重大な誤りが検出されたときに、拡張レイヤフレーム誤り検出部１０６はその旨の情報を拡張レイヤ復号化部１０８から取得する。あるいは、拡張レイヤの復号にコアレイヤの情報が不可欠であるようなスケーラブル音声符号化方式が採用されている場合は、コアレイヤフレーム誤りが検出されたときに、拡張レイヤフレーム誤り検出部１０６は拡張レイヤフレーム誤りが検出されたと判断する。この場合拡張レイヤフレーム誤り検出部１０６は、コアレイヤフレーム誤り検出部１０４から、コアレイヤフレー
ム誤り検出結果の入力を受ける。

無音判定閾値記憶部５２１は、無音区間の判定に必要な閾値εが記憶されており、閾値εを無音区間判定部５２２に出力する。無音区間判定部５２２は、コアレイヤ復号音声信号パワー算出部５０１から入力されるコアレイヤ復号音声信号パワーＰｃ（ｔ）と閾値εとを比較して、下記の式（２）に従い無音区間判定結果ｄ（ｔ）を得る。許容区間は無音
区間を含めるため、ここでは無音区間判定結果を許容区間検出結果と同じくｄ（ｔ）で表す。無音区間判定部５２２は、無音区間判定結果ｄ（ｔ）を許容区間判定部５０６に出力する。

判定調整係数記憶部５３５は、パワー変動区間を判定するための調整係数γが記憶されており、調整係数γをパワー変動区間判定部５３６に出力する。パワー変動区間判定部５
３６は、この調整係数γ、短期平滑化パワー算出部５３２から入力されるＰｓ（ｔ）、および長期平滑化パワー算出部５３４から入力される長期平滑化パワーＰｌ（ｔ）を用いて、下記の式（５）に従いパワー変動区間判定結果ｄ（ｔ）を得る。許容区間はパワー変動区間を含めるため、ここではパワー変動区間判定結果を許容区間検出結果と同じくｄ（ｔ）で表す。パワー変動区間判定部５３６は、パワー変動区間判定結果ｄ（ｔ）を許容区間判定部５０６に出力する。

ＬＳＰ要素間距離ｄｌｓｐ（ｔ）は、ＬＳＰ要素間距離蓄積部５４２及びＬＳＰ要素間距離変化率算出部５４３に出力される。

拡張レイヤパワー微小区間は、拡張レイヤ復号音声信号のパワーが非常に小さい区間である。拡張レイヤパワー微小区間においては、出力音声信号の帯域を急速に変化させてもその変化は知覚されにくい。したがって、拡張レイヤ復号音声信号の利得（換言すれば、コアレイヤ復号音声信号および拡張レイヤ復号音声信号の混合比）を急速に変化させてもその変化を知覚されにくい。拡張レイヤパワー微小区間は、拡張レイヤ復号音声信号のパワーが所定の閾値以下であることを検出することによって、検出される。あるいは、拡張レイヤパワー微小区間は、コアレイヤ復号音声信号のパワーに対する拡張レイヤ復号音声信号のパワーの比が所定値以下であることを検出することによって、検出される。
このような検出を行う拡張レイヤパワー微小区間検出部５０５は、拡張レイヤ復号音声信号パワー算出部５５１、拡張レイヤパワー比算出部５５２、拡張レイヤパワー微小判定閾値記憶部５５３、拡張レイヤパワー微小区間判定部５５４を有する。

拡張レイヤパワー比算出部５５２は、この拡張レイヤ復号音声信号パワーＰｅ（ｔ）を、コアレイヤ復号音声信号パワー算出部５０１から入力されるコアレイヤ復号信号パワー
Ｐｃ（ｔ）で除算することにより、拡張レイヤパワー比を算出する。拡張レイヤパワー比は拡張レイヤパワー微小区間判定部５５４に出力される。

加算器１２４は、拡張レイヤ復号音声増幅器１２２から入力された拡張レイヤ復号音声信号および信号調整部１１２から入力されたコアレイヤ復号音声信号を加算する。これに
よって、コアレイヤ復号音声信号および拡張レイヤ復号音声信号は混合され、混合信号が生成される。生成された混合信号は、音声復号装置１００の出力音声信号となる。すなわち、拡張レイヤ復号音声増幅器１２２および加算器１２４の組み合わせは、コアレイヤ復号音声信号および拡張レイヤ復号音声信号の混合比を経時的に変化させながらコアレイヤ復号音声信号および拡張レイヤ復号音声信号を混合して、混合信号を得る混合部を構成する。

拡張レイヤ復号音声利得制御器１２０は、拡張レイヤフレーム誤り検出部１０６から入力された拡張レイヤフレーム誤り検出結果ｅ（ｔ）と、許容区間検出部１１０から入力された許容区間検出結果ｄ（ｔ）と、を用いて拡張レイヤ利得ｇ（ｔ）を決定する。拡張レイヤ利得ｇ（ｔ）は、次の式（１０）〜（１２）によって決定される。
ｇ（ｔ）＝１．０，ｇ（ｔ−１）＋ｓ（ｔ）＞１．０の場合 …（１０）
ｇ（ｔ）＝ｇ（ｔ−１）＋ｓ（ｔ）
,０．０≦ｇ（ｔ−１）＋ｓ（ｔ）≦１．０の場合 …（１１）
ｇ（ｔ）＝０．０，ｇ（ｔ−１）＋ｓ（ｔ）＜０．０の場合 …（１２）
なお、ｓ（ｔ）は拡張レイヤ利得の増減値を表す。

また、前述の２つの例では、拡張レイヤ利得の経時変化の度合いが変更されることに伴って、混合信号の出力時間が変更される。このため、混合比の経時変化の度合いが変更されたときに、音の大きさや不連続性や帯域感の不連続性が発生するのを防止することがで
きる。

また、集積回路化の手法はＬＳＩに限るものではなく、専用回路又は汎用プロセッサで実現しても良い。ＬＳＩ製造後に、プログラムすることが可能なＦＰＧＡ（Field Programmable Gate Array）や、ＬＳＩ内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサーを利用しても良い。

この構成によれば、狭帯域音声信号および広帯域音声信号を混合するときに経時的に変
化する混合比の変化の度合いを可変設定するため、受聴者が音声信号に対して違和感や変動感を持つ可能性を低減することができ、音質を向上することができる。

本発明の第１４の態様は、上記構成において、前記検出手段は、前記狭帯域音声信号のスペクトルパラメータの変化が所定レベル以上である区間を前記特定の区間として検出す
る構成を採る。

Claims

出力する音声信号の帯域を切り替えるときに、狭帯域音声信号および広帯域音声信号が混合された混合信号を出力する音声切替装置であって、
前記狭帯域音声信号および前記広帯域音声信号の混合比を経時的に変化させながら前記狭帯域音声信号および前記広帯域音声信号を混合して、前記混合信号を得る混合手段と、
前記混合比の経時的な変化の度合いを可変設定する設定手段と、
を有する音声切替装置。
前記狭帯域音声信号または前記広帯域音声信号が得られる期間において特定の区間を検出する検出手段を有し、
前記設定手段は、
前記特定の区間が検出されたときは前記度合いを増加させ、前記特定の区間が検出されないときは前記度合いを低減させる、
請求項１記載の音声切替装置。
前記検出手段は、
前記音声信号の帯域の所定レベル以上の急変を許容する区間を前記特定の区間として検出する、
請求項２記載の音声切替装置。
前記検出手段は、
無音区間を前記特定の区間として検出する、
請求項２記載の音声切替装置。
前記検出手段は、
前記狭帯域音声信号のパワーが所定レベル以下である区間を前記特定の区間として検出する、
請求項２記載の音声切替装置。
前記検出手段は、
前記広帯域音声信号のパワーが所定レベル以下である区間を前記特定の区間として検出する、
請求項２記載の音声切替装置。
前記検出手段は、
前記狭帯域音声信号のパワーに対する前記広帯域音声信号のパワーの大きさが所定レベル以下である区間を前記特定の区間として検出する、
請求項２記載の音声切替装置。
前記検出手段は、
前記狭帯域音声信号のパワーの変動が所定レベル以上である区間を前記特定の区間として検出する、
請求項２記載の音声切替装置。
前記検出手段は、
前記狭帯域音声信号の立ち上がりを前記特定の区間として検出する、
請求項２記載の音声切替装置。
前記検出手段は、
前記広帯域音声信号のパワーの変動が所定レベル以上である区間を前記特定の区間として検出する、
請求項２記載の音声切替装置。
前記検出手段は、
前記広帯域音声信号の立ち上がりを検出する、
請求項２記載の音声切替装置。
前記検出手段は、
前記狭帯域音声信号に含まれる背景雑音信号の種類が変化する区間を前記特定の区間として検出する、
請求項２記載の音声切替装置。
前記検出手段は、
前記広帯域音声信号に含まれる背景雑音信号の種類が変化する区間を前記特定の区間として検出する、
請求項２記載の音声切替装置。
前記検出手段は、
前記狭帯域音声信号のスペクトルパラメータの変化が所定レベル以上である区間を前記特定の区間として検出する、
請求項２記載の音声切替装置。
前記検出手段は、
前記広帯域音声信号のスペクトルパラメータの変化が所定レベル以上である区間を前記特定の区間として検出する、
請求項２記載の音声切替装置。
前記検出手段は、
前記狭帯域音声信号に対して補間処理が行われた後の区間を前記特定の区間として検出する、
請求項２記載の音声切替装置。
前記検出手段は、
前記広帯域音声信号に対して補間処理が行われた後の区間を前記特定の区間として検出する、
請求項２記載の音声切替装置。
前記設定手段は、
前記狭帯域音声信号の利得を固定する一方、前記広帯域音声信号の利得の経時的な変化の度合いを可変設定する、
請求項１記載の音声切替装置。
前記設定手段は、
前記混合信号の出力時間を変更する、
請求項１記載の音声切替装置。
請求項１記載の音声切替装置を具備する通信端末装置。
出力する音声信号の帯域を切り替えるときに、狭帯域音声信号および広帯域音声信号が混合された混合信号を出力する音声切替方法であって、
前記狭帯域音声信号および前記狭帯域音声信号の混合比の経時的な変化の度合いを変更する変更ステップと、
変更された度合いで前記混合比を経時的に変化させながら前記狭帯域音声信号および前記広帯域音声信号を混合して、前記混合信号を得る混合ステップと、
を有する音声切替方法。