JP5061111B2

JP5061111B2 - 音声符号化装置および音声符号化方法

Info

Publication number: JP5061111B2
Application number: JP2008534412A
Authority: JP
Inventors: 宏幸江原; 利幸森井; 幸司吉田
Original assignee: Panasonic Corp; Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Corp; Panasonic Holdings Corp
Priority date: 2006-09-15
Filing date: 2007-09-14
Publication date: 2012-10-31
Anticipated expiration: 2027-09-14
Also published as: EP2063418A4; JPWO2008032828A1; EP2063418A1; US8239191B2; US20090265167A1; WO2008032828A1

Description

本発明は、ＣＥＬＰ（Code-Excited Linear Prediction）方式の音声符号化装置および音声符号化方法に関し、特に量子化雑音を人間の聴覚特性に合わせて補正し、復号される音声信号の主観品質を高める音声符号化装置および音声符号化方法に関する。

近年、音声符号化においては、量子化雑音を人間の聴覚特性にあわせてシェイピングすることによって、量子化雑音を聞こえ難くすることが一般的に行われている。例えば、ＣＥＬＰ符号化においては、伝達関数が下記の式（１）で表される聴覚重み付けフィルタを用いて量子化雑音をシェイピングする。

式（１）は、下記の式（２）と同様である。

ここで、ａ_ｉは、ＣＥＬＰ符号化の過程において得られる線形予測係数（ＬＰＣ：Lｉnear Prediction Coefficient）の要素を示し、Ｍは、ＬＰＣの次数を示す。γ_１およびγ_２は、ホルマント重み付け係数であって、量子化雑音のホルマントに対する重みを調整するための係数である。ホルマント重み付け係数γ_１およびγ_２の値は、経験的に試聴を通じて決定されるのが一般的である。ただし、ホルマント重み付け係数γ_１とγ₂の最適値は、音声信号自体のスペクトル傾斜などの周波数特性、または音声信号のホルマント構造の有無、ハーモニクス構造の有無などによって変化する。

そこで、入力信号の周波数特性に合わせてホルマント重み付け係数γ_１およびγ_２の値を適応的に変化させる技術（例えば、特許文献１）が提案されている。特許文献１に記載の音声符号化においては、音声信号のスペクトル傾斜に応じて適応的にホルマント重み付け係数γ_２の値を変化させ、マスキングレベルを調整する。すなわち、音声信号のスペクトルの特徴に基づきホルマント重み付け係数γ_２の値を変化させることによって、聴覚重み付けフィルタを制御し、量子化雑音のホルマントに対する重みを適応的に調整することができる。なお、ホルマント重み付け係数γ_１とγ_２とは量子化雑音の傾斜にも影響するので、前記γ_２の制御は、ホルマント重み付けと傾斜補正との双方を合わせて制御している。

また、背景雑音区間と音声区間とで聴覚重み付けフィルタの特性を切り替える技術（例えば、特許文献２）が提案されている。特許文献２に記載の音声符号化においては、入力信号の各区間が、音声区間であるかまたは背景雑音区間（無音区間）であるかによって聴
覚重み付けフィルタの特性を切り替える。音声区間とは、音声信号が支配的な区間であって、背景雑音区間とは、非音声信号が支配的な区間である。特許文献２記載の技術によれば、背景雑音区間と音声区間とを区別して、聴覚重み付けフィルタの特性を切り替えることにより、音声信号の各区間に適応した聴覚重み付けフィルタリングを行うことができる。
特開平７−８６９５２号公報特開２００３−１９５９００号公報

しかしながら、上記の特許文献１に記載の音声符号化においては、入力信号のスペクトルの大まかな特徴に基づきホルマント重み付け係数γ_２の値を変化させるため、スペクトルの微細な変化に応じて量子化雑音のスペクトル傾斜を調整することができない。また、ホルマント重み付け係数γ_２の値を用いて聴覚重み付けフィルタを制御しているため、音声信号のホルマントの強さとスペクトル傾斜とを独立して調整することができない。すなわち、スペクトルの傾斜調整を行いたい場合、スペクトルの傾斜調整に伴いホルマントの強さも調整されるためスペクトルの形が崩れてしまうという問題がある。

また、上記の特許文献２に記載の音声符号化においては、音声区間と無音区間とを区別して適応的に聴覚重み付けフィルタリングを行うことはできるが、背景雑音信号と音声信号とが重畳した雑音音声重畳区間に適した聴覚重み付けフィルタリングを行うことはできないという問題がある。

本発明の目的は、量子化雑音のスペクトル傾斜を適応的に調整しつつ、ホルマント重み付けの強さへの影響を抑えることができ、さらに背景雑音信号と音声信号とが重畳した雑音音声重畳区間に対しても適した聴覚重み付けフィルタリングを行うことができる音声符号化装置および音声符号化方法を提供することである。

本発明の音声符号化装置は、音声信号に対し線形予測分析を行って線形予測係数を生成する線形予測分析手段と、前記線形予測係数を量子化する量子化手段と、前記量子化の雑音のスペクトル傾斜を調整するための傾斜補正係数を含む伝達関数を用いて、入力音声信号に対し聴覚重み付けフィルタリングを行い聴覚重み付け音声信号を生成する聴覚重み付け手段と、前記音声信号の第１周波数帯域の信号対雑音比を用いて、前記傾斜補正係数を制御する傾斜補正係数制御手段と、前記聴覚重み付け音声信号を用いて適応符号帳および固定符号帳の音源探索を行い音源信号を生成する音源探索手段と、を具備する構成を採る。

本発明の音声符号化方法は、音声信号に対し線形予測分析を行って線形予測係数を生成するステップと、前記線形予測係数を量子化するステップと、前記量子化の雑音のスペクトル傾斜を調整するための傾斜補正係数を含む伝達関数を用いて、入力音声信号に対し聴覚重み付けフィルタリングを行い聴覚重み付け音声信号を生成するステップと、前記音声信号の第１周波数帯域の信号対雑音比を用いて、前記傾斜補正係数を制御するステップと、前記聴覚重み付け音声信号を用いて適応符号帳および固定符号帳の音源探索を行い音源信号を生成するステップと、を有するようにした。

本発明によれば、量子化雑音のスペクトル傾斜を適応的に調整しつつ、ホルマント重み付けの強さへの影響を抑えることができ、さらに背景雑音信号と音声信号とが重畳した雑音音声重畳区間に対しても適した聴覚重み付けフィルタリングを行うことができる。

以下、本発明の実施の形態について、添付図面を参照して詳細に説明する。

（実施の形態１）
図１は、本発明の実施の形態１に係る音声符号化装置１００の主要な構成を示すブロック図である。

図１において、音声符号化装置１００は、ＬＰＣ分析部１０１、ＬＰＣ量子化部１０２、傾斜補正係数制御部１０３、ＬＰＣ合成フィルタ１０４−１，１０４−２、聴覚重み付けフィルタ１０５−１，１０５−２，１０５−３、加算器１０６、音源探索部１０７、メモリ更新部１０８、および多重化部１０９を備える。ここで、ＬＰＣ合成フィルタ１０４−１と聴覚重み付けフィルタ１０５−２とは零入力応答生成部１５０を構成し、ＬＰＣ合成フィルタ１０４−２と聴覚重み付けフィルタ１０５−３とはインパルス応答生成部１６０を構成する。

ＬＰＣ分析部１０１は、入力音声信号に対して線形予測分析を行い、得られる線形予測係数をＬＰＣ量子化部１０２および聴覚重み付けフィルタ１０５−１〜１０５−３に出力する。ここでは、ＬＰＣをａ_ｉ（ｉ＝１，２，…，Ｍ）で示し、ＭはＬＰＣの次数であって、Ｍ＞１の整数である。

ＬＰＣ量子化部１０２は、ＬＰＣ分析部１０１から入力される線形予測係数ａ_ｉを量子化し、得られる量子化線形予測係数ａ^＾ _ｉをＬＰＣ合成フィルタ１０４−１〜１０４−２、メモリ更新部１０８に出力すると共に、ＬＰＣ符号化パラメータＣ_Ｌを多重化部１０９に出力する。

傾斜補正係数制御部１０３は、入力音声信号を用いて、量子化雑音のスペクトル傾斜を調整するための傾斜補正係数γ_３を算出し、聴覚重み付けフィルタ１０５−１〜１０５−３に出力する。傾斜補正係数制御部１０３の詳細については後述する。

ＬＰＣ合成フィルタ１０４−１は、ＬＰＣ量子化部１０２から入力される量子化線形予測係数ａ^{^} _ｉを含む下記の式（３）に示す伝達関数を用いて、入力される零ベクトルに対し合成フィルタリングを行う。

また、ＬＰＣ合成フィルタ１０４−１は、後述のメモリ更新部１０８からフィードバックされるＬＰＣ合成信号をフィルタ状態として用い、合成フィルタリングにより得られる零入力応答信号を聴覚重み付けフィルタ１０５−２に出力する。

ＬＰＣ合成フィルタ１０４−２は、ＬＰＣ合成フィルタ１０４−１の伝達関数と同様な伝達関数、すなわち、式（３）に示す伝達関数を用いて、入力されるインパルスベクトルに対し合成フィルタリングを行い、得られるインパルス応答信号を聴覚重み付けフィルタ１０５−３に出力する。ＬＰＣ合成フィルタ１０４−２のフィルタ状態は零状態である。

聴覚重み付けフィルタ１０５−１は、ＬＰＣ分析部１０１から入力される線形予測係数ａ_ｉと傾斜補正係数制御部１０３から入力される傾斜補正係数γ_３とを含む下記の式（４）に示す伝達関数を用いて、入力音声信号に対し聴覚重み付けフィルタリングを行う。

式（４）において、γ_１およびγ_２はホルマント重み付け係数である。聴覚重み付けフィルタ１０５−１は、聴覚重み付けフィルタリングにより得られる聴覚重み付け音声信号を加算器１０６に出力する。本聴覚重み付けフィルタの状態は、本聴覚重み付けフィルタの処理過程で更新される。すなわち、本聴覚重み付けフィルタへの入力信号と、本聴覚重み付けフィルタからの出力信号である聴覚重み付け音声信号とを用いて更新される。

聴覚重み付けフィルタ１０５−２は、聴覚重み付けフィルタ１０５−１の伝達関数と同様な伝達関数、すなわち、式（４）に示す伝達関数を用いて、ＬＰＣ合成フィルタ１０４−１から入力される零入力応答信号に対し聴覚重み付けフィルタリングを行い、得られる聴覚重み付け零入力応答信号を加算器１０６に出力する。聴覚重み付けフィルタ１０５−２は、メモリ更新部１０８からフィードバックされる聴覚重み付けフィルタ状態をフィルタ状態として用いる。

聴覚重み付けフィルタ１０５−３は、聴覚重み付けフィルタ１０５−１および聴覚重み付けフィルタ１０５−２の伝達関数と同様な伝達関数、すなわち、式（４）に示す伝達関数を用いて、ＬＰＣ合成フィルタ１０４−２から入力されるインパルス応答信号に対しフィルタリングを行い、得られる聴覚重み付けインパルス応答信号を音源探索部１０７に出力する。聴覚重み付けフィルタ１０５−３の状態は零状態である。

加算器１０６は、聴覚重み付けフィルタ１０５−１から入力される聴覚重み付け音声信号から、聴覚重み付けフィルタ１０５−２から入力される聴覚重み付け零入力応答信号を減算し、得られる信号をターゲット信号として音源探索部１０７に出力する。

音源探索部１０７は、固定符号帳、適応符号帳、および利得量子化器などを備え、加算器１０６から入力されるターゲット信号と、聴覚重み付けフィルタ１０５−３から入力される聴覚重み付けインパルス応答信号とを用いて音源探索を行い、得られる音源信号をメモリ更新部１０８に出力し、音源符号化パラメータＣ_Ｅを多重化部１０９に出力する。

メモリ更新部１０８は、ＬＰＣ合成フィルタ１０４−１と同様なＬＰＣ合成フィルタ、および聴覚重み付けフィルタ１０５−２と同様な聴覚重み付けフィルタを内蔵している。メモリ更新部１０８は、音源探索部１０７から入力される音源信号を用いて内蔵のＬＰＣ合成フィルタを駆動し、得られるＬＰＣ合成信号をフィルタ状態としてＬＰＣ合成フィルタ１０４−１にフィードバックする。また、メモリ更新部１０８は、内蔵のＬＰＣ合成フィルタで生成されるＬＰＣ合成信号を用いて内蔵の聴覚重み付けフィルタを駆動し、得られる聴覚重み付け合成フィルタのフィルタ状態を聴覚重み付けフィルタ１０５−２にフィードバックする。具体的には、メモリ更新部１０８の内蔵の聴覚重み付けフィルタは、上記の式（４）の第１項で示される傾斜補正フィルタ、上記の式（４）の第２項の分子で示される重み付けＬＰＣ逆フィルタ、上記の式（４）の第２項の分母で示される重み付けＬＰＣ合成フィルタの３つのフィルタの縦続接続になっており、この３つのフィルタ各々の状態を聴覚重み付けフィルタ１０５−２にフィードバックする。すなわち、聴覚重み付けフィルタ１０５−２を構成する傾斜補正フィルタの状態として、メモリ更新部１０８の内蔵の聴覚重み付けフィルタの傾斜補正フィルタの出力信号が用いられ、聴覚重み付けフィルタ１０５−２の重み付けＬＰＣ逆フィルタのフィルタ状態としてメモリ更新部１０８の内蔵の聴覚重み付けフィルタの重み付けＬＰＣ逆フィルタの入力信号が用いられ、聴覚重み付けフィルタ１０５−２の重み付けＬＰＣ合成フィルタのフィルタ状態としてメモリ更新部１０８の内蔵の聴覚重み付けフィルタの重み付けＬＰＣ合成フィルタの出力信号が用いられる。

多重化部１０９は、ＬＰＣ量子化部１０２から入力される量子化ＬＰＣ（ａ^＾ _ｉ）の符
号化パラメータＣ_Ｌと、音源探索部１０７から入力される音源符号化パラメータＣ_Ｅとを多重し、得られるビットストリームを復号側に送信する。

図２は、傾斜補正係数制御部１０３の内部の構成を示すブロック図である。

図２において、傾斜補正係数制御部１０３は、ＨＰＦ１３１、高域エネルギレベル算出部１３２、ＬＰＦ１３３、低域エネルギレベル算出部１３４、雑音区間検出部１３５、高域雑音レベル更新部１３６、低域雑音レベル更新部１３７、加算器１３８、加算器１３９、加算器１４０、傾斜補正係数算出部１４１、加算器１４２、閾値算出部１４３、制限部１４４、および平滑化部１４５を備える。

ＨＰＦ１３１は、高域通過フィルタ（ＨＰＦ：High Pass Filter）であり、入力音声信号の周波数領域の高域成分を抽出し、得られる音声信号高域成分を高域エネルギレベル算出部１３２に出力する。

高域エネルギレベル算出部１３２は、フレーム単位でＨＰＦ１３１から入力される音声信号高域成分のエネルギレベルを、下記の式（５）に従って算出し、得られる音声信号高域成分エネルギレベルを高域雑音レベル更新部１３６および加算器１３８に出力する。
Ｅ_Ｈ＝１０ｌｏｇ_１０（｜Ａ_Ｈ｜^２） …（５）

式（５）において、Ａ_Ｈは、ＨＰＦ１３１から入力される音声信号高域成分ベクトル（ベクトル長＝フレーム長）を示す。すなわち、｜Ａ_Ｈ｜^２は音声信号高域成分のフレームエネルギである。Ｅ_Ｈは｜Ａ_Ｈ｜^２をデシベル表現にしたもので、音声信号高域成分エネルギレベルである。

ＬＰＦ１３３は、低域通過フィルタ（ＬＰＦ：Low Pass Filter）であり、入力音声信号の周波数領域の低域成分を抽出し、得られる音声信号低域成分を低域エネルギレベル算出部１３４に出力する。

低域エネルギレベル算出部１３４は、フレーム単位でＬＰＦ１３３から入力される音声信号低域成分のエネルギレベルを、下記の式（６）に従って算出し、得られる音声信号低域成分エネルギレベルを低域雑音レベル更新部１３７および加算器１３９に出力する。
Ｅ_Ｌ＝１０ｌｏｇ_１０（｜Ａ_Ｌ｜^２） …（６）

式（６）において、Ａ_Ｌは、ＬＰＦ１３３から入力される音声信号低域成分ベクトル（ベクトル長＝フレーム長）を示す。すなわち、｜Ａ_Ｌ｜^２は音声信号低域成分のフレームエネルギである。Ｅ_Ｌは｜Ａ_Ｌ｜^２をデシベル表現にしたもので、音声信号低域成分エネルギレベルである。

雑音区間検出部１３５は、フレーム単位で入力される音声信号が背景雑音のみの区間であるか否かを検出し、入力されるフレームが背景雑音のみの区間である場合、背景雑音区間検出情報を高域雑音レベル更新部１３６および低域雑音レベル更新部１３７に出力する。ここで、背景雑音のみの区間とは、会話の主たる音声信号が存在せず、周囲雑音のみが存在する区間のことである。なお、雑音区間検出部１３５の詳細については後述する。

高域雑音レベル更新部１３６は、背景雑音高域成分の平均エネルギレベルを保持しており、雑音区間検出部１３５から背景雑音区間検出情報が入力される場合、高域エネルギレベル算出部１３２から入力される音声信号高域成分エネルギレベルを用いて、保持している背景雑音高域成分の平均エネルギレベルを更新する。高域雑音レベル更新部１３６における、背景雑音高域成分の平均エネルギレベルを更新する方法としては、例えば、下記の
式（７）に従って行う。
Ｅ_ＮＨ＝αＥ_ＮＨ＋（１−α）Ｅ_Ｈ …（７）

式（７）において、Ｅ_Ｈは高域エネルギレベル算出部１３２から入力される音声信号高域成分エネルギレベルを示す。雑音区間検出部１３５から高域雑音レベル更新部１３６に背景雑音区間検出情報が入力される場合は、入力音声信号が背景雑音のみの区間であることを意味し、高域エネルギレベル算出部１３２から高域雑音レベル更新部１３６に入力される音声信号高域成分エネルギレベル、すなわち、この式に示すＥ_Ｈは、背景雑音高域成分のエネルギレベルとなる。Ｅ_ＮＨは高域雑音レベル更新部１３６が保持している背景雑音高域成分の平均エネルギレベルを示し、αは長期平滑化係数であって、０≦α＜１である。高域雑音レベル更新部１３６は、保持している背景雑音高域成分の平均エネルギレベルを加算器１３８および加算器１４２に出力する。

低域雑音レベル更新部１３７は、背景雑音低域成分の平均エネルギレベルを保持しており、雑音区間検出部１３５から背景雑音区間検出情報が入力される場合、低域エネルギレベル算出部１３４から入力される音声信号低域成分エネルギレベルを用いて、保持している背景雑音低域成分の平均エネルギレベルを更新する。更新の方法としては、例えば、下記の式（８）に従い行う。
Ｅ_ＮＬ＝αＥ_ＮＬ＋（１−α）Ｅ_Ｌ …（８）

式（８）において、Ｅ_Ｌは低域エネルギレベル算出部１３４から入力される音声信号低域成分エネルギレベルを示す。雑音区間検出部１３５から低域雑音レベル更新部１３７に背景雑音区間検出情報が入力される場合は、入力音声信号が背景雑音のみの区間であることを意味し、低域エネルギレベル算出部１３４から低域雑音レベル更新部１３７に入力される音声信号低域成分エネルギレベル、すなわち、この式に示すＥ_Ｌは、背景雑音低域成分のエネルギレベルとなる。Ｅ_ＮＬは低域雑音レベル更新部１３７が保持している背景雑音低域成分の平均エネルギレベルを示し、αは長期平滑化係数であって、０≦α＜１である。低域雑音レベル更新部１３７は、保持している背景雑音低域成分の平均エネルギレベルを加算器１３９および加算器１４２に出力する。

加算器１３８は、高域エネルギレベル算出部１３２から入力される音声信号高域成分エネルギレベルから、高域雑音レベル更新部１３６から入力される背景雑音高域成分の平均エネルギレベルを減算して、得られる減算結果を加算器１４０に出力する。加算器１３８で得られる減算結果は、エネルギを対数で表した２つのエネルギレベルの差、すなわち、音声信号高域成分エネルギレベルおよび背景雑音高域成分の平均エネルギレベルの差であるため、この２つのエネルギの比、すなわち、音声信号高域成分エネルギと背景雑音高域成分平均エネルギとの比である。言い換えれば、加算器１３８で得られる減算結果は、音声信号の高域ＳＮＲ（Signal-to-Noise Rate：信号対雑音比）である。

加算器１３９は、低域エネルギレベル算出部１３４から入力される音声信号低域成分エネルギレベルから、低域雑音レベル更新部１３７から入力される背景雑音低域成分の平均エネルギレベルを減算して、得られる減算結果を加算器１４０に出力する。加算器１３９で得られる減算結果は、対数で表した２つのエネルギのレベルの差、すなわち、音声信号低域成分エネルギレベルおよび背景雑音低域成分の平均エネルギレベルの差であるため、この２つのエネルギの比、すなわち、音声信号低域成分エネルギと背景雑音信号の低域成分の長期的な平均エネルギとの比である。言い換えれば、加算器１３９で得られる減算結果は、音声信号の低域ＳＮＲである。

加算器１４０は、加算器１３８から入力される高域ＳＮＲと、加算器１３９から入力される低域ＳＮＲとに対して減算処理を行い、得られる高域ＳＮＲと低域ＳＮＲとの差を傾
斜補正係数算出部１４１に出力する。

傾斜補正係数算出部１４１は、加算器１４０から入力される高域ＳＮＲと低域ＳＮＲとの差を用いて、例えば、下記の式（９）に従って平滑化前の傾斜補正係数γ_３’を求め、制限部１４４に出力する。
γ_３’＝β（低域ＳＮＲ−高域ＳＮＲ）＋Ｃ …（９）

式（９）において、γ_３’は平滑化前の傾斜補正係数を示し、βは所定の係数を示し、Ｃはバイアス成分を示す。傾斜補正係数算出部１４１は、式（９）に示すように、低域ＳＮＲと高域ＳＮＲとの差が大きいほどγ_３’も大きくなるような関数を用いて平滑化前の傾斜補正係数γ_３’を求める。聴覚重み付けフィルタ１０５−１〜１０５−３において平滑化前の傾斜補正係数γ_３’を用いて量子化雑音のシェイピングを行う場合、高域ＳＮＲよりも低域ＳＮＲがより高いほど、入力音声信号の低域成分の誤差に対する重み付けが大きくなり、相対的に高域成分の誤差に対する重み付けが小さくなるため、量子化雑音の高域成分がより高くシェイピングされる。一方、低域ＳＮＲよりも高域ＳＮＲがより高いほど、入力音声信号の高域成分の誤差に対する重み付けが大きくなり、相対的に低域成分の誤差に対する重み付けが小さくなるため、量子化雑音の低域成分がより高くシェイピングされる。

加算器１４２は、高域雑音レベル更新部１３６から入力される背景雑音高域成分の平均エネルギレベルと、低域雑音レベル更新部１３７から入力される背景雑音低域成分の平均エネルギレベルとを加算し、得られる加算結果である背景雑音平均エネルギレベルを閾値算出部１４３に出力する。

閾値算出部１４３は、加算器１４２から入力される背景雑音平均エネルギレベルを用いて平滑化前の傾斜補正係数γ_３の上限値および下限値を算出し、制限部１４４に出力する。具体的には、加算器１４２から入力される背景雑音平均エネルギレベルが低いほど定数Ｌに近づくような関数、例えば（下限値＝σ×背景雑音平均エネルギレベル＋Ｌ、σは定数）のような関数を用いて平滑化前の傾斜補正係数の下限値を算出する。ただし、下限値が小さくなり過ぎないように、下限値がある固定値を下回らないようにすることも必要である。この固定値を最下限値と称す。一方、平滑化前の傾斜補正係数の上限値は、経験的に決定した定数に固定する。下限値の計算式や上限値の固定値は、ＨＰＦとＬＰＦの仕様や入力音声信号の帯域幅などによって適切な計算式または値が異なる。例えば、下限値については前述の式において、狭帯域信号の符号化ではσ＝0.003、Ｌ＝0に、広帯域信号の場合はσ＝0.001、Ｌ＝0.6のような値にして求めると良い。また、上限値については、狭帯域信号の符号化では0.6程度、広帯域信号の符号化では0.9程度に設定すると良い。またさらに、最下限値は、狭帯域信号の符号化では-0.5程度、広帯域信号の符号化では0.4程度にすると良い。平滑化前の傾斜補正係数γ_３’の下限値を背景雑音平均エネルギレベルを用いて設定する必要性について説明する。前述したように、γ_３’が小さくなるほど低域成分に対する重み付けが弱くなり、低域の量子化雑音を高くシェイピングすることになる。ところが、一般に音声信号は低域にエネルギが集中するため、ほとんどの場合低域の量子化雑音は低めにシェイピングするのが適切となる。したがって、低域の量子化雑音を高くシェイピングすることについては注意が必要である。例えば、背景雑音平均エネルギレベルが非常に低い場合は、加算器１３８および加算器１３９で算出された高域ＳＮＲおよび低域ＳＮＲは、雑音区間検出部１３５での雑音区間の検出精度や局所的な雑音の影響を受けやすくなり、傾斜補正係数算出部１４１で算出された平滑化前の傾斜補正係数γ_３’の信頼度が低下する可能性がある。このような場合、誤って過度に低域の量子化雑音を高くシェイピングしてしまい、低域の量子化雑音を大きくしすぎる可能性があるので、そのようなことを回避する仕組みが必要である。本実施の形態では、背景雑音平均エネルギレベルが低くなるほどγ_３’の下限値が高めに設定されるような関数を用いてγ_３’の下
限値を決定することで、背景雑音平均エネルギレベルが低い場合に量子化雑音の低域成分を高くシェイピングしすぎないようにしている。

制限部１４４は、傾斜補正係数算出部１４１から入力される平滑化前の傾斜補正係数γ_３’を、閾値算出部１４３から入力される上限値と下限値とにより決まる範囲内に収まるように調整し、平滑化部１４５に出力する。すなわち、平滑化前の傾斜補正係数γ_３’が上限値を超える場合は、平滑化前の傾斜補正係数γ_３’を上限値に設定し、平滑化前の傾斜補正係数γ_３’が下限値を下回る場合は、平滑化前の傾斜補正係数γ_３’を下限値に設定する。

平滑化部１４５は、制限部１４４から入力される平滑化前の傾斜補正係数γ_３’に対して下記の式（１０）に従いフレーム単位で平滑化を行い、得られる傾斜補正係数γ_３を聴覚重み付けフィルタ１０５−１〜１０５−３に出力する。
γ_３＝βγ_３＋（１−β）γ_３’ …（１０）

式（１０）において、βは平滑化係数であって、０≦β＜１である。

図３は、雑音区間検出部１３５の内部の構成を示すブロック図である。

雑音区間検出部１３５は、ＬＰＣ分析部１５１、エネルギ算出部１５２、無音判定部１５３、ピッチ分析部１５４、および雑音判定部１５５を備える。

ＬＰＣ分析部１５１は、入力音声信号に対して線形予測分析を行い、線形予測分析の過程で得られる線形予測残差の２乗平均値を雑音判定部１５５に出力する。例えば、線形予測分析としてレビンソン・ダービンのアルゴリズムを用いる場合、線形予測分析の副産物として線形予測残差の２乗平均値そのものが得られる。

エネルギ算出部１５２は、フレーム単位で入力音声信号のエネルギを算出し、音声信号エネルギとして無音判定部１５３に出力する。

無音判定部１５３は、エネルギ算出部１５２から入力される音声信号エネルギを所定の閾値と比較し、音声信号エネルギが所定の閾値未満である場合には、音声信号が無音であると判定し、音声信号エネルギが所定の閾値以上である場合には、符号化対象フレームの音声信号が有音であると判定し、無音判定結果を雑音判定部１５５に出力する。

ピッチ分析部１５４は、入力音声信号に対してピッチ分析を行い、得られるピッチ予測利得を雑音判定部１５５に出力する。例えば、ピッチ分析部１５４において行われるピッチ予測の次数が１次である場合、ピッチ予測分析は、Σ｜ｘ（ｎ）−ｇｐ×ｘ（ｎ−Ｔ）｜^２，ｎ＝０，…，Ｌ−１を最小とするＴとｇｐを求めることである。ここで、Ｌはフレーム長を示し、Ｔはピッチラグを示し、ｇｐはピッチゲインを示し、ｇｐ＝Σｘ（ｎ）×ｘ（ｎ−Ｔ）／Σｘ（ｎ−Ｔ）×ｘ（ｎ−Ｔ），ｎ＝０，…，Ｌ−１である。また、ピッチ予測利得は（入力信号の２乗平均値）／（ピッチ予測残差の２乗平均値）で表され、これは、１／（１−（｜Σｘ（ｎ−Ｔ）ｘ（ｎ）｜^２／Σｘ（ｎ）ｘ（ｎ）×Σｘ（ｎ−Ｔ）ｘ（ｎ−Ｔ）））で表される。したがって、ピッチ分析部１５４は、｜Σｘ（ｎ−Ｔ）ｘ（ｎ）｜＾２／（Σｘ（ｎ）ｘ（ｎ）×Σｘ（ｎ−Ｔ）ｘ（ｎ−Ｔ））を、ピッチ予測利得を表すパラメータとして用いる。

雑音判定部１５５は、ＬＰＣ分析部１５１から入力される線形予測残差の２乗平均値、無音判定部１５３から入力される無音判定結果、およびピッチ分析部１５４から入力されるよりピッチ予測利得を用いて、フレーム単位で入力音声信号が雑音区間であるかまたは
音声区間であるかを判定し、判定の結果を雑音区間検出結果として高域雑音レベル更新部１３６および低域雑音レベル更新部１３７に出力する。具体的には、雑音判定部１５５は、線形予測残差の２乗平均値が所定の閾値未満であってかつピッチ予測利得が所定の閾値未満である場合、または無音判定部１５３から入力される無音判定結果が無音区間を示す場合には、入力音声信号が雑音区間であると判定し、他の場合には入力音声信号が音声区間であると判定する。

図４は、本実施の形態に係る音声符号化装置１００を用いて、背景雑音よりも音声が支配的である音声区間の音声信号に対し、量子化雑音のシェイピングを行う場合に得られる効果を示す図である。

図４において、実線のグラフ３０１は、背景雑音よりも音声が支配的である音声区間における音声信号のスペクトルの一例を示す。ここでは、音声信号として、女性が発音した「コーヒー」の「ヒー」という音声の信号を例にとる。破線のグラフ３０２は、仮に音声符号化装置１００が傾斜補正係数制御部１０３を備えず量子化雑音のシェイピングを行う場合、得られる量子化雑音のスペクトルを示す。一点破線のグラフ３０３は、本実施の形態に係る音声符号化装置１００を用いて量子化雑音のシェイピングを行う場合、得られる量子化雑音のスペクトルを示す。

実線のグラフ３０１で示す音声信号において、低域ＳＮＲと高域ＳＮＲとの差は、低域成分エネルギと高域成分エネルギとの差にほぼ対応しており、高域成分エネルギよりも低域成分エネルギが高いため、高域ＳＮＲよりも低域ＳＮＲが高い。図４に示すように、傾斜補正係数制御部１０３を備える音声符号化装置１００は、音声信号の高域ＳＮＲよりも低域ＳＮＲがより高いほど、量子化雑音の高域成分をより高くシェイピングする。すなわち、破線のグラフ３０２および一点破線のグラフ３０３が示すように、傾斜補正係数制御部１０３を備えない音声符号化装置を用いる場合よりも、本実施の形態に係る音声符号化装置１００を用いて、音声区間の音声信号に対し量子化雑音のシェイピングを行う場合、量子化雑音スペクトルの低域部分が抑えられる。

図５は、本実施の形態に係る音声符号化装置１００を用いて、背景雑音、例えばカーノイズと音声とが重畳する雑音音声重畳区間の音声信号に対し、量子化雑音のシェイピングを行う場合に得られる効果を示す図である。

図５において、実線のグラフ４０１は、背景雑音と音声とが重畳する雑音音声重畳区間における音声信号のスペクトルの一例を示す。ここでは、音声信号として、女性が発音した「コーヒー」の「ヒー」という音声の信号を例にとる。破線のグラフ４０２は、仮に音声符号化装置１００が傾斜補正係数制御部１０３を備えず量子化雑音のシェイピングを行う場合、得られる量子化雑音のスペクトルを示す。一点破線のグラフ４０３は、本実施の形態に係る音声符号化装置１００を用いて量子化雑音のシェイピングを行う場合、得られる量子化雑音のスペクトルを示す。

実線のグラフ４０１で示す音声信号においては、低域ＳＮＲよりも高域ＳＮＲがより高い。図５に示すように、傾斜補正係数制御部１０３を備える音声符号化装置１００は、音声信号の低域ＳＮＲよりも高域ＳＮＲがより高いほど、量子化雑音の低域成分をより高くシェイピングする。すなわち、破線のグラフ４０２および一点破線のグラフ４０３が示すように、傾斜補正係数制御部１０３を備えない音声符号化装置を用いる場合よりも、本実施の形態に係る音声符号化装置１００を用いて、雑音音声重畳区間の音声信号に対し量子化雑音のシェイピングを行う場合、量子化雑音スペクトルの高域部分が抑えられる。

このように、本実施の形態によれば、傾斜補正係数γ_３からなる合成フィルタを用いて
、量子化雑音のスペクトル傾斜の調整機能をさらに補正するため、ホルマント重み付けを変えずに量子化雑音のスペクトル傾斜を調整することができる。

また、本実施の形態によれば、音声信号の低域ＳＮＲと高域ＳＮＲとの差の関数を用いて傾斜補正係数γ_３を算出し、音声信号の背景雑音のエネルギを用いて傾斜補正係数γ_３の閾値を制御するため、背景雑音と音声とが重畳する雑音音声重畳区間の音声信号にも適した聴覚重み付けフィルタリングを行うことができる。

なお、本実施の形態では傾斜補正フィルタとして１／（１−γ_３ｚ^−１）で表されるフィルタを用いる場合を例にとって説明したが、他の傾斜補正フィルタを用いても良い。例えば、１＋γ_３ｚ^−１で表されるフィルタを用いても良い。さらに、γ_３の数値は適応的に変化されて用いられても良い。

また、本実施の形態では、平滑化前の傾斜補正係数γ_３’の下限値として背景雑音平均エネルギレベルの関数で表される値を用い、平滑化前の傾斜補正係数の上限値としてあらかじめ定められた固定値を用いる場合を例にとって説明したが、これらの上限値および下限値は双方とも実験データまたは経験データに基づいてあらかじめ定められた固定値を用いても良い。

（実施の形態２）
図６は、本発明の実施の形態２に係る音声符号化装置２００の主要な構成を示すブロック図である。

図６において、音声符号化装置２００は、実施の形態１に示した音声符号化装置１００（図１参照）と同様なＬＰＣ分析部１０１、ＬＰＣ量子化部１０２、傾斜補正係数制御部１０３、および多重化部１０９を備え、これらに関する説明は省略する。音声符号化装置２００は、また、ａ_i'算出部２０１、ａ_i''算出部２０２、ａ_i'''算出部２０３、逆フィルタ２０４、合成フィルタ２０５、聴覚重み付けフィルタ２０６、合成フィルタ２０７、合成フィルタ２０８、音源探索部２０９、およびメモリ更新部２１０を備える。ここで、合成フィルタ２０７および合成フィルタ２０８はインパルス応答生成部２６０を構成する。

ａ_i'算出部２０１は、ＬＰＣ分析部１０１から入力される線形予測係数ａ_ｉを用いて、下記の式（１１）に従い重み付け線形予測係数ａ_i'を算出し、聴覚重み付けフィルタ２０６および合成フィルタ２０７に出力する。

式（１１）において、γ_１は第１のホルマント重み付け係数を示す。重み付け線形予測係数ａ_i'は、後述の聴覚重み付けフィルタ２０６の聴覚重み付けフィルタリングに用いられる係数である。

ａ_i''算出部２０２は、ＬＰＣ分析部１０１から入力される線形予測係数ａ_ｉを用いて、下記の式（１２）に従い重み付け線形予測係数ａ_i''を算出し、ａ_i'''算出部２０３に出力する。重み付け線形予測係数ａ_i''は、図１における聴覚重み付けフィルタ１０５において用いられる係数であるが、ここでは傾斜補正係数γ_３を含む重み付け線形予測係数ａ_i'''の算出にのみ用いられる。

式（１２）において、γ_２は第２のホルマント重み付け係数を示す。

ａ_i'''算出部２０３は、傾斜補正係数制御部１０３から入力される傾斜補正係数γ_３およびａ_i''算出部２０２から入力されるａ_i''を用いて、下記の式（１３）に従いａ_i'''を算出し、聴覚重み付けフィルタ２０６および合成フィルタ２０８に出力する。

式（１３）において、γ_３は傾斜補正係数を示す。重み付け線形予測係数ａ_i'''は、聴覚重み付けフィルタ２０６の聴覚重み付けフィルタリングに用いられる、傾斜補正係数γ_３を含む重み付け線形予測係数である。

逆フィルタ２０４は、ＬＰＣ量子化部１０２から入力される量子化線形予測係数ａ^{^} _ｉからなる下記の式（１４）に示す伝達関数を用いて、入力音声信号に対し逆フィルタリングを行う。

逆フィルタ２０４の逆フィルタリングにより得られる信号は、量子化された線形予測係数ａ^{^} _ｉを用いて算出される線形予測残差信号である。逆フィルタ２０４は、得られる残差信号を合成フィルタ２０５に出力する。

合成フィルタ２０５は、ＬＰＣ量子化部１０２から入力される量子化線形予測係数ａ^{^} _ｉからなる下記の式（１５）に示す伝達関数を用いて、逆フィルタ２０４から入力される残差信号に対し合成フィルタリングを行う。

また、合成フィルタ２０５は、後述のメモリ更新部２１０からフィードバックされる第１の誤差信号をフィルタ状態として用いる。合成フィルタ２０５の合成フィルタリングにより得られる信号は、零入力応答信号が除去された合成信号と等価である。合成フィルタ２０５は、得られる合成信号を聴覚重み付けフィルタ２０６に出力する。

聴覚重み付けフィルタ２０６は、下記の式（１６）に示す伝達関数を有する逆フィルタと、下記の式（１７）に示す伝達関数を有する合成フィルタとからなり、極零型フィルタ
である。すなわち、聴覚重み付けフィルタ２０６の伝達関数は下記の式（１８）で示される。

式（１６）において、ａ_ｉ'は、ａ_ｉ'算出部２０１から入力される重み付け線形予測係数を示し、式（１７）において、ａ_ｉ'''は、ａ_ｉ'''算出部２０３から入力される傾斜補正係数γ_３を含む重み付け線形予測係数を示す。聴覚重み付けフィルタ２０６は、合成フィルタ２０５から入力される合成信号に対して聴覚重み付けフィルタリングを行い、得られるターゲット信号を音源探索部２０９およびメモリ更新部２１０に出力する。また、聴覚重み付けフィルタ２０６は、メモリ更新部２１０からフィードバックされる第２の誤差信号をフィルタ状態として用いる。

合成フィルタ２０７は、合成フィルタ２０５と同様の伝達関数、すなわち、上記の式（１５）に示す伝達関数を用いて、ａ_i'算出部２０１から入力される重み付け線形予測係数ａ_i'に対し合成フィルタリングを行い、得られる合成信号を合成フィルタ２０８に出力する。上述したように、式（１５）に示す伝達関数はＬＰＣ量子化部１０２から入力される量子化線形予測係数ａ^{^} _ｉから構成される。

合成フィルタ２０８は、ａ_i'''算出部２０３から入力される重み付け線形予測係数ａ_i'''からなる上記の式（１７）に示す伝達関数を用いて、合成フィルタ２０７から入力される合成信号に対しさらに合成フィルタリング、すなわち、聴覚重み付けフィルタリングの極フィルタ部分のフィルタリングを行う。合成フィルタ２０８の合成フィルタリングにより得られる信号は、聴覚重み付けインパルス応答信号と等価である。合成フィルタ２０８は得られる聴覚重み付けインパルス応答信号を音源探索部２０９に出力する。

音源探索部２０９は、固定符号帳、適応符号帳、および利得量子化器などを備え、聴覚重み付けフィルタ２０６からターゲット信号を入力され、合成フィルタ２０８から聴覚重み付けインパルス応答信号を入力される。音源探索部２０９は、ターゲット信号と、探索される音源信号に聴覚重み付けインパルス応答信号を畳み込んで得られる信号との誤差が最小となる音源信号を探索する。音源探索部２０９は、探索により得られる音源信号をメモリ更新部２１０に出力し、音源信号の符号化パラメータを多重化部１０９に出力する。また、音源探索部２０９は、音源信号に聴覚重み付けインパルス応答信号を畳み込んで得
られる信号をメモリ更新部２１０に出力する。

メモリ更新部２１０は、合成フィルタ２０５と同様な合成フィルタを内蔵しており、音源探索部２０９から入力される音源信号を用いて内蔵の合成フィルタを駆動し、得られる信号を入力された音声信号から減算して第１の誤差信号を算出する。すなわち、入力音声信号と、符号化パラメータを用いて合成される合成音声信号との誤差信号を算出する。メモリ更新部２１０は、算出される第１の誤差信号をフィルタ状態として合成フィルタ２０５および聴覚重み付けフィルタ２０６にフィードバックする。また、メモリ更新部２１０は、聴覚重み付けフィルタ２０６から入力されるターゲット信号から、音源探索部２０９から入力される音源信号に聴覚重み付けインパルス応答信号を畳み込んで得られる信号を減算して、第２の誤差信号を算出する。すなわち、聴覚重み付け入力信号と、符号化パラメータを用いて合成される聴覚重み付け合成音声信号との誤差信号を算出する。メモリ更新部２１０は、算出される第２の誤差信号をフィルタ状態として聴覚重み付けフィルタ２０６にフィードバックする。なお、聴覚重み付けフィルタ２０６は、（１６）式で表される逆フィルタと（１７）式で表される合成フィルタとの縦続接続フィルタであり、逆フィルタのフィルタ状態として第１の誤差信号が、合成フィルタのフィルタ状態として第２の誤差信号が、それぞれ用いられる。

本実施の形態に係る音声符号化装置２００は、実施の形態１に示した音声符号化装置１００を変形して得られた構成である。例えば、音声符号化装置１００の聴覚重み付けフィルタ１０５−１〜１０５−３は、音声符号化装置２００の聴覚重み付けフィルタ２０６と等価である。下記の式（１９）は、聴覚重み付けフィルタ１０５−１〜１０５−３と聴覚重み付けフィルタ２０６とが等価であることを示すための伝達関数の展開式である。

式（１９）において、ａ_i'は、ａ_i'＝γ_１ ⁱａ_iなので、上記の式（１６）と下記の式（２０）とは同じである。すなわち、聴覚重み付けフィルタ１０５−１〜１０５−３を構成する逆フィルタと、聴覚重み付けフィルタ２０６を構成する逆フィルタとは同じものである。

また、聴覚重み付けフィルタ２０６の上記の式（１７）に示す伝達関数を有する合成フィルタは、聴覚重み付けフィルタ１０５−１〜１０５−３の下記の式（２１）および式（２２）に示す伝達関数各々を縦続接続したフィルタと等価である。

ここで、次数が１次拡張された式（１７）で示される合成フィルタのフィルタ係数は、式（２２）に示すフィルタ係数γ_２ ⁱａ_iに対し、伝達関数が（１−γ_３ｚ^−１）で示されるフィルタを用いてフィルタリングした結果であって、ａ_i''＝γ_２ ⁱａ_iと定義する場合、ａ_i''−γ_３ ⁱａ_i−１''となる。なお、ａ_０''＝ａ_０、ａ_Ｍ＋１''＝γ_２ ^Ｍ＋１ａ_Ｍ＋１＝０．０と定義する。ａ_０＝１．０である。

なお、式（２２）に示す伝達関数を有するフィルタの入力および出力をそれぞれｕ（ｎ）、ｖ（ｎ）とし、式（２１）に示す伝達関数を有するフィルタの入力および出力をそれぞれｖ（ｎ）、ｗ（ｎ）とし、式展開を行った結果が式（２３）となる。

式（２３）によっても、聴覚重み付けフィルタ１０５−１〜１０５−３の上記の式（２１）および式（２２）に示す伝達関数各々を有する合成フィルタを纏めたものと、聴覚重み付けフィルタ２０６の上記の式（１７）示す伝達関数を有する合成フィルタとが等価である結果が得られる。

上記のように、聴覚重み付けフィルタ２０６と、聴覚重み付けフィルタ１０５−１〜１０５−３とは等価であるものの、聴覚重み付けフィルタ２０６は、式（１６）および式（１７）に示す伝達関数各々を有する２つのフィルタからなり、式（２０）、式（２１）、および式（２２）に示す伝達関数各々を有する３つのフィルタからなる聴覚重み付けフィルタ１０５−１〜１０５−３各々よりも、フィルタの数が１個少ないため、処理を簡略化することができる。また、例えば、２つのフィルタを１つに纏めることによっては、２つのフィルタ処理において生成される中間変数を生成する必要がなくなり、これによって、中間変数を生成する際のフィルタ状態の保持が不要となり、フィルタの状態の更新が容易
となる。また、フィルタ処理を複数段階に分けることによって生じる演算精度の劣化を回避し、符号化精度を向上することができる。全体的に、本実施の形態に係る音声符号化装置２００を構成するフィルタの数は６個であり、実施の形態１に示した音声符号化装置１００を構成するフィルタの数１１個であるため、数の差が５個となる。

このように、本実施の形態によれば、フィルタ処理の回数を低減するため、ホルマント重み付けを変えずに量子化雑音のスペクトル傾斜を適応的に調整することができるとともに、音声符号化処理を簡略化し、演算精度の劣化による符号化性能の劣化を回避することができる。

（実施の形態３）
図７は、本発明の実施の形態３に係る音声符号化装置３００の主要な構成を示すブロック図である。なお、音声符号化装置３００は、実施の形態１に示した音声符号化装置１００（図１参照）と同様の基本的構成を有しており、同一の構成要素には同一の符号を付し、その説明を省略する。なお、音声符号化装置３００のＬＰＣ分析部３０１、傾斜補正係数制御部３０３、および音源探索部３０７は、音声符号化装置１００のＬＰＣ分析部１０１、傾斜補正係数制御部１０３、および音源探索部１０７と処理の一部に相違点があり、それを示すために異なる符号を付し、以下、これらについてのみ説明する。

ＬＰＣ分析部３０１は、入力音声信号に対する線形予測分析の過程で得られる線形予測残差の２乗平均値をさらに傾斜補正係数制御部３０３に出力する点のみで、実施の形態１に示したＬＰＣ分析部１０１と相違する。

音源探索部３０７は、適応符号帳の探索過程において｜Σｘ（ｎ）ｙ（ｎ）｜^２／（Σｘ（ｎ）ｘ（ｎ）×Σｙ（ｎ）ｙ（ｎ）），ｎ＝０，１，…，Ｌ−１で表されるピッチ予測利得をさらに算出し、傾斜補正係数制御部３０３に出力する点のみで、実施の形態１に示した音源探索部１０７と相違する。ここで、ｘ（ｎ）は適応符号帳探索用のターゲット信号、すなわち、加算器１０６から入力されるターゲット信号である。また、ｙ（ｎ）は適応符号帳から出力される音源信号に、聴覚重み付け合成フィルタ（聴覚重み付けフィルタと合成フィルタとを従属接続したフィルタ）のインパルス応答信号、すなわち聴覚重み付けフィルタ１０５−３から入力される聴覚重み付けインパルス応答信号を畳み込んだ信号である。なお、実施の形態１に示した音源探索部１０７も、適応符号帳の探索過程において、｜Σｘ（ｎ）ｙ（ｎ）｜^２およびΣｙ（ｎ）ｙ（ｎ）の２つの項を計算するため、音源探索部３０７は、実施の形態１に示した音源探索部１０７より、Σｘ（ｎ）ｘ（ｎ）の項のみをさらに計算し、これらの３つの項を用いて上記ピッチ予測利得を求めることとなる。

図８は、本発明の実施の形態３に係る傾斜補正係数制御部３０３の内部の構成を示すブロック図である。なお、傾斜補正係数制御部３０３は、実施の形態１に示した傾斜補正係数制御部１０３（図２参照）と同様の基本的構成を有しており、同一の構成要素には同一の符号を付し、その説明を省略する。

傾斜補正係数制御部３０３は、雑音区間検出部３３５の処理の一部のみにおいて実施の形態１に示した傾斜補正係数制御部１０３の雑音区間検出部１３５と相違し、それを示すために異なる符号を付す。雑音区間検出部３３５は、音声信号が入力されず、ＬＰＣ分析部３０１から入力される線形予測残差の２乗平均値、音源探索部３０７から入力されるピッチ予測利得、高域エネルギレベル算出部１３２から入力される音声信号高域成分エネルギレベル、および低域エネルギレベル算出部１３４から入力される音声信号低域成分エネルギレベルを用いて、フレーム単位で入力音声信号の雑音区間を検出する。

図９は、本発明の実施の形態３に係る雑音区間検出部３３５の内部の構成を示すブロック図である。

無音判定部３５３は、高域エネルギレベル算出部１３２から入力される音声信号高域成分エネルギレベル、および低域エネルギレベル算出部１３４から入力される音声信号低域成分エネルギレベルを用いて、フレーム単位で入力音声信号が無音であるかまたは有音であるかを判定し、無音判定結果として雑音判定部３５５に出力する。例えば、無音判定部３５３は、音声信号高域成分エネルギレベルと音声信号低域成分エネルギレベルとの和が所定の閾値未満である場合には、入力音声信号が無音であると判定し、上記の和が所定の閾値以上である場合には、入力音声信号が有音であると判定する。ここで、音声信号高域成分エネルギレベルと音声信号低域成分エネルギレベルとの和に対応する閾値としては、例えば、２×１０ｌｏｇ_１０（３２×Ｌ），Ｌはフレーム長，を用いる。

雑音判定部３５５は、ＬＰＣ分析部３０１から入力される線形予測残差の２乗平均値、無音判定部３５３から入力される無音判定結果、および音源探索部３０７から入力されるピッチ予測利得を用いて、フレーム単位で入力音声信号が雑音区間であるかまたは音声区間であるかを判定し、判定の結果を雑音区間検出結果として高域雑音レベル更新部１３６および低域雑音レベル更新部１３７に出力する。具体的には、雑音判定部３５５は、線形予測残差の２乗平均値が所定の閾値未満であってかつピッチ予測利得が所定の閾値未満である場合、または無音判定部３５３から入力される無音判定結果が無音区間を示す場合には、入力音声信号が雑音区間であると判定し、他の場合には入力音声信号が音声区間であると判定する。ここで、線形予測残差の２乗平均値に対応する閾値としては、例えば、０．１を用い、ピッチ予測利得に対応する閾値としては、例えば、０．４を用いる。

このように、本実施の形態によれば、音声符号化のＬＰＣ分析過程で生成された線形予測残差の２乗平均値、ピッチ予測利得、および傾斜補正係数の算出過程で生成された音声信号高域成分エネルギレベル、音声信号低域成分エネルギレベルを用いて雑音区間検出を行うため、雑音区間検出のための演算量を抑えることができ、音声符号化全体の演算量を増やさずに量子化雑音のスペクトル傾斜補正を行うことができる。

なお、本実施の形態では、線形予測分析としてレビンソン・ダービンのアルゴリズムを実行し、この過程で得られる線形予測残差の２乗平均値を雑音区間の検出に用いる場合を例にとって説明したが、本発明はこれに限定されず、線形予測分析として、入力信号の自己相関関数を自己相関関数最大値で正規化してからレビンソン・ダービンのアルゴリズムを実行しても良く、この過程で得られる線形予測残差の２乗平均値は線形予測利得を表すパラメータでもあり、線形予測分析の正規化予測残差パワと呼ばれる場合もある（正規化予測残差パワの逆数が線形予測利得に相当する）。

また、本実施の形態に係るピッチ予測利得は、正規化相互相関と呼ばれることもある。

また、本実施の形態では、線形予測残差の２乗平均値およびピッチ予測利得としてフレーム単位で算出された値をそのまま用いる場合を例にとって説明したが、本発明はこれに限定されず、雑音区間のより安定した検出結果を図るために、フレーム間で平滑化された線形予測残差の２乗平均値およびピッチ予測利得を用いても良い。

また、本実施の形態では、高域エネルギレベル算出部１３２および低域エネルギレベル算出部１３４は、それぞれ式（５）および式（６）に従って音声信号高域成分エネルギレベルおよび音声信号低域成分エネルギレベルを算出する場合を例にとって説明したが、本発明はこれに限定されず、算出されるエネルギレベルが「０」に近い値にならないように、さらに４×２×Ｌ（Ｌはフレーム長）のようなバイアスをかけても良い。かかる場合、
高域雑音レベル更新部１３６および低域雑音レベル更新部１３７は、このようにバイアスが掛けられた音声信号高域成分エネルギレベルおよび音声信号低域成分エネルギレベルを用いる。これにより、加算器１３８および１３９において、背景雑音のないクリーンな音声データに対しても安定したＳＮＲを得ることができる。

（実施の形態４）
本発明の実施の形態４に係る音声符号化装置は、本発明の実施の形態３に係る音声符号化装置３００と同様の基本的構成を有しており、同様の基本的動作を行うため、図示せず、なお、詳細な説明を略す。ただし、本実施の形態に係る音声符号化装置の傾斜補正係数制御部４０３と、実施の形態３に係る音声符号化装置３００の傾斜補正係数制御部３０３とは一部の処理において相違点があり、それを示すために異なる符号を付し、以下、傾斜補正係数制御部４０３についてのみ説明する。

図１０は、本発明の実施の形態４に係る傾斜補正係数制御部４０３の内部の構成を示すブロック図である。なお、傾斜補正係数制御部４０３は、実施の形態３に示した傾斜補正係数制御部３０３（図８参照）と同様の基本的構成を有しており、カウンタ４６１をさらに具備する点のみにおいて傾斜補正係数制御部３０３と相違する。なお、傾斜補正係数制御部４０３の雑音区間検出部４３５は、傾斜補正係数制御部３０３の雑音区間検出部３３５よりも、加算器１３８，１３９からそれぞれ高域ＳＮＲおよび低域ＳＮＲがさらに入力され、処理の一部に相違点があり、それを示すために異なる符号を付す。

カウンタ４６１は、第１カウンタおよび第２カウンタからなり、雑音区間検出部４３５から入力される雑音区間検出結果を用いて第１カウンタおよび第２カウンタの値を更新し、更新された第１カウンタおよび第２カウンタの値を雑音区間検出部４３５にフィードバックする。具体的には、第１カウンタは、連続的に雑音区間と判定されるフレームの数をカウントするカウンタであり、第２カウンタは、連続的に音声区間と判定されるフレームの数をカウントするカウンタであり、雑音区間検出部４３５から入力される雑音区間検出結果が雑音区間を示す場合には、第１カウンタが１インクリメントされるとともに第２カウンタが「０」にリセットされる。一方、雑音区間検出部４３５から入力される雑音区間検出結果が音声区間を示す場合には、第２カウンタが１インクリメントされる。すなわち、第１カウンタは過去に雑音区間と判定されたフレーム数を表しており、第２カウンタは現フレームが音声区間であると判定され続けて何フレーム目かを表す。

図１１は、本発明の実施の形態４に係る雑音区間検出部４３５の内部の構成を示すブロック図である。なお、雑音区間検出部４３５は、実施の形態３に示した雑音区間検出部３３５（図９参照）と同様の基本的構成を有しており、同様の基本的動作を行う。ただし、雑音区間検出部４３５の雑音判定部４５５と、雑音区間検出部３３５の雑音判定部３５５とは処理の一部に相違点があり、それを示すために異なる符号を付す。

雑音判定部４５５は、カウンタ４６１から入力される第１カウンタおよび第２カウンタの値、ＬＰＣ分析部３０１から入力される線形予測残差の２乗平均値、無音判定部３５３から入力される無音判定結果、音源探索部３０７から入力されるピッチ予測利得、加算器１３８，１３９から入力される高域ＳＮＲおよび低域ＳＮＲを用いて、フレーム単位で入力音声信号が雑音区間であるかまたは音声区間であるかを判定し、判定の結果を雑音区間検出結果として高域雑音レベル更新部１３６および低域雑音レベル更新部１３７に出力する。具体的には、雑音判定部４５５は、線形予測残差の２乗平均値が所定の閾値未満であってかつピッチ予測利得が所定の閾値未満であるか、無音判定結果が無音区間を示すか、のいずれかの場合であるとともに、第１カウンタの値が所定の閾値未満であるか、第２カウンタの値が所定の閾値以上であるか、高域ＳＮＲおよび低域ＳＮＲの両方が所定の閾値未満であるか、のいずれかの場合であれば、入力音声信号が雑音区間であると判定し、他
の場合には入力音声信号が音声区間であると判定する。ここで、第１カウンタの値に対応する閾値として、例えば、１００を用いて、第２カウンタの値に対応する閾値として、例えば、１０を用い、高域ＳＮＲおよび低域ＳＮＲに対応する閾値として、例えば、５ｄＢを用いる。

すなわち、実施の形態３に示した雑音判定部３５５において符号化対象フレームが雑音区間と判定される条件が満たされても、第１カウンタの値が所定の閾値以上であって、かつ、第２カウンタの値が所定の閾値未満であって、かつ、高域ＳＮＲまたは低域ＳＮＲの少なくとも一方が所定の閾値以上であれば、雑音判定部４５５は、入力音声信号を雑音区間ではなく音声区間と判定する。その理由は、ＳＮＲが高いフレームは背景雑音のほかに意味のある音声信号が存在する可能性が高いため、そのようなフレームを雑音区間と判定しないようにするためである。ただし、雑音区間と判定されたフレームが過去に所定の数だけ存在した場合でなければ、すなわち第１カウンタの値が所定値以上でなければ、ＳＮＲの精度は低いと考えられる。このため、前記ＳＮＲが高くても第１カウンタの値が所定値未満であれば、雑音判定部４５５は実施の形態３で示した雑音判定部３５５における判定基準のみで判定を行い、前記ＳＮＲを雑音区間判定には用いない。また、前記ＳＮＲを用いた雑音区間判定は、音声の立上がりを検出するのに効果的だが、多用すると雑音と判定すべき区間まで音声区間であると判定してしまう場合がある。このため、音声の立ち上がり区間、つまり雑音区間から音声区間に切り替わった直後、すなわち第２カウンタの値が所定値未満である場合において、限定的に用いるのが良い。このようにすることで、立ち上がりの音声区間を雑音区間と誤って判定することを防ぐことができる。

このように、本実施の形態によれば、音声符号化装置において、過去において連続的に雑音区間または音声区間と判定されたフレームの数、および音声信号の高域ＳＮＲおよび低域ＳＮＲを用いて雑音区間の検出を行うため、雑音区間検出の精度を向上させることができ、量子化雑音のスペクトル傾斜補正の精度を向上させることができる。

（実施の形態５）
本発明の実施の形態５においては、適応マルチレートワイドバンド(ＡＭＲ−ＷＢ：Adaptive MultiRate - WideBand)音声符号化において、量子化雑音のスペクトル傾斜を適応的に調整し、背景雑音信号と音声信号とが重畳した雑音音声重畳区間に対しても適した聴覚重み付けフィルタリングを行うことができる音声符号化方法について説明する。

図１２は、本発明の実施の形態５に係る音声符号化装置５００の主要な構成を示すブロック図である。図１２に示す音声符号化装置５００は、ＡＭＲ−ＷＢ符号化装置に本発明の一例を適用したものに相当する。なお、音声符号化装置５００は、実施の形態１に示した音声符号化装置１００（図１参照）と同様の基本的構成を有しており、同一の構成要素には同一の符号を付し、その説明を省略する。

音声符号化装置５００は、プリエンファシスフィルタ５０１をさらに備える点において実施の形態１に示した音声符号化装置１００と相違する。なお、音声符号化装置５００の傾斜補正係数制御部５０３、および聴覚重み付けフィルタ５０５−１〜５０５−３は、音声符号化装置１００の傾斜補正係数制御部１０３、および聴覚重み付けフィルタ１０５−１〜１０５−３と処理の一部に相違点があり、それを示すために異なる符号を付す。以下、これらの相違点についてのみ説明する。

プリエンファシスフィルタ５０１は、Ｐ（ｚ）＝１−γ_２ｚ^−１で表される伝達関数を用いて入力音声信号に対しフィルタリングを行い、ＬＰＣ分析部１０１、傾斜補正係数制御部５０３、および聴覚重み付けフィルタ５０５−１に出力する。

傾斜補正係数制御部５０３は、プリエンファシスフィルタ５０１でフィルタリングが施された入力音声信号を用いて、量子化雑音のスペクトル傾斜を調整するための傾斜補正係数γ_３”を算出し、聴覚重み付けフィルタ５０５−１〜５０５−３に出力する。なお、傾斜補正係数制御部５０３の詳細については後述する。

聴覚重み付けフィルタ５０５−１〜５０５−３は、ＬＰＣ分析部１０１から入力される線形予測係数ａ_ｉと、傾斜補正係数制御部５０３から入力される傾斜補正係数γ_３”とを含む下記の式（２４）に示す伝達関数を用いて、プリエンファシスフィルタ５０１でフィルタリングが施された入力音声信号に対し聴覚重み付けフィルタリングを行う点のみにおいて、実施の形態１に示した聴覚重み付けフィルタ１０５−１〜１０５−３と相違する。

図１３は、傾斜補正係数制御部５０３の内部の構成を示すブロック図である。傾斜補正係数制御部５０３が備える低域エネルギレベル算出部１３４、雑音区間検出部１３５、低域雑音レベル更新部１３７、加算器１３９、平滑化部１４５は、実施の形態１に示した傾斜補正係数制御部１０３（図１参照）が備える低域エネルギレベル算出部１３４、雑音区間検出部１３５、低域雑音レベル更新部１３７、加算器１３９、平滑化部１４５と同様であるため、説明を省略する。なお、傾斜補正係数制御部５０３のＬＰＦ５３３、傾斜補正係数算出部５４１は、傾斜補正係数制御部１０３のＬＰＦ１３３、傾斜補正係数算出部１４１と処理の一部に相違点があり、それを示すために異なる符号を付し、以下、これらの相違点についてのみ説明する。なお、以下の説明が煩雑になることを避けるために、傾斜補正係数算出部５４１において算出される平滑化前傾斜補正係数と、平滑化部１４５から出力される傾斜補正係数とを区別せず、傾斜補正係数γ_３”として説明する。

ＬＰＦ５３３は、プリエンファシスフィルタ５０１でフィルタリングが施された入力音声信号の周波数領域の１ｋＨｚ未満の低域成分を抽出し、得られる音声信号低域成分を低域エネルギレベル算出部１３４に出力する。

傾斜補正係数算出部５４１は、加算器１３９から入力される低域ＳＮＲを用いて、図１４に示すような傾斜補正係数γ_３”を求め、平滑化部１４５に出力する。

図１４は、傾斜補正係数算出部５４１における傾斜補正係数γ_３”の算出について説明するための図である。

図１４に示すように、低域ＳＮＲが０ｄＢ未満（つまり領域Ｉ）、またはＴｈ２ｄＢ以上（つまり領域ＩＶ）である場合には、傾斜補正係数算出部５４１は、γ_３”としてＫ_ｍａｘを出力する。また、傾斜補正係数算出部５４１は、低域ＳＮＲが０以上であり、かつＴｈ１未満（つまり領域ＩＩ）である場合には、下記の式（２５）に従ってγ_３”を算出し、低域ＳＮＲがＴｈ１以上であり、かつＴｈ２未満（つまり領域ＩＩＩ）である場合には、下記の式（２６）に従ってγ_３”を算出する。
γ_３”＝Ｋ_ｍａｘ−Ｓ（Ｋ_ｍａｘ−Ｋ_ｍｉｎ）／Ｔｈ１ …（２５）
γ_３”＝Ｋ_ｍｉｎ−Ｔｈ１（Ｋ_ｍａｘ−Ｋ_ｍｉｎ）／（Ｔｈ２−Ｔｈ１）＋Ｓ（Ｋ_ｍａｘ−Ｋ_ｍｉｎ）／（Ｔｈ２−Ｔｈ１） …（２６）

式（２５）および式（２６）において、Ｋ_ｍａｘは、仮に音声符号化装置５００が傾斜
補正係数制御部５０３を備えない場合に、聴覚重み付けフィルタ５０５−１〜５０５−３に用いられる定数の傾斜補正係数γ_３”の値である。また、Ｋ_ｍｉｎおよびＫ_ｍａｘは、０＜Ｋ_ｍｉｎ＜Ｋ_ｍａｘ＜１を満たす定数である。

図１４において、領域Ｉは、入力音声信号において音声が無く背景雑音のみの区間を示し、領域ＩＩは、入力音声信号において音声よりも背景雑音が支配的な区間を示し、領域ＩＩＩは、入力音声信号において背景雑音よりも音声が支配的な区間を示し、領域ＩＶは、入力音声信号において背景雑音が無く音声のみの区間を示す。図１４に示すように、傾斜補正係数算出部５４１は、低域ＳＮＲがＴｈ１以上である場合に（領域ＩＩＩおよび領域ＩＶにおいて）は、低域ＳＮＲが大きいほど傾斜補正係数γ_３”の値をＫ_ｍｉｎ〜Ｋ_ｍａｘの範囲においてより大きくする。また、図１４に示すように、傾斜補正係数算出部５４１は、低域ＳＮＲがＴｈ１より小さい場合に（領域Ｉおよび領域ＩＩにおいて）は、低域ＳＮＲが小さいほど傾斜補正係数γ_３”の値をＫ_ｍｉｎ〜Ｋ_ｍａｘの範囲においてより大きくする。これは、低域ＳＮＲがある程度低くなる場合に（領域Ｉおよび領域ＩＩにおいて）は、背景雑音信号が支配的となり、すなわち背景雑音信号自体が聴くべき対象となり、このような場合には、低域に量子化ノイズを集めてしまうようなノイズシェーピングを避けるべきであるからである。

図１５Ａおよび図１５Ｂは、本実施の形態に係る音声符号化装置５００を用いて量子化雑音のシェイピングを行う場合に得られる効果を示す図である。ここでは、どちらも女性が発音した「早朝」の「そ」という音声の母音部のスペクトルを示したものである。どちらも同じ信号の同じ区間のスペクトルであるが、図１５Ｂには背景雑音信号（カーノイズ）を加算している。図１５Ａは、背景雑音がほぼ無く音声のみである場合の音声信号、すなわち低域ＳＮＲが図１４の領域ＩＶに該当する音声信号に対し、量子化雑音のシェイピングを行う場合に得られる効果を示す。また、図１５Ｂは、背景雑音、ここではカーノイズ、と音声とが重畳する場合の音声信号、すなわち低域ＳＮＲが図１４の領域ＩＩまたは領域ＩＩＩに該当する音声信号に対し、量子化雑音のシェイピングを行う場合に得られる効果を示す。

図１５Ａおよび図１５Ｂにおいて、実線のグラフ６０１、７０１は、それぞれ背景雑音の有無のみが異なる同じ音声区間における音声信号のスペクトルの一例を示す。破線のグラフ６０２、７０２は、仮に音声符号化装置５００が傾斜補正係数制御部５０３を備えず量子化雑音のシェイピングを行う場合、得られる量子化雑音のスペクトルを示す。一点破線のグラフ６０３、７０３は、本実施の形態に係る音声符号化装置５００を用いて量子化雑音のシェイピングを行う場合に得られる量子化雑音のスペクトルを示す。

図１５Ａと図１５Ｂとを比較すると分かるように、量子化雑音の傾斜補正を行った場合、背景雑音の有無によって量子化誤差スペクトル包絡を表すグラフ６０３とグラフ７０３とが異なる。

また、図１５Ａに示すように、グラフ６０２とグラフ６０３とはほぼ一致する。これは、図１４に示した領域ＩＶにおいて、傾斜補正係数算出部５４１は、γ_３”としてＫ_ｍａｘを聴覚重み付けフィルタ５０５−１〜５０５−３に出力するからである。なお、上述したように、Ｋ_ｍａｘは、仮に音声符号化装置５００が傾斜補正係数制御部５０３を備えない場合に、聴覚重み付けフィルタ５０５−１〜５０５−３に用いられる定数の傾斜補正係数γ_３”の値である。

また、カーノイズ信号の特性は、低域にエネルギが集中しており、低域のＳＮＲが低くなる。ここでは、図１５Ｂのグラフ７０１に示す音声信号の低域ＳＮＲが図１４に示した領域ＩＩおよび領域ＩＩＩに該当するとする。かかる場合、傾斜補正係数算出部５４１は
、Ｋ_ｍａｘより小さい値の傾斜補正係数γ_３”を算出する。これにより、量子化誤差スペクトルは低域が持ち上げられたグラフ７０３のようになる。

このように、本実施の形態によれば、音声信号が支配的でありながら低域の背景雑音レベルが高い場合には、低域の量子化雑音をより許容するように聴覚重み付けフィルタの傾きを制御する。これにより高域成分を重視した量子化が可能となり、量子化音声信号の主観的品質が改善される。

またさらに、本実施の形態によれば、低域ＳＮＲが所定の閾値未満の場合には、低域ＳＮＲが低いほど傾斜補正係数γ_３”をより大きくし、低域ＳＮＲが所定の閾値以上である場合には、低域ＳＮＲが高いほど傾斜補正係数γ_３”をより大きくする。すなわち、背景雑音が支配的であるか音声信号が支配的であるかに応じて、傾斜補正係数γ_３”の制御方法を切り替えるため、入力信号に含まれる信号のうち支配的な信号に適したノイズシェーピングを行うように量子化雑音のスペクトル傾斜を調整することができる。

なお、本実施の形態では、傾斜補正係数算出部５４１において図１４に示すような傾斜補正係数γ_３”を算出する場合を例にとって説明したが、本発明はこれに限定されず、γ_３”＝β×低域ＳＮＲ＋Ｃという式に従って傾斜補正係数γ_３”を算出しても良い。また、かかる場合は、算出された傾斜補正係数γ_３”に対して上限値および下限値の制限を加える。例えば、仮に音声符号化装置５００が傾斜補正係数制御部５０３を備えない場合に、聴覚重み付けフィルタ５０５−１〜５０５−３に用いられる定数の傾斜補正係数γ_３”の値を上限値としても良い。

（実施の形態６）
図１６は、本発明の実施の形態６に係る音声符号化装置６００の主要な構成を示すブロック図である。図１６に示す音声符号化装置６００は、実施の形態５に示した音声符号化装置５００（図１２参照）と同様の基本的構成を有しており、同一の構成要素には同一の符号を付し、その説明を省略する。

音声符号化装置６００は、傾斜補正係数制御部５０３の代わりに重み係数制御部６０１を備える点において実施の形態５に示した音声符号化装置５００と相違する。なお、音声符号化装置６００の聴覚重み付けフィルタ６０５−１〜６０５−３は、音声符号化装置５００の聴覚重み付けフィルタ５０５−１〜５０５−３と処理の一部に相違点があり、それを示すために異なる符号を付す。以下、これらの相違点についてのみ説明する。

重み係数制御部６０１は、プリエンファシスフィルタ５０１でフィルタリングが施された入力音声信号を用いて重み係数ａ⁻ _ｉを算出し、聴覚重み付けフィルタ６０５−１〜６０５−３に出力する。なお、重み係数制御部６０１の詳細については後述する。

聴覚重み付けフィルタ６０５−１〜６０５−３は、定数の傾斜補正係数γ_３”、ＬＰＣ分析部１０１から入力される線形予測係数ａ_ｉ、および重み係数制御部６０１から入力される重み係数ａ⁻ _ｉを含む下記の式（２７）に示す伝達関数を用いて、プリエンファシスフィルタ５０１でフィルタリングが施された入力音声信号に対し聴覚重み付けフィルタリングを行う点のみにおいて、実施の形態５に示した聴覚重み付けフィルタ５０５−１〜５０５−３と相違する。

図１７は、本実施の形態に係る重み係数制御部６０１の内部の構成を示すブロック図である。

図１７において、重み係数制御部６０１は、雑音区間検出部１３５、エネルギレベル算出部６１１、雑音ＬＰＣ更新部６１２、雑音レベル更新部６１３、加算器６１４、および重み係数算出部６１５を備える。そのうち、雑音区間検出部１３５は、実施の形態１に示した傾斜補正係数算出部１０３（図２参照）が備える雑音区間検出部１３５と同様である。

エネルギレベル算出部６１１は、プリエンファシスフィルタ５０１でプリエンファシスされた入力音声信号のエネルギレベルを、フレーム単位で下記の式（２８）に従って算出し、得られる音声信号エネルギレベルを雑音レベル更新部６１３および加算器６１４に出力する。
Ｅ＝１０ｌｏｇ_１０（｜Ａ｜^２） …（２８）

式（２８）において、Ａは、プリエンファシスフィルタ５０１でプリエンファシスされた入力音声信号ベクトル（ベクトル長＝フレーム長）を示す。すなわち、｜Ａ｜^２は音声信号のフレームエネルギである。Ｅは｜Ａ｜^２をデシベル表現にしたもので、音声信号エネルギレベルである。

雑音ＬＰＣ更新部６１２は、雑音区間検出部１３５の雑音区間判定結果に基づき、ＬＰＣ分析部１０１から入力される雑音区間の線形予測係数ａ_iの平均値を求める。具体的には、入力した線形予測係数ａ_iを周波数領域のパラメータであるＬＳＦ(Line Spectral Frequency)またはＩＳＦ(Immittance Spectral Frequency)に変換し、雑音区間においてＬＳＦやＩＳＦの平均値を算出して重み係数算出部６１５に出力する。ＬＳＦやＩＳＦの平均値の算出方法は、例えば、Fave＝βFave＋(１−β)Ｆのような式を用いれば逐次更新できる。ここで、FaveはＩＳＦまたはＬＳＦの雑音区間における平均値、βは平滑化係数、Ｆは雑音区間と判定されたフレーム（またはサブフレーム）におけるＩＳＦまたはＬＳＦ（すなわち入力された線形予測係数ａ_iを変換して得られたＩＳＦまたはＬＳＦ）をそれぞれ示す。なお、ＬＰＣ量子化部１０２において線形予測係数がＬＳＦやＩＳＦに変換されている場合、ＬＰＣ量子化部１０２からＬＳＦやＩＳＦを重み係数制御部６０１へ入力する構成とすれば、雑音ＬＰＣ更新部６１２において線形予測係数ａ_iをＩＳＦやＬＳＦに変換する処理は必要なくなる。

雑音レベル更新部６１３は、背景雑音の平均エネルギレベルを保持しており、雑音区間検出部１３５から背景雑音区間検出情報が入力される場合、エネルギレベル算出部６１１から入力される音声信号エネルギレベルを用いて、保持している背景雑音の平均エネルギレベルを更新する。更新の方法としては、例えば、下記の式（２９）に従い行う。
Ｅ_Ｎ＝αＥ_Ｎ＋（１−α）Ｅ …（２９）

式（２９）において、Ｅはエネルギレベル算出部６１１から入力される音声信号エネルギレベルを示す。雑音区間検出部１３５から雑音レベル更新部６１３に背景雑音区間検出情報が入力される場合は、入力音声信号が背景雑音のみの区間であることを意味し、エネ
ルギレベル算出部６１１から雑音レベル更新部６１３に入力される音声信号エネルギレベル、すなわち、この式に示すＥは、背景雑音のエネルギレベルとなる。Ｅ_Ｎは雑音レベル更新部６１３が保持している背景雑音の平均エネルギレベルを示し、αは長期平滑化係数であって、０≦α＜１である。雑音レベル更新部６１３は、保持している背景雑音の平均エネルギレベルを加算器６１４に出力する。

加算器６１４は、エネルギレベル算出部６１１から入力される音声信号エネルギレベルから、雑音レベル更新部６１３から入力される背景雑音の平均エネルギレベルを減算して、得られる減算結果を重み係数算出部６１５に出力する。加算器６１４で得られる減算結果は、対数で表した２つのエネルギのレベルの差、すなわち、音声信号エネルギレベルおよび背景雑音の平均エネルギレベルの差であるため、この２つのエネルギの比、すなわち、音声信号エネルギと背景雑音信号の長期的な平均エネルギとの比である。言い換えれば、加算器６１４で得られる減算結果は、音声信号のＳＮＲである。

重み係数算出部６１５は、加算器６１４から入力されるＳＮＲ、および雑音ＬＰＣ更新部６１２から入力される雑音区間における平均的なＩＳＦまたはＬＳＦを用いて、重み係数ａ⁻ _ｉを算出して聴覚重み付けフィルタ６０５−１〜６０５−３に出力する。具体的には、重み係数算出部６１５は、まず、加算器６１４から入力されるＳＮＲを短期平滑化してＳ⁻を得、また、雑音ＬＰＣ更新部６１２から入力される雑音区間における平均的なＩＳＦまたはＬＳＦを短期平滑化してＬ⁻ _ｉを得る。次いで、重み係数算出部６１５は、Ｌ⁻ _ｉを時間領域であるＬＰＣ（線形予測係数）に変換しｂ_ｉを得る。次いで、重み係数算出部６１５は、Ｓ⁻から図１８に示すような重み調整係数γを算出し、重み係数ａ⁻ _ｉ＝γ^ｉｂ_ｉを出力する。

図１８は、重み係数算出部６１５における重み調整係数γの算出について説明するため図である。

図１８において、各領域の定義は図１４における各領域の定義と同様である。図１８に示すように、領域Ｉおよび領域ＩＶにおいて重み係数算出部６１５は、重み調整係数γの値を「０」にする。すなわち、領域Ｉおよび領域ＩＶにおいて、聴覚重み付けフィルタ６０５−１〜６０５−３それぞれにおいて下記の式（３０）で表される線形予測逆フィルタはＯＦＦとなる。

また、図１８に示す領域ＩＩおよび領域ＩＩＩそれぞれにおいて、重み係数算出部６１５は、下記の式（３１）および式（３２）それぞれに従って重み調整係数γを算出する。
γ＝ＳＫ_ｍａｘ／Ｔｈ１ …（３１）
γ＝Ｋ_ｍａｘ−Ｋ_ｍａｘ（Ｓ−Ｔｈ１）／（Ｔｈ２−Ｔｈ１） …（３２）

すなわち、図１８に示すように、重み係数算出部６１５は、音声信号のＳＮＲがＴｈ１以上である場合には、ＳＮＲが大きいほど重み調整係数γをより大きくし、音声信号のＳＮＲがＴｈ１より小さい場合には、ＳＮＲが小さいほど重み調整係数γをより小さくする。そして、音声信号の雑音区間の平均的なスペクトル特性を表す線形予測係数（ＬＰＣ）ｂ_ｉに重み調整係数γⁱを乗じた重み係数ａ⁻ _ｉを、聴覚重み付けフィルタ６０５−１〜６０５−３に出力して線形予測逆フィルタを構成させる。

このように、本実施の形態によれば、音声信号のＳＮＲに応じた重み調整係数を、入力
信号の雑音区間の平均的なスペクトル特性を表す線形予測係数に乗じて重み係数を算出し、この重み係数を用いて聴覚重み付けフィルタの線形予測逆フィルタを構成するため、入力信号のスペクトル特性に合わせて量子化雑音スペクトル包絡を調整し、復号音声の音質を向上することができる。

なお、本実施の形態では、聴覚重み付けフィルタ６０５−１〜６０５−３に用いられる傾斜補正係数γ_３”が定数である場合を例にとって説明したが、本発明はこれに限定されず、音声符号化装置６００は実施の形態５に示した傾斜補正係数制御部５０３をさらに備え、傾斜補正係数γ_３”の値を調整しても良い。

（実施の形態７）
本発明の実施の形態７に係る音声符号化装置（図示せず）は、実施の形態５に示した音声符号化装置５００と基本的に同様な構成を有し、傾斜補正係数制御部５０３の内部の構成および処理動作のみが異なる。

図１９は、本発明の実施の形態７に係る傾斜補正係数制御部５０３の内部構成を示すブロック図である。

図１９において、傾斜補正係数制御部５０３は、雑音区間検出部１３５、エネルギレベル算出部７３１、雑音レベル更新部７３２、低域／高域雑音レベル比算出部７３３、低域ＳＮＲ算出部７３４、傾斜補正係数算出部７３５、および平滑化部１４５を備える。そのうち、雑音区間検出部１３５および平滑化部１４５は、実施の形態５に係る傾斜補正係数制御部５０３が備える雑音区間検出部１３５および平滑化部１４５と同様である。

エネルギレベル算出部７３１は、プリエンファシスフィルタ５０１でフィルタリングが施された入力音声信号のエネルギレベルを、２つ以上の周波数帯域において算出して、雑音レベル更新部７３２および低域ＳＮＲ算出部７３４に出力する。具体的には、エネルギレベル算出部７３１は、離散フーリエ変換（ＤＦＴ：Discrete Fourier Transform）や高速フーリエ変換（ＦＦＴ：Fast Fourier Transform）などを用いて、入力音声信号を周波数領域に変換してから周波数帯域毎のエネルギレベルを算出する。以下、２つ以上の周波数帯域としては低域および高域の２つの周波数帯域を例にとって説明する。ここで、低域とは０〜５００乃至１０００Ｈｚ程度の帯域からなり、高域とは３５００Ｈｚ前後〜６５００Ｈｚ前後の帯域からなる。

雑音レベル更新部７３２は、背景雑音の低域の平均エネルギレベルおよび背景雑音の高域の平均エネルギレベルそれぞれを保持している。雑音レベル更新部７３２は、雑音区間検出部１３５から背景雑音区間検出情報が入力される場合、エネルギレベル算出部７３１から入力される低域および高域それぞれの音声信号エネルギレベルを用いて、上述の式（２９）に従い、保持している背景雑音の低域および高域それぞれの平均エネルギレベルを更新する。ただし、雑音レベル更新部７３２は、低域および高域それぞれにおいて式（２９）に従う処理を行う。すなわち、雑音レベル更新部７３２が背景雑音の低域の平均エネルギを更新する場合には、式（２９）のＥはエネルギレベル算出部７３１から入力される低域の音声信号エネルギレベルを示し、Ｅ_Ｎは雑音レベル更新部７３２が保持する背景雑音の低域の平均エネルギレベルを示す。一方、雑音レベル更新部７３２が背景雑音の高域の平均エネルギを更新する場合には、式（２９）のＥはエネルギレベル算出部７３１から入力される高域の音声信号エネルギレベルを示し、Ｅ_Ｎは雑音レベル更新部７３２が保持する背景雑音の高域の平均エネルギレベルを示す。雑音レベル更新部７３２は、更新した背景雑音の低域および高域それぞれの平均エネルギレベルを低域／高域雑音レベル比算出部７３３に出力するとともに、更新した背景雑音の低域の平均エネルギレベルを低域ＳＮＲ算出部７３４に出力する。

低域／高域雑音レベル比算出部７３３は、雑音レベル更新部７３２から入力される背景雑音の低域の平均エネルギレベルと高域の平均エネルギレベルとの比をｄＢ単位で計算し、低域／高域雑音レベル比として傾斜補正係数算出部７３５に出力する。

低域ＳＮＲ算出部７３４は、エネルギレベル算出部７３１から入力される入力音声信号の低域のエネルギレベルと、雑音レベル更新部７３２から入力される背景雑音の低域のエネルギレベルとの比をｄＢ単位で算出し、低域ＳＮＲとして傾斜補正係数算出部７３５に出力する。

傾斜補正係数算出部７３５は、雑音区間検出部１３５から入力される雑音区間検出情報、低域／高域雑音レベル比算出部７３３から入力される低域／高域雑音レベル比、および低域ＳＮＲ算出部７３４から入力される低域ＳＮＲを用いて傾斜補正係数γ_３”を算出し、平滑化部１４５に出力する。

図２０は、傾斜補正係数算出部７３５の内部の構成を示すブロック図である。

図２０において、傾斜補正係数算出部７３５は、係数修正量算出部７５１、係数修正量調整部７５２、および補正係数算出部７５３を備える。

係数修正量算出部７５１は、低域ＳＮＲ算出部７３４から入力される低域ＳＮＲを用いて傾斜補正係数をどれだけ修正する（増減させる）かを示す係数修正量を算出し、係数修正量調整部７５２に出力する。ここで入力される低域ＳＮＲと、算出される係数修正量との関係は、例えば図２１に示すものとなる。図２１は、図１８における横軸を低域ＳＮＲと見なし、縦軸を係数修正量と見なし、さらに係数修正量の最大値Ｋｄｍａｘを用いて図１８における重み係数γの最大値Ｋｍａｘを代替して得られる図と同様である。また、係数修正量算出部７５１は、雑音区間検出部１３５から雑音区間検出情報が入力される場合には、係数修正量を「０」として算出する。雑音区間における係数修正量を「０」とすることにより、雑音区間において傾斜補正係数の不適切な修正が行われることを回避する。

係数修正量調整部７５２は、低域／高域雑音レベル比算出部７３３から入力される低域／高域雑音レベル比を用いて、係数修正量算出部７５１から入力される係数修正量をさらに調整する。具体的には、係数修正量調整部７５２は、下記の式（３３）に従い、低域／高域雑音レベル比が小さいほど、すなわち低域雑音レベルが高域雑音レベルに対して低いほど、係数修正量をより小さく調整する。
Ｄ２＝λ×Ｎｄ×Ｄ１（ただし、０≦λ×Ｎｄ≦１） …（３３）

式（３３）において、Ｄ１は、係数修正量算出部７５１から入力される係数修正量を示し、Ｄ２は、調整後の係数修正量を示す。Ｎｄは、低域／高域雑音レベル比算出部７３３から入力される低域／高域雑音レベル比を示す。また、λは、Ｎｄに掛ける調整係数であり、例えばλ＝１／２５＝０．０４を用いる。λ＝１／２５＝０．０４であり、Ｎｄが２５を越え、λ×Ｎｄが１を越える場合には、係数修正量調整部７５２は、λ×Ｎｄ＝１のようにλ×Ｎｄを「１」にクリップする。また、同様にＮｄが「０」以下であり、λ×Ｎｄが「０」以下となる場合には、係数修正量調整部７５２は、λ×Ｎｄ＝０のようにλ×Ｎｄを「０」にクリップする。

補正係数算出部７５３は、係数修正量調整部７５２から入力される係数修正量を用いて、デフォルトの傾斜補正係数を修正し、得られる傾斜補正係数γ_３”を平滑化部１４５に出力する。例えば、補正係数算出部７５３は、γ_３”＝Ｋdefault−Ｄ２によりγ_３”を算出する。ここでＫdefaultは、デフォルトの傾斜補正係数を示す。デフォルトの傾斜補
正係数とは、本実施の形態に係る音声符号化装置が仮に傾斜補正係数制御部５０３を備えない場合に、聴覚重み付けフィルタ５０５−１〜５０５−３に用いられる定数の傾斜補正係数を指す。

補正係数算出部７５３において算出される傾斜補正係数γ_３”と、低域ＳＮＲ算出部７３４から入力される低域ＳＮＲとの関係は、図２２に示すようになる。図２２は、Ｋｄｅｆａｕｌｔを用いて図１４におけるＫｍａｘを代替し、Ｋｄｅｆａｕｌｔ−λ×Ｎｄ×Ｋｄｍａｘを用いて図１４におけるＫｍｉｎを代替して得られる図と同様である。

係数修正量調整部７５２において、低域／高域雑音レベル比が小さいほど、係数修正量をより小さく調整する理由は以下のとおりである。すなわち、低域／高域雑音レベル比は、背景雑音信号のスペクトル包絡を示す情報であり、低域／高域雑音レベル比が小さいほど背景雑音のスペクトル包絡はより平坦となるか、または低域と高域との間の周波数帯域（中域）にのみ山か谷が存在する。背景雑音のスペクトル包絡が平坦である場合、または中域にのみ山か谷が存在する場合には、傾斜フィルタの傾斜を増減してもノイズシェーピングの効果は得られないため、このような場合には、係数修正量調整部７５２は係数修正量を小さく調整する。逆に、低域の背景雑音レベルが高域の背景雑音レベルに比べて十分高い場合は、背景雑音信号のスペクトル包絡は傾斜補正フィルタの周波数特性に近いものとなり、傾斜補正フィルタの傾斜を適応的に制御することにより主観品質を高めるノイズシェーピングが可能となる。したがって、このような場合には、係数修正量調整部７５２は係数修正量を大きく調整する。

このように、本実施の形態によれば、入力音声信号のＳＮＲ、および低域／高域雑音レベル比に応じて傾斜補正係数を調整するため、より背景雑音信号のスペクトル包絡に合わせたノイズシェーピングを行うことができる。

なお、本実施の形態において、雑音区間検出部１３５は、エネルギレベル算出部７３１や雑音レベル更新部７３２の出力情報を雑音区間の検出に利用しても良い。また、雑音区間検出部１３５の処理は、無音検出器（Voice Activity Detector：ＶＡＤ）や背景雑音抑圧器で行われる処理と共通するものであり、ＶＡＤ処理部や背景雑音抑圧処理部、あるいはこれらに類する処理部を備える符号化器に本発明の実施の形態を適用する場合には、これら処理部の出力情報を利用するようにしても良い。また、背景雑音抑圧処理部を備える場合は、背景雑音抑圧処理部にエネルギレベル算出部や雑音レベル更新部を備えるのが一般的であるので、本実施の形態におけるエネルギレベル算出部７３１や雑音レベル更新部７３２の一部の処理を背景雑音抑圧処理部内の処理と共有しても良い。

また、本実施の形態では、エネルギレベル算出部７３１は入力音声信号を周波数領域に変換して低域および高域のエネルギレベルを算出する場合を例にとって説明したが、スペクトルサブトラクション等による背景雑音抑圧処理を備える符号器に本発明の実施の形態を適用する場合には、背景雑音抑圧処理において得られる入力音声信号のＤＦＴスペクトルまたはＦＦＴスペクトルと、推定雑音信号（推定された背景雑音信号）のＤＦＴスペクトルまたはＦＦＴスペクトルとを利用してエネルギを算出しても良い。

また、本実施の形態に係るエネルギレベル算出部７３１は、高域通過フィルタおよび低域通過フィルタを用いて時間信号処理によってエネルギレベルを算出しても良い。

また、補正係数算出部７５３は、推定される背景雑音信号のレベルＥｎが所定のレベルより低い場合、下記の式（３４）のような処理を追加して調整後の修正量Ｄ２をさらに調整してもよい。
Ｄ２’＝λ’×Ｅｎ×Ｄ２（ただし、（０≦（λ’×Ｅｎ）≦１） …（３４）

式（３４）において、λ’は背景雑音信号のレベルＥｎに掛ける調整係数であり、例えばλ’＝０．１を用いる。λ’＝０．１であり、背景雑音レベルＥｎが１０ｄＢを超え、λ’×Ｅｎが「１」を越える場合には、補正係数算出部７５３は、λ’×Ｅｎ＝１のようにλ’×Ｅｎを「１」にクリップする。また同様に、Ｅｎが０ｄＢ以下である場合には、補正係数算出部７５３は、λ’×Ｅｎ＝０のようにλ’×Ｅｎを「０」にクリップする。なお、Ｅｎは全帯域の雑音信号レベルであっても良い。この処理は、言い換えれば、背景雑音レベルがあるレベル、例えば１０ｄＢ以下になった場合、背景雑音レベルに比例して修正量Ｄ２を小さくする処理である。これは、背景雑音レベルが小さい場合には、背景雑音のスペクトル特性を利用したノイズシェーピングの効果が得られなくなることと、推定される背景雑音レベルの誤差が大きくなる可能性が高くなる（実際には背景雑音が存在せず、息継ぎ音や極低レベルの無声音などによって背景雑音信号が推定される場合がある）ことに対応するためのものである。

以上、本発明の各実施の形態について説明した。

なお、図面において、単にブロック内を通過しているだけのように記載されている信号は、必ずしもそのブロック内を通過しなくても良い。また、信号の分岐がブロックの内部で行われているように記載されていても、必ずしもブロック内部で分岐する必要はなく、信号の分岐はブロックの外で行われても良い。

なお、ＬＳＦおよびＩＳＦはそれぞれＬＳＰ(Line Spectrum Pairs)およびＩＳＰ(Immittance Spectrum Pairs)と呼ぶこともある。

本発明に係る音声符号化装置は、移動体通信システムにおける通信端末装置および基地局装置に搭載することが可能であり、これにより上記と同様の作用効果を有する通信端末装置、基地局装置、および移動体通信システムを提供することができる。

なお、ここでは、本発明をハードウェアで構成する場合を例にとって説明したが、本発明をソフトウェアで実現することも可能である。例えば、本発明に係る音声符号化方法のアルゴリズムをプログラミング言語によって記述し、このプログラムをメモリに記憶しておいて情報処理手段によって実行させることにより、本発明に係る音声符号化装置と同様の機能を実現することができる。

また、上記各実施の形態の説明に用いた各機能ブロックは、典型的には集積回路であるＬＳＩとして実現される。これらは個別に１チップ化されても良いし、一部または全てを含むように１チップ化されても良い。

また、ここではＬＳＩとしたが、集積度の違いによって、ＩＣ、システムＬＳＩ、スーパーＬＳＩ、ウルトラＬＳＩ等と呼称されることもある。

また、集積回路化の手法はＬＳＩに限るものではなく、専用回路または汎用プロセッサで実現しても良い。ＬＳＩ製造後に、プログラム化することが可能なＦＰＧＡ（Field Programmable Gate Array）や、ＬＳＩ内部の回路セルの接続もしくは設定を再構成可能なリコンフィギュラブル・プロセッサを利用しても良い。

さらに、半導体技術の進歩または派生する別技術により、ＬＳＩに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積化を行っても良い。バイオ技術の適用等が可能性としてあり得る。

２００６年９月１５日出願の特願２００６−２５１５３２の日本出願、２００７年３月１日出願の２００７−０５１４８６、および２００７年８月２２日出願の２００７−２１６２４６の日本出願に含まれる明細書、図面および要約書の開示内容は、すべて本願に援用される。

本発明に係る音声符号化装置および音声符号化方法は、音声符号化における量子化雑音をシェイピングする等の用途に適用することができる。

本発明の実施の形態１に係る音声符号化装置の主要な構成を示すブロック図本発明の実施の形態１に係る傾斜補正係数制御部の内部の構成を示すブロック図本発明の実施の形態１に係る雑音区間検出部の内部の構成を示すブロック図本発明の実施の形態１に係る音声符号化装置を用いて、背景雑音よりも音声が支配的である音声区間の音声信号に対し、量子化雑音のシェイピングを行う場合に得られる効果を示す図本発明の実施の形態１に係る音声符号化装置を用いて、背景雑音と音声とが重畳する雑音音声重畳区間の音声信号に対し、量子化雑音のシェイピングを行う場合に得られる効果を示す図本発明の実施の形態２に係る音声符号化装置の主要な構成を示すブロック図本発明の実施の形態３に係る音声符号化装置の主要な構成を示すブロック図本発明の実施の形態３に係る傾斜補正係数制御部の内部の構成を示すブロック図本発明の実施の形態３に係る雑音区間検出部の内部の構成を示すブロック図本発明の実施の形態４に係る傾斜補正係数制御部の内部の構成を示すブロック図本発明の実施の形態４に係る雑音区間検出部の内部の構成を示すブロック図本発明の実施の形態５に係る音声符号化装置の主要な構成を示すブロック図本発明の実施の形態５に係る傾斜補正係数制御部の内部の構成を示すブロック図本発明の実施の形態５に係る傾斜補正係数算出部における傾斜補正係数の算出について説明するための図本発明の実施の形態５に係る音声符号化装置を用いて量子化雑音のシェイピングを行う場合に得られる効果を示す図本発明の実施の形態６に係る音声符号化装置の主要な構成を示すブロック図本発明の実施の形態６に係る重み係数制御部の内部の構成を示すブロック図本発明の実施の形態６に係る重み係数算出部における重み調整係数の算出について説明するための図本発明の実施の形態７に係る傾斜補正係数制御部の内部な構成を示すブロック図本発明の実施の形態７に係る傾斜補正係数算出部の内部な構成を示すブロック図本発明の実施の形態７に係る低域ＳＮＲと、係数修正量との関係を示す図本発明の実施の形態７に係る傾斜補正係数と、低域ＳＮＲとの関係を示す図

Claims

音声信号に対し線形予測分析を行って線形予測係数を生成する線形予測分析手段と、
前記線形予測係数を量子化する量子化手段と、
前記量子化の雑音のスペクトル傾斜を調整するための傾斜補正係数を含む伝達関数を用いて、入力音声信号に対し聴覚重み付けフィルタリングを行い聴覚重み付け音声信号を生成する聴覚重み付け手段と、
前記音声信号の第１周波数帯域の信号対雑音比を用いて、前記傾斜補正係数を制御する傾斜補正係数制御手段と、
前記聴覚重み付け音声信号を用いて適応符号帳および固定符号帳の音源探索を行い音源信号を生成する音源探索手段と、
を具備し、
前記傾斜補正係数制御手段は、
前記音声信号の第１周波数帯域の第１信号の信号対雑音比と、前記音声信号の第１周波数帯域よりも高い第２周波数帯域の第２信号の信号対雑音比とを用いて、前記傾斜補正係数を制御し、
前記傾斜補正係数制御手段は、
前記音声信号から前記第１信号と前記第２信号とを抽出する抽出手段と、
前記第１信号のエネルギと、前記第２信号のエネルギとを算出するエネルギ算出手段と、
前記第１信号の雑音区間のエネルギと、前記第２信号の雑音区間のエネルギとを算出する雑音区間エネルギ算出手段と、
前記第１信号の信号対雑音比と、前記第２信号の信号対雑音比とを算出する信号対雑音比算出手段と、
前記第１信号の信号対雑音比と、前記第２信号の信号対雑音比との差に第１定数を乗算し、さらに第２定数を加算して前記傾斜補正係数を得る傾斜補正係数算出手段と、
を具備する、
音声符号化装置。
前記傾斜補正係数は、
前記第１信号の信号対雑音比よりも前記第２信号の信号対雑音比が高いほど前記量子化雑音の低域成分をより高くシェイピングし、前記第２信号の信号対雑音比よりも前記第１信号の信号対雑音比が高いほど前記量子化雑音の高域成分をより高くシェイピングする傾斜補正係数である、
請求項１記載の音声符号化装置。
前記傾斜補正係数制御手段は、
前記第１信号の雑音区間のエネルギと、前記第２信号の雑音区間のエネルギとを加算し、さらに第３定数を乗算して前記傾斜補正係数の下限値を算出する下限値算出手段と、
前記傾斜補正係数を、前記下限値以上、かつ、あらかじめ定めた上限値以下の範囲内に制限する制限手段と、
をさらに具備する請求項１記載の音声符号化装置。
前記傾斜補正係数制御手段は、
前記音声信号を用いて算出されたエネルギが第１の閾値未満である区間、または前記音声信号に対し線形予測分析を行って得られる線形予測利得の逆数に相当するパラメータが第２の閾値未満であってかつ前記音声信号に対しピッチ分析を行い得られるピッチ予測利得が第３の閾値未満である区間を雑音区間として検出する雑音区間検出手段と、
を具備する請求項１記載の音声符号化装置。
前記雑音区間検出手段は、
前記第１信号のエネルギと、前記第２信号のエネルギとを加算して得られるエネルギと、前記線形予測分析手段における線形予測分析の過程で得られる線形予測利得に関するパラメータと、前記音源探索の過程で得られるピッチ予測利得とを用いて前記音声信号の雑音区間を検出する、
請求項４記載の音声符号化装置。
前記音声信号において、連続的に雑音区間と判定されるフレームの数をカウントする第１カウンタと、連続的に音声区間と判定されるフレームの数をカウントする第２カウンタと、をさらに具備し、
前記雑音区間検出手段は、
前記検出された雑音区間において、前記第１カウンタの値が第４の閾値未満であるか、前記第２カウンタの値が第５の閾値以上であるか、または前記第１信号の信号対雑音比と、前記第２信号の信号対雑音比との両方が第６の閾値未満であるか、のいずれかに該当する区間をさらに検出する、
請求項５記載の音声符号化装置。
音声信号に対し線形予測分析を行って線形予測係数を生成する線形予測分析手段と、
前記線形予測係数を量子化する量子化手段と、
前記量子化の雑音のスペクトル傾斜を調整するための傾斜補正係数を含む伝達関数を用いて、入力音声信号に対し聴覚重み付けフィルタリングを行い聴覚重み付け音声信号を生成する聴覚重み付け手段と、
前記音声信号の第１周波数帯域の信号対雑音比を用いて、前記傾斜補正係数を制御する傾斜補正係数制御手段と、
前記聴覚重み付け音声信号を用いて適応符号帳および固定符号帳の音源探索を行い音源信号を生成する音源探索手段と、
を具備し、
前記傾斜補正係数制御手段は、
前記音声信号から前記第１周波数帯域の第１信号を抽出する抽出手段と、
前記第１信号のエネルギを算出するエネルギ算出手段と、
前記第１信号の雑音区間のエネルギを算出する雑音区間エネルギ算出手段と、
前記第１信号の信号対雑音比が第１の閾値以上である場合には、前記第１信号の信号対雑音比が大きいほど前記傾斜補正係数の値をより大きくし、前記第１信号の信号対雑音比が第１の閾値より小さい場合には、前記第１信号の信号対雑音比が小さいほど前記傾斜補正係数の値をより大きくする傾斜補正係数算出手段と、
を具備し、
前記傾斜補正係数算出手段は、
前記傾斜補正係数の値を所定の範囲に制限し、前記第１信号の信号対雑音比が第２の閾値以下または第３の閾値以上である場合には、前記傾斜補正係数の値を前記所定の範囲の最大値にする、
音声符号化装置。
音声信号に対し線形予測分析を行って線形予測係数を生成する線形予測分析手段と、
前記線形予測係数を量子化する量子化手段と、
前記量子化の雑音のスペクトル傾斜を調整するための傾斜補正係数を含む伝達関数を用いて、入力音声信号に対し聴覚重み付けフィルタリングを行い聴覚重み付け音声信号を生成する聴覚重み付け手段と、
前記音声信号の信号対雑音比を用いて、前記聴覚重み付け手段において入力音声信号に対し聴覚重み付けフィルタリングを行う線形予測逆フィルタを構成する重み係数を制御する重み係数制御手段と、
前記聴覚重み付け音声信号を用いて適応符号帳および固定符号帳の音源探索を行い音源信号を生成する音源探索手段と、
を具備し、
前記重み係数制御手段は、
前記音声信号のエネルギを算出するエネルギ算出手段と、
前記音声信号の雑音区間のエネルギを算出する雑音区間エネルギ算出手段と、
前記音声信号の信号対雑音比が第１の閾値以上である場合には、前記音声信号の信号対雑音比が大きいほどより大きくなり、前記音声信号の信号対雑音比が第１の閾値より小さい場合には、前記音声信号の信号対雑音比が小さいほどより小さくなる調整係数を算出し、前記音声信号の雑音区間の線形予測係数に前記調整係数を乗じて前記重み係数を算出する算出手段と、
を具備し、
前記算出手段は、
前記音声信号の信号対雑音比が第２の閾値以下または第３の閾値以上である場合には、前記調整係数を「０」とする、
音声符号化装置。
音声信号に対し線形予測分析を行って線形予測係数を生成する線形予測分析手段と、
前記線形予測係数を量子化する量子化手段と、
前記量子化の雑音のスペクトル傾斜を調整するための傾斜補正係数を含む伝達関数を用いて、入力音声信号に対し聴覚重み付けフィルタリングを行い聴覚重み付け音声信号を生成する聴覚重み付け手段と、
前記音声信号の第１周波数帯域の信号対雑音比を用いて、前記傾斜補正係数を制御する傾斜補正係数制御手段と、
前記聴覚重み付け音声信号を用いて適応符号帳および固定符号帳の音源探索を行い音源信号を生成する音源探索手段と、
を具備し、
前記傾斜補正係数制御手段は、
前記音声信号の第１周波数帯域におけるエネルギと、前記音声信号の前記第１周波数帯域よりも高い第２周波数帯域におけるエネルギを算出するエネルギ算出手段と、
前記音声信号の第１周波数帯域および第２周波数帯域それぞれにおける雑音区間のエネルギを算出する雑音区間エネルギ算出手段と、
前記音声信号の第１周波数帯域における信号対雑音比を算出する信号対雑音比算出手段と、
前記音声信号の第１周波数帯域における信号対雑音比と、前記音声信号の第１周波数帯域および第２周波数帯域それぞれにおける雑音区間のエネルギの比と、に基づき前記傾斜補正係数を算出する傾斜補正係数算出手段と、
を具備する、
音声符号化装置。
音声信号に対し線形予測分析を行って線形予測係数を生成するステップと、
前記線形予測係数を量子化するステップと、
前記量子化の雑音のスペクトル傾斜を調整するための傾斜補正係数を含む伝達関数を用いて、入力音声信号に対し聴覚重み付けフィルタリングを行い聴覚重み付け音声信号を生成するステップと、
前記音声信号の第１周波数帯域の信号対雑音比を用いて、前記傾斜補正係数を制御するステップと、
前記聴覚重み付け音声信号を用いて適応符号帳および固定符号帳の音源探索を行い音源信号を生成するステップと、
を具備し、
前記傾斜補正係数を制御するステップは、
前記音声信号の第１周波数帯域の第１信号の信号対雑音比と、前記音声信号の第１周波数帯域よりも高い第２周波数帯域の第２信号の信号対雑音比とを用いて、前記傾斜補正係数を制御し、
前記傾斜補正係数を制御するステップは、
前記音声信号から前記第１信号と前記第２信号とを抽出するステップと、
前記第１信号のエネルギと、前記第２信号のエネルギとを算出するステップと、
前記第１信号の雑音区間のエネルギと、前記第２信号の雑音区間のエネルギとを算出するステップと、
前記第１信号の信号対雑音比と、前記第２信号の信号対雑音比とを算出するステップと、
前記第１信号の信号対雑音比と、前記第２信号の信号対雑音比との差に第１定数を乗算し、さらに第２定数を加算して前記傾斜補正係数を得るステップと、
を具備する音声符号化方法。