JPWO2014034697A1

JPWO2014034697A1 - 復号方法、復号装置、プログラム、及びその記録媒体

Info

Publication number: JPWO2014034697A1
Application number: JP2014533035A
Authority: JP
Inventors: 祐介日和▲崎▼; 守谷　健弘; 健弘守谷; 登原田; 優鎌本; 勝宏福井
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2012-08-29
Filing date: 2013-08-28
Publication date: 2016-08-08
Also published as: CN107945813B; ES2881672T3; CN108053830B; US9640190B2; WO2014034697A1; PL2869299T3; KR20150032736A; EP2869299A1; CN108053830A; KR101629661B1; CN104584123B; US20150194163A1; EP2869299B1; EP2869299A4; CN107945813A; CN104584123A

Abstract

ＣＥＬＰ系の方式をはじめとする音声の生成モデルに基づく音声符号化方式において、入力信号が雑音重畳音声であったとしても自然な再生音を実現できる復号方法を提供することを目的とする。入力された符号から復号音声信号を得る音声復号ステップと、ランダムな信号である雑音信号を生成する雑音生成ステップと、過去のフレームの復号音声信号に対応するパワーと現在のフレームの復号音声信号に対応するスペクトル包絡との少なくとも何れかに基づく信号処理を雑音信号に対して行って得られる信号と、復号音声信号とを加算して得た雑音付加処理後信号を出力信号とする雑音付加ステップとを含む。

Description

本発明は、例えば音声や音楽などの音響、映像等の信号系列を少ない情報量でディジタル符号化した符号を復号する復号方法、復号装置、プログラム、及びその記録媒体に関する。

現在、音声を高能率に符号化する方法として、例えば、入力信号（特に音声）に含まれる５〜２００ｍｓ程度の一定間隔の各区間（フレーム）の入力信号系列を処理対象とし、その１フレームの音声を、周波数スペクトルの包絡特性を表す線形フィルタの特性と、そのフィルタを駆動するための駆動音源信号との２つの情報に分離し、それぞれを符号化する手法が提案されている。この手法における駆動音源信号を符号化する方法として、音声のピッチ周期（基本周波数）に対応すると考えられる周期成分と、それ以外の成分に分離して符号化する符号駆動線形予測符号化（Ｃｏｄｅ−Ｅｘｃｉｔｅｄ＿Ｌｉｎｅａｒ＿Ｐｒｅｄｉｃｔｉｏｎ：ＣＥＬＰ）が知られている（非特許文献１）。

図１、図２を参照して従来技術の符号化装置１について説明する。図１は従来技術の符号化装置１の構成を示すブロック図である。図２は、従来技術の符号化装置１の動作を示すフローチャートである。図１に示すように、符号化装置１は線形予測分析部１０１と、線形予測係数符号化部１０２と、合成フィルタ部１０３と、波形歪み計算部１０４と、符号帳検索制御部１０５と、ゲイン符号帳部１０６と、駆動音源ベクトル生成部１０７と、合成部１０８とを備える。以下、符号化装置１の各構成部の動作について説明する。

＜線形予測分析部１０１＞
線形予測分析部１０１には、時間領域の入力信号ｘ（ｎ）（ｎ＝０，…，Ｌ−１，Ｌは１以上の整数）に含まれる連続する複数サンプルからなるフレーム単位の入力信号系列ｘ_Ｆ（ｎ）が入力される。線形予測分析部１０１は、入力信号系列ｘ_Ｆ（ｎ）を取得して、入力音声の周波数スペクトル包絡特性を表す線形予測係数ａ（ｉ）（ｉは予測次数、ｉ＝１，…，Ｐ，Ｐは１以上の整数）を計算する（Ｓ１０１）。線形予測分析部１０１は非線形なものに置き換えてもよい。

＜線形予測係数符号化部１０２＞
線形予測係数符号化部１０２は、線形予測係数ａ（ｉ）を取得して、当該線形予測係数ａ（ｉ）を量子化および符号化して、合成フィルタ係数ａ＾（ｉ）と線形予測係数符号を生成、出力する（Ｓ１０２）。なお、ａ＾（ｉ）は、ａ（ｉ）の上付きハットを意味する。線形予測係数符号化部１０２は非線形なものに置き換えてもよい。

＜合成フィルタ部１０３＞
合成フィルタ部１０３は、合成フィルタ係数ａ＾（ｉ）と、後述する駆動音源ベクトル生成部１０７が生成する駆動音源ベクトル候補ｃ（ｎ）とを取得する。合成フィルタ部１０３は、駆動音源ベクトル候補ｃ（ｎ）に合成フィルタ係数ａ＾（ｉ）をフィルタの係数とする線形フィルタ処理を行い、入力信号候補ｘ_Ｆ＾（ｎ）を生成、出力する（Ｓ１０３）。なお、ｘ＾は、ｘの上付きハットを意味する。合成フィルタ部１０３は非線形なものに置き換えてもよい。

＜波形歪み計算部１０４＞
波形歪み計算部１０４は、入力信号系列ｘ_Ｆ（ｎ）と線形予測係数ａ（ｉ）と入力信号候補ｘ_Ｆ＾（ｎ）とを取得する。波形歪み計算部１０４は、入力信号系列ｘ_Ｆ（ｎ）と入力信号候補ｘ_Ｆ＾（ｎ）の歪みｄを計算する（Ｓ１０４）。歪み計算は、線形予測係数ａ（ｉ）（または合成フィルタ係数ａ＾（ｉ））を考慮にいれて行われることが多い。

＜符号帳検索制御部１０５＞
符号帳検索制御部１０５は、歪みｄを取得して、駆動音源符号、すなわち後述するゲイン符号帳部１０６および駆動音源ベクトル生成部１０７で用いるゲイン符号、周期符号および固定（雑音）符号を選択、出力する（Ｓ１０５Ａ）。ここで、歪みｄが最小、または最小に準ずる値であれば（Ｓ１０５ＢＹ）、ステップＳ１０８に遷移して、後述する合成部１０８が動作を実行する。一方、歪みｄが最小、または最小に準ずる値でなければ（Ｓ１０５ＢＮ）、ステップＳ１０６、Ｓ１０７、Ｓ１０３、Ｓ１０４が順次実行されて、本構成部の動作であるステップＳ１０５Ａに帰還する。従って、ステップＳ１０５ＢＮの分岐に入る限り、ステップＳ１０６、Ｓ１０７、Ｓ１０３、Ｓ１０４、Ｓ１０５Ａが繰り返し実行されることで、符号帳検索制御部１０５は、最終的に入力信号系列ｘ_Ｆ（ｎ）と入力信号候補ｘ_Ｆ＾（ｎ）の歪みｄが最小または最小に準ずるような駆動音源符号を選択、出力する（Ｓ１０５ＢＹ）。

＜ゲイン符号帳部１０６＞
ゲイン符号帳部１０６は、駆動音源符号を取得して、駆動音源符号中のゲイン符号により量子化ゲイン（ゲイン候補）ｇ_ａ，ｇ_ｒを出力する（Ｓ１０６）。

＜駆動音源ベクトル生成部１０７＞
駆動音源ベクトル生成部１０７は、駆動音源符号と量子化ゲイン（ゲイン候補）ｇ_ａ，ｇ_ｒを取得して、駆動音源符号に含まれる周期符号および固定符号により、１フレーム分の長さの駆動音源ベクトル候補ｃ（ｎ）を生成する（Ｓ１０７）。駆動音源ベクトル生成部１０７は、一般に、図に示していない適応符号帳と固定符号帳から構成されることが多い。適応符号帳は、周期符号に基づき、バッファに記憶された直前の過去の駆動音源ベクトル（既に量子化された直前の１〜数フレーム分の駆動音源ベクトル）を、ある周期に相当する長さで切り出し、その切り出したベクトルをフレームの長さになるまで繰り返すことによって、音声の周期成分に対応する時系列ベクトルの候補を生成、出力する。上記「ある周期」として、適応符号帳は波形歪み計算部１０４における歪みｄが小さくなるような周期が選択する。選択された周期は、一般には音声のピッチ周期に相当することが多い。固定符号帳は、固定符号に基づき、音声の非周期成分に対応する１フレーム分の長さの時系列符号ベクトルの候補を生成、出力する。これらの候補は入力音声とは独立に符号化のためのビット数に応じて、あらかじめ指定された数の候補ベクトルを記憶したうちの１つであったり、あらかじめ決められた生成規則によってパルスを配置して生成されたベクトルの１つであったりする。なお、固定符号帳は、本来音声の非周期成分に対応するものであるが、特に母音区間など、ピッチ周期性の強い音声区間では、上記あらかじめ用意された候補ベクトルに、ピッチ周期または適応符号帳で用いるピッチに対応する周期を持つ櫛形フィルタをかけたり、適応符号帳での処理と同様にベクトルを切り出して繰り返したりして固定符号ベクトルとすることもある。駆動音源ベクトル生成部１０７は、適応符号帳および固定符号帳から出力された時系列ベクトルの候補ｃ_ａ（ｎ）およびｃ_ｒ（ｎ）にゲイン符号帳部２３から出力されるゲイン候補ｇ_ａ，ｇ_ｒを乗算して加算し、駆動音源ベクトルの候補ｃ（ｎ）を生成する。実際の動作中には適応符号帳のみまたは固定符号帳のみが用いられる場合もある。

＜合成部１０８＞
合成部１０８は、線形予測係数符号と駆動音源符号とを取得して、線形予測係数符号と駆動音源符号をまとめた符号を生成、出力する（Ｓ１０８）。符号は復号装置２へ伝送される。

次に、図３、図４を参照して従来技術の復号装置２について説明する。図３は符号化装置１に対応する従来技術の復号装置２の構成を示すブロック図である。図４は従来技術の復号装置２の動作を示すフローチャートである。図３に示すように、復号装置２は、分離部１０９と、線形予測係数復号部１１０と、合成フィルタ部１１１と、ゲイン符号帳部１１２と、駆動音源ベクトル生成部１１３と、後処理部１１４とを備える。以下、復号装置２の各構成部の動作について説明する。

＜分離部１０９＞
符号化装置１から送信された符号は復号装置２に入力される。分離部１０９は符号を取得して、当該符号から、線形予測係数符号と、駆動音源符号とを分離して取り出す（Ｓ１０９）。

＜線形予測係数復号部１１０＞
線形予測係数復号部１１０は、線形予測係数符号を取得して、線形予測係数符号化部１０２が行う符号化方法と対応する復号方法により、線形予測係数符号から合成フィルタ係数ａ＾（ｉ）を復号する（Ｓ１１０）。

＜合成フィルタ部１１１＞
合成フィルタ部１１１は、前述した合成フィルタ部１０３と同じ動作をする。従って、合成フィルタ部１１１は、合成フィルタ係数ａ＾（ｉ）と、駆動音源ベクトルｃ（ｎ）とを取得する。合成フィルタ部１１１は、駆動音源ベクトルｃ（ｎ）に合成フィルタ係数ａ＾（ｉ）をフィルタの係数とする線形フィルタ処理を行い、ｘ_Ｆ＾（ｎ）（復号装置においては、合成信号系列ｘ_Ｆ＾（ｎ）と呼ぶものとする）を生成、出力する（Ｓ１１１）。

＜ゲイン符号帳部１１２＞
ゲイン符号帳部１１２は、前述したゲイン符合帳部１０６と同じ動作をする。従って、ゲイン符号帳部１１２は、駆動音源符号を取得して、駆動音源符号中のゲイン符号によりｇ_ａ，ｇ_ｒ（復号装置においては、復号ゲインｇ_ａ，ｇ_ｒと呼ぶものとする）を生成、出力する（Ｓ１１２）。

＜駆動音源ベクトル生成部１１３＞
駆動音源ベクトル生成部１１３は、前述した駆動音源ベクトル生成部１０７と同じ動作をする。従って、駆動音源ベクトル生成部１１３は、駆動音源符号と復号ゲインｇ_ａ，ｇ_ｒを取得して、駆動音源符号に含まれる周期符号および固定符号により、１フレーム分の長さのｃ（ｎ）（復号装置においては、駆動音源ベクトルｃ（ｎ）と呼ぶものとする）を生成、出力する（Ｓ１１３）。

＜後処理部１１４＞
後処理部１１４は、合成信号系列ｘ_Ｆ＾（ｎ）を取得する。後処理部１１４は、スペクトル強調やピッチ強調の処理を合成信号系列ｘ_Ｆ＾（ｎ）に施し、量子化ノイズを聴覚的に低減させた出力信号系列ｚ_Ｆ（ｎ）を生成、出力する（Ｓ１１４）。

M.R. Schroeder and B.S. Atal，"Code-Excited Linear Prediction（CELP）：High Quality Speech at Very Low Bit Rates"，IEEE Proc. ICASSP-85，pp.937-940，1985.

このようなＣＥＬＰ系符号化方式をはじめとする音声の生成モデルに基づく符号化方式は、少ない情報量で高品質な符号化を実現することができるが、オフィスや街頭など、背景雑音のある環境で録音された音声（以下、「雑音重畳音声」と言う。）が入力されると、背景雑音は音声とは性質が異なるため、モデルに当てはまらないことによる量子化歪みが発生し、不快な音が知覚される問題があった。そこで本発明では、ＣＥＬＰ系の方式をはじめとする音声の生成モデルに基づく音声符号化方式において、入力信号が雑音重畳音声であったとしても自然な再生音を実現できる復号方法を提供することを目的とする。

本発明の復号方法は、音声復号ステップと、雑音生成ステップと雑音付加ステップとを含む。音声復号ステップにおいて、入力された符号から復号音声信号を得る。雑音生成ステップにおいて、ランダムな信号である雑音信号を生成する。雑音付加ステップにおいて、過去のフレームの復号音声信号に対応するパワーと現在のフレームの復号音声信号に対応するスペクトル包絡との少なくとも何れかに基づく信号処理を前記雑音信号に対して行って得られる信号と、前記復号音声信号とを加算して得た雑音付加処理後信号を出力信号とする。

本発明の復号方法によれば、ＣＥＬＰ系の方式をはじめとする音声の生成モデルに基づく音声符号化方式において、入力信号が雑音重畳音声であったとしても、モデルに当てはまらないことによる量子化歪みがマスクされることで不快な音が知覚されづらくなり、より自然な再生音を実現できる。

従来技術の符号化装置の構成を示すブロック図。従来技術の符号化装置の動作を示すフローチャート。従来技術の復号装置の構成を示すブロック図。従来技術の復号装置の動作を示すフローチャート。実施例１の符号化装置の構成を示すブロック図。実施例１の符号化装置の動作を示すフローチャート。実施例１の符号化装置の制御部の構成を示すブロック図。実施例１の符号化装置の制御部の動作を示すフローチャート。実施例１およびその変形例の復号装置の構成を示すブロック図。実施例１およびその変形例の復号装置の動作を示すフローチャート。実施例１およびその変形例の復号装置の雑音付加部の構成を示すブロック図。実施例１およびその変形例の復号装置の雑音付加部の動作を示すフローチャート。

以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。

図５から図８を参照して実施例１の符号化装置３について説明する。図５は本実施例の符号化装置３の構成を示すブロック図である。図６は本実施例の符号化装置３の動作を示すフローチャートである。図７は本実施例の符号化装置３の制御部２１５の構成を示すブロック図である。図８は本実施例の符号化装置３の制御部２１５の動作を示すフローチャートである。

図５に示す通り、本実施例の符号化装置３は、線形予測分析部１０１と、線形予測係数符号化部１０２と、合成フィルタ部１０３と、波形歪み計算部１０４と、符号帳検索制御部１０５と、ゲイン符号帳部１０６と、駆動音源ベクトル生成部１０７と、合成部２０８と、制御部２１５とを備える。従来技術の符号化装置１との差分は、従来例における合成部１０８が本実施例において合成部２０８となっている点、制御部２１５が加えられた点のみである。従って、従来技術の符号化装置１と共通する番号を備える各構成部の動作については前述したとおりであるから説明を割愛する。以下、従来技術との差分である制御部２１５、合成部２０８の動作について説明する。

＜制御部２１５＞
制御部２１５は、フレーム単位の入力信号系列ｘ_Ｆ（ｎ）を取得して、制御情報符号を生成する（Ｓ２１５）。より詳細には、制御部２１５は、図７に示すように、ローパスフィルタ部２１５１、パワー加算部２１５２、メモリ２１５３、フラグ付与部２１５４、音声区間検出部２１５５を備える。ローパスフィルタ部２１５１は、連続する複数サンプルからなるフレーム単位の入力信号系列ｘ_Ｆ（ｎ）（１フレームを０〜Ｌ−１のＬ点の信号系列とする）を取得して、入力信号系列ｘ_Ｆ（ｎ）をローパスフィルタ（低域通過フィルタ）を用いてフィルタリング処理して低域通過入力信号系列ｘ_ＬＰＦ（ｎ）を生成、出力する（ＳＳ２１５１）。フィルタリング処理には、無限インパルス応答（ＩＩＲ：Ｉｎｆｉｎｉｔｅ＿Ｉｍｐｕｌｓｅ＿Ｒｅｓｐｏｎｓｅ）フィルタと有限インパルス応答（ＦＩＲ：Ｆｉｎｉｔｅ＿Ｉｍｐｕｌｓｅ＿Ｒｅｓｐｏｎｓｅ）フィルタのどちらを用いてもよい。またそれ以外のフィルタリング処理方法であってもよい。

次に、パワー加算部２１５２は、低域通過入力信号系列ｘ_ＬＰＦ（ｎ）を取得して、当該ｘ_ＬＰＦ（ｎ）のパワーの加算値を、低域通過信号エネルギーｅ_ＬＰＦ（０）として、例えば次式で計算する（ＳＳ２１５２）。

パワー加算部２１５２は、計算した低域通過信号エネルギーを、過去の所定フレーム数Ｍ（例えばＭ＝５）に渡りメモリ２１５３に記憶する（ＳＳ２１５２）。例えば、パワー加算部２１５２は、現在のフレームより１フレーム過去からのＭフレーム過去のフレームまでの低域通過信号エネルギーをｅ_ＬＰＦ（１）〜ｅ_ＬＰＦ（Ｍ）としてメモリ２１５３に記憶する。

次に、フラグ付与部２１５４は、現フレームが音声が発話された区間（以下、「音声区間」と称す）であるか否かを検出し、音声区間検出フラグｃｌａｓ（０）に値を代入する（ＳＳ２１５４）。例えば、音声区間ならばｃｌａｓ（０）＝１、音声区間でないならばｃｌａｓ（０）＝０とする。音声区間検出には、一般的に用いられているＶＡＤ（Ｖｏｉｃｅ＿Ａｃｔｉｖｉｔｙ＿Ｄｅｔｅｃｔｉｏｎ）法でもよいし、音声区間が検出できればそれ以外の方法でもよい。また、音声区間検出は母音区間を検出するものであってもよい。ＶＡＤ法は例えば、ＩＴＵ−Ｔ＿Ｇ．７２９＿Ａｎｎｅｘ＿Ｂ（参考非特許文献１）などで無音部分を検出して情報圧縮するために用いられている。

フラグ付与部２１５４は、音声区間検出フラグｃｌａｓを、過去の所定フレーム数Ｎ（例えばＮ＝５）に渡りメモリ２１５３に記憶する（ＳＳ２１５２）。例えば、フラグ付与部２１５４は、現在のフレームより１フレーム過去からのＮフレーム過去のフレームまでの音声区間検出フラグをｃｌａｓ（１）〜ｃｌａｓ（Ｎ）としてメモリ２１５３に記憶する。

（参考非特許文献１）A Benyassine, E Shlomot, H-Y Su, D Massaloux, C Lamblin, J-P Petit, ITU-T recommendation G.729 Annex B: a silence compression scheme for use with G.729 optimized for V.70 digital simultaneous voice and data applications. IEEE Communications Magazine 35(9), 64-73 (1997).

次に、音声区間検出部２１５５は、低域通過信号エネルギーｅ_ＬＰＦ（０）〜ｅ_ＬＰＦ（Ｍ）および音声区間検出フラグｃｌａｓ（０）〜ｃｌａｓ（Ｎ）を用いて音声区間検出を行う（ＳＳ２１５５）。具体的には、音声区間検出部２１５５は、低域通過信号エネルギーｅＬＰＦ（０）〜ｅＬＰＦ（Ｍ）の全てのパラメータが所定の閾値より大きく、音声区間検出フラグｃｌａｓ（０）〜ｃｌａｓ（Ｎ）の全てのパラメータが０である（音声区間でないまたは母音区間でない）とき、現フレームの信号のカテゴリが雑音重畳音声であることを示す値（制御情報）を制御情報符号として生成し、合成部２０８に出力する（ＳＳ２１５５）。上記条件に当てはまらない場合は、１フレーム過去の制御情報を引き継ぐ。つまり、１フレーム過去の入力信号系列が雑音重畳音声であれば、現フレームも雑音重畳音声であるとし、１フレーム過去が雑音重畳音声でないとすれば、現フレームも雑音重畳音声でないとする。制御情報の初期値は雑音重畳音声を示す値であってもよいし、そうでなくてもよい。例えば、制御情報は、入力信号系列が雑音重畳音声かそうでないかの２値（１ビット）で出力される。

＜合成部２０８＞
合成部２０８の動作は入力に制御情報符号が加わったこと以外は合成部１０８と同じである。従って、合成部２０８は、制御情報符号と、線形予測符号と、駆動音源符号とを取得して、これらをまとめて符号を生成する（Ｓ２０８）。

次に、図９から図１２を参照して実施例１の復号装置４について説明する。図９は本実施例およびその変形例の復号装置４（４’）の構成を示すブロック図である。図１０は本実施例およびその変形例の復号装置４（４’）の動作を示すフローチャートである。図１１は本実施例およびその変形例の復号装置４の雑音付加部２１６の構成を示すブロック図である。図１２は本実施例およびその変形例の復号装置４の雑音付加部２１６の動作を示すフローチャートである。

図９に示す通り、本実施例の復号装置４は、分離部２０９と、線形予測係数復号部１１０と、合成フィルタ部１１１と、ゲイン符号帳部１１２と、駆動音源ベクトル生成部１１３と、後処理部２１４と、雑音付加部２１６と、雑音ゲイン計算部２１７とを備える。従来技術の復号装置３との差分は、従来例における分離部１０９が本実施例において分離部２０９となっている点、従来例における後処理部１１４が本実施例において後処理部２１４となっている点、雑音付加部２１６、雑音ゲイン計算部２１７が加えられた点のみである。従って、従来技術の復号装置２と共通する番号を備える各構成部の動作については前述したとおりであるから説明を割愛する。以下、従来技術との差分である分離部２０９、雑音ゲイン計算部２１７、雑音付加部２１６、後処理部２１４の動作について説明する。

＜分離部２０９＞
分離部２０９の動作は、出力に制御情報符号が加わった以外、分離部１０９と同じである。従って、分離部２０９は、符号化装置３から符号を取得して、当該符号から制御情報符号と、線形予測係数符号と、駆動音源符号とを分離して取り出す（Ｓ２０９）。以下、ステップＳ１１２、Ｓ１１３、Ｓ１１０、Ｓ１１１が実行される。

＜雑音ゲイン計算部２１７＞
次に、雑音ゲイン計算部２１７は、合成信号系列ｘ_Ｆ＾（ｎ）を取得して、現在のフレームが雑音区間などの音声区間でない区間であれば、例えば次式を用いて雑音ゲインｇ_ｎを計算する（Ｓ２１７）。

過去フレームで求めた雑音ゲインを用いた指数平均により雑音ゲインｇ_ｎを次式で更新してもよい。

雑音ゲインｇ_ｎの初期値は０等の所定の値であってもよいし、あるフレームの合成信号系列ｘ_Ｆ＾（ｎ）から求めた値であってもよい。εは０＜ε≦１を満たす忘却係数であり、指数関数的な減衰の時定数を決定する。例えばε＝０．６として、雑音ゲインｇ_ｎを更新する。雑音ゲインｇ_ｎの計算式は式（４）や式（５）であってもよい。

現在のフレームが雑音区間などの音声区間でない区間かどうかの検出には、非特許文献２などの一般的に用いられているＶＡＤ（Ｖｏｉｃｅ＿Ａｃｔｉｖｉｔｙ＿Ｄｅｔｅｃｔｉｏｎ）法でもよいし、音声区間でない区間が検出できればそれ以外の方法でもよい。

＜雑音付加部２１６＞
雑音付加部２１６は、合成フィルタ係数ａ＾（ｉ）と制御情報符号と合成信号系列ｘ_Ｆ＾（ｎ）と雑音ゲインｇ_ｎを取得して、雑音付加処理後信号系列ｘ_Ｆ＾’（ｎ）を生成、出力する（Ｓ２１６）。

より詳細には、雑音付加部２１６は、図１１に示すように、雑音重畳音声判定部２１６１と、合成ハイパスフィルタ部２１６２と、雑音付加処理後信号生成部２１６３とを備える。雑音重畳音声判定部２１６１は、制御情報符号から、制御情報を復号して、現在のフレームのカテゴリが雑音重畳音声であるか否かを判定し、現在のフレームが雑音重畳音声である場合（Ｓ２１６１ＢＹ）、振幅の値が−１から１の間の値をとるランダムに発生させた白色雑音のＬ点の信号系列を正規化白色雑音信号系列ρ（ｎ）として生成する（ＳＳ２１６１Ｃ）。次に、合成ハイパスフィルタ部２１６２は、正規化白色雑音信号系列ρ（ｎ）を取得して、ハイパスフィルタ（高域通過フィルタ）と、雑音の概形に近づけるために合成フィルタを鈍らせたフィルタを組合せたフィルタを用いて、正規化白色雑音信号系列ρ（ｎ）をフィルタリング処理して、高域通過正規化雑音信号系列ρ_ＨＰＦ（ｎ）を生成、出力する（ＳＳ２１６２）。フィルタリング処理には、無限インパルス応答（ＩＩＲ：Ｉｎｆｉｎｉｔｅ＿Ｉｍｐｕｌｓｅ＿Ｒｅｓｐｏｎｓｅ）フィルタと有限インパルス応答（ＦＩＲ：Ｆｉｎｉｔｅ＿Ｉｍｐｕｌｓｅ＿Ｒｅｓｐｏｎｓｅ）フィルタのどちらを用いてもよい。またそれ以外のフィルタリング処理方法であってもよい。例えば、ハイパスフィルタ（高域通過フィルタ）と合成フィルタを鈍らせたフィルタを組合せたフィルタをＨ（ｚ）として、次式のようにしてもよい。

ここで、Ｈ_ＨＰＦ（ｚ）はハイパスフィルタ、Ａ＾（Ｚ／γ_ｎ）は合成フィルタを鈍らせたフィルタを示す。ｑは線形予測次数を表し、例えば１６とする。γ_ｎは雑音の概形に近づけるために合成フィルタを鈍らせるパラメータで、例えば０．８とする。

ハイパスフィルタを用いる理由は、次の通りである。ＣＥＬＰ系符号化方式をはじめとする音声の生成モデルに基づく符号化方式では、エネルギーの大きい周波数帯域に多くのビットが配分されるので、音声の特性上、高域ほど音質が劣化しがちである。そこで、ハイパスフィルタを用いることで、音質が劣化している高域に雑音を多く付加し、音質の劣化が小さい低域には雑音を付加しないようにすることができる。これにより、聴感上劣化の少ない、より自然な音を作ることができる。

雑音付加処理後信号生成部２１６３は、合成信号系列ｘ_Ｆ＾（ｎ）、高域通過正規化雑音信号系列ρ_ＨＰＦ（ｎ）、前述した雑音ゲインｇ_ｎを取得して、例えば次式により雑音付加処理後信号系列ｘ_Ｆ＾’（ｎ）を計算する（ＳＳ２１６３）。

ここで、Ｃ_ｎは０．０４等の付加する雑音の大きさを調整する所定の定数とする。

一方、サブステップＳＳ２１６１Ｂにおいて、雑音重畳音声判定部２１６１が現在のフレームが雑音重畳音声でないと判断した場合（ＳＳ２１６１ＢＮ）、サブステップＳＳ２１６１Ｃ、ＳＳ２１６２、ＳＳ２１６３は実行されない。この場合、雑音重畳音声判定部２１６１は、合成信号系列ｘ_Ｆ＾（ｎ）を取得して、当該ｘ_Ｆ＾（ｎ）をそのまま雑音付加処理後信号系列ｘ_Ｆ＾’（ｎ）として出力する（ＳＳ２１６１Ｄ）。雑音重畳音声判定部２１６１から出力される雑音付加処理後信号系列ｘ_Ｆ＾（ｎ）は、そのまま雑音付加部２１６の出力となる。

＜後処理部２１４＞
後処理部２１４は、入力が合成信号系列から雑音付加処理後信号系列に置き換わったこと以外は、後処理部１１４と同じである。従って、後処理部２１４は、雑音付加処理後信号系列ｘ_Ｆ＾’（ｎ）を取得して、スペクトル強調やピッチ強調の処理を雑音付加処理後信号系列ｘ_Ｆ＾’（ｎ）に施し、量子化ノイズを聴覚的に低減させた出力信号系列ｚ_Ｆ（ｎ）を生成、出力する（Ｓ２１４）。

［変形例１］
以下、図９、図１０を参照して実施例１の変形例に係る復号装置４’について説明する。図９に示すように、本変形例の復号装置４’は、分離部２０９と、線形予測係数復号部１１０と、合成フィルタ部１１１と、ゲイン符号帳部１１２と、駆動音源ベクトル生成部１１３と、後処理部２１４と、雑音付加部２１６と、雑音ゲイン計算部２１７’とを備える。実施例１の復号装置４との差分は、実施例１における雑音ゲイン計算部２１７が本変形例において雑音ゲイン計算部２１７’となっている点のみである。

＜雑音ゲイン計算部２１７’＞
雑音ゲイン計算部２１７’は、合成信号系列ｘ_Ｆ＾（ｎ）の代わりに、雑音付加処理後信号系列ｘ_Ｆ＾’（ｎ）を取得して、現在のフレームが雑音区間などの音声区間でない区間であれば、例えば次式を用いて雑音ゲインｇ_ｎを計算する（Ｓ２１７’）。

前述同様、雑音ゲインｇ_ｎを式（３’）で計算してもよい。

前述同様、雑音ゲインｇ_ｎの計算式は式（４’）や式（５’）であってもよい。

このように、本実施例および変形例の符号化装置３、復号装置４（４’）によれば、ＣＥＬＰ系の方式をはじめとする音声の生成モデルに基づく音声符号化方式において、入力信号が雑音重畳音声であったとしても、モデルに当てはまらないことによる量子化歪みがマスクされることで不快な音が知覚されづらくなり、より自然な再生音を実現できる。

前述した実施例１及びその変形例では、符号化装置、復号装置の具体的な計算、出力方法を記載したが、本発明の符号化装置（符号化方法）、復号装置（復号方法）は前述の実施例１及びその変形例に例示した具体的な方法に限定されない。以下、本発明の復号装置の動作を別の表現で記載する。本発明における復号音声信号（実施例１において合成信号系列ｘ_Ｆ＾（ｎ）として例示）を生成するまでの手順（実施例１においてステップＳ２０９、Ｓ１１２、Ｓ１１３、Ｓ１１０、Ｓ１１１として例示）をひとつの音声復号ステップと捉えることができる。また、雑音信号を生成するステップ（実施例１においてサブステップＳＳ２１６１Ｃとして例示）を雑音生成ステップと呼ぶこととする。さらに、雑音付加処理後信号を生成するステップ（実施例１においてサブステップＳＳ２１６３として例示）を雑音付加ステップと呼ぶこととする。

この場合、音声復号ステップと雑音生成ステップと雑音付加ステップとを含む、より一般化された復号方法を見出すことができる。音声復号ステップでは、入力された符号から復号音声信号（ｘ_Ｆ＾（ｎ）として例示）を得る。雑音生成ステップでは、ランダムな信号である雑音信号（実施例１において、正規化白色雑音信号系列ρ（ｎ）として例示）を生成する。雑音付加ステップでは、過去のフレームの復号音声信号に対応するパワー（実施例１において雑音ゲインｇ_ｎとして例示）と現在のフレームの復号音声信号に対応するスペクトル包絡（実施例１においてフィルタＡ＾（ｚ）やＡ＾（ｚ／γ_ｎ）またはこれらを含むフィルタとして例示）との少なくとも何れかに基づく信号処理を雑音信号（ρ（ｎ）として例示）に対して行って得られる信号と、復号音声信号（ｘ_Ｆ＾（ｎ）として例示）とを加算して得た雑音付加処理後信号（実施例１においてｘ_Ｆ＾’（ｎ）として例示）を出力信号とする。

本発明の復号方法のバリエーションとしてさらに、前述の現在のフレームの復号音声信号に対応するスペクトル包絡は、音声復号ステップで得られた現在のフレームのスペクトル包絡パラメータ（実施例１ではａ＾（ｉ）として例示）に対応するスペクトル包絡を鈍らせたスペクトル包絡（実施例１においてＡ＾（ｚ／γ_ｎ）として例示）であってもよい。

さらに、前述の現在のフレームの復号音声信号に対応するスペクトル包絡は、音声復号ステップで得られた現在のフレームのスペクトル包絡パラメータ（ａ＾（ｉ）として例示）に基づくスペクトル包絡（実施例１においてＡ＾（ｚ）として例示）であってもよい。

さらに、前述の雑音付加ステップは、雑音信号（ρ（ｎ）として例示）に現在のフレームの復号音声信号に対応するスペクトル包絡（フィルタＡ＾（ｚ）やＡ＾（ｚ／γ_ｎ）などを例示）が与えられ過去のフレームの復号音声信号に対応するパワー（ｇ_ｎとして例示）を乗算された信号と、復号音声信号とを加算して得られる雑音付加処理後信号を出力信号としてもよい。

さらに、前述の雑音付加ステップは、雑音信号に現在のフレームの復号音声信号に対応するスペクトル包絡が与えられ低域を抑圧または高域を強調（実施例１において式（６）などに例示）された信号と、復号音声信号とを加算して得られる雑音付加処理後信号を出力信号としてもよい。

さらに、前述の雑音付加ステップは、雑音信号に現在のフレームの復号音声信号に対応するスペクトル包絡が与えられ過去のフレームの復号音声信号に対応するパワーが乗算され低域を抑圧または高域を強調（式（６）、（８）などに例示）された信号と、復号音声信号とを加算して得られる雑音付加処理後信号を出力信号としてもよい。

さらに、前述の雑音付加ステップは、現在のフレームの復号音声信号に対応するスペクトル包絡を雑音信号に与えた信号と、復号音声信号とを加算して得られる雑音付加処理後信号を出力信号としてもよい。

さらに、前述の雑音付加ステップは、過去のフレームの復号音声信号に対応するパワーと前記雑音信号とを乗算した信号と、復号音声信号とを加算して得られる雑音付加処理後信号を出力信号としてもよい。

また、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。

また、上述の構成をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。

また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。

なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims

入力された符号から復号音声信号を得る音声復号ステップと、
ランダムな信号である雑音信号を生成する雑音生成ステップと、
過去のフレームの復号音声信号に対応するパワーと現在のフレームの復号音声信号に対応するスペクトル包絡との少なくとも何れかに基づく信号処理を前記雑音信号に対して行って得られる信号と、前記復号音声信号とを加算して得た雑音付加処理後信号を出力信号とする雑音付加ステップと、
を含むことを特徴とする復号方法。
前記現在のフレームの復号音声信号に対応するスペクトル包絡は、
前記音声復号ステップで得られた現在のフレームのスペクトル包絡パラメータに対応するスペクトル包絡を鈍らせたスペクトル包絡である
ことを特徴とする請求項１に記載の復号方法。
前記現在のフレームの復号音声信号に対応するスペクトル包絡は、
前記音声復号ステップで得られた現在のフレームのスペクトル包絡パラメータに基づくスペクトル包絡である
ことを特徴とする請求項１に記載の復号方法。
前記雑音付加ステップは、
前記雑音信号に前記現在のフレームの復号音声信号に対応するスペクトル包絡が与えられ前記過去のフレームの復号音声信号に対応するパワーを乗算された信号と、前記復号音声信号とを加算して得られる雑音付加処理後信号を出力信号とする
ことを特徴とする請求項１から３の何れかに記載の復号方法。
前記雑音付加ステップは、
前記雑音信号に前記現在のフレームの復号音声信号に対応するスペクトル包絡が与えられ低域を抑圧または高域を強調された信号と、前記復号音声信号とを加算して得られる雑音付加処理後信号を出力信号とする
ことを特徴とする請求項１から３の何れかに記載の復号方法。
前記雑音付加ステップは、
前記雑音信号に前記現在のフレームの復号音声信号に対応するスペクトル包絡が与えられ前記過去のフレームの復号音声信号に対応するパワーが乗算され低域を抑圧または高域を強調された信号と、前記復号音声信号とを加算して得られる雑音付加処理後信号を出力信号とする
ことを特徴とする請求項１から３の何れかに記載の復号方法。
前記雑音付加ステップは、
前記現在のフレームの復号音声信号に対応するスペクトル包絡を前記雑音信号に与えた信号と、前記復号音声信号とを加算して得られる雑音付加処理後信号を出力信号とする
ことを特徴とする請求項１から３の何れかに記載の復号方法。
前記雑音付加ステップは、
前記過去のフレームの復号音声信号に対応するパワーと前記雑音信号とを乗算した信号と、前記復号音声信号とを加算して得られる雑音付加処理後信号を出力信号とする
ことを特徴とする請求項１に記載の復号方法。
入力された符号から復号音声信号を得る音声復号部と、
ランダムな信号である雑音信号を生成する雑音生成部と、
過去のフレームの復号音声信号に対応するパワーと現在のフレームの復号音声信号に対応するスペクトル包絡との少なくとも何れかに基づく信号処理を前記雑音信号に対して行って得られる信号と、前記復号音声信号とを加算して得た雑音付加処理後信号を出力信号とする雑音付加部と、
を含むことを特徴とする復号装置。
前記現在のフレームの復号音声信号に対応するスペクトル包絡は、
前記音声復号部で得られた現在のフレームのスペクトル包絡パラメータに対応するスペクトル包絡を鈍らせたスペクトル包絡である
ことを特徴とする請求項９に記載の復号装置。
前記現在のフレームの復号音声信号に対応するスペクトル包絡は、
前記音声復号部で得られた現在のフレームのスペクトル包絡パラメータに基づくスペクトル包絡である
ことを特徴とする請求項９に記載の復号装置。
前記雑音付加部は、
前記雑音信号に前記現在のフレームの復号音声信号に対応するスペクトル包絡が与えられ前記過去のフレームの復号音声信号に対応するパワーを乗算された信号と、前記復号音声信号とを加算して得られる雑音付加処理後信号を出力信号とする
ことを特徴とする請求項９から１１の何れかに記載の復号装置。
前記雑音付加部は、
前記雑音信号に前記現在のフレームの復号音声信号に対応するスペクトル包絡が与えられ低域を抑圧または高域を強調された信号と、前記復号音声信号とを加算して得られる雑音付加処理後信号を出力信号とする
ことを特徴とする請求項９から１１の何れかに記載の復号装置。
前記雑音付加部は、
前記雑音信号に前記現在のフレームの復号音声信号に対応するスペクトル包絡が与えられ前記過去のフレームの復号音声信号に対応するパワーが乗算され低域を抑圧または高域を強調された信号と、前記復号音声信号とを加算して得られる雑音付加処理後信号を出力信号とする
ことを特徴とする請求項９から１１の何れかに記載の復号装置。
前記雑音付加部は、
前記現在のフレームの復号音声信号に対応するスペクトル包絡を前記雑音信号に与えた信号と、前記復号音声信号とを加算して得られる雑音付加処理後信号を出力信号とする
ことを特徴とする請求項９から１１の何れかに記載の復号装置。
前記雑音付加部は、
前記過去のフレームの復号音声信号に対応するパワーと前記雑音信号とを乗算した信号と、前記復号音声信号とを加算して得られる雑音付加処理後信号を出力信号とする
ことを特徴とする請求項９に記載の復号装置。
請求項１から請求項８のいずれかに記載された復号方法の各ステップをコンピュータに実行させるためのプログラム。
請求項１から請求項８のいずれかに記載された復号方法の各ステップをコンピュータに実行させるためのプログラムを記録した、コンピュータが読み取り可能な記録媒体。