JP5061111B2 - 音声符号化装置および音声符号化方法 - Google Patents

音声符号化装置および音声符号化方法 Download PDF

Info

Publication number
JP5061111B2
JP5061111B2 JP2008534412A JP2008534412A JP5061111B2 JP 5061111 B2 JP5061111 B2 JP 5061111B2 JP 2008534412 A JP2008534412 A JP 2008534412A JP 2008534412 A JP2008534412 A JP 2008534412A JP 5061111 B2 JP5061111 B2 JP 5061111B2
Authority
JP
Japan
Prior art keywords
signal
noise
correction coefficient
speech
noise ratio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2008534412A
Other languages
English (en)
Other versions
JPWO2008032828A1 (ja
Inventor
宏幸 江原
利幸 森井
幸司 吉田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp
Panasonic Holdings Corp
Original Assignee
Panasonic Corp
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Corp, Matsushita Electric Industrial Co Ltd filed Critical Panasonic Corp
Priority to JP2008534412A priority Critical patent/JP5061111B2/ja
Publication of JPWO2008032828A1 publication Critical patent/JPWO2008032828A1/ja
Application granted granted Critical
Publication of JP5061111B2 publication Critical patent/JP5061111B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • G10L19/265Pre-filtering, e.g. high frequency emphasis prior to encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

本発明は、CELP(Code-Excited Linear Prediction)方式の音声符号化装置および音声符号化方法に関し、特に量子化雑音を人間の聴覚特性に合わせて補正し、復号される音声信号の主観品質を高める音声符号化装置および音声符号化方法に関する。
近年、音声符号化においては、量子化雑音を人間の聴覚特性にあわせてシェイピングすることによって、量子化雑音を聞こえ難くすることが一般的に行われている。例えば、CELP符号化においては、伝達関数が下記の式(1)で表される聴覚重み付けフィルタを用いて量子化雑音をシェイピングする。
Figure 0005061111
式(1)は、下記の式(2)と同様である。
Figure 0005061111
ここで、aは、CELP符号化の過程において得られる線形予測係数(LPC:Linear Prediction Coefficient)の要素を示し、Mは、LPCの次数を示す。γおよびγは、ホルマント重み付け係数であって、量子化雑音のホルマントに対する重みを調整するための係数である。ホルマント重み付け係数γおよびγの値は、経験的に試聴を通じて決定されるのが一般的である。ただし、ホルマント重み付け係数γとγ2の最適値は、音声信号自体のスペクトル傾斜などの周波数特性、または音声信号のホルマント構造の有無、ハーモニクス構造の有無などによって変化する。
そこで、入力信号の周波数特性に合わせてホルマント重み付け係数γおよびγの値を適応的に変化させる技術(例えば、特許文献1)が提案されている。特許文献1に記載の音声符号化においては、音声信号のスペクトル傾斜に応じて適応的にホルマント重み付け係数γの値を変化させ、マスキングレベルを調整する。すなわち、音声信号のスペクトルの特徴に基づきホルマント重み付け係数γの値を変化させることによって、聴覚重み付けフィルタを制御し、量子化雑音のホルマントに対する重みを適応的に調整することができる。なお、ホルマント重み付け係数γとγとは量子化雑音の傾斜にも影響するので、前記γの制御は、ホルマント重み付けと傾斜補正との双方を合わせて制御している。
また、背景雑音区間と音声区間とで聴覚重み付けフィルタの特性を切り替える技術(例えば、特許文献2)が提案されている。特許文献2に記載の音声符号化においては、入力信号の各区間が、音声区間であるかまたは背景雑音区間(無音区間)であるかによって聴
覚重み付けフィルタの特性を切り替える。音声区間とは、音声信号が支配的な区間であって、背景雑音区間とは、非音声信号が支配的な区間である。特許文献2記載の技術によれば、背景雑音区間と音声区間とを区別して、聴覚重み付けフィルタの特性を切り替えることにより、音声信号の各区間に適応した聴覚重み付けフィルタリングを行うことができる。
特開平7−86952号公報 特開2003−195900号公報
しかしながら、上記の特許文献1に記載の音声符号化においては、入力信号のスペクトルの大まかな特徴に基づきホルマント重み付け係数γの値を変化させるため、スペクトルの微細な変化に応じて量子化雑音のスペクトル傾斜を調整することができない。また、ホルマント重み付け係数γの値を用いて聴覚重み付けフィルタを制御しているため、音声信号のホルマントの強さとスペクトル傾斜とを独立して調整することができない。すなわち、スペクトルの傾斜調整を行いたい場合、スペクトルの傾斜調整に伴いホルマントの強さも調整されるためスペクトルの形が崩れてしまうという問題がある。
また、上記の特許文献2に記載の音声符号化においては、音声区間と無音区間とを区別して適応的に聴覚重み付けフィルタリングを行うことはできるが、背景雑音信号と音声信号とが重畳した雑音音声重畳区間に適した聴覚重み付けフィルタリングを行うことはできないという問題がある。
本発明の目的は、量子化雑音のスペクトル傾斜を適応的に調整しつつ、ホルマント重み付けの強さへの影響を抑えることができ、さらに背景雑音信号と音声信号とが重畳した雑音音声重畳区間に対しても適した聴覚重み付けフィルタリングを行うことができる音声符号化装置および音声符号化方法を提供することである。
本発明の音声符号化装置は、音声信号に対し線形予測分析を行って線形予測係数を生成する線形予測分析手段と、前記線形予測係数を量子化する量子化手段と、前記量子化の雑音のスペクトル傾斜を調整するための傾斜補正係数を含む伝達関数を用いて、入力音声信号に対し聴覚重み付けフィルタリングを行い聴覚重み付け音声信号を生成する聴覚重み付け手段と、前記音声信号の第1周波数帯域の信号対雑音比を用いて、前記傾斜補正係数を制御する傾斜補正係数制御手段と、前記聴覚重み付け音声信号を用いて適応符号帳および固定符号帳の音源探索を行い音源信号を生成する音源探索手段と、を具備する構成を採る。
本発明の音声符号化方法は、音声信号に対し線形予測分析を行って線形予測係数を生成するステップと、前記線形予測係数を量子化するステップと、前記量子化の雑音のスペクトル傾斜を調整するための傾斜補正係数を含む伝達関数を用いて、入力音声信号に対し聴覚重み付けフィルタリングを行い聴覚重み付け音声信号を生成するステップと、前記音声信号の第1周波数帯域の信号対雑音比を用いて、前記傾斜補正係数を制御するステップと、前記聴覚重み付け音声信号を用いて適応符号帳および固定符号帳の音源探索を行い音源信号を生成するステップと、を有するようにした。
本発明によれば、量子化雑音のスペクトル傾斜を適応的に調整しつつ、ホルマント重み付けの強さへの影響を抑えることができ、さらに背景雑音信号と音声信号とが重畳した雑音音声重畳区間に対しても適した聴覚重み付けフィルタリングを行うことができる。
以下、本発明の実施の形態について、添付図面を参照して詳細に説明する。
(実施の形態1)
図1は、本発明の実施の形態1に係る音声符号化装置100の主要な構成を示すブロック図である。
図1において、音声符号化装置100は、LPC分析部101、LPC量子化部102、傾斜補正係数制御部103、LPC合成フィルタ104−1,104−2、聴覚重み付けフィルタ105−1,105−2,105−3、加算器106、音源探索部107、メモリ更新部108、および多重化部109を備える。ここで、LPC合成フィルタ104−1と聴覚重み付けフィルタ105−2とは零入力応答生成部150を構成し、LPC合成フィルタ104−2と聴覚重み付けフィルタ105−3とはインパルス応答生成部160を構成する。
LPC分析部101は、入力音声信号に対して線形予測分析を行い、得られる線形予測係数をLPC量子化部102および聴覚重み付けフィルタ105−1〜105−3に出力する。ここでは、LPCをa(i=1,2,…,M)で示し、MはLPCの次数であって、M>1の整数である。
LPC量子化部102は、LPC分析部101から入力される線形予測係数aを量子化し、得られる量子化線形予測係数a をLPC合成フィルタ104−1〜104−2、メモリ更新部108に出力すると共に、LPC符号化パラメータCを多重化部109に出力する。
傾斜補正係数制御部103は、入力音声信号を用いて、量子化雑音のスペクトル傾斜を調整するための傾斜補正係数γを算出し、聴覚重み付けフィルタ105−1〜105−3に出力する。傾斜補正係数制御部103の詳細については後述する。
LPC合成フィルタ104−1は、LPC量子化部102から入力される量子化線形予測係数a^ を含む下記の式(3)に示す伝達関数を用いて、入力される零ベクトルに対し合成フィルタリングを行う。
Figure 0005061111
また、LPC合成フィルタ104−1は、後述のメモリ更新部108からフィードバックされるLPC合成信号をフィルタ状態として用い、合成フィルタリングにより得られる零入力応答信号を聴覚重み付けフィルタ105−2に出力する。
LPC合成フィルタ104−2は、LPC合成フィルタ104−1の伝達関数と同様な伝達関数、すなわち、式(3)に示す伝達関数を用いて、入力されるインパルスベクトルに対し合成フィルタリングを行い、得られるインパルス応答信号を聴覚重み付けフィルタ105−3に出力する。LPC合成フィルタ104−2のフィルタ状態は零状態である。
聴覚重み付けフィルタ105−1は、LPC分析部101から入力される線形予測係数aと傾斜補正係数制御部103から入力される傾斜補正係数γとを含む下記の式(4)に示す伝達関数を用いて、入力音声信号に対し聴覚重み付けフィルタリングを行う。
Figure 0005061111
式(4)において、γおよびγはホルマント重み付け係数である。聴覚重み付けフィルタ105−1は、聴覚重み付けフィルタリングにより得られる聴覚重み付け音声信号を加算器106に出力する。本聴覚重み付けフィルタの状態は、本聴覚重み付けフィルタの処理過程で更新される。すなわち、本聴覚重み付けフィルタへの入力信号と、本聴覚重み付けフィルタからの出力信号である聴覚重み付け音声信号とを用いて更新される。
聴覚重み付けフィルタ105−2は、聴覚重み付けフィルタ105−1の伝達関数と同様な伝達関数、すなわち、式(4)に示す伝達関数を用いて、LPC合成フィルタ104−1から入力される零入力応答信号に対し聴覚重み付けフィルタリングを行い、得られる聴覚重み付け零入力応答信号を加算器106に出力する。聴覚重み付けフィルタ105−2は、メモリ更新部108からフィードバックされる聴覚重み付けフィルタ状態をフィルタ状態として用いる。
聴覚重み付けフィルタ105−3は、聴覚重み付けフィルタ105−1および聴覚重み付けフィルタ105−2の伝達関数と同様な伝達関数、すなわち、式(4)に示す伝達関数を用いて、LPC合成フィルタ104−2から入力されるインパルス応答信号に対しフィルタリングを行い、得られる聴覚重み付けインパルス応答信号を音源探索部107に出力する。聴覚重み付けフィルタ105−3の状態は零状態である。
加算器106は、聴覚重み付けフィルタ105−1から入力される聴覚重み付け音声信号から、聴覚重み付けフィルタ105−2から入力される聴覚重み付け零入力応答信号を減算し、得られる信号をターゲット信号として音源探索部107に出力する。
音源探索部107は、固定符号帳、適応符号帳、および利得量子化器などを備え、加算器106から入力されるターゲット信号と、聴覚重み付けフィルタ105−3から入力される聴覚重み付けインパルス応答信号とを用いて音源探索を行い、得られる音源信号をメモリ更新部108に出力し、音源符号化パラメータCを多重化部109に出力する。
メモリ更新部108は、LPC合成フィルタ104−1と同様なLPC合成フィルタ、および聴覚重み付けフィルタ105−2と同様な聴覚重み付けフィルタを内蔵している。メモリ更新部108は、音源探索部107から入力される音源信号を用いて内蔵のLPC合成フィルタを駆動し、得られるLPC合成信号をフィルタ状態としてLPC合成フィルタ104−1にフィードバックする。また、メモリ更新部108は、内蔵のLPC合成フィルタで生成されるLPC合成信号を用いて内蔵の聴覚重み付けフィルタを駆動し、得られる聴覚重み付け合成フィルタのフィルタ状態を聴覚重み付けフィルタ105−2にフィードバックする。具体的には、メモリ更新部108の内蔵の聴覚重み付けフィルタは、上記の式(4)の第1項で示される傾斜補正フィルタ、上記の式(4)の第2項の分子で示される重み付けLPC逆フィルタ、上記の式(4)の第2項の分母で示される重み付けLPC合成フィルタの3つのフィルタの縦続接続になっており、この3つのフィルタ各々の状態を聴覚重み付けフィルタ105−2にフィードバックする。すなわち、聴覚重み付けフィルタ105−2を構成する傾斜補正フィルタの状態として、メモリ更新部108の内蔵の聴覚重み付けフィルタの傾斜補正フィルタの出力信号が用いられ、聴覚重み付けフィルタ105−2の重み付けLPC逆フィルタのフィルタ状態としてメモリ更新部108の内蔵の聴覚重み付けフィルタの重み付けLPC逆フィルタの入力信号が用いられ、聴覚重み付けフィルタ105−2の重み付けLPC合成フィルタのフィルタ状態としてメモリ更新部108の内蔵の聴覚重み付けフィルタの重み付けLPC合成フィルタの出力信号が用いられる。
多重化部109は、LPC量子化部102から入力される量子化LPC(a )の符
号化パラメータCと、音源探索部107から入力される音源符号化パラメータCとを多重し、得られるビットストリームを復号側に送信する。
図2は、傾斜補正係数制御部103の内部の構成を示すブロック図である。
図2において、傾斜補正係数制御部103は、HPF131、高域エネルギレベル算出部132、LPF133、低域エネルギレベル算出部134、雑音区間検出部135、高域雑音レベル更新部136、低域雑音レベル更新部137、加算器138、加算器139、加算器140、傾斜補正係数算出部141、加算器142、閾値算出部143、制限部144、および平滑化部145を備える。
HPF131は、高域通過フィルタ(HPF:High Pass Filter)であり、入力音声信号の周波数領域の高域成分を抽出し、得られる音声信号高域成分を高域エネルギレベル算出部132に出力する。
高域エネルギレベル算出部132は、フレーム単位でHPF131から入力される音声信号高域成分のエネルギレベルを、下記の式(5)に従って算出し、得られる音声信号高域成分エネルギレベルを高域雑音レベル更新部136および加算器138に出力する。
=10log10(|A) …(5)
式(5)において、Aは、HPF131から入力される音声信号高域成分ベクトル(ベクトル長=フレーム長)を示す。すなわち、|Aは音声信号高域成分のフレームエネルギである。Eは|Aをデシベル表現にしたもので、音声信号高域成分エネルギレベルである。
LPF133は、低域通過フィルタ(LPF:Low Pass Filter)であり、入力音声信号の周波数領域の低域成分を抽出し、得られる音声信号低域成分を低域エネルギレベル算出部134に出力する。
低域エネルギレベル算出部134は、フレーム単位でLPF133から入力される音声信号低域成分のエネルギレベルを、下記の式(6)に従って算出し、得られる音声信号低域成分エネルギレベルを低域雑音レベル更新部137および加算器139に出力する。
=10log10(|A) …(6)
式(6)において、Aは、LPF133から入力される音声信号低域成分ベクトル(ベクトル長=フレーム長)を示す。すなわち、|Aは音声信号低域成分のフレームエネルギである。Eは|Aをデシベル表現にしたもので、音声信号低域成分エネルギレベルである。
雑音区間検出部135は、フレーム単位で入力される音声信号が背景雑音のみの区間であるか否かを検出し、入力されるフレームが背景雑音のみの区間である場合、背景雑音区間検出情報を高域雑音レベル更新部136および低域雑音レベル更新部137に出力する。ここで、背景雑音のみの区間とは、会話の主たる音声信号が存在せず、周囲雑音のみが存在する区間のことである。なお、雑音区間検出部135の詳細については後述する。
高域雑音レベル更新部136は、背景雑音高域成分の平均エネルギレベルを保持しており、雑音区間検出部135から背景雑音区間検出情報が入力される場合、高域エネルギレベル算出部132から入力される音声信号高域成分エネルギレベルを用いて、保持している背景雑音高域成分の平均エネルギレベルを更新する。高域雑音レベル更新部136における、背景雑音高域成分の平均エネルギレベルを更新する方法としては、例えば、下記の
式(7)に従って行う。
NH=αENH+(1−α)E …(7)
式(7)において、Eは高域エネルギレベル算出部132から入力される音声信号高域成分エネルギレベルを示す。雑音区間検出部135から高域雑音レベル更新部136に背景雑音区間検出情報が入力される場合は、入力音声信号が背景雑音のみの区間であることを意味し、高域エネルギレベル算出部132から高域雑音レベル更新部136に入力される音声信号高域成分エネルギレベル、すなわち、この式に示すEは、背景雑音高域成分のエネルギレベルとなる。ENHは高域雑音レベル更新部136が保持している背景雑音高域成分の平均エネルギレベルを示し、αは長期平滑化係数であって、0≦α<1である。高域雑音レベル更新部136は、保持している背景雑音高域成分の平均エネルギレベルを加算器138および加算器142に出力する。
低域雑音レベル更新部137は、背景雑音低域成分の平均エネルギレベルを保持しており、雑音区間検出部135から背景雑音区間検出情報が入力される場合、低域エネルギレベル算出部134から入力される音声信号低域成分エネルギレベルを用いて、保持している背景雑音低域成分の平均エネルギレベルを更新する。更新の方法としては、例えば、下記の式(8)に従い行う。
NL=αENL+(1−α)E …(8)
式(8)において、Eは低域エネルギレベル算出部134から入力される音声信号低域成分エネルギレベルを示す。雑音区間検出部135から低域雑音レベル更新部137に背景雑音区間検出情報が入力される場合は、入力音声信号が背景雑音のみの区間であることを意味し、低域エネルギレベル算出部134から低域雑音レベル更新部137に入力される音声信号低域成分エネルギレベル、すなわち、この式に示すEは、背景雑音低域成分のエネルギレベルとなる。ENLは低域雑音レベル更新部137が保持している背景雑音低域成分の平均エネルギレベルを示し、αは長期平滑化係数であって、0≦α<1である。低域雑音レベル更新部137は、保持している背景雑音低域成分の平均エネルギレベルを加算器139および加算器142に出力する。
加算器138は、高域エネルギレベル算出部132から入力される音声信号高域成分エネルギレベルから、高域雑音レベル更新部136から入力される背景雑音高域成分の平均エネルギレベルを減算して、得られる減算結果を加算器140に出力する。加算器138で得られる減算結果は、エネルギを対数で表した2つのエネルギレベルの差、すなわち、音声信号高域成分エネルギレベルおよび背景雑音高域成分の平均エネルギレベルの差であるため、この2つのエネルギの比、すなわち、音声信号高域成分エネルギと背景雑音高域成分平均エネルギとの比である。言い換えれば、加算器138で得られる減算結果は、音声信号の高域SNR(Signal-to-Noise Rate:信号対雑音比)である。
加算器139は、低域エネルギレベル算出部134から入力される音声信号低域成分エネルギレベルから、低域雑音レベル更新部137から入力される背景雑音低域成分の平均エネルギレベルを減算して、得られる減算結果を加算器140に出力する。加算器139で得られる減算結果は、対数で表した2つのエネルギのレベルの差、すなわち、音声信号低域成分エネルギレベルおよび背景雑音低域成分の平均エネルギレベルの差であるため、この2つのエネルギの比、すなわち、音声信号低域成分エネルギと背景雑音信号の低域成分の長期的な平均エネルギとの比である。言い換えれば、加算器139で得られる減算結果は、音声信号の低域SNRである。
加算器140は、加算器138から入力される高域SNRと、加算器139から入力される低域SNRとに対して減算処理を行い、得られる高域SNRと低域SNRとの差を傾
斜補正係数算出部141に出力する。
傾斜補正係数算出部141は、加算器140から入力される高域SNRと低域SNRとの差を用いて、例えば、下記の式(9)に従って平滑化前の傾斜補正係数γ’を求め、制限部144に出力する。
γ’=β(低域SNR−高域SNR)+C …(9)
式(9)において、γ’は平滑化前の傾斜補正係数を示し、βは所定の係数を示し、Cはバイアス成分を示す。傾斜補正係数算出部141は、式(9)に示すように、低域SNRと高域SNRとの差が大きいほどγ’も大きくなるような関数を用いて平滑化前の傾斜補正係数γ’を求める。聴覚重み付けフィルタ105−1〜105−3において平滑化前の傾斜補正係数γ’を用いて量子化雑音のシェイピングを行う場合、高域SNRよりも低域SNRがより高いほど、入力音声信号の低域成分の誤差に対する重み付けが大きくなり、相対的に高域成分の誤差に対する重み付けが小さくなるため、量子化雑音の高域成分がより高くシェイピングされる。一方、低域SNRよりも高域SNRがより高いほど、入力音声信号の高域成分の誤差に対する重み付けが大きくなり、相対的に低域成分の誤差に対する重み付けが小さくなるため、量子化雑音の低域成分がより高くシェイピングされる。
加算器142は、高域雑音レベル更新部136から入力される背景雑音高域成分の平均エネルギレベルと、低域雑音レベル更新部137から入力される背景雑音低域成分の平均エネルギレベルとを加算し、得られる加算結果である背景雑音平均エネルギレベルを閾値算出部143に出力する。
閾値算出部143は、加算器142から入力される背景雑音平均エネルギレベルを用いて平滑化前の傾斜補正係数γの上限値および下限値を算出し、制限部144に出力する。具体的には、加算器142から入力される背景雑音平均エネルギレベルが低いほど定数Lに近づくような関数、例えば(下限値=σ×背景雑音平均エネルギレベル+L、σは定数)のような関数を用いて平滑化前の傾斜補正係数の下限値を算出する。ただし、下限値が小さくなり過ぎないように、下限値がある固定値を下回らないようにすることも必要である。この固定値を最下限値と称す。一方、平滑化前の傾斜補正係数の上限値は、経験的に決定した定数に固定する。下限値の計算式や上限値の固定値は、HPFとLPFの仕様や入力音声信号の帯域幅などによって適切な計算式または値が異なる。例えば、下限値については前述の式において、狭帯域信号の符号化ではσ=0.003、L=0に、広帯域信号の場合はσ=0.001、L=0.6のような値にして求めると良い。また、上限値については、狭帯域信号の符号化では0.6程度、広帯域信号の符号化では0.9程度に設定すると良い。またさらに、最下限値は、狭帯域信号の符号化では-0.5程度、広帯域信号の符号化では0.4程度にすると良い。平滑化前の傾斜補正係数γ’の下限値を背景雑音平均エネルギレベルを用いて設定する必要性について説明する。前述したように、γ’が小さくなるほど低域成分に対する重み付けが弱くなり、低域の量子化雑音を高くシェイピングすることになる。ところが、一般に音声信号は低域にエネルギが集中するため、ほとんどの場合低域の量子化雑音は低めにシェイピングするのが適切となる。したがって、低域の量子化雑音を高くシェイピングすることについては注意が必要である。例えば、背景雑音平均エネルギレベルが非常に低い場合は、加算器138および加算器139で算出された高域SNRおよび低域SNRは、雑音区間検出部135での雑音区間の検出精度や局所的な雑音の影響を受けやすくなり、傾斜補正係数算出部141で算出された平滑化前の傾斜補正係数γ’の信頼度が低下する可能性がある。このような場合、誤って過度に低域の量子化雑音を高くシェイピングしてしまい、低域の量子化雑音を大きくしすぎる可能性があるので、そのようなことを回避する仕組みが必要である。本実施の形態では、背景雑音平均エネルギレベルが低くなるほどγ’の下限値が高めに設定されるような関数を用いてγ’の下
限値を決定することで、背景雑音平均エネルギレベルが低い場合に量子化雑音の低域成分を高くシェイピングしすぎないようにしている。
制限部144は、傾斜補正係数算出部141から入力される平滑化前の傾斜補正係数γ’を、閾値算出部143から入力される上限値と下限値とにより決まる範囲内に収まるように調整し、平滑化部145に出力する。すなわち、平滑化前の傾斜補正係数γ’が上限値を超える場合は、平滑化前の傾斜補正係数γ’を上限値に設定し、平滑化前の傾斜補正係数γ’が下限値を下回る場合は、平滑化前の傾斜補正係数γ’を下限値に設定する。
平滑化部145は、制限部144から入力される平滑化前の傾斜補正係数γ’に対して下記の式(10)に従いフレーム単位で平滑化を行い、得られる傾斜補正係数γを聴覚重み付けフィルタ105−1〜105−3に出力する。
γ=βγ+(1−β)γ’ …(10)
式(10)において、βは平滑化係数であって、0≦β<1である。
図3は、雑音区間検出部135の内部の構成を示すブロック図である。
雑音区間検出部135は、LPC分析部151、エネルギ算出部152、無音判定部153、ピッチ分析部154、および雑音判定部155を備える。
LPC分析部151は、入力音声信号に対して線形予測分析を行い、線形予測分析の過程で得られる線形予測残差の2乗平均値を雑音判定部155に出力する。例えば、線形予測分析としてレビンソン・ダービンのアルゴリズムを用いる場合、線形予測分析の副産物として線形予測残差の2乗平均値そのものが得られる。
エネルギ算出部152は、フレーム単位で入力音声信号のエネルギを算出し、音声信号エネルギとして無音判定部153に出力する。
無音判定部153は、エネルギ算出部152から入力される音声信号エネルギを所定の閾値と比較し、音声信号エネルギが所定の閾値未満である場合には、音声信号が無音であると判定し、音声信号エネルギが所定の閾値以上である場合には、符号化対象フレームの音声信号が有音であると判定し、無音判定結果を雑音判定部155に出力する。
ピッチ分析部154は、入力音声信号に対してピッチ分析を行い、得られるピッチ予測利得を雑音判定部155に出力する。例えば、ピッチ分析部154において行われるピッチ予測の次数が1次である場合、ピッチ予測分析は、Σ|x(n)−gp×x(n−T)|,n=0,…,L−1を最小とするTとgpを求めることである。ここで、Lはフレーム長を示し、Tはピッチラグを示し、gpはピッチゲインを示し、gp=Σx(n)×x(n−T)/Σx(n−T)×x(n−T),n=0,…,L−1である。また、ピッチ予測利得は(入力信号の2乗平均値)/(ピッチ予測残差の2乗平均値)で表され、これは、1/(1−(|Σx(n−T)x(n)|/Σx(n)x(n)×Σx(n−T)x(n−T)))で表される。したがって、ピッチ分析部154は、|Σx(n−T)x(n)|^2/(Σx(n)x(n)×Σx(n−T)x(n−T))を、ピッチ予測利得を表すパラメータとして用いる。
雑音判定部155は、LPC分析部151から入力される線形予測残差の2乗平均値、無音判定部153から入力される無音判定結果、およびピッチ分析部154から入力されるよりピッチ予測利得を用いて、フレーム単位で入力音声信号が雑音区間であるかまたは
音声区間であるかを判定し、判定の結果を雑音区間検出結果として高域雑音レベル更新部136および低域雑音レベル更新部137に出力する。具体的には、雑音判定部155は、線形予測残差の2乗平均値が所定の閾値未満であってかつピッチ予測利得が所定の閾値未満である場合、または無音判定部153から入力される無音判定結果が無音区間を示す場合には、入力音声信号が雑音区間であると判定し、他の場合には入力音声信号が音声区間であると判定する。
図4は、本実施の形態に係る音声符号化装置100を用いて、背景雑音よりも音声が支配的である音声区間の音声信号に対し、量子化雑音のシェイピングを行う場合に得られる効果を示す図である。
図4において、実線のグラフ301は、背景雑音よりも音声が支配的である音声区間における音声信号のスペクトルの一例を示す。ここでは、音声信号として、女性が発音した「コーヒー」の「ヒー」という音声の信号を例にとる。破線のグラフ302は、仮に音声符号化装置100が傾斜補正係数制御部103を備えず量子化雑音のシェイピングを行う場合、得られる量子化雑音のスペクトルを示す。一点破線のグラフ303は、本実施の形態に係る音声符号化装置100を用いて量子化雑音のシェイピングを行う場合、得られる量子化雑音のスペクトルを示す。
実線のグラフ301で示す音声信号において、低域SNRと高域SNRとの差は、低域成分エネルギと高域成分エネルギとの差にほぼ対応しており、高域成分エネルギよりも低域成分エネルギが高いため、高域SNRよりも低域SNRが高い。図4に示すように、傾斜補正係数制御部103を備える音声符号化装置100は、音声信号の高域SNRよりも低域SNRがより高いほど、量子化雑音の高域成分をより高くシェイピングする。すなわち、破線のグラフ302および一点破線のグラフ303が示すように、傾斜補正係数制御部103を備えない音声符号化装置を用いる場合よりも、本実施の形態に係る音声符号化装置100を用いて、音声区間の音声信号に対し量子化雑音のシェイピングを行う場合、量子化雑音スペクトルの低域部分が抑えられる。
図5は、本実施の形態に係る音声符号化装置100を用いて、背景雑音、例えばカーノイズと音声とが重畳する雑音音声重畳区間の音声信号に対し、量子化雑音のシェイピングを行う場合に得られる効果を示す図である。
図5において、実線のグラフ401は、背景雑音と音声とが重畳する雑音音声重畳区間における音声信号のスペクトルの一例を示す。ここでは、音声信号として、女性が発音した「コーヒー」の「ヒー」という音声の信号を例にとる。破線のグラフ402は、仮に音声符号化装置100が傾斜補正係数制御部103を備えず量子化雑音のシェイピングを行う場合、得られる量子化雑音のスペクトルを示す。一点破線のグラフ403は、本実施の形態に係る音声符号化装置100を用いて量子化雑音のシェイピングを行う場合、得られる量子化雑音のスペクトルを示す。
実線のグラフ401で示す音声信号においては、低域SNRよりも高域SNRがより高い。図5に示すように、傾斜補正係数制御部103を備える音声符号化装置100は、音声信号の低域SNRよりも高域SNRがより高いほど、量子化雑音の低域成分をより高くシェイピングする。すなわち、破線のグラフ402および一点破線のグラフ403が示すように、傾斜補正係数制御部103を備えない音声符号化装置を用いる場合よりも、本実施の形態に係る音声符号化装置100を用いて、雑音音声重畳区間の音声信号に対し量子化雑音のシェイピングを行う場合、量子化雑音スペクトルの高域部分が抑えられる。
このように、本実施の形態によれば、傾斜補正係数γからなる合成フィルタを用いて
、量子化雑音のスペクトル傾斜の調整機能をさらに補正するため、ホルマント重み付けを変えずに量子化雑音のスペクトル傾斜を調整することができる。
また、本実施の形態によれば、音声信号の低域SNRと高域SNRとの差の関数を用いて傾斜補正係数γを算出し、音声信号の背景雑音のエネルギを用いて傾斜補正係数γの閾値を制御するため、背景雑音と音声とが重畳する雑音音声重畳区間の音声信号にも適した聴覚重み付けフィルタリングを行うことができる。
なお、本実施の形態では傾斜補正フィルタとして1/(1−γ−1)で表されるフィルタを用いる場合を例にとって説明したが、他の傾斜補正フィルタを用いても良い。例えば、1+γ−1で表されるフィルタを用いても良い。さらに、γの数値は適応的に変化されて用いられても良い。
また、本実施の形態では、平滑化前の傾斜補正係数γ’の下限値として背景雑音平均エネルギレベルの関数で表される値を用い、平滑化前の傾斜補正係数の上限値としてあらかじめ定められた固定値を用いる場合を例にとって説明したが、これらの上限値および下限値は双方とも実験データまたは経験データに基づいてあらかじめ定められた固定値を用いても良い。
(実施の形態2)
図6は、本発明の実施の形態2に係る音声符号化装置200の主要な構成を示すブロック図である。
図6において、音声符号化装置200は、実施の形態1に示した音声符号化装置100(図1参照)と同様なLPC分析部101、LPC量子化部102、傾斜補正係数制御部103、および多重化部109を備え、これらに関する説明は省略する。音声符号化装置200は、また、ai'算出部201、ai''算出部202、ai'''算出部203、逆フィルタ204、合成フィルタ205、聴覚重み付けフィルタ206、合成フィルタ207、合成フィルタ208、音源探索部209、およびメモリ更新部210を備える。ここで、合成フィルタ207および合成フィルタ208はインパルス応答生成部260を構成する。
i'算出部201は、LPC分析部101から入力される線形予測係数aを用いて、下記の式(11)に従い重み付け線形予測係数ai'を算出し、聴覚重み付けフィルタ206および合成フィルタ207に出力する。
Figure 0005061111
式(11)において、γは第1のホルマント重み付け係数を示す。重み付け線形予測係数ai'は、後述の聴覚重み付けフィルタ206の聴覚重み付けフィルタリングに用いられる係数である。
i''算出部202は、LPC分析部101から入力される線形予測係数aを用いて、下記の式(12)に従い重み付け線形予測係数ai''を算出し、ai'''算出部203に出力する。重み付け線形予測係数ai''は、図1における聴覚重み付けフィルタ105において用いられる係数であるが、ここでは傾斜補正係数γを含む重み付け線形予測係数ai'''の算出にのみ用いられる。
Figure 0005061111
式(12)において、γは第2のホルマント重み付け係数を示す。
i'''算出部203は、傾斜補正係数制御部103から入力される傾斜補正係数γおよびai''算出部202から入力されるai''を用いて、下記の式(13)に従いai'''を算出し、聴覚重み付けフィルタ206および合成フィルタ208に出力する。
Figure 0005061111
式(13)において、γは傾斜補正係数を示す。重み付け線形予測係数ai'''は、聴覚重み付けフィルタ206の聴覚重み付けフィルタリングに用いられる、傾斜補正係数γを含む重み付け線形予測係数である。
逆フィルタ204は、LPC量子化部102から入力される量子化線形予測係数a^ からなる下記の式(14)に示す伝達関数を用いて、入力音声信号に対し逆フィルタリングを行う。
Figure 0005061111
逆フィルタ204の逆フィルタリングにより得られる信号は、量子化された線形予測係数a^ を用いて算出される線形予測残差信号である。逆フィルタ204は、得られる残差信号を合成フィルタ205に出力する。
合成フィルタ205は、LPC量子化部102から入力される量子化線形予測係数a^ からなる下記の式(15)に示す伝達関数を用いて、逆フィルタ204から入力される残差信号に対し合成フィルタリングを行う。
Figure 0005061111
また、合成フィルタ205は、後述のメモリ更新部210からフィードバックされる第1の誤差信号をフィルタ状態として用いる。合成フィルタ205の合成フィルタリングにより得られる信号は、零入力応答信号が除去された合成信号と等価である。合成フィルタ205は、得られる合成信号を聴覚重み付けフィルタ206に出力する。
聴覚重み付けフィルタ206は、下記の式(16)に示す伝達関数を有する逆フィルタと、下記の式(17)に示す伝達関数を有する合成フィルタとからなり、極零型フィルタ
である。すなわち、聴覚重み付けフィルタ206の伝達関数は下記の式(18)で示される。
Figure 0005061111
Figure 0005061111
Figure 0005061111
式(16)において、a'は、a'算出部201から入力される重み付け線形予測係数を示し、式(17)において、a'''は、a'''算出部203から入力される傾斜補正係数γを含む重み付け線形予測係数を示す。聴覚重み付けフィルタ206は、合成フィルタ205から入力される合成信号に対して聴覚重み付けフィルタリングを行い、得られるターゲット信号を音源探索部209およびメモリ更新部210に出力する。また、聴覚重み付けフィルタ206は、メモリ更新部210からフィードバックされる第2の誤差信号をフィルタ状態として用いる。
合成フィルタ207は、合成フィルタ205と同様の伝達関数、すなわち、上記の式(15)に示す伝達関数を用いて、ai'算出部201から入力される重み付け線形予測係数ai'に対し合成フィルタリングを行い、得られる合成信号を合成フィルタ208に出力する。上述したように、式(15)に示す伝達関数はLPC量子化部102から入力される量子化線形予測係数a^ から構成される。
合成フィルタ208は、ai'''算出部203から入力される重み付け線形予測係数ai'''からなる上記の式(17)に示す伝達関数を用いて、合成フィルタ207から入力される合成信号に対しさらに合成フィルタリング、すなわち、聴覚重み付けフィルタリングの極フィルタ部分のフィルタリングを行う。合成フィルタ208の合成フィルタリングにより得られる信号は、聴覚重み付けインパルス応答信号と等価である。合成フィルタ208は得られる聴覚重み付けインパルス応答信号を音源探索部209に出力する。
音源探索部209は、固定符号帳、適応符号帳、および利得量子化器などを備え、聴覚重み付けフィルタ206からターゲット信号を入力され、合成フィルタ208から聴覚重み付けインパルス応答信号を入力される。音源探索部209は、ターゲット信号と、探索される音源信号に聴覚重み付けインパルス応答信号を畳み込んで得られる信号との誤差が最小となる音源信号を探索する。音源探索部209は、探索により得られる音源信号をメモリ更新部210に出力し、音源信号の符号化パラメータを多重化部109に出力する。また、音源探索部209は、音源信号に聴覚重み付けインパルス応答信号を畳み込んで得
られる信号をメモリ更新部210に出力する。
メモリ更新部210は、合成フィルタ205と同様な合成フィルタを内蔵しており、音源探索部209から入力される音源信号を用いて内蔵の合成フィルタを駆動し、得られる信号を入力された音声信号から減算して第1の誤差信号を算出する。すなわち、入力音声信号と、符号化パラメータを用いて合成される合成音声信号との誤差信号を算出する。メモリ更新部210は、算出される第1の誤差信号をフィルタ状態として合成フィルタ205および聴覚重み付けフィルタ206にフィードバックする。また、メモリ更新部210は、聴覚重み付けフィルタ206から入力されるターゲット信号から、音源探索部209から入力される音源信号に聴覚重み付けインパルス応答信号を畳み込んで得られる信号を減算して、第2の誤差信号を算出する。すなわち、聴覚重み付け入力信号と、符号化パラメータを用いて合成される聴覚重み付け合成音声信号との誤差信号を算出する。メモリ更新部210は、算出される第2の誤差信号をフィルタ状態として聴覚重み付けフィルタ206にフィードバックする。なお、聴覚重み付けフィルタ206は、(16)式で表される逆フィルタと(17)式で表される合成フィルタとの縦続接続フィルタであり、逆フィルタのフィルタ状態として第1の誤差信号が、合成フィルタのフィルタ状態として第2の誤差信号が、それぞれ用いられる。
本実施の形態に係る音声符号化装置200は、実施の形態1に示した音声符号化装置100を変形して得られた構成である。例えば、音声符号化装置100の聴覚重み付けフィルタ105−1〜105−3は、音声符号化装置200の聴覚重み付けフィルタ206と等価である。下記の式(19)は、聴覚重み付けフィルタ105−1〜105−3と聴覚重み付けフィルタ206とが等価であることを示すための伝達関数の展開式である。
Figure 0005061111
式(19)において、ai'は、ai'=γ iiなので、上記の式(16)と下記の式(20)とは同じである。すなわち、聴覚重み付けフィルタ105−1〜105−3を構成する逆フィルタと、聴覚重み付けフィルタ206を構成する逆フィルタとは同じものである。
Figure 0005061111
また、聴覚重み付けフィルタ206の上記の式(17)に示す伝達関数を有する合成フィルタは、聴覚重み付けフィルタ105−1〜105−3の下記の式(21)および式(22)に示す伝達関数各々を縦続接続したフィルタと等価である。
Figure 0005061111
Figure 0005061111
ここで、次数が1次拡張された式(17)で示される合成フィルタのフィルタ係数は、式(22)に示すフィルタ係数γ iiに対し、伝達関数が(1−γ−1)で示されるフィルタを用いてフィルタリングした結果であって、ai''=γ iiと定義する場合、ai''−γ ii−1''となる。なお、a''=a、aM+1''=γ M+1M+1=0.0と定義する。a=1.0である。
なお、式(22)に示す伝達関数を有するフィルタの入力および出力をそれぞれu(n)、v(n)とし、式(21)に示す伝達関数を有するフィルタの入力および出力をそれぞれv(n)、w(n)とし、式展開を行った結果が式(23)となる。
Figure 0005061111
式(23)によっても、聴覚重み付けフィルタ105−1〜105−3の上記の式(21)および式(22)に示す伝達関数各々を有する合成フィルタを纏めたものと、聴覚重み付けフィルタ206の上記の式(17)示す伝達関数を有する合成フィルタとが等価である結果が得られる。
上記のように、聴覚重み付けフィルタ206と、聴覚重み付けフィルタ105−1〜105−3とは等価であるものの、聴覚重み付けフィルタ206は、式(16)および式(17)に示す伝達関数各々を有する2つのフィルタからなり、式(20)、式(21)、および式(22)に示す伝達関数各々を有する3つのフィルタからなる聴覚重み付けフィルタ105−1〜105−3各々よりも、フィルタの数が1個少ないため、処理を簡略化することができる。また、例えば、2つのフィルタを1つに纏めることによっては、2つのフィルタ処理において生成される中間変数を生成する必要がなくなり、これによって、中間変数を生成する際のフィルタ状態の保持が不要となり、フィルタの状態の更新が容易
となる。また、フィルタ処理を複数段階に分けることによって生じる演算精度の劣化を回避し、符号化精度を向上することができる。全体的に、本実施の形態に係る音声符号化装置200を構成するフィルタの数は6個であり、実施の形態1に示した音声符号化装置100を構成するフィルタの数11個であるため、数の差が5個となる。
このように、本実施の形態によれば、フィルタ処理の回数を低減するため、ホルマント重み付けを変えずに量子化雑音のスペクトル傾斜を適応的に調整することができるとともに、音声符号化処理を簡略化し、演算精度の劣化による符号化性能の劣化を回避することができる。
(実施の形態3)
図7は、本発明の実施の形態3に係る音声符号化装置300の主要な構成を示すブロック図である。なお、音声符号化装置300は、実施の形態1に示した音声符号化装置100(図1参照)と同様の基本的構成を有しており、同一の構成要素には同一の符号を付し、その説明を省略する。なお、音声符号化装置300のLPC分析部301、傾斜補正係数制御部303、および音源探索部307は、音声符号化装置100のLPC分析部101、傾斜補正係数制御部103、および音源探索部107と処理の一部に相違点があり、それを示すために異なる符号を付し、以下、これらについてのみ説明する。
LPC分析部301は、入力音声信号に対する線形予測分析の過程で得られる線形予測残差の2乗平均値をさらに傾斜補正係数制御部303に出力する点のみで、実施の形態1に示したLPC分析部101と相違する。
音源探索部307は、適応符号帳の探索過程において|Σx(n)y(n)|/(Σx(n)x(n)×Σy(n)y(n)),n=0,1,…,L−1で表されるピッチ予測利得をさらに算出し、傾斜補正係数制御部303に出力する点のみで、実施の形態1に示した音源探索部107と相違する。ここで、x(n)は適応符号帳探索用のターゲット信号、すなわち、加算器106から入力されるターゲット信号である。また、y(n)は適応符号帳から出力される音源信号に、聴覚重み付け合成フィルタ(聴覚重み付けフィルタと合成フィルタとを従属接続したフィルタ)のインパルス応答信号、すなわち聴覚重み付けフィルタ105−3から入力される聴覚重み付けインパルス応答信号を畳み込んだ信号である。なお、実施の形態1に示した音源探索部107も、適応符号帳の探索過程において、|Σx(n)y(n)|およびΣy(n)y(n)の2つの項を計算するため、音源探索部307は、実施の形態1に示した音源探索部107より、Σx(n)x(n)の項のみをさらに計算し、これらの3つの項を用いて上記ピッチ予測利得を求めることとなる。
図8は、本発明の実施の形態3に係る傾斜補正係数制御部303の内部の構成を示すブロック図である。なお、傾斜補正係数制御部303は、実施の形態1に示した傾斜補正係数制御部103(図2参照)と同様の基本的構成を有しており、同一の構成要素には同一の符号を付し、その説明を省略する。
傾斜補正係数制御部303は、雑音区間検出部335の処理の一部のみにおいて実施の形態1に示した傾斜補正係数制御部103の雑音区間検出部135と相違し、それを示すために異なる符号を付す。雑音区間検出部335は、音声信号が入力されず、LPC分析部301から入力される線形予測残差の2乗平均値、音源探索部307から入力されるピッチ予測利得、高域エネルギレベル算出部132から入力される音声信号高域成分エネルギレベル、および低域エネルギレベル算出部134から入力される音声信号低域成分エネルギレベルを用いて、フレーム単位で入力音声信号の雑音区間を検出する。
図9は、本発明の実施の形態3に係る雑音区間検出部335の内部の構成を示すブロック図である。
無音判定部353は、高域エネルギレベル算出部132から入力される音声信号高域成分エネルギレベル、および低域エネルギレベル算出部134から入力される音声信号低域成分エネルギレベルを用いて、フレーム単位で入力音声信号が無音であるかまたは有音であるかを判定し、無音判定結果として雑音判定部355に出力する。例えば、無音判定部353は、音声信号高域成分エネルギレベルと音声信号低域成分エネルギレベルとの和が所定の閾値未満である場合には、入力音声信号が無音であると判定し、上記の和が所定の閾値以上である場合には、入力音声信号が有音であると判定する。ここで、音声信号高域成分エネルギレベルと音声信号低域成分エネルギレベルとの和に対応する閾値としては、例えば、2×10log10(32×L),Lはフレーム長,を用いる。
雑音判定部355は、LPC分析部301から入力される線形予測残差の2乗平均値、無音判定部353から入力される無音判定結果、および音源探索部307から入力されるピッチ予測利得を用いて、フレーム単位で入力音声信号が雑音区間であるかまたは音声区間であるかを判定し、判定の結果を雑音区間検出結果として高域雑音レベル更新部136および低域雑音レベル更新部137に出力する。具体的には、雑音判定部355は、線形予測残差の2乗平均値が所定の閾値未満であってかつピッチ予測利得が所定の閾値未満である場合、または無音判定部353から入力される無音判定結果が無音区間を示す場合には、入力音声信号が雑音区間であると判定し、他の場合には入力音声信号が音声区間であると判定する。ここで、線形予測残差の2乗平均値に対応する閾値としては、例えば、0.1を用い、ピッチ予測利得に対応する閾値としては、例えば、0.4を用いる。
このように、本実施の形態によれば、音声符号化のLPC分析過程で生成された線形予測残差の2乗平均値、ピッチ予測利得、および傾斜補正係数の算出過程で生成された音声信号高域成分エネルギレベル、音声信号低域成分エネルギレベルを用いて雑音区間検出を行うため、雑音区間検出のための演算量を抑えることができ、音声符号化全体の演算量を増やさずに量子化雑音のスペクトル傾斜補正を行うことができる。
なお、本実施の形態では、線形予測分析としてレビンソン・ダービンのアルゴリズムを実行し、この過程で得られる線形予測残差の2乗平均値を雑音区間の検出に用いる場合を例にとって説明したが、本発明はこれに限定されず、線形予測分析として、入力信号の自己相関関数を自己相関関数最大値で正規化してからレビンソン・ダービンのアルゴリズムを実行しても良く、この過程で得られる線形予測残差の2乗平均値は線形予測利得を表すパラメータでもあり、線形予測分析の正規化予測残差パワと呼ばれる場合もある(正規化予測残差パワの逆数が線形予測利得に相当する)。
また、本実施の形態に係るピッチ予測利得は、正規化相互相関と呼ばれることもある。
また、本実施の形態では、線形予測残差の2乗平均値およびピッチ予測利得としてフレーム単位で算出された値をそのまま用いる場合を例にとって説明したが、本発明はこれに限定されず、雑音区間のより安定した検出結果を図るために、フレーム間で平滑化された線形予測残差の2乗平均値およびピッチ予測利得を用いても良い。
また、本実施の形態では、高域エネルギレベル算出部132および低域エネルギレベル算出部134は、それぞれ式(5)および式(6)に従って音声信号高域成分エネルギレベルおよび音声信号低域成分エネルギレベルを算出する場合を例にとって説明したが、本発明はこれに限定されず、算出されるエネルギレベルが「0」に近い値にならないように、さらに4×2×L(Lはフレーム長)のようなバイアスをかけても良い。かかる場合、
高域雑音レベル更新部136および低域雑音レベル更新部137は、このようにバイアスが掛けられた音声信号高域成分エネルギレベルおよび音声信号低域成分エネルギレベルを用いる。これにより、加算器138および139において、背景雑音のないクリーンな音声データに対しても安定したSNRを得ることができる。
(実施の形態4)
本発明の実施の形態4に係る音声符号化装置は、本発明の実施の形態3に係る音声符号化装置300と同様の基本的構成を有しており、同様の基本的動作を行うため、図示せず、なお、詳細な説明を略す。ただし、本実施の形態に係る音声符号化装置の傾斜補正係数制御部403と、実施の形態3に係る音声符号化装置300の傾斜補正係数制御部303とは一部の処理において相違点があり、それを示すために異なる符号を付し、以下、傾斜補正係数制御部403についてのみ説明する。
図10は、本発明の実施の形態4に係る傾斜補正係数制御部403の内部の構成を示すブロック図である。なお、傾斜補正係数制御部403は、実施の形態3に示した傾斜補正係数制御部303(図8参照)と同様の基本的構成を有しており、カウンタ461をさらに具備する点のみにおいて傾斜補正係数制御部303と相違する。なお、傾斜補正係数制御部403の雑音区間検出部435は、傾斜補正係数制御部303の雑音区間検出部335よりも、加算器138,139からそれぞれ高域SNRおよび低域SNRがさらに入力され、処理の一部に相違点があり、それを示すために異なる符号を付す。
カウンタ461は、第1カウンタおよび第2カウンタからなり、雑音区間検出部435から入力される雑音区間検出結果を用いて第1カウンタおよび第2カウンタの値を更新し、更新された第1カウンタおよび第2カウンタの値を雑音区間検出部435にフィードバックする。具体的には、第1カウンタは、連続的に雑音区間と判定されるフレームの数をカウントするカウンタであり、第2カウンタは、連続的に音声区間と判定されるフレームの数をカウントするカウンタであり、雑音区間検出部435から入力される雑音区間検出結果が雑音区間を示す場合には、第1カウンタが1インクリメントされるとともに第2カウンタが「0」にリセットされる。一方、雑音区間検出部435から入力される雑音区間検出結果が音声区間を示す場合には、第2カウンタが1インクリメントされる。すなわち、第1カウンタは過去に雑音区間と判定されたフレーム数を表しており、第2カウンタは現フレームが音声区間であると判定され続けて何フレーム目かを表す。
図11は、本発明の実施の形態4に係る雑音区間検出部435の内部の構成を示すブロック図である。なお、雑音区間検出部435は、実施の形態3に示した雑音区間検出部335(図9参照)と同様の基本的構成を有しており、同様の基本的動作を行う。ただし、雑音区間検出部435の雑音判定部455と、雑音区間検出部335の雑音判定部355とは処理の一部に相違点があり、それを示すために異なる符号を付す。
雑音判定部455は、カウンタ461から入力される第1カウンタおよび第2カウンタの値、LPC分析部301から入力される線形予測残差の2乗平均値、無音判定部353から入力される無音判定結果、音源探索部307から入力されるピッチ予測利得、加算器138,139から入力される高域SNRおよび低域SNRを用いて、フレーム単位で入力音声信号が雑音区間であるかまたは音声区間であるかを判定し、判定の結果を雑音区間検出結果として高域雑音レベル更新部136および低域雑音レベル更新部137に出力する。具体的には、雑音判定部455は、線形予測残差の2乗平均値が所定の閾値未満であってかつピッチ予測利得が所定の閾値未満であるか、無音判定結果が無音区間を示すか、のいずれかの場合であるとともに、第1カウンタの値が所定の閾値未満であるか、第2カウンタの値が所定の閾値以上であるか、高域SNRおよび低域SNRの両方が所定の閾値未満であるか、のいずれかの場合であれば、入力音声信号が雑音区間であると判定し、他
の場合には入力音声信号が音声区間であると判定する。ここで、第1カウンタの値に対応する閾値として、例えば、100を用いて、第2カウンタの値に対応する閾値として、例えば、10を用い、高域SNRおよび低域SNRに対応する閾値として、例えば、5dBを用いる。
すなわち、実施の形態3に示した雑音判定部355において符号化対象フレームが雑音区間と判定される条件が満たされても、第1カウンタの値が所定の閾値以上であって、かつ、第2カウンタの値が所定の閾値未満であって、かつ、高域SNRまたは低域SNRの少なくとも一方が所定の閾値以上であれば、雑音判定部455は、入力音声信号を雑音区間ではなく音声区間と判定する。その理由は、SNRが高いフレームは背景雑音のほかに意味のある音声信号が存在する可能性が高いため、そのようなフレームを雑音区間と判定しないようにするためである。ただし、雑音区間と判定されたフレームが過去に所定の数だけ存在した場合でなければ、すなわち第1カウンタの値が所定値以上でなければ、SNRの精度は低いと考えられる。このため、前記SNRが高くても第1カウンタの値が所定値未満であれば、雑音判定部455は実施の形態3で示した雑音判定部355における判定基準のみで判定を行い、前記SNRを雑音区間判定には用いない。また、前記SNRを用いた雑音区間判定は、音声の立上がりを検出するのに効果的だが、多用すると雑音と判定すべき区間まで音声区間であると判定してしまう場合がある。このため、音声の立ち上がり区間、つまり雑音区間から音声区間に切り替わった直後、すなわち第2カウンタの値が所定値未満である場合において、限定的に用いるのが良い。このようにすることで、立ち上がりの音声区間を雑音区間と誤って判定することを防ぐことができる。
このように、本実施の形態によれば、音声符号化装置において、過去において連続的に雑音区間または音声区間と判定されたフレームの数、および音声信号の高域SNRおよび低域SNRを用いて雑音区間の検出を行うため、雑音区間検出の精度を向上させることができ、量子化雑音のスペクトル傾斜補正の精度を向上させることができる。
(実施の形態5)
本発明の実施の形態5においては、適応マルチレートワイドバンド(AMR−WB:Adaptive MultiRate - WideBand)音声符号化において、量子化雑音のスペクトル傾斜を適応的に調整し、背景雑音信号と音声信号とが重畳した雑音音声重畳区間に対しても適した聴覚重み付けフィルタリングを行うことができる音声符号化方法について説明する。
図12は、本発明の実施の形態5に係る音声符号化装置500の主要な構成を示すブロック図である。図12に示す音声符号化装置500は、AMR−WB符号化装置に本発明の一例を適用したものに相当する。なお、音声符号化装置500は、実施の形態1に示した音声符号化装置100(図1参照)と同様の基本的構成を有しており、同一の構成要素には同一の符号を付し、その説明を省略する。
音声符号化装置500は、プリエンファシスフィルタ501をさらに備える点において実施の形態1に示した音声符号化装置100と相違する。なお、音声符号化装置500の傾斜補正係数制御部503、および聴覚重み付けフィルタ505−1〜505−3は、音声符号化装置100の傾斜補正係数制御部103、および聴覚重み付けフィルタ105−1〜105−3と処理の一部に相違点があり、それを示すために異なる符号を付す。以下、これらの相違点についてのみ説明する。
プリエンファシスフィルタ501は、P(z)=1−γ−1で表される伝達関数を用いて入力音声信号に対しフィルタリングを行い、LPC分析部101、傾斜補正係数制御部503、および聴覚重み付けフィルタ505−1に出力する。
傾斜補正係数制御部503は、プリエンファシスフィルタ501でフィルタリングが施された入力音声信号を用いて、量子化雑音のスペクトル傾斜を調整するための傾斜補正係数γ”を算出し、聴覚重み付けフィルタ505−1〜505−3に出力する。なお、傾斜補正係数制御部503の詳細については後述する。
聴覚重み付けフィルタ505−1〜505−3は、LPC分析部101から入力される線形予測係数aと、傾斜補正係数制御部503から入力される傾斜補正係数γ”とを含む下記の式(24)に示す伝達関数を用いて、プリエンファシスフィルタ501でフィルタリングが施された入力音声信号に対し聴覚重み付けフィルタリングを行う点のみにおいて、実施の形態1に示した聴覚重み付けフィルタ105−1〜105−3と相違する。
Figure 0005061111
図13は、傾斜補正係数制御部503の内部の構成を示すブロック図である。傾斜補正係数制御部503が備える低域エネルギレベル算出部134、雑音区間検出部135、低域雑音レベル更新部137、加算器139、平滑化部145は、実施の形態1に示した傾斜補正係数制御部103(図1参照)が備える低域エネルギレベル算出部134、雑音区間検出部135、低域雑音レベル更新部137、加算器139、平滑化部145と同様であるため、説明を省略する。なお、傾斜補正係数制御部503のLPF533、傾斜補正係数算出部541は、傾斜補正係数制御部103のLPF133、傾斜補正係数算出部141と処理の一部に相違点があり、それを示すために異なる符号を付し、以下、これらの相違点についてのみ説明する。なお、以下の説明が煩雑になることを避けるために、傾斜補正係数算出部541において算出される平滑化前傾斜補正係数と、平滑化部145から出力される傾斜補正係数とを区別せず、傾斜補正係数γ”として説明する。
LPF533は、プリエンファシスフィルタ501でフィルタリングが施された入力音声信号の周波数領域の1kHz未満の低域成分を抽出し、得られる音声信号低域成分を低域エネルギレベル算出部134に出力する。
傾斜補正係数算出部541は、加算器139から入力される低域SNRを用いて、図14に示すような傾斜補正係数γ”を求め、平滑化部145に出力する。
図14は、傾斜補正係数算出部541における傾斜補正係数γ”の算出について説明するための図である。
図14に示すように、低域SNRが0dB未満(つまり領域I)、またはTh2dB以上(つまり領域IV)である場合には、傾斜補正係数算出部541は、γ”としてKmaxを出力する。また、傾斜補正係数算出部541は、低域SNRが0以上であり、かつTh1未満(つまり領域II)である場合には、下記の式(25)に従ってγ”を算出し、低域SNRがTh1以上であり、かつTh2未満(つまり領域III)である場合には、下記の式(26)に従ってγ”を算出する。
γ”=Kmax−S(Kmax−Kmin)/Th1 …(25)
γ”=Kmin−Th1(Kmax−Kmin)/(Th2−Th1)+S(Kmax−Kmin)/(Th2−Th1) …(26)
式(25)および式(26)において、Kmaxは、仮に音声符号化装置500が傾斜
補正係数制御部503を備えない場合に、聴覚重み付けフィルタ505−1〜505−3に用いられる定数の傾斜補正係数γ”の値である。また、KminおよびKmaxは、0<Kmin<Kmax<1を満たす定数である。
図14において、領域Iは、入力音声信号において音声が無く背景雑音のみの区間を示し、領域IIは、入力音声信号において音声よりも背景雑音が支配的な区間を示し、領域IIIは、入力音声信号において背景雑音よりも音声が支配的な区間を示し、領域IVは、入力音声信号において背景雑音が無く音声のみの区間を示す。図14に示すように、傾斜補正係数算出部541は、低域SNRがTh1以上である場合に(領域IIIおよび領域IVにおいて)は、低域SNRが大きいほど傾斜補正係数γ”の値をKmin〜Kmaxの範囲においてより大きくする。また、図14に示すように、傾斜補正係数算出部541は、低域SNRがTh1より小さい場合に(領域Iおよび領域IIにおいて)は、低域SNRが小さいほど傾斜補正係数γ”の値をKmin〜Kmaxの範囲においてより大きくする。これは、低域SNRがある程度低くなる場合に(領域Iおよび領域IIにおいて)は、背景雑音信号が支配的となり、すなわち背景雑音信号自体が聴くべき対象となり、このような場合には、低域に量子化ノイズを集めてしまうようなノイズシェーピングを避けるべきであるからである。
図15Aおよび図15Bは、本実施の形態に係る音声符号化装置500を用いて量子化雑音のシェイピングを行う場合に得られる効果を示す図である。ここでは、どちらも女性が発音した「早朝」の「そ」という音声の母音部のスペクトルを示したものである。どちらも同じ信号の同じ区間のスペクトルであるが、図15Bには背景雑音信号(カーノイズ)を加算している。図15Aは、背景雑音がほぼ無く音声のみである場合の音声信号、すなわち低域SNRが図14の領域IVに該当する音声信号に対し、量子化雑音のシェイピングを行う場合に得られる効果を示す。また、図15Bは、背景雑音、ここではカーノイズ、と音声とが重畳する場合の音声信号、すなわち低域SNRが図14の領域IIまたは領域IIIに該当する音声信号に対し、量子化雑音のシェイピングを行う場合に得られる効果を示す。
図15Aおよび図15Bにおいて、実線のグラフ601、701は、それぞれ背景雑音の有無のみが異なる同じ音声区間における音声信号のスペクトルの一例を示す。破線のグラフ602、702は、仮に音声符号化装置500が傾斜補正係数制御部503を備えず量子化雑音のシェイピングを行う場合、得られる量子化雑音のスペクトルを示す。一点破線のグラフ603、703は、本実施の形態に係る音声符号化装置500を用いて量子化雑音のシェイピングを行う場合に得られる量子化雑音のスペクトルを示す。
図15Aと図15Bとを比較すると分かるように、量子化雑音の傾斜補正を行った場合、背景雑音の有無によって量子化誤差スペクトル包絡を表すグラフ603とグラフ703とが異なる。
また、図15Aに示すように、グラフ602とグラフ603とはほぼ一致する。これは、図14に示した領域IVにおいて、傾斜補正係数算出部541は、γ”としてKmaxを聴覚重み付けフィルタ505−1〜505−3に出力するからである。なお、上述したように、Kmaxは、仮に音声符号化装置500が傾斜補正係数制御部503を備えない場合に、聴覚重み付けフィルタ505−1〜505−3に用いられる定数の傾斜補正係数γ”の値である。
また、カーノイズ信号の特性は、低域にエネルギが集中しており、低域のSNRが低くなる。ここでは、図15Bのグラフ701に示す音声信号の低域SNRが図14に示した領域IIおよび領域IIIに該当するとする。かかる場合、傾斜補正係数算出部541は
、Kmaxより小さい値の傾斜補正係数γ”を算出する。これにより、量子化誤差スペクトルは低域が持ち上げられたグラフ703のようになる。
このように、本実施の形態によれば、音声信号が支配的でありながら低域の背景雑音レベルが高い場合には、低域の量子化雑音をより許容するように聴覚重み付けフィルタの傾きを制御する。これにより高域成分を重視した量子化が可能となり、量子化音声信号の主観的品質が改善される。
またさらに、本実施の形態によれば、低域SNRが所定の閾値未満の場合には、低域SNRが低いほど傾斜補正係数γ”をより大きくし、低域SNRが所定の閾値以上である場合には、低域SNRが高いほど傾斜補正係数γ”をより大きくする。すなわち、背景雑音が支配的であるか音声信号が支配的であるかに応じて、傾斜補正係数γ”の制御方法を切り替えるため、入力信号に含まれる信号のうち支配的な信号に適したノイズシェーピングを行うように量子化雑音のスペクトル傾斜を調整することができる。
なお、本実施の形態では、傾斜補正係数算出部541において図14に示すような傾斜補正係数γ”を算出する場合を例にとって説明したが、本発明はこれに限定されず、γ”=β×低域SNR+Cという式に従って傾斜補正係数γ”を算出しても良い。また、かかる場合は、算出された傾斜補正係数γ”に対して上限値および下限値の制限を加える。例えば、仮に音声符号化装置500が傾斜補正係数制御部503を備えない場合に、聴覚重み付けフィルタ505−1〜505−3に用いられる定数の傾斜補正係数γ”の値を上限値としても良い。
(実施の形態6)
図16は、本発明の実施の形態6に係る音声符号化装置600の主要な構成を示すブロック図である。図16に示す音声符号化装置600は、実施の形態5に示した音声符号化装置500(図12参照)と同様の基本的構成を有しており、同一の構成要素には同一の符号を付し、その説明を省略する。
音声符号化装置600は、傾斜補正係数制御部503の代わりに重み係数制御部601を備える点において実施の形態5に示した音声符号化装置500と相違する。なお、音声符号化装置600の聴覚重み付けフィルタ605−1〜605−3は、音声符号化装置500の聴覚重み付けフィルタ505−1〜505−3と処理の一部に相違点があり、それを示すために異なる符号を付す。以下、これらの相違点についてのみ説明する。
重み係数制御部601は、プリエンファシスフィルタ501でフィルタリングが施された入力音声信号を用いて重み係数a を算出し、聴覚重み付けフィルタ605−1〜605−3に出力する。なお、重み係数制御部601の詳細については後述する。
聴覚重み付けフィルタ605−1〜605−3は、定数の傾斜補正係数γ”、LPC分析部101から入力される線形予測係数a、および重み係数制御部601から入力される重み係数a を含む下記の式(27)に示す伝達関数を用いて、プリエンファシスフィルタ501でフィルタリングが施された入力音声信号に対し聴覚重み付けフィルタリングを行う点のみにおいて、実施の形態5に示した聴覚重み付けフィルタ505−1〜505−3と相違する。
Figure 0005061111
図17は、本実施の形態に係る重み係数制御部601の内部の構成を示すブロック図である。
図17において、重み係数制御部601は、雑音区間検出部135、エネルギレベル算出部611、雑音LPC更新部612、雑音レベル更新部613、加算器614、および重み係数算出部615を備える。そのうち、雑音区間検出部135は、実施の形態1に示した傾斜補正係数算出部103(図2参照)が備える雑音区間検出部135と同様である。
エネルギレベル算出部611は、プリエンファシスフィルタ501でプリエンファシスされた入力音声信号のエネルギレベルを、フレーム単位で下記の式(28)に従って算出し、得られる音声信号エネルギレベルを雑音レベル更新部613および加算器614に出力する。
E=10log10(|A|) …(28)
式(28)において、Aは、プリエンファシスフィルタ501でプリエンファシスされた入力音声信号ベクトル(ベクトル長=フレーム長)を示す。すなわち、|A|は音声信号のフレームエネルギである。Eは|A|をデシベル表現にしたもので、音声信号エネルギレベルである。
雑音LPC更新部612は、雑音区間検出部135の雑音区間判定結果に基づき、LPC分析部101から入力される雑音区間の線形予測係数aiの平均値を求める。具体的には、入力した線形予測係数aiを周波数領域のパラメータであるLSF(Line Spectral Frequency)またはISF(Immittance Spectral Frequency)に変換し、雑音区間においてLSFやISFの平均値を算出して重み係数算出部615に出力する。LSFやISFの平均値の算出方法は、例えば、Fave=βFave+(1−β)Fのような式を用いれば逐次更新できる。ここで、FaveはISFまたはLSFの雑音区間における平均値、βは平滑化係数、Fは雑音区間と判定されたフレーム(またはサブフレーム)におけるISFまたはLSF(すなわち入力された線形予測係数aiを変換して得られたISFまたはLSF)をそれぞれ示す。なお、LPC量子化部102において線形予測係数がLSFやISFに変換されている場合、LPC量子化部102からLSFやISFを重み係数制御部601へ入力する構成とすれば、雑音LPC更新部612において線形予測係数aiをISFやLSFに変換する処理は必要なくなる。
雑音レベル更新部613は、背景雑音の平均エネルギレベルを保持しており、雑音区間検出部135から背景雑音区間検出情報が入力される場合、エネルギレベル算出部611から入力される音声信号エネルギレベルを用いて、保持している背景雑音の平均エネルギレベルを更新する。更新の方法としては、例えば、下記の式(29)に従い行う。
=αE+(1−α)E …(29)
式(29)において、Eはエネルギレベル算出部611から入力される音声信号エネルギレベルを示す。雑音区間検出部135から雑音レベル更新部613に背景雑音区間検出情報が入力される場合は、入力音声信号が背景雑音のみの区間であることを意味し、エネ
ルギレベル算出部611から雑音レベル更新部613に入力される音声信号エネルギレベル、すなわち、この式に示すEは、背景雑音のエネルギレベルとなる。Eは雑音レベル更新部613が保持している背景雑音の平均エネルギレベルを示し、αは長期平滑化係数であって、0≦α<1である。雑音レベル更新部613は、保持している背景雑音の平均エネルギレベルを加算器614に出力する。
加算器614は、エネルギレベル算出部611から入力される音声信号エネルギレベルから、雑音レベル更新部613から入力される背景雑音の平均エネルギレベルを減算して、得られる減算結果を重み係数算出部615に出力する。加算器614で得られる減算結果は、対数で表した2つのエネルギのレベルの差、すなわち、音声信号エネルギレベルおよび背景雑音の平均エネルギレベルの差であるため、この2つのエネルギの比、すなわち、音声信号エネルギと背景雑音信号の長期的な平均エネルギとの比である。言い換えれば、加算器614で得られる減算結果は、音声信号のSNRである。
重み係数算出部615は、加算器614から入力されるSNR、および雑音LPC更新部612から入力される雑音区間における平均的なISFまたはLSFを用いて、重み係数a を算出して聴覚重み付けフィルタ605−1〜605−3に出力する。具体的には、重み係数算出部615は、まず、加算器614から入力されるSNRを短期平滑化してSを得、また、雑音LPC更新部612から入力される雑音区間における平均的なISFまたはLSFを短期平滑化してL を得る。次いで、重み係数算出部615は、L を時間領域であるLPC(線形予測係数)に変換しbを得る。次いで、重み係数算出部615は、Sから図18に示すような重み調整係数γを算出し、重み係数a =γを出力する。
図18は、重み係数算出部615における重み調整係数γの算出について説明するため図である。
図18において、各領域の定義は図14における各領域の定義と同様である。図18に示すように、領域Iおよび領域IVにおいて重み係数算出部615は、重み調整係数γの値を「0」にする。すなわち、領域Iおよび領域IVにおいて、聴覚重み付けフィルタ605−1〜605−3それぞれにおいて下記の式(30)で表される線形予測逆フィルタはOFFとなる。
Figure 0005061111
また、図18に示す領域IIおよび領域IIIそれぞれにおいて、重み係数算出部615は、下記の式(31)および式(32)それぞれに従って重み調整係数γを算出する。
γ=SKmax/Th1 …(31)
γ=Kmax−Kmax(S−Th1)/(Th2−Th1) …(32)
すなわち、図18に示すように、重み係数算出部615は、音声信号のSNRがTh1以上である場合には、SNRが大きいほど重み調整係数γをより大きくし、音声信号のSNRがTh1より小さい場合には、SNRが小さいほど重み調整係数γをより小さくする。そして、音声信号の雑音区間の平均的なスペクトル特性を表す線形予測係数(LPC)bに重み調整係数γiを乗じた重み係数a を、聴覚重み付けフィルタ605−1〜605−3に出力して線形予測逆フィルタを構成させる。
このように、本実施の形態によれば、音声信号のSNRに応じた重み調整係数を、入力
信号の雑音区間の平均的なスペクトル特性を表す線形予測係数に乗じて重み係数を算出し、この重み係数を用いて聴覚重み付けフィルタの線形予測逆フィルタを構成するため、入力信号のスペクトル特性に合わせて量子化雑音スペクトル包絡を調整し、復号音声の音質を向上することができる。
なお、本実施の形態では、聴覚重み付けフィルタ605−1〜605−3に用いられる傾斜補正係数γ”が定数である場合を例にとって説明したが、本発明はこれに限定されず、音声符号化装置600は実施の形態5に示した傾斜補正係数制御部503をさらに備え、傾斜補正係数γ”の値を調整しても良い。
(実施の形態7)
本発明の実施の形態7に係る音声符号化装置(図示せず)は、実施の形態5に示した音声符号化装置500と基本的に同様な構成を有し、傾斜補正係数制御部503の内部の構成および処理動作のみが異なる。
図19は、本発明の実施の形態7に係る傾斜補正係数制御部503の内部構成を示すブロック図である。
図19において、傾斜補正係数制御部503は、雑音区間検出部135、エネルギレベル算出部731、雑音レベル更新部732、低域/高域雑音レベル比算出部733、低域SNR算出部734、傾斜補正係数算出部735、および平滑化部145を備える。そのうち、雑音区間検出部135および平滑化部145は、実施の形態5に係る傾斜補正係数制御部503が備える雑音区間検出部135および平滑化部145と同様である。
エネルギレベル算出部731は、プリエンファシスフィルタ501でフィルタリングが施された入力音声信号のエネルギレベルを、2つ以上の周波数帯域において算出して、雑音レベル更新部732および低域SNR算出部734に出力する。具体的には、エネルギレベル算出部731は、離散フーリエ変換(DFT:Discrete Fourier Transform)や高速フーリエ変換(FFT:Fast Fourier Transform)などを用いて、入力音声信号を周波数領域に変換してから周波数帯域毎のエネルギレベルを算出する。以下、2つ以上の周波数帯域としては低域および高域の2つの周波数帯域を例にとって説明する。ここで、低域とは0〜500乃至1000Hz程度の帯域からなり、高域とは3500Hz前後〜6500Hz前後の帯域からなる。
雑音レベル更新部732は、背景雑音の低域の平均エネルギレベルおよび背景雑音の高域の平均エネルギレベルそれぞれを保持している。雑音レベル更新部732は、雑音区間検出部135から背景雑音区間検出情報が入力される場合、エネルギレベル算出部731から入力される低域および高域それぞれの音声信号エネルギレベルを用いて、上述の式(29)に従い、保持している背景雑音の低域および高域それぞれの平均エネルギレベルを更新する。ただし、雑音レベル更新部732は、低域および高域それぞれにおいて式(29)に従う処理を行う。すなわち、雑音レベル更新部732が背景雑音の低域の平均エネルギを更新する場合には、式(29)のEはエネルギレベル算出部731から入力される低域の音声信号エネルギレベルを示し、Eは雑音レベル更新部732が保持する背景雑音の低域の平均エネルギレベルを示す。一方、雑音レベル更新部732が背景雑音の高域の平均エネルギを更新する場合には、式(29)のEはエネルギレベル算出部731から入力される高域の音声信号エネルギレベルを示し、Eは雑音レベル更新部732が保持する背景雑音の高域の平均エネルギレベルを示す。雑音レベル更新部732は、更新した背景雑音の低域および高域それぞれの平均エネルギレベルを低域/高域雑音レベル比算出部733に出力するとともに、更新した背景雑音の低域の平均エネルギレベルを低域SNR算出部734に出力する。
低域/高域雑音レベル比算出部733は、雑音レベル更新部732から入力される背景雑音の低域の平均エネルギレベルと高域の平均エネルギレベルとの比をdB単位で計算し、低域/高域雑音レベル比として傾斜補正係数算出部735に出力する。
低域SNR算出部734は、エネルギレベル算出部731から入力される入力音声信号の低域のエネルギレベルと、雑音レベル更新部732から入力される背景雑音の低域のエネルギレベルとの比をdB単位で算出し、低域SNRとして傾斜補正係数算出部735に出力する。
傾斜補正係数算出部735は、雑音区間検出部135から入力される雑音区間検出情報、低域/高域雑音レベル比算出部733から入力される低域/高域雑音レベル比、および低域SNR算出部734から入力される低域SNRを用いて傾斜補正係数γ”を算出し、平滑化部145に出力する。
図20は、傾斜補正係数算出部735の内部の構成を示すブロック図である。
図20において、傾斜補正係数算出部735は、係数修正量算出部751、係数修正量調整部752、および補正係数算出部753を備える。
係数修正量算出部751は、低域SNR算出部734から入力される低域SNRを用いて傾斜補正係数をどれだけ修正する(増減させる)かを示す係数修正量を算出し、係数修正量調整部752に出力する。ここで入力される低域SNRと、算出される係数修正量との関係は、例えば図21に示すものとなる。図21は、図18における横軸を低域SNRと見なし、縦軸を係数修正量と見なし、さらに係数修正量の最大値Kdmaxを用いて図18における重み係数γの最大値Kmaxを代替して得られる図と同様である。また、係数修正量算出部751は、雑音区間検出部135から雑音区間検出情報が入力される場合には、係数修正量を「0」として算出する。雑音区間における係数修正量を「0」とすることにより、雑音区間において傾斜補正係数の不適切な修正が行われることを回避する。
係数修正量調整部752は、低域/高域雑音レベル比算出部733から入力される低域/高域雑音レベル比を用いて、係数修正量算出部751から入力される係数修正量をさらに調整する。具体的には、係数修正量調整部752は、下記の式(33)に従い、低域/高域雑音レベル比が小さいほど、すなわち低域雑音レベルが高域雑音レベルに対して低いほど、係数修正量をより小さく調整する。
D2=λ×Nd×D1(ただし、0≦λ×Nd≦1) …(33)
式(33)において、D1は、係数修正量算出部751から入力される係数修正量を示し、D2は、調整後の係数修正量を示す。Ndは、低域/高域雑音レベル比算出部733から入力される低域/高域雑音レベル比を示す。また、λは、Ndに掛ける調整係数であり、例えばλ=1/25=0.04を用いる。λ=1/25=0.04であり、Ndが25を越え、λ×Ndが1を越える場合には、係数修正量調整部752は、λ×Nd=1のようにλ×Ndを「1」にクリップする。また、同様にNdが「0」以下であり、λ×Ndが「0」以下となる場合には、係数修正量調整部752は、λ×Nd=0のようにλ×Ndを「0」にクリップする。
補正係数算出部753は、係数修正量調整部752から入力される係数修正量を用いて、デフォルトの傾斜補正係数を修正し、得られる傾斜補正係数γ”を平滑化部145に出力する。例えば、補正係数算出部753は、γ”=Kdefault−D2によりγ”を算出する。ここでKdefaultは、デフォルトの傾斜補正係数を示す。デフォルトの傾斜補
正係数とは、本実施の形態に係る音声符号化装置が仮に傾斜補正係数制御部503を備えない場合に、聴覚重み付けフィルタ505−1〜505−3に用いられる定数の傾斜補正係数を指す。
補正係数算出部753において算出される傾斜補正係数γ”と、低域SNR算出部734から入力される低域SNRとの関係は、図22に示すようになる。図22は、Kdefaultを用いて図14におけるKmaxを代替し、Kdefault−λ×Nd×Kdmaxを用いて図14におけるKminを代替して得られる図と同様である。
係数修正量調整部752において、低域/高域雑音レベル比が小さいほど、係数修正量をより小さく調整する理由は以下のとおりである。すなわち、低域/高域雑音レベル比は、背景雑音信号のスペクトル包絡を示す情報であり、低域/高域雑音レベル比が小さいほど背景雑音のスペクトル包絡はより平坦となるか、または低域と高域との間の周波数帯域(中域)にのみ山か谷が存在する。背景雑音のスペクトル包絡が平坦である場合、または中域にのみ山か谷が存在する場合には、傾斜フィルタの傾斜を増減してもノイズシェーピングの効果は得られないため、このような場合には、係数修正量調整部752は係数修正量を小さく調整する。逆に、低域の背景雑音レベルが高域の背景雑音レベルに比べて十分高い場合は、背景雑音信号のスペクトル包絡は傾斜補正フィルタの周波数特性に近いものとなり、傾斜補正フィルタの傾斜を適応的に制御することにより主観品質を高めるノイズシェーピングが可能となる。したがって、このような場合には、係数修正量調整部752は係数修正量を大きく調整する。
このように、本実施の形態によれば、入力音声信号のSNR、および低域/高域雑音レベル比に応じて傾斜補正係数を調整するため、より背景雑音信号のスペクトル包絡に合わせたノイズシェーピングを行うことができる。
なお、本実施の形態において、雑音区間検出部135は、エネルギレベル算出部731や雑音レベル更新部732の出力情報を雑音区間の検出に利用しても良い。また、雑音区間検出部135の処理は、無音検出器(Voice Activity Detector:VAD)や背景雑音抑圧器で行われる処理と共通するものであり、VAD処理部や背景雑音抑圧処理部、あるいはこれらに類する処理部を備える符号化器に本発明の実施の形態を適用する場合には、これら処理部の出力情報を利用するようにしても良い。また、背景雑音抑圧処理部を備える場合は、背景雑音抑圧処理部にエネルギレベル算出部や雑音レベル更新部を備えるのが一般的であるので、本実施の形態におけるエネルギレベル算出部731や雑音レベル更新部732の一部の処理を背景雑音抑圧処理部内の処理と共有しても良い。
また、本実施の形態では、エネルギレベル算出部731は入力音声信号を周波数領域に変換して低域および高域のエネルギレベルを算出する場合を例にとって説明したが、スペクトルサブトラクション等による背景雑音抑圧処理を備える符号器に本発明の実施の形態を適用する場合には、背景雑音抑圧処理において得られる入力音声信号のDFTスペクトルまたはFFTスペクトルと、推定雑音信号(推定された背景雑音信号)のDFTスペクトルまたはFFTスペクトルとを利用してエネルギを算出しても良い。
また、本実施の形態に係るエネルギレベル算出部731は、高域通過フィルタおよび低域通過フィルタを用いて時間信号処理によってエネルギレベルを算出しても良い。
また、補正係数算出部753は、推定される背景雑音信号のレベルEnが所定のレベルより低い場合、下記の式(34)のような処理を追加して調整後の修正量D2をさらに調整してもよい。
D2’=λ’×En×D2(ただし、(0≦(λ’×En)≦1) …(34)
式(34)において、λ’は背景雑音信号のレベルEnに掛ける調整係数であり、例えばλ’=0.1を用いる。λ’=0.1であり、背景雑音レベルEnが10dBを超え、λ’×Enが「1」を越える場合には、補正係数算出部753は、λ’×En=1のようにλ’×Enを「1」にクリップする。また同様に、Enが0dB以下である場合には、補正係数算出部753は、λ’×En=0のようにλ’×Enを「0」にクリップする。なお、Enは全帯域の雑音信号レベルであっても良い。この処理は、言い換えれば、背景雑音レベルがあるレベル、例えば10dB以下になった場合、背景雑音レベルに比例して修正量D2を小さくする処理である。これは、背景雑音レベルが小さい場合には、背景雑音のスペクトル特性を利用したノイズシェーピングの効果が得られなくなることと、推定される背景雑音レベルの誤差が大きくなる可能性が高くなる(実際には背景雑音が存在せず、息継ぎ音や極低レベルの無声音などによって背景雑音信号が推定される場合がある)ことに対応するためのものである。
以上、本発明の各実施の形態について説明した。
なお、図面において、単にブロック内を通過しているだけのように記載されている信号は、必ずしもそのブロック内を通過しなくても良い。また、信号の分岐がブロックの内部で行われているように記載されていても、必ずしもブロック内部で分岐する必要はなく、信号の分岐はブロックの外で行われても良い。
なお、LSFおよびISFはそれぞれLSP(Line Spectrum Pairs)およびISP(Immittance Spectrum Pairs)と呼ぶこともある。
本発明に係る音声符号化装置は、移動体通信システムにおける通信端末装置および基地局装置に搭載することが可能であり、これにより上記と同様の作用効果を有する通信端末装置、基地局装置、および移動体通信システムを提供することができる。
なお、ここでは、本発明をハードウェアで構成する場合を例にとって説明したが、本発明をソフトウェアで実現することも可能である。例えば、本発明に係る音声符号化方法のアルゴリズムをプログラミング言語によって記述し、このプログラムをメモリに記憶しておいて情報処理手段によって実行させることにより、本発明に係る音声符号化装置と同様の機能を実現することができる。
また、上記各実施の形態の説明に用いた各機能ブロックは、典型的には集積回路であるLSIとして実現される。これらは個別に1チップ化されても良いし、一部または全てを含むように1チップ化されても良い。
また、ここではLSIとしたが、集積度の違いによって、IC、システムLSI、スーパーLSI、ウルトラLSI等と呼称されることもある。
また、集積回路化の手法はLSIに限るものではなく、専用回路または汎用プロセッサで実現しても良い。LSI製造後に、プログラム化することが可能なFPGA(Field Programmable Gate Array)や、LSI内部の回路セルの接続もしくは設定を再構成可能なリコンフィギュラブル・プロセッサを利用しても良い。
さらに、半導体技術の進歩または派生する別技術により、LSIに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積化を行っても良い。バイオ技術の適用等が可能性としてあり得る。
2006年9月15日出願の特願2006−251532の日本出願、2007年3月1日出願の2007−051486、および2007年8月22日出願の2007−216246の日本出願に含まれる明細書、図面および要約書の開示内容は、すべて本願に援用される。
本発明に係る音声符号化装置および音声符号化方法は、音声符号化における量子化雑音をシェイピングする等の用途に適用することができる。
本発明の実施の形態1に係る音声符号化装置の主要な構成を示すブロック図 本発明の実施の形態1に係る傾斜補正係数制御部の内部の構成を示すブロック図 本発明の実施の形態1に係る雑音区間検出部の内部の構成を示すブロック図 本発明の実施の形態1に係る音声符号化装置を用いて、背景雑音よりも音声が支配的である音声区間の音声信号に対し、量子化雑音のシェイピングを行う場合に得られる効果を示す図 本発明の実施の形態1に係る音声符号化装置を用いて、背景雑音と音声とが重畳する雑音音声重畳区間の音声信号に対し、量子化雑音のシェイピングを行う場合に得られる効果を示す図 本発明の実施の形態2に係る音声符号化装置の主要な構成を示すブロック図 本発明の実施の形態3に係る音声符号化装置の主要な構成を示すブロック図 本発明の実施の形態3に係る傾斜補正係数制御部の内部の構成を示すブロック図 本発明の実施の形態3に係る雑音区間検出部の内部の構成を示すブロック図 本発明の実施の形態4に係る傾斜補正係数制御部の内部の構成を示すブロック図 本発明の実施の形態4に係る雑音区間検出部の内部の構成を示すブロック図 本発明の実施の形態5に係る音声符号化装置の主要な構成を示すブロック図 本発明の実施の形態5に係る傾斜補正係数制御部の内部の構成を示すブロック図 本発明の実施の形態5に係る傾斜補正係数算出部における傾斜補正係数の算出について説明するための図 本発明の実施の形態5に係る音声符号化装置を用いて量子化雑音のシェイピングを行う場合に得られる効果を示す図 本発明の実施の形態6に係る音声符号化装置の主要な構成を示すブロック図 本発明の実施の形態6に係る重み係数制御部の内部の構成を示すブロック図 本発明の実施の形態6に係る重み係数算出部における重み調整係数の算出について説明するための図 本発明の実施の形態7に係る傾斜補正係数制御部の内部な構成を示すブロック図 本発明の実施の形態7に係る傾斜補正係数算出部の内部な構成を示すブロック図 本発明の実施の形態7に係る低域SNRと、係数修正量との関係を示す図 本発明の実施の形態7に係る傾斜補正係数と、低域SNRとの関係を示す図

Claims (10)

  1. 音声信号に対し線形予測分析を行って線形予測係数を生成する線形予測分析手段と、
    前記線形予測係数を量子化する量子化手段と、
    前記量子化の雑音のスペクトル傾斜を調整するための傾斜補正係数を含む伝達関数を用いて、入力音声信号に対し聴覚重み付けフィルタリングを行い聴覚重み付け音声信号を生成する聴覚重み付け手段と、
    前記音声信号の第1周波数帯域の信号対雑音比を用いて、前記傾斜補正係数を制御する傾斜補正係数制御手段と、
    前記聴覚重み付け音声信号を用いて適応符号帳および固定符号帳の音源探索を行い音源信号を生成する音源探索手段と、
    を具備し、
    前記傾斜補正係数制御手段は、
    前記音声信号の第1周波数帯域の第1信号の信号対雑音比と、前記音声信号の第1周波数帯域よりも高い第2周波数帯域の第2信号の信号対雑音比とを用いて、前記傾斜補正係数を制御し、
    前記傾斜補正係数制御手段は、
    前記音声信号から前記第1信号と前記第2信号とを抽出する抽出手段と、
    前記第1信号のエネルギと、前記第2信号のエネルギとを算出するエネルギ算出手段と、
    前記第1信号の雑音区間のエネルギと、前記第2信号の雑音区間のエネルギとを算出する雑音区間エネルギ算出手段と、
    前記第1信号の信号対雑音比と、前記第2信号の信号対雑音比とを算出する信号対雑音比算出手段と、
    前記第1信号の信号対雑音比と、前記第2信号の信号対雑音比との差に第1定数を乗算し、さらに第2定数を加算して前記傾斜補正係数を得る傾斜補正係数算出手段と、
    を具備する
    音声符号化装置。
  2. 前記傾斜補正係数は、
    前記第1信号の信号対雑音比よりも前記第2信号の信号対雑音比が高いほど前記量子化雑音の低域成分をより高くシェイピングし、前記第2信号の信号対雑音比よりも前記第1信号の信号対雑音比が高いほど前記量子化雑音の高域成分をより高くシェイピングする傾斜補正係数である、
    請求項記載の音声符号化装置。
  3. 前記傾斜補正係数制御手段は、
    前記第1信号の雑音区間のエネルギと、前記第2信号の雑音区間のエネルギとを加算し、さらに第3定数を乗算して前記傾斜補正係数の下限値を算出する下限値算出手段と、
    前記傾斜補正係数を、前記下限値以上、かつ、あらかじめ定めた上限値以下の範囲内に制限する制限手段と、
    をさらに具備する請求項記載の音声符号化装置。
  4. 前記傾斜補正係数制御手段は、
    前記音声信号を用いて算出されたエネルギが第1の閾値未満である区間、または前記音声信号に対し線形予測分析を行って得られる線形予測利得の逆数に相当するパラメータが第2の閾値未満であってかつ前記音声信号に対しピッチ分析を行い得られるピッチ予測利得が第3の閾値未満である区間を雑音区間として検出する雑音区間検出手段と、
    を具備する請求項記載の音声符号化装置。
  5. 前記雑音区間検出手段は、
    前記第1信号のエネルギと、前記第2信号のエネルギとを加算して得られるエネルギと、前記線形予測分析手段における線形予測分析の過程で得られる線形予測利得に関するパラメータと、前記音源探索の過程で得られるピッチ予測利得とを用いて前記音声信号の雑音区間を検出する、
    請求項記載の音声符号化装置。
  6. 前記音声信号において、連続的に雑音区間と判定されるフレームの数をカウントする第1カウンタと、連続的に音声区間と判定されるフレームの数をカウントする第2カウンタと、をさらに具備し、
    前記雑音区間検出手段は、
    前記検出された雑音区間において、前記第1カウンタの値が第4の閾値未満であるか、前記第2カウンタの値が第5の閾値以上であるか、または前記第1信号の信号対雑音比と、前記第2信号の信号対雑音比との両方が第6の閾値未満であるか、のいずれかに該当する区間をさらに検出する、
    請求項記載の音声符号化装置。
  7. 音声信号に対し線形予測分析を行って線形予測係数を生成する線形予測分析手段と、
    前記線形予測係数を量子化する量子化手段と、
    前記量子化の雑音のスペクトル傾斜を調整するための傾斜補正係数を含む伝達関数を用いて、入力音声信号に対し聴覚重み付けフィルタリングを行い聴覚重み付け音声信号を生成する聴覚重み付け手段と、
    前記音声信号の第1周波数帯域の信号対雑音比を用いて、前記傾斜補正係数を制御する傾斜補正係数制御手段と、
    前記聴覚重み付け音声信号を用いて適応符号帳および固定符号帳の音源探索を行い音源信号を生成する音源探索手段と、
    を具備し、
    前記傾斜補正係数制御手段は、
    前記音声信号から前記第1周波数帯域の第1信号を抽出する抽出手段と、
    前記第1信号のエネルギを算出するエネルギ算出手段と、
    前記第1信号の雑音区間のエネルギを算出する雑音区間エネルギ算出手段と、
    前記第1信号の信号対雑音比が第1の閾値以上である場合には、前記第1信号の信号対雑音比が大きいほど前記傾斜補正係数の値をより大きくし、前記第1信号の信号対雑音比が第1の閾値より小さい場合には、前記第1信号の信号対雑音比が小さいほど前記傾斜補正係数の値をより大きくする傾斜補正係数算出手段と、
    を具備し、
    前記傾斜補正係数算出手段は、
    前記傾斜補正係数の値を所定の範囲に制限し、前記第1信号の信号対雑音比が第2の閾値以下または第3の閾値以上である場合には、前記傾斜補正係数の値を前記所定の範囲の最大値にする、
    音声符号化装置。
  8. 音声信号に対し線形予測分析を行って線形予測係数を生成する線形予測分析手段と、
    前記線形予測係数を量子化する量子化手段と、
    前記量子化の雑音のスペクトル傾斜を調整するための傾斜補正係数を含む伝達関数を用いて、入力音声信号に対し聴覚重み付けフィルタリングを行い聴覚重み付け音声信号を生成する聴覚重み付け手段と、
    前記音声信号の信号対雑音比を用いて、前記聴覚重み付け手段において入力音声信号に対し聴覚重み付けフィルタリングを行う線形予測逆フィルタを構成する重み係数を制御する重み係数制御手段と、
    前記聴覚重み付け音声信号を用いて適応符号帳および固定符号帳の音源探索を行い音源信号を生成する音源探索手段と、
    を具備し、
    前記重み係数制御手段は、
    前記音声信号のエネルギを算出するエネルギ算出手段と、
    前記音声信号の雑音区間のエネルギを算出する雑音区間エネルギ算出手段と、
    前記音声信号の信号対雑音比が第1の閾値以上である場合には、前記音声信号の信号対雑音比が大きいほどより大きくなり、前記音声信号の信号対雑音比が第1の閾値より小さい場合には、前記音声信号の信号対雑音比が小さいほどより小さくなる調整係数を算出し、前記音声信号の雑音区間の線形予測係数に前記調整係数を乗じて前記重み係数を算出する算出手段と、
    を具備し、
    前記算出手段は、
    前記音声信号の信号対雑音比が第2の閾値以下または第3の閾値以上である場合には、前記調整係数を「0」とする、
    音声符号化装置。
  9. 音声信号に対し線形予測分析を行って線形予測係数を生成する線形予測分析手段と、
    前記線形予測係数を量子化する量子化手段と、
    前記量子化の雑音のスペクトル傾斜を調整するための傾斜補正係数を含む伝達関数を用いて、入力音声信号に対し聴覚重み付けフィルタリングを行い聴覚重み付け音声信号を生成する聴覚重み付け手段と、
    前記音声信号の第1周波数帯域の信号対雑音比を用いて、前記傾斜補正係数を制御する傾斜補正係数制御手段と、
    前記聴覚重み付け音声信号を用いて適応符号帳および固定符号帳の音源探索を行い音源信号を生成する音源探索手段と、
    を具備し、
    前記傾斜補正係数制御手段は、
    前記音声信号の第1周波数帯域におけるエネルギと、前記音声信号の前記第1周波数帯域よりも高い第2周波数帯域におけるエネルギを算出するエネルギ算出手段と、
    前記音声信号の第1周波数帯域および第2周波数帯域それぞれにおける雑音区間のエネルギを算出する雑音区間エネルギ算出手段と、
    前記音声信号の第1周波数帯域における信号対雑音比を算出する信号対雑音比算出手段と、
    前記音声信号の第1周波数帯域における信号対雑音比と、前記音声信号の第1周波数帯域および第2周波数帯域それぞれにおける雑音区間のエネルギの比と、に基づき前記傾斜補正係数を算出する傾斜補正係数算出手段と、
    を具備する
    音声符号化装置。
  10. 音声信号に対し線形予測分析を行って線形予測係数を生成するステップと、
    前記線形予測係数を量子化するステップと、
    前記量子化の雑音のスペクトル傾斜を調整するための傾斜補正係数を含む伝達関数を用いて、入力音声信号に対し聴覚重み付けフィルタリングを行い聴覚重み付け音声信号を生成するステップと、
    前記音声信号の第1周波数帯域の信号対雑音比を用いて、前記傾斜補正係数を制御するステップと、
    前記聴覚重み付け音声信号を用いて適応符号帳および固定符号帳の音源探索を行い音源信号を生成するステップと、
    を具備し、
    前記傾斜補正係数を制御するステップは、
    前記音声信号の第1周波数帯域の第1信号の信号対雑音比と、前記音声信号の第1周波数帯域よりも高い第2周波数帯域の第2信号の信号対雑音比とを用いて、前記傾斜補正係数を制御し、
    前記傾斜補正係数を制御するステップは、
    前記音声信号から前記第1信号と前記第2信号とを抽出するステップと、
    前記第1信号のエネルギと、前記第2信号のエネルギとを算出するステップと、
    前記第1信号の雑音区間のエネルギと、前記第2信号の雑音区間のエネルギとを算出するステップと、
    前記第1信号の信号対雑音比と、前記第2信号の信号対雑音比とを算出するステップと、
    前記第1信号の信号対雑音比と、前記第2信号の信号対雑音比との差に第1定数を乗算し、さらに第2定数を加算して前記傾斜補正係数を得るステップと、
    を具備する音声符号化方法。
JP2008534412A 2006-09-15 2007-09-14 音声符号化装置および音声符号化方法 Expired - Fee Related JP5061111B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008534412A JP5061111B2 (ja) 2006-09-15 2007-09-14 音声符号化装置および音声符号化方法

Applications Claiming Priority (8)

Application Number Priority Date Filing Date Title
JP2006251532 2006-09-15
JP2006251532 2006-09-15
JP2007051486 2007-03-01
JP2007051486 2007-03-01
JP2007216246 2007-08-22
JP2007216246 2007-08-22
PCT/JP2007/067960 WO2008032828A1 (fr) 2006-09-15 2007-09-14 Dispositif de codage audio et procédé de codage audio
JP2008534412A JP5061111B2 (ja) 2006-09-15 2007-09-14 音声符号化装置および音声符号化方法

Publications (2)

Publication Number Publication Date
JPWO2008032828A1 JPWO2008032828A1 (ja) 2010-01-28
JP5061111B2 true JP5061111B2 (ja) 2012-10-31

Family

ID=39183880

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008534412A Expired - Fee Related JP5061111B2 (ja) 2006-09-15 2007-09-14 音声符号化装置および音声符号化方法

Country Status (4)

Country Link
US (1) US8239191B2 (ja)
EP (1) EP2063418A4 (ja)
JP (1) JP5061111B2 (ja)
WO (1) WO2008032828A1 (ja)

Families Citing this family (41)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006009074A1 (ja) * 2004-07-20 2006-01-26 Matsushita Electric Industrial Co., Ltd. 音声復号化装置および補償フレーム生成方法
US7844453B2 (en) 2006-05-12 2010-11-30 Qnx Software Systems Co. Robust noise estimation
US8335685B2 (en) 2006-12-22 2012-12-18 Qnx Software Systems Limited Ambient noise compensation system robust to high excitation noise
US8326620B2 (en) * 2008-04-30 2012-12-04 Qnx Software Systems Limited Robust downlink speech and noise detector
US8032359B2 (en) 2007-02-14 2011-10-04 Mindspeed Technologies, Inc. Embedded silence and background noise compression
EP2116997A4 (en) 2007-03-02 2011-11-23 Panasonic Corp AUDIO DECODING DEVICE AND AUDIO DECODING METHOD
ATE456130T1 (de) * 2007-10-29 2010-02-15 Harman Becker Automotive Sys Partielle sprachrekonstruktion
WO2009084221A1 (ja) * 2007-12-27 2009-07-09 Panasonic Corporation 符号化装置、復号装置およびこれらの方法
CN101483495B (zh) * 2008-03-20 2012-02-15 华为技术有限公司 一种背景噪声生成方法以及噪声处理装置
JP5245714B2 (ja) * 2008-10-24 2013-07-24 ヤマハ株式会社 雑音抑圧装置及び雑音抑圧方法
JP5131149B2 (ja) * 2008-10-24 2013-01-30 ヤマハ株式会社 雑音抑圧装置及び雑音抑圧方法
JP5754899B2 (ja) 2009-10-07 2015-07-29 ソニー株式会社 復号装置および方法、並びにプログラム
TWI529703B (zh) 2010-02-11 2016-04-11 杜比實驗室特許公司 用以非破壞地正常化可攜式裝置中音訊訊號響度之系統及方法
JP5850216B2 (ja) 2010-04-13 2016-02-03 ソニー株式会社 信号処理装置および方法、符号化装置および方法、復号装置および方法、並びにプログラム
JP5609737B2 (ja) 2010-04-13 2014-10-22 ソニー株式会社 信号処理装置および方法、符号化装置および方法、復号装置および方法、並びにプログラム
US9047875B2 (en) * 2010-07-19 2015-06-02 Futurewei Technologies, Inc. Spectrum flatness control for bandwidth extension
JP6075743B2 (ja) 2010-08-03 2017-02-08 ソニー株式会社 信号処理装置および方法、並びにプログラム
JP5903758B2 (ja) 2010-09-08 2016-04-13 ソニー株式会社 信号処理装置および方法、プログラム、並びにデータ記録媒体
JP5707842B2 (ja) 2010-10-15 2015-04-30 ソニー株式会社 符号化装置および方法、復号装置および方法、並びにプログラム
US9197981B2 (en) * 2011-04-08 2015-11-24 The Regents Of The University Of Michigan Coordination amongst heterogeneous wireless devices
US8990074B2 (en) * 2011-05-24 2015-03-24 Qualcomm Incorporated Noise-robust speech coding mode classification
US8483291B2 (en) * 2011-06-30 2013-07-09 Broadcom Corporation Analog to digital converter with increased sub-range resolution
KR102138320B1 (ko) * 2011-10-28 2020-08-11 한국전자통신연구원 통신 시스템에서 신호 코덱 장치 및 방법
US20130163781A1 (en) * 2011-12-22 2013-06-27 Broadcom Corporation Breathing noise suppression for audio signals
JP6179087B2 (ja) * 2012-10-24 2017-08-16 富士通株式会社 オーディオ符号化装置、オーディオ符号化方法、オーディオ符号化用コンピュータプログラム
CN103928031B (zh) 2013-01-15 2016-03-30 华为技术有限公司 编码方法、解码方法、编码装置和解码装置
ES2626977T3 (es) * 2013-01-29 2017-07-26 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Aparato, procedimiento y medio informático para sintetizar una señal de audio
RU2648953C2 (ru) * 2013-01-29 2018-03-28 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Наполнение шумом без побочной информации для celp-подобных кодеров
JP6531649B2 (ja) 2013-09-19 2019-06-19 ソニー株式会社 符号化装置および方法、復号化装置および方法、並びにプログラム
JP6425097B2 (ja) * 2013-11-29 2018-11-21 ソニー株式会社 周波数帯域拡大装置および方法、並びにプログラム
CN105849801B (zh) 2013-12-27 2020-02-14 索尼公司 解码设备和方法以及程序
EP2922056A1 (en) 2014-03-19 2015-09-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method and corresponding computer program for generating an error concealment signal using power compensation
EP2922055A1 (en) * 2014-03-19 2015-09-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method and corresponding computer program for generating an error concealment signal using individual replacement LPC representations for individual codebook information
EP2922054A1 (en) 2014-03-19 2015-09-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method and corresponding computer program for generating an error concealment signal using an adaptive noise estimation
EP4376304A2 (en) * 2014-03-31 2024-05-29 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Encoder, decoder, encoding method, decoding method, and program
US9373342B2 (en) * 2014-06-23 2016-06-21 Nuance Communications, Inc. System and method for speech enhancement on compressed speech
CN106486129B (zh) * 2014-06-27 2019-10-25 华为技术有限公司 一种音频编码方法和装置
JP2016038435A (ja) * 2014-08-06 2016-03-22 ソニー株式会社 符号化装置および方法、復号装置および方法、並びにプログラム
EP3259754B1 (en) * 2015-02-16 2022-06-15 Samsung Electronics Co., Ltd. Method and device for providing information
EP3079151A1 (en) * 2015-04-09 2016-10-12 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder and method for encoding an audio signal
JP6501259B2 (ja) * 2015-08-04 2019-04-17 本田技研工業株式会社 音声処理装置及び音声処理方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08272394A (ja) * 1995-03-30 1996-10-18 Olympus Optical Co Ltd 音声符号化装置
JPH09244698A (ja) * 1996-03-08 1997-09-19 Sei Imai 音声符号/復号化方式及び装置
JP2000347688A (ja) * 1999-06-09 2000-12-15 Mitsubishi Electric Corp 雑音抑圧装置
JP2001228893A (ja) * 2000-02-18 2001-08-24 Matsushita Electric Ind Co Ltd 音声認識装置

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5341456A (en) * 1992-12-02 1994-08-23 Qualcomm Incorporated Method for determining speech encoding rate in a variable rate vocoder
SE501340C2 (sv) 1993-06-11 1995-01-23 Ericsson Telefon Ab L M Döljande av transmissionsfel i en talavkodare
JPH0786952A (ja) * 1993-09-13 1995-03-31 Nippon Telegr & Teleph Corp <Ntt> 音声の予測符号化方法
JP2964879B2 (ja) * 1994-08-22 1999-10-18 日本電気株式会社 ポストフィルタ
JPH08292797A (ja) 1995-04-20 1996-11-05 Nec Corp 音声符号化装置
US6064962A (en) * 1995-09-14 2000-05-16 Kabushiki Kaisha Toshiba Formant emphasis method and formant emphasis filter device
FR2742568B1 (fr) 1995-12-15 1998-02-13 Catherine Quinquis Procede d'analyse par prediction lineaire d'un signal audiofrequence, et procedes de codage et de decodage d'un signal audiofrequence en comportant application
US6453288B1 (en) 1996-11-07 2002-09-17 Matsushita Electric Industrial Co., Ltd. Method and apparatus for producing component of excitation vector
KR100938017B1 (ko) 1997-10-22 2010-01-21 파나소닉 주식회사 벡터 양자화 장치 및 방법
US6385573B1 (en) * 1998-08-24 2002-05-07 Conexant Systems, Inc. Adaptive tilt compensation for synthesized speech residual
CN1242379C (zh) 1999-08-23 2006-02-15 松下电器产业株式会社 音频编码装置
US6937979B2 (en) * 2000-09-15 2005-08-30 Mindspeed Technologies, Inc. Coding based on spectral content of a speech signal
US6615169B1 (en) * 2000-10-18 2003-09-02 Nokia Corporation High frequency enhancement layer coding in wideband speech codec
US6941263B2 (en) * 2001-06-29 2005-09-06 Microsoft Corporation Frequency domain postfiltering for quality enhancement of coded speech
US7353168B2 (en) * 2001-10-03 2008-04-01 Broadcom Corporation Method and apparatus to eliminate discontinuities in adaptively filtered signals
JP3785363B2 (ja) 2001-12-27 2006-06-14 松下電器産業株式会社 音声信号符号化装置、音声信号復号装置及び音声信号符号化方法
US7024358B2 (en) * 2003-03-15 2006-04-04 Mindspeed Technologies, Inc. Recovering an erased voice frame with time warping
JPWO2006025313A1 (ja) 2004-08-31 2008-05-08 松下電器産業株式会社 音声符号化装置、音声復号化装置、通信装置及び音声符号化方法
JP2006251532A (ja) 2005-03-11 2006-09-21 Sony Corp バックライト製造管理システム及びバックライト製造管理方法
JP5032012B2 (ja) 2005-08-19 2012-09-26 公益財団法人鉄道総合技術研究所 矢板併用型直接基礎及びその施工方法
JP2007216246A (ja) 2006-02-15 2007-08-30 Jfe Steel Kk 熱間圧延における金属帯の形状制御方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08272394A (ja) * 1995-03-30 1996-10-18 Olympus Optical Co Ltd 音声符号化装置
JPH09244698A (ja) * 1996-03-08 1997-09-19 Sei Imai 音声符号/復号化方式及び装置
JP2000347688A (ja) * 1999-06-09 2000-12-15 Mitsubishi Electric Corp 雑音抑圧装置
JP2001228893A (ja) * 2000-02-18 2001-08-24 Matsushita Electric Ind Co Ltd 音声認識装置

Also Published As

Publication number Publication date
EP2063418A4 (en) 2010-12-15
JPWO2008032828A1 (ja) 2010-01-28
EP2063418A1 (en) 2009-05-27
US8239191B2 (en) 2012-08-07
US20090265167A1 (en) 2009-10-22
WO2008032828A1 (fr) 2008-03-20

Similar Documents

Publication Publication Date Title
JP5061111B2 (ja) 音声符号化装置および音声符号化方法
JP5164970B2 (ja) 音声復号装置および音声復号方法
CA2399706C (en) Background noise reduction in sinusoidal based speech coding systems
CA2176665C (en) Method of adapting the noise masking level in an analysis-by-synthesis speech coder employing a short-term perceptual weighting filter
EP1898397B1 (en) Scalable decoder and disappeared data interpolating method
US9454974B2 (en) Systems, methods, and apparatus for gain factor limiting
JP4846712B2 (ja) スケーラブル復号化装置およびスケーラブル復号化方法
KR100905585B1 (ko) 음성신호의 대역폭 확장 제어 방법 및 장치
JP5153886B2 (ja) 雑音抑圧装置および音声復号化装置
KR102105044B1 (ko) 낮은 레이트의 씨이엘피 디코더의 비 음성 콘텐츠의 개선
WO2011153278A1 (en) Systems, methods, apparatus, and computer program products for wideband speech coding
KR20010101422A (ko) 매핑 매트릭스에 의한 광대역 음성 합성
JP4679513B2 (ja) 階層符号化装置および階層符号化方法
JP5291004B2 (ja) 通信ネットワークにおける方法及び装置
US10672411B2 (en) Method for adaptively encoding an audio signal in dependence on noise information for higher encoding accuracy
EP1619666B1 (en) Speech decoder, speech decoding method, program, recording medium
Hu et al. A cross-correlation technique for enhancing speech corrupted with correlated noise
US20100153099A1 (en) Speech encoding apparatus and speech encoding method

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100324

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120424

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120620

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120717

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120806

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150810

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees