JP6584431B2 - 音声情報を用いる改善されたフレーム消失補正 - Google Patents

音声情報を用いる改善されたフレーム消失補正 Download PDF

Info

Publication number
JP6584431B2
JP6584431B2 JP2016565232A JP2016565232A JP6584431B2 JP 6584431 B2 JP6584431 B2 JP 6584431B2 JP 2016565232 A JP2016565232 A JP 2016565232A JP 2016565232 A JP2016565232 A JP 2016565232A JP 6584431 B2 JP6584431 B2 JP 6584431B2
Authority
JP
Japan
Prior art keywords
signal
frame
component
period
voiced
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016565232A
Other languages
English (en)
Other versions
JP2017515155A (ja
Inventor
ジュリアン・フォール
ステファーヌ・ラゴ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Orange SA
Original Assignee
France Telecom SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by France Telecom SA filed Critical France Telecom SA
Publication of JP2017515155A publication Critical patent/JP2017515155A/ja
Application granted granted Critical
Publication of JP6584431B2 publication Critical patent/JP6584431B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/028Noise substitution, i.e. substituting non-tonal spectral components by noisy source
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/81Detection of presence or absence of voice signals for discriminating voice from music
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals
    • G10L2025/932Decision in previous or following frames
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)

Description

本発明は、遠隔通信における符号化/復号の分野に関し、より詳しくは、復号におけるフレーム消失補正の分野に関する。
「フレーム」は、少なくとも1つのサンプルから構成されるオーディオセグメントである(本発明は、G.711によるコーディングにおける1つまたは複数のサンプルの消失、ならびに規格G.723、G729、その他によるコーディングにおけるサンプルの1つまたは複数のパケットの消失に当てはまる)。
オーディオフレームの消失は、符号器および復号器を使用するリアルタイム通信が、遠隔通信ネットワークの条件(無線周波数問題、アクセスネットワークの混雑、その他)によって乱されるときに起こる。この場合、復号器は、フレーム消失補正機構を使用して、欠落している信号を、復号器において利用できる情報を使用して再構成される信号(例えば1つまたは複数の過去のフレームについてすでに復号されたオーディオ信号)に置き換えることを試みる。この技法は、ネットワーク性能が劣化するにもかかわらず、サービスの品質を維持することができる。
フレーム消失補正技法はしばしば、使用されるコーディングの種類に大きく依存する。
CELPコーディングの場合は、平均包絡線に向かって収束するようにスペクトル包絡線を変更するまたはランダム固定コードブックを使用するなどの調整を用いて、前のフレーム内で復号されたあるパラメータ(スペクトル包絡線、ピッチ、コードブックからの利得)を繰り返すことが一般的である。
変換コーディングの場合は、フレーム消失を補正するために最も広く使用される技法は、もし1つのフレームが消失したならば、受け取った最後のフレームを繰り返し、2つ以上のフレームが失われると、直ちに、繰り返されるフレームをゼロに設定することから成る。この技法は、多くのコーディング規格(G.719、G.722.1、G.722.1C)に見いだされる。また、G.711コーディング規格の場合を挙げることもでき、その場合、G.711の付属書Iに述べられるフレーム消失補正の例は、すでに復号された信号内の基本周期(「ピッチ周期」と呼ばれる)を識別し、それを繰り返し、すでに復号された信号および繰り返された信号を重ね合わせて、加算する(「重なり加算」)。そのような重なり加算は、オーディオアーチファクトを「消去する」が、しかし実施されるためには、復号器内で追加の遅延(重なりの継続時間に対応する)を必要とする。
その上、コーディング規格G.722.1の場合は、50%の重なり加算および正弦波窓を用いた変調重複変換(またはMLT)が、最後の消失フレームと、単一の消失フレームの場合にフレームの単純繰り返しに関係するアーチファクトを消去するのに十分に遅い繰り返しフレームとの間の移行を確実にする。G.711規格(付属書I)に述べられるフレーム消失補正と異なり、この実施形態は、再構成された信号を用いて重なり加算を実施するために既存の遅延およびMLT変換の時間的エイリアシングを使用するので、追加の遅延を必要としない。
この技法は、安価であるが、しかしその主要な欠点は、フレーム消失の前に復号された信号と繰り返し信号との間に整合性がないことである。これは、MLT変換のために使用される窓が、文書FR1350845においてその文書の図1Aおよび図1Bを参照して述べられるような「短い遅延」であるときの場合のように、もし2つのフレーム間の重なりの継続時間が少ないならば、かなりのオーディオアーチファクトを生じさせることもあり得る位相不連続をもたらす。そのような場合には、規格G.711(付属書I)によるコーダーの場合のようなピッチ探索およびMLT変換の窓を使用する重なり加算を組み合わせる解決法でも、オーディオアーチファクトを取り除くのには十分でない。
文書FR1350845は、変換されたドメインでの位相連続性を保つためにこれらの方法の両方の利点を組み合わせるハイブリッド法を提案する。本発明は、この枠組み内で定義される。FR1350845において提案される解決法の詳細な説明は、図1を参照して以下で述べられる。
この解決法は、特に有望であるが、符号化信号が、例えばスピーチ信号の有声化セグメント内に1つの基本周期(「単ピッチ」)だけを有するとき、フレーム消失補正後のオーディオ品質は、悪化し、CELP(「符号励振線形予測」)などの種類のスピーチモデルによるフレーム消失補正を用いる場合ほどには良好でないこともあるので、この解決法は、改善を必要とする。
本発明は、その状況を改善する。
このために、本発明は、連続するフレームに配分された一連のサンプルを含むデジタルオーディオ信号を処理するための方法を提案し、その方法は、復号中に少なくとも1つの消失信号フレームを置き換えるために前記信号を復号するときに実施される。
本方法は、
a) 復号するときに利用できる有効信号セグメント内で、前記有効信号に基づいて決定される信号内の少なくとも1つの周期を探索するステップと、
b) 前記周期内で信号のスペクトル成分を決定するために、前記周期内で信号を分析するステップと、
c) 合成信号を、
- 前記決定されたスペクトル成分の中から選択される成分の付加、および
- 成分の付加に追加されるノイズ
から構成することによって、消失フレームのための少なくとも1つの置き換えるものを合成するステップとを含む。
特に、成分の付加に追加されるノイズの量は、復号するときに得られる有効信号の音声情報に基づいて重み付けされる。
有利には、復号するときに使用され、符号器の少なくとも1つのビットレートで伝送される音声情報は、もしこの信号が有声化されるならば、過去の信号の正弦波成分により多くの重みを与え、またはもしそうでないなら、ノイズにより多くの重みを与え、それは、はるかにより満足のいく可聴結果をもたらす。しかしながら、非有声化信号の場合または音楽信号の場合は、消失フレームを置き換える信号を合成するためにそれほど多くの成分を保持することは、不要である。この場合は、より多くの重みが、信号の合成のために注入されるノイズに与えられてもよい。これは有利には、特に非有声化信号の場合に、合成の品質を低下させることなく処理の複雑さを低減する。
ノイズ信号が成分に追加される実施形態では、したがってこのノイズ信号は、有効信号における有声化の場合はより小さい利得によって重み付けされる。例えば、ノイズ信号は、受け取られた信号と選択された成分の付加との間の残余によって、前に受け取られたフレームから得られてもよい。
追加のまたは代替実施形態では、付加のために選択される成分の数は、有効信号における有声化の場合はより大きい。それ故に、もし信号が有声化されるならば、上記のように、過去の信号のスペクトルは、より多く考慮される。
有利には、もし信号が有声化されるならば、ノイズ信号に適用すべき利得を最小化しながら、より多くの成分が選択される相補的な形の実施形態が選択されてもよい。それ故に、1未満の利得をノイズ信号に適用することによって減衰されるエネルギーの総量は、より多くの成分の選択によって部分的に相殺される。逆に、ノイズ信号に適用すべき利得は、減らされず、もし信号が有声化されないか、または弱く有声化されるならば、より少ない成分が、選択される。
加えて、復号における品質/複雑さの間の妥協をさらに改善することが可能であり、ステップa)では、上記の周期は、有効信号における有声化の場合は、より大きい長さの有効信号セグメント内で探索されてもよい。以下の詳細な説明において提示される実施形態では、探索は、もし信号が有声化されるならば、有効信号内で、典型的には少なくとも1つのピッチ周期に対応する繰り返し周期を相互に関連付けることによって行われ、この場合、特に男性の音声については、ピッチ探索は、例えば30ミリ秒よりも長く実行されてもよい。
オプションの実施形態では、音声情報は、復号において受け取られかつ連続するフレームに配分された一連のサンプルを含む前記信号に対応する符号化ストリーム(「ビットストリーム」)内に供給される。復号におけるフレーム消失の場合は、消失フレームに先行する有効信号フレームに含有される音声情報が、次いで使用される。
音声情報はそれ故に、ビットストリームを生成し、音声情報を決定する符号器に由来し、1つの特定の実施形態では、音声情報は、ビットストリーム内の単一ビットに符号化される。しかしながら、例示的実施形態として、符号器におけるこの音声データの生成は、符号器と復号器との間の通信ネットワーク上に十分な帯域幅があるかどうかに依存することもある。例えば、もし帯域幅がしきい値を下回るならば、音声データは、帯域幅を節約するために符号器によって伝送されない。この場合、純粋に例として、復号器において取得される最後の音声情報がフレーム合成のために使用されてもよく、または別法として、フレームの合成のために有声化されない場合を適用すると決定されてもよい。
実施では、音声情報は、ビットストリーム内の1ビットに符号化され、ノイズ信号に適用される利得の値はまたバイナリであってもよく、もし信号が有声化されるならば、利得値は、0.25に設定され、さもなければ1である。
別法として、音声情報は、スペクトルの調和性または平坦度のための値(例えば信号のスペクトル成分の振幅を背景ノイズと比較することによって得られる)を決定する符号器に由来し、符号器は次いで、この値をビットストリーム内にバイナリの形で(1ビットよりも多くを使用して)送る。
そのような代替案では、利得値は、前記平坦度値の関数として決定されてもよい(例えばその値の関数として連続的に増加する)。
一般に、前記平坦度値は、
- もし平坦度値がしきい値を下回るならば、信号は、有声化され、
- さもなければ信号は、有声化されない
ことを決定するために、しきい値と比較されてもよい(それは、バイナリ方式で有声化を特徴付ける)。
それ故に、単一ビットの実施ならびにその変形では、ピッチ探索が生じる信号セグメントの成分を選択しかつ/または継続時間を選択するための基準は、バイナリであってもよい。
例えば、成分の選択については、
- もし信号が有声化されるならば、隣接する第1のスペクトル成分の振幅よりも大きい振幅を有するスペクトル成分が、隣接する第1のスペクトル成分と同様に選択され、
- さもなければ、隣接する第1のスペクトル成分の振幅よりも大きい振幅を有するスペクトル成分だけが、選択される。
ピッチ探索セグメントの継続時間を選択することについては、例えば、
- もし信号が有声化されるならば、周期は、30ミリ秒を超える(例えば33ミリ秒)継続時間の有効信号セグメント内で探索され、
- もしそうでないならば、周期は、30ミリ秒未満(例えば28ミリ秒)の継続時間の有効信号セグメント内で探索される。
それ故に、本発明は、文書FR1350845において提示される処理における様々なステップ(ピッチ探索、成分の選択、ノイズ注入)を変更することによって、その文書の意味における従来技術を改善することを目標とするが、しかしなお特に原信号の特性に基づいている。
原信号のこれらの特性は、スピーチおよび/または音楽分類に従って、もし特にスピーチクラスに適しているならば、復号器へのデータストリーム(または「ビットストリーム」)内の特別な情報として符号化されてもよい。
復号におけるビットストリーム内のこの情報は、品質と複雑さとの間の妥協を最適化することを可能にし、まとめると、
- 消失フレームを置き換える合成信号を構成するために、選択されたスペクトル成分の合計に注入すべきノイズの利得を変えること、
- 合成のために選択される成分の数を変えること、
- ピッチ探索セグメントの継続時間を変えることを可能にする。
そのような実施形態は、音声情報の決定のための符号器、およびより詳しくはフレーム消失の場合については復号器において実施されてもよい。それは、3GPPグループ(SA4)によって指定される強化音声サービス(または「EVS」)のために符号化/復号を実行するためのソフトウェアとして実施されてもよい。
この能力(capacity)において、本発明はまた、プロセッサによって実行された場合に上記の方法を実施するための命令を含むコンピュータプログラムも提供する。そのようなプログラムの例示的流れ図は、復号のための図4および符号化のための図3を参照して、以下の詳細な説明において提示される。
本発明はまた、連続するフレームに配分された一連のサンプルを含むデジタルオーディオ信号を復号するためのデバイスにも関する。本デバイスは、
a) 復号するときに利用できる有効信号セグメント内で、前記有効信号に基づいて決定される信号内の少なくとも1つの周期を探索するステップと、
b) 前記周期内で信号のスペクトル成分を決定するために、前記周期内で信号を分析するステップと、
c) 合成信号を、
- 前記決定されたスペクトル成分の中から選択される成分の付加、および
- 成分の付加に追加されるノイズ
から構成することによって、消失フレームを置き換えるための少なくとも1つのフレームを合成するステップであって、成分の付加に追加されるノイズの量は、復号するときに得られる有効信号の音声情報に基づいて重み付けされる、ステップとによって、少なくとも1つの消失信号フレームを置き換えるための手段(プロセッサおよびメモリ、またはASICコンポーネントもしくは他の回路など)を備える。
同様に、本発明はまた、デジタルオーディオ信号を符号化するためのデバイスにも関し、本デバイスは、符号化デバイスによって送られるビットストリーム内に音声情報を提供し、有声化される可能性が高いスピーチ信号を音楽信号と区別し、スピーチ信号の場合は、
- 信号を一般的に有声化されると考えるために、信号が有声化されるもしくは一般的であると識別する、または
- 信号を一般的に有声化されないと考えるために、信号が不活性である、過渡的である、または有声化されないと識別するための手段(メモリおよびプロセッサ、またはASICコンポーネントもしくは他の回路など)を備える。
本発明の他の特徴および利点は、下記の詳細な説明および添付の図面を調べることから明らかとなる。
文書FR1350845の意味におけるフレーム消失を補正するための方法の主要ステップを要約する図である。 本発明による方法の主要ステップを概略的に示す図である。 本発明の意味における一実施形態での、符号化において実施されるステップの例を示す図である。 本発明の意味における一実施形態での、復号において実施されるステップの例を示す図である。 有効信号セグメントNc内でのピッチ探索のための、復号において実施されるステップの例を示す図である。 本発明の意味における符号器および復号器デバイスの例を概略的に示す図である。
次いで、文書FR1350845に述べられる主要ステップを例示する図1を参照する。以下でb(n)と表される、一連のN個のオーディオサンプルは、復号器のバッファメモリに保存される。これらのサンプルは、すでに復号されたサンプルに対応し、したがって復号器においてフレーム消失を補正するためにアクセス可能である。もし合成すべき第1のサンプルが、サンプルNであるならば、オーディオバッファは、前のサンプル0からN-1に対応する。変換コーディングの場合は、オーディオバッファは、前のフレーム内のサンプルに対応し、そのサンプルは、この種の符号化/復号は信号を再構成する際に遅延を提供しないので、変えることができず、したがってフレーム消失をカバーするのに十分な継続時間のクロスフェードの実施が提供されない。
次は、周波数フィルタリングのステップS2であり、このステップでは、オーディオバッファb(n)は、Fcと表される分離周波数(例えばFc=4kHz)を用いて2つの帯域、低帯域LBおよび高帯域HBに分けられる。このフィルタリングは、好ましくは無遅延フィルタリングである。オーディオバッファのサイズは今では、fsからFcへの間引きに従ってN'=N*Fc/fに低減される。本発明の変形では、このフィルタリングステップは、オプションであってもよく、次のステップが、全帯域について実行される。
次のステップS3は、周波数Fcで再サンプリングされたバッファb(n)内の基本周期(または「ピッチ」)に対応するループ点およびセグメントp(n)について低帯域を探索することから成る。この実施形態は、再構成すべき消失フレーム内でのピッチ連続性を考慮することを可能にする。
ステップS4は、セグメントp(n)を正弦波成分の合計に分解する。例えば、信号の長さに対応する継続時間にわたる信号p(n)の離散フーリエ変換(DFT)が、計算されてもよい。それにより、信号の正弦波成分(または「ピーク」)の各々の周波数、位相、および振幅が得られる。DFT以外の変換も可能である。例えば、DCT、MDCT、またはMCLTなどの変換が、適用されてもよい。
ステップS5は、最も重要な成分だけを保有するためにK個の正弦波成分を選択するステップである。1つの特定の実施形態では、成分の選択は最初に、A(n)>A(n-1)かつA(n)>A(n+1)である振幅A(n)を選択することに対応し、ただし、
Figure 0006584431
であり、これは、振幅がスペクトルピークに対応することを確実にする。
これを行うために、セグメントp(n)(ピッチ)のサンプルは、P'個のサンプルから構成されるセグメントp'(n)を得るように補間され、ただし、
Figure 0006584431
であり、ceil(x)は、x以上の整数である。したがって、フーリエ変換FFTによる分析は、実際のピッチ周期を変更することなく(補間に起因して)、2の累乗である長さにわたってより効率的に行われる。p'(n)のFFT変換がΠ(k)=FFT(p'(n))として計算され、FFT変換から、正弦波成分の位相φ(k)および振幅A(k)が直接得られ、0から1の間の正規化周波数は、ここでは、
Figure 0006584431
によって与えられる。
次に、この第1の選択の振幅の中から、成分が、振幅の降順に選択され、その結果選択されたピークの累積的振幅は、典型的には現在のフレームにおけるスペクトルの半分にわたる累積的振幅の少なくともx%(例えばx=70%)である。
加えて、合成の複雑さを低減するために、成分の数を(例えば20に)制限することも可能である。
正弦波合成ステップS6は、消失フレームのサイズ(T)に少なくとも等しい長さのセグメントs(n)を生成することから成る。合成信号s(n)は、選択された正弦波成分の合計、
Figure 0006584431
として計算され、ただしkは、ステップS5において選択されたK個のピークの指数である。
ステップS7は、低帯域におけるある周波数ピークの脱落に起因するエネルギー損失を補償するための「ノイズ注入」(選択されない線に対応するスペクトル領域を埋めること)から成る。1つの特定の実施形態は、ピッチに対応するセグメントp(n)と合成信号s(n)との間の残余r(n)を計算することから成り、ただしn∈[0;P-1]であり、その結果、
r(n)=p(n)-s(n) n∈[0; P-1]
である。
サイズPのこの残余は、変換され、例えば特許FR1353551に述べられるように、窓処理され(windowed)、変化するサイズの窓間の重なりを用いて繰り返される。
Figure 0006584431
信号s(n)は次いで、信号r'(n)と組み合わされる。
Figure 0006584431
高帯域に適用されるステップS8は、単に過去の信号を繰り返すことから成ってもよい。
ステップS9で、信号は、ステップS8においてフィルタ処理した高帯域(ステップS11において単に繰り返される)と混合された後、その元の周波数で低帯域を再サンプリングすることによって合成される。
ステップS10は、フレーム消失前の信号と合成信号との間の連続性を確実にするための重なり加算(overlap-add)である。
次いで、本発明の意味における一実施形態において、図1の方法に追加される要素を述べる。
図2に提示される一般的手法によると、コーダーの少なくとも1ビットレートで伝送される、フレーム消失前の信号の音声情報が、1つまたは複数の消失フレームを置き換える合成信号に追加すべきノイズの割合を定量的に決定するために、復号(ステップDI-1)において使用される。それ故に、復号器は、有声化に基づいて、合成信号に混合されるノイズの全体的な量を減少させるために音声情報を使用する(ステップDI-3において残余から生じるノイズ信号r'(k)よりも低い利得G(res)を割り当てることによって、かつ/またはステップDI-4において合成信号を構成する際に使用するために振幅A(k)のより多い成分を選択することによって)。
加えて、復号器は、音声情報に基づいて、処理の品質/複雑さの間の妥協を最適化するように、特にピッチ探索について、復号器のパラメータを調整することができる。例えば、ピッチ探索について、もし信号が有声化されるならば、ピッチ探索窓Ncは、図5を参照して以下で見ることになるように、より大きくてもよい(ステップDI-5において)。
有声化を決定するために、情報は、符号器によって、2つの方法で、符号器の少なくとも1つのビットレートで、
- 符号器において識別される有声化の程度(後続処理のためにフレーム消失の場合にステップDI-1において符号器から受け取られ、ステップDI-2において読み出される)に応じて値1もしくは0のビットの形で提供されるか、または
- 背景ノイズと比較して、符号化において信号を構成するピークの平均振幅の値として提供されてもよい。
このスペクトル「平坦度」データPlは、図2のオプションのステップDI-10で復号器において複数ビットで受け取られ、次いでステップDI-11においてしきい値と比較されてもよく、それは、有声化がしきい値を上回るかまたは下回るかをステップDI-1およびDI-2において決定し、特にピークの選択およびピッチ探索セグメントの長さの選択について適切な処理を推定するのと同じである。
この情報(単一ビットの形であろうとまたはマルチビット値であろうと)は、ここで述べられる例では、符号器から受け取られる(コーデックの少なくとも1つのビットレートで)。
実際、図3を参照すると、符号器では、フレームの形で提示される入力信号C1が、ステップC2において分析される。この分析ステップは、現在のフレームのオーディオ信号が、例えば有声化スピーチ信号を有する場合のように、復号器におけるフレーム消失の場合に特別な処理を必要とする特性を有するかどうかを決定することから成る。
1つの特定の実施形態では、符号器においてすでに決定された分類(スピーチ/音楽またはその他)は有利には、処理の全体的複雑さを増加させるのを避けるために使用される。実際、スピーチであるか音楽であるかでコーディングモードを切り替えることができる符号器の場合は、符号器における分類で、用いられる符号化技法を信号の性質(スピーチまたは音楽)に適合させることがすでに可能になる。同様に、スピーチの場合は、G.718規格の符号器などの予測符号器はまた、符号器パラメータを信号の種類(有声化/非有声化、過渡的、一般的、不活性である音声)に適合させるためにも分類を使用する。
1つの特定の第1の実施形態では、1ビットだけが、「フレーム消失特徴付け」のために取っておかれる。それは、信号がスピーチ信号(有声化または一般的)であるかどうかを示すためにステップC3において符号化ストリーム(または「ビットストリーム」)に追加される。このビットは、例えば、
・スピーチ/音楽分類子の決定
・およびまたスピーチコーディングモード分類子の決定にも基づいて、次の表、
Figure 0006584431
に従って1または0に設定される。ここで、用語「一般的」は、一般的なスピーチ信号(それは、破裂音の発音に関係する過渡信号でなく、不活性でなく、子音のない母音の発音などのように必ずしも純粋に有声化されるとは限らない)を指す。
第2の代替実施形態では、復号器に伝送されるビットストリーム内の情報は、バイナリではなく、スペクトル内のピークと谷との間の比の定量化に対応する。この比は、Plと表される、スペクトルの「平坦度」の測定値として表されてもよい。
Figure 0006584431
この数式では、x(k)は、周波数ドメイン(FFT後の)における現在のフレームの分析から生じるサイズNの振幅のスペクトルである。
代替案では、符号器における信号を正弦波成分およびノイズに分解する正弦波分析が、提供され、平坦度測定値は、正弦波成分およびフレームの全エネルギーの比によって得られる。
ステップC3(音声情報の1ビットまたは平坦度測定値の複数ビットを含む)の後、符号器のオーディオバッファは、その後の復号器へのどの伝送よりも前にステップC4において従来法で符号化される。
次いで図4を参照して、本発明の1つの例示的実施形態での、復号器において実施されるステップを述べる。
ステップD1においてフレーム消失がない場合(図4の検査D1から出るNOKの矢印)は、ステップD2において、復号器は、「フレーム消失特徴付け」情報を含む、ビットストリームに含有される情報を読み出す(コーデックの少なくとも1つのビットレートで)。この情報は、メモリに保存され、そのため、後に続くフレームが欠落しているときに、再使用することができる。復号器は次いで、合成された出力フレームFR SYNTHを得るために、復号の従来ステップD3、その他を続ける。
フレーム消失が起こった場合(検査D1から出るOKの矢印)は、図1のステップS2、S3、S4、S5、S6、およびS11にそれぞれ対応するステップD4、D5、D6、D7、D8、およびD12が、適用される。しかしながら、ステップS3およびS5、すなわちそれぞれステップD5(ピッチ決定のためのループ点を探索すること)およびD7(正弦波成分を選択すること)に関するいくつかの変更が加えられてもよい。さらに、図1のステップS7におけるノイズ注入は、本発明の意味における復号器の図4での2つのステップD9およびD10による利得決定を用いて実行される。
「フレーム消失特徴付け」情報が知られている場合(前のフレームが受け取られたとき)は、本発明は、次の通りに、ステップD5、D7、およびD9〜D10の処理を変更することから成る。
第1の実施形態では、「フレーム損失特徴付け」情報は、バイナリであり、
- 音楽または過渡信号などの種類の有声化されない信号については0に等しく、
- さもなければ1に等しい(上記の表)値である。
ステップD5は、周波数Fcで再サンプリングされたオーディオバッファ内のピッチに対応するループ点およびセグメントp(n)を探索することから成る。文書FR1350845に述べられるこの技法は、図5に例示され、同図では、
- 復号器内のオーディオバッファは、サンプルサイズN'であり、
- Ns個のサンプルの目標バッファBCのサイズは、決定され、
- 相関探索は、Nc個のサンプルにわたって行われ、
- 相関曲線「Correl」は、mcにおいて最大値を有し、
- ループ点は、Loop ptと表され、相関最大のNs個のサンプルに位置し、
- 次いでピッチは、N'-1におけるp(n)残存サンプルにわたって決定される。
特に、本発明は、N'-NsとN'-1との間の(例えば6msの継続時間の)、サイズNsの目標バッファセグメントと、サンプル0とNc(ただしNc>N'-Ns)との間で始まるサイズNsのスライディングセグメント(sliding segment)との間の正規化相関corr(n)を計算する。
Figure 0006584431
音楽信号については、信号の性質に起因して、値Ncは、非常に大きい必要はない(例えばNc=28ms)。この制限は、ピッチ探索中の計算の複雑さを節約する。
しかしながら、前に受け取った最後の有効フレームからの音声情報は、再構成すべき信号が有声化スピーチ信号(単ピッチ)であるかどうかを決定することを可能にする。したがって、そのような場合は、そのような情報を用いて、ピッチ探索を最適化するために(かつより高い相関値を潜在的に見いだすために)、セグメントのサイズNcを増大させる(例えばNc=33ms)ことが可能である。
図4におけるステップD7では、正弦波成分は、最も重要な成分だけが保有されるように選択される。また文書FR1350845にも提示される、1つの特定の実施形態では、成分の第1の選択は、
Figure 0006584431
として、A(n)>A(n-1)かつA(n)>A(n+1)である振幅A(n)を選択することと同等である。
本発明の場合は、有利には、再構成するべき信号が、スピーチ信号(有声化または一般的)であるかどうか、したがって顕著なピークおよび低レベルのノイズを有するかどうかは、知られている。これらの条件下では、上で示されるようにA(n)>A(n-1)かつA(n)>A(n+1)であるピークA(n)選択するだけでなく、選択されたピークが、スペクトルの全エネルギーのより大きい部分を表すように、その選択をA(n-1)かつA(n+1)まで拡張することもまた好ましい。この変更は、エネルギー揺らぎに関係する可聴アーチファクトを引き起こさないように十分な全体的エネルギーレベルを保有しながら、ステップD8における正弦波合成によって合成される信号のレベルと比較してノイズのレベル(特に以下で提示されるステップD9およびD10において注入されるノイズのレベル)を下げることを可能にする。
次に、一般的または有声化スピーチ信号における場合のように、信号がノイズなしである場合(少なくとも低周波数において)は、FR1350845の意味内で変換された残余r'(n)に対応するノイズの付加が、実際には品質を低下させることを観察する。
したがって、音声情報は有利には、ステップD10において利得Gを適用することによってノイズを低減するために使用される。ステップD8から生じる信号s(n)は、ステップD9から生じるノイズr'(n)と混合されるが、前のフレームのビットストリームから生じる「フレーム消失特徴付け」情報に依存する利得Gがここで適用され、それは、
Figure 0006584431
である。
この特定の実施形態では、Gは、例として以下に与えられる表、
Figure 0006584431
に従って、前のフレームの信号の有声化または非有声化の性質に応じて1または0.25に等しい定数であってもよい。
「フレーム消失特徴付け」情報がスペクトルの平坦度Plを特徴付ける複数の離散レベルを有する代替実施形態では、利得Gは、Pl値の関数として直接表されてもよい。同じことが、ピッチ探索のためのセグメントNcの境界および/または信号の合成のために考慮すべきピークAnの数にも該当する。
下記などの処理が、例として定義されてもよい。
利得Gはすでに、Pl値の関数として直接定義されており、G(Pl)=2Plである。
加えて、Pl値は、0値が、平坦なスペクトルに対応し、-5dBが、顕著なピークを有するスペクトルに対応するという条件で、平均値-3dBと比較される。
もしPl値が、平均しきい値-3dB未満である(それ故に有声化信号に特有である、顕著なピークを有するスペクトルに対応する)ならば、ピッチ探索のためのセグメントの継続時間Ncを33msに設定することができ、A(n)>A(n-1)かつA(n)>A(n+1)であるようなピークA(n)、ならびに第1の隣接するピークA(n-1)かつA(n+1)を選択することができる。
さもなければ(もしPl値が、しきい値を上回り、例えば音楽信号などのより顕著でないピーク、より多い背景ノイズに対応するならば)、継続時間Ncは、より短く、例えば25msに選択されてもよく、A(n)>A(n-1)かつA(n)>A(n+1)を満たすピークA(n)だけが、選択される。
復号は次いで、利得が上記のようにして選択される成分を用いて得られるノイズを混合することによって継続して、ステップD13において低周波数の合成信号を得、その合成信号がステップD14において得られる高周波数での合成信号に追加され、それによりステップD15において一般的合成信号を得ることができる。
図6を参照すると、本発明の1つの可能な実施が例示され、この実施では、図4の方法の実施のために、例えば電話機TELなどの遠隔通信デバイスに埋め込まれた復号器DECOD(例えばソフトウェアならびに適切にプログラムされたメモリMEMおよびこのメモリと協調するプロセッサPROCなどのハードウェア、または別法としてASICなどのコンポーネント、もしくは他のもの、ならびに通信インターフェースCOMを備える)は、それが符号器ENCODから受け取る音声情報を使用する。この符号器は、例えば、ソフトウェアならびに音声情報を決定するために適切にプログラムされたメモリMEM'およびこのメモリと協調するプロセッサPROC'などのハードウェア、または別法としてASICなどのコンポーネント、もしくは他のもの、ならびに通信インターフェースCOM'を備える。符号器ENCODは、電話機TEL'などの遠隔通信デバイスに埋め込まれる。
無論、本発明は、例として上で述べられる実施形態に限定されず、他の変形にまで及ぶ。
それ故に、例えば、音声情報は、変形として異なる形を取ることができると理解される。上で述べられる例では、これは、単一ビットのバイナリ値(有声化もしくは非有声化)、または信号スペクトルの平坦度などのパラメータもしくは音声化を特徴付ける(量的にもしくは質的に)ことを可能にする任意の他のパラメータに関係することもあり得るマルチビット値であってもよい。さらに、このパラメータは、例えばピッチ周期を識別するときに測定されてもよい相関の程度に基づいて、復号によって決定されてもよい。
特に低周波数帯域におけるスペクトル成分の選択とともに、先行する有効フレームからの信号の高周波数帯域および低周波数帯域への分離を含む実施形態が、例として上で提示された。この実施は、オプションであるが、しかしながら、処理の複雑さを低減するので有利である。別法として、本発明の意味において音声情報の助けを借りてフレームを置き換える方法は、有効信号の全スペクトルを考慮しながら実行されてもよい。
本発明が、重なり加算を用いた変換コーディングの文脈において実施される実施形態が、上で述べられた。しかしながら、この種の方法は、任意の他の種類のコーディング(特にCELP)に適合されてもよい。
重なり加算を用いた変換コーディングの文脈において(この場合、典型的には、合成信号は、重なりのために少なくとも2つのフレーム継続時間にわたって構成される)、前記ノイズ信号は、残余(有効信号とピークの合計との間の)によって時間的に残余に重み付けをすることによって得られてもよいことに留意すべきである。例えば、それは、重なりを用いた変換による符号化/復号の通常の文脈のように、重なり窓(overlap window)によって重み付けされてもよい。
音声情報の関数として利得を適用することは、今回は有声化に基づいて、別の重み付けを追加すると理解される。
COM 通信インターフェース
COM' 通信インターフェース
DECOD 復号器
ENCOD 符号器
MEM メモリ
MEM' メモリ
PROC プロセッサ
PROC' プロセッサ
TEL 電話機
TEL' 電話機

Claims (15)

  1. 連続するフレームに配分された一連のサンプルを含むデジタルオーディオ信号を処理するための方法であって、復号中に少なくとも1つの消失信号フレームを置き換えるために前記信号を復号するときに実施され、
    a) 復号するときに利用できる有効信号セグメント(Nc)内で、前記有効信号に基づいて決定される前記信号内の少なくとも1つの周期を探索するステップと、
    b) 前記周期内で前記信号のスペクトル成分を決定するために、前記周期内で前記信号を分析するステップと、
    c) 合成信号を、
    - 前記決定されたスペクトル成分の中から選択される成分の付加、および
    - 成分の前記付加に追加されるノイズ
    から構成することによって、前記消失フレームのための少なくとも1つの置き換えるものを合成するステップであって、成分の前記付加に追加されるノイズの量は、復号するときに得られる前記有効信号の音声情報に基づいて重み付けされる、ステップとを含む、方法。
  2. 成分の前記付加に追加されるノイズ信号は、前記有効信号が有声音である場合はより小さい利得によって重み付けされる、請求項1に記載の方法。
  3. 前記ノイズ信号は、前記有効信号と選択された成分の前記付加との間の残余によって得られる、請求項2に記載の方法。
  4. 前記付加のために選択される成分の数は、前記有効信号が有声音である場合はより大きい、請求項1から3のいずれか一項に記載の方法。
  5. ステップa)において、前記周期は、前記有効信号が有声音である場合はより大きい長さの有効信号セグメント(Nc)内で探索される、請求項1から4のいずれか一項に記載の方法。
  6. 前記音声情報は、復号において受け取られかつ連続するフレームに配分された一連のサンプルを含む前記信号に対応するビットストリーム内に供給され、
    復号におけるフレーム消失の場合は、前記消失フレームに先行する有効信号フレームに含有される前記音声情報が、使用される、請求項1から5のいずれか一項に記載の方法。
  7. 前記音声情報は、前記ビットストリームを生成し、前記音声情報を決定する符号器に由来し、前記音声情報は、前記ビットストリーム内の単一ビットに符号化される、請求項6に記載の方法。
  8. もし前記信号が有声音であるならば、前記利得値は、0.25であり、さもなければ1である、請求項2と組み合わせる請求項7に記載の方法。
  9. 前記音声情報は、前記信号の前記スペクトル成分の振幅を背景ノイズと比較することによって得られるスペクトル平坦度値(Pl)を決定する符号器に由来し、前記符号器は、前記値をバイナリの形で前記ビットストリーム内に送る、請求項6に記載の方法。
  10. 前記利得値は、前記平坦度値の関数として決定される、請求項2および7と組み合わせる請求項9に記載の方法。
  11. 前記平坦度値は、
    - もし前記平坦度値がしきい値を下回るならば、前記信号は、有声音であり
    - さもなければ、前記信号は、無声音である
    ことを決定するために、前記しきい値と比較される、請求項9および10のいずれか一項に記載の方法。
  12. - もし前記信号が有声音であるならば、隣接する第1のスペクトル成分の振幅よりも大きい振幅を有する前記スペクトル成分が、前記隣接する第1のスペクトル成分と同様に選択され、
    - さもなければ、前記隣接する第1のスペクトル成分の振幅よりも大きい振幅を有する前記スペクトル成分だけが、選択される、請求項4と組み合わせる請求項7および11のいずれか一項に記載の方法。
  13. - もし前記信号が有声音であるならば、前記周期は、30ミリ秒を超える継続時間の有効信号セグメント内で探索され、
    - もしそうでないならば、前記周期は、30ミリ秒未満の継続時間の有効信号セグメント内で探索される、請求項5と組み合わせる請求項7および11のいずれか一項に記載の方法。
  14. プロセッサによって実行された場合に請求項1から13のいずれか一項に記載の方法を実施するための命令を含むことを特徴とする、コンピュータプログラム。
  15. 連続するフレームに配分された一連のサンプルを含むデジタルオーディオ信号を復号するためのデバイスであって、
    a) 復号するときに利用できる有効信号セグメント(Nc)内で、前記有効信号に基づいて決定される前記信号内の少なくとも1つの周期を探索するステップと、
    b) 前記周期内で前記信号のスペクトル成分を決定するために、前記周期内で前記信号を分析するステップと、
    c) 合成信号を、
    - 前記決定されたスペクトル成分の中から選択される成分の付加、および
    - 成分の前記付加に追加されるノイズ
    から構成することによって、消失フレームを置き換えるための少なくとも1つのフレームを合成するステップであって、成分の前記付加に追加されるノイズの量は、復号するときに得られる前記有効信号の音声情報に基づいて重み付けされる、ステップとによって、少なくとも1つの消失信号フレームを置き換えるための手段(MEM、PROC)を備える、デバイス。
JP2016565232A 2014-04-30 2015-04-24 音声情報を用いる改善されたフレーム消失補正 Active JP6584431B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
FR1453912 2014-04-30
FR1453912A FR3020732A1 (fr) 2014-04-30 2014-04-30 Correction de perte de trame perfectionnee avec information de voisement
PCT/FR2015/051127 WO2015166175A1 (fr) 2014-04-30 2015-04-24 Correction de perte de trame perfectionnée avec information de voisement

Publications (2)

Publication Number Publication Date
JP2017515155A JP2017515155A (ja) 2017-06-08
JP6584431B2 true JP6584431B2 (ja) 2019-10-02

Family

ID=50976942

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016565232A Active JP6584431B2 (ja) 2014-04-30 2015-04-24 音声情報を用いる改善されたフレーム消失補正

Country Status (12)

Country Link
US (1) US10431226B2 (ja)
EP (1) EP3138095B1 (ja)
JP (1) JP6584431B2 (ja)
KR (3) KR20230129581A (ja)
CN (1) CN106463140B (ja)
BR (1) BR112016024358B1 (ja)
ES (1) ES2743197T3 (ja)
FR (1) FR3020732A1 (ja)
MX (1) MX368973B (ja)
RU (1) RU2682851C2 (ja)
WO (1) WO2015166175A1 (ja)
ZA (1) ZA201606984B (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR3020732A1 (fr) * 2014-04-30 2015-11-06 Orange Correction de perte de trame perfectionnee avec information de voisement
EP3389043A4 (en) * 2015-12-07 2019-05-15 Yamaha Corporation VOICE INTERACTION DEVICE AND VOICE INTERACTION METHOD
EP3997697A4 (en) * 2019-07-08 2023-09-06 VoiceAge Corporation METHOD AND SYSTEM FOR ENCODING METADATA IN AUDIO DATA STREAMS AND FOR EFFICIENT BIT RATE ALLOCATION FOR ENCODING AUDIO DATA STREAMS
CN111883171B (zh) * 2020-04-08 2023-09-22 珠海市杰理科技股份有限公司 音频信号的处理方法及***、音频处理芯片、蓝牙设备

Family Cites Families (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR1350845A (fr) 1962-12-20 1964-01-31 Procédé de classement visible sans index
FR1353551A (fr) 1963-01-14 1964-02-28 Fenêtre destinée en particulier à être montée sur des roulottes, des caravanes ou installations analogues
US5504833A (en) * 1991-08-22 1996-04-02 George; E. Bryan Speech approximation using successive sinusoidal overlap-add models and pitch-scale modifications
US5956674A (en) * 1995-12-01 1999-09-21 Digital Theater Systems, Inc. Multi-channel predictive subband audio coder using psychoacoustic adaptive bit allocation in frequency, time and over the multiple channels
US5799271A (en) * 1996-06-24 1998-08-25 Electronics And Telecommunications Research Institute Method for reducing pitch search time for vocoder
JP3364827B2 (ja) * 1996-10-18 2003-01-08 三菱電機株式会社 音声符号化方法、音声復号化方法及び音声符号化復号化方法並びにそれ等の装置
WO1999010719A1 (en) * 1997-08-29 1999-03-04 The Regents Of The University Of California Method and apparatus for hybrid coding of speech at 4kbps
ATE302991T1 (de) * 1998-01-22 2005-09-15 Deutsche Telekom Ag Verfahren zur signalgesteuerten schaltung zwischen verschiedenen audiokodierungssystemen
US6640209B1 (en) * 1999-02-26 2003-10-28 Qualcomm Incorporated Closed-loop multimode mixed-domain linear prediction (MDLP) speech coder
US6138089A (en) * 1999-03-10 2000-10-24 Infolio, Inc. Apparatus system and method for speech compression and decompression
US6691092B1 (en) * 1999-04-05 2004-02-10 Hughes Electronics Corporation Voicing measure as an estimate of signal periodicity for a frequency domain interpolative speech codec system
US6912496B1 (en) * 1999-10-26 2005-06-28 Silicon Automation Systems Preprocessing modules for quality enhancement of MBE coders and decoders for signals having transmission path characteristics
US7016833B2 (en) * 2000-11-21 2006-03-21 The Regents Of The University Of California Speaker verification system using acoustic data and non-acoustic data
US20030028386A1 (en) * 2001-04-02 2003-02-06 Zinser Richard L. Compressed domain universal transcoder
JP4089347B2 (ja) * 2002-08-21 2008-05-28 沖電気工業株式会社 音声復号装置
US7970606B2 (en) * 2002-11-13 2011-06-28 Digital Voice Systems, Inc. Interoperable vocoder
DE10254612A1 (de) * 2002-11-22 2004-06-17 Humboldt-Universität Zu Berlin Verfahren zur Ermittlung spezifisch relevanter akustischer Merkmale von Schallsignalen für die Analyse unbekannter Schallsignale einer Schallerzeugung
AU2003274526A1 (en) * 2002-11-27 2004-06-18 Koninklijke Philips Electronics N.V. Method for separating a sound frame into sinusoidal components and residual noise
JP3963850B2 (ja) * 2003-03-11 2007-08-22 富士通株式会社 音声区間検出装置
US7318035B2 (en) * 2003-05-08 2008-01-08 Dolby Laboratories Licensing Corporation Audio coding systems and methods using spectral component coupling and spectral component regeneration
US7825321B2 (en) * 2005-01-27 2010-11-02 Synchro Arts Limited Methods and apparatus for use in sound modification comparing time alignment data from sampled audio signals
US7930176B2 (en) * 2005-05-20 2011-04-19 Broadcom Corporation Packet loss concealment for block-independent speech codecs
KR100744352B1 (ko) * 2005-08-01 2007-07-30 삼성전자주식회사 음성 신호의 하모닉 성분을 이용한 유/무성음 분리 정보를추출하는 방법 및 그 장치
US7720677B2 (en) * 2005-11-03 2010-05-18 Coding Technologies Ab Time warped modified transform coding of audio signals
US8255207B2 (en) * 2005-12-28 2012-08-28 Voiceage Corporation Method and device for efficient frame erasure concealment in speech codecs
US8135047B2 (en) * 2006-07-31 2012-03-13 Qualcomm Incorporated Systems and methods for including an identifier with a packet associated with a speech signal
WO2008063035A1 (en) * 2006-11-24 2008-05-29 Lg Electronics Inc. Method for encoding and decoding object-based audio signal and apparatus thereof
KR100964402B1 (ko) * 2006-12-14 2010-06-17 삼성전자주식회사 오디오 신호의 부호화 모드 결정 방법 및 장치와 이를 이용한 오디오 신호의 부호화/복호화 방법 및 장치
US8060363B2 (en) * 2007-02-13 2011-11-15 Nokia Corporation Audio signal encoding
CA2690433C (en) * 2007-06-22 2016-01-19 Voiceage Corporation Method and device for sound activity detection and sound signal classification
CN100524462C (zh) * 2007-09-15 2009-08-05 华为技术有限公司 对高带信号进行帧错误隐藏的方法及装置
US20090180531A1 (en) * 2008-01-07 2009-07-16 Radlive Ltd. codec with plc capabilities
US8036891B2 (en) * 2008-06-26 2011-10-11 California State University, Fresno Methods of identification using voice sound analysis
MX2011000370A (es) * 2008-07-11 2011-03-15 Fraunhofer Ges Forschung Un aparato y un metodo para decodificar una señal de audio codificada.
US8718804B2 (en) * 2009-05-05 2014-05-06 Huawei Technologies Co., Ltd. System and method for correcting for lost data in a digital audio signal
FR2966634A1 (fr) * 2010-10-22 2012-04-27 France Telecom Codage/decodage parametrique stereo ameliore pour les canaux en opposition de phase
WO2014036263A1 (en) * 2012-08-29 2014-03-06 Brown University An accurate analysis tool and method for the quantitative acoustic assessment of infant cry
US8744854B1 (en) * 2012-09-24 2014-06-03 Chengjun Julian Chen System and method for voice transformation
FR3001593A1 (fr) * 2013-01-31 2014-08-01 France Telecom Correction perfectionnee de perte de trame au decodage d'un signal.
US9564141B2 (en) * 2014-02-13 2017-02-07 Qualcomm Incorporated Harmonic bandwidth extension of audio signals
FR3020732A1 (fr) * 2014-04-30 2015-11-06 Orange Correction de perte de trame perfectionnee avec information de voisement
US9697843B2 (en) * 2014-04-30 2017-07-04 Qualcomm Incorporated High band excitation signal generation

Also Published As

Publication number Publication date
FR3020732A1 (fr) 2015-11-06
RU2016146916A (ru) 2018-05-31
KR20170003596A (ko) 2017-01-09
MX2016014237A (es) 2017-06-06
ES2743197T3 (es) 2020-02-18
WO2015166175A1 (fr) 2015-11-05
US20170040021A1 (en) 2017-02-09
CN106463140A (zh) 2017-02-22
RU2682851C2 (ru) 2019-03-21
MX368973B (es) 2019-10-23
RU2016146916A3 (ja) 2018-10-26
JP2017515155A (ja) 2017-06-08
BR112016024358B1 (pt) 2022-09-27
KR20220045260A (ko) 2022-04-12
EP3138095A1 (fr) 2017-03-08
US10431226B2 (en) 2019-10-01
CN106463140B (zh) 2019-07-26
BR112016024358A2 (pt) 2017-08-15
ZA201606984B (en) 2018-08-30
KR20230129581A (ko) 2023-09-08
EP3138095B1 (fr) 2019-06-05

Similar Documents

Publication Publication Date Title
US8856049B2 (en) Audio signal classification by shape parameter estimation for a plurality of audio signal samples
KR101092167B1 (ko) 피치-조정 및 비-피치-조정 코딩을 이용한 신호 인코딩
RU2432625C2 (ru) Синтез потерянных блоков цифрового аудиосигнала с коррекцией питч-периода
EP3039676B1 (en) Adaptive bandwidth extension and apparatus for the same
RU2419167C2 (ru) Система, способы и устройство для восстановления при стирании кадра
US11621004B2 (en) Generation of comfort noise
RU2667382C2 (ru) Улучшение классификации между кодированием во временной области и кодированием в частотной области
CN105122356B (zh) 信号解码期间帧丢失的改进型校正
RU2414010C2 (ru) Трансформация шкалы времени кадров в широкополосном вокодере
MX2013004673A (es) Codificación de señales de audio genéricas a baja tasa de bits y a retardo bajo.
JP6584431B2 (ja) 音声情報を用いる改善されたフレーム消失補正
US20180182408A1 (en) Determining a budget for lpd/fd transition frame encoding
WO2021032719A1 (en) Multi-lag format for audio coding

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180222

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20181210

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190104

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190403

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190805

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190903

R150 Certificate of patent or registration of utility model

Ref document number: 6584431

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250