JP5415460B2 - 背景ノイズ情報を符号化する方法および手段 - Google Patents

背景ノイズ情報を符号化する方法および手段 Download PDF

Info

Publication number
JP5415460B2
JP5415460B2 JP2010547139A JP2010547139A JP5415460B2 JP 5415460 B2 JP5415460 B2 JP 5415460B2 JP 2010547139 A JP2010547139 A JP 2010547139A JP 2010547139 A JP2010547139 A JP 2010547139A JP 5415460 B2 JP5415460 B2 JP 5415460B2
Authority
JP
Japan
Prior art keywords
background noise
component
period
energy
dtx
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2010547139A
Other languages
English (en)
Other versions
JP2011515705A (ja
Inventor
シャンドル シュテファン
セティアワン パンジ
タデイ エルヴ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Unify GmbH and Co KG
Original Assignee
Siemens Enterprise Communications GmbH and Co KG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Siemens Enterprise Communications GmbH and Co KG filed Critical Siemens Enterprise Communications GmbH and Co KG
Publication of JP2011515705A publication Critical patent/JP2011515705A/ja
Application granted granted Critical
Publication of JP5415460B2 publication Critical patent/JP5415460B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/012Comfort noise or silence coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Telephone Function (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)

Description

本発明は、音声信号符号化方法における背景ノイズ情報を符号化する方法および手段に関する。
電話での会話に対しては、テレコミュニケーションの初期段階からアナログ音声伝送に帯域幅制限が設けられていた。音声伝送は、300Hz〜3400Hzの制限された周波数領域で行われる。
このように制限された周波数領域は、現在のデジタルテレコミュニケーション用の多くの音声信号符号化方法においても設けられている。このため、符号化プロセスの前にアナログ信号の帯域幅制限が行われる。ここでは符号化および復号化のためにコーデックが使用される。上記のように帯域幅制限が300Hz〜3400Hzの周波数領域であることに起因して以下ではこのコーデックを狭帯域音声コーデック(Narrow Band Speech Codec)とも称する。ここでコーデックという用語は、オーディオ信号をデジタル符号化するための符号化規則のことでもあり、またオーディオ信号を再構成することを目的としてデータを復号化するための復号化規則のことでもあると理解されたい。
狭帯域音声コーデックは、例えば、ITU−T勧告G.729から公知である。そこに記載された符号化規則により、8kbit/sのデータレートで狭帯域音声信号の伝送が行われる。
さらにいわゆる広帯域音声コーデック(Wide Band Speech Codec)も公知であり、これは、聴覚的印象を改善するため、拡張された周波数領域における符号化を行うためのものである。このように拡張された周波数領域は、例えば、50Hz〜7000Hzの周波数にある。広帯域音声コーデックは、例えば、ITU−T勧告G.729.EVから公知である。
ふつう広帯域音声コーデック用の符号化方法は、スケーラブルに構成される。ここでスケーラビリティという用語が意味するのは、伝送される符号化データが、種々異なって区画されたブロックを含んでおり、これらのブロックが、符号化される音声信号の狭帯域部分、広帯域部分および/または全帯域幅を含んでいることである。このようにスケーラブルな構成により、一方では受信側における下方互換性が可能になり、また他方ではこれによって、伝送チャネルにおけるデータ伝送容量が限られている場合に、伝送されるデータフレームのサイズおよびデータレートを送信側および受信側で簡単に適合できるようになる。
コーデックによってデータ伝送レートを低減するため、ふつうは伝送されるデータの圧縮を行う。圧縮は、例えば、符号化方法によって行われ、ここでは音声データを符号化するため、励起信号に対するパラメタと、フィルタパラメタとが決定される。これらのフィルタパラメタおよび上記の励起信号を特定するパラメタはつぎに受信側に伝送される。受信側では上記のコーデックを使用して、主観的な聴覚的印象が原音声信号にできるかぎり類似している合成音声信号を合成する。「合成的解析」(Analysis-by-Synthesis)とも称されるこの方法も用いることにより、求められかつデジタル化されたサンプル値(サンプル)そのものが伝送されるのではなく、この音声信号を受信側で合成できるようにする求められたパラメタが伝送されるのである。
データ伝送レートを低減する別の手段は、不連続送信(Discontinuous Transmission)を行う方法であり、この方法はこの技術分野においてDTXという用語でも知られている。DTXの基本的な目的は、音声が休止した場合のデータ伝送レートを低減することである。
このために送信側において音声休止識別(Voice Activity Detection, VAD)を使用する。これは、あらかじめ定めた信号レベルを下回った場合に音声の休止を識別する。
音声休止中、受信者はふつう完全な無音状態を期待しない。これとは逆に完全な無音状態は、受信者を不快にするか、または受信者にコネクション断を推測させることにさえなる。このため、いわゆるコンフォートノイズ(Comfort Noise)を形成する方法が適用されるのである。
コンフォートノイズとは、無音フェーズを充填するために受信側で合成されるノイズのことである。このコンフォートノイズは、コネクションが存続しているという主観的な印象に役立っており、その際に音声信号を伝送するためのデータ伝送レートを必要とすることはない。言い換えると、送信側でノイズを符号化するためには、音声データを符号化するよりもコストがかからないのである。受信側にとってさらに実際的であると思われるコンフォートノイズの合成は、はるかに低いデータレートでデータを伝送することである。ここで伝送されるデータは、この技術分野ではSID(Silence Insertion Description)とも称される。
広帯域の音声コーデックに対する現在のスケーラブルな符号化方法は、目下のところ不連続送信の方法を使用していない。
従来技術では、受信側でのコンフォートノイズ発生器(CNG Comfort Noise Generator)に関連して不連続送信(DTX)の適用が問題である。
目下公知である不連続送信のための方法では、インアクティブな音声期間(音声休止)中に背景ノイズのエネルギが大きく変化したことが符号器側で検出された場合にだけ、この背景ノイズを特徴付ける最新のパラメタを有するSIDフレームを送信している。このことは、不連続送信のため方法をサポートしている狭帯域(50Hz〜4kHz)の音声コーデックにも、広帯域の音声コーデックにも当てはまる。SIDフレームを最新のパラメタで送信することを決定する際にはふつう、上記の符号化器に特有のエネルギ閾値(Energy Threshold)を使用する。これにより、定めたエネルギ閾値を上回っていない場合、SIDフレームが送信されないことになる。しかしながら受信器と送信器との間の伝送ネットワーク側では、SIDフレームの送信がこのように中断されることは、サイレント状態ないしはアイドルチャネル("Idle Channel")と見なされる。この場合、コネクションの維持("Connection Alive")を保証するため、場合によっては、コネクションを維持したいことを示すために付加的なデータを交換する必要がある。
付加的に行われる公知のデータ交換は、現在つぎのように行われる。すなわち、最後にSIDフレームを送信してから経過したアイドル期間("Idle Period")が、相応するコネクションに対しては長すぎると見なされる場合に、伝送ネットワークのネットワーク管理における管理ポイントが、送信したノードに、すなわち送信した符号化器に要求して、最後に送信したSIDフレームを新たに送信させるように行われるのである。このような新たな伝送に対して、新たに送信されるSIDフレームのパラメタは更新されない。すなわち符号化器は、付加的なアクションを実行することはないのである。
本発明の課題は、スケーラブルな音声コーデックにおける不連続送信の実現を改善することである。
この課題は、独立請求項に記載した特徴的構成によって解決される。
本発明の基礎にあるアイデアは、音声コーデックの符号化器を構成して、この音声コーデックにより、前に求めたアイドル期間("Idle Period")の後、上記の背景ノイズについてのパラメタ、殊に平均したエネルギおよび自己相関関数が新たに求められるないしは計算されるようにすることである。このように背景ノイズパラメタを求めることは、言い換えれば、ノイズ信号を符号化することに相応する。この際に上記のネットワークにおける管理ポイントは、この伝送ネットワークに設定されたアイドル期間についての情報を符号化器に伝える。すなわち、この符号化器は、例えば伝送ネットワークの管理ポイントの要求によってこのアイドル期間を求めるのである。求めたこのアイドル期間が符号化器側に記憶される場合、上記のような要求はただ1回しか必要ない。
送信すべきSIDフレームに対して時間間隔を設定することにより、伝送ネットワークの管理ポイントは、更新されたフレームの送信を符号化器に強制することができる。これにより、CNGにおいて背景ノイズをより良好に再構成するために更新を行うことも、コネクションを高い信頼性で維持することも共に保証されるのである。
本発明による方法の1つの利点は、更新された背景ノイズパラメタを、更新されたSIDフレームの形で送信すべきかを否かを決定するために、背景ノイズ信号のエネルギと、エネルギ閾値との比較が必要でないことである。したがってこの方法により、公知の方法に比べて計算資源が節約されるのである。
別の利点は、2つのSIDフレーム間の設定した時間の長さと、各伝送ネットワークの要求とが一致することである。
本発明の有利な発展形態および実施形態は従属請求項に記載されている。
本発明の有利な1実施形態では、SID構造(SIDビットストリーム構造)が設けられており、ここでは背景ノイズ情報の狭帯域成分と、背景ノイズ情報の広帯域成分とが分離している。1つのSIDフレームにおける狭帯域背景ノイズ情報と、広帯域背景ノイズ情報とを別個に処理することにより、背景ノイズの狭帯域成分と広帯域成分と別個に符号化することができ、また上記の処理をわかりやすくすることができる。さらにこの実施形態の利点は、上記の伝送されるSIDフレームの広帯域成分に基づいてコンフォートノイズを形成すべきか、または狭帯域成分に基づいてこれを形成すべきかを受信側で決定できることである。このことは、音声情報フレームに対する伝送レートが低下して狭帯域の音声情報だけが伝送される状況において、受信者における音響についての評価に殊に有利である。すなわち、目下の従来技術のように狭帯域の音声情報が、広帯域ノイズと関連して合成される場合、これは受信者にとって極めて不満のもとになる。音声情報フレームに対する伝送レートの上記のような低下は、例えば、送信者と受信者との間のネットワークの稼働率(輻輳)が高いことによって発生することがある。格段に小さいSIDフレームでは、このようなネットワークの隘路に襲われてしまうことはない。したがってこのようなSIDフレームにとっては、データ伝送レートを低減しなければならないという拘束も、そのコンテンツを低減しなければならない拘束もないのである。
本発明の有利な1実施形態では、背景ノイズの狭帯域の第1成分の背景ノイズパラメタを決定するため、背景ノイズの自己相関関数およびエネルギを求める。上記の狭帯域成分は、比較的長い時間にわたって1つの音声休止を平均化する必要があり、これは実践的には例えば100msの時間にわたる。ここでこの実施形態にしたがって使用される計算パラメタには、エネルギ(対数エネルギではない)および自己相関関数が含まれる。
本発明の別の有利な1実施形態によれば、インアクティブないしは音声休止として分類される時間区間のはじめに付加的なハングオーバ期間(Hangover Period)が挿入される。この新たに挿入されるハングオーバ期間、以下ではDTXハングオーバ期間と称されるハングオーバ期間は、従来公知のVAD(Voice Activity Detection)ハングオーバ期間と比べて、これまで知られていない別の目的に使用される。
2種類のハングオーバ期間が、複数のフレームをアクティブな音声フレームと特徴付け、ひいては音声信号の終わりに誤った分類を回避するという目的を追求しているのに対して、上記DTXハングオーバ期間は、背景ノイズについての情報を収集するという付加的な目的を有する。
本発明の有利な1実施形態では、広帯域の第2成分を減衰させる。この広帯域成分の減衰は、広帯域成分における全エネルギ成分を減衰させる際に1つの役割を果たす。このような手段は、復号化器においてコンフォートノイズを形成する(合成する)発生器は、符号化器における原背景ノイズと同じノイズ特性を形成することができないという事実に起因して必要である。
本発明の有利な1実施形態では、全背景ノイズ信号に、すなわち広帯域および狭帯域成分からなる組み合わせの背景ノイズ信号に、後置接続されたデエンファシスフィルタ("De-emphasis Post Filter")を適用する。この"De-Emphasis Post Filter"により、エネルギおよび高次の周波数成分のデエンファシス(De-Emphasis)が行われる。上記の平均化により、所定のようにスペクトル的な包絡線が変形されるため、この減衰は有利にも、障害となる広帯域ノイズが受信者に与える障害的な作用を低減するのに貢献することができる。
復号化器において音声として分類される入力信号から、背景ノイズとして分類される入力信号への移行を時間について示す線図である。
以下、本発明の別の利点および実施形態を有する実施例を図面に基づいて詳しく説明する。
以下では本発明の基礎にある技術的な背景をまず図を参照せずに詳しく説明する。
従来技術では、受信側でのコンフォートノイズ発生器(CNG Comfort Noise Generator)に関連して、不連続送信(DTX)の適用に問題がある。DTX/CNG処理中、つぎの考察を考慮しなければならない。
1. CNG側では、受信側で聴いている人によってリアルであると受け取られるべきである背景ノイズないしはコンフォートノイズを適当に形成することが必要である。広帯域の音声コーデックの場合、すなわち、例えば50Hz〜7kHzの周波数の帯域幅を有する音声コーデックの場合、広帯域ノイズの形成は、劣化と見なされる。さらに上記の背景ノイズの特性ないしは「色」は復号化器および符号化器側においてつねに同じではないため、エネルギおよびスペクトル的な包絡線の平均値形成を行う現在の解決手段により、原背景ノイズ情報が劣化する。
2. インアクティブ音声期間(音声休止)中に背景ノイズのエネルギにおける大きな変化が符号化器側で検出される場合のみ、上記のDTX方式により、更新されたSIDフレームが伝送される。このことはDTX/CNG方式をサポートする狭帯域(50Hz〜4kHz)の音声コーデックにも、広帯域の音声コーデックにも当てはまる。この際にはふつうエネルギ閾値(Energy Threshold)が中心的な役割を果たす。これにより、定めたエネルギ閾値を上回っていない場合、SIDフレームが送信されないことになる。しかしながら受信器と送信器との間の伝送ネットワーク側では、SIDフレームの送信がこのように中断されることは、サイレント状態ないしはアイドルチャネル("Idle Channel")と見なされる。この場合、コネクションが維持されること("Connection Alive")を保証するため、場合によってはコネクションを維持したいことを示すために付加的なデータを交換する必要がある。
目下のところ、上記の問題についてはつぎのように回避している。すなわち、
1.について:広帯域成分に関する情報は、SIDフレームにおいて符号化される。この際に平均化された対数エネルギおよび平均化されたイミタンススペクトル周波数(ISF Immitance Spectral Frequency)は、例えば、音声コーデックG.722およびAMR−WBにおいて広帯域の背景ノイズを表すのに使用される。ここでは広帯域の背景ノイズの下側部分および上側部分の別個の処理は行われない。狭帯域音声コードG.729は、平均化された対数エネルギおよび平均化された自己相関関数を使用する。ここで上記のエネルギに対する平均化期間および自己相関関数に対する平均化期間は一致しない。
2.について:上記のアイドル期間("Idle Period")が、対応するコネクションに対して長過ぎるとみされる場合、上記のネットワーク管理における管理ポイントは、最後に伝送したSIDフレームを新たに伝送することを送信したノード、すなわち送信した符号化器に要求する。したがってこの新たに送信されるSIDフレームおよびそこに含まれる情報は更新されない。したがって符号化器は、付加的なアクションを実行することはない。
本発明による方法では、上記の符号化器を構成して、この符号化器により、あらかじめ設定した所定の時間の後、上記の平均化したエネルギおよび自己相関関数が新たに計算されるようにする。上記のネットワークにおける管理ポイントは、必要なアイドル期間についての情報を符号化器に伝える。
以下では、SIDフレームを生成する別の実施形態を説明する。
背景ノイズ情報の狭帯域成分と、背景ノイズ情報の広帯域成分とがわかれているSID構造(SIDビットストリーム構造)を形成する。1つのSIDフレームにおいて狭帯域背景ノイズ情報と、広帯域背景ノイズ情報とを別個に処理することにより、背景ノイズの狭帯域成分と広帯域成分と別個に符号化することができ、また上記の処理をわかりやすくすることができる。
上記の狭帯域成分では、比較的長い時間にわたって1つの音声休止を平均化する必要があり、これは実践的には例えば100msの時間にわたる。ここで、使用される計算パラメタには、エネルギ(対数エネルギではない)および自己相関関数が含まれる。上記の自己相関関数は、スペクトル的な包絡線表現に利用される。ここで全体増幅係数は、すべての増幅手法および平均化手法の組み合わせによって補償することができる。上記の自己相関関数に対する値は、加算または平均値形成によってそれぞれ正規化される(Equally Weighted)。このことはすべてのSIDフレームに当てはまる。上記の狭帯域成分を比較的長く平均化(Averaging)することによって、狭帯域エネルギおよびスペクトル的な包絡線は平滑化されるため、突然のエネルギ変化が、受信側におけるコンフォートノイズの合成に目立った影響を与えることはない。音声信号を置換した(Speak Burst)後に第1SIDフレームを形成した後、この平均化期間は、エネルギにも使用され、またスペクトル的な包絡線の平均化にも共に使用される。この手段により、音声期間から音声休止への移行中に狭帯域背景ノイズの一貫性のある推定が保証される。
以下では図を参照する。図は音声信号(Speech Burst)を示しており、この信号は、所定の時点tに図において破線で示した所定の信号レベル、すなわち閾値を下回る。縦軸は、上記の信号のレベルまたはエネルギ値として理解すべきである。これに加えて送信側において音声休止識別(Voice Activity Detection, VAD)を使用する。これは、上記の閾値を下回った場合に音声休止を識別する。このVAD方式では、公知のハングオーバ期間VAD−HOが設けられており、この期間ではさらにアクティブな音声フレームが送信され、ふつう2フレーム長の後はじめて、SIDフレームを生成するモードに移行する。
ここで説明する本発明の実施形態では付加的なハングオーバ期間DTX−HOが挿入される。この新たなハングオーバ期間DTX−HOは、従来公知でありかつブラックボックス("Black Box")として使用されるハングオーバVAD−HO期間に続いている。このハングオーバ期間DTX−HO中、上記の符号化器において加工される信号は依然として音声信号として分類され、その一方で並行して背景ノイズパラメタの決定がすでに開始される。音声符号化のデータレートはすでに低減されている。それは、音声休止のはじめには、高品質な符号化は不要だからである。さらに上記の狭帯域成分に対してハングオーバ期間の一部分を利用して、第1SIDフレームの平均値を形成する。上記の説明は、有利にはハングオーバ期間DTX−HO,VAD−HO内の最後のフレームFRAMESに関するものである。これに対してハングオーバ期間の第1フレームの情報は、有利には利用されない。
上記の新たに挿入されるハングオーバ期間DTX−HOは、従来音声休止識別("Voice Activity Detection")の要求によって動機付けされていた公知のハングオーバ期間VAD−HOとは異なり、これまで着目されていなかった別の目的に使用される。DTX−HO,VAD−HOの2種類のハングオーバ期間が、複数のフレームをアクティブな音声フレームと特徴付け、ひいては音声信号の終わりに誤った分類を回避するという目的を追求しているのに対して、ハングオーバ期間DTX−HOは、背景ノイズについての情報を収集するという付加的な目的を有する。
音声信号の終わりに誤った分類を回避するという目的については、上記の新たなハングオーバ期間DTX−HOは付加的な保証になり、これによってハングオーバ期間DTX−HOが終了した後、復号化器の入力側に背景ノイズがあり、音声信号がないことが確定的に保証される。公知のハングオーバ期間VAD−HOを従来のように使用する場合、上記の加わっている信号が排他的に背景ノイズだけであることを推定することはできなかった。実際には公知のハングオーバ期間VAD−HO中に音声成分(Speech Burst)がなお発生することがあった。その他に上記の新たなハングオーバ期間DTX−HOは、背景ノイズの取得だけに使用される。
これらのハングオーバ期間DTX−HO,VAD−HOの持続時間の選択およびひいてはフレーム数FRAMESの選択については、有利な設定を、例えばつぎように選択する。すなわち、公知のハングオーバ期間VAD−HOに対する2つのフレームの持続時間(破線の軸FRAMESを参照されたい)および新たなハングオーバ期間DTX−HOに対する5つのフレームの持続時間が設けられるように選択するのである。
上記の広帯域成分ではエネルギ減衰が行われる。この広帯域成分の減衰は、広帯域成分における全エネルギ成分を減衰させる際に1つの役割を果たす。このような手段は、復号化器においてコンフォートノイズを形成する(合成する)発生器は、符号化器における原背景ノイズと同じノイズ特性を形成することができないという事実に起因して必要である。
上記の出力される広帯域音声信号、すなわち広帯域および狭帯域成分からなる組み合わせの広帯域音声信号背景には、後置接続されたデエンファシスフィルタ("De-emphasis Post Filter")を適用する。このフィルタリングにより、主に高次の周波数成分が減衰される。さらにこの"De-Emphasis Post Filter"により、エネルギおよび高次の周波数成分のデエンファシス(De-Emphasis)が行われる。上記の平均化により、所定のようにスペクトル的な包絡線が変形されるため、この減衰は、障害となる広帯域ノイズが受信者に与える障害的な作用を低減するのに貢献することができる。

Claims (12)

  1. テレコミュニケーションにおいてオーディオ信号を送信側から受信側へ伝送する伝送ネットワークを介して背景ノイズパラメタを不連続送信するためのSIDフレームを生成する方法において、
    期間単位に、狭帯域の第1成分および広帯域の第2成分背景ノイズパラメタを求め、
    当該の求めた背景ノイズパラメタの狭帯域の第1成分および広帯域の第2成分に対して別の領域を有するSIDフレームを生成および伝送し、
    伝送されたSIDフレームの狭帯域の第1成分に基づいてコンフォートノイズを形成すべきか、または、広帯域の第2成分に基づいてコンフォートノイズを形成すべきか、を受信側で決定し、
    音声に分類した信号から背景ノイズに分類した信号への移行部に、付加的なハングオーバ期間(DTX−HO)を設け、
    当該ハングオーバ期間中に背景ノイズパラメタを求め、
    ここで前記の期間は、伝送ネットワークの、伝送ネットワークにおいて調整された、求めたアイドル期間(Idle Period)に相応することを特徴とする、
    伝送ネットワークを介して背景ノイズパラメタを不連続送信するためのSIDフレームを生成する方法。
  2. オーディオ信号として音声信号が使用される、
    請求項1に記載の方法。
  3. 背景ノイズ信号のエネルギとエネルギ閾値との比較が省略される、
    請求項1または2に記載の方法。
  4. 前記の背景ノイズの狭帯域の第1成分の背景ノイズパラメタを決定するため、背景ノイズの自己相関関数およびエネルギを求める、
    請求項1に記載の方法。
  5. 前記の狭帯域の第1成分の背景ノイズパラメタを約100ミリ秒の時間にわたって平均する、
    請求項4に記載の方法。
  6. エネルギとして対数エネルギは求められない、
    請求項4または5に記載の方法。
  7. 付加的なハングオーバ期間(DTX−HO)は、公知のハングオーバ期間(VAD−HO)に続いており、該公知のハングオーバ期間(VAD−HO)では、さらにアクティブな音声フレームが送信される、
    請求項1記載の方法。
  8. 付加的なハングオーバ期間(DTX−HO)および公知のハングオーバ期間(VAD−HO)はそれぞれフレーム(FRAMES)を有しており、
    フレーム(FRAMES)数は、公知のハングオーバ期間(VAD−HO)に対する2つのフレームの持続時間および付加的なハングオーバ期間(DTX−HO)に対する5つのフレームの持続時間が設けられるように選択される、
    請求項7記載の方法。
  9. 前記の広帯域の第2成分を減衰させる、
    請求項1から8までのいずれか1項に記載の方法。
  10. 前記の背景ノイズ信号に、後置接続されたデエンファシスフィルタリングを適用する、
    請求項1から9までのいずれか1項に記載の方法。
  11. 請求項1から10までのいずれか1項に記載の方法を実行する手段を有することを特徴とするコーデック。
  12. それ自体公知のITU−T規格G.729.1にて実現した、
    請求項11に記載のコーデック。
JP2010547139A 2008-02-19 2009-02-02 背景ノイズ情報を符号化する方法および手段 Expired - Fee Related JP5415460B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
DE102008009718A DE102008009718A1 (de) 2008-02-19 2008-02-19 Verfahren und Mittel zur Enkodierung von Hintergrundrauschinformationen
DE102008009718.7 2008-02-19
PCT/EP2009/051123 WO2009103610A1 (de) 2008-02-19 2009-02-02 Verfahren und mittel zur enkodierung von hintergrundrauschinformationen

Publications (2)

Publication Number Publication Date
JP2011515705A JP2011515705A (ja) 2011-05-19
JP5415460B2 true JP5415460B2 (ja) 2014-02-12

Family

ID=40568601

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010547139A Expired - Fee Related JP5415460B2 (ja) 2008-02-19 2009-02-02 背景ノイズ情報を符号化する方法および手段

Country Status (8)

Country Link
US (1) US8949121B2 (ja)
EP (1) EP2245620B1 (ja)
JP (1) JP5415460B2 (ja)
KR (1) KR101216496B1 (ja)
CN (1) CN101952887B (ja)
DE (1) DE102008009718A1 (ja)
RU (1) RU2440674C1 (ja)
WO (1) WO2009103610A1 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012095924A1 (ja) * 2011-01-14 2012-07-19 パナソニック株式会社 符号化装置、通信処理装置および符号化方法
CN103187065B (zh) 2011-12-30 2015-12-16 华为技术有限公司 音频数据的处理方法、装置和***
US8868415B1 (en) * 2012-05-22 2014-10-21 Sprint Spectrum L.P. Discontinuous transmission control based on vocoder and voice activity
PL3550562T3 (pl) * 2013-02-22 2021-05-31 Telefonaktiebolaget Lm Ericsson (Publ) Sposoby i urządzenia dla zawieszenia DTX w kodowaniu audio
US9572103B2 (en) * 2014-09-24 2017-02-14 Nuance Communications, Inc. System and method for addressing discontinuous transmission in a network device
CN112437957A (zh) 2018-07-27 2021-03-02 杜比实验室特许公司 用于全面收听的强加间隙***

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5881373A (en) 1996-08-28 1999-03-09 Telefonaktiebolaget Lm Ericsson Muting a microphone in radiocommunication systems
US5893056A (en) 1997-04-17 1999-04-06 Northern Telecom Limited Methods and apparatus for generating noise signals from speech signals
AU754698B2 (en) * 1998-06-08 2002-11-21 Telefonaktiebolaget Lm Ericsson (Publ) System for elimination of audible effects of handover
RU2237296C2 (ru) 1998-11-23 2004-09-27 Телефонактиеболагет Лм Эрикссон (Пабл) Кодирование речи с функцией изменения комфортного шума для повышения точности воспроизведения
AR024520A1 (es) * 1998-11-24 2002-10-16 Ericsson Telefon Ab L M Metodo para realizar la transmision discontinua (dtx) en un sistema de comunicaciones, metodo para transmitir mensajes de protocolo a un segundo componente en un sistema de comunicaciones donde datos de habla son transmitidos desde un primer componente a un segungo componente, metodo de efectuar cam
WO2000075919A1 (en) * 1999-06-07 2000-12-14 Ericsson, Inc. Methods and apparatus for generating comfort noise using parametric noise model statistics
US6807525B1 (en) 2000-10-31 2004-10-19 Telogy Networks, Inc. SID frame detection with human auditory perception compensation
CN1617605A (zh) 2003-11-12 2005-05-18 皇家飞利浦电子股份有限公司 一种在语音信道传输非语音数据的方法及装置
BRPI0515453A (pt) * 2004-09-17 2008-07-22 Matsushita Electric Ind Co Ltd aparelho de codificação escalável, aparelho de decodificação escalável, método de codificação escalável método de decodificação escalável, aparelho de terminal de comunicação, e aparelho de estação de base
JP2008546341A (ja) 2005-06-18 2008-12-18 ノキア コーポレイション 非連続音声送信の際の擬似背景ノイズパラメータ適応送信のためのシステム及び方法
US20070136055A1 (en) * 2005-12-13 2007-06-14 Hetherington Phillip A System for data communication over voice band robust to noise
US8725499B2 (en) * 2006-07-31 2014-05-13 Qualcomm Incorporated Systems, methods, and apparatus for signal change detection
US8260609B2 (en) * 2006-07-31 2012-09-04 Qualcomm Incorporated Systems, methods, and apparatus for wideband encoding and decoding of inactive frames
US8032359B2 (en) * 2007-02-14 2011-10-04 Mindspeed Technologies, Inc. Embedded silence and background noise compression

Also Published As

Publication number Publication date
EP2245620A1 (de) 2010-11-03
RU2440674C1 (ru) 2012-01-20
US20110004471A1 (en) 2011-01-06
US8949121B2 (en) 2015-02-03
DE102008009718A8 (de) 2009-12-17
EP2245620B1 (de) 2017-08-30
CN101952887A (zh) 2011-01-19
KR101216496B1 (ko) 2012-12-31
DE102008009718A1 (de) 2009-08-20
CN101952887B (zh) 2013-05-29
WO2009103610A1 (de) 2009-08-27
KR20100123734A (ko) 2010-11-24
JP2011515705A (ja) 2011-05-19

Similar Documents

Publication Publication Date Title
JP5361909B2 (ja) 背景ノイズ情報を符号化する方法および手段
JP5096582B2 (ja) ノイズ生成装置及び方法
RU2469419C2 (ru) Способ и устройство для управления сглаживанием стационарного фонового шума
JP5415460B2 (ja) 背景ノイズ情報を符号化する方法および手段
RU2469420C2 (ru) Способ и устройство для формирования шумов
JP2002237785A (ja) 人間の聴覚補償によりsidフレームを検出する方法
KR101648290B1 (ko) 컴포트 노이즈의 생성
KR101462293B1 (ko) 고정된 배경 잡음의 평활화를 위한 방법 및 장치
WO2007140724A1 (fr) procédé et appareil pour transmettre et recevoir un bruit de fond et système de compression de silence
CA2326275C (en) Comfort noise generation for open discontinuous transmission systems
KR101408625B1 (ko) Dtx 행오버 주기의 길이를 조정하는 방법 및 음성 인코더
US20120307677A1 (en) Transmitting Data in a Communication System
JP5006975B2 (ja) 背景雑音情報の復号化方法および背景雑音情報の復号化手段
Nishimura Steganographic band width extension for the AMR codec of low-bit-rate modes
CN113571072B (zh) 一种语音编码方法、装置、设备、存储介质及产品
CN115641854A (zh) 一种实时语音自适应多速率编码和传输方法
CN115527544A (zh) 语音数据传输方法

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120426

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120723

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20120822

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121218

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20121227

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20130301

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20130716

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20130719

RD13 Notification of appointment of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7433

Effective date: 20130903

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20130903

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130925

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20131113

R150 Certificate of patent or registration of utility model

Ref document number: 5415460

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees