JP4560269B2 - 無音検出 - Google Patents

無音検出 Download PDF

Info

Publication number
JP4560269B2
JP4560269B2 JP2002590554A JP2002590554A JP4560269B2 JP 4560269 B2 JP4560269 B2 JP 4560269B2 JP 2002590554 A JP2002590554 A JP 2002590554A JP 2002590554 A JP2002590554 A JP 2002590554A JP 4560269 B2 JP4560269 B2 JP 4560269B2
Authority
JP
Japan
Prior art keywords
silence
signal power
signal
audio signal
power level
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2002590554A
Other languages
English (en)
Other versions
JP2004531766A (ja
Inventor
ステラ,アレシオ
アー デー ネスファトバ,ヤン
バルビエリ,マウロ
スネイデル,フレディ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips NV
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips NV, Koninklijke Philips Electronics NV filed Critical Koninklijke Philips NV
Publication of JP2004531766A publication Critical patent/JP2004531766A/ja
Application granted granted Critical
Publication of JP4560269B2 publication Critical patent/JP4560269B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04HBROADCAST COMMUNICATION
    • H04H60/00Arrangements for broadcast applications with a direct linking to broadcast information or broadcast space-time; Broadcast-related systems
    • H04H60/56Arrangements characterised by components specially adapted for monitoring, identification or recognition covered by groups H04H60/29-H04H60/54
    • H04H60/58Arrangements characterised by components specially adapted for monitoring, identification or recognition covered by groups H04H60/29-H04H60/54 of audio
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/426Internal components of the client ; Characteristics thereof
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/44Receiver circuitry for the reception of television signals according to analogue transmission standards
    • H04N5/60Receiver circuitry for the reception of television signals according to analogue transmission standards for the sound signals
    • H04N5/602Receiver circuitry for the reception of television signals according to analogue transmission standards for the sound signals for digital sound signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/812Monomedia components thereof involving advertisement data

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Stereo-Broadcasting Methods (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Television Systems (AREA)
  • Air Bags (AREA)
  • Control Of Stepping Motors (AREA)
  • Amplifiers (AREA)
  • Reduction Or Emphasis Of Bandwidth Of Signals (AREA)
  • Tone Control, Compression And Expansion, Limiting Amplitude (AREA)
  • Signal Processing Not Specific To The Method Of Recording And Reproducing (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)

Description

発明の詳細な説明
(発明の開示)
本発明は音声信号における無音を検出する技術に関し、特にこのような無音検出をコマーシャル検出に用いるための技術に関する。

EP1006685A2は、テレビ信号の処理方法及び装置、並びにテレビ信号におけるコマーシャルの有無を検出する方法及び装置を開示する。ここでは、まずコマーシャル候補部分検出器が静粛部分及びシーン転換点に基づいてコマーシャル候補部分を検出する。そしてコマーシャル特性量検出器が検出されたコマーシャル候補部分がコマーシャルの種々の特性を有するかを判断し、この判断結果に基づいてコマーシャル特性値に所定の値を加算する。さらにコマーシャル特性量検出器は最終的なコマーシャル特性値と所定の閾値とを比較し、この比較結果に基づいてこのコマーシャル候補部分がコマーシャル部分であるか否かを判断する。また、静粛部分検出器はデジタル音声信号レベルと閾値とを比較して、静粛部分を検出するとともにこの比較結果をシーン転換検出器に出力する。また、EP1087557A2においても本発明の背景技術が開示される。

本発明は優良な無音検出技術を提供することを目的とする。この目的を達成するために本発明は独立請求項に記載される無音検出方法、無音検出器、及び受信器を提供する。さらに、本発明の好ましい実施形態は従属請求項に記載される。
本発明の一様相によると、音声信号における局所信号パワーが所定の固定あるいは相対的閾値を下回り、この局所信号パワーが所定の固定あるいは相対的閾値を下回る期間が第一範囲内にあり、かつ信号パワー降下率及び局所パワー偏差のパラメータのうちの少なくとも1つが更なる範囲内にあるときに無音は検出される。信号パワー降下率は、局所信号パワーレベルが固定あるいは相対的閾値未満に下がる前あるいはその頃に確定され、局所信号パワー偏差は、局所信号パワーレベルが固定あるいは相対的閾値パワーレベル未満である期間のうちの少なくとも一部分において確定される。この偏差(線形偏差)及び/又は降下率は、知覚されるがコマーシャル検出とは無関係である無音の部分をフィルタリングするために用いられる。降下率の代わり、あるいはこれに加えて局所信号パワーレベルが固定あるいは相対的閾値を越える頃に確定される上昇率を用いることも可能である。
さらに好ましい実施形態において、無音開始時間、無音期間、及び局所信号パワーレベルは、一連続する無音間のコンテンツがコマーシャルであるか否かを判断するために後続の統計モデルで用いられる。ここでは無音検出において用いられるパラメータが、検出された一連の無音間のコンテンツがコマーシャルであるか否かを判断するために再利用される。
また、音声信号が複数の量子化サンプルを有するブロックから構成され、このブロックにスケールファクタの集合が備えられている場合、この圧縮音声信号からこのスケールファクタの集合を抽出し、このブロックにおける信号パワーをこれらのスケールファクタの組み合わせに基づいて推定することが好ましい。このブロックは音声フレームあるいは音声フレームの一部であってよい。このブロックのスケールファクタは圧縮音声信号から簡単に抽出することが可能である。この実施形態では、スケールファクタがこれに対応するサンプルの最大値を表すことを前提とする。そして例えばそれぞれのスケールファクタの二乗の総和などのスケールファクタの組み合わせにより信号パワーのおおよその推測値が低い演算負荷で得られる。コマーシャル検出などにおける無音検出などではこのようなおおよその推測値で十分である。さらに好ましくは、このスケールファクタの集合の部分集合だけを用いることも可能である。ここではスケールファクタの集合のすべてを用いるのではなくその部分集合だけを用いることにより、演算負荷をさらに低減することが可能である。これに伴い精度も低下しうるが、コマーシャル検出などのための無音検出においてこれは問題とはならない。このスケールファクタの部分集合は時間方向及び/又は周波数方向にスケールファクタを省いていくことにより形成されうる。例えばこの部分集合は圧縮音声信号において利用可能である複数の狭周波数帯サブ信号の部分集合を含むことができる。さらにこの部分集合は好ましくは低周波数サブ信号のスケールファクタを含む。また、この圧縮音声信号がステレオ信号又はマルチチャンネル信号である場合、利用可能なチャンネルの部分集合のみが用いられる。
なお、WO96/3271A1は、デジタル送信のための音声信号の圧縮/伸張システムを開示する。ここでは付属データが多重化され音声データとともに符号化され、復号が可能な状態で送信される。この文献の159ページにおいては、他チャンネルにおける音声の有無をみるための最小スケールファクタ値の計算方法が開示される。
本発明は更なる様相として、少なくとも音声信号を含むプログラムの送信方法及び装置を提供する。ここでは音声信号において相対的に低い信号パワーレベルを有する時間間隔が検出され、この時間間隔に更なる付加的な無音が導入される。この更なる付加的な無音は時間間隔よりも短く、時間間隔における音声信号の信号パワーよりも低い信号パワーを有する。低パワーの時間間隔において更なる付加的な無音を導入することによって無音検出を適用するコマーシャル検出器を制御するためのキューが送信されることとなる。また、低パワーの時間間隔において更なる付加的な無音を導入することは、高パワーの時間間隔において無音を導入するよりも可聴性が低いという利点がある。好ましくは、これらの無音は受信側の無音検出器の設定範囲内にとどまるパワー偏差レベル及びパワー降下/上昇率を有する。本発明はさらに信号及び記憶媒体をも提供する。
以下においてこれら本発明の様相及びその他の実施例を添付の図面を参照して説明する。

図1は本発明の一実施形態による圧縮音声信号〔A〕を受信する受信器1を示す。受信器1は、圧縮音声信号〔A〕を取得するための入力10を有する。この入力10は、例えばアンテナ、ネットワーク接続、読み取りデバイスなどに相当する。受信器1はさらに圧縮音声信号における無音を検出するための無音検出器11、及び無音の検出によって音声信号を影響する影響部12を有する。影響部12は例えば圧縮音声信号を復号するための復号器に相当し、この信号の復号は検出される無音によって左右される。あるいは影響部12は、検出された無音によって圧縮音声信の部分々々をとばすスキッピング・ブロックであってもよい。無音検出器11はコマーシャル検出器に拡張されることも可能である。そして復号処理の間に検出されたコマーシャルをとばすことが可能である。影響された音声信号〔A〕は、復号された状態あるいは圧縮されたままの状態で出力13に出力される。この出力13は例えばネットワーク接続、再生装置、あるいは録音装置などであってよい。圧縮音声信号〔A〕は、例えばビデオ信号をさらに含んでいるプログラム・ストリームなどに含まれてよい。この場合、このプログラム信号は影響部12において、少なからず圧縮音声信号〔A〕において検出される無音によって影響されうる。この実施形態の好適な適用例としては、コマーシャルなしのコンテンツだけを記憶する記憶装置などがある。
本発明の一実施形態によるコマーシャル検出器は、オーディオビジュアル・ストリームにおけるコマーシャル部分を自動的に検出することができる。これにより、キーフレーム抽出、編集や再生などあらゆる処理においてコマーシャルをとばすことが可能になる。ここではいくつかの音声特性についてスライディング・ウィンドウ上で局部統計が計測され、これがコマーシャルの統計モデルと比較される。この比較結果によりこの音声信号がどのようにコマーシャルと局部的に類似するかを示す標準化された尤度関数が得られる。この尤度関数はコマーシャル検出のために適正にトリガーされるようにことが可能である。統計ウィンドウとしては局部分析については詳細でありかつ検出に影響を及ぼさない局部的不規則性や変動に対しては頑丈であるものが選択される。このアルゴリズムは1つのストリーム内あるいはストリーム間で変化しうるいくつかの条件に適応することができる。そしてこのアルゴリズムはビデオからは独立しているが、コマーシャル検出においてビデオ分析をも導入し、より充実した分類を行うことも可能である。このアルゴリズムは数種類の記憶システムに適用されることができる。
MPEG−1レイヤ1/2/3、MPEG−2レイヤ1/2/3、MPEG−2AAC,MPEG−4AAC,AC−3など多くの音声符号器はドメイン・コーダである。これらの符号器はソース・スペクトルをいくつかの狭周波数帯サブ信号に分割し、それぞれのサブ信号の周波数成分あるいはサンプルを別々に量子化する。ここで周波数成分あるいはサンプルはスケールファクタ及びビット割り当てに応じて量子化される。これらのスケールファクタは周波数成分あるいはサンプルの最大値を示すインジケータとみなすことができる。
AC−3においては、周波数成分は、
Figure 0004560269
によって表され、ここでは
Figure 0004560269
の乗数がスケールファクタとして機能する。
MPEG−1レイヤ2においては、狭周波数帯サブ信号はそれぞれ12の量子化サンプルからなるグループに分割され、各グループはそれぞれ対応するスケールファクタを有する。このスケールファクタは関係するサンプルの最大値に対応する。
この検出アルゴリズムは、好ましくはスケールファクタの部分集合を用いる。狭周波数帯サブ信号のすべて或いは部分集合においてそれぞれ対応するスケールファクタを二乗することにより信号パワーの上限が計算される。
次にMPEG音声圧縮技術についてより詳細な説明する。MPEG−1レイヤ2において音声信号は、48kHz、44.1kHz、あるいは32kHzのサンプリングレートを得るためにそれぞれ24msec、26.1msec、あるいは36msecの時間間隔に分割される。各時間間隔においてこの音声信号はフレームに符号化される。図2を参照すると、各フレーム間隔は3つのパートに分割され、この信号はさらに周波数方向においては32のサブバンド成分に分解される。各サブバンド成分の各1/3フレーム、すなわち図2における各長方形において12のサンプルが対応スケールファクタ及び適切に選ばれたビット数に応じて量子化される。スケールファクタはこの12のサンプルの絶対値の上限の推定値を示す。この推定値は必ずしも正確ではないが、これはコマーシャル検出においては問題とならない。スケールファクタは、擬似対数インデックスとしてフレームから直接得ることが可能であるため非常に低い演算負荷で各オーディオフレームから抽出されことができる。この抽出は限られたフレーム・ヘッダーの復号処理だけを要し、伸張処理を要さない。
ステレオモードでは、各チャンネルはフレームごとに96のスケールファクタを有する。検出アルゴリズムは左又は右チャンネルの各サブバンドにおける最大スケールファクタだけを選択する(図3参照)。つまり32の値がバッファリングされ線形(対数ではなく)形式に変換される。例えば48kHzの音声サンプリングレートの場合、サブバンド0〜26だけがこの基準に基づいて用いられる。これにより24msec毎に27サンプルが供給され、これはつまりコマーシャル検出器において1125サンプル/秒という適度の入力データレートを実現する。そしてバッファリングされたスケールファクタの二乗が計算され、サブバンド信号パワーの上限が得られる。このようにして得られた各サブバンドのスケールファクタの二乗は以下のように利用される。
(1)これらの総和は短時間パワー全体に対する上限を示す
(2)これらは短時間周波数帯域幅推定値を計算するために用いられることができる
以下に示される図表はMPEG−1レイヤ2における擬似対数インデックスに対応するスケールファクタのいくつかの例を示す(ISO/IEC,TableB.1:1993参照)。
Figure 0004560269
ここで、以下の公式により音声フレームの短時間パワーの推定値jが求められる。
Figure 0004560269
また、別の方法としてスケールファクタを得るためにルックアップテーブルを用いることも可能である。
上記の総和は所定時間におけるサブバンドの数分だけ行われる。サブバンドの部分集合が用いられる場合、アプリケーションによって総和がサブバンド全ての数分だけ行われるかもしくは使用されたサブバンドの数分だけ行われる。

無音検出は以下の値に対するネスト化された閾値に基づく。
(1)局部信号パワーレベル(例えば上記のFrame_power)
(2)無音期間、及び少なくとも以下のうちの1つ
(3)無音期間中の局部パワー線形偏差
(4)無音開始前の局部パワー降下率
(5)無音終止時点における局部パワー上昇率

信号パワー特性は無音検出器が作動する環境によって大きく変化しうるため、無音検出器は好ましくは適応型のものである。したがって例えば上記の(1)、(3)、及び/又は(4)などのような局部パワーレベルに関連するパラメータはそれぞれの時間平均値と比較される。局部信号パワーに対する典型的な閾値は0.01であり、これはすなわち局部信号パワーが、信号パワーの時間平均の1パーセント未満にとどまるべきであることを意味する。時間平均は長さwのフレームを有する適応ウィンドウを用いることにより計算される。以下には、この時間平均を実際に求めるための公式を示す。
Figure 0004560269
Figure 0004560269
ここでjはフレームインデックスを表す。
無音期間とは局部信号パワーレベルがある固定あるいは適応閾値パワーレベルを下回る期間に相当する。線形偏差は、無音期間の少なくとも一部における(フレームパワー−平均フレームパワー)の総和に相当する。線形偏差及び下降/上昇率は、知覚されるがコマーシャル検出には無関係である無音の一部をフィルタリングするために用いられる。局部信号パワーレベルは、例えば音声フレーム毎あるいは音声フレーム部分毎に上記のスケールファクタを用いて確定される。
コマーシャル部分に含まれる個々のコマーシャル間の無音の期間は通常3/25秒から20/25秒である。
無音開始時間、無音期間、無音局部パワーレベルのそれぞれの値は、以下に説明する統計計算のためにバッファリングされる。コマーシャルは以下の特性についての局部統計モデルによって特徴付けられる。
(1)連続して検出された2つの無音間の時間距離
(2)検出された無音の局部信号パワーレベル(絶対及び/又は相対)
(3)無音期間
(4)音声信号の局部帯域幅
音声フレームjの局部帯域幅は、スケールファクタを用いて以下の公式によって求めることができる。
Figure 0004560269
上記の各特性については、それぞれ0から1の間の値をとる0.5で標準化された尤度関数が求められる。各尤度関数は対象となる特性の局部統計がコマーシャルの局部統計モデルとどの程度類似するかを示す。これらの尤度関数はそれぞれ異なる重みを付与されたうえで結合され、その結果0.5で標準化されたままで上記すべての情報を活用できるグローバルな尤度関数が得られる。このグローバル尤度関数は無音開始時点としてバッファリングされた時間軸上の各々の点において計算される。基本的に0.5という値は「完全不確定性」あるいは「0.5の確率でコマーシャル部分にいること」を意味する。尤度関数には様々な活用法がある。例えば尤度関数はコマーシャルの境界を検出するよう適切にトリガーされることが可能である。また、標準化された緩やかなコマーシャル/非コマーシャルの分類としての尤度関数は例えばビデオ特性など任意の特性を用いて更なる分析や分類を行うためのアルゴリズムによって利用されることもできる。そして様々なレベルのビデオ特性(例えばモノルミナンス/モノクロミナンス・フレームの検出あるいはシーン転換の検出など)が同じ尤度関数あるいはその他の方法を用いて音声特性と共に統計的に分析されることも可能である。上述の音声分析に基づいて以下に説明するトリガー及びレフィリングを適用するコマーシャル検出は開発され検査されている。0.5標準化尤度関数L(t)は検出された無音がコマーシャル部分に属するか否かを判断するために用いられることが可能である。これは以下のように定義される関数Q(L(t))によって実現される。
L(t)>0.5の場合、Q(L(t))=1
L(t)≦0.5の場合、Q(L(t))=0
ここで0は検出された無音が非コマーシャル部分に属することを意味し、1は検出された無音がコマーシャル部分に属することを意味する。
本発明の実用的な実施形態として、コマーシャルのシーケンスは60秒以上続く場合のみ検出される。またL(t)>0.5が続く期間において尤度関数L(t)が45秒より短い時間だけ0.5未満に落ちた場合は、Q(t)は1に設定される。この処理は「内部レフィリング」と呼ばれる。この内部レフィリングにより散発的内部欠測を防止できる。これに対し「外部レフィリング」はコマーシャルの開始時点と終了時点に適用される。例えば:
,ti+1,...,ti+N,...を無音が開始する一連の時点とし、
L(t)=0.2
L(ti+1)=0.4
L(ti+2)=0.6
L(t)>0.5(j=i+3,...,i+N)
L(t)<0.5(j>i+N)
i+2−ti+1<45.0sec
i+N+1−ti+N<45.0sec
とすると、
Q(L(t))=0
Q(L(ti+1))=1
Q(L(ti+2))=1
...
Q(L(ti+N+1))=1
Q(L(t))=0(j>i+N+1)
となる。
外部レフィリングは開始点と終了点との系統的な欠測を防止するのに効果的である。これは詳細をウィンドウする処理に関連する。外部及び内部レフィリングは上位駆動の特殊非線形フィルタリングであるとみなすことができる。ここで統計モデルとしては、コマーシャルの汎用統計モデルが用いられてよい。またこの統計をより詳細に規定することも可能で、時間帯、プログラムの種類(例えばソープ、トークショー、サッカーの試合など)及び/又はチャンネルなどによって異なるコマーシャル統計モデルを用いることも可能である。これは本発明を実現するための必須条件ではないが、この設定により性能がより改善されることはいうまでもない。ここは対象システムの複雑さと性能との駆け引きになる。また1つのチャンネルにおいても時間によって条件は変化しうるため適応性を有する検出が好ましい。さらに、チャンネルの切り替えに対する適応性を備えることも望まれる。特に局部的最低ノイズレベルは1つのチャンネルにおいても時間によって変化する上、異なるチャンネル間ではさらに大きく変化しうる。この条件は無音検出において非常に重要である。さらに、コマーシャル統計モデルにおける適応性も必須条件ではないが、有用である。ここではシステムに局部的最低ノイズレベルに関する完全セルフトレーニング(適応型)アルゴリズムが実装される。ここでの制約は、チャンネルが切り替えられる毎にアルゴリズムがリセットされることである。これは初期段階においては適応性が速くその後遅くなるからである。ここは適応性と正確さとの駆け引きである。このアルゴリズムがどの時期においても迅速な適応性を有しコマーシャル部分においても相対的に適応が速い場合、検出の精度が低下する結果となる。したがって実用的な実施形態においては、切り替えに対する適応性(異なるチャンネルへの切り替えに応じたリセット)は最初の数分のみ有効であって、1つのチャンネルにおける適応性は常に維持される。この適応性の安定は非対称スキームによって確保される。さらにこの適応性は最低ノイズレベルが低下している際は速く、これに比べて最低ノイズレベルが上昇しているときは遅い。これは例えば以前に検出された無音の局部パワーよりも低い局部パワーを有する無音が検出された際、無音検出における局部パワー閾値は相対的に速く低下する。また検出においては2種類のエラーが生じうる。これはコマーシャルの検出を逃すかあるいは誤ってコマーシャルを検出するかである。これらのエラーは両方とも比較的生じにくく、コマーシャル部分の始まりあるいは終わりの部分に限られている。いずれにせよアルゴリズムは柔軟性を有し、判断パラメータによってこの2種類のエラー間の駆け引きを適性に応じて調整することが可能である。例えばこのコマーシャル部分検出が自動キーフレーム抽出の前処理として適用された場合、コマーシャルを逃してしまう確率を下げることがより重要となる。一方、単純な再生などにおいては誤った検出を回避することがより重要となる。なお、サブバンド分析を行わずに選ばれた特性(他に追加されることも可能であるが)を参照して局部パワーと帯域幅とを別々に評価することも可能である。帯域幅の値は低いサンプリングレートで例えば2分間隔の(他の値をとることも可能である)対称スライディングウィンドウ上で取得されうる。したがって帯域幅の値は例えば連続するポイントの低い短時間FFTの平均から推定されることが可能である。また個々あるいはグローバルにいくつかの異なる標準化方法及び1つ以上の尤度関数の組み合わせを適用することも可能である。実用的な実施形態として、積結合に基づいて個々あるいはグローバルに再標準化を行うことが可能である。この積は基本的にはブール・セット{0,1}から連続間隔〔0,1〕に延びるブールANDであり、優れた選択性を確保することを可能にする。概して言えば、種々の条件はすべて緩く課されている。このすべてが完全に満たされる必要はないが、おおよそ満たされていることが必要である。これに対し和の組み合わせを適用した場合この和は一種のブールORの延長に相当し、十分な選択性が確保されないこととなる。更なる選択性及び信頼性(robustness)は期間閾値のある尤度に対する厳格判断によって確保される。尤度・ノイズの許容性はさらに内部レフィリングによっても確保される。
以下の説明においては、36分の録音を行った場合を例にとる。ここでは映画の終わりの部分から録音が開始され、間隔〔646,866〕秒にコマーシャルが含まれる。886秒の時点でテレビ番組が始まり、間隔〔1409,1735〕秒に更なるコマーシャルが含まれる。図4のグラフでは検出された各無音期間において算出された局部信号パワーを丸印で示す。同グラフに示される×印は上記計算値の後方平均を表す。このグラフから把握されるようにコマーシャルの無音(間隔〔646,866〕と〔1409,1735〕における無音)は主に切断によるパワーの低い無音である。また、コマーシャル内の無音の分布は他の部分における無音の分布と異なることがわかる。例えばコマーシャル内の無音のほとんどは10−30秒間隔に分布される。このグラフに示されるような統計内容は尤度関数推定に用いられる。図5のグラフにはこのようにして得られた尤度関数が示される。ここで導入されたトリガーにより間隔〔648,866〕秒及び〔1408,1735〕秒が検出される。

〈変形例〉
(1)上記の例よりも多くのスケールファクタをバッファリングすることも可能である。また、これらをサブサンプルすることも可能である。上記の効果的実施形態においては、96ある左チャンネルのスケールファクタのうち32のスケールファクタが選択される。
(2)上記の例で用いられる音声特性の集合とは異なる音声特性を選択することも可能である。もちろん他の特性を導入する際は十分な検討が必要である。
(3)上述のように、様々な標準化方法と、1つ或いはいくつかの尤度関数の組み合わせを適用することも可能である。上記実施形態は、積結合に基づく再標準化を適用する。この積は基本的にブール集合{0,1}から連続間隔〔0,1〕へ延びるブールANDに相当し、優良な選択性を保障する。和結合の和は一種のブールORの延長であり、これは十分な選択性を確保することができない。
(4)レフィリングによりグローバル尤度関数をトリガーする選択に変更を加え、例えば異なるウィンドウ様相及び/又は音声特性を用いることが可能である。
(5)スケールファクタを直接処理することにより例えば多くの放送局によってコマーシャル部分の始まり及び/又は終わりに通常配置される特定の音声シーケンスなどの認識を実現することも可能である。

送信側においては、切断無音が検出されやすくなるように調整を施し尤度関数を補助することができる。これは例えば切断無音の信号パワーを低くする、無音期間を調整する、信号パワー降下率を上昇させる、及び/又は無音期間中のパワー偏差を低下させることによって実現可能である。また、逆に信号パワーを増加させることによって切断無音を検出しにくくすることも可能である。これは例えばノイズを導入する、無音期間を調整する、信号パワー降下率を低下させる、及び/又は無音期間中のパワー偏差を上げることなどによって実現可能である。さらに信号に擬似切断無音を導入することも可能である。実用的な実施形態にとして、実際の切断無音と同様にパワーの低い0.15秒間の擬似切断無音を30秒間隔で挿入することによりコマーシャル部分の検出を妨げることができる。この擬似切断無音は、スピーチ無音などの既存無音に挿入されることが好ましい。この場合、一般ユーザーにとってはほとんど認知されない。
ここにおける検出アルゴリズムは音声マテリアルにおけるコマーシャル部分を検出し、その境界線をマークする。このようにして検出されたコマーシャル部分は、ブラウジング、自動トレーラ作成、編集、或いは単純な再生などあらゆる処理においてとばされることが可能になる。この機能は非常に低価格で多種の記憶システムに組み込まれることが可能である。この機能はデータ取得時にリアルタイムで適用されるか、又はオフラインで記憶マテリアルに対して適応されることも可能である。
なお、上述の実施形態は本発明を例示的に説明するものであって、本発明を限定するものではない。また同業者であれば、本発明の請求の範囲から逸れることなく上記実施形態のさまざまな変形例を構想することが可能であろう。本発明の請求の範囲における「構成される」という用語は、本発明の要素或いは工程を請求項に記載されるものに限定し他の要素や工程の存在を排除するような意味合いは有さない。本発明は、いくつかの別々の要素からなるハードウェアによって実現されることが可能であり、また適正にプログラムされたコンピュータによっても実現可能である。さらに複数の手段を有する装置を記載する請求項において、いくつかの手段が1つのハードウェア要素によって実現されることも可能である。また、相互に異なる従属項に記載される本発明の特徴が同一請求項に記載されていないという事実だけでこれらの組み合わせにより更なる効果が得られないとは限らない。
本発明の実施形態による受信器を示す。 それぞれが12の量子化サンプルを有しスケールファクタを備える3つのパーツに分割された32のサブバンドを含む音声フレームの一例を示す。 図2に示す音声フレームにおいて各サブバンドにつき最大スケールファクタを選択し、この選択の候補をグレーで示す。 検出された無音の局部信号パワーを丸印で示し、この局部信号パワーの平均を×印で示す図である。 図4に基づく尤度関数の一例を示す。

Claims (11)

  1. 音声信号において無音を検出する方法であって、
    前記音声信号における局部信号パワーレベルを確定する工程、
    前記局部信号パワーレベルが所定の閾値パワーレベル未満である無音期間を確定する工程、
    (1)前記局部信号パワーレベルが前記所定の閾値パワーレベル未満に下がり且つ前記無音期間が開始する頃或いはその前の信号パワー降下率、及び
    (2)前記無音期間の少なくとも一部分の間における局部信号パワー偏差
    二つのパラメータのうち少なくとも一方を確定する工程、及び
    無音期間が第1範囲内にあり、且つ(1)信号パワー降下率及び(2)局部信号パワー偏差の前記二つのパラメータのうちのなくとも一方が対応する更なる範囲内にあるときに前記無音を検出する工程
    を有することを特徴とする方法。
  2. 前記無音の開始時間、前記無音の期間、及び局部信号パワーレベルは、連続する前記無音間のコンテンツがコマーシャルであるか否かを判断するために後続の統計モデルで用いられることを特徴とする請求項1記載の方法。
  3. 前記音声信号は複数の量子化サンプルのブロックを含み、前記ブロックはスケールファクタの集合を含み、
    当該方法は、
    前記音声信号から前記スケールファクタの集合を抽出する工程、及び
    前記スケールファクタの組み合わせに基づいて前記ブロックにおける信号パワーを推定する工程
    を有することを特徴とする請求項1又は2記載の方法。
  4. 前記抽出工程及び推定工程は前記スケールファクタの集合の部分集合に対してのみ実行されることを特徴とする請求項3記載の方法。
  5. 前記音声信号は複数の狭周波数帯サブ信号を含み、各狭周波数帯サブ信号は複数の量子化サンプルを有し1以上のスケールファクタが与えられ、
    前記抽出工程は1以上の前記狭周波数帯サブ信号に対して実行されることを特徴とする請求項3又は4記載の方法。
  6. 前記抽出工程は前記複数の狭周波数帯サブ信号の部分集合に対してのみ実行されることを特徴とする請求項5記載の方法。
  7. 前記複数の狭周波数帯サブ信号の部分集合は主に低周波数サブ信号のスケールファクタを含むことを特徴とする請求項6記載の方法。
  8. 前記狭周波数帯サブ信号は2以上のサブブロックに分割され、各サブブロックはスケールファクタが与えられ、
    各狭周波数帯サブ信号につき最大スケールファクタだけが抽出されて前記推定工程において用いられることを特徴とする請求項5乃至7のいずれか1項に記載の方法。
  9. 前記音声信号がステレオ信号又はマルチチャンネル信号であり、
    前記抽出工程は利用可能チャンネルの部分集合にのみ実行されることを特徴とする請求項1乃至8のいずれか1項に記載の方法。
  10. 音声信号において無音を検出するための無音検出器であって、
    前記音声信号における局部信号パワーレベルを確定する手段、
    前記局部信号パワーレベルが所定の閾値パワーレベル未満である無音期間を確定する手段、
    (1)前記局部信号パワーレベルが前記所定の閾値パワーレベル未満に下がり且つ前記無音期間が開始する頃或いはその前の信号パワー降下率、及び
    (2)前記無音期間の少なくとも一部分の間における局部信号パワー偏差
    二つのパラメータのうち少なくとも一方を確定する手段、及び
    無音期間が第1範囲内にあり、且つ(1)信号パワー降下率及び(2)局部信号パワー偏差の前記二つのパラメータのうちのなくとも一方が対応する更なる範囲内にあるときに前記無音を検出する手段
    を有することを特徴とする無音検出器。
  11. 音声信号を受信するための受信器であって、
    前記音声信号を取得するための入力
    前記音声信号において無音を検出するための請求項10記載の無音検出器、及び
    少なくとも部分的には前記無音の検出に基づいて前記音声信号を変更する手段
    を有することを特徴とする受信器。
JP2002590554A 2001-05-11 2002-05-10 無音検出 Expired - Fee Related JP4560269B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP01201730 2001-05-11
PCT/IB2002/001639 WO2002093801A2 (en) 2001-05-11 2002-05-10 Silence detection

Publications (2)

Publication Number Publication Date
JP2004531766A JP2004531766A (ja) 2004-10-14
JP4560269B2 true JP4560269B2 (ja) 2010-10-13

Family

ID=8180284

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2002590144A Expired - Fee Related JP4365103B2 (ja) 2001-05-11 2002-05-08 圧縮オーディオにおける信号電力の推定
JP2002590554A Expired - Fee Related JP4560269B2 (ja) 2001-05-11 2002-05-10 無音検出

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2002590144A Expired - Fee Related JP4365103B2 (ja) 2001-05-11 2002-05-08 圧縮オーディオにおける信号電力の推定

Country Status (8)

Country Link
US (2) US7356464B2 (ja)
EP (2) EP1393301B1 (ja)
JP (2) JP4365103B2 (ja)
KR (2) KR100916959B1 (ja)
CN (3) CN100380441C (ja)
AT (1) ATE438968T1 (ja)
DE (2) DE60217484T2 (ja)
WO (2) WO2002093552A1 (ja)

Families Citing this family (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1423847B1 (en) 2001-11-29 2005-02-02 Coding Technologies AB Reconstruction of high frequency components
SE0202770D0 (sv) 2002-09-18 2002-09-18 Coding Technologies Sweden Ab Method for reduction of aliasing introduces by spectral envelope adjustment in real-valued filterbanks
US7116716B2 (en) * 2002-11-01 2006-10-03 Microsoft Corporation Systems and methods for generating a motion attention model
US20040088723A1 (en) * 2002-11-01 2004-05-06 Yu-Fei Ma Systems and methods for generating a video summary
US7260261B2 (en) * 2003-02-20 2007-08-21 Microsoft Corporation Systems and methods for enhanced image adaptation
EP1531478A1 (en) * 2003-11-12 2005-05-18 Sony International (Europe) GmbH Apparatus and method for classifying an audio signal
WO2005098818A1 (ja) * 2004-04-06 2005-10-20 Matsushita Electric Industrial Co., Ltd. 特定番組検出装置及び方法並びにプログラム
CN1934650A (zh) * 2004-06-18 2007-03-21 松下电器产业株式会社 Av内容处理设备、av内容处理方法、av内容处理程序及av处理设备中使用的集成电路
US9053754B2 (en) 2004-07-28 2015-06-09 Microsoft Technology Licensing, Llc Thumbnail generation and presentation for recorded TV programs
US7986372B2 (en) * 2004-08-02 2011-07-26 Microsoft Corporation Systems and methods for smart media content thumbnail extraction
EP1954042A4 (en) * 2005-09-30 2009-11-11 Pioneer Corp OUT-OF-PROGRAM MATERIAL SCENE EXTRACTION DEVICE AND COMPUTER PROGRAM
US20070112811A1 (en) * 2005-10-20 2007-05-17 Microsoft Corporation Architecture for scalable video coding applications
US7773813B2 (en) 2005-10-31 2010-08-10 Microsoft Corporation Capture-intention detection for video content analysis
US8180826B2 (en) * 2005-10-31 2012-05-15 Microsoft Corporation Media sharing and authoring on the web
US8196032B2 (en) * 2005-11-01 2012-06-05 Microsoft Corporation Template-based multimedia authoring and sharing
US7599918B2 (en) 2005-12-29 2009-10-06 Microsoft Corporation Dynamic search with implicit user intention mining
JP4698453B2 (ja) * 2006-02-28 2011-06-08 三洋電機株式会社 コマーシャル検出装置、映像再生装置
TWI312981B (en) * 2006-11-30 2009-08-01 Inst Information Industr Voice detection apparatus, method, computer program product, and computer readable medium for adjusting a window size dynamically
GB2482444B (en) * 2007-03-30 2012-08-01 Wolfson Microelectronics Plc Pattern detection circuitry
GB2447985B (en) 2007-03-30 2011-12-28 Wolfson Microelectronics Plc Pattern detection circuitry
US8081313B2 (en) * 2007-05-24 2011-12-20 Airbus Operations Limited Method and apparatus for monitoring gas concentration in a fluid
JP2008009442A (ja) * 2007-07-23 2008-01-17 Video Research:Kk 音声データ処理方法
CN101393744B (zh) * 2007-09-19 2011-09-14 华为技术有限公司 调整声音激活检测门限值的方法及装置
KR20100006492A (ko) 2008-07-09 2010-01-19 삼성전자주식회사 부호화 방식 결정 방법 및 장치
GB0813715D0 (en) * 2008-07-28 2008-09-03 Airbus Uk Ltd A monitor and a method for measuring oxygen concentration
PA8847501A1 (es) * 2008-11-03 2010-06-28 Telefonica Sa Metodo y sistema de identificacion en tiempo real de un anuncio audiovisual en un flujo de datos
WO2010103422A2 (en) 2009-03-10 2010-09-16 Koninklijke Philips Electronics N.V. Apparatus and method for rendering content
US20100319015A1 (en) * 2009-06-15 2010-12-16 Richard Anthony Remington Method and system for removing advertising content from television or radio content
US8606569B2 (en) * 2009-07-02 2013-12-10 Alon Konchitsky Automatic determination of multimedia and voice signals
US8340964B2 (en) * 2009-07-02 2012-12-25 Alon Konchitsky Speech and music discriminator for multi-media application
US10116902B2 (en) * 2010-02-26 2018-10-30 Comcast Cable Communications, Llc Program segmentation of linear transmission
JP5874344B2 (ja) * 2010-11-24 2016-03-02 株式会社Jvcケンウッド 音声判定装置、音声判定方法、および音声判定プログラム
FI20145493A (fi) 2014-05-28 2015-11-29 Exaget Oy Sisällön lisääminen mediavirtaan
CN105741835B (zh) * 2016-03-18 2019-04-16 腾讯科技(深圳)有限公司 一种音频信息处理方法及终端
CN108665657B (zh) * 2017-03-30 2019-12-10 国基电子(上海)有限公司 传感器及应用该传感器的监控***
CN107424620B (zh) * 2017-07-27 2020-12-01 苏州科达科技股份有限公司 一种音频解码方法和装置
CN116417015B (zh) * 2023-04-03 2023-09-12 广州市迪士普音响科技有限公司 一种压缩音频的静默检测方法及装置

Family Cites Families (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3370423D1 (en) * 1983-06-07 1987-04-23 Ibm Process for activity detection in a voice transmission system
US4696039A (en) * 1983-10-13 1987-09-22 Texas Instruments Incorporated Speech analysis/synthesis system with silence suppression
JPS63118197A (ja) * 1986-11-06 1988-05-23 松下電器産業株式会社 音声検出装置
JPH0636158B2 (ja) * 1986-12-04 1994-05-11 沖電気工業株式会社 音声分析合成方法及び装置
JPH03253899A (ja) * 1990-03-05 1991-11-12 Ricoh Co Ltd 音声区間検出方式
JPH0666738B2 (ja) * 1990-04-06 1994-08-24 株式会社ビデオ・リサーチ Cm自動確認装置
WO1996003271A1 (fr) 1993-01-25 1996-02-08 Jean Alphonse David Procede de fabrication de caissons a parois multicellulaires en materiaux composites thermodurcissables realises par enroulement filamentaire
US5334947A (en) * 1993-07-06 1994-08-02 Aphex Systems, Ltd. Logic enhanced noise gate
JPH07225593A (ja) * 1994-02-10 1995-08-22 Fuji Xerox Co Ltd 音処理装置
JPH0854895A (ja) * 1994-08-11 1996-02-27 Matsushita Electric Ind Co Ltd 再生装置
JPH08237135A (ja) * 1994-10-28 1996-09-13 Nippon Steel Corp 符号化データ復号装置およびそれを用いた画像オーディオ多重化データ復号装置
KR0171840B1 (ko) * 1995-02-04 1999-04-15 김광호 스케일 팩터 분리회로
AU5663296A (en) * 1995-04-10 1996-10-30 Corporate Computer Systems, Inc. System for compression and decompression of audio signals fo r digital transmission
JPH09152894A (ja) * 1995-11-30 1997-06-10 Denso Corp 有音無音判別器
US5890109A (en) * 1996-03-28 1999-03-30 Intel Corporation Re-initializing adaptive parameters for encoding audio signals
GB9606680D0 (en) * 1996-03-29 1996-06-05 Philips Electronics Nv Compressed audio signal processing
JPH1055150A (ja) * 1996-08-12 1998-02-24 Syst Works:Kk 音声割り込み方法及びその装置
CN1189664A (zh) * 1997-01-29 1998-08-05 合泰半导体股份有限公司 语音编码的子音识别方法
EP0867856B1 (fr) * 1997-03-25 2005-10-26 Koninklijke Philips Electronics N.V. "Méthode et dispositif de detection d'activité vocale"
WO1998049673A1 (fr) * 1997-04-30 1998-11-05 Nippon Hoso Kyokai Procede et dispositif destines a detecter des parties vocales, procede de conversion du debit de parole et dispositif utilisant ce procede et ce dispositif
US6324188B1 (en) * 1997-06-12 2001-11-27 Sharp Kabushiki Kaisha Voice and data multiplexing system and recording medium having a voice and data multiplexing program recorded thereon
JP2000029486A (ja) * 1998-07-09 2000-01-28 Hitachi Ltd 音声認識システムおよび方法
US6801895B1 (en) * 1998-12-07 2004-10-05 At&T Corp. Method and apparatus for segmenting a multi-media program based upon audio events
CN1094280C (zh) * 1998-08-17 2002-11-13 英业达股份有限公司 网络电话中的静音检测方法
JP2000165806A (ja) 1998-11-30 2000-06-16 Sony Corp 情報処理装置および方法、並びに提供媒体
JP2000172283A (ja) * 1998-12-01 2000-06-23 Nec Corp 有音検出方式及び方法
JP2000214872A (ja) * 1999-01-20 2000-08-04 Matsushita Electric Ind Co Ltd 音声検出装置
GB9912577D0 (en) * 1999-05-28 1999-07-28 Mitel Corp Method of detecting silence in a packetized voice stream
JP4287545B2 (ja) * 1999-07-26 2009-07-01 パナソニック株式会社 サブバンド符号化方式
US6658027B1 (en) * 1999-08-16 2003-12-02 Nortel Networks Limited Jitter buffer management
JP3697967B2 (ja) * 1999-09-22 2005-09-21 松下電器産業株式会社 オーディオ送信装置及びオーディオ受信装置
EP1087557A3 (en) 1999-09-22 2005-01-19 Matsushita Electric Industrial Co., Ltd. Apparatus for transmitting digital audio data and receiving apparatus for receiving the digital audio data
US6993245B1 (en) * 1999-11-18 2006-01-31 Vulcan Patents Llc Iterative, maximally probable, batch-mode commercial detection for audiovisual content
JP4300697B2 (ja) * 2000-04-24 2009-07-22 ソニー株式会社 信号処理装置及び方法
JP2001344905A (ja) * 2000-05-26 2001-12-14 Fujitsu Ltd データ再生装置、その方法及び記録媒体

Also Published As

Publication number Publication date
KR20030027938A (ko) 2003-04-07
EP1393301A1 (en) 2004-03-03
KR100916959B1 (ko) 2009-09-14
CN1462427A (zh) 2003-12-17
CN1462426A (zh) 2003-12-17
DE60233223D1 (de) 2009-09-17
CN100380441C (zh) 2008-04-09
CN1244900C (zh) 2006-03-08
JP2004531766A (ja) 2004-10-14
EP1393480B1 (en) 2009-08-05
JP4365103B2 (ja) 2009-11-18
US20040125961A1 (en) 2004-07-01
EP1393301B1 (en) 2007-01-10
EP1393480A2 (en) 2004-03-03
JP2004520627A (ja) 2004-07-08
KR20030015385A (ko) 2003-02-20
CN100348034C (zh) 2007-11-07
WO2002093801A2 (en) 2002-11-21
US20040138880A1 (en) 2004-07-15
CN1612607A (zh) 2005-05-04
US7356464B2 (en) 2008-04-08
WO2002093801A3 (en) 2003-01-30
WO2002093552A1 (en) 2002-11-21
DE60217484D1 (de) 2007-02-22
DE60217484T2 (de) 2007-10-25
US7617095B2 (en) 2009-11-10
ATE438968T1 (de) 2009-08-15

Similar Documents

Publication Publication Date Title
JP4560269B2 (ja) 無音検出
US7050980B2 (en) System and method for compressed domain beat detection in audio bitstreams
US8620644B2 (en) Encoder-assisted frame loss concealment techniques for audio coding
US7680655B2 (en) Method and apparatus for measuring the quality of speech transmissions that use speech compression
US20060031075A1 (en) Method and apparatus to recover a high frequency component of audio data
US20090279840A1 (en) Image Digesting Apparatus
US6680753B2 (en) Method and apparatus for skipping and repeating audio frames
JP2008511844A (ja) 音声信号を安定して分類する装置および方法、音声信号データベースを構築して動作させる方法、およびコンピュータプログラム
MXPA05002290A (es) Control de la sonoridad de la voz en senales que contienen voz y otros tipos de material de audio.
EP1672618A1 (en) Method for deciding time boundary for encoding spectrum envelope and frequency resolution
US20140257824A1 (en) Apparatus and a method for encoding an input signal
KR20010021226A (ko) 디지털 음향 신호 부호화 장치, 디지털 음향 신호 부호화방법 및 디지털 음향 신호 부호화 프로그램을 기록한 매체
US6772111B2 (en) Digital audio coding apparatus, method and computer readable medium
JP5395250B2 (ja) 音声コーデックの品質向上装置およびその方法
US8060362B2 (en) Noise detection for audio encoding by mean and variance energy ratio
Pfeiffer et al. Formalisation of MPEG-1 compressed domain audio features
MXPA06003935A (es) Metodos y aparato para extraer codigos de una pluralidad de canales.
US20040133420A1 (en) Method of analysing a compressed signal for the presence or absence of information content
Fernández et al. Monitoring of audio visual quality by key indicators: Detection of selected audio and audiovisual artefacts
EP0986047A2 (en) Audio encoding system
US11315580B2 (en) Audio decoder supporting a set of different loss concealment tools
JP2006157789A (ja) 音声障害検出装置
Gardlo Subjective audiovisual quality in mobile environment

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050506

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20081104

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20090128

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20090204

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090430

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090811

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20091106

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20100119

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100519

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20100602

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100629

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100726

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130730

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees