JP4560269B2 - 無音検出 - Google Patents
無音検出 Download PDFInfo
- Publication number
- JP4560269B2 JP4560269B2 JP2002590554A JP2002590554A JP4560269B2 JP 4560269 B2 JP4560269 B2 JP 4560269B2 JP 2002590554 A JP2002590554 A JP 2002590554A JP 2002590554 A JP2002590554 A JP 2002590554A JP 4560269 B2 JP4560269 B2 JP 4560269B2
- Authority
- JP
- Japan
- Prior art keywords
- silence
- signal power
- signal
- audio signal
- power level
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 34
- 230000005236 sound signal Effects 0.000 claims description 35
- 238000000034 method Methods 0.000 claims description 24
- 238000013179 statistical model Methods 0.000 claims description 9
- 230000003044 adaptive effect Effects 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 5
- 230000008859 change Effects 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 230000006837 decompression Effects 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000011425 standardization method Methods 0.000 description 2
- 230000001960 triggered effect Effects 0.000 description 2
- 238000007792 addition Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 239000000344 soap Substances 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 239000011232 storage material Substances 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04H—BROADCAST COMMUNICATION
- H04H60/00—Arrangements for broadcast applications with a direct linking to broadcast information or broadcast space-time; Broadcast-related systems
- H04H60/56—Arrangements characterised by components specially adapted for monitoring, identification or recognition covered by groups H04H60/29-H04H60/54
- H04H60/58—Arrangements characterised by components specially adapted for monitoring, identification or recognition covered by groups H04H60/29-H04H60/54 of audio
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/21—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/41—Structure of client; Structure of client peripherals
- H04N21/426—Internal components of the client ; Characteristics thereof
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/439—Processing of audio elementary streams
- H04N21/4394—Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/44—Receiver circuitry for the reception of television signals according to analogue transmission standards
- H04N5/60—Receiver circuitry for the reception of television signals according to analogue transmission standards for the sound signals
- H04N5/602—Receiver circuitry for the reception of television signals according to analogue transmission standards for the sound signals for digital sound signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0204—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/81—Monomedia components thereof
- H04N21/812—Monomedia components thereof involving advertisement data
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Stereo-Broadcasting Methods (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Mobile Radio Communication Systems (AREA)
- Television Systems (AREA)
- Air Bags (AREA)
- Control Of Stepping Motors (AREA)
- Amplifiers (AREA)
- Reduction Or Emphasis Of Bandwidth Of Signals (AREA)
- Tone Control, Compression And Expansion, Limiting Amplitude (AREA)
- Signal Processing Not Specific To The Method Of Recording And Reproducing (AREA)
- Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
- Signal Processing For Digital Recording And Reproducing (AREA)
Description
本発明は音声信号における無音を検出する技術に関し、特にこのような無音検出をコマーシャル検出に用いるための技術に関する。
EP1006685A2は、テレビ信号の処理方法及び装置、並びにテレビ信号におけるコマーシャルの有無を検出する方法及び装置を開示する。ここでは、まずコマーシャル候補部分検出器が静粛部分及びシーン転換点に基づいてコマーシャル候補部分を検出する。そしてコマーシャル特性量検出器が検出されたコマーシャル候補部分がコマーシャルの種々の特性を有するかを判断し、この判断結果に基づいてコマーシャル特性値に所定の値を加算する。さらにコマーシャル特性量検出器は最終的なコマーシャル特性値と所定の閾値とを比較し、この比較結果に基づいてこのコマーシャル候補部分がコマーシャル部分であるか否かを判断する。また、静粛部分検出器はデジタル音声信号レベルと閾値とを比較して、静粛部分を検出するとともにこの比較結果をシーン転換検出器に出力する。また、EP1087557A2においても本発明の背景技術が開示される。
本発明は優良な無音検出技術を提供することを目的とする。この目的を達成するために本発明は独立請求項に記載される無音検出方法、無音検出器、及び受信器を提供する。さらに、本発明の好ましい実施形態は従属請求項に記載される。
図1は本発明の一実施形態による圧縮音声信号〔A〕を受信する受信器1を示す。受信器1は、圧縮音声信号〔A〕を取得するための入力10を有する。この入力10は、例えばアンテナ、ネットワーク接続、読み取りデバイスなどに相当する。受信器1はさらに圧縮音声信号における無音を検出するための無音検出器11、及び無音の検出によって音声信号を影響する影響部12を有する。影響部12は例えば圧縮音声信号を復号するための復号器に相当し、この信号の復号は検出される無音によって左右される。あるいは影響部12は、検出された無音によって圧縮音声信の部分々々をとばすスキッピング・ブロックであってもよい。無音検出器11はコマーシャル検出器に拡張されることも可能である。そして復号処理の間に検出されたコマーシャルをとばすことが可能である。影響された音声信号〔A〕は、復号された状態あるいは圧縮されたままの状態で出力13に出力される。この出力13は例えばネットワーク接続、再生装置、あるいは録音装置などであってよい。圧縮音声信号〔A〕は、例えばビデオ信号をさらに含んでいるプログラム・ストリームなどに含まれてよい。この場合、このプログラム信号は影響部12において、少なからず圧縮音声信号〔A〕において検出される無音によって影響されうる。この実施形態の好適な適用例としては、コマーシャルなしのコンテンツだけを記憶する記憶装置などがある。
(1)これらの総和は短時間パワー全体に対する上限を示す
(2)これらは短時間周波数帯域幅推定値を計算するために用いられることができる
以下に示される図表はMPEG−1レイヤ2における擬似対数インデックスに対応するスケールファクタのいくつかの例を示す(ISO/IEC,TableB.1:1993参照)。
無音検出は以下の値に対するネスト化された閾値に基づく。
(1)局部信号パワーレベル(例えば上記のFrame_power)
(2)無音期間、及び少なくとも以下のうちの1つ
(3)無音期間中の局部パワー線形偏差
(4)無音開始前の局部パワー降下率
(5)無音終止時点における局部パワー上昇率
信号パワー特性は無音検出器が作動する環境によって大きく変化しうるため、無音検出器は好ましくは適応型のものである。したがって例えば上記の(1)、(3)、及び/又は(4)などのような局部パワーレベルに関連するパラメータはそれぞれの時間平均値と比較される。局部信号パワーに対する典型的な閾値は0.01であり、これはすなわち局部信号パワーが、信号パワーの時間平均の1パーセント未満にとどまるべきであることを意味する。時間平均は長さwのフレームを有する適応ウィンドウを用いることにより計算される。以下には、この時間平均を実際に求めるための公式を示す。
(1)連続して検出された2つの無音間の時間距離
(2)検出された無音の局部信号パワーレベル(絶対及び/又は相対)
(3)無音期間
(4)音声信号の局部帯域幅
音声フレームjの局部帯域幅は、スケールファクタを用いて以下の公式によって求めることができる。
L(t)>0.5の場合、Q(L(t))=1
L(t)≦0.5の場合、Q(L(t))=0
ここで0は検出された無音が非コマーシャル部分に属することを意味し、1は検出された無音がコマーシャル部分に属することを意味する。
ti,ti+1,...,ti+N,...を無音が開始する一連の時点とし、
L(ti)=0.2
L(ti+1)=0.4
L(ti+2)=0.6
L(tj)>0.5(j=i+3,...,i+N)
L(tj)<0.5(j>i+N)
ti+2−ti+1<45.0sec
ti+N+1−ti+N<45.0sec
とすると、
Q(L(ti))=0
Q(L(ti+1))=1
Q(L(ti+2))=1
...
Q(L(ti+N+1))=1
Q(L(tj))=0(j>i+N+1)
となる。
〈変形例〉
(1)上記の例よりも多くのスケールファクタをバッファリングすることも可能である。また、これらをサブサンプルすることも可能である。上記の効果的実施形態においては、96ある左チャンネルのスケールファクタのうち32のスケールファクタが選択される。
(2)上記の例で用いられる音声特性の集合とは異なる音声特性を選択することも可能である。もちろん他の特性を導入する際は十分な検討が必要である。
(3)上述のように、様々な標準化方法と、1つ或いはいくつかの尤度関数の組み合わせを適用することも可能である。上記実施形態は、積結合に基づく再標準化を適用する。この積は基本的にブール集合{0,1}から連続間隔〔0,1〕へ延びるブールANDに相当し、優良な選択性を保障する。和結合の和は一種のブールORの延長であり、これは十分な選択性を確保することができない。
(4)レフィリングによりグローバル尤度関数をトリガーする選択に変更を加え、例えば異なるウィンドウ様相及び/又は音声特性を用いることが可能である。
(5)スケールファクタを直接処理することにより例えば多くの放送局によってコマーシャル部分の始まり及び/又は終わりに通常配置される特定の音声シーケンスなどの認識を実現することも可能である。
送信側においては、切断無音が検出されやすくなるように調整を施し尤度関数を補助することができる。これは例えば切断無音の信号パワーを低くする、無音期間を調整する、信号パワー降下率を上昇させる、及び/又は無音期間中のパワー偏差を低下させることによって実現可能である。また、逆に信号パワーを増加させることによって切断無音を検出しにくくすることも可能である。これは例えばノイズを導入する、無音期間を調整する、信号パワー降下率を低下させる、及び/又は無音期間中のパワー偏差を上げることなどによって実現可能である。さらに信号に擬似切断無音を導入することも可能である。実用的な実施形態にとして、実際の切断無音と同様にパワーの低い0.15秒間の擬似切断無音を30秒間隔で挿入することによりコマーシャル部分の検出を妨げることができる。この擬似切断無音は、スピーチ無音などの既存無音に挿入されることが好ましい。この場合、一般ユーザーにとってはほとんど認知されない。
Claims (11)
- 音声信号において無音を検出する方法であって、
前記音声信号における局部信号パワーレベルを確定する工程、
前記局部信号パワーレベルが所定の閾値パワーレベル未満である無音期間を確定する工程、
(1)前記局部信号パワーレベルが前記所定の閾値パワーレベル未満に下がり且つ前記無音期間が開始する頃或いはその前の信号パワー降下率、及び
(2)前記無音期間の少なくとも一部分の間における局部信号パワー偏差
の二つのパラメータのうち少なくとも一方を確定する工程、及び
前記無音期間が第1範囲内にあり、且つ(1)信号パワー降下率及び(2)局部信号パワー偏差の前記二つのパラメータのうちの少なくとも一方が対応する更なる範囲内にあるときに前記無音を検出する工程、
を有することを特徴とする方法。 - 前記無音の開始時間、前記無音の期間、及び局部信号パワーレベルは、連続する前記無音間のコンテンツがコマーシャルであるか否かを判断するために後続の統計モデルで用いられることを特徴とする請求項1記載の方法。
- 前記音声信号は複数の量子化サンプルのブロックを含み、前記ブロックはスケールファクタの集合を含み、
当該方法は、
前記音声信号から前記スケールファクタの集合を抽出する工程、及び
前記スケールファクタの組み合わせに基づいて前記ブロックにおける信号パワーを推定する工程
を有することを特徴とする請求項1又は2記載の方法。 - 前記抽出工程及び推定工程は前記スケールファクタの集合の部分集合に対してのみ実行されることを特徴とする請求項3記載の方法。
- 前記音声信号は複数の狭周波数帯サブ信号を含み、各狭周波数帯サブ信号は複数の量子化サンプルを有し1以上のスケールファクタが与えられ、
前記抽出工程は1以上の前記狭周波数帯サブ信号に対して実行されることを特徴とする請求項3又は4記載の方法。 - 前記抽出工程は前記複数の狭周波数帯サブ信号の部分集合に対してのみ実行されることを特徴とする請求項5記載の方法。
- 前記複数の狭周波数帯サブ信号の部分集合は主に低周波数サブ信号のスケールファクタを含むことを特徴とする請求項6記載の方法。
- 前記狭周波数帯サブ信号は2以上のサブブロックに分割され、各サブブロックはスケールファクタが与えられ、
各狭周波数帯サブ信号につき最大スケールファクタだけが抽出されて前記推定工程において用いられることを特徴とする請求項5乃至7のいずれか1項に記載の方法。 - 前記音声信号がステレオ信号又はマルチチャンネル信号であり、
前記抽出工程は利用可能チャンネルの部分集合にのみ実行されることを特徴とする請求項1乃至8のいずれか1項に記載の方法。 - 音声信号において無音を検出するための無音検出器であって、
前記音声信号における局部信号パワーレベルを確定する手段、
前記局部信号パワーレベルが所定の閾値パワーレベル未満である無音期間を確定する手段、
(1)前記局部信号パワーレベルが前記所定の閾値パワーレベル未満に下がり且つ前記無音期間が開始する頃或いはその前の信号パワー降下率、及び
(2)前記無音期間の少なくとも一部分の間における局部信号パワー偏差
の二つのパラメータのうち少なくとも一方を確定する手段、及び
前記無音期間が第1範囲内にあり、且つ(1)信号パワー降下率及び(2)局部信号パワー偏差の前記二つのパラメータのうちの少なくとも一方が対応する更なる範囲内にあるときに前記無音を検出する手段、
を有することを特徴とする無音検出器。 - 音声信号を受信するための受信器であって、
前記音声信号を取得するための入力
前記音声信号において無音を検出するための請求項10記載の無音検出器、及び
少なくとも部分的には前記無音の検出に基づいて前記音声信号を変更する手段
を有することを特徴とする受信器。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP01201730 | 2001-05-11 | ||
PCT/IB2002/001639 WO2002093801A2 (en) | 2001-05-11 | 2002-05-10 | Silence detection |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2004531766A JP2004531766A (ja) | 2004-10-14 |
JP4560269B2 true JP4560269B2 (ja) | 2010-10-13 |
Family
ID=8180284
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002590144A Expired - Fee Related JP4365103B2 (ja) | 2001-05-11 | 2002-05-08 | 圧縮オーディオにおける信号電力の推定 |
JP2002590554A Expired - Fee Related JP4560269B2 (ja) | 2001-05-11 | 2002-05-10 | 無音検出 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002590144A Expired - Fee Related JP4365103B2 (ja) | 2001-05-11 | 2002-05-08 | 圧縮オーディオにおける信号電力の推定 |
Country Status (8)
Country | Link |
---|---|
US (2) | US7356464B2 (ja) |
EP (2) | EP1393301B1 (ja) |
JP (2) | JP4365103B2 (ja) |
KR (2) | KR100916959B1 (ja) |
CN (3) | CN100380441C (ja) |
AT (1) | ATE438968T1 (ja) |
DE (2) | DE60217484T2 (ja) |
WO (2) | WO2002093552A1 (ja) |
Families Citing this family (37)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1423847B1 (en) | 2001-11-29 | 2005-02-02 | Coding Technologies AB | Reconstruction of high frequency components |
SE0202770D0 (sv) | 2002-09-18 | 2002-09-18 | Coding Technologies Sweden Ab | Method for reduction of aliasing introduces by spectral envelope adjustment in real-valued filterbanks |
US7116716B2 (en) * | 2002-11-01 | 2006-10-03 | Microsoft Corporation | Systems and methods for generating a motion attention model |
US20040088723A1 (en) * | 2002-11-01 | 2004-05-06 | Yu-Fei Ma | Systems and methods for generating a video summary |
US7260261B2 (en) * | 2003-02-20 | 2007-08-21 | Microsoft Corporation | Systems and methods for enhanced image adaptation |
EP1531478A1 (en) * | 2003-11-12 | 2005-05-18 | Sony International (Europe) GmbH | Apparatus and method for classifying an audio signal |
WO2005098818A1 (ja) * | 2004-04-06 | 2005-10-20 | Matsushita Electric Industrial Co., Ltd. | 特定番組検出装置及び方法並びにプログラム |
CN1934650A (zh) * | 2004-06-18 | 2007-03-21 | 松下电器产业株式会社 | Av内容处理设备、av内容处理方法、av内容处理程序及av处理设备中使用的集成电路 |
US9053754B2 (en) | 2004-07-28 | 2015-06-09 | Microsoft Technology Licensing, Llc | Thumbnail generation and presentation for recorded TV programs |
US7986372B2 (en) * | 2004-08-02 | 2011-07-26 | Microsoft Corporation | Systems and methods for smart media content thumbnail extraction |
EP1954042A4 (en) * | 2005-09-30 | 2009-11-11 | Pioneer Corp | OUT-OF-PROGRAM MATERIAL SCENE EXTRACTION DEVICE AND COMPUTER PROGRAM |
US20070112811A1 (en) * | 2005-10-20 | 2007-05-17 | Microsoft Corporation | Architecture for scalable video coding applications |
US7773813B2 (en) | 2005-10-31 | 2010-08-10 | Microsoft Corporation | Capture-intention detection for video content analysis |
US8180826B2 (en) * | 2005-10-31 | 2012-05-15 | Microsoft Corporation | Media sharing and authoring on the web |
US8196032B2 (en) * | 2005-11-01 | 2012-06-05 | Microsoft Corporation | Template-based multimedia authoring and sharing |
US7599918B2 (en) | 2005-12-29 | 2009-10-06 | Microsoft Corporation | Dynamic search with implicit user intention mining |
JP4698453B2 (ja) * | 2006-02-28 | 2011-06-08 | 三洋電機株式会社 | コマーシャル検出装置、映像再生装置 |
TWI312981B (en) * | 2006-11-30 | 2009-08-01 | Inst Information Industr | Voice detection apparatus, method, computer program product, and computer readable medium for adjusting a window size dynamically |
GB2482444B (en) * | 2007-03-30 | 2012-08-01 | Wolfson Microelectronics Plc | Pattern detection circuitry |
GB2447985B (en) | 2007-03-30 | 2011-12-28 | Wolfson Microelectronics Plc | Pattern detection circuitry |
US8081313B2 (en) * | 2007-05-24 | 2011-12-20 | Airbus Operations Limited | Method and apparatus for monitoring gas concentration in a fluid |
JP2008009442A (ja) * | 2007-07-23 | 2008-01-17 | Video Research:Kk | 音声データ処理方法 |
CN101393744B (zh) * | 2007-09-19 | 2011-09-14 | 华为技术有限公司 | 调整声音激活检测门限值的方法及装置 |
KR20100006492A (ko) | 2008-07-09 | 2010-01-19 | 삼성전자주식회사 | 부호화 방식 결정 방법 및 장치 |
GB0813715D0 (en) * | 2008-07-28 | 2008-09-03 | Airbus Uk Ltd | A monitor and a method for measuring oxygen concentration |
PA8847501A1 (es) * | 2008-11-03 | 2010-06-28 | Telefonica Sa | Metodo y sistema de identificacion en tiempo real de un anuncio audiovisual en un flujo de datos |
WO2010103422A2 (en) | 2009-03-10 | 2010-09-16 | Koninklijke Philips Electronics N.V. | Apparatus and method for rendering content |
US20100319015A1 (en) * | 2009-06-15 | 2010-12-16 | Richard Anthony Remington | Method and system for removing advertising content from television or radio content |
US8606569B2 (en) * | 2009-07-02 | 2013-12-10 | Alon Konchitsky | Automatic determination of multimedia and voice signals |
US8340964B2 (en) * | 2009-07-02 | 2012-12-25 | Alon Konchitsky | Speech and music discriminator for multi-media application |
US10116902B2 (en) * | 2010-02-26 | 2018-10-30 | Comcast Cable Communications, Llc | Program segmentation of linear transmission |
JP5874344B2 (ja) * | 2010-11-24 | 2016-03-02 | 株式会社Jvcケンウッド | 音声判定装置、音声判定方法、および音声判定プログラム |
FI20145493A (fi) | 2014-05-28 | 2015-11-29 | Exaget Oy | Sisällön lisääminen mediavirtaan |
CN105741835B (zh) * | 2016-03-18 | 2019-04-16 | 腾讯科技(深圳)有限公司 | 一种音频信息处理方法及终端 |
CN108665657B (zh) * | 2017-03-30 | 2019-12-10 | 国基电子(上海)有限公司 | 传感器及应用该传感器的监控*** |
CN107424620B (zh) * | 2017-07-27 | 2020-12-01 | 苏州科达科技股份有限公司 | 一种音频解码方法和装置 |
CN116417015B (zh) * | 2023-04-03 | 2023-09-12 | 广州市迪士普音响科技有限公司 | 一种压缩音频的静默检测方法及装置 |
Family Cites Families (35)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE3370423D1 (en) * | 1983-06-07 | 1987-04-23 | Ibm | Process for activity detection in a voice transmission system |
US4696039A (en) * | 1983-10-13 | 1987-09-22 | Texas Instruments Incorporated | Speech analysis/synthesis system with silence suppression |
JPS63118197A (ja) * | 1986-11-06 | 1988-05-23 | 松下電器産業株式会社 | 音声検出装置 |
JPH0636158B2 (ja) * | 1986-12-04 | 1994-05-11 | 沖電気工業株式会社 | 音声分析合成方法及び装置 |
JPH03253899A (ja) * | 1990-03-05 | 1991-11-12 | Ricoh Co Ltd | 音声区間検出方式 |
JPH0666738B2 (ja) * | 1990-04-06 | 1994-08-24 | 株式会社ビデオ・リサーチ | Cm自動確認装置 |
WO1996003271A1 (fr) | 1993-01-25 | 1996-02-08 | Jean Alphonse David | Procede de fabrication de caissons a parois multicellulaires en materiaux composites thermodurcissables realises par enroulement filamentaire |
US5334947A (en) * | 1993-07-06 | 1994-08-02 | Aphex Systems, Ltd. | Logic enhanced noise gate |
JPH07225593A (ja) * | 1994-02-10 | 1995-08-22 | Fuji Xerox Co Ltd | 音処理装置 |
JPH0854895A (ja) * | 1994-08-11 | 1996-02-27 | Matsushita Electric Ind Co Ltd | 再生装置 |
JPH08237135A (ja) * | 1994-10-28 | 1996-09-13 | Nippon Steel Corp | 符号化データ復号装置およびそれを用いた画像オーディオ多重化データ復号装置 |
KR0171840B1 (ko) * | 1995-02-04 | 1999-04-15 | 김광호 | 스케일 팩터 분리회로 |
AU5663296A (en) * | 1995-04-10 | 1996-10-30 | Corporate Computer Systems, Inc. | System for compression and decompression of audio signals fo r digital transmission |
JPH09152894A (ja) * | 1995-11-30 | 1997-06-10 | Denso Corp | 有音無音判別器 |
US5890109A (en) * | 1996-03-28 | 1999-03-30 | Intel Corporation | Re-initializing adaptive parameters for encoding audio signals |
GB9606680D0 (en) * | 1996-03-29 | 1996-06-05 | Philips Electronics Nv | Compressed audio signal processing |
JPH1055150A (ja) * | 1996-08-12 | 1998-02-24 | Syst Works:Kk | 音声割り込み方法及びその装置 |
CN1189664A (zh) * | 1997-01-29 | 1998-08-05 | 合泰半导体股份有限公司 | 语音编码的子音识别方法 |
EP0867856B1 (fr) * | 1997-03-25 | 2005-10-26 | Koninklijke Philips Electronics N.V. | "Méthode et dispositif de detection d'activité vocale" |
WO1998049673A1 (fr) * | 1997-04-30 | 1998-11-05 | Nippon Hoso Kyokai | Procede et dispositif destines a detecter des parties vocales, procede de conversion du debit de parole et dispositif utilisant ce procede et ce dispositif |
US6324188B1 (en) * | 1997-06-12 | 2001-11-27 | Sharp Kabushiki Kaisha | Voice and data multiplexing system and recording medium having a voice and data multiplexing program recorded thereon |
JP2000029486A (ja) * | 1998-07-09 | 2000-01-28 | Hitachi Ltd | 音声認識システムおよび方法 |
US6801895B1 (en) * | 1998-12-07 | 2004-10-05 | At&T Corp. | Method and apparatus for segmenting a multi-media program based upon audio events |
CN1094280C (zh) * | 1998-08-17 | 2002-11-13 | 英业达股份有限公司 | 网络电话中的静音检测方法 |
JP2000165806A (ja) | 1998-11-30 | 2000-06-16 | Sony Corp | 情報処理装置および方法、並びに提供媒体 |
JP2000172283A (ja) * | 1998-12-01 | 2000-06-23 | Nec Corp | 有音検出方式及び方法 |
JP2000214872A (ja) * | 1999-01-20 | 2000-08-04 | Matsushita Electric Ind Co Ltd | 音声検出装置 |
GB9912577D0 (en) * | 1999-05-28 | 1999-07-28 | Mitel Corp | Method of detecting silence in a packetized voice stream |
JP4287545B2 (ja) * | 1999-07-26 | 2009-07-01 | パナソニック株式会社 | サブバンド符号化方式 |
US6658027B1 (en) * | 1999-08-16 | 2003-12-02 | Nortel Networks Limited | Jitter buffer management |
JP3697967B2 (ja) * | 1999-09-22 | 2005-09-21 | 松下電器産業株式会社 | オーディオ送信装置及びオーディオ受信装置 |
EP1087557A3 (en) | 1999-09-22 | 2005-01-19 | Matsushita Electric Industrial Co., Ltd. | Apparatus for transmitting digital audio data and receiving apparatus for receiving the digital audio data |
US6993245B1 (en) * | 1999-11-18 | 2006-01-31 | Vulcan Patents Llc | Iterative, maximally probable, batch-mode commercial detection for audiovisual content |
JP4300697B2 (ja) * | 2000-04-24 | 2009-07-22 | ソニー株式会社 | 信号処理装置及び方法 |
JP2001344905A (ja) * | 2000-05-26 | 2001-12-14 | Fujitsu Ltd | データ再生装置、その方法及び記録媒体 |
-
2002
- 2002-05-08 WO PCT/IB2002/001561 patent/WO2002093552A1/en active IP Right Grant
- 2002-05-08 CN CNB028015509A patent/CN100380441C/zh not_active Expired - Fee Related
- 2002-05-08 KR KR1020037000456A patent/KR100916959B1/ko active IP Right Grant
- 2002-05-08 JP JP2002590144A patent/JP4365103B2/ja not_active Expired - Fee Related
- 2002-05-08 DE DE60217484T patent/DE60217484T2/de not_active Expired - Lifetime
- 2002-05-08 EP EP02726366A patent/EP1393301B1/en not_active Expired - Lifetime
- 2002-05-08 US US10/476,965 patent/US7356464B2/en not_active Expired - Fee Related
- 2002-05-10 CN CNB028015444A patent/CN1244900C/zh not_active Expired - Fee Related
- 2002-05-10 WO PCT/IB2002/001639 patent/WO2002093801A2/en active Application Filing
- 2002-05-10 US US10/476,967 patent/US7617095B2/en not_active Expired - Fee Related
- 2002-05-10 DE DE60233223T patent/DE60233223D1/de not_active Expired - Lifetime
- 2002-05-10 AT AT02727889T patent/ATE438968T1/de not_active IP Right Cessation
- 2002-05-10 JP JP2002590554A patent/JP4560269B2/ja not_active Expired - Fee Related
- 2002-05-10 EP EP02727889A patent/EP1393480B1/en not_active Expired - Lifetime
- 2002-05-10 KR KR10-2003-7000454A patent/KR20030027938A/ko not_active Application Discontinuation
- 2002-05-10 CN CNB2004100956810A patent/CN100348034C/zh not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
KR20030027938A (ko) | 2003-04-07 |
EP1393301A1 (en) | 2004-03-03 |
KR100916959B1 (ko) | 2009-09-14 |
CN1462427A (zh) | 2003-12-17 |
CN1462426A (zh) | 2003-12-17 |
DE60233223D1 (de) | 2009-09-17 |
CN100380441C (zh) | 2008-04-09 |
CN1244900C (zh) | 2006-03-08 |
JP2004531766A (ja) | 2004-10-14 |
EP1393480B1 (en) | 2009-08-05 |
JP4365103B2 (ja) | 2009-11-18 |
US20040125961A1 (en) | 2004-07-01 |
EP1393301B1 (en) | 2007-01-10 |
EP1393480A2 (en) | 2004-03-03 |
JP2004520627A (ja) | 2004-07-08 |
KR20030015385A (ko) | 2003-02-20 |
CN100348034C (zh) | 2007-11-07 |
WO2002093801A2 (en) | 2002-11-21 |
US20040138880A1 (en) | 2004-07-15 |
CN1612607A (zh) | 2005-05-04 |
US7356464B2 (en) | 2008-04-08 |
WO2002093801A3 (en) | 2003-01-30 |
WO2002093552A1 (en) | 2002-11-21 |
DE60217484D1 (de) | 2007-02-22 |
DE60217484T2 (de) | 2007-10-25 |
US7617095B2 (en) | 2009-11-10 |
ATE438968T1 (de) | 2009-08-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4560269B2 (ja) | 無音検出 | |
US7050980B2 (en) | System and method for compressed domain beat detection in audio bitstreams | |
US8620644B2 (en) | Encoder-assisted frame loss concealment techniques for audio coding | |
US7680655B2 (en) | Method and apparatus for measuring the quality of speech transmissions that use speech compression | |
US20060031075A1 (en) | Method and apparatus to recover a high frequency component of audio data | |
US20090279840A1 (en) | Image Digesting Apparatus | |
US6680753B2 (en) | Method and apparatus for skipping and repeating audio frames | |
JP2008511844A (ja) | 音声信号を安定して分類する装置および方法、音声信号データベースを構築して動作させる方法、およびコンピュータプログラム | |
MXPA05002290A (es) | Control de la sonoridad de la voz en senales que contienen voz y otros tipos de material de audio. | |
EP1672618A1 (en) | Method for deciding time boundary for encoding spectrum envelope and frequency resolution | |
US20140257824A1 (en) | Apparatus and a method for encoding an input signal | |
KR20010021226A (ko) | 디지털 음향 신호 부호화 장치, 디지털 음향 신호 부호화방법 및 디지털 음향 신호 부호화 프로그램을 기록한 매체 | |
US6772111B2 (en) | Digital audio coding apparatus, method and computer readable medium | |
JP5395250B2 (ja) | 音声コーデックの品質向上装置およびその方法 | |
US8060362B2 (en) | Noise detection for audio encoding by mean and variance energy ratio | |
Pfeiffer et al. | Formalisation of MPEG-1 compressed domain audio features | |
MXPA06003935A (es) | Metodos y aparato para extraer codigos de una pluralidad de canales. | |
US20040133420A1 (en) | Method of analysing a compressed signal for the presence or absence of information content | |
Fernández et al. | Monitoring of audio visual quality by key indicators: Detection of selected audio and audiovisual artefacts | |
EP0986047A2 (en) | Audio encoding system | |
US11315580B2 (en) | Audio decoder supporting a set of different loss concealment tools | |
JP2006157789A (ja) | 音声障害検出装置 | |
Gardlo | Subjective audiovisual quality in mobile environment |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050506 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20081104 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20090128 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20090204 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090430 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090811 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20091106 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20100119 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100519 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20100602 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100629 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100726 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130730 Year of fee payment: 3 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |