JP4560269B2

JP4560269B2 - 無音検出

Info

Publication number: JP4560269B2
Application number: JP2002590554A
Authority: JP
Inventors: ステラ，アレシオ; アーデーネスファトバ，ヤン; バルビエリ，マウロ; スネイデル，フレディ
Original assignee: Koninklijke Philips NV; Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2001-05-11
Filing date: 2002-05-10
Publication date: 2010-10-13
Anticipated expiration: 2022-05-10
Also published as: KR20030027938A; EP1393301A1; KR100916959B1; CN1462427A; CN1462426A; DE60233223D1; CN100380441C; CN1244900C; JP2004531766A; EP1393480B1; JP4365103B2; US20040125961A1; EP1393301B1; EP1393480A2; JP2004520627A; KR20030015385A; CN100348034C; WO2002093801A2; US20040138880A1; CN1612607A

Description

発明の詳細な説明

（発明の開示）
本発明は音声信号における無音を検出する技術に関し、特にこのような無音検出をコマーシャル検出に用いるための技術に関する。

ＥＰ１００６６８５Ａ２は、テレビ信号の処理方法及び装置、並びにテレビ信号におけるコマーシャルの有無を検出する方法及び装置を開示する。ここでは、まずコマーシャル候補部分検出器が静粛部分及びシーン転換点に基づいてコマーシャル候補部分を検出する。そしてコマーシャル特性量検出器が検出されたコマーシャル候補部分がコマーシャルの種々の特性を有するかを判断し、この判断結果に基づいてコマーシャル特性値に所定の値を加算する。さらにコマーシャル特性量検出器は最終的なコマーシャル特性値と所定の閾値とを比較し、この比較結果に基づいてこのコマーシャル候補部分がコマーシャル部分であるか否かを判断する。また、静粛部分検出器はデジタル音声信号レベルと閾値とを比較して、静粛部分を検出するとともにこの比較結果をシーン転換検出器に出力する。また、ＥＰ１０８７５５７Ａ２においても本発明の背景技術が開示される。

本発明は優良な無音検出技術を提供することを目的とする。この目的を達成するために本発明は独立請求項に記載される無音検出方法、無音検出器、及び受信器を提供する。さらに、本発明の好ましい実施形態は従属請求項に記載される。

本発明の一様相によると、音声信号における局所信号パワーが所定の固定あるいは相対的閾値を下回り、この局所信号パワーが所定の固定あるいは相対的閾値を下回る期間が第一範囲内にあり、かつ信号パワー降下率及び局所パワー偏差のパラメータのうちの少なくとも１つが更なる範囲内にあるときに無音は検出される。信号パワー降下率は、局所信号パワーレベルが固定あるいは相対的閾値未満に下がる前あるいはその頃に確定され、局所信号パワー偏差は、局所信号パワーレベルが固定あるいは相対的閾値パワーレベル未満である期間のうちの少なくとも一部分において確定される。この偏差（線形偏差）及び／又は降下率は、知覚されるがコマーシャル検出とは無関係である無音の部分をフィルタリングするために用いられる。降下率の代わり、あるいはこれに加えて局所信号パワーレベルが固定あるいは相対的閾値を越える頃に確定される上昇率を用いることも可能である。

さらに好ましい実施形態において、無音開始時間、無音期間、及び局所信号パワーレベルは、一連続する無音間のコンテンツがコマーシャルであるか否かを判断するために後続の統計モデルで用いられる。ここでは無音検出において用いられるパラメータが、検出された一連の無音間のコンテンツがコマーシャルであるか否かを判断するために再利用される。

また、音声信号が複数の量子化サンプルを有するブロックから構成され、このブロックにスケールファクタの集合が備えられている場合、この圧縮音声信号からこのスケールファクタの集合を抽出し、このブロックにおける信号パワーをこれらのスケールファクタの組み合わせに基づいて推定することが好ましい。このブロックは音声フレームあるいは音声フレームの一部であってよい。このブロックのスケールファクタは圧縮音声信号から簡単に抽出することが可能である。この実施形態では、スケールファクタがこれに対応するサンプルの最大値を表すことを前提とする。そして例えばそれぞれのスケールファクタの二乗の総和などのスケールファクタの組み合わせにより信号パワーのおおよその推測値が低い演算負荷で得られる。コマーシャル検出などにおける無音検出などではこのようなおおよその推測値で十分である。さらに好ましくは、このスケールファクタの集合の部分集合だけを用いることも可能である。ここではスケールファクタの集合のすべてを用いるのではなくその部分集合だけを用いることにより、演算負荷をさらに低減することが可能である。これに伴い精度も低下しうるが、コマーシャル検出などのための無音検出においてこれは問題とはならない。このスケールファクタの部分集合は時間方向及び／又は周波数方向にスケールファクタを省いていくことにより形成されうる。例えばこの部分集合は圧縮音声信号において利用可能である複数の狭周波数帯サブ信号の部分集合を含むことができる。さらにこの部分集合は好ましくは低周波数サブ信号のスケールファクタを含む。また、この圧縮音声信号がステレオ信号又はマルチチャンネル信号である場合、利用可能なチャンネルの部分集合のみが用いられる。

なお、ＷＯ９６／３２７１Ａ１は、デジタル送信のための音声信号の圧縮／伸張システムを開示する。ここでは付属データが多重化され音声データとともに符号化され、復号が可能な状態で送信される。この文献の１５９ページにおいては、他チャンネルにおける音声の有無をみるための最小スケールファクタ値の計算方法が開示される。

本発明は更なる様相として、少なくとも音声信号を含むプログラムの送信方法及び装置を提供する。ここでは音声信号において相対的に低い信号パワーレベルを有する時間間隔が検出され、この時間間隔に更なる付加的な無音が導入される。この更なる付加的な無音は時間間隔よりも短く、時間間隔における音声信号の信号パワーよりも低い信号パワーを有する。低パワーの時間間隔において更なる付加的な無音を導入することによって無音検出を適用するコマーシャル検出器を制御するためのキューが送信されることとなる。また、低パワーの時間間隔において更なる付加的な無音を導入することは、高パワーの時間間隔において無音を導入するよりも可聴性が低いという利点がある。好ましくは、これらの無音は受信側の無音検出器の設定範囲内にとどまるパワー偏差レベル及びパワー降下／上昇率を有する。本発明はさらに信号及び記憶媒体をも提供する。

以下においてこれら本発明の様相及びその他の実施例を添付の図面を参照して説明する。

図１は本発明の一実施形態による圧縮音声信号〔Ａ〕を受信する受信器１を示す。受信器１は、圧縮音声信号〔Ａ〕を取得するための入力１０を有する。この入力１０は、例えばアンテナ、ネットワーク接続、読み取りデバイスなどに相当する。受信器１はさらに圧縮音声信号における無音を検出するための無音検出器１１、及び無音の検出によって音声信号を影響する影響部１２を有する。影響部１２は例えば圧縮音声信号を復号するための復号器に相当し、この信号の復号は検出される無音によって左右される。あるいは影響部１２は、検出された無音によって圧縮音声信の部分々々をとばすスキッピング・ブロックであってもよい。無音検出器１１はコマーシャル検出器に拡張されることも可能である。そして復号処理の間に検出されたコマーシャルをとばすことが可能である。影響された音声信号〔Ａ〕は、復号された状態あるいは圧縮されたままの状態で出力１３に出力される。この出力１３は例えばネットワーク接続、再生装置、あるいは録音装置などであってよい。圧縮音声信号〔Ａ〕は、例えばビデオ信号をさらに含んでいるプログラム・ストリームなどに含まれてよい。この場合、このプログラム信号は影響部１２において、少なからず圧縮音声信号〔Ａ〕において検出される無音によって影響されうる。この実施形態の好適な適用例としては、コマーシャルなしのコンテンツだけを記憶する記憶装置などがある。

本発明の一実施形態によるコマーシャル検出器は、オーディオビジュアル・ストリームにおけるコマーシャル部分を自動的に検出することができる。これにより、キーフレーム抽出、編集や再生などあらゆる処理においてコマーシャルをとばすことが可能になる。ここではいくつかの音声特性についてスライディング・ウィンドウ上で局部統計が計測され、これがコマーシャルの統計モデルと比較される。この比較結果によりこの音声信号がどのようにコマーシャルと局部的に類似するかを示す標準化された尤度関数が得られる。この尤度関数はコマーシャル検出のために適正にトリガーされるようにことが可能である。統計ウィンドウとしては局部分析については詳細でありかつ検出に影響を及ぼさない局部的不規則性や変動に対しては頑丈であるものが選択される。このアルゴリズムは１つのストリーム内あるいはストリーム間で変化しうるいくつかの条件に適応することができる。そしてこのアルゴリズムはビデオからは独立しているが、コマーシャル検出においてビデオ分析をも導入し、より充実した分類を行うことも可能である。このアルゴリズムは数種類の記憶システムに適用されることができる。

ＭＰＥＧ−１レイヤ１／２／３、ＭＰＥＧ−２レイヤ１／２／３、ＭＰＥＧ−２ＡＡＣ，ＭＰＥＧ−４ＡＡＣ，ＡＣ−３など多くの音声符号器はドメイン・コーダである。これらの符号器はソース・スペクトルをいくつかの狭周波数帯サブ信号に分割し、それぞれのサブ信号の周波数成分あるいはサンプルを別々に量子化する。ここで周波数成分あるいはサンプルはスケールファクタ及びビット割り当てに応じて量子化される。これらのスケールファクタは周波数成分あるいはサンプルの最大値を示すインジケータとみなすことができる。

ＡＣ−３においては、周波数成分は、

によって表され、ここでは

の乗数がスケールファクタとして機能する。

ＭＰＥＧ−１レイヤ２においては、狭周波数帯サブ信号はそれぞれ１２の量子化サンプルからなるグループに分割され、各グループはそれぞれ対応するスケールファクタを有する。このスケールファクタは関係するサンプルの最大値に対応する。

この検出アルゴリズムは、好ましくはスケールファクタの部分集合を用いる。狭周波数帯サブ信号のすべて或いは部分集合においてそれぞれ対応するスケールファクタを二乗することにより信号パワーの上限が計算される。

次にＭＰＥＧ音声圧縮技術についてより詳細な説明する。ＭＰＥＧ−１レイヤ２において音声信号は、４８ｋＨｚ、４４．１ｋＨｚ、あるいは３２ｋＨｚのサンプリングレートを得るためにそれぞれ２４ｍｓｅｃ、２６．１ｍｓｅｃ、あるいは３６ｍｓeｃの時間間隔に分割される。各時間間隔においてこの音声信号はフレームに符号化される。図２を参照すると、各フレーム間隔は３つのパートに分割され、この信号はさらに周波数方向においては３２のサブバンド成分に分解される。各サブバンド成分の各１／３フレーム、すなわち図２における各長方形において１２のサンプルが対応スケールファクタ及び適切に選ばれたビット数に応じて量子化される。スケールファクタはこの１２のサンプルの絶対値の上限の推定値を示す。この推定値は必ずしも正確ではないが、これはコマーシャル検出においては問題とならない。スケールファクタは、擬似対数インデックスとしてフレームから直接得ることが可能であるため非常に低い演算負荷で各オーディオフレームから抽出されことができる。この抽出は限られたフレーム・ヘッダーの復号処理だけを要し、伸張処理を要さない。

ステレオモードでは、各チャンネルはフレームごとに９６のスケールファクタを有する。検出アルゴリズムは左又は右チャンネルの各サブバンドにおける最大スケールファクタだけを選択する（図３参照）。つまり３２の値がバッファリングされ線形（対数ではなく）形式に変換される。例えば４８ｋＨｚの音声サンプリングレートの場合、サブバンド０〜２６だけがこの基準に基づいて用いられる。これにより２４ｍｓｅｃ毎に２７サンプルが供給され、これはつまりコマーシャル検出器において１１２５サンプル／秒という適度の入力データレートを実現する。そしてバッファリングされたスケールファクタの二乗が計算され、サブバンド信号パワーの上限が得られる。このようにして得られた各サブバンドのスケールファクタの二乗は以下のように利用される。
（１）これらの総和は短時間パワー全体に対する上限を示す
（２）これらは短時間周波数帯域幅推定値を計算するために用いられることができる
以下に示される図表はＭＰＥＧ−１レイヤ２における擬似対数インデックスに対応するスケールファクタのいくつかの例を示す（ＩＳＯ／ＩＥＣ，ＴａｂｌｅＢ．１：１９９３参照）。

ここで、以下の公式により音声フレームの短時間パワーの推定値ｊが求められる。

また、別の方法としてスケールファクタを得るためにルックアップテーブルを用いることも可能である。

上記の総和は所定時間におけるサブバンドの数分だけ行われる。サブバンドの部分集合が用いられる場合、アプリケーションによって総和がサブバンド全ての数分だけ行われるかもしくは使用されたサブバンドの数分だけ行われる。

無音検出は以下の値に対するネスト化された閾値に基づく。
（１）局部信号パワーレベル（例えば上記のＦｒａｍｅ＿ｐｏｗｅｒ）
（２）無音期間、及び少なくとも以下のうちの１つ
（３）無音期間中の局部パワー線形偏差
（４）無音開始前の局部パワー降下率
（５）無音終止時点における局部パワー上昇率

信号パワー特性は無音検出器が作動する環境によって大きく変化しうるため、無音検出器は好ましくは適応型のものである。したがって例えば上記の（１）、（３）、及び／又は（４）などのような局部パワーレベルに関連するパラメータはそれぞれの時間平均値と比較される。局部信号パワーに対する典型的な閾値は０．０１であり、これはすなわち局部信号パワーが、信号パワーの時間平均の１パーセント未満にとどまるべきであることを意味する。時間平均は長さｗのフレームを有する適応ウィンドウを用いることにより計算される。以下には、この時間平均を実際に求めるための公式を示す。

ここでｊはフレームインデックスを表す。

無音期間とは局部信号パワーレベルがある固定あるいは適応閾値パワーレベルを下回る期間に相当する。線形偏差は、無音期間の少なくとも一部における（フレームパワー−平均フレームパワー）の総和に相当する。線形偏差及び下降／上昇率は、知覚されるがコマーシャル検出には無関係である無音の一部をフィルタリングするために用いられる。局部信号パワーレベルは、例えば音声フレーム毎あるいは音声フレーム部分毎に上記のスケールファクタを用いて確定される。

コマーシャル部分に含まれる個々のコマーシャル間の無音の期間は通常３／２５秒から２０／２５秒である。

無音開始時間、無音期間、無音局部パワーレベルのそれぞれの値は、以下に説明する統計計算のためにバッファリングされる。コマーシャルは以下の特性についての局部統計モデルによって特徴付けられる。
（１）連続して検出された２つの無音間の時間距離
（２）検出された無音の局部信号パワーレベル（絶対及び／又は相対）
（３）無音期間
（４）音声信号の局部帯域幅
音声フレームｊの局部帯域幅は、スケールファクタを用いて以下の公式によって求めることができる。

上記の各特性については、それぞれ０から１の間の値をとる０．５で標準化された尤度関数が求められる。各尤度関数は対象となる特性の局部統計がコマーシャルの局部統計モデルとどの程度類似するかを示す。これらの尤度関数はそれぞれ異なる重みを付与されたうえで結合され、その結果０．５で標準化されたままで上記すべての情報を活用できるグローバルな尤度関数が得られる。このグローバル尤度関数は無音開始時点としてバッファリングされた時間軸上の各々の点において計算される。基本的に０．５という値は「完全不確定性」あるいは「０．５の確率でコマーシャル部分にいること」を意味する。尤度関数には様々な活用法がある。例えば尤度関数はコマーシャルの境界を検出するよう適切にトリガーされることが可能である。また、標準化された緩やかなコマーシャル／非コマーシャルの分類としての尤度関数は例えばビデオ特性など任意の特性を用いて更なる分析や分類を行うためのアルゴリズムによって利用されることもできる。そして様々なレベルのビデオ特性（例えばモノルミナンス／モノクロミナンス・フレームの検出あるいはシーン転換の検出など）が同じ尤度関数あるいはその他の方法を用いて音声特性と共に統計的に分析されることも可能である。上述の音声分析に基づいて以下に説明するトリガー及びレフィリングを適用するコマーシャル検出は開発され検査されている。０．５標準化尤度関数Ｌ（ｔ）は検出された無音がコマーシャル部分に属するか否かを判断するために用いられることが可能である。これは以下のように定義される関数Ｑ（Ｌ（ｔ））によって実現される。
Ｌ（ｔ）＞０．５の場合、Ｑ（Ｌ（ｔ））＝１
Ｌ（ｔ）≦０．５の場合、Ｑ（Ｌ（ｔ））＝０
ここで０は検出された無音が非コマーシャル部分に属することを意味し、１は検出された無音がコマーシャル部分に属することを意味する。

本発明の実用的な実施形態として、コマーシャルのシーケンスは６０秒以上続く場合のみ検出される。またＬ（ｔ）＞０．５が続く期間において尤度関数Ｌ（ｔ）が４５秒より短い時間だけ０．５未満に落ちた場合は、Ｑ（ｔ）は１に設定される。この処理は「内部レフィリング」と呼ばれる。この内部レフィリングにより散発的内部欠測を防止できる。これに対し「外部レフィリング」はコマーシャルの開始時点と終了時点に適用される。例えば：
ｔ_ｉ，ｔ_ｉ＋１，．．．，ｔ_ｉ＋Ｎ，．．．を無音が開始する一連の時点とし、
Ｌ（ｔ_ｉ）＝０．２
Ｌ（ｔ_ｉ＋１）＝０．４
Ｌ（ｔ_ｉ＋２）＝０．６
Ｌ（ｔ_ｊ）＞０．５（ｊ＝ｉ＋３，．．．，ｉ＋Ｎ）
Ｌ（ｔ_ｊ）＜０．５（ｊ＞ｉ＋Ｎ）
ｔ_ｉ＋2−ｔ_ｉ＋１＜４５．０ｓｅｃ
ｔ_{ｉ＋Ｎ＋１}−ｔ_ｉ＋Ｎ＜４５．０ｓｅｃ
とすると、
Ｑ（Ｌ（ｔ_ｉ））＝０
Ｑ（Ｌ（ｔ_ｉ＋１））＝１
Ｑ（Ｌ（ｔ_ｉ＋２））＝１
．．．
Ｑ（Ｌ（ｔ_{ｉ＋Ｎ＋１}））＝１
Ｑ（Ｌ（ｔ_ｊ））＝０（ｊ＞ｉ＋Ｎ＋１）
となる。

外部レフィリングは開始点と終了点との系統的な欠測を防止するのに効果的である。これは詳細をウィンドウする処理に関連する。外部及び内部レフィリングは上位駆動の特殊非線形フィルタリングであるとみなすことができる。ここで統計モデルとしては、コマーシャルの汎用統計モデルが用いられてよい。またこの統計をより詳細に規定することも可能で、時間帯、プログラムの種類（例えばソープ、トークショー、サッカーの試合など）及び／又はチャンネルなどによって異なるコマーシャル統計モデルを用いることも可能である。これは本発明を実現するための必須条件ではないが、この設定により性能がより改善されることはいうまでもない。ここは対象システムの複雑さと性能との駆け引きになる。また１つのチャンネルにおいても時間によって条件は変化しうるため適応性を有する検出が好ましい。さらに、チャンネルの切り替えに対する適応性を備えることも望まれる。特に局部的最低ノイズレベルは１つのチャンネルにおいても時間によって変化する上、異なるチャンネル間ではさらに大きく変化しうる。この条件は無音検出において非常に重要である。さらに、コマーシャル統計モデルにおける適応性も必須条件ではないが、有用である。ここではシステムに局部的最低ノイズレベルに関する完全セルフトレーニング（適応型）アルゴリズムが実装される。ここでの制約は、チャンネルが切り替えられる毎にアルゴリズムがリセットされることである。これは初期段階においては適応性が速くその後遅くなるからである。ここは適応性と正確さとの駆け引きである。このアルゴリズムがどの時期においても迅速な適応性を有しコマーシャル部分においても相対的に適応が速い場合、検出の精度が低下する結果となる。したがって実用的な実施形態においては、切り替えに対する適応性（異なるチャンネルへの切り替えに応じたリセット）は最初の数分のみ有効であって、１つのチャンネルにおける適応性は常に維持される。この適応性の安定は非対称スキームによって確保される。さらにこの適応性は最低ノイズレベルが低下している際は速く、これに比べて最低ノイズレベルが上昇しているときは遅い。これは例えば以前に検出された無音の局部パワーよりも低い局部パワーを有する無音が検出された際、無音検出における局部パワー閾値は相対的に速く低下する。また検出においては２種類のエラーが生じうる。これはコマーシャルの検出を逃すかあるいは誤ってコマーシャルを検出するかである。これらのエラーは両方とも比較的生じにくく、コマーシャル部分の始まりあるいは終わりの部分に限られている。いずれにせよアルゴリズムは柔軟性を有し、判断パラメータによってこの２種類のエラー間の駆け引きを適性に応じて調整することが可能である。例えばこのコマーシャル部分検出が自動キーフレーム抽出の前処理として適用された場合、コマーシャルを逃してしまう確率を下げることがより重要となる。一方、単純な再生などにおいては誤った検出を回避することがより重要となる。なお、サブバンド分析を行わずに選ばれた特性（他に追加されることも可能であるが）を参照して局部パワーと帯域幅とを別々に評価することも可能である。帯域幅の値は低いサンプリングレートで例えば２分間隔の（他の値をとることも可能である）対称スライディングウィンドウ上で取得されうる。したがって帯域幅の値は例えば連続するポイントの低い短時間ＦＦＴの平均から推定されることが可能である。また個々あるいはグローバルにいくつかの異なる標準化方法及び１つ以上の尤度関数の組み合わせを適用することも可能である。実用的な実施形態として、積結合に基づいて個々あるいはグローバルに再標準化を行うことが可能である。この積は基本的にはブール・セット｛０，１｝から連続間隔〔０，１〕に延びるブールＡＮＤであり、優れた選択性を確保することを可能にする。概して言えば、種々の条件はすべて緩く課されている。このすべてが完全に満たされる必要はないが、おおよそ満たされていることが必要である。これに対し和の組み合わせを適用した場合この和は一種のブールＯＲの延長に相当し、十分な選択性が確保されないこととなる。更なる選択性及び信頼性（ｒｏｂｕｓｔｎｅｓｓ）は期間閾値のある尤度に対する厳格判断によって確保される。尤度・ノイズの許容性はさらに内部レフィリングによっても確保される。

以下の説明においては、３６分の録音を行った場合を例にとる。ここでは映画の終わりの部分から録音が開始され、間隔〔６４６，８６６〕秒にコマーシャルが含まれる。８８６秒の時点でテレビ番組が始まり、間隔〔１４０９，１７３５〕秒に更なるコマーシャルが含まれる。図４のグラフでは検出された各無音期間において算出された局部信号パワーを丸印で示す。同グラフに示される×印は上記計算値の後方平均を表す。このグラフから把握されるようにコマーシャルの無音（間隔〔６４６，８６６〕と〔１４０９，１７３５〕における無音）は主に切断によるパワーの低い無音である。また、コマーシャル内の無音の分布は他の部分における無音の分布と異なることがわかる。例えばコマーシャル内の無音のほとんどは１０−３０秒間隔に分布される。このグラフに示されるような統計内容は尤度関数推定に用いられる。図５のグラフにはこのようにして得られた尤度関数が示される。ここで導入されたトリガーにより間隔〔６４８，８６６〕秒及び〔１４０８，１７３５〕秒が検出される。

〈変形例〉
（１）上記の例よりも多くのスケールファクタをバッファリングすることも可能である。また、これらをサブサンプルすることも可能である。上記の効果的実施形態においては、９６ある左チャンネルのスケールファクタのうち３２のスケールファクタが選択される。
（２）上記の例で用いられる音声特性の集合とは異なる音声特性を選択することも可能である。もちろん他の特性を導入する際は十分な検討が必要である。
（３）上述のように、様々な標準化方法と、１つ或いはいくつかの尤度関数の組み合わせを適用することも可能である。上記実施形態は、積結合に基づく再標準化を適用する。この積は基本的にブール集合｛０，１｝から連続間隔〔０，１〕へ延びるブールＡＮＤに相当し、優良な選択性を保障する。和結合の和は一種のブールＯＲの延長であり、これは十分な選択性を確保することができない。
（４）レフィリングによりグローバル尤度関数をトリガーする選択に変更を加え、例えば異なるウィンドウ様相及び／又は音声特性を用いることが可能である。
（５）スケールファクタを直接処理することにより例えば多くの放送局によってコマーシャル部分の始まり及び／又は終わりに通常配置される特定の音声シーケンスなどの認識を実現することも可能である。

送信側においては、切断無音が検出されやすくなるように調整を施し尤度関数を補助することができる。これは例えば切断無音の信号パワーを低くする、無音期間を調整する、信号パワー降下率を上昇させる、及び／又は無音期間中のパワー偏差を低下させることによって実現可能である。また、逆に信号パワーを増加させることによって切断無音を検出しにくくすることも可能である。これは例えばノイズを導入する、無音期間を調整する、信号パワー降下率を低下させる、及び／又は無音期間中のパワー偏差を上げることなどによって実現可能である。さらに信号に擬似切断無音を導入することも可能である。実用的な実施形態にとして、実際の切断無音と同様にパワーの低い０．１５秒間の擬似切断無音を３０秒間隔で挿入することによりコマーシャル部分の検出を妨げることができる。この擬似切断無音は、スピーチ無音などの既存無音に挿入されることが好ましい。この場合、一般ユーザーにとってはほとんど認知されない。

ここにおける検出アルゴリズムは音声マテリアルにおけるコマーシャル部分を検出し、その境界線をマークする。このようにして検出されたコマーシャル部分は、ブラウジング、自動トレーラ作成、編集、或いは単純な再生などあらゆる処理においてとばされることが可能になる。この機能は非常に低価格で多種の記憶システムに組み込まれることが可能である。この機能はデータ取得時にリアルタイムで適用されるか、又はオフラインで記憶マテリアルに対して適応されることも可能である。

なお、上述の実施形態は本発明を例示的に説明するものであって、本発明を限定するものではない。また同業者であれば、本発明の請求の範囲から逸れることなく上記実施形態のさまざまな変形例を構想することが可能であろう。本発明の請求の範囲における「構成される」という用語は、本発明の要素或いは工程を請求項に記載されるものに限定し他の要素や工程の存在を排除するような意味合いは有さない。本発明は、いくつかの別々の要素からなるハードウェアによって実現されることが可能であり、また適正にプログラムされたコンピュータによっても実現可能である。さらに複数の手段を有する装置を記載する請求項において、いくつかの手段が１つのハードウェア要素によって実現されることも可能である。また、相互に異なる従属項に記載される本発明の特徴が同一請求項に記載されていないという事実だけでこれらの組み合わせにより更なる効果が得られないとは限らない。

本発明の実施形態による受信器を示す。それぞれが１２の量子化サンプルを有しスケールファクタを備える３つのパーツに分割された３２のサブバンドを含む音声フレームの一例を示す。図２に示す音声フレームにおいて各サブバンドにつき最大スケールファクタを選択し、この選択の候補をグレーで示す。検出された無音の局部信号パワーを丸印で示し、この局部信号パワーの平均を×印で示す図である。図４に基づく尤度関数の一例を示す。

Claims

音声信号において無音を検出する方法であって、
前記音声信号における局部信号パワーレベルを確定する工程、
前記局部信号パワーレベルが所定の閾値パワーレベル未満である無音期間を確定する工程、
（１）前記局部信号パワーレベルが前記所定の閾値パワーレベル未満に下がり且つ前記無音期間が開始する頃或いはその前の信号パワー降下率、及び
（２）前記無音期間の少なくとも一部分の間における局部信号パワー偏差
の二つのパラメータのうち少なくとも一方を確定する工程、及び
前記無音期間が第１範囲内にあり、且つ（１）信号パワー降下率及び（２）局部信号パワー偏差の前記二つのパラメータのうちの少なくとも一方が対応する更なる範囲内にあるときに前記無音を検出する工程、
を有することを特徴とする方法。
前記無音の開始時間、前記無音の期間、及び局部信号パワーレベルは、連続する前記無音間のコンテンツがコマーシャルであるか否かを判断するために後続の統計モデルで用いられることを特徴とする請求項１記載の方法。
前記音声信号は複数の量子化サンプルのブロックを含み、前記ブロックはスケールファクタの集合を含み、
当該方法は、
前記音声信号から前記スケールファクタの集合を抽出する工程、及び
前記スケールファクタの組み合わせに基づいて前記ブロックにおける信号パワーを推定する工程
を有することを特徴とする請求項１又は２記載の方法。
前記抽出工程及び推定工程は前記スケールファクタの集合の部分集合に対してのみ実行されることを特徴とする請求項３記載の方法。
前記音声信号は複数の狭周波数帯サブ信号を含み、各狭周波数帯サブ信号は複数の量子化サンプルを有し１以上のスケールファクタが与えられ、
前記抽出工程は１以上の前記狭周波数帯サブ信号に対して実行されることを特徴とする請求項３又は４記載の方法。
前記抽出工程は前記複数の狭周波数帯サブ信号の部分集合に対してのみ実行されることを特徴とする請求項５記載の方法。
前記複数の狭周波数帯サブ信号の部分集合は主に低周波数サブ信号のスケールファクタを含むことを特徴とする請求項６記載の方法。
前記狭周波数帯サブ信号は２以上のサブブロックに分割され、各サブブロックはスケールファクタが与えられ、
各狭周波数帯サブ信号につき最大スケールファクタだけが抽出されて前記推定工程において用いられることを特徴とする請求項５乃至７のいずれか１項に記載の方法。
前記音声信号がステレオ信号又はマルチチャンネル信号であり、
前記抽出工程は利用可能チャンネルの部分集合にのみ実行されることを特徴とする請求項１乃至８のいずれか１項に記載の方法。
音声信号において無音を検出するための無音検出器であって、
前記音声信号における局部信号パワーレベルを確定する手段、
前記局部信号パワーレベルが所定の閾値パワーレベル未満である無音期間を確定する手段、
（１）前記局部信号パワーレベルが前記所定の閾値パワーレベル未満に下がり且つ前記無音期間が開始する頃或いはその前の信号パワー降下率、及び
（２）前記無音期間の少なくとも一部分の間における局部信号パワー偏差
の二つのパラメータのうち少なくとも一方を確定する手段、及び
前記無音期間が第１範囲内にあり、且つ（１）信号パワー降下率及び（２）局部信号パワー偏差の前記二つのパラメータのうちの少なくとも一方が対応する更なる範囲内にあるときに前記無音を検出する手段、
を有することを特徴とする無音検出器。
音声信号を受信するための受信器であって、
前記音声信号を取得するための入力
前記音声信号において無音を検出するための請求項１０記載の無音検出器、及び
少なくとも部分的には前記無音の検出に基づいて前記音声信号を変更する手段
を有することを特徴とする受信器。