JP6535706B2

JP6535706B2 - データセットの３値ビットマップを作成するための方法

Info

Publication number: JP6535706B2
Application number: JP2017138010A
Authority: JP
Inventors: ブラック，ケビン; ワイス，フェリックス，イマニュエル
Original assignee: インタラクティブ・インテリジェンス・インコーポレイテッド
Priority date: 2012-03-28
Filing date: 2017-07-14
Publication date: 2019-06-26
Anticipated expiration: 2033-03-04
Also published as: EP2832080B1; US9934305B2; AU2016202340A1; NZ629522A; EP2832080A1; BR112014023865A2; EP3076391B1; AU2016202340B2; CA2866347C; AU2013240453B2; BR112014023865B1; ZA201406474B; JP2017207770A; EP3076554B1; CL2016001146A1; JP2015515646A; US10552457B2; US20130259211A1; US20140195501A1; HK1202734A1

Description

本発明は、概して、オーディオ信号のような既知のデータセットを識別することに関し
、より詳細には、データセットをフィンガープリントするためのシステムおよび方法に関
する。

本開示および本明細書に開示されている例示的な実施形態の背景を、発信電話呼の間に
、たとえば、コンタクトセンターから行われる通話呼の間に受ける既知の録音を識別する
コンテキストにおいて説明する。しかしながら、本発明は、オーディオまたは画像（本明
細書において使用される場合、「画像」という用語は、静止画像および動画の両方を包含
するように意図されている）のタイプまたはソースにかかわらず、また、オーディオまた
は画像を受ける状況にかかわらず、オーディオまたは画像の任意のセグメントの識別に対
する適用可能性を有する。さらに、本発明は、たとえば、任意のタイプのセンサから取得
されるデータのような、データの任意の断片の識別に対する適用可能性も有する。それゆ
え、本明細書において使用される場合、「データセット」という用語は、オーディオ、画
像、または他のタイプのデータを含むか否かにかかわらず、任意のタイプのデータの集合
を包含するものとする。

従来のコンタクトセンターのシナリオにおいて、発信呼は、自動的に（「自動ダイヤル
装置」または「オートダイヤラ」として既知のクラスのデバイスによって）または手動で
のいずれかで行われる。着呼側の生身の人間に届くことが決定された通話呼につながるた
めに、数人の人間の「代理人」が控えている。このように、着呼側に代理人が話すことが
できる生身の人間がいると判定されるまで、代理人に通話呼に関与させないことによって
、効率が得られる。発信呼の間に電話回線をモニタリングするために自動機器を使用する
ことは、コールプログレス分析（ＣＰＡ）と称される。ＣＰＡは、呼設定の間のオーディ
オおよびネットワークシグナリングに対して動作する一クラスのアルゴリズムである。Ｃ
ＰＡの目的は、発呼者の性質、または外部ネットワーク（従来の公衆交換電話網またはボ
イスオーバーインターネットプロトコル（ＶＩＰ））に対する呼設定の結果を判定するこ
とである。具体的には、通話呼またはセッションが確立されようとしているとき、発呼者
または開始者は、生身の発話者が応答したか否か、話し中かなどを判定しなければならな
い。自動ダイヤル装置またはメッセージブロードキャスティングシステムのような発呼者
が自動アプリケーションであるとき、ＣＰＡアルゴリズムは、自動的に分類を実行するの
に使用される。ＣＰＡは、電話網によって発呼側エンティティに送達される、折り返しお
よび話し中のような、いわゆるコールプログレストーンを解釈するのに使用される。従来
のＣＰＡは、帯域内信号音を定量化するために、経時的なエネルギー測定とともに、ロー
およびハイパス周波数弁別器を使用して実行される。

発信呼におけるオーディオを分類するための別の方法は、音声区間検出（ＶＡＤ）とし
て既知であり、これは、オーディオストリームの中でどこに発話が存在するかを識別する
一クラスのオーディオ処理アルゴリズムである。検出される発話は、生身の発話者または
録音されたメッセージを含む、任意のソースに由来し得る。現行のＶＡＤアルゴリズムは
、主な発話者の発生を背景雑音から区別するために、スペクトル分析を使用する。

ＶＡＤを使用して発話パターンを抽出し、パターンが生身の発話者または録音メッセー
ジに由来するかを判定する一サブクラスのＣＰＡアルゴリズムは、留守番電話検出（ＡＭ
Ｄ）として既知である。生身の発話者につながっていない通話呼を識別することによって
、正確なＡＭＤアルゴリズムは自動ダイヤル装置のスループットを大幅に増大させること
ができる。しかしながら、ＡＭＤからの誤検出は、無言電話または放棄呼につながり、コ
ンタクトセンターにとっての収益の損失、および公衆の間での悪印象を引き起こす。ＡＭ
Ｄアルゴリズムの品質は、正確度および応答時間の関数である、世界の一部地域（特に米
国および英国）は、その両方に厳密な法的要求事項を課している。

ＡＭＤは正確な科学技術ではなく、最適な手法は未解決の問題である。許容可能な正確
度、速度、および柔軟性を達成するために、ＡＭＤアルゴリズムは、発話を生または録音
として分類するためのニューラルネットワークのような発見的教授法および統計モデルの
組合せを使用する。市販されている多くの商用ＡＭＤシステムがマーケティング文献にお
いて高い正解率（たとえば、９５％以上）を報告しているが、これらの数字に対する独立
監査人はなく、継続的な広まっている不満を反映すると、実地での実際の正解率は一般的
にはるかに低い（たとえば、８０％以下）。一部の消費者擁護団体によって全面禁止が提
案されており、一部のコンタクトセンターはその制約のために単純にＡＭＤを使用するこ
とができない。

オーディオ識別の相対的に新規の科学技術が、音響指紋法として既知であり、システム
が、候補オーディオストリームの「指紋」を生成し、それを、科学捜査において使用され
る人間の指紋法と同様に、既知の指紋のデータベースと比較する。このコンテキストにお
いて、「指紋」とは、他のオーディオストリームとの知覚的同等性を迅速に確立すること
ができる、オーディオストリームの凝縮された要約である。既知の指紋のデータベースは
、既知の指紋を「タイトル」、「アーティスト」などのようなメタデータを関連付けるこ
とができる。過去十年間において、オーディオおよび画像に関するフィンガープリンティ
ング技術における科学的および産業的関心は急速に高まった。用途は、歌曲および広告の
識別、メディアライブラリの管理、および著作権順守を含む。

様々な音響フィンガープリンティングアルゴリズムクラスが提案されており、今日最も
普及しているものが、「ランドマーク」または「ビットマップ」に基づくものである。ラ
ンドマークベースのアルゴリズムは、オーディオストリームから、スペクトルピーク、ト
ーン、音高、音量の突然の変化などのような、「ランドマーク」と呼ばれる明確な特徴を
抽出する。ランドマークの最適な選択は、ほとんど発見的教授法によって誘導される未解
決の問題である。音響指紋は、各ランドマークを記述する一連のデータ構造体として記憶
される。実行時、候補オーディオストリームから抽出されたランドマークは、距離メトリ
ックに基づいて指紋のデータベースと比較される。

ビットマップベースのアルゴリズムは、オーディオストリームを一連のフレームとして
分析し、フィルタバンクを使用して各フレームをサイズＮのビットベクトルに量子化し、
ここで、Ｎは一般的に、簡便にするために、Ｃ型整数におけるビット数Ｎ∈｛８，１６，
３２，または６４｝として選択される。有名でよく研究された例が、「Ｈａｉｔｓｍａ−
Ｋａｌｋｅｒアルゴリズム」として既知であり、これは、時間および周波数の両方におい
て短期間の差を比較するフィルタを使用して２値ビットマップを計算する。Ｈａｉｔｓｍ
ａ−Ｋａｌｋｅｒアルゴリズムは文献においてよく研究されている。その発明者であるＪ
ａａｐＨａｉｔｓｍａおよびＴｏｎＫａｌｋｅｒは、Ｈａｉｔｓｍａ−Ｋａｌｋｅｒ
アルゴリズムの使用、および、数百万の歌曲のデータベースからの歌曲の３秒録音を識別
するための２値音響指紋ビットマップの比較のレポートを刊行した（Ｈａｉｔｓｍａａ
ｎｄＫａｌｋｅｒ著「ＡＨｉｇｈｌｙＲｏｂｕｓｔＡｕｄｉｏＦｉｎｇｅｒｐ
ｒｉｎｔｉｎｇＳｙｓｔｅｍ」（ＪｏｕｒｎａｌｏｆＮｅｗＭｕｓｉｃＲｅｓ
ｅａｒｃｈ，Ｖｏｌ．３２，Ｎｏ．２（２００３），ｐｐ．２１１−２２１））。完全な
音響指紋は、一連のビットベクトル、またはビットマップとして記憶される。図１Ａ〜図
１Ｃに示されているように、「この番号は回線から切断されています（Ｔｈｉｓｎｕｍ
ｂｅｒｈａｓｂｅｅｎｄｉｓｃｏｎｎｅｃｔｅｄ）」と言っている電話網からのメ
ッセージを含む、オーディオストリームの３つの画像が図示されている。図１Ａは、元の
オーディオ波信号を示し、８０００ＫＨｚにおいて１．５秒間のオーディオがサンプリン
グされている。図１Ｂは、元のオーディオ入力信号のスペクトログラムを示し、暗領域は
特定の周波数においてエネルギーが高いことを示している。図１ＣはＨａｉｔｓｍａ−Ｋ
ａｌｋｅｒアルゴリズムを使用して作成される２値音響指紋ビットマップを示し、高さは
Ｎ＝１６である。この高さは、各フレームにおいて計算されるビット数によって決定され
、幅は、オーディオストリーム内のフレーム数によって決定される。実行時、候補オーデ
ィオストリームから計算されたビットマップが、ハミング距離としても既知である、一致
しないビットの数に基づいてビットマップのデータベースと比較される。

ビットマップマッチングおよび音響指紋の使用は、オーディオ認識の科学技術において
強力な新しいツールであるが、これは計算集約的であり、多くの場合において一致を作る
ために数秒間のオーディオをサンプリングする必要がある。この遅延によって、これはコ
ールプログレス分析に使用するにはよく適しているとは言えないものになる。したがって
、一般的な場合および発信呼試行中の両方において、オーディオを識別するためのより速
くより正確なシステムおよび方法が依然として必要とされている。

ＨａｉｔｓｍａａｎｄＫａｌｋｅｒ著「ＡＨｉｇｈｌｙＲｏｂｕｓｔＡｕｄｉｏＦｉｎｇｅｒｐｒｉｎｔｉｎｇＳｙｓｔｅｍ」（ＪｏｕｒｎａｌｏｆＮｅｗＭｕｓｉｃＲｅｓｅａｒｃｈ，Ｖｏｌ．３２，Ｎｏ．２（２００３），ｐｐ．２１１−２２１）

入力オーディオセグメントのようなデータセットをデータベース内の既知のデータセッ
トとマッチングするためのシステムおよび方法が開示される。例示的な実施形態において
、発信電話呼の間に受ける既知のネットワークメッセージ記録の認識とともに、本明細書
において開示されるシステムおよび方法を使用することが説明される。本方法は、比較プ
ロセスをより効率的にするために、３値指紋ビットマップを作成することを含む。より大
きなデータセット集合から既知のデータセットのデータベースを作成する自動化された方
法も開示される。

一実施形態において、発信電話呼から候補オーディオセグメントを識別するための方法
が開示され、方法は、ａ）候補オーディオセグメントのスペクトログラムを作成するステ
ップと、ｂ）スペクトログラムの候補２値音響指紋ビットマップを作成するステップと、
ｃ）候補２値音響指紋ビットマップを、既知のネットワークメッセージの少なくとも１つ
の既知の２値音響指紋ビットマップと比較するステップと、ｄ）候補２値音響指紋ビット
マップが所定閾値内で上記少なくとも１つの既知の２値音響指紋ビットマップのうちの１
つに一致する場合、一致を宣言するステップと、ｅ）候補２値音響指紋ビットマップが所
定閾値内で上記少なくとも１つの既知の２値音響指紋ビットマップのうちの１つに一致し
ない場合、候補オーディオセグメントを分析するために留守番電話検出アルゴリズムを使
用するステップとを含む。

別の実施形態において、発信電話呼から候補オーディオセグメントを識別するための方
法が開示され、方法は、ａ）候補オーディオセグメントのスペクトログラムを作成するス
テップと、ｂ）スペクトログラムの候補２値指紋ビットマップを作成するステップと、ｃ
）候補２値指紋ビットマップを、既知の記録の少なくとも１つの既知の２値指紋ビットマ
ップと比較するステップと、ｄ）候補２値指紋ビットマップが所定閾値内で上記少なくと
も１つの既知の２値指紋ビットマップのうちの１つに一致する場合、一致を宣言するステ
ップと、ｅ）候補２値指紋ビットマップが所定閾値内で上記少なくとも１つの既知の２値
指紋ビットマップのうちの１つに一致しない場合、候補オーディオセグメントを分析する
ために代替のプロセスを使用するステップとを含む。

さらなる実施形態において、データセットの３値ビットマップを作成するための方法が
開示され、方法は、ａ）データセットの２値指紋ビットマップを計算するステップと、ｂ
）データセットから第１の数のサンプルを消去するステップと、ｃ）ステップ（ｂ）の後
、データセットの別の２値指紋ビットマップを計算するステップと、ｄ）複数の２値指紋
ビットマップを作成するために、ステップ（ｂ）および（ｃ）を複数回繰り返すステップ
と、ｅ）複数の２値指紋ビットマップを組み合わせて３値ビットマップにするステップで
あって、３値ビットマップ内の各ビットは、ｅ．１）複数の２値ビットマップのうちの第
１の所定数においてビットが０である場合、３値ビットマップ内のそのビットを０に設定
し、ｅ．２）複数の２値ビットマップのうちの第２の所定数においてビットが１である場
合、３値ビットマップ内のそのビットを１に設定し、ｅ．３）それ以外の場合、３値ビッ
トマップ内のそのビットを＊（「Ｄｏｎ’ｔＣａｒｅ（適用除外）」）に設定するよう
に決定される、組み合わせるステップとを含む。

また別の実施形態において、候補データセットを識別するための方法が開示され、方法
は、ａ）既知のデータセットデータベース内の既知のデータセットの２値指紋ビットマッ
プを計算するステップと、ｂ）既知のデータセットから第１の数のサンプルを消去するス
テップと、ｃ）ステップ（ｂ）の後、既知のデータセットの別の２値指紋ビットマップを
計算するステップと、ｄ）複数の２値指紋ビットマップを作成するために、ステップ（ｂ
）および（ｃ）を複数回繰り返すステップと、ｅ）複数の２値指紋ビットマップを組み合
わせて３値ビットマップにするステップであって、３値ビットマップ内の各ビットは、ｅ
．１）複数の２値ビットマップのうちの第１の所定数においてビットが０である場合、３
値ビットマップ内のそのビットを０に設定し、ｅ．２）複数の２値ビットマップのうちの
第２の所定数においてビットが１である場合、３値ビットマップ内のそのビットを１に設
定し、ｅ．３）それ以外の場合、３値ビットマップ内のそのビットを＊（「Ｄｏｎ’ｔ
Ｃａｒｅ」）に設定するように決定される、組み合わせるステップと、ｆ）３値ビットマ
ップを３値ビットマップデータベース内に保存するステップと、ｇ）既知のデータセット
データベース内のすべての既知のデータセットについてステップ（ａ）〜（ｆ）を繰り返
すステップと、ｈ）候補データセットから候補データセット２値指紋ビットマップを作成
するステップと、ｉ）候補データセット２値指紋ビットマップを３値ビットマップデータ
ベース内の各３値ビットマップと比較するステップであって、上記比較はＤｏｎ’ｔＣ
ａｒｅビットを無視する、比較するステップとを含む。

さらなる実施形態において、オーディオセグメントの３値ビットマップを作成するため
の方法が開示され、方法は、ａ）オーディオセグメントの２値音響指紋ビットマップを計
算するステップと、ｂ）オーディオセグメントから第１の数のサンプルを消去するステッ
プと、ｃ）ステップ（ｂ）の後、オーディオセグメントの別の２値音響指紋ビットマップ
を計算するステップと、ｄ）複数の２値音響指紋ビットマップを作成するために、ステッ
プ（ｂ）および（ｃ）を複数回繰り返すステップと、ｅ）複数の２値音響指紋ビットマッ
プを組み合わせて３値ビットマップにするステップであって、３値ビットマップ内の各ビ
ットは、ｅ．１）複数の２値ビットマップのうちの第１の所定数においてビットが０であ
る場合、３値ビットマップ内のそのビットを０に設定し、ｅ．２）複数の２値ビットマッ
プのうちの第２の所定数においてビットが１である場合、３値ビットマップ内のそのビッ
トを１に設定し、ｅ．３）それ以外の場合、３値ビットマップ内のそのビットを＊（「Ｄ
ｏｎ’ｔＣａｒｅ」）に設定するように決定される、組み合わせるステップとを含む。

また別の実施形態において、候補オーディオセグメントを識別するための方法が開示さ
れ、方法は、ａ）既知のオーディオセグメントデータベース内の既知のオーディオセグメ
ントの２値音響指紋ビットマップを計算するステップと、ｂ）既知のオーディオセグメン
トから第１の数のサンプルを消去するステップと、ｃ）ステップ（ｂ）の後、既知のオー
ディオセグメントの別の２値音響指紋ビットマップを計算するステップと、ｄ）複数の２
値音響指紋ビットマップを作成するために、ステップ（ｂ）および（ｃ）を複数回繰り返
すステップと、ｅ）複数の２値音響指紋ビットマップを組み合わせて３値ビットマップに
するステップであって、３値ビットマップ内の各ビットは、ｅ．１）複数の２値ビットマ
ップのうちの第１の所定数においてビットが０である場合、３値ビットマップ内のそのビ
ットを０に設定し、ｅ．２）複数の２値ビットマップのうちの第２の所定数においてビッ
トが１である場合、３値ビットマップ内のそのビットを１に設定し、ｅ．３）それ以外の
場合、３値ビットマップ内のそのビットを＊（「Ｄｏｎ’ｔＣａｒｅ」）に設定するよ
うに決定される、組み合わせるステップと、ｆ）３値ビットマップを３値ビットマップデ
ータベース内に保存するステップと、ｇ）既知のオーディオセグメントデータベース内の
すべての既知のオーディオセグメントについてステップ（ａ）〜（ｆ）を繰り返すステッ
プと、ｈ）候補オーディオセグメントから候補オーディオセグメント２値音響指紋ビット
マップを作成するステップと、ｉ）候補オーディオセグメント２値音響指紋ビットマップ
を３値ビットマップデータベース内の各３値ビットマップと比較するステップであって、
上記比較はＤｏｎ’ｔＣａｒｅビットを無視する、比較するステップとを含む。

また別の実施形態において、データセットの加重圧縮表現を作成するための方法が開示
され、方法は、ａ）データセットの圧縮表現を計算するステップと、ｂ）データセットに
変換を適用するステップと、ｃ）ステップ（ｂ）の後、データセットの別の圧縮表現を計
算するステップと、ｄ）複数の圧縮表現を作成するために、ステップ（ｂ）および（ｃ）
を複数回繰り返すステップと、ｅ）複数の圧縮表現を組み合わせて加重圧縮表現にするス
テップであって、加重圧縮表現における各重みは、複数の圧縮表現内の要素の関数として
計算される、組み合わせるステップとを含む。

他の実施形態も開示される。

オーディオ波の図である。スペクトログラムの図である。２値音響指紋ビットマップの図である。音響指紋を構築するための方法の一実施形態の概略流れ図である。一実施形態による変換に使用される例示的なスライディングウィンドウのセットについての振幅対時間のグラフである。オーディオサンプルのスペクトログラムの図である。メル尺度の概略表現の図である。Ｈａｉｔｓｍａ−Ｋａｌｋｅｒアルゴリズムのグラフィック表現の図である。一実施形態による３値ビットマップを作成するための方法を示す概略流れ図である。一実施形態による２値ビットマップからの３値ビットマップの作成の概略グラフィック表現の図である。一実施形態による３値ビットマップからのハッシュキーの作成の概略流れ図である。図７のプロセスのグラフィック表現の図である。一実施形態によるハッシュキーを使用したマッチング手順の概略流れ図である。一実施形態による大きいオーディオデータセットから共通の録音に対する諮問を抽出するための方法の概略流れ図である。

本発明の原理の理解を促進する目的で、ここで、図面に示されている実施形態を参照し
、特定の文言がこれを説明するために使用される。それにもかかわらず、本発明の範囲の
限定は意図されていないことが理解されよう。示されているシステムおよび方法における
変更および修正、ならびにそこに示されている本発明の原理のさらなる応用は、本発明が
関連する技術分野における当業者に一般的に想起されるように、企図され、保護されるこ
とが所望される。そのような代替的な実施形態は、当業者には明らかであるように、本明
細書において説明される実施形態に対する一定の適合を必要とする。

本明細書に開示されている様々な実施形態は、発信電話呼の間に、たとえば、コンタク
トセンターから行われている通話呼の間に受ける既知の録音を識別するコンテキストにお
いて説明されることになるが、本発明は、オーディオ、画像、または他のタイプのデータ
のタイプまたはソースにかかわらず、また、どのような状況でオーディオ、画像、または
他のタイプのデータを受けるかにかかわらず、オーディオ、画像、または他のタイプのデ
ータの任意のセグメントの識別に適用可能性を有する。加えて、本発明は、２つ以上の次
元を有する任意のタイプのデータセットの認識に適用可能性を有する。本明細書において
主に録音の認識に依拠しているのは、単純に説明を簡便にするためである。

コールプログレス分析システムにおける音響指紋の使用

コールプログレス分析は、限定ではないが以下を含む対象の特定のコールプログレス事
象を識別するために、音響指紋システムによって、従来のＡＭＤを強化するシステムを使
用することによって改善され得る。

ａ．電話網メッセージ（たとえば、「申し訳ございません（Ｗｅ’ｒｅｓｏｒｒｙ）」
、「あなたがおかけになった番号またはコードには誤りがあります（Ｔｈｅｎｕｍｂｅ
ｒｏｒｃｏｄｅｙｏｕｈａｖｅｄｉａｌｅｄｉｓｉｎｃｏｒｒｅｃｔ）」
ｂ．複数の加入者によって共有されるボイスメールグリーティング（たとえば、「ハロー
、あなたのお友達から着信です（Ｈｅｌｌｏ，ｔｈｅｐａｒｔｙｙｏｕｈａｖｅ
ｄｉａｌｅｄ）」）
ｃ．メロディ音、ジングル音、チャイム
ｄ．音楽または発話を含む呼び出し音（たとえば、「電話がつながるまでそのままお待ち
ください（Ｐｌｅａｓｅｈｏｌｄｗｈｉｌｅｙｏｕｒｃａｌｌｉｓｃｏｍｐ
ｌｅｔｅｄ）」）
ｅ．コールスクリーナ
ｆ．プライバシーマネージャ（「あなたがおかけになった番号には、勧誘は認められてお
りません（Ｙｏｕｈａｖｅｒｅａｃｈｅｄａｎｕｍｂｅｒｔｈａｔｄｏｅｓ
ｎｏｔａｃｃｅｐｔｓｏｌｉｃｉｔａｔｉｏｎｓ）」）
ｇ．双方向音声応答（ＩＶＲ）プロンプト
これらは、本明細書においてまとめて「ネットワークメッセージ」と称される。すべて
のそのようなネットワークメッセージは、複数の着呼者に行われる通話呼に関する特定の
状況においてネットワークによって同じオーディオが使用されるという共通の特質を共有
する。それゆえ、ダイヤルプログラムは将来においてこれらのネットワークメッセージを
受けると予測すべきであり、それらをそのようなものとして識別することは、コールプロ
グレス分析ソフトウェアが、生身の発話者に電話がつながっていないと判定する助けとな
る。コールプログレス分析ソフトウェアが以下の特性を呈することが所望される。

１．効率的である（ＣＰＵおよびメモリの使用量が低い）
２．高速である（待ち時間および遅延が短い）
３．ロバストである（検出漏れの割合が低い）
４．正確である（誤検出の割合が低い）
５．スケーラブルである（探索コストが低い）
６．反復可能である（学習曲線が低い）

一実施形態において、発信呼がリアルタイムで進行している間、ＣＰＡシステムは、従
来のＡＭＤアルゴリズムおよび音響指紋システムの両方を使用してオーディオストリーム
を処理する。オーディオが進行しているとき、音響指紋システムは、既知のネットワーク
メッセージの音響指紋のデータベース内に一致の可能性があるか否かを識別する。そうで
ある場合、ＡＭＤアルゴリズムからの任意の出力が阻止され、代わりに、ＣＰＡシステム
が一致した音響指紋に基づいて特定のコールプログレス事象を報告する。音響指紋システ
ムがデータベース内に一致を発見しない一般的な事例について、従来のＡＭＤアルゴリズ
ムが、グリーティングを検出し、生身の発話者または留守番電話のいずれかの事象を報告
するのに使用される。すべての事象は、通話呼を進行または終了するか、代理人に転送す
るか、自動ダイヤル装置のプランを調整するかなどのような、適切な応答を選択するため
にＣＰＡシステムのユーザによって解釈される。他の実施形態において、音響指紋システ
ムは、ＣＰＡメカニズムを追加することなく使用される。

図２は、音響指紋を構築するための方法の一実施形態を概略的に示す。既知のオーデ
ィオセグメント、または現在の電話呼からの候補オーディオセグメントのいずれかの音響
指紋を構築するために、信号の時変スペクトル表現（本明細書においては「スペクトログ
ラム」と称される）が、４つの非限定例のみを挙げると、離散フーリエ変換（ＤＦＴ）、
離散コサイン変換（ＤＣＴ）、ウェーブレット変換、またはさらにはフィルタバンクのセ
ットのみのような、任意の所望の変換を使用して（ステップ１００において示すように）
作成される。各フレームにおいて、周波数空間におけるパワースペクトルが計算される。
たとえば、図３Ａは、以下のパラメータを使用した、オーディオサンプルの高速フーリエ
変換（ＦＦＴ、離散フーリエ変換を実施するための特に効率的なアルゴリズム）において
使用されるスライディングウィンドウの、振幅対時間を示す。

サンプルレート：８ｋＨｚ
フレーム持続時間：３０ミリ秒
刻み幅：２０ミリ秒
重なり：１／３
ＦＦＴサイズ：２５６

この技法を使用したオーディオサンプルのサンプルスペクトログラムが、図３Ｂに示さ
れている。

次のステップは、ステップ１０２において示すように、２値音響指紋ビットマップを作
成することである。パワースペクトログラムはそのまま使用され得るか、または、データ
を凝縮するために変換されてもよい。データを凝縮する任意の変換技法が使用され得る。
１つだけ非限定例を与えると、Ｈａｉｔｓｍａ−Ｋａｌｋｅｒアルゴリズムが使用され得
、ここで、一連のフレームが作成され、音響指紋ビットマップを構築するために組み合わ
される。各フレームをサイズＮのビットベクトルに量子化するためにフィルタバンクが使
用され得、ここで、Ｎは、簡便にするために、Ｃ型整数におけるビット数（８、１６、３
２、または６４）として選択され得る。一実施形態において、ステップ１０４において示
すように、パワースペクトルデータを（Ｎ＋１）個の帯域を有するメル空間に変換するた
めに、メル尺度フィルタバンクが使用される。メル尺度は、図４に示すような、聞く者に
よって互いからの距離が等しくなるように判断される音高の知覚的尺度である。

メル空間における（Ｎ＋１）帯域スペクトルのシーケンスから、連続したフレームにわ
たるバンドエネルギー差に基づく一連のＮビット２値指紋フレーム値がステップ１０６に
おいて計算される。一実施形態において、これは、以下のようにＨａｉｔｓｍａ−Ｋａｌ
ｋｅｒアルゴリズムを使用して行われる。

式中、Ｅ（ｎ，ｍ）は、フレームｎの周波数帯域ｍのエネルギーであり、
Ｆ（ｎ，ｍ）は、指紋フレームｎの第ｍのビットである。

これは、図５に概略的に示されている。したがって、フレームあたり１つの整数のＮビ
ット整数のベクトルとして、音響指紋が構築される。図１Ｃは、例示的な１６ビット２値
音響指紋ビットマップを示す。

コールプログレス分析の間に使用するために、既知のネットワークメッセージについて
の２値音響指紋ビットマップを含むデータベースが維持される。一実施形態において、発
信呼がリアルタイムで進行している間、ＣＰＡシステムは、従来のＡＭＤアルゴリズムお
よび音響指紋システムの両方を使用してオーディオストリームを処理する。オーディオが
進行しているとき、音響指紋システムは、入来するオーディオの２値音響指紋ビットマッ
プを作成し、それらのビットマップを、データベースに記憶されている既知のネットワー
クメッセージビットマップと比較する（ステップ１０８）。ＣＰＡシステムは、２値ビッ
トマップのデータベース内に一致があるか否かを識別し（ステップ１１０）、一致は、発
信呼の結果として、生身の発話者ではなく既知のネットワークメッセージが受けているこ
とを示す（ステップ１１２）。そうである場合、ＡＭＤアルゴリズムからの任意の出力が
阻止され、代わりに、ＣＰＡシステムが一致した音響指紋に基づいて特定のコールプログ
レス事象を報告する。音響指紋システムがデータベース内に一致を発見しない一般的な事
例について、従来のＡＭＤアルゴリズムが、グリーティングを検出し、生身の発話者また
は留守番電話のいずれかの事象を報告するのに使用される（ステップ１１４）。すべての
事象は、通話呼を進行または終了するか、代理人に転送するか、自動ダイヤル装置のプラ
ンを調整するかなどのような、適切な応答を選択するためにＣＰＡシステムのユーザによ
って解釈される。他の実施形態において、２値音響指紋ビットマップマッチングシステム
は、ＣＰＡメカニズムを追加することなく使用される。

Ｈａｉｔｓｍａ−Ｋａｌｋｅｒアルゴリズムは文献においてよく研究されている。Ｊａ
ａｐＨａｉｔｓｍａおよびＴｏｎＫａｌｋｅｒの刊行された、Ｈａｉｔｓｍａ−Ｋａ
ｌｋｅｒアルゴリズムの使用、および、数百万の歌曲のデータベースからの歌曲の３秒録
音を識別するための２値音響指紋ビットマップの比較のレポート（Ｈａｉｔｓｍａａｎ
ｄＫａｌｋｅｒ著「ＡＨｉｇｈｌｙＲｏｂｕｓｔＡｕｄｉｏＦｉｎｇｅｒｐｒ
ｉｎｔｉｎｇＳｙｓｔｅｍ」（ＪｏｕｒｎａｌｏｆＮｅｗＭｕｓｉｃＲｅｓｅ
ａｒｃｈ，Ｖｏｌ．３２，Ｎｏ．２（２００３），ｐｐ．２１１−２２１））。Ｊａａｐ
ＨａｉｔｓｍａおよびＴｏｎＫａｌｋｅｒのシステムは、良好な結果を得るために、
大きいフレームサイズ、大きい重なり／小さい刻み幅、および大きい指紋を筆意用とした
。ＪａａｐＨａｉｔｓｍａおよびＴｏｎＫａｌｋｅｒが使用したパラメータは以下の
通りである。

サンプルレート：５ｋＨｚ
フレーム持続時間：３７０ミリ秒
刻み幅：１０ミリ秒
重なり：３１／３２
ＦＦＴサイズ：２０４８

Ｈａｉｔｓｍａ−Ｋａｌｋｅｒアルゴリズムは、２値音響指紋ビットマップを相対的に
低い信号対雑音比で計算するが、ビットは雑音およびウィンドウイングアーティファクト
の影響をかなり受けやすい。許容可能に高い正確度および低い誤検出率を有する音響フィ
ンガープリンティングシステムを達成するには、一般的に、フレームサイズが大きく（３
７０ｍｓ）、フレーム間の重なりが大きい（３１／３２、または約９７％）、相対的に長
いオーディオのセグメント（約３秒）が必要になる。

そのようなシステムは計算集約的であり、信頼可能な比較を行うために相対的に大きい
オーディオサンプルを必要とし、その両方が多くのオーディオマッチングシナリオにおい
て望ましくない。本発明者らは、特に信号のエネルギーが相対的に小さい場合、２値音響
指紋ビットマップ内の多くのビットが、雑音、および、スペクトル表現への変換（ウィン
ドウィング）から生じるアーティファクトの影響を受けやすいことを観測した。提案する
解決策は、雑音およびウィンドウイングアーティファクトに起因する値の小さいビットを
マスクアウトし、マスク内にあるビット（すなわち、マスクアウトされていないビット）
のみを使用してビットマップ比較の誤り率を計算することである。

高い信号対雑音比（ＳＮＲ）を得るためのマスクビットを使用した３値ビットマップ音
響指紋

正確度を犠牲にすることなくビットマップマッチング速度を改善するために、本発明の
一実施形態は、２値ビットマップを生成する任意の音響フィンガープリンティングアルゴ
リズムに以下の修正を行う。既知のネットワークメッセージビットマップが作成されるト
レーニング段階において、図６の方法が実施され得る。ステップ２００において、図２に
関連して上記で説明した同じプロセスを使用して、オーディオセグメントの２値音響指紋
ビットマップが作成される。ステップ２０２において、示されている実施形態において、
第１のサンプルがオーディオセグメントから消去され（ただし、下記に説明するように、
他のセグメント修正方式が採用されてもよい）、ステップ２０４において、図２に関連し
て上記で説明した同じプロセスを使用して、修正オーディオセグメントの別の２値音響指
紋ビットマップが作成される。ステップ２０４〜２０２がＸ回繰り返され（ステップ２０
６）、Ｘは、図２の音響フィンガープリンティングプロセスによって使用される、各フレ
ーム内のサンプルの数である。このプロセスが、オーディオセグメントのＸ個の２値音響
指紋ビットマップを生成する。

Ｘ個の２値音響指紋ビットマップは、ステップ２０８において以下のように組み合わさ
れて、３値ビットマップになる。

・Ｘ個すべての２値ビットマップにおいてビットが０である場合、３値ビットマップ内の
そのビットを０に設定する
・Ｘ個すべての２値ビットマップにおいてビットが１である場合、３値ビットマップ内の
そのビットを１に設定する
・それ以外の場合、３値ビットマップのそのビットを＊（「Ｄｏｎ’ｔＣａｒｅ」）に
設定する。

「Ｄｏｎ’ｔＣａｒｅ」ビットは、フレーミング、雑音、比較、および信号歪みをも
たらす他の効果の影響を受けやすいため、連続する２値音響指紋ビットマップ内で変化す
る。上記の説明から、「Ｄｏｎ’ｔＣａｒｅ」ビットは、ビットマップにわたって変化
する所定の割合のビット値のように、他の方法で定義されてもよいことは明らかであろう
。３値ビットマップがビットマップ比較に使用され（ステップ２１０）、かつ「Ｄｏｎ’
ｔＣａｒｅ」ビットが比較プロセスの間に無視される場合、元の２値音響指紋ビットマ
ップの周波数および時間において、信号歪みをもたらすこれらの領域をマスクアウトする
。図７は、２値ビットマップと、その関連付けられる３値ビットマップとの間の例示的な
比較を示す。上記の説明から、音響指紋およびマスクをより影響を受けやすくするために
、通信チャネルによって一般的にもたらされる雑音または他のアーティファクトを加える
ことによって、音響指紋を計算する前に、入力信号が人工的に劣化され得ることも明らか
であろう。

実行時、これらの「Ｄｏｎ’ｔＣａｒｅ」ビットは、候補オーディオストリームと既
知の指紋のデータベースとの間の評価される「マスクハミング距離」から除外される。３
値ビットマップマスクを使用することによって、入力候補オーディオストリームとデータ
ベース内の録音との間のフレーミング位置不整合に起因する検出漏れがなくなる。ウィン
ドウィングおよび雑音の影響を最も受けやすいビットを除外することによって、３値指紋
システムは、それに対応する２値指紋システムよりもロバストになり、はるかに少ないビ
ットで同等の正確度および誤検出率を達成する。分析ウィンドウがフレームサイズの分数
だけシフトされることによって、上記のステップは同じ信号の多くの指紋を作成し、それ
らの指紋はその後、指紋のいずれの部分が変化するかを識別するのに使用されることが明
らかであろう。それゆえ、ステップ２０２において、分析ウィンドウは、示されている単
一サンプルシフトではなく、フレームサイズの任意の分数だけシフトされ得る。加えて、
音響指紋および３値ビットマップ（マスク）は、各要素が０または１の値を有するビット
であるベクトルのベクトルとして以外の方法で、代わりに、より一般的に各要素が数値ス
コアおよび重みを含み、複数ビット表現に量子化されるベクトルのベクトルとして表現さ
れてもよいことが明らかであろう）。

たとえば、データセットの加重圧縮表現を作成するための方法は、ａ）データセットの
圧縮表現を計算するステップと、ｂ）修正データセットを作成するためにデータセットか
ら第１の数の要素を消去するステップと、ｃ）修正データセットの別の圧縮表現を計算す
るステップと、ｄ）複数の圧縮表現を作成するために、ステップ（ｂ）および（ｃ）を複
数回繰り返すステップと、ｅ）複数の圧縮表現を組み合わせて加重圧縮表現にするステッ
プであって、加重圧縮表現における各重みは、複数の圧縮表現内の要素の関数として計算
される、組み合わせるステップとを含む。

いくつかの実施形態において、圧縮表現は、第１の数の２次元ベクトルである。いくつ
かの実施形態において、第１の数は、各々、第１のビット数によって表され、第１のビッ
ト数は、いくつかの実施形態においては１ビットであってもよく、他の実施形態において
は２ビット以上であってもよい。他の実施形態において、加重圧縮表現は、第２の数の２
次元ベクトルである。いくつかの実施形態において、第２の数は、各々、第２のビット数
によって表される。いくつかの実施形態において、関数が、複数の圧縮表現内の要素の相
関係数として各上記重みを計算する。いくつかの実施形態において、相関係数は以下のよ
うに計算される。

１）要素が、複数の圧縮表現の第１の所定数内の第１の所定閾値を下回る場合、相関係数
を第１の値に設定する。
２）要素が、複数の圧縮表現の第２の所定数内の第２の所定閾値を上回る場合、相関係数
を第２の値に設定する。
３）それ以外の場合、相関係数を第３の値に設定する。

たとえば、一実施形態において、第１の値は＋１であり、第２の値は−１であり、第３
の値は０である。当業者は本開示から、相関係数は−１〜＋１（または任意の他の所望の
数値範囲）の任意の値とすることができることを認識しよう。本実施形態において、これ
らの値は本明細書において説明されている３値ビットマップに対応し、設定されているビ
ットが＋１であり、クリアされているビットが−１であり、Ｄｏｎ’ｔＣａｒｅビット
が０である。閾値は、任意の所望のレベルに設定することができる。たとえば、一実施形
態において、第１の所定閾値１であってもよく、第２の所定閾値は０であってもよい。一
実施形態において相関係数を計算するとき、第１の所定数は複数の圧縮表現のすべてを含
み、第２の所定数は複数の圧縮表現のすべてを含む。

図６の方法は、２値音響指紋ビットマップを相対的に低い信号対雑音比で計算するが、
ビットは雑音およびウィンドウイングアーティファクトの影響をかなり受けやすい、図２
のＨａｉｔｓｍａ−Ｋａｌｋｅｒアルゴリズム２値音響指紋ビットマップ比較手法と比較
され得る。この手法を使用して許容可能に高い正確度および低い誤検出率を有するフィン
ガープリンティングシステムを達成するには、一般的に、フレームサイズが大きく（３７
０ｍｓ）、フレーム間の重なりが大きい（３１／３２、または約９７％）、相対的に長い
オーディオのセグメント（約３秒）が必要になる。比較すると、図６に示すもののような
、本明細書に開示する３値音響指紋ビットマップ方法は、３０ｍｓの小さいフレームサイ
ズおよび３３％の小さいのフレーム重なりを使用する低帯域幅オーディオの短いセグメン
ト（８ｋＨｚで約０．２５秒）で、はるかにより効率的に同等のマッチング正確度および
精度を得ることができる。これは、約１／１２の時間量でマッチングを達成するだけでな
く、計算集約度がより低く、品質の低いオーディオサンプルで良好に機能する。

しらみつぶし探索を使用した最小遅延でのデータベース内の音響指紋のリアルタイムマ
ッチング

ほとんどの既存の音響フィンガープリンティングシステムは、有効な一致を達成するた
めにソースオーディオストリームの大きいセグメントを必要とするため、リアルタイム用
途には良好に適合しているとは言えない。この要件は、マッチングされるセグメントの始
まりから一致する指紋が確認され得るまでに数秒の時間遅延を課す。しかしながら、従来
のＡＭＤのような他の信号処理アルゴリズムと協働してリアルタイムでフィンガープリン
ティングを使用するために、フィンガープリンティングシステムは、一致が数分の１秒以
内に起こる可能性があるか否かを確認しなければならない。最小遅延を達成するために、
本発明者らは、数千指紋単位でデータベースに対してリアルタイムでオーディオストリー
ムをマッチングするために最適化されたしらみつぶし探索を使用する手法を提案する。

図８および図９に示すように、前処理の間、フレームあたりＮ個の３進値で、各オーデ
ィオ検出対象につき１つの、３値音響指紋ビットマップの集合が生成される（ステップ３
００）。各指紋について、３値ビットマップが細分化されて複数の均等なセグメントにな
る（ステップ３０２）。一実施形態において、３値ビットマップは、図９に示すように細
分化されて４つの均等なセグメントになる。各セグメントから、ハッシュキーが、１２８
／Ｎフレームの細分化指紋から３進値を抽出することによって得られ（ステップ３０４）
、各ハッシュキーにおいて３進値は合計１２８個になる（すなわち、１２８ビット３値ハ
ッシュキー）。ハッシュキーはより少ないまたはより多い数の値を有してもよいことが明
らかであろう。３値音響指紋ビットマップからこのようにして得られたハッシュキーのす
べてが、その後、凝集されて単一のルックアップテーブルになる（ステップ３０６）。音
響指紋の様々なセグメントからハッシュキーを選択することによって、たとえ候補オーデ
ィオストリームが断続的な録音であり、録音の始まりが受信されていない場合であっても
、マッチングが行われることが可能になる。たとえば、音楽のサンプルを識別するために
この方法を使用する場合、ある歌曲を識別することを望む者は、その歌曲の再生が開始し
たいくらか後まで、識別されるべき歌曲のサンプルの録音を開始しない場合がある（そし
て概ね、そうしない）。音響指紋の異なるセグメントからのハッシュキーを使用すること
によって、候補オーディオストリームとデータベース内の音響指紋との間でさらにマッチ
ングを行うことが可能になる。

図１０は、ハッシュキーのルックアップテーブルが組み立てられた後で実行時に使用さ
れ得るマッチング手順の一実施形態を示す。入力オーディオストリームの新たな各フレー
ムについて、長さＮの新たなビットベクトルを生成するために、２値ビットマップ音響フ
ィンガープリンティングアルゴリズムが使用される（ステップ４００）。先行する１２８
／Ｎフレームの入力オーディオストリームからのビットベクトルが組み合わされて、検索
のための１２８ビット２値ハッシュキーになる（ステップ４０２）。入力オーディオスト
リームの現在の１２８ビットハッシュキーが、マスクハミング距離を計算することによっ
て、ルックアップテーブル内の３値ハッシュキーのすべてに対して比較される（ステップ
４０４）。現代のマイクロプロセッサでは、この計算は、単一命令複数データ命令（Ｉｎ
ｔｅｌｘ８６マイクロプロセッサアーキテクチャに対するＳＳＥまたはＡＶＸＳＩＭＤ
命令セット拡張など）および／または「ポピュレーションカウント」命令によって容易に
並列化および最適化することができる。ルックアップテーブル内の任意のハッシュキーが
十分に短いマスクハミング距離で一致する場合（ステップ４０６）、ハッシュキーに対応
するオーディオ指紋は「候補」として識別される（ステップ４０８）。候補を確立するた
めの閾値ビット誤り率（ＢＥＲ）は、相対的に低い値のσ_{ｃａｎｄｉｄａｔｅ}（たとえば
、３つの標準偏差、ただし、他の閾値が使用されてもよい）に基づいてもよい。候補の全
体的なＢＥＲが相対的に大きい値のσ_{ｎｏｔｉｆｙ}（たとえば、９個の標準偏差、ただし
、他の閾値が使用されてもよい）を超える場合（ステップ４１０）、この候補は一致であ
ると決定される（ステップ４１２）。一致が判定されなかった場合、プロセスはステップ
４００に戻り、長さＮの新たなビットベクトルを生成するために次のフレームが使用され
る。後続のフレームを分析し続けることによって、プロセスは、マスクハミング距離が閾
値に収まるかに基づいて、すべての候補を一致または不一致として解決することが可能で
ある。

大きいオーディオ集合からの一般的な録音について指紋を抽出するための方法

上記の説明から明らかになるように、オーディオサンプルを、既知の録音のデータベー
スとマッチングするためのシステムおよび方法が提供される。上記で説明されたシステム
および方法は、計算効率的であり、データベース内の音響指紋との一致を識別することが
可能であるが、データベース内の音響指紋によって表されることになる録音を効率的に識
別する方法において、問題が残っている。そうするために以下において説明される方法は
、電話コンタクトセンターのコンテキストにおいて説明されるが、当業者は、本開示から
、本方法が、任意のタイプのソースオーディオ、画像、または他のタイプのデータに関係
する指紋データベースのコンパイルに適用され得ることを認識しよう。

コンタクトセンターからの相当に大きいキャンペーンによって、毎日数千の発信呼のデ
ジタル録音が生成され得る。この録音の集合から、将来の通話呼キャンペーンにおいてＣ
ＰＡを補助するために、対象のコールプログレス事象を含むすべてのオーディオセグメン
トを抽出することが目標となる。たとえば、キャンペーンにおける多くの通話呼が、同じ
ネットワークまたはサブネットワーク上の複数の番号にダイヤルされ、これによって、各
加入者に同一の録音されたグリーティングが再生される。自動化データ駆動技法がなけれ
ば、いずれの音響指紋から候補セグメントが抽出され得るかを識別ｓルウために、大量の
データが人間の被験者によって聞かれなければならない。本発明者らは、大きい録音集合
内の共通の録音を自動的に識別するためのオフラインプロセスを提案し、それによって、
ＣＰＡの正確度を改善するために将来の通話呼キャンペーンにおいて録音が検出され得る
。本発明において指紋の自動識別に使用されるプロセスが、図１１に概略的に示されてい
る。

ステップ５００において、ＡＭＤおよび音響フィンガープリンティングと組み合わされ
た（データベースがすでに何らかの既知の録音についての音響指紋を含む場合）ＣＰＡシ
ステムが、そこで検出される事象に基づいて、集合内のすべての録音を分類するのに使用
される。従来のＡＭＤを使用して生身の発話者または留守番電話として分類されたすべて
の録音について、ステップ５０２において、無言、背景雑音、または純音を含まないオー
ディオセグメントの終了点が識別される。たとえば、発話パターン、音楽、非発話信号な
どを含むオーディオセグメントが、ステップ５０２において識別される。ステップ５０４
において、上記で説明された方法を使用してすべての識別されたセグメントについて３値
音響指紋ビットマップが生成される（３値ビットマップの代わりに２値音響指紋ビットマ
ップを使用することができることは明らかであろう）。ステップ５０６において、これら
の新たな音響指紋が音響指紋データベースに加えられる。その後、ステップ５０８におい
て、新たに増補された３値音響指紋データベースを使用して、集合内の録音のすべてがＣ
ＰＡ／ＡＭＤシステムによって再処理される。ステップ５１０において、システムは、固
有でなく複数回検出された、増補された指紋（すなわち、増補された音響指紋のうち、複
数のものと一致したとして処理されている、集合内の録音、これは、これらがその集合に
おいて複数回受けた録音の音響指紋であることを示す）を識別する。複数回発見された任
意の音響指紋は、対象のコールプログレス事象の候補である可能性が高く、それゆえ、ス
テップ５１２において、将来のＣＰＡタスクにおいて使用するために、音響指紋データベ
ース内に残される。ステップ５１４において、他の増補された指紋のすべて（すなわち、
複数回検出されなかった新たな音響指紋）は、音声発話の固有のオーディオセグメントを
表し、それゆえ、録音されたネットワークメッセージであると判定することができないた
め、データベースから消去される。このように、大きい録音（または画像もしくは他のデ
ータの）集合を調べ、そこから複数回受けた録音の指紋を抽出するために自動化システム
が使用され得る。この方法は、音響指紋データベースが自動的に構築され、様々な電話会
社において回線内に持ち込まれ得る新たなネットワークメッセージを計上するために継続
的に更新されることを可能にする。

上記の説明から分かるように、様々な実施形態が、入力オーディオセグメントの、デー
タベース内の既知のオーディオセグメントとのマッチングを可能にする。オーディオセグ
メントは任意のソースに由来し、発話、発信音、音楽のような任意のタイプのオーディオ
、または、認識されることが所望される任意の他のオーディオを含み得る。例示的な実施
形態において、発信電話呼の間に受ける既知のネットワークメッセージ記録の認識ととも
に、本明細書において開示されるシステムおよび方法を使用することが説明された。しか
しながら、当業者は、開示されるシステムおよび方法が、任意の形態のオーディオ、画像
、または他のタイプのデータのような、任意のタイプの２次元以上のデータセットの認識
に用途を見出すことになることを認識しよう。

ステップ、ソフトウェアブロック、データおよびデータ構造体の編成は明瞭に線引きさ
れているものとして示されているが、当業者には、ステップ、ブロックおよびデータ間の
線引きはいくらか任意裁量によることは明らかであろう。ステップ、ソフトウェアブロッ
クおよびデータの多数の他の構成が可能である。

最後に、本発明は、本発明を実行するためのいくつかの実施形態の例示にすぎず、形態
、部分の構成、ステップ、詳細および動作の順序の修正を受け入れる余地がある、本明細
書に記載されている実施形態には限定されないことは理解されよう。そうではなく、本発
明は、特許請求の範囲の範囲によって規定されるような、その精神および範囲内で、すべ
てのそのような修正を包含するように意図されている。

Claims

マイクロプロセッサを含むシステムによってなされる、データセットの３値ビットマップを作成するための方法であって、
ａ）前記データセットの２値指紋ビットマップを計算するステップと、
ｂ）前記データセットから第１の数のサンプルを消去するステップと、
ｃ）ステップ（ｂ）の後、前記データセットの別の２値指紋ビットマップを計算するステップと、
ｄ）複数の２値指紋ビットマップを作成するために、ステップ（ｂ）および（ｃ）を複数回繰り返すステップと、
ｅ）前記複数の２値指紋ビットマップを組み合わせて３値ビットマップにするステップであって、前記３値ビットマップ内の各ビットは、
ｅ．１）前記複数の２値ビットマップのうちの第１の所定数においてビットが０である場合、前記３値ビットマップ内の前記ビットを０に設定し、
ｅ．２）前記複数の２値ビットマップのうちの第２の所定数においてビットが１である場合、前記３値ビットマップ内の前記ビットを１に設定し、
ｅ．３）それ以外の場合、前記３値ビットマップ内の前記ビットを＊（「Ｄｏｎ’ｔＣａｒｅ」）に設定するように決定される、組み合わせるステップと
を含む、方法。
前記第１の数のサンプルは、前記データセットからの第１の複数のサンプルを含む、請求項１に記載の方法。
前記第１の所定数は前記複数の２値ビットマップのすべてを含み、前記第２の所定数は前記複数の２値ビットマップのすべてを含む、請求項１に記載の方法。
前記第１の所定数および前記第２の所定数は等しい、請求項１に記載の方法。
前記データセットはステップ（ａ）の前に人工的に劣化される、請求項１に記載の方法。
前記２値指紋ビットマップは音響指紋ビットマップを含む、請求項１に記載の方法。
前記データセットはオーディオセグメントを含む、請求項１に記載の方法。
前記オーディオセグメントは発信電話呼からのオーディオセグメントを含む、請求項７に記載の方法。
マイクロプロセッサを含むシステムによってなされる、候補データセットを識別するための方法であって、
ａ）既知のデータセットデータベース内の既知のデータセットの２値指紋ビットマップを計算するステップと、
ｂ）前記既知のデータセットから第１の数のサンプルを消去するステップと、
ｃ）ステップ（ｂ）の後、前記既知のデータセットの別の２値指紋ビットマップを計算するステップと、
ｄ）複数の２値指紋ビットマップを作成するために、ステップ（ｂ）および（ｃ）を複数回繰り返すステップと、
ｅ）前記複数の２値指紋ビットマップを組み合わせて３値ビットマップにするステップであって、前記３値ビットマップ内の各ビットは、
ｅ．１）前記複数の２値ビットマップのうちの第１の所定数においてビットが０である場合、前記３値ビットマップ内の前記ビットを０に設定し、
ｅ．２）前記複数の２値ビットマップのうちの第２の所定数においてビットが１である場合、前記３値ビットマップ内の前記ビットを１に設定し、
ｅ．３）それ以外の場合、前記３値ビットマップ内の前記ビットを＊（「Ｄｏｎ’ｔＣａｒｅ」）に設定するように決定される、組み合わせるステップと、
ｆ）前記３値ビットマップを３値ビットマップデータベース内に保存するステップと、
ｇ）前記既知のデータセットデータベース内のすべての既知のデータセットについてステップ（ａ）〜（ｆ）を繰り返すステップと、
ｈ）前記候補データセットから候補データセット２値指紋ビットマップを作成するステップと、
ｉ）前記候補データセット２値指紋ビットマップを前記３値ビットマップデータベース内の各３値ビットマップと比較するステップであって、前記比較は前記Ｄｏｎ’ｔＣａｒｅビットを無視する、比較するステップと
を含む、方法。
前記第１の数のサンプルは、前記データセットからの第１の複数のサンプルを含む、請求項９に記載の方法。
前記第１の所定数は前記複数の２値ビットマップのすべてを含み、前記第２の所定数は前記複数の２値ビットマップのすべてを含む、請求項９に記載の方法。
前記第１の所定数および前記第２の所定数は等しい、請求項９に記載の方法。
前記データセットはステップ（ａ）の前に人工的に劣化される、請求項９に記載の方法。
前記２値指紋ビットマップおよび前記候補２値指紋ビットマップは各々、音響指紋ビットマップを含む、請求項９に記載の方法。
前記データセットはオーディオセグメントを含む、請求項９に記載の方法。
前記オーディオセグメントは発信電話呼からのオーディオセグメントを含む、請求項１５に記載の方法。
マイクロプロセッサを含むシステムによってなされる、オーディオセグメントの３値ビットマップを作成するための方法であって、
ａ）前記オーディオセグメントの２値音響指紋ビットマップを計算するステップと、
ｂ）前記オーディオセグメントから第１の数のサンプルを消去するステップと、
ｃ）ステップ（ｂ）の後、前記オーディオセグメントの別の２値音響指紋ビットマップを
計算するステップと、
ｄ）複数の２値音響指紋ビットマップを作成するために、ステップ（ｂ）および（ｃ）を複数回繰り返すステップと、
ｅ）前記複数の２値音響指紋ビットマップを組み合わせて３値ビットマップにするステップであって、前記３値ビットマップ内の各ビットは、
ｅ．１）前記複数の２値ビットマップのうちの第１の所定数においてビットが０である場合、前記３値ビットマップ内の前記ビットを０に設定し、
ｅ．２）前記複数の２値ビットマップのうちの第２の所定数においてビットが１である場合、前記３値ビットマップ内の前記ビットを１に設定し、
ｅ．３）それ以外の場合、前記３値ビットマップ内の前記ビットを＊（「Ｄｏｎ’ｔＣａｒｅ」）に設定するように決定される、組み合わせるステップと
を含む、方法。
前記第１の数のサンプルは、前記オーディオセグメントからの第１の複数のサンプルを含む、
請求項１７に記載の方法。
前記第１の所定数は前記複数の２値ビットマップのすべてを含み、前記第２の所定数は前記複数の２値ビットマップのすべてを含む、請求項１７に記載の方法。
前記第１の所定数および前記第２の所定数は等しい、請求項１７に記載の方法。
データセットがステップ（ａ）の前に人工的に劣化される、請求項１７に記載の方法。
前記オーディオセグメントは発信電話呼からのオーディオセグメントを含む、請求項１７に記載の方法。
マイクロプロセッサを含むシステムによってなされる、候補オーディオセグメントを識別するための方法であって、
ａ）既知のオーディオセグメントデータベース内の既知のオーディオセグメントの２値音
響指紋ビットマップを計算するステップと、
ｂ）前記既知のオーディオセグメントから第１の数のサンプルを消去するステップと、
ｃ）ステップ（ｂ）の後、前記既知のオーディオセグメントの別の２値音響指紋ビットマップを計算するステップと、
ｄ）複数の２値音響指紋ビットマップを作成するために、ステップ（ｂ）および（ｃ）を複数回繰り返すステップと、
ｅ）前記複数の２値音響指紋ビットマップを組み合わせて３値ビットマップにするステップであって、前記３値ビットマップ内の各ビットは、
ｅ．１）前記複数の２値ビットマップのうちの第１の所定数においてビットが０である場合、前記３値ビットマップ内の前記ビットを０に設定し、
ｅ．２）前記複数の２値ビットマップのうちの第２の所定数においてビットが１である場合、前記３値ビットマップ内の前記ビットを１に設定し、
ｅ．３）それ以外の場合、前記３値ビットマップ内の前記ビットを＊（「Ｄｏｎ’ｔＣａｒｅ」）に設定するように決定される、組み合わせるステップと、
ｆ）前記３値ビットマップを３値ビットマップデータベース内に保存するステップと、
ｇ）前記既知のオーディオセグメントデータベース内のすべての既知のオーディオセグメントについてステップ（ａ）〜（ｆ）を繰り返すステップと、
ｈ）前記候補オーディオセグメントから候補オーディオセグメント２値音響指紋ビットマップを作成するステップと、
ｉ）前記候補オーディオセグメント２値音響指紋ビットマップを前記３値ビットマップデータベース内の各３値ビットマップと比較するステップであって、前記比較は前記Ｄｏｎ’ｔＣａｒｅビットを無視する、比較するステップと
を含む、方法。
前記第１の数のサンプルは、前記データセットからの第１の複数のサンプルを含む、請求項２３に記載の方法。
前記第１の所定数は前記複数の２値ビットマップのすべてを含み、前記第２の所定数は前記複数の２値ビットマップのすべてを含む、請求項２３に記載の方法。
前記第１の所定数および前記第２の所定数は等しい、請求項２３に記載の方法。
前記データセットはステップ（ａ）の前に人工的に劣化される、請求項２３に記載の方法。
前記オーディオセグメントは発信電話呼からのオーディオセグメントを含む、請求項２３に記載の方法。