JP2021122125A

JP2021122125A - 動画による音楽サービス

Info

Publication number: JP2021122125A
Application number: JP2021073981A
Authority: JP
Inventors: マルクスケイクレマー; K Cremer Markus
Original assignee: Gracenote Inc
Current assignee: Gracenote Inc
Priority date: 2017-03-31
Filing date: 2021-04-26
Publication date: 2021-08-26
Anticipated expiration: 2038-03-30
Also published as: KR102426468B1; US10897644B2; US11240551B2; US20240048793A1; US10462512B2; JP2020512789A; KR20210088014A; JP6876825B2; KR102312686B1; KR20200009128A; JP7227298B2; CN112616081A; CN110476433B; KR20210125612A; KR102540087B1; US20210120304A1; US11770578B2; KR102069106B1; KR102242226B1; JP2023063298A

Abstract

【課題】動画コンテンツの提示を音声コンテンツの提示と組み合わせること。【解決手段】音声コンテンツと共に動画コンテンツを提供する技術が開示される。いくつかの例としての実施形態では、コンピュータ実装システムは、主要な音声コンテンツを受信することと、少なくとも１つの基準音声コンテンツとの主要な音声コンテンツの比較に基づいて、少なくとも１つの基準音声コンテンツが予め定められた類似閾値を満たすと判定することと、少なくとも１つの基準音声コンテンツの各々の１つに対し、動画コンテンツが、少なくとも１つの基準音声コンテンツの１つと関連して記憶されており、かつ主要な音声コンテンツと関連して記憶されていないことに基づいて、動画コンテンツを識別することと、デバイス上での主要な音声コンテンツの提示と同時に、識別された動画コンテンツをデバイス上で表示させることと、を含む動作を実行するように構成される。【選択図】図１

Description

関連出願の相互参照
本出願は、その全体を参照することによって以下に組み込まれる、２０１７年３月３１日に出願された米国特許出願第１５／４７５，４８８号に対する優先権を主張する。

本出願は概して、データ処理の技術分野に関し、様々な実施形態では、音声コンテンツと共に動画コンテンツを提供する方法及びシステムに関する。

音声コンテンツの提示は、対応する動画コンテンツを欠くことが多い。動画コンテンツの提示をそのような音声コンテンツの提示と組み合わせることは、それに限定されないが、どの動画コンテンツを使用するか、及びどのように動画コンテンツを音声コンテンツと組み合わせるかを判定することを含む、多くの技術的課題を提起する。

本開示のいくつかの実施形態は、同一の符号が同様の要素を示す、添付図面の図において限定ではなく、例として表される。

いくつかの例としての実施形態に従った、音声コンテンツと共に動画コンテンツを提供するのに適切なネットワーク環境を表すブロック図である。いくつかの例としての実施形態に従った、複数の基準音声コンテンツとの主要な音声コンテンツの比較を表す。いくつかの例としての実施形態に従った、主要な音声コンテンツとの動画コンテンツの同期を表す概念図である。いくつかの例としての実施形態に従った、主要な音声コンテンツとの動画コンテンツの同期を表す概念図である。いくつかの例としての実施形態に従った、主要な音声コンテンツとの異なる動画コンテンツの同期を表す概念図である。いくつかの例としての実施形態に従った、主要な音声コンテンツとの異なる動画コンテンツの同期を表す概念図である。いくつかの例としての実施形態に従った、音声コンテンツと共に動画コンテンツを提供する方法を表すフローチャートである。いくつかの例としての実施形態に従った、デバイス上での音声コンテンツの提示と同時に動画コンテンツをデバイス上で表示させる方法を表すフローチャートである。いくつかの例としての実施形態に従った、モバイルデバイスを表すブロック図である。いくつかの例としての実施形態に従った、本明細書で説明される方法論が実行されることができる例としてのコンピュータシステムのブロック図である。

音声コンテンツと共に動画コンテンツを提供する例としての方法及びシステムが開示される。以下の説明では、説明を目的として、例としての実施形態の完全な理解を提供するために、多くの特定の詳細が示される。しかしながら、本実施形態がそれらの特定の詳細なしに実施されてもよいことが当業者にとって明らかである。

いくつかの例としての実施形態では、コンピュータにより実行される方法は、主要な音声コンテンツを受信することと、少なくとも１つの基準音声コンテンツとの主要な音声コンテンツの比較に基づいて、少なくとも１つの基準音声コンテンツが予め定められた類似閾値を満たすと判定することと、少なくとも１つの基準音声コンテンツの各々の１つに対し、動画コンテンツが、少なくとも１つの基準音声コンテンツの１つと関連して記憶されており、かつ主要な音声コンテンツと関連して記憶されていないことに基づいて、動画コンテンツを識別することと、デバイス上での主要な音声コンテンツの提示と同時に、識別された動画コンテンツをデバイス上で表示させることと、を含む。いくつかの例としての実施形態では、主要な音声コンテンツは、音楽を含む。

いくつかの例としての実施形態では、比較は、少なくとも１つの基準音声コンテンツのフィンガープリントデータとの主要な音声コンテンツのフィンガープリントデータの比較を含む。

いくつかの例としての実施形態では、動画コンテンツの識別は更に、デバイスと関連付けられたユーザのプロファイルに基づいている。

いくつかの例としての実施形態では、デバイス上での主要な音声コンテンツの提示と同時に、識別された動画コンテンツをデバイス上で表示させることは、少なくとも１つの基準音声コンテンツのデータを主要な音声コンテンツのデータと同期することと、主要な音声コンテンツのデータとの少なくとも１つの基準音声コンテンツのデータの同期に基づいて、識別された動画コンテンツを主要な音声コンテンツと同期することと、を含む。いくつかの例としての実施形態では、主要な音声コンテンツのデータとの少なくとも１つの基準音声コンテンツのデータの同期は、主要な音声コンテンツのフィンガープリントとの少なくとも１つの基準音声コンテンツのフィンガープリントデータの比較に基づいている。

いくつかの例としての実施形態では、少なくとも１つの基準音声コンテンツは、少なくとも２つの基準音声コンテンツを含み、少なくとも２つの基準音声コンテンツの各々の１つは、異なる動画コンテンツと関連して記憶され、識別された動画コンテンツは、異なる動画コンテンツの各々の一部を含む。

本明細書で開示される方法または実施形態は、１つ以上のモジュール（例えば、ハードウェアモジュールまたはソフトウェアモジュール）を有するコンピュータシステムとして実装されることができる。そのようなモジュールは、コンピュータシステムの１つ以上のプロセッサによって実行されることができる。本明細書で開示される方法または実施形態は、１つ以上のプロセッサによって実行されるとき、１つ以上のプロセッサに命令を実行させるマシン可読媒体に記憶された命令として具体化されることができる。

図１は、いくつかの例としての実施形態に従った、音声コンテンツと共に動画コンテンツを提供するのに適切なネットワーク環境１００を表すブロック図である。ネットワーク環境１００は、コンテンツプロバイダ１１０、１つ以上のデバイス１３０、及び１つ以上のデータソース１４０（例えば、データソース１４０−１〜データソース１４０−Ｎ）を含み、それらの全ては、ネットワーク１２０を介して相互に通信可能に結合される。コンテンツプロバイダ１１０、デバイス（複数可）１３０、及びデータソース（複数可）１４０は各々、図８に関して以下で説明されるように、全体的にまたは部分的にコンピュータシステムにおいて実装されてもよい。

また、図１に示されるのは、ユーザ１３２である。ユーザ１３２は、人間ユーザ（例えば、人間）、マシンユーザ（例えば、デバイス１３０と対話するようにソフトウェアプログラムによって構成されたコンピュータ）、またはそれらのいずれかの適切な組み合わせ（例えば、マシンによって補助される人間もしくは人間によって監督されるマシン）であってもよい。ユーザ１３２は、ネットワーク環境１００の一部ではないが、デバイス１３０と関連付けられ、デバイス１３０のユーザであってもよい。例えば、デバイス１３０は、ユーザ１３２に属するデスクトップコンピュータ、車両コンピュータ、タブレットコンピュータ、ナビゲーションデバイス、ポータブルメディアデバイス、またはスマートフォンであってもよい。

図１に示されるマシン、プロバイダ、モジュール、データベース、デバイス、またはデータソースのいずれかは、そのマシン、プロバイダ、モジュール、データベース、デバイス、またはデータソースについて本明細書で説明される機能のうちの１つ以上を実行するように、特殊目的コンピュータとなるようにソフトウェアによって修正された（例えば、構成またはプログラムされた）コンピュータにおいて実装されてもよい。例えば、本明細書で説明される方法論のうちのいずれか１つ以上を実装することが可能なコンピュータシステムは、図８に関して以下で議論される。本明細書で使用されるように、「データベース」は、データストレージリソースであり、テキストファイル、テーブル、スプレッドシート、関係データベース（例えば、オブジェクト関係データベース）、トリプルストア、階層データストア、またはそれらのいずれかの適切な組み合わせとして構造化されたデータを記憶してもよい。その上、図１に表されるデータベース、デバイス、またはデータソースのうちのいずれか２つ以上は、単一のマシンに組み合わされてもよく、いずれかの単一のデータベース、デバイス、またはデータソースについて本明細書で説明される機能は、複数のデータベース、デバイス、またはデータソースの間で更に分割されてもよい。

ネットワーク１２０は、マシン、データベース、及びデバイスの間または中での通信を可能にするいずれかのネットワークであってもよい。したがって、ネットワーク１２０は、有線ネットワーク、無線ネットワーク（例えば、モバイルもしくはセルラネットワーク）、またはそれらのいずれかの適切な組み合わせであってもよい。ネットワーク１２０は、プライベートネットワーク、パブリックネットワーク（例えば、インターネット）、またはそれらのいずれかの適切な組み合わせを構成する１つ以上の部分を含んでもよい。したがって、ネットワーク１２０は、ローカルエリアネットワーク（ＬＡＮ）、ワイドエリアネットワーク（ＷＡＮ）、インターネット、携帯電話ネットワーク（例えば、セルラネットワーク）、有線電話ネットワーク（例えば、旧来型電話システム（ＰＯＴＳ）ネットワーク）、無線データネットワーク（例えば、ＷｉＦｉネットワークもしくはＷｉＭａｘネットワーク）、またはそれらのいずれかの適切な組み合わせを組み込む１つ以上の部分を含んでもよい。ネットワーク１９０のいずれかの１つ以上の部分は、伝送媒体を介して情報を通信してもよい。本明細書で使用されるように、「伝送媒体」は、マシンによる実行のための命令を記憶、符号化、または実行する能力を有し、そのようなソフトウェアの通信を促進するように、デジタルもしくはアナログ通信信号または他の無形媒体を含む、いずれかの無形媒体を含むものと考えられるべきである。

コンテンツプロバイダ１１０は、デバイス１３０などのデバイスに音声コンテンツ及びビデオコンテンツを提供するように構成されたコンピュータシステムを含む。いくつかの例としての実施形態では、コンテンツプロバイダ１１０は、基準判定モジュール１１２、ビデオ識別モジュール１１４、提示モジュール１１６、及び１つ以上のデータベース１１８のうちの１つ以上のいずれかの組み合わせを含む。いくつかの例としての実施形態では、モジュール１１２、１１４、及び１１６、並びにデータベース（複数可）１１８は、メモリ及び少なくとも１つのプロセッサを有するマシンに存在する。いくつかの例としての実施形態では、モジュール１１２、１１４、及び１１６、並びにデータベース（複数可）１１８は、同一のマシンに存在するが、他の例としての実施形態では、モジュール１１２、１１４、及び１１６、並びにデータベース（複数可）１１８のうちの１つ以上は、ネットワーク１２０などのネットワークを介して相互に通信する別個のリモートマシンに存在する。

いくつかの例としての実施形態では、基準判定モジュール１１２は、主要な音声コンテンツを受信するように構成される。音声コンテンツは、単一の歌の記録などの音楽を含んでもよい。しかしながら、他のタイプの音声コンテンツも本開示の範囲内にあることが考慮される。いくつかの例としての実施形態では、基準判定モジュール１１２は、基準音声コンテンツとの主要な音声コンテンツの比較に基づいて、予め定められた類似閾値を満たす少なくとも１つの基準音声コンテンツを識別し、またはそれ以外の方法により判定するように構成される。例えば、基準判定モジュール１１２は、予め定められた類似閾値を満たす基準音声コンテンツについて、データベース（複数可）１１８に記憶された複数の基準音声コンテンツを検索してもよい。加えて、または代わりに、基準判定モジュール１１２は、予め定められた類似閾値を満たす基準音声コンテンツについて、１つ以上の外部データソース１４０を検索してもよい。外部データソース１４０は、コンテンツプロバイダ１１０とは別個であり、独立したデータソースを含んでもよい。

いくつかの例としての実施形態では、基準音声コンテンツとの主要な音声コンテンツの比較は、基準音声コンテンツのデータとの主要な音声コンテンツのデータの比較を含む。比較されるデータは、対応する音声コンテンツを一意に識別し、または特徴付けるフィンガープリントデータを含んでもよい。図２は、いくつかの例としての実施形態に従った、複数の基準音声コンテンツとの主要な音声コンテンツの比較を表す。図２では、主要な音声コンテンツ２１０のフィンガープリントデータ２１２は、複数の基準音声コンテンツ２２０（例えば、基準音声コンテンツ２２０−１、…、基準音声コンテンツ２２０−Ｎ）の複数のフィンガープリントデータ２２２（例えば、フィンガープリントデータ２２２−１、…、フィンガープリントデータ２２２−Ｎ）と比較される。いくつかの例としての実施形態では、各々の比較は、主要な音声コンテンツと基準音声コンテンツとの間の類似のレベルを示す対応する統計データを生成する。そのような統計データの１つの実施例は、ビット誤り率である。しかしながら、他の統計データも本開示の範囲内にあることが考慮される。いくつかの例としての実施形態では、基準判定モジュール１１２は、基準音声コンテンツ２２０に対応する統計データが予め定められた閾値を満たすかどうかを判定する。

いくつかの例としての実施形態では、基準判定モジュール１１２は、主要な音声コンテンツ２１０のフィンガープリントデータ２１２と基準音声コンテンツ２２０のフィンガープリントデータ２２２との間の正確なフィンガープリントの一致を、予め定められた閾値として使用する。例えば、基準判定モジュール１１２は、音声記録の１つのバージョン（例えば、圧縮されたまたはノイズのある）を悪化していない同一の音声記録のバージョンと一致させるように複数の基準音声コンテンツ２２０を検索する。

いくつかの例としての実施形態では、基準判定モジュール１１２は、主要な音声コンテンツ２１０のフィンガープリントデータ２１２と基準音声コンテンツ２２０のフィンガープリントデータ２２２との間のファジーなフィンガープリントの一致を、予め定められた閾値として使用するように構成される。例えば、基準判定モジュール１１２は、複数の基準音声コンテンツ２２０を検索してもよく、歌の記録（または、演劇の実演もしくはナレーションなど）を同一の歌（または、演劇の実演もしくはナレーションなど）の異なる実演または記録と一致させてもよい。

いくつかの例としての実施形態では、基準判定モジュール１１２は、主要な音声コンテンツ２１０及び基準音声コンテンツ２２０のそのような音声特性の和音、リズム特徴、及び楽器の開始など、音声特性の間の一致を、予め定められた閾値として使用するように構成される。例えば、基準判定モジュール１１２は、複数の基準音声コンテンツ２２０を検索してもよく、２つの異なる歌のリズム特徴の間の高レベルの類似の判定に基づいて２つの異なる歌を一致させることなど、異なる音声記録の音声特性の間の特定のレベルの類似に単純に基づいて、１つの音声記録を別の音声記録と一致させてもよい。

いくつかの例としての実施形態では、類似閾値を満たすと判定された基準音声コンテンツ２２０のうちの１つ以上に対し、ビデオ識別モジュール１１４は、動画コンテンツが、基準音声コンテンツと関連して記憶されており、かつ主要な音声コンテンツと関連して記憶されていないことに基づいて、動画コンテンツを識別する。いくつかの例としての実施形態では、ビデオ識別モジュール１１４は、主要な音声コンテンツ及び識別された動画コンテンツの組み合わせが提示されるデバイス１３０と関連付けられたユーザ１３２のプロファイルにも基づいて、動画コンテンツを識別するように構成される。いくつかの例としての実施形態では、ユーザプロファイルは、データベース（複数可）１１８に記憶される。ユーザ１３２のプロファイルは、ユーザ１３２によって聞かれる音声コンテンツの履歴、ユーザ１３２が特定のタイプまたはカテゴリの音声コンテンツを好むインジケーション、音声コンテンツの購入履歴、ユーザ１３２によって参照される動画コンテンツの履歴、ユーザ１３２が特定のタイプまたはカテゴリの動画を好むインジケーション、及びユーザ１３２に関する人口動態情報（例えば、性別、年齢、地理的位置）のうちの１つ以上のいずれかの組み合わせを含んでもよい。特定のタイプの音声コンテンツまたは特定のタイプのビデオコンテンツについての潜在的な好みを示す他のタイプの情報も、ユーザ１３２のプロファイルに含まれてもよい。いくつかの異なる動画コンテンツが類似閾値を満たすシナリオでは、ビデオ識別モジュール１１４は、どの動画コンテンツがユーザ１３２に最も関連するかどうかの判定に基づいて、１つ以上の動画コンテンツを選択するためにユーザ１３２のプロファイルを使用してもよい。

いくつかの例としての実施形態では、提示モジュール１１６は、デバイス１３２上での主要な音声コンテンツの提示と同時に、デバイス１３０上でビデオ識別モジュール１１４によって識別された動画コンテンツを表示させるように構成される。主要な音声コンテンツが歌を含むいくつかの例としての実施形態では、コンテンツプロバイダ１１０はよって、コンテンツプロバイダ１１０が音楽ビデオを記憶していた歌についての音楽ビデオを動的に生成している。

いくつかの例としての実施形態では、提示モジュール１１６は、基準音声コンテンツのデータを主要な音声コンテンツのデータと同期し、次いで、主要な音声コンテンツのデータとの基準音声コンテンツのデータの同期に基づいて、識別された動画コンテンツを主要な音声コンテンツと同期するように構成される。いくつかの例としての実施形態では、主要な音声コンテンツのデータとの基準音声コンテンツのデータの同期は、主要な音声コンテンツのフィンガープリントデータとの基準音声コンテンツのフィンガープリントデータの比較に基づいている。

図３Ａ〜３Ｂは、いくつかの例としての実施形態に従った、主要な音声コンテンツとの動画コンテンツの同期を表す概念図である。図３Ａでは、主要な音声コンテンツ２１０は、音声セグメント３１０−１、３１０−２、３１０−３、及び３１０−４から構成されるとして示され、基準音声コンテンツ２２０は、音声セグメント３２０−１、３２０−２、３２０−３、及び３２０−４から構成されるとして示される。基準音声コンテンツ２２０はまた、ビデオセグメント３２２−１、３２２−２、３２２−３、及び３２２−４から構成されるとして示される、動画コンテンツ３２０と関連して記憶されるとして示される。他のセグメント化構成も本開示の範囲内にあることが考慮される。図３Ａでは、主要な音声コンテンツ２１０の音声セグメント３１０及び基準音声コンテンツ２２０の音声セグメント３２０は、提示モジュール１１６がそれらを同期した結果として、それらのそれぞれのタイムスタンプに従って時間ドメインに沿って調節される。同様に、動画コンテンツ３２０のビデオセグメント３２２は、それが関連付けられる基準音声コンテンツ２２０の音声セグメント３２０と調節される。

図３Ｂでは、主要な音声コンテンツ２１０の音声セグメント３１０との基準音声コンテンツ２２０の音声セグメント３２０の同期と共に、基準音声コンテンツ２２０の音声セグメント３２０との動画コンテンツ３２０のビデオセグメント３２２の同期を使用して、提示モジュール１１６は、動画コンテンツ３２０のビデオセグメント３２２を主要な音声コンテンツ２１０の音声セグメント３１０と同期する。

いくつかの例としての実施形態では、複数の異なる基準音声コンテンツと関連付けられた複数の異なる動画コンテンツからの部分は、主要な音声コンテンツと組み合わされる。図４Ａ〜４Ｂは、いくつかの例としての実施形態に従った、主要な音声コンテンツとの異なる動画コンテンツの同期を表す概念図である。図４Ａでは、図３Ａと同様に、主要な音声コンテンツ２１０は、音声セグメント３１０−１、３１０−２、３１０−３、及び３１０−４から構成されるとして示され、基準音声コンテンツ２２０は、音声セグメント３２０−１、３２０−２、３２０−３、及び３２０−４から構成されるとして示される。基準音声コンテンツ２２０はまた、ビデオセグメント３２２−１、３２２−２、３２２−３、及び３２２−４から構成されるとして示される、動画コンテンツ３２０と関連して記憶されるとして示される。主要な音声コンテンツ２１０の音声セグメント３１０及び基準音声コンテンツ２２０の音声セグメント３２０は、提示モジュール１１６がそれらを同期した結果として、それらのそれぞれのタイムスタンプに従って時間ドメインに沿って調節される。同様に、動画コンテンツ３２０のビデオセグメント３２２は、それが関連付けられる基準音声コンテンツ２２０の音声セグメント３２０と調節される。

加えて、図４Ａでは、別の基準音声コンテンツ４２０は、音声セグメント４２０−１、４２０−２、４２０−３、及び４２０−４から構成されるとして示される。基準音声コンテンツ４２０はまた、ビデオセグメント４２２−１、４２２−２、４２２−３、及び４２２−４から構成されるとして示される、動画コンテンツ４２０と関連して記憶されるとして示される。基準音声コンテンツ４２０の音声セグメント４２０−１、４２０−２、４２０−３、及び４２０−４、並びにビデオセグメント４２２−１、４２２−２、４２２−３、及び４２２−４は、主要な音声コンテンツ２１０の音声セグメント３１０−１、３１０−２、３１０−３、及び３１０−４と調節される。

同期を使用して、提示モジュール１１６は、動画コンテンツ３２０の部分及び動画コンテンツ４２０の部分から動画コンテンツ４２５を生成する。結果として、ビデオセグメント３２２−１は、音声セグメント３１０−１と同期され、ビデオセグメント３２２−２は、音声セグメント３１０−２と同期され、ビデオセグメント４２２−３は、音声セグメント３１０−３と同期され、ビデオセグメント４２２−４は、音声セグメント３１０−４と同期される。

いくつかの例としての実施形態では、提示モジュール１１６は、主要な音声コンテンツ２１０の音声セグメント３１０と基準音声コンテンツ２２０の音声セグメント３２０との間の正確なフィンガープリントの一致に基づいて、主要な音声コンテンツ２１０の音声セグメント３１０を基準音声コンテンツ２２０の音声セグメント３２０と同期するように構成される。例えば、提示モジュール１１６は、音声記録の１つのバージョン（例えば、圧縮されたまたはノイズのある）と悪化していない同一の音声記録のバージョンとの間の一致に基づいて、主要な音声コンテンツ２１０の音声セグメント３１０を基準音声コンテンツ２２０の音声セグメント３２０と同期してもよい。

いくつかの例としての実施形態では、提示モジュール１１６は、主要な音声コンテンツ２１０の音声セグメント３１０と基準音声コンテンツ２２０の音声セグメント３２０との間のファジーなフィンガープリントの一致に基づいて、主要な音声コンテンツ２１０の音声セグメント３１０を基準音声コンテンツ２２０の音声セグメント３２０と同期するように構成される。例えば、提示モジュール１１６は、歌の記録（または、演劇の実演もしくはナレーションなど）と同一の歌（または、演劇の実演もしくはナレーションなど）の異なる実演または記録との間の一致に基づいて、主要な音声コンテンツ２１０の音声セグメント３１０を基準音声コンテンツ２２０の音声セグメント３２０と同期してもよい。

いくつかの例としての実施形態では、提示モジュール１１６は、和音、リズム特徴、及び楽器の開始など、主要な音声コンテンツ２１０の音声セグメント３１０の音声特性と基準音声コンテンツ２２０の音声セグメント３２０のそのような音声特性との間の一致を使用して、主要な音声コンテンツ２１０の音声セグメント３１０を基準音声コンテンツ２２０の音声セグメント３２０と同期するように構成される。例えば、提示モジュール１１６は、２つの異なる歌のリズム特徴の間の高レベルの類似の判定に基づいて２つの異なる歌を同期することなど、異なる音声記録の音声特性の間の特定のレベルの類似に基づいて、主要な音声コンテンツ２１０の音声セグメント３１０を基準音声コンテンツ２２０の音声セグメント３２０と同期してもよい。

いくつかの例としての実施形態では、ビデオ識別モジュール１１４及び提示モジュール１１６は、同一の主要な音声コンテンツと同時に同期及び表示する異なる動画コンテンツを識別し、それによって、１つの再生から次の再生への同一の主要な音声コンテンツについてのビデオ経験を変更するように構成される。主要な音声コンテンツの１つの提示から次の提示へのビデオ経験における変化は、別のビデオセグメントまたは別のシーンについての１つのビデオセグメントまたは１つのシーンをスワップアウトすると共に、１つの提示から次の提示への少なくとも１つのビデオセグメントまたは１つのシーンを維持することによってなど、部分的であってもよい。代わりに、主要な音声コンテンツの１つの提示から次の提示へのビデオ経験における変化は、主要な音声コンテンツの提示のために使用されるビデオセグメントの全てを主要な音声コンテンツの後続の提示のための完全に異なるビデオセグメントと置き換えることによってなど、全体的であってもよい。例えば、ある日付に、歌の全体的な生の実演をカバーするビデオコンテンツは、主要な音声コンテンツと同時に同期及び表示されてもよく、次いで、後日に、スタジオでの同一の歌の全体的な実演をカバーするビデオコンテンツ（例えば、生の実演とは異なる）は、歌の全体的な生の実演をカバーするビデオコンテンツの代わりに同一の主要な音声コンテンツと同時に同期及び表示されてもよい。ビデオ経験のそのような変化は、ビデオコンテンツの人気度における検出された変化（例えば、日々のビデオコンテンツのＹｏｕＴｕｂｅ(登録商標)のビューの総数における変化）に基づいてもよく、または主要な音声コンテンツと共にビデオコンテンツを提示されることになるユーザの好みもしくは振る舞いにおける検出された変化（例えば、ＹｏｕＴｕｂｅ(登録商標)上でのビデオコンテンツのユーザの参照する習慣における変化）に基づいてもよく、またはランダムであってもよい。他の因子がビデオコンテンツを１つの提示から別の提示に変更させるために使用されてもよいことが考慮される。

図５は、いくつかの例としての実施形態に従った、音声コンテンツと共に動画コンテンツを提供する方法５００を表すフローチャートである。方法５００は、ハードウェア（例えば、回路、専用ロジック、プログラム可能ロジック、マイクロコードなど）、ソフトウェア（例えば、処理デバイス上で稼働する命令）、またはそれらの組み合わせを含むことができる処理ロジックによって実行されることができる。１つの例としての実施形態では、方法５００は、図１のコンテンツプロバイダ１１０、またはその構成要素もしくはモジュールのうちの１つ以上のいずれかの組み合わせによって実行される。

動作５１０において、コンテンツプロバイダ１１０は、主要な音声コンテンツを受信する。いくつかの例としての実施形態では、主要な音声コンテンツは、音楽（例えば、歌）を含む。動作５２０において、コンテンツプロバイダ１１０は、少なくとも１つの基準音声コンテンツとの主要な音声コンテンツの比較に基づいて、少なくとも１つの基準音声コンテンツが予め定められた類似閾値を満たすと判定する。いくつかの例としての実施形態では、比較は、少なくとも１つの基準音声コンテンツのフィンガープリントデータとの主要な音声コンテンツのフィンガープリントデータの比較を含む。動作５３０において、少なくとも１つの基準音声コンテンツの各々の１つに対し、コンテンツプロバイダ１１０は、動画コンテンツが、少なくとも１つの基準音声コンテンツの１つと関連して記憶されており、かつ主要な音声コンテンツと関連して記憶されていないことに基づいて、動画コンテンツを識別する。いくつかの例としての実施形態では、動画コンテンツの識別は更に、デバイスと関連付けられたユーザのプロファイルに基づいている。動作５４０において、コンテンツプロバイダ１１０は、デバイス上での主要な音声コンテンツの提示と同時に、識別された動画コンテンツをデバイス上で表示させる。本開示内で説明される他の特徴のいずれかが方法５００に組み込まれることができることが考慮される。

図６は、いくつかの例としての実施形態に従った、デバイス上での音声コンテンツの提示と同時に、動画コンテンツをデバイス上で表示させる方法６００を表すフローチャートである。方法６００は、ハードウェア（例えば、回路、専用ロジック、プログラム可能ロジック、マイクロコードなど）、ソフトウェア（例えば、処理デバイス上で稼働する命令）、またはそれらの組み合わせを含むことができる処理ロジックによって実行されることができる。１つの例としての実施形態では、方法６００は、図１のコンテンツプロバイダ１１０、またはその構成要素もしくはモジュールのうちの１つ以上のいずれかの組み合わせによって実行される。

動作６１０において、コンテンツプロバイダは、少なくとも１つの基準音声コンテンツのデータを主要な音声コンテンツのデータと同期する。動作６２０において、コンテンツプロバイダ１１０は、主要な音声コンテンツのデータとの少なくとも１つの基準音声コンテンツのデータの同期に基づいて、識別された動画コンテンツを主要な音声コンテンツと同期する。いくつかの例としての実施形態では、主要な音声コンテンツのデータとの少なくとも１つの基準音声コンテンツのデータの同期は、主要な音声コンテンツのフィンガープリントデータとの少なくとも１つの基準音声コンテンツのフィンガープリントデータの比較に基づいている。本開示内で説明される他の特徴のいずれかが方法６００に組み込まれることができることが考慮される。

例としてのモバイルデバイス
図７は、例としての実施形態に従った、モバイルデバイス７００を表すブロック図である。モバイルデバイス７００は、プロセッサ７０２を含むことができる。プロセッサ７０２は、モバイルデバイス７００に適切な、様々な異なるタイプの商業的に利用可能なプロセッサ（例えば、ＸＳｃａｌｅアーキテクチャマイクロプロセッサ、ＩｎｔｅｒｌｏｃｋｅｄＰｉｐｅｌｉｎｅＳｔａｇｅｓ（ＭＩＰＳ）アーキテクチャプロセッサを有さないマイクロプロセッサ、または別のタイプのプロセッサ）のいずれかとすることができる。ランダムアクセスメモリ（ＲＡＭ）、フラッシュメモリ、または他のタイプのメモリなどのメモリ７０４は典型的には、プロセッサ７０２にアクセス可能である。メモリ７０４は、オペレーティングシステム（ＯＳ）７０６と共に、ユーザにＬＢＳを提供することができるモバイルロケーション対応アプリケーションなどのアプリケーションプログラム７０８を記憶するように適合されることができる。プロセッサ７０２は、直接または適切な仲介ハードウェアを介してのいずれかで、ディスプレイ７１０、並びにキーパッド、タッチパネルセンサ、及びマイクロフォンなどの１つ以上の入力／出力（Ｉ／Ｏ）デバイス７１２に結合されることができる。同様に、いくつかの実施形態では、プロセッサ７０２は、アンテナ７１６とインタフェースする送受信機７１４に結合されることができる。送受信機７１４は、モバイルデバイス７００の性質に応じて、アンテナ７１６を介してセルラネットワーク信号、無線データ信号、または他のタイプの信号の送信及び受信の両方をするように構成されることができる。更に、いくつかの構成では、ＧＰＳ受信機７１８は、ＧＰＳ信号を受信するためにアンテナ７１６も利用することができる。

モジュール、構成要素、及びロジック
ロジック、またはいくつかの構成要素、モジュール、もしくは機構として特定の実施形態が本明細書で説明される。モジュールは、ソフトウェアモジュール（例えば、マシン可読媒体上でもしくは伝送信号において具体化されたコード）、またはハードウェアモジュールのいずれかを構成することができる。ハードウェアモジュールは、特定の動作を実行する能力を有する有形単位であり、特定の方式において構成または配置されることができる。例としての実施形態では、１つ以上のコンピュータシステム（例えば、スタンドアロン、クライアント、もしくはサーバコンピュータシステム）、またはコンピュータシステムの１つ以上のハードウェアモジュール（例えば、プロセッサもしくはプロセッサのグループ）は、本明細書で説明されるような特定の動作を実行するように動作するハードウェアモジュールとしてソフトウェア（例えば、アプリケーションまたはアプリケーション部分）によって構成されることができる。

様々な実施形態では、ハードウェアモジュールは、機械的にまたは電気的に実装されることができる。例えば、ハードウェアモジュールは、特定の動作を実行するように永続的に構成された専用回路またはロジック（例えば、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）または特定用途向け集積回路（ＡＳＩＣ）などの特殊目的プロセッサのような）を含むことができる。ハードウェアモジュールはまた、特定の動作を実行するようにソフトウェアによって一時的に構成されたプログラム可能ロジックまたは回路（例えば、汎用プロセッサまたは他のプログラム可能プロセッサ内に組み込まれるような）を含むことができる。専用且つ永続的に構成された回路、または一時的に構成された回路（例えば、ソフトウェアによって構成された）においてハードウェアモジュールを機械的に実装する決定は、コスト及び時間の考慮事項によって導出されることができることが認識される。

したがって、用語「ハードウェアモジュール」は、有形エンティティを包含すること、エンティティは、特定の方式において動作し、及び／または本明細書で説明される特定の動作を実行するように物理的に構築され、永続的に構成され（例えば、ハードウェアに組み込まれた）、または一時的に構成される（例えば、プログラムされた）ことを理解されるべきである。ハードウェアモジュールが一時的に構成される（例えば、プログラムされる）実施形態を考慮すると、ハードウェアモジュールの各々は、時間内にいずれかの１つのインスタンスにおいて構成またはインスタンス化される必要はない。例えば、ハードウェアモジュールがソフトウェアを使用して構成された汎用プロセッサを含む場合、汎用プロセッサは、異なる時にそれぞれの異なるハードウェアモジュールとして構成されることができる。したがって、ソフトウェアは、例えば、時間の１つのインスタンスにおいて特定のハードウェアモジュールを構築し、時間の異なるインスタンスにおいて異なるハードウェアモジュールを構築するようにプロセッサを構成することができる。

ハードウェアモジュールは、他のハードウェアモジュールに情報を提供し、他のハードウェアモジュールから情報を受信することができる。したがって、説明されるハードウェアモジュールは、通信可能に結合されると見なされることができる。そのようなハードウェアモジュールの複数が同時に存在する場合、通信は、ハードウェアモジュールを接続する信号伝送を通じて（例えば、適切な回路及びバスを通じて）達成されることができる。複数のハードウェアモジュールが異なる時に構成またはインスタンス化される実施形態では、そのようなハードウェアモジュールの間の通信は、例えば、複数のハードウェアモジュールがアクセスを有するメモリ構造内の情報の記憶及び取り出しを通じて達成されることができる。例えば、１つのハードウェアモジュールは、それが通信可能に結合されるメモリデバイスにおいて動作を実行し、その動作の出力を記憶することができる。更なるハードウェアモジュールが次いで、後に、記憶された出力を取り出し及び処理するためにメモリデバイスにアクセスすることができる。ハードウェアモジュールはまた、入力または出力デバイスとの通信を開始することができ、リソース（例えば、情報の集合）に対して動作することができる。

本明細書で説明される例としての方法の様々な動作は、関連する動作を実行するように一時的に構成され（例えば、ソフトウェアによって）、または永続的に構成された１つ以上のプロセッサに少なくとも部分的によって実行されることができる。一時的または永続的に構成されるかどうかに関わらず、そのようなプロセッサは、１つ以上の動作または機能を実行するように動作するプロセッサ実施モジュールを構成することができる。本明細書で言及されるモジュールは、いくつかの例としての実施形態では、プロセッサ実装モジュールを含むことができる。

同様に、本明細書で説明される方法は、少なくとも部分的にプロセッサによって実装されることができる。例えば、方法の動作の少なくともいくつかは、１つ以上のプロセッサまたはプロセッサ実装モジュールによって実行されることができる。特定の動作の実行は、単一のマシン内にあるだけでなく、いくつかのマシンにわたって配備される、１つ以上のプロセッサの間で分散されることができる。いくつかの例としての実施形態では、プロセッサまたはプロセッサ（複数）は、単一のロケーションに位置することができる（例えば、ホーム環境内、オフィス環境内、またはサーバファームとして）と共に、他の実施形態では、プロセッサは、いくつかのロケーションにわたって分散されることができる。

１つ以上のプロセッサはまた、「クラウドコンピューティング」環境において、または「ソフトウェアアズアサービス」（ＳａａＳ）として関連する動作の実行をサポートするように動作することができる。例えば、動作の少なくともいくつかは、コンピュータのグループによって実行されることができ（プロセッサを含むマシンの実施例として）、それらの動作は、ネットワークを介して、及び１つ以上の適切なインタフェース（例えば、ＡＰＩ）を介してアクセス可能である。

例としての実施形態は、デジタル電子回路において、またはコンピュータハードウェア、ファームウェア、ソフトウェア、もしくはそれらの組み合わせにおいて実装されることができる。例としての実施形態は、コンピュータプログラム製品、例えば、情報搬送波、例えば、データ処理装置、例えば、プログラム可能プロセッサ、コンピュータ、または複数のコンピュータによる実行のための、またはその動作を制御するためのマシン可読媒体において有形的に具体化されたコンピュータプログラムを使用して実装されることができる。

コンピュータプログラムは、コンパイル言語またはインタープリタ言語を含むいずれかの形式のプログラミング言語において記述されることができ、スタンドアロンプログラムとして、またはモジュール、サブルーチン、もしくはコンピューティング環境における使用に適切な他のユニットとしてを含む、いずれかの形式において配備されることができる。コンピュータプログラムは、１つのサイトにおいて１つのコンピュータ上もしくは複数のコンピュータ上で実行されるように配備されることができ、または複数のサイトにわたって分散されることができ、通信ネットワークによって相互接続されることができる。

例としての実施形態では、動作は、入力データに関して動作し、出力を生成することによって機能を実行するようにコンピュータプログラムを実行する１つ以上のプログラム可能プロセッサによって実行されることができる。方法の動作はまた、特殊目的論理回路（例えば、ＦＰＧＡまたはＡＳＩＣ）によって実行されることができ、例としての実施形態の装置は、特殊目的論理回路として実装されることができる。

コンピューティングシステムは、クライアント及びサーバを含むことができる。クライアント及びサーバは概して、相互にリモートであり、典型的には、通信ネットワークを通じて相互作用する。クライアント及びサーバの関係は、それぞれのコンピュータ上で稼働し、相互にクライアント−サーバ関係を有するコンピュータプログラムを理由に生じる。プログラム可能コンピューティングシステムを配備する実施形態では、ハードウェア及びソフトウェアアーキテクチャの両方を考える価値があることが認識される。特に、永続的に構成されたハードウェア（例えば、ＡＳＩＣ）において、一時的に構成されたハードウェア（例えば、ソフトウェア及びプログラム可能プロセッサの組み合わせ）において、または永続的及び一時的に構成されたハードウェアの組み合わせにおいて特定の機能性を実装するかどうかの選択が設計選択とすることができることが認識される。以下は、様々な例としての実施形態において配備されることができるハードウェア（例えば、マシン）及びソフトウェアアーキテクチャが示される。

図８は、例としての実施形態に従った、本明細書で議論される方法論のいずれか１つ以上をマシンに実行させる命令８２４が実行されることができる、例としての形式にあるコンピュータシステム８００のマシンのブロック図である。代替的な実施形態では、マシンは、スタンドアロンデバイスとして動作し、または他のマシンに接続されることができる（例えば、ネットワーク化される）。ネットワーク化された配備では、マシンは、サーバ−クライアントネットワーク環境内でサーバもしくはクライアントマシンの能力において、またはピアツーピア（もしくは分散）ネットワーク環境内でピアマシンとして動作することができる。マシンは、パーソナルコンピュータ（ＰＣ）、タブレットＰＣ、セットトップボックス（ＳＴＢ）、携帯情報端末（ＰＤＡ）、携帯電話、ウェブアプライアンス、ネットワークルータ、スイッチもしくはブリッジ、またはそのマシンによって取られることになるアクションを指定する命令を実行する（順番に、もしくは他の場合）能力を有するいずれかのマシンとすることができる。更に、単一のマシンが表されるが、用語「マシン」は、本明細書で議論される方法論のいずれか１つ以上を実行するように命令のセット（または、複数のセット）を個々にまたは共同して実行するマシンのいずれかの集合も含むと考えられるべきである。

例としてのコンピュータシステム８００は、バス８０８を介して相互に通信する、プロセッサ８０２（例えば、中央処理装置（ＣＰＵ）、グラフィックプロセシングユニット（ＧＰＵ）、もしくはその両方）、メインメモリ８０４、及び静的メモリ８０６を含む。コンピュータシステム８００は更に、ビデオディスプレイユニット８１０（例えば、液晶ディスプレイ（ＬＣＤ）または陰極線管（ＣＲＴ））を含むことができる。コンピュータシステム８００はまた、英数字入力デバイス８１２（例えば、キーボード）、ユーザインタフェース（ＵＩ）ナビゲーション（または、カーソル制御）デバイス８１４（例えば、マウス）、ディスクドライブユニット８１６、信号生成デバイス８１８（例えば、スピーカ）、及びネットワークインタフェースデバイス８２０を含む。

ディスクドライブユニット８１６は、本明細書で説明される方法論もしくは機能のいずれか１つ以上を具体化し、または方法論もしくは機能によって利用されるデータ構造及び命令８２４（例えば、ソフトウェア）の１つ以上のセットが記憶されたマシン可読媒体８２２を含む。命令８２４は、マシン可読媒体も構成するコンピュータシステム８００、メインメモリ８０４、及びプロセッサ８０２によるその実行の間にメインメモリ８０４内及び／またはプロセッサ８０２内に完全にまたは少なくとも部分的に存在することもできる。命令８２４はまた、静的メモリ８０６内に完全にまたは少なくとも部分的に存在することができる。

マシン可読媒体８２２が単一の媒体であるものと例としての実施形態において示されるが、用語「マシン可読媒体」は、１つ以上の命令８２４またはデータ構造を記憶する単一の媒体または複数の媒体（例えば、集中化もしくは分散データベース、及び／または関連するキャッシュ及びサーバ）を含むことができる。用語「マシン可読媒体」はまた、マシンによる実行のための命令を記憶、符号化、もしくは搬送する能力を有し、マシンに、本実施形態の方法論のいずれか１つ以上を実行させ、またはそのような命令によって利用され、もしくはそのような命令と関連付けられたデータ構造を記憶、符号化、もしくは搬送する能力を有するいずれかの有形媒体を含むものと考えられるべきである。したがって、用語「マシン可読媒体」は、ソリッドステートメモリ、並びに光学及び磁気媒体を含むがそれらに限定されないと考えられるべきである。マシン可読媒体の特定の実施例は、例として、半導体メモリデバイス（例えば、消去可能プログラム可能リードオンリメモリ（ＥＰＲＯＭ）、電気的消去可能リードオンリメモリ（ＥＥＰＲＯＭ）、及びフラッシュメモリデバイス）、内部ハードディスク及び着脱可能ディスクなどの磁気ディスク、磁気光学ディスク、並びにコンパクトディスクリードオンリメモリ（ＣＤ−ＲＯＭ）及びデジタル多用途ディスク（または、デジタルビデオディスク）リードオンリメモリ（ＤＶＤ−ＲＯＭ）ディスクを含む、不揮発性メモリを含む。

命令８２４は更に、伝送媒体を使用して、通信ネットワーク８２６を通じて伝送または受信されることができる。命令８２４は、ネットワークインタフェースデバイス８２０及びいくつかの周知の転送プロトコル（例えば、ＨＴＴＰ）のいずれか１つを使用して伝送されることができる。通信ネットワークの実施例は、ＬＡＮ、ＷＡＮ、インターネット、携帯電話ネットワーク、ＰＯＴＳネットワーク、並びに無線データネットワーク（例えば、ＷｉＦｉ及びＷｉＭＡＸネットワーク）を含む。用語「伝送媒体」は、マシンによる実行のための命令を記憶、符号化、もしくは搬送する能力を有するいずれかの無形媒体を含むものと考えられるべきであり、デジタルもしくはアナログ通信信号、またはそのようなソフトウェアの通信を促進する他の無形媒体を含む。

特定の例としての実施形態を参照して実施形態が説明されてきたが、本開示のより広い趣旨及び範囲から逸脱することなく、それらの実施形態に様々な修正及び変更が行われることができることが明白である。したがって、明細書及び図面は、限定的な意味ではなく例示的であると見なされることになる。その一部を形成する添付図面は、例示として、限定ではなく、主題が実施されることができる特定の実施形態を示す。表される実施形態は、当業者が本明細書に開示される教示を実施することを可能にするように十分に詳細に説明される。本開示の範囲から逸脱することなく、構造的及び論理的な置き換え及び変更が行われることができるように、それらから他の実施形態が利用及び導出されることができる。したがって、この詳細な説明は、限定的な意味において考えられず、様々な実施形態の範囲は、添付の特許請求の範囲によって権利が与えられるのと同様の完全な範囲と共に、そのような特許請求の範囲によってのみ定義される。

特定の実施形態が本明細書で表され、及び説明されてきたが、同一の目的を達成するように計算されたいずれかの配置が、示された特定の実施形態に対して置き換えられることができることが認識されるべきである。本開示は、様々な実施形態のいずれか及び全ての適合または変形を網羅することが意図される。上記実施形態の組み合わせ、及び本明細書で特に説明されていない他の実施形態は、上記説明を参照すると、当業者にとって明らかである。

Claims

主要な音声コンテンツを受信することと、
少なくとも１つのハードウェアプロセッサによって、少なくとも１つの基準音声コンテンツとの前記主要な音声コンテンツの比較に基づいて、前記少なくとも１つの基準音声コンテンツが予め定められた類似閾値を満たすと判定することと、
前記少なくとも１つの基準音声コンテンツの各々の１つに対し、動画コンテンツが、前記少なくとも１つの基準音声コンテンツの前記１つと関連して記憶されており、かつ前記主要な音声コンテンツと関連して記憶されていないことに基づいて、前記動画コンテンツを識別することと、
デバイス上での前記主要な音声コンテンツの提示と同時に、識別された前記動画コンテンツを前記デバイス上で表示させることと、
を含む、コンピュータにより実行される方法。
前記主要な音声コンテンツは、音楽を含む、請求項１に記載のコンピュータにより実行される方法。
前記比較は、前記少なくとも１つの基準音声コンテンツのフィンガープリントデータとの前記主要な音声コンテンツのフィンガープリントデータの比較を含む、請求項１に記載のコンピュータにより実行される方法。
前記動画コンテンツの識別は更に、前記デバイスと関連付けられたユーザのプロファイルに基づいている、請求項１に記載のコンピュータにより実行される方法。
前記デバイス上での前記主要な音声コンテンツの前記提示と同時に、識別された前記動画コンテンツを前記デバイス上で表示させることは、
前記少なくとも１つの基準音声コンテンツのデータを前記主要な音声コンテンツのデータと同期することと、
前記主要な音声コンテンツの前記データとの前記少なくとも１つの基準音声コンテンツの前記データの同期に基づいて、識別された前記動画コンテンツを前記主要な音声コンテンツと同期することと、を含む、
請求項１に記載のコンピュータにより実行される方法。
前記主要な音声コンテンツの前記データとの前記少なくとも１つの基準音声コンテンツの前記データの同期は、前記主要な音声コンテンツのフィンガープリントデータとの前記少なくとも１つの基準音声コンテンツのフィンガープリントデータの比較に基づいている、請求項５に記載のコンピュータにより実行される方法。
前記少なくとも１つの基準音声コンテンツは、少なくとも２つの基準音声コンテンツを含み、前記少なくとも２つの基準音声コンテンツの各々の１つは、異なる動画コンテンツと関連して記憶され、識別された前記動画コンテンツは、前記異なる動画コンテンツの各々の一部を含む、請求項１に記載のコンピュータにより実行される方法。
少なくとも１つのプロセッサと、
実行可能命令を記憶した非一時的コンピュータ可読媒体と、を含み、前記実行可能命令は、実行されるとき、前記少なくとも１つのプロセッサに、
主要な音声コンテンツを受信することと、
少なくとも１つの基準音声コンテンツとの前記主要な音声コンテンツの比較に基づいて、前記少なくとも１つの基準音声コンテンツが予め定められた類似閾値を満たすと判定することと、
前記少なくとも１つの基準音声コンテンツの各々の１つに対し、動画コンテンツが、前記少なくとも１つの基準音声コンテンツの前記１つと関連して記憶されており、かつ前記主要な音声コンテンツと関連して記憶されていないことに基づいて、前記動画コンテンツを識別することと、
デバイス上での前記主要な音声コンテンツの提示と同時に、識別された前記動画コンテンツを前記デバイス上で表示させることと、
を含む動作を実行させる、システム。
前記主要な音声コンテンツは、音楽を含む、請求項８に記載のシステム。
前記比較は、前記少なくとも１つの基準音声コンテンツのフィンガープリントデータとの前記主要な音声コンテンツのフィンガープリントデータの比較を含む、請求項８に記載のシステム。
前記動画コンテンツの識別は更に、前記デバイスと関連付けられたユーザのプロファイルに基づいている、請求項８に記載のシステム。
前記デバイス上での前記主要な音声コンテンツの前記提示と同時に、識別された前記動画コンテンツを前記デバイス上で表示させることは、
前記少なくとも１つの基準音声コンテンツのデータを前記主要な音声コンテンツのデータと同期することと、
前記主要な音声コンテンツの前記データとの前記少なくとも１つの基準音声コンテンツの前記データの同期に基づいて、識別された前記動画コンテンツを前記主要な音声コンテンツと同期することと、を含む、
請求項８に記載のシステム。
前記主要な音声コンテンツの前記データとの前記少なくとも１つの基準音声コンテンツの前記データの同期は、前記主要な音声コンテンツのフィンガープリントデータとの前記少なくとも１つの基準音声コンテンツのフィンガープリントデータの比較に基づいている、請求項１２に記載のシステム。
前記少なくとも１つの基準音声コンテンツは、少なくとも２つの基準音声コンテンツを含み、前記少なくとも２つの基準音声コンテンツの各々の１つは、異なる動画コンテンツと関連して記憶され、識別された前記動画コンテンツは、前記異なる動画コンテンツの各々の一部を含む、請求項８に記載のシステム。
命令のセットを有形的に具体化した非一時的マシン可読記憶媒体であって、前記命令のセットは、少なくとも１つのプロセッサによって実行されるとき、前記少なくとも１つのプロセッサに、
主要な音声コンテンツを受信することと、
少なくとも１つのハードウェアプロセッサによって、少なくとも１つの基準音声コンテンツとの前記主要な音声コンテンツの比較に基づいて、前記少なくとも１つの基準音声コンテンツが予め定められた類似閾値を満たすと判定することと、
前記少なくとも１つの基準音声コンテンツの各々の１つに対し、動画コンテンツが、前記少なくとも１つの基準音声コンテンツの前記１つと関連して記憶されており、かつ前記主要な音声コンテンツと関連して記憶されていないことに基づいて、前記動画コンテンツを識別することと、
デバイス上での前記主要な音声コンテンツの提示と同時に、識別された前記動画コンテンツを前記デバイス上で表示させることと、
を含む動作を実行させる、非一時的マシン可読記憶媒体。
前記比較は、前記少なくとも１つの基準音声コンテンツのフィンガープリントデータとの前記主要な音声コンテンツのフィンガープリントデータの比較を含む、請求項１５に記載の非一時的マシン可読記憶媒体。
前記動画コンテンツの識別は更に、前記デバイスと関連付けられたユーザのプロファイルに基づいている、請求項１５に記載の非一時的マシン可読記憶媒体。
前記デバイス上での前記主要な音声コンテンツの前記提示と同時に、識別された前記動画コンテンツを前記デバイス上で表示させることは、
前記少なくとも１つの基準音声コンテンツのデータを前記主要な音声コンテンツのデータと同期することと、
前記主要な音声コンテンツの前記データとの前記少なくとも１つの基準音声コンテンツの前記データの同期に基づいて、識別された前記動画コンテンツを前記主要な音声コンテンツと同期することと、を含む、
請求項１５に記載の非一時的マシン可読記憶媒体。
前記主要な音声コンテンツの前記データとの前記少なくとも１つの基準音声コンテンツの前記データの同期は、前記主要な音声コンテンツのフィンガープリントデータとの前記少なくとも１つの基準音声コンテンツのフィンガープリントデータの比較に基づいている、請求項１８に記載の非一時的マシン可読記憶媒体。
前記少なくとも１つの基準音声コンテンツは、少なくとも２つの基準音声コンテンツを含み、前記少なくとも２つの基準音声コンテンツの各々の１つは、異なる動画コンテンツと関連して記憶され、識別された前記動画コンテンツは、前記異なる動画コンテンツの各々の一部を含む、請求項１５に記載の非一時的マシン可読記憶媒体。