JP2019531547A

JP2019531547A - 視覚検索クエリによるオブジェクト検出

Info

Publication number: JP2019531547A
Application number: JP2019513057A
Authority: JP
Inventors: モーリスムーア，スティーブン; パトリックミュレイ，ラリー; シャンムガマニ，ラジャリンガッパー
Original assignee: エイアイキューピーティーイー．リミテッド
Priority date: 2016-09-08
Filing date: 2017-09-07
Publication date: 2019-10-31
Also published as: WO2018048355A9; SG11201809634TA; US10769444B2; RU2018142028A; MY198128A; KR20190052028A; RU2018142028A3; EP3472755A1; US20190362154A1; EP3472755A4; RU2729956C2; WO2018048355A1; CN109906455A

Abstract

本発明は、データベースに既知のオブジェクトを入力するシステムおよび方法を含む。データベースは、オフラインデータ拡張（例えば、Ｗｅｂクローラ）、または既知のオブジェクトおよびメタデータクラスタをアラインすることによって、既定のコンテンツを入力され得る。視聴者は、ライブまたはオフラインメディアから画像を問い合わせることができる。視聴者の問合せを受けたオブジェクトは、データベース内の類似のオブジェクトまたは推奨製品にリンクされる。

Description

発明の詳細な説明

［技術分野］
本発明は、インターネット販売のためのコンピュータ技術に関し、特に、映像をセグメントに分割し、セグメント内のオブジェクトを識別し、製品をオブジェクトと照合するためのコンピュータネットワークアプリケーションに関する。
に関する。
［背景技術］
Ｅコマース（電子商取引、E-Commerce）は、オンラインで売買する取引である。Ｅコマースは、顧客に販売するだけでなく、顧客の関心を引く、世界中の中小企業および大企業にとって重要なツールとなっている。２０１２年には、電子商取引の世界における売上高は１兆ドルを上回った。

インターネットマーケティングとは、Ｅコマースを介した販売を促進するために、ウェブと電子メールを利用する広告活動およびマーケティング活動である。インターネットマーケティングには、電子メールマーケティング、検索エンジンマーケティング（ＳＥＭ）、ソーシャルメディアマーケティング、多くの種類の表示広告（例えば、バナー広告）および携帯広告が含まれる。メタデータは、インターネットマーケティングの重要な構成要素である。

オンラインでの購入者は、商品を直に見ることができないため、彼らは、通常、キーワードといった判定基準により検索する。事業者は、販売動向の解析と、販売計画の展開と予測とを可能にする、検索や取引に関するメタデータを日常的に保管する。この同じメタデータにより、事業者は、購買履歴、多数の配送先の住所録、および商品の推薦といった特徴を備えた、より個人向けの買い物体験を提供することができる。

今日、ほとんどのウェブページには、メタデータが埋め込まれている。ウェブ検索エンジンは、ユーザーに対して適切な検索結果を提供するために、ページテキストとそれに付随するメタデータを使用した膨大なインデックスを構築している。メタデータは、ターゲット広告に使用することができる。広告主は、自身が売り込む商品に基づき、所定の特性を有する、売り込みを最も受け入れやすい閲覧者をターゲットにするための高度な手段を使用することができる。

例えば、利用者は、ウェブブラウザを使用してニュージーランドへの航空便を検索することができる。彼または彼女が訪れたウェブサイトの「クッキー」の形式のメタデータはユーザーのウェブブラウザによってコンピュータに記憶される。クッキーは、インターネットサーバとブラウザとの間で送受信され、ユーザーの識別、および／または、彼または彼女の活動のトラッキングを可能とする。その後、利用者は、ホテル、レンタカー、ツアーおよびフライトインフォメーションと共にニュージーランドでの旅行に関連するバナー広告などの広告を受け取ることができる。

さらに、メタデータは、人口統計に基づいてユーザーを識別し、ターゲットとするために使用され得る。事業者は、商品が特定の人口にアピールすること、および、ダイレクトマーケティングの活動がその人口に向けられ得ると認識することができる。例えば、投資証券のバナー広告は、ティーンエイジャーに対しては効果がないかもしれない。より年齢層の高い人口、より具体的には、退職を希望する人々を広告のターゲットとすることは、より効果的であろう。メタデータが、彼または彼女がターゲットの人口にいないことを示唆している場合、ユーザーは広告を受信しないだろう。

視覚検索を使用するケースにおける取り込みの増加を実証するマーケットの出現に伴い、人口統計プロファイリングの発達が、事業者だけでなく消費者にとって高い関心と恩恵とをもたらしている。組織は、より個人向けの商品の提供、（例えば季節変動に基づいた）使用パターンの推定、および、将来の商品の方向性を予測する手助けを行うために、このようなモデルを使用することができる。

視覚ベースの検索は、特に、遍在するスマートフォンおよびタブレットコンピュータにおいて一般的である。例えば、上記例のユーザーは、ニュージーランドにおけるハイキングおよびトレッキングに関する画像を探すことができる。彼または彼女は画像をクリックするだけのため、ブラウザは、ブラウザに入力されたキーワードに基づくメタデータを記録することができない。同様に、彼または彼女は、ニュージーランドのアトラクションに関連する映像を見ることができる。従来の技術では、画像も映像も、ターゲットマーケティングのためのメタデータに寄与しない。

しかし、映像のストリーミングおよびダウンロードの増加もまた、新しい機会となっている。例えば、人気のある有名人は、ソーシャルメディアの映像に、特定のハンドバッグを持って現れる場合がある。もし当該ハンドバッグが識別可能で、かつ購入可能であれば、当該ハンドバッグの販売を拡大することができる。

種々の構造のインターネットベースの映像配信プラットフォームの普及および人気を考慮すると、映像コンテンツに関する視覚検索は、コンテンツ作成者、購入者、および商業パートナーからなる数百万のユーザー基盤を開拓できる可能性がある。映像の特定のセグメントが識別できれば、関心のある当事者は、これらのセクションを追加コンテンツで補強および／または組み合わせる能力を獲得する。これにより、上記セクションに対して情報が強化された形態をとることもできる。商業パートナーは、商品提供物を配信する手段として関連性のあるセクションを獲得したいと望むかもしれない。

さらに、マーケティングの担当者は、広告スキップおよびオンデマンドメディアを利用するより若い閲覧者を取り込む方法の改善を求めている。商品の配置とブランド化したエンターテイメントにより、若い消費者および／またはテクノロジに精通した消費者をより効果的に取り込める「オムニチャネル」が実現する可能性がある。

これは広告主にとって問題が生じる。現在視聴者に番組または場面で視聴する物体または製品に対する興味を持たせることができない。例えば、視聴者はハンドバッグを持つ有名人を見ることができるが、ハンドバッグをどこで購入するかは明らかでないかもしれない。視聴者はハンドバックを検索しないので視聴者の興味は次第に薄れていくだろう。映像をウェブサイトにリンクおよび／または貼り付ける試みがこれまでなされてきた。

現在の技術を使用して、ベンダーまたは広告主は、印刷物または映像広告上にＱＲコード（登録商標）(Quick Response Code）を含めることができる。閲覧者は、スマートフォンを使用して、彼または彼女をウェブサイトおよび／またはウェブコンテンツに案内するＱＲコード（登録商標）をスキャンすることができる。しかし、これには、ブロックのコードを閲覧者の近くに目立つように配置する必要がある。さらに、関心のある物体ごとに個別のＱＲコード（登録商標）を含めなければならない。映像の場合、ＱＲコード（登録商標）は、その映像の全時間にわたって表示されなければならない。

したがって、閲覧者が画像および／または映像上の物体に関する関心を表現することができる、および／または、該物体に関する追加の情報を取得することができる方法が必要とされている。システムは、キーワード検索またはＱＲコード（登録商標）のスキャンを行うことなく、ユーザーが主題の詳細とさらなる情報とを獲得することを可能にすべきである。このシステムは、印刷メディア（例えば、雑誌広告）および映像メディア（例えば、テレビ）で使用可能とすべきである。
［導入］
本発明は、映像内のオブジェクトを検出し、１または複数の製品とオブジェクトとを照合させる方法であって、以下の、（ａ）映像を取得するステップと、（ｂ）類似点および相違点に関して、連続するフレームのコンテンツを比較して、描写された情景（setting）および／またはイベントに基づいて映像をセグメント化するステップと、（ｃ）同一または類似の情景および／またはイベントのセグメントをコンパイルするステップと、（ｄ）映像の１または複数のフレームを分析し、同一または類似の情景および／またはイベントの各セグメントからの１または複数のオブジェクトを検出するステップと、（ｅ）データベース内の製品と１または複数のオブジェクトとを比較するステップと、（ｆ）１または複数のオブジェクトに関連する製品を識別するステップと、（ｇ）製品を１または複数の閲覧者に通知するステップと、を含む方法。

本方法は、１または複数のオブジェクトに関連付けられた製品を識別するために畳み込みニューラルネットワーク（ＣＮＮ）を用いることができる。データベースには、オフラインデータ拡張法（ウェブクローラ）を用いること、および／または既知のオブジェクトおよびメタデータクラスタをアラインすることによって、既定のコンテンツが追加され得る。セカンドスクリーンのコンテンツ拡張は、ライブ映像またはストリーミング映像のために使用され得る。製品を１または複数の視聴者に通知するステップは、広告を表示するステップ、および／または、ウェブサイトまたは映像へのハイパーリンクを提供することによって、製品を１または複数の視聴者に通知するステップを含むことができる。

また、本発明は、スクリーンショットにおける１または複数のオブジェクトを検出し、１または複数のオブジェクトを販売促進物と照合する方法であって、（ａ）視聴者からの問い合わせをデジタル画像またはスクリーンショットの形式で受信するステップと、（ｂ）スクリーンショット内の１または複数の物品を識別するステップと、（ｃ）１または複数の物品をデータベース内の製品と比較するステップと、（ｄ）１または複数の物品に関連付けられた製品を識別するステップと、（ｅ）視聴者に識別された製品に関する販売促進物を連絡するステップと、を含む、方法。

データベースは、オフラインデータ拡張（ウェブクローラ）を用いること、および／または既知のオブジェクトおよびクラスタのメタデータを既定のコンテンツとアラインすることによって、製品を入力され得る。セカンドスクリーンのコンテンツ拡張は、ライブ映像またはストリーミング映像のために使用され得ることができる。視聴者に販売促進物を連絡するステップは、広告を表示するステップ、および／またはウェブサイトもしくは映像へのハイパーリンクを提供するステップを含むことができる。

本発明はまた、映像中のオブジェクトとデータベース中の製品との間の関連を生成し、製品に関する情報を配信するシステムを含む。（ａ）携帯機器、ブラウザ、または任意の類似のコンピュータシステムなどのユーザーインターフェースアプリケーションを介してユーザーまたはユーザーのグループにローカルまたはリモートに接続されるコンピュータネットワークおよびコンピュータシステムと、（ｂ）メディアコンテンツをローカルまたはサーバ上で検出および記憶するモジュールと、（ｃ）メタデータおよび／または視覚的特徴を取り込むために、メディアコンテンツをリモートまたはサーバベースのプロセッサに送信するモジュールと、（ｄ）メタデータおよび／または視覚的特徴を抽出するために、メディアコンテンツをリモートまたはサーバベースのプロセッサに送信するモジュールと、（ｅ）視覚的特徴を含むデジタル画像の形態で１または複数の視聴者からの入力を受信する装置と、（ｆ）視覚的特徴を識別し、オブジェクトおよび／または関連製品のグループに視覚的特徴を関連付けるように構成されたモジュールと、（ｇ）オブジェクトおよび／または関連製品のグループに関する情報を、ユーザーおよび／またはユーザーのグループに配信するネットワークサービスと、を含む。

畳み込みニューラルネットワーク（ＣＮＮ）は、視覚的特徴およびメタデータを分析すること、および、視覚的特徴をオブジェクトおよび／または関連製品のグループに関連付けることに使用され得る。データベースは、オフラインデータ拡張（ウェブクローラ）を使用、および／または既知のオブジェクトおよびメタデータクラスタを、既定のコンテンツとアラインすることによって、既知のオブジェクトを入力され得る。関連製品の情報は、インターネット経由でコンテンツにアクセスするための広告および／またはハイパーリンクが含まれる。
［発明の概要］
本発明の第１の態様は、ユーザーの視覚クエリと、オブジェクトデータベースのコーパス内から検出されたオブジェクトとの間の関連を生成するシステムである。

本発明の第２の態様は、携帯機器、ブラウザ、または任意の類似のコンピュータシステム等のユーザーインターフェースアプリケーションを介して、ユーザーまたはユーザーのグループにローカルまたはリモートで接続されるコンピュータネットワークおよびコンピュータシステムである。

本発明の第３の態様は、メディアコンテンツをローカルに、またはサーバ上で検出して、そこに記憶するように構成されたモジュールである。

本発明の第４の態様は、関連付けられたメタデータおよび／または視覚的特徴を取り込み、抽出するために、リモートまたはサーバベースのプロセッサにメディアコンテンツを送信するように構成されたモジュールである。

本発明の第５の態様は、視覚的特徴およびメタデータを分析して、特定のオブジェクトおよび／またはオブジェクトグループに関連付けるためのコンピュータモデルである。

本発明の第６の態様は、検出されたオブジェクトを関連付けられたオブジェクトのグループにリンクするように構成された、ローカルまたはサーバ側のホストモジュールである。

本発明の第７の態様は、既知のオブジェクトおよびメタデータクラスタを所定のコンテンツに対しアラインするように構成された、ローカルまたはサーバ側のホストモジュールである。

本発明の第８の態様は、ユーザーおよび／またはユーザーのグループにコンテンツを配信するネットワークサービスである。
［図面の簡単な説明］
図１は、本発明の一実施形態の全処理の流れを示す。

図２は、映像シーンのセグメント化を示す。

図３は、視覚検索の概要を示す。

図４は、オフライン製品のデータ拡張の方法を示す。

図５は、オフラインで事前に取り込まれたコンテンツに関する製品推薦フレームワークを示す。

図６は、ユーザーによる問い合わせと推奨された製品とを示す。
［発明の詳細な説明］
［定義］
本明細書において、「一実施形態／一態様」または「ある実施形態／ある態様」の参照は、実施形態／態様に関連して説明された特定の機能、構成、または特徴が、本発明の少なくとも一つの実施形態／態様に含まれることを意味する。明細書の種々の箇所における「一実施形態／一態様において」または「別の実施形態／別の態様において」という語句の使用は、必ずしもすべてが同じ実施形態／態様を参照しているとは限らず、また他の実施形態／態様と相互に排他的な個々のまたは代替の実施形態／態様を必ずしも参照しているとは限らない。さらに、種々の特徴がいくつかの実施形態／態様によって提示され得るが、他の実施形態によっては提示され得ないことも有り得る。同様に、種々の要件がいくつかの実施形態／態様において要件であると説明されても、他の実施形態／態様においては要件ではないと説明されることもある。実施形態および態様は、場合によっては、相互に交換して使用することもできる。

本明細書において使用される用語は、一般的に、当該技術分野において、開示の文脈において、および個々の用語が使用される具体的な文脈において、通常の意味を有する。本開示を記述するために使用される特定の用語は、本開示の記載に関して当業者に追加の指針を提供するために、以下、または明細書の他の箇所で論じられる。利便性のため、特定の用語については、例えば、イタリック体および／または引用符を使用して、強調表示することができる。強調表示の使用は、用語の範囲および意味に影響を及ぼさず、用語の範囲および意味は、同じ文脈において、それらが強調表示されるか否かにかかわらず、同じである。同じことが複数の方法で言及できることが理解されよう。

その結果、代替言語および同義語を本明細書中で説明される用語のいずれかの１つ以上で用いることができる。また、ある用語が本明細書で詳述または説明されているかどうかについては特に重要な意味はない。特定の用語の複数の同義語が用いられる。１つ以上の同義語の列挙により、他の同義語の使用を排除することにはならない。本明細書で説明される任意の用語の例示を含む本明細書の任意の箇所での例示の使用は、単なる例示に過ぎず、本明細書または任意の例示された用語の範囲および意味をさらに限定することにはならない。同様に、本発明は、本明細書で与えられる様々な実施形態に限定されない。

本開示の範囲をさらに限定する意図はないが、本開示の実施形態による装置、器具、方法、およびそれらの関連する結果物を以下に示す。主題または副題は、読者に分かりやすくするための例えば使用される場合があり、これは決して本発明の範囲を限定するものではないことに留意されたい。別段の定義がない限り、本明細書で使用されるすべての技術用語および科学用語は、本開示が関係する当業者によって一般に理解されるものと同じ意味を有する。矛盾する場合は、定義を含む本文書により決定される。

「アプリ」または「アプリケーション」という用語は、とくに携帯端末にダウンロードされるような、特定の用途を実行するように設計された自己完結型プログラムまたはソフトウェアの一部を意味する。

「単語の袋」又は「ＢｏＷモデル」という用語は、画像の特徴を単語として扱うことにより、画像を分類することをいう。文書の分類では、単語の袋は、言語の出現回数のスパースベクトル、すなわち、ボキャブラリにわたるスパースヒストグラムである。コンピュータビジョンでは、ｂａｇｏｆｖｉｓｕａｌｗｏｒｄｓは、局所的な画像の特徴のボキャブラリの出願回数のベクトルである。

「クッキー」、「インターネットクッキー」、または「ＨＴＴＰクッキー」という用語は、ウェブサイトから送信され、ユーザーのウェブブラウザによってユーザーのコンピュータに格納された小さなデータを意味する。クッキーは、インターネットサーバとブラウザとの間で送受信され、ユーザーの識別、または、彼あるいは彼女の操作の進展のトラッキングを可能にする。クッキーは、閲覧者がどのページを訪問するか、それぞれのページを閲覧するのに費やされた時間、クリックされたリンク、行われた検索および双方向通信に関する詳細を提供する。この情報から、クッキー発行者は、ユーザーの閲覧嗜好および関心事を把握するために生成されたプロファイルを収集する。プロファイルを解析することで、広告主は、返された類似の情報に類似するユーザー、すなわちプロファイルに基づいて、定義された閲覧者セグメントを生成することができる。

「クラスタリング」または「クラスタ解析」という用語は、同じグループ（クラスタと呼ばれる）のオブジェクトが、他のグループ（クラスタ）のオブジェクトよりも、互いに（ある意味または別の意味で）より類似するように、１組のオブジェクトをグループ化するタスクを意味する。これは、探索的データマイニングの主要なタスクであり、機械学習、パターン認識、画像解析、情報検索、生物情報学、データ圧縮、およびコンピュータグラフィックを含む多くの分野で使用される統計データ解析のための一般的な技術である。

「データ拡張」という用語は、データ点の数を増加させることを意味する。画像に関しては、該用語は、データセットにおける画像数を増加させることを意味し得る。従来の行／列形式のデータに関しては、該用語は、行またはオブジェクトの数を増加させることを意味する。

「深層学習」とは、複数の隠れ層を含む人工ニューラルネットワーク（artificialneural networks；ＡＮＮｓ）の学習作業への適用を意味する。深層学習は、タスク特有のアルゴリズムとは対照的に、学習データ表現に基づく機械学習方法のより幅広い群の一部である。

「特徴ベクトル」という用語は、パターン認識および機械学習における、あるオブジェクトを表現する数値の特徴のｎ次元ベクトルである特徴ベクトルのことを示す。機械学習における多くのアルゴリズムは、オブジェクトの数値表現が必要となり、そのように表現することにより、処理と統計的解析とを促進することができる。画像を表現する場合、特徴値は、画像の画素に対応し得る。あるいは、テキストを表現する場合、特徴値は、用語の出現頻度に対応し得る。

「不均衡データセット」とは、クラスの分布がクラス間で一様とならない分類問題における特殊な場合を表す。通常、それらは、大多数（ネガティブ）クラスと少数（ポジティブ）クラスの２つのクラスで構成される。データを使用可能な形式にするためには、クラスの均衡を取る必要がある。

「反転指数」、「ポスティングファイル」、または「反転ファイル」という用語は、言語または数字などのコンテンツから、データベースファイル内、または、ドキュメントあるいはドキュメントのセット（ドキュメントからのコンテンツにマッピングするフォワード指数とは対照的に命名される）内のその位置へ、写像を保存する指数データ構成である。反転指数の役割は、ドキュメントがデータベースに追加されるときにプロセスが増加するという犠牲を払い、高速な全文検索を可能にすることである。

「ｋ近傍法（k-Nearest Neighbor）」つまり「ｋ−ＮＮ」という用語は、最も近い分類のオブジェクトを意味し、距離測定基準（「最も近い」）と近傍の番号との両方は変更可能である。オブジェクトは、予測方法を使用して新しい観測データに分類される。オブジェクトは、訓練のために使用されるデータを含むので、新たな置き換え予測を計算することができる。
［リンク解析］
「モジュール」という用語は、自己完結型のユニットを意味し、例えば、電子部品およびそれに関連する配線の組み立て品、または、それ自身が定義されたタスクを実行し、より大きなシステムを形成するために別の上記ユニットとリンク可能な、コンピュータソフトウェアのセグメントを意味する。

「多層知覚ニューラルネットワーク（Multilayer PerceptionNeural Network）」または「ＭＬＰ」という用語は、入力層と出力層との間に１または複数の層を有するフィードフォワードニューラルネットワークを意味する。フィードフォワードは、入力層から出力層（フォワード）への一方向のデータの流れを表す。ＭＬＰは、パターンの分類、認識、予想および近似のために広く使用されている。多層パーセプトロンは、線形分離可能でない問題を解決することができる。

「メタデータ」という用語は、他のデータを記述するデータを意味する。メタデータは、所定のアイテムのコンテンツに関する情報を提供する。画像は、画像の大きさ、色の深み、画像の解像度、および画像の生成日時を記述するメタデータを含むことができる。テキスト文書のメタデータは、文書の長さ、作成者、作成日時、および文書の要約に関する情報を含むことができる。

用語「メタタグ」は、ウェブページに含まれるメタデータを意味する。Ｗｅｂページのコンテンツを記述するために、記述メタタグおよびキーワードメタタグが通常使用される。ほとんどの検索エンジンは、検索索引にページを追加する場合、このデータを使用する。

「ＱＲコード（登録商標）」または「クイック応答コード」という用語は、付与された商品に関する情報を含むマトリクスバーコード（または二次元バーコード）を意味する。ＱＲコード（登録商標）は、白色の背景上に正方形の格子状に配置された黒色の正方形を含み、カメラなどの撮像装置によって読み取ることができ、さらに、画像が適切に認識されるまでリードソロモン誤差補正を使用して処理することができる。さらに、必要なデータは、画像の横方向成分および縦方向成分の両方に存在するパターンから抽出される。

「合成データ」という用語は、直接測定することからは得られない所定の状態に適用可能な任意の生成データを意味する。

用語「サポートベクトルマシン（Support Vector Machine）」または「ＳＶＭ」は、分類および回帰解析に使用されるデータを解析する関連学習アルゴリズムを備えた教師あり学習モデルを意味する。各々が２つのカテゴリーのうちの一方または他方に属するようになされたマーク毎に、トレーニング例のセットが与えられる。ＳＶＭトレーニングアルゴリズムは、一方のカテゴリーまたは他方のカテゴリーに新しい例を割り当てるモデルを構築し、非確率的二項線形分類器を形成する。

「ターゲット広告」という用語は、オンライン広告主が、自身が売り込む商品または人物に基づいて、ある特性を有する、売り込みを最も受け入れやすい閲覧者をターゲットにするための、高度な方法を使用した広告の形態を示す。これらの特性は、人種、経済的地位、性別、年齢、教育レベル、収入レベル、および雇用に焦点を当てた人口統計学的なものであってもよいし、閲覧者の評価、人格、態度、意見、生活様式、および関心に基づいた心理統計学的なものであってもよい。特性はまた、閲覧履歴、購入履歴、および他の最近の活動などの行動変数とすることもできる。

画像検索システムで使用される「ビジュアルワード（visual words）」または「ビジュアルワードクラスタ」という用語は、特徴（色、形状、またはテクスチャ等）、または、フィルタリング、低レベル特徴記述子（SIFT、SURF等）のような、画素に生じる変化に関連付けられたある種類の情報を担う画像の小部分を表す。

「白色化変換」または「球形化変換」という用語は、既知の共分散行列を有するランダム変数ベクトルを、共分散が、それらには相関関係がなく、すべて分散１となることを意味する単位行列である新しい変数のセットに変換する線形変換を表す。この変換は、入力ベクトルをホワイトノイズベクトルに変更するため、「白色化」と呼ぶ。

本明細書で使用される他の技術用語は、様々な技術辞書によって例示されるように、使用される技術分野における通常の意味を有する。
［好ましい実施形態の説明］
これらの非限定的な実施例において議論される特定の値および構成は、変更可能で、そして単に少なくとも一つの実施形態を例示するために引用されるだけで、その範囲を限定することを意図してはいない。

人口統計学的プロファイリングのための視覚検索の主要な利点の１つは、（伝統的なテキストベースの検索とは対照的に）確認可能なクエリについて、内在的により多くの情報があることである。例えば、ユーザーは、検索エンジン（またはＥ−コマースのウェブサイト）において茶色の靴を検索することができる。ユーザーは、茶色の靴の非常に具体的な性質（ローファー、紐付きなど）について購入または問い合わせを選択できる。

テキスト検索のクエリだけを利用した場合、それ以上の情報の無い検索オブジェクトについて、より詳細な情報を抽出することはできない。しかしながら、視覚検索の使用例では、クエリ画像自体は、ユーザーのクエリの特性についてより多くのものを我々に教示する。

視覚検索クエリに関するメタデータを抽出するために、高度な分類アルゴリズムを使用することができる。該分類アルゴリズムは、深層学習、管理型学習、および非管理型学習を含むが、これらに限定されない。したがって、入力画像から、記述的メタデータの一覧（例えば、靴、茶色、紐、ブローグ、状況、製造場所、素材、および画像内のコンテンツのステータスに関して明確性を提供する任意の情報）を得ることができる。

本発明の一実施形態では、画像または映像を構成するオブジェクトの一覧がフレームから抽出され、意味的に異なる「トピック」に対応するように解析された一連のフレームにリンクされ得る。

図１は、本発明の全処理の流れを示す。映像からのコンテンツ１１０は、収集およびコンパイルされ、コンテンツデータベース１７０を構築する。映像の視聴者は、例えば、映像からシステムにスクリーンショットを送信することによって、クエリ１２０を通してコンテンツデータベース１７０にアクセスしてもよい。

映像ファイル１１０は、フレームまたは意味的に類似したフレームグループ内のオブジェクトに関するメタデータおよび属性を自動的に決定および抽出するために処理される。（後述する）時間分析は、映像のセグメント化（１４０）を含む。オブジェクト検出エンジン１６０では、キーフレームがオブジェクトのために分析され得る。取り込み記録１８０は、オブジェクトの時間的位置を示すために作成される。識別されたオブジェクトおよび識別情報は、コンテンツデータベース１７０に加えられる。

ユーザーは、視覚インターフェース１３０を使用して映像の画像を撮影することによって、フレーム１２０を照会することができる。システムは、コンテンツデータベース１７０にアクセスし得る視覚検索エンジン１５０を含む。
［時間分析］
時間分析手段２００に含まれるステップを図２に示す。メディアコンテンツをセグメント化するために、映像１１０がフレームワークに取り込まれ、時間的フレームのシーケンスが分析される。このセグメント化の目的は、各セグメントが単一のイベントまたは単一の見出しに対応するように、フレームシーケンスを識別し、分離し、タグ付けすることである。その結果、セグメントがオブジェクトのために分析され得る。

類似度のしきい値を超える、フレームのペアまたはフレームシーケンスを検出するために、映像１１０が順にトラバースされる（２１０）。すなわち、フレームの比較（２２０）は、シーンまたは見出しの変化を含み、フレーム構成の有意な変化を示し得る。

同じイベント／シーンを描写するフレームは、類似度のしきい値を超えないだろう。この場合、次のフレームのペアの値が求められる（２５０）。異なるイベント／シーンを描写するフレームは、通常、類似度のしきい値を超えることとなり、この場合、セグメントは、１つのイベント／シーンとして識別される（２４０）。この処理は、映像１１０のフレームの各々がセグメントに含まれるようにするために繰り返され得る。その後、オブジェクト検知エンジン１６０により、オブジェクトのために映像のセグメントが分析され得る。

セグメント化の度合いは、時間的に多形化し得る（すなわち、フレーム間でそれらの形状が変化する）オブジェクトを扱う場合に大きくなる。一旦、映像内のシーンまたはフレームシーケンスの識別が完了すると、検出されたキーフレームから未知の形状に変化し得るオブジェクトへリンクさせることが可能となる。別の実施形態では、特定のオブジェクトに対する全ての既知の形状変形の実施例を用いてオブジェクト検知モデルの学習を行う（train）。

メタデータは、セグメント識別子によってフレーム自体の視覚コンテンツにリンクし、並列視覚検索データベースに取り込まれ得る。ユーザーが、取り込まれたフレームの画像を照会する場合、画像が照合サーバに送信され得る。セグメント識別子は、フレームが関連付けられたフレームシーケンスを識別するために使用され得る。この情報は、オブジェクトのリストと、ユーザー１２０に返送される上記オブジェクトのための任意のリンク付けされた拡張コンテンツを検索するために使用される。なお、クエリフレーム自体はオブジェクトのために分析されない。むしろ、クエリフレームは、セグメントにおける予め分析されたオブジェクトのコーパスにリンクするセグメント識別子に対して照合される。
［オブジェクト検出］
時間分析によって識別されたキーフレームは、個々のオブジェクトを認識し、識別するために分析され得る。一実施形態では、深層畳み込みニューラルネットワーク（ＣＮＮ）が、このタスクを実行するために使用され得る。

図３は、「ｂａｇｏｆｖｉｓｕａｌｗｏｒｄｓ」手法に基づく視覚検索エンジンが、視覚クエリ画像からセグメント識別子を検索するためにどのように利用されるかを示す。検索エンジンは画像データベース３８５を使用する。学習画像３１０（すなわち、既知の特徴を有する画像）は、定義されたオブジェクトと共に送信される。画像は、特徴を生成する（３２０）ために使用される。学習画像３６５は、データベースに取り込まれ得る（３７５）。

ＣＮＮモデルを学習するためには、取り込まれるオブジェクトごとに膨大な数の画像サンプルを導入する必要がある。画像データの膨大なコーパスは、複数の属性およびそれらの位置と共に複数のオブジェクトに対して編成され得る。このデータは、さらに白色変換、データ補強およびクラスの平衡化が行われる。このオブジェクトのデータベースは、深層畳み込みネットを学習するための入力情報として使用される。

オブジェクトとそれらの属性とを合わせて学習するために、本モデルが学習され得る。さらに、本モデルは、様々な意味抽出にわたる画像の実数値ベクトル記述である隠れ層から値を提供する。本モデルを使った推定により、オブジェクトラベル、信頼度スコア、隠れ層ベクトル、および属性が提供され得る。

例えば、オブジェクトは、属性（色彩、パターン、長さ等）を伴うアパレル分野における商品（バッグ、ジーンズ等）とされ得る。さらに、複数の領域に及ぶ画像におけるオブジェクトの位置の推定は、それぞれのキーフレームの前後のフレームにおける画像の最も確からしい位置を突き止めることに利用され得る。

本モデルにより、うまく学習状態（trained state）に到達するために数値が求められる（テストセットの最小誤差測定範囲を満たす数値が導出される）と、モデルは、フレームワーク内のライブ取り込みモジュールに送信される。映像セグメントの時間分析の後、各々のキーフレームは、画像に存在するオブジェクトの位置を得るために分析される。当該フレーム内で検出されたすべてのオブジェクトは、セグメント内の双方向で時間トラッキングされ得る。セグメント内で見つかった位置ごとに、ラベル、属性、および内部層の推測が行われ、信頼度によって時間に関する重み付けされた平均化が行なわれ得る。これによって、各セグメントおよび／またはフレームに対するオブジェクトごとの特徴ベクトルの生成が完結する。隠れ層によって生成されるベクトル記述は、多くの場合、高次元で構成され得る。多くの数の画像が、その特定の分布に対する圧縮技術を学習するために、収集され得る。本明細書で説明するフレームワークの例示的な実施形態では、深層自動エンコーダにより、検索精度の損失を最小限にするための最良の圧縮技術を提供する。
［視覚検索］
ユーザーが特定の映像との相互作用を望む場合、彼または彼女は、「アプリケーション」と呼ばれる、ユーザーの携帯機器上で通常動作するコンピュータプログラム内から、携帯用カメラ機器を使用してフレームを撮影することにより、彼らの興味を示すことができる。アプリケーションにより、更なる処理のためのクエリ画像をアップロードすることができる。

視覚クエリ画像がユーザーのデバイスからサーバに送信された後、視覚クエリ画像は、既知の画像データベースを検索するために使用され、可能性の高い被照合物が識別される。そして、最上位の順位づけ結果は、問い合わせにおけるフレームが最も関連しているセグメントをさらに識別することに使用される。その後、その特定のセグメントにリンクされたオブジェクトの検索のために、セグメント識別子が使用され得る。クエリ応答が集約された後、増えたコンテンツの全ては、ユーザーの携帯機器に戻される。

例えば、視聴者は、彼または彼女が気づいた映像中のハンドバッグのクエリを送ることができる。ハンドバッグは、その形状、パターン、ブランド、形状、サイズ、ブランドとその他の詳細を含むいくつかの判定基準に基づいて、データベース内の画像と照合され得る。システムは、順位付けされた多くの一致画像を返送し得る。

この処理は、ユーザーが画像１２０を照会する図３に示されている。視覚言語クラスタはアサインされる（３４０）。視覚言語クラスタから、逆ファイルリストが入力される。逆ファイルリストは、照会され（３５０）、記憶される（３５５）。上位の候補画像はフィルタリングされ（３６０）、画像データベース３８５に追加され得る。空間検証は、上位の一致画像において実行され（３８０）、上位の一致画像は、視聴者に返送され得る（３９０）。
［オフラインデータの拡張］
ウェブクローラによって取得されるような、定義されていない画像も、コンテントデータベースに入力するために利用され得る。図４は、オフライン製品データの拡張方法（４００）を示す。例示のフレームワークにおいて、オフラインデータの拡張が、オブジェクトおよび関連するメタデータのデータベース１７０に入力するために使用される。

クローリング処理は、様々なオンラインソース（例えば、電子商取引プラットフォームからの商品リストまたはソーシャルメディアネットワークからの画像）から、画像およびそれらの注釈付きメタデータを検索するために利用され得る（４２０）。これらのクローリングされた画像およびメタデータの属性は、未処理のクローリングされたデータを、データベースへの取り込み（４４０）に好適な記録に変換するデータクリーニングステージ（４３０）を通過する。

データベース取り込みフォーマットは、クローリングされた画像記録の各々をオブジェクト識別子にリンクさせることが可能である。これによりセグメントから検出されたオブジェクトを商品データベースにおけるオブジェクトにリンクさせることができるため、視覚クエリ画像から識別されたオブジェクトまたはオブジェクトのグループに対して拡張されたデータを提供するインターフェースを提供できる。
［ユースケース］
［製品の推薦］
本発明は、既存の視覚的メディアコンテンツに対してセカンドスクリーンのコンテンツ拡張サービスを促進させるために使用され得る。

例えば、それぞれのメディアを介してアクセス可能な製品構成を分析するために、人気テレビ番組（または映画）がプラットフォームに取り込まれ得る。番組が放送される（またはオンライン映像配信の場合でストリーミングされる）間または後に行われる可能性のある相互作用メカニズムを視聴者は通知され得るか、または気づかされ得る。

その後、取り込まれた映像からのフレームに関する任意のユーザーの視覚クエリは、オブジェクト検出フレームワークによって豊富になり得る。これにより、コンテンツ制作者と、提供される製品／サービスと相互通信する消費者とのための独自のプラットフォームが提供される。フレームワーク内で検出されるオブジェクトの範囲は、フレーム内の静止商品（衣料品、家具、旅行機会等）を包含し得、またはセグメント内で検出された実体（すなわち、役者、キャスティングクルー等）あるいはセグメント内の実体に対応して拡張され得る。

例えば、広告主または小売業者は、映像または映画中のハンドバッグを宣伝するために商品配置を使用できる。視聴者は、ハンドバッグを含むシーンのクエリを送信する。一致した製品（すなわち、ハンドバッグ）の販売促進広告は、ユーザーのデバイスで再生され得る。購入指示を含む追加の情報もまた、視聴者に提供され得る。

図５は、本明細書で説明するユースケースを扱うための例示的なフレームワークを示す。映像１１０は、オフライン取り込みを通じてコンテンツデータベースを拡張するために使用され得る。映像は、スクリーンショットの変更の検出を受ける（５１０）。映像のセグメント５４０は、キーフレーム５６０、オブジェクトの配置（５９０）、およびトラッキング（６３０）により識別される。次のステップは、オブジェクト認識、属性のラベル付け、および特徴抽出（６６０）であり、時間平均化（６９０）がそれに続く。

映像の取り込みは、フレームサンプリング（５５０）および特徴の画像処理（５７０）を含むことができる。データベースコンテンツは、フレーム６１０、製品６７０、およびオブジェクト７１０を含むことができる。６４０で、商品の取り込み（ウェブクローリング、集約および拡張）が行われる。

ユーザーは、フレーム１２０を照会することができる。画像は、類似するデータベース内の画像を順位付けすることで照合される（５８０）。視覚検索の順位付け６５０と同様に、セグメント番号６２０が生成され得る。一致した製品６８０は、ユーザーのクエリに対してユーザーに送信可能である。広告主および／またはマーケティング担当者が販売促進を望む製品は、視覚検索の順位付け６５０において高い順位を得ることができる。
［ライブテレビセカンドスクリーン］
オフライン、既存のコンテンツに加え、ライブ映像ストリームを処理するためのフレームワークが拡張され得る。本実施例の上記方法により、オブジェクト検出プラットフォームに送信されるフレームの各々に対して、同じフレームの任意の問い合わせより前に、取り込みメカニズムを確実に実行することができる。

ライブ映像においては、時間分析モジュールは、最後の「Ｎ」分（または必要に応じてＮ時間）の一時履歴を維持するトランザクションコンテンツデータベースに変更可能である。この変更されたフレームワークでは、ライブ映像ストリームからのすべての入力フレームが、配置可能な遅延の後にデータが終了することを保証する「ＴＴＬ（time-to-live）」のメカニズムを備えたオブジェクト検出および視覚検索データベースに取り込まれる。このようにして、データベース（およびコンピュータクラスタ）のサイズは、大量の短い待ち時間のオペレーションを維持することを可能にする高性能状態を繋ぎとめる。

そのようなフレームワークは、次のセカンドスクリーンのコンテンツを提供するために使用され得る。
−選手の経歴および／または試合成績を表示する生中継のスポーツイベント。
−ニュース速報等において検出されたオブジェクトおよび／または位置に対して情報グラフィックスを表示するライブニュース放送。
−検出された製品の価格の比較を表示するテレマーケティング放送。
［オンラインショッピングのための本発明の使用］
図６に示すように、映像１１０の視聴者は、彼または彼女が見つけた製品に関する追加情報を、映像１１０のスクリーンショットにより照会することができる。この実施例６００では、視聴者はテレビでドラマを見ている。視聴者は、ある役者が特定のシャツを着ていることに気付く。視聴者は、システム１２０に送信するためのスクリーンショットを撮影することができる。テレビ視聴では、アプリを用いて画面の写真を撮影することが可能である。視聴者が、携帯機器、タブレット、またはコンピュータに映像をストリーミングしている場合、彼または彼女は、スクリーンショットを撮影し送信することができる。静止写真の画像（雑誌広告など）も送信可能である。

システムは、スクリーンショット内のオブジェクトを検出する。本実施例では、短い袖の暗色のシャツが検出される。この判定基準を満たした入手可能な販売商品が、ビューアー６１０に表示される。彼または彼女は、より詳細なクエリを生成するために追加の判定基準を送信可能である。例えば、オブジェクト検索では、（ｖネック等の）特定のデザインまたは特定のデザイナーのシャツのみを含むようにさらに絞り込んでもよい。

その後、視聴者は、参加ベンダーを通じてオンライン６２０で製品を購入することができる。これにより、ベンダーは、追加の宣伝のための時間および／または広告を必要とせずに、製品を配置することで製品を販売することができる。

上記の説明は、単に本発明の例示的な実施形態を開示しているだけである。本発明の範囲に含まれる上記に開示された装置および方法の変形例は、当業者には容易に明らかであろう。したがって、本発明は、それらの例示的な実施形態に関連して開示されたが、他の実施形態が、以下の特許請求の範囲によって定義される本願の趣旨および範囲内であれば含まれ得ることを理解されたい。
［動作環境］
システムは、通常、データネットワークによってユーザーのコンピュータに接続された中央サーバから構成されている。中央サーバは、１または複数の大容量記憶装置に接続された、１または複数のコンピュータから構成されてもよい。中央サーバの正確な構造は、特許請求の範囲を限定するものではない。さらに、ユーザーのコンピュータは、ラップトップ型またはデスクトップ型のパソコンであってもよく、また、携帯電話、スマートフォン、またはタブレットを含む他の携帯端末であってもよい。ユーザーのコンピュータの要素の正確な構成要素は、特許請求の範囲を限定するものではない。使用に最適な周知のコンピュータシステム、環境、および／または構成の例は、パソコン、サーバコンピュータ、ハンドヘルドコンピュータ、ラップトップコンピュータ、あるいは携帯コンピュータ、または携帯電話およびＰＤＡなどの通信デバイス、マルチプロセッサシステム、マイクロプロセッサベースのシステム、セットトップボックス、プログラマブル家電、ネットワークＰＣ、小型コンピュータ、メインフレームコンピュータ等の、システムまたはデバイスを含む分散型コンピュータ環境などを含むが、これらに限定されない。ユーザーのコンピュータの正確な構成要素は、特許請求の範囲を限定するものではない。一実施形態では、ユーザーのコンピュータは省略され、代わりに、中央サーバと協働する個別の計算機能が提供される。その場合、ユーザーは、別のコンピュータからサーバにログインし、ユーザー環境を介してシステムにアクセスすることになる。

ユーザー環境は、中央サーバに設けられてもよいし、中央サーバに動作可能に接続されてもよい。さらに、ユーザーは、インターネットを使用して中央サーバからデータを受信し、かつ中央サーバにデータを送信することができる。それによって、ユーザーは、インターネットウェブブラウザを使用するアカウントにアクセスし、ブラウザは、中央サーバに動作可能に接続された相互作用型ウェブページを表示する。中央サーバは、ブラウザユーザーインターフェースに対する閲覧者の動作に応答してブラウザから送信されたデータおよびコマンドに応答してデータを送受信する。本発明のいくつかのステップは、ユーザーのコンピュータ上、および、サーバに送信された暫定的な結果物で実行される。これらの暫定的な結果物は、サーバで処理され、最終的な結果物がユーザーに返送される。

本明細書で説明される方法は、メモリーデバイス、データの入出力（Ｉ／Ｏ）回路およびコンピュータデータネットワーク通信回路に動作可能に接続されるＣＰＵ（Central Processing Unit）を一般的に備えたコンピュータシステム上で実行され得る。ＣＰＵによって実行されるコンピュータコードは、データ通信回路によって受信されたデータを取り込み、それをメモリーデバイスに記憶させ得る。さらに、ＣＰＵは、Ｉ／Ｏ回路からデータを取り込み、それをメモリーデバイスに記憶させ得る。また、ＣＰＵは、メモリーデバイスからデータを取り込み、Ｉ／Ｏ回路またはデータ通信回路を介して出力することもできる。メモリーに記憶されたデータは、メモリーデバイスからさらに呼び出され、本明細書に記載された方法でＣＰＵによってさらに処理または変更され、データネットワーク回路を含むＣＰＵに動作可能に接続された同じメモリーデバイスまたは別のメモリーデバイスに復元される。メモリーデバイスは、ハードディスク、光ディスク、またはソリッドステートメモリーを含む、任意の種類のデータ記憶回路、磁気記憶装置、または光デバイスであってよい。Ｉ／Ｏデバイスは、ディスプレイスクリーン、スピーカ、マイクロフォンおよびディスプレイ上のカーソル位置と関連する位置をコンピュータに示す可動マウス、ならびにコマンドを示すように作動させ得る１または複数のボタンを含むことができる。

コンピュータは、Ｉ／Ｏ回路に動作可能に接続されたディスプレイスクリーン上で、ユーザーインターフェースの様子を表示し得る。コンピュータが、ディスプレイスクリーンにおける閲覧者によるブラウザユーザーインターフェースの作動を構成するピクセルを引き起こすデータを生成することで、様々な形状、テキスト、およびその他のグラフィックの形態が、スクリーン上に表示される。本発明のいくつかのステップは、ユーザーのコンピュータ上、および、サーバに送信された暫定的な結果物で実行される。これらの暫定的な結果物は、サーバで処理され、最終的な結果物がユーザーに返送される。

本明細書で説明される方法は、メモリーデバイス、データの入出力（Ｉ／Ｏ）回路およびコンピュータデータネットワーク通信回路に機能を実現するように接続されるＣＰＵ（Central Processing Unit）を一般的に備えたコンピュータシステム上で実行され得る。ＣＰＵによって実行されるコンピュータコードは、データ通信回路によって受信されたデータを取り込み、それをメモリーデバイスに記憶させ得る。さらに、ＣＰＵは、Ｉ／Ｏ回路からデータを取り込み、それをメモリーデバイスに記憶させ得る。また、ＣＰＵは、メモリーデバイスからデータを取り込み、Ｉ／Ｏ回路またはデータ通信回路を介して出力することもできる。メモリーに記憶されたデータは、メモリーデバイスからさらに呼び出され、本明細書に記載された方法でＣＰＵによってさらに処理または変更され、データネットワーク回路を含むＣＰＵに機能を実現するように接続された同じメモリーデバイスまたは別のメモリーデバイスに復元される。メモリーデバイスは、ハードディスク、光ディスク、またはソリッドステートメモリーを含む、任意の種類のデータ記憶回路、磁気記憶装置、または光デバイスであってよい。Ｉ／Ｏデバイスは、ディスプレイスクリーン、スピーカ、マイクロフォンおよびディスプレイ上のカーソル位置と関連する位置をコンピュータに示す可動マウス、ならびにコマンドを示すように作動させ得る１または複数のボタンを含むことができる。

コンピュータは、Ｉ／Ｏ回路に動作可能に接続されたディスプレイスクリーン上で、ユーザーインターフェースの様子を表示し得る。コンピュータが、表示画面を構成する画素に様々な色および色調を呈させるデータをコンピュータ生成することで、様々な形状、テキストおよびその他のグラフィックの形態が、スクリーン上に表示される。ユーザーインターフェースはまた、当該技術分野においてカーソルと呼ばれるグラフィカルオブジェクトを表示する。ディスプレイ上のこのオブジェクトの位置は、画面上の別のオブジェクトをユーザーが選択することを示している。カーソルは、Ｉ／Ｏ回路によってコンピュータに接続された別のデバイスによってユーザーが動かしてもよい。このデバイスは、ユーザーの所定の物理的動作、例えば、平面上の手の位置、または平面上の指の位置を検出する。このようなデバイスは、当該技術分野において、マウスまたはトラックパッドと呼ばれ得る。ある実施形態では、ディスプレイスクリーン自体は、ディスプレイスクリーン上の１つ以上の指の存在および位置を感知することによって、トラックパッドとして機能し得る。カーソルが、ボタンまたはスイッチのように見えるグラフィックオブジェクトの上に位置している場合、ユーザーは、マウスまたはトラックパッドまたはコンピュータデバイス上の物理スイッチを押すことでボタンまたはスイッチを作動させることができる。またはトラックパッドもしくはタッチ感応型ディスプレイをタップすることによって、ボタンまたはスイッチを作動させることもできる。コンピュータは、物理スイッチが押されたこと（またはトラックパッドまたはタッチ感応型スクリーンのタップが生じたこと）を検出すると、スクリーン上のカーソルの見かけの位置（またはタッチ感応型スクリーンの場合、指の検出位置）を取得し、その位置に関連する処理を実行する。開示された発明の幅を制限することにはならないが、例えば、スイッチの中に「入力」という単語を有する２次元のボックスのように見えるグラフィカルオブジェクトが、画面上に表示されてもよい。カーソル位置（またはタッチ感応型スクリーンにおける指の位置）がグラフィカルオブジェクト、例えば、表示ボックスの境界内にある間に、コンピュータが、スイッチが押されたことを検出した場合、コンピュータは、「入力」コマンドに関連付けられた処理を実行することになる。このようにして、スクリーン上のグラフィックオブジェクトにより、ユーザーインターフェースが形成され、コンピュータ上で動作する処理をユーザーが制御することが可能になる。

また、本発明は１または複数のサーバ上で包括的に実行されてもよい。サーバは、大容量記憶装置とネットワーク接続とを備えたＣＰＵからなるコンピュータであってもよい。さらに、上記機能をまとめて提供する方法として、サーバが、データネットワーク、あるいは他のデータ転送接続と一体となって接続された複数の上記コンピュータ、またはネットワークアクセス記憶装置を備えたネットワーク上の複数のコンピュータを含んでいてもよい。当業者であれば、１つのサーバ上で達成される機能が、適切な内部処理通信を行うコンピュータネットワークによって動作可能に接続される複数のサーバ上で分割して達成可能であることを理解するであろう。さらに、ウェブサイトへのアクセスは、認証ページあるいは公開ページにアクセスするインターネットブラウザで行うか、または、コンピュータネットワークを介してサーバに接続されたローカルコンピュータ上で動作するクライアントプログラムによって行うこともできる。データの送信およびデータのアップロードまたはダウンロードは、ＴＣＰ／ＩＰ、ＨＴＴＰ、ＴＣＰ、ＵＤＰ、ＳＭＴＰ、ＲＰＣ、ＦＴＰを含む通常のプロトコル、または、２つの遠隔コンピュータ上で動作する処理により、デジタルネットワーク通信によって情報を交換することを可能にする、他の種類のデータ通信プロトコルを使用して、インターネット上で実行することができる。その結果、データメッセージは、ネットワークの宛先アドレス、宛先処理またはアプリケーション識別子を含んだコンピュータから送信または該コンピュータにより受信されるデータパケットであり、かつ宛先アプリケーションによりネットワーク宛先アドレスに配置される宛先コンピュータで解析可能なデータ値とすることができる。その結果、宛先アプリケーションによって関連するデータ値が抽出され使用されることになる。中央サーバの正確な構造は、本発明の特許請求の範囲を限定するものではない。さらに、データネットワークは、ユーザーのコンピュータが、開示された方法を実行する別のサーバへの通信をルーティングする１つのサーバへファイアウォールを通して接続されるように、いくつかのレベルで動作してもよい。

ユーザーコンピュータは、データファイル内のデータを解析し、ディスプレイ装置に特定のテキスト、画像、ビデオ、音声、および他のオブジェクトを表示するよう命令するプログラムに転送されるデータファイルを、遠隔サーバから受信するプログラムを動作させ得る。データファイル内のデータを解析し、ディスプレイ装置に特定のテキスト、画像、ビデオ、音声、および他のオブジェクトを表示するよう命令するプログラムは、マウスボタンが操作されたときにカーソルの関連付けられた位置を検出し、ボタンが押されたときのディスプレイ上に示された関連付けられた位置の配置に基づいて実行されるコマンドを解析し得る。データファイルは、ＨＴＭＬ文書、プログラム、ウェブブラウザのプログラム、コマンド、およびブラウザを使用して別の遠隔データネットワークアドレス位置から新しいＨＴＭＬ文書を要求するハイパーリンクであってもよい。ＨＴＭＬはまた、例えば、フラッシュまたは他のネイティブコードを呼び出し、実行する別のコードモジュールを生成するリファレンスを含んでいてもよい。

当業者は、本発明が、ワイヤレスデバイス、インターネット機器、携帯用デバイス（携帯情報端末（ＰＤＡ）を含む）、ウェアラブルコンピュータ、あらゆる種類のセルラー電話機または携帯電話機、マルチプロセッサシステム、マイクロプロセッサベースまたはプログラマブル家電、セットトップボックス、ネットワークＰＣ、小型コンピュータ、メインフレームコンピュータなどを含んだ別の通信システム、データ処理システム、またはコンピュータシステム構成で実施できることを理解するであろう。実際、用語「コンピュータ」、「サーバ」などは、本明細書では交換可能に使用され、上記のデバイスおよびシステムのいずれを示してもよい。

いくつかの例において、とりわけ、ユーザーのコンピュータが、ネットワークを介してデータにアクセスするために使用される携帯用コンピュータデバイスである場合、ネットワークは、汎ヨーロッパデジタル移動通信システム（ＧＳＭ（登録商標））、時間分割多重接続（ＴＤＭＡ）、符号分割多元接続（ＣＤＭＡ）、直交周波数分周多重（ＯＦＤＭ）、汎用パケット無線サービス（ＧＰＲＳ）、ＥＤＧＥ（Enhanced Data GSM Environment）、アドバンスト携帯電話機システム（ＡＭＰＳ）、ＷｉＭＡＸ（Worldwide Interoperability for Microwave Access）、ユニバーサル移動体通信システム（ＵＭＴＳ）、エボリューションデータ最適化（ＥＶＤＯ）、ロングタームエボリューション（ＬＴＥ）、ＵＭＢ（Ultra Mobile Broadband）、音声ＩＰ（ＶｏＩＰ）、またはＵＭＡ（UnlicensedMobile Access）を含む、任意の種類のＩＰベースのセルラネットワークまたは垂直統合型電気通信ネットワークであってもよいが、これらに限定されない。

インターネットは、パソコンを操作する利用者が、遠隔に配置されたコンピュータサーバと相互作用し、ネットワークを介したデータファイルとして、サーバからパソコンに配信されるコンテンツを見ることを可能にするコンピュータネットワークである。ある種類のプロトコルでは、サーバは、ブラウザとして知られるローカルプログラムを使用して利用者のパソコン上に、解析されたウェブページを表示する。ブラウザは、サーバから、利用者のパソコンのスクリーン上に表示される１または複数のデータファイルを受信する。ブラウザは、ＵＲＬ（Universal Resource Locator）と呼ばれる英数字列によって表される特有のアドレスからこれらのデータファイルを探す。しかしながら、ウェブページは、種々のＵＲＬアドレスまたはＩＰアドレスからダウンロードされたコンポーネントを含んでいてもよい。ウェブサイトは、関連付けられたＵＲＬの集合体であり、通常、全てのＵＲＬが同一のルートアドレスを共有しているか、またはいくつかのエンティティの制御下にある。一実施形態では、シミュレートされたスペースの異なる領域は、異なるＵＲＬアドレスを有する。すなわち、シミュレートされたスペースは、単一のデータ構造であってもよいが、異なるＵＲＬアドレスは、データ構造における異なる位置を参照する。これにより、大規模な領域をシミュレートすることが可能となり、参加者に仮想の近隣内でその使用を開始させることができる。

本明細書でこれまでに記載した機能の全てまたは一部を実行するコンピュータプログラム論理は、ソースコードの形態、コンピュータにより実行可能な形態、および様々な中間形態（例えば、アセンブラ、コンパイラ、リンカ、またはロケータによって生成された形態）を含む様々な形態で、具現化することができるが、これらに限定されない。ソースコードは、様々な動作システムまたは動作環境で使用するための様々なプログラム言語（例えば、オブジェクトコード、アセンブリ言語、またはＣ、Ｃ−ＨＦ、Ｃ＃、アクションスクリプト、ＰＨＰ、Ｅｃｍａスクリプト、Ｊａｖａ（登録商標）スクリプト、Ｊａｖａ（登録商標）、あるいは５ＨＴＭＬなどの高水準言語）のいずれかで実行される一連のコンピュータプログラム命令を含むことができるが、これらに限定されない。ソースコードは、様々なデータ構造および通信メッセージを定義し、使用することができる。ソースコードは、コンピュータ実行可能形態（例えば、インタープリタを介して）であってもよく、（例えば、トランスレータ、アセンブラ、またはコンパイラを介して）コンピュータ実行可能形態に変換されてもよい。

本発明はコンピュータによって実行される、プログラムモジュールなどの、一般的なコンピュータで実行可能な命令で記載することもできる。一般に、プログラムモジュールは、特定のタスクまたは特定の種類の抽象データを実行するルーチン、プログラム、オブジェクト、コンポーネント、データ構造などを含む。コンピュータプログラムおよびデータは、半導体メモリーデバイス（例えば、ＲＡＭ、ＲＯＭ、プログラマブルＲＯＭ（ＰＲＯＭ）、ＥＥＰＲＯＭ（登録商標）（電気的消去可能プログラマブルＲＯＭ）、またはフラッシュプログラマブルＲＡＭ）、磁気メモリーデバイス（例えば、ディスケットまたは固定ハードディスク）、光メモリーデバイス（例えば、ＣＤ−ＲＯＭまたはＤＶＤ）、ＰＣカード（例えば、ＰＣＭＣＩＡカード）、または他のメモリーデバイスなどの有形記録媒体に、任意の形態（例えば、ソースコードの形態、コンピュータ実行可能な形態、または中間形態）で、永久的または一時的に記憶させることが可能である。コンピュータプログラムおよびデータは、アナログ技術、デジタル技術、光技術、無線技術、ネットワーク技術、およびインターネットワーク技術を含むが、これらに限定されない様々な通信技術のいずれかを使用し、コンピュータに送信可能な信号を任意の形態で記憶させることができる。コンピュータプログラムおよびデータは、印刷された文書または電子文書に付随する取り外し可能な記録媒体（例えば、収縮包装されたソフトウェアまたは磁気テープ）として供給されてもよく、コンピュータシステム（例えば、システムＲＯＭまたは固定ディスク）に事前にロードされてもよく、またはサーバまたは電子掲示板から通信システム（例えば、インターネットまたはワールドワイドウェブ）を介して供給されてもよい。本発明のソフトウェアコンポーネントのいずれかは、必要に応じて、ＲＯＭ（リードオンリーメモリー）形態で実施されてもよい。本発明のソフトウェアコンポーネントは、一般的には、ハードウェアで実施することができるが、従来の技術を使用して実施されてもよい。

また、本発明は、通信ネットワークを介してリンクされた遠隔処理デバイスによってタスクが実行される分散コンピューティング環境で実施することもできる。分散コンピューティング環境において、プログラムモジュールは、メモリー記憶装置を含むローカルおよび遠隔のコンピュータ記録媒体の両方に記憶させることができる。当業者は、本発明が、例えばインターネットを含むデータネットワークを使用してリンクされた１または複数のコンピュータプロセッサ上で実行可能であることを認識するであろう。別の実施形態では、分離して配置されているものの、処理工程を実行するために一体となって動作するようにデータネットワークにより接続されている１または複数のコンピュータおよび記憶装置によって、処理の様々な工程を実行することができる。一実施形態では、ユーザーのコンピュータは、ユーザーのコンピュータがデータネットワークを介して、本明細書でサーバと呼ばれる第２のコンピュータに、１または複数のデータパケットをストリーム配信させるアプリケーションを実行することができる。さらに、サーバは、データベースが格納される１または複数の大容量データ記憶装置に接続されてもよい。サーバは、データベースのクエリ情報を抽出するために、送信されたパケットを受信し、送信されたデータパケットを解析するプログラムを実行することができる。次に、サーバは、大容量記憶装置にアクセスして、望ましいクエリの結果を得るための残りの工程を実行することができる。あるいは、サーバは、大容量記憶装置に接続された別のコンピュータにクエリ情報を送信することができ、そのコンピュータは、本発明を実行することで望ましい結果を得ることができる。そして、該結果は、ユーザーのコンピュータに適切に宛てられた１または複数のデータパケットを別の配信手段により、ユーザーのコンピュータに送信可能である。一実施形態では、関連付けられたデータベースは、コンピュータメモリー（例えばディスクドライブ）と動作可能に接続された、１または複数のサーバに収容されてもよい。さらに別の実施形態では、関連付けられたデータベースの初期化が、サーバのセットで準備され、ユーザーのコンピュータとの相互作用が、全体の処理において異なる場所で行われてもよい。

フローチャートは、本明細書で、様々な態様を示すために使用され、本発明を特定の論理の順序または論理の実施に限定すると解釈されるべきではないことに留意されたい。説明された論理は、総合的な結果を変更すること、または本願の真の範囲から逸脱することがなければ、異なる論理ブロック（例えば、プログラム、モジュール、機能、またはサブルーチン）に分割することができる。通常、論理要素は、全結果を変更すること、または本発明の真の範囲から逸脱することがなければ、異なる論理構成（例えば、論理ゲート、ループプリミティブ、条件付き論理、および他の論理構成）を使用して、追加、修正、省略、異なる順序で実施、または実行することができる。

本発明の記載された実施形態は、例示することを目的とし、多数の変形例および変更があることは当業者にとって明らかである。このような変形例および変更のすべては、添付の特許請求の範囲によって定義される本発明の範囲内であるものと見なす。本発明を詳細に説明し、図示してきたが、これは図示と例示とを目的としているだけで、限定することと解釈されるべきではないことを明確に理解されたい。分かりやすくするために、個々の実施形態の文脈で説明された、本発明の様々な特徴は、単一の実施形態を組合せて提供されてもよいことを理解されたい。

本発明の一実施形態の全処理の流れを示す。映像シーンのセグメント化を示す。視覚検索の概要を示す。オフライン製品のデータ拡張の方法を示す。オフラインで事前に取り込まれたコンテンツに関する製品推薦フレームワークを示す。ユーザーによる問い合わせと推奨された製品とを示す。

Claims

映像中のオブジェクトを検出し、オブジェクトを１または複数の製品と照合する方法であって、
ａ）映像を取得するステップと、
ｂ）類似点および相違点に関して、連続するフレームのコンテンツを比較して、描写された情景およびイベントの少なくともいずれかに基づいて映像をセグメント化するステップと、
ｃ）同一または類似の情景およびイベントの少なくともいずれかのセグメントをコンパイルするステップと、
ｄ）１または複数のセグメントを分析し、１または複数のオブジェクトを検出するステップと、
ｅ）前記１または複数のオブジェクトを製品と比較するステップと、
ｆ）前記１または複数のオブジェクトに関連する製品を特定するステップと、
ｇ）１または複数の視聴者に前記製品を通知するステップと、を含むことを特徴とする方法。
畳み込みニューラルネットワーク（ＣＮＮ）が、前記１または複数のオブジェクトに関連付けられた製品を識別するために使用されることを特徴とする、請求項１に記載の方法。
１または複数のセグメントを分析し、前記１または複数のオブジェクトを検出する前記ステップは、フレームおよびフレームの一部の少なくともいずれかを、データベース内の既定のコンテンツと比較するステップを含むことを特徴とする、請求項１に記載の方法。
前記データベースは、ウェブクローラを使用して既定のコンテンツが入力されることを特徴とする、請求項３に記載の方法。
前記データベースは、既知のオブジェクトおよびメタデータクラスタをアラインすることによって、既定のコンテンツが入力されることを特徴とする、請求項３に記載の方法。
セカンドスクリーンのコンテンツ拡張は、ライブ映像またはストリーミング映像のために使用されることを特徴とする、請求項１に記載の方法。
１または複数の視聴者に前記製品を通知する前記ステップは、広告を表示するステップを含むことを特徴とする、請求項１に記載の方法。
１または複数の視聴者に前記製品を通知する前記ステップは、ウェブサイトまたは映像へハイパーリンクを提供するステップを含むことを特徴とする、請求項１に記載の方法。
スクリーンショットにおける１または複数のオブジェクトを検出し、前記１または複数のオブジェクトを販売促進物と照合する方法であって、
ａ）視聴者からの問い合わせを、デジタルスクリーンショットの形式で受信するステップと、
ｂ）前記スクリーンショットにおける１または複数のオブジェクトを識別するステップと、
ｃ）前記１または複数のオブジェクトを製品と比較するステップと、
ｄ）前記１または複数のオブジェクトに関連付けられた製品を照合するステップと、
ｅ）前記視聴者に、照合された製品に関する販売促進物を連絡するステップと、を含むことを特徴とする方法。
前記１または複数のオブジェクトに関連付けられた製品を照合する前記ステップにおいて、畳み込みニューラルネットワーク（ＣＮＮ）が使用されることを特徴とする、請求項９に記載の方法。
前記スクリーンショット内の１または複数のオブジェクトを識別する前記ステップは、前記スクリーンショットおよび前記スクリーンショットの一部の少なくともいずれかを、データベース内の既定のコンテンツと比較するステップを含むことを特徴とする、請求項９に記載の方法。
前記データベースは、ウェブクローラを使用して既定のコンテンツが入力されることを特徴とする、請求項１１に記載の方法。
前記データベースは、既知のオブジェクトおよびメタデータクラスタをアラインさせることによって、既定のコンテンツが入力されることを特徴とする、請求項１１に記載の方法。
セカンドスクリーンのコンテンツ拡張を、ライブ映像またはストリーミング映像のために使用することを特徴とする、請求項９に記載の方法。
前記視聴者に、前記照合された製品に関連付けられた販売促進物を連絡する前記ステップは、宣伝を表示するステップ、および、ウェブサイトもしくは映像へのハイパーリンクを提供するステップの少なくともいずれかを含むことを特徴とする、請求項９に記載の方法。
映像中のオブジェクトと製品のデータベース中の製品との間の関連を生成するためのシステムであって、
ユーザーインターフェースアプリケーションを介してユーザーまたはユーザーグループにローカルまたはリモートで接続されるコンピュータネットワークおよびコンピュータシステムと、
メディアコンテンツをローカルまたはサーバ上で検出および記憶するモジュールと、
メタデータおよび視覚的特徴の少なくともいずれかを取り込むために、リモートまたはサーバベースのプロセッサに前記メディアコンテンツを送信するモジュールと、
メタデータおよび視覚的特徴の少なくともいずれかを抽出するために、リモートまたはサーバベースのプロセッサに前記メディアコンテンツを送信するモジュールと、
視覚的特徴を含むデジタル画像の形式で１または複数のユーザーからの入力を受信する装置と、
前記視覚的特徴を識別し、前記視覚的特徴を前記データベース内のオブジェクトおよび関連製品のグループの少なくともいずれかと関連付けるように構成されたモジュールと、
前記オブジェクトおよび関連製品のグループの少なくともいずれかに関する情報を、ユーザーおよびユーザーのグループの少なくともいずれかに配信するネットワークサービスと、を含むことを特徴とするシステム。
畳み込みニューラルネットワーク（ＣＮＮ）が、視覚的特徴およびメタデータを分析し、前記視覚的特徴をオブジェクトおよび関連製品のグループの少なくともいずれかと関連付けることに使用されることを特徴とする、請求項１６に記載のシステム。
前記オブジェクトおよび関連製品のグループの少なくともいずれかについての前記情報は、広告を含むことを特徴とする、請求項１６に記載のシステム。
前記オブジェクトおよび関連製品のグループの少なくともいずれかについての前記情報は、前記インターネットを通じてアクセス可能なハイパーリンクまたはコンテンツを含むことを特徴とする、請求項１６に記載のシステム。