JP2019531547A - 視覚検索クエリによるオブジェクト検出 - Google Patents

視覚検索クエリによるオブジェクト検出 Download PDF

Info

Publication number
JP2019531547A
JP2019531547A JP2019513057A JP2019513057A JP2019531547A JP 2019531547 A JP2019531547 A JP 2019531547A JP 2019513057 A JP2019513057 A JP 2019513057A JP 2019513057 A JP2019513057 A JP 2019513057A JP 2019531547 A JP2019531547 A JP 2019531547A
Authority
JP
Japan
Prior art keywords
objects
video
database
product
content
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2019513057A
Other languages
English (en)
Other versions
JP2019531547A5 (ja
Inventor
モーリス ムーア,スティーブン
モーリス ムーア,スティーブン
パトリック ミュレイ,ラリー
パトリック ミュレイ,ラリー
シャンムガマニ,ラジャリンガッパー
Original Assignee
エイアイキュー ピーティーイー.リミテッド
エイアイキュー ピーティーイー.リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by エイアイキュー ピーティーイー.リミテッド, エイアイキュー ピーティーイー.リミテッド filed Critical エイアイキュー ピーティーイー.リミテッド
Publication of JP2019531547A publication Critical patent/JP2019531547A/ja
Publication of JP2019531547A5 publication Critical patent/JP2019531547A5/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7837Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • G06F18/24143Distances to neighbourhood prototypes, e.g. restricted Coulomb energy networks [RCEN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • G06Q30/0204Market segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0277Online advertisement
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0633Lists, e.g. purchase orders, compilation or processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0641Shopping interfaces
    • G06Q30/0643Graphical representation of items or shoppers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/48Matching video sequences
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/49Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/478Supplemental services, e.g. displaying phone caller identification, shopping application
    • H04N21/47815Electronic shopping
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/812Monomedia components thereof involving advertisement data
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/858Linking data to content, e.g. by linking an URL to a video object, by creating a hotspot

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Strategic Management (AREA)
  • Development Economics (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Library & Information Science (AREA)
  • Software Systems (AREA)
  • Marketing (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Economics (AREA)
  • General Business, Economics & Management (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Medical Informatics (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Game Theory and Decision Science (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Human Resources & Organizations (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)

Abstract

本発明は、データベースに既知のオブジェクトを入力するシステムおよび方法を含む。データベースは、オフラインデータ拡張(例えば、Webクローラ)、または既知のオブジェクトおよびメタデータクラスタをアラインすることによって、既定のコンテンツを入力され得る。視聴者は、ライブまたはオフラインメディアから画像を問い合わせることができる。視聴者の問合せを受けたオブジェクトは、データベース内の類似のオブジェクトまたは推奨製品にリンクされる。

Description

発明の詳細な説明
[技術分野]
本発明は、インターネット販売のためのコンピュータ技術に関し、特に、映像をセグメントに分割し、セグメント内のオブジェクトを識別し、製品をオブジェクトと照合するためのコンピュータネットワークアプリケーションに関する。
に関する。
[背景技術]
Eコマース(電子商取引、E-Commerce)は、オンラインで売買する取引である。Eコマースは、顧客に販売するだけでなく、顧客の関心を引く、世界中の中小企業および大企業にとって重要なツールとなっている。2012年には、電子商取引の世界における売上高は1兆ドルを上回った。
インターネットマーケティングとは、Eコマースを介した販売を促進するために、ウェブと電子メールを利用する広告活動およびマーケティング活動である。インターネットマーケティングには、電子メールマーケティング、検索エンジンマーケティング(SEM)、ソーシャルメディアマーケティング、多くの種類の表示広告(例えば、バナー広告)および携帯広告が含まれる。メタデータは、インターネットマーケティングの重要な構成要素である。
オンラインでの購入者は、商品を直に見ることができないため、彼らは、通常、キーワードといった判定基準により検索する。事業者は、販売動向の解析と、販売計画の展開と予測とを可能にする、検索や取引に関するメタデータを日常的に保管する。この同じメタデータにより、事業者は、購買履歴、多数の配送先の住所録、および商品の推薦といった特徴を備えた、より個人向けの買い物体験を提供することができる。
今日、ほとんどのウェブページには、メタデータが埋め込まれている。ウェブ検索エンジンは、ユーザーに対して適切な検索結果を提供するために、ページテキストとそれに付随するメタデータを使用した膨大なインデックスを構築している。メタデータは、ターゲット広告に使用することができる。広告主は、自身が売り込む商品に基づき、所定の特性を有する、売り込みを最も受け入れやすい閲覧者をターゲットにするための高度な手段を使用することができる。
例えば、利用者は、ウェブブラウザを使用してニュージーランドへの航空便を検索することができる。彼または彼女が訪れたウェブサイトの「クッキー」の形式のメタデータはユーザーのウェブブラウザによってコンピュータに記憶される。クッキーは、インターネットサーバとブラウザとの間で送受信され、ユーザーの識別、および/または、彼または彼女の活動のトラッキングを可能とする。その後、利用者は、ホテル、レンタカー、ツアーおよびフライトインフォメーションと共にニュージーランドでの旅行に関連するバナー広告などの広告を受け取ることができる。
さらに、メタデータは、人口統計に基づいてユーザーを識別し、ターゲットとするために使用され得る。事業者は、商品が特定の人口にアピールすること、および、ダイレクトマーケティングの活動がその人口に向けられ得ると認識することができる。例えば、投資証券のバナー広告は、ティーンエイジャーに対しては効果がないかもしれない。より年齢層の高い人口、より具体的には、退職を希望する人々を広告のターゲットとすることは、より効果的であろう。メタデータが、彼または彼女がターゲットの人口にいないことを示唆している場合、ユーザーは広告を受信しないだろう。
視覚検索を使用するケースにおける取り込みの増加を実証するマーケットの出現に伴い、人口統計プロファイリングの発達が、事業者だけでなく消費者にとって高い関心と恩恵とをもたらしている。組織は、より個人向けの商品の提供、(例えば季節変動に基づいた)使用パターンの推定、および、将来の商品の方向性を予測する手助けを行うために、このようなモデルを使用することができる。
視覚ベースの検索は、特に、遍在するスマートフォンおよびタブレットコンピュータにおいて一般的である。例えば、上記例のユーザーは、ニュージーランドにおけるハイキングおよびトレッキングに関する画像を探すことができる。彼または彼女は画像をクリックするだけのため、ブラウザは、ブラウザに入力されたキーワードに基づくメタデータを記録することができない。同様に、彼または彼女は、ニュージーランドのアトラクションに関連する映像を見ることができる。従来の技術では、画像も映像も、ターゲットマーケティングのためのメタデータに寄与しない。
しかし、映像のストリーミングおよびダウンロードの増加もまた、新しい機会となっている。例えば、人気のある有名人は、ソーシャルメディアの映像に、特定のハンドバッグを持って現れる場合がある。もし当該ハンドバッグが識別可能で、かつ購入可能であれば、当該ハンドバッグの販売を拡大することができる。
種々の構造のインターネットベースの映像配信プラットフォームの普及および人気を考慮すると、映像コンテンツに関する視覚検索は、コンテンツ作成者、購入者、および商業パートナーからなる数百万のユーザー基盤を開拓できる可能性がある。映像の特定のセグメントが識別できれば、関心のある当事者は、これらのセクションを追加コンテンツで補強および/または組み合わせる能力を獲得する。これにより、上記セクションに対して情報が強化された形態をとることもできる。商業パートナーは、商品提供物を配信する手段として関連性のあるセクションを獲得したいと望むかもしれない。
さらに、マーケティングの担当者は、広告スキップおよびオンデマンドメディアを利用するより若い閲覧者を取り込む方法の改善を求めている。商品の配置とブランド化したエンターテイメントにより、若い消費者および/またはテクノロジに精通した消費者をより効果的に取り込める「オムニチャネル」が実現する可能性がある。
これは広告主にとって問題が生じる。現在視聴者に番組または場面で視聴する物体または製品に対する興味を持たせることができない。例えば、視聴者はハンドバッグを持つ有名人を見ることができるが、ハンドバッグをどこで購入するかは明らかでないかもしれない。視聴者はハンドバックを検索しないので視聴者の興味は次第に薄れていくだろう。映像をウェブサイトにリンクおよび/または貼り付ける試みがこれまでなされてきた。
現在の技術を使用して、ベンダーまたは広告主は、印刷物または映像広告上にQRコード(登録商標)(Quick Response Code)を含めることができる。閲覧者は、スマートフォンを使用して、彼または彼女をウェブサイトおよび/またはウェブコンテンツに案内するQRコード(登録商標)をスキャンすることができる。しかし、これには、ブロックのコードを閲覧者の近くに目立つように配置する必要がある。さらに、関心のある物体ごとに個別のQRコード(登録商標)を含めなければならない。映像の場合、QRコード(登録商標)は、その映像の全時間にわたって表示されなければならない。
したがって、閲覧者が画像および/または映像上の物体に関する関心を表現することができる、および/または、該物体に関する追加の情報を取得することができる方法が必要とされている。システムは、キーワード検索またはQRコード(登録商標)のスキャンを行うことなく、ユーザーが主題の詳細とさらなる情報とを獲得することを可能にすべきである。このシステムは、印刷メディア(例えば、雑誌広告)および映像メディア(例えば、テレビ)で使用可能とすべきである。
[導入]
本発明は、映像内のオブジェクトを検出し、1または複数の製品とオブジェクトとを照合させる方法であって、以下の、(a)映像を取得するステップと、(b)類似点および相違点に関して、連続するフレームのコンテンツを比較して、描写された情景(setting)および/またはイベントに基づいて映像をセグメント化するステップと、(c)同一または類似の情景および/またはイベントのセグメントをコンパイルするステップと、(d)映像の1または複数のフレームを分析し、同一または類似の情景および/またはイベントの各セグメントからの1または複数のオブジェクトを検出するステップと、(e)データベース内の製品と1または複数のオブジェクトとを比較するステップと、(f)1または複数のオブジェクトに関連する製品を識別するステップと、(g)製品を1または複数の閲覧者に通知するステップと、を含む方法。
本方法は、1または複数のオブジェクトに関連付けられた製品を識別するために畳み込みニューラルネットワーク(CNN)を用いることができる。データベースには、オフラインデータ拡張法(ウェブクローラ)を用いること、および/または既知のオブジェクトおよびメタデータクラスタをアラインすることによって、既定のコンテンツが追加され得る。セカンドスクリーンのコンテンツ拡張は、ライブ映像またはストリーミング映像のために使用され得る。製品を1または複数の視聴者に通知するステップは、広告を表示するステップ、および/または、ウェブサイトまたは映像へのハイパーリンクを提供することによって、製品を1または複数の視聴者に通知するステップを含むことができる。
また、本発明は、スクリーンショットにおける1または複数のオブジェクトを検出し、1または複数のオブジェクトを販売促進物と照合する方法であって、(a)視聴者からの問い合わせをデジタル画像またはスクリーンショットの形式で受信するステップと、(b)スクリーンショット内の1または複数の物品を識別するステップと、(c)1または複数の物品をデータベース内の製品と比較するステップと、(d)1または複数の物品に関連付けられた製品を識別するステップと、(e)視聴者に識別された製品に関する販売促進物を連絡するステップと、を含む、方法。
データベースは、オフラインデータ拡張(ウェブクローラ)を用いること、および/または既知のオブジェクトおよびクラスタのメタデータを既定のコンテンツとアラインすることによって、製品を入力され得る。セカンドスクリーンのコンテンツ拡張は、ライブ映像またはストリーミング映像のために使用され得ることができる。視聴者に販売促進物を連絡するステップは、広告を表示するステップ、および/またはウェブサイトもしくは映像へのハイパーリンクを提供するステップを含むことができる。
本発明はまた、映像中のオブジェクトとデータベース中の製品との間の関連を生成し、製品に関する情報を配信するシステムを含む。(a)携帯機器、ブラウザ、または任意の類似のコンピュータシステムなどのユーザーインターフェースアプリケーションを介してユーザーまたはユーザーのグループにローカルまたはリモートに接続されるコンピュータネットワークおよびコンピュータシステムと、(b)メディアコンテンツをローカルまたはサーバ上で検出および記憶するモジュールと、(c)メタデータおよび/または視覚的特徴を取り込むために、メディアコンテンツをリモートまたはサーバベースのプロセッサに送信するモジュールと、(d)メタデータおよび/または視覚的特徴を抽出するために、メディアコンテンツをリモートまたはサーバベースのプロセッサに送信するモジュールと、(e)視覚的特徴を含むデジタル画像の形態で1または複数の視聴者からの入力を受信する装置と、(f)視覚的特徴を識別し、オブジェクトおよび/または関連製品のグループに視覚的特徴を関連付けるように構成されたモジュールと、(g)オブジェクトおよび/または関連製品のグループに関する情報を、ユーザーおよび/またはユーザーのグループに配信するネットワークサービスと、を含む。
畳み込みニューラルネットワーク(CNN)は、視覚的特徴およびメタデータを分析すること、および、視覚的特徴をオブジェクトおよび/または関連製品のグループに関連付けることに使用され得る。データベースは、オフラインデータ拡張(ウェブクローラ)を使用、および/または既知のオブジェクトおよびメタデータクラスタを、既定のコンテンツとアラインすることによって、既知のオブジェクトを入力され得る。関連製品の情報は、インターネット経由でコンテンツにアクセスするための広告および/またはハイパーリンクが含まれる。
[発明の概要]
本発明の第1の態様は、ユーザーの視覚クエリと、オブジェクトデータベースのコーパス内から検出されたオブジェクトとの間の関連を生成するシステムである。
本発明の第2の態様は、携帯機器、ブラウザ、または任意の類似のコンピュータシステム等のユーザーインターフェースアプリケーションを介して、ユーザーまたはユーザーのグループにローカルまたはリモートで接続されるコンピュータネットワークおよびコンピュータシステムである。
本発明の第3の態様は、メディアコンテンツをローカルに、またはサーバ上で検出して、そこに記憶するように構成されたモジュールである。
本発明の第4の態様は、関連付けられたメタデータおよび/または視覚的特徴を取り込み、抽出するために、リモートまたはサーバベースのプロセッサにメディアコンテンツを送信するように構成されたモジュールである。
本発明の第5の態様は、視覚的特徴およびメタデータを分析して、特定のオブジェクトおよび/またはオブジェクトグループに関連付けるためのコンピュータモデルである。
本発明の第6の態様は、検出されたオブジェクトを関連付けられたオブジェクトのグループにリンクするように構成された、ローカルまたはサーバ側のホストモジュールである。
本発明の第7の態様は、既知のオブジェクトおよびメタデータクラスタを所定のコンテンツに対しアラインするように構成された、ローカルまたはサーバ側のホストモジュールである。
本発明の第8の態様は、ユーザーおよび/またはユーザーのグループにコンテンツを配信するネットワークサービスである。
[図面の簡単な説明]
図1は、本発明の一実施形態の全処理の流れを示す。
図2は、映像シーンのセグメント化を示す。
図3は、視覚検索の概要を示す。
図4は、オフライン製品のデータ拡張の方法を示す。
図5は、オフラインで事前に取り込まれたコンテンツに関する製品推薦フレームワークを示す。
図6は、ユーザーによる問い合わせと推奨された製品とを示す。
[発明の詳細な説明]
[定義]
本明細書において、「一実施形態/一態様」または「ある実施形態/ある態様」の参照は、実施形態/態様に関連して説明された特定の機能、構成、または特徴が、本発明の少なくとも一つの実施形態/態様に含まれることを意味する。明細書の種々の箇所における「一実施形態/一態様において」または「別の実施形態/別の態様において」という語句の使用は、必ずしもすべてが同じ実施形態/態様を参照しているとは限らず、また他の実施形態/態様と相互に排他的な個々のまたは代替の実施形態/態様を必ずしも参照しているとは限らない。さらに、種々の特徴がいくつかの実施形態/態様によって提示され得るが、他の実施形態によっては提示され得ないことも有り得る。同様に、種々の要件がいくつかの実施形態/態様において要件であると説明されても、他の実施形態/態様においては要件ではないと説明されることもある。実施形態および態様は、場合によっては、相互に交換して使用することもできる。
本明細書において使用される用語は、一般的に、当該技術分野において、開示の文脈において、および個々の用語が使用される具体的な文脈において、通常の意味を有する。本開示を記述するために使用される特定の用語は、本開示の記載に関して当業者に追加の指針を提供するために、以下、または明細書の他の箇所で論じられる。利便性のため、特定の用語については、例えば、イタリック体および/または引用符を使用して、強調表示することができる。強調表示の使用は、用語の範囲および意味に影響を及ぼさず、用語の範囲および意味は、同じ文脈において、それらが強調表示されるか否かにかかわらず、同じである。同じことが複数の方法で言及できることが理解されよう。
その結果、代替言語および同義語を本明細書中で説明される用語のいずれかの1つ以上で用いることができる。また、ある用語が本明細書で詳述または説明されているかどうかについては特に重要な意味はない。特定の用語の複数の同義語が用いられる。1つ以上の同義語の列挙により、他の同義語の使用を排除することにはならない。本明細書で説明される任意の用語の例示を含む本明細書の任意の箇所での例示の使用は、単なる例示に過ぎず、本明細書または任意の例示された用語の範囲および意味をさらに限定することにはならない。同様に、本発明は、本明細書で与えられる様々な実施形態に限定されない。
本開示の範囲をさらに限定する意図はないが、本開示の実施形態による装置、器具、方法、およびそれらの関連する結果物を以下に示す。主題または副題は、読者に分かりやすくするための例えば使用される場合があり、これは決して本発明の範囲を限定するものではないことに留意されたい。別段の定義がない限り、本明細書で使用されるすべての技術用語および科学用語は、本開示が関係する当業者によって一般に理解されるものと同じ意味を有する。矛盾する場合は、定義を含む本文書により決定される。
「アプリ」または「アプリケーション」という用語は、とくに携帯端末にダウンロードされるような、特定の用途を実行するように設計された自己完結型プログラムまたはソフトウェアの一部を意味する。
「単語の袋」又は「BoWモデル」という用語は、画像の特徴を単語として扱うことにより、画像を分類することをいう。文書の分類では、単語の袋は、言語の出現回数のスパースベクトル、すなわち、ボキャブラリにわたるスパースヒストグラムである。コンピュータビジョンでは、bag of visual wordsは、局所的な画像の特徴のボキャブラリの出願回数のベクトルである。
「クッキー」、「インターネットクッキー」、または「HTTPクッキー」という用語は、ウェブサイトから送信され、ユーザーのウェブブラウザによってユーザーのコンピュータに格納された小さなデータを意味する。クッキーは、インターネットサーバとブラウザとの間で送受信され、ユーザーの識別、または、彼あるいは彼女の操作の進展のトラッキングを可能にする。クッキーは、閲覧者がどのページを訪問するか、それぞれのページを閲覧するのに費やされた時間、クリックされたリンク、行われた検索および双方向通信に関する詳細を提供する。この情報から、クッキー発行者は、ユーザーの閲覧嗜好および関心事を把握するために生成されたプロファイルを収集する。プロファイルを解析することで、広告主は、返された類似の情報に類似するユーザー、すなわちプロファイルに基づいて、定義された閲覧者セグメントを生成することができる。
「クラスタリング」または「クラスタ解析」という用語は、同じグループ(クラスタと呼ばれる)のオブジェクトが、他のグループ(クラスタ)のオブジェクトよりも、互いに(ある意味または別の意味で)より類似するように、1組のオブジェクトをグループ化するタスクを意味する。これは、探索的データマイニングの主要なタスクであり、機械学習、パターン認識、画像解析、情報検索、生物情報学、データ圧縮、およびコンピュータグラフィックを含む多くの分野で使用される統計データ解析のための一般的な技術である。
「データ拡張」という用語は、データ点の数を増加させることを意味する。画像に関しては、該用語は、データセットにおける画像数を増加させることを意味し得る。従来の行/列形式のデータに関しては、該用語は、行またはオブジェクトの数を増加させることを意味する。
「深層学習」とは、複数の隠れ層を含む人工ニューラルネットワーク(artificialneural networks;ANNs)の学習作業への適用を意味する。深層学習は、タスク特有のアルゴリズムとは対照的に、学習データ表現に基づく機械学習方法のより幅広い群の一部である。
「特徴ベクトル」という用語は、パターン認識および機械学習における、あるオブジェクトを表現する数値の特徴のn次元ベクトルである特徴ベクトルのことを示す。機械学習における多くのアルゴリズムは、オブジェクトの数値表現が必要となり、そのように表現することにより、処理と統計的解析とを促進することができる。画像を表現する場合、特徴値は、画像の画素に対応し得る。あるいは、テキストを表現する場合、特徴値は、用語の出現頻度に対応し得る。
「不均衡データセット」とは、クラスの分布がクラス間で一様とならない分類問題における特殊な場合を表す。通常、それらは、大多数(ネガティブ)クラスと少数(ポジティブ)クラスの2つのクラスで構成される。データを使用可能な形式にするためには、クラスの均衡を取る必要がある。
「反転指数」、「ポスティングファイル」、または「反転ファイル」という用語は、言語または数字などのコンテンツから、データベースファイル内、または、ドキュメントあるいはドキュメントのセット(ドキュメントからのコンテンツにマッピングするフォワード指数とは対照的に命名される)内のその位置へ、写像を保存する指数データ構成である。反転指数の役割は、ドキュメントがデータベースに追加されるときにプロセスが増加するという犠牲を払い、高速な全文検索を可能にすることである。
「k近傍法(k-Nearest Neighbor)」つまり「k−NN」という用語は、最も近い分類のオブジェクトを意味し、距離測定基準(「最も近い」)と近傍の番号との両方は変更可能である。オブジェクトは、予測方法を使用して新しい観測データに分類される。オブジェクトは、訓練のために使用されるデータを含むので、新たな置き換え予測を計算することができる。
[リンク解析]
「モジュール」という用語は、自己完結型のユニットを意味し、例えば、電子部品およびそれに関連する配線の組み立て品、または、それ自身が定義されたタスクを実行し、より大きなシステムを形成するために別の上記ユニットとリンク可能な、コンピュータソフトウェアのセグメントを意味する。
「多層知覚ニューラルネットワーク(Multilayer PerceptionNeural Network)」または「MLP」という用語は、入力層と出力層との間に1または複数の層を有するフィードフォワードニューラルネットワークを意味する。フィードフォワードは、入力層から出力層(フォワード)への一方向のデータの流れを表す。MLPは、パターンの分類、認識、予想および近似のために広く使用されている。多層パーセプトロンは、線形分離可能でない問題を解決することができる。
「メタデータ」という用語は、他のデータを記述するデータを意味する。メタデータは、所定のアイテムのコンテンツに関する情報を提供する。画像は、画像の大きさ、色の深み、画像の解像度、および画像の生成日時を記述するメタデータを含むことができる。テキスト文書のメタデータは、文書の長さ、作成者、作成日時、および文書の要約に関する情報を含むことができる。
用語「メタタグ」は、ウェブページに含まれるメタデータを意味する。Webページのコンテンツを記述するために、記述メタタグおよびキーワードメタタグが通常使用される。ほとんどの検索エンジンは、検索索引にページを追加する場合、このデータを使用する。
「QRコード(登録商標)」または「クイック応答コード」という用語は、付与された商品に関する情報を含むマトリクスバーコード(または二次元バーコード)を意味する。QRコード(登録商標)は、白色の背景上に正方形の格子状に配置された黒色の正方形を含み、カメラなどの撮像装置によって読み取ることができ、さらに、画像が適切に認識されるまでリードソロモン誤差補正を使用して処理することができる。さらに、必要なデータは、画像の横方向成分および縦方向成分の両方に存在するパターンから抽出される。
「合成データ」という用語は、直接測定することからは得られない所定の状態に適用可能な任意の生成データを意味する。
用語「サポートベクトルマシン(Support Vector Machine)」または「SVM」は、分類および回帰解析に使用されるデータを解析する関連学習アルゴリズムを備えた教師あり学習モデルを意味する。各々が2つのカテゴリーのうちの一方または他方に属するようになされたマーク毎に、トレーニング例のセットが与えられる。SVMトレーニングアルゴリズムは、一方のカテゴリーまたは他方のカテゴリーに新しい例を割り当てるモデルを構築し、非確率的二項線形分類器を形成する。
「ターゲット広告」という用語は、オンライン広告主が、自身が売り込む商品または人物に基づいて、ある特性を有する、売り込みを最も受け入れやすい閲覧者をターゲットにするための、高度な方法を使用した広告の形態を示す。これらの特性は、人種、経済的地位、性別、年齢、教育レベル、収入レベル、および雇用に焦点を当てた人口統計学的なものであってもよいし、閲覧者の評価、人格、態度、意見、生活様式、および関心に基づいた心理統計学的なものであってもよい。特性はまた、閲覧履歴、購入履歴、および他の最近の活動などの行動変数とすることもできる。
画像検索システムで使用される「ビジュアルワード(visual words)」または「ビジュアルワードクラスタ」という用語は、特徴(色、形状、またはテクスチャ等)、または、フィルタリング、低レベル特徴記述子(SIFT、SURF等)のような、画素に生じる変化に関連付けられたある種類の情報を担う画像の小部分を表す。
「白色化変換」または「球形化変換」という用語は、既知の共分散行列を有するランダム変数ベクトルを、共分散が、それらには相関関係がなく、すべて分散1となることを意味する単位行列である新しい変数のセットに変換する線形変換を表す。この変換は、入力ベクトルをホワイトノイズベクトルに変更するため、「白色化」と呼ぶ。
本明細書で使用される他の技術用語は、様々な技術辞書によって例示されるように、使用される技術分野における通常の意味を有する。
[好ましい実施形態の説明]
これらの非限定的な実施例において議論される特定の値および構成は、変更可能で、そして単に少なくとも一つの実施形態を例示するために引用されるだけで、その範囲を限定することを意図してはいない。
人口統計学的プロファイリングのための視覚検索の主要な利点の1つは、(伝統的なテキストベースの検索とは対照的に)確認可能なクエリについて、内在的により多くの情報があることである。例えば、ユーザーは、検索エンジン(またはE−コマースのウェブサイト)において茶色の靴を検索することができる。ユーザーは、茶色の靴の非常に具体的な性質(ローファー、紐付きなど)について購入または問い合わせを選択できる。
テキスト検索のクエリだけを利用した場合、それ以上の情報の無い検索オブジェクトについて、より詳細な情報を抽出することはできない。しかしながら、視覚検索の使用例では、クエリ画像自体は、ユーザーのクエリの特性についてより多くのものを我々に教示する。
視覚検索クエリに関するメタデータを抽出するために、高度な分類アルゴリズムを使用することができる。該分類アルゴリズムは、深層学習、管理型学習、および非管理型学習を含むが、これらに限定されない。したがって、入力画像から、記述的メタデータの一覧(例えば、靴、茶色、紐、ブローグ、状況、製造場所、素材、および画像内のコンテンツのステータスに関して明確性を提供する任意の情報)を得ることができる。
本発明の一実施形態では、画像または映像を構成するオブジェクトの一覧がフレームから抽出され、意味的に異なる「トピック」に対応するように解析された一連のフレームにリンクされ得る。
図1は、本発明の全処理の流れを示す。映像からのコンテンツ110は、収集およびコンパイルされ、コンテンツデータベース170を構築する。映像の視聴者は、例えば、映像からシステムにスクリーンショットを送信することによって、クエリ120を通してコンテンツデータベース170にアクセスしてもよい。
映像ファイル110は、フレームまたは意味的に類似したフレームグループ内のオブジェクトに関するメタデータおよび属性を自動的に決定および抽出するために処理される。(後述する)時間分析は、映像のセグメント化(140)を含む。オブジェクト検出エンジン160では、キーフレームがオブジェクトのために分析され得る。取り込み記録180は、オブジェクトの時間的位置を示すために作成される。識別されたオブジェクトおよび識別情報は、コンテンツデータベース170に加えられる。
ユーザーは、視覚インターフェース130を使用して映像の画像を撮影することによって、フレーム120を照会することができる。システムは、コンテンツデータベース170にアクセスし得る視覚検索エンジン150を含む。
[時間分析]
時間分析手段200に含まれるステップを図2に示す。メディアコンテンツをセグメント化するために、映像110がフレームワークに取り込まれ、時間的フレームのシーケンスが分析される。このセグメント化の目的は、各セグメントが単一のイベントまたは単一の見出しに対応するように、フレームシーケンスを識別し、分離し、タグ付けすることである。その結果、セグメントがオブジェクトのために分析され得る。
類似度のしきい値を超える、フレームのペアまたはフレームシーケンスを検出するために、映像110が順にトラバースされる(210)。すなわち、フレームの比較(220)は、シーンまたは見出しの変化を含み、フレーム構成の有意な変化を示し得る。
同じイベント/シーンを描写するフレームは、類似度のしきい値を超えないだろう。この場合、次のフレームのペアの値が求められる(250)。異なるイベント/シーンを描写するフレームは、通常、類似度のしきい値を超えることとなり、この場合、セグメントは、1つのイベント/シーンとして識別される(240)。この処理は、映像110のフレームの各々がセグメントに含まれるようにするために繰り返され得る。その後、オブジェクト検知エンジン160により、オブジェクトのために映像のセグメントが分析され得る。
セグメント化の度合いは、時間的に多形化し得る(すなわち、フレーム間でそれらの形状が変化する)オブジェクトを扱う場合に大きくなる。一旦、映像内のシーンまたはフレームシーケンスの識別が完了すると、検出されたキーフレームから未知の形状に変化し得るオブジェクトへリンクさせることが可能となる。別の実施形態では、特定のオブジェクトに対する全ての既知の形状変形の実施例を用いてオブジェクト検知モデルの学習を行う(train)。
メタデータは、セグメント識別子によってフレーム自体の視覚コンテンツにリンクし、並列視覚検索データベースに取り込まれ得る。ユーザーが、取り込まれたフレームの画像を照会する場合、画像が照合サーバに送信され得る。セグメント識別子は、フレームが関連付けられたフレームシーケンスを識別するために使用され得る。この情報は、オブジェクトのリストと、ユーザー120に返送される上記オブジェクトのための任意のリンク付けされた拡張コンテンツを検索するために使用される。なお、クエリフレーム自体はオブジェクトのために分析されない。むしろ、クエリフレームは、セグメントにおける予め分析されたオブジェクトのコーパスにリンクするセグメント識別子に対して照合される。
[オブジェクト検出]
時間分析によって識別されたキーフレームは、個々のオブジェクトを認識し、識別するために分析され得る。一実施形態では、深層畳み込みニューラルネットワーク(CNN)が、このタスクを実行するために使用され得る。
図3は、「bag of visual words」手法に基づく視覚検索エンジンが、視覚クエリ画像からセグメント識別子を検索するためにどのように利用されるかを示す。検索エンジンは画像データベース385を使用する。学習画像310(すなわち、既知の特徴を有する画像)は、定義されたオブジェクトと共に送信される。画像は、特徴を生成する(320)ために使用される。学習画像365は、データベースに取り込まれ得る(375)。
CNNモデルを学習するためには、取り込まれるオブジェクトごとに膨大な数の画像サンプルを導入する必要がある。画像データの膨大なコーパスは、複数の属性およびそれらの位置と共に複数のオブジェクトに対して編成され得る。このデータは、さらに白色変換、データ補強およびクラスの平衡化が行われる。このオブジェクトのデータベースは、深層畳み込みネットを学習するための入力情報として使用される。
オブジェクトとそれらの属性とを合わせて学習するために、本モデルが学習され得る。さらに、本モデルは、様々な意味抽出にわたる画像の実数値ベクトル記述である隠れ層から値を提供する。本モデルを使った推定により、オブジェクトラベル、信頼度スコア、隠れ層ベクトル、および属性が提供され得る。
例えば、オブジェクトは、属性(色彩、パターン、長さ等)を伴うアパレル分野における商品(バッグ、ジーンズ等)とされ得る。さらに、複数の領域に及ぶ画像におけるオブジェクトの位置の推定は、それぞれのキーフレームの前後のフレームにおける画像の最も確からしい位置を突き止めることに利用され得る。
本モデルにより、うまく学習状態(trained state)に到達するために数値が求められる(テストセットの最小誤差測定範囲を満たす数値が導出される)と、モデルは、フレームワーク内のライブ取り込みモジュールに送信される。映像セグメントの時間分析の後、各々のキーフレームは、画像に存在するオブジェクトの位置を得るために分析される。当該フレーム内で検出されたすべてのオブジェクトは、セグメント内の双方向で時間トラッキングされ得る。セグメント内で見つかった位置ごとに、ラベル、属性、および内部層の推測が行われ、信頼度によって時間に関する重み付けされた平均化が行なわれ得る。これによって、各セグメントおよび/またはフレームに対するオブジェクトごとの特徴ベクトルの生成が完結する。隠れ層によって生成されるベクトル記述は、多くの場合、高次元で構成され得る。多くの数の画像が、その特定の分布に対する圧縮技術を学習するために、収集され得る。本明細書で説明するフレームワークの例示的な実施形態では、深層自動エンコーダにより、検索精度の損失を最小限にするための最良の圧縮技術を提供する。
[視覚検索]
ユーザーが特定の映像との相互作用を望む場合、彼または彼女は、「アプリケーション」と呼ばれる、ユーザーの携帯機器上で通常動作するコンピュータプログラム内から、携帯用カメラ機器を使用してフレームを撮影することにより、彼らの興味を示すことができる。アプリケーションにより、更なる処理のためのクエリ画像をアップロードすることができる。
視覚クエリ画像がユーザーのデバイスからサーバに送信された後、視覚クエリ画像は、既知の画像データベースを検索するために使用され、可能性の高い被照合物が識別される。そして、最上位の順位づけ結果は、問い合わせにおけるフレームが最も関連しているセグメントをさらに識別することに使用される。その後、その特定のセグメントにリンクされたオブジェクトの検索のために、セグメント識別子が使用され得る。クエリ応答が集約された後、増えたコンテンツの全ては、ユーザーの携帯機器に戻される。
例えば、視聴者は、彼または彼女が気づいた映像中のハンドバッグのクエリを送ることができる。ハンドバッグは、その形状、パターン、ブランド、形状、サイズ、ブランドとその他の詳細を含むいくつかの判定基準に基づいて、データベース内の画像と照合され得る。システムは、順位付けされた多くの一致画像を返送し得る。
この処理は、ユーザーが画像120を照会する図3に示されている。視覚言語クラスタはアサインされる(340)。視覚言語クラスタから、逆ファイルリストが入力される。逆ファイルリストは、照会され(350)、記憶される(355)。上位の候補画像はフィルタリングされ(360)、画像データベース385に追加され得る。空間検証は、上位の一致画像において実行され(380)、上位の一致画像は、視聴者に返送され得る(390)。
[オフラインデータの拡張]
ウェブクローラによって取得されるような、定義されていない画像も、コンテントデータベースに入力するために利用され得る。図4は、オフライン製品データの拡張方法(400)を示す。例示のフレームワークにおいて、オフラインデータの拡張が、オブジェクトおよび関連するメタデータのデータベース170に入力するために使用される。
クローリング処理は、様々なオンラインソース(例えば、電子商取引プラットフォームからの商品リストまたはソーシャルメディアネットワークからの画像)から、画像およびそれらの注釈付きメタデータを検索するために利用され得る(420)。これらのクローリングされた画像およびメタデータの属性は、未処理のクローリングされたデータを、データベースへの取り込み(440)に好適な記録に変換するデータクリーニングステージ(430)を通過する。
データベース取り込みフォーマットは、クローリングされた画像記録の各々をオブジェクト識別子にリンクさせることが可能である。これによりセグメントから検出されたオブジェクトを商品データベースにおけるオブジェクトにリンクさせることができるため、視覚クエリ画像から識別されたオブジェクトまたはオブジェクトのグループに対して拡張されたデータを提供するインターフェースを提供できる。
[ユースケース]
[製品の推薦]
本発明は、既存の視覚的メディアコンテンツに対してセカンドスクリーンのコンテンツ拡張サービスを促進させるために使用され得る。
例えば、それぞれのメディアを介してアクセス可能な製品構成を分析するために、人気テレビ番組(または映画)がプラットフォームに取り込まれ得る。番組が放送される(またはオンライン映像配信の場合でストリーミングされる)間または後に行われる可能性のある相互作用メカニズムを視聴者は通知され得るか、または気づかされ得る。
その後、取り込まれた映像からのフレームに関する任意のユーザーの視覚クエリは、オブジェクト検出フレームワークによって豊富になり得る。これにより、コンテンツ制作者と、提供される製品/サービスと相互通信する消費者とのための独自のプラットフォームが提供される。フレームワーク内で検出されるオブジェクトの範囲は、フレーム内の静止商品(衣料品、家具、旅行機会等)を包含し得、またはセグメント内で検出された実体(すなわち、役者、キャスティングクルー等)あるいはセグメント内の実体に対応して拡張され得る。
例えば、広告主または小売業者は、映像または映画中のハンドバッグを宣伝するために商品配置を使用できる。視聴者は、ハンドバッグを含むシーンのクエリを送信する。一致した製品(すなわち、ハンドバッグ)の販売促進広告は、ユーザーのデバイスで再生され得る。購入指示を含む追加の情報もまた、視聴者に提供され得る。
図5は、本明細書で説明するユースケースを扱うための例示的なフレームワークを示す。映像110は、オフライン取り込みを通じてコンテンツデータベースを拡張するために使用され得る。映像は、スクリーンショットの変更の検出を受ける(510)。映像のセグメント540は、キーフレーム560、オブジェクトの配置(590)、およびトラッキング(630)により識別される。次のステップは、オブジェクト認識、属性のラベル付け、および特徴抽出(660)であり、時間平均化(690)がそれに続く。
映像の取り込みは、フレームサンプリング(550)および特徴の画像処理(570)を含むことができる。データベースコンテンツは、フレーム610、製品670、およびオブジェクト710を含むことができる。640で、商品の取り込み(ウェブクローリング、集約および拡張)が行われる。
ユーザーは、フレーム120を照会することができる。画像は、類似するデータベース内の画像を順位付けすることで照合される(580)。視覚検索の順位付け650と同様に、セグメント番号620が生成され得る。一致した製品680は、ユーザーのクエリに対してユーザーに送信可能である。広告主および/またはマーケティング担当者が販売促進を望む製品は、視覚検索の順位付け650において高い順位を得ることができる。
[ライブテレビセカンドスクリーン]
オフライン、既存のコンテンツに加え、ライブ映像ストリームを処理するためのフレームワークが拡張され得る。本実施例の上記方法により、オブジェクト検出プラットフォームに送信されるフレームの各々に対して、同じフレームの任意の問い合わせより前に、取り込みメカニズムを確実に実行することができる。
ライブ映像においては、時間分析モジュールは、最後の「N」分(または必要に応じてN時間)の一時履歴を維持するトランザクションコンテンツデータベースに変更可能である。この変更されたフレームワークでは、ライブ映像ストリームからのすべての入力フレームが、配置可能な遅延の後にデータが終了することを保証する「TTL(time-to-live)」のメカニズムを備えたオブジェクト検出および視覚検索データベースに取り込まれる。このようにして、データベース(およびコンピュータクラスタ)のサイズは、大量の短い待ち時間のオペレーションを維持することを可能にする高性能状態を繋ぎとめる。
そのようなフレームワークは、次のセカンドスクリーンのコンテンツを提供するために使用され得る。
−選手の経歴および/または試合成績を表示する生中継のスポーツイベント。
−ニュース速報等において検出されたオブジェクトおよび/または位置に対して情報グラフィックスを表示するライブニュース放送。
−検出された製品の価格の比較を表示するテレマーケティング放送。
[オンラインショッピングのための本発明の使用]
図6に示すように、映像110の視聴者は、彼または彼女が見つけた製品に関する追加情報を、映像110のスクリーンショットにより照会することができる。この実施例600では、視聴者はテレビでドラマを見ている。視聴者は、ある役者が特定のシャツを着ていることに気付く。視聴者は、システム120に送信するためのスクリーンショットを撮影することができる。テレビ視聴では、アプリを用いて画面の写真を撮影することが可能である。視聴者が、携帯機器、タブレット、またはコンピュータに映像をストリーミングしている場合、彼または彼女は、スクリーンショットを撮影し送信することができる。静止写真の画像(雑誌広告など)も送信可能である。
システムは、スクリーンショット内のオブジェクトを検出する。本実施例では、短い袖の暗色のシャツが検出される。この判定基準を満たした入手可能な販売商品が、ビューアー610に表示される。彼または彼女は、より詳細なクエリを生成するために追加の判定基準を送信可能である。例えば、オブジェクト検索では、(vネック等の)特定のデザインまたは特定のデザイナーのシャツのみを含むようにさらに絞り込んでもよい。
その後、視聴者は、参加ベンダーを通じてオンライン620で製品を購入することができる。これにより、ベンダーは、追加の宣伝のための時間および/または広告を必要とせずに、製品を配置することで製品を販売することができる。
上記の説明は、単に本発明の例示的な実施形態を開示しているだけである。本発明の範囲に含まれる上記に開示された装置および方法の変形例は、当業者には容易に明らかであろう。したがって、本発明は、それらの例示的な実施形態に関連して開示されたが、他の実施形態が、以下の特許請求の範囲によって定義される本願の趣旨および範囲内であれば含まれ得ることを理解されたい。
[動作環境]
システムは、通常、データネットワークによってユーザーのコンピュータに接続された中央サーバから構成されている。中央サーバは、1または複数の大容量記憶装置に接続された、1または複数のコンピュータから構成されてもよい。中央サーバの正確な構造は、特許請求の範囲を限定するものではない。さらに、ユーザーのコンピュータは、ラップトップ型またはデスクトップ型のパソコンであってもよく、また、携帯電話、スマートフォン、またはタブレットを含む他の携帯端末であってもよい。ユーザーのコンピュータの要素の正確な構成要素は、特許請求の範囲を限定するものではない。使用に最適な周知のコンピュータシステム、環境、および/または構成の例は、パソコン、サーバコンピュータ、ハンドヘルドコンピュータ、ラップトップコンピュータ、あるいは携帯コンピュータ、または携帯電話およびPDAなどの通信デバイス、マルチプロセッサシステム、マイクロプロセッサベースのシステム、セットトップボックス、プログラマブル家電、ネットワークPC、小型コンピュータ、メインフレームコンピュータ等の、システムまたはデバイスを含む分散型コンピュータ環境などを含むが、これらに限定されない。ユーザーのコンピュータの正確な構成要素は、特許請求の範囲を限定するものではない。一実施形態では、ユーザーのコンピュータは省略され、代わりに、中央サーバと協働する個別の計算機能が提供される。その場合、ユーザーは、別のコンピュータからサーバにログインし、ユーザー環境を介してシステムにアクセスすることになる。
ユーザー環境は、中央サーバに設けられてもよいし、中央サーバに動作可能に接続されてもよい。さらに、ユーザーは、インターネットを使用して中央サーバからデータを受信し、かつ中央サーバにデータを送信することができる。それによって、ユーザーは、インターネットウェブブラウザを使用するアカウントにアクセスし、ブラウザは、中央サーバに動作可能に接続された相互作用型ウェブページを表示する。中央サーバは、ブラウザユーザーインターフェースに対する閲覧者の動作に応答してブラウザから送信されたデータおよびコマンドに応答してデータを送受信する。本発明のいくつかのステップは、ユーザーのコンピュータ上、および、サーバに送信された暫定的な結果物で実行される。これらの暫定的な結果物は、サーバで処理され、最終的な結果物がユーザーに返送される。
本明細書で説明される方法は、メモリーデバイス、データの入出力(I/O)回路およびコンピュータデータネットワーク通信回路に動作可能に接続されるCPU(Central Processing Unit)を一般的に備えたコンピュータシステム上で実行され得る。CPUによって実行されるコンピュータコードは、データ通信回路によって受信されたデータを取り込み、それをメモリーデバイスに記憶させ得る。さらに、CPUは、I/O回路からデータを取り込み、それをメモリーデバイスに記憶させ得る。また、CPUは、メモリーデバイスからデータを取り込み、I/O回路またはデータ通信回路を介して出力することもできる。メモリーに記憶されたデータは、メモリーデバイスからさらに呼び出され、本明細書に記載された方法でCPUによってさらに処理または変更され、データネットワーク回路を含むCPUに動作可能に接続された同じメモリーデバイスまたは別のメモリーデバイスに復元される。メモリーデバイスは、ハードディスク、光ディスク、またはソリッドステートメモリーを含む、任意の種類のデータ記憶回路、磁気記憶装置、または光デバイスであってよい。I/Oデバイスは、ディスプレイスクリーン、スピーカ、マイクロフォンおよびディスプレイ上のカーソル位置と関連する位置をコンピュータに示す可動マウス、ならびにコマンドを示すように作動させ得る1または複数のボタンを含むことができる。
コンピュータは、I/O回路に動作可能に接続されたディスプレイスクリーン上で、ユーザーインターフェースの様子を表示し得る。コンピュータが、ディスプレイスクリーンにおける閲覧者によるブラウザユーザーインターフェースの作動を構成するピクセルを引き起こすデータを生成することで、様々な形状、テキスト、およびその他のグラフィックの形態が、スクリーン上に表示される。本発明のいくつかのステップは、ユーザーのコンピュータ上、および、サーバに送信された暫定的な結果物で実行される。これらの暫定的な結果物は、サーバで処理され、最終的な結果物がユーザーに返送される。
コンピュータは、I/O回路に動作可能に接続されたディスプレイスクリーン上で、ユーザーインターフェースの様子を表示し得る。コンピュータが、ディスプレイスクリーンにおける閲覧者によるブラウザユーザーインターフェースの作動を構成するピクセルを引き起こすデータを生成することで、様々な形状、テキスト、およびその他のグラフィックの形態が、スクリーン上に表示される。本発明のいくつかのステップは、ユーザーのコンピュータ上、および、サーバに送信された暫定的な結果物で実行される。これらの暫定的な結果物は、サーバで処理され、最終的な結果物がユーザーに返送される。
本明細書で説明される方法は、メモリーデバイス、データの入出力(I/O)回路およびコンピュータデータネットワーク通信回路に機能を実現するように接続されるCPU(Central Processing Unit)を一般的に備えたコンピュータシステム上で実行され得る。CPUによって実行されるコンピュータコードは、データ通信回路によって受信されたデータを取り込み、それをメモリーデバイスに記憶させ得る。さらに、CPUは、I/O回路からデータを取り込み、それをメモリーデバイスに記憶させ得る。また、CPUは、メモリーデバイスからデータを取り込み、I/O回路またはデータ通信回路を介して出力することもできる。メモリーに記憶されたデータは、メモリーデバイスからさらに呼び出され、本明細書に記載された方法でCPUによってさらに処理または変更され、データネットワーク回路を含むCPUに機能を実現するように接続された同じメモリーデバイスまたは別のメモリーデバイスに復元される。メモリーデバイスは、ハードディスク、光ディスク、またはソリッドステートメモリーを含む、任意の種類のデータ記憶回路、磁気記憶装置、または光デバイスであってよい。I/Oデバイスは、ディスプレイスクリーン、スピーカ、マイクロフォンおよびディスプレイ上のカーソル位置と関連する位置をコンピュータに示す可動マウス、ならびにコマンドを示すように作動させ得る1または複数のボタンを含むことができる。
コンピュータは、I/O回路に動作可能に接続されたディスプレイスクリーン上で、ユーザーインターフェースの様子を表示し得る。コンピュータが、表示画面を構成する画素に様々な色および色調を呈させるデータをコンピュータ生成することで、様々な形状、テキストおよびその他のグラフィックの形態が、スクリーン上に表示される。ユーザーインターフェースはまた、当該技術分野においてカーソルと呼ばれるグラフィカルオブジェクトを表示する。ディスプレイ上のこのオブジェクトの位置は、画面上の別のオブジェクトをユーザーが選択することを示している。カーソルは、I/O回路によってコンピュータに接続された別のデバイスによってユーザーが動かしてもよい。このデバイスは、ユーザーの所定の物理的動作、例えば、平面上の手の位置、または平面上の指の位置を検出する。このようなデバイスは、当該技術分野において、マウスまたはトラックパッドと呼ばれ得る。ある実施形態では、ディスプレイスクリーン自体は、ディスプレイスクリーン上の1つ以上の指の存在および位置を感知することによって、トラックパッドとして機能し得る。カーソルが、ボタンまたはスイッチのように見えるグラフィックオブジェクトの上に位置している場合、ユーザーは、マウスまたはトラックパッドまたはコンピュータデバイス上の物理スイッチを押すことでボタンまたはスイッチを作動させることができる。またはトラックパッドもしくはタッチ感応型ディスプレイをタップすることによって、ボタンまたはスイッチを作動させることもできる。コンピュータは、物理スイッチが押されたこと(またはトラックパッドまたはタッチ感応型スクリーンのタップが生じたこと)を検出すると、スクリーン上のカーソルの見かけの位置(またはタッチ感応型スクリーンの場合、指の検出位置)を取得し、その位置に関連する処理を実行する。開示された発明の幅を制限することにはならないが、例えば、スイッチの中に「入力」という単語を有する2次元のボックスのように見えるグラフィカルオブジェクトが、画面上に表示されてもよい。カーソル位置(またはタッチ感応型スクリーンにおける指の位置)がグラフィカルオブジェクト、例えば、表示ボックスの境界内にある間に、コンピュータが、スイッチが押されたことを検出した場合、コンピュータは、「入力」コマンドに関連付けられた処理を実行することになる。このようにして、スクリーン上のグラフィックオブジェクトにより、ユーザーインターフェースが形成され、コンピュータ上で動作する処理をユーザーが制御することが可能になる。
また、本発明は1または複数のサーバ上で包括的に実行されてもよい。サーバは、大容量記憶装置とネットワーク接続とを備えたCPUからなるコンピュータであってもよい。さらに、上記機能をまとめて提供する方法として、サーバが、データネットワーク、あるいは他のデータ転送接続と一体となって接続された複数の上記コンピュータ、またはネットワークアクセス記憶装置を備えたネットワーク上の複数のコンピュータを含んでいてもよい。当業者であれば、1つのサーバ上で達成される機能が、適切な内部処理通信を行うコンピュータネットワークによって動作可能に接続される複数のサーバ上で分割して達成可能であることを理解するであろう。さらに、ウェブサイトへのアクセスは、認証ページあるいは公開ページにアクセスするインターネットブラウザで行うか、または、コンピュータネットワークを介してサーバに接続されたローカルコンピュータ上で動作するクライアントプログラムによって行うこともできる。データの送信およびデータのアップロードまたはダウンロードは、TCP/IP、HTTP、TCP、UDP、SMTP、RPC、FTPを含む通常のプロトコル、または、2つの遠隔コンピュータ上で動作する処理により、デジタルネットワーク通信によって情報を交換することを可能にする、他の種類のデータ通信プロトコルを使用して、インターネット上で実行することができる。その結果、データメッセージは、ネットワークの宛先アドレス、宛先処理またはアプリケーション識別子を含んだコンピュータから送信または該コンピュータにより受信されるデータパケットであり、かつ宛先アプリケーションによりネットワーク宛先アドレスに配置される宛先コンピュータで解析可能なデータ値とすることができる。その結果、宛先アプリケーションによって関連するデータ値が抽出され使用されることになる。中央サーバの正確な構造は、本発明の特許請求の範囲を限定するものではない。さらに、データネットワークは、ユーザーのコンピュータが、開示された方法を実行する別のサーバへの通信をルーティングする1つのサーバへファイアウォールを通して接続されるように、いくつかのレベルで動作してもよい。
ユーザーコンピュータは、データファイル内のデータを解析し、ディスプレイ装置に特定のテキスト、画像、ビデオ、音声、および他のオブジェクトを表示するよう命令するプログラムに転送されるデータファイルを、遠隔サーバから受信するプログラムを動作させ得る。データファイル内のデータを解析し、ディスプレイ装置に特定のテキスト、画像、ビデオ、音声、および他のオブジェクトを表示するよう命令するプログラムは、マウスボタンが操作されたときにカーソルの関連付けられた位置を検出し、ボタンが押されたときのディスプレイ上に示された関連付けられた位置の配置に基づいて実行されるコマンドを解析し得る。データファイルは、HTML文書、プログラム、ウェブブラウザのプログラム、コマンド、およびブラウザを使用して別の遠隔データネットワークアドレス位置から新しいHTML文書を要求するハイパーリンクであってもよい。HTMLはまた、例えば、フラッシュまたは他のネイティブコードを呼び出し、実行する別のコードモジュールを生成するリファレンスを含んでいてもよい。
当業者は、本発明が、ワイヤレスデバイス、インターネット機器、携帯用デバイス(携帯情報端末(PDA)を含む)、ウェアラブルコンピュータ、あらゆる種類のセルラー電話機または携帯電話機、マルチプロセッサシステム、マイクロプロセッサベースまたはプログラマブル家電、セットトップボックス、ネットワークPC、小型コンピュータ、メインフレームコンピュータなどを含んだ別の通信システム、データ処理システム、またはコンピュータシステム構成で実施できることを理解するであろう。実際、用語「コンピュータ」、「サーバ」などは、本明細書では交換可能に使用され、上記のデバイスおよびシステムのいずれを示してもよい。
いくつかの例において、とりわけ、ユーザーのコンピュータが、ネットワークを介してデータにアクセスするために使用される携帯用コンピュータデバイスである場合、ネットワークは、汎ヨーロッパデジタル移動通信システム(GSM(登録商標))、時間分割多重接続(TDMA)、符号分割多元接続(CDMA)、直交周波数分周多重(OFDM)、汎用パケット無線サービス(GPRS)、EDGE(Enhanced Data GSM Environment)、アドバンスト携帯電話機システム(AMPS)、WiMAX(Worldwide Interoperability for Microwave Access)、ユニバーサル移動体通信システム(UMTS)、エボリューションデータ最適化(EVDO)、ロングタームエボリューション(LTE)、UMB(Ultra Mobile Broadband)、音声IP(VoIP)、またはUMA(UnlicensedMobile Access)を含む、任意の種類のIPベースのセルラネットワークまたは垂直統合型電気通信ネットワークであってもよいが、これらに限定されない。
インターネットは、パソコンを操作する利用者が、遠隔に配置されたコンピュータサーバと相互作用し、ネットワークを介したデータファイルとして、サーバからパソコンに配信されるコンテンツを見ることを可能にするコンピュータネットワークである。ある種類のプロトコルでは、サーバは、ブラウザとして知られるローカルプログラムを使用して利用者のパソコン上に、解析されたウェブページを表示する。ブラウザは、サーバから、利用者のパソコンのスクリーン上に表示される1または複数のデータファイルを受信する。ブラウザは、URL(Universal Resource Locator)と呼ばれる英数字列によって表される特有のアドレスからこれらのデータファイルを探す。しかしながら、ウェブページは、種々のURLアドレスまたはIPアドレスからダウンロードされたコンポーネントを含んでいてもよい。ウェブサイトは、関連付けられたURLの集合体であり、通常、全てのURLが同一のルートアドレスを共有しているか、またはいくつかのエンティティの制御下にある。一実施形態では、シミュレートされたスペースの異なる領域は、異なるURLアドレスを有する。すなわち、シミュレートされたスペースは、単一のデータ構造であってもよいが、異なるURLアドレスは、データ構造における異なる位置を参照する。これにより、大規模な領域をシミュレートすることが可能となり、参加者に仮想の近隣内でその使用を開始させることができる。
本明細書でこれまでに記載した機能の全てまたは一部を実行するコンピュータプログラム論理は、ソースコードの形態、コンピュータにより実行可能な形態、および様々な中間形態(例えば、アセンブラ、コンパイラ、リンカ、またはロケータによって生成された形態)を含む様々な形態で、具現化することができるが、これらに限定されない。ソースコードは、様々な動作システムまたは動作環境で使用するための様々なプログラム言語(例えば、オブジェクトコード、アセンブリ言語、またはC、C−HF、C#、アクションスクリプト、PHP、Ecmaスクリプト、Java(登録商標)スクリプト、Java(登録商標)、あるいは5HTMLなどの高水準言語)のいずれかで実行される一連のコンピュータプログラム命令を含むことができるが、これらに限定されない。ソースコードは、様々なデータ構造および通信メッセージを定義し、使用することができる。ソースコードは、コンピュータ実行可能形態(例えば、インタープリタを介して)であってもよく、(例えば、トランスレータ、アセンブラ、またはコンパイラを介して)コンピュータ実行可能形態に変換されてもよい。
本発明はコンピュータによって実行される、プログラムモジュールなどの、一般的なコンピュータで実行可能な命令で記載することもできる。一般に、プログラムモジュールは、特定のタスクまたは特定の種類の抽象データを実行するルーチン、プログラム、オブジェクト、コンポーネント、データ構造などを含む。コンピュータプログラムおよびデータは、半導体メモリーデバイス(例えば、RAM、ROM、プログラマブルROM(PROM)、EEPROM(登録商標)(電気的消去可能プログラマブルROM)、またはフラッシュプログラマブルRAM)、磁気メモリーデバイス(例えば、ディスケットまたは固定ハードディスク)、光メモリーデバイス(例えば、CD−ROMまたはDVD)、PCカード(例えば、PCMCIAカード)、または他のメモリーデバイスなどの有形記録媒体に、任意の形態(例えば、ソースコードの形態、コンピュータ実行可能な形態、または中間形態)で、永久的または一時的に記憶させることが可能である。コンピュータプログラムおよびデータは、アナログ技術、デジタル技術、光技術、無線技術、ネットワーク技術、およびインターネットワーク技術を含むが、これらに限定されない様々な通信技術のいずれかを使用し、コンピュータに送信可能な信号を任意の形態で記憶させることができる。コンピュータプログラムおよびデータは、印刷された文書または電子文書に付随する取り外し可能な記録媒体(例えば、収縮包装されたソフトウェアまたは磁気テープ)として供給されてもよく、コンピュータシステム(例えば、システムROMまたは固定ディスク)に事前にロードされてもよく、またはサーバまたは電子掲示板から通信システム(例えば、インターネットまたはワールドワイドウェブ)を介して供給されてもよい。本発明のソフトウェアコンポーネントのいずれかは、必要に応じて、ROM(リードオンリーメモリー)形態で実施されてもよい。本発明のソフトウェアコンポーネントは、一般的には、ハードウェアで実施することができるが、従来の技術を使用して実施されてもよい。
また、本発明は、通信ネットワークを介してリンクされた遠隔処理デバイスによってタスクが実行される分散コンピューティング環境で実施することもできる。分散コンピューティング環境において、プログラムモジュールは、メモリー記憶装置を含むローカルおよび遠隔のコンピュータ記録媒体の両方に記憶させることができる。当業者は、本発明が、例えばインターネットを含むデータネットワークを使用してリンクされた1または複数のコンピュータプロセッサ上で実行可能であることを認識するであろう。別の実施形態では、分離して配置されているものの、処理工程を実行するために一体となって動作するようにデータネットワークにより接続されている1または複数のコンピュータおよび記憶装置によって、処理の様々な工程を実行することができる。一実施形態では、ユーザーのコンピュータは、ユーザーのコンピュータがデータネットワークを介して、本明細書でサーバと呼ばれる第2のコンピュータに、1または複数のデータパケットをストリーム配信させるアプリケーションを実行することができる。さらに、サーバは、データベースが格納される1または複数の大容量データ記憶装置に接続されてもよい。サーバは、データベースのクエリ情報を抽出するために、送信されたパケットを受信し、送信されたデータパケットを解析するプログラムを実行することができる。次に、サーバは、大容量記憶装置にアクセスして、望ましいクエリの結果を得るための残りの工程を実行することができる。あるいは、サーバは、大容量記憶装置に接続された別のコンピュータにクエリ情報を送信することができ、そのコンピュータは、本発明を実行することで望ましい結果を得ることができる。そして、該結果は、ユーザーのコンピュータに適切に宛てられた1または複数のデータパケットを別の配信手段により、ユーザーのコンピュータに送信可能である。一実施形態では、関連付けられたデータベースは、コンピュータメモリー(例えばディスクドライブ)と動作可能に接続された、1または複数のサーバに収容されてもよい。さらに別の実施形態では、関連付けられたデータベースの初期化が、サーバのセットで準備され、ユーザーのコンピュータとの相互作用が、全体の処理において異なる場所で行われてもよい。
フローチャートは、本明細書で、様々な態様を示すために使用され、本発明を特定の論理の順序または論理の実施に限定すると解釈されるべきではないことに留意されたい。説明された論理は、総合的な結果を変更すること、または本願の真の範囲から逸脱することがなければ、異なる論理ブロック(例えば、プログラム、モジュール、機能、またはサブルーチン)に分割することができる。通常、論理要素は、全結果を変更すること、または本発明の真の範囲から逸脱することがなければ、異なる論理構成(例えば、論理ゲート、ループプリミティブ、条件付き論理、および他の論理構成)を使用して、追加、修正、省略、異なる順序で実施、または実行することができる。
本発明の記載された実施形態は、例示することを目的とし、多数の変形例および変更があることは当業者にとって明らかである。このような変形例および変更のすべては、添付の特許請求の範囲によって定義される本発明の範囲内であるものと見なす。本発明を詳細に説明し、図示してきたが、これは図示と例示とを目的としているだけで、限定することと解釈されるべきではないことを明確に理解されたい。分かりやすくするために、個々の実施形態の文脈で説明された、本発明の様々な特徴は、単一の実施形態を組合せて提供されてもよいことを理解されたい。
本発明の一実施形態の全処理の流れを示す。 映像シーンのセグメント化を示す。 視覚検索の概要を示す。 オフライン製品のデータ拡張の方法を示す。 オフラインで事前に取り込まれたコンテンツに関する製品推薦フレームワークを示す。 ユーザーによる問い合わせと推奨された製品とを示す。

Claims (19)

  1. 映像中のオブジェクトを検出し、オブジェクトを1または複数の製品と照合する方法であって、
    a)映像を取得するステップと、
    b)類似点および相違点に関して、連続するフレームのコンテンツを比較して、描写された情景およびイベントの少なくともいずれかに基づいて映像をセグメント化するステップと、
    c)同一または類似の情景およびイベントの少なくともいずれかのセグメントをコンパイルするステップと、
    d)1または複数のセグメントを分析し、1または複数のオブジェクトを検出するステップと、
    e)前記1または複数のオブジェクトを製品と比較するステップと、
    f)前記1または複数のオブジェクトに関連する製品を特定するステップと、
    g)1または複数の視聴者に前記製品を通知するステップと、を含むことを特徴とする方法。
  2. 畳み込みニューラルネットワーク(CNN)が、前記1または複数のオブジェクトに関連付けられた製品を識別するために使用されることを特徴とする、請求項1に記載の方法。
  3. 1または複数のセグメントを分析し、前記1または複数のオブジェクトを検出する前記ステップは、フレームおよびフレームの一部の少なくともいずれかを、データベース内の既定のコンテンツと比較するステップを含むことを特徴とする、請求項1に記載の方法。
  4. 前記データベースは、ウェブクローラを使用して既定のコンテンツが入力されることを特徴とする、請求項3に記載の方法。
  5. 前記データベースは、既知のオブジェクトおよびメタデータクラスタをアラインすることによって、既定のコンテンツが入力されることを特徴とする、請求項3に記載の方法。
  6. セカンドスクリーンのコンテンツ拡張は、ライブ映像またはストリーミング映像のために使用されることを特徴とする、請求項1に記載の方法。
  7. 1または複数の視聴者に前記製品を通知する前記ステップは、広告を表示するステップを含むことを特徴とする、請求項1に記載の方法。
  8. 1または複数の視聴者に前記製品を通知する前記ステップは、ウェブサイトまたは映像へハイパーリンクを提供するステップを含むことを特徴とする、請求項1に記載の方法。
  9. スクリーンショットにおける1または複数のオブジェクトを検出し、前記1または複数のオブジェクトを販売促進物と照合する方法であって、
    a)視聴者からの問い合わせを、デジタルスクリーンショットの形式で受信するステップと、
    b)前記スクリーンショットにおける1または複数のオブジェクトを識別するステップと、
    c)前記1または複数のオブジェクトを製品と比較するステップと、
    d)前記1または複数のオブジェクトに関連付けられた製品を照合するステップと、
    e)前記視聴者に、照合された製品に関する販売促進物を連絡するステップと、を含むことを特徴とする方法。
  10. 前記1または複数のオブジェクトに関連付けられた製品を照合する前記ステップにおいて、畳み込みニューラルネットワーク(CNN)が使用されることを特徴とする、請求項9に記載の方法。
  11. 前記スクリーンショット内の1または複数のオブジェクトを識別する前記ステップは、前記スクリーンショットおよび前記スクリーンショットの一部の少なくともいずれかを、データベース内の既定のコンテンツと比較するステップを含むことを特徴とする、請求項9に記載の方法。
  12. 前記データベースは、ウェブクローラを使用して既定のコンテンツが入力されることを特徴とする、請求項11に記載の方法。
  13. 前記データベースは、既知のオブジェクトおよびメタデータクラスタをアラインさせることによって、既定のコンテンツが入力されることを特徴とする、請求項11に記載の方法。
  14. セカンドスクリーンのコンテンツ拡張を、ライブ映像またはストリーミング映像のために使用することを特徴とする、請求項9に記載の方法。
  15. 前記視聴者に、前記照合された製品に関連付けられた販売促進物を連絡する前記ステップは、宣伝を表示するステップ、および、ウェブサイトもしくは映像へのハイパーリンクを提供するステップの少なくともいずれかを含むことを特徴とする、請求項9に記載の方法。
  16. 映像中のオブジェクトと製品のデータベース中の製品との間の関連を生成するためのシステムであって、
    ユーザーインターフェースアプリケーションを介してユーザーまたはユーザーグループにローカルまたはリモートで接続されるコンピュータネットワークおよびコンピュータシステムと、
    メディアコンテンツをローカルまたはサーバ上で検出および記憶するモジュールと、
    メタデータおよび視覚的特徴の少なくともいずれかを取り込むために、リモートまたはサーバベースのプロセッサに前記メディアコンテンツを送信するモジュールと、
    メタデータおよび視覚的特徴の少なくともいずれかを抽出するために、リモートまたはサーバベースのプロセッサに前記メディアコンテンツを送信するモジュールと、
    視覚的特徴を含むデジタル画像の形式で1または複数のユーザーからの入力を受信する装置と、
    前記視覚的特徴を識別し、前記視覚的特徴を前記データベース内のオブジェクトおよび関連製品のグループの少なくともいずれかと関連付けるように構成されたモジュールと、
    前記オブジェクトおよび関連製品のグループの少なくともいずれかに関する情報を、ユーザーおよびユーザーのグループの少なくともいずれかに配信するネットワークサービスと、を含むことを特徴とするシステム。
  17. 畳み込みニューラルネットワーク(CNN)が、視覚的特徴およびメタデータを分析し、前記視覚的特徴をオブジェクトおよび関連製品のグループの少なくともいずれかと関連付けることに使用されることを特徴とする、請求項16に記載のシステム。
  18. 前記オブジェクトおよび関連製品のグループの少なくともいずれかについての前記情報は、広告を含むことを特徴とする、請求項16に記載のシステム。
  19. 前記オブジェクトおよび関連製品のグループの少なくともいずれかについての前記情報は、前記インターネットを通じてアクセス可能なハイパーリンクまたはコンテンツを含むことを特徴とする、請求項16に記載のシステム。
JP2019513057A 2016-09-08 2017-09-07 視覚検索クエリによるオブジェクト検出 Pending JP2019531547A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201662384855P 2016-09-08 2016-09-08
US62/384,855 2016-09-08
PCT/SG2017/050449 WO2018048355A1 (en) 2016-09-08 2017-09-07 Object detection from visual search queries

Publications (2)

Publication Number Publication Date
JP2019531547A true JP2019531547A (ja) 2019-10-31
JP2019531547A5 JP2019531547A5 (ja) 2020-02-27

Family

ID=61562210

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019513057A Pending JP2019531547A (ja) 2016-09-08 2017-09-07 視覚検索クエリによるオブジェクト検出

Country Status (9)

Country Link
US (1) US10769444B2 (ja)
EP (1) EP3472755A4 (ja)
JP (1) JP2019531547A (ja)
KR (1) KR20190052028A (ja)
CN (1) CN109906455A (ja)
MY (1) MY198128A (ja)
RU (1) RU2729956C2 (ja)
SG (1) SG11201809634TA (ja)
WO (1) WO2018048355A1 (ja)

Families Citing this family (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9940670B2 (en) * 2009-12-10 2018-04-10 Royal Bank Of Canada Synchronized processing of data by networked computing resources
WO2011069234A1 (en) 2009-12-10 2011-06-16 Royal Bank Of Canada Synchronized processing of data by networked computing resources
KR102114701B1 (ko) * 2011-01-18 2020-05-25 에이치에스엔아이 엘엘씨 미디어 데이터에 있는 아이템을 인식하고 이와 관련된 정보를 전달하기 위한 시스템 및 방법
US10939182B2 (en) * 2018-01-31 2021-03-02 WowYow, Inc. Methods and apparatus for media search, characterization, and augmented reality provision
US10814235B2 (en) * 2018-02-08 2020-10-27 Sony Interactive Entertainment Inc. Vector-space framework for evaluating gameplay content in a game environment
US11275833B2 (en) * 2018-05-10 2022-03-15 Endgame, Inc. System and method for detecting a malicious file using image analysis prior to execution of the file
US11605227B2 (en) * 2018-09-04 2023-03-14 Pandoodle Corporation Method and system for dynamically analyzing, modifying, and distributing digital images and video
WO2020064988A1 (en) * 2018-09-27 2020-04-02 Deepmind Technologies Limited Scalable and compressive neural network data storage system
US11080358B2 (en) 2019-05-03 2021-08-03 Microsoft Technology Licensing, Llc Collaboration and sharing of curated web data from an integrated browser experience
US11386144B2 (en) * 2019-09-09 2022-07-12 Adobe Inc. Identifying digital attributes from multiple attribute groups within target digital images utilizing a deep cognitive attribution neural network
US10963702B1 (en) * 2019-09-10 2021-03-30 Huawei Technologies Co., Ltd. Method and system for video segmentation
US11049176B1 (en) 2020-01-10 2021-06-29 House Of Skye Ltd Systems/methods for identifying products within audio-visual content and enabling seamless purchasing of such identified products by viewers/users of the audio-visual content
CN111259843B (zh) * 2020-01-21 2021-09-03 敬科(深圳)机器人科技有限公司 基于视觉稳定特征分类配准的多媒体导航仪测试方法
KR102522989B1 (ko) * 2020-02-28 2023-04-18 주식회사 아토맘코리아 멀티미디어 콘텐츠 내 상품 정보 제공 장치 및 방법
KR102415366B1 (ko) * 2020-04-02 2022-07-01 네이버 주식회사 서로 다른 모달의 피처를 이용한 복합 랭킹 모델을 통해 연관 이미지를 검색하는 방법 및 시스템
US11589124B1 (en) * 2020-04-14 2023-02-21 Worldpay Limited Methods and systems for seamlessly transporting objects between connected devices for electronic transactions
KR102395876B1 (ko) 2020-04-14 2022-05-10 빅베이스 주식회사 딥러닝을 이용하여 유사한 이미지를 필터링할 수 있는 상품 분류 시스템 및 방법
US20220044298A1 (en) * 2020-08-05 2022-02-10 Foodspace Technology, LLC Method and Apparatus for Extracting Product Attributes from Packaging
US11620829B2 (en) 2020-09-30 2023-04-04 Snap Inc. Visual matching with a messaging application
US11386625B2 (en) * 2020-09-30 2022-07-12 Snap Inc. 3D graphic interaction based on scan
US11341728B2 (en) 2020-09-30 2022-05-24 Snap Inc. Online transaction based on currency scan
RU2754199C1 (ru) * 2020-11-20 2021-08-30 Акционерное Общество "Вьюэво" Способ электронной коммерции через общественную вещательную среду
GB2604851A (en) * 2021-02-12 2022-09-21 Tekkpro Ltd A system for accessing a web page
US11893792B2 (en) * 2021-03-25 2024-02-06 Adobe Inc. Integrating video content into online product listings to demonstrate product features
CN113313516A (zh) * 2021-05-26 2021-08-27 广州长盛科技有限公司 基于音视频平台的成本核算方法
US11816174B2 (en) 2022-03-29 2023-11-14 Ebay Inc. Enhanced search with morphed images
CN114494982B (zh) * 2022-04-08 2022-12-20 华夏文广传媒集团股份有限公司 一种基于人工智能的直播视频大数据精准推荐方法及***
CN114880517A (zh) * 2022-05-27 2022-08-09 支付宝(杭州)信息技术有限公司 用于视频检索的方法及装置

Family Cites Families (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080177640A1 (en) * 2005-05-09 2008-07-24 Salih Burak Gokturk System and method for using image analysis and search in e-commerce
US7702681B2 (en) * 2005-06-29 2010-04-20 Microsoft Corporation Query-by-image search and retrieval system
US7747070B2 (en) * 2005-08-31 2010-06-29 Microsoft Corporation Training convolutional neural networks on graphics processing units
US9195898B2 (en) * 2009-04-14 2015-11-24 Qualcomm Incorporated Systems and methods for image recognition using mobile devices
US20110082735A1 (en) * 2009-10-06 2011-04-07 Qualcomm Incorporated Systems and methods for merchandising transactions via image matching in a content delivery system
US8463100B2 (en) * 2009-11-05 2013-06-11 Cosmo Research Company Limited System and method for identifying, providing, and presenting content on a mobile device
CN102063436A (zh) * 2009-11-18 2011-05-18 腾讯科技(深圳)有限公司 一种利用终端获取图像实现商品信息搜索的***及方法
US20120238254A1 (en) * 2011-03-17 2012-09-20 Ebay Inc. Video processing system for identifying items in video frames
US9355330B2 (en) * 2011-04-12 2016-05-31 National University Of Singapore In-video product annotation with web information mining
JP2012248070A (ja) * 2011-05-30 2012-12-13 Sony Corp 情報処理装置、メタデータ設定方法、及びプログラム
US8625887B2 (en) * 2011-07-13 2014-01-07 Google Inc. Systems and methods for matching visual object components
US10650442B2 (en) * 2012-01-13 2020-05-12 Amro SHIHADAH Systems and methods for presentation and analysis of media content
US8595773B1 (en) * 2012-07-26 2013-11-26 TCL Research America Inc. Intelligent TV shopping system and method
US20140100993A1 (en) * 2012-10-04 2014-04-10 Rico Farmer Product Purchase in a Video Communication Session
CN103020172B (zh) * 2012-11-28 2015-08-19 北京京东世纪贸易有限公司 一种利用视频信息搜索物品的方法和装置
US9560415B2 (en) * 2013-01-25 2017-01-31 TapShop, LLC Method and system for interactive selection of items for purchase from a video
US9323785B2 (en) * 2013-03-06 2016-04-26 Streamoid Technologies Private Limited Method and system for mobile visual search using metadata and segmentation
US9183583B2 (en) * 2013-05-13 2015-11-10 A9.Com, Inc. Augmented reality recommendations
US10999637B2 (en) * 2013-08-30 2021-05-04 Adobe Inc. Video media item selections
US20150296250A1 (en) 2014-04-10 2015-10-15 Google Inc. Methods, systems, and media for presenting commerce information relating to video content
CN105373938A (zh) * 2014-08-27 2016-03-02 阿里巴巴集团控股有限公司 识别视频图像中的商品和展示其信息的方法、装置及***
US10715862B2 (en) * 2015-02-24 2020-07-14 Visenze Pte Ltd Method and system for identifying relevant media content
CN104715023B (zh) 2015-03-02 2018-08-03 北京奇艺世纪科技有限公司 基于视频内容的商品推荐方法和***
CN104967885B (zh) * 2015-03-27 2019-01-11 哈尔滨工业大学深圳研究生院 一种基于视频内容感知的广告推荐方法及***
US10440435B1 (en) * 2015-09-18 2019-10-08 Amazon Technologies, Inc. Performing searches while viewing video content
US9959468B2 (en) * 2015-11-06 2018-05-01 The Boeing Company Systems and methods for object tracking and classification
CN105868238A (zh) * 2015-12-09 2016-08-17 乐视网信息技术(北京)股份有限公司 信息处理方法及装置
CA3028710A1 (en) * 2016-06-23 2017-12-28 Capital One Services, Llc Systems and methods for automated object recognition

Also Published As

Publication number Publication date
WO2018048355A9 (en) 2018-04-05
SG11201809634TA (en) 2018-11-29
US10769444B2 (en) 2020-09-08
RU2018142028A (ru) 2020-05-29
MY198128A (en) 2023-08-04
KR20190052028A (ko) 2019-05-15
RU2018142028A3 (ja) 2020-06-26
EP3472755A1 (en) 2019-04-24
US20190362154A1 (en) 2019-11-28
EP3472755A4 (en) 2020-02-19
RU2729956C2 (ru) 2020-08-13
WO2018048355A1 (en) 2018-03-15
CN109906455A (zh) 2019-06-18

Similar Documents

Publication Publication Date Title
RU2729956C2 (ru) Обнаружение объектов из запросов визуального поиска
KR102533972B1 (ko) 시각적 검색 플랫폼용 영상 인제스트 프레임워크
US11290775B2 (en) Computerized system and method for automatically detecting and rendering highlights from streaming videos
US10832738B2 (en) Computerized system and method for automatically generating high-quality digital content thumbnails from digital video
US9471936B2 (en) Web identity to social media identity correlation
JP6821149B2 (ja) 広告配信のための動画使用情報処理
US10180979B2 (en) System and method for generating suggestions by a search engine in response to search queries
US20180181569A1 (en) Visual category representation with diverse ranking
US9123061B2 (en) System and method for personalized dynamic web content based on photographic data
US10719836B2 (en) Methods and systems for enhancing web content based on a web search query
US9449231B2 (en) Computerized systems and methods for generating models for identifying thumbnail images to promote videos
US11468675B1 (en) Techniques for identifying objects from video content
Wang et al. Interactive ads recommendation with contextual search on product topic space
KR20210041733A (ko) 패션 상품 추천 방법, 장치 및 컴퓨터 프로그램
KR101687377B1 (ko) 영상자료에 대한 광고 영상 제작방법, 이를 이용한 제작 시스템 및 제작된 영상데이터에 대한 상영방법
US20140258328A1 (en) System and method for visual determination of the correlation between a multimedia content element and a plurality of keywords
KR20150075068A (ko) 영상자료에 대한 광고 영상 제작방법, 이를 이용한 제작 시스템 및 제작된 영상데이터에 대한 상영방법

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20191220

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200110

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200110

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210329

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210406

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20211102