JP6571200B2

JP6571200B2 - 製品インデキシング方法およびそのシステム

Info

Publication number: JP6571200B2
Application number: JP2017545663A
Authority: JP
Inventors: リ，グアンダ; ソン，ヂェン; シュ，ファン
Original assignee: Visenze Pte Ltd
Current assignee: Visenze Pte Ltd
Priority date: 2015-02-24
Filing date: 2015-02-24
Publication date: 2019-09-04
Anticipated expiration: 2035-02-24
Also published as: US10949460B2; US20180032545A1; GB2553042B; WO2016137390A1; GB2553042A; SG11201706873XA; CN107533547A; JP2018512655A; CN107533547B; GB201714378D0

Description

技術分野
本発明は、製品インデキシング方法およびそのシステムに関し、たとえば、商品カタログのインデキシングのための製品インデキシング方法およびシステムに関する。

背景
電子商取引（ｅコマース）は近年爆発的に成長している。衣服、食料品および電子機器のような多くの種類の製品が電子商取引ウェブサイト上で販売されており、効率的に所望の製品を検索することができるシステムが買い手に必要である。テキスト検索は、買い手の検索意図を説明する能力に限界があることを示している。その一方、ユーザに自身の検索意図を表現するために問合せ画像をアップロードさせる視覚検索（visual search）が提案されている。視覚検索は、特にモバイルユーザについて、ユーザ検索体験を非常に改善し得る。

具体的には、視覚検索システムは、ユーザの問合せ画像から視覚的特徴を抽出し、製品視覚的特徴インデックスから当該視覚的特徴を検索するために使用され得る。製品視覚的特徴インデックスを構築するために、たとえば製品カタログといった製品画像から同じ視覚的特徴を直接的に抽出し、次いで、あるインデキシングおよび圧縮方法を適用して製品視覚的特徴インデックスを生成するよう、従来の視覚的特徴インデキシングシステムが用いられ得る。しかしながら、製品検索システムは、問合せ画像および製品画像の両方のノイズおよび制御されていない視野角に対処する必要がある。これは、製品画像の場合、当該画像の品質は低い場合があり、製品画像における製品は、多くの可能な視野角で提供され得、および／または、雑然した背景（しばしば人間の一部として）において提供され得るからである。同様に、問合せ画像は、同じ問題を有し得るか、または、ノイズおよび制御されていない視野角においてより高い変動を有し得る。

従来の視覚的特徴インデキシングシステムが使用される場合、問合せ画像／製品画像がノイジーであると、ユーザの検索意図は完全には満たされない場合がある。たとえば、問合せ画像／製品画像は、製品画像視覚的インデックスの一部分ではないかもしれない特徴を有する環境において撮像され得る。たとえば、バッグの問合せ画像／製品画像は、人が保持している状態で撮像され得る。そのような場合、問合せ画像の視覚的特徴と製品画像との間に有意な差が存在し得る。すなわち、人の画像はバッグの問合せ画像とは異なる。したがって、これは製品の抽出の失敗に帰着し得る。

別の例では、問合せ画像／製品画像は、キャプション、テキストボックス、装飾および画像モザイク（image mosaic）といった人工的な効果で後処理され得る。そのような後処理はさらに当該視覚的特徴を汚染し得、ある製品が視覚検索によって発見されることが不可能になる。

別の例では、問合せ画像／製品画像は異なる視野角で撮像され、製品の視野角における問合せ画像と製品画像との間での差によって、視覚検索結果の品質が影響を受け得る。

したがって、ユーザが製品を効率的に検索し、より楽しい検索体験を有することができるように、信頼性があり有効なインデキシングシステムを有することが必要である。

したがって、本発明の目的は、前述の問題を緩和することを試みることである。なお、上記の問題を克服することは有益であるが、電子商取引においては多数の製品カテゴリーが存在するため、上記の問題を緩和する如何なるソリューションも、異なる製品カテゴリーを扱うよう十分に堅牢であるべきである。

概要
さまざまな実施形態に従うと、本発明は、製品インデキシング方法を提供し、当該製品インデキシング方法は、製品の製品データを受信することを含み、製品データは少なくとも画像を含み、画像は、製品の製品画像と、製品が存在し得るコンテキストを提供するコンテキスト画像とを含み、コンテキスト画像は少なくとも１つの非製品画像を含む。製品インデキシング方法はさらに、製品画像を識別することと、画像からコンテキスト画像を識別することと、コンテキスト画像に基づいて製品画像における製品を照合することと、製品画像を抽出することと、製品画像にインデキシングすることとを含む。

さまざまな実施形態に従うと、上記方法は、製品データに基づいて製品の製品カテゴリーを決定することをさらに含み、製品画像は製品カテゴリーに基づいて識別され得る。

さまざまな実施形態に従うと、上記方法は、製品予測スコアを生成することをさらに含み得、製品カテゴリーは製品予測スコアに基づいて決定され得る。

さまざまな実施形態に従うと、製品予測スコアはテキスト予測スコアおよび／または画像予測スコアを含み得る。

さまざまな実施形態に従うと、製品データは製品の製品テキストを含み得、製品カテゴリーは製品テキストに基づいて決定され得る。

さまざまな実施形態に従うと、製品テキストは、製品の製品名を含み得、製品カテゴリーは製品名に基づいて決定され得る。

さまざまな実施形態に従うと、製品テキストは製品の製品説明を含み得、製品カテゴリーは製品説明に基づいて決定され得る。

さまざまな実施形態に従うと、製品カテゴリーは製品画像に基づいて決定され得る。
さまざまな実施形態に従うと、製品画像は製品カテゴリーに基づいて識別され得る。

さまざまな実施形態に従うと、上記方法は、画像内の製品画像の位置を決定することをさらに含み得る。

さまざまな実施形態に従うと、上記方法は、画像内のコンテキスト画像の位置を決定することをさらに含み得る。

さまざまな実施形態に従うと、上記方法は、製品画像とコンテキスト画像との間の関係を識別することをさらに含み得る。

さまざまな実施形態に従うと、関係を識別することは、製品画像とコンテキスト画像との間の空間関係を決定することを含み得る。

さまざまな実施形態に従うと、上記方法は製品画像を規定することをさらに含み得る。
さまざまな実施形態に従うと、上記方法は、規定された製品画像を改良することをさらに含み得る。

さまざまな実施形態に従うと、上記方法は、製品画像における製品の視点を識別することをさらに含み得る。

さまざまな実施形態に従うと、上記方法は、製品画像のあらかじめ規定された視点にマッチするように製品画像を方向付けることをさらに含み得る。

さまざまな実施形態に従うと、製品画像のあらかじめ規定された視点は、製品カテゴリーによって規定され得る。

さまざまな実施形態に従うと、上記方法は、製品の別の視点を生成することをさらに含み得る。

さまざまな実施形態に従うと、別の視点は、製品カテゴリーによる製品のあらかじめ規定された視点に基づいて生成され得る。

さまざまな実施形態に従うと、製品画像をインデキシングすることは、製品画像の視点および／または別の視点をインデキシングすることを含み得る。

さまざまな実施形態に従うと、製品画像のインデキシングは製品カテゴリーに基づき得る。

さまざまな実施形態に従うと、本発明は、製品インデキシングシステムを提供する。上記製品インデキシングシステムは、製品の製品データを受信するように構成されるサーバを含み、製品データは少なくとも画像を含み、画像は、製品の製品画像と、製品が存在し得るコンテキストを提供するコンテキスト画像とを含み得、コンテキスト画像は少なくとも１つの非製品画像を含み得る。上記製品インデキシングシステムは、製品画像を識別するように構成される製品識別モジュールと、画像におけるコンテキスト画像を識別するように構成されるコンテキスト識別モジュールと、コンテキスト画像に基づいて製品画像を照合するように構成される照合モジュールと、画像から製品画像を抽出するように構成される抽出モジュールと、製品画像を選択およびインデキシングするように構成されるインデキシングモジュールとを含む。

さまざまな実施形態に従うと、上記システムは、複数の製品カテゴリーをさらに含み得、製品の製品カテゴリーは製品データに基づいて決定され得、製品画像は製品カテゴリーに基づいて識別され得る。

さまざまな実施形態に従うと、上記システムは、製品予測スコアをさらに含み得、製品カテゴリーは製品予測スコアに基づいて決定され得る。

さまざまな実施形態に従うと、製品カテゴリーは、製品データの製品テキストおよび／または製品画像に基づいて決定され得る。

さまざまな実施形態に従うと、製品データは、製品名または製品説明のうち少なくとも１つを含み得、製品カテゴリーは、製品名または製品説明のうち少なくとも１つに基づいて決定され得る。

さまざまな実施形態に従うと、製品カテゴリーの各々は製品検出モジュールを含み得、製品カテゴリーの製品検出モジュールは製品画像を識別するように構成され得る。

さまざまな実施形態に従うと、製品検出モジュールは、画像内の製品画像および／またはコンテキスト画像の位置を識別するように構成され得る。

さまざまな実施形態に従うと、照合モジュールは、製品画像とコンテキスト画像との間の関係を識別するように構成され得る。

さまざまな実施形態に従うと、照合モジュールは、製品画像とコンテキスト画像との間の空間関係を照合するように構成される空間関係モジュールを含み得る。

さまざまな実施形態に従うと、システムは、製品画像を規定するように構成される規定モジュールをさらに含み得る。

さまざまな実施形態に従うと、システムは、規定された製品画像を改良するように構成される改良モジュールをさらに含み得る。

さまざまな実施形態に従うと、システムは、視点管理モジュールをさらに含み得、視点管理モジュールは、製品画像の視点を識別すること、製品の別の視点を生成すること、または、製品画像のあらかじめ規定された視点とマッチするように製品画像を方向付けることのうちの少なくとも１つを行なうように構成される。

さまざまな実施形態に従うと、製品カテゴリーはあらかじめ規定された視点を含み得、視点管理モジュールは、製品カテゴリーのあらかじめ規定された視点に基づいて、製品の視点を生成および／または方向付けするように構成され得る。

さまざまな実施形態に従うと、システムは、製品画像の視点および／または別の視点をインデキシングするように構成される視点インデキシングモジュールをさらに含み得る。

本発明は、視覚検索問合せに基づいた検索のための画像またはビデオにおいてより正確な製品特徴インデキシングシステムを提供することを目的とする。

例示的な製品インデキシングシステムを示す図である。製品データの例を示す図である。製品データの別の例を示す図である。図１の製品インデキシングシステムのための例示的な製品インデキシング方法を示す図である。製品識別モジュールの例示的な実施形態の概略図を示す図である。コンテキスト画像の識別の例を示す図である。製品画像がインデキシングされるフローチャートを示す図である。インデキシングの例示的な方法のフローチャートを示す図である。例示的な製品インデキシング方法のフローチャートを示す図である。

詳細な説明
図１は、製品の製品データを受信するように構成されるサーバ２００を有する製品インデキシングシステム１００を示す。上記製品データは少なくとも画像を含んでおり、当該画像は、製品の製品画像と、当該製品が存在するコンテキストを提供するコンテキスト画像とを含んでいる。製品インデキシングシステム１００は、製品画像を識別するように構成される製品識別モジュール２１０と、上記画像におけるコンテキスト画像を識別するように構成されるコンテキスト識別モジュール２２０と、コンテキスト画像に基づいて製品画像を照合するように構成される照合モジュール２３０と、画像から製品画像を抽出するように構成される抽出モジュール２４０と、製品画像をインデキシングするように構成されるインデキシングモジュール２５０とを含む。インデキシングされた製品画像は、製品視覚的特徴インデックスを形成し得る。製品特徴視覚的インデックスは、製品カタログをインデキシングして視覚検索問合せを使用する検索を容易にするために使用されるインデックスであり得る。

図２は、製品データ３００の例を示す。製品データ３００は少なくとも画像３１０を含み得る。画像３１０は、製品の製品画像３２０と、製品が存在するコンテキストを提供するコンテキスト画像３３０とを含み得る。

図３は、製品データ３０２の別の例を示す。製品データ３０２は、製品の製品テキスト３４０を含み得る。製品テキスト３４０は、当該製品の製品名３４２および／または製品説明３４４を含み得る。製品名３４２は、製品会社によって提供され得る製品のブランド、モデル、名前などであり得る。製品説明３４４は、製品の製品仕様書または記事であり得る。製品データ３０２は製品会社から受信され得る。製品データ３０２は、デジタル製品カタログの形態であり得る。

図４は、製品インデキシングシステム１００のための製品インデキシング方法４００を示す。製品インデキシング方法４００は、４１０において、製品の製品データ３００を受信することを含む。製品データ３００は少なくとも画像３１０を有する。画像３１０は、製品の製品画像３２０と、製品が存在するコンテキストを提供するコンテキスト画像３３０とを有する。コンテキスト画像３３０は、少なくとも１つの非製品画像を含む。製品インデキシング方法４００は、４２０において製品画像３２０を識別することと、４３０において画像３１０からコンテキスト画像３３０を識別することと、４４０において、コンテキスト画像３３０に基づいて製品画像３２０における製品を照合することと、４５０において製品画像３２０を抽出することと、４６０において製品画像３２０をインデキシングすることとを含む。

サーバ２００は、製品データ３００を受信すると、製品データ３００を分析して当該製品データ３００における製品を識別し得る。図２を参照して、サーバ２００は、製品識別モジュール２１０を使用して、たとえばコートといった製品の製品画像３２０を識別し得る。サーバ２００は、コンテキスト識別モジュール２２０を使用して、画像３１０において、たとえば顔、手といったコンテキスト画像３３０を識別し得る。サーバ２００は、照合モジュール２３０を使用して、識別されたコンテキスト画像３３０に基づいて、たとえばコートといった製品画像３２０を照合し得る。たとえば、手および顔が当該コートに隣接しているということを照合し得る。製品画像３２０がひとたび識別されると、サーバ２０は、抽出モジュール２４０を使用して画像３１０から製品画像３２０を抽出し、インデキシングモジュール２５０を使用して製品画像３２０をインデキシングし得る。抽出された製品画像３２０は、製品視覚的特徴インデックスを形成するために使用され得る。

記載されるように、製品データ３００をインデキシングするために、製品データ３００が表わす製品は、実行されるべきインデキシングのために識別され得る。その後、製品の製品画像３２０は、製品視覚的特徴インデックスに使用されるために識別、選択および抽出され得る。

製品識別モジュール２１０は、製品データ３００における製品の製品カテゴリー（以下に示される）を予測するように構成される製品予測モジュール２１１を含み得る。製品予測モジュール２１１は、画像３１０における製品画像３２０を予測するために使用され得る。図５は、製品予測モジュール２１１の例示的な方法２１３の概略図を示す。製品予測モジュール２１１は、画像３１０における製品のタイプを予測するように構成され得る。製品予測モジュール２１１は、テキスト予測モジュール２１２および／または画像予測モジュール２１４を含み得る。テキスト予測モジュール２１２および／または画像予測モジュール２１４は、あらかじめトレーニングされたテキスト分類モデルを含み得る。テキスト予測モジュール２１２および画像予測モジュール２１４はそれぞれ、たとえば機械学習アルゴリズムといった、従来のテキストベースおよび画像ベースの予測モデルであり得る。図５に示されるように、製品テキスト３４０の製品名３４２および／または製品説明３４４は、テキスト予測モジュール２１２によって予測され得る。画像３１０は、画像予測モジュール２１４によって予測され得る。

製品インデキシングシステム１００は、製品予測スコア２１５を含み得る。製品予測モジュール２１１は、製品予測スコア２１５を得る製品画像３２０を分析するために使用され得る。製品予測スコア２１５は、ある製品カテゴリーに属すると製品予測モジュール２１１によって予測された製品の確率を示す少なくとも１つの数字であり得る。たとえば、図３を参照して、製品予測モジュールは、製品画像３２０が靴であるとする製品予測スコアが８５％であると予測し得、スリッパであるとする製品予測スコアが４０％であると予測し得る。なぜならば、当該製品は、靴に対して高い類似性を有しているからである。製品予測モジュールは、複数の製品について複数の製品予測スコアを提供するよう、複数の製品の製品データを有する製品データベースを分析するように構成され得る。

製品予測スコア２１５は、テキスト予測スコア２１６および／または画像予測スコア２１８を含み得る。製品予測モジュール２１１は、テキストベースおよび視覚ベースの予測モジュールを生成するために、教師あり学習モジュールを使用するように構成され得る。テキスト予測スコア２１６は、製品データ３００がテキスト予測モジュール２１２によって分析されている場合、テキスト予測モジュール２１２から得られ得る。画像予測スコア２１８は、製品データ３００が画像予測モジュール２１４によって分析される場合、画像予測モジュール２１４から得られ得る。製品予測スコア２１５は、スコア集約モジュール２１９を使用してテキスト予測スコア２１６および画像予測スコア２１８を集約することにより得られ得る。テキスト予測スコア２１６には、加重テキスト予測スコアを得るよう、テキスト予測重みが組み込まれ得る。画像予測スコアには、加重画像予測スコアを得るよう、画像予測重みが組み込まれ得る。テキスト予測重みおよび／または画像予測重みは経験的に構成され得る。製品予測スコアに基づいて、製品の（以下に説明されるような）製品カテゴリーが決定され得る。

製品インデキシングシステム１００は、複数の製品カテゴリーを含み得る。製品の製品カテゴリーは、製品データ３００に基づいて決定され得る。製品の製品カテゴリーは製品予測スコア２１５に基づいて決定され得る。たとえば製品予測スコア２１５といった製品予測モジュール２１１の結果に基づいて、製品の製品カテゴリーが識別され得る。製品データ３００から得られる製品予測スコア２１５は、複数の製品カテゴリーから製品の製品カテゴリーを予測するために使用され得る。製品予測スコア２１５に基づいて、サーバ２００は、たとえば製品カテゴリーについて最も高い製品予測スコアといったように、製品に最も適切である製品カテゴリーを、製品についての複数の製品カテゴリーから識別および選択し得る。上述したように、製品予測スコア２１５は、テキスト予測スコア２１６および／または画像予測スコア２１８を含み得る。したがって、製品カテゴリーは、製品データ３００の製品テキストおよび／または画像に基づいて識別および選択され得る。言いかえれば、製品名３４２または製品説明３４４の少なくとも１つに基づいて、製品カテゴリーが決定され得る。テキスト予測スコア２１６は製品予測スコア２１５の構成要素であるので、製品カテゴリーは、製品データ３００の製品テキスト３４０および／または製品画像３２０に基づいて決定され得る。

複数の製品カテゴリーは、複数の製品検出モジュールを含み得る。製品カテゴリーの各々は製品検出モジュールを含み得る。複数の製品検出モジュールの各々は、たとえば衣類、フットウェアまたはハンドバックなどについての製品検出モジュールといったように、製品の各カテゴリーについてあらかじめ規定され得る。製品検出モジュールは、画像３１０から製品の情報を抽出するように構成され得る。製品検出モジュールは、画像３１０において製品画像３２０の位置を抽出するように構成され得る。

製品検出モジュールは画像検出モジュールを含み得る。製品検出モジュールはテキスト予測モジュール２１２を含み得る。テキスト予測モジュール２１２は、製品データ３００からテキスト特徴表現を抽出するように構成され得る。画像検出モジュールは、製品データ３００から画像特徴表現を抽出するように構成され得る。製品検出モジュールとテキスト特徴表現および／または画像特徴表現とに基づいて、たとえば回帰、ＳＶＭ、ニューラルネットワークなどといった教師あり学習方法によって、製品のパラメトリックモデルが学習され得る。特徴表現および学習方法を変更することによって、テキスト特徴表現および／または画像特徴表現の両方について、複数のパラメトリックモデルが学習され得る。製品検出モジュールは、ラベル付けされた製品データセットであり得る。製品検出モジュールは、製品画像において製品を検出するように構成されるあらかじめトレーニングされた製品検出モジュールであり得る。テキスト予測モジュールは、あらかじめトレーニングされたテキスト分類モデルを含み得る。テキスト予測モジュール２１２はそれぞれ、たとえば機械学習アルゴリズムといった、従来のテキストベース予測モデルであり得る。

製品カテゴリーの製品検出モジュールは製品画像を識別するように構成され得る。複数の製品カテゴリーの各々は製品検出モジュールを含み得る。製品検出モジュールはそれぞれの製品カテゴリーについてカスタマイズされ得る。たとえば、製品が靴である場合、製品カテゴリーは「フットウェア」であり得る。「フットウェア」についての製品検出モジュールは、靴、スリッパなどに関係のある画像を検出するように構成され得る。製品予測モジュール２１１とは異なり、製品検出モジュールは、画像内の製品画像を検出または識別するために、より製品に特化した検出アルゴリズムを有する。したがって、製品検出モジュールが組み込まれることにより、製品画像の品質が高められ、したがって、製品インデックスの品質が高められ得る。製品検出モジュールは、形状モデルを使用して構築される視覚的検出モデルを含み得る。Ｈａａｒ特徴、勾配方向ヒストグラム特徴畳み込みニューラルネットワーク（Histogram of Oriented Gradient Feature Convolutional Neural Network）を画像記述子（image descriptor）として検出モデルが利用され得る。製品インデキシングシステム１００は、画像内の製品画像および／またはコンテキスト画像の位置を識別するように構成される画像位置識別モジュールを含み得る。画像位置識別モジュールは、製品検出モジュールから独立していてもよい。

製品検出モジュールは、画像内の製品画像および／またはコンテキスト画像の位置を識別するように構成され得る。製品検出モジュールによる画像３１０における製品の検出中に、画像３１０における製品の製品位置が得られ得る。製品カテゴリーは、靴、コート、ズボンなどといった視覚的検出モデルを含み得る。そのような検出モデルは形状モデルを使用して構築され得る。Ｈａａｒ特徴、勾配方向ヒストグラム特徴畳み込みニューラルネットワーク（Histogram of Oriented Gradient Feature Convolutional Neural Network）を画像記述子（image descriptor）として検出モデルが使用され得る。

製品カテゴリーは、製品画像３２０とコンテキスト画像３３０との間の空間関係を規定する条件を有する空間関係モジュールを含み得る。複数の製品カテゴリーの各々についての空間関係モジュールは、当該製品の性質に固有であり得る。したがって、複数の製品カテゴリーの各々についての空間関係モジュールにおける条件は、互いとは異なり得る。

製品の製品カテゴリーが決定され得ない可能性が存在し得る。言及されたように、製品予測モジュール２１１は、製品の製品カテゴリーを予測するために使用され得る。製品予測モジュール２１１は、製品カテゴリーが決定されない場合、決定されていない製品カテゴリーに製品が属し得ると決定し得る。一般製品カテゴリーは、決定されていない製品を検出するように構成される一般製品カテゴリー検出モジュールを含み得る。一般製品カテゴリー検出モジュールを使用して、決定されていない製品の製品画像３２０が識別および抽出され得る。決定されていない製品の製品画像３２０は、「決定されていない」インデックスとしての製品視覚的特徴インデックスの一部分として、インデキシングモジュール２５０によってインデキシングされ得る。

製品カテゴリーは、製品について少なくとも１つのあらかじめ規定された視点（viewpoint）を含み得る。製品検出モジュールは、それぞれの製品カテゴリーについて製品のあらかじめ規定された視点を格納するように構成され得る。たとえば、製品が靴である場合、あらかじめ規定された視点は、靴の左側から見たもの、右側から見たものおよび／または斜めに見たものであり得る。製品カテゴリーは、製品画像３２０における製品の視点を識別するように構成される視点管理モジュールを含み得る。製品の視点は、たとえば前側から見たもの、左側から見たもの、右側から見たもの、後側から見たもの、斜めからから見たものといった、製品から離れた地点から製品を見たものであり得る。視点管理モジュールは、製品カテゴリーのあらかじめ規定された視点とは異なる視点を有する製品画像３２０を、製品画像の視点をあらかじめ規定された視点に整列するよう方向付けるように構成され得る。

コンテキスト識別モジュール２２０は、製品が存在し得るコンテキストを識別するように構成され得る。たとえばコートといった画像４００の場合、図６に示されるように、コンテキスト画像３３０はたとえば、顔４１０、皮膚４２０、人間４３０、テキスト４４０および長方形／円形画像モザイク４５０を含み得る。コンテキスト識別モジュール２２０は、コンテキスト画像３３０を検出するように構成されるあらかじめトレーニングされたコンテキストモデルを含み得る。コンテキスト識別モジュール２２０は製品画像３２０に対してコンテキスト識別を行なうように構成され得る。

コンテキスト画像３３０は、画像３１０または製品画像３２０に現われる共通の重要でないコンテンツであり得る。たとえば、図６に示されるように、視覚的モデルは、人間、顔、皮膚、テキスト、ボックス型または円型モザイクといったコンテキストオブジェクトについて構築され得る。これらのコンテキスト画像３３０は、製品に関係付けられ得るが、製品には重要でないものであり得る。

コンテキスト識別モジュール２２０は、たとえば人間、顔およびテキストといった形状を検出するためにエッジ特徴記述子を有する形状モデルを含み得る。エッジ特徴記述子を有する形状モデルは、Ｈａａｒ特徴、畳み込みニューラルネットワークからの勾配方向ヒストグラム特徴またはピクセル畳み込みカーネル（Pixel Convolutional Kernel）を含み得る。

コンテキスト識別モジュール２２０は、たとえば人間の皮膚といったような色に関係するコンテキスト画像３３０を識別するよう、たとえば色の混合ガウスモデル（ＧＭＭ： Gaussian Mixture Model）といった従来の方法を使用し得る。

コンテキスト識別モジュール２２０は、モザイクボックス／円のようなコンテキスト画像を予測するエッジ検出器、ライン検出器、円検出器およびコーナー検出器を含み得る。たとえばハフ変換（Hough Transform）といった、エッジ検出器、ライン検出器、円検出器およびコーナー検出器は、すべての高確率ボックス、円／楕円を検出し、当該ボックス、円／楕円を出力として生成するように実現され得る。

コンテキスト画像３３０は、製品画像を抽出する際に除去される必要があり得る製品画像のエリアであり得る。コンテキスト画像３３０は、より正確な製品カテゴリー予測および／または位置予測に使用され得る。

製品画像は、製品検出モジュール、製品予測モジュール２１１およびコンテキスト識別モジュール２２０のうちの少なくとも１つから得られた前述の結果に基づいて、照合モジュール２３０によって選択され得る。製品インデキシングシステム１００は、製品画像３２０を選択するように構成される製品画像選択モジュールをさらに含み得る。製品画像選択モジュールは、照合モジュール２３０から独立していてもよい。

たとえば空間関係モジュール、製品予測モジュール２１１からの予測された製品画像、および、コンテキスト識別モジュール２２０からのコンテキスト画像といった製品カテゴリーにおいて発見される製品に関係する情報は、照合モジュール２３０に供給され得る。照合モジュール２３０は、製品画像３２０のより正確な結果を生成するようすべての結果を分析し得る。

コンテキスト識別モジュール２２０がひとたびコンテキスト画像３３０を識別すると、コンテキスト画像３３０は、画像３１０における製品画像３２０を照合するように使用され得る。照合モジュール２３０は、たとえば空間関係、時間関係といった、製品画像３２０とコンテキスト画像３３０との間の関係を識別するように構成され得る。画像位置識別モジュールは、画像３１０におけるコンテキスト画像３３０の位置を識別するように構成され得る。コンテキスト画像３３０の位置は、画像位置識別モジュールによって、画像３１０における製品の検出中に得られ得る。照合モジュール２３０は、製品画像３２０とコンテキスト画像３３０との間の空間関係または位置関係を照合するように構成される空間関係モジュールを含み得る。空間関係モジュールは、製品画像３２０とコンテキスト画像３３０との間の関係に関係する条件を有する視覚文法モジュールを含み得る。

製品インデキシングシステム１００は、製品画像３２０の正確さを照合するために、製品画像の照合において、製品検出モジュール、製品予測モジュール２１１およびコンテキスト識別モジュール２２０から得られる結果を利用し得る。

たとえば、図６に示されるように、コンテキスト識別モジュール２２０は、たとえば顔４１０、皮膚４２０、人間４３０といった複数のコンテキスト画像３３０と、当該複数のコンテキスト画像３３０の位置とを識別し得る。たとえば顔および人体のいくつかの部分といった複数のコンテキスト画像３３０は、製品画像、すなわちコート、には該当しない場合があるが、当該複数のコンテキスト画像３３０は、製品画像３２０の位置を推論するのに重要であり得る。

視覚文法モジュールは、上記３つのモジュール、すなわち製品検出モジュール、製品予測モジュール２１１およびコンテキスト識別モジュール２２０のうちの少なくとも１つについての予測結果をマージするために使用され得る。視覚文法モジュールは、空間関係有効性文法を含み得る。視覚文法モジュールは、製品画像３２０の位置とコンテキスト画像３３０の位置との間の空間関係を分析し得、無効な製品コンテキスト関係を有する製品画像３２０をフィルタリングし得る。視覚文法モジュールは、製品画像位置に対して改良を行ない得る。空間関係分析の結果に基づいて、製品画像３２０の予測は正しいが、製品画像３２０の位置はどういう訳か十分に正確でない場合があるということが分かり得る。視覚文法モジュールは、線形モデルを使用してコンテキスト画像３３０のうちの少なくとも１つに基づいて製品画像３２０を照合し得る。たとえば、たとえばコートといった製品画像の境界座標を顔ボックス４１２座標から予測し得る。視覚文法モジュールは、製品画像３２０の予測を改善するために、既存の製品検出モジュールから手動で調整または学習され得る予測パラメータを含み得る。

製品インデキシングシステム１００は、製品画像３２０を規定するように構成される製品画像規定モジュールを含み得る。図６に示されるように、製品画像およびコンテキスト画像をそれぞれ規定するように、製品ボックスおよびコンテキストボックスが使用され得る。たとえば、コンテキストボックスは、顔４１０の位置を識別する顔ボックス４１２と、皮膚４２０の位置を識別する皮膚ボックス４２２と、人間４３０の位置を識別する人間ボックス４３２と、テキスト４４０の位置を識別するテキストボックス４４２と、画像モザイク４５０の位置を識別する画像モザイクボックス４５２とを含み得る。示されるように、ボックスは、ボックス内に制限されるエリアを規定するために使用される。当該ボックスは、画像の境界を示すために使用される円形形状、正方形形状、あるいは任意の他の形状であり得る。

視覚文法モジュールにおける規定の例は、次のものを含み得る。
・製品ボックス（図６に示されない）は、画像モザイクボックス／円内に存在するべきである。

・上部衣服ボックス（図６に示されない）は、人間ボックス４３２を超えるべきではない。上部衣服ボックスの上部境界は顔ボックス４１２の中間部を超えるべきではない。

・製品ボックス内の皮膚エリアは、しきい値（しきい値は製品カテゴリーによって変動し得る）を越えるべきではない。別の態様では、１）顔の色が皮膚予測に使用されていなければ、その皮膚エリアは無効であると考えられる（皮膚の予測が不正確である場合）、２）顔の色が皮膚の予測に使用されていれば、製品ボックスは無効である。

・皮膚エリアは、製品画像に対するノイズデータとなる可能性が高いので、製品ボックスにおけるすべての皮膚エリアを除去する。

製品カテゴリーは、視覚文法モジュールにおける規定を規定し得る。したがって、視覚文法は、製品の製品カテゴリーに従って柔軟に変動または変更され得る。

コンテキスト画像３３０、すなわち写真コンテキスト情報、の使用は、製品画像３２０の識別において重要な要素であり得る。モデルベースのコンテキスト予測は、同様の画像処理アプローチと比較して、より一般的であり得る。図６に示されるように、テキスト、ボックス型または円型のモザイク、および人間といった共通の重要でないコンテキスト情報に関して、モデルが構築され得る。

コンテキスト識別モジュールは、たとえば日の時間、年の季節といった時間関係データを検出し得る。時間関係データは、日の時間または年の季節に関係があり得る製品を識別するように使用され得る。たとえば、雪は、人が着用する服が冬服であり得ることを示し得る。示されるように、コンテキスト画像は、コンテキスト背景画像であり得る。別の例では、コンテキスト背景画像は、たとえばやかん、鉢といった少なくとも１つのキッチンアイテムであり得、製品画像は、キッチンアイテムのコンテキストにある視覚文法を使用して比較され得る。視覚文法は、物体対風景の関係条件および／または物体対物体の関係条件を含み得る。

インデキシング目的で製品画像が抽出される場合、後で説明されるように、コンテキスト画像は除去され得る。

以前に言及したように、製品に必要とされる視点は、製品カテゴリーにおいてあらかじめ規定され得る。たとえば、靴の場合、側面から見たものの鏡面反転バージョンが、生成およびインデキシングされる必要があり得る（図７（ｄ）参照）。

製品画像３２０は、異なる製品視点を生成するために、抽出され、視点管理モジュールに供給され得る。異なる製品は、たとえば対称、回転不変などといった異なる形状的特徴を有するので、視点管理モジュールは異なる製品カテゴリーに従って設計され得る。視点管理モジュールは、製品の必要とされる視点を予測するよう形状モデルを利用し得る。これにより、製品インデキシングシステム１００の計算コストはかなり低くなる。

製品の視点が完成すると、当該視点はインデキシングされ得る。より多くの視点を生成することによって、製品の製品インデックスが増強され得、これにより、製品の視覚インデックス品質が改善される。

製品は、異なる視点から見ると、異なって見え得る。したがって、製品の視点は、さまざまなユーザの問合せから統一された検索結果を得るために、さらに処理される必要があり得る。製品位置および視点が良好に予測される場合、鏡面反転による視界回転した視界といったような他の視点からの製品の視点が合成され得る。

製品画像３２０は製品カテゴリーに基づいて識別され得る。図７は、製品画像がインデキシングされるフローチャート３８０を示す。画像３１０は、画像予測モジュール２１４によって予測され得る。

以前に言及したように、製品検出モジュールは、画像３１０における製品画像３２０の位置および製品の視点を検出するように構成され得る。製品検出モジュールの画像位置識別モジュールは、画像座標における製品の位置を予測するために使用され得る。図７（ａ）を参照して、製品画像３２０がひとたび検出されると、製品画像ボックス３２２が製品画像３２０の画像エリアを規定するように生成され得る。

図７（ｂ）を参照して、視点管理モジュールは、製品の視点（製品画像ボックス３２２の矢印によって示される）を検出するように使用され得る。たとえば、２足の靴が、４５°および９０°回転された靴モデルによって検出され得る。

図７（ｃ）を参照して、製品カテゴリーにおける製品のあらかじめ規定された視点に基づいて、製品画像３２０は、製品画像ボックスの境界に沿って抽出され、当該製品についての製品カテゴリーのあらかじめ規定された視点に整列され得る。図７（ｃ）に示されるように、右側の靴の製品画像３２０は、製品カテゴリーにおいて規定されるように、９０°反時計回りに回転され得る。製品画像３２０が製品画像においてあらかじめ規定された視点に既に整列している場合、製品画像は回転される必要はない。製品３２０の製品画像がひとたび得られると、製品画像３２０は、製品視覚的特徴インデックスとしてインデキシングされ得る。製品画像３２０が、たとえば側面から見たものといったような製品の視点を含んでいると、視点インデックスが生成され得る。製品インデックスおよび／または視点インデックスは、製品視覚的特徴インデックスに保存され得る。

図７（ｄ）を参照して、たとえば靴形状モデルといった製品は、側面から見たものと正面から見たものという２つの視点を有し得る。視点インデックスは、検索問合せも視点インデックスでラベル付けされている場合、検索を容易にし得る。

製品カテゴリーによって必要とされるようなあらかじめ規定された視点に依存して、他の視点も視点管理モジュールによって生成され得る。たとえば図７（ｄ）を参照して、視点管理モジュールは、製品画像３２０の鏡面反転した視点または回転した視点３２４を生成し得る。電子商取引製品データのほとんどは対称および回転不変ではない。したがって、検索に有用な視点を生成することが必要であり得る。

製品画像３２０が識別および／または改良されると、製品の視覚的特徴説明が製品画像３２０から抽出され得る。製品カテゴリーは、異なる製品カテゴリーが異なる抽出パラメータに帰着し得るので、製品画像３２０の抽出に必要であり得る視覚的特徴抽出パラメータを含み得る。製品視覚的特徴インデックスは製品画像３２０から構築され得る。最終製品視覚的特徴インデックスは、ハッシングおよび転置インデックスのような一般的なデータインデキシング技術に基づいて、製品カテゴリーおよび抽出された視覚的特徴を使用して構築され得る。製品カテゴリーは、製品のより正確なインデキシングを提供するために、視覚的特徴抽出およびインデキシングに使用されてもよい。

図８は、製品画像３２０のインデキシングの例示的な方法３０４のフローチャートを示す。図８（ａ）に示されるように、製品画像３２０は、製品予測モジュール２１１を使用して画像３１０から予測され得る。たとえば、製品予測モジュール２１１は、コートであると製品画像３２０を識別している。サーバ２００は、製品画像３２０のまわりに製品画像ボックス３２２を生成することにより、製品画像３２０を選択し得る。製品予測スコア２１６は、製品予測モジュール２１１によって生成され得た。サーバ２００は、製品予測スコア２１６に基づいて、コートについての製品カテゴリーを要求し得る。サーバ２００は、製品画像３２０における製品を検出するように製品検出モジュールをアクティベートし得る。図８（ｂ）を参照して、サーバ２００は、たとえば画像３１０における人間のようなコンテキスト画像３３０を識別するためにコンテキスト識別モジュール２２０をアクティベートし得る。照合モジュール２３０を使用して、コンテキスト画像３３０は、製品画像３２０と比較され、かつ、たとえば視覚文法モジュールを使用して製品画像３２０を照合するように使用され得る。図８（ｃ）を参照して、視覚文法に基づいて、サーバ２００は、製品画像ボックス３２２を拡大させることによって製品画像３２０を改良し得、これにより、製品画像ボックス３２２内の製品をより良好に規定およびカプセル化する。図８（ｄ）を参照して、コンテキスト識別モジュール２２０は、複数のコンテキスト画像３３０を識別し得、複数のコンテキスト画像３３０（図８（ｅ）を参照）をマスキングし得る。サーバ２００は、抽出モジュール２４０を使用して製品画像３２０を抽出し得る。製品画像３２０を抽出する際に、サーバ２００は、複数のコンテキスト画像３３０、すなわちノイズ、から製品画像３３０を分離するよう製品画像３２０から複数のコンテキスト画像３３０を除去し得る。その後、製品画像３２０は、製品視覚的特徴インデックスを形成するために、インデキシングモジュール２５０を使用してインデキシングされ得る。複数のコンテキスト画像３３０の除去により、製品についての製品視覚的特徴インデックスの正確さが改善され得る。

図９は、例示的な製品インデキシング方法９００のフローチャートを示す。製品データ３００を受信すると、製品識別モジュール２１０は、製品画像３２０を識別するよう製品データ３００を分析するために使用され得る。製品画像３２０は、製品予測モジュール２１１を使用して画像３１０から識別され得る。画像３１０における製品のタイプは製品予測モジュール２１１によって予測され得る。製品予測モジュール２１１は、製品の製品カテゴリー３５０を予測するために使用され得る。製品カテゴリー３５０を識別する際、製品カテゴリー３５０に関係する製品検出モジュール２６０が、画像３１０における製品画像３２０を識別するように使用され得るとともに、たとえば取得されるべき視点を決定するといった他の機能のために使用され得る。コンテキスト画像３３０は、コンテキスト識別モジュール２２０によって画像３１０から識別され得る。製品画像３２０は、製品画像３１０、製品カテゴリー３５０およびコンテキスト画像３３０のうちの少なくとも１つからの入力を考慮することによって、照合モジュール２３０によって照合され得る。照合に基づいて、製品画像３２０が改良され得、改良された製品画像３２０が抽出モジュール２４０によって抽出され得る。画像３１０から抽出された製品画像３２０は、製品視覚的特徴インデックス３７０を得るよう、インデキシングモジュール２５０によってインデキシングされ得る。

ユーザ検索問合せ画像も製品インデキシングシステム１００によって処理され得る。製品インデキシングシステム１００における上記のモジュールのうちの任意の１つ以上のものが、ユーザ検索問合せ画像について実行され得る。たとえば、視点管理モジュールは、ユーザ検索問合せの画像を鏡面反転または回転し得る。

Claims

製品インデキシング方法であって、
製品の製品データを受信することを含み、前記製品データは少なくとも画像を含み、前記画像は、前記製品の製品画像と、前記製品が存在するコンテキストを提供するコンテキスト画像とを含み、前記コンテキスト画像は少なくとも１つの非製品画像を含み、前記製品インデキシング方法はさらに、
前記製品画像を識別することと、
前記画像から前記コンテキスト画像を識別することと、
前記コンテキスト画像に基づいて前記製品画像における前記製品を照合することと、
前記製品画像を抽出することと、
前記製品画像をインデキシングすることと、
前記製品画像における前記製品の視点を識別することとを含む、製品インデキシング方法。
前記製品画像のあらかじめ規定された視点にマッチするように前記製品画像を方向付けることをさらに含む、請求項１に記載の製品インデキシング方法。
前記製品画像の前記あらかじめ規定された視点は、前記製品カテゴリーによって規定される、請求項２に記載の製品インデキシング方法。
前記製品の別の視点を生成することをさらに含む、請求項１〜３のいずれか１項に記載の製品インデキシング方法。
前記別の視点は、前記製品カテゴリーによる前記製品のあらかじめ規定された視点に基づいて生成される、請求項４に記載の製品インデキシング方法。
前記製品画像をインデキシングすることは、前記製品画像の前記視点および／または別の視点をインデキシングすることを含む、請求項１〜５のいずれか１項に記載の製品インデキシング方法。
製品インデキシングシステムであって、
製品の製品データを受信するように構成されるサーバを含み、前記製品データは少なくとも画像を含み、前記画像は、前記製品の製品画像と、前記製品が存在するコンテキストを提供するコンテキスト画像とを含み、前記コンテキスト画像は少なくとも１つの非製品画像を含み、前記製品インデキシングシステムはさらに、
前記製品画像を識別するように構成される製品識別モジュールと、
前記画像における前記コンテキスト画像を識別するように構成されるコンテキスト識別モジュールと、
前記コンテキスト画像に基づいて前記製品画像を照合するように構成される照合モジュールと、
前記画像から前記製品画像を抽出するように構成される抽出モジュールと、
前記製品画像を選択およびインデキシングするように構成されるインデキシングモジュールと、
視点管理モジュールとを含み、前記視点管理モジュールは、前記製品画像の視点を識別すること、前記製品の別の視点を生成すること、または、前記製品画像のあらかじめ規定された視点とマッチするように前記製品画像を方向付けることのうちの少なくとも１つを行なうように構成される、製品インデキシングシステム。
前記製品カテゴリーはあらかじめ規定された視点を含み、視点管理モジュールは、前記製品カテゴリーの前記あらかじめ規定された視点に基づいて、前記製品の視点を生成および／または方向付けするように構成される、請求項７に記載の製品インデキシングシステム。
前記製品画像の前記視点および／または別の視点をインデキシングするように構成される視点インデキシングモジュールをさらに含む、請求項７または請求項８に記載の製品インデキシングシステム。