JP7446403B2

JP7446403B2 - 精算のための複数商品の製品認識

Info

Publication number: JP7446403B2
Application number: JP2022211155A
Authority: JP
Inventors: ブジェルセヴィックロスウェルステファン; リーマクダニエルクリスチャン; ヴァンスズッカーブレント
Original assignee: NCR Corp
Current assignee: NCR Voyix Corp
Priority date: 2022-02-04
Filing date: 2022-12-28
Publication date: 2024-03-08
Anticipated expiration: 2042-12-28
Also published as: JP2023114434A; CN116563585A; EP4224435A1; US20230252542A1

Description

本発明は、小売店等におけるＰＯＳシステムによる購入商品の識別と清算処理に関する。

商品の画像数が少なく、画像のいくつかが商品を遮蔽する場合、商品の認識自体が困難な作業である。画像内に存在する商品のより多くの遮蔽（商品は互いに前に配置することができる）など、多くの理由から、複数商品の認識は更に困難である。実際には、一度に多くの商品を１つの領域に配置することは、必然的に一部の商品が他の商品の表示を妨害することにつながる。たとえ画像に商品が部分的に見えても、その商品を識別するキーが見えなくなったりブロックされたりする場合がある。

多くの小売業者は、顧客に様々な形式の精算を提供している。例えば、レジ係が補助する精算では、顧客がコンベヤーベルトに商品を載置することができ、レジ係は各商品をスキャン又は入力し、販売時点（ＰＯＳ）端末を操作しながら精算のために顧客から支払いを受ける。セルフサービス端末（ＳＳＴ）では、顧客が自分の商品のバーコードをスキャン又は入力し、セルフ精算の支払いを行うことができる。いくつかの小売業者では、顧客が商品のバーコードをスキャン又は入力する際に、顧客が携帯アプリケーションを使用して買い物をし、精算のために携帯アプリケーションを介してのＳＳＴ、ＰＯＳ端末のいずれかで支払うことを可能にする。

業界の目標は、カメラとセンサが顧客を店内のアカウントと関連付け、顧客がピックアップした商品を監視し、カメラの画像から商品を認識し、顧客が店を去るときに顧客の取引に対する支払いを請求し、フリクションレス精算を可能にすることである。

フリクションレスショッピングはまた、顧客の手又は他の商品が商品を遮蔽し、商品が顧客のバッグ又はバスケット内の他の商品に積み重ねられて、商品の良い画像が商品を識別するために取得できない場合があるため、遮蔽問題も発生する。

コンビニエンスストアは、通常、小さなバスケットを有し、精算は、店員によって操作される販売時点（ＰＯＳ）端末で、買い物客が商品コード（ＵＰＣ）を入力又はスキャンするのを支援するのを可能とする店員を必要とする。残念なことに、コンビニエンスストアには、買い物客が自分の商品を、セルフ精算を行うことができる、セルフサービス端末（ＳＳＴ）を設置するための物理的なスペースがない。

その結果、コンビニエンスストアは、１つ又は２つの列に並んでいる買い物客と、店員とが、精算に非常に忙しい状態になる可能性がある。あまり必要のない商品をいくつか購入している一部の買い物客は、購入せずに商品を置き、店を出ることを選択する可能性がある。これらの状況は、各取引の平均購入商品数が少ない、大量の取引に依存する、小さなコミュニティベースのコンビニエンスストアにとって問題となり得る。

様々な実施形態において、精算中の複数商品の製品認識のためのシステム及び方法を提示する。

本発明の一実施形態によれば、清算中の複数商品の製品認識のための方法が提供される。すなわち、指定された領域に対して、複数のシーンの異なる画像を取得し、前記画像の各々から、奥行き情報及び赤色、緑色、青色から成るＲＧＢデータを抽出し、前記奥行き情報及び前記ＲＧＢデータを使用して、前記画像の各々に対して点群をアセンブルし、前記画像の各々に対する前記点群を単一の点群に同期化し、前記単一の点群から既知の背景ピクセルを除去して、変更された単一の点群を作成し、前記変更された単一の点群における前記奥行き情報及び前記ＲＧＢデータを前記シーンに存在する商品にクラスタ化された単一の点群を作成し、ここで、各クラスタが、前記シーンに存在する固有の商品に関連付けられており、前記クラスタ化された単一の点群からの各クラスタを使用して、前記クラスタ化された単一の点群から対応する商品についての少なくとも前記ＲＧＢデータを処理することにより、前記画像から画像パッチを関連付け、前記画像の対応する１つが可視の所定の商品の一部を有するときに、少なくとも前記ＲＧＢデータから、関連する画像パッチの前記クラスに属する商品の商品コードを識別することにより、各商品の商品コードを識別し、そして、顧客に関連付けられた取引に前記商品コードが提供される。

例示的な実施形態による、精算中の複数商品の製品認識のためのシステムの図である。例示的な実施形態による、精算中の複数商品の製品認識のための方法の図である。例示的な実施形態による、精算中の複数商品の製品認識のための別の方法の図である。

図１は、例示的な実施形態による、精算中の複数商品の製品認識のためのシステム１００の図である。構成要素が、例示される実施形態の理解に関連する構成要素のみを有して大幅に単純化された形態で概略的に示されていることに留意されたい。

更に、（システム／プラットフォーム１００で識別される）様々な構成要素を例示し、構成要素の配置は例示のみを目的として提示する。本明細書中、以下に示す、精算のための複数商品の製品認識の技術から逸脱することなく、より多くの、又はより少ない構成要素の他の配置が可能であることに留意するべきである。

本明細書で使用される場合、「シーン」は、顧客のセット又は複数商品が、複数の異なる角度で撮影された複数の画像を通して監視されている、定義された領域を指す。複数商品は、静止されていてもよく、又はバスケット、カート、手と腕、若しくは袋の中で顧客とともに移動していてもよい。領域は、任意の所定の形状、所定のサイズ、及び所定の寸法とすることができる。

システム１００は、シーン内の同じタイプの複数の異なるタイプのカメラ１２０又はカメラ１３０によって、異なる角度で捕捉された商品（製品）の複数の画像を可能にする、様々な構成要素を示す。商品は、バスケットの中に一緒に配置され、カートの中にあり、顧客によって保持され、及び／又はシーンの画像が捕捉されて、クラウド／サーバ１１０に提供されるときにカウンタトップ上に配置されてもよい。カメラ１２０及び／又は１３０によって返された奥行き情報、及びカメラ１２０及び／又は１３０によって返された赤色、緑色、青色（ＲＧＢ）色データは、各カメラ１２０又は１３０によって捕捉されたシーンを表す点群を生成するために使用される。

次に、点群を整列させ、同期化して、シーンの単一の点群を作成するのは、各別個のカメラ１２０又は１３０が、シーンに予めマッピングされた視野を有し、各カメラ１２０又は１３０のレンズは、シーンから予め設定された角度及び距離にあるためである。これにより、シーン内の各商品の奥行き情報とＲＧＢデータを、シーン内の所定の位置に関連付けることができ、また、単一の点群内に統合された各商品の奥行き情報とＲＧＢデータを関連付けることができる。シーンに関連付けられた既知の背景ピクセルは、単一の点群に残る全てがシーン内の商品についての奥行き情報とＲＧＢデータになるように除去される。

奥行き情報とＲＧＢデータは、シーン内の近さ（他の奥行き情報とＲＧＢデータとの間の近さ／距離）に基づいて、一緒にクラスタ化される。シーン内の商品の合計数は、奥行き情報とＲＧＢデータに関連付けられたクラスタの数に基づいてカウントされる。三次元（３Ｄ）バウンディングボックスが、個々の商品（クラスタ）の周りに配置される。各３Ｄバウンディングボックス内の各クラスタは、シーン内の各画像の３Ｄ画像を縫合することを表す。ピクセルデータ（奥行き情報におけるＲＧＢデータ及び／又はグレースケールの奥行きピクセルデータであることができる）は、各クラスタ（点群内の各一意な商品）に関連付けられ、かつ小売業者の製品カタログからの特定の商品コードに所与の商品が関連付けられているパーセンテージとして信頼レベルを出力する、訓練された機械学習モデルへの入力として提供される。点群内の点のクラスタの各々の位置を取得し、対応する２ＤＲＧＢ画像と関連付けることができるため、各商品を全ての画像又はカメラビューにわたって関連付けることができる。そのため、点群内の任意の所与のクラスタに対する商品コードを判定する際に、単一の商品の複数のビューが考慮される。

本質的に、オペレーションのパイプラインは、シーンの複数の画像上で行われ、シーンは、シーン内に配置された複数の商品を含む。複数の商品に対する合計商品数の精度と、複数の商品のそれぞれに対する商品認識は、オペレーションのパイプラインを処理することによって改善される。

ここで、様々な実施形態が、図１を参照して非常に詳細に論じられる。

システム１００は、クラウド／サーバ１１０、店舗内カメラ１２０、器具取り付けカメラ１３０、１つ以上の小売サーバ１４０、取引端末１５０、及びユーザが操作するデバイス１６０を含む。

クラウド／サーバ１１０は、プロセッサ１１１、及び非一時的コンピュータ可読記憶媒体１１２を備える。媒体１１２は、奥行き／ＲＧＢマネージャ１１３、画像点群マネージャ１１４、点群シンクロナイザ１１５、背景マネージャ１１６、バウンディングボックスマネージャ１１７、機械学習（ＭＬ）モデル（ＭＬＭ）、１１８、及び複数商品管理１１９に対する実行可能な命令を含む。実行可能な命令は、媒体１１２からのプロセッサ１１１によって提供又は取得されたとき、プロセッサ１１１に、１１３～１１９に関して本明細書で論じる動作を実行させる。

店舗内カメラ１２０は、端末１５０の取引領域の頭上に位置する、及び／又は端末１５０に関連付けられたサイドカウンタトップに沿って位置する頭上カメラなど、店舗全体に配置された静止カメラであってもよい。

器具取り付けカメラ１３０は、バスケット及びカートの側面に取り付けられてもよい。カート又はバスケット用の１つのカメラ１３０は、カート又はバスケットの上部縁に沿って配置され、バスケット又はカートの中に下向きに向けられてもよい。カート又はバスケット用の他のカメラ１３０は、カート又はバスケットの中に焦点を置いたカート又はバスケットの２つ以上の側部に取り付けられ得る。

一実施形態では、以下に論じる実施形態に、器具取り付けカメラ１３０のみが使用される。

一実施形態では、以下に論じる実施形態に、店舗内カメラ１２０のみが使用される。

一実施形態では、以下に論じる実施形態に、店舗内カメラと器具取り付けカメラ１３０との組み合わせが使用される。

一実施形態では、以下に論じる実施形態に、３台のカメラ１２０及び／又は１３０が使用される。

一実施形態では、以下に論じる実施形態に、４台のカメラ１２０及び／又は１３０が使用される。

一実施形態では、以下に論じる実施形態に、５台以上のカメラ１２０及び／又は１３０が使用される。

一実施形態では、カメラ１２０及び／又は１３０のうちの１つ又は全てが、奥行きカメラである。

各小売サーバ１４０は、少なくとも１つのプロセッサ１４１と非一時的コンピュータ可読記憶媒体１４２とを備える。媒体１４２は、取引マネージャ１４３に対する実行可能な命令を含む。実行可能な命令は、媒体１４２からプロセッサ１４１によって提供又は取得されたとき、プロセッサ１４１に、１４３に関して本明細書で論じる動作を実行させる。

各小売サーバ１５０は、少なくとも１つのプロセッサ１５１と非一時的コンピュータ可読記憶媒体１５２とを備える。媒体１５２は、取引マネージャ１５３に対する実行可能な命令を含む。実行可能な命令は、媒体１５２からプロセッサ１５１によって提供又は取得されたとき、プロセッサ１５１に、１５３に関して本明細書で論じる動作を実行させる。

各ユーザ操作デバイス１６０は、少なくとも１つのプロセッサ１６１と非一時的コンピュータ可読記憶媒体１６２とを備える。媒体１６２は、小売アプリケーション（ａｐｐ）１６３に対する実行可能な命令を含む。実行可能な命令は、媒体１６２からプロセッサ１６１によって提供又は取得されたとき、プロセッサ１６１に、１６３に関して本明細書で論じる動作を実行させる。

複数の商品又は製品が、カメラ１２０及び１３０が焦点を当てて、指定された領域からの商品のシーンを捕捉するために、指定された領域に配置される。指定された領域は、端末１５０に関連付けられた取引領域のカウンタトップなど、静止であってもよく、又は指定された領域は、器具取り付けカメラ１３０を装備しているカート（１つのタイプの器具）又はバスケット（別のタイプの器具）に配置されている商品を有する顧客とともに移動してもよい。

画像は、カメラ１２０及び／又は１３０から複数商品マネージャ１１９に直接ストリーミングされ、カメラ１２０及び／又は１３０によって、複数商品マネージャ１１９が監視するネットワークアクセス可能なファイル位置のストレージに直接ストリーミングされる。シーンの画像は、多商品マネージャ１１９から奥行き／ＲＧＢマネージャ１１３によって提供され、各商品の奥行き情報及び各商品のＲＧＢデータを抽出する。商品のシーンの奥行き情報及び商品のシーンのＲＧＢデータは、画像点群マネージャ１１４に直接パイプされる。

画像点群マネージャ１１４は、各画像の抽出された奥行き情報及びＲＧＢデータを含む、各カメラ１２０及び／又は１３０によって撮影された各画像についての点群を作成する。商品の単一のシーンの点群は、点群シンクロナイザ１１５に直接パイプされる。

点群シンクロナイザ１１５は、各カメラ１２０及び／又は１３０に関連付けられた既知の情報（カメラ角度、シーンの指定された領域の表面へのカメラ距離、カメラ品質（インチ当たりのピクセルの密度）など）を使用して、個々の奥行き情報と、単一の点群にパッチされてアセンブルされた各画像のＲＧＢデータを含む、シーンの同期化又はマッピングされた単一の点群を生成する。シンクロナイザ１１５は、全てのカメラ１２０及び１３０の点群からの全ての奥行き情報とＲＧＢデータを単一のパッチ付き点群に統合する。単一の点群は、その後、背景マネージャ１１６にパイプされる。

一実施形態では、全てのカメラ１２０及び／１３０の画像を単一のパッチ付き点群にリンクするために、点群シンクロナイザ１１５は、所与のカメラの座標を、シーンの指定された領域に関連付けられた現実世界の座標に整列させる変換行列を利用する。

背景マネージャ１１６は、各カメラ１２０及び１３０によって捕捉される画像データについて訓練され、例えば、カート又はバスケットに関連付けられたワイヤ又はプラスチック、フロアに関連付けられたフロアリング、背景であることが知られているカウンタトップの表面に関連付けられたカウンタトップ、背景であることが知られている棚の表面に関連付けられた棚など、シーンの既知の背景について、既知の背景ピクセルデータを識別及び除去する。除去された背景ピクセルを有する単一の点群は、その後、背景マネージャ１１７にパイプされる。

バウンディングボックスマネージャ１１７は、単一の点群のシーンの残りの奥行き情報とＲＧＢデータに対してクラスタ化アルゴリズムを実行する。これにより、各個々のカメラ１２０及び／又は１３０が寄与したコンポーネント点群が関連付けられる。バウンディングボックスマネージャ１１７は、各クラスタの周りにバウンディングボックスを作成し、指定された領域のシーンにおいて商品ごとに単一のバウンディングボックスをもたらす。各商品の３Ｄバウンディングボックスを使用して、各商品が可視である各２ＤＲＧＢ画像に２Ｄバウンディングボックスを作成できる。

複数商品マネージャ１１９は、単一の点群内のバウンディングボックスの数をカウントする。カウントは、シーン内に存在する商品の数と等しく、対応するバウンディングボックス内のＲＧＢデータは、シーン内に存在する各商品の商品認識のために、訓練されたＭＬＭ１１８に個別に供給される。

一実施形態では、単一の点群から供給されるＲＧＢデータは、ＭＬＭ１１８に供給される。単一の点群は、元の２ＤＲＧＢ画像の中の各商品がどこにあるかを識別するために処理される。元の画像の各々に対して２Ｄバウンディングボックスが作成され、画像の各々がＭＬＭ１１８に供給される。各画像パッチ（元の画像における２Ｄバウンディングボックスによって識別される）は、ＭＬＭ１１８から独自の商品コード割り当て及び信頼値を受け取る。各商品の各パッチ（候補商品コード）の出力は、「投票」とみなされる。画像の所与の１つにおける所与の商品パスが、異なる商品コードを受信するか、又は全体的な平均信頼度が閾値を下回る場合、元のＲＧＢ画像におけるその２Ｄバウンディングボックスに関連付けられた対応するパッチは、決定的ではないとみなされる。投票からの平均信頼度値が閾値を超えると、元のＲＧＢ画像に表示されるパッチに対応する商品コードが割り当てられる。

ＭＬＭ１１８は、ＭＬＭ１１８の信頼性が商品予測においてどのくらいかを識別する、各バウンディングボックスに対する信頼係数を返す。商品予測は、サーバ１４０に関連付けられた小売業者のカタログ内の所定の商品に関連付けられた商品コードである。信頼係数が所定のパーセンテージを超えると、複数商品マネージャ１１９は、対応する商品コードを、シーンの単一の点群の対応するバウンディングボックスに割り当てる。

複数商品マネージャ１１８は、アプリケーションプログラミングインターフェース（ＡＰＩ）を使用して、シーン内の各商品の各商品コードを取引マネージャ１４３及び／又は取引マネージャ１５３に提供する。取引マネージャ１４３及び／又は１５３は、取引の詳細を識別し、顧客からの支払いを要求し、及び／又はセキュリティのために、複数商品マネージャ１１８によって提供された商品コードが、顧客取引のセキュリティアラート又は監査を提起する目的で、入力又はスキャンされた商品コードと一致することを確認するなど、顧客の精算中の様々な目的のために商品コードを使用し得る。

顧客が小売アプリ１６３を使用して店舗のセルフショッピング及び精算を行っている場合、小売アプリは取引マネージャ１４３とやりとりし、取引マネージャ１４３は、マネージャ１１８によって提供された商品コードを記録し、商品価格及び商品説明を取得し、顧客が、顧客のカート又はバスケットに現在あるものを、顧客がいつでも精算できるオプションとともに、選択することができるアプリ１６３内のオプションを維持する。

一実施形態では、システム１００は、レジ係によって操作されるＰＯＳ端末である端末１５０での精算中の商品バーコードのスキャンを排除することを可能にし、顧客が操作するＳＳＴである端末１５０でのセルフ精算中の商品バーコードのスキャンを排除することを可能にする。更に、システム１００は、顧客が小売アプリ１６３を使用している場合に、商品バーコードの顧客が自己スキャンを排除することを可能にし、むしろ、顧客は、その取引のために目的の商品をカート又はバスケットに入れるだけで、商品コードは、上述した方式で、システム１００によって自動的に解決される。

一実施形態では、ＭＬＭ１１８はまた、ＲＧＢデータとともに、各バウンデット商品の奥行き情報について訓練される。このようにして、ＭＬＭ１１８は、１２又は１６オンスのＣｏｋｅ（登録商標）から８オンスのＣｏｋｅ（登録商標）のボトルを区別するなど、同じタイプの異なるサイズの商品を識別できる。

実施形態では、シーン内の所与の商品に対してＭＬＭ１１８によって返された所与の商品信頼値が、所定の閾値を下回ると、複数商品マネージャ１１９は、１つの商品がカウントされておらず、識別できないことを示すメッセージを取引マネージャ１４３又は取引マネージャ１５３に送信する。低信頼値に関連付けられた商品コードは、識別されなかった商品についてレジ係又は顧客に提示するための提案として、メッセージ内にも提供され得る。取引マネージャ１４３又は１５３は、商品を識別し適切に記録できるように、警告を使用して、取引が係員によって監査されるようにすることができる。バウンディングボックスによって判定される商品に関連付けられた元の画像も、顧客が商品を識別するか、又はシステム１００が問題となっている商品を再試行して識別するためのシーンの指定された領域上の商品を再配置する要求とともに、メッセージで提供され得る。

一実施形態では、シーンの指定された領域は、１２インチ×１６インチであるか、又はコンビニエンスストアでのカート、食品トレー、バスケット、若しくはカウンタトップのサイズにほぼ対応する。

一実施形態では、背景ピクセル減算を使用する代わりに、背景マネージャ１１６は、処理されてシーン内の商品がある場所の「マスク」を作成し、商品がない場所のピクセルを除去する、ＲＧＢセグメンテーションモデルを使用する。

一実施形態では、ＭＬＭ１１８は、クラスタ化されたバウンディングボックスを有する単一の点群がＭＬＭ１１８に提供されるように、３Ｄ画像パッチを標識するための深層畳み込みニューラルネットワーク（ＣＮＮ）であり、ＭＬＭ１１８は、各バウンディングボックスを商品コード及びパーセンテージ又は信頼値（ＭＬＭ１１８によって対応する商品コードに対して判定された最大値）で標識する。このようにして、各バウンディングボックスの各個々のＲＧＢデータは、個別にＭＬＭ１１８に渡す必要はない。

ここで図２～３を参照しながら、これらの実施形態及びその他の実施形態を検討する。

図２は、例示的な実施形態による、精算中の複数商品の製品認識のための方法２００の図である。方法２００を実装するソフトウエアモジュールを「シーン商品識別部」と称する。シーン商品識別部は、プログラムされた実行可能な命令として実装され、メモリ及び／又は非一時的コンピュータ可読（プロセッサ可読）記憶媒体の内部に常駐し、デバイスの１つ以上のプロセッサにより実行される。シーン商品識別部を実行するデバイスのプロセッサは、シーン商品識別部を処理するように具体的に構成され、かつプログラムされる。シーン商品識別部は、その処理中に１つ以上のネットワーク接続にアクセスできる。ネットワーク接続は、有線であっても、無線であっても、有線と無線の組み合わせであってもよい。

一実施形態では、シーン商品識別部は、クラウド１１０上で実行される。一実施形態では、シーン商品識別部は、サーバ１１０上で実行される。

一実施形態では、シーン商品識別部は、１１３、１１４、１１５、１１６、１１７、１１８、及び１１９の全て又は一部の組み合わせである。

２１０で、シーン商品識別部は、指定された領域に対するシーンの複数の異なる画像を取得する。

一実施形態では、２１１で、シーン商品識別部は、器具に取り付けられたカメラ１３０から画像を取得する。器具は、カート又はバスケットである。

一実施形態では、２１２で、シーン商品識別部は、カメラ１２０から、取引端末１５０に関連付けられた取引領域に隣接して静止している画像を取得する。

一実施形態では、２１３で、シーン商品識別部は、器具に取り付けられた奥行きカメラ１３０、取引領域に隣接する奥行きカメラ１２０、又は器具に取り付けられた奥行きカメラ１３０、及び取引領域に隣接する奥行きカメラ１２０の組み合わせから画像を取得する。

２２０で、シーン商品識別部は、画像の各々から奥行き情報及びＲＧＢデータを抽出する。

２１３及び２２０の実施形態では、２２１で、シーン商品識別部は、画像に関連付けられたメタデータから奥行き情報及びＲＧＢデータを取得する。

２３０で、シーン商品識別部は、奥行き情報及びＲＧＢデータを使用して、各画像の点群をアセンブルする。

２２１及び２３０の実施形態では、２３１で、シーン商品識別部は、各点群を、異なる角度で、及び奥行きカメラ１２０及び／又は１３０のそれぞれによって異なる視点から撮影された、指定された領域の異なる３Ｄビューとして識別する。

２４０で、シーン商品識別部は、画像の各々に対する点群を単一の点群に同期化する。

２３１及び２４０の実施形態では、２４１で、シーン商品識別部は、対応する異なる角度及び対応する奥行きカメラ１２０及び／又は１３０の対応する異なる視点を使用することによって識別される、指定された領域内の位置に基づいて、それぞれの異なる３Ｄビューの奥行き情報とＲＧＢデータを、単一の点群にパッチする。

２５０で、シーン商品識別部は、既知の背景ピクセルを単一の点群から除去し、変更された単一の点群を作成する。

２４１及び２５０の実施形態では、２５１で、シーン商品識別部は、商品のいずれも存在しないときに、奥行きカメラ１２０及び／又は１３０の各々によって指定された領域の採られたモデル背景画像を使用する。シーン商品識別部は、背景画像を単一の点群から減算して、変更された単一の点群を取得する。

２６０で、シーン商品識別部は、変更された単一の点群内の奥行き情報とＲＧＢデータを、シーン内に存在する商品にクラスタ化し、クラスタ化された単一の点群を作成する。固有の商品に関連付けられた各クラスタは、指定された領域のシーンに存在する。

２５１及び２６０の実施形態では、２６１で、シーン商品識別部は、各クラスタの周りに３Ｄバウンディングボックスを配置して、指定された領域内の各商品を識別する。

２６１及び２６２の実施形態では、シーン商品識別部は、クラスタ化された単一の点群内の各バウンディングボックスをカウントして、指定された領域内に存在する合計商品数を取得する。

２７０で、シーン商品識別部は、クラスタ化された単一の点群からの対応する商品のＲＧＢデータを除いて処理することによって、各商品の商品コードを識別する。これは、クラスタ化された単一の点群からの各クラスタを使用して、画像から画像パッチを関連付け、画像の対応する１つが、所与の商品の部分が見えたときに、少なくともＲＧＢデータから、関連する画像パッチの各グループに対する商品コードを特定することによって、クラウドが達成される。別の言い方をすると、クラスタ化した単一の点群は、一緒にクラスタ化し、一緒にパッチを適用して、所与の商品のマルチビューを作成する各商品のＲＧＢデータを含み、単一の点群の中の１つのクラスタの全ての画像パッチは、所与の商品について利用可能な全てのＲＧＢデータを表し、このＲＧＢデータは、元の撮影された画像の周りに２Ｄバウンディングボックスを作成するために使用され、各画像は、訓練されたＭＬＭ１１８に送られ、その後、各バウンディングボックスを潜在的な商品コード及び値で標識化する。投票アプローチ又は平均信頼値アプローチを使用して、候補商品コードを使用するか否かを判定する。

２８０で、シーン商品識別部は、顧客に関連付けられた取引の商品コードを提供する。

２６２及び２８０の実施形態では、２８１で、シーン商品識別部は、取引について、商品に関連付けられた商品コードとともに合計商品数を提供する。

図３は、例示的な実施形態による、精算中の複数商品の製品認識のための別の方法３００の図である。方法２００を実施するソフトウエアモジュールを、「複数商品認識部」と称する。複数商品認識部は、プログラムされた実行可能な命令として実装され、メモリ及び／又は非一時的コンピュータ可読（プロセッサ可読）記憶媒体の内部に常駐し、デバイスの１つ以上のプロセッサにより実行される。複数商品認識部を実行するデバイスのプロセッサは、複数商品認識部を処理するように具体的に構成され、プログラムされる。複数商品認識部は、その処理中に１つ以上のネットワーク接続にアクセスできる。ネットワーク接続は、有線であっても、無線であっても、有線と無線の組み合わせであってもよい。

一実施形態では、複数商品認識部を実行するデバイスは、クラウド１１０である。一実施形態では、複数商品認識部を実行する装置は、サーバ１１０である。

一実施形態では、複数商品認識部は、１１３、１１４、１１５、１１６、１１７、１１８、１１９、及び／又は方法２００の全て又は一部の組み合わせである。

３１０で、複数商品認識部は、監視対象ゾーン内の異なる位置に位置し、監視対象ゾーン内の異なる角度で配向された、奥行きカメラ１２０及び／又は１３０から、監視対象ゾーン内の商品の画像を取得する。

３２０で、複数商品認識部は、画像に対して点群を生成するが、各点群は、奥行き情報、及び商品及び監視されるゾーンの背景物体に対して対応する画像に提供されるＲＧＢデータを含む。

３３０で、複数商品認識部は、監視されるゾーンの各画像に関連付けられた異なる位置及び異なる角度を使用して、対応する奥行き情報及びＲＧＢデータをパッチングすること及びマッピングすることによって、点群を単一の点群に同期化する。

３４０で、奥行き情報及び背景物体に対応するＲＧＢデータを単一の点群から除去する。

３５０で、複数商品認識部は、残りの奥行き情報及びＲＧＢデータをクラスタの中にクラスタ化するが、各クラスタは特定の商品に関連付けられている。

３６０で、複数商品認識部は、各クラスタの周りにバウンディングボックスを配置する。

３７０で、複数商品認識部は、単一の点群内のクラスタをカウントすることによって、合計商品数を取得する。

３８０で、複数商品認識部は、各クラスタの対応するＲＧＢデータを訓練されたＭＬＭ１１８に渡し、対応する商品コードに対する信頼値とともに訓練されたＭＬＭ１１８から各商品コードを受信することによって、各商品の商品コードを識別する。

一実施形態では、３８１で、複数の商品認識部は、各クラスタについての対応する奥行き情報を、訓練されたＭＬＭ１１８に渡す。

３８１及び３８２の実施形態では、複数の商品認識部は、対応する奥行き情報に応答して、訓練されたＭＬＭ１１８から少なくとも１つの商品コードのサイズを受け取る。

一実施形態では、３８３で、複数商品認識部は、各信頼値を閾値と比較する。

３９０で、複数の商品認識部は、商品コード及び合計商品数を、顧客に関連付けられた取引について取引マネージャ１４３又は１５３に提供する。

３８３及び３９０の実施形態では、３９１で、複数の商品認識部は、閾値を下回る対応する信頼値を有する任意の商品コードについて、取引マネージャ１４３／１５３に通知を提供する。

３９１及び３９２の実施形態では、複数商品認識部は、閾値を下回る対応する信頼値を有する商品コードの各々に対して、対応するクラスタに関連付けられた画像の一部分を取引マネージャ１４３／１５３に提供する。

３９１及び３９２の実施形態では、複数商品認識部は、商品コードの第２の閾値を超えると、閾値を下回る対応する信頼値と関連付けられるときに、取引マネージャ１４３／１５３に、監査のための取引にフラグを付けるように要求する。

ソフトウエアが特定の形態（構成要素又はモジュールなど）で説明されている場合、それは単に理解を助けるためであり、それらの機能を実施するソフトウエアがどのように設計されるか、あるいはどのような構造であるかを限定するものではないことが理解される。例えば、モジュールは別個のモジュールとして説明されているが、同種のコードとして、個別の構成要素として実施されてもよく、またこうしたモジュールの全体でなく一部を組み合わせてもよく、その他の任意の都合の良い方法で構造化されたソフトウエア内で機能が実施されてもよい。

更に、ソフトウエアモジュールは、１つのハードウエア上で実行されるものとして説明されているが、ソフトウエアは、複数のプロセッサにまたがる、又はその他の任意の都合の良い方法で分布されてもよい。

上述の説明は、例証的なものであって制限的なものではない。当業者には、上述の説明を検討することにより、その他の数多くの実施形態が明らかとなるであろう。したがって、実施形態の範囲は、これらの請求項が権利を持つ均等物の完全な範囲とともに、添付の請求項を参照して、決定されるべきである。

実施形態についての上述の説明では、開示を合理化する目的で様々な特徴が単一の実施形態でひとまとめにされている。この開示方法は、請求された実施形態が、各請求項で明示的に詳述されるものよりも多くの特徴を有することを反映するとは解釈されない。むしろ、下記の請求項で反映されるとおり、発明の主題は、単一の開示された実施形態の全ての特徴よりも少ない。したがって、これによって、以下の特許請求の範囲は、実施形態の説明に組み込まれ、各特許請求の範囲は、それ自体を別個の例示的な実施形態として主張する。

Claims

指定された領域に対して、複数のシーンの異なる画像を取得し、
前記画像の各々から、奥行き情報及び赤色、緑色、青色から成るＲＧＢデータを抽出し、
前記奥行き情報及び前記ＲＧＢデータを使用して、前記画像の各々に対して点群をアセンブルし、
前記画像の各々に対する前記点群を単一の点群に同期化し、
前記単一の点群から既知の背景ピクセルを除去して、変更された単一の点群を作成し、
前記変更された単一の点群における前記奥行き情報及び前記ＲＧＢデータを前記シーンに存在する商品にクラスタ化された単一の点群を作成し、ここで、各クラスタが、前記シーンに存在する固有の商品に関連付けられており、
前記クラスタ化された単一の点群からの各クラスタを使用して、前記クラスタ化された単一の点群から対応する商品についての少なくとも前記ＲＧＢデータを処理することにより、前記画像から画像パッチを関連付け、前記画像の対応する１つが可視の所定の商品の一部を有するときに、少なくとも前記ＲＧＢデータから、関連する画像パッチの前記クラスに属する商品の商品コードを識別することにより、各商品の商品コードを識別し、そして、
顧客に関連付けられた取引に前記商品コードを提供する、
の各工程を含む方法。
前記画像を、カート又はバスケットに取り付けられたカメラにより取得する、請求項１に記載の方法。
前記カメラは、静止しており且つ取引端末と関連付けられた取引領域に隣接している、請求項２に記載の方法。
前記画像を、器具に取り付けられているか、又は静止しているカメラにより取得する、請求項１に記載の方法。
前記抽出は、前記画像に関連付けられたメタデータから、前記奥行き情報及び前記ＲＧＢデータを取得して行われる、請求項４に記載の方法。
前記アセンブルは、各点群を異なる角度で異なる視点から撮影された前記指定された領域の異なる三次元ビューとして識別して行われる、請求項５に記載の方法。
前記同期化は、前記対応する異なる角度及び前記対応する異なる視点を使用することによって識別される前記指定された領域内の位置に基づいて、各異なる三次元ビューについての前記奥行き情報及び前記ＲＧＢデータを前記単一の点群にパッチングして行われる、請求項６に記載の方法。
前記商品のいずれも存在しないときに、前記奥行きカメラの各々によって前記指定された領域から撮影されたモデル背景画像を使用し、前記モデル背景画像を前記単一の点群から減算して、前記変更された単一の点群を取得する、請求項７に記載の方法。
前記クラスタ化は、各クラスタの周りに三次元バウンディングボックスを配置して、前記指定された領域内の各商品を識別することにより行われる、請求項８に記載の方法。
前記クラスタ化は、前記変更された単一の点群内の各バウンディングボックスをカウントして、前記指定された領域内に存在する合計商品数を取得することにより行われる、請求項９に記載の方法。
前記取引について、前記商品に関連付けられた前記商品コードとともに前記合計商品数を提供する、請求項１０に記載の方法。
監視されるゾーン内の異なる位置に位置し、前記監視されるゾーン内の異なる角度で配向された奥行きカメラから、前記監視されるゾーン内の商品の画像を取得し、
前記画像に対して点群を生成し、ここで、各点群が、前記監視されるゾーンの前記商品に対する、及び背景物体に対応する画像において提供される、奥行き情報及び赤色、緑色、青色から成るＲＧＢデータを抽出し、
前記監視されるゾーンの各画像に関連付けられた前記異なる位置及び前記異なる角度を使用して、前記対応する奥行き情報及び前記ＲＧＢデータを単一の点群にパッチング及びマッピングすることよって、前記点群を単一の点群に同期化し、
前記単一の点群から、前記背景物体に対応する前記奥行き情報及び前記ＲＧＢデータを除去し、
残りの奥行き情報及びＲＧＢデータをクラスタにクラスタ化し、ここで、各クラスタが、特定の商品に関連付けられており、
各クラスタの周りにバウンディングボックスを配置し、
前記単一の点群内の前記クラスタをカウントすることによって、合計商品数を取得し、
各クラスタに対する前記対応するＲＧＢデータを訓練された機械学習モジュール（ＭＬＭ）に渡すことによって、各商品に対する商品コードを識別し、前記各クラスタに対する前記対応する及び関連ＲＧＢデータを前記画像から前記訓練されたＭＬＭに渡し、前記訓練されたＭＬＭから前記対応する商品コードに対する信頼値とともに各商品コードを受信して各商品に対する商品コードを識別し、
顧客と関連付けられる取引について、前記商品コード及び前記合計商品数を取引マネージャに提供する、
各工程を含む、方法。
前記識別は、各クラスタに対する前記対応する奥行き情報を前記訓練されたＭＬＭに渡すことにより行われる、請求項１２に記載の方法。
前記訓練されたＭＬＭから少なくとも１つの商品コードのサイズを受信して対応する奥行き情報を渡す、請求項１３に記載の方法。
前記識別は、各信頼値を閾値と比較することにより行われる、請求項１２に記載の方法。
前記閾値を下回る対応する信頼値を有する任意の商品コードについて、前記取引マネージャに通知を提供する、請求項１５に記載の方法。
前記閾値を下回る前記対応する信頼値を有する前記商品コードの各々について、前記取引マネージャに対応するクラスタに関連する画像の一部分を提供する、請求項１６に記載の方法。
前記商品コードの第２の閾値超が、前記閾値を下回る前記対応する信頼値と関連付けられるときに、前記取引マネージャに、前記取引に監査のフラグを付けるように要求する、請求項１６に記載の方法。
複数の奥行きカメラと、
少なくとも１つのプロセッサ及び非一時的コンピュータ可読記憶媒体を備えるサーバと、を備え、
前記非一時的コンピュータ可読記憶媒体が、実行可能な命令を含み、
前記非一時的コンピュータ可読記憶媒体からの前記実行可能な命令が、前記少なくとも１つのプロセッサによって実行されたときに、前記少なくとも１つのプロセッサに対して、
指定された領域の前記奥行きカメラによって捕捉された画像を取得し、ここで、前記指定された領域が、顧客の取引における商品を含み、
各画像の奥行き情報及び赤、緑、青から成るＲＧＢデータを点群にマッピングし、
各点群を、前記指定された領域の前記画像からの単一の三次元画像を表す単一の点群にパッチングし、
前記単一の三次元画像に関連付けられた背景ピクセルデータを除去し、
前記単一の三次元画像に対応する前記奥行き情報及び前記ＲＧＢデータを、前記除去された前記背景ピクセルデータとともにクラスタにクラスタ化し、ここで、各クラスタが前記商品のうちの単一の１つを表し、
前記単一の三次元画像内の前記クラスタをカウントすることによって、合計商品数を取得し、
各クラスタの周りに三次元バウンディングボックスを配置し、
前記単一の三次元画像を、前記三次元バウンディングボックスが識別された状態で、訓練された機械学習モデル（ＭＬＭ）に渡し、
前記三次元バウンディングボックスの各々に対して、信頼値とともに、前記訓練されたＭＬＭから出力として商品コードを受信し、
前記顧客のために前記取引を処理している取引マネージャに、閾値を満たすか又はそれを超える、対応する信頼値に関連付けられた前記商品コードを提供し、
前記閾値を下回る対応する信頼値を有する、少なくとも１つの商品コードに関連付けられた前記画像から少なくとも１つの画像をトリミングし、及び前記顧客が、前記指定された領域における前記商品をスキャンし又は再構成することによって、前記商品が、前記指定された領域の新しい画像を撮影するために前記奥行きカメラのための前記画像の取得に逆戻りする前記指定された領域に再構成されるときに、前記顧客が、前記対応する商品コードを識別するべきであることを示す警告を前記取引マネージャに送信する、
各動作を実行するシステム。
前記奥行きカメラは、バスケット、又は前記顧客によって運ばれるカートに取り付けられているか、又は、前記顧客が前記取引を行っている取引端末に関連付けられた取引領域に取り付けられているか、若しくは当該奥行きカメラを取り囲み、前記取引領域の一部が前記指定された領域を含む、請求項１９に記載のシステム。