JP2020087437A

JP2020087437A - カメラシステムを使用した、ユーザの身体部分によって実行されるタスクの完了の評価のための方法、プログラム、及びシステム

Info

Publication number: JP2020087437A
Application number: JP2019172835A
Authority: JP
Inventors: チダンシュアミットクマーバート; Amitkumar Bhatt Chidansh; パトリック　チィーウ; Patrick Chiu; チィーウパトリック; チョルファンキム; Kim Chul-Hwan; チョン　リュウ; Qiong Liu; リュウチョン; 英人織田; Hideto Oda; ヤンシャザング; Yanxia Zhang
Original assignee: Fuji Xerox Co Ltd
Current assignee: Fujifilm Business Innovation Corp
Priority date: 2018-11-27
Filing date: 2019-09-24
Publication date: 2020-06-04
Anticipated expiration: 2039-09-24
Also published as: CN111222737B; US20200167715A1; CN111222737A; JP7392348B2; US11093886B2

Abstract

【課題】本発明は、カメラシステムを使用して、ユーザの身体部分によって実行されるタスクの完了の評価を行うことができる方法、プログラム、及びシステムを提供することを課題とする。【解決手段】本明細書に記載の実施例は、病院における手洗いの順守、又は工場における製品の組み立てなどのスキル評価のためのシステム及び方法を対象としている。実施例は、サブタスクを検出及び認識し各サブタスクのスキルを査定するために、身体部分の追跡（例えば手）、骨格の追跡、及びディープニューラルネットワークを含む。更に、サブタスクの順序の正確さを確認する。個々のユーザを監視することを超えて、実施例は、複数のサブタスクを有するワークフロー設計を分析し改善するために使用することができる。【選択図】図６

Description

本開示は、一般にカメラシステムに関し、より具体的にはカメラシステムの使用によるタスクの完了の評価に関する。

タスクが実行されたかどうかを確認し、それがどの程度うまく実行されたかを評価するために、ビデオカメラを用いたスキル評価を使用することができる。スキル評価システムは、品質管理、コンプライアンス、トレーニング、効率の向上、及び労働者の幸福のために有用に利用されることができる。

関連技術では、タスク及びサブタスクの意味的類似性を詳細にランク付けし計算することによってスキルを決定するためのアルゴリズムが提案されている。これらの関連技術による方法は、ビデオが単一のタスクの個々のビデオであること、又は手動で事前にセグメント化されたサブタスクのビデオクリップであることをしばしば必要とする。

サブタスクを有する複雑なタスクのビデオストリームを用いた、より現実的な状況では、そのような複雑なタスクに対するスキル評価はまだ対処されていない。更に、関連技術における別の問題は、タスクワークフロー設計を分析することを含む。例えば、工場内で複数のサブタスクを含むタスクワークフローが定期的に変更される場合、ワークフローを調整及び改善できるように監視する必要がある。関連技術では、変更はビデオカメラで行われ、手動で注釈が付けられる。そのような実施例には、より自動化されたシステムが必要である。

BAI, S., et al., An Empirical Evaluation of Generic Convolutional and Recurrent Networks for Sequence Modeling, ArXiv:1803.01271, ２０１８年４月１９日 CHIU, P., et al., Recognizing Gestures on Projected Button Widgets with an RGB-D Camera Using a CNN, ISS '18, ２０１８年１１月２５〜２８日，日本国東京 DOUGHTY, H., et al., Who's Better, Who's Best: Skill Determination in Video Using Deep Ranking, arXiv:1703.09913, ２０１８年 Farneback, G., Two-Frame Motion Estimation Based on Polynomial Expansion, Image Analysis, SCIA 2003, Lecture Notes in Computer Science, 2749, pp. 363-370 KIM, S. T., et al., EvaluationNet Can Human Skill be Evaluated by Deep Networks?, arXiv:1705.11077, ２０１７年 LECUN, Y., et al., Deep Learning, Nature, 521, ２０１５年, pp. 436-444 MUELLER, F., et al., GANerated Hands for Real-Time 3D Hand Tracking from Monocular RGB, arXiv: 1712.01057, ２０１７年 SIMONYAN, K., et al., TWO-Stream Convolutional Networks for Action Recognition in Videos, arXiv:1406.2199, ２０１４年 WANG, H., et al., Action Recognition with Improved Trajectories, 2013 IEEE International Conference on Computer Vision, ２０１３年１２月１〜８日，オーストラリア国シドニー, pp. 3551-3558 YANG, Z., et al., Action Recognition with Spatio-Temporal Visual Attention on Skeleton Image Sequences, arXiv:1801.10304, ２０１８年４月１１日 YUAN, S., et al., Depth-Based 3D Hand Pose Estimation: From Current Achievements to Future Goals, arXiv:1712.03917, 2018, pp. 2636-2645 ZIMMERMANN, C., et al., Learning to Estimate 3D Hand Pose from Single RGB Images, arXiv:1705.01389, ２０１７年, pp. 1903-4911

本発明は、カメラシステムを使用して、ユーザの身体部分によって実行されるタスクの完了の評価を行うことができる方法、プログラム、及びシステムを提供することを課題とする。

本開示の態様は、完了すべきタスクに関連付けられたユーザの身体部分をカメラシステムから検出し、複数のサブタスクの各々をシーケンシャルフレームに関連付けるように構成された機械学習モデルの適用に基づいて、カメラシステムから受信したシーケンシャルフレームを、完了すべきタスクの複数のサブタスクにグループ化し、複数のサブタスクの完了の検出及びサブタスクの順序の正確さに基づいて、タスクの完了の評価を提供すること、を含む方法に関する。

前記完了すべきタスクに関連付けられた前記ユーザの身体部分を前記カメラシステムから検出することは、前記カメラシステムの各フレームについて前記身体部分の周囲のフレーム領域を抽出することを含んでいてもよい。

前記複数のサブタスクの各々をシーケンシャルフレームに関連付けるように構成された機械学習モデルの適用に基づいて、前記カメラシステムから受信したシーケンシャルフレームを、前記完了すべきタスクの複数のサブタスクにグループ化することは、前記シーケンシャルフレームの各々をラベリングすることによって、前記複数のサブタスクの各々を前記シーケンシャルフレームに関連付けるために、前記機械学習モデルを適用し、前記シーケンシャルフレームのラベルのグループ化に基づいて前記複数のサブタスクの各々をセグメント化し、前記セグメント化された複数のサブタスクのうちのシーケンシャルのサブタスクを前記完了すべきタスクとしてグループ化することを含んでいてもよい。

前記複数のサブタスクの完了の検出及び前記サブタスクの順序の正確さに基づいて前記タスクの完了の評価を提供することは、前記複数のサブタスクのうちのシーケンシャルのサブタスクのグループ化から前記順序の正確さを識別し、前記ラベリングされたシーケンシャルフレームのうちの対応するフレームにコンピュータビジョンアルゴリズムを適用することによって前記複数のサブタスクの各々の完了を識別し、前記順序の正確さの識別、前記複数のサブタスクの各々の完了、及び前記複数のサブタスクの各々のスキルスコアに基づいて、前記完了すべきタスクの別のスキルスコアを計算することを含んでいてもよい。

前記ユーザの身体部分は前記ユーザの手を含み、前記完了すべきタスクは手洗いであり、前記複数のサブタスクは前記手洗いを行うためのステップを含んでいてもよい。

前記完了すべきタスクに関連付けられた前記ユーザの身体部分を前記カメラシステムから検出することは、前記タスクに対する１又は複数の関連付けられた物体を検出し、前記カメラシステムの各フレームについて、前記身体部分及び前記１又は複数の関連付けられた物体の周囲のフレーム領域を抽出することを更に含んでいてもよい。

本開示の態様は、完了すべきタスクに関連付けられたユーザの身体部分をカメラシステムから検出し、複数のサブタスクの各々をシーケンシャルフレームに関連付けるように構成された機械学習モデルの適用に基づいて、カメラシステムから受信したシーケンシャルフレームを、完了すべきタスクの複数のサブタスクにグループ化し、複数のサブタスクの完了の検出及びサブタスクの順序の正確さに基づいてタスクの完了の評価を提供すること、を含む命令を有するコンピュータプログラムを更に含む。

本開示の態様は、完了すべきタスクに関連付けられたユーザの身体部分をカメラシステムから検出し、複数のサブタスクの各々をシーケンシャルフレームに関連付けるように構成された機械学習モデルの適用に基づいて、前記カメラシステムから受信した前記シーケンシャルフレームを、前記完了すべきタスクの前記複数のサブタスクにグループ化し、前記複数のサブタスクの完了の検出及び前記サブタスクの順序の正確さに基づいて前記タスクの完了の評価を提供することを含む方法をコンピュータに実行させるプログラムを更に含む。

前記複数のサブタスクの各々を前記シーケンシャルフレームに関連付けるように構成された前記機械学習モデルの適用に基づいて、前記カメラシステムから受信した前記シーケンシャルフレームを前記完了すべきタスクの前記複数のサブタスクにグループ化することは、前記シーケンシャルフレームの各々をラベリングすることによって、前記複数のサブタスクの各々を前記シーケンシャルフレームに関連付けるために、前記機械学習モデルを適用し、前記シーケンシャルフレームのラベルのグループ化に基づいて前記複数のサブタスクの各々をセグメント化し、前記セグメント化された複数のサブタスクのうちのシーケンシャルのサブタスクを前記完了すべきタスクとしてグループ化することを含んでいてもよい。

前記複数のサブタスクの完了の検出及び前記サブタスクの順序の正確さに基づいて前記タスクの完了の評価を提供することは、前記複数のサブタスクのうちのシーケンシャルのサブタスクのグループ化から前記順序の正確さを識別し、前記ラベリングされたシーケンシャルフレームのうちの対応するフレームにコンピュータビジョンアルゴリズムを適用することによって、前記複数のサブタスクの各々の完了を識別し、前記順序の正確さの識別、前記複数のサブタスクの各々の完了、及び前記複数のサブタスクの各々のスキルスコアに基づいて、前記完了すべきタスクの別のスキルスコアを計算することを含んでいてもよい。

本開示の態様は、完了すべきタスクに関連付けられたユーザの身体部分をカメラシステムから検出する手段と、複数のサブタスクの各々をシーケンシャルフレームに関連付けるように構成された機械学習モデルの適用に基づいて、カメラシステムから受信したシーケンシャルフレームを、完了すべきタスクの複数のサブタスクにグループ化する手段と、複数のサブタスクの完了の検出及びサブタスクの順序の正確さに基づいて、タスクの完了の評価を提供する手段と、を含むシステムに関する。

本開示の態様は、カメラシステムと、プロセッサであって、完了すべきタスクに関連付けられたユーザの身体部分をカメラシステムから検出し、複数のサブタスクの各々をシーケンシャルフレームに関連付けるように構成された機械学習モデルの適用に基づいて、カメラシステムから受信したシーケンシャルフレームを、完了すべきタスクの複数のサブタスクにグループ化し、複数のサブタスクの完了の検出及びサブタスクの順序の正確さに基づいて、タスクの完了の評価を提供するように構成されたプロセッサと、を含むシステムに関する。

前記プロセッサは、前記カメラシステムの各フレームについて前記身体部分の周囲のフレーム領域を抽出することによって、前記完了すべきタスクに関連付けられた前記ユーザの前記身体部分を前記カメラシステムから検出するように構成されていてもよい。

前記プロセッサは、前記シーケンシャルフレームの各々をラベリングすることによって、前記複数のサブタスクの各々を前記シーケンシャルフレームに関連付けるために、前記機械学習モデルを適用し、前記シーケンシャルフレームのラベルのグループ化に基づいて前記複数のサブタスクの各々をセグメント化し、前記セグメント化された複数のサブタスクのうちのシーケンシャルのサブタスクを前記完了すべきタスクとしてグループ化することによって、複数のサブタスクの各々をシーケンシャルフレームに関連付けるように構成された機械学習モデルの適用に基づいて、カメラシステムから受信したシーケンシャルフレームを完了すべきタスクの複数のサブタスクにグループ化するように構成されていてもよい。

前記プロセッサは、前記複数のサブタスクのうちのシーケンシャルのサブタスクのグループ化から順序の正確さを識別し、前記ラベリングされたシーケンシャルフレームのうちの対応するフレームにコンピュータビジョンアルゴリズムを適用することによって、前記複数のサブタスクの各々の完了を識別し、前記順序の正確さの識別、前記複数のサブタスクの各々の完了、及び前記複数のサブタスクの各々のスキルスコアに基づいて、前記完了すべきタスクの別のスキルスコアを計算することによって、前記複数のサブタスクの完了の検出及び前記サブタスクの順序の正確さに基づいて前記タスクの完了の評価を提供するように構成されていてもよい。

前記プロセッサは、前記タスクに対する１又は複数の関連付けられた物体を検出し、前記カメラシステムの各フレームについて、前記身体部分及び前記１又は複数の関連付けられた物体の周囲のフレーム領域を抽出することによって、前記完了すべきタスクに関連付けられた前記ユーザの前記身体部分を前記カメラシステムから検出するように構成されていてもよい。

手洗い手順の一例を示した図である。手洗い手順の一例を示した図である。実施例によるカメラシステムによって撮影された手洗いの例示的画像を示した図である。実施例によるカメラシステムによって撮影された手洗いの例示的画像を示した図である。製品の例示的組み立て説明書を示した図である。製品の例示的組み立て説明書を示した図である。実施例によるカメラシステムによって撮影された組み立てタスクの例示的画像を示した図である。実施例によるカメラシステムによって撮影された組み立てタスクの例示的画像を示した図である。実施例によるシステムの例示的フロー図を示した図である。実施例によるシステムの例示的フロー図を示した図である。実施例によるフレームラベリングのための例示的フロー図を示した図である。実施例による時間畳み込みネットワークを含む例示的フロー図を示した図である。実施例によるカメラ設定を含むシステムの例示的ハードウェア図を示した図である。

以下の詳細な説明は、本出願の図及び実施例の更なる詳細を提供する。図の間で重複する要素の参照番号及び説明は、明確性のために省略されている。説明全体を通して使用されている用語は、例として提供されており、限定を意図するものではない。例えば、「自動的」という用語の使用は、完全自動又は半自動の実施を含み得、本出願の実施を行う当業者の所望の実施に応じて、ユーザ又はオペレータが実施の特定の態様を制御することを含む。選択は、ユーザインターフェース又は他の入力手段を介してユーザによって行われ得るか、又は所望のアルゴリズムを介して実施され得る。本明細書に記載の実施例は、単独又は組み合わせのいずれかで利用することができ、実施例の機能は、所望の実施形態に従って任意の手段を介して実施することができる。

本明細書に記載の実施例は、ディープラーニング法を通じて上記の問題に対処することを目的としている。１つの方法はボトムアップアプローチであり、（畳み込みニューラルネットワーク（ＣＮＮ）及びオプティカルフローを使用して）サブタスクラベルでビデオフレームをラベリングし、次いでシーケンシャルフレームをサブタスクイベントにグループ化し、サブタスクイベントに対してスキル評価スコアを電算し（例えば、詳細なランク付け（deep ranking）を使用して）、サブタスク完了及びサブタスク順序が確認されるタスクイベントに、サブタスクイベントをグループ化する。別の方法は、骨格追跡に基づく三次元の手の動きの時間畳み込みネットワーク（ＴＣＮ）を使用する、より特殊化されたアーキテクチャである。これらの方法を以下の開示で詳細に説明する。

課題に更に焦点を当てるために、本明細書では手を使って、又は手と工具を使って実行されるタスクを検討する。領域の例には、病院における手指衛生コンプライアンス（図１Ａ、図１Ｂ、図２Ａ及び図２Ｂ）、並びに工場又は家庭における物体の組み立て（図３Ａ、図３Ｂ、図４Ａ、図４Ｂ）が含まれる。

図１Ａ及び図１Ｂは、手洗い手順の一例を示す。具体的には、図１Ａは、世界保健機関の手指衛生パンフレットによる手指衛生のための１１ステップの手順のうちのサンプルステップ４を示し、図１Ｂはステップ５を示す。手洗い手順が１１ステップの手順であるので、ステップ４は手洗い手順のサブタスク４として指定することができ、ステップ５はサブタスク５として指定することができる。同様に、図３Ａ及び図３Ｂは、複数のステップを含む、製品のための例示的組み立て説明書を示す。

実施例は、手などの身体部分によって実行されるタスクのスキル評価のための方法を対象としている。これらのタスクは、病院での手洗いコンプライアンス、工場での製品の組み立て、工具の使用を含み得る。既存の方法は、手動でセグメント化されたデータセット内のビデオクリップにより機能し、多段階サブタスクを伴う複雑なプロセスとは対照的に、より単純なタスクにより機能することが多い。このような問題に対処するために、実施例は、手の追跡及び骨格の追跡並びにディープニューラルネットワークを適用して、サブタスクを検出及び認識し、各サブタスクのスキルを評価する。更に、サブタスクの順序の正確さを確認する。本発明の方法は、個々のユーザを監視することだけでなく、複数のサブタスクを有するワークフロー設計を分析し改善するために使用することができる。

カメラシステムによって撮影された手洗い用の画像の例を、図１Ａ及び図１Ｂのサブタスクについて図２Ａ及び図２Ｂにそれぞれ示し、カメラシステムによって撮影された組み立てタスクの画像の例を、図３Ａ及び図３Ｂのサブタスクについて図４Ａ及び図４Ｂにそれぞれ示す。

図５Ａ及び図５Ｂは、実施例によるシステムの例示的フロー図を示す。具体的には、図５Ａは、実施例によるサブタスク事例（インスタンス）をリアルタイムで分析するための例示的フロー図を示す。個々のユーザによって実行されたタスク事例は、サブタスクに関してリアルタイムで分析される。図５Ａの例では、図２Ａ、図２Ｂ、図４Ａ及び図４Ｂに示す画像など、カメラ５０１からの画像が入力される。５０２で、コンピュータビジョン技術を用いて物体との身体部分（例えば手）の相互作用又はその中で実行される動作を分析する。５０３で、特定のタスクイベント事例について各サブタスクのスキルスコア、サブタスクの順序の正確さ、及びサブタスクの完了を判定する。

図５Ｂは、実施例によるサブタスクのワークフローを分析するための例示的フロー図を示す。タスクのワークフローは、時間の経過と共にタスク事例に関するデータを収集することによって分析される。５１０で、図５Ａのフロー５０３から決定されたタスクイベント事例に関するデータを収集する。５１１で、タスクワークフローの統計を計算する。５１２で、タスクイベントワークフローの所望の統計（例えば、平均、分散）について、サブタスクスキルスコア、完了時間、及び順序の正確さを計算する。

図６は、実施例によるフレームラベリングのための例示的フロー図を示す。提案されているフレームラベリング方法は、ラベリングされたフレームをサブタスクイベントにグループ化し、それをタスクイベントに集約するボトムアップアプローチである。処理パイプラインを図６のフローチャートに示す。

実施例では、カメラは、低価格のウェブカメラ、ビデオカメラ、又は赤緑青深度（ＲＧＢ−Ｄ）カメラであってよい。ＲＧＢ−Ｄカメラでは、追加の深度チャネルがグレースケール深度フレーム画像のストリームを提供し、それらはカラーチャネルフレーム画像と同様に処理される。

実施例では、パイプラインの最初の部分は、６０１で現在のビデオフレームを取得し、６０２で手の検出アルゴリズムを使用して、６０３で動作する手の周囲の領域を抽出することである。所望の実施態様に応じて、例えば手洗いの場合には洗面台の上に取り付けられたカメラ、組み立てタスクの場合には作業台の上に取り付けられたカメラなど、カメラがシーンの関連部分のみを撮影するように設定されている場合、これらのプロセスはスキップされてもよい。前者の場合、検出のみが必要であり、これは手のポーズ又は骨格の推定よりもロバストである。後者の場合、手の検出又は姿勢の推定は必要とされず、これは遮蔽又は手と物体の相互作用があるときのロバスト性を向上させる。

処理の次のステップは、６０４でフレーム領域にわたる高密度オプティカルフローを計算することである。オプティカルフローを使用するための１つの動機付けは、それが異なる背景シーンに対してロバストであることであり、異なる設定をサポートするのに役立つ。もう１つの動機付けは、少量の遮蔽とノイズに対してロバストであるということであり、手の上の石鹸水などのノイズが多い画像に対処するのに役立ち得る。オプティカルフローアプローチは、ビデオの動作認識にうまく機能することが証明されている。オプティカルフローを計算するために、ＯｐｅｎＣＶコンピュータビジョンライブラリのＦａｒｎｅｂａｃｋアルゴリズムなどの実装を利用することができる。オプティカルフロー処理は、ｘ構成要素画像及びｙ構成要素画像を生成する。

６０５で、実施例は、フレームにサブタスクラベルを割り当てるために畳み込みニューラルネットワーク（ＣＮＮ）を使用してオプティカルフロー画像を分類する。ＣＮＮアーキテクチャでは、リアルタイム対話型アプリケーションとの統合に適した任意の所望のディープラーニングツールキットを介して、畳み込み層及びマックスプーリング層の２つの交互の層を有する標準アーキテクチャが利用され、その後に全結合（dense）層及びソフトマックス層が続く。

活動を有する連続する一連のフレーム領域がバッファに蓄積され、そのようなフレームは６０６でサブタスクイベントにグループ化される。各イベントバッファは、フレーム領域の分類サブタスクラベルの投票をすることによって分類され、サブタスクラベルが与えられる。フレームの各オプティカルフロー構成要素は別々に投票される。あるいは、本明細書に記載の実施例は、オプティカルフロー構成要素に対して融合を実行して、フレームごとに単一のラベルを取得することができる。一実施例は、各フロー構成要素の出力に完全に接続されたネットワークを追加することを含む。

ビデオセグメントである各サブタスクイベントについて、６０７でスキル評価アルゴリズムを適用してスキルスコアを得ることができる。スキル評価アルゴリズムは、所望の実施形態により任意の方法で実施することができる。

６０８で、タスクイベントが活動又は動きのない期間によって分離されているという観察に基づいてタスク時間境界を決定することによって、サブタスクをタスクイベントに分類する。

最後に６０９で、サブタスクのスキルスコアに基づいて各タスクイベントにスキルスコアを割り当てる。所望の実施形態に応じて、サブタスクが完了していない場合、及び、サブタスクが順序どおりに実行されていない場合であってサブタスクの順序が重要である場合、アラートを生成することができる。

実施例では、３次元の手の動きの時間畳み込みネットワーク（ＴＣＮ）を利用することができる。本明細書に記載の実施例は、ビデオストリームを含み、特徴表現として３次元骨格関節をリアルタイムで抽出する。リアルタイムの３次元の手の追跡における最近の進歩により、骨格関節を確実に検出することができ、オプティカルフローと比較して少ない計算量で済むことが証明されている。

図７は、実施例による時間畳み込みネットワークを含む例示的フロー図を示す。

実施例は、７０１でビデオから取得された各フレームについて、７０２で３次元手の骨格を検出するために各々の手から手の関節（例えば手の関節２１個）の２次元及び３次元位置の両方を抽出する。７０３で、フローは、空間的階層関係を維持するためにツリー構造を使用して骨格位置をベクトルに平坦化する。ツリー構造アセットは、７０４でＬ個のビデオフレームから抽出される一連の骨格ベクトルを維持するのに使用される。

７０５で、実施例は、フレームごとにサブタスクを予測するために、シーケンス予測手法を含むことができる。畳み込みニューラルネットワークは、言語及び活動認識における多くのシーケンス問題に対して、回帰型ニューラルネットワークよりも優れている可能性がある。実施例では、時間的畳み込みネットワーク（ＴＣＮ）アーキテクチャがサブタスクを予測するために採用され、これは回帰型ネットワークと比較してより高速であると共に、より良好な精度を達成することを実証する。

Ｌ個のビデオフレームから入力骨格シーケンスが受信され、２つのラベルがフレーム１からＬまで＜ｓｕｂｔａｓｋ，ｉｓＣｈａｎｇｅ＞と予測されるべきであると仮定する。これは、等しい長さの入力長及び出力長を保証するＴＣＮアーキテクチャを介して達成できる。考えられる一実施形態は、オープンソースのＴＣＮライブラリからネットワーク構造を適合させることである。例えば、ネットワークは、１、２、４、８の拡張係数を有する拡張カジュアル畳み込み（Dilated casual convolution）を使用することができ、これは、入力層と同じサイズの各隠れ層を有する１次元の完全畳み込みネットワークで始まり、次いで後続層を同じ長さに保つためにゼロ詰めの拡張畳み込みを実行する。

最後の工程は、７０６で、サブタスクのフレームベースの予測をタスクにクラスタ化することであり、これは任意の所望の実施形態により実行されてもよい。

図７の実施例を通して、カメラフィードに基づいてサブタスクを検出するように機械学習アルゴリズムを生成し訓練することができる。機械学習アルゴリズムは、図７の時間的畳み込みネットワーク、並びに学習すべき手の骨格又は身体部分を使用して、ディープラーニングアルゴリズムで時間的特徴を直接使用することで生成される。このような実施例は、サブタスクに関する情報が分離されてディープラーニングアルゴリズムに利用されるため、関連技術に対する改良である。

図８は、実施例によるカメラ構成を含むシステムの例示的ハードウェア図を示す。システム８００は、タスク撮影用カメラシステム８０１、プロセッサ８０２、メモリ８０３、ディスプレイ８０４、及びインターフェース（Ｉ／Ｆ）８０５を含むことができる。システム８００は、タスクを監視するように構成されており、所望の実施形態によりワークステーション、特定の装置（例えば、流し台、工場ラインの場所など）などに関連付けることができる。

カメラシステム８０１は、所望の実施形態により、ビデオ画像及び深度画像を撮影するように構成されている任意の形態とすることができる。実施例では、プロセッサ８０２は、実行中のタスクの画像を撮影するためにカメラシステムを利用することができる。ディスプレイ８０４は、所望の実施形態により、ビデオ会議用又はコンピュータデバイスの結果を表示するためのタッチスクリーン又は他の任意のディスプレイの形態とすることができる。ディスプレイ８０４はまた、タスクを実行しているユーザにフィードバック（例えば、推奨される修正された動作、サブタスクの完了が検出されたかどうかに関する標示）を提供する中央コントローラを有する１組のディスプレイを含むことができる。Ｉ／Ｆ８０５は、所望の実施形態に応じて、キーボード、マウス、タッチパッド、又はディスプレイ８０４用の他の入力デバイスなどのインターフェースデバイスを含むことができる。

実施例では、プロセッサ８０２は、物理的ハードウェアプロセッサ又はハードウェアプロセッサとソフトウェアプロセッサとの組み合わせを含む中央処理装置（ＣＰＵ）の形態であり得る。プロセッサ８０２は、システムへの入力を取り込むように構成され、これはサブタスク用のカメラシステム８０１からのカメラ画像を含むことができる。プロセッサ８０２は、本明細書で説明するように、ディープラーニング認識アルゴリズムを利用することによってサブタスクの完了を処理することができる。所望の実施形態に応じて、プロセッサ８０２は、例えばディープラーニングアルゴリズムに従って認識のために画像を処理するように構成された専用グラフィックス処理ユニット（ＧＰＵ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、或いは所望の実施形態に従う、ディープラーニング認識の実施を容易にするための専用ハードウェアによって置き換えることができる。更に、システムは、所望の実施形態を容易にするために、コンピュータプロセッサと、ＧＰＵ及びＦＰＧＡなどの特殊目的ハードウェアプロセッサとの組み合わせを利用することもできる。

本明細書で説明するように、プロセッサ８０２は、図６及び図７のフローを実行するように構成することができる。プロセッサ８０２は、完了すべきタスクに関連付けられたユーザの身体部分をカメラシステム８０１から検出し、複数のサブタスクの各々をシーケンシャルフレームに関連付けるように構成された機械学習モデルの適用に基づいて、カメラシステムから受信したシーケンシャルフレームを、完了すべきタスクの複数のサブタスクにグループ化し、図６のフローに示すように、複数のサブタスクの完了の検出及びサブタスクの順序の正確さに基づいて、タスクの完了の評価を提供するように構成することができる。実施例における身体部分は手に関して説明されているが、他の身体部分（例えば、足、腕など）もタスクを完了するために利用されてもよく、本開示はこれらに限定されない。更に、本明細書に記載の実施例によって複数の身体部分（例えば、足と組み合わせた手）を検出することもできる。

プロセッサ８０２は、図６のフローに示すようにカメラシステムの各フレームについて身体部分の周囲のフレーム領域を抽出することによって、完了すべきタスクに関連付けられたユーザの身体部分をカメラシステムから検出するように構成することができる。

プロセッサ８０２は、各シーケンシャルフレームをラベリングすることによって複数のサブタスクの各々をシーケンシャルフレームに関連付けるために機械学習モデルを適用し、シーケンシャルフレームのラベルのグループ化に基づいて複数のサブタスクの各々をセグメント化し、図６及び図７のフローに示すように、セグメント化された複数のサブタスクのうちのシーケンシャルのサブタスクを完了すべきタスクとしてグループ化することによって、複数のサブタスクの各々をシーケンシャルフレームに関連付けるように構成された機械学習モデルの適用に基づいて、カメラシステムから受信したシーケンシャルフレームを完了すべきタスクの複数のサブタスクにグループ化するように構成することができる。

プロセッサ８０２は、複数のサブタスクのうちのシーケンシャルのサブタスクのグループ化から順序の正確さを識別し、ラベリングされたシーケンシャルフレームのうちの対応するフレームにコンピュータビジョンアルゴリズムを適用することによって複数のサブタスクの各々の完了を識別し、図６に示すように順序の正確さの識別、複数のサブタスクの各々の完了、及び複数のサブタスクの各々のスキルスコアに基づいて、完了すべきタスクの別のスキルスコアを計算することによって、複数のサブタスクの完了の検出及びサブタスクの順序の正確さに基づいてタスクの完了の評価を提供するように構成することができる。

実施例では、ユーザの身体部分はユーザの手を含むことができ、完了すべきタスクは手洗いであり、複数のサブタスクは図１Ａ、図１Ｂ、図２Ａ、図２Ｂに示すように手洗いを行うための工程である。

更に、タスクに関連付けられた物体（例えば、流し台、ねじ回しなど）を、所望の実施形態により検出することができる。プロセッサ８０２は、タスクに対する１又は複数の関連付けられた物体を検出し、図３Ａ、図３Ｂ、図４Ａ、及び図４Ｂの例に示すようにカメラシステムの各フレームについて身体部分及び１又は複数の関連付けられた物体の周囲のフレーム領域を抽出することによって、完了すべきタスクに関連付けられたユーザの身体部分をカメラシステムから検出するように構成される。

本明細書に記載の実施例を通じて、システムによって監視されているユーザが正しい方法でタスクを実行しているかどうかを判定する問題に対処するための技術的解決策を提供することができる。手洗い又は製造組み立てなどの状況では、そのような検出システムは規則の順守を確実にするため、又は最も効率的な方法が適切に実行されていることを確実にするために必要とされる。

更に、本明細書に記載の採点システムを介して、サブタスクの時間及びスコアを監視して、ユーザに与えられた手順におけるボトルネックを決定することができる。そのような実施形態は、タスクを修正し、更なるトレーニングが必要かどうか、又は所与のプロセスの効率を改善するために特定のサブタスクを削除又は修正すべきかどうかを決定できる方法を即座に明らかにすることができる。

本明細書で説明するように、実施例は、手洗いの工程、又は、ユーザが一組のサブタスクに従って物体を組み立てるか又はタスクを実行する工場設定を含むことができる。本明細書に記載の実施例を介して、ユーザがタスクを実行しているときにユーザを監視するリアルタイムシステムを実施することができる。そのような実施形態は、特定のサブタスクが分離され検出されてそのタスクの特定のルーチンに対するコンプライアンスを確実にするので、関連技術の実施形態に対する改善をもたらす。

更に、本明細書に記載の実施例では、スキル評価スコアをユーザに提供して、ユーザがリアルタイムで特定のサブタスクをどの程度うまく実行したかを示すことができる。このような実施例は、タスクのワークフローがどのように調整されるべきか、並びに人々がどの程度うまくタスクを実行しているか、及びどのサブタスクがボトルネックを作り出しているか、又はどのサブタスクがうまく実行されていないかを決定するためのフィードバックを提供できるため、様々な期間にわたり（例えば数か月ごと）再構成される組み立てラインに対処することができる。このようなフィードバックを用いて、実行されるべき作業を調整することができ、組み立てラインをより効率的にすることができる。

詳細な説明のいくつかの部分は、コンピュータ内の動作のアルゴリズム及び記号表現に関して提示されている。これらのアルゴリズム記述及び記号表現は、データ処理技術の熟練者が技術革新の本質を他の当業者に伝えるために使用する手段である。アルゴリズムとは、所望の終了状態又は結果に至る一連の定義された工程である。実施例では、実行される工程は、具体的な結果を達成するための有形の量の物理的操作を必要とする。

特に明記しない限り、説明から明らかなように、「処理」、「計算」、「決定」、「表示」などの用語を利用する説明は、コンピュータシステムのレジスタ及びメモリ内の物理（電子）量として表されるデータを、コンピュータシステムのメモリ又はレジスタ、又は他の情報ストレージデバイス、伝送デバイス又は表示デバイス内で同様に物理量として表される他のデータに操作及び変換するコンピュータシステム又は他の情報処理デバイスの動作及びプロセスを含み得ると理解される。

実施例は、本明細書の動作を実行するための装置に関連してもよい。この装置は、必要な目的のために特別に構成されてもよく、あるいは１又は複数のコンピュータプログラムによって選択的に起動又は再構成される１又は複数の汎用コンピュータを含んでもよい。そのようなコンピュータプログラムは、コンピュータ可読記憶媒体又はコンピュータ可読信号媒体などのコンピュータ可読媒体に格納されてもよい。コンピュータ可読記憶媒体は、限定されるものではないが、電子情報を格納するのに適した光ディスク、磁気ディスク、読み出し専用メモリ、ランダムアクセスメモリ、固体デバイス及びドライブ、又は任意の他のタイプの有形又は持続性媒体などの有形の媒体を含み得る。コンピュータ可読信号媒体は、搬送波などの媒体を含み得る。本明細書で提示されるアルゴリズム及びディスプレイは、任意の特定のコンピュータ又は他の装置に本質的に関連するものではない。コンピュータプログラムは、所望の実施形態の動作を実行する命令を含む純粋なソフトウェアでの実施を含むことができる。

様々な汎用システムが、本明細書の例によるプログラム及びモジュールと共に使用されてもよく、又は所望の方法ステップを実行するためのより特化した装置を構築することが好都合であることが判明するかもしれない。更に、実施例は、任意の特定のプログラミング言語を参照して説明されていない。本明細書に記載されている実施例の教示を実施するために、様々なプログラミング言語が使用され得ることが理解されよう。プログラミング言語の命令は、１又は複数の処理デバイス、例えば、中央処理装置（ＣＰＵ）、プロセッサ、又はコントローラによって実行されてもよい。

当技術分野で知られているように、上述の動作は、ハードウェア、ソフトウェア、又はソフトウェアとハードウェアの何らかの組み合わせによって実行することができる。実施例の様々な態様は、回路及び論理デバイス（ハードウェア）を使用して実施されてもよく、他の態様では、プロセッサによって実行された場合に本出願の実施形態を行う方法をプロセッサに実行させる、機械可読媒体に格納された命令（ソフトウェア）を使用して実施されてもよい。更に、本出願のいくつかの実施例はハードウェアでのみ実行されてもよく、他の実施例はソフトウェアでのみ実行されてもよい。更に、説明した様々な機能は、単一のユニットで実行されてもよいし、任意の方法で複数の構成要素にわたって分散されてもよい。ソフトウェアによって実行される場合、方法は、コンピュータ可読媒体に格納された命令に基づいて、汎用コンピュータなどのプロセッサによって実行され得る。必要に応じて、命令は、圧縮及び／又は暗号化されたフォーマットで媒体に格納することができる。

更に、本出願の他の実施形態は、本明細書の考察及び本出願の教示の実施から当業者には明らかであろう。説明した実施例の様々な態様及び／又は構成要素は、単独で、又は任意の組み合わせで使用され得る。本明細書及び実施形態は、単なる例として考えられるものであり、本出願の真の範囲及び精神は、添付の特許請求の範囲によって示される。

Claims

完了すべきタスクに関連付けられたユーザの身体部分をカメラシステムから検出し、
複数のサブタスクの各々をシーケンシャルフレームに関連付けるように構成された機械学習モデルの適用に基づいて、前記カメラシステムから受信したシーケンシャルフレームを、前記完了すべきタスクの複数のサブタスクにグループ化し、
前記複数のサブタスクの完了の検出及び前記サブタスクの順序の正確さに基づいて前記タスクの完了の評価を提供すること
を含む方法。
前記完了すべきタスクに関連付けられた前記ユーザの身体部分を前記カメラシステムから検出することは、前記カメラシステムの各フレームについて前記身体部分の周囲のフレーム領域を抽出することを含む、請求項１に記載の方法。
前記複数のサブタスクの各々をシーケンシャルフレームに関連付けるように構成された機械学習モデルの適用に基づいて、前記カメラシステムから受信したシーケンシャルフレームを、前記完了すべきタスクの複数のサブタスクにグループ化することは、
前記シーケンシャルフレームの各々をラベリングすることによって、前記複数のサブタスクの各々を前記シーケンシャルフレームに関連付けるために、前記機械学習モデルを適用し、
前記シーケンシャルフレームのラベルのグループ化に基づいて前記複数のサブタスクの各々をセグメント化し、
前記セグメント化された複数のサブタスクのうちのシーケンシャルのサブタスクを前記完了すべきタスクとしてグループ化すること
を含む請求項１に記載の方法。
前記複数のサブタスクの完了の検出及び前記サブタスクの順序の正確さに基づいて前記タスクの完了の評価を提供することは、
前記複数のサブタスクのうちのシーケンシャルのサブタスクのグループ化から前記順序の正確さを識別し、
前記ラベリングされたシーケンシャルフレームのうちの対応するフレームにコンピュータビジョンアルゴリズムを適用することによって前記複数のサブタスクの各々の完了を識別し、
前記順序の正確さの識別、前記複数のサブタスクの各々の完了、及び前記複数のサブタスクの各々のスキルスコアに基づいて、前記完了すべきタスクの別のスキルスコアを計算すること
を含む請求項３に記載の方法。
前記ユーザの身体部分は前記ユーザの手を含み、前記完了すべきタスクは手洗いであり、前記複数のサブタスクは前記手洗いを行うためのステップを含む、請求項１に記載の方法。
前記完了すべきタスクに関連付けられた前記ユーザの身体部分を前記カメラシステムから検出することは、
前記タスクに対する１又は複数の関連付けられた物体を検出し、
前記カメラシステムの各フレームについて、前記身体部分及び前記１又は複数の関連付けられた物体の周囲のフレーム領域を抽出すること
を更に含む、請求項１に記載の方法。
完了すべきタスクに関連付けられたユーザの身体部分をカメラシステムから検出し、
複数のサブタスクの各々をシーケンシャルフレームに関連付けるように構成された機械学習モデルの適用に基づいて、前記カメラシステムから受信した前記シーケンシャルフレームを、前記完了すべきタスクの前記複数のサブタスクにグループ化し、
前記複数のサブタスクの完了の検出及び前記サブタスクの順序の正確さに基づいて前記タスクの完了の評価を提供すること
を含む方法をコンピュータに実行させる、プログラム。
前記完了すべきタスクに関連付けられた前記ユーザの身体部分を前記カメラシステムから検出することは、前記カメラシステムの各フレームについて前記身体部分の周囲のフレーム領域を抽出することを含む、請求項７に記載のプログラム。
前記複数のサブタスクの各々を前記シーケンシャルフレームに関連付けるように構成された前記機械学習モデルの適用に基づいて、前記カメラシステムから受信した前記シーケンシャルフレームを前記完了すべきタスクの前記複数のサブタスクにグループ化することは、
前記シーケンシャルフレームの各々をラベリングすることによって、前記複数のサブタスクの各々を前記シーケンシャルフレームに関連付けるために、前記機械学習モデルを適用し、
前記シーケンシャルフレームのラベルのグループ化に基づいて前記複数のサブタスクの各々をセグメント化し、
前記セグメント化された複数のサブタスクのうちのシーケンシャルのサブタスクを前記完了すべきタスクとしてグループ化すること
を含む請求項７に記載のプログラム。
前記複数のサブタスクの完了の検出及び前記サブタスクの順序の正確さに基づいて前記タスクの完了の評価を提供することは、
前記複数のサブタスクのうちのシーケンシャルのサブタスクのグループ化から前記順序の正確さを識別し、
前記ラベリングされたシーケンシャルフレームのうちの対応するフレームにコンピュータビジョンアルゴリズムを適用することによって、前記複数のサブタスクの各々の完了を識別し、
前記順序の正確さの識別、前記複数のサブタスクの各々の完了、及び前記複数のサブタスクの各々のスキルスコアに基づいて、前記完了すべきタスクの別のスキルスコアを計算すること
を含む請求項９に記載のプログラム。
前記ユーザの身体部分は前記ユーザの手を含み、前記完了すべきタスクは手洗いであり、前記複数のサブタスクは前記手洗いを行うためのステップを含む、請求項７に記載のプログラム。
前記完了すべきタスクに関連付けられた前記ユーザの身体部分を前記カメラシステムから検出することは、
前記タスクに対する１又は複数の関連付けられた物体を検出し、
前記カメラシステムの各フレームについて、前記身体部分及び前記１又は複数の関連付けられた物体の周囲のフレーム領域を抽出すること
を更に含む、請求項７に記載のプログラム。
カメラシステムと、
プロセッサであって、
完了すべきタスクに関連付けられたユーザの身体部分をカメラシステムから検出し、
複数のサブタスクの各々をシーケンシャルフレームに関連付けるように構成された機械学習モデルの適用に基づいて、前記カメラシステムから受信した前記シーケンシャルフレームを前記完了すべきタスクの前記複数のサブタスクにグループ化し、
前記複数のサブタスクの完了の検出及び前記サブタスクの順序の正確さに基づいて前記タスクの完了の評価を提供する
ように構成されたプロセッサと
を含むシステム。
前記プロセッサは、前記カメラシステムの各フレームについて前記身体部分の周囲のフレーム領域を抽出することによって、前記完了すべきタスクに関連付けられた前記ユーザの前記身体部分を前記カメラシステムから検出するように構成されている、請求項１３に記載のシステム。
前記プロセッサは、
前記シーケンシャルフレームの各々をラベリングすることによって、前記複数のサブタスクの各々を前記シーケンシャルフレームに関連付けるために、前記機械学習モデルを適用し、
前記シーケンシャルフレームのラベルのグループ化に基づいて前記複数のサブタスクの各々をセグメント化し、
前記セグメント化された複数のサブタスクのうちのシーケンシャルのサブタスクを前記完了すべきタスクとしてグループ化すること
によって、複数のサブタスクの各々をシーケンシャルフレームに関連付けるように構成された機械学習モデルの適用に基づいて、カメラシステムから受信したシーケンシャルフレームを完了すべきタスクの複数のサブタスクにグループ化するように構成されている、
請求項１３に記載のシステム。
前記プロセッサは、
前記複数のサブタスクのうちのシーケンシャルのサブタスクのグループ化から順序の正確さを識別し、
前記ラベリングされたシーケンシャルフレームのうちの対応するフレームにコンピュータビジョンアルゴリズムを適用することによって、前記複数のサブタスクの各々の完了を識別し、
前記順序の正確さの識別、前記複数のサブタスクの各々の完了、及び前記複数のサブタスクの各々のスキルスコアに基づいて、前記完了すべきタスクの別のスキルスコアを計算すること
によって、前記複数のサブタスクの完了の検出及び前記サブタスクの順序の正確さに基づいて前記タスクの完了の評価を提供するように構成されている、請求項１５に記載のシステム。
前記ユーザの身体部分は前記ユーザの手を含み、前記完了すべきタスクは手洗いであり、前記複数のサブタスクは前記手洗いを行うためのステップを含む、請求項１３に記載のシステム。
前記プロセッサは、
前記タスクに対する１又は複数の関連付けられた物体を検出し、
前記カメラシステムの各フレームについて、前記身体部分及び前記１又は複数の関連付けられた物体の周囲のフレーム領域を抽出すること
によって、前記完了すべきタスクに関連付けられた前記ユーザの前記身体部分を前記カメラシステムから検出するように構成されている、請求項１３に記載のシステム。