JP2020087437A - カメラシステムを使用した、ユーザの身体部分によって実行されるタスクの完了の評価のための方法、プログラム、及びシステム - Google Patents

カメラシステムを使用した、ユーザの身体部分によって実行されるタスクの完了の評価のための方法、プログラム、及びシステム Download PDF

Info

Publication number
JP2020087437A
JP2020087437A JP2019172835A JP2019172835A JP2020087437A JP 2020087437 A JP2020087437 A JP 2020087437A JP 2019172835 A JP2019172835 A JP 2019172835A JP 2019172835 A JP2019172835 A JP 2019172835A JP 2020087437 A JP2020087437 A JP 2020087437A
Authority
JP
Japan
Prior art keywords
subtasks
task
sequential
completed
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019172835A
Other languages
English (en)
Other versions
JP7392348B2 (ja
Inventor
チダンシュ アミットクマー バート
Amitkumar Bhatt Chidansh
チダンシュ アミットクマー バート
パトリック チィーウ
Patrick Chiu
チィーウ パトリック
チョルファン キム
Kim Chul-Hwan
チョルファン キム
チョン リュウ
Qiong Liu
リュウ チョン
英人 織田
Hideto Oda
英人 織田
ヤンシャ ザング
Yanxia Zhang
ヤンシャ ザング
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Publication of JP2020087437A publication Critical patent/JP2020087437A/ja
Application granted granted Critical
Publication of JP7392348B2 publication Critical patent/JP7392348B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0633Workflow analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • G06N5/046Forward inferencing; Production systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06398Performance of employee with respect to a job function
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/28Recognition of hand or arm movements, e.g. recognition of deaf sign language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/34Smoothing or thinning of the pattern; Morphological operations; Skeletonisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Development Economics (AREA)
  • Educational Administration (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Multimedia (AREA)
  • Game Theory and Decision Science (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Human Computer Interaction (AREA)
  • Social Psychology (AREA)
  • Psychiatry (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Image Analysis (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

【課題】本発明は、カメラシステムを使用して、ユーザの身体部分によって実行されるタスクの完了の評価を行うことができる方法、プログラム、及びシステムを提供することを課題とする。【解決手段】本明細書に記載の実施例は、病院における手洗いの順守、又は工場における製品の組み立てなどのスキル評価のためのシステム及び方法を対象としている。実施例は、サブタスクを検出及び認識し各サブタスクのスキルを査定するために、身体部分の追跡(例えば手)、骨格の追跡、及びディープニューラルネットワークを含む。更に、サブタスクの順序の正確さを確認する。個々のユーザを監視することを超えて、実施例は、複数のサブタスクを有するワークフロー設計を分析し改善するために使用することができる。【選択図】図6

Description

本開示は、一般にカメラシステムに関し、より具体的にはカメラシステムの使用によるタスクの完了の評価に関する。
タスクが実行されたかどうかを確認し、それがどの程度うまく実行されたかを評価するために、ビデオカメラを用いたスキル評価を使用することができる。スキル評価システムは、品質管理、コンプライアンス、トレーニング、効率の向上、及び労働者の幸福のために有用に利用されることができる。
関連技術では、タスク及びサブタスクの意味的類似性を詳細にランク付けし計算することによってスキルを決定するためのアルゴリズムが提案されている。これらの関連技術による方法は、ビデオが単一のタスクの個々のビデオであること、又は手動で事前にセグメント化されたサブタスクのビデオクリップであることをしばしば必要とする。
サブタスクを有する複雑なタスクのビデオストリームを用いた、より現実的な状況では、そのような複雑なタスクに対するスキル評価はまだ対処されていない。更に、関連技術における別の問題は、タスクワークフロー設計を分析することを含む。例えば、工場内で複数のサブタスクを含むタスクワークフローが定期的に変更される場合、ワークフローを調整及び改善できるように監視する必要がある。関連技術では、変更はビデオカメラで行われ、手動で注釈が付けられる。そのような実施例には、より自動化されたシステムが必要である。
BAI, S., et al., An Empirical Evaluation of Generic Convolutional and Recurrent Networks for Sequence Modeling, ArXiv:1803.01271, 2018年4月19日 CHIU, P., et al., Recognizing Gestures on Projected Button Widgets with an RGB-D Camera Using a CNN, ISS '18, 2018年11月25〜28日,日本国 東京 DOUGHTY, H., et al., Who's Better, Who's Best: Skill Determination in Video Using Deep Ranking, arXiv:1703.09913, 2018年 Farneback, G., Two-Frame Motion Estimation Based on Polynomial Expansion, Image Analysis, SCIA 2003, Lecture Notes in Computer Science, 2749, pp. 363-370 KIM, S. T., et al., EvaluationNet Can Human Skill be Evaluated by Deep Networks?, arXiv:1705.11077, 2017年 LECUN, Y., et al., Deep Learning, Nature, 521, 2015年, pp. 436-444 MUELLER, F., et al., GANerated Hands for Real-Time 3D Hand Tracking from Monocular RGB, arXiv: 1712.01057, 2017年 SIMONYAN, K., et al., TWO-Stream Convolutional Networks for Action Recognition in Videos, arXiv:1406.2199, 2014年 WANG, H., et al., Action Recognition with Improved Trajectories, 2013 IEEE International Conference on Computer Vision, 2013年12月1〜8日,オーストラリア国 シドニー, pp. 3551-3558 YANG, Z., et al., Action Recognition with Spatio-Temporal Visual Attention on Skeleton Image Sequences, arXiv:1801.10304, 2018年4月11日 YUAN, S., et al., Depth-Based 3D Hand Pose Estimation: From Current Achievements to Future Goals, arXiv:1712.03917, 2018, pp. 2636-2645 ZIMMERMANN, C., et al., Learning to Estimate 3D Hand Pose from Single RGB Images, arXiv:1705.01389, 2017年, pp. 1903-4911
本発明は、カメラシステムを使用して、ユーザの身体部分によって実行されるタスクの完了の評価を行うことができる方法、プログラム、及びシステムを提供することを課題とする。
本開示の態様は、完了すべきタスクに関連付けられたユーザの身体部分をカメラシステムから検出し、複数のサブタスクの各々をシーケンシャルフレームに関連付けるように構成された機械学習モデルの適用に基づいて、カメラシステムから受信したシーケンシャルフレームを、完了すべきタスクの複数のサブタスクにグループ化し、複数のサブタスクの完了の検出及びサブタスクの順序の正確さに基づいて、タスクの完了の評価を提供すること、を含む方法に関する。
前記完了すべきタスクに関連付けられた前記ユーザの身体部分を前記カメラシステムから検出することは、前記カメラシステムの各フレームについて前記身体部分の周囲のフレーム領域を抽出することを含んでいてもよい。
前記複数のサブタスクの各々をシーケンシャルフレームに関連付けるように構成された機械学習モデルの適用に基づいて、前記カメラシステムから受信したシーケンシャルフレームを、前記完了すべきタスクの複数のサブタスクにグループ化することは、前記シーケンシャルフレームの各々をラベリングすることによって、前記複数のサブタスクの各々を前記シーケンシャルフレームに関連付けるために、前記機械学習モデルを適用し、前記シーケンシャルフレームのラベルのグループ化に基づいて前記複数のサブタスクの各々をセグメント化し、前記セグメント化された複数のサブタスクのうちのシーケンシャルのサブタスクを前記完了すべきタスクとしてグループ化することを含んでいてもよい。
前記複数のサブタスクの完了の検出及び前記サブタスクの順序の正確さに基づいて前記タスクの完了の評価を提供することは、前記複数のサブタスクのうちのシーケンシャルのサブタスクのグループ化から前記順序の正確さを識別し、前記ラベリングされたシーケンシャルフレームのうちの対応するフレームにコンピュータビジョンアルゴリズムを適用することによって前記複数のサブタスクの各々の完了を識別し、前記順序の正確さの識別、前記複数のサブタスクの各々の完了、及び前記複数のサブタスクの各々のスキルスコアに基づいて、前記完了すべきタスクの別のスキルスコアを計算することを含んでいてもよい。
前記ユーザの身体部分は前記ユーザの手を含み、前記完了すべきタスクは手洗いであり、前記複数のサブタスクは前記手洗いを行うためのステップを含んでいてもよい。
前記完了すべきタスクに関連付けられた前記ユーザの身体部分を前記カメラシステムから検出することは、前記タスクに対する1又は複数の関連付けられた物体を検出し、前記カメラシステムの各フレームについて、前記身体部分及び前記1又は複数の関連付けられた物体の周囲のフレーム領域を抽出することを更に含んでいてもよい。
本開示の態様は、完了すべきタスクに関連付けられたユーザの身体部分をカメラシステムから検出し、複数のサブタスクの各々をシーケンシャルフレームに関連付けるように構成された機械学習モデルの適用に基づいて、カメラシステムから受信したシーケンシャルフレームを、完了すべきタスクの複数のサブタスクにグループ化し、複数のサブタスクの完了の検出及びサブタスクの順序の正確さに基づいてタスクの完了の評価を提供すること、を含む命令を有するコンピュータプログラムを更に含む。
本開示の態様は、完了すべきタスクに関連付けられたユーザの身体部分をカメラシステムから検出し、複数のサブタスクの各々をシーケンシャルフレームに関連付けるように構成された機械学習モデルの適用に基づいて、前記カメラシステムから受信した前記シーケンシャルフレームを、前記完了すべきタスクの前記複数のサブタスクにグループ化し、前記複数のサブタスクの完了の検出及び前記サブタスクの順序の正確さに基づいて前記タスクの完了の評価を提供することを含む方法をコンピュータに実行させるプログラムを更に含む。
前記完了すべきタスクに関連付けられた前記ユーザの身体部分を前記カメラシステムから検出することは、前記カメラシステムの各フレームについて前記身体部分の周囲のフレーム領域を抽出することを含んでいてもよい。
前記複数のサブタスクの各々を前記シーケンシャルフレームに関連付けるように構成された前記機械学習モデルの適用に基づいて、前記カメラシステムから受信した前記シーケンシャルフレームを前記完了すべきタスクの前記複数のサブタスクにグループ化することは、前記シーケンシャルフレームの各々をラベリングすることによって、前記複数のサブタスクの各々を前記シーケンシャルフレームに関連付けるために、前記機械学習モデルを適用し、前記シーケンシャルフレームのラベルのグループ化に基づいて前記複数のサブタスクの各々をセグメント化し、前記セグメント化された複数のサブタスクのうちのシーケンシャルのサブタスクを前記完了すべきタスクとしてグループ化することを含んでいてもよい。
前記複数のサブタスクの完了の検出及び前記サブタスクの順序の正確さに基づいて前記タスクの完了の評価を提供することは、前記複数のサブタスクのうちのシーケンシャルのサブタスクのグループ化から前記順序の正確さを識別し、前記ラベリングされたシーケンシャルフレームのうちの対応するフレームにコンピュータビジョンアルゴリズムを適用することによって、前記複数のサブタスクの各々の完了を識別し、前記順序の正確さの識別、前記複数のサブタスクの各々の完了、及び前記複数のサブタスクの各々のスキルスコアに基づいて、前記完了すべきタスクの別のスキルスコアを計算することを含んでいてもよい。
前記ユーザの身体部分は前記ユーザの手を含み、前記完了すべきタスクは手洗いであり、前記複数のサブタスクは前記手洗いを行うためのステップを含んでいてもよい。
前記完了すべきタスクに関連付けられた前記ユーザの身体部分を前記カメラシステムから検出することは、前記タスクに対する1又は複数の関連付けられた物体を検出し、前記カメラシステムの各フレームについて、前記身体部分及び前記1又は複数の関連付けられた物体の周囲のフレーム領域を抽出することを更に含んでいてもよい。
本開示の態様は、完了すべきタスクに関連付けられたユーザの身体部分をカメラシステムから検出する手段と、複数のサブタスクの各々をシーケンシャルフレームに関連付けるように構成された機械学習モデルの適用に基づいて、カメラシステムから受信したシーケンシャルフレームを、完了すべきタスクの複数のサブタスクにグループ化する手段と、複数のサブタスクの完了の検出及びサブタスクの順序の正確さに基づいて、タスクの完了の評価を提供する手段と、を含むシステムに関する。
本開示の態様は、カメラシステムと、プロセッサであって、完了すべきタスクに関連付けられたユーザの身体部分をカメラシステムから検出し、複数のサブタスクの各々をシーケンシャルフレームに関連付けるように構成された機械学習モデルの適用に基づいて、カメラシステムから受信したシーケンシャルフレームを、完了すべきタスクの複数のサブタスクにグループ化し、複数のサブタスクの完了の検出及びサブタスクの順序の正確さに基づいて、タスクの完了の評価を提供するように構成されたプロセッサと、を含むシステムに関する。
前記プロセッサは、前記カメラシステムの各フレームについて前記身体部分の周囲のフレーム領域を抽出することによって、前記完了すべきタスクに関連付けられた前記ユーザの前記身体部分を前記カメラシステムから検出するように構成されていてもよい。
前記プロセッサは、前記シーケンシャルフレームの各々をラベリングすることによって、前記複数のサブタスクの各々を前記シーケンシャルフレームに関連付けるために、前記機械学習モデルを適用し、前記シーケンシャルフレームのラベルのグループ化に基づいて前記複数のサブタスクの各々をセグメント化し、前記セグメント化された複数のサブタスクのうちのシーケンシャルのサブタスクを前記完了すべきタスクとしてグループ化することによって、複数のサブタスクの各々をシーケンシャルフレームに関連付けるように構成された機械学習モデルの適用に基づいて、カメラシステムから受信したシーケンシャルフレームを完了すべきタスクの複数のサブタスクにグループ化するように構成されていてもよい。
前記プロセッサは、前記複数のサブタスクのうちのシーケンシャルのサブタスクのグループ化から順序の正確さを識別し、前記ラベリングされたシーケンシャルフレームのうちの対応するフレームにコンピュータビジョンアルゴリズムを適用することによって、前記複数のサブタスクの各々の完了を識別し、前記順序の正確さの識別、前記複数のサブタスクの各々の完了、及び前記複数のサブタスクの各々のスキルスコアに基づいて、前記完了すべきタスクの別のスキルスコアを計算することによって、前記複数のサブタスクの完了の検出及び前記サブタスクの順序の正確さに基づいて前記タスクの完了の評価を提供するように構成されていてもよい。
前記ユーザの身体部分は前記ユーザの手を含み、前記完了すべきタスクは手洗いであり、前記複数のサブタスクは前記手洗いを行うためのステップを含んでいてもよい。
前記プロセッサは、前記タスクに対する1又は複数の関連付けられた物体を検出し、前記カメラシステムの各フレームについて、前記身体部分及び前記1又は複数の関連付けられた物体の周囲のフレーム領域を抽出することによって、前記完了すべきタスクに関連付けられた前記ユーザの前記身体部分を前記カメラシステムから検出するように構成されていてもよい。
手洗い手順の一例を示した図である。 手洗い手順の一例を示した図である。 実施例によるカメラシステムによって撮影された手洗いの例示的画像を示した図である。 実施例によるカメラシステムによって撮影された手洗いの例示的画像を示した図である。 製品の例示的組み立て説明書を示した図である。 製品の例示的組み立て説明書を示した図である。 実施例によるカメラシステムによって撮影された組み立てタスクの例示的画像を示した図である。 実施例によるカメラシステムによって撮影された組み立てタスクの例示的画像を示した図である。 実施例によるシステムの例示的フロー図を示した図である。 実施例によるシステムの例示的フロー図を示した図である。 実施例によるフレームラベリングのための例示的フロー図を示した図である。 実施例による時間畳み込みネットワークを含む例示的フロー図を示した図である。 実施例によるカメラ設定を含むシステムの例示的ハードウェア図を示した図である。
以下の詳細な説明は、本出願の図及び実施例の更なる詳細を提供する。図の間で重複する要素の参照番号及び説明は、明確性のために省略されている。説明全体を通して使用されている用語は、例として提供されており、限定を意図するものではない。例えば、「自動的」という用語の使用は、完全自動又は半自動の実施を含み得、本出願の実施を行う当業者の所望の実施に応じて、ユーザ又はオペレータが実施の特定の態様を制御することを含む。選択は、ユーザインターフェース又は他の入力手段を介してユーザによって行われ得るか、又は所望のアルゴリズムを介して実施され得る。本明細書に記載の実施例は、単独又は組み合わせのいずれかで利用することができ、実施例の機能は、所望の実施形態に従って任意の手段を介して実施することができる。
本明細書に記載の実施例は、ディープラーニング法を通じて上記の問題に対処することを目的としている。1つの方法はボトムアップアプローチであり、(畳み込みニューラルネットワーク(CNN)及びオプティカルフローを使用して)サブタスクラベルでビデオフレームをラベリングし、次いでシーケンシャルフレームをサブタスクイベントにグループ化し、サブタスクイベントに対してスキル評価スコアを電算し(例えば、詳細なランク付け(deep ranking)を使用して)、サブタスク完了及びサブタスク順序が確認されるタスクイベントに、サブタスクイベントをグループ化する。別の方法は、骨格追跡に基づく三次元の手の動きの時間畳み込みネットワーク(TCN)を使用する、より特殊化されたアーキテクチャである。これらの方法を以下の開示で詳細に説明する。
課題に更に焦点を当てるために、本明細書では手を使って、又は手と工具を使って実行されるタスクを検討する。領域の例には、病院における手指衛生コンプライアンス(図1A、図1B、図2A及び図2B)、並びに工場又は家庭における物体の組み立て(図3A、図3B、図4A、図4B)が含まれる。
図1A及び図1Bは、手洗い手順の一例を示す。具体的には、図1Aは、世界保健機関の手指衛生パンフレットによる手指衛生のための11ステップの手順のうちのサンプルステップ4を示し、図1Bはステップ5を示す。手洗い手順が11ステップの手順であるので、ステップ4は手洗い手順のサブタスク4として指定することができ、ステップ5はサブタスク5として指定することができる。同様に、図3A及び図3Bは、複数のステップを含む、製品のための例示的組み立て説明書を示す。
実施例は、手などの身体部分によって実行されるタスクのスキル評価のための方法を対象としている。これらのタスクは、病院での手洗いコンプライアンス、工場での製品の組み立て、工具の使用を含み得る。既存の方法は、手動でセグメント化されたデータセット内のビデオクリップにより機能し、多段階サブタスクを伴う複雑なプロセスとは対照的に、より単純なタスクにより機能することが多い。このような問題に対処するために、実施例は、手の追跡及び骨格の追跡並びにディープニューラルネットワークを適用して、サブタスクを検出及び認識し、各サブタスクのスキルを評価する。更に、サブタスクの順序の正確さを確認する。本発明の方法は、個々のユーザを監視することだけでなく、複数のサブタスクを有するワークフロー設計を分析し改善するために使用することができる。
カメラシステムによって撮影された手洗い用の画像の例を、図1A及び図1Bのサブタスクについて図2A及び図2Bにそれぞれ示し、カメラシステムによって撮影された組み立てタスクの画像の例を、図3A及び図3Bのサブタスクについて図4A及び図4Bにそれぞれ示す。
図5A及び図5Bは、実施例によるシステムの例示的フロー図を示す。具体的には、図5Aは、実施例によるサブタスク事例(インスタンス)をリアルタイムで分析するための例示的フロー図を示す。個々のユーザによって実行されたタスク事例は、サブタスクに関してリアルタイムで分析される。図5Aの例では、図2A、図2B、図4A及び図4Bに示す画像など、カメラ501からの画像が入力される。502で、コンピュータビジョン技術を用いて物体との身体部分(例えば手)の相互作用又はその中で実行される動作を分析する。503で、特定のタスクイベント事例について各サブタスクのスキルスコア、サブタスクの順序の正確さ、及びサブタスクの完了を判定する。
図5Bは、実施例によるサブタスクのワークフローを分析するための例示的フロー図を示す。タスクのワークフローは、時間の経過と共にタスク事例に関するデータを収集することによって分析される。510で、図5Aのフロー503から決定されたタスクイベント事例に関するデータを収集する。511で、タスクワークフローの統計を計算する。512で、タスクイベントワークフローの所望の統計(例えば、平均、分散)について、サブタスクスキルスコア、完了時間、及び順序の正確さを計算する。
図6は、実施例によるフレームラベリングのための例示的フロー図を示す。提案されているフレームラベリング方法は、ラベリングされたフレームをサブタスクイベントにグループ化し、それをタスクイベントに集約するボトムアップアプローチである。処理パイプラインを図6のフローチャートに示す。
実施例では、カメラは、低価格のウェブカメラ、ビデオカメラ、又は赤緑青深度(RGB−D)カメラであってよい。RGB−Dカメラでは、追加の深度チャネルがグレースケール深度フレーム画像のストリームを提供し、それらはカラーチャネルフレーム画像と同様に処理される。
実施例では、パイプラインの最初の部分は、601で現在のビデオフレームを取得し、602で手の検出アルゴリズムを使用して、603で動作する手の周囲の領域を抽出することである。所望の実施態様に応じて、例えば手洗いの場合には洗面台の上に取り付けられたカメラ、組み立てタスクの場合には作業台の上に取り付けられたカメラなど、カメラがシーンの関連部分のみを撮影するように設定されている場合、これらのプロセスはスキップされてもよい。前者の場合、検出のみが必要であり、これは手のポーズ又は骨格の推定よりもロバストである。後者の場合、手の検出又は姿勢の推定は必要とされず、これは遮蔽又は手と物体の相互作用があるときのロバスト性を向上させる。
処理の次のステップは、604でフレーム領域にわたる高密度オプティカルフローを計算することである。オプティカルフローを使用するための1つの動機付けは、それが異なる背景シーンに対してロバストであることであり、異なる設定をサポートするのに役立つ。もう1つの動機付けは、少量の遮蔽とノイズに対してロバストであるということであり、手の上の石鹸水などのノイズが多い画像に対処するのに役立ち得る。オプティカルフローアプローチは、ビデオの動作認識にうまく機能することが証明されている。オプティカルフローを計算するために、OpenCVコンピュータビジョンライブラリのFarnebackアルゴリズムなどの実装を利用することができる。オプティカルフロー処理は、x構成要素画像及びy構成要素画像を生成する。
605で、実施例は、フレームにサブタスクラベルを割り当てるために畳み込みニューラルネットワーク(CNN)を使用してオプティカルフロー画像を分類する。CNNアーキテクチャでは、リアルタイム対話型アプリケーションとの統合に適した任意の所望のディープラーニングツールキットを介して、畳み込み層及びマックスプーリング層の2つの交互の層を有する標準アーキテクチャが利用され、その後に全結合(dense)層及びソフトマックス層が続く。
活動を有する連続する一連のフレーム領域がバッファに蓄積され、そのようなフレームは606でサブタスクイベントにグループ化される。各イベントバッファは、フレーム領域の分類サブタスクラベルの投票をすることによって分類され、サブタスクラベルが与えられる。フレームの各オプティカルフロー構成要素は別々に投票される。あるいは、本明細書に記載の実施例は、オプティカルフロー構成要素に対して融合を実行して、フレームごとに単一のラベルを取得することができる。一実施例は、各フロー構成要素の出力に完全に接続されたネットワークを追加することを含む。
ビデオセグメントである各サブタスクイベントについて、607でスキル評価アルゴリズムを適用してスキルスコアを得ることができる。スキル評価アルゴリズムは、所望の実施形態により任意の方法で実施することができる。
608で、タスクイベントが活動又は動きのない期間によって分離されているという観察に基づいてタスク時間境界を決定することによって、サブタスクをタスクイベントに分類する。
最後に609で、サブタスクのスキルスコアに基づいて各タスクイベントにスキルスコアを割り当てる。所望の実施形態に応じて、サブタスクが完了していない場合、及び、サブタスクが順序どおりに実行されていない場合であってサブタスクの順序が重要である場合、アラートを生成することができる。
実施例では、3次元の手の動きの時間畳み込みネットワーク(TCN)を利用することができる。本明細書に記載の実施例は、ビデオストリームを含み、特徴表現として3次元骨格関節をリアルタイムで抽出する。リアルタイムの3次元の手の追跡における最近の進歩により、骨格関節を確実に検出することができ、オプティカルフローと比較して少ない計算量で済むことが証明されている。
図7は、実施例による時間畳み込みネットワークを含む例示的フロー図を示す。
実施例は、701でビデオから取得された各フレームについて、702で3次元手の骨格を検出するために各々の手から手の関節(例えば手の関節21個)の2次元及び3次元位置の両方を抽出する。703で、フローは、空間的階層関係を維持するためにツリー構造を使用して骨格位置をベクトルに平坦化する。ツリー構造アセットは、704でL個のビデオフレームから抽出される一連の骨格ベクトルを維持するのに使用される。
705で、実施例は、フレームごとにサブタスクを予測するために、シーケンス予測手法を含むことができる。畳み込みニューラルネットワークは、言語及び活動認識における多くのシーケンス問題に対して、回帰型ニューラルネットワークよりも優れている可能性がある。実施例では、時間的畳み込みネットワーク(TCN)アーキテクチャがサブタスクを予測するために採用され、これは回帰型ネットワークと比較してより高速であると共に、より良好な精度を達成することを実証する。
L個のビデオフレームから入力骨格シーケンスが受信され、2つのラベルがフレーム1からLまで<subtask,isChange>と予測されるべきであると仮定する。これは、等しい長さの入力長及び出力長を保証するTCNアーキテクチャを介して達成できる。考えられる一実施形態は、オープンソースのTCNライブラリからネットワーク構造を適合させることである。例えば、ネットワークは、1、2、4、8の拡張係数を有する拡張カジュアル畳み込み(Dilated casual convolution)を使用することができ、これは、入力層と同じサイズの各隠れ層を有する1次元の完全畳み込みネットワークで始まり、次いで後続層を同じ長さに保つためにゼロ詰めの拡張畳み込みを実行する。
最後の工程は、706で、サブタスクのフレームベースの予測をタスクにクラスタ化することであり、これは任意の所望の実施形態により実行されてもよい。
図7の実施例を通して、カメラフィードに基づいてサブタスクを検出するように機械学習アルゴリズムを生成し訓練することができる。機械学習アルゴリズムは、図7の時間的畳み込みネットワーク、並びに学習すべき手の骨格又は身体部分を使用して、ディープラーニングアルゴリズムで時間的特徴を直接使用することで生成される。このような実施例は、サブタスクに関する情報が分離されてディープラーニングアルゴリズムに利用されるため、関連技術に対する改良である。
図8は、実施例によるカメラ構成を含むシステムの例示的ハードウェア図を示す。システム800は、タスク撮影用カメラシステム801、プロセッサ802、メモリ803、ディスプレイ804、及びインターフェース(I/F)805を含むことができる。システム800は、タスクを監視するように構成されており、所望の実施形態によりワークステーション、特定の装置(例えば、流し台、工場ラインの場所など)などに関連付けることができる。
カメラシステム801は、所望の実施形態により、ビデオ画像及び深度画像を撮影するように構成されている任意の形態とすることができる。実施例では、プロセッサ802は、実行中のタスクの画像を撮影するためにカメラシステムを利用することができる。ディスプレイ804は、所望の実施形態により、ビデオ会議用又はコンピュータデバイスの結果を表示するためのタッチスクリーン又は他の任意のディスプレイの形態とすることができる。ディスプレイ804はまた、タスクを実行しているユーザにフィードバック(例えば、推奨される修正された動作、サブタスクの完了が検出されたかどうかに関する標示)を提供する中央コントローラを有する1組のディスプレイを含むことができる。I/F805は、所望の実施形態に応じて、キーボード、マウス、タッチパッド、又はディスプレイ804用の他の入力デバイスなどのインターフェースデバイスを含むことができる。
実施例では、プロセッサ802は、物理的ハードウェアプロセッサ又はハードウェアプロセッサとソフトウェアプロセッサとの組み合わせを含む中央処理装置(CPU)の形態であり得る。プロセッサ802は、システムへの入力を取り込むように構成され、これはサブタスク用のカメラシステム801からのカメラ画像を含むことができる。プロセッサ802は、本明細書で説明するように、ディープラーニング認識アルゴリズムを利用することによってサブタスクの完了を処理することができる。所望の実施形態に応じて、プロセッサ802は、例えばディープラーニングアルゴリズムに従って認識のために画像を処理するように構成された専用グラフィックス処理ユニット(GPU)、フィールドプログラマブルゲートアレイ(FPGA)、或いは所望の実施形態に従う、ディープラーニング認識の実施を容易にするための専用ハードウェアによって置き換えることができる。更に、システムは、所望の実施形態を容易にするために、コンピュータプロセッサと、GPU及びFPGAなどの特殊目的ハードウェアプロセッサとの組み合わせを利用することもできる。
本明細書で説明するように、プロセッサ802は、図6及び図7のフローを実行するように構成することができる。プロセッサ802は、完了すべきタスクに関連付けられたユーザの身体部分をカメラシステム801から検出し、複数のサブタスクの各々をシーケンシャルフレームに関連付けるように構成された機械学習モデルの適用に基づいて、カメラシステムから受信したシーケンシャルフレームを、完了すべきタスクの複数のサブタスクにグループ化し、図6のフローに示すように、複数のサブタスクの完了の検出及びサブタスクの順序の正確さに基づいて、タスクの完了の評価を提供するように構成することができる。実施例における身体部分は手に関して説明されているが、他の身体部分(例えば、足、腕など)もタスクを完了するために利用されてもよく、本開示はこれらに限定されない。更に、本明細書に記載の実施例によって複数の身体部分(例えば、足と組み合わせた手)を検出することもできる。
プロセッサ802は、図6のフローに示すようにカメラシステムの各フレームについて身体部分の周囲のフレーム領域を抽出することによって、完了すべきタスクに関連付けられたユーザの身体部分をカメラシステムから検出するように構成することができる。
プロセッサ802は、各シーケンシャルフレームをラベリングすることによって複数のサブタスクの各々をシーケンシャルフレームに関連付けるために機械学習モデルを適用し、シーケンシャルフレームのラベルのグループ化に基づいて複数のサブタスクの各々をセグメント化し、図6及び図7のフローに示すように、セグメント化された複数のサブタスクのうちのシーケンシャルのサブタスクを完了すべきタスクとしてグループ化することによって、複数のサブタスクの各々をシーケンシャルフレームに関連付けるように構成された機械学習モデルの適用に基づいて、カメラシステムから受信したシーケンシャルフレームを完了すべきタスクの複数のサブタスクにグループ化するように構成することができる。
プロセッサ802は、複数のサブタスクのうちのシーケンシャルのサブタスクのグループ化から順序の正確さを識別し、ラベリングされたシーケンシャルフレームのうちの対応するフレームにコンピュータビジョンアルゴリズムを適用することによって複数のサブタスクの各々の完了を識別し、図6に示すように順序の正確さの識別、複数のサブタスクの各々の完了、及び複数のサブタスクの各々のスキルスコアに基づいて、完了すべきタスクの別のスキルスコアを計算することによって、複数のサブタスクの完了の検出及びサブタスクの順序の正確さに基づいてタスクの完了の評価を提供するように構成することができる。
実施例では、ユーザの身体部分はユーザの手を含むことができ、完了すべきタスクは手洗いであり、複数のサブタスクは図1A、図1B、図2A、図2Bに示すように手洗いを行うための工程である。
更に、タスクに関連付けられた物体(例えば、流し台、ねじ回しなど)を、所望の実施形態により検出することができる。プロセッサ802は、タスクに対する1又は複数の関連付けられた物体を検出し、図3A、図3B、図4A、及び図4Bの例に示すようにカメラシステムの各フレームについて身体部分及び1又は複数の関連付けられた物体の周囲のフレーム領域を抽出することによって、完了すべきタスクに関連付けられたユーザの身体部分をカメラシステムから検出するように構成される。
本明細書に記載の実施例を通じて、システムによって監視されているユーザが正しい方法でタスクを実行しているかどうかを判定する問題に対処するための技術的解決策を提供することができる。手洗い又は製造組み立てなどの状況では、そのような検出システムは規則の順守を確実にするため、又は最も効率的な方法が適切に実行されていることを確実にするために必要とされる。
更に、本明細書に記載の採点システムを介して、サブタスクの時間及びスコアを監視して、ユーザに与えられた手順におけるボトルネックを決定することができる。そのような実施形態は、タスクを修正し、更なるトレーニングが必要かどうか、又は所与のプロセスの効率を改善するために特定のサブタスクを削除又は修正すべきかどうかを決定できる方法を即座に明らかにすることができる。
本明細書で説明するように、実施例は、手洗いの工程、又は、ユーザが一組のサブタスクに従って物体を組み立てるか又はタスクを実行する工場設定を含むことができる。本明細書に記載の実施例を介して、ユーザがタスクを実行しているときにユーザを監視するリアルタイムシステムを実施することができる。そのような実施形態は、特定のサブタスクが分離され検出されてそのタスクの特定のルーチンに対するコンプライアンスを確実にするので、関連技術の実施形態に対する改善をもたらす。
更に、本明細書に記載の実施例では、スキル評価スコアをユーザに提供して、ユーザがリアルタイムで特定のサブタスクをどの程度うまく実行したかを示すことができる。このような実施例は、タスクのワークフローがどのように調整されるべきか、並びに人々がどの程度うまくタスクを実行しているか、及びどのサブタスクがボトルネックを作り出しているか、又はどのサブタスクがうまく実行されていないかを決定するためのフィードバックを提供できるため、様々な期間にわたり(例えば数か月ごと)再構成される組み立てラインに対処することができる。このようなフィードバックを用いて、実行されるべき作業を調整することができ、組み立てラインをより効率的にすることができる。
詳細な説明のいくつかの部分は、コンピュータ内の動作のアルゴリズム及び記号表現に関して提示されている。これらのアルゴリズム記述及び記号表現は、データ処理技術の熟練者が技術革新の本質を他の当業者に伝えるために使用する手段である。アルゴリズムとは、所望の終了状態又は結果に至る一連の定義された工程である。実施例では、実行される工程は、具体的な結果を達成するための有形の量の物理的操作を必要とする。
特に明記しない限り、説明から明らかなように、「処理」、「計算」、「決定」、「表示」などの用語を利用する説明は、コンピュータシステムのレジスタ及びメモリ内の物理(電子)量として表されるデータを、コンピュータシステムのメモリ又はレジスタ、又は他の情報ストレージデバイス、伝送デバイス又は表示デバイス内で同様に物理量として表される他のデータに操作及び変換するコンピュータシステム又は他の情報処理デバイスの動作及びプロセスを含み得ると理解される。
実施例は、本明細書の動作を実行するための装置に関連してもよい。この装置は、必要な目的のために特別に構成されてもよく、あるいは1又は複数のコンピュータプログラムによって選択的に起動又は再構成される1又は複数の汎用コンピュータを含んでもよい。そのようなコンピュータプログラムは、コンピュータ可読記憶媒体又はコンピュータ可読信号媒体などのコンピュータ可読媒体に格納されてもよい。コンピュータ可読記憶媒体は、限定されるものではないが、電子情報を格納するのに適した光ディスク、磁気ディスク、読み出し専用メモリ、ランダムアクセスメモリ、固体デバイス及びドライブ、又は任意の他のタイプの有形又は持続性媒体などの有形の媒体を含み得る。コンピュータ可読信号媒体は、搬送波などの媒体を含み得る。本明細書で提示されるアルゴリズム及びディスプレイは、任意の特定のコンピュータ又は他の装置に本質的に関連するものではない。コンピュータプログラムは、所望の実施形態の動作を実行する命令を含む純粋なソフトウェアでの実施を含むことができる。
様々な汎用システムが、本明細書の例によるプログラム及びモジュールと共に使用されてもよく、又は所望の方法ステップを実行するためのより特化した装置を構築することが好都合であることが判明するかもしれない。更に、実施例は、任意の特定のプログラミング言語を参照して説明されていない。本明細書に記載されている実施例の教示を実施するために、様々なプログラミング言語が使用され得ることが理解されよう。プログラミング言語の命令は、1又は複数の処理デバイス、例えば、中央処理装置(CPU)、プロセッサ、又はコントローラによって実行されてもよい。
当技術分野で知られているように、上述の動作は、ハードウェア、ソフトウェア、又はソフトウェアとハードウェアの何らかの組み合わせによって実行することができる。実施例の様々な態様は、回路及び論理デバイス(ハードウェア)を使用して実施されてもよく、他の態様では、プロセッサによって実行された場合に本出願の実施形態を行う方法をプロセッサに実行させる、機械可読媒体に格納された命令(ソフトウェア)を使用して実施されてもよい。更に、本出願のいくつかの実施例はハードウェアでのみ実行されてもよく、他の実施例はソフトウェアでのみ実行されてもよい。更に、説明した様々な機能は、単一のユニットで実行されてもよいし、任意の方法で複数の構成要素にわたって分散されてもよい。ソフトウェアによって実行される場合、方法は、コンピュータ可読媒体に格納された命令に基づいて、汎用コンピュータなどのプロセッサによって実行され得る。必要に応じて、命令は、圧縮及び/又は暗号化されたフォーマットで媒体に格納することができる。
更に、本出願の他の実施形態は、本明細書の考察及び本出願の教示の実施から当業者には明らかであろう。説明した実施例の様々な態様及び/又は構成要素は、単独で、又は任意の組み合わせで使用され得る。本明細書及び実施形態は、単なる例として考えられるものであり、本出願の真の範囲及び精神は、添付の特許請求の範囲によって示される。

Claims (18)

  1. 完了すべきタスクに関連付けられたユーザの身体部分をカメラシステムから検出し、
    複数のサブタスクの各々をシーケンシャルフレームに関連付けるように構成された機械学習モデルの適用に基づいて、前記カメラシステムから受信したシーケンシャルフレームを、前記完了すべきタスクの複数のサブタスクにグループ化し、
    前記複数のサブタスクの完了の検出及び前記サブタスクの順序の正確さに基づいて前記タスクの完了の評価を提供すること
    を含む方法。
  2. 前記完了すべきタスクに関連付けられた前記ユーザの身体部分を前記カメラシステムから検出することは、前記カメラシステムの各フレームについて前記身体部分の周囲のフレーム領域を抽出することを含む、請求項1に記載の方法。
  3. 前記複数のサブタスクの各々をシーケンシャルフレームに関連付けるように構成された機械学習モデルの適用に基づいて、前記カメラシステムから受信したシーケンシャルフレームを、前記完了すべきタスクの複数のサブタスクにグループ化することは、
    前記シーケンシャルフレームの各々をラベリングすることによって、前記複数のサブタスクの各々を前記シーケンシャルフレームに関連付けるために、前記機械学習モデルを適用し、
    前記シーケンシャルフレームのラベルのグループ化に基づいて前記複数のサブタスクの各々をセグメント化し、
    前記セグメント化された複数のサブタスクのうちのシーケンシャルのサブタスクを前記完了すべきタスクとしてグループ化すること
    を含む請求項1に記載の方法。
  4. 前記複数のサブタスクの完了の検出及び前記サブタスクの順序の正確さに基づいて前記タスクの完了の評価を提供することは、
    前記複数のサブタスクのうちのシーケンシャルのサブタスクのグループ化から前記順序の正確さを識別し、
    前記ラベリングされたシーケンシャルフレームのうちの対応するフレームにコンピュータビジョンアルゴリズムを適用することによって前記複数のサブタスクの各々の完了を識別し、
    前記順序の正確さの識別、前記複数のサブタスクの各々の完了、及び前記複数のサブタスクの各々のスキルスコアに基づいて、前記完了すべきタスクの別のスキルスコアを計算すること
    を含む請求項3に記載の方法。
  5. 前記ユーザの身体部分は前記ユーザの手を含み、前記完了すべきタスクは手洗いであり、前記複数のサブタスクは前記手洗いを行うためのステップを含む、請求項1に記載の方法。
  6. 前記完了すべきタスクに関連付けられた前記ユーザの身体部分を前記カメラシステムから検出することは、
    前記タスクに対する1又は複数の関連付けられた物体を検出し、
    前記カメラシステムの各フレームについて、前記身体部分及び前記1又は複数の関連付けられた物体の周囲のフレーム領域を抽出すること
    を更に含む、請求項1に記載の方法。
  7. 完了すべきタスクに関連付けられたユーザの身体部分をカメラシステムから検出し、
    複数のサブタスクの各々をシーケンシャルフレームに関連付けるように構成された機械学習モデルの適用に基づいて、前記カメラシステムから受信した前記シーケンシャルフレームを、前記完了すべきタスクの前記複数のサブタスクにグループ化し、
    前記複数のサブタスクの完了の検出及び前記サブタスクの順序の正確さに基づいて前記タスクの完了の評価を提供すること
    を含む方法をコンピュータに実行させる、プログラム。
  8. 前記完了すべきタスクに関連付けられた前記ユーザの身体部分を前記カメラシステムから検出することは、前記カメラシステムの各フレームについて前記身体部分の周囲のフレーム領域を抽出することを含む、請求項7に記載のプログラム。
  9. 前記複数のサブタスクの各々を前記シーケンシャルフレームに関連付けるように構成された前記機械学習モデルの適用に基づいて、前記カメラシステムから受信した前記シーケンシャルフレームを前記完了すべきタスクの前記複数のサブタスクにグループ化することは、
    前記シーケンシャルフレームの各々をラベリングすることによって、前記複数のサブタスクの各々を前記シーケンシャルフレームに関連付けるために、前記機械学習モデルを適用し、
    前記シーケンシャルフレームのラベルのグループ化に基づいて前記複数のサブタスクの各々をセグメント化し、
    前記セグメント化された複数のサブタスクのうちのシーケンシャルのサブタスクを前記完了すべきタスクとしてグループ化すること
    を含む請求項7に記載のプログラム。
  10. 前記複数のサブタスクの完了の検出及び前記サブタスクの順序の正確さに基づいて前記タスクの完了の評価を提供することは、
    前記複数のサブタスクのうちのシーケンシャルのサブタスクのグループ化から前記順序の正確さを識別し、
    前記ラベリングされたシーケンシャルフレームのうちの対応するフレームにコンピュータビジョンアルゴリズムを適用することによって、前記複数のサブタスクの各々の完了を識別し、
    前記順序の正確さの識別、前記複数のサブタスクの各々の完了、及び前記複数のサブタスクの各々のスキルスコアに基づいて、前記完了すべきタスクの別のスキルスコアを計算すること
    を含む請求項9に記載のプログラム。
  11. 前記ユーザの身体部分は前記ユーザの手を含み、前記完了すべきタスクは手洗いであり、前記複数のサブタスクは前記手洗いを行うためのステップを含む、請求項7に記載のプログラム。
  12. 前記完了すべきタスクに関連付けられた前記ユーザの身体部分を前記カメラシステムから検出することは、
    前記タスクに対する1又は複数の関連付けられた物体を検出し、
    前記カメラシステムの各フレームについて、前記身体部分及び前記1又は複数の関連付けられた物体の周囲のフレーム領域を抽出すること
    を更に含む、請求項7に記載のプログラム。
  13. カメラシステムと、
    プロセッサであって、
    完了すべきタスクに関連付けられたユーザの身体部分をカメラシステムから検出し、
    複数のサブタスクの各々をシーケンシャルフレームに関連付けるように構成された機械学習モデルの適用に基づいて、前記カメラシステムから受信した前記シーケンシャルフレームを前記完了すべきタスクの前記複数のサブタスクにグループ化し、
    前記複数のサブタスクの完了の検出及び前記サブタスクの順序の正確さに基づいて前記タスクの完了の評価を提供する
    ように構成されたプロセッサと
    を含むシステム。
  14. 前記プロセッサは、前記カメラシステムの各フレームについて前記身体部分の周囲のフレーム領域を抽出することによって、前記完了すべきタスクに関連付けられた前記ユーザの前記身体部分を前記カメラシステムから検出するように構成されている、請求項13に記載のシステム。
  15. 前記プロセッサは、
    前記シーケンシャルフレームの各々をラベリングすることによって、前記複数のサブタスクの各々を前記シーケンシャルフレームに関連付けるために、前記機械学習モデルを適用し、
    前記シーケンシャルフレームのラベルのグループ化に基づいて前記複数のサブタスクの各々をセグメント化し、
    前記セグメント化された複数のサブタスクのうちのシーケンシャルのサブタスクを前記完了すべきタスクとしてグループ化すること
    によって、複数のサブタスクの各々をシーケンシャルフレームに関連付けるように構成された機械学習モデルの適用に基づいて、カメラシステムから受信したシーケンシャルフレームを完了すべきタスクの複数のサブタスクにグループ化するように構成されている、
    請求項13に記載のシステム。
  16. 前記プロセッサは、
    前記複数のサブタスクのうちのシーケンシャルのサブタスクのグループ化から順序の正確さを識別し、
    前記ラベリングされたシーケンシャルフレームのうちの対応するフレームにコンピュータビジョンアルゴリズムを適用することによって、前記複数のサブタスクの各々の完了を識別し、
    前記順序の正確さの識別、前記複数のサブタスクの各々の完了、及び前記複数のサブタスクの各々のスキルスコアに基づいて、前記完了すべきタスクの別のスキルスコアを計算すること
    によって、前記複数のサブタスクの完了の検出及び前記サブタスクの順序の正確さに基づいて前記タスクの完了の評価を提供するように構成されている、請求項15に記載のシステム。
  17. 前記ユーザの身体部分は前記ユーザの手を含み、前記完了すべきタスクは手洗いであり、前記複数のサブタスクは前記手洗いを行うためのステップを含む、請求項13に記載のシステム。
  18. 前記プロセッサは、
    前記タスクに対する1又は複数の関連付けられた物体を検出し、
    前記カメラシステムの各フレームについて、前記身体部分及び前記1又は複数の関連付けられた物体の周囲のフレーム領域を抽出すること
    によって、前記完了すべきタスクに関連付けられた前記ユーザの前記身体部分を前記カメラシステムから検出するように構成されている、請求項13に記載のシステム。
JP2019172835A 2018-11-27 2019-09-24 カメラシステムを使用した、ユーザの身体部分によって実行されるタスクの完了の評価のための方法、プログラム、及びシステム Active JP7392348B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US16/201,868 US11093886B2 (en) 2018-11-27 2018-11-27 Methods for real-time skill assessment of multi-step tasks performed by hand movements using a video camera
US16/201,868 2018-11-27

Publications (2)

Publication Number Publication Date
JP2020087437A true JP2020087437A (ja) 2020-06-04
JP7392348B2 JP7392348B2 (ja) 2023-12-06

Family

ID=70771159

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019172835A Active JP7392348B2 (ja) 2018-11-27 2019-09-24 カメラシステムを使用した、ユーザの身体部分によって実行されるタスクの完了の評価のための方法、プログラム、及びシステム

Country Status (3)

Country Link
US (1) US11093886B2 (ja)
JP (1) JP7392348B2 (ja)
CN (1) CN111222737B (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024062882A1 (ja) * 2022-09-20 2024-03-28 株式会社Ollo プログラム、情報処理方法、及び情報処理装置

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11106949B2 (en) * 2019-03-22 2021-08-31 Microsoft Technology Licensing, Llc Action classification based on manipulated object movement
US10930032B1 (en) 2019-08-22 2021-02-23 International Business Machines Corporation Generating concept images of human poses using machine learning models
US11017655B2 (en) * 2019-10-09 2021-05-25 Visualq Hand sanitation compliance enforcement systems and methods
US11636304B2 (en) * 2020-01-03 2023-04-25 International Business Machines Corporation Creating response schedule for tasks from cognitive state of a user
US11017690B1 (en) 2020-01-29 2021-05-25 Retrocausal, Inc. System and method for building computational models of a goal-driven task from demonstration
US10911775B1 (en) * 2020-03-11 2021-02-02 Fuji Xerox Co., Ltd. System and method for vision-based joint action and pose motion forecasting
US20220080060A1 (en) * 2020-09-11 2022-03-17 AI Data Innovation Corporation Disinfection system and method
CN114494087A (zh) * 2020-11-12 2022-05-13 安霸国际有限合伙企业 无监督的多尺度视差/光流融合
US11671249B1 (en) * 2022-07-25 2023-06-06 Gravystack, Inc. Apparatus for generating an action-based collective
CN114971434B (zh) * 2022-08-01 2022-10-21 广州天维信息技术股份有限公司 一种基于分布式计算的绩效对比分析***

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009282442A (ja) * 2008-05-26 2009-12-03 Hyogo College Of Medicine 手指衛生励行システム
US20100117836A1 (en) * 2007-03-30 2010-05-13 Toronto Rehabilitation Institute Hand hygiene compliance system
US20100167248A1 (en) * 2008-12-31 2010-07-01 Haptica Ltd. Tracking and training system for medical procedures
JP2013180046A (ja) * 2012-03-01 2013-09-12 Sumitomo Electric Ind Ltd 手洗いモニタ、手洗いモニタ方法および手洗いモニタプログラム
JP2014155693A (ja) * 2012-12-28 2014-08-28 Toshiba Corp 動作情報処理装置及びプログラム
WO2017150211A1 (ja) * 2016-03-03 2017-09-08 コニカミノルタ株式会社 行動認識装置及び行動学習装置並びに行動認識プログラム及び行動学習プログラム
JP6305448B2 (ja) * 2016-01-29 2018-04-04 アース環境サービス株式会社 手洗い監視システム
WO2018070414A1 (ja) * 2016-10-11 2018-04-19 富士通株式会社 運動認識装置、運動認識プログラムおよび運動認識方法
JP2021071773A (ja) * 2019-10-29 2021-05-06 株式会社エクサウィザーズ 動作評価装置、動作評価方法、動作評価システム
JP2021174488A (ja) * 2020-04-30 2021-11-01 株式会社Acculus 手洗い評価装置および手洗い評価プログラム
JP2021174487A (ja) * 2020-04-30 2021-11-01 株式会社Acculus 手洗い評価装置および手洗い評価プログラム

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090219131A1 (en) * 2008-02-28 2009-09-03 Barnett Michael H System for tracking hand washing and other tasks
WO2012139239A1 (en) * 2011-04-11 2012-10-18 Intel Corporation Techniques for face detection and tracking
CN104933436B (zh) * 2014-03-19 2018-09-14 通用汽车环球科技运作有限责任公司 具有动态完整性评分的基于视觉的多摄像头工厂监测
US10083233B2 (en) * 2014-09-09 2018-09-25 Microsoft Technology Licensing, Llc Video processing for motor task analysis
US9727786B2 (en) * 2014-11-14 2017-08-08 Intel Corporation Visual object tracking system with model validation and management
CN106446847A (zh) * 2016-09-30 2017-02-22 深圳市唯特视科技有限公司 一种基于视频数据的人体动作分析方法
CN107241572B (zh) * 2017-05-27 2024-01-12 国家电网公司 学员实训视频追踪评价***
CN107403142B (zh) * 2017-07-05 2018-08-21 山东中磁视讯股份有限公司 一种微表情的检测方法
CN108985240B (zh) * 2018-07-23 2020-11-13 北京百度网讯科技有限公司 评估对象检测算法的方法、装置、电子设备和存储介质

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100117836A1 (en) * 2007-03-30 2010-05-13 Toronto Rehabilitation Institute Hand hygiene compliance system
JP2009282442A (ja) * 2008-05-26 2009-12-03 Hyogo College Of Medicine 手指衛生励行システム
US20100167248A1 (en) * 2008-12-31 2010-07-01 Haptica Ltd. Tracking and training system for medical procedures
JP2013180046A (ja) * 2012-03-01 2013-09-12 Sumitomo Electric Ind Ltd 手洗いモニタ、手洗いモニタ方法および手洗いモニタプログラム
JP2014155693A (ja) * 2012-12-28 2014-08-28 Toshiba Corp 動作情報処理装置及びプログラム
JP6305448B2 (ja) * 2016-01-29 2018-04-04 アース環境サービス株式会社 手洗い監視システム
WO2017150211A1 (ja) * 2016-03-03 2017-09-08 コニカミノルタ株式会社 行動認識装置及び行動学習装置並びに行動認識プログラム及び行動学習プログラム
WO2018070414A1 (ja) * 2016-10-11 2018-04-19 富士通株式会社 運動認識装置、運動認識プログラムおよび運動認識方法
JP2021071773A (ja) * 2019-10-29 2021-05-06 株式会社エクサウィザーズ 動作評価装置、動作評価方法、動作評価システム
JP2021174488A (ja) * 2020-04-30 2021-11-01 株式会社Acculus 手洗い評価装置および手洗い評価プログラム
JP2021174487A (ja) * 2020-04-30 2021-11-01 株式会社Acculus 手洗い評価装置および手洗い評価プログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024062882A1 (ja) * 2022-09-20 2024-03-28 株式会社Ollo プログラム、情報処理方法、及び情報処理装置

Also Published As

Publication number Publication date
CN111222737B (zh) 2024-04-05
US20200167715A1 (en) 2020-05-28
CN111222737A (zh) 2020-06-02
JP7392348B2 (ja) 2023-12-06
US11093886B2 (en) 2021-08-17

Similar Documents

Publication Publication Date Title
JP7392348B2 (ja) カメラシステムを使用した、ユーザの身体部分によって実行されるタスクの完了の評価のための方法、プログラム、及びシステム
US10372228B2 (en) Method and system for 3D hand skeleton tracking
US20170161555A1 (en) System and method for improved virtual reality user interaction utilizing deep-learning
Fan et al. Learning to disambiguate strongly interacting hands via probabilistic per-pixel part segmentation
JP2023508590A (ja) モバイルの拡張現実におけるきめ細かいレベルの視覚認識
Washington et al. Activity recognition with moving cameras and few training examples: applications for detection of autism-related headbanging
CN114981841A (zh) 用于视频对象分割(vos)的端到端合并
Chaudhary et al. Deep network for human action recognition using Weber motion
Patil et al. Real time facial expression recognition using RealSense camera and ANN
Bian et al. Machine learning-based real-time monitoring system for smart connected worker to improve energy efficiency
Dragan et al. Human activity recognition in smart environments
Veenendaal et al. Dynamic probabilistic network based human action recognition
Doan et al. Recognition of hand gestures from cyclic hand movements using spatial-temporal features
Burgermeister et al. PedRecNet: Multi-task deep neural network for full 3D human pose and orientation estimation
US20220300774A1 (en) Methods, apparatuses, devices and storage media for detecting correlated objects involved in image
Dani et al. Mid-air fingertip-based user interaction in mixed reality
CN112199994A (zh) 一种实时检测rgb视频中的3d手与未知物体交互的方法和装置
CN110825218A (zh) 用于执行手势检测的***和设备
Jain et al. Gestarlite: An on-device pointing finger based gestural interface for smartphones and video see-through head-mounts
Vo et al. Fine-grained hand gesture recognition in multi-viewpoint hand hygiene
Yang et al. Skeleton-based hand gesture recognition for assembly line operation
Bakalos et al. Dance posture/steps classification using 3D joints from the kinect sensors
Hatimi et al. New approach for detecting and tracking a moving object
Mur-Labadia et al. AFF-ttention! Affordances and Attention models for Short-Term Object Interaction Anticipation
Ashok et al. FINGER RECONGITION AND GESTURE BASED VIRTUAL KEYBOARD

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220831

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230711

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230808

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20231024

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20231106

R150 Certificate of patent or registration of utility model

Ref document number: 7392348

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150