CN111222737B - 用于实时技能评估的方法及***以及计算机可读介质 - Google Patents
用于实时技能评估的方法及***以及计算机可读介质 Download PDFInfo
- Publication number
- CN111222737B CN111222737B CN201910957182.4A CN201910957182A CN111222737B CN 111222737 B CN111222737 B CN 111222737B CN 201910957182 A CN201910957182 A CN 201910957182A CN 111222737 B CN111222737 B CN 111222737B
- Authority
- CN
- China
- Prior art keywords
- subtasks
- image frames
- task
- completed
- sequential
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 37
- 238000005406 washing Methods 0.000 claims abstract description 18
- 238000010801 machine learning Methods 0.000 claims description 18
- 230000003287 optical effect Effects 0.000 claims description 15
- 238000001514 detection method Methods 0.000 claims description 14
- 230000008569 process Effects 0.000 claims description 11
- 238000000638 solvent extraction Methods 0.000 claims description 4
- 238000013528 artificial neural network Methods 0.000 abstract description 3
- 238000012544 monitoring process Methods 0.000 abstract description 3
- 238000013135 deep learning Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 7
- 238000012545 processing Methods 0.000 description 7
- 238000013527 convolutional neural network Methods 0.000 description 6
- 230000009471 action Effects 0.000 description 5
- 238000013459 approach Methods 0.000 description 5
- 230000015654 memory Effects 0.000 description 5
- 238000004590 computer program Methods 0.000 description 4
- 210000000988 bone and bone Anatomy 0.000 description 3
- 230000010339 dilation Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000033001 locomotion Effects 0.000 description 3
- 238000003860 storage Methods 0.000 description 3
- 210000002478 hand joint Anatomy 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000008450 motivation Effects 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 230000001364 causal effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000005111 flow chemistry technique Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 210000002411 hand bone Anatomy 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000003908 quality control method Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
- 230000036642 wellbeing Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0633—Workflow analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06398—Performance of employee with respect to a job function
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
- G06N5/046—Forward inferencing; Production systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
- G06V40/28—Recognition of hand or arm movements, e.g. recognition of deaf sign language
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/34—Smoothing or thinning of the pattern; Morphological operations; Skeletonisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/64—Three-dimensional objects
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Development Economics (AREA)
- Educational Administration (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Multimedia (AREA)
- Game Theory and Decision Science (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Medical Informatics (AREA)
- Human Computer Interaction (AREA)
- Social Psychology (AREA)
- Psychiatry (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Image Analysis (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
用于实时技能评估的方法及***以及计算机可读介质。这里描述的示例实现方式涉及诸如用于医院的洗手依从性或者工厂中组装产品之类的技能评估的***及方法。示例实现方式涉及身体部位(例如手)跟踪、骨骼跟踪以及深度神经网络,以检测并识别子任务以及评估各子任务的技能。此外,检查子任务的顺序的正确性。除了监测单个用户,示例实现方式还能够用于分析并提高具有多个子任务的工作流设计。
Description
技术领域
本公开总体涉及相机***,更具体地,涉及通过使用相机***进行任务检测和技能评估。
背景技术
使用相机的技能评估能够用于检查任务是否已被执行并且用于评估任务执行得如何。技能评估***在质量控制、依从性、培训、提高工人效率和福祉方面具有有用的应用。
在相关技术中,已经提出了通过深度排序和计算任务和子任务的语义相似性来确定技能的算法。这些相关技术方法通常要求视频是单个任务的单独视频,或者子任务的手动预分段的视频剪辑。
发明内容
对于具有子任务的复杂任务的视频流的更现实的情况,对这些复杂任务的技能评估仍未得到解决。此外,相关技术的另一个问题涉及分析任务工作流设计。例如,当工厂中具有多个子任务的任务工作流周期性地改变时,需要进行监测,以便能够调整并改进工作流。在相关技术中,用视频相机进行改变并手动注释。对于这种实现方式需要更自动化的***。
本文所描述的示例实现方式旨在通过深度学习方法解决上述问题。一种方法是自下而上的方法,用子任务标签(使用卷积神经网络(CNN)和光流)标记视频帧,然后将顺序帧分组为对其计算技能评估得分(例如,使用深度排序)的子任务事件,并且子任务事件被分组为对其检查子任务完成和子任务顺序的任务事件。另一种方法是使用基于骨骼跟踪的3D手部运动的时间卷积网络(TCN)的更专业的架构。在以下公开内容中详细描述这些方法。
本公开的各方面涉及一种方法,该方法涉及如下步骤:从相机***检测用户的与要完成的任务相关联的身体部位;基于被配置为将要完成的所述任务的多个子任务中的每一个与顺序帧相关联的机器学习模型的应用,将从所述相机***接收的顺序帧分组到多个子任务中;以及基于对多个子任务的完成和子任务的顺序正确性的检测,来提供对任务的完成的评估。
本公开的各方面还涉及一种具有指令的计算机程序,该指令涉及从相机***检测用户的与要完成的任务相关联的身体部位;基于被配置为将要完成的所述任务的多个子任务中的每一个与顺序帧相关联的机器学习模型的应用,将从所述相机***接收的顺序帧分组到多个子任务中;以及基于对多个子任务的完成和子任务的顺序正确性的检测,来提供对任务的完成的评估。
本公开的各方面涉及一种***,该***涉及用于从相机***检测用户的与要完成的任务相关联的身体部位的装置;基于被配置为将要完成的所述任务的多个子任务中的每一个与顺序帧相关联的机器学习模型的应用,将从所述相机***接收的顺序帧分组到多个子任务中的装置;以及用于基于对多个子任务的完成和子任务的顺序正确性的检测来提供对任务的完成的评估的装置。
本公开的各方面涉及一种***;该***涉及相机***以及处理器,该处理器被配置为从相机***检测用户的与要完成的任务相关联的身体部位;基于被配置为将要完成的所述任务的多个子任务中的每一个与顺序帧相关联的机器学习模型的应用,将从所述相机***接收的顺序帧分组到多个子任务中;以及基于对多个子任务的完成和子任务的顺序正确性的检测,来提供对任务的完成的评估。
附图说明
图1(a)和图1(b)例示了示例洗手过程。
图2(a)和图2(b)例示了根据示例实现方式的由相机***拍摄的洗手的示例图像。
图3(a)和图3(b)例示了产品的示例组装说明。
图4(a)和图4(b)例示了根据示例实现方式的由相机***拍摄的组装任务的示例图像。
图5(a)和图5(b)例示了根据示例实现方式的***的示例流程图。
图6例示了根据示例实现方式的用于帧标签(frame labeling)的示例流程图。
图7例示了根据示例实现方式的涉及时间卷积网络的示例流程图。
图8例示了根据示例实现方式的涉及相机设置的***的示例硬件图。
具体实施方式
以下详细描述提供了本申请的附图和示例实现方式的进一步细节。为清楚起见,省略了图之间的冗余元件的附图标记和描述。整个说明书中使用的术语是作为示例提供的,并非旨在进行限制。例如,依据本领域普通技术人员实践本申请的实现方式的期望实现方式,术语“自动”的使用可以包括涉及用户或管理员对实现方式的一些方面的控制的全自动实现方式或半自动实现方式。能够由用户通过用户界面或其它输入装置进行选择,或者能够通过期望的算法来实现选择。如本文所述的示例实现方式能够单独使用或组合使用,并且示例实现方式的功能能够根据期望的实现方式通过任何手段来实现。
为了进一步关注这个问题,我们将考虑用手或者用手和工具执行的任务。域的示例包括医院的手卫生依从性(图1(a)、图1(b)、图2(a)和图2(b)),以及在工厂或家中组装物体(图3(a)、图3(b)、图4(a)、图4(b))。
图1(a)和图1(b)例示了示例洗手过程。具体而言,图1(a)例示了根据世界卫生组织手卫生手册的用于手卫生的十一步过程的范例步骤四,并且图1(b)例示出了步骤5。当洗手过程是十一步过程时,步骤四可以被指定为洗手过程的子任务四并且步骤五可以被指定为子任务五。类似地,图3(a)和图3(b)例示了涉及多个步骤的产品的示例组装说明。
示例实现方式涉及用于由诸如手之类的身体部位执行的任务的技能评估的方法。这些任务可涉及医院的洗手依从性,或工厂中组装产品或使用工具。现有方法通常与数据集当中的手动分段的视频剪辑一起操作,并且与具有多步骤子任务的复杂过程相比而具有更简单的任务。为了解决这些问题,示例实现方式应用手跟踪和骨骼跟踪以及深度神经网络,来检测和识别子任务并评估关于每个子任务的技能。此外,检查子任务的顺序是否正确。除了监控个人用户之外,我们的方法还能用于分析和改进具有多个子任务的工作流设计。
在关于图1(a)和图1(b)的子任务的图2(a)和图2(b)中分别示出了由相机***拍摄的关于洗手的图像示例,并且在关于图3(a)和图3(b)的子任务的图4(a)和图4(b)中分别示出了由相机***拍摄的关于组装任务的图像示例。
图5(a)和图5(b)例示了根据示例实现方式的***的示例流程图。具体而言,图5(a)例示了根据示例实现方式的用于实时分析子任务实例的示例流程图。针对子任务,实时分析由各个用户执行的任务实例。在图5(a)的示例中,输入来自相机501的图像,诸如图2(a)和图2(b)、或者图4(a)和图4(b)中所示的图像。在502处,计算机视觉技术分析身体部位(例如,手)与对象的交互或者其中执行的动作。在503,对于特定任务事件实例,确定每个子任务的技能得分、子任务的顺序正确性和子任务的完成。
图5(b)例示了根据示例实现方式的用于分析子任务的工作流程的示例流程图。通过随时间收集关于任务实例的数据来分析任务工作流程。在510处,收集从图5(a)的503的流程所确定的关于任务事件实例的数据。在511处,计算任务工作流统计数据。在512处,针对期望统计数据(例如,均值、方差)的任务事件工作流,计算子任务技能得分、完成时间和顺序正确性。
图6例示了根据示例实现方式的用于帧标签的示例流程图。所提出的帧标签方法是自下而上的方法,其中加标签的帧被分组到子任务事件中,子任务事件被聚合到任务事件中。在图6中的流程图中示出了处理流水线。
在示例实现方式中,相机可以是低成本网络相机、视频相机或红绿蓝深度(RGB-D)相机。利用RGB-D相机,附加深度通道提供灰度深度帧图像流,并且它们与颜色通道帧图像类似地被处理。
在示例实现方式中,在601处,流水线的第一部分是获取当前视频帧,并且使用602处的手检测算法在603处提取手周围的动作所处的区域。根据期望的实现方式,如果相机被设置为仅拍摄场景的相关部分(例如,相机被安装在用于洗手的水槽上方、或被安装在用于组装任务的工作台上方),则可以跳过这些过程。在前一种情况下,仅需要检测,这比手姿势或骨骼估计更稳健;在后一种情况下,不需要手检测或姿势估计,这在存在遮挡或者手-对象交互时提高了稳健性。
处理的下一步是在604处计算帧区域上的密集光流。使用光流的一个动机是它对不同的背景场景是稳健的,这有助于支持不同的设置。另一个动机是它对于少量的遮挡和噪音是稳健的,这能够帮助处理噪声图像,诸如手上的肥皂水。已经表明光流方法成功地用于视频中的动作识别。为了计算光流,能够使用OpenCV计算机视觉库中的诸如算法之类的实现方式。光流处理产生x分量图像和y分量图像。
在605处,示例实现方式使用卷积神经网络(CNN)对光流图像进行分类,以向帧指配子任务标签。对于CNN架构,通过适于与实时交互式应用集成的任何期望的深度学习工具包,利用具有两个交替的卷积层和最大池化层的标准架构,接着是密集层(dense layer)和softmax层。
在606处,在缓冲区中累积其上具有活动性的帧区域的连续序列,并且将这些帧分组到子任务事件中。通过对帧区域的分类子任务标签进行表决,对每个事件缓冲区进行分类并赋予子任务标签。帧的每个光流分量被分别表决。另选地,这里描述的示例实现方式能够对光流分量执行融合,以获得每帧的单个标签;一个示例实现方式涉及在每个流分量的输出上添加全连接网络。
在607处,对于作为视频片段的各子任务事件,能够应用技能评估算法以给予技能评分。技能评估算法能够根据期望的实现方式以任何方式来实现。
在608处,通过基于观察到任务事件被没有活动性或动作的时间段分隔开来确定任务时间边界,将子任务依次分组为任务事件。
最后,在609处,基于子任务的技能分数来为各任务事件指配技能分数。依据期望的实现方式,如果子任务未完成,以及在子任务顺序重要的情况下如果子任务被无序执行,则也能够引发警报。
在示例实现方式中,能够利用3D手部运动的时间卷积网络(TCN)。这里描述的示例实现方式涉及视频流以及实时提取3D骨骼关节作为特征表示。实时3D手跟踪的最新进展表明能够可靠地检测骨骼关节并且与光流相比需要较少的计算。
图7例示了根据示例实现方式的涉及时间卷积网络的示例流程图。
对于在701处从视频获得的各帧,示例实现方式在702处从每个手提取手关节(例如,21个手关节)的2D位置和3D位置以检测3D手骨骼。在703处,流程使用树结构将骨骼位置扁平化为矢量以保持空间层次关系。在704处,树结构资产用于维持从L个视频帧提取的骨骼矢量序列。
在705处,为了预测每帧的子任务,示例实现方式能够涉及序列预测方法。对于语言和活动性识别中的许多序列问题,卷积神经网络能够胜过递归神经网络。在示例实现方式中,采用时间卷积网络(TCN)架构来预测子任务,时间卷积网络与递归网络相比表现得更快并且实现更好的准确性。
假设接收到来自L个视频帧的输入骨骼序列,并且要从帧1至L预测两个标签<subtask,isChange>。这能够经由TCN架构来实现,这确保了等量的输入和输出长度。一种可能的实现方式是从开源TCN库中调整网络结构。例如,网络能够使用扩张因子为1、2、4、8的扩张因果卷积(dilated casual convolution),其从具有与输入层尺寸相同的各隐藏层的1D全卷积网络开始,然后使扩张卷积具有零填充以保持后续层长度相同。
在706,最后的步骤是将子任务的基于帧的预测聚类到根据任何期望实现方式能够进行的任务。
通过图7的示例实现方式,能够生成并训练机器学习算法,以相应地基于相机馈送来检测子任务。机器学习算法是直接使用在使用图7的时间卷积网络的深度学习算法中的时间特征以及要学习的手或身体部位的骨骼生成的。这样的示例实现方式是对相关技术的改进,因为子任务的信息被隔离并且被深入利用到深度学习算法中。
图8例示了根据示例实现方式的涉及相机设置的***的示例硬件图。***800能够包括用于任务拍摄的相机***801、处理器802、存储器803、显示器804和接口(I/F)805。***800被配置为监测任务并且根据期望的实现方式,能够与工作站、特定装置(例如,水槽、生产线位置等)等相关联。
相机***801能够是被配置为根据期望的实现方式来拍摄视频图像和深度图像的任何形式。在示例实现方式中,处理器802可以利用相机***来拍摄正在执行的任务的图像。根据期望的实现方式,显示器804能够是触摸屏的形式或者用于视频会议或用于显示计算机装置的结果的任何其它显示器。显示器804还能够包括具有向执行任务的用户提供反馈(例如,推荐的校正动作、关于是否检测到子任务的完成的指示)的中央控制器的一组显示器。I/F 805依据所期望的实现方式能够包括用于显示器804的诸如键盘、鼠标、触摸板或其它输入装置之类的接口装置。
在示例实现方式中,处理器802能够是包括物理硬件处理器或者硬件处理器和软件处理器的组合的中央处理单元(CPU)的形式。处理器802被配置为接收***的输入,该输入能够包括来自相机801的关于子任务的相机图像。处理器802能够通过利用如本文所述的深度学习识别算法来处理子任务的完成。依据期望的实现方式,处理器802能够由专用硬件替换以便于深度学习识别的实现,所述专用硬件诸如被配置为根据深度学习算法处理图像以进行识别的专用图形处理单元(GPU)、现场可编程门阵列(FPGA)、或者根据所需的实现方式的其它形式。此外,该***能够利用计算机处理器和专用硬件处理器(诸如GPU和FPGA)的混合,以便于期望的实现方式。
如本文所述,处理器802能够被配置为执行图6和图7的流程。处理器802能够被配置为从相机***801检测用户的与要完成的任务相关联的身体部位;基于被配置为将要完成的任务的多个子任务中的每一个与顺序帧相关联的机器学习模型的应用,将从相机***接收的顺序帧分组到多个子任务中;以及基于如图6的流程图中所示的对多个子任务的完成以及子任务的顺序正确性的检测,来提供对任务的完成的评估。虽然示例实现方式中的身体部位是参照手来描述的,但是也可以利用其它身体部位(例如,脚、手臂等)来完成任务,并且本公开不限于此。此外,通过本文描述的示例实现方式能够检测多个身体部位(例如,手脚结合)。
处理器802能够被配置为通过如图6的流程所示的针对相机***的各帧提取身体部位周围的帧区域,从相机***检测用户的与要完成的任务相关联的身份部位。
处理器802能够被配置为通过如图6和图7的流程所示的以下步骤,基于被配置为将要完成的任务的多个子任务中的每一个与顺序帧相关联的机器学习模型的应用,将从相机***接收的顺序帧分组到多个子任务中:应用机器学习模型,以通过对顺序帧中的每一个加标签来将多个子任务中的每一个与顺序帧相关联;基于顺序帧的标签的分组来分割出多个子任务中的每一个;以及将分割出的多个子任务中的顺序子任务分组为要完成的任务。
处理器802能够被配置为通过如图6中所示的如下步骤,基于对多个子任务的完成和子任务的顺序正确性的检测,来提供对任务的完成的评估:通过根据多个子任务的顺序子任务的分组来识别顺序正确性;通过对加标签的顺序帧中的对应顺序帧应用计算机视觉算法来识别多个子任务中的每一个的完成;基于顺序正确性、多个子任务中每一个子任务的完成、以及多个子任务中每一个子任务的技能得分的识别,来计算要完成的任务的另一技能得分。
在示例实现方式中,用户的身体部位能够涉及用户的手,其中要完成的任务是洗手,其中多个子任务是用于进行洗手的步骤,如图1(a)、图1(b)、图2(a)和图2(b)所示。
此外,能够根据期望的实现方式检测与任务相关联的对象(例如,水槽、螺丝刀等)。处理器802被配置为通过检测与任务的一个或更多个相关联对象并且针对相机***的每个帧提取身体部位和一个或更多个相关联对象周围的帧区域,从相机***检测用户的与要完成的任务相关联的身体部位,如图3(a)、图3(b)、图4(a)和图4(b)的示例中所示。
通过本文描述的示例实现方式,能够提供技术解决方案以解决确定***正监测的用户是否正在以正确方式执行任务的问题。在诸如洗手或制造组装的情况下,这种检测***对于确保与规程的依从性或者正在恰当地实施最有效的方法是必要的。
此外,通过如本文所述的评分***,能够监测子任务时间和得分以确定该过程中的给予用户的瓶颈。这样的实现方式允许立即识别可能的方式以修改任务,确定是否需要进一步训练,或者是否应当去除或修改特定子任务以提高给定过程的效率。
如本文所述,示例实现方式能够涉及洗手或其中用户根据一组子任务组装对象或执行任务的工厂设置。通过本文描述的示例实现方式,能够实现在用户正在执行任务时监测用户的实时***。由于特定子任务被隔离和检测以确保与任务的特定例程的依从性,所以这种实现方式是相关技术实现方式的改进。
此外,在本文描述的示例实现方式中,能够实时向用户提供技能评估得分以指示他们执行特定子任务的程度。这样的示例实现方式解决了在各种时间段(例如,每几个月)重新配置的组装线,因为能够提供反馈以确定应该如何调整任务的工作流以及人们执行任务的良好程度以及哪些子任务造成瓶颈或进行得不好。通过这样的反馈,能够相应地调整要执行的任务,这使组装线更高效。
详细描述的一些部分从计算机内的算法或操作的符号表示的角度来呈现的。这些算法描述和符号表示是数据处理领域的普通技术人员将它们的创新的本质传达给本领域其它技术人员的手段。算法是导致期望的最终状态或结果的一系列定义步骤。在示例实现方式中,所实施的步骤需要有形量的物理操纵以实现有形结果。
除非另外特别说明,否则从讨论中可明显看出,应理解,在整个说明书中,利用诸如“处理”、“计算”、“计算出”、“确定”、“显示”等术语的讨论能够包括计算机***或其它信息处理装置的动作和过程,计算机***或其它信息处理装置将在计算机***的寄存器和存储器内表示为物理(电子)量的数据操纵和变换成在计算机***的存储器或寄存器或其它信息存储、传输或显示装置内类似地呈现为物理量的其它数据。
示例实现方式还可以涉及用于执行本文操作的设备。该设备可以为所需目的而专门构造的,或者它可以包括通过一个或更多个计算机程序选择性地激活或重新配置的一个或更多个通用计算机。这样的计算机程序可以存储在诸如计算机可读存储介质或计算机可读信号介质之类的计算机可读介质中。计算机可读存储介质可以涉及诸如但不限于光盘、磁盘、只读存储器、随机存取存储器、固态装置和驱动器之类的有形介质、或者适于存储电子信息的任何其它类型的有形或非暂时性介质。计算机可读信号介质可以包括诸如载波之类的介质。这里呈现的算法和显示并非固有地与任何特定计算机或其它设备相关。计算机程序能够涉及包括执行期望实现方式的操作的指令的纯软件实现方式。
根据这里的示例,各种通用***可以与程序和模块一起使用,或者可以证明便于构造更专用设备以执行期望的方法步骤。另外,未参照任何特定编程语言描述示例实现方式。将理解,可以使用各种编程语言来实现如本文所述的示例实现方式的教导。编程语言的指令可以由一个或更多个处理装置(例如,中央处理单元(CPU)、处理器或控制器)执行。
如本领域中已知的,上述操作能够由硬件、软件或软件和硬件的一些组合来执行。可以使用电路和逻辑装置(硬件)来实现示例实现方式的各个方面,而其它方面可以使用机器可读介质上存储的指令(软件)来实现,如果由处理器执行该指令则将使处理器执行实施本申请的实现的方法。此外,本申请的一些示例实现方式可以仅在硬件中执行,而其它示例实现方式可以仅在软件中执行。此外,所描述的各种功能能够在单个单元中执行,或者能够以任何数量的方式分布在多个组件上。当由软件执行时,该方法可以基于计算机可读介质上存储的指令由诸如通用计算机之类的处理器来执行。如果需要,指令能够以压缩和/或加密格式存储在介质上。
此外,考虑到说明书及实践本申请的教导,本申请的其它实现对于本领域技术人员而言将是显而易见的。所描述的示例实现方式的各个方面和/或部件可以单独使用或以任何组合使用。旨在将说明书和示例实现方式仅视为示例,本申请的真实范围和精神由所附权利要求指示。
Claims (12)
1.一种方法,该方法包括以下步骤:
使用计算机视觉技术分析从相机***接收的多个图像帧,以在所述多个图像帧中检测用户的与要完成的任务相关联的身体部位;
基于被配置为将要完成的所述任务的多个子任务中的每一个与顺序图像帧相关联的机器学习模型的应用,将从所述相机***接收的所述多个图像帧中的顺序图像帧分组到所述多个子任务中,所述分组包括以下步骤:
计算所述多个图像帧上的密集光流,计算所述密集光流的步骤包括为所述多个图像帧中的每一个产生x分量图像和y分量图像;
基于使用所述机器学习模型,通过对所述顺序图像帧中的每一个分配子任务标签来将所述多个子任务中的每一个与所述顺序图像帧相关联,以使用所述机器学习模型对所述顺序图像帧的x分量和y分量中的每一个进行分类;
基于对所述顺序图像帧的所述子任务标签进行分组来分割出所述多个子任务中的每一个;以及
将所分割出的多个子任务中的顺序子任务分组为要完成的所述任务;以及基于对所述多个子任务的完成和所述子任务的顺序正确性的检测,来提供对所述任务的完成的评估,所述评估包括以下步骤:
根据所述多个子任务中的顺序子任务的分组,识别所述子任务的顺序正确性;
通过对加标签的顺序图像帧中的对应顺序图像帧应用计算机视觉算法,来识别所述多个子任务中的每一个的完成;以及
基于所识别的顺序正确性、所识别的所述多个子任务中的每一个的完成以及所述多个子任务中的每一个的技能得分,计算要完成的所述任务的技能得分。
2.根据权利要求1所述的方法,其中,从所述相机***检测所述用户的与要完成的所述任务相关联的所述身体部位的步骤包括针对所述相机***的每个帧提取所述身体部位周围的帧区域。
3.根据权利要求1所述的方法,其中,所述用户的所述身体部位包括所述用户的手,其中,要完成的所述任务是洗手,其中,所述多个子任务包括用于进行洗手的步骤。
4.根据权利要求1所述的方法,其中,从所述相机***检测所述用户的与要完成的所述任务相关联的所述身体部位的步骤进一步包括:
检测与所述任务的一个或更多个相关联对象,以及
针对所述相机***的每个图像帧提取所述身体部位和所述一个或更多个相关联对象周围的帧区域。
5.一种非暂时性计算机可读介质,该非暂时性计算机可读介质存储用于执行处理的指令,该处理包括以下步骤:
使用计算机视觉技术分析从相机***接收的多个图像帧,以在所述多个图像帧中检测用户的与要完成的任务相关联的身体部位;
基于被配置为将要完成的所述任务的多个子任务中的每一个与顺序图像帧相关联的机器学习模型的应用,将从所述相机***接收的所述多个图像帧中的顺序图像帧分组到所述多个子任务中,所述分组包括以下步骤:
计算所述多个图像帧上的密集光流,计算所述密集光流的步骤包括为所述多个图像帧中的每一个产生x分量图像和y分量图像;
基于使用所述机器学习模型,通过对所述顺序图像帧中的每一个分配子任务标签来将所述多个子任务中的每一个与所述顺序图像帧相关联,以使用所述机器学习模型对所述顺序图像帧的x分量和y分量中的每一个进行分类;
基于对所述顺序图像帧的所述子任务标签进行分组来分割出所述多个子任务中的每一个;以及
将所分割出的多个子任务中的顺序子任务分组为要完成的所述任务;以及基于对所述多个子任务的完成和所述子任务的顺序正确性的检测,来提供对所述任务的完成的评估,所述评估包括以下步骤:
根据所述多个子任务中的顺序子任务的分组,识别所述子任务的顺序正确性;
通过对加标签的顺序图像帧中的对应顺序图像帧应用计算机视觉算法,来识别所述多个子任务中的每一个的完成;以及
基于所识别的顺序正确性、所识别的所述多个子任务中的每一个的完成以及所述多个子任务中的每一个的技能得分,计算要完成的所述任务的技能得分。
6.根据权利要求5所述的非暂时性计算机可读介质,其中,从所述相机***检测所述用户的与要完成的所述任务相关联的所述身体部位的步骤包括针对所述相机***的每个图像帧提取所述身体部位周围的帧区域。
7.根据权利要求5所述的非暂时性计算机可读介质,其中,所述用户的所述身体部位包括所述用户的手,其中,要完成的所述任务是洗手,其中,所述多个子任务包括用于进行洗手的步骤。
8.根据权利要求5所述的非暂时性计算机可读介质,其中,从所述相机***检测所述用户的与要完成的所述任务相关联的所述身体部位的步骤进一步包括:
检测与所述任务的一个或更多个相关联对象,以及
针对所述相机***的每个图像帧提取所述身体部位和所述一个或更多个相关联对象周围的帧区域。
9.一种***,该***包括:
相机***;以及
处理器,该处理器配置为:
使用计算机视觉技术分析从相机***接收的多个图像帧,以在所述多个图像帧中检测用户的与要完成的任务相关联的身体部位;
基于被配置为将要完成的所述任务的多个子任务中的每一个与顺序图像帧相关联的机器学习模型的应用,将从所述相机***接收的所述多个图像帧中的顺序图像帧分组到所述多个子任务中,所述分组包括以下步骤:
计算所述多个图像帧上的密集光流,计算所述密集光流的步骤包括为所述多个图像帧中的每一个产生x分量图像和y分量图像;
基于使用所述机器学习模型,通过对所述顺序图像帧中的每一个分配子任务标签来将所述多个子任务中的每一个与所述顺序图像帧相关联,以使用所述机器学习模型对所述顺序图像帧的x分量和y分量中的每一个进行分类;
基于对所述顺序图像帧的所述子任务标签进行分组来分割出所述多个子任务中的每一个;以及
将所分割出的多个子任务中的顺序子任务分组为要完成的所述任务;以及基于对所述多个子任务的完成和所述子任务的顺序正确性的检测,来提供对所述任务的完成的评估,所述评估包括以下步骤:
根据所述多个子任务中的顺序子任务的分组,识别所述子任务的顺序正确性;
通过对加标签的顺序图像帧中的对应顺序图像帧应用计算机视觉算法,来识别所述多个子任务中的每一个的完成;以及
基于所识别的顺序正确性、所识别的所述多个子任务中的每一个的完成以及所述多个子任务中的每一个的技能得分,计算要完成的所述任务的技能得分。
10.根据权利要求9所述的***,其中,所述处理器被配置为通过针对所述相机***的每个图像帧提取所述身体部位周围的帧区域,从所述相机***检测所述用户的与要完成的所述任务相关联的所述身体部位。
11.根据权利要求9所述的***,其中,所述用户的所述身体部位包括所述用户的手,其中,要完成的所述任务是洗手,其中,所述多个子任务包括用于进行洗手的操作。
12.根据权利要求9所述的***,其中,所述处理器被配置为通过以下操作,从所述相机***检测所述用户的与要完成的所述任务相关联的身体部位:
检测与所述任务的一个或更多个相关联对象,以及
针对所述相机***的每个图像帧提取所述身体部位和所述一个或更多个相关联对象周围的帧区域。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US16/201,868 US11093886B2 (en) | 2018-11-27 | 2018-11-27 | Methods for real-time skill assessment of multi-step tasks performed by hand movements using a video camera |
US16/201,868 | 2018-11-27 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111222737A CN111222737A (zh) | 2020-06-02 |
CN111222737B true CN111222737B (zh) | 2024-04-05 |
Family
ID=70771159
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910957182.4A Active CN111222737B (zh) | 2018-11-27 | 2019-10-10 | 用于实时技能评估的方法及***以及计算机可读介质 |
Country Status (3)
Country | Link |
---|---|
US (1) | US11093886B2 (zh) |
JP (1) | JP7392348B2 (zh) |
CN (1) | CN111222737B (zh) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11106949B2 (en) * | 2019-03-22 | 2021-08-31 | Microsoft Technology Licensing, Llc | Action classification based on manipulated object movement |
US10930032B1 (en) * | 2019-08-22 | 2021-02-23 | International Business Machines Corporation | Generating concept images of human poses using machine learning models |
US11017655B2 (en) * | 2019-10-09 | 2021-05-25 | Visualq | Hand sanitation compliance enforcement systems and methods |
US11636304B2 (en) * | 2020-01-03 | 2023-04-25 | International Business Machines Corporation | Creating response schedule for tasks from cognitive state of a user |
US11017690B1 (en) | 2020-01-29 | 2021-05-25 | Retrocausal, Inc. | System and method for building computational models of a goal-driven task from demonstration |
US10911775B1 (en) | 2020-03-11 | 2021-02-02 | Fuji Xerox Co., Ltd. | System and method for vision-based joint action and pose motion forecasting |
WO2022056356A1 (en) * | 2020-09-11 | 2022-03-17 | AI Data Innovation Corporation | Disinfection monitoring system and method |
CN114494087A (zh) * | 2020-11-12 | 2022-05-13 | 安霸国际有限合伙企业 | 无监督的多尺度视差/光流融合 |
US11671249B1 (en) * | 2022-07-25 | 2023-06-06 | Gravystack, Inc. | Apparatus for generating an action-based collective |
CN114971434B (zh) * | 2022-08-01 | 2022-10-21 | 广州天维信息技术股份有限公司 | 一种基于分布式计算的绩效对比分析*** |
WO2024062882A1 (ja) * | 2022-09-20 | 2024-03-28 | 株式会社Ollo | プログラム、情報処理方法、及び情報処理装置 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104933436A (zh) * | 2014-03-19 | 2015-09-23 | 通用汽车环球科技运作有限责任公司 | 具有动态完整性评分的基于视觉的多摄像头工厂监测 |
CN106446847A (zh) * | 2016-09-30 | 2017-02-22 | 深圳市唯特视科技有限公司 | 一种基于视频数据的人体动作分析方法 |
CN106663126A (zh) * | 2014-09-09 | 2017-05-10 | 微软技术许可有限责任公司 | 用于运动任务分析的视频处理 |
CN106797451A (zh) * | 2014-11-14 | 2017-05-31 | 英特尔公司 | 具有模型验证和管理的视觉对象跟踪*** |
CN107241572A (zh) * | 2017-05-27 | 2017-10-10 | 国家电网公司 | 学员实训视频追踪评价*** |
CN107403142A (zh) * | 2017-07-05 | 2017-11-28 | 山东中磁视讯股份有限公司 | 一种微表情的检测方法 |
WO2018070414A1 (ja) * | 2016-10-11 | 2018-04-19 | 富士通株式会社 | 運動認識装置、運動認識プログラムおよび運動認識方法 |
CN108985240A (zh) * | 2018-07-23 | 2018-12-11 | 北京百度网讯科技有限公司 | 评估对象检测算法的方法、装置、电子设备和存储介质 |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8237558B2 (en) * | 2007-03-30 | 2012-08-07 | University Health Network | Hand hygiene compliance system |
US20090219131A1 (en) * | 2008-02-28 | 2009-09-03 | Barnett Michael H | System for tracking hand washing and other tasks |
JP5097965B2 (ja) * | 2008-05-26 | 2012-12-12 | 学校法人兵庫医科大学 | 手指衛生励行システム |
US20100167248A1 (en) * | 2008-12-31 | 2010-07-01 | Haptica Ltd. | Tracking and training system for medical procedures |
US9965673B2 (en) * | 2011-04-11 | 2018-05-08 | Intel Corporation | Method and apparatus for face detection in a frame sequence using sub-tasks and layers |
JP5884554B2 (ja) * | 2012-03-01 | 2016-03-15 | 住友電気工業株式会社 | 手洗いモニタ、手洗いモニタ方法および手洗いモニタプログラム |
WO2014104360A1 (ja) * | 2012-12-28 | 2014-07-03 | 株式会社東芝 | 動作情報処理装置及び方法 |
JP6305448B2 (ja) * | 2016-01-29 | 2018-04-04 | アース環境サービス株式会社 | 手洗い監視システム |
WO2017150211A1 (ja) * | 2016-03-03 | 2017-09-08 | コニカミノルタ株式会社 | 行動認識装置及び行動学習装置並びに行動認識プログラム及び行動学習プログラム |
JP6757010B1 (ja) * | 2019-10-29 | 2020-09-16 | 株式会社エクサウィザーズ | 動作評価装置、動作評価方法、動作評価システム |
JP2021174488A (ja) * | 2020-04-30 | 2021-11-01 | 株式会社Acculus | 手洗い評価装置および手洗い評価プログラム |
JP6875028B1 (ja) * | 2020-04-30 | 2021-05-19 | 株式会社Acculus | 手洗い評価装置および手洗い評価プログラム |
-
2018
- 2018-11-27 US US16/201,868 patent/US11093886B2/en active Active
-
2019
- 2019-09-24 JP JP2019172835A patent/JP7392348B2/ja active Active
- 2019-10-10 CN CN201910957182.4A patent/CN111222737B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104933436A (zh) * | 2014-03-19 | 2015-09-23 | 通用汽车环球科技运作有限责任公司 | 具有动态完整性评分的基于视觉的多摄像头工厂监测 |
CN106663126A (zh) * | 2014-09-09 | 2017-05-10 | 微软技术许可有限责任公司 | 用于运动任务分析的视频处理 |
CN106797451A (zh) * | 2014-11-14 | 2017-05-31 | 英特尔公司 | 具有模型验证和管理的视觉对象跟踪*** |
CN106446847A (zh) * | 2016-09-30 | 2017-02-22 | 深圳市唯特视科技有限公司 | 一种基于视频数据的人体动作分析方法 |
WO2018070414A1 (ja) * | 2016-10-11 | 2018-04-19 | 富士通株式会社 | 運動認識装置、運動認識プログラムおよび運動認識方法 |
CN107241572A (zh) * | 2017-05-27 | 2017-10-10 | 国家电网公司 | 学员实训视频追踪评价*** |
CN107403142A (zh) * | 2017-07-05 | 2017-11-28 | 山东中磁视讯股份有限公司 | 一种微表情的检测方法 |
CN108985240A (zh) * | 2018-07-23 | 2018-12-11 | 北京百度网讯科技有限公司 | 评估对象检测算法的方法、装置、电子设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
US11093886B2 (en) | 2021-08-17 |
US20200167715A1 (en) | 2020-05-28 |
CN111222737A (zh) | 2020-06-02 |
JP7392348B2 (ja) | 2023-12-06 |
JP2020087437A (ja) | 2020-06-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111222737B (zh) | 用于实时技能评估的方法及***以及计算机可读介质 | |
US10089556B1 (en) | Self-attention deep neural network for action recognition in surveillance videos | |
WO2021093468A1 (zh) | 视频分类方法、模型训练方法、装置、设备及存储介质 | |
US20190138798A1 (en) | Time domain action detecting methods and system, electronic devices, and computer storage medium | |
US20200272823A1 (en) | Weakly-Supervised Action Localization by Sparse Temporal Pooling Network | |
US9001199B2 (en) | System and method for human detection and counting using background modeling, HOG and Haar features | |
WO2021093329A1 (zh) | 交互行为识别方法、装置、计算机设备和存储介质 | |
US10963700B2 (en) | Character recognition | |
US11314089B2 (en) | Method and device for evaluating view images | |
CN111052128B (zh) | 用于检测和定位视频中的对象的描述符学习方法 | |
Bosch et al. | Quantifying classroom instructor dynamics with computer vision | |
Bian et al. | Machine learning-based real-time monitoring system for smart connected worker to improve energy efficiency | |
CN111985333B (zh) | 一种基于图结构信息交互增强的行为检测方法及电子装置 | |
CN114730407A (zh) | 使用神经网络对工作环境中的人类行为进行建模 | |
Rodriguez et al. | Deep learning applied to capacity control in commercial establishments in times of COVID-19 | |
JP7428769B2 (ja) | 柔軟で適応的なロボット学習のための人間ロボット協働 | |
US11216656B1 (en) | System and method for management and evaluation of one or more human activities | |
Benavent-Lledo et al. | Predicting human-object interactions in egocentric videos | |
Yang et al. | Skeleton-based hand gesture recognition for assembly line operation | |
Chang et al. | Deep Learning Approaches for Dynamic Object Understanding and Defect Detection | |
TW202139061A (zh) | 動作識別方法及裝置、電腦可讀存儲介質 | |
Lin et al. | Rethinking video salient object ranking | |
Zhong | Video processing for safe food handling | |
Khoo | Event detection for smart conference room using multi-stream convolutional neural network | |
US20240169762A1 (en) | Methods for featureless gaze tracking in ecologically valid conditions |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
CB02 | Change of applicant information |
Address after: Tokyo, Japan Applicant after: Fuji film business innovation Co.,Ltd. Address before: Tokyo, Japan Applicant before: Fuji Xerox Co.,Ltd. |
|
CB02 | Change of applicant information | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |