CN116486471A - 信息处理装置和信息处理方法 - Google Patents

信息处理装置和信息处理方法 Download PDF

Info

Publication number
CN116486471A
CN116486471A CN202211630301.3A CN202211630301A CN116486471A CN 116486471 A CN116486471 A CN 116486471A CN 202211630301 A CN202211630301 A CN 202211630301A CN 116486471 A CN116486471 A CN 116486471A
Authority
CN
China
Prior art keywords
operator
information processing
moving image
line
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211630301.3A
Other languages
English (en)
Inventor
南百濑勇
藤木翼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Omron Corp
Original Assignee
Omron Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Omron Corp filed Critical Omron Corp
Publication of CN116486471A publication Critical patent/CN116486471A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0631Resource planning, allocation, distributing or scheduling for enterprises or organisations
    • G06Q10/06311Scheduling, planning or task assignment for a person or group
    • G06Q10/063114Status monitoring or status determination for a person or group
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B19/00Programme-control systems
    • G05B19/02Programme-control systems electric
    • G05B19/418Total factory control, i.e. centrally controlling a plurality of machines, e.g. direct or distributed numerical control [DNC], flexible manufacturing systems [FMS], integrated manufacturing systems [IMS] or computer integrated manufacturing [CIM]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • G06Q10/105Human resources
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • G06V40/176Dynamic expression
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/18Eye characteristics, e.g. of the iris
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/02Total factory control, e.g. smart factories, flexible manufacturing systems [FMS] or integrated manufacturing systems [IMS]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Business, Economics & Management (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Human Computer Interaction (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Strategic Management (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Artificial Intelligence (AREA)
  • Economics (AREA)
  • Quality & Reliability (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • Tourism & Hospitality (AREA)
  • Operations Research (AREA)
  • Marketing (AREA)
  • Ophthalmology & Optometry (AREA)
  • Manufacturing & Machinery (AREA)
  • Game Theory and Decision Science (AREA)
  • Educational Administration (AREA)
  • Development Economics (AREA)
  • Automation & Control Theory (AREA)
  • Mathematical Physics (AREA)
  • Social Psychology (AREA)
  • Psychiatry (AREA)
  • Image Analysis (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

信息处理装置和信息处理方法。信息处理装置(10)具有:摄像头接口(16),其从设置于生产现场且拍摄作业者及其周围的摄像头(40)、和拍摄作业者的面部的摄像头(30)取得动态图像;以及处理器(11)。处理器(11)使用推断模型,从摄像头(40)的动态图像所包含的连续的规定张数的帧中,检测作业者的作业的动作区间。处理器(11)检测摄像头(30)的动态图像的各帧中映现的作业者的情绪和视线方向。进而,处理器(11)提供检测结果。

Description

信息处理装置和信息处理方法
技术领域
本公开涉及信息处理装置和信息处理方法。
背景技术
以往,进行了使用由设置于工厂等作业现场的摄像头拍摄到的动态图像来改善作业现场所包含的作业工序的尝试。例如,日本特开2020-204819号公报公开了对通过顶棚摄像头的拍摄得到的动态图像进行图像分析的信息处理装置。信息处理装置通过对动态图像进行图像分析,判定在与各工序对应的监视区域中是否存在作业者,生成表示判定为在监视区域中存在作业者的时间段的数据。
在日本特开2020-204819号公报所公开的技术中,虽然监视在与各工序对应的监视区域中是否存在作业者,但无法监视到作业者的详细状况。
发明内容
本公开是鉴于上述问题而完成的,其目的在于提供一种能够掌握作业者的详细状况的信息处理装置以及信息处理方法。
根据本公开的一例,信息处理装置具有取得部、动作区间检测部和提供部。取得部从设置于生产现场、且拍摄对象作业者和对象作业者的周围的摄像头取得动态图像。动作区间检测部使用推断模型,从动态图像所包含的连续的规定张数的第1帧中,检测在规定张数的第1帧中映现的对象作业者的作业的动作区间。提供部提供动作区间检测部的检测结果。推断模型是通过使用了多个学习数据集的学习处理而生成的。多个学习数据集分别包含:在映现有特定作业者的动态图像中包含的、连续的规定张数的第2帧;以及标签,其表示在规定张数的第2帧中映现的特定作业者的作业的动作区间。
根据本公开的一例,信息处理装置具有:取得部,其从设置于生产现场、且拍摄作业者的面部的摄像头取得动态图像;情绪检测部,其检测在动态图像的各帧中映现的作业者的情绪;以及提供部,其提供由情绪检测部检测的情绪的推移。
在上述公开中,优选的是,情绪检测部输出情绪的多个种类各自的得分。优选的是,提供部还根据多个种类中的对象种类的得分脱离规定范围这一情况,提供促使作业者的关注的通知。
根据本公开的一例,信息处理装置具有:取得部,其从设置于生产现场、且拍摄作业者的面部的摄像头取得动态图像;视线检测部,其检测在动态图像的各帧中映现的作业者的视线方向;以及提供部,其提供映现有作业者的眼前存在的物体的图像。提供部基于由视线检测部检测出的视线方向,决定图像中的作业者的视点的位置,在图像中,在所决定的位置处显示标记。
根据本公开的一例,信息处理方法具有以下步骤:从设置于生产现场、且拍摄对象作业者和对象作业者的周围的摄像头取得动态图像;使用推断模型,从动态图像所包含的连续的规定张数的第1帧中,检测在规定张数的第1帧中映现的对象作业者的作业的动作区间;以及提供检测结果。推断模型是通过使用了多个学习数据集的学习处理而生成的,多个学习数据集分别包含:在映现有特定作业者的动态图像中包含的、连续的规定张数的第2帧;以及标签,其表示在规定张数的第2帧中映现的特定作业者的作业的动作区间。
根据本公开的一例,信息处理方法具有以下步骤:从设置于生产现场、且拍摄作业者的面部的摄像头取得动态图像;检测在动态图像的各帧中映现的作业者的情绪;以及提供所检测的情绪的推移。
在上述公开中,优选的是,进行检测的步骤包含以下步骤:输出情绪的多个种类各自的得分。进行提供的步骤优选包含以下步骤:根据多个种类中的对象种类的得分脱离规定范围这一情况,提供促使作业者的关注的通知。
根据本公开的一例,信息处理方法具有以下步骤:从设置于生产现场、且拍摄作业者的面部的摄像头取得动态图像;检测在动态图像的各帧中映现的作业者的视线方向;以及提供映现有作业者的眼前存在的物体的图像。进行提供的步骤包含以下步骤:基于检测出的视线方向,决定图像中的作业者的视点的位置;以及在图像中,在所决定的位置处显示标记。
根据这些公开,用户能够掌握作业者的详细状况(作业的动作区间、视线方向、情绪)。
本发明的上述以及其他目的、特征、方面以及优点根据与附图相关联地理解的和本发明有关的以下详细说明而变得明确。
附图说明
图1是表示应用本实施方式的信息处理装置的***的整体结构的图。
图2是表示实施方式的信息处理装置的硬件结构的一例的示意图。
图3是表示实施方式的信息处理装置的功能结构的一例的图。
图4是表示推断模型的一例的图。
图5是表示与对应于工序“焊接”的3个动作区间分别对应的3个帧、和不属于任何动作区间的帧的图。
图6是表示估计出的动作区间的验证结果的图。
图7是表示提供画面的一例的图。
图8是表示提供画面的另一例的图。
图9是表示提供画面的又一例的图。
图10是表示作业者的情绪与生产指标的关系的图。
具体实施方式
参照附图对本发明的实施方式进行详细说明。另外,对图中的相同或相应的部分标注相同的标号并不重复其说明。以下说明的各变形例也可以适当地选择性组合。
图1是表示应用本实施方式的信息处理装置的***的整体结构的图。如图1所示,***1具有生产线2、信息处理装置10、PLC(Programmable Logic Controller:可编程逻辑控制器)20以及摄像头30、40。
生产线2包含多个工序3_1~3_n,生产各种产品。多个工序3_1~3_n例如包含“焊接”工序、“基板的组装”工序、“基板向主体的组装”工序、“检查”工序等。在生产线的各工序中能够设置各种设备。设备包含机器人、加工装置、检查装置、各种传感器等。
PLC 20是控制生产线2整体的控制装置,与设置于生产线2的设备可通信地连接。作为将PLC 20与设备可通信地连接的网络,可使用各种工业用Ethernet(注册商标)。作为工业用Ethernet(注册商标),例如已知EtherCAT(注册商标)、Profinet IRT、MECHATROLINK(注册商标)-III、Powerlink、SERCOS(注册商标)-III、CIP Motion等,可以采用它们中的任意一种。并且,也可以使用工业用Ethernet(注册商标)以外的现场网络。例如,如果是不进行运动控制的情况,则也可以使用DeviceNet、CompoNet/IP(注册商标)等。
PLC 20作为主从控制***中的主设备进行动作,取得来自设备的信息作为输入数据。PLC 20按照预先编入的用户程序,执行使用了所取得的输入数据的运算处理。PLC 20根据运算处理的执行,决定针对主从控制***的控制内容,并将与该控制内容对应的控制数据输出到设备。PLC 20以规定的周期(控制周期)反复执行来自设备的输入数据的取得和向设备的控制数据的输出。
摄像头30、40设置为对在生产线2中进行作业的作业者进行拍摄。在图1所示的例子中,摄像头30、40设置成拍摄工序3-3的作业者4。具体而言,摄像头30设置于能够从正面拍摄作业者4的面部的位置。摄像头40被设定在能够拍摄作业者4和工序3-3的作业台的位置。摄像头30、40将通过拍摄得到的动态图像数据(以下,简称为“动态图像”。)输出到信息处理装置10。另外,摄像头30、40不仅可以设置在工序3-3中,也可以设置在工序3-3以外的工序中。
信息处理装置10例如是通用的计算机,基于从摄像头30、40取得的动态图像,分析在工序3-3中进行作业的作业者4的详细状况。此外,信息处理装置10在分析作业者4的状况时,也可以利用PLC 20取得的输入数据以及从PLC 20输出的控制数据。
<信息处理装置的硬件结构>
图2是表示实施方式的信息处理装置的硬件结构的一例的示意图。如图2所示,信息处理装置10典型地具有遵循通用的计算机架构的结构。具体而言,信息处理装置10包含CPU(Central Processing Unit:中央处理单元)或MPU(Micro-Processing Unit:微处理单元)等处理器11、内存12、存储器13、显示控制器14、输入接口15、摄像头接口16以及通信接口17。这各个部分经由总线以能够相互进行数据通信的方式连接。
处理器11通过将存储器13中存储的各种程序在内存12中展开并执行,实现本实施方式的各种处理。
内存12典型地是DRAM等易失性的存储装置,存储从存储器13读出的程序等。
存储器13典型的是硬盘驱动器等非易失性的磁存储装置。存储器13存储由处理器11执行的模型生成程序131、动作区间检测程序134、情绪检测程序135、视线检测程序136以及提供程序137。进而,存储器13存储在模型生成程序131的执行中利用的多个学习数据集132、和通过模型生成程序131的执行而生成的推断模型133。安装在存储器13中的各种程序以保存在存储卡等中的状态流通。
显示控制器14与显示装置70连接,按照来自处理器11的内部命令,向显示装置70输出用于显示各种信息的信号。
输入接口15对处理器11与键盘、鼠标、触摸面板、专用控制台等输入装置75之间的数据传输进行中介。即,输入接口15受理通过用户操作输入装置75而给出的操作指令。
摄像头接口16对处理器11与摄像头30、40之间的数据传输进行中介。更具体而言,从处理器11经由摄像头接口16向摄像头30、40输出拍摄指示。摄像头接口16将根据拍摄指示而从摄像头30、40接收到的动态图像输出到处理器11。摄像头接口16作为从摄像头30、40取得动态图像的取得部进行动作。
通信接口17对处理器11与外部设备(例如PLC 20)之间的数据传输进行中介。通信接口17典型地包含Ethernet(注册商标)、USB(Universal Serial Bus:通用串行总线)等。此外,保存在存储器13中的各种程序也可以经由通信接口17从分发服务器等下载。
在利用如上所述的具有遵循通用计算机架构的结构的计算机的情况下,除了用于提供本实施方式的功能的应用以外,还可以安装用于提供计算机的基本功能的OS(Operating System:操作***)。在该情况下,本实施方式的程序也可以以规定的顺序和定时调用作为OS的一部分而提供的程序模块中的必要的模块来执行处理。即,本实施方式的程序本身有时也不包含上述那样的模块,而与OS协作来执行处理。
此外,也可以取而代之,将通过模型生成程序131、动作区间检测程序134、情绪检测程序135、视线检测程序136以及提供程序137的执行而提供的功能的一部分或者全部作为专用的硬件电路来安装。
<信息处理装置的功能结构>
图3是表示实施方式的信息处理装置的功能结构的一例的图。如图3所示,信息处理装置10具有存储部101、模型生成部102、动作区间检测部103、情绪检测部104、视线检测部105以及提供部106。存储部101通过内存12和存储器13来实现。模型生成部102通过处理器11执行模型生成程序131来实现。动作区间检测部103通过处理器11执行动作区间检测程序134来实现。情绪检测部104通过处理器11执行情绪检测程序135来实现。视线检测部105通过处理器11执行视线检测程序136来实现。提供部106通过显示控制器14、输入接口15和执行提供程序137的处理器11来实现。
(与动作区间的检测功能相关的结构)
各工序的作业包含多个动作区间。例如,在“焊接”工序的情况下,包含:将基板从前一工序搬入并将基板安装于夹具的动作区间;将部件焊接于基板的动作区间;以及将基板从夹具取出并将基板向下一工序搬出的动作区间。
模型生成部102生成推断模型133,推断模型133对通过摄像头40的拍摄而得到的动态图像的各帧所属的动作区间进行推断。模型生成部102将所生成的推断模型133保存在存储部101中。
推断模型133例如可以适当构成为能够通过规定的算法、规定的规则、函数式等来执行运算处理,该运算处理执行与对象数据对应的推断任务。推断模型133的输出可以适当地构成为能够确定执行了推断任务的结果。在本实施方式的一例中,推断模型133由通过机器学习生成的训练完毕的机器学习模型构成。机器学习模型具有能够通过机器学习进行调整的参数。机器学习模型的结构和种类可以分别根据实施方式适当选择。
图4是表示推断模型的一例的图。图4示出了由神经网络构成的推断模型133。
如图4所示,推断模型133具有输入层51、1个以上的中间(隐藏)层52以及输出层53。中间层52的数量可以根据实施方式适当决定。中间层52也可以省略。构成推断模型133的神经网络的层数可以根据实施方式适当决定。输入层51可以适当地构成为能够接收对象数据。输出层53可以适当地构成为输出与推断结果对应的值。输入层51也可以构成为能够接收对象数据以外的信息,输出层53也可以构成为输出与推断结果对应的信息以外的信息。
输入层51、中间层52以及输出层53分别具有1个或多个节点(神经元)。输入层51、中间层52以及输出层53各自所包含的节点的数量没有特别限定,可以根据实施方式适当决定。输入层51、中间层52及输出层53各自所包含的各节点可以与相邻的层的所有节点耦合。由此,推断模型133可以由全耦合型神经网络构成。但是,各节点的耦合关系也可以不限定于这样的例子,可以根据实施方式适当决定。例如,各节点也可以与相邻的层的特定节点连接,或者与相邻的层以外的层的节点连接。
对节点间的各个耦合设定权重(耦合负载)。对各节点设定阈值,基本上,根据各输入与各权重之积的和是否超过阈值来决定各节点的输出。阈值也可以通过激活函数来表现。在该情况下,将各输入与各权重之积的和输入到激活函数,并执行激活函数的运算,由此决定各节点的输出。激活函数的种类可以任意选择。输入层51、中间层52以及输出层53所包含的节点间的各耦合的权重、以及各节点的阈值是推断模型133的运算处理所利用的参数的一例。
在机器学习中,推断模型133的参数的值被适当调整为使用多个学习数据集132来获得执行期望的推断任务的能力。学习数据集132由训练数据和正解标签的组合构成。在一例中,关于学习数据集132,通过对推断模型133进行训练(调整参数的值),使得通过将训练数据输入到推断模型133而从推断模型133得到的推断任务的执行结果适合于对应的正解标签,从而构成机器学习。在机器学习的方法中,根据机器学习模型,例如可以采用误差反向传播法等公知的方法。
在本实施方式中,学习数据集132是根据通过摄像头40的拍摄而获得的动态图像来预先创建的。在动态图像中映现有为了机器学习而选定的特定作业者。多个学习数据集132分别包含:训练数据,其是动态图像中包含的连续的规定张数的帧;以及正确标签,其表示训练数据中映现的特定作业者的作业的动作区间。由此,通过输入规定张数的帧,生成输出标签的推断模型133,标签表示推断的动作区间。
动作区间检测部103检测从摄像头40得到的动态图像的各帧所属的动作区间。具体而言,动作区间检测部103将包含动作区间的检测对象帧(以下,称为“对象帧”)的、连续的规定张数的帧输入推断模型133。例如,将由对象帧之前的连续的m张帧、对象帧和对象帧之后的连续的n张帧构成的规定张数(m+n+1张)的帧输入推断模型133。动作区间检测部103将由从推断模型133输出的标签表示的动作区间检测为对象帧所属的动作区间。
(情绪检测部)
情绪检测部104基于从摄像头30取得的动态图像,检测作业者的情绪。情绪检测部104使用公知的技术(例如,日本特开2016-149063号公报)来检测情绪即可。
例如,情绪检测部104针对动态图像的各帧,检测面部以及面部器官(眼睛、眉毛、鼻子、嘴巴等)。在面部检测以及面部器官检测中,以公知的方法为代表,可以使用任意的算法,因此省略详细的说明。
情绪检测部104基于检测出的面部以及面部器官的状态,识别在帧中映现的作业者的情绪(表情)。在本实施方式中,将情绪分类为“平常(neutral)”、“喜悦(glad)”、“愤怒(angry)”、“惊讶(surprise)”、“悲伤(sad)”这5种。或者,情绪也可以被分类为包含上述5种和“厌恶”以及“害怕”在内的7种。作为情绪识别结果,输出将5种(或7种)情绪各自的程度以合计成为100的方式数值化后的得分。各情绪的得分也被称为表情成分值。情绪(表情)也依赖于作业者的身体状况、精神状态。因此,得分能够用于估计作业者的身体状况、精神状态。
另外,情绪识别可以使用以公知的方法为代表的任何算法。例如,情绪检测部104基于面部器官的位置信息,提取与面部器官的相对位置、形状相关的特征量。作为特征量,能够使用Haar-like特征量、特征点间距离、傅立叶描述符等。接着,情绪检测部104将提取出的特征量输入到5种(或7种)面部表情各自的判别器,计算各表情的程度。各判别器能够通过使用了样本图像的学习来生成。最后,情绪检测部104将来自5种(或7种)判别器的输出值标准化为合计为100,输出5种(或7种)情绪的得分(表情成分值)。
情绪检测部104将情绪识别结果与时间戳信息一起保存在存储部101内的数据库中。
(视线检测部)
视线检测部105基于从摄像头30取得的动态图像,检测作业者的视线。视线检测部105使用公知的技术(例如,日本特开2009-266086号公报)来检测视线。
例如,视线检测部105针对动态图像的各帧,估计映现在该帧中的作业者的面部朝向。此外,在此用于估计面部朝向的方法并不限定于特定的方法,优选使用能够更准确、高速且简单地进行估计的方法。
并且,视线检测部105检测映现在各帧中的作业者的眼睛的轮廓以及瞳孔。例如,视线检测部105可以考虑通过边缘检测或角检测来检测内眼角及外眼角的方法等。另外,视线检测部105在通过边缘检测检测出瞳孔的轮廓之后,检测瞳孔的左端以及右端。
视线检测部105基于眼睛的轮廓以及瞳孔的检测结果,计算特征参数。特征参数表示内眼角以及外眼角与瞳孔的左端以及右端之间的关系。例如,特征参数表示内眼角相对于瞳孔的左端的相对坐标(换言之,瞳孔的左端与内眼角之间的向量)、以及外眼角相对于瞳孔的右端的相对坐标(换言之,瞳孔的右端与外眼角之间的向量)。或者,特征参数也可以表示上述2个向量的长度的比率。任意的特征参数均表示瞳孔相对于眼睛轮廓的位置。
视线检测部105通过将估计出的面部朝向以及特征参数应用于面部朝向以及特征参数与瞳孔方向之间的相关关系,来估计作业者的瞳孔方向。相关关系是预先创建的。视线检测部105通过对估计出的瞳孔方向加上估计出的面部朝向,来求出作业者的视线方向。
(提供部)
提供部106提供动作区间检测部103、情绪检测部104和视线检测部105的检测结果、以及表示根据检测结果得到的各种信息的画面。具体而言,提供部106将画面显示于显示装置70。各种信息既可以根据检测出的作业者的动作区间、情绪以及视线来分别生成,也可以组合从动作区间、情绪以及视线中选择的多个项目来生成。
<动作区间的估计例的验证>
对针对工序“焊接”估计出的动作区间的具体验证结果进行说明。
图5是表示与对应于工序“焊接”的3个动作区间分别对应的3个帧、和不属于任何动作区间的帧的图。如上所述,“焊接”工序包含:将基板从前一工序搬入并将基板安装于夹具的动作区间“第1区间”;将部件焊接于基板的动作区间“第2区间”;以及将基板从夹具取出并将基板向下一工序搬出的动作区间“第3区间”。图5的(a)、(b)、(c)表示分别属于动作区间“第1区间”、“第2区间”、“第3区间”的帧。在动态图像中,存在不属于动作区间“第1区间”、“第2区间”、“第3区间”中的任意一个的帧,即,存在没有实施动作区间“第1区间”、“第2区间”、“第3区间”中的任意一个的作业的帧。因此,生成用于将动态图像的各帧分类为动作区间“第1区间”、“第2区间”、“第3区间”、“无”中的任意一个的推断模型133。动作区间“无”是未实施动作区间“第1区间”、“第2区间”、“第3区间”中的任意一个的作业的区间。
图6是表示估计出的动作区间的验证结果的图。在图6的上部示出了通过人确认动态图像而分类出的动作区间。即,图6的上部表示动作区间的正解。另一方面,在图6的下部示出使用推断模型133推断出的动作区间。
使用按照以下条件生成的推断模型133而推断出图6的下部所示的动作区间。
·使用模型:3DResNet(https://github.com/kenshohara/3D-ResNets-PyTorch)
·输入数据:各像素表示RGB的浓度的16帧的图像,图像尺寸为112像素×112像素
·学习率(Learning Rate):0.1(若Validation Loss(验证损失)收敛则为0.01)
·数据扩展(Data Augmentation):
50%水平翻转(Horizontal Flip)
从4个角、1个中心随机选择Spatial Crop(空间裁剪)
随机提取动态图像中的16帧
·转移学习:使用r3d50_K_200
depth(深度)50、epoch(时期)200、classes(类别)700、使用数据集kinectis-700
·使用数据数:动作区间“第1区间”:10、动作区间“第2区间”:10、动作区间“第3区间”:15、动作区间“无”:2
·小批尺寸:30。
如图6所示,由推断模型133推断出的动作区间与通过人进行确认而分类出的动作区间相似。由此,推断模型133的推断精度高。
<提供画面例>
图7是表示提供画面的一例的图。图7所示的画面60由提供部106提供,包含表示检测出的动作区间的推移的图表61。用户通过确认画面60,能够判断作业者的动作步骤是否恰当。
图8是表示提供画面的另一例的图。图9是表示提供画面的又一例的图。图8、9所示的画面65由提供部106提供。如图8、9所示,画面65包含区域66~68。
在区域66中,再现通过摄像头30的拍摄而得到的动态图像。在区域66中,根据对操作条69的操作而显示帧。另外,在没有对操作条69的操作的情况下,也可以在区域66中显示从摄像头30取得的最新的帧。
在区域66中,在动态图像中重叠显示标记66a~66d和线66e、66f。
标记66a表示瞳孔相对于在动态图像中映现的作业者的右眼轮廓的位置。标记66b表示瞳孔相对于在动态图像中映现的作业者的左眼轮廓的位置。标记66a、66b基于从显示于区域66的帧检测出的眼睛的轮廓以及瞳孔而生成。
线66e表示在动态图像中映现的作业者的右眼的视线方向。线66f表示在动态图像中映现的作业者的左眼的视线方向。线66e、66f基于从显示于区域66的帧检测出的视线方向而生成。
由此,用户通过确认标记66a、66b以及线66e、66f,能够容易地掌握作业者的眼睛的轮廓以及瞳孔的状态和视线方向。
标记66c表示在动态图像中映现的作业者的负面类型的情绪。具体而言,标记66c表示情绪“平常”、“惊讶”、“愤怒”、“悲伤”中分数最高的情绪,具有与情绪相应的图案。图8的标记66c表示情绪“平常”。图9的标记66c表示情绪“悲伤”。另外,在标记66c的周围示出指示符66g,指示符66g表示由标记66c表示的情绪的分数大小。
标记66d表示在动态图像中映现的作业者的正面类型的情绪。具体而言,标记66d表示情绪“平常”、“喜悦”中分数高的情绪,具有与情绪相应的图案。图8的标记66d表示情绪“平常”。图9的标记66d表示情绪“喜悦”。另外,在标记66d的周围示出指示符66h,指示符66h表示由标记66d表示的情绪的分数大小。
用户通过确认标记66c、66d,能够掌握作业者的情绪,并且通过确认指示符66g、66h,能够掌握情绪的程度。
在区域67中显示映现有在作业者的眼前存在的物体的图像。该图像可以预先准备,也可以从与摄像头30、40不同的摄像头取得。在区域67重叠显示有表示作业者的视点的标记67a。标记67a的位置基于从显示于区域66的帧检测出的视线方向来决定。在图8所示的画面65中,作业者的视线方向为左上方向,因此在区域67中,在图像的左上部分显示标记67a。具体而言,在区域67的图像中,在映现于左上的标准书A上重叠显示标记67a。在图9所示的画面65中,作业者的视线方向为下方向,因此在区域67中,在图像的下部显示标记67a。具体而言,在区域67的图像中,在映现于下侧的部件箱上重叠显示标记67a。
用户通过确认区域67,能够容易地掌握作业者正在看哪里。
在区域68中显示表示作业者的情绪推移的图表。即,图表表示5种情绪“平常(neutral)”、“喜悦(glad)”、“惊讶(surprise)”、“愤怒(angry)”、“悲伤(sad)”各自的分数的推移。在区域68中显示线68a,线68a表示与显示于区域66的帧对应的时刻。因此,用户通过观察与线68a重叠的各情绪的得分,能够掌握在显示于区域66的帧中映现的作业者的情绪。
<检测结果的利用例>
图10是表示作业者的情绪与生产指标的关系的图。在图10的上部示出了作为生产指标的、每单位时间的生产数量和不良率的推移。在图10的下部示出了作业者的各情绪的得分的推移。在图10所示的例子中,随着“悲伤(sad)”的得分的上升,观察到每单位时间的生产数量的下降以及不良率的上升。
因此,管理者通过确认图8、9的区域68,能够掌握具有导致生产效率下降的情绪的作业者,对该作业者实施适当的关注。另外,如上所述,情绪依赖于身体状况、精神状态。因此,管理者通过确认图8、9的区域68,能够察觉作业者的身体状况、精神状态的变化,使作业者休息。
进而,提供部106也可以基于图10所示的关系,根据情绪的多个种类中的对象种类的得分脱离了规定范围这一情况,提供促使作业者的关注的通知。具体而言,提供部106也可以将情绪“悲伤”的分数与阈值进行比较,根据情绪“悲伤”的分数超过了阈值这一情况,提供促使适当的关注的通知。例如,存在智力障碍或精神障碍的作业者大多难以交流。管理者通过对这样的作业者接受上述的通知,能够提前进行适当的关注。其结果,能够抑制生产效率的下降。
作业者优选一边确认作业标准书一边进行作业。因此,管理者通过确认图8、9的区域67,来判断作业者的视点的推移是否为所希望的顺序。由此,管理者能够判断是否以适当的步骤实施了作业。
进而,提供部106也可以存储表示实施标准作业时的视点的转变的基准信息,计算基准信息与显示于区域67的标记67a的转变的相似度。基准信息是预先创建的。提供部106也可以根据基准信息与显示于区域67的标记67a的转变的相似度小于阈值这一情况,提供表示作业步骤不同的通知。由此,管理者能够容易地掌握应被教育作业步骤的作业者。
管理者通过确认图7所示的画面60,能够根据从通过拍摄熟练的作业者而得到的动态图像中检测出的动作区间的推移,创建理想的作业流程书。或者,提供部106也可以基于检测出的动作区间的推移,自动地创建作业标准,并提供创建出的作业标准。
<变形例>
信息处理装置10的存储器13也可以不存储模型生成程序131。即,信息处理装置10也可以不具有模型生成部102。在该情况下,信息处理装置10从安装有模型生成程序131的其他装置取得推断模型133即可。该其他装置的处理器通过执行模型生成程序131来实现模型生成部102。
信息处理装置10的存储器13也可以不存储动作区间检测程序134、情绪检测程序135以及视线检测程序136中的1个或2个程序。即,信息处理装置10也可以不具有动作区间检测部103、情绪检测部104以及视线检测部105中的1个或2个功能块。例如,在信息处理装置10仅具有情绪检测部104的情况下,提供部106提供包含区域66、68且不包含区域67的画面65即可。在信息处理装置10仅具有视线检测部105的情况下,提供部106提供包含区域66、67且不包含区域68的画面65即可。在信息处理装置10仅包含动作区间检测部103的情况下,提供部106提供图7所示的画面60,而不提供图8和图9所示的画面65。在信息处理装置10仅具有情绪检测部104以及视线检测部105的情况下,提供部106提供图8、9所示的画面65,而不提供图7所示的画面60。在信息处理装置10仅具有动作区间检测部103以及情绪检测部104的情况下,提供部106提供图7所示的画面60,并且提供包含区域66、68且不包含区域67的画面65即可。在信息处理装置10仅包含动作区间检测部103和视线检测部105的情况下,提供部106提供图7所示的画面60,并且提供包含区域66和67且不包含区域68的画面65即可。
对本发明的实施方式进行了说明,但应认为此次公开的实施方式在所有方面都是例示而不是限制性的。本发明的范围由本发明的技术方案表示,意在包含与本发明的技术方案等同的意思以及范围内的所有变更。

Claims (8)

1.一种信息处理装置,其中,该信息处理装置具有:
第1取得部,其从设置于生产现场、且拍摄对象作业者和所述对象作业者的周围的第1摄像头取得第1动态图像;
动作区间检测部,其使用推断模型,从所述第1动态图像所包含的连续的规定张数的第1帧中,检测在所述规定张数的第1帧中映现的所述对象作业者的作业的动作区间;以及
提供部,其提供所述动作区间检测部的检测结果,
所述推断模型是通过使用了多个学习数据集的学习处理而生成的,所述多个学习数据集分别包含:在映现有特定作业者的动态图像中包含的、连续的规定张数的第2帧;以及标签,其表示在所述规定张数的第2帧中映现的所述特定作业者的作业的动作区间。
2.根据权利要求1所述的信息处理装置,其中,该信息处理装置具有:
第2取得部,其从设置于所述生产现场、且拍摄所述对象作业者的面部的第2摄像头取得第2动态图像;以及
情绪检测部,其检测在所述第2动态图像的各帧中映现的所述对象作业者的情绪,
所述提供部还提供由所述情绪检测部检测的情绪的推移。
3.根据权利要求1所述的信息处理装置,其中,该信息处理装置具有:
第2取得部,其从设置于所述生产现场、且拍摄所述对象作业者的面部的第2摄像头取得第2动态图像;以及
视线检测部,其检测在所述第2动态图像的各帧中映现的所述对象作业者的视线方向,
提供部还提供映现有所述对象作业者的眼前存在的物体的图像,
所述提供部基于由所述视线检测部检测出的视线方向,决定所述图像中的所述作业者的视点的位置,在所述图像中,在所决定的位置处显示标记。
4.根据权利要求1所述的信息处理装置,其中,该信息处理装置具有:
第2取得部,其从设置于所述生产现场、且拍摄所述对象作业者的面部的第2摄像头取得第2动态图像;
情绪检测部,其检测在所述第2动态图像的各帧中映现的所述对象作业者的情绪;以及
视线检测部,其检测在所述第2动态图像的各帧中映现的所述对象作业者的视线方向,
所述提供部还提供由所述情绪检测部检测的情绪的推移,
所述提供部还提供映现有所述对象作业者的眼前存在的物体的图像,
所述提供部基于由所述视线检测部检测出的视线方向,决定所述图像中的所述作业者的视点的位置,在所述图像中,在所决定的位置处显示标记。
5.一种信息处理装置,其中,该信息处理装置具有:
取得部,其从设置于生产现场、且拍摄作业者的面部的摄像头取得动态图像;
视线检测部,其检测在所述动态图像的各帧中映现的所述作业者的视线方向;以及
提供部,其提供映现有所述作业者的眼前存在的物体的图像,
所述提供部基于由所述视线检测部检测出的视线方向,决定所述图像中的所述作业者的视点的位置,在所述图像中,在所决定的位置处显示标记。
6.根据权利要求5所述的信息处理装置,其中,
该信息处理装置具有情绪检测部,所述情绪检测部检测在所述动态图像的各帧中映现的所述作业者的情绪,
所述提供部还提供由所述情绪检测部检测的情绪的推移。
7.一种信息处理方法,其中,该信息处理方法具有以下步骤:
从设置于生产现场、且拍摄对象作业者和所述对象作业者的周围的摄像头取得动态图像;
使用推断模型,从所述动态图像所包含的连续的规定张数的第1帧中,检测在所述规定张数的第1帧中映现的所述对象作业者的作业的动作区间;以及
提供检测结果,
所述推断模型是通过使用了多个学习数据集的学习处理而生成的,所述多个学习数据集分别包含:在映现有特定作业者的动态图像中包含的、连续的规定张数的第2帧;以及标签,其表示在所述规定张数的第2帧中映现的所述特定作业者的作业的动作区间。
8.一种信息处理方法,其中,该信息处理方法具有以下步骤:
从设置于生产现场、且拍摄作业者的面部的摄像头取得动态图像;
检测在所述动态图像的各帧中映现的所述作业者的视线方向;以及
提供映现有所述作业者的眼前存在的物体的图像,
进行所述提供的步骤包含以下步骤:
基于检测出的视线方向,决定所述图像中的所述作业者的视点的位置;以及
在所述图像中,在所决定的位置处显示标记。
CN202211630301.3A 2022-01-21 2022-12-19 信息处理装置和信息处理方法 Pending CN116486471A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2022-007876 2022-01-21
JP2022007876A JP2023106888A (ja) 2022-01-21 2022-01-21 情報処理装置および情報処理方法

Publications (1)

Publication Number Publication Date
CN116486471A true CN116486471A (zh) 2023-07-25

Family

ID=84603989

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211630301.3A Pending CN116486471A (zh) 2022-01-21 2022-12-19 信息处理装置和信息处理方法

Country Status (6)

Country Link
US (1) US20230237843A1 (zh)
EP (2) EP4339908A3 (zh)
JP (1) JP2023106888A (zh)
KR (1) KR20230113146A (zh)
CN (1) CN116486471A (zh)
TW (1) TW202331543A (zh)

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4998364B2 (ja) 2008-04-28 2012-08-15 オムロン株式会社 視線検出装置および方法、並びに、プログラム
JP6467965B2 (ja) 2015-02-13 2019-02-13 オムロン株式会社 感情推定装置及び感情推定方法
JP2018102617A (ja) * 2016-12-27 2018-07-05 オムロン株式会社 感情推定装置、方法およびプログラム
JP2018142258A (ja) * 2017-02-28 2018-09-13 オムロン株式会社 生産管理装置、方法およびプログラム
JP6946831B2 (ja) * 2017-08-01 2021-10-13 オムロン株式会社 人物の視線方向を推定するための情報処理装置及び推定方法、並びに学習装置及び学習方法
JP7272128B2 (ja) 2019-06-14 2023-05-12 オムロン株式会社 情報処理装置、情報処理方法、情報処理プログラム、および記録媒体

Also Published As

Publication number Publication date
TW202331543A (zh) 2023-08-01
EP4339908A3 (en) 2024-06-05
KR20230113146A (ko) 2023-07-28
EP4339908A2 (en) 2024-03-20
JP2023106888A (ja) 2023-08-02
EP4216171A1 (en) 2023-07-26
US20230237843A1 (en) 2023-07-27

Similar Documents

Publication Publication Date Title
JP5812599B2 (ja) 情報処理方法及びその装置
US20220083769A1 (en) Work estimation apparatus, method and non-transitory computer-readable storage medium
CN114926530A (zh) 用于生成三维姿态估计数据的计算机实现的方法、数据处理装置和计算机程序
US11138805B2 (en) Quantitative quality assurance for mixed reality
CN114730407A (zh) 使用神经网络对工作环境中的人类行为进行建模
JP2022046210A (ja) 学習装置、処理装置、学習方法、姿勢検出モデル、プログラム、及び記憶媒体
JP6773825B2 (ja) 学習装置、学習方法、学習プログラム、及び対象物認識装置
CN115471863A (zh) 三维姿态的获取方法、模型训练方法和相关设备
US11989928B2 (en) Image processing system
CN117593792A (zh) 一种基于视频帧的异常姿态检测方法和装置
CN116486471A (zh) 信息处理装置和信息处理方法
JP2021081804A (ja) 状態認識装置、状態認識方法及び状態認識プログラム
WO2022244536A1 (ja) 作業認識装置および作業認識方法
JP2007048232A (ja) 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム
CN113836991B (zh) 动作识别***、动作识别方法及存储介质
KR20230078063A (ko) 자세유형 판별을 위한 서버 및 그 동작방법
CN115171216A (zh) 一种面向协作行为检测和识别的方法及相关***
Peng et al. Image-based object state modeling of a transfer task in simulated surgical training
CN116724224A (zh) 加工面判定装置、加工面判定程序、加工面判定方法、加工***、推论装置及机器学习装置
JP2022155853A (ja) 作業指示システム
CN113850113A (zh) 动作识别***、方法及存储介质
JP2022186422A (ja) 分類装置、分類方法、及び、分類プログラム
JP7419993B2 (ja) 信頼度推定プログラム、信頼度推定方法、および信頼度推定装置
JP7316712B1 (ja) 異常行動検出システム
WO2023157230A1 (ja) 学習装置、処理装置、学習方法、姿勢検出モデル、プログラム、及び記憶媒体

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination