WO2021192119A1 - 情報処理装置、プログラム、および方法 - Google Patents

情報処理装置、プログラム、および方法 Download PDF

Info

Publication number
WO2021192119A1
WO2021192119A1 PCT/JP2020/013460 JP2020013460W WO2021192119A1 WO 2021192119 A1 WO2021192119 A1 WO 2021192119A1 JP 2020013460 W JP2020013460 W JP 2020013460W WO 2021192119 A1 WO2021192119 A1 WO 2021192119A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
captured
images
distance
information processing
Prior art date
Application number
PCT/JP2020/013460
Other languages
English (en)
French (fr)
Inventor
村林 昇
健 常田
Original Assignee
ソニーグループ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニーグループ株式会社 filed Critical ソニーグループ株式会社
Priority to EP20927905.8A priority Critical patent/EP4130904A1/en
Priority to PCT/JP2020/013460 priority patent/WO2021192119A1/ja
Publication of WO2021192119A1 publication Critical patent/WO2021192119A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0631Resource planning, allocation, distributing or scheduling for enterprises or organisations
    • G06Q10/06311Scheduling, planning or task assignment for a person or group
    • G06Q10/063114Status monitoring or status determination for a person or group
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/06Recognition of objects for industrial automation

Definitions

  • This disclosure relates to information processing devices, programs, and methods.
  • a video of the manufacturing work is recorded to detect irregular movements, etc. to improve work efficiency and quality and safety management. I'm doing. For example, machine learning is used to detect the working state of the worker in the captured moving image as an object, and it is determined whether or not the worker is performing the work according to the work procedure manual.
  • JP-A-2018-163556 Japanese Unexamined Patent Publication No. 2019-101516
  • an acquisition unit that acquires a plurality of captured images from a captured moving image of a predetermined work, a determination unit that determines a reference reference image from the captured images, a reference image, and other images of the captured image.
  • Information processing including a calculation unit for calculating the first image-to-image distance and a selection unit for selecting an input image to be used as teacher data for machine learning from captured images based on the first image-to-image distance.
  • Equipment is provided.
  • a shooting unit that acquires a plurality of shot images from a shot video of a predetermined work and a shooting corresponding to the start of a predetermined work from the shot image based on a predetermined work procedure manual.
  • a machine based on a determination unit that determines an image as a reference image, a detection unit that detects an arbitrary object from a captured image, and a captured image that includes objects between the start and the end of a predetermined work based on a work procedure manual.
  • An information processing device provided with a selection unit for selecting an input image to be used as learning teacher data is provided.
  • an acquisition unit that acquires a plurality of captured images from a captured moving image of a predetermined work, a detection unit that detects a worker of a predetermined work and detects an arbitrary object from the captured image, and a work.
  • An information processing apparatus is provided that includes a selection unit for selecting.
  • the information processing apparatus acquires a plurality of captured images from the captured moving images of a predetermined work, determines a reference reference image from the captured images, and determines the reference image and other captured images.
  • a program is provided that calculates a first image-to-image distance from an image and executes a process of selecting an input image to be used as teacher data for machine learning from a captured image based on the first image-to-image distance.
  • the information processing apparatus acquires a plurality of captured images from the captured moving images of a predetermined work, determines a reference reference image from the captured images, and sets the reference image and other captured images.
  • a method of calculating a first image-to-image distance from an image and executing a process of selecting an input image to be used as teacher data for machine learning from a captured image based on the first image-to-image distance is provided.
  • the information processing apparatus acquires a plurality of captured images from the captured moving images of a predetermined work based on a predetermined work procedure manual, and based on the work procedure manual, obtains a plurality of captured images from the captured images.
  • a captured image corresponding to the start of a predetermined work is determined as a reference image, an arbitrary object is detected from the captured image, and a captured image including an object between the start and the end of the predetermined work based on a work procedure manual.
  • the information processing apparatus acquires a plurality of captured images from the captured moving images of a predetermined work based on a predetermined work procedure manual, and based on the work procedure manual, obtains a plurality of captured images from the captured images.
  • a captured image corresponding to the start of a predetermined work is determined as a reference image, an arbitrary object is detected from the captured image, and a captured image including an object between the start and the end of the predetermined work based on a work procedure manual.
  • the information processing apparatus acquires a plurality of captured images from the captured moving images of a predetermined work, detects a worker of the predetermined work, detects an arbitrary object from the captured images, and operates the operator.
  • a program is provided to execute.
  • the information processing apparatus acquires a plurality of captured images from the captured moving images of a predetermined work, detects a worker of the predetermined work, detects an arbitrary object from the captured images, and operates the operator.
  • the information processing device 100 may be a server device managed by a manufacturer or the like that performs manufacturing work, or may be a stationary terminal or a notebook PC (Personal Computer). Further, the information processing device 100 may be a cloud server device or a distributed computing system composed of a plurality of computers.
  • FIG. 1 is a block diagram showing a functional configuration example of the information processing apparatus 100 according to the present embodiment.
  • the information processing apparatus 100 according to the present embodiment includes a storage unit 110, an acquisition unit 120, a determination unit 130, a calculation unit 140, a selection unit 150, a detection unit 160, a determination unit 170, and a control unit 180. Be prepared.
  • the storage unit 110 is a storage area for temporarily or permanently storing various programs and data.
  • the storage unit 110 may store programs and data for the information processing device 100 to execute various functions.
  • the storage unit 110 contains programs and data for calculating the distance between images, work procedure manual data showing work procedures for each work, and learning models and objects for detecting objects from captured moving images. Definition data, management data for managing various settings, etc. may be stored.
  • the above is only an example, and the type of data stored in the storage unit 110 is not particularly limited.
  • FIG. 2 is a diagram showing an example of work procedure manual data according to the present embodiment.
  • FIG. 2 is work procedure manual data showing a work procedure of “speaker mounting”, which is one of a plurality of work processes forming, for example, a smartphone manufacturing work.
  • the work procedure in the work process of "speaker installation” proceeds in the order of work numbers as "1: moving work”-> "2: installation work”-> "3: switch operation”-> ... ..
  • the work time can be set for each work. Based on such work procedure manual data, the object detected as the worker's work state from the shot video is compared with the keyword extracted from the work content, and the worker can perform the work procedure manual within the work time. It is possible to judge whether or not the work is being performed.
  • FIG. 3 is a diagram showing an example of keyword extraction from the work procedure manual data according to the present embodiment.
  • the information processing apparatus 100 extracts the text data of the "work content” from the work procedure manual data shown in FIG.
  • the information processing apparatus 100 performs morphological analysis on the extracted text data and extracts keywords from the data after the morphological analysis.
  • the keyword "hand” is extracted from the text data of the work content of "movement work” of work number "1”
  • the keyword “switch” is extracted from the text data of the work content of "switch operation" of work number "3”.
  • “And” hands are extracted.
  • the information processing device 100 converts the extracted keywords.
  • the keyword “hand” is converted to “hand” and the keyword “switch” is converted to "sw”.
  • the converted “hand” and the like are labels given to the object, as will be described later.
  • the information processing apparatus 100 converts the keywords extracted from the work procedure manual in order to match the objects with the keywords extracted from the work contents.
  • the acquisition unit 120 acquires a plurality of captured images from the captured moving images of a predetermined operation.
  • the acquired image is an image for each frame of the captured moving image.
  • the "work” targeted by the present embodiment is, for example, a product manufacturing work performed by a worker in a factory, a line, or the like.
  • the “work” includes, for example, moving work, installation work, switch operation, speaker movement, dust disposal, sealing work, speaker installation, work carrier rotation, and the like.
  • the "work” is not limited to the speaker mounting work, and may be another work in the manufacture of a smartphone.
  • the "work” is not limited to the manufacturing work of the smartphone, and may be the manufacturing work of other products. Further, the “work” is not limited to the product manufacturing work, and may be, for example, a work in a service such as a long-term care service.
  • the determination unit 130 determines a reference reference image as a reference from the captured image acquired by the acquisition unit 120. For example, when an object is detected from the captured image by the detection unit 160 described later, it is determined that the work is started, and the frame at that time can be used as the reference image. Further, based on the work procedure manual data stored in the storage unit 110, the corresponding captured image at the start of a predetermined work can be determined as the reference image.
  • the calculation unit 140 calculates the image-to-image distance (corresponding to the "first image-to-image distance") between the reference image determined by the determination unit 130 and each captured image acquired by the acquisition unit 120. do. Further, the calculation unit 140 divides the maximum value of the calculated inter-image distance at predetermined intervals, so that the inter-image distance between each division point and the reference image determined by the determination unit 130 (“second). Equivalent to "distance between images") is calculated.
  • the predetermined interval is determined based on the number of images to be selected from the captured moving images for use as teacher data for machine learning for detecting an object.
  • the interval obtained by dividing the calculated maximum value of the inter-image distance into three is a predetermined interval.
  • the inter-image distance calculated by the calculation unit 140 is the sum of the magnitudes of the differences in the RGB values and the brightness values of each pixel between the images. That is, it is shown that the larger the magnitude of the difference is, the larger the distance between the images is, and the images are not similar to each other.
  • the selection unit 150 is an input image used as teacher data for machine learning for detecting an object from the captured image acquired by the acquisition unit 120 based on the inter-image distance calculated by the calculation unit 140. Select.
  • the selection unit 150 selects a reference image determined by the determination unit 130 and an image that is not similar to the reference image and has a predetermined distance between the images.
  • the selected image for example, a captured image that is the same as or closest to the inter-image distance at each division point obtained by dividing the maximum value of the inter-image distance calculated by the calculation unit 140 at a predetermined interval is selected. Further, since the selected image is used as teacher data for machine learning for detecting an object, it needs to be an image including the object.
  • the selection unit 150 can also select an input image to be used as the teacher data for machine learning from the captured images from the start to the end of the work based on the work procedure manual data stored in the storage unit 110. Modification example 1) described later.
  • the selection unit 150 can also select an input image to be used as teacher data for machine learning from the captured images after the time when the determination unit 170 determines that the worker has been replaced (modification example 2 described later).
  • the detection unit 160 detects an arbitrary object from the captured image acquired by the acquisition unit 120.
  • the object can be detected by inputting a captured image and using a learning model (object detection model) learned as teacher data with the object as the correct answer.
  • FIG. 4 is a diagram showing an example of an object detection model according to the embodiment.
  • a photographed image of a smartphone manufacturing operation is input to an object detection model, and one or a plurality of objects defining each of a plurality of working states forming one process of the manufacturing operation are output.
  • the example of FIG. 4 shows that five objects “car_with2”, “hand”, “hand_two”, “car_with”, and “tweezer” were detected in the captured image by the object detection model.
  • the detected objects are surrounded by, for example, a bounding box (frame line), and are given a label indicating each object name and displayed.
  • SSD Single Shot Multibox Detector
  • YOLO You Only Look Access
  • FIG. 5 is a diagram showing an example of a class table according to the present embodiment. As shown in FIG. 5, for example, classes C0 to C21 in which each of the 22 keywords is a "label" are set, and a "class table CLT" showing the correspondence between the class, the label, and the object content is generated. There is a one-to-one correspondence between classes, labels, and object contents.
  • the detection unit 160 individually uses a recognition technique such as face recognition for a moving image of an operator taken by, for example, a camera device connected to the information processing device 100 by wire or wirelessly. Detect workers.
  • the determination unit 170 determines whether or not the worker who is working has been replaced based on the operator detected by the detection unit 160.
  • Control unit 180 The control unit 180 according to the present embodiment is a processing unit that controls the entire information processing device 100, and controls each configuration included in the information processing device 100. Details of the functions of the control unit 180 will be described later.
  • the functional configuration example of the information processing device 100 according to the present embodiment has been described above.
  • the above-mentioned functional configuration described with reference to FIG. 1 is merely an example, and the functional configuration of the information processing apparatus 100 according to the present embodiment is not limited to such an example.
  • the information processing device 100 does not necessarily have all of the configurations shown in FIG. 1, and a part of the above functional configurations may be provided in another device different from the information processing device 100.
  • the functional configuration of the information processing apparatus 100 according to the present embodiment can be flexibly modified according to specifications and operations.
  • each component is stored in a ROM (Read Only Memory), RAM (Random Access Memory), etc., which stores a control program in which a computing device such as a CPU (Central Processing Unit) describes a processing procedure for realizing these functions. This may be performed by reading the control program from the storage medium of the above, interpreting the program, and executing the program. Therefore, it is possible to appropriately change the configuration to be used according to the technical level at each time when the present embodiment is implemented. An example of the hardware configuration of the information processing apparatus 100 will be described later.
  • a reference image is determined from a captured image acquired from a captured moving image of a predetermined work, and the distance between the reference image and another image of the captured image is calculated. Then, based on the calculated distance between the images, a plurality of images are selected from the captured images so that the bias is reduced as the teacher data for machine learning for detecting the object.
  • FIG. 6 is a diagram showing an example of a graph showing the distance between images with the reference image according to the present embodiment.
  • the graph shown in FIG. 6 shows a graph in which the horizontal axis is time and the vertical axis is the distance between the reference image fs and each captured image.
  • the reference image fs is, for example, a captured image of ts at the start of work.
  • the captured image fa of ta immediately after the start of work has almost no movement of the operator and a small distance between images as compared with the reference image fs. Even if such a reference image fs and an image similar to the reference image fs are collected as teacher data for machine learning, only one of them is sufficient, and the learning effect for two images cannot be expected.
  • the captured image fz of tz at the end of the work because the distance between the images is small.
  • the captured image fb of the working tb is an image that should be selected as the teacher data because the distance between the images with the reference image fs is large.
  • FIG. 7 is a diagram showing an example of selection of a captured image with less bias as teacher data according to the present embodiment.
  • the image having the maximum distance between the images and the reference image fs is the captured image fb of the working tb.
  • the distance between the captured image fb and the reference image fs is defined as db.
  • the number of captured images to be selected as teacher data for machine learning is set to four.
  • the inter-image distance db is divided into three (for example, the distance dx is divided into three equal parts), and the captured images that are the same as or closest to the inter-image distances dc and dd indicated by the respective division points.
  • Select fc and fd are the captured images fc and fd.
  • the captured images fb and the reference image fs can be selected, and a total of four captured images can be selected as teacher data. It can be said that the distances between the four captured images are different from each other, and the teacher data has an appropriate variation.
  • the number of divisions and the number of sheets selected for each division point are not limited to the example shown in FIG. 7, and may be larger or smaller than the example shown in FIG. Further, in the example of FIG. 7, the captured image showing the inter-image distance dc also exists before the time tb. Therefore, when there are a plurality of captured images indicating the inter-image distance dc, these plurality of captured images may be selected, or any one of the captured images may be selected.
  • FIG. 8 is a diagram showing another example of selecting a captured image with less bias as teacher data according to the present embodiment. As shown in FIG.
  • a threshold value th is set for the inter-image distance, the space between the threshold value th and the inter-image distance db is divided, and the same or closest to the inter-image distances dc'and dd' indicated by the respective division points.
  • the captured images fc'and fd' are slightly smaller in distance from each other than the captured images fc and fd in FIG. 7, but are larger in distance from the reference image fs.
  • the threshold value th may be set based on, for example, the ratio of the inter-image distances of the entire captured image.
  • the inter-image distance is, for example, the sum of the magnitudes of the differences between the RGB values and the luminance values of each pixel between the images (example of FIG. 9 to be described later). Further, in consideration of processing efficiency and the like, it is possible to use the difference between the RGB values and the average values of the brightness values of each pixel between the images in the predetermined region (example of FIG. 10 to be described later).
  • FIG. 9 is a diagram showing an example of a method of calculating the inter-image distance of the entire image according to the present embodiment.
  • the captured images fA and fB for which the inter-image distance is calculated are divided into, for example, 8 ⁇ 8 regions A0 to A63 and B0 to B63, respectively.
  • the number of pixels included in each area does not have to be equal.
  • the number of divisions of 8 ⁇ 8 is an example, and may be more or less than 8 ⁇ 8 (for example, 5 ⁇ 5 or 16 ⁇ 16). However, if one divided area is larger than the bounding box, the distance between images may not be calculated correctly. Therefore, the number of divisions is set so that each area is smaller than the bounding box.
  • the average values dAn and dBn of the RGB values and the brightness values of the pixels in each divided region are calculated.
  • the inter-image distance Img_dst_all of the entire image is calculated using the following equation (1).
  • the upper limit 63 of n in the equation (1) is arbitrarily changed according to the number of divisions of the captured image.
  • FIG. 10 is a diagram showing an example of a method of calculating the inter-image distance of a part of the images according to the present embodiment.
  • the captured images fA and fB of FIG. 10 show a part of the regions ba and bb in which the detected object is surrounded by the bounding box, respectively. Similar to the entire image of FIG. 9, these partial regions ba and bb are divided into, for example, 8 ⁇ 8 regions a0 to a63 and b0 to b63, respectively. As with the entire image of FIG. 9, the number of pixels included in each region does not have to be uniform, and the number of divisions may be more or less than 8 ⁇ 8.
  • the upper limit 63 of n in the equation (2) is also arbitrarily changed according to the number of divisions of the captured image.
  • the weighting coefficient t in the equation (3) is a numerical value in the range of 0 ⁇ t ⁇ 1, and the weighting coefficient t is used to have a weight on either the entire image or a part of the image and the distance between the two images. Can be made.
  • FIG. 11 is a flowchart showing a flow of selection processing of captured images with less bias as teacher data according to the present embodiment.
  • This process is a process of selecting an input image to be used as teacher data for machine learning for detecting an object from the captured images based on the inter-image distances of a plurality of captured images acquired from the captured moving image. This process is started, for example, when the user indicates an intention to execute the execution program of the present process via an input device connected to the information processing device 100. Alternatively, this process may be a batch process that is executed periodically or irregularly.
  • the acquisition unit 120 of the information processing device 100 acquires a plurality of captured images from the captured moving images of a predetermined work (step S101).
  • the acquired image is an image for each frame of the captured moving image, and may be stored in the storage unit 110, or may be stored in a device or medium other than the information processing device 100.
  • the determination unit 130 of the information processing device 100 determines a reference reference image as a reference from the captured image acquired by the acquisition unit 120 (step S102).
  • the reference image to be determined may be, for example, a captured image at the time when the object is detected by the detection unit 160 as the work start time.
  • the calculation unit 140 of the information processing apparatus 100 calculates the distance between the reference image determined by the determination unit 130 and the captured image other than the reference image acquired by the acquisition unit 120 (step). S103).
  • the calculated inter-image distance may be the inter-image distance Img_dst_all of the entire image, or the inter-image distance Img_dst_part of a part of the image.
  • the calculated inter-image distance may be the inter-image distance Img_dst_total based on these two inter-image distances.
  • the calculation unit 140 divides the calculated maximum value of the inter-image distance at predetermined intervals (step S104).
  • the predetermined interval is, for example, an interval obtained by dividing the maximum value of the inter-image distance into three equal parts when the number of images to be selected as teacher data for machine learning is four.
  • the selection unit 150 of the information processing device 100 selects a captured image that is the same as or closest to the image-to-image distance at each division point obtained by dividing the maximum value of the image-to-image distance calculated by the calculation unit 140 at predetermined intervals. (Step S105). After step S105, this process ends.
  • FIG. 12 is a diagram showing a modified example 1 of selection of a captured image with less bias as teacher data according to the present embodiment.
  • the selection unit 150 of the information processing apparatus 100 uses the captured image fs of the work start ts as a reference image, and selects the captured image during the work between the work start ts and the work end tz. .. These reference images and captured images during work can be selected based on the work procedure manual data stored in the storage unit 110 as described later.
  • the captured images fe and ff at two time points of the working time te and tf are selected. Further, the selection unit 150 may further select the captured image fz of tz at the end of the work. Even in the modified example, the selected image needs to be an image including the object because it is used as the teacher data of machine learning for detecting the object.
  • the work time of one cycle shown in the example of FIG. 12 can be obtained from, for example, the "work time" of the work procedure manual data stored in the storage unit 110.
  • the work start time ts and the work end time tz can be derived from the work time, and the photographed image fs and the photographed image fz at each time point can be selected. Further, by dividing the work start time ts and the work end time tz at predetermined intervals, two time points of the work time te and tf can be derived, and the captured images fe and ff can be selected.
  • the predetermined interval may or may not be equal. Further, in the example of FIG.
  • two captured images fe and ff are selected as the captured images during work, but the number of captured images during work selected may be more than or less than two. ..
  • the reference image fs and the captured image fz can be selected as the teacher data of machine learning for detecting the object.
  • Modification 2 >> In the modification 2 shown below, paying attention to the fact that the captured image will be different if the worker is different even in the same work process, when the worker is detected and the worker who is working is replaced, Select the captured image to be used as teacher data.
  • FIG. 13 is a diagram showing a modified example 2 of selection of a captured image with less bias as teacher data according to the present embodiment.
  • the detection unit 160 of the information processing device 100 uses the moving images taken by the workers A, B, and C.
  • individual workers are detected by recognition technology such as face recognition.
  • the determination unit 170 of the information processing apparatus 100 determines whether or not the worker who is working has been replaced based on the detected worker.
  • the selection unit 150 of the information processing device 100 uses an input image to be used as teacher data for machine learning from a captured image including objects after the time when it is determined that the worker has been replaced. Select. Thereby, the captured images fB and fC can be selected. In addition, the captured image fA can be selected from the captured images including the objects before the time when the operator determines that the worker has been replaced.
  • the time to select the captured image after or before the time when the operator determines that the worker has changed is determined, for example, by dividing the captured image at a predetermined interval based on the number of selected images and selecting the captured image at each division point. be able to.
  • the modifications 1 and 2 of the present embodiment have been described above, they do not have to be carried out separately and may be carried out in combination.
  • the time when it is determined that the worker has changed is used as the reference image
  • the distance between the images of the reference image and the subsequent captured images is calculated, and machine learning is performed based on the distance between the images. You can select the input image to be used as the teacher data of.
  • FIG. 14 is a block diagram showing a hardware configuration example of the information processing apparatus 100 according to the present embodiment.
  • the information processing apparatus 100 includes, for example, a processor 801 and a ROM 802, a RAM 803, a host bus 804, a bridge 805, an external bus 806, an interface 807, an input device 808, and an output device 809.
  • the hardware configuration shown here is an example, and some of the components may be omitted. Further, components other than the components shown here may be further included.
  • the processor 801 functions as, for example, an arithmetic processing unit or a control device, and controls all or a part of the operation of each component based on various programs recorded in the ROM 802, RAM 803, storage 810, or removable recording medium 901. ..
  • the ROM 802 is a means for storing a program read into the processor 801 and data used for calculation.
  • the RAM 803 temporarily or permanently stores, for example, a program read into the processor 801 and various parameters that change as appropriate when the program is executed.
  • the processors 801, ROM 802, and RAM 803 are connected to each other via, for example, a host bus 804 capable of high-speed data transmission.
  • the host bus 804 is connected to the external bus 806, which has a relatively low data transmission speed, via, for example, the bridge 805.
  • the external bus 806 is connected to various components via the interface 807.
  • Input device 808 For the input device 808, for example, a mouse, a keyboard, a touch panel, buttons, switches, levers, and the like are used. Further, as the input device 808, a remote controller (hereinafter referred to as a remote controller) capable of transmitting a control signal using infrared rays or other radio waves may be used. Further, the input device 808 includes a voice input device such as a microphone.
  • the output device 809 provides the user with acquired information such as a display device such as a CRT (Cathode Ray Tube), an LCD, or an organic EL, an audio output device such as a speaker or headphones, a printer, a mobile phone, or a facsimile. It is a device that can notify visually or audibly. Further, the output device 809 according to the present embodiment includes various vibration devices capable of outputting tactile stimuli.
  • the storage 810 is a device for storing various types of data.
  • a magnetic storage device such as a hard disk drive (HDD), a semiconductor storage device, an optical storage device, an optical magnetic storage device, or the like is used.
  • the drive 811 is a device that reads information recorded on a removable recording medium 901 such as a magnetic disk, an optical disk, a magneto-optical disk, or a semiconductor memory, or writes information to the removable recording medium 901.
  • a removable recording medium 901 such as a magnetic disk, an optical disk, a magneto-optical disk, or a semiconductor memory
  • connection port 812 is a port for connecting an external connection device 902 such as a USB (Universal Serial Bus) port, an IEEE1394 port, a SCSI (Small Computer System Interface), a RS-232C port, or an optical audio terminal.
  • an external connection device 902 such as a USB (Universal Serial Bus) port, an IEEE1394 port, a SCSI (Small Computer System Interface), a RS-232C port, or an optical audio terminal.
  • the communication device 813 is a communication device for connecting to a network, and is, for example, a communication card for wired or wireless LAN, Bluetooth (registered trademark), or WUSB (Wireless USB), a router for optical communication, and ADSL (Asymmetric Digital). A router for Subscriber Line), a modem for various communications, and the like.
  • the removable recording medium 901 is, for example, a DVD media, a Blu-ray (registered trademark) media, an HD DVD media, various semiconductor storage media, and the like.
  • the removable recording medium 901 may be, for example, an IC card equipped with a non-contact type IC chip, an electronic device, or the like.
  • the externally connected device 902 is, for example, a printer, a portable music player, a digital camera, a digital video camera, an IC recorder, or the like.
  • the storage unit 110 is realized by the ROM 802, the RAM 803, and the storage 810. Further, the control unit 180 according to the present embodiment realized by the processor 801 provides ROM 802 for each control program that realizes the acquisition unit 120, the determination unit 130, the calculation unit 140, the selection unit 150, the detection unit 160, and the determination unit 170. And RAM 803, etc. are read and executed.
  • the information processing apparatus 100 includes an acquisition unit 120 that acquires a plurality of captured images from a captured moving image of a predetermined work, a determination unit 130 that determines a reference reference image from the captured images, and the above. Based on the calculation unit 140 that calculates the first image-to-image distance between the reference image and the other image of the captured image, and the first image-to-image distance, the captured image is used as teacher data for machine learning. A selection unit 150 for selecting an input image is provided.
  • the present technology can also have the following configurations.
  • An acquisition unit that acquires a plurality of captured images from a captured video of a predetermined work, and A determination unit that determines a reference image as a reference from the captured image, A calculation unit that calculates a first image-to-image distance between the reference image and another image of the captured image, and An information processing device including a selection unit for selecting an input image to be used as teacher data for machine learning from the captured image based on the first distance between images.
  • the calculation unit further calculates the second image-to-image distance from the reference image by dividing the maximum value of the first image-to-image distance at predetermined intervals.
  • the information processing apparatus wherein the selection unit selects, as the input image, an image that is the same as or closest to the second image-to-image distance from the captured image.
  • the calculation unit further calculates the second image-to-image distance from the reference image by dividing the maximum value of the first image-to-image distance at a predetermined interval within a range equal to or more than a predetermined threshold value. death,
  • the information processing apparatus wherein the selection unit selects, as the input image, an image that is the same as or closest to the second image-to-image distance from the captured image.
  • the decision part further A predetermined range including the object detected from the reference image is determined as the first partial image, and the image is determined.
  • a predetermined range including the object detected from the other image is determined as the second partial image, and the image is determined.
  • the information processing apparatus according to any one of (1) to (3), wherein the calculation unit calculates the distance between the first partial image and the first partial image. .. (5) Further provided with a detection unit that detects an arbitrary object from the captured image.
  • the decision part further A predetermined range including the object detected from the reference image is determined as the first partial image, and the image is determined.
  • a predetermined range including the object detected from the other image is determined as the second partial image, and the image is determined.
  • the calculation unit is based on the third image-to-image distance between the entire captured image and the other other images, and the fourth image-to-image distance between the first partial image and the second partial image.
  • the information processing apparatus according to any one of (1) to (3) above, which calculates the distance between the first images.
  • An acquisition unit that acquires a plurality of captured images from a captured video of a predetermined work, and Based on a predetermined work procedure manual, a determination unit that determines the captured image corresponding to the start of the predetermined work as a reference image from the captured image, and a determination unit.
  • a detection unit that detects an arbitrary object from the captured image Information including a selection unit for selecting an input image to be used as teacher data for machine learning from the captured image including the object between the start time and the end time of the predetermined work based on the work procedure manual. Processing equipment. (7) An acquisition unit that acquires a plurality of captured images from a captured video of a predetermined work, and Detecting the worker of the predetermined work, A detection unit that detects an arbitrary object from the captured image, A determination unit that determines whether or not the worker has been replaced, and It is provided with a selection unit for selecting an input image to be used as teacher data for machine learning from the captured image including the object after the time when it is determined that the worker has been replaced. , Information processing equipment.
  • a reference image to be used as a reference is determined from the captured image, and the reference image is determined.
  • the first image-to-image distance between the reference image and another image of the captured image is calculated.
  • the information processing device Acquire multiple shot images from the shot video of a predetermined work, A reference image to be used as a reference is determined from the captured image, and the reference image is determined.
  • the first image-to-image distance between the reference image and another image of the captured image is calculated.
  • a method of executing a process of selecting an input image to be used as teacher data for machine learning from the captured images based on the first image-to-image distance (10) For information processing equipment Based on a predetermined work procedure manual, multiple shot images are acquired from the shot video of a predetermined work, and a plurality of shot images are acquired. Based on the work procedure manual, the photographed image corresponding to the start of the predetermined work is determined as a reference image from the photographed image. Detect any object from the captured image and A program for executing a process of selecting an input image to be used as teacher data for machine learning from the photographed image including the object between the start time and the end time of the predetermined work based on the work procedure manual.
  • the information processing device Based on a predetermined work procedure manual, multiple shot images are acquired from the shot video of a predetermined work, and a plurality of shot images are acquired. Based on the work procedure manual, the photographed image corresponding to the start of the predetermined work is determined as a reference image from the photographed image. Detect any object from the captured image and A method of executing a process of selecting an input image to be used as teacher data for machine learning from the photographed image including the object between the start time and the end time of the predetermined work based on the work procedure manual.
  • the information processing device Acquire multiple shot images from the shot video of a predetermined work, Detecting the worker of the predetermined work, Detect any object from the captured image and Determine if the worker has been replaced, A method of executing a process of selecting an input image to be used as teacher data for machine learning from the captured images including the objects after the time when it is determined that the worker has been replaced. ..
  • Information processing device 110 Storage unit 120 Acquisition unit 130 Determination unit 140 Calculation unit 150 Selection unit 160 Detection unit 170 Judgment unit 180 Control unit

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Biology (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Evolutionary Computation (AREA)
  • Educational Administration (AREA)
  • Game Theory and Decision Science (AREA)
  • Development Economics (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

所定の作業の撮影動画から複数の撮影画像を取得する取得部と、撮影画像から、基準となる基準画像を決定する決定部と、基準画像と、撮影画像の他の画像との第1の画像間距離を算出する算出部と、第1の画像間距離に基づいて、撮影画像から、機械学習の教師データとして用いる入力画像を選択する選択部とを備えた、情報処理装置が提供される。このような情報処理装置により、撮影動画から偏りの少ない教師データを効率的に集めることができる。

Description

情報処理装置、プログラム、および方法
 本開示は、情報処理装置、プログラム、および方法に関する。
 作業手順書に基づいて作業者が所定の作業を繰り返し行うような製造現場では、製造作業を動画で撮影してイレギュラーな動作などを検出し、作業の効率化を図ったり、品質や安全管理を行ったりしている。これは、例えば、機械学習を用いて撮影動画中の作業者の作業状態をオブジェクトとして検出し、作業者が作業手順書通りの作業を行っているか否かを判断している。
特開2018-163556号公報 特開2019-101516号公報
 しかしながら、撮影動画中に頻出するオブジェクトと比較して、あまり映らないオブジェクトが存在する。オブジェクトを検出するための機械学習は撮影動画(画像)を教師データとして学習を行うため、このようなオブジェクトの出現頻度の違いは機械学習の教師データに偏りを生じさせてしまう。例えば、撮影動画中に頻出するオブジェクトの教師データばかり集まってしまう。これは、同じような教師データで機械学習を行うことになるため、機械学習の精度に悪影響を及ぼす。
 そこで、本開示では、撮影動画から偏りの少ない教師データを効率的に集めることができる情報処理装置、プログラム、および方法を提案する。
 本開示によれば、所定の作業の撮影動画から複数の撮影画像を取得する取得部と、撮影画像から、基準となる基準画像を決定する決定部と、基準画像と、撮影画像の他の画像との第1の画像間距離を算出する算出部と、第1の画像間距離に基づいて、撮影画像から、機械学習の教師データとして用いる入力画像を選択する選択部とを備えた、情報処理装置が提供される。
 また、本開示によれば、所定の作業の撮影動画から複数の撮影画像を取得する取得部と、予め定められた作業手順書に基づいて、撮影画像から、所定の作業の開始時に対応する撮影画像を基準画像に決定する決定部と、撮影画像から任意のオブジェクトを検出する検出部と、作業手順書に基づいて、開始時から所定の作業の終了時の間のオブジェクトを含んだ撮影画像から、機械学習の教師データとして用いる入力画像を選択する選択部とを備えた、情報処理装置が提供される。
 また、本開示によれば、所定の作業の撮影動画から複数の撮影画像を取得する取得部と、所定の作業の作業者を検出し、撮影画像から任意のオブジェクトを検出する検出部と、作業者が代わったか否かを判定する判定部と、作業者が代わったと判定した場合に、作業者が代わったと判定した時点以降のオブジェクトを含んだ撮影画像から、機械学習の教師データとして用いる入力画像を選択する選択部とを備えた、情報処理装置が提供される。
 また、本開示によれば、情報処理装置に、所定の作業の撮影動画から複数の撮影画像を取得し、撮影画像から、基準となる基準画像を決定し、基準画像と、撮影画像の他の画像との第1の画像間距離を算出し、第1の画像間距離に基づいて、撮影画像から、機械学習の教師データとして用いる入力画像を選択する処理を実行させる、プログラムが提供される。
 また、本開示によれば、情報処理装置が、所定の作業の撮影動画から複数の撮影画像を取得し、撮影画像から、基準となる基準画像を決定し、基準画像と、撮影画像の他の画像との第1の画像間距離を算出し、第1の画像間距離に基づいて、撮影画像から、機械学習の教師データとして用いる入力画像を選択する処理を実行する、方法が提供される。
 また、本開示によれば、情報処理装置に、予め定められた作業手順書に基づいて、所定の作業の撮影動画から複数の撮影画像を取得し、作業手順書に基づいて、撮影画像から、所定の作業の開始時に対応する撮影画像を基準画像に決定し、撮影画像から任意のオブジェクトを検出し、作業手順書に基づいて、開始時から所定の作業の終了時の間のオブジェクトを含んだ撮影画像から、機械学習の教師データとして用いる入力画像を選択する処理を実行させる、プログラムが提供される。
 また、本開示によれば、情報処理装置が、予め定められた作業手順書に基づいて、所定の作業の撮影動画から複数の撮影画像を取得し、作業手順書に基づいて、撮影画像から、所定の作業の開始時に対応する撮影画像を基準画像に決定し、撮影画像から任意のオブジェクトを検出し、作業手順書に基づいて、開始時から所定の作業の終了時の間のオブジェクトを含んだ撮影画像から、機械学習の教師データとして用いる入力画像を選択する処理を実行する、方法が提供される。
 また、本開示によれば、情報処理装置に、所定の作業の撮影動画から複数の撮影画像を取得し、所定の作業の作業者を検出し、撮影画像から任意のオブジェクトを検出し、作業者が代わったか否かを判定し、作業者が代わったと判定した場合に、作業者が代わったと判定した時点以降のオブジェクトを含んだ撮影画像から、機械学習の教師データとして用いる入力画像を選択する処理を実行させる、プログラムが提供される。
 また、本開示によれば、情報処理装置が、所定の作業の撮影動画から複数の撮影画像を取得し、所定の作業の作業者を検出し、撮影画像から任意のオブジェクトを検出し、作業者が代わったか否かを判定し、作業者が代わったと判定した場合に、作業者が代わったと判定した時点以降のオブジェクトを含んだ撮影画像から、機械学習の教師データとして用いる入力画像を選択する処理を実行する、方法が提供される。
本実施形態に係る情報処理装置100の機能構成例を示すブロック図である。 同実施形態に係る作業手順書データの一例を示す図である。 同実施形態に係る作業手順書データからのキーワード抽出の一例を示す図である。 同実施形態に係るオブジェクト検出モデルの一例を示す図である。 同実施形態に係るクラステーブルの一例を示す図である。 同実施形態に係る基準画像との画像間距離を表すグラフの一例を示す図である。 同実施形態に係る教師データとして偏りの少ない撮影画像の選択の一例を示す図である。 同実施形態に係る教師データとして偏りの少ない撮影画像の選択の別例を示す図である。 同実施形態に係る画像全体の画像間距離を算出する方法の一例を示す図である。 同実施形態に係る画像の一部の画像間距離を算出する方法の一例を示す図である。 同実施形態に係る教師データとして偏りの少ない撮影画像の選択処理の流れを示すフローチャートである。 同実施形態に係る教師データとして偏りの少ない撮影画像の選択の変形例1を示す図である。 同実施形態に係る教師データとして偏りの少ない撮影画像の選択の変形例2を示す図である。 同実施形態に係る情報処理装置100のハードウェア構成例を示すブロック図である。
 次に、本実施形態について図面に基づいて詳細に説明する。なお、本明細書および図面において、実質的に同一の部位には、同一の符号を付することにより重複する説明を省略する。
 なお、説明は以下の順序で行うものとする。
 1.実施形態
  1.1.機能構成例
  1.2.機能の詳細
  1.3.機能の流れ
 2.実施形態の変形例
  2.1.変形例1
  2.2.変形例2
 3.ハードウェア構成例
 4.まとめ
<1.実施形態>
<<1.1.機能構成例>>
 まず、本実施形態に係る情報処理装置100の機能構成例について説明する。情報処理装置100は、製造作業を行うメーカーなどによって管理されるサーバ装置であってもよいし、据え置き端末やノートPC(Personal Computer)であってもよい。また、情報処理装置100は、クラウドサーバ装置であってもよいし、複数台のコンピュータで構成される分散型コンピューティングシステムであってもよい。
 図1は、本実施形態に係る情報処理装置100の機能構成例を示すブロック図である。図1に示すように、本実施形態に係る情報処理装置100は、記憶部110、取得部120、決定部130、算出部140、選択部150、検出部160、判定部170、制御部180を備える。
(記憶部110)
 本実施形態に係る記憶部110は、各種プログラムやデータを一時的または恒常的に記憶するための記憶領域である。記憶部110には、情報処理装置100が各種機能を実行するためのプログラムやデータが記憶されてよい。具体的な一例として、記憶部110には、画像間距離を算出するためのプログラムやデータ、作業ごとの作業手順を示した作業手順書データ、撮影動画からオブジェクトを検出するための学習モデルやオブジェクトの定義データ、各種設定などを管理するための管理データなどが記憶されてよい。もちろん、上記はあくまで一例であり、記憶部110に記憶されるデータの種別は特に限定されない。
 図2は、本実施形態に係る作業手順書データの一例を示す図である。図2は、例えば、スマートフォンの製造作業を形成する複数の作業工程の中の一工程である「スピーカー取付」の作業手順を示す作業手順書データである。例えば、「スピーカー取付」という作業工程における作業手順は、図2に示すように、「1:移動作業」→「2:設置作業」→「3:スイッチ動作」→…のように作業番号順に進む。また、作業ごとに作業時間を設定することができる。このような作業手順書データに基づいて、撮影動画から作業者の作業状態として検出されるオブジェクトと、作業内容から抽出されるキーワードとを突き合わせて、作業時間内に作業者が作業手順書通りの作業を行っているか否かを判断することができる。
 なお、作業手順書データからキーワードを抽出するには、形態素解析を用いることができる。図3は、本実施形態に係る作業手順書データからのキーワード抽出の一例を示す図である。図3に示すように、まず、情報処理装置100は、図2に示す作業手順書データから、「作業内容」のテキストデータを抽出する。次に、情報処理装置100は、抽出したテキストデータを形態素解析し、形態素解析後のデータからキーワードを抽出する。この結果、例えば、作業番号「1」の「移動作業」の作業内容のテキストデータからキーワード「手」が抽出され、作業番号「3」の「スイッチ動作」の作業内容のテキストデータからキーワード「スイッチ」および「手」が抽出される。次に、情報処理装置100は、抽出したキーワードを変換する。例えば、キーワード「手」は“hand”に変換され、キーワード「スイッチ」は“sw”に変換される。変換後の“hand”などは、後述するように、オブジェクトに付与されるラベルである。情報処理装置100は、オブジェクトと、作業内容から抽出されるキーワードとを突き合わせるために、作業手順書から抽出されたキーワードを変換する。
(取得部120)
 図1の説明に戻り、本実施形態に係る取得部120は、所定の作業の撮影動画から複数の撮影画像を取得する。取得される画像は、撮影動画のフレームごとの画像である。ここで、本実施形態が対象とする「作業」は、例えば、工場、ラインなどで工員が行う製品の製造作業である。スマートフォンの製造作業(スピーカー取り付け作業)を例とすると、「作業」は、例えば、移動作業、設置作業、スイッチ動作、スピーカー移動、ごみ処理、シール作業、スピーカー設置、作業キャリア回転、などである。なお、「作業」は、スピーカー取り付け作業に限られず、スマートフォンの製造における他の作業であってもよい。また、「作業」は、スマートフォンの製造作業に限られず、他の製品の製造作業であってもよい。さらに、「作業」は、製品の製造作業に限られず、例えば、介護サービス等のサービスにおける作業であってもよい。
(決定部130)
 本実施形態に係る決定部130は、取得部120によって取得された撮影画像から、基準となる基準画像を決定する。これは、例えば、後述する検出部160によって撮影画像からオブジェクトが検出された時を作業開始時と判断し、その際のフレームを基準画像とすることができる。また、記憶部110に記憶された作業手順書データに基づいて、所定の作業の開始時に対応する撮影画像を基準画像に決定することもできる。
(算出部140)
 本実施形態に係る算出部140は、決定部130によって決定された基準画像と、取得部120によって取得された各撮影画像との画像間距離(「第1の画像間距離」に相当)を算出する。また、算出部140は、算出した画像間距離の最大値を所定の間隔で分割することにより、それぞれの分割点と、決定部130によって決定された基準画像との画像間距離(「第2の画像間距離」に相当)を算出する。ここで、所定の間隔とは、オブジェクトを検出するための機械学習の教師データとして用いるために撮影動画から選択したい画像の枚数に基づいて定められる。例えば、選択したい画像の枚数が4枚の場合は、算出した画像間距離の最大値を3つに分割(例えば、3等分)した間隔が所定の間隔となる。なお、算出部140によって算出される画像間距離は、画像間の各画素のRGB値や輝度値の差の大きさの合計である。すなわち、当該差の大きさが大きいほど画像間距離も大きく離れ、画像同士が類似しなくなることを示している。
(選択部150)
 本実施形態に係る選択部150は、算出部140によって算出された画像間距離に基づいて、取得部120によって取得された撮影画像から、オブジェクトを検出するための機械学習の教師データとして用いる入力画像を選択する。ここで、選択される撮影画像は、機械学習の教師データとして用いるため、撮影画像同士の画像間距離が離れ、ばらついていた方がよい。そのため、選択部150は、決定部130によって決定された基準画像と、基準画像と類似せず、画像間距離が所定の間隔離れている画像とを選択する。選択される画像は、例えば、算出部140によって算出された画像間距離の最大値を所定の間隔で分割した各分割点の画像間距離と同一または最も近い撮影画像を選択する。また、選択される画像は、オブジェクトを検出するための機械学習の教師データとして用いるため、オブジェクトを含んだ画像である必要がある。
 また、選択部150は、記憶部110に記憶された作業手順書データに基づいて、作業の開始時から終了時の間の撮影画像から、機械学習の教師データとして用いる入力画像を選択することもできる(後述する変形例1)。
 また、選択部150は、判定部170によって作業者が代わったと判定された時点以降の撮影画像から、機械学習の教師データとして用いる入力画像を選択することもできる(後述する変形例2)。
(検出部160)
 本実施形態に係る検出部160は、取得部120によって取得された撮影画像から、任意のオブジェクトを検出する。オブジェクトの検出は、撮影画像を入力、オブジェクトを正解とする教師データとして学習された学習モデル(オブジェクト検出モデル)を用いて行うことができる。
 図4は、実施形態に係るオブジェクト検出モデルの一例を示す図である。図4に示すように、例えば、スマートフォンの製造作業の撮影画像をオブジェクト検出モデルに入力し、製造作業の一工程を形成する複数の作業状態の各々を規定する1つまたは複数のオブジェクトを出力させることで、オブジェクトを検出する。図4の例は、オブジェクト検出モデルにより、撮影画像に対して、“car_with2”,“hand”,“hand_two”,“car_with”,“tweezer”の5つのオブジェクトが検出されたことを示している。検出されたオブジェクトは、図4に示すように、例えば、バウンディングボックス(枠線)で囲まれ、各オブジェクト名を示すラベルが付与され表示される。なお、このようなオブジェクト検出モデルを生成する際の機械学習として、例えば、SSD(Single Shot Multibox Detector)やYOLO(You Only Look Once)を用いることができる。
 また、検出されるオブジェクトは、予め定義され、例えば、以下のクラステーブルとして記憶部110に記憶される。図5は、本実施形態に係るクラステーブルの一例を示す図である。図5に示すように、例えば、22個のキーワードの各々を「ラベル」とするクラスC0~C21を設定し、クラスとラベルとオブジェクト内容との対応付けを示す「クラステーブルCLT」を生成する。クラスとラベルとオブジェクト内容とは互いに1対1で対応する。
 図1の説明に戻り、また、検出部160は、例えば、情報処理装置100と有線または無線で接続されたカメラ装置などによって撮影された作業者の動画に対し、顔認識などの認識技術により個々の作業者を検出する。
(判定部170)
 本実施形態に係る判定部170は、検出部160によって検出された作業者に基づいて、作業中の作業者が代わったか否かを判定する。
(制御部180)
 本実施形態に係る制御部180は、情報処理装置100全体を司る処理部であり、情報処理装置100が備える各構成を制御する。制御部180が有する機能の詳細については後述される。
 以上、本実施形態に係る情報処理装置100の機能構成例について説明した。なお、図1を用いて説明した上記の機能構成はあくまで一例であり、本実施形態に係る情報処理装置100の機能構成は係る例に限定されない。例えば、情報処理装置100は、必ずしも図1に示す構成のすべてを備えなくてもよいし、上記の機能構成の一部を情報処理装置100とは異なる別の装置に備えることも可能である。本実施形態に係る情報処理装置100の機能構成は、仕様や運用に応じて柔軟に変形可能である。
 また、各構成要素の機能を、CPU(Central Proccessing Unit)などの演算装置がこれらの機能を実現する処理手順を記述した制御プログラムを記憶したROM(Read Only Memory)やRAM(Random Access Memory)などの記憶媒体から制御プログラムを読み出し、そのプログラムを解釈して実行することにより行ってもよい。従って、本実施形態を実施する時々の技術レベルに応じて、適宜利用する構成を変更することが可能である。また、情報処理装置100のハードウェア構成の一例については後述される。
<<1.2.機能の詳細>>
 次に、本実施形態に係る情報処理装置100が有する機能について詳細に説明する。本実施形態は、所定の作業の撮影動画から取得された撮影画像から基準画像を決定し、基準画像と、撮影画像の他の画像との画像間距離を算出する。そして、算出したそれぞれの画像間距離に基づいて、オブジェクトを検出するための機械学習の教師データとして偏りが少なくなるように、撮影画像から複数の画像を選択する。
 図6は、本実施形態に係る基準画像との画像間距離を表すグラフの一例を示す図である。図6に示すグラフは、横軸を時間、縦軸を基準画像fsと各撮影画像との画像間距離とするグラフを示している。基準画像fsは、例えば、作業開始時tsの撮影画像である。図6に示すように、作業開始直後taの撮影画像faは、基準画像fsと比較して、作業者の動きがほとんどなく、画像間距離も小さい。このような、基準画像fsと、これに類似している画像とを機械学習の教師データとして集めても、どちらか1枚で十分であり、画像2枚分の学習効果は期待できない。作業終了時tzの撮影画像fzなども画像間距離が小さいため、同様のことが言える。一方、作業時tbの撮影画像fbは、基準画像fsとの画像間距離が大きく、教師データとして選択されるべき画像である。
 しかしながら、基準画像fsとの画像間距離が大きいからといって、作業時tb付近の撮影画像ばかりを教師データとしても、今度は撮影画像fbと類似する撮影画像ばかりが集まりため、画像分の学習効果は期待できない。そこで、教師データとして偏りの少ない撮影画像の選択方法について説明する。
 図7は、本実施形態に係る教師データとして偏りの少ない撮影画像の選択の一例を示す図である。図7において、基準画像fsとの画像間距離が最大の画像は、作業時tbの撮影画像fbであったとする。そして、この撮影画像fbと基準画像fsとの画像間距離をdbとする。また、機械学習の教師データとして選択したい撮影画像の枚数を4枚とする。
 この場合、図7に示すように、画像間距離dbを3つに分割(例えば、距離dxずつ3等分)し、それぞれの分割点が示す画像間距離dcおよびddと同一または最も近い撮影画像fcおよびfdを選択する。そして、撮影画像fcおよびfdに加え、撮影画像fbおよび基準画像fsを選択し、計4枚の撮影画像を教師データとして選択することができる。これら4枚の撮影画像は、画像間距離が各々で離れており、教師データとして適度にばらつきがあると言える。
 なお、分割数や分割点ごとの選択枚数は図7の例に限られず、図7の例より多くても少なくてもよい。また、図7の例では、画像間距離dcを示す撮影画像は、時間tbより前にも存在する。そのため、画像間距離dcを示す撮影画像が複数枚ある場合は、これら複数枚を選択してもよいし、いずれか1枚の撮影画像を選択してもよい。
 また、図7に示すように、基準画像fsとの画像間距離が近い撮影画像は、作業開始直後や終了直前である傾向が強いため、そのような撮影画像は選択され難くなるように、画像間距離に閾値を設け、当該閾値以上の撮影画像を選択するようにすることもできる。これにより、基準画像fsとより離れた撮影画像を教師データとして選択することができる。図8は、本実施形態に係る教師データとして偏りの少ない撮影画像の選択の別例を示す図である。図8に示すように、画像間距離に閾値thを設定し、閾値thと画像間距離dbとの間を分割し、それぞれの分割点が示す画像間距離dc´およびdd´と同一または最も近い撮影画像fc´およびfd´を選択する。撮影画像fc´およびfd´は、図7の撮影画像fcおよびfdと比較すると、それぞれの画像間距離は少し小さくなるが、基準画像fsとの画像間距離が大きくなっている。閾値thをどの程度にするかは、例えば、撮影画像全体の画像間距離の割合に基づいてよい。
 次に、画像間距離の算出方法について説明する。画像間距離は、例えば、画像間の各画素のRGB値や輝度値の差の大きさの合計である(後述する図9の例)。さらに、処理効率などを考慮して、所定領域内の画像間の各画素のRGB値や輝度値の平均値の差を用いることができる(後述する図10の例)。
 図9は、本実施形態に係る画像全体の画像間距離を算出する方法の一例を示す図である。図9に示すように、画像間距離を算出する撮影画像fAおよびfBを、例えば、8×8の領域A0~A63およびB0~B63にそれぞれ分割する。なお、各領域に含まれる画素数は均等でなくてよい。また、分割数の8×8は一例であり、8×8より多くても少なくてもよい(例えば、5×5や16×16)。しかしながら、分割された1つの領域がバウンディングボックスより大きいと画像間距離が正しく算出できない場合があるため、個々の領域がバウンディングボックスより小さくなるような分割数にする。
 次に、分割した各領域内の画素のRGB値や輝度値の平均値dAnおよびdBn(図9の例の場合、nは0~63までの整数)を算出する。そして、次式(1)を用いて、画像全体の画像間距離Img_dst_allを算出する。
Figure JPOXMLDOC01-appb-M000001
 なお、式(1)中のnの上限63は、撮影画像の分割数に応じて任意に変更される。
 以上、図9を用いて、画像全体の画像間距離の算出方法について説明したが、画像全体の場合、動きが発生しないような背景部分の領域の画像間距離は、ほぼゼロに近くなる。また、そのような領域は作業状態の変化が起き難い領域であるため、そもそもオブジェクトとして検出され難い。そこで、画像全体ではなく、オブジェクトとして検出された一部の領域の画像間距離を算出するができる。
 図10は、本実施形態に係る画像の一部の画像間距離を算出する方法の一例を示す図である。図10の撮影画像fAおよびfBには、それぞれ、検出されたオブジェクトをバウンディングボックスで囲んだ一部の領域baおよびbbが示されている。図9の画像全体と同様に、これら一部の領域baおよびbbを、例えば、8×8の領域a0~a63およびb0~b63にそれぞれ分割する。なお、図9の画像全体と同様に、各領域に含まれる画素数は均等でなくてよいし、分割数は、8×8より多くても少なくてもよい。
 次に、分割した各領域内の画素のRGB値や輝度値の平均値danおよびdbn(図10の例の場合、nは0~63までの整数)を算出する。そして、次式(2)を用いて、画像の一部の画像間距離Img_dst_partを算出する。
Figure JPOXMLDOC01-appb-M000002
 なお、式(2)中のnの上限63も、撮影画像の分割数に応じて任意に変更される。
 以上、図9および図10を用いて、画像全体および画像の一部の2つの画像間距離の算出方法について説明したが、次式(3)に示すように、これら2つの画像間距離を合計して、画像間距離Img_dst_totalとすることもできる。
Figure JPOXMLDOC01-appb-M000003
 式(3)における重み係数tは、0<t<1の範囲の数値であり、重み係数tを用いて、画像全体および画像の一部の2つの画像間距離のどちらかに、重みを持たせることができる。
<<1.3.機能の流れ>>
 次に、図11を用いて、本実施形態に係る教師データとして偏りの少ない撮影画像の選択処理の手順について説明する。図11は、本実施形態に係る教師データとして偏りの少ない撮影画像の選択処理の流れを示すフローチャートである。本処理は、撮影動画から取得される複数の撮影画像の画像間距離に基づいて、当該撮影画像から、オブジェクトを検出するための機械学習の教師データとして用いる入力画像を選択する処理である。本処理は、例えば、ユーザが、情報処理装置100に接続された入力装置を介して、本処理の実行プログラムに対し実行意思を示した場合に開始される。または、本処理は、定期もしくは不定期に実行されるバッチ処理であってもよい。
 図11に示すように、まず、情報処理装置100の取得部120は、所定の作業の撮影動画から複数の撮影画像を取得する(ステップS101)。取得される画像は、撮影動画のフレームごとの画像であり、記憶部110に記憶されていてもよいし、情報処理装置100とは別の装置や媒体などに記憶されていてもよい。
 次に、情報処理装置100の決定部130は、取得部120によって取得された撮影画像から、基準となる基準画像を決定する(ステップS102)。決定される基準画像は、例えば、検出部160によってオブジェクトが検出された時を作業開始時として、その際の撮影画像であってよい。
 次に、情報処理装置100の算出部140は、決定部130によって決定された基準画像と、取得部120によって取得された、基準画像以外の他の撮影画像との画像間距離を算出する(ステップS103)。算出される画像間距離は、上述したように、画像全体の画像間距離Img_dst_allであってもよいし、画像の一部の画像間距離Img_dst_partであってもよい。または、算出される画像間距離は、これら2つの画像間距離に基づいた、画像間距離Img_dst_totalであってもよい。
 次に、算出部140は、算出した画像間距離の最大値を、所定の間隔で分割する(ステップS104)。所定の間隔とは、上述したように、例えば、機械学習の教師データとして選択したい画像の枚数が4枚の場合は、画像間距離の最大値を3等分した間隔である。
 次に、情報処理装置100の選択部150は、算出部140によって算出された画像間距離の最大値を所定の間隔で分割した各分割点の画像間距離と同一または最も近い撮影画像を選択する(ステップS105)。ステップS105の後、本処理は終了する。
<2.実施形態の変形例>
<<2.1.変形例1>>
 次に、本実施形態の変形例について説明する。上述したように、オブジェクトを検出するための機械学習の教師データとして用いる撮影画像は、撮影画像同士が類似せず、ばらついていた方がよい。そこで、上述した実施例では、類似しない撮影画像を画像間距離に基づいて選択した。以下に示す変形例1では、1つの作業中の作業時間の違いによる撮影画像の違いに着目し、作業時間に基づいて、教師データとして用いる撮影画像を選択する。
 図12は、本実施形態に係る教師データとして偏りの少ない撮影画像の選択の変形例1を示す図である。図12に示すように、情報処理装置100の選択部150は、作業開始時tsの撮影画像fsを基準画像とし、作業開始時tsから作業終了時tzの間の作業中の撮影画像を選択する。これら基準画像および作業中の撮影画像は、後述するように記憶部110に記憶された作業手順書データに基づいて選択されることができる。
 図12の例では、作業時間teおよびtfの2つの時点の撮影画像feおよびffを選択する。また、選択部150は、作業終了時tzの撮影画像fzをさらに選択してもよい。なお、変形例においても、選択される画像は、オブジェクトを検出するための機械学習の教師データとして用いるため、オブジェクトを含んだ画像である必要がある。
 図12の例に示される1サイクルの作業時間は、例えば、記憶部110に記憶された作業手順書データの「作業時間」から取得することができる。当該作業時間によって作業開始時tsおよび作業終了時tzを導出し、各時点の撮影画像fsおよび撮影画像fzを選択することができる。また、作業開始時tsと作業終了時tzとの間を所定の間隔で分割することで、作業時間teおよびtfの2つの時点を導出し、撮影画像feおよびffを選択することができる。なお、所定の間隔とは等間隔であってもよいし、そうでなくてもよい。また、図12の例では、作業中の撮影画像として撮影画像feおよびffの2枚を選択しているが、選択される作業中の撮影画像の枚数は2枚より多くても少なくてもよい。図12の例では、作業中の撮影画像feおよびffに加え、基準画像fsや撮影画像fzを、オブジェクトを検出するための機械学習の教師データとして選択することができる。
<<2.2.変形例2>>
 以下に示す変形例2では、同一の作業工程であっても、作業者が異なれば撮影画像も異なってくることに着目し、作業者を検出し、作業中の作業者が代わった場合に、教師データとして用いる撮影画像を選択する。
 図13は、本実施形態に係る教師データとして偏りの少ない撮影画像の選択の変形例2を示す図である。図13に示すように、同一の作業工程を作業者A、B、Cで交代して行っていた場合、情報処理装置100の検出部160は、作業者A、B、Cの撮影された動画に対し、顔認識などの認識技術により個々の作業者を検出する。そして、情報処理装置100の判定部170は、検出された作業者に基づいて、作業中の作業者が代わったか否かを判定する。
 次に、情報処理装置100の選択部150は、作業者が代わったと判定した場合に、作業者が代わったと判定した時点以降のオブジェクトを含んだ撮影画像から、機械学習の教師データとして用いる入力画像を選択する。これにより、撮影画像fBおよびfCを選択することができる。また、作業者が代わったと判定した時点より前のオブジェクトを含んだ撮影画像から撮影画像fAを選択することができる。
 なお、作業者が代わったと判定した時点以降またはより前のどの時点の撮影画像を選択するかは、例えば、選択する枚数に基づいて所定の間隔に分割して各分割点の撮影画像を選択することができる。
 以上、本実施形態の変形例1および2を説明したが、これらは、別々に実施される必要はなく、複合的に実施してもよい。例えば、作業者が代わったと判定した場合に、作業者が代わったと判定した時点を基準画像とし、基準画像と以降の撮影画像との画像間距離を算出し、画像間距離に基づいて、機械学習の教師データとして用いる入力画像を選択することができる。
<3.ハードウェア構成例>
 次に、本実施形態に係る情報処理装置100のハードウェア構成例について説明する。図14は、本実施形態に係る情報処理装置100のハードウェア構成例を示すブロック図である。図14を参照すると、情報処理装置100は、例えば、プロセッサ801と、ROM802と、RAM803と、ホストバス804と、ブリッジ805と、外部バス806と、インターフェース807と、入力装置808と、出力装置809と、ストレージ810と、ドライブ811と、接続ポート812と、通信装置813と、を有する。なお、ここで示すハードウェア構成は一例であり、構成要素の一部が省略されてもよい。また、ここで示される構成要素以外の構成要素をさらに含んでもよい。
(プロセッサ801)
 プロセッサ801は、例えば、演算処理装置または制御装置として機能し、ROM802、RAM803、ストレージ810、またはリムーバブル記録媒体901に記録された各種プログラムに基づいて各構成要素の動作全般またはその一部を制御する。
(ROM802、RAM803)
 ROM802は、プロセッサ801に読み込まれるプログラムや演算に用いるデータなどを格納する手段である。RAM803には、例えば、プロセッサ801に読み込まれるプログラムや、そのプログラムを実行する際に適宜変化する各種パラメータなどが一時的または永続的に格納される。
(ホストバス804、ブリッジ805、外部バス806、インターフェース807)
 プロセッサ801、ROM802、RAM803は、例えば、高速なデータ伝送が可能なホストバス804を介して相互に接続される。一方、ホストバス804は、例えば、ブリッジ805を介して比較的データ伝送速度が低速な外部バス806に接続される。また、外部バス806は、インターフェース807を介して種々の構成要素と接続される。
(入力装置808)
 入力装置808には、例えば、マウス、キーボード、タッチパネル、ボタン、スイッチ、およびレバーなどが用いられる。さらに、入力装置808としては、赤外線やその他の電波を利用して制御信号を送信することが可能なリモートコントローラ(以下、リモコン)が用いられることもある。また、入力装置808には、マイクロフォンなどの音声入力装置が含まれる。
(出力装置809)
 出力装置809は、例えば、CRT(Cathode Ray Tube)、LCD、または有機ELなどのディスプレイ装置、スピーカー、ヘッドホンなどのオーディオ出力装置、プリンタ、携帯電話、またはファクシミリなど、取得した情報を利用者に対して視覚的または聴覚的に通知することが可能な装置である。また、本実施形態に係る出力装置809は、触覚刺激を出力することが可能な種々の振動デバイスを含む。
(ストレージ810)
 ストレージ810は、各種のデータを格納するための装置である。ストレージ810としては、例えば、ハードディスクドライブ(HDD)などの磁気記憶デバイス、半導体記憶デバイス、光記憶デバイス、または光磁気記憶デバイスなどが用いられる。
(ドライブ811)
 ドライブ811は、例えば、磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリなどのリムーバブル記録媒体901に記録された情報を読み出し、またはリムーバブル記録媒体901に情報を書き込む装置である。
(接続ポート812)
 接続ポート812は、例えば、USB(Universal Serial Bus)ポート、IEEE1394ポート、SCSI(Small Computer System Interface)、RS-232Cポート、または光オーディオ端子などのような外部接続機器902を接続するためのポートである。
(通信装置813)
 通信装置813は、ネットワークに接続するための通信デバイスであり、例えば、有線または無線LAN、Bluetooth(登録商標)、またはWUSB(Wireless USB)用の通信カード、光通信用のルータ、ADSL(Asymmetric Digital Subscriber Line)用のルータ、または各種通信用のモデムなどである。
(リムーバブル記録媒体901)
 リムーバブル記録媒体901は、例えば、DVDメディア、Blu-ray(登録商標)メディア、HD DVDメディア、各種の半導体記憶メディアなどである。もちろん、リムーバブル記録媒体901は、例えば、非接触型ICチップを搭載したICカード、または電子機器などであってもよい。
(外部接続機器902)
 外部接続機器902は、例えば、プリンタ、携帯音楽プレーヤ、デジタルカメラ、デジタルビデオカメラ、またはICレコーダなどである。
 なお、本実施形態に係る記憶部110は、ROM802やRAM803、ストレージ810によって実現される。また、プロセッサ801によって実現される本実施形態に係る制御部180が、取得部120、決定部130、算出部140、選択部150、検出部160、判定部170を実現する各制御プログラムを、ROM802やRAM803などから読み出し実行する。
<4.まとめ>
 以上説明したように、情報処理装置100は、所定の作業の撮影動画から複数の撮影画像を取得する取得部120と、前記撮影画像から、基準となる基準画像を決定する決定部130と、前記基準画像と、前記撮影画像の他の画像との第1の画像間距離を算出する算出部140と、前記第1の画像間距離に基づいて、前記撮影画像から、機械学習の教師データとして用いる入力画像を選択する選択部150とを備える。
 これにより、撮影動画から偏りの少ない教師データを効率的に集めることができる。
 以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。
 また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。
 なお、本技術は以下のような構成も取ることができる。
(1)所定の作業の撮影動画から複数の撮影画像を取得する取得部と、
 前記撮影画像から、基準となる基準画像を決定する決定部と、
 前記基準画像と、前記撮影画像の他の画像との第1の画像間距離を算出する算出部と、
 前記第1の画像間距離に基づいて、前記撮影画像から、機械学習の教師データとして用いる入力画像を選択する選択部と
 を備えた、情報処理装置。
(2)前記算出部はさらに、前記第1の画像間距離の最大値を所定の間隔で分割することにより、前記基準画像との第2の画像間距離を算出し、
 前記選択部は、前記入力画像として、前記撮影画像から、前記第2の画像間距離と同一または最も近い画像を選択する、前記(1)に記載の情報処理装置。
(3)前記算出部はさらに、前記第1の画像間距離の最大値を、所定の閾値以上の範囲で所定の間隔で分割することにより、前記基準画像との第2の画像間距離を算出し、
 前記選択部は、前記入力画像として、前記撮影画像から、前記第2の画像間距離と同一または最も近い画像を選択する、前記(1)に記載の情報処理装置。
(4)前記撮影画像から任意のオブジェクトを検出する検出部をさらに備え、
 前記決定部はさらに、
 前記基準画像から検出された前記オブジェクトを含んだ所定範囲を第1の部分画像に決定し、
 前記他の画像から検出された前記オブジェクトを含んだ所定範囲を第2の部分画像に決定し、
 前記算出部は、前記第1の部分画像と前記第2の部分画像との前記第1の画像間距離を算出する、前記(1)乃至(3)のいずれか1つに記載の情報処理装置。
(5)前記撮影画像から任意のオブジェクトを検出する検出部をさらに備え、
 前記決定部はさらに、
 前記基準画像から検出された前記オブジェクトを含んだ所定範囲を第1の部分画像に決定し、
 前記他の画像から検出された前記オブジェクトを含んだ所定範囲を第2の部分画像に決定し、
 前記算出部は、前記撮影画像全体と前記他の画像全体との第3の画像間距離、および前記第1の部分画像と前記第2の部分画像との第4の画像間距離に基づいて、前記第1の画像間距離を算出する、前記(1)乃至(3)のいずれか1つに記載の情報処理装置。
(6)所定の作業の撮影動画から複数の撮影画像を取得する取得部と、
 予め定められた作業手順書に基づいて、前記撮影画像から、前記所定の作業の開始時に対応する前記撮影画像を基準画像に決定する決定部と、
 前記撮影画像から任意のオブジェクトを検出する検出部と、
 前記作業手順書に基づいて、前記開始時から前記所定の作業の終了時の間の前記オブジェクトを含んだ前記撮影画像から、機械学習の教師データとして用いる入力画像を選択する選択部と
 を備えた、情報処理装置。
(7)所定の作業の撮影動画から複数の撮影画像を取得する取得部と、
 前記所定の作業の作業者を検出し、
 前記撮影画像から任意のオブジェクトを検出する検出部と、
 前記作業者が代わったか否かを判定する判定部と、
 前記作業者が代わったと判定した場合に、前記作業者が代わったと判定した時点以降の前記オブジェクトを含んだ前記撮影画像から、機械学習の教師データとして用いる入力画像を選択する選択部と
 を備えた、情報処理装置。
(8)情報処理装置に、
 所定の作業の撮影動画から複数の撮影画像を取得し、
 前記撮影画像から、基準となる基準画像を決定し、
 前記基準画像と、前記撮影画像の他の画像との第1の画像間距離を算出し、
 前記第1の画像間距離に基づいて、前記撮影画像から、機械学習の教師データとして用いる入力画像を選択する
 処理を実行させる、プログラム。
(9)情報処理装置が、
 所定の作業の撮影動画から複数の撮影画像を取得し、
 前記撮影画像から、基準となる基準画像を決定し、
 前記基準画像と、前記撮影画像の他の画像との第1の画像間距離を算出し、
 前記第1の画像間距離に基づいて、前記撮影画像から、機械学習の教師データとして用いる入力画像を選択する
 処理を実行する、方法。
(10)情報処理装置に、
 予め定められた作業手順書に基づいて、所定の作業の撮影動画から複数の撮影画像を取得し、
 前記作業手順書に基づいて、前記撮影画像から、前記所定の作業の開始時に対応する前記撮影画像を基準画像に決定し、
 前記撮影画像から任意のオブジェクトを検出し、
 前記作業手順書に基づいて、前記開始時から前記所定の作業の終了時の間の前記オブジェクトを含んだ前記撮影画像から、機械学習の教師データとして用いる入力画像を選択する
 処理を実行させる、プログラム。
(11)情報処理装置が、
 予め定められた作業手順書に基づいて、所定の作業の撮影動画から複数の撮影画像を取得し、
 前記作業手順書に基づいて、前記撮影画像から、前記所定の作業の開始時に対応する前記撮影画像を基準画像に決定し、
 前記撮影画像から任意のオブジェクトを検出し、
 前記作業手順書に基づいて、前記開始時から前記所定の作業の終了時の間の前記オブジェクトを含んだ前記撮影画像から、機械学習の教師データとして用いる入力画像を選択する
 処理を実行する、方法。
(12)情報処理装置に、
 所定の作業の撮影動画から複数の撮影画像を取得し、
 前記所定の作業の作業者を検出し、
 前記撮影画像から任意のオブジェクトを検出し、
 前記作業者が代わったか否かを判定し、
 前記作業者が代わったと判定した場合に、前記作業者が代わったと判定した時点以降の前記オブジェクトを含んだ前記撮影画像から、機械学習の教師データとして用いる入力画像を選択する
 処理を実行させる、プログラム。
(13)情報処理装置が、
 所定の作業の撮影動画から複数の撮影画像を取得し、
 前記所定の作業の作業者を検出し、
 前記撮影画像から任意のオブジェクトを検出し、
 前記作業者が代わったか否かを判定し、
 前記作業者が代わったと判定した場合に、前記作業者が代わったと判定した時点以降の前記オブジェクトを含んだ前記撮影画像から、機械学習の教師データとして用いる入力画像を選択する
 処理を実行する、方法。
 100 情報処理装置
 110 記憶部
 120 取得部
 130 決定部
 140 算出部
 150 選択部
 160 検出部
 170 判定部
 180 制御部

Claims (13)

  1.  所定の作業の撮影動画から複数の撮影画像を取得する取得部と、
     前記撮影画像から、基準となる基準画像を決定する決定部と、
     前記基準画像と、前記撮影画像の他の画像との第1の画像間距離を算出する算出部と、
     前記第1の画像間距離に基づいて、前記撮影画像から、機械学習の教師データとして用いる入力画像を選択する選択部と
     を備えた、情報処理装置。
  2.  前記算出部はさらに、前記第1の画像間距離の最大値を所定の間隔で分割することにより、前記基準画像との第2の画像間距離を算出し、
     前記選択部は、前記入力画像として、前記撮影画像から、前記第2の画像間距離と同一または最も近い画像を選択する、請求項1に記載の情報処理装置。
  3.  前記算出部はさらに、前記第1の画像間距離の最大値を、所定の閾値以上の範囲で所定の間隔で分割することにより、前記基準画像との第2の画像間距離を算出し、
     前記選択部は、前記入力画像として、前記撮影画像から、前記第2の画像間距離と同一または最も近い画像を選択する、請求項1に記載の情報処理装置。
  4.  前記撮影画像から任意のオブジェクトを検出する検出部をさらに備え、
     前記決定部はさらに、
     前記基準画像から検出された前記オブジェクトを含んだ所定範囲を第1の部分画像に決定し、
     前記他の画像から検出された前記オブジェクトを含んだ所定範囲を第2の部分画像に決定し、
     前記算出部は、前記第1の部分画像と前記第2の部分画像との前記第1の画像間距離を算出する、請求項1に記載の情報処理装置。
  5.  前記撮影画像から任意のオブジェクトを検出する検出部をさらに備え、
     前記決定部はさらに、
     前記基準画像から検出された前記オブジェクトを含んだ所定範囲を第1の部分画像に決定し、
     前記他の画像から検出された前記オブジェクトを含んだ所定範囲を第2の部分画像に決定し、
     前記算出部は、前記撮影画像全体と前記他の画像全体との第3の画像間距離、および前記第1の部分画像と前記第2の部分画像との第4の画像間距離に基づいて、前記第1の画像間距離を算出する、請求項1に記載の情報処理装置。
  6.  所定の作業の撮影動画から複数の撮影画像を取得する取得部と、
     予め定められた作業手順書に基づいて、前記撮影画像から、前記所定の作業の開始時に対応する前記撮影画像を基準画像に決定する決定部と、
     前記撮影画像から任意のオブジェクトを検出する検出部と、
     前記作業手順書に基づいて、前記開始時から前記所定の作業の終了時の間の前記オブジェクトを含んだ前記撮影画像から、機械学習の教師データとして用いる入力画像を選択する選択部と
     を備えた、情報処理装置。
  7.  所定の作業の撮影動画から複数の撮影画像を取得する取得部と、
     前記所定の作業の作業者を検出し、
     前記撮影画像から任意のオブジェクトを検出する検出部と、
     前記作業者が代わったか否かを判定する判定部と、
     前記作業者が代わったと判定した場合に、前記作業者が代わったと判定した時点以降の前記オブジェクトを含んだ前記撮影画像から、機械学習の教師データとして用いる入力画像を選択する選択部と
     を備えた、情報処理装置。
  8.  情報処理装置に、
     所定の作業の撮影動画から複数の撮影画像を取得し、
     前記撮影画像から、基準となる基準画像を決定し、
     前記基準画像と、前記撮影画像の他の画像との第1の画像間距離を算出し、
     前記第1の画像間距離に基づいて、前記撮影画像から、機械学習の教師データとして用いる入力画像を選択する
     処理を実行させる、プログラム。
  9.  情報処理装置が、
     所定の作業の撮影動画から複数の撮影画像を取得し、
     前記撮影画像から、基準となる基準画像を決定し、
     前記基準画像と、前記撮影画像の他の画像との第1の画像間距離を算出し、
     前記第1の画像間距離に基づいて、前記撮影画像から、機械学習の教師データとして用いる入力画像を選択する
     処理を実行する、方法。
  10.  情報処理装置に、
     予め定められた作業手順書に基づいて、所定の作業の撮影動画から複数の撮影画像を取得し、
     前記作業手順書に基づいて、前記撮影画像から、前記所定の作業の開始時に対応する前記撮影画像を基準画像に決定し、
     前記撮影画像から任意のオブジェクトを検出し、
     前記作業手順書に基づいて、前記開始時から前記所定の作業の終了時の間の前記オブジェクトを含んだ前記撮影画像から、機械学習の教師データとして用いる入力画像を選択する
     処理を実行させる、プログラム。
  11.  情報処理装置が、
     予め定められた作業手順書に基づいて、所定の作業の撮影動画から複数の撮影画像を取得し、
     前記作業手順書に基づいて、前記撮影画像から、前記所定の作業の開始時に対応する前記撮影画像を基準画像に決定し、
     前記撮影画像から任意のオブジェクトを検出し、
     前記作業手順書に基づいて、前記開始時から前記所定の作業の終了時の間の前記オブジェクトを含んだ前記撮影画像から、機械学習の教師データとして用いる入力画像を選択する
     処理を実行する、方法。
  12.  情報処理装置に、
     所定の作業の撮影動画から複数の撮影画像を取得し、
     前記所定の作業の作業者を検出し、
     前記撮影画像から任意のオブジェクトを検出し、
     前記作業者が代わったか否かを判定し、
     前記作業者が代わったと判定した場合に、前記作業者が代わったと判定した時点以降の前記オブジェクトを含んだ前記撮影画像から、機械学習の教師データとして用いる入力画像を選択する
     処理を実行させる、プログラム。
  13.  情報処理装置が、
     所定の作業の撮影動画から複数の撮影画像を取得し、
     前記所定の作業の作業者を検出し、
     前記撮影画像から任意のオブジェクトを検出し、
     前記作業者が代わったか否かを判定し、
     前記作業者が代わったと判定した場合に、前記作業者が代わったと判定した時点以降の前記オブジェクトを含んだ前記撮影画像から、機械学習の教師データとして用いる入力画像を選択する
     処理を実行する、方法。
PCT/JP2020/013460 2020-03-25 2020-03-25 情報処理装置、プログラム、および方法 WO2021192119A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
EP20927905.8A EP4130904A1 (en) 2020-03-25 2020-03-25 Information processing device, program, and method
PCT/JP2020/013460 WO2021192119A1 (ja) 2020-03-25 2020-03-25 情報処理装置、プログラム、および方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2020/013460 WO2021192119A1 (ja) 2020-03-25 2020-03-25 情報処理装置、プログラム、および方法

Publications (1)

Publication Number Publication Date
WO2021192119A1 true WO2021192119A1 (ja) 2021-09-30

Family

ID=77891649

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/013460 WO2021192119A1 (ja) 2020-03-25 2020-03-25 情報処理装置、プログラム、および方法

Country Status (2)

Country Link
EP (1) EP4130904A1 (ja)
WO (1) WO2021192119A1 (ja)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017228160A (ja) * 2016-06-23 2017-12-28 パナソニックIpマネジメント株式会社 対話行為推定方法、対話行為推定装置及びプログラム
JP2018163527A (ja) * 2017-03-27 2018-10-18 株式会社Screenホールディングス 分類装置の製造方法、画像の分類方法、画像の分類装置、半導体の検査装置および分類基準モジュール
JP2018163556A (ja) 2017-03-27 2018-10-18 三菱重工業株式会社 作業管理装置、作業管理方法およびプログラム
JP2019012321A (ja) * 2017-06-29 2019-01-24 富士通株式会社 情報処理装置、工程時間算出方法および工程時間算出プログラム
JP2019029021A (ja) * 2017-07-30 2019-02-21 国立大学法人 奈良先端科学技術大学院大学 学習データセット作製方法、並びに、物体認識及び位置姿勢推定方法
JP2019101516A (ja) 2017-11-29 2019-06-24 ファナック株式会社 作業者管理装置
JP2019174940A (ja) * 2018-03-27 2019-10-10 株式会社 Ngr パターンエッジ検出方法
JP2019193019A (ja) * 2018-04-20 2019-10-31 キヤノン株式会社 作業分析装置、作業分析方法
JP2019204258A (ja) * 2018-05-23 2019-11-28 株式会社パスコ 学習用データ生成装置
JP2020024534A (ja) * 2018-08-07 2020-02-13 日本放送協会 画像分類装置及びプログラム

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017228160A (ja) * 2016-06-23 2017-12-28 パナソニックIpマネジメント株式会社 対話行為推定方法、対話行為推定装置及びプログラム
JP2018163527A (ja) * 2017-03-27 2018-10-18 株式会社Screenホールディングス 分類装置の製造方法、画像の分類方法、画像の分類装置、半導体の検査装置および分類基準モジュール
JP2018163556A (ja) 2017-03-27 2018-10-18 三菱重工業株式会社 作業管理装置、作業管理方法およびプログラム
JP2019012321A (ja) * 2017-06-29 2019-01-24 富士通株式会社 情報処理装置、工程時間算出方法および工程時間算出プログラム
JP2019029021A (ja) * 2017-07-30 2019-02-21 国立大学法人 奈良先端科学技術大学院大学 学習データセット作製方法、並びに、物体認識及び位置姿勢推定方法
JP2019101516A (ja) 2017-11-29 2019-06-24 ファナック株式会社 作業者管理装置
JP2019174940A (ja) * 2018-03-27 2019-10-10 株式会社 Ngr パターンエッジ検出方法
JP2019193019A (ja) * 2018-04-20 2019-10-31 キヤノン株式会社 作業分析装置、作業分析方法
JP2019204258A (ja) * 2018-05-23 2019-11-28 株式会社パスコ 学習用データ生成装置
JP2020024534A (ja) * 2018-08-07 2020-02-13 日本放送協会 画像分類装置及びプログラム

Also Published As

Publication number Publication date
EP4130904A1 (en) 2023-02-08

Similar Documents

Publication Publication Date Title
TWI498772B (zh) 用於處理原始視訊串流的系統、包含其之成像裝置與顯示器、使用原始視訊串流的電腦導航方法,及非暫時性電腦可讀取媒體
JP6911866B2 (ja) 情報処理装置および情報処理方法
KR102543508B1 (ko) 머신 러닝을 사용하는 비디오 피드 내에서의 자동화된 오브젝트 추적
CN112329740B (zh) 图像处理方法、装置、存储介质和电子设备
JP5527423B2 (ja) 画像処理システム、画像処理方法、及び画像処理プログラムを記憶した記憶媒体
CN104516499A (zh) 利用用户接口的事件的设备和方法
WO2017030193A1 (ja) 情報処理装置、情報処理方法、及びプログラム
JP2021530823A (ja) ニューラルネットワークのトレーニング方法、視線追跡方法及び装置並びに電子機器
CN112206541A (zh) 游戏外挂识别方法、装置、存储介质及计算机设备
TW201918866A (zh) 觸控面板上的敲擊事件的分類方法及系統,以及觸控面板產品
WO2021192119A1 (ja) 情報処理装置、プログラム、および方法
CN111797867A (zh) ***资源优化方法、装置、存储介质及电子设备
CN102214062A (zh) 信息处理设备、信息处理方法和程序
WO2020170986A1 (ja) 情報処理装置、方法及びプログラム
CN112989957A (zh) 适用于设备柜的安全监测方法及***
JP4449483B2 (ja) 画像解析装置、および画像解析方法、並びにコンピュータ・プログラム
US20210149544A1 (en) Information processing apparatus, information processing method, and program
CN111507944A (zh) 皮肤光滑度的确定方法、装置和电子设备
JP2020086697A (ja) 作業習熟支援装置、及び作業習熟支援システム
US20230169754A1 (en) Information processing device and program
US20230128043A1 (en) Information processing device, information processing method, and information processing program
JP6784039B2 (ja) データ推定装置、データ推定方法、及び、データ推定プログラム
US20220391816A1 (en) Display method and information processing apparatus
Jayanthi Method for Recognizing Hand Gestures in Real-Time Across Multiple Sensors Using Machine Learning
JP2023021847A (ja) 情報処理装置、及び情報処理プログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20927905

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2020927905

Country of ref document: EP

Effective date: 20221025

NENP Non-entry into the national phase

Ref country code: JP