WO2020166401A1 - 学習データ生成装置、方法及びプログラム - Google Patents

学習データ生成装置、方法及びプログラム Download PDF

Info

Publication number
WO2020166401A1
WO2020166401A1 PCT/JP2020/003846 JP2020003846W WO2020166401A1 WO 2020166401 A1 WO2020166401 A1 WO 2020166401A1 JP 2020003846 W JP2020003846 W JP 2020003846W WO 2020166401 A1 WO2020166401 A1 WO 2020166401A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
marker
learning data
unit
information
Prior art date
Application number
PCT/JP2020/003846
Other languages
English (en)
French (fr)
Inventor
麻理子 五十川
弾 三上
康輔 高橋
草地 良規
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to US17/429,547 priority Critical patent/US20220130138A1/en
Publication of WO2020166401A1 publication Critical patent/WO2020166401A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06V10/7747Organisation of the process, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/60Image enhancement or restoration using machine learning, e.g. neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/77Retouching; Inpainting; Scratch removal
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/24Aligning, centring, orientation detection or correction of the image
    • G06V10/245Aligning, centring, orientation detection or correction of the image by locating a pattern; Special marks for positioning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/56Extraction of image or video features relating to colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30204Marker

Definitions

  • the present invention relates to a technique for generating learning data used in learning a model for estimating information about an object in an image.
  • Non-Patent Document 1 is known as a method of inputting an image and estimating the three-dimensional position and orientation of an object in the image on a learning basis (for example, refer to Non-Patent Document 1).
  • a marker made of a retroreflective material is reflected in the image.
  • a marker that is not included in the actual estimation target may be reflected in the image during learning, which may cause a decrease in estimation accuracy.
  • an object of the present invention is to provide a learning data generation device, method, and program for generating learning data that can improve the estimation accuracy as compared with the related art.
  • a learning data generation device measures an image acquisition unit that acquires an image of an object to which three or more markers are attached, the position of each marker in the image, and based on the position of each marker.
  • a marker measurement unit that generates position and orientation information that is information related to the position and orientation of an object, a repair region determination unit that determines a repair region for inpainting in an image based on the position of each marker, and a repair region determination unit.
  • An image inpainting unit that removes each marker from the image based on the image, and a learning data generation unit that generates learning data based on the image from which each marker is removed and the position and orientation information.
  • the estimation accuracy can be improved compared to the past.
  • FIG. 1 is a diagram illustrating an example of a functional configuration of a learning data generation device.
  • FIG. 2 is a diagram showing an example of a processing procedure of the learning data generating method.
  • FIG. 3 is a diagram showing an example of an image of an object to which a marker is attached. (1) It is a figure which shows the example of image I_mask at the time of deciding a restoration area by the method of deciding with a specific color.
  • FIG. 5 is a diagram showing an example of the image I_mask when the restoration area is determined by the method (2) of determining the specific color.
  • FIG. 6 is a diagram showing an example of an image in which each marker is removed by inpainting.
  • FIG. 7 is a diagram showing an error obtained by experiment and an error with inpainting and an error without inpainting.
  • the learning data generation device 1 includes, for example, an image acquisition unit 11, a marker measurement unit 12, a restoration area determination unit 13, an image inpainting unit 14, and a learning data generation unit 15.
  • the learning data generation method is realized, for example, by the processing unit of the learning data generation device performing the processing of steps S11 to S15 described below and shown in FIG.
  • C is a predetermined integer of 1 or more.
  • the acquired image is output to the marker measurement unit 12 and the restoration area determination unit 13.
  • the number of markers is large, but it is assumed that the markers are attached so that the area of the marker does not exceed 2/3 of the area of the object. This is to prevent the marker from covering the texture of the object.
  • FIG. 3 is a diagram showing an example of an image of an object to which a marker is attached.
  • five spherical markers 42 are attached around the sneaker 41 which is an object.
  • the image acquisition unit 11 acquires an image of an object to which three or more markers are attached (step S11).
  • the marker measuring unit 12 measures the position of each marker in the image and generates position/orientation information that is information about the position/orientation of the object based on the position of each marker (step S12).
  • the measured position of each marker is output to the repair area determination unit 13.
  • the generated position/orientation information is output to the learning data generation unit 15.
  • the position and orientation information generated by the marker measuring unit 12 is at least one of two-dimensional position information of each marker, three-dimensional position information of each marker, two-dimensional position information of an object, three-dimensional position information of an object, and posture information of an object. Is.
  • position/orientation information depends on the information to be estimated by the estimation device 3 described later. That is, the position and orientation information is made to include at least information to be estimated by the estimation device 3.
  • a quaternion coordinate system (a coordinate system represented by a four-dimensional vector having a rotation axis and a rotation amount) and a spherical polar coordinate system (a two-dimensional vector represented by two 1550108964325_0 coordinates) are used. Coordinate system) can be used.
  • the coordinate system and data format of the posture v are not limited to these, and other ones may be used.
  • a motion capture system using a retroreflective material As a method of measuring the position of each marker, a motion capture system using a retroreflective material, a method of detecting and tracking a color marker, etc. can be used.
  • the measuring method of the position of each marker is not limited to these, and other measuring methods may be used.
  • the restoration area determination unit 13 determines the restoration area for inpainting in the image based on the position of each marker.
  • Information on the determined repair area is output to the image inpainting unit 14.
  • An example of information about the determined repair area is an image I_mask described below.
  • the restoration area determination unit 13 sets the image acquired by the image acquisition unit 11 as the image I, and masks the image I based on the two-dimensional coordinates in the image I of each marker reflected in the image I. Determine the repair area for inpainting.
  • the restoration area is a pixel located within the pixel of radius r centering on the position of each marker, that is, the two-dimensional coordinate p 2 (c) of each marker.
  • the radius r is a constant set in advance so that the marker on the image is sufficiently hidden and has a minimum size.
  • the repair area can be determined by the following method (1) or (2).
  • the method for determining the repair area is not limited to these, and methods other than the following methods (1) and (2) may be used.
  • FIG. 4 is a diagram showing an example of the image I_mask when the restoration area is determined by (1) the method of determining the specific color.
  • FIG. 5 is a diagram showing an example of the image I_mask when the restoration area is determined by the method (2) of determining the specific color.
  • Image inpainting section 14 Information about the repair area determined by the repair area determining unit 13 is input to the image inpainting unit 14.
  • the input of the image inpainting unit 14 is the RGB image I_mask in which the restoration area is filled with a specific color.
  • the restoration area determination unit 13 determines the restoration area by the method (2)
  • the image inpainting unit 14 acquires the image I_mask in addition to the image acquisition. It is assumed that the image I acquired by the unit 11 is input.
  • the image inpainting unit 14 removes each marker from the image based on the repaired area (step S14).
  • the image I_inpainted from which each marker is removed is output to the learning data generation unit 15.
  • the image inpainting unit 14 removes each marker by inpainting.
  • Inpainting is an image processing technique that complements an unnecessary area in an image without any discomfort by using another area acquired from the same image or a predetermined database.
  • Reference Document 1 Kaiming He and Jian Sun,'Statistics of Patch Offsets for Image Completion', ECCV, 2014
  • Reference 2 Mariko Isogawa, Dan Mikami, Kosuke Takahashi, Akira Kojima,'Image and video completion via feature reduction and compensation', Volume 76, Issue 7, pp 9443-9462, 2017.
  • inpainting method is not limited to these methods, and other inpainting methods may be used.
  • FIG. 6 is a diagram showing an example of an image in which each marker is removed by inpainting.
  • the inpainted portion 44 is represented by a broken line.
  • [Learning data generator 15] The image I_inpainted from which each marker is removed is input to the learning data generation unit 15.
  • the position/orientation information generated by the marker measurement unit 12 is input to the learning data generation unit 15.
  • the learning data generation unit 15 generates learning data D_train based on the image I_inpainted from which each marker is removed and the position and orientation information (step S15).
  • the generated learning data is output to the model learning device 2.
  • the learning data generation unit 15 generates the learning data D_train by associating the image I_inpainted with the position and orientation information.
  • the learning data D_train includes an image I_inpainted and position/orientation information associated with the image I_inpainted.
  • the model learning device 2 described below generates the model based on the learning data D_train including the image I_inpainted from which the marker is removed.
  • the estimation based on the model generated by the model learning device 2 is performed by the estimation device 3 described later.
  • Model learning device 2 The learning data D_train generated by the learning data generation unit 15 is input to the model learning device 2.
  • the model learning device 2 generates a model by performing model learning based on the learning data D_train (step S2).
  • the generated model is output to the estimation device 3.
  • model learning As a method of model learning, the method of Deep Neural Network described in Reference 3 can be used, for example.
  • the model learning method is not limited to this, and other model learning methods may be used.
  • the model learning device 2 photographs the same object in various postures (it is preferable that at least three markers are photographed in the image of the object), and A plurality of learning data D_train including a set of a plurality of images I_inpainted from which the markers have been removed to remove the markers and the position and orientation information corresponding to each of the plurality of images I_inpainted are input.
  • the learning data D_train is a data including a plurality of pairs of different poses of the same object, which is a combination of the image I_inpainted of a certain pose of an object and the two-dimensional position information of each marker removed in the image I_inpainted. Is.
  • the model learning device 2 learns a plurality of learning data D_train, and when the image in which the same object as the image I_inpainted included in the learning data D_train is input is input, the position included in the learning data D_train.
  • a model for outputting position and orientation information which is the orientation information and corresponds to the orientation of the object in the input image, is generated.
  • the model learning device 2 attaches it to a predetermined position (which does not exist in the input image, but is attached to the object of the learning data).
  • the two-dimensional position information of the marker position is generated as a model in which the position and orientation information of the object of the input image is output.
  • ⁇ Estimation device 3> The model generated by the model learning device 2 is input to the estimation device 3. Further, an image of the object to be estimated is input to the estimation device 3.
  • the estimation device 3 estimates and outputs the position and orientation information corresponding to the input image using the model (step S3).
  • the estimated position and orientation information is the same type of information as the information included in the position and orientation information learned by the model learning device 2 in combination with a plurality of images I_inpainted.
  • the position and orientation information estimated by the estimation device 3 is also the orientation information of the object.
  • a model with inpainting and a model without inpainting were generated respectively. These models are models that output attitude data represented by a quaternion coordinate system. Then, the error between the posture data estimated using each of these models and the correct posture data was calculated.
  • FIG. 7 is a diagram showing an error obtained by experiment and an error with inpainting and an error without inpainting.
  • the solid line in Fig. 7 shows the error when there is inpainting.
  • the broken line in FIG. 7 shows the error without inpainting.
  • the horizontal axis of FIG. 7 indicates the number of iterations when learning is performed by deep learning.
  • the vertical axis of FIG. 7 shows the magnitude of the error.
  • the error can be reduced by learning the model using the image with the marker removed by inpainting. Moreover, it is found that the learning of the network effectively progresses by removing the marker by inpainting.
  • the various kinds of processing described in the embodiments may be executed not only in time series according to the order described, but also in parallel or individually according to the processing capacity of the device that executes the processing or the need.
  • data may be exchanged directly between the constituent parts of the learning data generating device, or may be carried out via a storage part (not shown).
  • the program describing this processing content can be recorded in a computer-readable recording medium.
  • the computer-readable recording medium may be, for example, a magnetic recording device, an optical disc, a magneto-optical recording medium, a semiconductor memory, or the like.
  • distribution of this program is performed by selling, transferring, or lending a portable recording medium such as a DVD or a CD-ROM in which the program is recorded.
  • the program may be stored in a storage device of a server computer and transferred from the server computer to another computer via a network to distribute the program.
  • a computer that executes such a program first stores, for example, the program recorded in a portable recording medium or the program transferred from the server computer in its own storage device. Then, when executing the processing, this computer reads the program stored in its own storage device and executes the processing according to the read program.
  • a computer may directly read the program from a portable recording medium and execute processing according to the program, and the program is transferred from the server computer to this computer. Each time, the processing according to the received program may be sequentially executed.
  • the above-mentioned processing is executed by a so-called ASP (Application Service Provider) type service that realizes the processing function only by the execution instruction and result acquisition without transferring the program from the server computer to this computer. May be Note that the program in this embodiment includes information that is used for processing by an electronic computer and that conforms to the program (such as data that is not a direct command to a computer but has the property of defining computer processing).
  • the device is configured by executing a predetermined program on a computer, but at least a part of the processing contents may be realized by hardware.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

従来よりも推定精度を向上させることができる学習データを生成する技術を提供する。学習データ生成装置は、3個以上のマーカが張り付けられたオブジェクトの画像を取得する画像取得部11と、画像中の各マーカの位置を計測し、各マーカの位置に基づいてオブジェクトの位置姿勢に関する情報である位置姿勢情報を生成するマーカ計測部12と、各マーカの位置に基づいて、画像中のインペインティングのための修復領域を決定する修復領域決定部13と、修復領域に基づいて、画像から各マーカを除去する画像インペインティング部14と、各マーカが除去された画像及び位置姿勢情報に基づいて、学習データを生成する学習データ生成部15と、を備えている。

Description

学習データ生成装置、方法及びプログラム
 本発明は、画像中のオブジェクトについての情報を推定するためのモデルの学習で用いられる学習データを生成する技術に関する。
 画像を入力して、画像中のオブジェクトの3次元位置や姿勢を学習ベースで推定する手法として、非特許文献1の手法が知られている(例えば、非特許文献1参照。)。
 この手法は、学習時に画像中のオブジェクトの3次元位置や姿勢の真値データがアノテーションされた学習データを大量に必要とすることが知られている。そして、この学習データを準備する作業には非常に多くの手間やコストを要する。
 一方で、再帰性反射材などの何らかのマーカを追跡する、マーカベースのモーションキャプチャシステムを用いることで、人手でアノテーションすることなく簡易に画像中のオブジェクトの位置や姿勢を計測することが可能である。
Yu Xiang , Tanner Schmidt, Venkatraman Narayanan and Dieter Fox,"PoseCNN: A Convolutional Neural Network for 6D Object Pose Estimation in Cluttered Scenes", Robotics: Science and Systems (RSS), 2018.
 しかし、この方法では画像中に再帰性反射材などで作られたマーカが写り込んでしまう。実際の推定対象には含まれないマーカが学習時に画像に映り込むことで、推定精度が低下する原因となる可能性がある。
 そこで、本発明は、従来よりも推定精度を向上させることができる学習データを生成する学習データ生成装置、方法及びプログラムを提供することを目的とする。
 この発明の一態様による学習データ生成装置は、3個以上のマーカが張り付けられたオブジェクトの画像を取得する画像取得部と、画像中の各マーカの位置を計測し、各マーカの位置に基づいてオブジェクトの位置姿勢に関する情報である位置姿勢情報を生成するマーカ計測部と、各マーカの位置に基づいて、画像中のインペインティングのための修復領域を決定する修復領域決定部と、修復領域に基づいて、画像から各マーカを除去する画像インペインティング部と、各マーカが除去された画像及び位置姿勢情報に基づいて、学習データを生成する学習データ生成部と、を備えている。
 マーカを除去することで、従来よりも推定精度を向上させることができる。
図1は、学習データ生成装置の機能構成の例を示す図である。 図2は、学習データ生成方法の処理手続きの例を示す図である。 図3は、マーカが張り付けられたオブジェクトの画像の例を示す図である。 (1)特定色で決定する方法で修復領域を決定した場合の画像I_maskの例を示す図である。 図5は、(2)特定色で決定する方法で修復領域を決定した場合の画像I_maskの例を示す図である。 図6は、インペインティングにより各マーカが除去された画像の例を示す図である。 図7は、実験により得られた、インペインティング有りの場合の誤差と、インペインティング無しの場合の誤差とを示す図である。
 以下、本発明の実施の形態について詳細に説明する。なお、図面中において同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。
 <学習データ生成装置及び方法>
 学習データ生成装置1は、画像取得部11、マーカ計測部12、修復領域決定部13、画像インペインティング部14、学習データ生成部15を例えば備えている。
 学習データ生成方法は、学習データ生成装置の構成部が、以下に説明する及び図2に示すステップS11からステップS15の処理を行うことにより例えば実現される。
 [画像取得部11]
 画像取得部11は、マーカが貼り付けられたオブジェクトの画像をC個のカメラc(c=1,…,C)を用いて取得する。Cは、1以上の所定の整数である。
 取得された画像は、マーカ計測部12及び修復領域決定部13に出力される。
 その際、画像取得部11は、オブジェクトの複数姿勢を含むようにするために、姿勢にバリエーションを持った画像を取得してもよい。すなわち、Cは2以上の所定の整数であってもよい。例えば、画像取得部11は、C=3として、C個のカメラc(c=1,…,C)でオブジェクトのC個以上の異なる姿勢の画像を取得してもよい。
 なお、1つのオブジェクトに対し3個以上のマーカが張り付けられているとする。これは、オブジェクトに貼り付けるマーカは一意に姿勢を特定できるものである必要があるためである。
 また、マーカは、辺長の異なる四角形上に設置するなど、可能な限りランダムに貼りつける必要がある。これは、異なる姿勢でマーカ配置が同一となってしまわないようにするためである。
 また、マーカの個数は多いほうが好ましいが、マーカの面積がオブジェクトの面積の2/3を超えないように、マーカが貼りつけられているとする。これは、マーカがオブジェクトのテクスチャを覆わないようにするためである。
 図3は、マーカが張り付けられたオブジェクトの画像の例を示す図である。図3では、オブジェクトであるスニーカー41の周囲に、5個の球体のマーカ42が取り付けられている。
 このようにして、画像取得部11は、3個以上のマーカが張り付けられたオブジェクトの画像を取得する(ステップS11)。
 [マーカ計測部12]
 マーカ計測部12には、画像取得部11で取得された画像が入力される。
 マーカ計測部12は、画像中の各マーカの位置を計測し、各マーカの位置に基づいてオブジェクトの位置姿勢に関する情報である位置姿勢情報を生成する(ステップS12)。
 計測された各マーカの位置は、修復領域決定部13に出力される。生成された位置姿勢情報は、学習データ生成部15に出力される。
 マーカ計測部12が計測する、画像中の各マーカの位置の例は、c=1,…,Cとして、カメラcで撮られた画像における各マーカの2次元座標p2(c)=(x2c, y2c)である。
 マーカ計測部12が生成する位置姿勢情報は、各マーカの2次元位置情報、各マーカの3次元位置情報、オブジェクトの2次元位置情報、オブジェクトの3次元位置情報及びオブジェクトの姿勢情報の少なくとも1つである。
 位置姿勢情報として、どの情報が含まれていればよいかについては、後述する推定装置3で推定しようとする情報に依存する。すなわち、位置姿勢情報には、推定装置3で推定しようとする情報が少なくとも含まれているようにする。
 各マーカの2次元位置情報は、例えば、各マーカの2次元座標p2(c)=(x2c, y2c)である。
 各マーカの3次元位置情報は、例えば、各マーカの3次元座標p3=(x3, y3, z3)である。
 オブジェクトの2次元位置情報は、各マーカの2位次元座標p2(c)=(x2c, y2c)に基づいて定まるオブジェクトの2次元位置である。例えば、各マーカの2位次元座標p2(c)=(x2c, y2c)の幾何中心が、オブジェクトの2次元位置である。
 オブジェクトの3元位置情報は、各マーカの3位次元座標p3=(x3, y3, z3)に基づいて定まるオブジェクトの3次元位置である。例えば、各マーカの3位次元座標p2(c)=(x2c, y2c)の幾何中心が、オブジェクトの3次元位置である。
 オブジェクトの姿勢情報は、各マーカの3位次元座標p3=(x3, y3, z3)から算出できるオブジェクトの姿勢vである。
 姿勢vの座標系として、例えば、クォータニオン座標系(回転軸と回転量を持った4次元ベクトルで表現される座標系)、球面極座標系(2つの1550108964325_0座標で表される2次元ベクトルで表現される座標系)などを利用することができる。もちろん、姿勢vの座標系及びデータ形式は、これらに限定されず、他のものを用いてもよい。
 各マーカの位置の計測方法には、再帰性反射材を用いたモーションキャプチャシステムや、カラーマーカを検出、追跡する方法などを用いることができる。もちろん、各マーカの位置の計測方法は、これらに限定されず、他の計測方法を用いてもよい。
 [修復領域決定部13]
 修復領域決定部13には、画像取得部11で取得された画像と、マーカ計測部12で計測された各マーカの位置とが入力される。
 修復領域決定部13は、各マーカの位置に基づいて、画像中のインペインティングのための修復領域を決定する。
 決定された修復領域についての情報は、画像インペインティング部14に出力される。決定された修復領域についての情報の例は、後述する画像I_maskである。
 例えば、修復領域決定部13は、画像取得部11で取得した画像を画像Iとして、画像Iに映り込んだ各マーカの、画像Iでの2次元座標に基づいて、画像Iにマスクをかけることでインペインティングを施すための修復領域を決定する。
 修復領域は、各マーカの位置、すなわち、各マーカの2次元座標p2(c)を中心に半径rの画素内にある画素とする。ここで、半径rは、十分に画像上のマーカが隠れ、かつ最小限の大きさとなるように予め設定された定数とする。
 例えば以下の方法(1)又は(2)で修復領域を決定することができる。もちろん、修復領域の決定方法は、これらに限定されず、以下の方法(1)及び(2)以外の方法を用いてもよい。
 (1)特定色で決定する方法
 画像Iを複製した画像に対し、各マーカの2次元座標p2(c)を中心に半径rの画素内にある画素を特定色(例えば、(R,G,B)=(255, 0, 255)など)で塗りつぶす。特定色で塗りつぶされた領域が修復領域となる。この場合、特定色で修復領域が塗りつぶされた画像がI_maskとなる。
 図4は、(1)特定色で決定する方法で修復領域を決定した場合の画像I_maskの例を示す図である。図4では、修復領域43は、(R,G,B)=(255, 255, 255)の特定色で塗りつぶされている。
 (2)二値画像で決定する方法
 (1)の方法により特定色で塗りつぶした領域を例えば(R,G,B)=(0, 0, 0)とし、その他の領域を(R,G,B)=(255, 255, 255)とすることにより画像を二値で表す。この二値で表された画像がI_maskとなる。
 図5は、(2)特定色で決定する方法で修復領域を決定した場合の画像I_maskの例を示す図である。図5では、修復領域43は(R,G,B)=(0, 0, 0)の特定色で塗りつぶされており、その他の領域は(R,G,B)=(255, 255, 255)とされている。
 [画像インペインティング部14]
 画像インペインティング部14には、修復領域決定部13で決定された修復領域についての情報が入力される。
 なお、修復領域決定部13において(1)の方法で修復領域が決定された場合には、画像インペインティング部14の入力は、特定色で修復領域が塗りつぶされたRGB画像I_maskである。
 これに対して、修復領域決定部13において(2)の方法で修復領域が決定された場合には、画像インペインティング部14には、二値で表された画像I_maskに加えて、画像取得部11で取得された画像Iが入力されるとする。
 画像インペインティング部14は、修復領域に基づいて、画像から各マーカを除去する(ステップS14)。
 各マーカが除去された画像I_inpaintedは、学習データ生成部15に出力される。
 画像インペインティング部14は、各マーカをインペインティングにより除去する。インペインティングとは、画像内の不要な領域を、同一画像内や所定のデータベース中から取得した他の領域を利用することで、違和感なく補完する画像処理技術である。
 インペインティングの方法として、例えば参考文献1又は参考文献2に記載されている方法を用いることができる。
 〔参考文献1〕Kaiming He and Jian Sun, ‘Statistics of Patch Offsets for Image Completion’, ECCV, 2014
 〔参考文献2〕Mariko Isogawa, Dan Mikami, Kosuke Takahashi, Akira Kojima, ‘Image and video completion via feature reduction and compensation’, Volume 76, Issue 7, pp 9443-9462, 2017.
 もちろん、インペインティングの方法は、これらの方法に限定されず、他のインペインティングの方法を用いてもよい。
 図6は、インペインティングにより各マーカが除去された画像の例を示す図である。図6では、インペインティングされた部分44が破線で表されている。
 [学習データ生成部15]
 学習データ生成部15には、各マーカが除去された画像I_inpaintedが入力される。また、学習データ生成部15には、マーカ計測部12で生成された位置姿勢情報が入力される。
 学習データ生成部15は、各マーカが除去された画像I_inpainted及び位置姿勢情報に基づいて、学習データD_trainを生成する(ステップS15)。
 生成された学習データは、モデル学習装置2に出力される。
 例えば、学習データ生成部15は、画像I_inpaintedと、位置姿勢情報とを対応付けることで、学習データD_trainを生成する。学習データD_trainは、画像I_inpaintedと、この画像I_inpaintedに対応付けられた位置姿勢情報とを含むとする。
 このようにして、実際の推定対象には含まれないマーカを除去することで、従来よりも推定精度を向上させることができる学習データを生成することができる。
 なお、マーカが除去された画像I_inpaintedを含む学習データD_trainに基づくモデルの生成は、以下に説明するモデル学習装置2により行われる。また、モデル学習装置2により生成されたモデルに基づく推定は、後述する推定装置3により行われる。
 <モデル学習装置2>
 モデル学習装置2には、学習データ生成部15で生成された学習データD_trainが入力される。
 モデル学習装置2は、学習データD_trainに基づくモデル学習を行うことで、モデルを生成する(ステップS2)。
 生成されたモデルは、推定装置3に出力される。
 モデル学習の方法として、参考文献3に記載されているDeep Neural Networkの方法を例えば用いることができる。もちろん、モデル学習の方法は、これに限定されず、他のモデル学習の方法を用いてもよい。
 具体的には、モデル学習装置2には、同一のオブジェクトを様々な姿勢で撮影して(オブジェクトを撮影した画像には少なくとも3個のマーカが撮影されていることがのぞましい)、上述のインペインティングを行ってマーカを除去した複数の画像I_inpaintedと、複数の画像I_inpaintedのそれぞれに対応する位置姿勢情報との組を含む複数の学習データD_trainが入力される。
 例えば、学習データD_trainは、あるオブジェクトのある姿勢の画像I_inpaintedと、当該画像I_inpainted中では除去されている各マーカの2次元位置情報とを組にし、同一オブジェクトの姿勢の異なる複数の組を含むデータである。
 この場合、モデル学習装置2は、複数の学習データD_trainを学習することで、学習データD_trainに含まれる画像I_inpaintedと同じオブジェクトが撮影された画像が入力されたときに、学習データD_trainに含まれる位置姿勢情報であり、入力された画像中のオブジェクトの姿勢に対応する位置姿勢情報を出力するモデルを生成する。
 モデル学習装置2は、例えば、学習データD_trainに含まれる位置姿勢情報が各マーカの2次元位置情報である場合には、所定の位置(入力画像中には存在しないが、学習データのオブジェクトに添付していたマーカの位置)の2次元位置情報が、入力画像のオブジェクトの位置姿勢情報として出力されるモデルを生成する。
 <推定装置3>
 推定装置3には、モデル学習装置2で生成されたモデルが入力される。また、推定装置3には、推定の対象となる、オブジェクトの画像が入力される。
 推定装置3は、モデルを用いて、入力された画像に対応する位置姿勢情報を推定して出力する(ステップS3)。
 推定される位置姿勢情報は、モデル学習装置2で、複数の画像I_inpaintedと組にして学習した位置姿勢情報に含まれる情報と同じ種類の情報である。言い換えれば、例えば、学習データ及びモデルの生成時の位置姿勢情報がオブジェクトの姿勢情報であった場合には、推定装置3により推定される位置姿勢情報もオブジェクトの姿勢情報である。
 [実験結果]
 以下、インペインティングによりマーカを除去した画像を用いたモデル学習の効果を表す実験結果について説明する。
 約15000枚の学習データ用画像に対して上記の実施形態によりマーカを除去した画像(インペインティング有り)及びマーカを除去していない画像(インペインティング無し)を用いてモデル学習することで、インペインティング有りモデル及びインペインティング無しモデルをそれぞれ生成した。これらのモデルは、クォータニオン座標系で表される姿勢データを出力するモデルである。そして、これらのモデルのそれぞれを用いて推定した姿勢データと、正しい姿勢データとの誤差を計算した。
 図7は、実験により得られた、インペインティング有りの場合の誤差と、インペインティング無しの場合の誤差とを示す図である。
 図7の実線は、インペインティング有りの場合の誤差を示す。図7の破線は、インペインティング無しの場合の誤差を示す。図7の横軸は、深層学習により学習を行った際の反復数を示す。図7の縦軸は誤差の大きさを示す。
 インペインティングによりマーカを除去した画像を用いてモデル学習することで、誤差を少なくできることがわかる。また、インペインティングによりマーカを除去することで、効果的にネットワークの学習が進むことがわかる。
 [変形例]
 以上、本発明の実施の形態について説明したが、具体的な構成は、これらの実施の形態に限られるものではなく、本発明の趣旨を逸脱しない範囲で適宜設計の変更等があっても、本発明に含まれることはいうまでもない。
 実施の形態において説明した各種の処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。
 例えば、学習データ生成装置の構成部間のデータのやり取りは直接行われてもよいし、図示していない記憶部を介して行われてもよい。
 [プログラム、記録媒体]
 上記説明した各装置における各種の処理機能をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
 この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。
 また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
 このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記憶装置に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
 また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
1     学習データ生成装置
11   画像取得部
12   マーカ計測部
13   修復領域決定部
14   画像インペインティング部
15   学習データ生成部
2     モデル学習装置
3     推定装置
41   スニーカー
42   マーカ
43   修復領域
44   インペインティングされた部分

Claims (4)

  1.  3個以上のマーカが張り付けられたオブジェクトの画像を取得する画像取得部と、
     前記画像中の各マーカの位置を計測し、前記各マーカの位置に基づいて前記オブジェクトの位置姿勢に関する情報である位置姿勢情報を生成するマーカ計測部と、
     前記各マーカの位置に基づいて、前記画像中のインペインティングのための修復領域を決定する修復領域決定部と、
     前記修復領域に基づいて、前記画像から前記各マーカを除去する画像インペインティング部と、
     前記各マーカが除去された画像及び前記位置姿勢情報に基づいて、学習データを生成する学習データ生成部と、
     を含む学習データ生成装置。
  2.  請求項1の学習データ生成装置であって、
     前記位置姿勢情報は、前記各マーカの2次元位置情報、前記各マーカの3次元位置情報、前記オブジェクトの2次元位置情報、前記オブジェクトの3次元位置情報及び前記オブジェクトの姿勢情報の少なくとも1つである、
     学習データ生成装置。
  3.  画像取得部が、3個以上のマーカが張り付けられたオブジェクトの画像を取得する画像取得ステップと、
     マーカ計測部が、前記画像中の各マーカの位置を計測し、前記各マーカの位置に基づいて前記オブジェクトの位置姿勢に関する情報である位置姿勢情報を生成するマーカ計測ステップと、
     修復領域決定部が、前記各マーカの位置に基づいて、前記画像中のインペインティングのための修復領域を決定する修復領域決定ステップと、
     画像インペインティング部が、前記修復領域に基づいて、前記画像から前記各マーカを除去する画像インペインティングステップと、
     学習データ生成部が、前記各マーカが除去された画像及び前記位置姿勢情報に基づいて、学習データを生成する学習データ生成ステップと、
     を含む学習データ生成方法。
  4.  請求項1又は2の学習データ生成装置の各部としてコンピュータを機能させるためのプログラム。
PCT/JP2020/003846 2019-02-14 2020-02-03 学習データ生成装置、方法及びプログラム WO2020166401A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US17/429,547 US20220130138A1 (en) 2019-02-14 2020-02-03 Training data generation apparatus, method and program

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2019024288A JP7095616B2 (ja) 2019-02-14 2019-02-14 学習データ生成装置、方法及びプログラム
JP2019-024288 2019-02-14

Publications (1)

Publication Number Publication Date
WO2020166401A1 true WO2020166401A1 (ja) 2020-08-20

Family

ID=72044894

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/003846 WO2020166401A1 (ja) 2019-02-14 2020-02-03 学習データ生成装置、方法及びプログラム

Country Status (3)

Country Link
US (1) US20220130138A1 (ja)
JP (1) JP7095616B2 (ja)
WO (1) WO2020166401A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102022115867A1 (de) 2022-06-24 2024-01-04 Bayerische Motoren Werke Aktiengesellschaft Verfahren und Vorrichtung zum Trainieren eines Posenerkennungsmodells zur Erkennung einer Brillenpose einer Datenbrille in einer mobilen Einrichtung

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018221614A1 (ja) * 2017-05-31 2018-12-06 株式会社Preferred Networks 学習装置、学習方法、学習モデル、推定装置及び把持システム

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018221614A1 (ja) * 2017-05-31 2018-12-06 株式会社Preferred Networks 学習装置、学習方法、学習モデル、推定装置及び把持システム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
ISOGAWA, MARIKO ET AL.: "Ranking model for image inpainting", IEICE TECHNICAL REPORT MVE2015-21-MVE2015-36 MULTIMEDIA AND VIRTUAL ENVIRONMENT, vol. 115, no. 245, 1 October 2015 (2015-10-01), pages 49 - 54 *

Also Published As

Publication number Publication date
JP7095616B2 (ja) 2022-07-05
JP2020135092A (ja) 2020-08-31
US20220130138A1 (en) 2022-04-28

Similar Documents

Publication Publication Date Title
CN105654464B (zh) 图像处理装置及图像处理方法
KR100793838B1 (ko) 카메라 모션 추출장치, 이를 이용한 해상장면의 증강현실 제공 시스템 및 방법
US10234844B2 (en) Information processing apparatus, control method thereof, information processing system, and non-transitory computer-readable storage medium
JP6176114B2 (ja) 投影像自動補正システム、投影像自動補正方法およびプログラム
CN111127422A (zh) 图像标注方法、装置、***及主机
JP6503906B2 (ja) 画像処理装置、画像処理方法および画像処理プログラム
WO2017022033A1 (ja) 画像処理装置、画像処理方法および画像処理プログラム
JP2019079487A (ja) パラメータ最適化装置、パラメータ最適化方法、プログラム
KR101592798B1 (ko) 배향 센서들에 기초한 호모그래피 분해 모호성의 해결
EP3633606B1 (en) Information processing device, information processing method, and program
CN106537908A (zh) 相机标定
JP2005326247A (ja) 校正装置及び校正方法並びに校正プログラム
CN113920205B (zh) 一种非同轴相机的标定方法
JP5439277B2 (ja) 位置姿勢計測装置及び位置姿勢計測プログラム
Zhu et al. Robust plane-based calibration of multiple non-overlapping cameras
CN113284192A (zh) 运动捕捉方法、装置、电子设备以及机械臂控制***
JP6922348B2 (ja) 情報処理装置、方法、及びプログラム
WO2020166401A1 (ja) 学習データ生成装置、方法及びプログラム
JP2012164188A (ja) 画像処理装置、画像処理方法およびプログラム
JP7121936B2 (ja) カメラ校正情報取得装置、画像処理装置、カメラ校正情報取得方法およびプログラム
JP2001101419A (ja) 画像特徴追跡処理方法、画像特徴追跡処理装置、3次元データ作成方法
JP5530391B2 (ja) カメラポーズ推定装置、カメラポーズ推定方法及びカメラポーズ推定プログラム
CN111145268A (zh) 一种视频注册方法及装置
JP3452188B2 (ja) 2次元動画像中の特徴点の追跡方法
JP2017163386A (ja) カメラパラメータ推定装置、カメラパラメータ推定方法、及びプログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20755676

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20755676

Country of ref document: EP

Kind code of ref document: A1