JP7164008B2 - データ生成方法、データ生成装置及びプログラム - Google Patents

データ生成方法、データ生成装置及びプログラム Download PDF

Info

Publication number
JP7164008B2
JP7164008B2 JP2021504714A JP2021504714A JP7164008B2 JP 7164008 B2 JP7164008 B2 JP 7164008B2 JP 2021504714 A JP2021504714 A JP 2021504714A JP 2021504714 A JP2021504714 A JP 2021504714A JP 7164008 B2 JP7164008 B2 JP 7164008B2
Authority
JP
Japan
Prior art keywords
correct data
correct
data
indicating
target image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021504714A
Other languages
English (en)
Other versions
JPWO2020183656A1 (ja
Inventor
君 朴
壮馬 白石
康敬 馬場崎
秀昭 佐藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of JPWO2020183656A1 publication Critical patent/JPWO2020183656A1/ja
Application granted granted Critical
Publication of JP7164008B2 publication Critical patent/JP7164008B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/255Detecting or recognising potential candidate objects based on visual cues, e.g. shapes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/776Validation; Performance evaluation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/778Active pattern-learning, e.g. online learning of image or video features
    • G06V10/7784Active pattern-learning, e.g. online learning of image or video features based on feedback from supervisors
    • G06V10/7788Active pattern-learning, e.g. online learning of image or video features based on feedback from supervisors the supervisor being a human, e.g. interactive learning with a human teacher
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/94Hardware or software architectures specially adapted for image or video understanding
    • G06V10/945User interactive design; Environments; Toolboxes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20092Interactive image processing based on input by user
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)
  • Electrically Operated Instructional Devices (AREA)

Description

本発明は、機械学習に必要な正解データの生成に関するデータ生成方法、データ生成装置及びプログラムの技術分野に関する。
学習に用いるための正解を示す正解データの修正に関する情報の提示方法の一例が特許文献1に開示されている。特許文献1には、対象となる区画に紐付けられている画像特徴教師データとその周辺に位置する区画に紐付けられている画像特徴教師データとの対比結果に基づいて、この区画に紐付けられている画像特徴教師データの変換元の教師データに対する、削除又はラベルの修正を指示する画面を表示する点が開示されている。
特開2015-185149号公報
正解付け作業において、正確に正解付けを行うことを作業者に要求する場合には、正解付け作業に要する時間と労力が必要となる。例えば、対象物が小さい場合には、画像の拡大操作等が必要となり、効率的な正解付けが困難となる。特許文献1には、不足パターンに属する新たな教師画像を生成する点については記載されているものの、正解付け作業の負担低減に関する点については、何ら開示されていない。
本発明の目的は、上述した課題を鑑み、正解データを効率よく生成することが可能なデータ生成方法、データ生成装置及びプログラムを提供することを主な課題とする。
データ生成方法の一の態様は、データ生成方法であって、正解付けがなされる対象となる対象画像を取得し、前記対象画像に表示された対象物に対し、当該対象物を含む位置若しくは当該対象物の一部を示す位置、又は、当該対象物の候補位置を示した第1正解データを取得し、対象物を含む位置若しくは当該対象物の一部を示す位置、又は、当該対象物の候補位置から、当該対象物の推定位置を出力するように学習された推定器に基づき、前記第1正解データから、前記対象物の推定位置を示した第2正解データを生成する。
データ生成装置の一の態様は、データ生成装置であって、正解付けがなされる対象となる対象画像を取得する対象画像取得手段と、前記対象画像に表示された対象物に対し、当該対象物を含む位置若しくは当該対象物の一部を示す位置、又は、当該対象物の候補位置を示した第1正解データを取得する第1正解データ取得手段と、対象物を含む位置若しくは当該対象物の一部を示す位置、又は、当該対象物の候補位置から、当該対象物の推定位置を出力するように学習された推定器に基づき、前記第1正解データから、前記対象物の推定位置を示した第2正解データを生成する第2正解データ生成手段と、を有する。
プログラムの一の態様は、コンピュータが実行するプログラムであって、正解付けがなされる対象となる対象画像を取得する対象画像取得手段と、前記対象画像に表示された対象物に対し、当該対象物を含む位置若しくは当該対象物の一部を示す位置、又は、当該対象物の候補位置を示した第1正解データを取得する第1正解データ取得手段と、対象物を含む位置若しくは当該対象物の一部を示す位置、又は、当該対象物の候補位置から、当該対象物の推定位置を出力するように学習された推定器に基づき、前記第1正解データから、前記対象物の推定位置を示した第2正解データを生成する第2正解データ生成手段として前記コンピュータを機能させる。
本発明によれば、大まかな対象物の位置を示す第1正解データから、対象物の推定位置を示した第2正解データを好適に生成することが可能となる。これにより、第1正解データの生成に関する負担が好適に低減される。
学習データ生成システムの概略構成を示す。 正解データ生成処理に関連する機能ブロック図である。 学習処理に関連する機能ブロック図である。 (A)対象物が人の頭部である場合に第1正解データが示す対象物位置を対象画像上に明示した図である。(B)第2正解データが示す対象物位置を対象画像上に明示した図である。(C)第1正解データ又は第4正解データが示す対象物位置の他の例を示す。 (A)対象物が顔の複数の特徴点である場合に第1正解データが示す対象物位置を対象画像上に明示した図である。(B)第2正解データが示す対象物位置を対象画像上に明示した図である。 (A)対象画像の表示例を示す。(B)第1正解データに含まれる2値画像である。(C)第2正解データに含まれる2値画像である。 正解データ生成処理に関する処理手順を示すフローチャートである。 学習処理に関する処理手順を示すフローチャートである。 変形例3に係るデータ生成装置の機能ブロック図である。
以下、図面を参照しながら、データ生成方法、データ生成装置、及びプログラムの実施形態について説明する。以後において、画像中における物体の「位置」とは、物体の代表的な点(座標)に相当する画素又はサブピクセルを示す場合に限らず、物体の全体領域に相当する画素群を指す場合も含むものとする。
[全体構成]
図1は、実施形態における学習データ生成システム100の概略構成を示す。学習データ生成システム100は、大まかな正解付け作業により正解付けがなされた正解データから、より正確度又は精度が高い正解データを生成する。学習データ生成システム100は、データ生成装置10と、記憶装置20とを有する。
データ生成装置10は、後述する第1正解データ記憶部22に記憶された第1正解データから第2正解データ記憶部23に記憶する第2正解データを生成する処理を行う。第1正解データ及び第2正解データの詳細は後述する。
記憶装置20は、対象画像記憶部21と、第1正解データ記憶部22と、第2正解データ記憶部23と、推定器情報記憶部24と、教師データ記憶部25とを有する。なお、記憶装置20は、データ生成装置10に接続又は内蔵されたハードディスクなどの外部記憶装置であってもよく、フラッシュメモリなどの記憶媒体であってもよく、データ生成装置10とデータ通信を行うサーバ装置などであってもよい。また、記憶装置20は、データ生成装置10とデータ通信可能な複数の記憶装置から構成されてもよい。
対象画像記憶部21は、正解付けの対象となる画像(単に「対象画像」とも呼ぶ。)を記憶する。各対象画像は、正解付けする対象(「対象物」とも呼ぶ。)を含んでいる。対象物は、特定の物体又は当該物体内の特定の部位であり、例えば、人や魚などの動物、植物、移動体、地物、器具、又はその一部である。対象画像は、第2正解データ記憶部23に記憶される第2正解データと共に、画像から対象物の位置を推定する推定器の学習等に好適に用いられる。
第1正解データ記憶部22は、対象画像記憶部21に記憶される対象画像に対応する第1正解データを記憶する。第1正解データは、対応する対象画像の識別情報と、対応する対象画像内に表示された対象物の分類(種別)を示す分類情報と、当該対象物に関する位置(「対象物位置」とも呼ぶ。)を示す情報と、を含んでいる。なお、対象物位置は、画像内の座標(即ち点)を示すものであってもよく、領域を示すものであってもよい。ここで、第1正解データが示す対象物位置は、大まかな正解付け作業により指定された対象物位置であり、具体的には、正解付け作業を行う作業員が使用する端末装置への作業員による入力により対象画像内において指定された位置を示す。
ここで、第1正解データが示す対象物位置は、後述の第2正解データが示す対象物位置よりも正確度又は精度が低い。具体的には、第1正解データが示す対象物位置は、対象物を含む位置、対象物の一部を示す位置、又は、対象物の候補位置(即ち対象物の位置の候補)のいずれかの位置を示すように、正解付け作業において指定された位置である。第1正解データが示す対象位置の具体例については、図4~図6を参照して後述する。
なお、第1正解データが示す対象物位置が領域である場合、第1正解データには、当該領域を特定するために正解付け作業において指定された複数の座標の情報が含まれてもよい。例えば、第1正解データの対象物位置が矩形領域である場合には、正解付け作業において指定された矩形領域の対角の頂点位置を示す座標の情報が少なくとも第1正解データに含まれる。他の例では、第1正解データには、座標の情報に代えて、対象物位置を指し示す2値画像(所謂マスク画像)が含まれてもよい。後述する第2~第4正解データも同様に、対象物位置を示すための座標の情報又は2値画像が含まれてもよい。
第2正解データ記憶部23は、対象画像記憶部21に記憶される対象画像に対応する第2正解データを記憶する。第2正解データは、第1正解データと同様、対応する対象画像の識別情報と、対応する対象画像内に表示された対象物の分類(種別)を示す分類情報と、当該対象物の位置である対象物位置を示す情報と、を含んでいる。ここで、第2正解データが示す対象物位置は、同一対象物の対象物位置を示す第1正解データを後述の推定器に入力することで推定された対象物の推定位置であり、第1正解データが示す対象物位置よりも正確又は高精度な対象物の位置を示している。なお、対象物が1種類しか存在しない場合等には、第1正解データ及び第2正解データには、分類情報は含まれていなくともよい。
推定器情報記憶部24は、推定器を機能させるために必要な種々の情報を記憶する。ここで、推定器は、対象物が表示された画像及び当該画像内における対象物位置が入力された場合に、当該画像内における対象物位置に関する推定結果を出力するように学習された学習モデルである。この場合、推定器は、推定器に入力される対象物位置よりも正確度又は精度が高い対象物位置を出力するように学習される。具体的には、推定器は、対象物を含む位置、対象物の一部を示す位置、又は、対象物の候補位置が入力された場合に、当該対象物の正確かつ高精度な位置を出力するように学習される。この場合、推定器の学習に用いられる学習モデルは、ニューラルネットワークに基づく学習モデルであってもよく、サポートベクターマシーンなどの他の種類の学習モデルであってもよい。例えば、学習モデルが畳み込みニューラルネットワークなどのニューラルネットワークである場合、推定器情報記憶部24には、例えば、層構造、各層のニューロン構造、各層におけるフィルタ数及びフィルタサイズ、並びに各フィルタの各要素の重みなどの推定器を構成するのに必要な種々の情報が含まれる。
教師データ記憶部25は、推定器情報記憶部24に記憶した推定器情報が示す推定器を生成する学習に用いられる教師データを記憶する。ここで、教師データ記憶部25が記憶する教師データは、対象物を表示した画像群と、当該画像群に対応する正解データ(「第3正解データ」とも呼ぶ。)と、を含む。第3正解データは、上述の画像群の各画像に表示された対象物の正解となる位置と、対象物の分類と、対応する画像の識別情報とを含むデータである。後述するように、第3正解データは、上述の推定器の教師データとして用いられる他、第3正解データが示す対象物位置よりも正確度又は精度が低い対象物位置を示す正解データ(「第4正解データ」とも呼ぶ。)の生成に用いられる。
次に、引き続き図1を参照してデータ生成装置10のハードウェア構成について説明する。データ生成装置10は、ハードウェアとして、プロセッサ11と、メモリ12と、インターフェース13と、表示部14と、入力部15とを含む。プロセッサ11、メモリ12、インターフェース13、表示部14及び入力部15は、データバス19を介して接続されている。
プロセッサ11は、メモリ12に記憶されているプログラムを実行することにより、所定の処理を実行する。プロセッサ11は、CPU(Central Processing Unit)、GPU(Graphics Processing Unit)などのプロセッサである。
メモリ12は、RAM(Random Access Memory)、ROM(Read Only Memory)、フラッシュメモリなどの各種のメモリにより構成される。また、メモリ12には、データ生成装置10が実行する学習に関する処理を実行するためのプログラムが記憶される。また、メモリ12は、作業メモリとして使用され、記憶装置20から取得した情報等を一時的に記憶する。なお、メモリ12は、記憶装置20として機能してもよい。この場合、メモリ12は、対象画像記憶部21と、第1正解データ記憶部22と、第2正解データ記憶部23と、推定器情報記憶部24と、教師データ記憶部25とを記憶する。同様に、記憶装置20は、データ生成装置10のメモリ12として機能してもよい。
インターフェース13は、プロセッサ11の制御に基づき記憶装置20とデータの送受信を有線又は無線により行うための通信インターフェースであり、ネットワークアダプタなどが該当する。なお、データ生成装置10と記憶装置20とはケーブル等により接続されてもよい。この場合、インターフェース13は、記憶装置20とデータ通信を行う通信インターフェースの他、記憶装置20とデータの授受を行うためのUSB、SATA(Serial AT Attachment)などに準拠したインターフェースである。
表示部14は、ディスプレイ等であり、プロセッサ11の制御に基づく表示を行う。入力部15は、マウス、キーボード、タッチパネル、音声入力装置等であり、検知した入力を示す入力データをプロセッサ11に供給する。
なお、データ生成装置10のハードウェア構成は、図1に示す構成に限定されない。例えば、データ生成装置10は、スピーカなどの音出力部などをさらに備えてもよい。また、データ生成装置10は、表示部14又は入力部15の少なくとも一方を備えなくともよい。
また、データ生成装置10は、複数の装置により構成されてもよい。この場合、これらの各装置は、各装置が予め定め割り当てられた処理を実行するために必要な情報の授受を他の装置と行う。
[機能ブロック]
次に、データ生成装置10の機能ブロックについて説明する。以後では、正解データ生成処理について説明した後、学習処理について説明する。ここで、正解データ生成処理は、推定器情報が既に推定器情報記憶部24に記憶されている場合に第1正解データから第2正解データを生成する処理である。また、学習処理は、推定器情報記憶部24に記憶する推定器情報を学習により生成する処理である。
図2は、正解データ生成処理に関連するデータ生成装置10の機能ブロック図である。図2に示すように、データ生成装置10のプロセッサ11は、正解データ生成処理に関し、対象画像取得部31と、第1正解データ取得部32と、第2正解データ生成部33と、適格性判定部34と、出力部35と、を有する。
対象画像取得部31は、対象画像記憶部21から、正解付けの対象となる対象画像を取得する。なお、対象画像取得部31は、対象画像記憶部21から複数の対象画像をまとめて取得してもよく、対象画像記憶部21から1つの対象画像を取得してもよい。前者の場合、データ生成装置10は、取得した複数の対象画像に対して以後の処理を並行して、又は取得したそれぞれの対象画像について以後の処理を順に実行する。そして、対象画像取得部31は、取得した対象画像を第2正解データ生成部33へ供給する。
第1正解データ取得部32は、対象画像取得部31が取得した対象画像に対応する第1正解データを第1正解データ記憶部22から取得する。そして、第1正解データ取得部32は、取得した第1正解データを第2正解データ生成部33へ供給する。
第2正解データ生成部33は、推定器情報記憶部24に記憶された推定器情報に基づき構成した推定器に、対象画像取得部31が取得した対象画像と第1正解データ取得部32が取得した第1正解データとを入力することで、第2正解データを生成する。この場合、推定器は、推定器に入力される対象物位置よりも正確度又は精度が高い対象物位置を出力するように学習された演算モデル(学習モデル)となっている。言い換えると、推定器は、対象物を含む位置、対象物の一部を示す位置、又は、対象物の候補位置のいずれかが入力された場合に、対象物の正解位置を示す推定結果を出力するように学習された演算モデルとなっている。よって、第2正解データ生成部33は、このような推定器を用いることで、第1正解データが示す対象物位置よりも正確度又は精度が高い対象物位置を示す第2正解データを好適に生成することができる。そして、第2正解データ生成部33は、生成した第2正解データ及び対象画像を適格性判定部34へ供給する。
適格性判定部34は、第2正解データ生成部33が生成した第2正解データについて、対象物の正解位置を示すデータとしての適格性の有無を判定する。そして、適格性判定部34は、対象物の正解位置を示すデータとして適格性がないと判定した第2正解データを第2正解データ記憶部23に保存する対象から除外する。適格性判定の具体例については後述する。適格性判定部34は、上述の適格性があると判定した第2正解データを出力部35へ供給する。
出力部35は、適格性判定部34から供給された第2正解データを出力する。本実施形態では、出力部35は、一例として、適格性判定部34から供給された第2正解データを、第2正解データ記憶部23に記憶する。
ここで、適格性判定部34による適格性判定の具体例について説明する。
まず、対象物位置が矩形領域などの領域を示す場合について検討する。この場合、適格性判定部34は、第1の例として、第1正解データが示す領域よりも第2正解データが示す領域が大きくなった場合、当該第2正解データは適格性がないと判定する。「領域が大きくなった場合」とは、面積が大きくなった場合であってもよく、縦幅又は横幅の少なくとも一方が大きくなった場合であってもよい。また、対象物位置が領域を示す場合の第2の例として、適格性判定部34は、第1正解データが示す領域と第2正解データが示す領域との重なり割合が所定割合以下である場合、当該第2正解データは適格性がないと判定する。この場合、適格性判定部34は、上述の重なり割合として、例えば、IoU(Intersection over Union)を算出する。上述の所定割合は、0(即ち全く重なりがない)であってもよく、0より大きい所定値であってもよい。また、適格性判定部34は、対象物位置が領域を示す場合の第3の例として、第1正解データが示す領域と、第2正解データが示す領域とを明示した対象画像を表示部14に表示し、第2正解データが示す領域の適格性の有無を指定する入力を入力部15により受け付ける。この場合、適格性判定部34は、第2正解データが示す領域は適格性を有しない旨の入力を入力部15により検知した場合、当該第2正解データは適格性がないと判定する。
次に、対象物位置が座標(点)を示す場合について検討する。この場合、適格性判定部34は、第1の例として、第1正解データが示す座標と第2正解データが示す座標との誤差が所定度合以上である場合、当該第2正解データは適格性がないと判定する。この場合の誤差は、2乗誤差であってもよく、絶対誤差であってもよく、最大誤差であってもよく、OKS(Object Keypoint Similarity)に基づく誤差であってもよい。適格性判定部34は、第2の例として、第1正解データが示す座標と、第2正解データが示す座標とを明示した対象画像を表示部14に表示し、第2正解データが示す座標の適格性の有無を指定する入力を入力部15により受け付ける。この場合、適格性判定部34は、第2正解データが示す座標は適格性を有しない旨の入力を入力部15により検知した場合、当該第2正解データは適格性がないと判定する。
図3は、推定器の生成を行う学習処理に関連するデータ生成装置10の機能ブロック図である。
図3に示すように、データ生成装置10のプロセッサ11は、学習処理に関し、画像取得部36と、第3正解データ取得部37と、第4正解データ生成部38と、学習部39と、を有する。
画像取得部36は、推定器の学習に用いる教師データの画像群を教師データ記憶部25から取得する。そして、画像取得部36は、取得した画像群を学習部39へ供給する。
第3正解データ取得部37は、画像取得部36が取得した画像群に表示された対象物の対象物位置を示す第3正解データを教師データ記憶部25から取得する。そして、第3正解データ取得部37は、取得した第3正解データを、第4正解データ生成部38と学習部39に供給する。
第4正解データ生成部38は、第3正解データ取得部37から供給された第3正解データから第4正解データを生成する。ここで、第4正解データ生成部38は、第3正解データが示す対象物位置に基づき、第3正解データが示す対象物位置よりも正確度又は精度が低い対象物位置を決定し、決定した対象物位置を示す第4正解データを生成する。
具体的には、第4正解データ生成部38は、第3正解データが示す対象物位置から、対象物を含む位置、対象物の一部を示す位置、又は、対象物の候補位置のいずれかに該当する位置を選定し、選定した位置を対象物位置として示した第4正解データを生成する。より具体的には、第4正解データ生成部38は、第3正解データが示す対象物位置から、対象物を含む位置として無作為に選定した位置、対象物の一部を示す位置として無作為に選定した位置、又は、対象物の候補位置として無作為に選定した位置のいずれかに該当する位置を選定する。例えば、第3正解データが示す対象物位置から、対象物を含む位置を示す第4正解データを生成する場合、第3正解データが示す対象物位置を拡大又は移動させた対象物位置を示す第4正解データを生成する。この場合の拡大率、移動方向、移動距離は無作為に決定される。そして、第4正解データ生成部38は、生成した第4正解データを学習部39へ供給する。
学習部39は、画像取得部36から供給された画像群と、第3正解データ取得部37から供給される第3正解データと、第4正解データ生成部38が供給する第4正解データとに基づき、学習モデルの学習を行うことで、推定器を生成する。具体的には、推定器は、上述の画像群の各画像と、第4正解データが示す対象物位置とを入力とした場合に、第3正解データが示す対象物位置を出力するように学習された学習モデルである。よって、学習部39は、画像取得部36から供給された画像群とこれに対応する第4正解データが示す対象物位置との組を入力のサンプルとし、第3正解データが示す対象物位置を正解データのサンプルとして、上述の学習モデルの学習を行う。そして、学習部39は、学習された学習モデルに相当する推定器に関する推定器情報を推定器情報記憶部24に記憶する。
[正解データの具体例]
次に、第1~第4正解データが示す対象物位置の具体例について説明する。以下に説明するように、第1正解データ及び第4正解データが示す対象物位置は、対象物を含む位置、対象物の一部を示す位置、又は、対象物の候補位置となるように決定される。また、第2正解データ及び第3正解データが示す対象物位置は、対象物の正解の位置を示すように決定される。
まず、第1正解データ及び第4正解データが対象物を含む位置を示す場合について、図4(A)及び図4(B)を参照して説明する。
図4(A)は、対象物が人の頭部である場合に第1正解データが示す対象物位置51と対象物位置52を対象画像91上に明示した図である。図4(B)は、第2正解データが示す対象物位置61と対象物位置62とを対象画像91上に明示した図である。
図4(A)の例では、第1正解データが示す対象物位置51、52は、それぞれ、対象物の表示領域の全体を少なくとも含むように、大まかに(即ち低精度により)指定された領域となっている。一方、第2正解データが示す対象物位置61、62は、図4(B)に示すように、第1正解データが示す対象物位置51、52よりも高い精度により対象物である頭部の領域を示している。このように、第2正解データ生成部33は、第1正解データよりも高精度な対象物位置を示す第2正解データを生成する。
また、図4(B)に示す対象物位置61、62を第3正解データが示す対象物位置の例とみなし、図4(A)に示す対象物位置51、52を第4正解データが示す対象物位置の例とみなすこともできる。この場合、第4正解データ生成部38は、第3正解データが示す対象物位置61、62を所定倍率だけ拡大させ、かつ、所定距離だけ所定方向に移動させた対象物位置51、52を示す第4正解データを生成する。上述の所定倍率及び所定距離は、例えば、所定の値域から無作為に定められ、所定方向は、全方向から無作為に定められる。
次に、第1正解データ及び第4正解データが示す対象物位置が、対象物の一部を示す位置である場合について、図4(B)及び図4(C)を参照して説明する。
図4(C)は、第1正解データ又は第4正解データが示す対象物位置の例を示す。図4(C)に示す対象物位置71、72は、対象画像に表示された対象物(人の頭部)の表示領域内における一部の領域又は座標を示している。この場合、例えば、第2正解データ生成部33は、第1正解データが図4(C)の対象物位置71、72を示す場合、頭部の一部を表す対象物位置71、72から、頭部全体の位置を示す対象物位置61、62を示す第2正解データを生成する。また、第4正解データ生成部38は、第3正解データが図4(B)の対象物位置61、62を示す場合、対象物位置61、62が示す頭部全体の表示領域から、その一部に相当する対象物位置71、72を無作為に選定する。そして、第4正解データ生成部38は、選定した対象物位置71、72を示す第4正解データを生成する。
次に、第1正解データ又は第4正解データが示す対象物位置が対象物の候補位置を示す場合について、図5(A)及び図5(B)を参照して説明する。
図5(A)は、対象物が顔の複数の特徴点(両目の両端、鼻、口の両端)である場合に第1正解データが示す対象物位置53~59を対象画像92上に明示した図である。図5(B)は、第2正解データが示す対象物位置63~69を対象画像92上に明示した図である。
図5(A)の例では、第1正解データが示す対象物位置53~59は、それぞれ、対象物となる特徴点の候補位置となるように大まかに(低い正確度により)指定されている。そして、対象物位置53~59は、対象画像92に表示された対象物(ここでは顔の特徴点)の表示領域の近傍となる領域又は座標を示している。
一方、第2正解データが示す対象物位置63~69は、図5(B)に示すように、第1正解データが示す対象物位置53~59よりも高い正確度により各特徴点の位置を示している。このように、第2正解データ生成部33は、第1正解データよりも高い正確度の対象物位置を示す第2正解データを生成する。
また、図5(B)に示す対象物位置63~69を第3正解データが示す対象物位置の例とみなし、図5(A)に示す対象物位置53~59を第4正解データが示す対象物位置の例とみなすこともできる。この場合、第4正解データ生成部38は、第3正解データが示す対象物位置63~69を、所定方向に所定距離だけそれぞれ移動させた対象物位置53~59を示す第4正解データを生成する。上述の所定距離は、例えば、所定の値域から無作為に定められ、所定方向は、全方向から無作為に定められる。
次に、第1~第4正解データが対象物位置を示す2値画像を有する場合について図6(A)~(C)を参照して説明する。
図6(A)は、対象画像93の表示例を示す。図6(B)は、第1正解データに含まれる2値画像94である。図6(C)は、第2正解データに含まれる2値画像95である。2値画像94、95は、それぞれ対象物である荷物の位置を指し示すマスク画像となっている。ここでは、一例として、2値画像94、95は、対象物の位置を示す画素を黒色により表示している。
この場合、第1正解データの2値画像94は、対象物である荷物の表示領域全体を少なくとも含む領域を、大まかに(即ち低精度により)指し示している。一方、第2正解データの2値画像95は、図6(C)に示すように、第1正解データの2値画像94が示す対象物位置よりも高い精度により、対象物である荷物の領域を指し示している。このように、第2正解データ生成部33は、第1正解データの2値画像94よりも高精度な対象物位置を示した2値画像95を含む第2正解データを生成する。
また、図6(C)に示す2値画像95を第3正解データに含まれる対象物位置の情報の例とみなし、図6(B)に示す2値画像94を第4正解データに含まれる対象物位置の情報の例とみなすこともできる。この場合、第4正解データ生成部38は、例えば、第3正解データに含まれる2値画像95が示す対象物位置を含む最小の矩形領域を拡大(及び移動)させ、拡大(及び移動)後の矩形領域を示す2値画像94を含む第4正解データを生成する。この場合の拡大率、移動方向、移動距離については無作為に選定される。
[処理フロー]
次に、正解データ生成処理及び学習処理の各処理フローについて説明する。
図7は、正解データ生成処理に関する処理手順を示すフローチャートである。データ生成装置10は、図7に示すフローチャートの処理を、例えば、対象画像記憶部21に記憶された対象画像毎に繰り返し実行する。
まず、対象画像取得部31は、正解付けの対象となる対象画像を対象画像記憶部21から取得する(ステップS10)。そして、第1正解データ取得部32は、ステップS10で取得された対象画像に対する対象物位置を示す第1正解データを取得する(ステップS11)。
そして、第2正解データ生成部33は、推定器情報記憶部24に含まれる推定器情報から構成した推定器に対象画像及び第1正解データを入力し、第1正解データより正確又は精度が高い対象物位置を示す第2正解データを生成する(ステップS12)。
次に、適格性判定部34は、ステップS12で生成された第2正解データが対象物の正解位置を示すデータとして適格性を有しているか否か判定する(ステップS13)。そして、対象の第2正解データが上述の適格性を有している場合(ステップS13;Yes)、出力部35は、対象の第2正解データを出力する(ステップS14)。具体的には、出力部35は、対象の第2正解データを第2正解データ記憶部23に記憶する。これにより、データ生成装置10は、第1正解データよりも精度又は正確度が高い対象物位置を示す第2正解データを好適に生成することができる。この第2正解データは、対応する対象画像と共に、学習モデルの学習に好適に用いられる。
一方、対象の第2正解データが適格性を有していない場合(ステップS13;No)、出力部35は、対象の第2正解データを出力することなく、フローチャートの処理を終了する。これにより、データ生成装置10は、不正な正解データである可能性が高い第2正解データを、第2正解データ記憶部23に保存する対象から好適に除外することができる。これにより、不正な正解データを学習データとして利用することを好適に抑制することができる。
図8は、推定器に関する学習処理の手順を示すフローチャートである。
まず、画像取得部36は教師データ記憶部25から画像群を取得する(ステップS20)。また、第3正解データ取得部37は、ステップS20で取得された画像群の各画像に表示された対象物の位置を正確かつ高精度に示した第3正解データを教師データ記憶部25から取得する(ステップS21)。
次に、第4正解データ生成部38は、ステップS21で取得された第3正解データから、精度又は正確度を下げた対象物位置を示す第4正解データを生成する(ステップS22)。具体的には、第4正解データ生成部38は、第3正解データが示す対象物位置から、対象物を含む位置、対象物の一部を示す位置、又は、対象物の候補位置のいずれかに該当する位置を選定し、選定した位置を対象物位置として示した第4正解データを生成する。
そして、学習部39は、ステップS20で取得された画像群と、ステップS21で取得された第3正解データと、ステップS22で取得された第4正解データとを用いた学習により、図7のステップS12で用いるための推定器を生成する(ステップS23)。具体的には、学習部39は、画像群とこれに対応する第4正解データが示す対象物位置との組を入力のサンプルとし、第3正解データが示す対象物位置を正解データのサンプルとして、学習モデルの学習を行う。そして、学習部39は、生成した推定器の推定器情報を、推定器情報記憶部24に記憶する(ステップS24)。
ここで、本実施形態による効果について補足説明する。
一般に、正解付け作業において、正確に正解付けを行うことを作業者に要求する場合には、正解付け作業に要する時間と労力が必要となる。例えば、対象物が小さい場合には、画像の拡大操作等が必要となり、効率的な正解付けが困難となる。また、人によって正解付けの基準が異なるため、複数作業者により正解付けが行われた場合には、各作業者が時間をかけて正解付けを行った場合であっても、得られる正解データの質が均一にならない。
以上を勘案し、本実施形態におけるデータ生成装置10は、正解付け作業において大まかに行われた正解付けに基づく第1正解データから、均一な質を有する第2正解データを好適に生成する。これにより、正解付け作業の時間と労力を好適に削減し、かつ、複数作業者により正解付けが行われた場合であっても、均一な質の第2正解データを好適に生成することができる。
[変形例]
次に、上述の実施形態に好適な変形例について説明する。以下に説明する変形例は、任意に組み合わせて上述の実施形態に適用してもよい。
(変形例1)
データ生成装置10は、上述した第2正解データ生成処理及び学習処理のうち第2正解データ生成処理のみを行ってもよい。
この場合、推定器情報記憶部24には、データ生成装置10以外の装置等が予め生成した推定器情報が記憶され、データ生成装置10は、当該推定器情報記憶部24を参照して第2正解データ生成処理を実行する。これによっても、正解付け作業において大まかに行われた正解付けに基づく第1正解データから、均一な質を有する第2正解データを好適に生成することができる。
(変形例2)
データ生成装置10は、対象画像及び第1正解データを記憶装置20から取得する代わりに、正解付け作業を行う端末装置から受信してもよい。
この場合、データ生成装置10は、正解付け作業によるユーザ入力を受け付けて第1正解データを生成する1又は複数の端末装置と、ネットワーク等を介してデータ通信を行う。そして、データ生成装置10は、上述の端末装置から対象画像及び第1正解データの組み合わせを受信した場合に、図7に示す正解データ生成処理のステップS12及びそれ以降の処理を実行する。これによっても、正解付け作業において大まかに行われた正解付けに基づく第1正解データから、均一な質を有する第2正解データを好適に生成することができる。
(変形例3)
データ生成装置10は、図2に示す適格性判定部34及び出力部35に相当する機能を有しなくともよい。
図9は、変形例3に係るデータ生成装置10Aの機能ブロック図である。図9に示すように、データ生成装置10Aのプロセッサ11は、対象画像取得部31Aと、第1正解データ取得部32Aと、第2正解データ生成部33Aとを有する。
この場合、対象画像取得部31Aは、正解付けがなされる対象となる対象画像を取得する。第1正解データ取得部32Aは、対象画像に表示された対象物に対し、当該対象物を含む位置若しくは当該対象物の一部を示す位置、又は、当該対象物の候補位置を示した第1正解データを取得する。第2正解データ生成部33Aは、推定器に基づき、第1正解データから、対象物の推定位置を示した第2正解データを生成する。ここで、推定器は、対象物を含む位置若しくは当該対象物の一部を示す位置、又は、当該対象物の候補位置から、当該対象物の推定位置を出力するように学習されている。これにより、データ生成装置10Aは、正解付け作業において大まかに行われた正解付けに基づく第1正解データから、均一な質を有する第2正解データを好適に生成することができる。
その他、上記の各実施形態(変形例を含む、以下同じ)の一部又は全部は、以下の付記のようにも記載され得るが以下には限られない。
[付記1]
正解付けがなされる対象となる対象画像を取得し、
前記対象画像に表示された対象物に対し、
当該対象物を含む位置若しくは当該対象物の一部を示す位置、又は、
当該対象物の候補位置
を示した第1正解データを取得し、
対象物を含む位置若しくは当該対象物の一部を示す位置、又は、当該対象物の候補位置から、当該対象物の推定位置を出力するように学習された推定器に基づき、前記第1正解データから、前記対象物の推定位置を示した第2正解データを生成する、
データ生成方法。
[付記2]
前記第1正解データは、前記対象画像内において指定された位置を示す、付記1に記載のデータ生成方法。
[付記3]
前記対象物を含む位置は、前記対象画像に表示された前記対象物の表示領域の全体を少なくとも含むように指定された領域である、付記1または2に記載のデータ生成方法。
[付記4]
前記対象物の一部を示す位置は、前記対象画像に表示された前記対象物の表示領域内において指定された一部の領域又は座標を示す、付記1~3のいずれか一項に記載のデータ生成方法。
[付記5]
前記候補位置は、前記対象画像に表示された前記対象物の表示領域の近傍となる領域又は座標を示す、付記1~4のいずれか一項に記載のデータ生成方法。
[付記6]
前記第2正解データが示す前記推定位置が前記対象物の正解位置としての適格性を有するか否かを判定する、付記1~5のいずれか一項に記載のデータ生成方法。
[付記7]
前記適格性を有すると判定された前記第2正解データを、学習に用いる学習データとして記憶部に記憶する、付記6に記載のデータ生成方法。
[付記8]
画像群を取得し、
当該画像群の各々の画像に表示された対象物の位置を示す第3正解データを取得し、
前記第3正解データから、当該対象物を含む位置若しくは当該対象物の一部を示す位置、又は、当該対象物の候補位置を示す第4正解データを生成し、
前記画像群と、前記第3正解データと、前記第4正解データとに基づき、前記推定器の学習を行う、付記1~7のいずれか一項に記載のデータ生成方法。
[付記9]
前記対象物を含む位置として無作為に選定した位置、当該対象物の一部を示す位置として無作為に選定した位置、又は、当該対象物の候補位置として無作為に選定した位置のいずれかの位置を示す前記第4正解データを生成する、付記8に記載のデータ生成方法。
[付記10]
正解付けがなされる対象となる対象画像を取得する対象画像取得部と、
前記対象画像に表示された対象物に対し、
当該対象物を含む位置若しくは当該対象物の一部を示す位置、又は、
当該対象物の候補位置
を示した第1正解データを取得する第1正解データ取得部と、
対象物を含む位置若しくは当該対象物の一部を示す位置、又は、当該対象物の候補位置から、当該対象物の推定位置を出力するように学習された推定器に基づき、前記第1正解データから、前記対象物の推定位置を示した第2正解データを生成する第2正解データ生成部と、を有するデータ生成装置。
[付記11]
コンピュータが実行するプログラムであって、
正解付けがなされる対象となる対象画像を取得する対象画像取得部と、
前記対象画像に表示された対象物に対し、
当該対象物を含む位置若しくは当該対象物の一部を示す位置、又は、
当該対象物の候補位置
を示した第1正解データを取得する第1正解データ取得部と、
対象物を含む位置若しくは当該対象物の一部を示す位置、又は、当該対象物の候補位置から、当該対象物の推定位置を出力するように学習された推定器に基づき、前記第1正解データから、前記対象物の推定位置を示した第2正解データを生成する第2正解データ生成部
として前記コンピュータを機能させる、プログラム。
以上、実施形態を参照して本願発明を説明したが、本願発明は上記実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。すなわち、本願発明は、請求の範囲を含む全開示、技術的思想にしたがって当業者であればなし得るであろう各種変形、修正を含むことは勿論である。また、引用した上記の特許文献等の各開示は、本書に引用をもって繰り込むものとする。
10、10A データ生成装置
11 プロセッサ
12 メモリ
13 インターフェース
14 表示部
15 入力部
20 記憶装置
21 対象画像記憶部
22 第1正解データ記憶部
23 第2正解データ記憶部
24 推定器情報記憶部
25 教師データ記憶部
100 学習データ生成システム

Claims (10)

  1. 正解付けがなされる対象となる対象画像を取得し、
    前記対象画像に表示された対象物に対し、
    当該対象物を含む位置若しくは当該対象物の一部を示す位置、又は、
    当該対象物の候補位置
    を示した第1正解データを取得し、
    対象物を含む位置若しくは当該対象物の一部を示す位置、又は、当該対象物の候補位置から、当該対象物の推定位置を出力するように学習された推定器に基づき、前記第1正解データから、前記対象物の推定位置を示した第2正解データを生成する、
    データ生成方法。
  2. 前記第1正解データは、前記対象画像内において指定された位置を示す、請求項1に記載のデータ生成方法。
  3. 前記対象物を含む位置は、前記対象画像に表示された前記対象物の表示領域の全体を少なくとも含むように指定された領域である、請求項1または2に記載のデータ生成方法。
  4. 前記対象物の一部を示す位置は、前記対象画像に表示された前記対象物の表示領域内において指定された一部の領域又は座標を示す、請求項1~3のいずれか一項に記載のデータ生成方法。
  5. 前記候補位置は、前記対象画像に表示された前記対象物の表示領域の近傍となる領域又は座標を示す、請求項1~4のいずれか一項に記載のデータ生成方法。
  6. 前記第2正解データが示す前記推定位置が前記対象物の正解位置としての適格性を有するか否かを判定する、請求項1~5のいずれか一項に記載のデータ生成方法。
  7. 前記適格性を有すると判定された前記第2正解データを、学習に用いる学習データとして記憶部に記憶する、請求項6に記載のデータ生成方法。
  8. 画像群を取得し、
    当該画像群の各々の画像に表示された対象物の位置を示す第3正解データを取得し、
    前記第3正解データから、当該対象物を含む位置若しくは当該対象物の一部を示す位置、又は、当該対象物の候補位置を示す第4正解データを生成し、
    前記画像群と、前記第3正解データと、前記第4正解データとに基づき、前記推定器の学習を行う、請求項1~7のいずれか一項に記載のデータ生成方法。
  9. 正解付けがなされる対象となる対象画像を取得する対象画像取得手段と、
    前記対象画像に表示された対象物に対し、
    当該対象物を含む位置若しくは当該対象物の一部を示す位置、又は、
    当該対象物の候補位置
    を示した第1正解データを取得する第1正解データ取得手段と、
    対象物を含む位置若しくは当該対象物の一部を示す位置、又は、当該対象物の候補位置から、当該対象物の推定位置を出力するように学習された推定器に基づき、前記第1正解データから、前記対象物の推定位置を示した第2正解データを生成する第2正解データ生成手段と、を有するデータ生成装置。
  10. コンピュータが実行するプログラムであって、
    正解付けがなされる対象となる対象画像を取得する対象画像取得手段と、
    前記対象画像に表示された対象物に対し、
    当該対象物を含む位置若しくは当該対象物の一部を示す位置、又は、
    当該対象物の候補位置
    を示した第1正解データを取得する第1正解データ取得手段と、
    対象物を含む位置若しくは当該対象物の一部を示す位置、又は、当該対象物の候補位置から、当該対象物の推定位置を出力するように学習された推定器に基づき、前記第1正解データから、前記対象物の推定位置を示した第2正解データを生成する第2正解データ生成手段
    として前記コンピュータを機能させる、プログラム。
JP2021504714A 2019-03-13 2019-03-13 データ生成方法、データ生成装置及びプログラム Active JP7164008B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2019/010323 WO2020183656A1 (ja) 2019-03-13 2019-03-13 データ生成方法、データ生成装置及びプログラム

Publications (2)

Publication Number Publication Date
JPWO2020183656A1 JPWO2020183656A1 (ja) 2021-11-18
JP7164008B2 true JP7164008B2 (ja) 2022-11-01

Family

ID=72427239

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021504714A Active JP7164008B2 (ja) 2019-03-13 2019-03-13 データ生成方法、データ生成装置及びプログラム

Country Status (3)

Country Link
US (1) US20220130135A1 (ja)
JP (1) JP7164008B2 (ja)
WO (1) WO2020183656A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020183705A1 (ja) * 2019-03-14 2020-09-17 日本電気株式会社 生成方法、学習データ生成装置及びプログラム

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180276815A1 (en) 2017-03-27 2018-09-27 Siemens Healthcare Gmbh Highly Integrated Annotation and Segmentation System for Medical Imaging
US20190065995A1 (en) 2017-08-31 2019-02-28 Canon Kabushiki Kaisha Information processing apparatus and method of controlling information processing apparatus

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4517633B2 (ja) * 2003-11-25 2010-08-04 ソニー株式会社 対象物検出装置及び方法
JP6624877B2 (ja) * 2015-10-15 2019-12-25 キヤノン株式会社 情報処理装置、情報処理方法及びプログラム
JP6897042B2 (ja) * 2016-09-27 2021-06-30 日本電気株式会社 画像検査装置、画像検査方法および画像検査プログラム
CN106709936A (zh) * 2016-12-14 2017-05-24 北京工业大学 一种基于卷积神经网络的单目标跟踪方法
KR20180081353A (ko) * 2017-01-06 2018-07-16 삼성전자주식회사 전자 장치 및 그의 동작 방법
CN109214245B (zh) * 2017-07-03 2022-02-18 株式会社理光 一种目标跟踪方法、装置、设备及计算机可读存储介质
CN107689052B (zh) * 2017-07-11 2021-06-29 西安电子科技大学 基于多模型融合和结构化深度特征的视觉目标跟踪方法
JP2019023858A (ja) * 2017-07-21 2019-02-14 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 学習データ生成装置、学習データ生成方法、機械学習方法及びプログラム
KR102040309B1 (ko) * 2017-09-18 2019-11-04 한국전자통신연구원 멀티미디어 콘텐츠와 연관되는 후각 정보 인식 장치 및 방법, 라벨 정보 생성 장치 및 방법
JP6919990B2 (ja) * 2017-10-17 2021-08-18 株式会社日立製作所 オンライン認識装置、オンライン認識方法、及びそれに用いる設定画面
JP2019096072A (ja) * 2017-11-22 2019-06-20 株式会社東芝 物体検出装置、物体検出方法およびプログラム
JP6901007B2 (ja) * 2017-12-06 2021-07-14 日本電気株式会社 学習装置、検査システム、学習方法、検査方法およびプログラム
JP6943338B2 (ja) * 2018-05-18 2021-09-29 日本電気株式会社 画像処理装置、システム、方法及びプログラム
US10755128B2 (en) * 2018-12-18 2020-08-25 Slyce Acquisition Inc. Scene and user-input context aided visual search

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180276815A1 (en) 2017-03-27 2018-09-27 Siemens Healthcare Gmbh Highly Integrated Annotation and Segmentation System for Medical Imaging
US20190065995A1 (en) 2017-08-31 2019-02-28 Canon Kabushiki Kaisha Information processing apparatus and method of controlling information processing apparatus

Also Published As

Publication number Publication date
US20220130135A1 (en) 2022-04-28
WO2020183656A1 (ja) 2020-09-17
JPWO2020183656A1 (ja) 2021-11-18

Similar Documents

Publication Publication Date Title
JP7071054B2 (ja) 情報処理装置、情報処理方法およびプログラム
US20160328825A1 (en) Portrait deformation method and apparatus
US10964057B2 (en) Information processing apparatus, method for controlling information processing apparatus, and storage medium
CN110991649A (zh) 深度学习模型搭建方法、装置、设备和存储介质
US9508177B2 (en) Method of controlling skeleton model, and recording medium therewith
JP6872044B2 (ja) 対象物の外接枠を決定するための方法、装置、媒体及び機器
EP4191540A1 (en) 3d data system and 3d data generation method
JP2023109570A (ja) 情報処理装置、学習装置、画像認識装置、情報処理方法、学習方法、画像認識方法
JP7164008B2 (ja) データ生成方法、データ生成装置及びプログラム
JP6645442B2 (ja) 情報処理装置、情報処理方法、及び、プログラム
US10573033B2 (en) Selective editing of brushstrokes in a digital graphical image based on direction
JP2006318232A (ja) 解析用メッシュ修正装置
CN111951348A (zh) 确定框选区域的方法、装置及电子设备
CN115457206A (zh) 三维模型生成方法、装置、设备及存储介质
JP6590606B2 (ja) 画像処理装置、画像処理方法、プログラム
CN113167568B (zh) 坐标计算装置、坐标计算方法和计算机可读记录介质
CN109308703B (zh) 利用结构化的用户点击点对解剖结构智能描轮廓
JP2022013433A (ja) 情報処理装置、情報処理方法
WO2023188160A1 (ja) 入力支援装置、入力支援方法、及び非一時的なコンピュータ可読媒体
WO2020183705A1 (ja) 生成方法、学習データ生成装置及びプログラム
CN109002163A (zh) 三维交互姿势采样方法、装置、计算机设备及存储介质
WO2024009888A1 (ja) 情報処理装置及びその制御方法及びプログラム
US20240078832A1 (en) Joint detection apparatus, learning-model generation apparatus, joint detection method, learning-model generation method, and computer readable recording medium
JP6751540B1 (ja) 形状予測システム、形状予測方法及び形状予測プログラム
JP4691659B2 (ja) 画像認識装置、画像認識方法及びプログラム

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210709

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210709

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220920

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20221003

R151 Written notification of patent or utility model registration

Ref document number: 7164008

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151