JP2020135432A - 学習データの生成方法、学習データ生成装置及びプログラム - Google Patents

学習データの生成方法、学習データ生成装置及びプログラム Download PDF

Info

Publication number
JP2020135432A
JP2020135432A JP2019028270A JP2019028270A JP2020135432A JP 2020135432 A JP2020135432 A JP 2020135432A JP 2019028270 A JP2019028270 A JP 2019028270A JP 2019028270 A JP2019028270 A JP 2019028270A JP 2020135432 A JP2020135432 A JP 2020135432A
Authority
JP
Japan
Prior art keywords
data
image
still image
still
combination
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019028270A
Other languages
English (en)
Other versions
JP7168485B2 (ja
Inventor
晃 下山
Akira Shimoyama
晃 下山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Solutions Create Ltd
Original Assignee
Hitachi Solutions Create Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Solutions Create Ltd filed Critical Hitachi Solutions Create Ltd
Priority to JP2019028270A priority Critical patent/JP7168485B2/ja
Publication of JP2020135432A publication Critical patent/JP2020135432A/ja
Application granted granted Critical
Publication of JP7168485B2 publication Critical patent/JP7168485B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

【課題】画像認識用のモデルの学習を行うための良質な学習データを効率的に生成する。【解決手段】画像認識用のモデルの学習を行うための学習データの生成方法であって、コンピュータが、前記画像認識の対象が撮影されている動画データを取得する処理と、前記動画データに含まれる各フレームの静止画像の中から2つの静止画像を選ぶ組み合わせ毎に、前記2つの静止画像の相違の程度を表す指標値を求め、前記指標値を元に、前記動画データに含まれる静止画像から冗長な静止画像を取り除くことにより、前記学習データを生成する処理と、を実行する。【選択図】図6

Description

本発明は、学習データの生成方法、学習データ生成装置及びプログラムに関する。
機械学習によって画像認識用のモデルを構築するためには、人や物などの画像認識の対象を撮影した大量の静止画像を学習データとして用意する必要がある。
そしてこのようなモデルを用いた画像認識の精度を向上させるためには、撮影の方向や距離、傾きなどの撮影条件が異なる様々な静止画像を豊富に含む良質な学習データを用いてモデルの学習を行うことが好ましい。
そのためこのような学習データを効率的に生成するための技術が開発されている(例えば特許文献1参照)。
特開2016−062524号公報
一方で、画像認識の対象を動画撮影用カメラで撮影し、動画データから各フレームの静止画像を取り出すことで、静止画像を大量に含む学習データを生成することも行われている。
しかしながらこの場合、学習データに含まれる静止画像は数10分の1秒毎に撮影されたものである。そのため、生成される学習データには、撮影の向きや距離などの撮影条件がほぼ等しく、冗長な静止画像が大量に含まれ、データ量が増大し、学習に要する時間も長くなる。
逆に、学習データのデータ量を減らそうとして短時間で撮影を行った場合などには、モデルの学習に必要な静止画像が十分に得られない可能性もある。
本発明はこのような課題を鑑みてなされたものであり、画像認識用のモデルの学習を行うための良質な学習データを効率的に生成する学習データの生成方法、学習データ生成装置及びプログラムを提供することを目的の一つとする。
本発明の一実施形態に係る学習データの生成方法は、画像認識用のモデルの学習を行うための学習データの生成方法であって、コンピュータが、前記画像認識の対象が撮影されている動画データを取得する処理と、前記動画データに含まれる各フレームの静止画像の中から2つの静止画像を選ぶ組み合わせ毎に、前記2つの静止画像の相違の程度を表す指標値を求め、前記指標値を元に、前記動画データに含まれる静止画像から冗長な静止画像を取り除くことにより、前記学習データを生成する処理と、を実行する。
その他、本願が開示する課題、及びその解決方法は、発明を実施するための形態の欄の記載、及び図面の記載等により明らかにされる。
画像認識用のモデルの学習を行うための良質な学習データを効率的に生成することができる。
情報システムの全体構成図である。 ユーザ端末のハードウェア構成を示す図である。 学習データ生成装置のハードウェア構成を示す図である。 記憶装置を示す図である。 ニューラルネットワークモデルを示す図である。 学習データ生成処理の概要を示す図である。 学習データ生成装置の機能構成を示す図である。 学習データ生成処理の流れを示すフローチャートである。 類似画像削除処理の流れを示すフローチャートである。 類似画像削除処理を説明するための図である。 類似画像削除処理の流れを示すフローチャートである。 類似画像削除処理を説明するための図である。 類似画像削除処理を説明するための図である。 学習データ生成処理の流れを示すフローチャートである。 静止画像のグループ分けを説明するための図である。
本明細書および添付図面の記載により、少なくとも以下の事項が明らかとなる。以下、本発明をその一実施形態に即して添付図面を参照しつつ説明する。
[第1実施形態]
==全体構成==
図1に、本発明の一実施形態に係る学習データ生成装置200及びユーザ端末100を含む情報システム1000を示す。学習データ生成装置200及びユーザ端末100は、インターネットやLAN(Local Area Network)、電話網等のネットワーク500を通じて通信可能に接続されている。
学習データ生成装置200は、画像認識用のモデル(以下、画像認識モデル610、あるいは第1のニューラルネットワークモデル610とも記す)の学習を行うための学習データを生成するサーバやパソコン、クラウドコンピュータ等のコンピュータないしは情報処理装置である。
画像認識モデル610は、画像に写っている被写体が特定の認識対象であるか否かを画像データから判別するための判別式あるいは関数等の数式を含んで構成される。画像認識モデル610の学習が行われると、これらの数式の係数が調整され、画像認識の精度が変化する。
詳細は後述するが、本実施形態に係る学習データ生成装置200は、図6に示すように、人や物などの画像認識の対象が撮影された動画データ620に含まれる各フレームの静止画像621の中から冗長な静止画像630を取り除くことで、画像認識モデル610の学習を行うための学習データ640を効率的に生成する。
冗長な静止画像630は、例えば動画データ620に含まれる静止画像621中の互いに類似の静止画像621の中から選出される。詳細は後述するが、本実施形態では、各静止画像621の特徴量650を相互に比較することで動画データ620内の静止画像62
1の類似性(相違の程度)を判定し、冗長な静止画像630を特定する。
学習データ生成装置200は、動画データ620を用いて学習データ640を生成することにより、大量の学習用画像データを効率よく収集することができ、また動画データ620から冗長な静止画像630を取り除くことで、学習効率の高い良質の学習データ640を生成することができる。このため、認識精度の高い画像認識モデル610を効率良く構築することが可能となる。
図1に戻って、ユーザ端末100は、ユーザが使用するコンピュータであり、例えばスマートフォンや携帯電話機、ノートパソコン、タブレットなどの可搬型の情報処理装置や、各ユーザが職場や自宅等で使用するパソコン等の据え置き型の情報処理装置である。
ユーザがユーザ端末100を用いて動画データ620を学習データ生成装置200に送信すると、学習データ生成装置200からユーザ端末100に学習データ640が送信されてくる。そしてユーザは、ユーザ端末100あるいは不図示のコンピュータを用いて、この学習データ640により画像認識モデル610の学習を行う。
以下、詳細に説明する。
==ユーザ端末==
まずユーザ端末100について図2を参照しながら説明する。
ユーザ端末100のハードウェア構成図の一例を図2に示す。本実施形態に係るユーザ端末100は、CPU(Central Processing Unit)110、メモリ120、通信装置1
30、記憶装置140、入力装置150、出力装置160、及び記録媒体読取装置170を備えて構成されるスマートフォンやパソコンなどのコンピュータである。
記憶装置140は、ユーザ端末100によって実行あるいは処理されるユーザ端末制御プログラム710や動画データ620等の各種のデータを格納する。
記憶装置140に記憶されているユーザ端末制御プログラム710や各種のデータがメモリ120に読み出されてCPU110によって実行あるいは処理されることにより、ユーザ端末100の各種機能が実現される。例えばユーザ端末100は、動画データ620を学習データ生成装置200に送信する。
ここで、記憶装置140は例えばハードディスクやSSD(Solid State Drive)、フ
ラッシュメモリ等の不揮発性の記憶装置である。
またユーザ端末制御プログラム710は、本実施形態に係るユーザ端末100が有する各種機能を実現するためのプログラムを総称しており、例えば、ユーザ端末100上で動作するアプリケーションプログラムやOS(Operating System)、種々のライブラリ等を含む。
記録媒体読取装置170は、SDカードやDVD等の記録媒体800に記録された各種のプログラムやデータを読み取り、記憶装置140に格納する。
通信装置130は、ネットワーク500を介して、学習データ生成装置200や不図示の他のコンピュータと各種プログラムやデータの授受を行う。例えば他のコンピュータに上述したユーザ端末制御プログラム710や動画データ620を格納しておき、ユーザ端末100がこのコンピュータからユーザ端末制御プログラム710や動画データ620を
ダウンロードするようにすることができる。
入力装置150は、ユーザによるコマンドやデータの入力を受け付ける装置であり、各種ボタンやスイッチ、キーボード、タッチパネルディスプレイ上でのタッチ位置を検出するタッチセンサ、マイクなどの入力インタフェース、加速度センサ、温度センサ、GPS受信機やコンパスなどの位置検出センサ、カメラなどを含む。
また出力装置160は、例えばディスプレイなどの表示装置、スピーカ、バイブレータ、照明などの出力ユーザインタフェースである。
==学習データ生成装置==
学習データ生成装置200は、動画データ620から学習データ640を生成するコンピュータである。学習データ生成装置200は、図3に示す様に、CPU210、メモリ220、通信装置230、記憶装置240、入力装置250、出力装置260、及び記録媒体読取装置270を備えて構成される。これらの学習データ生成装置200のハードウェア構成は、ユーザ端末100のハードウェア構成と必ずしも同じではないものの、基本的な構成は共通である。そのため、これらのハードウェア構成についての重複した説明は省略する。
学習データ生成装置200の記憶装置240には、図4に示す様に、学習データ生成装置200によって実行される学習データ生成装置制御プログラム720や、ユーザ端末100から取得した動画データ620、ニューラルネットワークモデル600(以下、第2のニューラルネットワークモデル600とも記す)、学習データ640、特徴量650(ベクトルデータ651)等の各種のプログラムやデータが格納される。
記憶装置240に記憶されている学習データ生成装置制御プログラム720や動画データ620等の各種のデータがメモリ220に読み出されてCPU210によって実行あるいは処理されることにより、学習データ生成装置200の各種機能が実現される。
動画データ620は、画像認識対象が撮影されたデータである。動画データ620の仕様(規格やフレームレート、解像度、画面サイズ等)については、本実施形態では特に制約はなく、どのような仕様の動画データ620であっても良い。例えば動画データ620は、ユーザ端末100の動画撮影機能を用いて撮影された動画を記録したデータであっても良いし、不図示の動画撮影用カメラを用いて撮影された動画を記録したデータであっても良い。
ニューラルネットワークモデル600は、動画データ620内の各静止画像621の特徴量650を取得するために用いられる。本実施形態では、一例としてニューラルネットワークモデル600の種類はCNN(Convolution Neural Network)であり、図5に示す様に、中間層からベクトルデータ651を特徴量650として取り出すことができる。ニューラルネットワークモデル600は、動画データ620内の各静止画像621の類似性(相違の程度)に基づいて冗長な静止画像630を正しく特定できるように、静止画像621が類似している場合には類似したベクトルデータ651が出力されるように、予めある程度の学習が行われている。
なお本実施形態では、静止画像621の類似性は、比較対象の2つの静止画像621の各ベクトルデータ651のユークリッド距離を、後述する閾値A(所定の判定値)と比較することにより判定される。具体的には、2つの静止画像621の各ベクトルデータ651のユークリッド距離が閾値A以下である場合は、これらの静止画像621は類似であると判定する。
またニューラルネットワークモデル600は、中間層からベクトルデータ651(特徴量650)を取り出すことが可能なモデルであれば、RNN(Recurrent Neural Network)など他の種類のモデルでもよい。
ベクトルデータ651は、ニューラルネットワークモデル600を構成する複数の中間層のうちの、どの中間層から出力されるものでも良いが、出力層の直前の中間層ないしは直前付近の中間層から出力されるものの方が、認識対象の特徴がより明確に特徴量650として数値化されているため、好ましい。
以上のようにして、動画データ620内の各静止画像621の類似性を判定し、冗長な静止画像630を取り除くことにより学習データ640が生成され、図4に示す様に記憶装置240に記憶される。
<機能構成>
次に学習データ生成装置200の機能構成図の一例を図7に示す。本実施形態に係る学習データ生成装置200は、動画データ取得部201、及び学習データ生成部202の各機能を含む。
これらの各機能は、学習データ生成装置200のハードウェアによって本実施形態に係る学習データ生成装置制御プログラム720が実行されることにより実現される。
動画データ取得部201は、画像認識モデル610に認識させる人や物等の認識対象が撮影された動画データ620を取得する。なお動画データ取得部201は、動画データ620をユーザ端末100から取得するだけでなく、動画データ620が不図示の他のコンピュータに格納されている場合には、ユーザ端末100からの指示によってこのコンピュータから動画データ620を取得するようにしてもよい。
また上述したように、動画データ620の規格やフレームレート等の仕様については特に制約はなく、動画データ取得部201は様々な仕様の動画データ620を取得することができる。
学習データ生成部202は、動画データ620に含まれる各フレームの静止画像621の中から2つの静止画像621を選ぶ組み合わせ毎に、これら2つの静止画像621の相違の程度(類似性)を表す指標値を求め、これらの指標値を元に、動画データ620に含まれる静止画像621から冗長な静止画像630を取り除くことにより、学習データ640を生成する。
このような態様により、画像認識モデル610の学習を行うための良質な学習データ640を効率的に生成することができる。
なお学習データ生成部202は、上記指標値を求める際に、動画データ620に含まれる各静止画像621の特徴量650(本実施形態ではベクトルデータ651)を求め、上記各組み合わせ毎に、組み合わせを成す2つの静止画像621のそれぞれの特徴量650の差分を、上記指標値として求めるようにしても良い。
このような態様により、特徴量650の差分がより小さな2つの静止画像621は、お互いに相違の程度がより小さいと判定できるため、これらの静止画像621の両方あるいはいずれか一方を冗長な静止画像630として特定することが可能となる。これにより、冗長な静止画像630をより的確に特定することが可能となる。
なお静止画像621の特徴量650としては、ニューラルネットワークモデル600の中間層から取り出すことにより得られるベクトルデータ651の他にも、HOG特徴量やEOH特徴量、Haar−like特徴量、ピクセル差分特徴量、あるいはこれらの組み合わせ等、様々な特徴量650を採用することができる。これらのいずれの特徴量650であっても、特徴量650の差分がより小さな2つの静止画像621は、お互いに相違の程度がより小さいと判定できる。
また学習データ生成部202は、上述したように、動画データ620に含まれる各静止画像621をCNN等のニューラルネットワークモデル600に入力し、ニューラルネットワークモデル600内の中間層からの出力データを用いて、静止画像621の特徴量650としてベクトルデータ651を求めるようにしているが、このとき、画像認識モデル610及びニューラルネットワークモデル600を同一種類のニューラルネットワーク(本実施形態ではCNN)にしておくと、画像認識モデル610の特性とニューラルネットワークモデル600の特性が共通になるため、画像認識モデル610の特性に合った学習データ640を生成することが可能となる。これにより、画像認識モデル610の学習をより効率的に行うことが可能となる。
例えばCNNは、同一の物体が画面内で平行移動した位置に写っている2枚の静止画像が入力された場合、中間層から得られるこれらの静止画像の特徴量(ベクトルデータ)はほぼ等しくなる特性を持っているため、これらの物体が同一の物体であると正しく認識できるが、画面内で同一の物体を回転移動させた位置に写っている2枚の静止画像が入力された場合は、特徴量(ベクトルデータ)の差異が大きくなりやすいという特性を持っているため、異なる物体であると誤認識しやすい。
このため、ニューラルネットワークモデル600から出力されるベクトルデータ651がほぼ等しい2枚の静止画像621を学習データ640に残しても、画像認識モデル610はいずれの静止画像621からも正しく被写体を認識できてしまい、学習にはあまり寄与しないため、これらの静止画像621の少なくとも一方は冗長な静止画像630であるとして取り除いた方が好ましい。
逆に、ニューラルネットワークモデル600から出力されるベクトルデータ651の差異が大きな2枚の静止画像621(被写体が同一であるにもかかわらず、非同一と誤認識しやすい)を学習データ640に残しておくことにより、画像認識モデル610に対して、同一の被写体であることを学習させることができるため、好ましい。
なお学習データ生成部602は、動画データ620内の2つの静止画像621の各組み合わせの内、一の静止画像621と他の静止画像621との組み合わせの中に、2つの静止画像621の相違の程度(類似性)を表す指標値が所定の判定値(閾値A)以下となる組み合わせがある場合に、上記一の静止画像621を冗長な静止画像630として取り除く処理を、動画データ620に含まれる各静止画像621を順に上記一の静止画像621として繰り返し行うことにより、学習データ640を生成するようにすると良い。
例えば、図12に示す様に、5枚の静止画像(A、B、C、D、E)621があり、これらの静止画像621から選んだ2枚の静止画像621の相違の程度を表す指標値が図12に示される値である場合に(例えば静止画像AとBの指標値は70)、最初に静止画像A621を一の静止画像621として、他の静止画像(B、C、D、E)621との組み合わせの中に、指標値が判定値(例えば100)以下となる組み合わせがあるか否かを判定する。図12に示す例の場合、静止画像A621と静止画像B621との指標値が70(100以下)であるので、静止画像A621は取り除かれる。
つぎに、静止画像B621を一の静止画像621として、他の静止画像(C、D、E)621との組み合わせの中に、指標値が判定値(100)以下となる組み合わせがあるか否かを判定する。静止画像B621と静止画像C621との指標値が60であるので、静止画像B621も取り除かれる。
以下、順に静止画像C、D、E621を一の静止画像621として同様の処理を行う。これにより、静止画像C621は取り除かれるが、静止画像D、E621は取り除かれずに残る。そのため学習データ生成部602は、静止画像D、E621からなる学習データ640を生成する。
このような態様により、冗長な静止画像630を含まない学習データ640を生成することが可能となる。
図7に戻って、学習データ生成部602は、動画データ620内の2つの静止画像621の各組み合わせの中から、相違の程度を表す指標値が最小の第1の組み合わせを特定した上で、さらに、第1の組み合わせを成す2つの静止画像621のうちの一つを含む他の組み合わせの中で指標値が最小となる第2の組み合わせを特定し、第1の組み合わせと第2の組み合わせに共通する静止画像621を、冗長な静止画像630として取り除く処理を、指標値が所定の判定値以下となる組み合わせがなくなるまで繰り返し行うことにより、学習データ640を生成するようにしても良い。
再び図12の例で説明すると、学習データ生成部602は、まず、指標値が最小となる組み合わせ(第1の組み合わせ)として、静止画像B621及び静止画像E621の組み合わせ(指標値40)を特定する。この組み合わせは、図13(a)に示す、静止画像621の各組み合わせの指標値のリストのうち、「α」で示す組み合わせである。
このとき、学習データ生成部602は、静止画像B621を含む他の組み合わせと、静止画像E621を含む他の組み合わせと、の中で、指標値が最小となる組み合わせ(第2の組み合わせ)を特定する。図12に示す例では、静止画像B621を含む他の組み合わせで指標値が最小となるのは、静止画像B621と静止画像C621との組み合わせであり(指標値60)、静止画像E621を含む他の組み合わせで指標値が最小となるのは、静止画像E621と静止画像C621との組み合わせである(指標値90)。そのため、学習データ生成部602は、第2の組み合わせとして、指標値が最小の静止画像B621と静止画像C621との組み合わせを特定する。この組み合わせは、図13(a)に示す、静止画像621の各組み合わせの指標値のリストのうち、「β」で示す組み合わせである。
そして学習データ生成部602は、図13(a)において、第1の組み合わせ(α)と第2の組みわせ(β)に共通する静止画像B621を冗長な静止画像630として取り除く。
続いて、学習データ生成部602は、図13(b)に示すように、静止画像B621を取り除いた各組み合わせのうち、指標値が最小となる組み合わせ(第1の組み合わせ)として、静止画像C621及び静止画像D621の組み合わせ(指標値50)を特定する。そして学習データ生成部602は、第2の組み合わせとして、静止画像C621及び静止画像E621の組み合わせ(指標値90)を特定する。
そして学習データ生成部602は、第1の組み合わせ(α)と第2の組みわせ(β)に共通する静止画像C621を冗長な静止画像630として取り除く。
ここで図13(c)に示す様に、静止画像B621及び静止画像C621を取り除いた各組み合わせは、いずれの指標値も判定値(100)よりも大きい。
そのため、学習データ生成部602は、静止画像A、D、E621からなる学習データ640を生成する。
このように、動画データ620内の静止画像621の相違の程度が最小の静止画像621を優先的に削除することにより、より適切に、冗長な静止画像630を含まない学習データ640を生成することができる。
==処理の流れ==
次に、本実施形態に係る情報システム1000による処理の流れを、図8〜図15を参照しながら説明する。
まず学習データ生成装置200は、画像認識の対象が撮影されている動画データ620を取得する(S1000)。学習データ生成装置200は、ユーザ端末100から動画データ
620を取得しても良いし、ユーザ端末100からの指示により不図示の他のコンピュータから取得しても良い。
そして学習データ生成装置200は、動画データ620から、各フレームの静止画像621を抽出する(S1010)。例えば学習データ生成装置200は、フレームレートが30fpsの5分間の動画データ620から9000(30×60×5)枚の静止画像621を抽出する。
つぎに学習データ生成装置200は、各静止画像621をニューラルネットワークモデル600に入力し、それぞれのベクトルデータ651を求める(S1020)。
そして学習データ生成装置200は、閾値A(上述した所定の判定値)を求める(S1030)。閾値Aは、動画データ620内の静止画像621から選んだ2枚の静止画像621
の類似性(相違の程度)を判定する際の判定値である。本実施形態では、2枚の静止画像621の各ベクトルデータ651の差分のノルム(例えば各ベクトルデータ651のユークリッド距離)が閾値A以下である場合に、これら2枚の静止画像621は類似していると判定される。
なお、閾値Aは、各静止画像621のベクトルデータ651を元に決めると良い。例えば学習データ生成装置200は、各ベクトルデータ651のL2ノルムの平均値を閾値Aとして求めると良い。この理由の一つは、ニューラルネットワークモデル600が静止画像621に写っている認識対象をうまく認識できる程、ベクトルデータ651すなわち特徴量650の大きさ(L2ノルム)の値が大きくなるからである。
つまり、例えばニューラルネットワークモデル600の学習が適切になされていれば、認識対象である物体Xが静止画像621に写っている場合のベクトルデータ651は、物体Xが静止画像621に写っていない場合のベクトルデータ651よりも大きな値になるはずだからである(こうなるように学習がなされる)。
なお、閾値Aの値を大きくすると、類似と判断される静止画像621の枚数が増加するため、動画データ620から冗長な静止画像630として取り除かれる静止画像621の枚数が増加し、学習データ640のデータ量が減少する。逆に、閾値Aの値を小さくすると、類似と判断される静止画像621の枚数が減少するため、動画データ620から冗長
な静止画像630として取り除かれる静止画像621の枚数が減少し、学習データ640のデータ量が増加する。
このため、学習データ640に含まれる静止画像の枚数、あるいは冗長な静止画像630として取り除く静止画像621の枚数に応じて、閾値Aを調整するとなおよい。このような態様により、学習データ640のデータサイズを適切に調整することが可能となる。
つぎに、学習データ生成装置200は、類似画像削除処理を実行する(S1040)。これ
により動画データ620から冗長な静止画像630を取り除くことができる。
類似画像削除処理は、図10に示す様に、動画データ620内の2つの静止画像621の各組み合わせの内、一の静止画像621(図10において符号iが付された静止画像6
21)と他の静止画像621(図10において符号j,j+1,…,MAXが付された静止画像621)との組み合わせの中に、2つの静止画像621の相違の程度を表す指標値が所定の判定値(閾値A)以下となる組み合わせがある場合に、上記一の静止画像621を冗長な静止画像630として取り除く処理を、動画データ620に含まれる各静止画像621を順に上記一の静止画像621として繰り返し行うことにより、学習データ640を生成するようにする処理である。
類似画像削除処理の流れを、図9のフローチャートを参照しながら説明すると、まず学習データ生成装置200は、制御変数として、i=1、j=i+1を設定する(S2000、S2010)。制御変数iは一の静止画像621を示し、制御変数jは他の静止画像621を示す。
つぎに学習データ生成装置200は、i番目の静止画像621とj番目の静止画像621のそれぞれのベクトルデータ651の差分のノルムを算出する(S2020)。具体的には各
ベクトルデータ651のユークリッド距離を算出する。
これらのノルム(ユークリッド距離)が閾値A以下である場合には(S2030においてYES)、学習データ生成装置200は、i番目の静止画像621がj番目の静止画像621と類似であると判定し、i番目の静止画像621を削除する(S2060)。
一方、これらのノルムが閾値A以下でなければ(S2030においてNO)、学習データ生成
装置200は、制御変数jに1を加えて(S2040)、i番目の静止画像621と次のj番目の
静止画像621との間で同様の処理を行う(S2020、S2030)。
ただし、S2040において制御変数jに1を加えた結果、jがMAXを超えた場合には、全ての
静止画像621との比較を終えたので、学習データ生成装置200は、iに1を加える(S2070)。
そして学習データ生成装置200は、iがMAXを超えるまで(S2080)、i番目の静止画像621及びj番目の静止画像621のユークリッド距離と、閾値Aと、の比較を行い、ユ
ークリッド距離が閾値Aよりも小さい場合にi番目の静止画像621を削除する処理を繰
り返し行う。
図8に戻って、このようにして学習データ生成装置200は動画データ620から冗長な静止画像630を取り除くことで、学習データ640を生成する(S1050)。
このような態様によって、画像認識モデル610の学習を行うための学習データ640を効率的に生成することができる。
なお学習データ生成装置200は、類似画像削除処理を、図11のフローチャートに示す様な手順で行うことも可能である。
この場合、学習データ生成装置200は、動画データ620内の2つの静止画像621の各組み合わせの中から、相違の程度を表す指標値が最小の第1の組み合わせ(図13に示したαで示す組み合わせ)を特定した上で、さらに、第1の組み合わせを成す2つの静止画像621のうちの一つを含む他の組み合わせの中で指標値が最小となる第2の組み合わせ(図13に示したβで示す組み合わせ)を特定し、第1の組み合わせ(α)と第2の組み合わせ(β)に共通する静止画像621を、冗長な静止画像630として取り除く処理を、指標値が所定の判定値以下となる組み合わせがなくなるまで繰り返し行う。
図11において、学習データ生成装置200は、まず、動画データ620内の静止画像621から2枚の静止画像621を選ぶ各組み合わせについて、各静止画像621のベクトルデータ651の差分のノルム(例えば各ベクトルデータ651のユークリッド距離)を計算する(S3000)。
そして学習データ生成装置200は、ノルムが閾値A以下となる組み合わせがない場合には(S3000においてNO)、処理を終了して図8のS1050に進み、学習データを出力する。
一方、S3010においてノルムが閾値A以下となる組み合わせがあった場合には、学習デ
ータ生成装置200は、それらの組み合わせの中でノルムが最小の組み合わせ(上述した例でαで示した組み合わせ)を特定する(S3020)。
次に学習データ生成装置200は、この組み合わせ(α)を成す2つの静止画像621のうちの一つを含む他の組み合わせのうち、指標値が最小となる組み合わせ(上述したβで示した組み合わせ)を特定する(S3030)。
そして学習データ生成装置200は、これらの組み合わせ(α、β)に共通する静止画像621を冗長な静止画像630として削除する(S3040)。
以下、学習データ生成装置200は、ノルムが閾値A以下となる組み合わせがなくなるまで(S3000においてNO)、S3020〜S3040の処理を繰り返す。
このような態様により、学習データ生成装置200は、より適切に冗長な静止画像630を含まない学習データ640を生成することが可能となる。
[第2実施形態]
なお、学習データ生成装置200は、図14及び図15に示すような態様で処理を行っても良い。
本実施形態では、学習データ生成装置200は、動画データ620に含まれる静止画像621を時系列順に複数のグループに分け、第1実施形態で説明した冗長な静止画像630を取り除く処理をグループ単位に行う。図15に、動画データ620に含まれる静止画像621をN個のグループに分ける様子を示す。
そして学習データ生成装置200は、グループ単位に冗長な静止画像630を取り除く処理を行うことにより中間データを生成した後に、この中間データの全体に対してさらに第1実施形態で説明した冗長な静止画像630を取り除く処理を行う。このようにして学習データ生成装置200は学習データ640を生成する。
このような態様により、動画データ620から2枚の静止画像621を選ぶ組み合わせの数を減らすことができるので、学習データ640を生成するための処理時間を短縮することが可能となる。
また各グループ内の静止画像621は、撮影されたタイミングが相互に時間的に近いため、類似である可能性が高い。そのため、本実施形態のように、一旦グループ内で各静止画像621の類似性を判断することで、効率よく冗長な静止画像630を取り除くことが可能となる。
図14のフローチャートに沿って本実施形態に係る処理の流れを説明する。
まず学習データ生成装置200は、画像認識の対象が撮影されている動画データ620を取得する(S4000)。
そして学習データ生成装置200は、動画データ620から、各フレームの静止画像621を抽出し(S4010)、各静止画像621をニューラルネットワークモデル600に入
力し、それぞれのベクトルデータ651を求める(S4020)。そして学習データ生成装置
200は、閾値Aを求める(S4030)。以上の処理は、第1実施形態と同様である。
学習データ生成装置200は、各静止画像621を時系列順にN個のグループに分割する(S4040)。
そして学習データ生成装置200は、グループ単位に類似画像削除処理(冗長な静止画像630を取り除く処理)を行うことにより中間データを生成する(S4050)。
学習データ生成装置200は、この中間データの全体に対してさらに類似画像削除処理を行う(S4060)。
そして学習データ生成装置200は、学習データ640を生成する(S4070)。その後
学習データ生成装置200は、学習データ640をユーザ端末100に送信する。
このような態様により、学習データ640を生成するための処理時間をさらに短縮することが可能となる。
以上、学習データ640の生成方法、学習データ生成装置200及びプログラムについて説明したが、上述した実施の形態は本発明の理解を容易にするためのものであり、本発明を限定して解釈するためのものではない。本発明はその趣旨を逸脱することなく変更、改良され得るとともに、本発明にはその等価物も含まれる。
例えば上記実施形態では、学習データ生成装置200が学習データ640を生成後、この学習データ640をユーザ端末100に送信する場合を例示したが、画像認識モデル610を記憶している不図示のコンピュータに学習データ640を送信するようにしても良い。このような態様により、ユーザ端末100が、画像認識モデル610を記憶している不図示のコンピュータに学習データ640を送信する手間を省くことができ、画像認識モデル610の学習を行う際の作業効率を向上させることが可能となる。
あるいは、学習データ生成装置200が画像認識モデル610を記憶するようにしておき、学習データ生成装置200が自ら画像認識モデル610の学習を行うようにしても良い。このような態様により、学習データ生成装置200が学習データ640をユーザ端末100や他のコンピュータに送信することが不要になるので、画像認識モデル610の学
習を行う際の作業効率をさらに向上させることが可能となる。
また上記実施形態では、画像認識モデル610とは別に用意したニューラルネットワークモデル600に、動画データ620内の各静止画像621を入力してベクトルデータ651を取得する場合を説明したが、ニューラルネットワークモデル600を用いずに、画像認識モデル610に動画データ620の各静止画像621を入力し、画像認識モデル610の中間層からベクトルデータ651を取得するようにしても良い。
この場合、学習が未完了の状態の画像認識モデル610を用いてベクトルデータ651を取得し、このベクトルデータ651を用いて動画データ620から冗長な静止画像630を取り除くことになるが、機械学習に用いられる画像認識モデル610は、多くの場合、ある程度の精度で一般的な物体についての画像認識が可能な程度に学習済みの状態で配布されているため、このような画像認識モデル610を用いるようにすれば、ニューラルネットワークモデル600を用いずにベクトルデータ651を取得することができる。このような態様により、ニューラルネットワークモデル600を別途利用する場合に必要となる様々な設定作業等の手間が省けるので、学習データ640を作成する際の作業者の負担軽減を図ることが可能となる。
なお、本実施形態における学習データの生成方法において、コンピュータが、前記学習データを生成する処理において、前記動画データに含まれる各静止画像の特徴量を求め、前記各組み合わせ毎に、前記組み合わせを成す2つの静止画像の前記特徴量の差分を前記指標値として求める、としてもよい。
これによれば、冗長な静止画像をより的確に特定することが可能となる。
また、本実施形態における学習データの生成方法において、前記画像認識用のモデルは、第1のニューラルネットワークモデルであり、前記コンピュータが、前記学習データを生成する処理において、前記第1のニューラルネットワークモデルと同じ種類の第2のニューラルネットワークモデルに前記動画データに含まれる各静止画像を入力し、前記第2のニューラルネットワークモデル内の中間層からの出力データを用いて前記特徴量を求める、としてもよい。
これによれば、モデルの特性に合った学習データを得ることが可能となる。
また、本実施形態における学習データの生成方法において、前記コンピュータが、前記学習データを生成する処理において、一の静止画像と他の静止画像との前記組み合わせの中に、前記指標値が所定の判定値以下となる組み合わせがある場合に、前記一の静止画像を前記冗長な静止画像として取り除く処理を、前記動画データに含まれる各静止画像を順に前記一の静止画像として繰り返し行うことにより、前記学習データを生成する、としてもよい。
これによれば、冗長な静止画像を含まない学習データを生成することが可能となる。
また、本実施形態における学習データの生成方法において、前記コンピュータが、前記学習データを生成する処理において、前記各組み合わせの中から、前記指標値が最小の第1の組み合わせを特定した上で、さらに、前記第1の組み合わせを成す2つの静止画像のうちの一つを含む他の組み合わせの中で前記指標値が最小の第2の組み合わせを特定し、前記第1の組み合わせと前記第2の組み合わせに共通する静止画像を、前記冗長な静止画像として取り除く処理を、前記指標値が所定の判定値以下となる組み合わせがなくなるまで繰り返し行うことにより、前記学習データを生成する、としてもよい。
これによれば、より適切に、冗長な静止画像を含まない学習データを生成することが可能となる。
また、本実施形態における学習データの生成方法において、前記コンピュータが、前記学習データを生成する処理において、前記動画データに含まれる静止画像を時系列順に複数のグループに分け、前記グループ単位に、前記冗長な静止画像を取り除く処理を行うことにより中間データを生成した後に、前記中間データの全体に対してさらに前記冗長な静止画像を取り除く処理を行うことにより、前記学習データを生成する、としてもよい。
これによれば、学習データをより短時間に生成することが可能となる。
100 ユーザ端末
110 CPU
120 メモリ
130 通信装置
140 記憶装置
150 入力装置
160 出力装置
170 記録媒体読取装置
200 学習データ生成装置
201 動画データ取得部
202 学習データ生成部
210 CPU
220 メモリ
230 通信装置
240 記憶装置
250 入力装置
260 出力装置
270 記録媒体読取装置
500 ネットワーク
600 ニューラルネットワークモデル
610 画像認識モデル
620 動画データ
621 静止画像
630 冗長な静止画像
640 学習データ
650 特徴量
651 ベクトルデータ
710 ユーザ端末制御プログラム
720 学習データ生成装置制御プログラム
800 記録媒体
1000 情報システム

Claims (8)

  1. 画像認識用のモデルの学習を行うための学習データの生成方法であって、
    コンピュータが、
    前記画像認識の対象が撮影されている動画データを取得する処理と、
    前記動画データに含まれる各フレームの静止画像の中から2つの静止画像を選ぶ組み合わせ毎に、前記2つの静止画像の相違の程度を表す指標値を求め、前記指標値を元に、前記動画データに含まれる静止画像から冗長な静止画像を取り除くことにより、前記学習データを生成する処理と、
    を実行する、学習データの生成方法。
  2. 請求項1に記載の学習データの生成方法であって、
    前記コンピュータが、前記学習データを生成する処理において、前記動画データに含まれる各静止画像の特徴量を求め、前記各組み合わせ毎に、前記組み合わせを成す2つの静止画像の前記特徴量の差分を前記指標値として求める、学習データの生成方法。
  3. 請求項2に記載の学習データの生成方法であって、
    前記画像認識用のモデルは、第1のニューラルネットワークモデルであり、
    前記コンピュータが、前記学習データを生成する処理において、前記第1のニューラルネットワークモデルと同じ種類の第2のニューラルネットワークモデルに前記動画データに含まれる各静止画像を入力し、前記第2のニューラルネットワークモデル内の中間層からの出力データを用いて前記特徴量を求める、学習データの生成方法。
  4. 請求項1に記載の学習データの生成方法であって、
    前記コンピュータが、前記学習データを生成する処理において、一の静止画像と他の静止画像との前記組み合わせの中に、前記指標値が所定の判定値以下となる組み合わせがある場合に、前記一の静止画像を前記冗長な静止画像として取り除く処理を、前記動画データに含まれる各静止画像を順に前記一の静止画像として繰り返し行うことにより、前記学習データを生成する、学習データの生成方法。
  5. 請求項1に記載の学習データの生成方法であって、
    前記コンピュータが、前記学習データを生成する処理において、前記各組み合わせの中から、前記指標値が最小の第1の組み合わせを特定した上で、さらに、前記第1の組み合わせを成す2つの静止画像のうちの一つを含む他の組み合わせの中で前記指標値が最小の第2の組み合わせを特定し、前記第1の組み合わせと前記第2の組み合わせに共通する静止画像を、前記冗長な静止画像として取り除く処理を、前記指標値が所定の判定値以下となる組み合わせがなくなるまで繰り返し行うことにより、前記学習データを生成する、学習データの生成方法。
  6. 請求項1に記載の学習データの生成方法であって、
    前記コンピュータが、前記学習データを生成する処理において、前記動画データに含まれる静止画像を時系列順に複数のグループに分け、前記グループ単位に、前記冗長な静止画像を取り除く処理を行うことにより中間データを生成した後に、前記中間データの全体に対してさらに前記冗長な静止画像を取り除く処理を行うことにより、前記学習データを生成する、学習データの生成方法。
  7. 画像認識用のモデルの学習を行うための学習データを生成する学習データ生成装置であって、
    前記画像認識の対象が撮影されている動画データを取得する動画データ取得部と、
    前記動画データに含まれる各フレームの静止画像の中から2つの静止画像を選ぶ組み合
    わせ毎に、前記2つの静止画像の相違の程度を表す指標値を求め、前記指標値を元に、前記動画データに含まれる静止画像から冗長な静止画像を取り除くことにより、前記学習データを生成する学習データ生成部と、
    を備える、学習データ生成装置。
  8. 画像認識用のモデルの学習を行うための学習データを生成するコンピュータに、
    前記画像認識の対象が撮影されている動画データを取得する手順と、
    前記動画データに含まれる各フレームの静止画像の中から2つの静止画像を選ぶ組み合わせ毎に、前記2つの静止画像の相違の程度を表す指標値を求め、前記指標値を元に、前記動画データに含まれる静止画像から冗長な静止画像を取り除くことにより、前記学習データを生成する手順と、
    を実行させるためのプログラム。
JP2019028270A 2019-02-20 2019-02-20 学習データの生成方法、学習データ生成装置及びプログラム Active JP7168485B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019028270A JP7168485B2 (ja) 2019-02-20 2019-02-20 学習データの生成方法、学習データ生成装置及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019028270A JP7168485B2 (ja) 2019-02-20 2019-02-20 学習データの生成方法、学習データ生成装置及びプログラム

Publications (2)

Publication Number Publication Date
JP2020135432A true JP2020135432A (ja) 2020-08-31
JP7168485B2 JP7168485B2 (ja) 2022-11-09

Family

ID=72263191

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019028270A Active JP7168485B2 (ja) 2019-02-20 2019-02-20 学習データの生成方法、学習データ生成装置及びプログラム

Country Status (1)

Country Link
JP (1) JP7168485B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113034347A (zh) * 2021-03-23 2021-06-25 广东南方数码科技股份有限公司 倾斜摄影图像处理方法、装置、处理设备及存储介质
WO2022264677A1 (ja) * 2021-06-16 2022-12-22 パナソニックIpマネジメント株式会社 学習データ生成システム、学習データ生成方法、及びプログラム

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03196277A (ja) * 1989-12-25 1991-08-27 Takayama:Kk データ処理装置のための特徴データ選択方法
JPWO2008041401A1 (ja) * 2006-10-02 2010-02-04 オリンパス株式会社 画像処理装置、画像処理方法、および画像処理プログラム
JP2011008676A (ja) * 2009-06-29 2011-01-13 Olympus Corp 画像抽出装置、画像抽出方法および画像抽出プログラム
JP2017062781A (ja) * 2015-09-22 2017-03-30 ゼロックス コーポレイションXerox Corporation 深層cnnプーリング層を特徴として用いる、類似度に基づく重要な対象の検知
JP2017224184A (ja) * 2016-06-16 2017-12-21 株式会社日立製作所 機械学習装置
JPWO2017109854A1 (ja) * 2015-12-22 2018-10-11 オリンパス株式会社 学習画像自動選別装置、学習画像自動選別方法および学習画像自動選別プログラム
JP2018200531A (ja) * 2017-05-26 2018-12-20 富士通株式会社 教師データ生成装置、教師データ生成方法、教師データ生成プログラム、及び物体検出システム

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008041401A (ja) 2006-08-04 2008-02-21 Toshiba Corp 燃料電池
JP6087417B1 (ja) 2015-12-18 2017-03-01 株式会社不二鉄工所 繰出装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03196277A (ja) * 1989-12-25 1991-08-27 Takayama:Kk データ処理装置のための特徴データ選択方法
JPWO2008041401A1 (ja) * 2006-10-02 2010-02-04 オリンパス株式会社 画像処理装置、画像処理方法、および画像処理プログラム
JP2011008676A (ja) * 2009-06-29 2011-01-13 Olympus Corp 画像抽出装置、画像抽出方法および画像抽出プログラム
JP2017062781A (ja) * 2015-09-22 2017-03-30 ゼロックス コーポレイションXerox Corporation 深層cnnプーリング層を特徴として用いる、類似度に基づく重要な対象の検知
JPWO2017109854A1 (ja) * 2015-12-22 2018-10-11 オリンパス株式会社 学習画像自動選別装置、学習画像自動選別方法および学習画像自動選別プログラム
JP2017224184A (ja) * 2016-06-16 2017-12-21 株式会社日立製作所 機械学習装置
JP2018200531A (ja) * 2017-05-26 2018-12-20 富士通株式会社 教師データ生成装置、教師データ生成方法、教師データ生成プログラム、及び物体検出システム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
福井 宏 ほか: "Deep Learningを用いた歩行者検出の研究動向", 電子情報通信学会技術研究報告 パターン認識・メディア理解, vol. 116, no. 366, JPN6022027876, 8 December 2016 (2016-12-08), pages 37 - 46, ISSN: 0004817552 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113034347A (zh) * 2021-03-23 2021-06-25 广东南方数码科技股份有限公司 倾斜摄影图像处理方法、装置、处理设备及存储介质
CN113034347B (zh) * 2021-03-23 2023-07-25 广东南方数码科技股份有限公司 倾斜摄影图像处理方法、装置、处理设备及存储介质
WO2022264677A1 (ja) * 2021-06-16 2022-12-22 パナソニックIpマネジメント株式会社 学習データ生成システム、学習データ生成方法、及びプログラム

Also Published As

Publication number Publication date
JP7168485B2 (ja) 2022-11-09

Similar Documents

Publication Publication Date Title
KR102433834B1 (ko) 신경망 모델을 압축하는 방법 및 장치, 코퍼스 번역 방법 및 장치, 전자 장치, 프로그램 및 기록 매체
CN110532984B (zh) 关键点检测方法、手势识别方法、装置及***
CN109697434B (zh) 一种行为识别方法、装置和存储介质
CN106934376B (zh) 一种图像识别方法、装置及移动终端
CN110276406B (zh) 表情分类方法、装置、计算机设备及存储介质
US10387804B2 (en) Implementations of, and methods of use for a pattern memory engine applying associative pattern memory for pattern recognition
US11704563B2 (en) Classifying time series image data
KR102663375B1 (ko) 음성 및 영상 자동 포커싱 방법 및 장치
CN112183166A (zh) 确定训练样本的方法、装置和电子设备
JP2019086475A (ja) 学習プログラム、検出プログラム、学習方法、検出方法、学習装置および検出装置
JP7168485B2 (ja) 学習データの生成方法、学習データ生成装置及びプログラム
US20230316809A1 (en) Facial Emotion Recognition System
KR102274581B1 (ko) 개인화된 hrtf 생성 방법
WO2021200392A1 (ja) データ調整システム、データ調整装置、データ調整方法、端末装置及び情報処理装置
JP5436142B2 (ja) 画像処理装置、画像処理システムおよび画像処理装置の制御方法
JP7205646B2 (ja) 出力方法、出力プログラム、および出力装置
WO2018211602A1 (ja) 学習装置、推定装置、学習方法及びプログラム
JP6926279B1 (ja) 学習装置、認識装置、学習方法、認識方法、プログラム、及び再帰型ニューラルネットワーク
US20200387715A1 (en) Information processing apparatus, method for information processing, and storage medium
JP2019086473A (ja) 学習プログラム、検出プログラム、学習方法、検出方法、学習装置および検出装置
Vandana et al. Neural network based biometric attendance system
KR102563522B1 (ko) 사용자의 얼굴을 인식하는 장치, 방법 및 컴퓨터 프로그램
KR102251858B1 (ko) 딥러닝 기반의 영상분석 방법, 시스템 및 휴대 단말
JP2021197615A (ja) 画像選択方法、情報処理装置、プログラム、及び情報処理システム
KR102443330B1 (ko) 치아 기반 개인 식별 장치 및 방법

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210624

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220531

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220705

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220707

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20221025

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20221027

R150 Certificate of patent or registration of utility model

Ref document number: 7168485

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150