JP7455598B2

JP7455598B2 - 画像処理装置、アノテーション処理装置、画像処理方法、アノテーション処理方法、画像処理プログラム

Info

Publication number: JP7455598B2
Application number: JP2020017074A
Authority: JP
Inventors: 君孝村下; 浩山田
Original assignee: Denso Ten Ltd
Current assignee: Denso Ten Ltd
Priority date: 2020-02-04
Filing date: 2020-02-04
Publication date: 2024-03-26
Anticipated expiration: 2040-02-04
Also published as: JP2021124882A

Description

本発明は、画像処理装置、アノテーション処理装置、画像処理方法、アノテーション処理方法、画像処理プログラムに関する。

コンピュータ等により、画像に対して、画像中に現れる物体等の位置及び名称を特定する処理を行うことが求められている。当該処理には、例えば、機械学習によって生成された学習済み推定モデルが使用される。当該モデルを学習させるには、画像と当該画像中の物体等の位置及び名称とを対応付けた教師データを大量に用意することが求められる。

特開２００７－３１６８３９号公報特開２００６－２３４４９２号公報

画像と当該画像中の所定の物体の位置（範囲）及び名称とを対応付ける処理をアノテーション処理という。物体の位置は、例えば、画像中の物体を包含する長方形の角の位置によって表される。アノテーション処理を効率化するために、動画像の１フレームの画像について、手動でアノテーション処理を行い、他のフレームをオートアノテーションツール（ＣＶＡＴ（Computer Vision Annotation Tool）、ＶｏＴＴ（Visual Object Tagging Tool））などにより、自動でアノテーション処理を行う手法がある。これにより、画像と
当該画像中の物体等の位置及び名称とを対応付けた教師データを大量に用意することができる。しかし、この手法では、手動でアノテーション処理を行ったフレームから離れるにつれて、誤差が累積し、画像における物体の位置と検出した物体の位置とが徐々にずれていくという問題がある。画像における物体の位置と検出した物体の位置とがずれた教師データで機械学習すると、学習済みモデルの質が低くなるおそれがある。動画像の各フレームの画像について自動で適切なアノテーション処理を行うには、高精度な自動アノテーション処理が可能となる動画像の区間を適切に選択することが好ましい。

本発明は、動画像から物体を追跡しやすい動画像の区間を抽出できる技術を提供することを目的とする。

上記課題を解決するために、以下の手段を採用する。
即ち、第１の態様は、
画像中に現れる物体の位置及び名称を特定する処理を行う画像処理装置であって、
移動体に取り付けられたカメラで撮影された動画像と、前記動画像に対応付けられている前記移動体の走行情報とを格納する記憶部と、
前記走行情報に基づいて、前記動画像から、前記移動体が所定走行状態である期間の、前記動画像の区間を、前記画像中に現れる物体の位置及び名称を特定する処理を行うために抽出する画像処理部と、
を備える画像処理装置とする。

開示の態様は、プログラムが情報処理装置によって実行されることによって実現されてもよい。即ち、開示の構成は、上記した態様における各手段が実行する処理を、情報処理装置に対して実行させるためのプログラム、或いは当該プログラムを記録したコンピュー
タ読み取り可能な記録媒体として特定することができる。また、開示の構成は、上記した各手段が実行する処理を情報処理装置が実行する方法をもって特定されてもよい。開示の構成は、上記した各手段が実行する処理を行う情報処理装置を含むシステムとして特定されてもよい。

本発明によれば、動画像から物体を追跡しやすい動画像の区間を抽出できる技術を提供することができる。

図１は、実施形態の画像処理装置の構成例を示す図である。図２は、情報処理装置のハードウェア構成例を示す図である。図３は、実施形態の画像処理装置の動作フローの例を示す図である。図４は、静止物の追跡の例を示す図である。

以下、図面を参照して実施形態について説明する。実施形態の構成は例示であり、発明の構成は、開示の実施形態の具体的構成に限定されない。発明の実施にあたって、実施形態に応じた具体的構成が適宜採用されてもよい。

〔実施形態〕
（構成例）
図１は、本実施形態の画像処理装置の構成例を示す図である。画像処理装置１００は、画像処理部１０２、入力部１０４、出力部１０６、通信部１０８、記憶部１１０を有する。画像処理装置１００は、車両等に搭載されるカメラで撮影された動画像と、当該動画像が撮影された際の車両の走行状態を示す走行情報とを対応付けて記憶部１１０に格納している。車両は移動体の一例である。車両の走行情報には、車両の操舵角を示す操舵情報や車両の速度を示す速度情報が含まれる。当該動画像と走行情報とは、通信部１０８により、車両や他の情報処理装置等から通信ネットワーク等を介して取得される。画像処理装置１００は、記憶部１１０に格納される動画像から、自動でアノテーション処理を行うのに適した動画像の区間を抽出する。画像処理装置１００は、車両の走行情報に基づいて、当該動画像の区間を抽出する。画像処理装置１００は、抽出された動画像の区間に含まれるフレームの画像について、画像に含まれる物体についてアノテーション処理を行う。物体には、例えば、標識、車両、建物などの人工物、植物、地形、岩、動物などの自然物等が含まれ得る。アノテーション処理は、画像と当該画像中の所定の物体の位置（範囲）及び名称とを対応付ける処理である。画像処理装置１００は、画像と画像中の物体の位置（範囲）及び名称とを対応付けて、記憶部１１０に格納する。物体の名称は、物体の状態、性質などの物体に関連する情報であってもよい。アノテーション処理された画像と物体の位置及び名称とは、アノテーション処理を行う学習済み推定モデルの機械学習における教師データとして使用され得る。

画像処理部１０２は、記憶部１１０に格納される動画像と当該動画像に対応付けられる車両の走行情報とを取得する。画像処理部１０２は、車両の走行情報に基づいて、車両が所定の走行状態の際に撮影された動画像を抽出する。画像処理部１０２は、利用者等に、抽出された動画像に含まれる１フレームの画像中の物体の位置（範囲）及び名称を入力部１０４により入力させる。物体の位置は、例えば、物体を含む長方形（の各頂点の位置の座標）で特定される。画像処理部１０２は、入力されたフレームの画像中の物体の範囲に含まれる特徴点を抽出する。画像処理部１０２は、他のフレームの画像について、抽出した特徴点を追跡し、各物体の特徴点の移動ベクトル（画像内で移動する方向と大きさを示すベクトル）を算出する。画像処理部１０２は、各物体の特徴点の移動ベクトルに基づい
て、静止物（静止している物体）または直進移動物（直進移動している物体）であるかを判定する。画像処理部１０２は、静止物または直進移動物と判定された物体について、追跡を行う。画像処理部１０２は、追跡に基づいて、アノテーション処理を行い、他のフレームの画像中の物体の位置及び名称を記憶部１１０に格納する。画像処理部１０２は、出力部１０６に他のフレームの画像及び当該画像に含まれる物体の位置及び名称を表示し、利用者等に確認結果を入力部１０４より入力させる。

入力部１０４は、利用者等による情報の入力を受け付ける入力手段である。入力部１０４は、キーボード、ポインティングデバイス等の入力装置である。入力部１０４は、利用者による、出力部１０６に表示される画像に含まれる物体の位置（範囲）及び名称の入力を受け付ける。また、入力部１０４は、出力部１０６に表示されるアノテーション処理の結果の確認結果の入力を受け付ける。

出力部１０６は、利用者等に対する情報の表示等の出力を行う出力手段である。出力部１０６は、例えば、ディスプレイ等の表示装置である。出力部１０６は、動画像のフレームの画像、アノテーション結果である、画像と画像に含まれる物体の位置及び名称とを表示する。

通信部１０８は、通信ネットワーク等を介して他の情報処理装置などと通信をする通信インタフェースである。通信部１０８は、他の情報処理装置などから、動画像及び走行情報を受信し、記憶部１１０に格納する。

記憶部１１０は、車両等に搭載されたカメラで撮影された動画像と当該車両等の走行状態を示す走行情報とを対応付けて格納する。動画像は、複数のフレームの静止画像（画像）の集合体である。記憶部１１０に格納される動画像は、車両に搭載されるカメラによって撮影された動画像である。車両に搭載されるカメラは、例えば、車両の前方に固定して設置され、車両の走行方向（前方向）に向けられている。動画像に対応付けられる走行情報は、車両のＣＡＮ（Control Area Network）等により車両の制御システム等から取得された操舵角や速度等の情報である。例えば、動画像に付加された時刻情報と、車両情報に付加された時刻情報とが対応付けられることにより、動画像が撮影された際の走行状態が認識され得る。また、記憶部１１０は、アノテーション結果である、画像と画像に含まれる物体の位置及び名称とを対応付けて格納する。車両の走行情報には、カメラの撮影方向の情報が含まれていてもよい。カメラの撮影方向の情報は、画像内のエピポーラ拘束線等を求める際に使用され得る。

図２は、情報処理装置のハードウェア構成例を示す図である。図２に示す情報処理装置は、一般的なコンピュータの構成を有している。画像処理装置１００は、図２に示すような情報処理装置９０によって実現される。図２の情報処理装置９０は、プロセッサ９１、メモリ９２、記憶部９３、入力部９４、出力部９５、通信制御部９６を有する。これらは、互いにバスによって接続される。メモリ９２及び記憶部９３は、コンピュータ読み取り可能な記録媒体である。コンピュータのハードウェア構成は、図２に示される例に限らず、適宜構成要素の省略、置換、追加が行われてもよい。

情報処理装置９０は、プロセッサ９１が記録媒体に記憶されたプログラムをメモリ９２の作業領域にロードして実行し、プログラムの実行を通じて各構成部等が制御されることによって、所定の目的に合致した機能を実現することができる。

プロセッサ９１は、例えば、ＣＰＵ（Central Processing Unit）やＤＳＰ（Digital Signal Processor）である。

メモリ９２は、例えば、ＲＡＭ（Random Access Memory）やＲＯＭ（Read Only Memory）を含む。メモリ９２は、主記憶装置とも呼ばれる。

記憶部９３は、例えば、ＥＰＲＯＭ（Erasable Programmable ROM）、ハードディスク
ドライブ（ＨＤＤ、Hard Disk Drive）である。また、記憶部９３は、リムーバブルメデ
ィア、即ち可搬記録媒体を含むことができる。リムーバブルメディアは、例えば、ＵＳＢ（Universal Serial Bus）メモリ、あるいは、ＣＤ（Compact Disc）やＤＶＤ（Digital Versatile Disc）のようなディスク記録媒体である。記憶部９３は、二次記憶装置とも呼ばれる。

記憶部９３は、各種のプログラム、各種のデータ及び各種のテーブルを読み書き自在に記録媒体に格納する。記憶部９３には、オペレーティングシステム（Operating System :ＯＳ）、各種プログラム、各種テーブル等が格納される。記憶部９３に格納される情報は、メモリ９２に格納されてもよい。また、メモリ９２に格納される情報は、記憶部９３に格納されてもよい。

オペレーティングシステムは、ソフトウェアとハードウェアとの仲介、メモリ空間の管理、ファイル管理、プロセスやタスクの管理等を行うソフトウェアである。オペレーティングシステムは、通信インタフェースを含む。通信インタフェースは、通信制御部９６を介して接続される他の外部装置等とデータのやり取りを行うプログラムである。外部装置等には、例えば、他のコンピュータ、外部記憶装置等が含まれる。

入力部９４は、キーボード、ポインティングデバイス、ワイヤレスリモコン、タッチパネル等を含む。また、入力部９４は、カメラのような映像や画像の入力装置や、マイクロフォンのような音声の入力装置を含むことができる。

出力部９５は、ＬＣＤ（Liquid Crystal Display）、ＥＬ（Electroluminescence）パ
ネル、ＣＲＴ（Cathode Ray Tube）ディスプレイ、ＰＤＰ（Plasma Display Panel）等の表示装置、プリンタ等の出力装置を含む。また、出力部９５は、スピーカのような音声の出力装置を含むことができる。

通信制御部９６は、他の装置と接続し、情報処理装置９０と他の装置との間の通信を制御する。通信制御部９６は、例えば、ＬＡＮ（Local Area Network）インタフェースボード、無線通信のための無線通信回路、有線通信のための通信回路である。ＬＡＮインタフェースボードや無線通信回路は、インターネット等のネットワークに接続される。

画像処理装置１００を実現するコンピュータは、プロセッサが補助記憶装置に記憶されているプログラムを主記憶装置にロードして実行することによって、画像処理部１０２、入力部１０４、出力部１０６、通信部１０８としての機能を実現する。一方、記憶部１１０は、主記憶装置または補助記憶装置の記憶領域に設けられる。

（動作例）
図３は、本実施形態の画像処理装置１００の動作フローの例を示す図である。ここでは、画像処理装置１００の記憶部１１０には、通信部１０８等により受信された車両に搭載されるカメラで撮影された動画像及び動画像が撮影された際の車両の走行情報とが対応付けられて格納されているとする。

Ｓ１０１では、画像処理装置１００の画像処理部１０２は、記憶部１１０に格納される動画像及び走行情報を取得する。動画像は、例えば、車両の走行時等に車両の走行方向等を撮影したものである。

Ｓ１０２では、画像処理部１０２は、Ｓ１０１で取得した動画像において、車両が直線走行（直進走行）している動画像の区間を抽出する。画像処理部１０２は、動画像に対応付けられた車両の走行状態を示す走行情報の、操舵角が０度であり、かつ、速度が０ｋｍ／ｈを超えている際に撮影された動画像の区間を抽出する。操舵角が０度であり、かつ、速度が０ｋｍ／ｈを超えていることは、車両が停止せずに直進走行していることを示している。例えば、画像処理部１０２は、動画像に対応付けられている走行情報において、操舵角が０度であり、かつ、速度が０ｋｍ／ｈを超えている期間が時刻ｔ１から時刻ｔ２までである場合に、動画像の時刻ｔ１から時刻ｔ２までの区間を抽出する。抽出された動画像は、アノテーション処理を行う画像として使用される。画像処理部１０２は、抽出した動画像の区間を記憶部１１０に格納する。画像処理部１０２は、動画像に直進走行の際に撮影された区間が含まれない場合には、当該動画像から動画像の区間の抽出は行われない。また、画像処理部１０２は、操舵角が０度であり、かつ、速度が等速（一定速度）である期間を動画像の区間として抽出してもよい。操舵角が０度であり、かつ、速度が等速である期間の動画像では、車両に搭載されたカメラが等速で移動することになり、速度が等速である期間の動画像を使用すると、静止物等の追跡がより容易になる。当該動画像から動画像の区間の抽出がされない場合、図３の動作フローは終了する。

Ｓ１０３では、画像処理部１０２は、出力部１０６にＳ１０２で抽出した動画像を表示し、利用者に、動画像のフレームの画像に含まれる物体を含む範囲（領域）を選択させ、当該物体の名称を入力させる。１つの画像に対して複数の物体の範囲及び名称を入力させてもよい。入力部１０４は、利用者による、物体を含む範囲の入力、物体の名称の入力を受け付ける。すなわち、画像処理部１０２は、抽出した動画像に含まれる画像に対して、利用者に手動でのアノテーション処理を行わせる。画像処理部１０２は、物体を含む範囲を選択する際に使用する画像を動画像の各フレームの画像から選択できるように出力部１０６に表示してもよい。ここで、画像処理部１０２は、例えば、利用者に、動画像の各フレームに含まれる同一の物体について、物体の大きさが最大となるフレームの画像を選択させ、当該画像において、物体を含む領域（例えば、長方形）を選択させる。画像処理部１０２は、選択された、動画像に含まれるフレームの画像と、物体の範囲と物体の名称とを対応付けて、記憶部１１０に格納する。また、画像処理部１０２は、周知の画像認識技術等により、動画像に含まれる画像から所定の物体を含む範囲を抽出し、画像と物体の範囲と当該物体の名称とを対応付けて、記憶部１１０に格納してもよい。なお、必ずしも物体の大きさが「最大」となるフレームの画像でなくても、利用者が物体を精度よく選択するのに十分な大きさで映っているフレームの画像を選択してもよい。

Ｓ１０４では、画像処理部１０２は、Ｓ１０３で入力された動画像に含まれるフレームの画像における物体の範囲から、特徴点を抽出する。この特徴点を最初に抽出された特徴点とよぶ。特徴点は、例えば、物体が長方形の標識であるときに、標識の角や縁の部分、標識内の数字、文字、記号内の一点などである。また、特徴点は、例えば、物体が自動車であるときのナンバープレート、ヘッドライト、エンブレム、フロントガラスの角、縁、ドアミラー等の一点である。１つの物体に対して１以上の特徴点が抽出される。物体をより適切に追跡するために、１つの物体に対して、複数の特徴点が抽出されることが望ましい。ここで、Ｓ１０３で物体の大きさが最大となるフレームの画像が選択されることで、画像処理部１０２における特徴点の抽出をしやすくなる。

さらに、画像処理部１０２は、抽出した特徴点を含むフレームの画像の前後のフレームの画像から、同一の特徴点を抽出する。この特徴点を後に抽出された特徴点とよぶ。前後のフレームの画像から特徴点の抽出は、例えば、特徴点近傍の局所的パターンマッチングによって行われる。また、前後のフレームの画像に対する特徴点を追跡するアルゴリズムとして、周知の特徴点追跡アルゴリズム（ＫＬＴ法（Kanade-Lucas-Tomasi Feature Trac
ker）など）が使用され得る。２フレームの画像における同一の特徴点の位置の差を、特
徴点の移動ベクトルという。物体が静止物である場合、時間的に前のフレームの画像の方向に、特徴点が追跡される。また、物体の大きさが最大となるフレームの画像が選択されるため、物体の大きさが小さくなるフレームの画像の方向に、特徴点が追跡される。画像処理部１０２は、抽出した各画像における各物体の特徴点を記憶部１１０に格納する。なお、例えばカメラが車両の前方ではなく後方に取り付けられている場合は、画像の中の物体の大きさは時間が経つほど小さくなる。この場合は時間的に後のフレームの画像の方向に特徴点を追跡すればよい。要するに、画像中の物体の大きさが小さくなる方向に特徴点を追跡すればよい。

Ｓ１０５では、画像処理部１０２は、各物体の特徴点の移動ベクトルに基づいて、Ｓ１０４で抽出された特徴点を含む物体が、静止物（静止している物体）または直進移動物（直進移動している物体）であるかを判定する。

一般に、直進移動するカメラで撮影された動画像において、静止物は動画像の画像内で所定の直線上を移動する。この所定の直線をエピポーラ拘束線という。直進移動するカメラで撮影された動画像において、特徴点を含む物体が静止物である場合、当該特徴点は画像内でエピポーラ拘束線上を移動する。車両の直進走行に伴って、画像内の静止物はエピポーラ拘束線上を移動する。例えば、車両の進行方向が画像の中心である（車両が画像の中心に向かって直進走行している）とすると、エピポーラ拘束線は、画像の中心と特徴点とを通る直線となる。よって、車両がカメラで撮影された動画像の中心に向かって直進走行しているとすると、それぞれの最初に抽出された特徴点のエピポーラ拘束線は、最初に抽出された特徴点と画像の中心とを通る直線となる。画像処理部１０２は、ある物体の最初に抽出された特徴点の当該エピポーラ拘束線上に、当該物体の後に抽出された特徴点が存在する場合に、当該特徴点を含む物体が静止物であると判定する。画像処理部１０２は、当該特徴点の移動ベクトルがエピポーラ拘束線上に存在する場合に当該特徴点を含む物体が静止物であると判定してもよい。画像処理部１０２は、当該物体が静止物である情報を、当該物体の範囲等に対応付けて記憶部１１０に格納する。静止物が画像内でエピポーラ拘束線上を移動すると予測することで、物体の追跡の精度を向上させることができる。

また、特徴点を含む物体が直進移動物である場合、特徴点は画像内で直線上を移動する。当該物体は、例えば、直進走行する他の車両である。直進移動するカメラで撮影された動画像において、直進移動物は画像内で直線上を移動する。当該直線は、エピポーラ拘束線とは異なる。画像処理部１０２は、ある物体の最初に抽出された特徴点及び後から抽出された特徴点が１つの直線上に存在する場合に、当該特徴点を含む物体が直進移動物であると判定する。画像処理部１０２は、当該物体が直進移動物である情報を、当該物体の範囲等に対応付けて記憶部１１０に格納する。直進移動物が画像内で直線上を移動すると予測することで、物体の追跡の精度を向上させることができる。

画像処理部１０２は、Ｓ１０４で抽出された特徴点を含む物体が静止物でも直進移動物でもない場合、当該物体に対して以後の処理を行わない。画像処理部１０２は、ある物体の最初に抽出された特徴点のエピポーラ拘束線上に、当該物体の後に抽出された特徴点の一部が存在しない場合に、当該物体に対して以後の処理を行わなくてもよい。

Ｓ１０６では、画像処理部１０２は、Ｓ１０５で静止物または直進移動物であると判定された物体に対して、各画像のおける当該物体の位置（範囲）の追跡（算出、検出）を行う。画像処理部１０２は、物体が静止物である場合には、物体の位置（物体を含む長方形の頂点）も特徴点と同様にエピポーラ拘束線上を移動するとみなして、物体の位置を算出する。

図４は、静止物の追跡の例を示す図である。図４の例に示すように、後に抽出された特徴点が最初に抽出された特徴点と画像の中心とを結ぶ線分をａ：ｂに分ける点にあるとする。このとき、画像処理部１０２は、当該後に抽出された特徴点を含む物体の位置を、最初に抽出された特徴点を含む物体を含む長方形の各頂点と画像の中心とを結ぶ線分をａ：ｂに分ける点同士を結んだ長方形として算出する。

また、画像処理部１０２は、物体が直線移動物である場合には、物体の位置（物体を含む長方形の各頂点）も特徴点と同様に直線上を移動するとみなして、物体の位置を算出する。例えば、当該後に抽出された特徴点を含む物体の位置は、後に算出された特徴点の位置まで平行移動したとする。また、１つの物体に対して複数の特徴点が含まれている場合には、特徴点同士の間隔の拡大縮小に応じて物体を含む長方形を拡大縮小する。画像処理部１０２は、追跡した各画像における物体の位置を画像等と対応付けて記憶部１１０に格納する。

Ｓ１０７では、画像処理部１０２は、Ｓ１０６で追跡した物体の位置を示す領域（長方形）を、当該物体を含む画像に重ねて出力部１０６に表示する。利用者（検査者）等は、出力部１０６に表示される画像に含まれる物体と、物体の位置を示す領域（長方形）とを比較して、これらがずれているか否かを確認する。画像処理部１０２は、利用者による確認結果（検査結果）の入力を、入力部１０４により受け付ける。画像処理部１０２は、ずれているとの確認結果が入力部１０４により入力された画像を、記憶部１１０から削除する。画像処理部１０２は、ずれていないとの確認結果が入力部１０４により入力された画像を、記憶部１１０に格納したままにする。画像処理部１０２は、ずれていないとの確認結果が入力部１０４により入力された画像に、ずれていないとの確認されたことを示す情報を対応付けて、記憶部１１０に格納してもよい。これにより、画像処理部１０２は、記憶部１１０に、機械学習の教師データとして使用される画像と当該画像に含まれる物体の位置及び名称とを格納する。

（変形例）
上記の例では、Ｓ１０２において、画像処理部１０２は、車両が直線走行（直進走行）している動画像の区間を抽出したが、車両が静止している同画像の区間を抽出してもよい。このとき、Ｓ１０２において、画像処理部１０２は、動画像に対応付けられた車両の走行状態を示す走行情報の速度が０ｋｍ／ｈである際に撮影された動画像の区間を抽出する。速度が０ｋｍ／ｈであることは、車両が停止していることを示している。抽出された動画像は、アノテーション処理を行う画像として使用される。画像処理部１０２は、抽出した動画像の区間を記憶部１１０に格納する。また、このとき、Ｓ１０５において、画像処理部１０２は、各物体の特徴点の移動ベクトルに基づいて、Ｓ１０４で抽出された特徴点を含む物体が、直進移動物（直進移動している物体）であるかを判定する。特徴点を含む物体が直進移動物である場合、特徴点は画像内で直線上を移動する。静止しているカメラで撮影された動画像において、直進移動物は画像内で直線上を移動する。画像処理部１０２は、ある物体の最初に抽出された特徴点及び後から抽出された特徴点が１つの直線上に存在する場合に、当該特徴点を含む物体が直進移動物であると判定する。このようにすることで、画像処理部１０２は、静止している車両から撮影された動画像から教師データとして使用される画像と当該画像に含まれる物体の位置及び名称とを記憶部１１０に格納することができる。

（実施形態の作用、効果）
画像処理装置１００は、車両等に搭載されるカメラで撮影された動画像と、当該動画像が撮影された際の車両の走行状態を示す走行情報とを対応付けて記憶部１１０に格納している。画像処理装置１００は、記憶部１１０に格納される動画像から、車両が直進走行または静止している際に撮影された動画像の区間を、車両の走行情報に基づいて、抽出する
。当該動画像の区間は、自動でアノテーション処理を行うのに適した画像が含まれる動画像の区間である。画像処理装置１００は、自動でアノテーション処理を行うのに適した画像が含まれる動画像の区間を抽出することができる。画像処理装置１００は、出力部１０６に抽出した動画像を表示し、利用者に、動画像のフレームの画像に含まれる物体を含む範囲（領域）を選択させ、当該物体の名称を入力させる。このとき、画像処理装置１００は、動画像の各フレームに含まれる同一の物体について、物体の大きさが最大となるフレームの画像において、物体の領域を選択させる。物体の大きさが最大となるフレームで物体の領域を選択させることで、選択された領域と物体との誤差を最も小さくできる。物体が静止物である場合には、時間的に後のフレームの画像であるほど画像における物体の大きさが大きくなる。画像処理装置１００は、選択された物体の領域（範囲）において、物体の特徴点を抽出する。画像処理装置１００は、物体が静止物である場合、時間的に前のフレームの画像の方向に、物体の特徴点を追跡する。画像処理装置１００は、物体の特徴点がエピポーラ拘束線上を移動するとき、当該物体は静止物であると判定する。画像処理装置１００は、物体が静止物であると判定したとき、物体の範囲（領域、位置）が特徴点と同様にエピポーラ拘束線上を移動するとみなして、物体の範囲を追跡する。画像処理装置１００は、エピポーラ拘束線上を移動する物体を静止物とみなすことで、静止物の判定を容易にすることができる。画像処理装置１００は、追跡の結果、画像における実際の物体の位置が追跡（算出）した物体の位置と異なる場合に、当該画像を削除して教師データとして使用しないことで、アノテーション処理を行う学習済み推定モデルの精度を向上させることができる。画像処理装置１００は、車両に搭載されるカメラで撮影された動画像から、精度の高い、アノテーション処理を行う学習済み推定モデルの教師データを生成することができる。

〈コンピュータ読み取り可能な記録媒体〉
コンピュータその他の機械、装置（以下、コンピュータ等）に上記いずれかの機能を実現させるプログラムをコンピュータ等が読み取り可能な記録媒体に記録することができる。そして、コンピュータ等に、この記録媒体のプログラムを読み込ませて実行させることにより、その機能を提供させることができる。

ここで、コンピュータ等が読み取り可能な記録媒体とは、データやプログラム等の情報を電気的、磁気的、光学的、機械的、または化学的作用によって蓄積し、コンピュータ等から読み取ることができる記録媒体をいう。このような記録媒体内には、ＣＰＵ、メモリ等のコンピュータを構成する要素を設け、そのＣＰＵにプログラムを実行させてもよい。

また、このような記録媒体のうちコンピュータ等から取り外し可能なものとしては、例えばフレキシブルディスク、光磁気ディスク、ＣＤ－ＲＯＭ、ＣＤ－Ｒ／Ｗ、ＤＶＤ、ＤＡＴ、８mmテープ、メモリカード等がある。

また、コンピュータ等に固定された記録媒体としてハードディスクやＲＯＭ等がある。

（その他）
以上、本発明の実施形態を説明したが、これらはあくまで例示にすぎず、本発明はこれらに限定されるものではなく、特許請求の範囲の趣旨を逸脱しない限りにおいて、各構成の組み合わせなど、当業者の知識に基づく種々の変更が可能である。

１００：画像処理装置
１０２：画像処理部
１０４：入力部
１０６：出力部
１０８：通信部
１１０：記憶部
９０: 情報処理装置
９１: プロセッサ
９２: メモリ
９３: 記憶部
９４: 入力部
９５: 出力部
９６: 通信制御部

Claims

画像中に現れる物体の位置及び名称を当該画像に対応付けるアノテーション処理を行う画像を処理対象画像として抽出する画像処理装置であって、
移動体に取り付けられたカメラで撮影された動画像と、当該動画像の撮影時における当該移動体の走行情報とを取得し、
前記取得した走行情報に基づいて、前記取得した動画像の中から前記移動体が直線走行状態または停止状態である期間の動画像を選択し、
前記選択した動画像から処理対象画像を抽出する、
プロセッサを備える画像処理装置。
画像中に現れる物体の位置及び名称を当該画像に対応付けるアノテーション処理装置であって、
移動体に取り付けられたカメラで撮影された動画像と、当該動画像の撮影時における当該移動体の走行情報とを取得し、
前記取得した走行情報に基づいて、前記取得した動画像の中から前記移動体が直線走行状態または停止状態である期間の動画像を選択し、
前記選択した動画像に含まれる第１のフレームの画像における物体が当該第１のフレームの画像とは異なる第２のフレームの画像において追跡できたとき、前記第１のフレームの画像に対応付けられた物体の位置及び名称を前記第２のフレームの画像に対応付ける、プロセッサを備えるアノテーション処理装置。
前記プロセッサは、
前記第１のフレームの画像における物体の位置の前記追跡を、前記動画像における直進移動物に対して実行する、
請求項２に記載のアノテーション処理装置。
前記プロセッサは、
前記追跡の結果に基づく前記第２のフレームの画像における物体の位置と、前記第２のフレームの画像における実際の当該物体の位置が異なるとき、当該第２のフレームの画像を当該物体の位置及び名称を対応付けて記憶する画像から削除する、
請求項２に記載のアノテーション処理装置。
画像中に現れる物体の位置及び名称を当該画像に対応付けるアノテーション処理を行う画像を処理対象画像として抽出する画像処理方法であって、
移動体に取り付けられたカメラで撮影された動画像において、前記移動体が直線走行状態または停止状態である期間の動画像から処理対象画像を抽出する、
画像処理方法。
画像中に現れる物体の位置及び名称を当該画像に対応付けるアノテーション処理を行う画像を処理対象画像として抽出する画像処理方法であって、
移動体に取り付けられたカメラで撮影された動画像と、前記動画像の撮影時における前記移動体の走行情報とを取得し、
前記取得した走行情報に基づいて、前記取得した動画像の中から動画像における前記移動体が直線走行状態または停止状態である期間の動画像を選択し、
当該選択された動画像から処理対象画像を抽出する、
画像処理方法。
画像中に現れる物体の位置及び名称を当該画像に対応付けるアノテーション処理方法であって、
移動体に取り付けられたカメラで撮影された動画像と、当該動画像の撮影時における当該移動体の走行情報とを取得し、
前記取得した走行情報に基づいて、前記取得した動画像の中から前記移動体が直線走行状態または停止状態である期間の動画像を選択し、
前記選択した動画像に含まれる第１のフレームの画像における物体が当該第１のフレームの画像とは異なる第２のフレームの画像において追跡できたとき、当該第１のフレームの画像に対応付けられた物体の位置及び名称を当該第２のフレームの画像に対応付ける、アノテーション処理方法。
画像中に現れる物体の位置及び名称を当該画像に対応付けるアノテーション処理を行う画像を処理対象画像として抽出する画像処理のプログラムであって、
移動体に取り付けられたカメラで撮影された動画像と、前記動画像の撮影時における前記移動体の走行情報とを取得し、
前記取得した走行情報に基づいて、前記取得した動画像の中から前記移動体が直線走行状態または停止状態である期間の動画像を選択し、
当該選択した動画像から処理対象画像を抽出する、
ことをプロセッサが実行するための画像処理プログラム。
画像中に現れる物体の位置及び名称を当該画像に対応付けるアノテーション処理のプログラムであって、
移動体に取り付けられたカメラで撮影された動画像と、当該動画像の撮影時における当該移動体の走行情報とを取得し、
前記取得した走行情報に基づいて、前記取得した動画像の中から前記移動体が直線走行状態または停止状態である期間の動画像を選択し、
前記選択した動画像に含まれる第１のフレームの画像における物体が当該第１のフレームの画像とは異なる第２のフレームの画像において追跡できたとき、当該第１のフレームの画像に対応付けられた物体の位置及び名称を当該第２のフレームの画像に対応付けて記憶する、
ことをプロセッサが実行するための画像処理プログラム。