JP7143931B2

JP7143931B2 - 制御方法、学習装置、識別装置及びプログラム

Info

Publication number: JP7143931B2
Application number: JP2021503238A
Authority: JP
Inventors: 康敬馬場崎
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2019-03-01
Filing date: 2019-03-01
Publication date: 2022-09-29
Anticipated expiration: 2039-03-01
Also published as: EP3933755A1; AU2019433083A1; EP3933755A4; US20220138984A1; JPWO2020178881A1; AU2019433083B2; WO2020178881A1

Description

本発明は、機械学習及び機械学習に基づく識別に関する制御方法、学習装置、識別装置、及びプログラムの技術分野に関する。

画像から所定の特徴点を抽出する方法の一例が特許文献１に開示されている。特許文献１には、入力された画像における局所的な領域ごとに、コーナ検出器などの公知の特徴点抽出器を用いて、角や交点となる特徴点を抽出する方法が記載されている。

特開２０１４－２２８８９３号公報

特許文献１の方法では、抽出可能な特徴点の種類が限られており、予め指定された任意の特徴点に関する情報を与えられた画像から精度よく取得することができない。

本発明の目的は、上述した課題を鑑み、予め指定された特徴点に関する情報を画像から高精度に取得することが可能な制御方法、学習装置、識別装置、及びプログラムを提供することを主な課題とする。

制御方法の一の態様は、情報処理システムが実行する制御方法であって、対象物を撮影したサンプル画像と、前記サンプル画像に含まれる前記対象物の特徴点に関する正解座標値を含む教師ラベルとに基づき、入力された前記サンプル画像から前記特徴点に関する予測座標値を出力するように学習された第１識別器を生成し、前記第１識別器に前記サンプル画像を入力することで出力される予測座標値に基づいて、前記サンプル画像から前記特徴点の候補領域を設定し、前記候補領域を前記サンプル画像から切り出した画像に基づき、入力された画像内の各ブロックでの前記特徴点に対する信頼度を示す信頼度マップを出力するように学習された第２識別器を生成し、前記第１識別器に対象画像を入力することで、前記特徴点に関する予測座標値を取得し、前記予測座標値に基づいて、前記対象画像から前記特徴点の候補領域を設定し、前記第２識別器に、前記対象画像から前記候補領域を切り出した画像を入力することで、当該切り出した画像に対する前記信頼度マップを出力する。

学習装置の一の態様は、学習装置であって、対象物を撮影したサンプル画像と、前記サンプル画像に含まれる前記対象物の特徴点に関する正解座標値を含む教師ラベルとに基づき、入力された画像から前記特徴点に関する予測座標値を出力するように学習された第１識別器を生成する第１学習手段と、前記第１識別器に前記サンプル画像を入力することで出力される予測座標値に基づいて、前記サンプル画像から前記特徴点の候補領域を設定する候補領域設定手段と、前記候補領域を前記サンプル画像から切り出した画像に基づき、入力された画像内の各ブロックでの前記特徴点に対する信頼度を示す信頼度マップを出力するように学習された第２識別器を生成する第２学習手段と、を有する。

識別装置の一の態様は、識別装置であって、対象物を撮影したサンプル画像と、前記サンプル画像に含まれる前記対象物の特徴点に関する正解座標値を含む教師ラベルとに基づき、入力された画像から前記特徴点に関する予測座標値を出力するように学習された第１識別器に対象画像を入力することで、前記特徴点に関する予測座標値を取得する第１識別器処理手段と、前記予測座標値に基づいて、前記対象画像から前記特徴点の候補領域を設定する候補領域設定手段と、入力された画像から前記特徴点の当該画像内の各ブロックでの信頼度を示す信頼度マップを出力するように学習された第２識別器に、前記対象画像から前記候補領域を切り出した画像を入力することで、当該切り出した画像に対する前記信頼度マップを出力する第２識別器処理手段と、を備える。

制御方法の一態様は、学習装置が実行する制御方法であって、対象物を撮影したサンプル画像と、前記サンプル画像に含まれる前記対象物の特徴点に関する正解座標値を含む教師ラベルとに基づき、入力された画像から前記特徴点に関する予測座標値を出力するように学習された第１識別器を生成し、前記第１識別器に前記サンプル画像を入力することで出力される予測座標値に基づいて、前記サンプル画像から前記特徴点の候補領域を設定し、前記候補領域を前記サンプル画像から切り出した画像に基づき、入力された画像内の各ブロックでの前記特徴点に対する信頼度を示す信頼度マップを出力するように学習された第２識別器を生成する。

制御方法の一態様は、識別装置が実行する制御方法であって、対象物を撮影したサンプル画像と、前記サンプル画像に含まれる前記対象物の特徴点に関する正解座標値を含む教師ラベルとに基づき、入力された画像から前記特徴点に関する予測座標値を出力するように学習された第１識別器に対象画像を入力することで、前記特徴点に関する予測座標値を取得し、前記予測座標値に基づいて、前記対象画像から前記特徴点の候補領域を設定し、入力された画像から前記特徴点の当該画像内の各ブロックでの信頼度を示す信頼度マップを出力するように学習された第２識別器に、前記対象画像から前記候補領域を切り出した画像を入力することで、当該切り出した画像に対する前記信頼度マップを出力する。

プログラムの一の態様は、コンピュータが実行するプログラムであって、対象物を撮影したサンプル画像と、前記サンプル画像に含まれる前記対象物の特徴点に関する正解座標値を含む教師ラベルとに基づき、入力された画像から前記特徴点に関する予測座標値を出力するように学習された第１識別器を生成する第１学習手段と、前記第１識別器に前記サンプル画像を入力することで出力される予測座標値に基づいて、前記サンプル画像から前記特徴点の候補領域を設定する候補領域設定手段と、前記候補領域を前記サンプル画像から切り出した画像に基づき、入力された画像内の各ブロックでの前記特徴点に対する信頼度を示す信頼度マップを出力するように学習された第２識別器を生成する第２学習手段
として前記コンピュータを機能させる。

プログラムの一の態様は、コンピュータが実行するプログラムであって、対象物を撮影したサンプル画像と、前記サンプル画像に含まれる前記対象物の特徴点に関する正解座標値を含む教師ラベルとに基づき、入力された画像から前記特徴点に関する予測座標値を出力するように学習された第１識別器に対象画像を入力することで、前記特徴点に関する予測座標値を取得する第１識別器処理手段と、前記予測座標値に基づいて、前記対象画像から前記特徴点の候補領域を設定する候補領域設定手段と、入力された画像から前記特徴点の当該画像内の各ブロックでの信頼度を示す信頼度マップを出力するように学習された第２識別器に、前記対象画像から前記候補領域を切り出した画像を入力することで、当該切り出した画像に対する前記信頼度マップを出力する第２識別器処理手段として前記コンピュータを機能させる。

本発明によれば、特徴点に関する高精度な情報を対象画像から生成するための識別器を学習することができる。また、学習された識別器に基づいて特徴点に関する高精度な情報を対象画像から生成することができる。

実施形態における情報処理システムの概略構成を示す。情報処理システムの機能ブロック図である。（Ａ）～（Ｃ）は、特徴点として鼻の座標値を抽出する場合において、第１識別器にそれぞれ入力された教師画像を、予測座標値に相当する予測位置及び正解座標値に相当する正解位置と共に示した図である。（Ｄ）は、（Ａ）に示す教師画像を、設定された候補領域と共に示した図である。学習処理の手順を示すフローチャートである。（Ａ）は、特徴点が表れた対象画像上に、対象の特徴点（ここでは鼻）に対する予測座標値を示す予測位置を明示した図である。（Ｂ）は、（Ａ）の対象画像上に、候補領域を示した図である。（Ｃ）は、候補領域に対する信頼度マップを示した図である。（Ａ）は、特徴点が隠れた対象画像上に、対象の特徴点（ここでは鼻）に対する予測座標値を示す予測位置を明示した図である。（Ｂ）は、（Ａ）の対象画像上に、候補領域を示した図である。（Ｃ）は、候補領域に対する信頼度マップを示した図である。識別処理の手順を示すフローチャートである。魚を撮影した対象画像上に、各特徴点に対する識別装置による処理結果を明示した図である。テニスコートを撮影した対象画像上に、識別装置が抽出した座標値に対応する抽出位置を明示した図である。人物を撮影した対象画像上に、識別装置が抽出した座標値に対応する抽出位置を明示した図である。（Ａ）～（Ｃ）は、図３（Ａ）に示す教師画像に、異なる３つの候補パラメータを適用することで設定した候補領域を明示した図である。（Ａ）～（Ｃ）は、図３（Ａ）に示す教師画像上に変形例１において正解座標値として教師ラベルに記録される正解位置を明示した図である。変形例１に係る情報処理システムのブロック構成図である。変形例３に係る情報処理システムのブロック構成図である。

以下、図面を参照しながら、制御方法、学習装置、識別装置、及びプログラムの実施形態について説明する。

［全体構成］
図１は、本実施形態における情報処理システム１００の概略構成を示す。情報処理システム１００は、２つの学習モデル（それぞれ、「第１学習モデル」、「第２学習モデル」とも呼ぶ。）を用いた画像内の特徴点の抽出に関する処理を行う。

ここで、第１学習モデルは、画像がサンプルとして入力された場合に、画像内における特徴点を抽出するための候補となる領域（「候補領域ＡＣ」とも呼ぶ。）を設定するための座標値を出力する演算モデルである。また、第２学習モデルは、画像から切り出された候補領域ＡＣの画像がサンプルとして入力された場合に、当該候補領域ＡＣの画像内における特徴点に対する信頼度マップを出力する演算モデルである。第１学習モデル及び第２学習モデルは、それぞれ、ニューラルネットワークに基づく学習モデルであってもよく、サポートベクターマシーンなどの他の種類の学習モデルであってもよい。本実施形態において、学習がなされた第１学習モデルは第１識別器として機能し、学習がなされた第２学習モデルは第２識別器として機能する。

情報処理システム１００は、学習装置１０と、記憶装置２０と、識別装置３０と、を備える。

学習装置１０は、教師画像２１及び教師ラベル２２に基づき第１学習モデル及び第２学習モデルの学習を行う。

記憶装置２０は、学習装置１０及び識別装置３０によるデータの参照及び書込みが可能な装置であって、教師画像２１と、教師ラベル２２と、第１識別器情報２３と、領域パラメータ情報２４と、第２識別器情報２５とを記憶する。なお、記憶装置２０は、学習装置１０又は識別装置３０のいずれかに接続又は内蔵されたハードディスクなどの外部記憶装置であってもよく、フラッシュメモリなどの記憶媒体であってもよく、学習装置１０及び識別装置３０とデータ通信を行うサーバ装置などであってもよい。例えば、記憶装置２０が記憶媒体である場合には、学習装置１０により生成された第１識別器情報２３、領域パラメータ情報２４、第２識別器情報２５が記憶媒体に記憶された後、識別装置３０は当該記憶媒体からこれらの情報を読み出すことで識別処理を実行する。

教師画像２１は、第１学習モデル及び第２学習モデルの学習に用いる複数の画像である。教師画像２１は、情報処理システム１００において抽出される特徴点を含んでいる。例えば、情報処理システム１００が人物の複数の基幹点を抽出するシステムである場合には、各教師画像２１には、当該基幹点の少なくとも１つが表示された人物像が含まれる。このように、教師画像２１は、情報処理システム１００が抽出すべき特徴点を少なくとも１つ含んでいる。

教師ラベル２２は、教師画像２１の各々に含まれる特徴点の正解となる画像内の座標値（「正解座標値」とも呼ぶ。）を示す情報と、当該特徴点の識別情報とを含んでいる。例えば、ある教師画像２１に特徴点である鼻が表示されている場合、教師ラベル２２には、対象の教師画像２１における当該鼻の正解座標値を示す情報と、鼻であることを示す情報が含まれる。特徴点の識別情報と特徴点の正解座標値を含む教師ラベル２２は、教師画像２１と共に学習データとして機能し、第１学習モデル及び第２学習モデルの学習に用いられる。なお、教師ラベル２２は、抽出対象となる特徴点に対する信頼度マップの情報をさらに含んでもよい。この信頼度マップは、例えば、各特徴点の正解座標値での信頼度を最大値とした２次元方向の正規分布を形成するように定義される。この場合、信頼度マップは、第２学習モデルの正解の信頼度マップとして、教師画像２１と共に学習データとして機能し、第２学習モデルの学習に用いられる。

第１識別器情報２３は、第１識別器を機能させるために必要な種々の情報を含んでいる。例えば、第１識別器情報２３は、情報処理システム１００が抽出すべき特徴点ごとに、学習装置１０が教師画像２１及び教師ラベル２２を用いて第１学習モデルを学習することで得られたパラメータ情報を含んでいる。例えば、第１学習モデルが畳み込みニューラルネットワークなどのニューラルネットワークである場合、パラメータ情報は、層構造、各層のニューロン構造、各層におけるフィルタ数及びフィルタサイズ、並びに各フィルタの各要素の重みなどの情報を含んでいる。以後では、第１識別器から出力される座標値を「予測座標値」と呼ぶ。

領域パラメータ情報２４は、候補領域ＡＣを定めるためのパラメータ（「領域パラメータ」とも呼ぶ。）に関する情報であり、学習装置１０により生成される。例えば、候補領域ＡＣが矩形領域として設定される場合には、領域パラメータ情報２４は、候補領域ＡＣの縦幅及び横幅を示す情報である。なお、候補領域ＡＣは、矩形領域であることに限定されない。例えば、候補領域ＡＣが円領域として設定される場合には、領域パラメータ情報２４は、候補領域ＡＣの半径又は直径を示す情報となり、候補領域ＡＣが楕円領域として設定される場合には、領域パラメータ情報２４は、候補領域ＡＣの長径及び短径を示す情報となる。以後では、一例として、候補領域ＡＣは、矩形領域であるものとして説明を行う。

第２識別器情報２５は、第２識別器を機能させるために必要な種々の情報を含んでいる。例えば、第２識別器情報２５は、情報処理システム１００が抽出すべき特徴点の種類毎に、第２学習モデルを学習装置１０が学習することで得られたパラメータ情報を含んでいる。後述するように、第２学習モデルの学習には、第１識別器により出力された特徴点の予測座標値に基づき設定された教師画像２１内の候補領域ＡＣを切り出した画像が用いられる。

識別装置３０は、第１識別器情報２３を参照することで構成した第１識別器と、第２識別器情報２５を参照することで構成した第２識別器とを用いて、識別装置３０に入力された対象画像Ｉｍに含まれる特徴点の座標値を算出する。

［ハードウェア構成］
図１は、学習装置１０及び識別装置３０のハードウェア構成についても示している。ここで、学習装置１０及び識別装置３０のハードウェア構成について、引き続き図１を参照して説明する。

学習装置１０は、ハードウェアとして、プロセッサ１１と、メモリ１２と、インターフェース１３とを含む。プロセッサ１１、メモリ１２及びインターフェース１３は、データバス１９を介して接続されている。

プロセッサ１１は、メモリ１２に記憶されているプログラムを実行することにより、第１学習モデル及び第２学習モデルの学習に関する処理を実行する。プロセッサ１１は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、ＧＰＵ（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）などのプロセッサである。

メモリ１２は、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、フラッシュメモリなどの各種のメモリにより構成される。また、メモリ１２には、学習装置１０が実行する学習に関する処理を実行するためのプログラムが記憶される。また、メモリ１２は、作業メモリとして使用され、記憶装置２０から取得した情報等を一時的に記憶する。インターフェース１３は、記憶装置２０とデータの送受信を行うためのインターフェースであり、ネットワークアダプタ、ＵＳＢ、ＳＡＴＡ（ＳｅｒｉａｌＡＴＡｔｔａｃｈｍｅｎｔ）などが該当する。例えば、学習装置１０が記憶装置２０とネットワークを介して通信可能である場合、インターフェース１３は、記憶装置２０に対してデータの書込み指示の送信や記憶装置２０に記憶されたデータの受信を行う。

識別装置３０は、ハードウェアとして、プロセッサ３１と、メモリ３２と、インターフェース３３とを含む。

プロセッサ３１は、メモリ３２に記憶されているプログラムを実行することにより、対象画像Ｉｍに対して予め指定された特徴点の抽出処理を実行する。プロセッサ３１は、ＣＰＵ、ＧＰＵなどのプロセッサである。

メモリ３２は、ＲＡＭ、ＲＯＭ、フラッシュメモリなどの各種のメモリにより構成される。また、メモリ３２には、識別装置３０が実行する学習に関する処理を実行するためのプログラムが記憶される。また、メモリ３２は、作業メモリとして使用され、第１識別器情報２３及び第２識別器情報２５等から取得した情報を一時的に記憶する。また、メモリ３２は、インターフェース３３に入力される対象画像Ｉｍを一時的に記憶する。

インターフェース３３は、対象画像Ｉｍをメモリ３２に供給するためのインターフェースである。例えば、対象画像Ｉｍが外部装置から供給される場合、インターフェース３３は、記憶装置２０とデータの送受信を行ったり、図示しない外部装置から対象画像Ｉｍを受信したりするためのインターフェースであり、ネットワークアダプタ、ＵＳＢ、ＳＡＴＡなどが該当する。なお、記憶装置２０と接続するためのインターフェースと対象画像Ｉｍを受信するためのインターフェースとは異なるインターフェースであってもよい。

なお、学習装置１０及び識別装置３０のハードウェア構成は、図１に示す構成に限定されない。例えば、学習装置１０は、ユーザ入力を受け付けるための入力部、ディスプレイやスピーカなどの出力部などをさらに備えてもよい。同様に、識別装置３０は、ユーザ入力を受け付けるための入力部、ディスプレイやスピーカなどの出力部、プロセッサ３１が実行した処理結果を外部装置へ送信したり記憶装置２０とのデータ通信を行ったりするための通信インターフェースなどを備えてもよい。

［学習処理］
次に、学習装置１０が実行する学習処理の詳細について説明する。

（１）機能構成
図２は、情報処理システム１００の機能ブロック図である。図２に示すように、学習装置１０のプロセッサ１１は、機能的には、第１学習部１４と、候補領域設定部１５と、第２学習部１６とを備える。

第１学習部１４は、教師画像２１及び教師ラベル２２に基づき第１学習モデルの学習を行うことで第１識別器を生成し、生成した第１識別器に必要なパラメータ等を含む第１識別器情報２３を記憶装置２０に保存する。ここで、第１学習モデルは、入力された画像に対し、当該画像内に含まれていると推定される特徴点の座標値（即ち画像内の位置）を直接出力する演算モデルである。第１学習モデルは、種々の学習器を用いた学習モデルであってもよく、特徴点の座標値を直接出力する演算モデルであればよい。

また、第１学習部１４は、教師画像２１を第１識別器に入力することで、予測座標値「Ｃｐ１」を算出する。そして、算出した予測座標値Ｃｐ１を候補領域設定部１５に供給する。

候補領域設定部１５は、第１学習部１４から供給された予測座標値Ｃｐ１に基づき、第１学習部１４で用いられた教師画像２１に対して候補領域ＡＣを設定する。本実施形態では、一例として、候補領域設定部１５は、予測座標値Ｃｐ１を中心とした矩形領域を、候補領域ＡＣとして設定する。本実施形態では、候補領域設定部１５は、候補領域ＡＣの大きさ及び形状を決定するための領域パラメータである縦幅及び横幅を、複数の教師画像２１に対する予測座標値Ｃｐ１と対応する正解座標値との差のばらつきに基づき決定する。この具体例については、図３を参照して後述する。そして、候補領域設定部１５は、教師画像２１から候補領域ＡＣを切出した画像（「切出し画像Ｉｃ１」とも呼ぶ。）を第２学習部１６に供給する。

また、候補領域設定部１５は、抽出すべき特徴点ごとに生成した領域パラメータを示す情報を、領域パラメータ情報２４として記憶装置２０に記憶する。

第２学習部１６は、候補領域設定部１５から供給された切出し画像Ｉｃ１に基づき第２学習モデルの学習を行うことで第２識別器を生成し、生成した第２識別器に必要なパラメータ等を含む第２識別器情報２５を記憶装置２０に記憶する。ここで、第２学習モデルは、画像が入力された場合に、対象の特徴点に対して当該画像内の各ブロックにおける信頼度を示した信頼度マップを出力する演算モデルである。第２学習モデルは、種々の学習モデルであってもよく、入力された画像から当該画像に対する信頼度マップを出力する演算モデルであればよい。なお、信頼度が出力される単位となるブロックは、入力された画像に対して所定の規則に基づき区切られた領域であり、各ブロックは、画像内の各画素に対応するものであってもよく、Ｎ×Ｎの画素群（Ｎは正数）に対応するものであってもよく、１つの画素をさらに区切ったサブピクセルに対応するものであってもよい。

ここで、候補領域設定部１５の処理について、図３を参照して具体的に説明する。

図３（Ａ）～（Ｃ）は、特徴点として鼻の座標値を抽出する場合において、第１識別器にそれぞれ入力された教師画像２１を、予測座標値Ｃｐ１に相当する予測位置Ｐ１～Ｐ３及び正解座標値に相当する正解位置Ｔ１～Ｔ３と共に示した図である。図３（Ａ）～（Ｃ）の例では、鼻が表示された教師画像２１が第１識別器に入力された場合に、教師ラベル２２が示す鼻の正解座標値（正解位置Ｔ１～Ｔ３に相当）に対して縦方向及び横方向にずれた位置を示す予測座標値Ｃｐ１（予測位置Ｐ１～Ｐ３に相当）が出力されている。図３（Ｄ）は、図３（Ａ）に示す教師画像２１を、設定された候補領域ＡＣと共に示した図である。

この場合、候補領域設定部１５は、鼻の特徴点が表示された教師画像２１毎に、正解座標値と予測座標値Ｃｐ１との差のばらつきに基づき、図３（Ｄ）に示す矩形領域の候補領域ＡＣを設定する。具体的には、まず、鼻の特徴点が表示された教師画像２１毎に、正解座標値と予測座標値Ｃｐ１との差（例えば正解座標値に対する予測座標値Ｃｐ１の相対座標値）を算出する。そして、例えば、候補領域設定部１５は、正解座標値を候補領域ＡＣの中心とした場合に、所定割合以上の教師画像２１に対する予測座標値Ｃｐ１が候補領域ＡＣ内に含まれるように、候補領域ＡＣの縦幅「Ｈ」及び横幅「Ｗ」を設定する。他の例では、候補領域設定部１５は、正解座標値と予測座標値Ｃｐ１との差のばらつきが正規分布に従うとみなし、縦方向に対する所定割合の信頼区間（例えば９５％～９９％信頼区間）を縦幅Ｈとし、横方向に対する所定割合の信頼区間を横幅Ｗとして設定してもよい。

なお、図３（Ｄ）の例では、候補領域設定部１５は、図３（Ａ）に示す教師画像２１に対し、予測位置Ｐ１を中心とする候補領域ＡＣを設定している。また、候補領域設定部１５は、図３（Ｂ）及び図３（Ｃ）に示す教師画像２１に対しても同様に候補領域ＡＣを設定し、候補領域ＡＣに対応する各教師画像２１の切出し画像Ｉｃ１を第２学習部１６に供給する。

（２）処理フロー
図４は、学習装置１０が実行する学習処理の手順を示すフローチャートである。学習装置１０は、図４に示すフローチャートの処理を、情報処理システム１００が抽出すべき特徴点の種類毎に実行する。

まず、学習装置１０の第１学習部１４は、教師画像２１及び教師ラベル２２が示す特徴点の正解座標値に基づき、第１学習モデルの学習を行う（ステップＳ１１）。そして、第１学習部１４は、ステップＳ１１の学習により得られた第１学習モデルのパラメータを第１識別器情報２３として保存する。また、第１学習部１４は、学習済みの第１学習モデルである第１識別器から、対象の特徴点が表示された教師画像２１の夫々に対し、予測座標値Ｃｐ１を取得する（ステップＳ１２）。

次に、学習装置１０の候補領域設定部１５は、ステップＳ１２で算出した予測座標値Ｃｐ１と、これに対応する教師ラベル２２が示す正解座標値との差のばらつきに基づき、候補領域を決定するための領域パラメータを生成する（ステップＳ１３）。そして、候補領域設定部１５は、ステップＳ１２で算出した予測座標値Ｃｐ１と、ステップＳ１３で生成した領域パラメータとに基づき、ステップＳ１１で用いた教師画像２１の各々に対して候補領域ＡＣを設定する（ステップＳ１４）。また、候補領域設定部１５は、ステップＳ１３で生成した領域パラメータを示す領域パラメータ情報２４を、記憶装置２０に記憶する。

そして、学習装置１０の第２学習部１６は、教師画像２１の各々から候補領域ＡＣを切り出した切出し画像Ｉｃ１及び対象の特徴点の正解座標値に基づき、第２学習モデルの学習を行う（ステップＳ１４）。そして、第２学習部１６は、ステップＳ１４の学習により得られた第２学習モデルのパラメータ等を第２識別器情報２５として記憶装置２０に記憶する。

（３）効果
次に、図２に示す学習装置１０の機能構成に基づく効果について説明する。

一般に、第１学習モデルのように、入力された画像に対して特徴点の座標値（即ち画像内の位置）を直接出力する学習モデルを用いる場合、学習に要する処理コスト及び学習後の識別処理に要する処理コストが軽量となるという利点が存在する。一方、このような学習モデルを学習した識別器は、出力する特徴点の座標値の位置精度が比較的低くなるという課題が存在し、対象の特徴点が隠れている場合であっても、必ず特徴点の座標値を出力してしまうといった課題も存在する。

また、第２学習モデルのように、入力された画像に対して信頼度マップを出力する学習モデルを用いる場合、信頼度マップに基づき特定される特徴点の位置精度が高くなり、対象の特徴点が隠れている場合には信頼度の閾値処理などによって当該特徴点の抽出を防ぐことができるといった利点が存在する。一方、このような学習モデルは、特徴点毎に、画像内の各ブロック（例えば画素毎）の信頼度を算出することになり、学習処理及び学習後の識別処理に要する処理コストが高くなるという課題が存在する。

以上を勘案し、本実施形態では、学習装置１０は、第１学習モデルを学習した第１識別器が出力する予測座標値Ｃｐ１に基づき候補領域ＡＣを設定し、候補領域ＡＣに対応する切出し画像Ｉｃ１を用いて第２学習モデルの学習を行う。これにより、学習装置１０は、候補領域ＡＣの位置を定める予測座標値を出力するように第１学習モデルを低処理コストにより学習しつつ、第２学習モデルに使用する画像領域を好適に限定して第２学習モデルの学習に要する処理コストを低減することができる。また、後述するように、識別装置３０は、学習装置１０により学習された第１識別器及び第２識別器を用いることで、対象画像Ｉｍから特徴点の座標値を高精度に抽出しつつ、対象の特徴点が隠れている場合に誤って特徴点の座標値を出力してしまうことを好適に抑制する。

［識別処理］
次に、識別装置３０が実行する識別処理の詳細について説明する。
（１）機能ブロック
識別装置３０の機能的な構成について、再び図２の機能ブロック図を参照して説明する。図２に示すように、識別装置３０のプロセッサ３１は、機能的には、第１識別器処理部３４と、候補領域設定部３５と、第２識別器処理部３６と、特徴点抽出部３７と、を備える。

第１識別器処理部３４は、対象画像Ｉｍが識別装置３０に入力された場合に、第１識別器情報２３を参照することで構成した第１識別器に基づき、対象画像Ｉｍに対する処理を実行する。具体的には、第１識別器処理部３４は、第１識別器に対象画像Ｉｍを入力することで、情報処理システム１００が抽出すべき特徴点に対する予測座標値「Ｃｐ２」を算出する。そして、第１識別器処理部３４は、算出した予測座標値Ｃｐ２を候補領域設定部３５に供給する。

候補領域設定部３５は、領域パラメータ情報２４を参照することで、第１識別器処理部３４から供給された予測座標値Ｃｐ２から対象画像Ｉｍに対する候補領域ＡＣを設定する。例えば、領域パラメータ情報２４が候補領域ＡＣの縦幅Ｈ及び横幅Ｗの情報を示す場合、候補領域設定部３５は、予測座標値Ｃｐ２を中心として、縦幅Ｈ及び横幅Ｗの候補領域ＡＣを対象画像Ｉｍに対して設定する。そして、候補領域設定部３５は、設定した候補領域ＡＣを対象画像Ｉｍから切り出した切出し画像「Ｉｃ２」を、第２識別器処理部３６に対して供給する。

第２識別器処理部３６は、第２識別器情報２５を参照することで構成した第２識別器に基づき、切出し画像Ｉｃ２に対する処理を実行する。具体的には、第２識別器処理部３６は、第２識別器に切出し画像Ｉｃ２を入力することで、対象の特徴点に対する信頼度を切出し画像Ｉｃ２の各ブロックに対して示した信頼度マップ「Ｍｃ」を生成する。そして、第２識別器処理部３６は、生成した信頼度マップＭｃを特徴点抽出部３７に供給する。

特徴点抽出部３７は、第２識別器処理部３６から供給された信頼度マップＭｃに基づき、対象の特徴点の対象画像Ｉｍにおける座標値を算出する。特徴点抽出部３７は、算出した特徴点の座標値の情報を、記憶装置２０に記憶してもよく、識別装置３０と通信を行う他の装置に送信してもよく、特徴点に基づき所定の処理を行う識別装置３０内の他の処理部に供給してもよい。

ここで、特徴点抽出部３７が実行する特徴点の座標値の抽出方法の具体例である第１抽出例～第３抽出例について説明する。

第１抽出例では、特徴点抽出部３７は、信頼度マップＭｃにおいて信頼度が最大となる座標値に対応する信頼度が所定の閾値以上である場合に、信頼度が最大となる座標値を特徴点の座標値として抽出する。この場合、上述の閾値は、例えば、対象の特徴点が画像中に表示されているとみなすことができる信頼度の下限値になるように定められ、学習又は実験等に基づき予め定められた値である。そして、特徴点抽出部３７は、信頼度マップＭｃにおいて信頼度が最大となる座標値に対応する信頼度が所定の閾値未満である場合には、特徴点が存在しないと判断する。このように、特徴点抽出部３７は、特徴点である可能性が最も高い位置に対する信頼度に対して閾値判定を行うことで、特徴点が対象画像Ｉｍ中において隠れているにも関わらず誤って特徴点の座標値を抽出することを好適に防ぐことができる。

なお、特徴点抽出部３７は、信頼度の離散データである信頼度マップＭｃに近似する連続関数（回帰曲線）を公知の解析処理に基づき算出し、求めた連続関数の値に基づき特徴点の座標値を特定してもよい。この場合、特徴点抽出部３７は、算出した連続関数により、信頼度マップＭｃのブロックよりも詳細に区切った各サブブロック（例えばサブピクセル単位）での信頼度を生成する。そして、特徴点抽出部３７は、信頼度が最大かつ閾値以上となるサブブロックの位置の座標値を、特徴点の座標値として算出する。これにより、特徴点抽出部３７は、離散データである信頼度マップＭｃに対する補間等を行い、特徴点となる座標値をより高精度に算出することができる。

第２抽出例では、特徴点抽出部３７は、信頼度マップＭｃの重心位置（即ち重心の座標値）を算出し、当該重心位置に対する信頼度が閾値以上である場合に、当該重心位置の座標値を特徴点の座標値とみなす。この場合、特徴点抽出部３７は、信頼度マップＭｃの各ブロックでの信頼度を各ブロックの重みとみなすことで、上述の重心位置の座標値を算出する。なお、特徴点抽出部３７は、重心位置の座標値をサブピクセル単位により特定してもよい。また、特徴点抽出部３７は、第１抽出例と同様、信頼度マップＭｃに近似する連続関数を算出し、切出し画像Ｉｃ２内の連続関数の値に基づき重心位置の座標値を算出してもよい。第２抽出例によっても、特徴点抽出部３７は、特徴点となる座標値を高精度に算出しつつ、特徴点が隠れている場合に誤って特徴点の座標値を抽出することを防ぐことができる。

第３抽出例では、特徴点抽出部３７は、信頼度マップＭｃにおける信頼度の極大値を特定し、特定した極大値がそれぞれ所定の閾値以上であるか否か判定する。そして、特徴点抽出部３７は、閾値以上となる極大値に対応する局所ピーク位置の座標値を、特徴点の座標値として抽出する。なお、第３抽出例においても、第１抽出例と同様、信頼度マップＭｃに近似する連続関数を算出し、局所ピーク位置の座標値を、特徴点の座標値としてサブピクセル単位により特定してもよい。第３抽出例によれば、特徴点抽出部３７は、第１抽出例及び第２抽出例と同様の効果に加え、候補領域ＡＣ内に対象の特徴点が複数存在する場合であっても、それぞれの特徴点の座標値を好適に抽出することができる。

（２）具体例
次に、識別装置３０による処理の具体例について、図５及び図６を参照して説明する。

図５（Ａ）は、第１識別器処理部３４に入力された対象画像Ｉｍ上に、対象の特徴点（ここでは鼻）に対して第１識別器処理部３４が算出した予測座標値Ｃｐ２を示す予測位置Ｐ４を明示した図である。図５（Ｂ）は、図５（Ａ）の対象画像Ｉｍ上に、候補領域設定部３５が設定した候補領域ＡＣを示した図である。図５（Ｃ）は、候補領域ＡＣに相当する切出し画像Ｉｃ２に対して第２識別器処理部３６が算出した信頼度マップＭｃを示した図である。なお、図５（Ｃ）では、候補領域ＡＣ内の信頼度が高い程、黒に高くなるように便宜上表示している。

この場合、第１識別器処理部３４は、図５（Ａ）に示す予測位置Ｐ４に相当する予測座標値Ｃｐ２を候補領域設定部３５に供給し、候補領域設定部３５は、領域パラメータ情報２４が示す縦幅Ｈ及び横幅Ｗに基づき、図５（Ｂ）に示すように、当該予測位置Ｐ４を中心位置とする候補領域ＡＣを設定する。そして、第２識別器処理部３６は、候補領域ＡＣを切り出した切出し画像Ｉｃ２を第２識別器に入力することで、切出し画像Ｉｃ２内のブロック毎（例えば画素毎）の信頼度を示す信頼度マップＭｃを算出する。そして、特徴点抽出部３７は、信頼度マップＭｃに基づき、切出し画像Ｉｃ２の上から５番目かつ左から４番目のブロックＢ４の信頼度が最も高く、かつ、所定の閾値以上であると判断する。よって、特徴点抽出部３７は、ブロックＢ４に対応する対象画像Ｉｍ内の座標値を特徴点の座標値として取得する。

図６（Ａ）は、第１識別器処理部３４に入力された対象画像Ｉｍ上に、対象の特徴点（ここでは鼻）に対して第１識別器処理部３４が算出した予測座標値Ｃｐ２を示す予測位置Ｐ５を明示した図である。図６（Ｂ）は、図６（Ａ）の対象画像Ｉｍ上に、候補領域設定部３５が設定した候補領域ＡＣを示した図である。図６（Ｃ）は、候補領域ＡＣに相当する切出し画像Ｉｃ２に対して第２識別器処理部３６が算出した信頼度マップＭｃを示した図である。なお、図６（Ａ）～（Ｃ）の例では、対象の特徴点（ここでは鼻）が対象者の前方に載置されたディスプレイにより対象画像Ｉｍ上において非表示となっている。また、図６（Ｃ）では、切出し画像Ｉｃ２内の信頼度が高い程、黒に高くなるように便宜上表示している。

この場合、第１識別器処理部３４は、図６（Ａ）に示す予測位置Ｐ４に相当する予測座標値Ｃｐ２を候補領域設定部３５に供給し、候補領域設定部３５は、領域パラメータ情報２４に基づき、図６（Ｂ）に示すように、当該予測位置Ｐ４を中心位置とする候補領域ＡＣを設定する。そして、第２識別器処理部３６は、候補領域ＡＣを切り出した切出し画像Ｉｃ２を第２識別器に入力することで、切出し画像Ｉｃ２内のブロック毎（例えば画素毎）の信頼度を示す信頼度マップＭｃを算出する。

ここで、第２識別器処理部３６が算出した図６（Ｃ）に示す信頼度マップＭｃでは、切出し画像Ｉｃ２の各ブロックにおける信頼度がいずれも閾値よりも低くなっている。よって、この場合、特徴点抽出部３７は、対象となる特徴点が切出し画像Ｉｃ２内に存在しないと判断し、特徴点抽出を行わない。

（３）処理フロー
図７は、識別装置３０が実行する識別処理の手順を示すフローチャートである。識別装置３０は、図７に示すフローチャートの処理を、対象画像Ｉｍが入力された場合に、検出すべき特徴点の種類毎に実行する。

まず、識別装置３０は、入力された対象画像Ｉｍを第１識別器に入力する処理を行う（ステップＳ２１）。この場合、識別装置３０は、第１識別器情報２３を参照することで第１識別器を構成し、対象画像Ｉｍを上記の第１識別器に入力することで、予測座標値Ｃｐ２を取得する。

次に、識別装置３０は、第１識別器から出力される予測座標値Ｃｐ２に基づき、対象画像Ｉｍに対して候補領域ＡＣを設定する（ステップＳ２２）。具体的には、識別装置３０は、領域パラメータ情報２４が示す領域パラメータと、予測座標値Ｃｐ２とに基づき、対象画像Ｉｍに対して候補領域ＡＣを設定する。

そして、識別装置３０は、候補領域ＡＣを対象画像Ｉｍから切り出した切出し画像Ｉｃ２を、第２識別器に入力する（ステップＳ２３）。この場合、識別装置３０は、第２識別器情報２５を参照することで第２識別器を構成し、切出し画像Ｉｃ２を上記の第２識別器に入力することで、切出し画像Ｉｃ２の各ブロックでの信頼度を示した信頼度マップＭｃを取得する。そして、識別装置３０は、第２識別器が出力する信頼度マップＭｃに基づき、対象の特徴点の有無の判定及び対象の特徴点が存在する場合の特徴点の座標値の抽出を行う（ステップＳ２４）。これにより、識別装置３０は、対象の特徴点が隠れている場合には特徴点の座標値を出力せず、対象の特徴点が対象画像Ｉｍ上に存在する場合に限り当該特徴点の座標値を出力することができる。

（４）効果
次に、図２に示す識別装置３０の機能構成に基づく効果について説明する。

上述したように、入力された画像に対して特徴点の座標値を直接出力する第１学習モデルのみを用いて特徴点抽出を行う場合、処理コストが軽量となる一方、特徴点抽出の位置精度が比較的低くなるといった課題や、特徴点が隠れている場合であっても座標値を出力してしまうといった課題がある。

一方、入力された画像に対して信頼度マップを出力する第２学習モデルのみを用いて特徴点抽出を行う場合、信頼度マップに基づき特定される特徴点の位置精度が高くなり、対象の特徴点が隠れている場合には信頼度の閾値処理などによって当該特徴点の抽出を防ぐことが可能となる。一方、このような学習モデルは、特徴点の種類毎に、入力された画像内の各ブロックの信頼度を算出することになり、学習処理及び学習後の識別処理に要する処理コストが高くなる。

以上勘案し、本実施形態では、識別装置３０は、第１学習モデルを学習した第１識別器を用いて低処理コストにより教師画像２１に対して候補領域ＡＣを設定し、第２学習モデルを学習した第２識別器に対して候補領域ＡＣに対応する切出し画像Ｉｃ２を入力する。これにより、識別装置３０は、第２識別器に入力させる画像サイズを好適に縮小して処理コストの増大を抑制しつつ、対象の特徴点に対する座標値を高精度に特定するための信頼度マップＭｃを取得できる。また、識別装置３０は、オクルージョンが発生した特徴点に対し、誤った特徴点の座標値を出力するのを好適に抑制することができる。

次に、識別装置３０の識別処理の適用例について、図８～図１０を参照して説明する。

図８は、魚を撮影した対象画像Ｉｍ上に、各特徴点に対する識別装置３０による処理結果を明示した図である。図８では、第１識別器処理部３４が算出する予測座標値Ｃｐ２に対応する予測位置Ｐ６～Ｐ９、候補領域ＡＣ、特徴点抽出部３７が抽出した各特徴点の座標値に対応する抽出位置Ｐａ６～Ｐａ９がそれぞれ明示されている。

この例では、学習装置１０は、魚の尾びれ、背びれ、腹、頭の各特徴点を抽出するための学習を図４のフローチャートの処理に基づき実行し、識別装置３０は、図７のフローチャートの処理に基づき、信頼度マップＭｃから、抽出位置Ｐａ６～Ｐａ９に相当する各特徴点の座標値を算出している。具体的には、識別装置３０は、第１識別器に対象画像Ｉｍを入力することで、抽出対象の特徴点（尾びれ、背びれ、腹、頭）の夫々に対する予測座標値Ｃｐ２（予測位置Ｐ６～Ｐ９に相当）を算出し、これらの予測座標値Ｃｐ２に対してそれぞれ候補領域ＡＣを設定している。そして、識別装置３０は、候補領域ＡＣの切出し画像Ｉｃ２を第２識別器に入力することで信頼度マップＭｃ２を対象の特徴点ごとに算出し、信頼度マップＭｃに基づき各特徴点の座標値（抽出位置Ｐａ６～Ｐａ９に相当）を算出している。

図８に示すように、抽出位置Ｐａ６～Ｐａ９は、予測位置Ｐ６～Ｐ９よりもより正確な特徴点の位置を指し示している。例えば、識別装置３０は、このように高精度に算出された各特徴点の抽出位置Ｐａ６～Ｐａ９を示す座標値を用いることで、対象画像Ｉｍに表示された魚の自動測定などを好適に実行することができる。

図９は、テニスコートを撮影した対象画像Ｉｍ上に、識別装置３０が抽出した座標値に対応する抽出位置Ｐａ１０～Ｐａ１３を明示した図である。

この例では、学習装置１０は、テニスコートの手前側コートの左コーナ、右コーナ、左ポールの頂点、右ポールの頂点の各特徴点を抽出するための学習を図４のフローチャートの処理に基づき実行する。そして、識別装置３０は、図７のフローチャートの処理に基づき、信頼度マップＭｃに基づく各特徴点の座標値（抽出位置Ｐａ１０～Ｐａ１３に相当）を高精度に算出している。

このようなスポーツ観戦中に撮影された画像を対象画像Ｉｍとして特徴点抽出を行うことで、スポーツ観戦におけるＡＲ（ＡｕｇｍｅｎｔｅｄＲｅａｌｉｔｙ）のキャリブレーションなどを好適に実行することができる。例えば、識別装置３０を内蔵するヘッドマウントディスプレイなどを用いてＡＲによる画像を現実世界に重畳表示する際に、識別装置３０は、ヘッドマウントディスプレイがユーザの視点近傍から撮影する対象画像Ｉｍに基づき、対象のスポーツにおいて基準となる所定の特徴点の座標値を算出する。これにより、ヘッドマウントディスプレイは、ＡＲのキャリブレーションを的確に実行し、現実世界に的確に対応付けた画像を表示させることが可能となる。

図１０は、人物を撮影した対象画像Ｉｍ上に、識別装置３０が抽出した座標値に対応する抽出位置Ｐａ１４、Ｐａ１５を明示した図である。

この例では、学習装置１０は、人の足首（ここでは左足首）を特徴点として抽出するための学習を図４のフローチャートの処理に基づき実行し、識別装置３０は、図７のフローチャートの処理に基づき、信頼度マップＭｃに基づく各特徴点の座標値（抽出位置Ｐａ１４、Ｐａ１５に相当）を算出している。

なお、図１０の例では、人が複数存在するため、識別装置３０は、例えば、入力された対象画像Ｉｍを複数の領域に分割し、分割後の複数の領域を対象画像Ｉｍとして図７のフローチャートの処理をそれぞれ実行してもよい。この場合、識別装置３０は、入力された対象画像Ｉｍを予め定めた大きさにより分割してもよく、公知の人物検知アルゴリズムにより検知した人物ごとに対象画像Ｉｍを分割してもよい。

このように人を撮影した画像を対象画像Ｉｍとして特徴点抽出を行うことで、セキュリティ分野に応用することも可能である。例えば、識別装置３０は、高精度に抽出された足首の座標値（抽出位置Ｐａ１４、Ｐａ１５に相当）を用いることで、人の位置を正確に捕捉し、例えば予め定められた所定エリアへの人の進入検知などを好適に実行することができる。

［変形例］
次に、上述の実施形態に好適な変形例について説明する。以下に説明する変形例は、任意に組み合わせて上述の実施形態に適用してもよい。

（変形例１）
学習装置１０は、図４のステップＳ１３において、第１識別器による予測座標値Ｃｐ１と、これに対応する教師ラベル２２が示す正解座標値との差のばらつきに基づき、候補領域ＡＣを決定するための領域パラメータを生成した。しかし、候補領域ＡＣの決定方法は、これに限定されない。以下では、候補領域ＡＣの他の決定方法（第２～第４の決定方法）について具体的に説明する。

候補領域ＡＣの第２の決定方法として、学習装置１０は、第２識別器が出力する信頼度マップＭｃの精度が最大となるような領域パラメータを学習することで、領域パラメータ情報２４を生成してもよい。具体的には、学習装置１０は、領域パラメータの候補となるパラメータ（「候補パラメータ」とも呼ぶ。）の各々に対する信頼度マップＭｃの精度に基づき、領域パラメータとして定める候補パラメータを選定してもよい。

この場合、学習装置１０は、例えば、第１識別器が出力する予測座標値Ｃｐ１に対し、複数の候補パラメータを適用することで、教師画像２１に対して複数パターンの候補領域ＡＣを設定する。図１１（Ａ）～（Ｃ）は、図３（Ａ）に示す教師画像２１に、異なる３つの候補パラメータを適用することで設定した候補領域ＡＣを明示した図である。図１１（Ａ）の例では、第１の候補パラメータとして横幅Ｗ１及び縦幅Ｈ１を用い、図１１（Ｂ）の例では、第２の候補パラメータとして横幅Ｗ２及び縦幅Ｈ２を用い、図１１（Ｃ）の例では、第３の候補パラメータとして横幅Ｗ３及び縦幅Ｈ３を用いている。

学習装置１０は、このように設定した複数パターンの候補領域ＡＣに基づき第２学習モデルの学習を行う。そして、学習装置１０は、学習された第２学習モデル（即ち第２識別器）が出力する信頼度マップＭｃに基づき特定した特徴点の座標値と、教師ラベル２２が示す正解座標値とを比較することで、各候補パラメータを用いた場合の信頼度マップＭｃの精度を算出する。例えば、学習装置１０は、この場合、信頼度マップＭｃに基づき特定した特徴点の座標値と、教師ラベル２２が示す正解座標値との差のばらつき（例えば分散値）が小さいほど、信頼度マップＭｃの精度が高いとみなす。そして、学習装置１０は、最も精度が高くなった候補パラメータを、領域パラメータとして定める。なお、この場合、学習装置１０は、最も精度が高くなった候補パラメータを基準としてその近傍値を指し示す候補パラメータを新たに設定してもよい。この場合、学習装置１０は、新たに設定した各候補パラメータを適用した場合に得られる信頼度マップＭｃの精度を算出し、基準とした候補パラメータを適用した場合に得られる信頼度マップＭｃの精度と比較することで、より適した領域パラメータの探索を行ってもよい。

候補領域ＡＣの第３の決定方法として、学習装置１０は、第１学習モデルとして、候補領域を決定するための複数の座標値を出力する学習モデルを用いてもよい。

この場合、例えば、第１学習モデルは、矩形領域となる候補領域ＡＣの対角位置の頂点の座標値を出力する演算モデルであり、学習装置１０は、この第１学習モデルを、教師画像２１及び教師ラベル２２に基づき学習を行う。この場合、教師ラベル２２には、対応する教師画像２１において設定すべき候補領域ＡＣの対角位置の頂点を示す正解座標値が記録されている。この場合、教師ラベル２２に記録される候補領域ＡＣの対角位置の頂点の座標値は、好適には、当該候補領域ＡＣが対象の特徴点が属する物又は部位（例えば鼻の場合には顔全体）以外を含まないように予め定められる。これにより、特徴点を抽出するのに好適な候補領域ＡＣを指し示す対角位置の頂点の座標値を出力する第１学習モデルを学習することができる。

図１２（Ａ）は、図３（Ａ）に示す教師画像２１上に、本変形例の教師ラベル２２が示す正解座標値に相当する正解位置Ｔ１１、Ｔ１２を明示した図である。この例では、設定すべき候補領域ＡＣの左上角及び右下角の座標値が正解座標値として教師ラベル２２に記録される。そして、正解位置Ｔ１１、Ｔ１２により特定される候補領域ＡＣは、対象の特徴点である鼻を含む顔以外の対象物が含まれないに設定される。

なお、この場合の第１学習モデルは、対角位置の頂点の座標値を出力する演算モデルに限定されない。例えば候補領域ＡＣを円領域とする場合には、第１学習モデルは、設定すべき候補領域ＡＣの中心を通る直線が当該候補領域ＡＣの境界と交わる２つの交点の座標値を出力する演算モデルであってもよい。

図１２（Ｂ）は、候補領域ＡＣを円領域とする場合の正解座標値が示す正解位置Ｔ１３、Ｔ１４を教師画像２１上に明示した図である。この例においても、正解位置Ｔ１３、Ｔ１４により特定される候補領域ＡＣは、対象の特徴点である鼻を含む顔以外の対象物が含まれないように好適に設定される。図１２（Ｃ）は、候補領域ＡＣを楕円領域とする場合の正解座標値が示す正解位置Ｔ１５～Ｔ１７を教師画像２１上に明示した図である。この例では、３つの正解座標値に基づき候補領域ＡＣが特定される。そして、この例においても、正解位置Ｔ１５～Ｔ１７により特定される候補領域ＡＣは、対象の特徴点である鼻を含む顔以外の対象物が含まれないに好適に設定される。

このように、第１学習モデルは、候補領域ＡＣの形状に応じ、当該形状を特定するのに必要な複数の座標値を出力する演算モデルであればよい。

図１３は、候補領域ＡＣの第３の決定方法を実行する場合の情報処理システム１００Ａのブロック構成図である。図１３に示すように、候補領域ＡＣの第３の決定方法では、情報処理システム１００Ａは、領域パラメータ情報２４を有しない。また、教師ラベル２２は、候補領域ＡＣを特定するための複数の正解座標値の情報を含む。そして、候補領域設定部１５は、第１学習部１４から供給される複数の予測座標値Ｃｐ１に基づき、教師画像２１に対する候補領域ＡＣを設定する。同様に、候補領域設定部３５は、第１識別器処理部３４から供給される複数の予測座標値Ｃｐ２に基づき、対象画像Ｉｍに対する候補領域ＡＣを設定する。

候補領域ＡＣの第４の決定方法として、学習装置１０は、第３の決定方法で用いた学習モデル（即ち候補領域ＡＣを決定するための複数の座標値を出力する学習モデル）に対し、信頼度マップＭｃの精度が最大となるような矩形の候補領域ＡＣの座標値を出力するように学習を行うことで、第１識別器を生成する。

具体的には、学習装置１０は、候補領域ＡＣを決定するための領域パラメータの候補となる候補パラメータの集合
｛（ｙ＿ｍｉｎ１，ｘ＿ｍｉｎ１，ｙ＿ｍａｘ１，ｘ＿ｍａｘ１），｛（ｙ＿ｍｉｎ２，ｘ＿ｍｉｎ２, ｙ＿ｍａｘ２, ｘ＿ｍａｘ２）,, ….｝
を予め記憶しておく。ここでは、学習装置１０は、一例として、矩形領域の頂点のうち、ｘ座標及びｙ座標が最小となる頂点と、ｘ座標及びｙ座標が最大となる頂点とをそれぞれ示す座標の組（例えば図１２（Ａ）に示す位置Ｔ１１、Ｔ１２の座標の組）を、候補パラメータとして記憶する。そして、学習装置１０は、それらの各候補パラメータに基づく候補領域ＡＣを切り出した切出し画像Ｉｃ１を第２識別器に入力することで、候補パラメータ毎に信頼度マップＭｃを取得する。そして、学習装置１０は、取得した信頼度マップＭｃの精度が最大となる候補パラメータを、第１学習器が出力すべき正解データ（即ち教師ラベル２２）として採用する。

学習装置１０は、この処理を教師画像２１毎に行い、教師画像２１及び特徴点毎に適した候補パラメータを決定して、第１学習器の学習を行う。そして、学習装置１０は、このように第１学習器を学習することで得た第１識別器の識別器情報を、第１識別器情報２３に記憶する。学習装置１０は、このような第１識別器を構築することで、信頼度マップＭｃの精度を最大化する候補領域ＡＣを、入力される対象画像Ｉｍ及び特徴点毎に予測することが可能となる。

（変形例２）
図１に示す情報処理システム１００の構成は一例であり、本発明を適用可能な構成はこれに限定されない。

例えば、学習装置１０と識別装置３０とは同一装置により構成されてもよい。他の例では、情報処理システム１００は、記憶装置２０を有しなくともよい。この場合、学習装置１０は、第１識別器情報２３、領域パラメータ情報２４及び第２識別器情報２５の生成後にこれらの情報を識別装置３０に対して送信し、識別装置３０は、受信した第１識別器情報２３、領域パラメータ情報２４及び第２識別器情報２５をメモリ３２内又は外部記憶装置に参照可能に記憶する。

（変形例３）
識別装置３０は、特徴点抽出部３７に相当する機能を有しなくともよい。

図１４は、変形例３における情報処理システム１００Ｂの機能ブロック図である。図１４の構成例では、例えば、識別装置３０は、第２識別器処理部３６が信頼度マップＭｃの生成後、特徴抽出処理を行う代わりに、信頼度マップＭｃを記憶装置２０に記憶させる。この場合、例えば、図示しない外部装置は、記憶装置２０に記憶された信頼度マップＭｃを参照することで、特徴点抽出部３７に相当する処理を実行する。なお、識別装置３０は、信頼度マップＭｃを記憶装置２０に記憶する代わりに、上述の外部装置に対して信頼度マップＭｃを送信してもよい。他の例では、識別装置３０又は上述の外部装置は、信頼度マップＭｃを入力として所定の処理を実行してもよい。

その他、上記の実施形態（変形例を含む、以下同じ）の一部又は全部は、以下の付記のようにも記載され得るが以下には限られない。

［付記１］
情報処理システムが実行する制御方法であって、
教師画像と、前記教師画像に含まれる特徴点に関する正解座標値を含む教師ラベルとに基づき、入力された画像から前記特徴点に関する予測座標値を出力するように学習された第１識別器を生成し、
前記第１識別器に前記教師画像を入力することで出力される予測座標値に基づいて、前記教師画像から前記特徴点の候補領域を設定し、
前記候補領域を前記教師画像から切り出した画像に基づき、入力された画像内の各ブロックでの前記特徴点に対する信頼度を示す信頼度マップを出力するように学習された第２識別器を生成し、
前記第１識別器に対象画像を入力することで、前記特徴点に関する予測座標値を取得し、
前記予測座標値に基づいて、前記対象画像から前記特徴点の候補領域を設定し、
前記第２識別器に、前記対象画像から前記候補領域を切り出した画像を入力することで、当該切り出した画像に対する前記信頼度マップを出力する、制御方法。

［付記２］
教師画像と、前記教師画像に含まれる特徴点に関する正解座標値を含む教師ラベルとに基づき、入力された画像から前記特徴点に関する予測座標値を出力するように学習された第１識別器を生成する第１学習部と、
前記第１識別器に前記教師画像を入力することで出力される予測座標値に基づいて、前記教師画像から前記特徴点の候補領域を設定する候補領域設定部と、
前記候補領域を前記教師画像から切り出した画像に基づき、入力された画像内の各ブロックでの前記特徴点に対する信頼度を示す信頼度マップを出力するように学習された第２識別器を生成する第２学習部と、
を有する学習装置。

［付記３］
前記候補領域設定部は、前記予測座標値と、当該予測座標値に対する前記正解座標値との差を複数の前記教師画像に対して算出し、算出した前記差のばらつきに基づき、前記予測座標値から前記候補領域を設定する、付記２に記載の学習装置。

［付記４］
前記特徴点に関する正解座標値は、当該特徴点に対する候補領域を指定する複数の正解座標値であり、
前記第１学習部は、前記教師画像と、前記複数の正解座標値とに基づき、入力された画像から前記候補領域を指定する複数の予測座標値を出力する前記第１識別器を生成し、
前記候補領域設定部は、前記複数の予測座標値から前記候補領域を設定する、付記２に記載の学習装置。

［付記５］
前記第１学習部は、前記複数の正解座標値の複数の候補のうち、当該候補の各々が示す候補領域に対する前記信頼度マップの精度が最大となる候補を選定し、当該候補と、前記教師画像とに基づき、入力された画像から前記候補領域を指定する複数の予測座標値を出力する前記第１識別器を生成する、付記４に記載の学習装置。

［付記６］
前記候補領域設定部は、前記予測座標値から前記候補領域を設定するためのパラメータを生成する場合に、前記パラメータに対する複数の候補の各々に対する前記信頼度マップの精度に基づき、前記パラメータとして用いる前記候補を決定する、付記２に記載の学習装置。

［付記７］
教師画像と、前記教師画像に含まれる特徴点に関する正解座標値を含む教師ラベルとに基づき、入力された画像から前記特徴点に関する予測座標値を出力するように学習された第１識別器に対象画像を入力することで、前記特徴点に関する予測座標値を取得する第１識別器処理部と、
前記予測座標値に基づいて、前記対象画像から前記特徴点の候補領域を設定する候補領域設定部と、
前記候補領域を前記教師画像から切り出した画像に基づき、入力された画像から前記特徴点の当該画像内の各ブロックでの信頼度を示す信頼度マップを出力するように学習された第２識別器に、前記対象画像から前記候補領域を切り出した画像を入力することで、当該切り出した画像に対する前記信頼度マップを出力する第２識別器処理部と、
を備える識別装置。

［付記８］
前記信頼度マップに基づき前記特徴点の候補となる座標値を算出し、当該座標値に対応する信頼度が所定の閾値以上の場合に、当該座標値を前記特徴点の座標値として決定する特徴点抽出部をさらに備える、付記６に記載の識別装置。

［付記９］
前記特徴点抽出部は、前記信頼度マップの重心位置を、前記特徴点の座標値として決定する、付記７または８に記載の識別装置。

［付記１０］
前記特徴点抽出部は、前記信頼度の極大点となる座標値を、前記特徴点の座標値として決定する、付記７または８に記載の識別装置。

［付記１１］
前記特徴点抽出部は、前記信頼度マップを近似させた関数に基づき、前記特徴点の座標値を決定する、付記７～１０のいずれか一項に記載の識別装置。

［付記１２］
前記候補領域設定部は、前記第１識別器が出力する予測座標値から前記候補領域を設定するためのパラメータである領域パラメータを記憶した記憶装置から読み出した当該領域パラメータと、前記予測座標値とに基づき、前記候補領域を設定する、付記６～１０のいずれか一項に記載の識別装置。

［付記１３］
学習装置が実行する制御方法であって、
教師画像と、前記教師画像に含まれる特徴点に関する正解座標値を含む教師ラベルとに基づき、入力された画像から前記特徴点に関する予測座標値を出力するように学習された第１識別器を生成し、
前記第１識別器に前記教師画像を入力することで出力される予測座標値に基づいて、前記教師画像から前記特徴点の候補領域を設定し、
前記候補領域を前記教師画像から切り出した画像に基づき、入力された画像内の各ブロックでの前記特徴点に対する信頼度を示す信頼度マップを出力するように学習された第２識別器を生成する、制御方法。

［付記１４］
識別装置が実行する制御方法であって、
教師画像と、前記教師画像に含まれる特徴点に関する正解座標値を含む教師ラベルとに基づき、入力された画像から前記特徴点に関する予測座標値を出力するように学習された第１識別器に対象画像を入力することで、前記特徴点に関する予測座標値を取得し、
前記予測座標値に基づいて、前記対象画像から前記特徴点の候補領域を設定し、
前記候補領域を前記教師画像から切り出した画像に基づき、入力された画像から前記特徴点の当該画像内の各ブロックでの信頼度を示す信頼度マップを出力するように学習された第２識別器に、前記対象画像から前記候補領域を切り出した画像を入力することで、当該切り出した画像に対する前記信頼度マップを出力する、制御方法。

［付記１５］
コンピュータが実行するプログラムであって、
教師画像と、前記教師画像に含まれる特徴点に関する正解座標値を含む教師ラベルとに基づき、入力された画像から前記特徴点に関する予測座標値を出力するように学習された第１識別器を生成する第１学習部と、
前記第１識別器に前記教師画像を入力することで出力される予測座標値に基づいて、前記教師画像から前記特徴点の候補領域を設定する候補領域設定部と、
前記候補領域を前記教師画像から切り出した画像に基づき、入力された画像内の各ブロックでの前記特徴点に対する信頼度を示す信頼度マップを出力するように学習された第２識別器を生成する第２学習部
として前記コンピュータを機能させる、プログラム。

［付記１６］
コンピュータが実行するプログラムであって、
教師画像と、前記教師画像に含まれる特徴点に関する正解座標値を含む教師ラベルとに基づき、入力された画像から前記特徴点に関する予測座標値を出力するように学習された第１識別器に対象画像を入力することで、前記特徴点に関する予測座標値を取得する第１識別器処理部と、
前記予測座標値に基づいて、前記対象画像から前記特徴点の候補領域を設定する候補領域設定部と、
前記候補領域を前記教師画像から切り出した画像に基づき、入力された画像から前記特徴点の当該画像内の各ブロックでの信頼度を示す信頼度マップを出力するように学習された第２識別器に、前記対象画像から前記候補領域を切り出した画像を入力することで、当該切り出した画像に対する前記信頼度マップを出力する第２識別器処理部
として前記コンピュータを機能させる、プログラム。

以上、実施形態を参照して本願発明を説明したが、本願発明は上記実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。すなわち、本願発明は、請求の範囲を含む全開示、技術的思想にしたがって当業者であればなし得るであろう各種変形、修正を含むことは勿論である。また、引用した上記の特許文献等の各開示は、本書に引用をもって繰り込むものとする。

１０学習装置
１１、３１プロセッサ
１２、３２メモリ
２０記憶装置
２１教師画像
２２教師ラベル
２３第１識別器情報
２４領域パラメータ情報
２５第２識別器情報
３０識別装置
１３、３３インターフェース

１００、１００Ａ、１００Ｂ情報処理システム

Claims

情報処理システムが実行する制御方法であって、
対象物を撮影したサンプル画像と、前記サンプル画像に含まれる前記対象物の特徴点に関する正解座標値を含む教師ラベルとに基づき、入力された前記サンプル画像から前記特徴点に関する予測座標値を出力するように学習された第１識別器を生成し、
前記第１識別器に前記サンプル画像を入力することで出力される予測座標値に基づいて、前記サンプル画像から前記特徴点の候補領域を設定し、
前記候補領域を前記サンプル画像から切り出した画像に基づき、入力された画像内の各ブロックでの前記特徴点に対する信頼度を示す信頼度マップを出力するように学習された第２識別器を生成し、
前記第１識別器に対象画像を入力することで、前記特徴点に関する予測座標値を取得し、
前記予測座標値に基づいて、前記対象画像から前記特徴点の候補領域を設定し、
前記第２識別器に、前記対象画像から前記候補領域を切り出した画像を入力することで、当該切り出した画像に対する前記信頼度マップを出力する、制御方法。
対象物を撮影したサンプル画像と、前記サンプル画像に含まれる前記対象物の特徴点に関する正解座標値を含む教師ラベルとに基づき、入力された画像から前記特徴点に関する予測座標値を出力するように学習された第１識別器を生成する第１学習手段と、
前記第１識別器に前記サンプル画像を入力することで出力される予測座標値に基づいて、前記サンプル画像から前記特徴点の候補領域を設定する候補領域設定手段と、
前記候補領域を前記サンプル画像から切り出した画像に基づき、入力された画像内の各ブロックでの前記特徴点に対する信頼度を示す信頼度マップを出力するように学習された第２識別器を生成する第２学習手段と、
を有する学習装置。
前記候補領域設定手段は、前記予測座標値と、当該予測座標値に対する前記正解座標値との差を複数の前記サンプル画像に対して算出し、算出した前記差のばらつきに基づき、前記予測座標値から前記候補領域を設定する、請求項２に記載の学習装置。
対象物を撮影したサンプル画像と、前記サンプル画像に含まれる前記対象物の特徴点に関する正解座標値を含む教師ラベルとに基づき、入力された画像から前記特徴点に関する予測座標値を出力するように学習された第１識別器に対象画像を入力することで、前記特徴点に関する予測座標値を取得する第１識別器処理手段と、
前記予測座標値に基づいて、前記対象画像から前記特徴点の候補領域を設定する候補領域設定手段と、
入力された画像から前記特徴点の当該画像内の各ブロックでの信頼度を示す信頼度マップを出力するように学習された第２識別器に、前記対象画像から前記候補領域を切り出した画像を入力することで、当該切り出した画像に対する前記信頼度マップを出力する第２識別器処理手段と、
を備える識別装置。
前記信頼度マップに基づき前記特徴点の候補となる座標値を算出し、当該座標値に対応する信頼度が所定の閾値以上の場合に、当該座標値を前記特徴点の座標値として決定する特徴点抽出手段をさらに備える、請求項４に記載の識別装置。
前記特徴点抽出手段は、前記信頼度マップの重心位置を、前記特徴点の座標値として決定する、請求項５に記載の識別装置。
学習装置が実行する制御方法であって、
対象物を撮影したサンプル画像と、前記サンプル画像に含まれる前記対象物の特徴点に関する正解座標値を含む教師ラベルとに基づき、入力された画像から前記特徴点に関する予測座標値を出力するように学習された第１識別器を生成し、
前記第１識別器に前記サンプル画像を入力することで出力される予測座標値に基づいて、前記サンプル画像から前記特徴点の候補領域を設定し、
前記候補領域を前記サンプル画像から切り出した画像に基づき、入力された画像内の各ブロックでの前記特徴点に対する信頼度を示す信頼度マップを出力するように学習された第２識別器を生成する、制御方法。
識別装置が実行する制御方法であって、
対象物を撮影したサンプル画像と、前記サンプル画像に含まれる前記対象物の特徴点に関する正解座標値を含む教師ラベルとに基づき、入力された画像から前記特徴点に関する予測座標値を出力するように学習された第１識別器に対象画像を入力することで、前記特徴点に関する予測座標値を取得し、
前記予測座標値に基づいて、前記対象画像から前記特徴点の候補領域を設定し、
入力された画像から前記特徴点の当該画像内の各ブロックでの信頼度を示す信頼度マップを出力するように学習された第２識別器に、前記対象画像から前記候補領域を切り出した画像を入力することで、当該切り出した画像に対する前記信頼度マップを出力する、制御方法。
コンピュータが実行するプログラムであって、
対象物を撮影したサンプル画像と、前記サンプル画像に含まれる前記対象物の特徴点に関する正解座標値を含む教師ラベルとに基づき、入力された画像から前記特徴点に関する予測座標値を出力するように学習された第１識別器を生成する第１学習手段と、
前記第１識別器に前記サンプル画像を入力することで出力される予測座標値に基づいて、前記サンプル画像から前記特徴点の候補領域を設定する候補領域設定手段と、
前記候補領域を前記サンプル画像から切り出した画像に基づき、入力された画像内の各ブロックでの前記特徴点に対する信頼度を示す信頼度マップを出力するように学習された第２識別器を生成する第２学習手段
として前記コンピュータを機能させるプログラム。
コンピュータが実行するプログラムであって、
対象物を撮影したサンプル画像と、前記サンプル画像に含まれる前記対象物の特徴点に関する正解座標値を含む教師ラベルとに基づき、入力された画像から前記特徴点に関する予測座標値を出力するように学習された第１識別器に対象画像を入力することで、前記特徴点に関する予測座標値を取得する第１識別器処理手段と、
前記予測座標値に基づいて、前記対象画像から前記特徴点の候補領域を設定する候補領域設定手段と、
入力された画像から前記特徴点の当該画像内の各ブロックでの信頼度を示す信頼度マップを出力するように学習された第２識別器に、前記対象画像から前記候補領域を切り出した画像を入力することで、当該切り出した画像に対する前記信頼度マップを出力する第２識別器処理手段
として前記コンピュータを機能させるプログラム。