JP2020107244A - 姿勢推定装置、学習装置及びプログラム - Google Patents
姿勢推定装置、学習装置及びプログラム Download PDFInfo
- Publication number
- JP2020107244A JP2020107244A JP2018247875A JP2018247875A JP2020107244A JP 2020107244 A JP2020107244 A JP 2020107244A JP 2018247875 A JP2018247875 A JP 2018247875A JP 2018247875 A JP2018247875 A JP 2018247875A JP 2020107244 A JP2020107244 A JP 2020107244A
- Authority
- JP
- Japan
- Prior art keywords
- learning
- posture
- angle
- angles
- accuracy
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000006870 function Effects 0.000 claims description 19
- 238000013528 artificial neural network Methods 0.000 claims description 13
- 238000012885 constant function Methods 0.000 claims description 3
- 230000015572 biosynthetic process Effects 0.000 abstract description 15
- 238000003786 synthesis reaction Methods 0.000 abstract description 15
- 230000007935 neutral effect Effects 0.000 abstract 1
- 238000000034 method Methods 0.000 description 19
- 238000010586 diagram Methods 0.000 description 8
- 210000000056 organ Anatomy 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 6
- 238000013527 convolutional neural network Methods 0.000 description 6
- 210000003128 head Anatomy 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 230000001815 facial effect Effects 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 230000003247 decreasing effect Effects 0.000 description 2
- 238000006073 displacement reaction Methods 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 239000000470 constituent Substances 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Images
Landscapes
- Image Analysis (AREA)
Abstract
【課題】被写体の姿勢を簡易かつ高精度に推定する。【解決手段】姿勢推定装置1の識別部10は、画像Iを入力し、例えば畳み込みニューラルネットワークにて、予め設定されたパラメータpを用いて、N個の離散的な角度θnの識別処理を行い、それぞれの確度値w(θn)を求める。加重合成部20は、N個の角度θnに対するそれぞれの確度値w(θn)に応じた重み付けにより、N個の角度θnの加重合成処理を行い、連続的な姿勢情報θを生成する。【選択図】図1
Description
本発明は、入力画像から被写体の姿勢を推定する姿勢推定装置、入力画像と被写体の姿勢の関係を学習する学習装置、及びプログラムに関する。
従来、被写体を含む入力画像から当該被写体の姿勢を推定する姿勢推定装置が知られている。例えば、顔の姿勢を推定するために、テンプレートを用いて入力画像との間でマッチング処理を行う技術が開示されている(例えば、特許文献1を参照)。具体的には、この技術は、顔を構成する眼等の器官のテンプレートを用いて、入力画像から頭部姿勢を推定し、眼等の器官の位置を計算し、頭部モデルを適合して頭部の回転変位及び並進変位を決定するものである。
また、例えば、顔の姿勢を推定するために、入力画像の色ヒストグラムに基づく識別結果と、色ヒストグラム以外の特徴量(例えば、勾配ヒストグラム)に基づく識別結果とを統合化する技術が開示されている(例えば、特許文献2を参照)。
しかしながら、前述の特許文献1のテンプレートマッチングによる技術は、顔の姿勢を推定するために、顔を構成する眼等の器官毎のテンプレートが予め必要である。このため、顔を構成する器官毎のテンプレートを用意するのに手間がかかるという問題があった。
また、前述の特許文献2の技術は、入力画像の色ヒストグラムと例えば勾配ヒストグラムとに基づいて、顔の姿勢の推定を低負荷に行うものである。
しかしながら、入力画像には色ヒストグラム及び勾配ヒストグラム以外にも、顔の姿勢を推定するために有用な情報が含まれ得る。例えば、周波数領域における位相情報、特徴的なパターンの見え方(傾き、位置、大きさ、縦横比等)等も有用となる可能性があるが、特許文献2の技術では、これらの情報を有効に活用していない。このため、色ヒストグラム等の情報に限定した処理では、顔の姿勢の推定精度が不十分であるという問題があった。
そこで、本発明は前記課題を解決するためになされたものであり、その目的は、被写体の姿勢を簡易かつ高精度に推定可能な姿勢推定装置、学習装置及びプログラムを提供することにある。
前記課題を解決するために、請求項1の姿勢推定装置は、入力画像に含まれる被写体の姿勢を推定する姿勢推定装置において、前記入力画像に基づいて前記被写体の角度を識別し、予め設定された複数の角度のそれぞれに対応する確度値を求める識別部と、前記識別部により求めた前記複数の角度のそれぞれに対応する前記確度値に応じた重み付けにより、前記複数の角度を加重合成し、姿勢情報を求める加重合成部と、を備えたことを特徴とする。
請求項1の発明によれば、識別部は、離散的な角度に対する確度値を求めればよいから、連続的な角度の確度値を求める場合に比べ、回路規模を削減することができる。また、加重合成部により、離散的な角度に対する確度値を用いて、連続的な角度情報である姿勢情報が得られる。加重合成部の処理は、積和演算で済むから低負荷である。したがって、低負荷かつ小規模な回路により、連続的な姿勢情報を得ることができる。
また、請求項2の姿勢推定装置は、請求項1に記載の姿勢推定装置において、前記識別部が、ニューラルネットワークにより構成される、ことを特徴とする。
請求項2の発明によれば、ニューラルネットワークの構成及び種類並びにパラメータである結合重み係数の設定次第で、入力画像の多様な特徴のうち姿勢を推定するために好適な特徴を抽出するネットワークを構築することができる。その結果、特定の特徴量を用いて姿勢を推定する従来の手法よりも、推定精度を向上させることができる。また、被写体の部分(例えば、顔の器官)毎のテンプレートを明示的に与える必要もない。
また、請求項3の姿勢推定装置は、請求項1または2に記載の姿勢推定装置において、前記姿勢情報を前記被写体の角度とする、または、前記姿勢情報をベクトル値または複素数値として表したときのノルムを信頼度とした場合に、前記姿勢情報を、前記被写体の角度及び当該角度における前記信頼度とする、ことを特徴とする。
請求項3の発明によれば、姿勢情報を被写体の角度及び信頼度とすることで、被写体の角度の信頼度も定量化することができる。これにより、当該姿勢推定装置により得られた姿勢情報を用いて他の処理を行う場合、信頼度の低い姿勢情報については、他の処理のために用いないようにする。つまり、当該姿勢推定装置、及び姿勢情報を用いる装置を含む全体システムにおいて、信頼度を向上させることができる。
さらに、請求項4の学習装置は、学習データとして被写体を含む画像及び前記被写体の姿勢情報を入力し、前記学習データを用いてモデルを学習し、当該モデルのパラメータの最適化を行う学習装置において、前記姿勢情報に基づいて、予め設定された複数の角度のそれぞれに対応する学習用確度値を求める確度生成部と、前記画像、及び前記確度生成部により求めた前記複数の角度のそれぞれに対応する前記学習用確度値に基づいて、前記被写体の角度を識別するための前記モデルを学習し、前記被写体の姿勢を推定するために用いる前記パラメータを更新する学習用識別部と、を備えたことを特徴とする。
請求項4の発明によれば、姿勢情報から、複数の角度のそれぞれに対応する学習用確度値を得ることができ、画像及び学習用確度値を用いてモデルを学習することができ、最適化したパラメータを得ることができる。
また、請求項5の学習装置は、請求項4に記載の学習装置において、前記確度生成部が、前記姿勢情報のベクトルと前記複数の角度のそれぞれのベクトルとの間のなす角を算出し、当該なす角に対し、広義単調減少かつ非定数の関数を適用し、前記複数の角度のそれぞれに対応する前記学習用確度値を求める、ことを特徴とする。
請求項5の発明によれば、姿勢情報に近い角度ほど、学習用確度値が大きくなる。このような学習用確度値を用いる学習用識別部は、モデルにより姿勢情報に近い角度の姿勢が推定されるように、パラメータを更新することができる。このパラメータを姿勢推定装置に用いることで、被写体の姿勢を適切に推定することができる。
また、請求項6の学習装置は、請求項4に記載の学習装置において、前記確度生成部が、前記姿勢情報のベクトルと前記複数の角度のそれぞれのベクトルとの間のなす角を算出し、前記複数の角度のうち前記なす角が最小となる角度について、所定値を前記学習用確度値に設定し、前記複数の角度のうち前記なす角が最小とならない角度について、前記所定値よりも小さい値を前記学習用確度値に設定する、ことを特徴とする。
請求項6の発明によれば、学習用確度値は2値であるため、学習用確度値に対応する各角度に対し、2値分類の学習を行えばよいこととなる。その結果、学習用識別部の回路規模を小さくすることができ、学習効率を向上させることができる。
さらに、請求項7のプログラムは、コンピュータを、請求項1から3までのいずれか一項に記載の姿勢推定装置として機能させることを特徴とする。
また、請求項8のプログラムは、コンピュータを、請求項4から6までのいずれか一項に記載の学習装置として機能させることを特徴とする。
以上のように、本発明によれば、被写体の姿勢を簡易かつ高精度に推定することができる。
以下、本発明を実施するための形態について図面を用いて詳細に説明する。本発明の 実施形態による姿勢推定装置は、姿勢推定の対象となる画像Iを入力し、予め設定されたパラメータpを用いて、画像Iに基づき姿勢情報θ及び必要に応じてその信頼度rを推定して出力する。
画像Iは、例えば、人の頭部画像とする。姿勢情報θは、例えば、画像Iを撮影したカメラに対して人の頭部が正対した場合を0とし、所定の回転方向(例えば、人の上から見て反時計回り)を正の回転角とした場合の角度値(0ラジアン以上2πラジアン未満の角度値)とする。
画像Iの大きさ、形状及び解像度は、好適には固定とする。例えば、画像Iは、水平W画素及び垂直H画素の矩形画像とする。W及びHは自然数とする。画像Iは、例えばカラー画像であってもよいし、モノクロ画像であってもよい。
姿勢情報θは、角度値であってもよいし、方向ベクトルのベクトル値または複素数値(フェーザ)であってもよい。姿勢情報θを角度値にて表現する場合、θの範囲を所定範囲に限定してもよい(θを弧度法で表す場合には、例えば、0≦θ<2πとする)。また、姿勢情報θをベクトル値または複素数値にて表現する場合、そのノルム値(例えば、ユークリッドノルム値)は1とする。信頼度rは、例えば0以上1以下の実数値とする。
尚、姿勢情報θ及び信頼度rを一括して、ベクトル値または複素数値としての姿勢情報θとして表現してもよい。このとき、姿勢情報θの偏角を姿勢角に呼応させ、姿勢情報θのノルム値を信頼度rに呼応させる。
また、本発明の実施形態による学習装置は、画像Jk及び姿勢情報φkを学習データとして、画像Jkと姿勢情報φkとの間の関係を学習し、姿勢推定装置にて使用する最適なパラメータpを求める。
〔姿勢推定装置〕
次に、本発明の実施形態による姿勢推定装置について詳細に説明する。図1は、本発明の実施形態による姿勢推定装置の構成の一例を示すブロック図であり、図2は、姿勢推定装置の処理の一例を示すフローチャートである。この姿勢推定装置1は、入力画像に含まれる被写体の姿勢を推定する装置であり、識別部10及び加重合成部20を備えている。
次に、本発明の実施形態による姿勢推定装置について詳細に説明する。図1は、本発明の実施形態による姿勢推定装置の構成の一例を示すブロック図であり、図2は、姿勢推定装置の処理の一例を示すフローチャートである。この姿勢推定装置1は、入力画像に含まれる被写体の姿勢を推定する装置であり、識別部10及び加重合成部20を備えている。
(識別部10)
識別部10は、姿勢推定の対象となる画像Iを入力し、予め設定されたパラメータpを用いて、画像Iに含まれる被写体についてN個の代表的な角度θnの識別処理を行い、それぞれの確度値w(θn)を求める。Nは2以上の自然数であり、nは0以上N−1以下の整数である。N個の代表的な角度θnは、予め設定される。そして、識別部10は、N個の角度θnに対するそれぞれの確度値w(θn)からなる確度値列(w(θn))n∈{0,1,…,N-1}を加重合成部20に出力する。
識別部10は、姿勢推定の対象となる画像Iを入力し、予め設定されたパラメータpを用いて、画像Iに含まれる被写体についてN個の代表的な角度θnの識別処理を行い、それぞれの確度値w(θn)を求める。Nは2以上の自然数であり、nは0以上N−1以下の整数である。N個の代表的な角度θnは、予め設定される。そして、識別部10は、N個の角度θnに対するそれぞれの確度値w(θn)からなる確度値列(w(θn))n∈{0,1,…,N-1}を加重合成部20に出力する。
すなわち、識別部10は、入力信号を画像Iとし、出力信号を、N個の代表的な角度θnに対するそれぞれの確度値w(θn)とする識別器である。後述する図3においては、入力信号であるの画像Iを、各画素3成分からなるカラー画像とし、N=8としている。
識別部10は、例えばニューラルネットワークにより構成される。図3は、識別部10の構成の一例を示すブロック図であり、識別部10が畳み込みニューラルネットワークにより構成された場合を示している。識別部10は、畳み込み層(畳み込み部)11,12,13,14及び全結合層(全結合部)15,16からなる畳み込みニューラルネットワークにより構成される。
尚、ニューラルネットワークの層数、素子数、活性化関数、畳み込み層の有無、畳み込みカーネルの大きさ、全結合層の有無、ストライド(サブサンプリング)の有無及びステップ、プーリング層の有無及び種類、ドロップアウトの有無等の構成は任意である。また、識別部10は、畳み込みニューラルネットワーク以外のニューラルネットワークであってもよい。
図3において、例えば、識別部10が入力する画像Iを、水平W=20画素、垂直H=20画素及び色3成分からなる20×20×3の3階テンソルとする。以下、水平W画素数×垂直H画素数×成分数で表される水平画素、垂直画素及び成分を、説明の便宜上「画素成分」という。
図2及び図3を参照して、畳み込み層11は、20×20×3画素成分の3階テンソルの画像Iを入力する(ステップS201)。そして、畳み込み層11は、画像Iに対し、3×3×3画素成分の畳み込みフィルタを2×2のストライドにおいて12種類適用し、予め設定されたパラメータpを用いて畳み込み処理を行う。畳み込み層11は、10×10×12画素成分の3階テンソルの画像T1を生成する(ステップS202)。
尚、畳み込みニューラルネットワークにおける畳み込み層11,12,13,14による畳み込み処理は既知であるから、ここでは詳細な説明を省略する。
畳み込み層11は、10×10×12画素成分の3階テンソルの画像T1を畳み込み層12に出力する。画像T1は、水平W=10画素、垂直H=10画素及び12成分からなる3階テンソルの画像である。
畳み込み層12は、畳み込み層11から、10×10×12画素成分の3階テンソルの画像T1を入力する。そして、畳み込み層12は、画像T1に対し、3×3×3画素成分の畳み込みフィルタを2×2のストライドにおいて24種類適用し、予め設定されたパラメータpを用いて畳み込み処理を行う。畳み込み層12は、5×5×24画素成分の3階テンソルの画像T2を生成する(ステップS203)。
畳み込み層12は、5×5×24画素成分の3階テンソルの画像T2を畳み込み層13に出力する。画像T2は、水平W=5画素、垂直H=5画素及び24成分からなる3階テンソルの画像である。
畳み込み層13は、畳み込み層12から、5×5×24画素成分の3階テンソルの画像T2を入力する。そして、畳み込み層13は、画像T2に対し、3×3×3画素成分の畳み込みフィルタを1×1のストライドにおいて32種類適用し、予め設定されたパラメータpを用いて畳み込み処理を行う。畳み込み層13は、3×3×32画素成分の3階テンソルの画像T3を生成する(ステップS204)。
畳み込み層13は、3×3×32画素成分の3階テンソルの画像T3を畳み込み層14に出力する。画像T3は、水平W=3画素、垂直H=3画素及び32成分からなる3階テンソルの画像である。
畳み込み層14は、畳み込み層13から、3×3×32画素成分の3階テンソルの画像T3を入力する。そして、畳み込み層14は、画像T3に対し、3×3×3画素成分の畳み込みフィルタを1×1のストライドにおいて64種類適用し、予め設定されたパラメータpを用いて畳み込み処理を行う。畳み込み層14は、1×1×64画素成分の3階テンソルの画像(64成分のベクトルV1)を生成する(ステップS205)。畳み込み層14は、64成分のベクトルV1を全結合層15に出力する。
全結合層15は、畳み込み層14から64成分のベクトルV1を入力し、予め設定されたパラメータpを用いて、64成分のベクトルV1を構成する全ての成分を結合するための全結合処理を行い、16成分のベクトルV2を生成する(ステップS206)。そして、全結合層15は、16成分のベクトルV2を全結合層16に出力する。つまり、全結合層15は、入力信号である64成分のベクトルV1の各要素と、出力信号である16成分のベクトルV2の各要素とを全て結合するネットワークである。
尚、畳み込みニューラルネットワークにおける全結合層15,16による全結合処理は既知であるから、ここでは詳細な説明を省略する。
全結合層16は、全結合層15から16成分のベクトルV2を入力し、予め設定されたパラメータpを用いて、16成分のベクトルV2を構成する全ての成分を結合するための全結合処理を行う。全結合層16は、8成分のベクトルV3(確度値w(θn),n=0,1,・・・,7)を生成する(ステップS207)。
全結合層16は、8成分のベクトルV3である、8個の角度θnに対するそれぞれの確度値w(θn)からなる確度値列(w(θn))n∈{0,1,…,7}を加重合成部20に出力する。この場合、θ0=0・2π/8=0,θ1=1・2π/8=π/4,θ2=2・2π/8=π/2,・・・,θ7=7・2π/8=7π/4である。つまり、全結合層16は、入力信号である16成分のベクトルV2の各要素と、出力信号である8成分のベクトルV3の各要素とを全て結合するネットワークである。
このように、識別部10は、離散的な角度θnに対する確度値w(θn)を求めればよいから、連続的な角度に対する確度値を求める場合に比べ、簡易な処理で済み、かつ回路規模を削減することができる。
尚、畳み込み層11,12,13,14及び全結合層15,16を構成する素子(ニューロン)には、バイアス値を設定するようにしてもよい。また、畳み込み層11,12,13,14及び全結合層15,16を構成する素子に適用する活性化関数は任意であるが、例えば半波整流関数(ReLU:Rectified Linear Unit)、シグモイド(Sigmoid)関数、双曲線正接関数等を用いることができる。
畳み込み層11,12,13,14及び全結合層15,16にて用いるパラメータpは、図1に示した姿勢推定装置1における識別部10の識別方法を特定するためのパラメータである。識別部10がニューラルネットワークによる場合は、重み値、バイアス値、フィルタ係数等の結合重み係数である。パラメータpは、後述する学習装置2により予め求めた値が用いられ、姿勢推定装置1に備えたROM(Read Only Memory)等に格納しておくようにしてもよいし、外部から更新できるように、RAM(Random Access Memory)またはフラッシュROMに格納しておくようにしてもよい。
(加重合成部20)
図1及び図2に戻って、加重合成部20は、識別部10から、N個(図3の例ではN=8)の角度θnに対するそれぞれの確度値w(θn)からなる確度値列(w(θn))n∈{0,1,…,N-1}を入力する。
図1及び図2に戻って、加重合成部20は、識別部10から、N個(図3の例ではN=8)の角度θnに対するそれぞれの確度値w(θn)からなる確度値列(w(θn))n∈{0,1,…,N-1}を入力する。
加重合成部20は、N個の角度θnに対するそれぞれの確度値w(θn)に応じた重み付けにより、N個の角度θnの加重合成処理を行い、姿勢情報θを推定する(ステップS208)。そして、加重合成部20は、姿勢情報θを出力する(ステップS209)。
尚、複素数ζの代わりに、複素数ζの実部及び虚部を成分とする2次元ベクトル値を用いて、前記式(2)の演算を行うようにしてもよい。
また、加重合成部20は、姿勢情報θ及び信頼度rを一括して、ベクトル値または複素数値としての姿勢情報θを表現する場合、前記式(2)において、以下の式のとおり、複素数ζを姿勢情報θとしてそのまま出力する。
このように、加重合成部20は、離散的な角度θnに対する確度値w(θn)を重みとして角度θnを加重合成することで、連続的な角度情報の姿勢情報θを推定するようにした。これにより、加重合成の処理は積和演算により行われるから、演算負荷を低減することができ、かつ小規模な回路にて連続的な値をとる姿勢情報θを推定することができる。
以上のように、本発明の実施形態の姿勢推定装置1によれば、識別部10は、画像Iを入力し、例えば畳み込みニューラルネットワークにて、予め設定されたパラメータpを用いて、N個の代表的な角度θnを識別し、それぞれの確度値w(θn)を求める。
加重合成部20は、N個の角度θnに対するそれぞれの確度値w(θn)に応じた重み付けにより、N個の角度θnを加重合成し、姿勢情報θを生成する。
これにより、予め設定されたパラメータpを用いて姿勢情報θを推定することができ、パラメータpは後述する学習装置2により得ることができるから、前述の特許文献1に記載された顔の器官毎のテンプレートを用意する必要がない。つまり、特許文献1の技術に比べ、手間がかかることはない。
また、姿勢情報θを推定するために、特定の特徴量のみを用いることがないから、特定の特徴量のみを用いる特許文献2の技術に比べ、姿勢情報θの推定精度を向上させることができる。したがって、被写体の姿勢を簡易かつ高精度に推定することができる。
〔学習装置〕
次に、本発明の実施形態による学習装置について詳細に説明する。図4は、本発明の実施形態による学習装置の構成の一例を示すブロック図であり、図5は、学習装置の処理の一例を示すフローチャートである。この学習装置2は、確度生成部30及び学習用識別部40を備えている。
次に、本発明の実施形態による学習装置について詳細に説明する。図4は、本発明の実施形態による学習装置の構成の一例を示すブロック図であり、図5は、学習装置の処理の一例を示すフローチャートである。この学習装置2は、確度生成部30及び学習用識別部40を備えている。
学習装置2は、学習データとして、K個(組)の画像Jk及び姿勢情報φkを入力する(ステップS501)。そして、学習装置2は、これらの学習データを用いて、画像Jkに含まれる被写体の角度を識別するためのモデルを学習する。学習装置2は、当該モデルのパラメータp、すなわち図1に示した姿勢推定装置1の識別部10の動作を規定する、被写体の姿勢を推定するために用いるパラメータpの最適化を行い、最適化されたパラメータpを出力する。パラメータpは、図1に示した姿勢推定装置1の識別部10に設定される。Kは自然数であり、kは0以上K未満の整数である。
(確度生成部30)
確度生成部30は、学習データの姿勢情報φkを入力し、姿勢情報φkに基づいて、N個の角度θnに対するそれぞれの学習用確度値tk(θn)を生成する(ステップS502)。そして、確度生成部30は、1個の姿勢情報φkについて、N個の角度θnに対するそれぞれの学習用確度値tk(θn)からなる学習用確度値列(tk(θn))n∈{0,1,…,N-1}を学習用識別部40に出力する。
確度生成部30は、学習データの姿勢情報φkを入力し、姿勢情報φkに基づいて、N個の角度θnに対するそれぞれの学習用確度値tk(θn)を生成する(ステップS502)。そして、確度生成部30は、1個の姿勢情報φkについて、N個の角度θnに対するそれぞれの学習用確度値tk(θn)からなる学習用確度値列(tk(θn))n∈{0,1,…,N-1}を学習用識別部40に出力する。
姿勢情報φkは、図1に示した姿勢情報θと同様に、角度値(例えば、弧度法による)とする。
具体的には、確度生成部30は、姿勢情報φk(の示す角度)のベクトルと各角度θnのベクトルとの間のなす角α(φk,θn)を算出し、なす角α(φk,θn)に応じた学習用確度値tk(θn)を生成する。α(φk,θn)は、姿勢情報φk(の示す角度)のベクトルと各角度θnのベクトルとの間のなす角を演算する関数である。
例えば、確度生成部30は、以下の式のとおり、なす角α(φk,θn)が最小となる場合、当該角度θnについて学習用確度値tk(θn)=A(Aは所定の実数、例えばA=1)を設定する。また、確度生成部30は、なす角α(φk,θn)が最小とならない場合、当該角度θnについて学習用確度値tk(θn)=B(BはAよりも小さい所定の実数、例えばB=0)を設定する。
このように、確度生成部30は、連続的な角度情報の姿勢情報φkから、離散的な角度θnに対する学習用確度値tk(θn)を生成するようにした。これにより、離散的な角度θnに対する学習用確度値tk(θn)は、図1に示した姿勢推定装置1の識別部10により生成される確度値w(θn)に対応させることができる。そして、識別部10に対応する学習用識別部40において、これを学習データとして用いることができる。
(学習用識別部40)
図6は、学習用識別部40の構成の一例を示すブロック図である。学習用識別部40は、畳み込み層11,12,13,14及び全結合層15,16等を備えている。
図6は、学習用識別部40の構成の一例を示すブロック図である。学習用識別部40は、畳み込み層11,12,13,14及び全結合層15,16等を備えている。
学習用識別部40は、学習データの画像Jkを入力すると共に、確度生成部30から、N個の角度θnに対するそれぞれの学習用確度値tk(θn)からなる学習用確度値列(tk(θn))n∈{0,1,…,N-1}を入力する。そして、学習用識別部40は、図1に示した識別部10に対応する学習処理を行い、K個の画像Jk及び学習用確度値列(tk(θn))n∈{0,1,…,N-1}を用いて、識別部10が備えるべき最適なパラメータpを求め、当該パラメータpを出力する。
識別部10がニューラルネットワークにより構成される場合には、学習用識別部40も識別部10と同様に、ニューラルネットワークにより構成され、その結合重み係数であるパラメータpを更新可能な状態としておく。
学習用識別部40は、学習データの画像Jkを入力する。そして、学習用識別部40は、画像Jkに対し、畳み込み層11,12,13,14による畳み込み処理、及び全結合層15,16による全結合処理を行い、N個の角度θnに対するそれぞれの確度値wk(θn)を求める(ステップS503)。これにより、N個の角度θnに対するそれぞれの確度値wk(θn)からなる確度値列(wk(θn))n∈{0,1,…,N-1}が得られる。
学習用識別部40に備えた図示しない誤差算出部は、以下の式のとおり、確度値列(wk(θn))n∈{0,1,…,N-1}と学習用確度値列(tk(θn))n∈{0,1,…,N-1}との間の誤差を算出する。そして、誤差算出部は、当該誤差を、N個の角度θnに対するそれぞれの誤差値dk(θn)からなる誤差値列(dk(θn))n∈{0,1,…,N-1}とする(ステップS504)。
学習用識別部40に備えた図示しない逆伝播部は、誤差値列(dk(θn))n∈{0,1,…,N-1}を、畳み込み層11,12,13,14及び全結合層15,16に対してこの逆の順番に伝播(逆伝播)させる(ステップS505)。そして、逆伝播部は、この誤差値逆伝播法により、畳み込み層11,12,13,14及び全結合層15,16においてそれぞれ用いるパラメータpを更新する(ステップS506)。
学習用識別部40は、K個の画像Jk及び学習用確度値列(tk(θn))n∈{0,1,…,N-1}について、ステップS502〜S506の処理が完了したか否かを判定する(ステップS507)。学習用識別部40は、ステップS507において、処理が完了していないと判定した場合(ステップS507:N)、次のパラメータkを設定し(ステップS508)、ステップS502へ移行する。
一方、学習用識別部40は、ステップS507において、処理が完了したと判定した場合(ステップS507:Y)、ステップS506にて更新したパラメータpを最適なパラメータであるとして出力する(ステップS509)。出力されたパラメータpは、図1に示した識別部10にて用いられる。
尚、学習装置2は、図5のステップS502〜S508に示したように、誤差値逆伝播法による処理を、K個の画像Jk及び姿勢情報φk(学習用確度値列(tk(θn))n∈{0,1,…,N-1})に対して適宜実行するようにしてもよい。この場合、学習装置2は、K個の画像Jk及び姿勢情報φk(学習用確度値列(tk(θn))n∈{0,1,…,N-1})の全てについて、順次実行するようにしてもよいし、K個の中から所定数をランダムに選択して実行するようにしてもよい。また、学習装置2は、K個の中から1個以上を選択し、1個以上の画像Jk及び姿勢情報φk(学習用確度値列(tk(θn))n∈{0,1,…,N-1})をまとめた、いわゆるミニバッチを構成し、実行するようにしてもよい。
このように、学習装置2は、図1に示した識別部10にて用いるパラメータpを、確度生成部30及び当該識別部10に対応する学習用識別部40において学習し、最適化するようにした。これにより、最適化されたパラメータpを用いて、識別部10を動作させることができる。
以上のように、本発明の実施形態の学習装置2によれば、確度生成部30は、姿勢情報φk(の示す角度)のベクトルと各角度θnのベクトルとの間のなす角α(φk,θn)を算出し、なす角α(φk,θn)に応じた学習用確度値tk(θn)を生成する。
学習用識別部40は、図1に示した識別部10と同様にニューラルネットワークにより構成される場合、学習データの画像Jkに対し、畳み込み層11,12,13,14及び全結合層15,16による処理を行う。そして、学習用識別部40は、N個の角度θnに対するそれぞれの確度値wk(θn)を求める。
学習用識別部40は、確度値wk(θn)と学習用確度値tk(θn)との間の誤差値dk(θn)を算出し、誤差値dk(θn)を、畳み込み層11,12,13,14及び全結合層15,16に逆伝播させ、パラメータpを更新する。
確度生成部30は、K個の姿勢情報φkについて処理を行い、K個の学習用確度値tk(θn)を生成する。そして、学習用識別部40は、K個の画像Jk及び学習用確度値tk(θn)について処理を行い、最適なパラメータpを生成する。
このようにして生成された最適なパラメータpは、図1に示した姿勢推定装置1にて用いられ、姿勢推定装置1の識別部10を動作させることができる。
これにより、姿勢推定装置1において、パラメータpを用いて姿勢情報θを推定することができるから、前述の特許文献1に記載された顔の器官毎のテンプレートを用意する必要がなく、手間がかかることはない。
また、姿勢情報θを推定するために、特定の特徴量のみを用いることがないから、特定の特徴量のみを用いる特許文献2の技術に比べ、姿勢情報θの推定精度を向上させることができる。
したがって、学習装置2により生成されたパラメータpを用いることで、姿勢推定装置1において被写体の姿勢を簡易かつ高精度に推定することができる。
以上、実施形態を挙げて本発明を説明したが、本発明は前記実施形態に限定されるものではなく、その技術思想を逸脱しない範囲で種々変形可能である。例えば、図3において、識別部10は、水平W=20画素、垂直H=20画素及び色3成分からなる画像Iを入力するようにしたが、本発明は、画素数及び色成分数を限定するものではない。
また、図3において、識別部10は、ニューラルネットワークにより構成されるようにした。本発明は、識別部10をニューラルネットワークに限定するものではなく、ニューラルネットワーク以外の構成部を用いるようにしてもよい。つまり、識別部10は、画像Iを入力し、パラメータpを用いて、画像Iに含まれる被写体についてN個の代表的な角度θnの識別処理を行い、それぞれの確度値w(θn)を求めて出力する構成部であればよい。識別部10に対応する図6に示した学習用識別部40についても同様である。
尚、本発明の実施形態による姿勢推定装置1及び学習装置2のハードウェア構成としては、通常のコンピュータを使用することができる。姿勢推定装置1及び学習装置2は、CPU、RAM等の揮発性の記憶媒体、ROM等の不揮発性の記憶媒体、及びインターフェース等を備えたコンピュータによって構成される。
姿勢推定装置1に備えた識別部10及び加重合成部20の各機能は、これらの機能を記述したプログラムをCPUに実行させることによりそれぞれ実現される。また、学習装置2に備えた確度生成部30及び学習用識別部40の各機能も、これらの機能を記述したプログラムをCPUに実行させることによりそれぞれ実現される。
これらのプログラムは、前記記憶媒体に格納されており、CPUに読み出されて実行される。また、これらのプログラムは、磁気ディスク(フロッピー(登録商標)ディスク、ハードディスク等)、光ディスク(CD−ROM、DVD等)、半導体メモリ等の記憶媒体に格納して頒布することもでき、ネットワークを介して送受信することもできる。
1 姿勢推定装置
2 学習装置
10 識別部
11,12,13,14 畳み込み層(畳み込み部)
15,16 全結合層(全結合部)
20 加重合成部
30 確度生成部
40 学習用識別部
2 学習装置
10 識別部
11,12,13,14 畳み込み層(畳み込み部)
15,16 全結合層(全結合部)
20 加重合成部
30 確度生成部
40 学習用識別部
Claims (8)
- 入力画像に含まれる被写体の姿勢を推定する姿勢推定装置において、
前記入力画像に基づいて前記被写体の角度を識別し、予め設定された複数の角度のそれぞれに対応する確度値を求める識別部と、
前記識別部により求めた前記複数の角度のそれぞれに対応する前記確度値に応じた重み付けにより、前記複数の角度を加重合成し、姿勢情報を求める加重合成部と、
を備えたことを特徴とする姿勢推定装置。 - 請求項1に記載の姿勢推定装置において、
前記識別部は、ニューラルネットワークにより構成される、ことを特徴とする姿勢推定装置。 - 請求項1または2に記載の姿勢推定装置において、
前記姿勢情報を前記被写体の角度とする、または、前記姿勢情報をベクトル値または複素数値として表したときのノルムを信頼度とした場合に、前記姿勢情報を、前記被写体の角度及び当該角度における前記信頼度とする、ことを特徴とする姿勢推定装置。 - 学習データとして被写体を含む画像及び前記被写体の姿勢情報を入力し、前記学習データを用いてモデルを学習し、当該モデルのパラメータの最適化を行う学習装置において、
前記姿勢情報に基づいて、予め設定された複数の角度のそれぞれに対応する学習用確度値を求める確度生成部と、
前記画像、及び前記確度生成部により求めた前記複数の角度のそれぞれに対応する前記学習用確度値に基づいて、前記被写体の角度を識別するための前記モデルを学習し、前記被写体の姿勢を推定するために用いる前記パラメータを更新する学習用識別部と、
を備えたことを特徴とする学習装置。 - 請求項4に記載の学習装置において、
前記確度生成部は、
前記姿勢情報のベクトルと前記複数の角度のそれぞれのベクトルとの間のなす角を算出し、当該なす角に対し、広義単調減少かつ非定数の関数を適用し、前記複数の角度のそれぞれに対応する前記学習用確度値を求める、ことを特徴とする学習装置。 - 請求項4に記載の学習装置において、
前記確度生成部は、
前記姿勢情報のベクトルと前記複数の角度のそれぞれのベクトルとの間のなす角を算出し、前記複数の角度のうち前記なす角が最小となる角度について、所定値を前記学習用確度値に設定し、前記複数の角度のうち前記なす角が最小とならない角度について、前記所定値よりも小さい値を前記学習用確度値に設定する、ことを特徴とする学習装置。 - コンピュータを、請求項1から3までのいずれか一項に記載の姿勢推定装置として機能させるためのプログラム。
- コンピュータを、請求項4から6までのいずれか一項に記載の学習装置として機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018247875A JP2020107244A (ja) | 2018-12-28 | 2018-12-28 | 姿勢推定装置、学習装置及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018247875A JP2020107244A (ja) | 2018-12-28 | 2018-12-28 | 姿勢推定装置、学習装置及びプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2020107244A true JP2020107244A (ja) | 2020-07-09 |
Family
ID=71449205
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018247875A Pending JP2020107244A (ja) | 2018-12-28 | 2018-12-28 | 姿勢推定装置、学習装置及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2020107244A (ja) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005530278A (ja) * | 2002-06-20 | 2005-10-06 | アイデンティクス・インコーポレーテッド | ポーズ角度を推定するためのシステムおよび方法 |
US7848548B1 (en) * | 2007-06-11 | 2010-12-07 | Videomining Corporation | Method and system for robust demographic classification using pose independent model from sequence of face images |
WO2018189796A1 (ja) * | 2017-04-10 | 2018-10-18 | 富士通株式会社 | 認識装置、認識システム、認識方法および認識プログラム |
JP2018180756A (ja) * | 2017-04-07 | 2018-11-15 | 住友電装株式会社 | コネクタの姿勢認識装置、端末部把持装置、コネクタの姿勢認識方法及び端末部の把持方法 |
-
2018
- 2018-12-28 JP JP2018247875A patent/JP2020107244A/ja active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005530278A (ja) * | 2002-06-20 | 2005-10-06 | アイデンティクス・インコーポレーテッド | ポーズ角度を推定するためのシステムおよび方法 |
US7848548B1 (en) * | 2007-06-11 | 2010-12-07 | Videomining Corporation | Method and system for robust demographic classification using pose independent model from sequence of face images |
JP2018180756A (ja) * | 2017-04-07 | 2018-11-15 | 住友電装株式会社 | コネクタの姿勢認識装置、端末部把持装置、コネクタの姿勢認識方法及び端末部の把持方法 |
WO2018189796A1 (ja) * | 2017-04-10 | 2018-10-18 | 富士通株式会社 | 認識装置、認識システム、認識方法および認識プログラム |
Non-Patent Citations (2)
Title |
---|
LIANG ZHAO ET AL.: ""REAL-TIME HEAD ORIENTATION ESTIMATION USING NEURAL NETWORKS"", PROCEEDINGS. INTERNATIONAL CONFERENCE ON IMAGE PROCESSING, JPN6022043683, 22 September 2002 (2002-09-22), US, pages 297 - 300, ISSN: 0005033260 * |
上條 俊介: ""マーケティング映像におけるパラメータ間関係を考慮した人物姿勢認識およびトラッキング"", 画像ラボ, vol. 25, no. 3, JPN6022043685, 10 March 2014 (2014-03-10), JP, pages 46 - 54, ISSN: 0004900844 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Iliadis et al. | Robust and low-rank representation for fast face identification with occlusions | |
US20140185924A1 (en) | Face Alignment by Explicit Shape Regression | |
CN113196289B (zh) | 人体动作识别方法、人体动作识别***及设备 | |
Punnappurath et al. | Face recognition across non-uniform motion blur, illumination, and pose | |
US11960259B2 (en) | Control system using autoencoder | |
Vageeswaran et al. | Blur and illumination robust face recognition via set-theoretic characterization | |
JP2013513191A (ja) | 拡張現実における動的モデリングによる頑強なオブジェクト認識 | |
WO2012100819A1 (en) | Method and system for comparing images | |
CN109919971B (zh) | 图像处理方法、装置、电子设备及计算机可读存储介质 | |
JP7405198B2 (ja) | 画像処理装置、画像処理方法および画像処理プログラム | |
Hu et al. | LDF-Net: Learning a displacement field network for face recognition across pose | |
JP2023056466A (ja) | グローバル測位装置及び方法 | |
Oka et al. | Real-time face tracking and recognition by sparse eigentracker with associative mapping to 3D shape | |
Xia et al. | A fast learning algorithm for blind data fusion using a novel $ L_ {2} $-norm estimation | |
JP2020107244A (ja) | 姿勢推定装置、学習装置及びプログラム | |
Baby et al. | Face depth estimation and 3D reconstruction | |
US20230040793A1 (en) | Performance of Complex Optimization Tasks with Improved Efficiency Via Neural Meta-Optimization of Experts | |
Tran et al. | 3D face pose and animation tracking via eigen-decomposition based bayesian approach | |
JP2022189901A (ja) | 学習方法、学習装置、プログラムおよび記録媒体 | |
Li et al. | Video face editing using temporal-spatial-smooth warping | |
Savitha et al. | Deep learning-based face hallucination: a survey | |
Wang et al. | Real-time image tracking with an adaptive complementary filter | |
JP7437918B2 (ja) | 情報処理装置、情報処理方法、及びプログラム | |
LU101933B1 (en) | Human action recognition method, human action recognition system and equipment | |
KR102488858B1 (ko) | 손상된 유형물의 디지털 복원 방법, 장치 및 프로그램 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20211029 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20221011 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20221020 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20230411 |