JP2020135034A

JP2020135034A - 頭部判別装置、コンピュータプログラム、および記憶媒体

Info

Publication number: JP2020135034A
Application number: JP2019023625A
Authority: JP
Inventors: 佑記名和; Yuki Nawa; 圭吾多田; Keigo Tada; 久光原田; Hisamitsu Harada; 忠関原; Tadashi Sekihara; 安利深谷; Yasutoshi Fukaya; 将城榊原; Masaki Sakakibara
Original assignee: NEC Solution Innovators Ltd; Tokai Rika Co Ltd
Current assignee: NEC Solution Innovators Ltd; Tokai Rika Co Ltd
Priority date: 2019-02-13
Filing date: 2019-02-13
Publication date: 2020-08-31

Abstract

【課題】処理負荷の増大を抑制しつつ、識別器による撮像された車室内の乗員の頭部の判別精度を高める。【解決手段】プロセッサは、撮像された車室を含む原画像に対応し複数の原画素データを含む原画像データを受け付け、原画像データを圧縮することにより、前記複数の原画素データよりも少ない複数の圧縮画素データを含む圧縮画像データを生成し、頭部の大きさに基づいて定められた検出ウインドウを、圧縮画像データ内に設定し、検出ウインドウに含まれる各画素データの輝度に関する特徴量を、識別器に入力する。識別器は、画像の輝度に関する特徴量に基づいて撮像された乗員の頭部を判別するために、少なくとも撮像された頭部を含む画像を教師データとして学習している。プロセッサは、撮像された乗員の頭部が含まれる可能性が高いことを前記識別器による識別結果が示している少なくとも一つの前記検出ウインドウを、高尤度領域として特定する。【選択図】図４

Description

本発明は、撮像された車室内の乗員の頭部を判別する装置に関連する。本発明は、当該装置が備えているプロセッサにより実行されるコンピュータプログラム、および当該コンピュータプログラムが記憶された記憶媒体にも関連する。

特許文献１に開示されているように、サポートベクターマシンを用いて画像に含まれる物体が検出対象であるかを判別する装置が知られている。サポートベクターマシンは、検出対象となる物体の特徴量と検出対象ではない物体の特徴量とを学習することで生成された識別器である。このような識別器は、例えば撮像された車室内の乗員の頭部を判別するために使用されうる。

特開２０１０−２４３４５１号公報

学習時に想定された画像の取得条件と実際の画像の取得条件は、異なる場合がありうる。このような場合においては、識別器が判断を誤る可能性がある。

本発明の目的は、処理負荷の増大を抑制しつつ、識別器による撮像された車室内の乗員の頭部の判別精度を高めることである。

上記の目的を達成するための一態様は、頭部判別装置であって、
撮像された車室を含む原画像に対応し複数の原画素データを含む原画像データを受け付ける入力インターフェースと、
画像の輝度に関する特徴量に基づいて撮像された乗員の頭部を判別するために少なくとも撮像された頭部を含む画像を教師データとして学習した識別器を用い、前記原画像データに基づいて、前記原画像に含まれる撮像された乗員の頭部を判別するプロセッサと、
を備えており、
前記プロセッサは、
前記原画像データを圧縮することにより、前記複数の原画素データよりも少ない複数の圧縮画素データを含む圧縮画像データを生成し、
頭部の大きさに基づいて定められた検出領域を、前記圧縮画像データ内に設定し、
前記検出領域に含まれる各画素データの輝度に関する特徴量を前記識別器に入力し、
前記撮像された乗員の頭部が含まれる可能性が高いことを前記識別器による識別結果が示している少なくとも一つの前記検出領域を、高尤度領域として特定する。

上記の目的を達成するための一態様は、画像の輝度に関する特徴量に基づいて撮像された乗員の頭部を判別するために少なくとも撮像された頭部を含む画像を教師データとして学習した識別器を用い、撮像された車室を含む原画像に対応し複数の原画素データを含む原画像データに基づいて、当該原画像に含まれる撮像された乗員の頭部をプロセッサに判別させるコンピュータプログラムであって、
当該コンピュータプログラムが実行されることにより、当該プロセッサに、
前記原画像データを圧縮することにより、前記原画素データよりも少ない複数の圧縮画素データを含む圧縮画像データを生成させ、
頭部の大きさに基づいて定められた検出領域を前記圧縮画像データ内に設定させ、
前記検出領域に含まれる各画素データの輝度に関する特徴量を、前記識別器に入力させ、
前記撮像された乗員の頭部が含まれる可能性が高いことを前記識別器による識別結果が示している少なくとも一つの前記検出領域を、高尤度領域として特定させる。

このような構成によれば、原画像に対応する原画像データを圧縮することにより生成された圧縮画像データに対して、画像の輝度に関する特徴量の検出、および当該特徴量の識別器への入力がなされる。画像が圧縮されることにより、画像に含まれる物体の比較的大まかな特徴が強調されるので、特徴量の検出が容易になるだけでなく、処理対象となるデータの量が低減する。したがって、特徴量の検出、識別器への入力、および高尤度領域についての判断に係る処理負荷の増大を抑制しつつ、識別器による撮像された乗員の頭部の判別精度を高めることができる。

上記の頭部判別装置は、以下のように構成されうる。
複数の前記高尤度領域が特定された場合、前記プロセッサは、
前記複数の高尤度領域の各々について、前記撮像された乗員の頭部が存在する可能性に対応する尤度を取得し、
前記尤度が最も高い前記複数の高尤度領域の一つを、前記撮像された乗員の頭部が含まれている候補領域として選択する。

上記のコンピュータプログラムは、以下のように構成されうる。
複数の前記高尤度領域が特定された場合、前記プロセッサに、
前記複数の高尤度領域の各々について、前記撮像された乗員の頭部が存在する可能性に対応する尤度を取得させ、
前記尤度が最も高い前記複数の高尤度領域の一つを、前記撮像された乗員の頭部が含まれている候補領域として選択させる。

このような構成によれば、識別器による識別結果として複数の高尤度領域が特定された場合においても、簡易な処理を通じて、撮像された乗員の頭部を含む候補領域を特定できる。結果として、撮像された乗員の頭部を判別するための処理の負荷増大を抑制できる。

上記の頭部判別装置は、以下のように構成されうる。
重複する部分を有する複数の前記高尤度領域が特定された場合、前記プロセッサは、当該複数の高尤度領域を統合して少なくとも一つの統合高尤度領域を生成する。

上記のコンピュータプログラムは、以下のように構成されうる。
重複する部分を有する複数の前記高尤度領域が特定された場合、前記プロセッサに、当該複数の高尤度領域を統合して少なくとも一つの統合高尤度領域を生成させる。

このような構成によれば、識別器による識別結果として多数の高尤度領域が特定された場合においても、撮像された乗員の頭部を含む候補領域を特定する処理を簡略化できる。結果として、撮像された乗員の頭部を判別するための処理の負荷増大を抑制できる。

上記の頭部判別装置は、以下のように構成されうる。
前記統合高尤度領域は、前記複数の高尤度領域を内包する矩形状を有している。

上記のコンピュータプログラムは、以下のように構成されうる。
前記統合高尤度領域は、前記複数の高尤度領域を内包する矩形状を有している。

このような構成によれば、統合高尤度領域を生成するための処理を簡略化できる。結果として、撮像された乗員の頭部を判別するための処理の負荷増大を抑制できる。

上記の頭部判別装置は、以下のように構成されうる。
前記統合高尤度領域が生成された場合、前記プロセッサは、
前記統合高尤度領域に含まれる前記複数の高尤度領域の各々について、前記撮像された乗員の頭部が存在する可能性に対応する尤度を取得し、
前記尤度に基づいて、前記統合高尤度領域に含まれる前記検出領域と同じ大きさの領域を、前記撮像された乗員の頭部が含まれている候補領域として特定する。

上記のコンピュータプログラムは、以下のように構成されうる。
前記統合高尤度領域が生成された場合、前記プロセッサに、
前記統合高尤度領域に含まれる前記複数の高尤度領域の各々について、前記撮像された乗員の頭部が存在する可能性に対応する尤度を取得させ、
前記尤度に基づいて、前記統合高尤度領域に含まれる前記検出領域と同じ大きさの領域を、前記撮像された乗員の頭部が含まれている候補領域として特定させる。

このような構成によれば、撮像された乗員の頭部が含まれている候補領域を、統合高尤度領域よりも狭い範囲に限定できる。これにより、撮像された乗員の頭部の判別精度を高めることができる。

上記の頭部判別装置は、以下のように構成されうる。
前記プロセッサは、前記検出領域の大きさを変えずに前記高尤度領域を特定する。

上記のコンピュータプログラムは、以下のように構成されうる。
前記プロセッサに、前記検出領域の大きさを変えずに前記高尤度領域を特定させる。

このような構成によれば、大きさが相違する複数種の検出ウインドウを用いて高尤度領域が特定される場合と比較して、処理に要する時間を短縮できる。

上記の頭部判別装置は、以下のように構成されうる。
前記特徴量は、ＨＯＧ（Histograms of Oriented Gradients）である。

上記のコンピュータプログラムは、以下のように構成されうる。
前記特徴量は、ＨＯＧ（Histograms of Oriented Gradients）である。

このような構成によれば、頭部のエッジを比較的高い精度で検出できる。したがって、撮像された乗員の頭部の判別精度を高めることができる。

上記の頭部判別装置は、以下のように構成されうる。
前記識別器は、サポートベクターマシンである。

上記のコンピュータプログラムは、以下のように構成されうる。
前記識別器は、サポートベクターマシンである。

このような構成によれば、汎化性能の高い識別器が得られるので、撮像された乗員の頭部の判別精度を高めることができる。

上記の頭部判別装置は、以下のように構成されうる。
前記入力インターフェースは、前記原画像データをＴＯＦ（Time of Flight）カメラから受け付ける。

上記のコンピュータプログラムは、以下のように構成されうる。
前記原画像データは、ＴＯＦ（Time of Flight）カメラから取得されたものである。

このような構成によれば、プロセッサによって取得される原画像データに三次元空間における位置情報を付加できる。必要に応じて当該位置情報を参照することにより、撮像された乗員の頭部の判別結果の正確性を検証するといった処理が可能になる。したがって、撮像された乗員の頭部の判別精度を高めることができる。

上記の目的を達成するための一態様は、上記のコンピュータプログラムを記憶している記憶媒体である。

本発明によれば、処理負荷の増大を抑制しつつ、識別器による撮像された車室内の乗員の頭部の判別精度を高めることができる。

一実施形態に係る頭部判別システムの構成を例示している。図１の頭部判別システムが搭載される車両の一部を例示している。図１の頭部判別装置により実行される処理を説明するための図である。図１の頭部判別装置により実行される処理の流れを例示している。図１の頭部判別装置により実行される処理を説明するための図である。図１の頭部判別装置により実行される処理を説明するための図である。図１の頭部判別装置により実行される処理の流れを例示している。図１の頭部判別装置により実行される処理を説明するための図である。図１の頭部判別装置により実行される処理を説明するための図である。

添付の図面を参照しつつ、実施形態例について以下詳細に説明する。以下の説明に用いる各図面では、各部材を認識可能な大きさとするために縮尺を適宜変更している。

図１は、一実施形態に係る頭部判別システム１の構成を模式的に示している。頭部判別システム１は、撮像装置２と頭部判別装置３を含んでいる。図２は、頭部判別システム１が搭載される車両４の一部を示している。矢印Ｌは、車両４の前後方向に沿う向きを示している。矢印Ｈは、車両４の高さ方向に沿う向きを示している。

撮像装置２は、図２に示される車両４の車室４１内における適宜の位置に配置され、撮像された車室４１を含む原画像ＯＩを取得する。図３の（Ａ）は、原画像ＯＩの一例を示している。原画像ＯＩは、撮像された運転者５を含んでいる。運転者５は、乗員の一例である。矢印Ｗは、車両４の左右方向に沿う向きを示している。

図１に示されるように、撮像装置２は、取得された原画像ＯＩに対応する原画像データＩＤ１を出力する。原画像データＩＤ１は、複数の原画素データを含んでいる。複数の原画素データの各々は、取得された原画像ＯＩを構成する複数の画素の対応する一つに関連づけられている。

頭部判別装置３は、車両４における適宜の位置に搭載される。頭部判別装置３は、撮像装置２から提供される原画像データＩＤ１に基づいて、撮像された車室４１内の運転者５の頭部５１を判別するための装置である。

頭部判別装置３は、入力インターフェース３１を備えている。入力インターフェース３１は、撮像装置２から出力された原画像データＩＤ１を受け付ける。

頭部判別装置３は、プロセッサ３２を備えている。プロセッサ３２は、識別器を用い、入力インターフェース３１に入力された原画像データＩＤ１に基づいて、撮像された運転者５の頭部５１を判別する処理を実行する。識別器は、画像の輝度に関する特徴量に基づいて撮像された乗員の頭部を判別するために、少なくとも撮像された頭部を含む画像を教師データとして学習することによって構成されている。識別器は、プロセッサ３２により実行される処理アルゴリズムの呼称である。

図４を参照しつつ、プロセッサ３２によって行なわれる処理の流れを説明する。前述のように、プロセッサ３２は、まず入力インターフェース３１を通じて原画像データＩＤ１を取得する（ＳＴＥＰ１）。

続いてプロセッサ３２は、原画像データＩＤ１を圧縮して圧縮画像データＩＤ２を生成する（ＳＴＥＰ２）。図３の（Ｂ）は、図３の（Ａ）に示される原画像データＩＤ１から生成された圧縮画像データＩＤ２を示している。圧縮画像データＩＤ２は、複数の圧縮画素データを含んでいる。圧縮画素データは、原画素データよりも少ない。例えば、原画像データＩＤ１は、３２０×２４０個の原画素データを含んでいる。圧縮画像データＩＤ２は、１６０×１２０個の圧縮画素データを含んでいる。適宜に使用される画像圧縮技術それ自体は周知であるので、詳細な説明は省略する。

続いてプロセッサ３２は、図５の（Ａ）に示されるように、圧縮画像データＩＤ２内に検出ウインドウＤＷを設定する（図４のＳＴＥＰ３）。検出ウインドウＤＷは、圧縮画像データＩＤ２に対応する画像の輝度に関する特徴量を検出する処理の対象となる領域の基本単位を規定する。検出ウインドウＤＷは、検出領域の一例である。

本実施形態においては、特徴量としてＨＯＧ（Histogram of Oriented Gradients）が検出される。ＨＯＧは、画像の局所的な輝度の勾配方向の分布を示す特徴量である。

図５の（Ｂ）は、検出ウインドウＤＷの具体的な構成を示している。検出ウインドウＤＷの大きさは、撮像装置２により取得される原画像ＯＩに含まれうる運転者５の頭部５１の大きさに基づいて定められている。例えば、原画像ＯＩにおいて頭部５１がとりうる最大の大きさが９６×１１２画素である場合、圧縮比に基づいて、圧縮画像データＩＤ２内に設定される検出ウインドウＤＷの大きさは、４８×５６画素とされうる。

検出ウインドウＤＷ内には検出セルＤＣと検出ブロックＤＢが定義される。検出セルＤＣは、ＨＯＧを検出するために設定される領域の最小単位である。本実施形態においては、検出セルＤＣの大きさは８×８画素である。検出ブロックＤＢは、３×３セルの大きさを有する領域である。

ＨＯＧの検出は、検出ブロックＤＢに含まれる９つの検出セルＤＣの各々について行なわれる。すなわち、図５の（Ｂ）に示される検出ウインドウＤＷの上左隅に位置している検出ブロックＤＢについて、９セル分のＨＯＧが検出される。検出ブロックＤＢに含まれる全ての検出セルＤＣについてＨＯＧが検出されると、検出ウインドウＤＷ内における検出ブロックＤＢの位置が変更される。具体的には、右方向へ８画素分（すなわち１セル分）だけ検出ブロックＤＢが移動する。移動後の位置における検出ブロックＤＢに含まれる全ての検出セルＤＣについて、同様にして９セル分のＨＯＧが検出される。

このように検出ブロックＤＢが右方へ移動しながら、ＨＯＧの検出が繰り返される。検出ブロックＤＢが検出ウインドウＤＷの右端に到達すると、下方向へ８画素分（すなわち１セル分）だけ移動がなされ、検出ウインドウＤＷ内を左方へ移動しながら、ＨＯＧの検出が繰り返される。検出ブロックＤＢが検出ウインドウＤＷの左端に到達すると、さらに下方向へ８画素分の移動がなされ、再度検出ウインドウＤＷ内を右方へ移動しながら、ＨＯＧの検出が繰り返される。検出ブロックＤＢが検出ウインドウＤＷの下右隅に到達するまで、上記の処理が繰り返される。

図５の（Ａ）において、検出ウインドウＤＷは、圧縮画像データＩＤ２の上左隅に配置されている。この位置における検出ウインドウＤＷについて検出ブロックＤＢを移動させながらのＨＯＧの検出が完了すると、識別器による識別がなされる（図４のＳＴＥＰ４）。識別器は、頭部を含む画像と頭部を含まない画像を教師データとした機械学習を通じて、画像内に撮像された頭部が含まれる可能性に対応する尤度を判断するように構成されている。本実施形態においては、識別器は、ＲＢＦカーネル関数を用いたソフトマージンＳＶＭ（サポートベクターマシン）である。尤度は、ＳＶＭスコアとして算出される。

具体的には、プロセッサ３２は、検出ウインドウＤＷについて得られたＨＯＧの分布を識別器に入力する。識別器は、検出ウインドウＤＷについてＳＶＭスコアを算出する。算出されたＳＶＭスコアが所定値以上である場合、プロセッサ３２は、検出ウインドウＤＷ内の画像に運転者５の頭部５１が含まれている可能性が高いと判断し、検出ウインドウＤＷが位置している領域を高尤度領域として特定する（図４のＳＴＥＰ５）。

識別器との照合に基づく高尤度領域についての判断がなされると、圧縮画像データＩＤ２内における検出ウインドウＤＷの位置が変更される。具体的には、右方向へ８画素分（すなわち１セル分）だけ検出ウインドウＤＷが移動する。移動後の位置における検出ウインドウＤＷに含まれる全ての検出セルＤＣについて、同様にしてＨＯＧが検出され、識別器による識別がなされる。

このように検出ウインドウＤＷが右方へ移動しながら、ＨＯＧの検出と識別器による識別が繰り返される。検出ウインドウＤＷが圧縮画像データＩＤ２の右端に到達すると、下方向へ８画素分（すなわち１セル分）だけ移動がなされ、圧縮画像データＩＤ２内を左方へ移動しながら、ＨＯＧの検出と識別器による識別が繰り返される。検出ウインドウＤＷが圧縮画像データＩＤ２の左端に到達すると、さらに下方向へ８画素分の移動がなされ、再度圧縮画像データＩＤ２内を右方へ移動しながら、ＨＯＧの検出と識別器による識別が繰り返される。検出ウインドウＤＷが圧縮画像データＩＤ２の下右隅に到達するまで、上記の処理が繰り返される（図４のＳＴＥＰ６においてＮＯ）。

なお、識別器の構成時においても、上記と同様の手法を通じて教師データとしての画像におけるＨＯＧの検出が行なわれることにより、機械学習がなされる。

図６の（Ａ）は、圧縮画像データＩＤ２中に特定された高尤度領域ＨＡの一例を示している。この高尤度領域ＨＡは、検出ウインドウＤＷが図示の位置にあるときに行なわれた識別器による識別により所定値以上のＳＶＭスコアが算出された結果として得られている。

全ての検出ウインドウＤＷの位置において識別器による識別がなされた結果（図４のＳＴＥＰ６においてＹＥＳ）、特定された高尤度領域ＨＡが一つだけであれば、プロセッサ３２は、圧縮画像データＩＤ２における高尤度領域ＨＡの位置を、撮像された運転者５の頭部５１の候補位置として特定する（図４のＳＴＥＰ７）。

図１に示されるように、頭部判別装置３は、出力インターフェース３３を備えている。出力インターフェース３３は、特定された運転者５の頭部５１の候補位置を示すデータＨＤを出力しうる。出力されたデータＨＤは、後段の認識処理において利用される。当該認識処理においては、例えば、当該データが示す頭部５１の位置の経時変化がモニタされることにより、運転者５の頭部５１の向き、傾き、動きなどが認識されうる。これにより、運転中における運転者５の脇見、居眠り、発作による異常挙動などが検知されうる。

後段の認識処理は、プロセッサ３２によって行なわれてもよいし、プロセッサ３２とは別のプロセッサによって行なわれてもよい。すなわち、出力インターフェース３３は、物理的なインターフェースであってもよいし、論理的なインターフェースであってもよい。

上記のような構成によれば、撮像装置２により取得された原画像ＯＩに対応する原画像データＩＤ１を圧縮することにより生成された圧縮画像データＩＤ２に対して、画像の輝度に関する特徴量の検出、および当該特徴量の識別器への入力がなされる。画像が圧縮されることにより、画像に含まれる物体の比較的大まかな特徴が強調されるので、特徴量の検出が容易になるだけでなく、処理対象となるデータの量が低減する。したがって、特徴量の検出、識別器への入力、および高尤度領域についての判断に係る処理負荷の増大を抑制しつつ、識別器による撮像された運転者５の頭部５１の判別精度を高めることができる。

高尤度領域ＨＡの特定は、検出ウインドウＤＷの大きさを変化させることなく行なわれうる。換言すると、プロセッサ３２は、単一の大きさを有する検出ウインドウＤＷのみを用いて高尤度領域ＨＡを特定しうる。

このような構成によれば、大きさが相違する複数種の検出ウインドウを用いて高尤度領域ＨＡが特定される場合と比較して、処理に要する時間を短縮できる。

図７は、撮像された運転者５の頭部５１が含まれる候補領域を特定するために（図４のＳＴＥＰ７）プロセッサ３２が実行しうる具体的な処理を例示している。図６の（Ａ）を参照して説明した処理の流れは、ＳＴＥＰ７１においてＹＥＳと判断され、ＳＴＥＰ７２が実行される場合に対応している。

全ての検出ウインドウＤＷの位置において識別器による識別がなされた結果、離間した複数の高尤度領域ＨＡが特定される場合がありうる（ＳＴＥＰ７１においてＮＯ、かつＳＴＥＰ７３においてＮＯ）。図６の（Ｂ）に示される例においては、撮像された運転者５の頭部５１の付近に第一の高尤度領域ＨＡ１が特定され、撮像されたステアリングホイールの付近に第二の高尤度領域ＨＡ２が特定されている。

このような場合、撮像された運転者５の頭部５１の候補位置を特定するために、プロセッサ３２は、各高尤度領域ＨＡについてＳＶＭスコアを取得する。プロセッサ３２は、取得された複数のＳＶＭスコア同士を比較し、最も高いＳＶＭスコアに対応付けられている高尤度領域ＨＡを、撮像された運転者５の頭部５１が含まれている候補領域として選択する（図７のＳＴＥＰ７４）。

図６の（Ｂ）に示される例においては、第一の高尤度領域ＨＡ１に対応付けられたＳＶＭスコアと第二の高尤度領域ＨＡ２に対応付けられたＳＶＭスコアが、比較に供される。本例においては、第一の高尤度領域ＨＡ１に対応付けられたＳＶＭスコアが、第二の高尤度領域ＨＡ２に対応付けられたＳＶＭスコアよりも高いとする。この場合、プロセッサ３２は、第一の高尤度領域ＨＡ１を、撮像された運転者５の頭部５１が含まれている候補領域として特定する（図７のＳＴＥＰ７２）。第二の高尤度領域ＨＡ２は、高尤度領域としての認定が解除される。

このような構成によれば、識別器による識別結果として複数の高尤度領域ＨＡが特定された場合においても、簡易な処理を通じて、撮像された運転者５の頭部５１を含む候補領域を特定できる。結果として、撮像された運転者５の頭部５１を判別するための処理の負荷増大を抑制できる。

全ての検出ウインドウＤＷの位置において識別器による識別がなされた結果、重複する部分を有する複数の高尤度領域が特定される場合がありうる（ＳＴＥＰ７３においてＹＥＳ）。図８の（Ａ）に示される例においては、重複する部分を有する複数の高尤度領域ＨＡが、撮像された運転者５の頭部５１の付近に特定されている。同様に、撮像されたステアリングホイールの付近にも、重複する部分を有する複数の高尤度領域が特定されている。

このような場合、図８の（Ｂ）に示されるように、プロセッサ３２は、当該複数の高尤度領域ＨＡを統合して単一の統合高尤度領域ＩＨＡを生成する（図７のＳＴＥＰ７５）。本例においては、撮像された運転者５の頭部５１の付近に第一の統合高尤度領域ＩＨＡ１が生成され、撮像されたステアリングホイールの付近に第二の統合高尤度領域ＩＨＡ２が生成されている。

圧縮画像データＩＤ２内に複数の統合高尤度領域ＩＨＡが存在しているので（ＳＴＥＰ７６においてＮＯ）、プロセッサ３２は、撮像された運転者５の頭部５１の候補位置を特定するために、プロセッサ３２は、各統合高尤度領域ＩＨＡについて統合ＳＶＭスコアを取得する。統合ＳＶＭスコアは、統合高尤度領域ＩＨＡを形成している複数の高尤度領域ＨＡのＳＶＭスコアの合計値として取得される。合計値は、平均値、中間値、最頻値のいずれかで置き換えてもよい。

プロセッサ３２は、取得された複数の統合ＳＶＭスコア同士を比較し、最も高い統合ＳＶＭスコアに対応付けられている統合高尤度領域ＩＨＡを、撮像された運転者５の頭部５１が含まれている候補領域として選択する（ＳＴＥＰ７７）。

図８の（Ｂ）に示される例においては、第一の統合高尤度領域ＩＨＡ１に対応付けられた統合ＳＶＭスコアと第二の統合高尤度領域ＩＨＡ２に対応付けられた統合ＳＶＭスコアが、比較に供される。本例においては、第一の統合高尤度領域ＩＨＡ１に対応付けられた統合ＳＶＭスコアが、第二の統合高尤度領域ＩＨＡ２に対応付けられた統合ＳＶＭスコアよりも高いとする。この場合、プロセッサ３２は、第一の統合高尤度領域ＩＨＡ１を選択する。第二の統合高尤度領域ＩＨＡ２は、高尤度領域としての認定が解除される。

このような構成によれば、識別器による識別結果として多数の高尤度領域ＨＡが特定された場合においても、撮像された運転者５の頭部５１を含む候補領域を特定する処理を簡略化できる。結果として、撮像された運転者５の頭部５１を判別するための処理の負荷増大を抑制できる。

本実施形態においては、統合高尤度領域ＩＨＡは、全ての高尤度領域ＨＡを内包する矩形状を有している。図９の（Ａ）に示されるように、全ての高尤度領域ＨＡは、統合高尤度領域ＩＨＡを形成している四辺の内側に位置している。

このような構成によれば、統合高尤度領域ＩＨＡを生成するための処理を簡略化できる。結果として、撮像された運転者５の頭部５１を判別するための処理の負荷増大を抑制できる。

しかしながら、統合高尤度領域ＩＨＡは、各高尤度領域ＨＡにおける他の高尤度領域ＨＡと重複していない部分の外縁によって形成される輪郭形状を有するように生成されてもよい。図９の（Ａ）に示される複数の高尤度領域ＨＡの配置例の場合、統合高尤度領域ＩＨＡは、左上に位置する高尤度領域ＨＡにおける上端部の外縁と左端部の外縁、右下に位置する高尤度領域ＨＡにおける下端部の外縁と右端部の外縁、およびこれらの間に位置する高尤度領域ＨＡにおける右上隅部の外縁と左下隅部の外縁によって形成される輪郭形状を有する。すなわち、この場合の統合高尤度領域ＩＨＡの輪郭は、右上隅と左下隅に段形状部分を有する。

図９の（Ａ）は、撮像された運転者５の頭部５１が含まれる候補領域として、一つの統合高尤度領域ＩＨＡが特定された状態を示している（図７のＳＴＥＰ７６においてＹＥＳ、またはＳＴＥＰ７７の終了後）。プロセッサ３２は、候補領域の範囲をさらに狭める処理を行ないうる（ＳＴＥＰ７８）。

具体的には、統合された複数の高尤度領域ＨＡについて、ＳＶＭスコアを重みとして加味した加重平均値演算を行なう。統合高尤度領域ＩＨＡがｎ個の高尤度領域ＨＡ１、ＨＡ２、…、ＨＡｎによって形成されている場合、次式が得られる。

上式において、ｘ、ｙは、それぞれ圧縮画像データＩＤ２における横方向の座標と縦方向の座標を表している。（ｘ₁，ｙ₁）、（ｘ₂，ｙ₂）、…、（ｘ_n，ｙ_n）は、各高尤度領域ＨＡの上左隅の座標を表している。ｓ₁、ｓ₂、…、ｓ_nは、各高尤度領域ＨＡに対応づけられたＳＶＭスコアを表している。演算の結果として得られる（ｘ_a，ｙ_a）は、平均的な上左隅の位置の座標を表しているが、ＳＶＭスコアの重み付けがなされているので、単純平均値よりもＳＶＭスコアが高い高尤度領域ＨＡからの寄与を大きく受ける。

この結果、図９の（Ｂ）に示されるように、検出ウインドウＤＷと同じ面積を有し、上左隅の座標が（ｘ_a，ｙ_a）である平均高尤度領域ＡＨＡが特定される。プロセッサ３２は、平均高尤度領域ＡＨＡを、撮像された運転者５の頭部５１が含まれている候補領域として特定する（図７のＳＴＥＰ７２）。

このような構成によれば、撮像された運転者５の頭部５１が含まれている候補領域を、統合高尤度領域ＩＨＡよりも狭い範囲に限定できる。これにより、撮像された運転者５の頭部５１の判別精度を高めることができる。

上述したプロセッサ３２の機能は、汎用メモリと協働して動作する汎用マイクロプロセッサにより実現されうる。汎用マイクロプロセッサとしては、ＣＰＵ、ＭＰＵ、ＧＰＵが例示されうる。汎用メモリとしては、ＲＯＭやＲＡＭが例示されうる。この場合、ＲＯＭには、上述した処理を実行するコンピュータプログラムが記憶されうる。ＲＯＭは、コンピュータプログラムを記憶している記憶媒体の一例である。プロセッサ３２は、ＲＯＭ上に記憶されたプログラムの少なくとも一部を指定してＲＡＭ上に展開し、ＲＡＭと協働して上述した処理を実行する。プロセッサ３２は、上述した処理を実現するコンピュータプログラムを実行可能なマイクロコントローラ、ＡＳＩＣ、ＦＰＧＡなどの専用集積回路によって実現されてもよい。プロセッサ３２は、汎用マイクロプロセッサと専用集積回路の組合せによって実現されてもよい。

図１に示されるように、頭部判別装置３は、ネットワーク６を介して外部サーバ７と通信可能に構成されうる。この場合、上述した処理を実行するコンピュータプログラムは、外部サーバ７からネットワーク６を介してダウンロードされうる。外部サーバ７は、コンピュータプログラムを記憶している記憶媒体の一例である。

撮像装置２としては、ＴＯＦ（Time of Flight）カメラが使用されうる。ＴＯＦカメラは、発光素子と受光素子を備えている。発光素子は、検出光として例えば赤外光を出射する。出射された検出光は、対象物によって反射され、戻り光として受光素子に入射する。検出光が発光素子より出射されてから戻り光が受光素子に入射するまでの時間が測定されることにより、戻り光を生じた対象物までの距離が算出される。ＴＯＦカメラにより取得される画像を構成する複数の画素の各々について当該距離が算出されることにより、各画素は、画像における二次元的な位置座標（Ｕ，Ｖ）に加えて、当該画素に対応する対象物の一部までの距離（奥行き）を示す距離情報ｄ（Ｕ，Ｖ）を含む。

したがって、ＴＯＦカメラから出力される原画像データＩＤ１に含まれる複数の原画素データの各々は、位置座標（Ｕ，Ｖ）と距離情報ｄ（Ｕ，Ｖ）を含む。すなわち、複数の原画素データの各々は、三次元空間における位置情報を有している。

各原画素データに含まれる位置座標（Ｕ，Ｖ）と距離情報ｄ（Ｕ，Ｖ）は、画像中心座標が（ｃ_X，ｃ_Y）と定義された場合、次式を用いてカメラ座標系における三次元空間上の点（Ｘ，Ｙ，Ｚ）に変換されうる。ｆは、ＴＯＦカメラが備えるレンズの焦点距離を表している。

プロセッサ３２は、上式に基づいて、位置座標（Ｕ，Ｖ）と距離情報ｄ（Ｕ，Ｖ）からカメラ座標系における三次元空間上の点（Ｘ，Ｙ，Ｚ）への変換を行なう。なお、位置座標（Ｕ，Ｖ）と距離情報ｄ（Ｕ，Ｖ）からカメラ座標系における三次元空間上の点（Ｘ，Ｙ，Ｚ）への変換は、ＴＯＦカメラに内蔵されたプロセッサによって行なわれてもよい。この場合、ＴＯＦカメラから出力される原画像データＩＤ１に含まれる複数の原画素データの各々は、位置座標（Ｘ，Ｙ，Ｚ）を含む。

カメラ座標系における位置座標（Ｘ，Ｙ，Ｚ）は、車両４における特定の位置を原点とする車両座標系における位置座標（Ｌ，Ｗ，Ｈ）に変換されうる。例えば、運転席における特定の位置を原点とした場合、Ｗ軸の座標値は、運転者５から見て原点よりも右方において正の値をとり、原点よりも左方において負の値をとる。例えば、Ｌ軸の座標値は、原点よりも前方において正の値をとり、原点よりも後方において負の値をとる。例えば、Ｈ軸の座標値は、原点よりも上方において正の値をとり、原点よりも下方において負の値をとる。

プロセッサ３２は、各原画素データについてカメラ座標系における位置座標（Ｘ，Ｙ，Ｚ）から車両座標系における位置座標（Ｌ，Ｗ，Ｈ）への変換を行なう。原点は、例えば運転者５の腰骨に対応する位置として選ばれる。車両座標系への座標変換は、周知の座標回転変換、平行移動変換、スケール変換などを用いて行なわれうる。

このような構成によれば、プロセッサ３２によって取得される原画像データＩＤ１に三次元空間における位置情報を付加できる。必要に応じて当該位置情報を参照することにより、上記のように特定された運転者５の頭部５１が含まれる候補領域の正確性を検証するといった処理が可能になる。したがって、運転者５の頭部５１の判別精度を高めることができる。

上記の実施形態は、本発明の理解を容易にするための例示にすぎない。上記の実施形態に係る構成は、本発明の趣旨を逸脱しなければ、適宜に変更・改良されうる。

上記の実施形態においては、画像の輝度に関する特徴量として、エッジの輝度勾配に基づいて物体の大まかな形状を表現可能なＨＯＧを用いて頭部の外形状を捉えている。しかしながら、画像の局所的な明暗差に対応するHaar-Likeや、画像の局所的な輝度の分布に対応するＬＢＰ（Local Binary Pattern）を上記の特徴量として用いてもよい。

上記の実施形態においては、汎化性能が比較的高いＳＶＭを識別器として使用している。しかしながら、ランダムフォレストやパーセプトロンを識別器として使用してもよい。

上記の実施形態においては、車室４１内における撮像された運転者５の頭部５１が判別に供されている。しかしながら、撮像装置２を適宜に配置することにより、撮像された他の乗員の頭部が判別に供されてもよい。

２：撮像装置、３：頭部判別装置、３１：入力インターフェース、３２：プロセッサ、４１：車室、５：運転者、５１：頭部、７：外部サーバ、ＯＩ：原画像、ＩＤ１：原画像データ、ＩＤ２：圧縮画像データ、ＤＷ：検出ウインドウ、ＨＡ：高尤度領域、ＩＨＡ：統合高尤度領域、ＡＨＡ：平均高尤度領域

Claims

撮像された車室を含む原画像に対応し複数の原画素データを含む原画像データを受け付ける入力インターフェースと、
画像の輝度に関する特徴量に基づいて撮像された乗員の頭部を判別するために少なくとも撮像された頭部を含む画像を教師データとして学習した識別器を用い、前記原画像データに基づいて、前記原画像に含まれる撮像された乗員の頭部を判別するプロセッサと、
を備えており、
前記プロセッサは、
前記原画像データを圧縮することにより、前記複数の原画素データよりも少ない複数の圧縮画素データを含む圧縮画像データを生成し、
頭部の大きさに基づいて定められた検出領域を、前記圧縮画像データ内に設定し、
前記検出領域に含まれる各画素データの輝度に関する特徴量を前記識別器に入力し、
前記撮像された乗員の頭部が含まれる可能性が高いことを前記識別器による識別結果が示している少なくとも一つの前記検出領域を、高尤度領域として特定する、
頭部判別装置。
複数の前記高尤度領域が特定された場合、前記プロセッサは、
前記複数の高尤度領域の各々について、前記撮像された乗員の頭部が存在する可能性に対応する尤度を取得し、
前記尤度が最も高い前記複数の高尤度領域の一つを、前記撮像された乗員の頭部が含まれている候補領域として選択する、
請求項１に記載の頭部判別装置。
重複する部分を有する複数の前記高尤度領域が特定された場合、前記プロセッサは、当該複数の高尤度領域を統合して少なくとも一つの統合高尤度領域を生成する、
請求項１または２に記載の頭部判別装置。
前記統合高尤度領域は、前記複数の高尤度領域を内包する矩形状を有している、
請求項３に記載の頭部判別装置。
前記統合高尤度領域が生成された場合、前記プロセッサは、
前記統合高尤度領域に含まれる前記複数の高尤度領域の各々について、前記撮像された乗員の頭部が存在する可能性に対応する尤度を取得し、
前記尤度に基づいて、前記統合高尤度領域に含まれる前記検出領域と同じ大きさの領域を、前記撮像された乗員の頭部が含まれている候補領域として特定する、
請求項３または４に記載の頭部判別装置。
前記プロセッサは、前記検出領域の大きさを変えずに前記高尤度領域を特定する、
請求項１から５のいずれか一項に記載の頭部判別装置。
前記特徴量は、ＨＯＧ（Histograms of Oriented Gradients）である、
請求項１から６のいずれか一項に記載の頭部判別装置。
前記識別器は、サポートベクターマシンである、
請求項１から７のいずれか一項に記載の頭部判別装置。
前記入力インターフェースは、前記原画像データをＴＯＦ（Time of Flight）カメラから受け付ける、
請求項１から８のいずれか一項に記載の頭部判別装置。
画像の輝度に関する特徴量に基づいて撮像された乗員の頭部を判別するために少なくとも撮像された頭部を含む画像を教師データとして学習した識別器を用い、撮像された車室を含む原画像に対応し複数の原画素データを含む原画像データに基づいて、当該原画像に含まれる撮像された乗員の頭部をプロセッサに判別させるコンピュータプログラムであって、
当該コンピュータプログラムが実行されることにより、当該プロセッサに、
前記原画像データを圧縮することにより、前記原画素データよりも少ない複数の圧縮画素データを含む圧縮画像データを生成させ、
頭部の大きさに基づいて定められた検出領域を前記圧縮画像データ内に設定させ、
前記検出領域に含まれる各画素データの輝度に関する特徴量を、前記識別器に入力させ、
前記撮像された乗員の頭部が含まれる可能性が高いことを前記識別器による識別結果が示している少なくとも一つの前記検出領域を、高尤度領域として特定させる、
コンピュータプログラム。
複数の前記高尤度領域が特定された場合、前記プロセッサに、
前記複数の高尤度領域の各々について、前記撮像された乗員の頭部が存在する可能性に対応する尤度を取得させ、
前記尤度が最も高い前記複数の高尤度領域の一つを、前記撮像された乗員の頭部が含まれている候補領域として選択させる、
請求項１０に記載のコンピュータプログラム。
重複する部分を有する複数の前記高尤度領域が特定された場合、前記プロセッサに、当該複数の高尤度領域を統合して少なくとも一つの統合高尤度領域を生成させる、
請求項１０または１１に記載のコンピュータプログラム。
前記統合高尤度領域は、前記複数の高尤度領域を内包する矩形状を有している、
請求項１２に記載のコンピュータプログラム。
前記統合高尤度領域が生成された場合、前記プロセッサに、
前記統合高尤度領域に含まれる前記複数の高尤度領域の各々について、前記撮像された乗員の頭部が存在する可能性に対応する尤度を取得させ、
前記尤度に基づいて、前記統合高尤度領域に含まれる前記検出領域と同じ大きさの領域を、前記撮像された乗員の頭部が含まれている候補領域として特定させる、
請求項１２または１３に記載のコンピュータプログラム。
前記プロセッサに、前記検出領域の大きさを変えずに前記高尤度領域を特定させる、
請求項１０から１４のいずれか一項に記載のコンピュータプログラム。
前記特徴量は、ＨＯＧ（Histograms of Oriented Gradients）である、
請求項１０から１５のいずれか一項に記載のコンピュータプログラム。
前記識別器は、サポートベクターマシンである、
請求項１０から１６のいずれか一項に記載のコンピュータプログラム。
前記原画像データは、ＴＯＦ（Time of Flight）カメラから取得されたものである、
請求項１０から１７のいずれか一項に記載のコンピュータプログラム。
請求項１０から１８のいずれか一項に記載のコンピュータプログラムを記憶している記憶媒体。