JP7232008B2

JP7232008B2 - 乗員モニタリング装置、乗員モニタリング方法、および乗員モニタリングプログラム

Info

Publication number: JP7232008B2
Application number: JP2018181801A
Authority: JP
Inventors: 晋大須賀; 哲也服部; 善之山田; 健松村
Original assignee: Aisin Seiki Co Ltd; Toyota Motor Corp; Aisin Corp
Current assignee: Toyota Motor Corp; Aisin Corp
Priority date: 2018-09-27
Filing date: 2018-09-27
Publication date: 2023-03-02
Anticipated expiration: 2038-09-27
Also published as: US11501561B2; JP2020052755A; DE102019125919A1; US20200104569A1

Description

本開示は、乗員モニタリング装置、乗員モニタリング方法、および乗員モニタリングプログラムに関する。

従来、車両の乗員の顔を撮像することで得られる撮像画像に基づいて、乗員の顔に関する顔情報の検出（および検出された顔情報のトラッキング）を含む乗員モニタリング処理を実行することで、乗員の顔の状態変化をモニタリングする技術が知られている。このような従来の技術では、マスクやサングラスなどといった装着物によって乗員の顔の一部が隠されている場合、装着物の着用状況に応じて異なる態様で乗員モニタリング処理が実行されうる。

特開２０１０－９７３７９号公報

上記のような従来の技術において、乗員の顔の一部が隠されるという状況は、マスクやサングラスなどといった装着物だけでなく、乗員の手や携帯電話などといった、装着物ではない非装着物によっても発生しうる。しかしながら、上記のような従来の技術は、乗員の顔の一部が非装着物によって隠されるという状況を想定していないので、乗員の顔の一部が隠されている場合、その隠れの原因が装着物であるか非装着物であるかに関わらず、同一の態様で乗員モニタリング処理が実行されると考えられる。

ここで、一般に、装着物と非装着物とでは、乗員の顔の隠れ具合などが異なる。たとえば、装着物によって隠れる顔の部位は、装着物の種類に応じて一定に定まる一方、非装着物によって隠される顔の部位は、非装着物の種類や時間などに応じて様々に変化しうるので、一定に定まりにくい。したがって、乗員の顔の一部が装着物によって隠されている場合と、乗員の顔の一部が非装着物によって隠されている場合と、においてそれぞれ同一の態様で乗員モニタリング処理を実行すると、乗員モニタリング処理の精度が低下することがある。

そこで、本開示の課題の一つは、乗員モニタリング処理の精度の向上を実現することが可能な乗員モニタリング装置、乗員モニタリング方法、および乗員モニタリングプログラムを提供することである。

本開示の一例としての乗員モニタリング装置は、車両内において乗員の顔が存在する可能性のある領域を撮像することで得られる撮像画像を取得する取得部と、取得部により取得された撮像画像が、装着物によって一部が隠された顔を含む第１の画像と、装着物以外の非装着物によって一部が隠された顔を含む第２の画像と、のいずれに該当するかを判別する判別部と、判別部による判別結果に応じて異なる態様で、撮像画像に基づいて乗員の顔に関する顔情報を検出し、検出結果に基づいて乗員の顔の状態変化をモニタリングする処理部と、を備える。前記処理部は、前記撮像画像が前記第２の画像に該当すると前記判別部により判別された場合、前記非装着物によって隠された顔の部位に応じて異なる前記顔情報を検出し、前記非装着物によって隠された顔の部位が目を含まない場合、前記顔情報として前記目に関する目情報を検出し、前記非装着物によって隠された顔の部位が口を含まない場合、前記顔情報として前記口に関する口情報を検出し、前記目情報および前記口情報の検出の成否に関わらず、前記顔情報として表情に関する表情情報を検出する。

上述した乗員モニタリング装置によれば、乗員の顔の一部が装着物によって隠されている場合と、乗員の顔の一部が非装着物によって隠されている場合と、のそれぞれにおいて、顔情報を検出する態様を異ならせることができるので、乗員モニタリング処理の精度を向上させることができる。また、非装着物による顔の隠れ具合に応じて、顔情報を適切に検出することができる。また、非装着物によって隠されていない顔の部位に関する情報を、顔情報として適切に検出することができる。また、目情報および口情報が検出されない場合であっても、少なくとも表情情報は検出することができる。

上述した乗員モニタリング装置において、処理部は、撮像画像が第１の画像に該当すると判別部により判別された場合、顔の全体に対して予め設定された複数の特徴点のうち、装着物によって隠されていない顔の部位に対応した１以上の特徴点に基づいて顔情報を検出し、撮像画像が第２の画像に該当すると判別部により判別された場合、複数の特徴点に基づいて顔情報を検出する。このような構成によれば、着目すべき顔の部位が一定に定まりやすい前者の場合は、特定の部位に対応した特定の特徴点を選択的に考慮して、顔情報を適切に検出することができ、着目すべき顔の部位が一定に定まりにくい後者の場合は、顔の全体に対応した複数の特徴点をまんべんなく考慮して、顔情報を適切に検出することができる。

また、本開示の一例としての乗員モニタリング装置は、車両内において乗員の顔が存在する可能性のある領域を撮像することで得られる撮像画像を取得する取得部と、前記取得部により取得された前記撮像画像が、装着物によって一部が隠された顔を含む第１の画像と、前記装着物以外の非装着物によって一部が隠された顔を含む第２の画像と、のいずれに該当するかを判別する判別部と、前記判別部による判別結果に応じて異なる態様で、前記撮像画像に基づいて前記乗員の顔に関する顔情報を検出し、検出結果に基づいて前記乗員の顔の状態変化をモニタリングする処理部と、を備える。処理部は、撮像画像が第１の画像に該当すると判別部により判別された場合、当該第１の画像の特徴と、乗員の顔の三次元の形状を含む構造を表す三次元モデルと、のフィッティングの結果に基づいて、顔情報を検出し、撮像画像が第２の画像に該当すると判別部により判別された場合、当該第２の画像の特徴のみに基づいて、顔情報を検出する。このような構成によれば、状況に応じてフィッティングを実行するか否かを切り替えることで、状況に応じて適切な態様で顔情報を検出することができる。

また、本開示の一例としての乗員モニタリング装置は、車両内において乗員の顔が存在する可能性のある領域を撮像することで得られる撮像画像を取得する取得部と、前記取得部により取得された前記撮像画像が、装着物によって一部が隠された顔を含む第１の画像と、前記装着物以外の非装着物によって一部が隠された顔を含む第２の画像と、のいずれに該当するかを判別する判別部と、前記判別部による判別結果に応じて異なる態様で、前記撮像画像に基づいて前記乗員の顔に関する顔情報を検出し、検出結果に基づいて前記乗員の顔の状態変化をモニタリングする処理部と、を備える。取得部は、撮像画像を継続的に複数回取得し、処理部は、撮像画像が第１の画像に該当すると判別部により判別された場合、顔情報を検出した後、当該顔情報のトラッキングを実行し、撮像画像が第２の画像に該当すると判別部により判別された場合、顔情報を検出した後、当該顔情報のトラッキングを実行することなく、取得部により次に取得される撮像画像を対象とした判別部による判別結果に応じて異なる態様で、顔情報を検出する。このような構成によれば、着目すべき顔の部位が一定に定まりやすいためトラッキングを実行しやすい前者の場合と、着目すべき顔の部位が一定に定まりにくいためトラッキングを実行しにくい後者の場合とで、トラッキングを実行するか否かを適切に切り替えることができる。

また、本開示の一例としての乗員モニタリング装置は、車両内において乗員の顔が存在する可能性のある領域を撮像することで得られる撮像画像を取得する取得部と、前記取得部により取得された前記撮像画像が、装着物によって一部が隠された顔を含む第１の画像と、前記装着物以外の非装着物によって一部が隠された顔を含む第２の画像と、のいずれに該当するかを判別する判別部と、前記判別部による判別結果に応じて異なる態様で、前記撮像画像に基づいて前記乗員の顔に関する顔情報を検出し、検出結果に基づいて前記乗員の顔の状態変化をモニタリングする処理部と、を備える。判別部は、撮像画像と同様の情報を含む学習用画像と、当該学習用画像が第１の画像と第２の画像とのいずれに該当するかと、を機械学習により学習することで生成される学習済みモデルに基づいて、取得部により取得された撮像画像が第１の画像と第２の画像とのいずれに該当するかを判別する。このような構成によれば、学習済みモデルに基づいて、撮像画像の判別を容易に実行することができる。

本開示の他の一例としての乗員モニタリング方法は、車両内において乗員の顔が存在する可能性のある領域を撮像することで得られる撮像画像を取得する取得ステップと、取得ステップにおいて取得された撮像画像が、装着物によって一部が隠された顔を含む第１の画像と、装着物以外の非装着物によって一部が隠された顔を含む第２の画像と、のいずれに該当するかを判別する判別ステップと、判別ステップにおける判別結果に応じて異なる態様で、撮像画像に基づいて乗員の顔に関する顔情報を検出し、検出結果に基づいて乗員の顔の状態変化をモニタリングする処理ステップと、を備える。前記処理ステップは、前記撮像画像が前記第２の画像に該当すると前記判別ステップにより判別された場合、前記非装着物によって隠された顔の部位に応じて異なる前記顔情報を検出し、前記非装着物によって隠された顔の部位が目を含まない場合、前記顔情報として前記目に関する目情報を検出し、前記非装着物によって隠された顔の部位が口を含まない場合、前記顔情報として前記口に関する口情報を検出し、前記目情報および前記口情報の検出の成否に関わらず、前記顔情報として表情に関する表情情報を検出する。

上述した乗員モニタリング方法によれば、乗員の顔の一部が装着物によって隠されている場合と、乗員の顔の一部が非装着物によって隠されている場合と、のそれぞれにおいて、顔情報を検出する態様を異ならせることができるので、乗員モニタリング処理の精度を向上させることができる。また、非装着物による顔の隠れ具合に応じて、顔情報を適切に検出することができる。また、非装着物によって隠されていない顔の部位に関する情報を、顔情報として適切に検出することができる。また、目情報および口情報が検出されない場合であっても、少なくとも表情情報は検出することができる。

本開示のさらに他の一例としての乗員モニタリングプログラムは、コンピュータに、車両内において乗員の顔が存在する可能性のある領域を撮像することで得られる撮像画像を取得する取得ステップと、取得ステップにおいて取得された撮像画像が、装着物によって一部が隠された顔を含む第１の画像と、装着物以外の非装着物によって一部が隠された顔を含む第２の画像と、のいずれに該当するかを判別する判別ステップと、判別ステップにおける判別結果に応じて異なる態様で、撮像画像に基づいて乗員の顔に関する顔情報を検出し、検出結果に基づいて乗員の顔の状態変化をモニタリングする処理ステップと、を実行させる。前記処理ステップは、前記撮像画像が前記第２の画像に該当すると前記判別ステップにより判別された場合、前記非装着物によって隠された顔の部位に応じて異なる前記顔情報を検出し、前記非装着物によって隠された顔の部位が目を含まない場合、前記顔情報として前記目に関する目情報を検出し、前記非装着物によって隠された顔の部位が口を含まない場合、前記顔情報として前記口に関する口情報を検出し、前記目情報および前記口情報の検出の成否に関わらず、前記顔情報として表情に関する表情情報を検出する。

上述した乗員モニタリングプログラムによれば、乗員の顔の一部が装着物によって隠されている場合と、乗員の顔の一部が非装着物によって隠されている場合と、のそれぞれにおいて、顔情報を検出する態様を異ならせることができるので、乗員モニタリング処理の精度を向上させることができる。また、非装着物による顔の隠れ具合に応じて、顔情報を適切に検出することができる。また、非装着物によって隠されていない顔の部位に関する情報を、顔情報として適切に検出することができる。また、目情報および口情報が検出されない場合であっても、少なくとも表情情報は検出することができる。

図１は、実施形態にかかる車両の構成の一例を示した例示的かつ模式的な図である。図２は、実施形態にかかる撮像装置の配置の一例を示した例示的かつ模式的な図である。図３は、実施形態にかかる乗員モニタリングシステムのシステム構成を示した例示的かつ模式的なブロック図である。図４は、実施形態にかかる乗員モニタリング装置の機能を示した例示的かつ模式的なブロック図である。図５は、実施形態にかかる第１の画像の一例を示した例示的かつ模式的な図である。図６は、実施形態にかかる第１の画像の他の一例を示した例示的かつ模式的な図である。図７は、実施形態にかかる第２の画像の一例を示した例示的かつ模式的な図である。図８は、実施形態にかかる第２の画像の他の一例を示した例示的かつ模式的な図である。図９は、実施形態にかかる第３の画像の一例を示した例示的かつ模式的な図である。図１０は、実施形態にかかる乗員モニタリング装置が実行する初期検出処理の一部を示した例示的かつ模式的なフローチャートである。図１１は、実施形態にかかる乗員モニタリング装置が実行する初期検出処理の残りの一部を示した例示的かつ模式的なフローチャートである。図１２は、実施形態にかかる乗員モニタリング装置が実行するトラッキング処理を示した例示的かつ模式的なフローチャートである。

以下、本開示の実施形態を図面に基づいて説明する。以下に記載する実施形態の構成、ならびに当該構成によってもたらされる作用および結果（効果）は、あくまで一例であって、以下の記載内容に限られるものではない。

まず、図１および図２を参照して、実施形態による車両１の概略的な構成について説明する。図１は、実施形態にかかる車両１の構成の一例を示した例示的かつ模式的な図であり、図２は、実施形態にかかる撮像装置２０１の配置の一例を示した例示的かつ模式的な図である。

図１に示されるように、実施形態にかかる車両１は、左右２つの前輪３Ｆと、左右２つの後輪３Ｒと、を有した四輪の自動車である。以下では、簡単化のため、前輪３Ｆおよび後輪３Ｒを総称して車輪３と記載することがある。実施形態では、４つの車輪３の一部または全部の横滑り角が、操舵部３０３ａの操舵などに応じて変化（転舵）する。

また、図１に示されるように、実施形態にかかる車両１は、乗員（図１には不図示）が乗車する車室２ａを有している。車室２ａ内には、乗員としての運転者Ｘ（図１には不図示）が運転席２ｂから操作可能な状態で、操舵部３０３ａが設けられている。操舵部３０３ａは、たとえば、ダッシュボード（インストルメントパネル）１２から突出するように設けられたステアリングホイールやハンドルなどとしてとして構成される。なお、実施形態において、車室２ａ内に運転席２ｂ以外の座席が存在していてもよいことは、言うまでもない。

また、車室２ａ内には、各種の画像を出力可能な表示部８と、各種の音を出力可能な音声出力部９と、を有したモニタ装置１１が設けられている。モニタ装置１１は、たとえば、車室２ａ内のダッシュボードの車幅方向（左右方向）の中央部に設けられている。図１に示される例において、表示部８は、指やスタイラスなどの指示体が近接（接触を含む）した位置の座標を検出可能な操作入力部１０によって覆われている。これにより、乗員は、表示部８に表示される画像を視認することができるとともに、操作入力部１０上で指示体を用いた入力操作（たとえばタッチ操作）を行うことで、各種の操作を入力することができる。

また、図２に示されるように、操舵部３０３ａを支持する支持部２０２には、撮像装置２０１が設けられている。撮像装置２０１は、たとえばＣＣＤ（ＣｈａｒｇｅＣｏｕｐｌｅｄＤｅｖｉｃｅ）カメラとして構成される。

ここで、実施形態において、撮像装置２０１は、運転席２ｂに着座した運転者Ｘの顔が存在する可能性のある領域を撮像するように構成されている。より具体的に、撮像装置２０１は、運転席２ｂに着座した運転者Ｘの顔が視野の中心に位置するように、視野角および姿勢が調整されている。

撮像装置２０１は、車両１の運転が行われている間、運転者Ｘの顔の撮像を所定の時間間隔で周期的に実行し、撮像により得た撮像画像（に対応した画像データ）を順次、後述する乗員モニタリング装置３１０（図３および図４参照）に出力する。詳細は後述するが、乗員モニタリング装置３１０は、撮像装置２０１の撮像によって得られる撮像画像に基づいて、運転者Ｘの顔に関する顔情報の検出（および検出された顔情報のトラッキング）を含む乗員モニタリング処理を実行することで、運転者Ｘの顔の状態変化をモニタリングする。

なお、図２には図示されていないが、実施形態では、撮像装置２０１が撮像する領域に光を照射する照明部が設けられてもよい。この場合、赤外線を照射する赤外線照明を使用すれば、運転者Ｘにまぶしさを感じさせることなく、撮像装置２０１による撮像を補助することができる。

また、以下では、撮像装置２０１によって得られる、運転席２ｂに着座した運転者Ｘの顔が存在する可能性のある領域の情報を含む撮像画像に基づいて実行される乗員モニタリング処理について説明するが、乗員モニタリング処理は、運転者Ｘ以外の乗員に対しても実行可能である。すなわち、乗員モニタリング処理は、撮像装置２０１とは異なる位置に設けられる、運転席２ｂ以外の他の座席に着座した乗員の顔が存在する可能性のある領域を撮像する撮像部によって得られる撮像画像に基づいても、同様に実行可能である。

次に、図３を参照して、乗員モニタリング処理を実行する乗員モニタリング装置３１０を含む乗員モニタリングシステム３００のシステム構成について説明する。なお、図３に示されるシステム構成は、あくまで一例であるので、様々に設定（変更）可能である。

図３は、実施形態にかかる乗員モニタリングシステム３００のシステム構成を示した例示的かつ模式的なブロック図である。図３に示されるように、乗員モニタリングシステム３００は、制動システム３０１と、加速システム３０２と、操舵システム３０３と、変速システム３０４と、障害物センサ３０５と、走行状態センサ３０６と、撮像装置２０１と、モニタ装置１１と、乗員モニタリング装置３１０と、車載ネットワーク３５０と、を有している。

制動システム３０１は、車両１の減速を制御する。制動システム３０１は、制動部３０１ａと、制動制御部３０１ｂと、制動部センサ３０１ｃと、を有している。

制動部３０１ａは、たとえばブレーキペダルなどといった、車両１を減速させるための装置である。

制動制御部３０１ｂは、たとえば、ＣＰＵなどといったハードウェアプロセッサを有したコンピュータにより構成されるＥＣＵ（ＥｌｅｃｔｒｏｎｉｃＣｏｎｔｒｏｌＵｎｉｔ）である。制動制御部３０１ｂは、たとえば車載ネットワーク３５０経由で入力される指示に基づいてアクチュエータ（不図示）を駆動し、制動部３０１ａを作動させることで、車両１の減速度合を制御する。

制動部センサ３０１ｃは、制動部３０１ａの状態を検出するための装置である。たとえば、制動部３０１ａがブレーキペダルとして構成される場合、制動部センサ３０１ｃは、制動部３０１ａの状態として、ブレーキペダルの位置または当該ブレーキペダルに作用している圧力を検出する。制動部センサ３０１ｃは、検出した制動部３０１ａの状態を車載ネットワーク３５０に出力する。

加速システム３０２は、車両１の加速を制御する。加速システム３０２は、加速部３０２ａと、加速制御部３０２ｂと、加速部センサ３０２ｃと、を有している。

加速部３０２ａは、たとえばアクセルペダルなどといった、車両１を加速させるための装置である。

加速制御部３０２ｂは、たとえば、ＣＰＵなどといったハードウェアプロセッサを有したコンピュータにより構成されるＥＣＵである。加速制御部３０２ｂは、たとえば車載ネットワーク３５０経由で入力される指示に基づいてアクチュエータ（不図示）を駆動し、加速部３０２ａを作動させることで、車両１の加速度合を制御する。

加速部センサ３０２ｃは、加速部３０２ａの状態を検出するための装置である。たとえば、加速部３０２ａがアクセルペダルとして構成される場合、加速部センサ３０２ｃは、アクセルペダルの位置または当該アクセルペダルに作用している圧力を検出する。加速部センサ３０２ｃは、検出した加速部３０２ａの状態を車載ネットワーク３５０に出力する。

操舵システム３０３は、車両１の進行方向を制御する。操舵システム３０３は、操舵部３０３ａと、操舵制御部３０３ｂと、操舵部センサ３０３ｃと、を有している。

操舵部３０３ａは、たとえばステアリングホイールやハンドルなどといった、車両１の転舵輪を転舵させる装置である。

操舵制御部３０３ｂは、たとえば、ＣＰＵなどといったハードウェアプロセッサを有したコンピュータにより構成されるＥＣＵである。操舵制御部３０３ｂは、たとえば車載ネットワーク３５０経由で入力される指示に基づいてアクチュエータ（不図示）を駆動し、操舵部３０３ａを作動させることで、車両１の進行方向を制御する。

操舵部センサ３０３ｃは、操舵部３０３ａの状態を検出するための装置である。たとえば、操舵部３０３ａがステアリングホイールとして構成される場合、操舵部センサ３０３ｃは、ステアリングホイールの位置または当該ステアリングホイールの回転角度を検出する。なお、操舵部３０３ａがハンドルとして構成される場合、操舵部センサ３０３ｃは、ハンドルの位置または当該ハンドルに作用している圧力を検出してもよい。操舵部センサ３０３ｃは、検出した操舵部３０３ａの状態を車載ネットワーク３５０に出力する。

変速システム３０４は、車両１の変速比を制御する。変速システム３０４は、変速部３０４ａと、変速制御部３０４ｂと、変速部センサ３０４ｃと、を有している。

変速部３０４ａは、たとえば、シフトレバーなどといった、車両１の変速比を変更するための装置である。

変速制御部３０４ｂは、たとえば、ＣＰＵなどといったハードウェアプロセッサを有したコンピュータにより構成されるＥＣＵである。変速制御部３０４ｂは、たとえば車載ネットワーク３５０経由で入力される指示に基づいてアクチュエータ（不図示）を駆動し、変速部３０４ａを作動させることで、車両１の変速比を制御する。

変速部センサ３０４ｃは、変速部３０４ａの状態を検出するための装置である。たとえば、変速部３０４ａがシフトレバーとして構成される場合、変速部センサ３０４ｃは、シフトレバーの位置または当該シフトレバーに作用している圧力を検出する。変速部センサ３０４ｃは、検出した変速部３０４ａの状態を車載ネットワーク３５０に出力する。

障害物センサ３０５は、車両１の周囲に存在しうる障害物に関する情報を検出するための装置である。障害物センサ３０５は、たとえば、障害物までの距離を検出するソナーなどといった測距センサを含んでいる。障害物センサ３０５は、検出した情報を車載ネットワーク３５０に出力する。

走行状態センサ３０６は、車両１の走行状態を検出するための装置である。走行状態センサ３０６は、たとえば、車両１の車輪速を検出する車輪速センサや、車両１の前後方向または左右方向の加速度を検出する加速度センサや、車両１の旋回速度（角速度）を検出するジャイロセンサなどを含んでいる。走行状態センサ３０６は、検出した走行状態を車載ネットワーク３５０に出力する。

乗員モニタリング装置３１０は、乗員モニタリングシステム３００を統括的に制御するための装置である。乗員モニタリング装置３１０は、撮像装置２０１によって得られる撮像画像に基づいて、運転者Ｘの顔に関する顔情報の検出（および検出された顔情報のトラッキング）を含む乗員モニタリング処理を実行することで、運転者Ｘの顔の状態変化をモニタリングする。

乗員モニタリング装置３１０は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）３１０ａと、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）３１０ｂと、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）３１０ｃと、ＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）３１０ｄと、表示制御部３１０ｅと、音声制御部３１０ｆと、を有したＥＣＵとして構成されている。

ＣＰＵ３１０ａは、乗員モニタリング装置３１０を統括的に制御するハードウェアプロセッサである。ＣＰＵ３１０ａは、ＲＯＭ３１０ｂなどに記憶された各種の制御プログラム（コンピュータプログラム）を読み出し、当該各種の制御プログラムに規定されたインストラクションにしたがって各種の機能を実現する。各種の制御プログラムには、乗員モニタリング処理を実現するための乗員モニタリングプログラムが含まれる。

ＲＯＭ３１０ｂは、上述した各種の制御プログラムの実行に必要なパラメータなどを記憶する不揮発性の主記憶装置である。

ＲＡＭ３１０ｃは、ＣＰＵ３１０ａの作業領域を提供する揮発性の主記憶装置である。

ＳＳＤ３１０ｄは、書き換え可能な不揮発性の補助記憶装置である。なお、実施形態にかかる乗員モニタリング装置３１０においては、補助記憶装置として、ＳＳＤ３１０ｄに替えて（またはＳＳＤ３１０ｄに加えて）、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）が設けられてもよい。

表示制御部３１０ｅは、乗員モニタリング装置３１０で実行されうる各種の処理のうち、主として、撮像装置２０１から得られた撮像画像に対する画像処理や、モニタ装置１１の表示部８に出力する画像データの生成などを司る。

音声制御部３１０ｆは、乗員モニタリング装置３１０で実行されうる各種の処理のうち、主として、モニタ装置１１の音声出力部９に出力する音声データの生成などを司る。

車載ネットワーク３５０は、制動システム３０１と、加速システム３０２と、操舵システム３０３と、変速システム３０４と、障害物センサ３０５と、走行状態センサ３０６と、モニタ装置１１の操作入力部１０と、乗員モニタリング装置３１０と、を通信可能に接続する。

ところで、従来、マスクやサングラスなどといった装着物によって乗員の顔の一部が隠されている場合、装着物の着用状況に応じて異なる態様で乗員モニタリング処理を実行する技術が知られている。

ここで、一般に、装着物と非装着物とでは、乗員の顔の隠れ具合などが異なる。たとえば、装着物によって隠される顔の部位は、装着物の種類に応じて一定に定まる一方、非装着物によって隠される顔の部位は、非装着物の種類や時間などに応じて様々に変化しうるので、一定に定まりにくい。したがって、乗員の顔の一部が装着物によって隠されている場合と、乗員の顔の一部が非装着物によって隠されている場合と、においてそれぞれ同一の態様で乗員モニタリング処理を実行すると、乗員モニタリング処理の精度が低下することがある。

そこで、実施形態は、乗員モニタリング装置３１０に次の図４に示されるような機能を持たせることで、乗員モニタリング処理の精度の向上を実現する。

図４は、実施形態にかかる乗員モニタリング装置３１０の機能を示した例示的かつ模式的なブロック図である。図４に示される機能は、ソフトウェアとハードウェアとの協働によって実現される。すなわち、図４に示される例において、乗員モニタリング装置３１０の機能は、ＣＰＵ３１０ａがＲＯＭ３１０ｂなどに記憶された所定の制御プログラムを読み出して実行した結果として実現される。なお、実施形態では、図４に示される機能の少なくとも一部が専用のハードウェア（回路）によって実現されてもよい。

図４に示されるように、実施形態にかかる乗員モニタリング装置３１０は、取得部４０１と、判別部４０２と、処理部４０４と、を有している。

取得部４０１は、撮像装置２０１によって得られる撮像画像を、所定の制御タイミングで継続的に複数回取得する。前述したように、撮像画像は、車両１内において運転者Ｘの顔が存在する可能性のある領域の情報を含んでいる。

判別部４０２は、取得部４０１により取得された撮像画像が、マスクやサングラスなどといった装着物によって一部が隠された顔を含む第１の画像と、手や携帯電話などといった、装着物以外の非装着物によって一部が隠された顔を含む第２の画像と、装着物によっても非装着物によっても隠されていない顔の全体を含む第３の画像と、のいずれに該当するかを判別する。

より具体的に、判別部４０２は、機械学習の結果として生成される学習済みモデル４０３を有しており、当該学習済みモデル４０３に基づいて、撮像画像が、第１の画像、第２の画像、および第３の画像のいずれに該当するか否かを判別する。学習済みモデル４０３は、たとえば、第１の画像、第２の画像、または第３の画像のいずれに該当するかのラベルを複数の学習用画像に対して付与し、これらの学習用画像とラベルの組み合わせを教師データとした教師あり学習によって生成することが可能である。なお、学習用画像は、たとえば撮像画像と同条件下で撮像された画像であり、撮像画像と同様の情報を含んでいるものとする。実施形態において、学習済みモデル４０３を生成するための機械学習は、教師あり学習に限らず、教師なし学習や強化学習、これら３つの学習スキームのうち１つ以上の組み合わせなどであってもよい。

ここで、第１の画像、第２の画像、および第３の画像の具体例について簡単に説明する。

図５は、実施形態にかかる第１の画像の一例を示した例示的かつ模式的な図である。この図５に示される画像５００は、装着物によって運転者Ｘの顔の一部が隠された状況を表しているので、第１の画像の一例である。より具体的に、画像５００は、装着物としてのマスクＭによって運転者Ｘの顔の口元が隠された状況を表している。なお、マスクＭは、装着物であるので、装着が解除されるまでは、一定の位置を保つ。

また、図６は、実施形態にかかる第１の画像の他の一例を示した例示的かつ模式的な図である。この図６に示される画像６００も、図５に示される画像５００と同様、装着物によって運転者Ｘの顔の一部が隠された状況を表しているので、第１の画像の一例である。より具体的に、画像６００は、装着物の一例としてのサングラスＳによって運転者Ｘの目元が隠された状況を表している。なお、上記のマスクＭ（図５参照）と同様、サングラスＳも、装着物であるので、装着が解除されるまでは、一定の位置を保つ。

また、図７は、実施形態にかかる第２の画像の一例を示した例示的かつ模式的な図である。この図７に示される画像７００は、非装着物によって運転者Ｘの顔の一部が隠された状況を表しているので、第２の画像の一例である。より具体的に、画像７００は、非装着物としての手Ｈによって運転者Ｘの目元と頬の部分が隠された状況を表している。なお、図７に示される例では、手Ｈが運転者Ｘの目元および頬の部分と重なっているが、手Ｈは、非装着物であるので、顔の特定の位置に常に重なるとはいえず、一定の位置を保ちにくい。

また、図８は、実施形態にかかる第２の画像の他の一例を示した例示的かつ模式的な図である。この図８に示される画像８００も、図７に示される画像７００と同様、非装着物によって運転者Ｘの顔の一部が隠された状況を表しているので、第２の画像の一例である。より具体的に、画像８００は、非装着物としての携帯電話Ｐによって運転者Ｘの顔の一部が隠された状況を表している。なお、図８に示される例では、携帯電話Ｐの位置が運転者Ｘの顔の耳元から口元にかけての部分と重なっているが、上記の手Ｈ（図７参照）と同様、携帯電話Ｐも、非装着物であるので、顔の特定の位置に常に重なるとはいえず、一定の位置を保ちにくい。

また、図９は、実施形態にかかる第３の画像の一例を示した例示的かつ模式的な図である。この図９に示される画像９００は、運転者Ｘの顔の全体があらわになった状況を表しているので、第３の画像の一例である。

実施形態にかかる乗員モニタリング処理は、図５～図９に示されるような各種の撮像画像から取得される、運転者Ｘの顔に関する顔情報に基づいて実行される。なお、顔情報とは、運転者Ｘの目に関する目情報や、運転者Ｘの口に関する口情報、運転者Ｘの表情に関する表情情報などを含むデータである。目情報とは、目（瞼）の開閉状態や視線の向きなどを示すデータであり、口情報とは、口の開閉状態（会話の状態）などを示すデータである。

ここで、図９に示される画像９００のような第３の画像（以下、便宜的にノーマル画像と表現することがある）からは、全ての顔情報を安定的に取得することが可能である。したがって、ノーマル画像については、全ての顔情報に着目するのが適切であるといえる。

また、図５および図６に示される画像５００および６００のような第１の画像からは、装着物によって隠されていない顔の部位に関する情報を安定的に取得することは可能であるが、装着物によって隠されている顔の部位に関する情報を取得することは不可能である。したがって、第１の画像については、前者の情報には着目せず、後者の情報のみに着目するのが適切であるといえる。

より具体的に、図５に示される画像５００のような第１の画像（以下、便宜的にマスク画像と表現することがある）からは、目情報を安定的に取得することは可能であるが、口情報を取得することは不可能である。したがって、マスク画像については、目情報のみに着目するのが適切であるといえる。

また、図６に示される画像６００のような第１の画像（以下、便宜的にサングラス画像と表現することがある）からは、口情報を安定的に取得することは可能であるが、口情報を取得することは不可能である。したがって、サングラス画像については、口情報のみに着目するのが適切であるといえる。

一方、図７および図８に示される画像７００および８００のような第２の画像（以下、隠れ画像と表現することがある）からは、特定の顔情報を安定的に取得しにくい。すなわち、前述したように、非装着物は、顔の特定の位置に常に重なるとはいえず、一定の位置を保ちにくいので、顔の特定の部位に関する情報に着目するだけでは、情報の見逃しなどが発生しやすい。したがって、隠れ画像については、少なくとも、乗員モニタリング処理の初期ステップとして最初に顔情報を取得する場合において、特定の顔情報のみに着目するのではなく、全ての顔情報に着目するのが適切であるといえる。

なお、表情情報は、顔の全てが隠されていなければ、ある程度のレベルで取得することが可能であると考えられる。したがって、図５～図９に示されるような各種の画像のいずれについても、表情情報に着目するのは適切であると考えられる。

このように、装着物によって顔の一部が隠された状況と、非装着物によって顔の一部が隠された状況と、顔の全体があらわになった状況とでは、着目すべき顔情報が異なる。したがって、着目する顔情報が状況に応じて適宜変更されるように、状況に応じて異なる態様で乗員モニタリング処理を実行することが望ましい。

そこで、図４に戻り、処理部４０４は、判別部４０２による判別結果に応じて異なる態様で、運転者Ｘの顔に関する顔情報を検出し、検出結果に基づいて、運転者Ｘの顔の状態変化をモニタリングする。以下、処理部４０４の機能についてより詳細に説明する。

処理部４０４は、乗員モニタリング処理の初期段階として撮像画像から最初に顔情報を検出する初期検出モードと、初期検出処理において検出された顔情報のトラッキングを実行するトラッキングモードとの２つの制御モードにそれぞれ対応した機能モジュールを有している。

すなわち、処理部４０４は、初期検出モードに対応した処理としての初期検出処理を実行する初期検出処理部４０５と、トラッキングモードに対応した処理としてのトラッキング処理を実行するトラッキング処理部４０６と、を有している。

処理部４０４の制御モードは、たとえば取得部４０１により撮像画像が取得された場合に、初期検出モードに設定される。

前述したように、撮像画像が、図５に示されるマスク画像や図６に示されるサングラス画像などのような第１の画像に該当する場合、顔の特定の部位、すなわち装着物によって隠されていない顔の部位に関する情報に着目することが適切であるといえる。したがって、実施形態において、処理部４０４の初期検出処理部４０５は、撮像画像が第１の画像に該当する場合、顔の全体に対して予め設定された複数の特徴点のうち、装着物によって隠されていない顔の部位に対応した１以上の特徴点に基づいて顔情報を検出する。

一方、前述したように、撮像画像が、図７および図８に示される隠れ画像のような第２の画像に該当する場合、少なくとも初期検出処理においては、全ての顔情報に着目するのが適切であるといえる。したがって、実施形態において、処理部４０４の初期検出処理部４０５は、撮像画像が第２の画像に該当する場合、顔の全体に対して予め設定された複数の特徴点（の全て）に基づいて顔情報を検出する。

ただし、非装着物で隠された顔の部位が目を含む場合は、顔情報として目情報を検出するのは無駄であるし、非装着物で隠された顔の部位が口を含む場合は、顔情報として口情報を検出するのは無駄である。

したがって、処理部４０４の初期検出処理部４０５は、撮像画像が第２の画像に該当する場合、非装着物によって隠された顔の部位に応じて異なる顔情報を検出する。より具体的に、処理部４０４の初期検出処理部４０５は、非装着物によって隠された顔の部位が目を含まない場合、顔情報として目に関する目情報を検出し、非装着物によって隠された顔の部位が口を含まない場合、顔情報として口に関する口情報を検出する。

ここで、前述したように、非装着物は、顔の特定の位置に常に重なるとはいえず、一定の位置を保ちにくいので、撮像画像が第２の画像に該当する場合、目情報も口情報も取得できない事態も発生しうる。しかしながら、前述したように、表情情報は、顔の全てが隠されていなければ、ある程度のレベルで取得することが可能であると考えられる。このため、撮像画像が第２の画像に該当する場合、目情報も口情報も取得できない事態が発生しても、表情情報については、ある程度のレベルで取得できる可能性がある。

したがって、実施形態において、処理部４０４の初期検出処理部４０５は、撮像画像が第２の画像に該当する場合、目情報および口情報の検出の成否に関わらず、顔情報として表情に関する表情情報を検出する。

なお、実施形態において、撮像画像が、図９に示されるノーマル画像のような第３の画像に該当する場合、処理部４０４の初期検出処理部４０５が、顔の全体に対して予め設定された複数の特徴点（の全て）に基づいて（全ての）顔情報を検出することは、言うまでもない。

ここで、顔情報は、撮像画像から取得される特徴点のみに基づいてはある程度のレベルで検出することが可能である。しかしながら、顔情報は、撮像画像から取得される特徴点と、顔の三次元の形状を含む構造を表すデータとして取得される三次元モデルと、のフィッティングを利用すれば、より詳細に検出することが可能である。なお、フィッティングとは、三次元モデルを表すパラメータを撮像画像における顔の形状を含む構造にマッチするように適宜調整する処理である。

実施形態では、撮像画像が第１の画像または第３の画像に該当する場合、着目すべき特徴点が一定なので、フィッティングを容易に実行することができる。しかしながら、撮像画像が第２の画像に該当する場合、着目すべき特徴点が一定ではないので、フィッティングを実行するのが困難である。

したがって、実施形態において、処理部４０４の初期検出処理部４０５は、撮像画像が第１の画像に該当する場合、当該第１の画像から取得される特徴点と、乗員の顔の三次元の形状を含む構造を表す三次元モデルと、のフィッティングの結果に基づいて、顔情報を検出し、撮像画像が第２の画像に該当する場合、当該第２の画像から取得される特徴点のみに基づいて、顔情報を検出する。

ところで、顔の状態変化をモニタリングするためには、初期検出処理部４０５による上記のような顔情報の検出の後に、トラッキング処理部４０６による顔情報のトラッキングが実行されることが望まれる。したがって、処理部４０４の制御モードは、基本的には、初期検出モードにおける顔情報の検出が完了した後、トラッキングモードに移行する。

しかしながら、撮像画像が第２の画像に該当する場合、着目すべき顔情報が定まらないので、顔情報のトラッキングを実行するのか困難である。したがって、実施形態において、処理部４０４は、撮像画像が第２の画像に該当する場合、初期検出処理部４０５によって顔情報を検出した後、トラッキング処理部４０６による顔情報のトラッキングを実行することなく、次の制御タイミングで取得部４０１により取得される撮像画像を対象とした判別部４０２による判別結果に応じて異なる態様で、初期検出処理部４０５によって顔情報を再度検出する。

一方、撮像画像が第１の画像に該当する場合、着目すべき顔情報が、装着物によって隠されていない顔の部位に関する情報に定まるので、顔情報のトラッキングを問題無く実行することができる。したがって、実施形態において、処理部４０４は、撮像画像が第１の画像に該当する場合、初期検出処理部４０５によって顔情報を検出した後、トラッキング処理部４０６によって顔情報のトラッキングを実行する。

以下、実施形態にかかる初期検出処理およびトラッキング処理のより詳細な内容について、フローチャートとともに説明する。

まず、初期検出処理の詳細について説明する。

図１０は、実施形態にかかる乗員モニタリング装置３１０が実行する初期検出処理の一部を示した例示的かつ模式的なフローチャートであり、図１１は、実施形態にかかる乗員モニタリング装置３１０が実行する初期検出処理の残りの一部を示した例示的かつ模式的なフローチャートである。初期検出処理は、たとえば、処理部４０４の制御モードが初期検出モードに設定され、かつ、取得部４０１により撮像画像が取得された場合に実行される。

図１０に示されるように、初期検出処理においては、まず、Ｓ１００１において、初期検出処理部４０５は、撮像画像における顔の位置を検出する。

そして、Ｓ１００２において、初期検出処理部４０５は、撮像画像における顔の向きを検出する。

そして、Ｓ１００３において、判別部４０２は、撮像画像の判別を実行する。

そして、Ｓ１００４において、初期検出処理部４０５は、Ｓ１００２の判別結果に基づいて、撮像画像が、第３の画像、より具体的には図９に示されるノーマル画像に該当するか否かを判断する。

Ｓ１００４において、撮像画像がノーマル画像に該当すると判断された場合、Ｓ１００５に処理が進む。そして、Ｓ１００５において、初期検出処理部４０５は、撮像画像から、ノーマル画像用の特徴点、すなわち顔の全体に対して予め設定された複数の特徴点（の全て）を検出する。

そして、Ｓ１００６において、初期検出処理部４０５は、Ｓ１００４で検出された特徴点に基づいて、撮像画像と、顔の三次元の形状を含む構造を表すデータとして取得される三次元モデルと、のフィッティングを実行し、撮像画像に含まれる顔の位置および向きを、より詳細に検出する。初期検出処理におけるフィッティングは、たとえば、顔の三次元の形状を含む構造を表す統計的なデータとして予め設定された初期モデルに基づいて実行される。

そして、図１１に示されるように、Ｓ１１０１において、初期検出処理部４０５は、Ｓ１００６におけるフィッティングの結果に基づいて、顔に関する顔情報として、目に関する目情報を検出する。なお、前述したように、目情報とは、目（瞼）の開閉状態や視線の向きなどを示すデータである。

そして、Ｓ１１０２において、初期検出処理部４０５は、顔に関する顔情報として、口に関する口情報を検出する。なお、前述したように、口情報とは、口の開閉状態（会話の状態）などを示すデータである。

そして、Ｓ１１０３において、初期検出処理部４０５は、顔に関する顔情報として、表情に関する表情情報を検出する。

そして、Ｓ１１０４において、初期検出処理部４０５は、顔情報が正常に検出されたか否かを判断する。たとえば、初期検出処理部４０５は、顔情報の検出のために直近に実行された一連の処理としてのＳ１００５、１００６、およびＳ１１０１～Ｓ１１０３の処理のそれぞれについて、その信頼度を示す値（スコア）を算出し、当該スコアに基づいて、Ｓ１１０４の判断を実行する。

Ｓ１１０４において、顔情報が正常に検出されたと判断された場合、Ｓ１１０５に処理が進む。そして、Ｓ１１０５において、初期検出処理部４０５は、処理部４０４の次の制御モードをトラッキングモードに設定する。そして、処理が終了する。

一方、Ｓ１１０４において、顔情報が正常に検出されなかったと判断された場合、Ｓ１１０６に処理が進む。そして、Ｓ１１０６において、初期検出処理部４０５は、処理部４０４の次の制御モードを初期検出モードに設定する。そして、処理が終了する。

図１０に戻り、Ｓ１００４において、撮像画像がノーマル画像に該当しないと判断された場合、Ｓ１００７に処理が進む。そして、Ｓ１００７において、初期検出処理部４０５は、Ｓ１００２の判別結果に基づいて、撮像画像が、第１の画像のうちの、図６に示されるようなサングラス画像に該当するか否かを判断する。

Ｓ１００７において、撮像画像がサングラス画像に該当すると判断された場合、Ｓ１００８に処理が進む。そして、Ｓ１００８において、初期検出処理部４０５は、撮像画像から、サングラス画像用の特徴点、すなわち顔の全体に対して予め設定された複数の特徴点のうち、隠されていない顔の部位（目元以外の部位）に対応した特徴点を検出する。

そして、Ｓ１００９において、初期検出処理部４０５は、Ｓ１００８で検出された特徴点に基づいて、撮像画像と、顔の三次元の形状を含む構造を表すデータとして取得される三次元モデルと、のフィッティングを実行し、撮像画像に含まれる顔の位置および向きを、より詳細に検出する。

そして、図１１に示されるように、Ｓ１１０７において、初期検出処理部４０５は、Ｓ１００９におけるフィッティングの結果に基づいて、顔に関する顔情報として、口に関する口情報を検出する。

そして、Ｓ１１０８において、初期検出処理部４０５は、顔に関する顔情報として、表情に関する表情情報を検出する。

Ｓ１１０８の処理が完了すると、Ｓ１１０４に処理が進むが、Ｓ１１０４以降の処理については、既に説明したため、ここでは説明を省略する。

図１０に戻り、Ｓ１００７において、撮像画像がサングラス画像に該当しないと判断された場合、Ｓ１０１０に処理が進む。そして、Ｓ１０１０において、初期検出処理部４０５は、Ｓ１００２の判別結果に基づいて、撮像画像が、第１の画像のうちの、図５に示されるようなマスク画像に該当するか否かを判断する。

Ｓ１０１０において、撮像画像がマスク画像に該当すると判断された場合、Ｓ１０１１に処理が進む。そして、Ｓ１００８において、初期検出処理部４０５は、撮像画像から、マスク画像用の特徴点、すなわち顔の全体に対して予め設定された複数の特徴点のうち、隠されていない顔の部位（口元以外の部位）に対応した特徴点を検出する。

そして、Ｓ１０１２において、初期検出処理部４０５は、Ｓ１０１１で検出された特徴点に基づいて、撮像画像と、顔の三次元の形状を含む構造を表すデータとして取得される三次元モデルと、のフィッティングを実行し、撮像画像に含まれる顔の位置および向きを、より詳細に検出する。

そして、図１１に示されるように、Ｓ１１０９において、初期検出処理部４０５は、Ｓ１０１２におけるフィッティングの結果に基づいて、顔に関する顔情報として、目に関する目情報を検出する。

そして、Ｓ１１１０において、初期検出処理部４０５は、顔に関する顔情報として、表情に関する表情情報を検出する。

Ｓ１１１０の処理が完了すると、Ｓ１１０４に処理が進むが、Ｓ１１０４以降の処理については、既に説明したため、ここでは説明を省略する。

図１０に戻り、Ｓ１０１０において、撮像画像がマスク画像に該当しないと判断された場合、Ｓ１０１３に処理が進む。そして、Ｓ１０１３において、初期検出処理部４０５は、Ｓ１００２の判別結果に基づいて、撮像画像が、第２の画像、より具体的には図７および図８に示されるような隠れ画像に該当するか否かを判断する。

Ｓ１０１３において、撮像画像が隠れ画像に該当しないと判断された場合、初期検出処理の実行をやり直す必要がある。したがって、この場合、図１１に示されるように、Ｓ１１０６に処理が進み、当該Ｓ１１０６において、処理部４０４の次の制御モードが初期検出モードに設定される。そして、処理が終了する。

一方、Ｓ１０１３において、撮像画像が隠れ画像に該当すると判断された場合、Ｓ１０１４に処理が進む。そして、Ｓ１０１４において、初期検出処理部４０５は、撮像画像から、ノーマル画像用の特徴点、すなわち顔の全体に対して予め設定された複数の特徴点（の全て）を検出する。

なお、前述したように、撮像画像が隠れ画像に該当する場合は、三次元モデルに基づくフィッティングは実行されない。したがって、実施形態では、Ｓ１０１４の処理が完了しても、Ｓ１００６、Ｓ１００９、またはＳ１０１２の処理のようなフィッティングは実行されない。

そして、図１１に示されるように、Ｓ１１１１において、初期検出処理部４０５は、Ｓ１０１４で検出された特徴点に基づいて、非装着物によって隠された顔の部位が目を含むか否かを判断する。

Ｓ１１１１において、隠された顔の部位が目を含まないと判断された場合、Ｓ１１１２に処理が進む。この場合、顔に関する顔情報として、少なくとも目に関する目情報が検出可能であると判断できるので、Ｓ１１１２において、初期検出処理部４０５は、目情報を検出する。そして、Ｓ１１１３に処理が進む。

なお、Ｓ１１１１において、隠された顔の部位が目を含むと判断された場合、目情報の検出は困難であると判断できるので、Ｓ１１１２の処理が実行されることなく、そのままＳ１１１３に処理が進む。

Ｓ１１１３において、初期検出処理部４０５は、Ｓ１０１４で検出された特徴点に基づいて、非装着物によって隠された顔の部位が口を含むか否かを判断する。

Ｓ１１１３において、隠された顔の部位が口を含まないと判断された場合、Ｓ１１１４に処理が進む。この場合、顔に関する顔情報として、少なくとも口に関する口情報が検出可能であると判断できるので、Ｓ１１１４において、初期検出処理部４０５は、口情報を検出する。そして、Ｓ１１１５に処理が進む。

なお、Ｓ１１１３において、隠された顔の部位が口を含むと判断された場合、口情報の検出は困難であるので、Ｓ１１１４の処理が実行されることなく、そのままＳ１１１５に処理が進む。

Ｓ１１１５において、初期検出処理部４０５は、顔に関する顔情報として、表情に関する表情情報を検出する。

Ｓ１１１５の処理が完了すると、Ｓ１１０６に処理が進むが、Ｓ１１０６以降の処理については、既に説明したため、ここでは説明を省略する。

次に、トラッキング処理の詳細について説明する。

図１２は、実施形態にかかる乗員モニタリング装置３１０が実行するトラッキング処理を示した例示的かつ模式的なフローチャートである。トラッキング処理は、たとえば、処理部４０４の制御モードがトラッキングモードに設定され、かつ、取得部４０１により撮像画像が取得された場合に実行される。

図１２に示されるように、トラッキング処理においては、まず、Ｓ１２０１において、トラッキング処理部４０６は、撮像画像における顔の位置のトラッキングを実行する。なお、トラッキングは、初期検出処理における各種の検出結果を利用して、探索範囲を限定したり、マッチングのためのテンプレートを流用したり、連続するフレーム間の差分に基づいて変化した部分を特定したりすることができる。したがって、一般に、トラッキングは、初期検出処理における各種の検出に比べて、処理速度が速い。

そして、Ｓ１２０２において、トラッキング処理部４０６は、撮像画像における顔の向きのトラッキングを実行する。

そして、Ｓ１２０３において、トラッキング処理部４０６は、ノーマル画像の顔情報が直近に検出（トラッキングを含む）されたか否かを判断する。

Ｓ１２０３において、ノーマル画像の顔情報が直近に検出されたと判断された場合、Ｓ１２０４に処理が進む。そして、Ｓ１２０４において、トラッキング処理部４０６は、ノーマル画像用の特徴点のトラッキングを実行する。

そして、Ｓ１２０５において、トラッキング処理部４０６は、Ｓ１２０４におけるトラッキングの結果と三次元モデルとのフィッティングを実行する。なお、トラッキング処理におけるフィッティングは、たとえば、前回の初期検出処理またはトラッキング処理において調整された後の最新の三次元モデルに基づいて実行される。

そして、Ｓ１２０６において、トラッキング処理部４０６は、Ｓ１２０５におけるフィッティングの結果に基づいて、目情報のトラッキングを実行する。

そして、Ｓ１２０７において、トラッキング処理部４０６は、Ｓ１２０５におけるフィッティングの結果に基づいて、口情報のトラッキングを実行する。

そして、Ｓ１２０８において、トラッキング処理部４０６は、Ｓ１２０５におけるフィッティングの結果に基づいて、表情情報のトラッキングを実行する。

そして、Ｓ１２０９において、トラッキング処理部４０６は、顔情報のトラッキングが正常に実行されたか否かを判断する。たとえば、トラッキング処理部４０６は、顔情報のトラッキングのために直近に実行された一連の処理のそれぞれについて、その信頼度を示す値（スコア）を算出し、当該スコアに基づいて、Ｓ１２０９の判断を実行する。

Ｓ１２０９において、顔情報のトラッキングが正常に実行されたと判断された場合、Ｓ１２１０に処理が進む。そして、Ｓ１２１０において、トラッキング処理部４０６は、処理部４０４の次の制御モードをトラッキングモードに設定する。そして、処理が終了する。

一方、Ｓ１２０９において、顔情報のトラッキングが正常に実行されなかったと判断された場合、Ｓ１２１１に処理が進む。そして、Ｓ１２１１において、トラッキング処理部４０６は、処理部４０４の次の制御モードを初期検出モードに設定する。そして、処理が終了する。

なお、Ｓ１２０３において、ノーマル画像の顔情報が直近に検出されなかったと判断された場合、Ｓ１２１２に処理が進む。そして、Ｓ１２１２において、トラッキング処理部４０６は、サングラス画像の顔情報が直近に検出（トラッキングを含む）されたか否かを判断する。

Ｓ１２１２において、サングラス画像の顔情報が直近に検出されたと判断された場合、Ｓ１２１３に処理が進む。そして、Ｓ１２１３において、トラッキング処理部４０６は、サングラス画像用の特徴点のトラッキングを実行する。

そして、Ｓ１２１４において、トラッキング処理部４０６は、Ｓ１２１３におけるトラッキングの結果と、直近から使用している三次元モデルと、のフィッティングを実行する。

そして、Ｓ１２１５において、トラッキング処理部４０６は、Ｓ１２１４におけるフィッティングの結果に基づいて、口情報のトラッキングを実行する。

そして、Ｓ１２１６において、トラッキング処理部４０６は、Ｓ１２１４におけるフィッティングの結果に基づいて、表情情報のトラッキングを実行する。

Ｓ１２１６の処理が完了すると、Ｓ１２０９に処理が進むが、Ｓ１２０９以降の処理については、既に説明したため、ここでは説明を省略する。

一方、Ｓ１２１２において、サングラス画像の顔情報が直近に検出されなかったと判断された場合、Ｓ１２１７に処理が進む。この場合は、マスク画像の顔情報が直近に検出（トラッキングを含む）された場合に該当する。したがって、Ｓ１２１７において、トラッキング処理部４０６は、マスク画像用の特徴点のトラッキングを実行する。

そして、Ｓ１２１８において、トラッキング処理部４０６は、Ｓ１２１７におけるトラッキングの結果と、直近から使用している三次元モデルと、のフィッティングを実行する。

そして、Ｓ１２１９において、トラッキング処理部４０６は、Ｓ１２１８におけるフィッティングの結果に基づいて、目情報のトラッキングを実行する。

そして、Ｓ１２２０において、トラッキング処理部４０６は、Ｓ１２１８におけるフィッティングの結果に基づいて、表情情報のトラッキングを実行する。

Ｓ１２２０の処理が完了すると、Ｓ１２０９に処理が進むが、Ｓ１２０９以降の処理については、既に説明したため、ここでは説明を省略する。

以上説明したように、実施形態にかかる乗員モニタリング装置３１０は、取得部４０１と、判別部４０２と、処理部４０４と、を有している。取得部４０１は、車両１内において運転者Ｘの顔が存在する可能性のある領域を撮像することで得られる撮像画像を取得する。判別部４０２は、取得部４０１により取得された撮像画像が、装着物によって一部が隠された顔を含む第１の画像と、装着物以外の非装着物によって一部が隠された顔を含む第２の画像と、のいずれに該当するかを判別する。処理部４０４は、判別部４０２による判別結果に応じて異なる態様で、撮像画像に基づいて運転者Ｘの顔に関する顔情報を検出し、検出結果に基づいて運転者Ｘの顔の状態変化をモニタリングする。

実施形態にかかる乗員モニタリング装置３１０によれば、運転者Ｘの顔の一部が装着物によって隠されている場合と、運転者Ｘの顔の一部が非装着物によって隠されている場合と、のそれぞれにおいて、顔情報を検出する態様を異ならせることができるので、乗員モニタリング処理の精度を向上させることができる。

実施形態にかかる乗員モニタリング装置３１０において、処理部４０４は、撮像画像が第１の画像に該当すると判別部４０２により判別された場合、顔の全体に対して予め設定された複数の特徴点のうち、装着物によって隠されていない顔の部位に対応した１以上の特徴点に基づいて顔情報を検出し、撮像画像が第２の画像に該当すると判別部４０２により判別された場合、複数の特徴点に基づいて顔情報を検出する。このような構成によれば、着目すべき顔の部位が一定に定まりやすい前者の場合は、特定の部位に対応した特定の特徴点を選択的に考慮して、顔情報を適切に検出することができ、着目すべき顔の部位が一定に定まりにくい後者の場合は、顔の全体に対応した複数の特徴点をまんべんなく考慮して、顔情報を適切に検出することができる。

また、実施形態にかかる乗員モニタリング装置３１０において、処理部４０４は、撮像画像が第２の画像に該当すると判別部４０２により判別された場合、非装着物によって隠された顔の部位に応じて異なる顔情報を検出する。このような構成によれば、非装着物による顔の隠れ具合に応じて、顔情報を適切に検出することができる。

また、実施形態にかかる乗員モニタリング装置３１０において、処理部４０４は、非装着物によって隠された顔の部位が目を含まない場合、顔情報として目に関する目情報を検出し、非装着物によって隠された顔の部位が口を含まない場合、顔情報として口に関する口情報を検出する。このような構成によれば、非装着物によって隠されていない顔の部位に関する情報を、顔情報として適切に検出することができる。

また、実施形態にかかる乗員モニタリング装置３１０において、処理部４０４は、目情報および口情報の検出の成否に関わらず、顔情報として表情に関する表情情報を検出する。このような構成によれば、目情報および口情報が検出されない場合であっても、少なくとも表情情報は検出することができる。

また、実施形態にかかる乗員モニタリング装置３１０において、処理部４０４は、撮像画像が第１の画像に該当すると判別部４０２により判別された場合、当該第１の画像の特徴と、乗員の顔の三次元の形状を含む構造を表す三次元モデルと、のフィッティングの結果に基づいて、顔情報を検出し、撮像画像が第２の画像に該当すると判別部４０２により判別された場合、当該第２の画像の特徴のみに基づいて、顔情報を検出する。このような構成によれば、状況に応じてフィッティングを実行するか否かを切り替えることで、状況に応じて適切な態様で顔情報を検出することができる。

また、実施形態にかかる乗員モニタリング装置３１０において、取得部４０１は、撮像画像を継続的に複数回取得する。そして、処理部４０４は、撮像画像が第１の画像に該当すると判別部４０２により判別された場合、顔情報を検出した後、当該顔情報のトラッキングを実行し、撮像画像が第２の画像に該当すると判別部４０２により判別された場合、顔情報を検出した後、当該顔情報のトラッキングを実行することなく、取得部４０１により次に取得される撮像画像を対象とした判別部４０２による判別結果に応じて異なる態様で、顔情報を検出する。このような構成によれば、着目すべき顔の部位が一定に定まりやすいためトラッキングを実行しやすい前者の場合と、着目すべき顔の部位が一定に定まりにくいためトラッキングを実行しにくい後者の場合とで、トラッキングを実行するか否かを適切に切り替えることができる。

また、実施形態にかかる乗員モニタリング装置３１０において、判別部４０２は、撮像画像と同様の情報を含む学習用画像と、当該学習用画像が第１の画像と第２の画像とのいずれに該当するかと、を機械学習により学習することで生成される学習済みモデル４０３に基づいて、取得部４０１により取得された撮像画像が第１の画像と第２の画像とのいずれに該当するかを判別する。このような構成によれば、学習済みモデル４０３に基づいて、撮像画像の判別を容易に実行することができる。

なお、実施形態にかかる乗員モニタリング装置３１０において実行される乗員モニタリングプログラムは、インターネットなどのネットワーク経由で提供または配布されてもよい。すなわち、実施形態にかかる乗員モニタリング装置３１０において実行される乗員モニタリングプログラムは、インターネットなどのネットワークに接続されたコンピュータ上に格納された状態で、ネットワーク経由でのダウンロードを受け付ける、といった形で提供されてもよい。

また、上述した実施形態では、第１の画像の例として、マスク画像とサングラス画像との２種類の画像が例示されている。しかしながら、実施形態では、第１の画像として、これら２種類の画像の他に、マスクおよびサングラスの両方によって顔の一部が隠された状態を表すマスク－サングラス画像も考えられる。撮像画像がマスク－サングラス画像に該当するか否かの判定は、たとえば、図１０に示されるＳ１００４の処理において撮像画像がノーマル画像に該当しないと判定された後、Ｓ１００７に処理が移行する前に実行することが考えられる。そして、撮像画像がマスク－サングラス画像に該当すると判断された場合、たとえば、図１１に示されるＳ１１０６に処理が進み、処理部４０４の次の制御モードが初期検出モードに設定される。ただし、この場合、撮像画像の判別に使用する学習済みモデルが、ノーマル画像と、マスク画像と、サングラス画像と、マスク－サングラス画像と、隠れ画像と、の５種類の画像を判別可能なモデルとして生成されている必要がある。

以上、本開示の実施形態を説明したが、上述した実施形態はあくまで一例であって、発明の範囲を限定することは意図していない。上述した新規な実施形態は、様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。上述した実施形態およびその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

１車両
３１０乗員モニタリング装置
４０１取得部
４０２判別部
４０３学習済みモデル
４０４処理部

Claims

車両内において乗員の顔が存在する可能性のある領域を撮像することで得られる撮像画像を取得する取得部と、
前記取得部により取得された前記撮像画像が、装着物によって一部が隠された顔を含む第１の画像と、前記装着物以外の非装着物によって一部が隠された顔を含む第２の画像と、のいずれに該当するかを判別する判別部と、
前記判別部による判別結果に応じて異なる態様で、前記撮像画像に基づいて前記乗員の顔に関する顔情報を検出し、検出結果に基づいて前記乗員の顔の状態変化をモニタリングする処理部と、
を備え、
前記処理部は、
前記撮像画像が前記第２の画像に該当すると前記判別部により判別された場合、前記非装着物によって隠された顔の部位に応じて異なる前記顔情報を検出し、
前記非装着物によって隠された顔の部位が目を含まない場合、前記顔情報として前記目に関する目情報を検出し、前記非装着物によって隠された顔の部位が口を含まない場合、前記顔情報として前記口に関する口情報を検出し、
前記目情報および前記口情報の検出の成否に関わらず、前記顔情報として表情に関する表情情報を検出する、乗員モニタリング装置。
前記処理部は、
前記撮像画像が前記第１の画像に該当すると前記判別部により判別された場合、顔の全体に対して予め設定された複数の特徴点のうち、前記装着物によって隠されていない顔の部位に対応した１以上の特徴点に基づいて前記顔情報を検出し、
前記撮像画像が前記第２の画像に該当すると前記判別部により判別された場合、前記複数の特徴点に基づいて前記顔情報を検出する、
請求項１に記載の乗員モニタリング装置。
車両内において乗員の顔が存在する可能性のある領域を撮像することで得られる撮像画像を取得する取得部と、
前記取得部により取得された前記撮像画像が、装着物によって一部が隠された顔を含む第１の画像と、前記装着物以外の非装着物によって一部が隠された顔を含む第２の画像と、のいずれに該当するかを判別する判別部と、
前記判別部による判別結果に応じて異なる態様で、前記撮像画像に基づいて前記乗員の顔に関する顔情報を検出し、検出結果に基づいて前記乗員の顔の状態変化をモニタリングする処理部と、
を備え、
前記処理部は、
前記撮像画像が前記第１の画像に該当すると前記判別部により判別された場合、当該第１の画像の特徴と、前記乗員の顔の三次元の形状を含む構造を表す三次元モデルと、のフィッティングの結果に基づいて、前記顔情報を検出し、
前記撮像画像が前記第２の画像に該当すると前記判別部により判別された場合、当該第２の画像の特徴のみに基づいて、前記顔情報を検出する、乗員モニタリング装置。
車両内において乗員の顔が存在する可能性のある領域を撮像することで得られる撮像画像を取得する取得部と、
前記取得部により取得された前記撮像画像が、装着物によって一部が隠された顔を含む第１の画像と、前記装着物以外の非装着物によって一部が隠された顔を含む第２の画像と、のいずれに該当するかを判別する判別部と、
前記判別部による判別結果に応じて異なる態様で、前記撮像画像に基づいて前記乗員の顔に関する顔情報を検出し、検出結果に基づいて前記乗員の顔の状態変化をモニタリングする処理部と、
を備え、
前記取得部は、前記撮像画像を継続的に複数回取得し、
前記処理部は、
前記撮像画像が前記第１の画像に該当すると前記判別部により判別された場合、前記顔情報を検出した後、当該顔情報のトラッキングを実行し、
前記撮像画像が前記第２の画像に該当すると前記判別部により判別された場合、前記顔情報を検出した後、当該顔情報のトラッキングを実行することなく、前記取得部により次に取得される前記撮像画像を対象とした前記判別部による判別結果に応じて異なる態様で、前記顔情報を検出する、乗員モニタリング装置。
車両内において乗員の顔が存在する可能性のある領域を撮像することで得られる撮像画像を取得する取得部と、
前記取得部により取得された前記撮像画像が、装着物によって一部が隠された顔を含む第１の画像と、前記装着物以外の非装着物によって一部が隠された顔を含む第２の画像と、のいずれに該当するかを判別する判別部と、
前記判別部による判別結果に応じて異なる態様で、前記撮像画像に基づいて前記乗員の顔に関する顔情報を検出し、検出結果に基づいて前記乗員の顔の状態変化をモニタリングする処理部と、
を備え、
前記判別部は、前記撮像画像と同様の情報を含む学習用画像と、当該学習用画像が前記第１の画像と前記第２の画像とのいずれに該当するかと、を機械学習により学習することで生成される学習済みモデルに基づいて、前記取得部により取得された前記撮像画像が前記第１の画像と前記第２の画像とのいずれに該当するかを判別する、乗員モニタリング装置。
車両内において乗員の顔が存在する可能性のある領域を撮像することで得られる撮像画像を取得する取得ステップと、
前記取得ステップにおいて取得された前記撮像画像が、装着物によって一部が隠された顔を含む第１の画像と、前記装着物以外の非装着物によって一部が隠された顔を含む第２の画像と、のいずれに該当するかを判別する判別ステップと、
前記判別ステップにおける判別結果に応じて異なる態様で、前記撮像画像に基づいて前記乗員の顔に関する顔情報を検出し、検出結果に基づいて前記乗員の顔の状態変化をモニタリングする処理ステップと、
を備え、
前記処理ステップは、
前記撮像画像が前記第２の画像に該当すると前記判別ステップにより判別された場合、前記非装着物によって隠された顔の部位に応じて異なる前記顔情報を検出し、
前記非装着物によって隠された顔の部位が目を含まない場合、前記顔情報として前記目に関する目情報を検出し、前記非装着物によって隠された顔の部位が口を含まない場合、前記顔情報として前記口に関する口情報を検出し、
前記目情報および前記口情報の検出の成否に関わらず、前記顔情報として表情に関する表情情報を検出する、乗員モニタリング方法。
車両内において乗員の顔が存在する可能性のある領域を撮像することで得られる撮像画像を取得する取得ステップと、
前記取得ステップにおいて取得された前記撮像画像が、装着物によって一部が隠された顔を含む第１の画像と、前記装着物以外の非装着物によって一部が隠された顔を含む第２の画像と、のいずれに該当するかを判別する判別ステップと、
前記判別ステップにおける判別結果に応じて異なる態様で、前記撮像画像に基づいて前記乗員の顔に関する顔情報を検出し、検出結果に基づいて前記乗員の顔の状態変化をモニタリングする処理ステップと、
を備え、
前記処理ステップは、
前記撮像画像が前記第１の画像に該当すると前記判別ステップにより判別された場合、当該第１の画像の特徴と、前記乗員の顔の三次元の形状を含む構造を表す三次元モデルと、のフィッティングの結果に基づいて、前記顔情報を検出し、
前記撮像画像が前記第２の画像に該当すると前記判別ステップにより判別された場合、当該第２の画像の特徴のみに基づいて、前記顔情報を検出する、乗員モニタリング方法。
車両内において乗員の顔が存在する可能性のある領域を撮像することで得られる撮像画像を取得する取得ステップと、
前記取得ステップにおいて取得された前記撮像画像が、装着物によって一部が隠された顔を含む第１の画像と、前記装着物以外の非装着物によって一部が隠された顔を含む第２の画像と、のいずれに該当するかを判別する判別ステップと、
前記判別ステップにおける判別結果に応じて異なる態様で、前記撮像画像に基づいて前記乗員の顔に関する顔情報を検出し、検出結果に基づいて前記乗員の顔の状態変化をモニタリングする処理ステップと、
を備え、
前記取得ステップは、前記撮像画像を継続的に複数回取得し、
前記処理ステップは、
前記撮像画像が前記第１の画像に該当すると前記判別ステップにより判別された場合、前記顔情報を検出した後、当該顔情報のトラッキングを実行し、
前記撮像画像が前記第２の画像に該当すると前記判別ステップにより判別された場合、前記顔情報を検出した後、当該顔情報のトラッキングを実行することなく、前記取得ステップにより次に取得される前記撮像画像を対象とした前記判別ステップによる判別結果に応じて異なる態様で、前記顔情報を検出する、乗員モニタリング方法。
車両内において乗員の顔が存在する可能性のある領域を撮像することで得られる撮像画像を取得する取得ステップと、
前記取得ステップにおいて取得された前記撮像画像が、装着物によって一部が隠された顔を含む第１の画像と、前記装着物以外の非装着物によって一部が隠された顔を含む第２の画像と、のいずれに該当するかを判別する判別ステップと、
前記判別ステップにおける判別結果に応じて異なる態様で、前記撮像画像に基づいて前記乗員の顔に関する顔情報を検出し、検出結果に基づいて前記乗員の顔の状態変化をモニタリングする処理ステップと、
を備え、
前記判別ステップは、前記撮像画像と同様の情報を含む学習用画像と、当該学習用画像が前記第１の画像と前記第２の画像とのいずれに該当するかと、を機械学習により学習することで生成される学習済みモデルに基づいて、前記取得ステップにより取得された前記撮像画像が前記第１の画像と前記第２の画像とのいずれに該当するかを判別する、乗員モニタリング方法。
コンピュータに、
車両内において乗員の顔が存在する可能性のある領域を撮像することで得られる撮像画像を取得する取得ステップと、
前記取得ステップにおいて取得された前記撮像画像が、装着物によって一部が隠された顔を含む第１の画像と、前記装着物以外の非装着物によって一部が隠された顔を含む第２の画像と、のいずれに該当するかを判別する判別ステップと、
前記判別ステップにおける判別結果に応じて異なる態様で、前記撮像画像に基づいて前記乗員の顔に関する顔情報を検出し、検出結果に基づいて前記乗員の顔の状態変化をモニタリングする処理ステップと、
を実行させるための、乗員モニタリングプログラムであって、
前記処理ステップは、
前記撮像画像が前記第２の画像に該当すると前記判別ステップにより判別された場合、前記非装着物によって隠された顔の部位に応じて異なる前記顔情報を検出し、
前記非装着物によって隠された顔の部位が目を含まない場合、前記顔情報として前記目に関する目情報を検出し、前記非装着物によって隠された顔の部位が口を含まない場合、前記顔情報として前記口に関する口情報を検出し、
前記目情報および前記口情報の検出の成否に関わらず、前記顔情報として表情に関する表情情報を検出する、乗員モニタリングプログラム。
コンピュータに、
車両内において乗員の顔が存在する可能性のある領域を撮像することで得られる撮像画像を取得する取得ステップと、
前記取得ステップにおいて取得された前記撮像画像が、装着物によって一部が隠された顔を含む第１の画像と、前記装着物以外の非装着物によって一部が隠された顔を含む第２の画像と、のいずれに該当するかを判別する判別ステップと、
前記判別ステップにおける判別結果に応じて異なる態様で、前記撮像画像に基づいて前記乗員の顔に関する顔情報を検出し、検出結果に基づいて前記乗員の顔の状態変化をモニタリングする処理ステップと、
を実行させるための、乗員モニタリングプログラムであって、
前記処理ステップは、
前記撮像画像が前記第１の画像に該当すると前記判別ステップにより判別された場合、当該第１の画像の特徴と、前記乗員の顔の三次元の形状を含む構造を表す三次元モデルと、のフィッティングの結果に基づいて、前記顔情報を検出し、
前記撮像画像が前記第２の画像に該当すると前記判別ステップにより判別された場合、当該第２の画像の特徴のみに基づいて、前記顔情報を検出する、乗員モニタリングプログラム。
コンピュータに、
車両内において乗員の顔が存在する可能性のある領域を撮像することで得られる撮像画像を取得する取得ステップと、
前記取得ステップにおいて取得された前記撮像画像が、装着物によって一部が隠された顔を含む第１の画像と、前記装着物以外の非装着物によって一部が隠された顔を含む第２の画像と、のいずれに該当するかを判別する判別ステップと、
前記判別ステップにおける判別結果に応じて異なる態様で、前記撮像画像に基づいて前記乗員の顔に関する顔情報を検出し、検出結果に基づいて前記乗員の顔の状態変化をモニタリングする処理ステップと、
を実行させるための、乗員モニタリングプログラムであって、
前記取得ステップは、前記撮像画像を継続的に複数回取得し、
前記処理ステップは、
前記撮像画像が前記第１の画像に該当すると前記判別ステップにより判別された場合、前記顔情報を検出した後、当該顔情報のトラッキングを実行し、
前記撮像画像が前記第２の画像に該当すると前記判別ステップにより判別された場合、前記顔情報を検出した後、当該顔情報のトラッキングを実行することなく、前記取得ステップにより次に取得される前記撮像画像を対象とした前記判別ステップによる判別結果に応じて異なる態様で、前記顔情報を検出する、乗員モニタリングプログラム。
コンピュータに、
車両内において乗員の顔が存在する可能性のある領域を撮像することで得られる撮像画像を取得する取得ステップと、
前記取得ステップにおいて取得された前記撮像画像が、装着物によって一部が隠された顔を含む第１の画像と、前記装着物以外の非装着物によって一部が隠された顔を含む第２の画像と、のいずれに該当するかを判別する判別ステップと、
前記判別ステップにおける判別結果に応じて異なる態様で、前記撮像画像に基づいて前記乗員の顔に関する顔情報を検出し、検出結果に基づいて前記乗員の顔の状態変化をモニタリングする処理ステップと、
を実行させるための、乗員モニタリングプログラムであって、
前記判別ステップは、前記撮像画像と同様の情報を含む学習用画像と、当該学習用画像が前記第１の画像と前記第２の画像とのいずれに該当するかと、を機械学習により学習することで生成される学習済みモデルに基づいて、前記取得ステップにより取得された前記撮像画像が前記第１の画像と前記第２の画像とのいずれに該当するかを判別する、乗員モニタリングプログラム。