JP6737906B2

JP6737906B2 - 視覚的且つ動的な運転シーンの知覚的負荷を決定する制御装置、システム及び方法

Info

Publication number: JP6737906B2
Application number: JP2018563860A
Authority: JP
Inventors: アンベック−マトゼンヨーナス; 一郎阪田; ラビーニリ; ジェイ．ブロストウガブリエル; パーマールーク; ビアルコウスキアリーナ
Original assignee: UCL Business Ltd
Current assignee: UCL Business Ltd
Priority date: 2016-06-07
Filing date: 2016-06-07
Publication date: 2020-08-12
Anticipated expiration: 2036-06-07
Also published as: JP2019523943A; US10963741B2; US20190272450A1; EP3465532A1; WO2017211395A1

Description

本開示は、視覚的且つ動的な運転シーン、特に、運転者が運転タスクを実行するのに知覚しなければならない制御されない動的に変化する視覚的シーンの知覚的負荷を決定する、乗り物の制御装置、システム及び方法に関する。

乗り物が作動する制御不能な動的視覚環境の知覚的負荷、及び急激な変化（sudden surges）を含むその変化を認識する能力は、警告信号の使用のための新たな設計及び戦略の基礎を提供することによって、運転の安全性を著しく向上させることができる。また、それは、運転者の注意及び関与を検出する他の手段、例えば、瞳孔測定又はＥＥＧ測定のような生理学的測定の有用性を評価することが可能な基準を設定することもできる。さらに、例えば、限定されるものではないが、いわゆる運転交代要求（take-over-requests）の場合、自動制御システムが乗り物操作に対する制御を再び行うことを運転者に要求する場合、高度に自動化された乗り物についての乗り物と運転者との相互作用の最適な戦略の立案に応用することもできる。

安全上の重大な事象が発生した後、すなわち、運転者が、例えば、ステアリング又はブレーキを使用して衝突をした後に、安全上の重大な事象をモデル化する方法が知られている。

しかしながら、根本的な原因のうちの１つ、すなわち視覚的シーンからのあるレベルの情報負荷による不注意を考慮することによって、重大な事象を予測することが依然として望まれている。例えば、認知神経科学では、脳への負荷の大きさが、タスクを十分に知覚できるか否かを判断するのに重要であり、高レベルの知覚的負荷は、人間が見ているが「見えない」現象である不注意盲（inattentional blindness）を引き起こすことが十分に確立されている。これは、運転中に深刻な影響を招くことがあり、視覚環境の変化に気付かないことは、事故につながる可能性がある。一方、非常に低いレベルの負荷は、運転者の集中が低下する危険性を示唆している可能性がある。

数多くの実験室研究では、注目すべき実験室タスク（例えば、視覚的探索）実行に対する負荷の影響が調べられており、これには、例えば、以下のようなものがある。

Lavie, N. and Cox, S. (1997): "On the efficiency of visual selective attention: Efficient visual search leads to inefficient distractor rejection", Psychological Science, 8(5): 395-396。

Beck, D. M. and Lavie, N. (2005): "Look here but ignore what you see: Effects of distractors at fixation", Journal of Experimental Psychology: Human Perception and Performance, 31(3): 592-607。

Cartwright-Finch, U. and Lavie, N. (2007): "The role of perceptual load in inattentional blindness", Cognition, 102(3): 321-340。

又はRoper, Z. J. J., Cosman, J. D., and Vecera, S. P. (2013): "Perceptual load corresponds with factors known to influence visual search", Journal of Experimental Psychology: Human Perception and Performance, 39(5): 1340-1351。

数少ない研究では、運転シミュレータタスクの人間の能力に対する知覚的負荷の実験室操作の影響も試験されており、これには、例えば、以下のようなものがある。

Marciano, H., and Yeshurun, Y. (2011). "The effects of perceptual load in central and peripheral regions of the visual field". Vis. Cogn. 19, 367-391. doi: 10.1080/13506285. 2010.537711。

Marciano, H., and Yeshurun, Y. "Perceptual load in central and peripheral regions and its effects on driving performance: Advertizing billboards", Work: A Journal of Prevention, Assessment and Rehabilitation, 2012, 41, 3181-3188。

Redenbo, S. J., and Lee, Y. C. (2009). "Effects of cognitive and perceptual loads on driver behavior". Transportation Research Record, 2138, 20-27。

及びTan, P. H., and Lee, Y. C. (2009). "Effect of perceptual and cognitive loads on drivers' attention and resistance to distractors". In Proceedings of the Human Factors and Ergonomics Society 53rd Annual Meeting (pp. 1739-1743). Santa Monica, CA: Human Factors and Ergonomics Society。

一般的な運転者の負荷（作業負荷として知られている）を推定するのに、
自己報告及び自己評価尺度などによる主観的尺度、
脳の活動（例えば、ＥＥＧによって検知することができるタスク関連脳電位）、心臓の活動（例えば、心拍数）、眼の活動（例えば、瞳孔拡張及び瞬き速度）、並びにストレス活動（例えば、電気皮膚応答によるもの）の尺度を含む生理学的尺度、
反応時間及びエラー率などのタスク及び能力に基づく尺度、
言いよどみ（speech disfluencies）などの行動尺度
を含む、多くの手法が用いられている。

例えば、米国特許出願公開第２００７０６３８５４（Ａ１）号明細書は、適応運転者作業負荷推定の方法に言及している。運転者作業負荷の主観的評価は、乗り物の運転者から得られる。センサ入力データのストリームは、主観的評価の受信に応じて、例えば、視線位置、乗り物の速度、操舵角などを検知する１つ以上のセンサから収集される。機械学習アルゴリズムは、センサ入力データのストリーム及び主観的評価に基づいて、運転者作業負荷推定モデルに利用される。これによって得られるのは、最新の運転者作業負荷推定モデルである。

しかしながら、既知の方法は、全体として作業負荷を考慮しており、複数の情報源を融合させることによって、知覚的負荷の寄与を分離することを不可能にする。それでもなお、不注意盲をもたらすことが知られている知覚的負荷であるが、作業負荷の他の情報源が、運転者の知覚、不注意、特に、安全上の重大な事象を検出する能力に対して、常に同じ影響を及ぼすとは限らない。したがって、知覚的負荷の推定方法は、既存の方法よりも、運転者の検出能力、及び近い将来の状況を評価する能力の予測を向上させることができる。さらに、これらの方法は、能動的な運転者相互作用による測定に制限される。

しかしながら、リアルタイム分析のために自動車において実施可能な非介入認識方法（non-intrusive recognition method）を用いて、（自然な）視覚的シーン（及び運転者の判断に関するもの）から直接、運転中の知覚的負荷レベルを測定して認識することに関する研究成果）は、いまだ報告されていない。

その上、このような非介入認識方法は、運転者の安全性に影響を与えないようにするために必要である。これによって、他のノイズ信号から負荷の生理学的影響を分離することの難しさに加えて、運転を妨げる監視装置を必要とする多くの生理学的尺度の使用が排除される。運転の一次タスクからのタスク及び能力に基づく尺度は、認知的又は知覚的負荷レベルをモデル化するのには不十分であることが分かっており、運転者の妨げになり又は注意をそらし得る二次タスクを提供する必要がある。

現在のところ、特に、完全に非介入な方法で、すなわち、運転中の運転者のいかなる測定も必要とせずに、運転の知覚的負荷の決定が乗り物に適用され且つ統合され得るように、視覚的運転シーンから直接、運転の知覚的負荷を決定する制御装置及び方法を提供することが依然として望まれている。

本発明は、自動車の周囲の運転シーンから直接、運転の知覚的負荷を推定することによって（運転者の行動の介入的な測定を必要とせずに）、これらの問題を解決する。

したがって、本開示の実施形態によれば、視覚的且つ動的な運転シーンの知覚的負荷を決定する、乗り物の制御装置が提供される。制御装置は、視覚的運転シーンを検知するセンサのセンサ出力を受信し、視覚的運転シーンの静的情報及び／又は動的情報を表すシーン特徴のセットをセンサ出力から抽出し、予め定められた負荷モデルに基づいて、抽出されたシーン特徴のセットの知覚的負荷を決定するように構成される。負荷モデルは、それぞれ負荷値でラベル付けされた参照ビデオシーンに基づいて予め決定される。

このような制御装置を提供することによって、視覚的運転シーンからシーン特徴を直接抽出することができる。さらに、抽出されたシーン特徴のセットの知覚的負荷を決定することができる。参照ビデオシーンに、例えば、クラウドソーシングによる負荷値をラベル付けすることによって、すなわち、視覚的シーン情報を、クラウドソーシングによる負荷ラベルと組み合わせることによって、制御装置は、データ駆動型手法（data-driven approach）を用いて視覚的運転シーンから抽出されたシーン特徴のセットから、運転中の知覚的負荷を正しく学習し、分類し、特定することができる。行動認識、事象検出及びビデオ検索を含むタスクについて、ビデオ内容の記述及び表現が数十年間研究されてきたが、運転中の知覚的負荷を認識するために用いられるのは、これが初めてである。

さらに、このような制御装置を提供することによって、それぞれ負荷値でラベル付けされた参照シーン又は参照データに基づいて予め決定された負荷モデルに基づいて、知覚的負荷を決定することができる。したがって、対応する負荷値を有する参照ビデオシーンによって、負荷モデルを訓練することができる。参照シーンとそれぞれの負荷値との間の写像（mapping）、すなわちラベル付けは、クラウドソーシングを必要としてもよく、すなわち、試験者の評価に基づいてもよい。換言すると、この写像は、人間が参照ビデオシーンの知覚的負荷を経験する方法に関する情報を統合するために、人間に基づくものであってもよい。

参照ビデオシーンは、例示的な視覚的運転シーン、例えば１０００を超えるシーンのセット、例えば１８００のシーンのセットを提供することが望ましい。

したがって、負荷モデル、ひいては制御装置は、クラウドソーシングによる運転者（すなわち、試験者）の判断に関して、参照シーンの知覚的負荷を学習することが可能である。この学習された情報に基づいて、（写像関数の入力としての）シーン特徴のセットと、（写像関数の出力としての）得られる知覚的負荷との間の一般的な写像関数（general mapping function）を開発するために、負荷モデルを訓練することができる。換言すると、負荷モデルは、視覚的運転シーンの抽出されたシーン特徴のセットを介して、視覚的運転シーンの知覚的負荷を決定することが可能になる。

また、視覚的運転シーンの決定された知覚的負荷は、参照ビデオシーンにラベル付けされた負荷値と同じフォーマットでの負荷値として表されることが望ましい。

負荷値は、１つの値、具体的には自然数、例えば１０〜４５によって表すことができ、例えば、２５は平均知覚的負荷に該当する。

視覚的且つ動的な運転シーンは、運転者の視点に対応することが望ましい。このため、視覚的且つ動的な運転シーンには、屋外の視覚的運転シーン、すなわち乗り物の環境のシーン、特に（フロントウィンドウを通して見られる）乗り物の前方、及び（フロントサイドウィンドウを通して見られる）乗り物の左右の環境のシーンが含まれることが望ましい。また、バックミラーが含まれることが望ましい。さらに、乗り物の制御パネル、例えば、画面及びディスプレイが含まれることが望ましい。換言すると、運転タスクに関する運転者の負荷に影響を及ぼす、すべての視覚的要素が含まれることが望ましい。

センサは、光センサ、特に少なくとも１つのデジタルカメラであり得る。センサは、乗り物の運転方向に向けられ、特に乗り物前方の道路を検知するように向けられることが望ましい。加えて、センサ又は更なるセンサは、乗り物の左側及び／又は右側に向けられ、特に乗り物の左側及び／又は右側の道路を検知するように向けられてもよい。代わりに又は加えて、他の種類のセンサ、例えばレーダ（すなわち、電波探知）、Ｘ線及び／又は音響（例えば超音波）センサも用いてもよい。

センサ出力は、特に予め定められた長さのデジタルビデオ又はデジタルストリーム（以下、「ビデオスニペット」とも称する。）であり得る。知覚的負荷を連続的に出力するのに、「スライディングウィンドウ」手法を用いることができる。したがって、知覚的負荷値をビデオのフレームごとに出力することができる。

開示されている制御装置は、特に運転者支援システムにおいて、道路上の知覚的負荷レベルが、運転者に道路に注意を払わせる警告信号を必要としうる予め定められた閾値に達したときを示すために用いられ得る。

また、制御装置は、運転者支援システムの状況、例えば、限定されるものではないが、運転者支援システムによって始動された急ブレーキの場合においても用いられ得る。さらに、このような状況では、自動制御システムが、運転シーンの知覚的負荷を確実に決定できることも重要である。

開示されている制御装置は、特に、例えば、限定されるものではないが、いわゆる運転交代要求の場合、自動制御システムが乗り物操作に対する制御を再び行うことを運転者に要求する場合、高度に自動化された乗り物についての乗り物と運転者との相互作用の状況においても用いられ得る。このような状況では、自動制御システムが、運転タスクに関する運転シーンの知覚的負荷を確実に決定できることが重要である。更なる例示的な場合は、例えば、決定された知覚的負荷が特定の閾値を超えていることをシステムが認識した場合に、自動制御システムが運転制御を引き継ぐことである。

負荷モデルは、参照ビデオシーンから抽出されたシーン特徴のセットと負荷値との間の写像関数を含み得る。

したがって、上でも説明したように、負荷モデルは、参照ビデオシーンから抽出されたシーン特徴のセットを、対応する負荷値に写像することによって訓練されることができる。この写像は、一般的な回帰関数／写像関数を形成することができるため、負荷モデルは、任意の検知された視覚的運転シーンの、すなわち抽出されたシーン特徴のそのセットの知覚的負荷を決定することが可能になる。

負荷モデルは、シーン特徴のセットを知覚的負荷値に写像するように構成されることができる。

このため、上でも説明したように、負荷モデルは、検知された視覚的運転シーンから抽出されたシーン特徴のセットを知覚的負荷値に写像することができる。したがって、前述した運転シーンの知覚的負荷を決定することができる。

負荷モデルは、参照ビデオシーンから抽出されたシーン特徴のセットと負荷値との間の回帰モデル又は分類モデルであり得る。分類モデルの場合、負荷値から負荷カテゴリを付加的に形成すること、例えば、高負荷交通シーンと低負荷交通シーンとを分類するモデルを得ることは有用であり得る。

参照ビデオシーンの負荷値の決定は、人間に基づき、特にクラウドソーシングに基づき得る。したがって、負荷値は、人間（すなわち、試験者）によって直接評価され得る。

例えば、負荷値の決定は、ペアワイズランク付け法に基づき、すなわち、ペアワイズ比較から格付けを推定するアルゴリズム、具体的には、TrueSkill（トゥルー・スキル）アルゴリズムに基づいていてもよい。

したがって、参照ビデオシーンをその知覚的負荷に関してランク付けするように、既知のアルゴリズム、例えばTrueSkillアルゴリズムを利用することができる。このようにするために、試験者は、２つの参照ビデオシーンのどちらが、知覚的負荷が高いかを決定するために、参照ビデオシーンのペアを評価することができる。複数の異なるペアを複数の試験者に提示することにより、すべての参照ビデオシーン間の全体的なランク付けを決定することができる。この全体的なランク付けを、参照ビデオシーンにラベル付けされる負荷値として表すことができる。換言すると、全体的なランク付けを、その後参照ビデオシーンに割り当てられる負荷値として表すことができる。

TrueSkillアルゴリズムは、Herbrich, R., Minka, T., and Graepel, T. (2006): "Trueskill: A bayesian skill rating system", Advances in Neural Information Processing Systems, pages 569-576にも記載されている。

TrueSkillアルゴリズムの代わりに、Eloモデル（Elo, A. (1978): "The Rating of Chessplayers, Past and Present", Arco. ISBN 0-668-04721-6）、Glickoシステム（lickman, Mark E., (1999): "Parameter estimation in large dynamic paired comparison experiments", Applied Statistics, 48, 377-394）、又はペアワイズ比較を格付けに変換するBTL（Bradley Terry Luce）アルゴリズムを利用することもできる。

ペアワイズランク付け法の代わりに、ランク付け法において、別の数の参照ビデオシーン、例えば、３つ、４つ、又はそれ以上の参照ビデオシーンを比較することもできる。

また、制御装置は、運転シーン中に運転者を監視することによって、特に視覚的シーンに対する運転者の応答及び／又は乗り物が発する音響信号によって、負荷モデルを継続的に訓練するように構成されることも可能である。したがって、制御装置は、「移動中に（on the go）」、すなわち、乗り物が作動している間に、負荷モデルを更に最適化することができる。この目的のために、運転中の運転者の生理学的応答（例えば、瞳孔拡張）を測定するために、例えば１つ以上のカメラなどによって運転者を監視することができる。特に乗り物が発する音響信号に対する運転者の応答を測定することができる。さらに、付加的な応答時間と、例えば急ブレーキ、急な操舵などのような運転行動を含む応答挙動とを、併せて監視することができる。

決定された知覚的負荷と一致しない、運転シーン中の運転者の監視された行動は、写像関数をオンラインで更新するように機能し得る。したがって、運転シーン中の運転者の行動に関する監視情報に基づいて、決定された負荷が正しいか又はそうでないと考えられるかを判断することができ、この判断に基づいて負荷モデルを最適化することができる。例えば、決定された負荷値が運転シーンの低い知覚的負荷を示すが、運転者の行動が、（例えば、瞳孔応答が低いこと、及び、急ブレーキ、急な操舵などのようなあわただしい反応による）高い知覚的負荷を示唆している場合、これに応じて、負荷モデルを適応させてもよい。このため、写像関数（すなわち、負荷モデル）の以前の結果と一致しない状況は、写像関数をオンラインで更新するように機能し得る。

さらに、既にセンサによって監視されているあらゆる運転シーンを、負荷モデルが訓練され得る更なる参照ビデオシーンとして用いることも可能である。

シーン特徴のセットは、ある範囲の時空間特徴を含んでいてもよく、シーン特徴のセットは特にベクトル形式により記述される。

シーン特徴のセットは、improved dense trajectory（iDT）特徴、及び／又は三次元畳み込みニューラルネットワーク（C3D）特徴を含み得る。

Improved dense trajectory（iDT）特徴は、Wang, H. and Schmid, C. (2013): "Action recognition with improved trajectories", IEEE International Conference on Computer Vision, Sydney, Australiaにも記載されている。

３Ｄ畳み込み（C3D）特徴は、Tran, D., Bourdev, L, Fergus, R., Torresani, L, and Paluri, M. (2015): "Learning spatiotemporal features with 3d convolutional networks", IEEE International Conference on Computer Vision, pages 4489-4497にも記載されている。

負荷モデルは、線形回帰モデル、カーネル回帰モデル、サポートベクトル回帰モデル、リッジ回帰モデル、ラッソ回帰モデル、又はランダムフォレスト回帰モデルであり得る。負荷モデルは、具体的には、多重チャネル非線形（multi-channel non-linear）カーネル回帰モデルであり得る。

負荷モデルは、線形回帰モデルであってもよく、入力シーン特徴ベクトルxであるシーン特徴のセット（特に、検知された運転シーンのセット）は、線形写像関数f(x) = w^Tx + b = w₁*x₁ + w₂*x₂ + w₃*x₃ ... + bを介して、出力知覚的負荷値y=f(x)である知覚的負荷に写像され、関数は、特徴ベクトルxの入力次元値の加重和であり、重みパラメータwが、特徴ベクトルxのそれぞれの次元値に割り当てられ、バイアス項bが出力を特定の値にセンタリングする（center）。

または、負荷モデルは、多重チャネル非線形カーネル回帰モデルであってもよく、写像関数がf(x) = w^TΦ(x) + bであり、Φ(x)は、非線形カーネル空間への入力特徴ベクトルの変換関数である。

本開示は、さらに、上述の制御装置を備える乗り物に関する。

乗り物は、視覚的運転シーンを検知するように構成されたセンサを更に備えていてもよく、センサは、特に光センサ、より詳細には少なくとも１つのデジタルカメラである。

したがって、運転シーンを検知する（すなわち、知覚する）ために複数のセンサを用いることもできる。例えば、運転シーンの三次元情報及びサラウンドビュー型センサ構成（surround view type sensor configuration）並びにこれらの組合せを得るために２つのセンサを用いてもよい。

本開示は、さらに、視覚的且つ動的な運転シーンの知覚的負荷を決定する、乗り物のシステムに関する。このシステムは、制御装置、特に上述の制御装置と、負荷モデルを決定するように構成されたサーバとを備える。

サーバは、複数の参照ビデオシーンを記憶し、参照ビデオシーンを負荷値でラベル付けする手段を提供し、それぞれの参照ビデオシーンからシーン特徴のセットを抽出し、それぞれの参照ビデオシーンから抽出されたシーン特徴のセットと負荷値との間の写像関数を決定するように構成された回帰分析に基づいて負荷モデルを決定するように構成されることができる。

したがって、サーバは、負荷モデルを開発するように構成されることができる。開発させた負荷モデルは、検知された運転シーンとその対応する知覚的負荷との間の写像関数として機能するように、乗り物の制御装置に転送されることができる。負荷モデルは、初期開発後にサーバ上で更に訓練されることができる。したがって、制御装置の負荷モデルを後で更新することができる。

サーバは、参照ビデオシーンの人間に基づく負荷格付けの手段を提供するように構成されることができる。具体的には、負荷格付けは、クラウドソーシングに基づいていてもよく、負荷値は、人間に基づく負荷格付けに基づいて決定される。

サーバは、負荷格付けが、ペアワイズランク付け法、特にTrueSkillアルゴリズムに基づくように構成されることができる。

したがって、サーバは、試験者が参照ビデオシーンをランク付けするのに用いられてもよく、例えば、すべての参照ビデオシーン間の全体的なランク付けを得るために、TrueSkillアルゴリズムを利用してもよい。サーバは、対応するソフトウェアを提供し得る。

本開示は、さらに、視覚的且つ動的な運転シーンの知覚的負荷を決定する方法に関する。この方法は、視覚的運転シーンを検知するセンサのセンサ出力を受信する段階と、少なくとも、視覚的運転シーンの静的情報及び／又は動的情報を表すシーン特徴のセットをセンサ出力から抽出する段階と、予め定められた負荷モデルに基づいて、抽出されたシーン特徴のセットの知覚的負荷を決定する段階とを含む。負荷モデルは、それぞれ負荷値でラベル付けされた参照ビデオシーンに基づいて予め定められる。

負荷モデルは、シーン特徴のセットを知覚的負荷値に写像することができる。

負荷モデルは、参照ビデオシーンから抽出されたシーン特徴のセットと負荷値との間の回帰モデル又は分類モデルであり得る。

参照ビデオシーンの負荷値の決定は、人間に基づき、特にクラウドソーシングに基づき得る。

負荷値の決定は、ペアワイズランク付け法、特にTrueSkillアルゴリズムに基づき得る。

負荷モデルは、運転シーン中に運転者を監視することによって継続的に訓練されてもよく、決定された知覚的負荷と一致しない、運転シーン中の運転者の監視された行動は、写像関数をオンラインで更新するように機能し得る。

シーン特徴のセットは、ある範囲の時空間特徴を含んでいてもよく、シーン特徴のセットは特にベクトル形式により表現される。

負荷モデルは、線形回帰モデル、カーネル回帰モデル、サポートベクトル回帰モデル、リッジ回帰モデル、ラッソ回帰モデル、ランダムフォレスト回帰モデル、又は多重チャネル非線形カーネル回帰モデルであり得る。

負荷モデルは、線形回帰モデルであってもよく、入力シーン特徴ベクトルxであるシーン特徴のセット（具体的には、検知された運転シーンのセット）は、線形写像関数f(x) = w^Tx + b = w₁*x₁ + w₂*x₂ + w₃*x₃ ... + bを介して、出力知覚的負荷値y=f(x)である知覚的負荷に写像され、関数は、特徴ベクトルxの入力次元値の加重和であり、重みパラメータwが、特徴ベクトルxのそれぞれの次元値に割り当てられ、バイアス項bが出力を特定の値にセンタリングする。

代替的に、負荷モデルは、多重チャネル非線形カーネル回帰モデルであってもよく、写像関数がf(x) = w^TΦ(x) + bであり、Φ(x)は、非線形カーネル空間への入力特徴ベクトルの変換関数である。

センサは、光センサ、特に少なくとも１つのデジタルカメラであり得る。

方法では、サーバは、複数の参照ビデオシーンを記憶する段階、参照ビデオシーンを負荷値でラベル付けする手段を提供する段階、それぞれの参照ビデオシーンからシーン特徴のセットを抽出する段階、及びそれぞれの参照ビデオシーンから抽出されたシーン特徴のセットと負荷値との間の写像関数を決定する回帰分析に基づいて負荷モデルを決定する段階を行うことができる。

サーバは、参照ビデオシーンの人間に基づく負荷格付けの手段を提供することができる。具体的には、負荷格付けは、クラウドソーシングに基づいていてもよく、負荷値は、人間に基づく負荷格付けに基づいて決定される。

負荷格付けは、ペアワイズランク付け法、特にTrueSkillアルゴリズムに基づき得る。

特に矛盾する場合を除いて、上述した要素と本明細書内の要素とを組み合わせることが可能であるものとする。

前述した全体的な説明及び次の詳細な説明はともに、例示的かつ説明的なものにすぎず、特許請求の範囲に記載された本開示内容を限定するものではないことが理解されるべきである。

添付図面は本明細書に援用され、本明細書の一部を構成し、本開示の実施形態を説明とともに示し、その原理を説明するように機能する。

本開示の実施形態に係る制御装置を有するシステムのブロック図を示す。本開示の実施形態に係る、知覚的負荷を決定する例示的な方法を示した概略フローチャートを示す。図２の例示的な方法を更に詳細に示したフローチャートを示す。本開示の実施形態に係るシーン特徴の抽出の例を示す。 dense trajectoriesによる視覚的シーンのdense trajectory抽出の概略図を示す。本開示の実施形態に係るC3Dシステムアーキテクチャを示した図を示す。本開示の実施形態に係る負荷モデルの訓練を示した概略図を示す。後でTrueSkillアルゴリズムに供給される一対の参照ビデオシーンを比較するラベル付け法の例を示す。

ここで、本開示の例示的な実施形態を詳細に参照し、その例を添付図面に示す。可能な限り、図面全体にわたって、同じ又は同様の部分を指すのに、同じ参照符号が用いられる。

図１は、本開示の実施形態に係る制御装置１を有するシステム３０のブロック図を示している。

制御装置１はデータ記憶装置２に接続され又はデータ記憶装置を備えている。データ記憶装置は、負荷モデルを記憶するのに用いることができる。以下に説明するように、負荷モデルは、視覚的運転シーンの知覚的負荷を決定するのに用いられる。

制御装置１は、乗り物１において更なる機能をさらに実行することができる。例えば、制御装置は、乗り物の汎用ＥＣＵ（電子制御装置）としても機能してもよい。制御装置１は、電子回路、プロセッサ（共有、専用若しくはグループ）、組合せ論理回路、１つ以上のソフトウェアプログラムを実行するメモリ、及び／又は記載される機能を提供する他の適切な構成部品を備え得る。

さらに、制御装置１は、光センサ、特にデジタルカメラ３に接続されている。制御装置１及びデジタルカメラは、乗り物１０によって構成され得る。デジタルカメラ３は、乗り物１０の視覚的運転シーンを記録することができるように構成されている。デジタルカメラは、望ましくは、乗り物の運転方向に向けられ、すなわち、特に乗り物前方の道路を記録するように向けられる。また、複数のカメラ３を用いることも可能である。したがって、運転者の完全な視界をカバーするように、複数のセンサ（例えば、カメラ）を用いることも合理的であり得る。

デジタルカメラ３の出力、具体的には、記録されたビデオストリームは、制御装置１に送信される。出力は、瞬間的に、すなわちリアルタイムにより、又はほぼリアルタイムにより送信されることが望ましい。このため、記録された運転シーンの知覚的負荷は、リアルタイム又はほぼリアルタイムにより、制御装置によって決定することもできる。

システム３０は、更に、サーバ２０を備え得る。サーバ２０は、負荷モデルを訓練し、最終的に更新するのに用いられる。この目的のために、制御装置１は、サーバに接続可能である。例えば、制御装置１は、無線接続によってサーバ２０に接続されてもよい。代わりに又は加えて、制御装置１は、固定接続によって、例えばケーブルによって、サーバ２０に接続可能である。

図２は、本開示の実施形態に係る、知覚的負荷を決定する例示的な方法を示した概略フローチャートを示している。この方法は、本質的に次の２つの段階を含み、第１の段階（ステップＳ２）では、ビデオからシーン特徴のセットが抽出される。第２の段階（ステップＳ３）では、写像関数を提供する負荷モデルが利用される。換言すると、シーン特徴のセットと知覚的負荷値との間の写像関数が利用される。

更に詳細には、最初に、ステップＳ１において、視覚的運転シーンが記録される。上述したように、視覚的運転シーンは、センサ、特にデジタルカメラによって記録される。センサの出力（例えば、ビデオストリーム）から固定長のビデオスニペット（video snippets）１０１（例えば、２秒の長いクリップ）が得られる。このため、ビデオスニペットは、図２の方法において、連続的に処理され得る。

ステップＳ２では、最新のビデオスニペット１０１からシーン特徴のセット１０２（シーン記述子とも称する。）が抽出される。以下に更に詳細に説明するように、シーン特徴のセットは、特徴ベクトルによって表されうる。

ステップＳ３では、シーン特徴のセット１０２は、クラウドソーシングから学習された回帰モデルであり得る負荷モデル１０３を通過する。その結果、ビデオスニペット１０２の知覚的負荷を示す知覚的負荷値１０４が得られる。

図２の方法を１つのビデオスニペットごとに繰り返すことができる。

図２の方法を種々の回帰モデルを用いて達成することができる。

知覚的負荷の決定は、必ずしも完全に正確ではないため、推定と考えることもできる。

図３は、図２の例示的な方法を更に詳細に示したフローチャートを示している。特に、以下に更に詳細に説明するように、抽出されたシーン特徴のセットが更に詳細に示される。

シーン特徴の抽出の目的は、ビデオの内容を固定長の数値形式により記述することである。シーン特徴のセットは、特徴ベクトルとも呼ばれうる。運転シーンの視覚情報は、視覚的運転シーンの外観特徴及び動作特徴を抽出することによって知覚的負荷を決定するのに寄与する。視覚情報を抽出するように、以下に説明するとおり、ビデオスニペットから、improved dense trajectory（IDT）特徴、及び／又は３Ｄ畳み込み（C3D）特徴が抽出されることが望ましい。シーン特徴のセットを構成するこのような特徴は、ビデオスニペットの知覚的負荷を示す知覚的負荷値を算出するために、回帰モデルであり得る負荷モデルを通過する。

Improved dense trajectories (IDT)
improved dense trajectoriesでは、ビデオは、原始的な関心点（primitive interest points）のトラジェクトリ（trajectories）周辺において抽出された視覚的特徴として表される。トラジェクトリは、経時的に追跡された「関心点」の画像位置（x, y）である。このような「関心点」は、物体の角のような、顕著な又ははっきりと分かる画像の部分であり得る。関心点は、SURF（「Speeded Up Robust Features」アルゴリズムを用いて検出されことができ、ビデオの高密度オプティカルフロー場（dense optical flow field）においてメディアンフィルタリングによって追跡され得る。

図４は、本開示の実施形態に係るシーン特徴の抽出の例を示している。トラジェクトリの例が図４に示されている。点４０１はトラジェクトリの現在位置を示し、軌跡４０２は以前のトラジェクトリの位置を示している。

図５は、dense trajectoriesによる視覚的シーンのdense trajectory抽出の概略図を示している。図示されているように、dense trajectoriesは、複数の空間スケール、例えば４〜８の空間スケールについて抽出され、その後、トラジェクトリ周辺の時空間ボリューム（space-time volume）内で局所的特徴が算出される。dense trajectoriesによるこのような行動認識は、Wang, H. and Schmid, C. (2013): "Action recognition with improved trajectories", IEEE International Conference on Computer Vision, Sydney, Australiaにも記載されており、その開示内容は、全体として本明細書に援用される。空間スケールとは、一般的に、トラジェクトリのサンプリングを指す。このことは、トラジェクトリが、異なる数のピクセルを有する画像に亘ってサンプリングされることを意味する。例えば、スケール１では５ピクセルの間隔があり、スケール２では１０ピクセルの間隔がある等である。

トラジェクトリ特徴自体（すなわち、それぞれのトラジェクトリの標準化されたx、y位置）に加えて、x方向及びy方向のHistograms of Oriented Gradients（HOG）、オプティカルフローのヒストグラム（HOF）、及びMotion Bounded Histograms（MBH）特徴がそれぞれのトラジェクトリ周辺において抽出される。

Bag of Words表現が特徴を符号化するのに用いられることが望ましい。Bag of Words表現では、それぞれのトラジェクトリ特徴の種類（トラジェクトリ、HOG、HOF、MBHx、MBHy）の４０００長の辞書が学習される。すなわち、すべての考えられる特徴の種類は４０００個のvisual wordの固定語に量子化され、次いで、visual wordの各種類の頻度のヒストグラムとしてビデオが符号化される。これによって、２０，０００次元の特徴ベクトル（すなわち、５×４０００長の特徴ベクトル）が得られる。

３Ｄ畳み込み（C3D）特徴
３Ｄ畳み込み（C3D）特徴は、ラベル付きデータから特徴が自動的に学習される「深層ニューラルネットワーク」学習特徴の一種である。局所的な外観情報及び動作情報を補足するビデオフィルタの階層が学習される。特徴抽出のためのC3Dネットワークは、それが使用可能となる前に最初に訓練されなければならない。予め訓練されたネットワークを用いることができる（すなわち、他のデータについて訓練され、一般的なビデオ記述子を抽出することを学習する。）。例えば、予め訓練されたモデルは、スポーツを分類するために、百万のスポーツビデオのセットから訓練されてもよい。これは、ビデオ回帰／分類タスクにおいて用いることができる一般的な動作特徴／外観特徴を学習する。訓練の代わりに又は訓練に加えて、C3Dネットワークを微調整するために、ラベル付き参照ビデオを用いてもよい。

図６は、本開示の実施形態に係るC3Dシステムアーキテクチャを示した図を示している。図では、「Conv」は、畳み込みビデオフィルタの層を表し、「Pool」は、畳み込み出力をサブサンプリングするマックスプーリングを表し、「FC」は、特徴の重み付けされた組合せを出力値に写像する完全結合層を表す。シーン特徴の最終的なセットは、４０９６次元を含み、ビデオスニペットの動作及び外観を表すビデオフィルタの重み付けされた組合せを表す。３Ｄ畳み込み（C3D）特徴は、Tran, D., Bourdev, L, Fergus, R., Torresani, L, and Paluri, M. (2015): "Learning spatiotemporal features with 3d convolutional networks", IEEE International Conference on Computer Vision, pages 4489-4497にも記載されており、その開示内容は、全体として本明細書に援用される。

負荷モデルの訓練
図７は、本開示の実施形態に係る負荷モデルの訓練を示した概略図を示している。負荷モデルは、回帰モデルであることが望ましい。回帰モデルを訓練するためには、機械学習アルゴリズムがシーン特徴のセットから知覚的負荷値への写像関数を学習することができるように、種々の運転シナリオの例、すなわち、特に、参照ビデオシーン及び参照ビデオシーンの対応する負荷値が必要とされる。

いわゆる「ground-truth（グランド・トゥルース）」の知覚的負荷値はクラウドソーシングを介して取得されることができ、試験者、例えば経験豊富な運転者は、ペアワイズ比較レジーム（pairwise-comparison regime）により運転映像のクリップを見て比較し、その後、運転映像のクリップはビデオ格付けに変換される。ペアワイズ比較は、（一貫性のないラベルを提供するであろう、自身の主観的負荷値を割り当てる人間と比較して、）項目を格付けする信頼性の高い方法を提供する。経験豊富な運転者が、ビデオの相対的な知覚的負荷をラベル付けし、ペアからどのビデオが安全運転を維持するのに注意を要するかを選択するシステムが用いられることが望ましい。ペアワイズ比較の集合は、TrueSkillアルゴリズムを用いて各ビデオの格付けに変換されることが望ましい。

別の方法は、長距離運転中に負荷値（例えば、１〜５のレベル）によって手動でライブストリームにタグ付けする運転者及び乗客によって行われ得る。この試験の間、負荷モデルも訓練され得る。したがって、ライブストリームは、負荷モデルが訓練される参照ビデオシーンとして用いられ得る。

図８は、後でTrueSkillアルゴリズムに供給される一対の参照ビデオシーンを比較するためのラベル付け法の例を示している。

TrueSkillモデルでは、それぞれのビデオに基本的な真の負荷値があると仮定している。一方のビデオが他方のビデオよりも高い負荷としてランク付けされる確率は、それらの負荷値の差に基づく。一対のビデオ間の各比較の後、どのビデオが高い負荷を有するものとしてラベル付けされたかと、それらの以前の負荷値とに基づいて、ビデオ負荷値が更新される。すべてのビデオは、負荷値が等しいものとして開始し、それぞれ比較した後に更新される。ビデオは、対応する負荷値がもはや変化しなくなるまで、比較される。最終結果は、それぞれのビデオの負荷値である。TrueSkillアルゴリズムは、Herbrich, R., Minka, T., and Graepel, T. (2006): "Trueskill: A Bayesian skill rating system", Advances in Neural Information Processing Systems, pages 569-576にも記載されており、その開示内容は、全体として本明細書に援用される。

以下に、回帰モデルである負荷モデルの開発について説明する。回帰は、固定長の特徴ベクトル（すなわち、シーン特徴のセット）を取得し、これを単一の連続出力値（すなわち、参照ビデオのラベル付き知覚的負荷）に変換するための写像関数を学習する。回帰関数は、入力（すなわち、特徴ベクトル）及び出力（すなわち、ラベル付き知覚的負荷値）のペアのラベル付き訓練例から学習され、訓練データに最も良く適合する関数を求める。

例えば、線形回帰、カーネル回帰、サポートベクトル回帰、リッジ回帰、ラッソ回帰、ランダムフォレスト回帰などの種々の種類の回帰モデルを用いてもよい。

最も単純な線形回帰の場合、効果的には数の一覧｛x₁, x₂, x₃, ..., x_N｝である入力シーン特徴ベクトルxは、線形関数y=f(x)を介して出力y（この場合は、知覚的負荷値）に写像され、関数は、入力された数の加重和である。
f(x) = w^Tx + b、すなわち、f(x) = w₁*x₁ + w₂*x₂ + w₃*x₃ ... + b

これは、入力データポイントに最も適合する線を当てはめることと等価であり、パラメータw（これらは、特徴ベクトルxにおけるそれぞれの特徴／値／数に割り当てられた単純な重みである。）、及び特定の値に出力センタリングするバイアス項bを学習する。

より高性能のモデルでは、多重チャネル非線形カーネル回帰が用いられる。これは、線形回帰を拡張して、「カーネル」を用いることにより、シーン特徴の入力セットと出力負荷値との間の複雑な非線形関係をカバーする。これは、入力特徴ベクトルを、それらが良好に分離され又は写像され得る空間に変換することである。写像関数は、次式のようになる。
f(x) = w^TΦ(x) + b

その後、回帰は、組み合わされたカーネル空間において実行される。これは、線を２次元の点適合させるのと同様であるが、高次元の空間において、機械学習アルゴリズムは、「訓練セット」（すなわち、データセット全体のサブセット、この場合は、〜２０００のビデオ‐負荷値のペアの２／３）における知覚的負荷推定の誤差を最小にする重みwの集合を求める。したがって、この最適な重みのセットは、シーン特徴のセットを、知覚的負荷を示す単一の値に最も良く変換する写像を定義する。

このようにして、回帰関数を含む負荷モデルを、訓練例に基づいて訓練することができる。いったん回帰関数が学習されると、制御装置が乗り物に用いられるときに、同じ手順が実行され得る。したがって、制御装置の使用中に、視覚的運転シーンから入力シーン記述子（すなわち、シーン特徴のセット）が抽出され、出力負荷値を算出するために入力シーン記述子（すなわち、シーン特徴のセット）に回帰関数が適用される。

モデルを学習した後、任意のビデオを挿入することができ、２秒のセグメント毎に知覚的負荷値が出力される。知覚的負荷値を連続的に出力するのに（すなわち、ビデオのフレームごとに値を出力できるように）、「スライディングウィンドウ」手法が用いられる。また、当然のことながら、セグメントは、２秒よりも短くても長くてもよい。

特許請求の範囲を含む説明全体を通して、「備える」という用語は、特に明記しない限り、「少なくとも１つを備える」と同義であるものと理解される。加えて、特許請求の範囲を含む明細書に示されている範囲は、特に明記しない限り、その終点の値を含むものと理解される。説明されている要素の特定の値は、当業者に知られている製造許容差又は産業許容差内にあるものと理解され、また、「実質的に」及び／又は「およそ」及び／又は「ほぼ」という用語の使用は、このような許容差内にあることを意味するものと理解される。

特定の実施形態に関して、本明細書の本開示を説明してきたが、これらの実施形態は、本開示の原理及び応用の例示にすぎないことが理解される。

本明細書及び例は、例示にすぎないものと考えられ、本開示の真の範囲は、次の特許請求の範囲によって示されるものとする。
本明細書に開示される発明は以下の態様を含む。
〔態様１〕
視覚的且つ動的な運転シーン（１０）の知覚的負荷を決定する、乗り物（１０）の制御装置（１）であって、
当該制御装置（１）が、
視覚的運転シーンを検知するセンサ（３）のセンサ出力（１０１）を受信し、
前記視覚的運転シーンの静的情報及び／又は動的情報を表すシーン特徴のセット（１０２）を前記センサ出力（１０１）から抽出し、
予め定められた負荷モデル（１０３）に基づいて、抽出されたシーン特徴のセット（１０２）の知覚的負荷（１０４）を決定するように構成され、
前記負荷モデル（１０３）が、それぞれ負荷値でラベル付けされた参照ビデオシーンに基づいて予め定められる、制御装置。
〔態様２〕
前記負荷モデル（１０３）が、前記参照ビデオシーンから抽出されたシーン特徴のセットと前記負荷値との間の写像関数を含む、態様１に記載の制御装置。
〔態様３〕
前記負荷モデル（１０３）がシーン特徴のセットを知覚的負荷値に写像するように構成される、態様１又は２に記載の制御装置。
〔態様４〕
前記負荷モデル（１０３）が、前記参照ビデオシーンから抽出されたシーン特徴のセットと前記負荷値との間の回帰モデル及び／又は分類モデルである、態様１から３の何れか一項に記載の制御装置。
〔態様５〕
前記参照ビデオシーンの負荷値の決定が、人間に基づき、特にクラウドソーシングに基づく、態様１から４の何れか一項に記載の制御装置。
〔態様６〕
前記負荷値の決定が、ペアワイズランク付け法に基づき、特にTrueSkillアルゴリズムに基づく、態様１から５の何れか一項に記載の制御装置。
〔態様７〕
当該制御装置が、運転シーン中に運転者を監視することによって前記負荷モデルを継続的に訓練するように構成され、決定された知覚的負荷（１０４）と一致しない、前記運転シーン中の前記運転者の監視された行動が、前記写像関数をオンラインで更新するように機能する、態様１から６の何れか一項に記載の制御装置。
〔態様８〕
前記シーン特徴のセット（１０２）が、ある範囲の時空間特徴を含み、前記シーン特徴のセットが特にベクトル形式により記述される、態様１から７の何れか一項に記載の制御装置。
〔態様９〕
前記シーン特徴のセットが、improved dense trajectory（iDT）特徴、及び／又は三次元畳み込みニューラルネットワーク（C3D）特徴を含む、態様１から８の何れか一項に記載の制御装置。
〔態様１０〕
前記負荷モデルが線形回帰モデルであり、入力シーン特徴ベクトルxである前記シーン特徴のセットが、線形写像関数f(x) = w ^T x + b = w ₁ *x ₁ + w ₂ *x ₂ + w ₃ *x ₃ ... + bを介して、出力知覚的負荷値y=f(x)である前記知覚的負荷に写像され、前記線形写像関数が、前記入力シーン特徴ベクトルxの入力次元値の加重和であり、重みパラメータwが、前記入力シーン特徴ベクトルxのそれぞれの次元値に割り当てられ、バイアス項bが出力を特定の値にセンタリングし、又は
前記負荷モデルが多重チャネル非線形カーネル回帰モデルであり、写像関数がf(x) = w ^T Φ(x) + bであり、Φ(x)が、非線形カーネル空間への入力特徴ベクトルの変換関数である、態様１から９の何れか一項に記載の制御装置。
〔態様１１〕
態様１から１０の何れか一項に記載の制御装置（１）を備える、乗り物（１０）。
〔態様１２〕
前記視覚的運転シーンを検知するように構成されたセンサ（３）を更に備え、該センサ（３）が、特に光センサ、より詳細には少なくとも１つのデジタルカメラである、態様１１に記載の乗り物（１０）。
〔態様１３〕
視覚的且つ動的な運転シーンの知覚的負荷を決定する、乗り物（１０）のシステム（３０）であって、
態様１から１１の何れか一項に記載の制御装置（１）と、
前記負荷モデルを決定するように構成されたサーバ（２０）と、
を備える、システム（３０）。
〔態様１４〕
前記サーバ（２０）が、
複数の参照ビデオシーンを記憶し、
前記参照ビデオシーンを負荷値でラベル付けする手段を提供し、
それぞれの参照ビデオシーンからシーン特徴のセットを抽出し、
それぞれの参照ビデオシーンから抽出されたシーン特徴のセットと前記負荷値との間の写像関数を決定するように構成された回帰分析に基づいて前記負荷モデルを決定するように構成される、態様１３に記載のシステム（３０）。
〔態様１５〕
前記サーバ（２０）が、
前記参照ビデオシーンの人間に基づく負荷格付けの手段を提供するように構成され、特に、前記負荷格付けがクラウドソーシングに基づき、前記負荷値が前記人間に基づく負荷格付けに基づいて決定される、態様１３又は１４に記載のシステム（３０）。
〔態様１６〕
前記サーバ（２０）は、前記負荷格付けが、ペアワイズランク付け法、特にTrueSkillアルゴリズムに基づくように構成される、態様１３から１５の何れか一項に記載のシステム（３０）。
〔態様１７〕
視覚的且つ動的な運転シーンの知覚的負荷を決定する方法であって、
視覚的運転シーンを検知するセンサ（３）のセンサ出力（１０１）を受信する段階と、
前記視覚的運転シーンの静的情報及び／又は動的情報を表すシーン特徴のセット（１０２）を前記センサ出力（１０１）から抽出する段階と、
予め定められた負荷モデル（１０３）に基づいて、抽出されたシーン特徴のセット（１０２）の知覚的負荷（１０４）を決定する段階と、
を含み、
前記負荷モデル（１０３）が、それぞれ負荷値でラベル付けされた参照ビデオシーンに基づいて予め定められる、方法。
〔態様１８〕
前記負荷モデル（１０３）が、前記参照ビデオシーンから抽出されたシーン特徴のセットと前記負荷値との間の写像関数を含む、態様１７に記載の方法。
〔態様１９〕
前記負荷モデル（１０３）がシーン特徴のセットを知覚的負荷値に写像する、態様１７又は１８に記載の方法。
〔態様２０〕
前記負荷モデル（１０３）が、前記参照ビデオシーンから抽出されたシーン特徴のセットと前記負荷値との間の回帰モデル又は分類モデルである、態様１７から１９の何れか一項に記載の方法。
〔態様２１〕
前記参照ビデオシーンの負荷値の決定が、人間に基づき、特にクラウドソーシングに基づく、態様１７から２０の何れか一項に記載の方法。
〔態様２２〕
前記負荷値の決定が、ペアワイズランク付け法、特にTrueSkillアルゴリズムに基づく、態様１７から２１の何れか一項に記載の方法。
〔態様２３〕
前記負荷モデルが、運転シーン中に運転者を監視することによって継続的に訓練され、決定された知覚的負荷（１０４）と一致しない、前記運転シーン中の前記運転者の監視された行動が、前記写像関数をオンラインで更新するように機能する、態様１７から２２の何れか一項に記載の方法。
〔態様２４〕
前記シーン特徴のセットが、ある範囲の時空間特徴を含み、前記シーン特徴のセットが特にベクトル形式により記述される、態様１７から２３の何れか一項に記載の方法。
〔態様２５〕
前記シーン特徴のセットが、improved dense trajectory（iDT）特徴、及び／又は三次元畳み込みニューラルネットワーク（C3D）特徴を含む、態様１７から２４の何れか一項に記載の方法。
〔態様２６〕
前記負荷モデルが線形回帰モデルであり、入力シーン特徴ベクトルxであるシーン特徴のセットが、線形写像関数f(x) = w ^T x + b = w ₁ *x ₁ + w ₂ *x ₂ + w ₃ *x ₃ ... + bを介して、出力知覚的負荷値y=f(x)である前記知覚的負荷に写像され、前記線形写像関数が、前記入力シーン特徴ベクトルxの入力次元値の加重和であり、重みパラメータwが、前記入力シーン特徴ベクトルxのそれぞれの次元値に割り当てられ、バイアス項bが出力を特定の値にセンタリングし、又は
前記負荷モデルが多重チャネル非線形カーネル回帰モデルであり、写像関数がf(x) = w ^T Φ(x) + bであり、Φ(x)が、非線形カーネル空間への入力特徴ベクトルの変換関数である、態様１７から２５の何れか一項に記載の方法。
〔態様２７〕
前記センサ（３）が、光センサ、特に少なくとも１つのデジタルカメラである、態様１７から２６の何れか一項に記載の方法。
〔態様２８〕
サーバが、
複数の参照ビデオシーンを記憶する段階、
前記参照ビデオシーンを負荷値でラベル付けする手段を提供する段階、
それぞれの参照ビデオシーンからシーン特徴のセットを抽出する段階、及び
それぞれの参照ビデオシーンから抽出されたシーン特徴のセットと前記負荷値との間の写像関数を決定する回帰分析に基づいて、前記負荷モデルを決定する段階を行う、態様１７から２７の何れか一項に記載の方法。
〔態様２９〕
前記サーバが、前記参照ビデオシーンの人間に基づく負荷格付けの手段を提供し、特に、前記負荷格付けがクラウドソーシングに基づき、前記負荷値が前記人間に基づく負荷格付けに基づいて決定される、態様２８に記載の方法。
〔態様３０〕
前記負荷格付けが、ペアワイズランク付け法、特にTrueSkillアルゴリズムに基づく、態様２８又は２９に記載の方法。

Claims

視覚的且つ動的な運転シーン（１０）の知覚的負荷を決定する、乗り物（１０）の制御装置（１）であって、
当該制御装置（１）が、
視覚的運転シーンを検知するセンサ（３）のセンサ出力（１０１）を受信し、
前記視覚的運転シーンの静的情報及び／又は動的情報を表すシーン特徴のセット（１０２）を前記センサ出力（１０１）から抽出し、
予め定められた負荷モデル（１０３）に基づいて、抽出されたシーン特徴のセット（１０２）の知覚的負荷（１０４）を決定するように構成され、
前記負荷モデル（１０３）が、それぞれ知覚的負荷値でラベル付けされた参照ビデオシーンに基づいて予め定められる、制御装置。
前記負荷モデル（１０３）が、前記参照ビデオシーンから抽出されたシーン特徴のセットと前記知覚的負荷値との間の写像関数を含む、請求項１に記載の制御装置。
前記負荷モデル（１０３）がシーン特徴のセットを知覚的負荷値に写像するように構成される、請求項１又は２に記載の制御装置。
前記負荷モデル（１０３）が、前記参照ビデオシーンから抽出されたシーン特徴のセットと前記知覚的負荷値との間の回帰モデル及び／又は分類モデルである、請求項１から３の何れか一項に記載の制御装置。
前記参照ビデオシーンの知覚的負荷値の決定が、人間に基づく、請求項１から４の何れか一項に記載の制御装置。
前記参照ビデオシーンの知覚的負荷値の決定が、クラウドソーシングに基づく、請求項５に記載の制御装置。
前記知覚的負荷値の決定が、ペアワイズランク付け法に基づく、請求項１から６の何れか一項に記載の制御装置。
前記知覚的負荷値の決定が、TrueSkillアルゴリズムに基づく、請求項７に記載の制御装置。
当該制御装置が、運転シーン中に運転者を監視することによって前記負荷モデルを継続的に訓練するように構成され、決定された知覚的負荷（１０４）と一致しない、前記運転シーン中の前記運転者の監視された行動に基づき、前記写像関数をオンラインで更新する、請求項２に記載の制御装置。
前記シーン特徴のセット（１０２）が、ある範囲の時空間特徴を含む、請求項１から９の何れか一項に記載の制御装置。
前記シーン特徴のセット（１０２）が、ベクトル形式により記述される、請求項１０に記載の制御装置。
前記シーン特徴のセットが、improved dense trajectory（iDT）特徴、及び／又は三次元畳み込みニューラルネットワーク（C3D）特徴を含む、請求項１から１１の何れか一項に記載の制御装置。
前記負荷モデルが線形回帰モデルであり、入力シーン特徴ベクトルxである前記シーン特徴のセットが、線形写像関数f(x) = w ^T x + b = w ₁ *x ₁ + w ₂ *x ₂ + w ₃ *x ₃ ... + bを介して、出力知覚的負荷値y=f(x)である前記知覚的負荷に写像され、前記線形写像関数が、前記入力シーン特徴ベクトルxの入力次元値の加重和であり、重みパラメータwが、前記入力シーン特徴ベクトルxのそれぞれの入力次元値に割り当てられ、バイアス項bが出力を特定の値にセンタリングし、又は
前記負荷モデルが多重チャネル非線形カーネル回帰モデルであり、写像関数がf(x) = w ^T Φ(x) + bであり、Φ(x)が、非線形カーネル空間への入力シーン特徴ベクトルの変換関数である、請求項１から１２の何れか一項に記載の制御装置。
請求項１から１３の何れか一項に記載の制御装置（１）を備える、乗り物（１０）。
前記視覚的運転シーンを検知するように構成されたセンサ（３）を更に備える、請求項１４に記載の乗り物（１０）。
視覚的且つ動的な運転シーンの知覚的負荷を決定する、乗り物（１０）のシステム（３０）であって、
請求項１から１３の何れか一項に記載の制御装置（１）と、
前記負荷モデルを決定するように構成されたサーバ（２０）と、
を備える、システム（３０）。
前記サーバ（２０）が、
複数の参照ビデオシーンを記憶し、
前記参照ビデオシーンを知覚的負荷値でラベル付けする手段を提供し、
それぞれの参照ビデオシーンからシーン特徴のセットを抽出し、
それぞれの参照ビデオシーンから抽出されたシーン特徴のセットと前記知覚的負荷値との間の写像関数を決定するように構成された回帰分析に基づいて前記負荷モデルを決定するように構成される、請求項１６に記載のシステム（３０）。
前記サーバ（２０）が、
前記参照ビデオシーンの人間に基づく負荷格付けの手段を提供するように構成され、前記知覚的負荷値が前記人間に基づく負荷格付けに基づいて決定される、請求項１６又は１７に記載のシステム（３０）。
前記負荷格付けがクラウドソーシングに基づく、請求項１８に記載のシステム（３０）。
前記サーバ（２０）は、前記負荷格付けが、ペアワイズランク付け法に基づくように構成される、請求項１８に記載のシステム（３０）。
前記サーバ（２０）は、前記負荷格付けが、TrueSkillアルゴリズムに基づくように構成される、請求項２０に記載のシステム（３０）。
視覚的且つ動的な運転シーンの知覚的負荷を決定する方法であって、
視覚的運転シーンを検知するセンサ（３）のセンサ出力（１０１）を受信する段階と、
前記視覚的運転シーンの静的情報及び／又は動的情報を表すシーン特徴のセット（１０２）を前記センサ出力（１０１）から抽出する段階と、
予め定められた負荷モデル（１０３）に基づいて、抽出されたシーン特徴のセット（１０２）の知覚的負荷（１０４）を決定する段階と、
を含み、
前記負荷モデル（１０３）が、それぞれ知覚的負荷値でラベル付けされた参照ビデオシーンに基づいて予め定められる、方法。
前記負荷モデル（１０３）が、前記参照ビデオシーンから抽出されたシーン特徴のセットと前記知覚的負荷値との間の写像関数を含む、請求項２２に記載の方法。
前記負荷モデル（１０３）がシーン特徴のセットを知覚的負荷値に写像する、請求項２２又は２３に記載の方法。
前記負荷モデル（１０３）が、前記参照ビデオシーンから抽出されたシーン特徴のセットと前記知覚的負荷値との間の回帰モデル又は分類モデルである、請求項２２から２４の何れか一項に記載の方法。
前記参照ビデオシーンの知覚的負荷値の決定が、人間に基づく、請求項２２から２５の何れか一項に記載の方法。
前記参照ビデオシーンの知覚的負荷値の決定が、クラウドソーシングに基づく、請求項２６に記載の方法。
前記知覚的負荷値の決定が、ペアワイズランク付け法に基づく、請求項２２から２７の何れか一項に記載の方法。
前記知覚的負荷値の決定が、TrueSkillアルゴリズムに基づく、請求項２８に記載の方法。
前記負荷モデルが、運転シーン中に運転者を監視することによって継続的に訓練され、決定された知覚的負荷（１０４）と一致しない、前記運転シーン中の前記運転者の監視された行動に基づき、前記写像関数をオンラインで更新する、請求項２３に記載の方法。
前記シーン特徴のセットが、ある範囲の時空間特徴を含む、請求項２２から３０の何れか一項に記載の方法。
前記シーン特徴のセットが、ベクトル形式により記述される、請求項３１に記載の方法。
前記シーン特徴のセットが、improved dense trajectory（iDT）特徴、及び／又は三次元畳み込みニューラルネットワーク（C3D）特徴を含む、請求項２２から３２の何れか一項に記載の方法。
前記負荷モデルが線形回帰モデルであり、入力シーン特徴ベクトルxであるシーン特徴のセットが、線形写像関数f(x) = w ^T x + b = w ₁ *x ₁ + w ₂ *x ₂ + w ₃ *x ₃ ... + bを介して、出力知覚的負荷値y=f(x)である前記知覚的負荷に写像され、前記線形写像関数が、前記入力シーン特徴ベクトルxの入力次元値の加重和であり、重みパラメータwが、前記入力シーン特徴ベクトルxのそれぞれの入力次元値に割り当てられ、バイアス項bが出力を特定の値にセンタリングし、又は
前記負荷モデルが多重チャネル非線形カーネル回帰モデルであり、写像関数がf(x) = w ^T Φ(x) + bであり、Φ(x)が、非線形カーネル空間への入力シーン特徴ベクトルの変換関数である、請求項２２から３３の何れか一項に記載の方法。
前記センサ（３）が、光センサである、請求項２２から３４の何れか一項に記載の方法。
サーバが、
複数の参照ビデオシーンを記憶する段階、
前記参照ビデオシーンを知覚的負荷値でラベル付けする手段を提供する段階、
それぞれの参照ビデオシーンからシーン特徴のセットを抽出する段階、及び
それぞれの参照ビデオシーンから抽出されたシーン特徴のセットと前記知覚的負荷値との間の写像関数を決定する回帰分析に基づいて、前記負荷モデルを決定する段階を行う、請求項２２から３５の何れか一項に記載の方法。
前記サーバが、前記参照ビデオシーンの人間に基づく負荷格付けの手段を提供し、前記知覚的負荷値が前記人間に基づく負荷格付けに基づいて決定される、請求項３６に記載の方法。
前記負荷格付けがクラウドソーシングに基づく、請求項３７に記載の方法。
前記負荷格付けが、ペアワイズランク付け法に基づく、請求項３７に記載の方法。
前記負荷格付けが、TrueSkillアルゴリズムに基づく、請求項３９に記載の方法。