JP7061685B2

JP7061685B2 - 動作認識、運転動作分析の方法及び装置、並びに電子機器

Info

Publication number: JP7061685B2
Application number: JP2020551540A
Authority: JP
Inventors: イエンジエチェン; フェイワン; チェンチエン
Original assignee: ベイジンセンスタイムテクノロジーデベロップメントカンパニー，リミテッド
Priority date: 2018-09-27
Filing date: 2019-09-26
Publication date: 2022-04-28
Anticipated expiration: 2039-09-26
Also published as: JP2021517312A; US20210012127A1; KR102470680B1; KR20200124280A; SG11202009320PA; CN110956060A; WO2020063753A1

Description

（関連出願の相互参照）
本願は、出願番号が２０１８１１１３０７９８．６であり、出願日が２０１８年９月２７日である中国特許出願に基づいて提出されるものであり、該中国特許出願の優先権を主張し、その開示の全てが参照によって本願に組み込まれる。

本願は画像処理の技術分野に関し、特に動作認識、運転動作分析の方法及び装置、並びに電子機器に関する。

近年、動作認識技術はその応用研究が盛んになっており、多くの分野や製品において適用されるようになり、今後、この技術はマンマシンインタラクション発展の潮流となり、特に運転者監視の分野において広範な利用可能性が期待される。

本願の実施例は、動作認識の技術的解決手段及び運転動作分析の技術的解決手段を提供する。

第１の態様によれば、本願の実施例は、顔が含まれる画像内の特徴を抽出するステップと、前記特徴に基づいて、所定動作を含む可能性がある複数の候補枠を特定するステップと、前記複数の候補枠に基づいて動作目標枠を特定するステップであって、前記動作目標枠が、顔の局所領域及び動作インタラクティブ物体を含むステップと、前記動作目標枠に基づいて所定動作を分類し、動作認識結果を得るステップと、を含む動作認識方法を提供する。

第２の態様によれば、本願の実施例は、車載カメラによって、運転者の顔画像を含むビデオストリームを収集するステップと、本願の実施例に記載の動作認識方法のいずれか１つの実施形態により、前記ビデオストリーム内の少なくとも１フレームの画像の動作認識結果を得るステップと、動作認識結果が所定条件を満たすことに応答して、危険運転のリマインディング情報を生成するステップと、を含む運転動作分析方法を提供する。

第３の態様によれば、本願の実施例は、顔が含まれる画像の特徴を抽出するための第１の抽出ユニットと、前記特徴に基づいて、所定動作を含む可能性がある複数の候補枠を特定するための第２の抽出ユニットと、前記複数の候補枠に基づいて動作目標枠を特定するための特定ユニットであって、前記動作目標枠が、顔の局所領域及び動作インタラクティブ物体を含む特定ユニットと、前記動作目標枠に基づいて所定動作を分類し、動作認識結果を得るための分類ユニットと、を含む動作認識装置を提供する。

第４の態様によれば、本願の実施例は、運転者の顔画像を含むビデオストリームを収集するための車載カメラと、本願の実施例に記載の動作認識装置のいずれか１つの実施形態により、前記ビデオストリーム内の少なくとも１フレームの画像の動作認識結果を得るための取得ユニットと、動作認識結果が所定条件を満たすことに応答して、危険運転のリマインディング情報を生成するための生成ユニットと、を含む運転動作分析装置を提供する。

第５の態様によれば、本願の実施例は、コンピュータ実行可能コマンドが記憶されているメモリと、前記メモリ上のコンピュータ実行可能コマンドを実行する時に、本願の実施例の第１の態様又は第２の態様に記載の方法を実現するプロセッサと、を含む電子機器を提供する。

第６の態様によれば、本願の実施例は、コンピュータ上で実行されると、コンピュータに本願の実施例の第１の態様又は第２の態様に記載の方法を実行させるコマンドが記憶されている、コンピュータ可読記憶媒体を提供する。

第７の態様によれば、本願の実施例は、機器のプロセッサ上で実行されると、本願の実施例の第１の態様又は第２の態様に記載の方法を実現するコンピュータコマンドを含む、コンピュータプログラムを提供する。

本願の実施例では、顔が含まれる画像内の特徴を抽出し、抽出された特徴に基づいて所定動作を含む可能性がある複数の候補枠を特定し、複数の候補枠に基づいて動作目標枠を特定し、さらに動作目標枠に基づいて所定動作を分類し、動作認識結果を得る。本願の実施例に記載の動作目標枠は顔の局所領域及び動作インタラクティブ物体を含むため、動作目標枠に基づいて所定動作を分類するプロセスにおいて、人体部位と動作インタラクティブ物体を別々にするのではなく、顔の局所領域及び動作インタラクティブ物体に対応する動作を全体とし、当該全体に対応する特徴に基づいて分類を行っており、したがって、微細動作の認識、特に顔領域又は顔領域付近の微細動作の認識を実現し、動作認識の正確度及び精度を高めることができる。

本願の実施例が提供する動作認識方法のフローチャートである。本願の実施例が提供する目標動作枠の模式図である。本願の実施例が提供する別の動作認識方法のフローチャートである。本願の実施例が提供する所定動作と類似する動作が含まれる負サンプル画像の模式図である。本願の実施例が提供する運転動作分析方法のフローチャートである。本願の実施例が提供するニューラルネットワークのトレーニング方法のフローチャートである。本願の実施例が提供する飲水動作監視枠の模式図である。本願の実施例が提供する電話かけ動作監視枠の模式図である。本願の実施例が提供する動作認識装置の構造模式図である。本願の実施例が提供するニューラルネットワークのトレーニングコンポーネントの構造模式図である。本願の実施例が提供する運転動作分析装置の構造模式図である。本願の実施例が提供する電子機器のハードウェア構成図である。

本願の実施例又は背景技術における技術的解決手段をより明瞭に説明するために、以下、本願の実施例又は背景技術に用いられる図面について説明する。

以下、本願の実施例における図面と関連付けて本願の実施例を説明する。

図１は本願の実施例が提供する動作認識方法のフローチャートであり、図１に示すように、前記方法は以下を含む。

１０１では、顔が含まれる画像内の特徴を抽出する。

本願の実施例は主に車両乗員の動作を対象として認識する。運転者を例にすると、本願の実施例では、車両運転時に車両の運転者により行われるいくつかの運転動作を認識し、認識結果に応じて運転者にリマインドすることができる。発明者は本願の実施例を実現する過程において、人体キーポイントの検出又は人体姿勢の推定により、運転者が水を飲み、運転者が電話をかけるなどのような車両乗員の顔に関わるいくつかの微細動作を認識することが困難であり、ひいては不可能であることを覚る。本願の実施例では、処理対象画像に対して特徴抽出を行い、抽出された特徴に基づいて処理対象画像内の動作の認識を実現する。上記動作は、手部領域の動作及び／又は顔の局所領域の動作、動作インタラクティブ物体に対する動作などであり得、そのため、車載カメラにより車両乗員の画像を収集し、顔が含まれる処理対象画像を得る必要がある。その後、処理対象画像に対して畳み込み操作を行い、動作特徴を抽出する。

本願の一代替的実施例では、前記方法は、車載カメラによって車両乗員の顔が含まれる画像を撮影するステップをさらに含む。前記車両乗員は、前記車両の運転領域の運転者、前記車両の助手席領域の人、前記車両の後部座席の人の少なくとも１つを含む。

前記車載カメラは、赤緑青（ＲＧＢ）カメラ、赤外線カメラ又は近赤外線カメラであり得る。

１０２では、前記特徴に基づいて、所定動作を含む可能性がある複数の候補枠を特定する。

本願の実施例は、主に車両乗員の所定動作を認識し、車両乗員が運転者であることを例にすると、前記所定動作は、例えば運転者の危険運転に対応する所定動作であってもよく、又は運転者に対しての幾つかの危険動作の所定動作であってもよい。一代替的な実施形態では、まず上記所定動作の特徴を定義し、その後ニューラルネットワークにより、定義された特徴及び抽出された画像内の特徴に基づいて、画像に所定動作が存在するか否かを判定し、画像に所定動作が存在すると判定した場合、画像における所定動作が含まれる複数の候補枠を特定する。

本実施例におけるニューラルネットワークはいずれもトレーニングを完了したものであり、即ち、ニューラルネットワークにより画像内の所定動作の特徴を抽出することができる。本願の一代替的実施例では、前記ニューラルネットワークは、複数の畳み込み層を設けて、複数の畳み込み層により画像からより豊富な情報を抽出し、これにより所定動作の判定の正確率を高めるようにしてもよい。

本実施例では、上記抽出された特徴が、手部領域、顔の局所領域、動作インタラクティブ物体対応領域などの少なくとも１つに対応する場合、ニューラルネットワークの特徴抽出処理により、手部領域及び顔の局所領域が含まれる特徴領域を取得し、前記特徴領域に基づいて候補領域を特定し、例えば矩形枠で表されてもよい候補枠により前記候補領域を識別する。同様に、別の候補枠により、手部領域、顔の局所領域及び動作インタラクティブ物体対応領域が含まれる特徴領域を識別する。このように、所定動作に対応する特徴を抽出することで、複数の候補領域を取得し、複数の候補領域に基づいて、複数の候補枠を特定する。

１０３では、前記複数の候補枠に基づいて動作目標枠を特定し、前記動作目標枠が、顔の局所領域及び動作インタラクティブ物体を含む。

本願の実施例では、認識する動作はいずれも顔に関わる微細動作であり、これらの顔に関わる微細動作の認識を、人体キーポイントの検出により実現することが困難であり、ひいては不可能である。また、これらの微細動作に対応する領域のいずれも、少なくとも顔の局所領域及び動作インタラクティブ物体対応領域という２つの領域を含み、例えば、顔の局所領域及び動作インタラクティブ物体対応領域を含むか、又は顔の局所領域、動作インタラクティブ物体対応領域及び手部領域を含むなどである。したがって、複数の候補枠から得られた動作目標枠内の特徴を認識することで、これらの微細動作の認識が実現可能となる。

本願の一代替的実施例では、前記顔の局所領域は、口部領域、耳部領域、眼部領域の少なくとも１つを含む。前記動作インタラクティブ物体は、容器、煙草、携帯電話、食べ物、工具、飲料ボトル、眼鏡、マスクの少なくとも１つを含む。

本願の一代替的実施例では、前記動作目標枠は、手部領域をさらに含む。

例えば、図２に示される目標動作枠内には、顔の局所、携帯電話（即ち、動作インタラクティブ物体）及び手が含まれる。また例えば、喫煙動作について、目標動作枠内には口部及び煙草（即ち、動作インタラクティブ物体）が含まれ得る。

本実施例では、候補枠には所定動作に対応する特徴以外の特徴が含まれることや、所定動作に対応する全ての特徴（いずれか１つの所定動作の全ての特徴を意味する）が含まれていないことがあり、両者とも最終的な動作認識結果に影響を及ぼす可能性がある。したがって、最終的な認識結果の正確度を保証するためには、候補枠の位置を調整し、即ち、複数の候補枠に基づいて動作目標枠を特定する必要があり、前記動作目標枠の位置及び大きさは、複数の候補枠のうちの少なくとも一部の候補枠の位置及び大きさとの間にずれが生じる可能性がある。図２に示すように、所定動作に対応する特徴の位置及び大きさに基づいて、対応する候補枠の位置オフセット及びズーム倍率を特定し、その後位置オフセット及びズーム倍率に基づいて、候補枠の位置及び大きさを調整することができ、これにより調整後の動作目標枠内には所定動作に対応する特徴のみが含まれ、且つ所定動作に対応する全ての特徴が含まれるようになる。これを基に、各候補枠の位置及び大きさを調整することで、調整後の候補枠を動作目標枠として特定する。調整後の複数の候補枠は１つの候補枠として重ねることができ、この場合、重なった候補枠が動作目標枠として特定されることが理解される。

１０４では、前記動作目標枠に基づいて所定動作を分類し、動作認識結果を得る。

本願の一代替的実施例では、前記所定動作は、電話かけ、喫煙、水や飲料の飲用、食事、工具の使用、眼鏡かけ、化粧の少なくとも１つを含む。

本実施例では、前記動作目標枠内に含まれる所定動作に対応する特徴に基づいて、所定動作を分類することができる。一実施形態として、動作分類のためのニューラルネットワークにより、前記動作目標枠内に含まれる所定動作に対応する特徴に対して分類処理を行い、特徴に対応する所定動作の分類認識結果を得ることができる。

本願の実施例の動作認識方法によれば、顔が含まれる画像内の特徴を抽出し、抽出された特徴に基づいて所定動作を含む可能性がある複数の候補枠を特定し、その後複数の候補枠に基づいて動作目標枠を特定し、目標動作枠に基づいて所定動作を分類する。本願の実施例では、前記動作目標枠が顔の局所領域及び動作インタラクティブ物体を含むため、動作目標枠に基づいて所定動作を分類するプロセスにおいて、人体部位と動作インタラクティブ物体を別々にするのではなく、顔の局所領域及び動作インタラクティブ物体に対応する動作を全体とし、当該全体に対応する特徴に基づいて分類を行っており、したがって、微細動作の認識、特に顔領域又は顔領域付近の微細動作の認識を実現し、認識の正確度及び精度を高めることができる。

図３は本願の実施例が提供する別の動作認識方法のフローチャートであり、図３に示すように、前記方法は以下を含む。

３０１では、顔が含まれる処理対象画像を取得する。

本願の一代替的実施例では、処理対象画像を取得する前記ステップは、車載カメラにより車両乗員の写真を撮って処理対象画像を取得するステップを含んでもよく、また車載カメラにより車両乗員をビデオ撮影し、撮影したビデオのフレーム画像を処理対象画像とするようにしてもよい。ここで、前記車両乗員は、前記車両の運転領域の運転者、前記車両の助手席領域の人、前記車両の後部座席の人の少なくとも１つを含む。上記車載カメラはＲＧＢカメラ、赤外線カメラ又は近赤外線カメラであり得る。

ＲＧＢカメラは３本の別個のケーブルにより３つの基本の色成分が提供され、このようなカメラは、一般的には３つの独立した電荷結合素子（ＣＣＤ、ＣｈａｒｇｅＣｏｕｐｌｅｄＤｅｖｉｃｅ）センサで３種類の色信号を取得する。また、ＲＧＢカメラは高精度のカラー画像収集に用いることが多い。

現実環境内における光線が複雑で、車内光線はなおさらに、一層複雑になり、一方、光強度は撮影品質に直接影響を及ぼし、特に車内の光強度が低い場合、一般的なカメラは鮮明な写真又はビデオ映像を収集することができず、画像又はビデオの一部の有用な情報が失われ、結果として後続の処理に影響を及ぼす。赤外線カメラは被写体に赤外線を照射し、反射された赤外線に基づいて結像することができ、一般的なカメラの薄暗い光や暗所条件で撮影した画像の品質が低く又は正常に撮影できないという問題を解決することができる。これに基づき、本実施例では、一般的なカメラや赤外線カメラを設置し、光強度が設定値より高い場合、一般的なカメラにより処理対象画像を取得し、光強度が設定値より低い場合、赤外線カメラにより処理対象画像を取得することができる。

３０２では、ニューラルネットワークの特徴抽出ブランチにより、前記処理対象画像内の特徴を抽出し、特徴マップを得る。

本願の一代替的実施例では、ニューラルネットワークの特徴抽出ブランチにより、処理対象画像に対して畳み込み操作を行い、特徴マップを得る。

一例では、ニューラルネットワークの特徴抽出ブランチにより処理対象画像に対して畳み込み操作を行うのは、畳み込みカーネルを利用して処理対象画像上において「スライド」させることをいう。例えば、畳み込みカーネルが画像の特定の画素点に対応する時、該画素点のグレースケール値を畳み込みカーネルにおける各数値に乗算し、全ての積を加算して畳み込みカーネルに対応する前記画素点のグレースケール値とし、さらに、畳み込みカーネルを次の画素点において「スライド」させ、以降同様にして、最終的には前記処理対象画像における全ての画素点の畳み込み処理を完了し、特徴マップを得る。

本実施例のニューラルネットワークの特徴抽出ブランチは複数の畳み込み層を含み得、前の畳み込み層で特徴抽出により得られた特徴マップが、次の畳み込み層の入力データとして利用可能であり、複数の畳み込み層により画像からより豊富な情報を抽出することで、特徴抽出の正確率が高まることを理解されたい。複数の畳み込み層を含むニューラルネットワークの特徴抽出ブランチにより処理対象画像に対して段階的な畳み込み操作を行うことで、処理対象画像に対応する特徴マップを得ることができる。

３０３では、上記ニューラルネットワークの候補枠抽出ブランチにより、上記特徴マップ上において、所定動作を含む可能性がある複数の候補枠を特定する。

本実施例では、ニューラルネットワークの候補枠抽出ブランチにより特徴マップを処理することで、所定動作を含む可能性がある複数の候補枠を特定する。例えば、特徴マップには手、煙草、コップ、携帯電話、眼鏡、マスク、顔の局所領域に対応する特徴の少なくとも１つが含まれ得、前記少なくとも１つの特徴に基づいて複数の候補枠を特定する。説明すべきものとして、ステップ３０２では、ニューラルネットワークの特徴抽出ブランチにより処理対象画像の特徴を抽出することができるが、抽出された特徴には所定動作に対応する特徴以外の他の特徴が含まれることがあるため、ここでのニューラルネットワークの候補枠抽出ブランチにより特定された複数の候補枠のうちに、所定動作に対応する特徴以外の他の特徴が含まれている一部の候補枠が存在する可能性があり、又は所定動作に対応する全ての特徴が含まれていない少なくとも一部の候補枠が存在する可能性があり、したがって、前記複数の候補枠が所定動作を含む可能性がある。

本実施例のニューラルネットワークの候補枠抽出ブランチは複数の畳み込み層を含み得、前の畳み込み層で抽出された特徴は次の畳み込み層の入力データとして利用され、複数の畳み込み層によってより豊富な情報が抽出され、これにより特徴抽出の正確率が高まることを理解されたい。

本願の一代替的実施例では、前記ニューラルネットワークの候補枠抽出ブランチにより、前記特徴マップにおいて所定動作を含む可能性がある複数の候補枠を特定する前記ステップは、前記所定動作の特徴に基づいて、前記特徴マップ内の特徴を分割し、複数の候補領域を得るステップと、前記複数の候補領域に基づいて、複数の候補枠と前記複数の候補枠のうちの各候補枠の第１の信頼度とを得るステップであって、前記第１の信頼度が、前記候補枠が前記動作目標枠である確率であるステップと、を含む。

本実施例では、ニューラルネットワークの候補枠抽出ブランチは、前記特徴マップを認識し、特徴マップに含まれる手部特徴及び顔の局所領域対応特徴、又は特徴マップに含まれる手部特徴、動作インタラクティブ物体対応特徴（例えば携帯電話対応特徴）及び顔の局所領域対応特徴を特徴マップから分割し、分割された特徴に基づいて候補領域を特定し、候補枠（前記候補枠は例えば矩形枠である）により前記候補領域を識別する。このように、候補枠により識別された複数の候補領域を得る。

本実施例では、ニューラルネットワークの候補枠抽出ブランチは、各候補枠に対応する第１の信頼度を特定することもでき、前記第１の信頼度は、候補枠が目標動作枠である可能性を確率の形で表すために用いられる。ニューラルネットワークの候補枠抽出ブランチにより特徴マップを処理することで、複数の候補枠が得られると共に、複数の候補枠のうちの各候補枠の第１の信頼度も得られる。前記第１の信頼度は、候補枠内の特徴に基づいてニューラルネットワークの候補枠抽出ブランチにより得られた、候補枠が目標動作枠である予測値であることを理解されたい。

３０４では、前記ニューラルネットワークの検出枠リファインメントブランチにより、前記複数の候補枠に基づいて動作目標枠を特定し、前記動作目標枠が、顔の局所領域及び動作インタラクティブ物体を含む。

本願の一代替的実施例では、前記ニューラルネットワークの検出枠リファインメントブランチにより、前記複数の候補枠に基づいて動作目標枠を特定する前記ステップは、前記ニューラルネットワークの検出枠リファインメントブランチによって、第１の信頼度が第１の閾値より小さい候補枠を除去し、少なくとも１つの第１の候補枠を得るステップと、前記少なくとも１つの第１の候補枠をプーリング処理し、少なくとも１つの第２の候補枠を得るステップと、前記少なくとも１つの第２の候補枠に基づいて、動作目標枠を特定するステップと、を含む。

本実施例では、候補枠を得るプロセスにおいて、所定動作と極めて類似する何らかの動作はニューラルネットワークの候補枠抽出ブランチに大きく干渉することがある。図４の左から右の画像では、目標対象は電話かけ、飲水及び喫煙などと類似する動作を順に行い、これらの動作は類似しており、いずれも頬のあたりに右手を当てる動作であるが、目標対象の手には携帯電話、コップ及び煙草がない。しかし、ニューラルネットワークは目標対象のこれらの動作を電話かけ、飲水及び喫煙として誤認識しやすい。一方、所定動作が所定の危険運転動作である場合、車両運転中に、運転者により例えば耳部領域が痒くて耳を掻く動作、又は他の理由から口を開く動作又は唇に手を当てる動作がなされていることがあり、これらの動作は所定の危険運転動作に該当しないことが明らかであるが、これらの動作は、ニューラルネットワークの候補枠抽出ブランチによる候補枠抽出のプロセスに大きく干渉し、さらに後続の動作分類に影響を及ぼし、誤った動作認識結果をもたらす。

本願の実施例では、事前トレーニングによって、ニューラルネットワークの検出枠リファインメントブランチを得て、第１の信頼度が第１の閾値より小さい候補枠を除去し、少なくとも１つの第１の候補枠を得る。前記少なくとも１つの第１の候補枠の第１の信頼度はいずれも第１の閾値以上である。ここで、候補枠の第１の信頼度が第１の閾値より小さい場合、該候補枠は上記類似動作の候補枠であり、該候補枠を除去する必要がある。これにより所定動作と類似動作を効果的に区別することができ、その上、誤検出率が低下し、動作認識結果の正確率が大幅に高まる。ここで、上記第１の閾値は例えば０．５とすることができるが、当然のことながら、本願の実施例における前記第１の閾値の値はこれに限定されない。

本願の一代替的実施例では、前記少なくとも１つの第１の候補枠をプーリング処理し、少なくとも１つの第２の候補枠を得る前記ステップは、前記少なくとも１つの第１の候補枠をプーリング処理し、前記少なくとも１つの第１の候補枠に対応する少なくとも１つの第１の特徴領域を得るステップと、各第１の特徴領域に基づいて、対応する第１の候補枠の位置及び大きさを調整し、少なくとも１つの第２の候補枠を得るステップと、を含む。

本実施例では、第１の候補枠が位置する領域内の特徴の量が多いことがあり、第１の候補枠が位置する領域内の特徴をそのまま使用すると、計算量は膨大となる。したがって、第１の候補枠が位置する領域内の特徴に対して後続の処理を行う前に、後続の処理プロセスにおける計算量に対する要件を満たし、後続処理の計算量を大幅に低減させるように、まず第１の候補枠をプーリング処理し、即ち、第１の候補枠が位置する領域内の特徴をプーリング処理し、第１の候補枠が位置する領域内の特徴の次元を削減する。ステップ３０３における候補領域の取得と同様に、所定動作の特徴に基づいて上記プーリング処理された特徴を分割し、複数の第１の特徴領域を得る。本実施例では、第１の候補枠に対応する領域をプーリング処理することで、第１の特徴領域内の所定動作に対応する特徴が低次元の形で表現されることが理解される。

一例として、プーリング処理の具体的な実現プロセスは下記のようになる。第１の候補枠の大きさをｈ＊ｗで表し、そのうち、ｈは第１の候補枠の高さを表すことができ、ｗは第１の候補枠の幅を表すことができるものとすると、所望の特徴の目標寸法がＨ＊Ｗである場合、該第１の候補枠をＨ＊Ｗ個の格子に分割し、各格子の大きさを（ｈ／Ｈ）＊（ｗ／Ｗ）で表すことができ、その後、各格子における画素点の平均グレースケール値を計算し、又は各格子における最大グレースケール値を特定し、前記平均グレースケール値又は前記最大グレースケール値を各格子に対応する値とし、第１の候補枠のプーリング処理結果を得る。

本願の一代替的実施例では、各第１の特徴領域に基づいて、対応する第１の候補枠の位置及び大きさを調整し、少なくとも１つの第２の候補枠を得る前記ステップは、前記第１の特徴領域内の前記所定動作に対応する特徴に基づいて、前記所定動作の特徴に対応する第１の動作特徴枠を得るステップと、前記第１の動作特徴枠の幾何中心座標に基づいて、前記少なくとも１つの第１の候補枠の第１の位置オフセットを得るステップと、前記第１の動作特徴枠の大きさに基づいて、前記少なくとも１つの第１の候補枠の第１のズーム倍率を得るステップと、少なくとも１つの第１の位置オフセット及び少なくとも１つの第１のズーム倍率に基づいて、前記少なくとも１つの第１の候補枠の位置及び大きさをそれぞれ調整し、少なくとも１つの第２の候補枠を得るステップと、を含む。

本実施例では、後続の処理を容易にするために、各第１の特徴領域内の所定動作に対応する特徴をそれぞれ第１の動作特徴枠により識別し、前記第１の動作特徴枠は具体的には矩形枠であり得、例えば、矩形枠により各第１の特徴領域内の所定動作に対応する特徴を識別する。

本実施例では、事前に確立されたＸＯＹ座標系における第１の動作特徴枠の幾何中心座標を得て、幾何中心座標に基づいて、前記第１の動作特徴枠に対応する第１の候補枠の第１の位置オフセットを特定する。ここで、ＸＯＹ座標系は、一般的には座標原点Ｏを設定し、水平方向をＸ軸とし、Ｘ軸に垂直な方向をＹ軸とするように確立された座標系である。第１の動作特徴枠が、所定動作の特徴に基づいて第１の特徴領域から特定されたものであり、第１の特徴領域が、所定動作の特徴に基づいて第１の候補枠から分割して特定されたものであるため、第１の動作特徴枠の幾何中心と第１の候補枠の幾何中心は通常、一定のずれが存在し、前記ずれに基づいて第１の候補枠の第１の位置オフセットを特定する。一例として、第１の動作特徴枠の幾何中心と、同様の所定動作の特徴に対応する第１の候補枠の幾何中心との間のオフセットは、前記第１の候補枠の第１の位置オフセットとなり得る。

ここで、同様の所定動作の特徴に対応する第１の候補枠の数が複数である場合、第１の候補枠ごとに第１の位置オフセットが対応されており、前記第１の位置オフセットは、Ｘ軸方向の位置オフセットとＹ軸方向のオフセットを含む。ここで一例として、ＸＯＹ座標系は、第１の特徴領域の左上隅（ニューラルネットワークの候補枠リファインメントブランチに入力される方位を基準とする）を座標原点とし、水平右方向をＸ軸の正方向とし、鉛直下方向をＹ軸の正方向とする座標系である。他の例では、第１の特徴領域の左下隅、右上隅、右下隅又は第１の特徴領域の中心点を原点とし、水平右方向をＸ軸の正方向とし、鉛直下方向をＹ軸の正方向とするようにしてもよい。

本実施例では、第１の動作特徴枠の寸法を取得し、具体的には第１の動作特徴枠の長さ及び幅を取得し、第１の動作特徴枠の長さ及び幅に基づいて対応する第１の候補枠の第１のズーム倍率を特定する。一例では、第１の動作特徴枠の長さと幅、及び対応する第１の候補枠の長さと幅に基づいて前記第１の候補枠の第１のズーム倍率を特定することができる。ここで、第１の候補枠ごとに第１のズーム倍率が対応付けられ、異なる第１の候補枠の第１のズーム倍率は同一であってもよく、異なってもよい。

本実施例では、各第１の候補枠に対応する第１の位置オフセット及び第１のズーム倍率に基づいて前記第１の候補枠の位置及び大きさを調整する。一実施形態として、第１の候補枠を上記第１の位置オフセットで移動させ、且つ第１の候補枠を、幾何中心が中心となるようにし、第１のズーム倍率で寸法を調整し、第２の候補枠を得る。第２の候補枠の数は第１の候補枠の数と一致することを理解されたい。以上のようにして得られた第２の候補枠は、可能な限り小さい寸法で所定動作の全ての特徴を含むようになり、後続の動作分類結果の正確度の向上に寄与する。

本実施例では、複数の第２の候補枠のうち、寸法に大差がなく、且つ幾何中心との距離に大差がない第２の候補枠を合併し、合併後の第２の候補枠を動作目標枠とすることができる。同一の所定動作に対応する第２の候補枠の寸法及び幾何中心との距離に大差がないため、各所定動作は１つの動作目標枠に対応してもよいことを理解されたい。

一例として、運転者は電話で通話しながら喫煙しており、この場合、得られた処理対象画像には電話かけ及び喫煙という２つの所定動作に対応する特徴が含まれ得る。上記のように処理することで、電話かけという所定動作に対応する特徴が含まれる候補枠を得ることができ、前記候補枠には手部、携帯電話及び顔の局所領域が含まれ、また喫煙という所定動作に対応する特徴が含まれる候補枠を得ることもでき、前記候補枠には手部、煙草及び顔の局所領域が含まれる。電話かけという所定動作に対応する候補枠、及び喫煙という所定動作に対応する候補枠の両方とも複数である可能性があるが、電話かけという所定動作に対応する全ての候補枠が、寸法及び幾何中心との距離に大差がなく、喫煙という所定動作に対応する全ての候補枠が、寸法およい幾何中心との距離に大差がなく、同時に電話かけという所定動作に対応するいずれか１つの候補枠の寸法と喫煙という所定動作に対応するいずれか１つの候補枠の寸法との差は、電話かけという所定動作に対応するいずれか２つの候補枠間の寸法の差より大きく、また喫煙という所定動作に対応するいずれか２つの候補枠間の寸法の差よりも大きく、そして電話かけという所定動作に対応するいずれか１つの候補枠と喫煙という所定動作に対応するいずれか１つの候補枠との幾何中心との距離は、電話かけという所定動作に対応するいずれか２つの候補枠の幾何中心との距離より大きく、また喫煙という所定動作に対応するいずれか２つの候補枠の幾何中心との距離よりも大きい。電話かけという所定動作に対応する全ての候補枠を合併し、１つの動作目標枠を得て、喫煙という所定動作に対応する全ての候補枠を合併し、別の動作目標枠を得る。このように、２つの所定動作に対応して、それぞれ２つの動作目標枠を得る。

３０５では、前記ニューラルネットワークの動作分類ブランチにより、上記特徴マップ上の上記動作目標枠に対応する領域マップを取得し、前記領域マップに基づいて所定動作を分類し、動作認識結果を得る。

本実施例では、ニューラルネットワークの動作分類ブランチは、特徴マップから分割された前記動作目標動作枠に対応する領域に基づいて領域マップを得て、前記領域マップ内の特徴に基づいて所定動作を分類し、第１の動作認識結果を得て、そして全ての目標動作枠に対応する第１の動作認識結果に基づいて、処理対象画像に対応する動作認識結果を得る。

本願の一代替的実施例において、ニューラルネットワークの動作分類ブランチにより第１の動作認識結果が得られ、一方、ニューラルネットワークの動作分類ブランチにより、さらに前記第１の動作認識結果の第２の信頼度も得られ、前記第２の信頼度は、前記動作認識結果の正確率を表すものである。この場合、全ての目標動作枠に対応する第１の動作認識結果に基づいて、処理対象画像に対応する動作認識結果を得る前記ステップは、各目標動作枠に対応する第１の動作認識結果の第２の信頼度と設定閾値とを比較し、第２の信頼度が前記設定閾値より大きい第１の動作結果を得て、第２の信頼度が前記設定閾値より大きい第１の動作結果に基づいて前記処理対象画像に対応する動作認識結果を特定する。

例えば、車載カメラにより運転者を撮影し、運転者の顔が含まれる画像を取得し、処理対象画像としてニューラルネットワークに入力する。処理対象画像内の運転者には「電話かけ」の動作が対応付けられ、ニューラルネットワークの処理により、「電話かけ」の動作認識結果及び「飲水」の動作認識結果という２つの動作認識結果が得られ、そのうち、「電話かけ」の動作認識結果の第２の信頼度は０．８、「飲水」の動作認識結果の第２の信頼度は０．４であると仮定すると、設定閾値が０．６である場合、前記処理対象画像の動作認識結果を「電話かけ」の動作として特定できる。

本実施例では、動作認識結果が特定の所定動作である場合、前記方法は、リマインディング情報を出力するステップをさらに含むことができる。ここで、前記特定の所定動作は、運転者の車両運転中に運転に危険を及ぼし得る危険運転動作であり得る。前記危険運転動作は、運転者自身の動作であってもよく、運転室内の他の人の動作であってもよい。ここで、リマインディング情報を出力する前記ステップは、オーディオ、ビデオ、文字の少なくとも１つの方式でリマインディング情報を出力してもよい。例えば、端末によって車両乗員（例えば運転者及び／又は車内の他の人）にリマインディング情報を出力してもよく、リマインディング情報の出力方式は、端末の文字表示による注意喚起、端末の音声データ出力による注意喚起などであり得る。ここで、前記端末は車載端末であり得、任意選択的に、端末は表示画面及び／又はオーディオ出力の機能を備え得る。

ここで、特定の所定動作は飲水、電話かけ、眼鏡かけなどである。ニューラルネットワークにより得られた動作認識結果が上記特定の所定動作のいずれか１つ又は複数である場合、リマインディング情報を出力し、さらに特定の所定動作（例えば危険運転動作）の種別も出力できる。特定の所定動作が検出されていない場合、リマインディング情報を出力しなくてもよく、又は所定動作の種別を出力してもよい。

一例として、得られた動作認識結果には特定の所定動作（例えば危険運転動作）が含まれる場合、ヘッドアップディスプレイ（ｈｅａｄｕｐｄｉｓｐｌａｙ、ＨＵＤ）によってダイアログボックスを表示させ、表示内容で運転者にリマインディング情報を発信してもよく、車両に搭載されたオーディオ出力の機能によってリマインディング情報、例えば「運転動作に気を付けてください」などのオーディオ情報を出力してもよい。また意識をはっきりさせる効果がある気体を放出、例えば、車載噴霧ノズルによってオーデコロンを噴霧させるようにリマインディング情報を出力してもよい。オーデコロンはすがすがしい香りをして心地良く、運転者に対して注意喚起を行うと共に、意識をはっきりさせる効果も生じる。さらに、注意喚起及び警告の目的を達成するよう、座席から低電流を放出して運転者に刺激を与えるようにリマインディング情報を出力してもよい。

本願の実施例では、ニューラルネットワークの特徴抽出ブランチにより処理対象画像の特徴抽出を行い、次にニューラルネットワークの候補枠抽出ブランチにより、抽出された特徴に基づいて所定動作を含む可能性がある候補枠を取得し、その後ニューラルネットワークの検出枠リファインメントブランチにより動作目標枠を特定し、最後にニューラルネットワークの動作分類ブランチにより目標動作枠内の特徴に対して所定動作の分類を行い、処理対象画像の動作認識結果を得る。全認識プロセスにおいて、処理対象画像内の特徴を抽出（例えば手部領域、顔の局所領域、動作インタラクティブ物体対応領域の特徴抽出）し、処理することで、微細動作に対する正確な認識を自律的且つ迅速に実現することができる。

本願の実施例はさらに、運転動作分析方法を提供する。図５は本願の実施例が提供する運転動作分析方法のフローチャートである。図５に示すように、前記方法は、
車載カメラによって、運転者の顔画像を含むビデオストリームを収集するステップ４０１と、
前記ビデオストリーム内の少なくとも１フレームの画像の動作認識結果を得るステップ４０２と、
動作認識結果が所定条件を満たすことに応答して、危険運転のリマインディング情報を生成するステップ４０３と、を含む。

本実施例では、車載カメラにより運転者をビデオ撮影し、ビデオストリームを取得し、且つビデオストリームの各フレーム画像を処理対象画像とする。フレーム画像ごとに動作認識を行うことで、対応する動作認識結果を得て、その後、連続した複数フレームの画像の動作認識結果を踏まえて運転者の運転状態を認識し、運転状態が危険運転動作に対応する危険運転状態であるか否かを特定する。ここで、複数フレームの画像に対する動作認識の処理プロセスは上記実施例の記載を参照すればよく、ここでは繰り返して詳述しない。

本願の一代替的実施例では、前記所定条件は、特定の所定動作が現れること、所定時間内で特定の所定動作が現れる回数、前記ビデオストリームに現れている特定の所定動作の持続時間の少なくとも１つを含む。

本実施例では、前記特定の所定動作は、前記実施例に記載の所定動作の種別のうち危険運転動作、例えば運転者の飲水動作、電話かけ動作などに対応する所定動作であり得る。動作認識結果が所定条件を満たすことに応答する前記ステップは、動作認識結果に特定の所定動作が含まれる場合、動作認識結果が所定条件を満たすと判定すること、又は動作認識結果に特定の所定動作が含まれ、且つ所定時間内で前記特定の所定動作が現れる回数が所定回数に達した場合、動作認識結果が所定条件を満たすと判定すること、又は動作認識結果に特定の所定動作が含まれ、且つ前記ビデオストリームに現れている前記特定の所定動作の持続時間が所定時間長に達した場合、動作認識結果が所定条件を満たすと判定することを含む。

例えば、運転者の飲水、電話かけ、眼鏡かけのいずれか１つの動作が検出されると、車載端末により危険運転のリマインディング情報を生成して出力することができ、さらに特定の所定動作の種別を出力することもできる。ここで、危険運転のリマインディング情報の出力方式は、車載端末の文字表示による危険運転のリマインディング情報出力、車載端末のオーディオ出力機能による危険運転のリマインディング情報出力を含み得る。

本願の一代替的実施例では、前記方法は、車載デュアルカメラが設けられている車両の車速を取得するステップをさらに含み、動作認識結果が所定条件を満たすことに応答して、危険運転のリマインディング情報を生成する前記ステップは、前記車速が設定閾値より大きく且つ前記動作認識結果が前記所定条件を満たすことに応答して、危険運転のリマインディング情報を生成するステップを含む。

本実施例では、車速が設定閾値以下である場合、動作認識結果が前記所定条件を満たしても危険運転のリマインディング情報を生成及び出力しないようにしてもよい。車速が設定閾値より大きい場合のみ、動作認識結果が前記所定条件を満たす時危険運転のリマインディング情報を生成して出力する。

本実施例では、車載カメラにより運転者をビデオ撮影し、撮影されたビデオの各フレーム画像を処理対象画像とする。カメラにより撮影された各フレーム画像を認識することで、対応する認識結果を得て、その後、連続した複数フレームの画像の結果を踏まえて運転者の動作を認識する。運転者の飲水、電話かけ、眼鏡かけのいずれか１つの動作が検出されると、表示端末によって運転者に警告を行い、危険運転動作の種別を提示することができる。警告の方式は、ポップアップダイアログボックスの文字による警告、内蔵の音声データによる警告を含む。

本願の実施例のニューラルネットワークは、トレーニング画像セットに基づいて事前に教師ありトレーニングを行って得られたものであり、前記ニューラルネットワークは畳み込み層、非線形層、プーリング層などのネットワーク層を含み得、本願の実施例は具体的なネットワーク構造を制限しない。ニューラルネットワーク構造を決定した後、ラベリング情報付きのサンプル画像に基づいて、教師あり方式でニューラルネットワークに対して勾配バックプロパゲーションなどの方法による反復トレーニングを行うことができ、具体的なトレーニング方式について本願の実施例は制限しない。

図６は本願の実施例が提供するニューラルネットワークのトレーニング方法のフローチャートであり、図６に示すように、前記方法は以下を含む。

５０１では、サンプル画像の第１の特徴マップを抽出する。

本実施例では、複数のサンプル画像が含まれ得るトレーニング画像セットから、ニューラルネットワークをトレーニングするためのサンプル画像を取得することができる。

本願の一代替的実施例では、前記トレーニング画像セット内のサンプル画像は正サンプル画像及び負サンプル画像を含む。前記正サンプル画像は、例えば目標対象の飲水、喫煙、電話かけ、眼鏡かけ、マスク着用など目標対象に対応する少なくとも１つの所定動作を含む。前記負サンプル画像は、例えば目標対象の唇に手を当てる動作、耳を掻く動作、鼻を触る動作など所定動作と類似する少なくとも１つの動作を含む。

本実施例では、所定動作と極めて類似する動作が含まれるサンプル画像を負サンプル画像とし、ニューラルネットワークに対して正サンプル画像及び負サンプル画像を区別するためのトレーニングを行うことで、トレーニング後のニューラルネットワークは所定動作と類似する動作を効率よく区別することができ、動作分類結果の正確率及びロバスト性が大幅に向上する。

本実施例では、ニューラルネットワークにおける畳み込み層によりサンプル画像の第１の特徴マップを抽出することができる。ここで、サンプル画像の第１の特徴マップを抽出する詳細なプロセスは上記ステップ３０２の記載を参照すればよく、ここでは繰り返して詳述しない。

５０２では、所定動作を含む可能性がある第１の特徴マップの複数の第３の候補枠を抽出する。

本ステップの詳細なプロセスは前述した実施例のステップ３０３の記載を参照すればよく、ここでは繰り返して詳述しない。

５０３では、前記複数の第３の候補枠に基づいて動作目標枠を特定する。

本願の一代替的実施例では、複数の第３の候補枠に基づいて動作目標枠を特定する前記ステップは、前記所定動作に基づいて第１の動作監視枠を得るステップであって、前記第１の動作監視枠が、顔の局所領域及び動作インタラクティブ物体を含むか、又は顔の局所領域、手部領域及び動作インタラクティブ物体を含むステップと、前記複数の第３の候補枠の第２の信頼度を得るステップであって、前記第２の信頼度が、前記第３の候補枠が前記動作目標枠である第１の確率、及び前記第３の候補枠が前記動作目標枠でない第２の確率を含むステップと、前記複数の第３の候補枠と前記第１の動作監視枠の面積重なり具合を特定するステップと、前記面積重なり具合が第２の閾値以上である場合、前記面積重なり具合に対応する前記第３の候補枠の前記第２の信頼度を前記第１の確率とし、前記面積重なり具合が前記第２の閾値より小さい場合、前記面積重なり具合に対応する前記第３の候補枠の前記第２の信頼度を前記第２の確率とするステップと、前記第２の信頼度が前記第１の閾値より小さい前記複数の第３の候補枠を除去し、複数の第４の候補枠を得るステップと、前記第４の候補枠の位置及び大きさを調整し、前記動作目標枠を得るステップと、を含む。

本実施例では、顔に関わる微細動作の認識について、事前に所定動作の特徴を定義することができる。例えば、飲水の動作特徴は、手部領域、顔の局所領域及びコップ領域（即ち、動作インタラクティブ物体対応領域）の特徴を含む。喫煙の動作特徴は、手部領域、顔の局所領域及び煙草領域（即ち、動作インタラクティブ物体対応領域）の特徴を含む。電話かけの動作特徴は、手部領域、顔の局所領域及び携帯電話領域（即ち、動作インタラクティブ物体対応領域）の特徴を含む。眼鏡かけの動作特徴は、手部領域、顔の局所領域及び眼鏡領域（即ち、動作インタラクティブ物体対応領域）の特徴を含む。マスク着用の動作特徴は、手部領域、顔の局所領域、マスク領域（即ち、動作インタラクティブ物体対応領域）の特徴を含む。

本実施例では、前記サンプル画像のラベリング情報は、動作監視枠、及び前記動作監視枠に対応する動作種別を含む。ニューラルネットワークにより前記サンプル画像を処理する前に、各サンプル画像に対応するラベリング情報を得る必要があることが理解される。ここで、前記動作監視枠は具体的にサンプル画像内の所定動作を識別するために用いられ、具体的には図７における目標対象の飲水の動作監視枠及び図８における目標対象の電話かけの動作監視枠を参照すればよい。

所定動作と極めて類似する動作は、ニューラルネットワークによる候補枠抽出のプロセスに大きく干渉する傾向がある。例えば、図４において左から右へ、順に電話かけ、飲水及び喫煙と類似する動作が行われ、即ち、目標対象は頬のあたりの異なる部位に右手をそれぞれ当てていたが、この時目標対象の手には携帯電話、コップ及び煙草がなかった。しかし、ニューラルネットワークはこれらの動作を電話かけ、飲水及び喫煙として誤認識し、対応する候補枠をそれぞれ識別してしまいやすい。したがって、本願の実施例では、ニューラルネットワークに対して正サンプル画像及び負サンプル画像を区別するためのトレーニングを行っており、正サンプル画像に対応する第１の動作監視枠には所定動作が含まれ得、負サンプル画像に対応する第１の動作監視枠にはさらに所定動作と類似する動作も含まれる。

本実施例では、ニューラルネットワークにより第３の候補枠を識別すると共に、前記第３の候補枠に対応する第２の信頼度を得ることができ、第２の信頼度は、前記第３の候補枠が動作目標枠である第１の確率、及び該第３の候補枠が動作目標枠でない第２の確率を含む。このように、ニューラルネットワークにより複数の第３の候補枠を得ると共に、さらに各第３の候補枠の第２の信頼度も得る。第２の信頼度は、第３の候補枠内の特徴に基づいてニューラルネットワークにより得られた、第３の候補枠が目標動作枠である予測値であることを理解されたい。また、第３の候補枠及び第２の信頼度を得ると共に、ニューラルネットワークの処理により座標系ｘｏｙにおける第３の候補枠の座標（ｘ３，ｙ３）、及び前記第３の候補枠の寸法を得ることができ、前記第３の候補枠の寸法は長さと幅の積で表され得る。ここで、前記第３の候補枠の座標（ｘ３，ｙ３）は、前記第３の候補枠の１つの頂点の座標、例えば前記第３の候補枠の左上隅、右上隅、左下隅又は右下隅の頂点の座標であり得る。前記第３の候補枠の座標（ｘ３，ｙ３）が第３の候補枠の左上隅の頂点の座標であることを例にすると、第３の候補枠の右上隅の横座標ｘ４と左下隅の縦座標ｙ４を得て、さらに第３の候補枠をｂｂｏｘ（ｘ３，ｙ３，ｘ４，ｙ４）で表すことができる。同様に、前記第１の動作監視枠はｂｂｏｘ＿ｇｔ（ｘ１，ｙ１，ｘ２，ｙ２）で表すことができる。

本実施例では、第３の候補枠の各集合ｂｂｏｘ（ｘ３，ｙ３，ｘ４，ｙ４）のそれぞれと第１の動作監視枠ｂｂｏｘ＿ｇｔ（ｘ１，ｙ１，ｘ２，ｙ２）の面積重なり具合

が特定され、任意選択的に、面積重なり具合

の計算式は下記のようになる。

（１）

式中、

、

はそれぞれ第３の候補枠の面積、第１の動作監視枠の面積を表し、

は第３の候補枠と第１の動作監視枠の重なり領域の面積を表し、

は第３の候補枠及び第１の動作監視枠に含まれる全ての領域の面積を表す。

面積重なり具合

が第２の閾値以上である場合、第３の候補枠を所定動作を含む可能性がある候補枠として判定し、この第３の候補枠の第２の信頼度を上記第１の確率とする。面積重なり具合

が前記第２の閾値より小さい場合、この第３の候補枠を所定動作が含まれ得ない候補枠として判定し、該第３の候補枠の第２の信頼度を上記第２の確率とする。ここで、前記第２の閾値の値は０以上且つ１以下であり、前記第２の閾値の具体的な値はネットワークのトレーニング効果に応じて決定することができる。

本実施例では、第２の信頼度が前記第１の閾値より小さい前記複数の第３の候補枠を除去し、複数の第４の候補枠を得て、そして前記第４の候補枠の位置及び大きさを調整し、前記動作目標枠を得ることができる。ここで、動作目標枠を得る方法について、詳しくは前述した実施例のステップ３０４の記載を参照すればよい。

ここで、前記第４の候補枠の位置及び大きさを調整し、前記動作目標枠を得る前記ステップは、第４の候補枠をプーリング処理し、前記第４の候補枠に対応する第２の特徴領域を得るステップと、前記第２の特徴領域に基づいて対応する第４の候補枠の位置及び大きさを調整し、第５の候補枠を得るステップと、前記第５の候補枠に基づいて動作目標枠を得るステップと、を含む。ここで、前記第２の特徴領域に基づいて対応する第４の候補枠の位置及び大きさを調整し、第５の候補枠を得る前記ステップは、所定動作に対応する前記第２の特徴領域内の特徴に基づいて前記所定動作の特徴に対応する第２の動作特徴枠を得るステップと、前記第２の動作特徴枠の幾何中心座標に基づいて、前記第４の候補枠の第２の位置オフセットを得るステップと、前記第２の動作特徴枠の大きさに基づいて、前記第４の候補枠の第２のズーム倍率を得るステップと、前記第２の位置オフセット及び前記第２のズーム倍率に基づいて、前記第４の候補枠の位置及び大きさを調整し、第５の候補枠を得るステップと、を含む。

本実施例では、座標系ｘｏｙにおける上記第４の候補枠の幾何中心座標

、及び座標系ｘｏｙにおける第２の動作特徴枠の幾何中心座標

をそれぞれ取得し、第４の候補枠の幾何中心と第２の動作特徴枠の幾何中心との第２の位置オフセット

を求め、式中、

は正の整数であり、ｎの数は第４の候補枠の数と一致する。

は複数の第４の候補枠の第２の位置オフセットである。

本実施例では、第４の候補枠及び第２の動作特徴枠の寸法をそれぞれ取得し、その後、第２の動作特徴枠の寸法を第４の候補枠の寸法で除算することで、第４の候補枠の第２のズーム倍率

を得る。ここで、第２のズーム倍率

は、第４の候補枠の長さのズーム倍率

及び幅のズーム倍率

を含む。

第４の候補枠の幾何中心座標の集合が

で表されると仮定すると、第２の位置オフセット

から、幾何中心の位置調整後の第４の候補枠の幾何中心座標の集合

が得られ、この場合、

（２）
。また、第４の候補枠の幾何中心の位置を調整する時、前記第４の候補枠の長さ及び幅は不変のままであることを理解されたい。

幾何中心の位置が調整された１つ以上の第４の候補枠を得た後、第４の候補枠の幾何中心を一定とし、前記第２のズーム倍率

に基づいて前記第４の候補枠の長さを

倍に調整し、幅を

倍に調整し、第５の候補枠を得る。

本実施例では、前記第５の候補枠に基づいて動作目標枠を得る前記ステップは、寸法及び距離が近い複数の第５の候補枠を合併し、合併後の第５の候補枠を動作目標枠とするステップを含む。同一の所定動作に対応する第５の候補枠の大きさ及び距離が極めて近いため、合併後の各動作目標枠は単に１つの所定動作に対応するようになる。

本願の一代替的実施例では、ニューラルネットワークの処理により動作目標枠が得られると共に、前記動作目標枠の第３の信頼度も得られ、第３の信頼度は、前記動作目標枠内の動作が所定の動作種別である第３の確率を表す。例えば、上記所定動作は、飲水、喫煙、電話かけ、眼鏡かけ、マスク着用の５つの種別を含み得、この場合、各動作目標枠の第３の確率はいずれも５つの確率値を含み、それぞれ動作目標枠内の動作の、飲水動作である確率

、喫煙動作である確率

、電話かけの動作である確率

、眼鏡かけの動作である確率

及びマスク着用の動作である確率

となる。

ステップ５０４では、前記動作目標枠に基づいて所定動作を分類し、動作認識結果を得る。

本実施例では、動作目標枠に含まれる所定動作が飲水、喫煙、電話かけ、眼鏡かけ、マスク着用の５つの種別を含む場合を例にして、動作目標枠の第３の信頼度はそれぞれ

、

であると仮定すると、動作認識結果はマスク着用の動作となり得る。この場合、本実施例では、動作認識結果として、異なる所定動作に対応する動作目標枠の第３の信頼度（即ち、第３の確率）から、第３の信頼度（即ち、第３の確率）が最も大きい所定動作の種別を選定することができる。ここで、最大の第３の信頼度（即ち、第３の確率）は第４の確率と記すことができる。

ステップ５０５では、前記サンプル画像の候補枠の検出結果と検出枠のラベリング情報の第１の損失、及び動作認識結果と動作種別ラベリング情報の第２の損失を特定する。

ステップ５０６では、前記第１の損失及び前記第２の損失に基づいて、前記ニューラルネットワークのネットワークパラメータを調整する。

本実施例では、ニューラルネットワークは、ニューラルネットワークの特徴抽出ブランチ、ニューラルネットワークの候補枠抽出ブランチ、ニューラルネットワークの検出枠リファインメントブランチ及びニューラルネットワークの動作分類ブランチを含み得、上記ニューラルネットワークの各ブランチの機能について、詳細は前述した実施例のステップ３０１からステップ３０５の記載を参照すればよい。

本実施例では、候補枠の座標回帰損失関数

及び種別損失関数

を計算することでニューラルネットワークのネットワークパラメータを更新する。

任意選択的に、候補枠抽出の損失関数（ＲｅｇｉｏｎＰｒｏｐｏｓａｌＬｏｓｓ）の表現式は下記のようになる。

（３）

式中、

と

はいずれもニューラルネットワークの候補枠抽出ブランチの重みパラメータであり、

は教師変数である。

種別損失関数

及び候補枠の座標回帰損失関数

の具体的な表現式は下記のようになる。

（４）

（５）

式中、

。

ニューラルネットワークの検出枠リファインメントブランチは、損失関数によりネットワークの重みパラメータが更新され、損失関数（ＢｂｏｘＲｅｆｉｎｅＬｏｓｓ）の具体的な表現式は下記のようになる。

（６）

式中、

は第６の候補枠の数で、

はニューラルネットワークの検出枠リファインメントブランチの重みパラメータで、

は教師変数であり、

損失関数及び

損失関数の表現式は式（４）及び式（５）に示されるとおりであり、特に、式（６）における

はリファインされた動作目標枠の幾何中心座標であり、

は動作監視枠の幾何中心座標である。

本実施例では、損失関数はニューラルネットワークが最適化された目的関数であり、ニューラルネットワークのトレーニング又は最適化のプロセスは、損失関数を最小化するプロセスであり、即ち、損失関数値が０に近づくほど、対応する予測結果は実際の結果の値に近くなる。

本実施例では、第４の候補枠の第２の信頼度で式（３）及び式（４）における教師変数

を代替して式（３）に代入し、そしてニューラルネットワークの候補枠抽出ブランチの重みパラメータ

と

を調整することでＲｅｇｉｏｎＰｒｏｐｏｓａｌＬｏｓｓの値（即ち、第１の損失）を変え、且つＲｅｇｉｏｎＰｒｏｐｏｓａｌＬｏｓｓの値が０に最も近づくように重みパラメータ

と

の組み合わせを選定する。

本実施例では、動作目標枠の第４の確率（即ち、複数の第３の信頼度（即ち、第３の確率）のうちの最大値）で教師変数

を代替して式（６）に代入し、そしてニューラルネットワークの検出枠リファインメントブランチの重みパラメータ

を調整することでＢｂｏｘＲｅｆｉｎｅＬｏｓｓの値（即ち、第２の損失）を変え、且つＢｂｏｘＲｅｆｉｎｅＬｏｓｓの値が０に最も近づくように重みパラメータ

を選定し、勾配バックプロパゲーションの方式でニューラルネットワークの検出枠リファインメントブランチの重みパラメータの更新を行う。

重みパラメータが更新された候補枠抽出ブランチ、重みパラメータが更新された検出枠リファインメントブランチ、特徴抽出ブランチ、及び動作分類ブランチを再びトレーニングし、即ち、ニューラルネットワークにサンプル画像を入力し、ニューラルネットワークによる処理によって、最終的にニューラルネットワークの動作分類ブランチから認識結果を出力する。動作分類ブランチの出力結果と実際の結果との間に誤差があるため、動作分類ブランチの出力値と実際値との間の誤差を、入力層に伝播するまで、出力層から畳み込み層へ逆伝播する。逆伝播のプロセスにおいて、誤差に応じてニューラルネットワークにおける重みパラメータを調整し、収束するまで上記プロセスを反復し、ニューラルネットワークのネットワークパラメータの再更新を完了する。

本実施例では、動作特徴に基づいて車両乗員の顔の微細動作、例えば手及び顔に関わる運転者の危険運転動作を認識する。しかし実際の応用時には、運転者によりなされた、危険運転動作と類似する動作はニューラルネットワークに干渉しやすく、後続の動作に対する分類認識に影響を及ぼし、結果として動作認識結果の正確度が低下するだけでなく、ユーザ体験も劇的に低下することとなる。本実施例では、正サンプル画像及び負サンプル画像をニューラルネットワークのトレーニングに用いられるサンプル画像とし、損失関数を教師とし、勾配バックプロパゲーションの方式でニューラルネットワークのネットワークパラメータ（特にニューラルネットワークの特徴抽出ブランチ及びニューラルネットワークの候補枠抽出ブランチの重みパラメータ）を更新してトレーニングを完了させ、トレーニング後のニューラルネットワークの特徴抽出ブランチを、危険運転動作の特徴を正確に抽出可能にし、さらにニューラルネットワークの候補枠抽出ブランチにより、所定動作（例えば危険運転動作）と類似する動作が含まれる候補枠を自動的に除去し、危険運転動作の誤検出率が大幅に低下する。

また、ニューラルネットワークの候補枠抽出ブランチから出力された動作候補枠は寸法が大きく、そのまま後続の処理を行うと、計算量が大きくなる。本実施例では、候補枠をプーリング処理し、所定寸法に調整することで、後続処理の計算量が大きく減少し、処理速度が高まる。ニューラルネットワークの検出枠リファインメントブランチにより候補枠のリファインを行い、これによりリファインされた動作目標枠は所定動作（例えば危険運転動作）の特徴のみを含み、認識結果の正確率が高まる。

図９は本願の実施例が提供する動作認識装置の構造模式図であり、該認識装置１０００は、
顔が含まれる画像内の特徴を抽出するための第１の抽出ユニット１１と、
前記特徴に基づいて、所定動作を含む可能性がある複数の候補枠を特定するための第２の抽出ユニット１２と、
前記複数の候補枠に基づいて動作目標枠を特定するための特定ユニット１３であって、前記動作目標枠が、顔の局所領域及び動作インタラクティブ物体を含む特定ユニット１３と、
前記動作目標枠に基づいて所定動作を分類し、動作認識結果を得るための分類ユニット１４と、を含む。

本願の一代替的実施例では、前記顔の局所領域は、口部領域、耳部領域、眼部領域の少なくとも１つを含む。

本願の一代替的実施例では、前記動作インタラクティブ物体は、容器、煙草、携帯電話、食べ物、工具、飲料ボトル、眼鏡、マスクの少なくとも１つを含む。

本願の一代替的実施例では、動作認識装置１０００は、車両乗員の顔が含まれる画像を撮影するための車載カメラをさらに含む。

本願の一代替的実施例では、前記車両乗員は、前記車両の運転領域の運転者、前記車両の助手席領域の人、前記車両の後部座席の人の少なくとも１つを含む。

本願の一代替的実施例では、前記車載カメラはＲＧＢカメラ、赤外線カメラ又は近赤外線カメラである。

本願の実施例では、処理対象画像に対して特徴抽出を行い、抽出された特徴に基づいて処理対象画像内の動作の認識を実現する。上記動作は、手部領域の動作及び／又は顔の局所領域の動作、動作インタラクティブ物体に対する動作などであり得るため、車載カメラにより車両乗員の画像を収集し、顔が含まれる処理対象画像を得る必要がある。その後、処理対象画像に対して畳み込み操作を行い、動作特徴を抽出する。

一代替的な実施形態では、まず上記所定動作の特徴を定義し、その後ニューラルネットワークにより、定義された特徴及び抽出された画像内の特徴に基づいて画像に所定動作が存在するか否かを判定し、画像に所定動作が存在すると判定した場合、画像における所定動作が含まれる複数の候補枠を特定する。

本実施例では、上記抽出された特徴は手部領域、顔の局所領域、動作インタラクティブ物体対応領域などの少なくとも１つに対応する場合、ニューラルネットワークの特徴抽出処理により手部領域及び顔の局所領域が含まれる特徴領域を取得し、前記特徴領域に基づいて候補領域を特定し、例えば矩形枠で表されてもよい候補枠により前記候補領域を識別する。同様に、別の候補枠により手部領域、顔の局所領域及び動作インタラクティブ物体対応領域が含まれる特徴領域を識別する。このように、所定動作に対応する特徴を抽出することで、複数の候補領域を取得し、複数の候補領域に基づいて、複数の候補枠を特定する。

本実施例では、候補枠には所定動作に対応する特徴以外の特徴が含まれることや、所定動作に対応する全ての特徴（いずれか１つの所定動作の全ての特徴を意味する）が含まれていないことがあり、両方の場合とも最終的な動作認識結果に影響を及ぼす可能性がある。したがって、最終的な認識結果の正確度を保証するためには、候補枠の位置を調整し、即ち、複数の候補枠に基づいて動作目標枠を特定する必要がある。これを基に、各候補枠の位置及び大きさを調整することで、調整後の候補枠を動作目標枠として特定する。調整後の複数の候補枠は１つの候補枠として重ねることができ、この場合、重なった候補枠が動作目標枠として特定されることが理解される。

本願の一代替的実施例では、前記第１の抽出ユニット１１は、顔が含まれる画像の特徴を抽出し、特徴マップを得るためのニューラルネットワークの特徴抽出ブランチ１１１を含む。

本実施例では、ニューラルネットワークの特徴抽出ブランチにより処理対象画像に対して畳み込み操作を行うとは、畳み込みカーネルを処理対象画像上に「スライド」させることをいう。例えば、畳み込みカーネルが画像の特定の画素点に対応する時、該画素点のグレースケール値を畳み込みカーネルにおける各数値に乗算し、全ての積を加算して畳み込みカーネルに対応する前記画素点のグレースケール値とし、さらに、畳み込みカーネルを次の画素点に「スライド」させ、以降同様にして、最終的には前記処理対象画像における全ての画素点の畳み込み処理を完了し、特徴マップを得る。

ここで、ニューラルネットワークの特徴抽出ブランチ１１１は複数の畳み込み層を含み得、前の畳み込み層で特徴抽出により得られた特徴マップは次の畳み込み層の入力データとして利用可能であり、複数の畳み込み層により画像からより豊富な情報を抽出することで、特徴抽出の正確率が高まる。

本願の一代替的実施例では、前記第２の抽出ユニット１２は、前記特徴マップにおいて所定動作を含む可能性がある複数の候補枠を抽出するためのニューラルネットワークの候補枠抽出ブランチ１２１を含む。

例えば、特徴マップには手、煙草、コップ、携帯電話、眼鏡、マスク、顔の局所領域に対応する特徴の少なくとも１つが含まれ得、前記少なくとも１つの特徴に基づいて複数の候補枠を特定する。説明すべきものとして、ニューラルネットワークの特徴抽出ブランチにより処理対象画像の特徴を抽出することができるが、抽出された特徴には所定動作に対応する特徴以外の他の特徴が含まれることがあるため、ここのニューラルネットワークの候補枠抽出ブランチにより特定された複数の候補枠のうち、少なくとも一部の候補枠には所定動作に対応する特徴以外の他の特徴が含まれることや、所定動作に対応する全ての特徴が含まれていないことがあり、したがって、前記複数の候補枠には所定動作を含む可能性がある。

本願の一代替的実施例では、前記ニューラルネットワークの候補枠抽出ブランチ１２１は、さらに前記所定動作の特徴に基づいて、前記特徴マップ内の特徴を分割し、複数の候補領域を得るステップと、前記複数の候補領域に基づいて、前記複数の候補枠のうちの各候補枠の第１の信頼度を得るステップであって、前記第１の信頼度が、前記候補枠が前記動作目標枠である確率であるステップと、に用いられる。

ここで、前記ニューラルネットワークの候補枠抽出ブランチ１２１は、前記所定動作の特徴に基づいて、前記特徴マップ内の特徴を分割し、複数の候補領域を得るための分割サブユニットと、
前記複数の候補領域に基づいて、前記複数の候補枠のうちの各候補枠の第１の信頼度を得るステップであって、前記第１の信頼度が、前記候補枠が前記動作目標枠である確率であるステップに用いられる第１の取得サブユニットと、を含む。

本実施例では、ニューラルネットワークの候補枠抽出ブランチ１２１は各候補枠に対応する第１の信頼度を特定することもでき、前記第１の信頼度は候補枠が目標動作枠である可能性を確率の形で表すために用いられる。ニューラルネットワークの候補枠抽出ブランチにより特徴マップを処理することで、複数の候補枠が得られると共に、複数の候補枠のうちの各候補枠の第１の信頼度も得られる。前記第１の信頼度は、候補枠内の特徴に基づいてニューラルネットワークの候補枠抽出ブランチにより得られた、候補枠が目標動作枠である予測値であることを理解されたい。

本願の一代替的実施例では、前記特定ユニット１３は、前記複数の候補枠に基づいて動作目標枠を特定するためのニューラルネットワークの検出枠リファインメントブランチ１３１を含む。

本願の一代替的実施例では、前記ニューラルネットワークの検出枠リファインメントブランチ１３１はさらに、前記第１の信頼度が第１の閾値より小さい候補枠を除去し、少なくとも１つの第１の候補枠を得るステップと、前記少なくとも１つの第１の候補枠をプーリング処理し、少なくとも１つの第２の候補枠を得るステップと、前記少なくとも１つの第２の候補枠に基づいて、動作目標枠を特定するステップと、に用いられる。

ここで、前記ニューラルネットワークの検出枠リファインメントブランチは、第１の信頼度が第１の閾値より小さい候補枠を除去し、少なくとも１つの第１の候補枠を得るための除去サブユニットと、
前記少なくとも１つの第１の候補枠をプーリング処理し、少なくとも１つの第２の候補枠を得るための第２の取得サブユニットと、
前記少なくとも１つの第２の候補枠に基づいて、動作目標枠を特定するための特定サブユニットと、を含む。

本実施例では、候補枠を得るプロセスにおいて、所定動作と極めて類似する何らかの動作はニューラルネットワークの候補枠抽出ブランチに大きく干渉することがある。図４の左から右の画像では、目標対象は順に電話かけ、飲水及び喫煙などと類似する動作を行い、これらの動作は類似しており、いずれも頬のあたりに右手を当てる動作であるが、目標対象の手には携帯電話、コップ及び煙草がなかった。しかし、ニューラルネットワークは目標対象のこれらの動作を電話かけ、飲水及び喫煙として誤認識しやすい。

本願の実施例では、ニューラルネットワークの検出枠リファインメントブランチ１３１により第１の信頼度が第１の閾値より小さい候補枠を除去し、少なくとも１つの第１の候補枠を得る。ここで、候補枠の第１の信頼度が第１の閾値より小さい場合、該候補枠は上記類似動作の候補枠であり、該候補枠を除去する必要がある。これにより所定動作と類似動作を効果的に区別することができ、その上、誤検出率が低下し、動作認識結果の正確率が大幅に高まる。

本願の一代替的実施例では、前記ニューラルネットワークの検出枠リファインメントブランチ１３１（又は前記第２の取得サブユニット）はさらに、前記少なくとも１つの第１の候補枠をそれぞれプーリング処理し、前記少なくとも１つの第１の候補枠に対応する少なくとも１つの第１の特徴領域を得るステップと、各第１の特徴領域に基づいて、対応する第１の候補枠の位置及び大きさを調整し、少なくとも１つの第２の候補枠を得るステップと、を実行するために用いられる。

本実施例では、第１の候補枠が位置する領域内の特徴の量が多いことがあり、第１の候補枠が位置する領域内の特徴をそのまま使用すると計算量は膨大となる。したがって、第１の候補枠が位置する領域内の特徴に対して後続の処理を行う前に、後続の処理プロセスにおける計算量に対する要件を満たし、後続処理の計算量を大幅に低減させるように、まず第１の候補枠をプーリング処理し、即ち、第１の候補枠が位置する領域内の特徴をプーリング処理し、第１の候補枠が位置する領域内の特徴の次元を削減する。

本願の一代替的実施例では、前記ニューラルネットワークの検出枠リファインメントブランチ１３１（又は前記第２の取得サブユニット）はさらに、前記第１の特徴領域内の前記所定動作に対応する特徴に基づいて、前記所定動作の特徴に対応する第１の動作特徴枠を得るステップと、前記第１の動作特徴枠の幾何中心座標に基づいて、前記少なくとも１つの第１の候補枠の第１の位置オフセットを得るステップと、前記第１の動作特徴枠の大きさに基づいて、前記少なくとも１つの第１の候補枠の第１のズーム倍率を得るステップと、少なくとも１つの第１の位置オフセット及び少なくとも１つの第１のズーム倍率に基づいて、少なくとも１つの第１の候補枠の位置及び大きさをそれぞれ調整し、少なくとも１つの第２の候補枠を得るステップと、を実行するために用いられる。

本願の一代替的実施例では、前記分類ユニット１４は、前記特徴マップ上の前記動作目標枠に対応する領域マップを取得し、前記領域マップに基づいて所定動作を分類し、動作認識結果を得るための前記ニューラルネットワークの動作分類ブランチ１４１を含む。

本願の一代替的実施例では、ニューラルネットワークの動作分類ブランチ１４１により第１の動作認識結果が得られ、一方、ニューラルネットワークの動作分類ブランチ１４１によりさらに前記第１の動作認識結果の第２の信頼度も得られ、前記第２の信頼度は前記動作認識結果の正確率を表すものである。

本願の一代替的実施例では、前記ニューラルネットワークは、複数のサンプル画像を含むトレーニング画像セットに基づいて事前に教師ありトレーニングを行って得られたものであり、前記サンプル画像のラベリング情報は、動作監視枠、及び前記動作監視枠に対応する動作種別を含む。

本願の一代替的実施例では、前記トレーニング画像セットは正サンプル画像と負サンプル画像とを含み、前記負サンプル画像の動作が前記正サンプル画像の動作と類似し、前記正サンプルの動作監視枠は、顔の局所領域及び動作インタラクティブ物体を含むか、又は顔の局所領域、手部領域及び動作インタラクティブ物体を含む。

本願の一代替的実施例では、前記正サンプル画像の動作は電話をかける動作を含み、前記負サンプル画像は耳を掻く動作を含み、及び／又は、前記正サンプル画像は喫煙、食事や飲水を含み、前記負サンプル画像は口を開く動作又は唇に手を当てる動作を含む。

本願の実施例では、ニューラルネットワークの特徴抽出ブランチ１１１により処理対象画像の特徴抽出を行い、次にニューラルネットワークの候補枠抽出ブランチ１２１により、抽出された特徴に基づいて所定動作を含む可能性がある候補枠を取得し、その後ニューラルネットワークの検出枠リファインメントブランチ１３１により動作目標枠を特定し、最後にニューラルネットワークの動作分類ブランチ１４１により目標動作枠内の特徴に対して所定動作の分類を行い、処理対象画像の動作認識結果を得る。全認識プロセスにおいて、処理対象画像内の特徴を抽出（例えば手部領域、顔の局所領域、動作インタラクティブ物体対応領域の特徴抽出）し、処理することで、微細動作に対する正確な認識を自律的且つ迅速に実現することができる。

本願の実施例に記載の動作認識装置は、前記ニューラルネットワークのトレーニングコンポーネントをさらに含む。図１０は、本願の実施例が提供するニューラルネットワークのトレーニングコンポーネントの構造模式図であり、該トレーニングコンポーネント２０００は、
サンプル画像が含まれる第１の特徴マップを抽出するための第１の抽出ユニット２１と、
所定動作を含む可能性がある前記第１の特徴マップの複数の第３の候補枠を抽出するための第２の抽出ユニット２２と、
前記複数の第３の候補枠に基づいて動作目標枠を特定するための第１の特定ユニット２３と、
前記動作目標枠に基づいて所定動作を分類し、第１の動作認識結果を得るための取得ユニット２４と、
前記サンプル画像の候補枠の検出結果と検出枠のラベリング情報の第１の損失、及び動作認識結果と動作種別ラベリング情報の第２の損失を特定するための第２の特定ユニット２５と、
前記第１の損失及び前記第２の損失に基づいて、前記ニューラルネットワークのネットワークパラメータを調整するための調整ユニット２６と、を含む。

本願の一代替的実施例では、前記第１の特定ユニット２３は、前記所定動作に基づいて第１の動作監視枠を得るための第１の取得サブユニット２３１であって、前記第１の動作監視枠が、顔の局所領域及び動作インタラクティブ物体を含むか、又は顔の局所領域、手部領域及び動作インタラクティブ物体を含む第１の取得サブユニット２３１と、
前記複数の第３の候補枠の第２の信頼度を得るための第２の取得サブユニット２３２であって、前記第２の信頼度が、前記第３の候補枠が前記動作目標枠である第１の確率、及び前記第３の候補枠が前記動作目標枠でない第２の確率を含む第２の取得サブユニット２３２と、
前記複数の第３の候補枠と前記第１の動作監視枠の面積重なり具合を特定するための特定サブユニット２３３と、
前記面積重なり具合が第２の閾値以上である場合、前記面積重なり具合に対応する前記第３の候補枠の前記第２の信頼度を前記第１の確率とし、前記面積重なり具合が前記第２の閾値より小さい場合、前記面積重なり具合に対応する前記第３の候補枠の前記第２の信頼度を前記第２の確率とするための選定サブユニット２３４と、
前記第２の信頼度が前記第１の閾値より小さい前記複数の第３の候補枠を除去し、複数の第４の候補枠を得るための除去サブユニット２３５と、
前記第４の候補枠の位置及び大きさを調整し、前記動作目標枠を得るための調整サブユニット２３６と、を含む。

図１１は、本願の実施例が提供する運転動作分析装置の構造模式図であり、該分析装置３０００は、
運転者の顔画像を含むビデオストリームを収集するための車載カメラ３１と、
本願の前記実施例に記載の動作認識装置により、前記ビデオストリーム内の少なくとも１フレームの画像の動作認識結果を得るための第１の取得ユニット３２と、
動作認識結果が所定条件を満たすことに応答して、注意散漫又は危険運転のリマインディング情報を生成するための生成ユニット３３と、を含む。

本願の一代替的実施例では、前記分析装置３０００は、車載デュアルカメラが設けられている車両の車速を取得するための第２の取得ユニット３４をさらに含み、前記生成ユニット３３は、前記車速が設定閾値より大きく且つ前記動作認識結果が前記所定条件を満たすことに応答して、注意散漫又は危険運転のリマインディング情報を生成するためにも用いられる。

本願の実施例は電子機器をさらに提供する。図１２は、本願の実施例が提供する電子機器のハードウェア構成図である。該電子機器４０００は、コンピュータ実行可能コマンドが記憶されているメモリ４４と、前記メモリ４４上のコンピュータ実行可能コマンドを実行する時に、本願の実施例に記載の動作認識方法、又は本願の実施例に記載の運転動作分析方法を実現するプロセッサ４１と、を含む。

本願の一代替的実施例では、前記電子機器は入力装置４２、出力装置４３をさらに含んでもよい。該入力装置４２、出力装置４３、メモリ４４及びプロセッサ４１はバスを介して互いに接続され得る。

メモリは、ランダム記憶メモリ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ、ＲＡＭ）、読み出し専用メモリ（Ｒｅａｄ－ＯｎｌｙＭｅｍｏｒｙ、ＲＯＭ）、消去可能プログラム可能読み出し専用メモリ（ＥｒａｓａｂｌｅＰｒｏｇｒａｍｍａｂｌｅＲｅａｄＯｎｌｙＭｅｍｏｒｙ、ＥＰＲＯＭ）、又は携帯型読み出し専用メモリ（ＣｏｍｐａｃｔＤｉｓｃＲｅａｄ－ＯｎｌｙＭｅｍｏｒｙ、ＣＤ－ＲＯＭ）を含むが、これらに限定されず、該メモリは関連コマンド及びデータを記憶するために用いられる。

入力装置はデータ及び／又は信号を入力するために用いられ、出力装置はデータ及び／又は信号を出力するために用いられる。出力装置及び入力装置は個別の装置であってもよく、一体化された装置であってもよい。

プロセッサは１つ以上のプロセッサ、例えば１つ以上の中央処理装置（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ、ＣＰＵ）を含み得、プロセッサが１つのＣＰＵである場合、該ＣＰＵはシングルコアＣＰＵであっても、マルチコアＣＰＵであってもよい。プロセッサはＧＰＵ、ＦＰＧＡなどが含まれ得る加速処理のための１つ以上の専用プロセッサを含んでもよい。

メモリは、ネットワーク機器のプログラムコード及びデータを記憶するために用いられる。

プロセッサは、該メモリ内のプログラムコード及びデータを呼び出し、上記方法の実施例に記載のステップを実行するために用いられる。具体的には方法の実施例の記載を参照すればよく、ここでは繰り返して詳述しない。

図１２は電子機器の簡略化した設計を示しているものに過ぎず、実際の応用時には、電子機器は必要とされる他の素子をそれぞれ含んでもよく、それは任意の数の入力／出力装置、プロセッサ、コントローラ、メモリなどを含むが、これらに限定されず、本願の実施例を実現できる電子機器は全て本願の実施例の保護範囲内に含まれることが理解される。

本願の実施例は、実行されると、本願の上記いずれか１つの実施例に記載の動作認識方法の操作、又は本願の上記いずれか１つの実施例に記載の運転動作分析方法の操作を実現するコンピュータ可読コマンドを記憶するためのコンピュータ記憶媒体をさらに提供する。

本願の実施例は、機器上で実行されると、該機器内のプロセッサは本願の上記いずれか１つの実施例に記載の動作認識方法におけるステップ、又は本願の上記いずれか１つの実施例に記載の運転動作分析方法におけるステップを実現するための実行可能コマンドを実行するコンピュータ可読コマンドを含む、コンピュータプログラムをさらに提供する。

本願が提供するいくつかの実施例では、開示する装置及び方法は、他の形態で実現できることを理解すべきである。以上で説明した装置実施例は例示的なものに過ぎず、例えば、前記ユニットの分割は、論理機能の分割に過ぎず、実際に実現時に別の形態で分割してもよく、例えば複数のユニット又はコンポーネントは組み合わせてもよく、又は別のシステムに統合してもよく、又はいくつかの特徴を省略してもよく、もしくは実行しなくてもよい。また、示した又は論じた各構成部分間のカップリング又は直接カップリング又は通信接続はいくつかのインターフェイスによるものであってもよく、装置又はユニットの間接カップリング又は通信接続は、電気的、機械的又は他の形式であってもよい。

別々の部材として前述したユニットは物理的に分離されてもされなくてもよく、ユニットとして示された部材は物理的ユニットであってもなくてもよく、一箇所にあっても複数のネットワークユニットに分散してもよく、本実施例の解決手段の目的を達成するには、実際の必要に応じて一部又は全てのユニットを選択することができる。

また、本発明の各実施例における各機能ユニットは全て１つの処理ユニットに統合されてもよいし、１つのユニットとして別々に使用されてもよいし、２つ以上で１つのユニットに統合されてもよく、上記統合されたユニットはハードウェアの形で、又はハードウェアとソフトウェアを組み合わせた機能ユニットの形で実現され得る。

当業者であれば、上記各方法の実施例を実現する全て又は一部のステップはプログラムによって関連ハードウェアにコマンドを出すことにより完了できることを理解でき、前記プログラムは、携帯型記憶装置、ＲＯＭ、ＲＡＭ、磁気ディスク又は光ディスクなどのプログラムコードを記憶可能である様々な媒体を含むコンピュータ可読記憶媒体に記憶可能であり、該プログラムは実行される時に、上記各方法の実施例を含むステップを実行する。

あるいは、本発明の上記統合されたユニットはソフトウェア機能モジュールの形で実現されかつ独立した製品として販売又は使用される場合、コンピュータ可読記憶媒体に記憶されてもよい。このような見解をもとに、本発明の実施例の技術的解決手段は実質的に又は従来技術に寄与する部分がソフトウェア製品の形で実施することができ、該コンピュータソフトウェア製品は記憶媒体に記憶され、コンピュータ機器（パーソナルコンピュータ、サーバ、又はネットワーク機器などであってもよい）に本発明の各実施例に記載の方法の全て又は一部を実行させる複数のコマンドを含む。前記記憶媒体は、携帯型記憶装置、ＲＯＭ、ＲＡＭ、磁気ディスク又は光ディスクなどのプログラムコードを記憶可能である様々な媒体を含む。

本願が提供するいくつかの方法の実施例が開示した方法は、矛盾なく任意に組み合わせて、新たな方法の実施例を得ることができる。

本願が提供するいくつかの製品の実施例が開示した特徴は、矛盾なく任意に組み合わせて、新たな製品の実施例を得ることができる。

本願が提供するいくつかの方法又は機器の実施例が開示した特徴は、矛盾なく任意に組み合わせて、新たな方法の実施例又は機器の実施例を得ることができる。

以上で説明したのは本発明の具体的な実施形態に過ぎず、本発明の保護範囲がそれに限定されるものでなく、本発明に開示された技術範囲内に当業者に容易に想到される変化又は取り替えは、全て本発明の保護範囲に含まれる。従って、本発明の保護範囲は請求項の保護範囲に準ずるべきである。

Claims

顔が含まれる画像内の特徴を抽出するステップと、
前記特徴に基づいて、所定動作を含む可能性がある複数の候補枠を特定するステップと、
前記複数の候補枠に基づいて動作目標枠を特定するステップであって、前記動作目標枠が、顔の局所領域及び動作インタラクティブ物体を含むステップと、
前記動作目標枠に基づいて所定動作を分類し、動作認識結果を得るステップと、を含み、
顔が含まれる画像内の特徴を抽出するステップは、
ニューラルネットワークの特徴抽出ブランチにより、顔が含まれる画像内の特徴を抽出し、特徴マップを得るステップを含み、
前記特徴に基づいて、所定動作を含む可能性がある複数の候補枠を特定する前記ステップは、
前記ニューラルネットワークの候補枠抽出ブランチにより、前記特徴マップにおいて所定動作を含む可能性がある複数の候補枠を特定するステップを含む、
動作認識方法。
前記顔の局所領域は、口部領域、耳部領域、眼部領域の少なくとも１つを含み、
前記動作インタラクティブ物体は、容器、煙草、携帯電話、食べ物、工具、飲料ボトル、眼鏡、マスクの少なくとも１つを含み、
前記動作目標枠は、手部領域をさらに含み、
前記所定動作は、電話かけ、喫煙、水や飲料の飲用、食事、工具の使用、眼鏡かけ、化粧の少なくとも１つを含む、請求項１に記載の方法。
車載カメラによって車両乗員の顔が含まれる画像を撮影するステップをさらに含み、
前記車両乗員は、前記車両の運転領域の運転者、前記車両の助手席領域の人、前記車両の後部座席の人の少なくとも１つを含み、
前記車載カメラはＲＧＢカメラ、赤外線カメラ又は近赤外線カメラである、請求項１又は２に記載の方法。
前記ニューラルネットワークの候補枠抽出ブランチにより、前記特徴マップにおいて所定動作を含む可能性がある複数の候補枠を特定する前記ステップは、
前記所定動作の特徴に基づいて、前記特徴マップ内の特徴を分割し、複数の候補領域を得るステップと、
前記複数の候補領域に基づいて、複数の候補枠と前記複数の候補枠のうちの各候補枠の第１の信頼度とを得るステップであって、前記第１の信頼度が、前記候補枠が前記動作目標枠である確率であるステップと、を含む、請求項１に記載の方法。
前記複数の候補枠に基づいて動作目標枠を特定する前記ステップは、
前記ニューラルネットワークの検出枠リファインメントブランチにより、前記複数の候補枠に基づいて動作目標枠を特定するステップを含む、請求項４に記載の方法。
前記ニューラルネットワークの検出枠リファインメントブランチにより、前記複数の候補枠に基づいて動作目標枠を特定する前記ステップは、
前記ニューラルネットワークの検出枠リファインメントブランチによって、第１の信頼度が第１の閾値より小さい候補枠を除去し、少なくとも１つの第１の候補枠を得るステップと、
前記少なくとも１つの第１の候補枠をプーリング処理し、少なくとも１つの第２の候補枠を得るステップと、
前記少なくとも１つの第２の候補枠に基づいて、動作目標枠を特定するステップと、を含む、請求項５に記載の方法。
前記少なくとも１つの第１の候補枠をプーリング処理し、少なくとも１つの第２の候補枠を得る前記ステップは、
前記少なくとも１つの第１の候補枠をそれぞれプーリング処理し、前記少なくとも１つの第１の候補枠に対応する少なくとも１つの第１の特徴領域を得るステップと、
各第１の特徴領域に基づいて、対応する第１の候補枠の位置及び大きさを調整し、少なくとも１つの第２の候補枠を得るステップと、を含む、請求項６に記載の方法。
各第１の特徴領域に基づいて、対応する第１の候補枠の位置及び大きさを調整し、少なくとも１つの第２の候補枠を得る前記ステップは、
前記第１の特徴領域内の前記所定動作に対応する特徴に基づいて、前記所定動作の特徴に対応する第１の動作特徴枠を得るステップと、
前記第１の動作特徴枠の幾何中心座標に基づいて、前記少なくとも１つの第１の候補枠の第１の位置オフセットを得るステップと、
前記第１の動作特徴枠の大きさに基づいて、前記少なくとも１つの第１の候補枠の第１のズーム倍率を得るステップと、
少なくとも１つの第１の位置オフセット及び少なくとも１つの第１のズーム倍率に基づいて、前記少なくとも１つの第１の候補枠の位置及び大きさをそれぞれ調整し、少なくとも１つの第２の候補枠を得るステップと、を含む、請求項７に記載の方法。
前記動作目標枠に基づいて所定動作を分類し、動作認識結果を得る前記ステップは、
前記ニューラルネットワークの動作分類ブランチにより、前記特徴マップ上の前記動作目標枠に対応する領域マップを取得し、前記領域マップに基づいて所定動作を分類し、動作認識結果を得るステップを含む、請求項１から８のいずれか一項に記載の方法。
前記ニューラルネットワークは、複数のサンプル画像を含むトレーニング画像セットに基づいて事前に教師ありトレーニングを行って得られたものであり、前記サンプル画像のラベリング情報は、動作監視枠、及び前記動作監視枠に対応する動作種別を含む、請求項１から９のいずれか一項に記載の方法。
前記トレーニング画像セットは正サンプル画像と負サンプル画像とを含み、前記負サンプル画像の動作が前記正サンプル画像の動作と類似し、前記正サンプルの動作監視枠は、顔の局所領域及び動作インタラクティブ物体を含むか、又は顔の局所領域、手部領域及び動作インタラクティブ物体を含む、請求項１０に記載の方法。
前記正サンプル画像の動作は電話をかける動作を含み、前記負サンプル画像は耳を掻く動作を含み、及び／又は、前記正サンプル画像は喫煙、食事や飲水を含み、前記負サンプル画像は口を開く動作又は唇に手を当てる動作を含む、請求項１０又は１１に記載の方法。
前記ニューラルネットワークのトレーニング方法は、
サンプル画像の第１の特徴マップを抽出するステップと、
所定動作を含む可能性がある前記第１の特徴マップの複数の第３の候補枠を抽出するステップと、
前記複数の第３の候補枠に基づいて動作目標枠を特定するステップと、
前記動作目標枠に基づいて所定動作を分類し、動作認識結果を得るステップと、
前記サンプル画像の候補枠の検出結果と検出枠のラベリング情報の第１の損失、及び動作認識結果と動作種別ラベリング情報の第２の損失を特定するステップと、
前記第１の損失及び前記第２の損失に基づいて、前記ニューラルネットワークのネットワークパラメータを調整するステップと、を含む、請求項１０から１２のいずれか一項に記載の方法。
複数の第３の候補枠に基づいて動作目標枠を特定する前記ステップは、
前記所定動作に基づいて第１の動作監視枠を得るステップであって、前記第１の動作監視枠が、顔の局所領域及び動作インタラクティブ物体を含むか、又は顔の局所領域、手部領域及び動作インタラクティブ物体を含むステップと、
前記複数の第３の候補枠の第２の信頼度を得るステップであって、前記第２の信頼度が、前記第３の候補枠が前記動作目標枠である第１の確率、及び前記第３の候補枠が前記動作目標枠でない第２の確率を含むステップと、
前記複数の第３の候補枠と前記第１の動作監視枠の面積重なり具合を特定するステップと、
前記面積重なり具合が第２の閾値以上である場合、前記面積重なり具合に対応する前記第３の候補枠の前記第２の信頼度を前記第１の確率とし、前記面積重なり具合が前記第２の閾値より小さい場合、前記面積重なり具合に対応する前記第３の候補枠の前記第２の信頼度を前記第２の確率とするステップと、
前記第２の信頼度が前記第１の閾値より小さい前記複数の第３の候補枠を除去し、複数の第４の候補枠を得るステップと、
前記第４の候補枠の位置及び大きさを調整し、前記動作目標枠を得るステップと、を含む、請求項１３に記載の方法。
車載カメラによって、運転者の顔画像を含むビデオストリームを収集するステップと、
請求項１から１４のいずれか一項に記載の動作認識方法により、前記ビデオストリーム内の少なくとも１フレームの画像の動作認識結果を得るステップと、
動作認識結果が所定条件を満たすことに応答して、危険運転のリマインディング情報を生成するステップと、を含み、
前記所定条件は、特定の所定動作が現れること、所定時間内で特定の所定動作が現れる回数、前記ビデオストリームに現れている特定の所定動作の持続時間の少なくとも１つを含む、運転動作分析方法。
車載デュアルカメラが設けられている車両の車速を取得するステップをさらに含み、
動作認識結果が所定条件を満たすことに応答して、危険運転のリマインディング情報を生成する前記ステップは、前記車速が設定閾値より大きく且つ前記動作認識結果が前記所定条件を満たすことに応答して、危険運転のリマインディング情報を生成するステップを含む請求項１５に記載の方法。
コンピュータ実行可能コマンドが記憶されているメモリと、前記メモリ上のコンピュータ実行可能コマンドを実行する時に、請求項１から１４のいずれか一項に記載の方法を実現し、又は請求項１５又は１６に記載の方法を実現するプロセッサと、を含む電子機器。
プロセッサにより実行されると、請求項１から１４のいずれか一項に記載の方法を実現し、又は請求項１５又は１６に記載の方法を実現するコンピュータプログラムが記憶されているコンピュータ可読記憶媒体。
機器のプロセッサ上で実行されると、請求項１から１４のいずれか一項に記載の方法を実現し、又は請求項１５又は１６に記載の方法を実現するコンピュータプログラム。