JP7061685B2 - 動作認識、運転動作分析の方法及び装置、並びに電子機器 - Google Patents
動作認識、運転動作分析の方法及び装置、並びに電子機器 Download PDFInfo
- Publication number
- JP7061685B2 JP7061685B2 JP2020551540A JP2020551540A JP7061685B2 JP 7061685 B2 JP7061685 B2 JP 7061685B2 JP 2020551540 A JP2020551540 A JP 2020551540A JP 2020551540 A JP2020551540 A JP 2020551540A JP 7061685 B2 JP7061685 B2 JP 7061685B2
- Authority
- JP
- Japan
- Prior art keywords
- motion
- frame
- candidate
- predetermined
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000033001 locomotion Effects 0.000 title claims description 413
- 238000004458 analytical method Methods 0.000 title description 12
- 238000013528 artificial neural network Methods 0.000 claims description 140
- 238000000034 method Methods 0.000 claims description 92
- 238000000605 extraction Methods 0.000 claims description 73
- 230000009471 action Effects 0.000 claims description 50
- 230000002452 interceptive effect Effects 0.000 claims description 44
- 238000001514 detection method Methods 0.000 claims description 31
- 238000012544 monitoring process Methods 0.000 claims description 31
- 238000012549 training Methods 0.000 claims description 28
- 230000000391 smoking effect Effects 0.000 claims description 26
- 235000020188 drinking water Nutrition 0.000 claims description 21
- 239000003651 drinking water Substances 0.000 claims description 21
- 230000006399 behavior Effects 0.000 claims description 14
- 238000002372 labelling Methods 0.000 claims description 11
- 238000011176 pooling Methods 0.000 claims description 11
- 235000019504 cigarettes Nutrition 0.000 claims description 10
- 230000004044 response Effects 0.000 claims description 10
- 235000013361 beverage Nutrition 0.000 claims description 6
- 230000035622 drinking Effects 0.000 claims description 5
- 230000007937 eating Effects 0.000 claims description 5
- 235000005686 eating Nutrition 0.000 claims description 5
- 238000004590 computer program Methods 0.000 claims description 4
- 230000009977 dual effect Effects 0.000 claims description 3
- 235000013305 food Nutrition 0.000 claims description 3
- 238000006748 scratching Methods 0.000 claims description 3
- 230000002393 scratching effect Effects 0.000 claims description 3
- 238000012545 processing Methods 0.000 description 37
- 230000008569 process Effects 0.000 description 22
- 230000006870 function Effects 0.000 description 20
- 238000010586 diagram Methods 0.000 description 13
- 238000004364 calculation method Methods 0.000 description 11
- 239000011521 glass Substances 0.000 description 5
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 210000005069 ears Anatomy 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000001815 facial effect Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 239000007921 spray Substances 0.000 description 2
- 125000002066 L-histidyl group Chemical group [H]N1C([H])=NC(C([H])([H])[C@](C(=O)[*])([H])N([H])[H])=C1[H] 0.000 description 1
- 241000208125 Nicotiana Species 0.000 description 1
- 235000002637 Nicotiana tabacum Nutrition 0.000 description 1
- 208000003251 Pruritus Diseases 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000003542 behavioural effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000007803 itching Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60R—VEHICLES, VEHICLE FITTINGS, OR VEHICLE PARTS, NOT OTHERWISE PROVIDED FOR
- B60R21/00—Arrangements or fittings on vehicles for protecting or preventing injuries to occupants or pedestrians in case of accidents or other traffic risks
- B60R21/01—Electrical circuits for triggering passive safety arrangements, e.g. airbags, safety belt tighteners, in case of vehicle accidents or impending vehicle accidents
- B60R21/015—Electrical circuits for triggering passive safety arrangements, e.g. airbags, safety belt tighteners, in case of vehicle accidents or impending vehicle accidents including means for detecting the presence or position of passengers, passenger seats or child seats, and the related safety parameters therefor, e.g. speed or timing of airbag inflation in relation to occupant position or seat belt use
- B60R21/01512—Passenger detection systems
- B60R21/01542—Passenger detection systems detecting passenger motion
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W40/00—Estimation or calculation of non-directly measurable driving parameters for road vehicle drive control systems not related to the control of a particular sub unit, e.g. by using mathematical models
- B60W40/08—Estimation or calculation of non-directly measurable driving parameters for road vehicle drive control systems not related to the control of a particular sub unit, e.g. by using mathematical models related to drivers or passengers
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W50/00—Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
- B60W50/08—Interaction between the driver and the control system
- B60W50/14—Means for informing the driver, warning the driver or prompting a driver intervention
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/776—Validation; Performance evaluation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/59—Context or environment of the image inside of a vehicle, e.g. relating to seat occupancy, driver state or inner lighting conditions
- G06V20/597—Recognising the driver's state or behaviour, e.g. attention or drowsiness
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
- G06V40/171—Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
- G06V40/28—Recognition of hand or arm movements, e.g. recognition of deaf sign language
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/50—Constructional details
- H04N23/54—Mounting of pick-up tubes, electronic image sensors, deviation or focusing coils
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W2420/00—Indexing codes relating to the type of sensors based on the principle of their operation
- B60W2420/40—Photo, light or radio wave sensitive means, e.g. infrared sensors
- B60W2420/403—Image sensing, e.g. optical camera
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W2540/00—Input parameters relating to occupants
- B60W2540/229—Attention level, e.g. attentive to driving, reading or sleeping
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Biophysics (AREA)
- Social Psychology (AREA)
- Psychiatry (AREA)
- Mechanical Engineering (AREA)
- Automation & Control Theory (AREA)
- Transportation (AREA)
- Biodiversity & Conservation Biology (AREA)
- Signal Processing (AREA)
- Image Analysis (AREA)
- Traffic Control Systems (AREA)
Description
本願は、出願番号が201811130798.6であり、出願日が2018年9月27日である中国特許出願に基づいて提出されるものであり、該中国特許出願の優先権を主張し、その開示の全てが参照によって本願に組み込まれる。
車載カメラによって、運転者の顔画像を含むビデオストリームを収集するステップ401と、
前記ビデオストリーム内の少なくとも1フレームの画像の動作認識結果を得るステップ402と、
動作認識結果が所定条件を満たすことに応答して、危険運転のリマインディング情報を生成するステップ403と、を含む。
が特定され、任意選択的に、面積重なり具合
の計算式は下記のようになる。
(1)
、
はそれぞれ第3の候補枠の面積、第1の動作監視枠の面積を表し、
は第3の候補枠と第1の動作監視枠の重なり領域の面積を表し、
は第3の候補枠及び第1の動作監視枠に含まれる全ての領域の面積を表す。
が第2の閾値以上である場合、第3の候補枠を所定動作を含む可能性がある候補枠として判定し、この第3の候補枠の第2の信頼度を上記第1の確率とする。面積重なり具合
が前記第2の閾値より小さい場合、この第3の候補枠を所定動作が含まれ得ない候補枠として判定し、該第3の候補枠の第2の信頼度を上記第2の確率とする。ここで、前記第2の閾値の値は0以上且つ1以下であり、前記第2の閾値の具体的な値はネットワークのトレーニング効果に応じて決定することができる。
、及び座標系xoyにおける第2の動作特徴枠の幾何中心座標
をそれぞれ取得し、第4の候補枠の幾何中心と第2の動作特徴枠の幾何中心との第2の位置オフセット
を求め、式中、
は正の整数であり、nの数は第4の候補枠の数と一致する。
は複数の第4の候補枠の第2の位置オフセットである。
を得る。ここで、第2のズーム倍率
は、第4の候補枠の長さのズーム倍率
及び幅のズーム倍率
を含む。
で表されると仮定すると、第2の位置オフセット
から、幾何中心の位置調整後の第4の候補枠の幾何中心座標の集合
が得られ、この場合、
(2)
。また、第4の候補枠の幾何中心の位置を調整する時、前記第4の候補枠の長さ及び幅は不変のままであることを理解されたい。
に基づいて前記第4の候補枠の長さを
倍に調整し、幅を
倍に調整し、第5の候補枠を得る。
、喫煙動作である確率
、電話かけの動作である確率
、眼鏡かけの動作である確率
及びマスク着用の動作である確率
となる。
、
、
、
、
であると仮定すると、動作認識結果はマスク着用の動作となり得る。この場合、本実施例では、動作認識結果として、異なる所定動作に対応する動作目標枠の第3の信頼度(即ち、第3の確率)から、第3の信頼度(即ち、第3の確率)が最も大きい所定動作の種別を選定することができる。ここで、最大の第3の信頼度(即ち、第3の確率)は第4の確率と記すことができる。
(6)
は第6の候補枠の数で、
はニューラルネットワークの検出枠リファインメントブランチの重みパラメータで、
は教師変数であり、
損失関数及び
損失関数の表現式は式(4)及び式(5)に示されるとおりであり、特に、式(6)における
はリファインされた動作目標枠の幾何中心座標であり、
は動作監視枠の幾何中心座標である。
を代替して式(3)に代入し、そしてニューラルネットワークの候補枠抽出ブランチの重みパラメータ
と
を調整することでRegion Proposal Lossの値(即ち、第1の損失)を変え、且つRegion Proposal Lossの値が0に最も近づくように重みパラメータ
と
の組み合わせを選定する。
を代替して式(6)に代入し、そしてニューラルネットワークの検出枠リファインメントブランチの重みパラメータ
を調整することでBbox Refine Lossの値(即ち、第2の損失)を変え、且つBbox Refine Lossの値が0に最も近づくように重みパラメータ
を選定し、勾配バックプロパゲーションの方式でニューラルネットワークの検出枠リファインメントブランチの重みパラメータの更新を行う。
顔が含まれる画像内の特徴を抽出するための第1の抽出ユニット11と、
前記特徴に基づいて、所定動作を含む可能性がある複数の候補枠を特定するための第2の抽出ユニット12と、
前記複数の候補枠に基づいて動作目標枠を特定するための特定ユニット13であって、前記動作目標枠が、顔の局所領域及び動作インタラクティブ物体を含む特定ユニット13と、
前記動作目標枠に基づいて所定動作を分類し、動作認識結果を得るための分類ユニット14と、を含む。
前記複数の候補領域に基づいて、前記複数の候補枠のうちの各候補枠の第1の信頼度を得るステップであって、前記第1の信頼度が、前記候補枠が前記動作目標枠である確率であるステップに用いられる第1の取得サブユニットと、を含む。
前記少なくとも1つの第1の候補枠をプーリング処理し、少なくとも1つの第2の候補枠を得るための第2の取得サブユニットと、
前記少なくとも1つの第2の候補枠に基づいて、動作目標枠を特定するための特定サブユニットと、を含む。
サンプル画像が含まれる第1の特徴マップを抽出するための第1の抽出ユニット21と、
所定動作を含む可能性がある前記第1の特徴マップの複数の第3の候補枠を抽出するための第2の抽出ユニット22と、
前記複数の第3の候補枠に基づいて動作目標枠を特定するための第1の特定ユニット23と、
前記動作目標枠に基づいて所定動作を分類し、第1の動作認識結果を得るための取得ユニット24と、
前記サンプル画像の候補枠の検出結果と検出枠のラベリング情報の第1の損失、及び動作認識結果と動作種別ラベリング情報の第2の損失を特定するための第2の特定ユニット25と、
前記第1の損失及び前記第2の損失に基づいて、前記ニューラルネットワークのネットワークパラメータを調整するための調整ユニット26と、を含む。
前記複数の第3の候補枠の第2の信頼度を得るための第2の取得サブユニット232であって、前記第2の信頼度が、前記第3の候補枠が前記動作目標枠である第1の確率、及び前記第3の候補枠が前記動作目標枠でない第2の確率を含む第2の取得サブユニット232と、
前記複数の第3の候補枠と前記第1の動作監視枠の面積重なり具合を特定するための特定サブユニット233と、
前記面積重なり具合が第2の閾値以上である場合、前記面積重なり具合に対応する前記第3の候補枠の前記第2の信頼度を前記第1の確率とし、前記面積重なり具合が前記第2の閾値より小さい場合、前記面積重なり具合に対応する前記第3の候補枠の前記第2の信頼度を前記第2の確率とするための選定サブユニット234と、
前記第2の信頼度が前記第1の閾値より小さい前記複数の第3の候補枠を除去し、複数の第4の候補枠を得るための除去サブユニット235と、
前記第4の候補枠の位置及び大きさを調整し、前記動作目標枠を得るための調整サブユニット236と、を含む。
運転者の顔画像を含むビデオストリームを収集するための車載カメラ31と、
本願の前記実施例に記載の動作認識装置により、前記ビデオストリーム内の少なくとも1フレームの画像の動作認識結果を得るための第1の取得ユニット32と、
動作認識結果が所定条件を満たすことに応答して、注意散漫又は危険運転のリマインディング情報を生成するための生成ユニット33と、を含む。
Claims (19)
- 顔が含まれる画像内の特徴を抽出するステップと、
前記特徴に基づいて、所定動作を含む可能性がある複数の候補枠を特定するステップと、
前記複数の候補枠に基づいて動作目標枠を特定するステップであって、前記動作目標枠が、顔の局所領域及び動作インタラクティブ物体を含むステップと、
前記動作目標枠に基づいて所定動作を分類し、動作認識結果を得るステップと、を含み、
顔が含まれる画像内の特徴を抽出するステップは、
ニューラルネットワークの特徴抽出ブランチにより、顔が含まれる画像内の特徴を抽出し、特徴マップを得るステップを含み、
前記特徴に基づいて、所定動作を含む可能性がある複数の候補枠を特定する前記ステップは、
前記ニューラルネットワークの候補枠抽出ブランチにより、前記特徴マップにおいて所定動作を含む可能性がある複数の候補枠を特定するステップを含む、
動作認識方法。 - 前記顔の局所領域は、口部領域、耳部領域、眼部領域の少なくとも1つを含み、
前記動作インタラクティブ物体は、容器、煙草、携帯電話、食べ物、工具、飲料ボトル、眼鏡、マスクの少なくとも1つを含み、
前記動作目標枠は、手部領域をさらに含み、
前記所定動作は、電話かけ、喫煙、水や飲料の飲用、食事、工具の使用、眼鏡かけ、化粧の少なくとも1つを含む、請求項1に記載の方法。 - 車載カメラによって車両乗員の顔が含まれる画像を撮影するステップをさらに含み、
前記車両乗員は、前記車両の運転領域の運転者、前記車両の助手席領域の人、前記車両の後部座席の人の少なくとも1つを含み、
前記車載カメラはRGBカメラ、赤外線カメラ又は近赤外線カメラである、請求項1又は2に記載の方法。 - 前記ニューラルネットワークの候補枠抽出ブランチにより、前記特徴マップにおいて所定動作を含む可能性がある複数の候補枠を特定する前記ステップは、
前記所定動作の特徴に基づいて、前記特徴マップ内の特徴を分割し、複数の候補領域を得るステップと、
前記複数の候補領域に基づいて、複数の候補枠と前記複数の候補枠のうちの各候補枠の第1の信頼度とを得るステップであって、前記第1の信頼度が、前記候補枠が前記動作目標枠である確率であるステップと、を含む、請求項1に記載の方法。 - 前記複数の候補枠に基づいて動作目標枠を特定する前記ステップは、
前記ニューラルネットワークの検出枠リファインメントブランチにより、前記複数の候補枠に基づいて動作目標枠を特定するステップを含む、請求項4に記載の方法。 - 前記ニューラルネットワークの検出枠リファインメントブランチにより、前記複数の候補枠に基づいて動作目標枠を特定する前記ステップは、
前記ニューラルネットワークの検出枠リファインメントブランチによって、第1の信頼度が第1の閾値より小さい候補枠を除去し、少なくとも1つの第1の候補枠を得るステップと、
前記少なくとも1つの第1の候補枠をプーリング処理し、少なくとも1つの第2の候補枠を得るステップと、
前記少なくとも1つの第2の候補枠に基づいて、動作目標枠を特定するステップと、を含む、請求項5に記載の方法。 - 前記少なくとも1つの第1の候補枠をプーリング処理し、少なくとも1つの第2の候補枠を得る前記ステップは、
前記少なくとも1つの第1の候補枠をそれぞれプーリング処理し、前記少なくとも1つの第1の候補枠に対応する少なくとも1つの第1の特徴領域を得るステップと、
各第1の特徴領域に基づいて、対応する第1の候補枠の位置及び大きさを調整し、少なくとも1つの第2の候補枠を得るステップと、を含む、請求項6に記載の方法。 - 各第1の特徴領域に基づいて、対応する第1の候補枠の位置及び大きさを調整し、少なくとも1つの第2の候補枠を得る前記ステップは、
前記第1の特徴領域内の前記所定動作に対応する特徴に基づいて、前記所定動作の特徴に対応する第1の動作特徴枠を得るステップと、
前記第1の動作特徴枠の幾何中心座標に基づいて、前記少なくとも1つの第1の候補枠の第1の位置オフセットを得るステップと、
前記第1の動作特徴枠の大きさに基づいて、前記少なくとも1つの第1の候補枠の第1のズーム倍率を得るステップと、
少なくとも1つの第1の位置オフセット及び少なくとも1つの第1のズーム倍率に基づいて、前記少なくとも1つの第1の候補枠の位置及び大きさをそれぞれ調整し、少なくとも1つの第2の候補枠を得るステップと、を含む、請求項7に記載の方法。 - 前記動作目標枠に基づいて所定動作を分類し、動作認識結果を得る前記ステップは、
前記ニューラルネットワークの動作分類ブランチにより、前記特徴マップ上の前記動作目標枠に対応する領域マップを取得し、前記領域マップに基づいて所定動作を分類し、動作認識結果を得るステップを含む、請求項1から8のいずれか一項に記載の方法。 - 前記ニューラルネットワークは、複数のサンプル画像を含むトレーニング画像セットに基づいて事前に教師ありトレーニングを行って得られたものであり、前記サンプル画像のラベリング情報は、動作監視枠、及び前記動作監視枠に対応する動作種別を含む、請求項1から9のいずれか一項に記載の方法。
- 前記トレーニング画像セットは正サンプル画像と負サンプル画像とを含み、前記負サンプル画像の動作が前記正サンプル画像の動作と類似し、前記正サンプルの動作監視枠は、顔の局所領域及び動作インタラクティブ物体を含むか、又は顔の局所領域、手部領域及び動作インタラクティブ物体を含む、請求項10に記載の方法。
- 前記正サンプル画像の動作は電話をかける動作を含み、前記負サンプル画像は耳を掻く動作を含み、及び/又は、前記正サンプル画像は喫煙、食事や飲水を含み、前記負サンプル画像は口を開く動作又は唇に手を当てる動作を含む、請求項10又は11に記載の方法。
- 前記ニューラルネットワークのトレーニング方法は、
サンプル画像の第1の特徴マップを抽出するステップと、
所定動作を含む可能性がある前記第1の特徴マップの複数の第3の候補枠を抽出するステップと、
前記複数の第3の候補枠に基づいて動作目標枠を特定するステップと、
前記動作目標枠に基づいて所定動作を分類し、動作認識結果を得るステップと、
前記サンプル画像の候補枠の検出結果と検出枠のラベリング情報の第1の損失、及び動作認識結果と動作種別ラベリング情報の第2の損失を特定するステップと、
前記第1の損失及び前記第2の損失に基づいて、前記ニューラルネットワークのネットワークパラメータを調整するステップと、を含む、請求項10から12のいずれか一項に記載の方法。 - 複数の第3の候補枠に基づいて動作目標枠を特定する前記ステップは、
前記所定動作に基づいて第1の動作監視枠を得るステップであって、前記第1の動作監視枠が、顔の局所領域及び動作インタラクティブ物体を含むか、又は顔の局所領域、手部領域及び動作インタラクティブ物体を含むステップと、
前記複数の第3の候補枠の第2の信頼度を得るステップであって、前記第2の信頼度が、前記第3の候補枠が前記動作目標枠である第1の確率、及び前記第3の候補枠が前記動作目標枠でない第2の確率を含むステップと、
前記複数の第3の候補枠と前記第1の動作監視枠の面積重なり具合を特定するステップと、
前記面積重なり具合が第2の閾値以上である場合、前記面積重なり具合に対応する前記第3の候補枠の前記第2の信頼度を前記第1の確率とし、前記面積重なり具合が前記第2の閾値より小さい場合、前記面積重なり具合に対応する前記第3の候補枠の前記第2の信頼度を前記第2の確率とするステップと、
前記第2の信頼度が前記第1の閾値より小さい前記複数の第3の候補枠を除去し、複数の第4の候補枠を得るステップと、
前記第4の候補枠の位置及び大きさを調整し、前記動作目標枠を得るステップと、を含む、請求項13に記載の方法。 - 車載カメラによって、運転者の顔画像を含むビデオストリームを収集するステップと、
請求項1から14のいずれか一項に記載の動作認識方法により、前記ビデオストリーム内の少なくとも1フレームの画像の動作認識結果を得るステップと、
動作認識結果が所定条件を満たすことに応答して、危険運転のリマインディング情報を生成するステップと、を含み、
前記所定条件は、特定の所定動作が現れること、所定時間内で特定の所定動作が現れる回数、前記ビデオストリームに現れている特定の所定動作の持続時間の少なくとも1つを含む、運転動作分析方法。 - 車載デュアルカメラが設けられている車両の車速を取得するステップをさらに含み、
動作認識結果が所定条件を満たすことに応答して、危険運転のリマインディング情報を生成する前記ステップは、前記車速が設定閾値より大きく且つ前記動作認識結果が前記所定条件を満たすことに応答して、危険運転のリマインディング情報を生成するステップを含む請求項15に記載の方法。 - コンピュータ実行可能コマンドが記憶されているメモリと、前記メモリ上のコンピュータ実行可能コマンドを実行する時に、請求項1から14のいずれか一項に記載の方法を実現し、又は請求項15又は16に記載の方法を実現するプロセッサと、を含む電子機器。
- プロセッサにより実行されると、請求項1から14のいずれか一項に記載の方法を実現し、又は請求項15又は16に記載の方法を実現するコンピュータプログラムが記憶されているコンピュータ可読記憶媒体。
- 機器のプロセッサ上で実行されると、請求項1から14のいずれか一項に記載の方法を実現し、又は請求項15又は16に記載の方法を実現するコンピュータプログラム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811130798.6A CN110956060A (zh) | 2018-09-27 | 2018-09-27 | 动作识别、驾驶动作分析方法和装置及电子设备 |
CN201811130798.6 | 2018-09-27 | ||
PCT/CN2019/108167 WO2020063753A1 (zh) | 2018-09-27 | 2019-09-26 | 动作识别、驾驶动作分析方法和装置、电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021517312A JP2021517312A (ja) | 2021-07-15 |
JP7061685B2 true JP7061685B2 (ja) | 2022-04-28 |
Family
ID=69951010
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020551540A Active JP7061685B2 (ja) | 2018-09-27 | 2019-09-26 | 動作認識、運転動作分析の方法及び装置、並びに電子機器 |
Country Status (6)
Country | Link |
---|---|
US (1) | US20210012127A1 (ja) |
JP (1) | JP7061685B2 (ja) |
KR (1) | KR102470680B1 (ja) |
CN (1) | CN110956060A (ja) |
SG (1) | SG11202009320PA (ja) |
WO (1) | WO2020063753A1 (ja) |
Families Citing this family (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110245662B (zh) * | 2019-06-18 | 2021-08-10 | 腾讯科技(深圳)有限公司 | 检测模型训练方法、装置、计算机设备和存储介质 |
US11222242B2 (en) * | 2019-08-23 | 2022-01-11 | International Business Machines Corporation | Contrastive explanations for images with monotonic attribute functions |
US10803334B1 (en) * | 2019-10-18 | 2020-10-13 | Alpine Electronics of Silicon Valley, Inc. | Detection of unsafe cabin conditions in autonomous vehicles |
KR102374211B1 (ko) * | 2019-10-28 | 2022-03-15 | 주식회사 에스오에스랩 | 객체 인식 방법 및 이를 수행하는 객체 인식 장치 |
US11043003B2 (en) | 2019-11-18 | 2021-06-22 | Waymo Llc | Interacted object detection neural network |
CN112947740A (zh) * | 2019-11-22 | 2021-06-11 | 深圳市超捷通讯有限公司 | 基于动作分析的人机交互方法、车载装置 |
CN111553282B (zh) * | 2020-04-29 | 2024-03-29 | 北京百度网讯科技有限公司 | 用于检测车辆的方法和装置 |
CN111931640B (zh) * | 2020-08-07 | 2022-06-10 | 上海商汤临港智能科技有限公司 | 异常坐姿识别方法、装置、电子设备及存储介质 |
CN112270210B (zh) * | 2020-10-09 | 2024-03-01 | 珠海格力电器股份有限公司 | 数据处理、操作指令识别方法、装置、设备和介质 |
CN112257604A (zh) * | 2020-10-23 | 2021-01-22 | 北京百度网讯科技有限公司 | 图像检测方法、装置、电子设备和存储介质 |
CN112339764A (zh) * | 2020-11-04 | 2021-02-09 | 杨华勇 | 一种基于大数据的新能源汽车驾驶姿态分析*** |
CN113011279A (zh) * | 2021-02-26 | 2021-06-22 | 清华大学 | 粘膜接触动作的识别方法、装置、计算机设备和存储介质 |
WO2022217551A1 (zh) * | 2021-04-15 | 2022-10-20 | 华为技术有限公司 | 目标检测方法和装置 |
CN113205067B (zh) * | 2021-05-26 | 2024-04-09 | 北京京东乾石科技有限公司 | 作业人员监控方法、装置、电子设备和存储介质 |
CN113205075A (zh) * | 2021-05-31 | 2021-08-03 | 浙江大华技术股份有限公司 | 一种检测吸烟行为的方法、装置及可读存储介质 |
CN113362314B (zh) * | 2021-06-18 | 2022-10-18 | 北京百度网讯科技有限公司 | 医学图像识别方法、识别模型训练方法及装置 |
CN114670856B (zh) * | 2022-03-30 | 2022-11-25 | 湖南大学无锡智能控制研究院 | 一种基于bp神经网络的参数自整定纵向控制方法及*** |
CN116901975B (zh) * | 2023-09-12 | 2023-11-21 | 深圳市九洲卓能电气有限公司 | 一种车载ai安防监控***及其方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015001979A (ja) | 2013-06-14 | 2015-01-05 | 由田新技股▲ふん▼有限公司 | 車両運転用の警告方法および車両用の電子装置 |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8447100B2 (en) * | 2007-10-10 | 2013-05-21 | Samsung Electronics Co., Ltd. | Detecting apparatus of human component and method thereof |
KR101386823B1 (ko) * | 2013-10-29 | 2014-04-17 | 김재철 | 동작, 안면, 눈, 입모양 인지를 통한 2단계 졸음운전 방지 장치 |
CN104573659B (zh) * | 2015-01-09 | 2018-01-09 | 安徽清新互联信息科技有限公司 | 一种基于svm的驾驶员接打***控方法 |
CN105260705B (zh) * | 2015-09-15 | 2019-07-05 | 西安邦威电子科技有限公司 | 一种适用于多姿态下的驾驶人员接打电话行为检测方法 |
CN105260703B (zh) * | 2015-09-15 | 2019-07-05 | 西安邦威电子科技有限公司 | 一种适用于多姿态下的驾驶人员抽烟行为检测方法 |
JP6443393B2 (ja) * | 2016-06-01 | 2018-12-26 | トヨタ自動車株式会社 | 行動認識装置,学習装置,並びに方法およびプログラム |
CN106096607A (zh) * | 2016-06-12 | 2016-11-09 | 湘潭大学 | 一种车牌识别方法 |
CN106504233B (zh) * | 2016-10-18 | 2019-04-09 | 国网山东省电力公司电力科学研究院 | 基于Faster R-CNN的无人机巡检图像电力小部件识别方法及*** |
CN106780612B (zh) * | 2016-12-29 | 2019-09-17 | 浙江大华技术股份有限公司 | 一种图像中的物体检测方法及装置 |
CN106815574B (zh) * | 2017-01-20 | 2020-10-02 | 博康智能信息技术有限公司北京海淀分公司 | 建立检测模型、检测接打手机行为的方法和装置 |
CN106941602B (zh) * | 2017-03-07 | 2020-10-13 | 中国铁路总公司 | 机车司机行为识别方法及装置 |
CN107316001A (zh) * | 2017-05-31 | 2017-11-03 | 天津大学 | 一种自动驾驶场景中小且密集的交通标志检测方法 |
CN107316058A (zh) * | 2017-06-15 | 2017-11-03 | 国家新闻出版广电总局广播科学研究院 | 通过提高目标分类和定位准确度改善目标检测性能的方法 |
CN107563446B (zh) * | 2017-09-05 | 2020-08-18 | 华中科技大学 | 一种微操作***目标检测方法 |
-
2018
- 2018-09-27 CN CN201811130798.6A patent/CN110956060A/zh active Pending
-
2019
- 2019-09-26 SG SG11202009320PA patent/SG11202009320PA/en unknown
- 2019-09-26 JP JP2020551540A patent/JP7061685B2/ja active Active
- 2019-09-26 KR KR1020207027826A patent/KR102470680B1/ko active IP Right Grant
- 2019-09-26 WO PCT/CN2019/108167 patent/WO2020063753A1/zh active Application Filing
-
2020
- 2020-09-21 US US17/026,933 patent/US20210012127A1/en not_active Abandoned
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015001979A (ja) | 2013-06-14 | 2015-01-05 | 由田新技股▲ふん▼有限公司 | 車両運転用の警告方法および車両用の電子装置 |
Also Published As
Publication number | Publication date |
---|---|
JP2021517312A (ja) | 2021-07-15 |
US20210012127A1 (en) | 2021-01-14 |
KR102470680B1 (ko) | 2022-11-25 |
KR20200124280A (ko) | 2020-11-02 |
SG11202009320PA (en) | 2020-10-29 |
CN110956060A (zh) | 2020-04-03 |
WO2020063753A1 (zh) | 2020-04-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7061685B2 (ja) | 動作認識、運転動作分析の方法及び装置、並びに電子機器 | |
US20210073953A1 (en) | Method for applying bokeh effect to image and recording medium | |
KR102500760B1 (ko) | 이미지 획득 장치 및 그의 제어 방법 | |
CN111566612A (zh) | 基于姿势和视线的视觉数据采集*** | |
US20200142499A1 (en) | Systems and methods for triggering actions based on touch-free gesture detection | |
US10223838B2 (en) | Method and system of mobile-device control with a plurality of fixed-gradient focused digital cameras | |
US20210081754A1 (en) | Error correction in convolutional neural networks | |
KR101198322B1 (ko) | 얼굴 표정 인식 방법 및 시스템 | |
CN110956061B (zh) | 动作识别方法及装置、驾驶员状态分析方法及装置 | |
US11069151B2 (en) | Methods and devices for replacing expression, and computer readable storage media | |
EP3382510A1 (en) | Visibility improvement method based on eye tracking, machine-readable storage medium and electronic device | |
CN108076290B (zh) | 一种图像处理方法及移动终端 | |
JP2022530605A (ja) | 子供状態検出方法及び装置、電子機器、記憶媒体 | |
KR20210058887A (ko) | 이미지 처리 방법 및 장치, 전자 기기 및 저장 매체 | |
EP4042318A1 (en) | System and method of generating a video dataset with varying fatigue levels by transfer learning | |
CN110414428A (zh) | 一种生成人脸属性信息识别模型的方法 | |
CN112183200B (zh) | 一种基于视频图像的眼动追踪方法和*** | |
CN111062328A (zh) | 一种图像处理方法、装置及智能机器人 | |
CN114463725A (zh) | 驾驶员行为检测方法及装置、安全驾驶提醒方法及装置 | |
CN111488774A (zh) | 一种图像处理方法、装置和用于图像处理的装置 | |
US20230334907A1 (en) | Emotion Detection | |
WO2024001539A1 (zh) | 说话状态识别方法及模型训练方法、装置、车辆、介质、计算机程序及计算机程序产品 | |
CN111222444A (zh) | 一种考虑驾驶员情绪的增强现实抬头显示方法和*** | |
KR102384878B1 (ko) | 동영상을 필터링하는 방법 및 장치 | |
CN115205262A (zh) | 显微图像的处理方法、装置、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200924 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200924 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20211124 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220124 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220412 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220418 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7061685 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |