JP2022546643A - 不確実性を有するランドマーク位置推定のための画像処理システムおよび方法 - Google Patents
不確実性を有するランドマーク位置推定のための画像処理システムおよび方法 Download PDFInfo
- Publication number
- JP2022546643A JP2022546643A JP2022538569A JP2022538569A JP2022546643A JP 2022546643 A JP2022546643 A JP 2022546643A JP 2022538569 A JP2022538569 A JP 2022538569A JP 2022538569 A JP2022538569 A JP 2022538569A JP 2022546643 A JP2022546643 A JP 2022546643A
- Authority
- JP
- Japan
- Prior art keywords
- landmark
- uncertainty
- probability distribution
- image
- controller
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 51
- 238000012545 processing Methods 0.000 title description 3
- 238000009826 distribution Methods 0.000 claims abstract description 102
- 238000013528 artificial neural network Methods 0.000 claims abstract description 44
- 230000008569 process Effects 0.000 claims abstract description 20
- 239000011159 matrix material Substances 0.000 claims description 21
- 230000009471 action Effects 0.000 claims description 14
- 230000006870 function Effects 0.000 claims description 14
- 238000012544 monitoring process Methods 0.000 claims description 9
- 230000001815 facial effect Effects 0.000 claims description 8
- 230000002123 temporal effect Effects 0.000 claims description 7
- 238000013507 mapping Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 16
- 238000012549 training Methods 0.000 description 9
- 238000012360 testing method Methods 0.000 description 8
- 238000013459 approach Methods 0.000 description 7
- 210000000887 face Anatomy 0.000 description 5
- 238000001514 detection method Methods 0.000 description 4
- 238000005259 measurement Methods 0.000 description 4
- 238000013136 deep learning model Methods 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 238000003384 imaging method Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 230000000670 limiting effect Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 description 1
- 238000002679 ablation Methods 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000000875 corresponding effect Effects 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 210000002310 elbow joint Anatomy 0.000 description 1
- 210000004709 eyebrow Anatomy 0.000 description 1
- 230000008921 facial expression Effects 0.000 description 1
- 210000003128 head Anatomy 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 210000000629 knee joint Anatomy 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 210000003813 thumb Anatomy 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/77—Determining position or orientation of objects or cameras using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
- G06F18/2148—Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20076—Probabilistic image processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
- G06T2207/30201—Face
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Probability & Statistics with Applications (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
Description
システムの概要
Claims (20)
- 確率的な画像ベースのランドマーク位置推定に基づいてタスクを実行するためのコントローラであって、
ランドマークの構造化セットを有するオブジェクトの種類の入力画像のセットを受付けるように構成された入力インターフェイスと、
前記ランドマークの構造化セットを有する前記種類のオブジェクトの画像を処理して、処理された各画像における各ランドマークの位置にわたってパラメータの値によって定義されたパラメトリック確率分布を生成するように訓練されたニューラルネットワークを格納するように構成されたメモリと、
プロセッサとを備え、
前記プロセッサは、(1)前記入力画像のセットを前記ニューラルネットワークにサブミットして、各入力画像の前記ランドマークの構造化セットにおける各ランドマークの前記位置にわたって前記パラメトリック確率分布を定義する前記パラメータの前記値を生成し、(2)入力画像ごとに、前記入力画像における前記ランドマークのパラメトリック確率分布に基づいて、前記画像についてグローバルランドマーク不確実性を求め、かつ、(3)各入力画像におけるランドマークの前記パラメトリック確率分布と、各入力画像の前記グローバルランドマーク不確実性とに基づいて、前記タスクを実行するように構成される、コントローラ。 - ランドマークごとの前記パラメトリック確率分布の異なるパラメータは、前記ランドマークの前記位置の点推定値と、前記ランドマークについての前記位置推定の不確実性とを定義する、請求項1に記載のコントローラ。
- 前記プロセッサは、各画像における前記ランドマークの前記位置の前記点推定値と、各入力画像の前記グローバルランドマーク不確実性とに基づいて、前記タスクを実行する、請求項2に記載のコントローラ。
- 入力画像ごとの前記ランドマーク位置推定の精度を求めるために、前記プロセッサは、
前記ランドマークについて生成される前記パラメトリック確率分布の不確実性の測定値に基づいて、前記入力画像におけるランドマークごとに位置推定の不確実性を求め、かつ、
入力画像ごとに、前記画像における前記ランドマークの推定の求められた不確実性を組合わせて、前記入力画像についての前記グローバルランドマーク不確実性を生成するように構成される、請求項1に記載のコントローラ。 - 前記オブジェクトの種類は人間の顔であり、
前記ニューラルネットワークは異なる顔の画像を処理するように訓練され、
前記ランドマークの構造化セットは、典型的な顔に存在する特定の顔のランドマークを定義する、請求項1に記載のコントローラ。 - 前記入力画像のセットは、前記人間の顔の画像の時間的なシーケンスである、請求項5に記載のコントローラ。
- 前記オブジェクトは人間の体であり、
前記ニューラルネットワークは、異なる人間の体の画像を処理するように訓練され、
前記ランドマークの構造化セットは前記人間の体の特定の関節を定義する、請求項1に記載のコントローラ。 - 前記入力画像のセットは、前記人間の体の画像の時間的なシーケンスである、請求項7に記載のコントローラ。
- 前記ランドマークの前記パラメトリック確率分布はガウス確率分布であり、
前記ランドマークの前記位置の前記点推定値は、前記ガウス確率分布の前記平均によって求められ、
前記ランドマークの前記位置推定の不確実性は、前記ガウス確率分布の共分散行列から求められる、請求項2に記載のコントローラ。 - 前記ガウス確率分布の平均は1つ以上のヒートマップから取得され、前記共分散行列を求める前記パラメータは直接回帰によって取得される、請求項9に記載のコントローラ。
- 前記ランドマークについての位置推定の不確実性は、前記ガウス確率分布の前記共分散行列の決定要素のn乗根である、請求項9に記載のコントローラ。
- 前記ランドマークについての前記位置推定の不確実性は、前記ガウス確率分布の前記共分散行列の固有値の平均である、請求項9に記載のコントローラ。
- 前記ニューラルネットワークは砂時計型サブネットワークのスタックを含み、
各砂時計は、前記砂時計の最後の最大の特徴マップ層からランドマークごとにヒートマップを出力し、
ヒートマップは、前記ランドマークの前記位置を示す強度画像であり、前記パラメトリック確率分布の平均は、前記ヒートマップの正の値の位置の加重平均であり、
各砂時計はボトルネック層から特徴を出力し、
前記ボトルネック層の特徴値は、コレスキー推定量ネットワークによって処理されて、各ランドマークの前記共分散行列が導出される値を生成する、請求項9に記載のコントローラ。 - 前記ニューラルネットワークは、前記入力画像から前記ガウス確率分布に、グランドトゥルース・ランドマーク位置の尤度を最大化するマッピングを提供するように訓練される、請求項9に記載のコントローラ。
- 前記ニューラルネットワークは、損失関数として負の対数尤度を用いて訓練される、請求項14に記載のコントローラ。
- 現在の入力画像についてのランドマークの前記パラメトリック確率分布はガウス確率分布であり、
前記プロセッサは、以前の入力画像について求められたガウス確率分布を用いて前記現在の入力画像について前記カルマンフィルタによって出力される前記ガウス確率分布を更新するカルマンフィルタを用いて、前記画像内の前記ランドマークの前記位置にわたって最終的なガウス確率分布を取得するように構成される、請求項1に記載のコントローラ。 - タスク実行は、前記入力画像についての前記グローバルランドマーク不確実性が閾値より小さい場合、第1の一連のアクションを取ることと、前記入力画像についての前記グローバルランドマーク不確実性が閾値より大きい場合、第2の一連のアクションを取ることとを含む、請求項1に記載のコントローラ。
- 入力画像の前記グローバルランドマーク不確実性は、前記画像についての前記ランドマーク位置推定を提供するために用いられる不確実性フィードバックを提供する、請求項1に記載のコントローラ。
- 前記入力画像の前記グローバルランドマーク不確実性が閾値より大きい場合、前記プロセッサは、
毎回異なるランダム摂動を使用し、かつ、グローバルランドマーク不確実性を算出して、前記入力画像に対して前記ランドマーク位置推定を複数回実行し、
前記グローバルランドマーク不確実性を比較し、かつ、
最小のグローバルランドマーク不確実性を生じる前記ランドマーク位置推定の実行の結果を選択するように構成される、請求項18に記載のコントローラ。 - 前記タスクは車両運転手監視システムの一部である、請求項1に記載のコントローラ。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US16/592,822 | 2019-10-04 | ||
US16/592,822 US11127164B2 (en) | 2019-10-04 | 2019-10-04 | Image processing system and method for landmark location estimation with uncertainty |
PCT/JP2020/038687 WO2021066204A1 (en) | 2019-10-04 | 2020-09-30 | Image processing system and method for landmark location estimation with uncertainty |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022546643A true JP2022546643A (ja) | 2022-11-04 |
JP7345664B2 JP7345664B2 (ja) | 2023-09-15 |
Family
ID=73598164
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022538569A Active JP7345664B2 (ja) | 2019-10-04 | 2020-09-30 | 不確実性を有するランドマーク位置推定のための画像処理システムおよび方法 |
Country Status (5)
Country | Link |
---|---|
US (1) | US11127164B2 (ja) |
EP (1) | EP3891705A1 (ja) |
JP (1) | JP7345664B2 (ja) |
CN (1) | CN114503162A (ja) |
WO (1) | WO2021066204A1 (ja) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11487968B2 (en) * | 2019-12-16 | 2022-11-01 | Nvidia Corporation | Neural network based facial analysis using facial landmarks and associated confidence values |
US11574500B2 (en) * | 2020-09-08 | 2023-02-07 | Samsung Electronics Co., Ltd. | Real-time facial landmark detection |
US11978266B2 (en) | 2020-10-21 | 2024-05-07 | Nvidia Corporation | Occupant attentiveness and cognitive load monitoring for autonomous and semi-autonomous driving applications |
CN112580612B (zh) * | 2021-02-22 | 2021-06-08 | 中国科学院自动化研究所 | 一种生理信号预测方法 |
CN112990097B (zh) * | 2021-04-13 | 2022-11-04 | 电子科技大学 | 一种基于对抗消除的人脸表情识别方法 |
CN113946953B (zh) * | 2021-10-14 | 2024-06-28 | 厦门大学 | 一种求解概率盒框架下全局灵敏度的计算方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019125112A (ja) * | 2018-01-15 | 2019-07-25 | キヤノン株式会社 | 情報処理装置及びその制御方法及びプログラム、並びに、運転制御システム |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU2011305154B2 (en) * | 2010-09-24 | 2015-02-05 | Irobot Corporation | Systems and methods for VSLAM optimization |
GB201215944D0 (en) * | 2012-09-06 | 2012-10-24 | Univ Manchester | Image processing apparatus and method for fittng a deformable shape model to an image using random forests |
US10515259B2 (en) * | 2015-02-26 | 2019-12-24 | Mitsubishi Electric Research Laboratories, Inc. | Method and system for determining 3D object poses and landmark points using surface patches |
-
2019
- 2019-10-04 US US16/592,822 patent/US11127164B2/en active Active
-
2020
- 2020-09-30 EP EP20812445.3A patent/EP3891705A1/en active Pending
- 2020-09-30 CN CN202080068743.6A patent/CN114503162A/zh active Pending
- 2020-09-30 JP JP2022538569A patent/JP7345664B2/ja active Active
- 2020-09-30 WO PCT/JP2020/038687 patent/WO2021066204A1/en unknown
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019125112A (ja) * | 2018-01-15 | 2019-07-25 | キヤノン株式会社 | 情報処理装置及びその制御方法及びプログラム、並びに、運転制御システム |
Non-Patent Citations (1)
Title |
---|
NITESH B.GUNDAVARAPU,ET AL.: "Structured Aleatoric Uncertainty in Human Pose Estimation", CVPR WORKSHOP ON UNCERTAINTY AND ROBUSTNESS IN DEEP VISUAL LEARNING, JPN7023001614, 16 June 2019 (2019-06-16), US, pages 50 - 53, XP055770929, ISSN: 0005046127 * |
Also Published As
Publication number | Publication date |
---|---|
CN114503162A (zh) | 2022-05-13 |
JP7345664B2 (ja) | 2023-09-15 |
EP3891705A1 (en) | 2021-10-13 |
WO2021066204A1 (en) | 2021-04-08 |
US20210104068A1 (en) | 2021-04-08 |
US11127164B2 (en) | 2021-09-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7345664B2 (ja) | 不確実性を有するランドマーク位置推定のための画像処理システムおよび方法 | |
US11557085B2 (en) | Neural network processing for multi-object 3D modeling | |
US9262671B2 (en) | Systems, methods, and software for detecting an object in an image | |
US10283162B2 (en) | Method for triggering events in a video | |
JP6798183B2 (ja) | 画像解析装置、画像解析方法およびプログラム | |
JP4625074B2 (ja) | サインに基づく人間−機械相互作用 | |
US20200311855A1 (en) | Object-to-robot pose estimation from a single rgb image | |
JP4951700B2 (ja) | 視覚追跡のための適応型判別生成モデル及び逐次的フィッシャー判別分析並びにアプリケーション | |
US11651608B2 (en) | Distillation of part experts for whole-body pose estimation | |
EP3751517A1 (en) | Fast articulated motion tracking | |
US20190080462A1 (en) | Method and apparatus for calculating depth map based on reliability | |
JP2012518857A (ja) | 内側距離形状関係を使用する身体特徴検出及び人間姿勢推定 | |
KR102320999B1 (ko) | 폴트 톨러런스 및 플럭츄에이션 로버스트를 위한 복수의 뉴럴 네트워크를 사용하여 흔들리는 카메라로 인해 생성된 비디오에서 지터링을 제거하기 위한 학습 방법 및 학습 장치, 그리고 이를 이용한 테스트 방법 및 테스트 장치 | |
CN107704813B (zh) | 一种人脸活体识别方法及*** | |
JP2013156680A (ja) | フェーストラッキング方法、フェーストラッカおよび車両 | |
CN110738650A (zh) | 一种传染病感染识别方法、终端设备及存储介质 | |
JP4921847B2 (ja) | 対象物の三次元位置推定装置 | |
JP2010231350A (ja) | 人物識別装置、そのプログラム、及び、その方法 | |
JP2023525287A (ja) | ラベルなしの動き学習 | |
CN111709269B (zh) | 一种深度图像中基于二维关节信息的人手分割方法和装置 | |
KR102333768B1 (ko) | 딥러닝 기반 손 인식 증강현실 상호 작용 장치 및 방법 | |
US20240013357A1 (en) | Recognition system, recognition method, program, learning method, trained model, distillation model and training data set generation method | |
JP2007047949A (ja) | 口トラッキング装置及びコンピュータプログラム | |
CN112766063B (zh) | 基于位移补偿的微表情拟合方法和*** | |
KR102420924B1 (ko) | 딥러닝 기반 3d 시선 예측 방법 및 그 장치 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220221 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220221 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230425 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230613 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230808 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230905 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7345664 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |