JPH0696220A - 階層型ニューラルネットワークを用いた物体認識方式 - Google Patents

階層型ニューラルネットワークを用いた物体認識方式

Info

Publication number
JPH0696220A
JPH0696220A JP4246243A JP24624392A JPH0696220A JP H0696220 A JPH0696220 A JP H0696220A JP 4246243 A JP4246243 A JP 4246243A JP 24624392 A JP24624392 A JP 24624392A JP H0696220 A JPH0696220 A JP H0696220A
Authority
JP
Japan
Prior art keywords
neural network
layer unit
hierarchical neural
object recognition
sensor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP4246243A
Other languages
English (en)
Other versions
JP3110167B2 (ja
Inventor
Daiki Masumoto
大器 増本
Takashi Kimoto
隆 木本
Shigemi Osada
茂美 長田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP04246243A priority Critical patent/JP3110167B2/ja
Publication of JPH0696220A publication Critical patent/JPH0696220A/ja
Application granted granted Critical
Publication of JP3110167B2 publication Critical patent/JP3110167B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Image Analysis (AREA)

Abstract

(57)【要約】 【目的】 物体の形状や位置、またはカテゴリーを特定
する物体認識方式に関し、物体の像とモデルとの間の何
らかの測度を最大とする物体モデルと変換を探す最適化
問題を階層型ニューラルネットワークを用いて解くこと
を目的とする。 【構成】 認識結果としてのデータを入力層ユニット
に、物体に関するセンサ情報を出力層ユニットに教師デ
ータとして与える学習過程と、出力層ユニットの出力と
センサ情報との矛盾が少なく、外界に関する制約条件を
満足する解を、入力層ユニットへの入力を変化させ、該
矛盾および制約条件に対応するエネルギー関数を最小化
することによって探索する認識過程とから成る。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、物体の形状や位置を特
定したり、その物体のカテゴリーを特定する物体認識方
式に関し、物体検出や操作を行うために物体を認識する
必要がある様々な産業分野で利用することができる。
【0002】
【従来の技術】図12は本発明が対象とする物体認識シ
ステムの構成図である。同図において物体認識システム
1は、外界2に存在する物体に関するデータをサンプリ
ングや投影などにより像としてとらえるセンシングプロ
セス3と、得られた物体の像からその種類や位置等を特
定する認識プロセス4とから成っている。このような物
体認識システムの問題点についてまず一般的に説明す
る。
【0003】物体の像は、その物体とセンサとの相対位
置に応じて変化する。また、外界の状況に応じて変化す
る場合もある。例えば、視覚センサ(カメラ)で物体を
撮影する場合、照明条件(照度、光源の配置、スペクト
ル成分)によって、像は変わる。
【0004】ある物体Oi から、起こり得る全ての像
(見え)(Vi1,・・・Viki )への一対多写像Mi
考える。すると、物体認識とは、物体の像が一つ与えら
れた時に、Mi の逆写像により、元の物体Oi を復元す
る問題(刺激の等価性の問題)として定式化できる。
【0005】一般に、起こり得る全ての像の数は膨大で
あり、同じ物体の像でも、大きく異なる場合があるた
め、物体認識の問題は難しい。刺激の等価性の問題を解
決するために、各物体について十分な数の像をそのまま
記憶しておき、それらと与えられた物体の像とを比較す
るというアプローチがある。このアプローチは、直接ア
プローチと呼ばれる。
【0006】このアプローチは、一般の物体認識問題に
は適していない。認識するのに十分な数の像の数が膨大
なものになってしまうからである。この問題を解決する
には、記憶すべき像の数を減らさなければならない。す
なわち、一つの物体(カテゴリー)の像の間に規則性を
見出すことが鍵になる。以下では、この規則性の問題を
どのように解決しようとしているかに応じて、物体認識
のアプローチを分類する。
【0007】第1のアプローチは不変特性抽出法であ
る。この方法は、ある不変な特性が、物体の全ての見え
を通じて存在することを仮定している。例えば物体の周
囲長と面積の平方根との比である「コンパクト度」の概
念がある。この量は回転や平行移動や画像平面のスケー
リングの影響を受けない。この方法は、このような量を
いくつか定義して、それによって物体を特定しようとす
るものである。
【0008】不変特性抽出法は、単純な工業部品を一定
の観察条件で認識するような、限定された問題に適用さ
れて成功を収めている。しかし、一般には、物体が受け
るさまざまな変換に対して保存される特性を見つけるこ
とは難しい。
【0009】第2のアプローチは部分分解法である。こ
の方法は、多くの物体は自然に部分構成要素に分解する
ことができるという直観に基づいている。例えば、人体
は、頭、胴体、腕、脚に分解できる。この方法は、まず
部分を検出して、構成部分間の関係に基づいて認識を行
うものである。
【0010】しかし、部分構成要素への分解が自然に行
えないと、問題がかえって難しくなる。第3のアプロー
チは整列法である。
【0011】この方法は、物体の見えと、システムが記
憶している物体モデルとの間の差をもたらした変換を検
出し、それを明示的に補償するものである。この方法
は、以前から、印刷文字の認識などの領域で適用されて
きたものであるが最近になって、この方法を複雑な3次
元物体の認識に適用しようという試みがされている。
【0012】物体の見えが、記憶した物体モデルと異な
るのは、その物体とセンサとの相対位置の変化のような
変換を受けるからである。この方法では、まず物体の特
定の前に、この変換を検出する。そして、この変換を帳
消しにする。この段階を整列段階(正規化段階)とよ
ぶ。整列後に、記憶モデルと見えとのマッチングを行っ
て物体を特定する。
【0013】これら3つのアプローチには、それぞれ一
長一短がある。不変特性抽出法、部分分解法は、前述し
たように、一般の物体認識に拡張することが困難であ
る。
【0014】整列法は、物体を特定する前に変換を検出
し、その逆変換を施す必要がある。これには問題点が三
つある。その第1は物体の特定と変換の問題である。正
投影の場合は3次元物体の位置に関する変換を検出する
ためには、物体の見えと物体モデルの対応する3点の座
標がわかれば良いことが証明されている。しかし、物体
を特定する前に、対応する3点を見つけるのは難しい。
なぜならば、対応する3点としては、検出しやすく、対
応づけが容易な特徴点を選びたいのだが、そのような点
は物体によって異なるからである。例えば、多面体では
頂点が適当だが、円盤では中心が適当である。したがっ
て、一般に、物体の特定と、変換の検出とを分離して行
うことはできない。
【0015】第2は定式化されていない変換の問題であ
る。物体の見えと、システムが記憶している物体モデル
との間の差をもたらした変換は、位置に関するものだけ
ではない。センサそのものの特性に基づくゆがみや、雑
音による変形もある。これらは、位置の変換のように定
式化されたものではない。したがって、この変換の検
出、および逆変換は困難である。
【0016】第3の問題点は逆変換の不良設定性であ
る。変換が検出できても、その逆変換が不良設定性をも
つことがある。不良設定性をもつとは、変換前の物体
を、・矛盾なしに復元することができない。
【0017】・一意に復元することができない。 ・復元する際、初期条件に不連続に依存してしまう。 という条件のいずれかを満たしてしまうということであ
る。
【0018】ここで物体認識の問題を、解空間内での探
索として定式化してみる。Tijを、物体モデルMi に作
用し得る全ての変換とすると、探索の目標は、物体の像
Vとモデルとの間の何らかの測度を最大にするような物
体モデルと変換を探すことになる。すなわち、すべての
i とTijに渡って、F(V,(Mi ,T ij))を最大
にするものを探すのである。
【0019】整列法は、変換Tijが定式化されていて、
かつ逆変換が一意に定まる場合に、この探索問題(最適
化問題)を2段階に分けて行うものである。しかし、2
段階に明確に区分するのは難しく、また一般には、変換
ijは1対1写像ではなく、定式化されていない。
【0020】本発明の課題は、センサから物体に関する
情報を取得して物体を認識する物体認識システムにおい
て、この最適化問題を階層型ニューラルネットワークを
用いて解くことである。
【0021】
【課題を解決するための手段及び作用】図1は本発明の
機能ブロック図である。同図は階層型ニューラルネット
ワークを備え、センサから物体に関する情報を取得して
物体を認識する物体認識システムにおける階層型ニュー
ラルネットワークを用いた物体認識方式の機能ブロック
図である。
【0022】図1において、本発明の物体認識方式は学
習過程11と認識過程12とから成る。学習過程11に
おいては、物体の認識結果としてのデータ、例えば物体
の形状や位置に関するデータがニューラルネットワーク
の入力層ユニットに、また物体に関するセンサからの情
報、例えばカメラによる物体の画像データが出力層ユニ
ットに教師データとして与えられる。そして、例えばバ
ックプロパゲーション法によって、ニューラルネットワ
ークの出力層ユニットからの出力と物体に関するセンサ
からの情報との誤差がある一定値以下になるまで学習が
実行される。
【0023】認識過程12においては、学習後のニュー
ラルネットワークの出力層ユニットの出力と認識対象物
体に関するセンサからの情報との矛盾、例えば誤差が少
なくなるように、また外界に関する制約条件を満足する
ような認識結果を探索する処理が行われる。この探索に
おいては、認識結果に対応する、入力層ユニットへの入
力データを変化させて、出力層ユニットの出力とセンサ
からの情報との矛盾、および外界に関する制約条件に対
応するエネルギー関数を最小化することによって、物体
認識結果、例えば物体の形状、カテゴリーの認識結果と
一致するような入力データが得られることになる。
【0024】本発明においては、まず図1の学習過程1
1に先立ってニューラルネットワークの設定などの処理
が行われる。すなわちニューラルネットワークに関して
は、認識対象物体のトークン、すなわち物体の種類につ
けられたインデックスや、物体の位置のニューラルネッ
トワーク上での表現が決定される。例えば認識対象物体
が複数種類存在する場合には、対象物体のトークンの数
に対応する個数の入力層ユニットがそれぞれのトークン
に対応させられる。続いて物体のトークンや物体の位置
に関する先験的知識がエネルギー関数として表現され
る。
【0025】図1の学習過程11においては、物体のト
ークンや位置を変化せさせて、その時センサから得られ
た情報が集められ、階層ニューラルネットワークの入力
層に物体のトークンや位置のデータが、また出力層に物
体に関するセンサデータが教師データとして与えられ、
バックプロパゲーション法による学習が行われる。
【0026】認識過程12においては、例えば乱数によ
る設定などの何らかの方法によって物体のトークンや位
置に関する初期値が設定され、その初期値がネットワー
クの入力層ユニットに入力され、ネットワークの出力層
ユニットからの出力値と物体に関する実際のセンサデー
タとの差が計算される。そして一般的なバックプロパゲ
ーション法と同様に、誤差に対応するエネルギー関数
と、物体のトークンおよび位置に関する先験的知識に対
応するエネルギー関数との和が最小となるように、最急
降下法によってネットワークへの入力値の修正が行われ
る。そしてこの処理の後に、例えばニューラルネットワ
ークの出力層ユニットの出力と実際のセンサデータとの
誤差がある一定値以下に収束した時点で、ネットワーク
への入力データ、すなわち物体のトークンや位置に関す
るデータが認識物体に対する認識結果とされる。なおこ
の認識過程においてはニューラルネットワーク内部の重
みや閾値の修正は行われず、入力データを修正すること
によって誤差がある一定値以下に収束するまで処理が続
けられる。
【0027】ここで、本発明が前述の逆変換の不良設定
性を解決する手段となり得る理論的根拠について説明す
る。センサ情報処理を最適化問題として定式化する正則
化理論、ベイズの定理に基づく統計的決定理論(ベイズ
推定)について述べる。これらは、ギブス分布を仮定す
ることにより統一的に議論できることを示し、本発明が
ベイズ推定における最大事後確立推定(the Maximum A
Posterior(MAP)estimate)に対応していることを示
す。
【0028】正則化理論(regularization theory)にお
ける正則化とは、適切な制約条件を用いての解の探索空
間を狭めることによって、不良設定問題を良設定問題に
変換する手法である。この方法により、一部が欠落し
た、信頼性の低いデータから、解を一意に求めることが
できる。
【0029】標準正則化理論(standard regularizatio
n theory) では、未知の量xから、線型操作を受けて、
データが得られる場合に、データyから未知の量xを推
定する問題の解法として、
【0030】
【数1】
【0031】を最小にするxを求めるという最小化問題
に持ち込む。λを両者を考慮するかねあいを決める正則
化パラメータである。‖Ax−y‖2 は、データと解と
の差を表し、ペナルティ汎関数とよぶ。
【0032】‖Px‖2 は、解に対する制約条件(例え
ば、滑らかさ)を表し、安定化汎関数とよぶ。この定式
化は「観測データとの矛盾が少なく、制約条件を良く満
たすような解を探す」ことを意味している。
【0033】標準正則化理論では、二次形式のノルムを
採用しており、Pは線形作用素に限定している。この条
件の下では、解空間が凸であり、解が唯一存在すること
を、二次形式の変分原理によって示すことができる。非
二次形式の汎関数の場合は、解空間は凸ではなく、多く
の局所最小値(ローカルミニマム)を持つ。
【0034】例として、一次元データd(x)を補間す
る問題を考える。正則化理論のアプローチでは、この問
題を、汎関数E(x)を最小にするような関数f(x)
を見つけることに帰着させる。
【0035】
【数2】
【0036】第1項は、ペナルティ汎関数であり、第2
項は、安定化汎関数である。この項は、適切な微分作用
素Lによって、解に滑らかさの拘束を与える。データが
正方格子上で与えられ、エネルギー関数が離散化されて
いる場合、滑らかさの作用素をL=d/dxと仮定する
とエネルギー関数は次式になる。
【0037】
【数3】
【0038】ベイズの定理は事象の条件付確立に関する
ものである。
【0039】
【数4】
【0040】例えば、Xは、ある特定のシーン(りん
ご)で、Yは、そのシーンを写した画像である。式中の
確率は以下のように説明できる。 P(X|Y)その画像に写っているシーンがりんごであ
る事後確立(a posteriori Probability) 。
【0041】P(X|Y)りんごのシーンを写した場
合、その画像になる確立。 りんごがどのように画像に写されるかのモデルに対応す
る。 P(X)シーンにりんごがある事前確率(a priori Pro
bability) 。
【0042】P(Y)その画像が出現する事前確率 P(X|Y)とP(X)とから決まる正規化パラメータ
である。 この定理を利用する視覚情報処理システムでは、事前確
率(P(X))と外界の情報がどのように画像に投影さ
れるかのモデルに対応する確率(P(X|Y))を決め
るための仮定が必要になる。これらの確率を決めてしま
えば、システムはペイズの定理を使って、その画像にり
んごが写っている確率を決めることができる。
【0043】次に最大事後確率推定(the Maximum A Po
sterior(MAP)estimate)について述べる。ベイズの定
理を使って、「Xが何であるか」求めるためには、Xの
事後確率分布P(X|Y)の統計量を計算しなければな
らない。一つのアプローチは、事後確率を最大にするX
を解とみなすもので、この方法をXの最大事後確率推定
(MAP推定)と呼ぶ。
【0044】事前確率(P(X))が一様、すなわちデ
ータが観測される前、全ての解が同じ確率で起こり得る
という知識がある。あるいは、何も事前知識がない(ど
の解が出てもおかしくない)場合は、MAP推定は、最
尤推定(the Maximum Likelihood Estimate:MLE) と
呼ばれる。MLEは、外界の情報がどのように画像に投
影されるかのモデルに対応する確立(P(X|Y))を
最大にするXを見つける。
【0045】エネルギー最小化/正則化のアプローチ
は、確率分布としてギブス分布(Gibbsdistribution)を
仮定すると、ベイズ推定の枠組で議論できる。ωを確率
変数とすると、ギブス分布は、以下のように表現でき
る。
【0046】
【数5】
【0047】βは定数。 Zは分配関数(partition function) と呼ばれる、正規
化のための定義。 E(ω)はエネルギーに対応する量。
【0048】(4)式のエネルギー関数を例にとると、
ガウシアン関数の積から成る確立分布になる。
【0049】
【数6】
【0050】右辺第1項は、P(d|f)に、第2項
は、P(f)に対応する。(8)式のfは、(5)式の
Xに、dはYに対応する。エネルギー関数E(f,d)
を最小化して、解fopt を見つけること、すなわち
【0051】
【数7】
【0052】は対応する確率を最大にすること(最大事
後確率推定)と等化になる。
【0053】
【数8】
【0054】したがって、本発明がベイズ推定における
最大事後確率推定(the Maximum A Posterior(MAP)e
stimate)に対応していることがわかる。
【0055】
【実施例】図2は本発明における物体の表現とエネルギ
ー関数の設定の説明図である。同図において、物体表現
としては外界の物体の種類が例えばトークンとして、ま
た物体の位置、例えばカメラとの相対位置がニューラル
ネットワークの入力層のそれぞれのユニットに与えられ
る。また物体のトークンや位置に関する先験的知識がエ
ネルギー関数として表現される。この先験的知識として
は、例えばニュートンの運動法則のような物理法則に基
づく拘束や、物体が剛体であるという仮定のような自然
な拘束、または以前の観測から推定される外界について
の期待としての人工的な拘束などがある。
【0056】図3は学習過程の説明図、図4はそのフロ
ーチャートである。これらの図において、まずで外界
にある物体のトークンや位置Sを変化させて、その時セ
ンサから出力される物体の像αが教師データとして集め
られる。そしてでこのsとdとの関係が教師データと
して、sが入力層の各ユニットに与えられ、またdは出
力層ユニットの出力との誤差を計算するために出力層ユ
ニットに掲示される。そしてバックプロパゲーション法
によってニューラルネットワークの重みの更新が行われ
る。
【0057】図5は階層型ニューラルネットワークの説
明図である。同図において入力層のユニットと中間層ユ
ニットとの間の重みはw、中間層ユニットと出力層ユニ
ットとの間の重みはvで表現されており、図3のでは
重みとしてのwとvとの修正が行われる。
【0058】図6は認識過程の説明図、図7はそのフロ
ーチャートである。認識過程においては、まずで物体
のトークンや位置sの初期値s0 がニューラルネットワ
ークの入力層ユニットに与えられる。そしてセンサによ
って得られた物体の像dがでニューラルネットワーク
の出力層のユニットに掲示され、出力層ユニットの出力
fと像dとの誤差がある一定値以下に収束するまで、入
力層ユニットへの入力データの修正が行われる。誤差が
ある一定値以下に収束した時点で、その時の入力層ユニ
ットへの入力がで認識結果、例えば物体の種類や位置
の認識結果として得られることになる。
【0059】図8は本発明の認識方式を用いる視覚情報
処理システムの概要説明図である。このシステムは対象
物20を視覚センサとしてのカメラ21で撮影し、その
画像から、例えば頂点のような特徴点を抽出し、対象物
の種類や位置を特定する視覚情報処理システムである。
【0060】図9(a)は本発明における階層型ニュー
ラルネットワーク22の実施例の説明図である。前述の
ように、この実施例は物体のトークンおよびカメラと物
体との相対的な角度を入力とし、画像中の特徴点の座標
を出力する階層型ニューラルネットワーク22から構成
される。ここでは簡単のため対象物20としては多面体
に限定されるものとするが、一般の物体についても適切
な特徴点を用いれば本発明を適用することが可能であ
る。
【0061】図9(a)において、ニューラルネットワ
ーク22の入力層ユニットは白丸、出力層ユニットは
(四面体の各頂点のx,y座標に対応する8個)は黒丸
で示されている。入力層ユニットのうちn個に対しては
物体のトークンが割り当てられる。すなわちここでは物
体の種類がn個あるものとし、対象物の種類に応じたト
ークンmi の1つだけが‘1’となる。
【0062】対象物20の位置は図9(b)に示す2つ
の角度θとφによって入力層ユニットに与えられるもの
とする。すなわち視野の中心としての一点の座標
(xc ,y c ,zc )を中心とする球面上のどこからカ
メラが物体を見ているかを指定するために、必要な2つ
の角度θとφが用いられる。一般的にはこの球面の半径
も必要であるが、ここでは簡単のために位置の自由度を
‘2’に制限して、θとφだけで位置を指定するものと
する。これは常に同じ点を同一の距離から視野の中心に
見ることに対応する。
【0063】なお特徴点の数が異なる複数種類の物体を
認識する必要のあるような場合には出力層のユニット数
を特徴点の数が最大のものに合わせておくことで対応で
きる。この場合には画像中の特徴点に対応しない出力層
ユニットからは誤差を逆伝搬しないように学習が行われ
る。
【0064】前述のように、トークンを示すmi のうち
値が‘1’をとるものは1つだけであるとしたが、これ
は物体のトークンsに関する先験的知識として常に1つ
の物体の全体が視野に入っているということを使ってお
り、mi のうち1つ以外は全て‘0’であるという制約
が与えられていることになる。
【0065】学習過程においては、まずsを変化させ
て、そのときセンサから出力されたセンサデータdを集
める。この場合は、頂点の数がある一定値である多面体
を用意する。それを上記の位置拘束条件に従って、カメ
ラで撮影し、頂点を特徴点として検出する。
【0066】次に階層ニューラルネットワークの入力層
に物体のトークン、位置sを、出力層に像dを教師デー
タとして与え、その写像を誤差逆伝搬学習によって学習
する。
【0067】この場合は入力層に物体のトークンmi
位置θとφを表現するユニットをそれぞれ用意する、出
力層には特徴点の座標(xj ,yj )に対応するユニッ
トを用意する。この間の写像を、先に生成した教師デー
タを用い、誤差逆伝搬学習によって学習する。
【0068】認識過程においては、まず何らかの方法に
よって、物体のトークン、位置の初期値s(0)を過程
して、それをネットワークに入力する。次にネットワー
クから出力された像fと、実際に計測された像dとの差
を計算する。この場合はネットワークから出力された特
徴点の座標と、実際に撮影された画像の特徴点の座標と
の差をユニットごとに計算する。
【0069】続いてその差に対応するエネルギー関数。
【0070】
【数9】
【0071】と外界に関する先験的知識に対応するエネ
ルギー関数U(s)との和
【0072】
【数10】
【0073】を、最急降下法によって最小にする。
【0074】
【数11】
【0075】Kは定数、エネルギー関数を最小とするs
が解となる。右辺第2項は、以下のように展開できる。
【0076】
【数12】
【0077】この式の第1項について考える。
【0078】
【数13】
【0079】右辺の偏微分は、物体のトークン、位置が
変化した時に、像がどの程度変化するかを表している。
すなわち、ニューラルネットワークの入力層の一つのユ
ニットの値の変化が、出力層の一つのユニットの出力値
の変化にどのくらい影響するかという感度を表す。これ
は以下のように計算できる。
【0080】図5のように、入力層のユニットiの入出
力値をsi ,入力層ユニットiと中間層のユニットkと
の間の結合の重みをwki,中間層のユニットkの入力値
をHk =Σi kii ,中間層のユニットkの出力値を
k =σ(Hk ),(σはユニットの入出力関数)
【0081】
【数14】
【0082】
【数15】
【0083】以上のように本発明では階層型ニューラル
ネットワークを用いて物体認識が行われるが、本発明で
は一般的な使用法とは逆にネットワークの入力層ユニッ
トに物体のトークンや位置が与えられ、出力層ユニット
からはセンサデータとしての観測値が出力される点に最
大の特徴がある。これに対して、一般的には入力層ユニ
ットに観測値が与えられ、出力層ユニットからは認識結
果としての物体のトークンや位置が出力される。
【0084】本発明と一般的な場合とを、自転車とその
プラモデル(ミニカー、玩具)の認識を例にとって比較
する。一般的な場合には自転車の画像とミニカーのアッ
プの画像が同じとし、出力層ユニットからの出力により
両者を区別させるものとすると、ネットワークは両者の
平均値を学習することになり、認識結果はどちらにも落
ち着かないことになる。
【0085】これに対して本発明においては、入力層ユ
ニットに実物か玩具かの区別を、アドホックな、すなわ
ち状況に応じた仮定として設定して入力することによっ
て必ずどちかに落ち着くという利点がある。さらに本発
明ではネットワークは物体のトークンや位置と観測デー
タとの関係、すなわち非線形性の弱い関係を学習してい
るという特徴もある。
【0086】図10は認識する物件の種類、または認識
するカテゴリーの種類に対応する数だけニューラルネッ
トワークを備えた複数ネットワークシステムの構成図で
ある。同図において、物体の種類やカテゴリーの種類の
数に対応して複数のネットワークを設けることによっ
て、単一のネットワークだけを用いる場合に比べて1つ
のネットワークの規模を小さくすることができる。ネッ
トワークの規模を小さくすることによって、学習時間の
短縮やネットワークの役割の明確化が実現される。
【0087】また新たな物体やカテゴリーを学習させる
場合に、単一ネットワークでは以前の学習データを含め
て学習のやり直しを行う必要があるのに対して、複数ネ
ットワークを用いる場合には新しい物体やカテゴリーに
対応する新しいネットワークだけに学習を行わせ、それ
をシステムに付け加えるだけでよいという利点がある。
単一のネットワークの場合に再学習が必要となる理由
は、新たな学習だけでは以前の学習結果としての重みな
どが以前の学習データに関係なく修正されてしまうから
であり、従って学習終了後も以前の教師データをとって
おく必要がある。
【0088】図10において、複数のネットワークに与
えられる入出力データは全てのネットワークで共通とさ
れる。ある決められた時間内に誤差がある一定値以下に
収束したネットワークの入力データが物体認識結果とさ
れる。
【0089】図11は図10のように複数のネットワー
クを用いない場合の新しい物体に対する学習の可能性の
説明図である。前述の変換Tijが物体によって変わら
ず、共通の場合には、学習の結果、入力層のユニットか
ら中間層ユニットへの結合の重みとして物体モデルMi
を表現し、中間層ユニットから出力層ユニットへの結合
の重みとして変換Tijを表現するというような役割分担
が行われることが期待される。その場合には、新たな物
体Mn を学習するにあたり、入力層ユニットから中間層
ユニットへの結合の重みだけを学習すればよいことにな
り、以前の学習でニューラルネットワーク内に実現され
たモデルや変換を破壊することが避けられるものと期待
される。
【0090】なお、以上の実施例では、例えば図8にお
いて視覚センサとしてのカメラの画像を直接ニューラル
ネットワークに与えるものとしたが、画像に対して細線
化や端点抽出などの特徴量抽出を行い、その結果をニュ
ーラルネットワークに与えることも可能である。
【0091】
【発明の効果】以上詳細に説明したように、本発明によ
れば階層型ニューラルネットワークを用いて極めて有効
な物件認識システムを構築することができる。
【0092】本発明は、物体の特定と変換の検出とを分
離しておらず、ニューラルネットワークを用いて、同時
並列に行っているため、物体に応じた変換を行うことが
できる。
【0093】またセンサそのものの特性に基づくゆがみ
や、雑音による変形のような定式化されていない変換
は、階層型ニューラルネットワークの非線形写像近似能
力により解決できる。
【0094】さらに逆変換の不良設定性については適切
な制約条件を用いて解の探索空間を狭めることによって
解決できる。本発明の学習方式では隠れていたり、ノイ
ズの影響などですべての特徴点を検出できない場合で
も、検出できた特徴と先験的知識を使って、尤らしい推
定をするので、安定である。
【0095】また、学習していない物体を見せて認識さ
せようとしても、矛盾が解消しないため、いつまでも収
束しない、その様子を観察すれば、その物体が未知のも
のであることがわかる。
【0096】本発明は、雑音に強く、アルゴリズムの動
作を保証する根拠をもち、得られた結果の意味が明確で
あるという利点をもつ、アドホックな仮定を設けても、
それが他の計算と分離されているので、仮定だけを修正
することが可能である。また、並列計算に適した計算の
性質を持っている。
【0097】階層型ニューラルネットワークを用いた方
法としての効果としては、第1にネットワークは、セン
サデータと処理結果との関係だけを学習し、仮定はエネ
ルギー関数として設定するので、仮定が成り立たない事
例に対しては、適切な仮定を設けて、別のエネルギー関
数を用意すれば、希望の処理を行うことができる。学習
をやり直す必要がない。
【0098】第2にネットワークは、外界の情報がセン
サにどのように取り込まれるかの特性、各センサ固有の
特性(偏り、歪み等)、雑音付加といった良設定問題だ
けを学習することになるので、汎化性が期待できる。
【0099】第3に学習する関係の非線形性が弱いた
め、中間層のユニットは少なくて済み、ネットワークは
小規模で良い、学習時間の短い、という効果がある。
【図面の簡単な説明】
【図1】本発明の機能ブロック図である。
【図2】本発明における物体表現とエネルギー関数の設
定を説明する図である。
【図3】物体認識システムの学習過程の説明図である。
【図4】物体認識システムの学習過程の処理フローチャ
ートである。
【図5】階層型ニューラルネットワークの例を示す図で
ある。
【図6】認識過程の説明図である。
【図7】認識過程の処理フローチャートである。
【図8】視覚情報処理システムの概要を示す図である。
【図9】階層型ニューラルネットワークの実施例を示す
図である。
【図10】複数のネットワークを備えたシステムの構成
を示す図である。
【図11】単一のネットワークにおける新たな物体に対
する学習の可能性を説明する図である。
【図12】物体認識システムの説明図である。
【符号の説明】
1 物体認識システム 2 外界 3 センシングプロセス 4 認識プロセス 11 学習過程 12 認識過程 20 対象物 21 カメラ 22 階層型ニューラルネットワーク

Claims (8)

    【特許請求の範囲】
  1. 【請求項1】 階層型ニューラルネットワークを備え、
    センサから物体に関する情報を取得して物体を認識する
    物体認識システムにおいて、 物体認識結果としてのデータを該ニューラルネットワー
    クの入力層ユニットに、該物体に関するセンサからの情
    報を出力層ユニットに教師データとして与える学習過程
    (11)と、 学習後の該ニューラルネットワークの出力層ユニットの
    出力と認識対象物体に関するセンサからの情報との矛盾
    が少なく、外界に関する制約条件を最もよく満足する認
    識結果を、該認識結果に対応する入力層ユニットへの入
    力データを変化させ、該矛盾および制約に対応するエネ
    ルギー関数を最小化することによって探索する認識過程
    (12)とから成ることを特徴とする階層型ニューラル
    ネットワークを用いた物体認識方式。
  2. 【請求項2】 前記学習過程(11)において、バック
    プロパゲーション法を用いることを特徴とする請求項1
    記載の階層型ニューラルネットワークを用いた物体認識
    方式。
  3. 【請求項3】 前記認識過程(12)において、前記エ
    ネルギー関数の最小化に際して最急降下法を用いること
    を特徴とする請求項1記載の階層型ニューラルネットワ
    ークを用いた物体認識方式。
  4. 【請求項4】 前記物体認識システムにおいて、認識対
    象物体に対応する数の階層型ニューラルネットワークを
    備えたことを特徴とする請求項1記載の階層型ニューラ
    ルネットワークを用いた物体認識方式。
  5. 【請求項5】 前記物体認識システムにおいて、認識対
    象カテゴリーに対応した数の階層型ニューラルネットワ
    ークを備えたことを特徴とする請求項1記載の階層型ニ
    ューラルネットワークを用いた物体認識方式。
  6. 【請求項6】 前記認識過程(12)において、前記外
    界に関する制約条件を設けず、前記出力層ユニットの出
    力とセンサからの情報との矛盾だけを小さくすることを
    特徴とする請求項1記載の階層型ニューラルネットワー
    クを用いた物体認識方式。
  7. 【請求項7】 前記センサとして視覚センサを用い、視
    覚センサによる物体認識システムを構成することを特徴
    とする請求項1記載の階層型ニューラルネットワークを
    用いた物体認識方式。
  8. 【請求項8】 前記物体認識システムにおいて、物体の
    画像から特徴量を抽出し、該特徴量を前記物体に関する
    センサからの情報に代えることを特徴とする請求項7記
    載の階層型ニューラルネットワークを用いた物体認識方
    式。
JP04246243A 1992-09-16 1992-09-16 階層型ニューラルネットワークを用いた物体認識方式 Expired - Fee Related JP3110167B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP04246243A JP3110167B2 (ja) 1992-09-16 1992-09-16 階層型ニューラルネットワークを用いた物体認識方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP04246243A JP3110167B2 (ja) 1992-09-16 1992-09-16 階層型ニューラルネットワークを用いた物体認識方式

Publications (2)

Publication Number Publication Date
JPH0696220A true JPH0696220A (ja) 1994-04-08
JP3110167B2 JP3110167B2 (ja) 2000-11-20

Family

ID=17145638

Family Applications (1)

Application Number Title Priority Date Filing Date
JP04246243A Expired - Fee Related JP3110167B2 (ja) 1992-09-16 1992-09-16 階層型ニューラルネットワークを用いた物体認識方式

Country Status (1)

Country Link
JP (1) JP3110167B2 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5807367A (en) * 1996-11-27 1998-09-15 Kimberly-Clark Worldwide, Inc. Absorbent article having lateral barriers
JP2006285422A (ja) * 2005-03-31 2006-10-19 Denso It Laboratory Inc シーン推定装置及びシーン画像抽出方法並びに音声再生装置
JP2017107443A (ja) * 2015-12-10 2017-06-15 株式会社大林組 状況判定システム、状況判定方法及び状況判定プログラム
WO2021024499A1 (ja) * 2019-08-08 2021-02-11 鹿島建設株式会社 鉄筋判定装置および鉄筋判定方法
CN112508893A (zh) * 2020-11-27 2021-03-16 中国铁路南宁局集团有限公司 基于机器视觉的铁路双轨间微小异物检测方法及***
JP2021524106A (ja) * 2018-05-15 2021-09-09 ウープティックス ソシエダ リミターダ バーコード検出方法

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5807367A (en) * 1996-11-27 1998-09-15 Kimberly-Clark Worldwide, Inc. Absorbent article having lateral barriers
JP2006285422A (ja) * 2005-03-31 2006-10-19 Denso It Laboratory Inc シーン推定装置及びシーン画像抽出方法並びに音声再生装置
JP4634842B2 (ja) * 2005-03-31 2011-02-16 株式会社デンソーアイティーラボラトリ 風景推定装置
JP2017107443A (ja) * 2015-12-10 2017-06-15 株式会社大林組 状況判定システム、状況判定方法及び状況判定プログラム
JP2021524106A (ja) * 2018-05-15 2021-09-09 ウープティックス ソシエダ リミターダ バーコード検出方法
WO2021024499A1 (ja) * 2019-08-08 2021-02-11 鹿島建設株式会社 鉄筋判定装置および鉄筋判定方法
JPWO2021024499A1 (ja) * 2019-08-08 2021-02-11
CN112508893A (zh) * 2020-11-27 2021-03-16 中国铁路南宁局集团有限公司 基于机器视觉的铁路双轨间微小异物检测方法及***
CN112508893B (zh) * 2020-11-27 2024-04-26 中国铁路南宁局集团有限公司 基于机器视觉的铁路双轨间微小异物检测方法及***

Also Published As

Publication number Publication date
JP3110167B2 (ja) 2000-11-20

Similar Documents

Publication Publication Date Title
CN109886121B (zh) 一种遮挡鲁棒的人脸关键点定位方法
CN107203753B (zh) 一种基于模糊神经网络和图模型推理的动作识别方法
US20210012093A1 (en) Method and apparatus for generating face rotation image
CN111274916B (zh) 人脸识别方法和人脸识别装置
US5845048A (en) Applicable recognition system for estimating object conditions
US7711156B2 (en) Apparatus and method for generating shape model of object and apparatus and method for automatically searching for feature points of object employing the same
CN106295694B (zh) 一种迭代重约束组稀疏表示分类的人脸识别方法
CN111783748B (zh) 人脸识别方法、装置、电子设备及存储介质
CN112801015B (zh) 一种基于注意力机制的多模态人脸识别方法
JPH06150000A (ja) 画像クラスタリング装置
Juang et al. Human posture classification using interpretable 3-D fuzzy body voxel features and hierarchical fuzzy classifiers
JP3110167B2 (ja) 階層型ニューラルネットワークを用いた物体認識方式
Zhang 2D Computer Vision
CN116843756A (zh) 一种基于计算机视觉的望远镜位姿监测方法
Velte Semantic image segmentation combining visible and near-infrared channels with depth information
JP3112750B2 (ja) 階層型ニューラルネットワークを用いたセンサ情報処理方式
EP3928503B1 (en) Multi-hypothesis classification for color constancy
WO2023241372A1 (zh) 相机内参标定方法及相关设备
CN107895164A (zh) 基于单样本人耳图像的识别方法及装置
CN113792745B (zh) 单面树木点云骨架线提取方法及***
CN117474869A (zh) 一种三维点云质量评估方法与***
JP2023077690A (ja) 機械学習モデルを用いてクラス分類処理を実行するクラス分類装置、方法、及び、コンピュータープログラム
Li Recognition Method for Face Local Features Based on Fuzzy Algorithm and Intelligent Data Analysis
CN116189235A (zh) 异常坐姿识别方法、装置、电子设备及存储介质
CN114926909A (zh) 一种基于卷积神经网络的人体异常动作检测方法

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20000905

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080914

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080914

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090914

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090914

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100914

Year of fee payment: 10

LAPS Cancellation because of no payment of annual fees