JP5828552B2

JP5828552B2 - 物体分類装置、物体分類方法、物体認識装置及び物体認識方法

Info

Publication number: JP5828552B2
Application number: JP2011282103A
Authority: JP
Inventors: 幹生中野; 直人岩橋; 康雄有木; 裕子小篠; 貴博堀; 良平中谷
Original assignee: Honda Motor Co Ltd; Kobe University NUC
Current assignee: Honda Motor Co Ltd; Kobe University NUC
Priority date: 2011-12-22
Filing date: 2011-12-22
Publication date: 2015-12-09
Anticipated expiration: 2031-12-22
Also published as: US20130163887A1; US8873868B2; JP2013131172A

Description

本発明は、対象を既知の物体のグループと未知の物体のグループに分類する物体分類装置及び物体分類方法、並びに、これらを使用した物体認識装置及び物体認識方法に関する。

人間とコミュニケーションを行いながら動作するロボットが開発されている。このようなロボットには、周囲の物体を認識する機能が必要とされる。ロボットに予め物体の画像などの情報を与えておけば、視覚情報によりある程度の精度で物体を認識することができる。しかし、周囲に存在しうるすべての物体の情報を予めロボットに与えておくことは現実的ではない。そこで、ロボットには、既知の物体を認識する機能と同様に、未知の物体を識別する機能が必要とされる。未知の物体を識別することにより、未知の物体に対する対応が可能となるからである。

図１は、ロボットと周囲の物体とを示す図である。ロボットは、花瓶以外の物体のデータを有し、認識することができる。花瓶についてはデータを有していない。この場合にロボットが花瓶を未知の物体として識別することができれば、そのことを踏まえて、人間とコミュニケーションを行うことができる。たとえば、人間が「花瓶を取ってください。」と命令した場合に、ロボットは花瓶を未知の物体として識別した後に未知の物体である花瓶を指して「これですか？」と問い合わせることができる。

従来、聴覚、視覚、触覚のマルチモーダル情報を用いて物体の概念を形成する方法（非特許文献１）や対話の中で未知の名前を覚える語彙獲得装置（特許文献１）が開発されている。しかし、未知の物体を識別する装置及び方法は開発されていない。

特開２０１０−２８２１９９号

T. Araki, T. Nakamura, T. Nagai, K. Funakoshi, M.Nakano, N. Iwahashi, "Autonomous Acquisition of Multimodal Information for Online Object Concept Formation by Robots", IEEE International Conference on Intelligent Robots and Systems, 2011.

そこで、対象を既知の物体のグループと未知の物体のグループに分類する物体分類装置及び物体分類方法、並びに、これらを使用した物体認識装置及び物体認識方法に対するニーズがある。

本発明の第１の態様による物体分類装置は、物体の名前の音声及び画像を記憶する音声・画像データ記憶部と、物体の名前に関する音声の、ある既知の物体の名前の音声モデルに対する音声信頼度であって、物体の名前の音声に対してある音素系列で求めた音声尤度のうち最も高いものに対する前記ある既知の物体の名前の音声モデルに対する物体の名前の音声尤度の比率である音声信頼度を演算する音声信頼度演算部と、物体の画像の、ある既知の物体の画像モデルに対する画像信頼度であって、前記ある既知の物体の画像モデルが取りうる画像尤度のうち最も高いものに対する前記ある既知の物体の画像モデルに対する物体の画像尤度の比率である画像信頼度を演算する画像信頼度演算部と、音声信頼度及び画像信頼度を組み合わせた評価値と閾値とを比較することにより対象物体を、名前の音声及び画像が既知であるか未知であるかによって定められた物体のグループに分類する物体分類部と、を備えている。

本態様の物体分類装置は、音声信頼度及び画像信頼度を組み合わせた評価値と閾値とを比較することにより分類を行うので、対象物体を、名前の音声及び画像が既知であるか未知であるかによって定められた物体のグループに高い精度で分類することができる。

本発明の第１の態様の第１の実施形態による物体分類装置においては、前記物体分類部が、名前の音声及び画像が既知である物体のグループと、名前の音声及び画像が未知である物体のグループと、に物体を分類するように構成されている。

本実施形態の物体分類装置によれば、対象物体が一つである場合に、対象物体を、名前の音声及び画像が既知である物体及び名前の音声及び画像が未知である物体を高い精度で分類することができる。

本発明の第１の態様の第２の実施形態による物体分類装置においては、前記物体分類部が、名前の音声及び画像が既知である物体のグループと、名前の音声及び画像の少なくとも一方が未知である物体のグループと、に物体を分類するように構成されている。

本実施形態の物体分類装置によれば、対象物体が既知の物体と未知の物体とを含む複数の物体である場合に、名前の音声及び画像が既知である物体を高い精度で分類することができる。

本発明の第１の態様の第３の実施形態による物体分類装置においては、前記物体分類部が、名前の音声及び画像が既知である物体のグループと、名前の音声及び画像の一方のみが未知である物体のグループと、名前の音声及び画像が未知である物体のグループと、に物体を分類するように構成されている。

本実施形態の物体分類装置によれば、対象物体が既知の物体と未知の物体とを含む複数の物体である場合に、名前の音声及び画像が既知である物体及び名前の音声及び画像が未知である物体を高い精度で分類することができる。

本発明の第２の態様による物体認識装置は、請求項１から４のいずれかに記載された物体分類装置と、名前の音声及び画像が既知である物体のグループに分類された対象物体に対して、前記対象物体がいずれの既知の物体であるかを認識する物体認識部と、を備えている。

本態様の物体認識装置は、名前の音声及び画像が既知である物体のグループに分類された対象物体を高い精度で認識することができる。

本発明の第３の態様による物体分類方法は、物体の名前の音声及び画像を記憶するデータ記憶部を備えた分類装置を使用する物体分類方法である。本態様の物体分類方法は、物体の名前に関する音声の、ある既知の物体の名前の音声モデルに対する音声信頼度であって、物体の名前の音声に対してある音素系列で求めた音声尤度のうち最も高いものに対する前記ある既知の物体の名前の音声モデルに対する物体の名前の音声尤度の比率である音声信頼度を演算するステップと、物体の画像の、ある既知の物体の画像モデルに対する画像信頼度であって、前記ある既知の物体の画像モデルが取りうる画像尤度のうち最も高いものに対する前記ある既知の物体の画像モデルに対する物体の画像尤度の比率である画像信頼度を演算するステップと、音声信頼度及び画像信頼度を組み合わせた評価値を求め、該評価値と閾値とを比較することにより対象物体を、名前の音声及び画像が既知であるか未知であるかによって定められた物体のグループに分類するステップとを含む。

本態様の物体分類方法は、音声信頼度及び画像信頼度を組み合わせた評価値と閾値とを比較することにより分類を行うので、対象物体を、名前の音声及び画像が既知であるか未知であるかによって定められた物体のグループに高い精度で分類することができる。

本発明の第４の態様による物体認識方法は、物体の名前の音声及び画像を記憶するデータ記憶部を備えた物体分類装置を使用する物体認識方法である。本態様の物体認識方法は、物体の名前に関する音声の、ある既知の物体の名前の音声モデルに対する音声信頼度であって、物体の名前の音声に対してある音素系列で求めた音声尤度のうち最も高いものに対する前記ある既知の物体の名前の音声モデルに対する物体の名前の音声尤度の比率である音声信頼度を演算するステップと、物体の画像の、ある既知の物体の画像モデルに対する画像信頼度であって、前記ある既知の物体の画像モデルが取りうる画像尤度のうち最も高いものに対する前記ある既知の物体の画像モデルに対する物体の画像尤度の比率である画像信頼度を演算するステップと、音声信頼度及び画像信頼度を組み合わせた評価値を求め、該評価値と閾値とを比較することにより対象物体を、名前の音声及び画像が既知であるか未知であるかによって定められた物体のグループに分類するステップと、名前の音声及び画像が既知である物体のグループに分類された対象物体に対して、前記対象物体がいずれの既知の物体であるかを認識するステップと、を含む。

本態様の物体認識方法によれば、名前の音声及び画像が既知である物体のグループに分類された対象物体を高い精度で認識することができる。

ロボットと周囲の物体とを示す図である。本発明の一実施形態による物体分類装置１００及び物体認識装置１１０の構成を示す図である。物体分類装置を使用した物体分類方法を説明するための流れ図である。学習サンプルの画像信頼度及び音声信頼度の分布を示す図である。式（５）において信頼度の代わりに対数尤度を使用した方法における閾値による精度の変化を示す図である。式（５）を使用する本実施形態による方法における閾値による精度の変化を示す図である。机の上に１個の物体が置かれている場合を示す図である。机の上に２個の物体が置かれている場合及び３個の物体が置かれている場合を示す図である。第３の実施形態による物体分類装置の物体分類部の第１及び第２のディテクタの動作を説明するための流れ図である。机の上に４個の物体が置かれている場合を示す図である。

図２は、本発明の一実施形態による物体分類装置１００及び物体認識装置１５０の構成を示す図である。

物体分類装置１００は、音声信頼度演算部１０１、音声・画像データ記憶部１０３、画像信頼度演算部１０５及び物体分類部１０７を含む。音声・画像データ記憶部１０３は、既知の物体の名前の音声及び画像を記憶する。音声信頼度演算部１０１は、取得した物体の名前に関する音声の、ある既知の物体の名前の音声に対する音声信頼度を演算する。音声信頼度については後で説明する。画像信頼度演算部１０５は、取得した物体の画像の、ある既知の物体の画像に対する画像信頼度を演算する。画像信頼度については後で説明する。物体分類部１０７は、音声信頼度演算部１０１によって得られた音声信頼度及び画像信頼度演算部１０５によって得られた画像信頼度を組み合わせた評価値を求め、該評価値と閾値とを比較することにより対象物体を、名前の音声及び画像が既知であるか未知であるかによって定められた物体のグループに分類する。音声信頼度演算部１０１、画像信頼度演算部１０５及び物体分類部１０７の機能の詳細については後で説明する。

物体認識装置１５０は、上述の物体分類装置１００と物体認識部１０９とを備える。物体認識部１０９は、物体分類装置１００によって、名前の音声及び画像が既知である物体のグループに分類された対象物体に対して、前記対象物体がいずれの既知の物体であるかを認識する。

図３は、物体分類装置１００を使用した物体分類方法を説明するための流れ図である。

図３のステップＳ０１０において、物体分類装置１００は、音声及び画像のデータを取得する。音声のデータは、音声信頼度演算部１０１へ送られ、画像のデータは、画像信頼度演算部１０５へ送られる。

図３のステップＳ０２０において、音声信頼度演算部１０１は、取得した物体の名前に関する音声の、ある既知の物体の名前の音声モデルに対する音声信頼度を演算する。より具体的に、単語ＨＭＭ（Hidden Markov Model）の音声尤度をJulius(Julius, http://julius.sourceforge.jp/.)によって以下の式によって計算する。

ここで、

は、音声の尤度である。また、ｓは、取得した物体の名前に関する音声を示し、

は、i番目の物体の単語ＨＭＭを示す。物体の名前に関する音声の、i番目の物体の名前の音声モデルに対する音声信頼度は、物体の名前の音声に対してある音素系列で求めた音声尤度のうち最も高いものに対するi番目の物体の名前の音声モデルに対する音声尤度の比率であり、以下の式によって求められる。

ここで、n(s)は入力された音声の音声フレーム数を示し、

はi番目の物体の音素系列を示している。

図３のステップＳ０２０において、画像信頼度演算部１０５は、取得した物体の画像の、ある既知の物体の画像モデルに対する画像信頼度を演算する。より具体的に、画像認識に用いられている特徴量は、L*a*b*の色情報（3次元）、画像の輪郭のフーリエ級数の係数（8次元）と物体の面積（1次元）である。ＭＡＰ（Maximum a posteriori、最大事後確率推定）適応した正規分布によってこれらの特徴量は学習される。画像の対数尤度は下式のように求められる。

ここで、

は画像の対数尤度を示す。また、ｏは取得した物体の画像を示し、

は、i番目の物体の正規分布を示す。物体の画像の、i番目の物体の画像モデルに対する画像信頼度は、i番目の物体の画像モデルが取りうる画像尤度のうち最も高いものに対するi番目の物体の画像モデルに対する画像尤度の比率であり、以下の式によって求められる。

ここで

は、正規分布の最大値を示す。

図３のステップＳ０３０において、物体分類部１０７は、音声信頼度演算部１０１によって求めた音声信頼度及び画像信頼度演算部１０５によって求めた画像信頼度を組み合わせた評価値を求める。より具体的に、評価値は、ロジスティック回帰により以下の式で求められる。

ここで

はロジスティック回帰の係数である。学習によって

を求める方法については後で説明する。

図３のステップＳ０４０において、物体分類部１０７は、全ての既知の物体について評価値を求めたかどうか判断する。全ての既知の物体について評価値を求めていればステップＳ０５０に進む。そうでなければ、ステップＳ０２０に戻る。

図３のステップＳ０５０において、物体分類部１０７は、最大の評価値が閾値δより小さいかどうか以下の式にしたがって判断する。

式（６）が成立すれば、最大の評価値が閾値δより小さいのでステップＳ０６０に進む。そうでなければ、最大の評価値が閾値δ以上であるので、ステップＳ０６５に進む。

図３のステップＳ０６０において、物体分類部１０７は、対象を未知物体に分類する。

図３のステップＳ０６５において、物体分類部１０７は、対象を既知物体に分類する。

対象が既知物体と分類されたときに、物体は認識され、物体のクラス番号が以下の式によって求められる。

つぎに、学習によって

を求める方法について説明する。ロジスティック関数の学習では、i番目の学習サンプルは入力信号と教師信号d_iによって与えられる。したがって、Nサンプルの学習データセットTは下記のようになる。

ここでd_iは0か1で、0のときは未知物体、1のときは既知物体を表す。

図４は、学習サンプルの画像信頼度及び音声信頼度の分布を示す図である。図４において、白い丸は未知音声、未知画像のサンプルを表し、黒い丸は既知音声、既知画像のサンプルを表す。

尤度関数は下記のように表される。

ここでd=(d₁,…,d_N)である。重み

はフィッシャーのアルゴリズム（たとえば、T. Kurita, "Interactive Weighted Least Squares Algorithms for Neural Networks Classi_ers, in Proc. Workshop on Algorithmic Learning Theory, 1992.）を用いた最尤推定手法によって推定される。

本発明の第１の実施形態において、学習データセットTは、未知音声と未知画像のセット及び既知音声と既知画像のセットから構成される。

つぎに本発明の物体分類方法及び物体認識方法の評価実験について説明する。物体分類方法についての未知物体の検知実験と物体認識方法についての物体認識実験を行った。重み

と閾値δは実験において最適化されている。

本実験では、５０物体を用意した。各物体において、１発話、１０画像を用意した。すべての発話は１話者によって行われた。

最初に、未知物体の検知実験について説明する。評価はLOOCV（leave-one-out-cross-validation）によって行った。(1)既知物体が正しく既知物体と分類されたか、(2)未知物体が正しく未知物体と分類されたかを調べ、その精度を求めた。

画像データの処理は、以下のように行った。(1)のとき、５０物体から各１画像を選び、それをテストデータに、それ以外を学習データにし、この実験を全５００画像において行った。すなわち、画像データの尤度及び信頼度を求め、閾値判定により未知・既知判定を行った。ここで、精度は、５００回の試行に対する未知・既知の判定が成功した試行の割合とする。以下についても同様である。(2)のとき、５０物体から１物体を選び、その１０枚の画像をテストデータに、それ以外の４９０画像を学習データにし、この実験を５００画像において行った。すなわち、画像データの尤度及び信頼度を求め、閾値判定により未知・既知判定を行った。

音声データの処理は以下のように行った。(1)のとき、５０クラスの音声をあらかじめ辞書登録し、５０クラスの音声を既知音声のテストデータとして、尤度、信頼度を算出し、閾値判定により未知・既知判定を行った。５０クラスの音声をそれぞれ既知音声のテストデータとし、判定を行った。すなわち、既知音声が正しく既知と判定されたかの精度を算出した。(2)のとき、５０クラスの音声に対して、４９クラスをあらかじめ辞書登録を行い、残りの１クラスを未知音声のテストデータとし、尤度、信頼度を算出し、閾値判定により、未知既知判定を行った。５０クラスの音声をそれぞれ未知音声のテストデータとし、判定を行った。すなわち、未知音声が正しく未知と判定されたかの精度を算出した。

重み

は、式（５）を使用する本実施形態による方法において{7.64, 5.22, 5.16x10^-3}、式（５）において信頼度の代わりに対数尤度を使用した方法においては{9.17, 0.02, 0.15}であった。すべてのCV（cross-validation）において、一つの閾値における精度を評価した。

図５は、式（５）において信頼度の代わりに対数尤度を使用した方法における閾値による精度の変化を示す図である。

図６は、式（５）を使用する本実施形態による方法における閾値による精度の変化を示す図である。

図５及び図６の横軸は、閾値を示し、縦軸は精度を示す。最適な閾値δは式（５）を使用する本実施形態による方法において0.96、式（５）において信頼度の代わりに対数尤度を使用した方法では0.98となった。

表１は、最適な重みを用いた実験結果を示す表である。

表１において、"Likelihood"は、尤度を表し、”Confidence”は、信頼度を表す。P(o),P(s),C(o)及びC(s)は、それぞれ式（３）、（１）、（４）及び（２）を表す。Logistic(C(o),C(s))は、式（５）を表し、Logistic(P(o),P(s))は、式（５）において信頼度（式（２）及び（４））の代わりに対数尤度（式（１）及び（３））を使用した式を表す。

また、P(o)+P(s)は、

を表し、C(o)+C(s)は、

を表す。

Logistic(C(o),C(s))による精度は、９７．００％であり、Logistic(P(o),P(s))による精度は、８９．４０％であるので、式（５）を使用した場合の精度は、式（５）において信頼度の代わりに対数尤度を使用した場合の精度よりも７．６％向上している。また、表１において、Logistic(C(o),C(s))による精度は最も高い。

つぎに、物体認識実験について説明する。評価はLOOCV（leave-one-out-cross-validation）によって行った。画像データについて、５０物体から各１画像を選び、これをテストデータに、それ以外を学習データとし、この実験を５００画像において行った。音声データについて、５０クラスの音声をあらかじめ辞書登録し、５０クラスの音声を既知音声のテストデータとして、尤度、信頼度を算出し、５０クラスの分類を行った。重みは、未知物体の検知実験と同じものが使われている。

表２は、実験結果を示す表である。Logistic(C(o),C(s))による精度及びLogistic(P(o),P(s))による精度は、ともに１００％である。

上述のように、本発明の第１の実施形態においては、未知音声と未知画像のセット及び既知音声と既知画像のセットから構成される学習データセットを使用して式（５）の

の学習を行った。

図７は、机の上に１個の物体が置かれている場合を示す図である。第１の実施形態による物体分類装置１００は、「ボール」の音声データ及び画像データを記憶しているが、「本」のデータを記憶していないとする。人間が、「机の上のボールを取ってください。」と命令した場合に、第１の実施形態による物体分類装置１００は、図１（ａ）に示すように、机の上に置かれた１個の物体が「ボール」であれば、「ボール」を既知音声・既知画像の物体と分類し、図１（ｂ）に示すように、机の上に置かれた１個の物体が「本」であれば、「本」を未知音声・未知画像の物体と分類することができる。

図８は、机の上に２個の物体が置かれている場合及び３個の物体が置かれている場合を示す図である。第１の実施形態による物体分類装置１００は、「ボール」及び「コップ」の音声データ及び画像データを記憶しているが、「本」のデータを記憶していないとする。人間が、「机の上のボールを取ってください。」と命令した場合に、第１の実施形態による物体分類装置１００は、既知音声・未知画像及び未知音声・既知画像のデータの学習をしていないので、判定が不安定となり、「ボール」を既知音声・既知画像の物体と判定することができない可能性がある。

そこで、第２の実施形態による物体分類装置１００は、式（８）の学習データセットにおいて、既知音声・既知画像のデータセットをdi=1、未知音声・未知画像、未知音声・既知画像及び既知音声・未知画像のデータセットをdi=0として

の学習を行う。このように学習した第２の実施形態による物体分類装置１００は、机の上に未知の物体を含む複数の物体がある場合でも既知音声・既知画像の物体を識別することができる。

しかし、上述のように学習していても、図８に示した状態で、人間が、「机の上の本（未知の物体）を取ってください。」と命令した場合に、第２の実施形態による物体分類装置１００は、未知音声・未知画像のデータの学習をしていないので、対象を絞り込むことができない。

そこで、第３の実施形態による物体分類装置１００においては、物体分類部１０７に第１及び第２のディテクタを設ける。第１のディテクタは、既知音声・既知画像のデータセットをdi=1、未知音声・未知画像、未知音声・既知画像及び既知音声・未知画像のデータセットをdi=0とした学習データセットによって学習させる。第２のディテクタは、未知音声・未知画像のデータセットをdi=1、既知音声・既知画像、未知音声・既知画像及び既知音声・未知画像のデータセットをdi=0とした学習データセットによって学習させる。第３の実施形態による物体分類装置１００は、第１及び第２のディテクタによって分類を行うことにより、既知音声・既知画像のグループ、未知音声・既知画像及び既知音声・未知画像のグループ及び未知音声・未知画像のグループに物体を分類することができる。

図９は、第３の実施形態による物体分類装置１００の物体分類部１０７の第１及び第２のディテクタの動作を説明するための流れ図である。図３の流れ図のステップＳ０４０のＹＥＳの分岐が図９のステップＳ０７０へ接続する。
図９のステップＳ０７０において、第１のディテクタによって最大の評価値が閾値より小さいかどうか判断される。小さければ、ステップＳ０７５へ進む。そうでなければ、ステップＳ０８５へ進む。

図９のステップＳ０８５において、対象は、既知音声・既知画像のグループへ分類される。

図９のステップＳ０７５において、第２のディテクタによって最大の評価値が閾値より小さいかどうか判断される。小さければ、ステップＳ０８０へ進む。そうでなければ、ステップＳ０９０へ進む。

図９のステップＳ０９０において、対象は、既知音声・未知画像または未知音声・既知画像のグループへ分類される。

図９のステップＳ０８０において、対象は、未知音声・未知画像のグループへ分類される。

上記の第１及び第２のディテクタを備えた物体分類部１０７を備えた第３の実施形態による物体分類装置１００は、図８に示した状態で、人間が、「机の上の本（未知の物体）を取ってください。」と命令した場合に、未知の物体を識別することができる。

図１０は、机の上に４個の物体が置かれている場合を示す図である。第３の実施形態による物体分類装置１００は、「ボール」及び「コップ」の音声データ及び画像データを記憶しているが、「本」及び「ぬいぐるみ」のデータを記憶していないとする。人間が、「机の上の本（未知の物体）を取ってください。」と命令した場合に、第３の実施形態による物体分類装置１００は、「本」及び「ぬいぐるみ」を未知音声・未知画像のグループに分類し、対象をこれらに絞り込むことができる。人間に対して、たとえば、「どちらですか？」と質問することができる。また、人間が、「机の上の缶（既知の物体）を取ってください。」と命令した場合に、物体分類装置１００は、既知音声の画像はないと判断できるので、人間に対して、たとえば、「言われたものはありません。」と対応することができる。

１００…物体分類装置、１０1…音声信頼度演算部、１０３…音声・画像データ記憶部、１０５…画像信頼度演算部、１０７…物体分類部、１０９…物体認識部

Claims

物体の名前の音声及び画像を記憶する音声・画像データ記憶部と、
物体の名前に関する音声の、ある既知の物体の名前の音声モデルに対する音声信頼度であって、物体の名前の音声に対してある音素系列で求めた音声尤度のうち最も高いものに対する前記ある既知の物体の名前の音声モデルに対する物体の名前の音声尤度の比率である音声信頼度を演算する音声信頼度演算部と、
物体の画像の、ある既知の物体の画像モデルに対する画像信頼度であって、前記ある既知の物体の画像モデルが取りうる画像尤度のうち最も高いものに対する前記ある既知の物体の画像モデルに対する物体の画像尤度の比率である画像信頼度を演算する画像信頼度演算部と、
音声信頼度及び画像信頼度を組み合わせた評価値と閾値とを比較することにより対象物体を、名前の音声及び画像が既知であるか未知であるかによって定められた物体のグループに分類する物体分類部と、
を備えた物体分類装置であって、
前記物体分類部が、名前の音声及び画像が既知である物体のグループと、名前の音声及び画像が未知である物体のグループと、に物体を分類するように構成された、
物体分類装置。
物体の名前の音声及び画像を記憶する音声・画像データ記憶部と、
物体の名前に関する音声の、ある既知の物体の名前の音声モデルに対する音声信頼度であって、物体の名前の音声に対してある音素系列で求めた音声尤度のうち最も高いものに対する前記ある既知の物体の名前の音声モデルに対する物体の名前の音声尤度の比率である音声信頼度を演算する音声信頼度演算部と、
物体の画像の、ある既知の物体の画像モデルに対する画像信頼度であって、前記ある既知の物体の画像モデルが取りうる画像尤度のうち最も高いものに対する前記ある既知の物体の画像モデルに対する物体の画像尤度の比率である画像信頼度を演算する画像信頼度演算部と、
音声信頼度及び画像信頼度を組み合わせた評価値と閾値とを比較することにより対象物体を、名前の音声及び画像が既知であるか未知であるかによって定められた物体のグループに分類する物体分類部と、
を備えた物体分類装置であって、
前記物体分類部が、名前の音声及び画像が既知である物体のグループと、名前の音声及び画像の少なくとも一方が未知である物体のグループと、に物体を分類するように構成された、
物体分類装置。
物体の名前の音声及び画像を記憶する音声・画像データ記憶部と、
物体の名前に関する音声の、ある既知の物体の名前の音声モデルに対する音声信頼度であって、物体の名前の音声に対してある音素系列で求めた音声尤度のうち最も高いものに対する前記ある既知の物体の名前の音声モデルに対する物体の名前の音声尤度の比率である音声信頼度を演算する音声信頼度演算部と、
物体の画像の、ある既知の物体の画像モデルに対する画像信頼度であって、前記ある既知の物体の画像モデルが取りうる画像尤度のうち最も高いものに対する前記ある既知の物体の画像モデルに対する物体の画像尤度の比率である画像信頼度を演算する画像信頼度演算部と、
音声信頼度及び画像信頼度を組み合わせた評価値と閾値とを比較することにより対象物体を、名前の音声及び画像が既知であるか未知であるかによって定められた物体のグループに分類する物体分類部と、
を備えた物体分類装置であって、
前記物体分類部が、名前の音声及び画像が既知である物体のグループと、名前の音声及び画像の一方のみが未知である物体のグループと、名前の音声及び画像が未知である物体のグループと、に物体を分類するように構成された、
物体分類装置。
請求項１から３のいずれか一項に記載された物体分類装置と、名前の音声及び画像が既知である物体のグループに分類された対象物体に対して、前記対象物体がいずれの既知の物体であるかを認識する物体認識部と、を備えた物体認識装置。
物体の名前の音声及び画像を記憶するデータ記憶部を備えた分類装置を使用する物体分類方法であって、
物体の名前に関する音声の、ある既知の物体の名前の音声モデルに対する音声信頼度であって、物体の名前の音声に対してある音素系列で求めた音声尤度のうち最も高いものに対する前記ある既知の物体の名前の音声モデルに対する物体の名前の音声尤度の比率である音声信頼度を演算するステップと、
物体の画像の、ある既知の物体の画像モデルに対する画像信頼度であって、前記ある既知の物体の画像モデルが取りうる画像尤度のうち最も高いものに対する前記ある既知の物体の画像モデルに対する物体の画像尤度の比率である画像信頼度を演算するステップと、
音声信頼度及び画像信頼度を組み合わせた評価値を求め、該評価値と閾値とを比較することにより対象物体を、名前の音声及び画像が既知であるか未知であるかによって定められた物体のグループに分類するステップと、
を含み、
前記分類するステップでは、少なくとも、名前の音声及び画像が既知である物体のグループと、名前の音声及び画像の少なくとも一方が未知である物体のグループと、に物体を分類する、
物体分類方法。
物体の名前の音声及び画像を記憶するデータ記憶部を備えた分類装置を使用する物体認識方法であって、
物体の名前に関する音声の、ある既知の物体の名前の音声モデルに対する音声信頼度であって、物体の名前の音声に対してある音素系列で求めた音声尤度のうち最も高いものに対する前記ある既知の物体の名前の音声モデルに対する物体の名前の音声尤度の比率である音声信頼度を演算するステップと、
物体の画像の、ある既知の物体の画像モデルに対する画像信頼度であって、前記ある既知の物体の画像モデルが取りうる画像尤度のうち最も高いものに対する前記ある既知の物体の画像モデルに対する物体の画像尤度の比率である画像信頼度を演算するステップと、
音声信頼度及び画像信頼度を組み合わせた評価値を求め、該評価値と閾値とを比較することにより対象物体を、名前の音声及び画像が既知であるか未知であるかによって定められた物体のグループに分類するステップと、
名前の音声及び画像が既知である物体のグループに分類された対象物体に対して、前記対象物体がいずれの既知の物体であるかを認識するステップと、
を含み、
前記分類するステップでは、少なくとも、名前の音声及び画像が既知である物体のグループと、名前の音声及び画像の少なくとも一方が未知である物体のグループと、に物体を分類する、
物体認識方法。