JP5828552B2 - 物体分類装置、物体分類方法、物体認識装置及び物体認識方法 - Google Patents

物体分類装置、物体分類方法、物体認識装置及び物体認識方法 Download PDF

Info

Publication number
JP5828552B2
JP5828552B2 JP2011282103A JP2011282103A JP5828552B2 JP 5828552 B2 JP5828552 B2 JP 5828552B2 JP 2011282103 A JP2011282103 A JP 2011282103A JP 2011282103 A JP2011282103 A JP 2011282103A JP 5828552 B2 JP5828552 B2 JP 5828552B2
Authority
JP
Japan
Prior art keywords
image
speech
name
reliability
respect
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2011282103A
Other languages
English (en)
Other versions
JP2013131172A (ja
Inventor
幹生 中野
幹生 中野
直人 岩橋
直人 岩橋
康雄 有木
康雄 有木
裕子 小篠
裕子 小篠
貴博 堀
貴博 堀
良平 中谷
良平 中谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Honda Motor Co Ltd
Kobe University NUC
Original Assignee
Honda Motor Co Ltd
Kobe University NUC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Honda Motor Co Ltd, Kobe University NUC filed Critical Honda Motor Co Ltd
Priority to JP2011282103A priority Critical patent/JP5828552B2/ja
Priority to US13/724,220 priority patent/US8873868B2/en
Publication of JP2013131172A publication Critical patent/JP2013131172A/ja
Application granted granted Critical
Publication of JP5828552B2 publication Critical patent/JP5828552B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/254Fusion techniques of classification results, e.g. of results related to same input data
    • G06F18/256Fusion techniques of classification results, e.g. of results related to same input data of results relating to different input data, e.g. multimodal recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/40Software arrangements specially adapted for pattern recognition, e.g. user interfaces or toolboxes therefor
    • G06F18/41Interactive pattern learning with a human teacher
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/778Active pattern-learning, e.g. online learning of image or video features
    • G06V10/7784Active pattern-learning, e.g. online learning of image or video features based on feedback from supervisors
    • G06V10/7788Active pattern-learning, e.g. online learning of image or video features based on feedback from supervisors the supervisor being a human, e.g. interactive learning with a human teacher
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/01Assessment or evaluation of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering
    • G10L2015/0633Creating reference templates; Clustering using lexical or orthographic knowledge sources

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Multimedia (AREA)
  • Medical Informatics (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、対象を既知の物体のグループと未知の物体のグループに分類する物体分類装置及び物体分類方法、並びに、これらを使用した物体認識装置及び物体認識方法に関する。
人間とコミュニケーションを行いながら動作するロボットが開発されている。このようなロボットには、周囲の物体を認識する機能が必要とされる。ロボットに予め物体の画像などの情報を与えておけば、視覚情報によりある程度の精度で物体を認識することができる。しかし、周囲に存在しうるすべての物体の情報を予めロボットに与えておくことは現実的ではない。そこで、ロボットには、既知の物体を認識する機能と同様に、未知の物体を識別する機能が必要とされる。未知の物体を識別することにより、未知の物体に対する対応が可能となるからである。
図1は、ロボットと周囲の物体とを示す図である。ロボットは、花瓶以外の物体のデータを有し、認識することができる。花瓶についてはデータを有していない。この場合にロボットが花瓶を未知の物体として識別することができれば、そのことを踏まえて、人間とコミュニケーションを行うことができる。たとえば、人間が「花瓶を取ってください。」と命令した場合に、ロボットは花瓶を未知の物体として識別した後に未知の物体である花瓶を指して「これですか?」と問い合わせることができる。
従来、聴覚、視覚、触覚のマルチモーダル情報を用いて物体の概念を形成する方法(非特許文献1)や対話の中で未知の名前を覚える語彙獲得装置(特許文献1)が開発されている。しかし、未知の物体を識別する装置及び方法は開発されていない。
特開2010−282199号
T. Araki, T. Nakamura, T. Nagai, K. Funakoshi, M.Nakano, N. Iwahashi, "Autonomous Acquisition of Multimodal Information for Online Object Concept Formation by Robots", IEEE International Conference on Intelligent Robots and Systems, 2011.
そこで、対象を既知の物体のグループと未知の物体のグループに分類する物体分類装置及び物体分類方法、並びに、これらを使用した物体認識装置及び物体認識方法に対するニーズがある。
本発明の第1の態様による物体分類装置は、物体の名前の音声及び画像を記憶する音声・画像データ記憶部と、物体の名前に関する音声の、ある既知の物体の名前の音声モデルに対する音声信頼度であって、物体の名前の音声に対してある音素系列で求めた音声尤度のうち最も高いものに対する前記ある既知の物体の名前の音声モデルに対する物体の名前の音声尤度の比率である音声信頼度を演算する音声信頼度演算部と、物体の画像の、ある既知の物体の画像モデルに対する画像信頼度であって、前記ある既知の物体の画像モデルが取りうる画像尤度のうち最も高いものに対する前記ある既知の物体の画像モデルに対する物体の画像尤度の比率である画像信頼度を演算する画像信頼度演算部と、音声信頼度及び画像信頼度を組み合わせた評価値と閾値とを比較することにより対象物体を、名前の音声及び画像が既知であるか未知であるかによって定められた物体のグループに分類する物体分類部と、を備えている。
本態様の物体分類装置は、音声信頼度及び画像信頼度を組み合わせた評価値と閾値とを比較することにより分類を行うので、対象物体を、名前の音声及び画像が既知であるか未知であるかによって定められた物体のグループに高い精度で分類することができる。
本発明の第1の態様の第1の実施形態による物体分類装置においては、前記物体分類部が、名前の音声及び画像が既知である物体のグループと、名前の音声及び画像が未知である物体のグループと、に物体を分類するように構成されている。
本実施形態の物体分類装置によれば、対象物体が一つである場合に、対象物体を、名前の音声及び画像が既知である物体及び名前の音声及び画像が未知である物体を高い精度で分類することができる。
本発明の第1の態様の第2の実施形態による物体分類装置においては、前記物体分類部が、名前の音声及び画像が既知である物体のグループと、名前の音声及び画像の少なくとも一方が未知である物体のグループと、に物体を分類するように構成されている。
本実施形態の物体分類装置によれば、対象物体が既知の物体と未知の物体とを含む複数の物体である場合に、名前の音声及び画像が既知である物体を高い精度で分類することができる。
本発明の第1の態様の第3の実施形態による物体分類装置においては、前記物体分類部が、名前の音声及び画像が既知である物体のグループと、名前の音声及び画像の一方のみが未知である物体のグループと、名前の音声及び画像が未知である物体のグループと、に物体を分類するように構成されている。
本実施形態の物体分類装置によれば、対象物体が既知の物体と未知の物体とを含む複数の物体である場合に、名前の音声及び画像が既知である物体及び名前の音声及び画像が未知である物体を高い精度で分類することができる。
本発明の第2の態様による物体認識装置は、請求項1から4のいずれかに記載された物体分類装置と、名前の音声及び画像が既知である物体のグループに分類された対象物体に対して、前記対象物体がいずれの既知の物体であるかを認識する物体認識部と、を備えている。
本態様の物体認識装置は、名前の音声及び画像が既知である物体のグループに分類された対象物体を高い精度で認識することができる。
本発明の第3の態様による物体分類方法は、物体の名前の音声及び画像を記憶するデータ記憶部を備えた分類装置を使用する物体分類方法である。本態様の物体分類方法は、物体の名前に関する音声の、ある既知の物体の名前の音声モデルに対する音声信頼度であって、物体の名前の音声に対してある音素系列で求めた音声尤度のうち最も高いものに対する前記ある既知の物体の名前の音声モデルに対する物体の名前の音声尤度の比率である音声信頼度を演算するステップと、物体の画像の、ある既知の物体の画像モデルに対する画像信頼度であって、前記ある既知の物体の画像モデルが取りうる画像尤度のうち最も高いものに対する前記ある既知の物体の画像モデルに対する物体の画像尤度の比率である画像信頼度を演算するステップと、音声信頼度及び画像信頼度を組み合わせた評価値を求め、該評価値と閾値とを比較することにより対象物体を、名前の音声及び画像が既知であるか未知であるかによって定められた物体のグループに分類するステップとを含む。
本態様の物体分類方法は、音声信頼度及び画像信頼度を組み合わせた評価値と閾値とを比較することにより分類を行うので、対象物体を、名前の音声及び画像が既知であるか未知であるかによって定められた物体のグループに高い精度で分類することができる。
本発明の第4の態様による物体認識方法は、物体の名前の音声及び画像を記憶するデータ記憶部を備えた物体分類装置を使用する物体認識方法である。本態様の物体認識方法は、物体の名前に関する音声の、ある既知の物体の名前の音声モデルに対する音声信頼度であって、物体の名前の音声に対してある音素系列で求めた音声尤度のうち最も高いものに対する前記ある既知の物体の名前の音声モデルに対する物体の名前の音声尤度の比率である音声信頼度を演算するステップと、物体の画像の、ある既知の物体の画像モデルに対する画像信頼度であって、前記ある既知の物体の画像モデルが取りうる画像尤度のうち最も高いものに対する前記ある既知の物体の画像モデルに対する物体の画像尤度の比率である画像信頼度を演算するステップと、音声信頼度及び画像信頼度を組み合わせた評価値を求め、該評価値と閾値とを比較することにより対象物体を、名前の音声及び画像が既知であるか未知であるかによって定められた物体のグループに分類するステップと、名前の音声及び画像が既知である物体のグループに分類された対象物体に対して、前記対象物体がいずれの既知の物体であるかを認識するステップと、を含む。
本態様の物体認識方法によれば、名前の音声及び画像が既知である物体のグループに分類された対象物体を高い精度で認識することができる。
ロボットと周囲の物体とを示す図である。 本発明の一実施形態による物体分類装置100及び物体認識装置110の構成を示す図である。 物体分類装置を使用した物体分類方法を説明するための流れ図である。 学習サンプルの画像信頼度及び音声信頼度の分布を示す図である。 式(5)において信頼度の代わりに対数尤度を使用した方法における閾値による精度の変化を示す図である。 式(5)を使用する本実施形態による方法における閾値による精度の変化を示す図である。 机の上に1個の物体が置かれている場合を示す図である。 机の上に2個の物体が置かれている場合及び3個の物体が置かれている場合を示す図である。 第3の実施形態による物体分類装置の物体分類部の第1及び第2のディテクタの動作を説明するための流れ図である。 机の上に4個の物体が置かれている場合を示す図である。
図2は、本発明の一実施形態による物体分類装置100及び物体認識装置150の構成を示す図である。
物体分類装置100は、音声信頼度演算部101、音声・画像データ記憶部103、画像信頼度演算部105及び物体分類部107を含む。音声・画像データ記憶部103は、既知の物体の名前の音声及び画像を記憶する。音声信頼度演算部101は、取得した物体の名前に関する音声の、ある既知の物体の名前の音声に対する音声信頼度を演算する。音声信頼度については後で説明する。画像信頼度演算部105は、取得した物体の画像の、ある既知の物体の画像に対する画像信頼度を演算する。画像信頼度については後で説明する。物体分類部107は、音声信頼度演算部101によって得られた音声信頼度及び画像信頼度演算部105によって得られた画像信頼度を組み合わせた評価値を求め、該評価値と閾値とを比較することにより対象物体を、名前の音声及び画像が既知であるか未知であるかによって定められた物体のグループに分類する。音声信頼度演算部101、画像信頼度演算部105及び物体分類部107の機能の詳細については後で説明する。
物体認識装置150は、上述の物体分類装置100と物体認識部109とを備える。物体認識部109は、物体分類装置100によって、名前の音声及び画像が既知である物体のグループに分類された対象物体に対して、前記対象物体がいずれの既知の物体であるかを認識する。
図3は、物体分類装置100を使用した物体分類方法を説明するための流れ図である。
図3のステップS010において、物体分類装置100は、音声及び画像のデータを取得する。音声のデータは、音声信頼度演算部101へ送られ、画像のデータは、画像信頼度演算部105へ送られる。
図3のステップS020において、音声信頼度演算部101は、取得した物体の名前に関する音声の、ある既知の物体の名前の音声モデルに対する音声信頼度を演算する。より具体的に、単語HMM(Hidden Markov Model)の音声尤度をJulius(Julius, http://julius.sourceforge.jp/.)によって以下の式によって計算する。
Figure 0005828552
ここで、
Figure 0005828552
は、音声の尤度である。また、sは、取得した物体の名前に関する音声を示し、
Figure 0005828552
は、i番目の物体の単語HMMを示す。物体の名前に関する音声の、i番目の物体の名前の音声モデルに対する音声信頼度は、物体の名前の音声に対してある音素系列で求めた音声尤度のうち最も高いものに対するi番目の物体の名前の音声モデルに対する音声尤度の比率であり、以下の式によって求められる。
Figure 0005828552
ここで、n(s)は入力された音声の音声フレーム数を示し、
Figure 0005828552
はi番目の物体の音素系列を示している。
図3のステップS020において、画像信頼度演算部105は、取得した物体の画像の、ある既知の物体の画像モデルに対する画像信頼度を演算する。より具体的に、画像認識に用いられている特徴量は、L*a*b*の色情報(3次元)、画像の輪郭のフーリエ級数の係数(8次元)と物体の面積(1次元)である。MAP(Maximum a posteriori、最大事後確率推定 )適応した正規分布によってこれらの特徴量は学習される。画像の対数尤度は下式のように求められる。
Figure 0005828552
ここで、
Figure 0005828552
は画像の対数尤度を示す。また、oは取得した物体の画像を示し、
Figure 0005828552
は、i番目の物体の正規分布を示す。物体の画像の、i番目の物体の画像モデルに対する画像信頼度は、i番目の物体の画像モデルが取りうる画像尤度のうち最も高いものに対するi番目の物体の画像モデルに対する画像尤度の比率であり、以下の式によって求められる。
Figure 0005828552
ここで
Figure 0005828552
は、正規分布の最大値を示す。
図3のステップS030において、物体分類部107は、音声信頼度演算部101によって求めた音声信頼度及び画像信頼度演算部105によって求めた画像信頼度を組み合わせた評価値を求める。より具体的に、評価値は、ロジスティック回帰により以下の式で求められる。
Figure 0005828552
ここで
Figure 0005828552
はロジスティック回帰の係数である。学習によって
Figure 0005828552
を求める方法については後で説明する。
図3のステップS040において、物体分類部107は、全ての既知の物体について評価値を求めたかどうか判断する。全ての既知の物体について評価値を求めていればステップS050に進む。そうでなければ、ステップS020に戻る。
図3のステップS050において、物体分類部107は、最大の評価値が閾値δより小さいかどうか以下の式にしたがって判断する。
Figure 0005828552
式(6)が成立すれば、最大の評価値が閾値δより小さいのでステップS060に進む。そうでなければ、最大の評価値が閾値δ以上であるので、ステップS065に進む。
図3のステップS060において、物体分類部107は、対象を未知物体に分類する。
図3のステップS065において、物体分類部107は、対象を既知物体に分類する。
対象が既知物体と分類されたときに、物体は認識され、物体のクラス番号が以下の式によって求められる。
Figure 0005828552
つぎに、学習によって
Figure 0005828552
を求める方法について説明する。ロジスティック関数の学習では、i番目の学習サンプルは入力信号と教師信号diによって与えられる。したがって、Nサンプルの学習データセットTは下記のようになる。
Figure 0005828552
ここでdiは0か1で、0のときは未知物体、1のときは既知物体を表す。
図4は、学習サンプルの画像信頼度及び音声信頼度の分布を示す図である。図4において、白い丸は未知音声、未知画像のサンプルを表し、黒い丸は既知音声、既知画像のサンプルを表す。
尤度関数は下記のように表される。
Figure 0005828552
ここでd=(d1,…,dN)である。重み
Figure 0005828552
はフィッシャーのアルゴリズム(たとえば、T. Kurita, "Interactive Weighted Least Squares Algorithms for Neural Networks Classi_ers, in Proc. Workshop on Algorithmic Learning Theory, 1992.)を用いた最尤推定手法によって推定される。
本発明の第1の実施形態において、学習データセットTは、未知音声と未知画像のセット及び既知音声と既知画像のセットから構成される。
つぎに本発明の物体分類方法及び物体認識方法の評価実験について説明する。物体分類方法についての未知物体の検知実験と物体認識方法についての物体認識実験を行った。重み
Figure 0005828552
と閾値δは実験において最適化されている。
本実験では、50物体を用意した。各物体において、1発話、10画像を用意した。すべての発話は1話者によって行われた。
最初に、未知物体の検知実験について説明する。評価はLOOCV(leave-one-out-cross-validation)によって行った。(1)既知物体が正しく既知物体と分類されたか、(2)未知物体が正しく未知物体と分類されたかを調べ、その精度を求めた。
画像データの処理は、以下のように行った。(1)のとき、50物体から各1画像を選び、それをテストデータに、それ以外を学習データにし、この実験を全500画像において行った。すなわち、画像データの尤度及び信頼度を求め、閾値判定により未知・既知判定を行った。ここで、精度は、500回の試行に対する未知・既知の判定が成功した試行の割合とする。以下についても同様である。(2)のとき、50物体から1物体を選び、その10枚の画像をテストデータに、それ以外の490画像を学習データにし、この実験を500画像において行った。すなわち、画像データの尤度及び信頼度を求め、閾値判定により未知・既知判定を行った。
音声データの処理は以下のように行った。(1)のとき、50クラスの音声をあらかじめ辞書登録し、50クラスの音声を既知音声のテストデータとして、尤度、信頼度を算出し、閾値判定により未知・既知判定を行った。50クラスの音声をそれぞれ既知音声のテストデータとし、判定を行った。すなわち、既知音声が正しく既知と判定されたかの精度を算出した。(2)のとき、50クラスの音声に対して、49クラスをあらかじめ辞書登録を行い、残りの1クラスを未知音声のテストデータとし、尤度、信頼度を算出し、閾値判定により、未知既知判定を行った。50クラスの音声をそれぞれ未知音声のテストデータとし、判定を行った。すなわち、未知音声が正しく未知と判定されたかの精度を算出した。
重み
Figure 0005828552
は、式(5)を使用する本実施形態による方法において{7.64, 5.22, 5.16x10-3}、式(5)において信頼度の代わりに対数尤度を使用した方法においては{9.17, 0.02, 0.15}であった。すべてのCV(cross-validation)において、一つの閾値における精度を評価した。
図5は、式(5)において信頼度の代わりに対数尤度を使用した方法における閾値による精度の変化を示す図である。
図6は、式(5)を使用する本実施形態による方法における閾値による精度の変化を示す図である。
図5及び図6の横軸は、閾値を示し、縦軸は精度を示す。最適な閾値δは式(5)を使用する本実施形態による方法において0.96、式(5)において信頼度の代わりに対数尤度を使用した方法では0.98となった。
表1は、最適な重みを用いた実験結果を示す表である。
Figure 0005828552
表1において、"Likelihood"は、尤度を表し、”Confidence”は、信頼度を表す。P(o),P(s),C(o)及びC(s)は、それぞれ式(3)、(1)、(4)及び(2)を表す。Logistic(C(o),C(s))は、式(5)を表し、Logistic(P(o),P(s))は、式(5)において信頼度(式(2)及び(4))の代わりに対数尤度(式(1)及び(3))を使用した式を表す。
また、P(o)+P(s)は、
Figure 0005828552
を表し、C(o)+C(s)は、
Figure 0005828552
を表す。
Logistic(C(o),C(s))による精度は、97.00%であり、Logistic(P(o),P(s))による精度は、89.40%であるので、式(5)を使用した場合の精度は、式(5)において信頼度の代わりに対数尤度を使用した場合の精度よりも7.6%向上している。また、表1において、Logistic(C(o),C(s))による精度は最も高い。
つぎに、物体認識実験について説明する。評価はLOOCV(leave-one-out-cross-validation)によって行った。画像データについて、50物体から各1画像を選び、これをテストデータに、それ以外を学習データとし、この実験を500画像において行った。音声データについて、50クラスの音声をあらかじめ辞書登録し、50クラスの音声を既知音声のテストデータとして、尤度、信頼度を算出し、50クラスの分類を行った。重みは、未知物体の検知実験と同じものが使われている。
表2は、実験結果を示す表である。Logistic(C(o),C(s))による精度及びLogistic(P(o),P(s))による精度は、ともに100%である。
Figure 0005828552
上述のように、本発明の第1の実施形態においては、未知音声と未知画像のセット及び既知音声と既知画像のセットから構成される学習データセットを使用して式(5)の
Figure 0005828552
の学習を行った。
図7は、机の上に1個の物体が置かれている場合を示す図である。第1の実施形態による物体分類装置100は、「ボール」の音声データ及び画像データを記憶しているが、「本」のデータを記憶していないとする。人間が、「机の上のボールを取ってください。」と命令した場合に、第1の実施形態による物体分類装置100は、図1(a)に示すように、机の上に置かれた1個の物体が「ボール」であれば、「ボール」を既知音声・既知画像の物体と分類し、図1(b)に示すように、机の上に置かれた1個の物体が「本」であれば、「本」を未知音声・未知画像の物体と分類することができる。
図8は、机の上に2個の物体が置かれている場合及び3個の物体が置かれている場合を示す図である。第1の実施形態による物体分類装置100は、「ボール」及び「コップ」の音声データ及び画像データを記憶しているが、「本」のデータを記憶していないとする。人間が、「机の上のボールを取ってください。」と命令した場合に、第1の実施形態による物体分類装置100は、既知音声・未知画像及び未知音声・既知画像のデータの学習をしていないので、判定が不安定となり、「ボール」を既知音声・既知画像の物体と判定することができない可能性がある。
そこで、第2の実施形態による物体分類装置100は、式(8)の学習データセットにおいて、既知音声・既知画像のデータセットをdi=1、未知音声・未知画像、未知音声・既知画像及び既知音声・未知画像のデータセットをdi=0として
Figure 0005828552
の学習を行う。このように学習した第2の実施形態による物体分類装置100は、机の上に未知の物体を含む複数の物体がある場合でも既知音声・既知画像の物体を識別することができる。
しかし、上述のように学習していても、図8に示した状態で、人間が、「机の上の本(未知の物体)を取ってください。」と命令した場合に、第2の実施形態による物体分類装置100は、未知音声・未知画像のデータの学習をしていないので、対象を絞り込むことができない。
そこで、第3の実施形態による物体分類装置100においては、物体分類部107に第1及び第2のディテクタを設ける。第1のディテクタは、既知音声・既知画像のデータセットをdi=1、未知音声・未知画像、未知音声・既知画像及び既知音声・未知画像のデータセットをdi=0とした学習データセットによって学習させる。第2のディテクタは、未知音声・未知画像のデータセットをdi=1、既知音声・既知画像、未知音声・既知画像及び既知音声・未知画像のデータセットをdi=0とした学習データセットによって学習させる。第3の実施形態による物体分類装置100は、第1及び第2のディテクタによって分類を行うことにより、既知音声・既知画像のグループ、未知音声・既知画像及び既知音声・未知画像のグループ及び未知音声・未知画像のグループに物体を分類することができる。
図9は、第3の実施形態による物体分類装置100の物体分類部107の第1及び第2のディテクタの動作を説明するための流れ図である。図3の流れ図のステップS040のYESの分岐が図9のステップS070へ接続する。
図9のステップS070において、第1のディテクタによって最大の評価値が閾値より小さいかどうか判断される。小さければ、ステップS075へ進む。そうでなければ、ステップS085へ進む。
図9のステップS085において、対象は、既知音声・既知画像のグループへ分類される。
図9のステップS075において、第2のディテクタによって最大の評価値が閾値より小さいかどうか判断される。小さければ、ステップS080へ進む。そうでなければ、ステップS090へ進む。
図9のステップS090において、対象は、既知音声・未知画像または未知音声・既知画像のグループへ分類される。
図9のステップS080において、対象は、未知音声・未知画像のグループへ分類される。
上記の第1及び第2のディテクタを備えた物体分類部107を備えた第3の実施形態による物体分類装置100は、図8に示した状態で、人間が、「机の上の本(未知の物体)を取ってください。」と命令した場合に、未知の物体を識別することができる。
図10は、机の上に4個の物体が置かれている場合を示す図である。第3の実施形態による物体分類装置100は、「ボール」及び「コップ」の音声データ及び画像データを記憶しているが、「本」及び「ぬいぐるみ」のデータを記憶していないとする。人間が、「机の上の本(未知の物体)を取ってください。」と命令した場合に、第3の実施形態による物体分類装置100は、「本」及び「ぬいぐるみ」を未知音声・未知画像のグループに分類し、対象をこれらに絞り込むことができる。人間に対して、たとえば、「どちらですか?」と質問することができる。また、人間が、「机の上の缶(既知の物体)を取ってください。」と命令した場合に、物体分類装置100は、既知音声の画像はないと判断できるので、人間に対して、たとえば、「言われたものはありません。」と対応することができる。
100…物体分類装置、101…音声信頼度演算部、103…音声・画像データ記憶部、105…画像信頼度演算部、107…物体分類部、109…物体認識部

Claims (6)

  1. 物体の名前の音声及び画像を記憶する音声・画像データ記憶部と、
    物体の名前に関する音声の、ある既知の物体の名前の音声モデルに対する音声信頼度であって、物体の名前の音声に対してある音素系列で求めた音声尤度のうち最も高いものに対する前記ある既知の物体の名前の音声モデルに対する物体の名前の音声尤度の比率である音声信頼度を演算する音声信頼度演算部と、
    物体の画像の、ある既知の物体の画像モデルに対する画像信頼度であって、前記ある既知の物体の画像モデルが取りうる画像尤度のうち最も高いものに対する前記ある既知の物体の画像モデルに対する物体の画像尤度の比率である画像信頼度を演算する画像信頼度演算部と、
    音声信頼度及び画像信頼度を組み合わせた評価値と閾値とを比較することにより対象物体を、名前の音声及び画像が既知であるか未知であるかによって定められた物体のグループに分類する物体分類部と、
    を備えた物体分類装置であって、
    前記物体分類部が、名前の音声及び画像が既知である物体のグループと、名前の音声及び画像が未知である物体のグループと、に物体を分類するように構成された
    物体分類装置。
  2. 物体の名前の音声及び画像を記憶する音声・画像データ記憶部と、
    物体の名前に関する音声の、ある既知の物体の名前の音声モデルに対する音声信頼度であって、物体の名前の音声に対してある音素系列で求めた音声尤度のうち最も高いものに対する前記ある既知の物体の名前の音声モデルに対する物体の名前の音声尤度の比率である音声信頼度を演算する音声信頼度演算部と、
    物体の画像の、ある既知の物体の画像モデルに対する画像信頼度であって、前記ある既知の物体の画像モデルが取りうる画像尤度のうち最も高いものに対する前記ある既知の物体の画像モデルに対する物体の画像尤度の比率である画像信頼度を演算する画像信頼度演算部と、
    音声信頼度及び画像信頼度を組み合わせた評価値と閾値とを比較することにより対象物体を、名前の音声及び画像が既知であるか未知であるかによって定められた物体のグループに分類する物体分類部と、
    を備えた物体分類装置であって、
    前記物体分類部が、名前の音声及び画像が既知である物体のグループと、名前の音声及び画像の少なくとも一方が未知である物体のグループと、に物体を分類するように構成された
    物体分類装置。
  3. 物体の名前の音声及び画像を記憶する音声・画像データ記憶部と、
    物体の名前に関する音声の、ある既知の物体の名前の音声モデルに対する音声信頼度であって、物体の名前の音声に対してある音素系列で求めた音声尤度のうち最も高いものに対する前記ある既知の物体の名前の音声モデルに対する物体の名前の音声尤度の比率である音声信頼度を演算する音声信頼度演算部と、
    物体の画像の、ある既知の物体の画像モデルに対する画像信頼度であって、前記ある既知の物体の画像モデルが取りうる画像尤度のうち最も高いものに対する前記ある既知の物体の画像モデルに対する物体の画像尤度の比率である画像信頼度を演算する画像信頼度演算部と、
    音声信頼度及び画像信頼度を組み合わせた評価値と閾値とを比較することにより対象物体を、名前の音声及び画像が既知であるか未知であるかによって定められた物体のグループに分類する物体分類部と、
    を備えた物体分類装置であって、
    前記物体分類部が、名前の音声及び画像が既知である物体のグループと、名前の音声及び画像の一方のみが未知である物体のグループと、名前の音声及び画像が未知である物体のグループと、に物体を分類するように構成された
    物体分類装置。
  4. 請求項1からのいずれか一項に記載された物体分類装置と、名前の音声及び画像が既知である物体のグループに分類された対象物体に対して、前記対象物体がいずれの既知の物体であるかを認識する物体認識部と、を備えた物体認識装置。
  5. 物体の名前の音声及び画像を記憶するデータ記憶部を備えた分類装置を使用する物体分類方法であって、
    物体の名前に関する音声の、ある既知の物体の名前の音声モデルに対する音声信頼度であって、物体の名前の音声に対してある音素系列で求めた音声尤度のうち最も高いものに対する前記ある既知の物体の名前の音声モデルに対する物体の名前の音声尤度の比率である音声信頼度を演算するステップと、
    物体の画像の、ある既知の物体の画像モデルに対する画像信頼度であって、前記ある既知の物体の画像モデルが取りうる画像尤度のうち最も高いものに対する前記ある既知の物体の画像モデルに対する物体の画像尤度の比率である画像信頼度を演算するステップと、
    音声信頼度及び画像信頼度を組み合わせた評価値を求め、該評価値と閾値とを比較することにより対象物体を、名前の音声及び画像が既知であるか未知であるかによって定められた物体のグループに分類するステップと
    を含み、
    前記分類するステップでは、少なくとも、名前の音声及び画像が既知である物体のグループと、名前の音声及び画像の少なくとも一方が未知である物体のグループと、に物体を分類する、
    物体分類方法。
  6. 物体の名前の音声及び画像を記憶するデータ記憶部を備えた分類装置を使用する物体認識方法であって、
    物体の名前に関する音声の、ある既知の物体の名前の音声モデルに対する音声信頼度であって、物体の名前の音声に対してある音素系列で求めた音声尤度のうち最も高いものに対する前記ある既知の物体の名前の音声モデルに対する物体の名前の音声尤度の比率である音声信頼度を演算するステップと、
    物体の画像の、ある既知の物体の画像モデルに対する画像信頼度であって、前記ある既知の物体の画像モデルが取りうる画像尤度のうち最も高いものに対する前記ある既知の物体の画像モデルに対する物体の画像尤度の比率である画像信頼度を演算するステップと、
    音声信頼度及び画像信頼度を組み合わせた評価値を求め、該評価値と閾値とを比較することにより対象物体を、名前の音声及び画像が既知であるか未知であるかによって定められた物体のグループに分類するステップと、
    名前の音声及び画像が既知である物体のグループに分類された対象物体に対して、前記対象物体がいずれの既知の物体であるかを認識するステップと、
    を含み、
    前記分類するステップでは、少なくとも、名前の音声及び画像が既知である物体のグループと、名前の音声及び画像の少なくとも一方が未知である物体のグループと、に物体を分類する、
    物体認識方法。
JP2011282103A 2011-12-22 2011-12-22 物体分類装置、物体分類方法、物体認識装置及び物体認識方法 Active JP5828552B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2011282103A JP5828552B2 (ja) 2011-12-22 2011-12-22 物体分類装置、物体分類方法、物体認識装置及び物体認識方法
US13/724,220 US8873868B2 (en) 2011-12-22 2012-12-21 Object classification/recognition apparatus and method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011282103A JP5828552B2 (ja) 2011-12-22 2011-12-22 物体分類装置、物体分類方法、物体認識装置及び物体認識方法

Publications (2)

Publication Number Publication Date
JP2013131172A JP2013131172A (ja) 2013-07-04
JP5828552B2 true JP5828552B2 (ja) 2015-12-09

Family

ID=48654628

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011282103A Active JP5828552B2 (ja) 2011-12-22 2011-12-22 物体分類装置、物体分類方法、物体認識装置及び物体認識方法

Country Status (2)

Country Link
US (1) US8873868B2 (ja)
JP (1) JP5828552B2 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6333871B2 (ja) * 2016-02-25 2018-05-30 ファナック株式会社 入力画像から検出した対象物を表示する画像処理装置
US10867216B2 (en) * 2016-03-15 2020-12-15 Canon Kabushiki Kaisha Devices, systems, and methods for detecting unknown objects
JP6427807B2 (ja) * 2017-03-29 2018-11-28 本田技研工業株式会社 物体認証装置および物体認証方法
JP6565084B2 (ja) * 2017-03-29 2019-08-28 本田技研工業株式会社 物体認証装置および物体認証方法
KR102649074B1 (ko) * 2018-01-08 2024-03-18 워너 브로스. 엔터테인먼트 인크. 신경 생리학적 상태의 검출을 위한 사회적 상호작용 애플리케이션

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2993862B2 (ja) * 1995-03-22 1999-12-27 株式会社エイ・ティ・アール音声翻訳通信研究所 信号認識方法、信号認識装置、信号認識装置の学習方法及び信号認識装置の学習装置
JP2002160185A (ja) * 2000-03-31 2002-06-04 Sony Corp ロボット装置、ロボット装置の行動制御方法、外力検出装置及び外力検出方法
US7031530B2 (en) * 2001-11-27 2006-04-18 Lockheed Martin Corporation Compound classifier for pattern recognition applications
JP4048492B2 (ja) * 2003-07-03 2008-02-20 ソニー株式会社 音声対話装置及び方法並びにロボット装置
US7680330B2 (en) * 2003-11-14 2010-03-16 Fujifilm Corporation Methods and apparatus for object recognition using textons
AU2007253305A1 (en) * 2006-05-23 2007-11-29 Siemens Aktiengesellschaft System and method for sorting objects using OCR and speech recognition techniques
US8566097B2 (en) 2009-06-02 2013-10-22 Honda Motor Co., Ltd. Lexical acquisition apparatus, multi dialogue behavior system, and lexical acquisition program
US8532989B2 (en) * 2009-09-03 2013-09-10 Honda Motor Co., Ltd. Command recognition device, command recognition method, and command recognition robot
TWI423144B (zh) * 2009-11-10 2014-01-11 Inst Information Industry Combined with the audio and video behavior identification system, identification methods and computer program products

Also Published As

Publication number Publication date
US20130163887A1 (en) 2013-06-27
US8873868B2 (en) 2014-10-28
JP2013131172A (ja) 2013-07-04

Similar Documents

Publication Publication Date Title
US10573304B2 (en) Speech recognition system and method using an adaptive incremental learning approach
CN105229725B (zh) 多语言深神经网络
JP6424628B2 (ja) 話者識別装置、話者識別方法、および話者識別用プログラム
US9412361B1 (en) Configuring system operation using image data
Taniguchi et al. Spatial concept acquisition for a mobile robot that integrates self-localization and unsupervised word discovery from spoken sentences
CN112088315A (zh) 多模式语音定位
JP5828552B2 (ja) 物体分類装置、物体分類方法、物体認識装置及び物体認識方法
JP6787770B2 (ja) 言語記憶方法及び言語対話システム
Zimmermann et al. Visual speech recognition using PCA networks and LSTMs in a tandem GMM-HMM system
Sahoo et al. Emotion recognition from audio-visual data using rule based decision level fusion
US20160365096A1 (en) Training classifiers using selected cohort sample subsets
JP2011054088A (ja) 情報処理装置、情報処理方法、プログラム及び対話システム
JP2022509485A (ja) クロスドメインバッチ正規化を使用したニューラルネットワークにおけるドメイン適応のためのシステム及び方法
CN109196583A (zh) 动态语音识别数据评估
US20190341053A1 (en) Multi-modal speech attribution among n speakers
US11211059B2 (en) Artificial intelligence apparatus and method for recognizing speech with multiple languages
KR102544249B1 (ko) 발화의 문맥을 공유하여 번역을 수행하는 전자 장치 및 그 동작 방법
JP6797338B2 (ja) 情報処理装置、情報処理方法及びプログラム
US11132999B2 (en) Information processing device, information processing method, and non-transitory computer readable storage medium
US20220036877A1 (en) Speech recognition device, speech recognition system, and speech recognition method
Kandala et al. Speaker Adaptation for Lip-Reading Using Visual Identity Vectors.
Ozasa et al. Disambiguation in unknown object detection by integrating image and speech recognition confidences
EP4030352A1 (en) Task-specific text generation based on multimodal inputs
Iwahashi Interactive learning of spoken words and their meanings through an audio-visual interface
Taniguchi et al. Simultaneous estimation of self-position and word from noisy utterances and sensory information

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20141010

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20141010

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150626

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150715

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150806

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20151008

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20151016

R150 Certificate of patent or registration of utility model

Ref document number: 5828552

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313117

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250