JP5828552B2 - 物体分類装置、物体分類方法、物体認識装置及び物体認識方法 - Google Patents
物体分類装置、物体分類方法、物体認識装置及び物体認識方法 Download PDFInfo
- Publication number
- JP5828552B2 JP5828552B2 JP2011282103A JP2011282103A JP5828552B2 JP 5828552 B2 JP5828552 B2 JP 5828552B2 JP 2011282103 A JP2011282103 A JP 2011282103A JP 2011282103 A JP2011282103 A JP 2011282103A JP 5828552 B2 JP5828552 B2 JP 5828552B2
- Authority
- JP
- Japan
- Prior art keywords
- image
- speech
- name
- reliability
- respect
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 45
- 238000011156 evaluation Methods 0.000 claims description 27
- 238000004364 calculation method Methods 0.000 claims description 22
- 238000013500 data storage Methods 0.000 claims description 11
- 238000002474 experimental method Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 8
- 238000012360 testing method Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 6
- 238000002790 cross-validation Methods 0.000 description 4
- 238000001514 detection method Methods 0.000 description 3
- 241000282412 Homo Species 0.000 description 2
- 238000007477 logistic regression Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/254—Fusion techniques of classification results, e.g. of results related to same input data
- G06F18/256—Fusion techniques of classification results, e.g. of results related to same input data of results relating to different input data, e.g. multimodal recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/40—Software arrangements specially adapted for pattern recognition, e.g. user interfaces or toolboxes therefor
- G06F18/41—Interactive pattern learning with a human teacher
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/778—Active pattern-learning, e.g. online learning of image or video features
- G06V10/7784—Active pattern-learning, e.g. online learning of image or video features based on feedback from supervisors
- G06V10/7788—Active pattern-learning, e.g. online learning of image or video features based on feedback from supervisors the supervisor being a human, e.g. interactive learning with a human teacher
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/01—Assessment or evaluation of speech recognition systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0631—Creating reference templates; Clustering
- G10L2015/0633—Creating reference templates; Clustering using lexical or orthographic knowledge sources
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Multimedia (AREA)
- Medical Informatics (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
図9のステップS070において、第1のディテクタによって最大の評価値が閾値より小さいかどうか判断される。小さければ、ステップS075へ進む。そうでなければ、ステップS085へ進む。
Claims (6)
- 物体の名前の音声及び画像を記憶する音声・画像データ記憶部と、
物体の名前に関する音声の、ある既知の物体の名前の音声モデルに対する音声信頼度であって、物体の名前の音声に対してある音素系列で求めた音声尤度のうち最も高いものに対する前記ある既知の物体の名前の音声モデルに対する物体の名前の音声尤度の比率である音声信頼度を演算する音声信頼度演算部と、
物体の画像の、ある既知の物体の画像モデルに対する画像信頼度であって、前記ある既知の物体の画像モデルが取りうる画像尤度のうち最も高いものに対する前記ある既知の物体の画像モデルに対する物体の画像尤度の比率である画像信頼度を演算する画像信頼度演算部と、
音声信頼度及び画像信頼度を組み合わせた評価値と閾値とを比較することにより対象物体を、名前の音声及び画像が既知であるか未知であるかによって定められた物体のグループに分類する物体分類部と、
を備えた物体分類装置であって、
前記物体分類部が、名前の音声及び画像が既知である物体のグループと、名前の音声及び画像が未知である物体のグループと、に物体を分類するように構成された、
物体分類装置。 - 物体の名前の音声及び画像を記憶する音声・画像データ記憶部と、
物体の名前に関する音声の、ある既知の物体の名前の音声モデルに対する音声信頼度であって、物体の名前の音声に対してある音素系列で求めた音声尤度のうち最も高いものに対する前記ある既知の物体の名前の音声モデルに対する物体の名前の音声尤度の比率である音声信頼度を演算する音声信頼度演算部と、
物体の画像の、ある既知の物体の画像モデルに対する画像信頼度であって、前記ある既知の物体の画像モデルが取りうる画像尤度のうち最も高いものに対する前記ある既知の物体の画像モデルに対する物体の画像尤度の比率である画像信頼度を演算する画像信頼度演算部と、
音声信頼度及び画像信頼度を組み合わせた評価値と閾値とを比較することにより対象物体を、名前の音声及び画像が既知であるか未知であるかによって定められた物体のグループに分類する物体分類部と、
を備えた物体分類装置であって、
前記物体分類部が、名前の音声及び画像が既知である物体のグループと、名前の音声及び画像の少なくとも一方が未知である物体のグループと、に物体を分類するように構成された、
物体分類装置。 - 物体の名前の音声及び画像を記憶する音声・画像データ記憶部と、
物体の名前に関する音声の、ある既知の物体の名前の音声モデルに対する音声信頼度であって、物体の名前の音声に対してある音素系列で求めた音声尤度のうち最も高いものに対する前記ある既知の物体の名前の音声モデルに対する物体の名前の音声尤度の比率である音声信頼度を演算する音声信頼度演算部と、
物体の画像の、ある既知の物体の画像モデルに対する画像信頼度であって、前記ある既知の物体の画像モデルが取りうる画像尤度のうち最も高いものに対する前記ある既知の物体の画像モデルに対する物体の画像尤度の比率である画像信頼度を演算する画像信頼度演算部と、
音声信頼度及び画像信頼度を組み合わせた評価値と閾値とを比較することにより対象物体を、名前の音声及び画像が既知であるか未知であるかによって定められた物体のグループに分類する物体分類部と、
を備えた物体分類装置であって、
前記物体分類部が、名前の音声及び画像が既知である物体のグループと、名前の音声及び画像の一方のみが未知である物体のグループと、名前の音声及び画像が未知である物体のグループと、に物体を分類するように構成された、
物体分類装置。 - 請求項1から3のいずれか一項に記載された物体分類装置と、名前の音声及び画像が既知である物体のグループに分類された対象物体に対して、前記対象物体がいずれの既知の物体であるかを認識する物体認識部と、を備えた物体認識装置。
- 物体の名前の音声及び画像を記憶するデータ記憶部を備えた分類装置を使用する物体分類方法であって、
物体の名前に関する音声の、ある既知の物体の名前の音声モデルに対する音声信頼度であって、物体の名前の音声に対してある音素系列で求めた音声尤度のうち最も高いものに対する前記ある既知の物体の名前の音声モデルに対する物体の名前の音声尤度の比率である音声信頼度を演算するステップと、
物体の画像の、ある既知の物体の画像モデルに対する画像信頼度であって、前記ある既知の物体の画像モデルが取りうる画像尤度のうち最も高いものに対する前記ある既知の物体の画像モデルに対する物体の画像尤度の比率である画像信頼度を演算するステップと、
音声信頼度及び画像信頼度を組み合わせた評価値を求め、該評価値と閾値とを比較することにより対象物体を、名前の音声及び画像が既知であるか未知であるかによって定められた物体のグループに分類するステップと、
を含み、
前記分類するステップでは、少なくとも、名前の音声及び画像が既知である物体のグループと、名前の音声及び画像の少なくとも一方が未知である物体のグループと、に物体を分類する、
物体分類方法。 - 物体の名前の音声及び画像を記憶するデータ記憶部を備えた分類装置を使用する物体認識方法であって、
物体の名前に関する音声の、ある既知の物体の名前の音声モデルに対する音声信頼度であって、物体の名前の音声に対してある音素系列で求めた音声尤度のうち最も高いものに対する前記ある既知の物体の名前の音声モデルに対する物体の名前の音声尤度の比率である音声信頼度を演算するステップと、
物体の画像の、ある既知の物体の画像モデルに対する画像信頼度であって、前記ある既知の物体の画像モデルが取りうる画像尤度のうち最も高いものに対する前記ある既知の物体の画像モデルに対する物体の画像尤度の比率である画像信頼度を演算するステップと、
音声信頼度及び画像信頼度を組み合わせた評価値を求め、該評価値と閾値とを比較することにより対象物体を、名前の音声及び画像が既知であるか未知であるかによって定められた物体のグループに分類するステップと、
名前の音声及び画像が既知である物体のグループに分類された対象物体に対して、前記対象物体がいずれの既知の物体であるかを認識するステップと、
を含み、
前記分類するステップでは、少なくとも、名前の音声及び画像が既知である物体のグループと、名前の音声及び画像の少なくとも一方が未知である物体のグループと、に物体を分類する、
物体認識方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011282103A JP5828552B2 (ja) | 2011-12-22 | 2011-12-22 | 物体分類装置、物体分類方法、物体認識装置及び物体認識方法 |
US13/724,220 US8873868B2 (en) | 2011-12-22 | 2012-12-21 | Object classification/recognition apparatus and method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011282103A JP5828552B2 (ja) | 2011-12-22 | 2011-12-22 | 物体分類装置、物体分類方法、物体認識装置及び物体認識方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013131172A JP2013131172A (ja) | 2013-07-04 |
JP5828552B2 true JP5828552B2 (ja) | 2015-12-09 |
Family
ID=48654628
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011282103A Active JP5828552B2 (ja) | 2011-12-22 | 2011-12-22 | 物体分類装置、物体分類方法、物体認識装置及び物体認識方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US8873868B2 (ja) |
JP (1) | JP5828552B2 (ja) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6333871B2 (ja) * | 2016-02-25 | 2018-05-30 | ファナック株式会社 | 入力画像から検出した対象物を表示する画像処理装置 |
US10867216B2 (en) * | 2016-03-15 | 2020-12-15 | Canon Kabushiki Kaisha | Devices, systems, and methods for detecting unknown objects |
JP6427807B2 (ja) * | 2017-03-29 | 2018-11-28 | 本田技研工業株式会社 | 物体認証装置および物体認証方法 |
JP6565084B2 (ja) * | 2017-03-29 | 2019-08-28 | 本田技研工業株式会社 | 物体認証装置および物体認証方法 |
KR102649074B1 (ko) * | 2018-01-08 | 2024-03-18 | 워너 브로스. 엔터테인먼트 인크. | 신경 생리학적 상태의 검출을 위한 사회적 상호작용 애플리케이션 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2993862B2 (ja) * | 1995-03-22 | 1999-12-27 | 株式会社エイ・ティ・アール音声翻訳通信研究所 | 信号認識方法、信号認識装置、信号認識装置の学習方法及び信号認識装置の学習装置 |
JP2002160185A (ja) * | 2000-03-31 | 2002-06-04 | Sony Corp | ロボット装置、ロボット装置の行動制御方法、外力検出装置及び外力検出方法 |
US7031530B2 (en) * | 2001-11-27 | 2006-04-18 | Lockheed Martin Corporation | Compound classifier for pattern recognition applications |
JP4048492B2 (ja) * | 2003-07-03 | 2008-02-20 | ソニー株式会社 | 音声対話装置及び方法並びにロボット装置 |
US7680330B2 (en) * | 2003-11-14 | 2010-03-16 | Fujifilm Corporation | Methods and apparatus for object recognition using textons |
AU2007253305A1 (en) * | 2006-05-23 | 2007-11-29 | Siemens Aktiengesellschaft | System and method for sorting objects using OCR and speech recognition techniques |
US8566097B2 (en) | 2009-06-02 | 2013-10-22 | Honda Motor Co., Ltd. | Lexical acquisition apparatus, multi dialogue behavior system, and lexical acquisition program |
US8532989B2 (en) * | 2009-09-03 | 2013-09-10 | Honda Motor Co., Ltd. | Command recognition device, command recognition method, and command recognition robot |
TWI423144B (zh) * | 2009-11-10 | 2014-01-11 | Inst Information Industry | Combined with the audio and video behavior identification system, identification methods and computer program products |
-
2011
- 2011-12-22 JP JP2011282103A patent/JP5828552B2/ja active Active
-
2012
- 2012-12-21 US US13/724,220 patent/US8873868B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
US20130163887A1 (en) | 2013-06-27 |
US8873868B2 (en) | 2014-10-28 |
JP2013131172A (ja) | 2013-07-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10573304B2 (en) | Speech recognition system and method using an adaptive incremental learning approach | |
CN105229725B (zh) | 多语言深神经网络 | |
JP6424628B2 (ja) | 話者識別装置、話者識別方法、および話者識別用プログラム | |
US9412361B1 (en) | Configuring system operation using image data | |
Taniguchi et al. | Spatial concept acquisition for a mobile robot that integrates self-localization and unsupervised word discovery from spoken sentences | |
CN112088315A (zh) | 多模式语音定位 | |
JP5828552B2 (ja) | 物体分類装置、物体分類方法、物体認識装置及び物体認識方法 | |
JP6787770B2 (ja) | 言語記憶方法及び言語対話システム | |
Zimmermann et al. | Visual speech recognition using PCA networks and LSTMs in a tandem GMM-HMM system | |
Sahoo et al. | Emotion recognition from audio-visual data using rule based decision level fusion | |
US20160365096A1 (en) | Training classifiers using selected cohort sample subsets | |
JP2011054088A (ja) | 情報処理装置、情報処理方法、プログラム及び対話システム | |
JP2022509485A (ja) | クロスドメインバッチ正規化を使用したニューラルネットワークにおけるドメイン適応のためのシステム及び方法 | |
CN109196583A (zh) | 动态语音识别数据评估 | |
US20190341053A1 (en) | Multi-modal speech attribution among n speakers | |
US11211059B2 (en) | Artificial intelligence apparatus and method for recognizing speech with multiple languages | |
KR102544249B1 (ko) | 발화의 문맥을 공유하여 번역을 수행하는 전자 장치 및 그 동작 방법 | |
JP6797338B2 (ja) | 情報処理装置、情報処理方法及びプログラム | |
US11132999B2 (en) | Information processing device, information processing method, and non-transitory computer readable storage medium | |
US20220036877A1 (en) | Speech recognition device, speech recognition system, and speech recognition method | |
Kandala et al. | Speaker Adaptation for Lip-Reading Using Visual Identity Vectors. | |
Ozasa et al. | Disambiguation in unknown object detection by integrating image and speech recognition confidences | |
EP4030352A1 (en) | Task-specific text generation based on multimodal inputs | |
Iwahashi | Interactive learning of spoken words and their meanings through an audio-visual interface | |
Taniguchi et al. | Simultaneous estimation of self-position and word from noisy utterances and sensory information |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20141010 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20141010 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20150626 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20150715 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20150806 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20151008 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20151016 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5828552 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313117 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |