JP2011033680A - 音声処理装置及び方法、並びにプログラム - Google Patents
音声処理装置及び方法、並びにプログラム Download PDFInfo
- Publication number
- JP2011033680A JP2011033680A JP2009177578A JP2009177578A JP2011033680A JP 2011033680 A JP2011033680 A JP 2011033680A JP 2009177578 A JP2009177578 A JP 2009177578A JP 2009177578 A JP2009177578 A JP 2009177578A JP 2011033680 A JP2011033680 A JP 2011033680A
- Authority
- JP
- Japan
- Prior art keywords
- intention
- score
- information
- intention information
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims description 120
- 238000012545 processing Methods 0.000 title claims description 64
- 238000004364 calculation method Methods 0.000 claims abstract description 55
- 230000008569 process Effects 0.000 claims description 93
- 230000005236 sound signal Effects 0.000 claims description 38
- 230000000875 corresponding effect Effects 0.000 description 118
- 238000010586 diagram Methods 0.000 description 23
- 230000007704 transition Effects 0.000 description 22
- 238000000605 extraction Methods 0.000 description 18
- 238000006243 chemical reaction Methods 0.000 description 10
- 230000004044 response Effects 0.000 description 7
- 230000009471 action Effects 0.000 description 6
- 238000011156 evaluation Methods 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000009499 grossing Methods 0.000 description 3
- 238000012790 confirmation Methods 0.000 description 2
- 230000010365 information processing Effects 0.000 description 2
- 230000007257 malfunction Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 230000002195 synergetic effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Abstract
【解決手段】 マルチマッチング部64は、複数の意図のそれぞれを示す複数の意図情報毎に、ユーザの発話に基づいて入力された音声信号の意図情報に対する適合度を示すスコアを算出する。意図判定部67は、マルチマッチング部64により算出されたスコアに基づいて、複数の意図情報の中から、ユーザの発話の意図を示す意図情報を選択する。意図信頼度算出部68は、意図判定部67により選択された意図情報に対して、マルチマッチング部64により算出されたスコアに基づいて信頼度を算出する。本発明は、産業用ロボットに適用できる。
【選択図】図2
Description
1.第1実施形態
2.第2実施形態(事前スコアの調整にコンテキストが利用された例)
3.第3実施形態(無音部分の除去が適用された例)
4.第4実施形態(無意味発話の判定が適用された例)
5.第5実施形態(音声理解結果の適用例)
[本発明が適用される音声理解装置の構成例]
図2は、本発明が適用される音声処理装置としての音声理解装置の一実施の形態の構成例を示すブロック図である。
図3は、音声理解装置41による音声理解処理の一例を説明するフローチャートである。
以上の第1実施形態では、各意図モデル66−1乃至66−Nが保持する事前スコアは、対応する意図の生起確率(事前確率)に基づいて設定され、常に固定値とされていた。これに対して、第2実施形態では、事前スコアは、コンテキストに応じて調整される。コンテキストとは、ユーザの発話が入力される状態をいう。
例えば、ユーザが、音声理解装置41に対して天気についての問い合わせができる場合に、最初のコンテキストで、ユーザが「天気を教えて」と発話するか、「明日」と発話するかの生起確率が同程度であるとする。そして、ユーザが、音声理解装置41に対して「天気を教えて」と発話し、ユーザの発話に対して、音声理解装置41がユーザに日時を入力するように応答したとする。そのコンテキスト(この応答に対する次のユーザの発話が入力される状態)では、ユーザが「天気を教えて」と再び発話する生起確率は低くなる一方で、ユーザが例えば「明日」と発話する生起確率は高くなることが予想される。このように、ユーザの発話の履歴や、それらの発話に対する音声理解装置41の応答などに応じて、次のコンテキスト(次にユーザが発話して音声理解装置41に入力される状態)が変化する。
以上の第1実施形態と第2実施形態では、入力音声信号に含まれる無音声部分の信号については何ら考慮されていなかった。しかしながら、図2の意図信頼度算出部68が算出する意図モデル66の信頼度の有効性は、入力音声信号に含まれる無音声部分の信号によって影響を受ける。そこで、第3実施形態では、入力音声信号に含まれる無音声部分の信号を除去した上で、有音声部分の信号についての意図モデル66−kの信頼度が算出される。
図15は、入力音声信号に含まれる無音声部分について説明する図である。
以上の第1実施形態乃至第3実施形態では、入力音声信号が特定の意味を示さない場合にも、選択された意図情報に高い信頼度が付与される可能性がある。しかしながら、入力音声信号が特定の意味を示さない場合には、選択された意図情報に高い信頼度が付与されていたとしても、その意図情報を音声理解結果としてそのまま採用することは不適切である。そこで、第4実施形態では、音声理解結果の有効性を高めるために、入力音声信号が特定の意味を示さない場合にはその入力音声信号に対応する発話は無意味発話であると判定され、その判定結果が音声理解結果に付加される。
図17は、第4実施形態の意図判定部67による無意味発話判定処理の一例を説明するフローチャートである。
図18は、第1実施形態、第3実施形態、および第4実施形態の実験結果を示す図である。
[情報提示装置の構成例]
図19は、本発明が適用される音声処理装置としての情報提示装置の一実施の形態の構成を示すブロック図である。
図20は、情報提示装置101による情報提示処理の一例を説明するフローチャートである。
上述した一連の処理は、ハードウエアにより実行させることもできるし、ソフトウエアにより実行させることができる。
Claims (9)
- 複数の意図のそれぞれを示す複数の意図情報毎に、ユーザの発話に基づいて入力された音声信号の前記意図情報に対する適合度を示すスコアを算出するスコア算出手段と、
前記スコア算出手段により算出された前記スコアに基づいて、前記複数の意図情報の中から、前記ユーザの発話の意図を示す前記意図情報を選択する意図選択手段と、
前記意図選択手段により選択された前記意図情報に対して、前記スコア算出手段により算出された前記スコアに基づいて信頼度を算出する意図信頼度算出手段と
を備える音声処理装置。 - 前記スコア算出手段は、
前記複数の意図情報毎に、前記音声信号の前記意図情報に対する音響的な適合度を示す前記スコアとしての音響スコアを算出する音響スコア算出手段と、
前記複数の意図情報毎に、前記音声信号の前記意図情報に対する言語的な適合度を示す前記スコアとしての言語スコアを算出する言語スコア算出手段と、
前記複数の意図情報毎に、それぞれの生起確率に基づいて事前に決定される前記スコアとしての事前スコアを算出する事前スコア算出手段と
を有する請求項1に記載の音声処理装置。 - 前記事前スコア算出手段は、前記音声信号が入力されたときのコンテキストに応じて、前記複数の意図情報毎に前記事前スコアを調整する
請求項2に記載の音声処理装置。 - 前記スコア算出手段は、前記音声信号のうちの有音声部分の前記スコアを算出する
請求項3に記載の音声処理装置。 - 前記スコア算出手段は、前記複数の意図情報の中の、特定の意図を示さない前記意図情報の前記スコアも算出し、
前記意図選択手段は、前記特定の意図を示さない前記意図情報を選択した場合、前記音声信号に対応する前記ユーザの発話は、特定の意図を示さない無意味発話であると判定する
請求項3に記載の音声処理装置。 - 前記スコア算出手段は、前記音響スコア、前記言語スコア、および前記事前スコアに対して、重みをそれぞれ付与し、
前記意図信頼度算出手段は、前記重みをそれぞれ調整し、調整後の前記重みがそれぞれ付与された前記スコアに基づいて、前記信頼度を算出する
請求項3に記載の音声処理装置。 - 前記意図選択手段により選択された前記意図情報に基づく出力を管理する管理手段を
さらに備える請求項3に記載の音声処理装置。 - 複数の意図のそれぞれを示す複数の意図情報毎に、ユーザの発話に基づいて入力された音声信号の前記意図情報に対する適合度を示すスコアを算出するスコア算出ステップと、
前記スコア算出ステップの処理により算出された前記スコアに基づいて、前記複数の意図情報の中から、前記ユーザの発話の意図を示す前記意図情報を選択する意図選択ステップと、
前記意図選択ステップの処理により選択された前記意図情報に対して、前記スコア算出ステップの処理により算出された前記スコアに基づいて信頼度を算出する意図信頼度算出ステップと
を含む音声処理方法。 - 複数の意図のそれぞれを示す複数の意図情報毎に、ユーザの発話に基づいて入力された音声信号の前記意図情報に対する適合度を示すスコアを算出し、
算出された前記スコアに基づいて、前記複数の意図情報の中から、前記ユーザの発話の意図を示す前記意図情報を選択し、
前記意図選択ステップの処理により選択された前記意図情報に対して、算出された前記スコアに基づいて信頼度を算出する
ステップを含む制御処理をコンピュータに実行させるプログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009177578A JP2011033680A (ja) | 2009-07-30 | 2009-07-30 | 音声処理装置及び方法、並びにプログラム |
US12/817,526 US8612223B2 (en) | 2009-07-30 | 2010-06-17 | Voice processing device and method, and program |
CN2010102374059A CN101989424B (zh) | 2009-07-30 | 2010-07-22 | 语音处理设备和方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009177578A JP2011033680A (ja) | 2009-07-30 | 2009-07-30 | 音声処理装置及び方法、並びにプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011033680A true JP2011033680A (ja) | 2011-02-17 |
JP2011033680A5 JP2011033680A5 (ja) | 2012-07-19 |
Family
ID=43527848
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009177578A Pending JP2011033680A (ja) | 2009-07-30 | 2009-07-30 | 音声処理装置及び方法、並びにプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US8612223B2 (ja) |
JP (1) | JP2011033680A (ja) |
CN (1) | CN101989424B (ja) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015081971A (ja) * | 2013-10-22 | 2015-04-27 | 株式会社Nttドコモ | 機能実行指示システム及び機能実行指示方法 |
WO2015107659A1 (ja) * | 2014-01-16 | 2015-07-23 | 三菱電機株式会社 | 検索装置 |
WO2015151157A1 (ja) * | 2014-03-31 | 2015-10-08 | 三菱電機株式会社 | 意図理解装置および方法 |
WO2016151698A1 (ja) * | 2015-03-20 | 2016-09-29 | 株式会社 東芝 | 対話装置、方法及びプログラム |
KR20170028877A (ko) * | 2014-04-17 | 2017-03-14 | 소프트뱅크 로보틱스 유럽 | 로봇 상의 소프트웨어 애플리케이션 실행하기 |
JP2017058545A (ja) * | 2015-09-17 | 2017-03-23 | 本田技研工業株式会社 | 音声処理装置および音声処理方法 |
KR20170048008A (ko) * | 2015-10-26 | 2017-05-08 | 에스케이텔레콤 주식회사 | 질의의도를 분석하기 위한 장치 및 방법 |
JP2017518588A (ja) * | 2014-06-18 | 2017-07-06 | マイクロソフト テクノロジー ライセンシング,エルエルシー | 会話理解システムのためのセッションコンテキストモデリング |
JP2017191119A (ja) * | 2016-04-11 | 2017-10-19 | 日本電信電話株式会社 | 識別器構築装置、方法及びプログラム |
US10475440B2 (en) | 2013-02-14 | 2019-11-12 | Sony Corporation | Voice segment detection for extraction of sound source |
EP3591648A1 (en) | 2015-05-19 | 2020-01-08 | Sony Corporation | Information processing apparatus, information processing method, and program |
WO2020039726A1 (ja) * | 2018-08-20 | 2020-02-27 | ソニー株式会社 | 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム |
JP2022024110A (ja) * | 2020-11-24 | 2022-02-08 | ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド | 音声認識方法、装置、電子機器及び記憶媒体 |
Families Citing this family (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4188989B2 (ja) * | 2006-09-15 | 2008-12-03 | 本田技研工業株式会社 | 音声認識装置、音声認識方法、及び音声認識プログラム |
JP2011033680A (ja) * | 2009-07-30 | 2011-02-17 | Sony Corp | 音声処理装置及び方法、並びにプログラム |
KR101699720B1 (ko) * | 2010-08-03 | 2017-01-26 | 삼성전자주식회사 | 음성명령 인식 장치 및 음성명령 인식 방법 |
US8688453B1 (en) * | 2011-02-28 | 2014-04-01 | Nuance Communications, Inc. | Intent mining via analysis of utterances |
US9093076B2 (en) * | 2012-04-30 | 2015-07-28 | 2236008 Ontario Inc. | Multipass ASR controlling multiple applications |
US9431012B2 (en) | 2012-04-30 | 2016-08-30 | 2236008 Ontario Inc. | Post processing of natural language automatic speech recognition |
US9679568B1 (en) | 2012-06-01 | 2017-06-13 | Google Inc. | Training a dialog system using user feedback |
US9123338B1 (en) | 2012-06-01 | 2015-09-01 | Google Inc. | Background audio identification for speech disambiguation |
US9196250B2 (en) | 2012-11-16 | 2015-11-24 | 2236008 Ontario Inc. | Application services interface to ASR |
US9530405B2 (en) * | 2012-11-30 | 2016-12-27 | Mitsubishi Electric Corporation | Intention estimating device and intention estimating method |
EP2816552B1 (en) * | 2013-06-20 | 2018-10-17 | 2236008 Ontario Inc. | Conditional multipass automatic speech recognition |
US9899021B1 (en) * | 2013-12-20 | 2018-02-20 | Amazon Technologies, Inc. | Stochastic modeling of user interactions with a detection system |
RU2580431C2 (ru) | 2014-03-27 | 2016-04-10 | Общество С Ограниченной Ответственностью "Яндекс" | Способ и сервер для обработки поискового запроса и машиночитаемый носитель |
US11209897B2 (en) | 2014-04-25 | 2021-12-28 | Lenovo (Singapore) Pte. Ltd. | Strengthening prediction confidence and command priority using natural user interface (NUI) inputs |
US10726831B2 (en) * | 2014-05-20 | 2020-07-28 | Amazon Technologies, Inc. | Context interpretation in natural language processing using previous dialog acts |
CN106796786B (zh) * | 2014-09-30 | 2021-03-02 | 三菱电机株式会社 | 语音识别*** |
US10832665B2 (en) * | 2016-05-27 | 2020-11-10 | Centurylink Intellectual Property Llc | Internet of things (IoT) human interface apparatus, system, and method |
CN108363745B (zh) | 2018-01-26 | 2020-06-30 | 阿里巴巴集团控股有限公司 | 机器人客服转人工客服的方法和装置 |
US10754425B2 (en) * | 2018-05-17 | 2020-08-25 | Olympus Corporation | Information processing apparatus, information processing method, and non-transitory computer readable recording medium |
US11935521B2 (en) * | 2019-09-12 | 2024-03-19 | Oracle International Corporation | Real-time feedback for efficient dialog processing |
CN112000787B (zh) * | 2020-08-17 | 2021-05-14 | 上海小鹏汽车科技有限公司 | 语音交互方法、服务器和语音交互*** |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006053203A (ja) * | 2004-08-10 | 2006-02-23 | Sony Corp | 音声処理装置および方法、記録媒体、並びにプログラム |
JP2006154190A (ja) * | 2004-11-29 | 2006-06-15 | Toshiba Corp | 音声移動制御装置および音声移動制御方法 |
WO2008001485A1 (fr) * | 2006-06-26 | 2008-01-03 | Nec Corporation | système de génération de modèles de langue, procédé de génération de modèles de langue et programme de génération de modèles de langue |
Family Cites Families (105)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4783803A (en) * | 1985-11-12 | 1988-11-08 | Dragon Systems, Inc. | Speech recognition apparatus and method |
US5197005A (en) * | 1989-05-01 | 1993-03-23 | Intelligent Business Systems | Database retrieval system having a natural language interface |
EP0543329B1 (en) * | 1991-11-18 | 2002-02-06 | Kabushiki Kaisha Toshiba | Speech dialogue system for facilitating human-computer interaction |
US5386494A (en) * | 1991-12-06 | 1995-01-31 | Apple Computer, Inc. | Method and apparatus for controlling a speech recognition function using a cursor control device |
US5377103A (en) * | 1992-05-15 | 1994-12-27 | International Business Machines Corporation | Constrained natural language interface for a computer that employs a browse function |
US6311157B1 (en) * | 1992-12-31 | 2001-10-30 | Apple Computer, Inc. | Assigning meanings to utterances in a speech recognition system |
US5625748A (en) * | 1994-04-18 | 1997-04-29 | Bbn Corporation | Topic discriminator using posterior probability or confidence scores |
US5842163A (en) * | 1995-06-21 | 1998-11-24 | Sri International | Method and apparatus for computing likelihood and hypothesizing keyword appearance in speech |
US6192110B1 (en) * | 1995-09-15 | 2001-02-20 | At&T Corp. | Method and apparatus for generating sematically consistent inputs to a dialog manager |
US5754978A (en) * | 1995-10-27 | 1998-05-19 | Speech Systems Of Colorado, Inc. | Speech recognition system |
JP2999727B2 (ja) * | 1996-09-19 | 2000-01-17 | 株式会社エイ・ティ・アール音声翻訳通信研究所 | 音声認識装置 |
US5933822A (en) * | 1997-07-22 | 1999-08-03 | Microsoft Corporation | Apparatus and methods for an information retrieval system that employs natural language processing of search results to improve overall precision |
US6397179B2 (en) * | 1997-12-24 | 2002-05-28 | Nortel Networks Limited | Search optimization system and method for continuous speech recognition |
KR100638198B1 (ko) * | 1998-06-02 | 2006-10-26 | 소니 가부시끼 가이샤 | 정보처리장치 및 방법과 정보제공매체 |
US6526380B1 (en) * | 1999-03-26 | 2003-02-25 | Koninklijke Philips Electronics N.V. | Speech recognition system having parallel large vocabulary recognition engines |
US6421645B1 (en) * | 1999-04-09 | 2002-07-16 | International Business Machines Corporation | Methods and apparatus for concurrent speech recognition, speaker segmentation and speaker classification |
GB9911971D0 (en) * | 1999-05-21 | 1999-07-21 | Canon Kk | A system, a server for a system and a machine for use in a system |
US20020032564A1 (en) * | 2000-04-19 | 2002-03-14 | Farzad Ehsani | Phrase-based dialogue modeling with particular application to creating a recognition grammar for a voice-controlled user interface |
US7016835B2 (en) * | 1999-10-29 | 2006-03-21 | International Business Machines Corporation | Speech and signal digitization by using recognition metrics to select from multiple techniques |
US7392185B2 (en) * | 1999-11-12 | 2008-06-24 | Phoenix Solutions, Inc. | Speech based learning/training system using semantic decoding |
JP2001154685A (ja) * | 1999-11-30 | 2001-06-08 | Sony Corp | 音声認識装置および音声認識方法、並びに記録媒体 |
US6839671B2 (en) * | 1999-12-20 | 2005-01-04 | British Telecommunications Public Limited Company | Learning of dialogue states and language model of spoken information system |
US7219056B2 (en) * | 2000-04-20 | 2007-05-15 | International Business Machines Corporation | Determining and using acoustic confusability, acoustic perplexity and synthetic acoustic word error rate |
US7401023B1 (en) * | 2000-09-06 | 2008-07-15 | Verizon Corporate Services Group Inc. | Systems and methods for providing automated directory assistance using transcripts |
US7346490B2 (en) * | 2000-09-29 | 2008-03-18 | Axonwave Software Inc. | Method and system for describing and identifying concepts in natural language text for information retrieval and processing |
JP4296714B2 (ja) * | 2000-10-11 | 2009-07-15 | ソニー株式会社 | ロボット制御装置およびロボット制御方法、記録媒体、並びにプログラム |
US20020072914A1 (en) * | 2000-12-08 | 2002-06-13 | Hiyan Alshawi | Method and apparatus for creation and user-customization of speech-enabled services |
US7251595B2 (en) * | 2001-03-22 | 2007-07-31 | Nippon Telegraph And Telephone Corporation | Dialogue-type information providing apparatus, dialogue-type information providing processing method, and program and recording medium for the same |
EP1380153B1 (en) * | 2001-04-19 | 2009-09-02 | BRITISH TELECOMMUNICATIONS public limited company | Voice response system |
EP1380154A1 (en) * | 2001-04-19 | 2004-01-14 | BRITISH TELECOMMUNICATIONS public limited company | Voice response system |
EP1255190A1 (en) * | 2001-05-04 | 2002-11-06 | Microsoft Corporation | Interface control |
US20020198714A1 (en) * | 2001-06-26 | 2002-12-26 | Guojun Zhou | Statistical spoken dialog system |
US7308404B2 (en) * | 2001-09-28 | 2007-12-11 | Sri International | Method and apparatus for speech recognition using a dynamic vocabulary |
GB2384901B (en) * | 2002-02-04 | 2004-04-21 | Zentian Ltd | Speech recognition circuit using parallel processors |
AU2003228288A1 (en) * | 2002-03-04 | 2003-09-22 | University Of Southern California | Sentence generator |
US7016849B2 (en) * | 2002-03-25 | 2006-03-21 | Sri International | Method and apparatus for providing speech-driven routing between spoken language applications |
US7346507B1 (en) * | 2002-06-05 | 2008-03-18 | Bbn Technologies Corp. | Method and apparatus for training an automated speech recognition-based system |
US7502737B2 (en) * | 2002-06-24 | 2009-03-10 | Intel Corporation | Multi-pass recognition of spoken dialogue |
US7184960B2 (en) * | 2002-06-28 | 2007-02-27 | Intel Corporation | Speech recognition command via an intermediate mobile device |
WO2004003887A2 (en) * | 2002-06-28 | 2004-01-08 | Conceptual Speech, Llc | Multi-phoneme streamer and knowledge representation speech recognition system and method |
US7293015B2 (en) * | 2002-09-19 | 2007-11-06 | Microsoft Corporation | Method and system for detecting user intentions in retrieval of hint sentences |
US7228275B1 (en) * | 2002-10-21 | 2007-06-05 | Toyota Infotechnology Center Co., Ltd. | Speech recognition system having multiple speech recognizers |
US20040098265A1 (en) * | 2002-11-05 | 2004-05-20 | Sean Kelly | Dialog management system |
US20060106604A1 (en) * | 2002-11-11 | 2006-05-18 | Yoshiyuki Okimoto | Speech recognition dictionary creation device and speech recognition device |
TWI220205B (en) * | 2003-01-20 | 2004-08-11 | Delta Electronics Inc | Device using handheld communication equipment to calculate and process natural language and method thereof |
US7809565B2 (en) * | 2003-03-01 | 2010-10-05 | Coifman Robert E | Method and apparatus for improving the transcription accuracy of speech recognition software |
US7292976B1 (en) * | 2003-05-29 | 2007-11-06 | At&T Corp. | Active learning process for spoken dialog systems |
US20050065789A1 (en) * | 2003-09-23 | 2005-03-24 | Sherif Yacoub | System and method with automated speech recognition engines |
US20050165607A1 (en) * | 2004-01-22 | 2005-07-28 | At&T Corp. | System and method to disambiguate and clarify user intention in a spoken dialog system |
KR100612839B1 (ko) * | 2004-02-18 | 2006-08-18 | 삼성전자주식회사 | 도메인 기반 대화 음성인식방법 및 장치 |
US7496500B2 (en) * | 2004-03-01 | 2009-02-24 | Microsoft Corporation | Systems and methods that determine intent of data and respond to the data based on the intent |
CN1238834C (zh) * | 2004-03-09 | 2006-01-25 | 北京沃克斯科技有限责任公司 | 一种口语识别理解的识别分析方法 |
US7392186B2 (en) * | 2004-03-30 | 2008-06-24 | Sony Corporation | System and method for effectively implementing an optimized language model for speech recognition |
US20070016401A1 (en) * | 2004-08-12 | 2007-01-18 | Farzad Ehsani | Speech-to-speech translation system with user-modifiable paraphrasing grammars |
US7043435B2 (en) * | 2004-09-16 | 2006-05-09 | Sbc Knowledgfe Ventures, L.P. | System and method for optimizing prompts for speech-enabled applications |
US7716056B2 (en) * | 2004-09-27 | 2010-05-11 | Robert Bosch Corporation | Method and system for interactive conversational dialogue for cognitively overloaded device users |
JP4478939B2 (ja) * | 2004-09-30 | 2010-06-09 | 株式会社国際電気通信基礎技術研究所 | 音声処理装置およびそのためのコンピュータプログラム |
CN1842787B (zh) * | 2004-10-08 | 2011-12-07 | 松下电器产业株式会社 | 对话支援装置 |
US20060136210A1 (en) * | 2004-12-16 | 2006-06-22 | Sony Corporation | System and method for tying variance vectors for speech recognition |
US20060149544A1 (en) * | 2005-01-05 | 2006-07-06 | At&T Corp. | Error prediction in spoken dialog systems |
KR100723404B1 (ko) * | 2005-03-29 | 2007-05-30 | 삼성전자주식회사 | 음성 인식 및 반응을 위한 음성 처리 장치와 방법 |
JP4843987B2 (ja) * | 2005-04-05 | 2011-12-21 | ソニー株式会社 | 情報処理装置、情報処理方法、およびプログラム |
US7584099B2 (en) * | 2005-04-06 | 2009-09-01 | Motorola, Inc. | Method and system for interpreting verbal inputs in multimodal dialog system |
JP4654745B2 (ja) * | 2005-04-13 | 2011-03-23 | 富士ゼロックス株式会社 | 質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム |
EP1889179A2 (en) * | 2005-05-27 | 2008-02-20 | Hakia, Inc. | System and method for natural language processing and using ontological searches |
US8396715B2 (en) * | 2005-06-28 | 2013-03-12 | Microsoft Corporation | Confidence threshold tuning |
US7528622B2 (en) * | 2005-07-06 | 2009-05-05 | Optimal Test Ltd. | Methods for slow test time detection of an integrated circuit during parallel testing |
EP1934971A4 (en) * | 2005-08-31 | 2010-10-27 | Voicebox Technologies Inc | DYNAMIC LANGUAGE SCRIPTURE |
US8265939B2 (en) * | 2005-08-31 | 2012-09-11 | Nuance Communications, Inc. | Hierarchical methods and apparatus for extracting user intent from spoken utterances |
US7937265B1 (en) * | 2005-09-27 | 2011-05-03 | Google Inc. | Paraphrase acquisition |
EP1791114B1 (en) * | 2005-11-25 | 2009-08-12 | Swisscom AG | A method for personalization of a service |
JP4197344B2 (ja) * | 2006-02-20 | 2008-12-17 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 音声対話システム |
US8195683B2 (en) * | 2006-02-28 | 2012-06-05 | Ebay Inc. | Expansion of database search queries |
US8204747B2 (en) * | 2006-06-23 | 2012-06-19 | Panasonic Corporation | Emotion recognition apparatus |
US8279171B2 (en) * | 2006-07-06 | 2012-10-02 | Panasonic Corporation | Voice input device |
JP4867622B2 (ja) * | 2006-11-29 | 2012-02-01 | 日産自動車株式会社 | 音声認識装置、および音声認識方法 |
US7856351B2 (en) * | 2007-01-19 | 2010-12-21 | Microsoft Corporation | Integrated speech recognition and semantic classification |
US7818166B2 (en) * | 2007-01-31 | 2010-10-19 | Motorola, Inc. | Method and apparatus for intention based communications for mobile communication devices |
US8380511B2 (en) * | 2007-02-20 | 2013-02-19 | Intervoice Limited Partnership | System and method for semantic categorization |
US7822608B2 (en) * | 2007-02-27 | 2010-10-26 | Nuance Communications, Inc. | Disambiguating a speech recognition grammar in a multimodal application |
CN101622660A (zh) * | 2007-02-28 | 2010-01-06 | 日本电气株式会社 | 语音识别装置、语音识别方法及语音识别程序 |
EP2135231A4 (en) * | 2007-03-01 | 2014-10-15 | Adapx Inc | SYSTEM AND METHOD FOR DYNAMIC LEARNING |
US20110054894A1 (en) * | 2007-03-07 | 2011-03-03 | Phillips Michael S | Speech recognition through the collection of contact information in mobile dictation application |
US8886545B2 (en) * | 2007-03-07 | 2014-11-11 | Vlingo Corporation | Dealing with switch latency in speech recognition |
JP4322934B2 (ja) * | 2007-03-28 | 2009-09-02 | 株式会社東芝 | 音声認識装置、方法およびプログラム |
CN101320559B (zh) * | 2007-06-07 | 2011-05-18 | 华为技术有限公司 | 一种声音激活检测装置及方法 |
GB2450886B (en) * | 2007-07-10 | 2009-12-16 | Motorola Inc | Voice activity detector and a method of operation |
US8175885B2 (en) * | 2007-07-23 | 2012-05-08 | Verizon Patent And Licensing Inc. | Controlling a set-top box via remote speech recognition |
JP2011503638A (ja) * | 2007-10-26 | 2011-01-27 | 本田技研工業株式会社 | カーナビゲーションシステムのための自由会話命令分類の改良 |
US7437291B1 (en) * | 2007-12-13 | 2008-10-14 | International Business Machines Corporation | Using partial information to improve dialog in automatic speech recognition systems |
US8595004B2 (en) * | 2007-12-18 | 2013-11-26 | Nec Corporation | Pronunciation variation rule extraction apparatus, pronunciation variation rule extraction method, and pronunciation variation rule extraction program |
JP5075664B2 (ja) * | 2008-02-15 | 2012-11-21 | 株式会社東芝 | 音声対話装置及び支援方法 |
JP2009217611A (ja) * | 2008-03-11 | 2009-09-24 | Toshiba Corp | 音声対話装置 |
US8521512B2 (en) * | 2008-04-30 | 2013-08-27 | Deep Sky Concepts, Inc | Systems and methods for natural language communication with a computer |
US8364481B2 (en) * | 2008-07-02 | 2013-01-29 | Google Inc. | Speech recognition with parallel recognition tasks |
US8374859B2 (en) * | 2008-08-20 | 2013-02-12 | Universal Entertainment Corporation | Automatic answering device, automatic answering system, conversation scenario editing device, conversation server, and automatic answering method |
US9348816B2 (en) * | 2008-10-14 | 2016-05-24 | Honda Motor Co., Ltd. | Dialog coherence using semantic features |
US8140328B2 (en) * | 2008-12-01 | 2012-03-20 | At&T Intellectual Property I, L.P. | User intention based on N-best list of recognition hypotheses for utterances in a dialog |
US20100153112A1 (en) * | 2008-12-16 | 2010-06-17 | Motorola, Inc. | Progressively refining a speech-based search |
WO2010100977A1 (ja) * | 2009-03-03 | 2010-09-10 | 三菱電機株式会社 | 音声認識装置 |
US8417526B2 (en) * | 2009-03-13 | 2013-04-09 | Adacel, Inc. | Speech recognition learning system and method |
US8930179B2 (en) * | 2009-06-04 | 2015-01-06 | Microsoft Corporation | Recognition using re-recognition and statistical classification |
JP2011033680A (ja) * | 2009-07-30 | 2011-02-17 | Sony Corp | 音声処理装置及び方法、並びにプログラム |
US8468012B2 (en) * | 2010-05-26 | 2013-06-18 | Google Inc. | Acoustic model adaptation using geographic information |
US8249876B1 (en) * | 2012-01-03 | 2012-08-21 | Google Inc. | Method for providing alternative interpretations of a voice input to a user |
-
2009
- 2009-07-30 JP JP2009177578A patent/JP2011033680A/ja active Pending
-
2010
- 2010-06-17 US US12/817,526 patent/US8612223B2/en not_active Expired - Fee Related
- 2010-07-22 CN CN2010102374059A patent/CN101989424B/zh not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006053203A (ja) * | 2004-08-10 | 2006-02-23 | Sony Corp | 音声処理装置および方法、記録媒体、並びにプログラム |
JP2006154190A (ja) * | 2004-11-29 | 2006-06-15 | Toshiba Corp | 音声移動制御装置および音声移動制御方法 |
WO2008001485A1 (fr) * | 2006-06-26 | 2008-01-03 | Nec Corporation | système de génération de modèles de langue, procédé de génération de modèles de langue et programme de génération de modèles de langue |
Cited By (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10475440B2 (en) | 2013-02-14 | 2019-11-12 | Sony Corporation | Voice segment detection for extraction of sound source |
JP2015081971A (ja) * | 2013-10-22 | 2015-04-27 | 株式会社Nttドコモ | 機能実行指示システム及び機能実行指示方法 |
JP5866084B2 (ja) * | 2014-01-16 | 2016-02-17 | 三菱電機株式会社 | 検索装置 |
WO2015107659A1 (ja) * | 2014-01-16 | 2015-07-23 | 三菱電機株式会社 | 検索装置 |
WO2015151157A1 (ja) * | 2014-03-31 | 2015-10-08 | 三菱電機株式会社 | 意図理解装置および方法 |
CN106663424A (zh) * | 2014-03-31 | 2017-05-10 | 三菱电机株式会社 | 意图理解装置以及方法 |
US10037758B2 (en) | 2014-03-31 | 2018-07-31 | Mitsubishi Electric Corporation | Device and method for understanding user intent |
JPWO2015151157A1 (ja) * | 2014-03-31 | 2017-04-13 | 三菱電機株式会社 | 意図理解装置および方法 |
CN106575504A (zh) * | 2014-04-17 | 2017-04-19 | 软银机器人欧洲公司 | 在机器人上执行软件应用 |
KR20170028877A (ko) * | 2014-04-17 | 2017-03-14 | 소프트뱅크 로보틱스 유럽 | 로봇 상의 소프트웨어 애플리케이션 실행하기 |
JP2017514227A (ja) * | 2014-04-17 | 2017-06-01 | ソフトバンク・ロボティクス・ヨーロッパSoftbank Robotics Europe | ロボット上のソフトウェアアプリケーションの実行 |
KR102001293B1 (ko) * | 2014-04-17 | 2019-07-17 | 소프트뱅크 로보틱스 유럽 | 로봇 상의 소프트웨어 애플리케이션 실행하기 |
JP2017518588A (ja) * | 2014-06-18 | 2017-07-06 | マイクロソフト テクノロジー ライセンシング,エルエルシー | 会話理解システムのためのセッションコンテキストモデリング |
WO2016151698A1 (ja) * | 2015-03-20 | 2016-09-29 | 株式会社 東芝 | 対話装置、方法及びプログラム |
JPWO2016151698A1 (ja) * | 2015-03-20 | 2017-05-25 | 株式会社東芝 | 対話装置、方法及びプログラム |
EP3591648A1 (en) | 2015-05-19 | 2020-01-08 | Sony Corporation | Information processing apparatus, information processing method, and program |
US10861449B2 (en) | 2015-05-19 | 2020-12-08 | Sony Corporation | Information processing device and information processing method |
JP2017058545A (ja) * | 2015-09-17 | 2017-03-23 | 本田技研工業株式会社 | 音声処理装置および音声処理方法 |
KR20170048008A (ko) * | 2015-10-26 | 2017-05-08 | 에스케이텔레콤 주식회사 | 질의의도를 분석하기 위한 장치 및 방법 |
KR102280439B1 (ko) * | 2015-10-26 | 2021-07-21 | 에스케이텔레콤 주식회사 | 질의의도를 분석하기 위한 장치 및 방법 |
JP2017191119A (ja) * | 2016-04-11 | 2017-10-19 | 日本電信電話株式会社 | 識別器構築装置、方法及びプログラム |
WO2020039726A1 (ja) * | 2018-08-20 | 2020-02-27 | ソニー株式会社 | 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム |
JP2022024110A (ja) * | 2020-11-24 | 2022-02-08 | ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド | 音声認識方法、装置、電子機器及び記憶媒体 |
JP7309818B2 (ja) | 2020-11-24 | 2023-07-18 | ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド | 音声認識方法、装置、電子機器及び記憶媒体 |
Also Published As
Publication number | Publication date |
---|---|
US8612223B2 (en) | 2013-12-17 |
CN101989424B (zh) | 2012-07-04 |
US20110029311A1 (en) | 2011-02-03 |
CN101989424A (zh) | 2011-03-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2011033680A (ja) | 音声処理装置及び方法、並びにプログラム | |
US8019602B2 (en) | Automatic speech recognition learning using user corrections | |
CN106463113B (zh) | 在语音辨识中预测发音 | |
US8478591B2 (en) | Phonetic variation model building apparatus and method and phonetic recognition system and method thereof | |
JP5066483B2 (ja) | 言語理解装置 | |
KR100755677B1 (ko) | 주제 영역 검출을 이용한 대화체 음성 인식 장치 및 방법 | |
EP2048655B1 (en) | Context sensitive multi-stage speech recognition | |
US20180137109A1 (en) | Methodology for automatic multilingual speech recognition | |
US20090240499A1 (en) | Large vocabulary quick learning speech recognition system | |
JP2007047412A (ja) | 認識文法モデル作成装置、認識文法モデル作成方法、および、音声認識装置 | |
US20100324897A1 (en) | Audio recognition device and audio recognition method | |
Liu et al. | Dialect identification: Impact of differences between read versus spontaneous speech | |
Prakoso et al. | Indonesian Automatic Speech Recognition system using CMUSphinx toolkit and limited dataset | |
JP4758919B2 (ja) | 音声認識装置及び音声認識プログラム | |
JP5183120B2 (ja) | 平方根ディスカウンティングを使用した統計的言語による音声認識 | |
US20040006469A1 (en) | Apparatus and method for updating lexicon | |
Hirschberg et al. | Generalizing prosodic prediction of speech recognition errors | |
JP5184467B2 (ja) | 適応化音響モデル生成装置及びプログラム | |
Hosom et al. | Automatic speech recognition for assistive writing in speech supplemented word prediction. | |
KR20050101695A (ko) | 인식 결과를 이용한 통계적인 음성 인식 시스템 및 그 방법 | |
JP2006243213A (ja) | 言語モデル変換装置、音響モデル変換装置、及びコンピュータプログラム | |
JP2012255867A (ja) | 音声認識装置 | |
Caranica et al. | On the design of an automatic speaker independent digits recognition system for Romanian language | |
Syadida et al. | Sphinx4 for indonesian continuous speech recognition system | |
Khalifa et al. | Statistical modeling for speech recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120605 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120605 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130221 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130228 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20130702 |