JP5111607B2 - 音声ベースのユーザインタフェースを介してユーザと対話するための、コンピュータによって実現される方法および装置 - Google Patents
音声ベースのユーザインタフェースを介してユーザと対話するための、コンピュータによって実現される方法および装置 Download PDFInfo
- Publication number
- JP5111607B2 JP5111607B2 JP2010521152A JP2010521152A JP5111607B2 JP 5111607 B2 JP5111607 B2 JP 5111607B2 JP 2010521152 A JP2010521152 A JP 2010521152A JP 2010521152 A JP2010521152 A JP 2010521152A JP 5111607 B2 JP5111607 B2 JP 5111607B2
- Authority
- JP
- Japan
- Prior art keywords
- items
- voice
- phrase
- interacting
- user interface
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 19
- 239000003607 modifier Substances 0.000 claims description 6
- 239000002245 particle Substances 0.000 claims description 5
- 230000009471 action Effects 0.000 claims description 3
- 230000004044 response Effects 0.000 claims description 3
- 230000008569 process Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 4
- 238000012790 confirmation Methods 0.000 description 3
- 230000003993 interaction Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 244000290333 Vanilla fragrans Species 0.000 description 1
- 235000009499 Vanilla fragrans Nutrition 0.000 description 1
- 235000012036 Vanilla tahitensis Nutrition 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000005352 clarification Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000010399 physical interaction Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1815—Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- User Interface Of Digital Computer (AREA)
Description
本発明の実施の形態1は、音声ベースのインタフェースを介してユーザと対話するための方法を提供する。任意の発話入力は、情報検索に、又はコマンド及び制御に関連し得る。ここで、後者は、メニュー間又は機能階層間の選択を含み得る。
図3は、本発明の実施の形態1による音声ベースのユーザインタフェースを示す。縦軸は、時間を表している。ユーザ101の動作は、左側に示されており、システム102の動作は、右側に示されている。
コマンドドメインの場合、IRエンジンによって検索される「アイテム」は、所与のFSM状態に対するポインタであり、該アイテムは、この状態及び該アイテムの状態から到達可能な他の状態によって予期される任意の入力に関する情報を含む場合がある。コマンドアイテムのIRインデックスの中に含まれていない入力が要求される場合、従来の有限状態文法(FSG:finite state grammar)に反する、変数及び/又は修飾語句の代用語を含む音声入力を再認識することにより、又は、追加的な明確化用入力をユーザに促すことにより、入力を抽出することができる。
関連性のあるコマンド又は関連性のあるアイテムは、多数の異なる方法でユーザに提示され得る。異なるドメインからの関連性のある一致は、ドメイン毎に分離することができ、ドメインは、毎回同じ順序で表示されるか、又は所与のクエリに対する関連度の降順で表示される。代替的には、全ドメインからの一致が、結合された結果リストの中に混合されてもよい。
いかなる音声入力フレーズも、ドメインのそれぞれの中で一致する可能性が高い。入力フレーズに対する最も関連性のあるドメインを判断するために、無作為の取り出しによって最も取得される可能性の低い一致はどれかを判断する。その尤度は、従来のように計算され得る。
関連の米国出願で説明されているように、ドメイン内のアイテムは、各アイテムにインデックス付けすることによって構築される。例えば、アイテムは、オペレータのマニュアル510のようなテキスト文書である(図5)。該文書は、明示的又は黙示的に設定されていることがあり、機械可読形式もしくは人間可読形式で提供されている場合がある。インデックス付けする過程は、文書を分割してより小さなセクションとし(520)、所与のセクションをユーザが検索することにより、発話される可能性が高い用語又はフレーズを識別する。
Claims (12)
- 音声ベースのユーザインタフェースを介してユーザと対話するための、コンピュータによって実現される方法であって、
1つ又は複数の単語から成るフレーズの構造におけるユーザからの発話入力を取得するステップと、
前記フレーズがクエリであるか又はコマンドであるかを、複数の異なるドメインを使用して判断するステップと、
前記フレーズがクエリである場合、複数のデータベースから関連性のあるアイテムを検索し、提示するステップと、
前記フレーズがコマンドである場合、動作を実行するステップと、
を備え、
すべての可能性のあるアイテムがアイテムのセットを形成し、
前記方法は、
前記セット内のアイテムをアイテムのサブセットにグループ分けするステップであって、アイテムの各前記サブセットは、前記複数のドメインのうちの1つを形成する、グループ分けするステップと、
前記クエリに応答して、前記複数のドメインうちの1つ又は複数から前記アイテムを検索するステップと、
検索されたアイテムが、アイテムのセット全体からの無作為の取り出しによって取得される可能性が最も低い場合、前記クエリに最も関連性があるものとして特定のドメインを選択するステップと、
をさらに備えた音声ベースのユーザインタフェースを介してユーザと対話するための、コンピュータによって実現される方法。 - 前記フレーズが前記コマンドである場合、該フレーズは、変数と修飾語句とを含む、請求項1に記載の音声ベースのユーザインタフェースを介してユーザと対話するための、コンピュータによって実現される方法。
- 前記フレーズは、パーティクルの形式であり、アイテムに対するインデックスは、パーティクルの形式である、請求項1に記載の音声ベースのユーザインタフェースを介してユーザと対話するための、コンピュータによって実現される方法。
- 関連性のあるアイテムは、ドメイン毎に分離される、請求項1に記載の音声ベースのユーザインタフェースを介してユーザと対話するための、コンピュータによって実現される方法。
- 関連性のあるアイテムは、関連度順に提示される、請求項1に記載の音声ベースのユーザインタフェースを介してユーザと対話するための、コンピュータによって実現される方法。
- 関連性のあるアイテムは、結合された結果リスト内で混合される、請求項1に記載の音声ベースのユーザインタフェースを介してユーザと対話するための、コンピュータによって実現される方法。
- 音声ベースのユーザインタフェースを介してユーザと対話するための装置であって、
1つ又は複数の単語から成るフレーズの構造におけるユーザからの発話入力を取得する手段と、
前記フレーズがクエリであるか又はコマンドであるかを、複数の異なるドメインを使用して判断する手段と、
前記フレーズがクエリである場合、複数のデータベースから関連性のあるアイテムを検索し、提示する手段と、
前記フレーズがコマンドである場合、動作を実行する手段と、
を備え、
すべての可能性のあるアイテムがアイテムのセットを形成し、
前記装置は、
前記セット内のアイテムをアイテムのサブセットにグループ分けする手段であって、アイテムの各前記サブセットは、前記複数のドメインのうちの1つを形成する、グループ分けする手段と、
前記クエリに応答して、前記複数のドメインうちの1つ又は複数から前記アイテムを検索する手段と、
検索されたアイテムが、アイテムのセット全体からの無作為の取り出しによって取得される可能性が最も低い場合、前記クエリに最も関連性があるものとして特定のドメインを選択する手段と、
をさらに備えた音声ベースのユーザインタフェースを介してユーザと対話するための装置。 - 前記フレーズが前記コマンドである場合、該フレーズは、変数と修飾語句とを含む、請求項7に記載の音声ベースのユーザインタフェースを介してユーザと対話するための装置。
- 前記フレーズは、パーティクルの形式であり、アイテムに対するインデックスは、パーティクルの形式である、請求項7に記載の音声ベースのユーザインタフェースを介してユーザと対話するための装置。
- 関連性のあるアイテムは、ドメイン毎に分離される、請求項7に記載の音声ベースのユーザインタフェースを介してユーザと対話するための装置。
- 関連性のあるアイテムは、関連度順に提示される、請求項7に記載の音声ベースのユーザインタフェースを介してユーザと対話するための装置。
- 関連性のあるアイテムは、結合された結果リスト内で混合される、請求項7に記載の音声ベースのユーザインタフェースを介してユーザと対話するための装置。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US12/036,713 US7917368B2 (en) | 2008-02-25 | 2008-02-25 | Method for interacting with users of speech recognition systems |
US12/036,713 | 2008-02-25 | ||
PCT/JP2009/053998 WO2009107848A1 (en) | 2008-02-25 | 2009-02-25 | Computer implemented method for interacting with user via speech-based user interface |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011505026A JP2011505026A (ja) | 2011-02-17 |
JP5111607B2 true JP5111607B2 (ja) | 2013-01-09 |
Family
ID=40651523
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010521152A Active JP5111607B2 (ja) | 2008-02-25 | 2009-02-25 | 音声ベースのユーザインタフェースを介してユーザと対話するための、コンピュータによって実現される方法および装置 |
Country Status (5)
Country | Link |
---|---|
US (1) | US7917368B2 (ja) |
EP (1) | EP2245617B1 (ja) |
JP (1) | JP5111607B2 (ja) |
CN (1) | CN101952883B (ja) |
WO (1) | WO2009107848A1 (ja) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8377672B2 (en) | 2010-02-18 | 2013-02-19 | 3M Innovative Properties Company | Ligand functionalized polymers |
US8435776B2 (en) | 2010-03-03 | 2013-05-07 | 3M Innovative Properties Company | Ligand functionalized polymers |
US8586338B2 (en) | 2008-05-30 | 2013-11-19 | 3M Innovative Properties Company | Ligand functionalized substrates |
US8652582B2 (en) | 2008-05-30 | 2014-02-18 | 3M Innovative Properties Company | Method of making ligand functionalized substrates |
US9259689B2 (en) | 2009-06-23 | 2016-02-16 | 3M Innovative Properties Company | Functionalized nonwoven article |
Families Citing this family (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20090107365A (ko) * | 2008-04-08 | 2009-10-13 | 엘지전자 주식회사 | 이동 단말기 및 그 메뉴 제어방법 |
JP2010160316A (ja) * | 2009-01-08 | 2010-07-22 | Alpine Electronics Inc | 情報処理装置及びテキスト読み上げ方法 |
US8626511B2 (en) * | 2010-01-22 | 2014-01-07 | Google Inc. | Multi-dimensional disambiguation of voice commands |
US8738377B2 (en) * | 2010-06-07 | 2014-05-27 | Google Inc. | Predicting and learning carrier phrases for speech input |
US8731939B1 (en) | 2010-08-06 | 2014-05-20 | Google Inc. | Routing queries based on carrier phrase registration |
US8924219B1 (en) * | 2011-09-30 | 2014-12-30 | Google Inc. | Multi hotword robust continuous voice command detection in mobile devices |
US9317605B1 (en) | 2012-03-21 | 2016-04-19 | Google Inc. | Presenting forked auto-completions |
US9536528B2 (en) | 2012-07-03 | 2017-01-03 | Google Inc. | Determining hotword suitability |
CN103116649B (zh) * | 2013-02-28 | 2016-09-14 | 用友网络科技股份有限公司 | 数据分析***和数据分析方法 |
US9646606B2 (en) | 2013-07-03 | 2017-05-09 | Google Inc. | Speech recognition using domain knowledge |
US9472196B1 (en) | 2015-04-22 | 2016-10-18 | Google Inc. | Developer voice actions system |
US9740751B1 (en) | 2016-02-18 | 2017-08-22 | Google Inc. | Application keywords |
US9922648B2 (en) | 2016-03-01 | 2018-03-20 | Google Llc | Developer voice actions system |
US9691384B1 (en) | 2016-08-19 | 2017-06-27 | Google Inc. | Voice action biasing system |
CN106653019B (zh) * | 2016-12-07 | 2019-11-15 | 华南理工大学 | 一种基于用户注册信息的人机对话控制方法及*** |
WO2020171545A1 (en) * | 2019-02-19 | 2020-08-27 | Samsung Electronics Co., Ltd. | Electronic device and system for processing user input and method thereof |
CN111081225B (zh) * | 2019-12-31 | 2022-04-01 | 思必驰科技股份有限公司 | 技能语音唤醒方法及装置 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0895396A3 (en) * | 1997-07-03 | 2004-01-14 | Texas Instruments Incorporated | Spoken dialogue system for information access |
US7089188B2 (en) * | 2002-03-27 | 2006-08-08 | Hewlett-Packard Development Company, L.P. | Method to expand inputs for word or document searching |
US6877001B2 (en) | 2002-04-25 | 2005-04-05 | Mitsubishi Electric Research Laboratories, Inc. | Method and system for retrieving documents with spoken queries |
US7693720B2 (en) * | 2002-07-15 | 2010-04-06 | Voicebox Technologies, Inc. | Mobile systems and methods for responding to natural language speech utterance |
CN1267838C (zh) * | 2002-12-31 | 2006-08-02 | 程松林 | 一种语音检索方法及采用该方法的音像信息检索*** |
ATE410768T1 (de) | 2003-08-29 | 2008-10-15 | Johnson Controls Tech Co | System und verfahren zum betrieb eines spracherkennungssystems in einem fahrzeug |
CN1629934B (zh) * | 2004-02-06 | 2011-05-11 | 刘新斌 | 一种语音虚拟键盘用户指令词库的构建方法 |
JP2006338508A (ja) * | 2005-06-03 | 2006-12-14 | Nippon Telegr & Teleph Corp <Ntt> | 関連コンテンツ探索装置及び方法 |
US8438024B2 (en) * | 2007-10-05 | 2013-05-07 | International Business Machines Corporation | Indexing method for quick search of voice recognition results |
-
2008
- 2008-02-25 US US12/036,713 patent/US7917368B2/en active Active
-
2009
- 2009-02-25 EP EP09715785.3A patent/EP2245617B1/en active Active
- 2009-02-25 CN CN2009801062430A patent/CN101952883B/zh active Active
- 2009-02-25 WO PCT/JP2009/053998 patent/WO2009107848A1/en active Application Filing
- 2009-02-25 JP JP2010521152A patent/JP5111607B2/ja active Active
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9650470B2 (en) | 2008-05-30 | 2017-05-16 | 3M Innovative Properties Company | Method of making ligand functionalized substrates |
US10017461B2 (en) | 2008-05-30 | 2018-07-10 | 3M Innovative Properties Company | Method of making ligand functionalized substrates |
US8586338B2 (en) | 2008-05-30 | 2013-11-19 | 3M Innovative Properties Company | Ligand functionalized substrates |
US8652582B2 (en) | 2008-05-30 | 2014-02-18 | 3M Innovative Properties Company | Method of making ligand functionalized substrates |
US8846203B2 (en) | 2008-05-30 | 2014-09-30 | 3M Innovative Properties Company | Method of making ligand functionalized substrates |
US9259689B2 (en) | 2009-06-23 | 2016-02-16 | 3M Innovative Properties Company | Functionalized nonwoven article |
US8377672B2 (en) | 2010-02-18 | 2013-02-19 | 3M Innovative Properties Company | Ligand functionalized polymers |
US9296847B2 (en) | 2010-02-18 | 2016-03-29 | 3M Innovative Properties Company | Ligand functionalized polymers |
US8945896B2 (en) | 2010-02-18 | 2015-02-03 | 3M Innovative Properties Company | Ligand functionalized polymers |
US9758547B2 (en) | 2010-03-03 | 2017-09-12 | 3M Innovative Properties Company | Ligand functionalized polymers |
US10005814B2 (en) | 2010-03-03 | 2018-06-26 | 3M Innovative Properties Company | Ligand functionalized polymers |
US8435776B2 (en) | 2010-03-03 | 2013-05-07 | 3M Innovative Properties Company | Ligand functionalized polymers |
US10526366B2 (en) | 2010-03-03 | 2020-01-07 | 3M Innovative Properties Company | Ligand functionalized polymers |
Also Published As
Publication number | Publication date |
---|---|
US20090216538A1 (en) | 2009-08-27 |
EP2245617A1 (en) | 2010-11-03 |
CN101952883A (zh) | 2011-01-19 |
JP2011505026A (ja) | 2011-02-17 |
CN101952883B (zh) | 2012-03-21 |
EP2245617B1 (en) | 2013-12-18 |
US7917368B2 (en) | 2011-03-29 |
WO2009107848A1 (en) | 2009-09-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5111607B2 (ja) | 音声ベースのユーザインタフェースを介してユーザと対話するための、コンピュータによって実現される方法および装置 | |
EP2058800B1 (en) | Method and system for recognizing speech for searching a database | |
US8311828B2 (en) | Keyword spotting using a phoneme-sequence index | |
US10431214B2 (en) | System and method of determining a domain and/or an action related to a natural language input | |
US10019514B2 (en) | System and method for phonetic search over speech recordings | |
JP3488174B2 (ja) | 内容情報と話者情報を使用して音声情報を検索するための方法および装置 | |
CN102549652B (zh) | 信息检索装置 | |
US7949524B2 (en) | Speech recognition correction with standby-word dictionary | |
US7860707B2 (en) | Compound word splitting for directory assistance services | |
US20110071827A1 (en) | Generation and selection of speech recognition grammars for conducting searches | |
US20070198511A1 (en) | Method, medium, and system retrieving a media file based on extracted partial keyword | |
EP1837864A1 (en) | Multi-context voice recognition system for long item list searches | |
JP2008532099A (ja) | データベースに格納されている文書の索引付け及び検索のためにコンピュータにより実施される方法並びに文書の索引付け及び検索のためのシステム | |
WO2003010754A1 (fr) | Systeme de recherche a entree vocale | |
JP2004318889A (ja) | 音声を含んだ音声およびマルチメディアファイルから情報を取り出す双方向機構 | |
US20100153366A1 (en) | Assigning an indexing weight to a search term | |
US20180182378A1 (en) | System and method for detecting phonetically similar imposter phrases | |
KR20060070605A (ko) | 영역별 언어모델과 대화모델을 이용한 지능형 로봇 음성인식 서비스 장치 및 방법 | |
WO2020080375A1 (ja) | 報告書作成装置、方法、および記録媒体 | |
JP2002278579A (ja) | 音声データ検索装置 | |
Song et al. | Voice search of structured media data | |
Komatani et al. | Contextual constraints based on dialogue models in database search task for spoken dialogue systems. | |
WO2009147745A1 (ja) | 検索装置 | |
Cerisara | Automatic discovery of topics and acoustic morphemes from speech | |
TWI629606B (zh) | 對話系統之對話方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120515 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120711 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120911 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20121009 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20151019 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5111607 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |