JP4859982B2 - 音声認識装置 - Google Patents
音声認識装置 Download PDFInfo
- Publication number
- JP4859982B2 JP4859982B2 JP2009521505A JP2009521505A JP4859982B2 JP 4859982 B2 JP4859982 B2 JP 4859982B2 JP 2009521505 A JP2009521505 A JP 2009521505A JP 2009521505 A JP2009521505 A JP 2009521505A JP 4859982 B2 JP4859982 B2 JP 4859982B2
- Authority
- JP
- Japan
- Prior art keywords
- unit
- voice
- utterance
- speech recognition
- utterance timing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000001514 detection method Methods 0.000 claims description 99
- 230000004044 response Effects 0.000 claims description 75
- 238000012937 correction Methods 0.000 claims description 73
- 230000001133 acceleration Effects 0.000 claims description 18
- 239000006185 dispersion Substances 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 32
- 230000000694 effects Effects 0.000 description 6
- 238000012790 confirmation Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 230000005236 sound signal Effects 0.000 description 3
- 230000007704 transition Effects 0.000 description 2
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000000034 method Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Navigation (AREA)
- User Interface Of Digital Computer (AREA)
- Machine Translation (AREA)
- Telephonic Communication Services (AREA)
Description
実施の形態1.
図1は、この発明の実施の形態1に係る音声認識装置の構成を示すブロック図である。この音声認識装置は、音声入力部1、音声認識部2、音声開始指示部3、発話開始時間検出部4、発話タイミング判定部5、対話制御部6、システム応答生成部7、音声出力部8およびテロップ出力部9を備えている。
図3は、この発明の実施の形態2に係る音声認識装置の構成を示すブロック図である。この音声認識装置は、実施の形態1に係る音声認識装置に、音声認識スコア補正部10およびスコア足切り判定部11が追加されて構成されている。以下においては、実施の形態1に係る音声認識装置の構成要素と同一または相当する部分には、実施の形態1で使用した符号と同一の符号を付して説明を省略または簡略化し、実施の形態1に係る音声認識装置と異なる部分を中心に説明する。
図5は、この発明の実施の形態3に係る音声認識装置の構成を示すブロック図である。この音声認識装置は、実施の形態2に係る音声認識装置に、発話タイミング学習部12が追加されて構成されている。以下においては、実施の形態2に係る音声認識装置の構成要素と同一または相当する部分には、実施の形態2で使用した符号と同一の符号を付して説明を省略または簡略化し、実施の形態2に係る音声認識装置と異なる部分を中心に説明する。
図7は、この発明の実施の形態4に係る音声認識装置の構成を示すブロック図である。この音声認識装置は、実施の形態3に係る音声認識装置における発話タイミング学習部12が分散考慮発話タイミング学習部13に変更されて構成されている。以下においては、実施の形態3に係る音声認識装置の構成要素と同一または相当する部分には、実施の形態3で使用した符号と同一の符号を付して説明を省略し、実施の形態3に係る音声認識装置と異なる部分を中心に説明する。
<ユーザA>
1回目;6[s]
2回目;7[s]
3回目;7[s]
4回目;7[s]
5回目;8[s]
発話開始平均時間;[s]7
分散値;0.5
<ユーザB>
1回目;15[s]
2回目;3[s]
3回目;6[s]
4回目;4[s]
5回目;7[s]
発話開始平均時間;[s]7
分散値;21
図9は、この発明の実施の形態5に係る音声認識装置の構成を示すブロック図である。この音声認識装置は、実施の形態4に係る音声認識装置に、訂正キー14が追加されるとともに、分散考慮発話タイミング学習部13の機能が変更されて構成されている。以下においては、実施の形態4に係る音声認識装置の構成要素と同一または相当する部分には、実施の形態4で使用した符号と同一の符号を付して説明を省略し、実施の形態4に係る音声認識装置と異なる部分を中心に説明する。
図11は、この発明の実施の形態6に係る音声認識装置の構成を示すブロック図である。この音声認識装置は、実施の形態5に係る音声認識装置に、走行状況検出部15が追加されるとともに、音声認識スコア補正部10の機能が変更されて構成されている。以下においては、実施の形態5に係る音声認識装置の構成要素と同一または相当する部分には、実施の形態5で使用した符号と同一の符号を付して説明を省略し、実施の形態5に係る音声認識装置と異なる部分を中心に説明する。
図13は、この発明の実施の形態7に係る音声認識装置の構成を示すブロック図である。この音声認識装置は、実施の形態5に係る音声認識装置に、運転操作検出部16が追加されるとともに、音声認識スコア補正部10の機能が変更されて構成されている。以下においては、実施の形態5に係る音声認識装置の構成要素と同一または相当する部分には、実施の形態5で使用した符号と同一の符号を付して説明を省略し、実施の形態5に係る音声認識装置と異なる部分を中心に説明する。
図15は、この発明の実施の形態8に係る音声認識装置の構成を示すブロック図である。この音声認識装置は、実施の形態5に係る音声認識装置に、車内機器操作状況収集部17が追加されるとともに、音声認識スコア補正部10の機能が変更されて構成されている。以下においては、実施の形態5に係る音声認識装置の構成要素と同一または相当する部分には、実施の形態5で使用した符号と同一の符号を付して説明を省略し、実施の形態5に係る音声認識装置と異なる部分を中心に説明する。
Claims (8)
- 音声認識の開始を指示する音声開始指示部と、
発話された音声を入力して音声信号に変換する音声入力部と、
前記音声入力部から送られてくる音声信号に基づき音声を認識する音声認識部と、
前記音声開始指示部により音声認識の開始が指示されてから、前記音声入力部から音声信号が送られてくるまでの時間を検出する発話開始時間検出部と、
前記発話開始時間検出部で検出された時間と所定の閾値とを比較することにより発話開始の早遅を表す発話タイミングを判定する発話タイミング判定部と、
前記音声認識部で認識された語彙の音声認識スコアを、前記発話タイミング判定部で判定された発話タイミングに応じて補正する音声認識スコア補正部と、
前記音声認識スコア補正部で補正された音声認識スコアに応じて、認識結果の提示の是非を判定するスコア足切り判定部と、
前記スコア足切り判定部における判定結果に応じて、前記音声認識部における認識結果を提示する際の提示内容を決定する対話制御部と、
前記対話制御部において決定された提示内容に基づきシステム応答を生成するシステム応答生成部と、
前記システム応答生成部で生成されたシステム応答を出力する出力部
とを備えた音声認識装置。 - 音声認識の開始を指示する音声開始指示部と、
発話された音声を入力して音声信号に変換する音声入力部と、
前記音声入力部から送られてくる音声信号に基づき音声を認識する音声認識部と、
前記音声開始指示部により音声認識の開始が指示されてから、前記音声入力部から音声信号が送られてくるまでの時間を検出する発話開始時間検出部と、
前記発話開始時間検出部において過去の複数回の試行で検出された時間に基づき、分散を考慮して発話タイミング判定用閾値を算出する分散考慮発話タイミング学習部と、
前記分散考慮発話タイミング学習部で算出された発話タイミング判定用閾値を所定の閾値として前記発話開始時間検出部で検出された時間と比較することにより、発話開始の早遅を表す発話タイミングを判定する発話タイミング判定部と、
前記発話タイミング判定部で判定された発話タイミングに応じて、前記音声認識部における認識結果を提示する際の提示内容を決定する対話制御部と、
前記対話制御部において決定された提示内容に基づきシステム応答を生成するシステム応答生成部と、
前記システム応答生成部で生成されたシステム応答を出力する出力部と、
前記音声認識部による認識結果のキャンセルを指示する訂正キーとを備え、
前記分散考慮発話タイミング学習部は、前記発話開始時間検出部において過去の複数回の試行で検出された時間と、前記出力部からシステム応答が出力されてから前記訂正キーによってキャンセルの指示がなされるまでの時間とに基づき、分散を考慮した発話タイミング判定用閾値を算出することを特徴とする音声認識装置。 - 走行状況を検出する走行状況検出部を備え、
音声認識スコア補正部は、発話タイミング判定部で判定された発話タイミングと前記走行状況検出部で検出された走行状況とに応じて音声認識部で認識された語彙の音声認識スコアを補正する
ことを特徴とする請求項1記載の音声認識装置。 - 運転操作の状況を検出する運転操作検出部を備え、
音声認識スコア補正部は、発話タイミング判定部で判定された発話タイミングと前記運転操作検出部で検出された運転操作の状況とに応じて音声認識部で認識された語彙の音声認識スコアを補正する
ことを特徴とする請求項1記載の音声認識装置。 - 走行状況検出部は、現在位置を検出して位置情報として出力する測位検出装置から成り、
音声認識スコア補正部は、発話タイミング判定部で判定された発話タイミングと前記測位検出装置から出力される位置情報に基づき判断された走行状況または運転操作状況とに応じて音声認識部で認識された語彙の音声認識スコアを補正する
ことを特徴とする請求項3記載の音声認識装置。 - 走行状況検出部は、加速度を検出する加速度検出装置から成り、
音声認識スコア補正部は、発話タイミング判定部で判定された発話タイミングと前記加速度検出装置で検出された加速度に基づき判断された走行状況および運転操作状況とに応じて音声認識部で認識された語彙の音声認識スコアを補正する
ことを特徴とする請求項3記載の音声認識装置。 - 走行状況検出部は、現在位置を検出して位置情報として出力する測位検出装置と加速度を検出する加速度検出装置とから成り、
音声認識スコア補正部は、発話タイミング判定部で判定された発話タイミング、前記測位検出装置から出力される位置情報に基づき判断された走行状況および前記加速度検出装置で検出された加速度に基づき判断された運転操作状況に応じて音声認識部で認識された語彙の音声認識スコアを補正する
ことを特徴とする請求項3記載の音声認識装置。 - 車載ネットワークを介して車内機器の操作状況を収集する車内機器操作状況収集部を備え、
音声認識スコア補正部は、発話タイミング判定部で判定された発話タイミングと前記車内機器操作状況収集部で収集された車内機器の操作状況とに応じて音声認識部で認識された語彙の音声認識スコアを補正する
ことを特徴とする請求項1記載の音声認識装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009521505A JP4859982B2 (ja) | 2007-07-02 | 2008-03-27 | 音声認識装置 |
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007174386 | 2007-07-02 | ||
JP2007174386 | 2007-07-02 | ||
JP2009521505A JP4859982B2 (ja) | 2007-07-02 | 2008-03-27 | 音声認識装置 |
PCT/JP2008/000772 WO2009004750A1 (ja) | 2007-07-02 | 2008-03-27 | 音声認識装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2009004750A1 JPWO2009004750A1 (ja) | 2010-08-26 |
JP4859982B2 true JP4859982B2 (ja) | 2012-01-25 |
Family
ID=40225818
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009521505A Expired - Fee Related JP4859982B2 (ja) | 2007-07-02 | 2008-03-27 | 音声認識装置 |
Country Status (5)
Country | Link |
---|---|
US (1) | US8407051B2 (ja) |
JP (1) | JP4859982B2 (ja) |
CN (1) | CN101689366B (ja) |
DE (1) | DE112008001334B4 (ja) |
WO (1) | WO2009004750A1 (ja) |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5281659B2 (ja) * | 2009-01-20 | 2013-09-04 | 旭化成株式会社 | 音声対話装置、対話制御方法及び対話制御プログラム |
JP5375423B2 (ja) * | 2009-08-10 | 2013-12-25 | 日本電気株式会社 | 音声認識システム、音声認識方法および音声認識プログラム |
JP5834449B2 (ja) * | 2010-04-22 | 2015-12-24 | 富士通株式会社 | 発話状態検出装置、発話状態検出プログラムおよび発話状態検出方法 |
JP2013529794A (ja) | 2010-06-24 | 2013-07-22 | 本田技研工業株式会社 | 車載音声認識システム及び車両外音声認識システム間の通信システム及び方法 |
KR20140089871A (ko) | 2013-01-07 | 2014-07-16 | 삼성전자주식회사 | 대화형 서버, 그 제어 방법 및 대화형 시스템 |
JP6389171B2 (ja) * | 2013-06-19 | 2018-09-12 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America | 音声対話方法、及び機器 |
US9953644B2 (en) | 2014-12-01 | 2018-04-24 | At&T Intellectual Property I, L.P. | Targeted clarification questions in speech recognition with concept presence score and concept correctness score |
KR102420450B1 (ko) | 2015-09-23 | 2022-07-14 | 삼성전자주식회사 | 음성인식장치, 음성인식방법 및 컴퓨터 판독가능 기록매체 |
CN106027588A (zh) * | 2015-12-09 | 2016-10-12 | 展视网(北京)科技有限公司 | 一种语音识别车载终端控制方法 |
US10475447B2 (en) * | 2016-01-25 | 2019-11-12 | Ford Global Technologies, Llc | Acoustic and domain based speech recognition for vehicles |
JP6804909B2 (ja) * | 2016-09-15 | 2020-12-23 | 東芝テック株式会社 | 音声認識装置、音声認識方法及び音声認識プログラム |
JP2019200393A (ja) * | 2018-05-18 | 2019-11-21 | シャープ株式会社 | 判定装置、電子機器、応答システム、判定装置の制御方法、および制御プログラム |
JP6936772B2 (ja) * | 2018-06-04 | 2021-09-22 | 株式会社ホンダアクセス | 情報提供装置 |
RU2744063C1 (ru) | 2018-12-18 | 2021-03-02 | Общество С Ограниченной Ответственностью "Яндекс" | Способ и система определения говорящего пользователя управляемого голосом устройства |
WO2022215104A1 (ja) * | 2021-04-05 | 2022-10-13 | 三菱電機株式会社 | 音声対話装置および音声対話方法 |
DE102022112743B4 (de) | 2022-05-20 | 2024-02-01 | Audi Aktiengesellschaft | Verfahren zur Verbesserung der Qualität einer Audio- und/oder Videoaufzeichnung sowie Steuervorrichtung für ein mobiles Endgerät |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0518118B2 (ja) * | 1984-05-24 | 1993-03-11 | Tokyo Shibaura Electric Co | |
JP2002149191A (ja) * | 2000-11-09 | 2002-05-24 | Toyota Central Res & Dev Lab Inc | 音声入力装置 |
JP2003029778A (ja) * | 2001-07-16 | 2003-01-31 | Fujitsu Ten Ltd | ナビゲーションシステムにおける音声対話インターフェース処理方法 |
JP2006313261A (ja) * | 2005-05-09 | 2006-11-16 | Mitsubishi Electric Corp | 音声認識装置並びに音声認識プログラム及び音声認識プログラムを記録したコンピュータ読み取り可能な記録媒体 |
JP2007004054A (ja) * | 2005-06-27 | 2007-01-11 | Nissan Motor Co Ltd | 音声対話装置及び音声理解結果生成方法 |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5918222A (en) * | 1995-03-17 | 1999-06-29 | Kabushiki Kaisha Toshiba | Information disclosing apparatus and multi-modal information input/output system |
US6012027A (en) * | 1997-05-27 | 2000-01-04 | Ameritech Corporation | Criteria for usable repetitions of an utterance during speech reference enrollment |
DE19941227A1 (de) * | 1999-08-30 | 2001-03-08 | Philips Corp Intellectual Pty | Verfahren und Anordnung zur Spracherkennung |
DE19956747C1 (de) | 1999-11-25 | 2001-01-11 | Siemens Ag | Verfahren und Vorrichtung zur Spracherkennung sowie ein Telekommunikationssystem |
JP2002149187A (ja) * | 2000-11-07 | 2002-05-24 | Sony Corp | 音声認識装置および音声認識方法、並びに記録媒体 |
JP2003091299A (ja) * | 2001-07-13 | 2003-03-28 | Honda Motor Co Ltd | 車載用音声認識装置 |
GB0224806D0 (en) * | 2002-10-24 | 2002-12-04 | Ibm | Method and apparatus for a interactive voice response system |
JP2004239963A (ja) | 2003-02-03 | 2004-08-26 | Mitsubishi Electric Corp | 車載制御装置 |
JP2004333543A (ja) | 2003-04-30 | 2004-11-25 | Matsushita Electric Ind Co Ltd | 音声対話システム及び音声対話方法 |
US7724889B2 (en) * | 2004-11-29 | 2010-05-25 | At&T Intellectual Property I, L.P. | System and method for utilizing confidence levels in automated call routing |
JP4846735B2 (ja) | 2005-12-14 | 2011-12-28 | 三菱電機株式会社 | 音声認識装置 |
JP5018118B2 (ja) | 2007-02-15 | 2012-09-05 | コニカミノルタビジネステクノロジーズ株式会社 | 文書管理装置、文書管理方法及び文書管理プログラム |
JP2008203559A (ja) * | 2007-02-20 | 2008-09-04 | Toshiba Corp | 対話装置及び方法 |
-
2008
- 2008-03-27 CN CN2008800222921A patent/CN101689366B/zh not_active Expired - Fee Related
- 2008-03-27 DE DE112008001334.9T patent/DE112008001334B4/de not_active Expired - Fee Related
- 2008-03-27 JP JP2009521505A patent/JP4859982B2/ja not_active Expired - Fee Related
- 2008-03-27 US US12/599,217 patent/US8407051B2/en not_active Expired - Fee Related
- 2008-03-27 WO PCT/JP2008/000772 patent/WO2009004750A1/ja active Application Filing
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0518118B2 (ja) * | 1984-05-24 | 1993-03-11 | Tokyo Shibaura Electric Co | |
JP2002149191A (ja) * | 2000-11-09 | 2002-05-24 | Toyota Central Res & Dev Lab Inc | 音声入力装置 |
JP2003029778A (ja) * | 2001-07-16 | 2003-01-31 | Fujitsu Ten Ltd | ナビゲーションシステムにおける音声対話インターフェース処理方法 |
JP2006313261A (ja) * | 2005-05-09 | 2006-11-16 | Mitsubishi Electric Corp | 音声認識装置並びに音声認識プログラム及び音声認識プログラムを記録したコンピュータ読み取り可能な記録媒体 |
JP2007004054A (ja) * | 2005-06-27 | 2007-01-11 | Nissan Motor Co Ltd | 音声対話装置及び音声理解結果生成方法 |
Also Published As
Publication number | Publication date |
---|---|
WO2009004750A1 (ja) | 2009-01-08 |
JPWO2009004750A1 (ja) | 2010-08-26 |
US8407051B2 (en) | 2013-03-26 |
US20110208525A1 (en) | 2011-08-25 |
CN101689366A (zh) | 2010-03-31 |
CN101689366B (zh) | 2011-12-07 |
DE112008001334B4 (de) | 2016-12-15 |
DE112008001334T5 (de) | 2010-05-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4859982B2 (ja) | 音声認識装置 | |
CN106796786B (zh) | 语音识别*** | |
US8005673B2 (en) | Voice recognition device, voice recognition method, and voice recognition program | |
US10176806B2 (en) | Motor vehicle operating device with a correction strategy for voice recognition | |
JP6654611B2 (ja) | 成長型対話装置 | |
WO2012137263A1 (ja) | 音声認識装置およびナビゲーション装置 | |
JP5677650B2 (ja) | 音声認識装置 | |
US9123327B2 (en) | Voice recognition apparatus for recognizing a command portion and a data portion of a voice input | |
JP2002041085A (ja) | 音声認識装置及び記録媒体 | |
US20230315997A9 (en) | Dialogue system, a vehicle having the same, and a method of controlling a dialogue system | |
JP5181533B2 (ja) | 音声対話装置 | |
JP4604377B2 (ja) | 音声認識装置 | |
JP2008076811A (ja) | 音声認識装置、音声認識方法及び音声認識プログラム | |
KR20220073513A (ko) | 대화 시스템, 차량 및 대화 시스템의 제어 방법 | |
JP3384165B2 (ja) | 音声認識装置 | |
JP4938719B2 (ja) | 車載情報システム | |
JP2004301875A (ja) | 音声認識装置 | |
JP5157596B2 (ja) | 音声認識装置 | |
US20110218809A1 (en) | Voice synthesis device, navigation device having the same, and method for synthesizing voice message | |
JP2019191477A (ja) | 音声認識装置及び音声認識方法 | |
JP2003330488A (ja) | 音声認識装置 | |
JP2021033929A (ja) | 制御システム、及び制御方法 | |
JP7274376B2 (ja) | エージェント装置、エージェント装置の制御方法、およびプログラム | |
JP7280074B2 (ja) | エージェント装置、エージェント装置の制御方法、およびプログラム | |
JP7274901B2 (ja) | エージェント装置、エージェント装置の制御方法、およびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20111004 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20111101 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4859982 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20141111 Year of fee payment: 3 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |