JP5646146B2 - 音声入力装置、音声認識システム及び音声認識方法 - Google Patents
音声入力装置、音声認識システム及び音声認識方法 Download PDFInfo
- Publication number
- JP5646146B2 JP5646146B2 JP2009066659A JP2009066659A JP5646146B2 JP 5646146 B2 JP5646146 B2 JP 5646146B2 JP 2009066659 A JP2009066659 A JP 2009066659A JP 2009066659 A JP2009066659 A JP 2009066659A JP 5646146 B2 JP5646146 B2 JP 5646146B2
- Authority
- JP
- Japan
- Prior art keywords
- voice
- unit
- voice input
- distance
- angle
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 39
- 238000001514 detection method Methods 0.000 claims description 77
- 238000012545 processing Methods 0.000 claims description 64
- 230000005540 biological transmission Effects 0.000 claims description 49
- 230000005236 sound signal Effects 0.000 claims description 20
- 239000000284 extract Substances 0.000 claims description 3
- 230000033001 locomotion Effects 0.000 description 30
- 238000005259 measurement Methods 0.000 description 20
- 230000008569 process Effects 0.000 description 18
- 230000001133 acceleration Effects 0.000 description 16
- 238000012986 modification Methods 0.000 description 8
- 230000004048 modification Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 238000004886 process control Methods 0.000 description 7
- 230000003287 optical effect Effects 0.000 description 5
- 230000003321 amplification Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000007257 malfunction Effects 0.000 description 2
- 238000003199 nucleic acid amplification method Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 125000002066 L-histidyl group Chemical group [H]N1C([H])=NC(C([H])([H])[C@](C(=O)[*])([H])N([H])[H])=C1[H] 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 230000000881 depressing effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 229910044991 metal oxide Inorganic materials 0.000 description 1
- 150000004706 metal oxides Chemical class 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/08—Mouthpieces; Microphones; Attachments therefor
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2499/00—Aspects covered by H04R or H04S not otherwise provided for in their subgroups
- H04R2499/10—General applications
- H04R2499/11—Transducers incorporated or for use in hand-held devices, e.g. mobile phones, PDA's, camera's
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/15—Aspects of sound capture and related signal processing for recording or reproduction
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- User Interface Of Digital Computer (AREA)
- Details Of Audible-Bandwidth Transducers (AREA)
- Circuit For Audible Band Transducer (AREA)
Description
本発明の第1の実施の形態に係る音声入力装置10は、図1に示すように、角度検出部11、距離検出部12、発話動作判定部13、音声入力部14、音声入力切替部15、及び音声送信部16を備える。音声入力部14は、ユーザの音声を音声信号に変換する。角度検出部11は、音声入力部14の角度を検出する。距離検出部12は、音声入力部14とユーザの口元との距離を検出する。発話動作判定部13は、検出された角度及び距離に基いてユーザの発話動作の開始及び終了を判定する。音声入力切替部15は、発話動作判定部13の出力により、音声入力部14のオンオフを制御する。音声送信部16は、音声入力部14から入力された音声信号を外部機器に送信する。
本発明の第2の実施の形態に係る音声認識システムは、図10に示すように、音声入力装置10b、及び音声処理装置20を備える。音声入力装置10bは、角度検出部11、距離検出部12、発話動作判定部13、音声入力部14、音声入力切替部15、音声送信部16、及びコマンド送信部18を備える。音声処理装置20は、コマンド受信部21、音声受信部22、処理制御部23、音声認識部24、音声認識辞書25、及び表示部26を備える。
本発明の第2の実施の形態の変形例に係る音声入力システムは、図18に示すように、音声入力装置10cと音声処理装置20を備える。音声入力装置10cは、角度検出部11、距離検出部12、発話動作判定部13、音声入力部14、音声入力切替部15、音声送信部16、コマンド送信部18、及び操作部19を備える。操作部19は、コマンド送信部18に制御コマンドとして操作コマンドを送信させて、音声処理装置20の音声認識結果に基づいた様々なサービスを操作する。
上記のように、本発明の実施の形態を記載したが、この開示の一部をなす論述及び図面はこの発明を限定するものであると理解すべきではない。この開示から当業者にはさまざまな代替実施の形態、実施例及び運用技術が明らかとなろう。
11…角度検出部
12…距離検出部
13…発話動作判定部
14…音声入力部
15…音声入力切替部
16…音声送信部
18…コマンド送信部
19…操作部
20…音声処理装置
21…コマンド受信部
22…音声受信部
23…処理制御部
24…音声認識部
25…音声認識辞書
26…表示部
Claims (7)
- ユーザの音声を音声信号に変換する音声入力部と、
前記音声入力部の前記ユーザの口元に対する角度を検出する角度検出部と、
前記音声入力部と前記ユーザとの距離を検出する距離検出部と、
検出された前記角度及び前記距離に基いて、前記音声入力部のオンオフを制御する音声入力切替部
とを備え、
前記音声入力切替部は、前記角度検出部により検出された前記角度が設定角度の範囲内のときに前記距離検出部をオンにすることを特徴とする音声入力装置。 - 音声入力装置と、音声処理装置とを備え、前記音声入力装置が、
ユーザの音声を音声信号に変換する音声入力部と、
前記音声入力部の前記ユーザの口元に対する角度を検出する角度検出部と、
前記音声入力部と前記ユーザとの距離を検出する距離検出部と、
検出された前記角度及び前記距離に基いて前記音声入力部のオンオフを制御する音声入力切替部と、
前記音声入力部から入力された前記音声信号を前記音声処理装置に送信する音声送信部
とを備え、前記音声処理装置が、
前記音声送信部から送信された前記音声信号を受信する音声受信部と、
予め登録された複数の文字列を保管する音声認識辞書と、
受信した前記音声信号の音声認識を行い、認識された前記音声信号に対応する候補文字列を前記複数の文字列から抽出する音声認識部と、
前記候補文字列を表示する表示部
とを備え、
前記音声入力切替部は、前記角度検出部により検出された前記角度が設定角度の範囲内のときに前記距離検出部をオンにすることを特徴とする音声認識システム。 - 前記音声入力装置が、
前記音声処理装置による処理を制御する制御コマンドを前記音声処理装置に送信するコマンド送信部を更に備え、
前記音声処理装置が、
前記制御コマンドを受信するコマンド受信部と、
前記制御コマンドに応じて前記音声処理装置による処理を制御する処理制御部
とを更に備えることを特徴とする請求項2に記載の音声認識システム。 - 前記制御コマンドが、前記音声入力部のオンオフに応じて生成され、前記音声認識部のオンオフを切り替える開始コマンド及び終了コマンドを含むことを特徴とする請求項3に記載の音声認識システム。
- 前記制御コマンドが、検出された前記距離が設定距離の範囲内になるように前記ユーザを誘導する誘導コマンドを含むことを特徴とする請求項3又は4に記載の音声認識システム。
- 前記音声入力装置が、前記表示部に表示された前記候補文字列に対して定められた操作を行う操作コマンドを前記制御コマンドとして生成する操作部を更に備えることを特徴とする請求項3〜5のいずれか1項に記載の音声認識システム。
- 音声入力装置が有する音声入力部のユーザの口元に対する角度と前記音声入力部と前記ユーザとの距離を検出する段階、前記角度及び前記距離がそれぞれ、設定角度及び設定距離の範囲内であれば発話動作の開始と判定する段階により、前記音声入力部が前記ユーザの音声を音声信号に変換し、前記音声入力装置が前記音声信号を音声処理装置に送信し、
前記音声信号を受信する段階、受信した前記音声信号の音声認識を行う段階、認識された前記音声信号に対応する候補文字列を予め登録された複数の文字列から抽出する段階により、前記音声処理装置において前記候補文字列を表示する
ことを含み、
前記距離の検出が、検出された前記角度が設定角度の範囲内のときに実施されることを特徴とする音声認識方法。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009066659A JP5646146B2 (ja) | 2009-03-18 | 2009-03-18 | 音声入力装置、音声認識システム及び音声認識方法 |
PCT/JP2009/069642 WO2010106711A1 (ja) | 2009-03-18 | 2009-11-19 | 音声入力装置、音声認識システム及び音声認識方法 |
US13/209,618 US8862466B2 (en) | 2009-03-18 | 2011-08-15 | Speech input device, speech recognition system and speech recognition method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009066659A JP5646146B2 (ja) | 2009-03-18 | 2009-03-18 | 音声入力装置、音声認識システム及び音声認識方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010217754A JP2010217754A (ja) | 2010-09-30 |
JP5646146B2 true JP5646146B2 (ja) | 2014-12-24 |
Family
ID=42739377
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009066659A Expired - Fee Related JP5646146B2 (ja) | 2009-03-18 | 2009-03-18 | 音声入力装置、音声認識システム及び音声認識方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US8862466B2 (ja) |
JP (1) | JP5646146B2 (ja) |
WO (1) | WO2010106711A1 (ja) |
Families Citing this family (31)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2011055410A1 (ja) | 2009-11-06 | 2011-05-12 | 株式会社 東芝 | 音声認識装置 |
KR20120046627A (ko) * | 2010-11-02 | 2012-05-10 | 삼성전자주식회사 | 화자 적응 방법 및 장치 |
JP5771002B2 (ja) | 2010-12-22 | 2015-08-26 | 株式会社東芝 | 音声認識装置、音声認識方法および音声認識装置を搭載したテレビ受像機 |
JP5695447B2 (ja) | 2011-03-01 | 2015-04-08 | 株式会社東芝 | テレビジョン装置及び遠隔操作装置 |
JP5790238B2 (ja) | 2011-07-22 | 2015-10-07 | ソニー株式会社 | 情報処理装置、情報処理方法及びプログラム |
EP2821916B1 (en) * | 2012-02-27 | 2018-12-19 | NEC Corporation | Voice input device, voice input method and program |
CN104380227A (zh) * | 2012-06-15 | 2015-02-25 | 株式会社尼康 | 电子设备 |
US9805721B1 (en) * | 2012-09-21 | 2017-10-31 | Amazon Technologies, Inc. | Signaling voice-controlled devices |
WO2015029296A1 (ja) * | 2013-08-29 | 2015-03-05 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ | 音声認識方法及び音声認識装置 |
CN104715753B (zh) * | 2013-12-12 | 2018-08-31 | 联想(北京)有限公司 | 一种数据处理的方法及电子设备 |
EP2911149B1 (en) * | 2014-02-19 | 2019-04-17 | Nokia Technologies OY | Determination of an operational directive based at least in part on a spatial audio property |
JP6137039B2 (ja) * | 2014-04-25 | 2017-05-31 | Smk株式会社 | リモートコントロールシステム及びリモートコントローラ |
CN103971682A (zh) * | 2014-05-14 | 2014-08-06 | 哈尔滨工程大学 | 一种冰雪机器人的语音控制方法 |
US9824688B2 (en) * | 2014-07-16 | 2017-11-21 | Panasonic Intellectual Property Corporation Of America | Method for controlling speech-recognition text-generation system and method for controlling mobile terminal |
CN105528385B (zh) | 2014-10-15 | 2020-11-20 | 松下电器(美国)知识产权公司 | 信息取得方法、信息取得***以及信息取得程序 |
CN104751852B (zh) * | 2015-03-20 | 2018-07-24 | 广东小天才科技有限公司 | 一种声音处理的方法和装置 |
US10134425B1 (en) * | 2015-06-29 | 2018-11-20 | Amazon Technologies, Inc. | Direction-based speech endpointing |
US10121471B2 (en) * | 2015-06-29 | 2018-11-06 | Amazon Technologies, Inc. | Language model speech endpointing |
WO2018056169A1 (ja) * | 2016-09-21 | 2018-03-29 | 日本電気株式会社 | 対話装置、処理方法、プログラム |
US11170757B2 (en) * | 2016-09-30 | 2021-11-09 | T-Mobile Usa, Inc. | Systems and methods for improved call handling |
CN106653025A (zh) * | 2017-01-10 | 2017-05-10 | 四川长虹电器股份有限公司 | 智能电视语音遥控器及其语音控制方法 |
JP7056020B2 (ja) * | 2017-07-04 | 2022-04-19 | 富士フイルムビジネスイノベーション株式会社 | 情報処理装置およびプログラム |
KR102392087B1 (ko) * | 2017-07-10 | 2022-04-29 | 삼성전자주식회사 | 원격 조정 장치 및 원격 조정 장치의 사용자 음성 수신방법 |
TWI672690B (zh) * | 2018-03-21 | 2019-09-21 | 塞席爾商元鼎音訊股份有限公司 | 人工智慧語音互動之方法、電腦程式產品及其近端電子裝置 |
US11218802B1 (en) * | 2018-09-25 | 2022-01-04 | Amazon Technologies, Inc. | Beamformer rotation |
JP7202853B2 (ja) * | 2018-11-08 | 2023-01-12 | シャープ株式会社 | 冷蔵庫 |
WO2020121474A1 (ja) * | 2018-12-13 | 2020-06-18 | 三菱電機株式会社 | 情報処理装置、音声認識システム、制御方法、及び制御プログラム |
CN109618059A (zh) * | 2019-01-03 | 2019-04-12 | 北京百度网讯科技有限公司 | 移动终端中语音识别功能的唤醒方法和装置 |
JP2021081533A (ja) * | 2019-11-18 | 2021-05-27 | 富士通株式会社 | 音信号変換プログラム、音信号変換方法、及び、音信号変換装置 |
JP7467314B2 (ja) * | 2020-11-05 | 2024-04-15 | 株式会社東芝 | 辞書編集装置、辞書編集方法、及びプログラム |
JP7481999B2 (ja) | 2020-11-05 | 2024-05-13 | 株式会社東芝 | 辞書編集装置、辞書編集方法及び辞書編集プログラム |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4119797A (en) * | 1977-06-29 | 1978-10-10 | Technology Development Corporation | Voice operated switch having an activation level which is higher than its sustaining level |
CA2144782A1 (en) * | 1994-03-17 | 1995-09-18 | Dale D. Deremer | Microphone with infrared on/off switch |
JPH07307989A (ja) * | 1994-05-13 | 1995-11-21 | Matsushita Electric Ind Co Ltd | 音声入力装置 |
JP2002165119A (ja) * | 2000-09-12 | 2002-06-07 | Canon Inc | カメラおよび情報処理装置 |
JP2004198831A (ja) * | 2002-12-19 | 2004-07-15 | Sony Corp | 音声認識装置および方法、プログラム、並びに記録媒体 |
JP2005229420A (ja) * | 2004-02-13 | 2005-08-25 | Toshiba Corp | 音声入力装置 |
JP2005311418A (ja) * | 2004-04-16 | 2005-11-04 | Audio Technica Corp | マイクロホン |
JP2007214913A (ja) * | 2006-02-09 | 2007-08-23 | Yamaha Corp | 収音装置 |
US7827000B2 (en) * | 2006-03-03 | 2010-11-02 | Garmin Switzerland Gmbh | Method and apparatus for estimating a motion parameter |
JP5023594B2 (ja) * | 2006-07-26 | 2012-09-12 | 日本電気株式会社 | 携帯端末装置、データ送信方法およびデータ送信制御プログラム |
JP2008051882A (ja) * | 2006-08-22 | 2008-03-06 | Canon Inc | 音声情報処理装置及びその制御方法 |
-
2009
- 2009-03-18 JP JP2009066659A patent/JP5646146B2/ja not_active Expired - Fee Related
- 2009-11-19 WO PCT/JP2009/069642 patent/WO2010106711A1/ja active Application Filing
-
2011
- 2011-08-15 US US13/209,618 patent/US8862466B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
WO2010106711A1 (ja) | 2010-09-23 |
US8862466B2 (en) | 2014-10-14 |
US20110301950A1 (en) | 2011-12-08 |
JP2010217754A (ja) | 2010-09-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5646146B2 (ja) | 音声入力装置、音声認識システム及び音声認識方法 | |
US11676581B2 (en) | Method and apparatus for evaluating trigger phrase enrollment | |
KR102147346B1 (ko) | 디스플레이 장치 및 그의 동작 방법 | |
WO2016103988A1 (ja) | 情報処理装置、情報処理方法およびプログラム | |
KR101992676B1 (ko) | 영상 인식을 이용하여 음성 인식을 하는 방법 및 장치 | |
JP6844608B2 (ja) | 音声処理装置および音声処理方法 | |
JP2003044069A (ja) | 音声認識による誤動作の防止及び音声認識率の向上が可能な電子機器及び方法 | |
WO2009103226A1 (zh) | 一种语音识别频道选择***、方法及频道转换装置 | |
CN103226966A (zh) | 一种可快速定位播放进度的方法及移动终端 | |
CN110097875B (zh) | 基于麦克风信号的语音交互唤醒电子设备、方法和介质 | |
JP2011118822A (ja) | 電子機器、発話検出装置、音声認識操作システム、音声認識操作方法及びプログラム | |
KR20130083371A (ko) | 영상장치 및 그 제어방법 | |
JP2014134791A (ja) | ディスプレイ装置及び制御方法 | |
CN110428806B (zh) | 基于麦克风信号的语音交互唤醒电子设备、方法和介质 | |
KR101411650B1 (ko) | 키 입력 장치, 키 입력 인식 장치 및 이들을 이용한 키 입력 시스템 | |
KR20180132011A (ko) | 음성 인식을 이용하여 전원을 제어하는 전자 장치 및 이의 전원 제어 방법 | |
JP2014137430A (ja) | 電子機器及び掃除機 | |
KR102576388B1 (ko) | 디스플레이 장치 및 그의 동작 방법 | |
JP2004208171A (ja) | 無線音響装置及び同装置における音声取得方法 | |
KR102160756B1 (ko) | 디스플레이 장치 및 디스플레이 장치의 제어 방법 | |
US20080169933A1 (en) | Sound control system with an automatic sound receiving function | |
CN113228170B (zh) | 信息处理装置及非易失性存储介质 | |
JPH1127376A (ja) | 音声通信装置 | |
JP2006215418A (ja) | 音声入力装置及び音声入力方法 | |
JP2002182691A (ja) | 音を出力する機器を制御する制御装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110318 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130423 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130621 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140204 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140328 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20141007 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20141105 |
|
LAPS | Cancellation because of no payment of annual fees |