JP7330066B2 - 音声認識装置、音声認識方法及びそのプログラム - Google Patents
音声認識装置、音声認識方法及びそのプログラム Download PDFInfo
- Publication number
- JP7330066B2 JP7330066B2 JP2019197289A JP2019197289A JP7330066B2 JP 7330066 B2 JP7330066 B2 JP 7330066B2 JP 2019197289 A JP2019197289 A JP 2019197289A JP 2019197289 A JP2019197289 A JP 2019197289A JP 7330066 B2 JP7330066 B2 JP 7330066B2
- Authority
- JP
- Japan
- Prior art keywords
- speaker
- unit
- speech
- speech recognition
- speakers
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 36
- 238000012545 processing Methods 0.000 claims description 51
- 238000001514 detection method Methods 0.000 claims description 35
- 238000004891 communication Methods 0.000 claims description 18
- 230000008569 process Effects 0.000 claims description 9
- 238000013519 translation Methods 0.000 description 96
- 230000005236 sound signal Effects 0.000 description 17
- 238000010586 diagram Methods 0.000 description 11
- 230000000694 effects Effects 0.000 description 9
- 238000004590 computer program Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 239000000470 constituent Substances 0.000 description 3
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 239000000463 material Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S5/00—Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations
- G01S5/18—Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations using ultrasonic, sonic, or infrasonic waves
- G01S5/22—Position of source determined by co-ordinating a plurality of position lines defined by path-difference measurements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/221—Announcement of recognition results
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Machine Translation (AREA)
Description
<構成:音声翻訳装置1>
図1Aは、実施の形態1における音声認識装置10を搭載した音声翻訳装置1の外観と、第1話者と第2話者との音声翻訳装置1の使用場面の一例を示す図である。
音声認識装置10は、第1話者と、第1話者の会話相手である1以上の第2話者とが会話を行うための装置であり、第1言語で発話する第1話者と、第2言語で発話する第2話者との間の会話つまり音声を音声認識する装置である。
翻訳処理部32は、音声認識部26から取得したテキスト文に基づいて、テキスト文に示される認識された言語(認識言語)を別の言語に翻訳し、翻訳した別の言語である翻訳言語で示されたテキスト文を生成する。
表示部33は、例えば、液晶パネル、又は、有機ELパネル等のモニタである。表示部33は、翻訳処理部32から取得した第1テキスト文及び第2テキスト文を表示する。
音声出力部34は、翻訳処理部32から取得した翻訳音声を示す情報に示される翻訳音声を出力するスピーカである。つまり、音声出力部34は、第1話者が発話した場合、表示部33に表示される第2テキスト文と同様の内容の翻訳音声を再生して出力する。また、音声出力部34は、第2話者が発話した場合、表示部33に表示される第1テキスト文と同様の内容の翻訳音声を再生して出力する。
電源部35は、例えば一次電池又は二次電池等であり、配線を介して音声認識装置10、翻訳処理部32、表示部33及び音声出力部34等と電気的に接続される。電源部35は、音声認識装置10、翻訳処理部32、表示部33及び音声出力部34等に電力を供給する。なお、本実施の形態では、電源部35は、音声翻訳装置1に設けられているが、音声認識装置10に設けられていてもよい。
以上のように構成される音声翻訳装置1が行う動作について説明する。
次に、本実施の形態における音声認識装置10の作用効果について説明する。
<構成>
本実施の形態の音声翻訳装置1の構成を、図7を用いて説明する。
次に、本実施の形態における音声認識装置10aの作用効果について説明する。
以上、本開示について、実施の形態1、2に基づいて説明したが、本開示は、これら実施の形態1、2等に限定されるものではない。
21 取得部
22 記憶部
23 発話開始検出部
24 入力部
25 発話者区別部
26、51 音声認識部
29 通信部
Claims (11)
- 第1話者と、前記第1話者の会話相手である1以上の第2話者とが会話を行うための音声認識装置であって、
前記第1話者及び前記1以上の第2話者の会話のそれぞれの音声を取得する取得部と、
前記取得部が取得した前記第1話者及び前記1以上の第2話者の会話の前記それぞれの音声を記憶する記憶部と、
少なくとも前記第1話者からの操作入力を受付ける入力部と、
前記記憶部に記憶される前記それぞれの音声から発話を開始した開始位置を、前記入力部への操作入力に応じて音声ごとに検出する発話開始検出部と、
音声ごとに設定される、前記入力部への操作入力を受付けた第1時点と前記発話開始検出部が前記それぞれの音声から検出した発話の開始位置を示す第2時点とに基づいて、前記第1話者及び前記1以上の第2話者のうちから、前記入力部への操作入力を行った前記第1話者か前記入力部への操作入力を行っていない前記1以上の第2話者かを区別する発話者区別部とを備え、
前記発話者区別部によって前記区別の処理が行われた前記第1話者及び前記1以上の第2話者の前記それぞれの音声における開始位置以降の音声は、音声認識部によって音声認識される
音声認識装置。 - 前記発話者区別部は、
前記第1話者及び前記1以上の第2話者の会話の前記それぞれの音声ごとに設定された前記第1時点と前記第2時点とを比較し、
前記第1時点の方が前記第2時点よりも時間が早い時点の場合、前記第1話者及び前記1以上の第2話者のうちから前記第1話者を区別し、
前記第2時点の方が前記第1時点よりも時間が早い時点の場合、前記第1話者及び前記1以上の第2話者のうちから前記第2話者を区別する
請求項1に記載の音声認識装置。 - 前記第1話者及び前記1以上の第2話者のうちから前記第1話者が区別された場合、前記音声認識部は、前記第1話者が発話した音声を音声認識し、
前記第1話者及び前記1以上の第2話者のうちから第2話者が区別された場合、前記音声認識部は、前記第2話者が発話した音声を音声認識する
請求項1又は2に記載の音声認識装置。 - 前記発話者区別部は、前記入力部が操作入力を受付けた前記第1時点から前後の期間である規定期間における前記第1話者及び前記1以上の第2話者の会話の前記それぞれの音声から、前記第1話者か前記第2話者かを区別する
請求項1~3のいずれか1項に記載の音声認識装置。 - 前記入力部への操作入力を行った前記第1話者が発話した音声の音声認識をした後、前記記憶部は、前記第2話者の音声を記憶するために、前記取得部が取得した前記それぞれの音声の記憶を開始する
請求項1~4のいずれか1項に記載の音声認識装置。 - 前記音声認識部を有するクラウドサーバと通信可能な通信部を備え、
前記通信部は、前記発話者区別部によって前記区別の処理が行われた前記第1話者及び前記1以上の第2話者の前記それぞれの音声を前記クラウドサーバに送信し、前記クラウドサーバの前記音声認識部が前記それぞれの音声の開始位置以降の音声を音声認識した結果を受信する
請求項1~5のいずれか1項に記載の音声認識装置。 - 前記発話者区別部によって前記区別の処理が行われた前記第1話者及び前記1以上の第2話者の前記それぞれの音声における開始位置以降の音声を音声認識する前記音声認識部を備える
請求項1~5のいずれか1項に記載の音声認識装置。 - 前記入力部は、前記音声認識装置に設けられた1つの操作ボタンである
請求項1~7のいずれか1項に記載の音声認識装置。 - 前記入力部は、前記第1話者及び前記1以上の第2話者のそれぞれが発話する度に、前記第1話者からの操作入力を受付ける
請求項1~8のいずれか1項に記載の音声認識装置。 - 第1話者と、前記第1話者の会話相手である1以上の第2話者とが会話を行うための音声認識方法であって、
前記第1話者及び前記1以上の第2話者の会話のそれぞれの音声を取得することと、
取得した前記第1話者及び前記1以上の第2話者の会話の前記それぞれの音声を記憶部に記憶することと、
少なくとも前記第1話者からの入力部への操作入力を受付けることと、
前記記憶部に記憶される前記それぞれの音声から発話を開始した開始位置を、前記入力部への操作入力に応じて音声ごとに検出することと、
音声ごとに設定される、前記入力部への操作入力を受付けた第1時点と前記それぞれの音声から検出した発話の開始位置を示す第2時点とに基づいて、前記第1話者及び前記1以上の第2話者のうちから、前記入力部への操作入力を行った前記第1話者か前記入力部への操作入力を行っていない前記1以上の第2話者かを区別することと、
前記区別の処理が行われた前記第1話者及び前記1以上の第2話者の前記それぞれの音声における開始位置以降の音声は、音声認識することとを含む
音声認識方法。 - 請求項10に記載の音声認識方法をコンピュータに実行させるための
プログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010230365.9A CN111755000A (zh) | 2019-03-27 | 2020-03-23 | 语音识别装置、语音识别方法及记录介质 |
US16/826,899 US11315572B2 (en) | 2019-03-27 | 2020-03-23 | Speech recognition device, speech recognition method, and recording medium |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201962824641P | 2019-03-27 | 2019-03-27 | |
US62/824,641 | 2019-03-27 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020160431A JP2020160431A (ja) | 2020-10-01 |
JP7330066B2 true JP7330066B2 (ja) | 2023-08-21 |
Family
ID=72643271
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019197289A Active JP7330066B2 (ja) | 2019-03-27 | 2019-10-30 | 音声認識装置、音声認識方法及びそのプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US11315572B2 (ja) |
JP (1) | JP7330066B2 (ja) |
CN (1) | CN111755000A (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7392259B2 (ja) * | 2018-12-04 | 2023-12-06 | 日本電気株式会社 | 学習支援装置、学習支援方法およびプログラム |
US11908468B2 (en) | 2020-09-21 | 2024-02-20 | Amazon Technologies, Inc. | Dialog management for multiple users |
US11783804B2 (en) * | 2020-10-26 | 2023-10-10 | T-Mobile Usa, Inc. | Voice communicator with voice changer |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003295892A (ja) | 2002-04-01 | 2003-10-15 | Nec Corp | 通訳システム及びプログラム |
JP2005043628A (ja) | 2003-07-28 | 2005-02-17 | Toshiba Corp | 対話記録装置および対話記録方法 |
JP2007264473A (ja) | 2006-03-29 | 2007-10-11 | Toshiba Corp | 音声処理装置、音声処理方法および音声処理プログラム |
WO2018034059A1 (ja) | 2016-08-17 | 2018-02-22 | パナソニックIpマネジメント株式会社 | 音声入力装置、翻訳装置、音声入力方法、及び音声入力プログラム |
Family Cites Families (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5375423B2 (ja) | 2009-08-10 | 2013-12-25 | 日本電気株式会社 | 音声認識システム、音声認識方法および音声認識プログラム |
US8588849B2 (en) * | 2010-07-09 | 2013-11-19 | Blackberry Limited | System and method for resuming media |
JP5708155B2 (ja) * | 2011-03-31 | 2015-04-30 | 富士通株式会社 | 話者状態検出装置、話者状態検出方法及び話者状態検出用コンピュータプログラム |
JP6031761B2 (ja) * | 2011-12-28 | 2016-11-24 | 富士ゼロックス株式会社 | 音声解析装置および音声解析システム |
JP6148163B2 (ja) * | 2013-11-29 | 2017-06-14 | 本田技研工業株式会社 | 会話支援装置、会話支援装置の制御方法、及び会話支援装置のプログラム |
KR102214178B1 (ko) * | 2013-12-13 | 2021-02-10 | 한국전자통신연구원 | 자동 통역 장치 및 방법 |
US9632748B2 (en) * | 2014-06-24 | 2017-04-25 | Google Inc. | Device designation for audio input monitoring |
US9996316B2 (en) * | 2015-09-28 | 2018-06-12 | Amazon Technologies, Inc. | Mediation of wakeword response for multiple devices |
US10079024B1 (en) * | 2016-08-19 | 2018-09-18 | Amazon Technologies, Inc. | Detecting replay attacks in voice-based authentication |
US10388120B2 (en) * | 2017-02-24 | 2019-08-20 | Masimo Corporation | Localized projection of audible noises in medical settings |
US20190013019A1 (en) * | 2017-07-10 | 2019-01-10 | Intel Corporation | Speaker command and key phrase management for muli -virtual assistant systems |
US10796687B2 (en) * | 2017-09-06 | 2020-10-06 | Amazon Technologies, Inc. | Voice-activated selective memory for voice-capturing devices |
JP2019186630A (ja) * | 2018-04-03 | 2019-10-24 | キヤノン株式会社 | 撮像装置及びその制御方法及びプログラム |
JP2020055348A (ja) * | 2018-09-28 | 2020-04-09 | 本田技研工業株式会社 | エージェント装置、エージェント制御方法、およびプログラム |
US11183183B2 (en) * | 2018-12-07 | 2021-11-23 | Sonos, Inc. | Systems and methods of operating media playback systems having multiple voice assistant services |
US11164585B2 (en) * | 2019-06-07 | 2021-11-02 | Mitsubishi Electric Automotive America, Inc. | Systems and methods for virtual assistant routing |
-
2019
- 2019-10-30 JP JP2019197289A patent/JP7330066B2/ja active Active
-
2020
- 2020-03-23 CN CN202010230365.9A patent/CN111755000A/zh active Pending
- 2020-03-23 US US16/826,899 patent/US11315572B2/en active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003295892A (ja) | 2002-04-01 | 2003-10-15 | Nec Corp | 通訳システム及びプログラム |
JP2005043628A (ja) | 2003-07-28 | 2005-02-17 | Toshiba Corp | 対話記録装置および対話記録方法 |
JP2007264473A (ja) | 2006-03-29 | 2007-10-11 | Toshiba Corp | 音声処理装置、音声処理方法および音声処理プログラム |
WO2018034059A1 (ja) | 2016-08-17 | 2018-02-22 | パナソニックIpマネジメント株式会社 | 音声入力装置、翻訳装置、音声入力方法、及び音声入力プログラム |
Also Published As
Publication number | Publication date |
---|---|
JP2020160431A (ja) | 2020-10-01 |
US11315572B2 (en) | 2022-04-26 |
US20200312332A1 (en) | 2020-10-01 |
CN111755000A (zh) | 2020-10-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10777193B2 (en) | System and device for selecting speech recognition model | |
US10418027B2 (en) | Electronic device and method for controlling the same | |
JP7330066B2 (ja) | 音声認識装置、音声認識方法及びそのプログラム | |
KR102118209B1 (ko) | 디지털 어시스턴트를 위한 음성 트리거 | |
US10811005B2 (en) | Adapting voice input processing based on voice input characteristics | |
KR102628211B1 (ko) | 전자 장치 및 그 제어 방법 | |
US20180217985A1 (en) | Control method of translation device, translation device, and non-transitory computer-readable recording medium storing a program | |
US11437022B2 (en) | Performing speaker change detection and speaker recognition on a trigger phrase | |
JP6514475B2 (ja) | 対話装置および対話方法 | |
US11507759B2 (en) | Speech translation device, speech translation method, and recording medium | |
JP2011248140A (ja) | 音声認識装置 | |
US20180350360A1 (en) | Provide non-obtrusive output | |
JP7287006B2 (ja) | 話者決定装置、話者決定方法、および話者決定装置の制御プログラム | |
US11244676B2 (en) | Apparatus for processing user voice input | |
US20190114405A1 (en) | Information acquisition device, information acquisition system, and information acquisition method | |
KR20200056754A (ko) | 개인화 립 리딩 모델 생성 방법 및 장치 | |
JP7449070B2 (ja) | 音声入力装置、音声入力方法及びそのプログラム | |
JP7429107B2 (ja) | 音声翻訳装置、音声翻訳方法及びそのプログラム | |
US11308966B2 (en) | Speech input device, speech input method, and recording medium | |
JP3846500B2 (ja) | 音声認識対話装置および音声認識対話処理方法 | |
CN113380275B (zh) | 语音处理方法、装置、智能设备及存储介质 | |
CN116189718A (zh) | 语音活性检测方法、装置、设备及存储介质 | |
CN115691479A (zh) | 语音检测方法、装置、电子设备及存储介质 | |
JP2018205470A (ja) | 対話装置、対話システム、対話方法及び対話プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220830 |
|
TRDD | Decision of grant or rejection written | ||
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230705 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230711 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230808 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 7330066 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |