JP6754184B2 - 音声認識装置及び音声認識方法 - Google Patents
音声認識装置及び音声認識方法 Download PDFInfo
- Publication number
- JP6754184B2 JP6754184B2 JP2015239951A JP2015239951A JP6754184B2 JP 6754184 B2 JP6754184 B2 JP 6754184B2 JP 2015239951 A JP2015239951 A JP 2015239951A JP 2015239951 A JP2015239951 A JP 2015239951A JP 6754184 B2 JP6754184 B2 JP 6754184B2
- Authority
- JP
- Japan
- Prior art keywords
- voice
- voice recognition
- information
- unit
- recognition result
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 115
- 238000012545 processing Methods 0.000 claims description 183
- 238000004891 communication Methods 0.000 claims description 179
- 238000001514 detection method Methods 0.000 claims description 68
- 238000005259 measurement Methods 0.000 claims description 8
- 238000010586 diagram Methods 0.000 description 23
- 230000005540 biological transmission Effects 0.000 description 21
- 230000006870 function Effects 0.000 description 7
- 238000012790 confirmation Methods 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 5
- 238000011156 evaluation Methods 0.000 description 5
- 230000005236 sound signal Effects 0.000 description 3
- 238000013519 translation Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/32—Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Telephonic Communication Services (AREA)
Description
特許文献1では、ユーザがマイクロホンから離れた位置から発話した場合、音声にノイズが含まれ、音声認識が正しく動作しないという課題がある。さらに、特許文献1では、ノイズ除去処理を端末とサーバとに分散させておらず、ノイズ除去処理と音声認識処理とを併用した構成又は条件について検討されていない。
図1は、本開示の実施の形態1に係る音声認識システムの全体構成を示す図である。
続いて、実施の形態2に係る音声認識システムについて説明する。実施の形態2における音声認識システムの全体構成は、図1と同じであるので説明を省略する。
続いて、実施の形態3に係る音声認識システムについて説明する。実施の形態3における音声認識システムの全体構成は、図1と同じであるので説明を省略する。
続いて、実施の形態4に係る音声認識システムについて説明する。実施の形態4における音声認識システムの全体構成は、図1と同じであるので説明を省略する。
続いて、実施の形態5に係る音声認識システムについて説明する。実施の形態5における音声認識システムの全体構成は、図1と同じであるので説明を省略する。
12 第1の収音処理部
13 第1の音声認識部
14 調停部
15 発話区間検出部
16 音声送信判断部
21 第2の収音処理部
22 第2の音声認識部
23 調停部
100 端末
101 通信部
102 マイク
103 スピーカ
104 制御部
105 メモリ
106 表示部
200 サーバ
201 通信部
202 制御部
203 メモリ
300 ネットワーク
Claims (16)
- 第1の音声情報を取得する音声取得部と、
前記音声取得部によって取得された前記第1の音声情報に含まれるノイズを第1の除去方式を用いて除去し、前記ノイズを除去した音声情報を第2の音声情報として出力するノイズ除去処理部と、
前記ノイズ除去処理部によって出力された前記第2の音声情報に対して音声認識を行い、音声認識結果を第1の音声認識結果情報として出力する音声認識部と、
前記音声取得部によって取得された前記第1の音声情報をサーバへ送信し、前記サーバにおいて、前記第1の除去方式により前記第1の音声情報から除去されるノイズの量よりもより多くの量のノイズを前記第1の音声情報から除去する第2の除去方式を用いて前記第1の音声情報に含まれるノイズが除去され、前記ノイズが除去された第3の音声情報に対して音声認識が行われた結果である、音声認識結果を第2の音声認識結果情報として前記サーバから受信する通信部と、
前記音声認識部によって出力された前記第1の音声認識結果情報と、前記通信部によって受信された前記第2の音声認識結果情報とのうちのいずれを出力するかを選択する調停部と、
前記音声取得部によって取得された前記第1の音声情報におけるユーザが発話した発話区間を検出する発話区間検出部と、
を備え、
前記発話区間検出部によって前記発話区間が検出されない場合、前記ノイズ除去処理部は、前記第1の音声情報に含まれるノイズを除去しないとともに、前記第2の音声情報を出力せず、
前記通信部は、前記第1の音声情報を前記サーバへ送信せず、
前記音声認識部は、前記第1の音声認識結果情報の尤もらしさを示す第1の尤度を算出し、算出した前記第1の尤度を前記調停部に出力し、
前記通信部は、前記サーバによって算出された前記第2の音声認識結果情報の尤もらしさを示す第2の尤度を受信し、受信した前記第2の尤度を前記調停部に出力し、
前記調停部は、前記第1の音声認識結果情報と前記第2の音声認識結果情報とのうちのいずれを出力するかを、前記第1の尤度及び前記第2の尤度の少なくとも1つに基づいて選択する、
音声認識装置。 - 前記調停部は、
前記第1の尤度が所定の第1の閾値より大きい場合には前記第1の音声認識結果情報を出力し、
前記第1の尤度が前記第1の閾値以下であり、前記第2の尤度が所定の第2の閾値より大きい場合には前記第2の音声認識結果情報を出力し、
前記第1の尤度が前記第1の閾値以下であり、前記第2の尤度が前記第2の閾値以下である場合には前記第1の音声認識結果情報及び前記第2の音声認識結果情報のいずれも出力しない、
請求項1記載の音声認識装置。 - 第1の音声情報を取得する音声取得部と、
前記音声取得部によって取得された前記第1の音声情報に含まれるノイズを第1の除去方式を用いて除去し、前記ノイズを除去した音声情報を第2の音声情報として出力するノイズ除去処理部と、
前記ノイズ除去処理部によって出力された前記第2の音声情報に対して音声認識を行い、音声認識結果を第1の音声認識結果情報として出力する音声認識部と、
前記音声取得部によって取得された前記第1の音声情報をサーバへ送信し、前記サーバにおいて、前記第1の除去方式により前記第1の音声情報から除去されるノイズの量よりもより多くの量のノイズを前記第1の音声情報から除去する第2の除去方式を用いて前記第1の音声情報に含まれるノイズが除去され、前記ノイズが除去された第3の音声情報に対して音声認識が行われた結果である、音声認識結果を第2の音声認識結果情報として前記サーバから受信する通信部と、
前記音声認識部によって出力された前記第1の音声認識結果情報と、前記通信部によって受信された前記第2の音声認識結果情報とのうちのいずれを出力するかを選択する調停部と、
前記音声取得部によって取得された前記第1の音声情報におけるユーザが発話した発話区間を検出する発話区間検出部と、
前記発話区間検出部によって前記発話区間が検出された場合に、前記発話区間検出部において検出された発話区間の継続時間である発話継続時間を測定する発話継続時間測定部と、
を備え、
前記発話区間検出部によって前記発話区間が検出されない場合、前記ノイズ除去処理部は、前記第1の音声情報に含まれるノイズを除去しないとともに、前記第2の音声情報を出力せず、
前記通信部は、前記第1の音声情報をサーバへ送信せず、
前記発話区間検出部によって前記発話区間が検出された場合、前記ノイズ除去処理部は、前記第1の音声情報に含まれるノイズを除去し、
前記通信部は、前記発話区間内における前記第1の音声情報を前記サーバへ送信し、
前記調停部は、前記音声認識部によって出力された前記第1の音声認識結果情報と、前記通信部によって受信された前記第2の音声認識結果情報とのうちのいずれを出力するかを、少なくとも前記発話継続時間の長さに関する情報を用いて選択する、
音声認識装置。 - 前記調停部は、前記発話継続時間が所定の長さより長い場合に、前記第2の音声認識結果情報の尤もらしさを示す第2の尤度に乗算する重み付けを、前記第1の音声認識結果情報の尤もらしさを示す第1の尤度に乗算する重み付けよりも上げる、
請求項3記載の音声認識装置。 - 第1の音声情報を取得する音声取得部と、
前記音声取得部によって取得された前記第1の音声情報に含まれるノイズを第1の除去方式を用いて除去し、前記ノイズを除去した音声情報を第2の音声情報として出力するノイズ除去処理部と、
前記ノイズ除去処理部によって出力された前記第2の音声情報に対して音声認識を行い、音声認識結果を第1の音声認識結果情報として出力する音声認識部と、
前記音声取得部によって取得された前記第1の音声情報をサーバへ送信し、前記サーバにおいて、前記第1の除去方式により前記第1の音声情報から除去されるノイズの量よりもより多くの量のノイズを前記第1の音声情報から除去する第2の除去方式を用いて前記第1の音声情報に含まれるノイズが除去され、前記ノイズが除去された第3の音声情報に対して音声認識が行われた結果である、音声認識結果を第2の音声認識結果情報として前記サーバから受信する通信部と、
前記音声認識部によって出力された前記第1の音声認識結果情報と、前記通信部によって受信された前記第2の音声認識結果情報とのうちのいずれを出力するかを選択する調停部と、
を備え、
前記通信部は、前記第3の音声情報を前記サーバから受信し、受信した前記第3の音声情報を前記音声認識部へ出力し、
前記音声認識部は、前記通信部によって受信された前記第3の音声情報に対して音声認識を行い、音声認識結果を第4の音声認識結果情報として出力し、
前記通信部は、前記ノイズ除去処理部によって出力された前記第2の音声情報をサーバへ送信し、前記第2の音声情報に対して音声認識が行われた音声認識結果を第3の音声認識結果情報として前記サーバから受信し、受信した前記第3の音声認識結果情報を前記調停部へ出力し、
前記調停部は、前記音声認識部によって出力された前記第1の音声認識結果情報と、前記通信部によって受信された前記第2の音声認識結果情報と、前記通信部によって受信された前記第3の音声認識結果情報と、前記音声認識部によって出力された前記第4の音声認識結果情報とのうちのいずれを出力するかを選択する、
音声認識装置。 - 前記音声認識部は、前記第1の音声認識結果情報の尤もらしさを示す第1の尤度を算出し、算出した前記第1の尤度を前記調停部に出力し、
前記通信部は、前記サーバによって算出された前記第2の音声認識結果情報の尤もらしさを示す第2の尤度を受信し、受信した前記第2の尤度を前記調停部に出力し、
前記通信部は、前記サーバによって算出された前記第3の音声認識結果情報の尤もらしさを示す第3の尤度を受信し、受信した前記第3の尤度を前記調停部に出力し、
前記音声認識部は、前記第4の音声認識結果情報の尤もらしさを示す第4の尤度を算出し、算出した前記第4の尤度を前記調停部に出力し、
前記調停部は、前記第1の音声認識結果情報と、前記第2の音声認識結果情報と、前記第3の音声認識結果情報と、前記第4の音声認識結果情報とのうちのいずれを出力するかを、前記第1の尤度、前記第2の尤度、前記第3の尤度及び前記第4の尤度のうちの少なくとも1つに基づいて選択する、
請求項5記載の音声認識装置。 - 前記音声取得部によって取得された前記第1の音声情報におけるユーザが発話した発話区間を検出する発話区間検出部をさらに備え、
前記発話区間検出部によって前記発話区間が検出されない場合、前記ノイズ除去処理部は、前記第1の音声情報に含まれるノイズを除去しないとともに、前記第2の音声情報を出力せず、
前記通信部は、前記第1の音声情報をサーバへ送信しない、
請求項5又は6記載の音声認識装置。 - 前記発話区間検出部によって前記発話区間が検出された場合に、前記発話区間検出部において検出された発話区間の継続時間である発話継続時間を測定する発話継続時間測定部をさらに備え、
前記発話区間検出部によって前記発話区間が検出された場合、前記ノイズ除去処理部は、前記第1の音声情報に含まれるノイズを除去し、
前記通信部は、前記発話区間内における前記第1の音声情報を前記サーバへ送信し、
前記調停部は、前記第1の音声認識結果情報と、前記第2の音声認識結果情報と、前記第3の音声認識結果情報と、前記第4の音声認識結果情報とのうちのいずれを出力するかを、少なくとも前記発話継続時間の長さに関する情報を用いて選択する、
請求項7記載の音声認識装置。 - 前記調停部は、前記発話継続時間が所定の長さより長い場合に、前記第2の音声認識結果情報の尤もらしさを示す第2の尤度及び前記第3の音声認識結果情報の尤もらしさを示す第3の尤度に乗算する重み付けを、前記第1の音声認識結果情報の尤もらしさを示す第1の尤度及び前記第4の音声認識結果情報の尤もらしさを示す第4の尤度に乗算する重み付けよりも上げる、
請求項8記載の音声認識装置。 - 前記調停部は、前記発話継続時間が所定の長さより長い場合に、前記第2の尤度に乗算する重み付けを、前記第3の尤度に乗算する重み付けよりも上げる、
請求項9記載の音声認識装置。 - 第1の音声情報を取得する音声取得部と、
前記音声取得部によって取得された前記第1の音声情報に含まれるノイズを第1の除去方式を用いて除去し、前記ノイズを除去した音声情報を第2の音声情報として出力するノイズ除去処理部と、
前記音声取得部によって取得された前記第1の音声情報をサーバへ送信し、前記サーバにおいて前記第1の除去方式により前記第1の音声情報から除去されるノイズの量よりもより多くの量のノイズを前記第1の音声情報から除去する第2の除去方式を用いて前記第1の音声情報に含まれるノイズが除去された第3の音声情報を前記サーバから受信する通信部と、
前記ノイズ除去処理部によって出力された前記第2の音声情報に対して音声認識を行い、音声認識結果を第1の音声認識結果情報として出力するとともに、前記通信部によって受信された前記第3の音声情報に対して音声認識を行い、音声認識結果を第2の音声認識結果情報として出力する音声認識部と、
前記音声認識部によって出力された前記第1の音声認識結果情報と前記第2の音声認識結果情報とのうちのいずれを出力するかを選択する調停部と、
前記音声取得部によって取得された前記第1の音声情報におけるユーザが発話した発話区間を検出する発話区間検出部と、
を備え、
前記発話区間検出部によって前記発話区間が検出されない場合、前記ノイズ除去処理部は、前記第1の音声情報に含まれるノイズを除去しないとともに、前記第2の音声情報を出力せず、
前記通信部は、前記第1の音声情報をサーバへ送信せず、
前記音声認識部は、前記第1の音声認識結果情報の尤もらしさを示す第1の尤度を算出し、算出した前記第1の尤度を前記調停部に出力し、
前記音声認識部は、前記第2の音声認識結果情報の尤もらしさを示す第2の尤度を算出し、算出した前記第2の尤度を前記調停部に出力し、
前記調停部は、前記第1の音声認識結果情報と前記第2の音声認識結果情報とのうちのいずれを出力するかを、前記第1の尤度及び前記第2の尤度の少なくとも1つに基づいて選択する、
音声認識装置。 - 通信部、ノイズ除去処理部、音声認識部、調停部及び発話区間検出部を備え、端末によって取得された音声情報に対して音声認識を行うサーバにおける音声認識方法であって、
前記通信部が、前記端末によって取得された第1の音声情報を受信し、
前記ノイズ除去処理部が、受信した前記第1の音声情報に含まれるノイズを第1の除去方式を用いて除去し、前記ノイズを除去した音声情報を第2の音声情報として出力し、
前記音声認識部が、前記第2の音声情報に対して音声認識を行い、音声認識結果を第1の音声認識結果情報として出力し、
前記通信部が、前記端末において、前記第1の除去方式により前記第1の音声情報から除去されるノイズの量よりも少ない量のノイズを除去する第2の除去方式を用いて前記第1の音声情報に含まれるノイズが除去され、前記ノイズが除去された第3の音声情報に対して音声認識が行われた結果である、音声認識結果を第2の音声認識結果情報として前記端末から受信し、
前記調停部が、前記第1の音声認識結果情報と前記第2の音声認識結果情報とのうちのいずれを出力するかを選択し、
前記発話区間検出部が、前記通信部によって受信された前記第1の音声情報におけるユーザが発話した発話区間を検出し、
前記発話区間検出部によって前記発話区間が検出されない場合、前記ノイズ除去処理部が、前記第1の音声情報に含まれるノイズを除去しないとともに、前記第2の音声情報を出力せず、
前記音声認識部が、前記第1の音声認識結果情報の尤もらしさを示す第1の尤度を算出し、算出した前記第1の尤度を前記調停部に出力し、
前記通信部が、前記端末によって算出された前記第2の音声認識結果情報の尤もらしさを示す第2の尤度を受信し、受信した前記第2の尤度を前記調停部に出力し、
前記調停部が、前記第1の音声認識結果情報と前記第2の音声認識結果情報とのうちのいずれを出力するかを、前記第1の尤度及び前記第2の尤度の少なくとも1つに基づいて選択する、
音声認識方法。 - 第1の音声情報を取得する音声取得部と、
前記音声取得部によって取得された前記第1の音声情報に含まれるノイズを第1の除去方式を用いて除去し、前記ノイズを除去した音声情報を第2の音声情報として出力するノイズ除去処理部と、
前記音声取得部によって取得された前記第1の音声情報をサーバへ送信し、前記サーバにおいて前記第1の除去方式により前記第1の音声情報から除去されるノイズの量よりもより多くの量のノイズを前記第1の音声情報から除去する第2の除去方式を用いて前記第1の音声情報に含まれるノイズが除去された第3の音声情報を前記サーバから受信する通信部と、
前記ノイズ除去処理部によって出力された前記第2の音声情報に対して音声認識を行い、音声認識結果を第1の音声認識結果情報として出力するとともに、前記通信部によって受信された前記第3の音声情報に対して音声認識を行い、音声認識結果を第2の音声認識結果情報として出力する音声認識部と、
前記音声認識部によって出力された前記第1の音声認識結果情報と前記第2の音声認識結果情報とのうちのいずれを出力するかを選択する調停部と、
前記音声取得部によって取得された前記第1の音声情報におけるユーザが発話した発話区間を検出する発話区間検出部と、
前記発話区間検出部によって前記発話区間が検出された場合に、前記発話区間検出部において検出された発話区間の継続時間である発話継続時間を測定する発話継続時間測定部と、
を備え、
前記発話区間検出部によって前記発話区間が検出されない場合、前記ノイズ除去処理部は、前記第1の音声情報に含まれるノイズを除去しないとともに、前記第2の音声情報を出力せず、
前記通信部は、前記第1の音声情報をサーバへ送信せず、
前記発話区間検出部によって前記発話区間が検出された場合、前記ノイズ除去処理部は、前記第1の音声情報に含まれるノイズを除去し、
前記通信部は、前記発話区間内における前記第1の音声情報を前記サーバへ送信し、
前記調停部は、前記音声認識部によって出力された前記第1の音声認識結果情報と前記第2の音声認識結果情報とのうちのいずれを出力するかを、少なくとも前記発話継続時間の長さに関する情報を用いて選択する、
音声認識装置。 - 通信部、ノイズ除去処理部、音声認識部、調停部、発話区間検出部及び発話継続時間測定部を備え、端末によって取得された音声情報に対して音声認識を行うサーバにおける音声認識方法であって、
前記通信部が、前記端末によって取得された第1の音声情報を受信し、
前記ノイズ除去処理部が、受信した前記第1の音声情報に含まれるノイズを第1の除去方式を用いて除去し、前記ノイズを除去した音声情報を第2の音声情報として出力し、
前記音声認識部が、前記第2の音声情報に対して音声認識を行い、音声認識結果を第1の音声認識結果情報として出力し、
前記通信部が、前記端末において、前記第1の除去方式により前記第1の音声情報から除去されるノイズの量よりも少ない量のノイズを除去する第2の除去方式を用いて前記第1の音声情報に含まれるノイズが除去され、前記ノイズが除去された第3の音声情報に対して音声認識が行われた結果である、音声認識結果を第2の音声認識結果情報として前記端末から受信し、
前記調停部が、前記第1の音声認識結果情報と前記第2の音声認識結果情報とのうちのいずれを出力するかを選択し、
前記発話区間検出部が、前記通信部によって受信された前記第1の音声情報におけるユーザが発話した発話区間を検出し、
前記発話継続時間測定部が、前記発話区間検出部によって前記発話区間が検出された場合に、前記発話区間検出部において検出された発話区間の継続時間である発話継続時間を測定し、
前記発話区間検出部によって前記発話区間が検出されない場合、前記ノイズ除去処理部が、前記第1の音声情報に含まれるノイズを除去しないとともに、前記第2の音声情報を出力せず、
前記発話区間検出部によって前記発話区間が検出された場合、前記ノイズ除去処理部が、前記第1の音声情報に含まれるノイズを除去し、
前記調停部が、前記音声認識部によって出力された前記第1の音声認識結果情報と前記第2の音声認識結果情報とのうちのいずれを出力するかを、少なくとも前記発話継続時間の長さに関する情報を用いて選択する、
音声認識方法。 - 第1の音声情報を取得する音声取得部と、
前記音声取得部によって取得された前記第1の音声情報に含まれるノイズを第1の除去方式を用いて除去し、前記ノイズを除去した音声情報を第2の音声情報として出力するノイズ除去処理部と、
前記音声取得部によって取得された前記第1の音声情報をサーバへ送信し、前記サーバにおいて前記第1の除去方式により前記第1の音声情報から除去されるノイズの量よりもより多くの量のノイズを前記第1の音声情報から除去する第2の除去方式を用いて前記第1の音声情報に含まれるノイズが除去された第3の音声情報を前記サーバから受信する通信部と、
前記ノイズ除去処理部によって出力された前記第2の音声情報に対して音声認識を行い、音声認識結果を第1の音声認識結果情報として出力するとともに、前記通信部によって受信された前記第3の音声情報に対して音声認識を行い、音声認識結果を第2の音声認識結果情報として出力する音声認識部と、
前記音声認識部によって出力された前記第1の音声認識結果情報と前記第2の音声認識結果情報とのうちのいずれを出力するかを選択する調停部と、
を備え、
前記通信部は、前記サーバにおいて、前記第3の音声情報に対して音声認識が行われた結果である、音声認識結果を第3の音声認識結果情報として前記サーバから受信し、受信した前記第3の音声認識結果情報を前記調停部へ出力し、
前記通信部は、前記ノイズ除去処理部によって出力された前記第2の音声情報を前記サーバへ送信し、前記第2の音声情報に対して音声認識が行われた音声認識結果を第4の音声認識結果情報として前記サーバから受信し、受信した前記第4の音声認識結果情報を前記調停部へ出力し、
前記調停部は、前記音声認識部によって出力された前記第1の音声認識結果情報と、前記音声認識部によって出力された前記第2の音声認識結果情報と、前記通信部によって受信された前記第3の音声認識結果情報と、前記通信部によって受信された前記第4の音声認識結果情報とのうちのいずれを出力するかを選択する、
音声認識装置。 - 通信部、ノイズ除去処理部、音声認識部及び調停部を備え、端末によって取得された音声情報に対して音声認識を行うサーバにおける音声認識方法であって、
前記通信部が、前記端末によって取得された第1の音声情報を受信し、
前記ノイズ除去処理部が、受信した前記第1の音声情報に含まれるノイズを第1の除去方式を用いて除去し、前記ノイズを除去した音声情報を第2の音声情報として出力し、
前記音声認識部が、前記第2の音声情報に対して音声認識を行い、音声認識結果を第1の音声認識結果情報として出力し、
前記通信部が、前記端末において、前記第1の除去方式により前記第1の音声情報から除去されるノイズの量よりも少ない量のノイズを除去する第2の除去方式を用いて前記第1の音声情報に含まれるノイズが除去され、前記ノイズが除去された第3の音声情報に対して音声認識が行われた結果である、音声認識結果を第2の音声認識結果情報として前記端末から受信し、
前記調停部が、前記第1の音声認識結果情報と前記第2の音声認識結果情報とのうちのいずれを出力するかを選択し、
前記通信部が、前記第2の音声情報を前記端末へ送信し、
前記通信部が、前記端末において、前記第2の除去方式を用いて前記第2の音声情報に含まれるノイズが除去され、前記ノイズが除去された第4の音声情報に対して音声認識が行われた結果である、音声認識結果を第3の音声認識結果情報として前記端末から受信し、
前記通信部が、前記第3の音声情報を前記端末から受信し、受信した前記第3の音声情報を前記音声認識部へ出力し、
前記音声認識部が、前記通信部によって受信された前記第3の音声情報に対して音声認識を行い、音声認識結果を第4の音声認識結果情報として出力し、
前記調停部が、前記音声認識部によって出力された前記第1の音声認識結果情報と、前記通信部によって受信された前記第2の音声認識結果情報と、前記通信部によって受信された前記第3の音声認識結果情報と、前記音声認識部によって出力された前記第4の音声認識結果情報とのうちのいずれを出力するかを選択する、
音声認識方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014266033 | 2014-12-26 | ||
JP2014266033 | 2014-12-26 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016126330A JP2016126330A (ja) | 2016-07-11 |
JP6754184B2 true JP6754184B2 (ja) | 2020-09-09 |
Family
ID=56164968
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015239951A Active JP6754184B2 (ja) | 2014-12-26 | 2015-12-09 | 音声認識装置及び音声認識方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US9966077B2 (ja) |
JP (1) | JP6754184B2 (ja) |
CN (1) | CN105741836B (ja) |
Families Citing this family (48)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US10417037B2 (en) | 2012-05-15 | 2019-09-17 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
KR20150104615A (ko) | 2013-02-07 | 2015-09-15 | 애플 인크. | 디지털 어시스턴트를 위한 음성 트리거 |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US9257120B1 (en) | 2014-07-18 | 2016-02-09 | Google Inc. | Speaker verification using co-location information |
US9318107B1 (en) | 2014-10-09 | 2016-04-19 | Google Inc. | Hotword detection on multiple devices |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US20170032783A1 (en) * | 2015-04-01 | 2017-02-02 | Elwha Llc | Hierarchical Networked Command Recognition |
US10460227B2 (en) | 2015-05-15 | 2019-10-29 | Apple Inc. | Virtual assistant in a communication session |
US20160378747A1 (en) | 2015-06-29 | 2016-12-29 | Apple Inc. | Virtual assistant for media playback |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
KR20180022021A (ko) * | 2016-08-23 | 2018-03-06 | 삼성전자주식회사 | 음성 인식 방법 및 이를 수행하는 전자 장치 |
US9972320B2 (en) | 2016-08-24 | 2018-05-15 | Google Llc | Hotword detection on multiple devices |
WO2018085192A1 (en) | 2016-11-07 | 2018-05-11 | Google Llc | Recorded media hotword trigger suppression |
JP6751658B2 (ja) | 2016-11-15 | 2020-09-09 | クラリオン株式会社 | 音声認識装置、音声認識システム |
EP3343951A1 (en) * | 2016-12-27 | 2018-07-04 | GN Hearing A/S | Sound signal modelling based on recorded object sound |
KR20240008405A (ko) | 2017-04-20 | 2024-01-18 | 구글 엘엘씨 | 장치에 대한 다중 사용자 인증 |
DK180048B1 (en) | 2017-05-11 | 2020-02-04 | Apple Inc. | MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION |
DK201770429A1 (en) | 2017-05-12 | 2018-12-14 | Apple Inc. | LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK201770411A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | MULTI-MODAL INTERFACES |
CN111742362B (zh) | 2018-01-23 | 2024-04-09 | 谷歌有限责任公司 | 在调用短语检测中选择性地适配和利用噪声降低技术 |
US10928918B2 (en) | 2018-05-07 | 2021-02-23 | Apple Inc. | Raise to speak |
US11145294B2 (en) | 2018-05-07 | 2021-10-12 | Apple Inc. | Intelligent automated assistant for delivering content from user experiences |
DK180639B1 (en) | 2018-06-01 | 2021-11-04 | Apple Inc | DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT |
JP2021156907A (ja) * | 2018-06-15 | 2021-10-07 | ソニーグループ株式会社 | 情報処理装置および情報処理方法 |
US11462215B2 (en) | 2018-09-28 | 2022-10-04 | Apple Inc. | Multi-modal inputs for voice commands |
WO2020096218A1 (en) * | 2018-11-05 | 2020-05-14 | Samsung Electronics Co., Ltd. | Electronic device and operation method thereof |
US11348573B2 (en) | 2019-03-18 | 2022-05-31 | Apple Inc. | Multimodality in digital assistant systems |
JP7278830B2 (ja) * | 2019-03-27 | 2023-05-22 | 本田技研工業株式会社 | 端末装置、端末装置の制御方法、およびプログラム |
DK201970509A1 (en) * | 2019-05-06 | 2021-01-15 | Apple Inc | Spoken notifications |
US11307752B2 (en) | 2019-05-06 | 2022-04-19 | Apple Inc. | User configurable task triggers |
US11140099B2 (en) | 2019-05-21 | 2021-10-05 | Apple Inc. | Providing message response suggestions |
JP6735392B1 (ja) * | 2019-05-23 | 2020-08-05 | 西日本電信電話株式会社 | 音声テキスト化装置、音声テキスト化方法及び音声テキスト化プログラム |
JP7404657B2 (ja) * | 2019-05-28 | 2023-12-26 | 沖電気工業株式会社 | 音声認識装置、音声認識プログラム、及び音声認識方法 |
US11227599B2 (en) | 2019-06-01 | 2022-01-18 | Apple Inc. | Methods and user interfaces for voice-based control of electronic devices |
US11061543B1 (en) | 2020-05-11 | 2021-07-13 | Apple Inc. | Providing relevant data items based on context |
US11183193B1 (en) | 2020-05-11 | 2021-11-23 | Apple Inc. | Digital assistant hardware abstraction |
US11490204B2 (en) | 2020-07-20 | 2022-11-01 | Apple Inc. | Multi-device audio adjustment coordination |
US11438683B2 (en) | 2020-07-21 | 2022-09-06 | Apple Inc. | User identification using headphones |
EP4075214A1 (de) * | 2021-04-15 | 2022-10-19 | Dematic GmbH | Verfahren zur wartung von anlagen, insbesondere maschinen in warenlagern |
CN116112600A (zh) * | 2021-11-10 | 2023-05-12 | 荣耀终端有限公司 | 通话音量的调节方法、电子设备及存储介质 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TW347503B (en) * | 1995-11-15 | 1998-12-11 | Hitachi Ltd | Character recognition translation system and voice recognition translation system |
WO2009150894A1 (ja) * | 2008-06-10 | 2009-12-17 | 日本電気株式会社 | 音声認識システム、音声認識方法および音声認識用プログラムが格納された記憶媒体 |
JP5916054B2 (ja) * | 2011-06-22 | 2016-05-11 | クラリオン株式会社 | 音声データ中継装置、端末装置、音声データ中継方法、および音声認識システム |
JP5658641B2 (ja) * | 2011-09-15 | 2015-01-28 | 株式会社Nttドコモ | 端末装置、音声認識プログラム、音声認識方法および音声認識システム |
JP5810903B2 (ja) * | 2011-12-27 | 2015-11-11 | 富士通株式会社 | 音声処理装置、音声処理方法及び音声処理用コンピュータプログラム |
JP5821639B2 (ja) * | 2012-01-05 | 2015-11-24 | 株式会社デンソー | 音声認識装置 |
JP5887162B2 (ja) * | 2012-02-23 | 2016-03-16 | 株式会社Nttドコモ | 通信端末、制御方法及びプログラム |
CN103928026B (zh) * | 2014-05-12 | 2017-04-12 | 安徽江淮汽车集团股份有限公司 | 一种汽车语音指令采集处理***及方法 |
US9830925B2 (en) * | 2014-10-22 | 2017-11-28 | GM Global Technology Operations LLC | Selective noise suppression during automatic speech recognition |
-
2015
- 2015-12-09 JP JP2015239951A patent/JP6754184B2/ja active Active
- 2015-12-15 US US14/969,479 patent/US9966077B2/en active Active
- 2015-12-17 CN CN201510955225.7A patent/CN105741836B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
US20160189715A1 (en) | 2016-06-30 |
JP2016126330A (ja) | 2016-07-11 |
CN105741836A (zh) | 2016-07-06 |
CN105741836B (zh) | 2020-09-01 |
US9966077B2 (en) | 2018-05-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6754184B2 (ja) | 音声認識装置及び音声認識方法 | |
US11250843B2 (en) | Speech recognition method and speech recognition device | |
US8762144B2 (en) | Method and apparatus for voice activity detection | |
KR101622111B1 (ko) | 대화 시스템 및 그의 대화 방법 | |
EP3210205B1 (en) | Sound sample verification for generating sound detection model | |
KR100826875B1 (ko) | 온라인 방식에 의한 화자 인식 방법 및 이를 위한 장치 | |
KR101616054B1 (ko) | 음성 검출 장치 및 방법 | |
JP7288143B2 (ja) | キーワード適合を伴うカスタマイズ可能なキーワードスポッティングシステム | |
US11393459B2 (en) | Method and apparatus for recognizing a voice | |
JP6654611B2 (ja) | 成長型対話装置 | |
JP7143916B2 (ja) | 情報処理装置、情報処理方法、及び、プログラム | |
JP6585112B2 (ja) | 音声キーワード検出装置および音声キーワード検出方法 | |
US11705105B2 (en) | Speech synthesizer for evaluating quality of synthesized speech using artificial intelligence and method of operating the same | |
US9595261B2 (en) | Pattern recognition device, pattern recognition method, and computer program product | |
US20200219487A1 (en) | Information processing apparatus and information processing method | |
KR20150145024A (ko) | 화자적응 음성인식 시스템의 단말 및 서버와 그 운용 방법 | |
CN112002349B (zh) | 一种语音端点检测方法及装置 | |
CN110728993A (zh) | 一种变声识别方法及电子设备 | |
US20210065684A1 (en) | Information processing apparatus, keyword detecting apparatus, and information processing method | |
JP6427807B2 (ja) | 物体認証装置および物体認証方法 | |
KR101840363B1 (ko) | 오류 발음 검출을 위한 단말 및 음성 인식 장치, 그리고 그의 음향 모델 학습 방법 | |
CN115104151A (zh) | 一种离线语音识别方法和装置、电子设备和可读存储介质 | |
CN115691478A (zh) | 语音唤醒方法、装置、人机交互设备和存储介质 | |
JP2015203813A (ja) | 音声処理装置、音声処理方法、音声処理プログラム、及び、話者認識システム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180912 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20190924 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20191121 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20200507 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200618 |
|
A911 | Transfer of reconsideration by examiner before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20200629 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200811 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200821 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6754184 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |