JP7429107B2 - 音声翻訳装置、音声翻訳方法及びそのプログラム - Google Patents
音声翻訳装置、音声翻訳方法及びそのプログラム Download PDFInfo
- Publication number
- JP7429107B2 JP7429107B2 JP2019196078A JP2019196078A JP7429107B2 JP 7429107 B2 JP7429107 B2 JP 7429107B2 JP 2019196078 A JP2019196078 A JP 2019196078A JP 2019196078 A JP2019196078 A JP 2019196078A JP 7429107 B2 JP7429107 B2 JP 7429107B2
- Authority
- JP
- Japan
- Prior art keywords
- speech
- speaker
- voice
- language
- section
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013519 translation Methods 0.000 title claims description 366
- 238000000034 method Methods 0.000 title claims description 55
- 238000012545 processing Methods 0.000 claims description 49
- 238000001514 detection method Methods 0.000 claims description 47
- 230000008569 process Effects 0.000 description 30
- 230000000694 effects Effects 0.000 description 18
- 230000004048 modification Effects 0.000 description 18
- 238000012986 modification Methods 0.000 description 18
- 238000010586 diagram Methods 0.000 description 17
- 238000004364 calculation method Methods 0.000 description 12
- 238000005265 energy consumption Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 238000004590 computer program Methods 0.000 description 4
- 230000035945 sensitivity Effects 0.000 description 4
- 239000000470 constituent Substances 0.000 description 3
- 230000005236 sound signal Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/005—Language recognition
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S3/00—Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received
- G01S3/80—Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using ultrasonic, sonic or infrasonic waves
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/225—Feedback of the input speech
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- General Physics & Mathematics (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Machine Translation (AREA)
- Circuit For Audible Band Transducer (AREA)
Description
<構成:音声翻訳装置1>
図1Aは、実施の形態1における音声翻訳装置1の外観と、第1話者が発話したときの第1話者と第2話者との音声翻訳装置1の使用場面の一例を示す図である。図1Bは、実施の形態1における音声翻訳装置1の外観と、第2話者が発話したときの第1話者と第2話者との音声翻訳装置1の使用場面の一例を示す図である。
音声入力部21は、第1話者と第2話者とが会話する際の音声が入力されるマイクロフォンであり、音声検出部22と通信可能に接続される。つまり、音声入力部21は、音を取得(収音)し、取得した音から電気信号に変換し、変換した電気信号である音響信号を音声検出部22に出力する。なお、音声入力部21が取得した音響信号を記憶部等に記憶してもよい。
音声検出部22は、音声入力部21に入力される音から、第1話者及び第2話者が発話した音声区間を検出する装置であり、音声入力部21及び音声認識部23と通信可能に接続される。具体的には、音声検出部22は、音声入力部21から取得した音響信号に示される音量から、音量が大きくなった瞬間と、音量が小さくなった瞬間とを音声の区切り目とみなし、音響信号における音声区間の開始時点及び終了時点を検出(終話検出)する。ここで、音声区間は、話者の発話による一話ごとの音声を示すが、一話の音声における開始地点から終了地点までの期間を含んでいてもよい。
発話指示部25は、第1話者の発話後に第2話者に発話を促す内容を、表示部27を介して第2言語により出力し、かつ、第2話者の発話後に第1話者に発話を促す内容を第1言語により出力する装置である。つまり、発話指示部25は、第1話者と第2話者とが会話できるように、それぞれのタイミングで第1話者又は第2話者に発話を促す内容である発話指示テキスト情報を表示部27に出力する。また、発話指示部25は、第1話者又は第2話者に発話を促す内容である発話指示音声情報を音声出力部28に出力する。この場合、発話指示部25は、表示部27に出力する発話指示テキスト情報に示される内容と同様の内容である発話指示音声情報を音声出力部28に出力する。なお、発話指示部25は、発話指示音声情報を音声出力部28に出力しなくてもよく、音声による発話を促す内容を出力することは必須ではない。
優先発話入力部24は、第1話者又は第2話者が発話して音声認識された場合、再度、当該発話した第1話者又は第2話者の発話を優先して(又は連続して)音声認識部23に音声認識させることができる装置である。つまり、優先発話入力部24は、直近に発話した話者であって発話した音声が音声認識された話者に対して、再度、発話した第1話者又は第2話者に発話を行う機会を与えることができる。言い換えれば、優先発話入力部24は、第1話者及び第2話者の一方の話者が発話した音声を音声認識し終えて、他方の話者の音声を音声認識するための処理に移行しても、一方の話者が発話する音声を音声認識する処理に戻すことができる。
音声認識部23は、音声検出部22が検出した音声区間の音声を音声認識することで、テキスト文に変換する。具体的には、音声認識部23は、音声検出部22が検出した音声情報を取得すると、音声情報に示される音声を音声認識する。例えば、音声情報に示される音声が第1言語である場合、当該音声を第1言語で音声認識し、音声情報に示される音声が第2言語である場合、当該音声を第2言語で音声認識する。音声認識部23は、第1言語で音声を音声認識した場合、音声認識した音声の内容を示す第1テキスト文を生成し、生成した第1テキスト文を翻訳部26に出力する。また、音声認識部23は、第2言語で音声を音声認識した場合、音声認識した音声の内容を示す第2テキスト文を生成し、生成した第2テキスト文を翻訳部26に出力する。
翻訳部26は、音声認識部23が変換したテキスト文を第1言語から第2言語に翻訳し、かつ、第2言語から第1言語に翻訳する翻訳装置である。具体的には、翻訳部26は、音声認識部23からテキスト文である第1テキスト文を取得すると、第1言語から第2言語に翻訳する。つまり、翻訳部26は、第1テキスト文を第2言語に翻訳した第2翻訳テキスト文を生成する。また、翻訳部26は、音声認識部23からテキスト文である第2テキスト文を取得すると、第2言語から第1言語に翻訳する。つまり、翻訳部26は、第2テキスト文を第1言語に翻訳した第1翻訳テキスト文を生成する。
表示部27は、例えば、液晶パネル、又は、有機ELパネル等のモニタであり、発話指示部25及び翻訳部26と通信可能に接続される。具体的には、表示部27は、音声検出部22が検出した音声区間の音声が音声認識されることで、当該音声が示す第1言語から第2言語に翻訳した翻訳結果を表示し、かつ、第2言語から第1言語に翻訳した翻訳結果を表示するモニタである。表示部27は、翻訳部26から取得した第1テキスト文、第2テキスト文、第1翻訳テキスト文及び第2翻訳テキスト文を表示する。また、表示部27は、これらのテキスト文を表示した後又は同時に、第1話者又は第2話者に発話を促す内容である発話指示テキスト情報を表示する。
音声出力部28は、翻訳部26が翻訳した結果である翻訳音声を翻訳部26から取得し、取得した翻訳音声を出力するスピーカであり、翻訳部26及び発話指示部25と通信可能に接続される。つまり、音声出力部28は、第1話者が発話した場合、表示部27に表示される第2翻訳テキスト文と同様の内容の翻訳音声を再生して出力する。また、音声出力部28は、第2話者が発話した場合、表示部27に表示される第1翻訳テキスト文と同様の内容の翻訳音声を再生して出力する。
電源部29は、例えば一次電池又は二次電池等であり、配線を介して音声入力部21、音声検出部22、優先発話入力部24、発話指示部25、音声認識部23、翻訳部26、表示部27及び音声出力部28等と電気的に接続される。電源部29は、音声検出部22、優先発話入力部24、発話指示部25、音声認識部23、翻訳部26、表示部27及び音声出力部28等に電力を供給する。
以上のように構成される音声翻訳装置1が行う動作について、図3を用いて説明する。
次に、本実施の形態における音声翻訳装置1の作用効果について説明する。
<構成>
本実施の形態の音声翻訳装置1aの構成を、図4を用いて説明する。
複数の音声入力部21は、マイクロフォンアレイを構成する。具体的には、マイクロフォンアレイは、互いに離間して配置された2以上のマイクロフォンユニットからなり、音声を取得し、取得した音声から電気信号に変換した音響信号を取得する。
音源方向推定部31は、複数の音声入力部21に入力される音声を信号処理することにより、音源方向を推定する。具体的には、音源方向推定部31は、音声検出部22からの音声情報と、複数の音声入力部21からの音響信号とを取得すると、マイクロフォンアレイを構成する複数の音声入力部21のそれぞれに到達した音声の時間差(位相差)を算出し、例えば遅延時間推定法等により音源方向を推定する。つまり、音声検出部22が音声区間を検出できれば、第1話者又は第2話者の音声が音声入力部21に入力されたことを意味するため、音源方向推定部31は、音声情報の取得をトリガとして、音源方向の推定を開始する。
発話指示部25は、表示部27に表示させる態様を制御する制御部31aを有する。具体的には、制御部31aは、音声翻訳装置1aに対する第1話者の位置に対応する表示部27の表示領域に第1言語を表示させ、音声翻訳装置1aに対する第2話者の位置に対応する表示部27の表示領域に第2言語を表示させる。例えば、図1Aに示すように、第1話者の位置に対応する表示部27の表示領域は、日本語で表示されている第1話者側の表示部27の表示領域である。また、第2話者の位置に対応する表示部27の表示領域は、英語で表示されている第2話者側の表示部27の表示領域である。
以上のように構成される音声翻訳装置1aが行う動作について、図5を用いて説明する。
次に、本実施の形態における音声翻訳装置1aの作用効果について説明する。
本変形例における他の構成は、特に明記しない場合は、実施の形態1と同様であり、同一の構成については同一の符号を付して構成に関する詳細な説明を省略する。
<構成>
本実施の形態の音声翻訳装置1bの構成を、図7を用いて説明する。
複数の音声入力部21は、マイクロフォンアレイを構成する。複数の音声入力部21のそれぞれは、取得した音響信号を第1ビームフォーマ部41及び第2ビームフォーマ部42に出力する。本実施の形態では、2つの音声入力部21を用いている例を示す。
第1ビームフォーマ部41は、複数の音声入力部21のうちの少なくとも一部の音声入力部21に入力される音声の音響信号を信号処理することにより、第1話者による音声の音源方向に収音の指向性を制御する。また、第2ビームフォーマ部42は、複数の音声入力部21のうちの少なくとも一部の音声入力部21に入力される音声の音響信号を信号処理することにより、第2話者による音声の音源方向に収音の指向性を制御する。本実施の形態では、第1ビームフォーマ部41及び第2ビームフォーマ部42は、複数の音声入力部21のそれぞれから取得した音響信号を信号処理する。
発話指示部25は、入力切換部32に、第1ビームフォーマ部41の出力信号を取得するか、第2ビームフォーマ部42の出力信号を取得するかを切換えさせる。具体的には、発話指示部25は、音源方向推定部31から推定した結果である音源方向を示す音源方向情報を取得すると、音源方向情報に示される音源方向と、ビームフォーマ部の収音の指向性である所定方向とを比較する。発話指示部25は、音源方向と所定方向とが実質的に一致する又は近しい方向のビームフォーマ部を選択する。
入力切換部32は、第1ビームフォーマ部41の出力信号、及び、第2ビームフォーマ部42の出力信号を取得し、音声検出部22に出力する出力信号を切換える装置である。入力切換部32は、取得する信号を、第1ビームフォーマ部41の出力信号、又は、第2ビームフォーマ部42の出力信号に切換える。具体的には、入力切換部32は、発話指示部25からの切換コマンドを取得することで、第1ビームフォーマ部41の出力信号から第2ビームフォーマ部42の出力信号、又は、第2ビームフォーマ部42の出力信号から第1ビームフォーマ部41の出力信号に切換える。入力切換部32は、切換コマンドによって、第1ビームフォーマ部41の出力信号を音声検出部22に出力したり、第2ビームフォーマ部42の出力信号を音声検出部22に出力したりする。
以上のように構成される音声翻訳装置1bが行う動作について説明する。
次に、本実施の形態における音声翻訳装置1bの作用効果について説明する。
本変形例の音声翻訳装置1cを、図9を用いて説明する。
<構成>
本実施の形態の音声翻訳装置1dの構成を、図10を用いて説明する。
スコア算出部43は、音声を音声認識した結果、及び、当該結果の信頼性スコアを算出し、算出した信頼性スコアを、発話指示部25に出力する。信頼性スコアは、音声検出部22から取得した音声情報に示される音声を音声認識したときの、音声認識の精度(類似度)を示す。例えば、スコア算出部43は、音声情報に示される音声を変換したテキスト文と、音声情報に示される音声とを比較し、テキスト文と当該音声との類似度を表す信頼性スコアを算出する。
発話指示部25は、音声認識部23のスコア算出部43から取得した信頼性スコアを評価することで、音声認識の精度を判定する。具体的には、発話指示部25は、音声認識部23のスコア算出部43から取得した信頼性スコアが閾値以下であるかどうかを判定する。発話指示部25は、信頼性スコアが閾値以下の場合、信頼性スコアが閾値以下の音声の翻訳を行わずに、発話を促す内容を、表示部27及び音声出力部28の少なくともいずれかを介して出力する。発話指示部25は、信頼性スコアが閾値よりも高い場合、音声の翻訳を行う。
以上のように構成される音声翻訳装置1dが行う動作について説明する。
次に、本実施の形態における音声翻訳装置1dの作用効果について説明する。
以上、本開示について、実施の形態1~4及び実施の形態2、4に基づいて説明したが、本開示は、これら実施の形態1~4及び実施の形態2、4等に限定されるものではない。
21 音声入力部
22 音声検出部
23 音声認識部
24 優先発話入力部
25 発話指示部
26 翻訳部
27 表示部
28 音声出力部
31 音源方向推定部
31a 制御部
32 入力切換部
41 第1ビームフォーマ部
42 第2ビームフォーマ部
Claims (13)
- 第1言語で発話する第1話者と、前記第1話者の会話相手であり、前記第1言語と異なる第2言語で発話する第2話者とが会話を行うための音声翻訳装置であって、
音声入力部に入力される音から、前記第1話者及び前記第2話者が発話した音声区間を検出する音声検出部と、
前記音声検出部が検出した音声区間の音声が音声認識されることで、当該音声が示す前記第1言語から前記第2言語に翻訳した翻訳結果を表示し、かつ、前記第2言語から前記第1言語に翻訳した翻訳結果を表示する表示部と、
前記第1話者の発話後に前記第2話者に発話を促す内容を、前記表示部を介して、翻訳結果を表示した後、又は同時に、前記第2言語により出力し、かつ、前記第2話者の発話後に前記第1話者に発話を促す内容を、前記表示部を介して、翻訳結果を表示した後、又は同時に、前記第1言語により出力する発話指示部とを備える
音声翻訳装置。 - さらに、前記第1話者又は前記第2話者が発話した音声が音声認識された場合、再度、当該音声認識された前記第1話者又は前記第2話者が発話する音声を、優先して音声認識する優先発話入力部を備える
請求項1に記載の音声翻訳装置。 - さらに、
前記第1話者と前記第2話者とが会話する音声が入力される音声入力部と、
前記音声検出部が検出した音声区間の音声を音声認識することで、テキスト文に変換する音声認識部と、
前記音声認識部が変換した前記テキスト文を前記第1言語から前記第2言語に翻訳し、かつ、前記第2言語から前記第1言語に翻訳する翻訳部と、
前記翻訳部が翻訳した結果を音声によって出力する音声出力部とを備える
請求項1又は2に記載の音声翻訳装置。 - 前記音声入力部は、複数設けられ、
さらに、
複数の前記音声入力部のうちの少なくとも一部の音声入力部に入力される音声を信号処理することにより、前記第1話者による音声の音源方向に収音の指向性を制御する第1ビームフォーマ部と、
複数の前記音声入力部のうちの少なくとも一部の音声入力部に入力される音声を信号処理することにより、前記第2話者による音声の音源方向に収音の指向性を制御する第2ビームフォーマ部と、
取得する信号を、前記第1ビームフォーマ部の出力信号、又は、前記第2ビームフォーマ部の出力信号に切換える入力切換部と、
複数の前記音声入力部に入力される音声を信号処理することにより、音源方向を推定する音源方向推定部とを備え、
前記発話指示部は、前記入力切換部に、前記第1ビームフォーマ部の出力信号を取得するか、前記第2ビームフォーマ部の出力信号を取得するかを切換えさせる
請求項3に記載の音声翻訳装置。 - 前記音声入力部は、複数設けられ、
さらに、
複数の前記音声入力部に入力される音声を信号処理することにより、音源方向を推定する音源方向推定部と、
当該音声翻訳装置に対する前記第1話者の位置に対応する前記表示部の表示領域に前記第1言語を表示させ、当該音声翻訳装置に対する前記第2話者の位置に対応する前記表示部の表示領域に前記第2言語を表示させる制御部とを備え、
前記制御部は、
当該音声翻訳装置の表示部から前記第1話者又は前記第2話者に向かう表示方向であって、前記表示部のいずれかの表示領域に表示する側の表示方向と、前記音源方向推定部が推定した音源方向とを比較し、
前記表示方向と推定した音源方向とが実質的に一致する場合、前記音声認識部及び前記翻訳部を実行させ、
前記表示方向と推定した音源方向とが異なる場合、前記音声認識部及び前記翻訳部を停止させる
請求項3に記載の音声翻訳装置。 - 前記制御部が前記音声認識部及び前記翻訳部を停止させる場合、前記発話指示部は、再度、指示した言語による発話を促す内容を出力する
請求項5に記載の音声翻訳装置。 - 前記表示方向と推定した音源方向とが異なる場合、前記発話指示部は、前記制御部が比較をしてから規定期間が経過した後に、再度、指示した言語による発話を促す内容を出力する
請求項5又は6に記載の音声翻訳装置。 - 前記音声入力部は、複数設けられ、
さらに、
複数の前記音声入力部のうちの少なくとも一部の音声入力部に入力される音声を信号処理することにより、前記第1話者による音声の音源方向に収音の指向性を制御する第1ビームフォーマ部と、
複数の前記音声入力部のうちの少なくとも一部の音声入力部に入力される音声を信号処理することにより、前記第2話者による音声の音源方向に収音の指向性を制御する第2ビームフォーマ部と、
前記第1ビームフォーマ部の出力信号、及び、前記第2ビームフォーマ部の出力信号を信号処理することにより、音源方向を推定する音源方向推定部とを備える
請求項3に記載の音声翻訳装置。 - 前記発話指示部は、
当該音声翻訳装置の起動時に、前記第1話者に発話を促す内容を、前記表示部を介して前記第1言語により出力し、
前記第1話者の発話による音声が前記第1言語から前記第2言語に翻訳されて、前記表示部に翻訳結果が表示された後に、前記第2話者に発話を促す内容を、前記表示部を介して前記第2言語により出力する
請求項1~8のいずれか1項に記載の音声翻訳装置。 - 前記発話指示部は、
翻訳開始後、発話を促すための音声を規定回数、前記音声出力部に出力させ、
前記規定回数の発話を促すための音声を出力した後に、発話を促すためのメッセージを前記表示部に出力させる
請求項3~8のいずれか1項に記載の音声翻訳装置。 - 前記音声認識部は、音声を音声認識した結果、及び、当該結果の信頼性スコアを出力し、
前記発話指示部は、前記音声認識部から取得した前記信頼性スコアが閾値以下の場合、前記信頼性スコアが閾値以下の音声の翻訳を行わずに、発話を促す内容を、前記表示部及び前記音声出力部の少なくともいずれかを介して出力する
請求項3~8のいずれか1項に記載の音声翻訳装置。 - 第1言語で発話する第1話者と、前記第1話者の会話相手であり、前記第1言語と異なる第2言語で発話する第2話者とが会話を行うための音声翻訳方法であって、
音声入力部に入力される音から、前記第1話者及び前記第2話者が発話した音声区間を検出することと、
検出した音声区間の音声を音声認識することで、当該音声が示す前記第1言語から前記第2言語に翻訳した翻訳結果を表示し、かつ、前記第2言語から前記第1言語に翻訳した翻訳結果を表示する表示部が表示することと、
前記第1話者の発話後に前記第2話者に発話を促す内容を、前記表示部を介して、翻訳結果を表示した後、又は同時に、前記第2言語により出力し、かつ、前記第2話者の発話後に前記第1話者に発話を促す内容を、前記表示部を介して、翻訳結果を表示した後、又は同時に、前記第1言語により出力することとを含む
音声翻訳方法。 - 請求項12に記載の音声翻訳方法をコンピュータに実行させるための
プログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010185150.XA CN111739511A (zh) | 2019-03-25 | 2020-03-17 | 语音翻译装置、语音翻译方法以及记录介质 |
US16/824,110 US11507759B2 (en) | 2019-03-25 | 2020-03-19 | Speech translation device, speech translation method, and recording medium |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201962823197P | 2019-03-25 | 2019-03-25 | |
US62/823,197 | 2019-03-25 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020160429A JP2020160429A (ja) | 2020-10-01 |
JP7429107B2 true JP7429107B2 (ja) | 2024-02-07 |
Family
ID=72643263
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019196078A Active JP7429107B2 (ja) | 2019-03-25 | 2019-10-29 | 音声翻訳装置、音声翻訳方法及びそのプログラム |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP7429107B2 (ja) |
CN (1) | CN111739511A (ja) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001100788A (ja) | 1999-09-30 | 2001-04-13 | Sony Corp | 音声処理装置および音声処理方法、並びに記録媒体 |
JP2002135642A (ja) | 2000-10-24 | 2002-05-10 | Atr Onsei Gengo Tsushin Kenkyusho:Kk | 音声翻訳システム |
JP2003288339A (ja) | 2001-01-24 | 2003-10-10 | Matsushita Electric Ind Co Ltd | 音声変換装置、音声変換方法、プログラム、及び媒体 |
JP2011248140A (ja) | 2010-05-27 | 2011-12-08 | Fujitsu Toshiba Mobile Communications Ltd | 音声認識装置 |
JP2018163581A (ja) | 2017-03-27 | 2018-10-18 | 株式会社リクルートライフスタイル | 音声翻訳装置、音声翻訳方法、及び音声翻訳プログラム |
-
2019
- 2019-10-29 JP JP2019196078A patent/JP7429107B2/ja active Active
-
2020
- 2020-03-17 CN CN202010185150.XA patent/CN111739511A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001100788A (ja) | 1999-09-30 | 2001-04-13 | Sony Corp | 音声処理装置および音声処理方法、並びに記録媒体 |
JP2002135642A (ja) | 2000-10-24 | 2002-05-10 | Atr Onsei Gengo Tsushin Kenkyusho:Kk | 音声翻訳システム |
JP2003288339A (ja) | 2001-01-24 | 2003-10-10 | Matsushita Electric Ind Co Ltd | 音声変換装置、音声変換方法、プログラム、及び媒体 |
JP2011248140A (ja) | 2010-05-27 | 2011-12-08 | Fujitsu Toshiba Mobile Communications Ltd | 音声認識装置 |
JP2018163581A (ja) | 2017-03-27 | 2018-10-18 | 株式会社リクルートライフスタイル | 音声翻訳装置、音声翻訳方法、及び音声翻訳プログラム |
Also Published As
Publication number | Publication date |
---|---|
CN111739511A (zh) | 2020-10-02 |
JP2020160429A (ja) | 2020-10-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20210210071A1 (en) | Methods and devices for selectively ignoring captured audio data | |
JP4837917B2 (ja) | 音声に基づく装置制御 | |
US9293134B1 (en) | Source-specific speech interactions | |
US10019992B2 (en) | Speech-controlled actions based on keywords and context thereof | |
US11217230B2 (en) | Information processing device and information processing method for determining presence or absence of a response to speech of a user on a basis of a learning result corresponding to a use situation of the user | |
JP3674990B2 (ja) | 音声認識対話装置および音声認識対話処理方法 | |
US9792901B1 (en) | Multiple-source speech dialog input | |
US10079021B1 (en) | Low latency audio interface | |
US11182567B2 (en) | Speech translation apparatus, speech translation method, and recording medium storing the speech translation method | |
US20180217985A1 (en) | Control method of translation device, translation device, and non-transitory computer-readable recording medium storing a program | |
US11507759B2 (en) | Speech translation device, speech translation method, and recording medium | |
EP1494208A1 (en) | Method for controlling a speech dialog system and speech dialog system | |
EP3654329B1 (en) | In-vehicle device and speech recognition method | |
JP7330066B2 (ja) | 音声認識装置、音声認識方法及びそのプログラム | |
JP6459330B2 (ja) | 音声認識装置、音声認識方法、及び音声認識プログラム | |
JP7287006B2 (ja) | 話者決定装置、話者決定方法、および話者決定装置の制御プログラム | |
JP7429107B2 (ja) | 音声翻訳装置、音声翻訳方法及びそのプログラム | |
JP2018116206A (ja) | 音声認識装置、音声認識方法及び音声認識システム | |
JP2010206365A (ja) | 対話装置 | |
JP3846500B2 (ja) | 音声認識対話装置および音声認識対話処理方法 | |
KR20180066513A (ko) | 자동 통역 방법 및 장치, 및 기계 번역 방법 | |
JP7172120B2 (ja) | 音声認識装置及び音声認識方法 | |
JP7449070B2 (ja) | 音声入力装置、音声入力方法及びそのプログラム | |
JP6748565B2 (ja) | 音声対話システム及び音声対話方法 | |
JP2020091435A (ja) | 音声認識システム、音声認識システムの通知方法、プログラム、及び移動体搭載機器 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220830 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230613 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230620 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20230817 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20231016 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240116 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240126 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 7429107 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |