JP7197259B2 - 情報処理方法、情報処理装置およびプログラム - Google Patents

情報処理方法、情報処理装置およびプログラム Download PDF

Info

Publication number
JP7197259B2
JP7197259B2 JP2017162841A JP2017162841A JP7197259B2 JP 7197259 B2 JP7197259 B2 JP 7197259B2 JP 2017162841 A JP2017162841 A JP 2017162841A JP 2017162841 A JP2017162841 A JP 2017162841A JP 7197259 B2 JP7197259 B2 JP 7197259B2
Authority
JP
Japan
Prior art keywords
speaker
utterance
language
translation
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017162841A
Other languages
English (en)
Other versions
JP2019040106A (ja
Inventor
美沙貴 辻川
剛樹 西川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Intellectual Property Corp of America
Original Assignee
Panasonic Intellectual Property Corp of America
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Intellectual Property Corp of America filed Critical Panasonic Intellectual Property Corp of America
Priority to JP2017162841A priority Critical patent/JP7197259B2/ja
Priority to US16/058,271 priority patent/US10664667B2/en
Priority to CN201810953465.7A priority patent/CN109426669B/zh
Publication of JP2019040106A publication Critical patent/JP2019040106A/ja
Application granted granted Critical
Publication of JP7197259B2 publication Critical patent/JP7197259B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/32Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/53Processing of non-Latin text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Artificial Intelligence (AREA)
  • Acoustics & Sound (AREA)
  • Machine Translation (AREA)

Description

本発明は、互いに異なる言語で行われる会話を翻訳する情報処理方法、情報処理装置およびプログラムに関する。
従来、第1話者と第2話者との間の会話を翻訳する翻訳装置が提供されている。第1話者と第2話者とは互いに異なる言語で会話する。例えば、第1話者は、第1言語である日本語で発話し、第2話者は、第2言語である英語で発話する。
このような場合、従来の翻訳装置は、発話ごとに、その発話の翻訳の言語を、ユーザのボタン操作などによって決定する。例えば、第1話者であるユーザは、発話するときには、翻訳装置のボタンを操作することによって、第1言語から第2言語への翻訳を選択する。また、第2話者が発話するときには、ユーザは、翻訳装置のボタンを操作することによって、第2言語から第1言語への翻訳を選択する。
したがって、第1話者および第2話者のそれぞれが発話するたびに、翻訳装置の操作を要するため、翻訳を伴う会話をスムースに行うことができないという問題がある。
また、特許文献1には、複数の話者の会話において、対話中の話者の組が交替したことを検出する話者交換検出装置が開示されている。さらに、特許文献2には、入力音声の到来方向を推定して高精度な音声認識を行う音声認識装置が提供されている。
特開2016-080916号公報 特開2014-048514号公報
しかしながら、上記特許文献1および特許文献2の技術を用いても、従来の翻訳装置では、翻訳を伴う会話をスムースに行うことができない。つまり、特許文献1では、対話中の話者の組が交替したことを検出するだけで、翻訳の言語を決定することができない。また、特許文献2では、入力音声の到来方向を音声認識に利用するため、話者の位置が固定されなければ、音声認識することができず、その結果、翻訳することができない。
そこで、本発明は、翻訳を伴う会話をスムースに行うことができる情報処理方法、情報処理装置およびプログラムを提供する。
本発明の一態様に係る情報処理方法は、第1言語で発話する第1話者と、第2言語で発話する第2話者との間の会話をコンピュータが翻訳する情報処理方法であって、前記第1話者の言語および前記第2話者の言語として設定された前記第1言語および前記第2言語を示す言語設定情報を生成し、ユーザによる操作に応じて、前記会話において最初に発話する話者として設定された前記第1話者を示す発話順情報を生成し、会話開始の操作を受け付け、前記操作の受け付け後の最初の発話である第1発話を取得し、前記発話順情報に基づいて、取得された前記第1発話の話者が前記第1話者であると判定し、取得された前記第1発話から、前記第1話者の発話の特徴量のモデルである第1話者モデルを生成し、前記言語設定情報および前記発話順情報に基づいて、取得された前記第1発話を前記第1言語から前記第2言語に翻訳し、第2発話を取得し、取得された前記第2発話の特徴量と前記第1話者モデルとを比較することによって、取得された前記第2発話の話者が前記第1話者であるか否かを認識し、前記第1話者であると認識された場合には、前記言語設定情報に基づいて、取得された前記第2発話を前記第1言語から前記第2言語に翻訳し、前記第1話者でないと認識された場合には、前記言語設定情報に基づいて、取得された前記第2発話を前記第2言語から前記第1言語に翻訳する
なお、これらの包括的または具体的な態様は、システム、方法、集積回路、コンピュータプログラムまたはコンピュータ読み取り可能なCD-ROMなどの記録媒体で実現されてもよく、システム、方法、集積回路、コンピュータプログラムおよび記録媒体の任意な組み合わせで実現されてもよい。
本発明の情報処理方法は、翻訳を伴う会話をスムースに行うことができる。
図1は、実施の形態1における翻訳装置の外観の一例を示す図である。 図2Aは、実施の形態1における翻訳装置の言語設定画面の一例を示す図である。 図2Bは、実施の形態1における翻訳装置のモデル準備画面の一例を示す図である。 図2Cは、実施の形態1における翻訳装置による会話の翻訳を開始させるための操作の一例を示す図である。 図3は、実施の形態1における、第1話者と第2話者との間の会話を翻訳装置100が翻訳している状況の一例を示す図である。 図4は、実施の形態1における翻訳装置の構成を示すブロック図である。 図5は、実施の形態1における翻訳装置の全体的な処理動作を示すフローチャートである。 図6Aは、図5の設定処理の詳細な動作を示すフローチャートである。 図6Bは、図5のモデル生成翻訳処理の詳細な動作を示すフローチャートである。 図6Cは、図5の定常翻訳処理の詳細な動作を示すフローチャートである。 図7は、実施の形態1の変形例1における翻訳装置の構成を示すブロック図である。 図8Aは、実施の形態1の変形例1におけるモデル生成翻訳処理の詳細な動作を示すフローチャートである。 図8Bは、実施の形態1の変形例1における定常翻訳処理の詳細な動作を示すフローチャートである。 図9は、実施の形態1の変形例2における翻訳装置の構成を示すブロック図である。 図10Aは、実施の形態1の変形例2におけるモデル生成翻訳処理の詳細な動作を示すフローチャートである。 図10Bは、実施の形態1の変形例2におけるモデル生成翻訳処理の詳細な動作を示すフローチャートである。 図11Aは、実施の形態1の変形例3におけるモデル生成翻訳処理の詳細な動作を示すフローチャートである。 図11Bは、実施の形態1の変形例3におけるモデル生成翻訳処理の詳細な動作を示すフローチャートである。 図12は、実施の形態1の変形例4における翻訳装置の構成を示すブロック図である。 図13Aは、実施の形態1の変形例4の設定処理において第1発話を取得する処理の詳細を示すフローチャートである。 図13Bは、実施の形態1の変形例4のモデル生成翻訳処理において第2発話を取得する処理の詳細を示すフローチャートである。 図13Cは、実施の形態1の変形例4の定常翻訳処理において第3発話を取得する処理の詳細を示すフローチャートである。 図14は、実施の形態1の変形例5における翻訳装置の構成を示すブロック図である。 図15Aは、実施の形態1の変形例5の設定処理において第1発話を取得する処理の詳細を示すフローチャートである。 図15Bは、実施の形態1の変形例5のモデル生成翻訳処理において第2発話を取得する処理の詳細を示すフローチャートである。 図15Cは、実施の形態1の変形例5の定常翻訳処理において第3発話を取得する処理の詳細を示すフローチャートである。 図16は、実施の形態1の変形例6における翻訳装置の構成を示すブロック図である。 図17は、実施の形態1の変形例6における定常翻訳処理の詳細な動作を示すフローチャートである。 図18は、実施の形態2における翻訳装置の構成を示すブロック図である。 図19は、実施の形態2における翻訳装置の言語設定画面の一例を示す図である。 図20Aは、実施の形態2における設定処理の詳細な動作を示すフローチャートである。 図20Bは、実施の形態2におけるモデル生成翻訳処理の詳細な動作を示すフローチャートである。
上述の問題を解決するために、本発明の一態様に係る情報処理方法は、第1言語で発話する第1話者と、第2言語で発話する第2話者との間の会話をコンピュータが翻訳する情報処理方法であって、前記第1話者の言語および前記第2話者の言語として設定された前記第1言語および前記第2言語を示す言語設定情報を生成し、前記第1話者の第1発話を取得し、取得された前記第1発話から、前記第1話者の発話の特徴量のモデルである第1話者モデルを生成し、会話開始の操作を受け付け、第2発話を取得し、取得された前記第2発話の特徴量と前記第1話者モデルとを比較することによって、取得された前記第2発話の話者が前記第1話者であるか否かを認識し、前記第1話者であると認識された場合には、前記言語設定情報に基づいて、取得された前記第2発話を前記第1言語から前記第2言語に翻訳し、前記第1話者でないと認識された場合には、前記言語設定情報に基づいて、取得された前記第2発話を前記第2言語から前記第1言語に翻訳する。
これにより、会話開始前に第1話者および第2話者のそれぞれの言語を設定し、第1話者モデルを生成しておけば、会話開始後には、発話ごとに、その発話の話者が認識され、その話者の言語から相手の話者の言語への翻訳が自動的に行われる。したがって、従来の翻訳方法または翻訳装置のように手間を要することなく、翻訳を伴う会話をスムースに行うことができる。つまり、第1話者および第2話者が発話するたびに、翻訳の言語を切り換えるための操作を行う必要がなく、必要な操作を削減して会話をスムースに行うことができる。その結果、ユーザビリティの向上を図ることができる。
また、本発明の他の態様に係る情報処理方法は、第1言語で発話する第1話者と、第2言語で発話する第2話者との間の会話をコンピュータが翻訳する情報処理方法であって、前記第1話者の言語および前記第2話者の言語として設定された前記第1言語および前記第2言語を示す言語設定情報を生成し、前記会話において最初に発話する話者として設定された前記第1話者を示す発話順情報を生成し、会話開始の操作を受け付け、前記操作の受け付け後の最初の発話である第1発話を取得し、前記発話順情報に基づいて、取得された前記第1発話から、前記第1話者の発話の特徴量のモデルである第1話者モデルを生成し、前記言語設定情報および前記発話順情報に基づいて、取得された前記第1発話を前記第1言語から前記第2言語に翻訳し、第2発話を取得し、取得された前記第2発話の特徴量と前記第1話者モデルとを比較することによって、取得された前記第2発話の話者が前記第1話者であるか否かを認識し、前記第1話者であると認識された場合には、前記言語設定情報に基づいて、取得された前記第2発話を前記第1言語から前記第2言語に翻訳し、前記第1話者でないと認識された場合には、前記言語設定情報に基づいて、取得された前記第2発話を前記第2言語から前記第1言語に翻訳する。
これにより、会話開始前に第1話者および第2話者のそれぞれの言語と発話順とを設定しておけば、会話開始後には、発話ごとに、その発話の話者が認識され、その話者の言語から相手の話者の言語への翻訳が自動的に行われる。したがって、従来の翻訳方法または翻訳装置のように手間を要することなく、翻訳を伴う会話をスムースに行うことができる。つまり、第1話者および第2話者が発話するたびに、翻訳の言語を切り換えるための操作を行う必要がなく、必要な操作を削減して会話をスムースに行うことができる。その結果、ユーザビリティの向上を図ることができる。
例えば、前記情報処理方法は、さらに、前記第2発話が前記第1言語から前記第2言語に翻訳される場合には、前記第1話者モデルを、前記第2発話を用いて更新してもよい。
これにより、第1発話から生成された第1話者モデルが、第2発話を用いて更新されるため、第1話者モデルの精度を高めることができ、発話ごとに、その発話の話者を高精度に認識することができる。その結果、誤った言語での翻訳の発生を抑えることができる。
例えば、前記情報処理方法は、さらに、前記第2発話が前記第1言語から前記第2言語に翻訳される場合には、前記第2発話の翻訳の言語が誤っているか否かを判定し、前記第2発話の翻訳の言語が誤っていないと判定されたときに、前記第1話者モデルを、前記第2発話を用いて更新してもよい。
これにより、第2発話の翻訳の言語が誤っていない場合に第1話者モデルが更新されるため、誤った言語での翻訳によって不適切に第1話者モデルが更新されてしまうことを抑えることができる。
例えば、前記情報処理方法は、さらに、前記第2発話の翻訳の言語が誤っていると判定されたときには、前記第2発話の翻訳における翻訳元の言語と翻訳先の言語とが入れ換えられた逆翻訳を実行し、取得された前記第2発話から、前記第2話者の発話の特徴量のモデルである第2話者モデルを生成してもよい。
これにより、第2発話の翻訳の言語が誤っている場合には、逆翻訳が行われるため、第2発話の誤った言語での翻訳を正すことができる。さらに、第2話者モデルが生成されるため、次に発話を取得した場合には、その発話の特徴量を第1話者モデルたけでなく、第2話者モデルとも比較することができ、その発話の話者を高精度に認識することができる。その結果、誤った言語での翻訳の発生を抑えることができる。
例えば、前記第1発話の取得または前記第2発話の取得では、前記第1話者または前記第2話者の発話の時間長が閾値以上か否かを判定し、前記閾値以上と判定された時間長の発話を、前記第1発話または前記第2発話として取得してもよい。
これにより、例えば、意味をなさない発話が不適切に翻訳されてしまうことを抑え、翻訳を伴う会話をスムースに行うことができる。
例えば、前記第1発話の取得または前記第2発話の取得では、前記第1話者または前記第2話者の周囲の音が発話か否かを判定し、発話であると判定された前記音を、前記第1発話または前記第2発話として取得してもよい。
これにより、例えば、第1話者または第2話者の周囲のノイズが発話として扱われて、不適切に翻訳されてしまうことを抑え、翻訳を伴う会話をスムースに行うことができる。
例えば、前記情報処理方法は、さらに、前記第2発話の話者が前記第1話者でないと認識された場合には、取得された前記第2発話から、前記第2話者の発話の特徴量のモデルである第2話者モデルを生成し、第3発話を取得し、取得された前記第3発話の特徴量と、前記第1話者モデルおよび前記第2話者モデルのそれぞれとを比較することによって、取得された前記第3発話の話者が前記第1話者であるか、前記第2話者であるかを認識し、前記第1話者であると認識された場合には、前記言語設定情報に基づいて、取得された前記第3発話を前記第1言語から前記第2言語に翻訳し、前記第2話者であると認識された場合には、前記言語設定情報に基づいて、取得された前記第3発話を前記第2言語から前記第1言語に翻訳してもよい。
これにより、第2話者モデルが生成されるため、次に発話を取得した場合には、その発話の特徴量を第1話者モデルたけでなく、第2話者モデルとも比較することができ、その発話の話者を高精度に認識することができる。その結果、誤った言語での翻訳の発生を抑えることができる。
例えば、前記情報処理方法は、さらに、前記第3発話の特徴量と、前記第1話者モデルおよび前記第2話者モデルのそれぞれとを比較することによって、前記第3発話の話者が前記第1話者および前記第2話者の何れでもないと認識した場合には、前記第3発話を棄却することによって、前記第3発話の翻訳を行わなくてもよい。
これにより、第1話者および第2話者の何れでもない第3話者の発話が翻訳されてしまうことを抑えることができる。つまり、第1話者および第2話者との間の翻訳を伴う会話が、第3話者の発話によって乱されることを抑え、その会話をスムースに行うことができる。
なお、これらの包括的または具体的な態様は、システム、方法、集積回路、コンピュータプログラムまたはコンピュータ読み取り可能なCD-ROMなどの記録媒体で実現されてもよく、システム、方法、集積回路、コンピュータプログラムまたは記録媒体の任意な組み合わせで実現されてもよい。
以下、実施の形態について、図面を参照しながら具体的に説明する。
なお、以下で説明する実施の形態は、いずれも包括的または具体的な例を示すものである。以下の実施の形態で示される数値、形状、材料、構成要素、構成要素の配置位置及び接続形態、ステップ、ステップの順序などは、一例であり、本発明を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、最上位概念を示す独立請求項に記載されていない構成要素については、任意の構成要素として説明される。
また、各図は、模式図であり、必ずしも厳密に図示されたものではない。また、各図において、同じ構成部材については同じ符号を付している。また、以下の各実施の形態では、本開示における情報処理装置および情報処理方法をそれぞれ、翻訳装置および翻訳方法という。
(実施の形態1)
<概要>
図1は、実施の形態1における翻訳装置の外観の一例を示す図である。
情報処理装置である翻訳装置100は、第1言語で発話する第1話者と、第2言語で発話する第2話者との間の会話を翻訳する装置である。このような翻訳装置100は、例えばカードのような形状に構成され、発話を取得するマイクである収音部101と、翻訳結果を音声によって出力するスピーカである再生部109と、翻訳結果をテキストとして表示する表示部110とを備えている。
例えば、店員または警備員などの第1話者は、その翻訳装置100を携帯しながら、自らに割り当てられた担当範囲を巡回または移動し、その範囲で会った人である第2話者と会話する。このとき、第1話者の言語と第2話者の言語とが異なる場合に、翻訳装置100は、第1話者と第2話者との間の会話を翻訳する。
図2Aは、翻訳装置100の言語設定画面の一例を示す図である。
翻訳装置100は、会話が開始される前に、言語設定画面を表示部110に表示する。この言語設定画面は、第1話者の言語を設定するための第1言語設定欄110aと、第2話者の言語を設定するための第2言語設定欄110bとを含む。例えば、翻訳装置100のユーザは、その翻訳装置100を操作することによって、第1言語設定欄110aに、第1話者の言語である第1言語(例えば日本語)を入力する。また、ユーザは、その翻訳装置100を操作することによって、第2言語設定欄110bに、第2話者の言語である第2言語(例えば英語)を入力する。なお、ユーザは、第1話者または第2話者であってもよく、第1話者および第2話者の何れでもない人であってもよい。
これにより、翻訳装置100では、第1話者の言語として第1言語が設定され、第2話者の言語として第2言語が設定される。つまり、翻訳装置100は、第1話者の言語および第2話者の言語として設定された第1言語および第2言語を示す言語設定情報を生成する。
図2Bは、翻訳装置100のモデル準備画面の一例を示す図である。
翻訳装置100は、会話が開始される前に、第1話者モデルを生成するためのモデル準備画面を表示部110に表示する。第1話者モデルは、第1話者の発話の特徴量のモデルである。例えば、モデル準備画面には、メッセージ「第1話者のモデルを生成します。第1話者:発話してください。」が記載されている。
このとき、翻訳装置100は、収音部101に周囲の音の取得を開始させる。そして、そのメッセージを見た第1話者は発話する。その結果、翻訳装置100は、第1話者の発話を取得して、その発話の特徴量を抽出することによって第1話者モデルを生成する。言い換えれば、翻訳装置100は、第1話者の第1発話を取得し、取得された第1発話から、第1話者の発話の特徴量のモデルである第1話者モデルを生成する。
図2Cは、翻訳装置100による会話の翻訳を開始させるための操作の一例を示す図である。
翻訳装置100は、第1話者モデルが生成されると、表示部110に会話開始ボタン110cを表示する。ここで、例えば、ユーザによってその会話開始ボタン110cが選択されると、翻訳装置100は、会話開始の操作を受け付ける。その結果、翻訳装置100は、収音部101によって取得される発話を翻訳する。そして、翻訳装置100は、その翻訳結果をテキストとして表示部110に表示するとともに、再生部109から音声によって出力する。
図3は、第1話者と第2話者との間の会話を翻訳装置100が翻訳している状況の一例を示す図である。
翻訳装置100には、第1話者の言語が第1言語(例えば日本語)であり、第2話者の言語が第2言語(例えば英語)であることが、上述の言語設定画面によって予め設定されている。つまり、翻訳装置100は、その設定内容を示す言語設定情報を生成して保持している。さらに、翻訳装置100には、第1話者モデルが、上述のモデル準備画面によって予め生成されている。
そこで、例えば図3の(a)に示すように、第1話者は、第1言語である日本語で「ご用件はなんでしょうか?」と発話する。このとき、翻訳装置100は、その発話「ご用件はなんでしょうか?」の話者が第1話者であることを、その発話と第1話者モデルとに基づいて認識する。さらに、翻訳装置100は、認識された第1話者と言語設定情報に基づいて、その発話の言語として第1言語を特定する。その結果、翻訳装置100は、発話「ご用件はなんでしょうか?」を第1言語である日本語として音声認識し、その音声認識によって得られるテキスト「ご用件はなんでしょうか?」を日本語から第2言語である英語に翻訳する。その翻訳によって、テキスト「What is your purose?」が得られる。
翻訳装置100は、その翻訳によって得られたテキスト「What is your purose?」を、翻訳前のテキスト「ご用件はなんでしょうか?」とともに表示部110に表示する。さらに、翻訳装置100は、翻訳によって得られたテキスト「What is your purose?」に対して音声合成を行うことによって、音声「What is your purose?」を生成し、その音声を再生部109から出力する。
次に、第2話者は、図3の(b)に示すように、翻訳結果である「What is your purose?」を音声として聞き、テキストとして読むと、第2言語である英語で「Where is the appliance department?」と発話する。このとき、翻訳装置100は、その発話「Where is the appliance department?」の話者が第2話者であることを、その発話と第1話者モデルとに基づいて認識する。さらに、翻訳装置100は、発話「Where is the appliance department?」から特徴量を抽出することによって、第2話者モデルを生成する。第2話者モデルは、第2話者の発話の特徴量のモデルである。
さらに、翻訳装置100は、認識された第2話者と言語設定情報に基づいて、その発話の言語として第2言語を特定する。その結果、翻訳装置100は、発話「Where is the appliance department?」を第2言語である英語として音声認識する。そして、翻訳装置100は、その音声認識によって得られるテキスト「Where is the appliance department?」を英語から第1言語である日本語に翻訳する。その翻訳によって、テキスト「電化製品売り場はどこですか?」が得られる。
翻訳装置100は、その翻訳によって得られたテキスト「電化製品売り場はどこですか?」を、翻訳前のテキスト「Where is the appliance department?」とともに表示部110に表示する。さらに、翻訳装置100は、翻訳によって得られたテキスト「電化製品売り場はどこですか?」に対して音声合成を行うことによって、音声「電化製品売り場はどこですか?」を生成し、その音声を再生部109から出力する。
次に、第1話者は、図3の(c)に示すように、翻訳結果である「電化製品売り場はどこですか?」を音声として聞き、テキストとして読むと、第1言語である日本語で「3階にございます。」と発話する。このとき、翻訳装置100は、その発話「3階にございます。」の話者が第1話者であることを、その発話と第1話者モデルおよび第2話者モデルとに基づいて認識する。さらに、翻訳装置100は、認識された第1話者と言語設定情報に基づいて、その発話の言語として第1言語を特定する。その結果、翻訳装置100は、発話「3階にございます。」を第1話者の言語である日本語として音声認識する。そして、翻訳装置100は、その音声認識によって得られるテキスト「3階にございます。」を日本語から第2言語である英語に翻訳する。その翻訳によって、テキスト「It is on the 3rd floor.」が得られる。
翻訳装置100は、その翻訳によって得られたテキスト「It is on the 3rd floor.」を、翻訳前のテキスト「3階にございます。」とともに表示部110に表示する。さらに、翻訳装置100は、翻訳によって得られたテキスト「It is on the 3rd floor.」に対して音声合成を行うことによって、音声「It is on the 3rd floor.」を生成し、その音声を再生部109から出力する。
このように、本実施の形態における翻訳装置100では、発話ごとに、その発話の話者が認識され、その話者の言語から相手の話者の言語への翻訳が自動的に行われる。
<装置構成>
図4は、本実施の形態における翻訳装置100の構成を示すブロック図である。
本実施の形態における翻訳装置100は、収音部101と、言語設定部102と、特徴量抽出部103と、話者認識部104と、言語決定部105と、音声認識部106と、翻訳部107と、音声合成部108と、再生部109と、表示部110と、モデル格納部111とを備える。なお、言語設定部102、特徴量抽出部103、話者認識部104、言語決定部105、音声認識部106、翻訳部107、および音声合成部108は、少なくとも1つの処理回路によって構成されていてもよい。
収音部101は、上述のようにマイクであって、周囲の音を電気信号に変換することによって、その音を取得する。つまり、収音部101は、周囲で会話が行われていれば、その会話の発話を取得する。そして、収音部101は、上記電気信号である音声信号を出力する。
言語設定部102は、図2Aに示す言語設定画面を介して、第1話者および第2話者のそれぞれの言語を設定する。例えば、言語設定部102は、第1話者に対して第1言語(例えば日本語)を対応付け、第2話者に対して第2言語(例えば英語)を対応付けることによって、第1話者および第2話者の言語を設定する。この設定によって、言語設定部102は、話者と言語との対応付けを示す言語設定情報を生成する。例えば、言語設定情報は、第1話者と第1言語とを対応付けて示し、第2話者と第2言語とを対応付けて示す。
特徴量抽出部103は、収音部101から音声信号を取得することによって、その音声信号に示される発話を取得する。つまり、特徴量抽出部103は、発話を音声信号として取得する。そして、特徴量抽出部103は、取得された発話から、その発話の特徴量を抽出する。この特徴量は、例えば、特徴ベクトルであって、より具体的には、話者認識手法の一つとして用いられるi-Vectorである。なお、特徴量は、このような特徴ベクトルに限定されるものではない。
話者認識部104は、特徴量抽出部103によって抽出された特徴量と、モデル格納部111に格納されているモデルとを比較することによって、その特徴量を有する発話の話者を認識する。つまり、話者認識部104は、その発話の話者として第1話者または第2話者を決定する。
言語決定部105は、言語設定部102によって生成された言語設定情報と、話者認識部104によって決定された話者とに基づいて、収音部101によって取得された発話の言語を決定する。例えば、話者認識部104によって第1話者が認識された場合には、言語決定部105は、言語設定情報において第1言語が第1話者に対応付けられているため、発話の言語として第1言語を決定する。言語決定部105は、決定された言語を示す言語情報を音声認識部106および翻訳部107に出力する。
音声認識部106は、収音部101によって取得された発話を、言語決定部105によって決定された言語で認識する。つまり、音声認識部106は、その発話を、決定された言語でテキスト化する。
翻訳部107は、音声認識部106によって生成されたテキストを、言語情報に示される言語と異なる言語に翻訳する。例えば、言語情報に示される言語が第1言語である場合、翻訳部107は、第1言語の発話に対応するテキストを第2言語に翻訳する。なお、この翻訳は、例えば、ルールベースまたは統計ベースの機械翻訳、またはニューラルネットワークを利用した機械翻訳などによって行われる。
表示部110は、例えば液晶ディスプレイまたは有機発光ダイオードなどによって構成され、音声認識部106によって生成されたテキストと、翻訳部107によって翻訳されたテキストとを表示する。
音声合成部108は、翻訳部107から、翻訳されたテキストを取得し、そのテキストの合成音声を生成する。
再生部109は、上述のようにスピーカであって、音声合成部108によって生成された合成音声を出力する。
モデル格納部111は、第1話者の発話の特徴量のモデルである第1話者モデル111aと、第2話者の発話の特徴量のモデルである第2話者モデル111bとを格納するための記録媒体である。
<処理動作>
図5は、本実施の形態における翻訳装置100の全体的な処理動作を示すフローチャートである。
まず、翻訳装置100は、第1話者と第2話者との間の会話を翻訳するために必要とされる設定を行う(ステップS1100)。つまり、翻訳装置100は、図2Aおよび図2Bに示す画面を表示することによって、第1話者および第2話者の言語を設定し、第1話者モデル111aを生成する。
次に、翻訳装置100は、会話開始処理を行う(ステップS1200)。つまり、翻訳装置100は、ユーザによる会話開始の操作を受け付ける。具体的には、翻訳装置100は、図2Cに示す会話開始ボタン110cの選択を受け付け、収音部101による周囲の音の取得を開始する。
次に、翻訳装置100は、収音部101によって取得される発話に基づいて、第2話者モデル111bを生成しながら、その発話を翻訳する処理を行う(ステップS1300)。このような処理を、以下、モデル生成翻訳処理という。
次に、翻訳装置100は、モデル格納部111に格納されている第1話者モデル111aと第2話者モデル111bとを用いた処理を行う(ステップS1400)。つまり、翻訳装置100は、収音部101によって発話が取得されるたびに、その発話の話者を、第1話者モデル111aおよび第2話者モデル111bを用いて認識する。さらに、翻訳装置100は、その発話を、認識された話者の言語と異なる他の言語に翻訳する。このような処理を、以下、定常翻訳処理という。
そして、翻訳装置100は、終了条件が満たされたか否かを判定し(ステップS1500)、その終了条件が満たされたと判定したときには(ステップS1500のYes)、会話の翻訳を終了する。一方、翻訳装置100は、終了条件が満たされていないと判定すると(ステップS1500のNo)、ステップS1400からの処理を繰り返し実行する。例えば、終了条件は、話者によって翻訳終了の操作が翻訳装置100に行われたこと、または、発話が取得されない状態が予め定められた期間だけ継続したことである。
図6Aは、図5の設定処理(ステップS1100)の詳細な動作を示すフローチャートである。
まず、翻訳装置100の収音部101は、第1話者の第1発話を取得する(ステップS1110)。
次に、特徴量抽出部103は、その取得された第1発話から特徴量を抽出し、その特徴量を第1話者モデル111aとしてモデル格納部111に保存する(ステップS1120)。つまり、特徴量抽出部103は、取得された第1発話から、第1話者の発話の特徴量のモデルである第1話者モデルを生成する。
そして、言語設定部102は、ユーザによる翻訳装置200の操作に応じて、第1話者に対して第1言語を設定し、第2話者に対して第2言語を設定する(ステップS1130)。この設定によって、言語設定部102は、言語設定情報を生成し、その言語設定情報を言語決定部105に出力する。
なお、図6Aに示すフローチャートでは、ステップS1110およびS1120の後に、ステップS1130の処理が行われるが、その順序は逆であってもよい。つまり、ステップS1130の後に、ステップS1110およびS1120の処理が行われてもよい。
図6Bは、図5のモデル生成翻訳処理(ステップS1300)の詳細な動作を示すフローチャートである。
まず、翻訳装置100の収音部101は、第2発話を取得する(ステップS1310)。
次に、特徴量抽出部103は、その取得された第2発話から特徴量を抽出する(ステップS1320)。
話者認識部104は、その第2発話の特徴量が第1話者モデル111aに合致するか否かを判定する(ステップS1330)。つまり、話者認識部104は、取得された第2発話の特徴量と第1話者モデル111aとを比較することによって、その第2発話の話者が第1話者であるか否かを認識する。
例えば、第2発話の特徴量および第1話者モデル111aのそれぞれが特徴ベクトルとして表される場合、話者認識部104は、それらの特徴ベクトルの間の距離が閾値以下であれば、第2発話の特徴量が第1話者モデル111aに合致すると判定する。一方、その距離が閾値よりも長ければ、話者認識部104は、第2発話の特徴量が第1話者モデル111aに合致しないと判定する。
ここで、話者認識部104は、ステップS1330において、第2発話の特徴量が第1話者モデル111aに合致すると判定すると(ステップS1330のYes)、第2発話の話者が第1話者であると認識する。その結果、言語決定部105は、第2発話の言語を、言語設定情報において第1話者に対応付けられている言語に決定する(ステップS1340)。例えば、言語決定部105は、第2発話の言語を第1言語に決定する。
そして、音声認識部106、翻訳部107および音声合成部108は、第1言語の第2発話を第2言語に翻訳し、その翻訳によって得られる第2言語のテキストを表示部110に表示させ、第2言語の音声を再生部109に出力させる(ステップS1350)。
つまり、ステップS1340およびS1350では、翻訳装置100は、ステップS1330において第2発話の話者が第1話者であると認識された場合には、言語設定情報に基づいて、取得された第2発話を第1言語から第2言語に翻訳する。
一方、話者認識部104は、第2発話の特徴量が第1話者モデル111aに合致しないと判定すると(ステップS1330のNo)、第2発話の話者が第1話者ではなく第2話者であると認識する。その結果、話者認識部104は、その第2発話の特徴量を第2話者モデル111bとしてモデル格納部111に保存する(ステップS1360)。そして、言語決定部105は、第2発話の言語を、言語設定情報において第2話者に対応付けられている言語に決定する(ステップS1370)。例えば、言語決定部105は、第2発話の言語を第2言語に決定する。
そして、音声認識部106、翻訳部107および音声合成部108は、第2言語の第2発話を第1言語に翻訳し、その翻訳によって得られる第1言語のテキストを表示部110に表示させ、第1言語の音声を再生部109に出力させる(ステップS1380)。
つまり、ステップS1360~S1380では、翻訳装置100は、ステップS1330において第2発話の話者が第1話者でないと認識された場合には、言語設定情報に基づいて、取得された第2発話を第2言語から第1言語に翻訳する。さらに、翻訳装置100は、ステップS1330において第2発話の話者が第1話者でないと認識された場合には、取得された第2発話から、第2話者の発話の特徴量のモデルである第2話者モデル111bを生成する。
図6Cは、図5の定常翻訳処理(ステップS1400)の詳細な動作を示すフローチャートである。
まず、翻訳装置100の収音部101は、第3発話を取得する(ステップS1410)。
次に、特徴量抽出部103は、その取得された第3発話から特徴量を抽出する(ステップS1420)。
話者認識部104は、その第3発話の特徴量が第1話者モデル111aまたは第2話者モデル111bに合致するか否かを判定する(ステップS1430)。例えば、話者認識部104は、上述のように2つの特徴ベクトルの間の距離に基づいて、合致するか否かを判定する。つまり、話者認識部104は、取得された第3発話の特徴量と、第1話者モデル111aおよび第2話者モデル111bのそれぞれとを比較することによって、取得された第3発話の話者が第1話者であるか、第2話者であるかを認識する。
ここで、話者認識部104は、ステップS1430において、第3発話の特徴量が第1話者モデル111aに合致すると判定すると、第3発話の話者が第1話者であると認識する。その結果、言語決定部105は、第3発話の言語を、言語設定情報において第1話者に対応付けられている言語に決定する(ステップS1440)。例えば、言語決定部105は、第3発話の言語を第1言語に決定する。
そして、音声認識部106、翻訳部107および音声合成部108は、第1言語の第3発話を第2言語に翻訳し、その翻訳によって得られる第2言語のテキストを表示部110に表示させ、第2言語の音声を再生部109に出力させる(ステップS1450)。
つまり、ステップS1440およびS1450では、翻訳装置100は、ステップS1430において第3発話の話者が第1話者であると認識された場合には、言語設定情報に基づいて、取得された第3発話を第1言語から第2言語に翻訳する。
一方、話者認識部104は、ステップS1430において第3発話の特徴量が第2話者モデル111bに合致すると判定すると、第3発話の話者が第2話者であると認識する。その結果、言語決定部105は、第3発話の言語を、言語設定情報において第2話者に対応付けられている言語に決定する(ステップS1460)。例えば、言語決定部105は、第3発話の言語を第2言語に決定する。
そして、音声認識部106、翻訳部107および音声合成部108は、第2言語の第3発話を第1言語に翻訳し、その翻訳によって得られる第1言語のテキストを表示部110に表示させ、第1言語の音声を再生部109に出力させる(ステップS1470)。
つまり、ステップS1460およびS1470では、翻訳装置100は、ステップS1430において第3発話の話者が第2話者であると認識された場合には、言語設定情報に基づいて、取得された第3発話を第2言語から第1言語に翻訳する。
以上のように、本実施の形態における翻訳装置100では、会話開始前に第1話者および第2話者のそれぞれの言語を設定し、第1話者モデル111aを生成しておけば、会話開始後には、発話ごとに、その発話の話者が認識され、その話者の言語から相手の話者の言語への翻訳が自動的に行われる。したがって、従来の翻訳方法または翻訳装置のように手間を要することなく、翻訳を伴う会話をスムースに行うことができる。つまり、第1話者および第2話者が発話するたびに、翻訳の言語を切り換えるための操作を行う必要がなく、必要な操作を削減して会話をスムースに行うことができる。その結果、ユーザビリティの向上を図ることができる。
また、本実施の形態では、会話開始前に、第1話者の多くの発話に基づいて第1話者モデル111aを生成しておけば、第1話者モデル111aの精度を高めることができる。さらに、会話開始後では、最初の発話の話者は第1話者であっても第2話者であってもよい。
(変形例1)
図7は、実施の形態1の変形例1における翻訳装置の構成を示すブロック図である。
本変形例における翻訳装置100aは、実施の形態1における翻訳装置100の構成要素を全て備えるとともに、モデル更新部112を備える。
モデル更新部112は、話者認識部104によって発話の話者が認識されると、その話者に対応する第1話者モデル111aまたは第2話者モデル111bを、その発話を用いて更新する。
本変形例の翻訳装置100aにおける全体的な処理動作は、実施の形態1の翻訳装置100の図5に示す動作と同じである。しかし、本実施の形態では、モデル生成翻訳処理(ステップS1300)の詳細と、定常翻訳処理(ステップS1400)の詳細とが、実施の形態1と異なる。
図8Aは、本変形例におけるモデル生成翻訳処理の詳細な動作を示すフローチャートである。
本変形例におけるモデル生成翻訳処理(ステップS1300a)は、図5のモデル生成翻訳処理(ステップS1300)に相当し、図6Bに示すフローチャートの全てのステップを含む。さらに、本変形例におけるモデル生成翻訳処理(ステップS1300a)は、モデル更新部112が第2発話の特徴量を用いて第1話者モデル111aを更新する処理(ステップS1351)を含む。
つまり、話者認識部104は、ステップS1330において、第2発話の特徴量が第1話者モデル111aに合致すると判定すると(ステップS1330のYes)、第2発話の話者が第1話者であると認識する。その結果、言語決定部105は、第2発話の言語を、言語設定情報において第1話者に対応付けられている言語に決定する(ステップS1340)。例えば、言語決定部105は、第2発話の言語を第1言語に決定する。
そして、音声認識部106、翻訳部107および音声合成部108は、第1言語の第2発話を第2言語に翻訳し、その翻訳によって得られる第2言語のテキストを表示部110に表示させ、第2言語の音声を再生部109に出力させる(ステップS1350)。
ここで、本変形例では、ステップS1350の後、モデル更新部112は、第2発話の特徴量を用いて第1話者モデル111aを更新する(ステップS1351)。例えば、モデル更新部112は、特徴量がi-Vectorとして表される場合、第1話者モデル111aの生成または更新に用いられた発話の音声信号と、第2発話の音声信号とを結合する。結合によって生成される結合音声信号は、第2発話と、第2発話よりも前の過去の発話とを示す。そして、モデル更新部112は、その結合音声信号から新たなi-Vectorを生成し、更新前の第1話者モデル111aを、その新たなi-Vectorに置き換えることによって、第1話者モデル111aを更新する。
なお、本変形例では、第1話者モデル111aおよび第2話者モデル111bの更新が行われるために、モデル格納部111には、それらのモデルの生成および更新に用いられた音声信号が保存されている。つまり、特徴量抽出部103、話者認識部104およびモデル更新部112は、第1話者モデル111aおよび第2話者モデル111bを生成または更新するときには、その生成または更新に用いられた音声信号をモデル格納部111に保存しておく。なお、このようなモデルの更新は、一例であって、この例に限定されるものではない。
このように、本変形例では、第2発話が第1言語から第2言語に翻訳される場合には、第1話者モデル111aを、第2発話を用いて更新する。これにより、第1発話から生成された第1話者モデル111aが、第2発話を用いて更新されるため、第1話者モデル111aの精度を高めることができ、発話ごとに、その発話の話者を高精度に認識することができる。その結果、誤った言語での翻訳の発生を抑えることができる。
図8Bは、本変形例における定常翻訳処理の詳細な動作を示すフローチャートである。
本変形例における定常翻訳処理(ステップS1400a)は、図5の定常翻訳処理(ステップS1400)に相当し、図6Cに示すフローチャートの全てのステップを含む。さらに、本変形例における定常翻訳処理(ステップS1400a)は、モデル更新部112が第3発話の特徴量を用いて第1話者モデル111aと第2話者モデル111bとを選択的に更新する処理(ステップS1451、S1471)を含む。
つまり、話者認識部104は、ステップS1430において、第3発話の特徴量が第1話者モデル111aに合致すると判定すると、第3発話の話者が第1話者であると認識する。その結果、言語決定部105は、第3発話の言語を、言語設定情報において第1話者に対応付けられている言語に決定する(ステップS1440)。例えば、言語決定部105は、第3発話の言語を第1言語に決定する。
そして、音声認識部106、翻訳部107および音声合成部108は、第1言語の第3発話を第2言語に翻訳し、その翻訳によって得られる第2言語のテキストを表示部110に表示させ、第2言語の音声を再生部109に出力させる(ステップS1450)。
ここで、本変形例では、ステップS1450の後、モデル更新部112は、第3発話の特徴量を用いて第1話者モデル111aを更新する(ステップS1451)。例えば、モデル更新部112は、上述のように結合音声信号を生成し、その結合音声信号を用いて第1話者モデル111aを更新する。
また、話者認識部104は、ステップS1430において、第3発話の特徴量が第2話者モデル111bに合致すると判定すると、第3発話の話者が第2話者であると認識する。その結果、言語決定部105は、第3発話の言語を、言語設定情報において第2話者に対応付けられている言語に決定する(ステップS1460)。例えば、言語決定部105は、第3発話の言語を第2言語に決定する。
そして、音声認識部106、翻訳部107および音声合成部108は、第2言語の第3発話を第1言語に翻訳し、その翻訳によって得られる第1言語のテキストを表示部110に表示させ、第1言語の音声を再生部109に出力させる(ステップS1470)。
ここで、本変形例では、ステップS1470の後、モデル更新部112は、第3発話の特徴量を用いて第2話者モデル111bを更新する(ステップS1471)。例えば、モデル更新部112は、上述のように結合音声信号を生成し、その結合音声信号を用いて第2話者モデル111bを更新する。
このように、本変形例では、モデル更新部112は、発話が翻訳される場合には、第1話者モデル111aおよび第2話者モデル111bのうち、既に生成されているモデルであって、その発話に対して認識された話者に対応するモデルを、その発話を用いて更新する。これにより、既に生成されているモデルが、発話を用いて更新されるため、そのモデルの精度を高めることができ、発話ごとに、その発話の話者を高精度に認識することができる。その結果、誤った言語での翻訳の発生を抑えることができる。
(変形例2)
図9は、実施の形態1の変形例2における翻訳装置の構成を示すブロック図である。
本変形例における翻訳装置100bは、変形例1における翻訳装置100aの構成要素を全て備えるとともに、誤り判定部113を備える。
誤り判定部113は、翻訳によって再生部109から出力される音声の言語と、翻訳によって表示部110に表示されるテキストの言語とが誤っているか否かを、ユーザによる翻訳装置100bに対する操作に応じて判定する。例えば、表示部110に表示されたボタンがユーザによって選択されると、誤り判定部113は、その翻訳の言語が誤っていると判定する。また、翻訳が行われた時点から予め定められた時間が経過してもそのボタンが選択されなかった場合に、誤り判定部113は、その翻訳の言語は誤っていなかったと判定する。または、誤り判定部113は、翻訳が行われた時点から予め定められた時間が経過する前に、次の発話が収音部101によって取得された場合に、その翻訳の言語は誤っていなかったと判定する。
本変形例におけるモデル更新部112は、音声およびテキストの言語が誤っていないと誤り判定部113によって判定されたときに、第1話者モデル111aまたは第2話者モデル111bを更新する。つまり、モデル更新部112は、話者認識部104によって発話の話者が認識されると、翻訳の言語が誤っていない場合に、その話者に対応する第1話者モデル111aまたは第2話者モデル111bを、その発話を用いて更新する。
本変形例の翻訳装置100bにおける全体的な処理動作は、実施の形態1の翻訳装置100の図5に示す動作と同じである。しかし、本実施の形態では、モデル生成翻訳処理(ステップS1300)の詳細と、定常翻訳処理(ステップS1400)の詳細とが、実施の形態1と異なる。
図10Aは、本変形例におけるモデル生成翻訳処理の詳細な動作を示すフローチャートである。
本変形例におけるモデル生成翻訳処理(ステップS1300b)は、図5のモデル生成翻訳処理(ステップS1300)に相当し、図8Aに示すフローチャートの全てのステップを含む。さらに、本変形例におけるモデル生成翻訳処理(ステップS1300b)は、誤り判定部113が翻訳の言語の誤りを判定する処理(ステップS1352)を含む。
つまり、話者認識部104は、ステップS1330において、第2発話の特徴量が第1話者モデル111aに合致すると判定すると(ステップS1330のYes)、第2発話の話者が第1話者であると認識する。その結果、言語決定部105は、第2発話の言語を、言語設定情報において第1話者に対応付けられている言語に決定する(ステップS1340)。例えば、言語決定部105は、第2発話の言語を第1言語に決定する。
そして、音声認識部106、翻訳部107および音声合成部108は、第1言語の第2発話を第2言語に翻訳し、その翻訳によって得られる第2言語のテキストを表示部110に表示させ、第2言語の音声を再生部109に出力させる(ステップS1350)。
ここで、本変形例では、ステップS1350の後、誤り判定部113は、ユーザによる操作に基づいて、翻訳の言語が誤っているか否かを判定する(ステップS1352)。そして、翻訳の言語が誤っていないと判定されたときに(ステップS1352のNo)、モデル更新部112は、第2発話の特徴量を用いて第1話者モデル111aを更新する(ステップS1351)。一方、翻訳の言語が誤っていると判定されると(ステップS1352のYes)、モデル更新部112は、第1話者モデル111aの更新を行わない。
このように、本変形例では、第2発話が第1言語から第2言語に翻訳される場合には、第2発話の翻訳の言語が誤っているか否かを判定し、第2発話の翻訳の言語が誤っていないと判定されたときに、第1話者モデル111aを、第2発話を用いて更新する。
これにより、第2発話の翻訳の言語が誤っていない場合に第1話者モデル111aが更新されるため、誤った言語での翻訳によって不適切に第1話者モデル111aが更新されてしまうことを抑えることができる。
図10Bは、本変形例におけるモデル生成翻訳処理の詳細な動作を示すフローチャートである。
本変形例における定常翻訳処理(ステップS1400b)は、図5の定常翻訳処理(ステップS1400)に相当し、図8Bに示すフローチャートの全てのステップを含む。さらに、本変形例における定常翻訳処理(ステップS1400b)は、誤り判定部113が翻訳の言語の誤りを判定する処理(ステップS1452、S1472)を含む。
つまり、話者認識部104は、ステップS1430において、第3発話の特徴量が第1話者モデル111aに合致すると判定すると、第3発話の話者が第1話者であると認識する。その結果、言語決定部105は、第3発話の言語を、言語設定情報において第1話者に対応付けられている言語に決定する(ステップS1440)。例えば、言語決定部105は、第3発話の言語を第1言語に決定する。
そして、音声認識部106、翻訳部107および音声合成部108は、第1言語の第3発話を第2言語に翻訳し、その翻訳によって得られる第2言語のテキストを表示部110に表示させ、第2言語の音声を再生部109に出力させる(ステップS1450)。
ここで、本変形例では、ステップS1450の後、誤り判定部113は、ユーザによる操作に基づいて、翻訳の言語が誤っているか否かを判定する(ステップS1452)。そして、翻訳の言語が誤っていないと判定されたときに(ステップS1452のNo)、モデル更新部112は、第3発話の特徴量を用いて第1話者モデル111aを更新する(ステップS1451)。一方、翻訳の言語が誤っていると判定されると(ステップS1452のYes)、モデル更新部112は、第1話者モデル111aの更新を行わない。
また、話者認識部104は、ステップS1430において、第3発話の特徴量が第2話者モデル111bに合致すると判定すると、第3発話の話者が第2話者であると認識する。その結果、言語決定部105は、第3発話の言語を、言語設定情報において第2話者に対応付けられている言語に決定する(ステップS1460)。例えば、言語決定部105は、第3発話の言語を第1言語に決定する。
そして、音声認識部106、翻訳部107および音声合成部108は、第2言語の第3発話を第1言語に翻訳し、その翻訳によって得られる第1言語のテキストを表示部110に表示させ、第1言語の音声を再生部109に出力させる(ステップS1470)。
ここで、本変形例では、ステップS1470の後、誤り判定部113は、ユーザによる操作に基づいて、翻訳の言語が誤っているか否かを判定する(ステップS1472)。そして、翻訳の言語が誤っていないと判定されたときに(ステップS1472のNo)、モデル更新部112は、第3発話の特徴量を用いて第2話者モデル111bを更新する(ステップS1471)。一方、翻訳の言語が誤っていると判定されると(ステップS1452のYes)、モデル更新部112は、第2話者モデル111bの更新を行わない。
このように、本変形例では、翻訳装置100bは、発話が翻訳される場合には、その発話の翻訳の言語が誤っているか否かを判定する。そして、翻訳装置100bは、その発話の翻訳の言語が誤っていないと判定されたときに、第1話者モデル111aおよび第2話者モデル111bのうち、既に生成されているモデルであって、その発話に対して認識された話者に対応するモデルを、その発話を用いて更新する。
これにより、発話の翻訳の言語が誤っていない場合にモデルが更新されるため、誤った言語での翻訳によって不適切にモデルが更新されてしまうことを抑えることができる。
(変形例3)
本変形例における翻訳装置は、変形例2における翻訳装置100bと同様の構成を有するが、翻訳の言語が誤っていると判定したときには、逆翻訳を行うとともに、発話に対して認識された話者と異なる話者に対応するモデルを、その発話を用いて生成または更新する。
本変形例の翻訳装置における全体的な処理動作は、実施の形態1の翻訳装置100の図5に示す動作と同じである。しかし、本実施の形態では、モデル生成翻訳処理(ステップS1300)の詳細と、定常翻訳処理(ステップS1400)の詳細とが、実施の形態1と異なる。
図11Aは、本変形例におけるモデル生成翻訳処理の詳細な動作を示すフローチャートである。
本変形例におけるモデル生成翻訳処理(ステップS1300c)は、図5のモデル生成翻訳処理(ステップS1300)に相当し、図10Aに示すフローチャートの全てのステップを含む。さらに、本変形例におけるモデル生成翻訳処理(ステップS1300c)は、逆翻訳を行う処理(ステップS1353)と、モデルを生成する処理(ステップS1354)とを含む。
つまり、話者認識部104は、ステップS1330において、第2発話の特徴量が第1話者モデル111aに合致すると判定すると(ステップS1330のYes)、第2発話の話者が第1話者であると認識する。その結果、言語決定部105は、第2発話の言語を、言語設定情報において第1話者に対応付けられている言語に決定する(ステップS1340)。例えば、言語決定部105は、第2発話の言語を第1言語に決定する。
そして、音声認識部106、翻訳部107および音声合成部108は、第1言語の第2発話を第2言語に翻訳し、その翻訳によって得られる第2言語のテキストを表示部110に表示させ、第2言語の音声を再生部109に出力させる(ステップS1350)。ステップS1350の後、誤り判定部113は、ユーザによる操作に基づいて、翻訳の言語が誤っているか否かを判定する(ステップS1352)。つまり、誤り判定部113は、第2発話の第1言語から第2言語への翻訳が間違っているか否か、言い換えれば、話者認識部104による認識が間違っているか否かを判定する。
ここで、本変形例では、翻訳の言語が誤っていると判定されたときには(ステップS1352のYes)、言語決定部105は、第2発話の言語を、言語設定情報において第1話者に対応付けられていない第2言語に決定し直す。その結果、音声認識部106、翻訳部107および音声合成部108は、逆翻訳を行う。すなわち、音声認識部106、翻訳部107および音声合成部108は、第2言語の第2発話を第1言語に翻訳し、その翻訳によって得られる第1言語のテキストを表示部110に表示させ、第1言語の音声を再生部109に出力させる(ステップS1353)。
さらに、話者認識部104は、第2発話の特徴量を第2話者モデル111bとしてモデル格納部111に保存する(ステップS1354)。これにより第2話者モデル111bが生成される。
一方、ステップS1352において、翻訳の言語が誤っていないと判定されると(ステップS1352のNo)、変形例2と同様に、モデル更新部112は、第2発話の特徴量を用いて第1話者モデル111aを更新する(ステップS1351)。
このように、本変形例では、翻訳装置は、第2発話の翻訳の言語が誤っていると判定されたときには、第2発話の翻訳における翻訳元の言語と翻訳先の言語とが入れ換えられた逆翻訳を実行する。さらに、翻訳装置は、取得された第2発話から、第2話者の発話の特徴量のモデルである第2話者モデル111bを生成する。
これにより、第2発話の翻訳の言語が誤っている場合には、逆翻訳が行われるため、第2発話の誤った言語での翻訳を正すことができる。さらに、第2話者モデル111bが生成されるため、次に発話を取得した場合には、その発話の特徴量を第1話者モデル111aたけでなく、第2話者モデル111bとも比較することができ、その発話の話者を高精度に認識することができる。その結果、誤った言語での翻訳の発生を抑えることができる。
図11Bは、本変形例におけるモデル生成翻訳処理の詳細な動作を示すフローチャートである。
本変形例における定常翻訳処理(ステップS1400c)は、図5の定常翻訳処理(ステップS1400)に相当し、図10Bに示すフローチャートの全てのステップを含む。さらに、本変形例における定常翻訳処理(ステップS1400c)は、逆翻訳を行う処理(ステップS1453、S1473)と、モデルを生成する処理(ステップS1454、S1474)とを含む。
つまり、話者認識部104は、ステップS1430において、第3発話の特徴量が第1話者モデル111aに合致すると判定すると、第3発話の話者が第1話者であると認識する。その結果、言語決定部105は、第3発話の言語を、言語設定情報において第1話者に対応付けられている言語に決定する(ステップS1440)。例えば、言語決定部105は、第3発話の言語を第1言語に決定する。
そして、音声認識部106、翻訳部107および音声合成部108は、第1言語の第3発話を第2言語に翻訳し、その翻訳によって得られる第2言語のテキストを表示部110に表示させ、第2言語の音声を再生部109に出力させる(ステップS1450)。ステップS1450の後、誤り判定部113は、ユーザによる操作に基づいて、翻訳の言語が誤っているか否かを判定する(ステップS1452)。つまり、誤り判定部113は、第3発話の第1言語から第2言語への翻訳が間違っているか否か、言い換えれば、話者認識部104による認識が間違っているか否かを判定する。
ここで、本変形例では、翻訳の言語が誤っていると判定されたときには(ステップS1452のYes)、言語決定部105は、第3発話の言語を、言語設定情報において第1話者に対応付けられていない第2言語に決定し直す。その結果、音声認識部106、翻訳部107および音声合成部108は、逆翻訳を行う。すなわち、音声認識部106、翻訳部107および音声合成部108は、第2言語の第3発話を第1言語に翻訳し、その翻訳によって得られる第1言語のテキストを表示部110に表示させ、第1言語の音声を再生部109に出力させる(ステップS1453)。
さらに、モデル更新部112は、第3発話の特徴量を用いて第2話者モデル111bを更新する(ステップS1454)。
一方、ステップS1452において、翻訳の言語が誤っていないと判定されると(ステップS1452のNo)、変形例2と同様に、モデル更新部112は、第3発話の特徴量を用いて第1話者モデル111aを更新する(ステップS1451)。
また、話者認識部104は、ステップS1430において、第3発話の特徴量が第2話者モデル111bに合致すると判定すると、第3発話の話者が第2話者であると認識する。その結果、言語決定部105は、第3発話の言語を、言語設定情報において第2話者に対応付けられている言語に決定する(ステップS1460)。例えば、言語決定部105は、第3発話の言語を第2言語に決定する。
そして、音声認識部106、翻訳部107および音声合成部108は、第2言語の第3発話を第1言語に翻訳し、その翻訳によって得られる第1言語のテキストを表示部110に表示させ、第1言語の音声を再生部109に出力させる(ステップS1470)。ステップS1470の後、誤り判定部113は、ユーザによる操作に基づいて、翻訳の言語が誤っているか否かを判定する(ステップS1472)。つまり、誤り判定部113は、第3発話の第2言語から第1言語への翻訳が間違っているか否か、言い換えれば、話者認識部104による認識が間違っているか否かを判定する。
ここで、本変形例では、翻訳の言語が誤っていると判定されたときには(ステップS1472のYes)、言語決定部105は、第3発話の言語を、言語設定情報において第2話者に対応付けられていない第1言語に決定し直す。その結果、音声認識部106、翻訳部107および音声合成部108は、逆翻訳を行う。すなわち、音声認識部106、翻訳部107および音声合成部108は、第1言語の第3発話を第2言語に翻訳し、その翻訳によって得られる第2言語のテキストを表示部110に表示させ、第2言語の音声を再生部109に出力させる(ステップS1473)。
さらに、モデル更新部112は、第3発話の特徴量を用いて第1話者モデル111aを更新する(ステップS1474)。
一方、ステップS1472において、翻訳の言語が誤っていないと判定されると(ステップS1472のNo)、変形例2と同様に、モデル更新部112は、第3発話の特徴量を用いて第2話者モデル111bを更新する(ステップS1471)。
このように、本変形例では、翻訳装置は、翻訳の言語が誤っていると判定されたときには、その翻訳における翻訳元の言語と翻訳先の言語とが入れ換えられた逆翻訳を実行する。そして、翻訳装置は、第1話者モデル111aおよび第2話者モデル111bのうち、発話に対して認識された話者と異なる話者に対応するモデルを、その発話を用いて生成または更新する。
これにより、発話の翻訳の言語が誤っている場合には、逆翻訳が行われるため、発話の誤った言語での翻訳を正すことができる。さらに、翻訳の言語が誤っていた場合でも、第1話者モデル111aおよび第2話者モデル111bが適切に生成または更新されるため、その後に取得される発話の話者を高精度に認識することができる。その結果、誤った言語での翻訳の発生を抑えることができる。
(変形例4)
図12は、実施の形態1の変形例4における翻訳装置の構成を示すブロック図である。
本変形例における翻訳装置100dは、実施の形態1における翻訳装置100の構成要素を全て備えるとともに、発話長判定部114を備える。
発話長判定部114は、収音部101によって取得された発話の時間長が閾値以上であるか否かを判定する。閾値は、例えば1つの単語が発話される時間長であって、具体的には0.3~0.4秒である。なお、閾値は、0.3~0.4秒に限定されるものではなく、0.3秒未満であっても、0.4秒よりも長くてもよい。
本変形例における特徴量抽出部103は、収音部101によって取得された発話のうち、閾値以上の時間長を有する発話から特徴量を抽出し、閾値未満の時間長を有する発話からの特徴量の抽出を行わない。
本変形例における翻訳装置100dは、実施の形態1と同様に、図5に示すフローチャートにしたがって動作する。
図13Aは、本変形例の設定処理(ステップS1100)において第1発話を取得する処理(ステップS1110)の詳細を示すフローチャートである。
まず、収音部101は、第1話者の発話を取得する(ステップS1111)。次に、発話長判定部114は、その発話の時間長が閾値以上であるか否かを判定する(ステップS1112)。ここで、発話の時間長が閾値以上であると判定すると(ステップS1112のYes)、発話長判定部114は、その発話を示す音声信号を、第1発話を示す音声信号として特徴量抽出部103に出力する(ステップS1113)。
図13Bは、本変形例のモデル生成翻訳処理(ステップS1300)において第2発話を取得する処理(ステップS1310)の詳細を示すフローチャートである。
まず、収音部101は、会話開始後の発話を取得する(ステップS1311)。次に、発話長判定部114は、その発話の時間長が閾値以上であるか否かを判定する(ステップS1312)。ここで、発話の時間長が閾値以上であると判定すると(ステップS1312のYes)、発話長判定部114は、その発話を示す音声信号を、第2発話を示す音声信号として特徴量抽出部103に出力する(ステップS1313)。
図13Cは、本変形例の定常翻訳処理(ステップS1400)において第3発話を取得する処理(ステップS1410)の詳細を示すフローチャートである。
まず、収音部101は、第1話者モデル111aおよび第2話者モデル111bが生成された後の発話を取得する(ステップS1411)。次に、発話長判定部114は、その発話の時間長が閾値以上であるか否かを判定する(ステップS1412)。ここで、発話の時間長が閾値以上であると判定すると(ステップS1412のYes)、発話長判定部114は、その発話を示す音声信号を、第3発話を示す音声信号として特徴量抽出部103に出力する(ステップS1413)。
このように、本変形例では、第1発話の取得、第2発話の取得、または第3発話の取得では、第1話者または第2話者の発話の時間長が閾値以上か否かを判定し、閾値以上と判定された時間長の発話を、第1発話、第2発話または第3発話として取得する。これにより、例えば、意味をなさない発話が不適切に翻訳されてしまうことを抑え、翻訳を伴う会話をスムースに行うことができる。
(変形例5)
図14は、実施の形態1の変形例5における翻訳装置の構成を示すブロック図である。
本変形例における翻訳装置100eは、実施の形態1における翻訳装置100の構成要素を全て備えるとともに、雑音判定部115を備える。
雑音判定部115は、収音部101によって取得された音が、音声すなわち発話であるか否かを判定する。言い換えれば、雑音判定部115は、その音が発話であるか、雑音であるかを判定する。例えば、雑音判定部115は、音の長さ、パワー、または音識別などに基づいて、音が発話であるか、雑音であるかを判定する。具体的には、雑音判定部115は、閾値未満の時間長の音、または、閾値以上のパワー(すなわち音圧)を有する音を、雑音と判定し、閾値を超える時間長の音、または、閾値未満のパワーを有する音を、発話と判定する。また、雑音判定部115は、音の周波数に基づいて、その音が雑音であるか、発話であるかを判定してもよい。
そして、雑音判定部115は、音が雑音であると判定すると、その音を示す音声信号の特徴量抽出部103への出力を禁止する。一方、雑音判定部115は、音が発話であると判定すると、その発話である音を示す音声信号を特徴量抽出部103へ出力する。
本変形例における翻訳装置100eは、実施の形態1と同様に、図5に示すフローチャートにしたがって動作する。
図15Aは、本変形例の設定処理(ステップS1100)において第1発話を取得する処理(ステップS1110)の詳細を示すフローチャートである。
まず、収音部101は、会話開始前の音を取得する(ステップS1115)。次に、雑音判定部115は、その音が発話であるか否かを判定する(ステップS1116)。ここで、発話であると判定すると(ステップS1116のYes)、雑音判定部115は、その音を示す音声信号を、第1発話を示す音声信号として特徴量抽出部103に出力する(ステップS1117)。一方、発話でない、すなわち雑音であると判定すると(ステップS1116のNo)、雑音判定部115は、その音を示す音声信号の特徴量抽出部103への出力を禁止する。
図15Bは、本変形例のモデル生成翻訳処理(ステップS1300)において第2発話を取得する処理(ステップS1310)の詳細を示すフローチャートである。
まず、収音部101は、会話開始後の音を取得する(ステップS1315)。次に、雑音判定部115は、その音が発話であるか否かを判定する(ステップS1316)。ここで、発話であると判定すると(ステップS1316のYes)、雑音判定部115は、その音を示す音声信号を、第2発話を示す音声信号として特徴量抽出部103に出力する(ステップS1317)。一方、発話でない、すなわち雑音であると判定すると(ステップS1316のNo)、雑音判定部115は、その音を示す音声信号の特徴量抽出部103への出力を禁止する。
図15Cは、本変形例の定常翻訳処理(ステップS1400)において第3発話を取得する処理(ステップS1410)の詳細を示すフローチャートである。
まず、収音部101は、第1話者モデル111aおよび第2話者モデル111bが生成された後の音を取得する(ステップS1415)。次に、雑音判定部115は、その音が発話であるか否かを判定する(ステップS1416)。ここで、発話であると判定すると(ステップS1416のYes)、雑音判定部115は、その音を示す音声信号を、第3発話を示す音声信号として特徴量抽出部103に出力する(ステップS1417)。一方、発話でない、すなわち雑音であると判定すると(ステップS1416のNo)、雑音判定部115は、その音を示す音声信号の特徴量抽出部103への出力を禁止する。
このように、本変形例では、第1発話の取得、第2発話の取得、または第3発話の取得では、第1話者または第2話者の周囲の音が発話か否かを判定し、発話であると判定された音を、第1発話、第2発話または第3発話として取得する。これにより、例えば、第1話者または第2話者の周囲のノイズが発話として扱われて、不適切に翻訳されてしまうことを抑え、翻訳を伴う会話をスムースに行うことができる。
(変形例6)
図16は、実施の形態1の変形例6における翻訳装置の構成を示すブロック図である。
本変形例における翻訳装置100fは、実施の形態1における翻訳装置100の話者認識部104の代わりに、話者認識部104aを備える。
話者認識部104aは、特徴量抽出部103によって抽出された第3発話の特徴量が第1話者モデル111aにも合致せず、第2話者モデル111bにも合致しない場合に、その第3発話を棄却する。
本変形例の翻訳装置100fにおける全体的な処理動作は、実施の形態1の翻訳装置100の図5に示す動作と同じである。しかし、本実施の形態では、定常翻訳処理(ステップS1400)の詳細が、実施の形態1と異なる。
図17は、本変形例における定常翻訳処理(ステップS1400f)の詳細な動作を示すフローチャートである。
本変形例における定常翻訳処理(ステップS1400f)は、図5の定常翻訳処理(ステップS1400)に相当し、図6Cに示すフローチャートの全てのステップを含む。さらに、本変形例における定常翻訳処理(ステップS1400f)は、第3発話を棄却する処理(ステップS1480)を含む。
すなわち、本変形例では、ステップS1430において、話者認識部104aは、第3発話の特徴量が第1話者モデル111aにも合致せず、第2話者モデル111bにも合致しないと判定すると、その第3発話を棄却する(ステップS1480)。これにより、第1話者および第2話者でもない話者からの発話と推定される第3発話が、翻訳されてしまうことを防ぐことができる。
このように、本変形例では、翻訳装置100fは、第3発話の特徴量と、第1話者モデル111aおよび第2話者モデル111bのそれぞれとを比較することによって、第3発話の話者が第1話者および第2話者の何れでもないと認識した場合には、第3発話を棄却することによって、その第3発話の翻訳を行わない。
これにより、第1話者および第2話者の何れでもない第3話者の発話が翻訳されてしまうことを抑えることができる。つまり、第1話者および第2話者との間の翻訳を伴う会話が、第3話者の発話によって乱されることを抑え、その会話をスムースに行うことができる。
(実施の形態2)
本実施の形態における翻訳装置は、実施の形態1のように会話開始前に第1話者モデル111aを生成することなく、会話開始後に第1話者モデル111aおよび第2話者モデル111bを生成する。そのため、本実施の形態における翻訳装置では、会話開始前に、第1話者と第2話者のうち、会話において最初に発話する話者を設定しておく。
図18は、本実施の形態における翻訳装置200の構成を示すブロック図である。
本実施の形態における翻訳装置200は、実施の形態1と同様に、収音部101と、言語設定部102と、特徴量抽出部103と、話者認識部104と、言語決定部105と、音声認識部106と、翻訳部107と、音声合成部108と、再生部109と、表示部110と、モデル格納部111とを備える。さらに、本実施の形態における翻訳装置200は、発話順設定部116を備える。なお、本実施の形態において、実施の形態1の翻訳装置と同一の構成要素に対しては、実施の形態1と同一の符号を付し、その構成要素の詳細な説明を省略する。
発話順設定部116は、会話を行う第1話者および第2話者のうち、その会話において最初に発話する話者として例えば第1話者を設定する。つまり、発話順設定部116は、その会話において最初に発話する話者として設定された第1話者を示す発話順情報を生成する。
図19は、翻訳装置200の言語設定画面の一例を示す図である。
翻訳装置200は、会話が開始される前に、言語設定画面を表示部110に表示する。この言語設定画面は、実施の形態1の図2Aに示す言語設定画面と同様に、第1話者の言語を設定するための第1言語設定欄110aと、第2話者の言語を設定するための第2言語設定欄110bとを含む。さらに、本実施の形態における言語設定画面は、会話において最初に発話する話者を設定するためのラジオボタン110dおよび110eを含む。例えば、翻訳装置200のユーザは、その翻訳装置200を操作することによって、最初に発話する話者として第1話者を設定するためのラジオボタン110dに、チェックを入れる。このチェックによって、第1話者が最初に発話する話者として設定される。つまり、発話順設定部116は、会話において最初に発話する話者として設定された第1話者を示す発話順情報を生成する。そして、発話順設定部116は、その発話順情報を話者認識部104に出力する。なお、本実施の形態では、会話において最初に発話する話者として設定された第1話者を示す発話順情報を生成するが、最初に発話する話者として第2話者が設定される場合には、第2話者を示す発話順情報を生成する。
話者認識部104は、その発話順情報に基づいて、会話開始後の最初に取得される発話の話者を第1話者として認識する。そして、話者認識部104は、特徴量抽出部103によってその発話から抽出された特徴量を第1話者モデル111aとしてモデル格納部111に格納する。これにより、第1話者モデル111aが生成される。
言語決定部105は、話者認識部104によって認識された話者の言語を、言語設定情報に基づいて決定する。つまり、上述のように、会話における最初の発話の話者が第1話者として認識されると、言語決定部105は、言語設定情報においてその第1話者に対応付けられている第1言語を、その最初の発話の言語として決定する。その結果、音声認識部106、翻訳部107および音声合成部108は、第1言語の最初の発話を第2言語に翻訳し、その翻訳によって得られる第2言語のテキストを表示部110に表示させ、第2言語の音声を再生部109に出力させる。
本実施の形態の翻訳装置200における全体的な処理動作は、実施の形態1の翻訳装置100の図5に示す動作と同じである。しかし、本実施の形態では、設定処理(ステップS1100)の詳細と、モデル生成翻訳処理(ステップS1300)の詳細とが、実施の形態1と異なる。
図20Aは、本実施の形態における設定処理(ステップS1100)の詳細な動作を示すフローチャートである。
まず、発話順設定部116は、ユーザによる翻訳装置200の操作に応じて、第1話者および第2話者のうち、会話において最初に発話する話者として第1話者を設定する(ステップS1101)。そして、発話順設定部116は、最初の話者が第1話者であることを示す発話順情報を話者認識部104に出力する。
次に、言語設定部102は、ユーザによる翻訳装置200の操作に応じて、第1話者に対して第1言語を設定し、第2話者に対して第2言語を設定する(ステップS1130)。
このように、本実施の形態における翻訳装置200は、第1話者の言語および第2話者の言語として設定された第1言語および第2言語を示す言語設定情報を生成し、会話において最初に発話する話者として設定された第1話者を示す発話順情報を生成する。
図20Bは、本実施の形態におけるモデル生成翻訳処理(ステップS1300)の詳細な動作を示すフローチャートである。
本実施の形態におけるモデル生成翻訳処理は、実施の形態1の図6Bに示すモデル生成翻訳処理の各ステップを含み、さらに、ステップS1301~S1305を含む。
まず、翻訳装置200の収音部101は、会話開始後の最初の発話である第1発話を取得する(ステップS1301)。
次に、特徴量抽出部103は、その取得された第1発話から特徴量を抽出する(ステップS1302)。
そして、話者認識部104は、発話順設定部116から出力された発話順情報に基づいて、第1発話の話者として第1話者を認識し、その第1発話の特徴量を、第1話者に対応する第1話者モデル111aとしてモデル格納部111に保存する(ステップS1303)。これにより、第1話者モデル111aが生成される。
次に、言語決定部105は、言語設定情報において第1話者に対応付けられている第1言語を、その第1発話の言語として決定する(ステップS1304)。その結果、音声認識部106、翻訳部107および音声合成部108は、第1言語の最初の発話を第2言語に翻訳し、その翻訳によって得られる第2言語のテキストを表示部110に表示させ、第2言語の音声を再生部109に出力させる(ステップS1305)。
その後、翻訳装置200は、実施の形態1と同様に、ステップS1310~S1380の処理を行う。
このように、本実施の形態における翻訳装置200は、会話開始の操作が受け付けられた場合には、その操作の受け付け後の最初の発話である第1発話を取得し、発話順情報に基づいて、取得された第1発話から、第1話者の発話の特徴量のモデルである第1話者モデル111aを生成する。そして、翻訳装置200は、言語設定情報および発話順情報に基づいて、取得された第1発話を第1言語から第2言語に翻訳する。その後に第2発話を取得したときには、翻訳装置200は、実施の形態1と同様に、第2発話の特徴量と第1話者モデル111aとを比較することによって、その第2発話の話者を認識し、認識結果に応じて翻訳を行う。
これにより、会話開始前に第1話者および第2話者のそれぞれの言語と発話順とを設定しておけば、会話開始後には、発話ごとに、その発話の話者が認識され、その話者の言語から相手の話者の言語への翻訳が自動的に行われる。したがって、従来の翻訳方法または翻訳装置のように手間を要することなく、翻訳を伴う会話をスムースに行うことができる。つまり、第1話者および第2話者が発話するたびに、翻訳の言語を切り換えるための操作を行う必要がなく、必要な操作を削減して会話をスムースに行うことができる。その結果、ユーザビリティの向上を図ることができる。
また、本実施の形態における翻訳装置200は、実施の形態1と同様の変形例1~6の構成を有していてもよい。これにより、本実施の形態においても、上記各変形例の効果を奏することができる。
(その他の実施の形態)
以上、一つまたは複数の態様に係る翻訳装置について、各実施の形態および各変形例に基づいて説明したが、本発明は、この実施の形態に限定されるものではない。本発明の趣旨を逸脱しない限り、当業者が思いつく各種変形を上記各実施の形態および変形例に施したものや、異なる実施の形態または変形例における構成要素を組み合わせて構築される形態も、本発明の範囲内に含まれてもよい。
例えば、上記各実施の形態および各変形例では、翻訳装置は、カードのような形状に構成されて、ユーザに携帯されるが、タブレットのような形状に構成されていてもよい。この場合には、翻訳装置は、例えば、ホテルまたは商業施設などのフロントに設置されたカウンターなどに、据え置かれてもよい。
また、上記各実施の形態および各変形例では、翻訳装置は、翻訳されたテキストに対して音声合成を行うが、このときに、話者の性別に応じた合成音声を生成してもよい。例えば、男性の第1話者が第1言語で発話した場合には、翻訳装置は、男性の第2言語の合成音声を生成して出力する。この場合、言語設定部102は、第1話者および第2話者のそれぞれの言語を設定するだけでなく、それぞれの性別を設定してもよい。音声合成部108は、その設定された性別に応じた合成音声を生成する。または、話者認識部104が、発話の特徴量から、その発話の話者の性別を判定してもよい。この場合には、例えば、モデル格納部111に、一般的な男性の発話のモデルと、一般的な女性の発話のモデルとが格納されている。そして、話者認識部104は、発話の特徴量とそれらのモデルとを比較することによって、その発話の話者が男性であるか女性であるかを判定する。音声合成部108は、その判定された性別の合成音声を生成する。
これにより、翻訳装置から出力される合成音声を、話者の音声に近づけることができ、翻訳を伴う会話をスムースに行うことができる。
また、翻訳装置は、翻訳されたテキストに対して音声合成を行うときには、話者の音声に類似する合成音声を生成してもよい。つまり、音声合成部108は、第1話者モデル111aまたは第2話者モデル111bから、発話に対して認識された話者に対応するモデルを選択し、そのモデルを用いて音声合成を行う。これにより、翻訳装置からは、話者の音声に類似する合成音声が、その話者の発話の言語と異なる言語で出力され、翻訳を伴う会話をよりスムースに行うことができる。
また、上記各実施の形態および各変形例では、ユーザによる操作に応じて、第1話者および第2話者の言語を設定したが、収音部101によって取得された発話に基づいて、その発話の言語を決定してもよい。例えば、言語決定部105は、第1言語の一般的な特徴量および第2言語の一般的な特徴量のそれぞれと、収音部101によって取得された発話の特徴量とを比較することによって、その発話の言語を決定する。これにより、言語の設定の手間を省くことができ、ユーザビリティのさらなる向上を図ることができる。
また、上記実施の形態1およびその各変形例では、翻訳装置は、会話開始前に、第1話者モデル111aを生成してモデル格納部111に保存する。しかし、モデル格納部111に複数のモデルが予め格納されている場合には、翻訳装置は、会話開始前に、それらの複数のモデルから1つのモデルを第1話者モデル111aとして選択してもよい。この場合には、モデルの生成を省くことができ、翻訳装置の処理負担を軽減することができる。
上記各実施の形態および各変形例において、各構成要素は、専用のハードウェアで構成されるか、各構成要素に適したソフトウェアプログラムを実行することによって実現されてもよい。各構成要素は、CPUまたはプロセッサなどのプログラム実行部が、ハードディスクまたは半導体メモリなどのコンピュータ読み取り可能な非一時的な記録媒体に記録されたソフトウェアプログラムを読み出して実行することによって実現されてもよい。ここで、上記各実施の形態および各変形例の翻訳装置などを実現するソフトウェアプログラムは、コンピュータに、図5、図6A~図6C、図8A、図8B、図10A~図11B、図13A~図13C、図15A~図15C、図17、図20A、または図20Bのフローチャートに含まれる各ステップを実行させる。
なお、ブロック図(図4、図7、図9、図12、図14、図16、または図18など)の各機能ブロックは典型的には集積回路であるLSIとして実現される。これらは個別に1チップ化されても良いし、一部又は全てを含むように1チップ化されても良い。例えばメモリ以外の機能ブロックが1チップ化されていても良い。
ここでは、LSIとしたが、集積度の違いにより、IC、システムLSI、スーパーLSI、ウルトラLSIと呼称されることもある。
また、集積回路化の手法はLSIに限るものではなく、専用回路又は汎用プロセッサで実現してもよい。LSI製造後に、プログラムすることが可能なFPGA(Field Programmable Gate Array)や、LSI内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサ を利用しても良い。
さらには、半導体技術の進歩又は派生する別技術によりLSIに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積化を行ってもよい。バイオ技術の適応等が可能性としてありえる。
本発明は、翻訳を伴う会話をスムースに行うことができ、例えば、人に携帯される翻訳装置、またはカウンターなどに据え置かれた翻訳装置として利用可能である。
100 翻訳装置
101 収音部
102 言語設定部
103 特徴量抽出部
104 話者認識部
105 言語決定部
106 音声認識部
107 翻訳部
108 音声合成部
109 再生部
110 表示部
111 モデル格納部
111a 第1話者モデル
111b 第2話者モデル
112 モデル更新部
113 誤り判定部
114 発話長判定部
115 雑音判定部
116 発話順設定部
S1100 設定処理
S1200 会話開始処理
S1300 モデル生成翻訳処理
S1400 翻訳処理

Claims (10)

  1. 第1言語で発話する第1話者と、第2言語で発話する第2話者との間の会話をコンピュータが翻訳する情報処理方法であって、
    前記第1話者の言語および前記第2話者の言語として設定された前記第1言語および前記第2言語を示す言語設定情報を生成し、
    ユーザによる操作に応じて、前記会話において最初に発話する話者として設定された前記第1話者を示す発話順情報を生成し、
    会話開始の操作を受け付け、
    前記操作の受け付け後の最初の発話である第1発話を取得し、
    前記発話順情報に基づいて、取得された前記第1発話の話者が前記第1話者であると判定し、取得された前記第1発話から、前記第1話者の発話の特徴量のモデルである第1話者モデルを生成し、
    前記言語設定情報および前記発話順情報に基づいて、取得された前記第1発話を前記第1言語から前記第2言語に翻訳し、
    第2発話を取得し、
    取得された前記第2発話の特徴量と前記第1話者モデルとを比較することによって、取得された前記第2発話の話者が前記第1話者であるか否かを認識し、
    前記第1話者であると認識された場合には、前記言語設定情報に基づいて、取得された前記第2発話を前記第1言語から前記第2言語に翻訳し、
    前記第1話者でないと認識された場合には、前記言語設定情報に基づいて、取得された前記第2発話を前記第2言語から前記第1言語に翻訳する
    情報処理方法。
  2. 前記情報処理方法は、さらに、
    前記第2発話が前記第1言語から前記第2言語に翻訳される場合には、
    前記第1話者モデルを、前記第2発話を用いて更新する
    請求項に記載の情報処理方法。
  3. 前記情報処理方法は、さらに、
    前記第2発話が前記第1言語から前記第2言語に翻訳される場合には、
    前記第2発話の翻訳の言語が誤っているか否かを判定し、
    前記第2発話の翻訳の言語が誤っていないと判定されたときに、前記第1話者モデルを、前記第2発話を用いて更新する
    請求項に記載の情報処理方法。
  4. 前記情報処理方法は、さらに、
    前記第2発話の翻訳の言語が誤っていると判定されたときには、
    前記第2発話の翻訳における翻訳元の言語と翻訳先の言語とが入れ換えられた逆翻訳を実行し、
    取得された前記第2発話から、前記第2話者の発話の特徴量のモデルである第2話者モデルを生成する
    請求項に記載の情報処理方法。
  5. 前記第1発話の取得または前記第2発話の取得では、
    前記第1話者または前記第2話者の発話の時間長が閾値以上か否かを判定し、前記閾値以上と判定された時間長の発話を、前記第1発話または前記第2発話として取得する
    請求項に記載の情報処理方法。
  6. 前記第1発話の取得または前記第2発話の取得では、
    前記第1話者または前記第2話者の周囲の音が発話か否かを判定し、発話であると判定された前記音を、前記第1発話または前記第2発話として取得する
    請求項に記載の情報処理方法。
  7. 前記情報処理方法は、さらに、
    前記第2発話の話者が前記第1話者でないと認識された場合には、
    取得された前記第2発話から、前記第2話者の発話の特徴量のモデルである第2話者モデルを生成し、
    第3発話を取得し、
    取得された前記第3発話の特徴量と、前記第1話者モデルおよび前記第2話者モデルのそれぞれとを比較することによって、取得された前記第3発話の話者が前記第1話者であるか、前記第2話者であるかを認識し、
    前記第1話者であると認識された場合には、前記言語設定情報に基づいて、取得された前記第3発話を前記第1言語から前記第2言語に翻訳し、
    前記第2話者であると認識された場合には、前記言語設定情報に基づいて、取得された前記第3発話を前記第2言語から前記第1言語に翻訳する
    請求項に記載の情報処理方法。
  8. 前記情報処理方法は、さらに、
    前記第3発話の特徴量と、前記第1話者モデルおよび前記第2話者モデルのそれぞれとを比較することによって、前記第3発話の話者が前記第1話者および前記第2話者の何れでもないと認識した場合には、
    前記第3発話を棄却することによって、前記第3発話の翻訳を行わない
    請求項に記載の情報処理方法。
  9. 第1言語で発話する第1話者と、第2言語で発話する第2話者との間の会話を翻訳する情報処理装置であって、
    処理回路と、
    前記処理回路に接続された記録媒体とを備え、
    前記処理回路は、前記記録媒体を用いて、
    前記第1話者の言語および前記第2話者の言語として設定された前記第1言語および前
    記第2言語を示す言語設定情報を生成し、
    ユーザによる操作に応じて、前記会話において最初に発話する話者として設定された前記第1話者を示す発話順情報を生成し、
    会話開始の操作を受け付け、
    前記操作の受け付け後の最初の発話である第1発話を音声信号として取得し、
    前記発話順情報に基づいて、取得された前記第1発話の話者が前記第1話者であると判定し、取得された前記第1発話から、前記第1話者の発話の特徴量のモデルである第1話者モデルを生成し、
    前記言語設定情報および前記発話順情報に基づいて、取得された前記第1発話を前記第1言語から前記第2言語に翻訳し、
    第2発話を音声信号として取得し、
    取得された前記第2発話の特徴量と前記第1話者モデルとを比較することによって、取得された前記第2発話の話者が前記第1話者であるか否かを認識し、
    前記第1話者であると認識された場合には、前記言語設定情報に基づいて、取得された前記第2発話を前記第1言語から前記第2言語に翻訳し、
    前記第1話者でないと認識された場合には、前記言語設定情報に基づいて、取得された前記第2発話を前記第2言語から前記第1言語に翻訳する、
    情報処理装置。
  10. 第1言語で発話する第1話者と、第2言語で発話する第2話者との間の会話を翻訳するためのプログラムであって、
    前記第1話者の言語および前記第2話者の言語として設定された前記第1言語および前記第2言語を示す言語設定情報を生成し、
    ユーザによる操作に応じて、前記会話において最初に発話する話者として設定された前記第1話者を示す発話順情報を生成し、
    会話開始の操作を受け付け、
    前記操作の受け付け後の最初の発話である第1発話を音声信号として取得し、
    前記発話順情報に基づいて、取得された前記第1発話の話者が前記第1話者であると判定し、取得された前記第1発話から、前記第1話者の発話の特徴
    量のモデルである第1話者モデルを生成し、
    前記言語設定情報および前記発話順情報に基づいて、取得された前記第1発話を前記第1言語から前記第2言語に翻訳し、
    第2発話を音声信号として取得し、
    取得された前記第2発話の特徴量と前記第1話者モデルとを比較することによって、取得された前記第2発話の話者が前記第1話者であるか否かを認識し、
    前記第1話者であると認識された場合には、前記言語設定情報に基づいて、取得された前記第2発話を前記第1言語から前記第2言語に翻訳し、
    前記第1話者でないと認識された場合には、前記言語設定情報に基づいて、取得された前記第2発話を前記第2言語から前記第1言語に翻訳する、
    ことをコンピュータに実行させるプログラム。
JP2017162841A 2017-08-25 2017-08-25 情報処理方法、情報処理装置およびプログラム Active JP7197259B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2017162841A JP7197259B2 (ja) 2017-08-25 2017-08-25 情報処理方法、情報処理装置およびプログラム
US16/058,271 US10664667B2 (en) 2017-08-25 2018-08-08 Information processing method, information processing device, and recording medium having program recorded thereon
CN201810953465.7A CN109426669B (zh) 2017-08-25 2018-08-21 信息处理方法、信息处理装置以及记录有程序的记录介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017162841A JP7197259B2 (ja) 2017-08-25 2017-08-25 情報処理方法、情報処理装置およびプログラム

Publications (2)

Publication Number Publication Date
JP2019040106A JP2019040106A (ja) 2019-03-14
JP7197259B2 true JP7197259B2 (ja) 2022-12-27

Family

ID=65437256

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017162841A Active JP7197259B2 (ja) 2017-08-25 2017-08-25 情報処理方法、情報処理装置およびプログラム

Country Status (3)

Country Link
US (1) US10664667B2 (ja)
JP (1) JP7197259B2 (ja)
CN (1) CN109426669B (ja)

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2578386B (en) 2017-06-27 2021-12-01 Cirrus Logic Int Semiconductor Ltd Detection of replay attack
GB201713697D0 (en) 2017-06-28 2017-10-11 Cirrus Logic Int Semiconductor Ltd Magnetic detection of replay attack
GB2563953A (en) 2017-06-28 2019-01-02 Cirrus Logic Int Semiconductor Ltd Detection of replay attack
GB201801530D0 (en) 2017-07-07 2018-03-14 Cirrus Logic Int Semiconductor Ltd Methods, apparatus and systems for authentication
GB201801527D0 (en) 2017-07-07 2018-03-14 Cirrus Logic Int Semiconductor Ltd Method, apparatus and systems for biometric processes
GB201801526D0 (en) 2017-07-07 2018-03-14 Cirrus Logic Int Semiconductor Ltd Methods, apparatus and systems for authentication
GB201801532D0 (en) 2017-07-07 2018-03-14 Cirrus Logic Int Semiconductor Ltd Methods, apparatus and systems for audio playback
GB201801528D0 (en) 2017-07-07 2018-03-14 Cirrus Logic Int Semiconductor Ltd Method, apparatus and systems for biometric processes
GB201801663D0 (en) 2017-10-13 2018-03-21 Cirrus Logic Int Semiconductor Ltd Detection of liveness
GB201804843D0 (en) 2017-11-14 2018-05-09 Cirrus Logic Int Semiconductor Ltd Detection of replay attack
GB201801664D0 (en) 2017-10-13 2018-03-21 Cirrus Logic Int Semiconductor Ltd Detection of liveness
GB2567503A (en) 2017-10-13 2019-04-17 Cirrus Logic Int Semiconductor Ltd Analysing speech signals
GB201801661D0 (en) * 2017-10-13 2018-03-21 Cirrus Logic International Uk Ltd Detection of liveness
GB201801659D0 (en) 2017-11-14 2018-03-21 Cirrus Logic Int Semiconductor Ltd Detection of loudspeaker playback
US11735189B2 (en) 2018-01-23 2023-08-22 Cirrus Logic, Inc. Speaker identification
US11475899B2 (en) 2018-01-23 2022-10-18 Cirrus Logic, Inc. Speaker identification
US11264037B2 (en) 2018-01-23 2022-03-01 Cirrus Logic, Inc. Speaker identification
US10692490B2 (en) 2018-07-31 2020-06-23 Cirrus Logic, Inc. Detection of replay attack
US10915614B2 (en) 2018-08-31 2021-02-09 Cirrus Logic, Inc. Biometric authentication
US11037574B2 (en) 2018-09-05 2021-06-15 Cirrus Logic, Inc. Speaker recognition and speaker change detection
US11100926B2 (en) * 2018-09-27 2021-08-24 Coretronic Corporation Intelligent voice system and method for controlling projector by using the intelligent voice system
US11087754B2 (en) 2018-09-27 2021-08-10 Coretronic Corporation Intelligent voice system and method for controlling projector by using the intelligent voice system
CN108986793A (zh) * 2018-09-28 2018-12-11 北京百度网讯科技有限公司 翻译处理方法、装置及设备
CN109558597B (zh) * 2018-12-17 2022-05-24 北京百度网讯科技有限公司 文本翻译方法及装置、设备及存储介质
JP7266448B2 (ja) * 2019-04-12 2023-04-28 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 話者認識方法、話者認識装置、及び話者認識プログラム
WO2020240795A1 (ja) * 2019-05-30 2020-12-03 日本電信電話株式会社 表示情報生成装置、表示情報生成方法及び表示情報生成プログラム

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007264473A (ja) 2006-03-29 2007-10-11 Toshiba Corp 音声処理装置、音声処理方法および音声処理プログラム
JP2009139390A (ja) 2007-12-03 2009-06-25 Nec Corp 情報処理システム、処理方法及びプログラム
JP2011248002A (ja) 2010-05-25 2011-12-08 Fujitsu Toshiba Mobile Communications Ltd 翻訳装置
JP2014123072A (ja) 2012-12-21 2014-07-03 Nec Corp 音声合成システム及び音声合成方法

Family Cites Families (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62109099A (ja) * 1985-11-08 1987-05-20 沖電気工業株式会社 音声区間検出方式
JP3034773B2 (ja) * 1994-12-27 2000-04-17 シャープ株式会社 電子通訳機
US6292769B1 (en) * 1995-02-14 2001-09-18 America Online, Inc. System for automated translation of speech
US20020032564A1 (en) * 2000-04-19 2002-03-14 Farzad Ehsani Phrase-based dialogue modeling with particular application to creating a recognition grammar for a voice-controlled user interface
US6687671B2 (en) * 2001-03-13 2004-02-03 Sony Corporation Method and apparatus for automatic collection and summarization of meeting information
US7668718B2 (en) * 2001-07-17 2010-02-23 Custom Speech Usa, Inc. Synchronized pattern recognition source data processed by manual or automatic means for creation of shared speaker-dependent speech user profile
AUPR956901A0 (en) * 2001-12-17 2002-01-24 Jayaratne, Neville Real time translator
US7457745B2 (en) * 2002-12-03 2008-11-25 Hrl Laboratories, Llc Method and apparatus for fast on-line automatic speaker/environment adaptation for speech/speaker recognition in the presence of changing environments
US7593842B2 (en) * 2002-12-10 2009-09-22 Leslie Rousseau Device and method for translating language
US20070016401A1 (en) * 2004-08-12 2007-01-18 Farzad Ehsani Speech-to-speech translation system with user-modifiable paraphrasing grammars
US8265933B2 (en) * 2005-12-22 2012-09-11 Nuance Communications, Inc. Speech recognition system for providing voice recognition services using a conversational language model
US20070255570A1 (en) * 2006-04-26 2007-11-01 Annaz Fawaz Y Multi-platform visual pronunciation dictionary
US9128926B2 (en) * 2006-10-26 2015-09-08 Facebook, Inc. Simultaneous translation of open domain lectures and speeches
US8364485B2 (en) * 2007-08-27 2013-01-29 International Business Machines Corporation Method for automatically identifying sentence boundaries in noisy conversational data
US7953590B2 (en) * 2007-10-02 2011-05-31 International Business Machines Corporation Using separate recording channels for speech-to-speech translation systems
CN103345467B (zh) * 2009-10-02 2017-06-09 独立行政法人情报通信研究机构 语音翻译***
US8279861B2 (en) * 2009-12-08 2012-10-02 International Business Machines Corporation Real-time VoIP communications using n-Way selective language processing
US20120330645A1 (en) * 2011-05-20 2012-12-27 Belisle Enrique D Multilingual Bluetooth Headset
US20130030789A1 (en) * 2011-07-29 2013-01-31 Reginald Dalce Universal Language Translator
US9053096B2 (en) * 2011-12-01 2015-06-09 Elwha Llc Language translation based on speaker-related information
US20130144619A1 (en) * 2011-12-01 2013-06-06 Richard T. Lord Enhanced voice conferencing
US9245254B2 (en) * 2011-12-01 2016-01-26 Elwha Llc Enhanced voice conferencing with history, language translation and identification
US9257115B2 (en) * 2012-03-08 2016-02-09 Facebook, Inc. Device for extracting information from a dialog
WO2013163293A1 (en) * 2012-04-25 2013-10-31 Kopin Corporation Instant translation system
JP6098072B2 (ja) 2012-08-31 2017-03-22 日本電気株式会社 音声認識装置、音声認識方法及びプログラム
US9600474B2 (en) * 2013-11-08 2017-03-21 Google Inc. User interface for realtime language translation
JP6148163B2 (ja) * 2013-11-29 2017-06-14 本田技研工業株式会社 会話支援装置、会話支援装置の制御方法、及び会話支援装置のプログラム
KR20150085145A (ko) * 2014-01-13 2015-07-23 한국전자통신연구원 사용자 반응 기반 통역 시스템 및 그 방법
JP2015153108A (ja) * 2014-02-13 2015-08-24 株式会社東芝 音声会話支援装置、及び音声会話支援方法及びプログラム
JP6334354B2 (ja) * 2014-09-30 2018-05-30 株式会社東芝 機械翻訳装置、方法およびプログラム
JP6303971B2 (ja) 2014-10-17 2018-04-04 富士通株式会社 話者交替検出装置、話者交替検出方法及び話者交替検出用コンピュータプログラム
CN105512113B (zh) * 2015-12-04 2019-03-19 青岛冠义科技有限公司 交流式语音翻译***及翻译方法
JP2017120616A (ja) * 2015-12-25 2017-07-06 パナソニックIpマネジメント株式会社 機械翻訳方法、及び、機械翻訳システム
US20170235724A1 (en) * 2016-02-11 2017-08-17 Emily Grewal Systems and methods for generating personalized language models and translation using the same

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007264473A (ja) 2006-03-29 2007-10-11 Toshiba Corp 音声処理装置、音声処理方法および音声処理プログラム
JP2009139390A (ja) 2007-12-03 2009-06-25 Nec Corp 情報処理システム、処理方法及びプログラム
JP2011248002A (ja) 2010-05-25 2011-12-08 Fujitsu Toshiba Mobile Communications Ltd 翻訳装置
JP2014123072A (ja) 2012-12-21 2014-07-03 Nec Corp 音声合成システム及び音声合成方法

Also Published As

Publication number Publication date
CN109426669B (zh) 2023-03-24
JP2019040106A (ja) 2019-03-14
US20190065478A1 (en) 2019-02-28
CN109426669A (zh) 2019-03-05
US10664667B2 (en) 2020-05-26

Similar Documents

Publication Publication Date Title
JP7197259B2 (ja) 情報処理方法、情報処理装置およびプログラム
CN106710593B (zh) 一种添加账号的方法、终端、服务器
US8560326B2 (en) Voice prompts for use in speech-to-speech translation system
JP5731998B2 (ja) 対話支援装置、対話支援方法および対話支援プログラム
WO2005069171A1 (ja) 文書対応付け装置、および文書対応付け方法
JP2009047920A (ja) ユーザと音声により対話する装置および方法
JP2016502157A (ja) 単語自動翻訳に基づく唇形状変更装置および方法
KR102208387B1 (ko) 음성 대화 재구성 방법 및 장치
JP5753769B2 (ja) 音声データ検索システムおよびそのためのプログラム
US7272562B2 (en) System and method for utilizing speech recognition to efficiently perform data indexing procedures
JP6559417B2 (ja) 情報処理装置、情報処理方法、対話システム、および制御プログラム
JP5201053B2 (ja) 合成音声判別装置、方法及びプログラム
CN110992984B (zh) 音频处理方法及装置、存储介质
JP2010128766A (ja) 情報処理装置、情報処理方法、プログラム及び記憶媒体
JP2001272990A (ja) 対話記録編集装置
JP2015200913A (ja) 話者分類装置、話者分類方法および話者分類プログラム
JP2011064969A (ja) 音声認識装置及び音声認識方法
JP6044490B2 (ja) 情報処理装置、話速データ生成方法、及びプログラム
JP4235635B2 (ja) データ検索装置及びその制御方法
KR102076565B1 (ko) 화자 식별 노이즈의 삽입을 통해 발화자의 식별이 가능하게 하는 음성 처리 장치 및 그 동작 방법
JP5476760B2 (ja) コマンド認識装置
CN109830228A (zh) 语音翻译器、方法、设备和存储介质
KR102574311B1 (ko) 음성 합성 서비스를 제공하는 장치, 단말기 및 방법
KR102442531B1 (ko) 발화자의 음성을 성별 및 시간에 따라 자동으로 통역하는 전자 장치 및 그 동작 방법
KR102471678B1 (ko) 음향 신호를 사용자 인터페이스에 시각적으로 표시하는 사용자 인터페이싱 방법 및 장치

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200728

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210824

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210914

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211208

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220510

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220726

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20221129

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20221215

R150 Certificate of patent or registration of utility model

Ref document number: 7197259

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150