JP7197259B2

JP7197259B2 - 情報処理方法、情報処理装置およびプログラム

Info

Publication number: JP7197259B2
Application number: JP2017162841A
Authority: JP
Inventors: 美沙貴辻川; 剛樹西川
Original assignee: Panasonic Intellectual Property Corp of America
Current assignee: Panasonic Intellectual Property Corp of America
Priority date: 2017-08-25
Filing date: 2017-08-25
Publication date: 2022-12-27
Anticipated expiration: 2037-08-25
Also published as: CN109426669B; JP2019040106A; US20190065478A1; CN109426669A; US10664667B2

Description

本発明は、互いに異なる言語で行われる会話を翻訳する情報処理方法、情報処理装置およびプログラムに関する。

従来、第１話者と第２話者との間の会話を翻訳する翻訳装置が提供されている。第１話者と第２話者とは互いに異なる言語で会話する。例えば、第１話者は、第１言語である日本語で発話し、第２話者は、第２言語である英語で発話する。

このような場合、従来の翻訳装置は、発話ごとに、その発話の翻訳の言語を、ユーザのボタン操作などによって決定する。例えば、第１話者であるユーザは、発話するときには、翻訳装置のボタンを操作することによって、第１言語から第２言語への翻訳を選択する。また、第２話者が発話するときには、ユーザは、翻訳装置のボタンを操作することによって、第２言語から第１言語への翻訳を選択する。

したがって、第１話者および第２話者のそれぞれが発話するたびに、翻訳装置の操作を要するため、翻訳を伴う会話をスムースに行うことができないという問題がある。

また、特許文献１には、複数の話者の会話において、対話中の話者の組が交替したことを検出する話者交換検出装置が開示されている。さらに、特許文献２には、入力音声の到来方向を推定して高精度な音声認識を行う音声認識装置が提供されている。

特開２０１６－０８０９１６号公報特開２０１４－０４８５１４号公報

しかしながら、上記特許文献１および特許文献２の技術を用いても、従来の翻訳装置では、翻訳を伴う会話をスムースに行うことができない。つまり、特許文献１では、対話中の話者の組が交替したことを検出するだけで、翻訳の言語を決定することができない。また、特許文献２では、入力音声の到来方向を音声認識に利用するため、話者の位置が固定されなければ、音声認識することができず、その結果、翻訳することができない。

そこで、本発明は、翻訳を伴う会話をスムースに行うことができる情報処理方法、情報処理装置およびプログラムを提供する。

本発明の一態様に係る情報処理方法は、第１言語で発話する第１話者と、第２言語で発話する第２話者との間の会話をコンピュータが翻訳する情報処理方法であって、前記第１話者の言語および前記第２話者の言語として設定された前記第１言語および前記第２言語を示す言語設定情報を生成し、ユーザによる操作に応じて、前記会話において最初に発話する話者として設定された前記第１話者を示す発話順情報を生成し、会話開始の操作を受け付け、前記操作の受け付け後の最初の発話である第１発話を取得し、前記発話順情報に基づいて、取得された前記第１発話の話者が前記第１話者であると判定し、取得された前記第１発話から、前記第１話者の発話の特徴量のモデルである第１話者モデルを生成し、前記言語設定情報および前記発話順情報に基づいて、取得された前記第１発話を前記第１言語から前記第２言語に翻訳し、第２発話を取得し、取得された前記第２発話の特徴量と前記第１話者モデルとを比較することによって、取得された前記第２発話の話者が前記第１話者であるか否かを認識し、前記第１話者であると認識された場合には、前記言語設定情報に基づいて、取得された前記第２発話を前記第１言語から前記第２言語に翻訳し、前記第１話者でないと認識された場合には、前記言語設定情報に基づいて、取得された前記第２発話を前記第２言語から前記第１言語に翻訳する。

なお、これらの包括的または具体的な態様は、システム、方法、集積回路、コンピュータプログラムまたはコンピュータ読み取り可能なＣＤ－ＲＯＭなどの記録媒体で実現されてもよく、システム、方法、集積回路、コンピュータプログラムおよび記録媒体の任意な組み合わせで実現されてもよい。

本発明の情報処理方法は、翻訳を伴う会話をスムースに行うことができる。

図１は、実施の形態１における翻訳装置の外観の一例を示す図である。図２Ａは、実施の形態１における翻訳装置の言語設定画面の一例を示す図である。図２Ｂは、実施の形態１における翻訳装置のモデル準備画面の一例を示す図である。図２Ｃは、実施の形態１における翻訳装置による会話の翻訳を開始させるための操作の一例を示す図である。図３は、実施の形態１における、第１話者と第２話者との間の会話を翻訳装置１００が翻訳している状況の一例を示す図である。図４は、実施の形態１における翻訳装置の構成を示すブロック図である。図５は、実施の形態１における翻訳装置の全体的な処理動作を示すフローチャートである。図６Ａは、図５の設定処理の詳細な動作を示すフローチャートである。図６Ｂは、図５のモデル生成翻訳処理の詳細な動作を示すフローチャートである。図６Ｃは、図５の定常翻訳処理の詳細な動作を示すフローチャートである。図７は、実施の形態１の変形例１における翻訳装置の構成を示すブロック図である。図８Ａは、実施の形態１の変形例１におけるモデル生成翻訳処理の詳細な動作を示すフローチャートである。図８Ｂは、実施の形態１の変形例１における定常翻訳処理の詳細な動作を示すフローチャートである。図９は、実施の形態１の変形例２における翻訳装置の構成を示すブロック図である。図１０Ａは、実施の形態１の変形例２におけるモデル生成翻訳処理の詳細な動作を示すフローチャートである。図１０Ｂは、実施の形態１の変形例２におけるモデル生成翻訳処理の詳細な動作を示すフローチャートである。図１１Ａは、実施の形態１の変形例３におけるモデル生成翻訳処理の詳細な動作を示すフローチャートである。図１１Ｂは、実施の形態１の変形例３におけるモデル生成翻訳処理の詳細な動作を示すフローチャートである。図１２は、実施の形態１の変形例４における翻訳装置の構成を示すブロック図である。図１３Ａは、実施の形態１の変形例４の設定処理において第１発話を取得する処理の詳細を示すフローチャートである。図１３Ｂは、実施の形態１の変形例４のモデル生成翻訳処理において第２発話を取得する処理の詳細を示すフローチャートである。図１３Ｃは、実施の形態１の変形例４の定常翻訳処理において第３発話を取得する処理の詳細を示すフローチャートである。図１４は、実施の形態１の変形例５における翻訳装置の構成を示すブロック図である。図１５Ａは、実施の形態１の変形例５の設定処理において第１発話を取得する処理の詳細を示すフローチャートである。図１５Ｂは、実施の形態１の変形例５のモデル生成翻訳処理において第２発話を取得する処理の詳細を示すフローチャートである。図１５Ｃは、実施の形態１の変形例５の定常翻訳処理において第３発話を取得する処理の詳細を示すフローチャートである。図１６は、実施の形態１の変形例６における翻訳装置の構成を示すブロック図である。図１７は、実施の形態１の変形例６における定常翻訳処理の詳細な動作を示すフローチャートである。図１８は、実施の形態２における翻訳装置の構成を示すブロック図である。図１９は、実施の形態２における翻訳装置の言語設定画面の一例を示す図である。図２０Ａは、実施の形態２における設定処理の詳細な動作を示すフローチャートである。図２０Ｂは、実施の形態２におけるモデル生成翻訳処理の詳細な動作を示すフローチャートである。

上述の問題を解決するために、本発明の一態様に係る情報処理方法は、第１言語で発話する第１話者と、第２言語で発話する第２話者との間の会話をコンピュータが翻訳する情報処理方法であって、前記第１話者の言語および前記第２話者の言語として設定された前記第１言語および前記第２言語を示す言語設定情報を生成し、前記第１話者の第１発話を取得し、取得された前記第１発話から、前記第１話者の発話の特徴量のモデルである第１話者モデルを生成し、会話開始の操作を受け付け、第２発話を取得し、取得された前記第２発話の特徴量と前記第１話者モデルとを比較することによって、取得された前記第２発話の話者が前記第１話者であるか否かを認識し、前記第１話者であると認識された場合には、前記言語設定情報に基づいて、取得された前記第２発話を前記第１言語から前記第２言語に翻訳し、前記第１話者でないと認識された場合には、前記言語設定情報に基づいて、取得された前記第２発話を前記第２言語から前記第１言語に翻訳する。

これにより、会話開始前に第１話者および第２話者のそれぞれの言語を設定し、第１話者モデルを生成しておけば、会話開始後には、発話ごとに、その発話の話者が認識され、その話者の言語から相手の話者の言語への翻訳が自動的に行われる。したがって、従来の翻訳方法または翻訳装置のように手間を要することなく、翻訳を伴う会話をスムースに行うことができる。つまり、第１話者および第２話者が発話するたびに、翻訳の言語を切り換えるための操作を行う必要がなく、必要な操作を削減して会話をスムースに行うことができる。その結果、ユーザビリティの向上を図ることができる。

また、本発明の他の態様に係る情報処理方法は、第１言語で発話する第１話者と、第２言語で発話する第２話者との間の会話をコンピュータが翻訳する情報処理方法であって、前記第１話者の言語および前記第２話者の言語として設定された前記第１言語および前記第２言語を示す言語設定情報を生成し、前記会話において最初に発話する話者として設定された前記第１話者を示す発話順情報を生成し、会話開始の操作を受け付け、前記操作の受け付け後の最初の発話である第１発話を取得し、前記発話順情報に基づいて、取得された前記第１発話から、前記第１話者の発話の特徴量のモデルである第１話者モデルを生成し、前記言語設定情報および前記発話順情報に基づいて、取得された前記第１発話を前記第１言語から前記第２言語に翻訳し、第２発話を取得し、取得された前記第２発話の特徴量と前記第１話者モデルとを比較することによって、取得された前記第２発話の話者が前記第１話者であるか否かを認識し、前記第１話者であると認識された場合には、前記言語設定情報に基づいて、取得された前記第２発話を前記第１言語から前記第２言語に翻訳し、前記第１話者でないと認識された場合には、前記言語設定情報に基づいて、取得された前記第２発話を前記第２言語から前記第１言語に翻訳する。

これにより、会話開始前に第１話者および第２話者のそれぞれの言語と発話順とを設定しておけば、会話開始後には、発話ごとに、その発話の話者が認識され、その話者の言語から相手の話者の言語への翻訳が自動的に行われる。したがって、従来の翻訳方法または翻訳装置のように手間を要することなく、翻訳を伴う会話をスムースに行うことができる。つまり、第１話者および第２話者が発話するたびに、翻訳の言語を切り換えるための操作を行う必要がなく、必要な操作を削減して会話をスムースに行うことができる。その結果、ユーザビリティの向上を図ることができる。

例えば、前記情報処理方法は、さらに、前記第２発話が前記第１言語から前記第２言語に翻訳される場合には、前記第１話者モデルを、前記第２発話を用いて更新してもよい。

これにより、第１発話から生成された第１話者モデルが、第２発話を用いて更新されるため、第１話者モデルの精度を高めることができ、発話ごとに、その発話の話者を高精度に認識することができる。その結果、誤った言語での翻訳の発生を抑えることができる。

例えば、前記情報処理方法は、さらに、前記第２発話が前記第１言語から前記第２言語に翻訳される場合には、前記第２発話の翻訳の言語が誤っているか否かを判定し、前記第２発話の翻訳の言語が誤っていないと判定されたときに、前記第１話者モデルを、前記第２発話を用いて更新してもよい。

これにより、第２発話の翻訳の言語が誤っていない場合に第１話者モデルが更新されるため、誤った言語での翻訳によって不適切に第１話者モデルが更新されてしまうことを抑えることができる。

例えば、前記情報処理方法は、さらに、前記第２発話の翻訳の言語が誤っていると判定されたときには、前記第２発話の翻訳における翻訳元の言語と翻訳先の言語とが入れ換えられた逆翻訳を実行し、取得された前記第２発話から、前記第２話者の発話の特徴量のモデルである第２話者モデルを生成してもよい。

これにより、第２発話の翻訳の言語が誤っている場合には、逆翻訳が行われるため、第２発話の誤った言語での翻訳を正すことができる。さらに、第２話者モデルが生成されるため、次に発話を取得した場合には、その発話の特徴量を第１話者モデルたけでなく、第２話者モデルとも比較することができ、その発話の話者を高精度に認識することができる。その結果、誤った言語での翻訳の発生を抑えることができる。

例えば、前記第１発話の取得または前記第２発話の取得では、前記第１話者または前記第２話者の発話の時間長が閾値以上か否かを判定し、前記閾値以上と判定された時間長の発話を、前記第１発話または前記第２発話として取得してもよい。

これにより、例えば、意味をなさない発話が不適切に翻訳されてしまうことを抑え、翻訳を伴う会話をスムースに行うことができる。

例えば、前記第１発話の取得または前記第２発話の取得では、前記第１話者または前記第２話者の周囲の音が発話か否かを判定し、発話であると判定された前記音を、前記第１発話または前記第２発話として取得してもよい。

これにより、例えば、第１話者または第２話者の周囲のノイズが発話として扱われて、不適切に翻訳されてしまうことを抑え、翻訳を伴う会話をスムースに行うことができる。

例えば、前記情報処理方法は、さらに、前記第２発話の話者が前記第１話者でないと認識された場合には、取得された前記第２発話から、前記第２話者の発話の特徴量のモデルである第２話者モデルを生成し、第３発話を取得し、取得された前記第３発話の特徴量と、前記第１話者モデルおよび前記第２話者モデルのそれぞれとを比較することによって、取得された前記第３発話の話者が前記第１話者であるか、前記第２話者であるかを認識し、前記第１話者であると認識された場合には、前記言語設定情報に基づいて、取得された前記第３発話を前記第１言語から前記第２言語に翻訳し、前記第２話者であると認識された場合には、前記言語設定情報に基づいて、取得された前記第３発話を前記第２言語から前記第１言語に翻訳してもよい。

これにより、第２話者モデルが生成されるため、次に発話を取得した場合には、その発話の特徴量を第１話者モデルたけでなく、第２話者モデルとも比較することができ、その発話の話者を高精度に認識することができる。その結果、誤った言語での翻訳の発生を抑えることができる。

例えば、前記情報処理方法は、さらに、前記第３発話の特徴量と、前記第１話者モデルおよび前記第２話者モデルのそれぞれとを比較することによって、前記第３発話の話者が前記第１話者および前記第２話者の何れでもないと認識した場合には、前記第３発話を棄却することによって、前記第３発話の翻訳を行わなくてもよい。

これにより、第１話者および第２話者の何れでもない第３話者の発話が翻訳されてしまうことを抑えることができる。つまり、第１話者および第２話者との間の翻訳を伴う会話が、第３話者の発話によって乱されることを抑え、その会話をスムースに行うことができる。

なお、これらの包括的または具体的な態様は、システム、方法、集積回路、コンピュータプログラムまたはコンピュータ読み取り可能なＣＤ－ＲＯＭなどの記録媒体で実現されてもよく、システム、方法、集積回路、コンピュータプログラムまたは記録媒体の任意な組み合わせで実現されてもよい。

以下、実施の形態について、図面を参照しながら具体的に説明する。

なお、以下で説明する実施の形態は、いずれも包括的または具体的な例を示すものである。以下の実施の形態で示される数値、形状、材料、構成要素、構成要素の配置位置及び接続形態、ステップ、ステップの順序などは、一例であり、本発明を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、最上位概念を示す独立請求項に記載されていない構成要素については、任意の構成要素として説明される。

また、各図は、模式図であり、必ずしも厳密に図示されたものではない。また、各図において、同じ構成部材については同じ符号を付している。また、以下の各実施の形態では、本開示における情報処理装置および情報処理方法をそれぞれ、翻訳装置および翻訳方法という。

（実施の形態１）
＜概要＞
図１は、実施の形態１における翻訳装置の外観の一例を示す図である。

情報処理装置である翻訳装置１００は、第１言語で発話する第１話者と、第２言語で発話する第２話者との間の会話を翻訳する装置である。このような翻訳装置１００は、例えばカードのような形状に構成され、発話を取得するマイクである収音部１０１と、翻訳結果を音声によって出力するスピーカである再生部１０９と、翻訳結果をテキストとして表示する表示部１１０とを備えている。

例えば、店員または警備員などの第１話者は、その翻訳装置１００を携帯しながら、自らに割り当てられた担当範囲を巡回または移動し、その範囲で会った人である第２話者と会話する。このとき、第１話者の言語と第２話者の言語とが異なる場合に、翻訳装置１００は、第１話者と第２話者との間の会話を翻訳する。

図２Ａは、翻訳装置１００の言語設定画面の一例を示す図である。

翻訳装置１００は、会話が開始される前に、言語設定画面を表示部１１０に表示する。この言語設定画面は、第１話者の言語を設定するための第１言語設定欄１１０ａと、第２話者の言語を設定するための第２言語設定欄１１０ｂとを含む。例えば、翻訳装置１００のユーザは、その翻訳装置１００を操作することによって、第１言語設定欄１１０ａに、第１話者の言語である第１言語（例えば日本語）を入力する。また、ユーザは、その翻訳装置１００を操作することによって、第２言語設定欄１１０ｂに、第２話者の言語である第２言語（例えば英語）を入力する。なお、ユーザは、第１話者または第２話者であってもよく、第１話者および第２話者の何れでもない人であってもよい。

これにより、翻訳装置１００では、第１話者の言語として第１言語が設定され、第２話者の言語として第２言語が設定される。つまり、翻訳装置１００は、第１話者の言語および第２話者の言語として設定された第１言語および第２言語を示す言語設定情報を生成する。

図２Ｂは、翻訳装置１００のモデル準備画面の一例を示す図である。

翻訳装置１００は、会話が開始される前に、第１話者モデルを生成するためのモデル準備画面を表示部１１０に表示する。第１話者モデルは、第１話者の発話の特徴量のモデルである。例えば、モデル準備画面には、メッセージ「第１話者のモデルを生成します。第１話者：発話してください。」が記載されている。

このとき、翻訳装置１００は、収音部１０１に周囲の音の取得を開始させる。そして、そのメッセージを見た第１話者は発話する。その結果、翻訳装置１００は、第１話者の発話を取得して、その発話の特徴量を抽出することによって第１話者モデルを生成する。言い換えれば、翻訳装置１００は、第１話者の第１発話を取得し、取得された第１発話から、第１話者の発話の特徴量のモデルである第１話者モデルを生成する。

図２Ｃは、翻訳装置１００による会話の翻訳を開始させるための操作の一例を示す図である。

翻訳装置１００は、第１話者モデルが生成されると、表示部１１０に会話開始ボタン１１０ｃを表示する。ここで、例えば、ユーザによってその会話開始ボタン１１０ｃが選択されると、翻訳装置１００は、会話開始の操作を受け付ける。その結果、翻訳装置１００は、収音部１０１によって取得される発話を翻訳する。そして、翻訳装置１００は、その翻訳結果をテキストとして表示部１１０に表示するとともに、再生部１０９から音声によって出力する。

図３は、第１話者と第２話者との間の会話を翻訳装置１００が翻訳している状況の一例を示す図である。

翻訳装置１００には、第１話者の言語が第１言語（例えば日本語）であり、第２話者の言語が第２言語（例えば英語）であることが、上述の言語設定画面によって予め設定されている。つまり、翻訳装置１００は、その設定内容を示す言語設定情報を生成して保持している。さらに、翻訳装置１００には、第１話者モデルが、上述のモデル準備画面によって予め生成されている。

そこで、例えば図３の（ａ）に示すように、第１話者は、第１言語である日本語で「ご用件はなんでしょうか？」と発話する。このとき、翻訳装置１００は、その発話「ご用件はなんでしょうか？」の話者が第１話者であることを、その発話と第１話者モデルとに基づいて認識する。さらに、翻訳装置１００は、認識された第１話者と言語設定情報に基づいて、その発話の言語として第１言語を特定する。その結果、翻訳装置１００は、発話「ご用件はなんでしょうか？」を第１言語である日本語として音声認識し、その音声認識によって得られるテキスト「ご用件はなんでしょうか？」を日本語から第２言語である英語に翻訳する。その翻訳によって、テキスト「Ｗｈａｔｉｓｙｏｕｒｐｕｒｏｓｅ？」が得られる。

翻訳装置１００は、その翻訳によって得られたテキスト「Ｗｈａｔｉｓｙｏｕｒｐｕｒｏｓｅ？」を、翻訳前のテキスト「ご用件はなんでしょうか？」とともに表示部１１０に表示する。さらに、翻訳装置１００は、翻訳によって得られたテキスト「Ｗｈａｔｉｓｙｏｕｒｐｕｒｏｓｅ？」に対して音声合成を行うことによって、音声「Ｗｈａｔｉｓｙｏｕｒｐｕｒｏｓｅ？」を生成し、その音声を再生部１０９から出力する。

次に、第２話者は、図３の（ｂ）に示すように、翻訳結果である「Ｗｈａｔｉｓｙｏｕｒｐｕｒｏｓｅ？」を音声として聞き、テキストとして読むと、第２言語である英語で「Ｗｈｅｒｅｉｓｔｈｅａｐｐｌｉａｎｃｅｄｅｐａｒｔｍｅｎｔ？」と発話する。このとき、翻訳装置１００は、その発話「Ｗｈｅｒｅｉｓｔｈｅａｐｐｌｉａｎｃｅｄｅｐａｒｔｍｅｎｔ？」の話者が第２話者であることを、その発話と第１話者モデルとに基づいて認識する。さらに、翻訳装置１００は、発話「Ｗｈｅｒｅｉｓｔｈｅａｐｐｌｉａｎｃｅｄｅｐａｒｔｍｅｎｔ？」から特徴量を抽出することによって、第２話者モデルを生成する。第２話者モデルは、第２話者の発話の特徴量のモデルである。

さらに、翻訳装置１００は、認識された第２話者と言語設定情報に基づいて、その発話の言語として第２言語を特定する。その結果、翻訳装置１００は、発話「Ｗｈｅｒｅｉｓｔｈｅａｐｐｌｉａｎｃｅｄｅｐａｒｔｍｅｎｔ？」を第２言語である英語として音声認識する。そして、翻訳装置１００は、その音声認識によって得られるテキスト「Ｗｈｅｒｅｉｓｔｈｅａｐｐｌｉａｎｃｅｄｅｐａｒｔｍｅｎｔ？」を英語から第１言語である日本語に翻訳する。その翻訳によって、テキスト「電化製品売り場はどこですか？」が得られる。

翻訳装置１００は、その翻訳によって得られたテキスト「電化製品売り場はどこですか？」を、翻訳前のテキスト「Ｗｈｅｒｅｉｓｔｈｅａｐｐｌｉａｎｃｅｄｅｐａｒｔｍｅｎｔ？」とともに表示部１１０に表示する。さらに、翻訳装置１００は、翻訳によって得られたテキスト「電化製品売り場はどこですか？」に対して音声合成を行うことによって、音声「電化製品売り場はどこですか？」を生成し、その音声を再生部１０９から出力する。

次に、第１話者は、図３の（ｃ）に示すように、翻訳結果である「電化製品売り場はどこですか？」を音声として聞き、テキストとして読むと、第１言語である日本語で「３階にございます。」と発話する。このとき、翻訳装置１００は、その発話「３階にございます。」の話者が第１話者であることを、その発話と第１話者モデルおよび第２話者モデルとに基づいて認識する。さらに、翻訳装置１００は、認識された第１話者と言語設定情報に基づいて、その発話の言語として第１言語を特定する。その結果、翻訳装置１００は、発話「３階にございます。」を第１話者の言語である日本語として音声認識する。そして、翻訳装置１００は、その音声認識によって得られるテキスト「３階にございます。」を日本語から第２言語である英語に翻訳する。その翻訳によって、テキスト「Ｉｔｉｓｏｎｔｈｅ３ｒｄｆｌｏｏｒ．」が得られる。

翻訳装置１００は、その翻訳によって得られたテキスト「Ｉｔｉｓｏｎｔｈｅ３ｒｄｆｌｏｏｒ．」を、翻訳前のテキスト「３階にございます。」とともに表示部１１０に表示する。さらに、翻訳装置１００は、翻訳によって得られたテキスト「Ｉｔｉｓｏｎｔｈｅ３ｒｄｆｌｏｏｒ．」に対して音声合成を行うことによって、音声「Ｉｔｉｓｏｎｔｈｅ３ｒｄｆｌｏｏｒ．」を生成し、その音声を再生部１０９から出力する。

このように、本実施の形態における翻訳装置１００では、発話ごとに、その発話の話者が認識され、その話者の言語から相手の話者の言語への翻訳が自動的に行われる。

＜装置構成＞
図４は、本実施の形態における翻訳装置１００の構成を示すブロック図である。

本実施の形態における翻訳装置１００は、収音部１０１と、言語設定部１０２と、特徴量抽出部１０３と、話者認識部１０４と、言語決定部１０５と、音声認識部１０６と、翻訳部１０７と、音声合成部１０８と、再生部１０９と、表示部１１０と、モデル格納部１１１とを備える。なお、言語設定部１０２、特徴量抽出部１０３、話者認識部１０４、言語決定部１０５、音声認識部１０６、翻訳部１０７、および音声合成部１０８は、少なくとも１つの処理回路によって構成されていてもよい。

収音部１０１は、上述のようにマイクであって、周囲の音を電気信号に変換することによって、その音を取得する。つまり、収音部１０１は、周囲で会話が行われていれば、その会話の発話を取得する。そして、収音部１０１は、上記電気信号である音声信号を出力する。

言語設定部１０２は、図２Ａに示す言語設定画面を介して、第１話者および第２話者のそれぞれの言語を設定する。例えば、言語設定部１０２は、第１話者に対して第１言語（例えば日本語）を対応付け、第２話者に対して第２言語（例えば英語）を対応付けることによって、第１話者および第２話者の言語を設定する。この設定によって、言語設定部１０２は、話者と言語との対応付けを示す言語設定情報を生成する。例えば、言語設定情報は、第１話者と第１言語とを対応付けて示し、第２話者と第２言語とを対応付けて示す。

特徴量抽出部１０３は、収音部１０１から音声信号を取得することによって、その音声信号に示される発話を取得する。つまり、特徴量抽出部１０３は、発話を音声信号として取得する。そして、特徴量抽出部１０３は、取得された発話から、その発話の特徴量を抽出する。この特徴量は、例えば、特徴ベクトルであって、より具体的には、話者認識手法の一つとして用いられるｉ－Ｖｅｃｔｏｒである。なお、特徴量は、このような特徴ベクトルに限定されるものではない。

話者認識部１０４は、特徴量抽出部１０３によって抽出された特徴量と、モデル格納部１１１に格納されているモデルとを比較することによって、その特徴量を有する発話の話者を認識する。つまり、話者認識部１０４は、その発話の話者として第１話者または第２話者を決定する。

言語決定部１０５は、言語設定部１０２によって生成された言語設定情報と、話者認識部１０４によって決定された話者とに基づいて、収音部１０１によって取得された発話の言語を決定する。例えば、話者認識部１０４によって第１話者が認識された場合には、言語決定部１０５は、言語設定情報において第１言語が第１話者に対応付けられているため、発話の言語として第１言語を決定する。言語決定部１０５は、決定された言語を示す言語情報を音声認識部１０６および翻訳部１０７に出力する。

音声認識部１０６は、収音部１０１によって取得された発話を、言語決定部１０５によって決定された言語で認識する。つまり、音声認識部１０６は、その発話を、決定された言語でテキスト化する。

翻訳部１０７は、音声認識部１０６によって生成されたテキストを、言語情報に示される言語と異なる言語に翻訳する。例えば、言語情報に示される言語が第１言語である場合、翻訳部１０７は、第１言語の発話に対応するテキストを第２言語に翻訳する。なお、この翻訳は、例えば、ルールベースまたは統計ベースの機械翻訳、またはニューラルネットワークを利用した機械翻訳などによって行われる。

表示部１１０は、例えば液晶ディスプレイまたは有機発光ダイオードなどによって構成され、音声認識部１０６によって生成されたテキストと、翻訳部１０７によって翻訳されたテキストとを表示する。

音声合成部１０８は、翻訳部１０７から、翻訳されたテキストを取得し、そのテキストの合成音声を生成する。

再生部１０９は、上述のようにスピーカであって、音声合成部１０８によって生成された合成音声を出力する。

モデル格納部１１１は、第１話者の発話の特徴量のモデルである第１話者モデル１１１ａと、第２話者の発話の特徴量のモデルである第２話者モデル１１１ｂとを格納するための記録媒体である。

＜処理動作＞
図５は、本実施の形態における翻訳装置１００の全体的な処理動作を示すフローチャートである。

まず、翻訳装置１００は、第１話者と第２話者との間の会話を翻訳するために必要とされる設定を行う（ステップＳ１１００）。つまり、翻訳装置１００は、図２Ａおよび図２Ｂに示す画面を表示することによって、第１話者および第２話者の言語を設定し、第１話者モデル１１１ａを生成する。

次に、翻訳装置１００は、会話開始処理を行う（ステップＳ１２００）。つまり、翻訳装置１００は、ユーザによる会話開始の操作を受け付ける。具体的には、翻訳装置１００は、図２Ｃに示す会話開始ボタン１１０ｃの選択を受け付け、収音部１０１による周囲の音の取得を開始する。

次に、翻訳装置１００は、収音部１０１によって取得される発話に基づいて、第２話者モデル１１１ｂを生成しながら、その発話を翻訳する処理を行う（ステップＳ１３００）。このような処理を、以下、モデル生成翻訳処理という。

次に、翻訳装置１００は、モデル格納部１１１に格納されている第１話者モデル１１１ａと第２話者モデル１１１ｂとを用いた処理を行う（ステップＳ１４００）。つまり、翻訳装置１００は、収音部１０１によって発話が取得されるたびに、その発話の話者を、第１話者モデル１１１ａおよび第２話者モデル１１１ｂを用いて認識する。さらに、翻訳装置１００は、その発話を、認識された話者の言語と異なる他の言語に翻訳する。このような処理を、以下、定常翻訳処理という。

そして、翻訳装置１００は、終了条件が満たされたか否かを判定し（ステップＳ１５００）、その終了条件が満たされたと判定したときには（ステップＳ１５００のＹｅｓ）、会話の翻訳を終了する。一方、翻訳装置１００は、終了条件が満たされていないと判定すると（ステップＳ１５００のＮｏ）、ステップＳ１４００からの処理を繰り返し実行する。例えば、終了条件は、話者によって翻訳終了の操作が翻訳装置１００に行われたこと、または、発話が取得されない状態が予め定められた期間だけ継続したことである。

図６Ａは、図５の設定処理（ステップＳ１１００）の詳細な動作を示すフローチャートである。

まず、翻訳装置１００の収音部１０１は、第１話者の第１発話を取得する（ステップＳ１１１０）。

次に、特徴量抽出部１０３は、その取得された第１発話から特徴量を抽出し、その特徴量を第１話者モデル１１１ａとしてモデル格納部１１１に保存する（ステップＳ１１２０）。つまり、特徴量抽出部１０３は、取得された第１発話から、第１話者の発話の特徴量のモデルである第１話者モデルを生成する。

そして、言語設定部１０２は、ユーザによる翻訳装置２００の操作に応じて、第１話者に対して第１言語を設定し、第２話者に対して第２言語を設定する（ステップＳ１１３０）。この設定によって、言語設定部１０２は、言語設定情報を生成し、その言語設定情報を言語決定部１０５に出力する。

なお、図６Ａに示すフローチャートでは、ステップＳ１１１０およびＳ１１２０の後に、ステップＳ１１３０の処理が行われるが、その順序は逆であってもよい。つまり、ステップＳ１１３０の後に、ステップＳ１１１０およびＳ１１２０の処理が行われてもよい。

図６Ｂは、図５のモデル生成翻訳処理（ステップＳ１３００）の詳細な動作を示すフローチャートである。

まず、翻訳装置１００の収音部１０１は、第２発話を取得する（ステップＳ１３１０）。

次に、特徴量抽出部１０３は、その取得された第２発話から特徴量を抽出する（ステップＳ１３２０）。

話者認識部１０４は、その第２発話の特徴量が第１話者モデル１１１ａに合致するか否かを判定する（ステップＳ１３３０）。つまり、話者認識部１０４は、取得された第２発話の特徴量と第１話者モデル１１１ａとを比較することによって、その第２発話の話者が第１話者であるか否かを認識する。

例えば、第２発話の特徴量および第１話者モデル１１１ａのそれぞれが特徴ベクトルとして表される場合、話者認識部１０４は、それらの特徴ベクトルの間の距離が閾値以下であれば、第２発話の特徴量が第１話者モデル１１１ａに合致すると判定する。一方、その距離が閾値よりも長ければ、話者認識部１０４は、第２発話の特徴量が第１話者モデル１１１ａに合致しないと判定する。

ここで、話者認識部１０４は、ステップＳ１３３０において、第２発話の特徴量が第１話者モデル１１１ａに合致すると判定すると（ステップＳ１３３０のＹｅｓ）、第２発話の話者が第１話者であると認識する。その結果、言語決定部１０５は、第２発話の言語を、言語設定情報において第１話者に対応付けられている言語に決定する（ステップＳ１３４０）。例えば、言語決定部１０５は、第２発話の言語を第１言語に決定する。

そして、音声認識部１０６、翻訳部１０７および音声合成部１０８は、第１言語の第２発話を第２言語に翻訳し、その翻訳によって得られる第２言語のテキストを表示部１１０に表示させ、第２言語の音声を再生部１０９に出力させる（ステップＳ１３５０）。

つまり、ステップＳ１３４０およびＳ１３５０では、翻訳装置１００は、ステップＳ１３３０において第２発話の話者が第１話者であると認識された場合には、言語設定情報に基づいて、取得された第２発話を第１言語から第２言語に翻訳する。

一方、話者認識部１０４は、第２発話の特徴量が第１話者モデル１１１ａに合致しないと判定すると（ステップＳ１３３０のＮｏ）、第２発話の話者が第１話者ではなく第２話者であると認識する。その結果、話者認識部１０４は、その第２発話の特徴量を第２話者モデル１１１ｂとしてモデル格納部１１１に保存する（ステップＳ１３６０）。そして、言語決定部１０５は、第２発話の言語を、言語設定情報において第２話者に対応付けられている言語に決定する（ステップＳ１３７０）。例えば、言語決定部１０５は、第２発話の言語を第２言語に決定する。

そして、音声認識部１０６、翻訳部１０７および音声合成部１０８は、第２言語の第２発話を第１言語に翻訳し、その翻訳によって得られる第１言語のテキストを表示部１１０に表示させ、第１言語の音声を再生部１０９に出力させる（ステップＳ１３８０）。

つまり、ステップＳ１３６０～Ｓ１３８０では、翻訳装置１００は、ステップＳ１３３０において第２発話の話者が第１話者でないと認識された場合には、言語設定情報に基づいて、取得された第２発話を第２言語から第１言語に翻訳する。さらに、翻訳装置１００は、ステップＳ１３３０において第２発話の話者が第１話者でないと認識された場合には、取得された第２発話から、第２話者の発話の特徴量のモデルである第２話者モデル１１１ｂを生成する。

図６Ｃは、図５の定常翻訳処理（ステップＳ１４００）の詳細な動作を示すフローチャートである。

まず、翻訳装置１００の収音部１０１は、第３発話を取得する（ステップＳ１４１０）。

次に、特徴量抽出部１０３は、その取得された第３発話から特徴量を抽出する（ステップＳ１４２０）。

話者認識部１０４は、その第３発話の特徴量が第１話者モデル１１１ａまたは第２話者モデル１１１ｂに合致するか否かを判定する（ステップＳ１４３０）。例えば、話者認識部１０４は、上述のように２つの特徴ベクトルの間の距離に基づいて、合致するか否かを判定する。つまり、話者認識部１０４は、取得された第３発話の特徴量と、第１話者モデル１１１ａおよび第２話者モデル１１１ｂのそれぞれとを比較することによって、取得された第３発話の話者が第１話者であるか、第２話者であるかを認識する。

ここで、話者認識部１０４は、ステップＳ１４３０において、第３発話の特徴量が第１話者モデル１１１ａに合致すると判定すると、第３発話の話者が第１話者であると認識する。その結果、言語決定部１０５は、第３発話の言語を、言語設定情報において第１話者に対応付けられている言語に決定する（ステップＳ１４４０）。例えば、言語決定部１０５は、第３発話の言語を第１言語に決定する。

そして、音声認識部１０６、翻訳部１０７および音声合成部１０８は、第１言語の第３発話を第２言語に翻訳し、その翻訳によって得られる第２言語のテキストを表示部１１０に表示させ、第２言語の音声を再生部１０９に出力させる（ステップＳ１４５０）。

つまり、ステップＳ１４４０およびＳ１４５０では、翻訳装置１００は、ステップＳ１４３０において第３発話の話者が第１話者であると認識された場合には、言語設定情報に基づいて、取得された第３発話を第１言語から第２言語に翻訳する。

一方、話者認識部１０４は、ステップＳ１４３０において第３発話の特徴量が第２話者モデル１１１ｂに合致すると判定すると、第３発話の話者が第２話者であると認識する。その結果、言語決定部１０５は、第３発話の言語を、言語設定情報において第２話者に対応付けられている言語に決定する（ステップＳ１４６０）。例えば、言語決定部１０５は、第３発話の言語を第２言語に決定する。

そして、音声認識部１０６、翻訳部１０７および音声合成部１０８は、第２言語の第３発話を第１言語に翻訳し、その翻訳によって得られる第１言語のテキストを表示部１１０に表示させ、第１言語の音声を再生部１０９に出力させる（ステップＳ１４７０）。

つまり、ステップＳ１４６０およびＳ１４７０では、翻訳装置１００は、ステップＳ１４３０において第３発話の話者が第２話者であると認識された場合には、言語設定情報に基づいて、取得された第３発話を第２言語から第１言語に翻訳する。

以上のように、本実施の形態における翻訳装置１００では、会話開始前に第１話者および第２話者のそれぞれの言語を設定し、第１話者モデル１１１ａを生成しておけば、会話開始後には、発話ごとに、その発話の話者が認識され、その話者の言語から相手の話者の言語への翻訳が自動的に行われる。したがって、従来の翻訳方法または翻訳装置のように手間を要することなく、翻訳を伴う会話をスムースに行うことができる。つまり、第１話者および第２話者が発話するたびに、翻訳の言語を切り換えるための操作を行う必要がなく、必要な操作を削減して会話をスムースに行うことができる。その結果、ユーザビリティの向上を図ることができる。

また、本実施の形態では、会話開始前に、第１話者の多くの発話に基づいて第１話者モデル１１１ａを生成しておけば、第１話者モデル１１１ａの精度を高めることができる。さらに、会話開始後では、最初の発話の話者は第１話者であっても第２話者であってもよい。

（変形例１）
図７は、実施の形態１の変形例１における翻訳装置の構成を示すブロック図である。

本変形例における翻訳装置１００ａは、実施の形態１における翻訳装置１００の構成要素を全て備えるとともに、モデル更新部１１２を備える。

モデル更新部１１２は、話者認識部１０４によって発話の話者が認識されると、その話者に対応する第１話者モデル１１１ａまたは第２話者モデル１１１ｂを、その発話を用いて更新する。

本変形例の翻訳装置１００ａにおける全体的な処理動作は、実施の形態１の翻訳装置１００の図５に示す動作と同じである。しかし、本実施の形態では、モデル生成翻訳処理（ステップＳ１３００）の詳細と、定常翻訳処理（ステップＳ１４００）の詳細とが、実施の形態１と異なる。

図８Ａは、本変形例におけるモデル生成翻訳処理の詳細な動作を示すフローチャートである。

本変形例におけるモデル生成翻訳処理（ステップＳ１３００ａ）は、図５のモデル生成翻訳処理（ステップＳ１３００）に相当し、図６Ｂに示すフローチャートの全てのステップを含む。さらに、本変形例におけるモデル生成翻訳処理（ステップＳ１３００ａ）は、モデル更新部１１２が第２発話の特徴量を用いて第１話者モデル１１１ａを更新する処理（ステップＳ１３５１）を含む。

つまり、話者認識部１０４は、ステップＳ１３３０において、第２発話の特徴量が第１話者モデル１１１ａに合致すると判定すると（ステップＳ１３３０のＹｅｓ）、第２発話の話者が第１話者であると認識する。その結果、言語決定部１０５は、第２発話の言語を、言語設定情報において第１話者に対応付けられている言語に決定する（ステップＳ１３４０）。例えば、言語決定部１０５は、第２発話の言語を第１言語に決定する。

ここで、本変形例では、ステップＳ１３５０の後、モデル更新部１１２は、第２発話の特徴量を用いて第１話者モデル１１１ａを更新する（ステップＳ１３５１）。例えば、モデル更新部１１２は、特徴量がｉ－Ｖｅｃｔｏｒとして表される場合、第１話者モデル１１１ａの生成または更新に用いられた発話の音声信号と、第２発話の音声信号とを結合する。結合によって生成される結合音声信号は、第２発話と、第２発話よりも前の過去の発話とを示す。そして、モデル更新部１１２は、その結合音声信号から新たなｉ－Ｖｅｃｔｏｒを生成し、更新前の第１話者モデル１１１ａを、その新たなｉ－Ｖｅｃｔｏｒに置き換えることによって、第１話者モデル１１１ａを更新する。

なお、本変形例では、第１話者モデル１１１ａおよび第２話者モデル１１１ｂの更新が行われるために、モデル格納部１１１には、それらのモデルの生成および更新に用いられた音声信号が保存されている。つまり、特徴量抽出部１０３、話者認識部１０４およびモデル更新部１１２は、第１話者モデル１１１ａおよび第２話者モデル１１１ｂを生成または更新するときには、その生成または更新に用いられた音声信号をモデル格納部１１１に保存しておく。なお、このようなモデルの更新は、一例であって、この例に限定されるものではない。

このように、本変形例では、第２発話が第１言語から第２言語に翻訳される場合には、第１話者モデル１１１ａを、第２発話を用いて更新する。これにより、第１発話から生成された第１話者モデル１１１ａが、第２発話を用いて更新されるため、第１話者モデル１１１ａの精度を高めることができ、発話ごとに、その発話の話者を高精度に認識することができる。その結果、誤った言語での翻訳の発生を抑えることができる。

図８Ｂは、本変形例における定常翻訳処理の詳細な動作を示すフローチャートである。

本変形例における定常翻訳処理（ステップＳ１４００ａ）は、図５の定常翻訳処理（ステップＳ１４００）に相当し、図６Ｃに示すフローチャートの全てのステップを含む。さらに、本変形例における定常翻訳処理（ステップＳ１４００ａ）は、モデル更新部１１２が第３発話の特徴量を用いて第１話者モデル１１１ａと第２話者モデル１１１ｂとを選択的に更新する処理（ステップＳ１４５１、Ｓ１４７１）を含む。

つまり、話者認識部１０４は、ステップＳ１４３０において、第３発話の特徴量が第１話者モデル１１１ａに合致すると判定すると、第３発話の話者が第１話者であると認識する。その結果、言語決定部１０５は、第３発話の言語を、言語設定情報において第１話者に対応付けられている言語に決定する（ステップＳ１４４０）。例えば、言語決定部１０５は、第３発話の言語を第１言語に決定する。

ここで、本変形例では、ステップＳ１４５０の後、モデル更新部１１２は、第３発話の特徴量を用いて第１話者モデル１１１ａを更新する（ステップＳ１４５１）。例えば、モデル更新部１１２は、上述のように結合音声信号を生成し、その結合音声信号を用いて第１話者モデル１１１ａを更新する。

また、話者認識部１０４は、ステップＳ１４３０において、第３発話の特徴量が第２話者モデル１１１ｂに合致すると判定すると、第３発話の話者が第２話者であると認識する。その結果、言語決定部１０５は、第３発話の言語を、言語設定情報において第２話者に対応付けられている言語に決定する（ステップＳ１４６０）。例えば、言語決定部１０５は、第３発話の言語を第２言語に決定する。

ここで、本変形例では、ステップＳ１４７０の後、モデル更新部１１２は、第３発話の特徴量を用いて第２話者モデル１１１ｂを更新する（ステップＳ１４７１）。例えば、モデル更新部１１２は、上述のように結合音声信号を生成し、その結合音声信号を用いて第２話者モデル１１１ｂを更新する。

このように、本変形例では、モデル更新部１１２は、発話が翻訳される場合には、第１話者モデル１１１ａおよび第２話者モデル１１１ｂのうち、既に生成されているモデルであって、その発話に対して認識された話者に対応するモデルを、その発話を用いて更新する。これにより、既に生成されているモデルが、発話を用いて更新されるため、そのモデルの精度を高めることができ、発話ごとに、その発話の話者を高精度に認識することができる。その結果、誤った言語での翻訳の発生を抑えることができる。

（変形例２）
図９は、実施の形態１の変形例２における翻訳装置の構成を示すブロック図である。

本変形例における翻訳装置１００ｂは、変形例１における翻訳装置１００ａの構成要素を全て備えるとともに、誤り判定部１１３を備える。

誤り判定部１１３は、翻訳によって再生部１０９から出力される音声の言語と、翻訳によって表示部１１０に表示されるテキストの言語とが誤っているか否かを、ユーザによる翻訳装置１００ｂに対する操作に応じて判定する。例えば、表示部１１０に表示されたボタンがユーザによって選択されると、誤り判定部１１３は、その翻訳の言語が誤っていると判定する。また、翻訳が行われた時点から予め定められた時間が経過してもそのボタンが選択されなかった場合に、誤り判定部１１３は、その翻訳の言語は誤っていなかったと判定する。または、誤り判定部１１３は、翻訳が行われた時点から予め定められた時間が経過する前に、次の発話が収音部１０１によって取得された場合に、その翻訳の言語は誤っていなかったと判定する。

本変形例におけるモデル更新部１１２は、音声およびテキストの言語が誤っていないと誤り判定部１１３によって判定されたときに、第１話者モデル１１１ａまたは第２話者モデル１１１ｂを更新する。つまり、モデル更新部１１２は、話者認識部１０４によって発話の話者が認識されると、翻訳の言語が誤っていない場合に、その話者に対応する第１話者モデル１１１ａまたは第２話者モデル１１１ｂを、その発話を用いて更新する。

本変形例の翻訳装置１００ｂにおける全体的な処理動作は、実施の形態１の翻訳装置１００の図５に示す動作と同じである。しかし、本実施の形態では、モデル生成翻訳処理（ステップＳ１３００）の詳細と、定常翻訳処理（ステップＳ１４００）の詳細とが、実施の形態１と異なる。

図１０Ａは、本変形例におけるモデル生成翻訳処理の詳細な動作を示すフローチャートである。

本変形例におけるモデル生成翻訳処理（ステップＳ１３００ｂ）は、図５のモデル生成翻訳処理（ステップＳ１３００）に相当し、図８Ａに示すフローチャートの全てのステップを含む。さらに、本変形例におけるモデル生成翻訳処理（ステップＳ１３００ｂ）は、誤り判定部１１３が翻訳の言語の誤りを判定する処理（ステップＳ１３５２）を含む。

ここで、本変形例では、ステップＳ１３５０の後、誤り判定部１１３は、ユーザによる操作に基づいて、翻訳の言語が誤っているか否かを判定する（ステップＳ１３５２）。そして、翻訳の言語が誤っていないと判定されたときに（ステップＳ１３５２のＮｏ）、モデル更新部１１２は、第２発話の特徴量を用いて第１話者モデル１１１ａを更新する（ステップＳ１３５１）。一方、翻訳の言語が誤っていると判定されると（ステップＳ１３５２のＹｅｓ）、モデル更新部１１２は、第１話者モデル１１１ａの更新を行わない。

このように、本変形例では、第２発話が第１言語から第２言語に翻訳される場合には、第２発話の翻訳の言語が誤っているか否かを判定し、第２発話の翻訳の言語が誤っていないと判定されたときに、第１話者モデル１１１ａを、第２発話を用いて更新する。

これにより、第２発話の翻訳の言語が誤っていない場合に第１話者モデル１１１ａが更新されるため、誤った言語での翻訳によって不適切に第１話者モデル１１１ａが更新されてしまうことを抑えることができる。

図１０Ｂは、本変形例におけるモデル生成翻訳処理の詳細な動作を示すフローチャートである。

本変形例における定常翻訳処理（ステップＳ１４００ｂ）は、図５の定常翻訳処理（ステップＳ１４００）に相当し、図８Ｂに示すフローチャートの全てのステップを含む。さらに、本変形例における定常翻訳処理（ステップＳ１４００ｂ）は、誤り判定部１１３が翻訳の言語の誤りを判定する処理（ステップＳ１４５２、Ｓ１４７２）を含む。

ここで、本変形例では、ステップＳ１４５０の後、誤り判定部１１３は、ユーザによる操作に基づいて、翻訳の言語が誤っているか否かを判定する（ステップＳ１４５２）。そして、翻訳の言語が誤っていないと判定されたときに（ステップＳ１４５２のＮｏ）、モデル更新部１１２は、第３発話の特徴量を用いて第１話者モデル１１１ａを更新する（ステップＳ１４５１）。一方、翻訳の言語が誤っていると判定されると（ステップＳ１４５２のＹｅｓ）、モデル更新部１１２は、第１話者モデル１１１ａの更新を行わない。

また、話者認識部１０４は、ステップＳ１４３０において、第３発話の特徴量が第２話者モデル１１１ｂに合致すると判定すると、第３発話の話者が第２話者であると認識する。その結果、言語決定部１０５は、第３発話の言語を、言語設定情報において第２話者に対応付けられている言語に決定する（ステップＳ１４６０）。例えば、言語決定部１０５は、第３発話の言語を第１言語に決定する。

ここで、本変形例では、ステップＳ１４７０の後、誤り判定部１１３は、ユーザによる操作に基づいて、翻訳の言語が誤っているか否かを判定する（ステップＳ１４７２）。そして、翻訳の言語が誤っていないと判定されたときに（ステップＳ１４７２のＮｏ）、モデル更新部１１２は、第３発話の特徴量を用いて第２話者モデル１１１ｂを更新する（ステップＳ１４７１）。一方、翻訳の言語が誤っていると判定されると（ステップＳ１４５２のＹｅｓ）、モデル更新部１１２は、第２話者モデル１１１ｂの更新を行わない。

このように、本変形例では、翻訳装置１００ｂは、発話が翻訳される場合には、その発話の翻訳の言語が誤っているか否かを判定する。そして、翻訳装置１００ｂは、その発話の翻訳の言語が誤っていないと判定されたときに、第１話者モデル１１１ａおよび第２話者モデル１１１ｂのうち、既に生成されているモデルであって、その発話に対して認識された話者に対応するモデルを、その発話を用いて更新する。

これにより、発話の翻訳の言語が誤っていない場合にモデルが更新されるため、誤った言語での翻訳によって不適切にモデルが更新されてしまうことを抑えることができる。

（変形例３）
本変形例における翻訳装置は、変形例２における翻訳装置１００ｂと同様の構成を有するが、翻訳の言語が誤っていると判定したときには、逆翻訳を行うとともに、発話に対して認識された話者と異なる話者に対応するモデルを、その発話を用いて生成または更新する。

本変形例の翻訳装置における全体的な処理動作は、実施の形態１の翻訳装置１００の図５に示す動作と同じである。しかし、本実施の形態では、モデル生成翻訳処理（ステップＳ１３００）の詳細と、定常翻訳処理（ステップＳ１４００）の詳細とが、実施の形態１と異なる。

図１１Ａは、本変形例におけるモデル生成翻訳処理の詳細な動作を示すフローチャートである。

本変形例におけるモデル生成翻訳処理（ステップＳ１３００ｃ）は、図５のモデル生成翻訳処理（ステップＳ１３００）に相当し、図１０Ａに示すフローチャートの全てのステップを含む。さらに、本変形例におけるモデル生成翻訳処理（ステップＳ１３００ｃ）は、逆翻訳を行う処理（ステップＳ１３５３）と、モデルを生成する処理（ステップＳ１３５４）とを含む。

そして、音声認識部１０６、翻訳部１０７および音声合成部１０８は、第１言語の第２発話を第２言語に翻訳し、その翻訳によって得られる第２言語のテキストを表示部１１０に表示させ、第２言語の音声を再生部１０９に出力させる（ステップＳ１３５０）。ステップＳ１３５０の後、誤り判定部１１３は、ユーザによる操作に基づいて、翻訳の言語が誤っているか否かを判定する（ステップＳ１３５２）。つまり、誤り判定部１１３は、第２発話の第１言語から第２言語への翻訳が間違っているか否か、言い換えれば、話者認識部１０４による認識が間違っているか否かを判定する。

ここで、本変形例では、翻訳の言語が誤っていると判定されたときには（ステップＳ１３５２のＹｅｓ）、言語決定部１０５は、第２発話の言語を、言語設定情報において第１話者に対応付けられていない第２言語に決定し直す。その結果、音声認識部１０６、翻訳部１０７および音声合成部１０８は、逆翻訳を行う。すなわち、音声認識部１０６、翻訳部１０７および音声合成部１０８は、第２言語の第２発話を第１言語に翻訳し、その翻訳によって得られる第１言語のテキストを表示部１１０に表示させ、第１言語の音声を再生部１０９に出力させる（ステップＳ１３５３）。

さらに、話者認識部１０４は、第２発話の特徴量を第２話者モデル１１１ｂとしてモデル格納部１１１に保存する（ステップＳ１３５４）。これにより第２話者モデル１１１ｂが生成される。

一方、ステップＳ１３５２において、翻訳の言語が誤っていないと判定されると（ステップＳ１３５２のＮｏ）、変形例２と同様に、モデル更新部１１２は、第２発話の特徴量を用いて第１話者モデル１１１ａを更新する（ステップＳ１３５１）。

このように、本変形例では、翻訳装置は、第２発話の翻訳の言語が誤っていると判定されたときには、第２発話の翻訳における翻訳元の言語と翻訳先の言語とが入れ換えられた逆翻訳を実行する。さらに、翻訳装置は、取得された第２発話から、第２話者の発話の特徴量のモデルである第２話者モデル１１１ｂを生成する。

これにより、第２発話の翻訳の言語が誤っている場合には、逆翻訳が行われるため、第２発話の誤った言語での翻訳を正すことができる。さらに、第２話者モデル１１１ｂが生成されるため、次に発話を取得した場合には、その発話の特徴量を第１話者モデル１１１ａたけでなく、第２話者モデル１１１ｂとも比較することができ、その発話の話者を高精度に認識することができる。その結果、誤った言語での翻訳の発生を抑えることができる。

図１１Ｂは、本変形例におけるモデル生成翻訳処理の詳細な動作を示すフローチャートである。

本変形例における定常翻訳処理（ステップＳ１４００ｃ）は、図５の定常翻訳処理（ステップＳ１４００）に相当し、図１０Ｂに示すフローチャートの全てのステップを含む。さらに、本変形例における定常翻訳処理（ステップＳ１４００ｃ）は、逆翻訳を行う処理（ステップＳ１４５３、Ｓ１４７３）と、モデルを生成する処理（ステップＳ１４５４、Ｓ１４７４）とを含む。

そして、音声認識部１０６、翻訳部１０７および音声合成部１０８は、第１言語の第３発話を第２言語に翻訳し、その翻訳によって得られる第２言語のテキストを表示部１１０に表示させ、第２言語の音声を再生部１０９に出力させる（ステップＳ１４５０）。ステップＳ１４５０の後、誤り判定部１１３は、ユーザによる操作に基づいて、翻訳の言語が誤っているか否かを判定する（ステップＳ１４５２）。つまり、誤り判定部１１３は、第３発話の第１言語から第２言語への翻訳が間違っているか否か、言い換えれば、話者認識部１０４による認識が間違っているか否かを判定する。

ここで、本変形例では、翻訳の言語が誤っていると判定されたときには（ステップＳ１４５２のＹｅｓ）、言語決定部１０５は、第３発話の言語を、言語設定情報において第１話者に対応付けられていない第２言語に決定し直す。その結果、音声認識部１０６、翻訳部１０７および音声合成部１０８は、逆翻訳を行う。すなわち、音声認識部１０６、翻訳部１０７および音声合成部１０８は、第２言語の第３発話を第１言語に翻訳し、その翻訳によって得られる第１言語のテキストを表示部１１０に表示させ、第１言語の音声を再生部１０９に出力させる（ステップＳ１４５３）。

さらに、モデル更新部１１２は、第３発話の特徴量を用いて第２話者モデル１１１ｂを更新する（ステップＳ１４５４）。

一方、ステップＳ１４５２において、翻訳の言語が誤っていないと判定されると（ステップＳ１４５２のＮｏ）、変形例２と同様に、モデル更新部１１２は、第３発話の特徴量を用いて第１話者モデル１１１ａを更新する（ステップＳ１４５１）。

そして、音声認識部１０６、翻訳部１０７および音声合成部１０８は、第２言語の第３発話を第１言語に翻訳し、その翻訳によって得られる第１言語のテキストを表示部１１０に表示させ、第１言語の音声を再生部１０９に出力させる（ステップＳ１４７０）。ステップＳ１４７０の後、誤り判定部１１３は、ユーザによる操作に基づいて、翻訳の言語が誤っているか否かを判定する（ステップＳ１４７２）。つまり、誤り判定部１１３は、第３発話の第２言語から第１言語への翻訳が間違っているか否か、言い換えれば、話者認識部１０４による認識が間違っているか否かを判定する。

ここで、本変形例では、翻訳の言語が誤っていると判定されたときには（ステップＳ１４７２のＹｅｓ）、言語決定部１０５は、第３発話の言語を、言語設定情報において第２話者に対応付けられていない第１言語に決定し直す。その結果、音声認識部１０６、翻訳部１０７および音声合成部１０８は、逆翻訳を行う。すなわち、音声認識部１０６、翻訳部１０７および音声合成部１０８は、第１言語の第３発話を第２言語に翻訳し、その翻訳によって得られる第２言語のテキストを表示部１１０に表示させ、第２言語の音声を再生部１０９に出力させる（ステップＳ１４７３）。

さらに、モデル更新部１１２は、第３発話の特徴量を用いて第１話者モデル１１１ａを更新する（ステップＳ１４７４）。

一方、ステップＳ１４７２において、翻訳の言語が誤っていないと判定されると（ステップＳ１４７２のＮｏ）、変形例２と同様に、モデル更新部１１２は、第３発話の特徴量を用いて第２話者モデル１１１ｂを更新する（ステップＳ１４７１）。

このように、本変形例では、翻訳装置は、翻訳の言語が誤っていると判定されたときには、その翻訳における翻訳元の言語と翻訳先の言語とが入れ換えられた逆翻訳を実行する。そして、翻訳装置は、第１話者モデル１１１ａおよび第２話者モデル１１１ｂのうち、発話に対して認識された話者と異なる話者に対応するモデルを、その発話を用いて生成または更新する。

これにより、発話の翻訳の言語が誤っている場合には、逆翻訳が行われるため、発話の誤った言語での翻訳を正すことができる。さらに、翻訳の言語が誤っていた場合でも、第１話者モデル１１１ａおよび第２話者モデル１１１ｂが適切に生成または更新されるため、その後に取得される発話の話者を高精度に認識することができる。その結果、誤った言語での翻訳の発生を抑えることができる。

（変形例４）
図１２は、実施の形態１の変形例４における翻訳装置の構成を示すブロック図である。

本変形例における翻訳装置１００ｄは、実施の形態１における翻訳装置１００の構成要素を全て備えるとともに、発話長判定部１１４を備える。

発話長判定部１１４は、収音部１０１によって取得された発話の時間長が閾値以上であるか否かを判定する。閾値は、例えば１つの単語が発話される時間長であって、具体的には０．３～０．４秒である。なお、閾値は、０．３～０．４秒に限定されるものではなく、０．３秒未満であっても、０．４秒よりも長くてもよい。

本変形例における特徴量抽出部１０３は、収音部１０１によって取得された発話のうち、閾値以上の時間長を有する発話から特徴量を抽出し、閾値未満の時間長を有する発話からの特徴量の抽出を行わない。

本変形例における翻訳装置１００ｄは、実施の形態１と同様に、図５に示すフローチャートにしたがって動作する。

図１３Ａは、本変形例の設定処理（ステップＳ１１００）において第１発話を取得する処理（ステップＳ１１１０）の詳細を示すフローチャートである。

まず、収音部１０１は、第１話者の発話を取得する（ステップＳ１１１１）。次に、発話長判定部１１４は、その発話の時間長が閾値以上であるか否かを判定する（ステップＳ１１１２）。ここで、発話の時間長が閾値以上であると判定すると（ステップＳ１１１２のＹｅｓ）、発話長判定部１１４は、その発話を示す音声信号を、第１発話を示す音声信号として特徴量抽出部１０３に出力する（ステップＳ１１１３）。

図１３Ｂは、本変形例のモデル生成翻訳処理（ステップＳ１３００）において第２発話を取得する処理（ステップＳ１３１０）の詳細を示すフローチャートである。

まず、収音部１０１は、会話開始後の発話を取得する（ステップＳ１３１１）。次に、発話長判定部１１４は、その発話の時間長が閾値以上であるか否かを判定する（ステップＳ１３１２）。ここで、発話の時間長が閾値以上であると判定すると（ステップＳ１３１２のＹｅｓ）、発話長判定部１１４は、その発話を示す音声信号を、第２発話を示す音声信号として特徴量抽出部１０３に出力する（ステップＳ１３１３）。

図１３Ｃは、本変形例の定常翻訳処理（ステップＳ１４００）において第３発話を取得する処理（ステップＳ１４１０）の詳細を示すフローチャートである。

まず、収音部１０１は、第１話者モデル１１１ａおよび第２話者モデル１１１ｂが生成された後の発話を取得する（ステップＳ１４１１）。次に、発話長判定部１１４は、その発話の時間長が閾値以上であるか否かを判定する（ステップＳ１４１２）。ここで、発話の時間長が閾値以上であると判定すると（ステップＳ１４１２のＹｅｓ）、発話長判定部１１４は、その発話を示す音声信号を、第３発話を示す音声信号として特徴量抽出部１０３に出力する（ステップＳ１４１３）。

このように、本変形例では、第１発話の取得、第２発話の取得、または第３発話の取得では、第１話者または第２話者の発話の時間長が閾値以上か否かを判定し、閾値以上と判定された時間長の発話を、第１発話、第２発話または第３発話として取得する。これにより、例えば、意味をなさない発話が不適切に翻訳されてしまうことを抑え、翻訳を伴う会話をスムースに行うことができる。

（変形例５）
図１４は、実施の形態１の変形例５における翻訳装置の構成を示すブロック図である。

本変形例における翻訳装置１００ｅは、実施の形態１における翻訳装置１００の構成要素を全て備えるとともに、雑音判定部１１５を備える。

雑音判定部１１５は、収音部１０１によって取得された音が、音声すなわち発話であるか否かを判定する。言い換えれば、雑音判定部１１５は、その音が発話であるか、雑音であるかを判定する。例えば、雑音判定部１１５は、音の長さ、パワー、または音識別などに基づいて、音が発話であるか、雑音であるかを判定する。具体的には、雑音判定部１１５は、閾値未満の時間長の音、または、閾値以上のパワー（すなわち音圧）を有する音を、雑音と判定し、閾値を超える時間長の音、または、閾値未満のパワーを有する音を、発話と判定する。また、雑音判定部１１５は、音の周波数に基づいて、その音が雑音であるか、発話であるかを判定してもよい。

そして、雑音判定部１１５は、音が雑音であると判定すると、その音を示す音声信号の特徴量抽出部１０３への出力を禁止する。一方、雑音判定部１１５は、音が発話であると判定すると、その発話である音を示す音声信号を特徴量抽出部１０３へ出力する。

本変形例における翻訳装置１００ｅは、実施の形態１と同様に、図５に示すフローチャートにしたがって動作する。

図１５Ａは、本変形例の設定処理（ステップＳ１１００）において第１発話を取得する処理（ステップＳ１１１０）の詳細を示すフローチャートである。

まず、収音部１０１は、会話開始前の音を取得する（ステップＳ１１１５）。次に、雑音判定部１１５は、その音が発話であるか否かを判定する（ステップＳ１１１６）。ここで、発話であると判定すると（ステップＳ１１１６のＹｅｓ）、雑音判定部１１５は、その音を示す音声信号を、第１発話を示す音声信号として特徴量抽出部１０３に出力する（ステップＳ１１１７）。一方、発話でない、すなわち雑音であると判定すると（ステップＳ１１１６のＮｏ）、雑音判定部１１５は、その音を示す音声信号の特徴量抽出部１０３への出力を禁止する。

図１５Ｂは、本変形例のモデル生成翻訳処理（ステップＳ１３００）において第２発話を取得する処理（ステップＳ１３１０）の詳細を示すフローチャートである。

まず、収音部１０１は、会話開始後の音を取得する（ステップＳ１３１５）。次に、雑音判定部１１５は、その音が発話であるか否かを判定する（ステップＳ１３１６）。ここで、発話であると判定すると（ステップＳ１３１６のＹｅｓ）、雑音判定部１１５は、その音を示す音声信号を、第２発話を示す音声信号として特徴量抽出部１０３に出力する（ステップＳ１３１７）。一方、発話でない、すなわち雑音であると判定すると（ステップＳ１３１６のＮｏ）、雑音判定部１１５は、その音を示す音声信号の特徴量抽出部１０３への出力を禁止する。

図１５Ｃは、本変形例の定常翻訳処理（ステップＳ１４００）において第３発話を取得する処理（ステップＳ１４１０）の詳細を示すフローチャートである。

まず、収音部１０１は、第１話者モデル１１１ａおよび第２話者モデル１１１ｂが生成された後の音を取得する（ステップＳ１４１５）。次に、雑音判定部１１５は、その音が発話であるか否かを判定する（ステップＳ１４１６）。ここで、発話であると判定すると（ステップＳ１４１６のＹｅｓ）、雑音判定部１１５は、その音を示す音声信号を、第３発話を示す音声信号として特徴量抽出部１０３に出力する（ステップＳ１４１７）。一方、発話でない、すなわち雑音であると判定すると（ステップＳ１４１６のＮｏ）、雑音判定部１１５は、その音を示す音声信号の特徴量抽出部１０３への出力を禁止する。

このように、本変形例では、第１発話の取得、第２発話の取得、または第３発話の取得では、第１話者または第２話者の周囲の音が発話か否かを判定し、発話であると判定された音を、第１発話、第２発話または第３発話として取得する。これにより、例えば、第１話者または第２話者の周囲のノイズが発話として扱われて、不適切に翻訳されてしまうことを抑え、翻訳を伴う会話をスムースに行うことができる。

（変形例６）
図１６は、実施の形態１の変形例６における翻訳装置の構成を示すブロック図である。

本変形例における翻訳装置１００ｆは、実施の形態１における翻訳装置１００の話者認識部１０４の代わりに、話者認識部１０４ａを備える。

話者認識部１０４ａは、特徴量抽出部１０３によって抽出された第３発話の特徴量が第１話者モデル１１１ａにも合致せず、第２話者モデル１１１ｂにも合致しない場合に、その第３発話を棄却する。

本変形例の翻訳装置１００ｆにおける全体的な処理動作は、実施の形態１の翻訳装置１００の図５に示す動作と同じである。しかし、本実施の形態では、定常翻訳処理（ステップＳ１４００）の詳細が、実施の形態１と異なる。

図１７は、本変形例における定常翻訳処理（ステップＳ１４００ｆ）の詳細な動作を示すフローチャートである。

本変形例における定常翻訳処理（ステップＳ１４００ｆ）は、図５の定常翻訳処理（ステップＳ１４００）に相当し、図６Ｃに示すフローチャートの全てのステップを含む。さらに、本変形例における定常翻訳処理（ステップＳ１４００ｆ）は、第３発話を棄却する処理（ステップＳ１４８０）を含む。

すなわち、本変形例では、ステップＳ１４３０において、話者認識部１０４ａは、第３発話の特徴量が第１話者モデル１１１ａにも合致せず、第２話者モデル１１１ｂにも合致しないと判定すると、その第３発話を棄却する（ステップＳ１４８０）。これにより、第１話者および第２話者でもない話者からの発話と推定される第３発話が、翻訳されてしまうことを防ぐことができる。

このように、本変形例では、翻訳装置１００ｆは、第３発話の特徴量と、第１話者モデル１１１ａおよび第２話者モデル１１１ｂのそれぞれとを比較することによって、第３発話の話者が第１話者および第２話者の何れでもないと認識した場合には、第３発話を棄却することによって、その第３発話の翻訳を行わない。

（実施の形態２）
本実施の形態における翻訳装置は、実施の形態１のように会話開始前に第１話者モデル１１１ａを生成することなく、会話開始後に第１話者モデル１１１ａおよび第２話者モデル１１１ｂを生成する。そのため、本実施の形態における翻訳装置では、会話開始前に、第１話者と第２話者のうち、会話において最初に発話する話者を設定しておく。

図１８は、本実施の形態における翻訳装置２００の構成を示すブロック図である。

本実施の形態における翻訳装置２００は、実施の形態１と同様に、収音部１０１と、言語設定部１０２と、特徴量抽出部１０３と、話者認識部１０４と、言語決定部１０５と、音声認識部１０６と、翻訳部１０７と、音声合成部１０８と、再生部１０９と、表示部１１０と、モデル格納部１１１とを備える。さらに、本実施の形態における翻訳装置２００は、発話順設定部１１６を備える。なお、本実施の形態において、実施の形態１の翻訳装置と同一の構成要素に対しては、実施の形態１と同一の符号を付し、その構成要素の詳細な説明を省略する。

発話順設定部１１６は、会話を行う第１話者および第２話者のうち、その会話において最初に発話する話者として例えば第１話者を設定する。つまり、発話順設定部１１６は、その会話において最初に発話する話者として設定された第１話者を示す発話順情報を生成する。

図１９は、翻訳装置２００の言語設定画面の一例を示す図である。

翻訳装置２００は、会話が開始される前に、言語設定画面を表示部１１０に表示する。この言語設定画面は、実施の形態１の図２Ａに示す言語設定画面と同様に、第１話者の言語を設定するための第１言語設定欄１１０ａと、第２話者の言語を設定するための第２言語設定欄１１０ｂとを含む。さらに、本実施の形態における言語設定画面は、会話において最初に発話する話者を設定するためのラジオボタン１１０ｄおよび１１０ｅを含む。例えば、翻訳装置２００のユーザは、その翻訳装置２００を操作することによって、最初に発話する話者として第１話者を設定するためのラジオボタン１１０ｄに、チェックを入れる。このチェックによって、第１話者が最初に発話する話者として設定される。つまり、発話順設定部１１６は、会話において最初に発話する話者として設定された第１話者を示す発話順情報を生成する。そして、発話順設定部１１６は、その発話順情報を話者認識部１０４に出力する。なお、本実施の形態では、会話において最初に発話する話者として設定された第１話者を示す発話順情報を生成するが、最初に発話する話者として第２話者が設定される場合には、第２話者を示す発話順情報を生成する。

話者認識部１０４は、その発話順情報に基づいて、会話開始後の最初に取得される発話の話者を第１話者として認識する。そして、話者認識部１０４は、特徴量抽出部１０３によってその発話から抽出された特徴量を第１話者モデル１１１ａとしてモデル格納部１１１に格納する。これにより、第１話者モデル１１１ａが生成される。

言語決定部１０５は、話者認識部１０４によって認識された話者の言語を、言語設定情報に基づいて決定する。つまり、上述のように、会話における最初の発話の話者が第１話者として認識されると、言語決定部１０５は、言語設定情報においてその第１話者に対応付けられている第１言語を、その最初の発話の言語として決定する。その結果、音声認識部１０６、翻訳部１０７および音声合成部１０８は、第１言語の最初の発話を第２言語に翻訳し、その翻訳によって得られる第２言語のテキストを表示部１１０に表示させ、第２言語の音声を再生部１０９に出力させる。

本実施の形態の翻訳装置２００における全体的な処理動作は、実施の形態１の翻訳装置１００の図５に示す動作と同じである。しかし、本実施の形態では、設定処理（ステップＳ１１００）の詳細と、モデル生成翻訳処理（ステップＳ１３００）の詳細とが、実施の形態１と異なる。

図２０Ａは、本実施の形態における設定処理（ステップＳ１１００）の詳細な動作を示すフローチャートである。

まず、発話順設定部１１６は、ユーザによる翻訳装置２００の操作に応じて、第１話者および第２話者のうち、会話において最初に発話する話者として第１話者を設定する（ステップＳ１１０１）。そして、発話順設定部１１６は、最初の話者が第１話者であることを示す発話順情報を話者認識部１０４に出力する。

次に、言語設定部１０２は、ユーザによる翻訳装置２００の操作に応じて、第１話者に対して第１言語を設定し、第２話者に対して第２言語を設定する（ステップＳ１１３０）。

このように、本実施の形態における翻訳装置２００は、第１話者の言語および第２話者の言語として設定された第１言語および第２言語を示す言語設定情報を生成し、会話において最初に発話する話者として設定された第１話者を示す発話順情報を生成する。

図２０Ｂは、本実施の形態におけるモデル生成翻訳処理（ステップＳ１３００）の詳細な動作を示すフローチャートである。

本実施の形態におけるモデル生成翻訳処理は、実施の形態１の図６Ｂに示すモデル生成翻訳処理の各ステップを含み、さらに、ステップＳ１３０１～Ｓ１３０５を含む。

まず、翻訳装置２００の収音部１０１は、会話開始後の最初の発話である第１発話を取得する（ステップＳ１３０１）。

次に、特徴量抽出部１０３は、その取得された第１発話から特徴量を抽出する（ステップＳ１３０２）。

そして、話者認識部１０４は、発話順設定部１１６から出力された発話順情報に基づいて、第１発話の話者として第１話者を認識し、その第１発話の特徴量を、第１話者に対応する第１話者モデル１１１ａとしてモデル格納部１１１に保存する（ステップＳ１３０３）。これにより、第１話者モデル１１１ａが生成される。

次に、言語決定部１０５は、言語設定情報において第１話者に対応付けられている第１言語を、その第１発話の言語として決定する（ステップＳ１３０４）。その結果、音声認識部１０６、翻訳部１０７および音声合成部１０８は、第１言語の最初の発話を第２言語に翻訳し、その翻訳によって得られる第２言語のテキストを表示部１１０に表示させ、第２言語の音声を再生部１０９に出力させる（ステップＳ１３０５）。

その後、翻訳装置２００は、実施の形態１と同様に、ステップＳ１３１０～Ｓ１３８０の処理を行う。

このように、本実施の形態における翻訳装置２００は、会話開始の操作が受け付けられた場合には、その操作の受け付け後の最初の発話である第１発話を取得し、発話順情報に基づいて、取得された第１発話から、第１話者の発話の特徴量のモデルである第１話者モデル１１１ａを生成する。そして、翻訳装置２００は、言語設定情報および発話順情報に基づいて、取得された第１発話を第１言語から第２言語に翻訳する。その後に第２発話を取得したときには、翻訳装置２００は、実施の形態１と同様に、第２発話の特徴量と第１話者モデル１１１ａとを比較することによって、その第２発話の話者を認識し、認識結果に応じて翻訳を行う。

また、本実施の形態における翻訳装置２００は、実施の形態１と同様の変形例１～６の構成を有していてもよい。これにより、本実施の形態においても、上記各変形例の効果を奏することができる。

（その他の実施の形態）
以上、一つまたは複数の態様に係る翻訳装置について、各実施の形態および各変形例に基づいて説明したが、本発明は、この実施の形態に限定されるものではない。本発明の趣旨を逸脱しない限り、当業者が思いつく各種変形を上記各実施の形態および変形例に施したものや、異なる実施の形態または変形例における構成要素を組み合わせて構築される形態も、本発明の範囲内に含まれてもよい。

例えば、上記各実施の形態および各変形例では、翻訳装置は、カードのような形状に構成されて、ユーザに携帯されるが、タブレットのような形状に構成されていてもよい。この場合には、翻訳装置は、例えば、ホテルまたは商業施設などのフロントに設置されたカウンターなどに、据え置かれてもよい。

また、上記各実施の形態および各変形例では、翻訳装置は、翻訳されたテキストに対して音声合成を行うが、このときに、話者の性別に応じた合成音声を生成してもよい。例えば、男性の第１話者が第１言語で発話した場合には、翻訳装置は、男性の第２言語の合成音声を生成して出力する。この場合、言語設定部１０２は、第１話者および第２話者のそれぞれの言語を設定するだけでなく、それぞれの性別を設定してもよい。音声合成部１０８は、その設定された性別に応じた合成音声を生成する。または、話者認識部１０４が、発話の特徴量から、その発話の話者の性別を判定してもよい。この場合には、例えば、モデル格納部１１１に、一般的な男性の発話のモデルと、一般的な女性の発話のモデルとが格納されている。そして、話者認識部１０４は、発話の特徴量とそれらのモデルとを比較することによって、その発話の話者が男性であるか女性であるかを判定する。音声合成部１０８は、その判定された性別の合成音声を生成する。

これにより、翻訳装置から出力される合成音声を、話者の音声に近づけることができ、翻訳を伴う会話をスムースに行うことができる。

また、翻訳装置は、翻訳されたテキストに対して音声合成を行うときには、話者の音声に類似する合成音声を生成してもよい。つまり、音声合成部１０８は、第１話者モデル１１１ａまたは第２話者モデル１１１ｂから、発話に対して認識された話者に対応するモデルを選択し、そのモデルを用いて音声合成を行う。これにより、翻訳装置からは、話者の音声に類似する合成音声が、その話者の発話の言語と異なる言語で出力され、翻訳を伴う会話をよりスムースに行うことができる。

また、上記各実施の形態および各変形例では、ユーザによる操作に応じて、第１話者および第２話者の言語を設定したが、収音部１０１によって取得された発話に基づいて、その発話の言語を決定してもよい。例えば、言語決定部１０５は、第１言語の一般的な特徴量および第２言語の一般的な特徴量のそれぞれと、収音部１０１によって取得された発話の特徴量とを比較することによって、その発話の言語を決定する。これにより、言語の設定の手間を省くことができ、ユーザビリティのさらなる向上を図ることができる。

また、上記実施の形態１およびその各変形例では、翻訳装置は、会話開始前に、第１話者モデル１１１ａを生成してモデル格納部１１１に保存する。しかし、モデル格納部１１１に複数のモデルが予め格納されている場合には、翻訳装置は、会話開始前に、それらの複数のモデルから１つのモデルを第１話者モデル１１１ａとして選択してもよい。この場合には、モデルの生成を省くことができ、翻訳装置の処理負担を軽減することができる。

上記各実施の形態および各変形例において、各構成要素は、専用のハードウェアで構成されるか、各構成要素に適したソフトウェアプログラムを実行することによって実現されてもよい。各構成要素は、ＣＰＵまたはプロセッサなどのプログラム実行部が、ハードディスクまたは半導体メモリなどのコンピュータ読み取り可能な非一時的な記録媒体に記録されたソフトウェアプログラムを読み出して実行することによって実現されてもよい。ここで、上記各実施の形態および各変形例の翻訳装置などを実現するソフトウェアプログラムは、コンピュータに、図５、図６Ａ～図６Ｃ、図８Ａ、図８Ｂ、図１０Ａ～図１１Ｂ、図１３Ａ～図１３Ｃ、図１５Ａ～図１５Ｃ、図１７、図２０Ａ、または図２０Ｂのフローチャートに含まれる各ステップを実行させる。

なお、ブロック図（図４、図７、図９、図１２、図１４、図１６、または図１８など）の各機能ブロックは典型的には集積回路であるＬＳＩとして実現される。これらは個別に１チップ化されても良いし、一部又は全てを含むように１チップ化されても良い。例えばメモリ以外の機能ブロックが１チップ化されていても良い。

ここでは、ＬＳＩとしたが、集積度の違いにより、ＩＣ、システムＬＳＩ、スーパーＬＳＩ、ウルトラＬＳＩと呼称されることもある。

また、集積回路化の手法はＬＳＩに限るものではなく、専用回路又は汎用プロセッサで実現してもよい。ＬＳＩ製造後に、プログラムすることが可能なＦＰＧＡ（ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）や、ＬＳＩ内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサを利用しても良い。

さらには、半導体技術の進歩又は派生する別技術によりＬＳＩに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積化を行ってもよい。バイオ技術の適応等が可能性としてありえる。

本発明は、翻訳を伴う会話をスムースに行うことができ、例えば、人に携帯される翻訳装置、またはカウンターなどに据え置かれた翻訳装置として利用可能である。

１００翻訳装置
１０１収音部
１０２言語設定部
１０３特徴量抽出部
１０４話者認識部
１０５言語決定部
１０６音声認識部
１０７翻訳部
１０８音声合成部
１０９再生部
１１０表示部
１１１モデル格納部
１１１ａ第１話者モデル
１１１ｂ第２話者モデル
１１２モデル更新部
１１３誤り判定部
１１４発話長判定部
１１５雑音判定部
１１６発話順設定部
Ｓ１１００設定処理
Ｓ１２００会話開始処理
Ｓ１３００モデル生成翻訳処理
Ｓ１４００翻訳処理

Claims

第１言語で発話する第１話者と、第２言語で発話する第２話者との間の会話をコンピュータが翻訳する情報処理方法であって、
前記第１話者の言語および前記第２話者の言語として設定された前記第１言語および前記第２言語を示す言語設定情報を生成し、
ユーザによる操作に応じて、前記会話において最初に発話する話者として設定された前記第１話者を示す発話順情報を生成し、
会話開始の操作を受け付け、
前記操作の受け付け後の最初の発話である第１発話を取得し、
前記発話順情報に基づいて、取得された前記第１発話の話者が前記第１話者であると判定し、取得された前記第１発話から、前記第１話者の発話の特徴量のモデルである第１話者モデルを生成し、
前記言語設定情報および前記発話順情報に基づいて、取得された前記第１発話を前記第１言語から前記第２言語に翻訳し、
第２発話を取得し、
取得された前記第２発話の特徴量と前記第１話者モデルとを比較することによって、取得された前記第２発話の話者が前記第１話者であるか否かを認識し、
前記第１話者であると認識された場合には、前記言語設定情報に基づいて、取得された前記第２発話を前記第１言語から前記第２言語に翻訳し、
前記第１話者でないと認識された場合には、前記言語設定情報に基づいて、取得された前記第２発話を前記第２言語から前記第１言語に翻訳する
情報処理方法。
前記情報処理方法は、さらに、
前記第２発話が前記第１言語から前記第２言語に翻訳される場合には、
前記第１話者モデルを、前記第２発話を用いて更新する
請求項１に記載の情報処理方法。
前記情報処理方法は、さらに、
前記第２発話が前記第１言語から前記第２言語に翻訳される場合には、
前記第２発話の翻訳の言語が誤っているか否かを判定し、
前記第２発話の翻訳の言語が誤っていないと判定されたときに、前記第１話者モデルを、前記第２発話を用いて更新する
請求項１に記載の情報処理方法。
前記情報処理方法は、さらに、
前記第２発話の翻訳の言語が誤っていると判定されたときには、
前記第２発話の翻訳における翻訳元の言語と翻訳先の言語とが入れ換えられた逆翻訳を実行し、
取得された前記第２発話から、前記第２話者の発話の特徴量のモデルである第２話者モデルを生成する
請求項３に記載の情報処理方法。
前記第１発話の取得または前記第２発話の取得では、
前記第１話者または前記第２話者の発話の時間長が閾値以上か否かを判定し、前記閾値以上と判定された時間長の発話を、前記第１発話または前記第２発話として取得する
請求項１に記載の情報処理方法。
前記第１発話の取得または前記第２発話の取得では、
前記第１話者または前記第２話者の周囲の音が発話か否かを判定し、発話であると判定された前記音を、前記第１発話または前記第２発話として取得する
請求項１に記載の情報処理方法。
前記情報処理方法は、さらに、
前記第２発話の話者が前記第１話者でないと認識された場合には、
取得された前記第２発話から、前記第２話者の発話の特徴量のモデルである第２話者モデルを生成し、
第３発話を取得し、
取得された前記第３発話の特徴量と、前記第１話者モデルおよび前記第２話者モデルのそれぞれとを比較することによって、取得された前記第３発話の話者が前記第１話者であるか、前記第２話者であるかを認識し、
前記第１話者であると認識された場合には、前記言語設定情報に基づいて、取得された前記第３発話を前記第１言語から前記第２言語に翻訳し、
前記第２話者であると認識された場合には、前記言語設定情報に基づいて、取得された前記第３発話を前記第２言語から前記第１言語に翻訳する
請求項１に記載の情報処理方法。
前記情報処理方法は、さらに、
前記第３発話の特徴量と、前記第１話者モデルおよび前記第２話者モデルのそれぞれとを比較することによって、前記第３発話の話者が前記第１話者および前記第２話者の何れでもないと認識した場合には、
前記第３発話を棄却することによって、前記第３発話の翻訳を行わない
請求項７に記載の情報処理方法。
第１言語で発話する第１話者と、第２言語で発話する第２話者との間の会話を翻訳する情報処理装置であって、
処理回路と、
前記処理回路に接続された記録媒体とを備え、
前記処理回路は、前記記録媒体を用いて、
前記第１話者の言語および前記第２話者の言語として設定された前記第１言語および前
記第２言語を示す言語設定情報を生成し、
ユーザによる操作に応じて、前記会話において最初に発話する話者として設定された前記第１話者を示す発話順情報を生成し、
会話開始の操作を受け付け、
前記操作の受け付け後の最初の発話である第１発話を音声信号として取得し、
前記発話順情報に基づいて、取得された前記第１発話の話者が前記第１話者であると判定し、取得された前記第１発話から、前記第１話者の発話の特徴量のモデルである第１話者モデルを生成し、
前記言語設定情報および前記発話順情報に基づいて、取得された前記第１発話を前記第１言語から前記第２言語に翻訳し、
第２発話を音声信号として取得し、
取得された前記第２発話の特徴量と前記第１話者モデルとを比較することによって、取得された前記第２発話の話者が前記第１話者であるか否かを認識し、
前記第１話者であると認識された場合には、前記言語設定情報に基づいて、取得された前記第２発話を前記第１言語から前記第２言語に翻訳し、
前記第１話者でないと認識された場合には、前記言語設定情報に基づいて、取得された前記第２発話を前記第２言語から前記第１言語に翻訳する、
情報処理装置。
第１言語で発話する第１話者と、第２言語で発話する第２話者との間の会話を翻訳するためのプログラムであって、
前記第１話者の言語および前記第２話者の言語として設定された前記第１言語および前記第２言語を示す言語設定情報を生成し、
ユーザによる操作に応じて、前記会話において最初に発話する話者として設定された前記第１話者を示す発話順情報を生成し、
会話開始の操作を受け付け、
前記操作の受け付け後の最初の発話である第１発話を音声信号として取得し、
前記発話順情報に基づいて、取得された前記第１発話の話者が前記第１話者であると判定し、取得された前記第１発話から、前記第１話者の発話の特徴
量のモデルである第１話者モデルを生成し、
前記言語設定情報および前記発話順情報に基づいて、取得された前記第１発話を前記第１言語から前記第２言語に翻訳し、
第２発話を音声信号として取得し、
取得された前記第２発話の特徴量と前記第１話者モデルとを比較することによって、取得された前記第２発話の話者が前記第１話者であるか否かを認識し、
前記第１話者であると認識された場合には、前記言語設定情報に基づいて、取得された前記第２発話を前記第１言語から前記第２言語に翻訳し、
前記第１話者でないと認識された場合には、前記言語設定情報に基づいて、取得された前記第２発話を前記第２言語から前記第１言語に翻訳する、
ことをコンピュータに実行させるプログラム。