JP2019053251A

JP2019053251A - 情報処理装置、言語判定方法及びプログラム

Info

Publication number: JP2019053251A
Application number: JP2017178936A
Authority: JP
Inventors: 智廣瀬; Satoshi Hirose; 英樹竹原; Hideki Takehara; 須山　明昇; Akinori Suyama; 明昇須山; 立巳長沼; Tatsumi Naganuma
Original assignee: JVCKenwood Corp
Current assignee: JVCKenwood Corp
Priority date: 2017-09-19
Filing date: 2017-09-19
Publication date: 2019-04-04
Anticipated expiration: 2037-09-19
Also published as: JP6996186B2

Abstract

【課題】音声の言語を予め設定することなく、精度よく音声の言語を決定することが可能な情報処理装置を提供する。【解決手段】語句テーブル１２４は、複数の言語それぞれと、複数の言語それぞれに対応する１つ以上の語句とを対応付けている。候補選択部１１６は、音声の言語の候補を複数選択する。変換部１２０は、入力された音声を文字列に変換する。判定部１２２は、語句テーブル１２４に基づき、前記変換した文字列に、前記音声の候補となる言語に対応付けられた語句が含まれているか否かを判定する。言語決定部１２６は、語句の少なくとも１つが文字列に含まれる場合に、含まれていると判定された語句に対応付けられた言語を、音声の言語と決定する。【選択図】図２

Description

本発明は、情報処理装置、言語判定方法及びプログラムに関する。

特許文献１は、音声認識を行って音声を文字列に変換して、得られた文字列に基づいて字幕画面を生成する技術を開示する。ここで、音声を文字列に変換する際に、その音声の言語（例えば日本語、英語、中国語等）を特定する必要がある。例えば、音声の言語が日本語であるにも関わらず、英語で音声認識を行うと、意味の通らない文字列が生成されるか、又は、文字列の生成が不可能となる可能性がある。したがって、ユーザは、予め、音声の入力端末に、入力される音声の言語を設定しておく必要がある。しかしながら、予め言語を設定することは、ユーザにとって煩わしい作業であるおそれがある。

この技術に関連し、特許文献２は、見知らぬ外国人と会話をするための翻訳装置において、相手の話す言語を決定し会話を成立させる翻訳システムを開示する。特許文献２においては、相手の音声の特徴及び相手の人種等から、相手の話す言語が決定される。

特開平６−１４１２４０号公報特開２００６−２６８７１０号公報

音声の特徴及び発話者の人種は、必ずしも言語を特定するものではない。例えば、人種がモンゴロイドである場合、その人の話す言語は、日本語である場合もあるし、中国語である場合もある。したがって、特許文献２の技術では、相手の話す言語を精度よく決定できないおそれがある。

上記課題に鑑み、本発明は、音声の言語を予め設定することなく、精度よく音声の言語を決定することが可能な情報処理装置、言語判定方法及びプログラムを提供することを目的とする。

そこで、本発明は、入力された音声を文字列に変換する変換部と、前記音声の候補となる言語を複数選択する選択部と、言語ごとに１つ以上の語句を対応付けた第１のテーブルに基づき、前記変換した文字列に、前記音声の候補となる言語に対応付けられた語句が含まれているか否かを判定する判定部と、含まれている場合には、含まれていると判定された語句に対応付けられた言語を、前記音声の言語として決定する言語決定部とを備える情報処理装置を提供する。

また、本発明は、入力された音声を文字列に変換する変換ステップと、前記音声の候補となる言語を複数選択する選択ステップと、言語ごとに１つ以上の語句を対応付けた第１のテーブルに基づき、前記変換した文字列に、前記音声の候補となる言語に対応付けられた語句が含まれているか否かを判定する判定ステップと、含まれている場合には、含まれていると判定された語句に対応付けられた言語を、前記音声の言語として決定する言語決定ステップとを有する言語判定方法を提供する。

また、本発明は、入力された音声を文字列に変換する変換ステップと、前記音声の候補となる言語を複数選択する選択ステップと、言語ごとに１つ以上の語句を対応付けた第１のテーブルに基づき、前記変換した文字列に、前記音声の候補となる言語に対応付けられた語句が含まれているか否かを判定する判定ステップと、含まれている場合には、含まれていると判定された語句に対応付けられた言語を、前記音声の言語として決定する言語決定ステップとをコンピュータに実行させるプログラムを提供する。

本発明によれば、音声の言語を予め設定することなく、精度よく音声の言語を決定することが可能な情報処理装置、言語判定方法及びプログラムを提供することができる。

実施の形態１にかかる字幕生成システムを示す図である。実施の形態１にかかる情報処理装置の構成を示す図である。実施の形態１にかかる国／候補テーブルを例示する図である。実施の形態１にかかる語句テーブルを例示する図である。実施の形態１にかかる情報処理装置によって行われる処理を示すフローチャートである。実施の形態１にかかる、字幕を表示している表示端末を例示する図である。実施の形態２にかかる情報処理装置の構成を示す図である。実施の形態２にかかる情報処理装置によって行われる処理を示すフローチャートである。実施の形態３にかかる情報処理装置の構成を示す図である。実施の形態３にかかる語句テーブルを例示する図である。実施の形態３にかかる情報処理装置によって行われる処理を示すフローチャートである。実施の形態４にかかる情報処理装置の構成を示す図である。実施の形態４にかかる人種／候補テーブルを例示する図である。実施の形態４にかかる情報処理装置によって行われる処理を示すフローチャートである。実施の形態５にかかる情報処理装置の構成を示す図である。実施の形態５にかかる情報処理装置によって行われる処理を示すフローチャートである。

（実施の形態１）
以下、図面を参照して本発明の実施の形態について説明する。なお、実質的に同じ構成要素には、同じ符号が付される。

図１は、実施の形態１にかかる字幕生成システム１を示す図である。字幕生成システム１は、入力端末１０と、表示端末２０と、情報処理装置１００とを有する。入力端末１０と、表示端末２０と、情報処理装置１００とは、有線又は無線のネットワーク２を介して互いに通信可能に接続されている。

入力端末１０は、映像及び音声等が入力される装置である。入力端末１０は、例えば、カメラ、携帯電話、スマートフォン、タブレット端末等である。表示端末２０は、例えばパーソナルコンピュータ（ＰＣ）、スマートフォン、タブレット端末等である。例えば、表示端末２０は、ライブストリーミング等のストリーミング機能を実現可能なアプリケーション又はウェブブラウザ等を有している。情報処理装置１００は、例えばサーバ等のコンピュータである。

入力端末１０は、音声及び映像を受け付ける。情報処理装置１００は、入力端末１０に入力された音声つまり入力音声を文字列に変換する。そして、情報処理装置１００は、得られた文字列を使用して、入力端末１０に入力された映像に付加する字幕を生成する。表示端末２０は、入力端末１０に入力された映像及び音声を再生する。さらに、表示端末２０は、映像に字幕を付加して表示する。ここで、情報処理装置１００は、音声の言語をユーザが設定することなしに、入力音声を文字列に変換する。これにより、ユーザの利便性が向上する。

入力端末１０は、通信部１２と、音声入力部１４と、映像入力部１６と、位置取得部１８とを有する。通信部１２は、ネットワーク２を介して情報処理装置１００等と通信を行うために必要な処理を行う。音声入力部１４は、例えばマイクで構成され得る。音声入力部１４は、入力端末１０の周囲のユーザが発した音声等を入力する。さらに、音声入力部１４は、入力された音声つまり入力音声を示す音声データを生成する。

映像入力部１６は、例えばカメラ等の撮像素子で構成され得る。映像入力部１６は、映像入力部１６の前の映像を撮影する。そして、映像入力部１６は、入力された映像つまり入力映像を示す映像データを生成する。位置取得部１８は、ＧＰＳ（Global Positioning System）等によって、入力端末１０の位置情報を取得する。

通信部１２は、音声データ、位置情報及び映像データを、ネットワーク２を介して、情報処理装置１００に対して送信する。なお、以降、用語「入力音声」は、入力音声を示す音声データも意味する。同様に、用語「映像」は、映像を示す映像データも意味する。また、用語「位置」は、位置を示す位置情報も意味する。さらに、用語「文字列」は、文字列を示すテキストデータも意味する。また、用語「字幕」は、字幕を示す字幕データも意味する。

表示端末２０は、通信部２２と、音声出力部２４と、映像表示部２６と、字幕出力部２８とを有する。通信部２２は、ネットワーク２を介して情報処理装置１００等と通信を行うために必要な処理を行う。通信部２２は、情報処理装置１００から、音声データ、映像データ、及び字幕データを受信する。

音声出力部２４は、例えばスピーカ等で構成され得る。音声出力部２４は、情報処理装置１００から受信された音声を再生する。映像表示部２６は、例えばディスプレイ等で構成され得る。映像表示部２６は、情報処理装置１００から受信された映像を再生する。字幕出力部２８は、映像表示部２６に、音声に対応する字幕を付加して出力する。

図２は、実施の形態１にかかる情報処理装置１００の構成を示す図である。情報処理装置１００は、主要なハードウェア構成として、制御部１０２と、記憶部１０４と、通信部１０６と、インタフェース部１０８（ＩＦ；Interface）とを有する。制御部１０２、記憶部１０４、通信部１０６及びインタフェース部１０８は、データバスなどを介して相互に接続されている。

制御部１０２は、例えばＣＰＵ（Central Processing Unit）等のプロセッサである。制御部１０２は、制御処理及び演算処理等を行う演算装置としての機能を有する。記憶部１０４は、例えばメモリ又はハードディスク等の記憶デバイスである。記憶部１０４は、例えばＲＯＭ（Read Only Memory）又はＲＡＭ（Random Access Memory）等である。記憶部１０４は、制御部１０２によって実行される制御プログラム及び演算プログラム等を記憶するための機能を有する。また、記憶部１０４は、処理データ等を一時的に記憶するための機能を有する。

通信部１０６は、入力端末１０及び表示端末２０とネットワーク２を介して通信を行うために必要な処理を行う。通信部１０６は、通信ポートを含み得る。インタフェース部１０８（ＩＦ；Interface）は、例えばユーザインタフェース（ＵＩ）である。インタフェース部１０８は、キーボード、タッチパネル又はマウス等の入力装置と、ディスプレイ又はスピーカ等の出力装置とを有する。なお、入力端末１０及び表示端末２０も、制御部１０２、記憶部１０４、通信部１０６及びインタフェース部１０８と同様のハードウェア構成を有しうる。

また、情報処理装置１００は、言語判定部１１０と、字幕生成部１３０とを有する。言語判定部１１０は、後述するように、入力音声の言語を判定する。字幕生成部１３０は、判定された言語で入力音声を文字列に変換して字幕を生成する。そして、字幕生成部１３０は、生成された字幕を、通信部１０６を用いて表示端末２０に対して送信する。詳しくは後述する。なお、情報処理装置１００は、このような構成により、言語判定装置として機能し得る。

なお、言語判定部１１０及び字幕生成部１３０は、例えば、制御部１０２の制御によって、プログラムを実行させることによって実現できる。より具体的には、言語判定部１１０及び字幕生成部１３０は、記憶部１０４に格納されたプログラムを、制御部１０２が実行することによって実現され得る。また、必要なプログラムを任意の不揮発性記録媒体に記録しておき、必要に応じてインストールすることで、言語判定部１１０及び字幕生成部１３０を実現するようにしてもよい。また、言語判定部１１０及び字幕生成部１３０の各構成要素は、プログラムによるソフトウェアで実現することに限ることなく、ハードウェア、ファームウェア、及びソフトウェアのうちのいずれかの組み合わせ等により実現してもよい。また、言語判定部１１０及び字幕生成部１３０の各構成要素は、例えばＦＰＧＡ（field-programmable gate array）又はマイコン等の、ユーザがプログラミング可能な集積回路を用いて実現してもよい。この場合、この集積回路を用いて、上記の各構成要素から構成されるプログラムを実現してもよい。以上のことは、後述する他の実施の形態においても同様である。

言語判定部１１０は、入力音声取得部１１２と、位置情報取得部１１４と、候補選択部１１６と、国／候補テーブル１１８（第２のテーブル）と、変換部１２０と、判定部１２２と、語句テーブル１２４（第１のテーブル）と、言語決定部１２６とを有する。これらの言語判定部１１０の各構成要素については図５等を用いて後で詳述するが、一部の構成要素については以下で説明する。

図３は、実施の形態１にかかる国／候補テーブル１１８を例示する図である。国／候補テーブル１１８は、国と、入力音声の言語の候補である言語候補とを対応付けている。言語候補は、国／候補テーブル１１８において対応する国にいる人が話す可能性の高い言語である。図３に示した例では、国名「日本」が、言語候補として、「日本語」及び「英語」等と対応付けられている。また、国名「米国」が、言語候補として、「英語」及び「スペイン語」等と対応付けられている。つまり、日本では、「日本語」又は「英語」が話される可能性が高い。また、「米国」では、「英語」又は「スペイン語」が話される可能性が高い。

図４は、実施の形態１にかかる語句テーブル１２４を例示する図である。語句テーブル１２４は、複数の言語それぞれと、複数の言語それぞれに対応する１つ以上の語句とを対応付けている。ここで、図４に例示した語句は、挨拶等の、入力音声つまり発話の冒頭に発生する可能性の高い語句である。図４に示した例では、言語「日本語」が、語句「おはよう」及び「こんにちは」等と対応付けられている。また、言語「英語」が、語句「Ｇｏｏｄｍｏｒｎｉｎｇ」及び「Ｈｅｌｌｏ」等と対応付けられている。「日本語」の発話では、冒頭に「おはよう」又は「こんにちは」等と発せられる可能性が高い。また、「英語」の発話では、冒頭に「Ｇｏｏｄｍｏｒｎｉｎｇ」又は「Ｈｅｌｌｏ」等と発せられる可能性が高い。

図５は、実施の形態１にかかる情報処理装置１００によって行われる処理を示すフローチャートである。ここで、図５に示すフローチャートのうち、Ｓ１０２〜Ｓ１１４の処理が、言語判定方法に対応する。ステップＳ１０２において、入力音声取得部１１２は、入力端末１０から入力音声を取得する。入力音声取得部１１２は、取得された入力音声を、変換部１２０に対して出力する。また、位置情報取得部１１４は、入力端末１０から位置情報を取得する。位置情報取得部１１４は、取得された位置情報を、候補選択部１１６に対して出力する。

ステップＳ１０４において、候補選択部１１６は、入力音声が発せられた国に対応する言語候補を、複数選択する。候補選択部１１６は、選択された複数の言語候補を、変換部１２０に対して出力する。具体的には、候補選択部１１６は、位置情報取得部１１４によって取得された位置情報から、入力音声が入力された位置に関する国を判定する。候補選択部１１６は、国／候補テーブル１１８において、その国に対応する言語を、言語候補として選択する。例えば、位置情報が日本のある地点を示す場合、候補選択部１１６は、国／候補テーブル１１８を用いて、日本語及び英語等を、言語候補として選択する。

次に、ステップＳ１０６において、変換部１２０は、Ｓ１０４の処理で選択された複数の言語それぞれについて、入力音声を文字列に変換する。変換部１２０は、得られた文字列を、判定部１２２に対して出力する。具体的には、変換部１２０は、変換部１２０は、選択された複数の言語それぞれについて音声認識処理を行い、入力音声から文字列を生成する。言語候補が日本語及び英語である例では、変換部１２０は、入力音声に対して日本語で音声認識処理を行って、日本語の文字列を取得する。同様に、変換部１２０は、入力音声に対して英語で音声認識処理を行って、英語の文字列を取得する。

なお、変換部１２０は、取得された入力音声の全てを、文字列に変換する必要はない。変換部１２０は、入力音声において冒頭の５個程度の語句が含まれる程度の所定の期間に入力された音声のみ、変換処理を行えばよい。例えば、変換部１２０は、入力音声の冒頭から１０秒程度のみ、変換処理を行えばよい。また、ある言語候補で音声認識処理を行った結果、入力音声にその言語の発音が含まれない等の理由により、テキスト変換が良好に行われないことがある。この場合、文字列が生成されないことがある。

次に、判定部１２２は、複数の言語候補それぞれについて、語句テーブル１２４における複数の言語候補それぞれに対応する語句の少なくとも１つがＳ１０６の処理で得られた文字列に含まれるか否かを判定する。具体的には、ステップＳ１０８において、判定部１２２は、語句テーブル１２４から、選択された言語候補それぞれに対応する語句を抽出する。言語候補が日本語及び英語である例では、判定部１２２は、語句テーブル１２４において言語候補「日本語」に対応する語句である「おはよう」及び「こんにちは」等を抽出する。同様に、判定部１２２は、語句テーブル１２４において言語候補「英語」に対応する語句である「Ｇｏｏｄｍｏｒｎｉｎｇ」及び「Ｈｅｌｌｏ」等を抽出する。

次に、ステップＳ１１０において、判定部１２２は、語句テーブル１２４から抽出された語句がＳ１０６のテキスト変換処理で得られた文字列に含まれるか否かを判定する。そして、判定部１２２は、判定結果を、言語決定部１２６に対して出力する。抽出された語句の少なくとも１つがＳ１０６の処理で得られた文字列に含まれる場合（Ｓ１１０のＹＥＳ）、処理はＳ１１２に進む。一方、抽出された語句の全てがＳ１０６の処理で得られた文字列に含まれない場合（Ｓ１１０のＮＯ）、処理はＳ１１４に進む。

ステップＳ１１２において、言語決定部１２６は、文字列に含まれる語句に対応する言語候補を、入力音声の言語と決定する。具体的には、入力音声が「こんにちは、今日はいい天気です」である場合、語句テーブル１２４から抽出された語句「こんにちは」が入力音声に含まれている。そして、語句「こんにちは」は、語句テーブル１２４において、言語候補「日本語」に対応する。したがって、言語決定部１２６は、入力音声の言語つまり入力言語を、「日本語」と決定する。

また、入力音声が「Good morning. It's a beautiful day today.」である場合、語句テーブル１２４から抽出された語句「Ｇｏｏｄｍｏｒｎｉｎｇ」が入力音声に含まれている。そして、語句「Ｇｏｏｄｍｏｒｎｉｎｇ」は、語句テーブル１２４において、言語候補「英語」に対応する。したがって、言語決定部１２６は、入力言語を「英語」と決定する。

一方、ステップＳ１１４において、言語決定部１２６は、Ｓ１０４〜Ｓ１１２の処理とは別の方法で、入力音声の言語つまり入力言語を決定する。「Ｓ１０４〜Ｓ１１２の処理とは別の方法」とは、国／候補テーブル１１８及び語句テーブル１２４の少なくとも一方を使用しないような方法である。例えば、入力音声がスペイン語である場合、言語候補「英語」及び「日本語」に対応する語句「おはよう」、「こんにちは」、「Ｇｏｏｄｍｏｒｎｉｎｇ」及び「Ｈｅｌｌｏ」は、入力音声に含まれない可能性が非常に高い。したがって、この場合、言語決定部１２６は、Ｓ１０４〜Ｓ１１２の処理とは別の方法で、入力音声の言語つまり入力言語を決定する。また、例えば、入力音声が「みなさん、今日はいい天気ですね」である場合、英語の語句「Ｇｏｏｄｍｏｒｎｉｎｇ」及び「Ｈｅｌｌｏ」だけでなく日本語の語句「おはよう」及び「こんにちは」も、入力音声に含まれない。したがって、この場合も、言語決定部１２６は、Ｓ１０４〜Ｓ１１２の処理とは別の方法で、入力音声の言語つまり入力言語を決定する。

なお、Ｓ１１４の処理つまり「Ｓ１０４〜Ｓ１１２の処理とは別の方法」には、いくつかの方法がある。例えば、言語決定部１２６は、Ｓ１０４で選択された言語候補以外の言語を言語候補として新たに選択してもよい。つまり、言語決定部１２６は、国／候補テーブル１１８を用いないで、言語候補を選択してもよい。そして、言語決定部１２６は、語句テーブル１２４において、新たに選択された位置情報とは関連のない言語候補と語句とが対応付けられている場合、その言語候補についてＳ１０６〜Ｓ１１０の処理を行ってもよい。そして、語句テーブル１２４に設定されている全ての言語についてＳ１０６〜Ｓ１１０の処理を行っても入力言語が決定されない場合に、以下の方法を行ってもよい。なお、以下の方法は、上記の言語候補を新たに選択する方法を行わないで、行われてもよい。

例えば、言語決定部１２６は、ユーザが入力音声の言語を設定することで、入力言語を決定してもよい。また、言語決定部１２６は、入力音声の音韻等を解析することによって、入力言語を決定してもよい。また、言語決定部１２６は、世界中で使用されている言語全てについて辞書を設けておき、その全ての言語について入力音声を文字列に変換し、その文字列と辞書に登録された単語とを比較して一致する割合の高い言語を、入力音声の言語と決定してもよい。この場合、ユーザが、使用頻度の高い言語の順位が高くなるように優先順位を設定しておき、優先順位の高い言語から、上記の比較を行ってもよい。

言語決定部１２６は、決定された入力言語を示す信号と、入力音声とを、字幕生成部１３０に対して出力する。ステップＳ１２０，Ｓ１２２において、字幕生成部１３０は、字幕を生成する。具体的には、字幕生成部１３０は、言語決定部１２６によって決定された入力言語で、入力音声を文字列に変換する（Ｓ１２０）。なお、Ｓ１２０の処理における変換方法は、Ｓ１０６の処理における変換方法と実質的に同じでよい。一方、Ｓ１２０の処理は、字幕生成部１３０が、決定された入力言語のみについて変換を行う点、及び、入力音声の全てについて変換を行う点で、Ｓ１０６の処理と異なる。

字幕生成部１３０は、変換によって得られた文字列を用いて字幕を生成する（Ｓ１２２）。具体的には、字幕生成部１３０は、文字列を映像に重畳できる形式に変換することで、字幕を生成する。そして、字幕生成部１３０は、生成された字幕を表示端末２０に対して送信する。そして、音声入力が終了していない場合（ステップＳ１２４のＮＯ）、Ｓ１２０〜Ｓ１２２の処理が繰り返される。音声入力が終了すると（ステップＳ１２４のＹＥＳ）、処理は終了する。

図６は、実施の形態１にかかる、字幕を表示している表示端末２０を例示する図である。映像表示部２６に映像が表示されている。また、音声出力部２４から、入力音声「こんにちは、今日はいい天気です」が出力されている。そして、映像表示部２６に表示された映像に重畳するようにして、字幕出力部２８が、入力音声に対応する字幕を表示している。

上記のように、本実施の形態にかかる情報処理装置１００は、音声の言語の候補を複数選択し、選択された複数の候補の言語それぞれについて音声を文字列に変換する。また、情報処理装置１００は、複数の候補の言語それぞれについて、語句テーブル１２４における複数の候補それぞれに対応する語句の少なくとも１つが、得られた文字列に含まれるか否かを判定する。そして、情報処理装置１００は、上記語句の少なくとも１つが文字列に含まれる場合に、この含まれる語句に対応する候補の言語を、音声の言語と決定する。

語句テーブル１２４に含まれる語句が、入力音声を言語候補で変換して得られた文字列に含まれる場合は、入力言語はその語句に対応する言語である可能性が非常に高い。例えば、語句「こんにちは」が入力音声に対応する文字列に含まれる場合、その入力音声は日本語である可能性が非常に高い。したがって、上記のような構成によって、本実施の形態にかかる情報処理装置１００は、音声の言語を予め設定することなく、精度よく音声の言語を決定することが可能となる。

また、本実施の形態にかかる情報処理装置１００は、言語候補を選択し、その言語候補で入力音声を文字列に変換している。これにより、世界中のあらゆる言語で入力音声を文字列に変換する必要はない。したがって、本実施の形態にかかる情報処理装置１００では、処理の量の増加を抑制しつつ、より正確に音声の言語を決定することが可能となる。したがって、本実施の形態にかかる情報処理装置１００は、速くかつ正確に、音声の言語を決定することができる。

また、実施の形態１にかかる語句テーブル１２４は、挨拶等の、発話において冒頭に発生し得る語句を、言語と対応付けている。発話において冒頭に発生し得る語句は、挨拶等の決まり文句に限られることが多い。さらに、冒頭に発生し得る語句を用いることによって、言語候補で入力音声を文字列に変換する際に、入力音声の冒頭の数秒のみを変換するのみでよい。したがって、実施の形態１にかかる情報処理装置１００は、冒頭に発生し得る語句を含む語句テーブル１２４を使用することにより、より速くかつ正確に、入力音声の言語を決定することが可能となる。

また、実施の形態１にかかる情報処理装置１００は、国／候補テーブル１１８を用いて言語候補を選択している。国で主に用いられる言語は、ある程度限られてくる。したがって、国／候補テーブル１１８を用いて言語候補を選択することで、選択された言語候補に入力言語が含まれる可能性が高くなる。したがって、実施の形態１にかかる情報処理装置１００は、国／候補テーブル１１８を用いることによって、より精度よく、入力音声の言語を決定することが可能となる。さらに、位置情報から国を特定することは、比較的容易であり、短い時間で行うことができる。したがって、国／候補テーブル１１８を用いて言語候補を選択することで、処理時間の短縮を図ることが可能となる。

（実施の形態２）
次に、実施の形態２について説明する。実施の形態２は、国／候補テーブル１１８及び語句テーブル１２４が更新される点で、実施の形態１と異なる。実施の形態２のその他の構成については、実施の形態１と実質的に同様であるので、説明を省略する。

図７は、実施の形態２にかかる情報処理装置１００の構成を示す図である。実施の形態２にかかる情報処理装置１００のハードウェア構成は、実施の形態１にかかるものと実質的に同様である。実施の形態２にかかる情報処理装置１００は、言語判定部２１０及び字幕生成部１３０を有する。言語判定部２１０は、言語判定部１１０が有する構成要素に加えて、更新部２２０を有する。

更新部２２０は、言語決定部１２６の処理に応じてテーブルを更新する。更新部２２０は、国／候補テーブル更新部２２２（第２の更新部）と、語句テーブル更新部２２４（第１の更新部）とを有する。国／候補テーブル更新部２２２は、国／候補テーブル１１８を更新する。語句テーブル更新部２２４は、語句テーブル１２４を更新する。以下、テーブルの更新方法について説明する。

図８は、実施の形態２にかかる情報処理装置１００によって行われる処理を示すフローチャートである。なお、Ｓ１０２〜Ｓ１１４及びＳ１２２〜Ｓ１２４の処理については、図５に示したフローチャートにおける処理と実質的に同様である。Ｓ１１４において、Ｓ１０４〜Ｓ１１２の処理とは別の方法で入力言語が決定されると、国／候補テーブル更新部２２２は、国／候補テーブル１１８を更新する（ステップＳ２０２）。

具体的には、国／候補テーブル更新部２２２は、Ｓ１１４の処理において決定された入力言語を、言語候補として国／候補テーブル１１８に追加する。例えば、Ｓ１０２の処理で取得された位置情報が「日本」に対応したケースについて説明する。このとき、言語候補として、「日本語」及び「英語」が選択されたが、入力言語が「中国語」であったとする。この場合、国／候補テーブル更新部２２２は、国／候補テーブル１１８の国名「日本」の言語候補に、「中国語」を追加する。

次に、入力言語で入力音声が文字列に変換された後（Ｓ１２０）、語句テーブル更新部２２４は、語句テーブル１２４を更新する（ステップＳ２０４）。具体的には、語句テーブル更新部２２４は、Ｓ１２０の処理で得られた文字列から、冒頭の語句を抽出する。そして、語句テーブル更新部２２４は、抽出された語句を、入力言語に対応する語句として、語句テーブル１２４に追加する。例えば、入力言語が「中国語」であり、冒頭の語句が「ニイハオ」であった場合、語句テーブル更新部２２４は、語句テーブル１２４の言語「中国語」の語句に「ニイハオ」を追加する。また、例えば、入力言語が「日本語」であり、入力音声が「みなさん、今日はいい天気ですね・・・」である場合、語句テーブル更新部２２４は、語句テーブル１２４の言語「日本語」の語句に「みなさん」を追加する。

本実施の形態にかかる情報処理装置１００は、図５に示したＳ１０４〜Ｓ１１２の処理で入力言語を決定できない場合、Ｓ１１４の処理において、Ｓ１０４〜Ｓ１１２の処理とは別の方法で、入力言語を決定する。一方、Ｓ１１４の処理は、ユーザが入力言語を入力する場合は、ユーザにとって煩わしい作業が追加されることとなる。また、言語候補を新たに選択する方法、入力音声の音韻等を用いる方法、及び言語全てについての辞書との比較を用いる方法では、Ｓ１０４〜Ｓ１１２の処理と比較して、入力言語の決定の精度が悪く、処理時間が長くなるおそれがある。したがって、できるだけ、Ｓ１０４〜Ｓ１１２の処理を用いて入力言語を決定することが望ましい。

一方、実施の形態２にかかる情報処理装置１００は、国／候補テーブル１１８及び語句テーブル１２４を、自己学習により更新するように構成されている。したがって、図５に示したＳ１０４〜Ｓ１１２の処理で入力言語を決定できなかった場合でも、以降、その入力音声と同じ言語で、その入力音声に含まれる語句と同じ語句を含む音声が入力された場合に、図５に示したＳ１０４〜Ｓ１１２の処理で入力言語を決定することが可能となる。これにより、情報処理装置１００が図８に示した処理を行うほど、Ｓ１０４〜Ｓ１１２の処理を行うことが可能となり、したがって、入力言語の決定の精度を向上させ、処理時間を短縮することが可能となる。

（実施の形態３）
次に、実施の形態３について説明する。実施の形態３は、複数の時間帯それぞれに対応する複数の語句テーブルが設けられている点で、他の実施の形態と異なる。実施の形態３のその他の構成については、他の実施の形態と実質的に同様であるので、説明を省略する。

図９は、実施の形態３にかかる情報処理装置１００の構成を示す図である。実施の形態３にかかる情報処理装置１００のハードウェア構成は、他の実施の形態にかかるものと実質的に同様である。実施の形態３にかかる情報処理装置１００は、言語判定部３１０及び字幕生成部１３０を有する。言語判定部３１０は、語句テーブル１２４の代わりに、語句テーブル３２０を有する。語句テーブル３２０は、時間帯に応じて、複数のテーブルを有する。

図１０は、実施の形態３にかかる語句テーブル３２０を例示する図である。語句テーブル３２０は、例えば、朝時間帯テーブル３２２と、昼時間帯テーブル３２４とを有する。朝時間帯テーブル３２２は、複数の言語それぞれと、複数の言語それぞれに対応する、朝の時間帯に発せられる可能性が高い語句とを対応付けている。昼時間帯テーブル３２４は、複数の言語それぞれと、複数の言語それぞれに対応する、昼の時間帯に発せられる可能性が高い語句とを対応付けている。

図１０に示した例では、朝時間帯テーブル３２２において、言語「日本語」が、語句「おはよう」等と対応付けられている。また、朝時間帯テーブル３２２において、言語「英語」が、語句「Ｇｏｏｄｍｏｒｎｉｎｇ」等と対応付けられている。一方、図１０に示した例では、昼時間帯テーブル３２４において、言語「日本語」が、語句「こんにちは」等と対応付けられている。また、昼時間帯テーブル３２４において、言語「英語」が、語句「Ｈｅｌｌｏ」等と対応付けられている。朝時間帯では、「日本語」の発話で冒頭に「おはよう」等と発せられる可能性が高く、「英語」の発話で冒頭に「Ｇｏｏｄｍｏｒｎｉｎｇ」等と発せられる可能性が高い。一方、昼時間帯では、「日本語」の発話で冒頭に「こんにちは」等と発せられる可能性が高く、「英語」の発話で冒頭に「Ｈｅｌｌｏ」等と発せられる可能性が高い。

なお、図１０に示した語句テーブル３２０はあくまでも例示である。語句テーブル３２０は、夜時間帯に対応する語句テーブルを有してもよい。また、「時間帯」は、一日における期間のみを意味するものではない。例えば、「時間帯」は、春、夏、秋及び冬といった、一年における期間をも意味し得る。

図１１は、実施の形態３にかかる情報処理装置１００によって行われる処理を示すフローチャートである。実施の形態３にかかる処理は、図５に示したフローチャートのうち、Ｓ１０８の処理が変更されたものである。Ｓ１０８以外の処理については、実施の形態３にかかる処理は、実施の形態１にかかる処理と実質的に同様である。

ステップＳ３００において、判定部１２２は、入力音声が発せられた時刻を示す時間情報を取得する。時間情報は、入力端末１０から取得されてもよい。また、情報処理装置１００が入力音声を取得した時刻を、入力音声が発せられた時刻としてもよい。

次に、ステップＳ３０２において、判定部１２２は、音声が発せられた時間帯を判定する。具体的には、判定部１２２は、Ｓ３００で取得された時間情報によって示される時刻が、語句テーブル３２０におけるどの時間帯に含まれるかを判定する。例えば、Ｓ３００で取得された時間情報によって示される時刻が、５：００〜１２：００の時間帯に含まれる場合、判定部１２２は、音声が発せられた時間帯を「朝時間帯」と判定してもよい。また、例えば、Ｓ３００で取得された時間情報によって示される時刻が、１２：００〜１８：００の時間帯に含まれる場合、判定部１２２は、音声が入力された時間帯を「昼時間帯」と判定してもよい。

次に、ステップＳ３０４において、判定部１２２は、Ｓ３０２の処理で判定された時間帯に対応する語句テーブル３２０から、選択された言語候補それぞれに対応する語句を抽出する。例えば、言語候補が「日本語」及び「英語」であり、時間帯が「朝時間帯」である場合、判定部１２２は、朝時間帯テーブル３２２から、語句「おはよう」及び「Ｇｏｏｄｍｏｒｎｉｎｇ」を抽出する。

実施の形態３にかかる情報処理装置１００は、上記のように複数の時間帯それぞれに対応する複数の語句テーブルを有する。したがって、音声が発せられた時間帯に応じて語句テーブルを切り替えることができるので、言語判定の処理を高速化することが可能となる。

（実施の形態４）
次に、実施の形態４について説明する。実施の形態４は、入力音声に関する人の人種から言語候補を選択する点で、他の実施の形態と異なる。実施の形態４のその他の構成については、実施の形態１等と実質的に同様であるので、説明を省略する。

図１２は、実施の形態４にかかる情報処理装置１００の構成を示す図である。実施の形態４にかかる情報処理装置１００のハードウェア構成は、他の実施の形態にかかるものと実質的に同様である。実施の形態４にかかる情報処理装置１００は、言語判定部４１０及び字幕生成部１３０を有する。

言語判定部４１０は、入力音声取得部１１２と、映像取得部４１２と、人種特定部４１４と、人種データベース４１６と、候補選択部４１８と、人種／候補テーブル４２０（第３のテーブル）と、変換部１２０と、判定部１２２と、語句テーブル１２４と、言語決定部１２６とを有する。映像取得部４１２、人種特定部４１４、人種データベース４１６及び候補選択部４１８については、図１４等を用いて後で詳述する。

図１３は、実施の形態４にかかる人種／候補テーブル４２０を例示する図である。人種／候補テーブル４２０は、人種と、言語候補とを対応付けている。言語候補は、人種／候補テーブル４２０において対応する人種の人が話す可能性の高い言語であり得る。図１３に示した例では、人種Ａ（例えばモンゴロイド等）が、言語候補として、「日本語」及び「中国語」等と対応付けられている。また、人種Ｂ（例えばコーカソイド等）が、言語候補として、「英語」及び「フランス語」等と対応付けられている。つまり、人種Ａの人は、「日本語」又は「中国語」を話す可能性が高い。また、人種Ｂの人は、「英語」又は「フランス語」を話す可能性が高い。

図１４は、実施の形態４にかかる情報処理装置１００によって行われる処理を示すフローチャートである。なお、Ｓ１０６〜Ｓ１２４の処理については、図５に示したフローチャートにおける処理と実質的に同様である。まず、ステップＳ４００において、入力音声取得部１１２は、入力端末１０から入力音声を取得する。また、映像取得部４１２は、入力端末１０から映像情報を取得する。映像取得部４１２は、取得された映像情報を、人種特定部４１４に対して出力する。なお、入力端末１０から取得される映像情報は、入力音声が入力されたときに撮影された映像を示すことが好ましい。また、この映像は、入力音声の発話者が含まれることが望ましい。

次に、ステップＳ４０２において、人種特定部４１４は、人種データベース４１６を用いて、映像に含まれる人の人種を特定する。人種特定部４１４は、特定された人種を示す信号を、候補選択部４１８に対して出力する。人種データベース４１６は、様々な人種の人の顔等の身体的特徴を、対応する人種と対応付けている。身体的特徴とは、例えば、肌の色、目の色、髪の毛の色、鼻の高さ、骨格等である。人種特定部４１４は、映像に含まれる人の顔を認識する。そして、人種特定部４１４は、人種を特徴づける身体的特徴を検出して、検出された身体的特徴の特徴量と人種データベース４１６とを用いて、映像に含まれる人の人種を特定する。

次に、ステップＳ４０４において、候補選択部４１８は、特定された人種に対応する言語候補を、複数選択する。候補選択部４１８は、選択された複数の言語候補を、変換部１２０に対して出力する。具体的には、候補選択部４１８は、人種／候補テーブル４２０において、特定された人種に対応する言語を、言語候補として選択する。例えば、特定された人種が「人種Ａ」である場合、候補選択部４１８は、「日本語」及び「中国語」を、言語候補として選択する。

実施の形態４にかかる情報処理装置１００は、音声に関する人の人種を特定し、特定された人種に対応する言語を、言語候補として選択する。日本のように、日本語が話される可能性が高い国もある一方で、米国のように、多くの言語が話される可能性が高い国もある。したがって、実施の形態４にかかる情報処理装置１００は、入力音声に関する人の人種に応じて言語候補を選択することによって、より精度よく、入力言語を決定することが可能となる。

（実施の形態５）
次に、実施の形態５について説明する。実施の形態５は、音声が入力された位置を示す位置情報と入力音声に関する人の人種とから言語候補を選択する点で、他の実施の形態と異なる。実施の形態５のその他の構成については、実施の形態１及び実施の形態４等と実質的に同様であるので、説明を省略する。

図１５は、実施の形態５にかかる情報処理装置１００の構成を示す図である。実施の形態５にかかる情報処理装置１００のハードウェア構成は、他の実施の形態にかかるものと実質的に同様である。実施の形態５にかかる情報処理装置１００は、言語判定部５１０及び字幕生成部１３０を有する。言語判定部５１０は、入力音声取得部１１２と、位置情報取得部１１４と、国／候補テーブル１１８と、映像取得部４１２と、人種特定部４１４と、人種データベース４１６と、人種／候補テーブル４２０と、候補選択部５１８と、変換部１２０と、判定部１２２と、語句テーブル１２４と、言語決定部１２６とを有する。候補選択部５１８については、図１６を用いて後述する。

図１６は、実施の形態５にかかる情報処理装置１００によって行われる処理を示すフローチャートである。なお、Ｓ１０６〜Ｓ１２４の処理については、図５に示したフローチャートにおける処理と実質的に同様である。まず、ステップＳ５００において、入力音声取得部１１２は、入力端末１０から入力音声を取得する。また、位置情報取得部１１４は、入力端末１０から位置情報を取得する。位置情報取得部１１４は、取得された位置情報を、候補選択部５１８に対して出力する。さらに、映像取得部４１２は、入力端末１０から映像情報を取得する。映像取得部４１２は、取得された映像情報を、人種特定部４１４に対して出力する。

ステップＳ５０２において、図１４に示したＳ４０２の処理と同様にして、人種特定部４１４は、人種データベース４１６を用いて、映像に含まれる人の人種を特定する。人種特定部４１４は、特定された人種を示す信号を、候補選択部５１８に対して出力する。

ステップＳ５０４において、候補選択部５１８は、国又は人種に対応する言語候補を、複数選択する。具体的には、図５に示したＳ１０４の処理と同様にして、候補選択部５１８は、入力音声が入力された国に対応する言語候補を、複数選択する。また、図１４に示したＳ４０４の処理と同様にして、候補選択部５１８は、特定された人種に対応する言語候補を、複数選択する。例えば、図３及び図１３に例示したテーブルを用いる例において、音声が入力された国が「日本」であり、人種が「人種Ａ」と特定された場合、候補選択部５１８は、「日本語」、「英語」及び「中国語」を、言語候補として選択する。

国／候補テーブル１１８のみを用いて言語候補を選択する場合、発話者の属性を考慮していないので、発話者が旅行者である場合等では、入力言語が言語候補に含まれない可能性が高くなる。また、人種／候補テーブル４２０のみを用いて言語候補を選択する場合でも、例えば米国に居住するモンゴロイド系住民である場合等では、その人は英語を話す可能性が高いので、入力言語が言語候補に含まれない可能性が高くなる。

これに対し、実施の形態５にかかる情報処理装置１００は、国／候補テーブル１１８及び人種／候補テーブル４２０の両方を用いて言語候補を選択するように構成されている。したがって、言語候補を多く選択することができ、したがって、入力言語が言語候補に含まれる可能性が高くなる。これにより、図５に示したＳ１０４〜Ｓ１１２の処理によって入力言語を決定することができる可能性が高くなる。したがって、実施の形態５にかかる情報処理装置１００は、より精度よく、入力言語を決定することが可能となる。

（変形例）
なお、本発明は上記実施の形態に限られたものではなく、趣旨を逸脱しない範囲で適宜変更することが可能である。例えば、上述したフローチャートにおける各処理の順序は、適宜、変更可能である。また、上述した複数の実施の形態は、互いに適用可能である。

例えば、実施の形態２を、実施の形態３に適用してもよい。この場合、更新部２２０は、入力音声が発せられた時間帯に応じて、語句テーブル３２０を更新するようにしてもよい。また、実施の形態２を、実施の形態４に適用してもよい。この場合、更新部２２０は、図８に示したＳ２０２と同様の方法で、人種／候補テーブル４２０を更新してもよい。つまり、更新部２２０は、Ｓ４０２の処理で特定された人種と、Ｓ１１４で決定された入力言語とを、人種／候補テーブル４２０において対応付けてもよい。このとき、更新部２２０は、第３の更新部として機能する。

また、上述した実施の形態では、国／候補テーブル１１８において、国と言語候補とを対応付けているが、このような構成に限られない。言語候補と国とを対応付けるのではなく、言語候補と地域又は施設等の場所つまり位置とを対応付けてもよい。例えば、観光地及び国際会議場等の、外国人が多く集まる場所では、多くの言語候補を対応付けてもよい。

また、上述した実施の形態においては、語句テーブルに含まれる語句は、入力音声の冒頭に発生し得る語句であるとしたが、このような構成に限られない。語句テーブルに含まれる語句は、冒頭に発生し得るものでなくてもよい。また、この場合、図８に示した実施の形態２にかかるフローチャートにおいて、Ｓ１１０のＹＥＳの場合も、語句テーブル１２４の更新を行ってもよい。つまり、入力音声に含まれる語句のうち、冒頭の語句以外の語句についても、語句テーブル１２４に追加してもよい。

なお、上述したように、冒頭の語句は、挨拶等、ある程度限られる。そして、冒頭に発生し得る語句を用いることによって、言語候補で入力音声を文字列に変換する際に、入力音声の冒頭の数秒のみを変換するのみでよい。したがって、冒頭に発生し得る語句を含む語句テーブル１２４を使用することにより、より速くかつ正確に、入力音声の言語を決定することが可能となる。

また、上述した実施の形態において、入力端末１０は表示端末２０と別個の端末であるとしたが、入力端末１０は、表示端末２０と一体であってもよい。つまり、情報処理装置１００は、入力端末１０及び表示端末２０が一体となって構成された入出力装置に入力された音声を文字列に変換し、得られた文字列をこの入出力装置に送信してもよい。本発明は、このような構成をも包含する。

また、上述したプログラムは、様々なタイプの非一時的なコンピュータ可読媒体（non-transitory computer readable medium）を用いて格納され、コンピュータに供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体（tangible storage medium）を含む。非一時的なコンピュータ可読媒体の例は、磁気記録媒体（例えばフレキシブルディスク、磁気テープ、ハードディスクドライブ）、光磁気記録媒体（例えば光磁気ディスク）、ＣＤ−ＲＯＭ、ＣＤ−Ｒ、ＣＤ−Ｒ／Ｗ、半導体メモリ（例えば、マスクＲＯＭ、ＰＲＯＭ（Programmable ROM）、ＥＰＲＯＭ（Erasable PROM）、フラッシュＲＯＭ、ＲＡＭ）を含む。また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体（transitory computer readable medium）によってコンピュータに供給されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は無線通信路を介して、プログラムをコンピュータに供給できる。

１字幕生成システム
１０入力端末
２０表示端末
１００情報処理装置
１１０言語判定部
１１２入力音声取得部
１１４位置情報取得部
１１６候補選択部
１１８国／候補テーブル
１２０変換部
１２２判定部
１２４語句テーブル
１２６言語決定部
１３０字幕生成部
２１０言語判定部
２２０更新部
２２２国／候補テーブル更新部
２２４語句テーブル更新部
３１０言語判定部
３２０語句テーブル
３２２朝時間帯テーブル
３２４昼時間帯テーブル
４１０言語判定部
４１２映像取得部
４１４人種特定部
４１６人種データベース
４１８候補選択部
４２０人種／候補テーブル
５１０言語判定部
５１８候補選択部

Claims

入力された音声を文字列に変換する変換部と、
前記音声の候補となる言語を複数選択する選択部と、
言語ごとに１つ以上の語句を対応付けた第１のテーブルに基づき、前記変換した文字列に、前記音声の候補となる言語に対応付けられた語句が含まれているか否かを判定する判定部と、
含まれている場合には、含まれていると判定された語句に対応付けられた言語を、前記音声の言語として決定する言語決定部と
を備える情報処理装置。
前記変換部は、所定の期間内に入力された音声を文字列に変換する
請求項１に記載の情報処理装置。
前記選択部は、位置と、前記音声の候補となる言語とを対応付けた第２のテーブルに基づき、前記音声が発せられた位置に対応する言語を、前記音声の候補となる言語として選択する
請求項１または２に記載の情報処理装置。
前記判定部は、複数の時間帯ごとに設けられた複数の前記第１のテーブルに基づき、前記変換した文字列に、前記音声の候補となる言語に対応付けられた語句が含まれているか否かを判定する
請求項１から３のいずれか１項に記載の情報処理装置。
前記選択部は、前記音声を発した人の人種と、前記音声の候補となる言語とを対応付けた第３のテーブルに基づき、前記人種に対応する言語を、前記音声の候補となる言語として選択する
請求項１から４のいずれか１項に記載の情報処理装置。
入力された音声を文字列に変換する変換ステップと、
前記音声の候補となる言語を複数選択する選択ステップと、
言語ごとに１つ以上の語句を対応付けた第１のテーブルに基づき、前記変換した文字列に、前記音声の候補となる言語に対応付けられた語句が含まれているか否かを判定する判定ステップと、
含まれている場合には、含まれていると判定された語句に対応付けられた言語を、前記音声の言語として決定する言語決定ステップと
を有する言語判定方法。
入力された音声を文字列に変換する変換ステップと、
前記音声の候補となる言語を複数選択する選択ステップと、
言語ごとに１つ以上の語句を対応付けた第１のテーブルに基づき、前記変換した文字列に、前記音声の候補となる言語に対応付けられた語句が含まれているか否かを判定する判定ステップと、
含まれている場合には、含まれていると判定された語句に対応付けられた言語を、前記音声の言語として決定する言語決定ステップと
をコンピュータに実行させるプログラム。