JP5967569B2 - 音声処理システム - Google Patents

音声処理システム Download PDF

Info

Publication number
JP5967569B2
JP5967569B2 JP2012153941A JP2012153941A JP5967569B2 JP 5967569 B2 JP5967569 B2 JP 5967569B2 JP 2012153941 A JP2012153941 A JP 2012153941A JP 2012153941 A JP2012153941 A JP 2012153941A JP 5967569 B2 JP5967569 B2 JP 5967569B2
Authority
JP
Japan
Prior art keywords
utterance
speech
translation
text
language
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2012153941A
Other languages
English (en)
Other versions
JP2014016475A (ja
Inventor
孔明 杉浦
孔明 杉浦
英男 大熊
英男 大熊
法幸 木村
法幸 木村
芳則 志賀
芳則 志賀
輝昭 林
輝昭 林
悦雄 水上
悦雄 水上
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Institute of Information and Communications Technology
Original Assignee
National Institute of Information and Communications Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Institute of Information and Communications Technology filed Critical National Institute of Information and Communications Technology
Priority to JP2012153941A priority Critical patent/JP5967569B2/ja
Priority to PCT/JP2013/068007 priority patent/WO2014010450A1/ja
Priority to DE201311003444 priority patent/DE112013003444T5/de
Priority to CN201380036292.8A priority patent/CN104488027B/zh
Priority to GB1500132.4A priority patent/GB2518318A/en
Priority to US14/406,015 priority patent/US9824687B2/en
Publication of JP2014016475A publication Critical patent/JP2014016475A/ja
Application granted granted Critical
Publication of JP5967569B2 publication Critical patent/JP5967569B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/69Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for evaluating synthetic or decoded voice signals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0481Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
    • G06F3/0482Interaction with lists of selectable items, e.g. menus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • General Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)
  • Telephonic Communication Services (AREA)

Description

この発明は、音声認識を使用したサービスに関し、特に、音声認識を用いたコミュニケーションをユーザがスムーズに行なえるようにする技術に関する。
携帯型の電話機、特に、いわゆるスマートフォンの普及に伴い、さまざまなアプリケーションが出現している。中でも、入力に音声を用いるアプリケーションはこれからさらに普及してくるものと思われる。これは、スマートフォンのように小さな装置では、テキストの入力が難しいという事情がある。
入力に音声を用いるアプリケーションのうち、「はい/いいえ」等、画面に表示された文字列を読上げるのみのアプリケーションの場合には、何を言うべきかについて迷うユーザはない。しかし、例えば音声翻訳のように、他の人とのコミュニケーションのためのツールとして音声入力を用いる場合には、どのようなことを音声で入力したらよいかが思い浮かばないために、ユーザがアプリケーションの使用を躊躇したりすることがある。例えば、ユーザが、音声翻訳のアプリケーションを試す場合を考える。そうしたときに、ユーザが言うべき言葉をなかなか思いつけないということはよく経験することである。
さらに、実際に音声を発話するまでに、「えー」とか「あー」というような、意味のない声を出すことも多い。音声認識ではこうした意味のない音声は音声認識の精度を下げてしまう。
このように何か発話しなければならないが、何を話したらよいか思いつかないことが多い、という問題は、音声翻訳に限ったことではない。複数の人の会話でも同じようなことがありえる。例えば、会話をしていたが、話題が途切れ、次に何を話したらよいか思い浮かばない、という場合がある。
複数の人の会話において、会話の話題が途切れたときに、話題を提供するための話題提供装置が後掲の特許文献1に開示されている。この特許文献1が開示したシステムは、話題と、その話題に関するキーワードであって、複数の話題に共通して用いられるような観点からのキーワードとを関連付けて記憶しておく話題データベースを用いる。観点は、複数個準備される。このシステムは、ユーザの会話から語句を抽出し、複数個の観点の各々について、その重みを算出し、さらに最後にユーザに提示した話題と、話題データベースに記憶された話題とについて、観点ごとに類似度を算出し、この類似度に、各観点について算出された重みを乗じたものの和を算出する。そして、この和が最も大きな話題をユーザに対して新たな話題として提示する。複数の観点としては、いわゆる「5W1H」に相当するものが挙げられている。
特許文献1によれば、この装置により、現在の会話の中心となっている観点に関しては近く、他の観点では遠いような話題を提供できるとされている。
特開2011−123530号公報
しかし、特許文献1に記載された発明では、会話の内容がある程度長ければ話題を特定できるが、会話が短いと、提供すべき話題を決めることが難しいという問題がある。特に、音声翻訳を用いた会話のように、発話が非常に短くなる場合には、特許文献1に記載された発明を適用することはきわめて難しい。
さらに、音声翻訳において特有の問題として、どのような発話をすると正しく音声認識され、正しく翻訳されるかを話者が考えすぎてしまうという問題がある。そのために何をどのように発話したらよいか迷ってしまい、結果として音声翻訳の精度を下げてしまうことも多い。もちろん、ユーザが音声認識しやすく、自動翻訳しやすい発話をすれば、音声翻訳にとっては好ましい。しかしそのために発話自体を難しくしてしまうのでは音声翻訳の効果を十分に生かすことができない。
それゆえにこの発明は、音声認識の精度を高めることができ、かつ、ユーザが利用しやすい音声処理システム、及びそうした音声処理システムで利用される端末装置を提供することである。
この発明の別の目的は、音声認識の精度と、音声認識の結果を用いて提供される音声サービスの精度とを高めることができ、かつ、ユーザが利用しやすい音声処理システム、及びそうした音声処理システムで利用される端末装置を提供することである。
本発明の第1の局面に係る音声処理システムは、発話を表す音声信号と、当該発話がなされた環境を表す所定の環境情報とを含む発話情報の入力を受けるための発話入力手段と、発話入力手段が受けた発話情報内の音声信号に対して音声認識を行ない、認識結果をテキストとして出力するための音声認識手段と、音声認識手段が出力したテキストに対して所定のデータ処理を実行するデータ処理手段と、発話のテキストと、所定の環境情報とを受けると、所定の発話集合の中の発話について、テキストにより表される発話の後に連接して発話される確率が算出可能なように統計的に学習済の発話連接モデルを記憶するための発話連接モデル記憶手段と、所定の発話集合内の発話と、当該発話集合内の発話の各々について、データ処理手段で処理したときの、データ処理の信頼度を記憶するための発話記憶手段と、発話入力手段が受けた発話情報に対する音声認識手段の認識結果と、当該発話情報に含まれる環境情報とを用い、発話連接モデル記憶手段に記憶された発話連接モデルを用いて所定の集合内の各発話に対して算出される確率と、発話記憶手段に記憶された、所定の集合内の各発話に対するデータ処理の信頼度とを所定の形式で組合わせた評価スコアに基づいて、音声認識手段が認識した発話を行なったユーザにリコメンドする発話の候補を複数の発話の集合内でスコア付けし、当該スコアに基づいて発話候補をユーザにリコメンドするための発話候補リコメンド手段とを含む。
発話入力手段が発話情報の入力を受けると、音声認識手段が発話情報中の音声信号に対する音声認識を行ない、認識結果のテキストを出力する。データ処理手段は、このテキストに対してデータ処理を行なう。認識結果のテキストと、発話情報に含まれていた環境情報とを用い、発話候補リコメンド手段が、発話連接モデルにより各発話が次の発話となる確率を算出し、さらに、この確率と、データ処理における各発話の信頼度とを用いて次の発話としてリコメンドする発話のスコア付けを行ない、その結果に従って次の発話候補をリコメンドする。
次の発話の候補がリコメンドされるので、ユーザはこの発話の候補をヒントとして次の発話を考えることができる。そのため、発話が思い浮かばずユーザが戸惑ってしまうという事態が発生する危険性を低くできる。
好ましくは、データ処理手段は、ある発話を受けて音声認識手段の出力する認識結果を受け、当該認識結果をある発話の言語と異なる他の言語に自動翻訳しテキストとして出力するための自動翻訳手段を含む。信頼度は、当該自動翻訳手段による翻訳結果がある発話に対する他の言語の翻訳である尤度である。
より好ましくは、データ処理手段はさらに、自動翻訳手段が出力する他の言語のテキストに基づき、他の言語の音声信号を合成するための音声合成手段を含む。
発話候補リコメンド手段は、発話連接モデルを用いて所定の集合内の各発話に対して算出される確率と、発話記憶手段に記憶された、所定の集合内の各発話に対する信頼度との線形和による評価に基づいて、音声認識手段が音声認識した発話に後続する発話の候補を複数の発話の集合内で推定するための手段を含んでもよい。この場合、線形和における信頼度と確率との係数はいずれも正である。
好ましくは、音声処理システムはさらに、発話候補リコメンド手段によりリコメンドされた次の発話候補をユーザに対して提示するための発話候補提示手段を含む。
より好ましくは、音声処理システムは、発話を表すテキストと、所定の環境情報とを含む発話テキスト情報の入力を受け、当該発話テキスト情報内のテキストを音声認識手段の出力に代えて発話候補リコメンド手段及びデータ処理手段に与えるための発話テキスト情報入力手段をさらに含む。
本発明の第2の局面に係る端末装置は、マイクロフォンと、周囲の環境に関する情報を収集するためのセンサの集合と、表示装置と、通信装置と、マイクロフォン、センサの集合、及び通信装置に接続され、マイクロフォンが発話を受けて出力する信号から得られる音声信号と、当該音声信号が得られたときのセンサの集合から得られた情報とを含む発話情報を通信装置を介して所定の音声処理サーバに送信し、音声認識と認識結果に対する所定のデータ処理とを依頼するための発話情報送信手段とを含む。端末装置はさらに、通信装置に接続され、依頼に応答して音声処理サーバから送信されてくるデータ処理の処理結果を受けて、当該処理結果をユーザに提示するための処理結果提示手段と、音声処理サーバから複数の発話候補としてリコメンドされる発話候補リコメンドリストを受けて、表示装置に表示することによってユーザに発話候補をリコメンドするための発話候補リコメンドリスト表示手段とを含む。
好ましくは、音声処理サーバが音声認識の結果に対して行なう所定のデータ処理は、発話を、当該発話の言語と異なる他の言語に自動翻訳し、さらに、当該自動翻訳の結果の音声を合成する処理である。音声処理サーバから送信されるデータ処理の処理結果は、音声処理サーバにより合成された音声を表す音声信号である。処理結果提示手段は、スピーカと、音声処理サーバにより合成された音声を表す音声信号でスピーカを駆動するための手段とを含む。
さらに好ましくは、端末装置はさらに、発話候補リコメンドリスト表示手段により表示された発話の候補のいずれかを選択するためにユーザが操作可能な選択手段と、選択手段により発話候補リコメンドリスト内の発話候補のいずれかが選択されたことに応答して、当該選択された発話候補のテキストと、センサの集合から得られた情報とを含む発話テキスト情報を通信装置を介して所定の音声処理サーバに送信し、当該発話テキスト情報に対する所定のデータ処理を依頼するための発話テキスト情報送信手段とを含む。
以上のように本発明によれば、音声サービスを利用するユーザが、何を発話するかについて思いつかずに戸惑ってしまう、という可能性を小さくすることができ、音声サービスをより使いやすくできる。しかも、発話を思いつくまでに発する無意味な音声が少なくなり、音声認識の精度を高めることができ、当該音声認識の結果を用いる音声サービスの精度も高めることができる。
その結果、音声認識の精度を高めることができ、かつ、ユーザが利用しやすい音声処理装置及び端末装置を提供できる。
さらに、音声認識の精度と、音声認識の結果を用いる音声サービスの精度とを高めることができ、かつ、ユーザが利用しやすい音声処理装置及び端末装置を提供できる。
本発明の第1の実施の形態に係る音声翻訳システムの全体構成を模式的に示す図である。 図1に示すシステムで用いられる携帯型端末の画面に表示される音声翻訳のための画面を模式的に示す図である。 第1の実施の形態の音声翻訳システムにおいて、携帯型端末とサーバとの間で行なわれる音声翻訳のための処理シーケンスを示す図である。 携帯型端末のハードウェア構成を示すブロック図である。 携帯型端末における音声入力を用いた音声翻訳に伴う処理を実現するプログラムの制御構造を示すフローチャートである。 第1の実施の形態の音声翻訳システムにおいて、複数の携帯型端末からの音声入力を受けて指定された言語に翻訳し、さらにその音声を合成して携帯型端末に返送する処理を実行するサーバの機能的ブロック図である。 図6に示すサーバの機能を実現するためのプログラムのフローチャートである。 図6に示すサーバにおいて用いられる発話連接モデルの学習と、コーパス内の発話の翻訳スコアの算出とを行なうモデル生成部のブロック図である。
以下の説明及び図面では、同一の部品には同一の参照番号を付してある。したがって、それらについての詳細な説明は繰返さない。
[第1の実施の形態]
〈構成〉
─全体構成─
図1を参照して、この発明に係る音声翻訳システム100は、インターネット102に接続された、音声翻訳サービスを行なうサーバ106と、インターネット102に接続可能で、音声翻訳サービスを利用するためのアプリケーションがインストールされた携帯型端末104とを含む。
─アプリケーション画面─
図2を参照して、携帯型端末104の音声翻訳サービスを利用するためのアプリケーション画面130は、大きく分けて6つの領域に分割されている。すなわち、音声翻訳サービスの対象となっている言語の対(ソース言語とターゲット言語)を表示するための言語表示領域140と、ソース言語の音声で入力された文の音声認識結果、又はテキスト入力結果を表示するための入力テキスト表示領域150と、音声認識された文を自動翻訳した結果のテキストが表示される翻訳結果表示領域170、翻訳結果を元の言語に逆翻訳した文を表示する逆翻訳領域160、次の発話候補としてリコメンドされる発話候補のリスト(発話候補リコメンドリスト)が表示される発話候補リコメンド領域190、及び音声翻訳システムの利用状況を表示するステータス領域180である。
言語表示領域140には、ソース言語の言語名が左側に、ターゲット言語の言語名が右側に、それぞれソース言語の文字で表示される。なお、アプリケーション画面130では、翻訳結果の文以外のテキストはいずれもソース言語の文字で表示される。ソース及びターゲット言語名の間には、音声翻訳の言語の組合せを設定するための設定ボタン142が表示される。
入力テキスト表示領域150には、ソース言語の言語名の表示156と、音声入力を行なう際にユーザが操作する音声入力ボタン152と、音声入力ではなく、入力文のテキストを直接に入力するテキスト入力画面を表示させるためのテキスト入力ボタン154とが表示される。音声入力の結果、及びテキスト入力の結果は、いずれも入力テキスト表示領域150内に入力テキスト158として表示される。なお、本実施の形態では、音声入力ボタン152を押している間、音声が収録される。音声入力ボタン152を押すのを中断すると音声の収録が終了する。
逆翻訳領域160には、音声入力の結果から生成され、自動翻訳されたターゲット言語の文を、ソース言語の文に逆翻訳した結果の文162と、文をテキスト入力したとき等に、その文の翻訳を開始させるための翻訳ボタン164とが表示される。入力されたソース言語の文から得られた翻訳結果をさらにソース言語の文に逆翻訳して逆翻訳領域160に表示することにより、翻訳が発話者の意図を正しく伝えるものか否かを判定できる。ただし、本実施の形態の説明では、実施の形態の説明を分かりやすくするため、この逆翻訳に関連する機能部分についての詳細は説明しない。
翻訳結果表示領域170には、ターゲット言語の言語名174と、自動翻訳の結果の文(ターゲット言語の文)のテキスト176と、テキスト176の合成音声を再生させるための再生ボタン172とが表示される。音声翻訳の結果は自動的に合成音声として発話されるが、繰返して聞きたい場合に再生ボタン172を操作する。
発話候補リコメンド領域190には、直前のユーザの発話に続いて発話される可能性が高く、かつ自動翻訳において受理の可能性が高い発話としてリコメンドされる発話からなる発話候補リコメンドリスト192と、発話候補リコメンドリスト192の各発話に対応して表示され、各発話についての翻訳リクエストを発生させるための翻訳リクエストボタン194とが表示される。
ステータス領域180には,利用回数等のシステムの利用状況と、マイクボタン182とが表示される。マイクボタン182は、音声入力ボタン152と同様、録音を開始させる機能を持つが、音声入力ボタン152とは異なり、マイクボタン182を1度押して離すと音声の収録を開始し、再度マイクボタン182を押して離すと音声の収録を終了する。
─音声翻訳のシーケンス─
図3を参照して、音声翻訳システム100を用いた音声翻訳の際の、携帯型端末104とサーバ106との間の典型的な通信シーケンスを説明する。最初に、携帯型端末104において音声入力200を行ない、その音声と、音声翻訳の言語の組合せ等の情報と、センサの集合から得られた環境情報とを含む音声認識リクエスト202を生成する。音声認識リクエスト202は携帯型端末104からサーバ106に送信される。サーバ106は、この音声認識リクエストを受信すると音声認識処理220を行ない、音声認識結果のテキスト(本実施の形態では音声認識処理220は統計的音声認識処理を行なうものであり、認識に伴うスコアが最も高い仮説を1つだけ)を出力する。このテキストは自動翻訳処理222に入力として与えられる。自動翻訳処理222は、入力されたソース言語の文をターゲット言語に自動翻訳し、ターゲット言語の文を生成する。このターゲット言語の文は音声合成処理224に与えられる。音声合成処理224は与えられたターゲット言語の文から音声を合成する。
一方、音声認識処理220の認識結果のテキストは、環境情報とともに発話候補リスト作成処理230にも与えられる。サーバ106は、発話の集合内の各発話について、与えられた発話の次に発話される確率を算出できるように予め学習済の統計的モデルである発話連接モデル226と、ソース言語の発話の、自動翻訳処理222における受理されやすさを表す翻訳スコアが付された発話の集合を記憶するための発話候補記憶部228とを含む。発話候補リスト作成処理230では、発話連接モデル226により発話集合内の各発話について算出される確率と、発話候補記憶部228に記憶された発話ごとの翻訳スコアとを用い、次に発話される可能性の高い発話であって、かつ翻訳スコアの高いものを所定個数選択し、リストとして出力する。本実施の形態では、この評価には、ある発話が次に発話される確率と、その発話の翻訳スコアとの線形和からなる評価スコアを用いる。この実施の形態の場合、評価スコアが大きいものが次候補にふさわしいものとする。したがって、この線形和の各係数はいずれも正である。この係数の値は、確率のオーダーと翻訳スコアのオーダーとにより異なってくるため、具体的な組合せに基づいて適宜定める必要がある。
発話連接モデル226は、発話のテキストと、その発話がされたときの環境情報とを受けると、所定の発話集合の中の発話について、テキストにより表される発話の後に連接して発話される確率が算出可能なように統計的に学習済である。
音声認識処理220の出力した音声認識結果のテキスト、自動翻訳処理222により得られた翻訳結果のテキスト、音声合成処理224により合成された合成音声データ、及び発話候補リスト作成処理230が生成した発話候補リストは、いずれもこれらを携帯型端末104に送信する送信処理部232に与えられる。送信処理部232は、与えられたこれらデータを送信のための所定のフォーマットに変換し、携帯型端末104に送信する。
送信処理部232からのデータを受信した携帯型端末104は、受信した音声認識結果、自動翻訳結果、及び発話候補リストを表示する(ステップ204)。携帯型端末104はさらに、送信処理部232から受信した合成音声の発話を行なう(ステップ206)。発話後は、携帯型端末104は次の音声入力200を待ち受ける状態に戻る。
なお、前述したとおり、図3に示したのは典型的な処理シーケンスである。音声入力ではなくテキスト入力を行なった場合には、図3に示すものとは異なる処理シーケンスが実行される。
─携帯型端末104─
図4を参照して、携帯型端末104は、所定のプログラムを実行して携帯型端末104の各部を制御することにより、種々の機能を実現するためのプロセッサ250と、プロセッサ250が実行するプログラム、及びそのプログラムの実行に必要なデータを記憶し、プロセッサ250の作業領域としても機能するメモリ252と、プロセッサ250と後述する各種センサ等との間のインターフェイス254とを含む。以下に説明する構成要素は、いずれも、インターフェイス254を介してプロセッサ250と通信可能である。
携帯型端末104はさらに、GPS機能により携帯型端末104の位置の経度及び緯度情報を取得するためのGPS受信機258、携帯型端末104の3軸方向の加速度を検出するための加速度センサ260、携帯型端末104の3軸に関する傾きを検出するための傾きセンサ262、携帯型端末104の周囲の磁気を検出する磁気センサ264、携帯型端末104の周囲の明るさを検出する明るさセンサ266、携帯型端末104の所定位置に係る圧力を検知する圧力センサ268、及び携帯型端末104の周囲の温度を検出する温度センサ270等の多数のセンサと、マイクロフォン256と、無線通信により図示しない基地局を介してインターネット102に接続可能な通信装置272と、タッチパネル274と、タッチパネル274とは別に携帯型端末104の筐体に設けられた操作ボタン276と、スピーカ280とを含む。
GPS受信機258、加速度センサ260、傾きセンサ262、磁気センサ264、明るさセンサ266、圧力センサ268、及び温度センサ270等は、発話がされたときの環境を表す情報を収集するためのものである。本実施の形態では、音声入力がされたときのこれら各種センサの出力は、音声翻訳の言語対等の設定情報と、音声から得られたADPCM音声信号とともに、発話時の環境を表す環境情報としてサーバ106に所定の形式で送信される。こうしてサーバ106に送信される情報は、発話音声に対する音声認識と、音声認識の結果に対するデータ処理である自動翻訳及び翻訳結果の音声合成とを依頼する音声翻訳リクエストである。
携帯型端末104の機能を実現する各種プログラムのうち、音声翻訳サービスを利用するためのアプリケーションは、以下のような制御構造を持つ。図5を参照して、このプログラムが起動されると、メモリ領域の確保、各メモリロケーションを所定の初期値で初期化する初期設定処理を行なう(ステップ300)。初期化完了後、携帯型端末104のタッチパネル274に音声翻訳サービスのための初期画面を表示する(ステップ302)。初期画面では、音声入力ボタン152、テキスト入力ボタン154、マイクボタン182、及び設定ボタン142は活性化されているが、翻訳ボタン164、及び再生ボタン172は無効化されている。
続いてユーザからの入力を待ち、どのような入力がされたかにより制御の流れを分岐させる(ステップ304)。
音声入力ボタン(図2の音声入力ボタン152)が押されると、音声入力処理を実行する(ステップ310)。音声入力処理は,音声入力のAPI(Application Programming Interface)を呼び出すことにより行なわれる。続いて、入力された音声に対して所定の信号処理を行ない、ADPCM(Adaptive Differential Pulse Code Modulation)形式の音声信号を生成する(ステップ312)。さらに、この音声信号と、このときの各センサの出力と、翻訳言語等の設定情報とに基づいて、音声翻訳リクエストを生成し、サーバ106に対して送信する(ステップ314)。この後、サーバ106から音声認識結果、自動翻訳結果、その合成音声、発話候補のリストを受信し(ステップ316)、音声認識結果のテキスト、自動翻訳結果のテキスト、及び発話候補のリストをそれぞれ図2の入力テキスト表示領域150、逆翻訳領域160、及び翻訳結果表示領域170に表示するため、所定のメモリ領域に格納する(ステップ318)。さらに、自動翻訳結果の合成音声をスピーカ280を駆動して発生させる(ステップ320)。すなわち、スピーカ280を駆動することで、要求した発話の翻訳結果がユーザに対して音声の形で提示される。最後に、アプリケーション画面130の更新を行ない(ステップ322)、ステップ304の入力待ち状態に戻る。このとき、音声入力ボタン152、テキスト入力ボタン154、及びマイクボタン182に加え、再生ボタン172が活性化される。
ステップ304でテキスト入力ボタン(図2のテキスト入力ボタン154)が押されると、テキスト入力のAPIを呼ぶことにより、テキストの入力を受け(ステップ340)、入力されたテキストを保存し(ステップ342)、入力されたテキストが入力テキスト表示領域150及び逆翻訳領域160に表示されるように画面を更新して(ステップ322)、ステップ304に戻る。このとき、更新後の画面では翻訳ボタン164が活性化され、再生ボタン172は無効化される。
ステップ304で翻訳ボタン(図2の翻訳ボタン164)が押されると、ステップ340で入力されステップ342で保存されたテキストと、そのときの各種センサの出力と、設定情報とを用いてテキスト翻訳リクエストを生成し、サーバ106に送信する(ステップ360)。続いてこのリクエストに対する翻訳結果と、翻訳結果の合成音声と、発話候補リコメンドリストとを受信する(ステップ362)。受信した翻訳結果のテキストを翻訳結果表示領域170(図2)に表示し(ステップ364)、翻訳結果の合成音声を発話する(ステップ366)。この後、アプリケーション画面130を更新し(ステップ322)、ステップ304に戻る。
最後に、図2に示す設定ボタン142が操作されると、設定変更のために予め準備した画面を表示することで設定の変更を受付け(ステップ380)、設定が終了するとその設定結果をメモリ252に保存し(ステップ382)、変更後の設定にしたがってアプリケーション画面130を更新して(ステップ322)、制御をステップ304に戻す。
─サーバ106─
図6を参照して、サーバ106は以下のような機能的な構成を持つ。なお、サーバ106はハードウェアとしては大容量の外部記憶装置を持つコンピュータと、そのコンピュータ上で実行される音声翻訳サーバプログラムとにより実現される。
サーバ106は、インターネット102(図1参照)を介して、携帯型端末104のような不特定多数の端末からの音声翻訳リクエスト及びテキスト翻訳リクエストを受信するための受信処理部406と、受信処理部406が受信したリクエストを解析し、解析結果に応じてデータを所定の機能モジュールに供給したり、データ選択のための制御信号を出力したりすることで音声翻訳の全体の制御をするための制御部408とを含む。サーバ106はさらに、複数のソース言語の音声認識を行なうため、及び、自動翻訳におけるターゲット言語の文の生成のために予め準備された、複数の言語に対してそれぞれ準備された言語別音声認識用リソース400と、複数のソース言語と複数のターゲット言語との組合せごとに、自動翻訳のために予め準備された言語ペア別リソース402と、ターゲット言語の各々について音声合成をするために予め準備された言語別音声合成用リソース404とを含む。
本実施の形態では、言語別音声認識用リソース400は、音声認識のための各言語の統計的音響モデル、辞書、及び統計的言語モデルを含む。辞書及び言語モデルはその言語がターゲット言語となるときには自動翻訳においても用いられる。したがって、サーバ106はさらに、言語別音声認識用リソース400の中から音声翻訳リクエストにより指定されるソース言語のリソースを選択する選択部410と、言語別音声認識用リソース400の中から音声翻訳リクエストにより指定されるターゲット言語のリソースを選択する選択部412とを含む。
言語ペア別リソース402は、ソース言語とターゲット言語との組合せごとに、予め準備された統計的翻訳モデルを含む。サーバ106はさらに、言語ペア別リソース402の中から、音声翻訳リクエストにより指定される言語ペアのリソースを選択する選択部414を含む。
言語別音声合成用リソース404は、ターゲット言語の音声合成のために必要な言語別のリソースを含む。音声合成が素片接続型であれば、言語別の素片DBがこのリソースに含まれる。サーバ106はさらに、言語別音声合成用リソース404の中から、音声翻訳リクエストにより指定されるターゲット言語のリソースを選択する選択部416を含む。
制御部408は、音声翻訳リクエストに含まれるソース言語とターゲット言語との組合せに基づいて、選択部410、選択部412、選択部414及び選択部416に対し、それぞれ適切なリソースを選択するように制御信号を送る機能を持つ。
サーバ106はさらに、制御部408から音声翻訳リクエスト中のADPCMデータを受け、選択部410により選択されたリソースを用い、ソース言語の音声認識を行なってそのテキストデータを出力する音声認識エンジン418と、音声認識エンジン418の出力するソース言語のテキストデータを受け、選択部412により選択されたターゲット言語のリソースと、選択部414により選択されたソース言語とターゲット言語との言語ペアに対応するリソースとを用いてソース言語の文をターゲット言語の文に翻訳し、テキストデータとして出力する自動翻訳エンジン422と、自動翻訳エンジン422の出力するターゲット言語のテキストデータを受け、選択部416により選択された言語リソースを用いて音声合成を行なうための音声合成処理部424とを含む。
音声認識エンジン418の出力と自動翻訳エンジン422の入力との間には、2つの入力と、自動翻訳エンジン422の入力に接続された出力とを持つ選択部420が挿入されている。選択部420の一方入力には音声認識エンジン418の出力438が接続される。他方の入力には、制御部408から出力される、テキスト翻訳リクエスト中のテキストデータ440が入力される。前述したとおり、携帯型端末104では、音声入力だけでなく、テキストによる入力も行なわれる。音声入力の場合には音声認識エンジン418の出力438であるテキストデータが自動翻訳エンジン422に与えられるが、テキストによる入力だった場合には、音声認識エンジン418を経由せず、リクエスト中のテキストデータ440がそのまま自動翻訳エンジン422に与えられる。選択部420が2つの入力のいずれを選択するかは制御部408が音声翻訳リクエストの内容を見て切替信号442により制御する。テキスト翻訳リクエストに対する処理は、音声翻訳リクエストに対する処理と入力が異なるだけであり、自動翻訳以下の処理は音声翻訳リクエストの処理時と同じである。したがってここではテキスト翻訳リクエストに対する処理の詳細な説明は繰返さない。なお、音声認識エンジン418の出力するテキストデータにも、制御部408から直接に選択部420に与えられるテキストデータにも、音声翻訳リクエスト中の各種センサの出力値が付与されている。
サーバ106はさらに、音声翻訳リクエスト中に付された各種センサの出力値を、次の発話候補を推定する際に使用する特徴量ベクトルの要素の値に変換するために使用される要素決定用各種DB430と、対象となる複数の言語に対して準備された複数の発話連接モデル226の記憶装置と、対象となる複数の言語に対して準備された複数の発話候補記憶部228と、制御部408の制御にしたがって、複数の発話連接モデル226及び複数の発話候補記憶部228から、発話言語に対応するモデル及び発話候補記憶部を選択し、発話確率算出部426及び発話候補リコメンドリスト作成部428に接続するための選択部434及び選択部436とを含む。サーバ106はさらに、選択部420の出力するテキストデータを受け、要素決定用各種DB430及び発話連接モデル226を用い、与えられた発話の次の発話となる確率を、予め準備された発話の各々について算出するための発話確率算出部426と、発話確率算出部426により各発話について算出された確率と、発話候補記憶部228に記憶された各発話の翻訳及び音声認識スコアとに基づいて、次に発話される可能性が高い発話であって、かつ自動翻訳エンジン422により受理される(正しく翻訳される)可能性が高い発話を、そのスコアの上位から複数個選択することによって、発話候補リコメンドリストを作成するための発話候補リコメンドリスト作成部428と、自動翻訳エンジン422の出力する翻訳結果のテキストデータ、音声合成処理部424が出力する合成音声、及び発話候補リコメンドリスト作成部428が生成した発話候補リコメンドリストとから所定のデータフォーマットの返信データを組立て、音声翻訳リクエストを送信してきた端末(携帯型端末104等)に返信するための送信処理部432とを含む。
ところで、発話連接モデル226及び発話候補記憶部228については、予め準備しておく必要がある。そのためにモデル生成部108が設けられている。モデル生成部108の構成については後述する。
図7を参照して、サーバ106を構成するコンピュータのハードウェアにより実行されることにより、図6に示す制御部408の機能を実現するためのプログラムは,以下のような制御構造を持つ。このプログラムが起動されると,まず,必要な記憶領域の確保及び初期化等、起動直後に1度だけ実行する必要がある処理を行なう初期設定ステップ450と、初期設定後に、インターネット102を介して他の端末装置から音声翻訳に関するリクエストを受信するのを待つステップ452と、ステップ452で受信したリクエストが何かによって制御の流れを分岐させるステップ454とを含む。
リクエストが音声翻訳リクエストであると判定されると、リクエストに含まれる言語対の情報に基づき、ソース言語とターゲット言語とを設定し、図6に示す選択部410、選択部412、選択部414、及び選択部416を設定し(ステップ460)、音声認識を実行する(ステップ462)。音声認識が終了すると、その結果のソース言語のテキストを入力として、ターゲット言語への自動翻訳を行なう(ステップ464)。自動翻訳が終了すると、自動翻訳で得られた出力のテキストを入力とし、音声合成を行なう(ステップ466)。さらに、ステップ462で得られたテキストデータに基づき、次の発話を推定するための特徴量ベクトルを生成する(ステップ468)。この特徴量ベクトルの生成の際には、リクエストに含まれる生のセンサ出力を用いる場合もあるし、生のセンサ出力を要素決定用各種DB430(図6参照)を用いて他のカテゴリの値に変換する場合もある。例えば、GPSの出力は緯度及び経度の情報だが、これらをそのまま特徴量ベクトルの要素とすることも可能だし、緯度及び経度の情報と、その位置に存在する施設名又はその位置を含む地域名との対応関係を要素決定用各種DB430に記憶しておき、施設名又は地域名等に変換した後、変換後の値を特徴量ベクトルの要素としてもよい。生成された特徴量ベクトルを用い、図6に示す発話確率算出部426を用いて次に発話される確率の高い発話候補を所定個数推定し、さらに、図6に示す発話候補記憶部228を用い、各発話候補の確率と、それらの翻訳及び音声認識スコアとを組合わせた評価スコアにより、次の発話となる確率が高く、かつ翻訳スコアも高い発話候補を所定個数選択して発話候補リコメンドリストを作成する(ステップ470)。最後に、ステップ462で得られたソース言語の音声認識結果と、ステップ464で得られた自動翻訳結果のテキストと、ステップ466で得られた音声合成と、ステップ470で得られた発話候補リコメンドリストとを相手端末に送信し(ステップ472)、制御をステップ452に戻す。
一方、ステップ454でリクエストがテキスト翻訳リクエストであると判定されると、リクエストに含まれる言語対の設定情報にしたがって、図6に示す選択部410、選択部412、選択部414、及び選択部416を設定し(ステップ478)、入力されたソース言語のテキストをターゲット言語に自動翻訳する(ステップ480)。得られたターゲット言語のテキストに基づいて、ターゲット言語の音声を合成し(ステップ482)、リクエストに含まれていたソース言語の入力テキストと環境情報とに基づき、特徴量ベクトルを生成して(ステップ484)、発話連接モデル226を参照することにより、次に発話される可能性が高く、かつ、翻訳スコアも高い発話候補からなる発話候補リコメンドリストを作成する(ステップ486)。最後に、ステップ480で得られたターゲット言語のテキストデータと、ステップ482で得られたターゲット言語の合成音声と、ステップ486で得られた発話候補とを携帯型端末に送信し(ステップ488)、制御をステップ452に戻す。
以上が、図6に示すサーバ106を実現するプログラムの制御構造の概略である。
図6に示す発話連接モデル226及び発話候補記憶部228に記憶される発話候補の集合は予め準備しておく必要がある。そのためのモデル生成部108の構成を図8に示す。なお、本実施の形態では、図6に示す要素決定用各種DB430として、GPSから得られる緯度・経度情報と、その緯度・経度情報により特定される国、地域、州、都府県、市、町等の地域情報との対応関係を記憶したGPS・地域情報変換DB518と、IPアドレスと、そのIPアドレスが割当てられた施設名との対応関係を記憶したIPアドレス・施設名変換アドレスDB522とを含むものとする。
図8を参照して、モデル生成部108は、単言語の発話テキストを多数含むコーパス510を含む。コーパス510に記憶された発話はその発話の音声データと、発話の書起こしのテキストとを含む。書起こしテキストは、いずれも形態素等所定の単位に分割され、各単位には、DA(Dialog Activity)タグと呼ばれる、発話が行なわれたときの状況を示すタグが付されている。各発話にはさらに、その発話がされたときの日時、発話したユーザのユーザID又は端末ID、その発話が収集されたときのユーザの位置(GPSにより得られた緯度及び経度)、その発話を送信して来た端末のIPアドレス、端末の各センサが検知した加速度、傾き、磁気、明るさ、圧力、温度等の情報が付されている。これら情報のうち、対応するセンサがない等の事情により携帯型端末では得られなかった情報には、情報がないことを示す所定の値が代入される。
モデル生成部108はさらに、コーパス510に含まれる発話データに対し、手動で形態素解析、タグ付等の処理を行なう際にユーザが使用する入力部512と、コーパス510に記憶されている各文から、発話連接モデル226の学習を行なうための学習データを生成するための基礎特徴ベクトルを作成する基礎特徴ベクトル作成部514とを含む。基礎特徴ベクトル作成部514は少なくともコーパス510に記憶された各文について、それら文に付された日時、ユーザID又は端末ID、及びその他の各種センサ情報を所定の順番で並べ、さらに、次に発話された発話の識別番号を要素としたベクトルを作成する。
モデル生成部108はさらに、基礎特徴ベクトル作成部514により生成された各特徴ベクトルに含まれる緯度・経度情報をGPS・地域情報変換DB518と照合することにより、その特徴ベクトルに対応する発話がなされた国、地域、州、都府県、市、町等の地域情報を得て、特徴ベクトル中のしかるべき位置に挿入する処理を行なう地域情報付加部516と、地域情報付加部516から特徴ベクトルを受け、その中に含まれるIPアドレスをIPアドレス・施設名変換DB522と照合することにより、その発話がなされた施設名を得て、特徴ベクトル内のしかるべき位置に挿入する処理を行なう施設情報付加部520と、施設情報付加部520から出力される特徴ベクトルを蓄積するための特徴ベクトル記憶部526と、特徴ベクトル記憶部526に記憶された特徴ベクトルを学習データとして、発話連接モデル226の統計的学習を行なうための発話連接モデル学習部524とを含む。
モデル生成部108はさらに、コーパス510に含まれる発話のうち、同じ発話を集約することにより、互いに異なる発話のみからなる集合を生成するための発話集約部540と、発話集約部540により集約された発話の各々について、複数の言語に翻訳を行ない、各発話について翻訳結果のスコアを出力する翻訳エンジン544と、翻訳エンジン544による複数の言語への翻訳により得られた翻訳結果のスコアを発話ごとに平均し、各発話の平均の翻訳スコアを算出し発話候補記憶部228に記憶させる翻訳スコア算出部542とを含む。翻訳エンジン544は、統計的な自動翻訳を行なうものが想定され、翻訳結果の尤度を翻訳スコアとする。翻訳スコアが高いほど、その元となったソース言語の発話が翻訳しやすいと考えることができる。
モデル生成部108はさらに、コーパス510に含まれる各発話の音声データを音声認識する音声認識エンジン546と、コーパス510に含まれる各発話の書起こしデータと、その発話に対する音声認識エンジン546の認識結果とを比較することにより、各発話の音声認識スコアを算出し、各発話に付して発話候補記憶部228に記憶させるための音声認識スコア算出部548とを含む。
なお、図8ではモデル生成部108は単一のものとして示してあるが、モデル生成部108は翻訳のソース言語ごとに生成する必要がある。翻訳エンジン544については、あるソース言語について利用可能な翻訳エンジンを全て用い、それらによる翻訳スコアを平均するようにしてもよいし、特定の複数の言語のみをターゲット言語として翻訳スコアを算出し、それらの平均を用いても良い。場合によってはある単一の言語のみをターゲット言語とする翻訳エンジン544を用いるようにしてもよい。
〈動作〉
─概要─
この音声翻訳システム100は以下のように動作する。サーバ106は、動作フェーズとして2つを持つ。第1はモデル生成部108による発話連接モデル226及び発話候補記憶部228の学習であり、第2は、学習が終了した発話連接モデル226及び発話候補記憶部228を用いた音声翻訳サービスの実行である。以下、最初に学習フェーズにおけるサーバ106の動作を、次に音声翻訳サービスのフェーズにおける携帯型端末104とサーバ106の動作とについて説明する。
─学習─
発話連接モデル226及び発話候補記憶部228に記憶される各発話の翻訳及び音声認識スコアの学習を予め行なっておく必要がある。そのためにまず、処理の対象となる全ての言語について、別々に文を集めコーパス510を言語ごとに作成する。コーパス510内の各文については、予め形態素解析等が行なわれ、DAタグの付与等が行なわれていれば好ましいが、必要に応じ、入力部512を用いてそうした処理を行なう。
ある言語のコーパス510(音声データと書起こしテキストとの双方を含む。)に含まれる各文について、以下を行なう。すなわち、その文に付されている情報を用いて基礎特徴ベクトル作成部514(図8)により基礎的な特徴ベクトルを作成する。このとき、各発話に付されているユーザID及び発話の日時の情報に基づいて、ある発話の次にどの発話がされたかを特定し、特徴ベクトル内のしかるべき位置の要素に、次の発話を特定する情報を代入する。次に、各特徴ベクトルに含まれる緯度・経度情報をGPS・地域情報変換DB518と照合することにより、緯度・経度情報から国、地域、州、都府県、市、町等の地域情報を得て、特徴ベクトル中のしかるべき要素に代入する。対応する情報がない場合には、その情報がなかったことを示す特定の値をその要素に代入する(他の要素についても同様)。さらに、特徴ベクトルに含まれるIPアドレスをIPアドレス・施設名変換DB522と照合することにより、その発話を収録したIPアドレスを、そのIPアドレスに対応する施設名に変換し、特徴ベクトルのしかるべき要素に代入する。こうして特徴ベクトルを特徴ベクトル記憶部526に蓄積する。
特徴ベクトル記憶部526への特徴ベクトルの蓄積が完了すると、又は蓄積と並行して、発話連接モデル学習部524が発話連接モデル226の統計的学習処理を実行する。この統計的学習により、発話日時、ユーザID、IPアドレス、緯度・経度情報、各種センサの値を要素とする、ある発話の特徴ベクトルが与えられると、その発話の次に発話される確率を各発話について算出できるような発話連接モデル226が得られる。これら発話連接モデル226は、望ましくは不揮発性の記憶装置に記憶される。
一方、発話集約部540は、コーパス510に含まれる各発話のうち、テキストとして同じ発話を集約する。翻訳スコア算出部542は、集約された各発話を翻訳エンジン544に与えることで、その発話の翻訳スコアを算出する。このとき、本実施の形態では、翻訳エンジン544として各ターゲット言語への翻訳を行なう統計的なものを用意し、それらにより得られる翻訳結果の尤度の平均をその発話の翻訳スコアとする。翻訳スコア算出部542は、各発話について得られた翻訳スコアからなる翻訳スコアDBを各ソース言語について作成し、発話候補記憶部228に格納する。以上で発話連接モデル226及び翻訳スコアDBの学習は終了する。さらに、音声認識エンジン546及び音声認識スコア算出部548により、コーパス510に含まれる各文の音声認識時の音声認識スコアが算出される。すなわち、音声認識エンジン546が各文の音声データに対する音声認識を行なう。音声認識スコア算出部548は、音声認識エンジン546による音声認識結果と、予めその文に付されていた書起こし文とを比較することにより、その文の音声認識スコアを算出する。この音声認識スコアは、コーパス510に格納されている各発話ごとに発話候補記憶部228に記憶される。この結果、発話候補記憶部228に記憶されている情報を用い、コーパス510に記憶された各発話の翻訳及び音声認識スコアを算出できる。
─音声翻訳サービス─
携帯型端末104等には、図2に示すような音声翻訳アプリケーションを予め配布しておくことが必要である。本実施の形態では、携帯型端末104が接続可能なサーバ106は、音声翻訳アプリケーションにより固定されているものとする。もちろん、サーバ106が複数個あるなら、ユーザがそれらの中から所望のものを選択するようにしてもよい。
サーバ106の音声翻訳サービスを利用しようとする場合、ユーザには大きく分けて2つの選択肢がある。1番目は音声翻訳であり、2番目はテキスト翻訳である。以下、最初に音声翻訳サービスを利用するときのユーザの操作、並びに携帯型端末104及びサーバ106の動作を説明し、次にテキスト翻訳を利用するときのユーザの操作、並びに携帯型端末104及びサーバ106の動作を説明する。なおこれに先立ち、ユーザは、図2の設定ボタン142を操作することで設定画面を呼出し、自分が利用しようとするソース言語とターゲット言語との組合せを選択しておく必要がある。
音声翻訳を行なおうとする場合、ユーザには2通りの方法がある。1番目は音声入力ボタン152を押し、押している間に発話をし、発話が終了したら音声入力ボタン152を離す、という方法である。2番目は、マイクボタン182を押すことにより音声の収録を開始させて発話を行ない、発話が終了したら再度マイクボタン182を押すことで音声の収録を終了させる、というものである。どちらを選択するにせよ、プログラムは、図5のステップ310及び312において、選択された処理に対応するAPIを呼ぶことにより、音声の収録と、信号処理とを行なって所定形式の音声データを生成できる。
音声の収録が終了すると(音声入力ボタン152が離されるか、音声の収録を実行中にマイクボタン182が再度押されると)、図5に示すステップ314の処理が行なわれ、音声翻訳のリクエスト命令と、設定にしたがった音声ペアの情報と、音声データと、環境情報とがサーバ106に送信される。このリクエストには、設定にしたがった言語ペアの情報と、発話日時と、ユーザの識別情報と、GPS受信機258、加速度センサ260、傾きセンサ262、磁気センサ264、明るさセンサ266、圧力センサ268、及び温度センサ270の出力からなる環境情報とが付されている。
サーバ106は、この音声翻訳リクエストを受信すると(図7のステップ452)、リクエスト中の言語ペア情報にしたがって言語ペアを選択し(ステップ454からステップ460)、選択された言語の組合せに応じて選択部410、選択部412、選択部414、選択部416、選択部434、及び選択部436を制御し、適切な要素を選択する。サーバ106はさらに、音声認識(ステップ462)、音声認識結果に対する自動翻訳(ステップ464)、翻訳結果に対する音声合成(ステップ466)を行なう。その後、サーバ106は、音声認識の結果と音声翻訳リクエストに付されていた各種の情報とから入力発話の特徴ベクトルを生成し(ステップ468)、発話連接モデル226及び発話候補記憶部228内の各発話の翻訳及び音声認識スコアを用いて、次に発話される可能性が高く、かつ翻訳及び音声認識スコアも高い発話候補からなる発話候補リコメンドリストを生成する(ステップ478)。サーバ106は、最後に、音声認識結果と、翻訳結果のテキストデータと、その合成音声と、発話候補リコメンドリストとを携帯型端末104に送信する(ステップ472)。この処理が終了すると、サーバ106は次のリクエストの処理に移る(ステップ452)。
図2を参照して、携帯型端末104は、サーバ106からの返信を受取る(図5のステップ316)と、音声認識結果を入力テキスト表示領域150に、自動翻訳結果のテキストを翻訳結果表示領域170に、発話候補リコメンドリスト192及び翻訳リクエストボタン194を発話候補リコメンド領域190に、それぞれ表示し(ステップ318)、さらに合成音声データにしたがってスピーカ280を駆動することで発話する(ステップ320)。ステップ318の結果により画面を更新して(ステップ322)、ユーザの操作待ち状態に戻る(ステップ304)。
ユーザが次に発話するときには、発話候補リコメンド領域190に表示された発話候補リコメンドリストを参考にできる。何もない状態で次の発話を考えるのではなく、具体的な文を目にして次の発話を行なうことができるので、ユーザが戸惑うことはない。さらに、発話としてはその前の発話に続いて発話される可能性の高いものが表示されるので、ユーザが携帯型端末104を操作するときにあらためて考えるべき事項が少なく済む可能性が高い。しかも、発話候補リコメンドリストに表示される発話は、翻訳及び音声認識スコアが高いので、その発話にならった発話を行なうと、音声翻訳を行なったときに、音声認識の結果が正しくなる可能性が高くなり、さらに、その結果を用いた自動翻訳の結果がターゲット言語の発話として正しい発話になる可能性も高くなる。したがって、携帯型端末104のユーザと他言語のユーザとの対話を、誤解なく、かつスムーズに運ぶことができる。
本実施の形態では、発話候補リコメンドリスト192に表示された翻訳リクエストボタン194は、いずれも対応する発話についての翻訳リクエストを発生させるボタンとして機能する。すなわち、発話候補のいずれかのテキストに対応する翻訳リクエストボタン194をユーザが押すと、そのテキストが次の発話として選択されてサーバ106に送信され、次の自動翻訳の対象となる。
テキスト翻訳の場合、携帯型端末104は以下のように動作する。図2を参照して、ユーザは、テキスト入力ボタン154を操作して、テキスト入力画面を呼び出す。携帯型端末104では、図5に示すフローチャートにおいて、ステップ304からステップ340が呼び出される。テキストの入力が終了するとユーザは、テキスト入力を終了するボタン(図2では図示せず)を押す。携帯型端末104は、入力されたテキストを保存し(ステップ342)、入力されたテキストを入力テキスト表示領域150に表示するよう、画面を更新する(ステップ322)。ユーザがさらに翻訳ボタン164を押すと、図5においてステップ304〜360の処理が実行され、テキスト翻訳リクエストが生成され、サーバ106に送信される。このリクエストには、テキスト翻訳命令と、設定にしたがった言語ペアに関する情報と、入力されたソース言語のテキストデータと、翻訳ボタン164が押されたときの日時及びユーザの識別情報と、各種センサの出力とが付されている。
サーバ106は、このリクエストを受信すると、図7に示すステップ454、478,480、482、484、486の経路により、入力テキストをターゲット言語に翻訳し、その音声を合成する。サーバ106はさらに、入力テキストとテキスト翻訳リクエストに付されていた各種情報とによって特徴ベクトルを生成し、発話連接モデル226及び発話候補記憶部228に記憶された各発話の翻訳スコアを用いて、次発話として可能性が高く、かつ翻訳スコアも高いソース言語の発話のリストからなる発話候補リコメンドリストを生成する。そして、翻訳結果テキスト、その合成音声、及び発話候補リコメンドリストを携帯型端末104に対して返送する。
携帯型端末104は、この返送を受けると、翻訳結果テキストを翻訳結果表示領域170に表示し、発話候補リコメンドリスト192及び翻訳リクエストボタン194を発話候補リコメンド領域190に表示する。
この場合も、音声翻訳の場合と同様、ユーザが次の発話を考えるための発話候補リコメンドリストが発話候補リコメンド領域190に表示されるので、次の発話を音声で行なうにせよ、ボタン入力するにせよ、戸惑うことなく容易に次の発話を考えることができる。
以上のように本実施の形態によれば、音声翻訳を行なう音声翻訳システム100において、携帯型端末104のユーザが発話した後、次の発話を考える際には発話候補リコメンドリストが携帯型端末104の画面に表示される。表示される発話候補は、いずれも、先の発話に続いて発話される可能性が高く、かつ、翻訳したときに正しく翻訳される可能性が高い。したがってユーザがこれら発話候補を参考に次の発話を考えることで、相手との対話をスムーズに続けることが可能になり、かつ互いのコミュニケーションに、誤訳により誤解が導入される恐れを小さくできる。
今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味及び範囲内での全ての変更を含む。
100 音声翻訳システム
104 携帯型端末
106 サーバ
108 モデル生成部
130 アプリケーション画面
140 言語表示領域
150 入力テキスト表示領域
160 逆翻訳領域
180 ステータス領域
190 発話候補リコメンド領域
192 発話候補リコメンドリスト
220 音声認識処理
222 自動翻訳処理
224 音声合成処理
226 発話連接モデル
228 発話候補記憶部
230 発話候補リスト作成処理
232 送信処理部
418 音声認識エンジン
422 自動翻訳エンジン
424 音声合成処理部
426 発話確率算出部
428 発話候補リコメンドリスト作成部

Claims (6)

  1. 発話を表す音声信号と、当該発話がなされた環境を表す所定の環境情報とを含む発話情報の入力を受けるための発話入力手段と、
    前記発話入力手段が受けた発話情報内の音声信号に対して音声認識を行ない、認識結果をテキストとして出力するための音声認識手段と、
    前記音声認識手段が出力したテキストに対して所定のデータ処理を実行するデータ処理手段と、
    発話のテキストと、前記所定の環境情報とを受けると、所定の発話集合の中の発話について、前記テキストにより表される発話の後に連接して発話される確率が算出可能なように統計的に学習済の発話連接モデルを記憶するための発話連接モデル記憶手段と、
    前記所定の発話集合内の発話と、当該発話集合内の発話の各々について、前記データ処理手段で処理したときの、データ処理の信頼度を記憶するための発話記憶手段と、
    前記発話入力手段が受けた発話情報に対する前記音声認識手段の認識結果と、当該発話情報に含まれる環境情報とを用い、前記発話連接モデル記憶手段に記憶された前記発話連接モデルを用いて前記所定の集合内の各発話に対して算出される確率と、前記発話記憶手段に記憶された、前記所定の集合内の各発話に対する前記データ処理の信頼度とを所定の形式で組み合わせた評価スコアに基づいて、前記音声認識手段が認識した発話を行なったユーザにリコメンドする発話の候補を前記複数の発話の集合内でスコア付けし、当該スコアに基づいて発話候補をユーザにリコメンドするための発話候補リコメンド手段とを含む、音声処理システム。
  2. 請求項1に記載の音声処理システムであって、前記データ処理手段は、ある発話を受けて前記音声認識手段の出力する認識結果を受け、当該認識結果を前記ある発話の言語と異なる他の言語に自動翻訳しテキストとして出力するための自動翻訳手段を含み、前記信頼度は、当該自動翻訳手段による翻訳結果が前記ある発話に対する前記他の言語の翻訳である尤度である、音声処理システム。
  3. 請求項2に記載の音声処理システムであって、前記データ処理手段はさらに、前記自動翻訳手段が出力する前記他の言語のテキストに基づき、前記他の言語の音声信号を合成するための音声合成手段を含む、音声処理システム。
  4. 請求項1から請求項3のいずれかに記載の音声処理システムであって、前記発話候補リコメンド手段は、前記発話連接モデルを用いて前記所定の集合内の各発話に対して算出される確率と、前記発話記憶手段に記憶された、前記所定の集合内の各発話に対する信頼度との線形和による評価に基づいて、前記音声認識手段が音声認識した発話に後続する発話の候補を前記複数の発話の集合内で推定するための手段を含み、
    前記線形和における前記信頼度と前記確率との係数はいずれも正である、音声処理システム。
  5. 請求項1から請求項4のいずれかに記載の音声処理システムであって、さらに、前記発話候補リコメンド手段によりリコメンドされた発話候補をユーザに対して提示するための発話候補提示手段を含む、音声処理システム。
  6. 請求項1から請求項5のいずれかに記載の音声処理システムであって、発話を表すテキストと、前記所定の環境情報とを含む発話テキスト情報の入力を受け、当該発話テキスト情報内のテキストを前記音声認識手段の出力に代えて前記発話候補リコメンド手段及び前記データ処理手段に与えるための発話テキスト情報入力手段をさらに含む、音声処理システム。
JP2012153941A 2012-07-09 2012-07-09 音声処理システム Expired - Fee Related JP5967569B2 (ja)

Priority Applications (6)

Application Number Priority Date Filing Date Title
JP2012153941A JP5967569B2 (ja) 2012-07-09 2012-07-09 音声処理システム
PCT/JP2013/068007 WO2014010450A1 (ja) 2012-07-09 2013-07-01 音声処理システム及び端末装置
DE201311003444 DE112013003444T5 (de) 2012-07-09 2013-07-01 Sprachverarbeitungssystem und Endgerät
CN201380036292.8A CN104488027B (zh) 2012-07-09 2013-07-01 声音处理***
GB1500132.4A GB2518318A (en) 2012-07-09 2013-07-01 Speech processing system and terminal device
US14/406,015 US9824687B2 (en) 2012-07-09 2013-07-01 System and terminal for presenting recommended utterance candidates

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012153941A JP5967569B2 (ja) 2012-07-09 2012-07-09 音声処理システム

Publications (2)

Publication Number Publication Date
JP2014016475A JP2014016475A (ja) 2014-01-30
JP5967569B2 true JP5967569B2 (ja) 2016-08-10

Family

ID=49915914

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012153941A Expired - Fee Related JP5967569B2 (ja) 2012-07-09 2012-07-09 音声処理システム

Country Status (6)

Country Link
US (1) US9824687B2 (ja)
JP (1) JP5967569B2 (ja)
CN (1) CN104488027B (ja)
DE (1) DE112013003444T5 (ja)
GB (1) GB2518318A (ja)
WO (1) WO2014010450A1 (ja)

Families Citing this family (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9640173B2 (en) * 2013-09-10 2017-05-02 At&T Intellectual Property I, L.P. System and method for intelligent language switching in automated text-to-speech systems
US20160164813A1 (en) * 2014-12-04 2016-06-09 Intel Corporation Conversation agent
KR102324074B1 (ko) * 2015-04-08 2021-11-09 삼성전자주식회사 사운드 출력 제어 방법 및 전자 장치
JP2017199363A (ja) * 2016-04-21 2017-11-02 国立研究開発法人情報通信研究機構 機械翻訳装置及び機械翻訳のためのコンピュータプログラム
US20170308526A1 (en) * 2016-04-21 2017-10-26 National Institute Of Information And Communications Technology Compcuter Implemented machine translation apparatus and machine translation method
KR102565274B1 (ko) 2016-07-07 2023-08-09 삼성전자주식회사 자동 통역 방법 및 장치, 및 기계 번역 방법 및 장치
WO2018008227A1 (ja) * 2016-07-08 2018-01-11 パナソニックIpマネジメント株式会社 翻訳装置および翻訳方法
JP6342972B2 (ja) * 2016-11-15 2018-06-13 株式会社日立情報通信エンジニアリング コミュニケーションシステム及びそのコミュニケーション方法
US10431216B1 (en) * 2016-12-29 2019-10-01 Amazon Technologies, Inc. Enhanced graphical user interface for voice communications
US11582174B1 (en) 2017-02-24 2023-02-14 Amazon Technologies, Inc. Messaging content data storage
US10547729B2 (en) 2017-03-27 2020-01-28 Samsung Electronics Co., Ltd. Electronic device and method of executing function of electronic device
US11900072B1 (en) * 2017-07-18 2024-02-13 Amazon Technologies, Inc. Quick lookup for speech translation
CN107507615A (zh) * 2017-08-29 2017-12-22 百度在线网络技术(北京)有限公司 界面智能交互控制方法、装置、***及存储介质
KR102411124B1 (ko) * 2017-10-27 2022-06-21 삼성전자주식회사 전자 장치 및 전자 장치에서 외부 장치를 이용한 태스크 수행 방법
CN109840062B (zh) * 2017-11-28 2022-10-28 株式会社东芝 输入辅助装置以及记录介质
JP2019106054A (ja) * 2017-12-13 2019-06-27 株式会社東芝 対話システム
CN108364653B (zh) * 2018-02-12 2021-08-13 王磊 语音数据处理方法及处理装置
JP7163035B2 (ja) * 2018-02-19 2022-10-31 株式会社東芝 音響出力システム、音響出力方法及びプログラム
JP6916130B2 (ja) * 2018-03-02 2021-08-11 株式会社日立製作所 話者推定方法および話者推定装置
US10930278B2 (en) * 2018-04-09 2021-02-23 Google Llc Trigger sound detection in ambient audio to provide related functionality on a user interface
US10929098B2 (en) * 2018-08-17 2021-02-23 The Toronto-Dominion Bank Methods and systems for conducting a session over audible and visual interfaces
US11481189B2 (en) 2018-08-17 2022-10-25 The Toronto-Dominion Bank Methods and systems for transferring a session between audible and visual interfaces
EP3862908A1 (en) * 2018-12-14 2021-08-11 Google LLC Voice-based interface for a networked system
JP2020144274A (ja) * 2019-03-07 2020-09-10 本田技研工業株式会社 エージェント装置、エージェント装置の制御方法、およびプログラム
US11061638B2 (en) 2019-09-17 2021-07-13 The Toronto-Dominion Bank Dynamically determining an interface for presenting information to a user
CN111368559A (zh) * 2020-02-28 2020-07-03 北京字节跳动网络技术有限公司 语音翻译方法、装置、电子设备及存储介质
CN111401323A (zh) * 2020-04-20 2020-07-10 Oppo广东移动通信有限公司 文字翻译方法、装置、存储介质及电子设备
CN112084318B (zh) * 2020-09-25 2024-02-20 支付宝(杭州)信息技术有限公司 一种对话辅助方法、***及装置
CN115394288B (zh) * 2022-10-28 2023-01-24 成都爱维译科技有限公司 民航多语种无线电陆空通话的语种识别方法及***

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4156080B2 (ja) * 1998-06-30 2008-09-24 株式会社デンソー 要求推定装置
JP4135307B2 (ja) 2000-10-17 2008-08-20 株式会社日立製作所 音声通訳サービス方法および音声通訳サーバ
US7398209B2 (en) * 2002-06-03 2008-07-08 Voicebox Technologies, Inc. Systems and methods for responding to natural language speech utterance
JP3991914B2 (ja) * 2003-05-08 2007-10-17 日産自動車株式会社 移動体用音声認識装置
WO2006040971A1 (ja) * 2004-10-08 2006-04-20 Matsushita Electric Industrial Co., Ltd. 対話支援装置
US9214001B2 (en) * 2007-02-13 2015-12-15 Aspect Software Inc. Automatic contact center agent assistant
US8620662B2 (en) * 2007-11-20 2013-12-31 Apple Inc. Context-aware unit selection
WO2011036769A1 (ja) * 2009-09-25 2011-03-31 株式会社東芝 翻訳装置、及びプログラム
JP5397198B2 (ja) 2009-12-08 2014-01-22 日本電気株式会社 話題推薦装置、話題推薦装方法およびプログラム

Also Published As

Publication number Publication date
GB2518318A (en) 2015-03-18
JP2014016475A (ja) 2014-01-30
US20170148436A1 (en) 2017-05-25
CN104488027A (zh) 2015-04-01
CN104488027B (zh) 2018-03-30
DE112013003444T5 (de) 2015-04-16
US9824687B2 (en) 2017-11-21
WO2014010450A1 (ja) 2014-01-16

Similar Documents

Publication Publication Date Title
JP5967569B2 (ja) 音声処理システム
US20200410174A1 (en) Translating Languages
JP6588637B2 (ja) 個別化されたエンティティ発音の学習
CN112262430B (zh) 自动确定经由自动助理界面接收到的口头话语的语音识别的语言
CN103035240B (zh) 用于使用上下文信息的语音识别修复的方法和***
US8560326B2 (en) Voice prompts for use in speech-to-speech translation system
KR102108500B1 (ko) 번역 기반 통신 서비스 지원 방법 및 시스템과, 이를 지원하는 단말기
KR101683943B1 (ko) 음성번역 시스템, 제1 단말장치, 음성인식 서버장치, 번역 서버장치, 및 음성합성 서버장치
KR101211796B1 (ko) 외국어 학습 장치 및 그 제공 방법
US9053096B2 (en) Language translation based on speaker-related information
CN110998720A (zh) 话音数据处理方法及支持该方法的电子设备
WO2019111346A1 (ja) 双方向音声翻訳システム、双方向音声翻訳方法及びプログラム
JP6150268B2 (ja) 単語登録装置及びそのためのコンピュータプログラム
CN105989840A (zh) 自然语言语音服务环境中的混合处理的***及方法
KR20190043329A (ko) 음성 신호 번역 방법 및 그에 따른 전자 장치
CN112840396A (zh) 用于处理用户话语的电子装置及其控制方法
JP6832503B2 (ja) 情報提示方法、情報提示プログラム及び情報提示システム
US20170221481A1 (en) Data structure, interactive voice response device, and electronic device
CN111556999A (zh) 通过即时提供实质性回答以提供自然语言对话的方法、计算机装置及计算机可读存储介质
JP2021144170A (ja) 情報処理方法及び情報処理装置
JP7132206B2 (ja) 案内システム、案内システムの制御方法、およびプログラム
CN117809641A (zh) 一种终端设备及基于查询文本改写的语音交互方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150430

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20151117

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160113

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20160216

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160411

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20160411

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20160506

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160621

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160627

R150 Certificate of patent or registration of utility model

Ref document number: 5967569

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees