JP6342972B2

JP6342972B2 - コミュニケーションシステム及びそのコミュニケーション方法

Info

Publication number: JP6342972B2
Application number: JP2016222505A
Authority: JP
Inventors: 吉田　大輔; 大輔吉田; 大輔渡邊; 飯島　雅之; 雅之飯島; 正尚平光; 信之鹿又
Original assignee: Hitachi Information and Telecommunication Engineering Ltd
Current assignee: Hitachi Information and Telecommunication Engineering Ltd
Priority date: 2016-11-15
Filing date: 2016-11-15
Publication date: 2018-06-13
Anticipated expiration: 2036-11-15
Also published as: JP2018082269A

Description

本発明は、コミュニケーションシステム及びそのコミュニケーション方法に係り、特に、電話端末により音声を受け付けて音声翻訳を行う用途に用いて好適なコミュニケーションシステム及びそのコミュニケーション方法に関する。

近年、インターネットなど、コミュニケーションのためのインフラは、地球規模で発達し、コミュニケーションのグローバル化が急速に進んでいる。このような状況の元で、情報処理技術の進展に伴って、自動音声翻訳が注目を集めている。

自動音声翻訳は、入力された人の音声を、音声認識し、テキスト化し、その入力された言語のテキストを目的言語のテキストに自動翻訳し、さらに、翻訳されたテキストを目的言語の音声に変換して、出力するシステムである。

このような自動音声翻訳を利用した技術としては、例えば、特許文献１がある。特許文献１には、携帯端末から受け付けた音声データから緊急度及び言語種別を判定し、緊急度が高い場合には各種言語に精通した通訳者を選択し、緊急度が低い場合には機械翻訳サーバに機械翻訳させる技術が開示されている。

特開２０１６−６６９８３号公報

自動音声翻訳により、音声翻訳をする際には、予め入力言語（原文言語）と出力言語（訳文言語）を指定する必要がある。上記特許文献１のように、スマートフォンなどの携帯端末を使用する場合は、画面をタップすることで言語指定をすることができる。しかしながら、一般の固定電話機の場合は、同じ方法での指定ができないという問題点がある。

また、対面音声通訳において、１台の電話機を交互に受け渡しながら、自動音声翻訳システムを利用して、相手の発話を翻訳した音声を聞く応用が考えられる。このような場合には、電話機の受け渡しタイミングのばらつきにより出力音声の冒頭が聞こえないおそれがあるという問題点がある。

さらに、言語種別の特定に関して言えば、特許文献１記載の通訳サービスシステムにおいては、「英語」「フランス語」などのキーワードを言語種別ごとに用意して、警備員又は外国人がそのキーワードを発話することによって、外国人の発話言語を特定する（段落番号００５９）。

しかしながら、特許文献１記載による言語種別の判定は、迂遠であり、処理系にも負荷がかかり、コミュニケーションのための余計な時間がかかって、対面音声通訳において、１台の電話機を交互に受け渡す応用においては、円滑に受け渡すことができないという問題点がある。

本発明は、上記問題点を解決するためになされたもので、その目的は、電話機と自動音声翻訳システムが電話回線により、音声をやり取りする場合に、簡単な指定で言語種別の指定が行なえ、対面音声通訳において、１台の電話機を交互に受け渡す場合に、円滑に受け渡しが行なえ、受話器を受け渡された者が適切な音声で聞くことができ、音声の聞き逃しも防止できるコミュニケーションシステム及びそのコミュニケーション方法を提供することにある。

本発明に係るコミュニケーションシステムは、電話端末とコミュニケーションサーバが電話回線により接続されたコミュニケーションシステムであって、電話端末は、コミュニケーションサーバに通話を送受信する手段と、キー装置からの入力によりＤＴＭＦ（Dual-Tone Multi-Frequency）信号を生成し、コミュニケーションサーバに送信する手段とを有し、コミュニケーションサーバは、第一の言語から第二の言語に音声翻訳をする言語処理部と、電話回線により送信されてくる音声信号に係る第一の言語の音声を、第二の言語に音声翻訳して、電話端末に送信する手段と、話者の言語の音声データと、その音声データを翻訳した翻訳音声の音声データを格納する通話データテーブルとを有するものである。そして、コミュニケーションサーバは、電話端末から第一のＤＴＭＦ信号を受信したときに、他の話者により操作されて送信される第二のＤＴＭＦ信号を受信するまでは、第一のＤＴＭＦ信号受信それ以降に受信する音声信号に係る音声を、第一のＤＴＭＦ信号の表す言語の音声データとして、通話データテーブルに格納し、第二のＤＴＭＦ信号が送信されてきた後に、第一のＤＴＭＦ信号の表す言語の音声データを、第二のＤＴＭＦ信号が表す言語に翻訳した翻訳音声の音声データに係る音声信号を、電話端末に送信する。

本発明によれば、電話機と自動音声翻訳システムが電話回線により、音声をやり取りする場合に、簡単な指定で言語種別の指定が行なえ、対面音声通訳において、１台の電話機を交互に受け渡す場合に、円滑に受け渡しが行なえ、受話器を受け渡された者が適切な音声で聞くことができ、音声の聞き逃しも防止できるコミュニケーションシステム及びそのコミュニケーション方法を提供することができる。

コミュニケーションシステムの全体構成図である。電話端末の機能構成図である。コミュニケーションサーバの構成図である。コミュニケーション制御部が認識する状態を説明する図である。コミュニケーション制御部が受け付けるイベントを説明する図である。イベントによる状態遷移を状態遷移図である。状態と発生するイベントによる処理マトリックスを示す図である。ボタン対応テーブル３１０の仕様を説明する図である。通話状態テーブル３２０の仕様を説明する図である。通話データテーブル３３０の仕様を説明する図である。コミュニケーションシステムの各々のコンポーネント間での受け渡しと、システムの状態を示す概要シーケンス図である（その一）。コミュニケーションシステムの各々のコンポーネント間での受け渡しと、システムの状態を示す概要シーケンス図である（その二）。コミュニケーションサーバの処理を示す概要フローチャートである。音声解析処理を示すフローチャートである。リピート処理を示すフローチャートである。

以下、本発明に係る各実施形態を、図１ないし図１３を用いて説明する。

先ず、図１及び図３を用いて、本発明の実施形態に係るコミュニケーションシステムの構成について説明する。
図１は、コミュニケーションシステムの全体構成図である。
図２は、電話端末の機能構成図である。
図３は、コミュニケーションサーバの構成図である。

本実施形態のコミュニケーションシステムは、図１に示されるように、電話端末１０とコミュニケーションサーバ１００が、電話回線５により接続された形態である。

電話回線５は、公衆回線でもよいし、企業内のＰＢＸ（Private Branch eXchange）により回線交換される構内回線でもよい。また、アナログ回線でもよいし、デジタル回線でもよい。

電話端末１０は、ＤＴＭＦ（Dual-Tone Multi-Frequency）信号（いわゆるプッシュ信号）を発信可能な電話機である必要がある。ＤＴＭＦ信号とは、０から９までの数字と、＊、＃、Ａ、Ｂ、Ｃ、Ｄの記号の計１６種類の符号を、低群・高群の二つの音声周波数帯域の合成信号音で送信する信号である。また、電話端末１０に接続されている回線は、ＤＴＭＦ信号を送信可能な回線とする。

電話端末１０は、図２に示されるように、受話器１１、送話器１２、キー装置１３、音声信号変換部１４、接続制御部１５、ＤＴＭ信号生成部１６からなる。受話器１１、送話器１２は、それぞれ受話のためのスピーカ、送話のためのマイクである。音声信号変換部１４は、電話回線からの電気信号を音声に変換し、送話器１２から音声を電気信号に変換する部分である。接続制御部１５は、着呼、発呼を制御して、電話端末１０と回線の接続、切断を行う部分である。ＤＴＭ信号生成部１６は、キー装置１３の入力にしたがって、所定の周波数のＤＴＭ信号を生成する装置である。

電話端末１０を利用する者は、キー装置１３から言語ごとに定められた規約のボタンにしたがって、自分の言語種別を入力できる。例えば、［＃］［１］は、日本語、［＃］［２］は、英語、［＃］［３］は、中国語のごとくである。電話端末１０は、それをＤＴＭ信号に変換し、電話端末１０の利用者の言語を判定するための信号として、電話回線５を介して、コミュニケーションサーバ１００に送信する。

コミュニケーションサーバ１００は、電話回線５を介して送信される音声信号をデコードして、音声に変換し、それを指定された言語（以下、「翻訳言語」という）に係る音声に翻訳し（以下、翻訳された音声を「翻訳音声」という）、その音声をエンコードして、電話回線５を介して電話端末１０に送信する装置である。

コミュニケーションサーバ１００は、図３に示されるように、受信制御部１１０、送信制御部１２０、コミュニケーション制御部１５０、データベースアクセス部１６０、言語処理部２００、データベース３００からなる。

受信制御部１１０は、図３に示されるように、デコーダ１１１、制御信号解析部１１２、ＤＴＭＦ信号解析部１１３、音声解析部１１４、通話データ出力部１１５からなり、受信時の音声信号、ＤＴＭＦ信号の判別とデコード、受信した情報のデータベースへの書込みを行う部分である。受信制御部１１０は、電話端末１０からの制御信号、音声信号、又は、ＤＴＭＦ信号を電話回線を介して受信し、デコーダ１１１によりデコードする。そして、制御信号かＤＴＭＦ信号か、あるいは、音声かを判別し、制御信号の場合は、呼の呼び出しを認識して、通話データ出力部１１５に報告する。ＤＴＭＦ信号の場合は、ＤＴＭＦ信号解析部１１３が、ＤＴＭＦ信号に含まれている周波数を解析し、どのボタンが電話端末１０で押下されたかの認識を行ない、通話データ出力部１１５に報告する。音声の場合は、音声解析部１１４が、一文を判断して、その音声データを、通話データ出力部１１５に報告する。

通話データ出力部１１５は、新たな呼の呼び出しがあったときには、新たな呼ＩＤを生成する。また、ボタン対応テーブル３１０を参照して、押されたボタンに対応する話者の言語ＩＤを取得する。そして、音声解析部１１４から音声が出力されたときには、呼ごとに異なる呼ＩＤ、話者が切り替わるごとに更新されるグループＩＤ、話者発話の一文ごとに更新されるシーケンシャルＩＤ、話者の音声かテキストか翻訳した音声かテキストかを示すフラグである種別、音声の言語を表す言語ＩＤの情報を付加したデータを作成し、データベースアクセス部１６０を介して、通話データテーブル３３０に保存する。また、一文終了後、次の一文を受け付けるためにシーケンシャルＩＤを更新する。呼ＩＤ、グループＩＤ、種別、言語ＩＤ、シーケンシャルＩＤについては、後に、通話データテーブル３３０の説明の所でも説明する。

送信制御部１２０は、図３に示されるように、エンコーダ１２１、通話データ入力部１２２からなり、翻訳された音声を音声信号として、電話端末１０に送り返すための制御をする部分である。送信制御部１２０は、コミュニケーション制御部１５０の指示にしたがって、通話データテーブル３３０から音声データを取り出し、電話端末１０に送り返す制御を行う。すなわち、コミュニケーション制御部１５０が指示するタイミングで、送信制御部１２０の通話データ入力部１２２は、指定された言語の音声データのうち、未送信の音声データをグループＩＤ、シーケンシャルＩＤなどの情報に基づいて、データベースアクセス部１６０を介して通話データテーブル３３０から取得し、エンコーダ１２１よりエンコードして、電話端末１０に送信する。

コミュニケーション制御部１５０は、受信制御部１１０から送られてくるＤＴＭＦ信号の解析情報と通話データテーブル３３０に格納された状態にしたがって、言語処理部２００、送信制御部１２０に指示を与える部分である。

言語処理部２００は、図３に示されるように、音声認識部２１０、翻訳エンジン２２０、音声合成部２３０からなり、音声を入力して、指定された言語にしたがって、翻訳し、翻訳言語の音声として、出力する部分である。音声認識部２１０は、指定された言語種別を認識して、テキスト化する。翻訳エンジン２２０では、翻訳辞書に基づいて、ある言語（例えば、日本語）を他の言語（例えば、英語）に翻訳する。音声合成部２３０は、翻訳言語のテキストを音声データに変換し、一つの読み取れる音声データとして出力する。

データベースアクセス部１６０は、他のコンポーネントからのデータベース３００の読み出し、書込みの機能を提供する部分である。

データベース３００は、ボタン対応テーブル３１０、通話状態テーブル３２０、通話データテーブル３３０を保持している。なお、各々のテーブルについては、後に詳説する。

コミュニケーションサーバ１００の各々の機能は、ＦＰＧＡ（field-programmable gate array）のようなハードウェアロジックで実装してもよいし、メモリ上にロードされ、ＯＳ上で動作するプログラムとして、汎用のＣＰＵ（Central Processing Unit）がそのプログラムを実行することにより機能が実現されるものであってもよい。

次に、図４Ａないし図６を用いて、コミュニケーションサーバ１００上で扱う状態とイベント、及び、その関係について説明する。
図４Ａは、コミュニケーション制御部が認識する状態を説明する図である。
図４Ｂは、コミュニケーション制御部が受け付けるイベントを説明する図である。
図５は、イベントによる状態遷移を示す状態遷移図である。
図６は、状態と発生するイベントによる処理マトリックスを示す図である。

コミュニケーション制御部１５０は、「言語未選択」、「受付」、「翻訳中」、「翻訳音声送信中」の四つの状態を認識する。各々の状態の意味は、図４Ａに示す如くである。なお、後の図では、状態を説明するのに、この番号を用いることにする。

また、コミュニケーション制御部１５０は、「ＤＴＭＦ信号（言語選択）」、「音声」、「翻訳完了」、「翻訳音声送信終了」、「ＤＴＭＦ信号（リピート再生）」の五つのイベントを受け付ける。各々のイベントの意味は、図４Ｂに示すごとくである。

上で説明した状態は、イベントの発生により遷移する。図５は、その状態とそのときに発生する主要なものを示したものである。例えば、「２：受付」の状態ときに、「ＤＴＭＦ信号（言語選択）」イベントが発生したときには、「３：翻訳中」に遷移し、「ＤＴＭＦ信号（リピート）」イベントが発生したときには、「４：翻訳音声送信中」に遷移し、「音声」イベントが発生したときには、「２：受付」の状態にとどまることを意味している。

また、図６に示される状態と発生するイベントによる処理マトリックスは、状態をカラム、イベントをロウで表現したマトリックスであり、カラムで表現した状態のときに、ロウで表現したイベントが発生したときには、その交点にあたる部分が適用されることを示している。交点の要素は、「状態（付随処理）」のように表現されており、カラムで表現した状態のときに、ロウで表現したイベントが発生したときに、その状態に遷移し、付随処理がその遷移にしたがって開始又は継続されることを示している。

例えば、「２：受付」の状態ときに、「ＤＴＭＦ信号（言語選択）」イベントが発生したときには、「３：翻訳中」に遷移し、「翻訳開始」処理がされ、「ＤＴＭＦ信号（リピート）」イベントが発生したときには、「４：翻訳音声送信中」に遷移し、「音声送信」が開始され、「音声」イベントが発生したときには、「２：受付」の状態にとどまり、「音声データ蓄積」処理が継続されることを示している。

なお、図６の処理マトリックスでは、状態遷移図に示さなかった例外的な状態とイベントの関係も示されているが、後の処理の説明では、主に、図５の状態遷移図に示された状態とそのときに発生するイベントの例を取り上げることにする。

次に、図７ないし図９を用いてコミュニケーションシステムで用いられるデータ構造について説明する。
図７は、ボタン対応テーブル３１０の仕様を説明する図である。
図８は、通話状態テーブル３２０の仕様を説明する図である。
図９は、通話データテーブル３３０の仕様を説明する図である。

ボタン対応テーブル３１０は、図７に示されるように、ボタン♯１、言語又は機能♯２、言語ＩＤ♯３のフィールドを有し、ＤＴＭＦ信号より割り出されたユーザが押下したボタンと各種情報を結びつけるテーブルである。ボタン♯１のフィールドは、ＤＴＭＦ信号を解析して得られたユーザがＤＴＭＦ信号発生の際に、押下したボタンを格納する。言語又は機能♯２のフィールドは、ボタン♯１の値に対応する言語又は機能を格納する。例えば、［♯］［１］は、日本語、［♯］［＊］は、リピートの如くである。言語ＩＤ♯３のフィールドは、各言語に対応する言語ＩＤを格納する。

通話状態テーブル３２０は、図８に示されるように、呼ＩＤ♯１、状態♯２、言語ＩＤ♯３のフィールドを有し、コミュニケーション制御部１５０が参照する処理の状態を格納するテーブルである。呼ＩＤ♯１のフィールドは、呼ごとに一意的に付与される呼の識別子を格納する。状態♯２のフィールドは、呼ＩＤにより識別される呼の現在の状態を表す識別子を格納する。状態の意味は、図４Ａで説明した通りである。言語ＩＤ♯３のフィールドは、現在選択されている言語の言語ＩＤを格納する。

通話データテーブル３３０は、図９に示されるように、呼ＩＤ♯１のフィールドと、ｍ（ｍは、０以上の整数）個のテキスト♯１０、ｍ個の音声♯２０の構造体を有し、呼ＩＤごとに、通話に関する情報を格納するテーブルである。呼ＩＤ♯１のフィールドは、呼ごとに一意的に付与される呼の識別子を格納する。

テキスト♯１０の構造体は、種別♯１１、グループＩＤ♯１２、言語ＩＤ♯１３、シーケンシャルＩＤ♯１４、テキストデータ♯１５のメンバを有し、話者の認識テキスト、その翻訳後のテキストに関する情報を格納するものである。種別♯１１は、そのテキストが話者の認識テキスト、その翻訳後のテキストかの別を示す識別子が格納する。グループＩＤ♯１２は、話者の交代ごとに一意的に付与されるグループＩＤを格納する。言語ＩＤ♯１３は、そのテキストの言語の言語ＩＤを格納する。シーケンシャルＩＤ♯１４は、音声データの分割単位ごとにシーケンシャルに付与されるシーケンシャルＩＤを格納する。テキストデータ♯１５は、テキストのコードデータを格納する。

音声♯２０の構造体は、グループＩＤ♯２１、種別♯２２、言語ＩＤ♯２３、シーケンシャルＩＤ♯２４、音声データ♯２５のメンバを有し、話者の音声データ、その翻訳後の合成音声のデータに関する情報を格納するものである。

グループＩＤ♯２１、種別♯２２、言語ＩＤ♯２３、シーケンシャルＩＤ♯２４、テキストデータ♯２５の内容は、それぞれ、テキストデータ♯１０の構造体のグループＩＤ♯１１、種別♯１２、言語ＩＤ♯１３、シーケンシャルＩＤ♯１４と同様である。音声データ♯２５は、音声データのコードデータを格納する。

次に、図１０Ａ、図１０Ｂを用いて、コミュニケーションシステムの概要動作について説明する。
図１０Ａ、図１０Ｂは、コミュニケーションシステムの各々のコンポーネント間での受け渡しと、システムの状態を示す概要シーケンス図である。

先ず、話者Ａ（日本語話者）（ＳＰ１）が、電話端末１０のボタン（［＃］［１］）を押し、コミュニケーションサーバ１００側にＤＴＭＦ信号を送信する（Ａ０１）。このときの状態は、言語未選択状態（状態＝１）であり、通話状態テーブル３２０の値は、呼ＩＤ＝１、状態＝１、言語ＩＤ＝０（Ｔ０１）である（Ｓ０１、Ｔ０１）。なお、ここでは、Ａ０１の前に、電話端末１０と、コミュニケーションサーバ１００の呼は、接続されており、既に、呼ＩＤが割振られたものとしている。また、通話状態テーブル３２０と通話データテーブル３３０の値は、説明に必要なもののみピックアップして、図示することにする。

コミュニケーションサーバ１００のコミュニケーション制御部１５０は、ＤＴＭＦ信号を受けて、状態と言語を更新する（Ａ２０、（状態＝２（受付）、言語ＩＤ＝１（日本語）：Ｔ０２））。

システムの状態は、ＤＴＭＦ信号（言語選択）イベントを受けて、受付（状態＝２）に遷移する（Ｓ０２）。
次に、電話端末１０から話者Ａの音声データ（日本語）が送信されてきたものとする（Ａ０２）。このとき、通話データテーブル３３０の音声♯２０の構造体に、値が設定される（Ａ２１、グループＩＤ＝１、種別＝０（話者）、言語ＩＤ＝１、シーケンシャルＩＤ＝１、音声データ：Ｔ０３）。

次に、日本語の話者Ａから英語の話者Ｂに電話が受け渡されたものとする（ＳＰ１→ＳＰ２）。

そして、話者Ｂ（英語話者）（ＳＰ２）が、電話端末１０のボタン（［＃］［２］）を押し、コミュニケーションサーバ１００側にＤＴＭＦ信号を送信する（Ａ０３）。

コミュニケーションサーバ１００のコミュニケーション制御部１５０は、ＤＴＭＦ信号を受けて、状態と言語を更新する（Ａ２２、（状態＝３（翻訳中）、言語ＩＤ＝２（英語）：Ｔ０４））。

そして、日本語から英語の翻訳が開始され、翻訳中状態（状態＝３）になる（Ｓ０３）。

言語処理部２００は、コミュニケーション制御部１５０からの指示を受け、通話データテーブル３３０の音声データを読み込み、翻訳して、翻訳音声を新しい構造体データとして書き込み、翻訳が完了すると、コミュニケーション制御部１５０は、通話状態テーブル３２０の状態を翻訳音声送信中（状態＝４）に書き換える（Ａ２３、Ａ２４、Ｔ０５、Ｓ０４）。
次に、送信制御部１２０は、翻訳された音声を取り出して（Ａ２５）、話者Ａの音声の翻訳結果（日本語→英語）として、電話端末１０に送信する（Ａ０４）。

そして、翻訳した音声の送信が完了すると、コミュニケーション制御部１５０は、通話状態テーブル３２０の状態を、受付状態（状態＝２）にする（Ａ２６、Ｓ０５）。

ここで、話者Ｂが、電話により伝達された音声を聞きもらした、あるいは、理解しがたいなどと感じて、もう一度聞きたいという意思をもったとする。このときには、話者Ｂは、電話端末１０のキー装置１３を操作して、リピートを指示するボタン（［＃］［＊］）を押下する。これにより、電話端末１０からコミュニケーションサーバ１００に、リピート再生を意味するＤＴＭＦ信号が伝えられる（Ａ０５）。

そして、コミュニケーション制御部１５０は、通話状態テーブル３２０の状態を、翻訳音声送信中状態（状態＝４）にする（Ａ２７、Ｓ０６）。

次に、送信制御部１２０は、コミュニケーション制御部１５０の指示にしたがい、翻訳された音声データを取り出して（Ａ２８）、話者Ａの音声の翻訳結果（日本語→英語）として、再度、電話端末１０に送信する（Ａ０６）。

そして、２回目の翻訳した音声の送信が完了すると、コミュニケーション制御部１５０は、通話状態テーブル３２０の状態を、受付状態（状態＝２）にする（Ａ２９、Ｓ０７）。

次に、話者Ｂが話して、電話端末１０から音声（英語）が伝えられたものとする（Ａ０７、Ａ０８）。

それにより、順次、通話データテーブル３３０に、音声データが書き込まれる（Ａ３０、Ｔ０９、Ａ３１、Ｔ１０）。

次に、英語の話者Ｂから日本語の話者Ａに電話が受け渡されたものとする（ＳＰ２→ＳＰ３）。

そして、話者Ａ（日本語話者）（ＳＰ３）が、電話端末１０のボタン（［＃］［１］）を押し、コミュニケーションサーバ１００側にＤＴＭＦ信号を送信する（図１０ＢのＡ０９）。

コミュニケーションサーバ１００のコミュニケーション制御部１５０は、ＤＴＭＦ信号を受けて、状態と言語を更新する（Ａ３２、（状態＝３（翻訳中）、言語ＩＤ＝１（日本語）：Ｔ１１））。

そして、英語から日本語の翻訳が開始され、翻訳中状態（状態＝３）になる（Ｓ０８）。

言語処理部２００は、コミュニケーション制御部１５０からの指示を受け、通話データテーブル３３０の音声データを読み込み、翻訳して、翻訳音声を新しい構造体データとして書き込み、翻訳が完了すると、コミュニケーション制御部１５０は、通話状態テーブル３２０の状態を翻訳音声送信中（状態＝４）に書き換える（Ａ３３、Ａ３４、Ｔ１２、Ｓ０９）。
次に、送信制御部１２０は、翻訳された音声データを、順次取り出して（Ａ３５）、話者Ｂの音声の翻訳結果（英語→日本語）として、電話端末１０に送信する（Ａ１０、Ａ１１）。

そして、翻訳した音声の送信が完了すると、コミュニケーション制御部１５０は、通話状態テーブル３２０の状態を、受付状態（状態＝２）にする（Ａ３６、Ｓ１０）。

次に、話者Ａが話して、電話端末１０から音声（日本語）が伝えられたものとする（Ａ１２）。

それにより、通話データテーブル３３０に、音声データが書き込まれる（Ａ３７、Ｔ１４）。

以下は、通話終了まで同様のシークエンスが繰り返される。

次に、図１１ないし図１３を用いて、コミュニケーションシステムの処理について説明する。
図１１は、コミュニケーションサーバの処理を示す概要フローチャートである。
図１２は、音声解析処理を示すフローチャートである。
図１３は、リピート処理を示すフローチャートである。

先ず、コミュニケーションサーバ１００は、電話端末１０から電話回線５を介して信号を受け、受信制御部１１０のデコーダ１１１は、送信された信号を解析し（Ｓ１００）、制御信号か、ＤＴＭＦ信号か、音声信号かを判別し、その結果にしたがって、制御信号解析部１１２、ＤＴＭＦ信号解析部１１３、音声解析部１１４に振り分ける（Ｓ１０１）。

制御信号が、発呼信号のときには、受信制御部１１０の制御信号解析部１１２は、通話データ出力部１１５に連絡し、呼ＩＤを設定する（Ｓ１３０）。

制御信号が、ＤＴＭＦ信号のときには、受信制御部１１０のＤＴＭＦ信号解析部１１３は、その解析情報を通信データ出力部１１５に連絡し、通信データ出力部１１５は、ＤＴＭＦ信号が、ボタン対応テーブル３１０により必要な言語、機能の情報を取り出す（Ｓ１０２）。

制御信号が、音声信号のときには、音声解析処理を行う（Ｓ１５０）。なお、音声解析処理については、後に、図１２のフローチャートにより後に詳述する。

制御信号が、ＤＴＭＦ信号のときに、ＤＴＭＦ信号の送信が初回処理のときには（Ｓ１０３：Ｙｅｓ）、通話データ出力部１１５は、グループＩＤの値を初期化し（Ｓ１４０）、言語ＩＤを通話データテーブル３３０に書き込む（Ｓ１４１）。

ＤＴＭＦ信号の送信が初回ではなく（Ｓ１０３：Ｎｏ）、そのＤＴＭＦ信号がリピートを表す信号のときは（Ｓ１０４：Ｙｅｓ）、ＤＴＭＦ信号解析部１１３は、コミュニケーション制御部１５０に連絡する。送信制御部１２０は、コミュニケーション制御部１５０の指示にしたがって、リピート処理を行ない（Ｓ１６０）、リピート処理で取り出した音声データを、送信制御部１２０のエンコーダ１２１が送信信号にエンコードして、電話端末１０に送信する。なお、リピート処理については、図１３のフローチャートにより後に詳述する。

そのＤＴＭＦ信号がリピートを表す信号ではないときは（Ｓ１０４：Ｎｏ）、指定された言語の言語ＩＤに設定を切り換える（Ｓ１０５）。

呼ＩＤ、言語ＩＤ、グループＩＤ、種別、シーケンシャルＩＤなどのパラメタが、コミュニケーション制御部１５０経由で、通話データ出力部１１５から言語処理部２００に渡され、言語処理部２００は、コミュニケーション制御部１５０の指示に従い、通話データテーブル３３０から該当する音声データを取得し（Ｓ１０６）、翻訳処理を行う（Ｓ１０７）。また、言語ＩＤを切り換え、種別を翻訳音声として、翻訳音声の音声データを通話データテーブル３３０に格納する（Ｓ１０８）。なお、音声データを認識したテキスト、翻訳テキストも通話データテーブル３３０に書き込まれる。

そして、全てのシーケンシャルＩＤの音声データ（一文の音声データ）を翻訳済みのときには（Ｓ１０９：Ｙｅｓ）、次のＳ１１０のステップに行き、翻訳済みでないときには（Ｓ１０９：Ｎｏ）、シーケンシャルＩＤを更新し（Ｓ１１３）、Ｓ１０６に戻り、処理を繰り返す。

グループＩＤに属する全ての音声データを翻訳したときには、コミュニケーション制御部１５０から指示を受け、送信制御部１２０の通話データ入力部１２２は、通話データテーブル３３０から翻訳済みかつ未送信の翻訳音声の音声データを取り出し（Ｓ１１０）、かつ、受信制御部１１０の通話データ出力部１１５は、グループＩＤを更新する（Ｓ１１１）。

そして、送信制御部１２０のエンコーダが、Ｓ１１０で取り出した音声データを送信信号にエンコードして（Ｓ１１２）、電話端末１０に送信する。

次に、図１２を用いてＳ１５０の音声解析処理について説明する。

先ず、受信制御部１１０の通話データ出力部１１５は、シーケンシャルＩＤを初期化する（Ｓ２００）。

次に、音声データの有無を判定し（Ｓ２０１）、音声データがないときには（Ｓ２０１：Ｎｏ）、処理を終了し、音声データがあるときには（Ｓ２０１：Ｙｅｓ）、次に、Ｓ２０２判定に行く（Ｓ２０２）。

音声データに区切り（無音部分）があるときには（Ｓ２０２：Ｙｅｓ）、呼ＩＤ、言語ＩＤ、グループＩＤ、シーケンシャルＩＤに基づいて、通話データテーブル３３０に、その区切りの部分までの音声データを格納し（Ｓ２０３）、シーケンシャルＩＤを更新し（Ｓ２０４）、Ｓ２０１の判断に戻る。

音声データに区切りがないときには（Ｓ２０２：Ｎｏ）、区切り判断のポインタをインクリメントし（Ｓ２０５）、Ｓ２０２の判断に戻る。

次に、図１３を用いてＳ１６０のリピート処理について説明する。

先ず、送信制御部１２０の通話データ入力部は、コミュニケーション制御部１５０からの指示を受け、呼ＩＤ、言語ＩＤ、グループＩＤ、種別、シーケンシャルＩＤに基づいて、通話データテーブル３３０から、直前に送信した音声データを取得する（Ｓ３００）。

そして、そのグループＩＤ内の全てのシーケンシャルＩＤの音声データを取得したときには（Ｓ３０１：Ｙｅｓ）、処理を終了し、取得していないシーケンシャルＩＤの音声データがあるときには（Ｓ３０１：Ｎｏ）、シーケンシャルＩＤを更新し（Ｓ３０２）、Ｓ３００に戻る。

本実施形態のコミュニケーションシステムは、特殊な信号を生成する装置ではなく、ＤＴＭＦ信号をサポートしている全ての電話端末で利用可能であるという特徴がある。また、電話のボタンをプッシュすることは、広く普及している方法なので、自動翻訳を利用した経験のない者でも、とまどいなく簡便に利用できる
さらに、話者が言語を明確に指定するので、翻訳側の装置の負荷が少なく、判定も短時間で行なえるという特徴がある。

また、対面音声通訳において、１台の電話機を交互に受け渡しながら、自動翻訳の音声を聞く場合に、利用者にとって、自分の言語種別をキーにより指定した後に、相手の翻訳音声が流されるので、聞き逃しを防止することができるという特徴がある。

５…電話回線
１０…電話端末
１１…受話器
１２…送話器
１３…キー装置
１４…音声信号変換部
１５…接続制御部
１６…ＤＴＭ信号生成部
１００…コミュニケーションサーバ
１１０…受信制御部
１２０…送信制御部
１５０…コミュニケーション制御部
１６０…データベースアクセス部
２００…言語処理部
３００…データベース
３１０…ボタン対応テーブル
３２０…通話状態テーブル
３３０…通話データテーブル

Claims

電話端末とコミュニケーションサーバが電話回線により接続されたコミュニケーションシステムであって、
前記電話端末は、前記コミュニケーションサーバに通話を送受信する手段と、キー装置からの入力によりＤＴＭＦ（Dual-Tone Multi-Frequency）信号を生成し、前記電話回線を介して前記コミュニケーションサーバに送信する手段とを有し、
前記コミュニケーションサーバは、第一の言語から第二の言語に音声翻訳をする言語処理部と、前記電話回線により送信されてくる音声信号に係る第一の言語の音声を、第二の言語に音声翻訳して、前記電話端末に送信する手段と、話者の言語の音声データと、その音声データを翻訳した翻訳音声の音声データを格納する通話データテーブルとを有し、
前記コミュニケーションサーバは、前記電話端末から第一のＤＴＭＦ信号を受信したときに、他の話者により操作されて送信される第二のＤＴＭＦ信号を受信するまでは、前記第一のＤＴＭＦ信号受信以降に受信する音声信号に係る音声を、前記第一のＤＴＭＦ信号の表す言語の音声データとして、前記通話データテーブルに格納し、
前記第二のＤＴＭＦ信号が送信されてきた後に、前記第一のＤＴＭＦ信号の表す言語の音声データを、前記第二のＤＴＭＦ信号が表す言語に翻訳した翻訳音声の音声データに係る音声信号を、前記電話端末に送信することを特徴するコミュニケーションシステム。
前記コミュニケーションサーバは、リピート機能を表すＤＴＭＦ信号を受信したとき、直前のＤＴＭＦ信号受信以降に前記電話端末に送信された音声データに係る音声信号を再度送信することを特徴とする請求項１記載のコミュニケーションシステム。
電話端末とコミュニケーションサーバが電話回線により接続されたコミュニケーションシステムにおけるコミュニケーション方法であって、
前記電話端末が、前記コミュニケーションサーバに通話を送受信するステップと、
前記電話端末が、キー装置からの入力によりＤＴＭＦ（Dual-Tone Multi-Frequency）信号を生成し、前記電話回線を介して前記コミュニケーションサーバに送信するステップと、
前記コミュニケーションサーバが、前記電話端末から第一のＤＴＭＦ信号を受信したときに、他の話者により操作されて送信される第二のＤＴＭＦ信号を受信するまでは、前記第一のＤＴＭＦ信号受信以降に受信する音声信号に係る音声を、前記第一のＤＴＭＦ信号の表す言語の音声データとして、通話データテーブルに格納するステップと、
前記コミュニケーションサーバが、前記第二のＤＴＭＦ信号が送信されてきた後に、前記第一のＤＴＭＦ信号の表す言語の音声データを、前記第二のＤＴＭＦ信号が表す言語に翻訳した翻訳音声の音声データに係る音声信号を、前記電話端末に送信するステップとを有することを特徴するコミュニケーション方法。
前記コミュニケーションサーバが、リピート機能を表すＤＴＭＦ信号を受信したとき、直前のＤＴＭＦ信号受信以降に前記電話端末に送信された音声データに係る音声信号を再度送信するステップを有することを特徴とする請求項３記載のコミュニケーション方法。