JP6342972B2 - コミュニケーションシステム及びそのコミュニケーション方法 - Google Patents

コミュニケーションシステム及びそのコミュニケーション方法 Download PDF

Info

Publication number
JP6342972B2
JP6342972B2 JP2016222505A JP2016222505A JP6342972B2 JP 6342972 B2 JP6342972 B2 JP 6342972B2 JP 2016222505 A JP2016222505 A JP 2016222505A JP 2016222505 A JP2016222505 A JP 2016222505A JP 6342972 B2 JP6342972 B2 JP 6342972B2
Authority
JP
Japan
Prior art keywords
voice
signal
language
dtmf signal
telephone terminal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2016222505A
Other languages
English (en)
Other versions
JP2018082269A (ja
Inventor
吉田 大輔
大輔 吉田
大輔 渡邊
大輔 渡邊
飯島 雅之
雅之 飯島
正尚 平光
正尚 平光
信之 鹿又
信之 鹿又
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Information and Telecommunication Engineering Ltd
Original Assignee
Hitachi Information and Telecommunication Engineering Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Information and Telecommunication Engineering Ltd filed Critical Hitachi Information and Telecommunication Engineering Ltd
Priority to JP2016222505A priority Critical patent/JP6342972B2/ja
Publication of JP2018082269A publication Critical patent/JP2018082269A/ja
Application granted granted Critical
Publication of JP6342972B2 publication Critical patent/JP6342972B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Telephonic Communication Services (AREA)

Description

本発明は、コミュニケーションシステム及びそのコミュニケーション方法に係り、特に、電話端末により音声を受け付けて音声翻訳を行う用途に用いて好適なコミュニケーションシステム及びそのコミュニケーション方法に関する。
近年、インターネットなど、コミュニケーションのためのインフラは、地球規模で発達し、コミュニケーションのグローバル化が急速に進んでいる。このような状況の元で、情報処理技術の進展に伴って、自動音声翻訳が注目を集めている。
自動音声翻訳は、入力された人の音声を、音声認識し、テキスト化し、その入力された言語のテキストを目的言語のテキストに自動翻訳し、さらに、翻訳されたテキストを目的言語の音声に変換して、出力するシステムである。
このような自動音声翻訳を利用した技術としては、例えば、特許文献1がある。特許文献1には、携帯端末から受け付けた音声データから緊急度及び言語種別を判定し、緊急度が高い場合には各種言語に精通した通訳者を選択し、緊急度が低い場合には機械翻訳サーバに機械翻訳させる技術が開示されている。
特開2016−66983号公報
自動音声翻訳により、音声翻訳をする際には、予め入力言語(原文言語)と出力言語(訳文言語)を指定する必要がある。上記特許文献1のように、スマートフォンなどの携帯端末を使用する場合は、画面をタップすることで言語指定をすることができる。しかしながら、一般の固定電話機の場合は、同じ方法での指定ができないという問題点がある。
また、対面音声通訳において、1台の電話機を交互に受け渡しながら、自動音声翻訳システムを利用して、相手の発話を翻訳した音声を聞く応用が考えられる。このような場合には、電話機の受け渡しタイミングのばらつきにより出力音声の冒頭が聞こえないおそれがあるという問題点がある。
さらに、言語種別の特定に関して言えば、特許文献1記載の通訳サービスシステムにおいては、「英語」「フランス語」などのキーワードを言語種別ごとに用意して、警備員又は外国人がそのキーワードを発話することによって、外国人の発話言語を特定する(段落番号0059)。
しかしながら、特許文献1記載による言語種別の判定は、迂遠であり、処理系にも負荷がかかり、コミュニケーションのための余計な時間がかかって、対面音声通訳において、1台の電話機を交互に受け渡す応用においては、円滑に受け渡すことができないという問題点がある。
本発明は、上記問題点を解決するためになされたもので、その目的は、電話機と自動音声翻訳システムが電話回線により、音声をやり取りする場合に、簡単な指定で言語種別の指定が行なえ、対面音声通訳において、1台の電話機を交互に受け渡す場合に、円滑に受け渡しが行なえ、受話器を受け渡された者が適切な音声で聞くことができ、音声の聞き逃しも防止できるコミュニケーションシステム及びそのコミュニケーション方法を提供することにある。
本発明に係るコミュニケーションシステムは、電話端末とコミュニケーションサーバが電話回線により接続されたコミュニケーションシステムであって、電話端末は、コミュニケーションサーバに通話を送受信する手段と、キー装置からの入力によりDTMF(Dual-Tone Multi-Frequency)信号を生成し、コミュニケーションサーバに送信する手段とを有し、コミュニケーションサーバは、第一の言語から第二の言語に音声翻訳をする言語処理部と、電話回線により送信されてくる音声信号に係る第一の言語の音声を、第二の言語に音声翻訳して、電話端末に送信する手段と、話者の言語の音声データと、その音声データを翻訳した翻訳音声の音声データを格納する通話データテーブルとを有するものである。そして、コミュニケーションサーバは、電話端末から第一のDTMF信号を受信したときに、他の話者により操作されて送信される第二のDTMF信号を受信するまでは、第一のDTMF信号受信それ以降に受信する音声信号に係る音声を、第一のDTMF信号の表す言語の音声データとして、通話データテーブルに格納し、第二のDTMF信号が送信されてきた後に、第一のDTMF信号の表す言語の音声データを、第二のDTMF信号が表す言語に翻訳した翻訳音声の音声データに係る音声信号を、電話端末に送信する。
本発明によれば、電話機と自動音声翻訳システムが電話回線により、音声をやり取りする場合に、簡単な指定で言語種別の指定が行なえ、対面音声通訳において、1台の電話機を交互に受け渡す場合に、円滑に受け渡しが行なえ、受話器を受け渡された者が適切な音声で聞くことができ、音声の聞き逃しも防止できるコミュニケーションシステム及びそのコミュニケーション方法を提供することができる。
コミュニケーションシステムの全体構成図である。 電話端末の機能構成図である。 コミュニケーションサーバの構成図である。 コミュニケーション制御部が認識する状態を説明する図である。 コミュニケーション制御部が受け付けるイベントを説明する図である。 イベントによる状態遷移を状態遷移図である。 状態と発生するイベントによる処理マトリックスを示す図である。 ボタン対応テーブル310の仕様を説明する図である。 通話状態テーブル320の仕様を説明する図である。 通話データテーブル330の仕様を説明する図である。 コミュニケーションシステムの各々のコンポーネント間での受け渡しと、システムの状態を示す概要シーケンス図である(その一)。 コミュニケーションシステムの各々のコンポーネント間での受け渡しと、システムの状態を示す概要シーケンス図である(その二)。 コミュニケーションサーバの処理を示す概要フローチャートである。 音声解析処理を示すフローチャートである。 リピート処理を示すフローチャートである。
以下、本発明に係る各実施形態を、図1ないし図13を用いて説明する。
先ず、図1及び図3を用いて、本発明の実施形態に係るコミュニケーションシステムの構成について説明する。
図1は、コミュニケーションシステムの全体構成図である。
図2は、電話端末の機能構成図である。
図3は、コミュニケーションサーバの構成図である。
本実施形態のコミュニケーションシステムは、図1に示されるように、電話端末10とコミュニケーションサーバ100が、電話回線5により接続された形態である。
電話回線5は、公衆回線でもよいし、企業内のPBX(Private Branch eXchange)により回線交換される構内回線でもよい。また、アナログ回線でもよいし、デジタル回線でもよい。
電話端末10は、DTMF(Dual-Tone Multi-Frequency)信号(いわゆるプッシュ信号)を発信可能な電話機である必要がある。DTMF信号とは、0から9までの数字と、*、#、A、B、C、Dの記号の計16種類の符号を、低群・高群の二つの音声周波数帯域の合成信号音で送信する信号である。また、電話端末10に接続されている回線は、DTMF信号を送信可能な回線とする。
電話端末10は、図2に示されるように、受話器11、送話器12、キー装置13、音声信号変換部14、接続制御部15、DTM信号生成部16からなる。受話器11、送話器12は、それぞれ受話のためのスピーカ、送話のためのマイクである。音声信号変換部14は、電話回線からの電気信号を音声に変換し、送話器12から音声を電気信号に変換する部分である。接続制御部15は、着呼、発呼を制御して、電話端末10と回線の接続、切断を行う部分である。DTM信号生成部16は、キー装置13の入力にしたがって、所定の周波数のDTM信号を生成する装置である。
電話端末10を利用する者は、キー装置13から言語ごとに定められた規約のボタンにしたがって、自分の言語種別を入力できる。例えば、[#][1]は、日本語、[#][2]は、英語、[#][3]は、中国語のごとくである。電話端末10は、それをDTM信号に変換し、電話端末10の利用者の言語を判定するための信号として、電話回線5を介して、コミュニケーションサーバ100に送信する。
コミュニケーションサーバ100は、電話回線5を介して送信される音声信号をデコードして、音声に変換し、それを指定された言語(以下、「翻訳言語」という)に係る音声に翻訳し(以下、翻訳された音声を「翻訳音声」という)、その音声をエンコードして、電話回線5を介して電話端末10に送信する装置である。
コミュニケーションサーバ100は、図3に示されるように、受信制御部110、送信制御部120、コミュニケーション制御部150、データベースアクセス部160、言語処理部200、データベース300からなる。
受信制御部110は、図3に示されるように、デコーダ111、制御信号解析部112、DTMF信号解析部113、音声解析部114、通話データ出力部115からなり、受信時の音声信号、DTMF信号の判別とデコード、受信した情報のデータベースへの書込みを行う部分である。受信制御部110は、電話端末10からの制御信号、音声信号、又は、DTMF信号を電話回線を介して受信し、デコーダ111によりデコードする。そして、制御信号かDTMF信号か、あるいは、音声かを判別し、制御信号の場合は、呼の呼び出しを認識して、通話データ出力部115に報告する。DTMF信号の場合は、DTMF信号解析部113が、DTMF信号に含まれている周波数を解析し、どのボタンが電話端末10で押下されたかの認識を行ない、通話データ出力部115に報告する。音声の場合は、音声解析部114が、一文を判断して、その音声データを、通話データ出力部115に報告する。
通話データ出力部115は、新たな呼の呼び出しがあったときには、新たな呼IDを生成する。また、ボタン対応テーブル310を参照して、押されたボタンに対応する話者の言語IDを取得する。そして、音声解析部114から音声が出力されたときには、呼ごとに異なる呼ID、話者が切り替わるごとに更新されるグループID、話者発話の一文ごとに更新されるシーケンシャルID、話者の音声かテキストか翻訳した音声かテキストかを示すフラグである種別、音声の言語を表す言語IDの情報を付加したデータを作成し、データベースアクセス部160を介して、通話データテーブル330に保存する。また、一文終了後、次の一文を受け付けるためにシーケンシャルIDを更新する。呼ID、グループID、種別、言語ID、シーケンシャルIDについては、後に、通話データテーブル330の説明の所でも説明する。
送信制御部120は、図3に示されるように、エンコーダ121、通話データ入力部122からなり、翻訳された音声を音声信号として、電話端末10に送り返すための制御をする部分である。送信制御部120は、コミュニケーション制御部150の指示にしたがって、通話データテーブル330から音声データを取り出し、電話端末10に送り返す制御を行う。すなわち、コミュニケーション制御部150が指示するタイミングで、送信制御部120の通話データ入力部122は、指定された言語の音声データのうち、未送信の音声データをグループID、シーケンシャルIDなどの情報に基づいて、データベースアクセス部160を介して通話データテーブル330から取得し、エンコーダ121よりエンコードして、電話端末10に送信する。
コミュニケーション制御部150は、受信制御部110から送られてくるDTMF信号の解析情報と通話データテーブル330に格納された状態にしたがって、言語処理部200、送信制御部120に指示を与える部分である。
言語処理部200は、図3に示されるように、音声認識部210、翻訳エンジン220、音声合成部230からなり、音声を入力して、指定された言語にしたがって、翻訳し、翻訳言語の音声として、出力する部分である。音声認識部210は、指定された言語種別を認識して、テキスト化する。翻訳エンジン220では、翻訳辞書に基づいて、ある言語(例えば、日本語)を他の言語(例えば、英語)に翻訳する。音声合成部230は、翻訳言語のテキストを音声データに変換し、一つの読み取れる音声データとして出力する。
データベースアクセス部160は、他のコンポーネントからのデータベース300の読み出し、書込みの機能を提供する部分である。
データベース300は、ボタン対応テーブル310、通話状態テーブル320、通話データテーブル330を保持している。なお、各々のテーブルについては、後に詳説する。
コミュニケーションサーバ100の各々の機能は、FPGA(field-programmable gate array)のようなハードウェアロジックで実装してもよいし、メモリ上にロードされ、OS上で動作するプログラムとして、汎用のCPU(Central Processing Unit)がそのプログラムを実行することにより機能が実現されるものであってもよい。
次に、図4Aないし図6を用いて、コミュニケーションサーバ100上で扱う状態とイベント、及び、その関係について説明する。
図4Aは、コミュニケーション制御部が認識する状態を説明する図である。
図4Bは、コミュニケーション制御部が受け付けるイベントを説明する図である。
図5は、イベントによる状態遷移を示す状態遷移図である。
図6は、状態と発生するイベントによる処理マトリックスを示す図である。
コミュニケーション制御部150は、「言語未選択」、「受付」、「翻訳中」、「翻訳音声送信中」の四つの状態を認識する。各々の状態の意味は、図4Aに示す如くである。なお、後の図では、状態を説明するのに、この番号を用いることにする。
また、コミュニケーション制御部150は、「DTMF信号(言語選択)」、「音声」、「翻訳完了」、「翻訳音声送信終了」、「DTMF信号(リピート再生)」の五つのイベントを受け付ける。各々のイベントの意味は、図4Bに示すごとくである。
上で説明した状態は、イベントの発生により遷移する。図5は、その状態とそのときに発生する主要なものを示したものである。例えば、「2:受付」の状態ときに、「DTMF信号(言語選択)」イベントが発生したときには、「3:翻訳中」に遷移し、「DTMF信号(リピート)」イベントが発生したときには、「4:翻訳音声送信中」に遷移し、「音声」イベントが発生したときには、「2:受付」の状態にとどまることを意味している。
また、図6に示される状態と発生するイベントによる処理マトリックスは、状態をカラム、イベントをロウで表現したマトリックスであり、カラムで表現した状態のときに、ロウで表現したイベントが発生したときには、その交点にあたる部分が適用されることを示している。交点の要素は、「状態(付随処理)」のように表現されており、カラムで表現した状態のときに、ロウで表現したイベントが発生したときに、その状態に遷移し、付随処理がその遷移にしたがって開始又は継続されることを示している。
例えば、「2:受付」の状態ときに、「DTMF信号(言語選択)」イベントが発生したときには、「3:翻訳中」に遷移し、「翻訳開始」処理がされ、「DTMF信号(リピート)」イベントが発生したときには、「4:翻訳音声送信中」に遷移し、「音声送信」が開始され、「音声」イベントが発生したときには、「2:受付」の状態にとどまり、「音声データ蓄積」処理が継続されることを示している。
なお、図6の処理マトリックスでは、状態遷移図に示さなかった例外的な状態とイベントの関係も示されているが、後の処理の説明では、主に、図5の状態遷移図に示された状態とそのときに発生するイベントの例を取り上げることにする。
次に、図7ないし図9を用いてコミュニケーションシステムで用いられるデータ構造について説明する。
図7は、ボタン対応テーブル310の仕様を説明する図である。
図8は、通話状態テーブル320の仕様を説明する図である。
図9は、通話データテーブル330の仕様を説明する図である。
ボタン対応テーブル310は、図7に示されるように、ボタン♯1、言語又は機能♯2、言語ID♯3のフィールドを有し、DTMF信号より割り出されたユーザが押下したボタンと各種情報を結びつけるテーブルである。ボタン♯1のフィールドは、DTMF信号を解析して得られたユーザがDTMF信号発生の際に、押下したボタンを格納する。言語又は機能♯2のフィールドは、ボタン♯1の値に対応する言語又は機能を格納する。例えば、[♯][1]は、日本語、[♯][*]は、リピートの如くである。言語ID♯3のフィールドは、各言語に対応する言語IDを格納する。
通話状態テーブル320は、図8に示されるように、呼ID♯1、状態♯2、言語ID♯3のフィールドを有し、コミュニケーション制御部150が参照する処理の状態を格納するテーブルである。呼ID♯1のフィールドは、呼ごとに一意的に付与される呼の識別子を格納する。状態♯2のフィールドは、呼IDにより識別される呼の現在の状態を表す識別子を格納する。状態の意味は、図4Aで説明した通りである。言語ID♯3のフィールドは、現在選択されている言語の言語IDを格納する。
通話データテーブル330は、図9に示されるように、呼ID♯1のフィールドと、m(mは、0以上の整数)個のテキスト♯10、m個の音声♯20の構造体を有し、呼IDごとに、通話に関する情報を格納するテーブルである。呼ID♯1のフィールドは、呼ごとに一意的に付与される呼の識別子を格納する。
テキスト♯10の構造体は、種別♯11、グループID♯12、言語ID♯13、シーケンシャルID♯14、テキストデータ♯15のメンバを有し、話者の認識テキスト、その翻訳後のテキストに関する情報を格納するものである。種別♯11は、そのテキストが話者の認識テキスト、その翻訳後のテキストかの別を示す識別子が格納する。グループID♯12は、話者の交代ごとに一意的に付与されるグループIDを格納する。言語ID♯13は、そのテキストの言語の言語IDを格納する。シーケンシャルID♯14は、音声データの分割単位ごとにシーケンシャルに付与されるシーケンシャルIDを格納する。テキストデータ♯15は、テキストのコードデータを格納する。
音声♯20の構造体は、グループID♯21、種別♯22、言語ID♯23、シーケンシャルID♯24、音声データ♯25のメンバを有し、話者の音声データ、その翻訳後の合成音声のデータに関する情報を格納するものである。
グループID♯21、種別♯22、言語ID♯23、シーケンシャルID♯24、テキストデータ♯25の内容は、それぞれ、テキストデータ♯10の構造体のグループID♯11、種別♯12、言語ID♯13、シーケンシャルID♯14と同様である。音声データ♯25は、音声データのコードデータを格納する。
次に、図10A、図10Bを用いて、コミュニケーションシステムの概要動作について説明する。
図10A、図10Bは、コミュニケーションシステムの各々のコンポーネント間での受け渡しと、システムの状態を示す概要シーケンス図である。
先ず、話者A(日本語話者)(SP1)が、電話端末10のボタン([#][1])を押し、コミュニケーションサーバ100側にDTMF信号を送信する(A01)。このときの状態は、言語未選択状態(状態=1)であり、通話状態テーブル320の値は、呼ID=1、状態=1、言語ID=0(T01)である(S01、T01)。なお、ここでは、A01の前に、電話端末10と、コミュニケーションサーバ100の呼は、接続されており、既に、呼IDが割振られたものとしている。また、通話状態テーブル320と通話データテーブル330の値は、説明に必要なもののみピックアップして、図示することにする。
コミュニケーションサーバ100のコミュニケーション制御部150は、DTMF信号を受けて、状態と言語を更新する(A20、(状態=2(受付)、言語ID=1(日本語):T02))。
システムの状態は、DTMF信号(言語選択)イベントを受けて、受付(状態=2)に遷移する(S02)。
次に、電話端末10から話者Aの音声データ(日本語)が送信されてきたものとする(A02)。このとき、通話データテーブル330の音声♯20の構造体に、値が設定される(A21、グループID=1、種別=0(話者)、言語ID=1、シーケンシャルID=1、音声データ:T03)。
次に、日本語の話者Aから英語の話者Bに電話が受け渡されたものとする(SP1→SP2)。
そして、話者B(英語話者)(SP2)が、電話端末10のボタン([#][2])を押し、コミュニケーションサーバ100側にDTMF信号を送信する(A03)。
コミュニケーションサーバ100のコミュニケーション制御部150は、DTMF信号を受けて、状態と言語を更新する(A22、(状態=3(翻訳中)、言語ID=2(英語):T04))。
そして、日本語から英語の翻訳が開始され、翻訳中状態(状態=3)になる(S03)。
言語処理部200は、コミュニケーション制御部150からの指示を受け、通話データテーブル330の音声データを読み込み、翻訳して、翻訳音声を新しい構造体データとして書き込み、翻訳が完了すると、コミュニケーション制御部150は、通話状態テーブル320の状態を翻訳音声送信中(状態=4)に書き換える(A23、A24、T05、S04)。
次に、送信制御部120は、翻訳された音声を取り出して(A25)、話者Aの音声の翻訳結果(日本語→英語)として、電話端末10に送信する(A04)。
そして、翻訳した音声の送信が完了すると、コミュニケーション制御部150は、通話状態テーブル320の状態を、受付状態(状態=2)にする(A26、S05)。
ここで、話者Bが、電話により伝達された音声を聞きもらした、あるいは、理解しがたいなどと感じて、もう一度聞きたいという意思をもったとする。このときには、話者Bは、電話端末10のキー装置13を操作して、リピートを指示するボタン([#][*])を押下する。これにより、電話端末10からコミュニケーションサーバ100に、リピート再生を意味するDTMF信号が伝えられる(A05)。
そして、コミュニケーション制御部150は、通話状態テーブル320の状態を、翻訳音声送信中状態(状態=4)にする(A27、S06)。
次に、送信制御部120は、コミュニケーション制御部150の指示にしたがい、翻訳された音声データを取り出して(A28)、話者Aの音声の翻訳結果(日本語→英語)として、再度、電話端末10に送信する(A06)。
そして、2回目の翻訳した音声の送信が完了すると、コミュニケーション制御部150は、通話状態テーブル320の状態を、受付状態(状態=2)にする(A29、S07)。
次に、話者Bが話して、電話端末10から音声(英語)が伝えられたものとする(A07、A08)。
それにより、順次、通話データテーブル330に、音声データが書き込まれる(A30、T09、A31、T10)。
次に、英語の話者Bから日本語の話者Aに電話が受け渡されたものとする(SP2→SP3)。
そして、話者A(日本語話者)(SP3)が、電話端末10のボタン([#][1])を押し、コミュニケーションサーバ100側にDTMF信号を送信する(図10BのA09)。
コミュニケーションサーバ100のコミュニケーション制御部150は、DTMF信号を受けて、状態と言語を更新する(A32、(状態=3(翻訳中)、言語ID=1(日本語):T11))。
そして、英語から日本語の翻訳が開始され、翻訳中状態(状態=3)になる(S08)。
言語処理部200は、コミュニケーション制御部150からの指示を受け、通話データテーブル330の音声データを読み込み、翻訳して、翻訳音声を新しい構造体データとして書き込み、翻訳が完了すると、コミュニケーション制御部150は、通話状態テーブル320の状態を翻訳音声送信中(状態=4)に書き換える(A33、A34、T12、S09)。
次に、送信制御部120は、翻訳された音声データを、順次取り出して(A35)、話者Bの音声の翻訳結果(英語→日本語)として、電話端末10に送信する(A10、A11)。
そして、翻訳した音声の送信が完了すると、コミュニケーション制御部150は、通話状態テーブル320の状態を、受付状態(状態=2)にする(A36、S10)。
次に、話者Aが話して、電話端末10から音声(日本語)が伝えられたものとする(A12)。
それにより、通話データテーブル330に、音声データが書き込まれる(A37、T14)。
以下は、通話終了まで同様のシークエンスが繰り返される。
次に、図11ないし図13を用いて、コミュニケーションシステムの処理について説明する。
図11は、コミュニケーションサーバの処理を示す概要フローチャートである。
図12は、音声解析処理を示すフローチャートである。
図13は、リピート処理を示すフローチャートである。
先ず、コミュニケーションサーバ100は、電話端末10から電話回線5を介して信号を受け、受信制御部110のデコーダ111は、送信された信号を解析し(S100)、制御信号か、DTMF信号か、音声信号かを判別し、その結果にしたがって、制御信号解析部112、DTMF信号解析部113、音声解析部114に振り分ける(S101)。
制御信号が、発呼信号のときには、受信制御部110の制御信号解析部112は、通話データ出力部115に連絡し、呼IDを設定する(S130)。
制御信号が、DTMF信号のときには、受信制御部110のDTMF信号解析部113は、その解析情報を通信データ出力部115に連絡し、通信データ出力部115は、DTMF信号が、ボタン対応テーブル310により必要な言語、機能の情報を取り出す(S102)。
制御信号が、音声信号のときには、音声解析処理を行う(S150)。なお、音声解析処理については、後に、図12のフローチャートにより後に詳述する。
制御信号が、DTMF信号のときに、DTMF信号の送信が初回処理のときには(S103:Yes)、通話データ出力部115は、グループIDの値を初期化し(S140)、言語IDを通話データテーブル330に書き込む(S141)。
DTMF信号の送信が初回ではなく(S103:No)、そのDTMF信号がリピートを表す信号のときは(S104:Yes)、DTMF信号解析部113は、コミュニケーション制御部150に連絡する。送信制御部120は、コミュニケーション制御部150の指示にしたがって、リピート処理を行ない(S160)、リピート処理で取り出した音声データを、送信制御部120のエンコーダ121が送信信号にエンコードして、電話端末10に送信する。なお、リピート処理については、図13のフローチャートにより後に詳述する。
そのDTMF信号がリピートを表す信号ではないときは(S104:No)、指定された言語の言語IDに設定を切り換える(S105)。
呼ID、言語ID、グループID、種別、シーケンシャルIDなどのパラメタが、コミュニケーション制御部150経由で、通話データ出力部115から言語処理部200に渡され、言語処理部200は、コミュニケーション制御部150の指示に従い、通話データテーブル330から該当する音声データを取得し(S106)、翻訳処理を行う(S107)。また、言語IDを切り換え、種別を翻訳音声として、翻訳音声の音声データを通話データテーブル330に格納する(S108)。なお、音声データを認識したテキスト、翻訳テキストも通話データテーブル330に書き込まれる。
そして、全てのシーケンシャルIDの音声データ(一文の音声データ)を翻訳済みのときには(S109:Yes)、次のS110のステップに行き、翻訳済みでないときには(S109:No)、シーケンシャルIDを更新し(S113)、S106に戻り、処理を繰り返す。
グループIDに属する全ての音声データを翻訳したときには、コミュニケーション制御部150から指示を受け、送信制御部120の通話データ入力部122は、通話データテーブル330から翻訳済みかつ未送信の翻訳音声の音声データを取り出し(S110)、かつ、受信制御部110の通話データ出力部115は、グループIDを更新する(S111)。
そして、送信制御部120のエンコーダが、S110で取り出した音声データを送信信号にエンコードして(S112)、電話端末10に送信する。
次に、図12を用いてS150の音声解析処理について説明する。
先ず、受信制御部110の通話データ出力部115は、シーケンシャルIDを初期化する(S200)。
次に、音声データの有無を判定し(S201)、音声データがないときには(S201:No)、処理を終了し、音声データがあるときには(S201:Yes)、次に、S202判定に行く(S202)。
音声データに区切り(無音部分)があるときには(S202:Yes)、呼ID、言語ID、グループID、シーケンシャルIDに基づいて、通話データテーブル330に、その区切りの部分までの音声データを格納し(S203)、シーケンシャルIDを更新し(S204)、S201の判断に戻る。
音声データに区切りがないときには(S202:No)、区切り判断のポインタをインクリメントし(S205)、S202の判断に戻る。
次に、図13を用いてS160のリピート処理について説明する。
先ず、送信制御部120の通話データ入力部は、コミュニケーション制御部150からの指示を受け、呼ID、言語ID、グループID、種別、シーケンシャルIDに基づいて、通話データテーブル330から、直前に送信した音声データを取得する(S300)。
そして、そのグループID内の全てのシーケンシャルIDの音声データを取得したときには(S301:Yes)、処理を終了し、取得していないシーケンシャルIDの音声データがあるときには(S301:No)、シーケンシャルIDを更新し(S302)、S300に戻る。
本実施形態のコミュニケーションシステムは、特殊な信号を生成する装置ではなく、DTMF信号をサポートしている全ての電話端末で利用可能であるという特徴がある。また、電話のボタンをプッシュすることは、広く普及している方法なので、自動翻訳を利用した経験のない者でも、とまどいなく簡便に利用できる
さらに、話者が言語を明確に指定するので、翻訳側の装置の負荷が少なく、判定も短時間で行なえるという特徴がある。
また、対面音声通訳において、1台の電話機を交互に受け渡しながら、自動翻訳の音声を聞く場合に、利用者にとって、自分の言語種別をキーにより指定した後に、相手の翻訳音声が流されるので、聞き逃しを防止することができるという特徴がある。
5…電話回線
10…電話端末
11…受話器
12…送話器
13…キー装置
14…音声信号変換部
15…接続制御部
16…DTM信号生成部
100…コミュニケーションサーバ
110…受信制御部
120…送信制御部
150…コミュニケーション制御部
160…データベースアクセス部
200…言語処理部
300…データベース
310…ボタン対応テーブル
320…通話状態テーブル
330…通話データテーブル

Claims (4)

  1. 電話端末とコミュニケーションサーバが電話回線により接続されたコミュニケーションシステムであって、
    前記電話端末は、前記コミュニケーションサーバに通話を送受信する手段と、キー装置からの入力によりDTMF(Dual-Tone Multi-Frequency)信号を生成し、前記電話回線を介して前記コミュニケーションサーバに送信する手段とを有し、
    前記コミュニケーションサーバは、第一の言語から第二の言語に音声翻訳をする言語処理部と、前記電話回線により送信されてくる音声信号に係る第一の言語の音声を、第二の言語に音声翻訳して、前記電話端末に送信する手段と、話者の言語の音声データと、その音声データを翻訳した翻訳音声の音声データを格納する通話データテーブルとを有し、
    前記コミュニケーションサーバは、前記電話端末から第一のDTMF信号を受信したときに、他の話者により操作されて送信される第二のDTMF信号を受信するまでは、前記第一のDTMF信号受信以降に受信する音声信号に係る音声を、前記第一のDTMF信号の表す言語の音声データとして、前記通話データテーブルに格納し、
    前記第二のDTMF信号が送信されてきた後に、前記第一のDTMF信号の表す言語の音声データを、前記第二のDTMF信号が表す言語に翻訳した翻訳音声の音声データに係る音声信号を、前記電話端末に送信することを特徴するコミュニケーションシステム。
  2. 前記コミュニケーションサーバは、リピート機能を表すDTMF信号を受信したとき、直前のDTMF信号受信以降に前記電話端末に送信された音声データに係る音声信号を再度送信することを特徴とする請求項1記載のコミュニケーションシステム。
  3. 電話端末とコミュニケーションサーバが電話回線により接続されたコミュニケーションシステムにおけるコミュニケーション方法であって、
    前記電話端末が、前記コミュニケーションサーバに通話を送受信するステップと、
    前記電話端末が、キー装置からの入力によりDTMF(Dual-Tone Multi-Frequency)信号を生成し、前記電話回線を介して前記コミュニケーションサーバに送信するステップと、
    前記コミュニケーションサーバが、前記電話端末から第一のDTMF信号を受信したときに、他の話者により操作されて送信される第二のDTMF信号を受信するまでは、前記第一のDTMF信号受信以降に受信する音声信号に係る音声を、前記第一のDTMF信号の表す言語の音声データとして、通話データテーブルに格納するステップと、
    前記コミュニケーションサーバが、前記第二のDTMF信号が送信されてきた後に、前記第一のDTMF信号の表す言語の音声データを、前記第二のDTMF信号が表す言語に翻訳した翻訳音声の音声データに係る音声信号を、前記電話端末に送信するステップとを有することを特徴するコミュニケーション方法。
  4. 前記コミュニケーションサーバが、リピート機能を表すDTMF信号を受信したとき、直前のDTMF信号受信以降に前記電話端末に送信された音声データに係る音声信号を再度送信するステップを有することを特徴とする請求項3記載のコミュニケーション方法。
JP2016222505A 2016-11-15 2016-11-15 コミュニケーションシステム及びそのコミュニケーション方法 Expired - Fee Related JP6342972B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016222505A JP6342972B2 (ja) 2016-11-15 2016-11-15 コミュニケーションシステム及びそのコミュニケーション方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016222505A JP6342972B2 (ja) 2016-11-15 2016-11-15 コミュニケーションシステム及びそのコミュニケーション方法

Publications (2)

Publication Number Publication Date
JP2018082269A JP2018082269A (ja) 2018-05-24
JP6342972B2 true JP6342972B2 (ja) 2018-06-13

Family

ID=62199107

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016222505A Expired - Fee Related JP6342972B2 (ja) 2016-11-15 2016-11-15 コミュニケーションシステム及びそのコミュニケーション方法

Country Status (1)

Country Link
JP (1) JP6342972B2 (ja)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003022267A (ja) * 2001-07-06 2003-01-24 Sony Corp 自動翻訳システム、自動翻訳端末装置、自動翻訳提供装置、自動翻訳方法、プログラム及び記録媒体
JP2003141116A (ja) * 2001-10-29 2003-05-16 Nec System Technologies Ltd 翻訳システム、翻訳方法、および、翻訳プログラム
KR100485909B1 (ko) * 2002-11-06 2005-04-29 삼성전자주식회사 3자 통화 방식의 자동 통역 시스템 및 방법
JP2004179838A (ja) * 2002-11-26 2004-06-24 Sony Ericsson Mobilecommunications Japan Inc 携帯通信端末及び翻訳システム
JP5967569B2 (ja) * 2012-07-09 2016-08-10 国立研究開発法人情報通信研究機構 音声処理システム

Also Published As

Publication number Publication date
JP2018082269A (ja) 2018-05-24

Similar Documents

Publication Publication Date Title
US7519359B2 (en) Voice tagging of automated menu location
CN1333385C (zh) 用于通信***的语音浏览器启用器
US6490343B2 (en) System and method of non-spoken telephone communication
CN103139404A (zh) 基于语音识别生成交互式语音响应显示菜单的***和方法
US20050124322A1 (en) System for communication information from a server via a mobile communication device
US11978443B2 (en) Conversation assistance device, conversation assistance method, and program
JP3820245B2 (ja) 3者通話方式の自動通訳システム及び方法
KR101367722B1 (ko) 휴대단말기의 통화 서비스 방법
US8724780B2 (en) Voice interaction method of mobile terminal based on voiceXML and mobile terminal
KR100544810B1 (ko) 무선 휴대 단말 통신 시스템
CN111554280A (zh) 对利用人工智能的翻译内容和口译专家的口译内容进行混合的实时口译服务***
US7106836B2 (en) System for converting text data into speech output
US7805145B2 (en) Information search system using radio portable terminal
JP6342972B2 (ja) コミュニケーションシステム及びそのコミュニケーション方法
JP5175231B2 (ja) 通話システム、通話方法、通話プログラム、電話端末及び交換機
KR100370973B1 (ko) 통화중 음성에 배경음악을 합성해서 전송하는 방법 및 그장치
CN113053389A (zh) 一键切换语种的语音交互***、方法和电子设备
US20040049386A1 (en) Speech recognition method and system for a small device
WO2005101801A1 (ja) 通信機器およびプログラム実行方法
KR20020048669A (ko) 음성 포탈서비스를 위한 보이스엑스엠엘 텔레게이트웨이시스템
EP3035207A1 (en) Speech translation device
KR100642577B1 (ko) 음성 메시지를 문자 메시지로 변환하여 전송하는 방법 및장치
KR20090032053A (ko) 음성인식을 이용한 개인전화번호부 데이터베이스 구축방법과, 그를 이용한 자동 전화연결 서비스 방법 및 시스템
KR100214085B1 (ko) 음성 다이얼링 시스템에서 다수의 후보단어를 이용한 음성 다이얼링 방법
JP3982307B2 (ja) 文字入力装置

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180508

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180517

R150 Certificate of patent or registration of utility model

Ref document number: 6342972

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees