JP6298806B2 - 音声翻訳システム及びその制御方法、並びに音声翻訳プログラム - Google Patents

音声翻訳システム及びその制御方法、並びに音声翻訳プログラム Download PDF

Info

Publication number
JP6298806B2
JP6298806B2 JP2015241459A JP2015241459A JP6298806B2 JP 6298806 B2 JP6298806 B2 JP 6298806B2 JP 2015241459 A JP2015241459 A JP 2015241459A JP 2015241459 A JP2015241459 A JP 2015241459A JP 6298806 B2 JP6298806 B2 JP 6298806B2
Authority
JP
Japan
Prior art keywords
speech
voice
unit
unrecognizable
content
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2015241459A
Other languages
English (en)
Other versions
JP2017107098A (ja
Inventor
知高 大越
知高 大越
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
RECRUIT LIFESTYLE CO., LTD.
Original Assignee
RECRUIT LIFESTYLE CO., LTD.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by RECRUIT LIFESTYLE CO., LTD. filed Critical RECRUIT LIFESTYLE CO., LTD.
Priority to JP2015241459A priority Critical patent/JP6298806B2/ja
Publication of JP2017107098A publication Critical patent/JP2017107098A/ja
Application granted granted Critical
Publication of JP6298806B2 publication Critical patent/JP6298806B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Description

本発明は、音声翻訳システム、音声翻訳方法、及び音声翻訳プログラムに関する。
一般に、音声翻訳システムにおいては、ある言語による音声を他の言語による音声に翻訳する際に、入力音声を認識するための音声認識エンジンが用いられる(例えば特許文献1及び2)。かかる音声認識エンジンでは、例えば、発話された音声が音響モデルのデータベースと照合されて「音」が「読み」に変換された後、その「読み」が言語モデルのデータベースと照合されて「文字」に変換され、更に単語の並びが調整され、必要に応じて一連のテキストとして表示される。音声翻訳システムでは、こうして認識されたある言語の入力音声が、翻訳エンジンで他の言語に翻訳され、その翻訳結果が音声合成エンジンにより出力音声に変換される。
特開2015−40946号公報 特開2011−22813号公報 特開2005−284880号公報
ところで、上記従来の音声翻訳システムでは、音声認識エンジンにおいて入力音声を誤認識すると、その誤った音声認識結果が翻訳されるため、その翻訳結果も誤ったものとなってしまう。かかる誤認識率を低くするための対策としては、音声認識処理の高精度化、認識対象単語の長大化(複数の単語を極力まとめて処理する)、発話者による音声の再入力又は音声認識結果の確認等が挙げられる。
しかし、音声認識処理の高精度化を行うには、多くの語彙を対象とした負荷の重い処理が必要となる結果、処理時間が増大してしまう傾向にあり、この場合、高速処理が可能なハードウェアを用いると、装置コストが増大してしまう。また、認識対象単語の長大化を行うと、複数の単語のまとまりが音声認識結果として出力されるので、その後の翻訳エンジンにおける取り扱いが複雑又は煩雑となり、翻訳処理に手間が掛ったり、翻訳精度が低下したりするおそれがある。さらに、発話者による音声の再入力又は音声認識結果の確認を求めると、そのためのメッセージの生成と表示といった処理が複雑化し、また、最終的な翻訳結果を取得するまでに時間を要することとなるので、ユーザ(利用者、発話者)の負担の増加や利便性の低下を招いてしまう。
そこで、本発明は、このような事情に鑑みてなされたものであり、音声認識ひいては音声翻訳の精度を簡易に向上させることができる音声翻訳システム、音声翻訳方法、及び音声翻訳プログラムを提供することを目的とする。
上記課題を解決するため、本発明者は、サンプリングデータの収集や試験データの分析及び解析を含む研究を鋭意実施してきた。その結果、通常の音声認識エンジンでは、例えば標準的な成人の音声データの分析結果に基づいて作成された音響モデル等が使用されることから、例えば高齢者や子供が発話したときの音声認識率が低い傾向にあることを見出し、本発明を完成するに至った。
すなわち、本発明の一態様による音声翻訳システムは、まず、発話者の音声を入力するための音声入力部と、音声入力部に入力された音声の内容を認識する音声認識部と、音声認識部で認識された内容を異なる言語の内容に翻訳する翻訳部と、翻訳部で翻訳された内容の音声を合成する音声合成部と、音声合成部で合成された音声を出力する音声出力部と、記憶部とを備える。そして、記憶部は、音声認識部で認識できなかった認識不可音声を、その認識不可音声の正しい認識内容とともに、音声データベースとして記憶する。また、音声認識部が、音声データベースを参照し、音声入力部に入力された他の発話者の音声を音声データベースに記憶された認識不可音声と照合し、その照合結果(例えば両者の一致度や類似度等)に基づいて、該音声の正しい認識内容を翻訳部に提供する音声照会処理を実行する。
なお、「認識不可音声の正しい認識内容」とは、換言すれば、その認識不可音声の正しい「読み」といえる。また、その取得方法としては、例えば、記憶部に記憶された認識不可音声の語彙の内容を、その発話者から聴取したり、他の人が実際に聞いて認識することにより、その正しい「読み」を判断したりといった例が挙げられる。後者の場合、例えば、何れの年齢や世代の人が聞いても認識することができない認識不可音声は、記憶部における記憶対象から除外しても構わない。さらに、「発話者」と「他の発話者」は、本発明を特定する便宜上、異なる用語として区別して用いているが、「発話者」と「他の発話者」が同一である場合も本発明の技術的範囲に含まれる。
また、音声認識部が照合処理を実行するタイミングは特に制限されず、例えば、他の発話者の音声を認識できなかったとき(音声認識を一旦実行した後)に、或いは、他の発話者の音声を認識前に、音声照会処理を実行してもよい。
また、本発明の一態様による音声翻訳システムは、発話者及び他の発話者の属性に関する情報を取得する情報取得部を更に備えてもよい。そして、記憶部は、認識不可音声、並びに、その正しい認識内容を、発話者の属性に関連付けて上記の音声データベースとして記憶してもよい。さらに、音声認識部は、他の発話者の属性を音声データベースに記憶された属性と照合し、その照合結果(例えば両者の一致度や類似度等)に基づいて、上記の音声照会処理を実行することができる。
具体的には、「属性」が、発話者の年齢若しくは年齢の範囲(世代ともいえる)又は性別である例が挙げられる。このとき、同じ「読み」の語彙であっても、例えば世代や性別によって抑揚や音調(音節音調、単語音調、句音調、文音調等)が異なる場合に対応した複数のデータレコードを音声データベースの一部として作成し、記憶部に記憶してもよい。また、「属性」に関する情報を取得する方法としては、ユーザ(利用者、発話者)が音声翻訳システムに係るサービスを使用する際、又は、音声翻訳プログラムであるアプリケーションを情報端末等のコンピュータにインストールして使用する際のユーザ情報の登録画面に記入してもらったり、音声翻訳システムを利用する際に属性に関する質問アンケートに回答してもらったりといった例が挙げられる。
或いは、本発明の一態様による音声翻訳システムは、発話者の音声を入力するための音声入力部と、音声入力部に入力された音声の内容を認識する音声認識部と、音声認識部で認識された内容を異なる言語の内容に翻訳する翻訳部と、翻訳部で翻訳された内容の音声を合成する音声合成部と、音声合成部で合成された音声を出力する音声出力部と、音声認識部で認識できなかった認識不可音声を記憶する記憶部と、音声認識部における入力された音声の認識に用いる第1の音響モデルに対して、認識不可音声を用いた適応処理を実施して第2の音響モデルを生成する音響モデル生成部を備える。なお、本態様による音声翻訳システムに、上述した音声データベース、及びそれを用いた音声照会処理を組み合わせてもよい。
この場合、音声翻訳システムが、発話者の属性に関する情報を取得する情報取得部を更に備え、音響モデル生成部は、発話者の属性、例えば、発話者の年齢若しくは年齢の範囲(世代)又は性別毎に第2の音響モデルを生成し、音声認識部が、他の発話者の属性に対応した第2の音響モデルを用いて、入力された音声の内容を認識するように構成してもよい。
また、本発明の一態様による音声入力部、音声認識部、翻訳部、音声出力部、及び記憶部を備える音声翻訳システムの制御方法は、以下の各ステップを有する。すなわち、当該方法は、音声入力部により、発話者の音声を入力するステップと、音声翻訳部により、音声入力部に入力された音声の内容を認識するステップと、翻訳部により、音声認識部で認識された内容を異なる言語の内容に翻訳するステップと、音声合成部により、翻訳部で翻訳された内容の音声を合成するステップと、音声出力部により、音声合成部で合成された音声を出力するステップと、記憶部により、音声認識部で認識できなかった(或いは、認識できない又は認識できないであろう;以下同様)音声(「認識不可音声」)を、それらの認識不可音声の正しい認識内容とともに、音声データベースとして記憶するステップとを有する。そして、音声の内容を認識するステップにおいては、音声データベースを参照し、音声入力部に入力された他の発話者の音声を音声データベースに記憶された認識不可音声と照合し、その照合結果に基づいて、音声の正しい認識内容を翻訳部に提供する音声照会処理を実行する。
また、本発明の一態様による音声翻訳プログラムは、コンピュータ(単数又は単一種に限られず、複数又は複数種でもよい;以下同様)を、発話者の音声を入力するための音声入力部、音声入力部に入力された音声の内容を認識する音声認識部、音声認識部で認識された内容を異なる言語の内容に翻訳する翻訳部、翻訳部で翻訳された内容の音声を合成する音声合成部と、音声合成部で合成された音声を出力する音声出力部、及び記憶部として機能させるものである。そして、当該プログラムは、記憶部に、音声認識部で認識できなかった認識不可音声を、認識不可音声の正しい認識内容とともに、音声データベースとして記憶させる。また、当該プログラムは、音声認識部に、音声データベースを参照し、音声入力部に入力された他の発話者の音声を音声データベースに記憶された認識不可音声と照合し、その照合結果に基づいて、その音声の正しい認識内容を翻訳部に提供する音声照会処理を実行させる。
本発明によれば、ユーザの発話した音声を、音声データベースに予め記憶された認識不可音声と照合することにより、通常の処理では認識できない音声の正しい認識内容を簡易に得ることができる。よって、音声認識自体の高精度化及び高速処理化に起因する装置コストの増大、各種処理の煩雑化や翻訳精度の低下、及び、ユーザの負担の増大や利便性の低下を招くことなく、音声認識の精度ひいては音声翻訳の精度を簡易に且つ効率的に向上させることが可能となる。
本発明による音声翻訳システムに係るネットワーク構成等の好適な一実施形態を概略的に示すシステムブロック図である。 本発明による音声翻訳システムにおけるユーザ者装置(情報端末)の構成の一例を概略的に示すシステムブロック図である。 本発明による音声翻訳システムにおけるサーバの構成の一例を概略的に示すシステムブロック図である。 本発明による音声翻訳システムにおける音声データベース構築を含む処理の一例を示すフローチャートである。 本発明による音声翻訳システムにおける音声照会を含む処理の一例を示すフローチャートである。 本発明による音声翻訳システムにおける音声照会を含む処理の他の一例を示すフローチャートである。 本発明による音声翻訳システムにおける音声データベース構築を含む処理の他の一例を示すフローチャートである。 本発明による音声翻訳システムにおける音声照会を含む処理の他の一例を示すフローチャートである。 本発明による音声翻訳システムにおける音声照会を含む処理の他の一例を示すフローチャートである。 本発明による音声翻訳システムにおける音響モデル生成(改良)を含む処理の一例を示すフローチャートである。
以下、本発明の実施の形態について詳細に説明する。なお、以下の実施の形態は、本発明を説明するための例示であり、本発明をその実施の形態のみに限定する趣旨ではない。また、本発明は、その要旨を逸脱しない限り、さまざまな変形が可能である。さらに、当業者であれば、以下に述べる各要素を均等なものに置換した実施の形態を採用することが可能であり、かかる実施の形態も本発明の範囲に含まれる。またさらに、必要に応じて示す上下左右等の位置関係は、特に断らない限り、図示の表示に基づくものとする。さらにまた、図面における各種の寸法比率は、その図示の比率に限定されるものではない。
(システム構成)
図1は、本発明による音声翻訳システムに係るネットワーク構成等の好適な一実施形態を概略的に示すシステムブロック図である。音声翻訳システム100は、ユーザ(発話者、他の発話者)が使用する情報端末10(ユーザ装置)にネットワークNを介して電子的に接続されるサーバ20を備える。
情報端末10は、例えば、タッチパネル等のユーザインターフェイス及び視認性が高いディスプレイを採用する。また、ここでの情報端末10は、ネットワークNとの通信機能を有するスマートフォンに代表される携帯電話を含む可搬型のタブレット型端末装置である。さらに、情報端末10は、プロセッサ11、記憶資源12、音声入出力デバイス13、通信インターフェイス14、入力デバイス15、表示デバイス16、及びカメラ17を備えている。また、情報端末10は、インストールされた音声翻訳アプリケーションソフト(本発明の一実施形態による音声翻訳プログラムの少なくとも一部)が動作することにより、本発明の一実施形態による音声翻訳システムの一部又は全部として機能するものである。
プロセッサ11は、算術論理演算ユニット及び各種レジスタ(プログラムカウンタ、データレジスタ、命令レジスタ、汎用レジスタ等)から構成される。また、プロセッサ11は、記憶資源12に格納されているプログラムP10である音声翻訳アプリケーションソフトを解釈及び実行し、各種処理を行う。このプログラムP10としての音声翻訳アプリケーションソフトは、例えばサーバ20からネットワークNを通じて配信可能なものであり、手動的に又は自動的にインストール及びアップデートされてもよい。
なお、ネットワークNは、例えば、有線ネットワーク(近距離通信網(LAN)、広域通信網(WAN)、又は付加価値通信網(VAN)等)と無線ネットワーク(移動通信網、衛星通信網、ブルートゥース(Bluetooth:登録商標)、WiFi(Wireless Fidelity)、HSDPA(High Speed Downlink Packet Access)等)が混在して構成される通信網である。
記憶資源12は、物理デバイス(例えば、半導体メモリ等のコンピュータ読み取り可能な記録媒体)の記憶領域が提供する論理デバイスであり、情報端末10の処理に用いられるオペレーティングシステムプログラム、ドライバプログラム、各種データ等を格納する。ドライバプログラムとしては、例えば、音声入出力デバイス13を制御するための入出力デバイスドライバプログラム、入力デバイス15を制御するための入力デバイスドライバプログラム、表示デバイス16を制御するための出力デバイスドライバプログラム等が挙げられる。さらに、音声入出力デバイス13は、例えば、一般的なマイクロフォン、及びサウンドデータを再生可能なサウンドプレイヤである。
通信インターフェイス14は、例えばサーバ20との接続インターフェイスを提供するものであり、無線通信インターフェイス及び/又は有線通信インターフェイスから構成される。また、入力デバイス15は、例えば、表示デバイス16に表示されるアイコン、ボタン、仮想キーボード等のタップ動作による入力操作を受け付けるインターフェイスを提供するものであり、タッチパネルの他、情報端末10に外付けされる各種入力装置を例示することができる。
表示デバイス16は、画像表示インターフェイスとして各種の情報をユーザや、必要に応じて会話の相手方に提供するものであり、例えば、有機ELディスプレイ、液晶ディスプレイ、CRTディスプレイ等が挙げられる。また、カメラ17は、種々の被写体の静止画や動画を撮像するためのものである。
サーバ20は、例えば、演算処理能力の高いホストコンピュータによって構成され、そのホストコンピュータにおいて所定のサーバ用プログラムが動作することにより、サーバ機能を発現するものであり、例えば、音声認識サーバ、翻訳サーバ、及び音声合成サーバとして機能する単数又は複数のホストコンピュータから構成される(図示においては単数で示すが、これに限定されない)。そして、各サーバ20は、プロセッサ21、通信インターフェイス22、及び記憶資源23(記憶部)を備える。
プロセッサ21は、算術演算、論理演算、ビット演算等を処理する算術論理演算ユニット及び各種レジスタ(プログラムカウンタ、データレジスタ、命令レジスタ、汎用レジスタ等)から構成され、記憶資源23に格納されているプログラムP20を解釈及び実行し、所定の演算処理結果を出力する。また、通信インターフェイス22は、ネットワークNを介して情報端末10に接続するためのハードウェアモジュールであり、例えば、ISDNモデム、ADSLモデム、ケーブルモデム、光モデム、ソフトモデム等の変調復調装置である。
記憶資源23は、例えば、物理デバイス(ディスクドライブ又は半導体メモリ等のコンピュータ読み取り可能な記録媒体等)の記憶領域が提供する論理デバイスであり、それぞれ単数又は複数の、プログラムP20、各種モジュールL20、各種データベースD20、及び各種モデルM20が格納されている。
プログラムP10は、サーバ20のメインプログラムである上述したサーバ用プログラム等である。また、各種モジュールL20は、情報端末10から送信されてくる要求及び情報に係る一連の情報処理を行うため、プログラムP10の動作中に適宜呼び出されて実行されるソフトウェアモジュール(モジュール化されたサブプログラム)である。かかるモジュールL20としては、音声認識モジュール、翻訳モジュール、音声合成モジュール等が挙げられる。
また、各種データベースD20としては、音声翻訳処理のために必要な各種コーパス(例えば、日本語と英語の音声翻訳の場合、日本語音声コーパス、英語音声コーパス、日本語文字(語彙)コーパス、英語文字(語彙)コーパス、日本語辞書、英語辞書、日英対訳辞書、日英対訳コーパス等)、後述する音声データベース、ユーザに関する情報を管理するための管理用データベース等が挙げられる。また、各種モデルM20としては、後述する音声認識に使用する音響モデルや言語モデル等が挙げられる。
以上のとおり構成された音声翻訳システム100における、音声翻訳処理の操作及び動作の一例について、以下に更に説明する。
[第1実施形態]
(音声翻訳における音声データベース構築処理1)
図4は、音声翻訳システム100における音声データベース構築を含む処理の一例を示すフローチャートである。かかる音声データベース構築は、音声翻訳システム100による音声翻訳処理の一部を構成する。
ユーザ(発話者)は、まず、情報端末10の表示デバイス16に表示されている音声翻訳アプリケーションソフトのアイコン(図示せず)をタップして当該アプリケーションを起動する。これにより、表示デバイス16には、音声翻訳の対象の言語を選択する画面が適宜表示され、ユーザの言語(ここでは「日本語」)と、例えば会話の相手の言語(ここでは「英語」))を選択することができる。その後、表示デバイス16に、ユーザによる発話内容を受け付ける音声入力画面が表示されると、音声入出力デバイス13からの音声入力が可能な状態となる。
この状態で、ユーザ(発話者)が例えば日本語で音声入力する(ステップST1)と、プロセッサ11は、その音声入力に基づいて音声信号を生成し、その音声信号を通信インターフェイス14及びネットワークNを通してサーバ20へ送信する。このとおり、情報端末10自体、又はプロセッサ11及び音声入出力デバイス13が「音声入力部」として機能する。
サーバ20のプロセッサ21は、通信インターフェイス22を通してその音声信号を受信し、音声認識処理を行う(ステップSJ1)。このとき、プロセッサ21は、記憶資源23から、必要なモジュールL20、データベースD20、及びモデルM20(音声認識モジュール、日本語音声コーパス、音響モデル、言語モデル等)を呼び出し、入力音声の「音」を「読み」(文字)へ変換する。このとおり、プロセッサ21は、「音声認識部」として機能し、サーバ20は、全体として「音声認識サーバ」として機能する。
ここで、音声の認識が「可」であった場合(ステップSJ1において「Yes」)、プロセッサ21は、認識された音声の「読み」(文字)を他の言語に翻訳する多言語翻訳処理へ移行する(ステップSJ2)。このとき、プロセッサ21は、記憶資源23から、必要なモジュールL20及びデータベースD20(翻訳モジュール、日本語文字コーパス、日本語辞書、英語辞書、日英対訳辞書、日英対訳コーパス等)を呼び出し、認識結果である入力音声の「読み」(文字列)を適切に並び替えて日本語の句、節、文等へ変換し、その変換結果に対応する英語を抽出し、それらを英文法に従って並び替えて自然な英語の句、節、文等へと変換する。このとおり、プロセッサ21は、「翻訳部」としても機能し、サーバ20は、全体として「翻訳サーバ」として機能する。
一方、音声の認識が「不可」であった場合(ステップSJ1において「No」)、プロセッサ21は、音声データベース構築処理(ステップSJ5)へ移行する。ここでは、認識できなかった音声を、記憶資源23に確保されたデータベースD20の1つである音声データベースの領域に、「認識不可音声」として記憶し蓄積していく(ステップSJ51)。それから、適宜のタイミングで、その「認識不可音声」の正しい認識内容を取得し、同じ音声データベースに記憶させる(ステップSJ52)。具体的には、この場合の取得方法として、例えば、以下に列挙する(1)乃至(3)の手法が挙げられる。何れの場合においても、サーバ20のプロセッサ21は、「正しい認識内容」を「認識不可音声」に関連付けて記憶資源23の音声データベースへ保存する。
(1)発話したユーザに、音声が認識不可であった旨を情報端末10に表示する等してその場で伝え、その音声の正しい「読み」(文字)を情報端末10から直ちに入力してもらう。情報端末10のプロセッサ11は、その正しい読み(つまり正しい認識内容)をその都度、サーバ20へ送信する。
(2)「認識不可音声」が記憶資源23にある程度蓄積されてから、属性(例えば年齢や性別)が種々異なる人々に、それらの音声を聞いてもらい、正しく認識された場合に、その正しい読み(つまり正しい認識内容)をその都度又は一括で、サーバ20へ送信又は入力する。
(3)情報端末10で実行する音声翻訳アプリケーションのメニューに、「認識不可音声」の認識への協力を依頼するアンケート形式のページやカラムを用意しておき、音声翻訳アプリケーションを実行した(不特定の)ユーザに、単数又は複数の「認識不可音声」を聞いてもらい、その正しい読み(つまり正しい認識内容)その都度、サーバ20へ送信する。
次に、音声の内容の翻訳が完了すると、プロセッサ21は、音声合成処理へ移行する(ステップSJ3)。このとき、プロセッサ21は、記憶資源23から、必要なモジュールL20、データベースD20、及びモデルM20(音声合成モジュール、英語音声コーパス、音響モデル、言語モデル等)を呼び出し、翻訳結果である英語の句、節、文等を自然な音声に変換する。このとおり、プロセッサ21は、「音声合成部」としても機能し、サーバ20は、全体として「音声合成サーバ」として機能する。
次いで、プロセッサ21は、合成された音声に基づいて音声出力用の音声信号を生成し、通信インターフェイス22及びネットワークNを通して、情報端末10へ送信する。情報端末10のプロセッサ11は、通信インターフェイス14を通してその音声信号を受信し、音声出力処理を行う(ステップST2)。
(音声翻訳における音声照会処理1−1)
図5は、音声翻訳システム100における音声照会を含む処理の一例を示すフローチャートである。かかる音声照会は、音声翻訳システム100による音声翻訳処理の一部を構成する。ここでの処理は、「ユーザ(発話者)」に代えて「ユーザ(他の発話者)」が音声入力を行い、ステップSJ5に代えてステップSJ6の処理を実行すること以外は、図4に示す処理と実質的に同一である。よって、以下、この相違点に関連する処理以外の処理については説明を省略する。また、図5に示す音声翻訳処理は、音声照会処理をユーザ(他の発話者)の音声を認識できなかったとき(音声認識を一旦実行した後)に実行する手順の一例である。
図4に示す処理と同様に音声の認識が「可」であった場合(ステップSJ1において「Yes」)には、プロセッサ21は、多言語翻訳処理へ移行する(ステップSJ2)一方、音声の認識が「不可」であった場合(ステップSJ1において「No」)、プロセッサ21は、音声照会処理(ステップSJ6)へ移行する。
ここで、プロセッサ21は、記憶資源23から音声データベースを呼び出して参照し、認識できなかった音声を、その音声データベースに記憶された「認識不可音声」と照合する(ステップSJ61)。このとき、例えば、両者の音声マッチングにおける一致度又は類似度等が所定の値以上であると判断された場合、プロセッサ21は、音声データベースに記憶されているその「認識不可音声」の「正しい認識内容」を、認識できなかった音声の「正しい認識内容」として多言語翻訳処理(ステップSJ2)側へ出力する(ステップSJ62)。
(音声翻訳における音声照会処理1−2)
図6は、音声翻訳システム100における音声照会を含む処理の他の一例を示すフローチャートである。かかる音声照会も、音声翻訳システム100による音声翻訳処理の一部を構成する。ここでの処理は、「ユーザ(発話者)」に代えて「ユーザ(他の発話者)」が音声入力(ステップST1)を行い、且つ、ステップSJ5に代えてステップSJ7の処理を実行すること以外は、図4に示す処理と実質的に同一である。よって、以下、この相違点に関連する処理以外の処理については説明を省略する。また、図6に示す音声翻訳処理は、ユーザ(他の発話者)の音声を認識する前に、音声照会処理を実行する手順の一例である。
すなわち、ユーザ(他の発話者)が日本語で音声入力し(ステップST1)、その音声信号を受信したサーバ20のプロセッサ21は、音声照会処理(ステップSJ7)へ移行する。ここで、プロセッサ21は、記憶資源23から音声データベースを呼び出して参照し、入力された音声を、その音声データベースに記憶された「認識不可音声」と照合する(ステップSJ71;ステップSJ61に対応)。
そして、プロセッサ21は、入力された音声が音声データベースに記憶された「認識不可音声」に該当するか否かを判定する(ステップSJ72;実質的にはステップSJ71の処理に含まれる)。例えば、両者の音声マッチングにおける一致度又は類似度等が所定の値以上であると判断された場合、プロセッサ21は、音声の「該当有り」(ステップSJ72で「Yes」)として、その該当した「認識不可音声」の「正しい認識内容」を、入力された音声の「正しい認識内容」として多言語翻訳処理(ステップSJ2)側へ出力する(ステップSJ73)。
一方、両者の音声マッチングにおける一致度又は類似度等が所定の値未満であると判断された場合、プロセッサ21は、音声の「該当無し」(ステップSJ72で「No」)として、音声認識処理(ステップSJ1)へ移行する。すなわち、この場合、ユーザ(他の発話者)による音声は、「認識不可音声」ではないから、通常の音声認識処理によって認識されるか、或いは、その可能性が極めて高いこととなる。
なお、以上の如く、図6に示す音声翻訳処理の例では、ユーザ(他の発話者)の音声を認識する前に、音声照会処理を実行するので、図5に示す音声認識処理(ステップSJ1)における判定処理は不要となる。
[第2実施形態]
(音声翻訳における音声データベース構築処理2)
図7は、音声翻訳システム100における音声データベース構築を含む処理の他の一例を示すフローチャートである。かかる音声データベース構築も、音声翻訳システム100による音声翻訳処理の一部を構成する。ここでの処理は、ユーザ(発話者)による音声入力(ステップST1)に先立って、ユーザ(発話者)によるユーザ情報の入力(ステップST0)を実施し、且つ、「認識不可音声」の記憶・蓄積(ステップSJ51)に先立って、「ユーザ情報」の記憶・蓄積を実施すること以外は、図4に示す処理と実質的に同一である。よって、以下、この相違点に関連する処理以外の処理については説明を省略する。
ここでは、ユーザ(発話者)が音声翻訳アプリケーションを起動すると、例えば、音声翻訳の対象言語を選択する画面が情報端末10の表示デバイス16に表示される前に、或いは、対象言語を選択した後に、ユーザに関する情報を入力してもらうための情報登録画面が、情報端末10の表示デバイス16に表示される。ユーザに関する情報としては特に制限されないが、ユーザの年齢、性別、出身地、居住地等の属性情報が含まれる。
この状態で、ユーザ(発話者)がユーザ情報を入力する(ステップST0)と、プロセッサ11は、その情報入力に基づいて情報信号を生成し、その情報信号を通信インターフェイス14及びネットワークNを通してサーバ20へ送信する。このとおり、情報端末10自体又はプロセッサ11が「情報取得部」としても機能する。
サーバ20のプロセッサ21は、通信インターフェイス22を通してその情報信号を受信すると、音声データベース構築処理(ステップSJ5)へ移行する。ここでは、入力されたユーザ情報(属性を含む)を、記憶資源23に確保されたデータベースD20の1つである音声データベースの領域に記憶する(ステップSJ50)。次いで、ユーザ(発話者)による音声入力(ステップST1)、及び、それに続く音声認識処理(ステップSJ1)で音声の認識が不可であった場合、プロセッサ21は、その「認識不可音声」を、そのユーザの属性情報に関連付けて、音声データベースに記憶し蓄積していく(ステップSJ51)。また、適宜のタイミングで、その「認識不可音声」の正しい認識内容を取得し、同じ音声データベースに記憶する(ステップSJ52)。
(音声翻訳における音声照会処理2−1)
図8は、音声翻訳システム100における音声照会を含む処理の他の一例を示すフローチャートである。かかる音声照会も、音声翻訳システム100による音声翻訳処理の一部を構成する。ここでの処理は、「ユーザ(発話者)」に代えて「ユーザ(他の発話者)」が音声入力を行い、ステップSJ5に代えてステップSJ6の処理を実行すること以外は、図7に示す処理と実質的に同一である。よって、以下、この相違点に関連する処理以外の処理については説明を省略する。また、図8に示す音声翻訳処理は、図5に示す例と同様に、ユーザ(他の発話者)の音声を認識できなかったとき(音声認識を一旦実行した後)に実行する手順の一例である。
図7に示す処理と同様にユーザ(他の発話者)の情報が情報端末10から入力されると、プロセッサ21は、音声照会処理(ステップSJ6)へ移行する。ここで、プロセッサ21は、記憶資源23から音声データベースを呼び出して参照し、ユーザの属性(年齢、性別等)による絞り込みを行う。
具体的には、例えば、ユーザが70代の男性である場合、プロセッサ21は、音声データベースに記憶されている「70代の男性」に関連付けられた「認識不可音声」を抽出(選別)し、或いは、必要に応じて、それらの抽出された音声データから副次的な新たな音声データベースを作成する。同様に、例えば、ユーザが10歳未満の女性(女の子)である場合、プロセッサ21は、音声データベースに記憶されている「10歳未満の女性」に関連付けられた「認識不可音声」を抽出(選別)し、或いは、必要に応じて、それらの抽出された音声データから副次的な新たな音声データベースを作成する。
それから、図7に示す処理と同様に、音声入力(ステップST1)に引き続き音声の認識が「可」であった場合(ステップSJ1において「Yes」)には、プロセッサ21は、多言語翻訳処理へ移行する(ステップSJ2)。一方、音声の認識が「不可」であった場合(ステップSJ1において「No」)、プロセッサ21は、再び音声照会処理(ステップSJ6)へ移行する。ここで、プロセッサ21は、記憶資源23から音声データベースを呼び出して参照し、認識できなかった音声を、ユーザの属性に基づいて抽出された「認識不可音声」」(又は、それらから作成された新たな音声データベースにおける「認識不可音声」)と照合する(ステップSJ61)。
(音声翻訳における音声照会処理2−2)
図9は、音声翻訳システム100における音声照会を含む処理の他の一例を示すフローチャートである。かかる音声照会も、音声翻訳システム100による音声翻訳処理の一部を構成する。ここでの処理は、「ユーザ(発話者)」に代えて「ユーザ(他の発話者)」が情報入力(ステップST0)及び音声入力(ステップST1)を行い、且つ、ステップSJ5に代えてステップSJ7の処理を実行すること以外は、図7に示す処理と実質的に同一である。よって、以下、この相違点に関連する処理以外の処理については説明を省略する。また、図9に示す音声翻訳処理は、ユーザ(他の発話者)の音声を認識する前に、音声照会処理を実行する手順の一例である。
すなわち、ユーザ(他の発話者)がユーザ情報を入力し(ステップST0)、その情報信号を受信したサーバ20のプロセッサ21は、音声照会処理(ステップSJ7)へ移行する。ここで、プロセッサ21は、記憶資源23から音声データベースを呼び出して参照し、ユーザの属性(年齢、性別等)による絞り込みを行う(ステップSJ70;ステップSJ60と同じ)。次いで、ユーザ(他の発話者)が日本語で音声入力し(ステップST1)、その音声信号を受信したプロセッサ21は、記憶資源23から音声データベースを呼び出して参照し、入力された音声を、ユーザの属性に基づいて抽出された「認識不可音声」(又は、それらから作成された新たな音声データベース「認識不可音声」)と照合する(ステップSJ71;ステップSJ61に対応)。
そして、プロセッサ21は、入力された音声が属性に関連付けられた「認識不可音声」に該当するか否かを判定する(ステップSJ72;実質的にはステップSJ71の処理に含まれる)。例えば、両者の音声マッチングにおける一致度又は類似度等が所定の値以上であると判断された場合、プロセッサ21は、音声の「該当有り」(ステップSJ72で「Yes」)として、その該当した「認識不可音声」の「正しい認識内容」を、入力された音声の「正しい認識内容」として多言語翻訳処理(ステップSJ2)側へ出力する(ステップSJ73)。
一方、両者の音声マッチングにおける一致度又は類似度等が所定の値未満であると判断された場合、プロセッサ21は、音声の「該当無し」(ステップSJ72で「No」)として、音声認識処理(ステップSJ1)へ移行する。すなわち、この場合、ユーザ(他の発話者)による音声は、「認識不可音声」ではないから、通常の音声認識処理によって認識されるか、或いは、その可能性が極めて高いこととなる。
なお、以上の如く、図9に示す音声翻訳処理の例では、図6に示す例と同様に、ユーザ(他の発話者)の音声を認識する前に、音声照会処理を実行するので、図8に示すような音声認識処理(ステップSJ1)における判定処理は不要となる。
[第3実施形態]
(音声翻訳における音響モデル生成処理)
図10は、音声翻訳システム100における音響モデル生成(改良)を含む処理の一例を示すフローチャートである。かかる音響モデル生成も、音声翻訳システム100による音声翻訳処理の一部を構成する。
ここでは、まず、図4(第1実施形態)に示す音声データベース構築までの処理(ステップST1,ST2,SJ5)、又は、図7(第2実施形態)に示す音声データベース構築までの処理(ステップST0,ST1,ST2,SJ5)を実行する。
次に、サーバ20のプロセッサ21は、処理をステップSJ8へ移行し、記憶資源23から、モデルM20として音声認識に使用する従来の音響モデル(第1の音響モデル)を呼び出す(ステップSJ81)。それから、その従来の音響モデルに対して、音声データベースに記憶された「認識不可音声」を用いた公知の適応処理(例えば特許文献1において引用されている適応処理)を実施する(ステップSJ82)ことにより、新たな音響モデル(第2の音響モデル)を生成し(ステップSJ83)、記憶資源23に記憶する。
なお、このステップSJ83においては、図4(第1実施形態)に示す処理で構築した音声データベースを用いる場合、従来の音響モデル1つから、新たな音響モデルを1つ生成することができる。また、図7(第2実施形態)に示す処理で構築した音声データベースを用いる場合、従来の音響モデル1つから、例えばユーザの属性毎(年齢、世代、性別等)に複数の新たな音響モデルを生成することができる。このとき、新たな音響モデルは、ユーザの属性に関連付けて、記憶資源23に記憶される。以下、後者の如く、新たな音響モデルが属性毎に生成された場合を例に説明する。
次いで、図8(第2実施形態)におけるのと同様にユーザ(他の発話者)の情報が情報端末10から入力されると、プロセッサ21は、音響モデル選択処理(ステップSJ9)へ移行する。ここで、プロセッサ21は、記憶資源23に記憶された複数の新たな音響モデルのなかから、ユーザの属性(年齢、性別等)に応じた新たな音響モデルを指定し、それを音声認識に用いる準備を行う。
そして、第3実施形態におけるステップSJ9以降の処理(ステップSJ1,SJ2,SJ3)については、従来の音響モデルに代えて、新たに作成され且つ属性に応じて選択された音響モデルを用いること以外は、図6(第1実施形態)及び図9(第2実施形態)における一連の処理と実質的に同一であるため、ここでの説明を省略する。
このように構成された音声翻訳システム100及びその制御方法並びに音声翻訳プログラムによれば、ユーザ(発話者)が発話した音声のうち、当初は認識できなかった音声(認識不可音声)を予め収集し、また、それらの正しい認識内容を適宜取得することにより、両者のデータを含む音声データベースが構築され、記憶資源23に記憶される。
そして、ユーザ(他の発話者)が発話した音声を、一旦音声認識後、或いは、音声認識に先立って、その音声データベースに記憶された認識不可音声と照合することにより、通常の処理では認識できない音声の正しい認識内容を簡易に得ることができる。したがって、音声認識自体の高精度化及び高速処理化に起因する装置コストの増大、各種処理の煩雑化や翻訳精度の低下、及び、ユーザの負担の増大や利便性の低下を招くことなく、音声認識の精度ひいては音声翻訳の精度を簡易に且つ効率的に向上させることが可能となる。
また、前述のとおり、ユーザが高齢者や子供である場合に、その発話した音声の認識率が低い傾向にあるところ、音声翻訳システム100では、認識不可音声とそれらの正しい認識内容を、ユーザの属性(年齢、世代、性別等)に関連付けて音声データベースとして記憶資源23に記憶することができる。よって、ユーザの属性に応じて、対応する認識不可音声を絞り込むことにより、かかるユーザが発話した音声の音声認識率ひいては音声翻訳率を更に高めることができる。
さらに、音声翻訳システム100によれば、記憶資源23に記憶された認識不可音声を用い、従来の音響モデルに対する適応処理を実施して新たな音響モデルを生成し、そのようにしていわば改良された新たな音響モデルを用いて音声認識を行うことができる。このようにしても、音声認識自体の高精度化及び高速処理化に起因する装置コストの増大、各種処理の煩雑化や翻訳精度の低下、及び、ユーザの負担の増大や利便性の低下を招くことなく、音声認識の精度ひいては音声翻訳の精度を簡易に且つ効率的に向上させることが可能となる。
またこの場合、ユーザ(発話者)の属性、例えば、年齢若しくは年齢の範囲(世代)又は性別毎に新たな音響モデルを生成し、かかるユーザの属性に対応した新たな音響モデルを用いて、音声認識を行うこともできる。このようにしてユーザの属性に応じた音響モデルを用いた音声認識が可能となるので、ユーザが発話した音声の音声認識率ひいては音声翻訳率を更に一層高めることができる。
なお、上述したとおり、上記の各実施形態は、本発明を説明するための一例であり、本発明をその実施形態に限定する趣旨ではない。また、本発明は、その要旨を逸脱しない限り、様々な変形が可能である。例えば、当業者であれば、実施形態で述べたリソース(ハードウェア資源又はソフトウェア資源)を均等物に置換することが可能であり、そのような置換も本発明の範囲に含まれる。
また、上記各実施形態では、音声認識、翻訳、及び音声合成の各処理をサーバ20によって実行する例について記載したが、これらの処理を情報端末10において実行するように構成してもよい。この場合、それらの処理に用いるモジュールL20は、情報端末10の記憶資源12に保存されていてもよいし、サーバ20の記憶資源23に保存されていてもよい。さらに、音声データベースのデータベースD20、及び/又は、音響モデル等のモデルM20も、情報端末10の記憶資源12に保存されていてもよいし、サーバ20の記憶資源23に保存されていてもよい。このとおり、音声翻訳システムは、ネットワークN及びサーバ20を備えなくてもよい。
さらに、図5若しくは図6に示す処理(第1実施形態)又は図8若しくは図9に示す処理(第2実施形態)を、図10に示す処理(第3実施形態)と組み合わせてもよい。すなわち、第3実施形態として説明した新たな音響モデルの生成及び使用とともに、その前に、又は、その後に、第1又は第2実施形態における音声照会処理を実行するようにしてもよい。またさらに、音声認識が可能であったものの、多言語翻訳において適切な翻訳ができなかった内容の元の音声も一種の「認識不可音声」として、或いは「翻訳不可音声」として音声データベースに記憶・蓄積してもよい。さらにまた、第3実施形態においては、ユーザの属性毎に新たな音響モデルを生成せずに、ユーザの属性に依存しない新たな音響モデルを生成するようにしてもよい。
また、情報端末10とネットワークNとの間には、両者間の通信プロトコルを変換するゲートウェイサーバ等が介在してももちろんよい。また、情報端末10は、携帯型装置に限らず、例えば、デスクトップ型パソコン、ノート型パソコン、タブレット型パソコン、ラップトップ型パソコン等でもよい。
本発明によれば、通常の処理では認識できない音声の正しい認識内容を簡易に得ることができるので、例えば、互いの言語を理解できない人同士の会話に関連するサービスを提供する分野における、プログラム、システム、及び方法の設計、製造、提供、販売等の活動に広く利用することができる。
10 情報端末(音声翻訳システム)
11 プロセッサ
12 記憶資源
13 音声入出力デバイス
14 通信インターフェイス
15 入力デバイス
16 表示デバイス
17 カメラ
20 サーバ(音声翻訳システム)
21 プロセッサ
22 通信インターフェイス
23 記憶資源
100 音声翻訳システム
D20 データベース
L20 モジュール
M20 モデル
N ネットワーク
P10,P20 プログラム

Claims (8)

  1. 発話者の音声を入力するための音声入力部と、
    前記音声入力部に入力された音声の内容を認識する音声認識部と、
    前記音声認識部で認識された内容を異なる言語の内容に翻訳する翻訳部と、
    前記翻訳部で翻訳された内容の音声を合成する音声合成部と、
    前記音声合成部で合成された音声を出力する音声出力部と、
    前記音声認識部で認識できなかった認識不可音声を記憶する記憶部と、
    を備え、
    前記音声認識部は、下記(1)又は(2)
    )前記記憶部に記憶された前記認識不可音声を、前記発話者とは異なるユーザに聞かせ、該認識不可音声の正しい認識内容を該ユーザから受け取る、
    )前記記憶部に記憶された前記認識不可音声の正しい認識内容を入力することを、前記発話者とは異なるユーザに依頼し、該認識不可音声の正しい認識内容を該ユーザから受け取る、
    の処理を実行し、
    前記記憶部は、前記認識不可音声と、該認識不可音声の正しい認識内容を、音声データベースとして記憶し、
    前記音声認識部は、前記音声データベースを参照し、前記音声入力部に入力された他の発話者の音声を前記音声データベースに記憶された前記認識不可音声と照合し、該照合結果に基づいて、該音声の正しい認識内容を翻訳部に提供する音声照会処理を実行する、
    音声翻訳システム。
  2. 前記音声認識部は、前記他の発話者の音声を認識できなかったときに、又は、前記他の発話者の音声を認識する前に、前記音声照会処理を実行する、
    請求項1記載の音声翻訳システム。
  3. 前記発話者及び前記他の発話者の属性に関する情報を取得する情報取得部を更に備え、
    前記記憶部は、前記認識不可音声、及び、前記正しい認識内容を、前記発話者の属性に関連付けて前記音声データベースとして記憶し、
    前記音声認識部は、前記他の発話者の属性を前記音声データベースに記憶された前記属性と照合し、該照合結果に基づいて、前記音声照会処理を実行する、
    請求項1又は2記載の音声翻訳システム。
  4. 前記属性は、前記発話者の年齢若しくは年齢の範囲又は性別である、
    請求項3記載の音声翻訳システム。
  5. 前記音声認識部における前記入力された音声の認識に用いる第1の音響モデルに対して、前記認識不可音声及び該認識不可音声の正しい認識内容を用いた適応処理を実施して第2の音響モデルを生成する音響モデル生成部を更に備える、
    請求項1乃至4の何れか記載の音声翻訳システム。
  6. 前記発話者の属性に関する情報を取得する情報取得部を更に備え、
    前記音響モデル生成部は、前記発話者の属性毎に前記第2の音響モデルを生成し、
    前記音声認識部は、前記他の発話者の属性に対応した前記第2の音響モデルを用いて前記入力された音声の内容を認識する、
    請求項5記載の音声翻訳システム。
  7. 音声入力部、音声認識部、翻訳部、音声合成部、音声出力部、及び記憶部を備える音声翻訳システムの制御方法であって、
    前記音声入力部により、発話者の音声を入力するステップと、
    前記音声翻訳部により、前記音声入力部に入力された音声の内容を認識するステップと、
    前記翻訳部により、前記音声認識部で認識された内容を異なる言語の内容に翻訳するステップと、
    前記音声合成部により、前記翻訳部で翻訳された内容の音声を合成するステップと、
    前記音声出力部により、前記音声合成部で合成された音声を出力するステップと、
    前記記憶部により、前記音声認識部で認識できなかった認識不可音声を記憶するステップと、
    を有し、
    前記音声の内容を認識するステップにおいては、下記(1)又は(2)
    )前記記憶部に記憶された前記認識不可音声を、前記発話者とは異なるユーザに聞かせ、該認識不可音声の正しい認識内容を該ユーザから受け取る、
    )前記記憶部に記憶された前記認識不可音声の正しい認識内容を入力することを、前記発話者とは異なるユーザに依頼し、該認識不可音声の正しい認識内容を該ユーザから受け取る、
    の処理を実行し、
    前記記憶するステップにおいては、前記認識不可音声と、該認識不可音声の正しい認識内容を、音声データベースとして記憶し、
    前記音声の内容を認識するステップにおいては、さらに、前記音声データベースを参照し、前記音声入力部に入力された他の発話者の音声を前記音声データベースに記憶された前記認識不可音声と照合し、該照合結果に基づいて、該音声の正しい認識内容を前記翻訳部に提供する音声照会処理を実行する、
    音声翻訳システムの制御方法。
  8. コンピュータを、
    発話者の音声を入力するための音声入力部、
    前記音声入力部に入力された音声の内容を認識する音声認識部、
    前記音声認識部で認識された内容を異なる言語の内容に翻訳する翻訳部、
    前記翻訳部で翻訳された内容の音声を合成する音声合成部、
    前記音声合成部で合成された音声を出力する音声出力部、
    前記音声認識部で認識できなかった認識不可音声を記憶する記憶部、
    として機能させ、
    前記音声認識部に、下記(1)又は(2)
    )前記記憶部に記憶された前記認識不可音声を、前記発話者とは異なるユーザに聞かせ、該認識不可音声の正しい認識内容を該ユーザから受け取る、
    )前記記憶部に記憶された前記認識不可音声の正しい認識内容を入力することを、前記発話者とは異なるユーザに依頼し、該認識不可音声の正しい認識内容を該ユーザから受け取る、
    の処理を実行させ、
    前記記憶部に、前記認識不可音声と、該認識不可音声の正しい認識内容を、音声データベースとして記憶させ、
    前記音声認識部に、前記音声データベースを参照し、前記音声入力部に入力された他の発話者の音声を前記音声データベースに記憶された前記認識不可音声と照合し、該照合結果に基づいて、該音声の正しい認識内容を翻訳部に提供する音声照会処理を実行させる、
    音声翻訳プログラム。
JP2015241459A 2015-12-10 2015-12-10 音声翻訳システム及びその制御方法、並びに音声翻訳プログラム Expired - Fee Related JP6298806B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015241459A JP6298806B2 (ja) 2015-12-10 2015-12-10 音声翻訳システム及びその制御方法、並びに音声翻訳プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015241459A JP6298806B2 (ja) 2015-12-10 2015-12-10 音声翻訳システム及びその制御方法、並びに音声翻訳プログラム

Publications (2)

Publication Number Publication Date
JP2017107098A JP2017107098A (ja) 2017-06-15
JP6298806B2 true JP6298806B2 (ja) 2018-03-20

Family

ID=59060817

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015241459A Expired - Fee Related JP6298806B2 (ja) 2015-12-10 2015-12-10 音声翻訳システム及びその制御方法、並びに音声翻訳プログラム

Country Status (1)

Country Link
JP (1) JP6298806B2 (ja)

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06289899A (ja) * 1993-03-31 1994-10-18 Matsushita Electric Ind Co Ltd 音声認識装置
JP2002049387A (ja) * 2000-08-04 2002-02-15 Tokai Rika Co Ltd 音声認識装置
JP3862169B2 (ja) * 2002-12-05 2006-12-27 オムロン株式会社 音声認識サービス仲介システムと、それに用いる音声認識マスター参照方法
JP5218459B2 (ja) * 2010-03-25 2013-06-26 アイシン・エィ・ダブリュ株式会社 車両用情報端末及びプログラム
JP2014182049A (ja) * 2013-03-21 2014-09-29 Panasonic Corp 車載機器と、それを搭載した自動車
JP2015014665A (ja) * 2013-07-04 2015-01-22 セイコーエプソン株式会社 音声認識装置及び方法、並びに、半導体集積回路装置

Also Published As

Publication number Publication date
JP2017107098A (ja) 2017-06-15

Similar Documents

Publication Publication Date Title
EP3716267B1 (en) Facilitating end-to-end communications with automated assistants in multiple languages
US11049493B2 (en) Spoken dialog device, spoken dialog method, and recording medium
US9437192B2 (en) Method and device of matching speech input to text
KR101689290B1 (ko) 대화에서 정보를 추출하는 장치
TWI313418B (en) Multimodal speech-to-speech language translation and display
US20130238336A1 (en) Recognizing speech in multiple languages
US11093110B1 (en) Messaging feedback mechanism
US20060253272A1 (en) Voice prompts for use in speech-to-speech translation system
JP2015026057A (ja) インタラクティブキャラクター基盤の外国語学習装置及び方法
JPWO2005101235A1 (ja) 対話支援装置
CN109256133A (zh) 一种语音交互方法、装置、设备及存储介质
CN109543021B (zh) 一种面向智能机器人的故事数据处理方法及***
Hämäläinen et al. Multilingual speech recognition for the elderly: The AALFred personal life assistant
CN111354362A (zh) 用于辅助听障者交流的方法和装置
JP6290479B1 (ja) 音声翻訳装置、音声翻訳方法、及び音声翻訳プログラム
WO2017135214A1 (ja) 音声翻訳システム、音声翻訳方法、及び音声翻訳プログラム
JP5998298B1 (ja) 音声翻訳装置、音声翻訳方法、及び音声翻訳プログラム
JP6310950B2 (ja) 音声翻訳装置、音声翻訳方法、及び音声翻訳プログラム
JP6298806B2 (ja) 音声翻訳システム及びその制御方法、並びに音声翻訳プログラム
JP6110539B1 (ja) 音声翻訳装置、音声翻訳方法、及び音声翻訳プログラム
JP6383748B2 (ja) 音声翻訳装置、音声翻訳方法、及び音声翻訳プログラム
JP2022018724A (ja) 情報処理装置、情報処理方法、及び情報処理プログラム
JP2017182394A (ja) 音声翻訳装置、音声翻訳方法、及び音声翻訳プログラム
JP6198879B1 (ja) 音声翻訳装置、音声翻訳方法、及び音声翻訳プログラム
JP6334589B2 (ja) 定型フレーズ作成装置及びプログラム、並びに、会話支援装置及びプログラム

Legal Events

Date Code Title Description
A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20160805

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20171026

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180226

R150 Certificate of patent or registration of utility model

Ref document number: 6298806

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees