JP2016014874A - 音声認識 - Google Patents

音声認識 Download PDF

Info

Publication number
JP2016014874A
JP2016014874A JP2015122505A JP2015122505A JP2016014874A JP 2016014874 A JP2016014874 A JP 2016014874A JP 2015122505 A JP2015122505 A JP 2015122505A JP 2015122505 A JP2015122505 A JP 2015122505A JP 2016014874 A JP2016014874 A JP 2016014874A
Authority
JP
Japan
Prior art keywords
language
speech recognition
user interface
voice command
code
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2015122505A
Other languages
English (en)
Other versions
JP2016014874A5 (ja
Inventor
マイケル・ゴールディング
Golding Michael
スリードハーラン・ディーパック・ナイア
Deepak Nair Sreedharan
レスリー・ウィン
Wynn Leslie
モハン・ヴィジャヤラヤ・パンディアン
Vijayalaya Pandian Mohan
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xerox Corp
Original Assignee
Xerox Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xerox Corp filed Critical Xerox Corp
Publication of JP2016014874A publication Critical patent/JP2016014874A/ja
Publication of JP2016014874A5 publication Critical patent/JP2016014874A5/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/005Language recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/26Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • User Interface Of Digital Computer (AREA)
  • Machine Translation (AREA)

Abstract

【課題】UI(ユーザインタフェース)言語を切り替える改善された方法及びシステムを提供する。
【解決手段】音声コマンドが、装置に関連付けられた音声認識部305から、装置に関連付けて構成された言語切り替えモジュール280により受信される。音声コマンドは、言語データベース320を用いて、装置に関連付けられた言語を識別するために、認識され、特定のコンテンツへと処理される。その後、取扱説明書を参照することなく、言語を変更できるように、言語は、検出された言語に基づき、変更される。ユーザは、ユーザの装置に関連付けられた機械又は装置に向かって歩き、所望の/知っている言語を話す。装置は、音声を「聞き」、言語を検出し、それに応じて、ユーザインタフェースを変更する。
【選択図】図3

Description

実施形態は、音声認識アプリケーションに関する。実施形態はまた、様々な装置、機械、及びシステムで用いられる、ユーザインタフェース(UI)システム、及びユーザインタフェース(UI)装置に関する。実施形態はさらに、ユーザインタフェースで使用される言語を切り替えるためのアプリケーションに関する。
ユーザインタフェースは、パーソナルコンピュータから、スマートフォンのようなモバイル装置、自動車のような機械及びシステム、機器、及び他の機構にわたり、様々な装置、及びシステムで使用されている。
ユーザインタフェースにより、ユーザは、便利に、使い勝手良く、情報プラットフォームを操作することが可能になる。そのようなユーザインタフェースには、通常、(物理的な)ハードウェア部品と、(論理的な)ソフトウェア部品とが含まれる。ただし、ユーザインタフェースには、GUI(グラフィカルユーザインタフェース)に関連付けて実装されているものもある。ユーザインタフェースを、簡単に(機械自体による探索型)、効率的に、かつ気楽に(使い勝手の良く)機械を操作するために用いて、所望の結果を生み出すことができる。このことは一般的に、オペレータが、所望の出力を得るために最小限の入力を行うのみでよく、また、この結果、装置による望ましくない出力が、最小限になることを意味する。
そのようなユーザインタフェース部品に生じる1つの問題は、互いに異なる言語の使用である(即ち、様々なユーザが、異なる言語を話す可能性がある)。言葉の壁を克服する目的で、より多くのアプリケーションが、UI(ユーザインタフェース)出力を複数の言語で提供するために、生産されている。従来から、機械又は装置に配置された物理キーが、言語を変更するために用いられる場合があるが、物理キーは、すぐにそれと分からず、ユニバーサルデザインの特徴に欠けている。したがって、そのような物理キーの実装は、実際的な使用が制限されている。しかしながら、物理キーの使用にかかわらず、ユーザによって話される言語とは別の言語に関連付けられたUIに遭遇した場合、ユーザは困難に直面する。
前述したことから、本明細書に、より詳細に記載されるような、UI言語を切り替える改善された方法及びシステムの必要性が存在すると考えられる。
以下の概要は、開示された実施形態に固有の、革新的な特徴のいくつかを理解し易くするために提供されており、完全な説明であることを意図するものではない。本明細書に開示される実施形態の様々な態様は、説明全体、特許請求の範囲、図面、及び要約を、全体として考慮することにより、完全に理解することができる。
したがって、機構又は装置を管理する改善された方法及びシステムを提供することは、開示された実施形態の一態様である。
機構又は装置のユーザインタフェース言語を切り替える、音声認識方法及び音声認識システムを提供することは、開示された実施形態の別の態様である。
上記の態様、並びに、他の目的及び利点を、本明細書に記載されているように、ここで達成することができる。音声制御装置を使用して装置のユーザインタフェース言語を切り替える、音声認識方法及び音声認識システムが、本明細書に開示されている。ユーザインタフェース言語切り替えモジュールは、装置に配置された音声認識装置(例えば、マイクロフォン)から、ユーザの音声コマンドを受信するために、装置(例えば、手持ち式演算装置、自動車、MFD、又は複写機/プリンタ等の多機能装置等)に関連付けて構成され得る。音声コマンドは、言語データベースを使用して、ユーザインタフェース上に表示された言語を判定するために、認識され、コンテンツへと処理され得る。その後、ユーザインタフェース言語は、検出された言語に基づき、変更され得る。このような手法により、ユーザインタフェースパネルのハードボタンが省略され、ユーザは、取扱説明書を参照することなく、ユーザインタフェース言語を容易に変更できる。
音声認識モジュールは、ユーザによって話される所望の言語での、少なくとも1つの発話又は言葉を含む、音声ベースの入力を受信する。データベースには、装置に事前にインストールできる、互いに異なる言語の翻訳が含まれる。システムは、音声認識装置から、ユーザの音声コマンドを認識することにより、メッセージ及び他の情報を、いくつかの言語のうちの、いずれか1つの言語で表示するために使用する言語を選択する。このような手法により、複数の言語が使われている複数の場所で装置を使用するために、装置のユーザインタフェース言語を切り替える。
添付の図において、同様の符号は、別々の図を通して、同一の要素、又は機能的に同等な要素を指す。また、添付の図は、本明細書に組み込まれ、本明細書の一部を形成する。さらに、添付の図は、本発明を説明し、本発明の詳細な説明と共に、本発明の原理を説明する役割を果たす。
開示された実施形態による、ネットワークを介してデータ処理装置に接続された、多機能装置の例を示す図である。 開示された実施形態による、ネットワークに関連付けられたユーザインタフェース言語切り替えモジュールを含む装置管理システムを示す、視覚的な図である。 開示された実施形態による、ユーザインタフェース言語切り替えシステムを示すブロック図である。 開示された実施形態による、音声制御装置を使用して装置のユーザインタフェース言語を切り替える方法の、論理的な操作ステップを示す、操作の上位レベルのフローチャートである。
これらの非限定的な例の中で論じられている特定の値及び構成は、変更される可能性があり、少なくとも1つの実施形態を単に説明するために引用されており、実施形態の範囲を限定することを意図するものではない。
ここで、実施形態を、添付の図面を参照して、以下に、より十分に説明する。添付の図面において、本発明の例示的な実施形態が示される。本明細書に開示される実施形態は、多様な形態で具体化される可能性があり、本明細書に説明する実施形態に限定されるものとして解釈されるべきではない。むしろ、これらの実施形態が提供されることにより、本開示が、完結し、完全なものとなり、本発明の範囲を当業者に十分に伝える。同様の数字が、一貫して同様の要素を指す。本明細書で使用される場合、用語「及び/又は」は、1つ以上の関連する列挙された項目の、いかなる組み合わせ、及びすべての組み合わせを含む。
開示された実施形態を、本発明の実施形態による、方法、システム、コンピュータプログラム製品、及びデータ構造体のフローチャート図、及び/又はブロック図を参照して、以下に部分的に説明する。説明図のそれぞれのブロック、及びブロックの組み合わせは、コンピュータプログラム命令によって実装され得ることが理解されるであろう。これらのコンピュータプログラム命令を、汎用コンピュータのプロセッサ、専用コンピュータのプロセッサ、又は他のプログラマブルデータ処理装置のプロセッサに付与し、コンピュータのプロセッサ、又は他のプログラマブルデータ処理装置のプロセッサによって動作する命令が、ブロック又は複数のブロックに明記された機能/動作を実装する手段を生成するように機械を製造してもよい。
これらのコンピュータプログラム命令はまた、コンピュータ可読メモリ内に格納され得る。コンピュータ可読メモリは、コンピュータ可読メモリに格納された命令が、ブロック又は複数のブロックに明記された機能/動作を実装する命令手段を含む製品を生成するような、特定の方式で機能するように、コンピュータ、又は他のプログラマブルデータ処理装置に指示できる。
コンピュータプログラム命令はまた、コンピュータ、又は他のプログラマブルデータ処理装置に読み込まれ、これにより、一連の操作ステップが、コンピュータ、又は他のプログラマブル装置上で実装され得る。そして、コンピュータプログラム命令は、コンピュータ、又は他のプログラマブル装置上で動作する命令が、ブロック、又は複数のブロックに明記された機能/動作を実装するステップを提供するように、コンピュータにより実行されるプロセスを生成する。
図1を参照すると、システム100は、ネットワークに接続された装置140のようなネットワークに接続された装置を、1つ以上含むように構成され得る。ネットワークに接続された装置140は、ネットワーク135を介して、データ処理装置110と電子的に通信できる。いくつかの実施形態では、ネットワークに接続された装置140は、プリンタ、スキャナ、複写機等のレンダリング装置であってもよい。他の実施形態では、ネットワークに接続された装置140は、MFD、ファイルサーバ、及び/又はプリントサーバであってもよい。さらに他の実施形態では、ネットワークに接続された装置140は、自動車、アビオニクスシステム等のシステム、並びに、他のシステム及び部品に関連付けて実装され得る。
データ処理装置110は、例えば、演算装置であってもよく、一般的には、中央処理装置120、表示装置115を備えており、場合によっては、キーボード131、及びポインティング装置130(例えば、マウス、トラックボール、ペン装置等)を備える。いくつかの実施形態では、データ処理装置110は、サーバ、又は、ラップトップコンピュータもしくはパーソナルコンピュータ等の演算装置であってもよい。他の実施形態では、データ処理装置110は、タブレット演算装置、スマートフォン(例えば、携帯電話)、PDA(携帯情報端末)等の、携帯通信装置、又は手持ち式演算装置であってもよい。
本明細書で使用される場合、用語「ネットワークに接続された装置」は、プリンタ、スキャナ、ファックス装置、複写機等の装置もしくはシステム、及び/又はそれらの組み合わせ(例えば、MFD)、又は、他のシステムもしくは装置(例えば、自動車、アビオニクス等)を指す場合があることに留意されたい。
データ処理装置110は、コンピュータのネットワーク135を介して、ネットワークに接続された装置140と、電子的に通信することができる。ネットワーク135は、いかなるネットワークトポロジー、伝送媒体、又はネットワークプロトコルを用いる可能性もある。ネットワーク135は、有線通信リンク、無線通信リンク、又は光ファイバケーブル等による接続を含む可能性がある。図示された例では、ネットワーク135は、ネットワーク及びゲートウェイの世界規模の集まりであるインターネットであり、インターネットは、互いと通信するために、伝送制御プロトコル/インターネットプロトコル(TCP/IP)プロトコルスイートを使用する。インターネットの中心には、大ノード又はホストコンピュータ間における、高速データ通信回線の基幹通信網が存在しており、基幹通信網は、データ及びメッセージを送信する、数千の商用システム、政治システム、教育システム、及び他のコンピュータシステムからなる。いくつかの実施形態では、ネットワーク135は、インターネット通信に付随するWiFiネットワークとして実装され得る。
ネットワークに接続された装置140は、例えば、ユーザインタフェース145(例えば、パネルメニュー)を有してもよい。そのようなパネルメニューは、ネットワークに接続された装置140において、機能を選択し、他のデータを入力するために使用され得る。そのようなインタフェースは、例えば、オプションメニュー等を操作するための、タッチにより動作するキーを有する、タッチスクリーンを含んでもよい。ドライバプログラムは、例えば、データ処理装置110上、又はデータ処理装置110において、インストールすることができ、ホスト装置のハードドライブ150に常駐することが可能である。いくつかの実施形態では、ドライバプログラムは、アプリケーションインタフェースを介して起動させることができ、そのため、ユーザは、ネットワークに接続された装置140により、処理用ドライバを用いて、特定のジョブを実装することができる。ユーザインタフェース145は、情報を表示することができ、装置のディスプレイ、及び/又は、他のデータ入力システムもしくはデータ入力部を介して、データを受信することができる。ユーザインタフェース145はまた、結果を表示する役割を果たし、それに基づき、ユーザは、さらなる入力を行ってもよく、又は、所与のセッションを終了させてもよい。
ネットワークに接続された装置140のユーザインタフェース145は、例えば、上述のような、タッチスクリーンディスプレイ、又は、それぞれ独立したキーパッド及びディスプレイ、又はメモリフォブ等の、ローカルユーザインタフェースであってもよい。代替的又は付加的に、入力装置は、携帯装置からの制約データを含む無線信号を受信する無線ポートであってもよい。無線信号は、赤外線信号又は電磁信号であってもよい。システム管理者は、タッチスクリーン、キーパッドを操作することにより、又は、無線ポートを経由する無線メッセージによって通信することにより、ローカルユーザインタフェースを介して、制約データを入力することができる。管理者の無線通信する携帯装置は、上述のような、携帯情報端末(PDA)、卓上コンピュータ、スマートフォン等であってもよい。
開示された複数の実施形態のうち、いくつかの実施形態に関して、以下の説明を行う。これらの実施形態は、図1に示された、データ処理装置110、及びネットワークに接続された装置140に関連付けて具体化され得る。しかしながら、開示された実施形態は、いかなる特定の用途、又はいかなる特定の環境にも限定されない。むしろ、当業者ならば、開示された実施形態のシステム及び方法を、データベース管理システム、ワードプロセッサ等を含む、様々なシステム及びアプリケーションソフトウェアに、有効に適用できることが分かるであろう。その上、本発明は、Macintosh、UNIX(登録商標)、LINUX(登録商標)等を含む、様々な、互いに異なるプラットフォームで具体化され得る。したがって、以下の例示的な実施形態の記載は、説明を目的とするものであり、限定とは見なされない。
図2は、開示された実施形態による、ネットワーク135に関連付けられたユーザインタフェース言語切り替えモジュール280を有する、装置管理システム200を示す視覚的な図である。装置管理システム200は、例えば、1つ以上のネットワークに接続された装置140及びネットワークに接続された装置142、データ処理装置110、ラップトップ機240、並びにモバイル通信装置210に関連付いたネットワークインフラストラクチャ135を含み得る。図1に示されたデータ処理装置110は、例えば、サーバであってもよい。例えばデスクトップ機、ネットワーク装置、パームトップ機、携帯電話等の他の装置はまた、サービスプロバイダとして、ネットワーク135内に含まれ得る。ネットワークに接続された装置140及びネットワークに接続された装置142は、互いに離れて配置されてもよく、又は、その代わりに、互いに近くに配置されてもよい。
ユーザインタフェース言語切り替えモジュール280は、例えば、音声制御装置を使用して、ネットワークに接続された装置140及びネットワークに接続された装置142のユーザインタフェース言語を切り替えるために、サーバ150に関連付けて構成され得る。本明細書で使用される場合、用語「モジュール」は、物理的なハードウェア部品を指す場合があり、かつ/又はソフトウェアモジュールを指す場合があることに留意されたい。コンピュータプログラミングの分野では、そのようなソフトウェア「モジュール」は、特定のタスクを実行するか、又は特定の抽象データ型を実装する、ルーチン及びデータ構造体の集まりとして、実装され得る。この種のモジュールは、一般的に、2つの部分から構成されている。第1に、ソフトウェアモジュールは、他のモジュール又はルーチンによってアクセス可能な、定数、データ型、変数、ルーチン等を一覧にし得る。第2に、ソフトウェアモジュールは、実装として構成される場合があり、プライベート(即ち、このモジュールに対してのみアクセス可能)であり得る。かつ、ソフトウェアモジュールは、モジュールが基づくルーチン又はサブルーチンを実際に実装するソースコードを含む。
したがって、本明細書で「モジュール」と呼んだ場合、本発明者らは、概して、そのようなソフトウェアモジュールか、又はそれらの実装を指している。本明細書に記載された方法は、一連のそのようなモジュールとして、又は、単一のソフトウェアモジュールとして、実装され得る。そのようなモジュールを、別々に又は併せて使用し、プログラム製品を形成することができる。プログラム製品は、伝送媒体及び記録可能媒体を含む、信号保持媒体を介して実装され得る。本発明は、プログラム製品として、様々な形態で流通可能であり、流通させるために使用される信号保持媒体の特定の型にかかわらず、同じように動作する。
信号保持媒体の例には、例えば、フロッピー(登録商標)ディスク、ハードディスクドライブ、CDROM、CD−R等の記録可能型媒体と、デジタル通信リンク、及び/又はアナログ通信リンク等の伝送媒体とが含まれる。伝送媒体の例にはまた、モデムのような装置が含まれ得る。これにより、標準的な電話回線、及び/又はより高度なデジタル通信回線を通じて、情報を伝送できる。
図3は、開示された実施形態による、音声制御装置を使用して、ネットワークに接続された装置140のユーザインタフェース言語を切り替える、ユーザインタフェース言語切り替えシステム300を示すブロック図である。図1〜図4において、同一又は同様のブロックが、概して、同一の符号によって示されることに留意されたい。ユーザインタフェース言語切り替えシステム300は、ネットワークに接続された装置140に関連付けられた、ユーザインタフェース言語切り替えモジュール280を含むように構成され得る。ユーザインタフェース言語切り替えモジュール280は、音声認識装置380から、ユーザ335の音声コマンド310を受信する。音声認識装置380は、ネットワークに接続された装置140上、又は装置ネットワークに接続された140において、配置され得る。音声認識装置380は、例えば、設計を考慮して、マイクロフォンであってもよい。1つのシナリオでは、ユーザ335は、機械又はネットワークに接続された装置140に向かって歩き、所望の/知っている言語を話すことができる。機械又はネットワークに接続された装置140は、ユーザの音声を「聞き」、言語を検出し、それに応じてユーザインタフェース145を変更し、検出された言語でユーザインタフェーステキストを表示する。ユーザインタフェース言語切り替えモジュール280が、検出された言語への切り替えを行う。好ましい実施形態では、ソフトウェアレベルで実装が行われ得る。ユーザの音声コマンドを取得し、ユーザインタフェース145において第1言語(例えば、ユーザの言語)に音声コマンドを処理するために、さらなるマイクロフォン(例えば、音声認識装置380)、及び/又はさらなるプロセスを用いることができる。
本明細書で使用される場合、ユーザインタフェースとは、概して、スクリーン上に視覚的に表示された、アイコン、メニュー、及びダイアログボックスにより、プログラム、ファイル、オプション等を表す環境の型を指すことに留意されたい。ユーザは、ユーザインタフェースと対話し、例えば、タッチスクリーン、キーボード等のユーザ入力装置で指し示し、クリックすることにより、そのようなオプションを選択し、起動させることができる。ユーザインタフェースが、これらの要素を扱い、ユーザのアクションを報告するために標準的なソフトウェアルーチンを提供しているため、特定の項目が、すべてのアプリケーションにおいて、ユーザに対して同じように機能することが可能である。
ユーザインタフェース言語切り替えモジュール280は、音声認識部305、音声からコンテンツへの変換部315、及び言語判定部330をさらに含むように構成され得る。音声認識部305、音声からコンテンツへの変換部315、及び言語判定部330は、互いに電子的に通信できる。音声認識部305は、音声認識装置380から受信した(即ち、ユーザ335の)音声コマンド310を認識し、処理する。音声からコンテンツへの変換部315、及び言語判定部330は、言語データベース320を使用して、ユーザインタフェース145を介して表示された言語を判定するために、音声コマンド310をコンテンツに変換する。本明細書に論じられている上記の「部」は、1つのモジュール、又はモジュール群に関連付けて実装され得ることに留意されたい。即ち、それぞれの部は、例えば、1つのソフトウェアモジュールであってもよく、又は、そのような部から構成される、より大きなモジュールの一部を形成してもよい。
言語データベース320は、ネットワークに接続された装置140に事前にインストールされる、互いに異なる言語を含むように構成され得る。言語データベース320はまた、例えば、図1に示されたデータベース185として実装され得ることに留意されたい。そのような言語には、数例を挙げれば、英語、ヒンディ語、標準中国語、日本語、韓国語、ヘブライ語、又はギリシャ語が含まれるが、これらに限定されない。上述のように、ユーザインタフェース言語は、検出された言語に基づき、変更され得る。いくつかの実施形態では、ユーザインタフェース言語切り替えシステム300により、ユーザインタフェースパネル145のハードボタンの使用を省略することができ、ユーザ335は、例えば取扱説明書を参照することなく、ユーザインタフェース言語を容易に変更できる。
図4は、開示された実施形態による、音声制御装置を使用して、ネットワークに接続された装置140のユーザインタフェース言語を切り替える方法400の、論理的な操作ステップを示す、操作の上位レベルのフローチャートである。ブロック410に示されるように、1ステップ即ち論理的な操作が実行され得る。ここでは、ユーザインタフェース言語切り替えモジュール280は、ネットワークに接続された装置140に配置されたか、又は関連付けられた音声認識装置380(例えば、マイクロフォン)から、ユーザ335の音声コマンド310を受信するために、例えば、ネットワークに接続された装置140(例えば、複写機、MFD、又は手持ち式演算装置)に関連付けられている。その後、ブロック420に示されるように、1ステップ即ち論理的な操作が実行され得る。ここでは、言語データベース320を使用して、ユーザインタフェース145上に表示された言語を判定するために、音声コマンド310が、認識され、特定のコンテンツへと処理される。その後、ブロック430に記載されるように、ユーザインタフェース言語を、検出された言語に基づき変更することができ、ユーザ335は、ユーザインタフェース言語を容易に変更できる。
そして、ユーザインタフェース言語を切り替える方法400のブロック図に示されるように、1ステップ即ち論理的な操作が実行され得る。ここでは、音声認識部305が、ユーザ335によって話される所望の言語での、1つ以上の発話又は言葉を含む、音声ベースの入力を受信する言語データベース320は、ネットワークに接続された装置140に事前にインストールできる、互いに異なる言語の翻訳を示すデータを含むように構成され得る。ユーザインタフェース言語切り替えシステム300は、音声認識装置380から、ユーザ335の音声コマンド310を認識することにより、メッセージ及び他の情報を、いくつかの言語のうちの、いずれか1つの言語で表示するために使用される言語を選択する。そのような手法であるユーザインタフェース言語を切り替える方法400により、1つ以上の複数の言語が使われている複数の場所で装置を使用するために、ネットワークに接続された装置140のユーザインタフェース言語を切り替える。
本明細書に論じられている実施形態に対する変形形態があり得ることが理解されるであろう。例えば、一代替形態では、本明細書に図示され、説明された言語処理は、必ずしも装置から分けて、即ち離れて行われるわけではない。即ち、一代替形態では、装置は、いかなる離れた装置又はデータベースからも独立して、言語検出を実現できるように構成され得る。
また、上述のように、実施形態は、MFDの使用に対して開示されているわけではない。MFDに対する参照は、単なる例示目的であり、MFDが、開示された実施形態の特徴を限定するとは見なされない。開示された手法は、例えば、自動車関係の装置及びアプリケーション等の、潜在的な利益を有する他の領域に広がり得る。自動車関係の一実施形態は、例えば、運転者の言語を検出し、特にレンタカーで使えるエンタテインメントシステムに合わせて、言語を自動的に設定することを含み得る。
最後に、装置は、フィードバックが、音声ユーザインタフェースに対して、自然文によって供給される状態で、音声認識によって制御され得る。そのような実装はまた、GUIを用いなくとも機能することが可能である。例えば、考えられる一実施形態では、電話予約システムが実装され得る。電話予約システムにより、最初の一言、例えば「もしもし」に基づき、言語が切り替えられる。他の実装は、例えば、Googleの眼鏡型装置、及び他の音声ベースの個人用補助装置等の、装置の領域に存在し得る。

Claims (10)

  1. 装置に関連付けられた音声認識部から、前記装置に関連付けられた言語切り替えモジュールにより、音声コマンドを受信することと、
    言語データベースを使用して、前記装置に関連付けられた言語を識別するために、前記音声コマンドを認識し、特定のコンテンツに処理することと、
    取扱説明書を参照することなく、前記言語が変更され得るように、検出された言語に基づき、前記言語を変更することとを含む、音声認識方法。
  2. 音声認識により、前記装置を制御することをさらに含む、請求項1に記載の音声認識方法。
  3. 所望の言語での、少なくとも1つの発話及び/又は言葉を含む前記音声コマンドを受信することをさらに含む、請求項1に記載の音声認識方法。
  4. 前記データベースが、前記装置に事前にインストールできる、複数の言語の翻訳を示すデータを含む、請求項1に記載の音声認識方法。
  5. プロセッサと、
    コンピュータプログラムコードを組み入れたコンピュータで使用可能な媒体であって、前記コンピュータで使用可能な媒体が、前記プロセッサと通信することができ、前記コンピュータプログラムコードが、前記プロセッサによって実行することが可能な命令を含み、かつ、
    装置に関連付けられた音声認識部から、前記装置に関連付けられた言語切り替えモジュールにより、音声コマンドを受信し、
    言語データベースを使用して、前記装置に関連付けられた言語を識別するために、前記音声コマンドを認識し、特定のコンテンツに処理し、
    取扱説明書を参照することなく、前記言語が変更され得るように、検出された言語に基づき、前記言語を変更するように構成される、コンピュータプログラムコードを組み入れたコンピュータで使用可能な媒体とを備える、音声認識システム。
  6. 前記命令が、音声認識により、前記装置を制御するようにさらに構成される、請求項5に記載の音声認識システム。
  7. 前記命令が、所望の言語での、少なくとも1つの発話及び/又は言葉を含む前記音声コマンドを受信するようにさらに構成される、請求項5に記載の音声認識システム。
  8. 音声認識のプロセスを生じさせるための命令を有するコンピュータコードを格納するプロセッサ可読媒体であって、前記コンピュータコードが、
    装置に関連付けられた音声認識部から、前記装置に関連付けられた言語切り替えモジュールにより、音声コマンドを受信し、
    言語データベースを使用して、前記装置に関連付けられた言語を識別するために、前記音声コマンドを認識し、特定のコンテンツに処理し、
    取扱説明書を参照することなく、前記言語が変更され得るように、検出された言語に基づき、前記言語を変更するためのコードをさらに含む、プロセッサ可読媒体。
  9. 前記コードが、音声認識により、前記装置を制御するためのコードをさらに含む、請求項8に記載のプロセッサ可読媒体。
  10. 前記コードが、所望の言語での、少なくとも1つの発話及び/又は言葉を含む前記音声コマンドを受信するためのコードをさらに含む、請求項8に記載のプロセッサ可読媒体。
JP2015122505A 2014-06-30 2015-06-18 音声認識 Pending JP2016014874A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US14/319,247 US9536521B2 (en) 2014-06-30 2014-06-30 Voice recognition
US14/319,247 2014-06-30

Publications (2)

Publication Number Publication Date
JP2016014874A true JP2016014874A (ja) 2016-01-28
JP2016014874A5 JP2016014874A5 (ja) 2018-07-26

Family

ID=53433143

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015122505A Pending JP2016014874A (ja) 2014-06-30 2015-06-18 音声認識

Country Status (3)

Country Link
US (1) US9536521B2 (ja)
EP (1) EP2963641A1 (ja)
JP (1) JP2016014874A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200028158A (ko) * 2018-09-06 2020-03-16 주식회사 케이티 다국어 음성 명령 서비스를 제공하는 미디어 재생 장치, 방법 및 컴퓨터 프로그램
JP2020040329A (ja) * 2018-09-12 2020-03-19 コニカミノルタ株式会社 画像形成装置、制御プログラム、および画像形成システム
JP2020087347A (ja) * 2018-11-30 2020-06-04 株式会社リコー 音声操作システム、音声操作方法、及び音声操作プログラム
JP2020155997A (ja) * 2019-03-20 2020-09-24 株式会社リコー 音声操作システム、音声操作方法、及び音声操作プログラム
JP2020182988A (ja) * 2019-04-26 2020-11-12 ファナック株式会社 ロボット教示装置
JP2021044737A (ja) * 2019-09-12 2021-03-18 三菱電機インフォメーションネットワーク株式会社 デジタル名札表示切替システム、デジタル名札表示切替装置およびデジタル名札表示切替プログラム

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9798716B2 (en) * 2014-12-10 2017-10-24 James E. Niles Internet of things language setting system
US9672831B2 (en) * 2015-02-25 2017-06-06 International Business Machines Corporation Quality of experience for communication sessions
CN106157955A (zh) 2015-03-30 2016-11-23 阿里巴巴集团控股有限公司 一种语音控制方法及装置
JP6520457B2 (ja) * 2015-06-24 2019-05-29 株式会社リコー 情報処理システム、操作対象機器及び情報処理プログラム
US20180239583A1 (en) * 2015-09-02 2018-08-23 Hewlett-Packard Development Company, L.P. Voice control of a printer unit
US10229677B2 (en) * 2016-04-19 2019-03-12 International Business Machines Corporation Smart launching mobile applications with preferred user interface (UI) languages
US10490188B2 (en) 2017-09-12 2019-11-26 Toyota Motor Engineering & Manufacturing North America, Inc. System and method for language selection
WO2019055020A1 (en) * 2017-09-14 2019-03-21 Hewlett-Packard Development Company, L.P. IMPRESSION OF PRINT JOB BASED ON HUMAN VOICE ACTIVITY DETECTED CLOSE TO A PRINTING DEVICE
US11328724B2 (en) 2018-03-23 2022-05-10 Hewlett-Packard Development Company, L.P. Execution of workflow tasks corresponding to voice commands
EP3642834A1 (en) 2018-08-23 2020-04-29 Google LLC. Automatically determining language for speech recognition of spoken utterance received via an automated assistant interface
US11361168B2 (en) 2018-10-16 2022-06-14 Rovi Guides, Inc. Systems and methods for replaying content dialogue in an alternate language
CN111933130A (zh) * 2019-04-24 2020-11-13 阿里巴巴集团控股有限公司 语音识别方法、装置及***
IT201900021933A1 (it) * 2019-11-22 2021-05-22 Candy Spa Metodo e sistema per controllare e/o comunicare con un elettrodomestico mediante comandi vocali e con riconoscimento della lingua del comando vocale
CN112509580B (zh) * 2020-12-21 2023-12-19 阿波罗智联(北京)科技有限公司 语音处理方法、装置、设备、存储介质及计算机程序产品

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06243391A (ja) * 1993-02-15 1994-09-02 Hitachi Ltd ナビゲーションシステム
JPH0673800U (ja) * 1993-03-30 1994-10-18 富士通テン株式会社 音声認識装置
JP2001175278A (ja) * 1999-12-13 2001-06-29 Sharp Corp 表示手段を有する制御装置
JP2001296882A (ja) * 2000-04-14 2001-10-26 Alpine Electronics Inc ナビゲーションシステム
JP2003044074A (ja) * 2001-07-27 2003-02-14 Canon Inc 印刷処理装置、印刷処理方法、コンピュータ読み取り可能な記憶媒体及びコンピュータプログラム
JP2004351622A (ja) * 2003-05-27 2004-12-16 Ricoh Co Ltd 画像形成装置、プログラムおよび記録媒体
JP2005257903A (ja) * 2004-03-10 2005-09-22 Canon Inc 画像形成装置および音声入力処理方法およびコンピュータが読み取り可能なプログラムを格納した記憶媒体およびプログラム

Family Cites Families (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4353653A (en) 1979-10-19 1982-10-12 International Business Machines Corporation Font selection and compression for printer subsystem
US5581600A (en) 1992-06-15 1996-12-03 Watts; Martin O. Service platform
JPH08108602A (ja) 1994-08-11 1996-04-30 Seiko Epson Corp テープ印刷装置
US5974372A (en) 1996-02-12 1999-10-26 Dst Systems, Inc. Graphical user interface (GUI) language translator
US6295391B1 (en) * 1998-02-19 2001-09-25 Hewlett-Packard Company Automatic data routing via voice command annotation
JP4292646B2 (ja) * 1999-09-16 2009-07-08 株式会社デンソー ユーザインタフェース装置、ナビゲーションシステム、情報処理装置及び記録媒体
US6304844B1 (en) * 2000-03-30 2001-10-16 Verbaltek, Inc. Spelling speech recognition apparatus and method for communications
JP3588038B2 (ja) 2000-06-28 2004-11-10 シャープ株式会社 印刷出力ユーザインタフェース制御方法およびその方法をプログラムとして格納した記録媒体ならびにそのプログラムを実行する印刷データ供給装置と情報処理システム
US6999932B1 (en) * 2000-10-10 2006-02-14 Intel Corporation Language independent voice-based search system
WO2002050817A1 (en) * 2000-12-20 2002-06-27 Koninklijke Philips Electronics N.V. Speechdriven setting of a language of interaction
US7577569B2 (en) * 2001-09-05 2009-08-18 Voice Signal Technologies, Inc. Combined speech recognition and text-to-speech generation
WO2004023455A2 (en) * 2002-09-06 2004-03-18 Voice Signal Technologies, Inc. Methods, systems, and programming for performing speech recognition
US8539344B2 (en) 2001-11-19 2013-09-17 Ricoh Company, Ltd. Paper-based interface for multimedia information stored by multiple multimedia documents
US7424129B2 (en) * 2001-11-19 2008-09-09 Ricoh Company, Ltd Printing system with embedded audio/video content recognition and processing
EP1687961A2 (en) * 2003-11-14 2006-08-09 Voice Signal Technologies Inc. Installing language modules in a mobile communication device
FI115274B (fi) 2003-12-19 2005-03-31 Nokia Corp Puhekäyttöliittymällä varustettu elektroninen laite ja menetelmä elektronisessa laitteessa käyttöliittymäkieliasetuksien suorittamiseksi
TWI249688B (en) 2004-09-29 2006-02-21 Inventec Corp Human-machine interactive interface language conversion method and system
EP1825395A4 (en) * 2004-10-25 2010-07-07 Yuanhua Tang FULL TEXT INTERROGATION AND RESEARCH SYSTEMS AND METHODS OF USE
US20060136220A1 (en) * 2004-12-22 2006-06-22 Rama Gurram Controlling user interfaces with voice commands from multiple languages
TWI293753B (en) * 2004-12-31 2008-02-21 Delta Electronics Inc Method and apparatus of speech pattern selection for speech recognition
US7996269B2 (en) 2005-06-22 2011-08-09 Xerox Corporation Using mobile phones to provide access control and usage fee charges for MFDs
CN101034390A (zh) * 2006-03-10 2007-09-12 日电(中国)有限公司 用于语言模型切换和自适应的装置和方法
US7873517B2 (en) * 2006-11-09 2011-01-18 Volkswagen Of America, Inc. Motor vehicle with a speech interface
US7988050B2 (en) 2008-10-15 2011-08-02 Ricoh Company, Ltd. System, method and apparatus for processing an embedded barcode
US8505066B2 (en) 2008-10-28 2013-08-06 Ricoh Company, Ltd. Security audit system and method
US8643567B2 (en) 2009-05-28 2014-02-04 Xerox Corporation Multi-layer display
WO2011097174A1 (en) * 2010-02-05 2011-08-11 Nuance Communications, Inc. Language context sensitive command system and method
US20120113019A1 (en) * 2010-11-10 2012-05-10 Anderson Michelle B Portable e-reader and method of use
US8941847B2 (en) 2012-07-26 2015-01-27 Fuji Xerox Co., Ltd. Mobile scan setup and context capture prior to scanning
US9218333B2 (en) * 2012-08-31 2015-12-22 Microsoft Technology Licensing, Llc Context sensitive auto-correction
US20140317523A1 (en) * 2013-04-19 2014-10-23 Microsoft Corporation User experience mode transitioning
US20150006147A1 (en) * 2013-07-01 2015-01-01 Toyota Motor Engineering & Manufacturing North America, Inc. Speech Recognition Systems Having Diverse Language Support
US9575720B2 (en) * 2013-07-31 2017-02-21 Google Inc. Visual confirmation for a recognized voice-initiated action

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06243391A (ja) * 1993-02-15 1994-09-02 Hitachi Ltd ナビゲーションシステム
JPH0673800U (ja) * 1993-03-30 1994-10-18 富士通テン株式会社 音声認識装置
JP2001175278A (ja) * 1999-12-13 2001-06-29 Sharp Corp 表示手段を有する制御装置
JP2001296882A (ja) * 2000-04-14 2001-10-26 Alpine Electronics Inc ナビゲーションシステム
JP2003044074A (ja) * 2001-07-27 2003-02-14 Canon Inc 印刷処理装置、印刷処理方法、コンピュータ読み取り可能な記憶媒体及びコンピュータプログラム
JP2004351622A (ja) * 2003-05-27 2004-12-16 Ricoh Co Ltd 画像形成装置、プログラムおよび記録媒体
JP2005257903A (ja) * 2004-03-10 2005-09-22 Canon Inc 画像形成装置および音声入力処理方法およびコンピュータが読み取り可能なプログラムを格納した記憶媒体およびプログラム

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200028158A (ko) * 2018-09-06 2020-03-16 주식회사 케이티 다국어 음성 명령 서비스를 제공하는 미디어 재생 장치, 방법 및 컴퓨터 프로그램
KR102638373B1 (ko) * 2018-09-06 2024-02-20 주식회사 케이티 다국어 음성 명령 서비스를 제공하는 미디어 재생 장치, 방법 및 컴퓨터 프로그램
JP2020040329A (ja) * 2018-09-12 2020-03-19 コニカミノルタ株式会社 画像形成装置、制御プログラム、および画像形成システム
JP7135625B2 (ja) 2018-09-12 2022-09-13 コニカミノルタ株式会社 画像形成装置、制御プログラム、および画像形成システム
JP2020087347A (ja) * 2018-11-30 2020-06-04 株式会社リコー 音声操作システム、音声操作方法、及び音声操作プログラム
JP2020155997A (ja) * 2019-03-20 2020-09-24 株式会社リコー 音声操作システム、音声操作方法、及び音声操作プログラム
JP7180480B2 (ja) 2019-03-20 2022-11-30 株式会社リコー 音声操作システム、音声操作方法、及び音声操作プログラム
JP2020182988A (ja) * 2019-04-26 2020-11-12 ファナック株式会社 ロボット教示装置
JP7063844B2 (ja) 2019-04-26 2022-05-09 ファナック株式会社 ロボット教示装置
JP2021044737A (ja) * 2019-09-12 2021-03-18 三菱電機インフォメーションネットワーク株式会社 デジタル名札表示切替システム、デジタル名札表示切替装置およびデジタル名札表示切替プログラム

Also Published As

Publication number Publication date
US20150379986A1 (en) 2015-12-31
US9536521B2 (en) 2017-01-03
EP2963641A1 (en) 2016-01-06

Similar Documents

Publication Publication Date Title
JP2016014874A (ja) 音声認識
KR102045585B1 (ko) 적응식 입력 언어 전환
JP6916167B2 (ja) 音声及びビデオ通話のためのインタラクティブ制御方法及び装置
JP6032713B2 (ja) 電子装置及びそのデータ処理方法
US8463592B2 (en) Mode supporting multiple language input for entering text
JP5928743B2 (ja) アプリケーションにおいてユーザ・インターフェース要素を示す方法
JP7159000B2 (ja) 自然言語に基づく複合機制御システム及び方法
US20110066431A1 (en) Hand-held input apparatus and input method for inputting data to a remote receiving device
US10248441B2 (en) Remote technology assistance through dynamic flows of visual and auditory instructions
CN102945120B (zh) 一种基于儿童应用中的人机交互辅助***及交互方法
CN106504748A (zh) 一种语音控制方法和装置
US11140534B2 (en) Non-intrusive proximity based advertising and message delivery
US9207777B2 (en) Electronic device with predictive URL domain key function
CN103838375B (zh) 终端输入方法及终端
US20130231914A1 (en) Providing translation alternatives on mobile devices by usage of mechanic signals
US20220382430A1 (en) Shortcut keys for virtual keyboards
US20140298177A1 (en) Methods, devices and systems for interacting with a computing device
US8788257B1 (en) Unified cross platform input method framework
CN117808013A (zh) 一种互动式多语言交流***
US11126524B2 (en) Configuration of key-mapping
KR100949202B1 (ko) 메시지 생성 장치 및 그 생성 방법
KR20190072177A (ko) 채팅 리스트 제공 사용자 단말
JP6652370B2 (ja) 翻訳システム及び選択装置
EP3276925B1 (en) Contact information adding method and user equipment
EP2728836B1 (en) Electronic device with predictive url domain key function

Legal Events

Date Code Title Description
RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20150630

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20150924

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180614

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180614

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20180614

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20180727

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180807

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20181105

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190212

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20190917