JP4667138B2 - 音声認識方法及び音声認識装置 - Google Patents

音声認識方法及び音声認識装置 Download PDF

Info

Publication number
JP4667138B2
JP4667138B2 JP2005191538A JP2005191538A JP4667138B2 JP 4667138 B2 JP4667138 B2 JP 4667138B2 JP 2005191538 A JP2005191538 A JP 2005191538A JP 2005191538 A JP2005191538 A JP 2005191538A JP 4667138 B2 JP4667138 B2 JP 4667138B2
Authority
JP
Japan
Prior art keywords
item
speech recognition
displayed
grammar
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2005191538A
Other languages
English (en)
Other versions
JP2007010971A (ja
Inventor
賢一郎 中川
誠 廣田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2005191538A priority Critical patent/JP4667138B2/ja
Priority to US11/472,908 priority patent/US7668719B2/en
Priority to EP06253332A priority patent/EP1739656B1/en
Priority to DE602006007062T priority patent/DE602006007062D1/de
Priority to AT06253332T priority patent/ATE433180T1/de
Priority to KR1020060059540A priority patent/KR100815731B1/ko
Priority to CN2006100907781A priority patent/CN1892819B/zh
Publication of JP2007010971A publication Critical patent/JP2007010971A/ja
Application granted granted Critical
Publication of JP4667138B2 publication Critical patent/JP4667138B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • User Interface Of Digital Computer (AREA)
  • Digital Computer Display Output (AREA)
  • Mobile Radio Communication Systems (AREA)

Description

本発明は、音声認識文法を用いて入力音声を認識する音声認識装置に関するものである。
音声は、人間にとって自然なインタフェースであり、子供や老人等の機器に不慣れなユーザ、あるいは視覚に障害がある者にとって特に有効なUI(User Interface)として受け入れられている。この音声UIとGUI(Graphical User Interface)を組み合わせたデータ入力の手法が近年注目されており、W3C Multimodal Interaction Activity (http://www.w3.org/2002/mmi/)やSALT Forum (http://www.saltforum.org/)で議論が進んでいる。
音声でのデータ入力は、公知の技術である音声認識を使うことが一般的である。この音声認識は、入力音声と音声認識文法中に記述された認識対象の語彙とを比較し、もっとも適合度の高い語彙を認識結果として出力する処理である。このため、音声認識文法の規模や数が増えるに従い、認識性能が低下するという問題がある。これを回避するため特許文献1では、GUIで現在ユーザに表示されている項目を検出し、その項目に対応している音声認識文法を用いて音声認識を行うという技術が開示されている。これにより、音声認識で用いる認識対象語彙数を制限することができ、音声認識の認識性能低下を防ぐことが可能となる。
ところで、音声UIを備えたシステムでは、特定のキー(Push To Talk キーと呼ぶ)を押してからユーザに発声を開始してもらうものが多い。この方式の利点は、システムの音声区間の検出が容易となることであり、雑音の大きい環境下でも音声認識の性能低下を抑えることができる。このような Push To Talk キーを複数備え、それぞれのキーに意味を持たせる先行技術がある。例えば、特許文献2では、使用されたPush To Talkキーによって使用する音声認識文法のセットが切り替わる技術が開示されている。これにより、ユーザはキー押下によって発声開始タイミングを通知すると同時に、使用する音声認識文法のセットを選択することが可能となる。
特願2002−527218号公報 特開2003−202890号公報
音声認識で用いる認識語彙を削減する先行技術に関しては、上で述べたとおり、特許文献1がある。しかし、特許文献1では、GUIとして表示されている範囲の入力対象へ音声による入力が可能であるが、表示されていない入力対象への音声入力については考慮されていない。例えば操作に慣れているユーザの場合は表示されていない入力対象に対して入力を行いたい場合も考えられるが特許文献1ではこれに対応することが難しい。
また複数のPush To Talkキーを用いた先行技術には、上記の通り特許文献2がある。しかし、これらは表示に応じて音声認識文法を切り替えるものではない。
本発明は上記課題を解決するための、複数の項目の夫々にデータを設定する情報処理方法であって、音声認識開始を指示する指示手段の指示が、表示画面に表示されていない項目を有効にする指示であった場合に、表示されていない項目に対応する音声認識文法を用いて、受信した音声情報を認識する認識工程と、前記認識工程で認識した結果を用いて、前記項目に対して設定を行う設定工程とを備えたことを特徴とする。
本発明により、各項目の表示状態に応じた音声認識文法の調整が可能となる。
以下、図面を参照しながら本発明の好適な実施例について説明していく。
図1は、実施例1の情報処理装置の機能構成図である。図2は、情報処理装置の動作フローである。また、図5は、この装置のGUI部分を例示したものである。ここでは、これらの図を用いて説明する。なお、ここでは複写機の設定を音声UIとGUIで行う例を用いる。
まず、本装置にはディスプレイやタッチパネルといったGUI表示部(101)が備わっており、ここでGUIをユーザに提示する。このときのGUI画面の例が図5である。なお、装置のGUI表示デバイスの制限により、一度に全ての情報が表示できるとは限らない。この際、図5の501、502のように、スクロールバー(504)を上下にスライドさせることにより、ユーザは表示領域を変更することが可能である。
音声入力モード開始等の特定のイベントが生じると、本発明の処理が開始され、図2のフローに入る。ここでは、そのときのGUI画面が501の状態であったとして説明する。
まず、GUI検知手段(102)により、現在描画されているGUIコンポーネントを1つ取得する(S201)。ここでは、描画と表示という言葉を使い分けて説明する。描画とは出力デバイスのメモリ(例えばVRAM)にGUIコンポーネントのビューデータを配置することである。表示は、実際にユーザが目視できる形でディスプレイ等に出力することである。
GUI検知手段により取得されたGUIコンポーネントをGUIコンポーネントAとする。GUIコンポーネントとは、GUIを構成する要素で、GUIによるボタンやテキストボックス、リストボックス等があり、設定対象の項目等を表す。次に、取得されたGUIコンポーネントが現在ディスプレイに表示されているかどうかを判定し、表示されているGUIコンポーネント、表示されていないGUIコンポーネントを検知する(S202)。表示されているかどうかは、各GUIコンポーネントの位置、GUI画面の大きさ、スクロールバーの状態等から判断することが可能である。例えば、501の状態で、GUI画面と実際の表示領域の関係を表したものが図8である。このとき、完全に見えているものだけを“表示されている”と定義すると、表示されているGUIコンポーネントは“Paper Size”に対応するテキストエリア2と、“Copy Ratio”に対応するテキストエリア3だけである。
GUIコンポーネントAが表示されていると判断されると、表示領域グラマ選択部(105)が音声認識グラマ格納部(104)にアクセスし、GUIコンポーネントAに対応する音声認識グラマを選択し取得する。そして、取得したグラマをグラマAとする(S203)。GUIコンポーネントに対応する音声認識グラマを選択するには、GUIコンポーネント名と音声認識グラマ名の対応表を用いてもよい。図7はこの対応表の例である。例えば、この表を用い、GUIコンポーネントAがテキストエリア2である場合、その音声認識グラマ名はPaperSize.xmlとなる。
一方、GUIコンポーネントAが表示されていないと判断されると、非表示領域グラマ選択部(103)が音声認識グラマ格納部(104)にアクセスし、GUIコンポーネントAに対応する音声認識グラマを選択し取得する。なお、本実施例では文法をグラマと表現して説明する。そして、取得したグラマをグラマA’とする(S204)。このときも図7のようなGUIコンポーネント名と音声認識グラマ名の対応表を用いてもよい。選択された音声認識グラマA’は制限済み非表示領域グラマ生成部(106)に送られる。ここで音声認識グラマA’の内容を解析し、音声認識グラマA’から語彙を制限した音声認識グラマAを生成する(S205)。この語彙を制限した音声認識グラマは予め生成しておいても良い。
グラマ内の語彙の制限を説明するために、図6のグラマを用いて説明する。この音声認識グラマは、“A4”、“A3”等のコピー用紙のサイズを受理する音声認識グラマであり、Speech Recognition Grammar Specification Version 1.0(http://www.w3.org/TR/speech−grammar/)の言語仕様で記述されている。この音声認識グラマ(601)は、ルートルール名が“main”ルールである(602)。そのため、この音声認識グラマを一般的な手法で解析すると、まず“main”という名のルール(603)が展開される。mainルールは、内部で“slot_name”、“slot_value”という二つのルールを参照している(604)。“slot_name”は、設定の項目名(設定の種類)に対応する語彙セットであり、“slot_value”は項目値(設定項目に入れる具体的なデータ)に対応する語彙セットである。これら二つのルールの実体は、605で記述されている。
つまり、この音声認識グラマを手を加えずに解析すると、“slot_name”、“slot_value”というルールが展開され、“Paper Size”といった項目名や、“A4”、“A3”といった項目値が認識可能となる。しかし、展開するルールを“slot_name”だけに制限することにより、“Paper Size”や“Size”といった項目名しか受理しないようになる。
501の例では、GUIコンポーネントのテキストエリア1とテキストエリア4が非表示であるとみなされるため、図7より、“PaperNumber.xml”と“Density.xml”が非表示領域グラマ(音声認識グラマA’)として選択される。更に、この二つのグラマは、展開するルールを“slot_name”だけに制限することにより、項目名しか受理できないようにする。制限されたグラマを音声認識グラマAとする。
GUIコンポーネントAに対応する音声認識グラマAは、音声認識部(107)に送られ、音声認識エンジンに登録される(S206)。そして、全てのGUIコンポーネントが処理されたかを確認し(S207)、されていた場合は登録されたグラマを用いて音声認識を実行する(S208)。
501の例では、“PaperSize.xml”、“CopyRatio.xml”がそのまま音声認識エンジンに登録され、“PaperNumber.xml”と“Density.xml”が項目名しか発声できない形で制限され登録される。従って、ユーザは、“Paper Size”と“Copy Ratio”に関する項目値(例、“A4”、“400%”)、項目名(例、“Paper Size”、“Copy Ratio”)、“Paper Number”と“Density”に関する項目名(例、“Paper Number”、“Density”)を発声することで入力することが可能である。“Paper Number”と“Density”に関する項目値を発声しても認識されないことになる。
以上が、実施例1の装置の動作である。この装置を用いると、次のようなアプリケーションが構築可能である。音声認識の結果として項目値が出力された場合、結果を対応するテキストエリアに入力する。例えば、501の状態で“A4”が認識結果として出力された場合は、Paper Sizeのテキストエリアに“A4”という文字列が入る。“Density”のような項目名が認識結果として出力された場合、その項目名に対応する場所を表示するよう制御する。具体的には、その項目名に対応する場所にスクロール移動する。例えば、502のようにスクロール移動する。一般的に、ユーザはGUIに表示されていない項目の項目値を発声することが少ない。このため、表示されていない項目の項目値を認識語彙から外してもユーザビリティはそれほど低下しないものと思われる。逆に、認識語彙が削減されることにより、認識性能の向上が見込まれる。
実施例1に対して更に、複数の音声認識トリガを組み合わせることも可能である。音声入力を用いた対話装置では、発声開始時に特定キーの押下を強いるものが多い。これは、音声認識の前処理である音声区間検出処理の精度を向上させるためである。ここではこのキーをPush To Talkキーと呼ぶ。このPush To Talkキーを複数備え、ユーザに押し分けてもらうことで、ユーザビリティを向上させることが可能である。ここは、図3、図4を用いて説明する。なお、図3において図1と同じ部分は同じ番号を振っている。
音声入力モード開始等の特定のイベントが生じると、本発明の処理が開始され、図4のフローに入る。ここでは、このときのGUI画面が501の状態であったとして説明する。S401〜S404まではS201〜S204と同じ処理のため、ここでの説明は省略する。
非表示領域グラマ選択部により非表示領域グラマが選択されると(S404)、そのグラマをGUIコンポーネントAに対するグラマAとする。そして、音声認識部(107)により、グラマAを音声認識エンジンに登録する(S405)。これらの処理を全てのGUIコンポーネントに対して行う(S406)。
次に、音声認識トリガ取り込み部(301)から、音声認識トリガの取り込みを行う(S407)。音声認識トリガとは、音声認識開始を指示する指示手段であり、先に説明したPush To Talkキーのことである。ここでは音声認識トリガを発生させるデバイスとして、“表示”と“非表示”と書かれた二つのPush To Talkキーが備わっていると仮定する。図9がこの例であり、903、904が“表示”キー、“非表示”キーに相当する。ユーザが、“表示”キーを押してから発声した場合、音声認識エンジンに登録された音声認識グラマの内、表示領域グラマだけを用いて音声認識を行う(S408)。“非表示”キーを押してから発声を行なった場合、非表示領域グラマだけを用いて音声認識を行う。
これにより、表示されている領域に関する発声であるか、表示されていない領域に関する発声であるかを、ユーザがキー入力により指定することが可能となる。キーを分けることで、音声認識処理での認識語彙削減に貢献でき、認識率を向上することが可能となる。また、キーを”表示”、”非表示”で分けるためユーザも直感的に判断することが可能である。
実施例2では、“表示”、“非表示”と書かれた2つのPush To Talkキーを用いた。しかし、これは一例であり、その他のキーあるいはイベントを音声認識開始トリガとしてもよい。例えば、キーが押されずに発声を検知することを一つの音声認識開始トリガとみなすことも可能である。これにより、キーが押された場合は、非表示領域グラマで音声認識を行い、キーが押されずに発声を検知した場合は表示領域グラマを用いて音声認識を行うといったことも可能である。
これにより、ユーザは、表示されている領域に関しては、Push To Talkキーを押さずに発声できるようになる。逆に、キーが押された場合は、表示領域グラマで音声認識を行い、キーが押されずに発声を検知した場合は非表示領域グラマを用いて音声認識を行うといったことも可能であることは言うまでもない。
実施例1では、表示されているGUIコンポーネントに対応した音声認識グラマ(表示領域グラマ)と、表示されていないGUIコンポーネントに対応した音声認識グラマに制限を与えたもの(制限済み非表示領域グラマ)を音声認識に用いた。これと実施例2で用いた複数の音声認識開始トリガを組み合わせてもよい。
例えば、“表示”と“非表示”と書かれた二つのPush To Talkキーを用い、ユーザが“表示”キーを押してから発声した場合、音声認識エンジンに登録された音声認識グラマの内、表示領域グラマだけを用いて音声認識を行う。“非表示”キーを押してから発声を行なった場合、制限済み非表示領域グラマだけを用いて音声認識を行う。
これにより、画面に表示されていないGUIコンポーネントに対応した音声認識語彙を制限することができるため、音声認識性能の向上が見込まれる。更に、Push To Talkキーの選択によっても、音声認識グラマを制限することになるため、更なる音声認識語彙の削減が期待できる。
なお、本発明の目的は、前述した実施例の機能を実現するソフトウェアのプログラムコードを記録した記憶媒体を、システムあるいは装置に供給し、そのシステムあるいは装置のコンピュータ(またはCPUやMPU)が記憶媒体に格納されたプログラムコードを読み出し実行することによっても達成されることは言うまでもない。
この場合、記憶媒体から読み出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコードを記憶した記憶媒体は本発明を構成することになる。
プログラムコードを供給するための記憶媒体としては、例えば、フレキシブルディスク、ハードディスク、光ディスク、光磁気ディスク、CD−ROM、CD−R、磁気テープ、不揮発性のメモリカード、ROMなどを用いることができる。
また、コンピュータが読出したプログラムコードを実行することにより、前述した実施形態の機能が実現されるだけでなく、そのプログラムコードの指示に基づき、コンピュータ上で稼働しているOS(オペレーティングシステム)などが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
さらに、記憶媒体から読出されたプログラムコードが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書込まれた後、そのプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPUなどが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
実施例1の情報処理装置の機能構成図である。 実施例1の情報処理装置の動作フローである。 実施例2の情報処理装置の機能構成図である。 実施例2の情報処理装置の動作フローである。 実施例の情報処理装置のGUI画面例である。 実施例で用いる音声認識グラマの例である。 実施例の情報処理装置のGUIコンポーネント名と音声認識グラマ名の対応表の例である。 GUI画面とGUI表示領域との関係を表した図である。 実施例2の情報処理装置のGUI画面例である。

Claims (6)

  1. 複数の項目の夫々にデータを設定する情報処理方法であって、
    音声認識開始を指示する指示手段の指示が、表示画面に表示されていない項目を有効にする指示であった場合に、表示されていない項目に対応する音声認識文法を用いて、受信した音声情報を認識する認識工程と、
    前記認識工程で認識した結果を用いて、前記項目に対して設定を行う設定工程とを備えたことを特徴とする情報処理方法。
  2. 前記表示されていない項目に対応する音声認識文法は、該項目が表示されている場合に用いられる音声認識文法よりも制限がかけられた音声認識文法であることを特徴とする請求項記載の情報処理方法。
  3. 前記認識工程は、音声認識開始を指示する指示手段の指示が、表示画面に表示されている項目を有効にする指示であった場合に、表示されている項目に対応する音声認識文法を用いて、受信した音声情報を認識することを特徴とする請求項記載の情報処理方法。
  4. 前記音声認識開始を指示する指示手段とはボタンであり、表示画面に表示されている項目を有効にするボタン及び表示画面に表示されていない項目を有効にするボタンの少なくとも2つであることを特徴とする請求項記載の情報処理方法。
  5. 請求項1乃至のいずれかに記載の情報処理方法をコンピュータに実行させるための制御プログラム。
  6. 複数の項目の夫々にデータを設定する情報処理装置であって、
    表示画面に表示されていない項目を検知する検知手段と、
    音声認識開始を指示する指示手段の指示が、表示画面に表示されていない項目を有効にする指示であった場合に、前記検知手段で検知した表示されていない項目に対応する音声認識文法を用いて、受信した音声情報を認識する認識手段と、
    前記認識手段で認識した結果を用いて、前記項目に対して設定を行う設定手段とを備えたことを特徴とする情報処理装置。
JP2005191538A 2005-06-30 2005-06-30 音声認識方法及び音声認識装置 Expired - Fee Related JP4667138B2 (ja)

Priority Applications (7)

Application Number Priority Date Filing Date Title
JP2005191538A JP4667138B2 (ja) 2005-06-30 2005-06-30 音声認識方法及び音声認識装置
US11/472,908 US7668719B2 (en) 2005-06-30 2006-06-22 Speech recognition method and speech recognition apparatus
DE602006007062T DE602006007062D1 (de) 2005-06-30 2006-06-27 Vorrichtung und Verfahren zur Spracherkennung
AT06253332T ATE433180T1 (de) 2005-06-30 2006-06-27 Vorrichtung und verfahren zur spracherkennung
EP06253332A EP1739656B1 (en) 2005-06-30 2006-06-27 Speech recognition method and speech recognition apparatus
KR1020060059540A KR100815731B1 (ko) 2005-06-30 2006-06-29 음성 인식 방법 및 음성 인식 장치
CN2006100907781A CN1892819B (zh) 2005-06-30 2006-06-30 语音识别方法和语音识别设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005191538A JP4667138B2 (ja) 2005-06-30 2005-06-30 音声認識方法及び音声認識装置

Publications (2)

Publication Number Publication Date
JP2007010971A JP2007010971A (ja) 2007-01-18
JP4667138B2 true JP4667138B2 (ja) 2011-04-06

Family

ID=37067634

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005191538A Expired - Fee Related JP4667138B2 (ja) 2005-06-30 2005-06-30 音声認識方法及び音声認識装置

Country Status (7)

Country Link
US (1) US7668719B2 (ja)
EP (1) EP1739656B1 (ja)
JP (1) JP4667138B2 (ja)
KR (1) KR100815731B1 (ja)
CN (1) CN1892819B (ja)
AT (1) ATE433180T1 (ja)
DE (1) DE602006007062D1 (ja)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4878471B2 (ja) * 2005-11-02 2012-02-15 キヤノン株式会社 情報処理装置およびその制御方法
US7822608B2 (en) * 2007-02-27 2010-10-26 Nuance Communications, Inc. Disambiguating a speech recognition grammar in a multimodal application
WO2008136081A1 (ja) * 2007-04-20 2008-11-13 Mitsubishi Electric Corporation ユーザインタフェース装置及びユーザインタフェース設計装置
US8306810B2 (en) * 2008-02-12 2012-11-06 Ezsav Inc. Systems and methods to enable interactivity among a plurality of devices
US9519353B2 (en) * 2009-03-30 2016-12-13 Symbol Technologies, Llc Combined speech and touch input for observation symbol mappings
KR101597289B1 (ko) * 2009-07-31 2016-03-08 삼성전자주식회사 동적 화면에 따라 음성을 인식하는 장치 및 방법
DE102009059792A1 (de) * 2009-12-21 2011-06-22 Continental Automotive GmbH, 30165 Verfahren und Vorrichtung zur Bedienung technischer Einrichtungen, insbesondere eines Kraftfahrzeugs
KR101207435B1 (ko) 2012-07-09 2012-12-04 다이알로이드(주) 대화형 음성인식 서버, 대화형 음성인식 클라이언트 및 대화형 음성인식 방법
CN103204100B (zh) * 2013-04-08 2015-08-05 浙江海联电子股份有限公司 一种出租车顶灯语音控制***
US9430186B2 (en) * 2014-03-17 2016-08-30 Google Inc Visual indication of a recognized voice-initiated action
CN106098066B (zh) * 2016-06-02 2020-01-17 深圳市智物联网络有限公司 语音识别方法及装置
US10515625B1 (en) 2017-08-31 2019-12-24 Amazon Technologies, Inc. Multi-modal natural language processing
CN110569017A (zh) * 2019-09-12 2019-12-13 四川长虹电器股份有限公司 基于语音的文本输入方法
US11967306B2 (en) 2021-04-14 2024-04-23 Honeywell International Inc. Contextual speech recognition methods and systems

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10222337A (ja) * 1997-02-13 1998-08-21 Meidensha Corp コンピュータシステム
JP2001042890A (ja) * 1999-07-30 2001-02-16 Toshiba Tec Corp 音声認識装置
JP2003157095A (ja) * 2001-11-22 2003-05-30 Canon Inc 音声認識装置及びその方法、プログラム
JP2004219728A (ja) * 2003-01-15 2004-08-05 Matsushita Electric Ind Co Ltd 音声認識装置

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5386494A (en) * 1991-12-06 1995-01-31 Apple Computer, Inc. Method and apparatus for controlling a speech recognition function using a cursor control device
JP3286339B2 (ja) * 1992-03-25 2002-05-27 株式会社リコー ウインドウ画面制御装置
US5890122A (en) 1993-02-08 1999-03-30 Microsoft Corporation Voice-controlled computer simulateously displaying application menu and list of available commands
CA2115210C (en) * 1993-04-21 1997-09-23 Joseph C. Andreshak Interactive computer system recognizing spoken commands
US5897618A (en) * 1997-03-10 1999-04-27 International Business Machines Corporation Data processing system and method for switching between programs having a same title using a voice command
US6182046B1 (en) 1998-03-26 2001-01-30 International Business Machines Corp. Managing voice commands in speech applications
US6499013B1 (en) * 1998-09-09 2002-12-24 One Voice Technologies, Inc. Interactive user interface using speech recognition and natural language processing
KR100430953B1 (ko) 1998-10-02 2004-05-12 인터내셔널 비지네스 머신즈 코포레이션 네트워크 협동 대화 서비스를 제공하기 위한 시스템 및 방법
US8275617B1 (en) * 1998-12-17 2012-09-25 Nuance Communications, Inc. Speech command input recognition system for interactive computer display with interpretation of ancillary relevant speech query terms into commands
JP2000268046A (ja) 1999-03-17 2000-09-29 Sharp Corp 情報処理装置
JP2002062213A (ja) * 2000-08-22 2002-02-28 Airec Engineering Corp 光ファイバ湿潤度センサ及びこのセンサを用いた湿潤度計測装置
CN1272698C (zh) 2000-10-11 2006-08-30 佳能株式会社 信息处理装置、信息处理方法
CN1156751C (zh) * 2001-02-02 2004-07-07 国际商业机器公司 用于自动生成语音xml文件的方法和***
JP4056711B2 (ja) * 2001-03-19 2008-03-05 日産自動車株式会社 音声認識装置
JP2003202890A (ja) 2001-12-28 2003-07-18 Canon Inc 音声認識装置及びその方法、プログラム
KR100567828B1 (ko) 2003-08-06 2006-04-05 삼성전자주식회사 향상된 음성인식 장치 및 방법

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10222337A (ja) * 1997-02-13 1998-08-21 Meidensha Corp コンピュータシステム
JP2001042890A (ja) * 1999-07-30 2001-02-16 Toshiba Tec Corp 音声認識装置
JP2003157095A (ja) * 2001-11-22 2003-05-30 Canon Inc 音声認識装置及びその方法、プログラム
JP2004219728A (ja) * 2003-01-15 2004-08-05 Matsushita Electric Ind Co Ltd 音声認識装置

Also Published As

Publication number Publication date
EP1739656A3 (en) 2007-02-28
KR20070003640A (ko) 2007-01-05
CN1892819A (zh) 2007-01-10
DE602006007062D1 (de) 2009-07-16
KR100815731B1 (ko) 2008-03-20
US7668719B2 (en) 2010-02-23
US20070005371A1 (en) 2007-01-04
ATE433180T1 (de) 2009-06-15
JP2007010971A (ja) 2007-01-18
CN1892819B (zh) 2010-04-21
EP1739656B1 (en) 2009-06-03
EP1739656A2 (en) 2007-01-03

Similar Documents

Publication Publication Date Title
JP4667138B2 (ja) 音声認識方法及び音声認識装置
JP4416643B2 (ja) マルチモーダル入力方法
JP3728304B2 (ja) 情報処理方法、情報処理装置、プログラム、及び記憶媒体
JP5166255B2 (ja) データ入力システム
JP4878471B2 (ja) 情報処理装置およびその制御方法
US7330868B2 (en) Data input apparatus and method
JP4574390B2 (ja) 音声認識方法
EP2017828A1 (en) Techniques for disambiguating speech input using multimodal interfaces
JP2006515073A (ja) 音声認識を実行するための方法、システム、及びプログラミング
JP6150268B2 (ja) 単語登録装置及びそのためのコンピュータプログラム
JP2007171809A (ja) 情報処理装置及び情報処理方法
EP3540565A1 (en) Control method for translation device, translation device, and program
JP2008145693A (ja) 情報処理装置及び情報処理方法
JP2005525603A (ja) ハンドヘルド装置用音声コマンド及び音声認識
JP3813132B2 (ja) プレゼンテーション用プログラム及びプレゼンテーション用装置
JP2008051883A (ja) 音声合成制御方法および装置
US7970617B2 (en) Image processing apparatus and image processing method with speech registration
JP4702081B2 (ja) 文字入力装置
US7761731B2 (en) Information processing apparatus and information processing method
JP2006235040A (ja) 画像形成装置、プログラムおよび記録媒体
JP2005182168A (ja) コンテンツ処理装置、コンテンツ処理方法、コンテンツ処理プログラム、および記録媒体
WO2018185716A1 (en) Method and device for proofreading text
JP2023118279A (ja) 電子文体の読取位置報知装置
JP2014127040A (ja) 情報処理装置、情報処理方法及びプログラム
JP2020118872A (ja) 情報入力システム及び方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080624

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20100201

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20100630

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100929

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20101019

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101213

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110105

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110111

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140121

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees