JP3267047B2 - 音声による情報処理装置 - Google Patents

音声による情報処理装置

Info

Publication number
JP3267047B2
JP3267047B2 JP08616894A JP8616894A JP3267047B2 JP 3267047 B2 JP3267047 B2 JP 3267047B2 JP 08616894 A JP08616894 A JP 08616894A JP 8616894 A JP8616894 A JP 8616894A JP 3267047 B2 JP3267047 B2 JP 3267047B2
Authority
JP
Japan
Prior art keywords
information
voice
input
candidate
displayed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP08616894A
Other languages
English (en)
Other versions
JPH07295784A (ja
Inventor
ハル 安藤
英明 菊池
信夫 畑岡
泰昌 松田
成人 大條
司 長谷川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP08616894A priority Critical patent/JP3267047B2/ja
Priority to EP95105941A priority patent/EP0680035B1/en
Priority to CN95104565A priority patent/CN1115057A/zh
Publication of JPH07295784A publication Critical patent/JPH07295784A/ja
Priority to US08/935,299 priority patent/US5864808A/en
Application granted granted Critical
Publication of JP3267047B2 publication Critical patent/JP3267047B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • User Interface Of Digital Computer (AREA)
  • Document Processing Apparatus (AREA)
  • Processing Or Creating Images (AREA)
  • Digital Computer Display Output (AREA)
  • Position Input By Displaying (AREA)

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、パソコン、ワークステ
ーション、ワープロ等のOA機器に搭載された音声を利
用した図形編集システムや、表示画面を有する音声応用
システム等のユーザインタフェースに関し、ユーザにと
って簡便なエラー処理手段を提供する。
【0002】
【従来の技術】従来、音声認識確度に応じて処理をする
システムの例に、JR品川駅にある、音声認識とタッチパ
ネルを利用した券売機がある。その券売機では入力され
た音声の認識結果の確度第一位の候補の認識確度が高い
場合には、処理を実行する。また、入力された音声の認
識結果の確度第一位の候補の認識確度が低い場合には、
確度第一位の候補だけでなく、その他の候補も提示して
ユーザに候補から正しい認識結果を選択させたり、再度
入力させたりしていた。
【0003】
【発明が解決しようとする課題】上記の従来技術は、ユ
ーザに対する確認処理や再度入力が入り、情報入力に時
間が掛かり過ぎるという問題があった。さらに認識確度
は低いがユーザの意図と合っている場合にもユーザへの
確認を求めることにより逆に煩わしいという問題があっ
た。本発明の目的はは、音声入力とその他の入浴方法
(例えばタッチパネルによる指示入力、キーボードを用
いた入力、マウスによる入力)を複数種類用いたときの
音声入力の誤認識エラーを、他の入力情報に影響を与え
ずに簡便に処理できる、図形編集、画像編集等のインタ
フェースを提供することにある。特に音声認識動作を伴
う図形編集、画像編集等に用いて好適なインターフェー
スを提供することにある。
【0004】
【課題を解決するための手段】上記の問題を解決するた
めに、少なくとも、情報を表示する情報表示手段と、ユ
ーザがポインティングジェスチャ等により連続した位置
情報を入力する位置情報入力手段と、音声情報を入力す
る音声情報入力手段と、前記入力手段により入力された
位置情報及び音声情報を記憶する記憶手段と、音響標準
パタンもしくは単語情報もしくは文法情報のうちの少な
くとも1つの情報を記憶する標準パタン情報記憶手段
と、前記入力手段により入力された音声を前記標準パタ
ン情報記憶手段に記憶されている音響標準パタンもしく
は単語情報もしくは文法情報のうちの少なくとも1つの
情報を用いて尤度を算出する音声情報解析手段を有する
情報処理装置において、まず、音声認識結果の確度第1
位の候補によって決定される処理をおこない結果を前記
情報表示手段に表示し、第2位以下の複数の音声認識結
果の候補は画面上にメニュー表示し、確度第1位の候補
による処理或いは表示が誤りであった場合、或いはユー
ザが誤入力した場合には、表示されたメニューより、指
やペン等によって第2位以下の候補から正しい入力候補
を選択し、それに伴う処理操作、あるいは表示を再度行
ない、表示されたメニュー中に正しい候補が無かった場
合には、必要な情報のみ再度音声入力するエラー処理手
段をを再度行なうエラー処理手段を備えた。
【0005】音声認識候補を選択する場合に、訂正にあ
たってポインティング情報などの音声による入力以外の
情報を再度入力する必要がないように、既に入力されて
いるポインティング情報などを記憶しておくエラー処理
手段を備えた。
【0006】表示されたメニュー中に正しい候補が無か
った場合には、必要な情報のみ再度音声入力することに
よって訂正することを可能とするエラー処理手段を備え
た。
【0007】再度音声入力の場合は、音声認識結果第一
候補とメニューに表示した第二位以下の候補を認識対象
からはずす手段を備えた。
【0008】確度第一位の候補によって決定される処理
或いは表示を実行すると共に、認識結果の内容そのもの
を画面に表示したり、該内容を音声にて出力する機能を
備えた。
【0009】ユーザが“移動”、“複写”等のコマンド
を音声入力し、さらに指やペン等で対象物や移動位置等
を指示することによって編集操作を行なう画像編集シス
テム等において、情報が入力されると、音声認識第一候
補であるコマンドによる操作を行ない、音声認識第二候
補以下をメニュー表示し、音声認識第一候補による操作
が誤りであった場合やユーザが誤入力した場合には、既
に入力されているポインティング情報等音声以外の情報
を記憶することにより、メニュー表示されている音声認
識候補第二位以下の複数のコマンドを指やペン等で選択
することのみで、それに伴う処理操作、あるいは表示を
再度行なうエラー処理手段を備えた。
【0010】
【作用】ユーザが音声と他の入力手段により情報を入力
すると、前記装置は、音声認識結果の確度第1位の候補
によって決定される処理あるいは表示を行ない、第2位
以下の複数の音声認識結果の候補を画面上にメニュー表
示する。確度第1位の候補による処理或いは表示が誤り
であった場合、或いはユーザが誤入力した場合には、表
示されたメニューより、指やペン等によって第2位以下
の候補から正しい入力候補を選択し、それに伴う処理操
作、あるいは表示を再度行なうエラー処理を行なうとい
った様に動作し、エラー処理を簡便に行なうことが可能
になる。また、音声認識候補を選択する場合に、訂正に
あたってポインティング情報などの音声による入力以外
の情報を再度入力する必要がないように、既に入力され
ているポインティング情報などを記憶しておくエラー処
理手段を備えることにより、ユーザが音声入力とともに
音声以外の情報を入力していた場合に正確に入力された
情報を再度入力する必要がなく、誤っている情報のみ入
力することが可能になる。また、表示されたメニュー中
に正しい候補が無かった場合には、音声認識結果第一候
補とメニューに表示した第二位以下の候補を認識対象か
らはずし、必要な情報のみ再度音声入力することによっ
て誤認識を訂正するエラー処理を行ない、認識候補をし
ぼって認識確度を高めることが可能になる。また、ユー
ザが“移動”、“複写”等のコマンドを音声入力し、さ
らに指やペン等で対象物や移動位置等を指示することに
よって編集操作を行なう画像編集システム等において、
情報が入力されると、音声認識第一候補であるコマンド
による操作を行ない、音声認識第二候補以下をメニュー
表示し、音声認識第一候補による操作が誤りであった場
合やユーザが誤入力した場合には、既に入力されている
ポインティング情報等音声以外の情報を記憶することに
より、メニュー表示されている音声認識候補第二位以下
の複数のコマンドを指やペン等で選択することのみで、
それに伴う処理操作、あるいは表示を再度行なうエラー
処理を行ない、エラー処理の工数を軽減することが可能
になる。さらに、確度第一位の候補によって決定される
処理或いは表示を実行すると共に、認識結果の内容その
ものを画面に表示したり、該内容を音声にて出力する機
能を備えることにより、ユーザが認識結果を確認するこ
とが可能になる。
【0011】
【実施例】以下、本発明の実施例を図を用いて説明す
る。ここでは、図形編集システムを想定して説明を行な
う。ただし、本発明は、該システムに限らず、CADシ
ステム、画像処理システム、情報検索システム一般への
応用が可能である。
【0012】図1は、本発明の一実施例を示すブロック
図である。図1において、ディスク上のシステムプログ
ラム11、図形編集プログラム12、音声認識プログラ
ム13、ポインティング領域読み込みプログラム14、
情報統合プログラム15、音声標準パタンデータ16、
単語辞書17は、システム立ち上げ時に、主記憶装置2
にロードされる。図2は、主記憶装置2にロードされた
図形編集プログラム12を通じてディスプレイ4に表示
された図形編集画面の一例である。同図においては、円
2個、三角形2個、長方形3個が、図形編集プログラム
12によって主記憶装置2に記憶された図形描画テーブ
ル(図3)に基づいてグラフィックモードで描かれてい
る。ユーザは、画面上の表示物のうちから対象物を1つ
指定し、編集作業を行なうこととする。まず、情報処理
装置1は、主記憶装置2上の音声認識プログラム13を
起動し、さらにポインティング領域読み込みプログラム
14を起動する。音声認識プログラム13は、図4に示
すように、音声入力プログラム131、特徴抽出プログ
ラム132、標準パタンマッチングプログラム133、
辞書マッチングプログラム134より構成されている。
音声認識プログラム13が起動されると、最初に、音声
入力プログラム131が起動される。ユーザは、タッチ
パネル5上で対象物、移動位置等を指示しながら同時に
マイク4を用いて音声で操作を指示する。その結果、該
図形編集システムは、ユーザの意図を理解し、図形編集
を行なう。本実施例では、図5の様に、ユーザが、マイ
ク4に向かって「この円をこちらにコピーして。」など
と発声しながら、同時にタッチパネル5上で、対象物で
ある円の近傍と複写位置を指示する場合について述べ
る。入力された音声は、音声入力プログラム131によ
って、A/D変換装置7に取り込まれ、ディジタル信号
に変換された後、主記憶装置2に送られる。続いて、特
徴抽出プログラム132が起動され、該ディジタル信号
を、10msのフレーム周期で、特徴ベクトルとして、
例えば、斉藤、中田「音声情報処理の基礎」(オーム
社、昭56)記載のLPCケプストラム係数の時系列に
変換される。このとき、主記憶装置2上のバッファメモ
リP及びQをゼロリセットする。ポインティング領域読
み込みプログラム14は、ユーザの指先或いはペン等
が、タッチパネル5に触れた時の接触座標をパネル制御
装置3を通じて取り込み、座標を取り込む毎にPをイン
クリメントし、さらに主記憶装置2のポインティング領
域テーブル中に、取り込んだx座標を配列メモリX
[P]へ、y座標を配列メモリY[P]へ、座標入力時
刻を配列メモリT[P]へ書き込む。該ポインティング
領域テーブルは、図6に示すように、座標番号200、
x座標201、y座標202より構成されており、指が
パネルに触れた時の入力時刻、x座標及びy座標データ
が、入力された順序で座標番号“1”から格納されてい
く。また指先或いはペン等が、タッチパネル5を離れて
から或る一定時間Toが経過すると書き込みを終了す
る。
【0013】ユーザによるポインティングや発声が終了
すると、標準パタンマッチングプログラム133と辞書
マッチングプログラム134が起動される。辞書マッチ
ングプログラム134起動時に用いられる単語辞書18
は、図7に示す様に、単語191と、単語内容192、
概念番号193よりなる。該概念番号は、意味が類似し
ている単語を分類した識別番号である。まず、先程求め
られた特徴ベクトルと音声標準パタンデータ16とのマ
ッチングが、例えば、北原他「音声入力による情報検索
システムにおける口語文受理方法の検討」(日本音響学
会、3-5-7、平3)に記載の方法で行われ、その結果、入
力音声は文字列に変換される。例えば、“この えん
を こちら に いどう して。"となる。この時、各
形態素ごとに確度が算出され、候補の順位づけが行なわ
れる。さらに、前記文字列は、従来から行われている方
法、例えば、相沢他「計算機によるカナ漢字変換」(NHK
技術研究、25、5、昭48)に記載されているような最長一
致法を用いて形態素解析され、さらに単語辞書とのマッ
チングが行われた結果、(この、指示詞、803)、
(円、名詞、501)、(を、格助詞、804)、(こ
ちら、名詞、901)、(に、格助詞、805)、(移
動して、動詞、301)の様な形態素情報が得られる。
動詞は、認識確度の高い順にコマンド番号Com[i]
(i=1〜n)が与えられ、本例では、“移動”はCo
m[1]=301となる。次に、情報統合プログラム1
5が起動され、例えば、北原他「複合形態入力方式(特
願平04−221234号)」に記載のように、5XX番の名詞
と9XX番の名詞の入力順序と複数のポインティングの
入力順序の時間的な対応づけを行なう。本例では、物体
名詞が先に入力されていることから、座標番号1が対象
物を示し、座標番号2が移動位置を指示している。次
に、主記憶装置2上に記憶した表示図形知識テーブルの
番号と名詞番号“の上3桁とがマッチングされ、候補図
形が抽出される。本実施例では、円描画テーブル中の番
号5011、5012が抽出される。次に、主記憶装置2上の座
標番号“1”(X1,Y1)から最も近い中心座標を持
つ円を指示対象図形として図形の輪郭が点滅する。本例
の場合は、5011が候補図形として認識される。また、既
に記憶されている対象物情報や複写位置情報は、次に図
形編集領域にポインティングが入力されるまで記憶され
ている。次に、形態素情報である動詞の認識候補の確度
が、“移動”、“複写”、“交換”といった順で順位づ
けされた場合、コマンド番号が、Com[1]=30
1、Com[2]=302という様に入力される。ま
ず、Com[1]=301により“移動”操作が行なわ
れ、選択された円は、指示された位置である主記憶装置
2上の座標番号“2”(X2,Y2)に移動される。ま
たこの時、図8に示す様に、前記操作と同時に、操作コ
マンド名を表示し、さらに、画面上に確度第二位以下の
認識候補をメニュー表示する。本例の場合のように、ユ
ーザが“複写”を要求していた場合には、該メニューか
らユーザは自分の意図するコマンドである“複写”をタ
ッチパネル5上で選択する。メニューが選択されると、
メニューの各項目の座標領域とポインティング位置が照
合され、Com[2]=302が選択される。次に、先
に行なわれた“移動”操作はキャンセルされ、Com
[2]=302により“複写”操作が行なわれて、主記
憶装置2上の座標番号“2”(X2,Y2)に対象物が
複写される。また、メニュー中にもコマンドの該当候補
がなかった場合には、再度、音声コマンドのみを発声す
ると、先に画面表示された認識確度第一位の候補とメニ
ュー表示された認識確度第二位以下の候補は、認識候補
から外され、再度発声されたコマンドは、表示された認
識候補以外のコマンド群から選択されることになる。
【0014】
【発明の効果】ユーザが音声と他の入力手段により情報
を入力すると、前記装置は、音声認識結果の確度第1位
の候補によって決定される処理あるいは表示を行ない、
第2位以下の複数の音声認識結果の候補を画面上にメニ
ュー表示する。確度第1位の候補による処理或いは表示
が誤りであった場合、或いはユーザが誤入力した場合に
は、表示されたメニューより、指やペン等によって第2
位以下の候補から正しい入力候補を選択し、それに伴う
処理操作、あるいは表示を再度行なうエラー処理を行な
うといった様に動作し、エラー処理を簡便に行なうこと
が可能になった。また、音声認識候補を選択する場合
に、訂正にあたってポインティング情報などの音声によ
る入力以外の情報を再度入力する必要がないように、既
に入力されているポインティング情報などを記憶してお
くエラー処理手段を備えることにより、ユーザが音声入
力とともに音声以外の情報を入力していた場合に正確に
入力された情報を再度入力する必要がなく、誤っている
情報のみ入力することが可能になった。また、表示され
たメニュー中に正しい候補が無かった場合には、音声認
識結果第一候補とメニューに表示した第二位以下の候補
を認識対象からはずし、必要な情報のみ再度音声入力す
ることによって誤認識を訂正するエラー処理を行ない、
認識候補をしぼって認識確度を高めることが可能になっ
た。また、ユーザが“移動”、“複写”等のコマンドを
音声入力し、さらに指やペン等で対象物や移動位置等を
指示することによって編集操作を行なう画像編集システ
ム等において、情報が入力されると、音声認識第一候補
であるコマンドによる操作を行ない、音声認識第二候補
以下をメニュー表示し、音声認識第一候補による操作が
誤りであった場合やユーザが誤入力した場合には、既に
入力されているポインティング情報等音声以外の情報を
記憶することにより、メニュー表示されている音声認識
候補第二位以下の複数のコマンドを指やペン等で選択す
ることのみで、それに伴う処理操作、あるいは表示を再
度行なうエラー処理を行ない、エラー処理の工数を軽減
することが可能になった。さらに、確度第一位の候補に
よって決定される処理或いは表示を実行すると共に、認
識結果の内容そのものを画面に表示したり、該内容を音
声にて出力する機能を備えることにより、ユーザが認識
結果を確認することが可能になった。
【図面の簡単な説明】
【図1】本発明のシステム構成図の一例である。
【図2】ディスプレイ表示画面の一例である。
【図3】図形描画テーブルの一例である。
【図4】音声認識プログラムの構成の一例である。
【図5】ディスプレイ表示画面の一例である。
【図6】ポインティング領域テーブルのデータ構造の一
例である。
【図7】単語辞書17のデータ構造の一例である。
【図8】ディスプレイ表示画面の一例である。
【符号の説明】
1…情報処理装置、2…主記憶装置、3…パネル制御装
置、4…ディスプレイ、5…タッチパネル、6…表示制
御装置、7…A/D変換装置、8…マイク、11…システ
ムプログラム、12…図形編集プログラム、13…音響
認識プログラム、14…ポインティング座標読み込みプ
ログラム、15…情報統合プログラム、16…音響標準
パタンデータ、17…単語辞書。
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI G10L 15/22 G10L 3/00 561E 561C 561D (72)発明者 松田 泰昌 神奈川県横浜市戸塚区吉田町292番地 株式会社日立製作所映像メディア研究所 内 (72)発明者 大條 成人 神奈川県横浜市戸塚区吉田町292番地 株式会社日立製作所映像メディア研究所 内 (72)発明者 長谷川 司 神奈川県横浜市戸塚区吉田町292番地 株式会社日立製作所映像メディア研究所 内 (56)参考文献 特開 平5−341951(JP,A) 特開 平2−298997(JP,A) 特開 平2−297598(JP,A) 特開 平4−113449(JP,A) (58)調査した分野(Int.Cl.7,DB名) G06F 3/16 G06F 3/03 G06F 3/14

Claims (5)

    (57)【特許請求の範囲】
  1. 【請求項1】少なくとも、情報を表示する情報表示手段
    と、ユーザがポインティングジェスチャ等により連続し
    た位置情報を入力する位置情報入力手段と、音声情報を
    入力する音声情報入力手段と、前記入力手段により入力
    された位置情報及び音声情報を記憶する記憶手段と、音
    響標準パタンもしくは単語情報もしくは文法情報のうち
    の少なくとも1つの情報を記憶する標準パタン情報記憶
    手段と、前記入力手段により入力された音声を前記標準
    パタン情報記憶手段に記憶されている音響標準パタンも
    しくは単語情報もしくは文法情報のうちの少なくとも1
    つの情報を用いて尤度を算出する音声情報解析手段を有
    する情報処理装置において、まず、音声認識結果の確度
    第1位の候補によって決定される処理をおこない結果を
    前記情報表示手段に表示し、第2位以下の複数の音声認
    識結果の候補は画面上にメニュー表示し、確度第1位の
    候補による処理及び表示が誤りであった場合、或いはユ
    ーザが誤入力した場合には、表示されたメニューより、
    指やペン等によって第2位以下の候補から正しい入力候
    補を選択し、それに伴う処理操作、あるいは表示を再度
    行ない、表示されたメニュー中に正しい候補が無かった
    場合には、必要な情報のみ再度音声入力するエラー処理
    手段を有することを特徴とする音声による情報処理装
    置。
  2. 【請求項2】請求項1記載の音声による情報処理装置に
    おいて、前記第2位以下の複数の音声認識候補を選択す
    る場合に、訂正にあたってポインティング情報などの音
    声による入力以外の情報を再度入力する必要がないよう
    に、既に入力されている音声による入力以外の情報を記
    憶しておくことを特徴とするエラー処理手段。
  3. 【請求項3】 請求項1記載の音声による情報処理装置に
    おいて、再度音声入力の場合は、音声認識結果第一候補
    とメニューに表示した第二位以下の候補を認識対象から
    はずすことを特徴とした音声による情報処理装置。
  4. 【請求項4】 請求項1記載の音声による情報処理装置に
    おいて、確度第一位の候補によって決定される処理及び
    表示を実行すると共に、認識結果の内容そのものを画面
    に表示したり、該内容を音声にて出力する機能を持つこ
    とを特徴とする音声による情報処理装置。
  5. 【請求項5】 請求項1記載の音声による情報処理装置を
    含み、ユーザが“移動”、“複写”等のコマンドを音声
    入力し、さらに指やペン等で対象物や移動位置等を指示
    することによって編集操作を行なう画像編集システム等
    において、情報が入力されると、音声認識第一候補であ
    るコマンドによる操作を行ない、音声認識第二候補以下
    をメニュー表示し、音声認識第一候補による操作が誤り
    であった場合やユーザが誤入力した場合には、既に入力
    されているポインティング情報等音声以外の情報を記憶
    することにより、メニュー表示されている音声認識候補
    第二位以下の複数のコマンドを指やペン等で選択するこ
    とのみで、それに伴う処理操作及び表示を再度行ない、
    表示されたメニュー中に正しい候補が無かった場合に
    は、必要な情報のみ再度音声入力するエラー処理手段を
    有することを特徴とする音声による情報処理装置。
JP08616894A 1994-04-25 1994-04-25 音声による情報処理装置 Expired - Fee Related JP3267047B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP08616894A JP3267047B2 (ja) 1994-04-25 1994-04-25 音声による情報処理装置
EP95105941A EP0680035B1 (en) 1994-04-25 1995-04-20 Erroneous input processing method and apparatus in an information processing system using composite input
CN95104565A CN1115057A (zh) 1994-04-25 1995-04-24 复合输入的信息处理装置中误输入的处理方法及装置
US08/935,299 US5864808A (en) 1994-04-25 1997-09-22 Erroneous input processing method and apparatus in information processing system using composite input

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP08616894A JP3267047B2 (ja) 1994-04-25 1994-04-25 音声による情報処理装置

Publications (2)

Publication Number Publication Date
JPH07295784A JPH07295784A (ja) 1995-11-10
JP3267047B2 true JP3267047B2 (ja) 2002-03-18

Family

ID=13879233

Family Applications (1)

Application Number Title Priority Date Filing Date
JP08616894A Expired - Fee Related JP3267047B2 (ja) 1994-04-25 1994-04-25 音声による情報処理装置

Country Status (4)

Country Link
US (1) US5864808A (ja)
EP (1) EP0680035B1 (ja)
JP (1) JP3267047B2 (ja)
CN (1) CN1115057A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104978964A (zh) * 2014-04-14 2015-10-14 美的集团股份有限公司 语音控制指令纠错方法和***

Families Citing this family (66)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6160536A (en) * 1995-03-27 2000-12-12 Forest; Donald K. Dwell time indication method and apparatus
US6903723B1 (en) * 1995-03-27 2005-06-07 Donald K. Forest Data entry method and apparatus
US6005549A (en) * 1995-07-24 1999-12-21 Forest; Donald K. User interface method and apparatus
US5999895A (en) * 1995-07-24 1999-12-07 Forest; Donald K. Sound operated menu method and apparatus
DE19804047C2 (de) * 1998-02-03 2000-03-16 Deutsche Telekom Mobil Verfahren und Einrichtung zur Erhöhung der Erkennungswahrscheinlichkeit von Spracherkennungssystemen
AT414325B (de) * 1998-02-18 2007-07-15 Teamaxess Ticketing Gmbh Anordnung zum verkauf von berechtigungen
US20010008561A1 (en) * 1999-08-10 2001-07-19 Paul George V. Real-time object tracking system
US7036094B1 (en) 1998-08-10 2006-04-25 Cybernet Systems Corporation Behavior recognition system
US6681031B2 (en) 1998-08-10 2004-01-20 Cybernet Systems Corporation Gesture-controlled interfaces for self-service machines and other applications
US6950534B2 (en) 1998-08-10 2005-09-27 Cybernet Systems Corporation Gesture-controlled interfaces for self-service machines and other applications
JP3001000B1 (ja) 1998-09-08 2000-01-17 セイコーエプソン株式会社 音声認識装置における連続単語認識方法および音声認識装置における連続単語認識処理プログラムを記録した記録媒体
JP2000163196A (ja) * 1998-09-25 2000-06-16 Sanyo Electric Co Ltd ジェスチャ認識装置及びジェスチャ認識機能を有する指示認識装置
US6233560B1 (en) * 1998-12-16 2001-05-15 International Business Machines Corporation Method and apparatus for presenting proximal feedback in voice command systems
US6321198B1 (en) * 1999-02-23 2001-11-20 Unisys Corporation Apparatus for design and simulation of dialogue
US8065155B1 (en) 1999-06-10 2011-11-22 Gazdzinski Robert F Adaptive advertising apparatus and methods
JP2002073080A (ja) * 2000-09-01 2002-03-12 Fujitsu Ten Ltd 音声対話システム
GB0029573D0 (en) * 2000-12-02 2001-01-17 Hewlett Packard Co Activation of voice-controlled apparatus
GB0031596D0 (en) 2000-12-22 2001-02-07 Barbara Justin S A system and method for improving accuracy of signal interpretation
WO2002052394A1 (en) * 2000-12-27 2002-07-04 Intel Corporation A method and system for concurrent use of two or more closely coupled communication recognition modalities
US6600475B2 (en) 2001-01-22 2003-07-29 Koninklijke Philips Electronics N.V. Single camera system for gesture-based input and target indication
JP2003173237A (ja) * 2001-09-28 2003-06-20 Ricoh Co Ltd 情報入出力システム、プログラム及び記憶媒体
US6791529B2 (en) 2001-12-13 2004-09-14 Koninklijke Philips Electronics N.V. UI with graphics-assisted voice control system
US20030112277A1 (en) * 2001-12-14 2003-06-19 Koninklijke Philips Electronics N.V. Input of data using a combination of data input systems
US6990639B2 (en) 2002-02-07 2006-01-24 Microsoft Corporation System and process for controlling electronic components in a ubiquitous computing environment using multimodal integration
JP3896868B2 (ja) * 2002-02-27 2007-03-22 日本電気株式会社 パターンの特徴選択方法及び分類方法及び判定方法及びプログラム並びに装置
EP1614102A4 (en) * 2002-12-10 2006-12-20 Kirusa Inc VOICE ENTRY DESAMBIGUATION TECHNIQUES BASED ON THE USE OF MULTIMODAL INTERFACES
US8745541B2 (en) 2003-03-25 2014-06-03 Microsoft Corporation Architecture for controlling a computer using hand gestures
US7665041B2 (en) * 2003-03-25 2010-02-16 Microsoft Corporation Architecture for controlling a computer using hand gestures
GB2402507A (en) * 2003-06-03 2004-12-08 Canon Kk A user input interpreter and a method of interpreting user input
JP4006395B2 (ja) 2003-12-11 2007-11-14 キヤノン株式会社 情報処理装置及びその制御方法、プログラム
US7427024B1 (en) 2003-12-17 2008-09-23 Gazdzinski Mark J Chattel management apparatus and methods
US20060004574A1 (en) * 2004-06-30 2006-01-05 Microsoft Corporation Semantic based validation information in a language model to detect recognition errors and improve dialog performance
DE112006000322T5 (de) * 2005-02-04 2008-04-03 Xanavi Informatics Corp., Zama Audioerkennungssystem zur Erzeugung von Antwort-Audio unter Verwendung extrahierter Audiodaten
US10437459B2 (en) 2007-01-07 2019-10-08 Apple Inc. Multitouch data fusion
DE102007024110A1 (de) * 2007-05-22 2008-12-11 Deutsche Telekom Ag Verfahren zur Beeinflussung der Interpretation multimodaler Eingaben
DE102008051757A1 (de) 2007-11-12 2009-05-14 Volkswagen Ag Multimodale Benutzerschnittstelle eines Fahrerassistenzsystems zur Eingabe und Präsentation von Informationen
US20090210233A1 (en) * 2008-02-15 2009-08-20 Microsoft Corporation Cognitive offloading: interface for storing and composing searches on and navigating unconstrained input patterns
JPWO2010013369A1 (ja) * 2008-07-30 2012-01-05 三菱電機株式会社 音声認識装置
JP5598232B2 (ja) * 2010-10-04 2014-10-01 ソニー株式会社 情報処理装置、情報処理システムおよび情報処理方法
US20120306741A1 (en) 2011-06-06 2012-12-06 Gupta Kalyan M System and Method for Enhancing Locative Response Abilities of Autonomous and Semi-Autonomous Agents
US8811938B2 (en) 2011-12-16 2014-08-19 Microsoft Corporation Providing a user interface experience based on inferred vehicle state
CN102646016B (zh) * 2012-02-13 2016-03-02 百纳(武汉)信息技术有限公司 显示手势语音交互统一界面的用户终端及其显示方法
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9318128B1 (en) * 2013-01-08 2016-04-19 Google Inc. Methods and systems for determining instructions for applications that are recognizable by a voice interface
KR102053820B1 (ko) * 2013-07-02 2019-12-09 삼성전자주식회사 서버 및 그 제어방법과, 영상처리장치 및 그 제어방법
CN104345880B (zh) * 2013-08-08 2017-12-26 联想(北京)有限公司 一种信息处理的方法及电子设备
JP2015055773A (ja) * 2013-09-12 2015-03-23 株式会社アドバンスト・メディア 情報処理装置、情報処理方法及びプログラム
US9858039B2 (en) * 2014-01-28 2018-01-02 Oracle International Corporation Voice recognition of commands extracted from user interface screen devices
WO2015199731A1 (en) * 2014-06-27 2015-12-30 Nuance Communications, Inc. System and method for allowing user intervention in a speech recognition process
CN105573534A (zh) * 2014-10-09 2016-05-11 中兴通讯股份有限公司 操作对象的处理方法及装置
KR101623856B1 (ko) 2014-10-17 2016-05-24 현대자동차주식회사 에이브이엔 장치, 차량, 및 에이브이엔 장치의 제어방법
CN106569771A (zh) * 2015-10-09 2017-04-19 百度在线网络技术(北京)有限公司 对象控制方法及装置
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
EP3593350B1 (en) * 2017-05-09 2022-08-24 Apple Inc. User interface for correcting recognition errors
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
CN109739425B (zh) * 2018-04-19 2020-02-18 北京字节跳动网络技术有限公司 一种虚拟键盘、语音输入方法、装置及电子设备
CN108597511A (zh) * 2018-04-28 2018-09-28 深圳市敢为特种设备物联网技术有限公司 基于物联网的信息展示方法、控制终端及可读存储介质
JP6966979B2 (ja) * 2018-06-26 2021-11-17 株式会社日立製作所 対話システムの制御方法、対話システム及びプログラム
JP7099126B2 (ja) * 2018-07-25 2022-07-12 セイコーエプソン株式会社 表示制御装置および表示制御プログラム
US11257491B2 (en) * 2018-11-29 2022-02-22 Adobe Inc. Voice interaction for image editing
JP7268449B2 (ja) * 2019-03-29 2023-05-08 京セラドキュメントソリューションズ株式会社 表示制御装置、表示制御方法、及び表示制御プログラム
JP7363075B2 (ja) * 2019-04-01 2023-10-18 富士フイルムビジネスイノベーション株式会社 情報処理装置及び情報処理プログラム
CN111415412B (zh) * 2020-03-18 2023-08-04 北京山维科技股份有限公司 一种立体测图采编***和方法
JP7168239B2 (ja) * 2020-08-05 2022-11-09 株式会社インタラクティブソリューションズ 音声に基づいて画像を変更するためのシステム
JP6807621B1 (ja) * 2020-08-05 2021-01-06 株式会社インタラクティブソリューションズ 音声に基づいて画像を変更するためのシステム

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4726065A (en) * 1984-01-26 1988-02-16 Horst Froessl Image manipulation by speech signals
US4811243A (en) * 1984-04-06 1989-03-07 Racine Marsh V Computer aided coordinate digitizing system
US4783803A (en) * 1985-11-12 1988-11-08 Dragon Systems, Inc. Speech recognition apparatus and method
US5022081A (en) * 1987-10-01 1991-06-04 Sharp Kabushiki Kaisha Information recognition system
US5027406A (en) * 1988-12-06 1991-06-25 Dragon Systems, Inc. Method for interactive speech recognition and training
JP3088739B2 (ja) * 1989-10-06 2000-09-18 株式会社リコー 音声認識システム
US5329609A (en) * 1990-07-31 1994-07-12 Fujitsu Limited Recognition apparatus with function of displaying plural recognition candidates
US5133011A (en) * 1990-12-26 1992-07-21 International Business Machines Corporation Method and apparatus for linear vocal control of cursor position
US5386494A (en) * 1991-12-06 1995-01-31 Apple Computer, Inc. Method and apparatus for controlling a speech recognition function using a cursor control device
KR950003390B1 (ko) * 1992-05-30 1995-04-12 정호선 음식 인식 시스템 및 이를 이용한 음성분석 데이타 추출방법
GB2267494B (en) * 1992-06-02 1995-09-20 Ciba Geigy Ag Trisamidodithionodiphosphates
JPH0668140A (ja) * 1992-08-20 1994-03-11 Hitachi Ltd 電子翻訳方式

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104978964A (zh) * 2014-04-14 2015-10-14 美的集团股份有限公司 语音控制指令纠错方法和***
CN104978964B (zh) * 2014-04-14 2019-06-04 美的集团股份有限公司 语音控制指令纠错方法和***

Also Published As

Publication number Publication date
JPH07295784A (ja) 1995-11-10
EP0680035A1 (en) 1995-11-02
US5864808A (en) 1999-01-26
CN1115057A (zh) 1996-01-17
EP0680035B1 (en) 1999-09-15

Similar Documents

Publication Publication Date Title
JP3267047B2 (ja) 音声による情報処理装置
US6570588B1 (en) Editing support system including an interactive interface
US5600765A (en) Display system capable of accepting user commands by use of voice and gesture inputs
US6363347B1 (en) Method and system for displaying a variable number of alternative words during speech recognition
CN110148416A (zh) 语音识别方法、装置、设备和存储介质
JP4416643B2 (ja) マルチモーダル入力方法
EP1016078B1 (en) Speech recognition computer input method and device
US5781179A (en) Multimodal information inputting method and apparatus for embodying the same
JP3476007B2 (ja) 認識単語登録方法、音声認識方法、音声認識装置、認識単語登録のためのソフトウエア・プロダクトを格納した記憶媒体、音声認識のためのソフトウエア・プロダクトを格納した記憶媒体
WO2020024620A1 (zh) 语音信息的处理方法以及装置、设备和存储介质
JP2001272995A (ja) 音声認識方法及び装置
JP2003241790A (ja) 音声コマンド処理システム、コンピュータ装置、音声コマンド処理方法およびプログラム
KR20080104099A (ko) 입력 장치 및 그 입력 방법
JP2002116796A (ja) 音声処理装置、音声処理方法及び記憶媒体
CN107608618B (zh) 一种用于可穿戴设备的交互方法、装置和可穿戴设备
JP7063937B2 (ja) 音声対話するための方法、装置、電子デバイス、コンピュータ読み取り可能な記憶媒体、及びコンピュータプログラム
JPH08166866A (ja) 対話型インターフェースを具備した編集支援システム
CN110991155B (zh) 文本修正方法、设备及介质
Suhm Multimodal interactive error recovery for non-conversational speech user interfaces
JP2003196593A (ja) 文字認識装置および文字認識方法および文字認識プログラム
CN112542163A (zh) 智能语音交互方法、设备及存储介质
EP0840287A2 (en) Method and system for selecting recognized words when correcting recognized speech
JPH07311656A (ja) マルチモーダル文字入力装置
CN113449652A (zh) 基于生物特征识别的定位方法及装置
JPH0883092A (ja) 情報入力装置及び情報入力方法

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080111

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080111

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090111

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090111

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100111

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110111

Year of fee payment: 9

LAPS Cancellation because of no payment of annual fees