JP3542578B2 - 音声認識装置及びその方法、プログラム - Google Patents
音声認識装置及びその方法、プログラム Download PDFInfo
- Publication number
- JP3542578B2 JP3542578B2 JP2001357746A JP2001357746A JP3542578B2 JP 3542578 B2 JP3542578 B2 JP 3542578B2 JP 2001357746 A JP2001357746 A JP 2001357746A JP 2001357746 A JP2001357746 A JP 2001357746A JP 3542578 B2 JP3542578 B2 JP 3542578B2
- Authority
- JP
- Japan
- Prior art keywords
- speech recognition
- input
- input field
- speech
- description
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 35
- 238000000605 extraction Methods 0.000 claims description 18
- 230000000877 morphologic effect Effects 0.000 claims description 13
- 239000000284 extract Substances 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 21
- 230000006870 function Effects 0.000 description 15
- 230000005540 biological transmission Effects 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 241000102542 Kara Species 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000003825 pressing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/19—Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
- G10L15/193—Formal grammars, e.g. finite state automata, context free grammars or word networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/19—Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/228—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- User Interface Of Digital Computer (AREA)
- Machine Translation (AREA)
Description
【発明の属する技術分野】
本発明は、入力された音声を認識し、その音声認識結果に基づいて処理を実行する音声認識装置及びその方法、プログラムに関するものである。
【0002】
【従来の技術】
従来の音声認識技術のインプリメントは、プログラムを作成することにより行うことが一般的であった。しかし、近年では、VoiceXMLなどハイパーテキスト文書の利用により音声認識技術のインプリメントをすることが行われるようになってきている。VoiceXMLでは、入出力の手段として基本的には音声のみが使用されているが(厳密にはDTMFなども使用)、特開2001−166915、特開平10−154063などのように音声入出力のみならずGUIも併用したUIの記述にハイパーテキスト文書を用いることも考案されている。
【0003】
このような方式では、GUIの記述にはHTMLのようなマークアップ言語を用い、さらに音声入出力を可能にするために、音声入力や音声出力に対応するいくつかのタグを追加して実施している。
【0004】
一方、GUIと音声入出力を併用した、いわゆる、マルチモーダル・ユーザインタフェースにおいては、音声認識による音声入力、音声合成による音声出力、GUIによるユーザからの入力や情報のグラフィックによる提示など各モダリティがどのように連動するかの記述が必要となる。例えば、特開2001−042890においては、ボタンと入力欄及び音声入力が関連づけられており、ボタンを押すと関連づけられた入力欄が選択され音声認識結果がその欄に入力される方法が開示されている。
【0005】
【発明が解決しようとする課題】
しかしながら、上記特開2001−042890における装置では、どれか1項目をボタンで選択すると、それに対応する入力欄に音声入力することができる。音声認識においては単語のみならず、文など自由な発声を入力できるという特徴がある。例えば、マルチモーダル・ユーザインタフェースを利用した切符の販売システムにおいては、「東京から大阪まで、大人一枚」の1発声を行うと、その1発声中の4つの情報、つまり、出発地、到着地、切符の種別、枚数という情報が一括入力可能となる。
【0006】
また、これらを別々に発声して入力することも可能である。このような連続入力をGUIの入力欄に対応させようとしたとき、一発声が一つの入力欄に限らず複数の入力欄を同時に埋めるなど自由度のある対応づけが必要となるが、上記提案では、このような入力方法に対応ができない。
【0007】
本発明は上記の課題を解決するためになされたものであり、自由度のある音声入力を実現することができる音声認識装置及びその方法、プログラムを提供することを目的とする。
【0014】
【課題を解決するための手段】
上記の目的を達成するための本発明による音声認識装置は以下の構成を備える。即ち、
入力された音声を認識し、その音声認識結果に基づいて処理を実行する音声認識装置であって、
入力欄を表示するための記述と、前記入力欄に対する入力音声に適用する音声認識文法データに関する記述を含むハイパーテキスト文書データを読み込む読込手段と、
前記ハイパーテキスト文書データに基づいて表示される複数の入力欄に対応する音声認識文法データを用いて、前記入力された音声の音声認識を行う音声認識手段と、
前記音声認識文法データに基づいて、前記音声認識手段の音声認識結果から得られる単語群それぞれの入力先の入力欄を前記複数の入力欄から決定し、対応する入力欄に表示する表示手段と、
前記音声認識結果を形態素解析する形態素解析手段とを備え、
前記表示手段は、前記音声認識手段の音声認識結果に対する前記形態素解析手段による形態素解析結果に基づいて、該音声認識結果から得られる単語群それぞれの入力先の入力欄を前記複数の入力欄から決定し、対応する入力欄に表示する。
【0015】
上記の目的を達成するための本発明による音声認識装置は以下の構成を備える。即ち、
入力された音声を認識し、その音声認識結果に基づいて処理を実行する音声認識装置であって、
入力欄を表示するための記述と、前記入力欄に対する入力音声に適用する音声認識文法データに関する記述を含むハイパーテキスト文書データを読み込む読込手段と、
前記ハイパーテキスト文書を解析する解析手段と、
前記解析手段の解析結果に基づいて、前記ハイパーテキスト文書中の複数の入力欄からなる所定入力欄に対応する音声認識文法データを生成する生成手段と、前記ハイパーテキスト文書データに基づいて表示される前記所定入力欄に対応する音声認識文法データを用いて、前記入力された音声の音声認識を行う音声認識手段と、
前記音声認識文法データに基づいて、前記音声認識手段の音声認識結果から得られる単語群それぞれの入力先の入力欄を前記所定入力欄を構成する複数の入力欄から決定し、対応する入力欄に表示する表示手段と、
を備える。
【0016】
また、好ましくは、前記解析手段は、前記ハイパーテキスト文書中の入力欄を表示するための記述の内、対応する音声認識文法データがない記述を抽出する抽出手段とを備え、
前記生成手段は、前記抽出手段で抽出された記述に基づいて、該記述に対応する入力欄に対応する音声認識文法データを生成する。
【0017】
また、好ましくは、前記解析手段は、前記ハイパーテキスト文書中の音声認識文法データを生成するための所定記述を抽出する抽出手段とを備え、
前記生成手段は、前記抽出手段で抽出された所定記述に基づいて特定される音声認識文法データに基づいて、前記所定入力欄に対応する音声認識文法データを生成する。
【0018】
また、好ましくは、前記生成手段は、前記ハイパーテキスト文書中の表示対象のテキストデータを音声認識対象とする記述を抽出する抽出手段と、
前記生成手段は、前記抽出手段で抽出された記述に基づいて、該記述に対応する入力欄に対応する前記テキストデータを含む音声認識文法データを生成する。
【0019】
上記の目的を達成するための本発明による音声認識方法は以下の構成を備える。即ち、
入力された音声を認識し、その音声認識結果に基づいて処理を実行する音声認識方法であって、
入力欄を表示するための記述と、前記入力欄に対する入力音声に適用する音声認識文法データに関する記述を含むハイパーテキスト文書データを読み込む読込工程と、
前記ハイパーテキスト文書データに基づいて表示される複数の入力欄に対応する音声認識文法データを用いて、前記入力された音声の音声認識を行う音声認識工程と、
前記音声認識文法データに基づいて、前記音声認識工程の音声認識結果から得られる単語群それぞれの入力先の入力欄を前記複数の入力欄から決定し、対応する入力欄に表示する表示工程と、
前記音声認識結果を形態素解析する形態素解析工程とを備え、
前記表示工程は、前記音声認識工程の音声認識結果に対する前記形態素解析工程による形態素解析結果に基づいて、該音声認識結果から得られる単語群それぞれの入力先の入力欄を前記複数の入力欄から決定し、対応する入力欄に表示する。
【0020】
上記の目的を達成するための本発明による音声認識方法は以下の構成を備える。即ち、
入力された音声を認識し、その音声認識結果に基づいて処理を実行する音声認識方法であって、
入力欄を表示するための記述と、前記入力欄に対する入力音声に適用する音声認識文法データに関する記述を含むハイパーテキスト文書データを読み込む読込工程と、
前記ハイパーテキスト文書を解析する解析工程と、
前記解析工程の解析結果に基づいて、前記ハイパーテキスト文書中の複数の入力欄からなる所定入力欄に対応する音声認識文法データを生成する生成工程と、前記ハイパーテキスト文書データに基づいて表示される前記所定入力欄に対応する音声認識文法データを用いて、前記入力された音声の音声認識を行う音声認識工程と、
前記音声認識文法データに基づいて、前記音声認識工程の音声認識結果から得られる単語群それぞれの入力先の入力欄を前記所定入力欄を構成する複数の入力欄から決定し、対応する入力欄に表示する表示工程と、
を備える。
【0021】
上記の目的を達成するための本発明によるプログラムは以下の構成を備える。即ち、
入力された音声を認識し、その音声認識結果に基づいて処理を実行する音声認識をコンピュータに機能させるためのプログラムであって、
入力欄を表示するための記述と、前記入力欄に対する入力音声に適用する音声認識文法データに関する記述を含むハイパーテキスト文書データを読み込む読込工程のプログラムコードと、
前記ハイパーテキスト文書データに基づいて表示される複数の入力欄に対応する音声認識文法データを用いて、前記入力された音声の音声認識を行う音声認識工程のプログラムコードと、
前記音声認識文法データに基づいて、前記音声認識工程の音声認識結果から得られる単語群それぞれの入力先の入力欄を前記複数の入力欄から決定し、対応する入力欄に表示する表示工程のプログラムコードと、
前記音声認識結果を形態素解析する形態素解析工程のプログラムコードとを備え、
前記表示工程は、前記音声認識工程の音声認識結果に対する前記形態素解析工程による形態素解析結果に基づいて、該音声認識結果から得られる単語群それぞれの入力先の入力欄を前記複数の入力欄から決定し、対応する入力欄に表示する。
【0022】
上記の目的を達成するための本発明によるプログラムは以下の構成を備える。即ち、
入力された音声を認識し、その音声認識結果に基づいて処理を実行する音声認識をコンピュータに機能させるためのプログラムであって、
入力欄を表示するための記述と、前記入力欄に対する入力音声に適用する音声認識文法データに関する記述を含むハイパーテキスト文書データを読み込む読込工程のプログラムコードと、
前記ハイパーテキスト文書を解析する解析工程のプログラムコードと、
前記解析工程の解析結果に基づいて、前記ハイパーテキスト文書中の複数の入力欄からなる所定入力欄に対応する音声認識文法データを生成する生成工程のプログラムコードと、
前記ハイパーテキスト文書データに基づいて表示される前記所定入力欄に対応する音声認識文法データを用いて、前記入力された音声の音声認識を行う音声認識工程のプログラムコードと、
前記音声認識文法データに基づいて、前記音声認識工程の音声認識結果から得られる単語群それぞれの入力先の入力欄を前記所定入力欄を構成する複数の入力欄から決定し、対応する入力欄に表示する表示工程のプログラムコードと、
を備える。
【0023】
【発明の実施の形態】
以下、図面を参照して本発明の好適な実施形態を詳細に説明する。
<実施形態1>
図1は本発明の実施形態1の音声認識システムの構成を示す図である。また、図2は本発明の実施形態1の音声認識システムの動作フローを示すフローチャートである。以下、動作例について、図1及び図2を用いて説明する。
【0024】
尚、当該音声認識システムは、公衆回線や無線LAN等とのネットワークを介して、データ通信を行うことができ、汎用コンピュータや携帯端末に搭載される標準的な構成要素(例えば、CPU、RAM、ROM、ハードディスク、外部記憶装置、ネットワークインタフェース、ディスプレイ、キーボード、マウス等)で構成されている。また、以下に説明する音声認識システムで実現される各種機能は、システム内部のROMや外部記憶装置に記憶されるプログラムがCPUによって実行されることによって実現されても良いし、専用のハードウェアで実現されても良い。
【0025】
まず、ステップS100で、文書データ100の読み込みを文書読込部101を用いて行う。文書データは、マークアップ言語等の記述言語の記述からなるハイパーテキスト文書であり、その文書データ中には、GUIのデザイン、音声認識合成の動作、音声認識文法の位置(格納場所)を示す記述や表示対象/音声出力対象のテキストデータ等で構成されている。
【0026】
次に、ステップS101で、読み込んだ文書データ100の解析を文書解析部102を用いて行う。ここでは、文書データ100中のマークアップ言語の解析を行い、文書データ100がどのような構造になっているかの解析を行う。
【0027】
ここで、解析対象の文書データ100の例を図3に示す。また、これをGUIで表示した例を図4に示す。
【0028】
図3のinputタグ402及び403は、図4のGUIにおいては、入力欄502及び503として表示される。また、図3のformタグ401及び404は、図4の入力欄502及び502を囲む枠501で表示され、どの入力要素(例えば、input)がformに含まれるのかを表示する。formタグ401は、複数のinputタグで表される入力欄に対する属性を設定できる。図3の場合、formタグ401及び404で囲まれる2つのinputタグ402及び403がform名”keiro”に含まれる。formタグ401やinputタグ402及び403にある属性grammarは、音声認識文法(以下、単に、文法と省略する)が保持される位置を示す。この文法データは、音声認識システム内あるいは外部のネットワーク上の外部端末で管理されていても構わない。
【0029】
ステップS102で、制御部109は、文書解析部102の解析結果に基づいて、入力欄と文法の対応関係を求める。実施形態1では、”keiro”という名称のformに対し文法http://temp/long.grm#keiroが対応し、”departure”という名称のinputに対し文法http://temp/station.grm#stationが対応し、”destination”という名称のinputに対し文法http://temp/station.grm#stationが対応する。これらの対応関係は、記憶装置103の文法/入力欄対応保持部130に、例えば、図7に示す形で保持される。
【0030】
ステップS103で、文書読込部101により、文法データ110の読み込みを行い、記憶装置103に記憶する。読み込まれる文法データ110は、文書データ100に記述された文法すべてである。実施形態1では、図3のタグ401、402及び403において、grammar=で示される3つの文法データ110を、その記述されている位置から読み込み、記憶装置103に記憶する。但し、402と403のように同一の文法の場合は二重に読み込む必要はない。尚、それぞれ読み込んだ文法データ110は、121、122、‥‥、12nとする。
【0031】
ステップS104で、文書解析部102の解析結果に基づく画像を表示部/入力部104に表示する。この時の表示例を図4に示す。表示部/入力部104の表示部は、一般的にはコンピュータディスプレであるが、視覚的に表示できるものであれば、どのようなものでも構わない。
【0032】
ステップS105で、ユーザからの音声入力指示を待機する。ユーザからの音声入力指示は、表示部/入力部104において行う。音声入力指示は、マイク105等を用いて、例えば、図4の枠501、入力欄502あるいは503等の入力要素に対する入力であるかを示す入力指示を行う。また、音声入力指示の代わりに、物理的なボタンで入力指示を行ってもよいし、表示部/入力部104に表示されるGUI中の入力要素をポインティングデバイスにより押下することで入力指示を実現しても構わない。
【0033】
例えば、枠501を選択したい場合は、その一部をポインティングデバイスで押せばよいし、入力欄502や503を選択したい場合は、その一部をポインティングデバイスで押下する。以上のようにして、ユーザからの入力指示があれば、ステップS106へ進む。
【0034】
ステップS106で、入力指示で選択された欄に対応する文法をアクティブにする。ここで、文法をアクティブにするとは、音声認識部106にて、その文法を使用可能にする(有効にする)ことを意味する。選択された欄と文法の対応関係は、文法/入力欄対応保持部130で保持されている対応関係に従って取得する。
【0035】
例えば、枠501がユーザによって選択された場合は、文法long.grmがアクティブとなる。また、同様に、入力欄502が選択された場合は文法station.grmが、入力欄503が選択された場合も文法station.grmがアクティブになる。また、文法long.grmの記述例を図5に、文法station.grmの記述例を図6に示す。
【0036】
図5の文法long.grmでは、「××から○○まで」、「××から」、「○○まで」などの発声を認識することができる。ここで、「××」や「○○」はstation.grmに記述される内容を発声できる。即ち、「東京から大阪まで」というような1発声、あるいは「名古屋から」、「東京まで」というような断続発声を認識することができる。また、図6の文法station.grmでは、「東京」、「大阪」、「名古屋」というような1発声を認識することができる。
【0037】
ステップS107で、音声認識部106にて、アクティブな文法を用いて、ユーザがマイク105で入力する音声の音声認識を行う。
【0038】
ステップS108で、音声認識結果の表示及び保持を行う。音声認識結果は、基本的には、ステップS105でユーザが選択した入力欄に表示される。また、複数の入力欄が選択されている場合には、その複数の入力欄に対応する文法データ110に基づいて、音声認識結果から得られる単語群それぞれの入力先の入力欄をその複数の入力欄から決定し、対応する入力欄に表示する。
【0039】
例えば、ユーザが入力欄502を選択して「東京」と発声すると、入力欄502にその発声に対応するテキストデータ(東京)が表示される。しかし、formタグで表される枠501が選択された状態で発声がある場合は、枠501は入力欄502及び503という複数の入力欄を含むので、以下の方法で、発声に対応するテキストデータを表示する入力欄を決定する。ここでは、図5の文法記述に従い説明を行う。
【0040】
まず、文法記述において、{}で囲まれる部分を解析し、{}に記述されている欄に対し入力を行う。例えば、「東京から大阪まで」と1発声した場合、「東京」は{departure}に対応し、「大阪」は{destination}に対応する。この対応関係から「東京」は”deparature”と名づけられた入力欄502に、「大阪」は”destination”と名づけられた入力欄503に表示される。また、「名古屋から」と発声した場合は、{departure}に対応づけられるため入力欄502に、「東京まで」と発声した場合は{destination}に対応づけられるため入力欄503に表示される。
【0041】
即ち、入力欄501をユーザが選択した場合、発声内容に従って、入力欄502、続いて入力欄503、あるいは入力欄502及び503に同時に発声内容に対応するテキストデータが表示される。さらに、入力データ保持部131に各欄の入力データ(テキストデータ)が、入力欄の対応関係と共に保持される。例えば、「東京から大阪まで」と発声された場合、入力データ保持部131に保持される入力データの例を、図8に示す。
【0042】
ステップS109で、ユーザからの入力データ送信の指示があった時点で、入力データ保持部131に保持された入力データが入力データ送信部107によりアプリケーション108へ送信する。この場合、例えば、図8に示す入力データが送信される。
【0043】
ステップS110で、受信した入力データをもとにアプリケーション108の動作を行う。例えば、東京から大阪までの鉄道経路の検索を行い、その検索結果を表示部/入力部104に表示する。
【0044】
以上説明したように、実施形態1によれば、GUI及び音声認識を併用するマルチモーダルインタフェースにおいて、複数の情報を音声で一括入力した場合でも、GUIにおける最適な入力欄に各情報を入力することができる。さらに、このマルチモーダルインタフェースは、マークアップ言語などの記述言語で提供されるため、簡単にUIをカスタマイズすることができる。
<実施形態2>
実施形態1においては、入力欄をユーザが選択する場合について説明したが、ユーザが選択しない方法も可能である。この場合の文書データ100の例を図9に示す。また。これをGUIで表示した例を図10に示す。
【0045】
図9の603及び604に記述される文法については、実施形態1と全く同様の動作となるため説明は省略する。これに対し、601に記述されている文法は、動作が実施形態1と異なるため図11のフローチャートを用いて、以下に説明する。
【0046】
図11は本発明の実施形態2の音声認識システムの動作フローを示すフローチャートである。
【0047】
尚、図11において、ステップS200及びステップS201は、実施形態1のステップS100及びステップS101に対応し、その動作は同じであるので、ここでは、説明を省略する。
【0048】
ステップS202で、制御部109は、文書解析部102の解析結果に基づいて、入力欄と文法の対応関係を求める。但し、対応関係は、実施形態1の図7とは異なり、http://temp/long.grm#keiroに対応するタグの名称は空欄となる。
【0049】
ステップS203で、文書読込部1011により、文法データ110の読み込みを行う。実施形態2では、図9のhttp://temp/long.grm#keiroも含め文書データ100中に記述される文法すべてを読み込む。
【0050】
ステップS204で、文書解析部102の解析結果に基づく画像を表示部/入力部104に表示する。この時の表示例を図10に示す。
【0051】
ステップS205で、ユーザからの音声入力指示を待機する。ここでは、実施形態1と同様、ユーザは入力欄702及び703を選択可能であるが、両者をまとめて選択することはできない。そして、ユーザからの入力指示があれば、ステップS206に進む。
【0052】
ステップS206で、入力指示で選択された欄に対応する文法をアクティブにする。選択された欄と文法の対応関係は、文法/入力欄対応保持部130で保持されている対応関係に従って取得する。尚、文法に対応するタグの名称が空欄になっている文法は、常にアクティブにする。即ち、実施形態2においては、http://temp/long.grm#keiroがアクティブとなる。
【0053】
以降、ステップS207〜ステップS210は、実施形態1の図2のステップS107及びステップS110に対応し、その動作は同じであるので、ここでは、説明を省略する。
【0054】
以上説明したように、実施形態2によれば、GUI及び音声認識を併用するマルチモーダルインタフェースにおいて、予め入力位置が確定している場合や意図的にユーザによる入力欄の選択を禁止したい場合等には、入力欄の選択を禁止した状態で、複数の情報を音声で一括入力した場合でも、GUIにおける最適な入力欄に各情報を入力することができる。
<実施形態3>
実施形態1では、音声認識結果をどの入力欄に表示させるかについては、文法記述において{}で囲まれる部分を解析し、{}に記述されている欄に対し入力を行う構成とした。しかしながら、{}の記述がない場合でも、同様のことが実現可能である。例えば、図5の文法を使用すると「東京から大阪まで」、「名古屋から」、「東京まで」等の認識が可能である。つまり、ユーザの発声に対する音声認識結果に形態素解析を施し、音声認識結果として得られる文を単語に区分する。例えば、音声認識結果が「東京から大阪まで」である場合、形態素解析によって、その音声認識結果を「東京/から/大阪/まで」、「名古屋/から」、「東京/まで」のように区分する。
【0055】
次に、図3のマークアップ言語記述を解析し、「から」及び「まで」に前置されているinputタグを決定する。この結果、departureと名前のついたinputタグは「から」に対応し、destinationと名前のついたinputタグは「まで」に対応することが分かる。この結果を用い、形態素解析結果で「から」の前に前置する単語をdepartureの入力欄に対応させ、「まで」の前に前置する単語をdestinationの入力欄に対応させそれぞれの入力欄を埋める。以上により、{}の記述が文法になくとも各欄への入力が可能となる。
<実施形態4>
実施形態1では、複数の入力欄に音声入力を行う一括入力用の文法を指定するために、あらかじめ対応する文法を用意しているが、入力欄の組み合わせや語順を変更する場合には、対応した文法を新たに作成する必要がある。
【0056】
そこで、実施形態4では、実施形態1の応用例として、各入力欄ごとに文法が用意されている場合に、これらの項目を一括で入力するための文法を自動で生成することにより、入力項目の組み合わせや語順の変更を容易にする構成について説明する。
【0057】
図12は実施形態4の音声認識システムの構成を示す図である。
【0058】
図12は本発明の実施形態4の音声認識システムの構成を示す図である。また、図13は本発明の実施形態4の音声認識システムの動作フローを示すフローチャートである。以下、動作例について、図12及び図13を用いて説明する。
【0059】
尚、図12は、実施形態1の図1の音声認識システムの構成に対して、文法マージ部1211を追加した構成であり、構成要素1200〜1210、1230、1231、1221、1222、…、122nは、図1の構成要素100〜110、130、131、121、122、…、12nに対応する。
【0060】
また、図12において、ステップS300及びステップS301は、実施形態1のステップS100及びステップS101に対応し、その動作は同じであるので、ここでは、説明を省略する。
【0061】
まず、実施形態4のステップS301で解析対象の文書データ100の例を図14に示す。これをGUIで表示した例は、上述の図4のようになる。図14の文書データ100と実施形態1の図3の文書データ100との相違点は、1401のgrammarの指定の部分である。つまり、実施形態1のように、あらかじめ用意した文法を指定するのではなく、”merge”と記述されている点である。
【0062】
ステップS302で、制御部1209は、文書解析部1202の解析結果に基づいて、入力欄と文法の対応関係を求める。尚、各inputタグ1402及び1403に対する処理は、実施形態1のinputタグ402及び403に対する処理同様なので省略する。特に、実施形態4では、”keiro”という名称のformの属性grammarに対し、mergeが指定されている。このmergeが指定された場合に、以降の処理で、form内に記述された文法を用いて作成するform用の文法を対応付ける。この段階では、form用の文法は存在しない。そして、文法/入力欄対応保持部1230に保持される対応関係は、例えば、図15に示す形で保持される。図15では、form用の文法をformの名称を用いて”keiro.grm”としている。
【0063】
ステップS303で、文書読込部1201により、文法データ1210の読み込みを行い、記憶装置103に記憶する。読み込まれる文法データ1210は、文書データ100に記述された文法すべてである。
【0064】
ステップS304で、文書解析部1202の解析結果、formの属性grammarにmergeが指定されていた場合、文法マージ部1211において、form内の各inputへの個別の入力および全inputの一括入力を受容するfrom用の文法を新たに作成する。form内に記述されている”input”タグの属性情報を用いて、例えば、図16Aのようなform用の文法を作成する。また、図16Bのように、図5で示したlong.grmと同様に、「から」、「まで」のようなfrom内に記述された表示用の語句を含む文法を含む文法を作成してもよい。文書データ1200を解析してタグ以外の部分を文法内に取り込むことで、このような文法を自動的に生成することは可能である。
【0065】
尚、それぞれ読み込んだ文法データ1210及びステップS304で作成した文法データを1221、1222、‥‥、122nとする。また、ステップS304で作成した文法データ、”keiro.grm”は、実施形態1で説明したformに対応した文法”long.grm”に相当し、”keiro.gra”をformに対応した文法とすると、以降、ステップS307〜ステップS311の処理は、実施形態1の図2のステップS106〜ステップS110に対応し、その動作は同じであるので、ここでは、説明を省略する。
【0066】
以上説明したように、実施形態4によれば、formに対応する文法をあらかじめ準備して指定しなくても、form内のinputなどで使用される文法からform用の文法を自動で生成することができる。また、実施形態1で用いた図3の文書データのように、あらかじめ作成された文法が指定される場合は、実施形態1と同様の振る舞いをすることができる。
【0067】
つまり、GUI及び音声認識を併用するマルチモーダルインタフェースにおいて、複数の項目を音声で一括入力するための文法を各項目に対応付けられた文法から自動的に生成することにより、事前に対応する文法を用意することなく複数項目の一括入力を実現することができる。さらに、このマルチモーダルインタフェースは、マークアップ言語などの記述言語で提供されるため、簡単にUIをカスタマイズすることができる。
<実施形態5>
実施形態4では、ステップS301で、文書データ1200を解析した際に、formの属性grammarに明示的に文法をマージする記述(実施形態4では”merge”)がある場合に、文法データのマージを行ったが、これに限定されるものではない。例えば、formの属性grammarの指定がない場合に、自動的に文法のマージを行うようにしてもよい。
<実施形態6>
実施形態4では、formの属性grammarの値を見て、form内に記述された文法データ全てをマージした文法データを生成したが、これに限定されるものではない。例えば、文法をマージする範囲の開始位置・終了位置を指定するタグをあらかじめ決めておき、このタグで囲まれた範囲のみ文法をマージするようにしても良い。この場合の文書データの例を図17に示す。
【0068】
1701では実施形態4と同様にgrammarにmergeが指定されており、実施形態6では、form内で使用される文法を全てマージした文法をformに対応付ける。また、文法を部分的にマージする範囲の開始点と終了点を1702と1705で指定している。そして、”<merge−grammar>”〜”</merge−grammar>”で囲まれた範囲に記述された文法をマージした文法を作成し、対応する入力範囲に用いる文法として用いる。図17をGUIとして表示した例を図18に示す。
【0069】
1703、1704、1706に記述されたinputに対応する入力欄はそれぞれ1801、1802、1803である。また、”<merge−grammar>”〜”</merge−grammar>”で囲む文法をマージした範囲が枠1804で囲まれる。さらに、formに属する領域が枠1805で表示される。実施形態1と同様に、これらのうち、どの領域をユーザが選択するかによってアクティブにする文法を変更する。例えば、入力欄1804が選択されている場合は、「○○から」及び「××まで」、「○○から××まで」という入力が可能になり、form全体(1805)が選択されている場合は、これらに加えて、「△枚」、「○○から××まで△枚」という入力が可能になる。
<実施形態7>
実施形態4の図13のステップS304において、「から」、「まで」のようなform内に記述された表示用の語句を認識対象語として文法内に取り込む例(図16B)を示す。これを明示的に指定する方法として、ステップS301において、文法をマージする際に認識対象語として取り込む語句を指定するタグを抽出し、このタグに囲まれた範囲の語句だけ文法内に取り込むようにしても良い。その場合の文書データの例を、図19に示す。この例では、1901および1902で示した”<add−grammar>”〜”</add−grammar>”が、文法内に取り込まれる語句の範囲を指定するタグで、文書解析部1202がこれらのタグを抽出した場合に、マージした文法を生成する際にタグに囲まれた範囲の語句を文法内に取り込んで認識対象語とする。”<add−grammar>”〜”<add−grammar>”に文法に取り込む語句の指定方法は、図19のように語句ごとにタグで囲んでも良いし、図20のように、取り込む語句が記述されている範囲の開始位置(2001)・終了位置(2002)を指定するようにしても良い。
【0070】
どちらの場合においても、文書データ1200を解析した結果に従って生成されるform用の文法は、図16Bに示した文法と同じになる。また、表示用語句を取り込むためのタグが記述されていない文書データ(即ち、図14に示した文書データ)の場合は、「から」、「まで」はマージした文法内に取り込まれず、図16Aに示した文法が生成される。
【0071】
尚、本発明は、前述した実施形態の機能を実現するソフトウェアのプログラム(実施形態では図に示すフローチャートに対応したプログラム)を、システム或いは装置に直接或いは遠隔から供給し、そのシステム或いは装置のコンピュータが該供給されたプログラムコードを読み出して実行することによっても達成される場合を含む。その場合、プログラムの機能を有していれば、形態は、プログラムである必要はない。
【0072】
従って、本発明の機能処理をコンピュータで実現するために、該コンピュータにインストールされるプログラムコード自体も本発明を実現するものである。つまり、本発明は、本発明の機能処理を実現するためのコンピュータプログラム自体も含まれる。
【0073】
その場合、プログラムの機能を有していれば、オブジェクトコード、インタプリタにより実行されるプログラム、OSに供給するスクリプトデータ等、プログラムの形態を問わない。
【0074】
プログラムを供給するための記録媒体としては、例えば、フロッピーディスク、ハードディスク、光ディスク、光磁気ディスク、MO、CD−ROM、CD−R、CD−RW、磁気テープ、不揮発性のメモリカード、ROM、DVD(DVD−ROM,DVD−R)などがある。
【0075】
その他、プログラムの供給方法としては、クライアントコンピュータのブラウザを用いてインターネットのホームページに接続し、該ホームページから本発明のコンピュータプログラムそのもの、もしくは圧縮され自動インストール機能を含むファイルをハードディスク等の記録媒体にダウンロードすることによっても供給できる。また、本発明のプログラムを構成するプログラムコードを複数のファイルに分割し、それぞれのファイルを異なるホームページからダウンロードすることによっても実現可能である。つまり、本発明の機能処理をコンピュータで実現するためのプログラムファイルを複数のユーザに対してダウンロードさせるWWWサーバも、本発明に含まれるものである。
【0076】
また、本発明のプログラムを暗号化してCD−ROM等の記憶媒体に格納してユーザに配布し、所定の条件をクリアしたユーザに対し、インターネットを介してホームページから暗号化を解く鍵情報をダウンロードさせ、その鍵情報を使用することにより暗号化されたプログラムを実行してコンピュータにインストールさせて実現することも可能である。
【0077】
また、コンピュータが、読み出したプログラムを実行することによって、前述した実施形態の機能が実現される他、そのプログラムの指示に基づき、コンピュータ上で稼動しているOSなどが、実際の処理の一部または全部を行い、その処理によっても前述した実施形態の機能が実現され得る。
【0078】
さらに、記録媒体から読み出されたプログラムが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれた後、そのプログラムの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPUなどが実際の処理の一部または全部を行い、その処理によっても前述した実施形態の機能が実現される。
【0079】
【発明の効果】
以上説明したように、本発明によれば、自由度のある音声入力を実現することができる音声認識装置及びその方法、プログラムを提供できる。
【図面の簡単な説明】
【図1】本発明の実施形態1の音声認識システムの構成を示す図である。
【図2】本発明の実施形態1の音声認識システムの動作フローを示すフローチャートである。
【図3】本発明の実施形態1の文書データの例を示す図である。
【図4】本発明の実施形態1のGUIの例を示す図である。
【図5】本発明の実施形態1の文法データの例を示す図である。
【図6】本発明の実施形態1の別の文法データの例を示す図である。
【図7】本発明の実施形態1の文法/入力欄対応保持部に保持されるデータの例を示す図である。
【図8】本発明の実施形態1の入力データ保持部に保持されるデータの例を示す図である。
【図9】本発明の実施形態2の文書データの例を示す図である。
【図10】本発明の実施形態2のGUIの例を示す図である。
【図11】本発明の実施形態2の音声認識システムの動作フローを示すフローチャートである。
【図12】本発明の実施形態4の音声認識システムの構成を示す図である。
【図13】本発明の実施形態4の音声認識システムの動作フローを示すフローチャートである。
【図14】本発明の実施形態4の文書データの例を示す図である。
【図15】本発明の実施形態4の文法/入力欄対応保持部に保持されるデータの例を示す図である。
【図16A】本発明の実施形態4の文法データの例を示す図である。
【図16B】本発明の実施形態4の文法データの例を示す図である。
【図17】本発明の実施形態6の文書データの例を示す図である。
【図18】本発明の実施形態6のGUIの例を示す図である。
【図19】本発明の実施形態7の文書データの例を示す図である。
【図20】本発明の実施形態7の別の文書データの例を示す図である。
【符号の説明】
100、1200 文書データ
101、1201 文書読込部
102、1202 文書解析部
103、1203 記憶装置
104、1204 表示部/入力部
105、1205 マイク
106、1206 音声認識部
107、1207 入力データ送信部
108、1208 アプリケーション
109、1209 制御部
110、1210 文法データ
1211 文法マージ部
130、1230 文法/入力欄対応保持部
131、1231 入力データ保持部
Claims (12)
- 入力された音声を認識し、その音声認識結果に基づいて処理を実行する音声認識装置であって、
入力欄を表示するための記述と、前記入力欄に対する入力音声に適用する音声認識文法データに関する記述を含むハイパーテキスト文書データを読み込む読込手段と、
前記ハイパーテキスト文書データに基づいて表示される複数の入力欄に対応する音声認識文法データを用いて、前記入力された音声の音声認識を行う音声認識手段と、
前記音声認識文法データに基づいて、前記音声認識手段の音声認識結果から得られる単語群それぞれの入力先の入力欄を前記複数の入力欄から決定し、対応する入力欄に表示する表示手段と、
前記音声認識結果を形態素解析する形態素解析手段とを備え、
前記表示手段は、前記音声認識手段の音声認識結果に対する前記形態素解析手段による形態素解析結果に基づいて、該音声認識結果から得られる単語群それぞれの入力先の入力欄を前記複数の入力欄から決定し、対応する入力欄に表示する
を備えることを特徴とする音声認識装置。 - 入力された音声を認識し、その音声認識結果に基づいて処理を実行する音声認識装置であって、
入力欄を表示するための記述と、前記入力欄に対する入力音声に適用する音声認識文法データに関する記述を含むハイパーテキスト文書データを読み込む読込手段と、
前記ハイパーテキスト文書を解析する解析手段と、
前記解析手段の解析結果に基づいて、前記ハイパーテキスト文書中の複数の入力欄からなる所定入力欄に対応する音声認識文法データを生成する生成手段と、
前記ハイパーテキスト文書データに基づいて表示される前記所定入力欄に対応する音声認識文法データを用いて、前記入力された音声の音声認識を行う音声認識手段と、
前記音声認識文法データに基づいて、前記音声認識手段の音声認識結果から得られる単語群それぞれの入力先の入力欄を前記所定入力欄を構成する複数の入力欄から決定し、対応する入力欄に表示する表示手段と、
を備えることを特徴とする音声認識装置。 - 前記解析手段は、前記ハイパーテキスト文書中の入力欄を表示するための記述の内、対応する音声認識文法データがない記述を抽出する抽出手段とを備え、
前記生成手段は、前記抽出手段で抽出された記述に基づいて、該記述に対応する入力欄に対応する音声認識文法データを生成する
ことを特徴とする請求項2に記載の音声認識装置。 - 前記解析手段は、前記ハイパーテキスト文書中の音声認識文法データを生成するための所定記述を抽出する抽出手段とを備え、
前記生成手段は、前記抽出手段で抽出された所定記述に基づいて特定される音声認識文法データに基づいて、前記所定入力欄に対応する音声認識文法データを生成する
ことを特徴とする請求項2に記載の音声認識装置。 - 前記生成手段は、前記ハイパーテキスト文書中の表示対象のテキストデータを音声認識対象とする記述を抽出する抽出手段と、
前記生成手段は、前記抽出手段で抽出された記述に基づいて、該記述に対応する入力欄に対応する前記テキストデータを含む音声認識文法データを生成する
ことを特徴とする請求項2に記載の音声認識装置。 - 入力された音声を認識し、その音声認識結果に基づいて処理を実行する音声認識方法であって、
入力欄を表示するための記述と、前記入力欄に対する入力音声に適用する音声認識文法データに関する記述を含むハイパーテキスト文書データを読み込む読込工程と、
前記ハイパーテキスト文書データに基づいて表示される複数の入力欄に対応する音声認識文法データを用いて、前記入力された音声の音声認識を行う音声認識工程と、
前記音声認識文法データに基づいて、前記音声認識工程の音声認識結果から得られる単 語群それぞれの入力先の入力欄を前記複数の入力欄から決定し、対応する入力欄に表示する表示工程と、
前記音声認識結果を形態素解析する形態素解析工程とを備え、
前記表示工程は、前記音声認識工程の音声認識結果に対する前記形態素解析工程による形態素解析結果に基づいて、該音声認識結果から得られる単語群それぞれの入力先の入力欄を前記複数の入力欄から決定し、対応する入力欄に表示する
を備えることを特徴とする音声認識方法。 - 入力された音声を認識し、その音声認識結果に基づいて処理を実行する音声認識方法であって、
入力欄を表示するための記述と、前記入力欄に対する入力音声に適用する音声認識文法データに関する記述を含むハイパーテキスト文書データを読み込む読込工程と、
前記ハイパーテキスト文書を解析する解析工程と、
前記解析工程の解析結果に基づいて、前記ハイパーテキスト文書中の複数の入力欄からなる所定入力欄に対応する音声認識文法データを生成する生成工程と、
前記ハイパーテキスト文書データに基づいて表示される前記所定入力欄に対応する音声認識文法データを用いて、前記入力された音声の音声認識を行う音声認識工程と、
前記音声認識文法データに基づいて、前記音声認識工程の音声認識結果から得られる単語群それぞれの入力先の入力欄を前記所定入力欄を構成する複数の入力欄から決定し、対応する入力欄に表示する表示工程と、
を備えることを特徴とする音声認識方法。 - 前記解析工程は、前記ハイパーテキスト文書中の入力欄を表示するための記述の内、対応する音声認識文法データがない記述を抽出する抽出工程とを備え、
前記生成工程は、前記抽出工程で抽出された記述に基づいて、該記述に対応する入力欄に対応する音声認識文法データを生成する
ことを特徴とする請求項7に記載の音声認識方法。 - 前記解析工程は、前記ハイパーテキスト文書中の音声認識文法データを生成するための所定記述を抽出する抽出工程とを備え、
前記生成工程は、前記抽出工程で抽出された所定記述に基づいて特定される音声認識文法データに基づいて、前記所定入力欄に対応する音声認識文法データを生成する
ことを特徴とする請求項7に記載の音声認識方法。 - 前記生成工程は、前記ハイパーテキスト文書中の表示対象のテキストデータを音声認識対象とする記述を抽出する抽出工程と、
前記生成工程は、前記抽出工程で抽出された記述に基づいて、該記述に対応する入力欄に対応する前記テキストデータを含む音声認識文法データを生成する
ことを特徴とする請求項7に記載の音声認識方法。 - 入力された音声を認識し、その音声認識結果に基づいて処理を実行する音声認識をコンピュータに機能させるためのプログラムであって、
入力欄を表示するための記述と、前記入力欄に対する入力音声に適用する音声認識文法データに関する記述を含むハイパーテキスト文書データを読み込む読込工程のプログラムコードと、
前記ハイパーテキスト文書データに基づいて表示される複数の入力欄に対応する音声認識文法データを用いて、前記入力された音声の音声認識を行う音声認識工程のプログラムコードと、
前記音声認識文法データに基づいて、前記音声認識工程の音声認識結果から得られる単語群それぞれの入力先の入力欄を前記複数の入力欄から決定し、対応する入力欄に表示する表示工程のプログラムコードと、
前記音声認識結果を形態素解析する形態素解析工程のプログラムコードとを備え、
前記表示工程は、前記音声認識工程の音声認識結果に対する前記形態素解析工程による形態素解析結果に基づいて、該音声認識結果から得られる単語群それぞれの入力先の入力欄を前記複数の入力欄から決定し、対応する入力欄に表示する
を備えることを特徴とするプログラム。 - 入力された音声を認識し、その音声認識結果に基づいて処理を実行する音声認識をコンピュータに機能させるためのプログラムであって、
入力欄を表示するための記述と、前記入力欄に対する入力音声に適用する音声認識文法データに関する記述を含むハイパーテキスト文書データを読み込む読込工程のプログラムコードと、
前記ハイパーテキスト文書を解析する解析工程のプログラムコードと、
前記解析工程の解析結果に基づいて、前記ハイパーテキスト文書中の複数の入力欄からなる所定入力欄に対応する音声認識文法データを生成する生成工程のプログラムコードと、
前記ハイパーテキスト文書データに基づいて表示される前記所定入力欄に対応する音声認識文法データを用いて、前記入力された音声の音声認識を行う音声認識工程のプログラムコードと、
前記音声認識文法データに基づいて、前記音声認識工程の音声認識結果から得られる単語群それぞれの入力先の入力欄を前記所定入力欄を構成する複数の入力欄から決定し、対応する入力欄に表示する表示工程のプログラムコードと、
を備えることを特徴とするプログラム。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001357746A JP3542578B2 (ja) | 2001-11-22 | 2001-11-22 | 音声認識装置及びその方法、プログラム |
AU2002347629A AU2002347629A1 (en) | 2001-11-22 | 2002-11-13 | Speech recognition apparatus and its method and program |
US10/490,696 US20050086057A1 (en) | 2001-11-22 | 2002-11-13 | Speech recognition apparatus and its method and program |
PCT/JP2002/011822 WO2003044772A1 (en) | 2001-11-22 | 2002-11-13 | Speech recognition apparatus and its method and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001357746A JP3542578B2 (ja) | 2001-11-22 | 2001-11-22 | 音声認識装置及びその方法、プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2003157095A JP2003157095A (ja) | 2003-05-30 |
JP3542578B2 true JP3542578B2 (ja) | 2004-07-14 |
Family
ID=19169042
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2001357746A Expired - Fee Related JP3542578B2 (ja) | 2001-11-22 | 2001-11-22 | 音声認識装置及びその方法、プログラム |
Country Status (4)
Country | Link |
---|---|
US (1) | US20050086057A1 (ja) |
JP (1) | JP3542578B2 (ja) |
AU (1) | AU2002347629A1 (ja) |
WO (1) | WO2003044772A1 (ja) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7634720B2 (en) * | 2003-10-24 | 2009-12-15 | Microsoft Corporation | System and method for providing context to an input method |
JP4579585B2 (ja) * | 2004-06-08 | 2010-11-10 | キヤノン株式会社 | 音声認識文法作成装置、音声認識文法作成方法、プログラムおよび記憶媒体 |
JP4667138B2 (ja) * | 2005-06-30 | 2011-04-06 | キヤノン株式会社 | 音声認識方法及び音声認識装置 |
JP4822829B2 (ja) * | 2005-12-14 | 2011-11-24 | キヤノン株式会社 | 音声認識装置および方法 |
US8417529B2 (en) * | 2006-12-27 | 2013-04-09 | Nuance Communications, Inc. | System and methods for prompting user speech in multimodal devices |
US8010465B2 (en) | 2008-02-26 | 2011-08-30 | Microsoft Corporation | Predicting candidates using input scopes |
JP2009236960A (ja) * | 2008-03-25 | 2009-10-15 | Nec Corp | 音声認識装置、音声認識方法及びプログラム |
US9582498B2 (en) | 2014-09-12 | 2017-02-28 | Microsoft Technology Licensing, Llc | Actions on digital document elements from voice |
JP7114307B2 (ja) * | 2018-04-12 | 2022-08-08 | 株式会社Nttドコモ | 情報処理装置 |
JP7243106B2 (ja) * | 2018-09-27 | 2023-03-22 | 富士通株式会社 | 修正候補提示方法、修正候補提示プログラムおよび情報処理装置 |
Family Cites Families (39)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE69028072T2 (de) * | 1989-11-06 | 1997-01-09 | Canon Kk | Verfahren und Einrichtung zur Sprachsynthese |
JPH03150599A (ja) * | 1989-11-07 | 1991-06-26 | Canon Inc | 日本語音節の符号化方式 |
US6236964B1 (en) * | 1990-02-01 | 2001-05-22 | Canon Kabushiki Kaisha | Speech recognition apparatus and method for matching inputted speech and a word generated from stored referenced phoneme data |
JPH04362698A (ja) * | 1991-06-11 | 1992-12-15 | Canon Inc | 音声認識方法及び装置 |
JP3066920B2 (ja) * | 1991-06-11 | 2000-07-17 | キヤノン株式会社 | 音声認識方法及び装置 |
JP3526101B2 (ja) * | 1995-03-14 | 2004-05-10 | 株式会社リコー | 音声認識装置 |
US6965864B1 (en) * | 1995-04-10 | 2005-11-15 | Texas Instruments Incorporated | Voice activated hypermedia systems using grammatical metadata |
JPH09258771A (ja) * | 1996-03-25 | 1997-10-03 | Canon Inc | 音声処理方法及び装置 |
JP3397568B2 (ja) * | 1996-03-25 | 2003-04-14 | キヤノン株式会社 | 音声認識方法及び装置 |
JPH1097276A (ja) * | 1996-09-20 | 1998-04-14 | Canon Inc | 音声認識方法及び装置並びに記憶媒体 |
JPH10161692A (ja) * | 1996-12-03 | 1998-06-19 | Canon Inc | 音声認識装置及び音声認識方法 |
JPH10254486A (ja) * | 1997-03-13 | 1998-09-25 | Canon Inc | 音声認識装置および方法 |
JP3962445B2 (ja) * | 1997-03-13 | 2007-08-22 | キヤノン株式会社 | 音声処理方法及び装置 |
US6101473A (en) * | 1997-08-08 | 2000-08-08 | Board Of Trustees, Leland Stanford Jr., University | Using speech recognition to access the internet, including access via a telephone |
US5995918A (en) * | 1997-09-17 | 1999-11-30 | Unisys Corporation | System and method for creating a language grammar using a spreadsheet or table interface |
US6157705A (en) * | 1997-12-05 | 2000-12-05 | E*Trade Group, Inc. | Voice control of a server |
US6012030A (en) * | 1998-04-21 | 2000-01-04 | Nortel Networks Corporation | Management of speech and audio prompts in multimodal interfaces |
JP2000047696A (ja) * | 1998-07-29 | 2000-02-18 | Canon Inc | 情報処理方法及び装置、その記憶媒体 |
US6513063B1 (en) * | 1999-01-05 | 2003-01-28 | Sri International | Accessing network-based electronic information through scripted online interfaces using spoken input |
US20020032564A1 (en) * | 2000-04-19 | 2002-03-14 | Farzad Ehsani | Phrase-based dialogue modeling with particular application to creating a recognition grammar for a voice-controlled user interface |
JP3814459B2 (ja) * | 2000-03-31 | 2006-08-30 | キヤノン株式会社 | 音声認識方法及び装置と記憶媒体 |
JP3762191B2 (ja) * | 2000-04-20 | 2006-04-05 | キヤノン株式会社 | 情報入力方法、情報入力装置及び記憶媒体 |
JP3728177B2 (ja) * | 2000-05-24 | 2005-12-21 | キヤノン株式会社 | 音声処理システム、装置、方法及び記憶媒体 |
US6728708B1 (en) * | 2000-06-26 | 2004-04-27 | Datria Systems, Inc. | Relational and spatial database management system and method for applications having speech controlled data input displayable in a form and a map having spatial and non-spatial data |
CN1272698C (zh) * | 2000-10-11 | 2006-08-30 | 佳能株式会社 | 信息处理装置、信息处理方法 |
JP3581648B2 (ja) * | 2000-11-27 | 2004-10-27 | キヤノン株式会社 | 音声認識システム、情報処理装置及びそれらの制御方法、プログラム |
JP3482398B2 (ja) * | 2000-12-19 | 2003-12-22 | 株式会社第一興商 | 音声入力式楽曲検索システム |
JP2002268681A (ja) * | 2001-03-08 | 2002-09-20 | Canon Inc | 音声認識システム及び方法及び該システムに用いる情報処理装置とその方法 |
ATE345526T1 (de) * | 2001-03-22 | 2006-12-15 | Canon Kk | Informationsverarbeitungsvorrichtung und - verfahren und programmprodukt |
US6834264B2 (en) * | 2001-03-29 | 2004-12-21 | Provox Technologies Corporation | Method and apparatus for voice dictation and document production |
US7409349B2 (en) * | 2001-05-04 | 2008-08-05 | Microsoft Corporation | Servers for web enabled speech recognition |
US7020841B2 (en) * | 2001-06-07 | 2006-03-28 | International Business Machines Corporation | System and method for generating and presenting multi-modal applications from intent-based markup scripts |
US6996528B2 (en) * | 2001-08-03 | 2006-02-07 | Matsushita Electric Industrial Co., Ltd. | Method for efficient, safe and reliable data entry by voice under adverse conditions |
US8229753B2 (en) * | 2001-10-21 | 2012-07-24 | Microsoft Corporation | Web server controls for web enabled recognition and/or audible prompting |
US7124085B2 (en) * | 2001-12-13 | 2006-10-17 | Matsushita Electric Industrial Co., Ltd. | Constraint-based speech recognition system and method |
JP3799280B2 (ja) * | 2002-03-06 | 2006-07-19 | キヤノン株式会社 | 対話システムおよびその制御方法 |
JP2004020613A (ja) * | 2002-06-12 | 2004-01-22 | Canon Inc | サーバ、受信端末 |
JP3814566B2 (ja) * | 2002-06-20 | 2006-08-30 | キヤノン株式会社 | 情報処理装置、情報処理方法、制御プログラム |
JP3885002B2 (ja) * | 2002-06-28 | 2007-02-21 | キヤノン株式会社 | 情報処理装置およびその方法 |
-
2001
- 2001-11-22 JP JP2001357746A patent/JP3542578B2/ja not_active Expired - Fee Related
-
2002
- 2002-11-13 WO PCT/JP2002/011822 patent/WO2003044772A1/en active Application Filing
- 2002-11-13 AU AU2002347629A patent/AU2002347629A1/en not_active Abandoned
- 2002-11-13 US US10/490,696 patent/US20050086057A1/en not_active Abandoned
Also Published As
Publication number | Publication date |
---|---|
WO2003044772A1 (en) | 2003-05-30 |
US20050086057A1 (en) | 2005-04-21 |
JP2003157095A (ja) | 2003-05-30 |
AU2002347629A1 (en) | 2003-06-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR100549482B1 (ko) | 정보 처리 장치, 정보처리 방법, 및 프로그램을 기억하는 컴퓨터 판독가능 기억 매체 | |
JP5703256B2 (ja) | 単語レベルの変換候補生成に基づく音声認識システム及び方法 | |
US6801897B2 (en) | Method of providing concise forms of natural commands | |
JP4872323B2 (ja) | Htmlメール生成システム、通信装置、htmlメール生成方法、及び記録媒体 | |
US7412391B2 (en) | User interface design apparatus and method | |
JP6336749B2 (ja) | 音声合成システム及び音声合成方法 | |
JP3814566B2 (ja) | 情報処理装置、情報処理方法、制御プログラム | |
JP2009187349A (ja) | 文章修正支援システム、文章修正支援方法、および文章修正支援用プログラム | |
JP3542578B2 (ja) | 音声認識装置及びその方法、プログラム | |
JP7200533B2 (ja) | 情報処理装置およびプログラム | |
JP2008145769A (ja) | 対話シナリオ生成システム,その方法およびプログラム | |
JP2006236037A (ja) | 音声対話コンテンツ作成方法、装置、プログラム、記録媒体 | |
JP2004334369A (ja) | 音声対話シナリオ変換方法、音声対話シナリオ変換装置、音声対話シナリオ変換プログラム | |
JP3581044B2 (ja) | 音声対話処理方法、音声対話処理システムおよびプログラムを記憶した記憶媒体 | |
JP2007164732A (ja) | コンピュータ実行可能なプログラム、および情報処理装置 | |
JP2005322148A (ja) | ブラウザ装置 | |
US7054813B2 (en) | Automatic generation of efficient grammar for heading selection | |
JP2005181358A (ja) | 音声認識合成システム | |
WO2021205832A1 (ja) | 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム | |
JP3880383B2 (ja) | 音声認識装置及びその方法、プログラム | |
JP2002268664A (ja) | 音声変換装置及びプログラム | |
JP2009086597A (ja) | テキスト音声変換サービスシステム及び方法 | |
JP2004287756A (ja) | 電子メール作成装置及び電子メール作成方法 | |
JP2005266009A (ja) | データ変換プログラムおよびデータ変換装置 | |
JPH09231062A (ja) | 対話処理プログラム生成装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20040319 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20040331 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090409 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090409 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100409 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110409 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130409 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130409 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140409 Year of fee payment: 10 |
|
LAPS | Cancellation because of no payment of annual fees |