JP3542578B2

JP3542578B2 - 音声認識装置及びその方法、プログラム

Info

Publication number: JP3542578B2
Application number: JP2001357746A
Authority: JP
Inventors: 哲夫小坂; 桂一酒井; 寛樹山本
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2001-11-22
Filing date: 2001-11-22
Publication date: 2004-07-14
Anticipated expiration: 2021-11-22
Also published as: WO2003044772A1; US20050086057A1; JP2003157095A; AU2002347629A1

Description

【０００１】
【発明の属する技術分野】
本発明は、入力された音声を認識し、その音声認識結果に基づいて処理を実行する音声認識装置及びその方法、プログラムに関するものである。
【０００２】
【従来の技術】
従来の音声認識技術のインプリメントは、プログラムを作成することにより行うことが一般的であった。しかし、近年では、ＶｏｉｃｅＸＭＬなどハイパーテキスト文書の利用により音声認識技術のインプリメントをすることが行われるようになってきている。ＶｏｉｃｅＸＭＬでは、入出力の手段として基本的には音声のみが使用されているが（厳密にはＤＴＭＦなども使用）、特開２００１−１６６９１５、特開平１０−１５４０６３などのように音声入出力のみならずＧＵＩも併用したＵＩの記述にハイパーテキスト文書を用いることも考案されている。
【０００３】
このような方式では、ＧＵＩの記述にはＨＴＭＬのようなマークアップ言語を用い、さらに音声入出力を可能にするために、音声入力や音声出力に対応するいくつかのタグを追加して実施している。
【０００４】
一方、ＧＵＩと音声入出力を併用した、いわゆる、マルチモーダル・ユーザインタフェースにおいては、音声認識による音声入力、音声合成による音声出力、ＧＵＩによるユーザからの入力や情報のグラフィックによる提示など各モダリティがどのように連動するかの記述が必要となる。例えば、特開２００１−０４２８９０においては、ボタンと入力欄及び音声入力が関連づけられており、ボタンを押すと関連づけられた入力欄が選択され音声認識結果がその欄に入力される方法が開示されている。
【０００５】
【発明が解決しようとする課題】
しかしながら、上記特開２００１−０４２８９０における装置では、どれか１項目をボタンで選択すると、それに対応する入力欄に音声入力することができる。音声認識においては単語のみならず、文など自由な発声を入力できるという特徴がある。例えば、マルチモーダル・ユーザインタフェースを利用した切符の販売システムにおいては、「東京から大阪まで、大人一枚」の１発声を行うと、その１発声中の４つの情報、つまり、出発地、到着地、切符の種別、枚数という情報が一括入力可能となる。
【０００６】
また、これらを別々に発声して入力することも可能である。このような連続入力をＧＵＩの入力欄に対応させようとしたとき、一発声が一つの入力欄に限らず複数の入力欄を同時に埋めるなど自由度のある対応づけが必要となるが、上記提案では、このような入力方法に対応ができない。
【０００７】
本発明は上記の課題を解決するためになされたものであり、自由度のある音声入力を実現することができる音声認識装置及びその方法、プログラムを提供することを目的とする。
【００１４】
【課題を解決するための手段】
上記の目的を達成するための本発明による音声認識装置は以下の構成を備える。即ち、
入力された音声を認識し、その音声認識結果に基づいて処理を実行する音声認識装置であって、
入力欄を表示するための記述と、前記入力欄に対する入力音声に適用する音声認識文法データに関する記述を含むハイパーテキスト文書データを読み込む読込手段と、
前記ハイパーテキスト文書データに基づいて表示される複数の入力欄に対応する音声認識文法データを用いて、前記入力された音声の音声認識を行う音声認識手段と、
前記音声認識文法データに基づいて、前記音声認識手段の音声認識結果から得られる単語群それぞれの入力先の入力欄を前記複数の入力欄から決定し、対応する入力欄に表示する表示手段と、
前記音声認識結果を形態素解析する形態素解析手段とを備え、
前記表示手段は、前記音声認識手段の音声認識結果に対する前記形態素解析手段による形態素解析結果に基づいて、該音声認識結果から得られる単語群それぞれの入力先の入力欄を前記複数の入力欄から決定し、対応する入力欄に表示する。
【００１５】
上記の目的を達成するための本発明による音声認識装置は以下の構成を備える。即ち、
入力された音声を認識し、その音声認識結果に基づいて処理を実行する音声認識装置であって、
入力欄を表示するための記述と、前記入力欄に対する入力音声に適用する音声認識文法データに関する記述を含むハイパーテキスト文書データを読み込む読込手段と、
前記ハイパーテキスト文書を解析する解析手段と、
前記解析手段の解析結果に基づいて、前記ハイパーテキスト文書中の複数の入力欄からなる所定入力欄に対応する音声認識文法データを生成する生成手段と、前記ハイパーテキスト文書データに基づいて表示される前記所定入力欄に対応する音声認識文法データを用いて、前記入力された音声の音声認識を行う音声認識手段と、
前記音声認識文法データに基づいて、前記音声認識手段の音声認識結果から得られる単語群それぞれの入力先の入力欄を前記所定入力欄を構成する複数の入力欄から決定し、対応する入力欄に表示する表示手段と、
を備える。
【００１６】
また、好ましくは、前記解析手段は、前記ハイパーテキスト文書中の入力欄を表示するための記述の内、対応する音声認識文法データがない記述を抽出する抽出手段とを備え、
前記生成手段は、前記抽出手段で抽出された記述に基づいて、該記述に対応する入力欄に対応する音声認識文法データを生成する。
【００１７】
また、好ましくは、前記解析手段は、前記ハイパーテキスト文書中の音声認識文法データを生成するための所定記述を抽出する抽出手段とを備え、
前記生成手段は、前記抽出手段で抽出された所定記述に基づいて特定される音声認識文法データに基づいて、前記所定入力欄に対応する音声認識文法データを生成する。
【００１８】
また、好ましくは、前記生成手段は、前記ハイパーテキスト文書中の表示対象のテキストデータを音声認識対象とする記述を抽出する抽出手段と、
前記生成手段は、前記抽出手段で抽出された記述に基づいて、該記述に対応する入力欄に対応する前記テキストデータを含む音声認識文法データを生成する。
【００１９】
上記の目的を達成するための本発明による音声認識方法は以下の構成を備える。即ち、
入力された音声を認識し、その音声認識結果に基づいて処理を実行する音声認識方法であって、
入力欄を表示するための記述と、前記入力欄に対する入力音声に適用する音声認識文法データに関する記述を含むハイパーテキスト文書データを読み込む読込工程と、
前記ハイパーテキスト文書データに基づいて表示される複数の入力欄に対応する音声認識文法データを用いて、前記入力された音声の音声認識を行う音声認識工程と、
前記音声認識文法データに基づいて、前記音声認識工程の音声認識結果から得られる単語群それぞれの入力先の入力欄を前記複数の入力欄から決定し、対応する入力欄に表示する表示工程と、
前記音声認識結果を形態素解析する形態素解析工程とを備え、
前記表示工程は、前記音声認識工程の音声認識結果に対する前記形態素解析工程による形態素解析結果に基づいて、該音声認識結果から得られる単語群それぞれの入力先の入力欄を前記複数の入力欄から決定し、対応する入力欄に表示する。
【００２０】
上記の目的を達成するための本発明による音声認識方法は以下の構成を備える。即ち、
入力された音声を認識し、その音声認識結果に基づいて処理を実行する音声認識方法であって、
入力欄を表示するための記述と、前記入力欄に対する入力音声に適用する音声認識文法データに関する記述を含むハイパーテキスト文書データを読み込む読込工程と、
前記ハイパーテキスト文書を解析する解析工程と、
前記解析工程の解析結果に基づいて、前記ハイパーテキスト文書中の複数の入力欄からなる所定入力欄に対応する音声認識文法データを生成する生成工程と、前記ハイパーテキスト文書データに基づいて表示される前記所定入力欄に対応する音声認識文法データを用いて、前記入力された音声の音声認識を行う音声認識工程と、
前記音声認識文法データに基づいて、前記音声認識工程の音声認識結果から得られる単語群それぞれの入力先の入力欄を前記所定入力欄を構成する複数の入力欄から決定し、対応する入力欄に表示する表示工程と、
を備える。
【００２１】
上記の目的を達成するための本発明によるプログラムは以下の構成を備える。即ち、
入力された音声を認識し、その音声認識結果に基づいて処理を実行する音声認識をコンピュータに機能させるためのプログラムであって、
入力欄を表示するための記述と、前記入力欄に対する入力音声に適用する音声認識文法データに関する記述を含むハイパーテキスト文書データを読み込む読込工程のプログラムコードと、
前記ハイパーテキスト文書データに基づいて表示される複数の入力欄に対応する音声認識文法データを用いて、前記入力された音声の音声認識を行う音声認識工程のプログラムコードと、
前記音声認識文法データに基づいて、前記音声認識工程の音声認識結果から得られる単語群それぞれの入力先の入力欄を前記複数の入力欄から決定し、対応する入力欄に表示する表示工程のプログラムコードと、
前記音声認識結果を形態素解析する形態素解析工程のプログラムコードとを備え、
前記表示工程は、前記音声認識工程の音声認識結果に対する前記形態素解析工程による形態素解析結果に基づいて、該音声認識結果から得られる単語群それぞれの入力先の入力欄を前記複数の入力欄から決定し、対応する入力欄に表示する。
【００２２】
上記の目的を達成するための本発明によるプログラムは以下の構成を備える。即ち、
入力された音声を認識し、その音声認識結果に基づいて処理を実行する音声認識をコンピュータに機能させるためのプログラムであって、
入力欄を表示するための記述と、前記入力欄に対する入力音声に適用する音声認識文法データに関する記述を含むハイパーテキスト文書データを読み込む読込工程のプログラムコードと、
前記ハイパーテキスト文書を解析する解析工程のプログラムコードと、
前記解析工程の解析結果に基づいて、前記ハイパーテキスト文書中の複数の入力欄からなる所定入力欄に対応する音声認識文法データを生成する生成工程のプログラムコードと、
前記ハイパーテキスト文書データに基づいて表示される前記所定入力欄に対応する音声認識文法データを用いて、前記入力された音声の音声認識を行う音声認識工程のプログラムコードと、
前記音声認識文法データに基づいて、前記音声認識工程の音声認識結果から得られる単語群それぞれの入力先の入力欄を前記所定入力欄を構成する複数の入力欄から決定し、対応する入力欄に表示する表示工程のプログラムコードと、
を備える。
【００２３】
【発明の実施の形態】
以下、図面を参照して本発明の好適な実施形態を詳細に説明する。
＜実施形態１＞
図１は本発明の実施形態１の音声認識システムの構成を示す図である。また、図２は本発明の実施形態１の音声認識システムの動作フローを示すフローチャートである。以下、動作例について、図１及び図２を用いて説明する。
【００２４】
尚、当該音声認識システムは、公衆回線や無線ＬＡＮ等とのネットワークを介して、データ通信を行うことができ、汎用コンピュータや携帯端末に搭載される標準的な構成要素（例えば、ＣＰＵ、ＲＡＭ、ＲＯＭ、ハードディスク、外部記憶装置、ネットワークインタフェース、ディスプレイ、キーボード、マウス等）で構成されている。また、以下に説明する音声認識システムで実現される各種機能は、システム内部のＲＯＭや外部記憶装置に記憶されるプログラムがＣＰＵによって実行されることによって実現されても良いし、専用のハードウェアで実現されても良い。
【００２５】
まず、ステップＳ１００で、文書データ１００の読み込みを文書読込部１０１を用いて行う。文書データは、マークアップ言語等の記述言語の記述からなるハイパーテキスト文書であり、その文書データ中には、ＧＵＩのデザイン、音声認識合成の動作、音声認識文法の位置（格納場所）を示す記述や表示対象／音声出力対象のテキストデータ等で構成されている。
【００２６】
次に、ステップＳ１０１で、読み込んだ文書データ１００の解析を文書解析部１０２を用いて行う。ここでは、文書データ１００中のマークアップ言語の解析を行い、文書データ１００がどのような構造になっているかの解析を行う。
【００２７】
ここで、解析対象の文書データ１００の例を図３に示す。また、これをＧＵＩで表示した例を図４に示す。
【００２８】
図３のｉｎｐｕｔタグ４０２及び４０３は、図４のＧＵＩにおいては、入力欄５０２及び５０３として表示される。また、図３のｆｏｒｍタグ４０１及び４０４は、図４の入力欄５０２及び５０２を囲む枠５０１で表示され、どの入力要素（例えば、ｉｎｐｕｔ）がｆｏｒｍに含まれるのかを表示する。ｆｏｒｍタグ４０１は、複数のｉｎｐｕｔタグで表される入力欄に対する属性を設定できる。図３の場合、ｆｏｒｍタグ４０１及び４０４で囲まれる２つのｉｎｐｕｔタグ４０２及び４０３がｆｏｒｍ名”ｋｅｉｒｏ”に含まれる。ｆｏｒｍタグ４０１やｉｎｐｕｔタグ４０２及び４０３にある属性ｇｒａｍｍａｒは、音声認識文法（以下、単に、文法と省略する）が保持される位置を示す。この文法データは、音声認識システム内あるいは外部のネットワーク上の外部端末で管理されていても構わない。
【００２９】
ステップＳ１０２で、制御部１０９は、文書解析部１０２の解析結果に基づいて、入力欄と文法の対応関係を求める。実施形態１では、”ｋｅｉｒｏ”という名称のｆｏｒｍに対し文法ｈｔｔｐ：／／ｔｅｍｐ／ｌｏｎｇ．ｇｒｍ＃ｋｅｉｒｏが対応し、”ｄｅｐａｒｔｕｒｅ”という名称のｉｎｐｕｔに対し文法ｈｔｔｐ：／／ｔｅｍｐ／ｓｔａｔｉｏｎ．ｇｒｍ＃ｓｔａｔｉｏｎが対応し、”ｄｅｓｔｉｎａｔｉｏｎ”という名称のｉｎｐｕｔに対し文法ｈｔｔｐ：／／ｔｅｍｐ／ｓｔａｔｉｏｎ．ｇｒｍ＃ｓｔａｔｉｏｎが対応する。これらの対応関係は、記憶装置１０３の文法／入力欄対応保持部１３０に、例えば、図７に示す形で保持される。
【００３０】
ステップＳ１０３で、文書読込部１０１により、文法データ１１０の読み込みを行い、記憶装置１０３に記憶する。読み込まれる文法データ１１０は、文書データ１００に記述された文法すべてである。実施形態１では、図３のタグ４０１、４０２及び４０３において、ｇｒａｍｍａｒ＝で示される３つの文法データ１１０を、その記述されている位置から読み込み、記憶装置１０３に記憶する。但し、４０２と４０３のように同一の文法の場合は二重に読み込む必要はない。尚、それぞれ読み込んだ文法データ１１０は、１２１、１２２、‥‥、１２ｎとする。
【００３１】
ステップＳ１０４で、文書解析部１０２の解析結果に基づく画像を表示部／入力部１０４に表示する。この時の表示例を図４に示す。表示部／入力部１０４の表示部は、一般的にはコンピュータディスプレであるが、視覚的に表示できるものであれば、どのようなものでも構わない。
【００３２】
ステップＳ１０５で、ユーザからの音声入力指示を待機する。ユーザからの音声入力指示は、表示部／入力部１０４において行う。音声入力指示は、マイク１０５等を用いて、例えば、図４の枠５０１、入力欄５０２あるいは５０３等の入力要素に対する入力であるかを示す入力指示を行う。また、音声入力指示の代わりに、物理的なボタンで入力指示を行ってもよいし、表示部／入力部１０４に表示されるＧＵＩ中の入力要素をポインティングデバイスにより押下することで入力指示を実現しても構わない。
【００３３】
例えば、枠５０１を選択したい場合は、その一部をポインティングデバイスで押せばよいし、入力欄５０２や５０３を選択したい場合は、その一部をポインティングデバイスで押下する。以上のようにして、ユーザからの入力指示があれば、ステップＳ１０６へ進む。
【００３４】
ステップＳ１０６で、入力指示で選択された欄に対応する文法をアクティブにする。ここで、文法をアクティブにするとは、音声認識部１０６にて、その文法を使用可能にする（有効にする）ことを意味する。選択された欄と文法の対応関係は、文法／入力欄対応保持部１３０で保持されている対応関係に従って取得する。
【００３５】
例えば、枠５０１がユーザによって選択された場合は、文法ｌｏｎｇ．ｇｒｍがアクティブとなる。また、同様に、入力欄５０２が選択された場合は文法ｓｔａｔｉｏｎ．ｇｒｍが、入力欄５０３が選択された場合も文法ｓｔａｔｉｏｎ．ｇｒｍがアクティブになる。また、文法ｌｏｎｇ．ｇｒｍの記述例を図５に、文法ｓｔａｔｉｏｎ．ｇｒｍの記述例を図６に示す。
【００３６】
図５の文法ｌｏｎｇ．ｇｒｍでは、「××から○○まで」、「××から」、「○○まで」などの発声を認識することができる。ここで、「××」や「○○」はｓｔａｔｉｏｎ．ｇｒｍに記述される内容を発声できる。即ち、「東京から大阪まで」というような１発声、あるいは「名古屋から」、「東京まで」というような断続発声を認識することができる。また、図６の文法ｓｔａｔｉｏｎ．ｇｒｍでは、「東京」、「大阪」、「名古屋」というような１発声を認識することができる。
【００３７】
ステップＳ１０７で、音声認識部１０６にて、アクティブな文法を用いて、ユーザがマイク１０５で入力する音声の音声認識を行う。
【００３８】
ステップＳ１０８で、音声認識結果の表示及び保持を行う。音声認識結果は、基本的には、ステップＳ１０５でユーザが選択した入力欄に表示される。また、複数の入力欄が選択されている場合には、その複数の入力欄に対応する文法データ１１０に基づいて、音声認識結果から得られる単語群それぞれの入力先の入力欄をその複数の入力欄から決定し、対応する入力欄に表示する。
【００３９】
例えば、ユーザが入力欄５０２を選択して「東京」と発声すると、入力欄５０２にその発声に対応するテキストデータ（東京）が表示される。しかし、ｆｏｒｍタグで表される枠５０１が選択された状態で発声がある場合は、枠５０１は入力欄５０２及び５０３という複数の入力欄を含むので、以下の方法で、発声に対応するテキストデータを表示する入力欄を決定する。ここでは、図５の文法記述に従い説明を行う。
【００４０】
まず、文法記述において、｛｝で囲まれる部分を解析し、｛｝に記述されている欄に対し入力を行う。例えば、「東京から大阪まで」と１発声した場合、「東京」は｛ｄｅｐａｒｔｕｒｅ｝に対応し、「大阪」は｛ｄｅｓｔｉｎａｔｉｏｎ｝に対応する。この対応関係から「東京」は”ｄｅｐａｒａｔｕｒｅ”と名づけられた入力欄５０２に、「大阪」は”ｄｅｓｔｉｎａｔｉｏｎ”と名づけられた入力欄５０３に表示される。また、「名古屋から」と発声した場合は、｛ｄｅｐａｒｔｕｒｅ｝に対応づけられるため入力欄５０２に、「東京まで」と発声した場合は｛ｄｅｓｔｉｎａｔｉｏｎ｝に対応づけられるため入力欄５０３に表示される。
【００４１】
即ち、入力欄５０１をユーザが選択した場合、発声内容に従って、入力欄５０２、続いて入力欄５０３、あるいは入力欄５０２及び５０３に同時に発声内容に対応するテキストデータが表示される。さらに、入力データ保持部１３１に各欄の入力データ（テキストデータ）が、入力欄の対応関係と共に保持される。例えば、「東京から大阪まで」と発声された場合、入力データ保持部１３１に保持される入力データの例を、図８に示す。
【００４２】
ステップＳ１０９で、ユーザからの入力データ送信の指示があった時点で、入力データ保持部１３１に保持された入力データが入力データ送信部１０７によりアプリケーション１０８へ送信する。この場合、例えば、図８に示す入力データが送信される。
【００４３】
ステップＳ１１０で、受信した入力データをもとにアプリケーション１０８の動作を行う。例えば、東京から大阪までの鉄道経路の検索を行い、その検索結果を表示部／入力部１０４に表示する。
【００４４】
以上説明したように、実施形態１によれば、ＧＵＩ及び音声認識を併用するマルチモーダルインタフェースにおいて、複数の情報を音声で一括入力した場合でも、ＧＵＩにおける最適な入力欄に各情報を入力することができる。さらに、このマルチモーダルインタフェースは、マークアップ言語などの記述言語で提供されるため、簡単にＵＩをカスタマイズすることができる。
＜実施形態２＞
実施形態１においては、入力欄をユーザが選択する場合について説明したが、ユーザが選択しない方法も可能である。この場合の文書データ１００の例を図９に示す。また。これをＧＵＩで表示した例を図１０に示す。
【００４５】
図９の６０３及び６０４に記述される文法については、実施形態１と全く同様の動作となるため説明は省略する。これに対し、６０１に記述されている文法は、動作が実施形態１と異なるため図１１のフローチャートを用いて、以下に説明する。
【００４６】
図１１は本発明の実施形態２の音声認識システムの動作フローを示すフローチャートである。
【００４７】
尚、図１１において、ステップＳ２００及びステップＳ２０１は、実施形態１のステップＳ１００及びステップＳ１０１に対応し、その動作は同じであるので、ここでは、説明を省略する。
【００４８】
ステップＳ２０２で、制御部１０９は、文書解析部１０２の解析結果に基づいて、入力欄と文法の対応関係を求める。但し、対応関係は、実施形態１の図７とは異なり、ｈｔｔｐ：／／ｔｅｍｐ／ｌｏｎｇ．ｇｒｍ＃ｋｅｉｒｏに対応するタグの名称は空欄となる。
【００４９】
ステップＳ２０３で、文書読込部１０１１により、文法データ１１０の読み込みを行う。実施形態２では、図９のｈｔｔｐ：／／ｔｅｍｐ／ｌｏｎｇ．ｇｒｍ＃ｋｅｉｒｏも含め文書データ１００中に記述される文法すべてを読み込む。
【００５０】
ステップＳ２０４で、文書解析部１０２の解析結果に基づく画像を表示部／入力部１０４に表示する。この時の表示例を図１０に示す。
【００５１】
ステップＳ２０５で、ユーザからの音声入力指示を待機する。ここでは、実施形態１と同様、ユーザは入力欄７０２及び７０３を選択可能であるが、両者をまとめて選択することはできない。そして、ユーザからの入力指示があれば、ステップＳ２０６に進む。
【００５２】
ステップＳ２０６で、入力指示で選択された欄に対応する文法をアクティブにする。選択された欄と文法の対応関係は、文法／入力欄対応保持部１３０で保持されている対応関係に従って取得する。尚、文法に対応するタグの名称が空欄になっている文法は、常にアクティブにする。即ち、実施形態２においては、ｈｔｔｐ：／／ｔｅｍｐ／ｌｏｎｇ．ｇｒｍ＃ｋｅｉｒｏがアクティブとなる。
【００５３】
以降、ステップＳ２０７〜ステップＳ２１０は、実施形態１の図２のステップＳ１０７及びステップＳ１１０に対応し、その動作は同じであるので、ここでは、説明を省略する。
【００５４】
以上説明したように、実施形態２によれば、ＧＵＩ及び音声認識を併用するマルチモーダルインタフェースにおいて、予め入力位置が確定している場合や意図的にユーザによる入力欄の選択を禁止したい場合等には、入力欄の選択を禁止した状態で、複数の情報を音声で一括入力した場合でも、ＧＵＩにおける最適な入力欄に各情報を入力することができる。
＜実施形態３＞
実施形態１では、音声認識結果をどの入力欄に表示させるかについては、文法記述において｛｝で囲まれる部分を解析し、｛｝に記述されている欄に対し入力を行う構成とした。しかしながら、｛｝の記述がない場合でも、同様のことが実現可能である。例えば、図５の文法を使用すると「東京から大阪まで」、「名古屋から」、「東京まで」等の認識が可能である。つまり、ユーザの発声に対する音声認識結果に形態素解析を施し、音声認識結果として得られる文を単語に区分する。例えば、音声認識結果が「東京から大阪まで」である場合、形態素解析によって、その音声認識結果を「東京／から／大阪／まで」、「名古屋／から」、「東京／まで」のように区分する。
【００５５】
次に、図３のマークアップ言語記述を解析し、「から」及び「まで」に前置されているｉｎｐｕｔタグを決定する。この結果、ｄｅｐａｒｔｕｒｅと名前のついたｉｎｐｕｔタグは「から」に対応し、ｄｅｓｔｉｎａｔｉｏｎと名前のついたｉｎｐｕｔタグは「まで」に対応することが分かる。この結果を用い、形態素解析結果で「から」の前に前置する単語をｄｅｐａｒｔｕｒｅの入力欄に対応させ、「まで」の前に前置する単語をｄｅｓｔｉｎａｔｉｏｎの入力欄に対応させそれぞれの入力欄を埋める。以上により、｛｝の記述が文法になくとも各欄への入力が可能となる。
＜実施形態４＞
実施形態１では、複数の入力欄に音声入力を行う一括入力用の文法を指定するために、あらかじめ対応する文法を用意しているが、入力欄の組み合わせや語順を変更する場合には、対応した文法を新たに作成する必要がある。
【００５６】
そこで、実施形態４では、実施形態１の応用例として、各入力欄ごとに文法が用意されている場合に、これらの項目を一括で入力するための文法を自動で生成することにより、入力項目の組み合わせや語順の変更を容易にする構成について説明する。
【００５７】
図１２は実施形態４の音声認識システムの構成を示す図である。
【００５８】
図１２は本発明の実施形態４の音声認識システムの構成を示す図である。また、図１３は本発明の実施形態４の音声認識システムの動作フローを示すフローチャートである。以下、動作例について、図１２及び図１３を用いて説明する。
【００５９】
尚、図１２は、実施形態１の図１の音声認識システムの構成に対して、文法マージ部１２１１を追加した構成であり、構成要素１２００〜１２１０、１２３０、１２３１、１２２１、１２２２、…、１２２ｎは、図１の構成要素１００〜１１０、１３０、１３１、１２１、１２２、…、１２ｎに対応する。
【００６０】
また、図１２において、ステップＳ３００及びステップＳ３０１は、実施形態１のステップＳ１００及びステップＳ１０１に対応し、その動作は同じであるので、ここでは、説明を省略する。
【００６１】
まず、実施形態４のステップＳ３０１で解析対象の文書データ１００の例を図１４に示す。これをＧＵＩで表示した例は、上述の図４のようになる。図１４の文書データ１００と実施形態１の図３の文書データ１００との相違点は、１４０１のｇｒａｍｍａｒの指定の部分である。つまり、実施形態１のように、あらかじめ用意した文法を指定するのではなく、”ｍｅｒｇｅ”と記述されている点である。
【００６２】
ステップＳ３０２で、制御部１２０９は、文書解析部１２０２の解析結果に基づいて、入力欄と文法の対応関係を求める。尚、各ｉｎｐｕｔタグ１４０２及び１４０３に対する処理は、実施形態１のｉｎｐｕｔタグ４０２及び４０３に対する処理同様なので省略する。特に、実施形態４では、”ｋｅｉｒｏ”という名称のｆｏｒｍの属性ｇｒａｍｍａｒに対し、ｍｅｒｇｅが指定されている。このｍｅｒｇｅが指定された場合に、以降の処理で、ｆｏｒｍ内に記述された文法を用いて作成するｆｏｒｍ用の文法を対応付ける。この段階では、ｆｏｒｍ用の文法は存在しない。そして、文法／入力欄対応保持部１２３０に保持される対応関係は、例えば、図１５に示す形で保持される。図１５では、ｆｏｒｍ用の文法をｆｏｒｍの名称を用いて”ｋｅｉｒｏ．ｇｒｍ”としている。
【００６３】
ステップＳ３０３で、文書読込部１２０１により、文法データ１２１０の読み込みを行い、記憶装置１０３に記憶する。読み込まれる文法データ１２１０は、文書データ１００に記述された文法すべてである。
【００６４】
ステップＳ３０４で、文書解析部１２０２の解析結果、ｆｏｒｍの属性ｇｒａｍｍａｒにｍｅｒｇｅが指定されていた場合、文法マージ部１２１１において、ｆｏｒｍ内の各ｉｎｐｕｔへの個別の入力および全ｉｎｐｕｔの一括入力を受容するｆｒｏｍ用の文法を新たに作成する。ｆｏｒｍ内に記述されている”ｉｎｐｕｔ”タグの属性情報を用いて、例えば、図１６Ａのようなｆｏｒｍ用の文法を作成する。また、図１６Ｂのように、図５で示したｌｏｎｇ．ｇｒｍと同様に、「から」、「まで」のようなｆｒｏｍ内に記述された表示用の語句を含む文法を含む文法を作成してもよい。文書データ１２００を解析してタグ以外の部分を文法内に取り込むことで、このような文法を自動的に生成することは可能である。
【００６５】
尚、それぞれ読み込んだ文法データ１２１０及びステップＳ３０４で作成した文法データを１２２１、１２２２、‥‥、１２２ｎとする。また、ステップＳ３０４で作成した文法データ、”ｋｅｉｒｏ．ｇｒｍ”は、実施形態１で説明したｆｏｒｍに対応した文法”ｌｏｎｇ．ｇｒｍ”に相当し、”ｋｅｉｒｏ．ｇｒａ”をｆｏｒｍに対応した文法とすると、以降、ステップＳ３０７〜ステップＳ３１１の処理は、実施形態１の図２のステップＳ１０６〜ステップＳ１１０に対応し、その動作は同じであるので、ここでは、説明を省略する。
【００６６】
以上説明したように、実施形態４によれば、ｆｏｒｍに対応する文法をあらかじめ準備して指定しなくても、ｆｏｒｍ内のｉｎｐｕｔなどで使用される文法からｆｏｒｍ用の文法を自動で生成することができる。また、実施形態１で用いた図３の文書データのように、あらかじめ作成された文法が指定される場合は、実施形態１と同様の振る舞いをすることができる。
【００６７】
つまり、ＧＵＩ及び音声認識を併用するマルチモーダルインタフェースにおいて、複数の項目を音声で一括入力するための文法を各項目に対応付けられた文法から自動的に生成することにより、事前に対応する文法を用意することなく複数項目の一括入力を実現することができる。さらに、このマルチモーダルインタフェースは、マークアップ言語などの記述言語で提供されるため、簡単にＵＩをカスタマイズすることができる。
＜実施形態５＞
実施形態４では、ステップＳ３０１で、文書データ１２００を解析した際に、ｆｏｒｍの属性ｇｒａｍｍａｒに明示的に文法をマージする記述（実施形態４では”ｍｅｒｇｅ”）がある場合に、文法データのマージを行ったが、これに限定されるものではない。例えば、ｆｏｒｍの属性ｇｒａｍｍａｒの指定がない場合に、自動的に文法のマージを行うようにしてもよい。
＜実施形態６＞
実施形態４では、ｆｏｒｍの属性ｇｒａｍｍａｒの値を見て、ｆｏｒｍ内に記述された文法データ全てをマージした文法データを生成したが、これに限定されるものではない。例えば、文法をマージする範囲の開始位置・終了位置を指定するタグをあらかじめ決めておき、このタグで囲まれた範囲のみ文法をマージするようにしても良い。この場合の文書データの例を図１７に示す。
【００６８】
１７０１では実施形態４と同様にｇｒａｍｍａｒにｍｅｒｇｅが指定されており、実施形態６では、ｆｏｒｍ内で使用される文法を全てマージした文法をｆｏｒｍに対応付ける。また、文法を部分的にマージする範囲の開始点と終了点を１７０２と１７０５で指定している。そして、”＜ｍｅｒｇｅ−ｇｒａｍｍａｒ＞”〜”＜／ｍｅｒｇｅ−ｇｒａｍｍａｒ＞”で囲まれた範囲に記述された文法をマージした文法を作成し、対応する入力範囲に用いる文法として用いる。図１７をＧＵＩとして表示した例を図１８に示す。
【００６９】
１７０３、１７０４、１７０６に記述されたｉｎｐｕｔに対応する入力欄はそれぞれ１８０１、１８０２、１８０３である。また、”＜ｍｅｒｇｅ−ｇｒａｍｍａｒ＞”〜”＜／ｍｅｒｇｅ−ｇｒａｍｍａｒ＞”で囲む文法をマージした範囲が枠１８０４で囲まれる。さらに、ｆｏｒｍに属する領域が枠１８０５で表示される。実施形態１と同様に、これらのうち、どの領域をユーザが選択するかによってアクティブにする文法を変更する。例えば、入力欄１８０４が選択されている場合は、「○○から」及び「××まで」、「○○から××まで」という入力が可能になり、ｆｏｒｍ全体（１８０５）が選択されている場合は、これらに加えて、「△枚」、「○○から××まで△枚」という入力が可能になる。
＜実施形態７＞
実施形態４の図１３のステップＳ３０４において、「から」、「まで」のようなｆｏｒｍ内に記述された表示用の語句を認識対象語として文法内に取り込む例（図１６Ｂ）を示す。これを明示的に指定する方法として、ステップＳ３０１において、文法をマージする際に認識対象語として取り込む語句を指定するタグを抽出し、このタグに囲まれた範囲の語句だけ文法内に取り込むようにしても良い。その場合の文書データの例を、図１９に示す。この例では、１９０１および１９０２で示した”＜ａｄｄ−ｇｒａｍｍａｒ＞”〜”＜／ａｄｄ−ｇｒａｍｍａｒ＞”が、文法内に取り込まれる語句の範囲を指定するタグで、文書解析部１２０２がこれらのタグを抽出した場合に、マージした文法を生成する際にタグに囲まれた範囲の語句を文法内に取り込んで認識対象語とする。”＜ａｄｄ−ｇｒａｍｍａｒ＞”〜”＜ａｄｄ−ｇｒａｍｍａｒ＞”に文法に取り込む語句の指定方法は、図１９のように語句ごとにタグで囲んでも良いし、図２０のように、取り込む語句が記述されている範囲の開始位置（２００１）・終了位置（２００２）を指定するようにしても良い。
【００７０】
どちらの場合においても、文書データ１２００を解析した結果に従って生成されるｆｏｒｍ用の文法は、図１６Ｂに示した文法と同じになる。また、表示用語句を取り込むためのタグが記述されていない文書データ（即ち、図１４に示した文書データ）の場合は、「から」、「まで」はマージした文法内に取り込まれず、図１６Ａに示した文法が生成される。
【００７１】
尚、本発明は、前述した実施形態の機能を実現するソフトウェアのプログラム（実施形態では図に示すフローチャートに対応したプログラム）を、システム或いは装置に直接或いは遠隔から供給し、そのシステム或いは装置のコンピュータが該供給されたプログラムコードを読み出して実行することによっても達成される場合を含む。その場合、プログラムの機能を有していれば、形態は、プログラムである必要はない。
【００７２】
従って、本発明の機能処理をコンピュータで実現するために、該コンピュータにインストールされるプログラムコード自体も本発明を実現するものである。つまり、本発明は、本発明の機能処理を実現するためのコンピュータプログラム自体も含まれる。
【００７３】
その場合、プログラムの機能を有していれば、オブジェクトコード、インタプリタにより実行されるプログラム、ＯＳに供給するスクリプトデータ等、プログラムの形態を問わない。
【００７４】
プログラムを供給するための記録媒体としては、例えば、フロッピーディスク、ハードディスク、光ディスク、光磁気ディスク、ＭＯ、ＣＤ−ＲＯＭ、ＣＤ−Ｒ、ＣＤ−ＲＷ、磁気テープ、不揮発性のメモリカード、ＲＯＭ、ＤＶＤ（ＤＶＤ−ＲＯＭ，ＤＶＤ−Ｒ）などがある。
【００７５】
その他、プログラムの供給方法としては、クライアントコンピュータのブラウザを用いてインターネットのホームページに接続し、該ホームページから本発明のコンピュータプログラムそのもの、もしくは圧縮され自動インストール機能を含むファイルをハードディスク等の記録媒体にダウンロードすることによっても供給できる。また、本発明のプログラムを構成するプログラムコードを複数のファイルに分割し、それぞれのファイルを異なるホームページからダウンロードすることによっても実現可能である。つまり、本発明の機能処理をコンピュータで実現するためのプログラムファイルを複数のユーザに対してダウンロードさせるＷＷＷサーバも、本発明に含まれるものである。
【００７６】
また、本発明のプログラムを暗号化してＣＤ−ＲＯＭ等の記憶媒体に格納してユーザに配布し、所定の条件をクリアしたユーザに対し、インターネットを介してホームページから暗号化を解く鍵情報をダウンロードさせ、その鍵情報を使用することにより暗号化されたプログラムを実行してコンピュータにインストールさせて実現することも可能である。
【００７７】
また、コンピュータが、読み出したプログラムを実行することによって、前述した実施形態の機能が実現される他、そのプログラムの指示に基づき、コンピュータ上で稼動しているＯＳなどが、実際の処理の一部または全部を行い、その処理によっても前述した実施形態の機能が実現され得る。
【００７８】
さらに、記録媒体から読み出されたプログラムが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれた後、そのプログラムの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるＣＰＵなどが実際の処理の一部または全部を行い、その処理によっても前述した実施形態の機能が実現される。
【００７９】
【発明の効果】
以上説明したように、本発明によれば、自由度のある音声入力を実現することができる音声認識装置及びその方法、プログラムを提供できる。
【図面の簡単な説明】
【図１】本発明の実施形態１の音声認識システムの構成を示す図である。
【図２】本発明の実施形態１の音声認識システムの動作フローを示すフローチャートである。
【図３】本発明の実施形態１の文書データの例を示す図である。
【図４】本発明の実施形態１のＧＵＩの例を示す図である。
【図５】本発明の実施形態１の文法データの例を示す図である。
【図６】本発明の実施形態１の別の文法データの例を示す図である。
【図７】本発明の実施形態１の文法／入力欄対応保持部に保持されるデータの例を示す図である。
【図８】本発明の実施形態１の入力データ保持部に保持されるデータの例を示す図である。
【図９】本発明の実施形態２の文書データの例を示す図である。
【図１０】本発明の実施形態２のＧＵＩの例を示す図である。
【図１１】本発明の実施形態２の音声認識システムの動作フローを示すフローチャートである。
【図１２】本発明の実施形態４の音声認識システムの構成を示す図である。
【図１３】本発明の実施形態４の音声認識システムの動作フローを示すフローチャートである。
【図１４】本発明の実施形態４の文書データの例を示す図である。
【図１５】本発明の実施形態４の文法／入力欄対応保持部に保持されるデータの例を示す図である。
【図１６Ａ】本発明の実施形態４の文法データの例を示す図である。
【図１６Ｂ】本発明の実施形態４の文法データの例を示す図である。
【図１７】本発明の実施形態６の文書データの例を示す図である。
【図１８】本発明の実施形態６のＧＵＩの例を示す図である。
【図１９】本発明の実施形態７の文書データの例を示す図である。
【図２０】本発明の実施形態７の別の文書データの例を示す図である。
【符号の説明】
１００、１２００文書データ
１０１、１２０１文書読込部
１０２、１２０２文書解析部
１０３、１２０３記憶装置
１０４、１２０４表示部／入力部
１０５、１２０５マイク
１０６、１２０６音声認識部
１０７、１２０７入力データ送信部
１０８、１２０８アプリケーション
１０９、１２０９制御部
１１０、１２１０文法データ
１２１１文法マージ部
１３０、１２３０文法／入力欄対応保持部
１３１、１２３１入力データ保持部

Claims

入力された音声を認識し、その音声認識結果に基づいて処理を実行する音声認識装置であって、
入力欄を表示するための記述と、前記入力欄に対する入力音声に適用する音声認識文法データに関する記述を含むハイパーテキスト文書データを読み込む読込手段と、
前記ハイパーテキスト文書データに基づいて表示される複数の入力欄に対応する音声認識文法データを用いて、前記入力された音声の音声認識を行う音声認識手段と、
前記音声認識文法データに基づいて、前記音声認識手段の音声認識結果から得られる単語群それぞれの入力先の入力欄を前記複数の入力欄から決定し、対応する入力欄に表示する表示手段と、
前記音声認識結果を形態素解析する形態素解析手段とを備え、
前記表示手段は、前記音声認識手段の音声認識結果に対する前記形態素解析手段による形態素解析結果に基づいて、該音声認識結果から得られる単語群それぞれの入力先の入力欄を前記複数の入力欄から決定し、対応する入力欄に表示する
を備えることを特徴とする音声認識装置。
入力された音声を認識し、その音声認識結果に基づいて処理を実行する音声認識装置であって、
入力欄を表示するための記述と、前記入力欄に対する入力音声に適用する音声認識文法データに関する記述を含むハイパーテキスト文書データを読み込む読込手段と、
前記ハイパーテキスト文書を解析する解析手段と、
前記解析手段の解析結果に基づいて、前記ハイパーテキスト文書中の複数の入力欄からなる所定入力欄に対応する音声認識文法データを生成する生成手段と、
前記ハイパーテキスト文書データに基づいて表示される前記所定入力欄に対応する音声認識文法データを用いて、前記入力された音声の音声認識を行う音声認識手段と、
前記音声認識文法データに基づいて、前記音声認識手段の音声認識結果から得られる単語群それぞれの入力先の入力欄を前記所定入力欄を構成する複数の入力欄から決定し、対応する入力欄に表示する表示手段と、
を備えることを特徴とする音声認識装置。
前記解析手段は、前記ハイパーテキスト文書中の入力欄を表示するための記述の内、対応する音声認識文法データがない記述を抽出する抽出手段とを備え、
前記生成手段は、前記抽出手段で抽出された記述に基づいて、該記述に対応する入力欄に対応する音声認識文法データを生成する
ことを特徴とする請求項２に記載の音声認識装置。
前記解析手段は、前記ハイパーテキスト文書中の音声認識文法データを生成するための所定記述を抽出する抽出手段とを備え、
前記生成手段は、前記抽出手段で抽出された所定記述に基づいて特定される音声認識文法データに基づいて、前記所定入力欄に対応する音声認識文法データを生成する
ことを特徴とする請求項２に記載の音声認識装置。
前記生成手段は、前記ハイパーテキスト文書中の表示対象のテキストデータを音声認識対象とする記述を抽出する抽出手段と、
前記生成手段は、前記抽出手段で抽出された記述に基づいて、該記述に対応する入力欄に対応する前記テキストデータを含む音声認識文法データを生成する
ことを特徴とする請求項２に記載の音声認識装置。
入力された音声を認識し、その音声認識結果に基づいて処理を実行する音声認識方法であって、
入力欄を表示するための記述と、前記入力欄に対する入力音声に適用する音声認識文法データに関する記述を含むハイパーテキスト文書データを読み込む読込工程と、
前記ハイパーテキスト文書データに基づいて表示される複数の入力欄に対応する音声認識文法データを用いて、前記入力された音声の音声認識を行う音声認識工程と、
前記音声認識文法データに基づいて、前記音声認識工程の音声認識結果から得られる単語群それぞれの入力先の入力欄を前記複数の入力欄から決定し、対応する入力欄に表示する表示工程と、
前記音声認識結果を形態素解析する形態素解析工程とを備え、
前記表示工程は、前記音声認識工程の音声認識結果に対する前記形態素解析工程による形態素解析結果に基づいて、該音声認識結果から得られる単語群それぞれの入力先の入力欄を前記複数の入力欄から決定し、対応する入力欄に表示する
を備えることを特徴とする音声認識方法。
入力された音声を認識し、その音声認識結果に基づいて処理を実行する音声認識方法であって、
入力欄を表示するための記述と、前記入力欄に対する入力音声に適用する音声認識文法データに関する記述を含むハイパーテキスト文書データを読み込む読込工程と、
前記ハイパーテキスト文書を解析する解析工程と、
前記解析工程の解析結果に基づいて、前記ハイパーテキスト文書中の複数の入力欄からなる所定入力欄に対応する音声認識文法データを生成する生成工程と、
前記ハイパーテキスト文書データに基づいて表示される前記所定入力欄に対応する音声認識文法データを用いて、前記入力された音声の音声認識を行う音声認識工程と、
前記音声認識文法データに基づいて、前記音声認識工程の音声認識結果から得られる単語群それぞれの入力先の入力欄を前記所定入力欄を構成する複数の入力欄から決定し、対応する入力欄に表示する表示工程と、
を備えることを特徴とする音声認識方法。
前記解析工程は、前記ハイパーテキスト文書中の入力欄を表示するための記述の内、対応する音声認識文法データがない記述を抽出する抽出工程とを備え、
前記生成工程は、前記抽出工程で抽出された記述に基づいて、該記述に対応する入力欄に対応する音声認識文法データを生成する
ことを特徴とする請求項７に記載の音声認識方法。
前記解析工程は、前記ハイパーテキスト文書中の音声認識文法データを生成するための所定記述を抽出する抽出工程とを備え、
前記生成工程は、前記抽出工程で抽出された所定記述に基づいて特定される音声認識文法データに基づいて、前記所定入力欄に対応する音声認識文法データを生成する
ことを特徴とする請求項７に記載の音声認識方法。
前記生成工程は、前記ハイパーテキスト文書中の表示対象のテキストデータを音声認識対象とする記述を抽出する抽出工程と、
前記生成工程は、前記抽出工程で抽出された記述に基づいて、該記述に対応する入力欄に対応する前記テキストデータを含む音声認識文法データを生成する
ことを特徴とする請求項７に記載の音声認識方法。
入力された音声を認識し、その音声認識結果に基づいて処理を実行する音声認識をコンピュータに機能させるためのプログラムであって、
入力欄を表示するための記述と、前記入力欄に対する入力音声に適用する音声認識文法データに関する記述を含むハイパーテキスト文書データを読み込む読込工程のプログラムコードと、
前記ハイパーテキスト文書データに基づいて表示される複数の入力欄に対応する音声認識文法データを用いて、前記入力された音声の音声認識を行う音声認識工程のプログラムコードと、
前記音声認識文法データに基づいて、前記音声認識工程の音声認識結果から得られる単語群それぞれの入力先の入力欄を前記複数の入力欄から決定し、対応する入力欄に表示する表示工程のプログラムコードと、
前記音声認識結果を形態素解析する形態素解析工程のプログラムコードとを備え、
前記表示工程は、前記音声認識工程の音声認識結果に対する前記形態素解析工程による形態素解析結果に基づいて、該音声認識結果から得られる単語群それぞれの入力先の入力欄を前記複数の入力欄から決定し、対応する入力欄に表示する
を備えることを特徴とするプログラム。
入力された音声を認識し、その音声認識結果に基づいて処理を実行する音声認識をコンピュータに機能させるためのプログラムであって、
入力欄を表示するための記述と、前記入力欄に対する入力音声に適用する音声認識文法データに関する記述を含むハイパーテキスト文書データを読み込む読込工程のプログラムコードと、
前記ハイパーテキスト文書を解析する解析工程のプログラムコードと、
前記解析工程の解析結果に基づいて、前記ハイパーテキスト文書中の複数の入力欄からなる所定入力欄に対応する音声認識文法データを生成する生成工程のプログラムコードと、
前記ハイパーテキスト文書データに基づいて表示される前記所定入力欄に対応する音声認識文法データを用いて、前記入力された音声の音声認識を行う音声認識工程のプログラムコードと、
前記音声認識文法データに基づいて、前記音声認識工程の音声認識結果から得られる単語群それぞれの入力先の入力欄を前記所定入力欄を構成する複数の入力欄から決定し、対応する入力欄に表示する表示工程のプログラムコードと、
を備えることを特徴とするプログラム。