JP2009236960A

JP2009236960A - 音声認識装置、音声認識方法及びプログラム

Info

Publication number: JP2009236960A
Application number: JP2008079144A
Authority: JP
Inventors: Fumihiro Adachi; 史博安達; Ryosuke Isotani; 亮輔磯谷; Takeshi Hanazawa; 健花沢
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2008-03-25
Filing date: 2008-03-25
Publication date: 2009-10-15

Abstract

【課題】ＨＴＭＬのような既存のハイパーテキスト文書において、容易に音声入力によるＷｅｂサービスとして利用可能とすることを目的とする。
【解決手段】ユーザの入力を求める箇所を解析し、入力を求める箇所に係る語句を抽出する解析手段と、解析結果に基づく語句が音声によって認識されるように音声認識用文法を作成する文法変換手段と、解析手段における解析結果に基づく語句とその入力箇所を判定するための属性値とを関連付けする属性値付与手段とを有する文法生成手段と、音声を入力する音声入力手段と、入力された音声において、文法生成手段にて作成された音声認識用文法に基づいて、音声の認識処理を行い、音声認識結果単語列を出力する音声認識手段と、音声認識結果単語列における語句を、属性値付与手段の関連付けに基づいて入力箇所を判定し、入力箇所に入力を行う結果判定手段とを備える。
【選択図】図１

Description

本発明は、特にＨＴＭＬにおいて表示されるフォーム等の入力欄に音声認識結果の単語列を自動的に入力する音声認識装置、音声認識方法及びプログラムに関する。

電車の乗り換え案内やグルメ情報検索のように、Ｗｅｂブラウザ上で表示される入力フォームに所定のキーワードを入力し、情報を入手するサービスが多数ある。デスクトップＰＣなどでこのサービスを利用する際には、大きなディスプレイが利用でき、入力手段としては、マウス、キーボードなど様々な機器を利用したりすることによりスムーズなキーワード入力が可能であるが、携帯端末などでこのサービスを利用する際には、ディスプレイサイズや入力デバイスに制約があるため、キーワードの入力が困難である。

また、空の入力欄に自由にキーワードを入力する時だけではなく、チェックボックスで項目を選択したり、セレクトボックスから語句を選択したりする際も同様である。この場合、音声認識の技術を利用することで、キーワードを含む発声を音声認識し、音声認識結果のキーワードを所定の入力フォームに埋めたり、音声認識結果のキーワードに対応するボタンをオンにしたりすることが容易になる。

上記のような技術は、例えば特許文献１では、ボタンと音声入力が関連付けられており、ボタンを押すと所定の入力欄が選択され、音声認識結果がその欄に入力される。しかし、この発明ではユーザが入力するフォームを、発声毎に毎回１つずつ指定する必要があり、入力のたびに入力先を指定するのは煩わしい。また、複数のキーワードを含む文発声を行い、複数のフォームにそれぞれ対応するキーワードを入力するということができない。

この課題に対する技術として、例えば特許文献２では、入力欄に対応する音声認識文法データを有するハイパーテキスト文書を読み込んで画面の表示を行い、その認識文法に基づいた音声認識処理をして認識結果を対応する入力欄に埋める方法が開示されている。
特開２００１−０４２８９０号公報特許第３５４２５７８号公報

しかしながら、特許文献２による発明では、各入力欄に対応する音声認識文法データを有するハイパーテキスト文書を利用することが前提となっており、ハイパーテキスト文書作成者は音声認識サービスを考慮にいれて、文書作成する必要がある。そのため、音声認識サービスに対応していない多数の既存ＨＴＭＬ文書を音声入力可能なアプリにすることは困難である。すなわち、この発明では、ＨＴＭＬ文書作成者が音声入力用の認識文法を作成する必要があり、手間がかかるという問題がある。また、認識用文法の記述、複数入力欄を同時認識するための記述について特殊なタグを利用するため、専用のインタプリタが必要となる。

本発明は、上記問題点に鑑みてなされたもので、ＨＴＭＬのような既存のハイパーテキスト文書を、容易に音声入力を可能とすることを目的とする。

上記課題を解決するため、本発明における音声認識装置は、文書中のユーザの入力を求める箇所を解析し、入力を求める箇所に係る語句を抽出する解析手段と、解析手段における解析結果に基づく語句が音声によって認識されるように音声認識用文法を作成する文法変換手段と、解析手段における解析結果に基づく語句と解析手段における解析結果に基づく語句の入力箇所を判定するための属性値とを関連付けする属性値付与手段とを有する文法生成手段と、音声を入力する音声入力手段と、音声入力手段により入力された音声において、文法生成手段にて作成された音声認識用文法に基づいて、音声の認識処理を行い、音声認識結果単語列を出力する音声認識手段と、音声認識手段にて出力された音声認識結果単語列における語句を、属性値付与手段の関連付けに基づいて入力箇所を判定し、入力箇所に入力を行う結果判定手段とを備えることを特徴とする。

解析手段は、入力を求める箇所において選択肢として記載された語句を抽出することを特徴とする。

文法生成手段は、文書中に記載された入力箇所を判定するためのタグ情報を属性値として関連付けることを特徴とする。

文法生成手段は、文書中に記載された入力箇所に隣接するように表示される関連語句と、入力箇所に入力可能な語句を含む文が音声認識可能な文法を生成することを特徴とする。

文法生成手段は、解析手段における解析結果に基づく語句と、文書中に記載された入力箇所に隣接するように表示される関連語句のうち少なくとも１つ以上の語句の前後に付加語モデルを接続して生成することを特徴とする。

文法生成手段は、音声認識用文法中の少なくとも１つ以上の語句に、入力欄を一意に決定するための属性値情報を含めることを特徴とする。

さらに、文書のタグ情報を関連付けた語句を少なくとも１つ以上格納する記憶手段を有することを特徴とする。

文法生成手段は、記憶手段に格納された語句から、タグ情報を参照して、入力箇所に入力可能な語句を選択し、音声認識可能な文法を生成することを特徴とする。

また、本発明における音声認識方法は、文書中のユーザの入力を求める箇所を解析し、入力を求める箇所に係る語句を抽出する解析ステップと、解析ステップにおける解析結果に基づく語句が音声によって認識されるように音声認識用文法を作成する文法変換ステップと、解析ステップにおける解析結果に基づく語句と解析ステップにおける解析結果に基づく語句の入力箇所を判定するための属性値とを関連付けする属性値付与ステップとを有する文法生成ステップと、音声を入力する音声入力ステップと、音声入力ステップにより入力された音声において、文法生成ステップにて作成された音声認識用文法に基づいて、音声の認識処理を行い、音声認識結果単語列を出力する音声認識ステップと、音声認識ステップにて出力された音声認識結果単語列における語句を、属性値付与ステップの関連付けに基づいて入力箇所を判定し、入力箇所に入力を行う結果判定ステップとを備えることを特徴とする。

解析ステップは、入力を求める箇所において選択肢として記載された語句を抽出することを特徴とする。

文法生成ステップは、文書中に記載された入力箇所を特定するためのタグ情報を属性値として関連付けることを特徴とする。

文法生成ステップは、文書中に記載された入力箇所に隣接するように表示される関連語句と、入力箇所に入力可能な語句を含む文が音声認識可能な文法を生成することを特徴とする。

文法生成ステップは、解析手段における解析結果に基づく語句と、文書中に記載された入力箇所に隣接するように表示される関連語句のうち少なくとも１つ以上の語句の前後に付加語モデルを接続して生成することを特徴とする。

文法生成ステップは、音声認識用文法中の少なくとも１つ以上の語句に入力欄を一意に決定するための属性値情報を含めることを特徴とする。

さらに、文書のタグ情報を関連付けた語句を少なくとも１つ以上格納する記憶ステップを有する。

文法生成ステップは、記憶ステップにて格納された語句から、タグ情報を参照して、入力箇所に入力可能な語句を選択し、音声認識可能な文法を生成することを特徴とする。

また、本発明におけるプログラムは、文書中のユーザの入力を求める箇所を解析し、入力を求める箇所に係る語句を抽出する処理と、抽出する処理における解析結果に基づく語句が音声によって認識されるように音声認識用文法を作成する処理と、抽出する処理における解析結果に基づく語句と抽出する処理における解析結果に基づく語句の入力箇所を判定するための属性値とを関連付けする処理とを有する文法を生成する処理と、音声を入力する処理と、音声を入力する処理により入力された音声において、文法を生成する処理にて作成された音声認識用文法に基づいて、音声の認識処理を行い、音声認識結果単語列を出力する処理と、音声認識結果単語列を出力する処理にて出力された音声認識結果単語列における語句を、関連付けする処理の関連付けに基づいて入力箇所を判定し、前記入力箇所に入力を行う処理とをコンピュータに実行させる。

抽出する処理であって、入力を求める箇所において選択肢として記載された語句を抽出する処理をコンピュータに実行させる。

生成する処理であって、文書中に記載された入力箇所を特定するためのタグ情報を属性値として関連付ける処理と、文書中に記載された入力箇所に隣接するように表示される語句と入力箇所に入力可能な語句を含む文が音声認識可能な文法を生成する処理と、解析手段における解析結果に基づく語句と、文書中に記載された入力箇所に隣接するように表示される関連語句のうち少なくとも１つ以上の語句の前後に付加語モデルを接続して生成する処理と、音声認識用文法中の少なくとも１つ以上の語句に入力欄を一意に決定するための属性値情報を含める処理とをコンピュータに実行させる。

さらに、文書のタグ情報を関連付けた語句を少なくとも１つ以上格納する処理をコンピュータに実行させる。

生成する処理であって、格納する処理にて格納された語句から音声認識可能な文法を生成する処理と、格納する処理のタグ情報を参照して、入力箇所に入力可能な語句を取得する処理とをコンピュータに実行させる。

本発明によれば、既存のハイパーテキスト文書を文書作成者が新たに認識用文法を作成する手間をかけることなく、容易に音声入力によるＷｅｂサービスとして用いることが可能で、特に、複数の入力欄がある場合でも、選択作業を行うことなく自動的に適切な入力欄に認識結果を埋め込むことが可能である。

（実施形態１）
図１は、本発明の実施形態における音声認識装置の構成図である。本実施形態においては、文書解析部１と、文法作成部２と、音声入力部３と、音声認識部４と、結果判定部５と、表示部６とを有する。

文書解析部１では、ＨＴＭＬ文書１０１に記述されたタグや語句を解析して、音声入力を行う単語リストを解析結果として出力する。文法作成部２は、解析結果から音声認識用文法を作成する文法変換部２１と、それぞれの単語と前記文書中の入力欄の属性値情報との関連付けを行う属性値付与部２２とから構成され、文書解析部１での解析結果から音声認識用文法の作成を行う。

また、音声入力部３にて、マイクなどからの音声入力を受付け、音声認識部４にて、入力された音声に対して、文法作成部２で作成された音声認識用文法を用いて音声認識処理を行い、音声認識結果単語列を出力する。結果判定部５では、その認識結果単語列に対し、関連付けられた属性値情報を参照することで入力すべき入力欄の判定を行う。表示部６は、ＨＴＭＬ文書１０１に記述された表示内容を表示するとともに、結果判定部５の判定結果に基づいて音声認識結果を入力する。

図２は、本実施形態におけるフローチャートである。まず、表示部６がＨＴＭＬ文書１０１の表示内容を表示する（ステップＳ１）。表示されたＨＴＭＬ文書について、文書解析部１では、テキスト情報やタグ情報などを解析し、音声入力を行う入力欄の単語リストを解析結果として出力する（ステップＳ２）。解析結果に基づいて、文法作成部２では、文法変換部２１において音声認識用文法を生成するとともに、属性値付与部２２にて、それぞれの単語と入力欄の属性値情報との関連付けを行う（ステップＳ３）。

次に、マイク等の音声入力部３にて、音声が入力される（ステップＳ４）。入力音声に対し、音声認識部４は、生成した音声認識用文法を用いて音声認識処理し、認識結果単語列を出力する（ステップＳ５）。結果判定部５にて、認識結果単語列に対し関連付けられた属性値情報を参照することで入力すべき入力欄が判定され、表示部６は判定された入力欄に認識結果単語列を含めた状態で表示を行う（ステップＳ６）。

以下、本実施形態について図面を参照して詳細に説明する。図３は、エリアとジャンルの２つのキーワードを入力するグルメ情報検索サービスの一例を示す図である。まず、表示部６は、例えばＷｅｂブラウザによって、ＨＴＭＬ文書１０１の内容を表示する。この時に、図３のような画面を表示したとする。入力欄は自由にキーワードを入力することもできるが、ここでは入力欄に表示されるセレクトボックスから該当するキーワードを選択する場合を考える。図３に示す例では、入力欄を選択すると、「東京」「横浜」や「イタリアン」「ラーメン屋」などのキーワードが選択できるものとする。この時のＨＴＭＬ文書１０１は、図４のようにｓｅｌｅｃｔタグを用いて記述することも可能である。

文書解析部１はＨＴＭＬ文書１０１を読み込み、テキスト情報やタグ情報を解析し、音声認識用文法作成のための情報を解析結果として抽出する。具体的には、認識すべき単語リスト、例えばＨＴＭＬ文書１０１が図４の場合、ｓｅｌｅｃｔタグ中のｏｐｔｉｏｎタグをキーとして「東京」「横浜」「イタリアン」「ラーメン屋」などの単語リストが取得可能である。このような単語リストの取得は、上記のセレクトボックスからのみ抽出されるわけではなく、ｉｎｐｕｔタグのｃｈｅｃｋｂｏｘやｒａｄｉｏなどのボタン類からも取得可能である。なお、ＨＴＭＬ文書は様々な省略や記述方法が許されるので、単語リスト取得のためにキーとするタグや記述方法は上記に限るものではない。

文法作成部２は、文法変換部２１において解析結果である単語リストに対し、それぞれの単語に読み情報の付与を行って音声認識用の文法を作成し、属性値付与部２２において入力欄の属性値情報の関連付けを行う。例えば、図４に示すＨＴＭＬ文書から「東京」「横浜」「イタリアン」「ラーメン屋」などの単語リストが文書解析部１で取得できたときに作成する音声認識用文法の例を図５に示す。図５では、選択可能な単語を全て音声認識させるよう扱っている。またノードＳが始端ノード、ノードＥが終端ノードを表し、離散単語認識を行うための音声認識用文法の例である。

このときの音声認識用文法の作成方法は、例えば図２２[Ａ]に示すような文法のテンプレートをあらかじめ人手で与えておき、解析結果で得られる単語リストを該当するアークに当てはめることで自動的に作成されるが、これに限るものではない。

また、作成される音声認識用文法はこれに限るものではなく、例えば図６のように取得した単語リストの前後に付加語モデルを接続して認識を行うための文法とすることで、「えーと東京」「じゃー京都でお願いします」のような発声を受理することが可能である。付加語モデルは、「えーと」「じゃー」「お願いします」のように一般的に表現されるフィラーでも構わないし、ワードスポッティング認識用の付加語モデルでも構わない。付加語モデルを用いたワードスポッティング認識手法は、例えば特許第３０３９６３４号公報などに開示されており、当業者にとって周知の技術であるため詳細な説明は省略する。この場合、必要な単語のみを発声するだけでなく自然な表現で入力できるという効果がある。

図５の音声認識用文法では各単語に付与されている情報として、第１カラム目が表記情報、第２カラム目が読み情報を表すが、これに限るものではない。読み情報は、表記情報に対し、形態素解析処理などをすることによって得ることができるが、手段はこれに限るものではない。また、読み情報は図５のように音節単位で表現しても良いが、これに限るものではなく音素単位などで表現しても構わない。読み情報はその後の音声認識処理で用いられる。

また、属性値付与部２２において単語と入力欄の属性値情報との関連付けを行うが、属性値情報はＨＴＭＬ文書中のタグに付与されているｎａｍｅ属性を利用しても良いが、これに限るものではなく、例えば０、１、２・・・のようにＨＴＭＬ文書中での通し番号を用いることも可能である。このように単語に関連付けられた属性値情報は保存され、その後の結果判定部５において認識結果単語列の入力先欄の判定処理の際に利用する。

保存の際には、例えば図２３のような単語と属性値情報とのテーブルの形式で保存しておく。これにより、「横浜」という音声認識結果が得られたとすると、「横浜」に関連付けられた属性値情報“Ａｒｅａ”を参照することで、「横浜」という文字列はＡｒｅａという名称の入力欄（例えばｓｅｌｅｃｔタグのｎａｍｅ属性がＡｒｅａ）に入力すれば良い。このように入力欄に入力可能な単語と入力欄の属性値情報とを関連付けておくことにより、入力欄が複数存在するようなＨＴＭＬ文書を扱う場合でも容易に音声認識結果単語列を適切な入力欄に入力することができる。

また、図７のようにＨＴＭＬ文書中の入力欄外の語句（例えば、入力欄に隣接する「エリア」「ジャンル」）を利用し、入力欄外の語句と入力欄内の単語を１文で発声できるような依存関係を持たせた音声認識用文法を文法変換部２１で作成しても良い。この場合、例えば図２２［Ｂ］に示すように入力欄外の語句を含む文法のテンプレートをあらかじめ人手で与えておき、解析結果で得られる単語リスト及び入力欄外の語句を該当するアークに当てはめることで自動的に作成される。また、入力欄が複数ある場合は、図２２［Ｃ］に示すように前記文法のテンプレートを並列に並べるなど、複数のテンプレートを組み合わせて用いても良い。これにより、「エリアは横浜です」、「ジャンルはイタリアン」のような、より自然な発声を受理することが可能となる。

また、図８のように複数の入力欄を同時に入力できるような依存関係を持たせた音声認識用文法を作成しても良い。この場合、複数の文法テンプレートを前後に接続することで音声認識用文法が作成可能となる。これにより「エリアは横浜で、ジャンルはイタリアンです」のような発声を受理することが可能であり、一度で複数の入力欄を入力できるという効果がある。このような音声認識文法を作成するためには、例えば図２２に示すような文法のテンプレートにＨＴＭＬ文書１０１からの解析結果で得られる単語リストや入力欄外の語句を当てはめれば良いが、これに限るものではない。

なお、図５から図８に示した音声認識用文法の例はそれぞれ単独で認識処理に用いるだけに限らず、図６と図８を同時に使用するなど複数の文法を組み合わせた音声認識用文法を用いることで、様々な入力音声を受理できるようにしても構わない。また、入力欄に入力可能な単語と入力欄の属性値情報とを関連付けておくことは、上記の「エリアは横浜です」のように入力欄内の語句以外の単語が認識結果に含まれる場合でも、「横浜」のみに属性値情報が付与されていることになり、複数の入力欄から適切な入力欄を判定するだけでなく、入力欄の個数に関わらず認識結果文字列から入力欄内の単語のみを正確に抽出可能である。

音声認識部４は音声入力部３から入力される音声に対し、文法作成部２で生成した音声認識用文法に従って音声認識処理を行う。なお、音声認識用文法に従って行う音声認識処理については、当業者にとって周知の技術であるため詳細な説明は省略する。ここでは、「エリアは横浜で、ジャンルはイタリアンです」という認識結果単語列が得られたとする。結果判定部５は、この認識結果単語列中から、入力欄の属性値情報と関連付けられた単語を抽出する。この場合、「横浜」「イタリアン」を抽出する。それぞれに関連付けられた属性値情報"Ａｒｅａ"及び"Ｇｅｎｒｅ"によりそれぞれの入力先が判定可能となる。表示部６は、この判定結果に基づき、図９のようにそれぞれ該当する入力欄に認識結果単語列を入力すれば良い。認識結果単語列の入力方法はこれに限るものではなく、例えばチェックボックスやラジオボタンの場合は、認識結果単語列に対応するボタンにチェックを入れたり、ボタンをオンにしたりすれば良く、各入力欄の性質に合わせて入力方法を決定すれば良い。

（実施形態２）
図１０は、本発明の実施形態における別の構成図である。本実施形態においては、実施形態１の構成に加え、入力欄に入力可能な単語リストが登録されている共通辞書２０１を有する。

図１１は、本実施形態におけるフローチャートである。実施形態１の動作との差分は図２におけるステップＳ２及びＳ３のみであるため、この差分についてのみ詳細に説明する。文書解析部１は、ＨＴＭＬ文書１０１を読みこみテキスト情報やタグ情報などを解析して、音声入力を行う入力欄における共通辞書ＩＤ（後述）を解析結果として出力する（ステップＳ２１）。文法作成部２は、文法変換部２１において解析結果及び共通辞書２０１から関連する入力欄内の単語リストを取得し、音声認識用文法を生成するとともに、属性値付与部２２においてそれぞれの単語と入力欄の属性値情報との関連付けを行う（ステップＳ３１）。

次に、本実施形態について、詳細に説明する。まず、文書解析部１はＨＴＭＬ文書１０１を読み込み、タグやテキスト情報を解析し表示内容を出力する。

その際、例えば表示部６には図１２に示すような、入力欄に自由にキーワードを入力できる画面が表示されたとする。この時のＨＴＭＬ文書１０１は、例えば図１３のようにｉｎｐｕｔタグを用いて記述できる。同時に、文書解析部１は音声認識用文法作成のための情報を抽出する。具体的には、認識すべき単語リストを抽出する。但し、実施形態１と異なりＨＴＭＬ文書１０１には認識すべき単語が明示的に記述されているわけではないので、共通辞書２０１中の単語を特定する共通辞書ＩＤを抽出する。この例では、ｉｎｐｕｔタグのｎａｍｅ属性に記述されている"ＦｏｏｄＡｒｅａＮａｍｅ"、"ＦｏｏｄＧｅｎｒｅＮａｍｅ"を共通辞書ＩＤとして取得できる。なお、ＨＴＭＬ文書は様々な省略や記述方法が許されるので、共通辞書ＩＤ取得のためにキーとするタグや記述方法は上記に限るものではない。

図１４は、共通辞書２０１の構成例である。共通辞書２０１には、単語リストとそれらのカテゴリを表す共通辞書ＩＤとが関連付けられた状態で登録されている。文法作成部２は、文法変換部２１において解析結果である共通辞書ＩＤを用いて共通辞書２０１を参照し、共通辞書ＩＤと関連付けて登録されている単語リストを入力欄に入力可能な単語リストとして取得する。そして、取得した単語リストに対して実施形態１の場合と同様に文法変換部２１においてそれぞれの単語に読み情報の付与を行って音声認識用の文法を作成し、属性値付与部２２において入力欄の属性値情報の関連付けを行う。また、共通辞書２０１は図１４のフォーマットに限らず、例えば読み情報が付与されている状態で単語が登録されていても構わない。この場合、文法作成部２では読み情報付与の処理が省略できる。

このように共通辞書２０１を用意することで、登録されている単語リストを種々のＷｅｂサービスで共通に用いることができ、ＨＴＭＬ文書の作成者が音声認識用文法作成の手間をかける必要がない。これにより、ＨＴＭＬ文書に入力欄に入力可能な単語リストが明示的に記載されていなくても、容易に音声入力可能なアプリとして利用できる。

音声認識部４、結果判定部５及び表示部６の動作については実施形態１の場合と同様のため説明を省略する。

（実施形態３）
図１５は、本発明の別の実施形態における構成図である。本実施形態においては、文法作成部２は、文法変換部２１において文書解析部１の解析結果から音声入力する単語リストを取得し、音声認識用文法を作成するとともに、属性値付与部２２においてそれぞれの単語と入力欄の属性値情報との関連付けを行い、その属性値情報を音声認識用文法に含めることを行う。また、結果判定部５においては、認識結果単語列に対して付与された属性値情報を参照することで入力すべき入力欄を判定する。

図１６は、本実施形態におけるフローチャートである。実施形態１における動作の差異は、図２におけるステップＳ３及びＳ６のみであるため、この差分についてのみ詳細に説明する。文法作成部２は、文法変換部２１において文書解析部１の解析結果から入力欄内の単語リストを取得し、音声認識用文法を生成するとともに、属性値付与部２２においてそれぞれの単語と入力欄の属性値情報との関連付けを行い、その属性値情報を音声認識用文法内に含める（ステップＳ３２）。結果判定部５は、認識結果単語列に対し付与された属性値情報を参照することで入力すべき入力欄を判定し、表示部６は、認識結果単語列を判定した入力欄に表示する（ステップＳ６２）。

次に、本実施形態について、図面を参照して詳細に説明する。例えば、図１７に示すように出発地と目的地の２つのキーワードを入力することで乗り換え案内サービスを利用する場合を考える。この時のＨＴＭＬ文書１０１は、例えば図１８のように記述される。このような場合、同じ単語が複数の入力欄に入力される可能性があるため、実施形態１における構成では、結果判定部５において認識結果単語列に関連付けられた属性値情報を参照するだけでは入力すべき入力欄が一意に特定できず、特定するためには認識結果単語列に対して形態素解析処理・構文解析処理・意味理解処理等の言語処理、音声を入力したユーザに対話的に問い返すなどの知的かつ高度な処理を行う必要がある。

そこで、文法作成部２は、文法変換部２１において文書解析部１の解析結果である単語リストに対し、それぞれの単語に読み情報の付与を行って音声認識用の文法を作成し、属性値付与部２２において入力欄の属性値情報の関連付けを行い、その属性値情報を音声認識文法内に含める。

例えば、図１８に示すＨＴＭＬ文書から「東京」「新横浜」「京都」「新大阪」などの単語リストが文書解析部１で取得できた際に作成する音声認識用文法の例を図１９に示す。音声認識用文法の作成手法は、実施形態１と同様、文法のテンプレートをあらかじめ人手で与えておき、解析結果で得られる単語リスト及び入力欄外の語句を該当するアークに当てはめることで自動的に作成されるが、これに限るものではない。ここでは各単語に付与されている情報として第３カラム目に属性値情報を追加したが、これに限るものではない。

このように単語の属性値として入力欄の情報を埋め込んだ音声認識用文法を用いることで、音声認識部４において入力欄の属性値情報と関連付けられた単語を含む認識結果単語列が出力される。よって、認識結果単語列そのものから入力欄の属性値情報が取得でき、結果判定部５において入力すべき入力欄を判定する際に高度な処理を必要としない。これは特に、図１９のように入力欄外の語句と入力欄内の単語を１文で発声できるような依存関係を持たせた音声認識用文法を作成したときに効果が得られる。

本実施形態における音声認識部４は、実施形態１における動作と同様なので説明を省略する。結果判定部５は前述のように、認識結果単語列から入力欄の属性値情報と関連付けられた単語が取得でき、その入力欄の属性値情報に応じて入力すべき入力欄を判定する。例えば、「出発地は新横浜で、目的地は京都」という認識結果が得られたとすると、既に「新横浜」には“Ｓｔａｒｔ”、「京都」には“Ｇｏａｌ”という入力欄の属性値情報が付与されているので、その属性値を用いることができる。

表示部６は実施形態１における動作と同様なので説明を省略する。このような構成を用いることで、同じ単語が複数の入力欄に入力可能なサービスの場合でも認識結果単語を適切に入力できるという効果がある。

（実施形態４）
図２０は、本発明の別の実施形態における構成図である。本実施形態においては、実施形態３の構成に加え、入力欄に入力可能な単語リストが登録されている共通辞書２０１とから構成される。

図２１は、本実施形態におけるフローチャートである。実施形態３の動作との差異は図２におけるステップＳ２及びＳ３２のみであるため、この差分についてのみ詳細に説明する。文書解析部１は、ＨＴＭＬ文書１０１を読みこみテキスト情報やタグ情報などを解析して、音声入力を行う前記文書中の入力欄の共通辞書ＩＤを解析結果として出力する（ステップＳ２３）。文法作成部２は、文法変換部２１において前記解析結果及び共通辞書２０１から同一の共通辞書ＩＤを持つ単語リストを取得し、音声認識用文法を生成するとともに、属性値付与部２２においてそれぞれの単語と前記入力欄の属性値情報との関連付けを行い、その属性値情報を音声認識用文法内に含める（ステップＳ３３）。

次に、本実施形態について、詳細に説明する。文書解析部１及び共通辞書２０１における動作は実施形態２と同様なので説明を省略する。文法作成部２は、文法変換部２１において文書解析部１の解析結果である共通辞書ＩＤを用いて共通辞書２０１を参照し、共通辞書ＩＤとして登録されている単語リストを入力欄に入力可能な単語リストとして取得する。そして、取得した単語リストに対して実施形態１の場合と同様にそれぞれの単語に読み情報の付与を行って音声認識用の文法を作成し、属性値付与部２２において入力欄の属性値情報の関連付けを行い、その属性値情報を前記音声認識文法内に含める。音声認識文法に属性値情報を含めた後の処理は実施形態３と同様なので、以下の説明は省略する。

以上、図面を参照して実施形態１から４について詳細に説明したが、それぞれの実施形態において、ＨＴＭＬ文書１０１内にセレクトボックスからキーワードを選択する入力欄と、自由にキーワードを入力する入力欄との両方がある場合は、前者はＨＴＭＬ文書１０１から単語リストを取得し、後者は取得した共通辞書ＩＤで参照できる共通辞書２０１から単語リストを取得すれば良い。つまり、実施例１と実施例２において説明した処理、及び実施例３と実施例４において説明した処理は組み合わせて動作させることが可能である。

また、上記実施例では表示部６では音声入力されたキーワードを入力欄に入力する処理、キーワードに対応するボタンをオンにする処理について説明したが、これに限らず、例えば音声入力されたキーワードに応じた検索処理を行い、検索結果を出力しても構わない。また、表示部６は例えば音声出力を行うなど画面表示に関する処理に限らない。

また、音声入力部３は、マイクのように音声を直接入力できるものに限らず、音声の特徴量を直接入力できるものでもかまわない。

また、本発明の構成はクライアントサーバ型の構成とすることも可能である。例えば、音声入力部３及び表示部６をクライアントに、それ以外をサーバに有することが可能であるが、これに限るものではない。

以上、本発明の好適な実施の形態により本発明を説明した。ここでは特定の具体例を示して本発明を説明したが、特許請求の範囲に定義された本発明の広範囲な趣旨および範囲から逸脱することなく、これら具体例に様々な修正および変更を加えることができることは明らかである。

本発明の実施形態おける音声認識装置の構成図である。本発明の実施形態おける音声認識装置の動作を示す図である。画面表示例を示す図である。ＨＴＭＬ文書の例である。離散単語認識する場合の音声認識用文法の例である。ワードスポッティング認識する場合の音声認識用文法の例である。入力欄外の単語も含めた場合の音声認識用文法の例である。複数の入力欄を同時に入力するための音声認識用文法の例である。画面表示例を示す図である。本発明の実施形態おける音声認識装置の構成図である。本発明の実施形態おける音声認識装置の動作を示す図である。画面表示例を示す図である。ＨＴＭＬ文書の例である。本発明の実施形態における共通辞書の構成例である。本発明の実施形態おける音声認識装置の構成図である。本発明の実施形態おける音声認識装置の動作を示す図である。画面表示例を示す図である。ＨＴＭＬ文書の例である。音声認識用文法の例である。本発明の実施形態おける音声認識装置の構成図である。本発明の実施形態おける音声認識装置の動作を示す図である。音声認識用文法作成のための文法テンプレートの例である。単語と単語に関連付けられた属性値情報テーブルの例である。

符号の説明

１文書解析部
２文法作成部
２１文法変換部
２２属性値付与部
３音声入力部
４音声認識部
５結果判定部
６表示部
１０１ＨＴＭＬ文書
２０１共通辞書

Claims

文書中のユーザの入力を求める箇所を解析し、前記入力を求める箇所に係る語句を抽出する解析手段と、
前記解析手段における解析結果に基づく語句が音声によって認識されるように音声認識用文法を作成する文法変換手段と、前記解析手段における解析結果に基づく語句と前記解析手段における解析結果に基づく語句の入力箇所を判定するための属性値とを関連付けする属性値付与手段とを有する文法生成手段と、
音声を入力する音声入力手段と、
前記音声入力手段により入力された音声において、前記文法生成手段にて作成された音声認識用文法に基づいて、音声の認識処理を行い、音声認識結果単語列を出力する音声認識手段と、
前記音声認識手段にて出力された音声認識結果単語列における語句を、前記属性値付与手段の関連付けに基づいて入力箇所を判定し、前記入力箇所に入力を行う結果判定手段とを備えることを特徴とする音声認識装置。
前記解析手段は、前記入力を求める箇所において選択肢として記載された語句を抽出することを特徴とする請求項１に記載の音声認識装置。
前記文法生成手段は、前記文書中に記載された入力箇所を判定するためのタグ情報を属性値として関連付けることを特徴とする請求項１又は２に記載の音声認識装置。
前記文法生成手段は、前記文書中に記載された入力箇所に隣接するように表示される関連語句と、前記入力箇所に入力可能な語句を含む文が音声認識可能な文法を生成することを特徴とする請求項１から３のいずれか１項に記載の音声認識装置。
前記文法生成手段は、前記解析手段における解析結果に基づく語句と、前記文書中に記載された入力箇所に隣接するように表示される関連語句のうち少なくとも１つ以上の語句の前後に付加語モデルを接続して生成することを特徴とする請求項１から４のいずれか１項に記載の音声認識装置。
前記文法生成手段は、前記音声認識用文法中の少なくとも１つ以上の語句に、入力欄を一意に決定するための属性値情報を含めることを特徴とする請求項１から５のいずれか１項に記載の音声認識装置。
さらに、前記文書のタグ情報を関連付けた語句を少なくとも１つ以上格納する記憶手段を有することを特徴とする請求項１から６のいずれか１項に記載の音声認識装置。
前記文法生成手段は、前記記憶手段に格納された語句から、タグ情報を参照して、前記入力箇所に入力可能な語句を選択し、音声認識可能な文法を生成することを特徴とする請求項１から７のいずれか１項に記載の音声認識装置。
文書中のユーザの入力を求める箇所を解析し、前記入力を求める箇所に係る語句を抽出する解析ステップと、
前記解析ステップにおける解析結果に基づく語句が音声によって認識されるように音声認識用文法を作成する文法変換ステップと、前記解析ステップにおける解析結果に基づく語句と前記解析ステップにおける解析結果に基づく語句の入力箇所を判定するための属性値とを関連付けする属性値付与ステップとを有する文法生成ステップと、
音声を入力する音声入力ステップと、
前記音声入力ステップにより入力された音声において、前記文法生成ステップにて作成された音声認識用文法に基づいて、音声の認識処理を行い、音声認識結果単語列を出力する音声認識ステップと、
前記音声認識ステップにて出力された音声認識結果単語列における語句を、前記属性値付与ステップの関連付けに基づいて入力箇所を判定し、前記入力箇所に入力を行う結果判定ステップとを備えることを特徴とする音声認識方法。
前記解析ステップは、前記入力を求める箇所において選択肢として記載された語句を抽出することを特徴とする請求項９に記載の音声認識方法。
前記文法生成ステップは、前記文書中に記載された入力箇所を特定するためのタグ情報を属性値として関連付けることを特徴とする請求項９又は１０に記載の音声認識方法。
前記文法生成ステップは、前記文書中に記載された入力箇所に隣接するように表示される関連語句と、前記入力箇所に入力可能な語句を含む文が音声認識可能な文法を生成することを特徴とする請求項９から１１のいずれか１項に記載の音声認識方法。
前記文法生成ステップは、前記解析手段における解析結果に基づく語句と、前記文書中に記載された入力箇所に隣接するように表示される関連語句のうち少なくとも１つ以上の語句の前後に付加語モデルを接続して生成することを特徴とする請求項９から１２のいずれか１項に記載の音声認識方法。
前記文法生成ステップは、前記音声認識用文法中の少なくとも１つ以上の語句に入力欄を一意に決定するための属性値情報を含めることを特徴とする請求項９から１３のいずれか１項に記載の音声認識方法。
さらに、前記文書のタグ情報を関連付けた語句を少なくとも１つ以上格納する記憶ステップを有することを特徴とする請求項９から１４のいずれか１項に記載の音声認識方法。
前記文法生成ステップは、前記記憶ステップにて格納された語句から、タグ情報を参照して、前記入力箇所に入力可能な語句を選択し、音声認識可能な文法を生成することを特徴とする請求項９から１５のいずれか１項に記載の音声認識方法。
文書中のユーザの入力を求める箇所を解析し、前記入力を求める箇所に係る語句を抽出する処理と、
前記抽出する処理における解析結果に基づく語句が音声によって認識されるように音声認識用文法を作成する処理と、前記抽出する処理における解析結果に基づく語句と前記抽出する処理における解析結果に基づく語句の入力箇所を判定するための属性値とを関連付けする処理とを有する文法を生成する処理と、
音声を入力する処理と、
前記音声を入力する処理により入力された音声において、前記文法を生成する処理にて作成された音声認識用文法に基づいて、音声の認識処理を行い、音声認識結果単語列を出力する処理と、
前記音声認識結果単語列を出力する処理にて出力された音声認識結果単語列における語句を、前記関連付けする処理の関連付けに基づいて入力箇所を判定し、前記入力箇所に入力を行う処理とをコンピュータに実行させるプログラム。
前記抽出する処理であって、前記入力を求める箇所において選択肢として記載された語句を抽出する処理をコンピュータに実行させる請求項１７記載のプログラム。
前記生成する処理であって、前記文書中に記載された入力箇所を特定するためのタグ情報を属性値として関連付ける処理と、
前記文書中に記載された入力箇所に隣接するように表示される語句と前記入力箇所に入力可能な語句を含む文が音声認識可能な文法を生成する処理と、
前記解析手段における解析結果に基づく語句と、前記文書中に記載された入力箇所に隣接するように表示される関連語句のうち少なくとも１つ以上の語句の前後に付加語モデルを接続して生成する処理と、
前記音声認識用文法中の少なくとも１つ以上の語句に入力欄を一意に決定するための属性値情報を含める処理とをコンピュータに実行させる請求項１７又は１８記載のプログラム。
さらに、前記文書のタグ情報を関連付けた語句を少なくとも１つ以上格納する処理をコンピュータに実行させる請求項１７から１９のいずれか１項に記載のプログラム。
前記生成する処理であって、前記格納する処理にて格納された語句から音声認識可能な文法を生成する処理と、
前記格納する処理のタグ情報を参照して、前記入力箇所に入力可能な語句を取得する処理とをコンピュータに実行させる請求項１７から２０のいずれか１項に記載のプログラム。