JP2009236960A - 音声認識装置、音声認識方法及びプログラム - Google Patents

音声認識装置、音声認識方法及びプログラム Download PDF

Info

Publication number
JP2009236960A
JP2009236960A JP2008079144A JP2008079144A JP2009236960A JP 2009236960 A JP2009236960 A JP 2009236960A JP 2008079144 A JP2008079144 A JP 2008079144A JP 2008079144 A JP2008079144 A JP 2008079144A JP 2009236960 A JP2009236960 A JP 2009236960A
Authority
JP
Japan
Prior art keywords
input
speech recognition
grammar
phrase
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2008079144A
Other languages
English (en)
Inventor
Fumihiro Adachi
史博 安達
Ryosuke Isotani
亮輔 磯谷
Takeshi Hanazawa
健 花沢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2008079144A priority Critical patent/JP2009236960A/ja
Publication of JP2009236960A publication Critical patent/JP2009236960A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】HTMLのような既存のハイパーテキスト文書において、容易に音声入力によるWebサービスとして利用可能とすることを目的とする。
【解決手段】ユーザの入力を求める箇所を解析し、入力を求める箇所に係る語句を抽出する解析手段と、解析結果に基づく語句が音声によって認識されるように音声認識用文法を作成する文法変換手段と、解析手段における解析結果に基づく語句とその入力箇所を判定するための属性値とを関連付けする属性値付与手段とを有する文法生成手段と、音声を入力する音声入力手段と、入力された音声において、文法生成手段にて作成された音声認識用文法に基づいて、音声の認識処理を行い、音声認識結果単語列を出力する音声認識手段と、音声認識結果単語列における語句を、属性値付与手段の関連付けに基づいて入力箇所を判定し、入力箇所に入力を行う結果判定手段とを備える。
【選択図】図1

Description

本発明は、特にHTMLにおいて表示されるフォーム等の入力欄に音声認識結果の単語列を自動的に入力する音声認識装置、音声認識方法及びプログラムに関する。
電車の乗り換え案内やグルメ情報検索のように、Webブラウザ上で表示される入力フォームに所定のキーワードを入力し、情報を入手するサービスが多数ある。デスクトップPCなどでこのサービスを利用する際には、大きなディスプレイが利用でき、入力手段としては、マウス、キーボードなど様々な機器を利用したりすることによりスムーズなキーワード入力が可能であるが、携帯端末などでこのサービスを利用する際には、ディスプレイサイズや入力デバイスに制約があるため、キーワードの入力が困難である。
また、空の入力欄に自由にキーワードを入力する時だけではなく、チェックボックスで項目を選択したり、セレクトボックスから語句を選択したりする際も同様である。この場合、音声認識の技術を利用することで、キーワードを含む発声を音声認識し、音声認識結果のキーワードを所定の入力フォームに埋めたり、音声認識結果のキーワードに対応するボタンをオンにしたりすることが容易になる。
上記のような技術は、例えば特許文献1では、ボタンと音声入力が関連付けられており、ボタンを押すと所定の入力欄が選択され、音声認識結果がその欄に入力される。しかし、この発明ではユーザが入力するフォームを、発声毎に毎回1つずつ指定する必要があり、入力のたびに入力先を指定するのは煩わしい。また、複数のキーワードを含む文発声を行い、複数のフォームにそれぞれ対応するキーワードを入力するということができない。
この課題に対する技術として、例えば特許文献2では、入力欄に対応する音声認識文法データを有するハイパーテキスト文書を読み込んで画面の表示を行い、その認識文法に基づいた音声認識処理をして認識結果を対応する入力欄に埋める方法が開示されている。
特開2001−042890号公報 特許第3542578号公報
しかしながら、特許文献2による発明では、各入力欄に対応する音声認識文法データを有するハイパーテキスト文書を利用することが前提となっており、ハイパーテキスト文書作成者は音声認識サービスを考慮にいれて、文書作成する必要がある。そのため、音声認識サービスに対応していない多数の既存HTML文書を音声入力可能なアプリにすることは困難である。すなわち、この発明では、HTML文書作成者が音声入力用の認識文法を作成する必要があり、手間がかかるという問題がある。また、認識用文法の記述、複数入力欄を同時認識するための記述について特殊なタグを利用するため、専用のインタプリタが必要となる。
本発明は、上記問題点に鑑みてなされたもので、HTMLのような既存のハイパーテキスト文書を、容易に音声入力を可能とすることを目的とする。
上記課題を解決するため、本発明における音声認識装置は、文書中のユーザの入力を求める箇所を解析し、入力を求める箇所に係る語句を抽出する解析手段と、解析手段における解析結果に基づく語句が音声によって認識されるように音声認識用文法を作成する文法変換手段と、解析手段における解析結果に基づく語句と解析手段における解析結果に基づく語句の入力箇所を判定するための属性値とを関連付けする属性値付与手段とを有する文法生成手段と、音声を入力する音声入力手段と、音声入力手段により入力された音声において、文法生成手段にて作成された音声認識用文法に基づいて、音声の認識処理を行い、音声認識結果単語列を出力する音声認識手段と、音声認識手段にて出力された音声認識結果単語列における語句を、属性値付与手段の関連付けに基づいて入力箇所を判定し、入力箇所に入力を行う結果判定手段とを備えることを特徴とする。
解析手段は、入力を求める箇所において選択肢として記載された語句を抽出することを特徴とする。
文法生成手段は、文書中に記載された入力箇所を判定するためのタグ情報を属性値として関連付けることを特徴とする。
文法生成手段は、文書中に記載された入力箇所に隣接するように表示される関連語句と、入力箇所に入力可能な語句を含む文が音声認識可能な文法を生成することを特徴とする。
文法生成手段は、解析手段における解析結果に基づく語句と、文書中に記載された入力箇所に隣接するように表示される関連語句のうち少なくとも1つ以上の語句の前後に付加語モデルを接続して生成することを特徴とする。
文法生成手段は、音声認識用文法中の少なくとも1つ以上の語句に、入力欄を一意に決定するための属性値情報を含めることを特徴とする。
さらに、文書のタグ情報を関連付けた語句を少なくとも1つ以上格納する記憶手段を有することを特徴とする。
文法生成手段は、記憶手段に格納された語句から、タグ情報を参照して、入力箇所に入力可能な語句を選択し、音声認識可能な文法を生成することを特徴とする。
また、本発明における音声認識方法は、文書中のユーザの入力を求める箇所を解析し、入力を求める箇所に係る語句を抽出する解析ステップと、解析ステップにおける解析結果に基づく語句が音声によって認識されるように音声認識用文法を作成する文法変換ステップと、解析ステップにおける解析結果に基づく語句と解析ステップにおける解析結果に基づく語句の入力箇所を判定するための属性値とを関連付けする属性値付与ステップとを有する文法生成ステップと、音声を入力する音声入力ステップと、音声入力ステップにより入力された音声において、文法生成ステップにて作成された音声認識用文法に基づいて、音声の認識処理を行い、音声認識結果単語列を出力する音声認識ステップと、音声認識ステップにて出力された音声認識結果単語列における語句を、属性値付与ステップの関連付けに基づいて入力箇所を判定し、入力箇所に入力を行う結果判定ステップとを備えることを特徴とする。
解析ステップは、入力を求める箇所において選択肢として記載された語句を抽出することを特徴とする。
文法生成ステップは、文書中に記載された入力箇所を特定するためのタグ情報を属性値として関連付けることを特徴とする。
文法生成ステップは、文書中に記載された入力箇所に隣接するように表示される関連語句と、入力箇所に入力可能な語句を含む文が音声認識可能な文法を生成することを特徴とする。
文法生成ステップは、解析手段における解析結果に基づく語句と、文書中に記載された入力箇所に隣接するように表示される関連語句のうち少なくとも1つ以上の語句の前後に付加語モデルを接続して生成することを特徴とする。
文法生成ステップは、音声認識用文法中の少なくとも1つ以上の語句に入力欄を一意に決定するための属性値情報を含めることを特徴とする。
さらに、文書のタグ情報を関連付けた語句を少なくとも1つ以上格納する記憶ステップを有する。
文法生成ステップは、記憶ステップにて格納された語句から、タグ情報を参照して、入力箇所に入力可能な語句を選択し、音声認識可能な文法を生成することを特徴とする。
また、本発明におけるプログラムは、文書中のユーザの入力を求める箇所を解析し、入力を求める箇所に係る語句を抽出する処理と、抽出する処理における解析結果に基づく語句が音声によって認識されるように音声認識用文法を作成する処理と、抽出する処理における解析結果に基づく語句と抽出する処理における解析結果に基づく語句の入力箇所を判定するための属性値とを関連付けする処理とを有する文法を生成する処理と、音声を入力する処理と、音声を入力する処理により入力された音声において、文法を生成する処理にて作成された音声認識用文法に基づいて、音声の認識処理を行い、音声認識結果単語列を出力する処理と、音声認識結果単語列を出力する処理にて出力された音声認識結果単語列における語句を、関連付けする処理の関連付けに基づいて入力箇所を判定し、前記入力箇所に入力を行う処理とをコンピュータに実行させる。
抽出する処理であって、入力を求める箇所において選択肢として記載された語句を抽出する処理をコンピュータに実行させる。
生成する処理であって、文書中に記載された入力箇所を特定するためのタグ情報を属性値として関連付ける処理と、文書中に記載された入力箇所に隣接するように表示される語句と入力箇所に入力可能な語句を含む文が音声認識可能な文法を生成する処理と、解析手段における解析結果に基づく語句と、文書中に記載された入力箇所に隣接するように表示される関連語句のうち少なくとも1つ以上の語句の前後に付加語モデルを接続して生成する処理と、音声認識用文法中の少なくとも1つ以上の語句に入力欄を一意に決定するための属性値情報を含める処理とをコンピュータに実行させる。
さらに、文書のタグ情報を関連付けた語句を少なくとも1つ以上格納する処理をコンピュータに実行させる。
生成する処理であって、格納する処理にて格納された語句から音声認識可能な文法を生成する処理と、格納する処理のタグ情報を参照して、入力箇所に入力可能な語句を取得する処理とをコンピュータに実行させる。
本発明によれば、既存のハイパーテキスト文書を文書作成者が新たに認識用文法を作成する手間をかけることなく、容易に音声入力によるWebサービスとして用いることが可能で、特に、複数の入力欄がある場合でも、選択作業を行うことなく自動的に適切な入力欄に認識結果を埋め込むことが可能である。
(実施形態1)
図1は、本発明の実施形態における音声認識装置の構成図である。本実施形態においては、文書解析部1と、文法作成部2と、音声入力部3と、音声認識部4と、結果判定部5と、表示部6とを有する。
文書解析部1では、HTML文書101に記述されたタグや語句を解析して、音声入力を行う単語リストを解析結果として出力する。文法作成部2は、解析結果から音声認識用文法を作成する文法変換部21と、それぞれの単語と前記文書中の入力欄の属性値情報との関連付けを行う属性値付与部22とから構成され、文書解析部1での解析結果から音声認識用文法の作成を行う。
また、音声入力部3にて、マイクなどからの音声入力を受付け、音声認識部4にて、入力された音声に対して、文法作成部2で作成された音声認識用文法を用いて音声認識処理を行い、音声認識結果単語列を出力する。結果判定部5では、その認識結果単語列に対し、関連付けられた属性値情報を参照することで入力すべき入力欄の判定を行う。表示部6は、HTML文書101に記述された表示内容を表示するとともに、結果判定部5の判定結果に基づいて音声認識結果を入力する。
図2は、本実施形態におけるフローチャートである。まず、表示部6がHTML文書101の表示内容を表示する(ステップS1)。表示されたHTML文書について、文書解析部1では、テキスト情報やタグ情報などを解析し、音声入力を行う入力欄の単語リストを解析結果として出力する(ステップS2)。解析結果に基づいて、文法作成部2では、文法変換部21において音声認識用文法を生成するとともに、属性値付与部22にて、それぞれの単語と入力欄の属性値情報との関連付けを行う(ステップS3)。
次に、マイク等の音声入力部3にて、音声が入力される(ステップS4)。入力音声に対し、音声認識部4は、生成した音声認識用文法を用いて音声認識処理し、認識結果単語列を出力する(ステップS5)。結果判定部5にて、認識結果単語列に対し関連付けられた属性値情報を参照することで入力すべき入力欄が判定され、表示部6は判定された入力欄に認識結果単語列を含めた状態で表示を行う(ステップS6)。
以下、本実施形態について図面を参照して詳細に説明する。図3は、エリアとジャンルの2つのキーワードを入力するグルメ情報検索サービスの一例を示す図である。まず、表示部6は、例えばWebブラウザによって、HTML文書101の内容を表示する。この時に、図3のような画面を表示したとする。入力欄は自由にキーワードを入力することもできるが、ここでは入力欄に表示されるセレクトボックスから該当するキーワードを選択する場合を考える。図3に示す例では、入力欄を選択すると、「東京」「横浜」や「イタリアン」「ラーメン屋」などのキーワードが選択できるものとする。この時のHTML文書101は、図4のようにselectタグを用いて記述することも可能である。
文書解析部1はHTML文書101を読み込み、テキスト情報やタグ情報を解析し、音声認識用文法作成のための情報を解析結果として抽出する。具体的には、認識すべき単語リスト、例えばHTML文書101が図4の場合、selectタグ中のoptionタグをキーとして「東京」「横浜」「イタリアン」「ラーメン屋」などの単語リストが取得可能である。このような単語リストの取得は、上記のセレクトボックスからのみ抽出されるわけではなく、inputタグのcheckboxやradioなどのボタン類からも取得可能である。なお、HTML文書は様々な省略や記述方法が許されるので、単語リスト取得のためにキーとするタグや記述方法は上記に限るものではない。
文法作成部2は、文法変換部21において解析結果である単語リストに対し、それぞれの単語に読み情報の付与を行って音声認識用の文法を作成し、属性値付与部22において入力欄の属性値情報の関連付けを行う。例えば、図4に示すHTML文書から「東京」「横浜」「イタリアン」「ラーメン屋」などの単語リストが文書解析部1で取得できたときに作成する音声認識用文法の例を図5に示す。図5では、選択可能な単語を全て音声認識させるよう扱っている。またノードSが始端ノード、ノードEが終端ノードを表し、離散単語認識を行うための音声認識用文法の例である。
このときの音声認識用文法の作成方法は、例えば図22[A]に示すような文法のテンプレートをあらかじめ人手で与えておき、解析結果で得られる単語リストを該当するアークに当てはめることで自動的に作成されるが、これに限るものではない。
また、作成される音声認識用文法はこれに限るものではなく、例えば図6のように取得した単語リストの前後に付加語モデルを接続して認識を行うための文法とすることで、「えーと東京」「じゃー京都でお願いします」のような発声を受理することが可能である。付加語モデルは、「えーと」「じゃー」「お願いします」のように一般的に表現されるフィラーでも構わないし、ワードスポッティング認識用の付加語モデルでも構わない。付加語モデルを用いたワードスポッティング認識手法は、例えば特許第3039634号公報などに開示されており、当業者にとって周知の技術であるため詳細な説明は省略する。この場合、必要な単語のみを発声するだけでなく自然な表現で入力できるという効果がある。
図5の音声認識用文法では各単語に付与されている情報として、第1カラム目が表記情報、第2カラム目が読み情報を表すが、これに限るものではない。読み情報は、表記情報に対し、形態素解析処理などをすることによって得ることができるが、手段はこれに限るものではない。また、読み情報は図5のように音節単位で表現しても良いが、これに限るものではなく音素単位などで表現しても構わない。読み情報はその後の音声認識処理で用いられる。
また、属性値付与部22において単語と入力欄の属性値情報との関連付けを行うが、属性値情報はHTML文書中のタグに付与されているname属性を利用しても良いが、これに限るものではなく、例えば0、1、2・・・のようにHTML文書中での通し番号を用いることも可能である。このように単語に関連付けられた属性値情報は保存され、その後の結果判定部5において認識結果単語列の入力先欄の判定処理の際に利用する。
保存の際には、例えば図23のような単語と属性値情報とのテーブルの形式で保存しておく。これにより、「横浜」という音声認識結果が得られたとすると、「横浜」に関連付けられた属性値情報“Area”を参照することで、「横浜」という文字列はAreaという名称の入力欄(例えばselectタグのname属性がArea)に入力すれば良い。このように入力欄に入力可能な単語と入力欄の属性値情報とを関連付けておくことにより、入力欄が複数存在するようなHTML文書を扱う場合でも容易に音声認識結果単語列を適切な入力欄に入力することができる。
また、図7のようにHTML文書中の入力欄外の語句(例えば、入力欄に隣接する「エリア」「ジャンル」)を利用し、入力欄外の語句と入力欄内の単語を1文で発声できるような依存関係を持たせた音声認識用文法を文法変換部21で作成しても良い。この場合、例えば図22[B]に示すように入力欄外の語句を含む文法のテンプレートをあらかじめ人手で与えておき、解析結果で得られる単語リスト及び入力欄外の語句を該当するアークに当てはめることで自動的に作成される。また、入力欄が複数ある場合は、図22[C]に示すように前記文法のテンプレートを並列に並べるなど、複数のテンプレートを組み合わせて用いても良い。これにより、「エリアは横浜です」、「ジャンルはイタリアン」のような、より自然な発声を受理することが可能となる。
また、図8のように複数の入力欄を同時に入力できるような依存関係を持たせた音声認識用文法を作成しても良い。この場合、複数の文法テンプレートを前後に接続することで音声認識用文法が作成可能となる。これにより「エリアは横浜で、ジャンルはイタリアンです」のような発声を受理することが可能であり、一度で複数の入力欄を入力できるという効果がある。このような音声認識文法を作成するためには、例えば図22に示すような文法のテンプレートにHTML文書101からの解析結果で得られる単語リストや入力欄外の語句を当てはめれば良いが、これに限るものではない。
なお、図5から図8に示した音声認識用文法の例はそれぞれ単独で認識処理に用いるだけに限らず、図6と図8を同時に使用するなど複数の文法を組み合わせた音声認識用文法を用いることで、様々な入力音声を受理できるようにしても構わない。また、入力欄に入力可能な単語と入力欄の属性値情報とを関連付けておくことは、上記の「エリアは横浜です」のように入力欄内の語句以外の単語が認識結果に含まれる場合でも、「横浜」のみに属性値情報が付与されていることになり、複数の入力欄から適切な入力欄を判定するだけでなく、入力欄の個数に関わらず認識結果文字列から入力欄内の単語のみを正確に抽出可能である。
音声認識部4は音声入力部3から入力される音声に対し、文法作成部2で生成した音声認識用文法に従って音声認識処理を行う。なお、音声認識用文法に従って行う音声認識処理については、当業者にとって周知の技術であるため詳細な説明は省略する。ここでは、「エリアは横浜で、ジャンルはイタリアンです」という認識結果単語列が得られたとする。結果判定部5は、この認識結果単語列中から、入力欄の属性値情報と関連付けられた単語を抽出する。この場合、「横浜」「イタリアン」を抽出する。それぞれに関連付けられた属性値情報"Area"及び"Genre"によりそれぞれの入力先が判定可能となる。表示部6は、この判定結果に基づき、図9のようにそれぞれ該当する入力欄に認識結果単語列を入力すれば良い。認識結果単語列の入力方法はこれに限るものではなく、例えばチェックボックスやラジオボタンの場合は、認識結果単語列に対応するボタンにチェックを入れたり、ボタンをオンにしたりすれば良く、各入力欄の性質に合わせて入力方法を決定すれば良い。
(実施形態2)
図10は、本発明の実施形態における別の構成図である。本実施形態においては、実施形態1の構成に加え、入力欄に入力可能な単語リストが登録されている共通辞書201を有する。
図11は、本実施形態におけるフローチャートである。実施形態1の動作との差分は図2におけるステップS2及びS3のみであるため、この差分についてのみ詳細に説明する。文書解析部1は、HTML文書101を読みこみテキスト情報やタグ情報などを解析して、音声入力を行う入力欄における共通辞書ID(後述)を解析結果として出力する(ステップS21)。文法作成部2は、文法変換部21において解析結果及び共通辞書201から関連する入力欄内の単語リストを取得し、音声認識用文法を生成するとともに、属性値付与部22においてそれぞれの単語と入力欄の属性値情報との関連付けを行う(ステップS31)。
次に、本実施形態について、詳細に説明する。まず、文書解析部1はHTML文書101を読み込み、タグやテキスト情報を解析し表示内容を出力する。
その際、例えば表示部6には図12に示すような、入力欄に自由にキーワードを入力できる画面が表示されたとする。この時のHTML文書101は、例えば図13のようにinputタグを用いて記述できる。同時に、文書解析部1は音声認識用文法作成のための情報を抽出する。具体的には、認識すべき単語リストを抽出する。但し、実施形態1と異なりHTML文書101には認識すべき単語が明示的に記述されているわけではないので、共通辞書201中の単語を特定する共通辞書IDを抽出する。この例では、inputタグのname属性に記述されている"FoodAreaName"、"FoodGenreName"を共通辞書IDとして取得できる。なお、HTML文書は様々な省略や記述方法が許されるので、共通辞書ID取得のためにキーとするタグや記述方法は上記に限るものではない。
図14は、共通辞書201の構成例である。共通辞書201には、単語リストとそれらのカテゴリを表す共通辞書IDとが関連付けられた状態で登録されている。文法作成部2は、文法変換部21において解析結果である共通辞書IDを用いて共通辞書201を参照し、共通辞書IDと関連付けて登録されている単語リストを入力欄に入力可能な単語リストとして取得する。そして、取得した単語リストに対して実施形態1の場合と同様に文法変換部21においてそれぞれの単語に読み情報の付与を行って音声認識用の文法を作成し、属性値付与部22において入力欄の属性値情報の関連付けを行う。また、共通辞書201は図14のフォーマットに限らず、例えば読み情報が付与されている状態で単語が登録されていても構わない。この場合、文法作成部2では読み情報付与の処理が省略できる。
このように共通辞書201を用意することで、登録されている単語リストを種々のWebサービスで共通に用いることができ、HTML文書の作成者が音声認識用文法作成の手間をかける必要がない。これにより、HTML文書に入力欄に入力可能な単語リストが明示的に記載されていなくても、容易に音声入力可能なアプリとして利用できる。
音声認識部4、結果判定部5及び表示部6の動作については実施形態1の場合と同様のため説明を省略する。
(実施形態3)
図15は、本発明の別の実施形態における構成図である。本実施形態においては、文法作成部2は、文法変換部21において文書解析部1の解析結果から音声入力する単語リストを取得し、音声認識用文法を作成するとともに、属性値付与部22においてそれぞれの単語と入力欄の属性値情報との関連付けを行い、その属性値情報を音声認識用文法に含めることを行う。また、結果判定部5においては、認識結果単語列に対して付与された属性値情報を参照することで入力すべき入力欄を判定する。
図16は、本実施形態におけるフローチャートである。実施形態1における動作の差異は、図2におけるステップS3及びS6のみであるため、この差分についてのみ詳細に説明する。文法作成部2は、文法変換部21において文書解析部1の解析結果から入力欄内の単語リストを取得し、音声認識用文法を生成するとともに、属性値付与部22においてそれぞれの単語と入力欄の属性値情報との関連付けを行い、その属性値情報を音声認識用文法内に含める(ステップS32)。結果判定部5は、認識結果単語列に対し付与された属性値情報を参照することで入力すべき入力欄を判定し、表示部6は、認識結果単語列を判定した入力欄に表示する(ステップS62)。
次に、本実施形態について、図面を参照して詳細に説明する。例えば、図17に示すように出発地と目的地の2つのキーワードを入力することで乗り換え案内サービスを利用する場合を考える。この時のHTML文書101は、例えば図18のように記述される。このような場合、同じ単語が複数の入力欄に入力される可能性があるため、実施形態1における構成では、結果判定部5において認識結果単語列に関連付けられた属性値情報を参照するだけでは入力すべき入力欄が一意に特定できず、特定するためには認識結果単語列に対して形態素解析処理・構文解析処理・意味理解処理等の言語処理、音声を入力したユーザに対話的に問い返すなどの知的かつ高度な処理を行う必要がある。
そこで、文法作成部2は、文法変換部21において文書解析部1の解析結果である単語リストに対し、それぞれの単語に読み情報の付与を行って音声認識用の文法を作成し、属性値付与部22において入力欄の属性値情報の関連付けを行い、その属性値情報を音声認識文法内に含める。
例えば、図18に示すHTML文書から「東京」「新横浜」「京都」「新大阪」などの単語リストが文書解析部1で取得できた際に作成する音声認識用文法の例を図19に示す。音声認識用文法の作成手法は、実施形態1と同様、文法のテンプレートをあらかじめ人手で与えておき、解析結果で得られる単語リスト及び入力欄外の語句を該当するアークに当てはめることで自動的に作成されるが、これに限るものではない。ここでは各単語に付与されている情報として第3カラム目に属性値情報を追加したが、これに限るものではない。
このように単語の属性値として入力欄の情報を埋め込んだ音声認識用文法を用いることで、音声認識部4において入力欄の属性値情報と関連付けられた単語を含む認識結果単語列が出力される。よって、認識結果単語列そのものから入力欄の属性値情報が取得でき、結果判定部5において入力すべき入力欄を判定する際に高度な処理を必要としない。これは特に、図19のように入力欄外の語句と入力欄内の単語を1文で発声できるような依存関係を持たせた音声認識用文法を作成したときに効果が得られる。
本実施形態における音声認識部4は、実施形態1における動作と同様なので説明を省略する。結果判定部5は前述のように、認識結果単語列から入力欄の属性値情報と関連付けられた単語が取得でき、その入力欄の属性値情報に応じて入力すべき入力欄を判定する。例えば、「出発地は新横浜で、目的地は京都」という認識結果が得られたとすると、既に「新横浜」には“Start”、「京都」には“Goal”という入力欄の属性値情報が付与されているので、その属性値を用いることができる。
表示部6は実施形態1における動作と同様なので説明を省略する。このような構成を用いることで、同じ単語が複数の入力欄に入力可能なサービスの場合でも認識結果単語を適切に入力できるという効果がある。
(実施形態4)
図20は、本発明の別の実施形態における構成図である。本実施形態においては、実施形態3の構成に加え、入力欄に入力可能な単語リストが登録されている共通辞書201とから構成される。
図21は、本実施形態におけるフローチャートである。実施形態3の動作との差異は図2におけるステップS2及びS32のみであるため、この差分についてのみ詳細に説明する。文書解析部1は、HTML文書101を読みこみテキスト情報やタグ情報などを解析して、音声入力を行う前記文書中の入力欄の共通辞書IDを解析結果として出力する(ステップS23)。文法作成部2は、文法変換部21において前記解析結果及び共通辞書201から同一の共通辞書IDを持つ単語リストを取得し、音声認識用文法を生成するとともに、属性値付与部22においてそれぞれの単語と前記入力欄の属性値情報との関連付けを行い、その属性値情報を音声認識用文法内に含める(ステップS33)。
次に、本実施形態について、詳細に説明する。文書解析部1及び共通辞書201における動作は実施形態2と同様なので説明を省略する。文法作成部2は、文法変換部21において文書解析部1の解析結果である共通辞書IDを用いて共通辞書201を参照し、共通辞書IDとして登録されている単語リストを入力欄に入力可能な単語リストとして取得する。そして、取得した単語リストに対して実施形態1の場合と同様にそれぞれの単語に読み情報の付与を行って音声認識用の文法を作成し、属性値付与部22において入力欄の属性値情報の関連付けを行い、その属性値情報を前記音声認識文法内に含める。音声認識文法に属性値情報を含めた後の処理は実施形態3と同様なので、以下の説明は省略する。
以上、図面を参照して実施形態1から4について詳細に説明したが、それぞれの実施形態において、HTML文書101内にセレクトボックスからキーワードを選択する入力欄と、自由にキーワードを入力する入力欄との両方がある場合は、前者はHTML文書101から単語リストを取得し、後者は取得した共通辞書IDで参照できる共通辞書201から単語リストを取得すれば良い。つまり、実施例1と実施例2において説明した処理、及び実施例3と実施例4において説明した処理は組み合わせて動作させることが可能である。
また、上記実施例では表示部6では音声入力されたキーワードを入力欄に入力する処理、キーワードに対応するボタンをオンにする処理について説明したが、これに限らず、例えば音声入力されたキーワードに応じた検索処理を行い、検索結果を出力しても構わない。また、表示部6は例えば音声出力を行うなど画面表示に関する処理に限らない。
また、音声入力部3は、マイクのように音声を直接入力できるものに限らず、音声の特徴量を直接入力できるものでもかまわない。
また、本発明の構成はクライアントサーバ型の構成とすることも可能である。例えば、音声入力部3及び表示部6をクライアントに、それ以外をサーバに有することが可能であるが、これに限るものではない。
以上、本発明の好適な実施の形態により本発明を説明した。ここでは特定の具体例を示して本発明を説明したが、特許請求の範囲に定義された本発明の広範囲な趣旨および範囲から逸脱することなく、これら具体例に様々な修正および変更を加えることができることは明らかである。
本発明の実施形態おける音声認識装置の構成図である。 本発明の実施形態おける音声認識装置の動作を示す図である。 画面表示例を示す図である。 HTML文書の例である。 離散単語認識する場合の音声認識用文法の例である。 ワードスポッティング認識する場合の音声認識用文法の例である。 入力欄外の単語も含めた場合の音声認識用文法の例である。 複数の入力欄を同時に入力するための音声認識用文法の例である。 画面表示例を示す図である。 本発明の実施形態おける音声認識装置の構成図である。 本発明の実施形態おける音声認識装置の動作を示す図である。 画面表示例を示す図である。 HTML文書の例である。 本発明の実施形態における共通辞書の構成例である。 本発明の実施形態おける音声認識装置の構成図である。 本発明の実施形態おける音声認識装置の動作を示す図である。 画面表示例を示す図である。 HTML文書の例である。 音声認識用文法の例である。 本発明の実施形態おける音声認識装置の構成図である。 本発明の実施形態おける音声認識装置の動作を示す図である。 音声認識用文法作成のための文法テンプレートの例である。 単語と単語に関連付けられた属性値情報テーブルの例である。
符号の説明
1 文書解析部
2 文法作成部
21 文法変換部
22 属性値付与部
3 音声入力部
4 音声認識部
5 結果判定部
6 表示部
101 HTML文書
201 共通辞書

Claims (21)

  1. 文書中のユーザの入力を求める箇所を解析し、前記入力を求める箇所に係る語句を抽出する解析手段と、
    前記解析手段における解析結果に基づく語句が音声によって認識されるように音声認識用文法を作成する文法変換手段と、前記解析手段における解析結果に基づく語句と前記解析手段における解析結果に基づく語句の入力箇所を判定するための属性値とを関連付けする属性値付与手段とを有する文法生成手段と、
    音声を入力する音声入力手段と、
    前記音声入力手段により入力された音声において、前記文法生成手段にて作成された音声認識用文法に基づいて、音声の認識処理を行い、音声認識結果単語列を出力する音声認識手段と、
    前記音声認識手段にて出力された音声認識結果単語列における語句を、前記属性値付与手段の関連付けに基づいて入力箇所を判定し、前記入力箇所に入力を行う結果判定手段とを備えることを特徴とする音声認識装置。
  2. 前記解析手段は、前記入力を求める箇所において選択肢として記載された語句を抽出することを特徴とする請求項1に記載の音声認識装置。
  3. 前記文法生成手段は、前記文書中に記載された入力箇所を判定するためのタグ情報を属性値として関連付けることを特徴とする請求項1又は2に記載の音声認識装置。
  4. 前記文法生成手段は、前記文書中に記載された入力箇所に隣接するように表示される関連語句と、前記入力箇所に入力可能な語句を含む文が音声認識可能な文法を生成することを特徴とする請求項1から3のいずれか1項に記載の音声認識装置。
  5. 前記文法生成手段は、前記解析手段における解析結果に基づく語句と、前記文書中に記載された入力箇所に隣接するように表示される関連語句のうち少なくとも1つ以上の語句の前後に付加語モデルを接続して生成することを特徴とする請求項1から4のいずれか1項に記載の音声認識装置。
  6. 前記文法生成手段は、前記音声認識用文法中の少なくとも1つ以上の語句に、入力欄を一意に決定するための属性値情報を含めることを特徴とする請求項1から5のいずれか1項に記載の音声認識装置。
  7. さらに、前記文書のタグ情報を関連付けた語句を少なくとも1つ以上格納する記憶手段を有することを特徴とする請求項1から6のいずれか1項に記載の音声認識装置。
  8. 前記文法生成手段は、前記記憶手段に格納された語句から、タグ情報を参照して、前記入力箇所に入力可能な語句を選択し、音声認識可能な文法を生成することを特徴とする請求項1から7のいずれか1項に記載の音声認識装置。
  9. 文書中のユーザの入力を求める箇所を解析し、前記入力を求める箇所に係る語句を抽出する解析ステップと、
    前記解析ステップにおける解析結果に基づく語句が音声によって認識されるように音声認識用文法を作成する文法変換ステップと、前記解析ステップにおける解析結果に基づく語句と前記解析ステップにおける解析結果に基づく語句の入力箇所を判定するための属性値とを関連付けする属性値付与ステップとを有する文法生成ステップと、
    音声を入力する音声入力ステップと、
    前記音声入力ステップにより入力された音声において、前記文法生成ステップにて作成された音声認識用文法に基づいて、音声の認識処理を行い、音声認識結果単語列を出力する音声認識ステップと、
    前記音声認識ステップにて出力された音声認識結果単語列における語句を、前記属性値付与ステップの関連付けに基づいて入力箇所を判定し、前記入力箇所に入力を行う結果判定ステップとを備えることを特徴とする音声認識方法。
  10. 前記解析ステップは、前記入力を求める箇所において選択肢として記載された語句を抽出することを特徴とする請求項9に記載の音声認識方法。
  11. 前記文法生成ステップは、前記文書中に記載された入力箇所を特定するためのタグ情報を属性値として関連付けることを特徴とする請求項9又は10に記載の音声認識方法。
  12. 前記文法生成ステップは、前記文書中に記載された入力箇所に隣接するように表示される関連語句と、前記入力箇所に入力可能な語句を含む文が音声認識可能な文法を生成することを特徴とする請求項9から11のいずれか1項に記載の音声認識方法。
  13. 前記文法生成ステップは、前記解析手段における解析結果に基づく語句と、前記文書中に記載された入力箇所に隣接するように表示される関連語句のうち少なくとも1つ以上の語句の前後に付加語モデルを接続して生成することを特徴とする請求項9から12のいずれか1項に記載の音声認識方法。
  14. 前記文法生成ステップは、前記音声認識用文法中の少なくとも1つ以上の語句に入力欄を一意に決定するための属性値情報を含めることを特徴とする請求項9から13のいずれか1項に記載の音声認識方法。
  15. さらに、前記文書のタグ情報を関連付けた語句を少なくとも1つ以上格納する記憶ステップを有することを特徴とする請求項9から14のいずれか1項に記載の音声認識方法。
  16. 前記文法生成ステップは、前記記憶ステップにて格納された語句から、タグ情報を参照して、前記入力箇所に入力可能な語句を選択し、音声認識可能な文法を生成することを特徴とする請求項9から15のいずれか1項に記載の音声認識方法。
  17. 文書中のユーザの入力を求める箇所を解析し、前記入力を求める箇所に係る語句を抽出する処理と、
    前記抽出する処理における解析結果に基づく語句が音声によって認識されるように音声認識用文法を作成する処理と、前記抽出する処理における解析結果に基づく語句と前記抽出する処理における解析結果に基づく語句の入力箇所を判定するための属性値とを関連付けする処理とを有する文法を生成する処理と、
    音声を入力する処理と、
    前記音声を入力する処理により入力された音声において、前記文法を生成する処理にて作成された音声認識用文法に基づいて、音声の認識処理を行い、音声認識結果単語列を出力する処理と、
    前記音声認識結果単語列を出力する処理にて出力された音声認識結果単語列における語句を、前記関連付けする処理の関連付けに基づいて入力箇所を判定し、前記入力箇所に入力を行う処理とをコンピュータに実行させるプログラム。
  18. 前記抽出する処理であって、前記入力を求める箇所において選択肢として記載された語句を抽出する処理をコンピュータに実行させる請求項17記載のプログラム。
  19. 前記生成する処理であって、前記文書中に記載された入力箇所を特定するためのタグ情報を属性値として関連付ける処理と、
    前記文書中に記載された入力箇所に隣接するように表示される語句と前記入力箇所に入力可能な語句を含む文が音声認識可能な文法を生成する処理と、
    前記解析手段における解析結果に基づく語句と、前記文書中に記載された入力箇所に隣接するように表示される関連語句のうち少なくとも1つ以上の語句の前後に付加語モデルを接続して生成する処理と、
    前記音声認識用文法中の少なくとも1つ以上の語句に入力欄を一意に決定するための属性値情報を含める処理とをコンピュータに実行させる請求項17又は18記載のプログラム。
  20. さらに、前記文書のタグ情報を関連付けた語句を少なくとも1つ以上格納する処理をコンピュータに実行させる請求項17から19のいずれか1項に記載のプログラム。
  21. 前記生成する処理であって、前記格納する処理にて格納された語句から音声認識可能な文法を生成する処理と、
    前記格納する処理のタグ情報を参照して、前記入力箇所に入力可能な語句を取得する処理とをコンピュータに実行させる請求項17から20のいずれか1項に記載のプログラム。
JP2008079144A 2008-03-25 2008-03-25 音声認識装置、音声認識方法及びプログラム Pending JP2009236960A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008079144A JP2009236960A (ja) 2008-03-25 2008-03-25 音声認識装置、音声認識方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008079144A JP2009236960A (ja) 2008-03-25 2008-03-25 音声認識装置、音声認識方法及びプログラム

Publications (1)

Publication Number Publication Date
JP2009236960A true JP2009236960A (ja) 2009-10-15

Family

ID=41251033

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008079144A Pending JP2009236960A (ja) 2008-03-25 2008-03-25 音声認識装置、音声認識方法及びプログラム

Country Status (1)

Country Link
JP (1) JP2009236960A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107785021A (zh) * 2017-08-02 2018-03-09 上海壹账通金融科技有限公司 语音输入方法、装置、计算机设备和介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003157095A (ja) * 2001-11-22 2003-05-30 Canon Inc 音声認識装置及びその方法、プログラム

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003157095A (ja) * 2001-11-22 2003-05-30 Canon Inc 音声認識装置及びその方法、プログラム

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
CSNG199800412012; 甲斐 充彦 Atsuhiko Kai: '音声認識サーバ-SPOJUS-を利用したWWWブラウザの音声操作システム An voice-operating WWW bro' 情報処理学会研究報告 Vol.98 No.12 IPSJ SIG Notes 第98巻, 社団法人情報処理学会 Information Processing Socie *
CSNG200401145019; 住吉 貴志 Takashi SUMIYOSHI: 'HTMLのフォーム入力のための文法の自動生成とSALTによる実装 Automatic Generation of Speech Gra' 情報処理学会研究報告 Vol.2003 No.14 IPSJ SIG Notes 第2003巻, 社団法人情報処理学会 Information Processing Socie *
JPN6012000226; 住吉 貴志 Takashi SUMIYOSHI: 'HTMLのフォーム入力のための文法の自動生成とSALTによる実装 Automatic Generation of Speech Gra' 情報処理学会研究報告 Vol.2003 No.14 IPSJ SIG Notes 第2003巻, 社団法人情報処理学会 Information Processing Socie *
JPN6012000227; 甲斐 充彦 Atsuhiko Kai: '音声認識サーバ-SPOJUS-を利用したWWWブラウザの音声操作システム An voice-operating WWW bro' 情報処理学会研究報告 Vol.98 No.12 IPSJ SIG Notes 第98巻, 社団法人情報処理学会 Information Processing Socie *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107785021A (zh) * 2017-08-02 2018-03-09 上海壹账通金融科技有限公司 语音输入方法、装置、计算机设备和介质
WO2019024692A1 (zh) * 2017-08-02 2019-02-07 深圳壹账通智能科技有限公司 语音输入方法、装置、计算机设备和存储介质
CN107785021B (zh) * 2017-08-02 2020-06-02 深圳壹账通智能科技有限公司 语音输入方法、装置、计算机设备和介质

Similar Documents

Publication Publication Date Title
TWI437449B (zh) 多重模式輸入方法及輸入方法編輯器系統
US8073700B2 (en) Retrieval and presentation of network service results for mobile device using a multimodal browser
KR101309042B1 (ko) 다중 도메인 음성 대화 장치 및 이를 이용한 다중 도메인 음성 대화 방법
KR102445519B1 (ko) 대화형 지능 서비스 제공 챗봇 제작 시스템 및 방법
US9594744B2 (en) Speech transcription including written text
JP2016061954A (ja) 対話装置、方法およびプログラム
US20090228270A1 (en) Recognizing multiple semantic items from single utterance
JP2004355629A (ja) 高度対話型インターフェースに対する理解同期意味オブジェクト
US20050010422A1 (en) Speech processing apparatus and method
KR102267561B1 (ko) 음성 언어 이해 장치 및 방법
JP3814566B2 (ja) 情報処理装置、情報処理方法、制御プログラム
US20060290709A1 (en) Information processing method and apparatus
CN112231015B (zh) 一种基于浏览器的操作指导方法、sdk插件及后台管理***
JP2009140466A (ja) 使用者製作問答データに基づいた会話辞書サービスの提供方法及びシステム
JP2009042968A (ja) 情報選別システム、情報選別方法及び情報選別用プログラム
House Spoken-language access to multimedia(SLAM): a multimodal interface to the World-Wide Web
Gruenstein et al. Scalable and portable web-based multimodal dialogue interaction with geographical databases
JP3542578B2 (ja) 音声認識装置及びその方法、プログラム
WO2020017151A1 (ja) 情報処理装置、情報処理方法及びプログラム
JP2006236037A (ja) 音声対話コンテンツ作成方法、装置、プログラム、記録媒体
JP2009236960A (ja) 音声認識装置、音声認識方法及びプログラム
Johnston Extensible multimodal annotation for intelligent interactive systems
JP2007164732A (ja) コンピュータ実行可能なプログラム、および情報処理装置
JP2005322148A (ja) ブラウザ装置
JP2000330588A (ja) 音声対話処理方法、音声対話処理システムおよびプログラムを記憶した記憶媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110215

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20110920

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20111228

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120110

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120309

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20120828

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121121

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20121130

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20130208