JP3639776B2

JP3639776B2 - 音声認識用辞書作成装置および音声認識用辞書作成方法、音声認識装置、携帯端末器、並びに、プログラム記録媒体

Info

Publication number: JP3639776B2
Application number: JP2000228916A
Authority: JP
Inventors: 浩幸勘座; 彰鶴田
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 2000-07-28
Filing date: 2000-07-28
Publication date: 2005-04-20
Anticipated expiration: 2020-07-28
Also published as: JP2002041081A

Description

【０００１】
【発明の属する技術分野】
この発明は、不特定話者を対象とした音声認識装置に用いられる辞書を作成する音声認識用辞書作成装置および音声認識用辞書作成方法、作成された辞書を用いた音声認識装置、この音声認識装置を搭載した携帯端末器、並びに、辞書作成処理プログラムを記録したプログラム記録媒体に関する。
【０００２】
【従来の技術】
従来より、漢字仮名混じり文を含む文字列から音声認識用辞書を作成する方法として、上記文字列の形態素解析を行ってその表記の読みを求め、得られた読みを登録する方法がある。ウエブ・ブラウザにおいて、音声認識結果に基づいてウエブぺージを表示するアプリケーションがあるが、その場合に使用する音声認識用辞書に、上記ウエブページを呼び出す際にユーザが発声する単語を予め登録する場合などに上記辞書作成方法が適用される。例えば、「首相官邸」という単語を首相官邸のＵＲＬ(ユニフォーム・リソース・ロケーション)と関連付けて記憶することによって、「首相官邸」とユーザが発声すれば首相官邸のホームページを表示することができる。これは、「首相官邸」という表記から「しゅしょうかんてい」という読みを求めて音声認識用辞書に登録することで実現している。
【０００３】
また、大量の学習用テキストデータベースから連接関係を抽出して、統計的連接情報を求めて音声認識用辞書(言語モデル)を作成する方法がある。例えば、特開平１１‐２５９０８８号公報に記載された音声認識装置においては、形態素解析プログラム等を用いて文字列を各単語(形態素)に自動的に区切り、区切られた各単語間の統計的連鎖関係、具体的にはバイグラムやトライグラム等を計算しておく。また、同じ表記の漢字であって複数の読み方がある場合には、複数の読み夫々の頻度を求めておく。そして、音声が入力されると、認識文候補を生成し、抽出された特徴パラメータを用いて言語モデルから計算される各認識文候補の尤度に、各認識文候補の単語系列を構成する各単語に上記統計的連鎖関係の確率値と読みの頻度を組み合わせて言語尤度を算出する。そして、この言語尤度に基づいて認識結果を得ている。
【０００４】
【発明が解決しようとする課題】
しかしながら、上記従来の音声認識用辞書作成方法においては、以下のような問題がある。すなわち、先ず、上記文字列の形態素解析から得られた表記の読みを登録する辞書作成方法の場合には、文字列と発声される連接単語を表す発声単位とが必ずしも一致するとは限らないという問題がある。以下、上述した音声認識結果を用いてブラウザによってホームページを表示する場合を例に説明する。上記ホームページの情報には、ＵＲＬやタイトルがある。ＵＲＬはホームページの在りかを表す情報であって、「http://www.kantei.go.jp」のごとく表記される。また、タイトルはブラウザによって決まった位置に表示されるページのタイトルであって、「首相官邸トップページ」のような漢字仮名交じりやアルファベット等の文字列である。
【０００５】
上記タイトル「首相官邸トップページ」に当該辞書作成方法を適用して、上記タイトルから認識語彙を自動的に生成する場合には、タイトル「首相官邸トップページ」の形態素解析を行い、単語「首相官邸トップページ」の読みを特定することによって実現できる。
【０００６】
ところが、当該辞書作成方法を適用した場合には、タイトル「首相官邸トップページ」をそのまま読み「しゅしょうかんていとっぷぺーじ」に変換して登録するだけであるため認識語彙は「首相官邸トップページ」となり、上記タイトル「首相官邸トップページ」の部分文字列「首相官邸」を切り出して認識語彙にすることはできない。したがって、例えば「首相官邸」という部分発声がなされた場合には、上述のようにして作成された音声認識用辞書を用いて入力音声「首相官邸」を認識することはできないことになる。
【０００７】
仮に、上記ホームページのタイトルからキーワードとなる部分文字列を切り出して認識語彙を作成するにしても、部分文字列のあらゆる組み合わせや部分文字列間の発声確率等が考慮されないために、実用的な音声認識用の辞書を作成することができないという問題がある。
【０００８】
次に、上記統計的連接情報を求めて音声認識用辞書を作成する辞書作成方法の場合には、各単語間の区切り統計的隣接関係を用いて入力音声を認識するために上述のような問題は発生しない。また、複数の読み方がある単語の夫々の読みの頻度も含めて認識文候補の出現確率が算出される点で、より実用的な音声認識用辞書を作成することができる可能性はある。
【０００９】
しかしながら、単に出現確率を用いるだけでは、タイトルの前部分の表記と後ろ部分の表記とでは前者の方が発声される確率は高い(例えばタイトル「首相官邸のトップページ」の場合は「首相官邸」の方が「トップページ」よりも発声される確率が高い)といった考慮がされず、所望の認識結果が得られる確率が低いという問題がある。
【００１０】
また、「ホームページ」や「ようこそ」等の特定の語彙は単独では発声されないと考えられる。ところが、それに対する考慮もされていないため、別の発声が「ホームページ」という語彙に誤認識されてしまう可能性がある。
【００１１】
さらに、このような大量の学習テキストデータベースから音声認識用辞書(言語モデル)を作成する辞書作成方法は、ディクテーションのような数万語の語彙を認識する用途にはよいが、高速のＣＰＵ(中央演算処理装置)と大量の記憶容量が必要であるというコスト上の問題と、非常に多数の語彙の中から正しいものを見つけ出すのは困難であるという認識性能上の問題とがある。
【００１２】
そこで、この発明の目的は、低コストで高い認識精度が得られる音声認識用辞書作成装置および音声認識用辞書作成方法、作成された辞書を用いた音声認識装置、この音声認識装置を搭載した携帯端末器、並びに、辞書作成処理プログラムを記録したプログラム記録媒体を提供することにある。
【００１３】
【課題を解決するための手段】
上記目的を達成するため、第１の発明の音声認識用辞書作成装置は、文字列を表す文字列情報が入力されると共に,この入力された文字列情報を解析して構成単語に分割し,１つ以上の分割候補を出力する解析手段と、上記分割された各構成単語に読みを付与し,１つ以上の読み候補を出力する読み付与手段と、上記解析手段によって得られた分割候補および上記読み付与手段によって得られた読み候補に基づいて,総ての分割候補のうちの幾つかおよび上記分割候補を連接して成る総ての連接単語のうちの幾つかから成る発声単位と , 総ての読み候補のうちの幾つかから成る読みとのペアを ,認識語彙として生成する語彙作成手段と、上記生成された各認識語彙を音声認識用辞書として記憶する語彙記憶手段を備えたことを特徴としている。
【００１４】
上記構成によれば、一つの文字列から得られた１つ以上の分割候補および１つ以上の読み候補に基づいて、語彙作成手段によって、読みが付与された１つ又は複数の発声単位が生成される。したがって、こうして生成された発声単位を認識語彙として登録することによって、与えられた文字列情報から、発声の可能性がある発声単位を認識語彙とする音声認識用辞書が生成される。すなわち、利用者が、予め設定された文字列中のどの部分文字列を発声しても正しく認識できる音声認識装置を実現可能な音声認識用辞書が作成されるのである。
【００１５】
また、上記第１の発明の音声認識用辞書作成装置は、上記解析手段を,上記分割された構成単語の列でなる各解析候補に,上記入力文字列の解析結果としての確からしさを表す解析尤度を付与するように成し、上記読み付与手段を,上記各解析候補を構成する単語に付与されている読みの列に,上記入力文字列の読みとしての確からしさを表す読み尤度を付与するように成し、上記語彙作成手段によって生成された各発声単位が存在する解析候補の上記解析尤度,上記各発声単位が存在する解析候補の上記読み尤度,上記各発声単位を構成する先頭単語の上記入力文字列中における出現順序を表す単語出現順序,上記各発声単位のモーラ数,上記各発声単位を構成する単語のうちで入力される総ての文字列中に最も少なく出現する単語の出現頻度を表す単語出現頻度,キーワード辞書照合結果の少なくとも一つを用いて,上記生成された各発声単位の発声確率を計算する発声確率算出手段を備えて、上記語彙作成手段を,上記各発声単位でなる認識語彙を,上記算出された発声確率を付与して上記語彙記憶手段に記憶させるように成すことが望ましい。
【００１６】
上記構成によれば、上記語彙記憶手段には、上記各発声単位でなる認識語彙に解析尤度,読み尤度,単語出現順序,モーラ数,単語出現頻度およびキーワード辞書照合結果の少なくとも一つを用いて算出された発声確率が付与されて登録されている。したがって、上記音声認識用辞書中に、上記解析手段による誤解析の結果生成された認識語彙や発声されない認識語彙が登録されていても、このような不要な認識語彙の発声確率が小さく設定されて、高い認識精度を呈する音声認識装置を実現できる音声認識用辞書が作成される。
【００１７】
また、上記第１の発明の音声認識用辞書作成装置は、文字列情報を含むコンテンツを取り込む取り込み手段と、辞書作成に必要な文字列情報を抽出するための抽出条件が格納された抽出条件格納手段と、上記抽出条件を参照して,上記取り込まれたコンテンツにおける文字列情報の中から辞書作成に必要な文字列情報を抽出して上記解析手段に送出する文字列情報抽出手段を備えることが望ましい。
【００１８】
上記構成によれば、抽出条件格納手段にコンテンツの特徴を利用した抽出条件を格納しておくことによって、コンテンツ情報から自動的に上記音声認識用辞書が作成される。
【００１９】
また、上記第１の発明の音声認識用辞書作成装置は、上記取り込み手段を、上記コンテンツとして、ウエブ・ブラウザによって表示されているウエブページの情報を取り込むように成すことが望ましい。
【００２０】
上記構成によれば、上記抽出条件格納手段に、例えば、「＜title＞タグが存在する場合は＜title＞と＜/title＞とで囲まれた文字列を抽出する」を格納しておくことによって、ウエブページのタイトル「＜title＞首相官邸のトップページ＜/title＞」から文字列「首相官邸のトップページ」が抽出される。そして、上記文字列「首相官邸のトップページ」に基づいて、上述のようにして自動的に音声認識用辞書が作成される。
【００２１】
また、上記第１の発明の音声認識用辞書作成装置は、上記取り込み手段を、上記コンテンツとして、テレビ番組の情報を取り込むように成すことが望ましい。
【００２２】
上記構成によれば、上記抽出条件格納手段に、例えば、「番組名というタグが付いている文字列を抽出する」を格納しておくことによって、タグ「番組名」に該当する文字列「ＮＨＫニュースおはよう日本」が抽出される。そして、上記文字列「ＮＨＫニュースおはよう日本」に基づいて、上述のようにして自動的に音声認識用辞書が作成される。
【００２３】
また、上記第１の発明の音声認識用辞書作成装置は、上記語彙作成手段によって生成された各発声単位間の音響的な類似度を計算する類似度算出手段を備え、上記語彙作成手段は、上記各認識語彙に付与する発声確率を上記算出された類似度に応じて変更するように成すことが望ましい。
【００２４】
上記構成によれば、上記語彙作成手段によって生成された発声単位「首相(しゅしょう)」と発声単位「主張(しゅちょう)」との類似度が所定値よりも高く、両発声単位が音響的に類似している場合には、例えば、発声確率の値が高く入力文字列中において中心的な役割を果す発声単位「首相」の発声確率の値が更に高められる一方、そうでない発声単位「主張」の発声確率の値が更に低められる。こうすることによって、中心的な役割を果す発声「首相」が「主張」と誤認識されて、例えば、目的とする「首相官邸のトップページ」のホームページではなく、「司法省の主張」のホームページが表示されてしまうことが防止される。
【００２５】
また、第２の発明の音声認識用辞書作成方法は、文字列を表す文字列情報が入力されると共に,この入力された文字列情報を解析して構成単語に分割し,１つ以上の分割候補を出力するステップと、上記分割された各構成単語に読みを付与し,１つ以上の読み候補を出力するステップと、上記単語分割の結果得られた分割候補および上記読み付与の結果得られた読み候補に基づいて,総ての分割候補のうちの幾つかおよび上記分割候補を連接して成る総ての連接単語のうちの幾つかから成る発声単位と , 総ての読み候補のうちの幾つかから成る読みとのペアを ,認識語彙として生成するステップと、上記生成された各認識語彙を音声認識用辞書として記憶するステップを備えたことを特徴としている。
【００２６】
上記構成によれば、上記第１の発明の場合と同様に、読みが付与された１つまたは複数の発声単位が生成される。したがって、こうして生成された発声単位を認識語彙として登録することによって、与えられた文字列情報から、発声の可能性がある発声単位を認識語彙とする音声認識用辞書が生成される。すなわち、予め設定された文字列の部分文字列を発声しても正しく認識できる音声認識装置を実現可能な音声認識用辞書が作成されるのである。
【００２７】
また、第３の発明は、入力された音声を,辞書に登録されている認識語彙との照合を行って認識する音声認識装置であって、上記辞書として、上記第１の発明の音声認識用辞書作成装置によって作成された音声認識用辞書を用いることを特徴としている。
【００２８】
上記構成によれば、与えられた文字列情報から生成された発声の可能性がある発声単位を認識語彙とする音声認識用辞書との照合を行って、入力音声が認識される。したがって、予め設定された文字列の部分文字列を発声しても正しく認識される。
【００２９】
また、上記第３の発明の音声認識装置は、上記辞書を,上記コンテンツとしてウエブページの情報を取り込む音声認識用辞書作成装置によって作成された音声認識用辞書と成し、認識結果に応じたウエブページを表示するウエブページ表示手段と、上記認識結果に基づいて,上記ウエブページ表示手段の表示内容を切換え制御する制御手段を備えることが望ましい。
【００３０】
上記構成によれば、上記ウエブページの情報から自動的に作成された音声認識用辞書が用いられているので、ウエブページのタイトル等が正しく認識される。したがって、制御手段によって、認識結果に基づいてウエブページ表示手段の表示内容が切換え制御されることによって、上記ウエブページ表示手段に認識結果に応じたウエブページが正しく表示される。
【００３１】
また、上記第３の発明の音声認識装置は、上記辞書を,上記コンテンツとしてテレビ番組の情報を取り込む音声認識用辞書作成装置によって作成された音声認識用辞書と成し、認識結果に応じたテレビ番組を表示するテレビ表示手段と、認識結果に応じたテレビ番組を録画する録画手段と、上記録画手段によって録画されたテレビ番組を再生する再生手段と、上記認識結果に基づいて,上記テレビ表示手段・録画手段および再生手段を制御して,表示チャンネルの切換え・録画条件の設定あるいは録画番組の再生を行う制御手段を備えることが望ましい。
【００３２】
上記構成によれば、上記テレビ番組の情報から自動的に作成された音声認識用辞書が用いられているので、テレビ番組名等が正確に認識される。したがって、制御手段によって、認識結果に基づいてテレビ表示手段,録画手段および再生手段が制御されることによって、表示チャンネルの切換え,録画条件の設定あるいは録画番組の再生が正しく行われる。
【００３３】
また、上記第３の発明の音声認識装置は、特定の文字列情報の解析結果によらずに得られた認識語彙が登録された補助辞書と、上記辞書および補助辞書との照合を行う照合手段と、上記照合手段によって,上記認識結果として上記補助辞書に登録された認識語彙が選択された場合,上記辞書を作成する際に上記音声認識用辞書作成装置に入力された文字列情報の中から当該認識結果に該当する文字列を検索する検索手段と、上記検索された複数の文字列の中から,上記辞書に登録する文字列を選択する選択手段を備えることが望ましい。
【００３４】
上記構成によれば、上記第１の発明の音声認識用辞書作成装置によって作成された辞書に登録されていない語彙を発声した場合でも、その語彙が正しく認識される。さらに、認識結果として、上記辞書に登録された認識語彙ではなく、上記第１の発明の音声認識用辞書作成装置によらずに作成された補助辞書に登録された認識語彙が選択された場合には、検索手段によって、上記音声認識用辞書作成装置に入力された例えばウエブページのタイトルに関連するウエブページ情報の中から、当該認識結果に該当する文字列が検索される。そして、選択手段によって、上記検索された複数の文字列の中から上記辞書に登録する文字列が選択される。したがって、その語彙を上記辞書に登録することによって、上記辞書の認識語彙数が増加して認識速度が向上される。
【００３５】
また、第４の発明は、入力された音声を,辞書に登録されている認識語彙との照合を行って認識する音声認識装置であって、上記第１の発明の音声認識用辞書作成装置を搭載し、上記音声認識用辞書作成装置によって作成された音声認識用辞書を,上記辞書として用いることを特徴としている。
【００３６】
上記構成によれば、搭載されている音声認識用辞書作成装置に文字列情報を入力することによって、この文字列情報から発声の可能性がある発声単位が生成され、この発声単位を認識語彙とする音声認識用辞書が作成される。したがって、この音声認識用辞書との照合を行って入力音声を認識することによって、予め設定された文字列の部分文字列を発声しても正しく認識される。
【００３７】
また、第５の発明の携帯端末器は、上記第３,第４の発明の音声認識装置を搭載したことを特徴としている。
【００３８】
携帯端末器においては、操作指示を行う場合にはキー操作よりも発声による方が操作性はよい。上記構成によれば、予め設定された文字列中のどの部分文字列を発声しても正しく認識できる音声認識用辞書を用いた音声認識装置が搭載されている。したがって、出先等において操作指示を行うための文言を予め決められている通りに正確に発声しなくとも、例えばホームページの呼び出し等の操作が正しく行われる。
【００３９】
また、第６の発明のプログラム記録媒体は、コンピュータを、上記第１の発明における解析手段,読み付与手段,語彙作成手段および語彙記憶手段として機能させる辞書作成処理プログラムが記録されていることを特徴としている。
【００４０】
上記構成によれば、上記第１の発明の場合と同様に、読みが付与された１つまたは複数の発声単位が生成される。したがって、こうして生成された発声単位を認識語彙として登録することによって、予め設定された文字列の部分文字列を発声しても正しく認識できる音声認識装置を実現可能な音声認識用辞書が作成されるのである。
【００４１】
【発明の実施の形態】
以下、この発明を図示の実施の形態により詳細に説明する。
＜第１実施の形態＞
図１は、本実施の形態の音声認識用辞書作成装置におけるブロック図である。解析処理部１に文字列を表す情報である文字列情報が入力されると、テキスト解析部２によって入力文字列の言語が解析されて形態素に分割される。その際に、複数の分割候補が存在する場合は、その総ての分割候補が出力される。そして、読み付与部３によって、上記分割された形態素の読みが付与される。その際に、複数の読み方が存在する場合には、その総ての読みが出力される。解析辞書メモリ４には、上記テキスト解析部２がテキスト解析を行う際に必要な解析辞書を含む言語データ等が格納されている。
【００４２】
語彙作成部５は、上記テキスト解析部２によるテキスト解析結果と読み付与部３による読み付与結果を元に、音声認識を行うために必要な音声認識用辞書を作成する。語彙記憶部６は、語彙作成部５によって作成された音声認識用辞書を記憶する。そして、この音声認識用辞書は音声認識時に使用される。
【００４３】
図２は、上記構成を有する音声認識用辞書作成装置の各部によって実行される辞書作成処理動作のフローチャートである。以下、図２のフローチャートに従って、解析処理部１に「浦和市大久保」という文字列が入力された場合を例に、本音声認識用辞書作成装置の動作を説明する。ここで、テキスト解析部２に対する文字列情報(テキスト)の入力は、ＷＷＷ(World Wide Web)等のネットワークからの入力や受信された文字放送による入力であってもよいし、キーボードやペン等の文入力手段からの入力あるいは音声認識装置からの認識結果の入力でもよいし、ＯＣＲ(光学式文字読取り装置)等の文字認識装置からの入力であっても構わない。
【００４４】
ステップＳ1で、上記テキスト解析部２によって文字列「浦和市大久保」が取り込まれる。ステップＳ2で、さらに、入力文字列「浦和市大久保」が、解析辞書メモリ４に格納されている解析辞書を参照して形態素(単語)に分割されるテキスト解析が行われる。その結果、単語列「浦和(名詞)」,「市(接尾語)」,「大久保(名詞)」と、単語列「浦和(名詞)」,「市大(名詞)」,「久保(名詞)」との２つの分かち候補が得られる。尚、図３に、テキスト解析部２の出力結果の一例を示す。
【００４５】
ステップＳ3で、上記読み付与部３によって、各単語に読みが付与されて、図４に示すような読み付与結果が得られる。ここで、各単語の読みは、解析辞書メモリ４に格納されている解析辞書を参照して付与される。尚、複数の読み方が存在する単語には総ての読みが付与される。図４においては、文字「市」には、読み「し」と読み「いち」との２つの読みが付与されている。以下、語彙作成部５に処理が移行する。
【００４６】
ステップＳ4で、上記テキスト解析部２によって得られた分かち候補の数が変数ｋにセットされる。上記入力文字列「浦和市大久保」の場合は、図３に示すように「浦和/市/大久保」と「浦和/市大/久保」との２通り分かち候補が存在するので、変数ｋに「２」がセットされる。ステップＳ5で、分かち候補番号ｍに初期値「１」がセットされる。ステップＳ6で、ｍ番目の分かち候補を構成する総単語数が変数Ｎmにセットされる。上記入力文字列「浦和市大久保」の場合は、１番目の分かち候補「浦和/市/大久保」は、「浦和(名詞)」,「市(接尾語)」および「大久保(名詞)」の３単語であるから、変数Ｎ1に「３」がセットされる。
【００４７】
ステップＳ7で、語彙として登録する発声単位を構成する二つ目以降の単語数ｊが、「０」に初期化される。ステップＳ8で、発声単位の位置(先頭単語の番号)ｉが、「１」に初期化される。ステップＳ9で、(ｉ＋ｊ)の値が総単語数Ｎm以下であるか否かが判別される。その結果、総単語数Ｎm以下である場合にはステップＳ10に進む一方、総単語数Ｎmより大きい場合にはステップＳ13に進む。ステップＳ10で、発声単位を構成する単語Ｗi,…,Ｗi+jと、対応する読みＹi(１),…,Ｙi(１＋ｐi),…,Ｙi+j(１),…,Ｙi+j(１＋ｐi+j)(但し、ｐi+j：単語Ｗi+jの二つ目以降の読みの数)とが、語彙記憶部６に登録される。したがって、１つの単語Ｗiに対する読みが「Ｙi(１),Ｙi(２),…」のごとく複数ある場合には総ての読みが登録される。
【００４８】
ステップＳ11で、上記発声単位の位置ｉの値がインクリメントされる。ステップＳ12で、発声単位の位置ｉが総単語数Ｎm以下であるか否かが判別される。その結果、総単語数Ｎm以下である場合にはステップＳ9に戻って次の位置に在る発声単位の登録に移行する。一方、総単語数Ｎmより大きい場合にはステップＳ13に進む。ステップＳ13で、発声単位を構成する二つ目以降の単語数ｊがインクリメントされる。ステップＳ14で、上記単語数ｊが総単語数Ｎmより小さいか否かが判別される。その結果、総単語数Ｎmより小さい場合にはステップＳ8に戻って二つ目以降の単語数が１つ多い発声単位の登録に移行する。一方、単語数Ｎm以上である場合にはステップＳ15に進む。ステップＳ15で、分かち候補番号ｍがインクリメントされる。ステップＳ16で、分かち候補番号ｍが分かち候補の数ｋ以下であるか否かが判別される。その結果、分かち候補数ｋ以下である場合にはステップＳ6に戻って次の分かち候補に対する処理に移行する。一方、分かち候補数ｋより大きい場合には、総ての分かち候補に関する処理が終了したと判断されて辞書作成処理動作を終了する。
【００４９】
以上の結果、上記文字列「浦和市大久保」に対して上述のような辞書作成処理動作が行われた場合には、語彙記憶部６へは次のように登録が行われる。すなわち、１番目の分かち候補「浦和/市/大久保」に対して、先ず、発声単位の二つ目以降の単語数ｊが「０」である場合には、発声単位の位置ｉが小さい順に、発声単位/読みのペア「浦和/うらわ」,「市/し」,「大久保/おおくぼ」が登録される。次に、発声単位の上記単語数ｊが「１」である場合は、発声単位の位置ｉが小さい順に、発声単位/読みのペア「浦和市/うらわし」,「市大久保/しおおくぼ」が登録される。次に、発声単位の上記単語数ｊが「２」である場合には、発声単位/読みのペア「浦和市大久保/うらわしおおくぼ」が登録される。
【００５０】
さらに、２番目の分かち候補「浦和/市大/久保」に対して、先ず、発声単位の上記単語数ｊが「０」である場合は、発声単位の位置ｉが小さい順に、発声単位/読みのペア「浦和/うらわ」,「市大/しだい」,「久保/くぼ」が登録される。その際に、他の発声単位/読みのペア「市大/いちだい」も登録される。次に、発声単位の上記単語数ｊが「１」である場合には、発声単位/読みのペア「浦和市大/うらわしだい」,「市大久保/しだいくぼ」と、他の発声単位/読みのペア「浦和市大/うらわいちだい」,「市大久保/いちだいくぼ」とが登録される。次に、発声単位の上記単語数ｊが「２」である場合には、発声単語/読みのペア「浦和市大久保/うらわしだいくぼ」と、他の発声単位/読みのペア「浦和市大久保/うらわいちだいくぼ」とが登録される。
【００５１】
その結果、上記語彙記憶部６には、図５に示すように認識語彙が登録されて音声認識用辞書が作成されることになる。
【００５２】
以上のように、本実施の形態においては、テキスト解析部２によって、入力文字列が形態素(単語)に分割されて、総ての分かち候補が求められる。さらに、読み付与部３によって、総ての分かち候補の単語に対して読みが付与される。その場合、複数の読み方が存在する単語には総ての読みが付与される。そして、語彙作成部５によって、総ての分かち候補,総ての読み候補,総ての連接単語の組み合せを考慮して発声単位/読みのペアを作成し、語彙記憶部６に登録するようにしている。
【００５３】
すなわち、本実施の形態によれば、入力文字列から複数の発声単位の語彙を生成することができる。したがって、１つの入力文字列から、当該文字列中の何れの部分文字列を発声しても認識できる音声認識用辞書を作成することが可能となるのである。
【００５４】
例えば、ウエブ上でホームページの呼び出しを音声によって行う場合に、テキスト解析部２にホームページのタイトルを入力し、上述の手順によって音声認識用辞書を作成することによって、上記タイトルと発声が完全に一致しなくてもホームページの呼び出しを行うことができるのである。例えば、ホームページのタイトルが「首相官邸のトップページ」である場合、「首相官邸のトップページ」と発声しても、「首相官邸」と発声しても、あるいは、「官邸のトップページ」と発声しても、首相官邸のホームページを呼び出すことが可能な音声認識用辞書を得ることができるのである。
【００５５】
同様に、テレビのチャンネル切換をテレビ番組名の発声によって行う場合に、テキスト解析部２に電子テレビ番組表の番組名を入力し、上述の手順によって音声認識用辞書を作成することによって、例えば、番組名が「ＮＨＫニュースおはよう日本」である場合に、「ＮＨＫニュース」と発声しても、「おはよう日本」と発声しても、所定の時間になるとテレビのチャンネルを自動的に「ＮＨＫ」に切り換えることが可能な音声認識用辞書を得ることができるのである。
【００５６】
尚、説明を簡単にするため、文字列「ＮＨＫニュース」,「おはよう日本」を一つの単語として音声認識用辞書に登録する場合を例に説明を行っている。しかしながら、「ＮＨＫ」と「ニュース」や「おはよう」と「日本」を独立した単語として記憶して、これらの単語が連続するという情報を別途記憶することによって、連続音声認識用の辞書作成も同様の方法で実現することができる。
【００５７】
＜第２実施の形態＞
上記第１実施の形態によれば、テキスト解析の結果得られる連接単語の組合せだけの発声単位が得られるが、これらの発声単位の中には誤解析も含まれる。したがって、得られた発声単位の総てを同等に扱うことは不要な語彙を多く含み、認識率を低下させる原因になり得る。本実施の形態は、このような場合に対処するものである。
【００５８】
図６は、本実施の形態の音声認識用辞書作成装置におけるブロック図である。解析処理部１１に文字列情報が入力されると、テキスト解析部１２によって入力文字列が形態素に分割される。その際に、複数の分割候補が存在する場合には、その総ての分割候補に確からしさの度合いを表す解析尤度が付与されて出力される。そして、読み付与部１３によって、上記分割された形態素の読みが付与される。その際に、複数の読み方が存在する場合には、その総ての読みに確からしさの度合いを表す読み尤度が付与されて出力される。解析辞書メモリ１４には、上記第１実施の形態の場合と同様に、テキスト解析部１２がテキスト解析を行う際や読み付与部１３が読み付与を行う際に必要な解析辞書を含む言語データ等が格納されている。
【００５９】
語彙作成部１５は、テキスト解析部１２によるテキスト解析結果と、読み付与部１３による読み付与結果と、発声確率計算部１６による発声確率とを基に、音声認識を行うために必要な音声認識用辞書を作成する。発声確率計算部１６は、テキスト解析部１２が出力する解析尤度、読み付与部１３が出力する読み尤度、単語出現順序、モーラ数、単語出現頻度、キーワード辞書照合の少なくとも一つを用いて、語彙作成部１５によって各分かち候補から得られた発声単位の発声確率を算出する。語彙記憶部１７は、語彙作成部１５によって作成された音声認識用辞書を記憶する。そして、この音声認識用辞書は音声認識時に使用される。
【００６０】
図７に、テキスト解析部１２の出力結果の一例を示す。また、図８に、読み付与部１３の出力結果の一例を示す。また、図９に、語彙作成部１５の出力結果の一例を示す。
【００６１】
以下、本実施の形態における特徴である発声確率計算部１６の動作について詳細に述べる。この発声確率計算部１６では、上述したように、テキスト解析部１２による解析尤度ＫＳ、読み付与部１３による読み尤度ＹＳ、単語出現順序、モーラ数、単語出現頻度、キーワード辞書照合の少なくとも一つを用いて、各発声単位の発声確率を算出する。
【００６２】
先ず、上記テキスト解析部１２によって得られる解析尤度ＫＳから上記発声確率を求める場合について説明する。上記解析尤度ＫＳは、入力文字列を解析して得られた結果(形態素分割結果)がどの程度確からしいかを図る指標になる。上記第１実施の形態の場合と同じ入力文字列「浦和市大久保」を例に上げて説明する。
【００６３】
上記テキスト解析部１２によって、１番目の解析候補(分かち候補)「浦和/市/大久保」の解析尤度がＫＳ(１)と得られ、２番目の解析候補「浦和/市大/久保」の解析尤度がＫＳ(２)と得られたとする。また、ｉ番目の解析候補に含まれる構成単語を組み合わせて得られる発声単位の数をＮ(i)とする。但し、同じ発声単位が複数の解析候補に含まれている場合には、最も解析尤度の高い解析候補の発声単位を数えることとする。上記入力文字列「浦和市大久保」の場合であれば、構成単語が「浦和」だけで成る発声単位は、１番目,２番目の両解析候補に含まれるために、解析尤度の高い解析候補の方だけで数えるのである。
【００６４】
一つの解析候補における構成単語の全組み合わせ(つまり全発声単位)は、均等の確率で発生するものとする。そうすると、ｉ番目の解析候補における発声単位ｗの発声確率Ｐ１(ｗ)は式(１)で表現できる。但し、式(１)中におけるＭは解析候補数である。

【００６５】
式(１)における右辺の分母は、入力文字列に固有の値であるから「Ａ」と置くことができる。また、一般的に、入力文字列「浦和市大久保」は、固有名詞「浦和」と接尾語「市」と固有名詞「大久保」である可能性の方が、固有名詞「浦和」と一般名詞「市大」と固有名詞「久保」である可能性よりも高いと判断され、両解析尤度の大小関係はＫＳ(１)＞ＫＳ(２)となる。したがって、「浦和市」と発声される確率
ＫＳ(１)/Ａ
と、「久保」と発声される確率
ＫＳ(２)/Ａ
とでは、前者の方が高くなる。
【００６６】
以上のようにして、各解析候補の解析尤度ＫＳに基づいて、各解析候補から得られる発声単位の発声確率を求めることができるのである。
【００６７】
次に、上記読み付与部１３によって得られる読み尤度ＹＳから上記発声確率を求める場合について説明する。上記入力文字列「浦和市大久保」の場合を例に上げて説明する。上記解析尤度が付与された総ての解析候補に対して、読み付与部１３によって、１番目の解析候補「浦和(うらわ)/市(し)/大久保(おおくぼ)」の読み尤度がＹＳ(１)、２番目の解析候補「浦和(うらわ)/市大(しだい)/久保(くぼ)」の読み尤度がＹＳ(２)、３番目の解析候補「浦和(うらわ)/市大(いちだい)/久保(くぼ)」の読み尤度がＹＳ(３)と計算されたとする。
【００６８】
また、ｉ番目の解析候補に含まれる構成単語を組み合わせて得られる発声単位の数をＮ(i)とする。但し、同じ発声単位が複数の解析候補に含まれている場合には、最も解析尤度の高い解析候補の発声単位を数えることとする。
【００６９】
一つの解析候補における構成単語の全組合せは、均等の確率で発生するものとする。そうすると、ｉ番目の解析候補における発声単位ｗの発声確率Ｐ２(ｗ)は式(２)で表現できる。但し、式(２)中におけるＭは解析候補数である。

【００７０】
式(２)における右辺の分母は、入力文字列に固有の値であるから「Ｂ」と置くことができる。また、各読み尤度の大小関係はＹＳ(１)＞ＹＳ(２)＞ＹＳ(３)であるとする。そうすると、「うらわしおおくぼ」と発声される確率
ＹＳ(１)/Ｂ
と「うらわしだいくぼ」と発声される確率
ＹＳ(２)/Ｂ
とでは、前者の方が高くなる。
【００７１】
以上のようにして、各解析候補の読み尤度ＹＳに基づいて、各解析候補から得られる発声単位の発声確率を求めることができるのである。
【００７２】
次に、上記単語出現順序から上記発声確率を求める場合について説明する。ここで、単語出現順序ｉを変数とする関数ｈ(i)を定義する。関数ｈ(i)は、文字列表記の先頭部分にある単語ほど発声単位となる確率が高いという経験則に基づいて、単語出現順序ｉが増加するに従って値が減少する関数である。
【００７３】
例えば電子番組データの番組名に記載されている文字列「水戸黄門/五十三次世直し旅・品川」を例に説明する。単語出現順序がｉ番目である単語を先頭に含む発声単位の個数をＮ(i)とする。
【００７４】
同じ単語を先頭に含む全発声単位は均等の確率で発生するものとする。すなわち、単語「水戸」で始まる発声単位「水戸」,「水戸黄門」,「水戸黄門五十三次」の発声確率は総て等確率になる。そうすると、単語出現順序がｉ番目である単語を先頭に含む発声単位ｗの発声確率Ｐ３(ｗ)は式(３)で表現できる。但し、式(３)中におけるＭは単語出現順序数(単語数)である。

【００７５】
式(３)における右辺の分母は、解析候補に固有の値であるから「Ｃ」と置くことができる。また、上記文字列「水戸黄門/五十三次世直し旅・品川」に対するテキスト解析部１２によるテキスト解析の結果、単語出現順序ｉ＝１は「水戸」、ｉ＝２は「黄門」、ｉ＝３は「五十三次」、ｉ＝４は「世直し」、ｉ＝５は「旅」、ｉ＝６は「品川」となる。さらに、関数ｈ(i)の定義に基づいて、単語出現順序ｉ＝１,３,６における関数ｈ(i)の値の大小関係はｈ(１)＞ｈ(３)＞ｈ(６)となる。そのために、発声単位「水戸黄門」,「五十三次世直し旅」,「品川」に関して、発声単位「品川」よりも発声単位「五十三次世直し旅」、発声単位「五十三次世直し旅」よりも発声単位「水戸黄門」の方が、発声確率は高くなる。したがって、「みとこうもん」と発声される確率
ｈ(１)/Ｃ
と「ごじゅうさんつぎ」と発声される確率
ｈ(３)/Ｃ
と「しながわ」と発声される確率
ｈ(６)/Ｃ
とでは、「みとこうもん」の発声確率が一番高くなる。
【００７６】
以上のようにして、入力文字列を構成する各単語の単語出現順序に基づいて、得られる発声単位の発声確率を求めることができるのである。
【００７７】
次に、上記モーラ数から上記発声確率を求める場合について説明する。発声単位の発声確率は、あるモーラ数をピークとして発声単位のモーラ数が大きくなるほど低くなる。逆に、モーラ数が小さくなっても低くなる。そこで、図１０に概念図を示すような発声単位のモーラ数ｉと発声確率との関係を表す関数ｍ(i)を定義する。
【００７８】
電子番組データの番組名に記載されている文字列「サスペンス傑作劇場津軽竜飛岬風の殺意」を例に説明する。この番組名を発声する際に「サスペンス傑作劇場津軽竜飛岬風の殺意」とそのまま発声するケースは稀であり、「サスペンス傑作劇場」や「サスペンス」あるいは「津軽竜飛岬風の殺意」等の発声単位で発声される可能性が高いと考えられる。また、「傑作」や「劇場」ではモーラ数が少な過ぎて発声確率は低いと考えられる。
【００７９】
同じモーラ数を呈する全発声単位は均等の確率で発生するものとする。また、モーラ数がｉである発声単位の個数をＮ(i)とする。そうすると、モーラ数がｉである発声単位ｗの発声確率Ｐ４(ｗ)は式(４)で表現できる。但し、式(４)中におけるＭは最大モーラ数である。

【００８０】
式(４)における右辺の分母は、解析候補に固有の値であるから「Ｄ」と置くことができる。また、上記文字列「サスペンス傑作劇場津軽竜飛岬風の殺意」に対するテキスト解析部１２によるテキスト解析の結果、発声単位「サスペンス傑作劇場津軽竜飛岬風の殺意」のモーラ数は２４、発声単位「サスペンス劇場」のモーラ数は９となる。さらに、関数ｍ(i)の定義に基づいて、モーラ数ｉ＝２４,９における関数ｍ(i)の値の大小関係はｍ(９)＞ｍ(２４)となる。したがって、「さすぺんすげきじょうつがるたっぴみさきかぜのさつい」と発声される確率
ｍ(２４)/Ｄ
と「さすぺんすげきじょう」と発声される確率
ｍ(９)/Ｄ
とでは、後者の方が高くなる。
【００８１】
以上のようにして、入力文字列から得られる発声単位のモーラ数に基づいて、発声単位の発声確率を求めることができるのである。
【００８２】
次に、上記単語出現頻度から上記発声確率を求める場合について説明する。ここで、テキスト解析部１２に順次入力される総ての文字列で成る文字列群中における出現回数ｉを変数とする関数ｆ(i)を定義する。この関数ｆ(i)は、上記文字列群の中に出現する回数が多い単語は他の単語と区別するための単語となり難いという性質を利用しており、上記文字列群中における出現回数ｉが増加するに従って値が減少する関数である。
【００８３】
例えば、ホームページのタイトル「大蔵省ホームページ」を例に説明する。単語「ホームページ」や単語「ようこそ」等は、他のホームページのタイトルにも頻繁に出現するので、ホームページの呼び出し用の認識語彙としてこれらの単語を含む発声単位の発声確率は低くなる。
【００８４】
上記文字列群中において同じ出現回数を呈する単語を含む全発声単位は均等の確率で発生するものとする。また、上記文字列群中での出現回数がｉである単語を含む発声単位の個数をＮ(i)とする。そうすると、発声単位ｗを構成する単語のうちで上記文字列群中での出現回数が最少である単語の出現回数がｉである当該発声単位ｗの発声確率Ｐ５(ｗ)は式(５)で表現できる。但し、式(５)中におけるＭは最大出現回数である。

【００８５】
式(５)における右辺の分母は、上記文字列群に固有の値であるから「Ｅ」と置くことができる。また、例えば、上記文字列群中に、「大蔵省」という単語を含む発声単位が１回含まれる一方、「ホームページ」という単語を含む発声単位が５回含まれるとすると、関数ｆ(i)の定義に基づく単語出現頻度ｉ＝１,５における関数ｆ(i)の値の大小関係はｆ(１)＞ｆ(５)となる。したがって、「おおくらしょう」と発声される確率
ｆ(１)/Ｅ
と「ほーむぺーじ」と発声される確率
ｆ(５)/Ｅ
とでは、前者の方が高くなる。
【００８６】
以上のようにして、上記文字列群中における単語出現頻度に基づいて、発声単位の発声確率を求めることができるのである。
【００８７】
具体的には、例えば、上記文字列群として５つのホームページのタイトルがある場合、先ず、１番目のタイトルが入力された場合に、当該タイトルの文字列中における単語出現頻度ｉ₁に基づいて発声単位Ｗの発声確率Ｐ５(ｗ)を求める。次に、２番目のタイトルが入力された場合は、同一発声単位Ｗに関して、１番目のタイトルと２番目のタイトルとの文字列中における単語出現頻度ｉ₂に基づいて、発声確率Ｐ５(ｗ)を計算し直す。以下同じ動作を繰り返し、最後に５番目のタイトルが入力された場合は、同一発声単位Ｗに関して、１番目〜５番目のタイトルの全文字列中における単語出現頻度ｉ_tに基づいて、発声確率Ｐ５(ｗ)を計算し直し、最終的な発声単位Ｗの発声確率Ｐ５(ｗ)を得るのである。
【００８８】
最後に、上記キーワード辞書照合から上記発声確率を求める場合について説明する。この場合、予め確率値が付与されたキーワードを登録したキーワード辞書を作成しておく。例えば、単語「ニュース」には高い確率値を付与してキーワード辞書に登録しておく。逆に、単語「番組」や単語「ホームページ」は冗長で在っても無くてもよく、低い確率値を付与して登録しておく。尚、キーワード辞書に登録されていない単語にはデフォルトの確率値が与えられる。
【００８９】
こうすることによって、「にゅーす」と発声される確率と「ばんぐみ」と発声される確率とでは、前者の方が高くなる。ここで、確率値「０」を付与してキーワード辞書に登録することは、認識語彙から削除することと同等の役割を果たす。
【００９０】
以上のようにして、キーワード辞書照合に基づいて、発声単位の発声確率を求めることができるのである。
【００９１】
以上述べた「解析尤度」,「読み尤度」,「単語出現順序」,「モーラ数」,「単語出現頻度」,「キーワード辞書照合」の６種類の項目の何れ一つを用いて求めた発声確率を組み合わせて、発声単位の発声確率とすることができる。一例として、式(６)のような計算式によって発声単位の発声確率を求めることができる。すなわち、
解析尤度を用いて求めた発声確率をＰ１
読み尤度を用いて求めた発声確率をＰ２
単語出現順序を用いて求めた発声確率をＰ３
モーラ数を用いて求めた発声確率をＰ４
単語出現頻度を用いて求めた発声確率をＰ５
キーワード辞書照合を用いて求めた発声確率をＰ６
とすると、

ここで、ｍi：重み係数
【００９２】
以上のようにして、各発声単位毎に算出された発声確率ＷＳは、図９に示すように、語彙作成部１５によって上記第１実施の形態と同様にして作成された認識語彙(発声単位)に付与されて、語彙記憶部１７に登録されるのである。
【００９３】
以上のように、本実施の形態においては、テキスト解析部１２は、複数の分割候補が存在する場合には総ての分割候補に解析尤度ＫＳを付与して出力する。また、読み付与部１３は、複数の読み方が存在する場合には総ての読みに読み尤度ＹＳを付与して出力する。さらに、発声確率計算部１６によって、上記解析尤度ＫＳおよび読み尤度ＹＳ、単語出現順序、モーラ数、単語出現頻度、キーワード辞書照合の少なくとも一つを用いて、得られる発声単位の発声確率を算出する。そして、得られた発声確率ＷＳを認識語彙に付与して語彙記憶部１７に登録するようにしている。
【００９４】
したがって、本実施の形態によれば、上記第１実施の形態によって作成された音声認識用辞書に登録されている認識語彙中における誤解析による認識語彙や実際には発声されない認識語彙の発声確率を低くすることができ、高い認識精度を得ることができる音声認識用辞書を作成することができる。
【００９５】
尚、上記関数ｈ(i),ｍ(i),ｆ(i)およびキーワード辞書の格納場所は特に限定するものではないが、例えば発生確率計算部１６の内部メモリに格納してあるものとする。また、説明を簡単にするために、発声確率計算部１６を語彙作成部１５とは別ブロックに構成して、語彙作成部１５で得られた発声単位に関して発声確率を算出するようにしている。しかしながら、発声確率計算部を語彙作成部と同一ブロックに構成して、図２のフローチャートにおける上記ステップＳ4以降に、発声確率算出動作を組み込んでも差し支えない。
【００９６】
＜第３実施の形態＞
本実施の形態は、上記第２実施の形態における音声認識用辞書作成装置によって作成された音声認識用辞書を搭載した音声認識装置に関するものである。図１１は、図６に示す音声認識用辞書作成装置を搭載した音声認識装置のブロック図である。音声認識用辞書作成装置２１を構成するテキスト解析部２３,読み付与部２４,解析辞書メモリ２５,語彙作成部２６,発声確率計算部２７および語彙記憶部２８は、上記第２の実施の形態における上記テキスト解析部１２,読み付与部１３,解析辞書メモリ１４,語彙作成部１５,発声確率計算部１６および語彙記憶部１７と同じ構成を有している。そして、語彙記憶部２８には、図９に示すように、発声確率が付与された認識語彙が格納されている。
【００９７】
一方、音声認識装置２２は、音響分析部２９,尤度計算部３０,音響モデル格納部３１および照合部３２で構成され、マイクに入力された音声を語彙記憶部２８に格納された認識語彙情報(音声認識用辞書)を用いて認識する。
【００９８】
上記音響分析部２９は、マイクから入力された音声のアナログ波形をディジタル波形に変換し、２０msec〜４０msec程度の短い時間間隔(フレーム)毎に周波数分析し、スペクトルを表すパラメータのベクトル系列に変換する。周波数分析にはＬＰＣ(線形予測分析)メルケプストラム等が用いられる。
【００９９】
上記尤度計算部３０は、音響分析部２９からの入力音声のパラメータベクトルを用いて、音響モデル格納部３１に格納されたＨＭＭ(隠れマルコフモデル)等の音韻毎の音響モデルの尤度を計算する。こうして、各音韻の尤度を求めるのである。照合部３２は、求められた各音韻の尤度と語彙記憶部２８に登録されている総ての認識語彙との照合を行ない、全認識語彙のスコアを算出する。その場合における各認識語彙のスコアは、当該認識語彙の音韻系列に尤度計算部３０で求められた各音韻の尤度を当て嵌めて得た音響尤度と、当該認識語彙に付与されて語彙記憶部２８に記憶されている発声確率である言語尤度とを組み合わせて算出する。例えば、認識語彙Ｗの音響尤度をｐ(W)とし言語尤度をｑ(W)とすると、認識語彙Ｗのスコアscore(W)を、
score(W)＝α・ｐ(W)＋β・ｑ(W)
但し、α,β：定数
によって求めるのである。
【０１００】
こうして、上記語彙記憶部２８に登録されている総ての認識語彙についてスコアを算出し、上位所定値以上のスコアを呈する認識語彙でなる認識候補を認識結果として出力するのである。
【０１０１】
以上のように、本実施の形態においては、音声認識装置は、上記第２実施の形態の音声認識用辞書作成装置によって作成された音声認識用辞書が格納された語彙記憶部２８を有している。そして、照合部３２によって、尤度計算部３０で求められた各音韻の尤度と語彙記憶部２８に登録されている総ての認識語彙の音韻系列との照合を行ない、音韻の尤度に基づく音響尤度と上記発声確率である言語尤度とを組み合わせて、全認識語彙のスコアを算出するようにしている。
【０１０２】
したがって、本実施の形態によれば、上記第１実施の形態の場合と同様に、ホームページの呼び出しやテレビのチャンネル切換を音声によって行う場合に、登録されたホームページタイトルや番組名を完全に発声しなくてもホームページの呼び出しやチャンネルの切換を行うことができる。その際に、上記発声確率(言語尤度)に基づくスコアの高い認識語彙を音声認識結果とすることによって、上記入力文字列の誤解析によって得られた認識語彙や実際には発声されない認識語彙に誤認識される確率を低減することができる。したがって、高い認識性能を有する音声認識装置を実現することができるのである。
【０１０３】
尚、上記実施の形態においては、上記音声認識装置２２は音声認識用辞書作成装置２１を搭載している。しかしながら、この発明の音声認識装置は、少なくとも上記音声認識用辞書作成装置によって作成された語彙記憶部２８が搭載されていればよく、テキスト解析部２３,読み付与部２４,解析辞書メモリ２５,語彙作成部２６および発声確率計算部２７は、音声認識装置２２とは独立して設けても差し支えない。
【０１０４】
＜第４実施の形態＞
本実施の形態は、上記第２実施の形態における音声認識用辞書作成装置によって作成された音声認識用辞書を搭載した音声認識装置の他の例に関するものであり、上記音声認識用辞書作成装置に入力する文字列情報をコンテンツから抽出するものである。
【０１０５】
図１２は、図６に示す音声認識用辞書作成装置を搭載した音声認識装置のブロック図である。音声認識用辞書作成装置４１を構成するテキスト解析部４３,読み付与部４４,解析辞書メモリ４５,語彙作成部４６,発声確率計算部４７および語彙記憶部４８、音声認識装置４２を構成する音響分析部４９,尤度計算部５０,音響モデル格納部５１および照合部５２は、上記第３の実施の形態におけるテキスト解析部２３,読み付与部２４,解析辞書メモリ２５,語彙作成部２６,発声確率計算部２７,語彙記憶部２８,音響分析部２９,尤度計算部３０,音響モデル格納部３１および照合部３２と同じ構成を有している。そして、語彙記憶部４８には、図９に示すように、発声確率が付与された認識語彙が格納されている。
【０１０６】
取り込み部５３は、外部からの文字列情報を含むコンテンツを取り込む。上記コンテンツは、放送によって送信されてくる情報を受信機で受信して取り込んでもよいし、インターネットで配信される情報を通信ネットワーク経由で取り込んでもよいし、光磁気ディスク,磁気テープ,ハードディスクおよびＩＣ(集積回路)カード等の固定的にデータを記録する媒体から取り込んでもよい。文字列情報抽出部５４は、取り込み部５３で取り込まれたコンテンツの中から音声認識用辞書の作成に使用する文字列情報を抽出する。そして、抽出された文字列情報は、音声認識用辞書作成装置４１のテキスト解析部４３に送出される。
【０１０７】
抽出条件格納部５５には、上記コンテンツに含まれるタグ情報が如何なるタグ情報である場合に文字列情報を抽出するかという抽出条件が格納されている。そして、文字列情報抽出部５４は、抽出条件格納部５５に格納されている上記抽出条件を参照して、上記音声認識用辞書の作成に用いる文字列情報を抽出するのである。
【０１０８】
図１３は、上記取り込み部５３および文字列情報抽出部５４によって行われる文字列情報抽出処理動作のフローチャートである。以下、図１３に従って、文字列情報抽出動作について説明する。ステップＳ21で、上記取り込み部５３によって、上記コンテンツが取り込まれる。以下、文字列情報抽出部５４による処理に移行する。ステップＳ22で、上記取り込まれたコンテンツの先頭文字が読み出される。ステップＳ23で、上記読み出された文字は空(つまりコンテンツは最後)であるか否かが判別される。その結果、最後であれば文字列情報抽出処理動作を終了する。一方、最後でなければステップＳ24に進む。ステップＳ24で、受け取った文字がタグ情報であるか否かが判別される。その結果、タグ情報でなければステップＳ25に進む。一方、タグ情報であればステップＳ26に進む。ステップＳ25で、上記コンテンツにおける次の文字が読み出された後、ステップＳ23に戻って次の文字の処理に移行する。ステップＳ26で、抽出条件格納部５５の抽出条件が参照されて、上記抽出条件を満たすか否かが判別される。その結果、満たす場合にはステップＳ27に進む一方、満たさない場合には上記ステップＳ25に戻って次の文字の処理に移行する。ステップＳ27で、上記抽出条件を満たす文字列が抽出されて、テキスト解析部４３に送出される。そうした後、上記ステップＳ25に戻って次の文字の処理に移行する。以下、ステップＳ23〜ステップＳ27の処理を繰り返し、上記ステップＳ23においてコンテンツは最後であると判別されと文字列情報抽出処理動作を終了するのである。
【０１０９】
例えば、上記コンテンツがＨＴＭＬ(ハイパーテキスト・マークアップ言語)ファイルであり、抽出条件格納部５５に抽出条件「＜title＞タグが存在する場合は＜title＞と＜/title＞とで囲まれた文字列を抽出する」が格納されているとすると、入力されたコンテンツ(ＨＴＭＬファイル)中に、
＜title＞首相官邸のトップページ＜/title＞
なる記述があると、文字列「首相官邸のトップページ」が抽出されるのである。
【０１１０】
こうして、文字列情報を含むコンテンツから上記文字列情報抽出部５４によって自動的に抽出された文字列に対して、音声認識用辞書作成装置４１によって図２に例示するような辞書作成処理を行うことによって、語彙記憶部４８に、音声によるホームページ呼び出しに最適な音声認識用辞書が作成・登録されるのである。したがって、音声認識装置４２に対して、首相官邸のホームページのタイトル「首相官邸のトップページ」を完全に発声しても、部分的に「首相官邸」や「官邸のトップページ」と発声しても正しく認識され、首相官邸のホームページを呼び出すことができるのである。
【０１１１】
その際に、上記音声認識用辞書作成装置４１には、発声確率計算部４７が搭載されており、語彙記憶部４８には発声確率が付与された認識語彙が登録されている。したがって、文字列情報抽出部５４で抽出された文字列に対する誤解析の結果生成された認識語彙や現実には発声されないような認識語彙の発声確率を低くして、高い認識精度を得ることができるのである。
【０１１２】
＜第５実施の形態＞
本実施の形態は、上記第４実施の形態に示す音声認識装置において、音声認識用辞書作成装置に入力する文字列情報が抽出されるコンテンツを、ウエブページ情報に限定したものである。
【０１１３】
図１４は、図６に示す音声認識用辞書作成装置を搭載した音声認識装置のブロック図である。音声認識用辞書作成装置６１を構成するテキスト解析部６３,読み付与部６４,解析辞書メモリ６５,語彙作成部６６,発声確率計算部６７および語彙記憶部６８、音声認識装置６２を構成する音響分析部６９,尤度計算部７０,音響モデル格納部７１および照合部７２は、上記第３の実施の形態におけるテキスト解析部２３,読み付与部２４,解析辞書メモリ２５,語彙作成部２６,発声確率計算部２７,語彙記憶部２８,音響分析部２９,尤度計算部３０,音響モデル格納部３１および照合部３２と同じ構成を有している。そして、語彙記憶部６８には、図９に示すように、発声確率が付与された認識語彙が格納されている。
【０１１４】
また、文字列情報抽出部７４および抽出条件格納部７５は、上記第４実施の形態における文字列情報抽出部５４および抽出条件格納部５５と同じ構成を有している。そして、文字列情報抽出部７４によって抽出された文字列情報は、音声認識用辞書作成装置６１のテキスト解析部６３に出力される。
【０１１５】
ウエブページ情報取り込み部７３は、上記コンテンツとしてのウエブページ情報を取り込んで、先頭文字から順次文字列情報抽出部７４に送出する。以後、文字列情報抽出部７４によって、抽出条件格納部７５に格納されている抽出条件に適合する文字列情報が抽出される。
【０１１６】
一方、制御部７６は、上記音声認識装置６２による音声認識結果に基づいて、ウエブページの表示制御を行う。そして、ウエブページ表示部７７は、制御部７６の指示に従ってウエブページを表示するのである。
【０１１７】
図１５は、上記ウエブページ情報取り込み部７３によって取り込まれるウエブページ情報の一例を示す。ウエブページの情報は、ＨＴＭＬ等の言語で記述されている。そして、抽出条件格納部７５に抽出条件「＜title＞タグが存在する場合は＜title＞と＜/title＞とで囲まれた文字列を抽出する」が格納されているとすると、文字列情報抽出部７４は、基本的には図１３のフローチャートと同じ文字列情報の抽出動作を行う。すなわち、ウエブページ情報に記述されている文字列を先頭から見ていき、＜title＞タグを見つけると、＜title＞と＜/title＞とで挟まれた文字列「鈴木一郎のホームページ」を抽出するのである。
【０１１８】
こうして、ウエブページ情報から上記文字列情報抽出部７４によって自動的に抽出された文字列に対して、音声認識用辞書作成装置６１によって図２に例示するような辞書作成処理を行うことによって、語彙記憶部６８に、音声によるホームページ呼び出しに最適な発声確率付き認識語彙が登録された音声認識用辞書が作成されるのである。その際に、上記文字列「鈴木一郎のホームページ」から作成された発声単位「鈴木」,「一郎」,「鈴木一郎」,「鈴木一郎のホームページ」,「一郎のホームページ」には、図１６に示すように当該ホームページのＵＲＬ(http://www.suzuki.xxx.jp等)が付与されて語彙記憶部６８に登録するようにしている。
【０１１９】
したがって、上記音声認識装置６２に対して「鈴木一郎」と発声された場合は、音響分析部６９で入力音声がベクトル系列に変換され、尤度計算部７０で上記ベクトル系列に基づいて各音韻の尤度が算出され、照合部７２で語彙記憶部６８の語彙との照合を行って「鈴木一郎」という語彙として認識されると共に、認識語彙「鈴木一郎」に付与されているＵＲＬ(http://www.suzuki.xxx.jp)が得られるのである。
【０１２０】
そうすると、上記制御部７６は、得られたＵＲＬに基づいて「鈴木一郎のホームページ」にアクセスして「鈴木一郎のホームページ」のウエブページ情報を取得し、ウエブページ表示部７７に当該ウエブページの表示を指示して表示させるのである。
【０１２１】
すなわち、本実施の形態によれば、ウエブページの情報から自動的に発声確率付きの発声単位を生成して適切な音声認識用辞書を作成することができる。つまり、図１５のようなウエブページから図ｌ６に示すような音声認識用辞書を自動的に作成することができる。したがって、ウエブページのタイトル「鈴木一郎のホームページ」を完全に発声しても、部分的に「鈴木」や「鈴木一郎」や「一郎のホームページ」と発声しても正しく認識し、「鈴木一郎のホームページ」のウエブページ情報を取得してウエブページ表示部７７に表示することができるのである。
【０１２２】
上記ブラウザのブックマークやお気に入り等でホームページをブラウザに登録した場合、利用者が見て判断する情報としてタイトルを利用する場合がある。その場合のタイトルは、飽くまでも見るための情報であって発声するための文字列ではないため、極端に長いタイトルが与えられる場合がある。そのような場合でも、＜title＞タグで囲まれた文字列を抽出して上述した方法で音声認識用辞書を作成することによって、より短い発声で上記ブックマークやお気に入りに登録したホームページを呼び出すことが可能になるのである。
【０１２３】
尚、本実施の形態においては、上記＜title＞タグを用いる場合を例に説明したが、＜title＞タグ以外にも文字フォントを変更するタグ等、用途に応じた抽出条件を抽出条件格納部７５に格納しておくができる。そうすることによって、様々な用途に応じた音声認識用辞書を作成することが可能になる。
【０１２４】
また、上記抽出条件格納部７５に、上記発声確率の変更条件を格納することも可能である。その場合の発声確率の変更条件は、例えば、「ＵＲＬの表記を基にタイトルから発声確率の高い発声単位を選ぶ」である。具体的には、「ＵＲＬ中に含まれる読みに関するアルファベット表記と、テキスト解析部６３および読み付与部６４によるテキスト解析および読み付与の結果から得られた読みの表記(アルファベット表記)の一致具合を調べ、一致する単語があればその単語(読み方)を含む発声単位の発声確率を高くする」のである。例えば、タイトル「朝日新聞のホームページ」とそのＵＲＬ「http://www.asahi.com」とを例に取ると、ＵＲＬ中に含まれる読みに関するアルファベット表記「asahi」とテキスト解析および読み付与の結果得られた単語「朝日」の読みの表記「asahi」とが同一である。したがって、単語「朝日」を含む発声単位の発声確率を高く設定することができる。こうして、タイトル「朝日新聞のホームページ」に関する高い認識精度を可能にする音声認識用辞書を簡単に作成することが可能になるのである。
【０１２５】
＜第６実施の形態＞
本実施の形態は、上記第４実施の形態に示す音声認識装置において、音声認識用辞書作成装置に入力する文字列情報が抽出されるコンテンツを、テレビ番組情報に限定したものである。
【０１２６】
図１７は、図６に示す音声認識用辞書作成装置を搭載した音声認識装置のブロック図である。音声認識用辞書作成装置８１を構成するテキスト解析部８３,読み付与部８４,解析辞書メモリ８５,語彙作成部８６,発声確率計算部８７および語彙記憶部８８、音声認識装置８２を構成する音響分析部８９,尤度計算部９０,音響モデル格納部９１および照合部９２は、上記第３の実施の形態におけるテキスト解析部２３,読み付与部２４,解析辞書メモリ２５,語彙作成部２６,発声確率計算部２７,語彙記憶部２８,音響分析部２９,尤度計算部３０,音響モデル格納部３１および照合部３２と同じ構成を有している。そして、語彙記憶部８８には、図９に示すように、発声確率が付与された認識語彙が格納されている。
【０１２７】
また、文字列情報抽出部９４および抽出条件格納部９５は、上記第４実施の形態における文字列情報抽出部５４および抽出条件格納部５５と同じ構成を有している。そして、文字列情報抽出部９４によって抽出された文字列情報は、音声認識用辞書作成装置８１のテキスト解析部８３に出力される。
【０１２８】
テレビ番組情報取り込み部９３は、上記コンテンツとしてのテレビ番組情報を取り込んで、先頭文字から順次文字列情報抽出部９４に送出する。上記テレビ番組情報の取り込みは、１日分あるいは１週間分等のまとまった電子番組データを取り込むことによって行う。尚、この電子番組データの取り込みは、文字放送受信機で受信して取り込んでもよいし、インターネット等のネットワーク経由で取り込んでもよい。また、光磁気ディスク等の記録メディアから取り込んでも差し支えない。そうした後、文字列情報抽出部９４によって、抽出条件格納部９５に格納されている抽出条件に適合する文字列情報が抽出される。
【０１２９】
一方、制御部９６は、上記音声認識装置８２による音声認識結果に基づいて、テレビの表示や録画・再生を制御する。そして、テレビ表示部９７は、制御部９６の指示に従ってテレビの映像を表示する。録画部９８は、制御部９６の指示に従ってテレビ番組を録画する。再生部９９は、制御部９６の指示に従って録画部９８で録画されたテレビ番組を再生する。
【０１３０】
テレビ番組表には、番組の日時,チャンネル,番組名等の情報が、決められた形式に従って記載されている。したがって、上記５実施の形態と同様にして、テレビ番組表の中から番組名等の特定項目の文字列を抽出することによって、音声認識用辞書を作成することができる。
【０１３１】
図１８は、上記テレビ番組情報取り込み部９３によって取り込まれるテレビ番組情報の一例を示す。抽出条件格納部９５には、抽出条件「番組名というタグが付いている文字列を抽出する」が格納されているものとする。そうすると、文字列情報抽出部９４は、基本的には図１３のフローチャートと同じ文字列情報の抽出動作を行う。すなわち、テレビ番組情報に記述されている文字列を先頭から見ていき、タグ「番組名」を見つけると、そのタグ「番組名」に該当する文字列「ＮＨＫニュースおはよう日本」を抽出するのである。
【０１３２】
こうして、テレビ番組情報から上記文字列情報抽出部９４によって自動的に抽出された文字列に対して、音声認識用辞書作成装置８１によって図２に例示するような辞書作成処理を行うことによって、語彙記憶部８８に、音声によるテレビ番組表示に最適な発声確率付き認識語彙が登録された音声認識用辞書が作成されるのである。その際に、上記文字列「ＮＨＫニュースおはよう日本」から作成された発声単位「ＮＨＫ」,「ニュース」,「ＮＨＫニュース」,「おはよう日本」,「ＮＨＫニュースおはよう」には、図１９に示すように当該番組のチャンネル情報(「ＮＨＫ総合」等),日付情報および時刻情報等が付与されて語彙記憶部８８に登録するようにしている。
【０１３３】
したがって、上記音声認識装置８２に対して「ＮＨＫニュース」と発声された場合は、音響分析部８９で入力音声がベクトル系列に変換され、尤度計算部９０で上記ベクトル系列に基づいて各音韻の尤度が算出され、照合部９２で語彙記憶部８８の語彙との照合を行って「ＮＨＫニュース」という語彙として認識されると共に、認識語彙「ＮＨＫニュース」に付与されているチャンネル情報(ＮＨＫ総合),日付情報(５月５日)および時刻情報(５:００〜８:１５)が得られるのである。
【０１３４】
そうすると、上記制御部９６は、得られたチャンネル情報,日付情報および時刻情報に基づいて、テレビ表示部９７にテレビの表示を指示して、５月５日の午前５時に「ＮＨＫニュースおはよう日本」を表示させるのである。
【０１３５】
すなわち、本実施の形態によれば、テレビ番組情報から自動的に発声確率付きの発声単位を生成して適切な音声認識用辞書を作成することができる。つまり、図１８に示すようなテレビ番組情報から図ｌ９に示すような音声認識用辞書を自動的に作成することができる。したがって、テレビ番組の番組名「ＮＨＫニュースおはよう日本」を完全に発声しても、部分的に「ＮＨＫ」や「おはよう日本」や「ＮＨＫニュースおはよう」と発声しても正しく認識し、テレビ番組「ＮＨＫニュースおはよう日本」のチャンネル情報,日付情報および時刻情報を取得してテレビ表示部９７に表示することができるのである。
【０１３６】
尚、本実施の形態においては、上記番組名タグを用いる場合を例に上げて説明したが、用途に応じて様々な抽出条件を抽出条件格納部９５に格納しておくができる。例えば、録画を予約する場合は、現在の日付及び時間よりも先の番組が認識対象になるはずであるから、抽出条件格納部９５に「日付が本日以降(または、時間が現在時刻以降)の番組名を抽出する」等の抽出条件を格納しておくことも可能である。
【０１３７】
＜第７実施の形態＞
本実施の形態は、上記第６実施の形態の利用例に関し、音声リモコンによって情報家電機器を制御するシステムに関するものである。この情報家電機器音声リモコン制御システムは、図２０に示すような構成を有している。音声リモコン１０１は、マイク１０２,スピーカー１０３およびリモコン制御部１０４で構成される。そして、マイク１０２に音声が入力されると、リモコン制御部１０４によって、入力音声が通信回線１０５を経由して音声認識装置１０６に送出される。スピーカー１０３は、通信回線１０５を経由して音声認識装置１０６から送出されてくる認識結果等を音声で出力し、認識結果の確認等に用いられる。尚、通信回線１０５には、例えば赤外線等を用いる。
【０１３８】
音声認識装置１０６は、図１７に示す音声認識用辞書作成装置を搭載した音声認識装置の構成から制御部９６,テレビ表示部９７,録画部９８および再生部９９を削除した構成を有している。そして、通信回線１０５から音響分析部(図示せず)に入力された音声を認識し、認識結果を通信回線１０７を経由して情報家電機器１０８に送出する。その場合に、音声認識用辞書作成装置のテレビ番組情報取り込み部(図示せず)に入力されるテレビ番組情報は、通信回線１０７を経由して情報家電機器１０８から入力される。尚、通信回線１０７は、上述のごとく音声認識装置１０６と情報家電機器１０８とを繋ぐネットワークであり、有線や無線のＬＡＮ(ローカル・エリア・ネットワーク)等のネットワークである。具体的には、音声認識装置１０６をパーソナルコンピュータ、情報家電機器１０８をテレビと考えることができる。尚、本実施例においては、音声認識装置１０６と情報家電機器１０８とを通信回線１０７で繋ぐ構成にしているが、音声認識装置１０６を情報家電機器１０８内に組み込んでも一向に構わない。
【０１３９】
上記情報家電機器１０８は、上記通信回線１０７からの情報に基づいて各種制御を行う機器制御部１０９と、映像や音楽等の当該機器の出力情報となるメイン情報を記憶するメイン情報メモリ１１０と、映像の番組名や音楽のタイトル名等の上記メイン情報に関わるサブ情報を記憶するサブ情報メモリ１１１と、ディスプレイやスピーカー等を有して上記メイン情報を出力するメイン情報出力部１１２を搭載している。
【０１４０】
通信回線１１３は、上記情報家電機器１０８と屋外の情報提供センター１１４とを繋ぐネットワークであり、電話回線やケーブルテレビ回線等のネットワークおよびデジタル放送網である。情報提供センター１１４は、プロバイダーや放送局に相当するものであり、情報家電機器１０８に対して通信回線１１３を介してメイン情報を提供する。この情報提供センター１１４は、情報家電機器１０８に送出すべきメイン情報を記憶するメイン情報メモリ１１５と、メイン情報に関わるサブ情報を記憶するサブ情報メモリ１１６と、各メモリ１１５,１１６に対する各種情報の記憶や読み出しおよび読み出し情報の通信回線１１３への送出等の制御を行う制御部１１７を有している。
【０１４１】
上記構成を有する情報家電機器音声リモコン制御システムにおいては、音声リモコン(ワイヤレスマイク)１０１に入力された音声によってメイン情報を選択して、最寄の情報家電機器１０８で再生することができる。以下、家庭において音声リモコン１０１に向かって、例えば「ＮＨＫニュース」と発声してテレビ画面に「ＮＨＫニュース」を出力させる場合を例に、本情報家電機器音声リモコン制御システムの動作を、具体的に説明する。
【０１４２】
上記情報提供センター１１４が提供するメイン情報としてのテレビ映像情報およびサブ情報としてのテレビ番組情報は、通信回線１１３を経由して情報家電機器１０８に取り込まれ、機器制御部１０９によってテレビ番組情報がサブ情報メモリ１１１に格納される。そして、機器制御部１０９は、サブ情報メモリ１１１の記憶内容(テレビ番組情報)を通信回線１０７を経由して音声認識装置１０６に送出する。
【０１４３】
上記音声認識装置１０６は、受け取ったテレビ番組情報を上記音声認識用辞書作成装置のテレビ番組情報取り込み部に取り込んで、図１７の説明で述べたようにして文字列情報の抽出と音声認識用辞書の作成を行う。その結果、作成された音声認識用辞書には、図１９に示すようなテレビ番組指定用の認識語彙が発声確率とチャンネル情報,日付情報,時刻情報とが付与されて登録される。
【０１４４】
この状態で、上記音声リモコン１０１のマイク１０２に対して「ＮＨＫニュース」と発声されると、入力された音声は通信回線１０５を経由して音声認識装置１０６の音響分析部に取り込まれ、上述のようにして、ベクトル系列への変換,各音韻の尤度算出および上記音声認識用辞書との照合が行われ、「ＮＨＫニュース」という語彙として認識されると共に、認識語彙「ＮＨＫニュース」に付与されているチャンネル情報,日付情報および時刻情報が得られる。そして、これらの情報をコマンドとして通信回線１０７を経由して情報家電機器１０８に送信するのである。
【０１４５】
そうすると、上記情報家電機器１０８の機器制御部１０９は、受信したコマンドをサブ情報メモリ１１１の内容と照合して解釈し、上記日付情報および時刻情報による日付および時刻になると、上記チャンネル情報によるＮＨＫ総合の映像情報がメイン情報出力部１１２に出力されるのである。尚、受信したコマンドが録画コマンドである場合には、上記映像情報がメイン情報メモリ１１０に格納される。また、受信したコマンドが再生コマンドである場合には、メイン情報メモリ１１０に格納された上記映像情報が読み出されて、メイン情報出力部１１２に出力される。
【０１４６】
このように、本実施の形態によれば、上記音声認識装置１０６の音響分析部に対する音声入力を、音声リモコン１０１から赤外線等の通信回線１０５を経由して行うようにしている。したがって、情報家電機器音声制御システムの操作性を多いに向上できるのである。
【０１４７】
尚、図２０に示す情報家電機器音声リモコン制御システムは、上記音声認識装置１０６は図１７に示す音声認識装置であって、サブ情報としてテレビ番組情報が入力される場合を例に説明している。しかしながら、この発明はこれに限定されるものではなく、音声認識装置１０６を図１４に示す音声認識装置とし、サブ情報としてウエブページ情報を用いてもよい。あるいは、音声認識装置１０６を図１２に示す音声認識装置とし、サブ情報として一般のコンテンツ情報を用いてもよい。
【０１４８】
＜第８実施の形態＞
上記各実施の形態によれば、テキスト解析の結果得られる単語の組合せが異なる複数の連接単語で成る発声単位は、各発声単位間の音響的な類似度には何ら考慮することなく、認識語彙としてそのまま音声認識用辞書に登録している。したがって、ホームページのタイトルに「首相官邸のトップページ」と「司法省の主張」とがある場合に、発声「首相…」が「主張…」と誤認識されて「司法省の主張」のホームページが表示されてしまう場合がある。本実施の形態は、このような場合に対処するものである。
【０１４９】
図２１は、図６に示す音声認識用辞書作成装置を搭載した音声認識装置のブロック図である。音声認識用辞書作成装置１２１を構成するテキスト解析部１２３,読み付与部１２４,解析辞書メモリ１２５,発声確率計算部１２７および語彙記憶部１２８、音声認識装置１２２を構成する音響分析部１２９,尤度計算部１３０,音響モデル格納部１３１および照合部１３２は、上記第３の実施の形態におけるテキスト解析部２３,読み付与部２４,解析辞書メモリ２５,発声確率計算部２７,語彙記憶部２８,音響分析部２９,尤度計算部３０,音響モデル格納部３１および照合部３２と同じ構成を有している。そして、語彙記憶部１２８には、図９に示すように、発声確率が付与された認識語彙が格納されている。
【０１５０】
類似度計算部１３３は、語彙作成部１２６によって上記第３の実施の形態における語彙作成部２６と同様にして作成された任意の２つの発声単位の音響的な類似度を計算する。その結果、例えば発声単位「首相(しゅしょう)」と発声単位「主張(しゅちょう)」との方が、発声単位「首相(しゅしょう)」と発声単位「官邸(かんてい)」よりも音響的に類似していることが分る。尚、上記類似度の計算には様々な方法があるが、例えば一致する音素が幾つ存在するかに基づいて計算することで実現できる。
【０１５１】
そして、語彙作成部１２６は、上記発声確率計算部１２７で計算された各発声単位の発声確率値を、類似計算部１３３による類似度の計算結果を用いて変更するのである。
【０１５２】
ここで、ホームページのタイトルに「首相官邸のトップページ」と「司法省の主張」とがあるとする。テキスト解析部１２３から語彙作成部１２６までによる一連の処理によって、発声単位「首相(しゅしょう)」,「官邸(かんてい)」,「司法省(しほうしょう)」,「主張(しゅちょう)」等が発声確率と共に求められる。その場合、発声単位「首相」と発声単位「主張」との発声確率を比べると、前者の方が高い値が付与されることは、上記第２実施の形態で述べた通りである。しかしながら、発声単位「主張」もそれなりの発声確率を有しているため、そのまま語彙記憶部１２８に登録して音声認識用辞書とすると、発声「首相」が「主張」と誤認識されて「司法省の主張」のホームページが表示されてしまう恐れが多分にある。
【０１５３】
そこで、上記語彙作成部１２６は、類似度計算部１３３による類似度に基づいて、音響的に類似した２つの発声単位を検索する。そして、一方の発声単位がホームページタイトルにおいて中心的な役割を果たし、他方の発声単位がそうでない場合には、中心的な発声単位の発声確率を更に上げ、そうでない方の発声単位の発声確率を更に下げるのである。その場合、該当発声単位が中心的な役割を果たすか否かは、発声確率計算部１２７で与えられた確率値の大小で判断することができる。尚、その際に、発声確率値を如何様に変更するかは、特に規定するものではない。例えば、発声確率値の値に応じて変更量を設定してもよいし、類似度に基づいて変更量を設定してもよい。また、中心的にな役割を果たしていない発声単位の発声確率値を「０」に変更することも可能である。
【０１５４】
以上のように、本実施の形態においては、語彙作成部１２６によって生成された任意の２つの発声単位の類似度を類似度計算部１３３で計算し、音響的に類似した２つの発声単位が存在する場合には、語彙作成部１２６は、音響的に類似した２つの発声単位のうち中心的な役割でない発声単位の確率を低くするようにしている。したがって、本実施の形態によれば、上記中心的な役割を果たす発声単位を発声した際に、上記中心的な役割を果たしていない発声単位に誤認識されることを防止することができる。すなわち、本実施の形態によれば、さらに認識性能の高い音声認識装置を構築することができるのである。
【０１５５】
＜第９実施の形態＞
上記各実施の形態においては、語彙記憶部６,１７,２８,４８,６８,８８,１２８には、住所録やウエブページ情報やテレビ番組情報から生成された発声単位が認識用の語彙として登録されている。したがって、語彙記憶部６,１７,２８,４８,６８,８８,１２８は、登録されている住所やホームページのタイトルや番組名が発声された場合には高い認識率を示す。ところが、ユーザは、常に語彙記憶部６,１７,２８,４８,６８,８８,１２８に登録されている住所やタイトル名や番組名を発声するとは限らない。したがって、登録されていない住所やタイトル名や番組名が発声された場合の認識精度が、極端に低下するという問題が生ずることになる。本実施の形態は、このような場合に対処するものである。
【０１５６】
図２２は、本実施の形態における音声認識装置のブロック図である。音声認識装置１４１を構成する音響分析部１４２,尤度計算部１４３,音響モデル格納部１４４および第１語彙記憶部１４６は、上記第３の実施の形態における音声認識装置２２を構成する音響分析部２９,尤度計算部３０,音響モデル格納部３１および語彙記憶部２８と同じ構成を有している。そして、第１語彙記憶部１４６には、図１６に示すように、発声確率が付与されたホームページタイトル用の認識語彙が格納されているものとする。
【０１５７】
第２語彙記憶部１４７は、上述した各音声認識用辞書作成装置によって特定のテキストに基づいて作成されるのではなく、固定した一般的な語彙が登録された音声認識用辞書であり、第１語彙記憶部１４６と同様に照合部１４５によって照合される。つまり、第２語彙記憶部１４７は、第１語彙記憶部１４６は利用者が選択した語彙だけを登録しているのに対して、固定された一般的な語彙が登録されている点において異なるのである。
【０１５８】
上記照合部１４５は、第１語彙記憶部１４６および第２語彙記憶部１４７の語彙との照合を行い、第１語彙記憶部１４６に登録されている語彙が認識語彙であると判断した場合は、その語彙および当該語彙に付与されているサブ情報(ＵＲＬ)を認識結果として出力する。一方、第２語彙記憶部１４７に登録されている語彙が認識語彙であると判断した場合は、その語彙を認識結果として検索部１４８に送出する。そうすると、検索部１４８は、照合部１４５から受け取った認識結果に対応する文字列を、第１語彙記憶部１４６に登録されている語彙が住所録から生成された発声単位である場合には住所録から、ウエブページ情報から生成された発声単位である場合にはウエブページ情報から、テレビ番組情報から生成された発声単位である場合にはテレビ番組情報から検索する。選択部１４９は、検索部１４８が受け取った語彙(上記認識結果)と上記検索された文字列との中から、利用者が第１語彙記憶部１４６に登録する語彙情報と付与情報とを選択して第１語彙記憶部１４６に登録するためのものである。
【０１５９】
以下、上記第１語彙記憶部１４６に登録されている語彙はウエブページ情報から生成された発声単位である場合を例に、本実施の形態における音声認識装置の動作について説明する。その場合、本音声認識装置においては、第１語彙記憶部１４６に登録されている語彙を発声することで、認識結果に応じたウエブページを表示することができる。第１語彙記憶部１４６には、少なくとも認識語彙/読み方のペアと当該認識語彙に関する文字列 ( ＵＲＬ)とが対応付けられて登録されている。その場合、登録されている認識語彙は、上記第５実施の形態で述べた方法によって作成されたものでもよいし、利用者が自分で入力したものでもよい。何れしても、利用者がよく見るウエブページに限定して、それに関する認識語彙を登録したものが第１語彙記憶部１４６である。
【０１６０】
ところで、利用者が発声する語彙は常に第１語彙記憶部１４６にあるものだけであるとは限らない。そこで第１語彙記憶部１４６には無い語彙を発声した場合でも認識結果が得られるように、第２語彙記憶部１４７が設けられている。この第２語彙記憶部１４７には、利用者が登録した認識語彙だけではなく、一般に使用される任意の語彙が記憶されている。第１語彙記憶部１４６の登録内容が可変で一般にある範囲に限定された少数であるのに対して、第２語彙記憶部１４７の登録内容は固定で一般にある程度広い範囲にわたって大量である。
【０１６１】
上記照合部１４５は、認識時において第１語彙記憶部１４６の登録内容と照合するか第２語彙記憶部１５７の登録内容と照合するかを判断する。その方法に付いては特に限定するものではなく、例えば、先ず第１語彙記憶部１４６と照合を行い、認識尤度が十分高くない場合に第２語彙記憶部１４７との照合を行う方法でもよいし、第１語彙記憶部１４６と第２語彙記憶部１４７との両方で照合を行い、認識尤度の高い認識候補を認識結果とする方法でもよい。
【０１６２】
ここで、上記第１語彙記憶部１４６に図１６に示すような認識語彙/読み/発声確率/ＵＲＬの組が登録されている場合に、使用者が「佐藤」と発声したとする。その場合、第１記憶部１４６には読み「satou」は存在しないので、発声「佐藤」は認識されない。その場合には、第２語彙記憶部１４７との照合で「佐藤」という語彙が認識されることになる。こうして得られた認識結果「佐藤」は、検索部１４８に送出される。そして、検索部１４８によって、キーワード「佐藤」でウエブページの検索が行われる。尚、このウエブページの検索は、インターネットで普及している検索エンジンを用いることで実現できる。検索エンジンは、与えられたキーワードから、それに関連するウエブページのＵＲＬを探し出すプログラムである。一般に、探し出されるＵＲＬは複数個あり、検索エンジンはそれらを利用者に提示する。そして、選択部１４９は、利用者によって、検索部１４８による検索結果の中から所望の「佐藤さんのホームページ」のＵＲＬが選択されると、認識語彙「佐藤/satou」と「佐藤さんのホームページ」のＵＲＬとを関連付けて第１語彙記憶部１４６に登録するのである。
【０１６３】
こうして、上記第１語彙記憶部１４６に認識語彙「佐藤/satou」と「佐藤さんのホームページ」のＵＲＬとが登録されると、以降は検索や選択を行うことなく、「佐藤」と発声すれば直ちに所望のウエブページ「佐藤さんのホームページ」を見ることができるようになるのである。また、第１語彙記憶部１４６に対する新たな認識語彙の登録も、文字を入力したりすることなく、発声と選択部１４９による選択だけで簡単に行うことができるのである。
【０１６４】
上記各実施の形態における音声認識用辞書作成装置で作成された音声認識用辞書を用いる音声認識装置は、携帯電話や電子手帳等の携帯端末器に搭載することが有効である。すなわち、このような携帯端末器においては、操作指示を行う場合にはキー操作よりも発声による方が操作性がよい。ところが、出先等においては操作指示を行うための文言を予め決められている通りに正確に発声するのは困難であり、そのような場合に対処するための音声認識用辞書を利用者が作成するのは更に困難である。
【０１６５】
上記各実施の形態における音声認識用辞書作成装置によれば、一つの入力文字列から、総ての分割候補,総ての読み候補,総ての連接単語の組み合わせを考慮して、複数の発声単位でなる認識用語彙を自動的に生成できるため、予め設定された文字列の部分文字列を発声しても正しく認識できる音声認識用辞書を非常に簡単に作成することができる。したがって、このような音声認識用辞書を用いる音声認識装置を搭載することは、携帯端末器用の音声合成装置として非常に有効なのである。
【０１６６】
ところで、上記各実施の形態における上記テキスト解析部,読み付与部,語彙作成部,語彙記憶部,発声確率計算部,取り込み部,文字列情報抽出部および類似度計算部による上記解析手段,読み付与手段,語彙作成手段,語彙記憶手段,発声確率算出手段,取り込み手段,文字列情報抽出手段及び類似度算出手段としての機能は、プログラム記録媒体に記録された辞書作成処理プログラムによって実現される。上記実施の形態における上記プログラム記録媒体は、ＲＯＭ(リード・オンリ・メモリ)でなるプログラムメディアである。あるいは、外部補助記憶装置に装着されて読み出されるプログラムメディアであってもよい。尚、何れの場合においても、上記プログラムメディアから辞書作成処理プログラムを読み出すプログラム読み出し手段は、上記プログラムメディアに直接アクセスして読み出す構成を有していてもよいし、ＲＡＭ(ランダム・アクセス・メモリ)に設けられたプログラム記憶エリア(図示せず)にダウンロードし、上記プログラム記憶エリアにアクセスして読み出す構成を有していてもよい。尚、上記プログラムメディアからＲＡＭの上記プログラム記憶エリアにダウンロードするためのダウンロードプログラムは、予め本体装置に格納されているものとする。
【０１６７】
ここで、上記プログラムメディアとは、本体側と分離可能に構成され、磁気テープやカセットテープ等のテープ系、フロッピーディスク,ハードディスク等の磁気ディスクやＣＤ(コンパクトディスク)‐ＲＯＭ,ＭＯ(光磁気)ディスク,ＭＤ(ミニディスク),ＤＶＤ(ディジタルビデオディスク)等の光ディスクのディスク系、ＩＣ(集積回路)カードや光カード等のカード系、マスクＲＯＭ,ＥＰＲＯＭ（紫外線消去型ＲＯＭ),ＥＥＰＲＯＭ(電気的消去型ＲＯＭ),フラッシュＲＯＭ等の半導体メモリ系を含めた、固定的にプログラムを坦持する媒体である。
【０１６８】
また、上記各実施の形態における音声認識装置は、モデムを備えてインターネットを含む通信ネットワークと接続可能な構成を有していれば、上記プログラムメディアは、通信ネットワークからのダウンロード等によって流動的にプログラムを坦持する媒体であっても差し支えない。尚、その場合における上記通信ネットワークからダウンロードするためのダウンロードプログラムは、予め本体装置に格納されているものとする。あるいは、別の記録媒体からインストールされるものとする。
【０１６９】
尚、上記記録媒体に記録されるものはプログラムのみに限定されるものではなく、データも記録することが可能である。
【０１７０】
【発明の効果】
以上より明らかなように、第１の発明の音声認識用辞書作成装置は、一つの文字列情報から解析手段によって得られた１つ以上の分割候補および読み付与手段によって得られた１つ以上の読み候補に基づいて、語彙作成手段によって、総ての分割候補のうちの幾つかおよび上記分割候補を連接して成る総ての連接単語のうちの幾つかから成る発声単位と、総ての読み候補のうちの幾つかから成る読みとのペアを、認識語彙として語彙記憶手段によって登録するので、与えられた文字列情報から、発声の可能性がある発声単位を認識語彙とする音声認識用辞書を生成できる。したがって、利用者が、予め設定された文字列中のどの部分文字列を発声しても正しく認識するための音声認識用辞書を、低コストで作成することができる。
【０１７１】
また、上記第１の発明の音声認識用辞書作成装置は、発声確率算出手段によって、解析尤度,読み尤度,単語出現順序,モーラ数,単語出現頻度及びキーワード辞書照合結果の少なくとも一つを用いて上記生成された各発声単位の発声確率を計算し、上記語彙作成手段によって、上記各発声単位でなる認識語彙を、上記発声確率を付与して上記語彙記憶手段に記憶させれば、上記音声認識用辞書中に、上記解析手段による誤解析の結果生成された認識語彙や実際には発声されない認識語彙が登録されていても、このような不要な認識語彙の発声確率を小さく設定して、高い認識精度を実現できる音声認識用辞書を作成できる。
【０１７２】
また、上記第１の発明の音声認識用辞書作成装置は、文字列情報を含むコンテンツを取り込む取り込み手段と、辞書作成に必要な文字列情報の抽出条件が格納された抽出条件格納手段と、上記抽出条件を参照して上記コンテンツから文字列情報を抽出して上記解析手段に送出する文字列情報抽出手段を備えれば、上記コンテンツ情報から自動的に上記音声認識用辞書を作成することができる。
【０１７３】
また、上記第１の発明の音声認識用辞書作成装置は、上記取り込み手段を、上記コンテンツとしてウエブページの情報を取り込むように成せば、上記抽出条件格納手段に、例えば、「＜title＞タグが存在する場合は＜title＞と＜/title＞とで囲まれた文字列を抽出する」を格納しておくことによって、ウエブページのタイトル「＜title＞首相官邸のトップページ＜/title＞」から文字列「首相官邸のトップページ」を抽出して上記音声認識用辞書を自動的に作成できる。
【０１７４】
また、上記第１の発明の音声認識用辞書作成装置は、上記取り込手段を、上記コンテンツとしてテレビ番組の情報を取り込むように成せば、上記抽出条件格納手段に、例えば、「番組名というタグが付いている文字列を抽出する」を格納しておくことによって、タグ「番組名」に該当する文字列「ＮＨＫニュースおはよう日本」を抽出して上記音声認識用辞書を自動的に作成できる。
【０１７５】
また、上記第１の発明の音声認識用辞書作成装置は、上記語彙作成手段で生成された各発声単位間の音響的な類似度を計算する類似度算出手段を備え、上記語彙作成手段によって、上記各認識語彙に付与する発声確率を上記類似度に応じて変更するように成せば、発声単位「首相(しゅしょう)」と発声単位「主張(しゅちょう)」とが音響的に類似している場合には、例えば、上記発声確率の値が高くて入力文字列中において中心的な役割を果している発声単位「首相」の発声確率の値を更に高める一方、そうでない発声単位「主張」の発声確率の値を更に低めることによって、中心的な役割を果す発声「首相」が「主張」と誤認識されることを防止できる。
【０１７６】
また、第２の発明の音声認識用辞書作成方法は、入力された文字列情報を解析して構成単語に分割し、１つ以上の分割候補を出力するステップと、上記分割された各構成単語に読みを付与して１つ以上の読み候補を出力するステップと、上記分割候補および読み候補に基づいて、総ての分割候補のうちの幾つかおよび上記分割候補を連接して成る総ての連接単語のうちの幾つかから成る発声単位と、総ての読み候補のうちの幾つかから成る読みとのペアを、認識語彙として生成するステップと、上記生成された各認識語彙を音声認識用辞書として記憶するステップを備えたので、上記第１の発明の場合と同様に、与えられた文字列情報から、発声の可能性がある発声単位を認識語彙とする音声認識用辞書を生成できる。したがって、予め設定された文字列中のどの部分文字列を発声しても正しく認識するための音声認識用辞書を作成することができる。
【０１７７】
また、第３の発明の音声認識装置は、照合用の辞書として、上記第１の発明の音声認識用辞書作成装置によって作成された音声認識用辞書を用いるので、与えられた文字列情報から生成された発声の可能性がある発声単位を認識語彙とする音声認識用辞書を用いることによって、予め設定された文字列の部分文字列を発声しても正しく認識することができる。
【０１７８】
また、上記第３の発明の音声認識装置は、上記ウエブページの情報を取り込む音声認識用辞書作成装置によって作成された音声認識用辞書を上記辞書として用い、制御手段によって、認識結果に基づいてウエブページ表示手段の表示内容を切換え制御して、上記認識結果に応じたウエブページを表示するようにすれば、発声内容に応じたウエブページを正しく表示することができる。
【０１７９】
また、上記第３の発明の音声認識装置は、上記テレビ番組の情報を取り込む音声認識用辞書作成装置によって作成された音声認識用辞書を上記辞書として用い、制御手段によって、認識結果に基づいてテレビ表示手段,録画手段および再生手段を制御するようにすれば、発声内容に応じて表示チャンネルの切換え,録画条件の設定または録画番組の再生を正しく行うことができる。
【０１８０】
また、上記第３の発明の音声認識装置は、上記第１の発明の音声認識用辞書作成装置によらずに作成された補助辞書を備えて、照合手段によって上記辞書および補助辞書との照合を行うようにすれば、上記辞書に登録されていない語彙を発声した場合でも、その語彙を正しく認識することができる。さらに、上記照合の結果、認識結果として、上記補助辞書の認識語彙が選択された場合には、検索手段によって、上記音声認識用辞書作成装置に入力された例えばウエブページのタイトルに関連するウエブページ情報の中から当該認識結果に該当する文字列を検索し、選択手段によって、上記検索された複数の文字列の中から上記辞書に登録する文字列を選択すれば、その文字列を上記辞書に登録することによって認識語彙を増やすことができ、認識速度を向上できるのである。
【０１８１】
また、第４の発明の音声認識装置は、上記第１の発明の音声認識用辞書作成装置を搭載し、上記音声認識用辞書作成装置によって作成された音声認識用辞書を上記照合用の辞書として用いるので、上記搭載された音声認識用辞書作成装置に文字列情報を入力することによって、予め設定された文字列中のどの部分文字列を発声しても正しく認識するための音声認識用辞書を自動的に作成できる。したがって、高い認識精度を得ることができる。
【０１８２】
また、第５の発明の携帯端末器は、上記第３,第４の発明の音声認識装置を搭載したので、出先等において、操作指示を行うための文言を予め決められている通りに正確に発声しなくとも、例えばホームページの音声呼び出し等を正しく行うことができる。
【０１８３】
また、第６の発明のプログラム記録媒体は、コンピュータを、上記第１の発明における解析手段,読み付与手段,語彙作成手段および語彙記憶手段として機能させる辞書作成処理プログラムが記録されているので、上記第１の発明の場合と同様に、読みが付与された１つまたは複数の発声単位を生成し、認識語彙として登録することができる。したがって、予め設定された文字列中のどの部分文字列を発声しても正しく認識するための音声認識用辞書を作成することができる。
【図面の簡単な説明】
【図１】この発明の音声認識用辞書作成装置におけるブロック図である。
【図２】図１に示す音声認識用辞書作成装置によって実行される辞書作成処理動作のフローチャートである。
【図３】図１におけるテキスト解析部の出力結果の一例を示す図である。
【図４】図４における読み付与部による読み付与結果の一例をを示す図である。
【図５】図１に示す語彙記憶部に作成される音声認識用辞書の一例を示す図である。
【図６】図１とは異なる音声認識用辞書作成装置におけるブロック図である。
【図７】図６におけるテキスト解析部の出力結果の一例を示す図である。
【図８】図６における読み付与部の出力結果の一例を示す図である。
【図９】図６における語彙作成部の出力結果の一例を示す図である。
【図１０】モーラ数ｉを変数とする関数ｍ(i)の概念を示す図である。
【図１１】図６に示す音声認識用辞書作成装置を搭載した音声認識装置のブロック図である。
【図１２】音声認識用辞書作成装置を搭載した図１１とは異なる音声認識装置のブロック図である。
【図１３】図１２における取り込み部および文字列情報抽出部によって行われる文字列情報抽出処理動作のフローチャートである。
【図１４】音声認識用辞書作成装置を搭載した図１１および図１２とは異なる音声認識装置のブロック図である。
【図１５】ウエブページ情報の一例を示す図である。
【図１６】図１４における語彙記憶部に作成される音声認識用辞書の一例を示す概念図である。
【図１７】音声認識用辞書作成装置を搭載した図１１,図１２および図１４とは異なる音声認識装置のブロック図である。
【図１８】テレビ番組情報の一例を示す図である。
【図１９】図１７における語彙記憶部に作成される音声認識用辞書の一例を示す概念図である。
【図２０】情報家電機器音声リモコン制御システムのブロック図である。
【図２１】音声認識用辞書作成装置を搭載した図１１,図１２,図１４および図１７とは異なる音声認識装置のブロック図である。
【図２２】音声認識装置のブロック図である。
【符号の説明】
１,１１…解析処理部、
２,１２,２３,４３,６３,８３,１２３…テキスト解析部、
３,１３,２４,４４,６４,８４,１２４…読み付与部、
４,１４,２５,４５,６５,８５,１２５…解析辞書メモリ、
５,１５,２６,４６,６６,８６,１２６…語彙作成部、
６,１７,２８,４８,６８,８８,１２８…語彙記憶部、
１６,２７,４７,６７,８７,１２７…発声確率計算部、
２１,４１,６１,８１,１２１…音声認識用辞書作成装置、
２２,４２,６２,８２,１０６,１２２,１４１…音声認識装置、
２９,４９,６９,８９,１２９,１４２…音響分析部
３０,５０,７０,９０,１３０,１４３…尤度計算部、
３１,５１,７１,９１,１３１,１４４…音響モデル格納部、
３２,５２,７２,９２,１３２,１４５…照合部、
５３…取り込み部、
５４,７４,９４…文字列情報抽出部、
５５,７５,９５…抽出条件格納部、
７３…ウエブページ情報取り込み部、
７６,９６,１１７…制御部、
７７…ウエブページ表示部、
９３…テレビ番組情報取り込み部、
９７…テレビ表示部、
９８…録画部、
９９…再生部、
１０１…音声リモコン、
１０２…マイク、
１０３…スピーカー、
１０４…リモコン制御部、
１０５,１０７,１１３…通信回線、
１０８…情報家電機器、
１０９…機器制御部、
１１０,１１５…メイン情報メモリ、
１１１,１１６…サブ情報メモリ、
１１２…メイン情報出力部、
１１４…情報提供センター、
１３３…類似度計算部、
１４６…第１語彙記憶部、
１４７…第２語彙記憶部、
１４８…検索部、
１４９…選択部。

Claims

文字列を表す文字列情報が入力されると共に、この入力された文字列情報を解析して構成単語に分割し、１つ以上の分割候補を出力する解析手段と、
上記分割された各構成単語に読みを付与し、１つ以上の読み候補を出力する読み付与手段と、
上記解析手段によって得られた分割候補および上記読み付与手段によって得られた読み候補に基づいて、総ての分割候補のうちの幾つかおよび上記分割候補を連接して成る総ての連接単語のうちの幾つかから成る発声単位と、総ての読み候補のうちの幾つかから成る読みとのペアを、認識語彙として生成する語彙作成手段と、
上記生成された各認識語彙を音声認識用辞書として記憶する語彙記憶手段を
備えたことを特徴とする音声認識用辞書作成装置。
請求項１に記載の音声認識用辞書作成装置において、
上記解析手段は、上記分割された構成単語の列でなる各解析候補に、上記入力文字列の解析結果としての確からしさを表す解析尤度を付与するようになっており、
上記読み付与手段は、上記各解析候補を構成する単語に付与されている読みの列に、上記入力文字列の読みとしての確からしさを表す読み尤度を付与するようになっており、
上記語彙作成手段によって生成された各発声単位が存在する解析候補の上記解析尤度、上記各発声単位が存在する解析候補の上記読み尤度、上記各発声単位を構成する先頭単語の上記入力文字列中における出現順序を表す単語出現順序、上記各発声単位のモーラ数、上記各発声単位を構成する単語のうちで入力される総ての文字列中に最も少なく出現する単語の出現頻度を表す単語出現頻度、キーワード辞書照合結果の少なくとも一つを用いて、上記生成された各発声単位の発声確率を計算する発声確率算出手段を備えて、
上記語彙作成手段は、上記各発声単位でなる認識語彙を、上記算出された発声確率を付与して上記語彙記憶手段に記憶させるようになっている
ことを特徴とする音声認識用辞書作成装置。
請求項１あるいは請求項２に記載の音声認識用辞書作成装置において、
文字列情報を含むコンテンツを取り込む取り込み手段と、
辞書作成に必要な文字列情報を抽出するための抽出条件が格納された抽出条件格納手段と、
上記抽出条件を参照して、上記取り込まれたコンテンツにおける文字列情報の中から辞書作成に必要な文字列情報を抽出して上記解析手段に送出する文字列情報抽出手段
を備えたことを特徴とする音声認識用辞書作成装置。
請求項３に記載の音声認識用辞書作成装置において、
上記取り込み手段は、上記コンテンツとして、ウエブ・ブラウザによって表示されているウエブページの情報を取り込むようになっていることを特徴とする音声認識用辞書作成装置。
請求項３に記載の音声認識用辞書作成装置において、
上記取り込み手段は、上記コンテンツとして、テレビ番組の情報を取り込むようになっていることを特徴とする音声認識用辞書作成装置。
請求項２に記載の音声認識用辞書作成装置において、
上記語彙作成手段によって生成された各発声単位間の音響的な類似度を計算する類似度算出手段を備えて、
上記語彙作成手段は、上記各認識語彙に付与する発声確率を、上記算出された類似度に応じて変更するようになっていることを特徴とする音声認識用辞書作成装置。
文字列を表す文字列情報が入力されると共に、この入力された文字列情報を解析して構成単語に分割し、１つ以上の分割候補を出力するステップと、
上記分割された各構成単語に読みを付与し、１つ以上の読み候補を出力するステップと、
上記単語分割の結果得られた分割候補および上記読み付与の結果得られた読み候補に基づいて、総ての分割候補のうちの幾つかおよび上記分割候補を連接して成る総ての連接単語のうちの幾つかから成る発声単位と、総ての読み候補のうちの幾つかから成る読みとのペアを、認識語彙として生成するステップと、
上記生成された各認識語彙を音声認識用辞書として記憶するステップ
を備えたことを特徴とする音声認識用辞書作成方法。
入力された音声を、辞書に登録されている認識語彙との照合を行って認識する音声認識装置であって、
上記辞書として、請求項１乃至請求項６の何れか一つに記載の音声認識用辞書作成装置によって作成された音声認識用辞書を用いることを特徴とする音声認識装置。
請求項８に記載された音声認識装置であって、
上記辞書は、請求項４に記載の音声認識用辞書作成装置によって作成された音声認識用辞書であり、
認識結果に応じたウエブページを表示するウエブページ表示手段と、
上記認識結果に基づいて、上記ウエブページ表示手段の表示内容を切換え制御する制御手段
を備えたことを特徴とする音声認識装置。
請求項８に記載された音声認識装置であって、
上記辞書は、請求項５に記載の音声認識用辞書作成装置によって作成された音声認識用辞書であり、
認識結果に応じたテレビ番組を表示するテレビ表示手段と、
認識結果に応じたテレビ番組を録画する録画手段と、
上記録画手段によって録画されたテレビ番組を再生する再生手段と、
上記認識結果に基づいて、上記テレビ表示手段,録画手段および再生手段を制御して、表示チャンネルの切換え,録画条件の設定あるいは録画番組の再生を行う制御手段を
備えたことを特徴とする音声認識装置。
請求項８に記載された音声認識装置において、
特定の文字列情報の解析結果によらずに得られた認識語彙が登録された補助辞書と、
上記辞書および補助辞書との照合を行う照合手段と、
上記照合手段によって、上記認識結果として上記補助辞書に登録された認識語彙が選択された場合、上記辞書を作成する際に上記音声認識用辞書作成装置に入力された文字列情報の中から当該認識結果に該当する文字列を検索する検索手段と、
上記検索された複数の文字列の中から、上記辞書に登録する文字列を選択する選択手段を備えたことを特徴とする音声認識装置。
入力された音声を、辞書に登録されている認識語彙との照合を行って認識する音声認識装置であって、
請求項１乃至請求項６のいずれか一つに記載の音声認識用辞書作成装置を搭載し、
上記音声認識用辞書作成装置によって作成された音声認識用辞書を、上記辞書として用いる
ことを特徴とする音声認識装置。
請求項８乃至請求項１２の何れか一つに記載された音声認識装置を搭載したことを特徴とする携帯端末器。
コンピュータを、
請求項１における解析手段,読み付与手段,語彙作成手段および語彙記憶手段
として機能させる辞書作成処理プログラムが記録されたことを特徴とするコンピュータ読出し可能なプログラム記録媒体。