JP3762327B2

JP3762327B2 - 音声認識方法および音声認識装置および音声認識プログラム

Info

Publication number: JP3762327B2
Application number: JP2002122861A
Authority: JP
Inventors: 哲朗知野
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2002-04-24
Filing date: 2002-04-24
Publication date: 2006-04-05
Anticipated expiration: 2022-04-24
Also published as: US20030216912A1; JP2003316386A; CN1453766A; CN1252675C

Description

【０００１】
【発明の属する技術分野】
本発明は、音声認識方法及び装置に関する。
【０００２】
【従来の技術】
近年、音声入力を用いたヒューマンインタフェースの実用化が徐々に進んでいる。例えば，ユーザがあらかじめ設定されている特定のコマンドを音声入力し、これをシステムが認識して、認識結果に対応する操作をシステムが自動的に実行することによって、音声でシステムを利用することが出来るようにした音声操作システム、ユーザが任意の文章を発声し、これをシステムが分析して、文字列に変換することによって、音声入力による文章の作成を可能とするシステム、ユーザとシステムが話し言葉でインタラクションすることを可能とするための音声対話システムなどが開発され、その内の一部は既に利用されてはじめている。
【０００３】
従来、ユーザから発声された音声信号をマイクロフォンなどによってシステムに取り込み、電気信号に変えた後、Ａ／Ｄ（アナログデジタル）変換装置などを用いて、微小な時間単位毎に標本化してたとえば波形振幅の時間系列などのデジタルデータへと変換する。このデジタルデータに対して、例えばＦＦＴ（高速フーリエ変換）分析などの手法を適用することによって、例えば周波数の時間変化などを分析することで、発声された音声信号の特徴データを抽出する。続いて行われる認識処理では、あらかじめ辞書として用意されている例えば音素の標準パターンと、単語辞書の音素記号系列との間での単語の類似度を計算する。すなわち、ＨＭＭ（隠れマルコフモデル）手法、あるいはＤＰ（ダイナミックプログラミング）手法、あるいはＮＮ（ニューラルネットワーク）手法などを用いて、入力音声から抽出した特徴データと標準パターンとを比較照合し、音素認識結果と単語辞書の音素記号系列との間での単語の類似度を計算して入力発声に対する認識候補を生成する。さらに、認識精度をたかめるために、生成された認識候補に対して、例えばｎ−ｇｒａｍなどに代表される統計的な言語モデルを利用して最も確からしい候補を推定選択することなどによって、入力発声を認識するようにしている。
【０００４】
【発明が解決しようとする課題】
ところが、上述した従来方式には以下に示すような問題点がある。
【０００５】
まず、音声認識では、１００％誤り無く認識を行うことは非常に困難であり、それは限りなく不可能に近いという言う問題がある。
【０００６】
この原因としては，以下のような場合を挙げることが出来る。つまり、音声入力が行われる環境に存在する雑音などが理由となって、音声区間の切りだし誤りに失敗したり、あるいは声質や、音量、発声速度、発生様式、方言などといったユーザ間の個人差の為や、発声方法や発声の様式によって、入力音声の波形が変形する為などの理由で認識結果の照合に失敗したり、あるいは、システムに用意されていない未知語をユーザが発声することによって、認識に失敗したり、あるいは、音響的に類似した単語であると誤って認識されたり、あるいは用意されている標準パターンや統計的言語モデルの不完全さのために、誤った単語に誤認識されたり、あるいは照合処理の過程で、計算負荷を軽減する為に候補の絞込みが行われることで本来必要な候補が誤って枝狩りされて誤認識が起こったり、あるいはユーザの言い誤りや、言いなおし、あるいは話し言葉の非文法性などが原因となり、本来入力したい文の入力が正しく認識されなかったりする。
【０００７】
また、発声が長い文である場合には，その中に多くの要素が含まれる為、その一部が誤って認識されて、全体としては誤りと成ることがしばしば起こるという問題がある。
【０００８】
また、認識誤りが起こった際には、誤動作が誘発され、この誤動作の影響の排除あるいは復元などが必要になり、ユーザに負担がかかるという問題がある。
【０００９】
また、認識誤りが発生した際には、ユーザが何度も同じ入力を繰り返す必要があり負担になるという問題がある。
【００１０】
また、誤認識され正しく入力できない文を修正する為に、例えばキーボード操作が必要になって、音声入力のハンズフリー性という特性が無効になるという問題がある。
【００１１】
また、音声を正しく入力しようとして、ユーザに心理的負担がかかり、手軽さと言う音声入力のメリットが相殺されるという問題がある。
【００１２】
このように、音声認識では、誤認識の発生を１００％避けることが出来ないため、従来の手段では、ユーザが入力したい文をシステムに入力できない場合があったり、ユーザが何度も同じ発声を繰り返す必要があったり、誤り訂正の為のキーボード操作が必要となったりすることで、ユーザの負担が増加したり、ハンズフリー性や、手軽さといった音声入力の本来の利点が得られないという問題があった。
【００１３】
また、訂正発話を検出するものとして「目的地設定タスクにおける訂正発話の特徴分析と検出への応用，日本音響学会講演論文集，２００１年１０月」が知られているが、この文献に記載の技術は目的地設定という特定のタスクを想定した音声認識システムに過ぎない。
【００１４】
そこで本発明は上記問題点に鑑みなされたもので、入力音声に対する誤認識をユーザの負担をかけずに訂正することができる音声認識方法およびそれを用いた音声認識装置および音声認識プログラムを提供することを目的とする。
【００１５】
【課題を解決するための手段】
本発明は、デジタルデータに変換された話者の入力音声から音声認識のための特徴情報を抽出し、この特徴情報を基に当該入力音声に対応する複数の音素列あるいは文字列を認識候補として求め、当該認識候補の中から当該入力音声に最も確からしい複数の音素列あるいは文字列を選択して、認識結果を求めるものであって、入力された２つの入力音声のうち先に入力された第１の入力音声と、この第１の入力音声の認識結果を訂正するために入力された第２の入力音声とのそれぞれから、少なくとも当該２つの入力音声の間で前記特徴情報が所定時間継続して類似する部分を類似部分として検出し、前記第２の入力音声の認識結果を求める際には、当該第２の入力音声の前記類似部分に対応する認識候補の複数の音素列あるいは文字列から、前記第１の入力音声の前記認識結果のうち当該類似部分に対応する音素列あるいは文字列を削除し、その結果としての前記第２の入力音声に対応する認識候補の中から当該第２の入力音声に最も確からしい複数の音素列あるいは文字列を選択して、当該第２の入力音声の認識結果を求めることを特徴とする。
【００１６】
本発明によれば、ユーザは最初の入力音声（第１の入力音声）に対する認識結果に誤りがあれば、それを訂正する目的で発声し直すだけで、入力音声に対する誤認識をユーザに負担をかけずに容易に訂正することができる。すなわち、最初の入力音声に対する言い直しの入力音声（第２の入力音声）の認識候補から最初の入力音声の認識結果中の誤認識の可能性の高い部分（第２の入力音声との類似部分（類似区間））の音素列あるいは文字列を排除することにより、第２の入力音声に対する認識結果が第１の入力音声に対する認識結果と同じになることが極力避けられ、従って何度言い直しても同じような認識結果になるということがなくなる。従って、入力音声の認識結果を高速にしかも高精度に訂正することができる。
【００１７】
本発明は、デジタルデータに変換された話者の入力音声から音声認識のための特徴情報を抽出し、この特徴情報を基に当該入力音声に対応する複数の音素列あるいは文字列を認識候補として求め、当該認識候補の中から当該入力音声に最も確からしい複数の音素列あるいは文字列を選択して、認識結果を求めるものであって、入力された２つの入力音声のうち先に入力された第１の入力音声の認識結果を訂正するために入力された第２の入力音声に対応する前記デジタルデータを基に当該第２の入力音声の韻律的な特徴を抽出して、当該韻律的な特徴から当該第２の入力音声中の前記話者が強調して発声した部分を強調部分として検出し、前記第１の入力音声の前記認識結果のうち前記第２の入力音声から検出された前記強調部分に対応する部分の音素列あるいは文字列を、前記第２の入力音声の前記強調部分に対応する認識候補の複数の音素列あるいは文字列のうち当該強調部分に最も確からしい音素列あるいは文字列で置き換えて、前記第１の入力音声の認識結果を訂正することを特徴とする。
【００１８】
好ましくは、前記第２の入力音声の発声速度、発声強度、周波数変化であるピッチ、ポーズの出現頻度、声質のうちの少なくとも１つの韻律的な特徴を抽出して、当該韻律的な特徴から当該第２の入力音声中の前記強調部分を検出する。
【００１９】
本発明によれば、ユーザは最初の入力音声（第１の入力音声）に対する認識結果に誤りがあれば、それを訂正する目的で発声し直すだけで、入力音声に対する誤認識をユーザに負担をかけずに容易に訂正することができる。すなわち、最初の入力音声（第１の入力音声）に対する言い直しの入力音声（第２の入力音声）を入力する際、ユーザは当該第１の入力音声の認識結果中の訂正したい部分を強調して発声すればよく、これにより、当該第２の入力音声中の当該強調部分（強調区間）に最も確からしい音素列あるいは文字列で、第１の入力音声の認識結果のうち訂正すべき音素列あるいは文字列を書き換えて当該第１の入力音声の認識結果中の誤り部分（音素列あるいは文字列）訂正する。従って、従って何度言い直しても同じような認識結果になるということがなくなり、入力音声の認識結果を高速にしかも高精度に訂正することができる。
【００２０】
本発明の音声認識装置は、話者の音声を入力してデジタルデータに変換する音声入力手段と、前記デジタルデータから音声認識のための特徴情報を抽出する抽出手段と、前記特徴情報を基に、前記音声入力手段で入力された音声に対応する複数の音素列あるいは文字列を認識候補として求める候補生成手段と、前記認識候補の中から、前記入力された音声に最も確からしい複数の音素列あるいは文字列を選択して、認識結果を求める認識結果生成手段とを具備し、前記認識結果生成手段は、前記音声入力手段で連続して入力された２つの音声のうち先に入力された第１の音声と次に入力された第２の音声とのそれぞれから、少なくとも前記２つの音声の間で前記特徴情報が所定時間継続して類似する部分を類似部分として検出する第１の検出手段と、この第１の検出手段で前記類似部分が検出されたとき、前記第２の音声の当該類似部分に対応する認識候補の複数の音素列あるいは文字列から、前記第１の音声の前記認識結果の当該類似部分に対応する音素列あるいは文字列を削除し、その結果としての前記第１の音声に対応する認識候補の中から当該第１の音声に最も確からしい複数の音素列あるいは文字列を選択して、当該第１の音声の認識結果を生成する第１の生成手段と、前記第１の検出手段で前記類似部分が検出されなかっとき、前記候補生成手段で生成された前記第１の音声に対応する認識候補の中から当該第１の音声に最も確からしい複数の音素列あるいは文字列を選択して、当該第１の音声の認識結果を生成する第２の生成手段とを具備したことを特徴とする。
【００２１】
また、上記音声認識装置の前記認識結果生成手段は、さらに、前記第２の音声に対応する前記デジタルデータを基に当該第２の音声の韻律的な特徴を抽出して、当該韻律的な特徴から当該第２の音声中の前記話者が強調して発声した部分を強調部分として検出する第２の検出手段と、前記第１の検出手段で前記類似部分が検出され、しかも、前記第２の検出手段で前記強調部分が検出されたとき、前記第１の音声の前記認識結果のうち前記第２の音声から検出された前記強調部分に対応する音素列あるいは文字列を、前記第２の音声の前記強調部分に対応する認識候補の複数の音素列あるいは文字列のうち当該強調部分に最も確からしい音素列あるいは文字列で置き換えて、前記第１の音声の認識結果を訂正する訂正手段とを具備したことを特徴とする。
【００２２】
また、前記訂正手段は、前記第２の音声の前記類似部分以外の部分に占める前記強調部分の割合が予め定められた閾値以上あるいは当該閾値より大きいとき、前記第１の音声の認識結果を訂正することを特徴とする。
【００２３】
また、前記第１の検出手段は、前記２つの音声のそれぞれの前記特徴情報と、当該２つの音声のそれぞれの発声速度、発声強度、周波数変化であるピッチ、ポーズの出現頻度、声質のうちの少なくとも１つの韻律的な特徴を基に、前記類似部分を検出することを特徴とする。
【００２４】
また、前記第２の検出手段は、前記第２の音声の発声速度、発声強度、周波数変化であるピッチ、ポーズの出現頻度、声質のうちの少なくとも１つの韻律的な特徴を抽出して、当該韻律的な特徴から当該第２の音声中の前記強調部分を検出することを特徴とする。
【００２５】
【発明の実施の形態】
以下、本発明の実施形態について図面を参照して説明する。
【００２６】
図１は、本発明の音声認識方法およびそれを用いた音声認識装置を適用した本実施形態に係る音声インタフェース装置の構成例を示したもので、入力部１０１、分析部１０２、照合部１０３、辞書記憶部１０４、制御部１０５、履歴記憶部１０６、対応検出部１０７、および強調検出部１０８から構成されている。
【００２７】
図１において、入力部１０１は、制御部１０５の指示に従って、ユーザからの音声を取りこみ、電気信号に変換した後、Ａ／Ｄ（アナログデジタル）変換し、ＰＣＭ（パルスコードモジュレーション）形式などによるデジタルデータに変換し出力するようになっている。なお、入力部１０１での上記処理は、従来の音声信号のデジタル化処理と同様の処理によって実現することができる。
【００２８】
分析部１０２は、制御部１０５の指示に従って、入力部１０１から出力されたデジタルデータを受取り、ＦＦＴ（高速フーリエ変換）などの処理による周波数分析などを行って，入力音声の所定区間（例えば、音素単位あるいは単語単位など）毎に、各区間についての音声認識のために必要な特徴情報（例えばスペクトルなど）を時系列に出力するようになっている。なお分析部１０２での上記処理は、従来の音声分析処理と同様の処理によって実現することができる。
【００２９】
照合部１０３は、制御部１０５の指示にしたがって、分析部１０２から出力された特徴情報を受取り、辞書記憶部１０４に記憶されている辞書を参照して照合を行い，入力音声の所定区間（例えば、音素あるいは音節あるいはアクセント句などの音素列単位、あるいは単語単位などの文字列単位など）毎の認識候補との類似度を計算して、例えば、類似度をスコアとしたとき、当該スコア付きのラティス（ｌａｔｔｉｃｅ）形式で、文字列あるいは音素列の複数の認識候補を出力するようにしている。なお、照合部１０３での上記処理は、ＨＭＭ（隠れマルコフモデル）や、ＤＰ（ダイナミックプログラミング）、あるいはＮＮ（ニューラルネットワーク）など、従来の音声認識処理と同様の処理によって実現することができる。
【００３０】
辞書記憶部１０４には、音素や単語などの標準パターンなどが、照合部１０３で実施される上記照合処理の際に参照する辞書として利用できるように記憶されている。
【００３１】
以上の入力部１０１、分析部１０２、照合部１０３、辞書記憶部１０４と制御部１０５とから、音声インタフェース装置として従来からある基本的な機能が実現するようになっている。すなわち、制御部１０５の制御の下、図１に示した音声インタフェース装置は、入力部１０１でユーザ（話者）の音声を取りこんでデジタルデータに変換し、分析部１０２で当該デジタルデータを分析して特徴情報を抽出し、照合部１０３では、当該特徴情報と辞書記憶部１０４に記憶されている辞書との照合を行い、入力部１０１から入力した音声に対する少なくとも１つの認識候補を、その類似度とともに出力する。照合部１０３は、制御部１０５の制御の下、通常は、当該出力された認識候補の中からその類似度などを基に当該入力した音声に最も確からしいものを認識結果として採用（選択）する。
【００３２】
認識結果は、フィードバックされて例えば文字や音声の形でユーザに表示したり、音声インタフェースの背後にあるアプリケーションなどへ出力したりする。
【００３３】
履歴記憶部１０６、対応検出部１０７、強調検出部１０８は、本実施形態に特徴的な構成部である。
【００３４】
履歴記憶部１０６は、各入力音声について、入力部１０１で求めた当該入力音声に対応するデジタルデータ、分析部１０２で当該入力音声から抽出された特徴情報、照合部１０３で得られる当該入力音声に対する認識候補や認識結果に関する情報などを、当該入力音声についての履歴情報として記録するようになっている。
【００３５】
対応検出部１０７は、履歴記憶部１０６に記録された、連続して入力された２つの入力音声の履歴情報を基に、両者の間の類似部分（類似区間）、相違部分（不一致区間）を検出するようになっている。なお、ここでの類似区間、不一致区間の判定は，２つの入力音声のそれぞれの履歴情報に含まれる、デジタルデータや、そこから抽出された特徴情報、さらに特徴情報に対するＤＰ（ダイナミックプログラミング）処理などにより求められた各認識候補についての類似度などから判定するようになっている。
【００３６】
例えば、対応検出部１０７では、２つの入力音声の所定区間（例えば、音素、音節、アクセント句などの音素列単位、あるいは単語などの文字列単位など）毎のデジタルデータから抽出された特徴情報と、それらの認識候補などから、類似する音素列や単語などの文字列を発声したと推定される区間が、類似区間として検出される。また、逆に、当該２つの入力音声間で類似区間と判定されなかった区間は、不一致区間となる。
【００３７】
例えば、連続して入力した２つの時系列信号としての入力音声の所定区間（例えば、音素列単位あるいは文字列単位）毎のデジタルデータから音声認識のために抽出された特徴情報（例えば、スペクトルなど）が予め定められた時間継続して類似する区間があるとき、当該区間を類似区間として検出する。あるいは、２つの入力音声の所定区間毎に求められた（生成された）認識候補としての複数の音素列あるいは文字列の中に占める両者で共通する音素列あるいは文字列の割合が予め定められた割合以上あるいは当該割合より大きい区間が予め定められた時間連続して存在するとき、当該連続する区間を両者の類似区間として検出する。なお、ここで、「特徴情報が予め定められた時間継続して類似する」とは、当該２つの入力音声は、同じフレーズを発声したものであるかどうかを判定するために十分な時間、特徴情報が類似しているということである。
【００３８】
不一致区間は、連続して入力した２つの入力音声のそれぞれから、上記のようにして両者の類似区間が検出されたときには、各入力音声のうち、類似区間以外の区間が不一致区間である。また、上記の２つの入力音声から類似区間が検出されなければ、全て不一致区間となる。
【００３９】
また、対応検出部１０７では、各入力音声のデジタルデータから基本周波数であるＦ０の時間的変化のパターン（基本周波数パターン）を抽出するなど、韻律的な特徴を抽出するようにしてもよい。
【００４０】
ここで、類似区間、不一致区間について、具体的に説明する。
【００４１】
ここでは、例えば、１回目の入力音声に対する認識結果の一部に誤認識がある場合に、話者が、再度、認識してもらいたい同じフレーズを発声する場合を仮定して説明する。
【００４２】
例えば、ユーザ（話者）が１回目の音声入力の際に、「チケットを買いたいのですか」というフレーズを発声したとする。これを第１の入力音声とする。この第１の入力音声は、入力部１０１から入力して、照合部１０３での音声認識の結果として、図４（ａ）に示したように、「ラケットがカウントなのです」と認識されたとする。そこで、当該ユーザは、図４（ｂ）に示したように、「チケットを買いたいのですか」というフレーズを再度発声したとする。これを第２の入力音声とする。
【００４３】
この場合、対応検出部１０７では、第１の入力音声と第２の入力音声のそれぞれから抽出された音声認識のための特徴情報から、第１の入力音声の「ラケットが」という音素列あるいは文字列が認識結果として採用（選択）された区間と、第２の入力音声中の「チケットを」という区間は、互いに特徴情報が類似する（その結果、同じような認識候補が求められた）ので、類似区間として検出する。また、第１の入力音声の「のです」という音素列あるいは文字列が認識結果として採用（選択）された区間と、第２の入力音声中の「のですか」という区間も、互いに特徴情報が類似する（その結果、同じような認識候補が求められた）ので、類似区間として検出する。一方、第１の入力音声と第２の入力音声のうち、類似区間以外の区間は、不一致区間として検出する。この場合、第１の入力音声の「カウントな」という音素列あるいは文字列が認識結果として採用（選択）された区間と、第２の入力音声中の「かいたい」という区間は、特徴情報が類似せず（類似していると判断するための所定の基準を満たしていないため、また、その結果、認識候補として挙げられた音素列あるいは文字列には、共通するものがほとんどないため）類似区間として検出されなかったため、不一致区間として検出される。
【００４４】
なお、ここでは、第１の入力音声と第２の入力音声とは同様な（好ましくは同じ）フレーズであると仮定しているため、上記のようにして２つの入力音声間から類似区間が検出されたならば（すなわち、第２の入力音声は第１の入力音声の部分的な言い直しであるならば）、２つの入力音声の類似区間の対応関係と、不一致区間の対応関係は例えば、図４（ａ）（ｂ）に示すように明らかとなる。
【００４５】
また、対応検出部１０７は、当該２つの入力音声の所定区間毎のデジタルデータのそれぞれから類似区間を検出する際には、上記のようにして、音声認識のために抽出した特徴情報の他に、さらに、当該２つの入力音声のそれぞれの発声速度、発声強度、周波数変化であるピッチ、無音区間であるポーズの出現頻度、声質などといった韻律的な特徴のうち少なくとも１つを考慮して類似区間を検出するようにしてもよい。例えば、上記特徴情報のみからは、類似区間と判断できるちょうど境界にあるような区間であっても、上記韻律的な特徴のうちの少なくとも１つが類似している場合には、当該区間を類似区間として検出してもよい。このように、スペクトルなどの特徴情報の他に、上記韻律的な特徴を基に類似区間であるか否かを判定することにより、類似区間の検出精度が向上する。
【００４６】
各入力音声についての韻律的な特徴は、例えば、各入力音声のデジタルデータから基本周波数Ｆ０の時間的変化のパターン（基本周波数パターン）などを抽出することにより求めることができ、この韻律的な特徴を抽出する手法自体は、公知公用技術である。
【００４７】
強調分析部１０８は、履歴記憶部１０６に記録された履歴情報を基に、例えば，入力音声のデジタルデータから基本周波数Ｆ０の時間的変化のパターン（基本周波数パターン）を抽出したり，音声信号の強度であるパワーの時間変化の抽出など、入力音声の韻律的な特徴を分析して、入力音声から話者が強調して発声した区間、すなわち、強調区間を検出するようになっている。
【００４８】
一般的に、話者が部分的な言い直しをするために、言い直したい部分は、強調して発声することが予測できる。話者の感情などは、音声の韻律的な特徴として表れるものである。そこで、この韻律的な特徴から、入力音声から強調区間を検出することができるのである。
【００４９】
強調区間として検出されるような入力音声の韻律的な特徴とは、上記基本周波数パターンにも表されているが、例えば、入力音声中のある区間の発声速度が当該入力音声の他の区間より遅い、当該ある区間の発声強度が他の区間より強い、当該ある区間の周波数変化であるピッチが他の区間より高い、当該ある区間の無音区間であるポーズの出現頻度が多い、さらには、当該ある区間の声質が甲高い（例えば、基本周波数の平均値が他の区間より高い）などといったものが挙げられる。ここでは、これらのうちの少なくとも１つの韻律的な特徴が、強調区間として判断することのできる所定の基準を満たしているとき、さらに、所定時間継続してそのような特徴が表れているとき、当該区間を強調区間と判定する。
【００５０】
なお、上記履歴記憶部１０６、対応検出部１０７、強調検出部１０８は、制御部１０５の制御の下、動作するようになっている。
【００５１】
以下、本実施形態では、文字列を認識候補、認識結果とする例について説明するが、この場合に限らず、例えば、音素列を認識候補、認識結果として求めるようにしてもよい。音素列を認識候補とするこの場合も、内部処理的には、以下に示すように、文字列を認識候補とする場合と全く同様であり、認識結果として求められた音素列は、最終的に音声で出力してもよいし、文字列として出力するようにしてもよい。
【００５２】
次に、図１に示した音声インタフェース装置の処理動作について、図２〜図３に示したフローチャートを参照して説明する。
【００５３】
制御部１０５は、上記各部１０１〜１０４、１０６〜１０８に対し、図２〜図３に示すような処理動作を行うように制御するようになっている。
【００５４】
まず、制御部１０５は、入力音声に対する識別子（ＩＤ）に対応するカウンタ値Ｉを「０」とし、履歴記憶部１０６に記録されている履歴情報を全て削除（クリア）するなどして、これから入力する音声の認識のための初期化を行う（ステップＳ１〜ステップＳ２）。
【００５５】
音声の入力があると（ステップＳ３）、カウンタ値を１つインクリメントし（ステップＳ４）、当該カウンタ値ｉを当該入力音声のＩＤとする。以下、当該入力音声をＶｉと呼ぶ。
【００５６】
この入力音声Ｖｉの履歴情報をＨｉとする。以下、簡単に履歴Ｈｉと呼ぶ。入力音声Ｖｉは履歴記憶部１０６に履歴Ｈｉとして記録されるとともに（ステップＳ５）、入力部１０１では当該入力音声ＶｉをＡ／Ｄ変換して、当該入力音声Ｖｉに対応するデジタルデータＷｉを得る。このデジタルデータＷｉは、履歴Ｈｉとして履歴記憶部１０６に記憶される（ステップＳ６）。
【００５７】
分析部１０２では、デジタルデータＷｉを分析して、入力音声Ｖｉの特徴情報Ｆｉを得て、当該特徴情報Ｆｉを履歴記憶部１０６に履歴Ｈｉとして記録する（ステップＳ７）。
【００５８】
照合部１０３は、辞書記憶部１０４に記憶されている辞書と、入力音声Ｖｉから抽出された特徴情報Ｆｉとの照合処理を行い、当該入力音声Ｖｉに対応する例えば単語単位の複数の文字列を認識候補Ｃｉとして求める。この認識候補Ｃｉは、履歴Ｈｉとして履歴記憶部１０６に記録する（ステップＳ８）。
【００５９】
制御部１０５は、履歴記憶部１０６から入力音声Ｖｉの直前の入力音声の履歴Ｈｊ（ｊ＝ｉ−１）を検索する（ステップＳ９）。当該履歴Ｈｊがあれば、ステップＳ１０へ進み類似区間の検出処理を行い、なければ、ステップＳ１０における類似区間の検出処理をスキップして、ステップＳ１１へ進む。
【００６０】
ステップＳ１０では、今回の入力音声の履歴Ｈｉ＝（Ｖｉ、Ｗｉ、Ｆｉ、Ｃｉ、…）と、その直前の入力音声の履歴Ｈｊ＝（Ｖｊ、Ｗｊ、Ｆｊ、Ｃｊ、…）とを基に、対応検出部１０７では、例えば、今回とその直前の入力音声の所定区間毎のデジタルデータ（Ｗｉ、Ｗｊ）とそこから抽出された特徴情報（Ｆｉ、Ｆｊ）、必要に応じて、認識候補（Ｃｉ、Ｃｊ）や、今回とその直前の入力音声の韻律的な特徴などを基に類似区間を検出する。
【００６１】
ここでは、今回の入力音声Ｖｉとその直前の入力音声Ｖｊとの間の対応する、類似区間を、Ｉｉ、Ｉｊと表し、これらの対応関係をＡｉｊ＝（Ｉｉ、Ｉｊ）と表現する。なお、ここで検出された連続する２つの入力音声の類似区間Ａｉｊに関する情報は、履歴Ｈｉとして、履歴記憶部１０６に記録する。以下、この類似区間の検出された連続して入力された２つの入力音声のうち、先に入力された前回の入力音声Ｖｊを第１の入力音声、次に入力された今回の入力音声Ｖｉを第２の入力音声と呼ぶこともある。
【００６２】
ステップＳ１１では、強調検出部１０８は、前述したように、第２の入力音声ＶｉのデジタルデータＦｉから韻律的な特徴を抽出して当該第２の入力音声Ｖｉから強調区間Ｐｉを検出する。例えば、入力音声中のある区間の発声速度が当該入力音声の他の区間よりどれだけ遅ければ、当該ある区間を強調区間とみなすか、当該ある区間の発声強度が他の区間よりどれだけ強ければ、当該ある区間を強調区間とみなすか、当該ある区間の周波数変化であるピッチが他の区間よりどれだけ高ければ、当該ある区間を強調区間とみなすか、当該ある区間の無音区間であるポーズの出現頻度が他の区間よりどれだけ多ければ、当該ある区間を強調区間とみなすか、さらには、当該ある区間の声質が他の区間よりどれだけ甲高ければいか（例えば、基本周波数の平均値が他の区間よりどれだけ高ければ）、当該ある区間を強調区間とみなすか、といった強調区間と判定するための予め定められた基準（あるいは規則）を強調検出部１０８は記憶しておく。例えば、上記複数の基準のうちの少なくとも１つ、あるいは、上記複数の基準のうちの一部の複数の基準を全て満たすとき、当該ある区間を強調区間と判定する。
【００６３】
第２の入力音声Ｖｉから上記のようにして強調区間Ｐｉが検出されたとき（ステップＳ１２）、当該検出された強調区間Ｐｉに関する情報を、履歴Ｈｉとして履歴記憶部１０６に記録する（ステップＳ１３）。
【００６４】
なお、図２に示した処理動作、およびこの時点では、第１の入力音声Ｖｉについての認識処理過程における処理動作であり、第１の入力音声Ｖｊについては、すでに認識結果が得られているが、第１の入力音声Ｖｉについては、認識結果はまだ得られていない。
【００６５】
次に、制御部１０５は、履歴記憶部１０６に記憶されている第２の入力音声、すなわち、今回の入力音声Ｖｉについての履歴Ｈｉを検索し、当該履歴Ｈｉに類似区間Ａｉｊに関する情報が含まれていなければ（図３のステップＳ２１）、当該入力音声は、その直前に入力された音声Ｖｊの言い直しでないと判断し、制御部１０５と照合部１０３は、当該入力音声Ｖｉに対し、ステップＳ８で求めた認識候補の中から、当該入力音声Ｖｉに最も確からしい文字列を選択して、当該入力音声Ｖｉの認識結果を生成して、それを出力する（ステップＳ２２）。さらに、当該入力音声Ｖｉの認識結果を、履歴Ｈｉとして履歴記憶部１０６に記録する。
【００６６】
一方、制御部１０５は、履歴記憶部１０６に記憶されている第２の入力音声、すなわち、今回の入力音声Ｖｉについての履歴Ｈｉを検索し、当該履歴Ｈｉに類似区間Ａｉｊに関する情報が含まれているときは（図３のステップＳ２１）、当該入力音声Ｖｉは、その直前に入力された音声Ｖｊの言い直しであると判断することができ、この場合は、ステップＳ２３へ進む。
【００６７】
ステップＳ２３は、当該履歴Ｈｉに強調区間Ｐｉに関する情報が含まれているか否かをチェックし、含まれていないときは、ステップＳ２４へ進み、含まれているときはステップＳ２６へ進む。
【００６８】
履歴Ｈｉに強調区間Ｐｉに関する情報が含まれていないときは、ステップＳ２４において、第２の入力音声Ｖｉに対する認識結果を生成するが、その際、制御部１０５は、当該第２の入力音声Ｖｉから検出された第１の入力音声Ｖｊとの類似区間Ｉｉに対応する認識候補の文字列のうち、第１の入力音声Ｖｊから検出された第１の入力音声Ｖｉとの類似区間Ｉｊに対応する認識結果の文字列を削除する（ステップＳ２４）。そして、照合部１０３は、その結果としての当該第２の入力音声Ｖｉに対応する認識候補の中から当該第２の入力音声Ｖｉに最も確からしい複数の文字列を選択して、当該第２の入力音声Ｖｉの認識結果を生成し、これを第１の入力音声の訂正された認識結果として出力する（ステップＳ２５）。さらに、第１の及び第２の入力音声Ｖｊ、Ｖｉの認識結果として、ステップＳ２５で生成された認識結果を、履歴Ｈｊ、Ｈｉとして履歴記憶部１０６に記録する。
【００６９】
このステップＳ２４〜ステップＳ２５の処理動作について、図４を参照して具体的に説明する。
【００７０】
図４において、前述したように、ユーザが入力した第１の入力音声は、「ラケットがカウントなのです」と認識されたので（図４（ａ）参照）、ユーザは、第２の入力音声として「チケットを買いたいのですか」を入力したとする。
【００７１】
このとき、図２のステップＳ１０〜ステップＳ１３において、当該第１および第２の入力音声から図４に示したように、類似区間、不一致区間が検出されたとする。なお、ここでは、第２の入力音声からは強調区間は検出されなかったものとする。
【００７２】
第２の入力音声に対し、照合部１０３で辞書との照合を行った結果（図２のステップＳ８）、「チケットを」と発声した区間に対しては、例えば、「ラケットが」、「チケットを」、「ラケットが」、「チケットを」…、といった文字列が認識候補として求められ、「かいたい」と発声した区間に対しては、例えば、「かいたい」、「カウント」、…、といった文字列が認識候補として求められ、さらに、「のですか」と発声した区間に対しては、「のですか」、「なのですか」、…、といった文字列が認識候補として求められたとする（図４（ｂ）参照）。
【００７３】
すると、図３のステップＳ２４において、第２の入力音声中の「チケットを」と発声した区間（Ｉｉ）と、第１の入力音声中で「ラケットが」と認識された区間（Ｉｊ）とは、互いに類似区間であるので、当該第２の入力音声中の「チケットを」と発声した区間の認識候補の中から、第１の入力音声中の類似区間Ｉｊの認識結果である文字列「ラケットが」を削除する。なお、認識候補が所定数以上ある場合などには、当該第２の入力音声中の「チケットを」と発声した区間の認識候補の中から、さらに、第１の入力音声中の類似区間Ｉｊの認識結果である文字列「ラケットが」と類似する文字列、例えば、「ラケットを」も削除するようにしてもよい。
【００７４】
また、第２の入力音声中の「のですか」と発声した区間（Ｉｉ）と、第１の入力音声中で「のです」と認識された区間（Ｉｊ）とは、互いに類似区間であるので、当該第２の入力音声中の「のですか」と発声した区間の認識候補の中から、第１の入力音声中の類似区間Ｉｊの認識結果である文字列「のです」を削除する。
【００７５】
この結果、第２の入力音声中の「チケットを」と発声した区間に対する認識候補は、例えば、「チケットを」「チケットが」となり、これは、前回の入力音声に対する認識結果を基に絞り込まれたものとなっている。また、第２の入力音声中の「のですか」と発声した区間に対する認識候補は、例えば、「なのですか」「のですか」となり、これもは、前回の入力音声に対する認識結果を基に絞り込まれたものとなっている。
【００７６】
ステップＳ２５では、この絞り込まれた認識結果の文字列の中から、第２の入力音声Ｖｉに最も確からしい文字列を選択して、認識結果を生成する。すなわち、第２の入力音声中の「チケットを」と発声した区間に対する認識候補の文字列のうち、当該区間の音声に最も確からしい文字列が「チケットを」であり、第２の入力音声中の「かいたい」と発声した区間に対する認識候補の文字列のうち、当該区間の音声に最も確からしい文字列が「買いたい」であり、第２の入力音声中の「のですか」と発声した区間に対する認識候補の文字列のうち、当該区間の音声に最も確からしい文字列が「のですか」であるとき、これら選択された文字列から、「チケットを買いたいのですか」という文字列（フレーズ）が、第１の入力音声の訂正された認識結果として生成されて、出力される。
【００７７】
次に、図３のステップＳ２６〜ステップＳ２８の処理動作について説明する。ここでの処理により、第２の入力音声から強調区間が検出された場合に、さらに、当該強調区間が不一致区間とほぼ等しいときときには、第２の入力音声の当該強調区間に対応する認識候補を基に、第１の入力音声の認識結果を訂正するようになっている。
【００７８】
なお、図３に示したように、第２の入力音声から強調区間が検出された場合であっても、当該強調区間Ｐｉの不一致区間に示す割合が予め定められた値Ｒ以下、あるいは、当該値Ｒより小さいときは（ステップＳ２６）、ステップＳ２４へ進み、前述同様に、第１の入力音声に対する認識結果に基づき第２の入力音声に対し求めた認識候補を絞り込んでから、当該第２の入力音声に対する認識結果を生成する。
【００７９】
ステップＳ２６において、第２の入力音声から強調区間が検出されており、さらに、当該強調区間が不一致区間とほぼ等しいとき（当該強調区間Ｐｉの不一致区間に示す割合が予め定められた値Ｒより大きい、あるいは、当該値Ｒ以上のとき）には、ステップＳ２７へ進む。
【００８０】
ステップＳ２７では、制御部１０５は、第２の入力音声Ｖｉから検出された強調区間Ｐｉに対応する第１の入力音声Ｖｊの区間（ほぼ第１の入力音声Ｖｊと第２の入力音声Ｖｉとの不一致区間に対応する）の認識結果の文字列を第２の入力音声Ｖｉの強調区間の認識候補の文字列のうち、照合部１０３で選択された当該強調区間の音声に最も確からしい文字列（第１位の認識候補）で置き換えて、当該第１の入力音声Ｖｊの認識結果を訂正する。そして、第１の入力音声の認識結果のうち第２の入力音声から検出された強調区間に対応する区間の認識結果の文字列が、当該第２の入力音声の当該強調区間の第１位の認識候補の文字列で置換えられた第１の入力音声の認識結果を出力する（ステップＳ２８）。さらに、この部分的に訂正された第１の入力音声Ｖｊの認識結果を、履歴Ｈｉとして履歴記憶部１０６に記録する。
【００８１】
このステップＳ２７〜ステップＳ２８の処理動作について、図５を参照して具体的に説明する。
【００８２】
例えば、ユーザ（話者）が１回目の音声入力の際に、「チケットを買いたいのですか」というフレーズを発声したとする。これを第１の入力音声とする。この第１の入力音声は、入力部１０１から入力して、照合部１０３での音声認識の結果として、図５（ａ）に示したように、「チケットを／カウントな／のですか」と認識されたとする。そこで、当該ユーザは、図５（ｂ）に示したように、「チケットを買いたいのですか」というフレーズを再度発声したとする。これを第２の入力音声とする。
【００８３】
この場合、対応検出部１０７では、第１の入力音声と第２の入力音声のそれぞれから抽出された音声認識のための特徴情報から、第１の入力音声の「チケットを」という文字列が認識結果として採用（選択）された区間と、第２の入力音声中の「チケットを」という区間を類似区間として検出する。また、第１の入力音声の「のですか」という文字列が認識結果として採用（選択）された区間と、第２の入力音声中の「のですか」という区間も類似区間として検出する。一方、第１の入力音声と第２の入力音声のうち、類似区間以外の区間は、すなわち、第１の入力音声の「カウントな」という文字列が認識結果として採用（選択）された区間と、第２の入力音声中の「かいたい」という区間は、特徴情報が類似せず（類似していると判断するための所定の基準を満たしていないため、また、その結果、認識候補として挙げられた文字列には、共通するものがほとんどないため）類似区間として検出されなかったため、不一致区間として検出される。
【００８４】
また、ここでは、図２のステップＳ１１〜ステップＳ１３において、第２の入力音声中の「かいたい」と発声した区間が強調区間として検出されたものとする。
【００８５】
第２の入力音声に対し、照合部１０３で辞書との照合を行った結果（図２のステップＳ８）、「かいたい」と発声した区間に対しては、例えば、「買いたい」という文字列が第１位の認識候補として求められたとする（図５（ｂ）参照）。
【００８６】
この場合、第２の入力音声から検出された強調区間は、第１の入力音声と第２の入力音声との不一致区間と一致する。従って、図３のステップＳ２６〜ステップＳ２７へ進む。
【００８７】
ステップＳ２７では、第２の入力音声Ｖｉから検出された強調区間Ｐｉに対応する第１の入力音声Ｖｊの区間の認識結果の文字列、すなわち、ここでは、「カウントな」を第２の入力音声Ｖｉの強調区間の認識候補の文字列のうち、照合部１０３で選択された当該強調区間の音声に最も確からしい文字列（第１位の認識候補）、すなわち、ここでは、「買いたい」で置き換える。すると、ステップＳ２８では、第１の入力音声の最初の認識結果「チケットを／カウントな／のですか」中の不一致区間に対応する文字列「カウントな」が第２の入力音声中の強調区間の第１位の認識候補である文字列「買いたい」に置き換えられた、図５（ｃ）に示すような、「チケットを／買いたい／のですか」が出力される。
【００８８】
このように、本実施形態では、例えば、「チケットを買いたいのですか」という第１の入力音声に対する認識結果（例えば、「チケットをカウントなのですか」）が誤っていた場合、ユーザは、例えば、誤認識された部分（区間）を訂正するために、第２の入力音声として言い直しのフレーズを入力する際には、「チケットをかいたいのですが」というように、訂正したい部分を音節に区切って発声すると、この音節に区切って発声した部分「かいたい」は、強調区間として検出される。第１の入力音声と第２の入力音声は、同じフレーズを発声したものである場合には、言い直しの第２の入力音声中から検出された強調区間以外の区間は、ほぼ類似区間とみなすことができる。そこで、本実施形態では、第１の入力音声に対する認識結果のうち、第２の入力音声から検出された強調区間に対応する区間に対応する文字列を、第２の入力音声の当該強調区間の認識結果の文字列で置き換えることにより、第１の入力音声の認識結果を訂正するようになっている。
【００８９】
なお、図２〜図３に示した処理動作は、コンピュータに実行させることのできるプログラムとして、磁気ディスク（フロッピーディスク、ハードディスクなど）、光ディスク（ＣＤ−ＲＯＭ、ＤＶＤなど）、半導体メモリなどの記録媒体に格納して頒布することもできる。
【００９０】
以上説明したように、上記実施形態によれば、入力された２つの入力音声のうち先に入力された第１の入力音声と、この第１の入力音声の認識結果を訂正するために入力された第２の入力音声とのそれぞれから、少なくとも当該２つの入力音声の間で特徴情報が所定時間継続して類似する部分を類似部分（類似区間）として検出し、第２の入力音声の認識結果を生成する際には、当該第２の入力音声の類似部分に対応する認識候補の複数の文字列から、第１の入力音声の当該類似部分に対応する認識結果の文字列を削除し、その結果としての第２の入力音声に対応する認識候補の中から当該第２の入力音声に最も確からしい複数の文字列を選択して、当該第２の入力音声の認識結果を生成することにより、ユーザは最初の入力音声（第１の入力音声）に対する認識結果に誤りがあれば、それを訂正する目的で発声し直すだけで、入力音声に対する誤認識をユーザに負担をかけずに容易に訂正することができる。すなわち、最初の入力音声に対する言い直しの入力音声（第２の入力音声）の認識候補から最初の入力音声の認識結果中の誤認識の可能性の高い部分（第２の入力音声との類似部分（類似区間））の文字列を排除することにより、第２の入力音声に対する認識結果が第１の入力音声に対する認識結果と同じになることが極力避けられ、従って何度言い直しても同じような認識結果になるということがなくなる。従って、入力音声の認識結果を高速にしかも高精度に訂正することができる。
【００９１】
また、入力された２つの入力音声のうち先に入力された第１の入力音声の認識結果を訂正するために入力された第２の入力音声に対応するデジタルデータを基に当該第２の入力音声の韻律的な特徴を抽出して、当該韻律的な特徴から当該第２の入力音声中の話者が強調して発声した部分を強調部分（強調区間）として検出し、第１の入力音声の認識結果のうち第２の入力音声から検出された強調部分に対応する文字列を、第２の入力音声の強調部分に対応する認識候補の複数の文字列のうち当該強調部分に最も確からしい文字列で置き換えて、第１の入力音声の認識結果を訂正することにより、ユーザは、発声し直すだけで、第１の入力音声の認識結果を高精度に訂正することができ、入力音声に対する誤認識をユーザに負担をかけずに容易に訂正することができる。すなわち、最初の入力音声（第１の入力音声）に対する言い直しの入力音声（第２の入力音声）を入力する際、ユーザは当該第１の入力音声の認識結果中の訂正したい部分を強調して発声すればよく、これにより、当該第２の入力音声中の当該強調部分（強調区間）に最も確からしい文字列で、第１の入力音声の認識結果のうち訂正すべき文字列を書き換えて当該第１の入力音声の認識結果中の誤り部分（文字列）訂正する。従って、従って何度言い直しても同じような認識結果になるということがなくなり、入力音声の認識結果を高速にしかも高精度に訂正することができる。
【００９２】
なお、上記実施形態では、第１の入力音声の認識結果を部分的に訂正する際には、好ましくは、第２の入力音声を入力する際に、前回発声したフレーズ中の認識結果を訂正したい部分を強調して発声することが望ましいが、その際、どのように強調して発声すればよいか（韻律的な特徴のつけ方）を予めユーザに教示しておいたり、あるいは本装置を利用する過程で、入力音声の認識結果を訂正するための訂正方法として例を示すなどして適宜説明するようにしておいても良い。このように、入力音声を訂正するためのフレーズを予め定めておいたり（例えば、上記実施形態のように、２回目の音声入力の際には、１回目と同じフレーズを発声する）、訂正したい部分をどのように発声すれば、その部分を強調区間として検出できるのかを予め定めておくことにより、強調区間や類似区間の検出精度が向上する。
【００９３】
また、訂正のための定型的なフレーズを、例えばワードスポッティング手法などを用いて取り出すことで、部分的な訂正ができるようにしても良い。つまり、例えば、図５に示したように、第１の入力音声が「チケットをカウントなのですか」と誤認識された際に、ユーザが、例えば「カウントではなく買いたい」などと、部分的な訂正の為の定型的な表現である「ＡではなくＢ」という訂正の為の予め定められたフレーズを第２の入力音声として入力したとする。さらにこの第２の入力音声においては、「Ａ」および「Ｂ」に対応する「カウント」および「買いたい」の部分は、ピッチ（基本周波数）を高めた発声がなされたとする。この場合、この韻律的な特徴づけも合わせて分析することによって，上述の訂正の為の定型的な表現の抽出が行われ、結果として第１の入力音声の認識結果の中から「カウント」に類似する部分を探し出し，第２の入力音声中の「Ｂ」に対応する部分の認識結果である「買いたい」という文字列に置換するようにしてもよい。この場合においても、第１の入力音声の認識結果である「チケットをカウントなのですが」が訂正され，「チケットを買いたいのですが」と正しく認識することができるのである。
【００９４】
また、認識結果は、従来の対話システムと同様の方法でユーザに確認してから、適宜適用するようにしても良い。
【００９５】
また、上記実施形態では、連続する２つの入力音声を処理対象とし、直前の入力音声に対して誤認識の訂正を行う場合を示したが、この場合に限らず、上記実施形態は、任意の時点で入力された任意の数の入力音声に対して適用する事も可能である。
【００９６】
また、上記実施形態では、入力音声の認識結果を部分的に訂正する例を示したが、例えば先頭から途中まで，あるいは途中から最後まで、あるいは全体に対して、上記同様の手法を適応しても良い。
【００９７】
また、上記実施形態によれば、訂正のための音声入力を１回行えば、それ以前の入力音声の認識結果中の複数個所の訂正を行ったり、複数の入力音声のそれぞれに対し同じ訂正を行うこともできる。
【００９８】
また、例えば、特定の音声コマンドや、あるいはキー操作など他の方法で，これから入力する音声は、前回入力した音声の認識結果に対する訂正のためのものであることを予め通知するようにしても良い。
【００９９】
また、類似区間を検出する際には、例えばあらかじめマージン量を設定することによって，多少のずれを許容するようにしても良い。
【０１００】
また、上記実施形態に係る手法は、認識候補の取捨選択に用いるのではなく、その前段階の、例えば認識処理で利用される評価スコア（例えば、類似度）の微調整に用いてもよい。
【０１０１】
なお、本発明は、上記実施形態に限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で種々に変形することが可能である。さらに、上記実施形態には種々の段階の発明は含まれており、開示される複数の構成用件における適宜な組み合わせにより、種々の発明が抽出され得る。例えば、実施形態に示される全構成要件から幾つかの構成要件が削除されても、発明が解決しようとする課題の欄で述べた課題（の少なくとも１つ）が解決でき、発明の効果の欄で述べられている効果（のなくとも１つ）が得られる場合には、この構成要件が削除された構成が発明として抽出され得る。
【０１０２】
【発明の効果】
以上説明したように、本発明によれば、入力音声に対する誤認識をユーザに負担をかけずに容易に訂正することができる。
【図面の簡単な説明】
【図１】本発明の実施形態に係る音声インタフェース装置の構成例を示した図。
【図２】図１の音声インタフェース装置の処理動作を説明するためのフローチャート。
【図３】図１の音声インタフェース装置の処理動作を説明するためのフローチャート。
【図４】誤認識の訂正手順について具体的に説明するための図。
【図５】誤認識の他の訂正手順について具体的に説明するための図。
【符号の説明】
１０１…入力部
１０２…分析部
１０３…照合部
１０４…辞書記憶部
１０５…制御部
１０６…履歴記憶部
１０７…対応検出部
１０８…強調検出部

Claims

デジタルデータに変換された話者の入力音声から音声認識のための特徴情報を抽出し、この特徴情報を基に当該入力音声に対応する複数の音素列あるいは文字列を認識候補として求め、当該認識候補の中から当該入力音声に最も確からしい複数の音素列あるいは文字列を選択して、認識結果を求める音声認識方法において、
第１の入力音声を入力する第１のステップと、
前記第１の入力音声の第１の認識結果を出力する第２のステップと、
第２の入力音声を入力する第３のステップと、
前記第２の入力音声に対応するデジタルデータを基に当該第２の入力音声の韻律的な特徴を抽出して、当該韻律的な特徴から当該第２の入力音声中の前記話者が強調して発声した部分を強調区間として検出する第４のステップと、
前記第２の入力音声の前記強調区間に対応する認識候補の複数の音素列あるいは文字列の中から前記第２の入力音声に最も確からしい音素列あるいは文字列を選択する第５のステップと、
前記第１の認識結果のうち、前記強調区間以外の区間に対応する音素列あるいは文字列と、前記強調区間に対応する選択された音素列あるいは文字列とからなる第２の認識結果を生成する第６のステップと、
前記第２の認識結果を出力する第７のステップと、
を有する音声認識方法。
前記第４のステップは、前記第２の入力音声の発声速度、発声強度、周波数変化であるピッチ、ポーズの出現頻度、声質のうちの少なくとも１つの韻律的な特徴を抽出して、当該韻律的な特徴から当該第２の入力音声中の前記強調区間を検出することを特徴とする請求項２記載の音声認識方法。
話者の音声を入力する入力手段と、
前記入力手段で入力された入力音声から音声認識のための特徴情報を抽出する抽出手段と、
前記特徴情報を基に前記入力音声に対応する複数の音素列あるいは文字列を認識候補として求める手段と、
前記認識候補の中から前記入力音声に最も確からしい複数の音素列あるいは文字列を選択して、認識結果を生成する生成手段と、
前記認識結果を出力する出力手段と、
前記入力手段に入力された第１の入力音声に対し前記生成手段で得られた第１の認識結果を前記出力手段で出力した後に前記入力手段で入力された第２の入力音声の韻律的な特徴を抽出して、当該韻律的な特徴から当該第２の入力音声中の前記話者が強調して発声した部分を強調区間として検出する検出手段と、
を具備し、
前記生成手段は、
前記強調区間の検出された前記第２の入力音声の前記強調区間に対応する認識候補の複数の音素列あるいは文字列のなかから、前記第２の入力音声に最も確からしい音素列あるいは文字列を選択し、
前記第１の認識結果のうち、前記強調区間以外の区間に対応する音素列あるいは文字列と、前記強調区間に対応する選択された音素列あるいは文字列とからなる第２の認識結果を生成することを特徴とする音声認識装置。
前記検出手段は、前記第２の入力音声の発声速度、発声強度、周波数変化であるピッチ、ポーズの出現頻度、声質のうちの少なくとも１つの韻律的な特徴を抽出して、当該韻律的な特徴から当該第２の入力音声中の前記強調区間を検出することを特徴とする請求項３記載の音声認識装置。
デジタルデータに変換された話者の入力音声から音声認識のための特徴情報を抽出し、この特徴情報を基に当該入力音声に対応する複数の音素列あるいは文字列を認識候補として求め、当該認識候補の中から当該入力音声に最も確からしい複数の音素列あるいは文字列を選択して、認識結果を求める音声認識プログラムであって、
コンピュータに、
第１の入力音声を入力する第１のステップと、
前記第１の入力音声の第１の認識結果を出力する第２のステップと、
第２の入力音声を入力する第３のステップと、
前記第２の入力音声に対応するデジタルデータを基に当該第２の入力音声の韻律的な特徴を抽出して、当該韻律的な特徴から当該第２の入力音声中の前記話者が強調して発声した部分を強調区間として検出する第４のステップと、
前記第２の入力音声の前記強調区間に対応する認識候補の複数の音素列あるいは文字列の中から前記第２の入力音声に最も確からしい音素列あるいは文字列を選択する第５のステップと、
前記第１の認識結果のうち、前記強調区間以外の区間に対応する音素列あるいは文字列と、前記強調区間に対応する選択された音素列あるいは文字列とからなる第２の認識結果を生成する第６のステップと、
前記第２の認識結果を出力する第７のステップと、
を実行させる音声認識プログラム。