JP2008233229A

JP2008233229A - 音声認識システム、および、音声認識プログラム

Info

Publication number: JP2008233229A
Application number: JP2007069123A
Authority: JP
Inventors: Kenji Abe; 賢司阿部
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2007-03-16
Filing date: 2007-03-16
Publication date: 2008-10-02
Anticipated expiration: 2027-03-16
Also published as: US8346553B2; JP4812029B2; CN101266792A; CN101266792B; EP1970898A1; US20080228482A1

Abstract

【課題】少なくとも２話者による対話において１の話者の発話を誤認識した場合、この１の話者が意識することなく、しかも、他の話者がキーボードのような入力手段を操作しなくとも、誤った認識結果を、対話を妨げることなく修正することができる音声認識システム、および、音声認識プログラムを提供する。
【解決手段】Ｎベスト解Ａ、および、Ｎベスト解Ａに対する発話Ａよりも時系列上後方の発話Ｂであって、発話Ａとは異なる話者ｂによる発話Ｂによって得られたＮベスト解Ｂを認識結果記憶部１８から抽出する認識結果抽出部１９と、繰り返し発話判定部２３によりＮベスト解ＢがＮベスト解Ａに対する発話Ａの繰り返し発話Ｂによって得られたＮベスト解であると判定された場合、ベスト解Ａとベスト解Ｂとが一致しないとき、Ｎベスト解Ａの一部または全部を、Ｎベスト解Ｂの一部または全部で置き換えが可能であると判定する一致判定部２４とを備える。
【選択図】図１

Description

本発明は、発話を認識可能な音声認識システム、および、音声認識プログラムに関する。

近年では、例えば、購入商品に関するユーザからの問い合わせ、苦情、相談などを電話で受け付ける際には、ユーザからの電話に応答するオペレータが配置されたコールセンターを設置することが一般に行われている。コールセンターには、ユーザからの電話に速やかに対応できるように、相応の人数のオペレータが配置されている。

このようなコールセンターにおいては、音声認識システムを用いることにより、オペレータとユーザとの対話を認識し、認識結果である対話を記録することが一般に行われている。なお、記録された対話は、オペレータのパーソナルコンピュータの表示画面上に表示される場合もある。オペレータとユーザとの対話が記録されることにより、例えば、ユーザがどのような情報について知りたがっているのかなどを分析することができる。分析した結果については、例えば、今後のビジネス展開のヒントとして活用することができる。また、分析した結果については、オペレータが保有するマニュアルに反映させることにより、オペレータの円滑な業務遂行のために活用することができる。

ここで、音声認識システムにおいて、オペレータとユーザとの対話を誤認識した場合、対話の内容が誤った認識結果に基づいて記録される。対話の内容が誤った認識結果に基づいて記録されると、正確な分析をすることができなくなる。このため、音声認識システムによる誤認識を修正する必要がある。ここで、音声認識システムによる誤認識を修正する方法として、例えば、以下の特許文献１および特許文献２が知られている。

特許文献１には、ユーザの発話を音声認識システムが誤認識した場合、ユーザにおいて再度発話（言い直し）をすることにより、音声認識システムによる誤認識を修正する方法が開示されている。具体的には、言い直し判定部が、ユーザの再度の発話を言い直しの発話であると判定すれば、認識処理部は、認識候補登録部に記憶されている過去の認識候補と、今回の処理で得られた認識候補との双方を用いることにより、調整された認識候補を出力する。これにより、ユーザにおいて、誤認識に気付くことができれば、言い直しの発話によって、誤認識を修正することが可能となる。

また、特許文献２には、送受話器を介して送受信された通話内容を送話側と受話側とに分けることにより、認識結果の確認および修正が容易となる通話内容書き起こしシステムが開示されている。具体的には、送話側チャネルからの音声は、第１音声認識手段によって認識される。また、受話側チャネルからの音声は、第２音声認識手段によって認識される。第１音声認識手段および第２音声認識手段によって認識された音声は、文字列変換手段によって文字列となり、表示手段に表示される。表示手段によって表示された文字列は、例えばキーボードなどの入力手段によって編集される。これにより、送話側および受話側の通話内容が時系列に並べて表示されるので、編集者は、通話内容を書き起こすことが容易となる。
特開平１１−１４９２９４号公報特開２００５−１２３８６９号公報

ところで、コールセンターにおいては、オペレータとユーザとの対話の認識結果を、オペレータのパーソナルコンピュータの表示画面上に表示することが可能であるので、オペレータは、認識結果が正しいか否かを確認することができる。これに対して、ユーザは、認識結果を確認することができない。すなわち、ユーザは、オペレータとユーザとの対話が、音声認識システムにより認識され、認識結果である対話が記録されていること自体を意識していない場合が多い。このため、音声認識システムが、オペレータとユーザとの対話を誤認識した場合であっても、ユーザは、言い直しの発話をすることなく、継続して発話をしてしまう。それゆえ、このような場合は、特許文献１の誤認識を修正する方法は適用することができない。

一方、オペレータは、音声認識システムが、オペレータとユーザとの対話を誤認識した場合、誤った認識結果を修正する必要がある。具体的には、オペレータは、パーソナルコンピュータの表示画面上に表示された誤った認識結果を、キーボードを操作することにより修正する。しかしながら、オペレータとユーザとの対話を妨げることなく、キーボードを操作し誤った認識結果を修正することは困難である。そこで、オペレータとユーザとの対話が終了した後に、キーボードを操作することにより誤った認識結果を修正することが考えられる。しかしながら、この場合、オペレータは、誤った認識結果が発生した箇所や、正しい認識結果を覚えておく必要がある。また、オペレータとユーザとの対話を録音した場合、オペレータは、誤った認識結果が発生した箇所や、正しい認識結果を覚えておく必要はないが、録音した対話を聞き直すのに手間と時間を要する。それゆえ、このような場合は、特許文献２の誤認識を修正する方法は適用することができない。

本発明は、上記の問題点に鑑みてなされたものであり、その目的は、少なくとも２話者による対話において１の話者の発話を誤認識した場合、この１の話者が意識することなく、しかも、他の話者がキーボードのような入力手段を操作しなくとも、誤った認識結果を、対話を妨げることなく修正することができる音声認識システム、および、音声認識プログラムを提供することにある。

上記目的を達成するために本発明における音声認識システムは、発話を発声した話者を識別する入力識別部と、発話と複数の認識語彙とを照合することにより算出された認識スコアの中から最も認識スコアの高い認識語彙をベスト解とするとき、当該ベスト解から認識スコアの高い上位Ｎ個（Ｎは１以上の整数）の認識語彙をＮベスト解として格納する認識結果記憶部と、前記認識結果記憶部から抽出したＮベスト解を先方Ｎベスト解とするとき、当該先方Ｎベスト解に対する発話よりも時系列上後方の発話であって、かつ、当該先方Ｎベスト解に対する発話とは異なる話者による発話によって得られたＮベスト解を後方Ｎベスト解として前記認識結果記憶部から抽出する認識結果抽出部と、前記後方Ｎベスト解が、前記先方Ｎベスト解に対する発話への応答発話によって得られたＮベスト解であるか否かの度合を表す関連度を算出する関連度算出部と、前記関連度が閾値以上である場合、前記後方Ｎベスト解が、前記先方Ｎベスト解に対する発話への応答発話によって得られたＮベスト解であると判定する応答発話判定部と、前記応答発話判定部により前記後方Ｎベスト解が前記先方Ｎベスト解に対する発話への応答発話によって得られたＮベスト解であると判定された場合、前記後方Ｎベスト解が、前記先方Ｎベスト解に対する発話の繰り返し発話によって得られたＮベスト解であるか否かを判定する繰り返し発話判定部と、前記繰り返し発話判定部により前記後方Ｎベスト解が前記先方Ｎベスト解に対する発話の繰り返し発話によって得られたＮベスト解であると判定された場合、前記先方Ｎベスト解におけるベスト解を先方ベスト解、および、前記後方Ｎベスト解におけるベスト解を後方ベスト解とするとき、前記先方ベスト解と前記後方ベスト解とが一致するか否かを判定し、一致しない場合、前記先方Ｎベスト解の一部または全部を、前記後方Ｎベスト解の一部または全部で置き換えが可能であると判定する一致判定部とを備えることを特徴とする。

本発明の音声認識システムによれば、関連度算出部は、後方Ｎベスト解が、先方Ｎベスト解に対する発話への応答発話によって得られたＮベスト解であるか否かの度合を表す関連度を算出する。なお、後方Ｎベスト解は、先方Ｎベスト解に対する発話よりも時系列上後方の発話であって、かつ、この先方Ｎベスト解に対する発話とは異なる話者による発話によって得られたＮベスト解である。一例として、先方Ｎベスト解に対する発話がユーザによる発話であって、後方Ｎベスト解に対する発話がコールセンターのオペレータによる発話であるという事例が考えられる。ここで、応答発話判定部は、関連度が閾値以上である場合、後方Ｎベスト解が、先方Ｎベスト解に対する発話への応答発話によって得られたＮベスト解であると判定する。繰り返し発話判定部は、後方Ｎベスト解が、先方Ｎベスト解に対する発話の繰り返し発話によって得られたＮベスト解であるか否かを判定する。繰り返し発話判定部により後方Ｎベスト解が先方Ｎベスト解に対する発話の繰り返し発話によって得られたＮベスト解であると判定された場合、一致判定部は、先方ベスト解と後方ベスト解とが一致するか否かを判定する。ここで、先方ベスト解と後方ベスト解とが一致しない場合は、一致判定部は、先方ベスト解が誤っていると判定する。

前述の事例では、一般に、オペレータは、ユーザと比較すると、日頃からはっきりと発声するように訓練を受けている。また、オペレータは、意図的に正しい認識結果が得られるように発話することができる。さらに、音声認識システムがコールセンターに設置されており、ユーザの発話が電話回線を介して認識され、かつ、オペレータの発話が電話回線を介することなく認識される場合、ユーザの発話は、オペレータの発話と比較して、電話回線上の雑音が混入し、あるいは、各種フィルターを介することによって情報劣化が発生する可能性がある。このような理由から、本発明の一致判定部は、先方Ｎベスト解の一部または全部を、後方Ｎベスト解の一部または全部で置き換えが可能であると判定する。これにより、ユーザとオペレータとの対話においてユーザの発話を誤認識した場合、このユーザが意識することなく、しかも、オペレータがキーボードのような入力手段を操作しなくとも、誤った認識結果を、対話を妨げることなく修正することができる。

なお、先方Ｎベスト解および後方Ｎベスト解のＮは、互いに同じ値であっても良いし、互いに異なる値であっても良い。

上記本発明における音声認識システムにおいては、前記一致判定部により前記先方ベスト解と前記後方ベスト解とが一致しないと判定された場合、前記先方Ｎベスト解が格納されている前記認識結果記憶部の先方ベスト解を、前記後方ベスト解に更新する認識結果修正部と、前記認識結果修正部により更新された後方ベスト解を出力する結果出力部とをさらに備える態様とするのが好ましい。

上記構成によれば、認識結果修正部は、先方Ｎベスト解が格納されている認識結果記憶部の先方ベスト解を、後方ベスト解に更新する。これにより、結果出力部は、更新された後方ベスト解を出力することができる。

上記本発明における音声認識システムにおいては、前記認識結果修正部により更新された履歴を示す履歴データを生成する修正履歴生成部と、前記修正履歴生成部により生成された履歴データを提示する出力提示部とをさらに備える態様とするのが好ましい。

上記構成によれば、修正履歴生成部は、更新された履歴を示す履歴データを生成する。出力提示部は、この履歴データを提示する。これにより、例えば、オペレータは、誤った認識結果が修正された履歴を確認することができる。

上記本発明における音声認識システムにおいては、前記繰り返し発話判定部は、前記応答発話判定部により前記後方Ｎベスト解が前記先方Ｎベスト解に対する発話への応答発話によって得られたＮベスト解であると判定された場合、前記後方Ｎベスト解における後方ベスト解の認識スコアが所定の認識スコア以上であって、かつ、下記の（１）および（２）のいずれも満たす場合に、前記後方Ｎベスト解が、前記先方Ｎベスト解に対する発話の繰り返し発話によって得られたＮベスト解であると判定する態様とするのが好ましい。
（１）前記先方Ｎベスト解中のいずれかの解が、前記後方Ｎベスト解における後方ベスト解と一致する。
（２）前記後方ベスト解と一致する前記先方Ｎベスト解中の解の認識スコアが所定の認識スコア以上、あるいは、前記後方ベスト解と一致する前記先方Ｎベスト解中の解における、前記先方ベスト解からの順位が所定の順位以上である。

上記構成によれば、繰り返し発話判定部は、上記の条件を満たす場合に、後方Ｎベスト解が、先方Ｎベスト解に対する発話の繰り返し発話によって得られたＮベスト解であると判定することができる。

上記本発明における音声認識システムにおいては、認識語彙間の共起関係を表す共起情報を格納した共起情報記憶部、および、認識語彙の意味を表す意味属性を格納した意味属性記憶部の少なくとも１つと、前記一致判定部により前記先方ベスト解と前記後方ベスト解とが一致すると判定された場合、前記共起情報および前記意味属性の少なくとも１つに基づいて、発話と複数の認識語彙との照合方法を変更させる照合処理変更部とをさらに備える態様とするのが好ましい。

ところで、先方ベスト解と後方ベスト解とが一致する場合は、互いの解の信頼性が高い場合である。したがって、このような場合、照合処理変更部は、共起情報および意味属性の少なくとも１つに基づいて、発話と認識語彙との照合方法を変更させる。

一例として、照合処理変更部は、先方ベスト解および後方ベスト解と共起関係となる認識語彙、あるいは、先方ベスト解および後方ベスト解と意味が関連する認識語彙を、この認識語彙以外の認識語彙よりも、認識スコアが高くなるように、照合方法を変更させる。具体的には、先方ベスト解および後方ベスト解が「ＰＣ」である場合、「ＰＣ」と意味が関連するコンピュータ用語に関する認識語彙を、コンピュータ用語以外の認識語彙よりも認識スコアが高くなるように、例えば、コンピュータ用語に関する認識語彙に対して、所定の認識スコアを重み付ける。すなわち、ユーザの発話によって得られた先方ベスト解とオペレータの発話によって得られた後方ベスト解とが共に「ＰＣ」の場合は、認識結果の信頼性が極めて高いと判断でき、対話の内容もコンピュータに関連したものと特定し得る。また、次以降に発話する内容も、コンピュータに関する発話である可能性が高い。それゆえ、照合処理変更部が、コンピュータ用語に関する認識語彙に対して、所定の認識スコアを重み付けるように照合方法を変更させることにより、音声認識システムの認識正解率を向上させることができる。

他の例として、照合処理変更部は、先方ベスト解および後方ベスト解と共起関係となる認識語彙、あるいは、先方ベスト解および後方ベスト解と意味が関連する認識語彙を、照合対象となる認識語彙とし、それ以外の認識語彙を、照合対象とはならない認識語彙とするように、照合方法を変更させる。具体的には、先方ベスト解および後方ベスト解が「ＰＣ」である場合、「ＰＣ」と意味が関連するコンピュータ用語に関する認識語彙を照合対象となる認識語彙とし、それ以外の認識語彙を照合対象とはならない認識語彙とするように、照合方法を変更させる。すなわち、ユーザの発話によって得られた先方ベスト解とオペレータの発話によって得られた後方ベスト解とが共に「ＰＣ」の場合は、認識結果の信頼性が極めて高いと判断でき、対話の内容もコンピュータに関連したものと特定し得る。また、次以降に発話する内容も、コンピュータに関する発話である可能性が高い。それゆえ、照合処理変更部が、コンピュータ用語に関する認識語彙を照合対象となる認識語彙とし、それ以外の認識語彙を照合対象とはならない認識語彙とするように照合方法を変更させることにより、音声認識システムの認識正解率を向上させることができる。

前記関連度算出部は、下記の（１）〜（４）の少なくとも１つに基づいて関連度を算出する、請求項１〜４のいずれか一項に記載の音声認識システム。
（１）前記先方Ｎベスト解中のそれぞれの解と前記後方Ｎベスト解中のそれぞれの解とが一致する個数
（２）前記先方Ｎベスト解中のそれぞれの解と前記後方Ｎベスト解中のそれぞれの解とが一致する解における、前記先方Ｎベスト解中の認識スコアに基づく順位と前記後方Ｎベスト解中の認識スコアに基づく順位との差
（３）前記先方Ｎベスト解が出力された時刻と前記後方Ｎベスト解が出力された時刻との時間差
（４）発話と複数の認識語彙とを照合することにより複数の先方Ｎベスト解が得られ、かつ、当該発話とは異なる話者による発話と複数の認識語彙とを照合することにより複数の後方Ｎベスト解が得られた場合、複数の先方Ｎベスト解の時系列上の出現順と、複数の後方Ｎベスト解の時系列上の出現順との差
上記構成によれば、関連度算出部は、上記の（１）〜（４）の少なくとも１つに基づいて関連度を算出することができる。

上記本発明における音声認識システムにおいては、前記関連度算出部は、前記先方Ｎベスト解中のそれぞれの解と前記後方Ｎベスト解中のそれぞれの解とが一致する個数が多く、かつ、前記先方Ｎベスト解中のそれぞれの解と前記後方Ｎベスト解中のそれぞれの解とが一致する解における、前記先方Ｎベスト解中の認識スコアに基づく順位と前記後方Ｎベスト解中の認識スコアに基づく順位との差が小さい程、大きい関連度を算出する態様とするのが好ましい。

ここで、前記個数が多く、かつ、前記順位の差が小さい程、後方Ｎベスト解は、先方Ｎベスト解に対する発話への応答発話によって得られたＮベスト解である可能性が高い。したがって、このような場合、関連度算出部は、大きい関連度を算出する。一方、これとは逆に、前記個数が少なく、かつ、前記順位の差が大きい程、後方Ｎベスト解は、先方Ｎベスト解に対する発話への応答発話によって得られたＮベスト解である可能性が低い。したがって、このような場合、関連度算出部は、小さい関連度を算出する。それゆえ、応答発話判定部は、関連度が閾値以上である場合、後方Ｎベスト解が、先方Ｎベスト解に対する発話への応答発話によって得られたＮベスト解であると判定することができる。

上記本発明における音声認識システムにおいては、前記Ｎベスト解に現在時刻を表す時刻情報を付加し、当該時刻情報を付加したＮベスト解を前記認識結果記憶部に書き込む時刻情報管理部をさらに備え、前記関連度算出部は、前記先方Ｎベスト解に付加された時刻情報が表す現在時刻と、前記後方Ｎベスト解に付加された時刻情報が表す現在時刻との時間差が小さい程、大きい関連度を算出する態様とするのが好ましい。

ここで、前記時間差が小さい程、後方Ｎベスト解は、先方Ｎベスト解に対する発話への応答発話によって得られたＮベスト解である可能性が高い。したがって、このような場合、関連度算出部は、大きい関連度を算出する。一方、これとは逆に、前記時間差が大きい程、後方Ｎベスト解は、先方Ｎベスト解に対する発話への応答発話によって得られたＮベスト解である可能性が低い。したがって、このような場合、関連度算出部は、小さい関連度を算出する。それゆえ、応答発話判定部は、関連度が閾値以上である場合、後方Ｎベスト解が、先方Ｎベスト解に対する発話への応答発話によって得られたＮベスト解であると判定することができる。

上記本発明における音声認識システムにおいては、前記関連度算出部は、発話と複数の認識語彙とを照合することにより複数の先方Ｎベスト解が得られ、かつ、当該発話とは異なる話者による発話と複数の認識語彙とを照合することにより複数の後方Ｎベスト解が得られた場合、複数の先方Ｎベスト解の時系列上の出現順と、複数の後方Ｎベスト解の時系列上の出現順との差が小さい程、大きい関連度を算出する態様とするのが好ましい。

ここで、前記出現順の差が小さい程、後方Ｎベスト解は、先方Ｎベスト解に対する発話への応答発話によって得られたＮベスト解である可能性が高い。したがって、このような場合、関連度算出部は、大きい関連度を算出する。一方、これとは逆に、前記出現順の差が大きい程、後方Ｎベスト解は、先方Ｎベスト解に対する発話への応答発話によって得られたＮベスト解である可能性が低い。したがって、このような場合、関連度算出部は、小さい関連度を算出する。それゆえ、応答発話判定部は、関連度が閾値以上である場合、後方Ｎベスト解が、先方Ｎベスト解に対する発話への応答発話によって得られたＮベスト解であると判定することができる。

上記本発明における音声認識システムにおいては、発話の出現順を表す機能語と、当該出現順とを関連付けて格納した機能語辞書をさらに備え、前記関連度算出部は、複数の後方Ｎベスト解中のいずれかの後方Ｎベスト解における後方ベスト解と、前記機能語とが一致する場合、前記機能語と一致する後方ベスト解を含む後方Ｎベスト解から時系列上次の後方Ｎベスト解の出現順を、当該機能語が表す出現順とする態様とするのが好ましい。

上記構成によれば、関連度算出部は、複数の後方Ｎベスト解中のいずれかの後方Ｎベスト解における後方ベスト解と、機能語とが一致する場合、機能語と一致する後方ベスト解を含む後方Ｎベスト解から時系列上次の後方Ｎベスト解の出現順を、この機能語が表す出現順とする。なお、機能語とは、発話の出現順を表す語である。例えば、機能語「まず」であれば、出現順「１」を表す。また、機能語「つぎ」であれば、出現順「２」を表す。これにより、単に時系列上の出現順の差に基づいて関連度を算出する態様よりも、より正確に関連度を算出することができる。

上記本発明における音声認識システムにおいては、複数の先方Ｎベスト解における時系列上それぞれの出現順に対応する機能語を機能語辞書から抽出する機能語抽出部をさらに備え、前記出力提示部は、前記機能語抽出部により抽出された機能語を、複数の先方Ｎベスト解におけるそれぞれの先方ベスト解と対応させて提示する態様とするのが好ましい。

上記構成によれば、機能語抽出部は、複数の先方Ｎベスト解における時系列上それぞれの出現順に対応する機能語を機能語辞書から抽出する。出力提示部は、抽出された機能語を、複数の先方Ｎベスト解におけるそれぞれの先方ベスト解と対応させて提示する。ここで、例えば、出力提示部に提示されている先方ベスト解が誤っている場合、オペレータは、この先方ベスト解に対応して提示された機能語を発話した直後に、誤認識した先方ベスト解を修正するための繰り返し発話を行うことができる。これにより、例えば、オペレータが、正しい先方ベスト解を繰り返して発話する前に他の発話をしていた場合であっても、この機能語を発話した直後に正しい先方ベスト解を繰り返して発話すれば、誤った先方ベスト解を含む先方Ｎベスト解の時系列上の出現順と、オペレータの繰り返し発話により得られる後方Ｎベスト解の出現順とが共に同じ出現順となる。それゆえ、関連度算出部は、最大の関連度を算出することができる。この結果、応答発話判定部は、確実に、後方Ｎベスト解が、先方Ｎベスト解に対する発話への応答発話によって得られたＮベスト解であると判定することができる。

上記目的を達成するために本発明における音声認識プログラムは、発話と複数の認識語彙とを照合することにより算出された認識スコアの中から最も認識スコアの高い認識語彙をベスト解とするとき、当該ベスト解から認識スコアの高い上位Ｎ個（Ｎは１以上の整数）の認識語彙をＮベスト解として格納する認識結果記憶部を備えたコンピュータに、発話を発声した話者を識別する入力識別処理と、前記認識結果記憶部から抽出したＮベスト解を先方Ｎベスト解とするとき、当該先方Ｎベスト解に対する発話よりも時系列上後方の発話であって、かつ、当該先方Ｎベスト解に対する発話とは異なる話者による発話によって得られたＮベスト解を後方Ｎベスト解として前記認識結果記憶部から抽出する認識結果抽出処理と、前記後方Ｎベスト解が、前記先方Ｎベスト解に対する発話への応答発話によって得られたＮベスト解であるか否かの度合を表す関連度を算出する関連度算出処理と、前記関連度が閾値以上である場合、前記後方Ｎベスト解が、前記先方Ｎベスト解に対する発話への応答発話によって得られたＮベスト解であると判定する応答発話判定処理と、前記応答発話判定処理により前記後方Ｎベスト解が前記先方Ｎベスト解に対する発話への応答発話によって得られたＮベスト解であると判定された場合、前記後方Ｎベスト解が、前記先方Ｎベスト解に対する発話の繰り返し発話によって得られたＮベスト解であるか否かを判定する繰り返し発話判定処理と、前記繰り返し発話判定処理により前記後方Ｎベスト解が前記先方Ｎベスト解に対する発話の繰り返し発話によって得られたＮベスト解であると判定された場合、前記先方Ｎベスト解におけるベスト解を先方ベスト解、および、前記後方Ｎベスト解におけるベスト解を後方ベスト解とするとき、前記先方ベスト解と前記後方ベスト解とが一致するか否かを判定し、一致しない場合、前記先方ベスト解の一部または全部を、前記後方Ｎベスト解の一部または全部で置き換えが可能であると判定する一致判定処理とを実行させることを特徴とする。

なお、本発明における音声認識プログラムは、上記の音声認識システムと同様の効果を得る。

以上のように、本発明の音声認識システム、および、音声認識プログラムは、少なくとも２話者による対話において１の話者の発話を誤認識した場合、この１の話者が意識することなく、しかも、他の話者がキーボードのような入力手段を操作しなくとも、誤った認識結果を、対話を妨げることなく修正することができるという効果を奏する。

以下、本発明のより具体的な実施形態について図面を参照しながら詳細に説明する。

図１は、本実施形態に係る音声認識システム１の概略構成を示すブロック図である。本実施形態においては、一例として、音声認識システム１がコールセンターに設置されており、ユーザである話者ａと、オペレータである話者ｂとが、電話により対話（通話）している場合について説明する。具体的には、話者ａが、「ＰＣ（ぴーしー）について教えて。あとインターネットも」と発話Ａを発声した後に、話者ｂが、「まず、ＰＣ（ぴーしー）についてですが」と発話Ｂを発声した場合について説明する。

なお、以下では、Ｎベスト解およびベスト解を説明する際、特に区別する必要のある場合にのみ、例えば、Ｎベスト解Ａ₁のように、それぞれを区別するための小数字を付して説明し、特に区別する必要がない場合、あるいは、総称する場合には、例えば、Ｎベスト解Ａのように、小数字を付さずに説明する。

[音声認識システムの構成]
本実施形態に係る音声認識システム１は、音声入力部１１、入力識別部１２、音響処理部１３、音響モデル記憶部１４、言語モデル記憶部１５、照合部１６、時刻情報管理部１７、認識結果記憶部１８、認識結果抽出部１９、同義語情報記憶部２０、関連度算出部２１、応答発話判定部２２、繰り返し発話判定部２３、一致判定部２４、認識結果修正部２５、出力生成部２６、出力提示部２７、照合処理変更部２８、共起情報記憶部２９、および、意味属性記憶部３０を備えている。

音声入力部１１は、話者ａが発声した発話Ａと、話者ｂが発声した発話Ｂとの２話者による対話を受け付ける。また、音声入力部１１は、話者ａが発声した発話Ａを発話データＡに変換し、話者ｂが発声した発話Ｂを発話データＢに変換する。音声入力部１１は、変換した発話データＡおよび発話データＢを入力識別部１２に出力する。なお、音声入力部１１は、上記の２話者に限らず、例えば、１人のユーザに対して、複数のオペレータによる対話を受け付けても良い。また、音声入力部１１は、複数のユーザに対して、１人のオペレータによる対話を受け付けても良い。さらに、音声入力部１１は、複数のユーザに対して、複数のオペレータによる対話を受け付けても良い。なお、音声入力部１１は、リアルタイムによる対話ではなく、予め記録された対話ログを受け付けても良い。

入力識別部１２は、発話を発声した話者を識別する。具体的には、入力識別部１２は、音声入力部１１から出力された発話データＡおよび発話データＢを識別し、発話データＡに、発話Ａに固有の発話番号を付加し、発話データＢに、発話Ｂに固有の発話番号を付加する。なお、入力識別部１２は、従来から知られている電話の受話信号／送話信号の分離録音技術、あるいは、男女判定処理や、話者識別処理などを用いることによって、音声入力部１１から出力された発話データＡおよび発話データＢを識別することが可能である。本実施形態においては、入力識別部１２は、音声入力部１１から出力された「ＰＣについて教えて。あとインターネットも」を示す発話データＡに、発話番号Ａ０１を付加する。また、入力識別部１２は、「まず、ＰＣについてですが」を示す発話データＢに、発話番号Ｂ０１を付加する。ここで、話者ａおよび話者ｂによる対話が継続した場合、話者ａの発話データに、発話番号Ａ０２，Ａ０３，Ａ０４・・・、話者ｂの発話データに、発話番号Ｂ０２，Ｂ０３，Ｂ０４・・・を順に付加していく。入力識別部１２は、発話番号を付加した発話データＡ、および、発話番号を付加した発話データＢを音響処理部１３に出力する。

音響処理部１３は、入力識別部１２から出力された発話データＡを特徴量Ａに変換し、入力識別部１２から出力された発話データＢを特徴量Ｂに変換する。特徴量には、ＭＦＣＣ、ＬＰＣケプストラムやパワー、それらの一次や二次の回帰係数の他、それらの値を主成分分析や判別分析により次元圧縮したものなどの多次元ベクトルが使用されることが多いが、ここでは特に限定しない。音響処理部１３は、変換した特徴量Ａおよび特徴量Ｂを照合部１６に出力する。なお、音響処理部１３は、変換した特徴量Ａおよび特徴量Ｂを格納するメモリを備えていても良い。

音響モデル記憶部１４は、どの音素がどういう特徴量になりやすいかという情報を統計的にモデル化したデータを格納する。音響モデル記憶部１４の一例として、ＨＭＭ（Hidden Markov Model）、ＤＰ（Dynamic Programming）などが挙げられる。

言語モデル記憶部１５は、複数の認識語彙および複数の認識語彙に関する情報を格納する。認識語彙に関する情報は、例えば、認識語彙に固有に付されるＩＤ、表記、読み（例えば、音素列で定義する）などを含むが、他に、認識スコア算出時に加味する語彙毎の重み情報や認識語彙間の接続規則（文法情報）などの任意の情報を含み得る。

照合部１６は、音響処理部１３が変換した特徴量Ａを用いて、発話Ａと言語モデル記憶部１５に格納されている複数の認識語彙との認識スコアを算出する。なお、認識スコアは、一致度、尤度、あるいは、信頼度とも言う。認識スコアを算出した結果、照合部１６は、最も認識スコアの高い認識語彙をベスト解Ａとすると、このベスト解Ａから認識スコアの高い上位Ｎ個（Ｎは１以上の整数）の認識語彙をＮベスト解Ａとして出力する。また、照合部１６は、音響処理部１３が変換した特徴量Ｂを用いて、発話Ｂと言語モデル記憶部１５に格納されている複数の認識語彙との認識スコアを算出する。認識スコアを算出した結果、照合部１６は、最も認識スコアの高い認識語彙をベスト解Ｂとすると、このベスト解Ｂから認識スコアの高い上位Ｎ個（Ｎは１以上の整数）の認識語彙をＮベスト解Ｂとして出力する。

具体的には、照合部１６は、音響処理部１３が変換した特徴量ＡからＰ個（Ｐは１以上の整数）の発話区間を抽出する。照合部１６は、抽出した発話区間と、音響モデル記憶部１４に格納されているデータとを比較することにより、Ｐ個の発話区間毎に音素列（記号列）を抽出する。照合部１６は、抽出した音素列と、言語モデル記憶部１５に格納されている複数の認識語彙とを比較することにより、Ｐ個の発話区間にそれぞれ対応するＮベスト解Ａを出力する。また、照合部１６は、音響処理部１３が変換した特徴量ＢからＱ個（Ｑは１以上の整数）の発話区間を抽出する。照合部１６は、抽出した発話区間と、音響モデル記憶部１４に格納されているデータとを比較することにより、Ｑ個の発話区間毎に音素列（記号列）を抽出する。照合部１６は、抽出した音素列と、言語モデル記憶部１５に格納されている複数の認識語彙とを比較することにより、Ｑ個の発話区間にそれぞれ対応するＮベスト解Ｂを出力する。

ここで、実際には、照合部１６は、「ＰＣについて教えて。あとインターネットも」を示す特徴量Ａから、例えば、「ＰＣ」、「について」、「教えて」、「あと」、「インターネット」、「も」のように、全ての発話Ａにおける発話区間を抽出する。しかし、本実施形態においては、説明の簡略化のために、照合部１６は、特徴量Ａから「ＰＣ」および「インターネット」の２個の発話区間を抽出したものとして説明する。具体的には、照合部１６は、抽出した「ＰＣ」および「インターネット」の発話区間と、音響モデル記憶部１４に格納されているデータとを比較することにより、「ＰＣ」および「インターネット」の音素列を抽出する。照合部１６は、抽出した「ＰＣ」および「インターネット」の音素列と、言語モデル記憶部１５に格納されている複数の認識語彙とを比較することにより、「ＰＣ」および「インターネット」の２個の発話区間にそれぞれ対応するＮベスト解Ａを出力する。

また、実際には、照合部１６は、「まず、ＰＣについてですが」を示す特徴量Ｂから、例えば、「まず」、「ＰＣ」、「について」、「ですが」のように、全ての発話Ｂにおける発話区間を抽出する。しかし、本実施形態においては、説明の簡略化のために、照合部１６は、特徴量Ｂから「ＰＣ」の発話区間のみを抽出したものとして説明する。具体的には、照合部１６は、抽出した「ＰＣ」の発話区間と、音響モデル記憶部１４に格納されているデータとを比較することにより、「ＰＣ」の音素列を抽出する。照合部１６は、抽出した「ＰＣ」の音素列と、言語モデル記憶部１５に格納されている複数の認識語彙とを比較することにより、「ＰＣ」の発話区間に対応するＮベスト解Ｂを出力する。

ところで、図１に示す例では、上記の音声入力部１１、入力識別部１２、音響処理部１３、および、照合部１６が１つのモジュールにて構成されている例について説明したが、これに限定されない。すなわち、上記の音声入力部１１、入力識別部１２、音響処理部１３、および、照合部１６は、例えば、話者毎に複数のモジュールにて構成されていても良い。

時刻情報管理部１７は、照合部１６から出力されたＮベスト解Ａに、現在時刻を表す時刻情報を付加する。また、時刻情報管理部１７は、照合部１６から出力されたＮベスト解Ｂに、現在時刻を表す時刻情報を付加する。時刻情報管理部１７は、時刻情報を付加したＮベスト解Ａを認識結果記憶部１８に書き込む。また、時刻情報管理部１７は、時刻情報を付加したＮベスト解Ｂを認識結果記憶部１８に書き込む。

認識結果記憶部１８は、時刻情報管理部１７により書き込まれたＮベスト解ＡおよびＮベスト解Ｂを格納する。図２は、認識結果記憶部１８のデータ構造の一例を示す図である。すなわち、認識結果記憶部１８は、Ｎベスト解ＡおよびＮベスト解Ｂを、認識結果記憶テーブル１８ａとして格納する。図２に示す例では、認識結果記憶テーブル１８ａには、発話番号、時刻、および、Ｎベスト解が格納されている。具体的には、認識結果記憶テーブル１８ａには、発話番号として、「ＰＣについて教えて。あとインターネットも」を示す「Ａ０１」、および、「まず、ＰＣについてですが」を示す「Ｂ０１」が格納されている。

発話番号Ａ０１には、「ＰＣ」の発話区間に対応するＮベスト解Ａ₁、および、「インターネット」の発話区間に対応するＮベスト解Ａ₂が関連付けられている。Ｎベスト解Ａ₁である「ＣＤ」、「ＰＣ」、「ＧＣ」、「ＯＣ」、「ＧＣＣ」には、認識スコア「０．９５」、「０．９３」、「０．８２」、「０．８１」、「０．７８」が関連付けられている。Ｎベスト解Ａ₂である「インターネット」、「イントラネット」、・・・には、認識スコア「０．８６」、「０．８４」、・・・が関連付けられている。すなわち、Ｎベスト解Ａ₁およびＮベスト解Ａ₂は、認識スコアの高い順に認識語彙が５個（Ｎ＝５）並んでいる。ここで、図２に示す例では、Ｎベスト解Ａ₁におけるベスト解Ａ₁（最も認識スコアの高い認識語彙）は、「ＣＤ」（認識スコア０．９５）となる。つまり、話者ａは、「ＰＣ」と発話しているにも関わらず、ベスト解Ａ₁は「ＣＤ」であり、認識結果が誤っている。また、Ｎベスト解Ａ₂におけるベスト解Ａ₂（最も認識スコアの高い認識語彙）は、「インターネット」（認識スコア０．８６）となる。さらに、Ｎベスト解Ａ₁には、時刻情報管理部１７が付加した時刻「１０：００：００」（１０時００分００秒）が関連付けられている。Ｎベスト解Ａ₂には、時刻情報管理部１７が付加した時刻「１０：００：０１」（１０時００分０１秒）が関連付けられている。

発話番号Ｂ０１には、「ＰＣ」の発話区間に対応するＮベスト解Ｂ₁が関連付けられている。Ｎベスト解Ｂ₁である「ＰＣ」、「ＣＤ」、「ＧＣＣ」、「ＫＣ」、「ＫＤ」には、認識スコア「０．９６」、「０．９１」、「０．８２」、「０．７８」、「０．７１」が関連付けられている。すなわち、Ｎベスト解Ｂ₁は、認識スコアの高い順に認識語彙が５個（Ｎ＝５）並んでいる。ここで、図２に示す例では、Ｎベスト解Ｂ₁におけるベスト解Ｂ₁（最も認識スコアの高い認識語彙）は、「ＰＣ」（認識スコア０．９６）となる。また、Ｎベスト解Ｂ₁には、時刻情報管理部１７が付加した時刻「１０：００：０５」（１０時００分０５秒）が関連付けられている。

認識結果抽出部１９は、Ｎベスト解Ａ（先方Ｎベスト解）、および、このＮベスト解Ａに対する発話Ａよりも時系列上後方の発話Ｂであって、かつ、このＮベスト解Ａに対する発話Ａとは異なる話者ｂによる発話Ｂによって得られたＮベスト解Ｂ（後方Ｎベスト解）を認識結果記憶部１８から抽出する。本実施形態においては、認識結果抽出部１９は、「ＰＣ」の発話区間に対応するＮベスト解Ａ₁、および、「ＰＣ」の発話区間に対応するＮベスト解Ｂ₁を認識結果記憶部１８から抽出したものとする。認識結果抽出部１９は、抽出したＮベスト解Ａ₁およびＮベスト解Ｂ₁を関連度算出部２１に出力する。

同義語情報記憶部２０は、認識語彙の同義語に関する情報を格納する。なお、同義語とは、１つの認識語彙に対して意味が同じで読み（発音）が異なる単語をいう。例えば、同義語情報記憶部２０には、認識語彙「ＰＣ（ぴーしー）」に対して、同義語「パソコン」、「パーソナルコンピュータ」が格納されている。また、例えば、同義語情報記憶部２０には、認識語彙「インターネット」に対して、同義語「ネット」が格納されている。

関連度算出部２１は、Ｎベスト解Ｂ₁が、Ｎベスト解Ａ₁に対する発話Ａへの応答発話Ｂによって得られたＮベスト解であるか否かの度合を表す関連度を算出する。具体的には、関連度算出部２１は、Ｎベスト解Ａ₁中のそれぞれの解と、Ｎベスト解Ｂ₁中のそれぞれの解とが一致する個数、および、Ｎベスト解Ａ₁中のそれぞれの解と、Ｎベスト解Ｂ₁中のそれぞれの解とが一致する解における、Ｎベスト解Ａ₁中の認識スコアに基づく順位とＮベスト解Ｂ₁中の認識スコアに基づく順位との差に基づいて関連度を算出する。なお、関連度算出部２１は、Ｎベスト解Ａ₁中のそれぞれの解と、Ｎベスト解Ｂ₁中のそれぞれの解とが一致するか否かの判断を行う際、同義語情報記憶部２０を参照することが好ましい。これにより、関連度算出部２１は、互いの解が相違する場合であっても、解と同義語、あるいは、互いの同義語が同一であれば、互いの解が一致すると判断することができる。

本実施形態においては、Ｎベスト解Ａ₁中のそれぞれの解と、Ｎベスト解Ｂ₁中のそれぞれの解とが一致する解は、「ＣＤ」、「ＰＣ」、「ＧＣＣ」の３個である。また、Ｎベスト解Ａ₁中の「ＣＤ」の順位は１位、「ＰＣ」の順位は２位、「ＧＣＣ」の順位は５位である。また、Ｎベスト解Ｂ₁中の「ＰＣ」の順位は１位、「ＣＤ」の順位は２位、「ＧＣＣ」の順位は３位である。このような場合において、本実施形態では、関連度算出部２１は、下記の（式１）により、関連度を算出する。下記の（式１）において、Ｘ，Ｙ，Ｚは、任意の正の定数を表す。なお、下記の（式１）において、Ｘ＞Ｙ＞Ｚのような関係としても良い。また、｜｜は、絶対値を表す。ここで、仮に、Ｎベスト解Ａ₁中の「ＣＤ」の順位と、Ｎベスト解Ｂ₁中の「ＣＤ」の順位とが同順位である場合、下記の（式１）では、Ｘ／０となり、関連度が無限大となる。したがって、このような場合、本実施形態においては、Ｘ／０を１．５Ｘに置き換えるものとする。なお、これと同様に、「ＰＣ」および「ＧＣＣ」の順位差がない場合も、Ｙ／０を１．５Ｙ、Ｚ／０を１．５Ｚに置き換えるものとする。
（式１）
関連度＝Ｘ／（｜ＣＤの順位差｜）＋Ｙ／（｜ＰＣの順位差｜）＋Ｚ／（｜ＧＣＣの順位差｜）
本実施形態においては、関連度は、上記の（式１）により、Ｘ＋Ｙ＋Ｚ／２となる。すなわち、上記の（式１）は、上記個数が多く、かつ、上記順位の差が小さい程、関連度が大きくなる式である。一方、これとは逆に、上記の（式１）は、上記個数が少なく、かつ、上記順位の差が大きい程、関連度が小さくなる式である。なお、上記の（式１）において、Ｎベスト解Ａ₁中のそれぞれの解と、Ｎベスト解Ｂ₁中のそれぞれの解とが一致する個数が０である場合は、関連度は０となる。関連度算出部２１は、算出した関連度を応答発話判定部２２に出力する。

なお、上記では、関連度算出部２１は、Ｎベスト解Ａ₁中のそれぞれの解と、Ｎベスト解Ｂ₁中のそれぞれの解とが一致する個数、および、Ｎベスト解Ａ₁中のそれぞれの解と、Ｎベスト解Ｂ₁中のそれぞれの解とが一致する解における、Ｎベスト解Ａ₁中の認識スコアに基づく順位とＮベスト解Ｂ₁中の認識スコアに基づく順位との差に基づいて関連度を算出する例について説明したが、これに限定されない。すなわち、関連度算出部２１は、Ｎベスト解Ａ₁中のそれぞれの解と、Ｎベスト解Ｂ₁中のそれぞれの解とが一致する個数に基づいて関連度を算出しても良い。また、関連度算出部２１は、Ｎベスト解Ａ₁中のそれぞれの解と、Ｎベスト解Ｂ₁中のそれぞれの解とが一致する解における、Ｎベスト解Ａ₁中の認識スコアに基づく順位とＮベスト解Ｂ₁中の認識スコアに基づく順位との差に基づいて関連度を算出しても良い。

また、上記では、関連度算出部２１は、上記の（式１）により、関連度を算出する例について説明したが、これに限定されない。例えば、関連度算出部２１は、指数関数を用いた下記の（式１−ａ）により、関連度を算出しても良い。なお、下記の（式１−ａ）において、Ａは、任意の正の定数を表す。すなわち、関連度算出部２１は、上記個数が多く、かつ、上記順位の差が小さい程、関連度が大きくなり、また、上記個数が少なく、かつ、上記順位の差が大きい程、関連度が小さくなるような式を用いて関連度を算出できれば、任意の式を用い得る。
（式１−ａ）
関連度＝（Ｘ／Ａ^CDノ順位差）＋（Ｙ／Ａ^PCノ順位差）＋（Ｚ／Ａ^GCCノ順位差）
応答発話判定部２２は、関連度算出部２１により算出された関連度が閾値以上である場合、Ｎベスト解Ｂ₁が、Ｎベスト解Ａ₁に対する発話Ａへの応答発話Ｂによって得られたＮベスト解であると判定する。なお、閾値は、応答発話判定部２２内に設けられたメモリに予め記録されている。閾値は、音声認識システム１のシステム管理者により設定される。本実施形態においては、関連度算出部２１により算出された関連度は閾値以上であるものとする。これにより、応答発話判定部２２は、Ｎベスト解Ｂ₁が、Ｎベスト解Ａ₁に対する発話Ａへの応答発話Ｂによって得られたＮベスト解であると判定する。

繰り返し発話判定部２３は、応答発話判定部２２によりＮベスト解Ｂ₁がＮベスト解Ａ₁に対する発話Ａへの応答発話Ｂによって得られたＮベスト解であると判定された場合、Ｎベスト解Ｂ₁が、Ｎベスト解Ａ₁に対する発話Ａの繰り返し発話Ｂによって得られたＮベスト解であるか否かを判定する。具体的には、繰り返し発話判定部２３は、Ｎベスト解Ｂ₁におけるベスト解Ｂ₁の認識スコアが所定の認識スコア以上であって、かつ、下記の（１）および（２）のいずれも満たす場合に、Ｎベスト解Ｂ₁が、Ｎベスト解Ａ₁に対する発話Ａの繰り返し発話Ｂによって得られたＮベスト解であると判定する。なお、所定の認識スコアおよび所定の順位は、繰り返し発話判定部２３内に設けられたメモリに予め記録されている。所定の認識スコアおよび所定の順位は、音声認識システム１のシステム管理者により設定される。
（１）Ｎベスト解Ａ₁中のいずれかの解が、Ｎベスト解Ｂ₁におけるベスト解Ｂ₁と一致する。
（２）上記ベスト解Ｂ₁と一致するＮベスト解Ａ₁中の解の認識スコアが所定の認識スコア以上、あるいは、上記ベスト解Ｂ₁と一致するＮベスト解Ａ₁中の解における、ベスト解Ａ₁からの順位が所定の順位以上である。

本実施形態においては、ベスト解Ｂ₁「ＰＣ」の認識スコアは「０．９６」である。本実施形態においては、ベスト解Ｂ₁「ＰＣ」の認識スコア「０．９６」は所定の認識スコア以上であるものとする。また、本実施形態においては、ベスト解Ｂ₁「ＰＣ」は、Ｎベスト解Ａ₁中の解「ＰＣ」（順位は２位）と一致している。すなわち、上記の（１）を満たす。さらに、本実施形態においては、Ｎベスト解Ａ₁中の解「ＰＣ」の認識スコアは「０．９３」であり、順位は２位である。本実施形態においては、Ｎベスト解Ａ₁中の解「ＰＣ」の認識スコア「０．９３」は所定の認識スコア以上であり、順位２位は所定の順位以上であるものとする。すなわち、上記の（２）を満たす。これにより、繰り返し発話判定部２３は、Ｎベスト解Ｂ₁が、Ｎベスト解Ａ₁に対する発話Ａの繰り返し発話Ｂによって得られたＮベスト解であると判定する。

なお、繰り返し発話判定部２３は、Ｎベスト解Ｂ₁が、Ｎベスト解Ａ₁に対する発話Ａの繰り返し発話Ｂによって得られたＮベスト解であると判定する際、同義語情報記憶部２０を参照することが好ましい。これにより、繰り返し発話判定部２３は、互いの解が相違する場合であっても、解と同義語、あるいは、互いの同義語が同一であれば、互いの解が一致すると判断することができる。

一致判定部２４は、繰り返し発話判定部２３によりＮベスト解Ｂ₁がＮベスト解Ａ₁に対する発話Ａの繰り返し発話Ｂによって得られたＮベスト解であると判定された場合、ベスト解Ａ₁とベスト解Ｂ₁とが一致するか否かを判定する。一致判定部２４は、ベスト解Ａ₁とベスト解Ｂ₁とが一致しない場合、ベスト解Ａ₁が誤っていると判定する。すなわち、一致判定部２４は、Ｎベスト解Ａ₁の一部または全部を、Ｎベスト解Ｂ₁の一部または全部で置き換えが可能であると判定する。本実施形態においては、ベスト解Ａ₁「ＣＤ」とベスト解Ｂ₁「ＰＣ」とは一致しないので、一致判定部２４は、Ｎベスト解Ａ₁の一部または全部を、Ｎベスト解Ｂ₁の一部または全部で置き換えが可能であると判定する。一致判定部２４は、判定した結果を認識結果修正部２５および照合処理変更部２８に出力する。

認識結果修正部２５は、一致判定部２４によりベスト解Ａ₁とベスト解Ｂ₁とが一致しないと判定された場合、Ｎベスト解Ａ₁が格納されている認識結果記憶部１８のベスト解Ａ₁を、ベスト解Ｂ₁に更新する。

本実施形態においては、認識結果修正部２５は、Ｎベスト解Ａ₁が格納されている認識結果記憶部１８のベスト解Ａ₁「ＣＤ」を、ベスト解Ｂ₁「ＰＣ」に更新する。具体的には、認識結果修正部２５は、Ｎベスト解Ａ₁中の解「ＰＣ」の認識スコア「０．９３」が、ベスト解Ａ₁「ＣＤ」の認識スコア「０．９５」より大きくなるように、重み付けをする。一例として、認識結果修正部２５は、Ｎベスト解Ａ₁中の解「ＰＣ」の認識スコア「０．９３」に、重み「０．０５」を加算する。これにより、Ｎベスト解Ａ₁中の解「ＰＣ」の認識スコアは「０．９８」となる。認識結果修正部２５は、ベスト解Ａ₁「ＣＤ」、認識スコア「０．９５」を、ベスト解Ａ₁「ＰＣ」、認識スコア「０．９８」に更新する。また、認識結果修正部２５は、ベスト解Ａ₁であった「ＣＤ」、認識スコア「０．９５」を、順位２位に繰り下げる。図３は、認識結果修正部２５により更新された後の、認識結果記憶部１８のデータ構造の一例を示す図である。図３に示すように、ベスト解Ａ₁は、認識結果修正部２５により、「ＣＤ」から「ＰＣ」へ更新されている。

なお、上記では、認識結果修正部２５が、Ｎベスト解Ａ₁中の解「ＰＣ」の認識スコア「０．９３」が、ベスト解Ａ₁「ＣＤ」の認識スコア「０．９５」より大きくなるように、重み付けをする例について説明したが、これに限定されない。例えば、認識結果修正部２５は、単に、ベスト解Ａ₁「ＣＤ」を、ベスト解Ｂ₁「ＰＣ」に置き換えるようにしても良い。これにより、重み付けをする場合と比較して、音声認識システム１の演算コストを低減することが可能となる。

また、ベスト解Ａ₁が「ＣＤ」から「ＰＣ」へ更新された場合であっても、認識結果修正部２５は、重み付けをする前の解「ＰＣ」、認識スコア「０．９３」をメモリに記録するようにしても良い。重み付けをする前の解と認識スコアについては、音声認識システム１の管理者により利用される場合もあるからである。

さらに、認識結果修正部２５は、Ｎベスト解Ａ₁が格納されている認識結果記憶部１８のベスト解Ａ₁「ＣＤ」を、ベスト解Ｂ₁「ＰＣ」に更新せずに、修正したベスト解Ａ₁「ＰＣ」、および、ベスト解Ｂ₁「ＰＣ」を出力提示部２７に出力するようにしても良い。

出力生成部２６は、結果出力部２６ａ、および、修正履歴生成部２６ｂをさらに備えている。

結果出力部２６ａは、認識結果記憶部１８に格納されているベスト解Ａ₁、ベスト解Ａ₂、および、ベスト解Ｂ₁を抽出する。本実施形態においては、結果出力部２６ａは、認識結果修正部２５により更新された後のベスト解Ａ₁「ＰＣ」、ベスト解Ａ₂「インターネット」、および、ベスト解Ｂ₁「ＰＣ」を抽出する。結果出力部２６ａは、抽出したベスト解Ａ₁「ＰＣ」、ベスト解Ａ₂「インターネット」、および、ベスト解Ｂ₁「ＰＣ」を出力提示部２７に出力する。

修正履歴生成部２６ｂは、認識結果修正部２５により更新された履歴を示す履歴データを生成する。本実施形態においては、認識結果修正部２５により、ベスト解Ａ₁が、「ＣＤ」から「ＰＣ」へ更新されている。このため、修正履歴生成部２６ｂは、ベスト解Ａ₁が、「ＣＤ」から「ＰＣ」へ更新された履歴を示す履歴データを生成する。修正履歴生成部２６ｂは、生成した履歴データを出力提示部２７に出力する。

出力提示部２７は、出力生成部２６から出力されたベスト解Ａ₁「ＰＣ」、ベスト解Ａ₂「インターネット」、ベスト解Ｂ₁「ＰＣ」、および、履歴データを、話者ｂ（オペレータ）に提示する。図４は、出力提示部２７に提示（表示）される表示画面の一例を示す概念図である。図４に示すように、出力提示部２７には、発話Ａに固有の発話番号「Ａ０１」と、ベスト解Ａ₁「ＰＣ」と、ベスト解Ａ₂「インターネット」と、発話Ｂに固有の発話番号「Ｂ０１」と、ベスト解Ｂ₁「ＰＣ」とが表示されている。また、出力提示部２７には、ベスト解Ａ₁が、「ＣＤ」から「ＰＣ」へ修正された履歴を示す「ＣＤ→ＰＣ」が表示されている。これにより、話者ｂにおいては、誤った認識結果が修正された履歴を確認することができる。なお、出力提示部２７は、履歴を示す「ＣＤ→ＰＣ」の表示を点滅あるいは強調することにより、話者ｂにこの履歴を見易くするようにしても良い。出力提示部２７は、例えば、液晶ディスプレイ、有機ＥＬディスプレイ、プラズマディスプレイ、ＣＲＴディスプレイ、スピーカ、音声合成装置などから構成される。

なお、話者ｂが図示しない入力手段を操作することにより、認識結果修正部２５により「ＣＤ」から「ＰＣ」へ更新されたベスト解Ａ₁を、元に戻す機能（アンドゥ機能）を備えるようにしても良い。すなわち、話者ｂがアンドゥ機能を指示した上で図示しない入力手段を操作すると、ベスト解Ａ₁は、更新された「ＰＣ」から更新される前の「ＣＤ」に戻る。これにより、出力提示部２７は、「ＣＤ→ＰＣ」の表示が「ＣＤ」の表示へと変更される。

照合処理変更部２８は、一致判定部２４によりベスト解Ａ₁とベスト解Ｂ₁とが一致すると判定された場合、共起情報および意味属性の少なくとも１つに基づいて、照合部１６による照合方法を変更させる。つまり、ベスト解Ａ₁とベスト解Ｂ₁とが一致する場合は、互いの解の信頼性が高い場合である。なお、共起情報は、認識語彙間の共起関係を表す情報である。共起関係とは、文章中で一緒に出現し易い認識語彙の組と、それらの認識語彙間の関係をいう。意味属性は、認識語彙の意味を表す属性である。共起情報は、共起情報記憶部２９に予め格納されている。意味属性は、意味属性記憶部３０に予め格納されている。

本実施形態においては、ベスト解Ａ₁「ＣＤ」と、ベスト解Ｂ₁「ＰＣ」とは一致していない（図２参照）。このため、本実施形態においては、照合処理変更部２８は、上記の処理を行わない。ここで、仮に、本実施形態において、ベスト解Ａ₁が「ＰＣ」であったものとすると、ベスト解Ａ₁「ＣＤ」とベスト解Ｂ₁「ＣＤ」とは一致する。このような場合、照合処理変更部２８は、共起情報および意味属性の少なくとも１つに基づいて、照合部１６による照合方法を変更させる。

一例として、照合処理変更部２８は、意味属性に基づいて、ベスト解Ａ₁およびベスト解Ｂ₁の「ＰＣ」と意味が関連する認識語彙を、この認識語彙以外の認識語彙よりも、認識スコアが高くなるように、照合部１６による照合方法を変更させる。ここでは、「ＰＣ」と意味が関連する認識語彙は、コンピュータ用語に関する認識語彙であるものとする。具体的には、照合処理変更部２８は、コンピュータ用語に関する認識語彙を、コンピュータ用語以外の認識語彙よりも認識スコアが高くなるように、例えば、コンピュータ用語に関する認識語彙に対して、所定の認識スコアを重み付けるように、照合部１６に指示する。すなわち、話者ａと話者ｂとによる対話において、ベスト解Ａ₁とベスト解Ｂ₁とが共に「ＰＣ」の場合は、認識結果の信頼性が極めて高いと判断でき、対話の内容もコンピュータに関連したものと特定し得る。また、次以降に発話する内容も、コンピュータに関する発話である可能性が高い。それゆえ、照合処理変更部２８が、コンピュータ用語に関する認識語彙に対して、所定の認識スコアを重み付けるように照合部１６に指示することにより、照合部１６による認識正解率を向上させることができる。

また、他の例として、照合処理変更部２８は、意味属性に基づいて、ベスト解Ａ₁およびベスト解Ｂ₁の「ＰＣ」と意味が関連する認識語彙を、照合対象となる認識語彙とし、それ以外の認識語彙を、照合対象とはならない認識語彙となるように、照合部１６による照合方法を変更させる。具体的には、照合処理変更部２８は、コンピュータ用語に関する認識語彙を照合対象となる認識語彙とし、それ以外の認識語彙を照合対象とはならない認識語彙となるように、照合部１６に指示する。すなわち、話者ａと話者ｂとによる対話において、ベスト解Ａ₁とベスト解Ｂ₁とが共に「ＰＣ」の場合は、認識結果の信頼性が極めて高いと判断でき、対話の内容もコンピュータに関連したものと特定し得る。また、次以降に発話する内容も、コンピュータに関する発話である可能性が高い。それゆえ、照合処理変更部２８が、コンピュータ用語に関する認識語彙を照合対象となる認識語彙とし、それ以外の認識語彙を照合対象とはならない認識語彙となるように、照合部１６に指示することにより、照合部１６による認識正解率を向上させることができる。

なお、話者ｂがアンドゥ機能を指示した上で図示しない入力手段を操作することにより、照合処理変更部２８が変更した照合部１６による照合方法を元に戻すようにしても良い。

ところで、上記の音声認識システム１は、パーソナルコンピュータなどの任意のコンピュータにプログラムをインストールすることによっても実現される。すなわち、上記の音声入力部１１、入力識別部１２、音響処理部１３、照合部１６、時刻情報管理部１７、認識結果抽出部１９、関連度算出部２１、応答発話判定部２２、繰り返し発話判定部２３、一致判定部２４、認識結果修正部２５、出力生成部２６、出力提示部２７、および、照合処理変更部２８は、コンピュータのＣＰＵがこれらの機能を実現するプログラムに従って動作することによって具現化される。したがって、音声入力部１１、入力識別部１２、音響処理部１３、照合部１６、時刻情報管理部１７、認識結果抽出部１９、関連度算出部２１、応答発話判定部２２、繰り返し発話判定部２３、一致判定部２４、認識結果修正部２５、出力生成部２６、出力提示部２７、および、照合処理変更部２８の機能を実現するためのプログラムまたはそれを記録した記録媒体も、本発明の一実施形態である。また、音響モデル記憶部１４、言語モデル記憶部１５、認識結果記憶部１８、同義語情報記憶部２０、共起情報記憶部２９、および、意味属性記憶部３０は、コンピュータの内蔵記憶装置またはこのコンピュータからアクセス可能な記憶装置によって具現化される。

なお、上記の音声認識システム１において、話者ｂが図示しない入力手段を操作することにより、認識結果修正部２５および照合処理変更部２８の機能を有効にするか、あるいは無効にするかを指示可能なように構成しても良い。

[音声認識システムの動作]
次に、上記の構成に係る音声認識システム１の処理について、図５を参照しながら説明する。

図５は、音声認識システム１の処理の概要を示すフローチャートである。すなわち、図５に示すように、音声入力部１１が、話者ａと話者ｂとの２話者による対話を受け付けると、音声入力部１１は、話者ａが発声した発話Ａを発話データＡに変換し、話者ｂが発声した発話Ｂを発話データＢに変換する（工程Ｏｐ１）。入力識別部１２は、工程Ｏｐ１にて変換された発話データＡに、発話番号Ａ０１を付加し、工程Ｏｐ１にて変換された発話データＢに、発話番号Ｂ０１を付加する（工程Ｏｐ２）。音響処理部１３は、入力識別部１２から出力された発話データＡを特徴量Ａに変換し、入力識別部１２から出力された発話データＢを特徴量Ｂに変換する（工程Ｏｐ３）。

そして、照合部１６は、上述の照合処理を行う（工程Ｏｐ４）。具体的には、照合部１６は、工程Ｏｐ３にて変換された特徴量Ａを用いて、発話Ａと言語モデル記憶部１５に格納されている複数の認識語彙との認識スコアを算出する。認識スコアを算出した結果、照合部１６は、最も認識スコアの高い認識語彙をベスト解Ａとすると、このベスト解Ａから認識スコアの高い上位Ｎ個（Ｎは１以上の整数）の認識語彙をＮベスト解Ａとして出力する。また、照合部１６は、工程Ｏｐ３にて変換された特徴量Ｂを用いて、発話Ｂと言語モデル記憶部１５に格納されている複数の認識語彙との認識スコアを算出する。認識スコアを算出した結果、照合部１６は、最も認識スコアの高い認識語彙をベスト解Ｂとすると、このベスト解Ｂから認識スコアの高い上位Ｎ個（Ｎは１以上の整数）の認識語彙をＮベスト解Ｂとして出力する。

時刻情報管理部１７は、工程Ｏｐ４にて出力されたＮベスト解Ａに、現在時刻を表す時刻情報を付加し、工程Ｏｐ４にて出力されたＮベスト解Ｂに、現在時刻を表す時刻情報を付加する（工程Ｏｐ５）。工程Ｏｐ５にて時刻情報が付加されたＮベスト解ＡおよびＮベスト解Ｂは、図２に示すように、認識結果記憶部１８に格納される。

そして、認識結果抽出部１９は、Ｎベスト解Ａ、および、このＮベスト解Ａに対する発話Ａよりも時系列上後方の発話Ｂであって、かつ、このＮベスト解Ａに対する発話Ａとは異なる話者ｂによる発話Ｂによって得られたＮベスト解Ｂを認識結果記憶部１８から抽出する（工程Ｏｐ６）。ここでは、認識結果抽出部１９は、「ＰＣ」の発話区間に対応するＮベスト解Ａ₁、および、「ＰＣ」の発話区間に対応するＮベスト解Ｂ₁を認識結果記憶部１８（図２参照）から抽出したものとする。

関連度算出部２１は、工程Ｏｐ６にて抽出されたＮベスト解Ｂ₁が、Ｎベスト解Ａ₁に対する発話Ａへの応答発話Ｂによって得られたＮベスト解であるか否かの度合を表す関連度を算出する（工程Ｏｐ７）。なお、関連度算出部２１は、上述の方法により関連度を算出する。応答発話判定部２２は、工程Ｏｐ７にて算出された関連度が閾値以上であれば（工程Ｏｐ８にてＹＥＳ）、工程Ｏｐ６にて抽出されたＮベスト解Ｂ₁が、Ｎベスト解Ａ₁に対する発話Ａへの応答発話Ｂによって得られたＮベスト解であると判定し、工程Ｏｐ９に進む。一方、応答発話判定部２２は、工程Ｏｐ７にて算出された関連度が閾値未満であれば（工程Ｏｐ８にてＮＯ）、工程Ｏｐ６にて抽出されたＮベスト解Ｂ₁が、Ｎベスト解Ａ₁に対する発話Ａへの応答発話Ｂによって得られたＮベスト解ではないと判定し、図５の処理を終了する。

繰り返し発話判定部２３は、Ｎベスト解Ｂ₁が、Ｎベスト解Ａ₁に対する発話Ａの繰り返し発話Ｂによって得られたＮベスト解であると判定すれば（工程Ｏｐ９にてＹＥＳ）、工程Ｏｐ１０に進む。一方、繰り返し発話判定部２３は、Ｎベスト解Ｂ₁が、Ｎベスト解Ａ₁に対する発話Ａの繰り返し発話Ｂによって得られたＮベスト解ではないと判定すれば（工程Ｏｐ９にてＮＯ）、図５の処理を終了する。

一致判定部２４は、Ｎベスト解Ａ₁におけるベスト解Ａ₁と、Ｎベスト解Ｂ₁におけるベスト解Ｂ₁とが一致するか否かを判定する。一致判定部２４は、ベスト解Ａ₁とベスト解Ｂ₁とが一致しないと判定すれば（工程Ｏｐ１０にてＮＯ）、Ｎベスト解Ａ₁の一部または全部を、Ｎベスト解Ｂ₁の一部または全部で置き換えが可能であると判定し、工程Ｏｐ１１に進む。

認識結果修正部２５は、Ｎベスト解Ａ₁が格納されている認識結果記憶部１８のベスト解Ａ₁を、ベスト解Ｂ₁に更新する（工程Ｏｐ１１）。結果出力部２６ａは、認識結果記憶部１８に格納されているベスト解Ａ₁、ベスト解Ａ₂、および、ベスト解Ｂ₁を抽出する（工程Ｏｐ１２）。修正履歴生成部２６ｂは、工程Ｏｐ１１にて更新された履歴を示す履歴データを生成する（工程Ｏｐ１３）。出力提示部２７は、工程Ｏｐ１２にて抽出されたベスト解Ａ₁、ベスト解Ａ₂、および、ベスト解Ｂ₁を提示し、工程Ｏｐ１３にて生成された履歴データを提示する（工程Ｏｐ１４）。

一方、一致判定部２４は、ベスト解Ａ₁とベスト解Ｂ₁とが一致すると判定すれば（工程Ｏｐ１０にてＹＥＳ）、照合処理変更部２８は、共起情報および意味属性の少なくとも１つに基づいて、照合部１６による照合方法を変更させる（工程Ｏｐ１５）。

以上のように、本実施形態に係る音声認識システム１によれば、繰り返し発話判定部２３によりＮベスト解Ｂ₁がＮベスト解Ａ₁に対する発話Ａの繰り返し発話Ｂによって得られたＮベスト解であると判定された場合、一致判定部２４は、ベスト解Ａ₁とベスト解Ｂ₁とが一致するか否かを判定する。ここで、ベスト解Ａ₁とベスト解Ｂ₁とが一致しない場合は、一致判定部２４は、ベスト解Ａ₁が誤っていると判定する。すなわち、一般に、オペレータは、ユーザと比較すると、日頃からはっきりと発声するように訓練を受けている。また、オペレータは、意図的に正しい認識結果が得られるように発話することができる。さらに、音声認識システム１がコールセンターに設置されており、ユーザの発話が電話回線を介して認識され、かつ、オペレータの発話が電話回線を介することなく認識される場合、ユーザの発話は、オペレータの発話と比較して、電話回線上の雑音が混入し、あるいは、各種フィルターを介することによって情報劣化が発生する可能性がある。このような理由から、本発明の一致判定部２４は、Ｎベスト解Ａの一部または全部を、Ｎベスト解Ｂの一部または全部で置き換えが可能であると判定する。これにより、ユーザとオペレータとの対話においてユーザの発話を誤認識した場合、このユーザが意識することなく、しかも、オペレータがキーボードのような入力手段を操作しなくとも、誤った認識結果を、対話を妨げることなく修正することができる。

なお、上記した具体例は、本発明に係る音声認識システム１の好適な実施形態に過ぎず、例えば、関連度算出部による関連度の算出処理や、出力提示部に提示される表示内容などについて、種々の変更が可能である。

[関連度算出部による関連度の算出処理の第１の変形例]
一例として、図５に示した工程Ｏｐ７において、関連度算出部２１による関連度の算出処理の第１の変形例を説明する。すなわち、関連度算出部２１は、Ｎベスト解ＡとＮベスト解Ｂとの時間差に基づいて関連度を算出する。第１の変形例においては、関連度算出部２１は、Ｎベスト解Ａ₁に付加された時刻情報が表す現在時刻「１０：００：００」と、Ｎベスト解Ｂ₁に付加された時刻情報が表す現在時刻「１０：００：０５」との時間差「５」に基づいて関連度を算出する。すなわち、第１の変形例においては、関連度算出部２１は、下記の（式２）により、関連度を算出する。下記の（式２）において、Ｘは、任意の正の定数を表す。また、｜｜は、絶対値を表す。
（式２）
関連度＝Ｘ／｜Ｎベスト解Ａ₁に付加された時刻情報が表す現在時刻と、Ｎベスト解Ｂ₁に付加された時刻情報が表す現在時刻との時間差｜
第１の変形例においては、関連度は、上記の（式２）により、Ｘ／５となる。すなわち、上記の（式２）は、上記時間差が小さい程、関連度が大きくなる式である。一方、これとは逆に、上記の（式２）は、上記時間差が大きい程、関連度が小さくなる式である。

[関連度算出部による関連度の算出処理の第２の変形例]
他の例として、図５に示した工程Ｏｐ７において、関連度算出部２１による関連度の算出処理の第２の変形例を説明する。すなわち、関連度算出部２１は、Ｐ個の発話区間にそれぞれ対応するＮベスト解Ａの中から時系列上はじめのＮベスト解Ａを１番目のＮベスト解Ａとし、Ｑ個の発話区間にそれぞれ対応するＮベスト解Ｂの中から時系列上はじめのＮベスト解Ｂを１番目のＮベスト解Ｂとする。ここでは、１番目のＮベスト解Ａは、Ｎベスト解Ａ₁である。また、１番目のＮベスト解Ｂは、Ｎベスト解Ｂ₁である。関連度算出部２１は、Ｑ個の発話区間にそれぞれ対応するＮベスト解Ｂの中から１のＮベスト解Ｂにおける、１番目のＮベスト解Ｂからの出現順と、この１のＮベスト解Ｂに対応するＮベスト解Ａにおける、１番目のＮベスト解Ａからの出現順との差に基づいて関連度を算出する。なお、Ｎベスト解ＡがＮベスト解Ｂに対応するか否かは、関連度算出部２１による上記の（式１）あるいは（式２）を用いることにより、判定する。第２の変形例においては、関連度算出部２１は、１番目のＮベスト解Ｂ₁と、この１番目のＮベスト解Ｂ₁に対応する１番目のＮベスト解Ａ₁との出現順の差「０」に基づいて関連度を算出する。すなわち、第２の変形例においては、関連度算出部２１は、下記の（式３）により、関連度を算出する。下記の（式３）において、Ｘ、Ｙは、任意の正の定数を表す。また、｜｜は、絶対値を表す。
（式３）
関連度＝Ｘ−Ｙ×（｜Ｎベスト解Ｂ₁の出現順とＮベスト解Ａ₁の出現順との差｜）
第２の変形例においては、関連度は、上記の（式３）により、Ｘとなる。すなわち、上記の（式３）は、上記出現順の差が小さい程、関連度が大きくなる式である。一方、これとは逆に、上記の（式３）は、上記出現順の差が大きい程、関連度が小さくなる式である。

[関連度算出部による関連度の算出処理の第３の変形例]
また、他の例として、図５に示した工程Ｏｐ７において、関連度算出部２１による関連度の算出処理の第３の変形例を説明する。図６は、第３の変形例に係る音声認識システム１ａの概略構成を示すブロック図である。すなわち、第３の変形例に係る音声認識システム１ａは、図１に示す音声認識システム１に加えて、機能語辞書５１を備えている。また、第３の変形例に係る音声認識システム１ａは、図１に示す出力生成部２６に加えて、機能語抽出部５２を備えている。なお、図６において、図１と同様の機能を有する構成については、同じ参照符号を付記し、その詳細な説明を省略する。

機能語辞書５１は、発話の出現順を表す機能語と、この出現順とを関連付けて格納する。図７は、機能語辞書５１のデータ構造の一例を示す図である。すなわち、機能語辞書５１は、発話の出現順を表す機能語と、この出現順とを、機能語テーブル５１ａとして格納する。図７に示す例では、機能語テーブル５１ａには、発話の出現順を表す機能語「１番目」、「２番目」、・・・「Ｎ番目」、「まず」、「つぎ」、・・・「終わりに」、「始めに」、・・・「最後に」が格納されている。また、機能語テーブル５１ａには、この機能語に関連付けてこの機能語が表す出現順が格納されている。なお、機能語辞書５１に格納されている機能語および出現順は、音声認識システム１ａの管理者により予め設定されている。

また、第３の変形例における照合部１６は、「まず、ＰＣについてですが」を示す特徴量Ｂから「まず」および「ＰＣ」の２個の発話区間を抽出したものとする。具体的には、照合部１６は、抽出した「まず」および「ＰＣ」の発話区間と、音響モデル記憶部１４に格納されているデータとを比較することにより、「まず」および「ＰＣ」の音素列（記号列）を抽出する。照合部１６は、抽出した「まず」および「ＰＣ」の音素列と、言語モデル記憶部１５に格納されている複数の認識語彙とを比較することにより、「まず」および「ＰＣ」の２個の発話区間にそれぞれ対応するＮベスト解Ｂを出力する。

このため、第３の変形例における認識結果記憶部１８には、図８に示すように、図２に示す認識結果記憶テーブル１８ａに代えて、認識結果記憶テーブル１８ｂが格納される。すなわち、認識結果記憶テーブル１８ｂには、認識結果記憶テーブル１８ａに加えて、発話番号Ｂ０１に、「まず」の発話区間に対応するＮベスト解Ｂ₁が関連付けられている。Ｎベスト解Ｂ₁である「まず」、「マップ」、・・・には、認識スコア「０．９０」、「０．６５」、・・・が関連付けられている。また、Ｎベスト解Ｂ₁には、時刻情報管理部１７が付加した時刻「１０：００：０５」（１０時００分０５秒）が関連付けられている。

関連度算出部２１は、Ｑ個の発話区間にそれぞれ対応するＮベスト解ＢのいずれかのＮベスト解Ｂにおけるベスト解Ｂと、機能語辞書５１に格納されている機能語とが一致する場合、この機能語と一致するベスト解Ｂを含むＮベスト解Ｂから時系列上次のＮベスト解Ｂの出現順を、この機能語が表す出現順とする。第３の変形例においては、関連度算出部２１は、ベスト解Ｂ₁「まず」およびベスト解Ｂ₂「ＰＣ」と、機能語とが一致するか否かを判定する。ここでは、ベスト解Ｂ₁「まず」が、機能語「まず」と一致する。このため、関連度算出部２１は、ベスト解Ｂ₁「まず」を含むＮベスト解Ｂ₁から時系列上次のＮベスト解Ｂ₂を、機能語「まず」が表す出現順「１」とする。すなわち、Ｎベスト解Ｂ₂は、２番目のＮベスト解Ｂ₂ではなく、１番目のＮベスト解Ｂ₂となる。

そして、関連度算出部２１は、第２の変形例と同様、Ｑ個の発話区間にそれぞれ対応するＮベスト解Ｂの中から１のＮベスト解Ｂにおける、１番目のＮベスト解Ｂからの出現順と、この１のＮベスト解Ｂに対応するＮベスト解Ａにおける、１番目のＮベスト解Ａからの出現順との差に基づいて関連度を算出する。第３の変形例においては、関連度算出部２１は、１番目のＮベスト解Ｂ₂と、この１番目のＮベスト解Ｂ₂に対応する１番目のＮベスト解Ａ₁との出現順の差「０」に基づいて関連度を算出する。なお、関連度を算出する式は、上記の（式３）と同様である。これにより、例えば、話者ｂが、「ＰＣ」を発話する前に他の発話をしていた場合であっても、機能語「まず」を発話した直後に「ＰＣ」と発話すれば、「ＰＣ」の発話区間に対応するＮベスト解Ｂ₂の出現順と、「ＰＣ」の発話区間に対応するＮベスト解Ａ₁の出現順とが共に同じ出現順（１番目）となる。それゆえ、関連度算出部２１は、上記の（式３）より、最大の関連度を算出することができる。この結果、単に時系列上の出現順の差に基づいて関連度を算出する第２の変形例よりも、より正確に関連度を算出することができる。

機能語抽出部５２は、Ｐ個の発話区間にそれぞれ対応するＮベスト解Ａにおける時系列上それぞれの出現順に対応する機能語を機能語辞書５１から抽出する。ここで、仮に、「ＰＣについて教えて。あとインターネットも」と話者ａが発話Ａを発声した後における認識結果記憶部１８には、図９に示すように、Ｎベスト解Ａ₁およびＮベスト解Ａ₂が、認識結果記憶テーブル１８ｃとして格納される。この場合、機能語抽出部５２は、２個の発話区間にそれぞれ対応するＮベスト解Ａにおける時系列上それぞれの出現順「１」、「２」に対応する機能語を機能語辞書５１から抽出する。すなわち、機能語抽出部５２は、出現順「１」に対応する機能語「１番目」、「まず」、「始めに」を機能語辞書５１から抽出し、出現順「２」に対応する機能語「２番目」、「つぎ」を機能語辞書５１から抽出する。機能語抽出部５２は、抽出した機能語を出力提示部２７に出力する。

出力提示部２７は、機能語抽出部５２により抽出された機能語を、Ｐ個の発話区間にそれぞれ対応するＮベスト解Ａにおけるそれぞれのベスト解Ａと対応させて提示する。第３の変形例においては、出力提示部２７は、機能語抽出部５２により抽出された機能語を、ベスト解Ａ₁「ＣＤ」、および、ベスト解Ａ₂「インターネット」と対応させて提示する。図１０は、出力提示部２７に表示（提示）される表示画面の一例を示す概念図である。図１０に示すように、出力提示部２７には、機能語「１番目／まず／始めに」と、ベスト解Ａ₁「ＣＤ」とが対応して表示されている。また、出力提示部２７には、機能語「２番目／つぎ」と、ベスト解Ａ₂「インターネット」とが対応して表示されている。これにより、話者ｂは、話者ａが「ＰＣ」と発話しているにも関わらず、認識結果（ベスト解Ａ₁）が「ＣＤ」と誤っていることが判る。誤った認識結果を修正するため、例えば、話者ｂが、このベスト解Ａ₁「ＣＤ」に対応して表示された機能語「１番目／まず／始めに」のうち、いずれかの機能語を発話した直後に正しい認識結果「ＰＣ」を繰り返して発話する。すなわち、第３の変形例においては、話者ｂは、「まず、ＰＣについてですが」と発話Ｂを発声する。これにより、上記にて説明したように、関連度算出部２１は、上記の（式３）により、最大の関連度を算出することができる。この結果、応答発話判定部２２は、確実に、Ｎベスト解Ｂが、Ｎベスト解Ａに対する発話Ａへの応答発話Ｂによって得られたＮベスト解であると判定することができる。

[関連度算出部による関連度の算出処理の第４の変形例]
さらに、他の例として、図５に示した工程Ｏｐ７において、関連度算出部２１による関連度の算出処理の第４の変形例を説明する。まず、本実施形態で説明した関連度算出部２１により算出された関連度を第１の関連度とし、第１の変形例で説明した関連度算出部２１により算出された関連度を第２の関連度とし、第２の変形例で説明した関連度算出部２１により算出された関連度を第３の関連度とし、第３の変形例で説明した関連度算出部２１により算出された関連度を第４の関連度とする。この場合、関連度算出部２１は、第１〜第４の関連度の全て、あるいは、第１〜第４の関連度のいずれかの組み合わせに基づいて関連度を算出する。例えば、関連度算出部２１は、第１〜第４の関連度の和あるいは積をとることにより、関連度を算出する。複数の組み合わせに基づいて関連度を算出するので、上述した実施形態、および、第１〜第３の変形例と比較して、より正確な関連度を算出することができる。

なお、上記では、関連度算出部２１は、第１〜第４の関連度の全て、あるいは、第１〜第４の関連度のいずれかの組み合わせに基づいて関連度を算出する例について説明したが、これに限定されない。例えば、関連度算出部２１は、第１〜第４の関連度にそれぞれ異なる重み付け、あるいは、補正値を適用した上で、関連度を算出するようにしても良い。

また、関連度の算出方法を変更する関連度算出方法変更部を設けても良い。一例として、関連度算出方法変更部は、関連度算出部２１が、第１および第２の関連度に基づいて関連度を算出するのか、第３および第４の関連度に基づいて関連度を算出するのかを変更させる。これにより、関連度算出方法変更部は、音声認識システムの都合に応じて関連度の算出方法を変更させることができる。

また、関連度算出部２１は、音声入力部１１が受け付けた発話Ａの音声波形と、音声入力部１１が受け付けた発話Ｂの音声波形とを、例えば、ＤＰマッチングを用いることにより類似度を算出し、この類似度に基づいて関連度を算出するようにしても良い。さらに、関連度算出部２１は、音響処理部１３が変換した特徴量Ａと、音響処理部１３が変換した特徴量Ｂとを、例えば、ＤＰマッチングを用いることにより類似度を算出し、この類似度に基づいて関連度を算出するようにしても良い。すなわち、関連度算出部２１は、Ｎベスト解Ｂが、Ｎベスト解Ａに対する発話Ａへの応答発話Ｂによって得られたＮベスト解であるか否かの度合を表す関連度を算出できれば、その方法は任意である。

さらに、上記では、繰り返し発話判定部２３は、Ｎベスト解Ｂ₁が、Ｎベスト解Ａ₁に対応する発話Ａの繰り返し発話Ｂによって得られたＮベスト解であるか否かを判定する例について説明したが、これに限定されない。すなわち、繰り返し発話判定部２３は、Ｎベスト解Ｂが、Ｎベスト解Ａに対する発話Ａよりも時系列上後方の発話であって、かつ、このＮベスト解Ａに対する発話Ａとは異なる話者による発話によって得られたＮベスト解であれば、繰り返し発話判定部２３による判定処理を行うことができる。

すなわち、本発明は上述した実施形態、および、第１〜第４の変形例に限定されるものではなく、請求項に示した範囲で種々の変更が可能である。すなわち、請求項に示した範囲で適宜変更した技術的手段を組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。

以上の実施の形態に関し、更に以下の付記を開示する。

（付記１）
発話を発声した話者を識別する入力識別部と、
発話と複数の認識語彙とを照合することにより算出された認識スコアの中から最も認識スコアの高い認識語彙をベスト解とするとき、当該ベスト解から認識スコアの高い上位Ｎ個（Ｎは１以上の整数）の認識語彙をＮベスト解として格納する認識結果記憶部と、
前記認識結果記憶部から抽出したＮベスト解を先方Ｎベスト解とするとき、当該先方Ｎベスト解に対する発話よりも時系列上後方の発話であって、かつ、当該先方Ｎベスト解に対する発話とは異なる話者による発話によって得られたＮベスト解を後方Ｎベスト解として前記認識結果記憶部から抽出する認識結果抽出部と、
前記後方Ｎベスト解が、前記先方Ｎベスト解に対する発話への応答発話によって得られたＮベスト解であるか否かの度合を表す関連度を算出する関連度算出部と、
前記関連度が閾値以上である場合、前記後方Ｎベスト解が、前記先方Ｎベスト解に対する発話への応答発話によって得られたＮベスト解であると判定する応答発話判定部と、
前記応答発話判定部により前記後方Ｎベスト解が前記先方Ｎベスト解に対する発話への応答発話によって得られたＮベスト解であると判定された場合、前記後方Ｎベスト解が、前記先方Ｎベスト解に対する発話の繰り返し発話によって得られたＮベスト解であるか否かを判定する繰り返し発話判定部と、
前記繰り返し発話判定部により前記後方Ｎベスト解が前記先方Ｎベスト解に対する発話の繰り返し発話によって得られたＮベスト解であると判定された場合、前記先方Ｎベスト解におけるベスト解を先方ベスト解、および、前記後方Ｎベスト解におけるベスト解を後方ベスト解とするとき、前記先方ベスト解と前記後方ベスト解とが一致するか否かを判定し、一致しない場合、前記先方Ｎベスト解の一部または全部を、前記後方Ｎベスト解の一部または全部で置き換えが可能であると判定する一致判定部とを備えることを特徴とする音声認識システム。

（付記２）
前記一致判定部により前記先方ベスト解と前記後方ベスト解とが一致しないと判定された場合、前記先方Ｎベスト解が格納されている前記認識結果記憶部の先方ベスト解を、前記後方ベスト解に更新する認識結果修正部と、
前記認識結果修正部により更新された後方ベスト解を出力する結果出力部とをさらに備える、付記１に記載の音声認識システム。

（付記３）
前記認識結果修正部により更新された履歴を示す履歴データを生成する修正履歴生成部と、
前記修正履歴生成部により生成された履歴データを提示する出力提示部とをさらに備える、付記２に記載の音声認識システム。

（付記４）
前記繰り返し発話判定部は、前記応答発話判定部により前記後方Ｎベスト解が前記先方Ｎベスト解に対する発話への応答発話によって得られたＮベスト解であると判定された場合、前記後方Ｎベスト解における後方ベスト解の認識スコアが所定の認識スコア以上であって、かつ、下記の（１）および（２）のいずれも満たす場合に、前記後方Ｎベスト解が、前記先方Ｎベスト解に対する発話の繰り返し発話によって得られたＮベスト解であると判定する、付記１〜３のいずれか一項に記載の音声認識システム。
（１）前記先方Ｎベスト解中のいずれかの解が、前記後方Ｎベスト解における後方ベスト解と一致する。
（２）前記後方ベスト解と一致する前記先方Ｎベスト解中の解の認識スコアが所定の認識スコア以上、あるいは、前記後方ベスト解と一致する前記先方Ｎベスト解中の解における、前記先方ベスト解からの順位が所定の順位以上である。

（付記５）
認識語彙間の共起関係を表す共起情報を格納した共起情報記憶部、および、認識語彙の意味を表す意味属性を格納した意味属性記憶部の少なくとも１つと、
前記一致判定部により前記先方ベスト解と前記後方ベスト解とが一致すると判定された場合、前記共起情報および前記意味属性の少なくとも１つに基づいて、発話と複数の認識語彙との照合方法を変更させる照合処理変更部とをさらに備える、付記１〜４のいずれか一項に記載の音声認識システム。

（付記６）
前記関連度算出部は、下記の（１）〜（４）の少なくとも１つに基づいて関連度を算出する、請求項１〜４のいずれか一項に記載の音声認識システム。
（１）前記先方Ｎベスト解中のそれぞれの解と前記後方Ｎベスト解中のそれぞれの解とが一致する個数
（２）前記先方Ｎベスト解中のそれぞれの解と前記後方Ｎベスト解中のそれぞれの解とが一致する解における、前記先方Ｎベスト解中の認識スコアに基づく順位と前記後方Ｎベスト解中の認識スコアに基づく順位との差
（３）前記先方Ｎベスト解が出力された時刻と前記後方Ｎベスト解が出力された時刻との時間差
（４）発話と複数の認識語彙とを照合することにより複数の先方Ｎベスト解が得られ、かつ、当該発話とは異なる話者による発話と複数の認識語彙とを照合することにより複数の後方Ｎベスト解が得られた場合、複数の先方Ｎベスト解の時系列上の出現順と、複数の後方Ｎベスト解の時系列上の出現順との差
（付記７）
前記関連度算出部は、前記先方Ｎベスト解中のそれぞれの解と前記後方Ｎベスト解中のそれぞれの解とが一致する個数が多く、かつ、前記先方Ｎベスト解中のそれぞれの解と前記後方Ｎベスト解中のそれぞれの解とが一致する解における、前記先方Ｎベスト解中の認識スコアに基づく順位と前記後方Ｎベスト解中の認識スコアに基づく順位との差が小さい程、大きい関連度を算出する、付記６に記載の音声認識システム。

（付記８）
前記Ｎベスト解に現在時刻を表す時刻情報を付加し、当該時刻情報を付加したＮベスト解を前記認識結果記憶部に書き込む時刻情報管理部をさらに備え、
前記関連度算出部は、前記先方Ｎベスト解に付加された時刻情報が表す現在時刻と、前記後方Ｎベスト解に付加された時刻情報が表す現在時刻との時間差が小さい程、大きい関連度を算出する、付記６に記載の音声認識システム。

（付記９）
前記関連度算出部は、発話と複数の認識語彙とを照合することにより複数の先方Ｎベスト解が得られ、かつ、当該発話とは異なる話者による発話と複数の認識語彙とを照合することにより複数の後方Ｎベスト解が得られた場合、複数の先方Ｎベスト解の時系列上の出現順と、複数の後方Ｎベスト解の時系列上の出現順との差が小さい程、大きい関連度を算出する、付記６に記載の音声認識システム。

（付記１０）
発話の出現順を表す機能語と、当該出現順とを関連付けて格納した機能語辞書をさらに備え、
前記関連度算出部は、複数の後方Ｎベスト解中のいずれかの後方Ｎベスト解における後方ベスト解と、前記機能語とが一致する場合、前記機能語と一致する後方ベスト解を含む後方Ｎベスト解から時系列上次の後方Ｎベスト解の出現順を、当該機能語が表す出現順とする、付記９に記載の音声認識システム。

（付記１１）
複数の先方Ｎベスト解における時系列上それぞれの出現順に対応する機能語を機能語辞書から抽出する機能語抽出部をさらに備え、
前記出力提示部は、前記機能語抽出部により抽出された機能語を、複数の先方Ｎベスト解におけるそれぞれの先方ベスト解と対応させて提示する、付記１０に記載の音声認識システム。

（付記１２）
発話と複数の認識語彙とを照合することにより算出された認識スコアの中から最も認識スコアの高い認識語彙をベスト解とするとき、当該ベスト解から認識スコアの高い上位Ｎ個（Ｎは１以上の整数）の認識語彙をＮベスト解として格納する認識結果記憶部を備えたコンピュータに、
発話を発声した話者を識別する入力識別処理と、
前記認識結果記憶部から抽出したＮベスト解を先方Ｎベスト解とするとき、当該先方Ｎベスト解に対する発話よりも時系列上後方の発話であって、かつ、当該先方Ｎベスト解に対する発話とは異なる話者による発話によって得られたＮベスト解を後方Ｎベスト解として前記認識結果記憶部から抽出する認識結果抽出処理と、
前記後方Ｎベスト解が、前記先方Ｎベスト解に対する発話への応答発話によって得られたＮベスト解であるか否かの度合を表す関連度を算出する関連度算出処理と、
前記関連度が閾値以上である場合、前記後方Ｎベスト解が、前記先方Ｎベスト解に対する発話への応答発話によって得られたＮベスト解であると判定する応答発話判定処理と、
前記応答発話判定処理により前記後方Ｎベスト解が前記先方Ｎベスト解に対する発話への応答発話によって得られたＮベスト解であると判定された場合、前記後方Ｎベスト解が、前記先方Ｎベスト解に対する発話の繰り返し発話によって得られたＮベスト解であるか否かを判定する繰り返し発話判定処理と、
前記繰り返し発話判定処理により前記後方Ｎベスト解が前記先方Ｎベスト解に対する発話の繰り返し発話によって得られたＮベスト解であると判定された場合、前記先方Ｎベスト解におけるベスト解を先方ベスト解、および、前記後方Ｎベスト解におけるベスト解を後方ベスト解とするとき、前記先方ベスト解と前記後方ベスト解とが一致するか否かを判定し、一致しない場合、前記先方ベスト解の一部または全部を、前記後方Ｎベスト解の一部または全部で置き換えが可能であると判定する一致判定処理とを実行させることを特徴とする音声認識プログラム。

本発明は、発話を認識可能な音声認識システムまたは音声認識プログラムとして利用可能である。

本発明の実施形態に係る音声認識システムの概略構成を示すブロック図である。上記音声認識システムにおける認識結果記憶部のデータ構造の一例を示す図である。上記音声認識システムにおける認識結果修正部により更新された後の、上記認識結果記憶部のデータ構造の一例を示す図である。上記音声認識システムにおける出力提示部に提示される表示画面の一例を示す概念図である。上記音声認識システムの動作の一例を示すフローチャートである。本発明の第３の変形例に係る音声認識システムの概略構成を示すブロック図である。上記音声認識システムにおける機能語辞書のデータ構造の一例を示す図である。上記音声認識システムにおける認識結果記憶部のデータ構造の一例を示す図である。話者ｂが発話Ｂを発声する前であって、話者ａが発話Ａを発声した後における上記認識結果記憶部のデータ構造の一例を示す図である。話者ｂが発話Ｂを発声する前であって、話者ａが発話Ａを発声した後の上記音声認識システムにおける出力提示部に提示される表示画面の一例を示す概念図である。

符号の説明

１、１ａ音声認識システム
１２入力識別部
１７時刻情報管理部
１８認識結果記憶部
１９認識結果抽出部
２０同義語情報記憶部
２１関連度算出部
２２応答発話判定部
２３繰り返し発話判定部
２４一致判定部
２５認識結果修正部
２６ａ結果出力部
２６ｂ修正履歴生成部
２７出力提示部
２８照合処理変更部
２９共起情報記憶部
３０意味属性記憶部
５１機能語辞書
５２機能語抽出部

Claims

発話を発声した話者を識別する入力識別部と、
発話と複数の認識語彙とを照合することにより算出された認識スコアの中から最も認識スコアの高い認識語彙をベスト解とするとき、当該ベスト解から認識スコアの高い上位Ｎ個（Ｎは１以上の整数）の認識語彙をＮベスト解として格納する認識結果記憶部と、
前記認識結果記憶部から抽出したＮベスト解を先方Ｎベスト解とするとき、当該先方Ｎベスト解に対する発話よりも時系列上後方の発話であって、かつ、当該先方Ｎベスト解に対する発話とは異なる話者による発話によって得られたＮベスト解を後方Ｎベスト解として前記認識結果記憶部から抽出する認識結果抽出部と、
前記後方Ｎベスト解が、前記先方Ｎベスト解に対する発話への応答発話によって得られたＮベスト解であるか否かの度合を表す関連度を算出する関連度算出部と、
前記関連度が閾値以上である場合、前記後方Ｎベスト解が、前記先方Ｎベスト解に対する発話への応答発話によって得られたＮベスト解であると判定する応答発話判定部と、
前記応答発話判定部により前記後方Ｎベスト解が前記先方Ｎベスト解に対する発話への応答発話によって得られたＮベスト解であると判定された場合、前記後方Ｎベスト解が、前記先方Ｎベスト解に対する発話の繰り返し発話によって得られたＮベスト解であるか否かを判定する繰り返し発話判定部と、
前記繰り返し発話判定部により前記後方Ｎベスト解が前記先方Ｎベスト解に対する発話の繰り返し発話によって得られたＮベスト解であると判定された場合、前記先方Ｎベスト解におけるベスト解を先方ベスト解、および、前記後方Ｎベスト解におけるベスト解を後方ベスト解とするとき、前記先方ベスト解と前記後方ベスト解とが一致するか否かを判定し、一致しない場合、前記先方Ｎベスト解の一部または全部を、前記後方Ｎベスト解の一部または全部で置き換えが可能であると判定する一致判定部とを備えることを特徴とする音声認識システム。
前記一致判定部により前記先方ベスト解と前記後方ベスト解とが一致しないと判定された場合、前記先方Ｎベスト解が格納されている前記認識結果記憶部の先方ベスト解を、前記後方ベスト解に更新する認識結果修正部と、
前記認識結果修正部により更新された後方ベスト解を出力する結果出力部とをさらに備える、請求項１に記載の音声認識システム。
前記繰り返し発話判定部は、前記応答発話判定部により前記後方Ｎベスト解が前記先方Ｎベスト解に対する発話への応答発話によって得られたＮベスト解であると判定された場合、前記後方Ｎベスト解における後方ベスト解の認識スコアが所定の認識スコア以上であって、かつ、下記の（１）および（２）のいずれも満たす場合に、前記後方Ｎベスト解が、前記先方Ｎベスト解に対する発話の繰り返し発話によって得られたＮベスト解であると判定する、請求項１または２に記載の音声認識システム。
（１）前記先方Ｎベスト解中のいずれかの解が、前記後方Ｎベスト解における後方ベスト解と一致する。
（２）前記後方ベスト解と一致する前記先方Ｎベスト解中の解の認識スコアが所定の認識スコア以上、あるいは、前記後方ベスト解と一致する前記先方Ｎベスト解中の解における、前記先方ベスト解からの順位が所定の順位以上である。
認識語彙間の共起関係を表す共起情報を格納した共起情報記憶部、および、認識語彙の意味を表す意味属性を格納した意味属性記憶部の少なくとも１つと、
前記一致判定部により前記先方ベスト解と前記後方ベスト解とが一致すると判定された場合、前記共起情報および前記意味属性の少なくとも１つに基づいて、発話と複数の認識語彙との照合方法を変更させる照合処理変更部とをさらに備える、請求項１〜３のいずれか一項に記載の音声認識システム。
前記関連度算出部は、下記の（１）〜（４）の少なくとも１つに基づいて関連度を算出する、請求項１〜４のいずれか一項に記載の音声認識システム。
（１）前記先方Ｎベスト解中のそれぞれの解と前記後方Ｎベスト解中のそれぞれの解とが一致する個数
（２）前記先方Ｎベスト解中のそれぞれの解と前記後方Ｎベスト解中のそれぞれの解とが一致する解における、前記先方Ｎベスト解中の認識スコアに基づく順位と前記後方Ｎベスト解中の認識スコアに基づく順位との差
（３）前記先方Ｎベスト解が出力された時刻と前記後方Ｎベスト解が出力された時刻との時間差
（４）発話と複数の認識語彙とを照合することにより複数の先方Ｎベスト解が得られ、かつ、当該発話とは異なる話者による発話と複数の認識語彙とを照合することにより複数の後方Ｎベスト解が得られた場合、複数の先方Ｎベスト解の時系列上の出現順と、複数の後方Ｎベスト解の時系列上の出現順との差
発話と複数の認識語彙とを照合することにより算出された認識スコアの中から最も認識スコアの高い認識語彙をベスト解とするとき、当該ベスト解から認識スコアの高い上位Ｎ個（Ｎは１以上の整数）の認識語彙をＮベスト解として格納する認識結果記憶部を備えたコンピュータに、
発話を発声した話者を識別する入力識別処理と、
前記認識結果記憶部から抽出したＮベスト解を先方Ｎベスト解とするとき、当該先方Ｎベスト解に対する発話よりも時系列上後方の発話であって、かつ、当該先方Ｎベスト解に対する発話とは異なる話者による発話によって得られたＮベスト解を後方Ｎベスト解として前記認識結果記憶部から抽出する認識結果抽出処理と、
前記後方Ｎベスト解が、前記先方Ｎベスト解に対する発話への応答発話によって得られたＮベスト解であるか否かの度合を表す関連度を算出する関連度算出処理と、
前記関連度が閾値以上である場合、前記後方Ｎベスト解が、前記先方Ｎベスト解に対する発話への応答発話によって得られたＮベスト解であると判定する応答発話判定処理と、
前記応答発話判定処理により前記後方Ｎベスト解が前記先方Ｎベスト解に対する発話への応答発話によって得られたＮベスト解であると判定された場合、前記後方Ｎベスト解が、前記先方Ｎベスト解に対する発話の繰り返し発話によって得られたＮベスト解であるか否かを判定する繰り返し発話判定処理と、
前記繰り返し発話判定処理により前記後方Ｎベスト解が前記先方Ｎベスト解に対する発話の繰り返し発話によって得られたＮベスト解であると判定された場合、前記先方Ｎベスト解におけるベスト解を先方ベスト解、および、前記後方Ｎベスト解におけるベスト解を後方ベスト解とするとき、前記先方ベスト解と前記後方ベスト解とが一致するか否かを判定し、一致しない場合、前記先方ベスト解の一部または全部を、前記後方Ｎベスト解の一部または全部で置き換えが可能であると判定する一致判定処理とを実行させることを特徴とする音声認識プログラム。