JP2008233229A - 音声認識システム、および、音声認識プログラム - Google Patents

音声認識システム、および、音声認識プログラム Download PDF

Info

Publication number
JP2008233229A
JP2008233229A JP2007069123A JP2007069123A JP2008233229A JP 2008233229 A JP2008233229 A JP 2008233229A JP 2007069123 A JP2007069123 A JP 2007069123A JP 2007069123 A JP2007069123 A JP 2007069123A JP 2008233229 A JP2008233229 A JP 2008233229A
Authority
JP
Japan
Prior art keywords
best solution
utterance
solution
backward
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2007069123A
Other languages
English (en)
Other versions
JP4812029B2 (ja
Inventor
Kenji Abe
賢司 阿部
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2007069123A priority Critical patent/JP4812029B2/ja
Priority to US12/034,978 priority patent/US8346553B2/en
Priority to EP08004158A priority patent/EP1970898A1/en
Priority to CN2008100860661A priority patent/CN101266792B/zh
Publication of JP2008233229A publication Critical patent/JP2008233229A/ja
Application granted granted Critical
Publication of JP4812029B2 publication Critical patent/JP4812029B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Machine Translation (AREA)

Abstract

【課題】少なくとも2話者による対話において1の話者の発話を誤認識した場合、この1の話者が意識することなく、しかも、他の話者がキーボードのような入力手段を操作しなくとも、誤った認識結果を、対話を妨げることなく修正することができる音声認識システム、および、音声認識プログラムを提供する。
【解決手段】Nベスト解A、および、Nベスト解Aに対する発話Aよりも時系列上後方の発話Bであって、発話Aとは異なる話者bによる発話Bによって得られたNベスト解Bを認識結果記憶部18から抽出する認識結果抽出部19と、繰り返し発話判定部23によりNベスト解BがNベスト解Aに対する発話Aの繰り返し発話Bによって得られたNベスト解であると判定された場合、ベスト解Aとベスト解Bとが一致しないとき、Nベスト解Aの一部または全部を、Nベスト解Bの一部または全部で置き換えが可能であると判定する一致判定部24とを備える。
【選択図】図1

Description

本発明は、発話を認識可能な音声認識システム、および、音声認識プログラムに関する。
近年では、例えば、購入商品に関するユーザからの問い合わせ、苦情、相談などを電話で受け付ける際には、ユーザからの電話に応答するオペレータが配置されたコールセンターを設置することが一般に行われている。コールセンターには、ユーザからの電話に速やかに対応できるように、相応の人数のオペレータが配置されている。
このようなコールセンターにおいては、音声認識システムを用いることにより、オペレータとユーザとの対話を認識し、認識結果である対話を記録することが一般に行われている。なお、記録された対話は、オペレータのパーソナルコンピュータの表示画面上に表示される場合もある。オペレータとユーザとの対話が記録されることにより、例えば、ユーザがどのような情報について知りたがっているのかなどを分析することができる。分析した結果については、例えば、今後のビジネス展開のヒントとして活用することができる。また、分析した結果については、オペレータが保有するマニュアルに反映させることにより、オペレータの円滑な業務遂行のために活用することができる。
ここで、音声認識システムにおいて、オペレータとユーザとの対話を誤認識した場合、対話の内容が誤った認識結果に基づいて記録される。対話の内容が誤った認識結果に基づいて記録されると、正確な分析をすることができなくなる。このため、音声認識システムによる誤認識を修正する必要がある。ここで、音声認識システムによる誤認識を修正する方法として、例えば、以下の特許文献1および特許文献2が知られている。
特許文献1には、ユーザの発話を音声認識システムが誤認識した場合、ユーザにおいて再度発話(言い直し)をすることにより、音声認識システムによる誤認識を修正する方法が開示されている。具体的には、言い直し判定部が、ユーザの再度の発話を言い直しの発話であると判定すれば、認識処理部は、認識候補登録部に記憶されている過去の認識候補と、今回の処理で得られた認識候補との双方を用いることにより、調整された認識候補を出力する。これにより、ユーザにおいて、誤認識に気付くことができれば、言い直しの発話によって、誤認識を修正することが可能となる。
また、特許文献2には、送受話器を介して送受信された通話内容を送話側と受話側とに分けることにより、認識結果の確認および修正が容易となる通話内容書き起こしシステムが開示されている。具体的には、送話側チャネルからの音声は、第1音声認識手段によって認識される。また、受話側チャネルからの音声は、第2音声認識手段によって認識される。第1音声認識手段および第2音声認識手段によって認識された音声は、文字列変換手段によって文字列となり、表示手段に表示される。表示手段によって表示された文字列は、例えばキーボードなどの入力手段によって編集される。これにより、送話側および受話側の通話内容が時系列に並べて表示されるので、編集者は、通話内容を書き起こすことが容易となる。
特開平11−149294号公報 特開2005−123869号公報
ところで、コールセンターにおいては、オペレータとユーザとの対話の認識結果を、オペレータのパーソナルコンピュータの表示画面上に表示することが可能であるので、オペレータは、認識結果が正しいか否かを確認することができる。これに対して、ユーザは、認識結果を確認することができない。すなわち、ユーザは、オペレータとユーザとの対話が、音声認識システムにより認識され、認識結果である対話が記録されていること自体を意識していない場合が多い。このため、音声認識システムが、オペレータとユーザとの対話を誤認識した場合であっても、ユーザは、言い直しの発話をすることなく、継続して発話をしてしまう。それゆえ、このような場合は、特許文献1の誤認識を修正する方法は適用することができない。
一方、オペレータは、音声認識システムが、オペレータとユーザとの対話を誤認識した場合、誤った認識結果を修正する必要がある。具体的には、オペレータは、パーソナルコンピュータの表示画面上に表示された誤った認識結果を、キーボードを操作することにより修正する。しかしながら、オペレータとユーザとの対話を妨げることなく、キーボードを操作し誤った認識結果を修正することは困難である。そこで、オペレータとユーザとの対話が終了した後に、キーボードを操作することにより誤った認識結果を修正することが考えられる。しかしながら、この場合、オペレータは、誤った認識結果が発生した箇所や、正しい認識結果を覚えておく必要がある。また、オペレータとユーザとの対話を録音した場合、オペレータは、誤った認識結果が発生した箇所や、正しい認識結果を覚えておく必要はないが、録音した対話を聞き直すのに手間と時間を要する。それゆえ、このような場合は、特許文献2の誤認識を修正する方法は適用することができない。
本発明は、上記の問題点に鑑みてなされたものであり、その目的は、少なくとも2話者による対話において1の話者の発話を誤認識した場合、この1の話者が意識することなく、しかも、他の話者がキーボードのような入力手段を操作しなくとも、誤った認識結果を、対話を妨げることなく修正することができる音声認識システム、および、音声認識プログラムを提供することにある。
上記目的を達成するために本発明における音声認識システムは、発話を発声した話者を識別する入力識別部と、発話と複数の認識語彙とを照合することにより算出された認識スコアの中から最も認識スコアの高い認識語彙をベスト解とするとき、当該ベスト解から認識スコアの高い上位N個(Nは1以上の整数)の認識語彙をNベスト解として格納する認識結果記憶部と、前記認識結果記憶部から抽出したNベスト解を先方Nベスト解とするとき、当該先方Nベスト解に対する発話よりも時系列上後方の発話であって、かつ、当該先方Nベスト解に対する発話とは異なる話者による発話によって得られたNベスト解を後方Nベスト解として前記認識結果記憶部から抽出する認識結果抽出部と、前記後方Nベスト解が、前記先方Nベスト解に対する発話への応答発話によって得られたNベスト解であるか否かの度合を表す関連度を算出する関連度算出部と、前記関連度が閾値以上である場合、前記後方Nベスト解が、前記先方Nベスト解に対する発話への応答発話によって得られたNベスト解であると判定する応答発話判定部と、前記応答発話判定部により前記後方Nベスト解が前記先方Nベスト解に対する発話への応答発話によって得られたNベスト解であると判定された場合、前記後方Nベスト解が、前記先方Nベスト解に対する発話の繰り返し発話によって得られたNベスト解であるか否かを判定する繰り返し発話判定部と、前記繰り返し発話判定部により前記後方Nベスト解が前記先方Nベスト解に対する発話の繰り返し発話によって得られたNベスト解であると判定された場合、前記先方Nベスト解におけるベスト解を先方ベスト解、および、前記後方Nベスト解におけるベスト解を後方ベスト解とするとき、前記先方ベスト解と前記後方ベスト解とが一致するか否かを判定し、一致しない場合、前記先方Nベスト解の一部または全部を、前記後方Nベスト解の一部または全部で置き換えが可能であると判定する一致判定部とを備えることを特徴とする。
本発明の音声認識システムによれば、関連度算出部は、後方Nベスト解が、先方Nベスト解に対する発話への応答発話によって得られたNベスト解であるか否かの度合を表す関連度を算出する。なお、後方Nベスト解は、先方Nベスト解に対する発話よりも時系列上後方の発話であって、かつ、この先方Nベスト解に対する発話とは異なる話者による発話によって得られたNベスト解である。一例として、先方Nベスト解に対する発話がユーザによる発話であって、後方Nベスト解に対する発話がコールセンターのオペレータによる発話であるという事例が考えられる。ここで、応答発話判定部は、関連度が閾値以上である場合、後方Nベスト解が、先方Nベスト解に対する発話への応答発話によって得られたNベスト解であると判定する。繰り返し発話判定部は、後方Nベスト解が、先方Nベスト解に対する発話の繰り返し発話によって得られたNベスト解であるか否かを判定する。繰り返し発話判定部により後方Nベスト解が先方Nベスト解に対する発話の繰り返し発話によって得られたNベスト解であると判定された場合、一致判定部は、先方ベスト解と後方ベスト解とが一致するか否かを判定する。ここで、先方ベスト解と後方ベスト解とが一致しない場合は、一致判定部は、先方ベスト解が誤っていると判定する。
前述の事例では、一般に、オペレータは、ユーザと比較すると、日頃からはっきりと発声するように訓練を受けている。また、オペレータは、意図的に正しい認識結果が得られるように発話することができる。さらに、音声認識システムがコールセンターに設置されており、ユーザの発話が電話回線を介して認識され、かつ、オペレータの発話が電話回線を介することなく認識される場合、ユーザの発話は、オペレータの発話と比較して、電話回線上の雑音が混入し、あるいは、各種フィルターを介することによって情報劣化が発生する可能性がある。このような理由から、本発明の一致判定部は、先方Nベスト解の一部または全部を、後方Nベスト解の一部または全部で置き換えが可能であると判定する。これにより、ユーザとオペレータとの対話においてユーザの発話を誤認識した場合、このユーザが意識することなく、しかも、オペレータがキーボードのような入力手段を操作しなくとも、誤った認識結果を、対話を妨げることなく修正することができる。
なお、先方Nベスト解および後方Nベスト解のNは、互いに同じ値であっても良いし、互いに異なる値であっても良い。
上記本発明における音声認識システムにおいては、前記一致判定部により前記先方ベスト解と前記後方ベスト解とが一致しないと判定された場合、前記先方Nベスト解が格納されている前記認識結果記憶部の先方ベスト解を、前記後方ベスト解に更新する認識結果修正部と、前記認識結果修正部により更新された後方ベスト解を出力する結果出力部とをさらに備える態様とするのが好ましい。
上記構成によれば、認識結果修正部は、先方Nベスト解が格納されている認識結果記憶部の先方ベスト解を、後方ベスト解に更新する。これにより、結果出力部は、更新された後方ベスト解を出力することができる。
上記本発明における音声認識システムにおいては、前記認識結果修正部により更新された履歴を示す履歴データを生成する修正履歴生成部と、前記修正履歴生成部により生成された履歴データを提示する出力提示部とをさらに備える態様とするのが好ましい。
上記構成によれば、修正履歴生成部は、更新された履歴を示す履歴データを生成する。出力提示部は、この履歴データを提示する。これにより、例えば、オペレータは、誤った認識結果が修正された履歴を確認することができる。
上記本発明における音声認識システムにおいては、前記繰り返し発話判定部は、前記応答発話判定部により前記後方Nベスト解が前記先方Nベスト解に対する発話への応答発話によって得られたNベスト解であると判定された場合、前記後方Nベスト解における後方ベスト解の認識スコアが所定の認識スコア以上であって、かつ、下記の(1)および(2)のいずれも満たす場合に、前記後方Nベスト解が、前記先方Nベスト解に対する発話の繰り返し発話によって得られたNベスト解であると判定する態様とするのが好ましい。
(1)前記先方Nベスト解中のいずれかの解が、前記後方Nベスト解における後方ベスト解と一致する。
(2)前記後方ベスト解と一致する前記先方Nベスト解中の解の認識スコアが所定の認識スコア以上、あるいは、前記後方ベスト解と一致する前記先方Nベスト解中の解における、前記先方ベスト解からの順位が所定の順位以上である。
上記構成によれば、繰り返し発話判定部は、上記の条件を満たす場合に、後方Nベスト解が、先方Nベスト解に対する発話の繰り返し発話によって得られたNベスト解であると判定することができる。
上記本発明における音声認識システムにおいては、認識語彙間の共起関係を表す共起情報を格納した共起情報記憶部、および、認識語彙の意味を表す意味属性を格納した意味属性記憶部の少なくとも1つと、前記一致判定部により前記先方ベスト解と前記後方ベスト解とが一致すると判定された場合、前記共起情報および前記意味属性の少なくとも1つに基づいて、発話と複数の認識語彙との照合方法を変更させる照合処理変更部とをさらに備える態様とするのが好ましい。
ところで、先方ベスト解と後方ベスト解とが一致する場合は、互いの解の信頼性が高い場合である。したがって、このような場合、照合処理変更部は、共起情報および意味属性の少なくとも1つに基づいて、発話と認識語彙との照合方法を変更させる。
一例として、照合処理変更部は、先方ベスト解および後方ベスト解と共起関係となる認識語彙、あるいは、先方ベスト解および後方ベスト解と意味が関連する認識語彙を、この認識語彙以外の認識語彙よりも、認識スコアが高くなるように、照合方法を変更させる。具体的には、先方ベスト解および後方ベスト解が「PC」である場合、「PC」と意味が関連するコンピュータ用語に関する認識語彙を、コンピュータ用語以外の認識語彙よりも認識スコアが高くなるように、例えば、コンピュータ用語に関する認識語彙に対して、所定の認識スコアを重み付ける。すなわち、ユーザの発話によって得られた先方ベスト解とオペレータの発話によって得られた後方ベスト解とが共に「PC」の場合は、認識結果の信頼性が極めて高いと判断でき、対話の内容もコンピュータに関連したものと特定し得る。また、次以降に発話する内容も、コンピュータに関する発話である可能性が高い。それゆえ、照合処理変更部が、コンピュータ用語に関する認識語彙に対して、所定の認識スコアを重み付けるように照合方法を変更させることにより、音声認識システムの認識正解率を向上させることができる。
他の例として、照合処理変更部は、先方ベスト解および後方ベスト解と共起関係となる認識語彙、あるいは、先方ベスト解および後方ベスト解と意味が関連する認識語彙を、照合対象となる認識語彙とし、それ以外の認識語彙を、照合対象とはならない認識語彙とするように、照合方法を変更させる。具体的には、先方ベスト解および後方ベスト解が「PC」である場合、「PC」と意味が関連するコンピュータ用語に関する認識語彙を照合対象となる認識語彙とし、それ以外の認識語彙を照合対象とはならない認識語彙とするように、照合方法を変更させる。すなわち、ユーザの発話によって得られた先方ベスト解とオペレータの発話によって得られた後方ベスト解とが共に「PC」の場合は、認識結果の信頼性が極めて高いと判断でき、対話の内容もコンピュータに関連したものと特定し得る。また、次以降に発話する内容も、コンピュータに関する発話である可能性が高い。それゆえ、照合処理変更部が、コンピュータ用語に関する認識語彙を照合対象となる認識語彙とし、それ以外の認識語彙を照合対象とはならない認識語彙とするように照合方法を変更させることにより、音声認識システムの認識正解率を向上させることができる。
前記関連度算出部は、下記の(1)〜(4)の少なくとも1つに基づいて関連度を算出する、請求項1〜4のいずれか一項に記載の音声認識システム。
(1)前記先方Nベスト解中のそれぞれの解と前記後方Nベスト解中のそれぞれの解とが一致する個数
(2)前記先方Nベスト解中のそれぞれの解と前記後方Nベスト解中のそれぞれの解とが一致する解における、前記先方Nベスト解中の認識スコアに基づく順位と前記後方Nベスト解中の認識スコアに基づく順位との差
(3)前記先方Nベスト解が出力された時刻と前記後方Nベスト解が出力された時刻との時間差
(4)発話と複数の認識語彙とを照合することにより複数の先方Nベスト解が得られ、かつ、当該発話とは異なる話者による発話と複数の認識語彙とを照合することにより複数の後方Nベスト解が得られた場合、複数の先方Nベスト解の時系列上の出現順と、複数の後方Nベスト解の時系列上の出現順との差
上記構成によれば、関連度算出部は、上記の(1)〜(4)の少なくとも1つに基づいて関連度を算出することができる。
上記本発明における音声認識システムにおいては、前記関連度算出部は、前記先方Nベスト解中のそれぞれの解と前記後方Nベスト解中のそれぞれの解とが一致する個数が多く、かつ、前記先方Nベスト解中のそれぞれの解と前記後方Nベスト解中のそれぞれの解とが一致する解における、前記先方Nベスト解中の認識スコアに基づく順位と前記後方Nベスト解中の認識スコアに基づく順位との差が小さい程、大きい関連度を算出する態様とするのが好ましい。
ここで、前記個数が多く、かつ、前記順位の差が小さい程、後方Nベスト解は、先方Nベスト解に対する発話への応答発話によって得られたNベスト解である可能性が高い。したがって、このような場合、関連度算出部は、大きい関連度を算出する。一方、これとは逆に、前記個数が少なく、かつ、前記順位の差が大きい程、後方Nベスト解は、先方Nベスト解に対する発話への応答発話によって得られたNベスト解である可能性が低い。したがって、このような場合、関連度算出部は、小さい関連度を算出する。それゆえ、応答発話判定部は、関連度が閾値以上である場合、後方Nベスト解が、先方Nベスト解に対する発話への応答発話によって得られたNベスト解であると判定することができる。
上記本発明における音声認識システムにおいては、前記Nベスト解に現在時刻を表す時刻情報を付加し、当該時刻情報を付加したNベスト解を前記認識結果記憶部に書き込む時刻情報管理部をさらに備え、前記関連度算出部は、前記先方Nベスト解に付加された時刻情報が表す現在時刻と、前記後方Nベスト解に付加された時刻情報が表す現在時刻との時間差が小さい程、大きい関連度を算出する態様とするのが好ましい。
ここで、前記時間差が小さい程、後方Nベスト解は、先方Nベスト解に対する発話への応答発話によって得られたNベスト解である可能性が高い。したがって、このような場合、関連度算出部は、大きい関連度を算出する。一方、これとは逆に、前記時間差が大きい程、後方Nベスト解は、先方Nベスト解に対する発話への応答発話によって得られたNベスト解である可能性が低い。したがって、このような場合、関連度算出部は、小さい関連度を算出する。それゆえ、応答発話判定部は、関連度が閾値以上である場合、後方Nベスト解が、先方Nベスト解に対する発話への応答発話によって得られたNベスト解であると判定することができる。
上記本発明における音声認識システムにおいては、前記関連度算出部は、発話と複数の認識語彙とを照合することにより複数の先方Nベスト解が得られ、かつ、当該発話とは異なる話者による発話と複数の認識語彙とを照合することにより複数の後方Nベスト解が得られた場合、複数の先方Nベスト解の時系列上の出現順と、複数の後方Nベスト解の時系列上の出現順との差が小さい程、大きい関連度を算出する態様とするのが好ましい。
ここで、前記出現順の差が小さい程、後方Nベスト解は、先方Nベスト解に対する発話への応答発話によって得られたNベスト解である可能性が高い。したがって、このような場合、関連度算出部は、大きい関連度を算出する。一方、これとは逆に、前記出現順の差が大きい程、後方Nベスト解は、先方Nベスト解に対する発話への応答発話によって得られたNベスト解である可能性が低い。したがって、このような場合、関連度算出部は、小さい関連度を算出する。それゆえ、応答発話判定部は、関連度が閾値以上である場合、後方Nベスト解が、先方Nベスト解に対する発話への応答発話によって得られたNベスト解であると判定することができる。
上記本発明における音声認識システムにおいては、発話の出現順を表す機能語と、当該出現順とを関連付けて格納した機能語辞書をさらに備え、前記関連度算出部は、複数の後方Nベスト解中のいずれかの後方Nベスト解における後方ベスト解と、前記機能語とが一致する場合、前記機能語と一致する後方ベスト解を含む後方Nベスト解から時系列上次の後方Nベスト解の出現順を、当該機能語が表す出現順とする態様とするのが好ましい。
上記構成によれば、関連度算出部は、複数の後方Nベスト解中のいずれかの後方Nベスト解における後方ベスト解と、機能語とが一致する場合、機能語と一致する後方ベスト解を含む後方Nベスト解から時系列上次の後方Nベスト解の出現順を、この機能語が表す出現順とする。なお、機能語とは、発話の出現順を表す語である。例えば、機能語「まず」であれば、出現順「1」を表す。また、機能語「つぎ」であれば、出現順「2」を表す。これにより、単に時系列上の出現順の差に基づいて関連度を算出する態様よりも、より正確に関連度を算出することができる。
上記本発明における音声認識システムにおいては、複数の先方Nベスト解における時系列上それぞれの出現順に対応する機能語を機能語辞書から抽出する機能語抽出部をさらに備え、前記出力提示部は、前記機能語抽出部により抽出された機能語を、複数の先方Nベスト解におけるそれぞれの先方ベスト解と対応させて提示する態様とするのが好ましい。
上記構成によれば、機能語抽出部は、複数の先方Nベスト解における時系列上それぞれの出現順に対応する機能語を機能語辞書から抽出する。出力提示部は、抽出された機能語を、複数の先方Nベスト解におけるそれぞれの先方ベスト解と対応させて提示する。ここで、例えば、出力提示部に提示されている先方ベスト解が誤っている場合、オペレータは、この先方ベスト解に対応して提示された機能語を発話した直後に、誤認識した先方ベスト解を修正するための繰り返し発話を行うことができる。これにより、例えば、オペレータが、正しい先方ベスト解を繰り返して発話する前に他の発話をしていた場合であっても、この機能語を発話した直後に正しい先方ベスト解を繰り返して発話すれば、誤った先方ベスト解を含む先方Nベスト解の時系列上の出現順と、オペレータの繰り返し発話により得られる後方Nベスト解の出現順とが共に同じ出現順となる。それゆえ、関連度算出部は、最大の関連度を算出することができる。この結果、応答発話判定部は、確実に、後方Nベスト解が、先方Nベスト解に対する発話への応答発話によって得られたNベスト解であると判定することができる。
上記目的を達成するために本発明における音声認識プログラムは、発話と複数の認識語彙とを照合することにより算出された認識スコアの中から最も認識スコアの高い認識語彙をベスト解とするとき、当該ベスト解から認識スコアの高い上位N個(Nは1以上の整数)の認識語彙をNベスト解として格納する認識結果記憶部を備えたコンピュータに、発話を発声した話者を識別する入力識別処理と、前記認識結果記憶部から抽出したNベスト解を先方Nベスト解とするとき、当該先方Nベスト解に対する発話よりも時系列上後方の発話であって、かつ、当該先方Nベスト解に対する発話とは異なる話者による発話によって得られたNベスト解を後方Nベスト解として前記認識結果記憶部から抽出する認識結果抽出処理と、前記後方Nベスト解が、前記先方Nベスト解に対する発話への応答発話によって得られたNベスト解であるか否かの度合を表す関連度を算出する関連度算出処理と、前記関連度が閾値以上である場合、前記後方Nベスト解が、前記先方Nベスト解に対する発話への応答発話によって得られたNベスト解であると判定する応答発話判定処理と、前記応答発話判定処理により前記後方Nベスト解が前記先方Nベスト解に対する発話への応答発話によって得られたNベスト解であると判定された場合、前記後方Nベスト解が、前記先方Nベスト解に対する発話の繰り返し発話によって得られたNベスト解であるか否かを判定する繰り返し発話判定処理と、前記繰り返し発話判定処理により前記後方Nベスト解が前記先方Nベスト解に対する発話の繰り返し発話によって得られたNベスト解であると判定された場合、前記先方Nベスト解におけるベスト解を先方ベスト解、および、前記後方Nベスト解におけるベスト解を後方ベスト解とするとき、前記先方ベスト解と前記後方ベスト解とが一致するか否かを判定し、一致しない場合、前記先方ベスト解の一部または全部を、前記後方Nベスト解の一部または全部で置き換えが可能であると判定する一致判定処理とを実行させることを特徴とする。
なお、本発明における音声認識プログラムは、上記の音声認識システムと同様の効果を得る。
以上のように、本発明の音声認識システム、および、音声認識プログラムは、少なくとも2話者による対話において1の話者の発話を誤認識した場合、この1の話者が意識することなく、しかも、他の話者がキーボードのような入力手段を操作しなくとも、誤った認識結果を、対話を妨げることなく修正することができるという効果を奏する。
以下、本発明のより具体的な実施形態について図面を参照しながら詳細に説明する。
図1は、本実施形態に係る音声認識システム1の概略構成を示すブロック図である。本実施形態においては、一例として、音声認識システム1がコールセンターに設置されており、ユーザである話者aと、オペレータである話者bとが、電話により対話(通話)している場合について説明する。具体的には、話者aが、「PC(ぴーしー)について教えて。あとインターネットも」と発話Aを発声した後に、話者bが、「まず、PC(ぴーしー)についてですが」と発話Bを発声した場合について説明する。
なお、以下では、Nベスト解およびベスト解を説明する際、特に区別する必要のある場合にのみ、例えば、Nベスト解A1のように、それぞれを区別するための小数字を付して説明し、特に区別する必要がない場合、あるいは、総称する場合には、例えば、Nベスト解Aのように、小数字を付さずに説明する。
[音声認識システムの構成]
本実施形態に係る音声認識システム1は、音声入力部11、入力識別部12、音響処理部13、音響モデル記憶部14、言語モデル記憶部15、照合部16、時刻情報管理部17、認識結果記憶部18、認識結果抽出部19、同義語情報記憶部20、関連度算出部21、応答発話判定部22、繰り返し発話判定部23、一致判定部24、認識結果修正部25、出力生成部26、出力提示部27、照合処理変更部28、共起情報記憶部29、および、意味属性記憶部30を備えている。
音声入力部11は、話者aが発声した発話Aと、話者bが発声した発話Bとの2話者による対話を受け付ける。また、音声入力部11は、話者aが発声した発話Aを発話データAに変換し、話者bが発声した発話Bを発話データBに変換する。音声入力部11は、変換した発話データAおよび発話データBを入力識別部12に出力する。なお、音声入力部11は、上記の2話者に限らず、例えば、1人のユーザに対して、複数のオペレータによる対話を受け付けても良い。また、音声入力部11は、複数のユーザに対して、1人のオペレータによる対話を受け付けても良い。さらに、音声入力部11は、複数のユーザに対して、複数のオペレータによる対話を受け付けても良い。なお、音声入力部11は、リアルタイムによる対話ではなく、予め記録された対話ログを受け付けても良い。
入力識別部12は、発話を発声した話者を識別する。具体的には、入力識別部12は、音声入力部11から出力された発話データAおよび発話データBを識別し、発話データAに、発話Aに固有の発話番号を付加し、発話データBに、発話Bに固有の発話番号を付加する。なお、入力識別部12は、従来から知られている電話の受話信号/送話信号の分離録音技術、あるいは、男女判定処理や、話者識別処理などを用いることによって、音声入力部11から出力された発話データAおよび発話データBを識別することが可能である。本実施形態においては、入力識別部12は、音声入力部11から出力された「PCについて教えて。あとインターネットも」を示す発話データAに、発話番号A01を付加する。また、入力識別部12は、「まず、PCについてですが」を示す発話データBに、発話番号B01を付加する。ここで、話者aおよび話者bによる対話が継続した場合、話者aの発話データに、発話番号A02,A03,A04・・・、話者bの発話データに、発話番号B02,B03,B04・・・を順に付加していく。入力識別部12は、発話番号を付加した発話データA、および、発話番号を付加した発話データBを音響処理部13に出力する。
音響処理部13は、入力識別部12から出力された発話データAを特徴量Aに変換し、入力識別部12から出力された発話データBを特徴量Bに変換する。特徴量には、MFCC、LPCケプストラムやパワー、それらの一次や二次の回帰係数の他、それらの値を主成分分析や判別分析により次元圧縮したものなどの多次元ベクトルが使用されることが多いが、ここでは特に限定しない。音響処理部13は、変換した特徴量Aおよび特徴量Bを照合部16に出力する。なお、音響処理部13は、変換した特徴量Aおよび特徴量Bを格納するメモリを備えていても良い。
音響モデル記憶部14は、どの音素がどういう特徴量になりやすいかという情報を統計的にモデル化したデータを格納する。音響モデル記憶部14の一例として、HMM(Hidden Markov Model)、DP(Dynamic Programming)などが挙げられる。
言語モデル記憶部15は、複数の認識語彙および複数の認識語彙に関する情報を格納する。認識語彙に関する情報は、例えば、認識語彙に固有に付されるID、表記、読み(例えば、音素列で定義する)などを含むが、他に、認識スコア算出時に加味する語彙毎の重み情報や認識語彙間の接続規則(文法情報)などの任意の情報を含み得る。
照合部16は、音響処理部13が変換した特徴量Aを用いて、発話Aと言語モデル記憶部15に格納されている複数の認識語彙との認識スコアを算出する。なお、認識スコアは、一致度、尤度、あるいは、信頼度とも言う。認識スコアを算出した結果、照合部16は、最も認識スコアの高い認識語彙をベスト解Aとすると、このベスト解Aから認識スコアの高い上位N個(Nは1以上の整数)の認識語彙をNベスト解Aとして出力する。また、照合部16は、音響処理部13が変換した特徴量Bを用いて、発話Bと言語モデル記憶部15に格納されている複数の認識語彙との認識スコアを算出する。認識スコアを算出した結果、照合部16は、最も認識スコアの高い認識語彙をベスト解Bとすると、このベスト解Bから認識スコアの高い上位N個(Nは1以上の整数)の認識語彙をNベスト解Bとして出力する。
具体的には、照合部16は、音響処理部13が変換した特徴量AからP個(Pは1以上の整数)の発話区間を抽出する。照合部16は、抽出した発話区間と、音響モデル記憶部14に格納されているデータとを比較することにより、P個の発話区間毎に音素列(記号列)を抽出する。照合部16は、抽出した音素列と、言語モデル記憶部15に格納されている複数の認識語彙とを比較することにより、P個の発話区間にそれぞれ対応するNベスト解Aを出力する。また、照合部16は、音響処理部13が変換した特徴量BからQ個(Qは1以上の整数)の発話区間を抽出する。照合部16は、抽出した発話区間と、音響モデル記憶部14に格納されているデータとを比較することにより、Q個の発話区間毎に音素列(記号列)を抽出する。照合部16は、抽出した音素列と、言語モデル記憶部15に格納されている複数の認識語彙とを比較することにより、Q個の発話区間にそれぞれ対応するNベスト解Bを出力する。
ここで、実際には、照合部16は、「PCについて教えて。あとインターネットも」を示す特徴量Aから、例えば、「PC」、「について」、「教えて」、「あと」、「インターネット」、「も」のように、全ての発話Aにおける発話区間を抽出する。しかし、本実施形態においては、説明の簡略化のために、照合部16は、特徴量Aから「PC」および「インターネット」の2個の発話区間を抽出したものとして説明する。具体的には、照合部16は、抽出した「PC」および「インターネット」の発話区間と、音響モデル記憶部14に格納されているデータとを比較することにより、「PC」および「インターネット」の音素列を抽出する。照合部16は、抽出した「PC」および「インターネット」の音素列と、言語モデル記憶部15に格納されている複数の認識語彙とを比較することにより、「PC」および「インターネット」の2個の発話区間にそれぞれ対応するNベスト解Aを出力する。
また、実際には、照合部16は、「まず、PCについてですが」を示す特徴量Bから、例えば、「まず」、「PC」、「について」、「ですが」のように、全ての発話Bにおける発話区間を抽出する。しかし、本実施形態においては、説明の簡略化のために、照合部16は、特徴量Bから「PC」の発話区間のみを抽出したものとして説明する。具体的には、照合部16は、抽出した「PC」の発話区間と、音響モデル記憶部14に格納されているデータとを比較することにより、「PC」の音素列を抽出する。照合部16は、抽出した「PC」の音素列と、言語モデル記憶部15に格納されている複数の認識語彙とを比較することにより、「PC」の発話区間に対応するNベスト解Bを出力する。
ところで、図1に示す例では、上記の音声入力部11、入力識別部12、音響処理部13、および、照合部16が1つのモジュールにて構成されている例について説明したが、これに限定されない。すなわち、上記の音声入力部11、入力識別部12、音響処理部13、および、照合部16は、例えば、話者毎に複数のモジュールにて構成されていても良い。
時刻情報管理部17は、照合部16から出力されたNベスト解Aに、現在時刻を表す時刻情報を付加する。また、時刻情報管理部17は、照合部16から出力されたNベスト解Bに、現在時刻を表す時刻情報を付加する。時刻情報管理部17は、時刻情報を付加したNベスト解Aを認識結果記憶部18に書き込む。また、時刻情報管理部17は、時刻情報を付加したNベスト解Bを認識結果記憶部18に書き込む。
認識結果記憶部18は、時刻情報管理部17により書き込まれたNベスト解AおよびNベスト解Bを格納する。図2は、認識結果記憶部18のデータ構造の一例を示す図である。すなわち、認識結果記憶部18は、Nベスト解AおよびNベスト解Bを、認識結果記憶テーブル18aとして格納する。図2に示す例では、認識結果記憶テーブル18aには、発話番号、時刻、および、Nベスト解が格納されている。具体的には、認識結果記憶テーブル18aには、発話番号として、「PCについて教えて。あとインターネットも」を示す「A01」、および、「まず、PCについてですが」を示す「B01」が格納されている。
発話番号A01には、「PC」の発話区間に対応するNベスト解A1、および、「インターネット」の発話区間に対応するNベスト解A2が関連付けられている。Nベスト解A1である「CD」、「PC」、「GC」、「OC」、「GCC」には、認識スコア「0.95」、「0.93」、「0.82」、「0.81」、「0.78」が関連付けられている。Nベスト解A2である「インターネット」、「イントラネット」、・・・には、認識スコア「0.86」、「0.84」、・・・が関連付けられている。すなわち、Nベスト解A1およびNベスト解A2は、認識スコアの高い順に認識語彙が5個(N=5)並んでいる。ここで、図2に示す例では、Nベスト解A1におけるベスト解A1(最も認識スコアの高い認識語彙)は、「CD」(認識スコア0.95)となる。つまり、話者aは、「PC」と発話しているにも関わらず、ベスト解A1は「CD」であり、認識結果が誤っている。また、Nベスト解A2におけるベスト解A2(最も認識スコアの高い認識語彙)は、「インターネット」(認識スコア0.86)となる。さらに、Nベスト解A1には、時刻情報管理部17が付加した時刻「10:00:00」(10時00分00秒)が関連付けられている。Nベスト解A2には、時刻情報管理部17が付加した時刻「10:00:01」(10時00分01秒)が関連付けられている。
発話番号B01には、「PC」の発話区間に対応するNベスト解B1が関連付けられている。Nベスト解B1である「PC」、「CD」、「GCC」、「KC」、「KD」には、認識スコア「0.96」、「0.91」、「0.82」、「0.78」、「0.71」が関連付けられている。すなわち、Nベスト解B1は、認識スコアの高い順に認識語彙が5個(N=5)並んでいる。ここで、図2に示す例では、Nベスト解B1におけるベスト解B1(最も認識スコアの高い認識語彙)は、「PC」(認識スコア0.96)となる。また、Nベスト解B1には、時刻情報管理部17が付加した時刻「10:00:05」(10時00分05秒)が関連付けられている。
認識結果抽出部19は、Nベスト解A(先方Nベスト解)、および、このNベスト解Aに対する発話Aよりも時系列上後方の発話Bであって、かつ、このNベスト解Aに対する発話Aとは異なる話者bによる発話Bによって得られたNベスト解B(後方Nベスト解)を認識結果記憶部18から抽出する。本実施形態においては、認識結果抽出部19は、「PC」の発話区間に対応するNベスト解A1、および、「PC」の発話区間に対応するNベスト解B1を認識結果記憶部18から抽出したものとする。認識結果抽出部19は、抽出したNベスト解A1およびNベスト解B1を関連度算出部21に出力する。
同義語情報記憶部20は、認識語彙の同義語に関する情報を格納する。なお、同義語とは、1つの認識語彙に対して意味が同じで読み(発音)が異なる単語をいう。例えば、同義語情報記憶部20には、認識語彙「PC(ぴーしー)」に対して、同義語「パソコン」、「パーソナルコンピュータ」が格納されている。また、例えば、同義語情報記憶部20には、認識語彙「インターネット」に対して、同義語「ネット」が格納されている。
関連度算出部21は、Nベスト解B1が、Nベスト解A1に対する発話Aへの応答発話Bによって得られたNベスト解であるか否かの度合を表す関連度を算出する。具体的には、関連度算出部21は、Nベスト解A1中のそれぞれの解と、Nベスト解B1中のそれぞれの解とが一致する個数、および、Nベスト解A1中のそれぞれの解と、Nベスト解B1中のそれぞれの解とが一致する解における、Nベスト解A1中の認識スコアに基づく順位とNベスト解B1中の認識スコアに基づく順位との差に基づいて関連度を算出する。なお、関連度算出部21は、Nベスト解A1中のそれぞれの解と、Nベスト解B1中のそれぞれの解とが一致するか否かの判断を行う際、同義語情報記憶部20を参照することが好ましい。これにより、関連度算出部21は、互いの解が相違する場合であっても、解と同義語、あるいは、互いの同義語が同一であれば、互いの解が一致すると判断することができる。
本実施形態においては、Nベスト解A1中のそれぞれの解と、Nベスト解B1中のそれぞれの解とが一致する解は、「CD」、「PC」、「GCC」の3個である。また、Nベスト解A1中の「CD」の順位は1位、「PC」の順位は2位、「GCC」の順位は5位である。また、Nベスト解B1中の「PC」の順位は1位、「CD」の順位は2位、「GCC」の順位は3位である。このような場合において、本実施形態では、関連度算出部21は、下記の(式1)により、関連度を算出する。下記の(式1)において、X,Y,Zは、任意の正の定数を表す。なお、下記の(式1)において、X>Y>Zのような関係としても良い。また、||は、絶対値を表す。ここで、仮に、Nベスト解A1中の「CD」の順位と、Nベスト解B1中の「CD」の順位とが同順位である場合、下記の(式1)では、X/0となり、関連度が無限大となる。したがって、このような場合、本実施形態においては、X/0を1.5Xに置き換えるものとする。なお、これと同様に、「PC」および「GCC」の順位差がない場合も、Y/0を1.5Y、Z/0を1.5Zに置き換えるものとする。
(式1)
関連度=X/(|CDの順位差|)+Y/(|PCの順位差|)+Z/(|GCCの順位差|)
本実施形態においては、関連度は、上記の(式1)により、X+Y+Z/2となる。すなわち、上記の(式1)は、上記個数が多く、かつ、上記順位の差が小さい程、関連度が大きくなる式である。一方、これとは逆に、上記の(式1)は、上記個数が少なく、かつ、上記順位の差が大きい程、関連度が小さくなる式である。なお、上記の(式1)において、Nベスト解A1中のそれぞれの解と、Nベスト解B1中のそれぞれの解とが一致する個数が0である場合は、関連度は0となる。関連度算出部21は、算出した関連度を応答発話判定部22に出力する。
なお、上記では、関連度算出部21は、Nベスト解A1中のそれぞれの解と、Nベスト解B1中のそれぞれの解とが一致する個数、および、Nベスト解A1中のそれぞれの解と、Nベスト解B1中のそれぞれの解とが一致する解における、Nベスト解A1中の認識スコアに基づく順位とNベスト解B1中の認識スコアに基づく順位との差に基づいて関連度を算出する例について説明したが、これに限定されない。すなわち、関連度算出部21は、Nベスト解A1中のそれぞれの解と、Nベスト解B1中のそれぞれの解とが一致する個数に基づいて関連度を算出しても良い。また、関連度算出部21は、Nベスト解A1中のそれぞれの解と、Nベスト解B1中のそれぞれの解とが一致する解における、Nベスト解A1中の認識スコアに基づく順位とNベスト解B1中の認識スコアに基づく順位との差に基づいて関連度を算出しても良い。
また、上記では、関連度算出部21は、上記の(式1)により、関連度を算出する例について説明したが、これに限定されない。例えば、関連度算出部21は、指数関数を用いた下記の(式1−a)により、関連度を算出しても良い。なお、下記の(式1−a)において、Aは、任意の正の定数を表す。すなわち、関連度算出部21は、上記個数が多く、かつ、上記順位の差が小さい程、関連度が大きくなり、また、上記個数が少なく、かつ、上記順位の差が大きい程、関連度が小さくなるような式を用いて関連度を算出できれば、任意の式を用い得る。
(式1−a)
関連度=(X/ACDノ順位差)+(Y/APCノ順位差)+(Z/AGCCノ順位差)
応答発話判定部22は、関連度算出部21により算出された関連度が閾値以上である場合、Nベスト解B1が、Nベスト解A1に対する発話Aへの応答発話Bによって得られたNベスト解であると判定する。なお、閾値は、応答発話判定部22内に設けられたメモリに予め記録されている。閾値は、音声認識システム1のシステム管理者により設定される。本実施形態においては、関連度算出部21により算出された関連度は閾値以上であるものとする。これにより、応答発話判定部22は、Nベスト解B1が、Nベスト解A1に対する発話Aへの応答発話Bによって得られたNベスト解であると判定する。
繰り返し発話判定部23は、応答発話判定部22によりNベスト解B1がNベスト解A1に対する発話Aへの応答発話Bによって得られたNベスト解であると判定された場合、Nベスト解B1が、Nベスト解A1に対する発話Aの繰り返し発話Bによって得られたNベスト解であるか否かを判定する。具体的には、繰り返し発話判定部23は、Nベスト解B1におけるベスト解B1の認識スコアが所定の認識スコア以上であって、かつ、下記の(1)および(2)のいずれも満たす場合に、Nベスト解B1が、Nベスト解A1に対する発話Aの繰り返し発話Bによって得られたNベスト解であると判定する。なお、所定の認識スコアおよび所定の順位は、繰り返し発話判定部23内に設けられたメモリに予め記録されている。所定の認識スコアおよび所定の順位は、音声認識システム1のシステム管理者により設定される。
(1)Nベスト解A1中のいずれかの解が、Nベスト解B1におけるベスト解B1と一致する。
(2)上記ベスト解B1と一致するNベスト解A1中の解の認識スコアが所定の認識スコア以上、あるいは、上記ベスト解B1と一致するNベスト解A1中の解における、ベスト解A1からの順位が所定の順位以上である。
本実施形態においては、ベスト解B1「PC」の認識スコアは「0.96」である。本実施形態においては、ベスト解B1「PC」の認識スコア「0.96」は所定の認識スコア以上であるものとする。また、本実施形態においては、ベスト解B1「PC」は、Nベスト解A1中の解「PC」(順位は2位)と一致している。すなわち、上記の(1)を満たす。さらに、本実施形態においては、Nベスト解A1中の解「PC」の認識スコアは「0.93」であり、順位は2位である。本実施形態においては、Nベスト解A1中の解「PC」の認識スコア「0.93」は所定の認識スコア以上であり、順位2位は所定の順位以上であるものとする。すなわち、上記の(2)を満たす。これにより、繰り返し発話判定部23は、Nベスト解B1が、Nベスト解A1に対する発話Aの繰り返し発話Bによって得られたNベスト解であると判定する。
なお、繰り返し発話判定部23は、Nベスト解B1が、Nベスト解A1に対する発話Aの繰り返し発話Bによって得られたNベスト解であると判定する際、同義語情報記憶部20を参照することが好ましい。これにより、繰り返し発話判定部23は、互いの解が相違する場合であっても、解と同義語、あるいは、互いの同義語が同一であれば、互いの解が一致すると判断することができる。
一致判定部24は、繰り返し発話判定部23によりNベスト解B1がNベスト解A1に対する発話Aの繰り返し発話Bによって得られたNベスト解であると判定された場合、ベスト解A1とベスト解B1とが一致するか否かを判定する。一致判定部24は、ベスト解A1とベスト解B1とが一致しない場合、ベスト解A1が誤っていると判定する。すなわち、一致判定部24は、Nベスト解A1の一部または全部を、Nベスト解B1の一部または全部で置き換えが可能であると判定する。本実施形態においては、ベスト解A1「CD」とベスト解B1「PC」とは一致しないので、一致判定部24は、Nベスト解A1の一部または全部を、Nベスト解B1の一部または全部で置き換えが可能であると判定する。一致判定部24は、判定した結果を認識結果修正部25および照合処理変更部28に出力する。
認識結果修正部25は、一致判定部24によりベスト解A1とベスト解B1とが一致しないと判定された場合、Nベスト解A1が格納されている認識結果記憶部18のベスト解A1を、ベスト解B1に更新する。
本実施形態においては、認識結果修正部25は、Nベスト解A1が格納されている認識結果記憶部18のベスト解A1「CD」を、ベスト解B1「PC」に更新する。具体的には、認識結果修正部25は、Nベスト解A1中の解「PC」の認識スコア「0.93」が、ベスト解A1「CD」の認識スコア「0.95」より大きくなるように、重み付けをする。一例として、認識結果修正部25は、Nベスト解A1中の解「PC」の認識スコア「0.93」に、重み「0.05」を加算する。これにより、Nベスト解A1中の解「PC」の認識スコアは「0.98」となる。認識結果修正部25は、ベスト解A1「CD」、認識スコア「0.95」を、ベスト解A1「PC」、認識スコア「0.98」に更新する。また、認識結果修正部25は、ベスト解A1であった「CD」、認識スコア「0.95」を、順位2位に繰り下げる。図3は、認識結果修正部25により更新された後の、認識結果記憶部18のデータ構造の一例を示す図である。図3に示すように、ベスト解A1は、認識結果修正部25により、「CD」から「PC」へ更新されている。
なお、上記では、認識結果修正部25が、Nベスト解A1中の解「PC」の認識スコア「0.93」が、ベスト解A1「CD」の認識スコア「0.95」より大きくなるように、重み付けをする例について説明したが、これに限定されない。例えば、認識結果修正部25は、単に、ベスト解A1「CD」を、ベスト解B1「PC」に置き換えるようにしても良い。これにより、重み付けをする場合と比較して、音声認識システム1の演算コストを低減することが可能となる。
また、ベスト解A1が「CD」から「PC」へ更新された場合であっても、認識結果修正部25は、重み付けをする前の解「PC」、認識スコア「0.93」をメモリに記録するようにしても良い。重み付けをする前の解と認識スコアについては、音声認識システム1の管理者により利用される場合もあるからである。
さらに、認識結果修正部25は、Nベスト解A1が格納されている認識結果記憶部18のベスト解A1「CD」を、ベスト解B1「PC」に更新せずに、修正したベスト解A1「PC」、および、ベスト解B1「PC」を出力提示部27に出力するようにしても良い。
出力生成部26は、結果出力部26a、および、修正履歴生成部26bをさらに備えている。
結果出力部26aは、認識結果記憶部18に格納されているベスト解A1、ベスト解A2、および、ベスト解B1を抽出する。本実施形態においては、結果出力部26aは、認識結果修正部25により更新された後のベスト解A1「PC」、ベスト解A2「インターネット」、および、ベスト解B1「PC」を抽出する。結果出力部26aは、抽出したベスト解A1「PC」、ベスト解A2「インターネット」、および、ベスト解B1「PC」を出力提示部27に出力する。
修正履歴生成部26bは、認識結果修正部25により更新された履歴を示す履歴データを生成する。本実施形態においては、認識結果修正部25により、ベスト解A1が、「CD」から「PC」へ更新されている。このため、修正履歴生成部26bは、ベスト解A1が、「CD」から「PC」へ更新された履歴を示す履歴データを生成する。修正履歴生成部26bは、生成した履歴データを出力提示部27に出力する。
出力提示部27は、出力生成部26から出力されたベスト解A1「PC」、ベスト解A2「インターネット」、ベスト解B1「PC」、および、履歴データを、話者b(オペレータ)に提示する。図4は、出力提示部27に提示(表示)される表示画面の一例を示す概念図である。図4に示すように、出力提示部27には、発話Aに固有の発話番号「A01」と、ベスト解A1「PC」と、ベスト解A2「インターネット」と、発話Bに固有の発話番号「B01」と、ベスト解B1「PC」とが表示されている。また、出力提示部27には、ベスト解A1が、「CD」から「PC」へ修正された履歴を示す「CD→PC」が表示されている。これにより、話者bにおいては、誤った認識結果が修正された履歴を確認することができる。なお、出力提示部27は、履歴を示す「CD→PC」の表示を点滅あるいは強調することにより、話者bにこの履歴を見易くするようにしても良い。出力提示部27は、例えば、液晶ディスプレイ、有機ELディスプレイ、プラズマディスプレイ、CRTディスプレイ、スピーカ、音声合成装置などから構成される。
なお、話者bが図示しない入力手段を操作することにより、認識結果修正部25により「CD」から「PC」へ更新されたベスト解A1を、元に戻す機能(アンドゥ機能)を備えるようにしても良い。すなわち、話者bがアンドゥ機能を指示した上で図示しない入力手段を操作すると、ベスト解A1は、更新された「PC」から更新される前の「CD」に戻る。これにより、出力提示部27は、「CD→PC」の表示が「CD」の表示へと変更される。
照合処理変更部28は、一致判定部24によりベスト解A1とベスト解B1とが一致すると判定された場合、共起情報および意味属性の少なくとも1つに基づいて、照合部16による照合方法を変更させる。つまり、ベスト解A1とベスト解B1とが一致する場合は、互いの解の信頼性が高い場合である。なお、共起情報は、認識語彙間の共起関係を表す情報である。共起関係とは、文章中で一緒に出現し易い認識語彙の組と、それらの認識語彙間の関係をいう。意味属性は、認識語彙の意味を表す属性である。共起情報は、共起情報記憶部29に予め格納されている。意味属性は、意味属性記憶部30に予め格納されている。
本実施形態においては、ベスト解A1「CD」と、ベスト解B1「PC」とは一致していない(図2参照)。このため、本実施形態においては、照合処理変更部28は、上記の処理を行わない。ここで、仮に、本実施形態において、ベスト解A1が「PC」であったものとすると、ベスト解A1「CD」とベスト解B1「CD」とは一致する。このような場合、照合処理変更部28は、共起情報および意味属性の少なくとも1つに基づいて、照合部16による照合方法を変更させる。
一例として、照合処理変更部28は、意味属性に基づいて、ベスト解A1およびベスト解B1の「PC」と意味が関連する認識語彙を、この認識語彙以外の認識語彙よりも、認識スコアが高くなるように、照合部16による照合方法を変更させる。ここでは、「PC」と意味が関連する認識語彙は、コンピュータ用語に関する認識語彙であるものとする。具体的には、照合処理変更部28は、コンピュータ用語に関する認識語彙を、コンピュータ用語以外の認識語彙よりも認識スコアが高くなるように、例えば、コンピュータ用語に関する認識語彙に対して、所定の認識スコアを重み付けるように、照合部16に指示する。すなわち、話者aと話者bとによる対話において、ベスト解A1とベスト解B1とが共に「PC」の場合は、認識結果の信頼性が極めて高いと判断でき、対話の内容もコンピュータに関連したものと特定し得る。また、次以降に発話する内容も、コンピュータに関する発話である可能性が高い。それゆえ、照合処理変更部28が、コンピュータ用語に関する認識語彙に対して、所定の認識スコアを重み付けるように照合部16に指示することにより、照合部16による認識正解率を向上させることができる。
また、他の例として、照合処理変更部28は、意味属性に基づいて、ベスト解A1およびベスト解B1の「PC」と意味が関連する認識語彙を、照合対象となる認識語彙とし、それ以外の認識語彙を、照合対象とはならない認識語彙となるように、照合部16による照合方法を変更させる。具体的には、照合処理変更部28は、コンピュータ用語に関する認識語彙を照合対象となる認識語彙とし、それ以外の認識語彙を照合対象とはならない認識語彙となるように、照合部16に指示する。すなわち、話者aと話者bとによる対話において、ベスト解A1とベスト解B1とが共に「PC」の場合は、認識結果の信頼性が極めて高いと判断でき、対話の内容もコンピュータに関連したものと特定し得る。また、次以降に発話する内容も、コンピュータに関する発話である可能性が高い。それゆえ、照合処理変更部28が、コンピュータ用語に関する認識語彙を照合対象となる認識語彙とし、それ以外の認識語彙を照合対象とはならない認識語彙となるように、照合部16に指示することにより、照合部16による認識正解率を向上させることができる。
なお、話者bがアンドゥ機能を指示した上で図示しない入力手段を操作することにより、照合処理変更部28が変更した照合部16による照合方法を元に戻すようにしても良い。
ところで、上記の音声認識システム1は、パーソナルコンピュータなどの任意のコンピュータにプログラムをインストールすることによっても実現される。すなわち、上記の音声入力部11、入力識別部12、音響処理部13、照合部16、時刻情報管理部17、認識結果抽出部19、関連度算出部21、応答発話判定部22、繰り返し発話判定部23、一致判定部24、認識結果修正部25、出力生成部26、出力提示部27、および、照合処理変更部28は、コンピュータのCPUがこれらの機能を実現するプログラムに従って動作することによって具現化される。したがって、音声入力部11、入力識別部12、音響処理部13、照合部16、時刻情報管理部17、認識結果抽出部19、関連度算出部21、応答発話判定部22、繰り返し発話判定部23、一致判定部24、認識結果修正部25、出力生成部26、出力提示部27、および、照合処理変更部28の機能を実現するためのプログラムまたはそれを記録した記録媒体も、本発明の一実施形態である。また、音響モデル記憶部14、言語モデル記憶部15、認識結果記憶部18、同義語情報記憶部20、共起情報記憶部29、および、意味属性記憶部30は、コンピュータの内蔵記憶装置またはこのコンピュータからアクセス可能な記憶装置によって具現化される。
なお、上記の音声認識システム1において、話者bが図示しない入力手段を操作することにより、認識結果修正部25および照合処理変更部28の機能を有効にするか、あるいは無効にするかを指示可能なように構成しても良い。
[音声認識システムの動作]
次に、上記の構成に係る音声認識システム1の処理について、図5を参照しながら説明する。
図5は、音声認識システム1の処理の概要を示すフローチャートである。すなわち、図5に示すように、音声入力部11が、話者aと話者bとの2話者による対話を受け付けると、音声入力部11は、話者aが発声した発話Aを発話データAに変換し、話者bが発声した発話Bを発話データBに変換する(工程Op1)。入力識別部12は、工程Op1にて変換された発話データAに、発話番号A01を付加し、工程Op1にて変換された発話データBに、発話番号B01を付加する(工程Op2)。音響処理部13は、入力識別部12から出力された発話データAを特徴量Aに変換し、入力識別部12から出力された発話データBを特徴量Bに変換する(工程Op3)。
そして、照合部16は、上述の照合処理を行う(工程Op4)。具体的には、照合部16は、工程Op3にて変換された特徴量Aを用いて、発話Aと言語モデル記憶部15に格納されている複数の認識語彙との認識スコアを算出する。認識スコアを算出した結果、照合部16は、最も認識スコアの高い認識語彙をベスト解Aとすると、このベスト解Aから認識スコアの高い上位N個(Nは1以上の整数)の認識語彙をNベスト解Aとして出力する。また、照合部16は、工程Op3にて変換された特徴量Bを用いて、発話Bと言語モデル記憶部15に格納されている複数の認識語彙との認識スコアを算出する。認識スコアを算出した結果、照合部16は、最も認識スコアの高い認識語彙をベスト解Bとすると、このベスト解Bから認識スコアの高い上位N個(Nは1以上の整数)の認識語彙をNベスト解Bとして出力する。
時刻情報管理部17は、工程Op4にて出力されたNベスト解Aに、現在時刻を表す時刻情報を付加し、工程Op4にて出力されたNベスト解Bに、現在時刻を表す時刻情報を付加する(工程Op5)。工程Op5にて時刻情報が付加されたNベスト解AおよびNベスト解Bは、図2に示すように、認識結果記憶部18に格納される。
そして、認識結果抽出部19は、Nベスト解A、および、このNベスト解Aに対する発話Aよりも時系列上後方の発話Bであって、かつ、このNベスト解Aに対する発話Aとは異なる話者bによる発話Bによって得られたNベスト解Bを認識結果記憶部18から抽出する(工程Op6)。ここでは、認識結果抽出部19は、「PC」の発話区間に対応するNベスト解A1、および、「PC」の発話区間に対応するNベスト解B1を認識結果記憶部18(図2参照)から抽出したものとする。
関連度算出部21は、工程Op6にて抽出されたNベスト解B1が、Nベスト解A1に対する発話Aへの応答発話Bによって得られたNベスト解であるか否かの度合を表す関連度を算出する(工程Op7)。なお、関連度算出部21は、上述の方法により関連度を算出する。応答発話判定部22は、工程Op7にて算出された関連度が閾値以上であれば(工程Op8にてYES)、工程Op6にて抽出されたNベスト解B1が、Nベスト解A1に対する発話Aへの応答発話Bによって得られたNベスト解であると判定し、工程Op9に進む。一方、応答発話判定部22は、工程Op7にて算出された関連度が閾値未満であれば(工程Op8にてNO)、工程Op6にて抽出されたNベスト解B1が、Nベスト解A1に対する発話Aへの応答発話Bによって得られたNベスト解ではないと判定し、図5の処理を終了する。
繰り返し発話判定部23は、Nベスト解B1が、Nベスト解A1に対する発話Aの繰り返し発話Bによって得られたNベスト解であると判定すれば(工程Op9にてYES)、工程Op10に進む。一方、繰り返し発話判定部23は、Nベスト解B1が、Nベスト解A1に対する発話Aの繰り返し発話Bによって得られたNベスト解ではないと判定すれば(工程Op9にてNO)、図5の処理を終了する。
一致判定部24は、Nベスト解A1におけるベスト解A1と、Nベスト解B1におけるベスト解B1とが一致するか否かを判定する。一致判定部24は、ベスト解A1とベスト解B1とが一致しないと判定すれば(工程Op10にてNO)、Nベスト解A1の一部または全部を、Nベスト解B1の一部または全部で置き換えが可能であると判定し、工程Op11に進む。
認識結果修正部25は、Nベスト解A1が格納されている認識結果記憶部18のベスト解A1を、ベスト解B1に更新する(工程Op11)。結果出力部26aは、認識結果記憶部18に格納されているベスト解A1、ベスト解A2、および、ベスト解B1を抽出する(工程Op12)。修正履歴生成部26bは、工程Op11にて更新された履歴を示す履歴データを生成する(工程Op13)。出力提示部27は、工程Op12にて抽出されたベスト解A1、ベスト解A2、および、ベスト解B1を提示し、工程Op13にて生成された履歴データを提示する(工程Op14)。
一方、一致判定部24は、ベスト解A1とベスト解B1とが一致すると判定すれば(工程Op10にてYES)、照合処理変更部28は、共起情報および意味属性の少なくとも1つに基づいて、照合部16による照合方法を変更させる(工程Op15)。
以上のように、本実施形態に係る音声認識システム1によれば、繰り返し発話判定部23によりNベスト解B1がNベスト解A1に対する発話Aの繰り返し発話Bによって得られたNベスト解であると判定された場合、一致判定部24は、ベスト解A1とベスト解B1とが一致するか否かを判定する。ここで、ベスト解A1とベスト解B1とが一致しない場合は、一致判定部24は、ベスト解A1が誤っていると判定する。すなわち、一般に、オペレータは、ユーザと比較すると、日頃からはっきりと発声するように訓練を受けている。また、オペレータは、意図的に正しい認識結果が得られるように発話することができる。さらに、音声認識システム1がコールセンターに設置されており、ユーザの発話が電話回線を介して認識され、かつ、オペレータの発話が電話回線を介することなく認識される場合、ユーザの発話は、オペレータの発話と比較して、電話回線上の雑音が混入し、あるいは、各種フィルターを介することによって情報劣化が発生する可能性がある。このような理由から、本発明の一致判定部24は、Nベスト解Aの一部または全部を、Nベスト解Bの一部または全部で置き換えが可能であると判定する。これにより、ユーザとオペレータとの対話においてユーザの発話を誤認識した場合、このユーザが意識することなく、しかも、オペレータがキーボードのような入力手段を操作しなくとも、誤った認識結果を、対話を妨げることなく修正することができる。
なお、上記した具体例は、本発明に係る音声認識システム1の好適な実施形態に過ぎず、例えば、関連度算出部による関連度の算出処理や、出力提示部に提示される表示内容などについて、種々の変更が可能である。
[関連度算出部による関連度の算出処理の第1の変形例]
一例として、図5に示した工程Op7において、関連度算出部21による関連度の算出処理の第1の変形例を説明する。すなわち、関連度算出部21は、Nベスト解AとNベスト解Bとの時間差に基づいて関連度を算出する。第1の変形例においては、関連度算出部21は、Nベスト解A1に付加された時刻情報が表す現在時刻「10:00:00」と、Nベスト解B1に付加された時刻情報が表す現在時刻「10:00:05」との時間差「5」に基づいて関連度を算出する。すなわち、第1の変形例においては、関連度算出部21は、下記の(式2)により、関連度を算出する。下記の(式2)において、Xは、任意の正の定数を表す。また、||は、絶対値を表す。
(式2)
関連度=X/|Nベスト解A1に付加された時刻情報が表す現在時刻と、Nベスト解B1に付加された時刻情報が表す現在時刻との時間差|
第1の変形例においては、関連度は、上記の(式2)により、X/5となる。すなわち、上記の(式2)は、上記時間差が小さい程、関連度が大きくなる式である。一方、これとは逆に、上記の(式2)は、上記時間差が大きい程、関連度が小さくなる式である。
[関連度算出部による関連度の算出処理の第2の変形例]
他の例として、図5に示した工程Op7において、関連度算出部21による関連度の算出処理の第2の変形例を説明する。すなわち、関連度算出部21は、P個の発話区間にそれぞれ対応するNベスト解Aの中から時系列上はじめのNベスト解Aを1番目のNベスト解Aとし、Q個の発話区間にそれぞれ対応するNベスト解Bの中から時系列上はじめのNベスト解Bを1番目のNベスト解Bとする。ここでは、1番目のNベスト解Aは、Nベスト解A1である。また、1番目のNベスト解Bは、Nベスト解B1である。関連度算出部21は、Q個の発話区間にそれぞれ対応するNベスト解Bの中から1のNベスト解Bにおける、1番目のNベスト解Bからの出現順と、この1のNベスト解Bに対応するNベスト解Aにおける、1番目のNベスト解Aからの出現順との差に基づいて関連度を算出する。なお、Nベスト解AがNベスト解Bに対応するか否かは、関連度算出部21による上記の(式1)あるいは(式2)を用いることにより、判定する。第2の変形例においては、関連度算出部21は、1番目のNベスト解B1と、この1番目のNベスト解B1に対応する1番目のNベスト解A1との出現順の差「0」に基づいて関連度を算出する。すなわち、第2の変形例においては、関連度算出部21は、下記の(式3)により、関連度を算出する。下記の(式3)において、X、Yは、任意の正の定数を表す。また、||は、絶対値を表す。
(式3)
関連度=X−Y×(|Nベスト解B1の出現順とNベスト解A1の出現順との差|)
第2の変形例においては、関連度は、上記の(式3)により、Xとなる。すなわち、上記の(式3)は、上記出現順の差が小さい程、関連度が大きくなる式である。一方、これとは逆に、上記の(式3)は、上記出現順の差が大きい程、関連度が小さくなる式である。
[関連度算出部による関連度の算出処理の第3の変形例]
また、他の例として、図5に示した工程Op7において、関連度算出部21による関連度の算出処理の第3の変形例を説明する。図6は、第3の変形例に係る音声認識システム1aの概略構成を示すブロック図である。すなわち、第3の変形例に係る音声認識システム1aは、図1に示す音声認識システム1に加えて、機能語辞書51を備えている。また、第3の変形例に係る音声認識システム1aは、図1に示す出力生成部26に加えて、機能語抽出部52を備えている。なお、図6において、図1と同様の機能を有する構成については、同じ参照符号を付記し、その詳細な説明を省略する。
機能語辞書51は、発話の出現順を表す機能語と、この出現順とを関連付けて格納する。図7は、機能語辞書51のデータ構造の一例を示す図である。すなわち、機能語辞書51は、発話の出現順を表す機能語と、この出現順とを、機能語テーブル51aとして格納する。図7に示す例では、機能語テーブル51aには、発話の出現順を表す機能語「1番目」、「2番目」、・・・「N番目」、「まず」、「つぎ」、・・・「終わりに」、「始めに」、・・・「最後に」が格納されている。また、機能語テーブル51aには、この機能語に関連付けてこの機能語が表す出現順が格納されている。なお、機能語辞書51に格納されている機能語および出現順は、音声認識システム1aの管理者により予め設定されている。
また、第3の変形例における照合部16は、「まず、PCについてですが」を示す特徴量Bから「まず」および「PC」の2個の発話区間を抽出したものとする。具体的には、照合部16は、抽出した「まず」および「PC」の発話区間と、音響モデル記憶部14に格納されているデータとを比較することにより、「まず」および「PC」の音素列(記号列)を抽出する。照合部16は、抽出した「まず」および「PC」の音素列と、言語モデル記憶部15に格納されている複数の認識語彙とを比較することにより、「まず」および「PC」の2個の発話区間にそれぞれ対応するNベスト解Bを出力する。
このため、第3の変形例における認識結果記憶部18には、図8に示すように、図2に示す認識結果記憶テーブル18aに代えて、認識結果記憶テーブル18bが格納される。すなわち、認識結果記憶テーブル18bには、認識結果記憶テーブル18aに加えて、発話番号B01に、「まず」の発話区間に対応するNベスト解B1が関連付けられている。Nベスト解B1である「まず」、「マップ」、・・・には、認識スコア「0.90」、「0.65」、・・・が関連付けられている。また、Nベスト解B1には、時刻情報管理部17が付加した時刻「10:00:05」(10時00分05秒)が関連付けられている。
関連度算出部21は、Q個の発話区間にそれぞれ対応するNベスト解BのいずれかのNベスト解Bにおけるベスト解Bと、機能語辞書51に格納されている機能語とが一致する場合、この機能語と一致するベスト解Bを含むNベスト解Bから時系列上次のNベスト解Bの出現順を、この機能語が表す出現順とする。第3の変形例においては、関連度算出部21は、ベスト解B1「まず」およびベスト解B2「PC」と、機能語とが一致するか否かを判定する。ここでは、ベスト解B1「まず」が、機能語「まず」と一致する。このため、関連度算出部21は、ベスト解B1「まず」を含むNベスト解B1から時系列上次のNベスト解B2を、機能語「まず」が表す出現順「1」とする。すなわち、Nベスト解B2は、2番目のNベスト解B2ではなく、1番目のNベスト解B2となる。
そして、関連度算出部21は、第2の変形例と同様、Q個の発話区間にそれぞれ対応するNベスト解Bの中から1のNベスト解Bにおける、1番目のNベスト解Bからの出現順と、この1のNベスト解Bに対応するNベスト解Aにおける、1番目のNベスト解Aからの出現順との差に基づいて関連度を算出する。第3の変形例においては、関連度算出部21は、1番目のNベスト解B2と、この1番目のNベスト解B2に対応する1番目のNベスト解A1との出現順の差「0」に基づいて関連度を算出する。なお、関連度を算出する式は、上記の(式3)と同様である。これにより、例えば、話者bが、「PC」を発話する前に他の発話をしていた場合であっても、機能語「まず」を発話した直後に「PC」と発話すれば、「PC」の発話区間に対応するNベスト解B2の出現順と、「PC」の発話区間に対応するNベスト解A1の出現順とが共に同じ出現順(1番目)となる。それゆえ、関連度算出部21は、上記の(式3)より、最大の関連度を算出することができる。この結果、単に時系列上の出現順の差に基づいて関連度を算出する第2の変形例よりも、より正確に関連度を算出することができる。
機能語抽出部52は、P個の発話区間にそれぞれ対応するNベスト解Aにおける時系列上それぞれの出現順に対応する機能語を機能語辞書51から抽出する。ここで、仮に、「PCについて教えて。あとインターネットも」と話者aが発話Aを発声した後における認識結果記憶部18には、図9に示すように、Nベスト解A1およびNベスト解A2が、認識結果記憶テーブル18cとして格納される。この場合、機能語抽出部52は、2個の発話区間にそれぞれ対応するNベスト解Aにおける時系列上それぞれの出現順「1」、「2」に対応する機能語を機能語辞書51から抽出する。すなわち、機能語抽出部52は、出現順「1」に対応する機能語「1番目」、「まず」、「始めに」を機能語辞書51から抽出し、出現順「2」に対応する機能語「2番目」、「つぎ」を機能語辞書51から抽出する。機能語抽出部52は、抽出した機能語を出力提示部27に出力する。
出力提示部27は、機能語抽出部52により抽出された機能語を、P個の発話区間にそれぞれ対応するNベスト解Aにおけるそれぞれのベスト解Aと対応させて提示する。第3の変形例においては、出力提示部27は、機能語抽出部52により抽出された機能語を、ベスト解A1「CD」、および、ベスト解A2「インターネット」と対応させて提示する。図10は、出力提示部27に表示(提示)される表示画面の一例を示す概念図である。図10に示すように、出力提示部27には、機能語「1番目/まず/始めに」と、ベスト解A1「CD」とが対応して表示されている。また、出力提示部27には、機能語「2番目/つぎ」と、ベスト解A2「インターネット」とが対応して表示されている。これにより、話者bは、話者aが「PC」と発話しているにも関わらず、認識結果(ベスト解A1)が「CD」と誤っていることが判る。誤った認識結果を修正するため、例えば、話者bが、このベスト解A1「CD」に対応して表示された機能語「1番目/まず/始めに」のうち、いずれかの機能語を発話した直後に正しい認識結果「PC」を繰り返して発話する。すなわち、第3の変形例においては、話者bは、「まず、PCについてですが」と発話Bを発声する。これにより、上記にて説明したように、関連度算出部21は、上記の(式3)により、最大の関連度を算出することができる。この結果、応答発話判定部22は、確実に、Nベスト解Bが、Nベスト解Aに対する発話Aへの応答発話Bによって得られたNベスト解であると判定することができる。
[関連度算出部による関連度の算出処理の第4の変形例]
さらに、他の例として、図5に示した工程Op7において、関連度算出部21による関連度の算出処理の第4の変形例を説明する。まず、本実施形態で説明した関連度算出部21により算出された関連度を第1の関連度とし、第1の変形例で説明した関連度算出部21により算出された関連度を第2の関連度とし、第2の変形例で説明した関連度算出部21により算出された関連度を第3の関連度とし、第3の変形例で説明した関連度算出部21により算出された関連度を第4の関連度とする。この場合、関連度算出部21は、第1〜第4の関連度の全て、あるいは、第1〜第4の関連度のいずれかの組み合わせに基づいて関連度を算出する。例えば、関連度算出部21は、第1〜第4の関連度の和あるいは積をとることにより、関連度を算出する。複数の組み合わせに基づいて関連度を算出するので、上述した実施形態、および、第1〜第3の変形例と比較して、より正確な関連度を算出することができる。
なお、上記では、関連度算出部21は、第1〜第4の関連度の全て、あるいは、第1〜第4の関連度のいずれかの組み合わせに基づいて関連度を算出する例について説明したが、これに限定されない。例えば、関連度算出部21は、第1〜第4の関連度にそれぞれ異なる重み付け、あるいは、補正値を適用した上で、関連度を算出するようにしても良い。
また、関連度の算出方法を変更する関連度算出方法変更部を設けても良い。一例として、関連度算出方法変更部は、関連度算出部21が、第1および第2の関連度に基づいて関連度を算出するのか、第3および第4の関連度に基づいて関連度を算出するのかを変更させる。これにより、関連度算出方法変更部は、音声認識システムの都合に応じて関連度の算出方法を変更させることができる。
また、関連度算出部21は、音声入力部11が受け付けた発話Aの音声波形と、音声入力部11が受け付けた発話Bの音声波形とを、例えば、DPマッチングを用いることにより類似度を算出し、この類似度に基づいて関連度を算出するようにしても良い。さらに、関連度算出部21は、音響処理部13が変換した特徴量Aと、音響処理部13が変換した特徴量Bとを、例えば、DPマッチングを用いることにより類似度を算出し、この類似度に基づいて関連度を算出するようにしても良い。すなわち、関連度算出部21は、Nベスト解Bが、Nベスト解Aに対する発話Aへの応答発話Bによって得られたNベスト解であるか否かの度合を表す関連度を算出できれば、その方法は任意である。
さらに、上記では、繰り返し発話判定部23は、Nベスト解B1が、Nベスト解A1に対応する発話Aの繰り返し発話Bによって得られたNベスト解であるか否かを判定する例について説明したが、これに限定されない。すなわち、繰り返し発話判定部23は、Nベスト解Bが、Nベスト解Aに対する発話Aよりも時系列上後方の発話であって、かつ、このNベスト解Aに対する発話Aとは異なる話者による発話によって得られたNベスト解であれば、繰り返し発話判定部23による判定処理を行うことができる。
すなわち、本発明は上述した実施形態、および、第1〜第4の変形例に限定されるものではなく、請求項に示した範囲で種々の変更が可能である。すなわち、請求項に示した範囲で適宜変更した技術的手段を組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。
以上の実施の形態に関し、更に以下の付記を開示する。
(付記1)
発話を発声した話者を識別する入力識別部と、
発話と複数の認識語彙とを照合することにより算出された認識スコアの中から最も認識スコアの高い認識語彙をベスト解とするとき、当該ベスト解から認識スコアの高い上位N個(Nは1以上の整数)の認識語彙をNベスト解として格納する認識結果記憶部と、
前記認識結果記憶部から抽出したNベスト解を先方Nベスト解とするとき、当該先方Nベスト解に対する発話よりも時系列上後方の発話であって、かつ、当該先方Nベスト解に対する発話とは異なる話者による発話によって得られたNベスト解を後方Nベスト解として前記認識結果記憶部から抽出する認識結果抽出部と、
前記後方Nベスト解が、前記先方Nベスト解に対する発話への応答発話によって得られたNベスト解であるか否かの度合を表す関連度を算出する関連度算出部と、
前記関連度が閾値以上である場合、前記後方Nベスト解が、前記先方Nベスト解に対する発話への応答発話によって得られたNベスト解であると判定する応答発話判定部と、
前記応答発話判定部により前記後方Nベスト解が前記先方Nベスト解に対する発話への応答発話によって得られたNベスト解であると判定された場合、前記後方Nベスト解が、前記先方Nベスト解に対する発話の繰り返し発話によって得られたNベスト解であるか否かを判定する繰り返し発話判定部と、
前記繰り返し発話判定部により前記後方Nベスト解が前記先方Nベスト解に対する発話の繰り返し発話によって得られたNベスト解であると判定された場合、前記先方Nベスト解におけるベスト解を先方ベスト解、および、前記後方Nベスト解におけるベスト解を後方ベスト解とするとき、前記先方ベスト解と前記後方ベスト解とが一致するか否かを判定し、一致しない場合、前記先方Nベスト解の一部または全部を、前記後方Nベスト解の一部または全部で置き換えが可能であると判定する一致判定部とを備えることを特徴とする音声認識システム。
(付記2)
前記一致判定部により前記先方ベスト解と前記後方ベスト解とが一致しないと判定された場合、前記先方Nベスト解が格納されている前記認識結果記憶部の先方ベスト解を、前記後方ベスト解に更新する認識結果修正部と、
前記認識結果修正部により更新された後方ベスト解を出力する結果出力部とをさらに備える、付記1に記載の音声認識システム。
(付記3)
前記認識結果修正部により更新された履歴を示す履歴データを生成する修正履歴生成部と、
前記修正履歴生成部により生成された履歴データを提示する出力提示部とをさらに備える、付記2に記載の音声認識システム。
(付記4)
前記繰り返し発話判定部は、前記応答発話判定部により前記後方Nベスト解が前記先方Nベスト解に対する発話への応答発話によって得られたNベスト解であると判定された場合、前記後方Nベスト解における後方ベスト解の認識スコアが所定の認識スコア以上であって、かつ、下記の(1)および(2)のいずれも満たす場合に、前記後方Nベスト解が、前記先方Nベスト解に対する発話の繰り返し発話によって得られたNベスト解であると判定する、付記1〜3のいずれか一項に記載の音声認識システム。
(1)前記先方Nベスト解中のいずれかの解が、前記後方Nベスト解における後方ベスト解と一致する。
(2)前記後方ベスト解と一致する前記先方Nベスト解中の解の認識スコアが所定の認識スコア以上、あるいは、前記後方ベスト解と一致する前記先方Nベスト解中の解における、前記先方ベスト解からの順位が所定の順位以上である。
(付記5)
認識語彙間の共起関係を表す共起情報を格納した共起情報記憶部、および、認識語彙の意味を表す意味属性を格納した意味属性記憶部の少なくとも1つと、
前記一致判定部により前記先方ベスト解と前記後方ベスト解とが一致すると判定された場合、前記共起情報および前記意味属性の少なくとも1つに基づいて、発話と複数の認識語彙との照合方法を変更させる照合処理変更部とをさらに備える、付記1〜4のいずれか一項に記載の音声認識システム。
(付記6)
前記関連度算出部は、下記の(1)〜(4)の少なくとも1つに基づいて関連度を算出する、請求項1〜4のいずれか一項に記載の音声認識システム。
(1)前記先方Nベスト解中のそれぞれの解と前記後方Nベスト解中のそれぞれの解とが一致する個数
(2)前記先方Nベスト解中のそれぞれの解と前記後方Nベスト解中のそれぞれの解とが一致する解における、前記先方Nベスト解中の認識スコアに基づく順位と前記後方Nベスト解中の認識スコアに基づく順位との差
(3)前記先方Nベスト解が出力された時刻と前記後方Nベスト解が出力された時刻との時間差
(4)発話と複数の認識語彙とを照合することにより複数の先方Nベスト解が得られ、かつ、当該発話とは異なる話者による発話と複数の認識語彙とを照合することにより複数の後方Nベスト解が得られた場合、複数の先方Nベスト解の時系列上の出現順と、複数の後方Nベスト解の時系列上の出現順との差
(付記7)
前記関連度算出部は、前記先方Nベスト解中のそれぞれの解と前記後方Nベスト解中のそれぞれの解とが一致する個数が多く、かつ、前記先方Nベスト解中のそれぞれの解と前記後方Nベスト解中のそれぞれの解とが一致する解における、前記先方Nベスト解中の認識スコアに基づく順位と前記後方Nベスト解中の認識スコアに基づく順位との差が小さい程、大きい関連度を算出する、付記6に記載の音声認識システム。
(付記8)
前記Nベスト解に現在時刻を表す時刻情報を付加し、当該時刻情報を付加したNベスト解を前記認識結果記憶部に書き込む時刻情報管理部をさらに備え、
前記関連度算出部は、前記先方Nベスト解に付加された時刻情報が表す現在時刻と、前記後方Nベスト解に付加された時刻情報が表す現在時刻との時間差が小さい程、大きい関連度を算出する、付記6に記載の音声認識システム。
(付記9)
前記関連度算出部は、発話と複数の認識語彙とを照合することにより複数の先方Nベスト解が得られ、かつ、当該発話とは異なる話者による発話と複数の認識語彙とを照合することにより複数の後方Nベスト解が得られた場合、複数の先方Nベスト解の時系列上の出現順と、複数の後方Nベスト解の時系列上の出現順との差が小さい程、大きい関連度を算出する、付記6に記載の音声認識システム。
(付記10)
発話の出現順を表す機能語と、当該出現順とを関連付けて格納した機能語辞書をさらに備え、
前記関連度算出部は、複数の後方Nベスト解中のいずれかの後方Nベスト解における後方ベスト解と、前記機能語とが一致する場合、前記機能語と一致する後方ベスト解を含む後方Nベスト解から時系列上次の後方Nベスト解の出現順を、当該機能語が表す出現順とする、付記9に記載の音声認識システム。
(付記11)
複数の先方Nベスト解における時系列上それぞれの出現順に対応する機能語を機能語辞書から抽出する機能語抽出部をさらに備え、
前記出力提示部は、前記機能語抽出部により抽出された機能語を、複数の先方Nベスト解におけるそれぞれの先方ベスト解と対応させて提示する、付記10に記載の音声認識システム。
(付記12)
発話と複数の認識語彙とを照合することにより算出された認識スコアの中から最も認識スコアの高い認識語彙をベスト解とするとき、当該ベスト解から認識スコアの高い上位N個(Nは1以上の整数)の認識語彙をNベスト解として格納する認識結果記憶部を備えたコンピュータに、
発話を発声した話者を識別する入力識別処理と、
前記認識結果記憶部から抽出したNベスト解を先方Nベスト解とするとき、当該先方Nベスト解に対する発話よりも時系列上後方の発話であって、かつ、当該先方Nベスト解に対する発話とは異なる話者による発話によって得られたNベスト解を後方Nベスト解として前記認識結果記憶部から抽出する認識結果抽出処理と、
前記後方Nベスト解が、前記先方Nベスト解に対する発話への応答発話によって得られたNベスト解であるか否かの度合を表す関連度を算出する関連度算出処理と、
前記関連度が閾値以上である場合、前記後方Nベスト解が、前記先方Nベスト解に対する発話への応答発話によって得られたNベスト解であると判定する応答発話判定処理と、
前記応答発話判定処理により前記後方Nベスト解が前記先方Nベスト解に対する発話への応答発話によって得られたNベスト解であると判定された場合、前記後方Nベスト解が、前記先方Nベスト解に対する発話の繰り返し発話によって得られたNベスト解であるか否かを判定する繰り返し発話判定処理と、
前記繰り返し発話判定処理により前記後方Nベスト解が前記先方Nベスト解に対する発話の繰り返し発話によって得られたNベスト解であると判定された場合、前記先方Nベスト解におけるベスト解を先方ベスト解、および、前記後方Nベスト解におけるベスト解を後方ベスト解とするとき、前記先方ベスト解と前記後方ベスト解とが一致するか否かを判定し、一致しない場合、前記先方ベスト解の一部または全部を、前記後方Nベスト解の一部または全部で置き換えが可能であると判定する一致判定処理とを実行させることを特徴とする音声認識プログラム。
本発明は、発話を認識可能な音声認識システムまたは音声認識プログラムとして利用可能である。
本発明の実施形態に係る音声認識システムの概略構成を示すブロック図である。 上記音声認識システムにおける認識結果記憶部のデータ構造の一例を示す図である。 上記音声認識システムにおける認識結果修正部により更新された後の、上記認識結果記憶部のデータ構造の一例を示す図である。 上記音声認識システムにおける出力提示部に提示される表示画面の一例を示す概念図である。 上記音声認識システムの動作の一例を示すフローチャートである。 本発明の第3の変形例に係る音声認識システムの概略構成を示すブロック図である。 上記音声認識システムにおける機能語辞書のデータ構造の一例を示す図である。 上記音声認識システムにおける認識結果記憶部のデータ構造の一例を示す図である。 話者bが発話Bを発声する前であって、話者aが発話Aを発声した後における上記認識結果記憶部のデータ構造の一例を示す図である。 話者bが発話Bを発声する前であって、話者aが発話Aを発声した後の上記音声認識システムにおける出力提示部に提示される表示画面の一例を示す概念図である。
符号の説明
1、1a 音声認識システム
12 入力識別部
17 時刻情報管理部
18 認識結果記憶部
19 認識結果抽出部
20 同義語情報記憶部
21 関連度算出部
22 応答発話判定部
23 繰り返し発話判定部
24 一致判定部
25 認識結果修正部
26a 結果出力部
26b 修正履歴生成部
27 出力提示部
28 照合処理変更部
29 共起情報記憶部
30 意味属性記憶部
51 機能語辞書
52 機能語抽出部

Claims (6)

  1. 発話を発声した話者を識別する入力識別部と、
    発話と複数の認識語彙とを照合することにより算出された認識スコアの中から最も認識スコアの高い認識語彙をベスト解とするとき、当該ベスト解から認識スコアの高い上位N個(Nは1以上の整数)の認識語彙をNベスト解として格納する認識結果記憶部と、
    前記認識結果記憶部から抽出したNベスト解を先方Nベスト解とするとき、当該先方Nベスト解に対する発話よりも時系列上後方の発話であって、かつ、当該先方Nベスト解に対する発話とは異なる話者による発話によって得られたNベスト解を後方Nベスト解として前記認識結果記憶部から抽出する認識結果抽出部と、
    前記後方Nベスト解が、前記先方Nベスト解に対する発話への応答発話によって得られたNベスト解であるか否かの度合を表す関連度を算出する関連度算出部と、
    前記関連度が閾値以上である場合、前記後方Nベスト解が、前記先方Nベスト解に対する発話への応答発話によって得られたNベスト解であると判定する応答発話判定部と、
    前記応答発話判定部により前記後方Nベスト解が前記先方Nベスト解に対する発話への応答発話によって得られたNベスト解であると判定された場合、前記後方Nベスト解が、前記先方Nベスト解に対する発話の繰り返し発話によって得られたNベスト解であるか否かを判定する繰り返し発話判定部と、
    前記繰り返し発話判定部により前記後方Nベスト解が前記先方Nベスト解に対する発話の繰り返し発話によって得られたNベスト解であると判定された場合、前記先方Nベスト解におけるベスト解を先方ベスト解、および、前記後方Nベスト解におけるベスト解を後方ベスト解とするとき、前記先方ベスト解と前記後方ベスト解とが一致するか否かを判定し、一致しない場合、前記先方Nベスト解の一部または全部を、前記後方Nベスト解の一部または全部で置き換えが可能であると判定する一致判定部とを備えることを特徴とする音声認識システム。
  2. 前記一致判定部により前記先方ベスト解と前記後方ベスト解とが一致しないと判定された場合、前記先方Nベスト解が格納されている前記認識結果記憶部の先方ベスト解を、前記後方ベスト解に更新する認識結果修正部と、
    前記認識結果修正部により更新された後方ベスト解を出力する結果出力部とをさらに備える、請求項1に記載の音声認識システム。
  3. 前記繰り返し発話判定部は、前記応答発話判定部により前記後方Nベスト解が前記先方Nベスト解に対する発話への応答発話によって得られたNベスト解であると判定された場合、前記後方Nベスト解における後方ベスト解の認識スコアが所定の認識スコア以上であって、かつ、下記の(1)および(2)のいずれも満たす場合に、前記後方Nベスト解が、前記先方Nベスト解に対する発話の繰り返し発話によって得られたNベスト解であると判定する、請求項1または2に記載の音声認識システム。
    (1)前記先方Nベスト解中のいずれかの解が、前記後方Nベスト解における後方ベスト解と一致する。
    (2)前記後方ベスト解と一致する前記先方Nベスト解中の解の認識スコアが所定の認識スコア以上、あるいは、前記後方ベスト解と一致する前記先方Nベスト解中の解における、前記先方ベスト解からの順位が所定の順位以上である。
  4. 認識語彙間の共起関係を表す共起情報を格納した共起情報記憶部、および、認識語彙の意味を表す意味属性を格納した意味属性記憶部の少なくとも1つと、
    前記一致判定部により前記先方ベスト解と前記後方ベスト解とが一致すると判定された場合、前記共起情報および前記意味属性の少なくとも1つに基づいて、発話と複数の認識語彙との照合方法を変更させる照合処理変更部とをさらに備える、請求項1〜3のいずれか一項に記載の音声認識システム。
  5. 前記関連度算出部は、下記の(1)〜(4)の少なくとも1つに基づいて関連度を算出する、請求項1〜4のいずれか一項に記載の音声認識システム。
    (1)前記先方Nベスト解中のそれぞれの解と前記後方Nベスト解中のそれぞれの解とが一致する個数
    (2)前記先方Nベスト解中のそれぞれの解と前記後方Nベスト解中のそれぞれの解とが一致する解における、前記先方Nベスト解中の認識スコアに基づく順位と前記後方Nベスト解中の認識スコアに基づく順位との差
    (3)前記先方Nベスト解が出力された時刻と前記後方Nベスト解が出力された時刻との時間差
    (4)発話と複数の認識語彙とを照合することにより複数の先方Nベスト解が得られ、かつ、当該発話とは異なる話者による発話と複数の認識語彙とを照合することにより複数の後方Nベスト解が得られた場合、複数の先方Nベスト解の時系列上の出現順と、複数の後方Nベスト解の時系列上の出現順との差
  6. 発話と複数の認識語彙とを照合することにより算出された認識スコアの中から最も認識スコアの高い認識語彙をベスト解とするとき、当該ベスト解から認識スコアの高い上位N個(Nは1以上の整数)の認識語彙をNベスト解として格納する認識結果記憶部を備えたコンピュータに、
    発話を発声した話者を識別する入力識別処理と、
    前記認識結果記憶部から抽出したNベスト解を先方Nベスト解とするとき、当該先方Nベスト解に対する発話よりも時系列上後方の発話であって、かつ、当該先方Nベスト解に対する発話とは異なる話者による発話によって得られたNベスト解を後方Nベスト解として前記認識結果記憶部から抽出する認識結果抽出処理と、
    前記後方Nベスト解が、前記先方Nベスト解に対する発話への応答発話によって得られたNベスト解であるか否かの度合を表す関連度を算出する関連度算出処理と、
    前記関連度が閾値以上である場合、前記後方Nベスト解が、前記先方Nベスト解に対する発話への応答発話によって得られたNベスト解であると判定する応答発話判定処理と、
    前記応答発話判定処理により前記後方Nベスト解が前記先方Nベスト解に対する発話への応答発話によって得られたNベスト解であると判定された場合、前記後方Nベスト解が、前記先方Nベスト解に対する発話の繰り返し発話によって得られたNベスト解であるか否かを判定する繰り返し発話判定処理と、
    前記繰り返し発話判定処理により前記後方Nベスト解が前記先方Nベスト解に対する発話の繰り返し発話によって得られたNベスト解であると判定された場合、前記先方Nベスト解におけるベスト解を先方ベスト解、および、前記後方Nベスト解におけるベスト解を後方ベスト解とするとき、前記先方ベスト解と前記後方ベスト解とが一致するか否かを判定し、一致しない場合、前記先方ベスト解の一部または全部を、前記後方Nベスト解の一部または全部で置き換えが可能であると判定する一致判定処理とを実行させることを特徴とする音声認識プログラム。
JP2007069123A 2007-03-16 2007-03-16 音声認識システム、および、音声認識プログラム Expired - Fee Related JP4812029B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2007069123A JP4812029B2 (ja) 2007-03-16 2007-03-16 音声認識システム、および、音声認識プログラム
US12/034,978 US8346553B2 (en) 2007-03-16 2008-02-21 Speech recognition system and method for speech recognition
EP08004158A EP1970898A1 (en) 2007-03-16 2008-03-06 Speech recognition system and method for speech recognition
CN2008100860661A CN101266792B (zh) 2007-03-16 2008-03-14 语音识别***和语音识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007069123A JP4812029B2 (ja) 2007-03-16 2007-03-16 音声認識システム、および、音声認識プログラム

Publications (2)

Publication Number Publication Date
JP2008233229A true JP2008233229A (ja) 2008-10-02
JP4812029B2 JP4812029B2 (ja) 2011-11-09

Family

ID=39327071

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007069123A Expired - Fee Related JP4812029B2 (ja) 2007-03-16 2007-03-16 音声認識システム、および、音声認識プログラム

Country Status (4)

Country Link
US (1) US8346553B2 (ja)
EP (1) EP1970898A1 (ja)
JP (1) JP4812029B2 (ja)
CN (1) CN101266792B (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101404246B1 (ko) * 2012-10-29 2014-06-05 포항공과대학교 산학협력단 발화 인식 성능 향상 시스템 및 방법
JP2015045668A (ja) * 2013-08-27 2015-03-12 ヤフー株式会社 音声認識装置、音声認識方法、およびプログラム
JP2021071658A (ja) * 2019-10-31 2021-05-06 株式会社リコー サーバ装置、通信システムおよび情報処理方法

Families Citing this family (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110004473A1 (en) * 2009-07-06 2011-01-06 Nice Systems Ltd. Apparatus and method for enhanced speech recognition
WO2011064938A1 (ja) * 2009-11-25 2011-06-03 日本電気株式会社 音声データ解析装置、音声データ解析方法及び音声データ解析用プログラム
US8494852B2 (en) * 2010-01-05 2013-07-23 Google Inc. Word-level correction of speech input
US8407242B2 (en) * 2010-12-16 2013-03-26 Microsoft Corporation Temporal binding for semantic queries
EP2727020A4 (en) * 2011-06-29 2015-07-08 Hewlett Packard Development Co PROVIDING SERVICES USING UNIFIED COMMUNICATION CONTENT
US8768707B2 (en) * 2011-09-27 2014-07-01 Sensory Incorporated Background speech recognition assistant using speaker verification
US9409813B2 (en) 2011-10-20 2016-08-09 Albert Vangura Hand-held tool for cutting laminated glass and film-covered glass and method for using same
BR112014009233A8 (pt) * 2011-10-20 2017-06-20 Koninklijke Philips Nv sistema para a caracterização de pelo menos um parâmetro anatômico de uma via respiratória superior de um paciente pela análise de propriedades espectrais de um enunciado; uso de um sistema; e método para a avaliação de pelo menos um parâmetro anatômico de uma via respiratória superior de um paciente pela análise de propriedades espectrais de um enunciado
CN102496366B (zh) * 2011-12-20 2014-04-09 上海理工大学 一种与文本无关的说话人识别方法
CN103426428B (zh) * 2012-05-18 2016-05-25 华硕电脑股份有限公司 语音识别方法及***
CN102760434A (zh) * 2012-07-09 2012-10-31 华为终端有限公司 一种声纹特征模型更新方法及终端
CN103020047A (zh) * 2012-12-31 2013-04-03 威盛电子股份有限公司 修正语音应答的方法及自然语言对话***
US9858038B2 (en) * 2013-02-01 2018-01-02 Nuance Communications, Inc. Correction menu enrichment with alternate choices and generation of choice lists in multi-pass recognition systems
JP5921756B2 (ja) * 2013-02-25 2016-05-24 三菱電機株式会社 音声認識システムおよび音声認識装置
CN103578467B (zh) * 2013-10-18 2017-01-18 威盛电子股份有限公司 声学模型的建立方法、语音辨识方法及其电子装置
CN104978971B (zh) * 2014-04-08 2019-04-05 科大讯飞股份有限公司 一种口语评测方法及***
DE112014006795B4 (de) * 2014-07-08 2018-09-20 Mitsubishi Electric Corporation Spracherkennungssystem und Spracherkennungsverfahren
CN105469789A (zh) * 2014-08-15 2016-04-06 中兴通讯股份有限公司 一种语音信息的处理方法及终端
KR102371697B1 (ko) * 2015-02-11 2022-03-08 삼성전자주식회사 음성 기능 운용 방법 및 이를 지원하는 전자 장치
KR101595090B1 (ko) * 2015-04-30 2016-02-17 주식회사 아마다스 음성 인식을 이용한 정보 검색 방법 및 장치
CN105869642B (zh) * 2016-03-25 2019-09-20 海信集团有限公司 一种语音文本的纠错方法及装置
CN109145145A (zh) 2017-06-16 2019-01-04 阿里巴巴集团控股有限公司 一种数据更新方法、客户端及电子设备
CN107993653A (zh) * 2017-11-30 2018-05-04 南京云游智能科技有限公司 语音识别设备的错误发音自动纠正更新方法和更新***
JP6718182B1 (ja) * 2019-05-08 2020-07-08 株式会社インタラクティブソリューションズ 誤変換辞書作成システム
US11829720B2 (en) * 2020-09-01 2023-11-28 Apple Inc. Analysis and validation of language models

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10322450A (ja) * 1997-03-18 1998-12-04 N T T Data:Kk 音声認識システム、コールセンタシステム、音声認識方法及び記録媒体
JP2000137496A (ja) * 1998-11-02 2000-05-16 Fujitsu I-Network Systems Ltd 音声認識による電話番号検索方式およびシステム
JP2000250590A (ja) * 1999-03-04 2000-09-14 Kdd Corp 音声認識システム及び音声認識方法
JP2006285212A (ja) * 2006-02-14 2006-10-19 Mitsubishi Electric Information Systems Corp オペレータ業務支援システムとしてコンピュータを機能させるためのプログラム

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3284832B2 (ja) * 1995-06-22 2002-05-20 セイコーエプソン株式会社 音声認識対話処理方法および音声認識対話装置
JPH11149294A (ja) 1997-11-17 1999-06-02 Toyota Motor Corp 音声認識装置および音声認識方法
JP3886024B2 (ja) * 1997-11-19 2007-02-28 富士通株式会社 音声認識装置及びそれを用いた情報処理装置
US7280964B2 (en) * 2000-04-21 2007-10-09 Lessac Technologies, Inc. Method of recognizing spoken language with recognition of language color
US20020052913A1 (en) * 2000-09-06 2002-05-02 Teruhiro Yamada User support apparatus and system using agents
JP2002175316A (ja) * 2000-12-07 2002-06-21 Sanyo Electric Co Ltd ユーザ支援装置およびシステム
EP1376999A1 (en) * 2002-06-21 2004-01-02 BRITISH TELECOMMUNICATIONS public limited company Spoken alpha-numeric sequence entry system with repair mode
JP2004037721A (ja) * 2002-07-02 2004-02-05 Pioneer Electronic Corp 音声応答システム、音声応答プログラム及びそのための記憶媒体
AU2003246956A1 (en) 2002-07-29 2004-02-16 British Telecommunications Public Limited Company Improvements in or relating to information provision for call centres
JP2005123869A (ja) 2003-10-16 2005-05-12 Advanced Media Inc 通話内容書き起こしシステムおよび通話内容書き起こし方法
GB0411377D0 (en) * 2004-05-21 2004-06-23 Univ Belfast Dialogue manager
US7672845B2 (en) 2004-06-22 2010-03-02 International Business Machines Corporation Method and system for keyword detection using voice-recognition
JP4324089B2 (ja) * 2004-12-17 2009-09-02 富士通株式会社 音声再生プログラムおよびその記録媒体、音声再生装置ならびに音声再生方法
JP4804019B2 (ja) 2005-03-17 2011-10-26 日本ゴア株式会社 ガスケット及びその製造方法
US8041570B2 (en) * 2005-05-31 2011-10-18 Robert Bosch Corporation Dialogue management using scripts
JP4680691B2 (ja) * 2005-06-15 2011-05-11 富士通株式会社 対話システム
JP2007057844A (ja) * 2005-08-24 2007-03-08 Fujitsu Ltd 音声認識システムおよび音声処理システム
JP4567606B2 (ja) * 2006-01-05 2010-10-20 富士通株式会社 音声データの聞き出し部分特定処理プログラムおよび処理装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10322450A (ja) * 1997-03-18 1998-12-04 N T T Data:Kk 音声認識システム、コールセンタシステム、音声認識方法及び記録媒体
JP2000137496A (ja) * 1998-11-02 2000-05-16 Fujitsu I-Network Systems Ltd 音声認識による電話番号検索方式およびシステム
JP2000250590A (ja) * 1999-03-04 2000-09-14 Kdd Corp 音声認識システム及び音声認識方法
JP2006285212A (ja) * 2006-02-14 2006-10-19 Mitsubishi Electric Information Systems Corp オペレータ業務支援システムとしてコンピュータを機能させるためのプログラム

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101404246B1 (ko) * 2012-10-29 2014-06-05 포항공과대학교 산학협력단 발화 인식 성능 향상 시스템 및 방법
JP2015045668A (ja) * 2013-08-27 2015-03-12 ヤフー株式会社 音声認識装置、音声認識方法、およびプログラム
JP2021071658A (ja) * 2019-10-31 2021-05-06 株式会社リコー サーバ装置、通信システムおよび情報処理方法
JP7463690B2 (ja) 2019-10-31 2024-04-09 株式会社リコー サーバ装置、通信システム、情報処理方法、プログラムおよび記録媒体

Also Published As

Publication number Publication date
US8346553B2 (en) 2013-01-01
JP4812029B2 (ja) 2011-11-09
CN101266792A (zh) 2008-09-17
CN101266792B (zh) 2012-11-14
EP1970898A1 (en) 2008-09-17
US20080228482A1 (en) 2008-09-18

Similar Documents

Publication Publication Date Title
JP4812029B2 (ja) 音声認識システム、および、音声認識プログラム
US6910012B2 (en) Method and system for speech recognition using phonetically similar word alternatives
JP4657736B2 (ja) ユーザ訂正を用いた自動音声認識学習のためのシステムおよび方法
EP0965978B9 (en) Non-interactive enrollment in speech recognition
EP1346343B1 (en) Speech recognition using word-in-phrase command
US10170107B1 (en) Extendable label recognition of linguistic input
US7890325B2 (en) Subword unit posterior probability for measuring confidence
JP4680714B2 (ja) 音声認識装置および音声認識方法
EP1422692A2 (en) Automatic insertion of non-verbalized punctuation in speech recognition
US20090220926A1 (en) System and Method for Correcting Speech
KR20010096490A (ko) 이동통신을 위한 철자 음성인식장치 및 방법
US20070038453A1 (en) Speech recognition system
US6963834B2 (en) Method of speech recognition using empirically determined word candidates
US20040006469A1 (en) Apparatus and method for updating lexicon
JPH10274996A (ja) 音声認識装置
US7752045B2 (en) Systems and methods for comparing speech elements
JP3911178B2 (ja) 音声認識辞書作成装置および音声認識辞書作成方法、音声認識装置、携帯端末器、音声認識システム、音声認識辞書作成プログラム、並びに、プログラム記録媒体
JP2006208905A (ja) 音声対話装置及び音声対話方法
US11043212B2 (en) Speech signal processing and evaluation
JP4986301B2 (ja) 音声認識処理機能を用いたコンテンツ検索装置、プログラム及び方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20091106

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110524

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110531

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110728

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110818

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110819

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140902

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees