JP4643911B2

JP4643911B2 - 音声認識方法及び装置

Info

Publication number: JP4643911B2
Application number: JP2004000411A
Authority: JP
Inventors: 勝寧鄭; 明鉉柳; 載 ▲祐▼ 金; 俊我朴
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2002-12-31
Filing date: 2004-01-05
Publication date: 2011-03-02
Anticipated expiration: 2024-01-05
Also published as: EP1435605B1; KR100668297B1; EP1435605A3; DE60309822T2; KR20040061659A; US7680658B2; US20040153321A1; EP1435605A2; JP2004213016A; DE60309822D1

Description

本発明は音声認識に係り、特に音声認識の結果与えられる複数の代案単語リストからユーザーが選択することによって最終の認識単語を決定するプロセスを適応的に変更することによって音声認識性能を向上させることができる音声認識方法及び装置に関する。

音声認識技術とは、人間の音声をコンピュータが分析してこれを認識または理解する技術をいう。人間の音声は発音時に口つき及び舌の位置変化によって特定の周波数を有するが、音声認識技術は発声された音声を電気信号に変換した後、音声信号の周波数特性を抽出して発音を認識する。最近はこのような音声認識技術が電話ダイヤリング、おもちゃ制御、語学学習または家電機器制御など多様な分野に応用されている。

ところが、音声認識技術の発展にかかわらず、実際の音声認識環境における周辺の騷音のために、現在の技術ではまだ１００％認識成功率が保障されてはいない。したがって、音声認識作業でエラーが頻繁に発生する。このような作業のエラー発生率を減らすための方便として、音声認識器の認識結果に対してユーザーに確認を要求するか、音声認識器の認識結果によって複数の代案よりなるリストをユーザーに提示することによって、ユーザーの確認または選択によって最終の認識単語を決定する方法が使われている。

このような方法と関連した従来技術としては、特許文献１、特許文献２、特許文献３、特許文献４、特許文献５がある。特許文献１は最も効率的に検索された有力な代案単語を提示し、有力な代案が間違った場合に次の代案単語を提示する方式により正しい認識結果を探す技術である。この技術によれば、ユーザーはシステムにより提示される一連のはい／いいえの質問にいちいち応答しなければならず、次の質問でいかなる単語が出るか知らされていない状態が維持される。特許文献２及び特許文献３は、音声認識結果に対する代案単語を羅列し、羅列された代案に対してグラフィックユーザーインターフェースまたは音声によるユーザーの選択によって認識結果を決定する技術である。この技術によれば、ユーザーは発話以後にいかなる場合でも正しい代案単語を選択する別途の操作を行わねばならない。特許文献４は最善の認識結果に基づいてユーザー発話を一応文字に変換し、変換された文字をユーザーが検討する過程で以前に考慮された認識結果の代案単語を照会及び選択して修正する技術である。この技術は円滑な作業方式を提案しているが、ユーザーがリアルタイムでこのようなシステムを使用する場合、認識結果を目でみながら同時に文章を生成しなければならない。特許文献５は一連の音声認識作業中に特定発話に対する不明確な認識結果を確定するにおいて、その以後の発話に対する認識結果を参照して代案単語を自動的に選択する技術である。

前記のように、従来はユーザーの音声に対して正確な認識結果が導出されても少なくとも１回のユーザー確認または選択のような付加作業が行わねばならず、確認作業が行われない場合には最終の認識単語を決定するのにかかる時間が無制限的に長くなる短所がある。
米国特許第４８６６７７８号公報米国特許第５０２７４０６号公報米国特許第５８８４２５８号公報米国特許第６３１４３９７号公報米国特許第６３４７２９６号公報

したがって、本発明が解決しようとする技術的課題は、音声認識結果、複数の代案よりなるリストに対してユーザーの選択がない場合、一定の待ち時間経過後に最初の代案単語を最終の認識単語として決定し、ユーザーの選択がある場合に選択された代案単語を最終の認識単語として決定するか、再調整された待ち時間経過後に選択された代案単語を最終の認識単語として決定する音声認識方法を提供することである。
本発明が解決しようとする他の技術的課題は、前記音声認識方法を実現するのに最も適した装置を提供することである。

前記技術的課題を達成するために本発明による音声認識方法は、（ａ）ユーザーが発話した音声を入力する段階と、（ｂ）前記入力される音声を認識して類似度順序によって所定数の認識単語を生成する段階と、（ｃ）前記所定数の認識単語が所定の順序によって羅列された代案リストに対して所定の待ち時間の間にユーザーの選択変更がない場合、現在カーソルが位置する代案単語を最終の認識単語として決定する段階と、を含む。

前記音声認識方法は、（ｄ）前記所定の待ち時間の間にユーザーの選択変更がある場合、前記待ち時間を再調整して前記（ｂ）段階に復帰する段階をさらに含むか、（ｄ）前記所定の待ち時間の間にユーザーの選択変更がある場合、ユーザーが選択した代案単語を最終の認識単語として決定する段階をさらに含むことが望ましい。

前記他の技術的課題を達成するために本発明による音声認識装置は、ユーザーが発話した音声を入力する音声入力部と、前記入力される音声を認識して類似度順序によって所定数の認識単語を生成する音声認識部と、前記所定数の認識単語が所定の順序によって羅列された代案リストに対して所定の待ち時間の間にユーザーの選択変更がない場合、現在カーソルが位置している代案単語を最終の認識単語として決定する後処理部と、を含む。

また、前記後処理部は、前記音声認識部で生成された所定数の認識単語が所定の順序によって羅列された代案リストが含まれたグラフィックユーザーインターフェース用ウィンドウを生成するウィンドウ生成部と、前記グラフィックユーザーインターフェース用ウィンドウがディスプレイされた後、現在カーソルが移動している代案単語を最終の認識単語として決定するまでの待ち時間を設定する待ち時間設定部と、所定の待ち時間の間に前記ディスプレイされた代案リストに対するユーザーの選択変更がない場合、前記代案リストのうち現在カーソルが位置している最初の代案単語を最終の認識単語として決定し、前記所定の待ち時間の間にユーザーの選択変更がある場合、前記待ち時間を再調整し、再調整された待ち時間の間に再度ユーザーの選択変更がない場合にユーザーが選択した代案単語を最終の認識単語として決定する最終の認識単語決定部と、を具備する。

また、前記後処理部は、前記音声認識部で生成された所定数の認識単語が所定の順序によって羅列された代案リストが含まれたグラフィックユーザーインターフェース用ウィンドウを生成するウィンドウ生成部と、前記グラフィックユーザーインターフェース用ウィンドウがディスプレイされた後、現在カーソルが移動している代案単語を最終の認識単語として決定するまでの待ち時間を設定する待ち時間設定部と、所定の待ち時間の間に前記ディスプレイされた代案リストに対するユーザーの選択変更がない場合、前記代案リストのうち現在カーソルが位置している最初の代案単語を最終の認識単語として決定し、前記所定の待ち時間の間にユーザーの選択変更がある場合、ユーザーが選択した代案単語を最終の認識単語として決定する最終の認識単語決定部と、を具備する。

本発明によれば、劣悪な音声認識環境でユーザーの付加作業及び心理的な圧迫を最小化させつつも、音声命令を通した作業の最終成功率を極大化させることによって作業の効率性を向上させることができる。

また本発明によれば、一定の待ち時間の間にユーザーの選択変更が行なわれない場合に自動的に後続作業を行うことによって音声認識のために要求されるユーザーのボタン操作回数を最小化できることにより、ユーザーに便宜を提供してシステムに対する満足度を増大させるだけでなく、ユーザー別に適応的に調整された待ち時間を割当てることによって音声認識により実行される作業の処理速度を速めることができる。

以下、本発明の実施例について添付した図面を参照して詳細に説明する。

図１は本発明の一実施例による音声認識装置の構成を示したブロック図である。本実施例による音声認識装置は、音声入力部１１、音声認識部１３及び後処理部１５よりなる。

図１を参照すれば、音声入力部１１はマイクロホンよりなり、ユーザーが発声した音声を入力し、入力された音声に対して不要な雑音信号を除去し、所定レベルに増幅させて音声認識部１３に提供する。

音声認識部１３は、音声入力部１１から入力される音声の開始点及び終了点を検出して入力された音声の前後にある黙音区間を除外した音声区間での特徴データを抽出した後、リアルタイムでベクトル量子化を行う。以後、特徴データを利用してデータベース（ＤＢ）に登録された単語に対して類似度が最も類似した単語を選定するビタビ（viterbi）探索を行う。この時、隠れマルコフモデル（Hidden Markov Model：ＨＭＭ）を利用できるが、現在入力された音声の特徴データと認識対象候補単語に対してあらかじめ訓練して構築したＨＭＭの特徴データとを比較し、特徴データの差を利用して最も類似した候補単語を決定する。音声認識部１３でビタビ検索が終了した後認識結果として、類似度順序によって入力音声と最も類似した所定数、ここでは３つの単語を決定して後処理部１５に提供する。

後処理部１５は、音声認識部１３の認識結果を入力として認識結果を文字信号に変換し、変換された文字信号を類似度順序によって羅列したグラフィックユーザーインターフェース用ウィンドウを生成する。グラフィックユーザーインターフェース用ウィンドウの一例は図９に図示されたような形態を有し、ウィンドウ９１には“最初の代案、ここでは‘タンサクキ’を実行中です”というメッセージが現れる領域９２、タイムベルト９３が表示される領域９３、及び代案リストが現れる領域９４を含む。生成されたウィンドウ９１は、あらかじめ設定された待ち時間に該当するタイムベルト９３が全部なくなるまで画面上にディスプレイされ、待ち時間以内にユーザーから別途のキーまたはボタン入力がない場合、最初の代案単語を最終の認識単語として決定する。一方、待ち時間以内にユーザーから代案選択用キーまたはボタンが入力されれば、後述する図７または図８に図示された過程を通じて最終の認識単語を決定する。

図２は、図１において後処理部１５の細部的な構成を示したブロック図であって、待ち時間設定部２１、熟練度管理部２２、熟練度ＤＢ２３、ウィンドウ生成部２４、エラーパターン管理部２５、エラーパターンＤＢ２６及び最終の認識単語決定部２７よりなる。

図２を参照すれば、待ち時間設定部２１はグラフィックユーザーインターフェース用ウィンドウ９１がディスプレイされた後に現在カーソルが移動している代案単語を最終の認識単語として決定するまでの待ち時間を設定する。待ち時間はグラフィックユーザーインターフェース用ウィンドウ９１でタイムベルト９３により表示される。待ち時間は代案リストのうちあらゆる代案に対して待ち時間を同一に付与するか、類似度の高い代案から低い代案順序によって待ち時間を別々に付与することもある。また、あらゆるユーザーに対して一律的に同じ待ち時間を付与するか、音声認識装置を扱うユーザーの熟練度によって音声認識装置付き機器のユーザー別に相異なる待ち時間を付与することもある。待ち時間設定部２１で設定された待ち時間は待ち時間設定部２１に入力された音声認識部１３の音声認識結果と共にウィンドウ生成部２４に提供される。

熟練度管理部２２は、熟練度ＤＢ２３に保存された熟練度による選択時間に所定の余裕時間を付加した値を待ち時間として再調整して待ち時間設定部２１に供給する。熟練度管理部２２は後述する図６に図示された過程を通じて待ち時間を再調整する。ここで、待ち時間はあらゆる代案に同一に適用になる待ち時間または類似度順序によって差別的に付与される待ち時間を称する。

熟練度ＤＢ２３は、熟練度によって相異なる選択時間を対応させてＤＢ化したものである。ここで、熟練度はグラフィックユーザーインターフェース用ウィンドウがディスプレイされた後、最終の認識単語を決定するまでかかる選択時間に反比例する変数であって、所定回数に対してかかる選択時間を平均した値をユーザー別熟練度として決定する。

ウィンドウ生成部２４は、図９に図示されたように、現在進行状況を知らせるメッセージ領域９２、待ち時間設定部２１で設定した待ち時間に該当するタイムベルト９３及び音声認識部１３の音声認識結果を類似度順序によって羅列した代案リスト９３を含むグラフィックユーザーインターフェース用ウィンドウ９１を生成する。この時、代案リスト９３の代案羅列順序は、類似度だけでなく以前の音声認識ヒストリーで現れたエラーパターンを反映して決定できる。

エラーパターン管理部２５は、音声認識部１３により最初の代案として採択された認識単語及び最終の認識単語決定部２７から提供される最終の認識単語を入力とし、２つの認識単語の組み合わせがエラーパターンＤＢ２６に保存されている場合、音声認識部１３を通じてウィンドウ生成部２４に提供された認識結果に対するスコアを調整してウィンドウ生成部２４に提供する。すると、ウィンドウ生成部２４では調整されたスコアを基準として代案リスト９４の羅列順序を変更する。例えば、最初の代案として採択された認識単語が“恋（コイ）”であり、最終決定された認識単語が“コーヒー”である場合“コーヒー”に所定の加重値を付与する。その結果、音声認識部１３での“コイ”が最初の代案として決定されてもウィンドウ生成部２４では“コーヒー”を“コイ”より高い順位に羅列できる。

エラーパターンＤＢ２６は、音声認識部１３により最初の代案として採択された認識単語と最終的に決定された認識単語とが相異なる場合、これをエラーパターンとして保存し、エラーパターンテーブルの一例は図４に図示されたように認識結果、最初の代案認識単語４１、最終の認識単語４２、ユーザーの発話特徴１ないしｎ４３、発話性向４４、及びエラー発生回数、すなわち、ヒストリーｎ、４５よりなる。

最終の認識単語決定部２７は、ウィンドウ生成部２４で生成されたグラフィックユーザーインターフェース用ウィンドウ９１に示した代案リスト９４に対して、タイムベルト９３により表示される待ち時間の間にユーザーの付加作業が行われるかどうかによって最終の認識単語を決定する。すなわち、ウィンドウ９１がディスプレイされた後、待ち時間以内にユーザーから別途のキーまたはボタン入力がない場合、現在カーソルが位置している最初の代案単語を最終の認識単語として決定する。一方、待ち時間以内にユーザーから代案選択用キーまたはボタンが入力されれば、後述する図７または図８に図示された過程を通じて最終の認識単語を決定する。

図３は、図２においてエラーパターン管理部２５でエラーパターンＤＢ２４をアップデートする過程を説明するフローチャートである。

図３を参照すれば、３１段階では最終の認識単語決定部２７から提供される最初の代案認識単語と最終の認識単語との組み合わせがエラーパターンＤＢ２６に含まれているかどうかを判断し、最初の代案認識単語と最終の認識単語との組み合わせがエラーパターンＤＢ２６に含まれていない場合に本フローチャートを終了する。

３２段階では前記３１段階での判断結果、最初の代案認識単語と最終の認識単語との組み合わせがエラーパターンＤＢ２６に含まれている場合、発話特徴差値を算出する。発話特徴差値は、該当エラーパターンに対してエラーパターンＤＢ２６に保存されたユーザー発話特徴１ないしｎ４３と現在入力された音声の各発話特徴間の差に対して絶対値を取った値を全部加算した値を意味する。

３３段階では前記３２段階で求められた発話特徴差値とアップデートのための所定の基準値である第１しきい値とを比較し、発話特徴差値が第１しきい値より大きいかまたは同じ場合には本フローチャートを終了する。ここで、第１しきい値は実験的にまたはシミュレーションを通じて最適の値に設定できる。３４段階では前記３３段階での比較結果、発話特徴差値が第１しきい値より小さな場合、すなわち、エラーが該当エラーパターンのような理由、例えば風邪にひいて、または朝に声がつぶれて、または周囲がうるさくて発生したと判断される場合には、現在音声の発話特徴１ないしｎを含んで発話特徴１ないしｎの各平均値を算出して発話性向４４をアップデートし、３５段階ではヒストリーｎの値を１増加させてヒストリー４５をアップデートする。

図５は、図２においてエラーパターン管理部２５で代案羅列順序を変更する過程を説明するフローチャートである。

図５を参照すれば、５１段階では音声認識部１３を通じてウィンドウ生成部２４に提供された後、表１に図示されたような認識結果及びスコアを参照して最初の代案認識単語と２番目の代案認識単語との組み合わせや、最初の代案認識単語と３番目の代案認識単語との組み合わせがエラーパターンＤＢ２６にエラーパターンとして含まれているかどうかを判断し、これら組み合わせがエラーパターンＤＢ２６に含まれていない場合に本フローチャートを終了する。この時、認識結果を３順位まで示す場合を例示する。

５２段階では前記５１段階での判断結果、これら組み合わせがエラーパターンＤＢ２６に含まれている場合、各組み合わせに対して発話特徴１ないしｎの差値を算出する。図３と同様に、発話特徴差値はエラーパターンＤＢ２６に保存された各組み合わせでのユーザー発話特徴１ないしｎ４３と現在入力された音声の各発話特徴間の差に対して絶対値を取った値を全部加算した値を意味する。
５３段階では、前記５２段階で算出された発話特徴差値を順序変更のための第２しきい値と比較し、発話特徴差値が第２しきい値より大きいかまたは同じ場合、すなわち、エラーが該当エラーパターンのような理由により発生しなかったと判断される場合、本フローチャートを終了する。ここで、第２しきい値は実験的にまたはシミュレーションを通じて最適の値に設定できる。５４段階では前記５３段階での比較結果、発話特徴差値が第２しきい値より小さな場合、すなわち、エラーが該当エラーパターンのような理由により発生したと判断される場合、該当代案のスコアを修正する。例えば、エラーパターンＤＢ２６に図４のようなエラーパターンテーブルが保存されており、すなわち、最初の対案認識単語と最終の認識単語として３番目の対案認識単語との組み合わせがエラーパターンに含まれており、加重値を０．４と設定した場合、前記表１の認識結果及びスコアは次の表２のように変更される。ここで、修正されたスコア９．２は元のスコア８に加重値０．４とヒストリー３とを積算した値を加算することによって算出される。

一方、図３ないし図５に適用されたユーザーの発話特徴１ないしｎ４３を説明すれば、音声認識部１３で音声を分析しながら生成される情報すなわち、一部は音声認識の結果判定に使われ、一部は参照資料としてのみ使われる情報を使用するか、別途の方法により測定された次のような情報を使用する。

第１に、該当数の音節を発話するにかかる時間により発話速度を定義し、第２に、ハードウェアに指定されているマイクボリュームに比べて過度に小さいかまたは大きい声のために生じるエラーの原因である声の大きさを定義する。例えば、小さな声の場合には騷音に埋められ、大きい声の場合にはハードウェアが収容できない部分があって信号の歪曲を発生させる。第３に、音声入力がない状況または音節間の空白時に測定される該当状況下での基本騷音の程度として、音声対騷音比率（ＳＮＲ）を定義する。第４に、風邪、朝に発生する発声機関の異常による音声の一部変移有無が分かる特定状況での声つぶれ状態を定義する。その他に多様な発話特徴が使われる。

図６は、図２において熟練度管理部２２で待ち時間を調整する過程を説明するフローチャートである。

図６を参照すれば、６１段階では熟練度ＤＢ２３に保存された熟練度別選択時間のうち初期値として割当てられた選択時間から現在の最終の認識単語決定にかかる時間を引いた値により選択時間差値を算出する。

６２段階では、前記６１段階で求められた選択時間差値を待ち時間変更のための所定の基準値である第３しきい値と比較し、選択時間差値が第３しきい値より大きい場合、すなわち与えられた選択時間がユーザーが選択を決定できる時間に比べて十分に長いと判断される場合には選択時間を修正する（６３段階）。ここで、第３しきい値は実験的にまたはシミュレーションを通じて最適の値に設定できる。前記６３段階で修正された選択時間は、熟練度ＤＢ２３に保存されていた選択時間から選択時間差値に所定の加重値を積算した値を減算することにより算出される。例えば、熟練度ＤＢ２３に保存されていた選択時間を０．８秒、選択時間差値を０．１秒、加重値を０．１とする場合、修正された選択時間は０．７９秒となる。修正された選択時間は熟練度ＤＢ２３に保存されて該当ユーザーの選択時間をアップデートする。

６４段階では前記６２段階での比較結果、選択時間差値が第３しきい値より小さいかまたは同じ場合すなわち、ユーザーの最終選択が選択時間終了以後にシステムのタイムアウトにより定められた場合に選択時間差値を所定の余裕時間と比較し、選択時間差値が余裕時間より大きいかまたは同じ場合に本フローチャートを終了する。

６５段階では前記６４段階での比較結果、選択時間差値が余裕時間より小さな場合に選択時間を修正する。前記６５段階で修正された選択時間は、熟練度ＤＢ２３に保存されていた選択時間に所定の付加時間を加算することによって算出される。例えば、熟練度ＤＢ２３に保存されていた選択時間を０．８秒、付加時間を０．０２秒とする場合、修正された選択時間は０．８２秒となる。修正された選択時間は熟練度ＤＢ２３に保存されて該当ユーザーの選択時間をアップデートする。付加時間は認識エラーの可能性がある場合に次の使用時の潜在的なエラーを防止するために付加する時間であって、ここでは０．０２秒を例とするものである。

６６段階では前記６３段階または前記６５段階で修正された選択時間に所定の余裕時間を加算することによって該当ユーザーの待ち時間を算出して待ち時間設定部２１に提供する。余裕時間はユーザーの意図と関係なく選択しないように余裕を有する時間であって、ここでは０．３秒を例とした。

図７は本発明による音声認識方法の第１実施例を説明するフローチャートであって、代案リストディスプレイ段階（７１段階）、ユーザー選択変更がない場合に対する処理段階（７２、７３及び７８段階）及びユーザー選択変更がある場合に対する処理段階（７４ないし７８段階）よりなる。

図７を参照すれば、７１段階では音声認識部１３の音声認識結果による代案リスト９４を含むウィンドウ９１をディスプレイする。本発明ではウィンドウ９１がディスプレイされる瞬間には代案リスト９４でカーソルが常に最初の代案に位置すると設定し、ウィンドウ９１がディスプレイされる瞬間からタイムベルト９３が進まれる。７２段階では、ユーザーからの別途のキーまたはボタン入力なしに待ち時間設定部２１で設定された初期待ち時間が経過したかどうかを判断する。

７３段階では前記７２段階での判断結果、初期待ち時間が経過した場合に現在カーソルが位置した最初の代案単語を最終の認識単語として決定し、認識単語に該当する機能を行う（７８段階）。一方、７４段階では前記７２段階での判断結果、初期待ち時間が経過しない場合にユーザーから別途のキーまたはボタン入力により選択変更が行なわれたかどうかを判断する。

７５段階では前記７４段階での判断結果、ユーザーの選択変更が行なわれた場合、待ち時間を再調整する。この時、再調整される待ち時間は初期待ち時間と同一であるか、代案羅列順序によって相異なる。一方、前記７４段階での判断結果、ユーザー選択変更が行なわれていない場合に７６段階に移行する。例えば、図９において‘ダンセイシュウキ（弾性周期）’にユーザーが選択を変更した場合、ウィンドウ９１のメッセージ領域９２では“ダンセイシュウキを実行中です”というメッセージと共に再調整された待ち時間によるタイムベルト９３が作動する。

７６段階では、前記７５段階で再調整された待ち時間または初期待ち時間が経過したかどうかを判断し、再調整された待ち時間または初期待ち時間が経過していない場合に前記７４段階に復帰して再びユーザーの選択変更が行なわれるかどうかを判断する。一方、前記７６段階での判断結果、再調整された待ち時間または初期待ち時間が経過した場合、ユーザーの選択変更により現在カーソルが位置した代案単語を最終の認識単語として決定し、認識単語に該当する機能を行う（７８段階）。

図８は本発明による音声認識方法の第２実施例を説明するフローチャートであって、代案リストディスプレイ段階（８１段階）、ユーザー選択変更がない場合に対する処理段階（８２ないし８６段階）及びユーザー選択変更がある場合に対する処理段階（８４ないし８６段階）よりなる。

図８を参照すれば、８１段階では音声認識部１３の音声認識結果による代案リスト９４を含むウィンドウ９１をディスプレイする。ウィンドウ９１がディスプレイされる瞬間からタイムベルト９３が進まれる。８２段階ではユーザーからの別途のキーまたはボタン入力なしに待ち時間設定部２１で設定された初期待ち時間が経過したかどうかを判断する。

８３段階では前記８２段階での判断結果、初期待ち時間が経過した場合に現在カーソルが位置した最初の代案単語を最終の認識単語として決定し、認識単語に該当する機能を行う（８６段階）。一方、８４段階では前記８２段階での判断結果、初期待ち時間が経過していない場合、ユーザーから別途のキーまたはボタン入力により選択変更が行なわれたかどうかを判断する。

８５段階では前記８４段階での判断結果、ユーザーの選択変更が行なわれた場合、ユーザーの選択変更により現在カーソルが位置した代案単語を最終の認識単語として決定し、認識単語に該当する機能を行う（８６段階）。一方、前記８４段階での判断結果、ユーザー選択変更が行なわれていない場合に８２段階に復帰する。

次に、多様な認識環境下で作業成功率及び付加作業回数について、既存の音声認識方法と本発明による音声認識方法とを比較した結果は次の表３に示された通りである。

表３を参照すれば、既存方式１は代案単語を提示しない方式であり、既存方式２は最善の代案に対してユーザーが可否を決定する方式であり、既存方式３は認識結果に対する一連の代案リストのうちユーザーが一つを選択する方式である。表３に示されたデータは、９０％認識環境は一般事務室の騷音環境、７０％認識環境は車両の高速道路運行の騷音環境をいい、認識対象単語リストが無限大であり、リストに含まれた単語間の類似度が相等しいという仮定下で算出されたものである。表３によれば、本発明による音声認識方法を適用する場合、付加作業が行なわれない場合の初期作業成功率に加えて付加作業を繰り返すほど最終の作業成功率を極大化させることが分かる。

一方、前記一本発明はまた、コンピュータで再生できる記録媒体にコンピュータが再生できるコードとして具現することができる。例えば、音声認識方法はユーザーが発話した音声に対する音声認識結果、所定数の単語を所定の順序によって羅列された代案リストをディスプレイする第１プログラム、及び所定の待ち時間の間に前記ディスプレイされた代案リストに対するユーザーの選択変更があったかどうかを判断し、前記所定の待ち時間の間にユーザーの選択変更がない場合、前記代案リストのうち現在カーソルが位置している代案単語を最終の認識単語として決定し、前記所定の待ち時間の間にユーザーの選択変更がある場合に前記待ち時間を再調整した後、再調整された待ち時間の間に再度ユーザーの選択変更があるかどうかを判断して、ユーザーの選択変更がない場合にユーザーが選択した代案単語を最終の認識単語として決定する第２プログラムを記録したコンピュータが再生できる記録媒体により具現可能である。ここで、第２プログラムは所定の待ち時間の間に前記ディスプレイされた代案リストに対するユーザーの選択変更があったかどうかを判断して、前記所定の待ち時間の間にユーザーの選択変更がない場合、前記代案リストのうち現在カーソルが位置している代案単語を最終の認識単語として決定し、前記所定の待ち時間の間にユーザーの選択変更がある場合、ユーザーが選択した代案単語を最終の認識単語として決定する機能を具備するものに代えられる。

コンピュータが再生できる記録媒体はコンピュータシステムによって再生できるデータが保存されるあらゆる記録装置を含む。コンピュータが再生できる記録媒体の例としてはＲＯＭ、ＲＡＭ、ＣＤ−ＲＯＭ、磁気テープ、フロッピーディスク、光データ保存装置などがあり、またキャリヤウェーブ（例えば、インターネットを通した伝送）の形で具現されることも含む。また、コンピュータが再生できる記録媒体はネットワークに連結されたコンピュータシステムに分散され、分散方式でコンピュータが再生できるコードが保存されて実行される。そして、本発明を具現するための機能的なプログラム、コード及びコードセグメントは本発明が属する技術分野のプログラマーにより容易に推論される。

以上、図面及び明細書で最適の実施例が開示された。ここで特定の用語が使われたが、これは単に本発明を説明するための目的で使われたものであって意味限定や特許請求の範囲に記載された本発明の範囲を制限するために使われたものではない。したがって、当業者ならばこれより多様な変形及び均等な他の実施例が可能であるという点が理解できる。したがって、本発明の真の技術的保護範囲は特許請求の範囲の技術的思想により定められねばならない。

また、本発明による音声認識方法及び装置はパソコン、携帯電話やＰＤＡ（Personal Digital Assistant）のような個人用移動通信機器などの多様なフラットフォームに適用されて、音声認識による作業成功率を向上させうる。

本発明の一実施例による音声認識装置の構成を示したブロック図である。図１において後処理部の細部的な構成を示したブロック図である。図２においてエラーパターン管理部でエラーパターンＤＢをアップデートする過程を説明するフローチャートである。図２においてエラーパターンＤＢの一例を示したテーブルである。図２においてエラーパターン管理部で代案羅列順序を変更する過程を説明するフローチャートである。図２において熟練度管理部で待ち時間を調整する過程を説明するフローチャートである。本発明による音声認識方法の第１実施例を説明するフローチャートである。本発明による音声認識方法の第２実施例を説明するフローチャートである。本発明によって生成されるグラフィックユーザーインターフェースの一例を示した図面である。

符号の説明

１１音声入力部
１３音声認識部
１５後処理部

Claims

（ａ）ユーザーが発話した音声を入力する段階と、
（ｂ）前記入力される音声を認識して類似度順序によって所定数の認識単語を生成する段階と、
（ｃ）前記所定数の認識単語が所定の順序によって羅列された代案リストに対して所定の待ち時間の間にユーザーの選択変更がない場合、現在カーソルが位置する代案単語を最終の認識単語として決定する段階と、
（ｃ１）前記音声認識結果による最初の代案認識単語と最終の認識単語との組み合わせを利用してエラーパターンをアップデートする段階と、
（ｃ２）前記エラーパターンを利用して前記代案リストの羅列順序を再調整する段階と、を含み、
前記（ｃ１）段階は、
（ｃ１１）前記音声認識結果による最初の代案認識単語と最終の認識単語との組み合わせが所定のエラーパターンデータベースに含まれている場合、少なくとも一つの発話特徴差値を算出する段階と、
（ｃ１２）前記発話特徴差値と所定の第１しきい値とを比較する段階と、
（ｃ１３）前記発話特徴差値が前記第１しきい値より小さな場合、現在入力された音声の発話特徴を含んで各発話特徴の平均値を算出して発話性向をアップデートし、該当パターンのヒストリーをアップデートする段階と、を含むことを特徴とする音声認識方法。
前記方法は、
（ｄ）前記所定の待ち時間の間にユーザーの選択変更がある場合、前記待ち時間を再調整する段階をさらに含むことを特徴とする請求項１に記載の音声認識方法。
前記方法は、
（ｄ）前記所定の待ち時間の間にユーザーの選択変更がある場合、ユーザーが選択した代案単語を最終の認識単語として決定する段階をさらに含むことを特徴とする請求項１に記載の音声認識方法。
前記（ｃ２）段階は、
（ｃ２１）前記音声認識結果による最初の代案単語と第２の代案単語との組み合わせと、最初の代案単語と第３の代案単語との組み合わせのうち少なくとも一つが所定のエラーパターンデータベースに含まれている場合、各組み合わせに対して少なくとも一つの発話特徴差値を算出する段階と、
（ｃ２２）前記（ｃ２１）段階で得られた各組合わせの発話特徴差値を所定の第２しきい値と比較する段階と、
（ｃ２３）前記（ｃ２２）段階での比較結果、各組み合わせの前記発話特徴差値が第２しきい値より小さな場合、該当組み合わせに含まれた代案単語のスコアを修正する段階と、を含むことを特徴とする請求項１に記載の音声認識方法。
前記修正されたスコアは、元のスコアに所定の加重値と該当パターンのヒストリーとを積算した値を加算することによって算出されることを特徴とする請求項４に記載の音声認識方法。
前記方法は（ｄ）ユーザーの熟練度によって待ち時間を調整する段階をさらに含むことを特徴とする請求項１に記載の音声認識方法。
前記（ｄ）段階は、
（ｄ１）所定の熟練度データベースに保存された所定選択時間から現在の最終の認識単語決定にかかった時間を減算した値により選択時間差値を算出する段階と、
（ｄ２）前記（ｄ１）段階で得られた選択時間差値を所定の第３しきい値と比較する段階と、
（ｄ３）前記（ｄ２）段階での比較結果、選択時間差値が第３しきい値より大きい場合に選択時間を修正する段階と、
（ｄ４）前記（ｄ２）段階での比較結果、選択時間差値が第３しきい値より小さいか同じ場合に選択時間差値を所定の余裕時間と比較する段階と、
（ｄ５）前記（ｄ４）段階での比較結果、選択時間差値が余裕時間より小さな場合に選択時間を修正する段階と、
（ｄ６）前記（ｄ３）段階または前記（ｄ５）段階で修正された選択時間に所定の余裕時間を加算することによって該当ユーザーの待ち時間を算出する段階と、を含む請求項６に記載の音声認識方法。
前記（ｄ３）段階では前記熟練度データベースに保存されていた選択時間から選択時間差値に所定の加重値を積算した値を減算することにより修正された選択時間を算出することを特徴とする請求項７に記載の音声認識方法。
前記（ｄ５）段階では前記熟練度データベースに保存されていた選択時間に所定の付加時間を加算することによって修正された選択時間を算出することを特徴とする請求項７に記載の音声認識方法。
前記待ち時間は前記代案リストに羅列されたあらゆる代案単語に対して同じ値で付与される請求項１に記載の音声認識方法。
前記待ち時間は前記代案リストに羅列された代案単語の順序によって異なる値で付与される請求項１に記載の音声認識方法。
ユーザーが発話した音声に対する音声認識結果、所定数の単語が所定の順序によって羅列された代案リストをディスプレイする第１プログラムと、
所定の待ち時間の間に前記ディスプレイされた代案リストに対するユーザーの選択変更があったかどうかを判断し、前記所定の待ち時間の間にユーザーの選択変更がない場合、前記代案リストのうち現在カーソルが位置している代案単語を最終の認識単語として決定する第２プログラムと、
前記音声認識結果による最初の代案認識単語と最終の認識単語との組み合わせを利用してエラーパターンをアップデートさせる第３プログラムと、
前記エラーパターンを利用して前記代案リストの羅列順序を再調整する第４プログラムと、を記録し、
前記第３プログラムは、
前記音声認識結果による最初の代案認識単語と最終の認識単語との組み合わせが所定のエラーパターンデータベースに含まれている場合、少なくとも一つの発話特徴差値を算出し、
前記発話特徴差値と所定の第１しきい値とを比較し、
前記発話特徴差値が前記第１しきい値より小さな場合、現在入力された音声の発話特徴を含んで各発話特徴の平均値を算出して発話性向をアップデートし、該当パターンのヒストリーをアップデートする機能を備えたコンピュータが再生できる記録媒体。
前記第２プログラムは、前記所定の待ち時間の間にユーザーの選択変更がある場合、前記待ち時間を再調整した後、再調整された待ち時間の間に再びユーザーの選択変更があるかどうかを判断してユーザーの選択変更がない場合にユーザーが選択した代案単語を最終の認識単語として決定する機能をさらに具備する請求項１２に記載のコンピュータが再生できる記録媒体。
前記第２プログラムは、前記所定の待ち時間の間にユーザーの選択変更がある場合、ユーザーが選択した代案単語を最終の認識単語として決定する機能をさらに具備する請求項１２に記載のコンピュータが再生できる記録媒体。
ユーザーが発話した音声を入力する音声入力部と、
前記入力される音声を認識して類似度順序によって所定数の認識単語を生成する音声認識部と、
前記所定数の認識単語が所定の順序によって羅列された代案リストに対して所定の待ち時間の間にユーザーの選択変更がない場合、現在カーソルが位置している代案単語を最終の認識単語として決定し、前記音声認識結果による最初の代案認識単語と最終の認識単語との組み合わせを利用してエラーパターンをアップデートさせ、前記音声認識結果による最初の代案認識単語と最終の認識単語との組み合わせが所定のエラーパターンデータベースに含まれている場合、少なくとも一つの発話特徴差値を算出し、
前記発話特徴差値と所定の第１しきい値とを比較し、
前記発話特徴差値が前記第１しきい値より小さな場合、現在入力された音声の発話特徴を含んで各発話特徴の平均値を算出して発話性向をアップデートし、該当パターンのヒストリーをアップデートし、前記エラーパターンを利用して前記代案リストの羅列順序を再調整する後処理部と、を含むことを特徴とする音声認識装置。
前記後処理部は、
前記音声認識部で生成された所定数の認識単語が所定の順序によって羅列された代案リストが含まれたグラフィックユーザーインターフェース用ウィンドウを生成するウィンドウ生成部と、
前記グラフィックユーザーインターフェース用ウィンドウがディスプレイされた後、現在カーソルが移動している代案単語を最終の認識単語として決定するまでの待ち時間を設定する待ち時間設定部と、
所定の待ち時間の間に前記ディスプレイされた代案リストに対するユーザーの選択変更がない場合、前記代案リストのうち現在カーソルが位置している最初の代案単語を最終の認識単語として決定し、前記所定の待ち時間の間にユーザーの選択変更がある場合、前記待ち時間を再調整し、再調整された待ち時間の間に再度ユーザーの選択変更がない場合にユーザーが選択した代案単語を最終の認識単語として決定する最終の認識単語決定部と、を具備する請求項１５に記載の音声認識装置。
前記後処理部は、
前記音声認識部で生成された所定数の認識単語が所定の順序によって羅列された代案リストが含まれたグラフィックユーザーインターフェース用ウィンドウを生成するウィンドウ生成部と、
前記グラフィックユーザーインターフェース用ウィンドウがディスプレイされた後、現在カーソルが移動している代案単語を最終の認識単語として決定するまでの待ち時間を設定する待ち時間設定部と、
所定の待ち時間の間に前記ディスプレイされた代案リストに対するユーザーの選択変更がない場合、前記代案リストのうち現在カーソルが位置している最初の代案単語を最終の認識単語として決定し、前記所定の待ち時間の間にユーザーの選択変更がある場合、ユーザーが選択した代案単語を最終の認識単語として決定する最終の認識単語決定部と、を具備することを特徴とする請求項１５に記載の音声認識装置。
前記後処理部は、
前記音声認識部で最初の代案として採択された認識単語、前記最終の認識単語決定部から提供される最終の認識単語、少なくとも一つ以上のユーザー発話特徴、発話性向、及びヒストリーをデータベース化したエラーパターンデータベースと、
前記音声認識部から提供される音声認識結果及びスコアを入力とし、前記エラーパターンデータベースを参照して前記エラーパターンに該当する認識単語のスコアを調整し、前記代案リストの羅列順序を変更して前記ウィンドウ生成部に提供するエラーパターン管理部と、をさらに含むことを特徴とする請求項１６に記載の音声認識装置。
前記後処理部は、
熟練度により相異なる選択時間を対応させてデータベース化した熟練度データベースと、
前記熟練度データベースに保存された熟練度による選択時間に所定の余裕時間を付加した値を待ち時間として再調整して前記待ち時間設定部に供給する熟練度管理部と、をさらに含むことを特徴とする請求項１６に記載の音声認識装置。
前記後処理部は、
熟練度によって相異なる選択時間を対応させてデータベース化した熟練度データベースと、
前記熟練度データベースに保存された熟練度による選択時間に所定の余裕時間を付加した値を待ち時間として再調整して前記待ち時間設定部に供給する熟練度管理部と、をさらに含むことを特徴とする請求項１８に記載の音声認識装置。
前記待ち時間はユーザーの熟練度によって決定されることを特徴とする請求項１６に記載の音声認識装置。
前記再調整された待ち時間は前記代案リストに羅列されたあらゆる代案に対して同じ値で付与されることを特徴とする請求項１６に記載の音声認識装置。
前記再調整された待ち時間は前記代案リストに羅列された代案の順序によって異なる値で付与されることを特徴とする請求項１６に記載の音声認識装置。