JP3782943B2 - 音声認識装置、コンピュータ・システム、音声認識方法、プログラムおよび記録媒体 - Google Patents

音声認識装置、コンピュータ・システム、音声認識方法、プログラムおよび記録媒体 Download PDF

Info

Publication number
JP3782943B2
JP3782943B2 JP2001044186A JP2001044186A JP3782943B2 JP 3782943 B2 JP3782943 B2 JP 3782943B2 JP 2001044186 A JP2001044186 A JP 2001044186A JP 2001044186 A JP2001044186 A JP 2001044186A JP 3782943 B2 JP3782943 B2 JP 3782943B2
Authority
JP
Japan
Prior art keywords
word
language model
string
redundant
appearance probability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2001044186A
Other languages
English (en)
Other versions
JP2002258890A (ja
Inventor
伸泰 伊東
雅史 西村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Priority to JP2001044186A priority Critical patent/JP3782943B2/ja
Priority to US10/056,149 priority patent/US6985863B2/en
Publication of JP2002258890A publication Critical patent/JP2002258890A/ja
Application granted granted Critical
Publication of JP3782943B2 publication Critical patent/JP3782943B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、人の自然な発話を認識して文章化し、冗長語(disfluency)と呼ばれる無意味な単語を自動的に除去してテキスト・データを作成することのできる音声認識装置およびその方法に関する。
【0002】
【従来の技術】
例えば、「A Maximum Likelihood Approach to Continuous Speech Recognition(L.R. Bahl他,IEEE Trans. Vol. PAMI-5, No. 2, 1983, March)」や「単語を認識単位とした日本語の大語彙連続音認識(西村他、情報処理学会論文誌、第40巻、第4号、1999年4月)」は、音響モデルと言語モデルを用いて音声認識を行う統計的方法を記述している。また、IBM ViaVoice98応用編(インフォ・クリエイツ出版事業部、1998年9月30日発行)の15ページには、言語モデルとして一般的な手法であるN−gram推定が開示されている。
さらに、応用上重要である自由発話の認識において頻出する「エー」「アノー」といった冗長語についても、これらをN−gramモデルの中で取り扱い、認識結果から自動的に除去する手法が「Statistical Language Modeling for Speech Disfluencies(A. Stolcke, E. Shriberg, Proc. of ICASSP96)」に開示されている。
【0003】
【発明が解決しようとする課題】
しかしながら、これらの手法を用いた場合、副作用として本来認識対象となるべき単語が冗長語であると判断されて、除かれてしまうという現象を避けることは難しい。冗長語の種類や頻度は、話者はもちろん、発話環境(例 原稿のあるなし、フォーマルかそうでないか)によっても変化するものであり、平均的なモデルでの予測を難しくしている。
したがって本発明は、ユーザの指定、または話者登録時に得られる情報から、冗長語の除去についてより適しているモデル設定機能を提供することを目的とする。
【0004】
【課題を解決するための手段】
語彙・言語モデルにおいてコンピュータなど特定分野に特化したもの(トピックと呼ばれる)を汎用の言語モデルと組み合わせて用い、当該分野における認識精度を向上させる手段が広く用いられている。トピックは比較的サイズを小さく作成することができ、そのオン/オフが容易である。そこで本発明では、冗長語除去のための語彙・言語モデルをトピックとして作成することに着目した。
つまり、本発明は、まず「アー」「エート」「ソノー」といった冗長語を通常語同様に単語として登録した辞書と、その発音を追加したBaseform Pool(ベースフォーム・プール)を用意する。ただし、冗長語については、後処理で除去する際に通常語と容易に区別できるよう、特別の記号(たとえば不等号)を付加した表記(<アー>、<エート>)としておくことが有効である。一方、冗長語を予測する専用の言語モデルをトピック用に作成する。この冗長語予測用の言語モデルは、冗長語を含むようなN−gramおよび自由発話に特有の口語体表現に限って言語モデルの要素とするものであるから、汎用の言語モデルよりはるかに小さなものとすることができる。この言語モデルを汎用の言語モデルと次式(1)で線形補間することにより、冗長語の予測精度を向上させる。
Pr(w1|w2,w3)=λP1(w1|w2,w3)+(1−λ)P2(w1|w2,w3)…(1)
ただし、本式(1)はN=3の場合を例示し、0<λ≦1、P1は汎用言語モデルによる確率を、P2は冗長語トピックの言語モデル(冗長語言語モデル)による確率を示す。
【0005】
本発明は以上の事項を基礎にするものであって、音声に含まれる音素列を1つ以上の単語列に変換し、変換して得られた前記単語列それぞれに対して、前記音素列により本来示される単語列であることの可能性を示す出現確率を付与する変換手段と、前記変換手段により得られた前記単語列それぞれに対応する言語モデルが示す更新用数値に基づいて、前記変換手段により前記単語列に付与された出現確率の更新を行う更新手段と、更新された出現確率が、前記音素列により本来示される単語列が最も高いことを示す前記単語列のいずれかを選択し、前記音声を認識する認識手段とを備え、前記更新手段は、自由発話特有の表現に特化した第1の言語モデルと、前記第1の言語モデルとは異なる第2の言語モデルとを用いて前記更新用数値を算出し、算出した前記更新用数値に基づいて、前記出現確率の更新を行うことを特徴とする音声認識装置である。
冗長語は、自由発話特有の表現に関する単語組に含まれる。したがって、本発明は、冗長語に限定することなく、自由発話特有の表現を対象とする第1の言語モデルを備える。自由発話特有の表現としては、例えば、「なん」「です」「ね」がある。
【0006】
本発明の音声認識装置において、前記第1の言語モデルは、自由発話特有の表現に含まれる所定の単語を含む単語列が、前記音素列により本来示される単語列である確からしさを示すものとすることができる。
また本発明の音声認識装置において、前記所定の単語を音声認識の結果に含める場合には、前記変換手段は前記音素列を前記所定の単語を含む単語列に変換し、前記更新手段は、前記第1の言語モデルおよび前記第2の言語モデルに基づいて、前記単語列それぞれの出現確率を更新することができる。
さらに本発明において、前記第1の言語モデルは、冗長語を含む単語組みを要素とすることができる。
また本発明の音声認識装置において、前記第1の言語モデルおよび前記第2の言語モデルをN−gramモデルとし、前記更新手段は、前記第1の言語モデルおよび前記第2の言語モデルの加重平均値を前記更新用数値として用いることができる。
本発明は、コンピュータ・システム内に以上の音声認識装置を備えることができる。
【0007】
本発明はまた、以下の音声認識方法を提供する。すなわち本発明の音声認識方法は、音声に含まれる音素列を1つ以上の単語列に変換し、変換して得られた前記単語列それぞれに対して、前記音素列により本来示される単語列であることの可能性を示す出現確率を付与する変換ステップと、前記変換ステップにより得られた前記単語列が自由発話固有の単語を含む場合に、自由発話固有の表現に特化した第1の言語モデルおよび前記第1の言語モデルとは異なる第2の言語モデルを参照することにより、前記単語列それぞれに付された出現確率の更新を行う更新ステップと、更新された出現確率が、前記音素列により本来示される単語列が最も高いことを示す前記単語列のいずれかを選択し、前記音声を認識する認識ステップと、を備えたことを特徴とする。
【0008】
本発明の音声認識方法において、前記第1の言語モデルは、自由発話特有の単語を含む単語列の出現確率を、連続するN個の単語の組み合わせと対応付けて記述することができる。
また本発明の音声認識方法において、前記自由発話固有の単語の典型例として冗長語がある。
さらに本発明の音声認識方法では、前記更新ステップにおいて、単語列に含まれることのある特定の記号に特化した第3の言語モデルをさらに参照することにより、前記単語列それぞれに付された出現確率の更新を行うこともできる。「ある特定の記号」は、句点、読点のほか?といった記号を包含する。したがって、これらの特定の記号を自動的に挿入することを可能とする。
【0009】
本発明の音声認識方法は、コンピュータで所定の処理を実行するためのプログラムとしても成立する。すなわち本発明は、音声データを解析して特徴ベクトルに変換する音響処理ステップと、前記音響処理ステップで得られた前記特徴ベクトルに対応する可能性がある音素列に、出現確率を付した音響データを生成する音響データ生成ステップと、冗長語を単語候補に含めながら、前記音素列を単語列に変換する単語変換ステップと、冗長語を含む単語列の出現する確率を連続するN個の単語の組み合わせと対応付けて記述する冗長語言語モデルを参照することにより、前記出現確率を更新する更新ステップと、更新された前記出現確率が最も高い前記単語列を音声認識結果とする認識ステップと、をコンピュータに実現させるためのプログラムである。
【0010】
本発明のプログラムにおいて、前記単語変換ステップは、冗長語として単語候補になった単語に他の単語との区別をするための記号を付して変換することができる。冗長語であることを明示させるため、あるいは冗長語を自動削除する際の目印とするためである。
また本発明のプログラムにおいて、前記認識ステップは、出現確率が最も高い前記単語列をテキスト・データとして出力する。テキスト・データとして出力する際に、出現確率が最も高い前記単語列から前記記号が付された前記単語を除外したテキスト・データとすることもできる。冗長語を自動的に削除してテキスト・データを表示する際に有効である。
本発明のプログラムにおいて、前記更新ステップは、前記冗長語言語モデルの他に汎用的な言語モデルをも参照することにより前記出現確率を更新することが実用上は必要になってくる。
さらに本発明のプログラムでは、前記単語変換ステップにおいて、前記音声データに含まれるポーズ部分を句読点の候補として含めながら前記音素列を単語列に変換し、前記更新ステップは、句読点挿入に限定した句読点言語モデルをさらに参照することにより前記出現確率を更新することもできる。句読点を自動的に挿入する際に有効となる。
【0011】
本発明の音声認識方法は、コンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体としても成立する。すなわち本発明の記録媒体は、音声データを解析して特徴ベクトルに変換する音響処理ステップと、前記音響処理ステップで得られた前記特徴ベクトルに対応する可能性がある音素列に、出現確率を付した音響データを生成する音響データ生成ステップと、冗長語を認識結果に反映させる場合には冗長語を単語候補に含めながら前記音素列を単語列に変換し、冗長語を認識結果に反映させない場合には冗長語を単語候補に含めずに前記音素列を単語列に変換する単語変換ステップと、冗長語を認識結果に反映させる場合には冗長語を含む単語列の出現する確率を連続するN個の単語の組み合わせと対応付けて記述する冗長語言語モデルおよび汎用的な言語モデルを参照し、冗長語を認識結果に反映させない場合には汎用的な言語モデルを参照することにより、前記出現確率を更新する更新ステップと、更新された前記出現確率が最も高い前記単語列を音声認識結果とする認識ステップと、をコンピュータに実行させる。
【0012】
本発明の記録媒体において、前述した本発明のプログラムと同様に、単語変換ステップは、冗長語として単語候補になった単語に他の単語との区別をするための記号を付して変換することができる。
また、本発明の記録媒体において、前記冗長語言語モデルおよび前記汎用的な言語モデルはN−gramモデルであり、前記更新ステップは、前記冗長語言語モデルおよび前記汎用的な言語モデルの加重平均値を用いて前記出現確率を更新することができる。
さらに、本発明の記録媒体において、音声認識結果に句読点を自動的に挿入させる場合に、前記単語変換ステップにおいて、前記音声データに含まれるポーズ部分を句読点の候補として含めながら前記音素列を単語列に変換し、前記更新ステップは、句読点挿入に限定した句読点言語モデルをさらに参照することにより前記出現確率を更新することが有効である。
【0013】
【発明の実施の形態】
以下本発明を実施の形態に基づき説明する。
<第1の実施形態>
図1は第1の実施形態による音声認識装置1の構成を示す。
図1に示すように、音声認識装置は1、マイクロプロセッサ、メモリおよびこれらの周辺回路などから構成されるCPU10、マウス、キーボード、およびマイクロフォンなどの音声入力装置120を含む入力装置12、CRTディスプレイなどの表示装置14、HDD(Hard Disk Drive)、DVD(Digital Versatile Disc)装置、CD(Compact Disk)装置などの記憶装置16から構成される。
つまり、音声認識装置1は、通常のコンピュータに音声入力装置120を付加したハードウェア構成を採り、DVD、CD−ROMあるいはCD−R等の記憶媒体18に記憶された形態で供給される音声認識プログラム2aを実行する。つまり、音声認識装置1は、音声入力装置120から入力され、デジタル形式に変換された音声(音声データ)を認識して、冗長語を自動的に除去したテキスト・データを生成し、記憶装置16に挿入された記憶媒体18に記憶し、あるいは表示装置14にテキスト・データを表示する。
【0014】
図2は音声認識プログラム2aの構成を示す図である。
図2に示すように、音声認識プログラム2aは、音響処理部20、言語復号部22、音響モデル30、言語モデル32a、ベースフォーム・プール34aおよび言語モデル32aについてのON/OFF制御部36から構成される。言語モデル32aは、汎用言語モデル320と冗長語言語モデル(トピック)322とを含んでいる。
【0015】
音響処理部20は、音声入力装置120から入力された音声データに対してフーリエ変換などの周波数分析処理および特徴抽出処理を行い、特徴ベクトルに変換し、言語復号部22に対して出力する。
音響モデル30は、音素毎に特徴ベクトルの出現確率(音素列により本来示される単語列である可能性が高ければ高いほど高い数値を示す)をHMM(Hidden Markov Model)等により記述した音響モデルデータを言語復号部22に対して出力する。
【0016】
ベースフォーム・プール34aは、言語モデル32aの汎用言語モデル320に対応する汎用部分と、冗長語言語モデル322に対応する冗長語発音(例「エー」「アー」)部分とを有する。また、ベースフォーム・プール34aは、各単語の発音を音響モデル30に対応付けられた発音記号で記述する。
【0017】
言語モデル32aにおいて、汎用言語モデル320は、音声認識に必要な一般的な単語・単語列の出現確率を、連続するN個(例えば、N=3)の単語の組み合わせとし、出現確率と対応付けて表形式で記述する。なお、この汎用言語モデル320のサイズは、通常、60MB程度になる。ここで、N=3個の場合の単語組み合わせの出現確率は、連続する2個の単語列の後にある1個の単語が出現する確率として定義され、汎用言語モデル320においては、冗長語は認識対象単語とみなされない。
【0018】
冗長語言語モデル322には、本モデル学習のため自由発話を書き起こしたテキストを走査することにより作成され、冗長語を含む単語組(N=3の例では「これ」「が」「<エー>」)や自由発話特有の口語的表現に関する単語組(例「なん」「です」「ね」)が含まれる。冗長語も自由発話特有の表現の1つである。後者は冗長語検出と直接関連するわけではないが、汎用言語モデル320の多くが新聞などの「書き言葉」から学習されたものであるため、自由発話の認識精度を全体としてより向上させる効果をもつ。
【0019】
図3は、図2に示した音声認識プログラム2a(言語復号部22)の動作を示す図である。図3(a)は冗長語言語モデル322が用いずに汎用言語モデル320のみを用いて音声認識が行われる(トピック・オフの)場合を示し、(b)は汎用言語モデル320および冗長語言語モデル322を用いて音声認識が行われる(トピック・オンの)場合を示す。
言語復号部22は、音響処理部20から入力された特徴ベクトルを、音響モデル30、ベースフォーム・プール34aおよび言語モデル32aにより計算される確率が最大になる単語列(下記式(2)のW')をテキスト・データとして、表示装置14または記憶装置16に対して出力し、これらに表示あるいは記憶する。
【0020】
言語復号部22は、図3(a)、(b)に例示するように、冗長語言語モデル322が用いられるか否かに応じて、図4〜図6を参照して後述するように、冗長語の検出と削除を自動的に行う。
ON/OFF制御部36は冗長語言語モデル322のON/OFFを制御し、冗長語言語モデル322の使用を決定する。この制御方式にはさまざまなものが考えられるが、もっとも簡単なものはユーザからの指示に応じて冗長語言語モデル322のON/OFFを決定するものである。一方、より自動的に制御するには、ユーザの音声データの一部を冗長語言語モデル322がONの場合と、OFFの場合について2度言語復号を行い、その結果得られるスコア(ゆう度)を比較することによって、いずれがより適しているかを判断し、ON/OFFを制御すればよい。この判断は使用するたびに行うことも可能であるが、言語復号を2度行うことはそれだけCPU10の演算時間を必要とするので、通常エンロールと呼ばれるユーザ登録時に行うことが望ましい。
また、下式(2)において、P(S|W)は、音響モデル30およびベースフォーム・プール34aにより与えられ、P(W)は言語モデル32aにより与えられる。このP(W)は、上記式(1)により、汎用言語モデル320と冗長語言語モデル322とがλの値に応じて加重平均され、求められる。λの値を変更することで、冗長語言語モデル322を単にON/OFFするのみならず、汎用言語モデル320および冗長語言語モデル322のいずれのモデルをどの程度重視するかの制御が可能となる。一般にはシステム設計者が、事前の実験により、最適と考えられる値に設定するが、これについてもエンロール時の試験的な言語復号により、調整することが可能である。
【0021】
W'=argmaxW P(W|S)=argmaxW P(S|W)P(W) …(2)
ただし、Sは特徴ベクトル(s1,s2,...,sk)、Wは単語列(w1,w2,...,wl)、W'は単語列(w'1,w'2,...,w' l)である。
【0022】
以下、図4〜図6をさらに参照し、N−gramとして3−gramを用いる場合を具体例として、言語復号部22の動作を詳細に説明する。
図4は、図2に示した音声認識プログラム2a(言語復号部22)の音声認識処理を示すフローチャートである。
図5は、図2に示した汎用言語モデル320のみを用いるため、冗長語の自動削除を行わない(トピック・オフ)場合の音声認識プログラム2a(言語復号部22)の動作を示す図である。
図6は、図2に示した汎用言語モデル320および冗長語言語モデル322を用いて冗長語の自動削除を行う(トピック・オン)場合の音声認識プログラム2a(言語復号部22)の動作を示す図である。
【0023】
図4に示すように、ステップ100(図中S100、以下同様)において、音響処理部20が、入力音声としての「これがえほん」を特徴ベクトルに変換し、言語復号部22に対して出力する。
ステップ102(S102)において、図5および図6に示すように、言語復号部22は、入力された特徴ベクトル(s1,s2,...,sk)を音響モデル30に対して出力する。
音響モデル30は、特徴ベクトルに対応する可能性がある音素列(/koegaehon/、/koregaehon/)に出現確率を付した音響データを作成し、言語復号部22に返す。
【0024】
ステップ104(S104)において、言語復号部22は、ユーザが指定するか、またはエンロール時の試験復号により冗長語自動削除機能が設定されているか否か、つまり冗長語言語モデル322(トピック)がオンになっているか否かを判断し、自動削除が行われない設定になっている(トピックがオフになっている)場合にはλを1に設定してステップ110(S110)の処理に進み、そうでない場合は0〜1のあらかじめ決められた値に設定し、ステップ120(S120)の処理に進む。
【0025】
冗長語の自動削除を行わない場合、ステップ110(S110)において、図5に示すように、言語復号部22は、ベースフォーム・プール34aの汎用部分(汎用ベースフォーム・プール)のみを参照して、冗長語を候補に含めずに、順次音素列(/koegaehon/,/koregaehon/等)を単語列(声/が/絵本、これ/が/絵本等)に変換し、候補とする。すなわち/ehon/の部分はベースフォーム/ehon/に該当する通常単語、もしくは通常単語の組み合わせに変換されることになる。ただし、この段階での変換は音響モデル30から得られる確率のみを用いて行われる。
ステップ112(S112)において、図5に示すように、言語復号部22は、汎用言語モデル320のみを参照して、ステップ110(S110)の処理において得た候補単語列の出現確率を更新する。図5の例においては、この処理の結果として、単語列「これ/が/絵本」の確率が0.02、単語列「声/が/絵本」の確率が0.01となる。
【0026】
冗長語の自動削除を行う場合、ステップ120(S120)において、図6に示すように、言語復号部22は、ベースフォーム・プール34aの汎用ベースフォーム・プールおよび冗長語の音に対応するよう記述された冗長語部分(冗長語ベースフォーム・プール)の両方を参照して、順次冗長語を単語候補に含めながら、音素列(/koegaehon/,/koregaehon/等)を単語列(声/が/絵本、声/が/<エ>/本、これ/が/<エ>/本 等)に変換する。なお、<エ>というように、エに<>を付しているのは、それが冗長語であることを明示するためである。また、この<>を付した単語を自動的に削除したテキスト・データを表示させる場合に有効である。
【0027】
ステップ122(S122)において、図6に示すように、言語復号部22は、汎用言語モデル320および冗長語言語モデル322を、λ≠1とした前記式(1)にしたがって重み付けして参照し、S110の処理において得た候補単語列の出現確率を更新する。図6の例においては、この処理の結果として、単語列「これ/が/<エ>/本」の確率が0.02、その他の単語列の確率が0.01となる。
【0028】
ステップ124(S124)において、図5,6に示すように、言語復号部22は、S112またはS122の処理において計算・更新された確率が最も大きい単語列を、音声認識結果を示すテキスト・データとして出力する。たとえば図6の例では「これ/が/<エ>/本」が選択されることになる。なお、図6では<エ>を表示しているが、実際には<エ>を削除した状態でテキスト・データを表示させることもできる。以下の例でも同様であり、見かけ上<エ>を表示しているが、実際には表示されていない場合を包含する意味である。
【0029】
冗長語言語モデル322を用いない場合と用いる場合に分けて、話者が、例えば、音声認識装置1の音声入力装置120(図1)から、「コレガ」「エ」「ホン」という音声を入力した場合の動作を説明する。
冗長語言語モデル322を用いない場合、音響処理部20は、この音声を示す音声データを処理し、この音声の音を記述する特徴ベクトルを言語復号部22に対して出力する。言語復号部22は、図4および図5に示したように、音響モデル30と汎用言語モデル320のみを用いて音響処理部20から入力された特徴ベクトルを処理し、音響モデル30から得られた確率と同言語モデル32aから得られた確率を評価することにより「コレガ」を「これ/が」と識別し、「エ」「ホン」を「絵本」と識別する。すなわち「エ」という音に対しては、通常語の組み合わせの中から、音響モデル30および言語モデル32aを参照して得られる確率が最大になるものを選択し、この場合「これ/が/絵本」というテキスト・データを識別結果として出力する。
【0030】
冗長語言語モデル322を用いる場合、冗長語言語モデル322を用いない場合と同じく、当該音声データを処理し、この音声の音を記述する特徴ベクトルを言語復号部22に対して出力する。言語復号部22は、図4および図6に示したように、音響モデル30、汎用言語モデル320、および冗長語言語モデル322を用いて音響処理部20から入力された特徴ベクトルを処理し、音響モデル30から得られた確率と同言語モデル32aから得られた確率を評価することにより「コレガ」を「これ/が」と識別し、「エ」「ホン」を「<エ>」「本」と識別する。すなわち「エ」という音に対しては通常語である「絵」などの他に冗長語「<エ>」の可能性も考慮した上で言語モデル32aから得られる確率により、文脈上いずれがより高い可能性を持つかが判定される。そして図3に示すような状況においては、「これ/が/絵本/発明」と「これ/が/<エ>/本/発明」という2つの単語列を比較することで、後者がより高い確率であることがより一層容易に理解される。
【0031】
冗長語言語モデル322は、冗長語にそれを示す記号を割り当てた発音辞書などから構成され、上述した冗長語自動削除用のタスクに比べて、非常に小さいサイズ(例えば、2MB程度)で済む。
また、本実施の形態による冗長語自動削除方法では、トピックとしての冗長語言語モデル322を追加すれば足りるので、従来からの汎用のシステムをほとんど変更することなく、冗長語自動削除機能を追加することができる。
しかもユーザは、この冗長語自動削除用の冗長語言語モデル322を選択するか否かによって、容易に冗長語自動削除機能をオン・オフすることができ、かつ、このオン・オフにはプログラムの再起動が不要である。
さらに、冗長語言語モデル322を、例えば、「コンピュータ」、「サッカー」、「野球」といった、他の分野に特化されたトピックと組み合わせて使用することも可能である。例えば、句読点等の記号を挿入するためのトピックを併設することが有効である。以下、冗長語削除用トピックと句読点挿入用トピックとを併設した例を第2の実施形態として説明する。
【0032】
<第2の実施形態>
第2の実施形態による音声認識装置の基本的な構成は、図1に示した第1の実施形態による音声認識装置1と一致する。したがって、ここでの説明は省略する。
図7は第2の実施形態による音声認識プログラム2bの構成を示す図である。音声認識プログラム2bの基本的な機能は、第1の実施形態による音声認識プログラム2aと一致している。したがって、一致する部分については、図7に第1の実施形態による音声認識プログラム2aと同一の符号を付している。
音声認識プログラム2bは、言語モデル32bが、汎用言語モデル320および冗長語言語モデル322の他に、さらに句読点言語モデル323を備えている点で相違する。また、ベースフォーム・プール34bは、句読点言語モデル323に対応し、音響モデルデータ中の空白部分(ポーズ部分;句読点「。、」に対応する部分)を検出する句読点部分とを有する点でも相違する。なお、図7において省略しているベースフォーム・プール34bの内容は後述する。
【0033】
また、言語復号部22において、句読点自動挿入を行う場合には音声のポーズ部分を単語とみなして処理を行い、句読点自動挿入を行わない場合には音声のポーズ部分を単語としてみなさずに処理を行う。
【0034】
言語モデル32bにおいて、汎用言語モデル320および冗長語言語モデル322の機能は第1の実施形態と同様であるので、ここでは、句読点言語モデル323についてのみ説明する。
句読点言語モデル323は、句読点挿入のために特化したトピックであって、句読点挿入に必要な特定の単語・単語列の出現確率を、連続する3個の単語の組み合わせとし、出現確率と対応付けて表形式に記述する。
句読点言語モデル323は、汎用言語モデル320を、句読点を単語とみなすようにして、ベースフォーム・プール34bによりポーズと判断された部分に句読点を自動的に挿入するために特化させ、データ量を少なくしたものであると考えることができる。
【0035】
句読点言語モデル323には、句読点クラスとの相互情報量に基づいて選択された単語、例えば、以下に例示するような句点・読点の直前に位置する単語が含まれる。なお、以下の例示は、上位20語を列挙するものであり、また、Hmは句読点クラスとの相互情報量の値を示す。
なお、句読点言語モデル323は、内容を句読点挿入に必要な情報に限定するので、一般に、データ量を汎用言語モデル320の1/100〜1/1000程度とすることができる。
【0036】
Figure 0003782943
【0037】
図8は、図7に示した音声認識プログラム2b(言語復号部22)の動作を示す図である。図8(a)は汎用言語モデル320のみを用いて音声認識が行われる場合を示し、(b)は汎用言語モデル320および句読点言語モデル323を用いて音声認識が行われる場合を、(c)は汎用言語モデル320および冗長語言語モデル322を用いて音声認識が行われる場合を、さらに(d)は汎用言語モデル320、冗長語言語モデル322および句読点言語モデル323を用いて音声認識が行われる場合を示す。
【0038】
言語復号部22は、音響処理部20から入力された特徴ベクトルを、音響モデル30、ベースフォーム・プール34bおよび言語モデル32bにより計算される確率が最大になる単語列(上記式(2)のW')をテキスト・データとして、表示装置14または記憶装置16に対して出力し、これらに表示あるいは記憶する。
また、言語復号部22は、図8(a)〜(d)に例示するように、冗長語言語モデル322、句読点言語モデル323が用いられるか否かに応じて、図9〜図13を参照して後述するように、冗長語の検出と削除、句読点の挿入を自動的に行う。
上記式(2)において、P(S|W)は、音響モデル30およびベースフォーム・プール34bによって与えられ、P(W)は言語モデル32bによって与えられる。このP(W)は、上記式(1)により、汎用言語モデル320、冗長語言語モデル322および句読点言語モデル323とがλの値に応じて加重平均され、求められる。λの値を変更することで、冗長語言語モデル322、句読点言語モデル323を単にON/OFFするのみならず、汎用言語モデル320、冗長語言語モデル322および句読点言語モデル323のいずれのモデルをどの程度重視するかの制御が可能となる。一般にはシステム設計者が、事前の実験により、最適と考えられる値に設定するが、これについてもエンロール時の試験的な言語復号により、調整することが可能である。
【0039】
以下、図9〜図13を参照してN−gramとして3−gramを用いる場合を具体例として、言語復号部22の動作を詳細に説明する。
図9は、図7に示した音声認識プログラム2b(言語復号部22)の処理を示すフローチャートである。
図10は、図7に示した汎用言語モデル320のみを用いるため、冗長語の自動削除および句読点の自動挿入を行わない(2つのトピック・オフ)の場合の音声認識プログラム2b(言語復号部22)の動作を示す図である。
図11は、図7に示した汎用言語モデル320と句読点言語モデル323を用いて句読点の自動挿入を行う(句読点トピック・オン)場合の音声認識プログラム2b(言語復号部22)の動作を示す図である。
図12は、図7に示した汎用言語モデル320と冗長語言語モデル322を用いて冗長語の自動削除を行う(冗長語トピック・オン)場合の音声認識プログラム2b(言語復号部22)の動作を示す図である。
図13は、図7に示した汎用言語モデル320、冗長語言語モデル322および句読点言語モデル323を用いて、冗長語の自動削除(冗長語トピック・オン)および句読点の自動挿入(句読点トピック・オン)を行う場合の音声認識プログラム2b(言語復号部22)の動作を示す図である。
【0040】
図9に示すように、ステップ200(図中S200、以下同様)において、音響処理部20が、入力音声としての「これがえほん」を特徴ベクトルに変換し、言語復号部22に対して出力する。
ステップ202(S202)において、図10〜図13に示すように、言語復号部22は、入力された特徴ベクトル(s1,s2,...,sk)を音響モデル30に対して出力する。
音響モデル30は、特徴ベクトルに対応する可能性がある音素列(/koegaehon/、/koregaehon/)に出現確率を付した音響データを作成し、言語復号部22に返す。
【0041】
ステップ204(S204)において、言語復号部22は、ユーザが指定するか、またはエンロール時の試験復号により冗長語自動削除機能が設定されているか否か、つまり冗長語言語モデル322(冗長語トピック)がオンになっているか否かを判断し、自動削除が行われない設定になっている(冗長語トピックがオフになっている)場合には、λを1に設定してステップ208(S208)の判断に進み、そうでない場合は、0〜1λのあらかじめ決められた値に設定し、ステップ206(S206)の判断に進む。
ステップ206(S206)において、言語復号部22は、ユーザが指定するか、またはエンロール時の試験復号により句読点自動挿入機能が設定されているか否か、つまり句読点言語モデル323(句読点トピック)がオンになっているか否かを判断し、自動挿入が行われない設定になっている(句読点トピックがオフになっている)場合には、λを1に設定してステップ220(S220)の処理に進み、そうでない場合は、0〜1λのあらかじめ決められた値に設定し、ステップ210(S210)の処理に進む。ステップ210は冗長語トピックおよび句読点トピックの両者がオンの場合の処理であり、ステップ220は冗長語トピックがオンの場合の処理である。
【0042】
ステップ208(S208)において、言語復号部22は、ステップ206(S206)と同様に、句読点言語モデル323(句読点トピック)がオンになっているか否かを判断し、自動挿入が行われない設定になっている(句読点トピックがオフになっている)場合には、λを1に設定してステップ240(S240)の処理に進み、そうでない場合は、0〜1λのあらかじめ決められた値に設定し、ステップ230(S230)の処理に進む。ステップ230は句読点トピックがオンの場合の処理であり、ステップ240は冗長語トピックおよび句読点トピックの両者がオフの場合の処理である。
【0043】
ステップ240(S240)において、図10に示すように、言語復号部22は、ベースフォーム・プール34bの汎用部分(汎用ベースフォーム・プール)のみを参照して、冗長語およびポーズを単語候補に含めずに、順次、音素列(/koegatenehon/,/koregatenehon/等)を単語列(声/が/、/絵本,これ/が/、/絵本等)に変換し、候補とする。すなわち/ehon/の部分はベースフォーム/ehon/に該当する通常単語、もしくは通常単語の組み合わせに変換されることになる。ただし、この段階での変換は音響モデル30から得られる確率によってのみ行われる。
ステップ242(S242)において、図10に示すように、言語復号部22は、汎用言語モデル320のみを参照して、ステップ220(S220)の処理において得た候補単語列の出現確率を更新する。図10の例においては、この処理の結果として、単語列「これ/が/、/絵本」の確率が0.02、単語列「声/が/、/絵本」の確率が0.01となる。
【0044】
ステップ230(S230)において、図11に示すように、言語復号部22は、ベースフォーム・プール34bの汎用ベースフォーム・プールおよびポーズを検出する句読点部分(句読点トピック)の両方を参照して、順次、ポーズを単語に含めて、音素列(/koegaehon/,/koregaehon/等)を単語列(/声/が/絵本/,/これ/が/え/本/,/声/が/、/絵本/,/これ/が/、/え/本/ 等)に変換する。
ステップ232(S232)において、図11に示すように、言語復号部22は、汎用言語モデル320および句読点言語モデル323を、λ≠1とした前記式(1)にしたがって重み付けして参照し、S230の処理において得た候補単語列の出現確率を更新する。図11の例においては、この処理の結果として、単語列「/これ/が/、/え/本/」の確率が0.02、その他の単語列の確率が0.01となる。
【0045】
ステップ220(S220)において、図12に示すように、言語復号部22は、ベースフォーム・プール34bの汎用ベースフォーム・プールおよび冗長語の音に対応するよう記述された冗長語部分(冗長語トピック)の両方を参照して、順次、冗長語を単語候補に含めながら、音素列(/koegatenehon/,/koregatenehon/等)を単語列(声/が/、/絵本,これ/が/、/絵本,これ/が/、/<エ>/本 等)に変換する。トピック・オフの場合と同様この段階での変換は音響モデル30から得られる確率によってのみ行われる。
ステップ222(S222)において、図12に示すように、言語復号部22は、汎用言語モデル320および冗長語言語モデル322を、λ≠1とした前記式(1)にしたがって重み付けして参照し、S220の処理において得た候補単語列の出現確率を更新する。図12の例においては、この処理の結果として、単語列「これ/が/、/<エ>/本」の確率が0.02、その他の単語列の確率が0.01となる。
【0046】
ステップ210(S210)において、図13に示すように、言語復号部22は、ベースフォーム・プール34bの汎用ベースフォーム・プール、冗長語部分(冗長語トピック)、および句読点部分(句読点トピック)の両方を参照して、順次、冗長語およびポーズを単語候補に含めながら、音素列(/koegaehon/,/koregaehon/等)を単語列(声/が/絵本,声/が/<エ>/本,これ/が/、/<エ>/本 等)に変換する。
ステップ212(S212)において、図13に示すように、言語復号部22は、汎用言語モデル320、冗長語言語モデル322および句読点言語モデル323を、λ≠1とした前記式(1)にしたがって重み付けして参照し、S210の処理において得た候補単語列の出現確率を更新する。図13の例においては、この処理の結果として、単語列「これ/が/、/<エ>/本」の確率が0.02、その他の単語列の確率が0.01となる。
【0047】
ステップ224(S224)において、図10〜図13に示すように、言語復号部22は、順次、S212,S222,S232およびS242の処理において更新された出現確率が最も高い単語列を、音声認識結果を示すテキスト・データとして出力する。
【0048】
以下、第2の実施形態による音声認識装置1(図1,図7)の動作を図8に基づき説明する。
図8(a)に示すように、冗長語言語モデル322および句読点言語モデル323を用いない場合(λ=1)には、話者が、例えば、音声認識装置1の音声入力装置120(図1)から、「コレガ」・「pause(無音を示す。以下、同じ)」・「テン」・「エ」・「ホンハツメイノ」・「pause」・「ヨウテン」という音声を入力すると、音響処理部20は、この音声を示す特徴ベクトルを言語復号部22に対して出力する。
【0049】
言語復号部22(図2)は、図7および図10に示したように、音響モデル30と汎用言語モデル320のみを用いて音響処理部20から入力された特徴ベクトルを処理し、音響モデル30から得られた確率と汎用言語モデル320から得られた確率を評価することにより「コレガ」を「これ/が」と識別し、「pause」に続く「テン」を読点「、」と識別する。つづいて、「エ」「ホン」を「絵本」と識別し、「ハツメイノ」を「発明の」と識別する。さらに、言語復号部22は、「ホンハツメイノ」のあとの「pause」には「テン」、「マル」が続いていないので、その後の「ヨウテン」を「要点」と識別して、「これが、絵本発明の要点」というテキスト・データを識別結果として出力する。
【0050】
図8(b)に示すように、冗長語言語モデル322を用いない場合(λ=1)には、話者が、例えば、音声認識装置1の音声入力装置120(図1)から、「コレガ」・「pause」・「エ」・「ホンハツメイノ」・「pause」・「ヨウテン」という音声を入力すると、音響処理部20は、この音声を示す音素で示す特徴ベクトルを言語復号部22に対して出力する。
【0051】
言語復号部22(図2)は、図7および図11に示したように、音響モデル30、汎用言語モデル320、および句読点言語モデル323を用いて音響処理部20から入力された特徴ベクトルを処理し、音響モデル30から得られた確率と汎用言語モデル320および句読点言語モデル323から得られた確率を評価することにより「コレガ」を「これ/が」と識別し、「ガ」に続く「pause」を読点「、」と識別する。つづいて、「エ」「ホン」を「絵本」と識別し、「ハツメイノ」を「発明の」と識別する。さらに、「ハツメイノ」には、「pause」が続くが、「ノ」の後ろには通常、句読点は続かないので、言語復号部22は、この「pause」の部分には句読点を挿入せず、その後の「ヨウテン」を「要点」と識別して、「これが、絵本発明の要点」というテキスト・データを識別結果として出力する。
【0052】
図8(c)に示したように、句読点言語モデル323を用いない場合(λ=1)には、話者が、例えば、音声認識装置1の音声入力装置120(図1)から、「コレガ」・「pause」・「テン」・「エ」・「ホンハツメイノ」・「pause」・「ヨウテン」という音声を入力すると、音響処理部20は、この音声を示す特徴ベクトルを言語復号部22に対して出力する。
【0053】
言語復号部22(図2)は、図7および図12に示したように、汎用言語モデル320および冗長語言語モデル322を用いて音響処理部20から入力された特徴ベクトルを処理し、音響モデル30から得られた確率と汎用言語モデル320および冗長語言語モデル322から得られた確率を評価することにより「コレガ」を「これ/が」と識別し、「pause」に続く「テン」を読点「、」と識別する。つづいて、「エ」「ホン」を「<エ>」「本」と識別する。すなわち「エ」という音に対しては通常語である「絵」などの他に冗長語「<エ>」の可能性も考慮した上で言語モデル32bから得られる確率により、文脈上いずれがより高い可能性を持つかが判定される。さらに、言語復号部22は、「ホンハツメイノ」のあとの「pause」には「テン」、「マル」が続いていないので、その後の「ヨウテン」を「要点」と識別して、「これが、<エ>本発明の要点」というテキスト・データを識別結果として出力する。そして図8(c)に示すような状況においては、「これ/が/、/絵本/発明」と「これ/が/、/<エ>/本/発明」という2つの単語列を比較することで、後者がより高い確率であることがより一層容易に理解される。
【0054】
図8(d)に示したように、冗長語言語モデル322および句読点言語モデル323を用いる場合(λ≠1)、話者が、例えば、上述した場合とは異なり、「テン」という音声を省き、音声認識装置1の音声入力装置120(図1)から、「コレガ」・「pause」・「エ」・「ホンハツメイノ」・「pause」・「ヨウテン」という音声を入力すると、音響処理部20は、この音声を示す音素で示す特徴ベクトルを言語復号部22に対して出力する。
【0055】
言語復号部22(図2)は、図7および図12に示したように、音響モデル30、汎用言語モデル320、冗長語言語モデル322および句読点言語モデル323を用いて音響処理部20から入力された特徴ベクトルを処理し、音響モデル30から得られた確率と汎用言語モデル320、冗長語言語モデル322および句読点言語モデル323から得られた確率を評価することにより「コレガ」を「これ/が」と識別し、「これが」の「ガ」に続く「pause」を読点「、」と識別する。つづいて、「エ」「ホン」を「<エ>」「本」と識別する。すなわち「エ」という音に対しては通常語である「絵」などの他に冗長語「<エ>」の可能性も考慮した上で言語モデル32bから得られる確率により、文脈上いずれがより高い可能性を持つかが判定される。そして図8(d)に示すような状況においては、「これ/が/、/絵本/発明」と「これ/が/、/<エ>/本/発明」という2つの単語列を比較することで、後者がより高い確率であることがより一層容易に理解される。さらに、「ハツメイノ」には、「pause」が続くが、「ノ」の後ろには通常、句読点は続かないので、言語復号部22は、この「pause」の部分には句読点を挿入せず、句読点言語モデル323を用いない場合と同様に、入力された音声を「これが、<エ>本発明の要点」と正確に識別し、認識結果のテキスト・データとして出力する。
【0056】
以上の第2の実施形態によれば、第1の実施形態による効果に加えて以下の効果を奏する。すなわち、句読点自動挿入のために、従来からの汎用システムにほとんど変更を加えることなく、句読点自動挿入機能を追加することができる。しかも、ユーザは、この句読点自動挿入用トピックを選択するか否かによって、プログラムの再起動を伴うことなく、句読点自動挿入機能をオン・オフすることができる。
また、文章の内容によって、句読点の挿入頻度を変更したいことがあるが、本実施の形態による句読点挿入方法においては、句読点の出現頻度を、汎用言語モデル320との線形補間時の重みの調整によって容易に制御することができる。
【0057】
以上、2つの実施形態に基づいて本発明を説明してきた。2つの実施形態はいずれも日本語を例にしたものである。冗長語は日本語に限らず英語その他の外国語に適用することもできる。そこで、英語において冗長語が音声認識結果に影響を与える例を示しておく。例文は、She devised remedial measures.である。日本語に翻訳すると、「彼女は善後策を考え出した」となる。ところが、話者が"She"と"devised"との間に<uh>という冗長語を発したとする。すると、<uh>"devised"を"advised"と誤認識するおそれがある。そのような英文について、本実施の形態を適用することにより、冗長語言語モデル322がオフの場合にはShe advised remedial measures.と認識し、冗長語言語モデル322がオンの場合にはShe devised remedial measures.と認識することができる。
【0058】
【発明の効果】
以上説明したように、本発明によれば、汎用的な言語モデルに加えて、冗長語、さらには句読点に特化した語彙・言語モデルを用いることにより、文章中の適切な位置から冗長語等を削除することができ、さらには句読点等の記号を挿入することができる。
【図面の簡単な説明】
【図1】 第1の実施形態による音声認識装置の構成を示す図である。
【図2】 第1の実施形態による音声認識プログラムの構成を示す図である。
【図3】 図2に示した音声認識プログラムの動作を例示する図であって、(a)は汎用言語モデルのみを用いて音声認識が行われる場合場合を示し、(b)は汎用言語モデルおよび冗長語言語モデルを用いて音声認識が行われる場合を示す。
【図4】 図2に示した音声認識プログラム(言語復号部)の処理を示すフローチャートである。
【図5】 図2に示した冗長語言語モデルを用いず、冗長語の自動削除を行わない(トピック・オフの)場合の音声認識プログラム(言語復号部)の動作を示す図である。
【図6】 図2に示した冗長語言語モデルを用い、冗長語の自動削除を行う(トピック・オン)の場合の音声認識プログラム(言語復号部)の動作を示す図である。
【図7】 第2の実施形態による音声認識プログラムの構成を示す図である。
【図8】 図7に示した音声認識プログラムの動作を示す図であって、(a)は汎用言語モデルのみを用いて音声認識が行われる場合を示し、(b)は汎用言語モデルおよび冗長語言語モデル用いて音声認識が行われる場合を、(c)は汎用言語モデルおよび句読点言語モデルを用いて音声認識が行われる場合を、さらに(d)は汎用言語モデル、冗長語言語モデルおよび句読点言語モデルを用いて音声認識が行われる場合を示す。
【図9】 音声認識プログラム(言語復号部)の処理を示すフローチャートである。
【図10】 図7に示した汎用言語モデルのみを用いるため、冗長語の自動削除および句読点の自動挿入を行わない場合の音声認識プログラム(言語復号部)の動作を示す図である。
【図11】 図7に示した汎用言語モデルと句読点言語モデルを用いて句読点の自動挿入を行う場合の音声認識プログラム(言語復号部)の動作を示す図である。
【図12】 図7に示した汎用言語モデルと冗長語言語モデルを用いて冗長語の自動削除を行う場合の音声認識プログラム(言語復号部)の動作を示す図である。
【図13】 図7に示した汎用言語モデル、冗長語言語モデルおよび句読点言語モデルを用いて、冗長語の自動削除および句読点の自動挿入を行う場合の音声認識プログラム(言語復号部)の動作を示す図である。
【符号の説明】
1…音声認識装置、10…CPU、12…入力装置、120…音声入力装置、14…表示装置、16…記憶装置、18…記憶媒体、2a,2b…音声認識プログラム、20…音響処理部、22…言語復号部、30…音響モデル、32a,32b…言語モデル、320…汎用言語モデル、322…冗長語言語モデル、323…句読点言語モデル、34a,34b…ベースフォーム・プール

Claims (17)

  1. 音声に含まれる音素列を1つ以上の単語列に変換し、変換して得られた前記単語列それぞれに対して、前記音素列により本来示される単語列であることの可能性を示す出現確率を付与する変換手段と、
    前記変換手段により得られた前記単語列それぞれに対応する言語モデルが示す当該単語列の出現確率を用いて更新用数値を算出し、前記変換手段により前記単語列に付与された出現確率を当該更新用数値に更新する更新手段と、
    更新された出現確率が、前記音素列により本来示される単語列が最も高いことを示す前記単語列のいずれかを選択し、前記音声を認識する認識手段と
    を備え、
    前記更新用数値を算出は、冗長語を含む単語列を要素とする冗長語言語モデルに記述された単語列の出現確率と、冗長語を含まない単語列を要素とする汎用言語モデルに記述された単語列の出現確率とを線形補間して前記更新用数値を算出することを特徴とする音声認識装置。
  2. 前記更新手段は、前記汎用言語モデルに記述された単語列の出現確率のみにより前記更新用数値を算出する第1のモードと、前記冗長語言語モデルに記述された単語列の出現確率および当該汎用言語モデルに記述された単語列の出現確率により当該更新用数値を算出する第2のモードとを有することを特徴とする請求項1に記載の音声認識装置。
  3. 自由発話特有の表現に含まれる所定の単語を音声認識の結果に含める場合には、
    前記変換手段は前記音素列を前記所定の単語を含む単語列に変換し、
    前記更新手段は、前記冗長語言語モデルに記述された単語列の出現確率および前記汎用言語モデルに記述された単語列の出現確率に基づいて、前記単語列それぞれの出現確率を更新する、
    ことを特徴とする請求項1に記載の音声認識装置。
  4. 前記冗長語言語モデルおよび前記汎用言語モデルは、N−gramモデルであることを特徴とする請求項1に記載の音声認識装置。
  5. 請求項1〜4のいずれかに記載の音声認識装置を有するコンピュータ・システム。
  6. 音声に含まれる音素列を1つ以上の単語列に変換し、変換して得られた前記単語列それぞれに対して、前記音素列により本来示される単語列であることの可能性を示す出現確率を付与する変換ステップと、
    前記変換ステップにより得られた前記単語列が自由発話固有の単語を含む場合に、冗長語を含む単語列を要素とする冗長語言語モデルに記述された単語列の出現確率と、冗長語を含まない単語列を要素とする汎用言語モデルに記述された単語列の出現確率とを線形補間することにより当該単語列の出現確率を算出し、前記変換ステップにて付与された当該単語列それぞれに付された出現確率を前記算出された出現確率に更新を行う更新ステップと、
    更新された出現確率が、前記音素列により本来示される単語列が最も高いことを示す前記単語列のいずれかを選択し、前記音声を認識する認識ステップと、
    を備えたことを特徴とする音声認識方法。
  7. 前記冗長語言語モデルは、冗長語を含む単語列の出現確率を、連続するN個の単語の組み合わせと対応付けて記述するものであることを特徴とする請求項6に記載の音声認識方法。
  8. 前記更新ステップにおいて、単語列に含まれることのある特定の記号を含む単語列を要素とする句読点言語モデルに記述された単語列の出現確率をさらに加えて線形補間することにより、前記単語列の出現確率を算出することを特徴とする請求項6に記載の音声認識方法。
  9. 音声データを解析して特徴ベクトルに変換する音響処理ステップと、
    前記音響処理ステップで得られた前記特徴ベクトルに対応する可能性がある音素列に、出現確率を付した音響データを生成する音響データ生成ステップと、
    冗長語を単語候補に含めながら、前記音素列を単語列に変換する単語変換ステップと、
    冗長語を含む単語列の出現する確率を連続するN個の単語の組み合わせと対応付けて記述する冗長語言語モデルに記述された単語列の出現確率と、音声認識にて汎用的に用いられる汎用言語モデルに記述された単語列の出現確率とを線形補間することにより前記単語列の出現確率を算出し、前記音響データ生成ステップにて付された前記出現確率を前記算出された出現確率に更新する更新ステップと、
    更新された前記出現確率が最も高い前記単語列を音声認識結果とする認識ステップと、をコンピュータに実現させるためのプログラム。
  10. 前記単語変換ステップは、冗長語として単語候補になった単語に他の単語との区別をするための記号を付して変換する請求項9に記載のプログラム。
  11. 前記認識ステップは、出現確率が最も高い前記単語列をテキスト・データとして出力する請求項9に記載のプログラム。
  12. 前記認識ステップは、出現確率が最も高い前記単語列から前記記号が付された前記単語を除外したテキスト・データとして出力する請求項10に記載のプログラム。
  13. 前記単語変換ステップにおいて、前記音声データに含まれるポーズ部分を句読点の候補として含めながら前記音素列を単語列に変換し、
    前記更新ステップは、句読点挿入に限定した句読点言語モデルに記述された単語列の出現確率をさらに加えて線形補間することにより前記出現確率を更新する、請求項9に記載のプログラム。
  14. 音声データを解析して特徴ベクトルに変換する音響処理ステップと、
    前記音響処理ステップで得られた前記特徴ベクトルに対応する可能性がある音素列に、出現確率を付した音響データを生成する音響データ生成ステップと、
    冗長語を認識結果に反映させる場合には冗長語を単語候補に含めながら前記音素列を単語列に変換し、冗長語を認識結果に反映させない場合には冗長語を単語候補に含めずに前記音素列を単語列に変換する単語変換ステップと、
    冗長語を認識結果に反映させる場合に冗長語を含む単語列の出現する確率を連続するN個の単語の組み合わせと対応付けて記述する冗長語言語モデルに記述された単語列の出現確率と、汎用的な言語モデルに記述された単語列の出現確率とを線形補間することにより当該単語列の出現確率を算出し、前記出現確率を前記算出された出現確率に更新する更新ステップ、又は冗長語を認識結果に反映させない場合に汎用的な言語モデルに記述された単語列の出現確率を用いるステップと、
    冗長語を認識結果に反映させる場合に、前記更新された前記出現確率が最も高い前記単語列を音声認識結果とする認識ステップ、又は冗長語を認識結果に反映させない場合に、前記汎用的な言語モデルに記述された単語列の出現確率が最も高い前記単語列を音声認識結果とする認識ステップと、をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体。
  15. 前記単語変換ステップは、冗長語として単語候補になった単語に他の単語との区別をするための記号を付して変換する請求項14に記載の記録媒体。
  16. 前記冗長語言語モデルおよび前記汎用的な言語モデルはN−gramモデルである請求項14に記載の記録媒体。
  17. 音声認識結果に句読点を自動的に挿入させる場合に、
    前記単語変換ステップにおいて、前記音声データに含まれるポーズ部分を句読点の候補として含めながら前記音素列を単語列に変換し、
    前記更新ステップは、句読点挿入に限定した句読点言語モデルに記述された単語列の出現確率をさらに用いることにより前記出現確率を更新する、請求項14に記載の記録媒体。
JP2001044186A 2001-02-20 2001-02-20 音声認識装置、コンピュータ・システム、音声認識方法、プログラムおよび記録媒体 Expired - Fee Related JP3782943B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2001044186A JP3782943B2 (ja) 2001-02-20 2001-02-20 音声認識装置、コンピュータ・システム、音声認識方法、プログラムおよび記録媒体
US10/056,149 US6985863B2 (en) 2001-02-20 2002-01-24 Speech recognition apparatus and method utilizing a language model prepared for expressions unique to spontaneous speech

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001044186A JP3782943B2 (ja) 2001-02-20 2001-02-20 音声認識装置、コンピュータ・システム、音声認識方法、プログラムおよび記録媒体

Publications (2)

Publication Number Publication Date
JP2002258890A JP2002258890A (ja) 2002-09-11
JP3782943B2 true JP3782943B2 (ja) 2006-06-07

Family

ID=18906218

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001044186A Expired - Fee Related JP3782943B2 (ja) 2001-02-20 2001-02-20 音声認識装置、コンピュータ・システム、音声認識方法、プログラムおよび記録媒体

Country Status (2)

Country Link
US (1) US6985863B2 (ja)
JP (1) JP3782943B2 (ja)

Families Citing this family (45)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060069567A1 (en) * 2001-12-10 2006-03-30 Tischer Steven N Methods, systems, and products for translating text to speech
US6990445B2 (en) * 2001-12-17 2006-01-24 Xl8 Systems, Inc. System and method for speech recognition and transcription
US20030220788A1 (en) * 2001-12-17 2003-11-27 Xl8 Systems, Inc. System and method for speech recognition and transcription
US20030115169A1 (en) * 2001-12-17 2003-06-19 Hongzhuan Ye System and method for management of transcribed documents
EP1450350A1 (en) * 2003-02-20 2004-08-25 Sony International (Europe) GmbH Method for Recognizing Speech with attributes
US20060212831A1 (en) * 2003-09-09 2006-09-21 Fogg Brian J Graphical messaging system
JP5255769B2 (ja) * 2003-11-21 2013-08-07 ニュアンス コミュニケーションズ オーストリア ゲーエムベーハー テキストフォーマッティング及びスピーチ認識のためのトピック特有のモデル
KR100612839B1 (ko) * 2004-02-18 2006-08-18 삼성전자주식회사 도메인 기반 대화 음성인식방법 및 장치
US8036893B2 (en) * 2004-07-22 2011-10-11 Nuance Communications, Inc. Method and system for identifying and correcting accent-induced speech recognition difficulties
US7640159B2 (en) * 2004-07-22 2009-12-29 Nuance Communications, Inc. System and method of speech recognition for non-native speakers of a language
US8033831B2 (en) * 2004-11-22 2011-10-11 Bravobrava L.L.C. System and method for programmatically evaluating and aiding a person learning a new language
US8272874B2 (en) * 2004-11-22 2012-09-25 Bravobrava L.L.C. System and method for assisting language learning
US8221126B2 (en) * 2004-11-22 2012-07-17 Bravobrava L.L.C. System and method for performing programmatic language learning tests and evaluations
US7848927B2 (en) * 2004-11-30 2010-12-07 Panasonic Corporation Speech recognition device and method of recognizing speech using a language model
ES2237345B1 (es) * 2005-02-28 2006-06-16 Prous Institute For Biomedical Research S.A. Procedimiento de conversion de fonemas a texto escrito y sistema informatico y programa informatico correspondientes.
US7860719B2 (en) * 2006-08-19 2010-12-28 International Business Machines Corporation Disfluency detection for a speech-to-speech translation system using phrase-level machine translation with weighted finite state transducers
US8595004B2 (en) * 2007-12-18 2013-11-26 Nec Corporation Pronunciation variation rule extraction apparatus, pronunciation variation rule extraction method, and pronunciation variation rule extraction program
WO2009122779A1 (ja) * 2008-04-03 2009-10-08 日本電気株式会社 テキストデータ処理装置、方法、プログラムが格納された記録媒体
US20110112836A1 (en) * 2008-07-03 2011-05-12 Mobiter Dicta Oy Method and device for converting speech
CA2680304C (en) * 2008-09-25 2017-08-22 Multimodal Technologies, Inc. Decoding-time prediction of non-verbalized tokens
US8311824B2 (en) * 2008-10-27 2012-11-13 Nice-Systems Ltd Methods and apparatus for language identification
US8301446B2 (en) * 2009-03-30 2012-10-30 Adacel Systems, Inc. System and method for training an acoustic model with reduced feature space variation
US9424246B2 (en) 2009-03-30 2016-08-23 Touchtype Ltd. System and method for inputting text into electronic devices
GB0905457D0 (en) 2009-03-30 2009-05-13 Touchtype Ltd System and method for inputting text into electronic devices
US10191654B2 (en) 2009-03-30 2019-01-29 Touchtype Limited System and method for inputting text into electronic devices
US20110144993A1 (en) * 2009-12-15 2011-06-16 Disfluency Group, LLC Disfluent-utterance tracking system and method
CN104081453A (zh) * 2011-07-25 2014-10-01 索拉公司 用于声学变换的***和方法
US8682678B2 (en) * 2012-03-14 2014-03-25 International Business Machines Corporation Automatic realtime speech impairment correction
KR102206383B1 (ko) * 2012-07-09 2021-01-22 엘지전자 주식회사 음성 인식 장치 및 그 방법
US10957310B1 (en) 2012-07-23 2021-03-23 Soundhound, Inc. Integrated programming framework for speech and text understanding with meaning parsing
CN104143331B (zh) * 2013-05-24 2015-12-09 腾讯科技(深圳)有限公司 一种添加标点的方法和***
CN104142915B (zh) * 2013-05-24 2016-02-24 腾讯科技(深圳)有限公司 一种添加标点的方法和***
US9508338B1 (en) * 2013-11-15 2016-11-29 Amazon Technologies, Inc. Inserting breath sounds into text-to-speech output
US11295730B1 (en) 2014-02-27 2022-04-05 Soundhound, Inc. Using phonetic variants in a local context to improve natural language understanding
US10186257B1 (en) * 2014-04-24 2019-01-22 Nvoq Incorporated Language model for speech recognition to account for types of disfluency
US9761220B2 (en) * 2015-05-13 2017-09-12 Microsoft Technology Licensing, Llc Language modeling based on spoken and unspeakable corpuses
KR102371188B1 (ko) * 2015-06-30 2022-03-04 삼성전자주식회사 음성 인식 장치 및 방법과 전자 장치
US10255913B2 (en) * 2016-02-17 2019-04-09 GM Global Technology Operations LLC Automatic speech recognition for disfluent speech
GB201610984D0 (en) 2016-06-23 2016-08-10 Microsoft Technology Licensing Llc Suppression of input images
KR20180012464A (ko) * 2016-07-27 2018-02-06 삼성전자주식회사 전자 장치 및 그의 음성 인식 방법
JP7409475B2 (ja) * 2020-02-26 2024-01-09 日本電気株式会社 発話終端検出装置、制御方法、及びプログラム
CN112530424A (zh) * 2020-11-23 2021-03-19 北京小米移动软件有限公司 语音处理方法及装置、电子设备、存储介质
CN113095062A (zh) * 2021-04-12 2021-07-09 阿里巴巴新加坡控股有限公司 数据处理方法、装置、电子设备及计算机存储介质
CN113763938B (zh) * 2021-10-27 2024-06-07 杭州网易智企科技有限公司 语音识别方法、介质、装置和计算设备
US11556722B1 (en) * 2022-08-28 2023-01-17 One AI, Inc. System and method for editing transcriptions with improved readability and correctness

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3535292B2 (ja) * 1995-12-27 2004-06-07 Kddi株式会社 音声認識システム
US6167377A (en) * 1997-03-28 2000-12-26 Dragon Systems, Inc. Speech recognition language models
JP3004254B2 (ja) * 1998-06-12 2000-01-31 株式会社エイ・ティ・アール音声翻訳通信研究所 統計的シーケンスモデル生成装置、統計的言語モデル生成装置及び音声認識装置
US6067514A (en) * 1998-06-23 2000-05-23 International Business Machines Corporation Method for automatically punctuating a speech utterance in a continuous speech recognition system
JP3834169B2 (ja) * 1999-09-22 2006-10-18 日本放送協会 連続音声認識装置および記録媒体
US20020087315A1 (en) * 2000-12-29 2002-07-04 Lee Victor Wai Leung Computer-implemented multi-scanning language method and system
US20030023437A1 (en) * 2001-01-27 2003-01-30 Pascale Fung System and method for context-based spontaneous speech recognition

Also Published As

Publication number Publication date
US20020156627A1 (en) 2002-10-24
JP2002258890A (ja) 2002-09-11
US6985863B2 (en) 2006-01-10

Similar Documents

Publication Publication Date Title
JP3782943B2 (ja) 音声認識装置、コンピュータ・システム、音声認識方法、プログラムおよび記録媒体
JP3232289B2 (ja) 記号挿入装置およびその方法
US6839667B2 (en) Method of speech recognition by presenting N-best word candidates
CN106463113B (zh) 在语音辨识中预测发音
US6910012B2 (en) Method and system for speech recognition using phonetically similar word alternatives
US8280733B2 (en) Automatic speech recognition learning using categorization and selective incorporation of user-initiated corrections
CN113168828A (zh) 基于合成数据训练的会话代理管线
US20070239455A1 (en) Method and system for managing pronunciation dictionaries in a speech application
US8271282B2 (en) Voice recognition apparatus, voice recognition method and recording medium
JP2012037619A (ja) 話者適応化装置、話者適応化方法および話者適応化用プログラム
JP2011002656A (ja) 音声認識結果修正候補検出装置、音声書き起こし支援装置、方法及びプログラム
JP2007041319A (ja) 音声認識装置および音声認識方法
JP6031316B2 (ja) 音声認識装置、誤り修正モデル学習方法、及びプログラム
JP6552999B2 (ja) テキスト補正装置、テキスト補正方法、およびプログラム
JP5180800B2 (ja) 統計的発音変異モデルを記憶する記録媒体、自動音声認識システム及びコンピュータプログラム
US20050187767A1 (en) Dynamic N-best algorithm to reduce speech recognition errors
WO2014033855A1 (ja) 音声検索装置、計算機読み取り可能な記憶媒体、及び音声検索方法
KR20130126570A (ko) 핵심어에서의 음소 오류 결과를 고려한 음향 모델 변별 학습을 위한 장치 및 이를 위한 방법이 기록된 컴퓨터 판독 가능한 기록매체
JP5184467B2 (ja) 適応化音響モデル生成装置及びプログラム
JP2006084966A (ja) 発話音声の自動評定装置およびコンピュータプログラム
JP2003162293A (ja) 音声認識装置及び方法
JP2010186339A (ja) 通訳装置、方法、及びプログラム
JP2005250071A (ja) 音声認識方法及び装置及び音声認識プログラム及び音声認識プログラムを格納した記憶媒体
JP2004309928A (ja) 音声認識装置、電子辞書装置、音声認識方法、検索方法、及びプログラム
JP2004101963A (ja) 音声認識結果の訂正方法および音声認識結果の訂正のためのコンピュータプログラム

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20040910

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20041116

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050203

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050614

RD14 Notification of resignation of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7434

Effective date: 20050701

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20050906

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20050909

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20051213

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20051213

RD12 Notification of acceptance of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7432

Effective date: 20051213

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20051213

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20060214

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20060214

RD14 Notification of resignation of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7434

Effective date: 20060214

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20060313

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100317

Year of fee payment: 4

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100317

Year of fee payment: 4

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110317

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110317

Year of fee payment: 5

S202 Request for registration of non-exclusive licence

Free format text: JAPANESE INTERMEDIATE CODE: R315201

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110317

Year of fee payment: 5

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120317

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130317

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130317

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140317

Year of fee payment: 8

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees