JPH06342298A

JPH06342298A - 音声認識方式

Info

Publication number: JPH06342298A
Application number: JP5130434A
Authority: JP
Inventors: Ryosuke Isotani; 亮輔磯谷; Shigeki Sagayama; 茂樹嵯峨山
Original assignee: A T R JIDO HONYAKU DENWA KENKYUSHO KK; ATR JIDO HONYAKU DENWA
Current assignee: A T R JIDO HONYAKU DENWA KENKYUSHO KK; ATR JIDO HONYAKU DENWA
Priority date: 1993-06-01
Filing date: 1993-06-01
Publication date: 1994-12-13

Abstract

(57)【要約】【目的】単語のＮ−ｇｒａｍより大域的な構文的，意
味的関係を表現でき、かつテキストデータベースから容
易に構築できる言語モデルを用いることにより、高精度
な認識を行なう音声認識方式を提供する。【構成】文節単位に区切って発声された音声が文節候
補出力部１に入力され、文節単位に認識した結果の文節
ラティスが出力され、文候補選択部２に与えられる。言
語モデルパラメータ格納部３には付属語の２つ組の連鎖
とそれに対する出現確率の値が言語モデルのパラメータ
として格納されている。文候補選択部２は文節候補出力
部１から出力された文節ラティスから言語モデルパラメ
ータ格納部３に格納された付属語２つ組の連鎖の出現確
率を加味して、最適な文節候補列を選択し、文認識結果
として出力する。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】この発明は音声認識方式に関し、
特に、発声された音声を、音響モデルにより得られるス
コアと、言語モデルにより得られるスコアを用いて認識
するような音声認識方式に関する。

【０００２】

【従来の技術】従来より、文発声などの音声認識の性能
の向上を図るために、言語モデルが用いられている。特
に、単語の２つ組（ｂｉｇｒａｍ），３つ組（ｔｒｉｇ
ｒａｍ）など一般に単語のＮ個組の連鎖が出現する確率
を用いたＮ−ｇｒａｍモデルは、モデルの構築，利用が
容易であることや、確率的な音響モデルとの統合が自然
に行なえることなどから、広く用いられているものの１
つである。単語のＮ−ｇｒａｍモデルは、日本語の場合
の文節内の単語の連接関係などを表現するのには適して
いると考えられる。単語のＮ−ｇｒａｍモデルを用いた
音声認識については、たとえば電子情報通信学会技術研
究報告ＳＰ８７−２３に述べられている。

【０００３】また、別の言語モデルとしては、文脈自由
文法や正規文法などで書かれた構文規則を用いるものも
ある。正規文法や文脈自由文法は、単語のＮ−ｇｒａｍ
モデルより複雑な言語現象を記述できる。構文規則を用
いた音声認識については、たとえば電子情報通信学会技
術研究報告ＳＰ９０−７３に述べられている。

【０００４】

【発明が解決しようとする課題】単語のＮ−ｇｒａｍモ
デルは、大量のテキストデータベースがあれば、そこか
ら自動的にモデルを構築できるという利点がある。しか
し、モデルのパラメータの推定精度などの制約から、Ｎ
は実用上３程度が限界で、表せる情報は局所的なものに
限られ、文節間の構文的あるいは意味的な関係を表現す
る能力には欠けるという欠点がある。

【０００５】一方、構文規則による方法は、構文的，意
味的な関係をある程度記述できる反面、規則の作成を主
に人手に頼らざるを得ず、大規模なタスクの文法の作
成，管理に手間がかかり、また音声認識のタスクなどの
変更に柔軟に対応できないという欠点がある。

【０００６】それゆえに、この発明の主たる目的は、単
語をＮ−ｇｒａｍより大域的な構文的，意味的関係を表
現でき、かつテキストデータベースから容易に構築でき
る言語モデルを用いることにより、高精度な認識を行な
う音声認識方式を提供することである。

【０００７】

【課題を解決するための手段】請求項１にかかる発明
は、発声された音声を、音響モデルにより得られるスコ
アと、言語モデルにより得られるスコアとを用いて認識
する音声認識方法において、言語モデルにより得られる
スコアとして、予め定めた特定のカテゴリに属する単語
に注目したときの単語の連鎖に対して決まる値を用い
る。

【０００８】請求項２ないし６に係る発明は、注目する
カテゴリとして、特定の品詞に属する単語，付属語，文
節の最後の単語，自立語，文節の最初の単語のいずれか
を用いる。

【０００９】請求項７に係る発明は、注目するカテゴリ
として付属語または文節の最後の単語を用いた場合の単
語の連鎖に対して決まる値と、注目するカテゴリとして
自立語または文節の最初の単語を用いた場合の単語の連
鎖に対して決まる値を加えたものを言語モデルにより得
られるスコアとして用いる。

【００１０】

【作用】たとえば助詞に注目し、他の自立語などを無視
して、その文中での連鎖を考えると、「から」の後には
「まで」が現われやすく、「が」のすぐ後にさらに格助
詞「が」が続くことはほとんどないといった性質が日本
語には見られる。これを音声認識に利用し、言語モデル
として助詞の連鎖に対してそれが出現するしやすさに応
じてスコアを与えることにより、認識性能を向上させる
ことができる。すなわち、たとえば音声認識結果の候補
として「私は日本語がわかりません」という候補と「私
が日本語がわかりません」という候補があり、音響モデ
ルによるスコアでは両者に差がない場合、言語モデルの
スコアとして前者の方が後者より高い値が与えられ、前
者の方をよりもっともらしい候補として選択することが
できる。助詞の連鎖に対するスコアを与える言語モデル
は、単語Ｎ−ｇｒａｍでは十分に表現することが困難な
大域的な構文的な関係に相当する情報を表現しているも
のと見なすことができる。

【００１１】同様にして、名詞，動詞などの自立語に注
目し、付属語を無視してその文中での連鎖を考えると、
「会議」の後には「参加（する）」「発表（する）」と
いった語が続きやすく、「用紙」の後には「記入（す
る）」、「送付（する）」といった語が続きやすいとい
った情報を言語的なスコアとして音声認識に反映させる
ことができる。これは文中に現われる語の間の意味的な
関係に相当する情報を表現しているものと見なすことが
できる。

【００１２】助詞の場合も自立語の場合も、より長い連
鎖を考えることにより、さらに広い範囲の情報をとらえ
ることができる。このような語の連鎖に対するスコア
は、大量のテキストデータベースから、その中での出現
頻度として統計的に求めることができる。

【００１３】

【実施例】図１はこの発明の一実施例を示す概略ブロッ
ク図である。図１において、この発明に係る音声認識方
式は、文節候補出力部１と文候補選択部２と言語モデル
パラメータ格納部３とによって実現される。文節候補出
力部１には、文節単位に区切って発声された音声が入力
され、文節候補出力部１は文節単位に認識した結果の文
節ラティスを文候補選択部２に与える。文候補選択部２
は言語モデルパラメータ格納部３から与えられる言語モ
デルの与えるスコアを用いて１つの候補列を選択し、文
認識結果として出力する。言語モデルパラメータ格納部
３に格納されている言語モデルとして、ここでは付属語
（助詞，助動詞）の２つ組の連鎖に対する出現確率を用
いる。

【００１４】図２はこの発明の一実施例における文節候
補出力部の一例を示す図であり、図３は言語モデルパラ
メータの一例を示す図である。

【００１５】次に、図１ないし図３を参照して、この発
明の一実施例の動作について説明する。文節候補出力部
１に入力された音声は、文節毎に音響モデルを用いて処
理され、図２に示すように、各文節に対して上位Ｒ個の
候補がスコア（音響的スコア）つきで出力される。各文
節候補には、その文節に含まれる付属語の情報が付加さ
れている。文節中に付属語が複数あるときは文節の最後
に現われる付属語を選び、文節に付属語が含まれていな
い場合は、仮想的な付属語“φ”が付いていると見な
す。文節候補出力部１としては、たとえば電子情報通信
学会技術研究報告ＳＰ９２−３３に述べられている音声
認識方式を用いることができる。

【００１６】言語モデルパラメータ格納部３には、図３
に示すような付属語の２つ組の連鎖とそれに対する出現
確率の値が言語モデルのパラメータとして格納されてい
る。具体的には、直前の付属語がω_iであるときに付属
語ω_jが出現する条件付確率Ｐ（ω_j｜ω_i）の値が格
納されている。“φ”（付属語なし）および文頭（＜ｓ
ｔａｒｔ＞），文末（＜ｅｎｄ＞）も、それぞれ１つの
付属語として扱われる。

【００１７】文候補選択部２では、文節候補出力部１の
出力する文節ラティスから、言語モデルパラメータ格納
部３に格納された付属語２つ組の連鎖の出現確率を加味
して、最適な文節候補列を選択し、文認識結果として出
力する。具体的には、音響的スコアと言語的スコア（上
記確率の対数値）の重み付きの総和が最大になるような
文節列を以下の手順に従って動的計画法によって求め
る。

【００１８】ｄ（ｉ，ｒ）（１≦ｉ≦ｎ，１≦ｒ≦Ｒ）
を文節候補出力部１から出力される第ｉ文節の第ｒ位候
補の音響的スコア，ω^t _ｉ（ｒ）を第ｉ文節の第ｒ位候
補の文節末の付属語，ω_langを音響的スコアに対する言
語モデルのスコアの重みとして、動的計画法を用いて、初期条件：ｒ＝１，…，Ｒに対して

【００１９】

【数１】

【００２０】漸化式：ｉ＝２，…，ｎ；ｒ＝１，…，Ｒ
に対して

【００２１】

【数２】

【００２２】終端処理：ｒ＝１，…，Ｒに対して、

【００２３】

【数３】

【００２４】を計算し、最後にバックトラックを行なう
ことにより最適な文節系列として文認識結果が得られ
る。

【００２５】言語モデルパラメータＰ（ω_j｜ω_i）の
値は、大量のテキストデータベースから以下のようにし
て推定することができる。テキストデータから文節末の
付属語を抜き出し、（ω_i，ω_j）の連鎖の出現頻度ｃ
（ω_i，ω_j）を求める。付属語なし，文頭，文末も、
それぞれ１つの仮想的な付属語として扱う。Ｐ（ω_j｜
ω_i）の推定値は、

【００２６】

【数４】

【００２７】となる。特に、言語モデルとして単語の３
つ組（条件付確率Ｐ（ω_k｜ω_i，ω _j））を用いる場
合など、テキストデータ量に比べて推定すべきパラメー
タ数が多いときは、パラメータのスムージングを行なう
ことにより、より良いパラメータの推定値が得られる。
パラメータのスムージングは、通常の単語Ｎ−ｇｒａｍ
と全く同様の手法を用いることができる。具体的な方法
については、たとえば刊行物「確率モデルによる音声認
識」中川聖一著に紹介されている。

【００２８】ここでは、付属語の２つ組を用いた言語モ
デルを例として説明したが、自立語を用いる場合も全く
同様である。付属語の２つ組と自立語の２つ組を併用す
ることも可能である。また、付属語あるいは自立語の３
つ組以上への拡張も容易である。たとえば、３つ組の場
合、文候補選択部２の処理で、隣接する２文節のペアを
単位として考えることにより、上述と同様に動的計画法
を用いた最適解の選択ができる。

【００２９】さらに、特定のカテゴリに属する単語の連
鎖をモデル化するのに、上述のようなＮ個組の連鎖の出
現確率を考える代わりに、隠れマルコフモデルを用いる
こともできる。隠れマルコフモデルを用いた言語モデル
については、日本音響学会平成４年度秋季研究発表会講
演論文集２−Ｑ−１１に述べられているが、ここで文中
のすべての単語を用いる代わりに、特定のカテゴリに属
する単語だけを対象とすれば全く同様に言語モデルを作
成でき、その音声認識への利用も容易である。

【００３０】

【発明の効果】以上のように、この発明によれば、言語
モデルにより得られるスコアとして、予め定めた特定の
カテゴリに属する単語に注目したときの単語の連鎖に対
して決まる値を用いるようにしたので、大域的な構文
的，意味的関係を表現でき、かつテキストデータベース
から容易に構築できる言語モデルを用いることにより、
音声を高精度に認識することができる。

【図面の簡単な説明】

【図１】この発明の一実施例の概略ブロック図である。

【図２】この発明の一実施例における文節候補出力部の
出力の一例を示す図である。

【図３】この発明の一実施例における言語モデルパラメ
ータの一例を示す図である。

【符号の説明】

１文節候補出力部２文候補選択部３言語モデルパラメータ格納部

Claims

【特許請求の範囲】

【請求項１】発声された音声を、音響モデルにより得
られるスコアと、言語モデルにより得られるスコアとを
用いて認識する音声認識方式において、前記言語モデルにより得られるスコアとして、予め定め
た特定のカテゴリに属する単語に注目したときの単語の
連鎖に対して決まる値を用いることを特徴とする、音声
認識方式。
【請求項２】前記注目するカテゴリとして特定の品詞
に属する単語を用いることを特徴とする、請求項１の音
声認識方式。
【請求項３】前記注目するカテゴリとして付属語を用
いることを特徴とする、請求項１の音声認識方式。
【請求項４】前記注目するカテゴリとして文節の最後
の単語を用いることを特徴とする、請求項１の音声認識
方式。
【請求項５】前記注目するカテゴリとして自立語を用
いることを特徴とする、請求項１の音声認識方式。
【請求項６】前記注目するカテゴリとして文節の最初
の単語を用いることを特徴とする、請求項１の音声認識
方式。
【請求項７】注目するカテゴリとして付属語または文
節の最後の単語を用いた場合の単語の連鎖に対して決ま
る値と、注目するカテゴリとして自立語または文節の最
初の単語を用いた場合の単語の連鎖に対して決まる値を
加えたものを前記言語モデルにより得られるスコアとし
て用いることを特徴とする、請求項１の音声認識方式。