JPH06342298A - 音声認識方式 - Google Patents

音声認識方式

Info

Publication number
JPH06342298A
JPH06342298A JP5130434A JP13043493A JPH06342298A JP H06342298 A JPH06342298 A JP H06342298A JP 5130434 A JP5130434 A JP 5130434A JP 13043493 A JP13043493 A JP 13043493A JP H06342298 A JPH06342298 A JP H06342298A
Authority
JP
Japan
Prior art keywords
phrase
word
language model
speech recognition
chain
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP5130434A
Other languages
English (en)
Inventor
Ryosuke Isotani
亮輔 磯谷
Shigeki Sagayama
茂樹 嵯峨山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
A T R JIDO HONYAKU DENWA KENKYUSHO KK
ATR JIDO HONYAKU DENWA
Original Assignee
A T R JIDO HONYAKU DENWA KENKYUSHO KK
ATR JIDO HONYAKU DENWA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by A T R JIDO HONYAKU DENWA KENKYUSHO KK, ATR JIDO HONYAKU DENWA filed Critical A T R JIDO HONYAKU DENWA KENKYUSHO KK
Priority to JP5130434A priority Critical patent/JPH06342298A/ja
Publication of JPH06342298A publication Critical patent/JPH06342298A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【目的】 単語のN−gramより大域的な構文的,意
味的関係を表現でき、かつテキストデータベースから容
易に構築できる言語モデルを用いることにより、高精度
な認識を行なう音声認識方式を提供する。 【構成】 文節単位に区切って発声された音声が文節候
補出力部1に入力され、文節単位に認識した結果の文節
ラティスが出力され、文候補選択部2に与えられる。言
語モデルパラメータ格納部3には付属語の2つ組の連鎖
とそれに対する出現確率の値が言語モデルのパラメータ
として格納されている。文候補選択部2は文節候補出力
部1から出力された文節ラティスから言語モデルパラメ
ータ格納部3に格納された付属語2つ組の連鎖の出現確
率を加味して、最適な文節候補列を選択し、文認識結果
として出力する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】この発明は音声認識方式に関し、
特に、発声された音声を、音響モデルにより得られるス
コアと、言語モデルにより得られるスコアを用いて認識
するような音声認識方式に関する。
【0002】
【従来の技術】従来より、文発声などの音声認識の性能
の向上を図るために、言語モデルが用いられている。特
に、単語の2つ組(bigram),3つ組(trig
ram)など一般に単語のN個組の連鎖が出現する確率
を用いたN−gramモデルは、モデルの構築,利用が
容易であることや、確率的な音響モデルとの統合が自然
に行なえることなどから、広く用いられているものの1
つである。単語のN−gramモデルは、日本語の場合
の文節内の単語の連接関係などを表現するのには適して
いると考えられる。単語のN−gramモデルを用いた
音声認識については、たとえば電子情報通信学会技術研
究報告SP87−23に述べられている。
【0003】また、別の言語モデルとしては、文脈自由
文法や正規文法などで書かれた構文規則を用いるものも
ある。正規文法や文脈自由文法は、単語のN−gram
モデルより複雑な言語現象を記述できる。構文規則を用
いた音声認識については、たとえば電子情報通信学会技
術研究報告SP90−73に述べられている。
【0004】
【発明が解決しようとする課題】単語のN−gramモ
デルは、大量のテキストデータベースがあれば、そこか
ら自動的にモデルを構築できるという利点がある。しか
し、モデルのパラメータの推定精度などの制約から、N
は実用上3程度が限界で、表せる情報は局所的なものに
限られ、文節間の構文的あるいは意味的な関係を表現す
る能力には欠けるという欠点がある。
【0005】一方、構文規則による方法は、構文的,意
味的な関係をある程度記述できる反面、規則の作成を主
に人手に頼らざるを得ず、大規模なタスクの文法の作
成,管理に手間がかかり、また音声認識のタスクなどの
変更に柔軟に対応できないという欠点がある。
【0006】それゆえに、この発明の主たる目的は、単
語をN−gramより大域的な構文的,意味的関係を表
現でき、かつテキストデータベースから容易に構築でき
る言語モデルを用いることにより、高精度な認識を行な
う音声認識方式を提供することである。
【0007】
【課題を解決するための手段】請求項1にかかる発明
は、発声された音声を、音響モデルにより得られるスコ
アと、言語モデルにより得られるスコアとを用いて認識
する音声認識方法において、言語モデルにより得られる
スコアとして、予め定めた特定のカテゴリに属する単語
に注目したときの単語の連鎖に対して決まる値を用い
る。
【0008】請求項2ないし6に係る発明は、注目する
カテゴリとして、特定の品詞に属する単語,付属語,文
節の最後の単語,自立語,文節の最初の単語のいずれか
を用いる。
【0009】請求項7に係る発明は、注目するカテゴリ
として付属語または文節の最後の単語を用いた場合の単
語の連鎖に対して決まる値と、注目するカテゴリとして
自立語または文節の最初の単語を用いた場合の単語の連
鎖に対して決まる値を加えたものを言語モデルにより得
られるスコアとして用いる。
【0010】
【作用】たとえば助詞に注目し、他の自立語などを無視
して、その文中での連鎖を考えると、「から」の後には
「まで」が現われやすく、「が」のすぐ後にさらに格助
詞「が」が続くことはほとんどないといった性質が日本
語には見られる。これを音声認識に利用し、言語モデル
として助詞の連鎖に対してそれが出現するしやすさに応
じてスコアを与えることにより、認識性能を向上させる
ことができる。すなわち、たとえば音声認識結果の候補
として「私は日本語がわかりません」という候補と「私
が日本語がわかりません」という候補があり、音響モデ
ルによるスコアでは両者に差がない場合、言語モデルの
スコアとして前者の方が後者より高い値が与えられ、前
者の方をよりもっともらしい候補として選択することが
できる。助詞の連鎖に対するスコアを与える言語モデル
は、単語N−gramでは十分に表現することが困難な
大域的な構文的な関係に相当する情報を表現しているも
のと見なすことができる。
【0011】同様にして、名詞,動詞などの自立語に注
目し、付属語を無視してその文中での連鎖を考えると、
「会議」の後には「参加(する)」「発表(する)」と
いった語が続きやすく、「用紙」の後には「記入(す
る)」、「送付(する)」といった語が続きやすいとい
った情報を言語的なスコアとして音声認識に反映させる
ことができる。これは文中に現われる語の間の意味的な
関係に相当する情報を表現しているものと見なすことが
できる。
【0012】助詞の場合も自立語の場合も、より長い連
鎖を考えることにより、さらに広い範囲の情報をとらえ
ることができる。このような語の連鎖に対するスコア
は、大量のテキストデータベースから、その中での出現
頻度として統計的に求めることができる。
【0013】
【実施例】図1はこの発明の一実施例を示す概略ブロッ
ク図である。図1において、この発明に係る音声認識方
式は、文節候補出力部1と文候補選択部2と言語モデル
パラメータ格納部3とによって実現される。文節候補出
力部1には、文節単位に区切って発声された音声が入力
され、文節候補出力部1は文節単位に認識した結果の文
節ラティスを文候補選択部2に与える。文候補選択部2
は言語モデルパラメータ格納部3から与えられる言語モ
デルの与えるスコアを用いて1つの候補列を選択し、文
認識結果として出力する。言語モデルパラメータ格納部
3に格納されている言語モデルとして、ここでは付属語
(助詞,助動詞)の2つ組の連鎖に対する出現確率を用
いる。
【0014】図2はこの発明の一実施例における文節候
補出力部の一例を示す図であり、図3は言語モデルパラ
メータの一例を示す図である。
【0015】次に、図1ないし図3を参照して、この発
明の一実施例の動作について説明する。文節候補出力部
1に入力された音声は、文節毎に音響モデルを用いて処
理され、図2に示すように、各文節に対して上位R個の
候補がスコア(音響的スコア)つきで出力される。各文
節候補には、その文節に含まれる付属語の情報が付加さ
れている。文節中に付属語が複数あるときは文節の最後
に現われる付属語を選び、文節に付属語が含まれていな
い場合は、仮想的な付属語“φ”が付いていると見な
す。文節候補出力部1としては、たとえば電子情報通信
学会技術研究報告SP92−33に述べられている音声
認識方式を用いることができる。
【0016】言語モデルパラメータ格納部3には、図3
に示すような付属語の2つ組の連鎖とそれに対する出現
確率の値が言語モデルのパラメータとして格納されてい
る。具体的には、直前の付属語がωi であるときに付属
語ωj が出現する条件付確率P(ωj |ωi )の値が格
納されている。“φ”(付属語なし)および文頭(<s
tart>),文末(<end>)も、それぞれ1つの
付属語として扱われる。
【0017】文候補選択部2では、文節候補出力部1の
出力する文節ラティスから、言語モデルパラメータ格納
部3に格納された付属語2つ組の連鎖の出現確率を加味
して、最適な文節候補列を選択し、文認識結果として出
力する。具体的には、音響的スコアと言語的スコア(上
記確率の対数値)の重み付きの総和が最大になるような
文節列を以下の手順に従って動的計画法によって求め
る。
【0018】d(i,r)(1≦i≦n,1≦r≦R)
を文節候補出力部1から出力される第i文節の第r位候
補の音響的スコア,ωt (r)を第i文節の第r位候
補の文節末の付属語,ωlangを音響的スコアに対する言
語モデルのスコアの重みとして、動的計画法を用いて、 初期条件:r=1,…,Rに対して
【0019】
【数1】
【0020】漸化式:i=2,…,n;r=1,…,R
に対して
【0021】
【数2】
【0022】終端処理:r=1,…,Rに対して、
【0023】
【数3】
【0024】を計算し、最後にバックトラックを行なう
ことにより最適な文節系列として文認識結果が得られ
る。
【0025】言語モデルパラメータP(ωj |ωi )の
値は、大量のテキストデータベースから以下のようにし
て推定することができる。テキストデータから文節末の
付属語を抜き出し、(ωi ,ωj )の連鎖の出現頻度c
(ωi ,ωj )を求める。付属語なし,文頭,文末も、
それぞれ1つの仮想的な付属語として扱う。P(ωj
ωi )の推定値は、
【0026】
【数4】
【0027】となる。特に、言語モデルとして単語の3
つ組(条件付確率P(ωk |ωi ,ω j ))を用いる場
合など、テキストデータ量に比べて推定すべきパラメー
タ数が多いときは、パラメータのスムージングを行なう
ことにより、より良いパラメータの推定値が得られる。
パラメータのスムージングは、通常の単語N−gram
と全く同様の手法を用いることができる。具体的な方法
については、たとえば刊行物「確率モデルによる音声認
識」中川聖一著に紹介されている。
【0028】ここでは、付属語の2つ組を用いた言語モ
デルを例として説明したが、自立語を用いる場合も全く
同様である。付属語の2つ組と自立語の2つ組を併用す
ることも可能である。また、付属語あるいは自立語の3
つ組以上への拡張も容易である。たとえば、3つ組の場
合、文候補選択部2の処理で、隣接する2文節のペアを
単位として考えることにより、上述と同様に動的計画法
を用いた最適解の選択ができる。
【0029】さらに、特定のカテゴリに属する単語の連
鎖をモデル化するのに、上述のようなN個組の連鎖の出
現確率を考える代わりに、隠れマルコフモデルを用いる
こともできる。隠れマルコフモデルを用いた言語モデル
については、日本音響学会平成4年度秋季研究発表会講
演論文集2−Q−11に述べられているが、ここで文中
のすべての単語を用いる代わりに、特定のカテゴリに属
する単語だけを対象とすれば全く同様に言語モデルを作
成でき、その音声認識への利用も容易である。
【0030】
【発明の効果】以上のように、この発明によれば、言語
モデルにより得られるスコアとして、予め定めた特定の
カテゴリに属する単語に注目したときの単語の連鎖に対
して決まる値を用いるようにしたので、大域的な構文
的,意味的関係を表現でき、かつテキストデータベース
から容易に構築できる言語モデルを用いることにより、
音声を高精度に認識することができる。
【図面の簡単な説明】
【図1】この発明の一実施例の概略ブロック図である。
【図2】この発明の一実施例における文節候補出力部の
出力の一例を示す図である。
【図3】この発明の一実施例における言語モデルパラメ
ータの一例を示す図である。
【符号の説明】
1 文節候補出力部 2 文候補選択部 3 言語モデルパラメータ格納部

Claims (7)

    【特許請求の範囲】
  1. 【請求項1】 発声された音声を、音響モデルにより得
    られるスコアと、言語モデルにより得られるスコアとを
    用いて認識する音声認識方式において、 前記言語モデルにより得られるスコアとして、予め定め
    た特定のカテゴリに属する単語に注目したときの単語の
    連鎖に対して決まる値を用いることを特徴とする、音声
    認識方式。
  2. 【請求項2】 前記注目するカテゴリとして特定の品詞
    に属する単語を用いることを特徴とする、請求項1の音
    声認識方式。
  3. 【請求項3】 前記注目するカテゴリとして付属語を用
    いることを特徴とする、請求項1の音声認識方式。
  4. 【請求項4】 前記注目するカテゴリとして文節の最後
    の単語を用いることを特徴とする、請求項1の音声認識
    方式。
  5. 【請求項5】 前記注目するカテゴリとして自立語を用
    いることを特徴とする、請求項1の音声認識方式。
  6. 【請求項6】 前記注目するカテゴリとして文節の最初
    の単語を用いることを特徴とする、請求項1の音声認識
    方式。
  7. 【請求項7】 注目するカテゴリとして付属語または文
    節の最後の単語を用いた場合の単語の連鎖に対して決ま
    る値と、注目するカテゴリとして自立語または文節の最
    初の単語を用いた場合の単語の連鎖に対して決まる値を
    加えたものを前記言語モデルにより得られるスコアとし
    て用いることを特徴とする、請求項1の音声認識方式。
JP5130434A 1993-06-01 1993-06-01 音声認識方式 Pending JPH06342298A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP5130434A JPH06342298A (ja) 1993-06-01 1993-06-01 音声認識方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP5130434A JPH06342298A (ja) 1993-06-01 1993-06-01 音声認識方式

Publications (1)

Publication Number Publication Date
JPH06342298A true JPH06342298A (ja) 1994-12-13

Family

ID=15034148

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5130434A Pending JPH06342298A (ja) 1993-06-01 1993-06-01 音声認識方式

Country Status (1)

Country Link
JP (1) JPH06342298A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100445907B1 (ko) * 2001-12-26 2004-08-25 한국전자통신연구원 음성언어 식별 장치 및 방법
JP2007065029A (ja) * 2005-08-29 2007-03-15 Nippon Hoso Kyokai <Nhk> 構文・意味解析装置、音声認識装置、及び構文・意味解析プログラム
KR100825690B1 (ko) * 2006-09-15 2008-04-29 학교법인 포항공과대학교 음성 인식 시스템에서의 인식 오류 수정 방법

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01245297A (ja) * 1988-03-28 1989-09-29 Ricoh Co Ltd 文音声認識装置における文節候補検証方法
JPH02214930A (ja) * 1989-02-16 1990-08-27 Sharp Corp 音声認識方式

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01245297A (ja) * 1988-03-28 1989-09-29 Ricoh Co Ltd 文音声認識装置における文節候補検証方法
JPH02214930A (ja) * 1989-02-16 1990-08-27 Sharp Corp 音声認識方式

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100445907B1 (ko) * 2001-12-26 2004-08-25 한국전자통신연구원 음성언어 식별 장치 및 방법
JP2007065029A (ja) * 2005-08-29 2007-03-15 Nippon Hoso Kyokai <Nhk> 構文・意味解析装置、音声認識装置、及び構文・意味解析プログラム
JP4653598B2 (ja) * 2005-08-29 2011-03-16 日本放送協会 構文・意味解析装置、音声認識装置、及び構文・意味解析プログラム
KR100825690B1 (ko) * 2006-09-15 2008-04-29 학교법인 포항공과대학교 음성 인식 시스템에서의 인식 오류 수정 방법

Similar Documents

Publication Publication Date Title
EP1366490B1 (en) Hierarchichal language models
US6973427B2 (en) Method for adding phonetic descriptions to a speech recognition lexicon
Wolf et al. The HWIM speech understanding system
US11016968B1 (en) Mutation architecture for contextual data aggregator
EP1617409B1 (en) Multimodal method to provide input to a computing device
JP2003505778A (ja) 音声制御ユーザインタフェース用の認識文法作成の特定用途を有する句ベースの対話モデル化
WO2003010754A1 (fr) Systeme de recherche a entree vocale
US7401019B2 (en) Phonetic fragment search in speech data
Chia et al. Statistical lattice-based spoken document retrieval
Arısoy et al. A unified language model for large vocabulary continuous speech recognition of Turkish
US6980954B1 (en) Search method based on single triphone tree for large vocabulary continuous speech recognizer
Hetherington A characterization of the problem of new, out-of-vocabulary words in continuous-speech recognition and understanding
Liu et al. Paraphrastic language models
JP3059398B2 (ja) 自動通訳装置
Avram et al. Romanian speech recognition experiments from the robin project
JPH06342298A (ja) 音声認識方式
JPH07191687A (ja) 自然言語処理装置及びその方法
Nash-Webber Semantic support for a speech understanding system
Maskey et al. A phrase-level machine translation approach for disfluency detection using weighted finite state transducers
Galescu et al. Augmenting words with linguistic information for n-gram language models.
JP2000267693A (ja) 音声処理装置及び索引作成装置
Akita et al. Efficient estimation of language model statistics of spontaneous speech via statistical transformation model
Smaïli et al. An hybrid language model for a continuous dictation prototype.
Huang et al. Internet-accessible speech recognition technology
Wolf HWIM, a natural language speech understander

Legal Events

Date Code Title Description
A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 19960903