JPH06308994A - 日本語音声認識方法 - Google Patents

日本語音声認識方法

Info

Publication number
JPH06308994A
JPH06308994A JP5099694A JP9969493A JPH06308994A JP H06308994 A JPH06308994 A JP H06308994A JP 5099694 A JP5099694 A JP 5099694A JP 9969493 A JP9969493 A JP 9969493A JP H06308994 A JPH06308994 A JP H06308994A
Authority
JP
Japan
Prior art keywords
speech
standard pattern
character
language model
statistical language
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP5099694A
Other languages
English (en)
Inventor
Tomokazu Yamada
智一 山田
Shoichi Matsunaga
昭一 松永
Kiyohiro Kano
清宏 鹿野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP5099694A priority Critical patent/JPH06308994A/ja
Publication of JPH06308994A publication Critical patent/JPH06308994A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【目的】 本発明の目的は、文法的に誤った候補を統計
的に削除し、単純な文字の組み合わせによる候補が多数
生成されることを防ぐことにより処理時間を短縮し、変
換性能を向上させることができる日本語音声認識方法を
提供することである。 【構成】 本発明は、統計的言語モデルとして、学習用
テキストデータベース100から作成された文字の生起
順序情報101、及び品詞の生起順序情報102に関す
る統計的言語モデルを用い、標準パターンとして、学習
用音声データベース200の音節標準パターン201及
び文字の読みに対する音節標準パターン202を用い
る。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、日本語音声認識方法に
係り、特に、音韻を認識する方法としてパタンマッチン
グに基づくものと、特徴抽出に基づくもののうち、確率
的に状態遷移を行い、その状態遷移の際のある確率で記
号を出力する隠れマルコフモデル(例えば、中川聖一
「確立モデルによる音声認識」電子情報通信学会編(1
988))と、統計的言語モデル(例えば、L.R. Bahl
他“A Statistical Approach toContinuous Speech Rec
ognition ”IEEE Trans. on PAMI(1983))とを用いた日
本語音声認識方法に関する。
【0002】
【従来の技術】図4は、従来の日本語音声認識システム
を説明するための図である。
【0003】同図に示すシステムは、仮名・漢字生起順
序に関する統計的言語モデル情報11を有する学習用テ
キストデータベース10、学習用テキストデータベース
10の統計的言語モデル情報11を予め記憶しておく統
計的言語モデルメモリ50、隠れマルコフモデルの音素
標準パターン情報21を有する学習用音声データベース
20、学習用音声データベースの音素標準パターン情報
21を予め記憶しておく文字・読みに対応する音素系列
メモリ60、入力音声に対して既に認識処理が済んでい
る直前の音素から音素候補を選出する音素候補選出部3
0、学習用テキストデータベース10の標準モデルと入
力音声を照合し、学習用音声データベース20の音素標
準パターンの情報により総合的尤度の最も高い候補の仮
名・漢字文字を認識し、出力する認識部40より構成さ
れる。
【0004】次に、従来のシステムの動作を説明する。
従来の隠れマルコフモデル及び統計的言語モデルを用い
た音声認識で入力音声を仮名・漢字系列に変換する方法
として、学習用テキストデータベース10より、仮名・
漢字の生起順序に関する統計的言語モデル11を、学習
用音声データベース20より隠れマルコフモデルの音素
標準パターン21を、各々統計的言語モデルメモリ5
0、文字読みに対応する音素系列メモリ60に予め作成
しておき、音声候補選出部30で入力音声に対して、統
計的言語モデル11と、文字の読みに対応する音素系列
の情報を用いて、既に認識した直前の複数の音素から、
次に生起する確率の高い複数の音素候補を選出し、これ
ら選出した音素候補のそれぞれについて、認識部40で
その音素標準パターンと入力音声とを照合して、統計的
言語モデルによる生起尤度と、隠れマルコフモデルによ
る標準パターンとの類似尤度との総合的尤度の最も高い
候補の仮名・漢字文字を認識結果として出力することが
提案されている。
【0005】
【発明が解決しようとする課題】しかしながら、上記従
来の変換方法は、統計的言語モデルが仮名・漢字の文字
面だけを扱い、また、音素系列から仮名・漢字文字への
変換文字への変換情報として、各仮名・漢字文字の読み
に対応する音韻系列の情報が与えられているだけなの
で、単純な文字の組み合わせによる候補が多数生成され
るという問題がある。
【0006】本発明は、上記の点に鑑みなされたもの
で、上記従来の問題点を解決し、文法的に正しい候補を
統計的に選択することで、文法的に誤った候補を統計的
に削除し、単純な文字の組み合わせによる候補が多数生
成されることを防ぐことにより処理時間を短縮し、変換
性能を向上させることができる日本語音声認識方法を提
供することを目的とする。
【0007】
【課題を解決するための手段】図1は、本発明の原理を
説明するための図である。
【0008】本発明は、入力音声を特徴パラメータの時
系列とし、学習用テキストデータベース100より作成
された生起順序に関する統計的言語モデル101を用い
て、入力音声の特徴パラメータ時系列について、複数の
音声認識候補を選出し、これら各音声認識候補につい
て、学習用音声データベース200の隠れマルコフモデ
ルの標準パターンと入力音声の特徴パラメータと入力音
声の特徴パラメータ時系列とをそれぞれ照合して、生起
の尤度との総合尤度の高い候補を認識結果とする日本語
音声認識方法において、統計的言語モデルとして、学習
用テキストデータベース100から作成された文字の生
起順序情報101、及び品詞の生起順序情報102に関
する統計的言語モデルを用いる。
【0009】また、本発明は、入力音声を特徴パラメー
タの時系列とし、学習用テキストデータベース100よ
り作成された生起順序に関する統計的言語モデルを用い
て、入力音声の特徴パラメータ時系列について、複数の
音声認識候補を選出し、これら各音声認識候補につい
て、学習用音声データベース200の隠れマルコフモデ
ルの標準パターンと入力音声の特徴パラメータと入力音
声の特徴パラメータ時系列とをそれぞれ照合して、生起
の尤度との総合尤度の高い候補を認識結果とする日本語
音声認識方法において、標準パターンとして、学習用音
声データベース200の音節標準パターン201及び文
字の読みに対する音節標準パターン202を用いる。
【0010】
【作用】本発明は、学習用テキストデータベースの情報
として仮名・漢字の生起順序に加え、品詞の生起順序を
考慮し、学習用音声データベースの情報として、隠れマ
ルコフモデルの音素標準パターン情報(音節標準パター
ン)に加え、文字の読み標準パターン情報を考慮するこ
とにより、単純な文字の組み合わせにより生成される候
補に比べ、文法的に正しい候補が統計的に選択され、生
成される候補が絞り込まれるので、入力された音声から
仮名・漢字系列へ変換するのに要する処理時間を短縮
し、変換性能を向上させることができる。
【0011】
【実施例】以下、図面と共に本発明の実施例を説明す
る。
【0012】図1は本発明の一実施例のブロック図であ
る。
【0013】同図に示すシステムは音声信号を入力する
音声信号入力端子1、特徴パラメータを抽出する特徴抽
出部2、文字候補を選出し、特徴パラメータとの類似尤
度を求める認識部3、音節連鎖標準パターンを記憶する
標準パターンメモリ4、文字品詞統計的言語モデルを記
憶する文字・品詞統計的言語モデルメモリ5、及び認識
部3からの認識結果を出力する認識結果出力部6より構
成される。
【0014】まず、最初に予め、学習用テキストデータ
ベース100の生起順序情報101及び品詞生起順序情
報102により統計的言語モデルを記憶する標準パター
ンメモリ4と、学習用音声データベース200の隠れマ
ルコフモデルの音声標準パターン情報201、文字読み
標準パターン情報202により文字・品詞統計的言語モ
デルを読みだし、文字・品詞統計的言語モデルメモリ5
を生成する。
【0015】入力端子1から入力された音声は、特徴抽
出部2でディジタル信号に変換され、更にLPCケプス
トラム分析された後、1フレーム(例えば、10ミリ
秒)毎に特徴パラメータに変換される。この特徴パラメ
ータは、例えば、LPCケプストラム係数である。
【0016】学習用音声データベース200より、特徴
ベクトルと同一形式で、隠れマルコフモデルの音節標準
パターン及び漢字の読みに対する音節連鎖標準パターン
等の標準パターンを予め作り、標準パターンメモリ4に
記憶しておき、また、学習用テキストデータベース10
0より文字(仮名・漢字)及び品詞の生起順序に関する
統計的言語モデルを作成し、文字・品詞統計的言語モデ
ルメモリ5に記憶してある。
【0017】認識部3は、文字・品詞統計的言語モデル
メモリ5に記憶されている文字・品詞統計的言語モデル
を用いて選出した複数の文字候補について、その文字候
補の読みを表す標準パターンを標準パターンメモリ4か
ら読み出し、入力音声の特徴パラメータとの類似尤度を
それぞれ求める。
【0018】認識結果出力部6は、認識部3の認識結果
に基づいてディスプレイ等に出力する。
【0019】図3は本発明の一実施例の認識処理を説明
するための図であり、同図は、認識部3においてi番目
の認識のための候補文字を選出し、これより認識結果を
出力する場合を示す。つまり、例えば、入力音声に対す
るi番目の文字を認識するには、文字・品詞統計的言語
モデルから仮名・漢字と品詞の生起順序に関する条件つ
き確率を用いて、(i−2)番目と(i−1)番目との
各文字の認識結果と、(j−1)番目と(j−2)番目
との各単語の品詞の認識結果と、次に現れると仮定され
るj番目の単語の品詞とを基に、i番目に出現すると予
測される尤度が高い文字の複数を候補文字k1 〜kn と
して選出する。
【0020】ここで、i番目に出現すると予測される文
字は、j番目の単語の一部である。j番目の単語として
は、存在する全ての品詞を仮定してもよいし、i番目に
出現すると予測される文字により仮定できる品詞を限定
してもよい。i−2,i−1,i番目に現れる文字をc
i-2 ,ci-1 ,ci とし、j−2,j−1,j番目に現
れる単語の品詞をsj-2 ,sj-1 ,sj とすると、前述
の条件つき確率は、
【0021】
【数1】 となる。このデータを得るためのテキスト及び品詞列が
十分に用意できない場合は、
【0022】
【数2】 などを用いて同様の効果を得ることも可能である。ま
た、i−2,i−1,i番目に現れるci-2 ,ci-1
i としては、単純な文字そのものでなく、予め読みの
情報を付与した文字コードを用いても差し支えない。
【0023】次にこれら選出された各候補文字に対し、
仮定する品詞の数に応じて別々の候補を作成する。
【0024】例えば、図2に示すように、文字k1 に対
し、品詞h1 ,h2 ,h3 を仮定する場合、その組み合
わせによる3つの候補が作成される。そしてこれらの候
補の各々について、標準パターンメモリ4から文字の読
みに対する標準パターンを読みだし、i番目の入力音声
との尤度を求め、文字・品詞統計的言語モデルメモリ5
から読みだした文字・品詞統計的言語モデルに基づくそ
の候補文字のi番目に生起する尤度との和を総合尤度と
し、この総合尤度の最も高い候補、例えば、k 1 ,h2
が最も総合尤度が高ければ、文字k1 をi番目の認識結
果文字として認識結果出力部6へ出力する。
【0025】ある文字が出力されたとき、総合尤度が最
も高かった候補が次の文字を出力した段階でも総合尤度
が最も高くなるとは限らない。そこで、総合尤度の高い
上記B個の候補を残し(これをビーム幅がBであると言
う)、次の処理へ引き継ぐ。上位B個としたのは、すべ
ての候補を保持するとメモリ量が増大し、それに伴い処
理時間が長くなる等により困難であるためである。総合
尤度の最も高い候補の変更に伴い、認識結果出力部6へ
出力する候補文字も更新する。
【0026】この仮名・漢字候補選出及びその文字の品
詞の仮定と、それらについての標準パターンとの照合
と、その総合尤度から認識結果文字を尤度の高い順に仮
名・漢字系列として出力する。
【0027】なお、入力音声中に、学習テキストデータ
ベース中にない漢字があると、これを認識することがで
きない。この場合は、その認識できない文字(漢字)
を、認識結果の仮名・漢字系列中に空白として出力する
か、あるいは、音素、または仮名の生起順序に関する統
計的言語モデルと、隠れマルコフモデルの音素または音
節標準パターンとを儲け、データベースにない漢字は、
音素系列または仮名系列として出力してもよい。
【0028】また、特徴抽出部2、認識部3、認識結果
出力部6はそれぞれ専用または、兼用のマイクロプロセ
ッサにより処理することができる。
【0029】
【発明の効果】上述のように、本発明によれば、仮名・
漢字の生起順序に関する統計的言語モデルと隠れマルコ
フモデルの音節標準パターン及び漢字の読みに対する音
声連鎖標準パターンとを用いて、入力された音声から直
接漢字仮名混じり系列を出力する場合において、文字だ
けでなく品詞の生起順序に関する情報も用いて予め統計
的言語モデルを作成しておくことで、文法的に誤った候
補を統計的に削除することができ、処理時間を短縮し、
変換性能を向上させることができる。
【図面の簡単な説明】
【図1】本発明の原理を説明するための図である。
【図2】本発明の一実施例のブロック図である。
【図3】本発明の一実施例の認識処理を説明するための
図である。
【図4】従来の日本語音声認識システムを説明するため
の図である。
【符号の説明】
1 音声信号入力端子 2 特徴抽出部 3 認識部 4 標準パターンメモリ 5 文字・品詞統計的言語モデル 6 認識結果出力部 10 学習用テキストデータベース 11 仮名・漢字の生起順序に関する統計的言語モデル
情報 20 学習用音声データベース 21 隠れマルコフモデルの音素・標準パターン情報 30 音素候補選出部 40 認識部 50 統計的言語モデルメモリ 60 文字の読みに対応する音素系列メモリ 100 学習用テキストデータベース 101 文字生起順序情報 102 品詞生起順序情報 200 学習用音声データベース 201 隠れマルコフモデル音節標準パターン情報 202 文字読み標準パターン情報 300 統計的言語モデル 400 音節標準パターン

Claims (2)

    【特許請求の範囲】
  1. 【請求項1】 入力音声を特徴パラメータの時系列と
    し、学習用テキストデータベースより作成された生起順
    序に関する統計的言語モデルを用いて、該入力音声の特
    徴パラメータ時系列について、複数の音声認識候補を選
    出し、これらの各音声認識候補について、隠れマルコフ
    モデルの標準パターンと該入力音声の特徴パラメータ時
    系列とをそれぞれ照合して、生起の尤度と類似の尤度と
    の総合尤度の高い候補を認識結果とする日本語音声認識
    方法において、 該統計的言語モデルとして、該学習用テキストデータベ
    ースから作成された、文字の生起順序、及び品詞の生起
    順序に関する統計的言語モデルを用いることを特徴とす
    る日本語音声認識方法。
  2. 【請求項2】 入力音声を特徴パラメータの時系列と
    し、学習用テキストデータベースより作成された生起順
    序に関する統計的言語モデルを用いて、該入力音声の特
    徴パラメータ時系列について、複数の音声認識候補を選
    出し、これらの各音声認識候補について、隠れマルコフ
    モデルの標準パターンと該入力音声の特徴パラメータ時
    系列とをそれぞれ照合して、生起の尤度と類似の尤度と
    の総合尤度の高い候補を認識結果とする日本語音声認識
    方法において、 該標準パターンとして、音節標準パターン及び文字の読
    みに対する音節標準パターンを用いることを特徴とする
    日本語音声認識方法。
JP5099694A 1993-04-26 1993-04-26 日本語音声認識方法 Pending JPH06308994A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP5099694A JPH06308994A (ja) 1993-04-26 1993-04-26 日本語音声認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP5099694A JPH06308994A (ja) 1993-04-26 1993-04-26 日本語音声認識方法

Publications (1)

Publication Number Publication Date
JPH06308994A true JPH06308994A (ja) 1994-11-04

Family

ID=14254160

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5099694A Pending JPH06308994A (ja) 1993-04-26 1993-04-26 日本語音声認識方法

Country Status (1)

Country Link
JP (1) JPH06308994A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6484141B1 (en) 1998-12-04 2002-11-19 Nec Corporation Continuous speech recognition apparatus and method

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6484141B1 (en) 1998-12-04 2002-11-19 Nec Corporation Continuous speech recognition apparatus and method

Similar Documents

Publication Publication Date Title
US7174288B2 (en) Multi-modal entry of ideogrammatic languages
JP3848319B2 (ja) 情報処理方法及び情報処理装置
US6910012B2 (en) Method and system for speech recognition using phonetically similar word alternatives
US7363224B2 (en) Method for entering text
US6801892B2 (en) Method and system for the reduction of processing time in a speech recognition system using the hidden markov model
JPH0713594A (ja) 音声合成において音声の質を評価するための方法
JP3444108B2 (ja) 音声認識装置
JP2820093B2 (ja) 単音節認識装置
JPH06308994A (ja) 日本語音声認識方法
JP2002215184A (ja) 音声認識装置、及びプログラム
JP3790038B2 (ja) サブワード型不特定話者音声認識装置
WO1992005517A1 (en) Audio-augmented handwriting recognition
JP3009709B2 (ja) 日本語音声認識方法
KR100355453B1 (ko) 동시에 병렬적으로 문자인식 및 음성인식을 사용한 컴퓨터 사용자 인터페이스 방법
JP2003323196A (ja) 音声認識システム、音声認識方法および音声認識用プログラム
JPH05232987A (ja) 日本語音声認識方法
JP2002189490A (ja) ピンイン音声入力の方法
JPH0627985A (ja) 音声認識方法
JP3430265B2 (ja) 日本語音声認識方法
JP2660998B2 (ja) 日本語処理装置
JPH05119793A (ja) 音声認識方法及び装置
JPH0612091A (ja) 日本語音声認識方法
JP3128251B2 (ja) 音声認識装置
JPH05232990A (ja) 日本語音声認識方法
JPH04291399A (ja) 音声認識方法