JP2745562B2 - ノイズ適応形音声認識装置 - Google Patents

ノイズ適応形音声認識装置

Info

Publication number
JP2745562B2
JP2745562B2 JP63237067A JP23706788A JP2745562B2 JP 2745562 B2 JP2745562 B2 JP 2745562B2 JP 63237067 A JP63237067 A JP 63237067A JP 23706788 A JP23706788 A JP 23706788A JP 2745562 B2 JP2745562 B2 JP 2745562B2
Authority
JP
Japan
Prior art keywords
noise
pattern
standard pattern
feature vector
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP63237067A
Other languages
English (en)
Other versions
JPH0283593A (ja
Inventor
真二 古賀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP63237067A priority Critical patent/JP2745562B2/ja
Publication of JPH0283593A publication Critical patent/JPH0283593A/ja
Application granted granted Critical
Publication of JP2745562B2 publication Critical patent/JP2745562B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Description

【発明の詳細な説明】 (産業上の利用分野) 本発明は、雑音に影響されにくい音声認識装置の改良
に関するものである。
(従来の技術) 従来、音声認識では、あらかじめ発生した音声データ
から作成した標準パターンを用いて、それらと未知音声
から求めた音声パターンとの類似度を求め、最大の類似
度を与えるカテゴリを認識結果とする方法が一般に用い
られている。このような方法としては、迫江、千葉の,I
EEE,Transaction on Acoustics,Speech,and Signal Pro
cessing,Vol.ASSP−26,No.1,1978のページ43−49に掲載
の論文“Dynamic programming alogorithm optimizatio
n for spoken word recognition"(以下、文献1と称
す)に述べられているような認識単位に単語を用いる方
法や、Yen−Lu Chow、Richard Schwartz、Salim Roucos
他の、IEEE,International Conference on Acoustics,S
peech,and Signal Processing,1986,30.9のページ1593
−1596に掲載の論文“The Role of Word−Dependent Co
articulatory Effects Phoneme−Based Speech Recogni
tion System"(以下、文献2と称す)に述べられている
ような認識単位に音素などの単語より小さい単位を用い
る方法がある。以下、「音素」とは、音韻論的な意味で
の音声の最小基本単位という意味だけではなく、音節や
複数の音素の連結をも含む、もっと広い範囲の音声の単
位を意味する。
認識時に周囲に雑音が存在する場合、音声区間の検出
誤りや、入力された未知音声に雑音が重畳することによ
る音声パターンの変化により、誤認識を起こしやすくな
る。音声区間検出の問題に対する解決方法として、例え
ば、John S.Bridle、Michael D.Brown、及びRichard M.
Chamberlainの、IEEE,International Conference on Ac
oustics,Speech,and Signal Processing,1982のページ8
99−902に掲載の論文“AN ALGORITHM FOR CONNECTED WO
RD RECOGNITION"(以下、文献3と称す)で述べられて
いる方法が挙げられる。これは、未知音声パターンと標
準パターンとのマッチングを行う際に、標準パターンの
前後の周囲雑音のパターン(以下、ノイズパターンと呼
ぶ)を付加した新しい標準パターンを作成する。未知音
声パターンは、前後にある程度の長さの周囲雑音が加わ
った無音区間を含めて検出される。このように、ノイズ
パターンを付加した標準パターンを用いることにより、
前後に雑音を含んだ未知音声パターンともマッチングが
可能となるので、音声区間を正確に検出する必要がなく
なり、音声区間の検出誤りの問題を回避することができ
る。
(発明が解決しようとする問題点) 音声が発生する際に生じる無音区間は、音声区間の前
後以外にも存在する。例えば、声道のいずれかの部分で
の調音器官による呼気の完全な閉鎖およびそれに続く開
放によって調音される破裂音を発生する際の閉鎖による
無音区間や、日本語の正書法で「ッ」で表記される促音
による無音区間などがそうである。
音声を認識する際に存在する周囲の雑音は、発声中、
常に音声パターンに重畳されるが、特に、このような音
声中の無音区間では音声のエネルギーが小さいので周囲
雑音の影響を受けやすく、パターンは周囲雑音のパター
ンそのものとなる。
文献3で用いられている方法は、要求される音声区間
検出の精度の緩和を目的としているので、音声区間の前
後に存在する無音区間にのみ注目しており、前述の破裂
音や促音により生じる語中の無音区間に対しては何の考
慮もされていない。しかし、未知音声パターンと標準パ
ターンとのマッチングを行う際には、この語中の無音区
間もマッチングの対象となる。よって、未知音声データ
における語中の無音区間のパターンが周囲雑音により著
しく変形した場合、誤認識の原因となってしまう。
本発明は、周囲雑音の影響を受けにくい高性能な音声
認識装置を実現することを目的とする。
(問題点を解決するための手段) 本願の第1の発明によるノイズ適応形音声認識装置
は、音声信号を分析して特徴ベクトル時系列を出力する
特徴分析部と、前記音声信号の前後の無音区間を少なく
とも含む複数の無音区間に対する前記特徴ベクトル時系
列からノイズパターンを作成するノイズパターン作成部
と、単語または文章を単位としたあらかじめ定められた
特徴ベクトル時系列と無音区間の位置情報とを標準パタ
ーンとして蓄えておく標準パターン記憶部と、前記標準
パターン記憶部に蓄えられた標準パターン中の無音区間
を前記位置情報をもとに前記ノイズパターンと置き換え
ることによりノイズ適応標準パターンを作成するノイズ
適応準備パターン作成部と、前記特徴ベクトル時系列と
前記ノイズ適応標準パターンとを比較照合して音声を認
識する認識部とを有する。
本願の第2の発明によるノイズ適応形音声認識装置
は、音声信号を分析して特徴ベクトル時系列を出力する
特徴分析部と、前記音声信号と前記特徴ベクトル時系列
からノイズパターンを作成するノイズパターン作成部
と、音素を単位とした音素モデル及びノイズに対応する
ノイズモデルを標準モデルとしてあらかじめ蓄えておく
標準モデル記憶部と、前記標準モデル記憶部に蓄えられ
たノイズモデルと前記ノイズパターンとから適応ノイズ
モデルを作成する適応ノイズモデル作成部と、前記標準
モデル記憶部に蓄えられた音素モデルと前記適応ノイズ
モデルと前記特徴ベクトル時系列より音声を認識する認
識部とを有する。
本願の第3の発明によるノイズ適応形音声認識装置
は、前記本願の第1の発明に加え、音声信号を分析して
特徴ベクトル時系列を出力する特徴分析部と、前記音声
信号から無音区間の位置情報を求める音声区間検出部
と、前記特徴ベクトル時系列と前記無音区間の位置情報
とを標準パターンとして蓄えておく標準パターン記憶部
とを有する。
(作用) 本発明によるノイズ適応形音声認識装置の作用につい
て説明する。本発明は、標準パターン中の無音区間のパ
ターンを、認識時に推定された周囲雑音のパターンと置
き換えることにより、雑音に影響されない音声認識を実
現するものである。
まず、文献1に述べられているような、認識単位とし
て単語を用いる場合について述べる。認識に用いる標準
パターンは、標準的な発声より求めた特徴ベクトル時系
列と、その音声中の無音区間の位置情報からなってい
る。この特徴ベクトル時系列の求め方として、例えば、
古井著、1985年、東海大学出版会発行の「ディジタル音
声処理」(以下、文献4と称す)のページ154−160に述
べられているメルケプストラムによる方法やLPC分析法
などを用いることができる。入力された音声を標準パタ
ーンとして登録する際に、その音声パターンの前後の無
音区間ならびに語中の無音区間を検出し、無音区間の位
置情報とする。無音区間の位置の検出は、視察により検
出する方法のほかに、例えば、新美著、1979年、共立出
版発行の「音声認識」(以下、文献5と称す)のページ
68−70に述べられている、エネルギーと零交差回数を用
いる方法などを用いることができる。第4図に音声パタ
ーン中の無音区間の例を示す。図において、縦軸は音声
のパワーを、横軸は時間を表し、点線で区切られ“*”
の印がついている区間が無音区間である。検出された無
音区間の始端、終端の位置に関する情報(S1,E1),(S
2,E2),…は、特等ベクトル時系列とともに標準パター
ンとして保持される。
未知音声を認識する際には、まず、ノイズパターンを
推定する。この推定方法として、例えば、未知音声パタ
ーンの無音区間を文献5の方法により検出し、検出され
た全ての無音区間のデータの平均値をノイズパターンと
する方法を用いることができる。続いて、標準パターン
中の無音区間に対応するパターンを、前述の無音区間の
位置情報を用いて、全てこのノイズパターンと置き換え
て新しい標準パターン(以下、ノイズ適応標準パターン
と呼ぶ)を作成する。認識は、未知音声データとノイズ
適応標準パターンとをマッチングすることにより行われ
る。マッチング方法としては、文献1に述べられている
ようなDPマッチングなどが利用できる。このように、無
音区間に対して認識時の周囲環境に応じたノイズパター
ンを用いることにより、雑音環境が変化しても影響をう
けないようにすることができる。
次に、文献2に述べられているような音素を単位とす
る認識法を用いる場合について述べる。この場合、あら
かじめ発声された音声パターンから音素単位に標準モデ
ルを作成する。標準モデルとして、例えば、文献2に述
べられているような隠れマルコフモデル(以下、HMMと
呼ぶ)を用いることができる。HMMは、確率モデルの一
種で、継続時間長のモデルaと、特徴ベクトルのモデル
bの二種の要素より構成されている。そして、音素単位
のHMMのパラメータは、発声中の各音素区間のパターン
を用いて、文献2に述べられているようなフォワード・
バックワード(forward−backward)アルゴリズムによ
って推定することができる。標準モデルとしては、この
音素毎のモデル(以下、音素モデルと呼ぶ)のほかに無
音区間に対するモデル(以下、ノイズモデルと呼ぶ)も
作成する。ノイズモデルとしてのHMMは、音素単位のHMM
と同様に、発声中の無声区間のパターンを用いて推定さ
れる。また、全無音区間に対するモデルとして、一種類
のノイズモデルを用いることもできるが、音声区間の前
後の無音区間、破裂音の前の無音区間、促音による無音
区間それぞれに対して別々のモデルを適用することもで
きる。これらの無音区間では、それぞれの特徴ベクトル
は類似しているが、継続時間長は異なるので、別々のモ
デルにすることにより個々の継続時間長をモデル化する
ことができる。
未知音声を認識する際には、まず、単語を認識単位と
するときと同様の方法により、未知音声パターンの無音
区間を検出し、ノイズパターンを作成する。そして、前
述のノイズモデルの特徴ベクトルのモデルbを、作成さ
れたノイズパターンのモデルと置き換えて新しいノズル
モデル(以下、適応ノイズモデルと呼ぶ)を作成する。
つまり、認識時の周囲環境に応じたノイズモデルを作成
するわけである。認識方法としては、例えば、適応ノイ
ズモデルならびに音素モデルを、文献2で述べられてい
るように、音素表記された単語辞書を用いて結合して単
語単位のモデルを作成し、各モデルに対してフォワード
・バックワードアルゴリズムにより未知音声の出現確率
を求め、確率が最も高い単語を認識結果とする方法など
が適用できる。
(実施例) 本発明によるノイズ適応形音声認識装置の実施例につ
いて図面を参照して説明する。第1図は本願の第1の発
明による一実施例を示す構成図である。
未知音声信号の認識手順について説明する。認識に先
立ち、標準パターンPはあらかじめ標準パターン記憶部
14の中に特徴ベクトル標準パターンFR及び無音区間位置
情報IRとして保持されている。まず、未知音声信号S
は、特徴分析部11および音声区間検出部12へ入力され
る。特徴分析部11では、文献4で述べられているような
メルケプストラムによる方法を用いて、音声信号Sが特
徴ベクトル時系列Vに変換される。音声区間検出部12で
は、未知音声信号Sの無音区間が、文献5で述べられて
いるエネルギーと零交差回数を用いる方法により検出さ
れる。検出された全ての無音区間の始端と終端は無音区
間位置情報Iとして出力される。特徴ベクトル時系列V
と無音区間位置情報Iは、ノイズパターン作成部13に入
力される。ここでは、無音区間位置情報Iを用いて全て
の無音区間の特徴ベクトルの平均値が求められ、それが
ノイズパターンNとして出力される。このノイズパター
ンNと標準パターン記憶部14中の標準パターンPが、ノ
イズ適応標準パターン作成部15に入力される。ノイズ適
応標準パターン作成部15では、標準パターンP中の無音
区間位置情報IRを用いて、特徴ベクトル標準パターンFR
の無音区間内の特徴ベクトルがノイズパターンNと置き
換えられ、ノイズ適応標準パターンPNが作成される。そ
して、認識部16において、このノイズ適応標準パターン
PNと未知音声の特徴ベクトル時系列Vが読み込まれ、ノ
イズ適応標準パターンPN毎に特徴ベクトル時系列Vとの
類似度が、文献1に述べられているようなDPマッチング
を用いて求められ、最も類似度が大きい標準パターンの
カデゴリOが認識結果として出力される。
第2図は本願の第3の発明による標準パターンPを発
声された音声より作成する一実施例を示す構成図であ
る。
入力された登録用音声信号SRは、特徴分析部21および
音声区間検出部22へ入力され、特徴ベクトル時系列VR
よび無音区間位置情報IRがそれぞれ出力される。特徴ベ
クトル時系列VRと無音区間位置情報IRは、音声抽出部23
に入力される。ここでは、特徴ベクトル時系列VRから音
声の区間が、無音区間位置情報IRを用いて切り出され、
特徴ベクトル標準パターンFRとして出力される。特徴ベ
クトル標準パターンFRおよび無音区間位置情報IRは、標
準パターン記憶部24に入力され、標準パターンPとして
記憶される。
第3図は本願の第2の発明による一実施例を示す構成
図である。
標準モデル記憶部32の中には、文献2で述べられてい
るようなHMMを用いた音素モデルMPおよびノイズモデルM
Nが保持されている。これらは、文献2で述べられてい
るフォワード・バックワードアルゴリズムにより、多量
の音声データから作成できる。
未知音声信号の認識手順について説明する。まず、未
知音声信号Sは、特徴分析部31で特徴ベクトル時系列V
に変換される。特徴ベクトル時系列Vは、未知音声信号
Sとともにノイズパターン作成部33に入力される。ここ
では、音声信号Sの無音区間が、文献5で述べられてい
るエネルギーと零交差回数を用いる方法により検出さ
れ、全ての無音区間の特徴ベクトルの平均値が求めら
れ、それがノイズパターンNとして出力される。このノ
イズパターンNと、標準モデル記憶部32中のノイズモデ
ルMNは適応ノイズモデル作成部34に入力される。ここで
は、ノイズモデルMNの特徴ベクトルのモデルbをノイズ
パターンNのモデルと置き換えて、適応ノイズモデルMA
が作成される。この適応ノイズモデルMA及び標準モデル
記憶部32中の音素モデルMP、さらに未知音声の特徴ベク
トル時系列Vが、認識部35に入力される。ここでは、適
応ノイズモデルMAならびに音素モデルMPが、文献2で述
べられているような音素表記された単語辞書を用いて結
合され、単語単位のモデルが作成される。そして、各単
語単位のモデルに対する未知音声の特徴ベクトル時系列
Vの出現確率が、フォワード・バックワードアルゴリズ
ムにより求められ、確率が最も高いモデルのカテゴリO
が認識結果として出力される。
(発明の効果) 本発明によれば、語中の無音区間のパターンとして認
識時の周囲雑音に対応したものを用いるので、雑音に影
響されない音声認識装置を実現することができる。
【図面の簡単な説明】
第1図は、本願の第1の発明による一実施例を示す構成
図、第2図は、本願の第3の発明による標準パターンを
発声された音声より作成する一実施例を示す構成図、第
3図は、本願の第2の発明による一実施例を示す構成
図、第4図は、無音区間の例を示す図である。 図において、 11,21,31……特徴抽出部、 12,22……音声区間検出部、 13,33……ノイズパターン作成部、 14,24……標準パターン記憶部、 15……ノイズ適応標準パターン記憶部、 16,35……認識部、 23……音声抽出部、 32……標準モデル記憶部、 34……適応ノイズモデル作成部。

Claims (2)

    (57)【特許請求の範囲】
  1. 【請求項1】音声信号を分析して特徴ベクトル時系列を
    出力する特徴分析部と、前記音声信号の前後の無音区間
    を少なくとも含む複数の無音区間に対する前記特徴ベク
    トル時系列からノイズパターンを作成するノイズパター
    ン作成部と、単語または文章を単位としたあらかじめ定
    められた特徴ベクトル時系列と無音区間の位置情報とを
    標準パターンとして蓄えておく標準パターン記憶部と、
    前記標準パターン記憶部に蓄えられた標準パターン中の
    無音区間を前記位置情報をもとに前記ノイズパターンと
    置き換えることによりノイズ適応標準パターンを作成す
    るノイズ適応標準パターン作成部と、前記特徴ベクトル
    時系列と前記ノイズ適応標準パターンとを比較照合して
    音声を認識する認識部とを有するノイズ適応形音声認識
    装置。
  2. 【請求項2】音声信号を分析して特徴ベクトル時系列を
    出力する特徴分析部と、前記音声信号から無音区間の位
    置情報を求める音声区間検出部と、前記特徴ベクトル時
    系列と前記無音区間の位置情報とを標準パターンとして
    蓄えておく標準パターン記憶部とを有する請求項1記載
    のノイズ適応形音声認識装置。
JP63237067A 1988-09-20 1988-09-20 ノイズ適応形音声認識装置 Expired - Lifetime JP2745562B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP63237067A JP2745562B2 (ja) 1988-09-20 1988-09-20 ノイズ適応形音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP63237067A JP2745562B2 (ja) 1988-09-20 1988-09-20 ノイズ適応形音声認識装置

Publications (2)

Publication Number Publication Date
JPH0283593A JPH0283593A (ja) 1990-03-23
JP2745562B2 true JP2745562B2 (ja) 1998-04-28

Family

ID=17009929

Family Applications (1)

Application Number Title Priority Date Filing Date
JP63237067A Expired - Lifetime JP2745562B2 (ja) 1988-09-20 1988-09-20 ノイズ適応形音声認識装置

Country Status (1)

Country Link
JP (1) JP2745562B2 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2897376B2 (ja) * 1990-08-30 1999-05-31 ヤマハ発動機株式会社 水ジェット推進艇の推進機部の構造
JPH04292295A (ja) * 1991-03-19 1992-10-16 Sanshin Ind Co Ltd 水噴射式推進船の航行安定装置
JP3157788B2 (ja) 1998-11-12 2001-04-16 埼玉日本電気株式会社 携帯型情報端末
US6086437A (en) * 1999-08-20 2000-07-11 Murray Industries, Inc. Blow back rudder for a water craft
US6302047B1 (en) 2000-09-14 2001-10-16 Todd Randall Cannon Retractable rudder assembly for personal watercraft
JP4952621B2 (ja) * 2008-03-11 2012-06-13 ヤマハ株式会社 電子音楽装置及び奏法対応処理プログラム
JP4872954B2 (ja) * 2008-03-11 2012-02-08 ヤマハ株式会社 電子音楽装置及び奏法対応処理プログラム

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS597998A (ja) * 1982-07-06 1984-01-17 日本電気株式会社 連続音声認識装置
JPH0690631B2 (ja) * 1983-06-03 1994-11-14 富士通株式会社 音声認識方法

Also Published As

Publication number Publication date
JPH0283593A (ja) 1990-03-23

Similar Documents

Publication Publication Date Title
US11270685B2 (en) Speech based user recognition
EP2048655B1 (en) Context sensitive multi-stage speech recognition
Aggarwal et al. Acoustic modeling problem for automatic speech recognition system: conventional methods (Part I)
JP2003316386A (ja) 音声認識方法および音声認識装置および音声認識プログラム
JP4340685B2 (ja) 音声認識装置及び音声認識方法
US20060129392A1 (en) Method for extracting feature vectors for speech recognition
JPWO2007046267A1 (ja) 音声判別システム、音声判別方法及び音声判別用プログラム
Fukuda et al. Detecting breathing sounds in realistic Japanese telephone conversations and its application to automatic speech recognition
Razak et al. Quranic verse recitation recognition module for support in j-QAF learning: A review
US20210090563A1 (en) Dialogue system, dialogue processing method and electronic apparatus
Ranjan et al. Isolated word recognition using HMM for Maithili dialect
Marasek et al. System for automatic transcription of sessions of the Polish senate
JP2745562B2 (ja) ノイズ適応形音声認識装置
Kuamr et al. Implementation and performance evaluation of continuous Hindi speech recognition
JP2996019B2 (ja) 音声認識装置
Yavuz et al. A Phoneme-Based Approach for Eliminating Out-of-vocabulary Problem Turkish Speech Recognition Using Hidden Markov Model.
Sharma et al. Soft-Computational Techniques and Spectro-Temporal Features for Telephonic Speech Recognition: an overview and review of current state of the art
Mu et al. Japanese Pronunciation Evaluation Based on DDNN
Athiyaa et al. Spoken language identification system using MFCC features and Gaussian Mixture Model for Tamil and Telugu Languages
Sharma et al. Speech recognition of Punjabi numerals using synergic HMM and DTW approach
JP2011180308A (ja) 音声認識装置及び記録媒体
JP3110025B2 (ja) 発声変形検出装置
JP6199994B2 (ja) コンテキスト情報を使用した音声認識システムにおける誤警報低減
JP6517417B1 (ja) 評価システム、音声認識装置、評価プログラム、及び音声認識プログラム
JP3357752B2 (ja) パターンマッチング装置

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080213

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090213

Year of fee payment: 11

EXPY Cancellation because of completion of term
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090213

Year of fee payment: 11