JPH03110599A - 音声認識方法 - Google Patents

音声認識方法

Info

Publication number
JPH03110599A
JPH03110599A JP1249535A JP24953589A JPH03110599A JP H03110599 A JPH03110599 A JP H03110599A JP 1249535 A JP1249535 A JP 1249535A JP 24953589 A JP24953589 A JP 24953589A JP H03110599 A JPH03110599 A JP H03110599A
Authority
JP
Japan
Prior art keywords
phoneme
standard pattern
noise
matching
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP1249535A
Other languages
English (en)
Other versions
JP2658426B2 (ja
Inventor
Toshiyuki Morii
利幸 森井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP1249535A priority Critical patent/JP2658426B2/ja
Publication of JPH03110599A publication Critical patent/JPH03110599A/ja
Application granted granted Critical
Publication of JP2658426B2 publication Critical patent/JP2658426B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 産業上の利用分野 本発明は、音声データを認識する装置に用いる音声認識
方法に関するものである。
従来の技術 従来、音声認識システムとして、第2図の機能ブロック
図に示す構成が知られている。
第2図に示すように、まず、マイクロホンから入力され
た音声信号10に対し、音響分析部11において、LP
 C(linear predictive codi
ng :線形予測符号化)分析やフィルター分析などの
音響分析を行ない、特徴パラメータを含む音声情報を抽
出する。次に、上記音声情報に対し、セグメンテーショ
ン部12において、子音セグメンテーションを行なった
後、音素判別部13において、音素標準パターン格納部
14に格納された音素標準パターンとマツチングを行な
い、音素を判別して音素系列を作る。次に、上記音素系
列に対し、音素系列作成部15において、音度規則格納
部16に格納された音度規則と照合し、修正を加えて最
終的な音素系列を作成する。そして、単語マツチング部
17において、上記最終的な音素系列と単語辞書格納部
18に格納された単語辞書とのマツチングを行ない、類
似度の一番大きいものを認識結果19とする。
ここで、上記音素判別部13において、音素マツチング
に用いられ、音素標準パターン格納部14に格納された
不特定話者・多数語用音素標準パターンは第3図に示す
ようにして作成する。まず、防音室内でマイクロホンか
ら入力された多人数・多数語の音声データ20をA/D
変換部21においてA/D変換し、収録して音声データ
ベース22を作る。
次に、上記音声データに対し、音響分析部23において
音響分析を行ない、特徴パラメータを抽出する。一方、
音響分析部23で得られるパワー情報などをもとに、人
が目視によってそれぞれのデータに対して音素のラベリ
ング24を行ない、ラベリングデータベース25を作る
。そして、標準パターン作成部26において、上記特徴
パラメータとラベリングデータとを用いてLPCケプス
トラム係数を特徴パラメータとした音素標準パターン2
7を作成する。
この音声認識システムの実用化に際しては、認識される
音声が環境から受ける影響を低減する認識アルゴリズム
が必要になる。特に、環境ノイズは認識率の低下の最も
大きい要因であり、音響分析におけるノイズ対策は必須
である。従来における環境ノイズ対策は、その環境ノイ
ズを付加した音素標準パターンを作成して音素認識に用
いるという方法であったが、このノイズ付加音素標準パ
ターンは第4図に示すようにして作成する。1ず、あら
かじめ音声認識を行なう環境のノイズ28を収録し、A
/D変換部29においてA/D変換を行なってノイズデ
ータベース30を作成する。次に、ノイズ混合部32に
おいて、第3図で説明した音素標準パターン作成過程で
作成され、音声データベース格納部31に格納されたノ
イズのないクリーンな音声データベースと、上記ノイズ
データベース30とを指定された比で混合し、ノイズ付
加音声データベース33を作成する。次に、上記ノイズ
付加音声データに対し、音響分析部34において音響分
析を行ない、特徴パラメータを抽出する。次に、標準パ
ターン作成部36において、第3図で説明した音素標準
パターン作成過程で作成され、ラベリングデータベース
格納部35に格納されたラベリングデータベースと、上
記音響分析部34で抽出された特徴パラメータとを用い
、LPCケプストラム係数を特徴パラメータとしたノイ
ズ付加音素標準パターン37を作成する。
このようにして作成されたノイズ付加音素標準パターン
37を第2図で説明した音素判別部13における音素判
別に用いることにより、ノイズに適合した音声認識を行
なうことができる。
発明が解決しようとする課題 上記のように音声認識システムの実用化に際しては、認
識される音声が環境から受ける影響を低減する認識アル
ゴリズムが必要になる。特に、環境ノイズは認識率の低
下の最も大きい要因であり、音響分析におけるノイズ対
策は必須である。しかし、環境ノイズは、その環境や時
間によって様々なパワーと周波数成分を持つので、それ
ぞれに対する適応が容易でない。また、LPCケプスト
ラム係数を特徴パラメータとしているため、ノイズ成分
の扱いが難しくなっている。そのため、従来の音素認識
システムにおける音素標準パターンの環境ノイズ適合法
としては、その環境ノイズを付加した音素標準パターン
を作成して音素認識に用いるという方法が認識率向上に
最も有効なものであった。しかし、ノイズ付加音素標準
パターンを作成するためには、その環境ノイズを収録し
、それを音声データに付加したものを多人数・多数語に
ついて収集し、その音声データから音声データベースを
作り、その音声データベースから音素標準パターンを作
成するという大変労力と時間のかかるデータ処理を行な
わなくてはならない。また、いくつかの環境ノイズを付
加した音素標準パターンを格納しておき、認識時にその
中から最も適した音素標準パターンを選択して音素認識
に使用するという方法も考えられるが、ノイズのパワー
スペクトル上にピークがある場合などを含めると、それ
だけではすべての環境ノイズに対して対応することはで
きない。まだ、実環境で用いられる音声認識装置に組み
込むということを考えると、認識時の環境ノイズ学習に
よって音素標準パターンのノイズ適合を行なうことが望
ましい。
本発明は、上記のような従来技術の課題を解決するもの
であり、認識時における短時間の環境ノイズ学習によっ
て標準パターンをその環境ノイズに適合するように変形
し、その標準パターンをマツチングに使用することによ
り、環境ノイズに適合、しだ音声認識を行なうことがで
き、したがって、認識率の向上を図ることができるよう
にした音声認識方法を提供することを目的とするもので
ある。
課題を解決するだめの手段 上記課題を解決するだめの本発明の技術的手段は、認識
時の環境ノイズを音響分析して得られた平均的なノイズ
の周波数的特徴を表わす自己相関係数のベクトルと、音
声の標準パターンに対応する自己相関係数のベクトルと
を加算して新たな自己相関係数を得、この新たな自己相
関係数のベクトルから導かれる標準パターンをマツチン
グに用いることによシ音声認識を行なうようにしたもの
である。
そして、上記音声認識が音素を認識の基本単位とし、上
記自己相関係数のベクトルの加算の割合を、ノイズ環境
において発声された基準音声から算出しだS/N比をも
とに、複数のノイズ付加音声データの音素別S/N比を
分析することによって得られる音声データと各音素との
S/N比の関係が格納されている音素別S/N化対応表
の値を参照して算出し、また、上記標準パターンが線型
予測係数から導かれるLPCケプストラム係数を特徴パ
ラメータとする音素標準パターンであり、上記マツチン
グが音素標準パターンを用いた音素マツチングであるの
が好ましい。
作用 しだがりで、本発明によれば、様々な性質を持つ環境ノ
イズの平均的な周波数的特徴を標準パターンに直接混合
するので、標準パターンの環境ノイズ適合を認識時の短
時間のノイズ学習によって容易に実現することができ、
そして、その環境ノイズに適合した標準パターンをマツ
チングに使用することにより環境ノイズに適合した音声
認識を行なうことができる。
実施例 以下、本発明の実施例について図面を参照しながら説明
する。
第1図は本発明の一実施例における音声認識方法を具現
化する機能ブロック図である。
第1図に示すように、まず、認識時において、環境ノイ
ズを含む基準音声データ1を短時間入力する。この基準
音声データに対し、音響分析部2において、ノイズのみ
の区間と音声が含まれている区間に分離して音響分析を
行ない、ノイズ区間からノイズの平均的な周波数的特徴
を表わす自己相関係数ベクトル3を算出すると共に、音
声のパワーとノイズ区間のパワー比からS/N比4を算
出する。算出されたS/N比4をもとに、混合比算出部
5において、音素別S/N化対応表6を参照し、ノイズ
の自己相関係数ベクトルと音声の自己相関係数ベクトル
を混合する比を算出する。この音素別S/N化対応表6
は、様々なノイズレベルのノイズ付加音声データを分析
することによってそれぞれの音素別局所的S/N比を得
、得られた音素別局所的S/N比を格納している。
上記混合比算出部5において混合比を算出するには、音
素別S/N化対応表6に格納した複数の音素別局所的S
/N比の中から、音響分析部2において算出した基準音
声のS/N比4に最も近いS/N比のノイズ付加音声デ
ータの音素別局所的S/N比を2つ選択する。そして、
この2つの値の間を線形補間することによって混合比の
算出を行なう。
自己相関係数演算部7では、音素標準パターン格納部8
に格納された音素標準パターンに対する自己相関係数ベ
クトルと、音響分析部2において算出したノイズの平均
的な周波数的特徴を表わす自己相関係数ベクトル3とを
、混合比算出部5で算出された混合比で加算して新たな
自己相関係数を得、この新たに得られた自己相関係数か
ら新音素標準パターン9を導く。そして、この新音素標
準パターンを第2図に示す音声認識システムの音素判別
部13における音素マツチングに用いることにより、ノ
イズに適合した音声認識を実現することができ、その手
順は上記従来例と同様であるので、その説明を省略する
次に、音素判別に、上記ノイズ適合法で作成される音素
標準パターンを用いた場合の効果を示すために音素識別
実験を行ない、その評価した結果について説明する(た
だし、本実施例において示す音素識別実験結果は、ノイ
ズレベルを前音声区間について一様に指定する方法につ
いての実験結果である。)。
評価条件は次の通りである。評価対象音素群は母音・鼻
音群と語中子音群(有声子音/M、N。
*、B、D、R,Z/、摩擦音/Z、S、H/)である
。評価対象話者は男女者10人(計20人)であり、特
に、語中子音については、オープンの評価をするために
、−人一人の評価に用いる音素標準パターンをその評価
対象話者を除いた19人で作成した。評価データとして
用いるノイズ付加音声データは、母音・鼻音については
「疑似HOTHノイズ(−6dBloct )付加音声
データ」、語中子音については「展示会の実環境ノイズ
付加音声データ」であり、ノイズレベルは両方ともS/
N比で15dBである。
上記の条件に基づいて、ノイズの入っていないクリーン
な音素標準パターンに上記ノイズ適合法を適用すること
によって導かれた新たな音素標準パターンを用いて評価
を行なった。また、この実験では評価するノイズ付加音
声データの全体のS/N比を基準音声のSlN比とする
ことによシ基準音声を省略した。ノイズの平均的な周波
数的特徴を表わす自己相関係数ベクトルは、約10秒間
のノイズのみのデータを分析することによって求めた。
次の第1ないし第3表は比較例1であるノイズの入って
いないクリーンな音素標準パターンで評価した結果と、
比較例2であるノイズ付加音声データから作成した音素
標準パターンで評価した結果と、本発明実施例によるノ
イズ適合により得られた音素標準パターンで評価した結
果を表わしたものである。
第3表 (摩擦音) (単位チ) 上記識別(判別)結果からも明らかなように、本発明実
施例によるノイズ適合法を用いることによシ、比較例2
のノイズ付加音素標準パターンの識別率には及ばないも
のの、識別率が改善されていることがわかる。比較例1
と2の識別率の差を100%としたとき、本発明実施例
が改善した識別率の割合は、第1表で示す母音・鼻音が
57.5乞語中子音でも第2表で示す有声子音が65.
5 %〜56.7チ、第3表で示す摩擦音が73.4%
〜91.7チ改善され、短時間のノイズ学習でありなが
らも、大きい効果がある事を示している。
このように上記実施例によれば、自己相関係数の演算に
より、様々な性質を持つ環境ノイズに適合した音素標準
パターンを認識時の短時間のノイズ学習によって容易に
得ることができ、その音素標準パターンを音素識別部に
おける音素マツチングに使用することにより、環境ノイ
ズに適合した音声認識を行なうことができ、これにより
認識率を向上させることができる。
発明の効果 以上述べたように本発明によれば、様々な性質を持つ環
境ノイズの平均的な周波数的特徴を標準パターンに直接
混合するので、標準パターンの環境ノイズ適合を認識時
の短時間のノイズ学習によって容易に実現することがで
き、そして、その環境ノイズに適合した標準パターンを
マツチングに使用することによシ環境ノイズに適合した
音声認識を行なうことができ、したがって、認識率を向
上させることができる。
【図面の簡単な説明】
第1図は本発明の一実施例における音声認識方法を具現
化する機能ブロック図、第2図は従来の音声認識システ
ムを示す機能ブロック図、第3図は従来の音素標準パタ
ーン作成システムを示す機能ブロック図、M4図は従来
のノイズ付加音素標準パターン作成システムを示す機能
ブロック図である。 2・・・音響分析部、5・・・混合比演算部、6・・・
音素別S/N比対応表、7・・・自己相関係数演算部、
8・・・標準パターン格納部。

Claims (3)

    【特許請求の範囲】
  1. (1)認識時の環境ノイズを音響分析して得られた平均
    的なノイズの周波数的特徴を表わす自己相関係数のベク
    トルと、音声の標準パターンに対応する自己相関係数の
    ベクトルとを加算して新たな自己相関係数を得、この新
    たな自己相関係数のベクトルから導かれる標準パターン
    をマッチングに用いることにより音声認識を行なうこと
    を特徴とする音声認識方法。
  2. (2)音声認識が音素を認識の基本単位とし、自己相関
    係数のベクトルの加算の割合を、ノイズ環境において発
    声された基準音声から算出したS/N比をもとに、複数
    のノイズ付加音声データの音素別S/N比を分析するこ
    とによって得られる音声データと各音素とのS/N比の
    関係が格納されている音素別S/N比対応表の値を参照
    して算出することを特徴とする請求項1記載の音声認識
    方法。
  3. (3)標準パターンが線型予測係数から導かれるLPC
    ケプストラム係数を特徴パラメータとする音素標準パタ
    ーンであり、マッチングが音素標準パターンを用いた音
    素マッチングであることを特徴とする請求項1または2
    記載の音声認識方法。
JP1249535A 1989-09-26 1989-09-26 音声認識方法 Expired - Lifetime JP2658426B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP1249535A JP2658426B2 (ja) 1989-09-26 1989-09-26 音声認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1249535A JP2658426B2 (ja) 1989-09-26 1989-09-26 音声認識方法

Publications (2)

Publication Number Publication Date
JPH03110599A true JPH03110599A (ja) 1991-05-10
JP2658426B2 JP2658426B2 (ja) 1997-09-30

Family

ID=17194434

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1249535A Expired - Lifetime JP2658426B2 (ja) 1989-09-26 1989-09-26 音声認識方法

Country Status (1)

Country Link
JP (1) JP2658426B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002366192A (ja) * 2001-06-08 2002-12-20 Nec Corp 音声認識方法及び音声認識装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5823098A (ja) * 1981-08-03 1983-02-10 日本電信電話株式会社 音声認識装置
JPS5844500A (ja) * 1981-09-11 1983-03-15 シャープ株式会社 音声認識方式
JPS612960A (ja) * 1984-05-24 1986-01-08 ホエルマン カーゲー アントリープス ウント シユトイエルングステヒニク 回転運動を直線運動に変換するギア装置
JPS6265088A (ja) * 1985-09-17 1987-03-24 株式会社リコー 不特定話者用音声認識装置
JPH01138595A (ja) * 1987-11-26 1989-05-31 Fujitsu Ltd 単語音声認識装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5823098A (ja) * 1981-08-03 1983-02-10 日本電信電話株式会社 音声認識装置
JPS5844500A (ja) * 1981-09-11 1983-03-15 シャープ株式会社 音声認識方式
JPS612960A (ja) * 1984-05-24 1986-01-08 ホエルマン カーゲー アントリープス ウント シユトイエルングステヒニク 回転運動を直線運動に変換するギア装置
JPS6265088A (ja) * 1985-09-17 1987-03-24 株式会社リコー 不特定話者用音声認識装置
JPH01138595A (ja) * 1987-11-26 1989-05-31 Fujitsu Ltd 単語音声認識装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002366192A (ja) * 2001-06-08 2002-12-20 Nec Corp 音声認識方法及び音声認識装置

Also Published As

Publication number Publication date
JP2658426B2 (ja) 1997-09-30

Similar Documents

Publication Publication Date Title
Shrawankar et al. Techniques for feature extraction in speech recognition system: A comparative study
Tiwari MFCC and its applications in speaker recognition
CA2098629C (en) Speech recognition method using time-frequency masking mechanism
Vergin et al. Generalized mel frequency cepstral coefficients for large-vocabulary speaker-independent continuous-speech recognition
Milner et al. Prediction of fundamental frequency and voicing from mel-frequency cepstral coefficients for unconstrained speech reconstruction
CN110663080A (zh) 通过频谱包络共振峰的频移动态修改语音音色的方法和装置
Rajan et al. Two-pitch tracking in co-channel speech using modified group delay functions
Hsieh et al. Robust speech features based on wavelet transform with application to speaker identification
Chadha et al. Optimal feature extraction and selection techniques for speech processing: A review
Motlıcek Feature extraction in speech coding and recognition
Deiv et al. Automatic gender identification for hindi speech recognition
JP2011081324A (ja) ピッチ・クラスター・マップを用いた音声認識方法
JPS60114900A (ja) 有音・無音判定法
Prakash et al. Fourier-Bessel based Cepstral Coefficient Features for Text-Independent Speaker Identification.
JPH03110599A (ja) 音声認識方法
Mufungulwa et al. Enhanced running spectrum analysis for robust speech recognition under adverse conditions: A case study on japanese speech
Sahu et al. Significance of filterbank structure for capturing dysarthric information through cepstral coefficients
Nosan et al. Enhanced Feature Extraction Based on Absolute Sort Delta Mean Algorithm and MFCC for Noise Robustness Speech Recognition.
Pols Analysis and synthesis of speech using a broad-band spectral representation
JPS6148898A (ja) 音声の有声無声判定装置
JPH1097288A (ja) 背景雑音除去装置及び音声認識装置
Mut et al. Improved Weighted Matching for Speaker Recognition.
Tan et al. Speech feature extraction and reconstruction
Motlıcek Modeling of Spectra and Temporal Trajectories in Speech Processing
Suba et al. Analysing the performance of speaker identification task using different short term and long term features

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080606

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090606

Year of fee payment: 12

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100606

Year of fee payment: 13

EXPY Cancellation because of completion of term
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100606

Year of fee payment: 13